JP2015143805A - 雑音抑圧装置、雑音抑圧方法、及びプログラム - Google Patents

雑音抑圧装置、雑音抑圧方法、及びプログラム Download PDF

Info

Publication number
JP2015143805A
JP2015143805A JP2014017570A JP2014017570A JP2015143805A JP 2015143805 A JP2015143805 A JP 2015143805A JP 2014017570 A JP2014017570 A JP 2014017570A JP 2014017570 A JP2014017570 A JP 2014017570A JP 2015143805 A JP2015143805 A JP 2015143805A
Authority
JP
Japan
Prior art keywords
signal
extraction
observation signal
observation
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014017570A
Other languages
English (en)
Other versions
JP6270208B2 (ja
Inventor
伸行 浅野
Nobuyuki Asano
伸行 浅野
造 田邉
Tsukuru Tanabe
造 田邉
利博 古川
Toshihiro Furukawa
利博 古川
隆廣 名取
Takahiro Natori
隆廣 名取
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Tokyo University of Science
Original Assignee
Brother Industries Ltd
Tokyo University of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd, Tokyo University of Science filed Critical Brother Industries Ltd
Priority to JP2014017570A priority Critical patent/JP6270208B2/ja
Publication of JP2015143805A publication Critical patent/JP2015143805A/ja
Application granted granted Critical
Publication of JP6270208B2 publication Critical patent/JP6270208B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】複数のチャネル間でボーカル信号等の雑音に偏りがあっても、観測信号から雑音を適切に抑圧することができる。
【解決手段】制御部1は、左観測信号xL(n)から抽出した左音声帯域信号sL(n)についての左音声特徴量Ψ[sL(n)]の大きさに応じて左推定ボーカル信号d^L(n)を推定する。また、制御部1は、右観測信号xR(n)から抽出した右音声帯域信号sR(n)についての右音声特徴量Ψ[sR(n)]の大きさに応じて右推定ボーカル信号d^R(n)を推定する。そして、制御部1は、左推定ボーカル信号d^L(n)に基づいて算出した左分散値σ dLと、右推定ボーカル信号d^R(n)に基づいて算出した右分散値σ dRと、楽曲信号を駆動源として含む状態空間モデルに基づく予測法を用いて、左観測信号xL(n)と右観測信号xR(n)とからボーカル音を抑圧する処理を実行する。
【選択図】図1

Description

本発明は、少なくとも2チャネルから入力され、雑音が混在した観測信号から、音声信号を駆動源として含む状態空間モデルに基づく予測法を用いて、観測信号から雑音を抑圧する雑音抑圧装置、方法、及びプログラムに関する。
従来、多チャネルの入力信号に含まれる特定の信号を抑圧する技術が知られている。例えば、特許文献1に開示された多チャネル信号処理装置は、左チャネル及び右チャネルから入力された各観測信号を周波数領域の観測スペクトルに変換し、その観測スペクトルの比に基づいて推定したボーカル信号と、前記観測信号とに、有色駆動源付カルマンフィルタを適用するように構成される。これにより、多チャネル信号処理装置では、観測信号からボーカル信号を雑音として抑圧して楽曲信号を推定している。
特開2013−201722号公報
ところで、特許文献1に開示された従来技術では、設置された左右のマイクに対して、ボーカル(歌唱者)により発せられたボーカル音がボーカル信号として左右偏り無く入力されると仮定している。つまり、従来技術では、左右のマイクの中央付近をボーカル音の音源位置とすることを前提としている。このため、ボーカルが左右のマイクのどちらかに偏って定位する場合、左チャネルのボーカル信号と右チャネルのボーカル信号とに偏りが生じることになる。この場合、従来技術では、観測信号からボーカル信号を適切に抑圧することは困難であった。
そこで、本発明は、複数のチャネル間でボーカル信号等の雑音に偏りがあっても、観測信号から雑音を適切に抑圧することが可能な雑音抑圧装置、雑音抑圧方法及びプログラムを提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、少なくとも2チャネルから入力され、雑音が混在した観測信号から、音声信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記観測信号から前記雑音を抑圧する雑音抑圧装置であって、少なくとも第1チャネル及び第2チャネルから入力された第1観測信号及び第2観測信号を取得する取得手段と、所定の特定帯域における前記第1観測信号から第1抽出信号を抽出し、且つ、前記特定帯域における前記第2観測信号から第2抽出信号を抽出する抽出手段と、前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定する第1決定手段と、前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段の第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段の第2抽出度合を決定する第2決定手段と、前記第1抽出度合が決定された前記第1抽出手段の適用により前記第1観測信号から抽出された第3抽出信号に基づいて第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2抽出手段の適用により前記第2観測信号から抽出された第4抽出信号に基づいて第2分散値を決定する第3決定手段と、前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから雑音を抑圧する処理を実行する処理手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の雑音抑圧装置において、前記取得手段は、前記第1チャネルのマイクから入力された第1観測信号と、前記第2チャネルのマイクから入力された第2観測信号とを取得し、前記抽出手段は、人の音声帯域の信号を通過する音声帯域フィルタを用いて、人により発せられた第1ボーカル音に対応する第1抽出信号を抽出し、且つ、前記人により発せられた第2ボーカル音に対応する第2抽出信号を抽出し、前記第1決定手段は、前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定し、前記第2決定手段は、前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段としての第1バンドパスフィルタの第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段としての第2バンドパスフィルタの第2抽出度合を決定し、前記第3決定手段は、前記第1抽出度合が決定された前記第1バンドパスフィルタの適用により前記第1観測信号から抽出された第3抽出信号に基づいて前記第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2バンドパスフィルタの適用により前記第2観測信号から抽出された第4抽出信号に基づいて前記第2分散値を決定し、前記処理手段は、前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから前記第1ボーカル音と前記第2ボーカル音とを抑圧する処理を実行することを特徴とする。
請求項3に記載の発明は、請求項1または2に記載の雑音抑圧装置において、前記第2決定手段は、前記第1特徴量と前記第2特徴量との大小関係に応じて、前記第1抽出度合及び前記第2抽出度合を決定することを特徴とする。
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の雑音抑圧装置において、前記第1特徴量と前記第2特徴量に所定の差がある場合であって、前記第1特徴量よりも前記第2特徴量が大きい場合、前記第2決定手段は、前記第1観測信号に適用する第1抽出手段の第1抽出度合よりも、前記第2観測信号に適用する第2抽出手段の第2抽出度合を大きく決定し、前記第1特徴量と前記第2特徴量に所定の差がある場合であって、前記第1特徴量よりも前記第2特徴量が小さい場合、前記第2決定手段は、前記第1観測信号に適用する第1抽出手段の第1抽出度合よりも、前記第2観測信号に適用する第2抽出手段の第2抽出度合を小さく決定することを特徴とする。
請求項5に記載の発明は、請求項4に記載の雑音抑圧装置において、前記第1特徴量と前記第2特徴量に所定の差がない場合、前記第2決定手段は、前記第1観測信号に適用する第1抽出手段の第1抽出度合と、前記第2観測信号に適用する第2抽出手段の第2抽出度合として、所定の抽出度合を決定することを特徴とする。
請求項6に記載の発明は、少なくとも2チャネルから入力され、雑音が混在した観測信号から、音声信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記観測信号から前記雑音を抑圧するコンピュータに、少なくとも第1チャネル及び第2チャネルから入力された第1観測信号及び第2観測信号を取得するステップと、所定の特定帯域における前記第1観測信号から第1抽出信号を抽出し、且つ、前記特定帯域における前記第2観測信号から第2抽出信号を抽出するステップと、前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定するステップと、前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段の第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段の第2抽出度合を決定するステップと、前記第1抽出度合が決定された前記第1抽出手段の適用により前記第1観測信号から抽出された第3抽出信号に基づいて第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2抽出手段の適用により前記第2観測信号から抽出された第4抽出信号に基づいて第2分散値を決定するステップと、前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから雑音を抑圧する処理を実行するステップと、を実行させるプログラムである。
請求項7に記載の発明は、少なくとも2チャネルから入力され、雑音が混在した観測信号から、音声信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記観測信号から前記雑音を抑圧する雑音抑圧装置により実行される雑音抑圧方法であって、少なくとも第1チャネル及び第2チャネルから入力された第1観測信号及び第2観測信号を取得するステップと、所定の特定帯域における前記第1観測信号から第1抽出信号を抽出し、且つ、前記特定帯域における前記第2観測信号から第2抽出信号を抽出するステップと、前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定するステップと、前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段の第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段の第2抽出度合を決定するステップと、前記第1抽出度合が決定された前記第1抽出手段の適用により前記第1観測信号から抽出された第3抽出信号に基づいて第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2抽出手段の適用により前記第2観測信号から抽出された第4抽出信号に基づいて第2分散値を決定するステップと、前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから雑音を抑圧する処理を実行するステップと、を含むことを特徴とする。
請求項1、6及び7に記載の発明によれば、複数のチャネル間で雑音に偏りがあっても、観測信号から雑音を適切に抑圧することができる。
請求項2に記載の発明によれば、複数のチャネル間でボーカル信号に偏りがあっても、観測信号からボーカル音を適切に抑圧することができる。
請求項3に記載の発明によれば、第1観測信号と第2観測信号とから、複数のチャネル間での雑音の偏りが反映された第3抽出信号と第4抽出信号の抽出精度を高めることができる。
請求項4に記載の発明によれば、第1特徴量と第2特徴量との大小関係に応じて、第1抽出手段の第1抽出度合と、第2抽出手段の第2抽出度合とを適正に設定することができる。
請求項5に記載の発明によれば、第1特徴量と第2特徴量に所定の差がない場合、第1抽出手段の第1抽出度合と、第2抽出手段の第2抽出度合とを同じ度合に設定することができる。
(A)は、本実施形態の端末装置Sの概要構成例を示す図である。(B)は、制御部1が雑音抑圧処理を実行する際の機能ブロックの一例を示す図である。 観測信号の観測状況を説明するための概念図である。 左音声帯域信号及び左TEO値と、右音声帯域信号及び右TEO値との比較例を示す図である。 左TEO値と右TEOとの大小関係に応じた定位情報の一例を示す概念図である。 定位情報と重み係数との関係を示す概念図である。 定位情報と重み係数との関係を示す概念図である。 定位情報と重み係数との関係を示す概念図である。 観測信号を状態空間モデルに置き換えたときの概念図である。 左楽曲信号及び右楽曲信号を適用した状態方程式と、左観測信号及び右観測信号を適用した観測方程式の一例を示す図である。 制御部1により実行される雑音抑圧処理の一例を示すフローチャートである。 制御部1により実行される雑音抑圧処理の一例を示すフローチャートである。
以下、本発明の実施形態を図面に基づいて説明する。なお、以下に説明する実施形態は、本発明を端末装置に適用した場合の実施形態である。
始めに、図1等を参照して、本実施形態の端末装置の構成及び動作概要について説明する。図1(A)は、本実施形態の端末装置Sの概要構成例を示す図である。なお、端末装置Sの例として、携帯電話機、スマートフォン、カラオケ端末、パーソナルコンピュータ等がある。端末装置Sは、有線又は無線によりネットワークを介して所定のサーバにアクセス可能であってもよい。
図1(A)に示すように、本実施形態の端末装置Sは、制御部1、記憶部2、左チャネル入力処理部3a、右チャネル入力処理部3b、左チャネル出力処理部4a、及び右チャネル出力処理部4b等を含んで構成される。なお、端末装置Sには、図示しないが、ユーザの操作指示を入力する操作部、及びネットワークに接続するための通信部が備えられる場合もある。また、本実施形態では、左チャネルと右チャネルの2チャネルから入力される観測信号を例にとって説明する。左チャネルは、第1チャネルの一例である。また、右チャネルは、第2チャネルの一例である。
図2は、観測信号の観測状況を説明するための概念図である。図2に示すように、左チャネルの左マイクから入力される左観測信号xL(n)は、時刻nにおいて、左ボーカル信号dL(n)と左楽曲信号iL(n)とが混在する信号である。一方、右チャネルの右マイクから入力される右観測信号xR(n)は、時刻nにおいて、右ボーカル信号dR(n)と右楽曲信号iR(n)とが混在する信号である。左観測信号xL(n)は、第1観測信号の一例である。右観測信号xR(n)は、第2観測信号の一例である。ボーカル信号dL(n),dR(n)は、ボーカルである人により発せられたボーカル音に対応する音声信号である。一方、楽曲信号iL(n),iR(n)は、楽器等から出力された楽曲音に対応する音声信号である。観測信号xL(n),xR(n)は、それぞれ、下記(1)式及び(2)式で表される。
本実施形態では、ボーカル音は、後述する雑音抑圧処理により雑音として抑圧される。図2の例では、ボーカルが右マイク側に偏って定位するため、左ボーカル信号dL(n)と右ボーカル信号dR(n)との間で偏りが生じることになる。本実施形態では、このような状況であっても、観測信号から雑音を適切に抑圧することができる。
制御部1は、CPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等により構成される。制御部1は、本発明の雑音抑圧装置及びコンピュータの一例である。制御部1(CPU)は、記憶部2に記憶されているプログラムに従って、雑音抑圧処理等の各種処理を実行する。この雑音抑圧処理により、観測信号から、ボーカル信号及び楽曲信号が推定される。このように、観測信号から推定される楽曲信号を、以下、推定楽曲信号という。また、観測信号から推定されるボーカル信号を、以下、推定ボーカル信号という。
記憶部2は、例えばハードディスクドライブ等により構成される。記憶部2には、例えばオペレーティングシステム、及び雑音抑圧処理を制御部1に実行させる本発明のプログラム等が記憶される。また、記憶部2には、楽曲データが保存される。楽曲データは、雑音抑圧処理によりボーカル音が抑圧された観測信号からなるデータである。また、記憶部2には、雑音抑圧処理によりボーカル音が抑圧されていない観測信号からなる楽曲データが保存される場合もある。例えば、端末装置S以外の録音機器により記録された楽曲データが、端末装置Sへ転送されて保存される場合がある。
左チャネル入力処理部3a及び右チャネル入力処理部3bは、それぞれ、A/D変換器等を備える。左チャネル入力処理部3aは、左マイクから入力された左観測信号xL(n)をアナログ信号からディジタル信号に変換する。そして、左チャネル入力処理部3aは、ディジタル信号に変換した左観測信号xL(n)を制御部1へ出力する。右チャネル入力処理部3bは、右マイクから入力された右観測信号xR(n)をアナログ信号からディジタル信号に変換する。そして、右チャネル入力処理部3bは、ディジタル信号に変換した右観測信号xR(n)を制御部1へ出力する。
左チャネル出力処理部4a及び右チャネル出力処理部4bは、それぞれ、D/A変換器及びアンプ等を備える。左チャネル出力処理部4aは、制御部1から出力された左推定楽曲信号i^L(n)をディジタル信号からアナログ信号に変換する。そして、左チャネル出力処理部4aは、ディジタル信号に変換した左推定楽曲信号i^L(n)を増幅して左チャネルの左スピーカへ出力する。一方、右チャネル出力処理部4bは、制御部1から出力された右推定楽曲信号i^R(n)をディジタル信号からアナログ信号に変換する。そして、右チャネル出力処理部4bは、ディジタル信号に変換した右推定楽曲信号i^R(n)を増幅して右チャネルの右スピーカへ出力する。
図1(B)は、制御部1が雑音抑圧処理を実行する際の機能ブロックの一例を示す図である。図1(B)に示すように、制御部1は、音声帯域抽出係数決定部11、左チャネル音声帯域抽出部12a、右チャネル音声帯域抽出部12b、左チャネル音声特徴量算出部13a、右チャネル音声特徴量算出部13b、定位情報算出部14、音声信号抽出重み係数算出部15、左チャネル音声信号抽出部16a、右チャネル音声信号抽出部16b、左チャネル音声信号分散値算出部17a、右チャネル音声信号分散値算出部17b、楽曲信号推定部18等を含んで構成される。ここで、左チャネル音声帯域抽出部12a及び右チャネル音声帯域抽出部12bは、本発明の取得手段及び抽出手段の一例である。左チャネル音声特徴量算出部13a及び右チャネル音声特徴量算出部13bは、本発明の第1決定手段の一例である。音声信号抽出重み係数算出部15は、本発明の第2決定手段の一例である。左チャネル音声信号分散値算出部17a及び右チャネル音声信号分散値算出部17bは、本発明の第3決定手段の一例である。楽曲信号推定部18は、本発明の処理手段の一例である。なお、本実施形態では、図1(B)に示す各構成部位をソフトウェアにより実現した。しかし、図1(B)に示す各構成部位の全部又は一部を半導体集積回路等のハードウェアにより構成してもよい。
左チャネル音声帯域抽出部12aは、左チャネルから入力された左観測信号xL(n)を取得する。例えば、左チャネル音声帯域抽出部12aは、左チャネル入力処理部3aから出力された左観測信号xL(n)を取得する。そして、左チャネル音声帯域抽出部12aは、人の音声帯域における左観測信号xL(n)から、音声帯域信号を抽出するための係数を用いて、左音声帯域信号sL(n)を抽出する。人の音声帯域は、所定の特定帯域の一例である。左音声帯域信号sL(n)は、第1ボーカル音に対応する第1抽出信号の一例である。一方、右チャネル音声帯域抽出部12bは、右チャネルから入力された右観測信号xR(n)を取得する。例えば、右チャネル音声帯域抽出部12bは、右チャネル入力処理部3bから出力された右観測信号xR(n)を取得する。そして、右チャネル音声帯域抽出部12bは、人の音声帯域における右観測信号xR(n)から、音声帯域信号を抽出するための係数を用いて、右音声帯域信号sR(n)を抽出する。右音声帯域信号sR(n)は、第2ボーカル音に対応する第2抽出信号の一例である。
また、音声帯域信号を抽出するための係数の例として、例えば、人の音声帯域の信号を通過する音声帯域フィルタがある。このような音声帯域フィルタには、例えば、Gaborフィルタやバンドパスフィルタ(BPF)がある。本実施形態では、特に、Gaborフィルタを用いる。Gaborフィルタは、最適な時間−周波数識別性を有する帯域通過フィルタである。Gaborフィルタg(n)は、下記(3)式で表される。
ここで、ω0は、中心周波数を示す。γは、帯域幅を示す。Gaborフィルタが用いられる場合、音声帯域抽出係数決定部11が、中心周波数ω0と帯域幅γを、人の声の成分が集中するフォルマント帯域に基づいて決定する。フォルマント帯域は、例えば人の音声のスペクトルにおいてフォルマントと呼ばれる複数のピークの中の何れか1以上のピークに対応する周波数を含む帯域である。そして、音声帯域抽出係数決定部11は、中心周波数ω0と帯域幅γを用いてGaborフィルタg(n)を算出する。この場合、左チャネル音声帯域抽出部12aは、下記(4)式で表すように、Gaborフィルタg(n)と左観測信号xL(n)との畳み込み演算を行うことで左音声帯域信号sL(n)を抽出する。つまり、左チャネル音声帯域抽出部12aは、xL(n)を時間軸方向に平行移動しながらg(n)を積和演算してsL(n)を算出する。一方、右チャネル音声帯域抽出部12bは、下記(5)式で表すように、Gaborフィルタg(n)と右観測信号xR(n)との畳み込み演算を行うことで右音声帯域信号sR(n)を抽出する。
左チャネル音声特徴量算出部13aは、左チャネル音声帯域抽出部12aにより抽出された左音声帯域信号sL(n)についての左音声特徴量Ψ[sL(n)]を決定する。左音声特徴量Ψ[sL(n)]は、第1特徴量の一例である。一方、右チャネル音声特徴量算出部13bは、右チャネル音声帯域抽出部12bにより抽出された右音声帯域信号sR(n)についての右音声特徴量Ψ[sR(n)]を決定する。右音声特徴量Ψ[sR(n)]は、第2特徴量の一例である。ここで、人の発話時に声道内に渦が発生するが、この渦は非線形である。非線形な瞬時的エネルギーを反映する演算子として、TEO(Teager Energy Operator)がある。このようなTEOを用いれば、音声帯域内の楽曲信号成分に左右されないボーカル信号成分の特徴量を得ることができる。より具体的には、左チャネル音声特徴量算出部13aは、下記(6)式により左TEO値を算出する。左チャネル音声特徴量算出部13aは、このように算出した左TEO値を左音声特徴量Ψ[sL(n)]として決定する。一方、右チャネル音声特徴量算出部13bは、下記(7)式により右TEO値を算出する。右チャネル音声特徴量算出部13bは、このように算出した右TEO値を右音声特徴量Ψ[sR(n)]として決定する。
図3は、左音声帯域信号及び左TEO値と、右音声帯域信号及び右TEO値との比較例を示す図である。図3の例では、Gaborフィルタの実行条件として、中心周波数ω0を240Hzとし、帯域幅γを200Hzとした場合において抽出された左音声帯域信号sL(n)及び右音声帯域信号sR(n)を示している。また、図3に示す左TEO値Ψ[sL(n)]と右TEO値Ψ[sR(n)]とを比較すると、右TEO値Ψ[sR(n)]の方が左TEO値Ψ[sL(n)]よりも全体的に大きくなっている。これは、ボーカルが右マイク側に偏って定位していることを示している。
なお、上記例では、左チャネル音声特徴量算出部13a及び右チャネル音声特徴量算出部13bは、TEOにより音声特徴量を決定するように構成した。しかし、左チャネル音声特徴量算出部13a及び右チャネル音声特徴量算出部13bは、TEO以外の例えばケプストラム解析または自己相関手法等を用いて音声特徴量を決定するように構成してもよい。ケプストラム解析は、フォルマント帯域に絞って周波数解析を行うことで音声特徴量を決定する手法である。音声帯域信号は、声帯の振動や摩擦による乱流等の音源信号に、声道等の形状等によって決まる調音フィルタがたたみこまれたものであるということができる。ケプストラム解析によれば、音源信号と調音フィルタとを分離して調音フィルタの振幅伝達特性に基づき音声特徴量が決定される。自己相関手法は、観測信号または音声帯域信号の自己相関を計算することで音声特徴量を決定する手法である。自己相関手法によれば、観測信号または音声帯域信号に含まれる人の声の周期的なパターンに基づき音声特徴量が決定される。
定位情報算出部14は、左チャネル音声特徴量算出部13aにより決定された左音声特徴量Ψ[sL(n)]と、右チャネル音声特徴量算出部13bにより決定された右音声特徴量Ψ[sR(n)]とを用いて、ボーカルの定位情報v(n)を算出する。例えば、定位情報算出部14は、下記(8)式により定位情報v(n)を算出する。
ここで、−1≦v(n)≦1である。
図4は、左TEO値と右TEO値との大小関係に応じた定位情報の一例を示す概念図である。図4に示す例では、v(n)が1に近いほど、ボーカルが左マイク側に偏って定位し、v(n)が−1に近いほど、ボーカルが右マイク側に偏って定位していることがわかる。
音声信号抽出重み係数算出部15は、左音声特徴量Ψ[sL(n)]の大きさに応じて、左観測信号xL(n)に適用する左チャネルバンドパスフィルタ(BPF)の左重み係数GL(n)を算出する。左チャネルバンドパスフィルタ(BPF)は、第1抽出手段及び第1バンドパスフィルタの一例である。左チャネルバンドパスフィルタは、左観測信号xL(n)から、ボーカル帯域幅Wの信号を通過させるフィルタである。なお、ボーカル帯域幅Wは、例えば男性のボーカルと女性のボーカルとで異なるように設定されてもよい。左重み係数GL(n)は、第1抽出度合の一例である。左重み係数GL(n)は、左チャネルバンドパスフィルタのゲイン(dB)ともいう。音声信号抽出重み係数算出部15は、例えば、定位情報算出部14により算出された定位情報v(n)を用いることで、下記(9)式で表すように、左重み係数GL(n)を決定することができる。つまり、音声信号抽出重み係数算出部15は、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]との大小関係に応じて、左重み係数GL(n)を決定する。これにより、左チャネルと右チャネル間でのボーカル音の偏りが反映された左ボーカル信号と右ボーカル信号の抽出精度を高めることができる。
更に、音声信号抽出重み係数算出部15は、右音声特徴量Ψ[sR(n)]の大きさに応じて、右観測信号xR(n)に適用する右チャネルバンドパスフィルタ(BPF)の右重み係数GR(n)を算出する。右チャネルバンドパスフィルタ(BPF)は、第2抽出手段及び第2バンドパスフィルタの一例である。右チャネルバンドパスフィルタは、右観測信号xR(n)から、ボーカル帯域幅Wの信号を通過させるフィルタである。右重み係数GR(n)は、第2抽出度合の一例である。右重み係数GR(n)は、右チャネルバンドパスフィルタのゲイン(dB)ともいう。音声信号抽出重み係数算出部15は、例えば、定位情報算出部14により算出された定位情報v(n)を用いることで、下記(10)式で表すように、右重み係数GR(n)を決定することができる。つまり、音声信号抽出重み係数算出部15は、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]との大小関係に応じて、右重み係数GR(n)を決定する。
ここで、−α≦v(n)≦αは、ボーカルが定位する中央付近の範囲を示す。αは、例えば0.1〜0.3の間で設定される。v(n)が、この範囲にあるとき、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]とに所定の差がない、つまり、差が小さいことを意味する。一方、v(n)が、この範囲にないとき、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]とに所定の差があることを意味する。なお、(9)式及び(10)式によれば、左重み係数GL(n)と右重み係数GR(n)は、それぞれ、定位情報v(n)の大きさに応じて段階的に変化する。しかし、左重み係数GL(n)及び右重み係数GR(n)は、それぞれ、所定の関数により、例えばリニアに連続的に変化するように構成してもよい。
左チャネル音声信号抽出部16aは、左重み係数GL(n)が決定された左チャネルバンドパスフィルタを、左観測信号xL(n)に適用することにより、左推定ボーカル信号d^L(n)を抽出する。つまり、左観測信号xL(n)から左推定ボーカル信号d^L(n)が推定される。左推定ボーカル信号d^L(n)は、第3抽出信号の一例である。例えば、左チャネル音声信号抽出部16aは、下記(11)式で表すように、左観測信号xL(n)と左音声信号抽出係数hL(n)との畳み込み演算を行うことで左推定ボーカル信号d^L(n)を推定する。なお、左音声信号抽出係数hL(n)は、左重み係数GL(n)に基づいて算出される。一方、右チャネル音声信号抽出部16bは、右重み係数GR(n)が決定された右チャネルバンドパスフィルタを、右観測信号xR(n)に適用することにより、右推定ボーカル信号d^R(n)を抽出する。つまり、右観測信号xR(n)から右推定ボーカル信号d^R(n)が推定される。右推定ボーカル信号d^R(n)は、第4抽出信号の一例である。例えば、右チャネル音声信号抽出部16bは、下記(12)式で表すように、右観測信号xR(n)と右音声信号抽出係数hR(n)との畳み込み演算を行うことで右推定ボーカル信号d^R(n)を推定する。なお、右音声信号抽出係数hR(n)は、右重み係数GR(n)に基づいて算出される。
図5〜図7は、定位情報と重み係数との関係を示す概念図である。図5に示すように、ボーカルが左マイク側に偏って定位している場合、左重み係数GL(n)が大きく、右重み係数GR(n)が小さく決定されることになる。一方、図6に示すように、ボーカルが中央付近に定位している場合、左重み係数GL(n)と右重み係数GR(n)とは、ともに中程度に決定されることになる。一方、図7に示すように、ボーカルが右マイク側に偏って定位している場合、左重み係数GL(n)が小さく、右重み係数GR(n)が大きく決定されることになる。
左チャネル音声信号分散値算出部17aは、左重み係数GL(n)が決定された左チャネルバンドパスフィルタの適用により左観測信号xL(n)から抽出された左推定ボーカル信号d^L(n)に基づいて左分散値σ dLを算出する。左分散値σ dLは、第1分散値の一例である。例えば、左チャネル音声信号分散値算出部17aは、下記(13)式により左分散値σ dLを決定する。一方、右チャネル音声信号分散値算出部17bは、右重み係数GR(n)が決定された右チャネルバンドパスフィルタの適用により右観測信号xR(n)から抽出された右推定ボーカル信号d^R(n)に基づいて右分散値σ dRを算出する。右分散値σ dRは、第2分散値の一例である。例えば、右チャネル音声信号分散値算出部17bは、下記(14)式により右分散値σ dRを決定する。
ここで、Lは、分散値算出に使用するサンプル数を示す。
楽曲信号推定部18は、左分散値σ dLと右分散値σ dRと状態空間モデルに基づく予測法を用いて、左観測信号xL(n)と右観測信号xR(n)とからボーカル音を抑圧する処理を実行する。これにより、楽曲信号推定部18は、左推定楽曲信号i^L(n)と右推定楽曲信号i^R(n)とを推定する。なお、本実施形態の状態空間モデルは、楽曲信号を駆動源δ(n+1)として含む状態空間モデルである。つまり、駆動源δ(n+1)として有色信号を適用する。
図8は、観測信号を状態空間モデルに置き換えたときの概念図である。図8に示すように、状態空間モデルは、状態遷移過程と観測過程とからなる。状態遷移過程は、下記(15)式で表すように、状態方程式で表される。一方、観測過程は、下記(16)式で表すように、観測方程式で表される。ここで、i(n)は、時刻nまでの左楽曲信号と右楽曲信号からなる状態ベクトルである。Φは、状態遷移行列である。x(n)は、時刻nまでの左観測信号と右観測信号からなる状態ベクトルである。d(n)は、時刻nまでの左ボーカル信号と右ボーカル信号からなる状態ベクトルである。Mは、観測遷移行列である。
図9は、左楽曲信号及び右楽曲信号を適用した状態方程式と、左観測信号及び右観測信号を適用した観測方程式の一例を示す図である。楽曲信号推定部18は、このような状態方程式及び観測方程式より、左チャネル及び右チャネル結合型の状態空間モデルに基づく予測法を導出する。この予測法において、楽曲信号推定部18は、初期設定[Initialization]と、反復演算[Iteration]とを実行する。初期設定[Initialization]は、下記(17)〜(19)式に基づき実行される。
ここで、i^(0|0)は、推定楽曲信号の状態ベクトルの最適推定値の初期値を示す。P(0|0)は、推定楽曲信号の状態ベクトルを推定したときの誤差の共分散行列の初期値を示す。Iは、単位行列を示す。Rδ(n)[i,j]は、推定楽曲信号の分散行列を示す。Rε(n)[i,j]は、ボーカル信号の分散行列を示す。iは行を、jは列をそれぞれ示す。なお、推定楽曲信号の分散行列は、左観測信号の分散値から左ボーカル信号の分散値を差し引いたもの、及び右観測信号の分散値から右ボーカル信号の分散値を差し引いたものより構成される。
一方、反復演算[Iteration]は、下記(20)〜(24)式に基づき実行される。なお、反復演算[Iteration]1〜5の手順が繰り返される。
ここで、P(n+1|n)は、時刻nまでの推定楽曲信号からなる状態ベクトルにより、時刻n+1での推定楽曲信号の状態ベクトルを推定したときの誤差の共分散行列(以下、事前誤差共分散行列という)を示す。P(n|n)は、時刻nまでの推定楽曲信号からなる状態ベクトルにより、時刻nでの推定楽曲信号の状態ベクトルを推定したときの誤差の共分散行列(以下、事後誤差共分散行列という)を示す。K(n+1)は、状態空間モデルに基づく予測法におけるゲイン行列を示す。i ^(n+1|n)は、時刻nまでの推定楽曲信号からなる状態ベクトルにより推定される「時刻n+1での推定楽曲信号の状態ベクトルの推定値」(以下、事前状態推定値という)を示す。i ^(n+1|n+1)は、時刻n+1までの推定楽曲信号からなる状態ベクトルにより推定される「時刻n+1での推定楽曲信号の状態ベクトルの推定値」(以下、事後状態推定値という)を示す。
楽曲信号推定部18は、上記手順4により計算された推定楽曲信号の事後状態推定値i ^(n+1|n+1)の所定行所定列目を左推定楽曲信号i^L(n)として出力し、且つ、推定楽曲信号の事後状態推定値i ^(n+1|n+1) の所定行所定列目を右推定楽曲信号i^R(n)として出力する。
次に、図10及び図11を参照して、本実施形態の端末装置Sにおける雑音抑圧処理フローについて説明する。図10及び図11は、制御部1により実行される雑音抑圧処理の一例を示すフローチャートである。なお、図10に示す処理例では、音声帯域信号を抽出するための係数として、Gaborフィルタを用いる。図10に示す処理は、例えば端末装置Sのユーザからの開始指示に応じて開始される。
図10に示す処理において、左チャネル音声帯域抽出部12aは、左チャネルから入力された左観測信号xL(n)を取得する(ステップS1)。また、右チャネル音声帯域抽出部12bは、右チャネルから入力された右観測信号xR(n)を取得する(ステップS1)。なお、左観測信号xL(n)及び右観測信号xR(n)は、左チャネル入力処理部3a及び右チャネル入力処理部3bから入力される場合と、記憶部2に保存されている楽曲データが再生されて入力される場合とがある。この楽曲データは、ボーカル音が抑圧されていない観測信号からなる楽曲データである。
次いで、音声帯域抽出係数決定部11は、音声帯域抽出設定値として中心周波数ω0と帯域幅γを設定する(ステップS2)。音声帯域抽出設定値は、Gaborフィルタの設定値である。次いで、音声帯域抽出係数決定部11は、ステップS2で設定された中心周波数ω0と帯域幅γを用いて、上記(3)式に示すように、Gaborフィルタg(n)を算出する(ステップS3)。なお、ステップS2及びS3の処理は、初回のみ実行されるように構成してもよい。
次いで、左チャネル音声帯域抽出部12aは、ステップS3で算出されたGaborフィルタg(n)と、ステップS1で取得された左観測信号xL(n)との畳み込み演算を上記(4)式に示すように行うことで左音声帯域信号sL(n)を抽出する(ステップS4)。また、右チャネル音声帯域抽出部12bは、ステップS3で算出されたGaborフィルタg(n)と、ステップS1で取得された右観測信号xR(n)との畳み込み演算を上記(5)式に示すように行うことで右音声帯域信号sR(n)を抽出する(ステップS4)。
次いで、左チャネル音声特徴量算出部13aは、上記(6)式に示すように、ステップS4で抽出された左音声帯域信号sL(n)についての左音声特徴量Ψ[sL(n)]を算出する(ステップS5)。また、右チャネル音声特徴量算出部13bは、上記(7)式に示すように、ステップS4で抽出された右音声帯域信号sR(n)についての右音声特徴量Ψ[sR(n)]を算出する(ステップS5)。次いで、定位情報算出部14は、ステップS5で決定された左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]とを用いて、上記(8)式に示すように、定位情報v(n)を算出する(ステップS6)。
次いで、音声信号抽出重み係数算出部15は、ステップS6で算出された定位情報v(n)が、0.5より大きく1以下であるかを判定する(ステップS7)。定位情報v(n)が、0.5より大きく1以下であると判定された場合(ステップS7:YES)、ステップS8へ進む。一方、定位情報v(n)が、0.5より大きく1以下でないと判定された場合(ステップS7:NO)、ステップS9へ進む。ステップS8では、音声信号抽出重み係数算出部15は、左重み係数GL(n)=|v(n)|として決定し、且つ、右重み係数GR(n)=0として決定する。つまり、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]とに所定の差がある場合であって、左音声特徴量Ψ[sL(n)]よりも右音声特徴量Ψ[sR(n)]が小さい場合、音声信号抽出重み係数算出部15は、左重み係数GL(n)よりも右重み係数GR(n)を小さく決定する。これにより、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]との大小関係に応じて、左重み係数GL(n)と、右重み係数GR(n)とを適正に設定することができる。
ステップS9では、音声信号抽出重み係数算出部15は、ステップS6で算出された定位情報v(n)が、αより大きく0.5以下であるかを判定する。定位情報v(n)が、αより大きく0.5以下であると判定された場合(ステップS9:YES)、ステップS10へ進む。一方、定位情報v(n)が、αより大きく0.5以下でないと判定された場合(ステップS9:NO)、ステップS11へ進む。ステップS10では、音声信号抽出重み係数算出部15は、左重み係数GL(n)=|v(n)|+0.5として決定し、且つ、右重み係数GR(n)=|v(n)|−0.5として決定する。この場合も、左音声特徴量Ψ[sL(n)]よりも右音声特徴量Ψ[sR(n)]が小さいため、音声信号抽出重み係数算出部15は、左重み係数GL(n)よりも右重み係数GR(n)を小さく決定する。
ステップS11では、音声信号抽出重み係数算出部15は、ステップS6で算出された定位情報v(n)が、−αより大きくα以下であるかを判定する。定位情報v(n)が、−αより大きくα以下であると判定された場合(ステップS11:YES)、ステップS12へ進む。一方、定位情報v(n)が、−αより大きくα以下でないと判定された場合(ステップS11:NO)、ステップS13へ進む。ステップS12では、音声信号抽出重み係数算出部15は、左重み係数GL(n)=|v(n)|/2として決定し、且つ、右重み係数GR(n) =|v(n)|/2として決定する。つまり、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]とに所定の差がない場合、音声信号抽出重み係数算出部15は、左重み係数GL(n)と右重み係数GR(n)として、所定の同じ重み係数を決定する。これにより、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]とに所定の差がない場合、左重み係数GL(n)と、右重み係数GR(n)とを同じ度合に設定することができる。
ステップS13では、音声信号抽出重み係数算出部15は、ステップS6で算出された定位情報v(n)が、−0.5より大きく−α以下であるかを判定する。定位情報v(n)が、−0.5より大きく−α以下であると判定された場合(ステップS13:YES)、ステップS14へ進む。一方、定位情報v(n)が、−0.5より大きく−α以下でないと判定された場合(ステップS13:NO)、ステップS15へ進む。ステップS14では、音声信号抽出重み係数算出部15は、左重み係数GL(n)=|v(n)|−0.5として決定し、且つ、右重み係数GR(n)=|v(n)|+0.5として決定する。一方、ステップS15では、音声信号抽出重み係数算出部15は、左重み係数GL(n)=0として決定し、且つ、右重み係数GR(n)=|v(n)|として決定する。つまり、左音声特徴量Ψ[sL(n)]と右音声特徴量Ψ[sR(n)]とに所定の差がある場合であって、左音声特徴量Ψ[sL(n)]よりも右音声特徴量Ψ[sR(n)]が大きい場合、音声信号抽出重み係数算出部15は、左重み係数GL(n)よりも右重み係数GR(n)を大きく決定する。
次いで、左チャネル音声信号抽出部16aは、ステップS8、S10、S12、S14、またはS15で決定された左重み係数GL(n)に基づいて、左音声信号抽出係数hL(n)を算出する(ステップS16)。また、右チャネル音声信号抽出部16bは、ステップS8、S10、S12、S14、またはS15で決定された右重み係数GR(n)に基づいて、右音声信号抽出係数hR(n)を算出する(ステップS16)。
次いで、左チャネル音声信号抽出部16aは、ステップS1で取得された左観測信号xL(n)と、ステップS16で算出された左音声信号抽出係数hL(n)との畳み込み演算を上記(11)式に示すように行うことで左推定ボーカル信号d^L(n)を抽出する(ステップS17)。また、右チャネル音声信号抽出部16bは、ステップS1で取得された右観測信号xR(n)と、ステップS16で算出された右音声信号抽出係数hR(n)との畳み込み演算を上記(12)式に示すように行うことで右推定ボーカル信号d^R(n)を抽出する(ステップS17)。
次いで、図11に示すように、左チャネル音声信号分散値算出部17a及び右チャネル音声信号分散値算出部17bは、分散値算出に使用するサンプル数Lを決定する(ステップS18)。次いで、左チャネル音声信号分散値算出部17aは、上記(13)式に示すように、上記決定されたサンプル数Lの左推定ボーカル信号d^L(n)に基づいて左分散値σ dLを算出する(ステップS19)。また、右チャネル音声信号分散値算出部17bは、上記(14)式に示すように、上記決定されたサンプル数Lの右推定ボーカル信号d^R(n)に基づいて右分散値σ dRを算出する(ステップS19)。
次いで、楽曲信号推定部18は、上述した状態空間モデルに基づく予測法における初期設定[Initialization]を実行する(ステップS20)。初期設定[Initialization]において、楽曲信号推定部18は、推定楽曲信号の状態ベクトルの最適推定値の初期値i^(0|0)を0に初期化する。また、楽曲信号推定部18は、推定楽曲信号の状態ベクトルを推定したときの誤差の共分散行列の初期値P(0|0)をI2Lに初期化する。また、楽曲信号推定部18は、ステップS19で算出された左分散値σ dLと右分散値σ dRとを用いて、ボーカル信号の分散行列Rε(n)[i,j]を算出する。また、楽曲信号推定部18は、ボーカル信号の分散行列と同様に、上記サンプル数Lの左観測信号xL(n)及び右観測信号xR(n)に基づいて観測信号の分散値を算出する。そして、楽曲信号推定部18は、上記(18)式に示すように、観測信号の分散値からボーカル信号の分散値を差し引いた推定楽曲信号の分散行列Rδ(n)[i,j]を算出する。
次いで、楽曲信号推定部18は、上述した状態空間モデルに基づく予測法における反復演算[Iteration]を実行する。反復演算[Iteration]において、先ず、楽曲信号推定部18は、事後誤差共分散行列P(n|n)と、ステップS20で算出された推定楽曲信号の分散行列Rδ(n+1)[i,j]とを用いて、上記(20)式に示すように、事前誤差共分散行列P(n+1|n)を更新する(ステップS21)。次いで、楽曲信号推定部18は、ステップS21で更新された共分散行列P(n+1|n)と、ステップS20で算出されたボーカル信号の分散行列Rε(n)[i,j]とを用いて、上記(21)式に示すように、状態空間モデルに基づく予測法におけるゲイン行列K(n+1)を算出する(ステップS22)。ゲイン行列K(n+1)は、推定楽曲信号の事前状態推定値i ^(n+1|n)から、推定楽曲信号の事後状態推定値i ^(n+1|n+1)を推定するためのパラメータである。
次いで、楽曲信号推定部18は、状態量の更新を行う(ステップS23)。この状態量の更新において、先ず、楽曲信号推定部18は、上記(22)式に示すように、推定楽曲信号の事前状態推定値i ^(n+1|n)を算出する。次いで、楽曲信号推定部18は、この事前状態推定値i ^(n+1|n)と、観測信号の状態ベクトルと、ステップS22で算出されたゲイン行列K(n+1)とを用いて、上記(23)式に示すように、事後状態推定値i ^(n+1|n+1)を算出する。次いで、楽曲信号推定部18は、事前誤差共分散行列P(n+1|n)と、ゲイン行列K(n+1)とを用いて、上記(24)式に示すように、事後誤差共分散行列P(n+1|n+1)を更新する(ステップS24)。次いで、楽曲信号推定部18は、例えば、ステップS23で算出された推定楽曲信号の事後状態推定値i ^(n+1|n+1)の1行1列目を左推定楽曲信号i^L(n)として左チャネル出力処理部4aへ出力する。また、楽曲信号推定部18は、例えば、ステップS23で算出された推定楽曲信号の事後状態推定値i ^(n+1|n+1)の(L+1)行1列目を右推定楽曲信号i^R(n)として右チャネル出力処理部4bへ出力する(ステップS25)。こうして出力された左推定楽曲信号i^L(n)及び右推定楽曲信号i^R(n)は、左観測信号xL(n)と右観測信号xR(n)とからボーカル音が抑圧された信号である。また、制御部1は、左推定楽曲信号i^L(n)及び右推定楽曲信号i^R(n)を、ボーカル音が抑圧された楽曲データとして記憶部2に記憶保存する。なお、ステップS24より前にステップS25が実行されてもよい。
次いで、制御部1は、処理を終了する否かを判定する(ステップ26)。例えば、左観測信号xL(n)及び右観測信号xR(n)の入力がなくなった場合、或いは、ユーザからの終了指示があった場合に、処理を終了すると判定される(ステップS26:YES)。この場合、図9及び図10に示す雑音抑圧処理が終了する。一方、処理を終了しないと判定された場合(ステップS26:NO)、ステップS1に戻り、処理が継続される。
以上説明したように、上記実施形態によれば、制御部1は、左観測信号xL(n)から抽出した左音声帯域信号sL(n)についての左音声特徴量Ψ[sL(n)]の大きさに応じて左推定ボーカル信号d^L(n)を推定する。また、制御部1は、右観測信号xR(n)から抽出した右音声帯域信号sR(n)についての右音声特徴量Ψ[sR(n)]の大きさに応じて右推定ボーカル信号d^R(n)を推定する。そして、制御部1は、左推定ボーカル信号d^L(n)に基づいて算出した左分散値σ dLと、右推定ボーカル信号d^R(n)に基づいて算出した右分散値σ dRと、楽曲信号を駆動源として含む状態空間モデルに基づく予測法を用いて、左観測信号xL(n)と右観測信号xR(n)とからボーカル音を抑圧する処理を実行するように構成した。そのため、上記実施形態によれば、複数のチャネル間でボーカル信号に偏りがあっても、観測信号からボーカル音を適切に抑圧することができる。従って、ボーカル信号が精度良く除去された楽曲信号を得ることができる。これにより、例えばカラオケ端末用として、より臨場感のある楽曲データを提供することが可能となる。雑音抑圧装置は、例えば、カラオケ装置であっても良い。
なお、上記実施形態においては、雑音としてボーカル音を例にとった場合の端末装置Sに対して本発明を適用した例を説明した。しかし、本発明は、ステレオ補聴器や、車両等に搭載される音声認識システム等に対しても適用可能である。例えば、ステレオ補聴器は、上述した端末装置Sの構成に加え、左右のマイク、及び左右のスピーカを含むイヤホンを備える。そして、上述した「所定の特定帯域」は、雑音の帯域に設定される。この場合、本発明によれば、左右のマイクからそれぞれ入力された観測信号から、例えば使用者の周囲で発せられる騒音等の雑音を抑圧して、使用者の周囲の人の声に対応する音声信号を左右のスピーカへ出力することができる。これにより、雑音の多い状況下であっても、使用者に、周囲の人の声をより鮮明に聞きやすくさせることができる。また、例えば、音声認識システムは、上述した端末装置Sの構成に加え、左右のマイク、及び音声認識処理部を備える。左右のマイクは、それぞれ、例えば車両の運転者の声を集音可能なハンドル等の位置に取り付けられる。そして、上述した「所定の特定帯域」は、雑音の帯域に設定される。この場合、本発明によれば、左右のマイクからそれぞれ入力された観測信号から、例えば車外で発せられるロードノイズ等の雑音を抑圧して、運転者の声に対応する音声信号を音声認識処理部へ出力することができる。これにより、雑音の多い状況下であっても、音声認識処理部に、運転者の声をより認識し易くさせることができる。
1 制御部
11 音声帯域抽出係数決定部
12a 左チャネル音声帯域抽出部
12b 右チャネル音声帯域抽出部
13a 左チャネル音声特徴量算出部
13b 右チャネル音声特徴量算出部
14 定位情報算出部
15 音声信号抽出重み係数算出部
16a 左チャネル音声信号抽出部
16b 右チャネル音声信号抽出部
17a 左チャネル音声信号分散値算出部
17b 右チャネル音声信号分散値算出部
18 楽曲信号推定部

Claims (7)

  1. 少なくとも2チャネルから入力され、雑音が混在した観測信号から、音声信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記観測信号から前記雑音を抑圧する雑音抑圧装置であって、
    少なくとも第1チャネル及び第2チャネルから入力された第1観測信号及び第2観測信号を取得する取得手段と、
    所定の特定帯域における前記第1観測信号から第1抽出信号を抽出し、且つ、前記特定帯域における前記第2観測信号から第2抽出信号を抽出する抽出手段と、
    前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定する第1決定手段と、
    前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段の第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段の第2抽出度合を決定する第2決定手段と、
    前記第1抽出度合が決定された前記第1抽出手段の適用により前記第1観測信号から抽出された第3抽出信号に基づいて第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2抽出手段の適用により前記第2観測信号から抽出された第4抽出信号に基づいて第2分散値を決定する第3決定手段と、
    前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから雑音を抑圧する処理を実行する処理手段と、
    を備えることを特徴とする雑音抑圧装置。
  2. 前記取得手段は、前記第1チャネルのマイクから入力された第1観測信号と、前記第2チャネルのマイクから入力された第2観測信号とを取得し、
    前記抽出手段は、人の音声帯域の信号を通過する音声帯域フィルタを用いて、人により発せられた第1ボーカル音に対応する第1抽出信号を抽出し、且つ、前記人により発せられた第2ボーカル音に対応する第2抽出信号を抽出し、
    前記第1決定手段は、前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定し、
    前記第2決定手段は、前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段としての第1バンドパスフィルタの第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段としての第2バンドパスフィルタの第2抽出度合を決定し、
    前記第3決定手段は、前記第1抽出度合が決定された前記第1バンドパスフィルタの適用により前記第1観測信号から抽出された第3抽出信号に基づいて前記第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2バンドパスフィルタの適用により前記第2観測信号から抽出された第4抽出信号に基づいて前記第2分散値を決定し、
    前記処理手段は、前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから前記第1ボーカル音と前記第2ボーカル音とを抑圧する処理を実行することを特徴とする請求項1に記載の雑音抑圧装置。
  3. 前記第2決定手段は、前記第1特徴量と前記第2特徴量との大小関係に応じて、前記第1抽出度合及び前記第2抽出度合を決定することを特徴とする請求項1または2に記載の雑音抑圧装置。
  4. 前記第1特徴量と前記第2特徴量に所定の差がある場合であって、前記第1特徴量よりも前記第2特徴量が大きい場合、前記第2決定手段は、前記第1観測信号に適用する第1抽出手段の第1抽出度合よりも、前記第2観測信号に適用する第2抽出手段の第2抽出度合を大きく決定し、
    前記第1特徴量と前記第2特徴量に所定の差がある場合であって、前記第1特徴量よりも前記第2特徴量が小さい場合、前記第2決定手段は、前記第1観測信号に適用する第1抽出手段の第1抽出度合よりも、前記第2観測信号に適用する第2抽出手段の第2抽出度合を小さく決定することを特徴とする請求項1乃至3の何れか一項に記載の雑音抑圧装置。
  5. 前記第1特徴量と前記第2特徴量に所定の差がない場合、前記第2決定手段は、前記第1観測信号に適用する第1抽出手段の第1抽出度合と、前記第2観測信号に適用する第2抽出手段の第2抽出度合として、所定の抽出度合を決定することを特徴とする請求項4に記載の雑音抑圧装置。
  6. 少なくとも2チャネルから入力され、雑音が混在した観測信号から、音声信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記観測信号から前記雑音を抑圧するコンピュータに、
    少なくとも第1チャネル及び第2チャネルから入力された第1観測信号及び第2観測信号を取得するステップと、
    所定の特定帯域における前記第1観測信号から第1抽出信号を抽出し、且つ、前記特定帯域における前記第2観測信号から第2抽出信号を抽出するステップと、
    前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定するステップと、
    前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段の第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段の第2抽出度合を決定するステップと、
    前記第1抽出度合が決定された前記第1抽出手段の適用により前記第1観測信号から抽出された第3抽出信号に基づいて第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2抽出手段の適用により前記第2観測信号から抽出された第4抽出信号に基づいて第2分散値を決定するステップと、
    前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから雑音を抑圧する処理を実行するステップと、
    を実行させることを特徴とするプログラム。
  7. 少なくとも2チャネルから入力され、雑音が混在した観測信号から、音声信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記観測信号から前記雑音を抑圧する雑音抑圧装置により実行される雑音抑圧方法であって、
    少なくとも第1チャネル及び第2チャネルから入力された第1観測信号及び第2観測信号を取得するステップと、
    所定の特定帯域における前記第1観測信号から第1抽出信号を抽出し、且つ、前記特定帯域における前記第2観測信号から第2抽出信号を抽出するステップと、
    前記第1抽出信号についての第1特徴量と、前記第2抽出信号についての第2特徴量とを決定するステップと、
    前記第1特徴量の大きさに応じて、前記第1観測信号に適用する第1抽出手段の第1抽出度合を決定し、且つ、前記第2特徴量の大きさに応じて、前記第2観測信号に適用する第2抽出手段の第2抽出度合を決定するステップと、
    前記第1抽出度合が決定された前記第1抽出手段の適用により前記第1観測信号から抽出された第3抽出信号に基づいて第1分散値を決定し、且つ、前記第2抽出度合が決定された前記第2抽出手段の適用により前記第2観測信号から抽出された第4抽出信号に基づいて第2分散値を決定するステップと、
    前記第1分散値と前記第2分散値と前記予測法とを用いて、前記第1観測信号と前記第2観測信号とから雑音を抑圧する処理を実行するステップと、
    を含むことを特徴とする雑音抑圧方法。
JP2014017570A 2014-01-31 2014-01-31 雑音抑圧装置、雑音抑圧方法、及びプログラム Active JP6270208B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014017570A JP6270208B2 (ja) 2014-01-31 2014-01-31 雑音抑圧装置、雑音抑圧方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014017570A JP6270208B2 (ja) 2014-01-31 2014-01-31 雑音抑圧装置、雑音抑圧方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015143805A true JP2015143805A (ja) 2015-08-06
JP6270208B2 JP6270208B2 (ja) 2018-01-31

Family

ID=53888873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014017570A Active JP6270208B2 (ja) 2014-01-31 2014-01-31 雑音抑圧装置、雑音抑圧方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6270208B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319488A (ja) * 1994-05-19 1995-12-08 Sanyo Electric Co Ltd ステレオ信号処理回路
JPH10224899A (ja) * 1997-01-31 1998-08-21 Clarion Co Ltd 所定信号成分除去装置
JP2004133403A (ja) * 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2008072600A (ja) * 2006-09-15 2008-03-27 Kobe Steel Ltd 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
WO2009116291A1 (ja) * 2008-03-21 2009-09-24 学校法人東京理科大学 雑音抑圧装置および雑音抑圧方法
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2013201722A (ja) * 2012-03-26 2013-10-03 Tokyo Univ Of Science 多チャネル信号処理装置、方法、及びプログラム
JP2014527381A (ja) * 2011-09-13 2014-10-09 ディーティーエス・インコーポレイテッド 直接−拡散分解方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319488A (ja) * 1994-05-19 1995-12-08 Sanyo Electric Co Ltd ステレオ信号処理回路
JPH10224899A (ja) * 1997-01-31 1998-08-21 Clarion Co Ltd 所定信号成分除去装置
JP2004133403A (ja) * 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2008072600A (ja) * 2006-09-15 2008-03-27 Kobe Steel Ltd 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
WO2009116291A1 (ja) * 2008-03-21 2009-09-24 学校法人東京理科大学 雑音抑圧装置および雑音抑圧方法
JP2014527381A (ja) * 2011-09-13 2014-10-09 ディーティーエス・インコーポレイテッド 直接−拡散分解方法
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2013201722A (ja) * 2012-03-26 2013-10-03 Tokyo Univ Of Science 多チャネル信号処理装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP6270208B2 (ja) 2018-01-31

Similar Documents

Publication Publication Date Title
EP3509325B1 (en) A hearing aid comprising a beam former filtering unit comprising a smoothing unit
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN106664473B (zh) 信息处理装置、信息处理方法和程序
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
US20110046948A1 (en) Automatic sound recognition based on binary time frequency units
JP2002078100A (ja) ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP2010224321A (ja) 信号処理装置
JP2011033717A (ja) 雑音抑圧装置
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
JP6606784B2 (ja) 音声処理装置および音声処理方法
JP5443547B2 (ja) 信号処理装置
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP4098647B2 (ja) 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
JP6270208B2 (ja) 雑音抑圧装置、雑音抑圧方法、及びプログラム
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
WO2021059497A1 (ja) 音信号処理装置、音信号処理方法および記憶媒体
CN112133320A (zh) 语音处理装置及语音处理方法
KR20100056859A (ko) 음성 인식 장치 및 방법
JP4550674B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
Jiang et al. Speech noise reduction algorithm in digital hearing aids based on an improved sub-band SNR estimation
JP2020003751A (ja) 音信号処理装置、音信号処理方法、およびプログラム
CN117153192B (zh) 音频增强方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171128

R150 Certificate of patent or registration of utility model

Ref document number: 6270208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250