<実施の形態1>
以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態1にかかるノイズ低減装置を示すブロック図である。図1に示すノイズ低減装置1は、音声用マイクロフォン11、参照音用マイクロフォン12、ADコンバータ13、14、音声区間判定器15、音声方向検知器16、適応フィルタ制御部17、および適応フィルタ18を有する。
音声用マイクロフォン11および参照音用マイクロフォン12はそれぞれ、音声成分やノイズ成分を含む音を収音することができる。音声用マイクロフォン11は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ13に出力する。参照音用マイクロフォン12は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ14に出力する。例えば、参照音用マイクロフォン12で収音された音に含まれるノイズ成分は、音声用マイクロフォン11で収音された音に含まれるノイズ成分を低減するために用いられる。
なお、本実施の形態にかかるノイズ低減装置では、マイクロフォンが2つの場合(つまり、音声用マイクロフォン11と参照音用マイクロフォン12)の構成について説明するが、例えば参照音用マイクロフォンを更に追加してマイクロフォンを3つ以上設けてもよい。
ADコンバータ13は、音声用マイクロフォン11から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号21を生成する。ADコンバータ13で生成された収音信号21は、音声区間判定器15、音声方向検知器16、および適応フィルタ18に出力される。
ADコンバータ14は、参照音用マイクロフォン12から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号22を生成する。ADコンバータ14で生成された収音信号22は、音声方向検知器16および適応フィルタ18に出力される。
本実施の形態において、音声用マイクロフォン11および参照音用マイクロフォン12に入力される音声の周波数帯域の例は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ13、14におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。
なお、本明細書では、主に音声成分を含む収音信号を音声信号とも記載し、主にノイズ成分を含む収音信号を参照信号とも記載する。
音声区間判定器15は、ADコンバータ13から出力された収音信号21に基づき音声区間を判定する。そして、音声区間判定器15は、音声区間と判定した場合、音声方向検知器16および適応フィルタ制御部17に音声区間情報23、24をそれぞれ出力する。
音声区間判定器15における音声区間判定処理には任意の技術を用いることができる。しかし、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間を判定する必要がある。この場合、例えば特願2010−260798に記載されている技術(以下、音声区間判定技術Aという)や、特願2011−020459に記載されている技術(以下、音声区間判定技術Bという)を用いることで、音声区間を高い精度で判定することができる。音声には人の声以外の音も含まれるが、この例では、主に人の声を検出する。
音声区間判定技術Aでは、音声の主要部分である母音成分の持つ周波数スペクトルに着目し、音声区間を判定している。音声区間判定技術Aでは、適切なノイズレベルを帯域毎に設定し、母音周波数成分のピークとの信号対ノイズレベル比を求め、信号対ノイズレベル比が所定のレベル比かつ所定のピーク数であるか否かを観察することで、音声区間を判定している。
図2は、音声区間判定技術Aを用いた音声区間判定器15'の一例を示すブロック図である。図2に示す音声区間判定器15'は、フレーム化部31、スペクトル生成部32、帯域分割部33、周波数平均部34、保持部35、時間平均部36、ピーク検出部37、および音声判定部38を備える。
フレーム化部31は、収音信号21を予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、フレーム化入力信号と称す)を生成する。
スペクトル生成部32は、フレーム化部31から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine
Transform)等の直交変換法を用いるとよい。本実施の形態において、スペクトル生成部32は、少なくとも200Hzから700Hzのスペクトルパターンを生成する。
後述する音声判定部38が音声区間を判定する際に検出する対象である、音声の特徴を示すスペクトル(以下、フォルマントと称す)には、通常、基音に相当する第1フォルマントから、その倍音部分である第nフォルマント(nは自然数)まで複数ある。このうち、第1フォルマントや第2フォルマントは200Hz未満の周波数帯域に存在することが多い。しかし、この帯域には、低域ノイズ成分が比較的高いエネルギーで含まれているため、フォルマントが埋没し易い。また700Hz以上のフォルマントは、フォルマント自体のエネルギーが低いため、やはりノイズ成分に埋没し易い。そのため、ノイズ成分に埋没し難い200Hzから700Hzのスペクトルパターンを音声区間の判定に用いることで、判定対象を絞り、効率的に音声区間の判定を行うことができる。
帯域分割部33は、適切な周波数帯域単位で音声に特徴的なスペクトルを検出するため、スペクトルパターンの各スペクトルを、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域に分割する。本実施の形態において、予め定められた帯域幅は、100Hzから150Hz程度の帯域幅とする。
周波数平均部34は、分割周波数帯域毎の平均エネルギーを求める。本実施の形態では、周波数平均部34は、分割周波数帯域毎に、分割周波数帯域におけるすべてのスペクトルのエネルギーを平均するが、演算負荷軽減のためスペクトルのエネルギーの代わりにスペクトルの最大または平均振幅値(絶対値)を代用してもよい。
保持部35は、RAM(Random Access Memory)、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ等の記憶媒体で構成され、帯域毎の平均エネルギーを過去の予め定められた数(本実施の形態においてはNとする)のフレーム分保持する。
時間平均部36は、分割周波数帯域毎に、周波数平均部34で導出された平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出する。すなわち、帯域別エネルギーは、分割周波数帯域毎の平均エネルギーの時間方向の複数のフレームに渡る平均値である。また、時間平均部36は、直前のフレームの分割周波数帯域毎の平均エネルギーに、重み付け係数と時定数を用いて平均化に準じる処理をして、帯域別エネルギーの代用値を求めてもよい。
ピーク検出部37は、スペクトルパターンの各スペクトルと、そのスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比(SNR:Signal to Noise ratio)を導出する。そして、ピーク検出部37は、スペクトル毎のSNRと、予め定められた第1閾値とを比較し、第1閾値を超えるか否かを判定する。SNRが第1閾値を超えるスペクトルがあると、このスペクトルをフォルマントとみなし、フォルマントが検出された旨を示す情報を、音声判定部38に出力する。
音声判定部38は、フォルマントが検出されたという情報をピーク検出部37から受け付けると、ピーク検出部37の判定結果に基づいて、該当フレームのフレーム化入力信号が音声であるか否か判定する。音声判定部38は、フレーム化入力信号が音声であると判定した場合、音声方向検知器16および適応フィルタ制御部17に音声区間情報23、24をそれぞれ出力する。
図2に示す音声区間判定器15'は、分割周波数帯域毎に、その分割周波数帯域の帯域別エネルギーを設定している。そのため、音声判定部38は、他の分割周波数帯域のノイズ成分の影響を受けずに、それぞれの分割周波数帯域毎にフォルマントの有無を精度よく判定することができる。
上述したように、フォルマントには、第1フォルマントから、その倍音部分である第nフォルマントまで複数ある。したがって、任意の分割周波数帯域の帯域別エネルギー(ノイズレベル)が上昇し、フォルマントの一部がノイズに埋没しても、他の複数のフォルマントを検出できる場合がある。特に、周囲ノイズは低域に集中するため、基音に相当する第1フォルマントや2倍音に相当する第2フォルマントが低域のノイズに埋没していても、3倍音以上のフォルマントを検出できる可能性がある。よって、音声判定部38は、SNRが第1閾値を超えるスペクトルが所定数以上である場合、フレーム化入力信号が音声であると判定することで、よりノイズに強い音声区間の判定を行うことができる。
以上で説明したように、音声区間判定技術Aを用いた音声区間判定器15'は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部31と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部32と、スペクトルパターンの各スペクトルと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えるか否かを判定するピーク検出部37と、ピーク検出部の判定結果に基づいて、フレーム化入力信号が音声であるか否か判定する音声判定部38と、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出する周波数平均部34と、分割周波数帯域毎に、平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均部36と、を備える。
例えば、音声判定部38は、エネルギー比が第1閾値を超えるスペクトルが予め定められた数以上であると、フレーム化入力信号が音声であると判定することができる。
次に、音声区間判定技術Bについて説明する。音声区間判定技術Bでは、子音の特徴であるスペクトルパターンが右上がりになる傾向があるという性質に着目して、音声区間を判定している。音声区間判定技術Bでは、子音のスペクトルパターンを中高域の周波数帯において測定し、更に部分的にノイズ成分によって埋没してしまった子音の周波数分布の特徴を、ノイズの影響があまり無かった帯域に特化して抽出することで、音声区間を高精度で判定することを可能にしている。
図3は、音声区間判定技術Bを用いた音声区間判定器15''の一例を示すブロック図である。音声区間判定器15''は、フレーム化部41、スペクトル生成部42、帯域分割部43、平均導出部44、ノイズレベル導出部45、判定選択部46、および子音判定部47を備える。
フレーム化部41は、収音信号21を予め定められた時間幅を有するフレーム単位で順次切り出し、フレーム単位の入力信号であるフレーム化入力信号を生成する。
スペクトル生成部42は、フレーム化部41から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFTやDCT等の直交変換法を用いるとよい。
帯域分割部43は、スペクトル生成部42が生成したスペクトルパターンの各スペクトルを、予め定められた帯域幅毎に分割し、複数の分割周波数帯域を生成する。本実施の形態において、帯域分割部43は、例えば、800Hz〜3.5kHzの周波数範囲について、例えば、100Hz〜300Hz程度の帯域幅毎に分割する。
平均導出部44は、スペクトルパターンにおける、連接する、帯域分割部43が分割した分割周波数帯域(バンド)毎の平均エネルギーである帯域別平均エネルギーを導出する。
子音判定部47は、平均導出部44が導出した帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、そのフレーム化入力信号に子音が含まれると判定する。
一般的に、子音はスペクトルパターンが右上がりになる傾向がある。そこで、音声区間判定技術Bを用いた音声区間判定器15''は、スペクトルパターンにおける帯域別平均エネルギーを導出し、その帯域別エネルギー同士を比較することで子音に特徴的な、スペクトルパターンにおける右上がりの傾向を検出する。そのため、音声区間判定器15''は、入力信号に子音が含まれる子音区間を精度よく検出することができる。
子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた第1閾値以上であると、子音が含まれると判定する第1判定手段を備える。また、子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計測し、更にこの組み合わせが帯域を跨いで連続する場合に重み付けをして計数し、計数した計数値が、予め定められた第2閾値以上であると、子音が含まれると判定する第2判定手段を備える。子音判定部47は、第1判定手段と第2判定手段をそれぞれノイズレベルに応じて使い分ける。
ここで、第1判定手段と第2判定手段とを適宜選択すべく、ノイズレベル導出部45は、フレーム化入力信号のノイズレベルを導出する。例えば、ノイズレベルは、フレーム化入力信号のすべての周波数帯域の帯域別平均エネルギーの平均値とすることができる。また、ノイズレベル導出部45は、フレーム化入力信号毎にノイズレベルを導出してもよいし、所定時間分のフレーム化入力信号のノイズレベルの平均値を用いてもよい。判定選択部46は、導出されたノイズレベルが所定の閾値未満の場合、第1判定手段を選択し、所定の閾値以上の場合、第2判定手段を選択する。
以上で説明したように、音声区間判定技術Bを用いた音声区間判定器15''は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部41と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部42と、スペクトルパターンにおける、連接する予め定められた帯域幅毎の平均エネルギーである帯域別平均エネルギーを導出する平均導出部44と、導出された帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、フレーム化入力信号に子音が含まれると判定する子音判定部47と、を備える。
例えば、子音判定部47は、スペクトルパターンの隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた閾値以上であると、子音が含まれると判定することができる。
なお、本実施の形態にかかるノイズ低減装置に上記の音声区間判定技術A、Bを適用する場合、製品毎にパラメータを設定することができる。すなわち、より確実な音声区間の判定が要求される製品に音声区間判定技術A、Bを適用する場合、音声区間判定のパラメータとしてより厳しい閾値を設定することができる。
また、図1に示すノイズ低減装置1では、音声は音声用マイクロフォン11において収音される確率が高いことを前提とし、音声区間判定器15が、音声用マイクロフォン11の収音信号21のみに基づき音声区間を判定する場合を示した。しかしながら、ノイズ低減装置の使用状況によっては、音声用マイクロフォン11よりも参照音用マイクロフォン12の方が多く音声を収音する場合も考えられる。よって、図8に示すノイズ低減装置2のように、音声区間判定器19が音声用マイクロフォン11の収音信号21および参照音用マイクロフォン12の収音信号22に基づき、音声区間を判定するように構成してもよい。
この場合、例えば図8に示すノイズ低減装置2の音声区間判定器19は、音声用マイクロフォン11の収音信号21に音声が含まれているかを判定する回路と、参照音用マイクロフォン12の収音信号22に音声が含まれているかを判定する回路と、をそれぞれ備えるように構成してもよい。なお、図8に示すノイズ低減装置2の他の構成は図1に示したノイズ低減装置1の構成と同様である。
図1に示すノイズ低減装置1の音声方向検知器16は、収音信号21と収音信号22とに基づき、音声の到来方向を検知し、音声方向情報25を適応フィルタ制御部17に出力する。音声の到来方向を検知する方法は、例えば収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する方法や、音声用マイクロフォン11で収音された音(収音信号21)の大きさと参照音用マイクロフォン12で収音された音(収音信号22)の大きさの差や比(パワー差やパワー比であり、これらを総称してパワー情報と称す)に基づき、音声の到来方向を検知する方法等がある。このとき、音声方向検知器16は、音声区間判定器15が音声区間と判定した場合に、音声の到来方向を検知している。つまり、音声方向検知器16は、音声が到来している音声区間において音声方向を検知し、音声区間以外のときは音声方向を検知していない。
また、例えば、トランシーバーのような携帯機器(無線通信装置)や、無線通信装置に付属するスピーカーマイクロフォン(音声入力装置)のような小型機器に、本実施の形態にかかるノイズ低減装置を適用する場合、音声を拾い易い表側に音声用マイクロフォン11を設け、音声を拾い難い裏側に参照音用マイクロフォン12を設ける。これにより、音声用マイクロフォン11では音声成分を主に収音し、参照音用マイクロフォン12ではノイズ成分を主に収音することができる。
上記の無線通信装置や音声入力装置は、一般的に人間の握りこぶしよりも少し小さい程度の大きさである。よって、音源と音声用マイクロフォン11との距離と、音源と参照音用マイクロフォン12との距離の差は、機器毎やマイクロフォンの配置により異なるものの、5〜10cm程度であると考えられる。ここで、音声の空間伝達速度を34000cm/sとすると、サンプリング周波数が8kHzの場合、1サンプル間において音声が伝達する距離は34000÷8000=4.25であるので、4.25cmとなる。仮に、音声用マイクロフォン11と参照音用マイクロフォン12との距離が5cmであれば、サ
ンプリング周波数が8kHzでは音声の方向を推定するには不十分である。
この場合、サンプリング周波数を8kHzの3倍である24kHzとすると、34000÷24000≒1.42cmとなり、5cmの間に3〜4点の位相差ポイントを測定することができる。よって、収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する場合は、音声方向検知器16に入力される収音信号21と収音信号22のサンプリング周波数を24kHz以上にするとよい。
図1に示すノイズ低減装置1において、例えばADコンバータ13、14から出力された収音信号21、22のサンプリング周波数が8〜12kHzである場合は、ADコンバータ13、14と音声方向検知器16との間に、サンプリング周波数変換器を設け、音声方向検知器16に供給される収音信号21、22のサンプリング周波数を24kHz以上に変換してもよい。
一方、例えばADコンバータ13、14から出力された収音信号21、22のサンプリング周波数が24kHz以上である場合は、ADコンバータ13と音声区間判定器15との間、およびADコンバータ13、14と適応フィルタ18との間に、サンプリング周波数変換器を設け、音声区間判定器15および適応フィルタ18に供給される収音信号21、22のサンプリング周波数を8〜12kHzに変換してもよい。
まず、収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する場合について説明する。図4は、本実施の形態にかかるノイズ低減装置1が備える音声方向検知器の一例を示すブロック図である。図4に示す音声方向検知器16'は、基準信号バッファ51、基準信号抽出部52、比較信号バッファ53、比較信号抽出部54、相互相関値算出部55、および位相差情報取得部56を備える。
基準信号バッファ51は、ADコンバータ13から出力された収音信号21を一時的に蓄積する。比較信号バッファ53は、ADコンバータ14から出力された収音信号22を一時的に蓄積する。
ユーザが送話しているときのような、音源が一つで同時刻に発せられる音声は、各マイクロフォン11、12への伝達経路が異なるため各マイクロフォン11、12で検出される位相(遅延量)や振幅値(減衰量)に差が生じる。しかし、音源が一つで同時刻に発せられる音声は、各マイクロフォン11、12で検出される音声成分の位相や振幅値は一定の関係が成り立ち、相関性は非常に高いといえる。
一方、ノイズ成分のように音源が様々な場所に存在する場合、各マイクロフォン11、12で検出される音声成分の位相や振幅値は音源毎に異なる位相差になり、減衰量も異なるため、相関性は低い。本実施の形態では、音声区間において音声の到来方向を検知しているので、各マイクロフォン11、12で検出される音声成分の相関性は非常に高いといえる。よって、音声区間に限定して、この相関性を測定することで位相差を求めることができ、音源の方向を推定することができる。2つのマイクロフォン11、12の間における位相差は、例えば相互相関関数や最小二乗法を用いて算出することができる。
2つの信号波形x1(t)とx2(t)の相互相関関数は次の式で表すことができる。
基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形x1(t)を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形x2(t)を抽出し、当該信号波形x2(t)を移動する。相互相関値算出部55は、信号波形x1(t)と信号波形x2(t)とに対して畳み込み演算(積和演算)を実施することで、収音信号21と収音信号22の相関が高いポイントを判断する。このとき、収音信号22のサンプリング周波数とマイクロフォン11、12の空間的な距離から算出される最大位相差分に応じて、信号波形x2(t)を前後にシフトしながら畳み込み演算値を計算する。畳み込み演算値が最大となるポイントは符号が一致する場所であり最も相関が高いと判断することができる。
また、最小二乗法を用いる場合は、次の式を用いることができる。
最小二乗法を用いる場合、基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形を抽出し、当該信号波形を移動する。相互相関値算出部55は、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形との差分値の二乗和を計算する。この二乗和が最小となるポイントは、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形とが互いに相似形となる(重なり合う)場所であり、最も相関が高いと判断することができる。最小二乗法を用いる場合は基準信号と比較信号の大きさを揃えることが望ましく、一方を基準として予め正規化しておくのが好ましい。
相互相関値算出部55は、上記の演算により得られた、基準信号と比較信号の相関関係に関する情報を位相差情報取得部56に出力する。すなわち、相互相関値算出部55で相関が高いと判断された2つの信号波形(つまり、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形)は、音源を同一とする音声の信号波形である可能性が高い。よって、位相差情報取得部56は、相関が高いと判断された2つの信号波形の位相差を求めることで、音声用マイクロフォン11で収音された音声成分と参照音用マイクロフォン12で収音された音声成分の位相差を求めることができる。
そして、音声用マイクロフォン11で収音された音に含まれる音声成分の位相(つまり、収音信号21の音声成分の位相)が、参照音用マイクロフォン12で収音された音に含まれる音声成分の位相(つまり、収音信号22の音声成分の位相)よりも早い場合(つまり、位相差がプラスの場合)、参照音用マイクロフォン12よりも音声用マイクロフォン11に近い位置に音源がある、つまり、音声用マイクロフォン11に向かって話者が話していると推測することができる。
一方、音声用マイクロフォン11で収音された音に含まれる音声成分の位相が、参照音用マイクロフォン12で収音された音に含まれる音声成分の位相よりも遅い場合(つまり、位相差がマイナスの場合)、音声用マイクロフォン11よりも参照音用マイクロフォン12に近い位置に音源がある、つまり、参照音用マイクロフォン12に向かって話者が話していると推測することができる。
また、音声用マイクロフォン11で収音された音に含まれる音声成分の位相と、参照音用マイクロフォン12で収音された音に含まれる音声成分の位相との位相差が所定の範囲内である場合(−T<位相差<T、つまり、位相差の絶対値が所定の値Tよりも小さい場合)、音声用マイクロフォン11と参照音用マイクロフォン12の中間付近に音源が位置していると推測することができる。
位相差情報取得部56は、取得した位相差情報を音声方向情報25として、適応フィルタ制御部17に出力する。
音声方向検知器16は、音声区間判定器15が音声区間と判定した場合に、音声の到来方向を検知している。よって、ノイズが混入した場合であっても、音声区間判定器15が音声区間と判定した場合は、音声用マイクロフォン11で収音される音声成分と参照音用マイクロフォン12で収音される音声成分の位相差を精度よく算出することができるので、音声方向を高精度に検知することができる。
次に、収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を検知する場合について説明する。図5は、本実施の形態にかかるノイズ低減装置1が備える音声方向検知器の他の例を示すブロック図である。図5に示す音声方向検知器16''は、音声信号バッファ61、音声信号パワー算出部62、参照信号バッファ63、参照信号パワー算出部64、パワー差算出部65、およびパワー情報取得部66を備える。図5に示す音声方向検知器16''は、ある一定の単位時間における収音信号21および収音信号22のパワー情報(図5に示す場合は、パワー差)を求めることができる。
音声信号バッファ61は、単位時間分の収音信号21を蓄積するために、供給された収音信号21を一時的に蓄積する。参照信号バッファ63は、単位時間分の収音信号22を蓄積するために、供給された収音信号22を一時的に蓄積する。
音声信号パワー算出部62は、音声信号バッファ61に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。また、参照信号パワー算出部64は、参照信号バッファ63に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。
ここで、単位時間当たりのパワー値とは、単位時間における収音信号21、22の大きさであり、例えば、単位時間における収音信号21、22の振幅の最大値や、単位時間における収音信号21、22の振幅の積分値等を用いることができる。なお、本実施の形態では、収音信号21、22の大きさを示す値であれば、パワー値として上記の最大値や積分値以外の値を用いてもよい。
パワー差算出部65は、音声信号パワー算出部62で求めた収音信号のパワー値と、参照信号パワー算出部64で求めた収音信号のパワー値とのパワー差を算出し、算出されたパワー差をパワー情報取得部66に出力する。
パワー情報取得部66は、パワー差算出部65から出力されたパワー差に基づいて、収音信号21と収音信号22のパワー情報を取得する。
例えば、音声用マイクロフォン11で収音された音の大きさが、参照音用マイクロフォン12で収音された音の大きさよりも大きい場合、つまり、収音信号21のパワー値が収音信号22のパワー値よりも大きい場合、参照音用マイクロフォン12よりも音声用マイクロフォン11に近い位置に音源がある、つまり、音声用マイクロフォン11に向かって話者が話していると推測することができる。
一方、音声用マイクロフォン11で収音された音の大きさが、参照音用マイクロフォン12で収音された音の大きさよりも小さい場合、つまり、収音信号21のパワー値が収音信号22のパワー値よりも小さい場合、音声用マイクロフォン11よりも参照音用マイクロフォン12に近い位置に音源がある、つまり、参照音用マイクロフォン12に向かって話者が話していると推測することができる。
また、音声用マイクロフォン11で収音された音と、参照音用マイクロフォン12で収音された音の差が所定の範囲内である場合(−P<パワー差<P、つまり、パワー差の絶対値が所定の値Pよりも小さい場合)、音声用マイクロフォン11と参照音用マイクロフォン12の中間付近に音源が位置していると推測することができる。
パワー情報取得部66は、取得したパワー情報(つまり、パワー差に関する情報)を音声方向情報25として、適応フィルタ制御部17に出力する。
以上で説明したように、音声方向検知器16は、収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する方法や、収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を検知する方法を用いることができる。位相差を用いる方法とパワー情報を用いる方法は、それぞれ単独で使用してもよいし、互いに組み合わせて使用してもよい。例えば、トランシーバーのような携帯機器(無線通信装置)や、無線通信装置に付属するスピーカーマイクロフォン(音声入力装置)のような小型機器は、持ち方によりマイク開口部が手で塞がれたり、衣服などによってマイク開口部が遮蔽されたりする場合がある。よって、音声方向を正確に検知するために、位相差を用いる方法とパワー情報を用いる方法を組み合わせて使用すると、音声方向をより高精度に検知することができる。
図1に示す適応フィルタ制御部17は、音声区間判定器15から出力された音声区間情報24および音声方向検知器16から出力された音声方向情報25に基づき、適応フィルタ18を制御するための制御信号を生成し、生成された制御信号26を適応フィルタ18に出力する。ここで、制御信号26は、音声区間情報24および音声方向情報25を含んでいる。
適応フィルタ18は、収音信号21と収音信号22とを用いて、ノイズが低減された音声信号を生成し、このノイズが低減された音声信号を出力信号27として出力する。適応フィルタ18は、収音信号(音声信号)21に含まれたノイズ成分を低減するために、参照音用マイクロフォン12を用いてノイズ成分を含む参照音を収音し、この参照音に基づき収音信号21に含まれている可能性があるノイズ成分を擬似的に生成する。そして、適応フィルタ18は、収音信号21から、この擬似的に生成したノイズ成分を差し引くことで、ノイズ低減処理を実施することができる。
ここで、参照音用マイクロフォン12に音声成分が多く混入すると、音声信号のレベルが低下するか、またはエコー成分となり音声信号の明瞭度が低下するおそれがある。よって、例えば、参照音用マイクロフォン12に音声成分が混入する場合の許容値を予め求めておき、音声成分の混入が許容値の範囲内であれば適応フィルタ18によるノイズ低減処理を行う。また、音声成分の混入が許容値の範囲外であれば、適応フィルタ18におけるノイズ低減処理を省略し、音声用マイクロフォン11の収音信号(音声信号)21をそのまま出力してもよい。
また、音声成分の混入が許容値の範囲外の場合、音声用マイクロフォン11に主としてノイズ成分が、参照音用マイクロフォン12に主として音声成分が収音されている場合も想定される。この場合は、適応フィルタ18において、収音信号21と収音信号22とを入れ替えてもよい。つまり、参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱うことで、適応フィルタ18において適切にノイズ低減処理を実施することができる。
適応フィルタ制御部17は、上記処理を実施するための制御信号26を適応フィルタ18に出力する。また、適応フィルタ制御部17に供給される音声区間情報24は、適応フィルタ18における適応フィルタ係数の更新のタイミングを決定する情報である。例えば、音声区間判定器において音声区間ではない(つまり、ノイズ区間)と判断された場合は、積極的にノイズ成分を低減するために、適応フィルタ18の適応フィルタ係数の更新を実施してもよい。一方、例えば、音声区間判定器において音声区間と判断された場合は、既存の適応フィルタ係数を用いて、ノイズ低減処理を実施してもよい。
また、例えば、図4に示す音声方向検知器16において求められた、音声用マイクロフォン11の収音信号21に含まれる音声成分の位相と、参照音用マイクロフォン12の収音信号22に含まれる音声成分の位相との位相差を位相差PD1とする。また、所定の値をT(正の値)とする。
適応フィルタ制御部17は、位相差PD1≧Tの関係が成り立つ場合は、例えば適応フィルタ18において通常のノイズ低減処理を行うよう制御する。すなわち、この場合は音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早いので、適応フィルタ18は、収音信号(音声信号)21に含まれるノイズ成分を収音信号(参照信号)22を用いて低減することで出力信号27を生成する。このとき、音声区間判定器15は、音声用マイクロフォン11の収音信号21に基づいて音声区間を判定することができる。
適応フィルタ制御部17は、位相差PD1≦−Tの関係が成り立つ場合は、例えば適応フィルタ18において、収音信号21と収音信号22とを入れ替えるよう制御してもよい。すなわち、この場合は、参照用マイクロフォン12の収音信号22の位相が音声用マイクロフォン11の収音信号21の位相よりも早いので、適応フィルタ制御部17は参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ制御部17は適応フィルタ18において、収音信号(音声信号)22に含まれるノイズ成分を収音信号(参照信号)21を用いて低減するよう制御することで出力信号27を生成することができる。このとき、音声区間判定器15は、参照音用マイクロフォン12の収音信号22に基づいて音声区間を判定してもよい(図8の構成の場合)。参照用マイクロフォン12の収音信号22の位相が音声用マイクロフォン11の収音信
号21の位相よりも早い場合には、参照用マイクロフォン12の収音信号22のほうが音声用マイクロフォン11の収音信号21よりも音声区間検出に適しているからである。
適応フィルタ制御部17は、−T<位相差PD1<Tの関係が成り立つ場合は、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる。この場合は、適応フィルタ18は収音信号21または収音信号22をそのまま出力してもよい。すなわち、音声用マイクロフォン11の収音信号21の位相と参照音用マイクロフォン12の収音信号22の位相の位相差の絶対値が所定の値(T)よりも小さい場合、適応フィルタ18はノイズ低減処理をすることなく収音信号21または収音信号22を出力信号27として出力してもよい。
なお、この場合、位相 差PD1が小さい収音信号21、22はノイズ低減処理に不向きな信号であるため、少しでも良い条件を選択するために、適応フィルタ制御部17は、さらに、音の大きさを判定し、例えば音声用マイクロフォン11で収音された音の大きさが参照音用マイクロフォン12で収音された音の大きさよりも大きい場合、収音信号21を出力信号27として出力するよう制御してもよい。また、適応フィルタ制御部17は、例えば音声用マイクロフォン11で収音された音の大きさが参照音用マイクロフォン12で収音された音の大きさよりも小さい場合、収音信号22を出力信号27として出力してもよい。
収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を検知した場合(図5参照)は、次の様に処理をすることができる。ここで、音声用マイクロフォン11の収音信号21の大きさと、参照音用マイクロフォン12の収音信号22の大きさとの差をパワー差PD2とする。また、所定の値をP(正の値)とする。
パワー差PD2≧Pの関係が成り立つ場合は、例えば適応フィルタ18において通常のノイズ低減処理を行う。すなわち、この場合は音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも大きいので、適応フィルタ18は、収音信号(音声信号)21に含まれるノイズ成分を収音信号(参照信号)22を用いて低減することで出力信号27を生成する。このとき、音声区間判定器15は、音声用マイクロフォン11の収音信号21に基づいて音声区間を判定することができる。
パワー差PD2≦−Pの関係が成り立つ場合は、例えば適応フィルタ18において、収音信号21と収音信号22とを入れ替えてもよい。すなわち、この場合は参照用マイクロフォン12の収音信号22の大きさが音声用マイクロフォン11の収音信号21の大きさよりも大きいので、参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ18において、収音信号(音声信号)22に含まれるノイズ成分を収音信号(参照信号)21を用いて低減することで出力信号27を生成することができる。このとき、音声区間判定器15は、参照音用マイクロフォン12の収音信号22に基づいて音声区間を判定してもよい。
−P<パワー差PD2<Pの関係が成り立つ場合は、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる。この場合は、適応フィルタ18は収音信号21または収音信号22をそのまま出力してもよい。すなわち、音声用マイクロフォン11の収音信号21の大きさと参照音用マイクロフォン12の収音信号22の大きさのパワー差の絶対値が所定の値(P)よりも小さい場合、適応フィルタ18はノイズ低減処理をすることなく収音信号21または収音信号22を出力信号27として出力してもよい。
なお、この場合、パワー差PD2が小さい収音信号21、22はノイズ低減処理に不向きな信号であるため、少しでも良い条件を選択するために、適応フィルタ制御部17は、さらに、位相を判定し、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早い場合、収音信号21を出力信号27として出力してもよい。また、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも遅い場合、収音信号22を出力信号27として出力してもよい。
図6は、適応フィルタ18の一例を示すブロック図である。適応フィルタ18は、遅延素子71_1〜71_n、乗算器72_1〜72_n+1、加算器73_1〜73_n、適応係数調整部74、減算器75、出力信号選択部76、およびセレクタ77を備える。
セレクタ77は、適応フィルタ制御部17から出力された制御信号26(例えば、音声方向情報25)に応じて、収音信号21および収音信号22をそれぞれ音声信号81および参照信号82として出力する場合と、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する場合とを切り替える。例えば、セレクタ77は、音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早い場合、収音信号21および収音信号22をそれぞれ音声信号81および参照信号82として出力する。一方、セレクタ77は、参照用マイクロフォン12の収音信号22の位相が音声用マイクロフォン11の収音信号21の位相よりも早い場合、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する。
また、例えば、セレクタ77は、音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも大きい場合、収音信号21および収音信号22をそれぞれ音声信号81および参照信号82として出力する。一方、セレクタ77は、参照用マイクロフォン12の収音信号22の大きさが音声用マイクロフォン11の収音信号21の大きさよりも大きい場合、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する。
遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nは、FIRフィルタを構成する。遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nを用いて参照信号82を処理することで、擬似ノイズ信号83が生成される。
適応係数調整部74は、制御信号26(例えば、音声方向情報25及び音声区間信号24)に応じて、乗算器72_1〜72_n+1の係数を調整する。すなわち、適応係数調整部74は、音声区間情報24がノイズ区間(非音声区間)を示している場合、適応誤差が少なくなるように係数を調整する。一方、音声区間情報24が音声区間を示している場合、適応フィルタ18の係数を維持するか、または係数を微調整するのみとする。更に、適応係数調整部74は、適切ではない方向から音声が到来していることを音声方向情報25が示している場合、適応フィルタ18の係数を維持するか、または係数を微調整するのみとする。適切ではない方向から音声が到来していることを音声方向情報25が示している場合、ノイズ低減処理によるノイズ低減効果を意識的に落とすことにより音声成分がキャンセルされることを抑制することができる。なお、音声区間情報24がノイズ区間(非音声区間)を示し、且つ、適切ではない方向から音声が到来していることを音声方向情報25が示している場合であっても、係数調整部74は適応フィルタ18の係数を維持するか、または係数を微調整するのみとする。従って、音声成分が入力されたときに、キャンセルされることを抑制することができる。
減算器75は、音声信号81から疑似ノイズ信号83を差し引くことで、ノイズ低減処理後の信号84を生成し、出力信号選択部76に出力する。また、減算器75は、音声信号81から疑似ノイズ信号83を差し引くことで、フィードバック用の信号85を生成し、適応係数調整部74に出力する。なお、ノイズ低減処理後の信号84とフィードバック用の信号85は同一信号である。
出力信号選択部76は、適応フィルタ制御部17から出力された制御信号26(例えば、音声方向情報25)に応じて、音声信号81を出力信号27としてそのまま出力するか、またはノイズ低減処理後の信号84を出力信号27として出力するかを選択する。例えば、適切ではない方向から音声が到来していることを音声方向情報25が示している場合(例えば、−T<位相差PD1<Tの場合)、出力信号選択部76は音声信号81を出力信号27としてそのまま出力する。一方、適切な方向から音声が到来していることを音声方向情報25が示している場合(例えば、位相差PD1≧T、位相差PD1≦−Tの場合)、出力信号選択部76はノイズ低減処理後の信号84を出力信号27として出力する。
次に、本実施の形態にかかるノイズ低減装置1の動作について説明する。図7は、本実施の形態にかかるノイズ低減装置1の動作を説明するためのフローチャートである。このフローチャートは例えば、音の受信が開始されたときに開始される。
音声方向検知器16で生成される音声方向情報25は、音声区間であることが確実な場合に更新される。よって、予め音声方向情報25を初期化し、所定の初期値に設定する(ステップS1)。ここで初期値とは、例えばノイズ低減装置を備える機器が適切な状態で使用された場合(マイクロフォンの位置が適切な状態で使用された場合)に設定されるパラメータである。
次に、音声区間判定器15を用いて、音声用マイクロフォン11において収音された音が音声区間であるか否かを判定する(ステップS2)。この際、音声区間と判定するための条件を厳しくすることで、音声区間を確実に判定することができる。なお、図1に示すノイズ低減装置1では、音声は音声用マイクロフォン11において収音される確率が高いことを前提とし、音声区間判定器15が、音声用マイクロフォン11の収音信号21のみに基づき音声区間を判定する場合を示した。しかしながら、ノイズ低減装置の使用状況によっては、音声用マイクロフォン11よりも参照音用マイクロフォン12の方が多く音声を収音する場合も考えられる。よって、図8に示すノイズ低減装置2のように、音声区間判定器19が音声用マイクロフォン11の収音信号21および参照音用マイクロフォン12の収音信号22に基づき、音声区間を判定するように構成してもよい。
音声区間判定器15は、音声区間を検出した場合(ステップS3:Yes)、音声方向検知器16および適応フィルタ制御部17に音声区間情報23、24をそれぞれ出力する。そして、音声方向検知器16は、収音信号21と収音信号22とに基づき、音声の到来方向を検知する(ステップS4)。音声の到来方向を検知する方法は、例えば収音信号21と収音信号22の位相差に基づいて音声の到来方向を検知する方法や、音声用マイクロフォン11の収音信号21の大きさと参照音用マイクロフォン12の収音信号22の大きさに関するパワー情報(つまり、収音信号の差や比)に基づき、音声の到来方向を検知する方法等がある。
音声方向検知器16は、音声方向情報25を、新規に求めた音声の到来方向に更新する(ステップS5)。一方、音声区間判定器15において音声区間ではないと判断された場合(ステップS3:No)、音声方向検知器16は新規に音声の到来方向の検知を実施しないので、音声方向情報25は更新されない。音声区間以外の場合には、上記したような収音信号21と収音信号22の位相差やパワー情報を検出したとしても、収音信号21と収音信号22には音声が含まれていない可能性が高いためである。
ここ で上述したように、音声方向検知器16で生成される音声方向情報25は、音声区間であることが確実な場合に更新されることが好ましい。図1に示すノイズ低減装置1では、音声区間情報23と音声区間情報24は1つの音声区間判定器15から同時に出力される信号であったが、変形例として、音声方向検知器16に出力される音声区間情報は、適応フィルタ制御部17に出力される音声区間情報よりも条件を厳しくして判定された音声区間情報としてもよい。
言い換えれば、音声方向検知器16に出力される音声区間情報は、適応フィルタ制御部17に出力される音声区間情報よりも更に高い確率で音声区間であると判定された音声区間情報としてもよい。
より具体的な1つ目の例として、1つの音声区間判定器15に第1の条件と第1の条件より厳しい第2の条件の2つの条件を設定し同時に2つの音声区間判定を行いながら、それぞれ適用フィルタ制御部17と音声方向検知器16に出力する。また、より具体的な2つ目の例として、音声区間判定器15の代わりに適応フィルタ制御用の第1音声区間判定器(図示せず)と適応フィルタ制御用とは別の音声方向検知用の第2音声区間判定器(図示せず)を設けておき、第1音声区間判定器及び第2音声区間判定器の両方にADコンバータ13から収音信号21を入力する。第1音声区間判定器は、収音信号21に基づき第1の条件で音声区間判定を行い、音声区間判定を行った結果の第1音声区間情報を適応フィルタ制御部17に対し出力する。第2音声区間判定器は、収音信号21に基づき第1の条件より厳しい第2の条件で音声区間判定を行い、音声区間判定を行った結果の第2音声区間情報を音声方向検知器16に対し出力する。
第2の条件を第1の条件より厳しくする方法として、例えば、第1音声区間判定器および第2音声区間判定器に音声区間判定技術Aを用いる場合の例としては、ピーク検出部37でスペクトル毎のSNRを取得し、対象となるスペクトルが音声の特徴であるピークを有するか判定する際に、SNRと予め定められた第1閾値を用いて判断していたが、この第1閾値を第2音声区間判定器では第1音声区間判定器よりSNRの値として大きい値に設定することなどが考えられる。
これらの変形例によれば、適応フィルタ制御に利用する音声区間判定においては、音声区間と判定する条件を甘めとする(音声区間と判定されやすい閾値の設定とする)ことで、ノイズの多い環境下で、正確な音声区間判定ができずに音声を消し去ってしまうことを抑止し、かつ、音声方向検知に利用する音声区間判定においては、音声区間と判定する条件を厳しくとする(音声区間と判定されにくい閾値の設定とする)ことで、話者の位置を正確に判定することが可能となる。すなわち、通話中は、マイクロフォンと話者の位置は、固定される場合が多いため、音声方向検知器は厳しい条件で音声区間と検知された場合にのみ、音声方向情報を更新すればよい。従って、音声方向検知器に出力するための音声区間判定は条件を厳しくとする(音声区間と判定されにくい閾値の設定とする)ことが有効である。
次に、適応フィルタ制御部17は、音声方向検知器16から過去に行った音声方向の更新に基づいた現時点における音声方向情報25を取得する(ステップS6)。そして、参照音用マイクロフォン12で収音された参照音が、音声用マイクロフォン11で収音された音に含まれるノイズ成分の低減に利用可能か否か判断する(ステップS7)。
適応フィルタ制御部17は、参照音用マイクロフォン12で収音された参照音を用いてノイズ低減処理を実施可能であると判断した場合(ステップS7:Yes)、適応フィルタ18によるノイズ低減処理を実施する(ステップS8)。一方、適応フィルタ制御部17は、参照音用マイクロフォン12で収音された参照音を用いてノイズ低減処理を実施するのは不可能であると判断した場合(ステップS7:No)、適応フィルタ18によるノイズ低減処理を実施しない。
例えば、音声用マイクロフォン11の収音信号21に含まれる音声成分の位相と、参照音用マイクロフォン12の収音信号22に含まれる音声成分の位相との位相差を用いて、音声方向を検知した場合は、以下のように処理をする。
位相差PD1≧Tの関係が成り立つ場合(ステップS7:Yes)、例えば適応フィルタ18において通常のノイズ低減処理を行う(ステップS8)。一方、位相差PD1≦−Tの関係が成り立つ場合(ステップS7:Yes)、例えば参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ18において、収音信号22に含まれるノイズ成分を収音信号21を用いて低減することで出力信号27を生成することができる(ステップS8)。
また、−T<位相差PD1<Tの関係が成り立つ場合、音声用マイクロフォン11と音源との距離及び参照音用マイクロフォン12と音源との距離が同等である可能性が高いので、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる(ステップS7:No)。この場合は、適応フィルタ18はノイズ低減処理を実施することなく、収音信号21または収音信号22を出力信号としてそのまま出力する。
この場合、例えば音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも大きい場合、収音信号21を出力信号27として出力してもよい。また、例えば音声用マイクロフォン11の収音信号21の大きさが参照音用マイクロフォン12の収音信号22の大きさよりも小さい場合、収音信号22を出力信号27として出力してもよい。
また、例えば、音声用マイクロフォン11の収音信号21の大きさと、参照音用マイクロフォン12の収音信号22の大きさとを用いて、音声方向を検知した場合は、以下のように処理をする。
パワー差PD2≧Pの関係が成り立つ場合(ステップS7:Yes)、例えば適応フィルタ18において通常のノイズ低減処理を行う(ステップS8)。一方、パワー差PD2≦−Pの関係が成り立つ場合(ステップS7:Yes)、例えば参照音用マイクロフォン12の収音信号22を音声信号として扱い、音声用マイクロフォン11の収音信号21を参照信号として扱う。そして、適応フィルタ18において、収音信号22に含まれるノイズ成分を収音信号21を用いて低減することで出力信号27を生成することができる(ステップS8)。
−P<パワー差PD2<Pの関係が成り立つ場合は、音声用マイクロフォン11と音源との距離及び参照音用マイクロフォン12と音源との距離が同等である可能性が高いので、収音信号21、22は、適応フィルタ18におけるノイズ低減処理に不向きな信号であると判断することができる(ステップS7:No)。この場合は、適応フィルタ18はノイズ低減処理を実施することなく、収音信号21または収音信号22を出力信号としてそのまま出力する。
この場合、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも早い場合、収音信号21を出力信号27として出力してもよい。また、例えば音声用マイクロフォン11の収音信号21の位相が参照音用マイクロフォン12の収音信号22の位相よりも遅い場合、収音信号22を出力信号27として出力してもよい。
ノイズ低減装置1は、音声用マイクロフォン11等により音(音声やノイズ)を受信しているか否かをチェックする(ステップS9)。そして、音を受信している場合(ステップS9:Yes)、ステップS2以降の処理を繰り返す。一方、音を受信していない場合(ステップS9:No)、ノイズ低減装置1によるノイズ低減処理が終了する。
次に、本実施の形態にかかるノイズ低減装置を用いた音声入力装置について説明する。図9は、本実施の形態にかかるノイズ低減装置を用いた音声入力装置500の一例を示す図である。図9(a)は、音声入力装置500の前面図であり、図9(b)は、音声入力装置500の背面図である。図9に示すように、音声入力装置500はコネクタ503を介して無線通信装置510に接続可能に構成されている。無線通信装置510は一般的な無線機であり、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置510には音声入力装置500を介して話者の音声が入力される。
音声入力装置500は、本体501、コード502、及びコネクタ503を有する。本体501は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。図9(a)に示すように、本体501の前面にはスピーカー506および音声用マイクロフォン505が設けられている。図9(b)に示すように、本体501の背面には参照音用マイクロフォン508およびベルトクリップ507が設けられている。本体501の頂面には、LED509が設けられている。本体501の側面にはPTT(Push To Talk)504が設けられている。LED509は、音声入力装置500による話者の音声の検出状態を話者に対して報知する。PTT504は、無線通信装置510を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。
本実施の形態にかかるノイズ低減装置1は音声入力装置500に内蔵されており、ノイズ低減装置1が備える音声用マイクロフォン11が音声入力装置500の音声用マイクロフォン505に対応し、ノイズ低減装置1が備える参照音用マイクロフォン12が音声入力装置500の参照音用マイクロフォン508に対応している。また、ノイズ低減装置1から出力される出力信号27は、音声入力装置500のコード502を経由して無線通信装置510に供給される。すなわち、音声入力装置500は、ノイズ低減装置1でノイズ低減処理された後の出力信号27を、無線通信装置510に供給する。よって、無線通信装置510から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。
次に、本実施の形態にかかるノイズ低減装置を用いた無線通信装置(トランシーバー)600について説明する。図10は、本実施の形態にかかるノイズ低減装置を用いた無線通信装置600の一例を示す図である。図10(a)は、無線通信装置600の前面図であり、図10(b)は、無線通信装置600の背面図である。図10に示すように、無線通信装置600は、入力ボタン601、表示部602、スピーカー603、音声用マイクロフォン604、PTT(Push To Talk)605、スイッチ606、アンテナ607、参照音用マイクロフォン608、および蓋609を備える。
本実施の形態にかかるノイズ低減装置1は無線通信装置600に内蔵されており、ノイズ低減装置1が備える音声用マイクロフォン11が無線通信装置600の音声用マイクロフォン604に対応し、ノイズ低減装置1が備える参照音用マイクロフォン12が無線通信装置600の参照音用マイクロフォン608に対応している。また、ノイズ低減装置1から出力される出力信号27は、無線通信装置600の内部回路において高周波処理されて、アンテナ607から他の無線通信装置に無線送信される。ここで、ノイズ低減装置1から出力される出力信号27はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。ユーザによるPTT605の押下により音の送信が開始されたときに、図7で示したようなノイズ低減装置1の処理を開始し、ユーザがPTT608の押下を中止して、音の送信が終了したときに、図7で示したようなノイズ低減装置1の処理を終了しても良い。
本発明の課題で説明したように、特許文献1乃至3に開示されている技術では、周囲のノイズレベルが高い場合、音声信号に含まれるノイズ成分を適切に低減することができないという問題があった。
すなわち、従来のノイズ低減装置では、周囲のノイズレベルが高い状況を考慮しておらず、音声が十分に収音できない状況においても音声の到来方向を検知しているため、ノイズ成分が多い環境下において、音声信号に含まれるノイズ成分を適切に低減することはできなかった。
例えば、トランシーバーのような携帯型の無線通信装置は、作業用機械の動作音などかなり高いレベルの騒音が発生している工場内や雑踏や交差点などで用いられることが多い。このため、トランシーバーのような携帯型の無線通信装置では、マイクロフォンに混入するノイズ成分を低減することが求められている。
また、トランシーバーは、携帯電話と違い本体側のスピーカーから送信される音声を耳元から離した状態で聞くという使われ方をする場合がある。よって、トランシーバーは、一般的に身体から離れた状態で所持され、その持ち方についても様々なスタイルがある。更に、トランシーバー本体から収音部(マイクロフォン)と再生部(スピーカー)を分離し携帯性を高めたスピーカーマイクロフォン装置(音声入力装置)は、利便性のある使用形態を提供することができる。例えば、首からぶら下げたり肩に置いたりできるなど、話者がマイクロフォンに向かうことを意識することなく会話を行う場合や、マイク受信部表側よりむしろマイク背面に近い方向からしゃべる場合もある。よって、スピーカーマイクロフォン装置を使用する場合は、必ずしも音声が理想的な方向から到来するわけではない。
したがって、このような環境下で使用されるトランシーバーやスピーカーマイクロフォン装置においてノイズ低減処理を実施するには、高いレベルのノイズで通話が妨げられる中で、音声が実際に発せられている音声区間を確実に判定し、その音声区間のみで音声の到来方向を検知する必要がある。
これに対して本実施の形態にかかるノイズ低減装置では、音声区間判定器15を用いることで、ノイズレベルが高い場合であっても音声が発せられている区間を判定することができる。そして、音声区間判定器15で音声区間であると判定されている場合に、音声方向検知器16で音声の到来方向を検知して音声方向情報を更新している。よって、音声方向検知器16で音声の到来方向を検知するための処理量を低減することができる。また、音声方向検知器16は音声区間において音声方向情報を更新しているので、信頼性の高い音声方向情報を得ることができる。そして、適応フィルタ18は、信頼性の高い音声方向情報と音声区間情報とに基づいて、ノイズ低減処理を実施することができるので、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができる。
より具体的な効果としては、例えば話者の後方から到来するノイズを低減することができる。例えば、音源がさまざまな方向から到来した場合にも演算負荷が増大することなく、所定の適応フィルタの処理量で対応できる。
そして、回路規模、消費電力、及びコストが低減される。また、例えば音声用マイクロフォン及び参照用マイクロフォンの中間の位置に音源が存在する場合にも、ノイズ低減処理により、必要な音声レベルまで低下させることを防止できる。また、高いノイズレベルが混入する環境にも対処できる。
以上で説明したように、本実施の形態にかかる発明により、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。
<実施の形態2>
次に、本発明の実施の形態2について説明する。
図11は、実施の形態2にかかるノイズ低減装置3を示すブロック図である。本実施の形態にかかるノイズ低減装置3は、図1に示した実施の形態1にかかるノイズ低減装置1と比べて、参照音用マイクロフォンを2つ備えている点、信号決定部116を備えている点が異なる。
図11に示すノイズ低減装置3は、音声用マイクロフォン101、参照音用マイクロフォンA(102)、参照音用マイクロフォンB(103)、ADコンバータ104、105、106、音声区間判定器115、信号決定部116、適応フィルタ制御部117、および適応フィルタ118を有する。
音声用マイクロフォン101、参照音用マイクロフォン102、103はそれぞれ、音声成分やノイズ成分を含む音を収音することができる。音声用マイクロフォン101は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ104に出力する。参照音用マイクロフォンA(102)は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ112に出力する。参照音用マイクロフォンB(103)は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ106に出力する。例えば、参照音用マイクロフォンA(102)や参照音用マイクロフォンB(103)で収音された音に含まれるノイズ成分は、音声用マイクロフォン101で収音された音に含まれるノイズ成分を低減するために用いられる。
なお、本実施の形態にかかるノイズ低減装置3では、音声用マイクロフォン101、参照音用マイクロフォン102、103が接続されている例について、説明する。しかしながら、ノイズ低減装置3にマイクロフォンが3つ接続されている場合の他に例えば参照音用マイクロフォンを更に追加してマイクロフォンを4つ以上設けてもよい。
ADコンバータ104は、音声用マイクロフォン101から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号111を生成する。ADコンバータ104で生成された収音信号112は、音声区間判定器115、信号決定部116、および適応フィルタ118に出力される。
ADコンバータ105は、参照音用マイクロフォンA(102)から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号112を生成する。ADコンバータ105で生成された収音信号112は、信号決定部116および適応フィルタ118に出力される。
ADコンバータ106は、参照音用マイクロフォンB(103)から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号113を生成する。ADコンバータ106で生成された収音信号113は、信号決定部116および適応フィルタ118に出力される。
音声の周波数帯域は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ104、105、106におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。
音声区間判定器115は、ADコンバータ104から出力された収音信号111に基づき音声区間を判定する。そして、音声区間判定器115は、音声区間と判定した場合、信号決定部116および適応フィルタ制御部117に音声区間情報123、124をそれぞれ出力する。
音声区間判定器115における音声区間判定処理には任意の技術を用いることができる。しかし、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間を判定する必要がある。この場合、例えば特願2010−260798に記載されている技術(音声区間判定技術A)や、特願2011−020459に記載されている技術(音声区間判定技術B)を用いることで、音声区間を高い精度で判定することができる。なお、音声区間判定技術A、音声区間判定技術Bについては、実施の形態1で説明したので、重複した説明は省略する。
また、図11に示すノイズ低減装置3では、音声は音声用マイクロフォン101において収音される確率が高いことを前提とし、音声区間判定器115が、音声用マイクロフォン101の収音信号111のみに基づき音声区間を判定する場合を示した。しかしながら、ノイズ低減装置の使用状況によっては、音声用マイクロフォン101よりも参照音用マイクロフォンA(102)や参照音用マイクロフォンB(103)の方が多く音声を収音する場合も考えられる。よって、図8に示すように音声用マイクロフォン101の収音信号111以外に、参照音用マイクロフォンA(102)の収音信号112や参照音用マイクロフォンB(103)の収音信号113に基づき、音声区間判定器115が音声区間を判定するように構成してもよい。
信号決定部116は、収音信号111、収音信号112、および収音信号113の中からノイズ低減処理に用いる2つの収音信号を決定し、当該決定された2つの収音信号の位相差情報を取得する。信号決定部116は、ノイズ低減処理に用いる2つの収音信号に関する収音信号選択情報125と、当該決定された2つの収音信号の位相差情報126を適応フィルタ制御部117に出力する。
なお、実施の形態1で説明した理由から、収音信号111と収音信号112の位相差、収音信号111と収音信号113の位相差、収音信号112と収音信号113の位相差を取得する場合は、信号決定部116に入力される収音信号111、収音信号112、および収音信号113のサンプリング周波数を24kHz以上にするとよい。
また、本実施の形態にかかるノイズ低減装置3では、参照音用マイクロフォンを2つ備えている。この場合は、例えば図19(b)や図21(b)に示すように、2つの参照音用マイクロフォンを対角線上に所定の距離を隔てて配置することが好ましい。このように配置することで、例えば図19(b)に示す音声入力装置や図21(b)に示す無線通信装置を持つ手の影響で、一方の参照音用マイクロフォンの音の経路が妨げられてとしても、他方の参照音用マイクロフォンを用いることで、適切に音声方向を検知することができる。
図12は、本実施の形態にかかるノイズ低減装置3が備える信号決定部116を示すブロック図である。図12に示す信号決定部116は、相互相関値算出部131、パワー情報取得部132、位相差情報取得部133、参照信号選択部134、相互相関値算出部135、位相差算出部136、および判定部137を備える。
図11に関して説明されたように、音声用マイクロフォン101の収音信号が音声区間判定器115において音声区間であると判定された場合、音声区間判定器115は音声区間情報123を信号決定部116に出力する。
音声区間情報123が図12に示す信号決定部116に入力された場合、相互相関値算出部131は、参照音用マイクロフォンA(102)の収音信号112と参照音用マイクロフォンB(103)の収音信号113とを用いて、収音信号112と収音信号112の相関関係に関する情報を取得し、この取得した情報を位相差情報取得部133に出力する。位相差情報取得部133は、相関が高いと判断された2つの信号波形の位相差を求めることで、収音信号112の音声成分の位相と収音信号113の音声成分の位相の位相差を求めることができる。また、位相差情報取得部133は、取得した収音信号112と収音信号113の位相差情報を参照信号選択部134および判定部137に出力する。
ここで、相互相関値算出部131で収音信号112と収音信号112の相関関係に関する情報を取得する方法と、位相差算出部133で収音信号112と収音信号113の位相差を求める方法は、図4の音声方向検知器16'で説明した方法(特に、相互相関値算出部55、位相差情報取得部56を参照)と同様であるので、重複した説明は省略する。
なお、本実施の形態において、信号決定部116は音声区間判定器115において音声区間であると判定された場合に位相差を算出している。よって、収音信号にノイズが混入している場合であっても高い精度で位相差を算出することができる。
また、パワー情報取得部132は、音声区間判定器115において音声区間であると判定された場合、参照音用マイクロフォンA(102)の収音信号112の大きさと、参照音用マイクロフォンB(103)の収音信号113の大きさとに基づき、パワー情報(つまり、収音信号112と収音信号113のパワー比やパワー差)を取得する。取得したパワー情報は参照信号選択部134に出力される。パワー情報取得部132で収音信号112と収音信号113のパワー情報を求める方法は、図5の音声方向検知器16で説明した方法と同様であるので、重複した説明は省略する。
適応フィルタ118のフィルタ係数を精度良く更新することができる理想的な参照信号は、2つの条件がある。1つ目の条件Aは音声成分の混入が少ないことである。2つ目の条件Bは音声に混入するノイズ成分の特性に近いことである。参照信号への音声成分の混入を少なくするには、音声の音源に対して参照用マイクロフォンの距離が遠い程好ましい。音声の音源と参照用マイクロフォンとの距離が遠い位置は、位相が最も遅れているポイントを調べることで把握することができる。例えば、本実施の形態にかかるノイズ低減装置3のように参照用マイクロフォンA(102)と参照音用マイクロフォンB(103)とがある場合、参照用マイクロフォンA(102)の収音信号112と参照音用マイクロフォンB(103)の収音信号113とを比較し、位相が遅いほうを理想的な参照信号として選択することが好ましい。当然、音声の音源からの距離が遠ければ、音声の大きさ(音圧レベル)も下がることになるが、もう一つの条件である音声用マイクロフォンに混入するノイズ成分の特性に近いかを調べるためノイズ低減装置3が使用される外部環境も同時に考慮する必要がある。つまり、音響特性の観点からみると、遮蔽物が与える影響は大きく、位相差と共にマイクロフォン開口部付近が外部に対し開放された状態であるか、すなわち、マイクロフォンに入力される音の音圧レベルが保たれているかを観察することで、参照信号として適しているか否かを把握することができる。
参照信号選択部134は、位相差情報取得部133から出力された位相差情報とパワー情報取得部132から出力されたパワー情報とに基づき、収音信号112および収音信号113のうち参照信号として適切な収音信号を選択する。このように、参照信号の選択に位相差情報とパワー情報とを用いることで、参照信号を選択する際に外部環境による影響を反映することができる。
相互相関値算出部135は、音声用マイクロフォン101の収音信号111と、参照信号選択部134で選択された収音信号138とを用いて、これらの収音信号の相関関係に関する情報を取得し、この取得した情報を位相差算出部136に出力する。位相差算出部136は、相関が高いと判断された2つの信号波形の位相差を求めることで、収音信号111の音声成分の位相と、参照信号選択部134で選択された収音信号138の音声成分の位相との位相差を求めることができる。位相差算出部136は、取得した位相差情報を判定部137に出力する。
ここで、相互相関値算出部135で収音信号111と、参照信号選択部134で選択された収音信号138の相関関係に関する情報を取得する方法と、位相差算出部136でこれらの収音信号の位相差を求める方法は、図4の音声方向検知器16'で説明した方法(特に、相互相関値算出部55、位相差情報取得部56を参照)と同様であるので、重複した説明は省略する。
なお、図12に示す信号決定部116では、相互相関値算出部131と相互相関値算出部135、および位相差情報取得部133と位相差算出部136はそれぞれ別々に設けられているが、これらは同様の処理をするため共通化してもよい。
判定部137は、位相差算出部136から出力された位相差情報に基づき、収音信号111を音声信号として使用できるか、また、参照信号選択部134で選択された収音信号(つまり、収音信号112または113)を参照信号として使用できるか判定する。そして、判定部137は、ノイズ低減処理に用いる2つの収音信号を決定し、選択された2つの収音信号に関する収音信号選択情報125を適応フィルタ制御部117に出力する。また、判定部137は、選択された2つの収音信号の位相差情報126を適応フィルタ制御部117に出力する。
次に、信号決定部116における動作について説明する。図13および図14は、信号決定部116の動作を説明するためのフローチャートである。図13は参照用マイクロフォンを選択する参照用マイクロフォン選択処理である。ここで、収音信号111は音声信号として使用でき、また、参照信号選択部134で選択された収音信号(つまり、収音信号112または113)は参照信号として使用できると判定部137により判定されているものとする。
図13に示すように信号決定部116は、まず、位相差を比較する際に基準となる参照音用マイクロフォンと比較対象となる参照音用マイクロフォンを設定する(ステップS21)。例えば、参照音用マイクロフォンA(102)を基準とし、参照音用マイクロフォンB(103)を比較対象とする。次に、相互相関値算出部131および位相差情報取得部133において、参照音用マイクロフォンA(102)の収音信号112と参照音用マイクロフォンB(103)の収音信号113の位相差情報を取得する。また、パワー情報取得部132において、収音信号112と収音信号113のパワー情報(この場合は、パ
ワー比)を取得する(ステップS22)。
次に、参照信号選択部134は、収音信号112と収音信号113に所定の位相差があるか判断する(ステップS23)。すなわち、収音信号112と収音信号113の位相差が所定の範囲内であるか(つまり、−T<位相差<Tの条件を満たすか)判断する。ここで、Tは所定の基準値であり、任意に設定することができる。−T<位相差<Tの条件を満たす場合(ステップS23:Yes)、所定の位相差がないと判断される。この場合、参照信号選択部134は、収音信号112と収音信号113のパワー比(A/B)に基づき選択する信号を決定する。例えば、収音信号112と収音信号113のパワー比(A/B)が1よりも大きい場合(ステップS24:Yes)、収音信号112(つまり、参照音用マイクロフォンA)を選択する(ステップS28)。一方、収音信号112と収音信号113のパワー比(A/B)が1よりも小さい場合(ステップS24:No)、収音信号113(つまり、参照音用マイクロフォンB)を選択する(ステップS29)。なお、ステップS24ではパワー比の基準を1としたが、この値はこれに限定されることはなく、任意に変更することができる。例えば、ステップS23における位相差の基準値Tに応じて変更してもよい。
ステップS23において所定の位相差がないと判断された場合、ステップS24において収音信号112と収音信号113のパワー比を比較することで、より適した参照信号を選択することができる。つまり、所定の位相差がない場合は、マイクロフォンの開口部に遮蔽物等の要因がない限り、収音信号112と収音信号113との間でパワー差が生じない。しかし、マイクロフォンの開口部が話者の手や衣服等の遮蔽物により遮られたりした場合は、収音信号の音圧レベルが下がる。ここで、遮蔽物は音響特性に影響を及ぼし、適応フィルタにおいてノイズ成分を擬似的に生成する際に悪影響を及ぼす。よって、遮蔽物の影響が少ない信号を選択することで、より適した参照信号を選択することができる。
−T<位相差<Tの条件を満たさない場合(ステップS23:No)、所定の位相差があると判断される。この場合、参照信号選択部134は、どちらの位相が早いか判断する。つまり、位相差≧Tの条件を満たすか判断する(ステップS25)。位相差≧Tの条件を満たす場合(ステップS25:Yes)、収音信号112(つまり、参照音用マイクロフォンA)の位相が先行している。このとき、参照信号の候補は位相が遅い信号であるので、収音信号113(つまり、参照音用マイクロフォンB)が参照信号の候補となる。そして、収音信号113と収音信号112のパワー比(B/A)が所定の値Pよりも大きい場合(ステップS26:Yes)、収音信号113のパワーが確保されている(つまり、遮蔽物等の影響が少ない)と判断することができるので、収音信号113(つまり、参照音用マイクロフォンB)を参照信号として選択する(ステップS30)。
一方、収音信号113と収音信号112のパワー比(B/A)が所定の値P以下である場合(ステップS26:No)、遮蔽物等の影響で収音信号113のパワーが確保されていないと判断することができる。よって、この場合は、収音信号112(つまり、参照音用マイクロフォンA)を参照信号として選択する(ステップS31)。信号のパワーは音源との距離の二乗に比例して減衰する。よって、位相差がある場合、位相が遅い(つまり、音源より遠い)信号は位相が早い信号に対して信号のパワーが減衰している。パワー比の所定の値Pはこの位相差を考慮した減衰量に、更に遮蔽物による影響が無視できないような減衰量を加えて求めたしきい値である。
また、位相差≧Tの条件を満たさない場合(ステップS25:No)、収音信号113(つまり、参照音用マイクロフォンB)の位相が先行している。このとき、参照信号の候補は位相が遅い信号であるので、収音信号112(つまり、参照音用マイクロフォンA)が参照信号の候補となる。そして、収音信号112と収音信号113のパワー比(A/B)が所定の値Pよりも大きい場合(ステップS27:Yes)、収音信号112のパワーが確保されている(つまり、遮蔽物等の影響が少ない)と判断することができるので、収音信号112(つまり、参照音用マイクロフォンA)を参照信号として選択する。
一方、収音信号112と収音信号113のパワー比(A/B)が所定の値P以下である場合(ステップS27:No)、遮蔽物等の影響で収音信号112のパワーが確保されていないと判断することができるので、収音信号113(つまり、参照音用マイクロフォンB)を参照信号として選択する(ステップS33)。
参照信号選択部134は、上記処理により選択された参照音用マイクロフォン(収音信号)を候補として決定する(ステップS34)。そして、全ての参照音用マイクロフォンの調査が終了した場合は(ステップS35:Yes)、上記処理により選択された参照音用マイクロフォンを使用することを決定する(ステップS36)。一方、全ての参照音用マイクロフォンの調査が終了していない場合は(ステップS35:No)、再びステップS21〜S34の処理を繰り返す。このとき、例えば、上記処理により選択された参照音用マイクロフォンを基準とし、新たに調査対象となった参照音用マイクロフォンを比較対象とする。
以上の処理により、参照音用マイクロフォンA(102)および参照音用マイクロフォンB(103)のうち参照音用マイクロフォンとして、使用されるマイクロフォンが決定される。すなわち、参照音用マイクロフォンA(102)および参照音用マイクロフォンB(103)のうち選択された参照音用マイクロフォンの収音信号(112または113)が参照信号の候補とされる。
なお、以上で説明した処理では、参照信号選択部134が、位相差情報取得部133から出力された位相差情報と、パワー情報取得部132から出力されたパワー比とに基づいて、参照信号として適切な収音信号を選択していた。しかし、参照信号選択部134は、位相差情報取得部133から出力された位相差情報のみに基づいて、参照信号として適切な収音信号を選択してもよい。この場合、図12に示した信号決定部116が備えるパワー情報取得部132を省略することができる。また、図13におけるステップS24、S26、S27を省略することができる。また、図13におけるステップS22においては、位相差情報のみを取得し、パワー比の取得を省略することができる。
このとき、ステップS23において所定の位相差がないと判断された場合(ステップS23:Yes)、収音信号112または収音信号113を参照信号として選択することができる。また、ステップS25において収音信号112が先行していると判断された場合(ステップS25:Yes)、収音信号113を参照信号として選択することができる。また、ステップS25において収音信号113が先行していると判断された場合(ステップS25:No)、収音信号112を参照信号として選択することができる。
音声用マイクロフォン101と音声の音源である話者の口元との位置関係が良好な状態である場合(例えば、頭部に固定されるヘッドセットやヘルメットに音声用マイクロフォンが固定されている場合など)、音声用マイクロフォン101の収音信号111を音声信号として、選択された参照音用マイクロフォンの収音信号(112または113)を参照信号として使用することができる。
しかしながら、例えばトランシーバーやスピーカーマイクロフォン装置では、音声を発する音源と、音声を収音する音声用マイクロフォンとの位置関係が一定とならない場合がある。このため、例えば音声用マイクロフォンに向かって音声を発しない場合や、参照音用マイクロフォンの開口部に向かって音声を発する場合など、適切な状態でノイズ低減装置が使用されない場合が想定される。よって、音声用マイクロフォン101の収音信号111を音声信号として、また選択された参照音用マイクロフォンの収音信号(112または113)を参照信号として、それぞれ使用可能かどうかを検証する必要がある。このような検証処理を実施することで、最もノイズ低減効果が高いと推定される音声信号と参照信号の組み合わせを、収音信号111〜113の中から選択することができる。図14は、このような検証処理を説明するためのフローチャートである。
図14に示すように信号決定部116は、まず、音声用マイクロフォン101を基準とし、図13に示した参照用マイクロフォン選択処理のステップS36で選択された参照音用マイクロフォンを比較対象として決定する(ステップS41)。次に、相互相関値算出部135および位相差算出部136において、音声用マイクロフォン101の収音信号111に含まれる音声成分の位相と、選択された参照音用マイクロフォンの収音信号138に含まれる音声成分の位相の位相差情報を取得する(ステップS42)。
判定部137は、収音信号111と選択された収音信号138に所定の位相差があるか判断する(ステップS43)。すなわち、収音信号111と選択された収音信号138の位相差が所定の範囲内であるか(つまり、−T<位相差<Tの条件を満たすか)判断する。−T<位相差<Tの条件を満たす場合(ステップS43:Yes)、所定の位相差がないと判断される。この場合、収音信号111には選択された収音信号138(最も位相遅れがある収音信号)と同程度の位相遅れがあることが推測されるので、最も位相が早い参照音用マイクロフォンの収音信号(つまり、参照信号選択部134で選択されなかった方
の収音信号)を音声信号とし、選択された参照音用マイクロフォンの収音信号を参照信号とする(ステップS45)。
つまり、参照信号選択部134で選択された収音信号138は、最も位相遅れがある収音信号であるので、収音信号111と選択された収音信号138の位相差が所定の範囲内であるということは、収音信号111も最も位相遅れがある収音信号と同程度の位相遅れがあると推測することができる。この場合は、音声用マイクロフォン101が音声を収音する役割を果たしていないと推測される。よって、ステップS45では、最も位相が早い参照音用マイクロフォンの収音信号(つまり、参照信号選択部134で選択されなかった方の収音信号)を音声信号とし、選択された参照音用マイクロフォンの収音信号を参照信号としている。
なお、参照音用マイクロフォンが3つ以上ある場合は、図13に示した位相遅れが最大となる収音信号を検出する処理と類似した処理を行うことで、最も位相が早い参照音用マイクロフォンの収音信号を決定することができる。図13に示した処理では、位相が遅れている方の収音信号を選択する処理を実施したが、最も位相が早い収音信号を決定する場合は、位相が早い方の収音信号を選択する処理を繰り返して実施すればよい。
一方、−T<位相差<Tの条件を満たさない場合(ステップS43:No)、基準信号と比較対象の信号には所定の位相差があると判断される。この場合、判定部137は、位相差≧Tの条件を満たすか判断する(ステップS44)。位相差≧Tの条件を満たす場合(ステップS44:Yes)、収音信号111(つまり、音声用マイクロフォン101)の位相が先行している。この場合は、音声用マイクロフォン101の収音信号111を音声信号とし、選択された参照音用マイクロフォンの収音信号(112または113)を参照信号とする(ステップS46)。
また、位相差≧Tの条件を満たさない場合(ステップS44:No)、選択された参照音用マイクロフォンの収音信号138の位相が先行している。このような場合、例えば話者が参照音用マイクロフォンに向かって発話していると考えられる。よって、この場合は、音声用マイクロフォン101の収音信号111を参照信号とし、選択された参照音用マイクロフォンの収音信号(112または113)を音声信号とする(ステップS47)。
判定部137は、上記処理に基づき、適応フィルタ118におけるノイズ低減処理に用いられるマイクロフォンを決定し、これらの位相差情報を決定する(ステップS48)。判定部137は、ノイズ低減処理に用いる2つの収音信号に関する情報を収音信号選択情報125として適応フィルタ制御部117に出力する。
位相差情報126については2つのケースがある。第1のケースは、音声用マイクロフォン101の収音信号111と、参照音用マイクロフォン102の収音信号112または参照音用マイクロフォン103の収音信号113から選択された収音信号138と、をノイズ低減処理のための信号とした場合である(ステップS46またはS47)。第2のケースは、参照用マイクロフォン102、103の収音信号112、113をノイズ低減処理のための信号とした場合である(ステップS45)。
図12で、第1のケースにおいて、判定部137は、適応フィルタ制御部117に供給される位相差情報126のような位相差出力を位相差算出部136から適応フィルタ制御部117に出力する。
一方、第2のケースでは、判定部137は、適応フィルタ制御部117に供給される位相差情報126のような位相差出力を位相差情報取得部133から適応フィルタ制御部117に出力する。
図14の処理は、以下に説明するような概略である。一つの音声用マイクロフォンと複数の参照音用マイクロフォンがあるとき、複数の参照音用マイクロフォンの中の特定の参照音用マイクロフォンから得られる特定の収音信号の位相(特定の収音信号の位相は、複数の参照用マイクロフォンから得られた収音信号の位相の中で最も進んでいる)は、音声用マイクロフォンから得られた収音信号の位相よりも進んでいる場合がある。この場合、信号決定部116は特定の収音信号を第1のノイズ成分を低減される第1の収音信号として決定することが好ましい。
また、一つの音声用マイクロフォンと複数の参照音用マイクロフォンがあるとき、複数の参照音用マイクロフォンの中の特定の参照音用マイクロフォンから得られる特定の収音信号の位相(特定の収音信号の位相は、複数の参照用マイクロフォンから得られた収音信号の位相の中で最も遅れている)は、音声用マイクロフォンから得られた収音信号の位相よりも遅れている場合がある。この場合、信号決定部116は、特定の収音信号を、ノイズを低減される信号として決定された第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定することが好ましい。
なお、図14で説明した処理では、位相差情報に基づき、ノイズ低減処理に用いられるマイクロフォンを決定したが、位相差情報に加えてパワー情報も考慮して、ノイズ低減処理に用いられるマイクロフォンを決定してもよい。
具体的に、図14の処理で、信号決定部116は複数の収音信号の中で最も進んだ位相を持つ収音信号をノイズ低減に用いる1つ目の収音信号として決定すると共に、最も遅い位相を持つ収音信号を第1の収音信号によってノイズ成分の低減に用いられる第2の収音信号として決定する。しかしながら、信号決定部116は、複数の収音信号の中から最も遅い位相でかつ、所定値(たとえば、P以上)より大きいレベルの収音信号を第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定してもよい。さらに、複数の収音信号の中で最も遅い位相を持つ収音信号の大きさが所定値以下の場合もある。この場合、信号決定部は、収音信号の複数の中から最も遅い位相の次に遅い位相を持つ特定の収音信号を第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定することが好ましい。
また、複数の収音信号の中で第1の収音信号を除いてそれぞれの位相差が所定値以内である場合(例えば、−T<位相差<T)がある。この場合、信号決定部116は、収音信号の大きさが第1の収音信号を除いてもっとも大きい特定の収音信号を第1の収音信号に含まれるノイズ成分の低減に用いられる第2の収音信号として決定することが好ましい。
図11に示す適応フィルタ制御部117は、音声区間判定器115から出力された音声区間情報124、並びに信号決定部116から出力されたノイズ低減処理に用いる2つの収音信号に関する情報(収音信号選択情報)125および当該決定された2つの収音信号の位相差情報126に基づき、適応フィルタ118を制御するための制御信号を生成し、生成された制御信号127を適応フィルタ118に出力する。ここで、制御信号127は、音声区間情報124、収音信号選択情報125、および位相差情報126を含んでいる。
適応フィルタ118は、収音信号111〜113の中から選択された2つの収音信号を用いて、ノイズが低減された音声信号を生成し、このノイズが低減された音声信号を出力信号128として出力する。ここで、適応フィルタ118におけるノイズ低減処理に用いられる2つの収音信号は、信号決定部116で決定された収音信号である。適応フィルタ118は、音声信号に含まれたノイズ成分を低減するために、参照信号を用いて音声信号に含まれている可能性があるノイズ成分を擬似的に生成する。そして、適応フィルタ118は、音声信号から、この擬似的に生成したノイズ成分を差し引くことで、ノイズ低減処理を実施することができる。
適応フィルタ制御部117は、適応フィルタ118が上記処理を実施するための制御信号127を適応フィルタ118に出力する。また、適応フィルタ制御部117に供給される音声区間情報124は、適応フィルタ118における適応フィルタ係数の更新のタイミングを決定する情報である。例えば、音声区間判定器において音声区間ではない(つまり、ノイズ区間)と判断された場合は、積極的にノイズ成分を低減するために、適応フィルタ118の適応フィルタ係数の更新を実施してもよい。一方、例えば、音声区間判定器において音声区間と判断された場合は、既存の適応フィルタ係数を用いて、ノイズ低減処理を実施してもよい。
図15は、適応フィルタ118の一例を示すブロック図である。適応フィルタ118は、遅延素子171_1〜171_n、乗算器172_1〜172_n+1、加算器173_1〜173_n、適応係数調整部174、減算器175、出力信号選択部176、およびセレクタ177を備える。
セレクタ177は、適応フィルタ制御部117から出力された制御信号127に応じて、収音信号111〜113のうちの2つを、音声信号181および参照信号182として出力する。すなわち、セレクタ177は、信号決定部116から出力された収音信号選択情報125に基づいて、収音信号111〜113のうちの2つを選択し、一方を音声信号181として他方を参照信号182として出力する。
遅延素子171_1〜171_n、乗算器172_1〜172_n+1、および加算器173_1〜173_nは、FIRフィルタを構成する。遅延素子171_1〜171_n、乗算器172_1〜172_n+1、および加算器173_1〜173_を用いて参照信号182を処理することで、擬似ノイズ信号183が生成される。
適応係数調整部174は、制御信号127(例えば、位相差情報126及び音声区間信号124)に応じて、乗算器172_1〜172_n+1の係数を調整する。すなわち、適応係数調整部174は、音声区間情報124がノイズ区間(非音声区間)を示している場合、適応誤差が少なくなるように係数を調整する。一方、音声区間情報124が音声区間を示している場合、適応フィルタ118の係数を維持するか、または係数を微調整する。更に、適応係数調整部174は、音声信号と参照信号の位相差が所定の範囲内である場合(つまり、位相差がほとんどない場合)は、適応フィルタ118の係数を維持するか、または係数を微調整するのみとする。音声信号と参照信号の位相差がほとんどない場合は、適切ではない方向から音声が到来していると推測することができるため、ノイズ低減処理によるノイズ低減効果を意識的に落とすことにより音声成分がキャンセルされることを抑制することができる。
減算器175は、音声信号181から疑似ノイズ信号183を差し引くことで、ノイズ低減処理後の信号184を生成し、出力信号選択部176に出力する。また、減算器175は、音声信号181から疑似ノイズ信号183を差し引くことで、フィードバック用の信号185を生成し、適応係数調整部174に出力する。
出力信号選択部176は、適応フィルタ制御部117から出力された制御信号127(例えば、信号決定部116から出力された位相差情報126)に応じて、音声信号181を出力信号128としてそのまま出力するか、またはノイズ低減処理後の信号184を出力信号128として出力するかを選択する。例えば、音声信号と参照信号の位相差がほとんどない場合は、出力信号選択部176は音声信号181を出力信号128としてそのまま出力する。一方、音声信号と参照信号の位相差が所定の値以上である場合は、出力信号選択部176はノイズ低減処理後の信号184を出力信号128として出力する。
次に、本実施の形態にかかるノイズ低減装置3の動作について説明する。図16は、本実施の形態にかかるノイズ低減装置3の動作を説明するためのフローチャートである。
信号決定部116で生成される収音信号選択情報125および位相差情報126は、音声区間であることが確実な場合に更新される。よって、予め収音信号選択情報125および位相差情報126を初期化し、所定の初期値に設定する(ステップS51)。ここで初期値とは、例えばノイズ低減装置を備える機器が適切な状態で使用された場合(マイクロフォンの位置が適切な状態で使用された場合)に設定されるパラメータである。
次に、音声区間判定器115を用いて、音声用マイクロフォン101において収音された音が音声区間であるか否かを判定する(ステップS52)。この際、音声区間と判定するための条件を厳しくすることで、音声区間を確実に判定することができる。
音声区間判定器115は、音声区間を検出した場合(ステップS53:Yes)、信号決定部116および適応フィルタ制御部117に音声区間情報123、124をそれぞれ出力する。そして、信号決定部116は、収音信号選択情報125および位相差情報126を取得する(ステップS54)。信号決定部116は、図13および図14に示した処理を実施することで、収音信号選択情報125と位相差情報126を取得することができる。
適応フィルタ制御部117は、適応フィルタ118に供給する制御信号127に含まれる収音信号選択情報125および位相差情報126を、新規に求めた情報に更新する(ステップS55)。一方、音声区間判定器115において音声区間ではないと判断された場合(ステップS53:No)、適応フィルタ制御部117は、適応フィルタ118に供給する制御信号127に含まれる収音信号選択情報125と位相差情報126を更新しない。
次に、適応フィルタ118のセレクタ177において、収音信号選択情報125に基づいて収音信号111〜113の中から音声信号と参照信号を選択する(ステップS56)。そして、適応フィルタ118は、選択された2つの収音信号を用いてノイズ低減処理を実施する(ステップS57)。
ノイズ低減装置3は、音声用マイクロフォン101等により音(音声やノイズ)を受信しているか否かをチェックする(ステップS58)。そして、音を受信している場合(ステップS58:Yes)、ステップS52以降の処理を繰り返す。一方、音を受信していない場合(ステップS58:No)、ノイズ低減装置3によるノイズ低減処理が終了する。
本実施の形態にかかるノイズ低減装置3では、音声区間判定器115を用いることで、ノイズレベルが高い場合であっても音声が発せられている区間を判定することができる。
そして、音声区間判定器115で音声区間であると判定されている場合に、信号決定部116で、収音信号111〜113のうちノイズ低減処理に用いる2つの収音信号を決定し、当該決定された2つの収音信号の位相差情報を更新している。よって、信号決定部116における情報処理量を低減することができる。また、信号決定部116は音声区間において収音信号選択情報と位相差情報を更新しているので、信頼性の高い収音信号選択情報と位相差情報を得ることができる。また、複数の収音信号の中から、ノイズ低減処理に使用される最適な2つの収音信号を選択することができるので、ノイズ低減装置を用いた機器が様々な状態で使用された場合であっても、精度よくノイズ低減処理を実施することができる。
以上で説明したように、本実施の形態にかかる発明により、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。
<実施の形態3>
次に、本発明の実施の形態3について説明する。
図17は、実施の形態3にかかるノイズ低減装置4を示すブロック図である。本実施の形態にかかるノイズ低減装置4は、音声用マイクロフォン201の収音信号211に加えて、参照音用マイクロフォン202、203の収音信号212、213も音声区間判定器215に供給されている点、および信号決定部216が音声区間判定器215に対して収音信号選択情報223を供給している点が、図11に示した実施の形態2にかかるノイズ低減装置3と異なる。これ以外は、実施の形態2で説明したノイズ低減装置3と同様であるので、適宜、重複した説明は省略する。
図17に示すノイズ低減装置4は、音声用マイクロフォン201、参照音用マイクロフォンA(202)、参照音用マイクロフォンB(203)、ADコンバータ204、205、206、音声区間判定器215、信号決定部216、適応フィルタ制御部217、および適応フィルタ218を有する。
本実施の形態にかかるノイズ低減装置4が備える音声用マイクロフォン201、参照音用マイクロフォン202、203、およびADコンバータ204、205、206はそれぞれ、図11で説明した実施の形態2にかかるノイズ低減装置3が備える音声用マイクロフォン101、参照音用マイクロフォン102、103、およびADコンバータ104、105、106と同様の構成であるので、重複した説明は省略する。
本実施の形態にかかるノイズ低減装置では、ADコンバータ204、205、206からそれぞれ出力された収音信号211、212、213は、音声区間判定器215、信号決定部216、および適応フィルタ218に供給される。
信号決定部216は、収音信号211、収音信号212、および収音信号213の中から、音声区間判定器215における音声区間判定に用いる収音信号を決定し、音声区間判定に用いる収音信号に関する情報を収音信号選択情報223として音声区間判定器215に出力する。ノイズ低減装置に音声が入力されている場合、音声を含む収音信号の位相が最も早いとみなすことができる。よって、信号決定部216は、例えば、収音信号211、収音信号212、および収音信号213のうち位相が最も早い収音信号を音声区間判定に用いる収音信号として決定することができる。
例えば、信号決定部216の構成は図12に示した信号決定部116の構成と同様であり、信号決定部216の動作は、図13および図14に示したフローチャートに示した動作と同様である。すなわち、信号決定部216は、図14に示したフローチャートのステップS45〜S47において音声信号とみなされた収音信号を、音声区間判定に用いる収音信号として決定することができる。
また、信号決定部216は、収音信号211、収音信号212、および収音信号213の中からノイズ低減処理に用いる2つの収音信号を決定し、当該決定された2つの収音信号の位相差情報を取得する。信号決定部216は、ノイズ低減処理に用いる2つの収音信号に関する収音信号選択情報225と、当該決定された2つの収音信号の位相差情報226を適応フィルタ制御部217に出力する。
音声区間判定器215は、収音信号211、収音信号212、および収音信号213のうち、信号決定部216から出力された信号選択情報223に応じて選択された収音信号を用いて音声区間を判定する。そして、音声区間判定器215は、音声区間と判定した場合、適応フィルタ制御部217に音声区間情報224を出力する。
音声区間判定器215における音声区間判定処理には任意の技術を用いることができる。しかし、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間を判定する必要がある。この場合、例えば特願2010−260798に記載されている技術(音声区間判定技術A)や、特願2011−020459に記載されている技術(音声区間判定技術B)を用いることで、音声区間を高い精度で判定することができる。なお、音声区間判定技術A、音声区間判定技術Bについては、実施の形態1で説明したので、重複した説明は省略する。
適応フィルタ制御部217は、音声区間判定器215から出力された音声区間情報224に応じて、適応フィルタ218の制御に用いる収音信号選択情報225および位相差情報226を決定する。すなわち、適応フィルタ制御部217には、信号決定部216から出力された収音信号選択情報225および位相差情報226が所定のタイミング毎に供給されている。しかし、この中には音声区間以外のタイミングにおいて取得された収音信号選択情報225および位相差情報226も含まれている。音声区間以外のタイミングにおいて取得された収音信号選択情報225および位相差情報226は、精度が低い情報である。
これに対して、音声区間判定器215が音声区間と判定した場合における収音信号選択情報225および位相差情報226は、精度が高い情報である。よって、適応フィルタ制御部217は、音声区間判定器215において音声区間と判定されたタイミングにおける収音信号選択情報225および位相差情報226を、適応フィルタ218の制御に用いる収音信号選択情報225および位相差情報226と決定する。このように、音声区間における収音信号選択情報225および位相差情報226を適応フィルタ218の制御に用いることで、適応フィルタ218において精度よくノイズを低減することができる。
ここで、音声区間情報224は音声区間判定器215における音声区間判定処理の後に適応フィルタ制御部217に出力される。よって、所定のタイミングにおける収音信号選択情報225および位相差情報226が適応フィルタ制御部217に供給されるタイミングは、当該所定のタイミングに対応する音声区間情報224が適応フィルタ制御部217に供給されるタイミングよりも早い。よって、適応フィルタ制御部217はこれらのタイミングを調整するために、供給された収音信号選択情報225および位相差情報226を一時的に保持することができるバッファを備えていてもよい。このように適応フィルタ制御部217において収音信号選択情報225および位相差情報226を一時的に保持することで、音声区間情報224に対応した収音信号選択情報225および位相差情報226を選択することができる。
また、適応フィルタ制御部217は、音声区間判定器215から出力された音声区間情報224、並びに収音信号選択情報(ノイズ低減処理に用いる2つの収音信号に関する情報)225および当該決定された2つの収音信号の位相差情報226に基づき、適応フィルタ218を制御するための制御信号227を生成し、生成された制御信号227を適応フィルタ218に出力する。ここで、制御信号227は、音声区間情報224、収音信号選択情報225、および位相差情報226を含んでいる。
適応フィルタ218は、収音信号211〜213の中から選択された2つの収音信号を用いて、ノイズが低減された音声信号を生成し、このノイズが低減された音声信号を出力信号228として出力する。ここで、適応フィルタ218におけるノイズ低減処理に用いられる2つの収音信号は、信号決定部216で決定された収音信号である。適応フィルタ218は、音声信号に含まれたノイズ成分を低減するために、参照信号を用いて音声信号に含まれている可能性があるノイズ成分を擬似的に生成する。そして、適応フィルタ218は、音声信号から、この擬似的に生成したノイズ成分を差し引くことで、ノイズ低減処理を実施することができる。
本実施の形態にかかるノイズ低減装置4が備える適応フィルタ制御部217は、図11で説明した実施の形態2にかかるノイズ低減装置3が備える適応フィルタ制御部117と同様の構成であるので、重複した説明は省略する。また、本実施の形態にかかるノイズ低減装置4が備える適応フィルタ218は、図11、図15で説明した実施の形態2にかかるノイズ低減装置3が備える適応フィルタ118と同様の構成であるので、重複した説明は省略する。
次に、本実施の形態にかかるノイズ低減装置4の動作について説明する。図18は、本実施の形態にかかるノイズ低減装置4の動作を説明するためのフローチャートである。
信号決定部216で生成される収音信号選択情報225および位相差情報226は、音声区間であることが確実な場合に更新される。よって、信号決定部216は予め収音信号選択情報225および位相差情報226を初期化し、所定の初期値に設定する(ステップS61)。ここで初期値とは、例えばノイズ低減装置を備える機器が適切な状態で使用された場合(マイクロフォンの位置が適切な状態で使用された場合)に設定されるパラメータである。
次に、信号決定部216は、収音信号211〜213を用いて、収音信号選択情報223、225および位相差情報226を取得する(ステップS62)。そして、信号決定部216は、音声区間判定に用いる収音信号に関する収音信号選択情報223を音声区間判定器215に出力する。また、信号決定部216は、ノイズ低減処理に用いる2つの収音信号に関する収音信号選択情報225と、当該決定された2つの収音信号の位相差情報226を適応フィルタ制御部217に出力する。
次に、音声区間判定器215は、収音信号選択情報223に応じた収音信号を用いて音声区間を判定する(ステップS63)。音声区間判定器215は、音声区間を検出した場合(ステップS64:Yes)、適応フィルタ制御部217に音声区間情報224を出力する。そして、適応フィルタ制御部217は、収音信号選択情報および位相差情報を、音声区間判定器215において音声区間と判定されたタイミングにおける収音信号選択情報225および位相差情報226に更新する(ステップS65)。一方、音声区間判定器215において音声区間ではないと判断された場合(ステップS64:No)、適応フィルタ制御部217は、収音信号選択情報および位相差情報を更新しない。
次に、適応フィルタ218のセレクタ(図15のセレクタ177に対応)において、収音信号選択情報225に基づいて収音信号211〜213の中から音声信号と参照信号を選択する(ステップS66)。そして、適応フィルタ218は、選択された2つの収音信号を用いてノイズ低減処理を実施する(ステップS67)。
ノイズ低減装置4は、音声用マイクロフォン201等により音(音声やノイズ)を受信しているか否かをチェックする(ステップS68)。そして、音を受信している場合(ステップS68:Yes)、ステップS62以降の処理を繰り返す。一方、音を受信していない場合(ステップS68:No)、ノイズ低減装置4によるノイズ低減処理が終了する。
図11に示した実施の形態2にかかるノイズ低減装置3では、音声用マイクロフォン101で収音された収音信号111を、音声区間判定器115における音声区間判定に用いていた。この場合は、音声用マイクロフォン101で収音された収音信号111に主として音声が含まれていることが好ましく、例えば音声用マイクロフォン101と話者の口元とが一定の距離を隔てて安定した状態で使用されている状態を想定している。この用法では、音声区間判定器115は、音声用マイクロフォン101で収音された収音信号111について音声区間判定を実施すればよい。また、信号決定部116は、音声区間判定と判定された場合にのみ収音信号選択情報125および位相差情報126を取得すればよく、信号処理の負荷を低減することができるという利点があった。
このように、図11に示した実施の形態2にかかるノイズ低減装置3では、音声用マイクロフォン101と話者の口元とが一定の距離を隔てて安定した状態で使用されている状態を想定している。しかしながら、ノイズ低減装置を用いた機器の中には、例えば、話者の使用状況によって、音声用マイクロフォンと話者の口元との距離が一定とならずに不安定な状態で使用される場合がある。この場合は、音声用マイクロフォンよりも参照音用マイクロフォンのほうが音声を多く収音することができる場合もある。
本実施の形態にかかるノイズ低減装置4では、信号決定部216において、収音信号211〜213の中から、音声区間判定器215における音声区間判定に用いる収音信号を決定している。そして、音声区間判定器215は、信号決定部216で決定された収音信号を用いて音声区間を判定している。更に、適応フィルタ制御部217は、音声区間判定器215において音声区間であると判定されたタイミングにおける収音信号選択情報225および位相差情報226を用いて、適応フィルタ218を制御している。よって、ノイズレベルが高い場合であっても音声が発せられている区間を精度よく判定することができる。また、複数の収音信号の中からノイズ低減処理に使用される最適な2つの収音信号を選択することができるので、ノイズ低減装置を用いた機器が様々な状態で使用された場合であっても、精度よくノイズ低減処理を実施することができる。
以上で説明したように、本実施の形態にかかる発明により、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。
<実施の形態4>
次に、本発明の実施の形態4について説明する。
以下では、3つのマイクロフォンを少なくとも備えたノイズ低減装置を、音声入力装置や無線通信装置に適用した場合について説明する。3つのマイクロフォンを少なくとも備えたノイズ低減装置として、例えば実施の形態2または3にかかるノイズ低減装置を用いることができる。
図19は、3つのマイクロフォンを少なくとも備えたノイズ低減装置を用いた音声入力装置700の一例を示す図である。図19(a)は、音声入力装置700の前面図であり、図19(b)は、音声入力装置700の背面図である。図19に示すように、音声入力装置700はコネクタ703を介して無線通信装置710に接続可能に構成されている。無線通信装置710は一般的な無線機であり、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置710には音声入力装置700を介して話者の音声が入力される。
音声入力装置700は、本体701、コード702、及びコネクタ703を有する。本体701は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。図19(a)に示すように、本体701の前面にはスピーカー706および音声用マイクロフォン705が設けられている。図19(b)に示すように、本体701の背面には参照音用マイクロフォン711、712およびベルトクリップ707が設けられている。本体701の頂面には、LED709が設けられている。本体701の側面にはPTT(Push To Talk)704が設けられている。LED709は、音声入力装置700による話者の音声の検出状態を話者に対して報知する。PTT704は、無線通信装置710を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。
例えば、図11に示した実施の形態2にかかるノイズ低減装置3を音声入力装置700に適用した場合、ノイズ低減装置3が備える音声用マイクロフォン101が音声入力装置700の音声用マイクロフォン705に対応し、ノイズ低減装置が備える2つの参照音用マイクロフォン102、103が音声入力装置700の参照音用マイクロフォン711、712に対応する。また、ノイズ低減装置3から出力される出力信号128は、音声入力装置700のコード702を経由して無線通信装置710に供給される。すなわち、音声入力装置700は、ノイズ低減装置3でノイズ低減処理された後の出力信号128を、無線通信装置710に供給する。よって、無線通信装置710から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。なお、図17に示した実施の形態3にかかるノイズ低減装置4を音声入力装置700に適用した場合も同様である。
本実施の形態にかかる音声入力装置700において、音声用マイクロフォン(第1のマイクロフォン)705は表面(第1の面)に設けられている。図20は、本実施の形態にかかる音声入力装置700の裏面に設けられた参照音用マイクロフォン711、712の位置の詳細を説明するための図である。図20に示すように、本実施の形態にかかる音声入力装置700において、参照音用マイクロフォン(第2および第3のマイクロフォン)711、712は、表面(第1の面)と所定の距離を隔てて対向している裏面(第2の面)に、裏面の中心線721に対して互いに非対称となるように設けられている。このとき、参照音用マイクロフォン711、712は互いに距離d1だけ隔てて設けられている。例えば、d1は3〜7cm程度とすることができる。また、表面と裏面との距離は、2〜4cm程度とすることができる。なお、これらの数値は一例であり、本発明はこれらの数値に限定されることはない。
このように、本実施の形態にかかる音声入力装置700では、裏面の中心線721に対して互いに非対称となるように参照音用マイクロフォン711、712を配置しているので、話者が音声入力装置700を把持した際に、参照音用マイクロフォン711、712の両方が塞がれることを防ぐことができる。よって、参照音用マイクロフォン711、712の少なくとも一方は高い確率でノイズ低減処理に利用することができる。したがって、ノイズ低減装置を用いて高精度にノイズを低減することができる。
このとき、参照音用マイクロフォン711、712は、参照音用マイクロフォン711、712を互いに結ぶ線分722と中心線721とが所定の角度αで交わるように設けられていてもよい。所 定の角度αは、例えば、参照音用マイクロフォン711、712が配置される音声入力装置700の裏面において裏面に入りきる最大の長方形を描き、その長方形の辺をa×bとしたときにtan α=a/bを満たすような値に設定してもよい。すなわち、音声入力装置700の裏面の形状が正四角形であれば所定の角度αは45度前後となる。そして、所定の角度αは音声入力装置700の裏面の形状が縦長であればあるほど角度を小さくすることになる。
また、参照音用マイクロフォン711、712は、中心線721と垂直に交わる2つの線分731、732と、中心線721と平行でかつ中心線721に対して対称に配置された2つの線分733、734とで形成される矩形735の対角の位置に設けられていてもよい。このように参照音用マイクロフォン711、712を対角に配置することで、様々な方向からのノイズ源に対し、良好に作用する参照音信号を選択できる。
次に、図21を用いて、3つのマイクロフォンを少なくとも備えたノイズ低減装置を用いた無線通信装置(トランシーバー)800について説明する。図21(a)は、無線通信装置800の前面図であり、図21(b)は、無線通信装置800の背面図である。図21に示すように、無線通信装置800は、入力ボタン801、表示部802、スピーカー803、音声用マイクロフォン804、PTT(Push To Talk)805、スイッチ806、アンテナ807、蓋809、および参照音用マイクロフォン811、812、を備える。
例えば、図11に示した実施の形態2にかかるノイズ低減装置3を無線通信装置800に適用した場合、ノイズ低減装置3が備える音声用マイクロフォン101が無線通信装置800の音声用マイクロフォン804に対応し、ノイズ低減装置3が備える参照音用マイクロフォン102、103が無線通信装置800の参照音用マイクロフォン811、812に対応する。また、ノイズ低減装置3から出力される出力信号128は、無線通信装置800の内部回路において高周波処理されて、アンテナ807から他の無線通信装置に無線送信される。ここで、ノイズ低減装置3から出力される出力信号128はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。なお、図17に示した実施の形態3にかかるノイズ低減装置4を無線通信装置800に適用した場合も同様である。
本実施の形態にかかる無線通信装置800において、音声用マイクロフォン(第1のマイクロフォン)804は表面(第1の面)に設けられている。また、参照音用マイクロフォン(第2および第3のマイクロフォン)811、812は、表面(第1の面)と所定の距離を隔てて対向している裏面(第2の面)に、裏面の中心線に対して互いに非対称となるように設けられている。このとき、参照音用マイクロフォン811、812は互いに距離d2だけ隔てて設けられている。例えば、d2は3〜7cm程度とすることができる。
また、表面と裏面との距離は、2〜4cm程度とすることができる。なお、これらの数値は一例であり、本発明はこれらの数値に限定されることはない。また、参照音用マイクロフォン811、812の配置については、図20に示した音声入力装置の参照音用マイクロフォン711、712と同様である。
このように、本実施の形態にかかる無線通信装置800では、裏面の中心線に対して互いに非対称となるように参照音用マイクロフォン811、812を配置しているので、話者が音声入力装置800を把持した際に、参照音用マイクロフォン811、812の両方が塞がれることを防ぐことができる。よって、参照音用マイクロフォン811、812の少なくとも一方は高い確率でノイズ低減処理に利用することができる。したがって、ノイズ低減装置を用いて高精度にノイズを低減することができる。
このとき、参照音用マイクロフォン811、812は、参照音用マイクロフォン811、812を互いに結ぶ線分と中心線とが所定の角度で交わるように設けられていてもよい。また、参照音用マイクロフォン811、812は、中心線と垂直に交わる2つの線分と、中心線と平行でかつ中心線に対して対称に配置された2つの線分とで形成される矩形の対角の位置に設けられていてもよい。
以上説明したように、上記した実施の形態にかかる典型的なノイズ低減装置は、第1および第2のマイクロフォンの少なくとも一方で収音された音声に基づき音声区間を判定する音声区間判定器と、前記第1のマイクロフォンで収音された音に応じた第1の収音信号と前記第2のマイクロフォンで収音された音に応じた第2の収音信号とに基づき、前記音声の到来方向を検知する音声方向検知器と、前記音声区間判定器から出力された音声区間情報および前記音声方向検知器から出力された音声方向情報に基づき、前記第1の収音信号と前記第2の収音信号とを用いてノイズ低減処理を実施する適応フィルタと、を備え、前記音声方向検知器は、前記音声区間判定器が音声区間と判定した場合に、前記音声の到来方向を検知する。
前記音声方向検知器は、前記第1の収音信号と前記第2の収音信号の位相差に基づき前記音声の到来方向を検知してもよい。
前記適応フィルタは、前記第1の収音信号と前記第2の収音信号とのうち、より位相が早いいずれか一方の収音信号に含まれるノイズ成分を他方の収音信号を用いて低減してもよい。
前記第1の収音信号の位相と前記第2の収音信号の位相の位相差が所定の範囲内である場合、前記適応フィルタはノイズ低減処理を実施することなく前記第1の収音信号または前記第2の収音信号を出力してもよい。
前記音声方向検知器は、前記第1の収音信号の大きさと前記第2の収音信号の大きさに基づき前記音声の到来方向を検知してもよい。
前記第1の収音信号の大きさが前記第2の収音信号の大きさよりも大きい場合、前記適応フィルタは、前記第1の収音信号と前記第2の収音信号とのうち、より大きさの大きいいずれか一方の収音信号に含まれるノイズ成分を他方の収音信号を用いて低減してもよい。
前記第1の収音信号の大きさと前記第2の収音信号の大きさの差であるパワー差が所定の範囲内である場合、前記適応フィルタはノイズ低減処理を実施することなく前記第1の収音信号または前記第2の収音信号を出力してもよい。
前記音声方向検知器は、前記第1の収音信号と前記第2の収音信号の位相差、並びに前記第1の収音信号の大きさおよび前記第2の収音信号の大きさに基づき、前記音声の到来方向を検知してもよい。
前記第1の収音信号の位相が前記第2の収音信号の位相よりも早い場合、前記音声区間判定器は、前記第1の収音信号に基づき音声区間を判定してもよく、前記第2の収音信号の位相が前記第1の収音信号の位相よりも早い場合、前記音声区間判定器は、前記第2の収音信号に基づき音声区間を判定してもよい。
前記音声方向検知器には、前記第1および第2の収音信号としてサンプリング周波数が24kHz以上の信号が供給されてもよく、前記適応フィルタには、前記第1および第2の収音信号としてサンプリング周波数が12kHz以下の信号が供給されてもよい。
前記音声区間判定器は、前記適応フィルタに出力される音声区間判定情報よりも更に高い確率で音声区間であると判定された音声区間判定情報を前記音声方向検知器に出力してもよい。
上記した実施の形態にかかる典型的なノイズ低減装置を備えた音声入力装置において、前記第1のマイクロフォンは前記音声入力装置の第1の面に設けられていてもよく、前記第2のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に設けられていてもよい。
上記した実施の形態にかかる典型的なノイズ低減方法は、第1および第2のマイクロフォンの少なくとも一方で収音された音声に基づき音声区間を判定し、音声区間であると判定された場合に、前記第1のマイクロフォンで収音された音に応じた第1の収音信号と前記第2のマイクロフォンで収音された音に応じた第2の収音信号とに基づき前記音声の到来方向を検知し、前記音声区間の判定結果である音声区間情報および前記音声の到来方向を示す音声方向情報に基づきノイズ低減処理を実施する。
また、上記した実施の形態にかかる他の典型的なノイズ低減装置は、複数のマイクロフォンで収音された音にそれぞれ応じた複数の収音信号の位相差情報に基づき、前記複数の収音信号の中から第1の収音信号および当該第1の収音信号に含まれるノイズ成分を低減させるために用いられる第2の収音信号を決定する信号決定部と、前記信号決定部で決定された前記第1の収音信号に含まれるノイズ成分を前記第2の収音信号を用いて低減する適応フィルタと、を備える。
前記ノイズ低減装置は、前記複数の収音信号のうちの1つの収音信号に基づき音声区間を判定する音声区間判定器を更に備えていてもよく、前記信号決定部は、前記音声区間判定器が音声区間と判定した場合に、前記複数の収音信号の中から前記第1の収音信号および前記第2の収音信号を決定してもよい。
前記ノイズ低減装置は、前記信号決定部で決定された前記第1の収音信号を用いて音声区間を判定する音声区間判定器を更に備えていてもよく、前記適応フィルタは、前記音声区間判定器が音声区間と判定した場合に前記信号決定部で決定された前記第1の収音信号に含まれるノイズ成分を前記第2の収音信号を用いて低減してもよい。
前記信号決定部は、前記複数の収音信号のうち最も位相が早い収音信号を前記第1の収音信号として決定し、最も位相が遅い収音信号を前記第2の収音信号として決定してもよい。
前記信号決定部は、前記複数の収音信号のうち、位相が遅く且つ収音信号のパワーが所定の値よりも大きい収音信号を前記第2の収音信号として決定してもよい。
前記信号決定部は、前記複数の収音信号のうち位相が最も遅い収音信号のパワーが所定の値以下である場合、次に位相が遅く且つ収音信号のパワーが所定の値よりも大きい収音信号を前記第2の収音信号として決定してもよい。
前記第1の収音信号以外の収音信号の各々の位相差が所定の範囲内である場合、前記信号決定部は、前記第1の収音信号以外の収音信号のうち、収音信号のパワーが最も大きい収音信号を前記第2の収音信号として決定してもよい。
前記複数のマイクロフォンは、1つの音声用マイクロフォンと複数の参照音用マイクロフォンとを含み、前記複数の参照音用マイクロフォンにそれぞれ対応した複数の収音信号のうち最も位相が早い収音信号の位相が、前記音声用マイクロフォンに対応した収音信号の位相よりも早い場合、前記信号決定部は、前記参照音用マイクロフォンに対応した最も位相が早い収音信号を前記第1の収音信号として決定してもよい。
前記複数の参照音用マイクロフォンにそれぞれ対応した複数の収音信号のうち最も位相が遅い収音信号の位相が、前記音声用マイクロフォンに対応した収音信号の位相よりも遅い場合、前記信号決定部は、前記参照音用マイクロフォンに対応した最も位相が遅い収音信号を前記第2の収音信号として決定してもよい。
前記信号決定部には、前記複数の収音信号としてサンプリング周波数が24kHz以上の信号が供給されてもよく、前記適応フィルタには、前記複数の収音信号としてサンプリング周波数が12kHz以下の信号が供給されてもよい。
また、上記した実施の形態にかかる他の典型的なノイズ低減装置を備えた音声入力装置において、前記複数のマイクロフォンのうちの第1のマイクロフォンは前記音声入力装置の第1の面に設けられてもよく、前記複数のマイクロフォンのうちの第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられてもよい。
上記した実施の形態にかかる他の典型的なノイズ低減装置を備えた無線通信装置において、前記複数のマイクロフォンのうちの第1のマイクロフォンは前記無線通信装置の第1の面に設けられてもよく、前記複数のマイクロフォンのうちの第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられてもよい。
上記した実施の形態にかかる他の典型的なノイズ低減方法は、複数のマイクロフォンで収音された音にそれぞれ応じた複数の収音信号の位相差情報に基づき、前記複数の収音信号の中からノイズ低減処理に用いる第1の収音信号および第2の収音信号を決定し、前記決定された前記第1の収音信号に含まれるノイズ成分を前記第2の収音信号を用いて低減する。
上記した実施の形態にかかる他の典型的な音声入力装置はノイズ低減装置を備え、前記ノイズ低減装置は、主として音声成分を収音するための第1のマイクロフォンと、主としてノイズ成分を収音するための第2および第3のマイクロフォンとを備え、前記第1のマイクロフォンは前記音声入力装置の第1の面に設けられ、前記第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられている。
上記した実施の形態にかかる他の典型的な音声入力装置において、前記第2および第3のマイクロフォンは、当該第2および第3のマイクロフォンを結ぶ線分と前記中心線とが所定の角度で交わるように設けられていてもよい。
上記した実施の形態にかかる他の典型的な音声入力装置において、前記第2および第3のマイクロフォンは、前記中心線と垂直に交わる2つの線分と、前記中心線と平行でかつ前記中心線に対して対称に配置された2つの線分とで形成される矩形の対角の位置に設けられていてもよい。
上記した実施の形態にかかる他の典型的な無線通信装置はノイズ低減装置を備え、前記ノイズ低減装置は、主として音声成分を収音するための第1のマイクロフォンと、主としてノイズ成分を収音するための第2および第3のマイクロフォンとを備え、前記第1のマイクロフォンは前記無線通信装置の第1の面に設けられ、前記第2および第3のマイクロフォンは、前記第1の面と所定の距離を隔てて対向している第2の面に、当該第2の面の中心線に対して非対称となるように設けられている。
上記した実施の形態にかかる他の典型的な無線通信装置において、前記第2および第3のマイクロフォンは、当該第2および第3のマイクロフォンを結ぶ線分と前記中心線とが所定の角度で交わるように設けられていてもよい。
上記した実施の形態にかかる他の典型的な無線通信装置において、前記第2および第3のマイクロフォンは、前記中心線と垂直に交わる2つの線分と、前記中心線と平行でかつ前記中心線に対して対称に配置された2つの線分とで形成される矩形の対角の位置に設けられていてもよい。
上記した実施の形態によれば、様々な環境下においても音声信号に含まれるノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することが可能となる。
以上、本発明を上記実施形態に即して説明したが、上記実施形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。