<実施の形態1>
以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態1にかかるノイズ低減装置を示すブロック図である。図1に示すように、本実施の形態にかかるノイズ低減装置1は、音声用マイクロフォン11、参照音用マイクロフォン12、ADコンバータ13、14、音声ノイズ区間検出部15、位相情報取得部16、ノイズ低減処理判定部17、およびノイズ低減処理部18を有する。
音声用マイクロフォン11および参照音用マイクロフォン12はそれぞれ、音声成分やノイズ成分を含む音を収音することができる。音声用マイクロフォン11は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ13に出力する。参照音用マイクロフォン12は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ14に出力する。例えば、参照音用マイクロフォン12で収音された音に含まれるノイズ成分は、音声用マイクロフォン11で収音された音に含まれるノイズ成分を低減するために用いられる。
なお、本実施の形態にかかるノイズ低減装置では、マイクロフォンが2つの場合(つまり、音声用マイクロフォン11と参照音用マイクロフォン12)の構成について説明するが、例えば参照音用マイクロフォンを更に追加してマイクロフォンを3つ以上設けてもよい。
ADコンバータ13は、音声用マイクロフォン11から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号21を生成する。ADコンバータ13で生成された収音信号21は、音声ノイズ区間検出部15、位相情報取得部16、およびノイズ低減処理部18に出力される。
ADコンバータ14は、参照音用マイクロフォン12から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号22を生成する。ADコンバータ14で生成された収音信号22は、位相情報取得部16およびノイズ低減処理部18に出力される。
本実施の形態において、音声用マイクロフォン11および参照音用マイクロフォン12に入力される音声の周波数帯域は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ13、14におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。
なお、本明細書では、主に音声成分を含む収音信号を音声信号とも記載し、主にノイズ成分を含む収音信号を参照信号とも記載する。
音声ノイズ区間検出部15は、ADコンバータ13から出力された収音信号21に基づき音声区間およびノイズ区間を検出する。そして、音声ノイズ区間検出部15は、音声区間およびノイズ区間を示す音声ノイズ区間情報23、24を、位相情報取得部16およびノイズ低減処理部18にそれぞれ出力する。
音声ノイズ区間検出部15における音声ノイズ区間検出処理には任意の技術を用いることができる。なお、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間とノイズ区間を判定することが好ましく、例えば、後述する音声ノイズ区間検出技術Aや音声ノイズ区間検出技術Bを用いることで、音声区間およびノイズ区間を高い精度で検出することができる。音声には人の声以外の音も含まれるが、これらの例では、主に人の声を検出する。なお、音声ノイズ区間検出技術Aは、一例として、特願2010−260798に基づく優先権を主張する出願である特願2011−254578にも記載されている。また、音声ノイズ区間検出技術Bは、一例として、特願2011−020459にも記載されている。
最初に、音声ノイズ区間検出技術Aについて説明する。音声ノイズ区間検出技術Aでは、音声の主要部分である母音成分の持つ周波数スペクトルに着目し、音声区間を判定している。音声ノイズ区間検出技術Aでは、適切なノイズレベルを帯域毎に設定し、母音周波数成分のピークとの信号対ノイズレベル比を求め、信号対ノイズレベル比が所定のレベル比かつ所定のピーク数であるか否かを観察することで、音声区間を判定している。
図2は、音声ノイズ区間検出技術Aを用いた音声ノイズ区間検出部15'の一例を示すブロック図である。図2に示す音声ノイズ区間検出部15'は、フレーム化部31、スペクトル生成部32、帯域分割部33、周波数平均部34、保持部35、時間平均部36、ピーク検出部37、および音声判定部38を備える。
フレーム化部31は、収音信号21を予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、フレーム化入力信号と称す)を生成する。
スペクトル生成部32は、フレーム化部31から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine Transform)等の直交変換法を用いるとよい。本実施の形態において、スペクトル生成部32は、少なくとも200Hzから700Hzのスペクトルパターンを生成する。
後述する音声判定部38が音声区間を判定する際に検出する対象である、音声の特徴を示すスペクトル(以下、フォルマントと称す)には、通常、基音に相当する第1フォルマントから、その倍音部分である第nフォルマント(nは自然数)まで複数ある。このうち、第1フォルマントや第2フォルマントは200Hz未満の周波数帯域に存在することが多い。しかし、この帯域には、低域ノイズ成分が比較的高いエネルギーで含まれているため、フォルマントが埋没し易い。また700Hz以上のフォルマントは、フォルマント自体のエネルギーが低いため、やはりノイズ成分に埋没し易い。そのため、ノイズ成分に埋没し難い200Hzから700Hzのスペクトルパターンを音声区間の判定に用いることで、判定対象を絞り、効率的に音声区間の判定を行うことができる。
帯域分割部33は、適切な周波数帯域単位で音声に特徴的なスペクトルを検出するため、スペクトルパターンの各スペクトルを、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域に分割する。本実施の形態において、予め定められた帯域幅は、100Hzから150Hz程度の帯域幅とする。
周波数平均部34は、分割周波数帯域毎の平均エネルギーを求める。本実施の形態では、周波数平均部34は、分割周波数帯域毎に、分割周波数帯域におけるすべてのスペクトルのエネルギーを平均するが、演算負荷軽減のためスペクトルのエネルギーの代わりにスペクトルの最大または平均振幅値(絶対値)を代用してもよい。
保持部35は、RAM(Random Access Memory)、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ等の記憶媒体で構成され、帯域毎の平均エネルギーを過去の予め定められた数(本実施の形態においてはNとする)のフレーム分保持する。
時間平均部36は、分割周波数帯域毎に、周波数平均部34で導出された平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出する。すなわち、帯域別エネルギーは、分割周波数帯域毎の平均エネルギーの時間方向の複数のフレームに渡る平均値である。また、時間平均部36は、直前のフレームの分割周波数帯域毎の平均エネルギーに、重み付け係数と時定数を用いて平均化に準じる処理をして、帯域別エネルギーの代用値を求めてもよい。
ピーク検出部37は、スペクトルパターンの各スペクトルと、そのスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比(SNR:Signal to Noise ratio)を導出する。そして、ピーク検出部37は、スペクトル毎のSNRと、予め定められた閾値Aとを比較し、閾値Aを超えるか否かを判定する。SNRが閾値Aを超えるスペクトルがあると、このスペクトルをフォルマントとみなし、フォルマントが検出された旨を示す情報を、音声判定部38に出力する。
音声判定部38は、フォルマントが検出されたという情報をピーク検出部37から受け付けると、ピーク検出部37の判定結果に基づいて、該当フレームのフレーム化入力信号が音声であるか否か判定する。音声判定部38は、フレーム化入力信号が音声であると判定した場合、位相情報取得部16およびノイズ低減処理部18に音声区間を示す音声ノイズ区間情報23、24をそれぞれ出力する。一方、音声判定部38は、フレーム化入力信号が音声ではないと判定した場合、位相情報取得部16およびノイズ低減処理部18にノイズ区間を示す音声ノイズ区間情報23、24をそれぞれ出力する。
図2に示す音声ノイズ区間検出部15'は、分割周波数帯域毎に、その分割周波数帯域の帯域別エネルギーを設定している。そのため、音声判定部38は、他の分割周波数帯域のノイズ成分の影響を受けずに、それぞれの分割周波数帯域毎にフォルマントの有無を精度よく判定することができる。
上述したように、フォルマントには、第1フォルマントから、その倍音部分である第nフォルマントまで複数ある。したがって、任意の分割周波数帯域の帯域別エネルギー(ノイズレベル)が上昇し、フォルマントの一部がノイズに埋没しても、他の複数のフォルマントを検出できる場合がある。特に、周囲ノイズは低域に集中するため、基音に相当する第1フォルマントや2倍音に相当する第2フォルマントが低域のノイズに埋没していても、3倍音以上のフォルマントを検出できる可能性がある。よって、音声判定部38は、SNRが閾値Aを超えるスペクトルが所定数以上である場合、フレーム化入力信号が音声であると判定することで、よりノイズに強い音声区間の判定を行うことができる。
以上で説明したように、音声ノイズ区間検出技術Aを用いた音声ノイズ区間検出部15'は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部31と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部32と、スペクトルパターンの各スペクトルと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた閾値Aを超えるか否かを判定するピーク検出部37と、ピーク検出部の判定結果に基づいて、フレーム化入力信号が音声であるか否か判定する音声判定部38と、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出する周波数平均部34と、分割周波数帯域毎に、平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均部36と、を備える。
例えば、音声判定部38は、エネルギー比が閾値Aを超えるスペクトルが予め定められた数以上であると、フレーム化入力信号が音声であると判定することができる。
次に、音声ノイズ区間検出技術Bについて説明する。音声ノイズ区間検出技術Bでは、子音の特徴であるスペクトルパターンが右上がりになる傾向があるという性質に着目して、音声区間を判定している。音声ノイズ区間検出技術Bでは、子音のスペクトルパターンを中高域の周波数帯において測定し、更に部分的にノイズ成分によって埋没してしまった子音の周波数分布の特徴を、ノイズの影響があまり無かった帯域に特化して抽出することで、音声区間を高精度で判定することを可能にしている。
図3は、音声ノイズ区間検出技術Bを用いた音声ノイズ区間検出部15''の一例を示すブロック図である。音声ノイズ区間検出部15''は、フレーム化部41、スペクトル生成部42、帯域分割部43、平均導出部44、ノイズレベル導出部45、判定選択部46、および子音判定部47を備える。
フレーム化部41は、収音信号21を予め定められた時間幅を有するフレーム単位で順次切り出し、フレーム単位の入力信号であるフレーム化入力信号を生成する。
スペクトル生成部42は、フレーム化部41から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFTやDCT等の直交変換法を用いるとよい。
帯域分割部43は、スペクトル生成部42が生成したスペクトルパターンの各スペクトルを、予め定められた帯域幅毎に分割し、複数の分割周波数帯域を生成する。本実施の形態において、帯域分割部43は、例えば、800Hz〜3.5kHzの周波数範囲について、例えば、100Hz〜300Hz程度の帯域幅毎に分割する。
平均導出部44は、スペクトルパターンにおける、連接する、帯域分割部43が分割した分割周波数帯域(バンド)毎の平均エネルギーである帯域別平均エネルギーを導出する。
子音判定部47は、平均導出部44が導出した帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、そのフレーム化入力信号に子音が含まれると判定する。
一般的に、子音はスペクトルパターンが右上がりになる傾向がある。そこで、音声ノイズ区間検出技術Bを用いた音声ノイズ区間検出部15''は、スペクトルパターンにおける帯域別平均エネルギーを導出し、その帯域別エネルギー同士を比較することで子音に特徴的な、スペクトルパターンにおける右上がりの傾向を検出する。そのため、音声ノイズ区間検出部15''は、入力信号に子音が含まれる子音区間を精度よく検出することができる。
子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた閾値A以上であると、子音が含まれると判定する第1判定手段を備える。また、子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計測し、更にこの組み合わせが帯域を跨いで連続する場合に重み付けをして計数し、計数した計数値が、予め定められた閾値B以上であると、子音が含まれると判定する第2判定手段を備える。子音判定部47は、第1判定手段と第2判定手段をそれぞれノイズレベルに応じて使い分ける。
ここで、第1判定手段と第2判定手段とを適宜選択すべく、ノイズレベル導出部45は、フレーム化入力信号のノイズレベルを導出する。例えば、ノイズレベルは、フレーム化入力信号のすべての周波数帯域の帯域別平均エネルギーの平均値とすることができる。また、ノイズレベル導出部45は、フレーム化入力信号毎にノイズレベルを導出してもよいし、所定時間分のフレーム化入力信号のノイズレベルの平均値を用いてもよい。判定選択部46は、導出されたノイズレベルが所定の閾値未満の場合、第1判定手段を選択し、所定の閾値以上の場合、第2判定手段を選択する。
以上で説明したように、音声ノイズ区間検出技術Bを用いた音声ノイズ区間検出部15''は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部41と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部42と、スペクトルパターンにおける、連接する予め定められた帯域幅毎の平均エネルギーである帯域別平均エネルギーを導出する平均導出部44と、導出された帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、フレーム化入力信号に子音が含まれると判定する子音判定部47と、を備える。
例えば、子音判定部47は、スペクトルパターンの隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた閾値以上であると、子音が含まれると判定することができる。
なお、本実施の形態にかかるノイズ低減装置に上記の音声ノイズ区間検出技術A、Bを適用する場合、製品毎にパラメータを設定することができる。すなわち、より確実な音声区間の判定が要求される製品に音声ノイズ区間検出技術A、Bを適用する場合、音声区間判定のパラメータとしてより厳しい閾値を設定することができる。
図1に示すノイズ低減装置1の位相情報取得部16は、音声ノイズ区間情報23が音声区間を示す場合、音声区間における収音信号21と収音信号22との位相差である音声位相差を取得する。また、位相情報取得部16は、音声ノイズ区間情報23がノイズ区間を示す場合、ノイズ区間における収音信号21と収音信号22との位相差であるノイズ位相差を取得する。取得された音声位相差およびノイズ位相差は、位相情報25としてノイズ低減処理判定部17に供給される。
例えば、トランシーバーのような携帯機器(無線通信装置)や、無線通信装置に用いるスピーカーマイクロフォン(音声入力装置)のような小型機器に、本実施の形態にかかるノイズ低減装置を適用する場合(図10、図11参照)、音声を拾い易い表側に音声用マイクロフォン11を設け、音声を拾い難い裏側に参照音用マイクロフォン12を設ける。これにより、音声用マイクロフォン11では音声成分を主に収音し、参照音用マイクロフォン12ではノイズ成分を主に収音することができる。
上記の無線通信装置や音声入力装置は、一般的に人間の握りこぶしよりも少し小さい程度の大きさである。よって、音源と音声用マイクロフォン11との距離と、音源と参照音用マイクロフォン12との距離の差は、機器毎やマイクロフォンの配置により異なるものの、5〜10cm程度であると考えられる。ここで、音声の空間伝達速度を34000cm/sとすると、サンプリング周波数が8kHzの場合、1サンプル間において音声が伝達する距離は34000÷8000=4.25であるので、4.25cmとなる。仮に、音声用マイクロフォン11と参照音用マイクロフォン12との距離が5cmであれば、サンプリング周波数が8kHzでは音声の方向を推定するには不十分である。
この場合、サンプリング周波数を8kHzの3倍である24kHzとすると、34000÷24000≒1.42cmとなり、5cmの間に3〜4点の位相差ポイントを測定することができる。よって、収音信号21と収音信号22の位相差に基づいて音声の到来方向を検出する場合は、位相情報取得部16に入力される収音信号21と収音信号22のサンプリング周波数を24kHz以上にするとよい。
図1に示すノイズ低減装置1において、例えばADコンバータ13、14から出力された収音信号21、22のサンプリング周波数が8〜12kHzである場合は、ADコンバータ13、14と位相情報取得部16との間に、サンプリング周波数変換器を設け、位相情報取得部16に供給される収音信号21、22のサンプリング周波数を24kHz以上に変換してもよい。
一方、例えばADコンバータ13、14から出力された収音信号21、22のサンプリング周波数が24kHz以上である場合は、ADコンバータ13と音声ノイズ区間検出部15との間、およびADコンバータ13、14とノイズ低減処理部18との間に、サンプリング周波数変換器を設け、音声ノイズ区間検出部15およびノイズ低減処理部18に供給される収音信号21、22のサンプリング周波数を8〜12kHzに変換してもよい。
収音信号21と収音信号22の位相差は、音声用マイクロフォン11の位置に対する音声またはノイズの到来方向を示すものである。例えば、話者(音声の音源)が音声用マイクロフォン11と参照音用マイクロフォン12を直線で結んだ延長線上の音声用マイクロフォン11側から話す場合、位相差が正の方向に最も大きくなる。換言すると、音声が音声用マイクロフォン11と参照音用マイクロフォン12とに到達する際のマイクロフォン間の時間差が正の方向に最も大きくなる(つまり、音声用マイクロフォン11に最も早く音声が到達する)。
一方、話者(音声の音源)が音声用マイクロフォン11と参照音用マイクロフォン12を直線で結んだ延長線上の参照音用マイクロフォン12側から話す場合、位相差が負の方向に最も大きくなる。換言すると、音声が音声用マイクロフォン11と参照音用マイクロフォン12とに到達する際のマイクロフォン間の時間差が負の方向に最も大きくなる(つまり、音声用マイクロフォン11に最も遅く音声が到達する)。
また、話者(音声の音源)が音声用マイクロフォン11と参照音用マイクロフォン12とを結ぶ線分の垂直二等分線上の位置(つまり、音声用マイクロフォン11と参照音用マイクロフォン12の中間の位置)から話す場合は、それぞれのマイクロフォンに音声が同時に到達するので、位相差(時間差)はゼロとなる。
このように、音声用マイクロフォン11からの収音信号21と参照音用マイクロフォン12からの収音信号22とを用いて最も相関が高くなる位置を検出することで、収音信号21および収音信号22のうちのいずれか一方を基準として位相差を取得することができる。なお、以下では、音声用マイクロフォン11からの収音信号21を基準とする場合を例として説明する。
図4は、本実施の形態にかかるノイズ低減装置1が備える位相情報取得部の一例を示すブロック図である。図4に示す位相情報取得部16は、基準信号バッファ51、基準信号抽出部52、比較信号バッファ53、比較信号抽出部54、相互相関値算出部55、位相差取得部56、音声位相差格納部57、ノイズ位相差格納部58、およびセレクタ59を備える。
基準信号バッファ51は、ADコンバータ13から出力された収音信号21を一時的に蓄積する。比較信号バッファ53は、ADコンバータ14から出力された収音信号22を一時的に蓄積する。
音源が一つで同時刻に発せられる音声やノイズは、各マイクロフォン11、12への伝達経路が異なるため各マイクロフォン11、12で検出される位相や振幅値は異なる。しかし、音声やノイズの音源が一つである場合は、各マイクロフォン11、12で検出される音声成分の位相や振幅値は類似しており相関性は非常に高いといえる。特に、本実施の形態では、音声区間において音声をノイズ区間においてノイズをそれぞれ収音しているので、各マイクロフォン11、12で検出される音声成分の相関性やノイズ成分の相関性は非常に高いといえる。よって、この相関性を測定することで位相差を求めることができ、音源の方向を推定することができる。2つのマイクロフォン11、12の間における位相差は、例えば相互相関関数や最小二乗法を用いて算出することができる。
一般的に、2つの信号波形x1(t)とx2(t)の相互相関関数は次の式で表すことができる。
基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形x1(t)を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形x2(t)を抽出し、当該信号波形x2(t)を移動する。相互相関値算出部55は、信号波形x1(t)と信号波形x2(t)とに対して畳み込み演算(積和演算)を実施することで、収音信号21と収音信号22の相関が高いポイントを判断する。このとき、収音信号22のサンプリング周波数とマイクロフォン11、12の空間的な距離から算出される最大位相差分に応じて、信号波形x2(t)を前後にシフトしながら畳み込み演算値を計算する。畳み込み演算値が最大となるポイントは符号が一致する場所であり最も相関が高いと判断することができる。
具体的に説明すると、例えば、相関性を比較する時間幅(サンプル数)を200[sample]とした場合、収音信号(基準信号)21を固定した上で、比較対象とする収音信号(比較信号)22を同時刻のサンプル先頭から−L[sample]のポイントから+L[sample]のポイントまで移動することで相互相関値を計算することができる。ここで、Lは収音信号21をデジタル変換する際のサンプリング周波数とマイクロフォン11、12間の距離とからその最大値を指定することができる。τ番目の相互相関値(τ)は、上記式1を用いて求めることができる。このとき、τの範囲は−Lから+Lまでであり、N=200である。
全ての相互相関値(τ)を求めて最も相互相関値が高いτ[sample]を抽出する。分解能は、ADコンバータ13、14のサンプリング周波数に応じて変化する。例えば、"1[sample]あたりの時間[sec]=1/サンプリング周波数"であるので、サンプリング周波数が96[kHz]の場合は、1[sample]あたりの時間は、約10.42[msec]となる。この1[sample]に相当する時間にτ[sample]を乗算したものがマイク間の到達時間差となり、位相のずれ(位相差)を導くことが可能となる。
また、最小二乗法を用いる場合は、次の式を用いることができる。
最小二乗法を用いる場合、基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形を抽出し、当該信号波形を移動する。相互相関値算出部55は、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形との差分値の二乗和を計算する。この二乗和が最小となるポイントは、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形とが互いに相似形となる(重なり合う)場所であり、最も相関が高いと判断することができる。最小二乗法を用いる場合は基準信号と比較信号の大きさを揃えることが望ましく、一方を基準として予め正規化しておくのが好ましい。
相互相関値算出部55は、上記の演算により得られた、基準信号と比較信号の相関関係に関する情報を位相差取得部56に出力する。すなわち、相互相関値算出部55で相関が高いと判断された2つの信号波形(つまり、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形)は、音源を同一とする音声やノイズの信号波形である可能性が高い。よって、位相差取得部56は、相関が高いと判断された2つの信号波形の位相差を求めることで、音声用マイクロフォン11で収音された音と参照音用マイクロフォン12で収音された音の位相差を求めることができる。
位相情報取得部16は、音声ノイズ区間検出部15が音声区間を検出している場合、収音信号21と収音信号22との位相差(音声位相差)を更新する。また、位相情報取得部16は、音声ノイズ区間検出部15がノイズ区間を検出している場合、収音信号21と収音信号22との位相差(ノイズ位相差)を更新する。
例えば、音声ノイズ区間検出部15から供給される音声ノイズ区間情報23が音声区間を示している場合、位相差取得部56で取得される位相差は音声の位相差(音声位相差)である確率が高いといえる。このとき、セレクタ59には音声ノイズ区間情報23として音声区間を示す信号が供給されるので、セレクタ59は位相差取得部56から出力された位相差(音声位相差)を音声位相差格納部57に出力する。音声位相差格納部57は、既に格納されている音声位相差を、セレクタ59から供給された最新の音声位相差に更新する。更新された音声位相差は、次に音声ノイズ区間情報23が音声区間を示すタイミング(つまり、音声位相差の次の更新のタイミング)まで保持される。
また、音声ノイズ区間検出部15から供給される音声ノイズ区間情報23がノイズ区間を示している場合、位相差取得部56で取得される位相差はノイズの位相差(ノイズ位相差)である確率が高いといえる。このとき、セレクタ59には音声ノイズ区間情報23としてノイズ区間を示す信号が供給されるので、セレクタ59は位相差取得部56から出力された位相差(ノイズ位相差)をノイズ位相差格納部58に出力する。ノイズ位相差格納部58は、既に格納されているノイズ位相差を、セレクタ59から供給された最新のノイズ位相差に更新する。更新されたノイズ位相差は、次に音声ノイズ区間情報23がノイズ区間を示すタイミング(つまり、ノイズ位相差の次の更新のタイミング)まで保持される。
音声位相差格納部57に格納されている音声位相差およびノイズ位相差格納部58に格納されているノイズ位相差は、位相情報25としてノイズ低減処理判定部17に供給される。このとき、音声位相差およびノイズ位相差は、ノイズ低減処理判定部17においてそれぞれ分離して認識される。
図5〜図7は、本実施の形態にかかるノイズ低減装置が備える音声用マイクロフォン11と参照音用マイクロフォン12とに対する音声およびノイズの音源の位置の一例を示す図である。図5〜図7では、無線通信装置600の表面側に音声用マイクロフォン11が設けられており、裏面側に参照音用マイクロフォン12が設けられている。通常、話者は無線通信装置600の表面側に設けられている音声用マイクロフォン11に向かって声を発する。
図5に示すように、音声の音源(話者)が音声用マイクロフォン11側である場合、音声用マイクロフォン11で収音される音声の位相は、参照音用マイクロフォン12で収音される音声の位相よりも早い。よって、この場合は、収音信号21と収音信号22の位相差(音声位相差)はプラスとなる。
一方、ノイズの音源が参照音用マイクロフォン12側である場合、音声用マイクロフォン11で収音されるノイズの位相は、参照音用マイクロフォン12で収音されるノイズの位相よりも遅い。よって、この場合は、収音信号21と収音信号22の位相差(ノイズ位相差)はマイナスとなる。
また、図6に示すように、音声の音源(話者)とノイズの音源とが共に音声用マイクロフォン11側である場合、音声用マイクロフォン11で収音される音声の位相は、参照音用マイクロフォン12で収音される音声の位相よりも早い。また、音声用マイクロフォン11で収音されるノイズの位相は、参照音用マイクロフォン12で収音されるノイズの位相よりも早い。よって、この場合は、音声区間における収音信号21と収音信号22の位相差(音声位相差)およびノイズ区間における収音信号21と収音信号22の位相差(ノイズ位相差)は共にプラスとなる。
また、図7に示すように、音声の音源(話者)とノイズの音源とが共に参照音用マイクロフォン12側である場合、音声用マイクロフォン11で収音される音声の位相は、参照音用マイクロフォン12で収音される音声の位相よりも遅い。また、音声用マイクロフォン11で収音されるノイズの位相は、参照音用マイクロフォン12で収音されるノイズの位相よりも遅い。よって、この場合は、音声区間における収音信号21と収音信号22の位相差(音声位相差)およびノイズ区間における収音信号21と収音信号22の位相差(ノイズ位相差)は共にマイナスとなる。
図1に示すノイズ低減処理判定部17は、位相情報取得部16で取得された音声位相差とノイズ位相差の状態を判定する。例えば、音声位相差とノイズ位相差の状態が、ノイズ低減処理を実施する場合である第1の状態であるか否かや、ノイズ低減処理を実施しない場合またはノイズ低減処理を第1の状態よりも弱く実施する場合である第2の状態であるか否かを判定する。
例えば、ノイズ低減処理判定部17は、位相情報取得部16で取得された音声位相差とノイズ位相差との差の絶対値が所定の閾値(第1の閾値)以内である場合、第2の状態と判定することができる。以下では、ノイズ低減処理を実施しない場合またはノイズ低減処理を第1の状態よりも弱く実施する場合である第2の状態を、単に"ノイズ低減処理を実施しない場合"と記載する場合もある。
なお、音声位相差とノイズ位相差とを用いて、ノイズ低減処理を実施しない場合であるか、またはノイズ低減処理を第1の状態よりも弱く実施する場合であるかをさらに判定するようにしてもよい。新たな閾値を設けて音声成分自体を低減してしまう可能性がより高い場合にノイズ低減処理を実施しないようにすればよい。また、音声位相差とノイズ位相差との差分に常に適応させてノイズ低減処理の強さを変更するようにしてもよい。この場合、ノイズ低減処理判定部17が行う判定動作は、音声位相差と前記ノイズ位相差との差分の絶対値を算出する動作となり、ノイズ低減処理部はその差分の絶対値に応じた強さのノイズ低減処理を行う。例えば差分の絶対値が小さいほど弱いノイズ低減処理とすればよい。以上のことは実施の形態2のようにパワー差を用いた場合も、位相差とパワー差を置き換えて考えれば同様である。
ここで、所定の閾値は任意に設定することができる。例えば、所定の閾値を小さくするほど、ノイズ低減処理を実施する基準が緩くなる(換言すると、ノイズ低減処理を実施しないと判断する範囲が狭くなる)。つまり、音声位相差とノイズ位相差の差は、例えば、音声の音声用マイクロフォン11への進入角度(音声用マイクロフォン11の主面に対する音声の進入角度)と、ノイズの音声用マイクロフォン11への進入角度(音声用マイクロフォン11の主面に対するノイズの進入角度)との差に対応している。よって、所定の閾値を小さくするほど、ノイズ低減処理を実施しないと判断される音声とノイズの進入角度の差が狭くなる。
逆に、所定の閾値を大きくするほど、ノイズ低減処理を実施する基準が厳しくなる(換言すると、ノイズ低減処理を実施しないと判断する範囲が広くなる)。つまり、所定の閾値を大きくするほど、ノイズ低減処理を実施しないと判断される音声とノイズの進入角度の差が広くなる。
音声とノイズの進入角度の差が0に近づくにつれて、音声用マイクロフォン11と参照音用マイクロフォン12とで収音される音(音声およびノイズ)が近似する。このため、ノイズ低減処理部18においてノイズ低減処理を実施する際に、収音信号21に含まれるノイズ成分が低減されると同時に音声成分も低減されてしまうという問題がある。このような問題を解決するために、本実施の形態にかかるノイズ低減装置では、位相情報取得部16で取得された音声位相差とノイズ位相差の差(音声とノイズの進入角度の差に対応する)に基づきノイズ低減処理を実施するか否かを判定している。つまり、音声位相差とノイズ位相差との差の絶対値が所定の閾値以内である場合、ノイズ低減処理を実施しないと判定することができる。
例えば、ノイズ低減処理判定部17は、ノイズ低減処理を実施する(第1の状態)と判定した場合、判定フラグ26を無効(ロウレベル)とし、ノイズ低減処理を実施しないまたはノイズ低減処理を第1の状態よりも弱く実施する(第2の状態)と判定した場合、判定フラグ26を有効(ハイレベル)とする。
ノイズ低減処理部18は、ノイズ低減処理判定部17の判定結果に応じて収音信号21と収音信号22とを用いてノイズ低減処理を実施する。すなわち、ノイズ低減処理部18は、ノイズ低減処理を実施する(第1の状態)とノイズ低減処理判定部17において判定された場合(判定フラグ26がロウレベルの場合)、収音信号21に含まれるノイズ成分を収音信号22を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する。また、ノイズ低減処理を実施しないまたはノイズ低減処理を第1の状態よりも弱く実施する(第2の状態)とノイズ低減処理判定部17において判定された場合(判定フラグ26がハイレベルの場合)、収音信号21を音声信号としてそのまま出力してもよいし、また、ノイズ低減処理の効果が通常よりも弱めになるように、ノイズ低減処理を実施してもよい(つまり、図8に示す疑似ノイズ信号83を小さめに設定してもよい)。
ノイズ低減処理部18は、収音信号(音声信号)21に含まれたノイズ成分を低減するために、参照音用マイクロフォン12を用いてノイズ成分を含む参照音を収音し、この参照音に基づき収音信号21に含まれている可能性があるノイズ成分を擬似的に生成する。そして、ノイズ低減処理部18は、収音信号21から、この擬似的に生成したノイズ成分を差し引くことで、ノイズ低減処理を実施することができる。
例えば、ノイズ低減処理部18から出力された出力信号27(デジタル信号)は、DAコンバータ(不図示)においてアナログ信号に変換され、変換後のアナログ信号は出力部(不図示)においてスピーカーや音声出力端子から出力される。
図8は、ノイズ低減処理部18の一例を示すブロック図である。ノイズ低減処理部18は、遅延素子71_1〜71_n、乗算器72_1〜72_n+1、加算器73_1〜73_n、適応係数調整部74、減算器75、および出力信号選択部76を備える。遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nは、FIRフィルタを構成する。遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nを用いて収音信号22を処理することで、擬似ノイズ信号83が生成される。
適応係数調整部74は、音声ノイズ区間情報24に応じて、乗算器72_1〜72_n+1の係数を調整する。すなわち、適応係数調整部74は、音声ノイズ区間情報24がノイズ区間を示している場合、適応誤差が少なくなるように係数を調整する。一方、音声ノイズ区間情報24が音声区間を示している場合、係数を維持するか、または係数を微調整するのみとする。
減算器75は、収音信号21から疑似ノイズ信号83を差し引くことで、ノイズ低減処理後の信号84を生成し、出力信号選択部76に出力する。また、減算器75は、収音信号21から疑似ノイズ信号83を差し引くことで、フィードバック用の信号85を生成し、適応係数調整部74に出力する。
出力信号選択部76は、ノイズ低減処理判定部17から出力された判定フラグ26に応じて、収音信号21を出力信号27としてそのまま出力するか、またはノイズ低減処理後の信号84を出力信号27として出力するかを選択する。つまり、出力信号選択部76は、ノイズ低減処理判定部17から出力された判定フラグ26が有効(ハイレベル)である場合は、収音信号21を出力信号27としてそのまま出力する。一方、ノイズ低減処理判定部17から出力された判定フラグ26が無効(ロウレベル)である場合は、ノイズ低減処理後の信号84を出力信号27として出力する。
次に、本実施の形態にかかるノイズ低減装置1の動作について説明する。図9は、本実施の形態にかかるノイズ低減装置1の動作を説明するためのフローチャートである。
まず、音声ノイズ区間検出部15において、音声用マイクロフォン11で収音された音(収音信号21)が音声区間であるかまたはノイズ区間であるかを検出する(ステップS1)。このとき、音声区間およびノイズ区間を検出するための条件を厳しくすることで、音声区間およびノイズ区間を確実に検出することができる。
位相情報取得部16は、音声ノイズ区間検出部15で検出された音声ノイズ区間情報23がノイズ区間を示す場合(ステップS2:No)、ノイズ区間における収音信号21と収音信号22とを用いてノイズ位相差を取得する(ステップS3)。そして、位相情報取得部16は、ステップS3で取得したノイズ位相差を用いて、既に保持されているノイズ位相差を更新する(ステップS4)。
一方、位相情報取得部16は、音声ノイズ区間検出部15で検出された音声ノイズ区間情報23が音声区間を示す場合(ステップS2:Yes)、音声区間における収音信号21と収音信号22とを用いて音声位相差を取得する(ステップS5)。そして、位相情報取得部16は、ステップS5で取得した音声位相差を用いて、既に保持されている音声位相差を更新する(ステップS6)。
次に、ノイズ低減処理判定部17は、位相情報取得部16で取得した音声位相差とノイズ位相差とに基づきノイズ低減処理を実施するか否かを判定する。そして、ノイズ低減処理判定部17は、音声位相差とノイズ位相差との差の絶対値が所定の閾値よりも大きい場合(ステップS7:No)、ノイズ低減処理を実施すると判定する。このとき、ノイズ低減処理判定部17から出力される判定フラグ26は無効(ロウレベル)であるため、ノイズ低減処理部18は、収音信号21に含まれるノイズ成分を収音信号22を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する(ステップS8)。
一方、ノイズ低減処理判定部17は、音声位相差とノイズ位相差との差の絶対値が所定の閾値以内である場合(ステップS7:Yes)、ノイズ低減処理を実施しないと判定する。このとき、ノイズ低減処理判定部17から出力される判定フラグ26は有効(ハイレベル)であるため、ノイズ低減処理部18は、収音信号21(音声信号)をそのまま出力する(ステップS9)。
次に、本実施の形態にかかるノイズ低減装置を用いた音声入力装置について説明する。図10は、本実施の形態にかかるノイズ低減装置を用いた音声入力装置500の一例を示す図である。図10(a)は、音声入力装置500の前面図であり、図10(b)は、音声入力装置500の背面図である。図10に示すように、音声入力装置500はコネクタ503を介して無線通信装置510に接続可能に構成されている。無線通信装置510は一般的な無線機を用いることができ、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置510には音声入力装置500を介して話者の音声が入力される。
音声入力装置500は、本体501、コード502、及びコネクタ503を有する。本体501は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。図10(a)に示すように、本体501の前面にはスピーカー506および音声用マイクロフォン505が設けられている。図10(b)に示すように、本体501の背面には参照音用マイクロフォン508およびベルトクリップ507が設けられている。本体501の頂面には、LED509が設けられている。本体501の側面にはPTT(Push To Talk)504が設けられている。LED509は、音声入力装置500による話者の音声の検出状態を話者に対して報知する。PTT504は、無線通信装置510を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。
本実施の形態にかかるノイズ低減装置1は音声入力装置500に内蔵されており、ノイズ低減装置1が備える音声用マイクロフォン11が音声入力装置500の音声用マイクロフォン505に対応し、ノイズ低減装置1が備える参照音用マイクロフォン12が音声入力装置500の参照音用マイクロフォン508に対応している。また、ノイズ低減装置1から出力される出力信号27は、音声入力装置500のコード502を経由して無線通信装置510に供給される。すなわち、音声入力装置500は、ノイズ低減装置1でノイズ低減処理された後の出力信号27を、無線通信装置510に供給する。よって、無線通信装置510から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。なお、ノイズ低減装置1は、無線通信装置510に内蔵するような構成にしてもよい。
次に、本実施の形態にかかるノイズ低減装置を用いた無線通信装置(トランシーバー)600について説明する。図11は、本実施の形態にかかるノイズ低減装置を用いた無線通信装置600の一例を示す図である。図11(a)は、無線通信装置600の前面図であり、図11(b)は、無線通信装置600の背面図である。図11に示すように、無線通信装置600は、入力ボタン601、表示部602、スピーカー603、音声用マイクロフォン604、PTT(Push To Talk)605、スイッチ606、アンテナ607、参照音用マイクロフォン608、および蓋609を備える。
本実施の形態にかかるノイズ低減装置1は無線通信装置600に内蔵されており、ノイズ低減装置1が備える音声用マイクロフォン11が無線通信装置600の音声用マイクロフォン604に対応し、ノイズ低減装置1が備える参照音用マイクロフォン12が無線通信装置600の参照音用マイクロフォン608に対応している。また、ノイズ低減装置1から出力される出力信号27は、無線通信装置600の内部回路において高周波処理されて、アンテナ607から他の無線通信装置に無線送信される。ここで、ノイズ低減装置1から出力される出力信号27はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。ユーザによるPTT605の押下により音の送信が開始されたときに、図9で示したようなノイズ低減装置1の処理を開始し、ユーザがPTT608の押下を中止して、音の送信が終了したときに、図9で示したようなノイズ低減装置1の処理を終了しても良い。
本発明の課題で説明したように、音声を主に収音する音声用マイクロフォン11とノイズを主に収音する参照音用マイクロフォン12を用いてノイズ低減処理を実施する場合、ノイズの到来方向によっては音声の低減量(キャンセル量)が増大するという問題があった。つまり、ノイズ低減装置の使用状況によってはノイズを収音する参照音用マイクロフォン12にも音声が混入する場合もある。このように参照音用マイクロフォン12に音声が混入すると、音声用マイクロフォンで収音された音声に混入しているノイズ成分だけでなく音声自体もキャンセルされてしまい、音声の明瞭度が低下するという問題があった。
例えば、図7に示すように、音声の音源(話者)とノイズの音源とが共に参照音用マイクロフォン12側である場合は、参照音用マイクロフォン12においても音声が収音される。ここで、ノイズ低減装置は、参照音用マイクロフォン12で収音された参照音を収音し、この参照音に基づき収音信号21に含まれている可能性があるノイズ成分を擬似的に生成し、この擬似的に生成したノイズ成分を収音信号21から差し引くことでノイズ低減処理を実施している。このため、参照音用マイクロフォン12に音声が混入すると、音声用マイクロフォン11で収音された音に混入しているノイズ成分を低減する際に、ノイズ成分と共に音声自体もキャンセルされてしまうという問題があった。
また、例えば、図6に示すように、音声の音源(話者)とノイズの音源とが共に音声用マイクロフォン11側である場合は、ノイズの音源の方向から到来する音をキャンセルする作用が働き、同じ到来方向である音声成分は参照音用マイクロフォン12に混入する音声成分が例え少なくとも、音声用マイクロフォン11で収音される音声を低減してしまうことになり、音声の明瞭性が損なわれてしまう。また、音声の音源とノイズの音源とが同一方向である場合(図6及び図7参照)以外にも、音声用マイクロフォン11および参照音用マイクロフォン12を直線で結んだ軸上に対してミラー対称となるような方向から音声やノイズが到来する場合(つまり、各マイクロフォンへの音声とノイズの入射角度が近似する場合)には、ノイズ成分の低減と共に音声成分も低減されてしまうという問題があった。このような環境では、ノイズ低減処理時にノイズ成分と共に音声自体もキャンセルされてしまい、ノイズ低減処理を適切に実施することができないという問題があった。
また、特許文献1では、音声信号とノイズ信号とを区別するために、音声およびノイズを指向性マイクロフォンを用いて収音している。このとき、それぞれの指向性マイクロフォンが互いに反対向きとなるように配置している。しかしながら、例えば、話者が音声を収音する指向性マイクロフォンに対して90度横方向(つまり、2つの指向性マイクロフォンの中間の位置)から話した場合、指向性マイクロフォンでは音声を適切に収音することができない。また、2つの指向性マイクロフォンの横方向から話した場合は、音声用マイクロフォンおよびノイズ用マイクロフォンに均等に音声成分が入力される。この場合、ノイズと共に音声もキャンセルされるため出力される音声の品質が劣化する。
また、特許文献2では、音声信号とノイズ信号とを区別するために2種類の指向性マイクロフォンを組み合わせて使用している。しかしながら、指向性マイクロフォンは入力利得が一定の方向に定められている。よって、話者が音声用マイクロフォンの正面から外れた位置で話した場合、指向性の範囲を超えるために音声信号を収音できない場合がある。また、ノイズ用マイクロフォンに音声が入力された場合は、ノイズ成分と共に音声成分も低減処理されてしまう。
このように、音声およびノイズの到来方向によっては、ノイズ低減装置が適切にノイズ低減処理を実施することができないという問題があった。
このような問題を解決するために、本実施の形態にかかるノイズ低減装置では、音声区間における収音信号21と収音信号22との位相差である音声位相差と、ノイズ区間における収音信号21と収音信号22との位相差であるノイズ位相差とに基づきノイズ低減処理を実施するか否かを判定している。つまり、音声位相差とノイズ位相差との差の絶対値が所定の閾値以内である場合に、ノイズ低減処理を実施しないと判定することができる。
このように、本実施の形態にかかるノイズ低減装置では、ノイズ低減処理を実施するには不適切な場合を音声位相差とノイズ位相差とに基づいて判定することができる。よって、ノイズ低減処理を実施するには不適切な場合にノイズ低減処理を実施しないようにすることができる。ここで、ノイズ低減処理を実施するには不適切な場合とは、例えば、参照音用マイクロフォン12に音声が混入した場合や、音声用マイクロフォン11および参照音用マイクロフォン12を直線で結んだ軸上に対してミラー対称となるような方向から音声やノイズが到来する場合(つまり、各マイクロフォンへの音声とノイズの入射角度が近似する場合)などである。
図12、図13は、本実施の形態にかかる発明の効果を説明するための図である。図12、図13の横軸はサンプル時間[sec]、縦軸は音圧レベル[dB]である。図12は、参照音用マイクロフォン12にも音声が混入し、音声用マイクロフォン11で収音された音声に混入しているノイズ成分だけでなく音声自体もキャンセルされている状態を示している。また、図13は、本実施の形態にかかるノイズ低減装置を用いた場合を示している。つまり、図13では、ノイズ低減処理を実施するには不適切である場合を判定し、ノイズ低減処理を実施していない状態を示している。なお、図12に示す区間Aおよび区間Bの位置は、図13に示す区間Aおよび区間Bの位置に対応している。
図12に示すように、本実施の形態にかかるノイズ低減装置を用いない場合は、区間Aおよび区間Bにおいて音声成分が低減されている。これに対して、本実施の形態にかかるノイズ低減装置を用いた場合は、図13に示すように、区間Aおよび区間Bにおいて音声成分が低減されていない。よって、本実施の形態にかかるノイズ低減装置を用いることで、音声の到来方向とノイズの到来方向とに応じてノイズ低減処理を適切に実施することができる。
以上で説明した本実施の形態にかかる発明により、ノイズ成分を適切に低減することができるノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法を提供することができる。
<実施の形態2>
次に、本発明の実施の形態2について説明する。図14は、実施の形態2にかかるノイズ低減装置を示すブロック図である。本実施の形態にかかるノイズ低減装置2は、パワー情報取得部60を備えている点が実施の形態1で説明したノイズ低減装置1と異なる。これ以外は、実施の形態1で説明したノイズ低減装置1と同様であるので、同一の構成要素には同一の符号を付し重複した説明は省略する。
パワー情報取得部60は、音声ノイズ区間情報23が音声区間を示す場合、音声区間における収音信号21の大きさと収音信号22の大きさとの差である音声パワー差を取得する。また、パワー情報取得部60は、音声ノイズ区間情報23がノイズ区間を示す場合、ノイズ区間における収音信号21の大きさと収音信号22の大きさとの差であるノイズパワー差を取得する。取得された音声パワー差およびノイズパワー差は、パワー情報28としてノイズ低減処理判定部17に供給される。
図15は、本実施の形態にかかるノイズ低減装置2が備えるパワー情報取得部60の一例を示すブロック図である。図15に示すパワー情報取得部60は、収音信号バッファ61、収音信号パワー算出部62、収音信号バッファ63、収音信号パワー算出部64、パワー差算出部65、音声パワー差格納部67、ノイズパワー差格納部68、およびセレクタ69を備える。図15に示すパワー情報取得部60は、ある一定の単位時間における収音信号21および収音信号22のパワー情報(図15に示す場合は、パワー差)を求めることができる。
収音信号バッファ61は、単位時間分の収音信号21を蓄積するために、供給された収音信号21を一時的に蓄積する。収音信号バッファ63は、単位時間分の収音信号22を蓄積するために、供給された収音信号22を一時的に蓄積する。
収音信号パワー算出部62は、収音信号バッファ61に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。また、収音信号パワー算出部64は、収音信号バッファ63に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。
ここで、単位時間当たりのパワー値とは、単位時間における収音信号21、22の大きさであり、例えば、単位時間における収音信号21、22の振幅の最大値や、単位時間における収音信号21、22の振幅の積分値等を用いることができる。なお、本実施の形態では、収音信号21、22の大きさを示す値であれば、パワー値として上記の最大値や積分値以外の値を用いてもよい。
パワー差算出部65は、収音信号パワー算出部62で求めた収音信号21のパワー値と、収音信号パワー算出部64で求めた収音信号22のパワー値とのパワー差を算出する。
パワー情報取得部60は、音声ノイズ区間検出部15が音声区間を検出している場合、収音信号21と収音信号22のパワー差、つまり、収音信号21の大きさと収音信号22の大きさとの差(音声パワー差)を更新する。また、パワー情報取得部60は、音声ノイズ区間検出部15がノイズ区間を検出している場合、収音信号21と収音信号22とのパワー差、つまり、収音信号21の大きさと収音信号22の大きさとの差(ノイズパワー差)を更新する。
例えば、音声ノイズ区間検出部15から供給される音声ノイズ区間情報23が音声区間を示している場合、パワー差算出部65で算出されるパワー差は音声のパワー差(音声パワー差)である確率が高いといえる。このとき、セレクタ69には音声ノイズ区間情報23として音声区間を示す信号が供給されるので、セレクタ69はパワー差算出部65から出力されたパワー差(音声パワー差)を音声パワー差格納部67に出力する。音声パワー差格納部67は、既に格納されている音声パワー差を、セレクタ69から供給された最新の音声パワー差に更新する。更新された音声パワー差は、次に音声ノイズ区間情報23が音声区間を示すタイミング(つまり、音声パワー差の次の更新のタイミング)まで保持される。
また、音声ノイズ区間検出部15から供給される音声ノイズ区間情報23がノイズ区間を示している場合、パワー差算出部65で算出されるパワー差はノイズのパワー差(ノイズパワー差)である確率が高いといえる。このとき、セレクタ69には音声ノイズ区間情報23としてノイズ区間を示す信号が供給されるので、セレクタ69はパワー差算出部65から出力されたパワー差(ノイズパワー差)をノイズパワー差格納部68に出力する。ノイズパワー差格納部68は、既に格納されているノイズパワー差を、セレクタ69から供給された最新のノイズパワー差に更新する。更新されたノイズパワー差は、次に音声ノイズ区間情報23がノイズ区間を示すタイミング(つまり、ノイズパワー差の次の更新のタイミング)まで保持される。
音声パワー差格納部67に格納されている音声パワー差およびノイズパワー差格納部68に格納されているノイズパワー差は、パワー情報28としてノイズ低減処理判定部17に供給される。このとき、音声パワー差およびノイズパワー差は、ノイズ低減処理判定部17においてそれぞれ分離して認識される。
例えば、図5に示すように、音声の音源(話者)が音声用マイクロフォン11側である場合、音声用マイクロフォン11で収音される音声の大きさは、参照音用マイクロフォン12で収音される音声の大きさよりも大きい。よって、この場合は、収音信号21と収音信号22のパワー差(音声パワー差)はプラスとなる。
一方、ノイズの音源が参照音用マイクロフォン12側である場合、音声用マイクロフォン11で収音されるノイズの大きさは、参照音用マイクロフォン12で収音されるノイズの大きさよりも小さい。よって、この場合は、収音信号21と収音信号22のパワー差(ノイズパワー差)はマイナスとなる。
また、図6に示すように、音声の音源(話者)とノイズの音源とが共に音声用マイクロフォン11側である場合、音声用マイクロフォン11で収音される音声の大きさは、参照音用マイクロフォン12で収音される音声の大きさよりも大きい。また、音声用マイクロフォン11で収音されるノイズの大きさは、参照音用マイクロフォン12で収音されるノイズの大きさよりも大きい。よって、この場合は、音声区間における収音信号21と収音信号22のパワー差(音声パワー差)およびノイズ区間における収音信号21と収音信号22のパワー差(ノイズパワー差)は共にプラスとなる。
また、図7に示すように、音声の音源(話者)とノイズの音源とが共に参照音用マイクロフォン12側である場合、音声用マイクロフォン11で収音される音声の大きさは、参照音用マイクロフォン12で収音される音声の大きさよりも小さい。また、音声用マイクロフォン11で収音されるノイズの大きさは、参照音用マイクロフォン12で収音されるノイズの大きさよりも小さい。よって、この場合は、音声区間における収音信号21と収音信号22のパワー差(音声パワー差)およびノイズ区間における収音信号21と収音信号22のパワー差(ノイズパワー差)は共にマイナスとなる。
ノイズ低減処理判定部17は、パワー情報取得部60で取得された音声パワー差とノイズパワー差とに基づき、ノイズ低減処理を実施する場合である第1の状態と、ノイズ低減処理を実施しない場合またはノイズ低減処理を第1の状態よりも弱く実施する場合である第2の状態とを判定する。例えば、ノイズ低減処理判定部17は、パワー情報取得部60で取得された音声パワー差とノイズパワー差との差の絶対値が所定の閾値(第2の閾値)以内である場合、前記第2の状態と判定することができる。ここで、音声パワー差およびノイズパワー差は各マイクロフォン間の相対的な比率(例えば、収音信号21のパワー/収音信号22のパワー)を求めて両者を比較することで、音声およびノイズのマイクロフォンへの進入角度が近似しているか否かを判定することができる。
ここで、所定の閾値は任意に設定することができる。例えば、所定の閾値を小さくするほど、ノイズ低減処理を実施する基準が緩くなる(換言すると、ノイズ低減処理を実施しないと判断する範囲が狭くなる)。つまり、音声パワー差とノイズパワー差との差は、例えば、音声の音声用マイクロフォン11への進入角度(音声用マイクロフォン11の主面に対する音声の進入角度)とノイズの音声用マイクロフォン11への進入角度(音声用マイクロフォン11の主面に対するノイズの進入角度)との差に対応している。よって、所定の閾値を小さくするほど、ノイズ低減処理を実施しないと判断される音声とノイズの進入角度の差が狭くなる。
逆に、所定の閾値を大きくするほど、ノイズ低減処理を実施する基準が厳しくなる(換言すると、ノイズ低減処理を実施しないと判断する範囲が広くなる)。つまり、所定の閾値を大きくするほど、ノイズ低減処理を実施しないと判断される音声とノイズの進入角度の差が広くなる。
音声とノイズの進入角度の差が0に近づくにつれて、音声用マイクロフォン11と参照音用マイクロフォン12とで収音される音(音声およびノイズ)が近似する。このため、ノイズ低減処理部18においてノイズ低減処理を実施する際に、収音信号21に含まれるノイズ成分が低減されると同時に音声成分も低減されてしまうという問題がある。このような問題を解決するために、本実施の形態にかかるノイズ低減装置では、パワー情報取得部60で取得された音声パワー差とノイズパワー差との差(音声とノイズの進入角度の差に対応する)に基づきノイズ低減処理を実施するか否かを判定している。つまり、音声パワー差とノイズパワー差との差の絶対値が所定の閾値以内である場合、ノイズ低減処理を実施しないと判定することができる。
例えば、ノイズ低減処理判定部17は、ノイズ低減処理を実施する(第1の状態)と判定した場合、判定フラグ26を無効(ロウレベル)とし、ノイズ低減処理を実施しないまたはノイズ低減処理を第1の状態よりも弱く実施する(第2の状態)と判定した場合、判定フラグ26を有効(ハイレベル)とする。
ノイズ低減処理部18は、ノイズ低減処理判定部17の判定結果に応じて収音信号21と収音信号22とを用いてノイズ低減処理を実施する。すなわち、ノイズ低減処理部18は、ノイズ低減処理を実施する(第1の状態)とノイズ低減処理判定部17において判定された場合(判定フラグ26がロウレベルの場合)、収音信号21に含まれるノイズ成分を収音信号22を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する。また、ノイズ低減処理を実施しないまたはノイズ低減処理を第1の状態よりも弱く実施する(第2の状態)とノイズ低減処理判定部17において判定された場合(判定フラグ26がハイレベルの場合)、収音信号21を音声信号としてそのまま出力してもよいし、また、ノイズ低減処理の効果が通常よりも弱めになるように、ノイズ低減処理を実施してもよい(つまり、図8に示す疑似ノイズ信号83を小さめに設定してもよい)。
次に、本実施の形態にかかるノイズ低減装置2の動作について説明する。図16は、本実施の形態にかかるノイズ低減装置2の動作を説明するためのフローチャートである。
まず、音声ノイズ区間検出部15において、音声用マイクロフォン11で収音された音(収音信号21)が音声区間であるかまたはノイズ区間であるかを検出する(ステップS11)。このとき、音声区間およびノイズ区間を検出するための条件を厳しくすることで、音声区間およびノイズ区間を確実に検出することができる。
パワー情報取得部60は、音声ノイズ区間検出部15で検出された音声ノイズ区間情報23がノイズ区間を示す場合(ステップS12:No)、ノイズ区間における収音信号21と収音信号22とを用いてノイズパワー差を取得する(ステップS13)。そして、パワー情報取得部60は、ステップS13で取得したノイズパワー差を用いて、既に保持されているノイズパワー差を更新する(ステップS14)。
一方、パワー情報取得部60は、音声ノイズ区間検出部15で検出された音声ノイズ区間情報23が音声区間を示す場合(ステップS12:Yes)、音声区間における収音信号21と収音信号22とを用いて音声パワー差を取得する(ステップS15)。そして、パワー情報取得部60は、ステップS15で取得した音声パワー差を用いて、既に保持されている音声パワー差を更新する(ステップS16)。
次に、ノイズ低減処理判定部17は、パワー情報取得部60で取得した音声パワー差とノイズパワー差とに基づきノイズ低減処理を実施するか否かを判定する。そして、ノイズ低減処理判定部17は、音声パワー差とノイズパワー差との差の絶対値が所定の閾値よりも大きい場合(ステップS17:No)、ノイズ低減処理を実施すると判定する。このとき、ノイズ低減処理判定部17から出力される判定フラグ26は無効(ロウレベル)であるため、ノイズ低減処理部18は、収音信号21に含まれるノイズ成分を収音信号22を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する(ステップS18)。
一方、ノイズ低減処理判定部17は、音声パワー差とノイズパワー差との差の絶対値が所定の閾値以内である場合(ステップS17:Yes)、ノイズ低減処理を実施しないと判定する。このとき、ノイズ低減処理判定部17から出力される判定フラグ26は有効(ハイレベル)であるため、ノイズ低減処理部18は、収音信号21(音声信号)をそのまま出力する(ステップS19)。
本実施の形態にかかるノイズ低減装置では、音声区間における収音信号21の大きさと収音信号22の大きさとの差である音声パワー差と、ノイズ区間における収音信号21の大きさと収音信号22の大きさとの差であるノイズパワー差とに基づきノイズ低減処理を実施するか否かを判定している。つまり、音声パワー差とノイズパワー差との差の絶対値が所定の閾値以内である場合に、ノイズ低減処理を実施しないと判定することができる。
このように、本実施の形態にかかるノイズ低減装置では、ノイズ低減処理を実施するには不適切な場合を音声パワー差とノイズパワー差とに基づいて判定することができる。よって、ノイズ低減処理を実施するには不適切な場合にノイズ低減処理を実施しないようにすることができる。
なお、本実施の形態にかかるノイズ低減装置では、パワー情報取得部60で取得したパワー情報と共に、位相情報取得部16で取得した位相情報(実施の形態1参照)を用いて、ノイズ低減処理を実施するか否かを判定してもよい。この場合、例えば、図17に示すノイズ低減装置2'のように、位相情報取得部とパワー情報取得部とを備える位相パワー情報取得部70を備えるように構成することができる。
例えば、位相パワー情報取得部70は、位相情報取得部において音声位相差およびノイズ位相差を取得し、パワー情報取得部において音声パワー差およびノイズパワー差を取得し、これらの情報を位相パワー情報29としてノイズ低減処理判定部17に出力する。
ノイズ低減処理判定部17は、位相パワー情報取得部70で取得された音声位相差とノイズ位相差との差および音声パワー差とノイズパワー差との差に基づき、ノイズ低減処理を実施するか否かを判定することができる。例えば、音声位相差とノイズ位相差との差の絶対値が所定の第1の閾値以内であり、且つ音声パワー差とノイズパワー差との差の絶対値が所定の第2の閾値以内である場合に、ノイズ低減処理を実施しないと判定することができる。このとき、第1の閾値と第2の閾値を調整することで、音声位相差とノイズ位相差との差を用いた判定と、音声パワー差とノイズパワー差との差を用いた判定とに重み付けを付与することができる。
例えば、トランシーバーのような携帯機器(無線通信装置)や、無線通信装置に付属するスピーカーマイクロフォン(音声入力装置)のような小型機器は、持ち方によりマイク開口部が手で塞がれたり、衣服などによってマイク開口部が遮蔽されたりする場合がある。よって、ノイズ低減処理の有無を判定する際に、位相差を用いる方法とパワー差を用いる方法とを組み合わせて使用することで、ノイズ低減処理を実施するには不適切な場合をより高精度に判定することができる。
<実施の形態3>
次に、本発明の実施の形態3について説明する。図18は、本実施の形態にかかるノイズ低減装置3を示すブロック図である。本実施の形態にかかるノイズ低減装置3では、音声ノイズ区間検出部95、ノイズ低減処理判定部97、およびノイズ低減処理部98の構成および動作が、実施の形態1で説明したノイズ低減装置1(図1参照)と異なる。これ以外は実施の形態1で説明したノイズ低減装置1と同様であるので、同一の構成要素には同一の符号を付し重複した説明は省略する。
図18に示すように、本実施の形態にかかるノイズ低減装置3は、音声用マイクロフォン11、参照音用マイクロフォン12、ADコンバータ13、14、音声ノイズ区間検出部95、位相情報取得部16、ノイズ低減処理判定部97、およびノイズ低減処理部98を有する。
音声ノイズ区間検出部95は、ADコンバータ13から出力された収音信号21またはADコンバータ14から出力された収音信号22に基づき音声区間およびノイズ区間を検出する。そして、音声ノイズ区間検出部15は、音声区間およびノイズ区間を示す音声ノイズ区間情報23、24を、位相情報取得部16およびノイズ低減処理部98にそれぞれ出力する。
例えば、音声ノイズ区間検出部95は、収音信号21に音声が含まれているかを判定する回路、および収音信号22に音声が含まれているかを判定する回路を備えていてもよい。この場合、音声ノイズ区間検出部95は、音声が多く含まれている方の収音信号を用いて音声区間を検出することができる。なお、音声ノイズ区間検出部15における音声区間およびノイズ区間の検出には、実施の形態1で説明した技術と同様の技術を用いることができる。
実施の形態1で説明したノイズ低減装置1では、音声は音声用マイクロフォン11において収音される確率が高いことを前提とし、音声ノイズ区間検出部15が、音声用マイクロフォン11の収音信号21のみに基づき音声区間を判定する場合を示した。しかしながら、ノイズ低減装置の使用状況によっては、音声用マイクロフォン11よりも参照音用マイクロフォン12の方が多く音声を収音する場合も考えられる。よって、本実施の形態では、音声ノイズ区間検出部95が、収音信号21および収音信号22のうち音声が多く含まれている方の収音信号を用いて音声区間を検出することができるように構成している。
ノイズ低減処理判定部97は、位相情報取得部16で取得された音声位相差とノイズ位相差とに基づき、ノイズ低減処理を実施する場合である第1の状態と、ノイズ低減処理を実施しない場合またはノイズ低減処理を第1の状態よりも弱く実施する場合である第2の状態とを判定する。例えば、ノイズ低減処理判定部17は、位相情報取得部16で取得された音声位相差とノイズ位相差との差の絶対値が所定の閾値(第1の閾値)以内である場合、前記第2の状態と判定することができる。
図21に示すように、ノイズ低減装置を含む無線通信装置600の使用状況によっては、参照音用マイクロフォン12が配置されている側に音声の音源が存在する場合も想定される。この場合は、参照音用マイクロフォン12からの収音信号22に多くの音声成分が含まれているため、収音信号22に含まれているノイズ成分を収音信号21を用いて低減する方が、より確実にノイズ低減処理を実施することができる。
よって、ノイズ低減処理判定部97は、音声の音源が参照音用マイクロフォン12側である場合、ノイズ低減処理部98においてノイズ低減処理に用いる収音信号21と収音信号22とを切り替えるための選択信号99(例えば、ハイレベル信号)を出力する。このように、ノイズ低減処理部98に選択信号99を出力することで、収音信号22に含まれているノイズ成分を収音信号21を用いて低減することができる。
例えば、音声用マイクロフォン11で収音される音声の位相が、参照音用マイクロフォン12で収音される音声の位相よりも遅い場合に、音声の音源が参照音用マイクロフォン12側であると判断することができる。換言すると、位相情報取得部16で取得された音声区間における収音信号22の位相が収音信号21の位相よりも早い場合(つまり、収音信号21と収音信号22の位相差(音声位相差)がマイナスである場合)、ノイズ低減処理判定部97は、音声の音源が参照音用マイクロフォン12側であると判断することができる。
また、例えば、図21に示すように、ノイズの音源が音声用マイクロフォン11側である場合、音声用マイクロフォン11で収音されるノイズの位相は、参照音用マイクロフォン12で収音されるノイズの位相よりも早くなる。よって、この場合は、収音信号21と収音信号22の位相差(ノイズ位相差)はプラスとなる。
なお、ノイズ低減処理判定部97のその他の構成および動作については、実施の形態1で説明したノイズ低減処理判定部17の構成および動作と同一であるので、重複した説明は省略する。
また、本実施の形態にかかるノイズ低減装置では、実施の形態2で説明したノイズ低減装置のように、パワー情報取得部で取得された音声パワー差とノイズパワー差とを用いてノイズ低減処理を実施するか否かを判定してもよい。例えば、音声用マイクロフォン11で収音される音声の大きさが、参照音用マイクロフォン12で収音される音声の大きさよりも小さい場合、音声の音源が参照音用マイクロフォン12側であると判断することができる。換言すると、パワー情報取得部で取得された音声区間における収音信号22の大きさが収音信号21の大きさよりも大きい場合(つまり、収音信号21と収音信号22のパワー差(音声パワー差)がマイナスである場合)、ノイズ低減処理判定部97は、音声の音源が参照音用マイクロフォン12側であると判断することができる。
また、例えば、ノイズの音源が音声用マイクロフォン11側である場合、音声用マイクロフォン11で収音されるノイズの大きさは、参照音用マイクロフォン12で収音されるノイズの大きさよりも大きい。よって、この場合は、収音信号21と収音信号22のパワー差(ノイズパワー差)はプラスとなる。
ノイズ低減処理部98は、ノイズ低減処理判定部97の判定結果に応じて収音信号21と収音信号22とを用いてノイズ低減処理を実施する。ノイズ低減処理部98は、例えば、音声区間における収音信号21の位相が収音信号22の位相よりも早く(つまり、音声の音源が音声用マイクロフォン11側)、且つ、ノイズ低減処理を実施するとノイズ低減処理判定部97において判定された場合(判定フラグ26がロウレベルの場合)、収音信号21に含まれるノイズ成分を収音信号22を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する。また、ノイズ低減処理部98は、音声区間における収音信号21の位相が収音信号22の位相よりも早く(つまり、音声の音源が音声用マイクロフォン11側)、且つ、ノイズ低減処理を実施しないとノイズ低減処理判定部97において判定された場合(判定フラグ26がハイレベルの場合)、収音信号21を出力信号27としてそのまま出力する。
一方、ノイズ低減処理部98は、音声区間における収音信号22の位相が収音信号21の位相よりも早く(つまり、音声の音源が参照音用マイクロフォン12側)、且つ、ノイズ低減処理を実施するとノイズ低減処理判定部97において判定された場合(判定フラグ26がロウレベルの場合)、収音信号22に含まれるノイズ成分を収音信号21を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する。また、ノイズ低減処理部98は、音声区間における収音信号22の位相が収音信号21の位相よりも早く(つまり、音声の音源が参照音用マイクロフォン12側)、且つ、ノイズ低減処理を実施しないとノイズ低減処理判定部97において判定された場合(判定フラグ26がハイレベルの場合)、収音信号22を出力信号27としてそのまま出力する。
また、パワー情報を用いた場合は、ノイズ低減処理部98は、例えば、音声区間における収音信号21の大きさが収音信号22の大きさよりも大きく(つまり、音声の音源が音声用マイクロフォン11側)、且つ、ノイズ低減処理を実施するとノイズ低減処理判定部97において判定された場合(判定フラグ26がロウレベルの場合)、収音信号21に含まれるノイズ成分を収音信号22を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する。また、ノイズ低減処理部98は、音声区間における収音信号21の大きさが収音信号22の大きさよりも大きく(つまり、音声の音源が音声用マイクロフォン11側)、且つ、ノイズ低減処理を実施しないとノイズ低減処理判定部97において判定された場合(判定フラグ26がハイレベルの場合)、収音信号21を出力信号27としてそのまま出力する。
一方、ノイズ低減処理部98は、音声区間における収音信号22の大きさが収音信号21の大きさよりも大きく(つまり、音声の音源が参照音用マイクロフォン12側)、且つ、ノイズ低減処理を実施するとノイズ低減処理判定部97において判定された場合(判定フラグ26がロウレベルの場合)、収音信号22に含まれるノイズ成分を収音信号21を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する。また、ノイズ低減処理部98は、音声区間における収音信号22の大きさが収音信号21の大きさよりも大きく(つまり、音声の音源が参照音用マイクロフォン12側)、且つ、ノイズ低減処理を実施しないとノイズ低減処理判定部97において判定された場合(判定フラグ26がハイレベルの場合)、収音信号22を出力信号27としてそのまま出力する。
図19は、ノイズ低減処理部98の一例を示すブロック図である。ノイズ低減処理部98は、遅延素子71_1〜71_n、乗算器72_1〜72_n+1、加算器73_1〜73_n、適応係数調整部74、減算器75、出力信号選択部76、およびセレクタ77を備える。
セレクタ77は、ノイズ低減処理判定部97から出力された選択信号99に応じて、収音信号21および収音信号22をそれぞれ音声信号81(主に音声成分を含む信号)および参照信号82(ノイズ成分を擬似的に生成ための信号)として出力する場合と、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する場合とを切り替える。例えば、セレクタ77は、音声の音源が音声用マイクロフォン11側である場合(つまり、選択信号99がロウレベルの場合)、収音信号21および収音信号22をそれぞれ音声信号81および参照信号82として出力する。一方、音声の音源が参照音用マイクロフォン12側である場合(つまり、選択信号99がハイレベルの場合)、収音信号21および収音信号22をそれぞれ参照信号82および音声信号81として出力する。
遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nは、FIRフィルタを構成する。遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nを用いて参照信号82を処理することで、擬似ノイズ信号83が生成される。
適応係数調整部74は、音声ノイズ区間情報24に応じて、乗算器72_1〜72_n+1の係数を調整する。すなわち、適応係数調整部74は、音声ノイズ区間情報24がノイズ区間を示している場合、適応誤差が少なくなるように係数を調整する。一方、音声ノイズ区間情報24が音声区間を示している場合、ノイズ低減処理部18の係数を維持するか、または係数を微調整するのみとする。
減算器75は、音声信号81から疑似ノイズ信号83を差し引くことで、ノイズ低減処理後の信号84を生成し、出力信号選択部76に出力する。また、減算器75は、音声信号81から疑似ノイズ信号83を差し引くことで、フィードバック用の信号85を生成し、適応係数調整部74に出力する。
出力信号選択部76は、ノイズ低減処理判定部97から出力された判定フラグ26に応じて、音声信号81を出力信号27としてそのまま出力するか、またはノイズ低減処理後の信号84を出力信号27として出力するかを選択する。つまり、出力信号選択部76は、ノイズ低減処理判定部97から出力された判定フラグ26が有効(ハイレベル)である場合は、音声信号81を出力信号27としてそのまま出力する。一方、ノイズ低減処理判定部97から出力された判定フラグ26が無効(ロウレベル)である場合は、ノイズ低減処理後の信号84を出力信号27として出力する。
次に、本実施の形態にかかるノイズ低減装置3の動作について説明する。図20は、本実施の形態にかかるノイズ低減装置3の動作を説明するためのフローチャートである。なお、図20に示すステップS21〜ステップS26はそれぞれ、図9に示したステップS1〜ステップS6(実施の形態1参照)と同様であるので、重複した説明は省略する。
ステップS27において、ノイズ低減処理判定部97は、音声の音源が参照音用マイクロフォン12側であるか判定する。そして、音声の音源が音声用マイクロフォン11側である場合(ステップS27:No)、ノイズ低減処理部98は、音声用マイクロフォン11の収音信号21を音声信号81と、参照音用マイクロフォン12の収音信号22を参照信号82とする(ステップ28)。例えば、収音信号21と収音信号22の位相差(音声位相差)がプラスである場合、ノイズ低減処理判定部97は、音声の音源が音声用マイクロフォン11側であると判断することができる。
一方、音声の音源が参照音用マイクロフォン12側である場合(ステップS27:Yes)、ノイズ低減処理部98は、参照音用マイクロフォン12の収音信号22を音声信号81と、音声用マイクロフォン11の収音信号21を参照信号82とする(ステップ29)。例えば、収音信号21と収音信号22の位相差(音声位相差)がマイナスである場合、ノイズ低減処理判定部97は、音声の音源が参照音用マイクロフォン12側であると判断することができる。
次に、ノイズ低減処理判定部97は、位相情報取得部16で取得された音声位相差とノイズ位相差とに基づきノイズ低減処理を実施するか否かを判定する。つまり、ノイズ低減処理判定部97は、音声位相差とノイズ位相差との差の絶対値が所定の第1の閾値よりも大きい場合(ステップS30:No)、ノイズ低減処理を実施すると判定する。なお、パワー情報を用いる場合は、ノイズ低減処理判定部97は、パワー情報取得部で取得された音声パワー差とノイズパワー差との差の絶対値が所定の第2の閾値よりも大きい場合、ノイズ低減処理を実施すると判定することができる。
このとき、ノイズ低減処理判定部97から出力される判定フラグ26は無効(ロウレベル)であるため、ノイズ低減処理部98は、音声信号81(図19参照)に含まれるノイズ成分を参照信号82を用いて低減し、ノイズ低減処理後の信号を出力信号27として出力する(ステップS31)。
一方、ノイズ低減処理判定部97は、音声位相差とノイズ位相差との差の絶対値が所定の第1の閾値以内である場合(ステップS30:Yes)、ノイズ低減処理を実施しないと判定する。なお、パワー情報を用いる場合は、ノイズ低減処理判定部97は、パワー情報取得部で取得された音声パワー差とノイズパワー差との差の絶対値が所定の第2の閾値以内である場合、ノイズ低減処理を実施しないと判定することができる。
このとき、ノイズ低減処理判定部97から出力される判定フラグ26は有効(ハイレベル)であるため、ノイズ低減処理部98は、音声信号81をそのまま出力する(ステップS32)。
図21に示すように、ノイズ低減装置を含む無線通信装置600の使用状況によっては、参照音用マイクロフォン12が配置されている側に音声の音源が存在する場合も想定される。この場合は、参照音用マイクロフォン12からの収音信号22に多くの音声成分が含まれているため、収音信号22に含まれているノイズ成分を収音信号21を用いて低減する方が、より確実にノイズ低減処理を実施することができる。
よって、本実施の形態にかかるノイズ低減装置3では、音声の音源が参照音用マイクロフォン12側である場合、ノイズ低減処理部98においてノイズ低減処理に用いる収音信号21と収音信号22とを切り替えている。このように、収音信号21と収音信号22を切り替えることで、収音信号22に含まれているノイズ成分を収音信号21を用いて低減することができ、より確実にノイズ低減処理を実施することができる。
以上、本発明を上記実施形態に即して説明したが、上記実施形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。例えば、音声用マイクロフォン11と参照音用マイクロフォン12とを機器上部(又は下部)のほぼ同じ位置に設けて、指向性が異なるようにこれらのマイクロフォンを配置してもよい。例えば、音声用マイクロフォン11と参照音用マイクロフォン12の指向性が180°異なるように配置することが好ましい。