JP2010124370A

JP2010124370A - 信号処理装置、信号処理方法、および信号処理プログラム

Info

Publication number: JP2010124370A
Application number: JP2008297815A
Authority: JP
Inventors: Naoji Matsuo; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-11-21
Filing date: 2008-11-21
Publication date: 2010-06-03
Also published as: US20100128895A1; DE102009052539B4; DE102009052539A1; US8565445B2

Abstract

【課題】音信号を周波数領域で処理して雑音が相対的に低減された音信号を生成する。
【解決手段】信号処理装置10は、少なくとも２つの音入力部MIC1,MIC2から入力された時間軸上の音信号のうちの２つの音信号を用いて、それぞれ、周波数軸上のスペクトル信号に変換する直交変換部212,214と、変換された周波数軸上の２つのスペクトル信号間の位相差を求める位相差計算部222と、位相差が所定の範囲にある場合に、周波数毎に第１のスペクトル信号の各成分を移相して、移相したスペクトル信号を生成し、第２のスペクトル信号と移相したスペクトル信号とを合成して、濾波済みスペクトル信号を生成するフィルタ部300と、を具える。
【選択図】図３Ａ

Description

本発明は、音信号の処理に関し、特に、周波数領域における音信号の処理に関する。

マイクロホン・アレイは、複数のマイクロホンからなるアレイを用い、受音して変換された音信号の処理によって音信号に指向性を与えることができる。

マイクロホン・アレイ装置においてＳ／Ｎ（信号対ノイズ）比を向上させるために、複数のマイクロホンからの音信号を処理することによって、目的音の受音方向と異なる方向または抑制方向から到来する音波中の不要な雑音を抑圧することができる。

既知の或る雑音成分抑圧装置には、複数位置で検出し得た受音位置別入力信号毎に周波数分析しチャネル別の周波数成分を得る或る手段、各チャネルの周波数成分につき所望方向外を低感度化するフィルタ係数によるフィルタ処理にて話者方向の雑音を抑圧し目的音声成分を得る第１ビームフォーマ処理手段、その或る手段での各チャネルの周波数成分につき所望方向外を低感度化するフィルタ処理で話者音声抑圧し雑音成分を得る第２ビームフォーマ処理手段、第１ビームフォーマ処理手段のフィルタ係数から雑音方向を推定し第２ビームフォーマ処理手段のフィルタ係数から目的音声方向を推定する推定手段、第１ビームフォーマ処理手段において入力対象の目的音声の到来方向を推定手段の推定目的音声方向に応じ修正し第２ビームフォーマ処理手段において入力対象の雑音の到来方向を推定手段の推定雑音方向に応じ修正する手段、第１ビームフォーマ処理手段と第２ビームフォーマ処理手段の出力に基づきスペクトルサブトラクション処理する手段、その或る手段の出力から到来音の時間差と振幅差に応じた方向性指標を得る手段、方向性指標とその或る手段の目的音声方向とに基づきスペクトルサブトラクション処理制御する手段を持つものがある。それによって、計算量が少なく、突発雑音除去も可能な雑音抑圧処理が可能になる。

既知の或る指向性集音装置では、複数方向に存在する音源からの音入力を受け付け、周波数軸上の信号に変換する。変換された周波数軸上の信号を抑制する抑制関数を算出し、算出された抑制関数を元の信号の周波数軸上の信号の振幅成分に乗算して、変換された周波数軸上の信号を補正する。変換された各周波数軸上の信号の位相成分を同じ周波数ごとに算出し、位相成分の差分を算出する。算出された差分に基づいて、所定の方向に音源が存在する確率を示す確率値を特定し、特定された確率値に基づいて、所定の方向の音源以外の音源からの音入力を抑制する抑制関数を算出する。それによって、複数の方向に存在する音源からの信号、雑音等を含む音声信号が入力された場合、多数のマイクロホンを設置する必要がなく、簡易な構成により所定の方向の音源が発する音声信号を強調して周囲の雑音を抑制することができる。
特開２００１−１００８００号公報特開２００７−３１８５２８号公報 “小特集−マイクロホンアレー−”日本音響学会誌５１巻５号、１９９５、ｐｐ．３８４−４１４

複数の音入力部を有する音声処理装置では、目的音の受音方向とは逆の方向に抑圧方向ができるように、各音信号を時間領域で処理して、各音信号のサンプル遅延および減算を行う。この処理では、その抑圧方向からの雑音は充分に抑圧することができる。しかし、例えば車内の走行雑音および雑踏の雑音などの背景雑音の到来方向が複数ある場合には抑圧方向からの背景雑音の到来方向も複数あるので、充分にその雑音を抑圧することができない。一方、音入力部の数を増やすと、雑音抑圧の能力が高くなるが、コストが上昇し、また音入力部のサイズが大きくなる。

発明者は、複数の音入力部を有する装置において、音入力部の音信号の音源方向に応じて周波数領域で２つの音信号を同期化して減算することによって雑音の抑圧を行えば、より正確に充分に雑音を抑圧することができる、と認識した。

本発明の目的は、音信号を周波数領域で処理して雑音が相対的に低減された音信号を生成することである。

本発明の特徴によれば、少なくとも２つの音入力部を有する信号処理装置は、少なくとも２つの音入力部から入力された時間軸上の音信号のうちの２つの音信号を用いて、それぞれ、周波数軸上のスペクトル信号に変換する直交変換部と、その変換された周波数軸上の２つのスペクトル信号間の位相差を求める位相差計算部と、その位相差が所定の範囲にある場合に、周波数毎に前記２つのスペクトル信号のうちの第１のスペクトル信号の各成分を移相して、移相されたスペクトル信号を生成し、その移相されたスペクトル信号とその２つのスペクトル信号のうちの第２のスペクトル信号とを合成して、濾波済みのスペクトル信号を生成するフィルタ部と、を具える。

また、本発明は、上述の信号処理装置を実現するための方法およびプログラムに関する。

本発明によれば、雑音が相対的に低減された音信号を生成することができる。

本発明の実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。

図１は、本発明の実施形態において用いられる、それぞれ音入力部としての少なくとも２つのマイクロホンＭＩＣ１、ＭＩＣ２、．．．のアレイの配置を示している。

一般的には、複数のマイクロホンＭＩＣ１、ＭＩＣ２、．．．のアレイが、直線上に互いに既知の距離ｄだけ離して配置される。ここでは、典型例として、隣接する少なくとも２つのマイクロホンＭＩＣ１およびＭＩＣ２が直線上に互いに距離ｄだけ離して配置されているものとする。複数のマイクロホンの隣接間の距離は、等しい必要はなく、以下で説明するようにサンプリング定理を満たせば、既知の異なる距離であってもよい。

実施形態では、複数のマイクロホンの内のマイクロホンＭＩＣ１およびＭＩＣ２の２つのマイクロホンを用いた例について説明する。

図１において、目的音源ＳＳは直線上のマイクロホンＭＩＣ１の左側にあり、目的音源ＳＳの方向をマイクロホン・アレイＭＩＣ１、ＭＩＣ２の受音方向または目的方向とする。典型的には、受音目的の音源ＳＳは話者の口であり、受音方向は話者の口の方向である。受音角度方向付近の所定の角度範囲を受音角度範囲としてもよい。また、典型的には、受音方向とは逆の方向（＋π）を雑音の主要抑圧方向とし、主要抑圧角度方向付近の所定の角度範囲を雑音の抑圧角度範囲としてもよい。雑音の抑圧角度範囲は周波数ｆ毎に決定してもよい。

マイクロホンＭＩＣ１とＭＩＣ２の間の距離ｄは、サンプリング定理またはナイキスト定理を満たすように、距離ｄ＜音速ｃ／サンプリング周波数ｆｓの条件を満たすように設定されることが好ましい。図１において、マイクロホン・アレイＭＩＣ１、ＭＩＣ２の指向特性または指向性パターン（例えば、カーディオイド形）が閉じた破線の曲線で示されている。マイクロホン・アレイＭＩＣ１、ＭＩＣ２によって受音され処理される入力信号は、マイクロホン・アレイＭＩＣ１、ＭＩＣ２が配置された直線に対する音波の入射角度θ（＝−π／２〜＋π／２）に依存し、その直線に垂直な平面上の半径方向の入射方向（０〜２π）には依存しない。

目的音源ＳＳの音声は、右側のマイクロホンＭＩＣ２において、その左側のマイクロホンＭＩＣ１よりも遅延時間τ＝ｄ／ｃだけ遅延して検出される。一方、主要抑圧方向の雑音１は、左側のマイクロホンＭＩＣ１において、その右側のマイクロホンＭＩＣ２よりも遅延時間τ＝ｄ／ｃだけ遅延して検出される。その主要抑圧方向の抑圧範囲内のずれた抑圧方向の雑音２は、左側のマイクロホンＭＩＣ１において、その右側のマイクロホンＭＩＣ２よりも遅延時間τ＝ｄ・sinθ／ｃだけ遅延して検出される。角度θは、想定される抑圧方向の雑音２の到来方向である。図１において、一点鎖線は雑音２の波面を示している。θ＝＋π／２の場合の雑音１の到来方向が入力信号の抑圧方向である。

主要抑圧方向の雑音１（θ＝＋π／２）は、左側のマイクロホンＭＩＣ１の入力信号ＩＮ１（ｔ）から、τ＝ｄ／ｃだけ遅延した右側の隣接のマイクロホンＭＩＣ２の入力信号ＩＮ２（ｔ）を減算することによって、抑圧することができる。しかし、主要抑圧方向からずれた角度方向（０＜θ＜＋π／２）から到来する雑音２を抑圧することはできない。

発明者は、マイクロホンＭＩＣ１、ＭＩＣ２の入力信号のスペクトルの一方を周波数毎にその２つの入力信号の位相差に応じてその他方のスペクトルに位相同期化し、一方と他方のスペクトルの差をとることによって、抑圧範囲の方向の雑音を充分に抑圧することができる、と認識した。

図２は、本発明の実施形態による、図１の実際のマイクロホンＭＩＣ１、ＭＩＣ２を含むマイクロホン・アレイ装置１００の概略的構成を示している。マイクロホン・アレイ装置１００は、マイクロホンＭＩＣ１、ＭＩＣ２、増幅器１２２、１２４、低域通過フィルタ（ＬＰＦ）１４２、１４４、ディジタル信号プロセッサ（ＤＳＰ）２００、および、例えばＲＡＭ等を含むメモリ２０２を具えている。マイクロホン・アレイ装置１００は、例えば音声認識機能を有する車載装置またはカー・ナビゲーション装置、ハンズフリー電話機、または携帯電話機のような情報機器であってもよい。

任意追加構成として、マイクロホン・アレイ装置１００は、話者方向検出用センサ１９２および方向決定部１９４に結合されていても、またはそれらの構成要素を含んでいてもよい。プロセッサ１０およびメモリ１２は、利用アプリケーション４００を含む１つの装置に含まれていても、または別の情報処理装置に含まれていてもよい。

話者方向検出用センサ１９２は、例えば、ディジタル・カメラ、超音波センサまたは赤外線センサであってもよい。方向決定部１９４の代替構成として、メモリ１２に格納された方向決定用のプログラムに従って動作するプロセッサ１０上で実装されてもよい。

マイクロホンＭＩＣ１、ＭＩＣ２によって音から変換されたアナログ入力信号は、増幅器（Amplifier）１２２、１２４にそれぞれ供給されて、増幅器１２２、１２４によって増幅される。増幅器１２２、１２４の出力は、例えば遮断周波数ｆｃ（例えば、３．９ｋＨｚ）の低域通過フィルタ（Low Pass Filter）１４２、１４４の入力にそれぞれ結合されて、低域通過濾波される。ここでは、低域通過フィルタのみ用いているが、帯域通過フィルタを用いまたは高域通過フィルタを併用してもよい。

低域通過フィルタ１４２、１４４の出力は、サンプリング周波数ｆｓ（例えば、８ｋＨｚ）（ｆｓ＞２ｆｃ）のアナログ−ディジタル変換器１６２、１６４の入力にそれぞれ結合されて、ディジタル入力信号に変換される。アナログ−ディジタル変換器１６２、１６４からの時間領域のディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）は、ディジタル信号プロセッサ（ＤＳＰ）２００の入力にそれぞれ結合される。

ディジタル信号プロセッサ２００は、メモリ２０２を用いて、時間領域のディジタル信号出力ＩＮ１（ｔ）、ＩＮ２（ｔ）を周波数領域の信号に変換して処理して、抑圧範囲の方向の雑音を抑圧し、処理済みの時間領域のディジタル出力信号ＩＮｄ（ｔ）を生成する。

前述のように、ディジタル信号プロセッサ２００は、方向決定部１９４またはプロセッサ１０に結合されていてもよい。この場合、ディジタル信号プロセッサ２００は、方向決定部１９４またはプロセッサ１０からの受音範囲を表す情報に応じて、その反対側の抑圧範囲内の抑圧方向の雑音を抑圧する。

方向決定部１９４またはプロセッサ１０は、ユーザによるキー入力によって入力された設定信号を処理して受音範囲を表す情報を生成してもよい。また、方向決定部１９４またはプロセッサ１０は、センサ１９２によって捕捉された検出データまたは画像データに基づいて、話者の存在を検出しまたは認識して、話者の存在する方向を決定し、受音範囲を表す情報を生成してもよい。

ディジタル出力信号ＩＮｄ（ｔ）の出力は、例えば、音声認識または携帯電話機の通話に用いられる。ディジタル出力信号ＩＮｄ（ｔ）は、後続の利用アプリケーション４００に供給され、そこで、例えば、ディジタル−アナログ変換器４０４でディジタル−アナログ変換され低域通過フィルタ４０６で低域通過濾波されてアナログ信号が生成され、またはメモリ４１４に格納されて音声認識部４１６で音声認識に使用される。音声認識部４１６は、ハードウェアとして実装されたプロセッサであっても、またはソフトウェアとして実装された例えばＲＯＭおよびＲＡＭを含むメモリ４１４に格納されたプログラムに従って動作するプロセッサであってもよい。

ディジタル信号プロセッサ２００は、ハードウェアとして実装された信号処理回路であっても、またはソフトウェアとして実装された例えばＲＯＭおよびＲＡＭを含むメモリ２０２に格納されたプログラムに従って動作する信号処理回路であってもよい。

図１において、マイクロホン・アレイ装置１００は、目的音源方向θ（＝−π／２）付近の角度範囲、例えば−π／２≦θ＜０を受音範囲とし、主要抑圧方向θ＝＋π／２付近の角度範囲、例えば＋π／６＜θ≦＋π／２を抑圧範囲とする。また、マイクロホン・アレイ装置１００は、受音範囲と抑圧範囲の間の角度範囲、例えば０≦θ≦＋π／６を移行（切換）範囲とする。

図３Ａおよび３Ｂは、図１のマイクロホンＭＩＣ１、ＭＩＣ２のアレイの配置を用いた雑音の抑圧によって雑音を相対的に低減することができるマイクロホン・アレイ装置１００の概略的構成の例を示している。

ディジタル信号プロセッサ２００は、アナログ−ディジタル変換器１６２、１６４の出力に入力が結合された高速フーリエ変換器２１２、２１４、同期化係数生成部２２０、およびフィルタ部３００を含んでいる。この実施形態では、周波数変換または直交変換に、高速フーリエ変換を用いたが、他の周波数変換可能な関数（例えば、離散コサイン変換またはウェーブレット変換、等）を用いてもよい。

同期化係数生成部２２０は、各周波数ｆの複素スペクトル間の位相差を計算する位相差計算部２２２、および同期化係数計算部２２４を含んでいる。フィルタ部３００は、同期化部３３２および減算部３３４を含んでいる。

アナログ−ディジタル変換器１６２、１６４からの時間領域のディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）は、高速フーリエ変換器（ＦＦＴ）２１２、２１４の入力にそれぞれ供給される。高速フーリエ変換器２１２、２１４は、既知の形態で、ディジタル入力信号ＩＮ１（ｔ）、ＩＮ２（ｔ）の各信号区間に、オーバラップ窓関数を乗算してその積をフーリエ変換または直交変換して、周波数領域の複素スペクトルＩＮ１（ｆ）、ＩＮ２（ｆ）を生成する。ここで、ＩＮ１（ｆ）＝Ａ_１ｅ^{ｊ（２πｆｔ＋φ１（ｆ））}、ＩＮ２（ｆ）＝Ａ_２ｅ^{ｊ（２πｆｔ＋φ２（ｆ））}、ｆは周波数、Ａ_１およびＡ_２は振幅、ｊは単位虚数、φ１（ｆ）およびφ２（ｆ）は周波数ｆの関数である遅延位相である。オーバラップ窓関数として、例えば、ハミング窓関数、ハニング窓関数、ブラックマン窓関数、３シグマガウス窓関数、または三角窓関数を用いることができる。

位相差計算部２２２は、距離ｄだけ離れた隣接の２つのマイクロホンＭＩＣ１とＭＩＣ２の間での周波数ｆ毎の音源方向を示す位相スペクトル成分の位相差ＤＩＦＦ（ｆ）（ラジアン、ｒａｄ）を次の式で求める。
ＤＩＦＦ（ｆ）＝ｔａｎ^−１（ＩＮ２（ｆ）／ＩＮ１（ｆ））
＝ｔａｎ^−１（（Ａ_２ｅ^{ｊ（２πｆｔ＋φ２（ｆ））}／Ａ_１ｅ^{ｊ（２πｆｔ＋φ１（ｆ））}）
＝ｔａｎ^−１（（Ａ_２／Ａ_１）ｅ^{ｊ（φ２（ｆ）−φ１（ｆ））}）
ここで、特定の周波数ｆの雑音の音源は１つの音源しかないものと近似する。また、マイクロホンＭＩＣ１とＭＩＣ２の入力信号の振幅（Ａ_１、Ａ_２）が同じであると近似できる場合には（｜ＩＮ１（ｆ）｜＝｜ＩＮ２（ｆ）｜）、値Ａ_２／Ａ_１を１と近似してもよい。

図４は、図１のマイクロホン・アレイＭＩＣ１、ＭＩＣ２、．．．の配置による、位相差計算部２２２によって計算された各周波数に対する位相スペクトル成分の位相差ＤＩＦＦ（ｆ）（−π≦ＤＩＦＦ（ｆ）≦π）を示している。

位相差計算部２２２は、隣接する２つの入力信号ＩＮ１（ｆ）、ＩＮ２（ｆ）の間の周波数ｆ毎の位相スペクトル成分の位相差ＤＩＦＦ（ｆ）の値を同期化係数計算部２２４に供給する。

同期化係数計算部２２４は、特定の周波数ｆについて、マイクロホンＭＩＣ１の位置における入力信号中の抑圧範囲θ（例えば、＋π／６＜θ≦＋π／２）の雑音は、マイクロホンＭＩＣ２の入力信号中の同じ雑音が位相差ＤＩＦＦ（ｆ）だけ遅れて到達したものである、と推定する。また、同期化係数計算部２２４は、マイクロホンＭＩＣ１の位置における移行範囲θ（例えば、０≦θ≦＋π／６）では、受音範囲における処理法と抑圧範囲における雑音抑圧処理レベルを徐々に変化させまたは切り換える。

同期化係数計算部２２４は、周波数ｆ毎の位相スペクトル成分の位相差ＤＩＦＦ（ｆ）に基づいて、次の式に従って同期化係数Ｃ（ｆ）を計算する。

（ａ）同期化係数計算部２２４は、高速フーリエ変換における時間的分析フレーム（窓）ｉ毎の同期化係数Ｃ（ｆ）を順次計算する。ｉは分析フレームの時間的順序番号（０、１、２、．．．）を表す。位相差ＤＩＦＦ（ｆ）が抑圧範囲（例えば、＋π／６＜θ≦＋π／２）の値である場合の同期化係数Ｃ（ｆ，ｉ）＝Ｃｎ（ｆ，ｉ）：
初期順序番号ｉ＝０に対して、
Ｃ（ｆ，０）＝Ｃｎ（ｆ，０）
＝ＩＮ１（ｆ，０）／ＩＮ２（ｆ，０）
順序番号ｉ＞０に対して、
Ｃ（ｆ，ｉ）＝Ｃｎ（ｆ，ｉ）
＝αＣ（ｆ，ｉ−１）＋（１−α）ＩＮ１（ｆ，ｉ）／ＩＮ２（ｆ，ｉ）

ここで、ＩＮ１（ｆ，ｉ）／ＩＮ２（ｆ，ｉ）は、マイクロホンＭＩＣ２の入力信号の複素スペクトルに対するマイクロホンＭＩＣ１の入力信号の複素スペクトルの比、即ち振幅比と位相差を表している。また、ＩＮ１（ｆ，ｉ）／ＩＮ２（ｆ，ｉ）は、マイクロホンＭＩＣ１の入力信号の複素スペクトルに対するマイクロホンＭＩＣ２の入力信号の複素スペクトルの比の逆数を表しているともいえる。αは、同期化のための前の分析フレームの遅延移相量の加算割合または合成割合を示し、０≦α＜１の範囲の定数である。１−αは、同期化のための加算される現在の分析フレームの遅延移相量の合成割合を示す。現在の同期化係数Ｃ（ｆ，ｉ）は、前の分析フレームの同期化係数と現在の分析フレームのマイクロホンＭＩＣ２に対するマイクロホンＭＩＣ１の入力信号の複素スペクトルの比を、比率α：（１−α）で加算したものである。

（ｂ）位相差ＤＩＦＦ（ｆ）が受音範囲（例えば、−π／２≦θ＜０）の値である場合の同期化係数Ｃ（ｆ）＝Ｃｓ（ｆ）：
Ｃ（ｆ）＝Ｃｓ（ｆ）＝ｅｘｐ（−ｊ２πｆ／ｆｓ）または
Ｃ（ｆ）＝Ｃｓ（ｆ）＝０（同期化減算しない場合）

（ｃ）位相差ＤＩＦＦ（ｆ）が移行範囲内の角度θ（例えば、０≦θ≦＋π／６）の値である場合の同期化係数Ｃ（ｆ）＝Ｃｔ（ｆ）は、角度θに応じて上記（ａ）のＣｓ（ｆ）とＣｎ（ｆ）の加重平均：
Ｃ（ｆ）＝Ｃｔ（ｆ）
＝Ｃｓ（ｆ）×（θ−θｔmin）／（θｔmax−θｔmin）
＋Ｃｎ（ｆ）×（θｔmax−θ）／（θｔmax−θｔmin）
ここで、θｔmaxは移行範囲と抑圧範囲の間の境界の角度を表し、θｔminは移行範囲と受音範囲の間の境界の角度を表す。

このようにして、位相差計算部２２２は、複素スペクトルＩＮ１（ｆ）およびＩＮ２（ｆ）に応じて同期化係数Ｃ（ｆ）を生成して、複素スペクトルＩＮ１（ｆ）およびＩＮ２（ｆ）、および同期化係数Ｃ（ｆ）をフィルタ部３００に供給する。

フィルタ部３００において、同期化部３３２は、次の式の乗算の計算を行って複素スペクトルＩＮ２（ｆ）を複素スペクトルＩＮ１（ｆ）に同期化して、同期化されたスペクトルＩＮｓ２（ｆ）を生成する。
ＩＮｓ２（ｆ）＝Ｃ（ｆ）×ＩＮ２（ｆ）

減算部３３４は、次の式に従って複素スペクトルＩＮ１（ｆ）から、係数β（ｆ）を乗じた複素スペクトルＩＮｓ２（ｆ）を減算して、雑音が抑圧された複素スペクトルＩＮｄ（ｆ）を生成する。
ＩＮｄ（ｆ）＝ＩＮ１（ｆ）−β（ｆ）×ＩＮｓ２（ｆ）
ここで、係数β（ｆ）は０≦β（ｆ）≦１の範囲の予め設定される値である。係数β（ｆ）は、周波数ｆの関数であり、同期化係数の減算の度合いを調整するための係数である。例えば、受音範囲からの到来音である信号の歪みの発生を抑えつつ、抑圧範囲からの到来音である雑音を大きく抑圧するために、位相差ＤＩＦＦ（ｆ）によって表される音の到来方向が抑圧範囲にある場合の方が受音範囲にある場合よりも大きくなるように係数β（ｆ）を設定してもよい。

ディジタル信号プロセッサ２００は、さらに逆高速フーリエ変換器（ＩＦＦＴ）３８２を含んでいる。逆高速フーリエ変換器３８２は、同期化係数計算部２２４からスペクトルＩＮｄ（ｆ）を受け取って逆フーリエ変換して、オーバラップ加算し、マイクロホンＭＩＣ１の位置における時間領域の出力信号ＩＮｄ（ｔ）を生成する。

逆高速フーリエ変換器３８２の出力は、後段に位置する利用アプリケーション４００の入力に結合される。

ディジタル出力信号ＩＮｄ（ｔ）の出力は、例えば、音声認識または携帯電話機の通話に用いられる。ディジタル出力信号ＩＮｄ（ｔ）は、後続の利用アプリケーション４００に供給され、そこで、例えば、ディジタル−アナログ変換器４０４でディジタル−アナログ変換され低域通過フィルタ４０６で低域通過濾波されてアナログ信号が生成され、またはメモリ４１４に格納されて音声認識部４１６で音声認識に使用される。

図３Ａおよび３Ｂの構成要素２１２、２１４、２２０〜２２４、３００〜３３４および３８２は、集積回路として実装されたまたはプログラムで実装されたディジタル信号プロセッサ（ＤＳＰ）２００によって実行されるフロー図と見ることもできる。

図５は、メモリ２０２に格納されたプログラムに従って図３Ａのディジタル信号プロセッサ（ＤＳＰ）２００によって実行される複素スペクトルの生成のためのフローチャートを示している。従って、このフローチャートは、図３Ａの構成要素２１２、２１４、２２０、３００および３８２によって実現される機能に対応する。

図３Ａおよび５を参照すると、ステップ５０２において、ディジタル信号プロセッサ２００（高速フーリエ変換部２１２、２１４）は、アナログ−ディジタル変換器１６２、１６４から供給された時間領域の２つのディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）をそれぞれ入力し捕捉する。

ステップ５０４において、ディジタル信号プロセッサ２００（高速フーリエ変換部２１２、２１４）は、２つのディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）の各々にオーバラップ窓関数を乗算する。

ステップ５０６において、ディジタル信号プロセッサ２００（高速フーリエ変換部２１２、２１４）は、ディジタル入力信号ＩＮ１（ｔ）およびＩＮ２（ｔ）をフーリエ変換して周波数領域の複素スペクトルＩＮ１（ｆ）およびＩＮ２（ｆ）を生成する。

ステップ５０８において、ディジタル信号プロセッサ２００（同期化係数生成部２２０の位相差計算部２２２）は、スペクトルＩＮ１（ｆ）とＩＮ２（ｆ）の間の位相差ＤＩＦＦ（ｆ）＝ｔａｎ^−１（ＩＮ２（ｆ）／ＩＮ１（ｆ））を計算する。

ステップ５１０において、ディジタル信号プロセッサ２００（同期化係数生成部２２０の同期化係数計算部２２４）は、位相差ＤＩＦＦ（ｆ）に基づいて、マイクロホンＭＩＣ２の入力信号に対するマイクロホンＭＩＣ１の入力信号の複素スペクトルの比Ｃ（ｆ）を前述のように次の式に従って計算する。

（ａ）位相差ＤＩＦＦ（ｆ）が抑圧角度範囲の値である場合、同期化係数Ｃ（ｆ，ｉ）＝Ｃｎ（ｆ，ｉ）＝αＣ（ｆ，ｉ−１）＋（１−α）ＩＮ１（ｆ，ｉ）／ＩＮ２（ｆ，ｉ）。
（ｂ）位相差ＤＩＦＦ（ｆ）が受音角度範囲の値である場合、同期化係数Ｃ（ｆ）＝Ｃｓ（ｆ）＝ｅｘｐ（−ｊ２πｆ／ｆｓ）またはＣ（ｆ）＝Ｃｓ（ｆ）＝０。
（ｃ）位相差ＤＩＦＦ（ｆ）が移行角度範囲内の値である場合、同期化係数Ｃ（ｆ）＝Ｃｔ（ｆ）、Ｃｓ（ｆ）とＣｎ（ｆ）の加重平均。

ステップ５１４において、ディジタル信号プロセッサ２００（フィルタ部３００の同期化部３３２）は、式：ＩＮｓ２（ｆ）＝Ｃ（ｆ）ＩＮ２（ｆ）を計算して複素スペクトルＩＮ２（ｆ）を複素スペクトルＩＮ１（ｆ）に同期化して、同期化されたスペクトルＩＮｓ２（ｆ）を生成する。

ステップ５１６において、ディジタル信号プロセッサ２００（フィルタ部３００の減算部３３４）は、複素スペクトルＩＮ１（ｆ）から、係数β（ｆ）を乗じた複素スペクトルＩＮｓ２（ｆ）を減算し（ＩＮｄ（ｆ）＝ＩＮ１（ｆ）−β（ｆ）×ＩＮｓ２（ｆ））、雑音が抑圧された複素スペクトルＩＮｄ（ｆ）を生成する。

ステップ５１８において、ディジタル信号プロセッサ２００（逆高速フーリエ変換部３８２）は、同期化係数計算部２２４からスペクトルＩＮｄ（ｆ）を受け取って逆フーリエ変換して、オーバラップ加算し、マイクロホンＭＩＣ１の位置における時間領域の出力信号ＩＮｄ（ｔ）を生成する。

その後、手順はステップ５０２に戻る。ステップ５０２〜５１８は、所要の期間の入力を処理するために所要の時間期間だけ繰り返される。

このようにして、上述の実施形態によれば、マイクロホンＭＩＣ１、ＭＩＣ２の入力信号を周波数領域で処理して入力信号中の雑音を相対的に低減することができる。上述のように入力信号を周波数領域で処理するほうが、入力信号を時間領域で処理するよりも、より高い精度で位相差を検出することができ、従って雑音が低減されたより高い品質の音声を生成することができる。上述の２つのマイクロホンからの入力信号の処理は、複数のマイクロホン（図１）の中の任意の２つマイクロホンの組み合わせに適用できる。

上述の実施形態によれば、背景雑音を含む或る録音した音声データを処理した場合、通常の抑圧ゲイン約３ｄＢと比較して、約６ｄＢの抑圧ゲインが得られるであろう。

図６Ａおよび６Ｂは、センサ１９２のデータまたはキー入力データに基づいて設定された受音範囲、抑圧範囲および移行範囲の設定状態を示している。センサ１９２は話者の身体の位置を検出する。方向決定部１９４はその検出位置に応じて話者の身体をカバーするように受音範囲を設定する。方向決定部１９４は、その受音範囲に応じて移行範囲および抑圧範囲を設定する。その設定情報は、同期化係数生成部２２０の同期化係数計算部２２４に供給される。同期化係数計算部２２４は、前述のように、設定された受音範囲、抑圧範囲および移行範囲に応じて同期化係数を計算する。

図６Ａにおいて、話者の顔はセンサ１９２の左側に位置し、センサ１９２は、例えば受音範囲における角度位置として角度θ＝θ１＝−π／４に話者の顔領域Ａの中心位置θを検出する。この場合、方向決定部１９４は、その検出データθ＝θ１に基づいて、顔領域Ａ全体を含むように受音範囲の角度範囲を角度πより狭く設定する。方向決定部１９４は、受音範囲に隣接する各移行範囲のそれぞれの全体の角度範囲を、例えば所定の角度π／４に設定する。方向決定部１９４は、さらに受音範囲の反対側に位置する抑圧範囲全体の角度を残りの角度に設定する。

図６Ｂにおいて、話者の顔はセンサ１９２の下側または正面側に位置し、センサ１９２は、例えば受音範囲における角度位置として角度θ＝θ２＝０に話者の顔領域Ａの中心位置θを検出する。この場合、方向決定部１９４は、その検出データθ＝θ２に基づいて、顔領域Ａ全体を含むように受音範囲の角度範囲を角度πより狭く設定する。方向決定部１９４は、受音範囲に隣接する各移行範囲のそれぞれの全体の角度範囲を、例えば所定の角度π／４に設定する。方向決定部１９４は、さらに受音範囲の反対側に位置する抑圧範囲全体の角度を残りの角度に設定する。顔の位置の代わりに、話者の身体の位置が検出されてもよい。

センサ１９２がディジタル・カメラの場合、方向決定部１９４は、そのディジタル・カメラから取り込んだ画像データを画像認識して、顔領域Ａとその中心位置θを判定する。方向決定部１９４は、顔領域Ａとその中心位置θに基づいて受音範囲、移行範囲および抑圧範囲を設定する。

このようにして、方向決定部１９４は、センサ１９２によって検出された話者の顔または身体の検出位置に従って受音範囲、抑圧範囲および移行範囲を可変設定することができる。代替構成として、方向決定部１９４は、キー入力に従って受音範囲、抑圧範囲および移行範囲を可変設定してもよい。そのように受音範囲および抑圧範囲を可変設定することによって、受音範囲をできるだけ狭くして、できるだけ広い抑圧範囲における各周波数の不要な雑音を抑圧することができる。

以上説明した実施形態は典型例として挙げたに過ぎず、その各実施形態の構成要素を組み合わせること、その変形およびバリエーションは当業者にとって明らかであり、当業者であれば本発明の原理および請求の範囲に記載した発明の範囲を逸脱することなく上述の実施形態の種々の変形を行えることは明らかである。

図１は、本発明の実施形態において用いられる、それぞれ音入力部としての少なくとも２つのマイクロホンのアレイの配置を示している。図２は、本発明の実施形態による、図１の実際のマイクロホンを含むマイクロホン・アレイ装置の概略的構成を示している。図３Ａおよび３Ｂは、図１のマイクロホンのアレイの配置を用いた雑音の抑圧によって雑音を相対的に低減することができるマイクロホン・アレイ装置の概略的構成の例を示している。 (図3Aで説明) 図４は、図１のマイクロホン・アレイの配置による、位相差計算部によって計算された各周波数に対する位相スペクトル成分の位相差を示している。図５は、メモリに格納されたプログラムに従って図３Ａのディジタル信号プロセッサ（ＤＳＰ）によって実行される複素スペクトルの生成のためのフローチャートを示している。図６Ａおよび６Ｂは、センサ・データまたはキー入力データに基づいて設定された受音範囲、抑圧範囲および移行範囲の設定状態を示している。

符号の説明

１００マイクロホン・アレイ装置
ＭＩＣ１、ＭＩＣ２マイクロホン
１２２、１２４増幅器
１４２、１４４低域通過フィルタ
１６２、１６４アナログ−ディジタル変換器
２１２、２１４高速フーリエ変換器
２００ディジタル信号プロセッサ
２２０同期化係数生成部
２２２位相差計算部
２２４同期化係数計算部
３００フィルタ部
３３２同期化部
３３４減算部
３８２逆高速フーリエ変換器

Claims

少なくとも２つの音入力部を有する信号処理装置であって、
少なくとも２つの音入力部から入力された時間軸上の音信号のうちの２つの音信号を用いて、それぞれ、周波数軸上のスペクトル信号に変換する直交変換部と、
前記変換された周波数軸上の２つのスペクトル信号間の位相差を求める位相差計算部と、
前記位相差が所定の範囲にある場合に、周波数毎に前記２つのスペクトル信号のうちの第１のスペクトル信号の各成分を移相して、移相されたスペクトル信号を生成し、前記移相されたスペクトル信号と前記２つのスペクトル信号のうちの第２のスペクトル信号とを合成して、濾波済みのスペクトル信号を生成するフィルタ部と、
を具える信号処理装置。
前記位相差は前記２つの音入力部における音の到来方向を表し、
前記信号処理装置は、さらに、前記位相差に応じて、周波数毎に前記第１のスペクトル信号の各成分の移相量を表す同期化係数を計算する同期化係数計算部を含むものであることを特徴とする、請求項１に記載の信号処理装置。
前記同期化係数計算部は、前記位相差が目的音の方向または雑音の方向のいずれに対応するかに応じて、前記２つのスペクトル信号の間の位相差を表す前記同期化係数を計算するものであることを特徴とする、請求項２に記載の信号処理装置。
前記同期化係数計算部は、前記位相差が雑音の方向に対応する場合、周波数毎に時間フレーム毎の前記２つのスペクトル信号の比に基づいて前記同期化係数を計算するものであることを特徴とする、請求項２または３に記載の信号処理装置。
前記同期化係数計算部は、前記位相差が目的音の方向に対応する場合、前記同期化係数を一定値または周波数に比例する位相差を表す関数とするものであることを特徴とする、請求項２または３に記載の信号処理装置。
前記フィルタ部は、前記２つのスペクトル信号のうちの前記第２のスペクトル信号から周波数に応じた所定の割合の前記移相されたスペクトル信号を減じて、前記濾波済みのスペクトル信号を生成するものであることを特徴とする、請求項１乃至５のいずれかに記載の信号処理装置。
前記フィルタ部は、前記位相差が目的音の方向または雑音の方向のいずれに対応するかに応じて、前記所定の割合を計算するものであることを特徴とする、請求項６に記載の信号処理装置。
前記同期化係数計算部は、話者の方向を表す情報に基づいて、前記位相差に関する前記所定の範囲としての目的音の方向の範囲を設定するものであることを特徴とする、請求項１乃至５のいずれかに記載の信号処理装置。
少なくとも２つの音入力部を有する信号処理装置における信号処理方法であって、
少なくとも２つの音入力部から入力された時間軸上の音信号のうちの２つの音信号を、それぞれ、周波数軸上のスペクトル信号に変換する工程と、
前記変換された周波数軸上の２つのスペクトル信号間の位相差を求める工程と、
前記位相差が所定の範囲にある場合に、周波数毎に前記２つのスペクトル信号のうちの第１のスペクトル信号の各成分を移相して、移相されたスペクトル信号を生成し、前記移相されたスペクトル信号と前記２つのスペクトル信号のうちの第２のスペクトル信号とを合成して、濾波済みのスペクトル信号を生成する工程と、
を含む信号処理方法。
少なくとも２つの音入力部を有する信号処理装置用の信号処理プログラムであって、
少なくとも２つの音入力部から入力された時間軸上の音信号のうちの２つの音信号を、それぞれ、周波数軸上のスペクトル信号に変換するステップと、
前記変換された周波数軸上の２つのスペクトル信号間の位相差を求めるステップと、
前記位相差が所定の範囲にある場合に、周波数毎に前記２つのスペクトル信号のうちの第１のスペクトル信号の各成分を移相して、移相されたスペクトル信号を生成し、前記移相されたスペクトル信号と前記２つのスペクトル信号のうちの第２のスペクトル信号とを合成して、濾波済みのスペクトル信号を生成するステップと、
を前記信号処理装置に実行させるための信号処理プログラム。