JP5738488B2

JP5738488B2 - ビームフォーミング装置

Info

Publication number: JP5738488B2
Application number: JP2014529174A
Authority: JP
Inventors: 崇志三上; 智治粟野
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-08-06
Filing date: 2012-08-06
Publication date: 2015-06-24
Anticipated expiration: 2032-08-06
Also published as: US9503809B2; DE112012006780T5; CN104521245B; US20150181329A1; CN104521245A; WO2014024248A1; JPWO2014024248A1

Description

この発明は、複数のマイクロフォン信号から目的信号を強調した信号を得るためにビームフォーミングを行うビームフォーミング装置に関するものである。

雑音が大きい環境下や複数の信号源が存在する環境下で、車載ハンズフリーのような通話システムを構築するためには、特定の信号源（話者）の信号のみを分離して抽出する技術が必要となる。この技術の一つとしてビームフォーマが挙げられる。ビームフォーマはマイクロアレイによる複数チャネルの信号を足し合わせることで目的方向の信号を強調するものであり、固定型のビームフォーマと適応型のビームフォーマがある。

最も単純な固定型ビームフォーマは遅延和法（Delay and Sum）であり、図６に示すように２チャンネルのマイク９０１，９０２と、信号遅延部９０３および遅延和部９０４で構成される。この遅延和法は、一般に計算量が少なくて済むが、車載目的など多数のマイクを使用することが困難な場合には、サイドローブが大きい、残響環境下に弱い、低周波領域に対しては十分な指向性が得られないなどの問題があった。
低周波領域において指向性を上げるためにはマイクロフォンアレイの全体のアレイ長を長くする必要がある。例えば、１０００Ｈｚの音に対してメインローブが±１０°程度の指向性を得ようとした場合、アレイ長は約２ｍ必要となる。また、単純にマイクロフォンアレイの間隔を長くすることによりアレイ長を大きくすると、グレーティングローブが目的方向以外に発生して指向性が低下するという問題があった（非特許文献１参照）。従って、グレーティングローブを抑えて低周波数領域での指向性を保つためには、多数のマイクロフォンを密に並べる必要があり、非常にコストがかかるという問題があった。

これに対して、適応ビームフォーマは、目的方向の感度を一定に保った上で雑音音源が死角になるよう指向性を形成する方式であり、低周波領域に対しても有効で残響環境下においても雑音抑制を行うことができる。適応ビームフォーマには様々な方式があるが、遅延和法の拡張とみなすことができる方式の一つに、一般化サイドローブキャンセラ（ＧＳＣ, Generalized Sidelobe Canceller）がある。一般化サイドローブキャンセラは、固定ビームフォーマと適応フィルタによりノイズを抑圧するビームフォーマであり、２チャンネルのマイクによる一般的なGriffith-Jim型のＧＳＣは、図７に示すように構成される。２チャンネルのマイク９０１，９０２、信号遅延部９０３、遅延和部９０４、目的音遮断部９０５および適応フィルタ９０６で構成され、目的音遮断部９０５はマイク信号の減算による減算型ビームフォーマを行う。目的音遮断部９０５の出力を用いて適応フィルタ９０６においてノイズ成分を推定し、遅延和部９０４の出力との差分を求める。

減算型ビームフォーマの出力結果には、目的信号が差し引かれたノイズ成分だけが残っていると考えられ、適応フィルタの入力として適用することにより遅延和法の結果からノイズ成分を除去することができる。しかし、単純な減算だけでは十分に目的信号を除去できない場合が多く、適応フィルタにおいて十分にノイズを除去できない、目的信号まで除去してしまうという問題があった。
この対策として、特許文献１では、目的音遮断部を固定ビームフォーマの出力とマイク入力を用いた適応フィルタにより構成し、各マイク入力から目的信号を除去するように構成している。単なる減算型ビームフォーマよりも目的音を除去した信号が得られるため、後段の適応フィルタでのノイズ抑圧の性能を向上させることができる。

特開平０８−１２２４２４号公報

大賀寿郎、山崎芳男、金田豊著、「音響システムとディジタル処理」、初版、社団法人電子情報通信学会、１９９５年３月２５日、ｐ１８１−１８６

しかしながら、上述した特許文献１に開示された技術は、固定ビームフォーマにおいて複数の入力信号の位相を固定ＦＩＲ（Finite Impulse Response）フィルタなどで揃えることでＳＮ比（Signal to Noise Ratio）を向上させるものであり、音場の環境によって周波数帯ごとに位相のずれ方や強度が異なる場合や変動する場合は、高精度に位相を合わせることができず、位相合わせの性能が低下するという課題があった。

この発明は上記のような課題を解決するためになされたもので、複数の入力信号の位相合わせの精度を向上させ、ＳＮ比を向上させた出力信号を得ることを目的とする。

この発明に係るビームフォーミング装置は、異なるマイクロフォンで収集された音声がそれぞれ変換された第１の音声信号および第２の音声信号から、互いに相関性を有する目的信号を除去する第１の目的音遮断部および第２の目的音遮断部と、第１の目的音遮断部が目的信号を除去する際に取得した情報を用いて、第１の音声信号と第２の音声信号の位相を合わせて合成する位相合わせ部と、第１の目的音遮断部および第２の目的音遮断部において目的信号を除去した信号から、位相合わせ部の出力信号に含まれるノイズ成分を学習するノイズ学習部とを備えるものである。

この発明によれば、音場の環境の変化に影響を受けることなく、高精度に複数の入力信号の位相合わせを行い、ＳＮ比を向上させた出力信号を得ることができる。

実施の形態１によるビームフォーミング装置の構成を示す図である。実施の形態２によるビームフォーミング装置の構成を示す図である。実施の形態３によるビームフォーミング装置の構成を示す図である。実施の形態３によるビームフォーミング装置の目的音遮断対の構成を示す図である。実施の形態４によるビームフォーミング装置の構成を示す図である。遅延和法による固定型ビームフォーマの構成を示す図である。一般化サイドローブキャンセラの構成を示す図である。

実施の形態１．
図１は、この発明の実施の形態１によるビームフォーミング装置の構成を示す図である。
実施の形態１のビームフォーミング装置は、第１のマイク１０１、第２のマイク１０２、第１の目的音遮断部１０３、第２の目的音遮断部１０４、位相合わせ部１０５、ノイズ学習部１０６で構成されている。
第１のマイク１０１および第２のマイク１０２は、外部音を電気信号（第１の音声信号および第２の音声信号）に変換する。第１の目的音遮断部１０３は、第２のマイク１０２の信号を利用して、第１のマイク１０１の信号から目的音を遮断する処理を行う。第２の目的音遮断部１０４は、第１のマイク１０１の信号を利用して、第２のマイク１０２の信号から目的音を遮断する処理を行う。位相合わせ部１０５は、第１の目的音遮断部１０３から入力される処理結果を用いて、第１のマイク１０１と第２のマイク１０２から入力される入力信号の位相合わせを行う。ノイズ学習部１０６は、第１の目的音遮断部１０３と第２の目的音遮断部１０４から出力される信号の混合信号を用いて、位相合わせ部１０５の出力信号からノイズ成分を学習する。

次に、この実施の形態１のビームフォーミング装置の動作について説明する。
なお以下では、第１の目的音遮断部１０３および第２の目的音遮断部１０４に、ＬＭＳ(Least Mean Squares filter)による適応フィルタを用いる場合を例に説明を行う。
図１に示すように、第１の目的音遮断部１０３は、第１のマイク１０１の信号ｘ₁から第２のマイク１０２の信号ｘ₂を入力として、ＬＭＳ適応フィルタにより残差信号を求める。これにより、第１のマイク１０１、第２のマイク１０２の両方に含まれる相関のある信号（目的信号）を第１のマイク１０１の信号ｘ₁から除去することができる。

時刻ｎにおける第１のマイク１０１の信号をｘ₁（ｎ）、第２のマイク１０２の信号をｘ₂（ｎ）、第１の目的音遮断部１０３の出力をｙ₁（ｎ）、第１の目的音遮断部１０３のＬＭＳ適応フィルタのフィルタ係数をF(n) =[h₀(n), h₁(n), …, h_p-1(n)]^Tとすると、以下の式（１）から式（３）を用いて音声除去後の信号ｅ₁（ｎ）が求められる。
X₂(n) = [x₂(n), x₂(n-1), …, x₂(n-p-1)]^T ・・・（１）
e₁(n) = x₁(n) - y₁(n) = x₁(n) - F^T(n)・X₂(n) ・・・（２）
F(n+1) = F(n) + μ・e₁(n)・X₂(n) ・・・（３）

式（３）においてμは学習速度を求める定数であって１より小さい正の値、式（１）においてｐはＬＭＳ適応フィルタの長さ、式（１）および式（２）においてＴは転置行列を示す。なおＬＭＳ適応フィルタの長さｐは、音声信号が相関を持つ程度の長さを用いる。ＬＭＳ適応フィルタはパワーが強い時にフィルタ係数の学習が進みやすいため、音声区間で学習が進み、第１のマイク１０１の信号ｘ₁から音声信号を除去しやすい。

同様に、第２の目的音遮断部１０４は、第２のマイク１０２の信号ｘ₂から第１のマイク１０１の信号ｘ₁を入力として、ＬＭＳ適応フィルタにより残差信号を求める。これにより、第２のマイク１０２、第１のマイク１０１の両方に含まれる相関のある信号（目的信号）を第２のマイク１０２の信号ｘ₂から除去することができる。

一方、位相合わせ部１０５は、第１のマイク１０１の信号ｘ₁と第２のマイク１０２の号ｘ₂を、ＦＩＲフィルタを通して合成する。ここで、ＦＩＲフィルタの係数として、第１の目的音遮断部１０３が学習したＬＭＳ適応フィルタのフィルタ係数Ｆ（ｎ）が設定される。第１の目的音遮断部１０３で学習されたフィルタ係数Ｆ（ｎ）は、第２のマイク１０２の信号ｘ₂を第１のマイク１０１の信号ｘ₁と位相を合わせるように学習した係数であるため、第２のマイク１０２の信号ｘ₂に畳み込むことによって第１のマイク１０１の信号ｘ₁と位相が合わされた信号を得ることができる。つまり、第１のマイク１０１の信号ｘ₁と、第２のマイク１０２の信号ｘ₂に第１の目的音遮断部１０３が学習したフィルタ係数Ｆ（ｎ）を畳み込んだ信号とを加算し、平均化する。時刻ｎにおける位相合わせ部１０５の出力信号ｚ（ｎ）は、以下の式（４）で表される。
z(n) = (x₁(n) + F^T(n)・X₂(n))/2 ・・・（４）
位相合わせ部１０５の処理により、従来例で示した遅延加算よりも音声を強調したビームフォーミングを実現することができる。

また、第１の目的音遮断部１０３の出力信号ｙ₁と第２の目的音遮断部１０４の出力信号ｙ₂は加算されてノイズ信号ｎｏｉｓｅとなり、ノイズ学習部１０６に入力される。ノイズ学習部１０６は、当該ノイズ信号ｎｏｉｓｅを入力とし、位相合わせ部１０５の出力信号ｚを目的信号とするＮＬＭＳ（Normalized Least Mean Squares filter）適応フィルタにより、位相合わせ部１０５の出力信号ｚに含まれるノイズ成分を学習する。位相合わせ部１０５の出力信号ｚからノイズ学習部１０６の出力信号を減算することにより、ノイズを除去した信号ｅを得ることができる。

時刻ｎにおける第１の目的音遮断部１０３の出力信号ｙ₁（ｎ）と第２の目的音遮断部１０４の出力信号ｙ₂（ｎ）の加算信号をｎｏｉｓｅ（ｎ）、フィルタ係数をFN(n) =[hn₀(n), hn₁(n), …, hn_p-1(n)]^Tとすると、ノイズ除去後の信号ｅ（ｎ）は以下の式（５）から式（７）に基づいて算出される。
N(n) = [noise(n), noise(n-1), …, noise(n-p-1)]^T ・・・（５）
e(n) = z(n) - FN^T(n)・N(n) ・・・（６）
FN(n+1) = FN(n) + μ・ne(n)・N(n)／N ^T(n)N(n) ・・・（７）

なお、上述した説明では、第１の目的音遮断部１０３および第２の目的音遮断部１０４の適応フィルタとしてＬＭＳを用い、ノイズ学習部１０６の適応フィルタとしてＮＬＭＳを用いる例を示したが、ＲＬＳ（Recursive Least Squares）やアフィン射影フィルタなど他の適応フィルタを用いて構成してもよい。

以上のように、この実施の形態１によれば、位相合わせ部１０５のフィルタ係数として、第１の目的音遮断部１０３が学習したフィルタ係数を適用するように構成したので、一般化サイドローブキャンセラ（ＧＳＣ）や固定ビームフォーマと比較してよりＳＮ比が良好な信号を位相合わせ部１０５から得ることができる。また、第１の目的音遮断部１０３の演算処理の過程で得られる係数を、位相合わせ部１０５のフィルタ係数として適用することができるため、位相合わせの処理を効率よく行うことができる。

また、この実施の形態１によれば、ノイズ学習部１０６において位相合わせ部１０５の出力信号に含まれるノイズ成分を学習し、学習したノイズ成分を減算するように構成したので、ノイズが抑制され、ＳＮ比が向上した信号を得ることができる。

実施の形態２．
図２は、この発明の実施の形態２によるビームフォーミング装置の構成を示す図である。この実施の形態２では、適応フィルタを用いた第１の目的音遮断部１０３´および第２の目的音遮断部１０４´とし、さらに実施の形態１で示した位相合わせ部１０５をゲイン調整部１０７ａおよび合成部１０７ｂで構成している。
なお、以下では、実施の形態１によるビームフォーミング装置の構成要素と同一または相当する部分には実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

第１の目的音遮断部１０３´は適応フィルタで構成され、第１のマイク１０１の信号ｘ₁および第２のマイク１０２の信号ｘ₂から、第１のマイク１０１の信号ｘ₁に含まれるノイズ成分ｙ₁を推定する。推定したノイズ成分ｙ₁を第１のマイク１０１の信号ｘ₁から除去することにより、音声除去後の信号ｅ₁を得る。第２の目的音遮断部１０４´は適応フィルタで構成され、第１のマイク１０１の信号ｘ₁および第２のマイク１０２の信号ｘ₂から、第２のマイク１０２の信号ｘ₂に含まれるノイズ成分ｙ₂を推定する。推定したノイズ成分ｙ₂を第２のマイク１０２の信号ｘ₂から除去することにより、音声除去後の信号ｅ₂を得る。

ゲイン調整部１０７ａは第１の目的音遮断部１０３´の出力信号ｙ₁のゲインを調整し、合成部１０７ｂはゲイン調整をした信号を第１のマイク１０１の信号ｘ₁から減算する。これにより、実施の形態１の位相合わせ部１０５の出力信号ｚと同一の信号を得る。ノイズ学習部１０６は、第１の目的音遮断部１０３´の音声除去後の信号ｅ₁と、第２の目的音遮断部１０４´の音声除去後の信号ｅ₂との加算信号を用いて、ゲイン調整後の出力信号ｚからノイズ成分を学習する。ゲイン調整後の出力信号ｚからノイズ学習部１０６の出力信号を減算することにより、ノイズを除去した信号ｅを得ることができる。

上述した実施の形態１では、位相合わせ部１０５においてＦＩＲフィルタを用いて畳み込み演算を行う例を示したが、この実施の形態２に示すように、第１の目的音遮断部１０３´および第２の目的音遮断部１０４´に適応フィルタを用いる場合には、ＦＩＲフィルタによる畳み込み演算が不要となり、上述した式（２）および式（４）に基づいて算出される以下の式（８）および式（９）により第１の目的音遮断部１０３´の出力とゲイン調整部１０７ａにより出力信号ｚ（ｎ）を得ることができる。
まず上述した式（２）より、以下の式（８）が得られる。
F^T(n)・X₂(n) = x₁(n) - e₁(n) ・・・（８）

上述した式（４）と、式（８）を用いて、以下の式（９）に示すように出力信号ｚ（ｎ）は、第１のマイク１０１の信号ｘ₁（ｎ）およびゲイン調整を行った音声除去後の信号ｅ₁（ｎ）で表される。
z(n) = (x₁(n) + F^T(n)・X₂(n))/2 ・・・（９）
= (x₁(n) + x₁(n) - e₁(n))/2
= x₁(n) - e₁(n)/2

式（９）で示すように、音声除去後の信号ｅ₁（ｎ）をゲイン調整部１０７ａに出力し、ゲイン調整部１０７ａが信号ｅ₁（ｎ）のゲインを１／２に調整した後、第１のマイク１０１の信号ｘ₁（ｎ）から減算することにより、出力信号ｚ（ｎ）が得られる。式（９）では、上述した実施の形態１と同一の結果を得るため、ゲイン調整部１０７ａにおけるゲインを１／２に設定する場合を示したが、第１のマイク１０１および第２のマイク１０２のゲインバランスなどに応じて数値を適宜変更してもよい。

以上のように、この実施の形態２によれば、第１の目的音遮断部１０３´および第２の目的音遮断部１０４´として適応フィルタを用いて第１のマイク１０１の信号および第２のマイク１０２の信号に含まれるノイズ成分を推定し、ゲイン調整部１０７ａが音声除去後の信号のゲインを調整し、第１のマイク１０１の信号から減算するように構成したので、位相合わせを行うためのＦＩＲフィルタを設ける必要がなく、演算量を削減することができる。

実施の形態３．
上述した実施の形態１および実施の形態２では、第１のマイク１０１および第２のマイク１０２の２つのマイクを備える構成を示したが、この実施の形態３では、マイクの数を３以上のＮ個に拡張した場合のビームフォーミング装置について説明する。

図３は、この発明の実施の形態３によるビームフォーミング装置の構成を示す図である。
実施の形態３のビームフォーミング装置は、アレイマイク部１０８、目的音遮断対集合部１０９、位相合わせ部１０５およびノイズ学習部１０６で構成されている。
アレイマイク部１０８は、第１のマイク１０８Ａ、第２のマイク１０８Ｂ、・・・、第Ｎのマイク１０８ＮのＮ個のマイクで構成される。各マイク１０８Ａ，１０８Ｂ，・・・，１０８Ｎは外部音を電気信号に変換する。目的音遮断対集合部１０９は、マイクの個数Ｎに対してＮ−１個の目的音遮断対を備える。図３の例では第１の目的音遮断対１０９Ａ、第２の目的音遮断対１０９Ｂ、・・・、第Ｎ−１の目的音遮断対１０９（Ｎ−１）で構成している。各目的音遮断対１０９Ａ，１０９Ｂ，・・・，１０９（Ｎ−１）は第１のマイク１０８Ａの信号（代表音声信号）とその他のマイク１０８Ｂ，・・・，１０８Ｎの信号（その他の複数の音声信号）を用いて互いに相関性を有する信号（目的信号）を除去する。

図４は、この発明の実施の形態３によるビームフォーミング装置の目的音遮断対の構成を示す図である。図４では、第１の目的音遮断対１０９Ａを例に示している。
第１の目的音遮断対１０９Ａは、第１の入力目的音遮断部１１１Ａおよび第２の入力目的音遮断部１１２Ａで構成される。第１の入力目的音遮断部１１１Ａは、第１のマイク１０８Ａの信号ｘ₁から目的音を遮断し、位相合わせ部１０５において位相合わせを行うための情報を出力する。第２の入力目的音遮断部１１２Ａは、第２のマイク１０８Ｂの信号ｘ₂から目的音を遮断し、ノイズ学習部１０６においてノイズを学習するための信号を出力する。

位相合わせ部１０５は、Ｎ−１個の目的音遮断対１０９Ａ，１０９Ｂ，・・・，１０９（Ｎ−１）から入力される結果を用いて、Ｎ個のマイク１０８Ａ，１０８Ｂ，・・・，１０８Ｎから入力される信号の位相合わせを行う。ノイズ学習部１０６は、Ｎ−１個の目的音遮断対１０９Ａ，１０９Ｂ，・・・，１０９（Ｎ−１）から出力される信号の合算信号を用いて、位相合わせ部１０５の出力信号からノイズ成分を学習する。

第Ｋの目的音遮断対１０９Ｋ（１≦Ｋ≦Ｎ−１）における第１の入力目的音遮断部１１１Ｋでは、第１のマイク１０８Ａの信号ｘ₁を教師信号、第Ｋ＋１のマイクの信号ｘ_K+1を入力信号として、上述した式（１）から式（３）と同様に、以下の式（１０）から式（１２）に示すようにＮＬＭＳによる適応フィルタを用いて第１のマイク１０８Ａの信号ｘ₁から目的信号を除去する学習を行う。
X_K(n) = [x_K(n), x_K(n-1), …, x_K(n-p-1)]^T ・・・（１０）
e_1K(n) = x₁(n) - y_1K(n) = x₁(n) - F_K ^T(n)・X_K(n) ・・・（１１）
F_K(n+1) = F_K(n) + μ・e_1K(n)・X_K(n) ・・・（１２）
上述した式（１０）から式（１２）において、Ｘ_Kは第Ｋ＋１のマイクの信号ｘ_K+1、Ｆ_KはＮＬＭＳのフィルタ係数、ｙ_1KはＮＬＭＳにおける残差信号である。

一方、第Ｋの目的音遮断対１０９Ｋにおける第２の入力目的音遮断部１１２Ｋは、第１のマイク１０８Ａの信号ｘ₁を入力信号、第Ｋ＋１のマイクの信号ｘ_K+1を教師信号として、上述した式（１０）から式（１２）とは逆の学習を以下の式（１３）から式（１５）に基づいて行う。
X₁(n) = [x₁(n), x₁(n-1), …, x₁(n-p-1)]^T ・・・（１３）
e_K(n) = x_K(n) - y_K(n) = x_K(n) - F_1K ^T(n)・X₁(n) ・・・（１４）
F_1K(n+1) = F_1K(n) + μ・e_K(n)・X₁(n) ・・・（１５）
上述した式（１３）から式（１５）において、Ｘ₁は第１のマイク１０１の信号、Ｆ_1KはＮＬＭＳのフィルタ係数、ｙ_Kは第Ｋの目的音遮断対１０９Ｋの出力信号、すなわち残差信号である。

位相合わせ部１０５は、第１の入力目的音遮断部１１１Ａの出力信号、すなわち第２のマイク１０８Ｂから第Ｎのマイクの出力信号に対してＦＫを係数とするＦＩＲフィルタで畳み込みを行った信号を、第１のマイク１０８Ａの信号ｘ₁に加算する。
ノイズ学習部１０６は、第１から第Ｎ−１の目的音遮断対１０９Ａ，１０９Ｂ，・・・，１０９（Ｎ−１）の第２の入力目的音遮断部１１２Ａ，１１２Ｂ，・・・，１１２（Ｎ−１）から出力される目的音を遮断した出力信号ｙ₁，ｙ₂，・・・，ｙ_N-1を加算したノイズ信号ｎｏｉｓｅを入力とし、位相合わせ部１０５の出力信号ｚを目的信号とするＮＬＭＳ適応フィルタにより、位相合わせ部１０５の出力信号ｚに含まれるノイズ成分を学習する。位相合わせ部１０５の信号からノイズ学習部１０６の出力を減算することにより、ノイズ除去後の信号ｅを得ることができる。

以上のように、この実施の形態３によれば、３以上のＮ個のマイクで構成されたアレイマイク部１０８と、Ｎ−１個の目的音遮断対で構成された目的音遮断対集合部１０９を備え、各目的音遮断対は代表マイクの信号と、それ以外のマイクの信号を入力として、代表マイクの信号から目的信号を除去する第１の入力目的音遮断部と、その他の各マイクの入力信号から目的信号を除去する第２の入力目的音遮断部を備えるように構成したので、３以上のマイク数を備えた装置においても、位相合わせの精度を向上させることができる。また、効率のよい位相合わせを行うことができる。

なお、上述した実施の形態３では、代表マイクである第１のマイク１０８Ａの信号と、その他のマイク１０８Ｂ，・・・，１０８Ｎの信号を用いて目的音遮断対集合部１０９を構成する例を示したが、代表マイクは第１のマイク１０８Ａ以外で構成してもよく、例えば、ＳＮ比の最も高いマイクを代表マイクに選択するなど、周囲の状況に合わせて切り替えてもよい。
また、上述した実施の形態３では、適応フィルタとしてＬＭＳを用いる例を示したが、ＮＬＭＳやアフィン射影フィルタなど他のアルゴリズムを用いて構成してもよい。

実施の形態４．
図５は、この発明の実施の形態４によるビームフォーミング装置の構成を示す図である。この実施の形態４では、上述した実施の形態１で示したビームフォーミング装置に音声区間検出部１２０を追加して設けている。
音声区間検出部１２０は、第１のマイク１０１の信号および第２のマイク１０２の信号を入力として、入力された信号の音声区間を検出する。音声区間検出には公知の技術を適用することができる。例えば、以下に示す参考文献１に開示された音声区間判別装置の検出技術を適用することができる。
・参考文献１
特開平１０−１７１４８７号公報

第１の目的音遮断部１０３および第２の目的音遮断部１０４は、音声区間検出部１２０の検出結果を参照し、音声区間であることを示す検出結果が入力された場合には適応フィルタの学習処理を行い、音声区間でないことを示す検出結果が入力された場合には適応フィルタの学習処理を行わないように構成することができる。

以上のように、この実施の形態４によれば、第１および第２のマイク１０１，１０２の信号の音声区間を検出する音声区間検出部１２０を備え、第１および第２の目的音遮断部１０３，１０４が音声区間検出部１２０の検出結果を参照し、音声区間であることを検出した場合にのみ適応フィルタの学習処理を行うように構成したので、適応フィルタの誤学習を防止し、より高精度にフィルタ係数を学習することができる。

なお、上述した実施の形態４では、実施の形態１で示したビームフォーミング装置に音声区間検出部１２０を適用する例を示したが、実施の形態２および実施の形態３で示したビームフォーミング装置にも適用可能である。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

１０１第１のマイク、１０２第２のマイク、１０３，１０３´ 第１の目的音遮断部、１０４，１０４´ 第２の目的音遮断部、１０５位相合わせ部、１０６ノイズ学習部、１０７ａゲイン調整部、１０７ｂ合成部、１０８アレイマイク部、１０９目的音遮断対集合部、１０９Ａ第１の目的音遮断対、１１１Ａ第１の入力目的音遮断部、１１２Ａ第２の入力目的音遮断部、１２０音声区間検出部。

Claims

入力された音声信号に対して演算処理を行い、指向特性を形成するビームフォーミング装置において、
異なるマイクロフォンで収集された音声がそれぞれ変換された第１の音声信号および第２の音声信号から、互いに相関性を有する目的信号を除去する第１の目的音遮断部および第２の目的音遮断部と、
前記第１の目的音遮断部が前記目的信号を除去する際に取得した情報を用いて、前記第１の音声信号と前記第２の音声信号の位相を合わせて合成する位相合わせ部と、
前記第１の目的音遮断部および前記第２の目的音遮断部において前記目的信号を除去した信号から、前記位相合わせ部の出力信号に含まれるノイズ成分を学習するノイズ学習部とを備えたことを特徴とするビームフォーミング装置。
前記第１の目的音遮断部および前記第２の目的音遮断部は、前記第１の音声信号および前記第２の音声信号から前記目的信号を除去する際にフィルタ係数を学習し、
前記位相合わせ部は、前記第１の目的音遮断部が学習したフィルタ係数を前記第２の音声信号に畳み込み、当該フィルタ係数を畳み込んだ第２の音声信号を前記第１の音声信号に加算し、位相を合わせることを特徴とする請求項１記載のビームフォーミング装置。
前記第１の目的音遮断部および前記第２の目的音遮断部は、前記第２の音声信号および前記第１の音声信号に含まれるノイズ成分を推定する適応フィルタで構成され、
前記位相合わせ部は、前記第１の目的音遮断部が推定したノイズ成分に基づいて算出した音声除去信号の利得を調整するゲイン調整部を備え、当該ゲイン調整部で利得を調整した音声除去信号を前記第１の音声信号から減算することを特徴とする請求項１記載のビームフォーミング装置。
入力された音声信号に対して演算処理を行い、指向特性を形成するビームフォーミング装置において、
Ｎ個（Ｎ≧３）のマイクロフォンで収集された音声がそれぞれ変換された代表音声信号およびその他複数の音声信号から、互いに相関性を有する目的信号を除去するＮ−１個の目的音遮断対で構成される目的音遮断対集合部と、
前記Ｎ−１個の目的音遮断対が前記目的信号を除去する際に取得した情報を用いて、前記代表音声信号および前記その他複数の音声信号の位相を合わせて合成する位相合わせ部と、
前記Ｎ−１個の目的音遮断対において前記目的信号を除去した信号から、前記位相合わせ部の出力信号に含まれるノイズ成分を学習するノイズ学習部とを備え、
前記Ｎ−１個の目的音遮断対は、前記代表音声信号から前記目的信号を除去する第１の入力目的音遮断部と、前記その他複数の音声信号のいずれかから前記目的信号を除去する第２の入力目的音遮断部とを備えることを特徴とするビームフォーミング装置。
前記位相合わせ部は、前記Ｎ−１個の目的音遮断対の各第１の入力目的音遮断部が前記代表音声信号から前記目的信号を除去する際に学習したフィルタ係数を前記その他複数の音声信号に畳み込み、当該フィルタ係数を畳み込んだ音声信号を前記代表音声信号に加算し、位相を合わせることを特徴とする請求項４記載のビームフォーミング装置。
前記第１の音声信号および前記第２の音声信号に含まれる音声区間を検出する音声区間検出部を備え、
前記第１の目的音遮断部および前記第２の目的音遮断部は、前記音声区間検出部において音声区間が検出された場合に、前記フィルタ係数の学習を行うことを特徴とする請求項２記載のビームフォーミング装置。
前記第１の音声信号および前記第２の音声信号に含まれる音声区間を検出する音声区間検出部を備え、
前記第１の目的音遮断部および前記第２の目的音遮断部は、前記音声区間検出部において音声区間が検出された場合に、前記適応フィルタによるノイズ成分の推定を行うことを特徴とする請求項３記載のビームフォーミング装置。
前記代表音声信号および前記その他複数の音声信号に含まれる音声区間を検出する音声区間検出部を備え、
前記Ｎ−１個の目的音遮断対は、前記音声区間検出部において音声区間が検出された場合に、前記フィルタ係数の学習を行うことを特徴とする請求項５記載のビームフォーミング装置。