JP7041157B6

JP7041157B6 - ビームフォーミングを使用するオーディオキャプチャ

Info

Publication number: JP7041157B6
Application number: JP2019535905A
Authority: JP
Inventors: コルネリスピーターヤンス; パトリックケチチャン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-01-03
Filing date: 2017-12-28
Publication date: 2022-05-31
Anticipated expiration: 2037-12-28
Also published as: EP3566462B1; US10887691B2; RU2019124534A3; RU2019124534A; CN110140359A; RU2758192C2; CN110140359B; US20190342660A1; BR112019013548A2; JP2020503788A; WO2018127450A1; EP3566462A1; JP7041157B2

Description

本発明は、ビームフォーミングを使用するオーディオキャプチャに関し、特に、限定はしないが、ビームフォーミングを使用するスピーチキャプチャに関する。

オーディオ、特にスピーチをキャプチャすることは、ここ数十年間でますます重要になった。実際、スピーチをキャプチャすることは、電気通信、遠隔会議、ゲーミング、オーディオユーザインターフェースなどを含む様々な適用例にとって、ますます重要になった。しかしながら、多くのシナリオ及び適用例における問題は、所望のスピーチソースが、一般に、環境における唯一のオーディオソースでないことである。むしろ、一般的なオーディオ環境において、マイクロフォンによってキャプチャされている多くの他のオーディオ／雑音（ｎｏｉｓｅ）ソースがある。多くのスピーチキャプチャ適用例が直面する重大な問題のうちの１つは、雑音の多い環境において、どのように最も良くスピーチを抽出するかの問題である。この問題に対処するために、雑音抑圧のためのいくつかの異なる手法が提案された。

実際、たとえばハンズフリースピーチ通信システムの研究は、数十年の間に多くの関心を受けた論題である。利用可能な最初の商業システムは、低い背景雑音及び低い残響時間をもつ環境におけるプロフェッショナル（ビデオ）会議システムに焦点を当てた。たとえば所望のスピーカーなど、所望のオーディオソースを識別し、抽出するための特に有利な手法は、マイクロフォンアレイからの信号に基づくビームフォーミングの使用であることがわかった。初めに、マイクロフォンアレイはしばしば集束固定ビームとともに使用されたが、後に、適応ビームの使用がより普及した。

１９９０年代後半には、モバイルのためのハンズフリーシステムが導入され始めた。これらは、残響室を含む多くの異なる環境において、及び（より）高い背景雑音レベルにおいて使用されることが意図された。そのようなオーディオ環境は、大幅により困難な課題を与え、特に、形成されたビームの適応を複雑にするか、又は劣化させる。

初めに、そのような環境のためのオーディオキャプチャの研究は、エコーキャンセルに、及び後に雑音抑圧に焦点を当てた。ビームフォーミングに基づくオーディオキャプチャシステムの一例が図１に示されている。本例では、複数のマイクロフォンのアレイ１０１がビームフォーマ１０３に結合され、ビームフォーマ１０３は、オーディオソース信号ｚ（ｎ）と１つ又は複数の雑音基準信号ｘ（ｎ）とを生成する。

マイクロフォンアレイ１０１は、いくつかの実施形態では２つのマイクロフォンのみを備えるが、一般に、より大きい数を備える。

ビームフォーマ１０３は、詳細には、好適な適応アルゴリズムを使用して１つのビームがスピーチソースのほうへ向けられ得る適応ビームフォーマである。

たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号は、スピーチに焦点を当てるが、スピーチを（ほとんど）含んでいない基準信号をも与える適応ビームフォーマの例を開示する。

ビームフォーマは、受信された信号をフォワードマッチングフィルタにおいてフィルタ処理し、フィルタ処理された出力を加算することによって、マイクロフォン信号の所望の部分をコヒーレントに加算することによって、拡張出力信号ｚ（ｎ）を作成する。また、出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有するバックワード適応フィルタにおいてフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、オーディオビームが支配的な信号のほうへステアリングされることになる。生成された誤差信号ｘ（ｎ）は、拡張出力信号ｚ（ｎ）に対して追加の雑音低減を実行するのに特に適した雑音基準信号と見なされ得る。

１次信号ｚ（ｎ）と基準信号ｘ（ｎ）とは、一般に、両方とも雑音によって汚染される。２つの信号における雑音がコヒーレントである場合（たとえば、干渉するポイント雑音ソースがあるとき）、コヒーレント雑音を低減するために適応フィルタ１０５が使用され得る。

この目的で、雑音基準信号ｘ（ｎ）は適応フィルタ１０５の入力に結合され、その出力が、オーディオソース信号ｚ（ｎ）から減算されて、補償信号ｒ（ｎ）を生成する。適応フィルタ１０５は、一般に所望のオーディオソースがアクティブでないとき（たとえば、スピーチがないとき）、補償信号ｒ（ｎ）の電力を最小化するように適応され、これにより、コヒーレント雑音の抑圧が生じる。

補償信号はポストプロセッサ１０７に供給され、ポストプロセッサ１０７は、雑音基準信号ｘ（ｎ）に基づいて補償信号ｒ（ｎ）に対して雑音低減を実行する。詳細には、ポストプロセッサ１０７は、短時間フーリエ変換を使用して補償信号ｒ（ｎ）と雑音基準信号ｘ（ｎ）とを周波数ドメインに変換する。ポストプロセッサ１０７は、次いで、各周波数ビンについて、Ｘ（ω）の振幅スペクトルのスケーリングされたバージョンを減算することによってＲ（ω）の振幅を変更する。得られた複素スペクトルは時間ドメインに変換されて、雑音が抑圧された出力信号ｑ（ｎ）をもたらす。スペクトル減算のこの技法は、最初に、Ｓ．Ｆ．Ｂｏｌｌ、「ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅｉｎＳｐｅｅｃｈｕｓｉｎｇＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２７、１１３～１２０頁、１９７９年４月に記載された。

個々の時間周波数タイルにおけるオーディオソース信号と雑音基準信号との相対エネルギーに基づく雑音抑圧の特定の例が、ＷＯ２０１５１３９９３８Ａに記載されている。

多くのシナリオ及び適用例では、ビームフォーマによってキャプチャされた信号においてポイントオーディオソースの存在を検出することが可能であることが望ましい。たとえば、スピーチ制御システムでは、スピーカーが実際にキャプチャされている時間中にのみスピーチコマンドを検出することを試みることが望ましい。別の例として、スピーチが存在しない時間中に、キャプチャされた信号を測定することによって雑音推定値を決定することが望ましい。

したがって、ビームフォーマのための確実なポイントオーディオソース検出器が大いに望ましい。様々なポイントオーディオソース検出アルゴリズムが過去に提案されたが、これらは、ポイントオーディオソースがマイクロフォンアレイに近く、信号対雑音比が高い状況のために開発される傾向がある。特に、それらは、直接経路（及び場合によっては早期反射）が、より後の反射と、残響テール、実際は、（拡散背景雑音を含む）他のソースからの雑音の両方を支配するシナリオに向けられる傾向がある。

結果として、そのようなポイントオーディオソース検出手法は、これらの仮定が満たされない環境において準最適である傾向があり、実際、多くの現実の適用例のための準最適な性能を与える傾向がある。

実際、概してオーディオキャプチャ、特に、残響半径外のソースのためのスピーチ強調（ビームフォーミング、残響除去、雑音抑圧）などのプロセスは、ソースからデバイスへの直接場のエネルギーが、反射されたスピーチ及び音響背景雑音のエネルギーと比較して小さいことにより、満足に達成することが困難である。

多くのオーディオキャプチャシステムでは、オーディオソースに独立して適応することができる複数のビームフォーマが適用される。たとえば、オーディオ環境において２つの異なるスピーカーを追跡するために、オーディオキャプチャ装置は、２つの独立して適応できるビームフォーマを含む。

実際、図１のシステムは、多くのシナリオにおいて極めて効率的な動作及び有利な性能を与えるが、それは、すべてのシナリオにおいて最適であるとは限らない。実際、図１の例を含む多くの従来のシステムが、所望のオーディオソース／スピーカーがマイクロフォンアレイの残響半径内にあるとき、すなわち、所望のオーディオソースの直接エネルギーが所望のオーディオソースの反射のエネルギーよりも（好ましくは著しく）強い適用例について、極めて良好な性能を与えるが、それは、これが当てはまらないとき、あまり最適でない結果を与える傾向がある。一般的な環境において、一般にマイクロフォンアレイの１～１．５メートル内にスピーカーがあるべきであることがわかっている。

しかしながら、ユーザがマイクロフォンアレイからより離れた距離にある場合のオーディオベースハンズフリー解決策、適用例、及びシステムに対する強い要望がある。これは、たとえば、多くの通信システム及び適用例と、多くのボイス制御システム及び適用例の両方について望まれる。そのような状況のための残響除去及び雑音抑圧を含むスピーチ強調を与えるシステムは、スーパーハンズフリーシステムと呼ばれる分野にある。

より詳細には、追加の拡散雑音と残響半径外の所望のスピーカーとを扱うとき、以下の問題が生じる。
・ビームフォーマは、所望のスピーチのエコーと拡散背景雑音とを区別する問題をしばしば有し、これがスピーチひずみを生じる。
・適応ビームフォーマは、所望のスピーカーのほうへより低速に収束する。適応ビームがまだ収束していない時間中に、基準信号においてスピーチ漏れがあり、この基準信号が非定常雑音抑圧及びキャンセルのために使用される場合、スピーチひずみを生じる。交互に話す、より多くの所望のソースがあるとき、問題は増加する。

（背景雑音により）より低速に収束する適応フィルタを扱うための解決策は、図２に示されているように異なる方向に照準を定められているいくつかの固定ビームでこれを補うことである。ただし、この手法は、特に、所望のオーディオソースが残響半径内に存在するシナリオのために開発される。それは、残響半径外のオーディオソースについてあまり効率的でなく、そのような場合、特に音響拡散背景雑音もある場合、しばしば、非ロバストな解決策につながる。

雑音環境及び残響環境において非支配的ソースのための性能を改善するために複数の相互作用するビームフォーマを使用することは、多くのシナリオ及びシステムにおいて性能を改善する。しかしながら、多くのシステムでは、ビームフォーマ間の相互作用は、個々のビームにおいてポイントオーディオソースが存在するかどうかを検出することを伴う。前述のように、これは、多くの実際的システムにおいて極めて難しい問題である。

たとえば、一般的な従来技術の検出は、それぞれのビームフォーマの出力信号の電力比較に基づく。しかしながら、この手法は、一般に、残響半径外にあるソースについて、及び／又は信号対雑音比があまりに低い場合、失敗する。

詳細には、マルチビームフォームシステムの場合、提案される手法は、使用すべき１つのビームを選択するためにそれぞれのビームの出力信号の電力の推定値を使用するコントローラを実装することである。詳細には、最も大きい出力電力をもつビームが選択される。

マイクロフォンアレイの残響半径内に所望のスピーカーがある場合、（異なる方向に照準を定められた）異なるビームの出力電力の差分が大きくなる傾向があり、したがって、アクティブなスピーカーがある状況を雑音のみの状況と区別することをも行う、ロバストな検出器が実装され得る。たとえば、最大電力はすべてのビームフォーマ出力の平均電力と比較され得、この差分が十分に高い場合、スピーチが検出されると考えられ得る。

しかしながら、所望のスピーカーがさらに離れており、特に残響半径外にある場合、問題が生じ始める。

たとえば、（より後の）反射のエネルギーが支配的になるので、すべてのビームフォーマ出力の電力が互いに近づき始め、最大電力と平均電力との比が１に近づく。これは、そのようなパラメータに基づく検出をあまり確実でないものにし、実際、それを、多くの状況において実際的でないものにする。

また、所望のスピーカーがアレイからさらに離れているので、信号対雑音比（ＳＮＲ）が減少し、これが、上記で説明された問題をさらに悪化させる。拡散雑音の場合、マイクロフォンに対する電力の予想される値は等しい。ただし、瞬時には差分がある。これは、ロバストで高速のスピーチ推定器の実現を困難にする。

したがって、改善されたオーディオキャプチャ手法が有利であり、特に、改善されたポイントオーディオソース検出／推定値を与える手法が有利である。特に、複雑さの低減、フレキシビリティの増加、実施の容易さ、コストの低減、オーディオキャプチャの改善、残響半径外のオーディオをキャプチャすることに対する適合性の改善、雑音感度の低減、スピーチキャプチャの改善、ポイントオーディオソース検出／推定値の確実性の改善、制御の改善、及び／又は性能の改善を可能にする手法が有利である。

したがって、本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの１つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。

本発明の一態様によれば、マイクロフォンアレイと、ビームフォーミングされたオーディオ出力信号と少なくとも１つの雑音基準信号とを生成するように構成された少なくとも第１のビームフォーマと、ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するための第１の変換器であって、第１の周波数ドメイン信号が時間周波数タイル値によって表される、第１の変換器と、少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するための第２の変換器であって、第２の周波数ドメイン信号が時間周波数タイル値によって表される、第２の変換器と、時間周波数タイル差分測度を生成するように構成された差分プロセッサであって、第１の周波数についての時間周波数タイル差分測度が、第１の周波数についての第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と第１の周波数についての第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す、差分プロセッサと、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するためのポイントオーディオソース推定器であって、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成するように構成された、ポイントオーディオソース推定器とを備えるオーディオキャプチャ装置が提供される。

本発明は、多くのシナリオ及び適用例において、ポイントオーディオソース推定値／検出の改善を与える。特に、推定値の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び／又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。より離れた距離にある、特に残響半径外のポイントオーディオソースのための検出の改善が、しばしば達成され得る。

オーディオキャプチャ装置は、多くの実施形態では、ビームフォーミングされたオーディオ出力信号とポイントオーディオソース推定値とに応答してオーディオ出力信号を生成するための出力ユニットを備える。たとえば、出力ユニットは、ポイントオーディオソースが検出されないときに出力をミュートするミュート機能を備える。

ビームフォーマは、ビームフォームフィルタの適応インパルス応答を適応させる（それにより、マイクロフォンアレイの有効な指向性を適応させる）ための適応機能を備える適応ビームフォーマである。

ビームフォーマは、フィルタ合成（ｆｉｌｔｅｒ－ａｎｄ－ｃｏｍｂｉｎｅ）ビームフォーマである。フィルタ合成ビームフォーマは、各マイクロフォンのためのビームフォームフィルタと、ビームフォーミングされたオーディオ出力信号を生成するためにビームフォームフィルタの出力を合成するための合成器とを備える。フィルタ合成ビームフォーマは、詳細には、複数の係数を有する有限応答フィルタ（ＦＩＲ）の形態のビームフォームフィルタを備える。

第１の単調関数と第２の単調関数とは、一般に、両方とも単調増加関数であるが、いくつかの実施形態では、両方とも単調減少関数である。

ノルムは、一般に、Ｌ１ノルム又はＬ２ノルムであり、すなわち、詳細には、ノルムは、時間周波数タイル値についての大きさ又は電力測度に対応する。

時間周波数タイルは、詳細には、１つの時間セグメント／フレーム中の周波数変換の１つのビンに対応する。詳細には、第１の変換器と第２の変換器とは、第１及び第２の信号の連続するセグメントを変換するためにブロック処理を使用する。時間周波数タイルは、１つのセグメント／フレーム中の変換ビンのセット（一般に１つ）に対応する。

少なくとも１つのビームフォーマは２つのビームフォーマを備え、一方が、ビームフォーミングされたオーディオ出力信号を生成し、他方が雑音基準信号を生成する。２つのビームフォーマは、マイクロフォンアレイのマイクロフォンの、異なる、潜在的に独立のセットに結合される。実際、いくつかの実施形態では、マイクロフォンアレイは、異なるビームフォーマに結合された２つの別個のサブアレイを備える。サブアレイ（及び場合によってはビームフォーマ）は、異なる位置にあり、潜在的に互いから離れたところにある。詳細には、サブアレイ（及び場合によってはビームフォーマ）は、異なるデバイス中にある。

本発明のいくつかの実施形態では、アレイ中の複数のマイクロフォンのサブセットのみが、ビームフォーマに結合される。

本発明のオプションの特徴によれば、ポイントオーディオソース推定器は、合成された差分値がしきい値を超えることに応答して、ビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在を検出するように構成される。

本手法は、一般に、ビームフォーマのための、特に、直接場が支配的でない、残響半径外のポイントオーディオソースを検出するための、ポイントオーディオソース検出の改善を与える。

本発明のオプションの特徴によれば、周波数しきい値は５００Ｈｚを下回らない。

これは、性能をさらに改善し、たとえば、多くの実施形態及びシナリオでは、ポイントオーディオソース推定値を決定する際に使用されるビームフォーミングされたオーディオ出力信号値と雑音基準信号値との間の十分な又は改善された無相関化が達成されることを保証する。いくつかの実施形態では、周波数しきい値は、有利には、１ｋＨｚ、１．５ｋＨｚ、２ｋＨｚ、３ｋＨｚ、さらには４ｋＨｚを下回らない。

本発明のオプションの特徴によれば、差分プロセッサは、ビームフォーミングされたオーディオ出力信号の振幅と少なくとも１つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成するように構成され、第１の単調関数及び第２の単調関数のうちの少なくとも１つが雑音コヒーレンス推定値に依存する。

これは、性能をさらに改善し、詳細には、多くの実施形態において、特に、より小さいマイクロフォン間距離をもつマイクロフォンアレイのための性能の改善を与える。

雑音コヒーレンス推定値は、詳細には、アクティブなポイントオーディオソースがないときの（たとえば、スピーチのない時間期間中の、すなわち、スピーチソースが非アクティブであるときの）ビームフォーミングされたオーディオ出力信号の振幅と雑音基準信号の振幅との間の相関の推定値である。雑音コヒーレンス推定値は、いくつかの実施形態では、ビームフォーミングされたオーディオ出力信号及び雑音基準信号、並びに／又は第１及び第２の周波数ドメイン信号に基づいて決定される。いくつかの実施形態では、雑音コヒーレンス推定値は、別個の較正又は測定プロセスに基づいて生成される。

本発明のオプションの特徴によれば、差分プロセッサは、雑音コヒーレンス推定値に応答して、第１の周波数についての第２の周波数ドメイン信号の時間周波数タイル値のノルムに対して第１の周波数についての第１の周波数ドメイン信号の時間周波数タイル値のノルムをスケーリングするように構成される。

これは、性能をさらに改善し、詳細には、多くの実施形態において、ポイントオーディオソース推定値の精度の改善を与える。それは、さらに低複雑度実施を可能にする。

本発明のオプションの特徴によれば、差分プロセッサは、実質的に次のように、周波数ω_ｌにおける時間ｔ_ｋについての時間周波数タイル差分測度を生成するように構成される。
ｄ＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜－γＣ（ｔ_ｋ，ω_ｌ）｜Ｘ（ｔ_ｋ，ω_ｌ）｜
ここで、Ｚ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおけるビームフォーミングされたオーディオ出力信号についての時間周波数タイル値であり、Ｘ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおける少なくとも１つの雑音基準信号についての時間周波数タイル値であり、Ｃ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおける雑音コヒーレンス推定値であり、γは設計パラメータである。

これは、多くのシナリオ及び実施形態において、特に有利なポイントオーディオソース推定値を与える。

本発明のオプションの特徴によれば、差分プロセッサは、ビームフォーミングされたオーディオ出力信号の時間周波数タイル値及び少なくとも１つの雑音基準信号の時間周波数タイル値のうちの少なくとも１つをフィルタ処理するように構成される。

これは、ポイントオーディオソース推定値の改善を与える。フィルタ処理は、たとえば平均化などの低域フィルタ処理である。

本発明のオプションの特徴によれば、フィルタは、周波数方向と時間方向の両方である。

これは、ポイントオーディオソース推定値の改善を与える。差分プロセッサは、複数の時間周波数タイルにわたって時間周波数タイル値をフィルタ処理するように構成され、フィルタ処理は、時間と周波数の両方において異なる時間周波数タイルを含む。

本発明のオプションの特徴によれば、オーディオキャプチャ装置は、前記ビームフォーマを含む複数のビームフォーマを備え、ポイントオーディオソース推定器は、複数のビームフォーマの各ビームフォーマについてのポイントオーディオソース推定値を生成するように構成され、オーディオキャプチャ装置は、ポイントオーディオソース推定値に応答して複数のビームフォーマのうちの少なくとも１つを適応させるための適応器をさらに備える。

これは、性能をさらに改善し、詳細には、多くの実施形態において、複数のビームフォーマを利用するシステムのための適応性能の改善を与える。特に、それは、システムの全体的性能が、現在のオーディオシナリオへの正確で確実な適応を与えると同時に、（たとえば新しいオーディオソースが出現したときの）これの変化への急速な適応を与えることを可能にする。

本発明のオプションの特徴によれば、複数のビームフォーマは、ビームフォーミングされたオーディオ出力信号と少なくとも１つの雑音基準信号とを生成するように構成された第１のビームフォーマと、マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力と少なくとも１つの制約付き雑音基準信号とを生成するように各々が構成された複数の制約付きビームフォーマとを備え、オーディオキャプチャ装置は、複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するためのビーム差分プロセッサであって、差分測度が、第１のビームフォーマによって形成されたビームと複数の制約付きビームフォーマのうちの少なくとも１つによって形成されたビームとの間の差分を示す、ビーム差分プロセッサをさらに備え、適応器は、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、制約付きビームフォームパラメータを適応させるように構成される。

本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び／又はオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与えると同時に、新しい所望のオーディオソースへの高速適応を与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のオーディオソースのキャプチャの改善が達成され得る。

いくつかの実施形態では、第１のビームフォーミングされたオーディオ出力及び／又は制約付きのビームフォーミングされたオーディオ出力に応答して、オーディオキャプチャ装置からの出力オーディオ信号が生成される。いくつかの実施形態では、出力オーディオ信号は、制約付きのビームフォーミングされたオーディオ出力の合成として生成され、詳細には、たとえば単一の制約付きのビームフォーミングされたオーディオ出力を選択する選択合成が使用される。

差分測度は、第１のビームフォーマの形成されたビームと、差分測度が生成された制約付きビームフォーマの形成されたビームとの間の差分を反映し、その差分は、たとえば、ビームの方向間の差分として測定される。多くの実施形態では、差分測度は、第１のビームフォーマからのビームフォーミングされたオーディオ出力と制約付きビームフォーマからのビームフォーミングされたオーディオ出力との間の差分を示す。いくつかの実施形態では、差分測度は、第１のビームフォーマのビームフォームフィルタと制約付きビームフォーマのビームフォームフィルタとの間の差分を示す。差分測度は、たとえば、第１のビームフォーマ及び制約付きビームフォーマのビームフォームフィルタの係数のベクトル間の距離として決定された測度など、距離測度である。

類似性測度は、２つの特徴間の類似性に関係する情報を与えることによる類似性測度が、本質的に、これらの間の差分に関係する情報をも与えるという点で差分測度と等価であり、その逆も同様であることが理解されよう。

類似性基準は、たとえば、差分が所与の測度を下回っていることを差分測度が示すという要件を含み、たとえば、増加する差分について増加する値を有する差分測度がしきい値を下回ることが必要とされる。

ビームフォーマの適応は、特にフィルタ係数を適応させることによるなど、ビームフォーマのビームフォームフィルタのフィルタパラメータを適応させることによるものである。適応は、所与の適応パラメータを最適化（最大化又は最小化）しようとするもの、たとえば、オーディオソースが検出されるときに出力信号レベルを最大化すること、又は、雑音のみが検出されるときに出力信号レベルを最小化することなどである。適応は、測定されたパラメータを最適化するためにビームフォームフィルタを変更しようとする。

本発明のオプションの特徴によれば、適応器は、制約付きのビームフォーミングされたオーディオ出力におけるポイントオーディオソースの存在をポイントオーディオソース推定値が示す制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。

これは、性能をさらに改善し、たとえばよりロバストな性能を与え、これにより、オーディオキャプチャが改善される。

本発明のオプションの特徴によれば、適応器は、ビームフォーミングされたオーディオ出力がポイントオーディオソースを備える最も高い確率をポイントオーディオソース推定値が示す制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。

これは、多くのシナリオにおいて性能の改善を与える。

本発明の一態様によれば、マイクロフォンアレイを使用してオーディオをキャプチャするための動作方法であって、少なくとも第１のビームフォーマが、ビームフォーミングされたオーディオ出力信号と少なくとも１つの雑音基準信号とを生成するステップと、第１の変換器が、ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するステップであって、第１の周波数ドメイン信号が時間周波数タイル値によって表される、生成するステップと、第２の変換器が、少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するステップであって、第２の周波数ドメイン信号が時間周波数タイル値によって表される、生成するステップと、差分プロセッサが時間周波数タイル差分測度を生成するステップであって、第１の周波数についての時間周波数タイル差分測度が、第１の周波数についての第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と第１の周波数についての第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す、生成するステップと、ポイントオーディオソース推定器が、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するステップであって、ポイントオーディオソース推定器が、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成するように構成された、生成するステップとを有する方法が提供される。

本発明のこれら及び他の態様、特徴及び利点は、以下で説明される（１つ又は複数の）実施形態から明らかになり、それらに関して解明されるであろう。

本発明の実施形態が、図面を参照しながら単に例として説明される。

ビームフォーミングオーディオキャプチャシステムの要素の一例を示す図である。オーディオキャプチャシステムによって形成された複数のビームの一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。フィルタ和ビームフォーマの要素の一例を示す図である。周波数ドメイン変換器の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置のための差分プロセッサの要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の制約付きビームフォーマを適応させる手法のためのフローチャートの一例を示す図である。

以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。

図３は、本発明のいくつかの実施形態による、オーディオキャプチャ装置のいくつかの要素の一例を示す。

オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ３０１を備える。

マイクロフォンアレイ３０１は、（一般に、当業者によく知られるように、直接、又はエコーキャンセラ、増幅器、デジタルアナログ変換器などを介してのいずれかで）ビームフォーマ３０３に結合される。

ビームフォーマ３０３は、マイクロフォンアレイ３０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ３０１からの信号を合成するように構成される。したがって、ビームフォーマ３０３は、ビームフォーミングされたオーディオ出力又はビームフォーミングされたオーディオ出力信号と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。ビームフォーマ３０３は適応ビームフォーマであり、その指向性はビームフォーマ３０３のビームフォーム動作の、ビームフォームパラメータと呼ばれるパラメータを設定することによって、詳細には、ビームフォームフィルタのフィルタパラメータ（一般に係数）を設定することによって制御され得る。

したがって、ビームフォーマ３０３は、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。

ビームフォーマ３０３は、詳細には、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

図４は、２つのマイクロフォン４０１のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォンはビームフォームフィルタ４０３、４０５に結合され、ビームフォームフィルタ４０３、４０５の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器４０７において加算される。ビームフォームフィルタ４０３、４０５はインパルス応答ｆ１及びｆ２を有し、インパルス応答ｆ１及びｆ２は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは３つ以上のマイクロフォンを備え、図４の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。

ビームフォーマ３０３は、（たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号のビームフォーマの場合のように）ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ３０１は３つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ３０３は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ３０３は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。

たいていの実施形態では、ビームフォームフィルタの各々は、（単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する）単純なディラックパルスではない時間ドメインインパルス応答を有し、むしろ、一般に２ミリ秒、５ミリ秒、１０ミリ秒、さらには３０ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する。

インパルス応答は、しばしば、複数の係数をもつＦＩＲ（有限インパルス応答）フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ３０３は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、ＦＩＲフィルタは、固定時間オフセット（一般にサンプル時間オフセット）に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数（たとえば、２つ又は３つのみ）を有するが、これらのタイミングは（も）適応可能である。

単純な可変遅延（又は単純な周波数ドメイン利得／位相調整）であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ３０３が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ３０３が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び／又は残響環境における性能の改善、並びに／或いは、マイクロフォンアレイ３０１から離れているオーディオソースのための性能の改善を可能にする。

異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、ビームフォーマ３０３は、ビームフォーマ３０３の出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。これはさらに、本質的に、誤差信号から雑音基準信号を生成することができる。そのような手法のさらなる詳細は、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において見つけられ得る。

米国特許第７１４６０１２号及び米国特許第７６０２９２６号のものなどの手法は、ビームフォーマからのオーディオソース信号ｚ（ｎ）と（１つ又は複数の）雑音基準信号ｘ（ｎ）の両方に基づく適応に基づくことに留意されたい。同じ手法が図３のビームフォーマのために使用されることが理解されよう。

実際、ビームフォーマ３０３は、詳細には、図１に示され、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において開示されたビームフォーマに対応するビームフォーマである。

ビームフォーマ３０３は、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成するように構成される。

ビームフォーマ３０３は、所望のオーディオソースをキャプチャし、これをビームフォーミングされたオーディオ出力信号で表すためにビームフォーミングを適応させるように構成される。ビームフォーマ３０３は、さらに、残りのキャプチャされたオーディオの推定値を与えるために雑音基準信号を生成し、すなわち、それは、所望のオーディオソースの不在下でキャプチャされる雑音を示す。

ビームフォーマ３０３が米国特許第７１４６０１２号及び米国特許第７６０２９２６号に開示されるようなビームフォーマである例では、雑音基準は、たとえば誤差信号を直接使用することによって、前に説明されたように生成される。しかしながら、他の実施形態では他の手法が使用されることが理解されよう。たとえば、いくつかの実施形態では、雑音基準は、生成されたビームフォーミングされたオーディオ出力信号を減じた（たとえば、オムニ指向性）マイクロフォンからのマイクロフォン信号、さらには、この雑音基準マイクロフォンが他のマイクロフォンから遠く離れており、所望のスピーチを含んでいない場合、マイクロフォン信号自体として生成される。別の例として、ビームフォーマ３０３は、ビームの最大値の方向にヌルを有する第２のビームを生成し、ビームフォーミングされたオーディオ出力信号を生成するように構成され、雑音基準は、この補足的ビームによってキャプチャされるオーディオとして生成される。

いくつかの実施形態では、ビームフォーマ３０３は、異なるビームを個々に生成する２つのサブビームフォーマを備える。そのような例では、サブビームフォーマのうちの一方は、ビームフォーミングされたオーディオ出力信号を生成するように構成され、他方のサブビームフォーマは、雑音基準信号を生成するように構成される。たとえば、第１のサブビームフォーマは出力信号を最大化するように構成され、これにより、支配的ソースがキャプチャされることになり、第２のサブビームフォーマは出力レベルを最小化するように構成され、それにより、一般に、支配的ソースのほうへヌルが生成されることになる。したがって、後者のビームフォーミングされた信号は、雑音基準として使用される。

いくつかの実施形態では、２つのサブビームフォーマは、結合され、マイクロフォンアレイ３０１の異なるマイクロフォンを使用する。したがって、いくつかの実施形態では、マイクロフォンアレイ３０１は、２つ（又はそれ以上）のマイクロフォンサブアレイによって形成され、２つ（又はそれ以上）のマイクロフォンサブアレイの各々は、異なるサブビームフォーマに結合され、ビームを個々に生成するように構成される。実際、いくつかの実施形態では、サブアレイは、互いから離れたところにさえ配置され、異なる位置からオーディオ環境をキャプチャする。したがって、ビームフォーミングされたオーディオ出力信号は、ある位置にあるマイクロフォンサブアレイから生成され、雑音基準信号は、異なる位置にある（及び一般に異なるデバイス中の）マイクロフォンサブアレイから生成される。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、出力プロセッサ３０５によって、オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

多くの実施形態では、ポイントオーディオソースが、ビームフォーマ３０３によって生成された、ビームフォーミングされたオーディオ出力において存在するかどうかを推定することが望ましく、すなわち、ビームフォーマ３０３が、オーディオソースに適応し、それにより、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを推定することが望ましい。

オーディオポイントソースは、音響において、空間におけるポイントから発生する音のソースであると考えられる。多くの適用例では、たとえば人間の話者など、ポイントオーディオソースを検出及びキャプチャすることが望まれる。いくつかのシナリオでは、そのようなポイントオーディオソースは、音響環境における支配的なオーディオソースであるが、他の実施形態では、これは当てはまらず、すなわち、所望のポイントオーディオソースは、たとえば拡散背景雑音によって支配される。

ポイントオーディオソースは、直接経路音が、強い相関を伴って異なるマイクロフォンに到着する傾向があるという特性を有し、実際、一般に、同じ信号は、経路長の差分に対応する遅延（周波数ドメイン線形位相変動）を伴ってキャプチャされる。したがって、マイクロフォンによってキャプチャされた信号間の相関を考慮するとき、高い相関は支配的なポイントソースを示し、低い相関は、キャプチャされたオーディオが多くの無相関ソースから受信されたことを示す。実際、オーディオ環境におけるポイントオーディオソースは、直接信号成分がマイクロフォン信号についての高い相関を生じるものと考えられ得、実際、ポイントオーディオソースは、空間的に相関するオーディオソースに対応すると考えられ得る。

しかしながら、マイクロフォン信号についての相関を決定することによってポイントオーディオソースの存在を検出しようとすることが可能であるが、これは、不正確であり、最適性能を与えない傾向がある。たとえば、ポイントオーディオソース（実際、直接経路成分）が支配的でない場合、検出は、不正確である傾向がある。したがって、本手法は、たとえば、マイクロフォンアレイから遠い（詳細には、残響半径外にある）か、又は、高レベルのたとえば拡散雑音がある、ポイントオーディオソースに適していない。また、そのような手法は、単にポイントオーディオソースが存在するかどうかを示すが、ビームフォーマがそのポイントオーディオソースに適応したかどうかを反映しない。

図３のオーディオキャプチャ装置はポイントオーディオソース検出器３０７を備え、ポイントオーディオソース検出器３０７は、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するように構成される。ポイントオーディオソース検出器３０７は、マイクロフォン信号についての相関を決定しないが、代わりに、ビームフォーマ３０３によって生成された、ビームフォーミングされたオーディオ出力信号及び雑音基準信号に基づいてポイントオーディオソース推定値を決定する。

ポイントオーディオソース検出器３０７は、ビームフォーミングされたオーディオ出力信号に周波数変換を適用することによって第１の周波数ドメイン信号を生成するように構成された第１の変換器３０９を備える。詳細には、ビームフォーミングされたオーディオ出力信号は、時間セグメント／間隔に分割される。各時間セグメント／間隔は、たとえばＦＦＴによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第１の周波数ドメイン信号は周波数ドメインサンプルによって表され、各周波数ドメインサンプルが特定の時間間隔（対応する処理フレーム）と特定の周波数間隔とに対応する。各そのような周波数間隔及び時間間隔は、一般に、時間周波数タイルとして知られるフィールドにある。したがって、第１の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。

ポイントオーディオソース検出器３０７は、雑音基準信号を受信する第２の変換器３１１をさらに備える。第２の変換器３１１は、雑音基準信号に周波数変換を適用することによって第２の周波数ドメイン信号を生成するように構成される。詳細には、雑音基準信号は、時間セグメント／間隔に分割される。各時間セグメント／間隔は、たとえばＦＦＴによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第２の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。

図５は、第１の変換ユニット３０９及び第２の変換ユニット３１１の可能な実装形態の機能要素の特定の例を示す。本例では、直列並列変換器が２Ｂのサンプルの重複するブロック（フレーム）を生成し、それらは次いで、ハニング窓掛けされ、高速フーリエ変換（ＦＦＴ）によって周波数ドメインに変換される。

ビームフォーミングされたオーディオ出力信号及び雑音基準信号は、以下では、それぞれｚ（ｎ）及びｘ（ｎ）と呼ばれ、第１の周波数ドメイン信号及び第２の周波数ドメイン信号は、ベクトル

及び

によって参照される（各ベクトルは、所与の処理／変換時間セグメント／フレームについてのすべてのＭ周波数タイル値を含む）。

使用するとき、ｚ（ｎ）は雑音及びスピーチを含むと仮定され、ｘ（ｎ）は、理想的には雑音のみを含むと仮定される。さらに、ｚ（ｎ）及びｘ（ｎ）の雑音成分は無相関であると仮定される（それらの成分は、時間的に無相関であると仮定される。ただし、一般に平均振幅間の関係があると仮定され、この関係は、後で説明されるようにコヒーレンス項によって表される）。そのような仮定は、いくつかのシナリオにおいて有効である傾向があり、詳細には、多くの実施形態では、ビームフォーマ３０３は、図１の例の場合のように、適応フィルタを備え、適応フィルタは、雑音基準信号と相関させられるビームフォーミングされたオーディオ出力信号における雑音を減衰又は除去する。

周波数ドメインへの変換の後に、時間周波数値の実数及び虚数成分は、ガウス分布していると仮定される。この仮定は、一般に、たとえば、拡散音場から雑音が発生するシナリオについて、センサー雑音について、及び多くの実際的シナリオにおいて経験されるいくつかの他の雑音ソースについて正確である。

第１の変換器３０９と第２の変換器３１１とは、差分プロセッサ３１３に結合され、差分プロセッサ３１３は、個々のタイル周波数についての時間周波数タイル差分測度を生成するように構成される。詳細には、差分プロセッサ３１３は、ＦＦＴから生じる各周波数ビンについての現在フレームについて、差分測度を生成することができる。差分測度は、ビームフォーミングされたオーディオ出力信号及び雑音基準信号の、すなわち、第１の周波数ドメイン信号及び第２の周波数ドメイン信号の対応する時間周波数タイル値から生成される。

特に、所与の時間周波数タイルについての差分測度は、第１の周波数ドメイン信号の（すなわち、ビームフォーミングされたオーディオ出力信号の）時間周波数タイル値のノルムの第１の単調関数と第２の周波数ドメイン信号（雑音基準信号）の時間周波数タイル値のノルムの第２の単調関数との間の差分を反映するように生成される。第１の単調関数と第２の単調関数とは、同じであるか又は異なる。

ノルムは、一般に、Ｌ１ノルム又はＬ２ノルムである。ここで、多くの実施形態では、時間周波数タイル差分測度は、第１の周波数ドメイン信号の値の大きさ又は電力（ｐｏｗｅｒ）の単調関数と第２の周波数ドメイン信号の値の大きさ又は電力の単調関数との間の差分を反映する差分指示として決定される。

単調関数は、一般に、両方とも単調増加であるが、いくつかの実施形態では、両方とも単調減少である。

異なる実施形態では異なる差分測度が使用されることが理解されよう。たとえば、いくつかの実施形態では、差分測度は、単に、第１の関数の結果及び第２の関数の結果を互いから減算することによって決定される。他の実施形態では、第１の関数の結果及び第２の関数の結果を互いで除算して、差分を示す比などを生成する。

したがって、差分プロセッサ３１３は、各時間周波数タイルについての時間周波数タイル差分測度を生成し、その差分測度は、その周波数におけるビームフォーミングされたオーディオ出力信号及び雑音基準信号それぞれの相対レベルを示す。

差分プロセッサ３１３は、ポイントオーディオソース推定器３１５に結合され、ポイントオーディオソース推定器３１５は、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成する。したがって、ポイントオーディオソース推定器３１５は、所与の周波数超の周波数についての周波数タイル差分測度を合成することによってポイントオーディオソース推定値を生成する。合成は、詳細には、総和であり、所与のしきい値周波数超のすべての時間周波数タイル差分測度の、又は、たとえば、周波数依存重み付けを含む重み付き合成（である。

したがって、ポイントオーディオソース推定値は、所与の周波数超のビームフォーミングされたオーディオ出力信号のレベルと雑音基準信号のレベルとの間の相対周波数固有差分を反映するように生成される。しきい値周波数は、一般に、５００Ｈｚを上回る。

発明者は、そのような測度が、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において含まれるか否かの強い指示を与えることを了解した。実際、発明者は、周波数固有比較が、より高い周波数への制限とともに、実際には、ポイントオーディオソースの存在の指示の改善を与えることを了解した。さらに、発明者は、推定値が、音響環境、及び従来の手法が正確な結果を与えないシナリオにおいて適用するのに適していることを了解した。詳細には、説明される手法は、マイクロフォンアレイ３０１から遠くにあり（及び残響半径外にあり）、強い拡散雑音の存在下にある、非支配的ポイントオーディオソースについてさえ、ポイントオーディオソースの有利で正確な検出を与える。

多くの実施形態では、ポイントオーディオソース推定器３１５は、ポイントオーディオソースが検出されたか否かを単に示すためにポイントオーディオソース推定値を生成するように構成される。詳細には、ポイントオーディオソース推定器３１５は、合成された差分値がしきい値を超える場合、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの存在が検出されたことを示すように構成される。したがって、生成された合成された差分値が、差分が所与のしきい値よりも高いことを示す場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。合成された差分値がしきい値を下回る場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されなかったと考えられる。

したがって、説明された手法は、生成されたビームフォーミングされたオーディオ出力信号がポイントソースを含むか否かの低複雑度検出を与える。

そのような検出が、多くの異なる適用例及びシナリオのために使用され得、実際、多くの異なるやり方で使用され得ることが理解されよう。

たとえば、前述のように、ポイントオーディオソース推定値／検出は、出力オーディオ信号を適応させる際に出力プロセッサ３０５によって使用される。単純な例として、出力は、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において検出されない限り、ミュートされる。別の例として、出力プロセッサ３０５の動作は、ポイントオーディオソース推定値に応答して適応される。たとえば、雑音抑圧は、ポイントオーディオソースが存在する尤度に応じて適応される。

いくつかの実施形態では、ポイントオーディオソース推定値は、単に、オーディオ出力信号とともに出力信号として与えられる。たとえば、スピーチキャプチャシステムでは、ポイントオーディオソースはスピーチ存在推定値であると考えられ、これは、オーディオ信号とともに与えられる。スピーチ認識器が、オーディオ出力信号を与えられ、たとえば、ボイスコマンドを検出するためにスピーチ認識を実行するように構成される。スピーチ認識器は、スピーチソースが存在することをポイントオーディオソース推定値が示すときのみスピーチ認識を実行するように構成される。

図３の例では、オーディオキャプチャ装置は、ポイントオーディオソース推定値を供給され、ポイントオーディオソース推定値に依存するビームフォーマ３０３の適応性能を制御するように構成される適応コントローラ３１７を備える。たとえば、いくつかの実施形態では、ビームフォーマ３０３の適応は、ポイントオーディオソース推定値が、ポイントオーディオソースが存在することを示す時間に制限される。これは、ビームフォーマ３０３が所望のポイントオーディオソースに適応するのを支援し、雑音の影響などを低減する。後で説明されるように、ポイントオーディオソース推定値は、有利には、より複雑な適応制御のために使用されることが理解されよう。

以下では、ポイントオーディオソース推定値の極めて有利な決定の特定の例が説明される。

本例では、ビームフォーマ３０３は、前に説明されたように、所望のオーディオソースに集束するように、詳細には、スピーチソースに集束するように適応する。ビームフォーマ３０３は、ソースに集束されるビームフォーミングされたオーディオ出力信号、並びに、他のソースからのオーディオを示す雑音基準信号を与える。ビームフォーミングされたオーディオ出力信号はｚ（ｎ）として示され、雑音基準信号はｘ（ｎ）として示される。ｚ（ｎ）とｘ（ｎ）の両方は、一般に、雑音、詳細には拡散雑音などで汚染される。以下の説明はスピーチ検出に焦点を当てるが、それが概してポイントオーディオソースに適用されることが理解されよう。

Ｚ（ｔ_ｋ，ω_ｌ）を、ビームフォーミングされたオーディオ出力信号に対応する（複素）第１の周波数ドメイン信号とする。この信号は、所望のスピーチ信号Ｚ_ｓ（ｔ_ｋ，ω_ｌ）と、雑音信号Ｚ_ｎ（ｔ_ｋ，ω_ｌ）とからなり、
Ｚ（ｔ_ｋ，ω_ｌ）＝Ｚ_ｓ（ｔ_ｋ，ω_ｌ）＋Ｚ_ｎ（ｔ_ｋ，ω_ｌ）
である。

Ｚ_ｎ（ｔ_ｋ，ω_ｌ）の振幅が知られていた場合、変数ｄを、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜－｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜
のように導出することが可能であり、これは、スピーチ振幅｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜を表す。

第２の周波数ドメイン信号、すなわち、雑音基準信号ｘ（ｎ）の周波数ドメイン表現は、Ｘ_ｎ（ｔ_ｋ，ω_ｌ）によって示される。

ｚ_ｎ（ｎ）とｘ（ｎ）とは、それらが両方とも拡散雑音を表し、等しい分散を伴う（ｚ_ｎ）信号を加算すること又は等しい分散を伴う（ｘ_ｎ）信号を減算することによって取得されるので、等しい分散を有すると仮定され得、結果として、Ｚ_ｎ（ｔ_ｋ，ω_ｌ）及びＸ_ｎ（ｔ_ｋ，ω_ｌ）の実部及び虚部も等しい分散を有することになる。したがって、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜は、上式では｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜によって置換され得る。

スピーチが存在しない（したがって、Ｚ（ｔ_ｋ，ω_ｌ）＝Ｚ_ｎ（ｔ_ｋ，ω_ｌ））場合、これは、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜－｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜
につながり、ここで、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とは、実部及び虚部がガウス分布しており、依存しないので、レイリー分布になる。

２つの確率変数の差分の平均は、平均の差分に等しく、したがって、上記の時間周波数タイル差分測度の平均値は０であり、
Ｅ｛ｄ｝＝０
である。

２つの確率信号の差分の分散は、個々の分散の和に等しく、したがって、
ｖａｒ（ｄ）＝（４－π）σ^２
である。

次に、分散は、（ｔ_ｋ，ω_ｌ）平面におけるＬ個の非依存値にわたって｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とを平均化することによって低減され得、

を与える。

平滑化（低域フィルタ処理）は平均を変更せず、したがって、

である。

２つの確率信号の差分の分散は、個々の分散の和に等しく、

である。

したがって、平均化は、雑音の分散を低減する。

したがって、スピーチが存在しないときの時間周波数タイル差分測度の平均値は、０である。しかしながら、スピーチの存在下では、平均値は増加する。詳細には、スピーチ成分のＬ個の値にわたる平均化は、｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜のすべての要素が正であり、
Ｅ｛｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜｝＞０
であるので、あまり効果がない。

したがって、スピーチが存在するとき、上記の時間周波数タイル差分測度の平均値は０を上回り、

である。

時間周波数タイル差分測度は、１よりも大きい過減算因子γの形態の設計パラメータを適用することによって変更され、

である。

この場合、平均値

は、スピーチが存在しないとき、０を下回る。しかしながら、過減算因子γは、スピーチの存在下での平均値

が０を上回る傾向があるように選択される。

ポイントオーディオソース推定値を生成するために、複数の時間周波数タイルについての時間周波数タイル差分測度は、たとえば単純な総和によって、合成される。さらに、合成は、第１のしきい値を上回る周波数についての時間周波数タイルのみを、場合によっては、第２のしきい値を下回る時間周波数タイルについてのみ、含むように構成される。

詳細には、ポイントオーディオソース推定値は、次のように生成される。

このポイントオーディオソース推定値は、雑音基準信号におけるエネルギーの量に対する、所望のスピーチソースからのビームフォーミングされたオーディオ出力信号におけるエネルギーの量を示す。したがって、それは、スピーチを拡散雑音と区別するための特に有利な測度を与える。詳細には、ｅ（ｔ_ｋ）が正である場合のみ存在することがわかるスピーチソースが考えられる。ｅ（ｔ_ｋ）が負である場合、所望のスピーチソースが見つけられないと考えられる。

決定されたポイントオーディオソース推定値は、ポイントオーディオソース、又は詳細にはスピーチソースが、キャプチャ環境において存在するかどうかを示すだけでなく、詳細には、これが、実際、ビームフォーミングされたオーディオ出力信号において存在するかどうかの指示を与え、すなわち、それが、ビームフォーマ３０３がこのソースに適応したかどうかの指示をも与えることを理解されたい。

実際、ビームフォーマ３０３が所望のスピーカーに完全に集束されたとは限らない場合、スピーチ信号の一部が雑音基準信号ｘ（ｎ）において存在する。米国特許第７１４６０１２号及び米国特許第７６０２９２６号の適応ビームフォーマの場合、マイクロフォン信号における所望のソースのエネルギーの和が、ビームフォーミングされたオーディオ出力信号におけるエネルギーと（１つ又は複数の）雑音基準信号におけるエネルギーとの和に等しいことを示すことが可能である。ビームが完全に集束されたとは限らない場合、ビームフォーミングされたオーディオ出力信号におけるエネルギーは減少し、（１つ又は複数の）雑音基準におけるエネルギーは増加する。これにより、完全に集束されるビームフォーマと比較して、ｅ（ｔ_ｋ）についての有意なより低い値が生じる。このようにして、ロバストな弁別器が実現され得る。

上記の説明は図３のシステムの手法の背景及び利益を例示するが、本手法を損なうことなしに多くの変形及び変更が適用され得ることが理解されよう。

異なる実施形態では、たとえばビームフォーミングされたオーディオ出力信号の大きさと雑音基準信号の大きさとの間の差分を反映する差分測度を決定するために異なる関数及び手法が使用されることが理解されよう。実際、異なるノルムを使用すること又はノルムに異なる関数を適用することは、異なる特性をもつ異なる推定値を与えるが、依然として、所与の時間周波数タイルにおけるビームフォーミングされたオーディオ出力信号と雑音基準信号との間の基本的な差分を示す差分測度を生じる。

したがって、多くの実施形態では、前に説明された特定の手法が特に有利な性能を与えるが、他の実施形態では、適用例の特定の特性に応じて多くの他の関数及び手法が使用される。

より一般的には、差分測度は、
ｄ（ｔ_ｋ，ω_ｌ）＝ｆ_１（｜Ｚ（ｔ_ｋ，ω_ｌ）｜）－ｆ_２（｜Ｘ（ｔ_ｋ，ω_ｌ）｜）
のように計算され、ここで、ｆ_１（ｘ）とｆ_２（ｘ）とは、個々の実施形態の特定の選好及び要件に適している任意の単調関数であるように選択され得る。一般に、関数ｆ_１（ｘ）及びｆ_２（ｘ）は、単調増加又は減少関数である。また、単に大きさを使用するのではなく、他のノルム（たとえば、Ｌ２ノルム）が使用されることが理解されよう。

時間周波数タイル差分測度は、上記の例では、第１の周波数ドメイン信号の大きさ（又は他のノルム）時間周波数タイル値の第１の単調関数ｆ_１（ｘ）と、第２の周波数ドメイン信号の大きさ（又は他のノルム）時間周波数タイル値の第２の単調関数ｆ_２（ｘ）との間の差分を示す。いくつかの実施形態では、第１の単調関数と第２の単調関数とは、異なる関数である。しかしながら、たいていの実施形態では、２つの関数は等しい。

さらに、関数ｆ_１（ｘ）及びｆ_２（ｘ）の一方又は両方は、たとえば、マイクロフォン信号の全体的な平均電力レベル、周波数など、様々な他のパラメータ及び測度に依存する。

多くの実施形態では、関数ｆ_１（ｘ）及びｆ_２（ｘ）の一方又は両方は、たとえば、周波数及び／又は時間次元における他のタイルにわたるＺ（ｔ_ｋ，ω_ｌ）、｜Ｚ（ｔ_ｋ，ω_ｌ）｜、ｆ_１（｜Ｚ（ｔ_ｋ，ω_ｌ）｜）、Ｘ（ｔ_ｋ，ω_ｌ）、｜Ｘ（ｔ_ｋ，ω_ｌ）｜、又はｆ_２（｜Ｘ（ｔ_ｋ，ω_ｌ）｜）のうちの１つ又は複数の平均化（すなわち、ｋ及び／又はｌの変動するインデックスについての値の平均化）による、他の周波数タイルについての信号値に依存する。多くの実施形態では、時間次元と周波数次元の両方において拡張する近傍にわたる平均化が実行される。早期に与えられた特定の差分測度式に基づく特定の例について後で説明するが、対応する手法が、差分測度を決定する他のアルゴリズム又は関数にも適用されることが理解されよう。

差分測度を決定するための可能な関数の例は、たとえば、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜^α－γ・｜Ｘ（ｔ_ｋ，ω_ｌ）｜^β
を含み、ここで、α及びβは、たとえば、

、

ｄ（ｔ_ｋ，ω_ｌ）＝｛｜Ｚ（ｔ_ｋ，ω_ｌ）｜－γ・｜Ｘ（ｔ＿ｋ，ω＿ｌ）｜｝・σ（ω_ｌ）
などにおける、一般にα＝βである設計パラメータであり、ここで、σ（ω_ｌ）は、差分測度及びポイントオーディオソース推定値の所望のスペクトル特性を与えるために使用される好適な重み付け関数である。

これらの関数が例にすぎず、距離測度を計算するための多くの他の式及びアルゴリズムが想定され得ることが理解されよう。

上式では、因子γは、差分測度を負値のほうへバイアスするために導入される因子を表す。特定の例は、雑音基準信号時間周波数タイルに適用される単純なスケール因子によってこのバイアスを導入するが、多くの他の手法が可能であることが理解されよう。

実際、負値のほうへのバイアスを与えるために第１の関数ｆ_１（ｘ）及び第２の関数ｆ_２（ｘ）を構成する任意の好適なやり方が使用される。バイアスは、詳細には、前の例の場合のように、スピーチがない場合に負である差分測度の予想される値を生成するバイアスである。実際、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方がランダム雑音のみを含んでいる（たとえば、サンプル値が平均値のあたりで対称的に及びランダムに分布している）場合、差分測度の予想される値は、０ではなく負である。前の特定の例では、これは、スピーチがないときに負値を生じた過減算因子γによって達成された。

説明される考慮事項に基づくポイントオーディオソース検出器３０７の一例が、図６において与えられる。本例では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とは、第１の変換器３０９及び第２の変換器３１１に与えられ、第１の変換器３０９及び第２の変換器３１１は、対応する第１の周波数ドメイン信号及び第２の周波数ドメイン信号を生成する。

周波数ドメイン信号は、たとえば、たとえば時間ドメイン信号の重複するハニング窓掛けされたブロックの短時間フーリエ変換（ＳＴＦＴ）を算出することによって、生成される。ＳＴＦＴは、概して、時間と周波数の両方の関数であり、２つの引数ｔ_ｋ及びω_ｌによって表され、ｔ_ｋ＝ｋＢは離散時間であり、ここで、ｋはフレームインデックスであり、Ｂはフレームシフトであり、ω_ｌ＝ｌω_０は（離散）周波数であり、ｌは周波数インデックスであり、ω_０は基本周波数間隔を示す。

したがって、この周波数ドメイン変換の後に、長さのベクトル

及び

それぞれによって表された周波数ドメイン信号が与えられる。

周波数ドメイン変換は、特定の例では、大きさユニット（ｍａｇｎｉｔｕｄｅｕｎｉｔ）６０１、６０３に供給され、大きさユニット６０１、６０３は、２つの信号の大きさを決定及び出力し、すなわち、それらは、値

を生成する。

他の実施形態では、他のノルムが使用され、処理は、単調関数を適用することを含む。

大きさユニット６０１、６０３は低域フィルタ６０５に結合され、低域フィルタ６０５は、大きさ値を平滑化する。フィルタ処理／平滑化は、時間ドメイン、周波数ドメイン、又は、しばしば有利にはその両方におけるものであり、すなわち、フィルタ処理は、時間次元及び周波数次元の両方において拡張する。

フィルタ処理された大きさの信号／ベクトル

及び

は、

及び

とも呼ばれる。

フィルタ６０５は差分プロセッサ３１３に結合され、差分プロセッサ３１３は、時間周波数タイル差分測度を決定するように構成される。特定の例として、差分プロセッサ３１３は、次のように時間周波数タイル差分測度を生成する。

設計パラメータγ_ｎは、一般に、１．．２の範囲内にある。

差分プロセッサ３１３はポイントオーディオソース推定器３１５に結合され、ポイントオーディオソース推定器３１５は、時間周波数タイル差分測度を供給され、応答して、続いて、これらを合成することによってポイントオーディオソース推定値を決定する。

詳細には、ω_ｌ＝ω_ｌｏｗからω_ｌ＝ω_ｈｉｇｈの間の周波数値についての時間周波数タイル差分測度

の和が、次のように決定される。

いくつかの実施形態では、この値はポイントオーディオソース検出器３０７から出力される。他の実施形態では、決定された値は、しきい値と比較され、たとえば、ポイントオーディオソースが検出されたと考えられるか否かを示す２進値を生成するために使用される。詳細には、値ｅ（ｔ_ｋ）は０のしきい値と比較され、すなわち、値が負である場合は、ポイントオーディオソースが検出されなかったと考えられ、値が正である場合は、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。

本例では、ポイントオーディオソース検出器３０７は、ビームフォーミングされたオーディオ出力信号の大きさ時間周波数タイル値についての、及び雑音基準信号の大きさ時間周波数タイル値についての低域フィルタ処理／平均化を含む。平滑化は、詳細には、隣接値にわたって平均化を実行することによって実行される。たとえば、以下の低域フィルタ処理が第１の周波数ドメイン信号に適用される。

ここで、（Ｎ＝１の場合）Ｗは１／９の重みをもつ３＊３行列である。他の実施形態では、もちろんＮの他の値が使用され得、同様に、異なる時間間隔が使用され得ることが理解されよう。実際、フィルタ処理／平滑化がそれにわたって実行されるサイズは、たとえば周波数に応じて変動している（たとえば、より低い周波数についてよりも大きいカーネルが、より高い周波数について適用される）。

実際、フィルタ処理は、時間方向（考慮される隣接時間フレームの数）と周波数方向（考慮される隣接周波数ビンの数）の両方における好適な拡張を有するカーネルを適用することによって達成され、実際、このようなカーネルのサイズは、たとえば異なる周波数について又は異なる信号特性について変動していることが理解されよう。

また、上式においてＷ（ｍ，ｎ）によって表されるように、異なるカーネルは変動しており、これは、同様に、たとえば異なる周波数についての、又は信号特性に応答する動的変動である。

フィルタ処理は、雑音を低減し、したがってより正確な推定を与えるだけでなく、それは特に、スピーチと雑音との間の差別化をも高める。実際、フィルタ処理は、ポイントオーディオソースに対する影響よりも大幅に大きな影響を雑音に対して有し、これにより、より大きい差分が時間周波数タイル差分測度について生成されることになる。

図１のものなど、ビームフォーマについてのビームフォーミングされたオーディオ出力信号と（１つ又は複数の）雑音基準信号との間の相関は、周波数が増加するにつれて低減することがわかった。したがって、ポイントオーディオソース推定値は、しきい値を上回る周波数についての時間周波数タイル差分測度のみに応答して生成される。これにより、スピーチが存在するとき、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の無相関の増加、したがってより大きい差分が生じる。これにより、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの検出がより正確になる。

多くの実施形態では、５００Ｈｚを下回らない、又は、いくつかの実施形態では、有利には、１ｋＨｚ、さらには２ｋＨｚを下回らない周波数についての時間周波数タイル差分測度のみに基づくようにポイントオーディオソース推定値を限定することによって、有利な性能が見つけられた。

しかしながら、いくつかの適用例又はシナリオでは、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の有意な相関は、比較的高いオーディオ周波数についてさえ残り、実際、いくつかのシナリオでは、オーディオ帯域全体について残る。

実際、理想的な球状等方性拡散雑音場では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とが部分的に相関され、その結果、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜及び｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜の予想される値は等しくなくなり、したがって、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜は｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜と容易に置き換えられ得ない。

これは、理想的な球状等方性拡散雑音場の特性を見ることによって理解され得る。２つのマイクロフォンが、そのような場で距離ｄ離れて置かれ、それぞれマイクロフォン信号Ｕ（ｔ_ｋ，ω_ｌ）及びＵ_２（ｔ_ｋ，ω_ｌ）を有するとき、
Ｅ｛｜Ｕ_１（ｔ_ｋ，ω）｜^２｝＝Ｅ｛｜Ｕ_２（ｔ_ｋ，ω）｜^２｝＝２σ^２
及び

になり、波数

（ｃは音速である）であり、σ^２は、ガウス分布している、Ｕ_１（ｔ_ｋ，ω_ｌ）及びＵ_２（ｔ_ｋ，ω_ｌ）の実部及び虚部の分散である。

ビームフォーマが単純な２マイクロフォン遅延和ビームフォーマであり、ブロードサイドビームを形成する（すなわち、遅延が０である）と仮定する。

Ｚ（ｔ_ｋ，ω_ｌ）＝Ｕ_１（ｔ_ｋ，ω_ｌ）＋Ｕ_２（ｔ_ｋ，ω_ｌ）、
及び、雑音基準信号の場合、
Ｘ（ｔ_ｋ，ω_ｌ）＝Ｕ_１（ｔ_ｋ，ω_ｌ）－Ｕ_２（ｔ_ｋ，ω_ｌ）
と書くことができる。

得られた予想される値について、雑音のみが存在すると仮定すると、

である。

同様に、Ｅ｛｜Ｘ（ｔ_ｋ，ω）｜^２｝について、
Ｅ｛｜Ｘ（ｔ_ｋ，ω）｜^２｝＝４σ^２（１－ｓｉｎｃ（ｋｄ））
が得られる。

したがって、低い周波数について、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とは、等しくない。

いくつかの実施形態では、ポイントオーディオソース検出器３０７は、そのような相関を補償するように構成される。特に、ポイントオーディオソース検出器３０７は、雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）を決定するように構成され、雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）は、雑音基準信号の振幅とビームフォーミングされたオーディオ出力信号の雑音成分の振幅との間の相関を示す。次いで、時間周波数タイル差分測度の決定は、このコヒーレンス推定値の関数としてのものである。

実際、多くの実施形態では、ポイントオーディオソース検出器３０７は、ビームフォーマからのビームフォーミングされたオーディオ出力信号及び雑音基準信号についてのコヒーレンスを、予想される振幅間の比に基づいて決定するように構成される。

ここで、Ｅ｛．｝は期待値演算子である。コヒーレンス項は、ビームフォーミングされたオーディオ出力信号における雑音成分の振幅と雑音基準信号の振幅との間の平均相関の指示である。

Ｃ（ｔ_ｋ，ω_ｌ）は、マイクロフォンにおける瞬時オーディオに依存せず、代わりに、雑音音場の空間的特性に依存するので、時間の関数としてのＣ（ｔ_ｋ，ω_ｌ）の変動は、Ｚ_ｎ及びＸ_ｎの時間変動よりもはるかに小さい。

その結果、Ｃ（ｔ_ｋ，ω_ｌ）は、スピーチが存在しない期間中の時間にわたって｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とを平均化することによって、比較的正確に推定され得る。そうするための手法は、米国特許第７６０２９２６号において開示され、米国特許第７６０２９２６号は、詳細には、Ｃ（ｔ_ｋ，ω_ｌ）を決定するための、明示的スピーチ検出が必要とされない方法が記載されている。

雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）を決定するための任意の好適な手法が使用されることが理解されよう。たとえば、較正が実行され、ここで、スピーカーが話さないように命令され、第１の周波数ドメイン信号と第２の周波数ドメイン信号とが比較され、各時間周波数タイルについての雑音相関推定値Ｃ（ｔ_ｋ，ω_ｌ）が、単に、第１の周波数ドメイン信号の時間周波数タイル値と第２の周波数ドメイン信号の時間周波数タイル値との平均比として決定される。理想的な球状等方性拡散雑音場の場合、コヒーレンス関数も、上記で説明された手法に従って分析的に決定され得る。

この推定値に基づいて、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜は、｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜だけではなく、Ｃ（ｔ_ｋ，ω_ｌ）｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜と置き換えられ得る。これにより、時間周波数タイル差分測度が

によって与えられる。

したがって、前の時間周波数タイル差分測度は、コヒーレンス関数が１の一定値に設定された、上記の差分測度の特定の例と考えられ得る。

コヒーレンス関数の使用により、本手法は、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の比較的強い相関がある周波数を含む、より低い周波数において使用されることが可能になる。

本手法は、さらに有利には、多くの実施形態では、適応キャンセラをさらに含み、適応キャンセラは、少なくとも１つの雑音基準信号と相関されるビームフォーミングされたオーディオ出力信号の信号成分をキャンセルするように構成されることが理解されよう。たとえば、図１の例と同様に、適応フィルタは、入力としての雑音基準信号を有し、その出力が、ビームフォーミングされたオーディオ出力信号から減算される。適応フィルタは、たとえば、スピーチが存在しない時間間隔中の得られた信号のレベルを最小化するように構成される。

以下では、特に有利なオーディオキャプチャシステムを与えるために、ポイントオーディオソース推定値及びポイントオーディオソース検出器３０７が他の説明された要素と相互作用するオーディオキャプチャ装置が説明される。特に、本手法は、雑音の多い環境及び残響環境においてオーディオソースをキャプチャするのに極めて適している。本手法は、所望のオーディオソースが残響半径外にあり、マイクロフォンによってキャプチャされたオーディオが拡散雑音及び後の反射又は残響によって支配される適用例について、特に有利な性能を与える。

図７は、本発明のいくつかの実施形態による、そのようなオーディオキャプチャ装置の要素の一例を示す。図３のシステムの要素及び手法は、以下で提示されるように、図７のシステムに対応する。

オーディオキャプチャ装置は、図３のマイクロフォンアレイ３０１に直接対応するマイクロフォンアレイ７０１を備える。本例では、マイクロフォンアレイ７０１はオプションのエコーキャンセラ７０３に結合され、エコーキャンセラ７０３は、（１つ又は複数の）マイクロフォン信号におけるエコーに線形的に関係する（基準信号が利用可能である）音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。

エコーキャンセラ７０３は随意であり、多くの実施形態において簡単に省略されることが理解されよう。

マイクロフォンアレイ７０１は、一般に、直接、又はエコーキャンセラ７０３を介して（並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して）のいずれかで第１のビームフォーマ７０５に結合される。第１のビームフォーマ７０５は、図３のビームフォーマ３０３に直接対応する。

第１のビームフォーマ７０５は、マイクロフォンアレイ７０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ７０１からの信号を合成するように構成される。したがって、第１のビームフォーマ７０５は、第１のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ７０５は適応ビームフォーマであり、その指向性は、第１のビームフォーマ７０５のビームフォーム動作の、第１のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。

第１のビームフォーマ７０５は第１の適応器７０７に結合され、第１の適応器７０７は、第１のビームフォームパラメータを適応させるように構成される。したがって、第１の適応器７０７は、ビームがステアリングされ得るように第１のビームフォーマ７０５のパラメータを適応させるように構成される。

さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ７０９、７１１を備え、制約付きビームフォーマ７０９、７１１の各々が、マイクロフォンアレイ７０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ７０１からの信号を合成するように構成される。したがって、制約付きビームフォーマ７０９、７１１の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ７０５と同様に、制約付きビームフォーマ７０９、７１１は、各制約付きビームフォーマ７０９、７１１の指向性が、制約付きビームフォーマ７０９、７１１の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。

したがって、オーディオキャプチャ装置は、第２の適応器７１３を備え、第２の適応器７１３は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させ、それにより、これらによって形成されたビームを適応させるように構成される。

図３のビームフォーマ３０３は、図７の第１の制約付きビームフォーマ７０９に直接対応する。また、残りの制約付きビームフォーマ７１１は、第１のビームフォーマ７０９に対応し、これの具体例と考えられ得ることが理解されよう。

したがって、第１のビームフォーマ７０５と制約付きビームフォーマ７０９、７１１の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ７０５、７０９、７１１は、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

図３のビームフォーマ３０３は、ビームフォーマ７０５、７０９、７１１のいずれかに対応し、実際、図３のビームフォーマ３０３に関して与えられたコメントは、図７の第１のビームフォーマ７０５及び制約付きビームフォーマ７０９、７１１のいずれかに等しく適用されることが理解されよう。

多くの実施形態では、第１のビームフォーマ７０５及び制約付きビームフォーマ７０９、７１１の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のＦＩＲフィルタ構造を有するなどである。

しかしながら、第１のビームフォーマ７０５及び制約付きビームフォーマ７０９、７１１の動作及びパラメータは異なり、特に、制約付きビームフォーマ７０９、７１１は、第１のビームフォーマ７０５が制約されないやり方で制約される。詳細には、制約付きビームフォーマ７０９、７１１の適応は、第１のビームフォーマ７０５の適応とは異なり、詳細には、いくつかの制約を受ける。

詳細には、制約付きビームフォーマ７０９、７１１は、適応（ビームフォームフィルタパラメータの更新）が、基準が満たされるときの状況に制約されるという制約を受けるが、第１のビームフォーマ７０５は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第１の適応器７０７は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第１のビームフォーマ７０５によってキャプチャされたオーディオの（又は制約付きビームフォーマ７０９、７１１のいずれかの）特性によって制約されない。

制約付きビームフォーマ７０９、７１１を適応させるための基準は、後でより詳細に説明される。

多くの実施形態では、第１のビームフォーマ７０５についての適応レートは、制約付きビームフォーマ７０９、７１１についての適応レートよりも高い。したがって、多くの実施形態では、第１の適応器７０７は、第２の適応器７１３よりも高速に変動に適応するように構成され、したがって、第１のビームフォーマ７０５は、制約付きビームフォーマ７０９、７１１よりも高速に更新される。これは、たとえば、最大化又は最小化されている値（たとえば、出力信号の信号レベル又は誤差信号の大きさ）の低域フィルタ処理が、第１のビームフォーマ７０５について、制約付きビームフォーマ７０９、７１１についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ（詳細には、ビームフォームフィルタ係数）の更新ごとの最大変化は、第１のビームフォーマ７０５について、制約付きビームフォーマ７０９、７１１よりも高い。

したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束（適応制約付き）ビームフォーマが、この制約を受けない、自走する（ｆｒｅｅｒｕｎｎｉｎｇ）より高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。

図７のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。

第１のビームフォーマ７０５と制約付きビームフォーマ７０９、７１１とは、出力プロセッサ７１５に結合され、出力プロセッサ７１５は、ビームフォーマ７０５、７０９、７１１から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ７０５、７０９、７１１からのオーディオ出力信号にある。

多くの実施形態では、出力プロセッサ７１５からの出力信号は、ビームフォーマ７０５、７０９、７１１からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。

したがって、出力プロセッサ７１５の出力選択及び後処理は、特定用途向けであり、及び／又は、異なる実装形態／実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る（たとえば、最も強いスピーカーが選択される）などである。

ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。

通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、（たとえば出力プロセッサ７１５によって）オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

図７のシステムでは、第１のビームフォーマ７０５と制約付きビームフォーマ７０９、７１１との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。

この目的で、オーディオキャプチャ装置は、ビーム差分プロセッサ７１７を備え、ビーム差分プロセッサ７１７は、制約付きビームフォーマ７０９、７１１のうちの１つ又は複数と第１のビームフォーマ７０５との間の差分測度を決定するように構成される。差分測度は、第１のビームフォーマ７０５及び制約付きビームフォーマ７０９、７１１それぞれによって形成されたビーム間の差分を示す。したがって、第１の制約付きビームフォーマ７０９についての差分測度は、第１のビームフォーマ７０５によって形成されるビームと第１の制約付きビームフォーマ７０９によって形成されるビームとの間の差分を示す。このようにして、差分測度は、２つのビームフォーマ７０５、７０９がどのくらい密接に同じオーディオソースに適応されるかを示す。

異なる実施形態及び適用例では異なる差分測度が使用される。

いくつかの実施形態では、差分測度は、異なるビームフォーマ７０５、７０９、７１１からの生成されたビームフォーミングされたオーディオ出力に基づいて決定される。一例として、単純な差分測度は、単に、第１のビームフォーマ７０５及び第１の制約付きビームフォーマ７０９の出力の信号レベルを測定し、これらを互いに比較することによって生成される。信号レベルが互いに近くなるほど、差分測度は低くなる（一般に、差分測度はまた、たとえば第１のビームフォーマ７０５の実際の信号レベルの関数として増加する）。

より好適な差分測度が、多くの実施形態では、第１のビームフォーマ７０５及び第１の制約付きビームフォーマ７０９からのビームフォーミングされたオーディオ出力間の相関を決定することによって生成される。相関値が高くなるほど、差分測度は低くなる。

代替又は追加として、差分測度は、第１のビームフォーマ７０５のビームフォームパラメータと第１の制約付きビームフォーマ７０９のビームフォームパラメータとの比較に基づいて決定される。たとえば、所与のマイクロフォンについての第１のビームフォーマ７０５のビームフォームフィルタ及び第１の制約付きビームフォーマ７０９のビームフォームフィルタの係数は、２つのベクトルによって表される。次いで、これらの２つのベクトルの差分ベクトルの大きさが計算される。プロセスはすべてのマイクロフォンについて繰り返され、合成された、又は平均的な大きさが、距離測度として決定され、使用される。したがって、生成された差分測度は、ビームフォームフィルタの係数が第１のビームフォーマ７０５と第１の制約付きビームフォーマ７０９とについてどのくらい異なるかを反映し、これは、ビームについての差分測度として使用される。

したがって、図７のシステムでは、第１のビームフォーマ７０５のビームフォームパラメータと第１の制約付きビームフォーマ７０９のビームフォームパラメータとの間の差分及び／又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。

差分測度を生成すること、決定すること、及び／又は使用することは、類似性測度を生成すること、決定すること、及び／又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、したがって、差分測度は類似性測度でもあり（その逆も同様）、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。

ビーム差分プロセッサ７１７は、第２の適応器７１３に結合され、これに差分測度を与える。第２の適応器７１３は、差分測度に応答して制約付きビームフォーマ７０９、７１１を適応させるように構成される。詳細には、第２の適応器７１３は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。したがって、所与の制約付きビームフォーマ７０９、７１１についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ７０９、７１１についての決定された差分測度が、第１のビームフォーマ７０５のビームと所与の制約付きビームフォーマ７０９、７１１のビームとが十分に類似していないことを示す場合、適応は実行されない。

したがって、図７のオーディオキャプチャ装置では、制約付きビームフォーマ７０９、７１１は、ビームの適応において制約される。詳細には、制約付きビームフォーマ７０９、７１１は、制約付きビームフォーマ７０９、７１１によって形成された現在のビームが、自走する第１のビームフォーマ７０５が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ７０９、７１１は、第１のビームフォーマ７０５が個々の制約付きビームフォーマ７０９、７１１に十分に近くなるように現在適応されている場合のみ適応される。

これの結果は、制約付きビームフォーマ７０９、７１１の適応が第１のビームフォーマ７０５の動作によって制御され、それにより、効果的に、第１のビームフォーマ７０５によって形成されたビームが、制約付きビームフォーマ７０９、７１１のうちのどちらが最適化／適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ７０９、７１１は、所望のオーディオソースが制約付きビームフォーマ７０９、７１１の現在の適応に近いときのみ適応される傾向がある。

適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。

多くの実施形態では、適応の制約は、さらなる要件を条件とする。

たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。したがって、個々の制約付きビームフォーマ７０９、７１１のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。

異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。

いくつかの実施形態では、制約付きビームフォーマ７０９、７１１の適応は、制約付きビームフォーマ７０９、７１１の出力において、いつスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。特に、ポイントオーディオソース検出器３０７の、前に説明された手法が適用される。

図３～図７のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。したがって、連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ７０５、７０９、７１１は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ７０９、７１１を選択し、この制約付きビームフォーマ７０９、７１１を更新する／適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、７ミリ秒から７０ミリ秒の間の持続時間を有する。

いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ７０９、７１１の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。

本システムでは、適応は、さらに、ビームフォーミングされたオーディオ出力におけるポイントオーディオソースの検出に依存する。したがって、オーディオキャプチャ装置は、図３に関してすでに説明されたポイントオーディオソース検出器３０７をさらに備える。

ポイントオーディオソース検出器３０７は、詳細には、多くの実施形態において、第２のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するように構成され、したがって、ポイントオーディオソース検出器３０７は、制約付きビームフォーマ７０９、７１１に結合され、ポイントオーディオソース検出器３０７は、これらから、ビームフォーミングされたオーディオ出力を受信する。さらに、ポイントオーディオソース検出器３０７は、これらからの雑音基準信号を受信する（明快のために、図７は、ビームフォーミングされたオーディオ出力信号と雑音基準信号とを単一の線によって示し、すなわち、図７の線は、ビームフォーミングされたオーディオ出力信号と（１つ又は複数の）雑音基準信号の両方、並びに、たとえばビームフォームパラメータを含むバスを表すと考えられる）。

したがって、図７のシステムの動作は、前に説明された原理に従ってポイントオーディオソース検出器３０７によって実行されるポイントオーディオソース推定に依存する。ポイントオーディオソース検出器３０７は、詳細には、すべてのビームフォーマ７０５、７０９、７１１についてのポイントオーディオソース推定値を生成するように構成される。

検出結果はポイントオーディオソース検出器３０７から第２の適応器７１３に受け渡され、第２の適応器７１３は、これに応答して適応を適応させるように構成される。詳細には、第２の適応器７１３は、ポイントオーディオソースが検出されたことをポイントオーディオソース検出器３０７が示す制約付きビームフォーマ７０９、７１１のみを適応させるように構成される。

したがって、オーディオキャプチャ装置は、形成されたビームにおいてポイントオーディオソースが存在する制約付きビームフォーマ７０９、７１１のみが適応され、その形成されたビームが第１のビームフォーマ７０５によって形成されたビームに近くなるように、制約付きビームフォーマ７０９、７１１の適応を制約するように構成される。したがって、適応は、一般に、すでに（所望の）ポイントオーディオソースに近い制約付きビームフォーマ７０９、７１１に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ７０９、７１１を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。

多くの実施形態では、オーディオキャプチャ装置は、一度に１つの制約付きビームフォーマ７０９、７１１のみを適応させるように構成される。したがって、第２の適応器７１３は、各適応時間間隔において、制約付きビームフォーマ７０９、７１１のうちの１つを選択し、ビームフォームパラメータを更新することによってこれのみを適応させる。

単一の制約付きビームフォーマ７０９、７１１の選択は、一般に、形成された現在のビームが第１のビームフォーマ７０５によって形成されたビームに近い場合、及びポイントオーディオソースがビームにおいて検出された場合のみ適応のために制約付きビームフォーマ７０９、７１１を選択するとき、自動的に行われる。

しかしながら、いくつかの実施形態では、複数の制約付きビームフォーマ７０９、７１１が同時に基準を満たすことが可能である。たとえば、ポイントオーディオソースが、２つの異なる制約付きビームフォーマ７０９、７１１によってカバーされた領域の近くに配置される（又は、たとえば、ポイントオーディオソースがそれらの領域の重複するエリア中にある）場合、ポイントオーディオソースは両方のビームにおいて検出され、これらは両方とも、両方がポイントオーディオソースのほうへ適応されることによって、互いに近くなるように適応される。

したがって、そのような実施形態では、第２の適応器７１３は、２つの基準を満たす制約付きビームフォーマ７０９、７１１のうちの１つを選択し、この１つのみを適応させる。これは、２つのビームが同じポイントオーディオソースのほうへ適応される危険を低減し、したがって、これらの動作が互いに干渉する危険を低減する。

実際、対応する差分測度が十分に低くなければならないという制約の下で制約付きビームフォーマ７０９、７１１を適応させることと、（たとえば、各処理時間間隔／フレームにおける）適応のために単一の制約付きビームフォーマ７０９、７１１のみを選択することとにより、適応は、異なる制約付きビームフォーマ７０９、７１１間で差別化される。これにより、制約付きビームフォーマ７０９、７１１は異なる領域をカバーするように適応され、第１のビームフォーマ７０５によって検出されたオーディオソースを適応させ／それに従うように、最も近い制約付きビームフォーマ７０９、７１１が自動的に選択される傾向がある。しかしながら、たとえば図２の手法とは対照的に、領域は、固定及び所定ではなく、むしろ、動的に及び自動的に形成される。

また、領域は、複数の経路のためのビームフォーミングに依存し、一般に、到来角度方向領域に限定されないことに留意されたい。たとえば、領域は、マイクロフォンアレイまでの距離に基づいて差別化される。したがって、領域という用語は、差分測度についての類似性要件を満たす適応が生じるオーディオソースの空間における位置を指すと考えられる。したがって、それは、直接経路の考慮だけでなく、たとえば、反射が、ビームフォームパラメータにおいて考慮され、特に、空間的側面と時間的側面の両方に基づいて決定される（及び詳細には、ビームフォームフィルタの完全なインパルス応答に依存する）場合、反射の考慮をも含む。

単一の制約付きビームフォーマ７０９、７１１の選択は、詳細には、キャプチャされたオーディオレベルに応答したものである。たとえば、ポイントオーディオソース検出器３０７は、基準を満たす制約付きビームフォーマ７０９、７１１からのビームフォーミングされたオーディオ出力の各々のオーディオレベルを決定し、第２の適応器７１３は、最も高いレベルを生じる制約付きビームフォーマ７０９、７１１を選択する。いくつかの実施形態では、第２の適応器７１３は、ビームフォーミングされたオーディオ出力において検出されたポイントオーディオソースが最も高い値を有する制約付きビームフォーマ７０９、７１１を選択する。たとえば、ポイントオーディオソース検出器３０７は、２つの制約付きビームフォーマ７０９、７１１からのビームフォーミングされたオーディオ出力においてスピーチ成分を検出し、第２の適応器７１３は、続いて、最も高いレベルのスピーチ成分を有する制約付きビームフォーマを選択する。

多くの実施形態では、第２の適応器７１３は、ポイントオーディオソース推定値に基づいてビームフォーマ７０５、７１１を選択し、詳細には、ポイントオーディオソースが存在する最も高い尤度をポイントオーディオソース推定値が与える、ビームフォーマ７０９、７１１を選択する。特定の例として、第２の適応器７１３は、最も高い合成された値

を有するビームフォーマ７０９、７１１を選択する。

本手法では、したがって、制約付きビームフォーマ７０９、７１１の極めて選択的な適応が実行され、それは、これらが特定の状況においてのみ適応することにつながる。これは、制約付きビームフォーマ７０９、７１１による極めてロバストなビームフォーミングを与え、これにより、所望のオーディオソースのキャプチャの改善が生じる。しかしながら、多くのシナリオでは、また、ビームフォーミングにおける制約により、適応性がより低速になり、実際、多くの状況において、新しいオーディオソース（たとえば新しいスピーカー）が、検出されないか、又は極めて低速にのみ適応されることになる。

図８は図７のオーディオキャプチャ装置を示すが、第２の適応器７１３及びポイントオーディオソース検出器３０７に結合されるビームフォーマコントローラ８０１が加えられている。ビームフォーマコントローラ８０１は、いくつかの状況において制約付きビームフォーマ７０９、７１１を初期化するように構成される。詳細には、ビームフォーマコントローラ８０１は、第１のビームフォーマ７０５に応答して制約付きビームフォーマ７０９、７１１を初期化することができ、詳細には、第１のビームフォーマ７０５のビームに対応するビームを形成するために制約付きビームフォーマ７０９、７１１のうちの１つを初期化することができる。

ビームフォーマコントローラ８０１は、詳細には、これ以降第１のビームフォームパラメータと呼ばれる、第１のビームフォーマ７０５のビームフォームパラメータに応答して、制約付きビームフォーマ７０９、７１１のうちの１つのビームフォームパラメータを設定する。いくつかの実施形態では、制約付きビームフォーマ７０９、７１１のフィルタと第１のビームフォーマ７０５のフィルタとは同等であり、たとえば、それらは同じアーキテクチャを有する。特定の例として、制約付きビームフォーマ７０９、７１１のフィルタと第１のビームフォーマ７０５のフィルタの両方は、同じ長さ（すなわち、所与の数の係数）をもつＦＩＲフィルタであり、第１のビームフォーマ７０５のフィルタからの現在適応されている係数値は、単に、制約付きビームフォーマ７０９、７１１にコピーされ、すなわち、制約付きビームフォーマ７０９、７１１の係数は第１のビームフォーマ７０５の値に設定される。このようにして、制約付きビームフォーマ７０９、７１１は、第１のビームフォーマ７０５によって現在適応されているものと同じビーム特性で初期化される。

いくつかの実施形態では、制約付きビームフォーマ７０９、７１１のフィルタの設定は、第１のビームフォーマ７０５のフィルタパラメータから決定されるが、これらを直接使用するのではなく、それらは、適用される前に適応される。たとえば、いくつかの実施形態では、ＦＩＲフィルタの係数は、第１のビームフォーマ７０５のビームよりも広くなる（ただし、たとえば同じ方向に形成される）ように制約付きビームフォーマ７０９、７１１のビームを初期化するために変更される。

ビームフォーマコントローラ８０１は、多くの実施形態において、したがって、いくつかの状況において、第１のビームフォーマ７０５のビームに対応する初期ビームで制約付きビームフォーマ７０９、７１１のうちの１つを初期化する。本システムは、続いて、前に説明されたように制約付きビームフォーマ７０９、７１１を扱い、詳細には、前に説明された基準を満たすとき、制約付きビームフォーマ７０９、７１１を適応させるよう処理する。

制約付きビームフォーマ７０９、７１１を初期化するための基準は、異なる実施形態において異なる。

多くの実施形態では、ビームフォーマコントローラ８０１は、ポイントオーディオソースの存在が第１のビームフォーミングされたオーディオ出力において検出されるが、制約付きのビームフォーミングされたオーディオ出力において検出されない場合、制約付きビームフォーマ７０９、７１１を初期化するように構成される。

したがって、ポイントオーディオソース検出器３０７は、ポイントオーディオソースが、制約付きビームフォーマ７０９、７１１又は第１のビームフォーマ７０５のいずれかからのビームフォーミングされたオーディオ出力のいずれかにおいて存在するかどうかを決定する。各ビームフォーミングされたオーディオ出力についての検出／推定結果は、ビームフォーマコントローラ８０１にフォワーディングされ、ビームフォーマコントローラ８０１はこれを評価する。ポイントオーディオソースが、第１のビームフォーマ７０５についてのみ検出され、制約付きビームフォーマ７０９、７１１のいずれについても検出されない場合、これは、スピーカーなどのポイントオーディオソースが存在し、第１のビームフォーマ７０５によって検出されるが、制約付きビームフォーマ７０９、７１１のいずれもポイントオーディオソースを検出しなかったか、又はポイントオーディオソースに適応されなかった状況を反映する。この場合、制約付きビームフォーマ７０９、７１１は、ポイントオーディオソースに決して適応しない（又は極めて低速にのみ適応する）。したがって、制約付きビームフォーマ７０９、７１１のうちの１つは、ポイントオーディオソースに対応するビームを形成するために初期化される。その後、このビームは、ポイントオーディオソースに十分に近い可能性があり、それは、（一般に低速に、ただし確実に）この新しいポイントオーディオソースに適応する。

したがって、本手法は、高速の第１のビームフォーマ７０５と確実な制約付きビームフォーマ７０９、７１１の両方の有利な効果を合成し、与える。

いくつかの実施形態では、ビームフォーマコントローラ８０１は、制約付きビームフォーマ７０９、７１１についての差分測度がしきい値を超える場合のみ、制約付きビームフォーマ７０９、７１１を初期化するように構成される。詳細には、制約付きビームフォーマ７０９、７１１についての最も低い決定された差分測度がしきい値を下回る場合、初期化は実行されない。そのような状況では、制約付きビームフォーマ７０９、７１１の適応が所望の状況により近いが、第１のビームフォーマ７０５のあまり確実でない適応があまり正確でなく、第１のビームフォーマ７０５により近くなるように適応することが可能である。したがって、差分測度が十分に低いそのようなシナリオでは、システムが自動的に適応することを試みることを可能にすることが有利である。

いくつかの実施形態では、ビームフォーマコントローラ８０１は、詳細には、ポイントオーディオソースが第１のビームフォーマ７０５と制約付きビームフォーマ７０９、７１１のうちの１つの両方について検出されたが、これらについての差分測度が類似性基準を満たすことができないとき、制約付きビームフォーマ７０９、７１１を初期化するように構成される。詳細には、ビームフォーマコントローラ８０１は、ポイントオーディオソースが第１のビームフォーマ７０５からのビームフォーミングされたオーディオ出力と制約付きビームフォーマ７０９、７１１からのビームフォーミングされたオーディオ出力の両方において検出され、これらについての差分測度がしきい値を超える場合、第１のビームフォーマ７０５のビームフォームパラメータに応答して第１の制約付きビームフォーマ７０９、７１１についてのビームフォームパラメータを設定するように構成される。

そのようなシナリオは、制約付きビームフォーマ７０９、７１１が場合によってはポイントオーディオソースに適応し、ポイントオーディオソースをキャプチャしたが、そのポイントオーディオソースは、第１のビームフォーマ７０５によってキャプチャされたポイントオーディオソースとは異なる状況を反映する。したがって、そのようなシナリオは、詳細には、制約付きビームフォーマ７０９、７１１が「間違った」ポイントオーディオソースをキャプチャしたことを反映する。したがって、制約付きビームフォーマ７０９、７１１は、所望のポイントオーディオソースのほうへビームを形成するために再初期化される。

いくつかの実施形態では、アクティブである制約付きビームフォーマ７０９、７１１の数は、変動している。たとえば、オーディオキャプチャ装置は、潜在的に比較的多数の制約付きビームフォーマ７０９、７１１を形成するための機能を備える。たとえば、オーディオキャプチャ装置は、最高で、たとえば、８つの同時の制約付きビームフォーマ７０９、７１１を実装する。しかしながら、たとえば電力消費及び計算負荷を低減するために、これらのすべてが同時にアクティブであるとは限らない。

したがって、いくつかの実施形態では、制約付きビームフォーマ７０９、７１１のアクティブセットが、ビームフォーマのより大きいプールから選択される。これは、詳細には、制約付きビームフォーマ７０９、７１１が初期化されるときに行われる。したがって、上記で与えられた例では、（たとえば、ポイントオーディオソースが、アクティブな制約付きビームフォーマ７０９、７１１において検出されない場合の）制約付きビームフォーマ７０９、７１１の初期化は、プールからのアクティブでない制約付きビームフォーマ７０９、７１１を初期化し、それにより、アクティブな制約付きビームフォーマ７０９、７１１の数を増加させることによって、達成される。

プール中のすべての制約付きビームフォーマ７０９、７１１が現在アクティブである場合、制約付きビームフォーマ７０９、７１１の初期化は、現在アクティブな制約付きビームフォーマ７０９、７１１を初期化することによって行われる。初期化されるべき制約付きビームフォーマ７０９、７１１は、任意の好適な基準に従って選択される。たとえば、最も大きい差分測度又は最も低い信号レベルを有する制約付きビームフォーマ７０９、７１１が選択される。

いくつかの実施形態では、制約付きビームフォーマ７０９、７１１は、好適な基準が満たされたことに応答して非アクティブ化される。たとえば、制約付きビームフォーマ７０９、７１１は、差分測度が所与のしきい値を上回って増加した場合、非アクティブ化される。

上記で説明された例の多くに従って制約付きビームフォーマ７０９、７１１の適応及び設定を制御するための特定の手法が、図９のフローチャートによって示されている。

本方法は、次の処理時間間隔を初期化すること（たとえば、次の処理時間間隔の開始を待つこと、処理時間間隔のためのサンプルのセットを集めることなど）によって、ステップ９０１において開始する。

ステップ９０１の後にステップ９０３が続き、制約付きビームフォーマ７０９、７１１のビームのいずれかにおいて検出されたポイントオーディオソースがあるかどうかが決定される。

制約付きビームフォーマ７０９、７１１のビームのいずれかにおいて検出されたポイントオーディオソースがある場合、本方法はステップ９０５において続き、差分測度が類似性基準を満たすかどうか、詳細には、差分測度がしきい値を下回るかどうかが決定される。

差分測度が類似性基準を満たす場合、本方法はステップ９０７において続き、ポイントオーディオソースが検出された（又は、ポイントオーディオソースが２つ以上の制約付きビームフォーマ７０９、７１１において検出された場合には最も大きい信号レベルを有する）制約付きビームフォーマ７０９、７１１が適応され、すなわち、ビームフォーム（フィルタ）パラメータが更新される。

差分測度が類似性基準を満たさない場合、本方法はステップ９０９において続き、制約付きビームフォーマ７０９、７１１が初期化され、制約付きビームフォーマ７０９、７１１のビームフォームパラメータは、第１のビームフォーマ７０５のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ７０９、７１１は、新しい制約付きビームフォーマ７０９、７１１（すなわち、非アクティブなビームフォーマのプールからのビームフォーマ）であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ７０９、７１１である。

ステップ９０７及びステップ９０９のいずれかに続いて、本方法はステップ９０１に戻り、次の処理時間間隔を待つ。

ステップ９０３において、ポイントオーディオソースが制約付きビームフォーマ７０９、７１１のいずれかのビームフォーミングされたオーディオ出力において検出されなかったことが検出された場合、本方法はステップ９１１に進み、ポイントオーディオソースが第１のビームフォーマ７０５において検出されたかどうか、すなわち、現在のシナリオが、ポイントオーディオソースが第１のビームフォーマ７０５によってキャプチャされたが制約付きビームフォーマ７０９、７１１のいずれによってもキャプチャされていないことに対応するかどうかが決定される。

ポイントオーディオソースが第１のビームフォーマ７０５において検出されない場合、ポイントオーディオソースはまったく検出されず、本方法はステップ９０１に戻って、次の処理時間間隔を待つ。

他の場合、本方法はステップ９１３に進み、差分測度が類似性基準を満たすかどうか、詳細には、差分測度が（ステップ９０５において使用されるものと同じであるか、又は異なるしきい値／基準である）しきい値を下回るかどうかが決定される。

差分測度が類似性基準を満たす場合、本方法はステップ９１５に進み、差分測度がしきい値を下回る制約付きビームフォーマ７０９、７１１が適応される（又は、２つ以上の制約付きビームフォーマ７０９、７１１が基準を満たす場合、たとえば最も低い差分測度をもつものが選択される）。

他の場合、本方法はステップ９１７に進み、制約付きビームフォーマ７０９、７１１が初期化され、制約付きビームフォーマ７０９、７１１のビームフォームパラメータは、第１のビームフォーマ７０５のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ７０９、７１１は、新しい制約付きビームフォーマ７０９、７１１（すなわち、非アクティブなビームフォーマのプールからのビームフォーマ）であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ７０９、７１１である。

ステップ９１５及びステップ９１７のいずれかに続いて、本方法はステップ９０１に戻り、次の処理時間間隔を待つ。

図７～図９のオーディオキャプチャ装置の説明された手法は、多くのシナリオにおいて有利な性能を与え、特に、オーディオキャプチャ装置が、オーディオソースをキャプチャするために、集束された、ロバストで正確なビームを動的に形成することを可能にする傾向がある。ビームは、異なる領域をカバーするように適応される傾向があり、本手法は、たとえば、最も近い制約付きビームフォーマ７０９、７１１を自動的に選択し、適応させる。

したがって、たとえば図２の手法とは対照的に、ビーム方向又はフィルタ係数に関する特定の制約が直接課される必要がない。むしろ、支配的な単一のオーディオソースがあるとき、及びそれが制約付きビームフォーマ７０９、７１１のビームに十分に近いときのみ、制約付きビームフォーマ７０９、７１１を（条件付きで）適応させることによって、別個の領域が自動的に生成／形成され得る。これは、詳細には、直接場と（第１の）反射の両方を考慮に入れるフィルタ係数を考慮することによって決定され得る。

（単純な遅延フィルタ、すなわち、単一係数フィルタを使用することとは対照的に）拡張インパルス応答をもつフィルタを使用することは、直接場の後ある（特定の）時間が経って反射が到着することをも考慮に入れることに留意されたい。したがって、ビームは、空間的特性（直接場及び反射がどの方向から到着するか）によって決定されるだけでなく、時間的特性（直接場が到着した後のどの時間において反射が到着するか）によっても決定される。したがって、ビームへの言及は、単に空間的考慮事項に制限されるだけでなく、ビームフォームフィルタの時間成分をも反映する。同様に、領域への言及は、ビームフォームフィルタの純粋に空間的な効果と時間的な効果の両方を含む。

したがって、本手法は、第１のビームフォーマ７０５の自走するビームと制約付きビームフォーマ７０９、７１１のビームとの間の距離測度の差分によって決定される領域を形成すると考えられ得る。たとえば、制約付きビームフォーマ７０９、７１１が（空間的特性と時間的特性の両方をもつ）ソースに集束されたビームを有すると仮定する。そのソースが無音であり、新しいソースがアクティブになり、第１のビームフォーマ７０５がこれに集束するように適応すると仮定する。次いで、第１のビームフォーマ７０５のビームと制約付きビームフォーマ７０９、７１１のビームとの間の距離がしきい値を超えないような空間時間的特性をもつあらゆるソースが、制約付きビームフォーマ７０９、７１１の領域中にあると考えられ得る。このようにして、第１の制約付きビームフォーマ７０９に関する制約は、空間における制約に変換されると考えられ得る。

ビームを初期化する（たとえば、ビームフォームフィルタ係数をコピーする）手法とともに、制約付きビームフォーマの適応のための距離基準は、一般に、制約付きビームフォーマ７０９、７１１が異なる領域においてビームを形成することを可能にする。

本手法は、一般に、図２の手法のような所定の固定システムではなく、環境におけるオーディオソースの存在を反映する領域の自動形成を生じる。このフレキシブルな手法は、システムが、反射によって引き起こされるものなど、空間時間的特性に基づくことを可能にし、空間時間的特性は、（これらの特性が、部屋のサイズ、形状及び残響特性など、多くのパラメータに依存するので）所定及び固定システムにとって含むことが極めて困難で複雑である。

上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、１つ又は複数のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションで実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。

本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有するという用語は、他の要素又はステップが存在することを除外するものではない。

さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び／又は有利でないことを暗示するものではない。また、請求項の１つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、「ａ」、「ａｎ」、「第１の」、「第２の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims

マイクロフォンアレイと、
ビームフォーミングされたオーディオ出力信号及び少なくとも１つの雑音基準信号を生成する少なくとも第１のビームフォーマと、
前記ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するための第１の変換器であって、前記第１の周波数ドメイン信号が時間周波数タイル値によって表される、第１の変換器と、
前記少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するための第２の変換器であって、前記第２の周波数ドメイン信号が時間周波数タイル値によって表される、第２の変換器と、
時間周波数タイル差分測度を生成する差分プロセッサであって、第１の周波数についての時間周波数タイル差分測度が、前記第１の周波数についての前記第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と前記第１の周波数についての前記第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す、差分プロセッサと、
前記ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するためのポイントオーディオソース推定器であって、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答して前記ポイントオーディオソース推定値を生成する、ポイントオーディオソース推定器と
を備える、オーディオキャプチャ装置。
前記ポイントオーディオソース推定器は、前記合成された差分値がしきい値を超えることに応答して、前記ビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在を検出する、請求項１に記載のオーディオキャプチャ装置。
前記周波数しきい値は５００Ｈｚを下回らない、請求項１に記載のオーディオキャプチャ装置。
前記差分プロセッサは、前記ビームフォーミングされたオーディオ出力信号の振幅と前記少なくとも１つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成し、前記第１の単調関数及び前記第２の単調関数のうちの少なくとも１つが前記雑音コヒーレンス推定値に依存する、請求項１に記載のオーディオキャプチャ装置。
前記差分プロセッサは、雑音コヒーレンス推定値に応答して、前記第１の周波数についての前記第２の周波数ドメイン信号の前記時間周波数タイル値の前記ノルムに対して前記第１の周波数についての前記第１の周波数ドメイン信号の前記時間周波数タイル値の前記ノルムをスケーリングする、請求項１に記載のオーディオキャプチャ装置。
前記差分プロセッサは、実質的に次のように、周波数ω_ｌにおける時間ｔ_ｋについての時間周波数タイル差分測度を生成し、
ｄ＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜－γＣ（ｔ_ｋ，ω_ｌ）｜Ｘ（ｔ_ｋ，ω_ｌ）｜
ここで、Ｚ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおける前記ビームフォーミングされたオーディオ出力信号についての前記時間周波数タイル値であり、Ｘ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおける前記少なくとも１つの雑音基準信号についての前記時間周波数タイル値であり、Ｃ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおける雑音コヒーレンス推定値であり、γは設計パラメータである、請求項１に記載のオーディオキャプチャ装置。
前記差分プロセッサは、前記ビームフォーミングされたオーディオ出力信号の前記時間周波数タイル値及び前記少なくとも１つの雑音基準信号の前記時間周波数タイル値のうちの少なくとも１つをフィルタ処理する、請求項１に記載のオーディオキャプチャ装置。
前記フィルタ処理は、周波数方向と時間方向との両方である、請求項７に記載のオーディオキャプチャ装置。
前記ビームフォーマを含む複数のビームフォーマを備え、前記ポイントオーディオソース推定器は、前記複数のビームフォーマの各ビームフォーマについてのポイントオーディオソース推定値を生成し、前記ポイントオーディオソース推定値に応答して前記複数のビームフォーマのうちの少なくとも１つを適応させるための適応器をさらに備える、請求項１に記載のオーディオキャプチャ装置。
前記複数のビームフォーマは、前記ビームフォーミングされたオーディオ出力信号と前記少なくとも１つの雑音基準信号とを生成する第１のビームフォーマと、前記マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力と少なくとも１つの制約付き雑音基準信号とを各々が生成する複数の制約付きビームフォーマとを備え、前記オーディオキャプチャ装置は、
前記複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するためのビーム差分プロセッサであって、前記差分測度が、前記第１のビームフォーマによって形成されたビームと前記複数の制約付きビームフォーマのうちの少なくとも１つによって形成されたビームとの間の差分を示す、ビーム差分プロセッサ
をさらに備え、
前記適応器は、類似性基準を満たす差分測度が決定された前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ制約付きビームフォームパラメータが適応されるという制約で、前記制約付きビームフォームパラメータを適応させる、請求項９に記載のオーディオキャプチャ装置。
前記適応器は、前記制約付きのビームフォーミングされたオーディオ出力におけるポイントオーディオソースの存在を前記ポイントオーディオソース推定値が示す前記制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させる、請求項１０に記載のオーディオキャプチャ装置。
前記適応器は、前記ビームフォーミングされたオーディオ出力がポイントオーディオソースを備える最も高い確率を前記ポイントオーディオソース推定値が示す前記制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させる、請求項１０に記載のオーディオキャプチャ装置。
前記適応器は、最も高い値の前記ポイントオーディオソース推定値を有する前記制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させる、請求項１０に記載のオーディオキャプチャ装置。
マイクロフォンアレイを使用してオーディオをキャプチャするための動作方法であって、
少なくとも第１のビームフォーマが、ビームフォーミングされたオーディオ出力信号と少なくとも１つの雑音基準信号とを生成するステップと、
第１の変換器が、前記ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するステップであって、前記第１の周波数ドメイン信号が時間周波数タイル値によって表される、生成するステップと、
第２の変換器が、前記少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するステップであって、前記第２の周波数ドメイン信号が時間周波数タイル値によって表される、生成するステップと、
差分プロセッサが時間周波数タイル差分測度を生成するステップであって、第１の周波数についての時間周波数タイル差分測度が、前記第１の周波数についての第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と前記第１の周波数についての第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す、生成するステップと、
ポイントオーディオソース推定器が、前記ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するステップであって、前記ポイントオーディオソース推定器が、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答して前記ポイントオーディオソース推定値を生成する、生成するステップと
を有する、動作方法。
コンピュータ上で動作するときに、請求項１４に記載の動作方法の全てのステップを実行するコンピュータプログラムコード手段を含む、コンピュータプログラム。