JP7041156B2

JP7041156B2 - ビームフォーミングを使用するオーディオキャプチャのための方法及び装置

Info

Publication number: JP7041156B2
Application number: JP2019535783A
Authority: JP
Inventors: コルネリスピーターヤンス; ブライアンブランドアントニウスヨハネスブレーメンダール; パトリックケチチャン; リックヨセフマルティヌスヤンセン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-01-03
Filing date: 2017-12-28
Publication date: 2022-03-23
Anticipated expiration: 2037-12-28
Also published as: CN110140360B; JP7041156B6; US10771894B2; CN110140360A; JP2020503780A; EP3566461A1; WO2018127447A1; BR112019013555A2; US20200145752A1; EP3566461B1; RU2019124546A; RU2760097C2; RU2019124546A3

Description

本発明は、ビームフォーミングを使用するオーディオキャプチャに関し、特に、限定はしないが、ビームフォーミングを使用するスピーチキャプチャに関する。

オーディオ、特にスピーチをキャプチャすることは、ここ数十年間でますます重要になった。実際、スピーチをキャプチャすることは、電気通信、遠隔会議、ゲーミング、オーディオユーザインターフェースなどを含む様々な適用例にとって、ますます重要になった。しかしながら、多くのシナリオ及び適用例における問題は、所望のスピーチソースが、一般に、環境における唯一のオーディオソースでないことである。むしろ、一般的なオーディオ環境において、マイクロフォンによってキャプチャされている多くの他のオーディオ／雑音ソースがある。多くのスピーチキャプチャ適用例が直面する重大な問題のうちの１つは、雑音の多い環境において、どのように最も良くスピーチを抽出するかの問題である。この問題に対処するために、雑音抑圧のためのいくつかの異なる手法が提案された。

実際、たとえばハンズフリースピーチ通信システムの研究は、数十年の間に多くの関心を受けた論題である。利用可能な最初の商業システムは、低い背景雑音及び低い残響時間をもつ環境におけるプロフェッショナル（ビデオ）会議システムに焦点を当てた。たとえば所望のスピーカーなど、所望のオーディオソースを識別し、抽出するための特に有利な手法は、マイクロフォンアレイからの信号に基づくビームフォーミングの使用であることがわかった。初めに、マイクロフォンアレイはしばしば集束固定ビームとともに使用されたが、後に、適応ビームの使用がより普及した。

１９９０年代後半には、モバイルのためのハンズフリーシステムが導入され始めた。これらは、残響室を含む多くの異なる環境において、及び（より）高い背景雑音レベルにおいて使用されることが意図された。そのようなオーディオ環境は、大幅により困難な課題を与え、特に、形成されたビームの適応を複雑にするか、又は劣化させる。

初めに、そのような環境のためのオーディオキャプチャの研究は、エコーキャンセルに、及び後に雑音抑圧に焦点を当てた。ビームフォーミングに基づくオーディオキャプチャシステムの一例が図１に示されている。本例では、複数のマイクロフォンのアレイ１０１がビームフォーマ１０３に結合され、ビームフォーマ１０３は、オーディオソース信号ｚ（ｎ）と１つ又は複数の雑音基準信号ｘ（ｎ）とを生成する。

マイクロフォンアレイ１０１は、いくつかの実施形態では２つのマイクロフォンのみを備えるが、一般に、より大きい数を備える。

ビームフォーマ１０３は、詳細には、好適な適応アルゴリズムを使用して１つのビームがスピーチソースのほうへ向けられ得る適応ビームフォーマである。

たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号は、スピーチに焦点を当てるが、スピーチを（ほとんど）含んでいない基準信号をも与える適応ビームフォーマの例を開示する。

代替的に、米国特許出願第２０１４／２７８３９４号は、スピーチ認識結果を含む様々なパラメータに応じて制御及び変更され得るビームを開示する。ビームを制御及び変更するために使用されるパラメータはすべて、ビームの出力信号に基づくか、又はビームの出力信号から導出される。

ビームフォーマは、受信された信号をフォワードマッチングフィルタにおいてフィルタ処理し、フィルタ処理された出力を加算することによって、マイクロフォン信号の所望の部分をコヒーレントに加算することによって、拡張出力信号ｚ（ｎ）を作成する。また、出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有するバックワード適応フィルタにおいてフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、オーディオビームが支配的な信号のほうへステアリングされることになる。生成された誤差信号ｘ（ｎ）は、拡張出力信号ｚ（ｎ）に対して追加の雑音低減を実行するのに特に適した雑音基準信号と見なされ得る。

１次信号ｚ（ｎ）と基準信号ｘ（ｎ）とは、一般に、両方とも雑音によって汚染される。２つの信号における雑音がコヒーレントである場合（たとえば、干渉するポイント雑音ソースがあるとき）、コヒーレント雑音を低減するために適応フィルタ１０５が使用され得る。

この目的で、雑音基準信号ｘ（ｎ）は適応フィルタ１０５の入力に結合され、その出力が、オーディオソース信号ｚ（ｎ）から減算されて、補償信号ｒ（ｎ）を生成する。適応フィルタ１０５は、一般に所望のオーディオソースがアクティブでないとき（たとえば、スピーチがないとき）、補償信号ｒ（ｎ）の電力を最小化するように適応され、これにより、コヒーレント雑音の抑圧が生じる。

補償信号はポストプロセッサ１０７に供給され、ポストプロセッサ１０７は、雑音基準信号ｘ（ｎ）に基づいて補償信号ｒ（ｎ）に対して雑音低減を実行する。詳細には、ポストプロセッサ１０７は、短時間フーリエ変換を使用して補償信号ｒ（ｎ）と雑音基準信号ｘ（ｎ）とを周波数ドメインに変換する。ポストプロセッサ１０７は、次いで、各周波数ビンについて、Ｘ（ω）の振幅スペクトルのスケーリングされたバージョンを減算することによってＲ（ω）の振幅を変更する。得られた複素スペクトルは時間ドメインに変換されて、雑音が抑圧された出力信号ｑ（ｎ）をもたらす。スペクトル減算のこの技法は、最初に、Ｓ．Ｆ．Ｂｏｌｌ、「ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅｉｎＳｐｅｅｃｈｕｓｉｎｇＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２７、１１３～１２０頁、１９７９年４月に記載された。

図１のシステムは、多くのシナリオにおいて極めて効率的な動作及び有利な性能を与えるが、それは、すべてのシナリオにおいて最適であるとは限らない。実際、図１の例を含む多くの従来のシステムが、所望のオーディオソース／スピーカー（ｓｐｅａｋｅｒ）がマイクロフォンアレイの残響半径内にあるとき、すなわち、所望のオーディオソースの直接エネルギーが所望のオーディオソースの反射のエネルギーよりも（好ましくは著しく）強い適用例について、極めて良好な性能を与えるが、そうでない場合は、最適でない結果を与える傾向がある。一般的な環境において、一般にマイクロフォンアレイの１～１．５メートル内にスピーカーがあるべきであることがわかっている。

しかしながら、ユーザがマイクロフォンアレイからより離れた距離にある場合のオーディオベースハンズフリー解決策、適用例、及びシステムに対する強い要望がある。これは、たとえば、多くの通信システム及び適用例と、多くのボイス制御システム及び適用例の両方について望まれる。そのような状況のための残響除去及び雑音抑圧を含むスピーチ強調を与えるシステムは、スーパーハンズフリーシステムと呼ばれる分野にある。

より詳細には、追加の拡散雑音と残響半径外の所望のスピーカーとを扱うとき、以下の問題が生じる。
・ビームフォーマは、所望のスピーチのエコーと拡散背景雑音との区別の問題をしばしば有し、これがスピーチひずみを生じる。
・適応ビームフォーマは、所望のスピーカーのほうへ遅く収束する。適応ビームがまだ収束していない時間中に、基準信号においてスピーチ漏れがあり、この基準信号が非定常雑音抑圧及びキャンセルのために使用される場合、スピーチひずみを生じる。交互に話す、より多くの所望のソースがあるとき、問題は増加する。

（背景雑音のため）遅く収束する適応フィルタを扱うための解決策は、図２に示されているように異なる方向に照準を定められているいくつかの固定ビームでこれを補うことである。ただし、この手法は、特に、所望のオーディオソースが残響半径内に存在するシナリオのために開発される。それは、残響半径外のオーディオソースについてあまり効率的でなく、そのような場合、特に音響拡散背景雑音もある場合、しばしば、非ロバストな解決策につながる。

これは、以下のように理解され得る。すなわち、所望のオーディオソースが残響半径外にある場合、直接音場のエネルギーは、反射から生み出された拡散音場のエネルギーと比較して小さい。拡散背景雑音もある場合、直接音場対拡散音場比はさらに劣化する。異なるビームのエネルギーはほぼ同じであり、したがって、これは、ビームフォーマを制御するための好適なパラメータを与えない。同じ理由で、到来方向（ＤＯＡ）を測定することに基づくシステムはロバストでない。すなわち、直接場の低いエネルギーにより、信号を相互相関させることは、鋭い明確なピークを与えず、大きい誤差を生じる。検出器をよりロバストにすることにより、しばしば、所望のオーディオソースが検出されなくなり、非集束ビームにつながる。一般的な結果は、雑音基準におけるスピーチ漏れであり、雑音基準信号に基づいて１次信号における雑音を低減することが試みられた場合、深刻なひずみが生じる。

したがって、改善されたオーディオキャプチャ手法が有利であり、特に、複雑さの低減、フレキシビリティの増加、実施の容易さ、コストの低減、オーディオキャプチャの改善、残響半径外のオーディオをキャプチャすることに対する適合性の改善、雑音感度の低減、スピーチキャプチャの改善、及び／又は性能の改善を可能にする手法が有利である。

したがって、本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの１つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。

本発明の一態様によれば、オーディオをキャプチャするための装置が提供され、本装置は、マイクロフォンアレイと、マイクロフォンアレイに結合され、第１のビームフォーミングされたオーディオ出力を生成するように構成された第１のビームフォーマと、マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力を生成するように各々が構成された複数の制約付きビームフォーマと、第１のビームフォーマのビームフォームパラメータを適応させるための第１の適応器と、複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるための第２の適応器と、複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するための差分プロセッサであって、差分測度が、第１のビームフォーマによって形成されたビームと複数の制約付きビームフォーマのうちの少なくとも１つによって形成されたビームとの間の差分を示す、差分プロセッサとを備え、第２の適応器は、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、制約付きビームフォームパラメータを適応させるように構成される。

本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び／又はオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与えると同時に、新しい所望のオーディオソースへの高速適応を与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のオーディオソースのキャプチャの改善が達成され得る。

いくつかの実施形態では、第１のビームフォーミングされたオーディオ出力及び／又は制約付きのビームフォーミングされたオーディオ出力に応答して、オーディオキャプチャ装置からの出力オーディオ信号が生成される。いくつかの実施形態では、出力オーディオ信号は、制約付きのビームフォーミングされたオーディオ出力の合成として生成され、詳細には、たとえば単一の制約付きのビームフォーミングされたオーディオ出力を選択する選択合成が使用される。

差分測度は、第１のビームフォーマの形成されたビームと、差分測度が生成された制約付きビームフォーマの形成されたビームとの間の差分を反映し、その差分は、たとえば、ビームの方向間の差分として測定される。多くの実施形態では、差分測度は、第１のビームフォーマからのビームフォーミングされたオーディオ出力と制約付きビームフォーマからのビームフォーミングされたオーディオ出力との間の差分を示す。いくつかの実施形態では、差分測度は、第１のビームフォーマのビームフォームフィルタと制約付きビームフォーマのビームフォームフィルタとの間の差分を示す。差分測度は、たとえば、第１のビームフォーマ及び制約付きビームフォーマのビームフォームフィルタの係数のベクトル間の距離として決定された測度など、距離測度である。

類似性測度は、２つの特徴間の類似性に関係する情報を与えることによる類似性測度が、本質的に、これらの間の差分に関係する情報をも与えるという点で差分測度と等価であり、その逆も同様であることが理解されよう。

類似性基準は、たとえば、差分が所与の測度を下回っていることを差分測度が示すという要件を含み、たとえば、増加する差分について増加する値を有する差分測度がしきい値を下回ることが必要とされる。

制約付きビームフォーマは、差分測度が類似性基準を満たす場合のみ適応が実行されるという制約を、適応が受けるという点で、制約される。対照的に、第１のビームフォーマはこの要件を受けない。特に、第１のビームフォーマの適応は、制約付きビームフォーマのいずれにも依存せず、詳細には、これらのビームのビームフォーミングに依存しない。

差分測度がたとえばしきい値を下回ることを必要とするような適応の制限は、適応が、第１のビームフォーマが現在適応されているオーディオソースに近い領域中のオーディオソースに対応するビームを現在形成している制約付きビームフォーマについてのみのものであることに対応すると考えられ得る。

ビームフォーマの適応は、特にフィルタ係数を適応させることによるなど、ビームフォーマのビームフォームフィルタのフィルタパラメータを適応させることによるものである。適応は、所与の適応パラメータを最適化（最大化又は最小化）しようとするもの、たとえば、オーディオソースが検出されるときに出力信号レベルを最大化すること、又は、雑音のみが検出されるときに出力信号レベルを最小化することなどである。適応は、測定されたパラメータを最適化するためにビームフォームフィルタを変更しようとする。

本発明のオプションの特徴によれば、本装置は、第２のビームフォーミングされたオーディオ出力においてポイントオーディオソース（ｐｏｉｎｔａｕｄｉｏｓｏｕｒｃｅ）を検出するためのオーディオソース検出器をさらに備え、第２の適応器は、制約付きのビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在が検出された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。

これは、性能をさらに改善し、たとえばよりロバストな性能を与え、これにより、オーディオキャプチャが改善される。異なる実施形態においてポイントオーディオソースを検出するために異なる基準が使用される。ポイントオーディオソースは、詳細には、マイクロフォンアレイのマイクロフォンのための相関するオーディオソースである。ポイントオーディオソースは、（たとえば制約付きビームフォーマのビームフォームフィルタによるフィルタ処理の後の）マイクロフォンアレイからのマイクロフォン信号間の相関が所与のしきい値を超える場合、検出されると考えられる。

本発明のオプションの特徴によれば、オーディオソース検出器は、第１のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するようにさらに構成され、本装置は、ポイントオーディオソースが、第１のビームフォーミングされたオーディオ出力において検出されたが、制約付きのビームフォーミングされたオーディオ出力において検出されなかった場合、第１のビームフォーマのビームフォームパラメータに応答して第１の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するように構成されたコントローラをさらに備える。

これは、性能をさらに改善し、たとえば、多くの実施形態において、新しい所望のポイントオーディオソースのための適応性能の改善を与える。多くの実施形態及びシナリオでは、それは、新しいオーディオソースのより速い又はより確実な検出を可能にする。

本発明のオプションの特徴によれば、コントローラは、第１の制約付きビームフォーマについての差分測度がしきい値を超える場合のみ、第１のビームフォーマのビームフォームパラメータに応答して第１の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するように構成される。

これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。

本発明のオプションの特徴によれば、オーディオソース検出器は、第１のビームフォーミングされたオーディオ出力においてオーディオソースを検出するようにさらに構成され、本装置は、ポイントオーディオソースが、第１のビームフォーミングされたオーディオ出力と、第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力とにおいて検出され、第１の制約付きビームフォーマについてしきい値を超える差分測度が決定された場合、第１のビームフォーマのビームフォームパラメータに応答して第１の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するように構成されたコントローラをさらに備える。

本発明のオプションの特徴によれば、複数の制約付きビームフォーマは、制約付きビームフォーマのプールから選択された制約付きビームフォーマのアクティブサブセットであり、コントローラは、第１のビームフォーマのビームフォームパラメータを使用して制約付きビームフォーマのプールからの制約付きビームフォーマを初期化することによって、第１の制約付きビームフォーマを含めるためにアクティブ制約付きビームフォーマの数を増加させるように構成される。

これは、さらに、性能を改善し、並びに／或いは実施及び／又は動作を容易にする。それは、多くのシナリオにおいて計算リソース要件を低減する。

本発明のオプションの特徴によれば、第２の適応器は、第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力のレベルが、任意の他の第２のビームフォーミングされたオーディオ出力についてのレベルよりも高いという要件と、第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力におけるポイントオーディオソースのレベルが、任意の他の第２のビームフォーミングされたオーディオ出力における任意のポイントオーディオソースよりも高いという要件と、第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件と、第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力がスピーチスピーチ成分を含むという要件とのグループから選択された少なくとも１つの要件を含む基準が満たされた場合のみ、第１の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるようにさらに構成される。

本発明のオプションの特徴によれば、差分プロセッサは、パラメータの第１のセットと第１の制約付きビームフォーマについてのパラメータの制約付きセットとの間の差分と、第１のビームフォーミングされたオーディオ出力と第１の制約付きビームフォーマからの制約付きのビームフォーミングされたオーディオ出力との間の差分とのうちの少なくとも１つを反映するように、第１の制約付きビームフォーマについての差分測度を決定するように構成される。

本発明のオプションの特徴によれば、第１のビームフォーマについての適応レートは、複数の制約付きビームフォーマについての適応レートよりも高い。

これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。特に、それは、システムの全体的性能が、現在のオーディオシナリオへの正確で確実な適応を与えると同時に、（たとえば新しいオーディオソースが出現したときの）これの変化への急速な適応を与えることを可能にする。

本発明のオプションの特徴によれば、第１のビームフォーマと複数の制約付きビームフォーマとは、フィルタ合成（ｆｉｌｔｅｒ－ａｎｄ－ｃｏｍｂｉｎｅ）ビームフォーマである。

フィルタ合成ビームフォーマは、詳細には、複数の係数を有する有限応答フィルタ（ＦＩＲ）の形態のビームフォームフィルタを備える。

本発明のオプションの特徴によれば、第１のビームフォーマは、各々が第１の適応インパルス応答を有する第１の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマであり、複数の制約付きビームフォーマのうちの制約付きビームフォーマである第２のビームフォーマは、各々が第２の適応インパルス応答を有する第２の複数のビームフォームフィルタを含むフィルタ合成ビームフォーマであり、差分プロセッサは、第１の適応インパルス応答と第２の適応インパルス応答との比較に応答して第１のビームフォーマのビームと第２のビームフォーマのビームとの間の差分測度を決定するように構成される。

本手法は、多くのシナリオ及び適用例において、２つのビームフォーマによって形成されたビーム間の差分／類似性の指示の改善を与える。特に、差分測度の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び／又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。

本手法は、（ビームフォーミングされたオーディオ出力なのかマイクロフォン信号なのかにかかわらず）オーディオ信号の特性の感度を低減し、したがって、たとえば雑音に対する感度が低い。多くのシナリオでは、差分測度は、より高速に、たとえば、いくつかのシナリオでは瞬時に生成される。特に、差分測度は、平均化することなしに現在のフィルタパラメータに基づいて生成される。

フィルタ合成ビームフォーマは、各マイクロフォンのためのビームフォームフィルタと、ビームフォーミングされたオーディオ出力信号を生成するためにビームフォームフィルタの出力を合成するための合成器とを備える。合成器は、詳細には、総和ユニットであり、フィルタ合成ビームフォーマは、フィルタ和（ｆｉｌｔｅｒ－ａｎｄ－ｓｕｍ）ビームフォーマである。

ビームフォーマは、適応ビームフォーマであり、適応インパルス応答を適応させる（それにより、マイクロフォンアレイの有効な指向性を適応させる）ための適応機能を備える。

差分測度は、類似性測度と等価である。

いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの各マイクロフォンについて、マイクロフォンのための第１の適応インパルス応答と第２の適応インパルス応答との間の相関を決定し、マイクロフォンアレイの各マイクロフォンについての相関の合成に応答して差分測度を決定するように構成される。

これは、過度の複雑さを必要とすることなしに、特に有利な差分測度を与える。

いくつかの実施形態では、差分プロセッサは、第１の適応インパルス応答の周波数ドメイン表現と第２の適応インパルス応答の周波数ドメイン表現とを決定し、第１の適応インパルス応答の周波数ドメイン表現と第２の適応インパルス応答の周波数ドメイン表現とに応答して差分測度を決定するように構成される。

これは、さらに、性能を改善し、及び／又は動作を容易にする。それは、多くの実施形態では、差分測度の決定を容易にする。いくつかの実施形態では、適応インパルス応答は周波数ドメインにおいて与えられ、周波数ドメイン表現は容易に利用可能である。しかしながら、たいていの実施形態では、適応インパルス応答は、たとえばＦＩＲフィルタの係数によって、時間ドメインにおいて与えられ、差分プロセッサは、周波数表現を生成するために、たとえば離散フーリエ変換（ＤＦＴ）を時間ドメインインパルス応答に適用するように構成される。

いくつかの実施形態では、差分プロセッサは、周波数ドメイン表現の周波数についての周波数差分測度を決定し、周波数ドメイン表現の周波数についての周波数差分測度に応答して差分測度を決定するように構成され、差分プロセッサは、第１の周波数ドメイン係数と第２の周波数ドメイン係数とに応答して第１の周波数及びマイクロフォンアレイの第１のマイクロフォンについての周波数差分測度を決定するように構成され、第１の周波数ドメイン係数は、第１のマイクロフォンのための第１の適応インパルス応答についての第１の周波数についての周波数ドメイン係数であり、第２の周波数ドメイン係数は、第１のマイクロフォンのための第２の適応インパルス応答についての第１の周波数についての周波数ドメイン係数であり、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての周波数差分測度の合成に応答して第１の周波数についての周波数差分測度を決定するようにさらに構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。

周波数ω及びマイクロフォンｍについての第１の周波数成分及び第２の周波数成分を、それぞれＦ_１ｍ（ｅ^ｊω）及びＦ_２ｍ（ｅ^ｊω）として示すと、周波数ω及びマイクロフォンｍについての周波数差分測度は、次のように決定される。
Ｓ_ω，ｍ＝ｆ_１（Ｆ_１ｍ（ｅ^ｊω），Ｆ_２ｍ（ｅ^ｊω））

マイクロフォンアレイの複数のマイクロフォンについての周波数ωについての（合成された）周波数差分測度は、異なるマイクロフォンについての値を合成することによって決定される。たとえば、Ｍ個のマイクロフォンにわたる単純な総和の場合、以下の通りである。

次いで、全体的差分測度が、個々の周波数差分測度を合成することによって決定される。たとえば、周波数依存合成が適用される。

ここで、ｗ（ｅ^ｊω）は、好適な周波数重み付け関数である。

いくつかの実施形態では、差分プロセッサは、第１の周波数ドメイン係数と第２の周波数ドメイン係数の共役との乗算に応答して第１の周波数及び第１のマイクロフォンについての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。いくつかの実施形態では、周波数ω及びマイクロフォンｍについての周波数差分測度は、次のように決定される。

いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成の実数部に応答して第１の周波数についての周波数差分測度を決定するように構成される。

いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成のノルムに応答して第１の周波数についての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。ノルムは、詳細にはＬ１ノルムである。

いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数ドメイン係数の和についてのＬ２ノルムの関数と第２の周波数ドメイン係数の和についてのＬ２ノルムの関数との和に対する、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成の実数部及びノルムのうちの少なくとも１つに応答して第１の周波数についての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。単調関数は、詳細には２乗関数である。

いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数ドメイン係数の和についてのＬ２ノルムの関数と第２の周波数ドメイン係数の和についてのＬ２ノルムの関数との積に対する、マイクロフォンアレイの複数のマイクロフォンについての第１の周波数についての周波数差分測度の合成のノルムに応答して第１の周波数についての周波数差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。単調関数は、詳細には絶対値関数である。

いくつかの実施形態では、差分プロセッサは、周波数差分測度の周波数選択性重み付き和として差分測度を決定するように構成される。

これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。特に、それは、スピーチ周波数の強調など、特に知覚的に有意な周波数の強調を与える。

いくつかの実施形態では、第１の複数のビームフォームフィルタと第２の複数のビームフォームフィルタとは、複数の係数を有する有限インパルス応答フィルタである。

これは、多くの実施形態において効率的な動作及び実施を与える。

本発明のオプションの特徴によれば、本装置は、ビームフォーミングされたオーディオ出力信号と少なくとも１つの雑音基準信号とを生成するように構成された雑音基準ビームフォーマであって、第１のビームフォーマ及び複数の制約付きビームフォーマのうちの一方である、雑音基準ビームフォーマと、ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するための第１の変換器であって、第１の周波数ドメイン信号が時間周波数タイル値によって表される、第１の変換器と、少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するための第２の変換器であって、第２の周波数ドメイン信号が時間周波数タイル値によって表される、第２の変換器と、時間周波数タイル差分測度を生成するように構成された差分プロセッサであって、第１の周波数についての時間周波数タイル差分測度が、第１の周波数についての第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と第１の周波数についての第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す、差分プロセッサと、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するためのポイントオーディオソース推定器であって、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成するように構成された、ポイントオーディオソース推定器とを備える。

本手法は、多くのシナリオ及び適用例において、ポイントオーディオソース推定値／検出の改善を与える。特に、推定値の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び／又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。より離れた距離にある、特に残響半径外のポイントオーディオソースのための検出の改善が、しばしば達成され得る。

ビームフォーマは、ビームフォームフィルタの適応インパルス応答を適応させる（それにより、マイクロフォンアレイの有効な指向性を適応させる）ための適応機能を備える適応ビームフォーマである。

第１の単調関数と第２の単調関数とは、一般に、両方とも単調増加関数であるが、いくつかの実施形態では、両方とも単調減少関数である。

ノルムは、一般に、Ｌ１ノルム又はＬ２ノルムであり、すなわち、詳細には、ノルムは、時間周波数タイル値についての大きさ又は電力測度に対応する。

時間周波数タイルは、詳細には、１つの時間セグメント／フレーム中の周波数変換の１つのビンに対応する。詳細には、第１の変換器と第２の変換器とは、第１及び第２の信号の連続するセグメントを変換するためにブロック処理を使用する。時間周波数タイルは、１つのセグメント／フレーム中の変換ビンのセット（一般に１つ）に対応する。

少なくとも１つのビームフォーマは２つのビームフォーマを備え、一方が、ビームフォーミングされたオーディオ出力信号を生成し、他方が雑音基準信号を生成する。２つのビームフォーマは、マイクロフォンアレイのマイクロフォンの、異なる、潜在的に独立のセットに結合される。実際、いくつかの実施形態では、マイクロフォンアレイは、異なるビームフォーマに結合された２つの別個のサブアレイを備える。サブアレイ（及び場合によってはビームフォーマ）は、異なる位置にあり、潜在的に互いから離れたところにある。詳細には、サブアレイ（及び場合によってはビームフォーマ）は、異なるデバイス中にある。

本発明のいくつかの実施形態では、アレイ中の複数のマイクロフォンのサブセットのみが、ビームフォーマに結合される。

いくつかの実施形態では、ポイントオーディオソース推定器は、合成された差分値がしきい値を超えることに応答して、ビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在を検出するように構成される。

本手法は、一般に、ビームフォーマのための、特に、直接場が支配的でない、残響半径外のポイントオーディオソースを検出するための、ポイントオーディオソース検出の改善を与える。

いくつかの実施形態では、周波数しきい値は５００Ｈｚを下回らない。

これは、性能をさらに改善し、たとえば、多くの実施形態及びシナリオでは、ポイントオーディオソース推定値を決定する際に使用されるビームフォーミングされたオーディオ出力信号値と雑音基準信号値との間の十分な又は改善された無相関化が達成されることを保証する。いくつかの実施形態では、周波数しきい値は、有利には、１ｋＨｚ、１．５ｋＨｚ、２ｋＨｚ、３ｋＨｚ、さらには４ｋＨｚを下回らない。

いくつかの実施形態では、差分プロセッサは、ビームフォーミングされたオーディオ出力信号の振幅と少なくとも１つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成するように構成され、第１の単調関数及び第２の単調関数のうちの少なくとも１つが雑音コヒーレンス推定値に依存する。

これは、性能をさらに改善し、詳細には、多くの実施形態において、特に、より小さいマイクロフォン間距離をもつマイクロフォンアレイのための性能の改善を与える。

雑音コヒーレンス推定値は、詳細には、アクティブなポイントオーディオソースがないときの（たとえば、スピーチのない時間期間中の、すなわち、スピーチソースが非アクティブであるときの）ビームフォーミングされたオーディオ出力信号の振幅と雑音基準信号の振幅との間の相関の推定値である。雑音コヒーレンス推定値は、いくつかの実施形態では、ビームフォーミングされたオーディオ出力信号及び雑音基準信号、並びに／又は第１及び第２の周波数ドメイン信号に基づいて決定される。いくつかの実施形態では、雑音コヒーレンス推定値は、別個の較正又は測定プロセスに基づいて生成される。

いくつかの実施形態では、差分プロセッサは、雑音コヒーレンス推定値に応答して、第１の周波数についての第２の周波数ドメイン信号の時間周波数タイル値のノルムに対して第１の周波数についての第１の周波数ドメイン信号の時間周波数タイル値のノルムをスケーリングするように構成される。

これは、性能をさらに改善し、詳細には、多くの実施形態において、ポイントオーディオソース推定値の精度の改善を与える。それは、さらに低複雑度実施を可能にする。

いくつかの実施形態では、差分プロセッサは、実質的に次のように、周波数ω_ｌにおける時間ｔ_ｋについての時間周波数タイル差分測度を生成するように構成される。
ｄ＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜－γＣ（ｔ_ｋ，ω_ｌ）｜Ｘ（ｔ_ｋ，ω_ｌ）｜
ここで、Ｚ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおけるビームフォーミングされたオーディオ出力信号についての時間周波数タイル値であり、Ｘ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおける少なくとも１つの雑音基準信号についての時間周波数タイル値であり、Ｃ（ｔ_ｋ，ω_ｌ）は、周波数ω_ｌにおける時間ｔ_ｋにおける雑音コヒーレンス推定値であり、γは設計パラメータである。

これは、多くのシナリオ及び実施形態において、特に有利なポイントオーディオソース推定値を与える。

いくつかの実施形態では、差分プロセッサは、ビームフォーミングされたオーディオ出力信号の時間周波数タイル値及び少なくとも１つの雑音基準信号の時間周波数タイル値のうちの少なくとも１つをフィルタ処理するように構成される。

これは、ポイントオーディオソース推定値の改善を与える。フィルタ処理は、たとえば平均化などの低域フィルタ処理である。

いくつかの実施形態では、フィルタは、周波数方向と時間方向との両方である。

これは、ポイントオーディオソース推定値の改善を与える。差分プロセッサは、複数の時間周波数タイルにわたって時間周波数タイル値をフィルタ処理するように構成され、フィルタ処理は、時間と周波数との両方において異なる時間周波数タイルを含む。

本発明の一態様によれば、オーディオをキャプチャする方法が提供され、本方法は、マイクロフォンアレイに結合された第１のビームフォーマが、第１のビームフォーミングされたオーディオ出力を生成するステップと、マイクロフォンアレイに結合された複数の制約付きビームフォーマが、制約付きのビームフォーミングされたオーディオ出力を生成するステップと、第１のビームフォーマのビームフォームパラメータを適応させるステップと、複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるステップと、複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するステップであって、差分測度が、第１のビームフォーマによって形成されたビームと複数の制約付きビームフォーマのうちの少なくとも１つによって形成されたビームとの間の差分を示す、決定するステップとを有し、制約付きビームフォームパラメータを適応させるステップは、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、制約付きビームフォームパラメータを適応させるステップを有する。

本発明のこれら及び他の態様、特徴及び利点は、以下で説明される（１つ又は複数の）実施形態から明らかになり、それらに関して解明されるであろう。

本発明の実施形態が、図面を参照しながら単に例として説明される。

ビームフォーミングオーディオキャプチャシステムの要素の一例を示す図である。オーディオキャプチャシステムによって形成された複数のビームの一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の制約付きビームフォーマを適応させる手法のためのフローチャートの一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。フィルタ和ビームフォーマの要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。周波数ドメイン変換器の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置のための差分プロセッサの要素の一例を示す図である。

以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。

図３は、本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す。

オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ３０１を備える。本例では、マイクロフォンアレイ３０１はオプションのエコーキャンセラ３０３に結合され、エコーキャンセラ３０３は、（１つ又は複数の）マイクロフォン信号におけるエコーに線形的に関係する（基準信号が利用可能である）音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。

エコーキャンセラ３０３はオプションであり、多くの実施形態において簡単に省略されることが理解されよう。

マイクロフォンアレイ３０１は、一般に、直接、又はエコーキャンセラ３０３を介して（並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して）のいずれかで第１のビームフォーマ３０５に結合される。

第１のビームフォーマ３０５は、マイクロフォンアレイ３０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ３０１からの信号を合成するように構成される。したがって、第１のビームフォーマ３０５は、第１のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ３０５は適応ビームフォーマであり、その指向性は、第１のビームフォーマ３０５のビームフォーム動作の、第１のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。

第１のビームフォーマ３０５は第１の適応器３０７に結合され、第１の適応器３０７は、第１のビームフォームパラメータを適応させるように構成される。したがって、第１の適応器３０７は、ビームがステアリングされ得るように第１のビームフォーマ３０５のパラメータを適応させるように構成される。

さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ３０９、３１１を備え、制約付きビームフォーマ３０９、３１１の各々が、マイクロフォンアレイ３０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ３０１からの信号を合成するように構成される。したがって、制約付きビームフォーマ３０９、３１１の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ３０５と同様に、制約付きビームフォーマ３０９、３１１は、各制約付きビームフォーマ３０９、３１１の指向性が、制約付きビームフォーマ３０９、３１１の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。

したがって、オーディオキャプチャ装置は、第２の適応器３１３を備え、第２の適応器３１３は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させ、それにより、これらによって形成されたビームを適応させるように構成される。

したがって、第１のビームフォーマ３０５と制約付きビームフォーマ３０９、３１１の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ３０５、３０９、３１１は、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

たいていの実施形態では、ビームフォームフィルタの各々は、（単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する）単純なディラックパルスではない時間ドメインインパルス応答を有し、むしろ、一般に２ミリ秒、５ミリ秒、１０ミリ秒、さらには３０ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する。

インパルス応答は、しばしば、複数の係数をもつＦＩＲ（有限インパルス応答）フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、第１の適応器３０７と第２の適応器３１３とは、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、ＦＩＲフィルタは、固定時間オフセット（一般にサンプル時間オフセット）に対応する係数を有し、適応器３０７、３１３は、係数値を適応させるように構成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数（たとえば、２つ又は３つのみ）を有するが、これらのタイミングは（も）適応可能である。

単純な可変遅延（又は単純な周波数ドメイン利得／位相調整）であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ３０５、３０９、３１１が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ３０５、３０９、３１１が、一般に反射に対応するさらなる信号経路を含むように適応されることを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び／又は残響環境における性能の改善、並びに／或いは、マイクロフォンアレイ３０１から離れているオーディオソースのための性能の改善を可能にする。

異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、適応器３０７、３１３は、ビームフォーマの出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。そのような手法のさらなる詳細は、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において見つけられ得る。

米国特許第７１４６０１２号及び米国特許第７６０２９２６号のものなどの手法は、ビームフォーマからのオーディオソース信号ｚ（ｎ）と（１つ又は複数の）雑音基準信号ｘ（ｎ）の両方に基づく適応に基づくことに留意されたい。同じ手法が図３のシステムのために使用されることが理解されよう。

第１のビームフォーマ３０５と制約付きビームフォーマ３０９、３１１とは、詳細には、図１に示され、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において開示されたビームフォーマに対応するビームフォーマである。

多くの実施形態では、第１のビームフォーマ３０５及び制約付きビームフォーマ３０９、３１１の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のＦＩＲフィルタ構造を有するなどである。

しかしながら、第１のビームフォーマ３０５及び制約付きビームフォーマ３０９、３１１の動作及びパラメータは異なり、特に、制約付きビームフォーマ３０９、３１１は、第１のビームフォーマ３０５が制約されないやり方で制約される。詳細には、制約付きビームフォーマ３０９、３１１の適応は、第１のビームフォーマ３０５の適応とは異なり、詳細には、いくつかの制約を受ける。

詳細には、制約付きビームフォーマ３０９、３１１は、適応（ビームフォームフィルタパラメータの更新）が、基準が満たされるときの状況に制約されるという制約を受けるが、第１のビームフォーマ３０５は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第１の適応器３０７は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第１のビームフォーマ３０５によってキャプチャされたオーディオの（又は制約付きビームフォーマ３０９、３１１のいずれかの）特性によって制約されない。

制約付きビームフォーマ３０９、３１１を適応させるための基準は、後でより詳細に説明される。

多くの実施形態では、第１のビームフォーマ３０５についての適応レートは、制約付きビームフォーマ３０９、３１１についての適応レートよりも高い。したがって、多くの実施形態では、第１の適応器３０７は、第２の適応器３１３よりも高速に変動に適応するように構成され、したがって、第１のビームフォーマ３０５は、制約付きビームフォーマ３０９、３１１よりも高速に更新される。これは、たとえば、最大化又は最小化されている値（たとえば、出力信号の信号レベル又は誤差信号の大きさ）の低域フィルタ処理が、第１のビームフォーマ３０５について、制約付きビームフォーマ３０９、３１１についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ（詳細には、ビームフォームフィルタ係数）の更新ごとの最大変化は、第１のビームフォーマ３０５について、制約付きビームフォーマ３０９、３１１よりも高い。

したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束（適応制約付き）ビームフォーマが、この制約を受けない、自走する（ｆｒｅｅｒｕｎｎｉｎｇ）より高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。

図３のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。

第１のビームフォーマ３０５と制約付きビームフォーマ３０９、３１１とは、出力プロセッサ３１５に結合され、出力プロセッサ３１５は、ビームフォーマ３０５、３０９、３１１から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ３０５、３０９、３１１からのオーディオ出力信号にある。

多くの実施形態では、出力プロセッサ３１５からの出力信号は、ビームフォーマ３０５、３０９、３１１からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。

したがって、出力プロセッサ３１５の出力選択及び後処理は、特定用途向けであり、及び／又は、異なる実装形態／実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る（たとえば、最も強いスピーカーが選択される）などである。

ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。

通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、（たとえば出力プロセッサ３１５によって）オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

図３のシステムでは、第１のビームフォーマ３０５と制約付きビームフォーマ３０９、３１１との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。

この目的で、オーディオキャプチャ装置は、差分プロセッサ３１７を備え、差分プロセッサ３１７は、制約付きビームフォーマ３０９、３１１のうちの１つ又は複数と第１のビームフォーマ３０５との間の差分測度を決定するように構成される。差分測度は、第１のビームフォーマ３０５及び制約付きビームフォーマ３０９、３１１それぞれによって形成されたビーム間の差分を示す。したがって、第１の制約付きビームフォーマ３０９についての差分測度は、第１のビームフォーマ３０５によって形成されるビームと第１の制約付きビームフォーマ３０９によって形成されるビームとの間の差分を示す。このようにして、差分測度は、２つのビームフォーマ３０５、３０９がどのくらい密接に同じオーディオソースに適応されるかを示す。

異なる実施形態及び適用例では異なる差分測度が使用される。

いくつかの実施形態では、差分測度は、異なるビームフォーマ３０５、３０９、３１１からの生成されたビームフォーミングされたオーディオ出力に基づいて決定される。一例として、単純な差分測度は、単に、第１のビームフォーマ３０５及び第１の制約付きビームフォーマ３０９の出力の信号レベルを測定し、これらを互いに比較することによって生成される。信号レベルが互いに近くなるほど、差分測度は低くなる（一般に、差分測度はまた、たとえば第１のビームフォーマ３０５の実際の信号レベルの関数として増加する）。

より好適な差分測度が、多くの実施形態では、第１のビームフォーマ３０５及び第１の制約付きビームフォーマ３０９からのビームフォーミングされたオーディオ出力間の相関を決定することによって生成される。相関値が高くなるほど、差分測度は低くなる。

代替又は追加として、差分測度は、第１のビームフォーマ３０５のビームフォームパラメータと第１の制約付きビームフォーマ３０９のビームフォームパラメータとの比較に基づいて決定される。たとえば、所与のマイクロフォンについての第１のビームフォーマ３０５のビームフォームフィルタ及び第１の制約付きビームフォーマ３０９のビームフォームフィルタの係数は、２つのベクトルによって表される。次いで、これらの２つのベクトルの差分ベクトルの大きさが計算される。プロセスはすべてのマイクロフォンについて繰り返され、合成された、又は平均的な大きさが、距離測度として決定され、使用される。したがって、生成された差分測度は、ビームフォームフィルタの係数が第１のビームフォーマ３０５と第１の制約付きビームフォーマ３０９とについてどのくらい異なるかを反映し、これは、ビームについての差分測度として使用される。

したがって、図３のシステムでは、第１のビームフォーマ３０５のビームフォームパラメータと第１の制約付きビームフォーマ３０９のビームフォームパラメータとの間の差分及び／又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。

差分測度を生成すること、決定すること、及び／又は使用することは、類似性測度を生成すること、決定すること、及び／又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、したがって、差分測度は類似性測度でもあり（その逆も同様）、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。

差分プロセッサ３１７は、第２の適応器３１３に結合され、これに差分測度を与える。第２の適応器３１３は、差分測度に応答して制約付きビームフォーマ３０９、３１１を適応させるように構成される。詳細には、第２の適応器３１３は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。したがって、所与の制約付きビームフォーマ３０９、３１１についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ３０９、３１１についての決定された差分測度が、第１のビームフォーマ３０５のビームと所与の制約付きビームフォーマ３０９、３１１のビームとが十分に類似していないことを示す場合、適応は実行されない。

したがって、図３のオーディオキャプチャ装置では、制約付きビームフォーマ３０９、３１１は、ビームの適応において制約される。詳細には、制約付きビームフォーマ３０９、３１１は、制約付きビームフォーマ３０９、３１１によって形成された現在のビームが、自走する第１のビームフォーマ３０５が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ３０９、３１１は、第１のビームフォーマ３０５が個々の制約付きビームフォーマ３０９、３１１に十分に近くなるように現在適応されている場合のみ適応される。

これの結果は、制約付きビームフォーマ３０９、３１１の適応が第１のビームフォーマ３０５の動作によって制御され、それにより、効果的に、第１のビームフォーマ３０５によって形成されたビームが、制約付きビームフォーマ３０９、３１１のうちのどちらが最適化／適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ３０９、３１１は、所望のオーディオソースが制約付きビームフォーマ３０９、３１１の現在の適応に近いときのみ適応される傾向がある。

適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。

多くの実施形態では、適応の制約は、さらなる要件を条件とする。

たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。したがって、個々の制約付きビームフォーマ３０９、３１１のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。

異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。

いくつかの実施形態では、制約付きビームフォーマ３０９、３１１の適応は、制約付きビームフォーマ３０９、３１１の出力において、いつスピーチスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。

図３～図５のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。したがって、連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ３０５、３０９、３１１は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ３０９、３１１を選択し、この制約付きビームフォーマ３０９、３１１を更新する／適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、５ミリ秒から５０ミリ秒の間の持続時間を有する。

いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ３０９、３１１の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。

多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力におけるポイントオーディオソースの検出に依存する。したがって、多くの実施形態では、オーディオキャプチャ装置は、図４に示されているようにオーディオソース検出器４０１をさらに備える。

オーディオソース検出器４０１は、詳細には、多くの実施形態において、第２のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するように構成され、したがって、オーディオソース検出器４０１は、制約付きビームフォーマ３０９、３１１に結合され、オーディオソース検出器４０１は、これらから、ビームフォーミングされたオーディオ出力を受信する。

音響におけるオーディオポイントソース（ａｕｄｉｏｐｏｉｎｔｓｏｕｒｃｅ）は、空間におけるポイントから発生する音である。オーディオソース検出器４０１は、所与の制約付きビームフォーマ３０９、３１１からのビームフォーミングされたオーディオ出力においてポイントオーディオソースが存在するかどうかを推定（検出）するために異なるアルゴリズム又は基準を使用し、当業者は様々なそのような手法に気づくことが理解されよう。

手法は、詳細には、マイクロフォンアレイ３０１のマイクロフォンによってキャプチャされた単一の又は支配的なポイントソースの特性を識別することに基づく。単一の又は支配的なポイントソースは、たとえば、マイクロフォン上の信号間の相関を調べることによって検出され得る。高い相関がある場合、支配的なポイントソースが存在すると考えられる。相関が低い場合、支配的なポイントソースがないが、キャプチャされた信号が多くの無相関ソースから発生すると考えられる。したがって、多くの実施形態では、ポイントオーディオソースは、空間的に相関するオーディオソースであると考えられ、ここで、空間的相関は、マイクロフォン信号の相関によって反映される。

この場合は、相関は、ビームフォームフィルタによるフィルタ処理の後に決定される。詳細には、制約付きビームフォーマ３０９、３１１のビームフォームフィルタの出力の相関が決定され、これが所与のしきい値を超える場合、ポイントオーディオソースが検出されたと考えられる。

他の実施形態では、ポイントソースは、ビームフォーミングされたオーディオ出力のコンテンツを評価することによって検出される。たとえば、オーディオソース検出器４０１は、ビームフォーミングされたオーディオ出力を分析し、十分な強度のスピーチスピーチ成分がビームフォーミングされたオーディオ出力において検出された場合、これはポイントオーディオソースに対応すると考えられ、したがって、強いスピーチスピーチ成分の検出はポイントオーディオソースの検出であると考えられる。

検出結果はオーディオソース検出器４０１から第２の適応器３１３に受け渡され、第２の適応器３１３は、これに応答して適応を適応させるように構成される。詳細には、第２の適応器３１３は、ポイントオーディオソースが検出されたことをオーディオソース検出器４０１が示す制約付きビームフォーマ３０９、３１１のみを適応させるように構成される。

したがって、オーディオキャプチャ装置は、形成されたビームにおいてポイントオーディオソースが存在する制約付きビームフォーマ３０９、３１１のみが適応され、その形成されたビームが第１のビームフォーマ３０５によって形成されたビームに近くなるように、制約付きビームフォーマ３０９、３１１の適応を制約するように構成される。したがって、適応は、一般に、すでに（所望の）ポイントオーディオソースに近い制約付きビームフォーマ３０９、３１１に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ３０９、３１１を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。

多くの実施形態では、オーディオキャプチャ装置は、一度に１つの制約付きビームフォーマ３０９、３１１のみを適応させるように構成される。したがって、第２の適応器３１３は、各適応時間間隔において、制約付きビームフォーマ３０９、３１１のうちの１つを選択し、ビームフォームパラメータを更新することによってこれのみを適応させる。

単一の制約付きビームフォーマ３０９、３１１の選択は、一般に、形成された現在のビームが第１のビームフォーマ３０５によって形成されたビームに近い場合、及びポイントオーディオソースがビームにおいて検出された場合のみ適応のために制約付きビームフォーマ３０９、３１１を選択するとき、自動的に行われる。

しかしながら、いくつかの実施形態では、複数の制約付きビームフォーマ３０９、３１１が同時に基準を満たすことが可能である。たとえば、ポイントオーディオソースが、２つの異なる制約付きビームフォーマ３０９、３１１によってカバーされた領域の近くに配置される（又は、たとえば、ポイントオーディオソースがそれらの領域の重複するエリア中にある）場合、ポイントオーディオソースは両方のビームにおいて検出され、これらは両方とも、両方がポイントオーディオソースのほうへ適応されることによって、互いに近くなるように適応される。

したがって、そのような実施形態では、第２の適応器３１３は、２つの基準を満たす制約付きビームフォーマ３０９、３１１のうちの１つを選択し、この１つのみを適応させる。これは、２つのビームが同じポイントオーディオソースのほうへ適応される危険を低減し、したがって、これらの動作が互いに干渉する危険を低減する。

実際、対応する差分測度が十分に低くなければならないという制約の下で制約付きビームフォーマ３０９、３１１を適応させることと、（たとえば、各処理時間間隔／フレームにおける）適応のために単一の制約付きビームフォーマ３０９、３１１のみを選択することとにより、適応は、異なる制約付きビームフォーマ３０９、３１１間で差別化される。これにより、制約付きビームフォーマ３０９、３１１は異なる領域をカバーするように適応され、第１のビームフォーマ３０５によって検出されたオーディオソースを適応させ／それに従うように、最も近い制約付きビームフォーマ３０９、３１１が自動的に選択される傾向がある。しかしながら、たとえば図２の手法とは対照的に、領域は、固定及び所定ではなく、むしろ、動的に及び自動的に形成される。

また、領域は、複数の経路のためのビームフォーミングに依存し、一般に、到来角度方向（ａｎｇｕｌａｒｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ）領域に限定されないことに留意されたい。たとえば、領域は、マイクロフォンアレイまでの距離に基づいて差別化される。したがって、領域という用語は、差分測度についての類似性要件を満たす適応が生じるオーディオソースの空間における位置を指すと考えられる。したがって、それは、直接経路の考慮だけでなく、たとえば、反射が、ビームフォームパラメータにおいて考慮され、特に、空間的側面と時間的側面の両方に基づいて決定される（及び詳細には、ビームフォームフィルタの完全なインパルス応答に依存する）場合、反射の考慮をも含む。

単一の制約付きビームフォーマ３０９、３１１の選択は、詳細には、キャプチャされたオーディオレベルに応答したものである。たとえば、オーディオソース検出器４０１は、基準を満たす制約付きビームフォーマ３０９、３１１からのビームフォーミングされたオーディオ出力の各々のオーディオレベルを決定し、オーディオソース検出器４０１は、最も高いレベルを生じる制約付きビームフォーマ３０９、３１１を選択する。いくつかの実施形態では、オーディオソース検出器４０１は、ビームフォーミングされたオーディオ出力において検出されたポイントオーディオソースが最も高い値を有する制約付きビームフォーマ３０９、３１１を選択する。たとえば、オーディオソース検出器４０１は、２つの制約付きビームフォーマ３０９、３１１からのビームフォーミングされたオーディオ出力においてスピーチスピーチ成分を検出し、続いて、最も高いレベルのスピーチスピーチ成分を有する制約付きビームフォーマを選択する。

本手法では、したがって、制約付きビームフォーマ３０９、３１１の極めて選択的な適応が実行され、それは、これらが特定の状況においてのみ適応することにつながる。これは、制約付きビームフォーマ３０９、３１１による極めてロバストなビームフォーミングを与え、これにより、所望のオーディオソースのキャプチャの改善が生じる。しかしながら、多くのシナリオでは、また、ビームフォーミングにおける制約により、適応性がより低速になり、実際、多くの状況において、新しいオーディオソース（たとえば新しいスピーカー）が、検出されないか、又は極めて低速にのみ適応されることになる。

図５は図４のオーディオキャプチャ装置を示すが、第２の適応器３１３及びオーディオソース検出器４０１に結合されるビームフォーマコントローラ５０１が加えられている。ビームフォーマコントローラ５０１は、いくつかの状況において制約付きビームフォーマ３０９、３１１を初期化するように構成される。詳細には、ビームフォーマコントローラ５０１は、第１のビームフォーマ３０５に応答して制約付きビームフォーマ３０９、３１１を初期化することができ、詳細には、第１のビームフォーマ３０５のビームに対応するビームを形成するために制約付きビームフォーマ３０９、３１１のうちの１つを初期化することができる。

ビームフォーマコントローラ５０１は、詳細には、これ以降第１のビームフォームパラメータと呼ばれる、第１のビームフォーマ３０５のビームフォームパラメータに応答して、制約付きビームフォーマ３０９、３１１のうちの１つのビームフォームパラメータを設定する。いくつかの実施形態では、制約付きビームフォーマ３０９、３１１のフィルタと第１のビームフォーマ３０５のフィルタとは同等であり、たとえば、それらは同じアーキテクチャを有する。特定の例として、制約付きビームフォーマ３０９、３１１のフィルタと第１のビームフォーマ３０５のフィルタの両方は、同じ長さ（すなわち、所与の数の係数）をもつＦＩＲフィルタであり、第１のビームフォーマ３０５のフィルタからの現在適応されている係数値は、単に、制約付きビームフォーマ３０９、３１１にコピーされ、すなわち、制約付きビームフォーマ３０９、３１１の係数は第１のビームフォーマ３０５の値に設定される。このようにして、制約付きビームフォーマ３０９、３１１は、第１のビームフォーマ３０５によって現在適応されているものと同じビーム特性で初期化される。

いくつかの実施形態では、制約付きビームフォーマ３０９、３１１のフィルタの設定は、第１のビームフォーマ３０５のフィルタパラメータから決定されるが、これらを直接使用するのではなく、それらは、適用される前に適応される。たとえば、いくつかの実施形態では、ＦＩＲフィルタの係数は、第１のビームフォーマ３０５のビームよりも広くなる（ただし、たとえば同じ方向に形成される）ように制約付きビームフォーマ３０９、３１１のビームを初期化するために変更される。

ビームフォーマコントローラ５０１は、多くの実施形態において、したがって、いくつかの状況において、第１のビームフォーマ３０５のビームに対応する初期ビームで制約付きビームフォーマ３０９、３１１のうちの１つを初期化する。本システムは、続いて、前に説明されたように制約付きビームフォーマ３０９、３１１を扱い、詳細には、続いて、制約付きビームフォーマ３０９、３１１が前に説明された基準を満たすとき、それを適応させる。

制約付きビームフォーマ３０９、３１１を初期化するための基準は、異なる実施形態において異なる。

多くの実施形態では、ビームフォーマコントローラ５０１は、ポイントオーディオソースの存在が第１のビームフォーミングされたオーディオ出力において検出されるが、制約付きのビームフォーミングされたオーディオ出力において検出されない場合、制約付きビームフォーマ３０９、３１１を初期化するように構成される。

したがって、オーディオソース検出器４０１は、ポイントオーディオソースが、制約付きビームフォーマ３０９、３１１又は第１のビームフォーマ３０５のいずれかからのビームフォーミングされたオーディオ出力のいずれかにおいて存在するかどうかを決定する。各ビームフォーミングされたオーディオ出力についての検出／推定結果は、ビームフォーマコントローラ５０１にフォワーディングされ、ビームフォーマコントローラ５０１はこれを評価する。ポイントオーディオソースが、第１のビームフォーマ３０５についてのみ検出され、制約付きビームフォーマ３０９、３１１のいずれについても検出されない場合、これは、スピーカーなどのポイントオーディオソースが存在し、第１のビームフォーマ３０５によって検出されるが、制約付きビームフォーマ３０９、３１１のいずれもポイントオーディオソースを検出しなかったか、又はポイントオーディオソースに適応されなかった状況を反映する。この場合、制約付きビームフォーマ３０９、３１１は、ポイントオーディオソースに決して適応しない（又は極めて低速にのみ適応する）。したがって、制約付きビームフォーマ３０９、３１１のうちの１つは、ポイントオーディオソースに対応するビームを形成するために初期化される。その後、このビームは、ポイントオーディオソースに十分に近い可能性があり、それは、（一般に低速に、ただし確実に）この新しいポイントオーディオソースに適応する。

したがって、本手法は、高速の第１のビームフォーマ３０５と確実な制約付きビームフォーマ３０９、３１１の両方の有利な効果を合成し、与える。

いくつかの実施形態では、ビームフォーマコントローラ５０１は、制約付きビームフォーマ３０９、３１１についての差分測度がしきい値を超える場合のみ、制約付きビームフォーマ３０９、３１１を初期化するように構成される。詳細には、制約付きビームフォーマ３０９、３１１についての最も低い決定された差分測度がしきい値を下回る場合、初期化は実行されない。そのような状況では、制約付きビームフォーマ３０９、３１１の適応が所望の状況により近いが、第１のビームフォーマ３０５のあまり確実でない適応があまり正確でなく、第１のビームフォーマ３０５により近くなるように適応することが可能である。したがって、差分測度が十分に低いそのようなシナリオでは、システムが自動的に適応することを試みることを可能にすることが有利である。

いくつかの実施形態では、ビームフォーマコントローラ５０１は、詳細には、ポイントオーディオソースが第１のビームフォーマ３０５と制約付きビームフォーマ３０９、３１１のうちの１つとの両方について検出されたが、これらについての差分測度が類似性基準を満たすことができないとき、制約付きビームフォーマ３０９、３１１を初期化するように構成される。詳細には、ビームフォーマコントローラ５０１は、ポイントオーディオソースが第１のビームフォーマ３０５からのビームフォーミングされたオーディオ出力と制約付きビームフォーマ３０９、３１１からのビームフォーミングされたオーディオ出力の両方において検出され、これらについての差分測度がしきい値を超える場合、第１のビームフォーマ３０５のビームフォームパラメータに応答して第１の制約付きビームフォーマ３０９、３１１についてのビームフォームパラメータを設定するように構成される。

そのようなシナリオは、制約付きビームフォーマ３０９、３１１が場合によってはポイントオーディオソースに適応し、ポイントオーディオソースをキャプチャしたが、そのポイントオーディオソースは、第１のビームフォーマ３０５によってキャプチャされたポイントオーディオソースとは異なる状況を反映する。したがって、そのようなシナリオは、詳細には、制約付きビームフォーマ３０９、３１１が「間違った」ポイントオーディオソースをキャプチャしたことを反映する。したがって、制約付きビームフォーマ３０９、３１１は、所望のポイントオーディオソースのほうへビームを形成するために再初期化される。

いくつかの実施形態では、アクティブである制約付きビームフォーマ３０９、３１１の数は、変動している。たとえば、オーディオキャプチャ装置は、潜在的に比較的多数の制約付きビームフォーマ３０９、３１１を形成するための機能を備える。たとえば、オーディオキャプチャ装置は、最高で、たとえば、８つの同時の制約付きビームフォーマ３０９、３１１を実装する。しかしながら、たとえば電力消費及び計算負荷を低減するために、これらのすべてが同時にアクティブであるとは限らない。

したがって、いくつかの実施形態では、制約付きビームフォーマ３０９、３１１のアクティブセットが、ビームフォーマのより大きいプールから選択される。これは、詳細には、制約付きビームフォーマ３０９、３１１が初期化されるときに行われる。したがって、上記で与えられた例では、（たとえば、ポイントオーディオソースが、アクティブな制約付きビームフォーマ３０９、３１１において検出されない場合の）制約付きビームフォーマ３０９、３１１の初期化は、プールからのアクティブでない制約付きビームフォーマ３０９、３１１を初期化し、それにより、アクティブな制約付きビームフォーマ３０９、３１１の数を増加させることによって、達成される。

プール中のすべての制約付きビームフォーマ３０９、３１１が現在アクティブである場合、制約付きビームフォーマ３０９、３１１の初期化は、現在アクティブな制約付きビームフォーマ３０９、３１１を初期化することによって行われる。初期化されるべき制約付きビームフォーマ３０９、３１１は、任意の好適な基準に従って選択される。たとえば、最も大きい差分測度又は最も低い信号レベルを有する制約付きビームフォーマ３０９、３１１が選択される。

いくつかの実施形態では、制約付きビームフォーマ３０９、３１１は、好適な基準が満たされたことに応答して非アクティブ化される。たとえば、制約付きビームフォーマ３０９、３１１は、差分測度が所与のしきい値を上回って増加した場合、非アクティブ化される。

上記で説明された例の多くに従って制約付きビームフォーマ３０９、３１１の適応及び設定を制御するための特定の手法が、図６のフローチャートによって示されている。

本方法は、次の処理時間間隔を初期化すること（たとえば、次の処理時間間隔の開始を待つこと、処理時間間隔のためのサンプルのセットを集めることなど）によって、ステップ６０１において開始する。

ステップ６０１の後にステップ６０３が続き、制約付きビームフォーマ３０９、３１１のビームのいずれかにおいて検出されたポイントオーディオソースがあるかどうかが決定される。

制約付きビームフォーマ３０９、３１１のビームのいずれかにおいて検出されたポイントオーディオソースがある場合、本方法はステップ６０５において続き、差分測度が類似性基準を満たすかどうか、詳細には、差分測度がしきい値を下回るかどうかが決定される。

差分測度が類似性基準を満たす場合、本方法はステップ６０７において続き、ポイントオーディオソースが検出された（又は、ポイントオーディオソースが２つ以上の制約付きビームフォーマ３０９、３１１において検出された場合には最も大きい信号レベルを有する）制約付きビームフォーマ３０９、３１１が適応され、すなわち、ビームフォーム（フィルタ）パラメータが更新される。

差分測度が類似性基準を満たさない場合、本方法はステップ６０９において続き、制約付きビームフォーマ３０９、３１１が初期化され、制約付きビームフォーマ３０９、３１１のビームフォームパラメータは、第１のビームフォーマ３０５のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ３０９、３１１は、新しい制約付きビームフォーマ３０９、３１１（すなわち、非アクティブなビームフォーマのプールからのビームフォーマ）であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ３０９、３１１である。

ステップ６０７及びステップ６０９のいずれかに続いて、本方法はステップ６０１に戻り、次の処理時間間隔を待つ。

ステップ６０３において、ポイントオーディオソースが制約付きビームフォーマ３０９、３１１のいずれかのビームフォーミングされたオーディオ出力において検出されなかったことが検出された場合、本方法はステップ６１１に進み、ポイントオーディオソースが第１のビームフォーマ３０５において検出されたかどうか、すなわち、現在のシナリオが、ポイントオーディオソースが第１のビームフォーマ３０５によってキャプチャされたが制約付きビームフォーマ３０９、３１１のいずれによってもキャプチャされていないことに対応するかどうかが決定される。

ポイントオーディオソースが第１のビームフォーマ３０５において検出されない場合、ポイントオーディオソースはまったく検出されず、本方法はステップ６０１に戻って、次の処理時間間隔を待つ。

他の場合、本方法はステップ６１３に進み、差分測度が類似性基準を満たすかどうか、詳細には、差分測度が（ステップ６０５において使用されるものと同じであるか、又は異なるしきい値／基準である）しきい値を下回るかどうかが決定される。

差分測度が類似性基準を満たす場合、本方法はステップ６１５に進み、差分測度がしきい値を下回る制約付きビームフォーマ３０９、３１１が適応される（又は、２つ以上の制約付きビームフォーマ３０９、３１１が基準を満たす場合、たとえば最も低い差分測度をもつものが選択される）。

他の場合、本方法はステップ６１７に進み、制約付きビームフォーマ３０９、３１１が初期化され、制約付きビームフォーマ３０９、３１１のビームフォームパラメータは、第１のビームフォーマ３０５のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ３０９、３１１は、新しい制約付きビームフォーマ３０９、３１１（すなわち、非アクティブなビームフォーマのプールからのビームフォーマ）であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ３０９、３１１である。

ステップ６１５及びステップ６１７のいずれかに続いて、本方法はステップ６０１に戻り、次の処理時間間隔を待つ。

図３のオーディオキャプチャ装置の説明された手法は、多くのシナリオにおいて有利な性能を与え、特に、オーディオキャプチャ装置が、オーディオソースをキャプチャするために、集束された、ロバストで正確なビームを動的に形成することを可能にする傾向がある。ビームは、異なる領域をカバーするように適応される傾向があり、本手法は、たとえば、最も近い制約付きビームフォーマ３０９、３１１を自動的に選択し、適応させる。

したがって、たとえば図２の手法とは対照的に、ビーム方向又はフィルタ係数に関する特定の制約が直接課される必要がない。むしろ、支配的な単一のオーディオソースがあるとき、及びそれが制約付きビームフォーマ３０９、３１１のビームに十分に近いときのみ、制約付きビームフォーマ３０９、３１１を（条件付きで）適応させることによって、別個の領域が自動的に生成／形成され得る。これは、詳細には、直接場と（第１の）反射の両方を考慮に入れるフィルタ係数を考慮することによって決定され得る。

（単純な遅延フィルタ、すなわち、単一係数フィルタを使用することとは対照的に）拡張インパルス応答をもつフィルタを使用することは、直接場の後ある（特定の）時間が経って反射が到着することをも考慮に入れることに留意されたい。したがって、ビームは、空間的特性（直接場及び反射がどの方向から到着するか）によって決定されるだけでなく、時間的特性（直接場が到着した後のどの時間において反射が到着するか）によっても決定される。したがって、ビームへの言及は、単に空間的考慮事項に制限されるだけでなく、ビームフォームフィルタの時間成分をも反映する。同様に、領域への言及は、ビームフォームフィルタの純粋に空間的な効果と時間的な効果の両方を含む。

したがって、本手法は、第１のビームフォーマ３０５の自走するビームと制約付きビームフォーマ３０９、３１１のビームとの間の距離測度の差分によって決定される領域を形成すると考えられ得る。たとえば、制約付きビームフォーマ３０９、３１１が（空間的特性と時間的特性の両方をもつ）ソースに集束されたビームを有すると仮定する。そのソースが無音であり、新しいソースがアクティブになり、第１のビームフォーマ３０５がこれに集束するように適応すると仮定する。次いで、第１のビームフォーマ３０５のビームと制約付きビームフォーマ３０９、３１１のビームとの間の距離がしきい値を超えないような空間時間的特性をもつあらゆるソースが、制約付きビームフォーマ３０９、３１１の領域中にあると考えられ得る。このようにして、第１の制約付きビームフォーマ３０９に関する制約は、空間における制約に変換されると考えられ得る。

ビームを初期化する（たとえば、ビームフォームフィルタ係数をコピーする）手法とともに、制約付きビームフォーマの適応のための距離基準は、一般に、制約付きビームフォーマ３０９、３１１が異なる領域においてビームを形成することを可能にする。

本手法は、一般に、図２の手法のような所定の固定システムではなく、環境におけるオーディオソースの存在を反映する領域の自動形成を生じる。このフレキシブルな手法は、システムが、反射によって引き起こされるものなど、空間時間的特性に基づくことを可能にし、空間時間的特性は、（これらの特性が、部屋のサイズ、形状及び残響特性など、多くのパラメータに依存するので）所定及び固定システムにとって含むことが極めて困難で複雑である。

以下では、差分測度を決定するための特定の手法が図６を参照しながら説明され、図６は、簡潔及び明快のために、マイクロフォンアレイ３０１と、第１のビームフォーマ３０５と、制約付きビームフォーマ３０９のうちの１つである第２のビームフォーマ３０９と、差分プロセッサ３１７とを示す。第１のビームフォーマ３０５の出力は、第１のビームフォーミングされたオーディオ出力信号と呼ばれ、第２のビームフォーマ３０９の出力は、第２のビームフォーミングされたオーディオ出力信号と呼ばれる。

したがって、第１のビームフォーマ３０３と第２のビームフォーマ３０５とは、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。

詳細には、ビームフォーマ３０５、３０９は、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

たいていの実施形態では、ビームフォームフィルタの各々は、（単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する）単純なディラックパルスでなく、むしろ、一般に２ミリ秒、５ミリ秒、１０ミリ秒、さらには３０ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する、時間ドメインインパルス応答を有する。

インパルス応答は、しばしば、複数の係数をもつＦＩＲ（有限インパルス応答）フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ３０５、３０９は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、ＦＩＲフィルタは、固定時間オフセット（一般にサンプル時間オフセット）に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数（たとえば、２つ又は３つのみ）を有するが、これらのタイミングは（も）適応可能である。

単純な可変遅延（又は単純な周波数ドメイン利得／位相調整）であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ３０５、３０９が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ３０５、３０９が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び／又は残響環境における性能の改善、並びに／或いは、マイクロフォンアレイ３０１から離れているオーディオソースのための性能の改善を可能にする。

詳細には、ビームフォーマ３０５、３０９は、フィルタ合成（特にフィルタ和）ビームフォーマである。図８は、２つのマイクロフォン８０１のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォン８０１はビームフォームフィルタ８０３、８０５に結合され、ビームフォームフィルタ８０３、８０５の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器８０８において加算される。ビームフォームフィルタ８０３、８０５はインパルス応答ｆ１及びｆ２を有し、インパルス応答ｆ１及びｆ２は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは３つ以上のマイクロフォンを備え、図８の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。

第１のビームフォーマ３０３と第２のビームフォーマ３０５とは、（たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号のビームフォーマの場合のように）ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ３０１は３つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ３０５、３０９は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ３０５、３０９は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。

ビームフォーマとビームとを比較するための従来の手法では、ビーム間の類似性は、生成されたオーディオ出力を比較することによって査定される。たとえば、オーディオ出力間の相互相関が生成され、相関の大きさによってその類似性が示される。いくつかのシステムでは、マイクロフォンペアについてのオーディオ信号を相互相関させ、ピークのタイミングに応答してＤｏＡを決定することによって、ＤｏＡが決定される。

図７のシステムでは、差分測度は、単に、ビームフォーマからのビームフォーミングされたオーディオ出力信号であるのか入力マイクロフォン信号であるのかにかかわらず、オーディオ信号の特性又は比較に基づいて決定されるだけでなく、むしろ、図７のオーディオキャプチャ装置の差分プロセッサ３１７は、第１のビームフォーマ３０５のビームフォームフィルタのインパルス応答と第２のビームフォーマ３０９のビームフォームフィルタのインパルス応答との比較に応答して差分測度を決定するように構成される。

図７のシステムでは、第１のビームフォーマ３０５のためのビームフォームフィルタのパラメータは、第２のビームフォーマ３０９のビームフォームフィルタのパラメータと比較される。次いで、これらのパラメータが互いにどのくらい近いかを反映するために差分測度が決定される。詳細には、各マイクロフォンについて、第１のビームフォーマ３０５の対応するビームフォームフィルタと第２のビームフォーマ３０９の対応するビームフォームフィルタとが互いに比較されて、中間差分測度が生成される。次いで、中間差分測度は単一の差分測度に合成され、差分プロセッサ３１７から出力される。

比較されているビームフォームパラメータは、一般に、フィルタ係数である。詳細には、ビームフォームフィルタは、ＦＩＲフィルタ係数のセットによって定義される時間ドメインインパルス応答を有するＦＩＲフィルタである。差分プロセッサ３１７は、フィルタ間の相関を決定することによって第１のビームフォーマ３０５の対応するフィルタと第２のビームフォーマ３０９の対応するフィルタとを比較するように構成される。相関値が最大相関として決定される（すなわち、相関を最大化する時間オフセットについての相関値）。

差分プロセッサ３１７は、次いで、たとえば、単にこれらを一緒に加算することによって、すべてのこれらの個々の相関値を単一の差分測度に合成する。他の実施形態では、たとえば、より大きい係数をより低い係数よりも高く重み付けすることによって、重み付き合成（ｗｅｉｇｈｔｅｄｃｏｍｂｉｎａｔｉｏｎ）が実行される。

そのような差分測度がフィルタの増加する相関について増加する値を有し、したがって、より高い値が差分の増加ではなくビームの類似性の増加を示すことが理解されよう。しかしながら、増加する差分について差分測度が増加することが望まれる実施形態では、単調減少関数が、単に、合成された相関に適用され得る。

オーディオ信号（ビームフォーミングされたオーディオ出力信号又はマイクロフォン信号）に基づくのではなくビームフォームフィルタのインパルス応答の比較に基づく差分測度の決定は、多くのシステム及び適用例において有意な利点を与える。特に、本手法は、一般に、はるかに改善された性能を与え、実際、残響オーディオ環境において適用するのに適しており、特に残響半径外のオーディオソースを含む、より離れた距離にあるオーディオソースに適している。実際、本手法は、オーディオソースからの直接経路が支配的でなく、むしろ、直接経路、及び場合によっては早期反射が、たとえば拡散音場によって支配されるシナリオにおいて、はるかに改善された性能を与える。特に、そのようなシナリオでは、オーディオ信号に基づく差分推定は、音場の空間的及び時間的特性に大きく左右されるが、フィルタベース手法は、フィルタパラメータに基づくビームのより直接的な査定を可能にし、これは、直接音場／経路を反映するだけでなく、（早期反射を考慮に入れるために延長された持続時間を有するインパルス応答により）直接音場／経路及び早期反射も反映するように適応される。

実際、２つのビームフォーマの類似性を推定するための従来のＤｏＡ及びオーディオ信号相関メトリックは、無響環境に基づき、したがって、所望のユーザが（残響半径内の）マイクロフォンに近く、それにより拡散音場のエネルギーが支配する環境においてうまく動作するが、図７の手法は、そのような仮定に基づかず、多くの反射及び／又はかなりの拡散音響雑音の存在下でさえ優れた推定を与える。

他の利点は、差分測度が、現在のビームフォームパラメータに基づいて、詳細には現在のフィルタ係数に基づいて直ちに決定され得ることを含む。たいていの実施形態ではパラメータの平均化の必要がなく、むしろ、適応ビームフォーマの適応速度が追跡挙動を決定する。

特に有利な側面は、比較と差分測度とが、延長された持続時間を有するインパルス応答に基づき得ることである。これは、差分測度が、単に直接経路の遅延又はビームの角度方向を反映することを可能にするのではなく、むしろ、推定された音響室内インパルスの有意な部分、又は実際はすべてが考慮に入れられることを可能にする。したがって、差分測度は、従来の手法の場合のように、単に、マイクロフォン信号によって励起される部分空間に基づくのではない。

いくつかの実施形態では、差分測度は、詳細には、時間ドメインにおいてではなく周波数ドメインにおいてインパルス応答を比較するように構成される。詳細には、差分プロセッサ３１７は、第１のビームフォーマ３０５のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。同様に、差分プロセッサ３１７は、第２のビームフォーマ３０９のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。変換は、詳細には、たとえば高速フーリエ変換（ＦＦＴ）を、第１のビームフォーマ３０５と第２のビームフォーマ３０９の両方のビームフォームフィルタのインパルス応答に適用することによって実行される。

したがって、差分プロセッサ３１７は、第１のビームフォーマ３０５及び第２のビームフォーマ３０９の各フィルタについて、周波数ドメイン係数のセットを生成する。差分プロセッサ３１７は、続いて、周波数表現に基づいて差分測度を決定する。たとえば、マイクロフォンアレイ３０１の各マイクロフォンについて、差分プロセッサ３１７は、２つのビームフォームフィルタの周波数ドメイン係数を比較する。単純な例として、差分プロセッサ３１７は、単に、２つのフィルタについての周波数ドメイン係数ベクトル間の差分として計算された差分ベクトルの大きさを決定する。次いで、個々の周波数について生成された中間差分測度を合成することによって差分測度が決定される。

以下では、差分測度を決定するためのいくつかの特定の及び極めて有利な手法が説明される。本手法は、周波数ドメインにおける適応インパルス応答の比較に基づく。本手法では、差分プロセッサ３１７は、周波数ドメイン表現の周波数についての周波数差分測度を決定するように構成される。詳細には、周波数差分測度は、周波数表現における各周波数について決定される。次いで、これらの個々の周波数差分測度から出力差分測度が生成される。

詳細には、周波数差分測度は、ビームフォームフィルタの各フィルタペアの各周波数フィルタ係数について生成され、ここで、フィルタペアは、同じマイクロフォンのための第１のビームフォーマ３０５及び第２のビームフォーマ３０９それぞれのフィルタを表す。この周波数係数ペアについての周波数差分測度は、２つの係数の関数として生成される。実際、いくつかの実施形態では、係数ペアについての周波数差分測度は、係数間の絶対差分として決定される。

しかしながら、実数値時間ドメイン係数（すなわち、実数値インパルス応答）について、周波数係数は概して複素数値であり、多くの適用例において、係数のペアについての特に有利な周波数差分測度は、第１の周波数ドメイン係数と第２の周波数ドメイン係数の共役との乗算に応答して（すなわち、ペアの一方のフィルタの複素係数と他方のフィルタの複素係数の共役との乗算に応答して）決定される。

したがって、ビームフォームフィルタのインパルス応答の周波数ドメイン表現の各周波数ビンについて、周波数差分測度は、各マイクロフォン／フィルタペアについて生成される。次いで、すべてのマイクロフォンについてこれらのマイクロフォン固有周波数差分測度を合成することによって、たとえば単にそれらを加算することによって、周波数についての合成された周波数差分測度が生成される。

より詳細には、ビームフォーマ３０５、３０９は、各マイクロフォンについて、及び周波数ドメイン表現の各周波数について周波数ドメインフィルタ係数を含む。

第１のビームフォーマ３０５の場合、これらの係数はＦ_１１（ｅ^ｊω）．．．Ｆ_１Ｍ（ｅ^ｊω）と示され、第２のビームフォーマ３０９の場合、それらはＦ_２１（ｅ^ｊω）．．．Ｆ_２Ｍ（ｅ^ｊω）と示され、ここで、Ｍはマイクロフォンの数である。

ある周波数についての及びすべてのマイクロフォンについてのビームフォーム周波数ドメインフィルタ係数の全セットは、第１のビームフォーマ３０５及び第２のビームフォーマ３０９について、それぞれｆ^１及びｆ^２として示される。

この場合、所与の周波数についての周波数差分測度は、次のように決定される。
Ｓ（ω）＝ｆ（ｆ^１，ｆ^２）

同じマイクロフォンに属する複素数値フィルタ係数を乗算することによって、あらゆる周波数について、第１の形態の距離測度を取得し、したがって、

ここで、（・）^＊は複素共役を表す。これは、マイクロフォンｍについての周波数ωについての差分測度として使用される。すべてのマイクロフォンについての合成された周波数差分測度は、これらの和として生成され、すなわち、

２つのフィルタが関係しない場合、すなわち、フィルタの適応された状態、したがって、形成されたビームがまったく異なる場合、この和は０に近いことが予想され、したがって、周波数差分測度は０に近い。しかしながら、フィルタ係数が類似する場合、大きい正値が取得される。フィルタ係数が反対の符号を有する場合、大きい負値が取得される。したがって、生成された周波数差分測度は、この周波数についてのビームフォームフィルタの類似性を示す。

（共役を含む）２つの複素係数の乗算により、複素数値が生じ、多くの実施形態では、これをスカラー値に変換することが望ましい。

特に、多くの実施形態では、所与の周波数についての周波数差分測度は、その周波数についての異なるマイクロフォンについての周波数差分測度の合成の実数部に応答して決定される。

詳細には、合成された周波数差分測度は、次のように決定される。

この測度では、Ｒｅ（Ｓ）に基づく類似性測度は、フィルタ係数が同じであるときは、最大値が達成されることになるが、フィルタ係数が同じであるが反対の符号を有するときは、最小値が達成される。

別の手法は、マイクロフォンについての周波数差分測度の合成のノルムに応答して所与の周波数についての合成された周波数差分測度を決定することである。ノルムは、一般に、有利にはＬ１又はＬ２ノルムである。
たとえば、

いくつかの実施形態では、マイクロフォンアレイ３０１のすべてのマイクロフォンについての合成された周波数差分測度は、したがって、個々のマイクロフォンについての複素数値周波数差分測度の和の振幅又は絶対値として決定される。

多くの実施形態では、差分測度を正規化することが有利である。たとえば、差分測度が［０；１］の間隔内に入るように差分測度を正規化することが有利である。

いくつかの実施形態では、上記で説明された差分測度は、第１のビームフォーマ３０５についての周波数ドメイン係数の和のノルムの単調関数と、第２のビームフォーマ３０９についての周波数ドメイン係数の和についてのノルムの単調関数との和に応答して決定されることによって正規化され、ここで、それらの和は、マイクロフォンにわたるものである。ノルムは有利にはＬ２ノルムであり、単調関数は有利には２乗関数である。

したがって、差分測度は、以下の値に対して正規化される。

上記で説明された第１の手法と組み合わせると、これにより、次のように与えられる合成された周波数差分測度が生じる。

ここで、ｆ^１＝ｆ^２の場合、周波数差分測度が１の値を有し、ｆ^１＝－ｆ^２の場合、周波数差分測度が０の値を有するように、１／２のオフセットが導入される。したがって、０から１の間の差分測度が生成され、ここで、増加する値は低減する差分を示す。増加する差分について増加する値が望まれる場合、これは、単に、以下を決定することによって達成され得ることが理解されよう。

同様に、第２の手法の場合、以下の周波数差分測度が決定され得る。

この場合も、［０；１］の間隔内に入る周波数差分測度が生じる。

別の例として、正規化は、いくつかの実施形態では、周波数ドメイン係数の個々の総和のノルム、詳細にはＬ２ノルムの乗算に基づく。
Ｎ_２（ｆ^１，ｆ^２）＝｜｜ｆ^１｜｜_２・｜｜ｆ^２｜｜_２

これは、特に、多くの適用例において、差分測度の最後の例のための極めて有利な性能を与える（すなわち、係数についてのＬ１ノルムに基づく）。特に、以下の周波数差分測度が使用される。

したがって、特定の周波数差分測度は、次のように決定される。

ここで、〈ａ｜ｂ〉＝（（ａ）^Ｈｂ）^＊は内積であり、

はＬ^２ノルムである。

差分プロセッサ３１７は、次いで、周波数差分測度を第１のビームフォーマ３０５のビームと第２のビームフォーマ３０９のビームとがどのくらい類似しているかを示す単一の差分測度に合成することよって、これらの周波数差分測度から差分測度を生成する。

詳細には、差分測度は、周波数差分測度の周波数選択性重み付き和として決定される。周波数選択性手法は、詳細には、たとえば、たとえばオーディオ範囲又は主要なスピーチ周波数間隔など、特定の周波数範囲が強調されることを可能にする好適な周波数ウィンドウを適用するために有用である。たとえば、ロバストな広帯域差分測度を生成するために（重み付き）平均化が適用される。

詳細には、差分測度は、次のように決定される。

ここで、ｗ（ｅ^ｊω）は、好適な重み付け関数である。

一例として、重み関数ｗ（ｅ^ｊω）は、スピーチがいくつかの周波数帯域において主にアクティブであること、及び／又は、マイクロフォンアレイが比較的低い周波数について低い方向性（ｄｉｒｅｃｔｉｏｎａｌｉｔｙ）を有する傾向があることを考慮に入れるように設計される。

上式は連続周波数ドメインにおいて提示されるが、それらは容易に離散周波数ドメインに変換され得ることが理解されよう。

たとえば、離散時間ドメインフィルタは、最初に、離散フーリエ変換を適用することによって離散周波数ドメインフィルタに変換され、すなわち、０≦ｋ＜Ｋの場合、次のように計算することができる。

ここで、

は、ｍ番目のマイクロフォンのためのｊ番目のビームフォーマの離散時間フィルタ応答を表し、Ｎ_ｆは、時間ドメインフィルタの長さであり、

は、ｍ番目のマイクロフォンのためのｊ番目のビームフォーマの離散周波数ドメインフィルタを表し、Ｋは、一般にＫ＝２Ｎ_ｆとして選定された周波数ドメインビームフォームフィルタの長さである（しばしば時間ドメイン係数と同じ数であるが、これが必ずしも当てはまるとは限らない。たとえば、２^Ｎとは異なる時間ドメイン係数の数の場合、（たとえばＦＦＴを使用する）周波数ドメイン変換を容易にするためにゼロスタッフィングが使用される）。

ベクトルｆ^１及びｆ^２の離散周波数ドメインカウンターパートは、ベクトルＦ^１［ｋ］及びＦ^２［ｋ］であり、ベクトルＦ^１［ｋ］及びＦ^２［ｋ］は、すべてのマイクロフォンについての周波数インデックスｋについての周波数ドメインフィルタ係数を集めてベクトルにすることによって取得される。

その後、たとえば類似性測度ｓ_７（Ｆ^１，Ｆ^２）［ｋ］の計算が、次いで、以下のようにして実行される。

ここでは、

ここで、（・）^＊は複素共役を表す。

最後に、広帯域類似性測度Ｓ_７（Ｆ^１，Ｆ^２）は、重み付け関数ｗ［ｋ］に基づいて、以下のように計算される。

ｗ［ｋ］＝１／Ｋとして重み付け関数を選定することは、０から１の間で有界であり、すべての周波数を等しく重み付けする広帯域類似性測度につながる。

代替重み付け関数は、（たとえば、特定の周波数範囲がスピーチを含んでいる可能性があることにより）特定の周波数範囲に焦点を当てることができる。そのような場合、０から１の間で有界な類似性測度につながる重み付け関数は、次いで、たとえば次のように選定され得る。

ここで、ｋ_１及びｋ_２は、所望の周波数範囲の限界に対応する周波数インデックスである。

導出された差分測度は、異なる実施形態において望ましい異なる特性をもつ特に効率的な性能を与える。特に、決定された値はビーム差分の異なる特性に対する感度が高く、個々の実施形態の選好に応じて、異なる測度が選好される。

実際、差分／類似性測度ｓ_５（ｆ^１，ｆ^２）は、ビームフォーマ間の位相差分、減衰差分、及び方向差分を測定すると考えられ得、ｓ_６（ｆ^１，ｆ^２）は、利得差分及び方向差分のみを考慮に入れる。最後に、差分測度ｓ_７（ｆ^１，ｆ^２）は、方向差分のみを考慮に入れ、位相差分及び減衰差分を無視する。

これらの差分は、ビームフォーマの構造に関する。詳細には、ビームフォーマのフィルタ係数が、Ａ（ｅ^ｊω）として示す共通（周波数依存）因子をすべてのマイクロフォンにわたって共有すると仮定する。この場合、ビームフォーマフィルタ係数は、以下のように分解され得る。

簡略な表記法では、

とする。次に、共通因子Ａ（ｅ^ｊω）の２つのバージョンを考慮する。

第１の場合では、共通因子が、全域通過フィルタとしても知られる（周波数依存）位相シフトのみからなる、すなわち、

と仮定する。第２の場合では、共通因子が周波数ごとの任意の利得及び位相シフトを有すると仮定する。３つの提示された類似性測度は、これらの共通因子を別様に扱う。
・ｓ_５（ｆ^１，ｆ^２）は、ビームフォーマ間の共通振幅及び位相差分に対する感度が高い。
・ｓ_６（ｆ^１，ｆ^２）は、ビームフォーマ間の共通振幅差分に対する感度が高い
・ｓ_７（ｆ^１，ｆ^２）は、共通因子Ａ（ｅ^ｊω）に対する感度が低い

これは、以下の実施例からわかり得る。

この実施例では、ｆ^１＝Ａ（ｅ^ｊω）ｆ^２であるシナリオを考慮し、

は、周波数ごとの任意の位相、すなわち、全域通過フィルタである。

これにより、類似性測度についての以下の結果が生じる。

この実施例では、ｆ^１＝Ｂ（ｅ^ｊω）ｆ^２であるシナリオを考慮し、Ｂ（ｅ^ｊω）は、周波数ごとの任意の利得及び位相である。これにより、類似性測度についての以下の結果が生じる。

多くの実際的実施形態では、ビームフォーマ間の共通利得及び位相差分があり、したがって、差分測度ｓ_７（ｆ^１，ｆ^２）が、多くの実施形態において、特に魅力的な測度を与える。

以下では、ポイントオーディオソース推定値を決定するための特定の手法が、詳細には、ビームフォーマからのビームフォーミングされたオーディオ出力信号においてポイントオーディオソースを検出するためにポイントオーディオソース検出器４０１によって使用され得る。例は第１のビームフォーマ３０５に関して説明されるが、例は制約付きビームフォーマ３０９、３１１のいずれにも等しく適用され得ることが理解されよう。

例は、図９を参照しながら説明され、前に説明されたように、ビームフォーマ３０５がビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成することに基づく。

ビームフォーマ３０５は、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成するように構成される。

ビームフォーマ３０５は、所望のオーディオソースをキャプチャし、これをビームフォーミングされたオーディオ出力信号で表すためにビームフォーミングを適応させるように構成される。ビームフォーマ３０５は、さらに、残りのキャプチャされたオーディオの推定値を与えるために雑音基準信号を生成し、すなわち、それは、所望のオーディオソースの不在下でキャプチャされる雑音を示す。

ビームフォーマ３０５が米国特許第７１４６０１２号及び米国特許第７６０２９２６号に開示されるようなビームフォーマである例では、雑音基準は、たとえば誤差信号を直接使用することによって、前に説明されたように生成される。しかしながら、他の実施形態では他の手法が使用されることが理解されよう。たとえば、いくつかの実施形態では、雑音基準は、生成されたビームフォーミングされたオーディオ出力信号を減じた（たとえば、オムニ指向性）マイクロフォンからのマイクロフォン信号、さらには、この雑音基準マイクロフォンが他のマイクロフォンから遠く離れており、所望のスピーチを含んでいない場合、マイクロフォン信号自体として生成される。別の例として、ビームフォーマ３０５は、ビームの最大値の方向にヌルを有する第２のビームを生成し、ビームフォーミングされたオーディオ出力信号を生成するように構成され、雑音基準は、この補足的ビームによってキャプチャされるオーディオとして生成される。

いくつかの実施形態では、ビームフォーマ３０５は、異なるビームを個々に生成する２つのサブビームフォーマを備える。そのような例では、サブビームフォーマのうちの一方は、ビームフォーミングされたオーディオ出力信号を生成するように構成され、他方のサブビームフォーマは、雑音基準信号を生成するように構成される。たとえば、第１のサブビームフォーマは出力信号を最大化するように構成され、これにより、支配的ソースがキャプチャされることになり、第２のサブビームフォーマは出力レベルを最小化するように構成され、それにより、一般に、支配的ソースのほうへヌルが生成されることになる。したがって、後者のビームフォーミングされた信号は、雑音基準として使用される。

いくつかの実施形態では、２つのサブビームフォーマは、マイクロフォンアレイ３０１の異なるマイクロフォンに結合され、それを使用する。したがって、いくつかの実施形態では、マイクロフォンアレイ３０１は、２つ（又はそれ以上）のマイクロフォンサブアレイによって形成され、２つ（又はそれ以上）のマイクロフォンサブアレイの各々は、異なるサブビームフォーマに結合され、ビームを個々に生成するように構成される。実際、いくつかの実施形態では、サブアレイは、互いから離れたところにさえ配置され、異なる位置からオーディオ環境をキャプチャする。したがって、ビームフォーミングされたオーディオ出力信号は、ある位置にあるマイクロフォンサブアレイから生成され、雑音基準信号は、異なる位置にある（及び一般に異なるデバイス中の）マイクロフォンサブアレイから生成される。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、出力プロセッサ３０６によって、オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

多くの実施形態では、ポイントオーディオソースが、ビームフォーマ３０５によって生成された、ビームフォーミングされたオーディオ出力において存在するかどうかを推定することが望ましく、すなわち、ビームフォーマ３０５が、オーディオソースに適応し、それにより、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを推定することが望ましい。

オーディオポイントソースは、音響において、空間におけるポイントから発生する音のソースであると考えられる。多くの適用例では、たとえば人間の話者など、ポイントオーディオソースを検出及びキャプチャすることが望まれる。いくつかのシナリオでは、そのようなポイントオーディオソースは、音響環境における支配的なオーディオソースであるが、他の実施形態では、これは当てはまらず、すなわち、所望のポイントオーディオソースは、たとえば拡散背景雑音によって支配される。

ポイントオーディオソースは、直接経路音が、強い相関を伴って異なるマイクロフォンに到着する傾向があるという特性を有し、実際、一般に、同じ信号は、経路長の差分に対応する遅延（周波数ドメイン線形位相変動）を伴ってキャプチャされる。したがって、マイクロフォンによってキャプチャされた信号間の相関を考慮するとき、高い相関は支配的なポイントソースを示し、低い相関は、キャプチャされたオーディオが多くの無相関ソースから受信されたことを示す。実際、オーディオ環境におけるポイントオーディオソースは、直接信号成分がマイクロフォン信号についての高い相関を生じるものと考えられ得、実際、ポイントオーディオソースは、空間的に相関するオーディオソースに対応すると考えられ得る。

しかしながら、マイクロフォン信号についての相関を決定することによってポイントオーディオソースの存在を検出しようとすることが可能であるが、これは、不正確であり、最適性能を与えない傾向がある。たとえば、ポイントオーディオソース（実際、直接経路成分）が支配的でない場合、検出は、不正確である傾向がある。したがって、本手法は、たとえば、マイクロフォンアレイから遠い（詳細には、残響半径外にある）か、又は、高レベルのたとえば拡散雑音がある、ポイントオーディオソースに適していない。また、そのような手法は、単にポイントオーディオソースが存在するかどうかを示すが、ビームフォーマがそのポイントオーディオソースに適応したかどうかを反映しない。

図９のオーディオキャプチャ装置はポイントオーディオソース検出器４０１を備え、ポイントオーディオソース検出器４０１は、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するように構成される。ポイントオーディオソース検出器４０１は、マイクロフォン信号についての相関を決定しないが、代わりに、ビームフォーマ３０５によって生成された、ビームフォーミングされたオーディオ出力信号及び雑音基準信号に基づいてポイントオーディオソース推定値を決定する。

ポイントオーディオソース検出器４０１は、ビームフォーミングされたオーディオ出力信号に周波数変換を適用することによって第１の周波数ドメイン信号を生成するように構成された第１の変換器９０１を備える。詳細には、ビームフォーミングされたオーディオ出力信号は、時間セグメント／間隔に分割される。各時間セグメント／間隔は、たとえばＦＦＴによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第１の周波数ドメイン信号は周波数ドメインサンプルによって表され、各周波数ドメインサンプルが特定の時間間隔（対応する処理フレーム）と特定の周波数間隔とに対応する。各そのような周波数間隔及び時間間隔は、一般に、時間周波数タイルとして知られるフィールドにある。したがって、第１の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。

ポイントオーディオソース検出器４０１は、雑音基準信号を受信する第２の変換器９０３をさらに備える。第２の変換器９０３は、雑音基準信号に周波数変換を適用することによって第２の周波数ドメイン信号を生成するように構成される。詳細には、雑音基準信号は、時間セグメント／間隔に分割される。各時間セグメント／間隔は、たとえばＦＦＴによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第２の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。

図１０は、第１の変換ユニット９０１及び第２の変換ユニット９０３の可能な実装形態の機能要素の特定の例を示す。本例では、直列並列変換器が２Ｂのサンプルの重複するブロック（フレーム）を生成し、それらは次いで、ハニング窓掛けされ、高速フーリエ変換（ＦＦＴ）によって周波数ドメインに変換される。

ビームフォーミングされたオーディオ出力信号及び雑音基準信号は、以下では、それぞれｚ（ｎ）及びｘ（ｎ）と呼ばれ、第１の周波数ドメイン信号及び第２の周波数ドメイン信号は、ベクトル

及び

によって参照される（各ベクトルは、所与の処理／変換時間セグメント／フレームについてのすべてのＭ周波数タイル値を含む）。

使用するとき、ｚ（ｎ）は雑音及びスピーチを含むと仮定され、ｘ（ｎ）は、理想的には雑音のみを含むと仮定される。さらに、ｚ（ｎ）及びｘ（ｎ）の雑音成分は無相関であると仮定される（それらの成分は、時間的に無相関であると仮定される。ただし、一般に平均振幅間の関係があると仮定され、この関係は、後で説明されるようにコヒーレンス項によって表される）。そのような仮定は、いくつかのシナリオにおいて有効である傾向があり、詳細には、多くの実施形態では、ビームフォーマ３０５は、図１の例の場合のように、適応フィルタを備え、適応フィルタは、雑音基準信号と相関させられるビームフォーミングされたオーディオ出力信号における雑音を減衰又は除去する。

周波数ドメインへの変換の後に、時間周波数値の実数及び虚数成分は、ガウス分布していると仮定される。この仮定は、一般に、たとえば、拡散音場から雑音が発生するシナリオについて、センサー雑音について、及び多くの実際的シナリオにおいて経験されるいくつかの他の雑音ソースについて正確である。

第１の変換器９０１と第２の変換器９０３とは、差分プロセッサ９０５に結合され、差分プロセッサ９０５は、個々のタイル周波数についての時間周波数タイル差分測度を生成するように構成される。詳細には、差分プロセッサ９０５は、ＦＦＴから生じる各周波数ビンについての現在フレームについて、差分測度を生成することができる。差分測度は、ビームフォーミングされたオーディオ出力信号及び雑音基準信号の、すなわち、第１の周波数ドメイン信号及び第２の周波数ドメイン信号の対応する時間周波数タイル値から生成される。

特に、所与の時間周波数タイルについての差分測度は、第１の周波数ドメイン信号の（すなわち、ビームフォーミングされたオーディオ出力信号の）時間周波数タイル値のノルムの第１の単調関数と第２の周波数ドメイン信号（雑音基準信号）の時間周波数タイル値のノルムの第２の単調関数との間の差分を反映するように生成される。第１の単調関数と第２の単調関数とは、同じであるか又は異なる。

ノルムは、一般に、Ｌ１ノルム又はＬ２ノルムである。ここで、多くの実施形態では、時間周波数タイル差分測度は、第１の周波数ドメイン信号の値の大きさ又は電力（ｐｏｗｅｒ）の単調関数と第２の周波数ドメイン信号の値の大きさ又は電力の単調関数との間の差分を反映する差分指示として決定される。

単調関数は、一般に、両方とも単調増加であるが、いくつかの実施形態では、両方とも単調減少である。

異なる実施形態では異なる差分測度が使用されることが理解されよう。たとえば、いくつかの実施形態では、差分測度は、単に、第１の関数の結果及び第２の関数の結果を互いから減算することによって決定される。他の実施形態では、第１の関数の結果及び第２の関数の結果を互いで除算して、差分を示す比などを生成する。

したがって、差分プロセッサ９０５は、各時間周波数タイルについての時間周波数タイル差分測度を生成し、その差分測度は、その周波数におけるビームフォーミングされたオーディオ出力信号及び雑音基準信号それぞれの相対レベルを示す。

差分プロセッサ９０５は、ポイントオーディオソース推定器９０７に結合され、ポイントオーディオソース推定器９０７は、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成する。したがって、ポイントオーディオソース推定器９０７は、所与の周波数超の周波数についての周波数タイル差分測度を合成することによってポイントオーディオソース推定値を生成する。合成は、詳細には、所与のしきい値周波数超のすべての時間周波数タイル差分測度の、総和、又は、たとえば、周波数依存重み付けを含む重み付き合成である。

したがって、ポイントオーディオソース推定値は、所与の周波数超のビームフォーミングされたオーディオ出力信号のレベルと雑音基準信号のレベルとの間の相対周波数固有差分を反映するように生成される。しきい値周波数は、一般に、５００Ｈｚを上回る。

発明者は、そのような測度が、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において含まれるか否かの強い指示を与えることを了解した。実際、発明者は、周波数固有比較が、より高い周波数への制限とともに、実際には、ポイントオーディオソースの存在の指示の改善を与えることを了解した。さらに、発明者は、推定値が、音響環境、及び従来の手法が正確な結果を与えないシナリオにおいて適用するのに適していることを了解した。詳細には、説明される手法は、マイクロフォンアレイ３０１から遠くにあり（及び残響半径外にあり）、強い拡散雑音の存在下にある、非支配的ポイントオーディオソースについてさえ、ポイントオーディオソースの有利で正確な検出を与える。

多くの実施形態では、ポイントオーディオソース推定器９０７は、ポイントオーディオソースが検出されたか否かを単に示すためにポイントオーディオソース推定値を生成するように構成される。詳細には、ポイントオーディオソース推定器９０７は、合成された差分値がしきい値を超える場合、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの存在が検出されたことを示すように構成される。したがって、生成された合成された差分値が、差分が所与のしきい値よりも高いことを示す場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。合成された差分値がしきい値を下回る場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されなかったと考えられる。

したがって、説明された手法は、生成されたビームフォーミングされたオーディオ出力信号がポイントソースを含むか否かの低複雑度検出を与える。

そのような検出が、多くの異なる適用例及びシナリオのために使用され得、実際、多くの異なるやり方で使用され得ることが理解されよう。

たとえば、前述のように、ポイントオーディオソース推定値／検出は、出力オーディオ信号を適応させる際に出力プロセッサ３０６によって使用される。単純な例として、出力は、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において検出されない限り、ミュートされる。別の例として、出力プロセッサ３０６の動作は、ポイントオーディオソース推定値に応答して適応される。たとえば、雑音抑圧は、ポイントオーディオソースが存在する尤度に応じて適応される。

いくつかの実施形態では、ポイントオーディオソース推定値は、単に、オーディオ出力信号とともに出力信号として与えられる。たとえば、スピーチキャプチャシステムでは、ポイントオーディオソースはスピーチ存在推定値であると考えられ、これは、オーディオ信号とともに与えられる。スピーチ認識器が、オーディオ出力信号を与えられ、たとえば、ボイスコマンドを検出するためにスピーチ認識を実行するように構成される。スピーチ認識器は、スピーチソースが存在することをポイントオーディオソース推定値が示すときのみスピーチ認識を実行するように構成される。

以下では、ポイントオーディオソース推定値の極めて有利な決定の特定の例が説明される。

本例では、ビームフォーマ３０５は、前に説明されたように、所望のオーディオソースに集束するように、詳細には、スピーチソースに集束するように適応する。ビームフォーマ３０５は、ソースに集束されるビームフォーミングされたオーディオ出力信号、並びに、他のソースからのオーディオを示す雑音基準信号を与える。ビームフォーミングされたオーディオ出力信号はｚ（ｎ）として示され、雑音基準信号はｘ（ｎ）として示される。ｚ（ｎ）とｘ（ｎ）の両方は、一般に、雑音、詳細には拡散雑音などで汚染される。以下の説明はスピーチ検出に焦点を当てるが、それが概してポイントオーディオソースに適用されることが理解されよう。

Ｚ（ｔ_ｋ，ω_ｌ）を、ビームフォーミングされたオーディオ出力信号に対応する（複素）第１の周波数ドメイン信号とする。この信号は、所望のスピーチ信号Ｚ_ｓ（ｔ_ｋ，ω_ｌ）と、雑音信号Ｚ_ｎ（ｔ_ｋ，ω_ｌ）とからなり、
Ｚ（ｔ_ｋ，ω_ｌ）＝Ｚ_ｓ（ｔ_ｋ，ω_ｌ）＋Ｚ_ｎ（ｔ_ｋ，ω_ｌ）
である。

Ｚ_ｎ（ｔ_ｋ，ω_ｌ）の振幅が知られていた場合、変数ｄを、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜－｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜
のように導出することが可能であり、これは、スピーチ振幅｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜を表す。

第２の周波数ドメイン信号、すなわち、雑音基準信号ｘ（ｎ）の周波数ドメイン表現は、Ｘ_ｎ（ｔ_ｋ，ω_ｌ）によって示される。

ｚ_ｎ（ｎ）とｘ（ｎ）とは、それらが両方とも拡散雑音を表し、等しい分散を伴う（ｚ_ｎ）信号を加算すること又は等しい分散を伴う（ｘ_ｎ）信号を減算することによって取得されるので、等しい分散を有すると仮定され得、結果として、Ｚ_ｎ（ｔ_ｋ，ω_ｌ）及びＸ_ｎ（ｔ_ｋ，ω_ｌ）の実部及び虚部も等しい分散を有することになる。したがって、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜は、上式では｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜によって置換され得る。

スピーチが存在しない（したがって、Ｚ（ｔ_ｋ，ω_ｌ）＝Ｚ_ｎ（ｔ_ｋ，ω_ｌ））場合、これは、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜－｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜
につながり、ここで、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とは、実部及び虚部がガウス分布しており、依存しないので、レイリー分布になる。

２つの確率変数の差分の平均は、平均の差分に等しく、したがって、上記の時間周波数タイル差分測度の平均値は０であり、
Ｅ｛ｄ｝＝０
である。

２つの確率信号の差分の分散は、個々の分散の和に等しく、したがって、
ｖａｒ（ｄ）＝（４－π）σ^２
である。

次に、分散は、（ｔ_ｋ，ω_ｌ）平面におけるＬ個の非依存値にわたって｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とを平均化することによって低減され得、

を与える。

平滑化（低域フィルタ処理）は平均を変更せず、したがって、

である。

２つの確率信号の差分の分散は、個々の分散の和に等しく、

である。

したがって、平均化は、雑音の分散を低減する。

したがって、スピーチが存在しないときの時間周波数タイル差分測度の平均値は、０である。しかしながら、スピーチの存在下では、平均値は増加する。詳細には、スピーチ成分のＬ個の値にわたる平均化は、｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜のすべての要素が正であり、
Ｅ｛｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜｝＞０
であるので、あまり効果がない。

したがって、スピーチが存在するとき、上記の時間周波数タイル差分測度の平均値は０を上回り、

である。

時間周波数タイル差分測度は、１よりも大きい過減算因子γの形態の設計パラメータを適用することによって変更され、

である。

この場合、平均値

は、スピーチが存在しないとき、０を下回る。しかしながら、過減算因子γは、スピーチの存在下での平均値

が０を上回る傾向があるように選択される。

ポイントオーディオソース推定値を生成するために、複数の時間周波数タイルについての時間周波数タイル差分測度は、たとえば単純な総和によって、合成される。さらに、合成は、第１のしきい値を上回る周波数についての時間周波数タイルのみを、場合によっては、第２のしきい値を下回る時間周波数タイルについてのみ、含むように構成される。

詳細には、ポイントオーディオソース推定値は、次のように生成される。

このポイントオーディオソース推定値は、雑音基準信号におけるエネルギーの量に対する、所望のスピーチソースからのビームフォーミングされたオーディオ出力信号におけるエネルギーの量を示す。したがって、それは、スピーチを拡散雑音と区別するための特に有利な測度を与える。詳細には、ｅ（ｔ_ｋ）が正である場合のみ存在することがわかるスピーチソースが考えられる。ｅ（ｔ_ｋ）が負である場合、所望のスピーチソースが見つけられないと考えられる。

決定されたポイントオーディオソース推定値は、ポイントオーディオソース、又は詳細にはスピーチソースが、キャプチャ環境において存在するかどうかを示すだけでなく、詳細には、これが、実際、ビームフォーミングされたオーディオ出力信号において存在するかどうかの指示を与え、すなわち、それが、ビームフォーマ３０５がこのソースに適応したかどうかの指示をも与えることを理解されたい。

実際、ビームフォーマ３０５が所望のスピーカーに完全に集束されたとは限らない場合、スピーチ信号の一部が雑音基準信号ｘ（ｎ）において存在する。米国特許第７１４６０１２号及び米国特許第７６０２９２６号の適応ビームフォーマの場合、マイクロフォン信号における所望のソースのエネルギーの和が、ビームフォーミングされたオーディオ出力信号におけるエネルギーと（１つ又は複数の）雑音基準信号におけるエネルギーとの和に等しいことを示すことが可能である。ビームが完全に集束されたとは限らない場合、ビームフォーミングされたオーディオ出力信号におけるエネルギーは減少し、（１つ又は複数の）雑音基準におけるエネルギーは増加する。これにより、完全に集束されるビームフォーマと比較して、ｅ（ｔ_ｋ）についての有意なより低い値が生じる。このようにして、ロバストな弁別器が実現され得る。

上記の説明は図９のシステムの手法の背景及び利益を例示するが、本手法を損なうことなしに多くの変形及び変更が適用され得ることが理解されよう。

異なる実施形態では、たとえばビームフォーミングされたオーディオ出力信号の大きさと雑音基準信号の大きさとの間の差分を反映する差分測度を決定するために異なる関数及び手法が使用されることが理解されよう。実際、異なるノルムを使用すること又はノルムに異なる関数を適用することは、異なる特性をもつ異なる推定値を与えるが、依然として、所与の時間周波数タイルにおけるビームフォーミングされたオーディオ出力信号と雑音基準信号との間の基本的な差分を示す差分測度を生じる。

したがって、多くの実施形態では、前に説明された特定の手法が特に有利な性能を与えるが、他の実施形態では、適用例の特定の特性に応じて多くの他の関数及び手法が使用される。

より一般的には、差分測度は、
ｄ（ｔ_ｋ，ω_ｌ）＝ｆ_１（｜Ｚ（ｔ_ｋ，ω_ｌ）｜）－ｆ_２（｜Ｘ（ｔ_ｋ，ω_ｌ）｜）
のように計算され、ここで、ｆ_１（ｘ）とｆ_２（ｘ）とは、個々の実施形態の特定の選好及び要件に適している任意の単調関数であるように選択され得る。一般に、関数ｆ_１（ｘ）及びｆ_２（ｘ）は、単調増加又は減少関数である。また、単に大きさを使用するのではなく、他のノルム（たとえば、Ｌ２ノルム）が使用されることが理解されよう。

時間周波数タイル差分測度は、上記の例では、第１の周波数ドメイン信号の大きさ（又は他のノルム）時間周波数タイル値の第１の単調関数ｆ_１（ｘ）と、第２の周波数ドメイン信号の大きさ（又は他のノルム）時間周波数タイル値の第２の単調関数ｆ_２（ｘ）との間の差分を示す。いくつかの実施形態では、第１の単調関数と第２の単調関数とは、異なる関数である。しかしながら、たいていの実施形態では、２つの関数は等しい。

さらに、関数ｆ_１（ｘ）及びｆ_２（ｘ）の一方又は両方は、たとえば、マイクロフォン信号の全体的な平均電力レベル、周波数など、様々な他のパラメータ及び測度に依存する。

多くの実施形態では、関数ｆ_１（ｘ）及びｆ_２（ｘ）の一方又は両方は、たとえば、周波数及び／又は時間次元における他のタイルにわたるＺ（ｔ_ｋ，ω_ｌ）、｜Ｚ（ｔ_ｋ，ω_ｌ）｜、ｆ_１（｜Ｚ（ｔ_ｋ，ω_ｌ）｜）、Ｘ（ｔ_ｋ，ω_ｌ）、｜Ｘ（ｔ_ｋ，ω_ｌ）｜、又はｆ_２（｜Ｘ（ｔ_ｋ，ω_ｌ）｜）のうちの１つ又は複数の平均化（すなわち、ｋ及び／又はｌの変動するインデックスについての値の平均化）による、他の周波数タイルについての信号値に依存する。多くの実施形態では、時間次元と周波数次元の両方において拡張する近傍にわたる平均化が実行される。早期に与えられた特定の差分測度式に基づく特定の例について後で説明するが、対応する手法が、差分測度を決定する他のアルゴリズム又は関数にも適用されることが理解されよう。

差分測度を決定するための可能な関数の例は、たとえば、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜^α－γ・｜Ｘ（ｔ_ｋ，ω_ｌ）｜^β
を含み、ここで、α及びβは、たとえば、

などにおける、一般にα＝βである設計パラメータであり、ここで、σ（ω_ｌ）は、差分測度及びポイントオーディオソース推定値の所望のスペクトル特性を与えるために使用される好適な重み付け関数である。

これらの関数が例にすぎず、距離測度を計算するための多くの他の式及びアルゴリズムが想定され得ることが理解されよう。

上式では、因子γは、差分測度を負値のほうへバイアスするために導入される因子を表す。特定の例は、雑音基準信号時間周波数タイルに適用される単純なスケール因子によってこのバイアスを導入するが、多くの他の手法が可能であることが理解されよう。

実際、負値のほうへのバイアスを与えるために第１の関数ｆ_１（ｘ）及び第２の関数ｆ_２（ｘ）を構成する任意の好適なやり方が使用される。バイアスは、詳細には、前の例の場合のように、スピーチがない場合に負である差分測度の予想される値を生成するバイアスである。実際、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方がランダム雑音のみを含んでいる（たとえば、サンプル値が平均値のあたりで対称的に及びランダムに分布している）場合、差分測度の予想される値は、０ではなく負である。前の特定の例では、これは、スピーチがないときに負値を生じた過減算因子γによって達成された。

説明される考慮事項に基づくポイントオーディオソース検出器４０１の一例が、図１１において与えられる。本例では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とは、第１の変換器９０１及び第２の変換器９０３に与えられ、第１の変換器９０１及び第２の変換器９０３は、対応する第１の周波数ドメイン信号及び第２の周波数ドメイン信号を生成する。

周波数ドメイン信号は、たとえば、たとえば時間ドメイン信号の重複するハニング窓掛けされたブロックの短時間フーリエ変換（ＳＴＦＴ）を算出することによって、生成される。ＳＴＦＴは、概して、時間と周波数の両方の関数であり、２つの引数ｔ_ｋ及びω_ｌによって表され、ｔ_ｋ＝ｋＢは離散時間であり、ここで、ｋはフレームインデックスであり、Ｂはフレームシフトであり、ω_ｌ＝ｌω_０は（離散）周波数であり、ｌは周波数インデックスであり、ω_０は基本周波数間隔を示す。

したがって、この周波数ドメイン変換の後に、長さのベクトル

及び

それぞれによって表された周波数ドメイン信号が与えられる。

周波数ドメイン変換は、特定の例では、大きさユニット（ｍａｇｎｉｔｕｄｅｕｎｉｔ）１１０１、１１０３に供給され、大きさユニット１１０１、１１０３は、２つの信号の大きさを決定及び出力し、すなわち、それらは、値

を生成する。

他の実施形態では、他のノルムが使用され、処理は、単調関数を適用することを含む。

大きさユニット１１０１、１１０３は低域フィルタ１１０５に結合され、低域フィルタ１１０５は、大きさ値を平滑化する。フィルタ処理／平滑化は、時間ドメイン、周波数ドメイン、又は、しばしば有利にはその両方におけるものであり、すなわち、フィルタ処理は、時間次元と周波数次元の両方において拡張する。

フィルタ処理された大きさの信号／ベクトル

及び

は、

及び

とも呼ばれる。

フィルタ１１０５は差分プロセッサ９０５に結合され、差分プロセッサ９０５は、時間周波数タイル差分測度を決定するように構成される。特定の例として、差分プロセッサ９０５は、次のように時間周波数タイル差分測度を生成する。

設計パラメータγ_ｎは、一般に、１．．２の範囲内にある。

差分プロセッサ９０５はポイントオーディオソース推定器９０７に結合され、ポイントオーディオソース推定器９０７は、時間周波数タイル差分測度を供給され、応答して、続いて、これらを合成することによってポイントオーディオソース推定値を決定する。

詳細には、ω_ｌ＝ω_ｌｏｗからω_ｌ＝ω_ｈｉｇｈの間の周波数値についての時間周波数タイル差分測度

の和が、次のように決定される。

いくつかの実施形態では、この値はポイントオーディオソース検出器４０１から出力される。他の実施形態では、決定された値は、しきい値と比較され、たとえば、ポイントオーディオソースが検出されたと考えられるか否かを示す２進値を生成するために使用される。詳細には、値ｅ（ｔ_ｋ）は０のしきい値と比較され、すなわち、値が負である場合は、ポイントオーディオソースが検出されなかったと考えられ、値が正である場合は、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。

本例では、ポイントオーディオソース検出器４０１は、ビームフォーミングされたオーディオ出力信号の大きさ時間周波数タイル値についての、及び雑音基準信号の大きさ時間周波数タイル値についての低域フィルタ処理／平均化を含む。平滑化は、詳細には、隣接値にわたって平均化を実行することによって実行される。たとえば、以下の低域フィルタ処理が第１の周波数ドメイン信号に適用される。

ここで、（Ｎ＝１の場合）Ｗは１／９の重みをもつ３＊３行列である。他の実施形態では、もちろんＮの他の値が使用され得、同様に、異なる時間間隔が使用され得ることが理解されよう。実際、フィルタ処理／平滑化がそれにわたって実行されるサイズは、たとえば周波数に応じて変動している（たとえば、より低い周波数についてよりも大きいカーネルが、より高い周波数について適用される）。

実際、フィルタ処理は、時間方向（考慮される隣接時間フレームの数）と周波数方向（考慮される隣接周波数ビンの数）の両方における好適な拡張を有するカーネルを適用することによって達成され、実際、このようなカーネルのサイズは、たとえば異なる周波数について又は異なる信号特性について変動していることが理解されよう。

また、上式においてＷ（ｍ，ｎ）によって表されるように、異なるカーネルは変動しており、これは、同様に、たとえば異なる周波数についての、又は信号特性に応答する動的変動である。

フィルタ処理は、雑音を低減し、したがってより正確な推定を与えるだけでなく、それは特に、スピーチと雑音との間の差別化をも高める。実際、フィルタ処理は、ポイントオーディオソースに対する影響よりも大幅に大きな影響を雑音に対して有し、これにより、より大きい差分が時間周波数タイル差分測度について生成されることになる。

図１のものなど、ビームフォーマについてのビームフォーミングされたオーディオ出力信号と（１つ又は複数の）雑音基準信号との間の相関は、周波数が増加するにつれて低減することがわかった。したがって、ポイントオーディオソース推定値は、しきい値を上回る周波数についての時間周波数タイル差分測度のみに応答して生成される。これにより、スピーチが存在するとき、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の無相関の増加、したがってより大きい差分が生じる。これにより、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの検出がより正確になる。

多くの実施形態では、５００Ｈｚを下回らない、又は、いくつかの実施形態では、有利には、１ｋＨｚ、さらには２ｋＨｚを下回らない周波数についての時間周波数タイル差分測度のみに基づくようにポイントオーディオソース推定値を限定することによって、有利な性能が見つけられた。

しかしながら、いくつかの適用例又はシナリオでは、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の有意な相関は、比較的高いオーディオ周波数についてさえ残り、実際、いくつかのシナリオでは、オーディオ帯域全体について残る。

実際、理想的な球状等方性拡散雑音場では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とが部分的に相関され、その結果、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜及び｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜の予想される値は等しくなくなり、したがって、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜は｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜と容易に置き換えられ得ない。

これは、理想的な球状等方性拡散雑音場の特性を見ることによって理解され得る。２つのマイクロフォンが、そのような場で距離ｄ離れて置かれ、それぞれマイクロフォン信号Ｕ（ｔ_ｋ，ω_ｌ）及びＵ_２（ｔ_ｋ，ω_ｌ）を有するとき、
Ｅ｛｜Ｕ_１（ｔ_ｋ，ω）｜^２｝＝Ｅ｛｜Ｕ_２（ｔ_ｋ，ω）｜^２｝＝２σ^２
及び

になり、波数

（ｃは音速である）であり、σ^２は、ガウス分布している、Ｕ_１（ｔ_ｋ，ω_ｌ）及びＵ_２（ｔ_ｋ，ω_ｌ）の実部及び虚部の分散である。

ビームフォーマが単純な２マイクロフォン遅延和（Ｄｅｌａｙ－ａｎｄ－Ｓｕｍ）ビームフォーマであり、ブロードサイド（ｂｒｏａｄｓｉｄｅ）ビームを形成する（すなわち、遅延が０である）と仮定する。

Ｚ（ｔ_ｋ，ω_ｌ）＝Ｕ_１（ｔ_ｋ，ω_ｌ）＋Ｕ_２（ｔ_ｋ，ω_ｌ）、
及び、雑音基準信号の場合、
Ｘ（ｔ_ｋ，ω_ｌ）＝Ｕ_１（ｔ_ｋ，ω_ｌ）－Ｕ_２（ｔ_ｋ，ω_ｌ）
と書くことができる。

得られた予想される値について、雑音のみが存在すると仮定すると、

である。

同様に、Ｅ｛｜Ｘ（ｔ_ｋ，ω）｜^２｝について、
Ｅ｛｜Ｘ（ｔ_ｋ，ω）｜^２｝＝４σ^２（１－ｓｉｎｃ（ｋｄ））
が得られる。

したがって、低い周波数について、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とは、等しくない。

いくつかの実施形態では、ポイントオーディオソース検出器４０１は、そのような相関を補償するように構成される。特に、ポイントオーディオソース検出器４０１は、雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）を決定するように構成され、雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）は、雑音基準信号の振幅とビームフォーミングされたオーディオ出力信号の雑音成分の振幅との間の相関を示す。次いで、時間周波数タイル差分測度の決定は、このコヒーレンス推定値の関数としてのものである。

実際、多くの実施形態では、ポイントオーディオソース検出器４０１は、ビームフォーマからのビームフォーミングされたオーディオ出力信号及び雑音基準信号についてのコヒーレンスを、予想される振幅間の比に基づいて決定するように構成される。

ここで、Ｅ｛．｝は期待値演算子である。コヒーレンス項は、ビームフォーミングされたオーディオ出力信号における雑音成分の振幅と雑音基準信号の振幅との間の平均相関の指示である。

Ｃ（ｔ_ｋ，ω_ｌ）は、マイクロフォンにおける瞬時オーディオに依存せず、代わりに、雑音音場の空間的特性に依存するので、時間の関数としてのＣ（ｔ_ｋ，ω_ｌ）の変動は、Ｚ_ｎ及びＸ_ｎの時間変動よりもはるかに小さい。

その結果、Ｃ（ｔ_ｋ，ω_ｌ）は、スピーチが存在しない期間中の時間にわたって｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とを平均化することによって、比較的正確に推定され得る。そうするための手法は、米国特許第７６０２９２６号において開示され、米国特許第７６０２９２６号は、詳細には、Ｃ（ｔ_ｋ，ω_ｌ）を決定するための、明示的スピーチ検出が必要とされない方法が記載されている。

雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）を決定するための任意の好適な手法が使用されることが理解されよう。たとえば、較正が実行され、ここで、スピーカーが話さないように命令され、第１の周波数ドメイン信号と第２の周波数ドメイン信号とが比較され、各時間周波数タイルについての雑音相関推定値Ｃ（ｔ_ｋ，ω_ｌ）が、単に、第１の周波数ドメイン信号の時間周波数タイル値と第２の周波数ドメイン信号の時間周波数タイル値との平均比として決定される。理想的な球状等方性拡散雑音場の場合、コヒーレンス関数も、上記で説明された手法に従って分析的に決定され得る。

この推定値に基づいて、｜Ｚ_ｎ（ｔ_ｋ，ω_ｌ）｜は、｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜だけではなく、Ｃ（ｔ_ｋ，ω_ｌ）｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜と置き換えられ得る。これにより、時間周波数タイル差分測度が

によって与えられる。

したがって、前の時間周波数タイル差分測度は、コヒーレンス関数が１の一定値に設定された、上記の差分測度の特定の例と考えられ得る。

コヒーレンス関数の使用により、本手法は、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の比較的強い相関がある周波数を含む、より低い周波数において使用されることが可能になる。

本手法は、さらに有利には、多くの実施形態では、適応キャンセラをさらに含み、適応キャンセラは、少なくとも１つの雑音基準信号と相関されるビームフォーミングされたオーディオ出力信号の信号成分をキャンセルするように構成されることが理解されよう。たとえば、図１の例と同様に、適応フィルタは、入力としての雑音基準信号を有し、その出力が、ビームフォーミングされたオーディオ出力信号から減算される。適応フィルタは、たとえば、スピーチが存在しない時間間隔中の得られた信号のレベルを最小化するように構成される。

上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、１つ又は複数のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションに実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。

本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有する（ｃｏｍｐｒｉｓｉｎｇ）という用語は、他の要素又はステップが存在することを除外するものではない。

さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び／又は有利でないことを暗示するものではない。また、請求項の１つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、「ａ」、「ａｎ」、「第１の」、「第２の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims

オーディオをキャプチャするための装置であって、前記装置は、
マイクロフォンアレイと、
前記マイクロフォンアレイに結合され、第１のビームフォーミングされたオーディオ出力を生成する、第１のビームフォーマと、
前記マイクロフォンアレイに結合され、各々が制約付きのビームフォーミングされたオーディオ出力を生成する、複数の制約付きビームフォーマと、
前記第１のビームフォーマのビームフォームパラメータを適応させるための第１の適応器と、
前記複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるための第２の適応器と、
前記複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するための差分プロセッサであって、前記差分測度が、前記第１のビームフォーマによって形成されたビームと前記複数の制約付きビームフォーマのうちの前記少なくとも１つによって形成されたビームとの間の差分を示す、差分プロセッサと
を備え、
前記第２の適応器は、類似性基準を満たす差分測度が決定された前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ、前記制約付きビームフォームパラメータが適応されるという制約で、前記制約付きビームフォームパラメータを適応させ、
前記差分プロセッサは、パラメータの第１のセットと第１の制約付きビームフォーマについてのパラメータの制約付きセットとの間の差分として、前記第１の制約付きビームフォーマについての差分測度を決定する、装置。
前記装置は、第２のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するためのオーディオソース検出器をさらに備え、前記第２の適応器は、前記制約付きのビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在が検出された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させる、請求項１に記載の装置。
前記オーディオソース検出器はさらに、前記第１のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出し、前記装置は、ポイントオーディオソースが、前記第１のビームフォーミングされたオーディオ出力において検出されたが、いかなる制約付きのビームフォーミングされたオーディオ出力においても検出されなかった場合、前記第１のビームフォーマのビームフォームパラメータに応答して第１の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するコントローラをさらに備える、請求項２に記載の装置。
前記コントローラは、前記第１の制約付きビームフォーマについての差分測度がしきい値を超える場合のみ、前記第１のビームフォーマの前記ビームフォームパラメータに応答して前記第１の制約付きビームフォーマについての前記制約付きビームフォームパラメータを設定する、請求項３に記載の装置。
前記オーディオソース検出器はさらに、前記第１のビームフォーミングされたオーディオ出力においてオーディオソースを検出し、前記装置は、ポイントオーディオソースが、前記第１のビームフォーミングされたオーディオ出力と、第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力とにおいて検出され、前記第１の制約付きビームフォーマについてしきい値を超える差分測度が決定された場合、前記第１のビームフォーマの前記ビームフォームパラメータに応答して前記第１の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するコントローラをさらに備える、請求項２乃至４の何れか一項に記載の装置。
前記複数の制約付きビームフォーマは、制約付きビームフォーマのプールから選択された制約付きビームフォーマのアクティブサブセットであり、前記コントローラは、前記第１のビームフォーマの前記ビームフォームパラメータを使用して前記制約付きビームフォーマのプールからの制約付きビームフォーマを初期化することによって、前記第１の制約付きビームフォーマを含めるためにアクティブ制約付きビームフォーマの数を増加させる、請求項５に記載の装置。
前記第２の適応器はさらに、
第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力のレベルが、任意の他の第２のビームフォーミングされたオーディオ出力についてのレベルよりも高いという要件と、
第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力におけるポイントオーディオソースのレベルが、任意の他の第２のビームフォーミングされたオーディオ出力における任意のポイントオーディオソースよりも高いという要件と、
第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件と、
第１の制約付きビームフォーマからの第２のビームフォーミングされたオーディオ出力がスピーチ成分を含むという要件と
のグループから選択された少なくとも１つの要件を含む基準が満たされた場合のみ、前記第１の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させる、請求項１乃至６の何れか一項に記載の装置。
前記第１のビームフォーマについての適応レートは、前記複数の制約付きビームフォーマについての適応レートよりも高い、請求項１乃至７の何れか一項に記載の装置。
前記第１のビームフォーマと前記複数の制約付きビームフォーマとは、フィルタ合成ビームフォーマである、請求項１乃至８の何れか一項に記載の装置。
前記第１のビームフォーマは、各々が第１の適応インパルス応答を有する第１の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマであり、前記複数の制約付きビームフォーマのうちの制約付きビームフォーマである第２のビームフォーマは、各々が第２の適応インパルス応答を有する第２の複数のビームフォームフィルタを含むフィルタ合成ビームフォーマであり、前記差分プロセッサは、前記第１の適応インパルス応答と前記第２の適応インパルス応答との比較に応答して前記第１のビームフォーマのビームと前記第２のビームフォーマのビームとの間の差分測度を決定する、請求項１乃至９の何れか一項に記載の装置。
ビームフォーミングされたオーディオ出力信号と少なくとも１つの雑音基準信号とを生成する雑音基準ビームフォーマであって、前記第１のビームフォーマ及び前記複数の制約付きビームフォーマのうちの一方である、雑音基準ビームフォーマと、
前記ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するための第１の変換器であって、前記第１の周波数ドメイン信号が時間周波数タイル値によって表される、第１の変換器と、
前記少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するための第２の変換器であって、前記第２の周波数ドメイン信号が時間周波数タイル値によって表される、第２の変換器と、
時間周波数タイル差分測度を生成する差分プロセッサであって、第１の周波数についての時間周波数タイル差分測度が、前記第１の周波数についての前記第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と前記第１の周波数についての前記第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す、差分プロセッサと、
前記ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するためのポイントオーディオソース推定器であって、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答して前記ポイントオーディオソース推定値を生成する、ポイントオーディオソース推定器と
を備える、請求項１に記載の装置。
前記ポイントオーディオソース推定器は、前記合成された差分値がしきい値を超えることに応答して、前記ビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在を検出する、請求項１１に記載の装置。
オーディオをキャプチャする方法であって、前記方法は、
マイクロフォンアレイに結合された第１のビームフォーマが、第１のビームフォーミングされたオーディオ出力を生成するステップと、
前記マイクロフォンアレイに結合された複数の制約付きビームフォーマが、制約付きのビームフォーミングされたオーディオ出力を生成するステップと、
前記第１のビームフォーマのビームフォームパラメータを適応させるステップと、
前記複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるステップと、
前記複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するステップであって、前記差分測度が、前記第１のビームフォーマによって形成されたビームと複前記数の制約付きビームフォーマのうちの前記少なくとも１つによって形成されたビームとの間の差分を示す、決定するステップと
を有し、
前記制約付きビームフォームパラメータを適応させるステップは、類似性基準を満たす差分測度が決定された前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ、前記制約付きビームフォームパラメータが適応されるという制約で、前記制約付きビームフォームパラメータを適応させるステップを有し、
差分プロセッサが、パラメータの第１のセットと第１の制約付きビームフォーマについてのパラメータの制約付きセットとの間の差分として前記第１の制約付きビームフォーマについての差分測度を決定する、
方法。
コンピュータ上で動作するときに、請求項１３に記載の方法の全てのステップを実行するコンピュータプログラムコード手段を含む、コンピュータプログラム。