JP6665353B2

JP6665353B2 - ビームフォーミングを使用するオーディオキャプチャ

Info

Publication number: JP6665353B2
Application number: JP2019535791A
Authority: JP
Inventors: コルネリスピーターヤンス; リックヨセフマルティヌスヤンセン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-01-03
Filing date: 2018-01-02
Publication date: 2020-03-13
Anticipated expiration: 2038-01-02
Also published as: BR112019013239A2; JP2020503562A; RU2751760C2; US20210136489A1; RU2019124535A; EP3566228A1; US11039242B2; CN110140171B; EP3566228B1; RU2019124535A3; CN110140171A; WO2018127483A1

Description

本発明は、ビームフォーミングを使用するオーディオキャプチャに関する。

オーディオ、特にスピーチをキャプチャすることは、ここ数十年間でますます重要になった。実際、スピーチをキャプチャすることは、電気通信、遠隔会議、ゲーミング、オーディオユーザインターフェースなどを含む様々な適用例にとって、ますます重要になった。しかしながら、多くのシナリオ及び適用例における問題は、所望のスピーチソースが、一般に、環境における唯一のオーディオソースでないことである。むしろ、一般的なオーディオ環境において、マイクロフォンによってキャプチャされている多くの他のオーディオ／雑音ソースがある。多くのスピーチキャプチャ適用例が直面する重大な問題のうちの１つは、雑音の多い環境において、どのように最も良くスピーチを抽出するかの問題である。この問題に対処するために、雑音抑圧のためのいくつかの異なる手法が提案された。

実際、たとえばハンズフリースピーチ通信システムの研究は、数十年の間に多くの関心を受けた論題である。利用可能な最初の商業システムは、低い背景雑音及び低い残響時間をもつ環境におけるプロフェッショナル（ビデオ）会議システムに焦点を当てた。たとえば所望のスピーカーなど、所望のオーディオソースを識別し、抽出するための特に有利な手法は、マイクロフォンアレイからの信号に基づくビームフォーミングの使用であることがわかった。初めに、マイクロフォンアレイはしばしば集束固定ビームとともに使用されたが、後に、適応ビームの使用がより普及した。

１９９０年代後半には、モバイルのためのハンズフリーシステムが導入され始めた。これらは、残響室を含む多くの異なる環境において、及び（より）高い背景雑音レベルにおいて使用されることが意図された。そのようなオーディオ環境は、大幅により困難な課題を与え、特に、形成されたビームの適応を複雑にするか、又は劣化させる。

初めに、そのような環境のためのオーディオキャプチャの研究は、エコーキャンセルに、及び後に雑音抑圧に焦点を当てた。ビームフォーミングに基づくオーディオキャプチャシステムの一例が図１に示されている。本例では、複数のマイクロフォンのアレイ１０１がビームフォーマ１０３に結合され、ビームフォーマ１０３は、オーディオソース信号ｚ（ｎ）と１つ又は複数の雑音基準信号ｘ（ｎ）とを生成する。

マイクロフォンアレイ１０１は、いくつかの実施形態では２つのマイクロフォンのみを備えるが、一般に、より大きい数を備える。

ビームフォーマ１０３は、詳細には、好適な適応アルゴリズムを使用して１つのビームがスピーチソースのほうへ向けられ得る適応ビームフォーマである。

たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号は、スピーチに焦点を当てるが、スピーチを（ほとんど）含んでいない基準信号をも与える適応ビームフォーマの例を開示する。

ビームフォーマは、受信された信号をフォワードマッチングフィルタにおいてフィルタ処理し、フィルタ処理された出力を加算することによって、マイクロフォン信号の所望の部分をコヒーレントに加算することによって、拡張出力信号ｚ（ｎ）を作成する。また、出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有するバックワード適応フィルタにおいてフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、オーディオビームが支配的な信号のほうへステアリングされることになる。生成された誤差信号ｘ（ｎ）は、拡張出力信号ｚ（ｎ）に対して追加の雑音低減を実行するのに特に適した雑音基準信号と見なされ得る。

１次信号ｚ（ｎ）と基準信号ｘ（ｎ）とは、一般に、両方とも雑音によって汚染される。２つの信号における雑音がコヒーレントである場合（たとえば、干渉するポイント雑音ソース（ｐｏｉｎｔｎｏｉｓｅｓｏｕｒｃｅ）があるとき）、コヒーレント雑音を低減するために適応フィルタ１０５が使用され得る。

この目的で、雑音基準信号ｘ（ｎ）は適応フィルタ１０５の入力に結合され、その出力が、オーディオソース信号ｚ（ｎ）から減算されて、補償信号ｒ（ｎ）を生成する。適応フィルタ１０５は、一般に所望のオーディオソースがアクティブでないとき（たとえば、スピーチがないとき）、補償信号ｒ（ｎ）の電力を最小化するように適応され、これにより、コヒーレント雑音の抑圧が生じる。

補償信号はポストプロセッサ１０７に供給され、ポストプロセッサ１０７は、雑音基準信号ｘ（ｎ）に基づいて補償信号ｒ（ｎ）に対して雑音低減を実行する。詳細には、ポストプロセッサ１０７は、短時間フーリエ変換を使用して補償信号ｒ（ｎ）と雑音基準信号ｘ（ｎ）とを周波数ドメインに変換する。ポストプロセッサ１０７は、次いで、各周波数ビンについて、Ｘ（ω）の振幅スペクトルのスケーリングされたバージョンを減算することによってＲ（ω）の振幅を変更する。得られた複素スペクトルは時間ドメインに変換されて、雑音が抑圧された出力信号ｑ（ｎ）をもたらす。スペクトル減算のこの技法は、最初に、Ｓ．Ｆ．Ｂｏｌｌ、「ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅｉｎＳｐｅｅｃｈｕｓｉｎｇＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ」、ＩＥＥＥＴｒａｎｓ．Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２７、１１３〜１２０頁、１９７９年４月に記載された。

個々の時間周波数タイルにおけるオーディオソース信号と雑音基準信号との相対エネルギーに基づく雑音（ｎｏｉｓｅ）抑圧の特定の例が、ＷＯ２０１５１３９９３８Ａに記載されている。

多くのオーディオキャプチャシステムでは、オーディオソースに独立して適応することができる複数のビームフォーマが適用される。たとえば、オーディオ環境において２つの異なるスピーカー（ｓｐｅａｋｅｒ）を追跡するために、オーディオキャプチャ装置は、２つの独立して適応できるビームフォーマを含む。

実際、図１のシステムは、多くのシナリオにおいて極めて効率的な動作及び有利な性能を与えるが、それは、すべてのシナリオにおいて最適であるとは限らない。実際、図１の例を含む多くの従来のシステムが、所望のオーディオソース／スピーカーがマイクロフォンアレイの残響半径内にあるとき、すなわち、所望のオーディオソースの直接エネルギーが所望のオーディオソースの反射のエネルギーよりも（好ましくは著しく）強い適用例について、極めて良好な性能を与えるが、それは、これが当てはまらないとき、あまり最適でない結果を与える傾向がある。一般的な環境において、一般にマイクロフォンアレイの１〜１．５メートル内にスピーカーがあるべきであることがわかっている。

しかしながら、ユーザがマイクロフォンアレイからより離れた距離にある場合のオーディオベースハンズフリー解決策、適用例、及びシステムに対する強い要望がある。これは、たとえば、多くの通信システム及び適用例と、多くのボイス制御システム及び適用例の両方について望まれる。そのような状況のための残響除去及び雑音抑圧を含むスピーチ強調を与えるシステムは、スーパーハンズフリーシステムと呼ばれる分野にある。

より詳細には、追加の拡散雑音と残響半径外の所望のスピーカーとを扱うとき、以下の問題が生じる。
・ビームフォーマは、所望のスピーチのエコーと拡散背景雑音とを区別する問題をしばしば有し、これがスピーチひずみを生じる。
・適応ビームフォーマは、所望のスピーカーのほうへより低速に収束する。適応ビームがまだ収束していない時間中に、基準信号においてスピーチ漏れがあり、この基準信号が非定常雑音抑圧及びキャンセルのために使用される場合、スピーチひずみを生じる。交互に話す、より多くの所望のソースがあるとき、問題は増加する。

（背景雑音により）より低速に収束する適応フィルタを扱うための解決策は、図２に示されているように異なる方向に照準を定められているいくつかの固定ビームでこれを補うことである。ただし、この手法は、特に、所望のオーディオソースが残響半径内に存在するシナリオのために開発される。それは、残響半径外のオーディオソースについてあまり効率的でなく、そのような場合、特に音響拡散背景雑音もある場合、しばしば、非ロバストな解決策につながる。

ビームフォーマを使用するオーディオのキャプチャの特に重要な要素が、ビームフォーマ／ビームの適応である。様々なビームフォーミング適応アルゴリズムが提案されている。たとえば、スピーチキャプチャ適用例の場合、適応アルゴリズムは、スピーチの期間中に出力信号レベルを最大化する基準に基づいてビームフォームフィルタを適応させようとする。

しかしながら、現在の適応アルゴリズムは、ビームフォーマが適応しているオーディオソースが、比較的高い信号対雑音比を与える支配的なオーディオソースである良好な環境を仮定することに基づく傾向がある。実際、たいていのアルゴリズムは、直接経路（及び場合によっては早期反射）が、より後の反射と、残響テール、実際は、（拡散背景雑音を含む）他のソースからの雑音の両方を支配すると仮定する傾向がある。

結果として、そのような適応手法は、これらの仮定が満たされない環境において準最適である傾向があり、実際、多くの現実の適用例のための準最適な性能を与える傾向がある。

実際、概して残響半径外のソースのためのオーディオキャプチャは、ソースからデバイスへの直接場のエネルギーが、反射されたスピーチ及び音響背景雑音のエネルギーと比較して小さいことにより、困難である傾向がある。マルチビームシステムはそのようなシナリオにおけるオーディオキャプチャを改善するが、キャプチャは、適応が確実でない場合、劣化されるか、又は実際しばしば単に機能しない。

現在の適応アルゴリズムは、所望のオーディオソースが、後の反射、残響、及び／又は、特に拡散雑音を含む雑音によって支配されるシナリオの場合、準最適であり、比較的不十分な適応を与える傾向がある。そのようなシナリオは、一般に、所望のオーディオソースがマイクロフォンアレイから遠いときに生じる。

したがって、多くの実際的適用例では、ビームフォーミングオーディオキャプチャシステムの性能は、適応性能によって劣化されるか、又は限定される。

したがって、改善されたビームフォーミングオーディオキャプチャ手法が有利であり、特に、改善された適応を与える手法が有利である。特に、複雑さの低減、フレキシビリティの増加、実施の容易さ、コストの低減、オーディオキャプチャの改善、残響半径外のオーディオをキャプチャすることに対する適合性の改善、雑音感度の低減、スピーチキャプチャの改善、ビームフォーム適応の改善、制御の改善、及び／又は性能の改善を可能にする手法が有利である。

したがって、本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの１つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。

本発明の一態様によれば、ビームフォーミングされたオーディオ出力信号を生成するように構成された第１のビームフォーマと、第１のビームフォーマのビームフォームパラメータを適応させるための適応器と、ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するための検出器と、スピーチのアタックの検出に応答して決定された所定の適応時間間隔において生じるようにビームフォームパラメータの適応を制御するためのコントローラとを備えるオーディオキャプチャ装置が提供される。

本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び／又はより遠い距離にあるオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のスピーチソースのキャプチャの改善が達成され得る。

本手法は、支配的な後の反射又は残響を伴う室内応答を経験するスピーチソースのためのスピーチキャプチャの改善を与える。本手法は、限られた持続時間のインパルス応答によって十分にモデル化され得ない室内応答を経験するスピーチソースのための適応及びオーディオキャプチャを改善する。特に、性能の改善は、多くの実施形態では、適応が（ビームフォームフィルタによってモデル化されない）後の反射を無視しながら直接経路及び早期反射成分のほうへ向けられることによって達成される。

特に、性能の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び／又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。より離れた距離にある、特に残響半径外のポイントオーディオソースのための性能の改善が、しばしば達成され得る。

本手法は、ビームフォーマを適応させるための有利な特性が存在する適応時間間隔にビームフォームパラメータを適応させるように適応器を自動制御する。特に、本手法は、スピーチ信号がそのような有利なシナリオを生じる時間中にビームフォームパラメータを適応させるようにシステムを自動制御し、詳細には、適応は、スピーチソースからの所望の信号成分が不要な／干渉する信号成分を支配する適応時間間隔中に実行される。

実際、本手法は、スピーチソースからの不要な信号成分（ビームフォームフィルタによってモデル化され得ない後の反射／残響／拡散雑音）が支配する時間間隔中に適応することなしに、支配的な信号成分（詳細には早期反射）が、主に、ビームフォーマのビームフォームフィルタがモデル化することができるものである適応時間間隔中にあるように適応を制御する。実際、スピーチアタックが検出されるときにしばしば、スピーチソースからの受信された信号成分は、強い早期反射によって支配され、現在受信されている後の反射／残響からの信号成分は、より早期のより弱いスピーチセクションから発生する。多くの実施形態及びシナリオでは、スピーチのアタックの検出は、所与のスピーチソースからの受信された信号成分が、アタック中のより強い信号からの早期反射と、アタックより前のより弱い信号からの後の反射及び残響とから構成されるシナリオを示す。このシナリオは、後の反射がアタック中又はアタックの後の強いスピーチからも発生するまで所与の持続時間の間存在し、その、後の反射が発生する時間において、適応時間間隔が一般に終了される（又はすでに終了されていることがある）。したがって、適応は、（直接経路を含む）早期反射が支配的である時間中に自動的に実行され、したがって、適応は、音響室内応答が、より後の反射についてはるかに強い成分を有する場合でも、早期反射に適応しようとし、後の反射に適応しようとしない。

したがって、本手法は、後の反射及び残響が所与のスピーチソースについて有意であるシナリオにおいて、大幅な性能の改善を与える。特に、性能の改善は、残響半径外のスピーチソースのために達成される。本手法は、同時に、有利な状況が生じるときはいつでもスピーチセグメント全体にわたって実行されるような効率的な適応を可能にする。したがって、適応は、スピーチの開始に限定されず、アタックが生じるときはいつでもスピーチ全体にわたって実行される。

スピーチのアタックは、詳細には、無音期間の後のスピーチの発生（ｏｎｓｅｔ）である。しかしながら、多くの実施形態及びシナリオでは、スピーチのアタックはスピーチの期間中に生じる。

スピーチのアタックは、前の期間の平均スピーチレベルと比較したときのソーススピーチレベルの増加である。前の期間は、一般に、６０ミリ秒から１００ミリ秒までの範囲内にある。ソーススピーチレベルの増加は、一般に急激な増加であり、しばしば大幅な増加である。

アタックのスピーチは、いくつかの実施形態では、早期反射の信号レベルが後の残響及び／又は残響拡散雑音の信号レベルを支配するときに生じると考えられる。

オーディオキャプチャ装置は、多くの実施形態では、ビームフォーミングされたオーディオ出力信号に応答してオーディオ出力信号を生成するための出力ユニットを備える。

ビームフォーマは、フィルタ合成ビームフォーマである。フィルタ合成ビームフォーマは、各マイクロフォンのためのビームフォームフィルタと、ビームフォーミングされたオーディオ出力信号を生成するためにビームフォームフィルタの出力を合成するための合成器とを備える。フィルタ合成ビームフォーマは、詳細には、複数の係数を有する有限応答フィルタ（ＦＩＲ）の形態のビームフォームフィルタを備える。

たいていの実施形態では、ビームフォームフィルタの各々は、（単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する）単純なディラックパルスではない時間ドメインインパルス応答を有し、むしろ、一般に２ミリ秒、５ミリ秒、１０ミリ秒、さらには３０ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する。

所定の適応時間間隔は、所定の持続時間を有し、多くの実施形態では、所定の最大持続時間を有する。所定の（最大）持続時間は、多くの実施形態では、５ミリ秒、１０ミリ秒、２０ミリ秒、５０ミリ秒、又は１００ミリ秒以上である。所定の（最大）持続時間は、多くの実施形態では、５０ミリ秒、１００ミリ秒、２００ミリ秒、５００ミリ秒、又は１秒を超えない。

本発明のオプションの特徴によれば、検出器は、受信された後の反射の信号レベルに対する受信された早期反射の信号レベルに応答してスピーチのアタックを検出するように構成される。

これは、適応を制御するのに適したスピーチアタックを検出するための特に有利な手法を与える。特に、それは、特に有利な適応を与え、それは、ビームフォーマのビームフォームフィルタによって効果的にモデル化され得る直接経路及び早期反射のほうへこれを向けることによるものである。早期反射は、（一般に０番目の反射と考えられる）第１の反射を含む。

スピーチのアタックは、詳細には、検出され、（直接経路を含む）早期反射によってスピーチソースから受信された信号成分が後の反射及び／又は残響／拡散雑音中で受信された信号成分を支配するときに生じると考えられる。（直接経路を含む）早期反射からの信号成分は、これらの信号エネルギーが後の反射及び／又は残響／拡散雑音において受信された信号成分の信号エネルギーよりも高い（又はいくつかの場合には、３ｄＢ、６ｄＢ、さらには１０ｄＢ高い）ときに支配すると考えられる。いくつかの実施形態では、早期反射は、ビームフォームフィルタのインパルス応答の持続時間を超えない直接経路からの遅延を伴って受信された反射であると考えられる。スピーチソースからの（残響及び拡散雑音を含む）より後の反射は、インパルス応答の持続時間よりも高い遅延を伴って受信されるものである。いくつかの実施形態では、早期反射は、たとえば、所与の（場合によっては所定の）しきい値を下回る直接経路に対する遅延を伴って受信される反射であると考えられる。残りの信号成分は、後の反射又は残響と考えられる。異なる実施形態では、（直接経路を含む）早期反射と（残響／拡散雑音を含む）後の反射とを差別化するために、異なる手法又は考慮事項が使用される。

本発明のオプションの特徴によれば、第１のビームフォーマは、少なくとも１つの雑音基準信号を生成するように構成され、検出器は、少なくとも１つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答してスピーチのアタックを検出するように構成される。

本手法は、詳細には、スピーチアタック推定値が、雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルに応答して生成されることを可能にする。たとえば、スピーチアタック推定値は、これらの間の比として決定される。

そのような測度は、マイクロフォンアレイにおける受信されたスピーチが、いつ、ビームフォームフィルタによってモデル化され得る信号成分（早期反射）によって主に特徴づけられるかと、それが、いつ、ビームフォームフィルタによってモデル化され得ない信号成分によって主に特徴づけられるかとの強い指示を自動的に与える。したがって、適応は、適応が、モデル化され得る信号成分に焦点を当てるシナリオに焦点を合わせている。これは、たとえば、残響半径外のスピーチソースのためのスピーチキャプチャの大幅な改善を与える。

ビームフォーミングされたオーディオ出力信号と雑音基準との比較に基づくスピーチアタック推定値は、スピーチアタックの開始とスピーチアタックの終了の両方の良好な指示を与える。それは、特に、受信された信号が早期反射によって支配されるスピーチアタック中のシナリオを識別するのに極めて適しており、このシナリオが、後の反射が支配するシナリオといつ置き換えられているかを示す。

いくつかの実施形態では、コントローラは、少なくとも１つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して所定の適応時間間隔の開始時間を決定するように構成される。

これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。それは、受信された信号が（ビームフォームフィルタのインパルス応答の持続時間内に）早期反射によって支配される状況の開始の望ましい検出を与える。

開始時間は、詳細には、ビームフォーミングされたオーディオ出力信号の信号レベルと雑音基準信号の信号レベルとの間の差分測度が、しきい値を上回って増加することに応答して決定される。

本発明のオプションの特徴によれば、コントローラは、少なくとも１つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して所定の適応時間間隔を終了するように構成される。

これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。それは、受信された信号が（ビームフォームフィルタのインパルス応答の持続時間内に）早期反射によって支配される状況の終了の望ましい検出を与える。

コントローラは、少なくとも１つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して所定の終了時間より前に適応時間間隔を終了するように構成される。いくつかの実施形態では、適応時間間隔は、所定の最大持続時間をもつ適応時間間隔を有する。しかしながら、比較が、早期反射が支配的でないことを示す場合、コントローラは、続いて、所定の最大持続時間より前に適応時間間隔（及びしたがって適応）を終了する。

所定の適応時間間隔を終了するための時間は、詳細には、ビームフォーミングされたオーディオ出力信号の信号レベルと雑音基準信号の信号レベルとの間の差分測度が、しきい値を下回ることに応答して決定される。

コントローラは、比較に応答して所定の持続時間より前に適応時間間隔を終了するように構成される。

本発明のオプションの特徴によれば、第１のビームフォーマは、少なくとも１つの雑音基準信号を生成するように構成され、検出器は、ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するための第１の変換器であって、第１の周波数ドメイン信号が時間周波数タイル値によって表される、第１の変換器と、少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するための第２の変換器であって、第２の周波数ドメイン信号が時間周波数タイル値によって表される、第２の変換器と、第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す時間周波数タイル差分測度を生成するように構成された差分プロセッサと、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してスピーチアタック推定値を生成するためのスピーチアタック推定器とを備える。

これは、多くのシナリオ及び適用例において、特に有利なスピーチキャプチャを与える。このようにして決定されたスピーチアタック推定値は、ビームフォーマを適応させるための好適な時間の極めて有利で高性能な指示を与えることがわかった。高度の拡散雑音、残響信号及び／又は後の反射を含むシナリオのための性能の改善が、詳細には達成され得る。より離れた距離にある、特に残響半径外のソースのためのスピーチキャプチャの改善が、しばしば達成され得る。

スピーチアタック推定値は、マイクロフォンアレイにおける受信されたスピーチが、いつ、ビームフォームフィルタによってモデル化され得る信号成分（早期反射）によって主に特徴づけられるかと、それが、いつ、ビームフォームフィルタによってモデル化され得ない信号成分によって主に特徴づけられるかとの強い指示を自動的に与える。したがって、適応は、適応が、モデル化され得る信号成分に焦点を当てるシナリオに焦点を合わせている。これは、たとえば、残響半径外のスピーチソースのためのスピーチキャプチャの大幅な改善を与える。

第１の単調関数と第２の単調関数とは、一般に、両方とも単調増加関数であるが、いくつかの実施形態では、両方とも単調減少関数である。

ノルムは、一般に、Ｌ１ノルム又はＬ２ノルムであり、すなわち、詳細には、ノルムは、時間周波数タイル値についての大きさ又は電力測度に対応する。

時間周波数タイルは、詳細には、１つの時間セグメント／フレーム中の周波数変換の１つのビンに対応する。詳細には、第１の変換器と第２の変換器とは、第１及び第２の信号の連続するセグメントを変換するためにブロック処理を使用する。時間周波数タイルは、１つのセグメント／フレーム中の変換ビンのセット（一般に１つ）に対応する。

多くの実施形態では、周波数しきい値は５００Ｈｚを下回らない。これは、性能をさらに改善し、たとえば、多くの実施形態及びシナリオでは、ポイントオーディオソース推定値を決定する際に使用されるビームフォーミングされたオーディオ出力信号値と雑音基準信号値との間の十分な又は改善された無相関化が達成されることを保証する。いくつかの実施形態では、周波数しきい値は、有利には、１ｋＨｚ、１．５ｋＨｚ、２ｋＨｚ、３ｋＨｚ、さらには４ｋＨｚを下回らない。

本発明のオプションの特徴によれば、検出器は、合成された差分値がしきい値を上回って増加することに応答して所定の適応時間間隔のための開始時間を決定するように構成される。

これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。それは、受信された信号が（ビームフォームフィルタのインパルス応答の持続時間内に）早期反射によって支配される状況の終了と開始の両方の望ましい検出を与える。

本発明のオプションの特徴によれば、検出器は、合成された差分値がしきい値を下回ることに応答して適応時間間隔を終了するように構成される。

本発明のオプションの特徴によれば、検出器は、ビームフォーミングされたオーディオ出力信号の振幅と少なくとも１つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成するように構成され、第１の単調関数及び第２の単調関数のうちの少なくとも１つが雑音コヒーレンス推定値に依存する。

これは、性能をさらに改善し、詳細には、多くの実施形態において、特に、より小さいマイクロフォン間距離をもつマイクロフォンアレイのための性能の改善を与える。

雑音コヒーレンス推定値は、詳細には、アクティブなポイントオーディオソースがないときの（たとえば、スピーチのない時間期間中の、すなわち、スピーチソースが非アクティブであるときの）ビームフォーミングされたオーディオ出力信号の振幅と雑音基準信号の振幅との間の相関の推定値である。雑音コヒーレンス推定値は、いくつかの実施形態では、ビームフォーミングされたオーディオ出力信号及び雑音基準信号、並びに／又は第１及び第２の周波数ドメイン信号に基づいて決定される。いくつかの実施形態では、雑音コヒーレンス推定値は、別個の較正又は測定プロセスに基づいて生成される。

本発明のオプションの特徴によれば、適応器は、第１の時間周波数タイルについての時間周波数タイル差分測度に応答して、第１の時間周波数タイルについてビームフォームパラメータについての適応レートを変更するように構成される。

これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。

本発明のオプションの特徴によれば、検出器は、第１の周波数ドメイン信号の時間周波数タイル値のノルム及び第２の周波数ドメイン信号の時間周波数タイル値のノルムのうちの少なくとも１つをフィルタ処理するように構成され、フィルタ処理は時間と周波数の両方において異なる時間周波数タイルを含む。

これは、多くの実施形態においてスピーチアタック推定値の改善を与える。フィルタ処理は、たとえば平均化などの低域フィルタ処理である。

本発明のオプションの特徴によれば、スピーチのアタックから所定の適応時間間隔の終了までの持続時間は、１００ミリ秒を超えない。

これは、多くの実施形態において有利な性能を与える。いくつかの実施形態では、所定の適応時間間隔は、１０ミリ秒、１５ミリ秒、２０ミリ秒、３０ミリ秒、５０ミリ秒、１５０ミリ秒、２５０ミリ秒又は５００ミリ秒を超えない。

本発明のオプションの特徴によれば、オーディオキャプチャ装置は、第１のビームフォーマを含む複数のビームフォーマをさらに備え、検出器は、複数のビームフォーマの各ビームフォーマについてのスピーチアタック推定値を生成するように構成され、オーディオキャプチャ装置は、スピーチアタック推定値に応答して複数のビームフォーマのうちの少なくとも１つを適応させるための適応器をさらに備える。

これは、性能をさらに改善し、詳細には、多くの実施形態において、複数のビームフォーマを利用するシステムのための適応性能の改善を与える。特に、それは、システムの全体的性能が、現在のオーディオシナリオへの正確で確実な適応を与えると同時に、（たとえば新しいオーディオソースが出現したときの）これの変化への急速な適応を与えることを可能にする。

本発明のオプションの特徴によれば、複数のビームフォーマは、ビームフォーミングされたオーディオ出力信号と少なくとも１つの雑音基準信号とを生成するように構成された第１のビームフォーマと、マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力と少なくとも１つの制約付き雑音基準信号とを生成するように各々が構成された複数の制約付きビームフォーマとを備え、適応器は、第１の制約付きビームフォーマについてのスピーチアタック推定値が、スピーチアタックが第１の制約付きビームフォーマについて検出されたことを示すこと、及び第１の制約付きビームフォーマについてのスピーチアタック推定値が、複数の制約付きビームフォーマのうちの任意の他の制約付きビームフォーマについてのスピーチアタック推定値よりも高い、スピーチアタックの確率を示すことのグループからの少なくとも１つの制約を含む基準を条件とする第１の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるように構成される。

本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び／又はオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与えると同時に、新しい所望のオーディオソースへの高速適応を与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のオーディオソースのキャプチャの改善が達成され得る。

いくつかの実施形態では、第１のビームフォーミングされたオーディオ出力及び／又は制約付きのビームフォーミングされたオーディオ出力に応答して、オーディオキャプチャ装置からの出力オーディオ信号が生成される。いくつかの実施形態では、出力オーディオ信号は、制約付きのビームフォーミングされたオーディオ出力の合成として生成され、詳細には、たとえば単一の制約付きのビームフォーミングされたオーディオ出力を選択する選択合成（ｓｅｌｅｃｔｉｏｎｃｏｍｂｉｎｉｎｇ）が使用される。

ビームフォーマの適応は、特にフィルタ係数を適応させることによるなど、ビームフォーマのビームフォームフィルタのフィルタパラメータを適応させることによるものである。適応は、所与の適応パラメータを最適化（最大化又は最小化）しようとするもの、たとえば、オーディオソースが検出されるときに出力信号レベルを最大化すること、又は、雑音のみが検出されるときに出力信号レベルを最小化することなどである。適応は、測定されたパラメータを最適化するためにビームフォームフィルタを変更しようとする。

本発明のオプションの特徴によれば、オーディオキャプチャ装置は、複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するためのビーム差分プロセッサであって、差分測度が、第１のビームフォーマによって形成されたビームと複数の制約付きビームフォーマのうちの少なくとも１つによって形成されたビームとの間の差分を示す、ビーム差分プロセッサをさらに備え、適応器は、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、制約付きビームフォームパラメータを適応させるように構成される。

これは、多くの実施形態において性能の改善を与える。

差分測度は、第１のビームフォーマの形成されたビームと、差分測度が生成された制約付きビームフォーマの形成されたビームとの間の差分を反映し、その差分は、たとえば、ビームの方向間の差分として測定される。多くの実施形態では、差分測度は、第１のビームフォーマからのビームフォーミングされたオーディオ出力と制約付きビームフォーマからのビームフォーミングされたオーディオ出力との間の差分を示す。いくつかの実施形態では、差分測度は、第１のビームフォーマのビームフォームフィルタと制約付きビームフォーマのビームフォームフィルタとの間の差分を示す。差分測度は、たとえば、第１のビームフォーマ及び制約付きビームフォーマのビームフォームフィルタの係数のベクトル間の距離として決定された測度など、距離測度である。

類似性測度は、２つの特徴間の類似性に関係する情報を与えることによる類似性測度が、本質的に、これらの間の差分に関係する情報をも与えるという点で差分測度と等価であり、その逆も同様であることが理解されよう。

類似性基準は、たとえば、差分が所与の測度を下回っていることを差分測度が示すという要件を含み、たとえば、増加する差分について増加する値を有する差分測度がしきい値を下回ることが必要とされる。

本発明の一態様によれば、ビームフォーマが、ビームフォーミングされたオーディオ出力信号を生成するステップと、ビームフォーマのビームフォームパラメータを適応させるステップと、ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するステップと、スピーチのアタックの検出に応答して決定された適応時間間隔において生じるようにビームフォームパラメータの適応を制御するステップとを有するオーディオキャプチャの方法が提供される。

本発明のこれら及び他の態様、特徴及び利点は、以下で説明される（１つ又は複数の）実施形態から明らかになり、それらに関して解明されるであろう。

本発明の実施形態が、図面を参照しながら単に例として説明される。

ビームフォーミングオーディオキャプチャシステムの要素の一例を示す図である。オーディオキャプチャシステムによって形成された複数のビームの一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。フィルタ和（ｆｉｌｔｅｒ−ａｎｄ−ｓｕｍ）ビームフォーマの要素の一例を示す図である。スピーチソースからの受信された音響反射の例を示す図である。スピーチソースからの受信された音響反射の例を示す図である。スピーチソースからの受信された音響反射の例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置のためのスピーチアタック推定器の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置のためのスピーチアタック推定器のための周波数ドメイン変換器の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置のためのスピーチアタック推定器の要素の一例を示す図である。本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。

以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。

図３は、本発明のいくつかの実施形態による、オーディオキャプチャ装置のいくつかの要素の一例を示す。

オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ３０１を備える。

マイクロフォンアレイ３０１は、（一般に、当業者によく知られるように、直接、又はエコーキャンセラ、増幅器、デジタルアナログ変換器などを介してのいずれかで）ビームフォーマ３０３に結合される。

ビームフォーマ３０３は、マイクロフォンアレイ３０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ３０１からの信号を合成するように構成される。したがって、ビームフォーマ３０３は、ビームフォーミングされたオーディオ出力又はビームフォーミングされたオーディオ出力信号と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。ビームフォーマ３０３は適応ビームフォーマであり、その指向性はビームフォーマ３０３のビームフォーム動作の、ビームフォームパラメータと呼ばれるパラメータを設定することによって、詳細には、ビームフォームフィルタのフィルタパラメータ（一般に係数）を設定することによって制御され得る。

したがって、ビームフォーマ３０３は、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。

ビームフォーマ３０３は、詳細には、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

図４は、２つのマイクロフォン４０１のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォンはビームフォームフィルタ４０３、４０５に結合され、ビームフォームフィルタ４０３、４０５の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器４０７において加算される。ビームフォームフィルタ４０３、４０５はインパルス応答ｆ１及びｆ２を有し、インパルス応答ｆ１及びｆ２は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは３つ以上のマイクロフォンを備え、図４の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。

ビームフォーマ３０３は、（たとえば、米国特許第７１４６０１２号及び米国特許第７６０２９２６号のビームフォーマの場合のように）ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ３０１は３つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ３０３は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ３０３は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。

たいていの実施形態では、ビームフォームフィルタの各々は、（単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する）単純なディラックパルスでなく、むしろ、一般に２ミリ秒、５ミリ秒、１０ミリ秒、さらには３０ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する、時間ドメインインパルス応答を有する。

インパルス応答は、しばしば、複数の係数をもつＦＩＲ（有限インパルス応答）フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ３０３は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、ＦＩＲフィルタは、固定時間オフセット（一般にサンプル時間オフセット）に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数（たとえば、２つ又は３つのみ）を有するが、これらのタイミングは（も）適応可能である。

単純な可変遅延（又は単純な周波数ドメイン利得／位相調整）であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ３０３が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ３０３が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び／又は残響環境における性能の改善、並びに／或いは、マイクロフォンアレイ３０１から離れているオーディオソースのための性能の改善を可能にする。

適応ビームフォーマの性能の極めて重要な要素は、方向性（ｄｉｒｅｃｔｉｏｎａｌｉｔｙ）の適応である（一般にビームと呼ばれるが、拡張インパルス応答により、この指向性が、空間成分だけでなく時間成分、すなわち、反射についての時間的変動として形成されたビームなどをも有することになることが理解されよう）。

図３のシステムでは、ビームフォーマ３０３は、第１のビームフォーマのビームフォームパラメータを適応させるように構成された適応器３０５を備える。詳細には、適応器３０５は、所与の（空間的及び時間的）ビームを与えるためにビームフォームフィルタの係数を適応させるように構成される。

異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、適応器３０５は、ビームフォーマ３０３の出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、（時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける）フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。これはさらに、本質的に、誤差信号から雑音基準信号を生成することができる。そのような手法のさらなる詳細は、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において見つけられ得る。

米国特許第７１４６０１２号及び米国特許第７６０２９２６号のものなどの手法は、ビームフォーマからのオーディオソース信号ｚ（ｎ）と（１つ又は複数の）雑音基準信号ｘ（ｎ）の両方に基づく適応に基づくことに留意されたい。同じ手法が図３のビームフォーマのために使用されることが理解されよう。

実際、ビームフォーマ３０３は、詳細には、図１に示され、米国特許第７１４６０１２号及び米国特許第７６０２９２６号において開示されたビームフォーマに対応するビームフォーマである。

ビームフォーマ３０３は、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成するように構成される。

ビームフォーマ３０３は、所望のオーディオソースをキャプチャし、これをビームフォーミングされたオーディオ出力信号で表すためにビームフォーミングを適応させるように構成される。ビームフォーマ３０３は、さらに、残りのキャプチャされたオーディオの推定値を与えるために雑音基準信号を生成し、すなわち、それは、所望のオーディオソースの不在下でキャプチャされる雑音を示す。

ビームフォーマ３０３が米国特許第７１４６０１２号及び米国特許第７６０２９２６号に開示されるようなビームフォーマである実施形態における例では、雑音基準は、たとえば誤差信号を直接使用することによって、前に説明されたように生成される。しかしながら、他の実施形態では他の手法が使用されることが理解されよう。たとえば、いくつかの実施形態では、雑音基準は、生成されたビームフォーミングされたオーディオ出力信号を減じた（たとえば、オムニ指向性）マイクロフォンからのマイクロフォン信号、さらには、この雑音基準マイクロフォンが他のマイクロフォンから遠く離れており、所望のスピーチを含んでいない場合、マイクロフォン信号自体として生成される。別の例として、ビームフォーマ３０３は、ビームの最大値の方向にヌルを有する第２のビームを生成し、ビームフォーミングされたオーディオ出力信号を生成するように構成され、雑音基準は、この補足的ビームによってキャプチャされるオーディオとして生成される。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、出力プロセッサ３０５によって、オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

適応性能は、ビームフォーミングオーディオキャプチャシステムの性能にとって重要である。しかしながら、一般的な従来の手法は、理論的な及び理想的なオーディオ環境ではうまく機能するが、多くの実際的シナリオでは、それほど効率的及び正確でない傾向がある。

実際、適応は、雑音が増加するにつれて劣化する傾向があり、詳細には、アクティブソースが存在しないときに適応が実行される場合、適応は、この時間間隔中に、所望のオーディオソースではなく雑音に適応する。これに対処するために、オーディオソースが存在するときのみ適応が実行されるシステムが開発された。詳細には、スピーチキャプチャシステムの場合、スピーチの存在を検出し、スピーチの期間中にのみ適応させるシステムが開発された。

しかしながら、この手法は、所望のオーディオソースがアクティブでないときの適応の問題に対処するが、所望のオーディオソースがアクティブである時間中の潜在的問題のいずれにも対処しない。

実際、発明者によって了解されるように、音響環境の特性は、特に、室内インパルス応答のより大きい間隔を推定しようとする拡張インパルス応答フィルタが使用されるとき、適応及び全体的性能に著しく影響を及ぼす。特に、発明者は、直接経路が支配的でないシナリオでは、適応がしばしば準最適であることを了解した。実際、オーディオソースが残響半径外にあるシナリオでは、受信された信号は、より後の反射及び残響によって支配される傾向がある。これは、適応を複雑にし、劣化させ、さらには、実際、多くのシナリオでは、正しいオーディオソースがアクティブであるときでも、正しいオーディオソースへの適応を妨げる。

図３のシステムは適応制御を含み、適応制御は、多くのシナリオでは、適応性能の改善を与え、スピーチキャプチャの改善を生じる。

オーディオキャプチャ装置は、詳細には、検出器３０７を含み、検出器３０７は、ビームフォーミングされたオーディオ出力信号においてスピーチのアタックを検出するように構成される。

スピーチのアタックは、前の期間の平均スピーチレベルと比較したときのスピーチレベルの急激な増加である。スピーチセンテンスは音素のシーケンスからなり、各音素は、一定の強度又は音圧を有し、６０ミリ秒から１００ミリ秒の間の平均長を有する。音素の強度の差分は、極めて大きくなり得る。母音、特に拡張母音は、相対的な強いレベルを有し得る。閉鎖子音は、先行する母音よりも２０ｄＢ〜３０ｄＢ低くなり得る。

そのような母音の開始は、レベルが、先行する音素のレベルよりも、たとえば４ｄＢ、１０ｄＢ、さらには２０ｄＢ強いとき、スピーチアタックと見なされ得る。

したがって、前の期間の平均スピーチレベルに対する（スピーチソースからの）スピーチのレベルの増加（すなわち、ソーススピーチレベルの増加）が、スピーチのアタックとして知られる。前の期間は、一般に、６０ミリ秒から１００ミリ秒までの範囲内にある。ソーススピーチレベルの増加は、一般に急激な増加であり、しばしば大幅な増加である。たとえば、たとえば５ミリ秒、１０ミリ秒又は２０ミリ秒以下の期間内のスピーチレベルの、たとえば少なくとも３ｄＢ、４ｄＢ、１０ｄＢ以上の増加が、スピーチのアタックであると考えられ得る。

検出器３０７は、詳細には、いくつかのシナリオでは、スピーチ発生を検出し、すなわち、スピーチアタック（スピーチのアタック）の特定の例がスピーチの発生である。したがって、検出器３０７は、（ビームフォーミングされたオーディオ出力信号上でスピーチコンテンツが検出されない）無音期間の後に、スピーチの期間がいつ開始するかを検出するように構成される。

検出器３０７はコントローラ３０９に結合され、コントローラ３０９は、適応器３０５及び検出器３０７に結合され、スピーチのアタックの検出から決定される適応時間間隔において適応が生じるようにビームフォームパラメータの適応を制御するように構成される。したがって、適応時間間隔は、スピーチセグメントの開始の検出に応答して決定される。適応時間間隔は、詳細には、スピーチのアタックが検出された（これ以降、スピーチアタック検出とも呼ばれる）ときに開始し、たとえば所定の持続時間を有する。

したがって、コントローラ３０９は、ビームフォーマ３０３の適応を開始するように構成され、意義深いことに、適応を停止するようにも構成される。したがって、コントローラ３０９は、スピーチセグメントが適応時間間隔の持続時間を超えて延長する場合でも、ビームフォーマ３０３の適応を停止するように構成される。したがって、コントローラ３０９は、スピーチセグメント中に適応時間間隔を終了するように構成される。したがって、コントローラ３０９は、詳細には新しいスピーチセグメントの開始時に一般に比較的短い時間間隔において生じるように、適応を制御するように構成される。多くの実施形態では、適応は、そのような適応時間間隔中にのみ生じる。

説明された例では、適応時間間隔は、所定の持続時間又は所定の最大持続時間を有する所定の適応時間間隔である。したがって、適応時間間隔は所定の最大持続時間を有し、したがって、適応は、この所定の最大持続時間の後に終了される。いくつかの実施形態では、コントローラは、たとえば、適応に適していない条件が検出された場合（詳細には、早期反射が支配的でないことが検出された場合）、所定の最大持続時間より前に適応時間間隔を終了するようにさらに構成される。

適応が連続的に（又は、所望のスピーチソースがアクティブであるときに連続的に）実行される従来の手法とは対照的に、コントローラ３０９は、スピーチセグメントの初期間隔において実行されるように適応を制限する。本手法は、詳細には、ビームフォーマ３０３を適応させる際にスピーチアタックの特定の特性が利用され得る時間期間中に適応が実行されるように、適応を制御する。本手法は、詳細には、適応の焦点を、それがスピーチセグメントのより後の時間間隔中よりも、直接経路又は早期反射が、より後の反射及び残響に対して有意である初期間隔に合わせる。発明者は、この効果を了解しただけでなく、それが、ビームフォーミングスピーチキャプチャシステムのための、特に、かなりの、しかしながらすべての可能な反射を含むのに十分でない持続時間を有するインパルス応答によって音響室内応答がモデル化されるシステムのための、適応の大幅な改善を与えることもわかった。

本手法は、さらに、スピーチがアクティブであるときはいつでもビームフォーマが連続的に適応されるシナリオについて発明者によって了解される効果を最初に説明することによって、解明される。

ビームフォーマのビームフォームフィルタは、オーディオソースから対応するマイクロフォンへの音響室内応答をエミュレートすることを試みるように適応される。所望のソースが残響半径外にある場合、直接場及び第１の反射によって引き起こされた、音場におけるエネルギーは、（残響を含む）反射の残りによって引き起こされたエネルギーと比較して、比較的低い。したがって、ビームフォーマがスピーチセグメント中に連続的に適応されるとき、適応は、一般に、全体的なキャプチャされるスピーチエネルギーがより大きくなるので、より後の反射に対するものである。したがって、直接経路及び第１の反射への適応ではなく、適応は、一般に、より後の反射に対するものである。

これは、図５に示されているように、スピーカーから２つの異なるマイクロフォンへの２つの簡略化された室内応答を考慮することによって示され得る。

本例では、室内応答は、同じ時間ｔ_ｄにおいてマイクロフォンに到着する直接場／経路寄与を含む。さらに、第１の反射は、同じ時間においてマイクロフォンに到着する（ｔ_ｒ１）。さらに、極めて強い反射が、異なる時間ｔ_ｒ２及びｔ_ｒ３においてマイクロフォンに到着する。そのようなシナリオにおいて、ビームフォームフィルタがＴ_Ｎに等しい適応フィルタのフィルタ長を有すると考えられる場合、適応フィルタが第１の反射辺りの時間をモデル化することが望まれ、すなわち、インパルス応答がτ_ｓからτ_ｓ＋Ｔ_Ｎの間の時間を反映することが望まれ、ここで、τ_ｓ＝ｔ_ｄ−Δであり、Δは、マイクロフォンにおいて同じ時間において到着しない直接場寄与を扱うことが可能であるのに十分に大きくなるように選択される。

しかしながら、そのようなシナリオでは、適応は、一般に、主に強い反射によって決定されるようにビームフォームフィルタのインパルス応答を適応させ、したがって、それらは遅延（ｔ_ｒ３−ｔ_ｒ２）をモデル化するように適応する。

これは、ビームフォーミングされた出力信号ｚが、フォワードマッチングフィルタにおいてマイクロフォン信号をフィルタ処理し、フィルタ処理された出力を加算することによって取得される、図４の２マイクロフォン例を考慮することから理解され得る。フォワードマッチングフィルタは、フィルタ係数に関する電力制約の下でｚの出力電力が最大化される適応プロセスにおいて得られる。これにより、ビームフォームフィルタのインパルス応答は、図６に示されているもののように見えるように適応されることになるが、所望の結果は図７のものである。したがって、同時応答により直接経路及び第１の反射がフィルタ処理の後にコヒーレントに加算することになる所望の結果ではなく、図６の適応されたフィルタにより、これらは減衰されることになる。

しかしながら、図３のシステムの手法では、スピーチのアタックが検出され、詳細には、直接経路からの第１の信号の到来が検出される。この時点において、適応時間間隔が初期化され、すなわち、ビームフォーマ３０３が、適応することを開始する。したがって、適応器３０５は、コントローラ３０９によって、図５中の時間ｔ＝ｔ_ｄにおいて適応を開始するように制御される。それは、続いて、Ｔ_Ｎの持続時間を有する適応時間間隔中にビームフォーマを更新し（詳細には出力電力を最大化する）、ここで、Ｔ_Ｎは所定であるか、又は、所定の最大値を有し、したがって、適応は、この持続時間内に受信された信号のみに基づいて適応される。この持続時間が十分に短く保たれる場合、適応は、大きい後の反射が到着する時間を含まず、したがって、適応は、より弱くより早期の反射（及び直接経路）に基づき得る。これは、特定の例において、ビームフォームフィルタが、図７の所望のインパルス応答を有するように適応されることを可能にする。

したがって、本手法は、システムが弱い直接経路及び第１の反射をモデル化することが可能になるので、ビームフォーマの適応が、スピーチのアタック中であり、減衰中でないとき、適応の改善が達成されるという洞察に基づく。

言い換えると、スピーチのアタックの場合、信号レベルは、一般に、極めて高速に、及び大幅に増加する。これにより、マイクロフォンアレイにおいて受信された直接経路及び（他の）早期反射が高レベルスピーチ信号から発生し、後の反射を介して、又は残響／拡散雑音として現在受信されている信号成分が、アタックより前に発生し、したがって低い信号レベルに対応する時間が生じる。これにより、室内応答が早期反射よりも強い後の反射／残響を呈する場合でも、早期反射が受信された信号を支配することになる。したがって、システムは、この状況を検出し、詳細には、これが生じたときにビームフォーマを適応させる。

したがって、本手法は、適応するときに所望のオーディオソースを他のオーディオソースからの雑音から分離するように考慮事項又は要望を拡張し、さらに、所望のオーディオソースから受信された異なる信号成分間の、詳細には、より早期の信号成分とより後の信号成分との間の差別化を導入する。したがって、本手法では、拡散音部分は、実際、所望のソースからも発生し、したがって、背景雑音又は他のオーディオソースがない状況においてさえ、本手法は、スピーチが存在するときはいつでも単に適応させる一般的な従来のシステムに勝る適応の改善を与える。本手法は、直接経路及び早期反射成分がより後の反射よりもはるかに弱いときでも、適応の改善を可能にし、実際、システムは、より後の反射がマイクロフォンアレイに達するのに十分な時間を有していなかったことにより、直接経路／早期反射が依然として支配する場合、スピーチのアタックへの適応を限定するように構成される。

異なる実施形態では、スピーチのアタックを検出するための異なる手法が使用されることが理解されよう。実際、スピーチ信号が、拡散背景雑音を含む他のオーディオソースに関して支配的であるいくつかの実施形態では、検出器３０７は、単に、信号レベルがいつ（たとえば、第１の直接経路の到着を検出するのに十分低く設定された）しきい値を上回って増加するかを検出するレベル検出器である。

しかしながら、たいていの実施形態では、有意な後の反射及び／又は雑音があり、より複雑な検出が有利に適用される。

たとえば、いくつかの実施形態では、検出器３０７は、受信された後の反射の信号レベルに対する受信された早期反射の信号レベルに応答してスピーチのアタックを直接検出するように構成される。実際、スピーチアタックの初期部分中は早期反射が後の反射を支配するが、スピーチセグメント自体中は後の反射が支配的である。

この効果は、早期反射が支配する時間に焦点を当てている適応において活用されるだけでなく、いくつかの実施形態では、スピーチのアタックを検出するためにも直接使用される。

一例として、検出器３０７は、ビームフォーミングされたオーディオ信号のエンベロープを決定し、その後、そのエンベロープ信号の高域フィルタ処理が続く。スピーチにおけるアタックは、エンベロープを鋭く上昇させるが、後の残響は、エンベロープを、残響時間によって決定された指数関数に従って緩やかに減衰させる。高域フィルタ処理はエンベロープ信号の減衰部分を除去し、アタックが残る。高域フィルタ処理されたエンベロープ信号がしきい値を超え、後の残響を超える場合、これは、スピーチのアタックの検出に対応すると考えられ得る。

別の例として、２つの低域フィルタが、受信された（スピーチ）信号をフィルタ処理し、一方の低域フィルタは他方よりも低いカットオフ周波数を有する（したがって、より長い持続時間にわたって「平均化」する）。スピーチのアタックが生じた場合、スピーチの信号レベルは、急激に、大幅に増加する。この増加により、低周波数カットオフフィルタ（ｌｏｗｅｒｆｒｅｑｕｅｎｃｙｃｕｔ−ｏｆｆｆｉｌｔｅｒ）についてよりも、高周波数カットオフフィルタ（ｈｉｇｈｅｒｆｒｅｑｕｅｎｃｙｃｕｔ−ｏｆｆｆｉｌｔｅｒ）について、出力レベルが高速に増加することになる。事実上、高周波数カットオフフィルタは、この場合、アタック後の信号（ｐｏｓｔａｔｔａｃｋｓｉｇｎａｌ）、したがって、アタックについての早期反射を表し、低周波数カットオフフィルタは、依然として、アタック前の全信号（ｐｒｅ−ａｔｔａｃｋｔｏｔａｌｓｉｇｎａｌ）を反映し、アタック前の全信号は、後の反射によって支配される。

したがって、スピーチのアタックは、フィルタ出力を比較し、高周波数カットオフフィルタの出力が低周波数カットオフフィルタの出力を所与の量だけ超えるときにスピーチアタックを示すことによって、検出される。

したがって、早期反射と後の反射とを表す信号（又は、早期反射と後の反射との合成を表す信号、すなわち全信号）を評価することによって、適応のための特に有利な状況が検出され得る。これらは、無音期間に続くスピーチ発生において検出されるだけでなく、通常の連続スピーチ中にも決定される。実際、それらは、直接及び早期反射が、受信されたスピーチ信号を支配するときはいつでも適応することが可能であるように検出され得る。スピーチの新しい部分が前の部分よりもはるかに大きいとき、直接及び早期反射は、前の部分からのより後の反射のより弱い部分を支配する。これが検出され、次いで適応が実行され、室内応答の所望のセクション、すなわち早期応答への適応の改善が生じる。

図３の例では、ビームフォーマ３０３は、ビームフォーミングされたオーディオ出力信号と１つ又は複数の雑音基準信号の両方を生成するように構成される。そのような実施形態では、検出器３０７は、少なくとも１つの雑音基準信号についての信号レベル（詳細には電力）指示に対するビームフォーミングされたオーディオ出力信号についての信号レベル（詳細には電力）指示の比較に応答してスピーチのアタックを検出するように構成される。したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは雑音基準信号の信号レベルと比較され、スピーチのアタックの検出はこの比較に基づく。たとえば、ビームフォーミングされたオーディオ出力信号の信号レベルが雑音基準信号の信号レベルを所与のマージンだけ超える場合、これは、スピーチのアタックの検出に対応すると考えられる。

実際、無音期間（又は、後の反射／残響が支配する場合、一定のスピーチレベル）の後に、ビームの方向においてキャプチャされたオーディオと、他の方向においてキャプチャされたオーディオとは、一般に、（場合によってはビームの幅の補償の後に）かなり類似する。たとえば、拡散雑音が空間的に一様に分布している場合、信号レベルの唯一の差分は、ビームが狭いことによるものであり、したがって、これは補償される。

しかしながら、ビームがすでに所望のスピーチソースに集束された（すなわち、何らかの適応がすでに実行された）場合、スピーチのアタックにより、対応する増加された信号レベルがビームフォーマ３０３によってキャプチャされることになり、ビームフォーミングされたオーディオ出力信号の信号レベルが増加する。さらに、ビームフォームフィルタが直接経路及び早期反射に適応され、これらが、初期アタック中、アタックから受信されるすべてであるとき、スピーチソースから受信されたエネルギーの大部分がキャプチャされ、したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは増加し、雑音基準信号の信号レベルは一定にとどまる。したがって、雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルは大幅に増加し、これは、スピーチのアタックとして検出され得る。

さらに、一定の遅延の後に、アタックからの後の反射がマイクロフォンアレイに到着する。しかしながら、これらが、ビームフォームフィルタのインパルス応答の持続時間よりも長い遅延を伴って到着した（すなわち、それらが、ビームフォームフィルタのインパルス応答の持続時間を超える遅延を伴う室内応答の反射である）場合、それらは、ビームフォーミングされたオーディオ出力信号にコヒーレントに合成されないが、結果として、雑音基準信号にも寄与している。したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは、（より後の反射がより強いと仮定して）雑音基準信号の信号レベルよりももはや高くなくなり、その結果、検出器３０７はスピーチのアタックをもはや検出しなくなる。

したがって、そのような検出器３０７は、詳細には、単にスピーチの存在とは対照的に、スピーチのアタックを検出することができる。さらに、これはスピーチセグメント中に連続的に行われ得、実際、本手法は、後の反射を支配する早期反射を生じるスピーチのアタックの自動検出を可能にする。これは、極めて有利な手法を与える。

実際、いくつかの実施形態では、適応時間間隔の開始と終了の両方が、検出器３０７の出力に応答して決定される。詳細には、適応時間間隔は、検出器３０７が、スピーチアタックが検出された（たとえば、信号レベルの差分がしきい値を超える）ことを示すときに開始され、検出器３０７がスピーチのアタックを検出しなくなる（たとえば、信号レベルの差分がもはやしきい値を超えなくなる）まで続く。いくつかの実施形態では、適応時間間隔の終了は、所定の持続時間の後に生じると決定される。他の実施形態では、終了時間は所定の最大持続時間の後に決定されるか、又は特定の条件が検出された場合、適応時間間隔はこれより前になるように決定される。

以下では、スピーチのアタックの検出についての特定の及び特に有利な手法が説明される。本手法は、ビームフォーミングされたオーディオ出力信号を雑音基準信号と比較する手法に基づくが、個々の時間周波数タイルにおける比較に基づく。本手法は、オーディオソースが残響半径外にあり、かなりの雑音が存在する特定のシナリオを含む多くの実際的シナリオにおいて、極めてロバストであり、極めて有利な性能を与える検出を与えることがわかっている。

本手法では、図３の検出器３０７は、図８に示されているような要素を備える。詳細には、検出器３０７は、スピーチのアタックが生じているか否かを示すスピーチアタック推定値を生成するように構成された検出器３０７を含む。検出器３０７は、ビームフォーマ３０３によって生成された、ビームフォーミングされたオーディオ出力信号及び雑音基準信号に基づいてこの推定値を決定する。

検出器３０７は、ビームフォーミングされたオーディオ出力信号に周波数変換を適用することによって第１の周波数ドメイン信号を生成するように構成された第１の変換器８０１を備える。詳細には、ビームフォーミングされたオーディオ出力信号は、時間セグメント／間隔に分割される。各時間セグメント／間隔は、たとえばＦＦＴによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第１の周波数ドメイン信号は周波数ドメインサンプルによって表され、各周波数ドメインサンプルが特定の時間間隔（対応する処理フレーム）と特定の周波数間隔とに対応する。各そのような周波数間隔及び時間間隔は、一般に、時間周波数タイルとして知られるフィールドにある。したがって、第１の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。

検出器３０７は、雑音基準信号を受信する第２の変換器８０３をさらに備える。第２の変換器８０３は、雑音基準信号に周波数変換を適用することによって第２の周波数ドメイン信号を生成するように構成される。詳細には、雑音基準信号は、時間セグメント／間隔に分割される。各時間セグメント／間隔は、たとえばＦＦＴによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第２の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。

図９は、第１の変換ユニット８０１及び第２の変換ユニット８０３の可能な実装形態の機能要素の特定の例を示す。本例では、直列並列変換器が２Ｂのサンプルの重複するブロック（フレーム）を生成し、それらは次いで、ハニング窓掛けされ、高速フーリエ変換（ＦＦＴ）によって周波数ドメインに変換される。

ビームフォーミングされたオーディオ出力信号及び雑音基準信号は、以下では、それぞれｚ（ｎ）及びｘ（ｎ）と呼ばれ、第１の周波数ドメイン信号及び第２の周波数ドメイン信号は、ベクトル

及び

によって参照される（各ベクトルは、所与の処理／変換時間セグメント／フレームについてのすべてのＭ周波数タイル値を含む）。

多くの実施形態では、ビームフォーマ３０３は、図１の例の場合のように、適応フィルタを備え、適応フィルタは、雑音基準信号と相関させられるビームフォーミングされたオーディオ出力信号における雑音を減衰又は除去する。

周波数ドメインへの変換の後に、時間周波数値の実数及び虚数成分は、ガウス分布していると仮定される。この仮定は、一般に、たとえば、拡散音場から雑音が発生するシナリオについて、センサー雑音について、及び多くの実際的シナリオにおいて経験されるいくつかの他の雑音ソースについて正確である。

第１の変換器８０１と第２の変換器８０３とは、差分プロセッサ８０５に結合され、差分プロセッサ８０５は、個々のタイル周波数についての時間周波数タイル差分測度を生成するように構成される。詳細には、差分プロセッサ８０５は、ＦＦＴから生じる各周波数ビンについての現在フレームについて、差分測度を生成することができる。差分測度は、ビームフォーミングされたオーディオ出力信号及び雑音基準信号の、すなわち、第１の周波数ドメイン信号及び第２の周波数ドメイン信号の対応する時間周波数タイル値から生成される。

特に、所与の時間周波数タイルについての差分測度は、第１の周波数ドメイン信号の（すなわち、ビームフォーミングされたオーディオ出力信号の）時間周波数タイル値のノルムの第１の単調関数と第２の周波数ドメイン信号（雑音基準信号）の時間周波数タイル値のノルムの第２の単調関数との間の差分を反映するように生成される。第１の単調関数と第２の単調関数とは、同じであるか又は異なる。

ノルムは、一般に、Ｌ１ノルム又はＬ２ノルムである。ここで、多くの実施形態では、時間周波数タイル差分測度は、第１の周波数ドメイン信号の値の大きさ又は電力（ｐｏｗｅｒ）の単調関数と第２の周波数ドメイン信号の値の大きさ又は電力の単調関数との間の差分を反映する差分指示として決定される。

単調関数は、一般に、両方とも単調増加であるが、いくつかの実施形態では、両方とも単調減少である。

異なる実施形態では異なる差分測度が使用されることが理解されよう。たとえば、いくつかの実施形態では、差分測度は、単に、第１の関数の結果及び第２の関数の結果を互いから減算することによって決定される。他の実施形態では、第１の関数の結果及び第２の関数の結果を互いで除算して、差分を示す比などを生成する。

したがって、差分プロセッサ８０５は、各時間周波数タイルについての時間周波数タイル差分測度を生成し、その差分測度は、その周波数におけるビームフォーミングされたオーディオ出力信号及び雑音基準信号それぞれの相対レベルを示す。

差分プロセッサ８０５は、スピーチアタック推定器８０７に結合され、スピーチアタック推定器８０７は、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してスピーチアタック推定値を生成する。したがって、スピーチアタック推定器８０７は、所与の周波数超の周波数についての周波数タイル差分測度を合成することによってスピーチアタック推定値を生成する。合成は、詳細には、所与のしきい値周波数超のすべての時間周波数タイル差分測度の、総和、又は、たとえば、周波数依存重み付けを含む重み付き合成（ｗｅｉｇｈｔｅｄｃｏｍｂｉｎａｔｉｏｎ）である。

したがって、スピーチアタック推定値は、所与の周波数超のビームフォーミングされたオーディオ出力信号のレベルと雑音基準信号のレベルとの間の相対周波数固有差分を反映するように生成される。しきい値周波数は、一般に、５００Ｈｚを上回る。

発明者は、そのような測度が、スピーチアタックが生じるか否かの強い指示を与えることを了解した。実際、発明者は、周波数固有比較が、より高い周波数への制限とともに、実際には、スピーチアタックの存在の指示の改善を与えることを了解した。さらに、発明者は、推定値が、音響環境、及び従来の手法が正確な結果を与えないシナリオにおいて適用するのに適していることを了解した。詳細には、説明される手法は、マイクロフォンアレイ３０１から遠くにあり（及び残響半径外にあり）、強い拡散雑音の存在下にある、非支配的スピーチソースについてさえ、スピーチアタックの有利で正確な検出を与える。

多くの実施形態では、スピーチアタック推定器８０７は、スピーチアタックが検出されたか否かを単に示すためにスピーチアタック推定値を生成するように構成される。詳細には、スピーチアタック推定器８０７は、合成された差分値がしきい値を超える場合、スピーチアタックが検出されたことを示すように構成される。したがって、生成された合成された差分値が、差分が所与のしきい値よりも高いことを示す場合、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されたと考えられる。合成された差分値がしきい値を下回る場合、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されなかったと考えられる。

したがって、説明される手法は、スピーチアタックの低複雑度検出を与える。特に、スピーチアタック推定値が、前に説明された特性を呈すること、すなわち、無音期間又は一定の信号レベル期間中は推定値が低くなり、アタックの後の反射ではなく早期反射が受信されるときのアタックの時間中は推定値が高くなり、（インパルス応答間隔外である）アタックの強い後の反射が受信されるときのアタックの後は推定値が低くなることに留意されたい。したがって、本手法は、スピーチアタック推定値が、単にスピーチの存在を検出することではなく、スピーチアタックが生じていることを直接示すことを可能にする。特定の手法は、さらに、実際には極めて効率的な性能を与えることがわかっており、実際、残響間隔外のスピーチソースについて、並びに、後の反射及び残響から生じる強い雑音の存在下で、有利な検出を与えることがわかった。

以下では、スピーチアタック推定値の極めて有利な決定の特定の例が説明される。

本例では、ビームフォーマ３０３は、前に説明されたように、所望のスピーチソースに集束するように適応する。ビームフォーマ３０３は、ソースに集束されるビームフォーミングされたオーディオ出力信号、並びに、他のソースからの後の残響及び場合によってはオーディオを示す雑音基準信号を与える。ビームフォーミングされたオーディオ出力信号はｚ（ｎ）として示され、雑音基準信号はｘ（ｎ）として示される。ｚ（ｎ）とｘ（ｎ）の両方は、一般に、後の残響及び場合によっては雑音で汚染され、それらの両方が拡散雑音としてモデル化され得る。

Ｚ（ｔ_ｋ，ω_ｌ）を、ビームフォーミングされたオーディオ出力信号に対応する（複素）第１の周波数ドメイン信号とする。この信号は、所望の（直接及び第１の反射）スピーチ信号Ｚ_ｓ（ｔ_ｋ，ω_ｌ）と、（ビームフォーマのビームフォームフィルタによってモデル化され得ない残響及び後の反射を含む）残響スピーチ信号Ｚ_ｒ（ｔ_ｋ，ω_ｌ）とからなり、
Ｚ（ｔ_ｋ，ω_ｌ）＝Ｚ_ｓ（ｔ_ｋ，ω_ｌ）＋Ｚ_ｒ（ｔ_ｋ，ω_ｌ）
である。

Ｚ_ｒ（ｔ_ｋ，ω_ｌ）の振幅が知られていた場合、変数ｄを、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜−｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜
のように導出することが可能であり、
これは、スピーチ振幅｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜を表す。

第２の周波数ドメイン信号、すなわち、雑音基準信号ｘ（ｎ）の周波数ドメイン表現は、Ｘ_ｎ（ｔ_ｋ，ω_ｌ）によって示される。

ｚ_ｒ（ｎ）とｘ（ｎ）とは、それらが両方とも拡散雑音を表し、等しい分散を伴う（ｚ_ｒ）信号を加算すること又は等しい分散を伴う（ｘ）信号を減算することによって取得されるので、等しい分散を有すると仮定され得、結果として、Ｚ_ｒ（ｔ_ｋ，ω_ｌ）及びＸ_ｎ（ｔ_ｋ，ω_ｌ）の実部及び虚部も等しい分散を有することになる。したがって、｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜は、上式では｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜によって置換され得る。

スピーチが存在しない（したがって、Ｚ（ｔ_ｋ，ω_ｌ）＝Ｚ_ｒ（ｔ_ｋ，ω_ｌ））場合、これは、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜−｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜
につながり、
ここで、｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とは、実部及び虚部がガウス分布しており、依存しないので、レイリー分布になる。

２つの確率変数の差分の平均は、平均の差分に等しく、したがって、上記の時間周波数タイル差分測度の平均値は０であり、
Ｅ｛ｄ｝＝０
である。

２つの確率信号の差分の分散は、個々の分散の和に等しく、したがって、
ｖａｒ（ｄ）＝（４−π）σ^２
である。

次に、分散は、（ｔ_ｋ，ω_ｌ）平面におけるＬ個の非依存値にわたって｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とを平均化することによって低減され得、

を与える。

平滑化（低域フィルタ処理）は平均を変更せず、したがって、

である。

２つの確率信号の差分の分散は、個々の分散の和に等しく、

である。

したがって、平均化は、雑音の分散を低減する。

したがって、スピーチが存在しないときの時間周波数タイル差分測度の平均値は、０である。しかしながら、スピーチ（直接及び第１の反射）の存在下では、平均値は増加する。詳細には、スピーチ成分のＬ個の値にわたる平均化は、｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜のすべての要素が正であり、
Ｅ｛｜Ｚ_ｓ（ｔ_ｋ，ω_ｌ）｜｝＞０
であるので、あまり効果がない。

したがって、スピーチが存在するとき、上記の時間周波数タイル差分測度の平均値は０を上回り、

である。

時間周波数タイル差分測度は、１よりも大きい過減算因子（ｏｖｅｒ−ｓｕｂｔｒａｃｔｉｏｎｆａｃｔｏｒ）γの形態の設計パラメータを適用することによって変更され、

である。

この場合、平均値

は、（直接及び第１の反射）スピーチが存在しないとき、及び実際、スピーチが存在するが、後の支配的な反射がビームフォームフィルタのインパルス応答の長さ／持続時間外の遅延を伴って到着するとき、０を下回る。しかしながら、過減算因子γは、スピーチアタックの存在下での平均値

が０を上回る傾向があるように選択される。

スピーチアタック推定値を生成するために、複数の時間周波数タイルについての時間周波数タイル差分測度は、たとえば単純な総和によって、合成される。さらに、合成は、第１のしきい値を上回る周波数についての時間周波数タイルのみを、場合によっては、第２のしきい値を下回る時間周波数タイルについてのみ、含むように構成される。

詳細には、スピーチアタック推定値は、次のように生成される。

このスピーチアタック推定値は、雑音基準信号におけるエネルギーの量に対する、ビームフォームフィルタインパルス応答のウィンドウ内に受信された所望のスピーチソースからのビームフォーミングされたオーディオ出力信号におけるエネルギーの量を示す。したがって、それは、スピーチアタックを区別するための特に有利な測度を与える。詳細には、スピーチのアタックは、ｅ（ｔ_ｋ）が正である場合、存在すると考えられる。ｅ（ｔ_ｋ）が負である場合、所望のスピーチソースが見つけられないか、又は、インパルス応答ウィンドウ外の後の反射が支配すると考えられる。他の実施形態では０以外の他のしきい値が使用されることが理解されよう。

上記の説明は図３のシステムの手法の背景及び利益を例示するが、本手法を損なうことなしに多くの変形及び変更が適用され得ることが理解されよう。

異なる実施形態では、たとえばビームフォーミングされたオーディオ出力信号の大きさと雑音基準信号の大きさとの間の差分を反映する差分測度を決定するために異なる関数及び手法が使用されることが理解されよう。実際、異なるノルムを使用すること又はノルムに異なる関数を適用することは、異なる特性をもつ異なる推定値を与えるが、依然として、所与の時間周波数タイルにおけるビームフォーミングされたオーディオ出力信号と雑音基準信号との間の基本的な差分を示す差分測度を生じる。

したがって、多くの実施形態では、前に説明された特定の手法が特に有利な性能を与えるが、他の実施形態では、適用例の特定の特性に応じて多くの他の関数及び手法が使用される。

より一般的には、差分測度は、
ｄ（ｔ_ｋ，ω_ｌ）＝ｆ_１（｜Ｚ（ｔ_ｋ，ω_ｌ）｜）−ｆ_２（｜Ｘ（ｔ_ｋ，ω_ｌ）｜）
のように計算され、
ここで、ｆ_１（ｘ）とｆ_２（ｘ）とは、個々の実施形態の特定の選好及び要件に適している任意の単調関数であるように選択され得る。一般に、関数ｆ_１（ｘ）及びｆ_２（ｘ）は、単調増加又は減少関数である。また、単に大きさを使用するのではなく、他のノルム（たとえば、Ｌ２ノルム）が使用されることが理解されよう。

時間周波数タイル差分測度は、上記の例では、第１の周波数ドメイン信号の大きさ（又は他のノルム）時間周波数タイル値の第１の単調関数ｆ_１（ｘ）と、第２の周波数ドメイン信号の大きさ（又は他のノルム）時間周波数タイル値の第２の単調関数ｆ_２（ｘ）との間の差分を示す。いくつかの実施形態では、第１の単調関数と第２の単調関数とは、異なる関数である。しかしながら、たいていの実施形態では、２つの関数は等しい。

さらに、関数ｆ_１（ｘ）及びｆ_２（ｘ）の一方又は両方は、たとえば、マイクロフォン信号の全体的な平均電力レベル、周波数など、様々な他のパラメータ及び測度に依存する。

多くの実施形態では、関数ｆ_１（ｘ）及びｆ_２（ｘ）の一方又は両方は、たとえば、周波数及び／又は時間次元における他のタイルにわたるＺ（ｔ_ｋ，ω_ｌ）、｜Ｚ（ｔ_ｋ，ω_ｌ）｜、ｆ_１（｜Ｚ（ｔ_ｋ，ω_ｌ）｜）、Ｘ（ｔ_ｋ，ω_ｌ）、｜Ｘ（ｔ_ｋ，ω_ｌ）｜、又はｆ_２（｜Ｘ（ｔ_ｋ，ω_ｌ）｜）のうちの１つ又は複数の平均化（すなわち、ｋ及び／又はｌの変動するインデックスについての値の平均化）による、他の周波数タイルについての信号値に依存する。多くの実施形態では、時間次元と周波数次元の両方において拡張する近傍にわたる平均化が実行される。早期に与えられた特定の差分測度式に基づく特定の例について後で説明するが、対応する手法が、差分測度を決定する他のアルゴリズム又は関数にも適用されることが理解されよう。

差分測度を決定するための可能な関数の例は、たとえば、
ｄ（ｔ_ｋ，ω_ｌ）＝｜Ｚ（ｔ_ｋ，ω_ｌ）｜^α−γ・｜Ｘ（ｔ_ｋ，ω_ｌ）｜^β
を含み、ここで、α及びβは、たとえば、

などにおける、一般にα＝βである設計パラメータであり、ここで、σ（ω_ｌ）は、差分測度及びスピーチアタック推定値の所望のスペクトル特性を与えるために使用される好適な重み付け関数である。

これらの関数が例にすぎず、距離測度を計算するための多くの他の式及びアルゴリズムが想定され得ることが理解されよう。

上式では、因子γは、差分測度を負値のほうへバイアスするために導入される因子を表す。特定の例は、雑音基準信号時間周波数タイルに適用される単純なスケール因子によってこのバイアスを導入するが、多くの他の手法が可能であることが理解されよう。

実際、負値のほうへのバイアスを与えるために第１の関数ｆ_１（ｘ）及び第２の関数ｆ_２（ｘ）を構成する任意の好適なやり方が使用される。バイアスは、詳細には、前の例の場合のように、スピーチがない場合、又はスピーチが主に後の（遅すぎる）反射によって受信される場合に負である差分測度の予想される値を生成するバイアスである。実際、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方がランダム雑音のみを含んでいる（たとえば、サンプル値が平均値のあたりで対称的に及びランダムに分布している）場合、差分測度の予想される値は、０ではなく負である。前の特定の例では、これは、スピーチアタックがないときに負値を生じた過減算因子γによって達成された。

説明される考慮事項に基づく検出器３０７の一例が、図１０において与えられる。本例では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とは、第１の変換器８０１及び第２の変換器８０３に与えられ、第１の変換器８０１及び第２の変換器８０３は、対応する第１の周波数ドメイン信号及び第２の周波数ドメイン信号を生成する。

周波数ドメイン信号は、たとえば、たとえば時間ドメイン信号の重複するハニング窓掛けされたブロックの短時間フーリエ変換（ＳＴＦＴ）を算出することによって、生成される。ＳＴＦＴは、概して、時間と周波数の両方の関数であり、２つの引数ｔ_ｋ及びω_ｌによって表され、ｔ_ｋ＝ｋＢは離散時間であり、ここで、ｋはフレームインデックスであり、Ｂはフレームシフトであり、ω_ｌ＝ｌω_０は（離散）周波数であり、ｌは周波数インデックスであり、ω_０は基本周波数間隔を示す。

したがって、この周波数ドメイン変換の後に、長さのベクトル

及び

それぞれによって表された周波数ドメイン信号が与えられる。

周波数ドメイン変換は、特定の例では、大きさユニット（ｍａｇｎｉｔｕｄｅｕｎｉｔ）１００１、１００３に供給され、大きさユニット１００１、１００３は、２つの信号の大きさを決定及び出力し、すなわち、それらは、値

を生成する。

他の実施形態では、他のノルムが使用され、処理は、単調関数を適用することを含む。

大きさユニット１００１、１００３は低域フィルタ１００５に結合され、低域フィルタ１００５は、大きさ値を平滑化する。フィルタ処理／平滑化は、時間ドメイン、周波数ドメイン、又は、しばしば有利にはその両方におけるものであり、すなわち、フィルタ処理は、時間次元と周波数次元の両方において拡張する。

フィルタ処理された大きさの信号／ベクトル

及び

は、

及び

とも呼ばれる。

フィルタ１００５は差分プロセッサ８０５に結合され、差分プロセッサ８０５は、時間周波数タイル差分測度を決定するように構成される。特定の例として、差分プロセッサ８０５は、次のように時間周波数タイル差分測度を生成する。

設計パラメータγ_ｎは、一般に、１．．２の範囲内にある。

差分プロセッサ８０５はスピーチアタック推定器８０７に結合され、スピーチアタック推定器８０７は、時間周波数タイル差分測度を供給され、応答して、続いて、これらを合成することによってスピーチアタック推定値を決定する。

詳細には、ω_ｌ＝ω_ｌｏｗからω_ｌ＝ω_ｈｉｇｈの間の周波数値についての時間周波数タイル差分測度

の和が、次のように決定される。

いくつかの実施形態では、この値は検出器３０７から出力される。他の実施形態では、決定された値は、しきい値と比較され、たとえば、スピーチアタックが検出されたと考えられるか否かを示す２進値を生成するために使用される。詳細には、値ｅ（ｔ_ｋ）は０のしきい値と比較され、すなわち、値が負である場合は、スピーチアタックが検出されなかったと考えられ、値が正である場合は、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されたと考えられる。

本例では、検出器３０７は、ビームフォーミングされたオーディオ出力信号の大きさ時間周波数タイル値についての、及び雑音基準信号の大きさ時間周波数タイル値についての低域フィルタ処理／平均化を含む。

平滑化は、詳細には、隣接値にわたって平均化を実行することによって実行される。たとえば、以下の低域フィルタ処理が第１の周波数ドメイン信号に適用される。

ここで、（Ｎ＝１の場合）Ｗは１／９の重みをもつ３＊３行列である。他の実施形態では、もちろんＮの他の値が使用され得、同様に、異なる時間間隔が使用され得ることが理解されよう。実際、フィルタ処理／平滑化がそれにわたって実行されるサイズは、たとえば周波数に応じて変動している（たとえば、より低い周波数についてよりも大きいカーネルが、より高い周波数について適用される）。

実際、フィルタ処理は、時間方向（考慮される隣接時間フレームの数）と周波数方向（考慮される隣接周波数ビンの数）の両方における好適な拡張を有するカーネルを適用することによって達成され、実際、このようなカーネルのサイズは、たとえば異なる周波数について又は異なる信号特性について変動していることが理解されよう。

また、上式においてＷ（ｍ，ｎ）によって表されるように、異なるカーネルは変動しており、これは、同様に、たとえば異なる周波数についての、又は信号特性に応答する動的変動である。

フィルタ処理は、後の残響及び雑音を低減し、したがってより正確な推定を与えるだけでなく、それは特に、（直接及び第１の反射）スピーチと後の残響及び雑音との間の差別化をも高める。実際、フィルタ処理は、ポイントオーディオソースの直接経路及び第１の反射に対する影響よりも大幅に大きな影響を後の残響及び雑音に対して有し、これにより、より大きい差分が時間周波数タイル差分測度について生成されることになる。

図１のものなど、ビームフォーマについてのビームフォーミングされたオーディオ出力信号と（１つ又は複数の）雑音基準信号との間の相関は、周波数が増加するにつれて低減することがわかった。したがって、スピーチアタック推定値は、しきい値を上回る周波数についての時間周波数タイル差分測度のみに応答して生成される。これにより、スピーチが存在するとき、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の無相関の増加、したがってより大きい差分が生じる。これにより、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの検出がより正確になる。

多くの実施形態では、５００Ｈｚを下回らない、又は、いくつかの実施形態では、有利には、１ｋＨｚ、さらには２ｋＨｚを下回らない周波数についての時間周波数タイル差分測度のみに基づくようにスピーチアタック推定値を限定することによって、有利な性能が見つけられた。

しかしながら、いくつかの適用例又はシナリオでは、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の有意な相関は、比較的高いオーディオ周波数についてさえ残り、実際、いくつかのシナリオでは、オーディオ帯域全体について残る。

実際、理想的な球状等方性拡散音場では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とが部分的に相関され、その結果、｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜及び｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜の予想される値は等しくなくなり、したがって、｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜は｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜と容易に置き換えられ得ない。

これは、理想的な球状等方性拡散音場の特性を見ることによって理解され得る。２つのマイクロフォンが、そのような場で距離ｄ離れて置かれ、それぞれマイクロフォン信号Ｕ（ｔ_ｋ，ω_ｌ）及びＵ_２（ｔ_ｋ，ω_ｌ）を有するとき、
Ｅ｛｜Ｕ_１（ｔ_ｋ，ω）｜^２｝＝Ｅ｛｜Ｕ_２（ｔ_ｋ，ω）｜^２｝＝２σ^２
及び

になり、
波数

（ｃは音速である）であり、σ^２は、ガウス分布している、Ｕ_１（ｔ_ｋ，ω_ｌ）及びＵ_２（ｔ_ｋ，ω_ｌ）の実部及び虚部の分散である。

ビームフォーマが単純な２マイクロフォン遅延和（Ｄｅｌａｙ−ａｎｄ−Ｓｕｍ）ビームフォーマであり、ブロードサイド（ｂｒｏａｄｓｉｄｅ）ビームを形成する（すなわち、遅延が０である）と仮定する。

Ｚ（ｔ_ｋ，ω_ｌ）＝Ｕ_１（ｔ_ｋ，ω_ｌ）＋Ｕ_２（ｔ_ｋ，ω_ｌ）、
及び、雑音基準信号の場合、
Ｘ（ｔ_ｋ，ω_ｌ）＝Ｕ_１（ｔ_ｋ，ω_ｌ）−Ｕ_２（ｔ_ｋ，ω_ｌ）
と書くことができる。

得られた予想される値について、後の残響及び場合によっては雑音のみが存在すると仮定すると、

である。

同様に、Ｅ｛｜Ｘ（ｔ_ｋ，ω）｜^２｝について、
Ｅ｛｜Ｘ（ｔ_ｋ，ω）｜^２｝＝４σ^２（１−ｓｉｎｃ（ｋｄ））
が得られる。

したがって、低い周波数について、｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とは、等しくない。

いくつかの実施形態では、検出器３０７は、そのような相関を補償するように構成される。特に、検出器３０７は、雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）を決定するように構成され、雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）は、雑音基準信号の振幅とビームフォーミングされたオーディオ出力信号の雑音成分の振幅との間の相関を示す。次いで、時間周波数タイル差分測度の決定は、このコヒーレンス推定値の関数としてのものである。

実際、多くの実施形態では、検出器３０７は、ビームフォーマからのビームフォーミングされたオーディオ出力信号及び雑音基準信号についてのコヒーレンスを、予想される振幅間の比に基づいて決定するように構成される。

ここで、Ｅ｛．｝は期待値演算子である。コヒーレンス項は、ビームフォーミングされたオーディオ出力信号における雑音成分の振幅と雑音基準信号の振幅との間の平均相関の指示である。

Ｃ（ｔ_ｋ，ω_ｌ）は、マイクロフォンにおける瞬時オーディオに依存せず、代わりに、雑音音場の空間的特性に依存するので、時間の関数としてのＣ（ｔ_ｋ，ω_ｌ）の変動は、Ｚ_ｒ及びＸ_ｎの時間変動よりもはるかに小さい。

その結果、Ｃ（ｔ_ｋ，ω_ｌ）は、直接スピーチ及び第１の反射が存在しない期間中の時間にわたって｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜と｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜とを平均化することによって、比較的正確に推定され得る。そうするための手法は、米国特許第７６０２９２６号において開示され、米国特許第７６０２９２６号は、詳細には、Ｃ（ｔ_ｋ，ω_ｌ）を決定するための、明示的スピーチ検出が必要とされない方法が記載されている。

雑音コヒーレンス推定値Ｃ（ｔ_ｋ，ω_ｌ）を決定するための任意の好適な手法が使用されることが理解されよう。たとえば、ｅ（ｔ_ｋ）があるしきい値を超えず、これが、直接スピーチ及び早期反射が利用可能／支配的でないことを示す、各時間周波数タイルについて、第１の周波数ドメイン信号と第２の周波数ドメイン信号とが比較され得、雑音相関推定値Ｃ（ｔ_ｋ，ω_ｌ）は、単に、第１の周波数ドメイン信号の時間周波数タイル値と第２の周波数ドメイン信号の時間周波数タイル値との平均比として決定され得る。

理想的な球状等方性拡散雑音場の場合、コヒーレンス関数も、上記で説明された手法に従って分析的に決定され得る。

この推定値に基づいて、｜Ｚ_ｒ（ｔ_ｋ，ω_ｌ）｜は、｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜だけではなく、Ｃ（ｔ_ｋ，ω_ｌ）｜Ｘ_ｎ（ｔ_ｋ，ω_ｌ）｜と置き換えられ得る。これにより、時間周波数タイル差分測度が

によって与えられる。

したがって、前の時間周波数タイル差分測度は、コヒーレンス関数が１の一定値に設定された、上記の差分測度の特定の例と考えられ得る。

コヒーレンス関数の使用により、本手法は、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の比較的強い相関がある周波数を含む、より低い周波数において使用されることが可能になる。

本手法は、さらに有利には、多くの実施形態では、適応キャンセラをさらに含み、適応キャンセラは、少なくとも１つの雑音基準信号と相関されるビームフォーミングされたオーディオ出力信号の信号成分をキャンセルするように構成されることが理解されよう。たとえば、図１の例と同様に、適応フィルタは、入力としての雑音基準信号を有し、その出力が、ビームフォーミングされたオーディオ出力信号から減算される。適応フィルタは、たとえば、スピーチが存在しない時間間隔中の得られた信号のレベルを最小化するように構成される。

したがって、スピーチのアタック中に、ビームフォーマからのビームフォーミングされたオーディオ出力信号が雑音基準と比較して大きく、雑音基準が、より後の、及び潜在的に支配的な反射が受信されたとき、（出力信号に対して）増加する（及び、後になっても、反射が拡散音場から来るものとしてモデル化され得る）という洞察は、特定のスピーチアタック推定値の発展につながった。実際、生成された測度ｅ（ｔ_ｋ）は、直接場及び第１の反射がマイクロフォン信号（ｅ（ｔ_ｋ）正）を支配するかどうか、或いは、残りの後の反射及び／又は拡散エコーがマイクロフォン信号（ｅ（ｔ_ｋ）負）を支配するかどうかの優れた指示を与える。それは、ビームフォーマが、一般的なスピーチセグメント中の頻繁な間隔中に適応されることをも可能にする。実際、それは、休止の後のスピーチセグメントのまさに開始においてのみ適応するように限定されないが、スピーチセグメント中にアタックが生じるときはいつでも適応が生じることを可能にする。

ビームフォーマを適応させるための、及びビームフォームフィルタについての好適な更新値を決定するための多くの異なる手法が知られており、任意の好適な手法が、図３（又は図１１）の適応器によって使用されることが理解されよう。

また、異なる適応ステップサイズ、したがって異なる適応レート又は帯域幅が使用され得ることが理解されよう。実際、多くの実施形態では、適応ステップサイズは、有利には適応可能にされ、動的に変動している。

実際、多くの実施形態では、（一定の頻度の更新について、ビームフォームパラメータの変更のサイズ、大きさ、又はスケーリングに対応する）適応レートが、個々の時間周波数タイルについて個々に適応されることが有利であることがわかっている。実際、発明者は、所与の時間周波数タイルについての時間周波数タイル差分に応答してそのタイルについての適応レートを適応させることが特に有利であることを了解した。詳細には、適応レート又はサイズは、その時間周波数タイルについての差分測度に依存する因子によってスケーリングされる。そのような手法の効果は、それが一般に適応を周波数依存にすることである。

特定の例として、適応ステップサイズは周波数依存利得関数を乗算され、周波数依存利得関数は、０から１の間で変動し、個々の時間周波数タイルについての差分測度に依存する。可能な利得関数は、詳細には、

である。

この利得因子は、

が

と比較して小さい状況では、Ｇ（ｔ_ｋ，ω_ｌ）が約１であるという特徴を有する。

が｜Ｚ（ｔ_ｋ，ω_ｌ）｜よりも大きい状況では、Ｇ（ｔ_ｋ，ω_ｌ）は０である。したがって、適応は、ビームフォーミングされたオーディオ出力信号のエネルギーレベルと雑音基準信号のエネルギーレベルとの比較から生じるスピーチアタックの指示を反映するように、周波数依存で適応される。

異なる実施形態では、適応時間間隔の持続時間が異なることが理解されよう。たとえば、いくつかの実施形態では、適応時間間隔は、スピーチのアタックが検出されたとき開始し、固定時間期間の間続く。そのような場合、適応持続時間がスピーチの蓄積全体を含むのに十分に長いが、好ましくは、強いより後の反射が支配的になるときに適応を含まないことが望ましい。

多くの実施形態では、適応時間間隔が長すぎないことが望ましく、実際、しばしば１００ミリ秒を下回る持続時間について性能の改善が見られることがわかっている。

本手法は、（人工的な）例によってさらに示される。第１に、スピーチ信号が単一のディラックパルスからなると考えられる場合、マイクロフォンにおいて受信された信号は、室内インパルス応答である。ビームフォームフィルタが、最初の、たとえば、１６ミリ秒をモデル化することができる（すなわち、ビームフォームフィルタインパルス応答長が１６ミリ秒である）と仮定される場合、第１の音がマイクロフォンに達した後、音の最初の１６ミリ秒のみがフィルタによってモデル化され得るので、これのみが有用である。したがって、１６ミリ秒後に適応を停止することが望ましい。

しかしながら、代わりに、スピーチ信号が、各々が１６ミリ秒だけ分離されるが、たとえば、１、１０００、１００００００の（すなわち、大幅に増加する）振幅をもつ３つの続いて起こるディラックパルスからなると仮定される場合、（一般に第１のディラックパルスの直接経路に対応する）第１の音の到着の後の最初の１６ミリ秒中、すべての受信された音は有用であり、適応するに値する。１６ミリ秒後、第１のパルスからの不要な音が受信され、すなわち、モデル化され得ない後の反射が第１のディラックパルスから受信される。しかしながら、さらに、有用で関連する音が第２のディラックパルスから受信される（すなわち、この音は、モデル化され得る室内応答の最初の１６ミリ秒内にあるので、これは、ビームフォームフィルタによって依然としてモデル化され得る）。さらに、第２のディラックパルスからのこの音は、第１のディラックパルスからの残りの音よりもはるかに強く、したがって有用である。したがって、依然として、ビームフォーマ３０３を適応させることが望ましい。これは、第３のディラックパルスについても繰り返し、すなわち、３２ミリ秒後、モデル化され得ない後の反射が第１及び第２のディラックパルスから受信されるが、同時に、モデル化され得る強い信号が第３のディラックパルスから受信されている。したがって、このシナリオでは、４８ミリ秒後に適応を停止することが望ましい。

したがって、（人工的なディラックパルスによって示される）事実上３つの異なるスピーチアタックが生じるこの状況では、適応時間間隔は、スピーチアタックの各検出において開始される。実際、各適応時間間隔が終了される前に、新しいスピーチアタックが検出され、適応時間間隔は、前のスピーチからの後の反射が（新しいアタックから生じるより高い信号レベルにより）新しいアタックについての早期反射によって支配されることを反映するように拡張される。

いくつかの実施形態では、適応時間間隔は、インパルス応答の持続時間の５０％から２００％の間の持続時間を有するように構成される。多くの実施形態では、適応時間間隔は、インパルス応答の持続時間を超えない持続時間を有するように構成される。特に、いくつかの実施形態では、そのような持続時間は、所定であるように設定される。たとえば、上記の特定のシナリオでは、インパルス応答は１６ミリ秒の持続時間を有し、適応時間間隔の持続時間は１６ミリ秒になるように設定される。これにより、本例では、１６ミリ秒の３つの連続する適応時間間隔が生じ、４８ミリ秒の所望の全体的適応持続時間が生じる。

多くの実施形態では、コントローラ３０９は、少なくとも１つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して適応時間間隔の終了時間を決定するように構成される。たとえば、雑音基準信号の信号電力に対するビームフォーミングされたオーディオ出力信号の信号電力の比又は差分が所与のレベルを下回る場合、これは、前に説明されたように、モデル化され得ない後の反射が支配的になっていることを示す。したがって、コントローラは適応を終了する。したがって、いくつかの実施形態では、コントローラ３０９は、特定の条件が生じたことが検出された場合、所定の最大持続時間より前に適応時間間隔を終了するように構成される。この条件は、詳細には、少なくとも１つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較によって決定される。

特定の例として、コントローラ３０９は、上記で導出された値ｅ（ｔ_ｋ）を連続的に監視し、これが所与のしきい値（一般に０）を下回る場合、適応は終了される。

したがって、実際、詳細にはｅ（ｔ_ｋ）などのスピーチアタック推定値がスピーチの非定常性により変動するので、コントローラがこれを連続的に監視する、システムが与えられる。スピーチアタック推定値がしきい値を上回って増加する場合、コントローラ３０９は適応を開始し、スピーチアタック推定値がしきい値を下回るとき、コントローラ３０９は適応を停止する。このようにして、本システムは、モデル化され得る直接経路及び早期反射が、モデル化され得ない後の反射及び残響を支配する時間中にのみ生じるように、ビームフォーマ３０３の適応を自動的に制御する。

以下では、特に有利なオーディオキャプチャシステムを与えるために、スピーチアタック検出器３０７が他の説明される要素と相互作用するオーディオキャプチャ装置が説明される。特に、本手法は、雑音の多い環境及び残響環境においてオーディオソースをキャプチャするのに極めて適している。本手法は、所望のオーディオソースが残響半径外にあり、マイクロフォンによってキャプチャされたオーディオが拡散雑音及び後の反射又は残響によって支配される適用例について、特に有利な性能を与える。

図１１は、本発明のいくつかの実施形態による、そのようなオーディオキャプチャ装置の要素の一例を示す。図３のシステムの要素及び手法は、以下で提示されるように、図１１のシステムに対応する。

オーディオキャプチャ装置は、図３のマイクロフォンアレイ３０１に直接対応するマイクロフォンアレイ１１０１を備える。本例では、マイクロフォンアレイ１１０１はオプションのエコーキャンセラ１１０３に結合され、エコーキャンセラ１１０３は、（１つ又は複数の）マイクロフォン信号におけるエコーに線形的に関係する（基準信号が利用可能である）音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。

エコーキャンセラ１１０３はオプションであり、多くの実施形態において簡単に省略されることが理解されよう。

マイクロフォンアレイ１１０１は、一般に、直接、又はエコーキャンセラ１１０３を介して（並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して）のいずれかで第１のビームフォーマ１１０５に結合される。第１のビームフォーマ１１０５は、図３のビームフォーマ３０３に直接対応する。

第１のビームフォーマ１１０５は、マイクロフォンアレイ１１０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ１１０１からの信号を合成するように構成される。したがって、第１のビームフォーマ１１０５は、第１のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ１１０５は適応ビームフォーマであり、その指向性は、第１のビームフォーマ１１０５のビームフォーム動作の、第１のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。

第１のビームフォーマ１１０５は第１の適応器１１０７に結合され、第１の適応器１１０７は、第１のビームフォームパラメータを適応させるように構成される。したがって、第１の適応器１１０７は、ビームがステアリングされ得るように第１のビームフォーマ１１０５のパラメータを適応させるように構成される。

さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ１１０９、１１１１を備え、制約付きビームフォーマ１１０９、１１１１の各々が、マイクロフォンアレイ１１０１の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ１１０１からの信号を合成するように構成される。したがって、制約付きビームフォーマ１１０９、１１１１の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第１のビームフォーマ１１０５と同様に、制約付きビームフォーマ１１０９、１１１１は、各制約付きビームフォーマ１１０９、１１１１の指向性が、制約付きビームフォーマ１１０９、１１１１の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。

したがって、オーディオキャプチャ装置は、第２の適応器１１１３を備え、第２の適応器１１１３は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させ、それにより、これらによって形成されたビームを適応させるように構成される。

図３のビームフォーマ３０３は、図１１の第１の制約付きビームフォーマ１１０９に直接対応する。また、残りの制約付きビームフォーマ１１１１は、第１のビームフォーマ１１０９に対応し、これの具体例と考えられ得ることが理解されよう。

したがって、第１のビームフォーマ１１０５と制約付きビームフォーマ１１０９、１１１１の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ１１０５、１１０９、１１１１は、フィルタ合成（又は、詳細には、たいていの実施形態ではフィルタ和）ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。

図３のビームフォーマ３０３は、ビームフォーマ１１０５、１１０９、１１１１のいずれかに対応し、実際、図３のビームフォーマ３０３に関して与えられたコメントは、図１１の第１のビームフォーマ１１０５及び制約付きビームフォーマ１１０９、１１１１のいずれかに等しく適用されることが理解されよう。

同様に、第２の適応器５１３は、図３の適応器３０５に直接対応する。

多くの実施形態では、第１のビームフォーマ１１０５及び制約付きビームフォーマ１１０９、１１１１の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のＦＩＲフィルタ構造を有するなどである。

しかしながら、第１のビームフォーマ１１０５及び制約付きビームフォーマ１１０９、１１１１の動作及びパラメータは異なり、特に、制約付きビームフォーマ１１０９、１１１１は、第１のビームフォーマ１１０５が制約されないやり方で制約される。詳細には、制約付きビームフォーマ１１０９、１１１１の適応は、第１のビームフォーマ１１０５の適応とは異なり、詳細には、いくつかの制約を受ける。

詳細には、制約付きビームフォーマ１１０９、１１１１は、適応（ビームフォームフィルタパラメータの更新）が、基準が満たされるときの状況に制約されるという制約を受けるが、第１のビームフォーマ１１０５は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第１の適応器１１０７は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第１のビームフォーマ１１０５によってキャプチャされたオーディオの（又は制約付きビームフォーマ１１０９、１１１１のいずれかの）特性によって制約されない。さらに、第２の適応器１１１３は、スピーチアタックの検出に応答して決定される適応時間間隔中にのみ適応するように構成される。

制約付きビームフォーマ１１０９、１１１１を適応させるための基準は、後でより詳細に説明される。

多くの実施形態では、第１のビームフォーマ１１０５についての適応レートは、制約付きビームフォーマ１１０９、１１１１についての適応レートよりも高い。したがって、多くの実施形態では、第１の適応器１１０７は、第２の適応器１１１３よりも高速に変動に適応するように構成され、したがって、第１のビームフォーマ１１０５は、制約付きビームフォーマ１１０９、１１１１よりも高速に更新される。これは、たとえば、最大化又は最小化されている値（たとえば、出力信号の信号レベル又は誤差信号の大きさ）の低域フィルタ処理が、第１のビームフォーマ１１０５について、制約付きビームフォーマ１１０９、１１１１についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ（詳細には、ビームフォームフィルタ係数）の更新ごとの最大変化は、第１のビームフォーマ１１０５について、制約付きビームフォーマ１１０９、１１１１よりも高い。

したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束（適応制約付き）ビームフォーマが、この制約を受けない、自走する（ｆｒｅｅｒｕｎｎｉｎｇ）より高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。

図１１のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。

第１のビームフォーマ１１０５と制約付きビームフォーマ１１０９、１１１１とは、出力プロセッサ１１１５に結合され、出力プロセッサ１１１５は、ビームフォーマ１１０５、１１０９、１１１１から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ１１０５、１１０９、１１１１からのオーディオ出力信号にある。

多くの実施形態では、出力プロセッサ１１１５からの出力信号は、ビームフォーマ１１０５、１１０９、１１１１からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。

したがって、出力プロセッサ１１１５の出力選択及び後処理は、特定用途向けであり、及び／又は、異なる実装形態／実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る（たとえば、最も強いスピーカーが選択される）などである。

ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。

通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。

いくつかの実施形態では、図１の雑音抑圧などの後処理が、（たとえば出力プロセッサ１１１５によって）オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。

図１１のシステムでは、第１のビームフォーマ１１０５と制約付きビームフォーマ１１０９、１１１１との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。

この目的で、オーディオキャプチャ装置は、ビーム差分プロセッサ１１１７を備え、ビーム差分プロセッサ１１１７は、制約付きビームフォーマ１１０９、１１１１のうちの１つ又は複数と第１のビームフォーマ１１０５との間の差分測度を決定するように構成される。差分測度は、第１のビームフォーマ１１０５及び制約付きビームフォーマ１１０９、１１１１それぞれによって形成されたビーム間の差分を示す。したがって、第１の制約付きビームフォーマ１１０９についての差分測度は、第１のビームフォーマ１１０５によって形成されるビームと第１の制約付きビームフォーマ１１０９によって形成されるビームとの間の差分を示す。このようにして、差分測度は、２つのビームフォーマ１１０５、１１０９がどのくらい密接に同じオーディオソースに適応されるかを示す。

異なる実施形態及び適用例では異なる差分測度が使用される。

いくつかの実施形態では、差分測度は、異なるビームフォーマ１１０５、１１０９、１１１１からの生成されたビームフォーミングされたオーディオ出力に基づいて決定される。一例として、単純な差分測度は、単に、第１のビームフォーマ１１０５及び第１の制約付きビームフォーマ１１０９の出力の信号レベルを測定し、これらを互いに比較することによって生成される。信号レベルが互いに近くなるほど、差分測度は低くなる（一般に、差分測度はまた、たとえば第１のビームフォーマ１１０５の実際の信号レベルの関数として増加する）。

より好適な差分測度が、多くの実施形態では、第１のビームフォーマ１１０５及び第１の制約付きビームフォーマ１１０９からのビームフォーミングされたオーディオ出力間の相関を決定することによって生成される。相関値が高くなるほど、差分測度は低くなる。

代替又は追加として、差分測度は、第１のビームフォーマ１１０５のビームフォームパラメータと第１の制約付きビームフォーマ１１０９のビームフォームパラメータとの比較に基づいて決定される。たとえば、所与のマイクロフォンについての第１のビームフォーマ１１０５のビームフォームフィルタ及び第１の制約付きビームフォーマ１１０９のビームフォームフィルタの係数は、２つのベクトルによって表される。次いで、これらの２つのベクトルの差分ベクトルの大きさが計算される。プロセスはすべてのマイクロフォンについて繰り返され、合成された、又は平均的な大きさが、距離測度として決定され、使用される。したがって、生成された差分測度は、ビームフォームフィルタの係数が第１のビームフォーマ１１０５と第１の制約付きビームフォーマ１１０９とについてどのくらい異なるかを反映し、これは、ビームについての差分測度として使用される。

したがって、図１１のシステムでは、第１のビームフォーマ１１０５のビームフォームパラメータと第１の制約付きビームフォーマ１１０９のビームフォームパラメータとの間の差分及び／又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。

差分測度を生成すること、決定すること、及び／又は使用することは、類似性測度を生成すること、決定すること、及び／又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、したがって、差分測度は類似性測度でもあり（その逆も同様）、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。

ビーム差分プロセッサ１１１７は、第２の適応器１１１３に結合され、これに差分測度を与える。第２の適応器１１１３は、差分測度に応答して制約付きビームフォーマ１１０９、１１１１を適応させるように構成される。詳細には、第２の適応器１１１３は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。したがって、所与の制約付きビームフォーマ１１０９、１１１１についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ１１０９、１１１１についての決定された差分測度が、第１のビームフォーマ１１０５のビームと所与の制約付きビームフォーマ１１０９、１１１１のビームとが十分に類似していないことを示す場合、適応は実行されない。

したがって、図１１のオーディオキャプチャ装置では、制約付きビームフォーマ１１０９、１１１１は、ビームの適応において制約される。詳細には、制約付きビームフォーマ１１０９、１１１１は、制約付きビームフォーマ１１０９、１１１１によって形成された現在のビームが、自走する第１のビームフォーマ１１０５が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ１１０９、１１１１は、第１のビームフォーマ１１０５が個々の制約付きビームフォーマ１１０９、１１１１に十分に近くなるように現在適応されている場合のみ適応される。

これの結果は、制約付きビームフォーマ１１０９、１１１１の適応が第１のビームフォーマ１１０５の動作によって制御され、それにより、効果的に、第１のビームフォーマ１１０５によって形成されたビームが、制約付きビームフォーマ１１０９、１１１１のうちのどちらが最適化／適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ１１０９、１１１１は、所望のオーディオソースが制約付きビームフォーマ１１０９、１１１１の現在の適応に近いときのみ適応される傾向がある。

適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。

多くの実施形態では、適応の制約は、さらなる要件を条件とする。

たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。したがって、個々の制約付きビームフォーマ１１０９、１１１１のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。

異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。

いくつかの実施形態では、制約付きビームフォーマ１１０９、１１１１の適応は、制約付きビームフォーマ１１０９、１１１１の出力において、いつスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。特に、検出器３０７の、前に説明された手法が適用される。

図３及び図１１のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。したがって、連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ１１０５、１１０９、１１１１は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ１１０９、１１１１を選択し、この制約付きビームフォーマ１１０９、１１１１を更新する／適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、１１ミリ秒から１１０ミリ秒の間の持続時間を有する。

いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ１１０９、１１１１の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。

本システムでは、適応は、さらに、ビームフォーミングされたオーディオ出力におけるスピーチアタックの検出に依存する。したがって、オーディオキャプチャ装置は、図３に関してすでに説明された検出器３０７をさらに備える。

検出器３０７は、詳細には、多くの実施形態では、制約付きビームフォーマ１１０９、１１１１の各々においてスピーチアタックを検出するように構成され、したがって、検出器３０７は、これらに結合され、ビームフォーミングされたオーディオ出力信号を受信する。さらに、検出器３０７は、制約付きビームフォーマ１１０９、１１１１からの雑音基準信号を受信する（明快のために、図１１は、ビームフォーミングされたオーディオ出力信号と雑音基準信号とを単一の線によって示し、すなわち、図１１の線は、ビームフォーミングされたオーディオ出力信号と（１つ又は複数の）雑音基準信号の両方、並びに、たとえばビームフォームパラメータを含むバスを表すと考えられる）。

したがって、図１１のシステムの動作は、前に説明された原理に従って検出器３０７によって実行されるスピーチアタック推定に依存する。検出器３０７は、詳細には、すべてのビームフォーマ１１０５、１１０９、１１１１についてのスピーチアタック推定値を生成するように構成される。

検出結果は検出器３０７から第２の適応器１１１３に受け渡され、第２の適応器１１１３は、これに応答して適応を適応させるように構成される。詳細には、第２の適応器１１１３は、スピーチアタックが検出されたことを検出器３０７が示す制約付きビームフォーマ１１０９、１１１１のみを適応させるように構成される。詳細には、図３のコントローラ３０９は第２の適応器１１１３中に含まれ、第２の適応器１１１３は、したがって、制約付きビームフォーマ１１０９、１１１１の適応を、スピーチアタックの検出に続く（短い）適応時間間隔においてのみ生じるように制約するように構成される。

したがって、オーディオキャプチャ装置は、スピーチアタックが生じている制約付きビームフォーマ１１０９、１１１１のみが適応され、その形成されたビームが第１のビームフォーマ１１０５によって形成されたビームに近くなるように、制約付きビームフォーマ１１０９、１１１１の適応を制約するように構成される。したがって、適応は、一般に、すでに（所望の）ポイントオーディオソースに近い制約付きビームフォーマ１１０９、１１１１に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ１１０９、１１１１を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。

多くの実施形態では、オーディオキャプチャ装置は、一度に１つの制約付きビームフォーマ１１０９、１１１１のみを適応させるように構成される。したがって、第２の適応器１１１３は、各適応時間間隔において、制約付きビームフォーマ１１０９、１１１１のうちの１つを選択し、ビームフォームパラメータを更新することによってこれのみを適応させる。スピーチアタックが複数の制約付きビームフォーマ１１０９、１１１１について検出されたシナリオでは、最も低い差分測度を有する制約付きビームフォーマ１１０９、１１１１が選択される。

いくつかの実施形態では、適応はビーム差分測度に依存しないことがあり、実際、そのような測度が決定されないことがある。実際、いくつかの実施形態では、適応は、スピーチアタック推定値のみに基づく。

たとえば、いくつかの実施形態では、第２の適応器１１１３は、スピーチアタックが検出されたすべての制約付きビームフォーマ１１０９、１１１１のための適応を可能にするように構成される。いくつかの実施形態では、第２の適応器１１１３は、スピーチアタックの最も強い指示が検出された制約付きビームフォーマ１１０９、１１１１のみのための適応を可能にするように構成される。

他の実施形態では、第２の適応器１１１３は、スピーチアタックの最も強い指示が現在のスピーチアタックがないことを示す場合でも、この指示を与える制約付きビームフォーマ１１０９、１１１１を単に選択するように構成される。

特定の例として、第２の適応器１１１３は、擬似コードで表される以下の演算を実行する。
ｅ_ｌ（ｔ_ｋ）が最も大きいビームフォーマｌを決定する
ｉｆ
ｅ_ｌ（ｔ_ｋ）＞０
ｔｈｅｎａｌｌｏｗｔｏａｄａｐｔ＝真
ｅｌｓｅ
ｉｆｅ_ｌ（ｔ_ｋ）＞ａｖｅｒａｇｅ（ｅ_ｉ（ｔ_ｋ））／ａ_ｔｈｒ∀ｉ，ｉ≠ｌ
ｔｈｅｎａｌｌｏｗｔｏａｄａｐｔ＝真
ｅｌｓｅａｌｌｏｗｔｏａｄａｐｔ＝偽
ｅｎｄ
ｉｆａｌｌｏｗｔｏａｄａｐｔ＝＝真
ｔｈｅｎ制約付きビームフォーマｋを適応させる
ｅｎｄ

したがって、いくつかの実施形態では、オーディオキャプチャ装置は、スピーチアタック推定値が現在のスピーチアタックを示す場合、又は、スピーチアタック推定値が、好適なマージンを伴って、任意の他の制約付きビームフォーマ１１０９、１１１１についてよりも、所与の制約付きビームフォーマについて強い場合、このビームフォーマを適応させるように構成される。この後者の条件が満たされる場合、それは、直接スピーチがビームフォーマｌにおいて存在するが、ビームフォーマがまだ正確に集束されていないことを示す。

上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、１つ又は複数のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションに実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。

本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有するという用語は、他の要素又はステップが存在することを除外するものではない。

さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び／又は有利でないことを暗示するものではない。また、請求項の１つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、「ａ」、「ａｎ」、「第１の」、「第２の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims

ビームフォーミングされたオーディオ出力信号を生成する第１のビームフォーマと、
前記第１のビームフォーマのビームフォームパラメータを適応させるための適応器と、
前記ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するための検出器と、
前記スピーチのアタックの前記検出に応答して決定された所定の適応時間間隔において生じるように前記ビームフォームパラメータの前記適応を制御するためのコントローラと
を備える、オーディオキャプチャ装置。
前記検出器は、受信された後の反射の信号レベルに対する受信された早期反射の信号レベルに応答して前記スピーチのアタックを検出する、請求項１に記載のオーディオキャプチャ装置。
前記第１のビームフォーマは、少なくとも１つの雑音基準信号を生成し、前記検出器は、前記少なくとも１つの雑音基準信号の信号レベルに対する前記ビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して前記スピーチのアタックを検出する、請求項１又は２に記載のオーディオキャプチャ装置。
前記コントローラは、前記少なくとも１つの雑音基準信号の信号レベルに対する前記ビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して前記所定の適応時間間隔を終了する、請求項３に記載のオーディオキャプチャ装置。
前記第１のビームフォーマは、少なくとも１つの雑音基準信号を生成し、前記検出器は、
前記ビームフォーミングされたオーディオ出力信号の周波数変換から第１の周波数ドメイン信号を生成するための第１の変換器であって、前記第１の周波数ドメイン信号が時間周波数タイル値によって表される、当該第１の変換器と、
前記少なくとも１つの雑音基準信号の周波数変換から第２の周波数ドメイン信号を生成するための第２の変換器であって、前記第２の周波数ドメイン信号が時間周波数タイル値によって表される、当該第２の変換器と、
前記第１の周波数ドメイン信号の時間周波数タイル値のノルムの第１の単調関数と前記第２の周波数ドメイン信号の時間周波数タイル値のノルムの第２の単調関数との間の差分を示す時間周波数タイル差分測度を生成する差分プロセッサと、
周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してスピーチアタック推定値を生成するためのスピーチアタック推定器と
を備える、請求項１乃至４の何れか一項に記載のオーディオキャプチャ装置。
前記検出器は、前記合成された差分値がしきい値を上回って増加することに応答して前記所定の適応時間間隔のための開始時間を決定する、請求項５に記載のオーディオキャプチャ装置。
前記検出器は、前記合成された差分値がしきい値を下回ることに応答して前記所定の適応時間間隔を終了する、請求項５又は６に記載のオーディオキャプチャ装置。
前記検出器は、前記ビームフォーミングされたオーディオ出力信号の振幅と前記少なくとも１つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成し、前記第１の単調関数及び前記第２の単調関数のうちの少なくとも１つが前記雑音コヒーレンス推定値に依存する、請求項５乃至７の何れか一項に記載のオーディオキャプチャ装置。
前記適応器は、第１の時間周波数タイルについての時間周波数タイル差分測度に応答して、前記第１の時間周波数タイルについてビームフォームパラメータについての適応レートを変更する、請求項５乃至８の何れか一項に記載のオーディオキャプチャ装置。
前記検出器は、前記第１の周波数ドメイン信号の時間周波数タイル値の前記ノルム及び前記第２の周波数ドメイン信号の時間周波数タイル値の前記ノルムのうちの少なくとも１つをフィルタ処理し、前記フィルタ処理は時間と周波数の両方において異なる時間周波数タイルを含む、請求項５乃至９の何れか一項に記載のオーディオキャプチャ装置。
前記スピーチのアタックから前記所定の適応時間間隔の終了までの持続時間は、１００ミリ秒を超えない、請求項１乃至１０の何れか一項に記載のオーディオキャプチャ装置。
前記オーディオキャプチャ装置は、前記第１のビームフォーマを含む複数のビームフォーマを備え、前記検出器は、前記複数のビームフォーマの各ビームフォーマについてのスピーチアタック推定値を生成し、前記オーディオキャプチャ装置は、前記スピーチアタック推定値に応答して前記複数のビームフォーマのうちの少なくとも１つを適応させるための適応器をさらに備える、請求項１に記載のオーディオキャプチャ装置。
前記複数のビームフォーマは、前記ビームフォーミングされたオーディオ出力信号と前記少なくとも１つの雑音基準信号とを生成する第１のビームフォーマと、マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力と少なくとも１つの制約付き雑音基準信号とを各々が生成する複数の制約付きビームフォーマとを備え、前記適応器は、
第１の制約付きビームフォーマについてのスピーチアタック推定値が、スピーチアタックが前記第１の制約付きビームフォーマについて検出されたことを示すこと、及び
第１の制約付きビームフォーマについてのスピーチアタック推定値が、前記複数の制約付きビームフォーマのうちの任意の他の制約付きビームフォーマについてのスピーチアタック推定値よりも高い、スピーチアタックの確率を示すこと
のグループからの少なくとも１つの制約を含む基準を条件とする当該第１の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させる、
請求項１２に記載のオーディオキャプチャ装置。
前記オーディオキャプチャ装置は、前記複数の制約付きビームフォーマのうちの少なくとも１つについての差分測度を決定するためのビーム差分プロセッサであって、前記差分測度が、前記第１のビームフォーマによって形成されたビームと前記複数の制約付きビームフォーマのうちの前記少なくとも１つによって形成されたビームとの間の差分を示す、当該ビーム差分プロセッサをさらに備え、
前記適応器は、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、当該制約付きビームフォームパラメータを適応させる、
請求項１３に記載のオーディオキャプチャ装置。
ビームフォーマが、ビームフォーミングされたオーディオ出力信号を生成するステップと、
前記ビームフォーマのビームフォームパラメータを適応させるステップと、
前記ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するステップと、
前記スピーチのアタックの前記検出に応答して決定された所定の適応時間間隔において生じるように前記ビームフォームパラメータの前記適応を制御するステップと
を有する、オーディオキャプチャの方法。