JP2013543987A

JP2013543987A - 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体

Info

Publication number: JP2013543987A
Application number: JP2013534943A
Authority: JP
Inventors: ビッサー、エリック
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-10-22
Filing date: 2011-10-07
Publication date: 2013-12-09
Also published as: US20120099732A1; US9100734B2; KR20130084298A; EP2630807A1; WO2012054248A1; CN103181190A

Abstract

マルチチャネル信号処理のための装置は、推定音源方向でビームにより分離フィルタバンクを初期化すること、指定の制約下で分離フィルタバンクを適応させること、方向に対する最大応答に基づいて適応解を正規化することによって、様々な音響源から信号成分を分離する。そのような装置を使用して、マイクロフォンアレイの遠距離場において互いに近い音源から信号成分を分離することができる。

Description

優先権の主張

米国特許法第１１９条に基づく優先権の主張
本特許出願は、２０１０年１０月２２日に出願され、本出願の譲受人に譲渡された「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＰＰＡＲＡＴＵＳ，ＡＮＤＣＯＭＰＵＴＥＲ−ＲＥＡＤＡＢＬＥＭＥＤＩＡＦＯＲＦＡＲ−ＦＩＥＬＤＭＵＬＴＩ−ＳＯＵＲＣＥＴＲＡＣＫＩＮＧＡＮＤＳＥＰＡＲＡＴＩＯＮ」と題する仮出願第６１／４０５，９２２号の優先権を主張する。

本開示は、オーディオ信号処理に関する。

一般的構成によるマルチチャネル信号を処理するための装置は、（Ａ）マルチチャネル信号に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号を生成するように構成された第１のフィルタと、（Ｂ）マルチチャネル信号に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号を生成するように構成された第２のフィルタとを有するフィルタバンクを含む。本装置は、第１の音源方向に基づいて、複数の第１の係数の初期値セット（initial set of values）を生成するように、また第１の音源方向とは異なる第２の音源方向に基づいて、複数の第２の係数の初期値セットを生成するように構成されたフィルタ方位モジュールも含む。本装置は、複数の応答に基づいて、指定の特性を有する応答を特定し、指定の特性を有する前記応答に基づいて複数の第１の係数の初期値セットを更新するように構成されたフィルタ更新モジュールも含む。本装置において、前記複数の応答の各応答は、複数の方向のうちの対応する１つにおける応答である。

一般的構成による装置Ａ１００のブロック図。マイクロフォンアレイＲ１００と装置Ａ１００のインスタンスとを含むデバイスＤ１０のブロック図。点音源から受信した信号成分の、アレイＲ１００のマイクロフォンＭＣ１０およびＭＣ２０の軸に対する到来方向θ_jを示す図。装置Ａ１００の実装形態Ａ１１０のブロック図。ＭＶＤＲビームパターンの一例を示す図。ある初期条件セットに基づく図３Ａのビームパターンの変形を示す図。別の初期条件セットに基づく図３Ａのビームパターンの変形を示す図。２つの指向性音源がアレイから２．５メートルのところで、アレイに対して互いから約４０〜６０度のところに位置する場合における４つのＢＳＳフィルタからなる一セットの一例を示す図。２つの指向性音源がアレイから２．５メートルのところで、アレイに対して互いから約１５度のところに位置する場合における４つのＢＳＳフィルタのセットの一例を示す図。別の観点からのＢＳＳ適応ビームパターンの一例を示す図。フィルタ更新モジュールＵＭ１０の実装形態ＵＭ２０のブロック図。フィルタ更新モジュールＵＭ２０の実装形態ＵＭ２２のブロック図。制約付きＢＳＳによる適応の前（上のプロット）および後（下のプロット）における２つの音源フィルタの一例を示す図。制約付きＢＳＳによる適応の前（上のプロット）および後（下のプロット）における２つの音源フィルタの別の例を示す図。部分的適応の前（上のプロット）および後（下のプロット）におけるビームパターンの例を示す図。フィルタバンクＢＫ１０のフィードフォワード実装形態ＢＫ２０のブロック図。フィードフォワードフィルタＦＦ１０Ａの実装形態ＦＦ１２Ａのブロック図。フィードフォワードフィルタＦＦ１０Ｂの実装形態ＦＦ１２Ｂのブロック図。ＦＩＲフィルタＦＩＲ１０のブロック図。フィードフォワードフィルタＦＦ１２Ａの実装形態ＦＦ１４Ａのブロック図。装置Ａ１００の実装形態Ａ２００のブロック図。カメラＣＭ１０を有するアレイＲ１００の４マイクロフォン実装形態Ｒ１０４の構成の一例の上面図。到来方向の推定に関する遠距離場モデルを示す図。装置Ａ１００の実装形態Ａ１２０のブロック図。装置Ａ１２０およびＡ２００の実装形態Ａ２２０のブロック図。ＤＯＡ推定にＳＲＰ−ＰＨＡＴを使用した結果によるヒストグラムの例を示す図。ＩＶＡ適応ルール（４０〜６０度の音源分離）を使用して適応した逆混合行列の異なる出力チャネルに関する４つのヒストグラムのセットの一例を示す図。ＩＶＡ適応ルール（１５度の音源分離）を使用して適応した逆混合行列の異なる出力チャネルに関する４つのヒストグラムのセットの一例を示す図。異なるアレイ縦方向で固定された４チャネルシステムのフィルタのビームパターンの一例を示す図。装置Ａ１１０の実装形態Ａ１４０のブロック図。一般的構成による、マルチチャネル信号を処理する方法Ｍ１００のフローチャート。方法Ｍ１００の実装形態Ｍ１２０のフローチャート。別の一般的構成による、マルチチャネル信号を処理するための装置ＭＦ１００のブロック図。装置ＭＦ１００の実装形態ＭＦ１２０のブロック図。マイクロフォン間隔および結果として生じるアレイによるビームパターンの例を示す図。マイクロフォン間隔および結果として生じるアレイによるビームパターンの例を示す図。マイクロフォン間隔および結果として生じるアレイによるビームパターンの例を示す図。一般的な単方向マイクロフォン応答の図。単方向マイクロフォンの不均一な線形アレイの図。アレイＲ１００の実装形態Ｒ２００のブロック図。アレイＲ２００の実装形態Ｒ２１０のブロック図。デバイスＤ１０の一実装形態である通信デバイスＤ２０のブロック図。デバイスＤ１０の一実装形態である通信デバイスＤ３０のブロック図。デバイスＤ１０の会議実装形態の例の上面図。デバイスＤ１０の会議実装形態の例の上面図。デバイスＤ１０の会議実装形態の例の上面図。デバイスＤ１０の会議実装形態の例の上面図。デバイスＤ１０の実装形態ＤＳ１０のブロック図。デバイスＤ１０の実装形態ＤＳ２０のブロック図。オーディオ感知デバイスＤ１０の一実装形態に関する遠距離場使用事例を示す図。オーディオ感知デバイスＤ１０の一実装形態に関する遠距離場使用事例を示す図。ハンドセットＨ１００の正面図、背面図、および側面図。

図３Ａ〜図３Ｃ、図４、図５、図８〜図１０および図２１、ならびに図２６Ａ〜図２６Ｃのプロットは、元の図に表示されていた情報の一部のみを提示する疑似カラー図のグレースケールマッピングであることに留意されたい。これらの図では、元の中央値は白にマッピングされ、元の最小値および最大値はいずれも黒にマッピングされる。

ビームフォーミングのためのデータ独立型方法は、様々な音源から（たとえば、所望の音源から、また干渉音源から）到来する音響成分を、それぞれの音源の方向の推定に基づいて分離するマルチチャネル信号処理において一般に有用である。しかしながら、音源方向推定およびビームフォーミングの既存の方法は、遠くの音源から到来する音響成分を確実に分離するには通常不十分であり、とりわけ、所望の信号および干渉信号が類似の方向から到来する場合はなおさらである。開ループビームフォーミング解のみではなく、空間フィルタ処理演算の実際の分離出力からの情報に基づく適応解を使用するのが望ましいことがある。残念ながら、十分なレベルの区別をもたらす適応解は、長い収束期間を有し得る。長い収束期間を有する解は、動いていることおよび／または互いに極めて接近していることのある遠くの音源を伴うリアルタイム適用にとって非実用的であり得る。

遠くの音源からの信号はまた、残響の問題を抱えている可能性が高く、適応アルゴリズムは、分離信号にさらなる残響をもたらすことがある。既存の音声残響除去方法は逆フィルタ処理を含み、これは、音源信号（たとえば音声）のスペクトルを白色化せずに室内インパルス応答を反転させようとする。しかしながら、室内伝達関数は音源位置に大きく依存する。したがって、そのような方法は一般に、室内インパルス伝達関数のブラインド反転を必要とし、これは音声の著しい歪みにつながり得る。

たとえば、室内で、かつ／または干渉音源がある状況下で使用されるデバイスの音声品質を向上させるために使用され得る残響除去および／または干渉除去システムを提供するのが望ましいことがある。そのようなシステムの適用例には、セットトップボックス、または電話のような音声通信アプリケーションをサポートするように構成された他のデバイスがある。所望の音源の方向と干渉音源の方向との差異が小さくなるにつれて、競合する解に対する本明細書で説明する解のパフォーマンスの優位性は増すと予想され得る。

その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置のセット）の状態を含む、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、複数の値からの計算（computing）、評価、平滑化、および／または選択など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「取得（obtaining）」という用語は、計算、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択（selecting）」という用語は、２つ以上のセットのうちの少なくとも１つ、およびすべてよりも少数を識別、指示、適用、および／または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える（comprising）」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「から導出される」（たとえば、「ＢはＡのプリカーサーである」）、（ｉｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉｉ）「に等しい」（たとえば、「ＡはＢに等しい」）という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。

マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、２つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、１０を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、（たとえば、高速フーリエ変換によって生成される）信号の周波数領域表現のサンプル、あるいは信号のサブバンド（たとえば、バーク尺度またはメル尺度サブバンド）など、信号の周波数または周波数帯域のセットのうちの１つを示すのに使用される。

別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および／またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。また、文書の一部分の参照によるいかなる組込みも、その部分内で参照される用語または変数の定義が、その文書中の他の場所、ならびに組み込まれた部分中で参照される図に現れた場合、そのような定義を組み込んでいることを理解されたい。定冠詞によって最初に導入されない限り、請求要素を変更するのに使用される順序を示す用語（たとえば、「第１の」、「第２の」、「第３の」など）は、それ自体、別のものに関する請求要素の優先順位または順序を示しておらず、請求要素を、（順序を示す用語の使用を別にすれば）同じ名前を有する別の請求要素から区別しているだけである。その文脈によって明確に限定されない限り、「複数」という用語は、１よりも大きい整数の量を示すために本明細書で使用される。

遠距離場オーディオ処理（たとえば音声強調）の適用は、１つまたは複数の音源が録音デバイスからかなりの距離（たとえば２メートル以上の距離）に位置するときに生じ得る。テレビジョンディスプレイを伴う多くの適用では、たとえば、ソファーに座り、テレビを見る、ビデオゲームをする、音楽ビデオゲームと対話するなどの活動をしている話者は通常、ディスプレイから少なくとも２メートル離れたところに位置する。

遠距離場使用事例の第１の例では、いくつかの異なる音源を含む音響シーンの記録を分解して、個別の音源のうちの１つまたは複数からそれぞれの音響成分を取得する。たとえば、様々な音源（たとえば、様々な声および／または楽器）からの音声が分離されるように、生の音楽演奏を記録するのが望ましいことがある。別のそのような例では、「ロックバンド」タイプのビデオゲームのようなビデオゲームの２人以上の異なるプレーヤからの音声入力（たとえば、命令および／または歌唱）を区別するのが望ましいことがある。

遠距離場使用事例の第２の例では、マルチマイクロフォンデバイスを使用して、（「ズームインマイクロフォン（zoom-in microphone）」とも呼ばれる）ビューの音場を狭めることによって遠距離場音声強調を実行する。カメラを通じてシーンを見ているユーザは、カメラのレンズのズーム機能を使用して、たとえば、個々の話者または他の音源に対するビューの視界を選択的に拡大縮小することができる。相補的音響「ズームイン」効果をもたらすために、視覚的ズーム動作と同期して、記録される音響領域も被選択音源に狭められるように、カメラを実装するのが望ましいことがある。

遠距離場使用事例の第３の例では、マイクロフォンアレイがテレビ受像機に（たとえば、スクリーンの上端に沿って）またはセットトップボックスに取り付けられた録音システムは、（図３２Ａおよび図３２Ｂに示すように）約２〜３メートル離れてソファーに隣り合わせに座っているユーザを区別するように構成される。たとえば、肩と肩が触れ合って座っている話者の声を区別するのが望ましいことがある。そのようなオペレーションは、（室内に散乱した音声ではなく）聞き手の前に話者が立っている聴感印象をもたらすように設計され得る。そのような使用事例のアプリケーションには、電話および音声作動遠隔制御装置（たとえば、テレビジョンチャンネル、ビデオソース、および／または音量調節設定の間の音声制御選択用）がある。

遠距離場音声強調の適用は固有の問題を示している。これらの遠距離場使用事例では、音源とトランスデューサとの間の距離が拡大すると、特にオフィス、家庭もしくは車内または別の密閉空間内に被記録信号の強い残響が生じる傾向がある。音源位置が不確かであることも、遠距離場適用に特有のロバストな解が必要である理由となっている。所望の話者とマイクロフォンとの間の距離は大きいので、直接経路対残響比は小さく、音源位置を特定するのは難しい。また、遠距離場使用事例において、低周波フォルマント合成（low-frequency formant synthesis）および／または高周波ブーストのような追加の音声スペクトル整形を実行して、室内ローパスフィルタ処理効果のような効果と低周波数における強い残響力とを弱めるのが望ましいこともある。

特定の遠くの音源から到来する音響成分を区別することは、単にビームパターンを特定の方向に狭めることではない。ビームパターンの空間幅が、フィルタの規模を拡大することによって（たとえば、より長い初期係数値セットを使用してビームパターンを定義することによって）狭められ得るが、音源の単一の到来方向にのみ依存すると、実際にはフィルタが音源エネルギーの大部分を逃すことになり得る。残響などの影響により、たとえば、音源信号は通常、異なる周波数においてやや異なる方向から到来し、結果的に、遠くの音源の到来方向は一般にはっきりしない。したがって、信号のエネルギーは、特定の方向に集中するのではなく、角度範囲にわたって拡散することがあり、特定の音源の到来角を、単一の方向におけるピークではなく周波数範囲にわたる重心として特徴付けるのがより有用であり得る。

フィルタのビームパターンが、単一の方向（たとえば、任意の１つの周波数における最大エネルギーによって示される方向）だけでなく、異なる周波数における方向の集中の範囲をカバーするのが望ましいことがある。たとえば、ビームが、様々な対応周波数において、そのような集中の範囲内で、若干異なる方法に向くことができるのが望ましいことがある。

適応ビームフォーミングアルゴリズムを使用して、１つの周波数における特定の方向での最大応答と、別の周波数における異なる方向での最大応答とを有するフィルタを取得することができる。適応ビームフォーマは一般に、正確なボイスアクティビティ検出に依存するが、これは遠距離場の話者にとって達成するのが難しい。そのようなアルゴリズムはまた、所望の音源からの信号と干渉音源からの信号とが類似のスペクトルを有するとき（たとえば、２つの音源の両方が人々の話声であるとき）パフォーマンスが芳しくないことがある。適応ビームフォーマの代替としてブラインド音源分離（ＢＳＳ）解を使用して、１つの周波数における特定の方向での最大応答と、別の周波数における異なる方向での最大応答とを有するフィルタを取得することもできる。しかしながら、そのようなアルゴリズムは、遅い収束、極小値への収束、および／またはスケーリングのあいまいさを示すことがある。

良好な初期条件を提供するデータ独立型、開ループ手法（たとえば、ＭＶＤＲビームフォーマ）を、ボイスアクティビティ検出器を使用せずに出力間の相関を最小限に抑える閉ループ方法（たとえば、ＢＳＳ）と組み合わせて、改良されたロバストな分離解を提供するのが望ましいことがある。ＢＳＳ方法は経時的に適応を実行するので、残響環境においてもロバストな解を生成することが期待され得る。

ヌルビームを使用してフィルタを初期化する既存のＢＳＳ初期化手法とは対照的に、本明細書で説明する解は、音源ビームを使用してフィルタを初期化し、指定の音源方向に集中する。そのような初期化なしに、ＢＳＳ方法がリアルタイムで有用な解に適応することを期待するのは現実的でないことがある。

図１Ａは、一般的構成による装置Ａ１００のブロック図を示しており、装置Ａ１００は、フィルタバンクＢＫ１０と、フィルタ方位モジュールＯＭ１０と、フィルタ更新モジュールＵＭ１０とを含み、マルチチャネル信号（この例では入力チャネルＭＣＳ１０−１およびＭＣＳ１０−２）を受信するように構成される。フィルタバンクＢＫ１０は、マルチチャネル信号に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号ＯＳ１０−１を生成するように構成される。フィルタバンクＢＫ１０はまた、マルチチャネル信号に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号ＯＳ１０−２を生成するように構成される。フィルタ方位モジュールＯＭ１０は、第１の音源方向ＤＡ１０に基づく複数の第１の係数の初期値セットＣＶ１０を生成し、第１の音源方向ＤＡ１０とは異なる第２の音源方向ＤＡ２０に基づく複数の第２の係数の初期値セットＣＶ２０を生成するように構成される。フィルタ更新モジュールＵＭ１０は、第１および第２の出力信号からの情報に基づき、複数の第１および第２の係数の初期値セットを更新して、対応する更新値セット（updated set of values）ＵＶ１０およびＵＶ２０を生成するように構成される。

音源方向ＤＡ１０およびＤＡ２０の各々が、入力チャネルＭＣＳ１０−１およびＭＣＳ１０−２を生成するマイクロフォンアレイに対する（たとえば、アレイのマイクロフォンの軸に対する）対応する音源の推定方向を示すのが望ましいことがある。図１Ｂは、デバイスＤ１０のブロック図を示しており、デバイスＤ１０は、マイクロフォンアレイＲ１００と、アレイから（たとえば、入力チャネルＭＣＳ１０−１およびＭＣＳ１０−２を含む）マルチチャネル信号ＭＣＳ１０を受信するように構成された装置Ａ１００のインスタンスとを含む。図１Ｃは、点音源ｊから受信した信号成分の、アレイＲ１００のマイクロフォンＭＣ１０およびＭＣ２０の軸に対する到来方向θ_jを示している。アレイの軸は、マイクロフォンの音響的に敏感な面の中心を通る線として定められている。この例では、標示ｄは、マイクロフォンＭＣ１０とマイクロフォンＭＣ２０との間の距離を示している。

フィルタ方位モジュールＯＭ１０は、ビームフォーミングアルゴリズムを実行して、それぞれの音源方向ＤＡ１０、ＤＡ２０におけるビームを記述した初期係数値セットＣＶ１０、ＣＶ２０を発生させるように実装され得る。ビームフォーミングアルゴリズムの例には、ＤＳＢ（遅延和ビームフォーミング）、ＬＣＭＶ（線形制約最小分散）、およびＭＶＤＲ（最小分散無歪み応答）がある。一例では、フィルタ方位モジュールＯＭ１０は、次のようなデータ独立式に従って、各フィルタが他の音源方向におけるゼロ応答（またはヌルビーム）を有するように、ビームフォーマのＮ×Ｍ係数行列Ｗを計算するように実装される。

ここでｒ（ω）は、非反転を補償するための正則化項である。別の例では、フィルタ方位モジュールＯＭ１０は、次のような式に従って、ＭＶＤＲビームフォーマのＮ×Ｍ係数行列Ｗを計算するように実装する。

これらの例では、Ｎは、出力チャネルの数を示し、Ｍは入力チャネルの数（たとえば、マイクロフォンの数）を示し、Φは、雑音の正規化クロスパワースペクトル密度行列を示し、Ｄ（ω）は、（指向性行列とも呼ばれる）Ｍ×Ｎアレイマニホルド行列を示し、上付き文字Ｈは共役転置関数を示している。通常、ＭはＮ以上である。

係数行列Ｗの各行は、フィルタバンクＢＫ１０の対応するフィルタの係数の初期値を定める。一例では、係数行列Ｗの第１の行は初期値ＣＶ１０を定め、係数行列Ｗの第２の行は初期値ＣＶ２０を定める。別の例では、係数行列Ｗの第１の行は初期値ＣＶ２０を定め、係数行列Ｗの第２の行は初期値ＣＶ１０を定める。

行列Ｄの各列ｊは、次の式として表され得る周波数ωにおける遠距離場音源ｊの指向性ベクトル（または「ステアリングベクトル」）である。

この式において、ｉは虚数を示し、ｃは媒体における音声の伝播速度（たとえば、空中で３４０ｍ／秒）を示し、θ_jは、図１Ｃに示す到来入射角としてマイクロフォンアレイの軸に対する音源ｊの方向（たとえば、ｊ＝１の方向ＤＡ１０およびｊ＝２の方向ＤＡ２０）を示し、ｐｏｓ（ｍ）はＭ個のマイクロフォンからなるアレイにおけるｍ番目のマイクロフォンの空間的座標を示している。マイクロフォン間の均一間隔ｄを有するマイクロフォンの線形アレイの場合、係数ｐｏｓ（ｍ）は、（ｍ−１）ｄと表され得る。

拡散雑音領域の場合、行列Φは次のようなコヒーレンス関数Γを使用して置き換えられ得る。

ここでｄｉｊは、マイクロフォンｉとマイクロフォンｊとの間の距離を示している。さらなる一例では、行列Φは、（Γ＋λ（ω）Ｉ）に置き換えられ、ここでλ（ω）は、（たとえば安定性に関する）対角線ローディング係数である。

一般に、フィルタバンクＢＫ１０の出力チャネルの数Ｎは、入力チャネルの数Ｍ以下である。図１Ａは、Ｎの値が２である（すなわち、２つの出力チャネルＯＳ１０−１およびＯＳ１０−２を有する）装置Ａ１００の一実装形態を示しているが、ＮおよびＭは２よりも大きい値（たとえば、３、４、またはより大きい値）を有してよいことを理解されたい。そのような一般的な場合において、フィルタバンクＢＫ１０は、Ｎ個のフィルタを含むように実装され、フィルタ方位モジュールＯＭ１０は、これらのフィルタのためにＮ個の対応する初期係数値セットを生成するように実装され、これらの原理のそのような拡張は、明示的に企図され、本明細書によって開示される。

たとえば、図２は、ＮもＭも値が４である装置Ａ１００の実装形態Ａ１１０のブロック図を示している。装置Ａ１１０は、フィルタバンクＢＫ１０の実装形態ＢＫ１２を含み、ＢＫ１２は、４つのフィルタを含み、各フィルタは、入力チャネルＭＣＳ１０−１、ＭＣＳ１０−２、ＭＣＳ１０−３、およびＭＣＳ１０−４の各々をフィルタ処理して、出力信号（またはチャネル）ＯＳ１０−１、ＯＳ１０−２、ＯＳ１０−３、およびＯＳ１０−４のうちの対応する１つを生成するように構成される。装置Ａ１００はまた、フィルタバンクＢＫ１２のフィルタ用に初期係数値セットＣＶ１０、ＣＶ２０、ＣＶ３０、およびＣＶ４０を生成するように構成された、フィルタ方位モジュールＯＭ１０の実装形態ＯＭ１２と、初期係数値セットを適応させて、対応する更新値セットＵＶ１０、ＵＶ２０、ＵＶ３０、およびＵＶ４０を生成するように構成された、フィルタ適応モジュールＡＭ１０の実装形態ＡＭ１２とを含む。

図３Ａは、ＭＶＤＲビームフォーミングアルゴリズム（たとえば、上の式（１））による、フィルタの係数値がフィルタ方位モジュールＯＭ１０によって発生する場合における、（ビームパターンとも呼ばれる）入射角と周波数ビンとを対比したフィルタバンクＢＫ１０のフィルタの初期応答のプロットを示している。この応答は入射角ゼロ（たとえば、マイクロフォンアレイの軸の方向）を中心として対称的であることが確認され得る。図３Ｂおよび図３Ｃは、２つの異なる初期条件セット（たとえば、所望の音源からの音声および干渉音源からの音声の異なる推定到来方向セット）におけるこのビームパターンの変形を示している。これらの図では、高および低の利得応答振幅（たとえば、ビームおよびヌルビーム）が黒で示され、中域の利得応答振幅が白で示され、ビームおよびヌルビームのおおよその方向がそれぞれ太い実線および破線で示されている。

特定の適用例に適していると考えられる指向性とサイドローブ発生との折衷に従って選択されたビームフォーマ設計により、係数値ＣＶ１０およびＣＶ２０を生成するようにフィルタ方位モジュールＯＭ１０を実装するのが望ましいことがある。上記の例は、周波数領域ビームフォーマ設計について説明しているが、時間領域ビームフォーマ設計に従って係数値セットを生成するように構成されるフィルタ方位モジュールＯＭ１０の代替実装形態も、明確に企図され、本明細書によって開示されている。

フィルタ方位モジュールＯＭ１０は、（たとえば、上述のようにビームフォーミングアルゴリズムを実行することによって）係数値ＣＶ１０およびＣＶ２０を発生させるように、またはストレージから係数値ＣＶ１０およびＣＶ２０を取り出すように実装され得る。たとえば、フィルタ方位モジュールＯＭ１０は、音源方向（たとえば、ＤＡ１０およびＤＡ２０）に従って事前計算された値（たとえばビーム）セットの中から選択することによって、初期係数値セットを生成するように実装され得る。そのような事前計算された係数値セットをオフラインで計算して、対応する所望の分解能における方向および／または周波数の所望の範囲をカバーすることができる（たとえば、０度、２０度、または３０度から１５０度、１６０度、または１８０度までの範囲における、５度、１０度、または２０度の各間隔の異なる係数値セット）。

フィルタ方位モジュールＯＭ１０によって生成される初期係数値（たとえば、ＣＶ１０およびＣＶ２０）は、音源信号間における所望のレベルの分離をもたらすようにフィルタバンクＢＫ１０を構成するには十分でないことがある。これらの初期値が依拠する推定音源方向（たとえば、方向ＤＡ１０およびＤＡ２０）が完全に正確であったとしても、フィルタを一定の方向にステアリングするだけでは、アレイからから遠く離れた音源間の最良の分離、または特定の離れた音源への最良の集中は実現しないことがある。

フィルタ更新モジュールＵＭ１０は、第１および第２の出力信号ＯＳ１０−１およびＯＳ１０−２からの情報に基づいて、第１および第２の係数の初期値ＣＶ１０およびＣＶ２０を更新して、対応する更新値セットＵＶ１０およびＵＶ２０を生成するように構成される。たとえば、フィルタ更新モジュールＵＭ１０は、これらの初期係数値が記述するビームパターンを適応させるために適応ＢＳＳアルゴリズムを実行するように実装され得る。

ＢＳＳ方法は、Ｙ_j（ω，ｌ）＝Ｗ（ω）Ｘ_j（ω，ｌ）のような式に従って様々な音源から、統計的に独立した信号成分を分離する。この式において、Ｘ_jは周波数領域における入力（混成）信号のｊ番目のチャネルを示し、Ｙ_jは周波数領域における出力（分離）信号のｊ番目のチャネルを示し、ωは周波数ビンインデックスを示し、ｌは時間フレームインデックスを示し、Ｗはフィルタ係数行列を示している。一般に、ＢＳＳ方法は、次のような式による逆混合行列Ｗの経時的適応として説明され得る。

ここでｒは適応間隔（または更新レート）パラメータを示し、μは適応速度（または学習レート）係数を示し、Ｉは恒等行列を示し、上付き文字Ｈは共役転置関数を示し、Φは活性化関数を示し、括弧〈〉は（たとえば、フレームｌからｌ＋Ｌ−１にわたるものであって、Ｌは一般にｒ以下である）時間平均化演算を示している。一例では、μの値は０．１である。式（２）はＢＳＳ学習ルールまたはＢＳＳ適応ルールとも呼ばれる。活性化関数Φは一般に、所望の信号の累積密度関数に近似するように選択され得る非線形有界関数である。そのような方法に使用できる活性化関数Φの例には、双曲正接関数、シグモイド関数、および符号関数がある。

フィルタ更新モジュールＵＭ１０は、本明細書で説明するＢＳＳ方法に従い、フィルタ方位モジュールＯＭ１０によって生成された係数値（たとえば、ＣＶ１０およびＣＶ２０）を適応させるように実装され得る。そのような場合、出力信号ＯＳ１０−１およびＯＳ１０−２は、周波数領域信号Ｙのチャネル（たとえば、それぞれ第１のチャネルおよび第２のチャネル）であり、係数値ＣＶ１０およびＣＶ２０は、逆混合行列Ｗの対応する行（たとえば、それぞれ第１の行および第２の行）の初期値であり、適応値は、適応後の逆混合行列Ｗの対応する行（たとえば、それぞれ第１の行および第２の行）によって定められる。

周波数領域における適応のためのフィルタ更新モジュールＵＭ１０の一般的な実装形態では、逆混合行列Ｗは、有限インパルス応答（ＦＩＲ）多項式行列である。そのような行列は、要素としてＦＩＲフィルタの周波数変換（たとえば、離散フーリエ変換）を有する。時間領域における適応のためのフィルタ更新モジュールＵＭ１０の一般的な実装形態では、逆混合行列ＷはＦＩＲ行列である。そのような行列は要素としてＦＩＲフィルタを有する。そのような場合、各初期係数値セット（たとえば、ＣＶ１０およびＣＶ２０）は、一般に複数のフィルタを記述することが理解されよう。たとえば、各初期係数値セットは、逆混合行列Ｗの対応する行の各要素のフィルタを記述し得る。周波数領域実装形態の場合、各初期係数値セットは、マルチチャネル信号の周波数ビンごとに、逆混合行列Ｗの対応する行の各要素のフィルタの変換を記述し得る。

ＢＳＳ学習ルールは一般に、出力信号間の相関を減らすように設計される。たとえば、ＢＳＳ学習ルールは、出力信号間の相互情報量を最小限に抑えるように、出力信号の統計的独立性を高めるように、または出力信号のエントロピーを最大化するように選択され得る。一例では、フィルタ更新モジュールＵＭ１０は、独立成分分析（ＩＣＡ）として知られているＢＳＳ方法を実行するように実装される。そのような場合、フィルタ更新モジュールＵＭ１０は、上記のような活性化関数、またはたとえば、活性化関数Φ（Ｙ_j（ω，ｌ））＝Ｙ_j（ω，ｌ）／｜Ｙ_j（ω，ｌ）｜を使用するように構成され得る。周知のＩＣＡ実装形態の例には、Ｉｎｆｏｍａｘ、ＦａｓｔＩＣＡ（ｗｗｗ−ｄｏｔ−ｃｉｓ−ｄｏｔ−ｈｕｔ−ｄｏｔ−ｆｉ／ｐｒｏｊｅｃｔｓ／ｉｃａ／ｆａｓｔｉｃａでオンライン入手可能）、およびＪＡＤＥ（ＪｏｉｎｔＡｐｐｒｏｘｉｍａｔｅＤｉａｇｏｎａｌｉｚａｔｉｏｎｏｆＥｉｇｅｎｍａｔｒｉｃｅｓ）がある。

スケーリングおよび周波数置換は、ＢＳＳにおいて一般に遭遇する２つのあいまいな点である。フィルタ方位モジュールＯＭ１０によって生成される初期ビームは置換されないが、そのようなあいまいさは、ＩＣＡの場合に適応中に生じ得る。置換されない解を維持するために、代わりに、周波数ビン間の予想される依存性をモデル化するソースプライアを使用する複素ＩＣＡの一変形である独立ベクトル解析（ＩＶＡ）を使用するようにフィルタ更新モジュールＵＭ１０を構成することが望ましいことがある。本方法では、活性化関数Φは、Φ（Ｙ_j（ω，ｌ））＝Ｙ_j（ω，ｌ）／（Σ_ω｜Ｙ_j（ω，ｌ）｜^p）^1/pのような多変量活性化関数であり、この式において、ｐは１以上の整数値（たとえば、１、２、または３）を有する。この関数において、分母の項は、すべての周波数ビンにわたる分離された音源スペクトルに関係する。この場合、置換のあいまいさは解決される。

結果として生じる適応係数値によって定義されるビームパターンは、単純ではなく複雑に見える。そのようなパターンは、遠くの音源の分離には一般に不十分である初期係数値ＣＶ１０およびＣＶ２０によって定義されるビームパターンよりも優れた分離をもたらすと予想され得る。たとえば、１０〜１２ｄＢから１８〜２０ｄＢへの干渉除去の増大が観測されている。適応係数値によって表される解はまた、マイクロフォン応答（たとえば、利得および／または位相応答）の不一致に対し、開ループビームフォーミング解よりもロバストであると予想され得る。

図４は、フィルタバンクＢＫ１２の一例における４つのフィルタの各々に関する（たとえば、フィルタ更新モジュールＵＭ１０によって、それぞれ係数値セットＣＶ１０、ＣＶ２０、ＣＶ３０、およびＣＶ４０を適応させることによって取得された値によって定義された）ビームパターンを示している。この場合、２つの指向性音源がアレイから２.５メートルのところで、アレイに対して互いから約４０〜６０度離れたところに位置する。図５は、２つの指向性音源がアレイから２．５メートルのところで、アレイに対して互いから約１５度離れたところに位置する別の場合におけるこれらのフィルタのビームパターンを示している。これらの図では、高および低の利得応答振幅（たとえば、ビームおよびヌルビーム）が黒で示され、中域の利得応答振幅が白で示され、ビームおよびヌルビームのおおよその方向がそれぞれ太い実線および破線で示されている。図６は、フィルタバンクＢＫ１０の２チャネル実装形態における適応フィルタのうちの１つについて別の観点からビームパターンの一例を示している。

上記の例は、周波数領域におけるフィルタ適応について説明しているが、時間領域における係数値セットを更新するように構成されるフィルタ更新モジュールＵＭ１０の代替実装形態も、明確に企図され、本明細書によって開示されている。時間領域ＢＳＳ方法は、置換のあいまいさの影響を受けないが、一般に、周波数領域ＢＳＳ方法よりも長いフィルタの使用を伴い、実際には扱いにくいことがある。

ＢＳＳ方法を使用して適応するフィルタは一般に、良好な分離を達成するが、そのようなアルゴリズムも、特に音源が遠くにある場合に、分離信号にさらなる残響をもたらす傾向がある。特定の到来方向において単位利得を強制する幾何学的制約を追加することによって、適応ＢＳＳ解の空間的応答を制御するのが望ましいことがある。しかしながら、上述のように、単一の到来方向に対してフィルタ応答を調整するのは、残響環境では不十分であり得る。さらに、ＢＳＳ適応において（ヌルビーム方向ではなく）ビーム方向を強制しようとすると、問題が生じかねない。

フィルタ更新モジュールＵＭ１０は、方向に対する適応値セット（adapted set of values）の特定された応答に基づいて、複数の第１の係数の適応値セットおよび複数の第２の係数の適応値セットのうちの少なくとも１つを調整するように構成される。この特定された応答は、指定の特性を有する応答に基づいており、異なる周波数において異なる値を有し得る。一例では、特定された応答は、最大応答である（たとえば、指定の特性は最大値である）。調整される係数セットｊごとに、また調整される範囲内の各周波数ωおいて、たとえば、この最大応答Ｒ_j（ω）は、次のような式により、その周波数における適応セットの複数の応答のうちの最大値として表され得る。

ここでＷは、適応値の行列（たとえば、ＦＩＲ多項式行列）であり、Ｗ_jmは、行ｊおよび列ｍにおける行列Ｗの要素を示し、列ベクトルＤ_θ（ω）の各要素ｍは、次の式で表され得る距離θの遠距離場音源から受信した信号に関する周波数ωにおける位相遅延を示している。

別の例では、特定された応答は、最小応答（たとえば、各周波数における適応セットの複数の応答の中の最小値）である。

一例では、式（３）は、範囲［−π，＋π］においてθの６４個の均一に離間した値について評価される。他の例では、式（３）は、θの異なる数の値（たとえば、１６個または３２個の均一に離間した値、５度または１０度の増分による値、など）について、不均一な間隔で（たとえば、横方向の範囲において、縦方向における範囲よりも高い分解能で、またはその逆）、かつ／または異なる関心領域で（たとえば、［−π，０］、［−π／２，＋π／２］、［−π，＋π／２］）評価され得る。均一のマイクロフォン間の間隔ｄを有するマイクロフォンの線形アレイの場合、係数ｐｏｓ（ｍ）は（ｍ−１）ｄと表すことができ、それにより、ベクトルＤ_θ（ω）の各要素ｍは次のように表すことができる。

式（３）が最大値を有する方向θの値は、周波数ωの値が異なる場合には異なると予想され得る。音源方向（たとえば、ＤＡ１０および／またはＤＡ２０）は、式（３）が評価されるθの値の中に含まれてよく、あるいは、それらの値とは別個であってもよい（たとえば、音源方向が、式（３）が評価されるθの値の隣接するものの間の角度を示している場合）ことに留意されたい。

図７Ａは、フィルタ更新モジュールＵＭ１０の実装形態ＵＭ２０のブロック図を示している。フィルタ更新モジュールＵＭ１０は、出力信号ＯＳ１０−１およびＯＳ１０−２からの情報に基づいて係数値ＣＶ１０および係数値ＣＶ２０を適応させて、対応する適応値セットＡＶ１０およびＡＶ２０を生成するように構成された適応モジュールＡＰＭ１０を含む。たとえば、適応モジュールＡＰＭ１０は、本明細書で説明するＢＳＳ方法のいずれか（たとえば、ＩＣＡ、ＩＶＡ）を実行するように実装され得る。

フィルタ更新モジュールＵＭ２０はまた、調整モジュールＡＪＭ１０を含み、調整モジュールＡＪＭ１０は、（たとえば、上記の式（３）による）方向に対する適応値セットＡＶ１０の最大応答に基づいて、適応値ＡＶ１０を調整して、更新値セットＵＶ１０を生成するように構成される。この場合、フィルタ更新モジュールＵＭ２０は、更新値ＵＶ２０としてそのような調整をせずに適応値ＡＶ２０を生成するように構成される。（本明細書で開示する構成の範囲は、係数値ＣＶ２０が適応せず、調整されないという点で、装置Ａ１００とは異なる装置も含むことに留意されたい。そのような構成は、たとえば、信号が残響をほとんどまたはまったく伴わずに直接経路を介して対応する音源から到来する状況で使用され得る。）
調整モジュールＡＪＭ１０は、適応値セットを、方向に対する各周波数における所望の利得応答（たとえば、最大の単位利得応答）を有するようにセットを正規化することによって調整するように実装され得る。そのような場合、調整モジュールＡＪＭ１０は、適応係数値セットｊ（たとえば、適応値ＡＶ１０）の各値を、セットの最大応答Ｒ_j（ω）で割って、対応する更新係数値セット（たとえば、更新値ＵＶ１０）を取得するように実装され得る。

所望の利得応答が単位利得応答以外である場合、調整モジュールＡＪＭ１０は、適応値および／または正規化値に利得係数を適用することを調整演算が含むように実装可能であり、ここで、利得係数値の値が周波数とともに変化して、所望の利得応答を記述する（たとえば、音源のピッチ周波数のハーモニックを選好し、かつ／または干渉物によって支配され得る１つもしくは複数の周波数を減衰させる）。特定された応答が最小応答である場合、調整モジュールＡＪＭ１０は、適応セットを、（たとえば、各周波数の）最小応答を減算することによって、または方向に対する各周波数における所望の利得応答（たとえば、最小のゼロの利得応答）を有するようにセットを再マッピングすることによって調整するように実装され得る。

係数値セットのうちの２つ以上について、また場合によってはすべてについて（たとえば、少なくとも、位置特定された音源に関連しているフィルタについて）そのような正規化を実行するように調整モジュールＡＪＭ１０を実装するのが望ましいことがある。図７Ｂは、調整モジュールＡＪＭ１０の実装形態ＡＪＭ１２を含むフィルタ更新モジュールＵＭ２０の実装形態ＵＭ２２のブロック図を示しており、ＡＪＭ１２はまた、方向に対する適応値セットＡＶ２０の最大応答に基づいて適応値ＡＶ２０を調整して、更新値セットＵＶ２０を生成するように構成される。

そのようなそれぞれの調整は、追加の適応フィルタに（たとえば、適応行列Ｗの他の行に）同じ方法で拡張され得ることを理解されたい。たとえば、図２に示すフィルタ更新モジュールＵＭ１２は、４つの係数値セットＣＶ１０、ＣＶ２０、ＣＶ３０、およびＣＶ４０を適応させて、４つの対応する適応値セットを生成するように構成された適応モジュールＡＰＭ１０の一実装形態と、対応する適応値セットの最大応答に基づいて、更新値セットＵＶ３０およびＵＶ４０の一方または両方の各々を生成するように構成された調整モジュールＡＪＭ１２の一実装形態とを含むように、フィルタ更新モジュール２２の一実装形態として構成され得る。

従来のオーディオ処理解は、雑音基準の計算と、計算された雑音基準を適用する後処理ステップとを含み得る。本明細書で説明する適応解は、後処理への依存を弱め、フィルタ適応への依存を強めて、干渉する点音源を除去することによって干渉除去と残響除去とを改善するように実装され得る。残響は、周波数によって変化する利得応答を有する伝達関数（たとえば、室内応答伝達関数）と考えてよく、減衰する周波数成分もあれば、増幅する周波数成分もある。たとえば、室内のジオメトリは、様々な周波数における信号の相対強度に影響を与えることがあり、いくつかの周波数が支配的になり得る。ある周波数から別の周波数に変化する方向において（すなわち、各周波数における主要ビームの方向において）所望の利得応答を有するようにフィルタを抑制することによって、本明細書で説明する正規化演算は、異なる周波数における空間内で信号のエネルギーが拡散する度合いの差異を補償することによって、信号の残響除去に寄与し得る。

最良の分離および残響除去の結果を達成するために、一部の到来角度範囲内で音源から到来するエネルギーを通過させ、他の角度で干渉音源から到来するエネルギーをブロックする空間的応答を有するように、フィルタバンクＢＫ１０のフィルタを構成するのが望ましいことがある。本明細書で説明するように、ＢＳＳ適応を使用して、フィルタが初期解の近傍でより良い解を発見できるように、フィルタ更新モジュールＵＭ１０を構成するのが望ましいことがある。しかしながら、所望の音源に向けられた主要ビームを維持する制約なしに、フィルタ適応は、類似の方向からの干渉音源が（たとえば、干渉音源からエネルギーを除去する広いヌルビームを作ることによって）主要ビームを損なうのを許容し得る。

フィルタ更新モジュールＵＭ１０は、制約付きＢＳＳを介して適応ヌルビームフォーミングを使用して、音源位置特定解からの大きい逸脱を防ぐ一方、小さい位置特定誤差を訂正することができるように構成され得る。しかしながら、フィルタが異なる音源に方向を変えるのを防ぐフィルタ更新ルールに関する空間制約を課すのが望ましいこともある。たとえば、フィルタを適応させるプロセスが、干渉音源の到来方向にヌル制約を含めるのが望ましいことがある。そのような制約が、ビームパターンが低周波数において当該干渉方向に方位を変えるのを防ぐのが望ましいことがある。

適応プロセスに１つまたは複数の幾何学的制約を含めることによって制約付きＢＳＳ方法を使用するようにフィルタ更新モジュールＵＭ１０を実装する（たとえば、適応モジュールＡＰＭ１０を実装する）のが望ましいことがある。そのような制約は、空間制約または方向制約とも呼ばれ、適応プロセスが、ビームパターンにおける指定ビームまたはヌルビームの方向を変えるのを抑制する。たとえば、方向ＤＡ１０および／または方向ＤＡ２０に基づく空間制約を課すようにフィルタ更新モジュールＵＭ１０を実装する（たとえば、適応モジュールＡＰＭ１０を実装する）のが望ましいことがある。

制約付きＢＳＳ適応の一例では、フィルタ適応モジュールＡＭ１０は、指向性行列Ｄ（ω）に基づく正則化項Ｊ（ω）を追加することによって音源方向ビームおよび／またはヌルビームに関する幾何学的制約を課すように構成される。そのような項は、Ｊ（ω）＝｜｜Ｗ（ω）Ｄ（ω）−Ｃ（ω）｜｜²のような最小２乗基準として表すことができ、ここで、｜｜｜｜²はフロベニウスノルムを示し、Ｃ（ω）は、所望のビームパターンの選択を設定するＭ×Ｍ対角行列である。

空間制約がヌルビームのみ強制するのが望ましいことがあり、その理由は、音源ビームも強制しようとすると、フィルタ適応プロセスにとって問題が生じかねないことにある。１つのそのような場合、制約行列Ｃ（ω）はｄｉａｇ（Ｗ（ω）Ｄ（ω））に等しく、その結果、音源フィルタごとに干渉方向にヌルが強制される。そのような制約は、他のフィルタの音源方向でヌルビームを強制することによって（たとえば、他の音源方向でのフィルタの応答を、主要ビーム方向での応答に対して減衰させることによって）、フィルタの主要ビームを維持し、その結果、フィルタ適応プロセスが、所望の音源のエネルギーを任意の他のフィルタに注ぐことが防止される。空間制約はまた、各フィルタが別の音源に切り替えるのを抑制する。

学習ルールに従って適応と制約の強制とのバランスをとるために、周波数ωごとに同調し得る同調係数Ｓ（ω）を正則化項Ｊ（ω）が含むのが望ましいこともある。そのような場合、正則化項は、Ｊ（ω）＝Ｓ（ω）｜｜Ｗ（ω）Ｄ（ω）−Ｃ（ω）｜｜²と表すことができ、次のような制約を使用して実施され得る。

この制約は、次の式のように、対応する項を当該ルールに追加することによって、（たとえば、式（２）に示すように）フィルタ適応ルールに適用され得る。

初期方位を維持することによって、そのような空間制約は、所望の音源ビームに対するヌルビームのより積極的な同調を可能にし得る。たとえば、そのような同調は、主要ビームをシャープ化して、所望の音源の方向に非常に近い方向にある干渉音源の抑制を可能にすることを含み得る。積極的な同調はサイドローブを生成し得るが、全体的な分離パフォーマンスは、サイドローブにおける干渉エネルギーの欠如を利用する適応解の能力により向上し得る。そのような応答性は、固定ビームフォーミングでは得られず、一般に、分布雑音成分がすべての方向から到来しているとの想定に基づいて動作する。

上述のように、図５は、２つの指向性音源がマイクロフォンアレイから２．５メートルのところで、アレイに対して互いから約１５度離れたところに位置する場合におけるフィルタバンクＢＫ１２の一例の適応フィルタの各々のビームパターンを示している。この特殊解は、正規化されておらず、いずれの方向にも単位利得を有さないものであり、広いヌルビームを示す制約なしのＢＳＳ解の一例である。上の図の各々に示すビームパターンでは、２つの音源のうちの１つが除去される。下の図の各々に示すビームパターンでは、２つの音源の両方がブロックされていて、ビームは非常に広い。

図８および図９は、２つの係数値セット（それぞれ左列および右列）のビームパターンの一例を示しており、上のプロットは、フィルタ方位モジュールＯＭ１０によって生成されるフィルタのビームパターンを示しており、下のプロットは、（たとえば、上記の式（４）による）本明細書で説明する幾何学的制約付きＢＳＳ方法を使用したフィルタ更新モジュールＵＭ１０による適応後のビームパターンを示しいる。図８は、アレイから２．５メートルのところで、４０〜６０度の間隔をあけて位置する２つの音源（話者）の場合を示しており、図９は、アレイから２．５メートルのところで、１５度の間隔をあけて位置する２つの音源（話者）の場合を示している。これらの図では、高および低の利得応答振幅（たとえば、ビームおよびヌルビーム）が黒で示され、中域の利得応答振幅が白で示され、ビームおよびヌルビームのおおよその方向がそれぞれ太い実線および破線で示されている。

ＢＳＳ逆混合行列の一部のみを適応させるようにフィルタ更新モジュールＵＭ１０を実装する（たとえば、適応モジュールＡＰＭ１０を実装する）のが望ましいことがある。たとえば、フィルタバンクＢＫ１０のフィルタのうちの１つまたは複数を固定するのが望ましいことがある。そのような制約は、（たとえば、上記の式（２）に示すように）フィルタ適応プロセスが係数行列Ｗの対応する行を変えるのを防止することによって実施され得る。

一例では、そのような制約は、固定される各フィルタに対応する（たとえば、フィルタ方位モジュールＯＭ１０によって生成される）初期係数値セットを維持するために、適応プロセスの開始時から適用される。そのような実装形態は、たとえば、静止した干渉物にビームパターンが向けられているフィルタにとって適切であり得る。別の例では、そのような制約は後で、適応係数値セットのさらなる適応を防止するために（たとえば、フィルタが収束したことが検出されたときに）適用される。そのような実装形態は、たとえば、安定した残響環境における静止した干渉物にビームパターンが向けられているフィルタにとって適切であり得る。正規化フィルタ係数値セットが固定されると、セットが固定されている間は調整モジュールＡＪＭ１０はそれらの値の調整を実行する必要がないが、調整モジュールＡＪＭ１０は他の係数値セットを（たとえば、調整モジュールＡＪＭ１０によるそれらの適応に応答して）引き続き調整できることに留意されたい。

代替または追加として、周波数範囲の一部分のみでフィルタのうちの１つまたは複数を適応させるようにフィルタ更新モジュールＵＭ１０を実装する（たとえば、適応モジュールＡＰＭ１０を実装する）のが望ましいことがある。フィルタのそのような固定化は、当該範囲から外れた周波数に（たとえば、上記の式（２）におけるωの値に）対応するフィルタ係数値を適応させないことによって達成され得る。

有用な情報を含む周波数範囲でのみ、フィルタのうちの１つまたは複数（場合によってはすべて）の各々を適応させ、別の周波数範囲でフィルタを固定するのが望ましいことがある。適応する周波数範囲は、マイクロフォンアレイから話者までの予想される距離、マイクロフォン間の距離（例：たとえば空間エイリアシングを理由に、どのみち空間フィルタ処理が失敗する周波数でフィルタを適応させるのを回避するため）、部屋のジオメトリ、および／または室内のデバイスの配置などの要素に基づき得る。たとえば、入力信号は、特定の周波数範囲（たとえば、高周波数範囲）では、当該範囲で適切なＢＳＳ学習をサポートするのに十分な情報を含んでいないことがあるそのような場合、適応なしにこの範囲で初期の（あるいは直近の）フィルタ係数値を引き続き使用するのが望ましいことがある。

音源がアレイから３〜４メートル以上離れているとき、一般的に、音源によって放出される高周波エネルギーで、マイクロフォンに到着するものはほとんどない。そのような場合に、フィルタ適応を適切にサポートする情報は、高周波数範囲ではほとんど得られないことがあるので、高周波数でフィルタを固定し、低周波数でのみそれらを適応させるのが望ましいことがある。

図１０は、指定された低周波数範囲におけるフィルタ係数値に限定されるそのような部分的ＢＳＳ適応の前（上のプロット）および後（下のプロット）の２つのフィルタのビームパターンの例を示している。この特定の場合において、適応は、１４０個の周波数ビンのうち、低い方の６４個（たとえば、０〜４ｋＨｚの範囲では約０〜１８００Ｈｚの帯域、または０〜８ｋＨｚの範囲では約０〜３６５０Ｈｚの帯域）に制限される。

追加または代替として、どの周波数を適応させるかの決定は、周波数帯域で現在利用可能なエネルギーの量および／またはマイクロフォンアレイから現在の話者までの推定距離などの要素に従って、実行時間中に変わることがあり、フィルタが異なれば異なり得る。たとえば、ある時間には最大２ｋＨｚ（または３ｋＨｚもしくは５ｋＨｚ）の周波数でフィルタを適応させ、別の時間には最大４ｋＨｚ（または５ｋＨｚ、８ｋＨｚもしくは１０ｋＨｚ）の周波数でフィルタを適応させることが望ましいことがある。特定の周波数で固定され、すでに調整されている（たとえば、正規化されている）フィルタ係数値を調整モジュールＡＪＭ１０が調整する必要はないが、調整モジュールＡＪＭ１０は他の周波数で係数値を（たとえば、適応モジュールＡＰＭ１０によるそれらの適応に応答して）引き続き調整できることに留意されたい。

フィルタバンクＢＫ１０は、更新係数値（たとえば、ＵＶ１０およびＵＶ２０）をマルチチャネル信号の対応するチャネルに適用する。更新係数値は、（たとえば、調整モジュールＡＪＭ１０による）本明細書で説明する調整後の（たとえば、適応モジュールＡＰＭ１０によって適応する）逆混合行列Ｗの対応する行の値であり、そのような値が本明細書で説明するように固定されている場合は除く。各更新係数値セットは一般に、複数のフィルタを記述する。たとえば、各更新係数値セットは、逆混合行列Ｗの対応する行の要素ごとにフィルタを記述し得る。

図１１Ａは、フィルタバンクＢＫ１０のフィードフォワード実装形態ＢＫ２０のブロック図を示している。フィルタバンクＢＫ２０は、入力チャネルＭＣＳ１０−１およびＭＣＳ１０−２をフィルタ処理して第１の出力信号ＯＳ１０−１を生成するように構成される第１のフィードフォワードフィルタＦＦ１０Ａと、入力チャネルＭＣＳ１０−１およびＭＣＳ１０−２をフィルタ処理して第２の出力信号ＯＳ１０−２を生成するように構成される第２のフィードフォワードフィルタＦＦ１０Ｂとを含む。

図１１Ｂは、フィードフォワードフィルタＦＦ１０Ａの実装形態ＦＦ１２Ａのブロック図を示しており、これは、第１の入力チャネルＭＣＳ１０−１をフィルタ処理するように構成された直接フィルタＦＤ１０Ａと、第２の入力チャネルＭＣＳ１０−２をフィルタ処理するように構成されたクロスフィルタＦＣ１０Ａと、２つのフィルタ処理済み信号を合算して第１の出力信号ＯＳ１０−１を生成するように構成された加算器Ａ１０とを含む。図１１Ｃは、フィードフォワードフィルタＦＦ１０Ｂの対応する実装形態ＦＦ１２Ｂのブロック図を示しており、これは、第２の入力チャネルＭＣＳ１０−２をフィルタ処理するように構成された直接フィルタＦＤ１０Ｂと、第１の入力チャネルＭＣＳ１０−１をフィルタ処理するように構成されたクロスフィルタＦＣ１０Ｂと、２つのフィルタ処理済み信号を合算して第２の出力信号ＯＳ１０−２を生成するように構成された加算器Ａ２０とを含む。

フィルタバンクＢＫ２０は、フィルタＦＦ１０ＡおよびフィルタＦＦ１０Ｂが、適応逆混合行列Ｗのそれぞれの行に対応する更新係数値セットを適用するように実装され得る。１つのそのような例では、ＦＦ１２ＡのフィルタＦＤ１０ＡおよびＦＣ１０Ａは、係数値がそれぞれ（場合によっては調整モジュールＡＪＭ１０による調整後の）適応逆混合行列Ｗの要素ｗ₁₁およびｗ₁₂であるＦＩＲフィルタとして実装され、ＦＦ１２ＢのフィルタＦＣ１０ＢおよびＦＤ１０Ｂは、係数値がそれぞれ（場合によっては調整モジュールＡＪＭ１０による調整後の）適応逆混合行列Ｗの要素ｗ₂₁およびｗ₂₂であるＦＩＲフィルタとして実装される。

一般に、フィードフォワードＦＦ１０ＡおよびＦＦ１０Ｂの各々（たとえば、クロスフィルタＦＣ１０ＡおよびクロスフィルタＦＣ１０Ｂのうちの各々、ならびに直接フィルタＦＤ１０Ａおよび直接フィルタＦＤ１０Ｂのうちの各々）は、有限インパルス応答（ＦＩＲ）フィルタとして実装され得る。図１２は、複数であるｑ個の係数Ｃ１０−１、Ｃ１０−２、．．．、Ｃ１０−ｑを入力信号に適用して出力信号を生成するように構成されるＦＩＲフィルタＦＩＲ１０のブロック図を示しており、ここでフィルタ更新モジュールＵＭ１０が、本明細書で説明するように係数の初期値および更新値を生成するように構成される。フィルタＦＩＲ１０はまた、（ｑ−１）個の遅延要素（たとえば、ＤＬ１、ＤＬ２）と（ｑ−１）個の加算器（たとえば、ＡＤ１、ＡＤ２）とを含む。

本明細書で説明するフィルタバンクＢＫ１０はまた、３つ、４つ、またはそれよりも多くのチャネルを有するように実装され得る。図１３は、Ｎ個の入力チャネルＭＣＳ１０−１、ＭＣＳ１０−２、ＭＣＳ１０−３、．．．、ＭＣＳ１０−Ｎをフィルタ処理するように構成されるフィードフォワードフィルタＦＦ１２Ａの実装形態ＦＦ１４Ａのブロック図を示しており、ここでＮは２よりも大きい整数（たとえば、３または４）である。フィルタＦＦ１４Ａは、第１の入力チャネルＭＣＳ１０−１をフィルタ処理するように構成された直接フィルタＦＤ１０Ａ、入力チャネルＭＣＳ１０−２〜ＭＣＳ１０−Ｎのうちの対応する１つをフィルタ処理するように各々構成された（Ｎ−１）個のクロスフィルタＦＣ１０Ａ（１）、ＦＣ１０Ａ（２）、．．．、ＦＣ１０Ａ（Ｎ−１）、およびＮ個のフィルタ処理済み信号を加算して出力信号ＯＳ１０−１を生成するように構成された（Ｎ−１）個の加算器ＡＤ１０、ＡＤ１０−１、ＡＤ１０−２、．．．、（または、たとえば、（Ｎ−１）入力加算器）のインスタンスを含む。

１つのそのような例では、フィルタＦＦ１４ＡのフィルタＦＤ１０Ａ、ＦＣ１０Ａ（１）、ＦＣ１０Ａ（２）、．．．、ＦＣ１０Ａ（Ｎ−１）は、係数値がそれぞれ、適応逆混合行列Ｗの要素ｗ₁₁、ｗ₁₂、ｗ₁₃、．．．、ｗ_1N（たとえば、場合によっては調整モジュールＡＪＭ１０による調整後の適応行列Ｗの第１の行）であるＦＩＲフィルタとして実装される。フィルタバンクＢＫ１０の対応する実装形態は、フィルタＦＦ１４Ａと同様のいくつかのフィルタを含むことができ、各々が（場合によっては調整モジュールＡＪＭ１０による調整後の）適応行列Ｗの対応する行の係数値をそれぞれの入力チャネルＭＣＳ１０−１〜ＭＣＳ１０−Ｎにそのような方法で適用して、対応する出力信号を生成するように構成される。

フィルタバンクＢＫ１０は、時間領域または周波数領域、たとえば変換領域で信号をフィルタ処理するように実装され得る。そのようなフィルタ処理が実行され得る変換領域の例には、変形離散コサイン（ＭＤＣＴ）領域およびフーリエ変換、たとえば離散フーリエ変換（ＤＦＴ）、離散時間短時間フーリエ変換（ＤＴ−ＳＴＦＴ：discrete-time short-time）、高速フーリエ変換（ＦＦＴ）がある。

本明細書で説明する特定の例に加えて、フィルタバンクＢＫ１０は、（たとえば、ＦＩＲフィルタを使用して）マルチチャネル入力信号に適応逆混合行列Ｗを適用する既知の方法に従って実装され得る。フィルタバンクＢＫ１０は、値が初期化され更新される同じ領域（たとえば、時間領域もしくは周波数領域）または異なる領域でマルチチャネル信号に係数値を適用するように実装され得る。本明細書で説明するように、適応行列の少なくとも１つの行からの値は、方向に対する最大応答に基づいて、そのような適用の前に調整される。

図１４は、周波数領域（たとえば、ＤＦＴまたはＭＤＣＴ領域）で初期係数値ＣＶ１０、ＣＶ２０の更新を実行するように構成される装置Ａ１００の実装形態Ａ２００のブロック図を示している。この例では、フィルタバンクＢＫ１０は、時間領域でマルチチャネル信号ＭＣＳ１０に更新係数値ＵＶ１０、ＵＶ２０を適用するように構成される。装置Ａ２００は、更新係数値ＵＶ１０、ＵＶ２０を周波数領域から時間領域に変換するように構成される逆変換モジュールＩＭ１０と、出力信号ＯＳ１０−１、ＯＳ１０−２を時間領域から周波数領域に変換するように構成される変換モジュールＸＭ１０とを含む。装置Ａ２００はまた、２つ以上の入力および／または出力チャネルをサポートするように実装され得ることに明確に留意されたい。たとえば、装置Ａ２００は、図２に示す装置Ａ１１０の一実装形態として実装可能であり、それにより、逆変換モジュールＩＭ１０は、更新値ＵＶ１０、ＵＶ２０、ＵＶ３０、およびＵＶ４０を変換するように構成され、変換モジュールＸＭ１０は、信号ＯＳ１０−１、ＯＳ１０−２、ＯＳ１０−３、およびＯＳ１０−４を変換するように構成される。

本明細書で説明するように、フィルタ方位モジュールＯＭ１０は、推定音源方向に基づいてフィルタバンクＢＫ１０の初期条件を生成し、フィルタ更新モジュールＵＭ１０は、フィルタ係数を更新して、改善された解に収束させる。初期条件の質は、推定音源方向（たとえば、ＤＡ１０およびＤＡ２０）の正確性に依存し得る。

一般に、各推定音源方向（たとえば、ＤＡ１０および／またはＤＡ２０）は、測定、計算、予測、推定および／または選択が可能であり、所望の音源、干渉音源、または反射からの音源の到来方向を示すことができる。フィルタ方位モジュールＯＭ１０は、別のモジュールまたはデバイスから（たとえば、音源位置特定モジュールから）推定音源方向を受信するように構成され得る。そのようなモジュールまたはデバイスは、（たとえば、顔および／または運動の検出を実行することによる）カメラからの画像情報および／または超音波反射からの測距情報に基づいて推定音源方向を生成するように構成され得る。そのようなモジュールまたはデバイスはまた、音源の数を推定するように、かつ／または動いている１つもしくは複数の音源を追跡するように構成され得る。図１５Ａは、そのような画像情報をキャプチャするために使用され得るカメラＣＭ１０を有するアレイＲ１００の４マイクロフォン実装形態Ｒ１０４の構成の一例の上面図を示している。

代替的に、装置Ａ１００は、マルチチャネル信号ＭＣＳ１０内の情報および／またはフィルタバンクＢＫ１０によって生成される出力信号内の情報に基づいて、推定音源方向（たとえば、ＤＡ１０およびＤＡ２０）を計算するように構成される方向推定モジュールＤＭ１０を含むように実装され得る。そのような場合、方向推定モジュールＤＭ１０はまた、上記のように画像情報および／または測距情報に基づいて推定音源方向を計算するように実装され得る。たとえば、方向推定モジュールＤＭ１０は、マルチチャネル信号ＭＣＳ１０に適用される、一般化された相互相関（ＧＣＣ）アルゴリズム、またはビームフォーマアルゴリズムを使用して音源ＤＯＡを推定するように実装され得る。

図１６は、マルチチャネル信号ＭＣＳ１０内の情報に基づいて推定音源方向ＤＡ１０およびＤＡ２０を計算するように構成される方向推定モジュールＤＭ１０のインスタンスを含む装置Ａ１００の実装形態Ａ１２０のブロック図を示している。この場合、方向推定モジュールＤＭ１０およびフィルタバンクＢＫ１０は、同じ領域で動作する（たとえば、周波数領域信号としてマルチチャネル信号ＭＣＳ１０を受信し処理する）ように実装される。図１７は、装置Ａ１２０およびＡ２００の実装形態Ａ２２０のブロック図を示しており、ここでは、方向推定モジュールＤＭ１０は、変換モジュールＸＭ２０から周波数領域におけるマルチチャネル信号ＭＣＳ１０からの情報を受信するように構成される。

一例では、方向推定モジュールＤＭ１０は、位相変換を使用したステアード応答パワー（ＳＲＰ−ＰＨＡＴ：steered response power using the phase transform）アルゴリズムを使用して、マルチチャネル信号ＭＣＳ１０内の情報に基づいて推定音源方向を計算するように実装される。ＳＲＰ−ＰＨＡＴアルゴリズムは、最尤音源位置特定から得られるもので、出力信号の相関が最大となる時間遅延を特定する。相互相関は、各ビンで電力によって正規化され、それによりロバストネスが改善される。残響環境では、ＳＲＰ−ＰＨＡＴは、競合する音源位置特定方法よりも良い結果をもたらすことが予想され得る。

ＳＲＰ−ＰＨＡＴアルゴリズムは、周波数領域における受信信号ベクトルＸ（すなわち、マルチチャネル信号ＭＣＳ１０）

で表すことができ、ここでＳは、音源信号ベクトルを示し、利得行列Ｇ、室内伝達関数ベクトルＨ、およびノイズベクトルＮは次のように表され得る。

これらの式では、Ｐはセンサの数（すなわち、入力チャネルの数）を示し、αは利得係数を示し、τは音源からの伝搬の時間を示す。

この例では、複合ノイズベクトルＮ^c（ω）＝Ｓ（ω）Ｈ（ω）＋Ｎ（ω）は、下記のゼロ平均、周波数独立、結合ガウス分布（zero-mean, frequency-independent, joint Gaussian distribution）を有すると想定され得る。

ここでＱ（ω）は共分散行列であり、ｐは定数である。音源方向は、次の式を最大化することによって推定され得る。

Ｎ（ω）＝０であるとの想定の下で、この式は次のように書き直され得る。

ここで、０＜γ＜１は設計定数であり、式（４）の右側を最大化する時間遅延τ_iは音源の到来方向を示している。

図１８は、周波数ωの範囲にわたる異なる２音源シナリオのＤＯＡ推定にＳＲＰ−ＰＨＡＴのそのような実装形態を使用した結果によるプロットの例を示している。

各プロットにおいて、各線は範囲内の異なる周波数に対応し、各プロットはマイクロフォンアレイの縦方向を中心として対称的である（すなわち、θ＝０）。左上のプロットは、アレイから４メートルの距離にある２つの音源のヒストグラムを示している。右上のプロットは、アレイから４メートルの距離にある２つの近接した音源のヒストグラムを示している。左下のプロットは、アレイから２．５メートルの距離にある２つの音源のヒストグラムを示している。右下のプロットは、アレイから２．５メートルの距離にある２つの近接した音源のヒストグラムを示している。これらのプロットの各々が、全周波数にわたる単一のピークとしてではなく、重心によって特徴付けられ得る角度範囲として、推定音源方向を示していることが確認され得る。

別の例では、方向推定モジュールＤＭ１０は、ブラインド音源分離（ＢＳＳ）アルゴリズムを使用して、マルチチャネル信号ＭＣＳ１０内の情報に基づいて推定音源方向を計算するように実装される。ＢＳＳ方法は、干渉音源からエネルギーを除去する信頼できるヌルビームを発生させる傾向があり、これらのヌルビームの方向は、対応する音源の到来方向を示すのに使用され得る。方向推定モジュールＤＭ１０のそのような実装形態は、次のような式に従い、マイクロフォンｊおよびｊ’のアレイの軸に対する周波数ｆにおける音源ｉの到来方向（ＤＯＡ）を計算するように実装され得る。

ここでＷは、逆混合行列を示し、ｐ_jおよびｐ_j’は、それぞれマイクロフォンｊおよびｊ’の空間的座標を示している。この場合、本明細書で説明するフィルタ更新モジュールＵＭ１０によって更新されるフィルタとは別個に方向推定モジュールＤＭ１０のＢＳＳフィルタ（たとえば、逆混合行列Ｗ）を実装するのが望ましいことがある。

図１９は、４つのヒストグラムからなる一セットの一例を示しており、各ヒストグラムは、４行逆混合行列Ｗの対応するインスタンスの（アレイ軸に対する）各入射角に式（５）がマッピングする周波数ビンの数を示しており、ここでＷは、マルチチャネル信号ＭＣＳ１０内の情報に基づいており、本明細書で説明するＩＶＡ適応ルールに従って方向推定モジュールＤＭ１０の一実装形態によって計算される。この例では、入力マルチチャネル信号は、約４０〜６０度の角度によって分離される２つのアクティブな音源からのエネルギーを含む。左上のプロットは、（音源１の方法を示す）ＩＶＡ出力１のヒストグラムを示しており、右上のプロットは、（音源２の方法を示す）ＩＶＡ出力２のヒストグラムを示している。これらのプロットの各々が、全周波数にわたる単一のピークとしてではなく、重心によって特徴付けられ得る角度範囲として、推定音源方向を示していることが確認され得る。下のプロットは、ＩＶＡ出力３および４のヒストグラムを示しており、これらは、両方の音源からのエネルギーをブロックし、残響からのエネルギーを含んでいる。

図２０は、２つのアクティブな音源が約１５度の角度によって分離される一例について、類似のＩＶＡ逆混合行列の対応するチャネルに関するヒストグラムの別のセットを示している。図１９のように、左上のプロットは（音源１の方向を示す）ＩＶＡ出力１のヒストグラムを示し、右上のプロットは（音源２の方向を示す）ＩＶＡ出力２のヒストグラムを示し、下のプロットは（残響エネルギーを示す）ＩＶＡ出力３および４のヒストグラムを示している。

別の例では、方向推定モジュールＤＭ１０は、複数の異なる周波数成分の各々についてマルチチャネル信号ＭＣＳ１０のチャネル間の位相差に基づいて推定音源方向を計算するように実装される。（たとえば、図１５Ｂに示す平面波面の想定が有効になるように）遠距離場に点音源が１つあり、残響がない理想的な場合、位相差と周波数との比は周波数に対して一定である。

ここでｃは音速（約３４０ｍ／秒）を示し、ｄはマイクロフォン間の距離を示し、Δ_ψiは２つのマイクロフォンチャネルの対応する位相推定間のラジアンの差を示し、ｆ_iは、位相推定が対応する周波数成分（たとえば、対応するＦＦＴサンプルの周波数、または対応するサブバンドの中心周波数もしくはエッジ周波数）である。

装置Ａ１００は、フィルタ適応モジュールＡＭ１０が話者の頭部の動きなど、音響環境における小さい変化に対処するように構成されるように実装され得る。話者が移動して室内の異なる場所から話す場合のように、変化が大きい場合、方向推定モジュールＤＭ１０が音源の変化に伴って到来方向を更新し、フィルタ方位モジュールＯＭ１０がその方向でビームを取得して（たとえば、発生させて、または取り出して）新しい対応する初期係数値セットを生成する（すなわち、新しい音源方向に従って対応する係数値をリセットする）ように装置Ａ１００を実装するのが望ましいことがある。そのような場合、フィルタ方位モジュールＯＭ１０が、一度に２つ以上の新しい初期係数値セット生成するのが望ましいことがある。たとえば、フィルタ方位モジュールＯＭ１０が、少なくとも、推定音源方向に現在関連するフィルタに関して、新しい初期係数値セットを生成するのが望ましいことがある。次いで、本明細書で説明するようにフィルタ更新モジュールＵＭ１０によって新しい初期係数値は更新される。

リアルタイム音源追跡をサポートするために、音源から信号成分のＤＯＡを迅速に識別するように方向推定モジュールＤＭ１０（または推定音源方向を提示する別の音源位置特定モジュールもしくはデバイス）を実装するのが望ましいことがある。そのようなモジュールまたはデバイスが、記録されている音響シーンに存在する音源の数を推定し、かつ／または音源追跡および／もしくは測距を実行するのが望ましいことがある。音源追跡は、推定音源方向を周波数分布やピッチ周波数などの顕著な特徴と関連付けて、モジュールまたはデバイスが特定の音源を、その方向が別の音源の方向と交差した後も経時的に引き続き追跡できるようにすることを含み得る。

たった２つの音源が追跡されるとしても、少なくとも４つの入力チャネルを有するように装置Ａ１００を実装するのが望ましいことがある。たとえば、４マイクロフォンのアレイを使用して、２マイクロフォンのアレイが提供できるビームよりも狭いビームを取得することができる。

（たとえば、方向推定モジュールＤＭ１０によって示されているように）音源の数よりもフィルタの数の方が多い場合、雑音推定に追加フィルタを使用するのが望ましいことがある。たとえば、フィルタ方位モジュールＯＭ１０がフィルタを各推定音源方向（たとえば、方向ＤＡ１０およびＤＡ２０）に関連付けたことに伴い、音源が存在しない固定方向に各残存フィルタを向けるのが望ましいことがある。マイクロフォンアレイの軸が関心領域に対して直角であるアプリケーションの場合、この固定方向は（縦方向とも呼ばれる）アレイ軸の方向であってよく、その理由は、一般にこの場合にアレイ縦方向のいずれからもターゲット音源信号が生じないことにある。

１つのそのような例では、フィルタ方位モジュールＯＭ１０は、１つまたは複数の非音源フィルタ（すなわち、各推定音源方向が対応フィルタに関連付けられた後も残っているフィルタバンクＢＫ１０の１つまたは複数のフィルタ）の各々のビームをアレイ縦方向に、あるいは信号音源から離れたところに向けることによって、１つまたは複数の雑音基準の発生をサポートするように実装される。これらのフィルタの出力を、雑音低減演算で残響基準として使用して、さらなる残響除去（たとえば、さらに６ｄＢ）を行うことができる。結果として生じる知覚的影響は、話者が室内のある程度離れたところではなくマイクロフォンに向かって直接話しているような感じであり得る。

図２１は、フィルタバンクＢＫ１０の４チャネル実装形態（たとえば、フィルタバンクＢＫ１２）の第３および第４のフィルタのビームパターンの一例を示しており、ここでは、第３のフィルタ（プロットＡ）がアレイの一方の縦方向（＋／−ｐｉ方向）に固定され、第４のフィルタ（プロットＢ）がアレイの他方の縦方向（ゼロ方向）に固定されている。そのような固定方位は、フィルタバンクの第１および第２のフィルタの各々が、推定音源方向ＤＡ１０およびＤＡ２０のうちの対応する１つに向けられている場合に使用され得る。

図２２は、フィルタ方位モジュールＯＭ１２の実装形態ＯＭ２２を含む装置Ａ１１０の実装形態Ａ１４０のブロック図を示しており、ＯＭ２２は、（図２１に示すように）マイクロフォンアレイの一方の縦方向に向けられた応答を有する係数値ＣＶ３０を生成するように、またマイクロフォンアレイの他方の縦方向に向けられた応答を有する係数値ＣＶ４０を生成するように構成される。装置Ａ１４０はまた、フィルタ更新モジュールＵＭ１２の実装形態ＵＭ２２を含み、ＵＭ２２は、係数値セットＣＶ３０およびＣＶ４０を、それらを更新せずに（たとえば、それらを適応させずに）フィルタバンクＢＫ１２に渡すように構成される。音源フィルタの縦方向でヌルビームを強制する（たとえば本明細書で説明する）制約を含むようにフィルタ更新モジュールＵＭ２２の適応ルールを構成するのが望ましいことがある。

装置Ａ１４０はまた、雑音低減モジュールＮＲ１０を含み、ＮＲ１０は、固定フィルタの出力信号（たとえば、ＯＳ１０−３およびＯＳ１０−４）の少なくとも１つからの情報に基づいて、音源フィルタの出力信号（たとえば、ＯＳ１０−１およびＯＳ１０−２）の少なくとも１つに対して雑音低減演算を実行して、対応する残響除去信号を生成するように構成される。この特定の例では、雑音低減モジュールＮＲ１０は、各音源出力信号に対してそのような演算を実行して、対応する残響除去信号ＤＳ１０−１およびＤＳ１０−２を生成するように実装される。

雑音低減モジュールＮＲ１０は、周波数領域演算（たとえば、スペクトル減算またはウィーナーフィルタ処理）として雑音低減を実行するように実装され得る。たとえば、雑音低減モジュールＮＲ１０は、音源出力信号から残響除去信号を、（残響基準とも呼ばれる）固定出力信号の平均を減算することによって、対応する音源方向に最も近い縦方向に関連する残響基準を減算することによって、または対応する音源方向から最も遠い縦方向に関連する残響基準を減算することによって生成するように実装され得る。装置Ａ１４０はまた、残響除去信号を周波数領域から時間領域に変換するように構成される逆変換モジュールを含むように実装され得る。

装置Ａ１４０はまた、ボイスアクティビティ検出（ＶＡＤ）指示を使用して、後処理アグレッシブネス（post-processing aggressiveness）を制御するように実装され得る。たとえば、雑音低減モジュールＮＲ１０は、ボイス非アクティビティの間隔に、残響基準として（固定フィルタの出力信号ではなく、またはそれに加えて）１つまたは複数の他の音源フィルタの各々の出力信号を使用するように実装され得る。装置Ａ１４０は、別のモジュールまたはデバイスからＶＡＤ指示を受信するように実装され得る。代替的に、装置Ａ１４０は、フィルタバンクＢＫ１２の出力信号のうちの１つまたは複数からの情報に基づいて出力チャネルごとにＶＡＤ指示を発生させるように構成されるＶＡＤモジュールを含むように実装され得る。１つのそのような例では、ＶＡＤモジュールは、特定の音源出力信号から、各々の他の音源出力信号（すなわち、推定音源方向に関連するフィルタバンクＢＫ１２の各々の個別のフィルタの出力）および各々の非音源出力信号（すなわち、非音源方向で固定されているフィルタバンクＢＫ１２の各フィルタの出力）の総電力を減算することによって、ＶＡＤ指示を発生させるように実装される。任意のＶＡＤ指示の係数値ＣＶ１０およびＣＶ２０の適応を個別に実行するようにフィルタ更新モジュールＵＭ２２を構成するのが望ましいことがある。

（たとえば、方向推定ＤＭ１０によって検出される）音源の数に基づいて、実行時のフィルタバンクＢＫ１０におけるフィルタの数を変更するように装置Ａ１００を実装することが可能である。そのような場合、装置Ａ１００が、本明細書で論じるように、１つの縦方向で固定された１つの追加フィルタ、または縦方向の各々で固定された２つの追加フィルタを含むようにフィルタバンクＢＫ１０を構成するのが望ましいことがある。

要約すれば、フィルタ更新モジュールＵＭ１０によって適用される制約は、方向に対する各周波数で単位利得応答を有するように１つまたは複数の音源フィルタを正規化すること、それぞれの音源方向でヌルビームを強制するようにフィルタ適応を制約すること、および／またはいくつかの周波数範囲でフィルタ係数値を固定し、他の周波数範囲でフィルタ係数値を適応させることを含み得る。追加または代替として、装置Ａ１００は、入力チャネルの数（たとえば、センサの数）が音源の推定数を超えるときに超過フィルタを縦ルック方向で固定するように実装され得る。

一例では、フィルタ更新モジュールＵＭ１０は、フィルタ更新命令の一セットを実行するように構成されたデジタル信号プロセッサ（ＤＳＰ）として実装され、結果として生じる適応正規化フィルタ解は、マルチチャネル信号への適用のために、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）におけるフィルタバンクＢＫ１０の一実装形態にロードされる。別の例では、ＤＳＰは、フィルタ更新とマルチチャネル信号へのフィルタの適用の両方を実行する。

図２３は、タスクＴ１００、Ｔ２００、Ｔ３００、Ｔ４００、およびＴ５００を含む、一般的構成によるマルチチャネル信号を処理する方法Ｍ１００のフローチャートを示している。（たとえば、フィルタバンクＢＫ１０の実装形態を参照して本明細書で説明したように）タスクＴ１００は、マルチチャネル信号からの情報に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号を生成し、タスクＴ２００は、マルチチャネル信号からの情報に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号を生成する。（たとえば、フィルタ方位モジュールＯＭ１０の実装形態を参照して本明細書で説明したように）タスクＴ３００は、第１の音源方向に基づいて、複数の第１の係数の初期値セットを生成し、タスクＴ４００は、第１の音源方向とは異なる第２の音源方向に基づいて、複数の第２の係数の初期値セットを生成する。タスクＴ５００は、第１および第２の出力信号からの情報に基づいて、複数の第１および第２の係数の初期値を更新し、複数の第１の係数の初期値セットを前記更新することは、（たとえば、フィルタ更新モジュールＵＭ１０の実装形態を参照して本明細書で説明したように）方向に対する複数の第１の係数の初期値セットの指定の特性を有する応答（たとえば、最大応答）に基づく。図２４は、（たとえば、方向推定モジュールＤＭ１０の実装形態を参照して本明細書で説明したように）マルチチャネル信号内の情報に基づいて第１および第２の音源方向を推定するタスクＴ６００を含む方法Ｍ１００の実装形態Ｍ１２０のフローチャートを示している。

図２５Ａは、別の一般的構成による、マルチチャネル信号を処理するための装置ＭＦ１００のブロック図を示している。（たとえば、フィルタバンクＢＫ１０の実装形態を参照して本明細書で説明したように）装置ＭＦ１００は、マルチチャネル信号からの情報に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号を生成し、マルチチャネル信号からの情報に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号を生成するための手段Ｆ１００を含む。（たとえば、フィルタ方位モジュールＯＭ１０の実装形態を参照して本明細書で説明したように）装置ＭＦ１００はまた、第１の音源方向に基づいて、複数の第１の係数の初期値セットを生成し、第１の音源方向とは異なる第２の音源方向に基づいて、複数の第２の係数の初期値セットを生成するための手段Ｆ３００を含む。装置ＭＦ１００はまた、第１および第２の出力信号からの情報に基づいて、複数の第１および第２の係数の初期値を更新するための手段Ｆ５００を含み、複数の第１の係数の初期値セットを前記更新することは、（たとえば、フィルタ更新モジュールＵＭ１０の実装形態を参照して本明細書で説明したように）方向に対する複数の第１の係数の初期値セットの指定の特性を有する応答（たとえば、最大応答）に基づく。図２５Ｂは、（たとえば、方向推定モジュールＤＭ１０の実装形態を参照して本明細書で説明したように）マルチチャネル信号内の情報に基づいて第１および第２の音源方向を推定するための手段Ｆ６００を含む装置ＭＦ１００の実装形態ＭＦ１２０のブロック図を示している。

マイクロフォンアレイＲ１００を使用して、特定の音源方向で空間的焦点を提供することができる。アレイ開口（線形アレイの場合、アレイの両端マイクロフォン間の距離）、マイクロフォンの数、およびマイクロフォンの相対配置はすべて、空間分離能力に影響を与え得る。図２６Ａは、８センチメートルの均一間隔を有するアレイＲ１００の４マイクロフォン実装形態を使用して取得されたビームパターンの一例を示している。図２６Ｂは、４センチメートルの均一間隔を有するアレイＲ１００の４マイクロフォン実装形態を使用して取得されたビームパターンの一例を示している。これらの図では、周波数範囲は０〜４キロヘルツであり、ｚ軸は利得応答を示している。上記のように、アレイ軸に対して到来方向（角度）が示されている。

不均一なマイクロフォン間隔は、小さい間隔と大きい間隔の両方を含むことができ、これにより、広い周波数範囲にわたり分離性能を等化することができる。たとえば、そのような不均一間隔を使用して、様々な周波数において同様の幅を有するビームを実現できる。

約５００〜４０００Ｈｚの範囲内で信号分離にシャープな空間ビームを提供するために、隣接するマイクロフォン間における不均一間隔と、記録される音響シーンに直角に向けられた少なくとも２０センチメートルの開口とを有するようにアレイＲ１００を実装するのが望ましいことがある。一例では、アレイＲ１００の４マイクロフォン実装形態は、２０センチメートルの開口と、それぞれの隣接するマイクロフォンペア間における４センチメートル、６センチメートル、および１０センチメートルの不均一間隔とを有する。図２６Ｃは、そのような間隔およびそのようなアレイを使用して取得される対応するビームパターンの一例を示しており、ここで周波数範囲は０〜４キロヘルツであり、ｚ軸は利得応答を示し、アレイ軸に対して到来方向（角度）が示されている。不均一なアレイは低周波数において、４センチメートルのアレイよりも良好な分離をもたらすこと、およびこのビームパターンには、８センチメートルのアレイのビームパターンで見られる高周波数アーティファクトが欠けていることが確認され得る。

そのような不均一に離間した２０ｃｍ開口線形アレイで本明細書で説明する装置Ａ１００の実装形態を使用して、干渉除去および最大１８〜２０ｄＢの残響除去が、話者たちが２〜３メートルの距離で肩を並べて立っていても、アーティファクトをほとんど伴わずに５００〜４０００Ｈｚの帯域で取得でき、ロバストな音響のズームイン効果がもたらされ得る。３メートルを超えると、直接経路対残響比の低下、および低周波電力の増加により、後処理の歪みが増すが、音響のズームイン効果は（たとえば１５ｄＢまで）依然可能である。したがって、特に５００Ｈｚ未満かつ２ｋＨｚ超でそのような方法を再構成音声スペクトル技法と組み合わせて、「対面による会話」サウンド効果をもたらすのが望ましいことがある。５００Ｈｚ未満で干渉を除去するために、より大きいマイクロフォン間隔が一般に利用される。

図２６Ａ〜図２６Ｃは、全方向マイクロフォンのアレイを使用して取得されたビームパターンを示しているが、本明細書で説明する原理は、指向性マイクロフォンのアレイに拡張されてもよい。図２７Ａは、一般的な単方向マイクロフォン応答の図を示している。この特定の例は、約２８３度の方向で到来する信号成分に対する約０．６５の感度を有するマイクロフォン応答を示している。図２７Ｂは、アレイ軸に対して直角である関心領域が識別されるそのようなマイクロフォンの不均一に離間した線形アレイの図を示している。アレイＲ１００のそのような実装形態を使用して、２〜４メートルの距離でロバストな音響のズームイン効果をサポートすることができる。３メートルを超えると、そのようなアレイで１８ｄＢのズームイン効果を取得することが可能であり得る。

マイクロフォンの指向性を考慮して指向性ベクトル（または「ステアリングベクトル」）を調整するのが望ましいことがある。１つのそのような例では、フィルタ方位モジュールＯＭ１０は、上記の式（１）の行列Ｄの各列ｊがＤ_mj（ω）＝ν_mj（ω，θ_j）×ｅｘｐ（−ｉ×ｃｏｓ（θ_j）×ｐｏｓ（ｍ）×ω／ｃ）と表されるように実装され、ここでν_mj（ω，θ_j）は、周波数ωおよび入射角θ_jにおけるマイクロフォンｍの相対反応を示す指向性係数である。そのような場合、マイクロフォンの指向性を考慮して（たとえば、同様の係数によって）コヒーレンス関数Γを調整するのが望ましいこともある。別の例では、フィルタ更新モジュールＵＭ１０は、式（３）に示す最大応答Ｒ_j（ω）が代わりに次のように表されるように実装される。

ここでν_m（ω，θ）は、周波数ωおよび入射角θにおけるマイクロフォンｍの相対応答を示す指向性係数である。

マルチマイクロフォンオーディオ感知デバイスＤ１０の動作中、マイクロフォンアレイＲ１００は、各チャネルが音響環境に対するマイクロフォンのうちの対応する１つの応答に基づく、マルチチャネル信号を生成する。単一のマイクロフォンを使用してキャプチャされ得るよりも完全な音響環境表現を集合的に提供するために、対応するチャネルが互いに異なるように、１つのマイクロフォンが別のマイクロフォンよりも直接的に特定の音を受信し得る。

アレイＲ１００は、装置Ａ１００によって処理されるマルチチャネル信号ＭＣＳ１０を生成するために、マイクロフォンによって生成された信号に対して１つまたは複数の処理演算を実行することが望ましいことがある。図２８Ａは、（限定はしないが）インピーダンス整合、アナログデジタル変換、利得制御、ならびに／またはアナログおよび／もしくはデジタル領域におけるフィルタ処理を含み得る、１つまたは複数のそのような演算を実行するように構成されたオーディオ前処理段ＡＰ１０を含むアレイＲ１００の実装形態Ｒ２００のブロック図を示している。

図２８Ｂは、アレイＲ２００の実装形態Ｒ２１０のブロック図を示している。アレイＲ２１０は、アナログ前処理段Ｐ１０ａおよびＰ１０ｂを含むオーディオ前処理段ＡＰ１０の実装形態ＡＰ２０を含む。一例では、段Ｐ１０ａおよびＰ１０ｂは、対応するマイクロフォン信号に対して（たとえば、５０Ｈｚ、１００Ｈｚ、または２００Ｈｚのカットオフ周波数をもつ）高域フィルタ処理演算を実行するように各々構成される。

アレイＲ１００は、マルチチャネル信号をデジタル信号として、すなわち、サンプルのシーケンスとして生成することが望ましいことがある。アレイＲ２１０は、たとえば、対応するアナログチャネルをサンプリングするように各々構成されるアナログデジタル変換器（ＡＤＣ）Ｃ１０ａおよびＣ１０ｂを含む。音響アプリケーションの典型的なサンプリングレートには、８ｋＨｚ、１２ｋＨｚ、１６ｋＨｚ、および約８から約１６ｋＨｚまでの範囲内の他の周波数があるが、約４４．１、４８、および１９２ｋＨｚと同程度のサンプリングレートも使用され得る。この特定の例では、アレイＲ２１０はまた、対応するデジタル化チャネルに対して１つまたは複数の前処理演算（たとえば、エコー消去、雑音低減、および／またはスペクトル整形）を実行して、マルチチャネル信号ＭＣＳ１０の対応するチャネルＭＣＳ１０−１、ＭＣＳ１０−２を生成するように各々構成されるデジタル前処理段Ｐ２０ａおよびＰ２０ｂを含む。追加または代替として、デジタル前処理段Ｐ２０ａおよびＰ２０ｂは、対応するデジタル化チャネルに対して周波数変換（たとえば、ＦＦＴ、またはＭＤＣＴ演算）を実行して、対応する周波数領域におけるマルチチャネル信号ＭＣＳ１０の対応するチャネルＭＣＳ１０−１、ＭＣＳ１０−２を生成するように実装され得る。図２８Ａおよび図２８Ｂは２チャネル実装形態を示しているが、同じ原理が任意の数のマイクロフォンおよびマルチチャネル信号ＭＣＳ１０の対応するチャネル（たとえば、本明細書で説明するアレイＲ１００の３チャネル、４チャネル、または５チャネル実装形態）に拡張され得ることが理解されよう。

アレイＲ１００の各マイクロフォンは、全方向、双方向、または単方向（たとえば、カージオイド）である応答を有し得る。アレイＲ１００において使用され得る様々なタイプのマイクロフォンには、（限定はしないが）圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。遠距離場の適用例では、アレイＲ１００の隣接するマイクロフォン間における中心間間隔は、一般に、約４〜１０センチメートルの範囲内であるが、隣接するマイクロフォンペアの少なくともいくつかの間におけるより大きい間隔（たとえば、最大２０、３０、または４０センチメートル以上）も、フラットパネルテレビジョンディスプレイのようなデバイス内で可能である。アレイＲ１００のマイクロフォンは、（均一または不均一なマイクロフォン間隔を有する）線に沿って、あるいは代替的に、それらの中心が２次元形状（たとえば、三角形）または３次元形状の頂点に存在するように構成され得る。

マイクロフォンは、より一般的には、音響以外の放射または放出に反応するトランスデューサとして実装され得ることに明確に留意されたい。１つのそのような例では、マイクロフォンペアは、超音波トランスデューサ（たとえば、１５、２０、２５、３０、４０、または５０キロヘルツ以上よりも大きい音響周波数に反応するトランスデューサ）のペアとして実装される。

マルチチャネル信号ＭＣＳを生成するように構成されたアレイＲ１００のインスタンスと、マルチチャネル信号ＭＣＳを処理するように構成された装置Ａ１００のインスタンスとを含む図１Ｂに示すようなオーディオ感知デバイスＤ１０を生成するのが望ましいことがある。一般に、デバイスＤ１０は、本明細書で開示するマイクロフォンアレイＲ１００の実装形態のうちのいずれかのインスタンスと、本明細書で開示する装置Ａ１００（またはＭＦ１００）の実装形態のうちのいずれかのインスタンスとを含み、本明細書で開示するオーディオ感知デバイスのいずれもデバイスＤ１０のインスタンスとして実装され得る。そのようなアレイを含むように実装可能で、オーディオ記録および／またはボイス通信アプリケーションのために使用され得るオーディオ感知デバイスの例には、テレビジョンディスプレイ、セットトップボックスならびにオーディオおよび／またはビデオ会議デバイスがある。

図２９Ａは、デバイスＤ１０の一実装形態である通信デバイスＤ２０のブロック図を示している。デバイスＤ２０は、本明細書で説明する装置Ａ１００（またはＭＦ１００）の一実装形態を含むチップまたはチップセットＣＳ１０（たとえば、移動局モデム（ＭＳＭ）チップセット）を含む。チップ／チップセットＣＳ１０は、装置Ａ１００またはＭＦ１００の演算の全部または一部を（たとえば、命令として）実行するように構成され得る１つまたは複数のプロセッサを含み得る。チップ／チップセットＣＳ１０はまた、アレイＲ１００の処理要素（たとえば、本明細書で説明するオーディオ前処理段ＡＰ１０の要素）を含み得る。

チップ／チップセットＣＳ１０は、（たとえば、アンテナＣ４０を介して）無線周波（ＲＦ）通信信号を受信し、ＲＦ信号内で符号化されたオーディオ信号を復号し、（たとえば、ラウドスピーカーＳＰ１０を介して）再生するように構成される受信機を含む。チップ／チップセットＣＳ１０はまた、装置Ａ１００によって生成された出力信号に基づくオーディオ信号を符号化し、符号化オーディオ信号を記述しているＲＦ通信信号を（たとえば、アンテナＣ４０を介して）送信するように構成された送信機を含み得る。たとえば、チップ／チップセットＣＳ１０の１つまたは複数のプロセッサは、符号化オーディオ信号が雑音低減信号に基づくように、マルチチャネル信号の１つまたは複数のチャネルに対して上記で説明した雑音低減演算を実行するように構成され得る。この例では、デバイスＤ２０はまた、ユーザ制御と対話とをサポートするためのキーパッドＣ１０とディスプレイＣ２０とを含む。

図３３は、デバイスＤ２０のインスタンスとして実装され得るハンドセットＨ１００（たとえば、スマートフォン）の正面図、背面図、および側面図を示している。ハンドセットＨ１００は、正面に構成された２つのボイスマイクロフォンＭＶ１０−１およびＭＶ１０−３と、正面の上部隅に位置する誤差マイクロフォンＭＥ１０と、背面に構成されたボイスマイクロフォンＭＶ１０−２、雑音基準マイクロフォンＭＲ１０、およびカメラレンズとを含む。ラウドスピーカーＬＳ１０は、誤差マイクロフォンＭＥ１０の近くの正面の上部中央に構成され、（たとえば、スピーカーフォンアプリケーションのための）２つの他のラウドスピーカーＬＳ２０Ｌ、ＬＳ２０Ｒも設けられる。そのようなハンドセットのマイクロフォン間の最大距離は、一般に約１０または１２センチメートルである。

図２９Ｂは、デバイスＤ１０の一実装形態である別の通信デバイスＤ３０のブロック図を示している。デバイスＤ３０は、本明細書で説明する装置Ａ１００（またはＭＦ１００）の一実装形態を含むチップまたはチップセットＣＳ２０を含む。チップ／チップセットＣＳ２０は、装置Ａ１００またはＭＦ１００の演算の全部または一部を（たとえば、命令として）実行するように構成され得る１つまたは複数のプロセッサを含み得る。チップ／チップセットＣＳ２０はまた、アレイＲ１００の処理要素（たとえば、本明細書で説明するオーディオ前処理段ＡＰ１０の要素）を含み得る。

デバイスＤ３０は、ネットワークとの（たとえば、ローカルエリアネットワークおよび／またはワイドエリアネットワークとの）データ通信をサポートするように構成されるネットワークインターフェースＮＩ１０を含む。インターフェースＮＩ１０がそのような通信に使用するプロトコルは、（たとえば、ＩＥＥＥ８０２．２規格のいずれかによって記述されている）イーサネット（登録商標）、（たとえば、ＩＥＥＥ８０２．１１規格またはＩＥＥＥ８０２．１６規格のいずれかによって記述されている）ワイヤレスローカルエリアネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）（たとえば、ワシントン州カークランドのＢｌｕｅｔｏｏｔｈＳＩＧ，Ｉｎｃ．のＢｌｕｅｔｏｏｔｈＣｏｒｅＳｐｅｃｉｆｉｃａｔｉｏｎバージョン４．０［ＣｌａｓｓｉｃＢｌｕｅｔｏｏｔｈ、Ｂｌｕｅｔｏｏｔｈ高速、およびＢｌｕｅｔｏｏｔｈ低エネルギープロトコルを含む］に記述されているヘッドセットまたは他のプロファイル）、Ｐｅａｎｕｔ（カリフォルニア州サンディエゴのＱＵＡＬＣＯＭＭＩｎｃｏｒｐｏｒａｔｅｄ）、および／または（たとえば、カリフォルニア州サンラモンのＺｉｇＢｅｅ（登録商標）ＡｌｌｉａｎｃｅのＺｉｇＢｅｅ（登録商標）２００７Ｓｐｅｃｉｆｉｃａｔｉｏｎおよび／またはＺｉｇＢｅｅ（登録商標）ＲＦ４ＣＥＳｐｅｃｉｆｉｃａｔｉｏｎに記述されている）ＺｉｇＢｅｅ（登録商標）を含み得る。一例では、ネットワークインターフェースＮＩ１０は、（たとえば、ボイスオーバーインターネットプロトコル、すなわち「ＶｏＩＰ」プロトコルを使用した）マイクロフォンＭＣ１０およびＭＣ２０ならびにラウドスピーカーＳＰ１０を介したボイス通信アプリケーションをサポートするように構成される。デバイスＤ３０はまた、（たとえば、ハンドヘルド遠隔制御装置から受信した赤外線信号を介して、かつ／またはボイスコマンドの認識を介して）デバイスＤ３０のユーザ制御をサポートするように構成されたユーザインターフェースＵＩ１０を含む。デバイスＤ３０はまた、１人または複数のユーザにビデオコンテンツを表示するように構成されたディスプレイパネルＰ１０を含む。

マルチチャネル記録信号内の残響エネルギーは、所望の音源とアレイＲ１００との間の距離が増加するにつれて増加する傾向がある。装置Ａ１００を適用することが望ましいことがある別の適用例は、オーディオおよび／またはビデオ会議である。図３０Ａ〜図３０Ｄは、デバイスＤ１０の会議実装形態のいくつかの例の上面図を示している。図３０Ａは、アレイＲ１００の３マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、およびＭＣ３０）を含む。図３０Ｂは、アレイＲ１００の４マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０）を含む。図３０Ｃは、アレイＲ１００の５マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０、およびＭＣ５０）を含む。図３０Ｄは、アレイＲ１００の６マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０、ＭＣ５０、およびＭＣ６０）を含む。アレイＲ１００のマイクロフォンの各々を正多角形の対応する頂点に配置することが望ましいことがある。遠端オーディオ信号の再生のためのラウドスピーカーＳＰ１０は（たとえば、図３０Ａに示すように）デバイス内に含まれ得、かつ／またはそのようなラウドスピーカーは、（たとえば、音響的フィードバックを低減するために）デバイスとは別に配置され得る。

デバイスＤ１０の会議実装形態が、２つ以上の空間セクタ（たとえば、９０度、１２０度、１５０度、または１８０度の重複するセクタまたは重複しないセクタ）の各々について装置Ａ１００の一実装形態の別個のインスタンスを実行するのが望ましいことがある。そのような場合、またデバイスは、遠端への送信の前に様々な残響除去された音声信号を合成（たとえば、混合）することが望ましいことがある。

デバイスＤ１０の（たとえば、デバイスＤ３０の）会議適用例の別の例では、アレイＲ１００の水平線形実装形態がテレビジョンまたはセットトップボックスのフロントパネル内に含まれる。そのようなデバイスは、アレイの前のエリア内で、かつアレイから約１メートル〜３または４メートル離れた位置から話す人（たとえば、テレビジョンを見ている視聴者）からの近端音源信号の位置を特定し、残響を除去することによって、電話通信をサポートするように構成され得る。

図３１Ａは、ディスプレイパネルＰ１０と、均一な間隔で線形的に配置された４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０を含むアレイＲ１００の一実装形態とを含む、デバイスＤ１０の実装形態ＤＳ１０（たとえば、テレビジョンまたはコンピュータモニタ）の図を示している。図３１Ｂは、ディスプレイパネルＰ１０と、不均一な間隔で線形的に配置された４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０を含むアレイＲ１００の一実装形態とを含む、デバイスＤ１０の実装形態ＤＳ２０（たとえば、テレビジョンまたはコンピュータモニタ）の図を示している。また、デバイスＤＳ１０およびＤＳ２０のいずれも、本明細書で説明するデバイスＤ３０の一実装形態として実現され得る。本明細書で開示するシステム、方法、および装置の適用範囲は、本明細書で言及する特定の例に限定されないことが明確に開示される。

本明細書で開示する方法および装置は、概して任意のオーディオ感知適用例、特に遠距離場音源からの信号成分の感知において適用され得る。本明細書で開示する構成の範囲は、符号分割多元接続（ＣＤＭＡ）オーバージエアインターフェースを採用するように構成されたワイヤレステレフォニー通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）送信チャネルを介したボイスオーバＩＰ（ＶｏＩＰ）を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。

本明細書で開示した通信デバイスは、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび／またはワイヤレスネットワーク）および／または回線交換式であるネットワークにおける使用に適応し得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム（たとえば、約４または５キロヘルツの可聴周波数範囲を符号化するシステム）での使用、ならびに／または全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超える可聴周波数を符号化するシステム）での使用に適応し得ることが明確に企図され、本明細書によって開示される。

説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように行ったものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。

情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。

本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報（たとえば、本明細書で識別される例のうちの１つなど、圧縮形式に従って符号化されるファイルまたはストリーム）の再生などの計算集約的適用例、または広帯域通信（たとえば、１２、１６、４４．１、４８、または１９２ｋＨｚなど、８キロヘルツよりも高いサンプリングレートにおけるボイス通信）の適用例では特に、（一般に百万命令毎秒またはＭＩＰＳで測定される）処理遅延および／または計算複雑さを最小にすることを含み得る。

マルチマイクロフォン処理システムの目的は、全体で１０〜１２ｄＢの雑音低減を達成すること、所望の話者の移動中にボイスレベルおよびカラーを保持すること、アグレッシブな雑音除去、音声の残響除去の代わりに雑音が背景に移動されたという知覚を取得すること、および／またはよりアグレッシブな雑音低減のための後処理のオプションを可能にすることを含み得る。

本明細書で開示した装置（たとえば、装置Ａ１００およびＭＦ１００）は、意図された適用例に好適と見なされる、ソフトウェアとの、かつ／またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、装置の要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。装置の要素のうちの任意の２つ以上、さらにはすべてが、同じ１つまたは複数のアレイ内に実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。

本明細書で開示する装置の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）としても実施でき、これらの要素のうちの任意の２つ以上、さらにはすべてが、同じそのような１つまたは複数のコンピュータ内に実装され得る。

本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する１つまたは複数の電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示したプロセッサまたは処理するための他の手段は、１つまたは複数のコンピュータ（たとえば、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム（たとえば、オーディオ感知デバイス）の別の動作に関係するタスクなど、本明細書で説明するマルチチャネル指向性オーディオ処理プロシージャに直接関係しないタスクを実施し、あるいはそのプロシージャに直接関係しない命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は１つまたは複数の他のプロセッサの制御下で実行されることが可能である。

本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者なら諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、またはＣＤ−ＲＯＭなど、非一時的記憶媒体中に、あるいは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐することができる。ＡＳＩＣは、ユーザ端末内に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐することもできる。

本明細書で開示する様々な方法（たとえば、方法Ｍ１００、および本明細書で説明する様々な装置の動作の説明によって開示する他の方法）は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを１つのモジュールまたはシステムに結合することができ、１つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。

本明細書で開示する方法、方式、および技法の実装形態は、（たとえば、本明細書に記載する１つまたは複数のコンピュータ可読媒体中で）論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって読取り可能および／または実行可能な命令の１つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気ストレージ、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波（ＲＦ）リンク、あるいは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその２つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成される。タスクのうちの１つまたは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって読取り可能かつ／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、１つまたは複数のデータ記憶媒体など）に実施されたコード（たとえば、命令の１つまたは複数のセット）としても実装され得る。本明細書で開示した方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によっても実行され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実行され得る。そのようなデバイスは、（たとえば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および／または送信するように構成されたＲＦ回路を含み得る。

本明細書で開示する様々な方法は、通信デバイスによって実行され得ること、および本明細書で説明する様々な装置は、そのようなデバイスに含まれ得ることが明確に開示される。典型的なリアルタイム（たとえば、オンライン）適用例は、そのようなデバイスを使用して行われる電話会話である。

１つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、そのような動作は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信（たとえば、伝送）媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含み得る）半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、ならびに／あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ（Ｂｌｕ−ＲａｙＤｉｓｃＡｓｓｏｃｉａｔｉｏｎ、カリフォルニア州ユニヴァーサルシティー）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

本明細書で説明した音響信号処理装置（たとえば、装置Ａ１００またはＭＦ１００）は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例は、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおけるヒューマンマシンインターフェースを含み得る。限られた処理機能のみを提供するデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。

本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなどの論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装され得る。

本明細書で説明した装置の一実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実行する電子デバイスおよび／または光デバイスの構成）を有することが可能である。

Claims

マルチチャネル信号を処理するための装置であって、
（Ａ）前記マルチチャネル信号に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号を生成するように構成された第１のフィルタと、（Ｂ）前記マルチチャネル信号に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号を生成するように構成された第２のフィルタとを有するフィルタバンクと、
第１の音源方向に基づいて、前記複数の第１の係数の初期値セットを生成するように、また前記第１の音源方向とは異なる第２の音源方向に基づいて、前記複数の第２の係数の初期値セットを生成するように構成されたフィルタ方位モジュールと、
（Ａ）対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定し、（Ｂ）前記指定の特性を有する前記応答に基づいて前記複数の第１の係数の前記初期値セットを更新するように構成されたフィルタ更新モジュールと
を備える装置。
前記複数の応答の各応答は、前記複数の第１の係数の前記初期値セットに基づく値セットの、前記対応する方向における応答である、請求項１に記載の装置。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記第１および第２の出力信号からの情報に基づいて前記複数の第１の係数の前記初期値セットを適応させることを含む、請求項１に記載の装置。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記複数の第１の係数の適応値セットを生成するために、前記第１および第２の出力信号からの情報に基づいて前記複数の第１の係数の前記初期値セットを適応させることを含む、請求項１に記載の装置。
前記指定の特性は、前記複数の応答のうちの最大値である、請求項１に記載の装置。
前記フィルタ更新モジュールは、複数の周波数の各周波数における値を有する特定された応答を計算するように構成され、
前記特定された応答を前記計算することは、前記複数の周波数の各周波数において前記特定することを実行することを含み、
前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの指定の特性を有する前記応答である、請求項１に記載の装置。
前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの最大値である、請求項６に記載の装置。
前記複数の周波数の第１の周波数における前記特定された応答の前記値は、第１の方向における応答であり、
前記複数の周波数の第２の周波数における前記特定された応答の前記値は、前記第１の方向とは異なる第２の方向における応答である、請求項６に記載の装置。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記複数の第１の係数の更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第１の係数の前記適応値セットを調整することを含む、請求項６に記載の装置。
前記調整することは、前記複数の第１の係数の前記更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第１の係数の前記適応値セットを正規化することを含む、請求項９に記載の装置。
前記複数の第１の係数の前記適応値セットは、（Ａ）前記複数の周波数の第１の周波数に対応する第１の複数の適応値と、（Ｂ）前記複数の周波数の前記第１の周波数とは異なる前記複数の周波数の第２の周波数に対応する第２の複数の適応値とを含み、
前記調整することは、（Ａ）前記複数の周波数の前記第１に対応する前記特定された応答の前記値に基づいて、前記第１の複数の適応値の各値を正規化することと、（Ｂ）前記複数の周波数の前記第２に対応する前記特定された応答の前記値に基づいて、前記第２の複数の適応値の各値を正規化することとを備える、請求項９に記載の装置。
前記複数の第１の係数の前記更新値セットの各値は、前記複数の第１の係数の前記初期値セットの異なる値に、また前記マルチチャネル信号の周波数成分に対応し、
第１の周波数範囲における周波数成分に対応する前記複数の第１の係数の前記更新値セットの各値は、前記複数の第１の係数の前記初期値セットの前記対応する値と同じ値を有する、請求項９に記載の装置。
前記第１および第２の係数の各々は、前記マルチチャネル信号の複数の周波数成分のうちの１つに対応する、請求項１に記載の装置。
前記複数の第１の係数の前記初期値セットは、前記第1の音源方向に向けられたビームを記述する、請求項１に記載の装置。
前記フィルタ更新モジュールは、前記第１および第２の出力信号の周波数成分に非線形有界関数を適用した結果に従って、前記複数の第１の係数の前記初期値セットを更新するように構成される、請求項１に記載の装置。
前記フィルタ更新モジュールは、ブラインド音源分離学習ルールに従って、前記複数の第１の係数の前記初期値セットを更新するように構成される、請求項１に記載の装置。
前記複数の第１の係数の前記初期値セットを前記更新することは、空間制約に基づいており、
前記空間制約は、前記第２の音源方向に基づく、請求項１に記載の装置。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記第１の音源方向における前記複数の第１の係数の応答に対して、前記第２の音源方向における前記複数の第１の係数の応答を減衰させることを含む、請求項１に記載の装置。
前記装置は、前記マルチチャネル信号内の情報に基づいて、前記第１の音源方向を計算するように構成された方向推定モジュールを備える、請求項１に記載の装置。
前記装置は、複数のマイクロフォンを含むマイクロフォンアレイを備え、
前記マルチチャネル信号の各チャネルは、前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイは、少なくとも２０センチメートルの開口を有する、請求項１に記載の装置。
前記装置は、複数のマイクロフォンを含むマイクロフォンアレイを備え、
前記マルチチャネル信号の各チャネルは、前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイの隣接するマイクロフォンの第１のペア間の距離は、前記マイクロフォンアレイの隣接するマイクロフォンの第２のペア間の距離とは異なる、請求項１に記載の装置。
前記フィルタバンクは、前記マルチチャネル信号に複数の第３の係数を適用して、第３の出力信号を生成するように構成された第３のフィルタを含み、
前記装置は、前記第３の出力信号からの情報に基づいて、前記第１の出力信号に対して雑音低減演算を実行して、残響除去信号を生成するように構成された雑音低減モジュールを含む、請求項１に記載の装置。
前記マルチチャネル信号の各チャネルは、アレイの複数のマイクロフォンのうちの対応するマイクロフォンによって生成された信号に基づいており、
前記フィルタ方位モジュールは、前記アレイの軸の方向に基づいて、前記複数の第３の係数の値セットを生成するように構成される、請求項２２に記載の装置。
前記フィルタ更新モジュールは、周波数領域において前記複数の第１の係数の前記初期値セットを更新するように構成され、
前記フィルタバンクは、時間領域において前記第１の信号に前記複数の第１の係数を適用するように構成される、請求項１に記載の装置。
マルチチャネル信号を処理する方法であって、
前記マルチチャネル信号に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号を生成することと、
前記マルチチャネル信号に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号を生成することと、
第１の音源方向に基づいて、前記複数の第１の係数の初期値セットを生成することと、
前記第１の音源方向とは異なる第２の音源方向に基づいて、前記複数の第２の係数の初期値セットを生成することと、
対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定することと、
前記指定の特性を有する前記応答に基づいて、前記複数の第１の係数の前記初期値セットを更新することと
を備える方法。
前記複数の応答の各応答は、前記複数の第１の係数の前記初期値セットに基づく値セットの、前記対応する方向における応答である、請求項２５に記載の方法。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記第１および第２の出力信号からの情報に基づいて前記複数の第１の係数の前記初期値セットを適応させることを含む、請求項２５に記載の方法。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記複数の第１の係数の適応値セットを生成するために、前記第１および第２の出力信号からの情報に基づいて前記複数の第１の係数の前記初期値セットを適応させることを含む、請求項２５に記載の方法。
前記指定の特性は、前記複数の応答のうちの最大値である、請求項２５に記載の方法。
前記方法は、複数の周波数の各周波数における値を有する特定された応答を計算することを含み、
前記特定された応答を前記計算することは、前記複数の周波数の各周波数において前記特定することを実行することを含み、
前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの指定の特性を有する前記応答である、請求項２５に記載の方法。
前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの最大値である、請求項３０に記載の方法。
前記複数の周波数の第１の周波数における前記特定された応答の前記値は、第１の方向における応答であり、
前記複数の周波数の第２の周波数における前記特定された応答の前記値は、前記第１の方向とは異なる第２の方向における応答である、請求項３０に記載の方法。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記複数の第１の係数の更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第１の係数の前記適応値セットを調整することを含む、請求項３０に記載の方法。
前記調整することは、前記複数の第１の係数の前記更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第１の係数の前記適応値セットを正規化することを含む、請求項３３に記載の方法。
前記複数の第１の係数の前記適応値セットは、（Ａ）前記複数の周波数の第１の周波数に対応する第１の複数の適応値と、（Ｂ）前記複数の周波数の前記第１の周波数とは異なる前記複数の周波数の第２の周波数に対応する第２の複数の適応値とを含み、
前記調整することは、（Ａ）前記複数の周波数の前記第１に対応する前記特定された応答の前記値に基づいて、前記第１の複数の適応値の各値を正規化することと、（Ｂ）前記複数の周波数の前記第２に対応する前記特定された応答の前記値に基づいて、前記第２の複数の適応値の各値を正規化することとを備える、請求項３３に記載の方法。
前記複数の第１の係数の前記更新値セットの各値は、前記複数の第１の係数の前記初期値セットの異なる値に、また前記マルチチャネル信号の周波数成分に対応し、
第１の周波数範囲における周波数成分に対応する前記複数の第１の係数の前記更新値セットの各値は、前記複数の第１の係数の前記初期値セットの前記対応する値と同じ値を有する、請求項３３に記載の方法。
前記第１および第２の係数の各々は、前記マルチチャネル信号の複数の周波数成分のうちの１つに対応する、請求項２５に記載の方法。
前記複数の第１の係数の前記初期値セットは、前記第1の音源方向に向けられたビームを記述する、請求項２５に記載の方法。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記第１および第２の出力信号の周波数成分に非線形有界関数を適用した結果に従って実行される、請求項２５に記載の方法。
前記複数の第１の係数の前記初期値セットを更新することは、ブラインド音源分離学習ルールに従って実行される、請求項２５に記載の方法。
前記複数の第１の係数の前記初期値セットを前記更新することは、空間制約に基づいており、
前記空間制約は、前記第２の音源方向に基づく、請求項２５に記載の方法。
前記複数の第１の係数の前記初期値セットを前記更新することは、前記第１の音源方向における前記複数の第１の係数の応答に対して、前記第２の音源方向における前記複数の第１の係数の応答を減衰させることを含む、請求項２５に記載の方法。
前記方法は、前記マルチチャネル信号内の情報に基づいて、前記第１の音源方向を計算することを含む、請求項２５に記載の方法。
前記マルチチャネル信号の各チャネルは、マイクロフォンアレイの前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイは、少なくとも２０センチメートルの開口を有する、請求項２５に記載の方法。
前記マルチチャネル信号の各チャネルは、マイクロフォンアレイの前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイの隣接するマイクロフォンの第１のペア間の距離は、前記マイクロフォンアレイの隣接するマイクロフォンの第２のペア間の距離とは異なる、請求項２５に記載の方法。
前記方法は、
前記マルチチャネル信号に複数の第３の係数を適用して、第３の出力信号を生成することと、
前記第３の出力信号からの情報に基づいて、前記第１の出力信号に対して雑音低減演算を実行して、残響除去信号を生成することと
を含む、請求項２５に記載の方法。
前記マルチチャネル信号の各チャネルは、アレイの複数のマイクロフォンのうちの対応するマイクロフォンによって生成された信号に基づいており、
前記方法は、前記アレイの軸の方向に基づいて、前記複数の第３の係数の値セットを生成することを含む、請求項４６に記載の方法。
前記更新することは、周波数領域において前記複数の第１の係数の前記初期値セットを更新することを含み、
前記第１の信号に前記複数の第１の係数を前記適用することは、時間領域において実行される、請求項２５に記載の方法。
マルチチャネル信号を処理するための装置であって、前記方法は、
前記マルチチャネル信号に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号を生成し、前記マルチチャネル信号に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号を生成するための手段と、
第１の音源方向に基づいて、前記複数の第１の係数の初期値セットを生成し、前記第１の音源方向とは異なる第２の音源方向に基づいて、前記複数の第２の係数の初期値セットを生成するための手段と、
対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定するための手段と、
前記指定の特性を有する前記応答に基づいて、前記複数の第１の係数の前記初期値セットを更新するための手段と
を備える、装置。
有形特徴を備える非一時的コンピュータ可読記憶媒体であって、前記有形特徴が、プロセッサによって読み取られたとき、前記プロセッサに、
前記マルチチャネル信号に基づく第１の信号に複数の第１の係数を適用して、第１の出力信号を生成することと、
前記マルチチャネル信号に基づく第２の信号に複数の第２の係数を適用して、第２の出力信号を生成することと、
第１の音源方向に基づいて、前記複数の第１の係数の初期値セットを生成することと、
前記第１の音源方向とは異なる第２の音源方向に基づいて、前記複数の第２の係数の初期値セットを生成することと、
対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定することと、
前記指定の特性を有する前記応答に基づいて、前記複数の第１の係数の前記初期値セットを更新することと
を行わせる、コンピュータ可読記憶媒体。