JP2012529868A

JP2012529868A - マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体

Info

Publication number: JP2012529868A
Application number: JP2012515105A
Authority: JP
Inventors: ビッサー、エリック; リウ、エルナン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2009-06-09
Filing date: 2010-06-09
Publication date: 2012-11-22
Anticipated expiration: 2030-06-09
Also published as: US8620672B2; KR101275442B1; KR20120027510A; TW201132138A; WO2010144577A1; EP2441273A1; US20100323652A1; JP5410603B2; CN102461203A; CN102461203B

Abstract

マルチチャネル信号の位相ベースの処理と、近接検出を含むアプリケーションと、が開示される。

Description

［米国特許法第１１９条下での優先権の主張］
本特許出願は、２００９年６月９日に出願され、また本出願の譲受人に譲渡された「Systems, methods, apparatus, and computer-readable media for coherence detection」（コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体）と題する米国仮特許出願第６１／１８５，５１８号に対する優先権を主張する。本特許出願はまた、２００９年９月８日に出願され、また本出願の譲受人に譲渡された「Systems, methods, apparatus, and computer-readable media for coherence detection」（コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体）と題する、米国仮特許出願第６１／２４０，３１８号に対する優先権を主張する。

本特許出願はまた、２００９年７月２０日に出願され、また本出願の譲受人に譲渡された「Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal」（マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体）と題する米国仮特許出願第６１／２２７，０３７号、代理人明細書（attorney docket）第０９１５６１Ｐ１号に対する優先権を主張する。本特許出願はまた、２００９年９月８日に出願され、また本出願の譲受人に譲渡された「Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal」（マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体）と題する米国仮特許出願第６１／２４０，３２０号に対する優先権を主張する。

［技術分野］
本開示は、信号処理に関する。

以前は静かなオフィスまたは家庭環境において実行されていた多くの活動は、今日では自動車、街頭またはカフェのような音響的に変わりやすい状況で実行されている。例えば、ある人はボイス通信チャネルを使用して他の人と通信することを望むことができる。このチャネルは、例えば移動無線送受話器またはヘッドホン、ウォーキートーキー、送受兼用無線機、カーキット（car-kit）、または他の通信デバイスによって用意され得る。その結果、かなりの量のボイス通信は、典型的には人々が集まりやすい場所で出会う種類の雑音内容を有する、ユーザが他の人々に取り囲まれる環境で移動デバイス（例えば、スマートフォン、送受話器および／またはヘッドホン）を使用して行われている。このような雑音は、電話会話の遠端にいるユーザの気を紛らわしたり、ユーザを悩ましたりする傾向がある。更に、多くの標準的な自動化されたビジネス取引（例えば、勘定収支または株価チェック）はボイス認識ベースのデータ問合せを使用し、またこれらのシステムの精度は妨害雑音によって大きく妨げられ得る。

雑音の多い環境で通信が行われる用途に関しては、背景雑音から所望のスピーチ信号を分離することが望ましいことがあり得る。雑音は所望の信号に干渉する、またはそうでなければ所望の信号を劣化させるすべての信号の組合せと定義され得る。背景雑音は、所望の信号から、および／または他の信号のいずれかから生成される反響および残響ばかりでなく他の人々の背景会話といった音響環境内で生成される非常に多くの雑音信号を含み得る。所望のスピーチ信号が背景雑音から分離されない場合には、スピーチ信号を信頼度高く効率的に使用することは困難である可能性がある。１つの特定の例では、スピーチ信号は雑音の多い環境で生成され、この環境雑音からスピーチ信号を分離するためにスピーチ処理方法が使用される。

移動環境で遭遇する雑音は、競合する話者、ミュージック、片言、街頭雑音、および／または空港雑音といった種々の異なる成分を含み得る。このような雑音のシグネチャー（signature）は典型的には非定常的であってユーザ自身の周波数シグネチャーに近いので、雑音は従来型の単一マイクロホンまたは固定式ビーム形成タイプの方法を使用してモデル化するのが困難であり得る。単一マイクロホン雑音低減技法は、典型的には最適な性能を達成するためにかなりのパラメータ調整（parameter tuning）を必要とする。例えば、適当な雑音基準はこのような場合には直接利用可能でない可能性があり、間接的に雑音基準を導き出すことを必要とする可能性がある。従って、雑音の多い環境におけるボイス通信のために移動デバイスの使用をサポートするために、多数のマイクロホンに基づく進歩した信号処理が望ましいことができる。

全体的構成によるマルチチャネル信号を処理する方法は、マルチチャネル信号の複数の異なる周波数成分の各々に関して、複数の計算された位相差を取得するために、マルチチャネル信号の第１のチャネルの周波数成分の位相とマルチチャネル信号の第２のチャネルの周波数成分の位相との間の差を計算することを含む。この方法は第１のチャネルのレベルと第２のチャネルの対応するレベルとを計算することを含む。この方法は、第１のチャネルの計算されたレベルと第２のチャネルの計算されたレベルと複数の計算された位相差の少なくとも１つとに基づいて利得係数の更新された値を計算することと、更新された値に従って第１のチャネルの対応する振幅に関して第２のチャネルの振幅を修正することによって、処理されたマルチチャネル信号を生成することと、を含む。これらの活動の各々を実行するための手段を含む装置も本明細書で開示される。このような方法を実行するための機械実行可能命令を記憶する具体的特徴機能を有するコンピュータ可読媒体も本明細書で開示される。

全体的構成によるマルチチャネル信号を処理するための装置は、マルチチャネル信号の複数の異なる周波数成分の各々に関して、マルチチャネル信号の第１のチャネルの周波数成分の位相とマルチチャネル信号の第２のチャネルの周波数成分の位相との間の差を計算することによって複数の計算された位相差を取得するように構成された第１の計算器を含む。この装置は、第１のチャネルのレベルと第２のチャネルの対応するレベルとを計算するように構成された第２の計算器と、第１のチャネルの計算されたレベルと第２のチャネルの計算されたレベルと複数の計算された位相差の少なくとも１つとに基づいて利得係数の更新された値を計算するように構成された第３の計算器と、を含む。この装置は、この更新された値に従って第１のチャネルの対応する振幅に関して第２のチャネルの振幅を修正することによって、処理されたマルチチャネル信号を生成するように構成された利得制御要素を含む。

図１は、使用中のヘッドホンＤ１００の側面図を示す。図２は、ユーザの耳に装着されたヘッドホンＤ１００の上面図を示す。図３Ａは、使用中の送受話器Ｄ３００の側面図を示す。図３Ｂは、マイクロホンアレイに関する幅広面領域およびエンドファイア（endfire）領域の例を示す。図４Ａは、全体的構成によるマルチチャネル信号を処理する方法Ｍ１００のための流れ図を示す。図４Ｂは、タスクＴ１００の実現形態Ｔ１０２の流れ図を示す。図４Ｃは、タスクＴ１１０の実現形態Ｔ１１２の流れ図を示す。図５Ａは、タスクＴ３００の実現形態Ｔ３０２の流れ図を示す。図５Ｂは、タスクＴ３００の代替実現形態Ｔ３０４の流れ図を示す。図５Ｃは、方法Ｍ１００の実現形態Ｍ２００の流れ図を示す。図６Ａは、到着方向を推定するためのアプローチを示す幾何学的近似の一例を示す。図６Ｂは、第２象限値および第３象限値に関して図６Ａの近似を使用することの一例を示す。図７は、球形波面を想定するモデルの一例を示す。図８Ａは、パスバンドとストップバンドとの間の比較的急激な遷移を有するマスキング関数の一例を示す。図８Ｂは、マスキング関数のための線形ロールオフの一例を示す。図８Ｃは、マスキング関数のための非線形ロールオフの一例を示す。図９Ａは、異なるパラメータ値のための非線形関数の例を示す。図９Ｂは、異なるパラメータ値のための非線形関数の例を示す。図９Ｃは、異なるパラメータ値のための非線形関数の例を示す。図１０は、マスキング関数の指向性パターンの前方ローブおよび後方ローブを示す。図１１Ａは、方法Ｍ１００の実現形態Ｍ１１０の流れ図を示す。図１１Ｂは、タスクＴ３６０の実現形態Ｔ３６２の流れ図を示す。図１１Ｃは、タスクＴ３６０の実現形態Ｔ３６４の流れ図を示す。図１２Ａは、方法Ｍ１００の実現形態Ｍ１２０の流れ図を示す。図１２Ｂは、方法Ｍ１００の実現形態Ｍ１３０の流れ図を示す。図１３Ａは、方法Ｍ１００の実現形態Ｍ１４０の流れ図を示す。図１３Ｂは、方法Ｍ１００の実現形態Ｍ１５０の流れ図を示す。図１４Ａは、３つの異なる閾値に対応する近接検出領域の境界の一例を示す。図１４Ｂは、スピーカーカバレッジのコーンを取得するための近接バブルとある範囲の許容された方向との交差の一例を示す。図１５は、図１４Ｂに示された音源選択領域境界の上面図を示す。図１６は、図１４Ｂに示された音源選択領域境界の側面図を示す。図１７Ａは、方法Ｍ１００の実現形態Ｍ１６０の流れ図を示す。図１７Ｂは、方法Ｍ１００の実現形態Ｍ１７０の流れ図を示す。図１８は、方法Ｍ１７０の実現形態Ｍ１８０の流れ図を示す。図１９Ａは、全体的構成による方法Ｍ３００の流れ図を示す。図１９Ｂは、方法Ｍ３００の実現形態Ｍ３１０の流れ図を示す。図２０Ａは、方法Ｍ３１０の実現形態Ｍ３２０の流れ図を示す。図２０Ｂは、全体的構成による装置Ｇ１００のブロック図を示す。図２１Ａは、全体的構成による装置Ａ１００のブロック図を示す。図２１Ｂは、装置Ａ１１０のブロック図を示す。図２２は、装置Ａ１２０のブロック図を示す。図２３Ａは、アレイＲ１００の実現形態Ｒ２００のブロック図を示す。図２３Ｂは、アレイＲ２００の実現形態Ｒ２１０のブロック図を示す。図２４Ａは、全体的構成によるデバイスＤ１０のブロック図を示す。図２４Ｂは、デバイスＤ１０の実現形態Ｄ２０のブロック図を示す。図２５Ａは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２５Ｂは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２５Ｃは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２５Ｄは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２６Ａは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２６Ｂは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２６Ｃは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２６Ｄは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２７Ａは、マルチマイクロホン通信送受話器Ｄ３００の（中心軸に沿った）断面図を示す。図２７Ｂは、デバイスＤ３００の実現形態Ｄ３１０の断面図を示す。図２８Ａは、マルチマイクロホン・メディア・プレーヤＤ４００の図を示す。図２９Ａは、マルチマイクロホン・ハンズフリー・カーキットＤ５００の図を示す。図３０は、デバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ６００の図を示す。

現実世界は、残響という結果を招く多数のサウンドにしばしば侵入する（transgress）シングルポイント雑音源を含む多数の雑音源で溢れている。背景音響雑音は、所望のサウンド信号から、および／または他の信号のいずれかから生成される反響および残響ばかりでなく、一般環境によって生成される多数の雑音信号および他の人々の背景会話によって生成される干渉信号を含み得る。

環境雑音は、近端スピーチ信号といった感知されたオーディオ信号の理解度に影響を及ぼすことができる。背景雑音から所望のオーディオ信号を区別するために信号処理を使用することは望ましいことであり得る。通信が雑音の多い環境で行われることができる用途に関しては、例えば、背景雑音からスピーチ信号を区別してスピーチ信号の理解度を高めるためのスピーチ処理方法を使用することが望ましいことができる。現実世界の状況では雑音はほとんど常に存在するので、このような処理は毎日の通信の多くの領域において重要であり得る。

音響信号を受信するように構成された２つ以上のマイクロホンのアレイＲ１００を有する携帯型オーディオセンシング・デバイスを製造することが望ましいことができる。このようなアレイを含むように実現され得る、そしてオーディオレコーディングおよび／またはボイス通信用途のために使用され得る携帯型オーディオセンシング・デバイスの例は、電話送受話器（例えば、携帯電話送受話器またはスマートフォン）；有線または無線ヘッドホン（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドホン）、ハンドヘルド・オーディオおよび／またはビデオレコーダー；オーディオおよび／またはビデオコンテンツを記録するように構成されたパーソナル・メディア・プレーヤー；パーソナル・ディジタル・アシスタント（ＰＤＡ）または他のハンドヘルド・コンピューティング・デバイス；およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、または他のポータブル・コンピューティング・デバイスを含む。

通常の使用時に、携帯型オーディオセンシング・デバイスは所望の音源に関してある範囲の標準的な方位の間のどこでも動作し得る。例えば、異なるユーザが異なる仕方でデバイスを装着または保持することがあり、また同じユーザが同じ使用期間内（例えば、１回の電話通話中）であっても異なる時に異なる仕方でデバイスを装着または保持することがあり得る。図１は、ユーザの口に関してデバイスのある範囲の標準的方位にある２つの例を含む使用中のヘッドホンＤ１００の側面図を示す。ヘッドホンＤ１００は、デバイスの典型的な使用時に、より直接的にユーザのボイスを受け入れるように位置付けられた１次マイクロホンＭＣ１０と、デバイスの典型的な使用時に、より直接的でなくユーザのボイスを受け入れるように位置付けられた２次マイクロホンＭＣ２０とを含むアレイＲ１００の一事例を有する。図２は、ユーザの口に関して標準的な方位にあるユーザの耳に装着されたヘッドホンＤ１００の上面図を示す。図３Ａは、ユーザの口に関してデバイスのある範囲の標準的方位にある２つの例を含む使用中の送受話器Ｄ３００の側面図を示す。

文脈によって明確に限定されていない場合には、用語「信号」は本明細書では、ワイヤ、バスまたは他の伝送媒体について表されるようなメモリ位置（または、１セットのメモリ位置）の状態を含むこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「生成すること（generating）」は本明細書では、コンピューティング（computing）またはそうでなければ作り出すこと（producing）といったこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「計算すること（calculating）」は本明細書では、コンピューティング、評価すること（evaluating）、平滑化すること（smoothing）および／または複数の値から選択することといったこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「取得すること（obtaining）」は本明細書では、計算すること、導き出すこと、受信すること（例えば、外部デバイスから）、および／または（例えば、１アレイの記憶要素から）検索することといったこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「選択すること（selecting）」は本明細書では、識別すること、指示すること、適用すること、および／または２つ以上のセットの内の少なくとも１つ、およびすべてより少なく、を使用すること、といったこの用語の通常の意味のいずれかを指すために使用される。用語「備えること（comprising）」が本説明および請求項において使用される場合には、この用語は他の要素または動作を除外しない。用語「に基づく（based on）」（「ＡはＢに基づく」におけるような）は、ケース（ｉ）「から導き出される」（例えば、「ＢはＡの先行体である」、（ｉｉ）「少なくとも・・・に基づく」（例えば、「Ａは少なくともＢに基づく」）、および特定の文脈において適当であれば、（ｉｉｉ）「・・・に等しい」（例えば、「ＡはＢに等しい」）を含むこの用語の通常の意味のいずれかを指すために使用される。同様に用語「・・・に応じて（in response to）」は「少なくとも・・・に応じて」を含むこの用語の通常の意味のいずれかを指すために使用される。

マルチマイクロホン・オーディオセンシング・デバイスのマイクロホンの「位置（location）」への言及は、文脈によって別に指示されていない場合には、マイクロホンの音響的に敏感な面の中心の位置を指す。用語「チャネル（channel）」は、特定の文脈に従って、時には信号経路を指すために、また他の時にはこのような経路によって伝達される信号を指すために使用される。別に指示されていない場合には、用語「シリーズ（series）」は２つ以上の項目の一続きを指すために使用される。用語「対数（logarithm）」は１０を底とする対数を指すために使用されるが、他の底へのこのような演算の拡張も本開示の範囲内にある。用語「周波数成分（frequency component）」は、信号の周波数ドメイン表現（例えば、高速フーリエ変換によって作り出されるような）のサンプル（または、「ビン（bin）」）、または信号のサブバンド（例えば、バークスケール（Bark scale）サブバンド）といった信号の１セットの周波数または周波数帯域の間の１つを指すために使用される。

別に指示されていない場合には、特定の特徴機能を有する装置の動作のいかなる開示もアナログ的特徴機能を有する方法を開示するように明確に意図されており（逆もまた同様である）、また特定の構成による装置の動作のいかなる開示もアナログ的構成による方法を開示するように明確に意図されている（逆もまた同様である）。用語「構成（configuration）」はこの用語の特定の文脈によって示されるような方法、装置および／またはシステムへの参照時に使用され得る。用語「方法」、「プロセス」、「手順」、および「技法」は、特定の文脈によって別に指示されていない場合には、一般的にまた相互交換可能に使用される。用語「装置（apparatus）」および「デバイス（device）」もまた、特定の文脈によって別に指示されていない場合には、一般的にまた相互交換可能に使用される。用語「要素」および「モジュール」は典型的には、より大きな構成の一部分を指すために使用される。用語「システム」は、この用語の文脈によって明確に限定されていない場合には、本明細書では「共通目的に役立つために相互作用する要素の１グループ」を含むこの用語の通常の意味のいずれかを指すために使用される。文書の一部分の参照によるいかなる抱合も、抱合された部分において参照される何らかの数字（figure）と同様に用語または変数の定義がこの文書のほかの場所に現れる部分内で参照される用語または変数の定義を抱合すると理解されるべきである。

近距離音場（near-field）は、サウンド受信機（例えば、マイクロホンアレイ）から１波長未満離れた空間の領域として定義され得る。この定義の下で、この領域の境界までの距離は周波数とは逆に変化する。例えば、２００Ｈｚ、７００Ｈｚおよび２０００Ｈｚの周波数において１波長境界までの距離は、それぞれ約１７０、４９および１７センチメートルである。その代わりに近距離音場／遠距離音場境界がマイクロホンアレイから特定の距離（例えば、このアレイのマイクロホンから、またはこのアレイの重心から５０センチメートル、またはこのアレイのマイクロホンから、またはこのアレイの重心から１メートルまたは１．５メートル）にあると考えることは有用であり得る。

マイクロホンアレイは、各チャネルが音響環境に対するマイクロホンの対応する１つの応答に基づいているマルチチャネル信号を作り出す。異なる音源から受信された信号の成分間を弁別するためにマルチチャネル信号に対して空間選択的処理（ＳＳＰ）動作を実行することが望ましいことができる。例えば、指向性サウンドの所望の音源（例えば、ユーザの口）からのサウンド成分と、拡散背景雑音および／または指向性干渉雑音の１つ以上の音源（例えば、競合スピーカー）からのサウンド成分との間を弁別することは望ましい可能性がある。ＳＳＰ動作の例は、ビーム形成アプローチ（例えば、汎用サイドローブ・キャンセレーション（ＧＳＣ）、最小分散無歪み応答（ＭＶＤＲ）、および／または線形拘束最小分散（ＬＣＭＶ）ビームフォーマー）、ブラインドソース分離（ＢＳＳ）および他の適応型学習アプローチ、および利得ベース近接検出を含む。ＳＳＰ動作の典型的な用途は、携帯型オーディオセンシング・デバイスのためのマルチマイクロホン雑音低減方式を含む。

ＳＳＰ動作といったアレイＲ１００によって作り出されたマルチチャネル信号に対する動作の成果は、アレイチャネルの応答特性が互いにどれほどよく整合しているかに依存することができる。例えば、チャネルのレベルはそれぞれのマイクロホンの応答特性の差、それぞれの前処理ステージの利得レベルの差、および／またはチャネルの回路雑音レベルの差に起因して異なる可能性がある。このような場合、結果として得られたマルチチャネル信号は、チャネル応答特性間の不整合（「チャネル応答不均衡」とも呼ばれる）が補正され得ない場合には、音響環境の正確な表現を与えないことができる。

このような補正なしでは、このような信号に基づくＳＳＰ動作は誤った結果を与えることができる。チャネル間の利得差が指向性音源の相対的近接度を示すために使用される動作に関しては、チャネルの応答間の不均衡は近接度指示の精度を下げる傾向があるであろう。もう１つの例では、低周波数（すなわち、約１００Ｈｚ〜１ｋＨｚ）における１または２デシベルほどの小さいチャネル間の振幅応答偏差は低周波数指向性を著しく低減することができる。アレイＲ１００のチャネルの応答間の不均衡の影響は、２個より多いマイクロホンを有するアレイＲ１００の実現形態からのマルチチャネル信号を処理する用途のために特に有害であり得る。

正確なチャネル較正は、ヘッドホン用途のために特に重要であり得る。例えば、近距離音場音源から到着するサウンド成分と遠距離音場音源から到着するサウンド成分との間を弁別するように携帯型オーディオセンシング・デバイスを構成することが望ましいことができる。このような弁別は、マルチチャネル信号の２つのチャネルの利得レベル間の差（すなわち、「チャネル間利得レベル差」）がアレイのエンドファイア方向（すなわち、対応するマイクロホンの中心を通る直線の近く）に配置された近距離音場音源からのサウンド成分のために、より高いことが予期され得るので、この差に基づいて実行され得る。

マイクロホン間の距離が減少すると、近距離音場信号に関するチャネル間利得レベル差も減少する。ハンドヘルド用途のために、近距離音場信号に関するチャネル間利得レベル差は典型的には、遠距離音場信号に関するチャネル間利得レベル差から約６デシベルである。しかしながらヘッドホン用途のためには、典型的な近距離音場サウンド成分に関するチャネル間利得レベル差は、典型的な遠距離音場音響成分に関するチャネル間利得レベル差の３デシベル（または、これより小さい）以内にあり得る。このような場合には、ほんの数デシベルのチャネル応答不均衡がこのような成分間を弁別する能力を厳しく妨げることができるが、３デシベル以上の不均衡はこの能力を台無しにすることができる。

アレイチャネルの応答間の不均衡は、マイクロホン自体の応答間の差から発生し得る。アレイＲ１００の製造時にばらつきが発生し得るので、１バッチの量産された一見同じマイクロホンの間でも感度はマイクロホンによってかなり変わることができる。携帯型の大量市場向けオーディオセンシング・デバイスでの使用のためのマイクロホンは、例えばプラスマイナス３デシベルの感度公差で製造され得るので、アレイＲ１００の実現形態における２つのこのようなマイクロホンの感度は６デシベルほどの大きさだけ異なることができる。

チャネル応答不均衡の問題は、応答が既に整合させられている（例えば、選別または廃棄プロセスを介して）マイクロホンを使用することによって携帯型オーディオセンシング・デバイスの製造時に取り組まれ得る。代替としてまたは更に、チャネル較正手順は、研究所においておよび／または工場といった製造施設においてアレイＲ１００のマイクロホン（または、アレイを含むデバイス上の）に実行され得る。このような手順は、均衡したマルチチャネル信号を作り出すために１つ以上の利得係数を計算してこのような係数を対応するチャネルに適用することによって不均衡を補正し得る。サービスの前に実行され得る較正手順の例は、２００９年５月２８日に出願された、「SYSTEMS,METHODS,AND APPARATUS FOR MULTICHANNEL SIGNAL BALANCING」（マルチチャネル信号均衡化のためのシステム、方法、および装置）と題する米国特許出願第１２／４７３，９３０号と、２００８年１２月１２日に出願された、「SYSTEMS,METHODS,AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」（マルチマイクロホンベースの音声改善のためのシステム、方法、および装置）と題する米国特許出願第１２／３３４，２４６号とに説明されている。このような整合または較正動作はデバイスを製造するコストを増加させることができるが、デバイスのサービス寿命（例えば、老化による）の期間中に発生するチャネル応答不均衡に対しては無効でもあり得る。

代替としてまたは更に、チャネル較正は稼働中に（例えば、米国特許出願第１２／４７３，９３０号に説明されているように）実行され得る。このような手順は、時間の経過と共に発生する応答不均衡を修正するために、および／または初期応答不均衡を修正するために使用され得る。初期応答不均衡は、例えばマイクロホン不整合および／または誤った較正手順（例えば、この手順中にマイクロホンが触られるか、またはカバーされる）に起因することができる。変動するチャネルレベルによってユーザの気を紛らわすことを防止するために、このような手順が時間の経過と共に徐々に変化する補正を適用することが望ましいことができる。しかしながら初期応答不均衡が大きい場合にはこのような徐々の補正は、マルチチャネル信号に対するＳＳＰ動作がうまく実行できず、不満足なユーザ体験につながる恐れがある、長い収束期間（例えば、１〜１０分以上）を引き起こすことができる。

マルチチャネル信号の時間・周波数ポイントを分類するために位相分析が使用され得る。例えば、信号のチャネルの推定された位相間の複数の異なる周波数の各々における差に基づいてマルチチャネル信号の時間・周波数ポイントを分類するようにシステム、方法または装置を構成することが望ましいことができる。このような構成は本明細書では「位相ベース」と呼ばれる。

特定の位相差特性を示す時間・周波数ポイントを識別するために位相ベース方式を使用することは望ましいことができる。例えば、位相ベース方式は、感知されたマルチチャネル信号の特定の周波数成分がアレイ軸に関する可能な角度の範囲内から、またはこの範囲外から発生したかどうかを決定するために、マイクロホン間距離とチャネル間位相差とに関する情報を適用するように構成され得る。このような決定は、異なる方向から到着する音響成分間を弁別するために（例えば、可能な範囲内から発生するサウンドが選択されてこの範囲外から発生するサウンドが拒絶されるように）、および／または近距離音場音源および遠距離音場音源から到着するサウンド成分間を弁別するために使用され得る。

典型的な用途ではこのようなシステム、方法、または装置は、マルチチャネル信号の少なくとも一部分に亘る（例えば、特定の範囲の周波数に亘る、および／または特定の時間間隔に亘る）各時間・周波数ポイントに関するマイクロホンペアに関して到着方向を計算するために使用される。指向性マスキング関数は、所望の範囲内の到着方向を有するポイントを他の到着方向を有するポイントから区別するためにこれらの結果に適用され得る。指向性マスキング演算からの結果は、このマスクの外側の到着方向を有する時間・周波数ポイントを廃棄する、または減衰させることによって望ましくない方向からのサウンド成分を減衰させるために使用され得る。

上記のように、多くのマルチマイクロホン空間処理動作は本来的にマイクロホンチャネルの相対的利得応答に依存しているので、チャネル利得応答の較正はこのような空間処理動作を可能にするために必要であり得る。製造時にこのような較正を実行することは典型的には多大の時間を必要とする、および／またはそうでなくとも高価である。しかしながら位相ベースの方式は、入力チャネル間の利得不均衡によって比較的影響されないように実現され得るので、対応するチャネルの利得応答が互いに整合させられる度合いは、計算された位相差の精度およびこれらに基づく引き続きの動作（例えば、指向性マスキング）に対する限定要因ではない。

本明細書に説明されているようなチャネル較正動作（「チャネル均衡化」動作とも呼ばれる）をサポートするために、このような方式の分類結果を使用することによって位相ベース方式のチャネル不均衡に対する強固さを活用することが望ましいことができる。例えば、チャネル均衡化のために有用であり得る記録されたマルチチャネル信号の周波数成分および／または時間間隔を識別するために位相ベース方式を使用することが望ましいことができる。このような方式は、到着方向が各チャネルにおいて比較的等しい応答を作り出すように予期されることを示す時間・周波数ポイントを選択するように構成され得る。

図３Ｂに示されているような２マイクロホンアレイに関するある範囲の音源方向に関して、チャネル較正のための幅広面方向（すなわち、アレイ軸に直交する方向）から到着するサウンド成分だけを使用することが望ましいことができる。このような状況は、例えば近距離音場音源が動作しておらず音源が分散している（例えば、背景雑音）ときに見出され得る。較正のための遠距離音場エンドファイア音源から到着するサウンド成分は無視可能なチャネル間利得レベル差（例えば、分散に起因する）を引き起こすと予期され得るので、このようなサウンド成分を使用することも受入れ可能であり得る。しかしながら、アレイのエンドファイア方向（すなわち、アレイ軸に近い方向）から到着する近距離音場サウンド成分は、チャネル不均衡よりむしろ音源位置情報を表すチャネル間利得差を有すると予期されるであろう。その結果、較正のためにこのような成分を使用することは誤った結果を作り出す可能性があり、幅広面方向から到着するサウンド成分からこのような成分を区別するために指向性マスキング演算を使用することが望ましいことができる。

このような位相ベースの分類方式は、実行時間における（例えば、デバイスの使用時に連続的または間欠的いずれにおいても）較正動作をサポートするために使用され得る。このような仕方で、チャネル利得応答不均衡にそれ自身は影響されない敏速で正確なチャネル較正動作が達成され得る。代替として、選択された時間・周波数ポイントからの情報は、後にチャネル較正動作をサポートするために、ある時間に亘って蓄積され得る。

図４Ａは、タスクＴ１００、Ｔ２００、Ｔ３００、およびＴ４００を含む全体的構成によるマルチチャネル信号を処理する方法Ｍ１００のための流れ図を示す。タスクＴ１００は、この信号の複数の異なる周波数成分の各々に関してマルチチャネル信号のチャネル（例えば、マイクロホンチャネル）間の位相差を計算する。タスクＴ２００は、マルチチャネル信号の第１のチャネルのレベルとマルチチャネル信号の第２のチャネルの対応するレベルとを計算する。計算されたレベルと計算された位相差の少なくとも１つとに基づいて、タスクＴ３００は利得係数値を更新する。更新された利得係数値に基づいて、タスクＴ４００は処理された（例えば、均衡化された）マルチチャネル信号を作り出すために、第１のチャネルの対応する振幅に関して第２のチャネルの振幅を修正する。方法Ｍ１００はまた、ＳＳＰ動作といった（例えば、本明細書で更に詳細に説明されるような）マルチチャネル信号に対する更なる動作をサポートするためにも使用され得る。

方法Ｍ１００は、マルチチャネル信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は、約５または１０ミリセカンドから約４０または５０ミリセカンドの範囲にあり、これらのセグメントはオーバーラップしていることも（例えば、隣接セグメントと２５％または５０％だけオーバーラップしている）、オーバーラップしていないこともあり得る。１つの特定の例ではマルチチャネル信号は、各々が１０ミリセカンドの長さを有する一連のオーバーラップしていないセグメントまたは「フレーム」に分割される。タスクＴ１００は、セグメントの各々に関する１セットの（例えば、１ベクトルの）位相差を計算するように構成され得る。方法Ｍ１００のある幾つかの実現形態では、タスクＴ２００は各チャネルのセグメントの各々に関するレベルを計算するように構成され、タスクＴ３００はセグメントの少なくとも一部に関する利得係数値を更新するように構成されている。方法Ｍ１００の他の実現形態では、タスクＴ２００は各チャネルのセグメントの各々に関する１セットのサブバンドレベルを計算するように構成され、タスクＴ３００は１セットのサブバンド利得係数値の１つ以上を更新するように構成されている。方法Ｍ１００によって処理されたセグメントは、異なる動作によって処理された更に大きなセグメントのセグメント（すなわち、「サブフレーム」）でもあり得るが、逆もまた同様である。

図４ＢはタスクＴ１００の実現形態Ｔ１０２の流れ図を示す。各マイクロホンチャネルに関しては、タスクＴ１０２は異なる周波数成分の各々に関してこのチャネルに関する位相を推定するサブタスクＴ１１０のそれぞれの事例を含む。図４Ｃは、サブタスクＴ１１２１およびＴ１１２２を含むタスクＴ１１０の実現形態Ｔ１１２の流れ図を示す。タスクＴ１１２１は、高速フーリエ変換（ＦＦＴ）または離散コサイン変換（ＤＣＴ）といったチャネルの周波数変換を計算する。タスクＴ１１２１は典型的には、各セグメントに関するチャネルの周波数変換を計算するように構成されている。例えば、各セグメントの１２８ポイントまたは２５６ポイントＦＦＴを実行するようにタスクＴ１１２１を構成することは望ましい可能性がある。タスクＴ１１２１の代替実現形態は１バンクのサブバンドフィルタを使用してチャネルの種々の周波数成分を分離するように構成されている。

タスクＴ１１２２は異なる周波数成分（「ビン」とも呼ばれる）の各々に関するマイクロホンチャネルの位相を計算する（例えば、推定する）。推定されるべき各周波数成分に関して、例えばタスクＴ１１２２は対応するＦＦＴ係数の虚数項対ＦＦＴ係数の実数項の比の逆タンジェント（アークタンジェントとも呼ばれる）として位相を推定するように構成され得る。

タスクＴ１０２はまた、各チャネルに関して推定された位相に基づいて異なる周波数成分の各々に関する位相差Δφを計算するサブタスクＴ１２０を含む。タスクＴ１２０は、１つのチャネルにおける周波数成分に関して推定された位相を、他のチャネルにおける周波数成分に関して推定された位相から差し引くことによって、位相差を計算するように構成され得る。例えば、タスクＴ１２０は１次チャネルにおける周波数成分に関して推定された位相を、もう１つの（例えば、２次）チャネルにおける周波数成分に関して推定された位相から差し引くことによって、位相差を計算するように構成され得る。このような場合、１次チャネルはデバイスの典型的な使用時に最も直接的にユーザのボイスを受け入れると予期されるマイクロホンに対応するチャネルといった最も高い信号対雑音比を有すると予期されるチャネルであり得る。

周波数の広帯域範囲に亘るマルチチャネル信号のチャネル間の位相差を推定するように方法Ｍ１００（または、このような方法を実行するように構成されたシステムまたは装置）を構成することが望ましいことができる。このような広帯域範囲は、例えばゼロ、５０、１００または２００Ｈｚという低い周波数範囲から３、３．５または４ｋＨｚという高い周波数範囲（または、より高い最大７または８ｋＨｚ以上といった）まで広がり得る。しかしながら、タスクＴ１００が信号の全帯域幅に亘って位相差を計算することは必要でない可能性がある。例えば、このような広帯域幅における多くの帯域に関して、位相推定は実用的でない、または不必要であることができる。極めて低い周波数において受信された波形の位相関係の実際的評価は典型的には、対応するようにトランスデューサ間の大きな間隔を必要とする。この結果、マイクロホン間の最大利用可能間隔は低周波数範囲を確立し得る。他方では、マイクロホン間の距離は空間エイリアシングを防止するために、最小波長の半分を超えるべきでない。例えば８ｋＨｚのサンプリング速度はゼロから４ｋＨｚの帯域幅を与える。４ｋＨｚ信号の波長は約８．５センチメートルであるから、この場合、隣接マイクロホン間の間隔は約４センチメートルを超えるべきでない。マイクロホンチャネルは空間エイリアシングを引き起こす可能性がある周波数を除去するために、ローパスフィルタリングされ得る。

従って、タスクＴ１１２１によって作り出された周波数成分のすべてより少ないものに関して（例えば、タスクＴ１１２１によって実行されたＦＦＴの周波数サンプルのすべてより少ないものに関して）位相推定値を計算するようにタスクＴ１１２２を構成することが望ましいことができる。例えば、タスクＴ１１２２は、約５０、１００、２００、または３００Ｈｚから約５００または１０００Ｈｚまでの周波数範囲に関して位相推定値を計算するように構成され得る（これら８つの組合せの各々は明確に考えられ、開示されている）。このような範囲が較正のために特に有用である成分を含み、較正のためにあまり有用でない成分を除外するであろうことは予期され得る。

チャネル較正以外の目的のために使用される位相推定値を計算するようにもタスクＴ１００を構成することが望ましいことができる。例えば、タスクＴ１００はまた、（例えば、下記により詳細に説明されるように）ユーザのボイスを追跡および／または増強するために使用される位相推定値を計算するようにも構成され得る。１つのこのような例では、タスクＴ１１２２はまたユーザのボイスのエネルギーの大部分を含むと予期され得る７００Ｈｚから２０００Ｈｚの周波数範囲に関する位相推定値を計算するようにも構成され得る。４ｋＨｚ帯域幅信号の１２８ポイントＦＦＴに関して、７００〜２０００Ｈｚの範囲は概して、第１０番目サンプルから第３２番目サンプルまでの２３個の周波数サンプルに対応する。更なる例では、タスクＴ１１２２は約５０、１００、２００、３００、または５００Ｈｚの低周波数範囲から約７００、１０００、１２００、１５００、または２０００Ｈｚの高周波数範囲に広がる周波数範囲に亘って位相推定値を計算するように構成されている（これら低周波数範囲および高周波数範囲の２５個の組合せの各々は明確に考えられて開示されている）。

レベル計算タスクＴ２００は、マルチチャネル信号の対応するセグメントにおける第１および第２のチャネルの各々に関するレベルを計算するように構成されている。代替としてタスクＴ２００は、マルチチャネル信号の対応するセグメントの１セットのサブバンドの各々における第１および第２のチャネルの各々に関するレベルを計算するように構成され得る。このような場合、タスクＴ２００は同じ幅（例えば、５００、１０００または１２００Ｈｚの均一な幅）を有する１セットのサブバンドの各々に関するレベルを計算するように構成され得る。代替としてタスクＴ２００は、サブバンドの少なくとも２つ（場合によってはすべて）が異なる幅を有する１セットのサブバンド（例えば、信号スペクトルのＢａｒｋまたはＭｅｌスケール分割による幅といった不均一幅を有する１セットのサブバンド）の各々に関するレベルを計算するように構成され得る。

タスクＴ２００は、対応する時間に亘る（例えば、対応するセグメントに亘る）チャネルにおけるサブバンドの振幅またはマグニチュード（「絶対振幅」または「修正振幅」とも呼ばれる）の測定値としてタイムドメインにおける選択されたサブバンドの各チャネルに関するレベルＬを計算するように構成され得る。振幅またはマグニチュードの測定値の例は、全マグニチュード、平均マグニチュード、二乗平均平方根（ＲＭＳ）振幅、中央値マグニチュードおよびピークマグニチュードを含む。ディジタルドメインにおいて、このような測定値は下記の１つといった式に従って、ｎ個のサンプル値ｘ_ｔ，ｔ＝１，２，・・・，ｎの１ブロック（または、「フレーム」）に亘って計算され得る：

タスクＴ２００はまた、このような式に従って周波数ドメイン（例えば、フーリエ変換ドメイン）またはもう１つの変換ドメイン（例えば、離散型コサイン変換（ＤＣＴ）ドメイン）における選択されたサブバンドの各チャネルに関するレベルＬを計算するようにも構成され得る。タスクＴ２００はまた、同様の式に従って（例えば、合計の代わりに積分を使用して）、アナログドメインにおけるレベルを計算するようにも構成され得る。

代替として、タスクＴ２００は、対応する時間に亘る（例えば、対応するセグメントに亘る）サブバンドのエネルギーの測定値としてタイムドメインにおける選択されたサブバンドの各チャネルに関するレベルＬを計算するように構成され得る。エネルギーの測定値の例は全エネルギーと平均エネルギーとを含む。ディジタルドメインでは、これらの測定値は下記のような式に従ってｎ個のサンプル値ｘ_ｔ，ｔ＝１，２，・・・，ｎの１ブロックに亘って計算され得る：

タスクＴ２００はまた、このような式に従って、周波数ドメイン（例えば、フーリエ変換ドメイン）またはもう１つの変換ドメイン（例えば、離散型コサイン変換（ＤＣＴ）ドメイン）における選択されたサブバンドの各チャネルに関するレベルＬを計算するようにも構成され得る。タスクＴ２００はまた、同様の式に従って（例えば、合計の代わりに積分を使用して）アナログドメインにおけるレベルを計算するようにも構成され得る。更なる代替として、タスクＴ２００は、対応する時間に亘る（例えば、対応するセグメントに亘る）サブバンドのパワースペクトル密度（ＰＳＤ）として、選択されたサブバンドの各チャネルに関するレベルを計算するように構成される。

代替としてタスクＴ２００は、タイムドメインにおける、または周波数ドメインにおける、またはもう１つの変換ドメインにおけるマルチチャネル信号の選択されたセグメントの各チャネルｉに関するレベルＬｉを、このチャネルにおけるセグメントの振幅、マグニチュードまたはエネルギーの測定値として計算するようにアナログ的仕方で構成され得る。例えば、タスクＴ２００はセグメントのチャネルに関するレベルＬを、このチャネルにおけるセグメントのタイムドメイン・サンプル値の２乗の合計として、またはこのチャネルにおけるセグメントの周波数ドメインサンプル値の２乗の合計として、またはこのチャネルにおけるセグメントのＰＳＤとして、計算するように構成され得る。タスクＴ３００によって処理されたセグメントはまた、異なる動作によって処理された、より大きなセグメントのセグメント（すなわち、「サブフレーム」）でもあり得るが、この逆もまた同様である。

レベル値を計算する前にオーディオ信号チャネルに１つ以上のスペクトル形成動作を実行するようにタスクＴ２００を構成することが望ましいことができる。このような動作はアナログおよび／またはディジタルドメインにおいて実行され得る。例えば、対応するレベル値（単数またな複数）を計算する前にそれぞれのチャネルからの信号に、（例えば、２００、５００または１０００Ｈｚの遮断周波数を有する）ローパスフィルタまたは（例えば、２００Ｈｚから１ｋＨｚのパスバンドを有する）バンドパスフィルタを適用するようにタスクＴ２００を構成することが望ましいことができる。

利得係数更新タスクＴ３００は、計算されたレベルに基づいて少なくとも１つの利得係数の各々に関する値を更新するように構成されている。例えば、タスクＴ２００によって計算された対応する選択された周波数成分における各チャネルのレベル間の観測された不均衡に基づいて利得係数値の各々を更新するようにタスクＴ３００を構成することは望ましい可能性がある。

タスクＴ３００のこのような実現形態は、観測された不均衡を線形レベル値の関数として（例えば、Ｌ_１およびＬ_２がそれぞれ第１および第２のチャネルのレベルを表す場合にＬ_１／Ｌ_２といった式にしたがう比として）計算するように構成され得る。代替として、タスクＴ３００のこのような実現形態は、観測された不均衡を対数ドメインにおけるレベル値の関数として（例えば、Ｌ_１−Ｌ_２といった式にしたがう差として）計算するように構成され得る。

タスクＴ３００は、観測された不均衡を対応する周波数成分に関する更新された利得係数値として使用するように構成され得る。代替として、タスクＴ３００は利得係数の対応する前の値を更新するために観測された不均衡を使用するように構成され得る。このような場合、タスクＴ３００は下記のような式に従って、更新された値を計算するように構成され得る：

ここで、Ｇ_ｉｎは周波数成分ｉに関するセグメントｎに対応する利得係数値を表し、Ｇ_{ｉ（ｎ−１）}は周波数成分ｉに関する前のセグメント（ｎ−１）に対応する利得係数値を表し、Ｒ_ｉｎはセグメントｎにおける周波数成分ｉに関して計算された観測された不均衡を表し、そしてμ_ｉは０．３、０．５または０．７といった０．１（最大平滑化）から１（無平滑化）までの範囲内の値を有する時間的平滑化係数を表す。タスクＴ３００のこのような実現形態が各周波数成分に関して平滑化係数μ_ｉの同じ値を使用することは典型的ではあるが必要ではない。観測された不均衡の計算に先立って観測されたレベルの値を時間的に平滑化するように、および／または更新された利得係数値の計算に先立って観測されたチャネル不均衡の値を時間的に平滑化するように、タスクＴ３００を構成することも可能である。

下記に更に詳細に説明されるように、利得係数更新タスクＴ３００はまた、タスクＴ１００において計算された複数の位相差からの情報（例えば、マルチチャネル信号の音響的に均衡した部分の識別情報）に基づいて少なくとも１つの利得係数の各々に関する値を更新するようにも構成されている。マルチチャネル信号の何らかの特定のセグメントにおいてタスクＴ３００は、１セットの利得係数値のすべてより少ないものを更新し得る。例えば、較正動作時に周波数成分を音響的に不均衡状態のままに留まらせる音源の存在は、タスクＴ３００が観測された不均衡とこの周波数成分に関する新しい利得係数値とを計算するのを妨げることができる。その結果、周波数に亘って観測されたレベル、観測された不均衡および／または利得係数の値を平滑化するようにタスクＴ３００を構成することが望ましいことができる。例えば、タスクＴ３００は選択された周波数成分の観測されたレベルの（または、観測された不均衡または利得係数の）平均値を計算して、この計算された平均値を、無選択周波数成分に割り当てるように構成され得る。もう１つの例では、タスクＴ３００は下記のような式に従って無選択周波数成分ｉに対応する利得係数値を更新するように構成されている：

ここで、Ｇ_ｉｎは周波数成分ｉに関するセグメントｎに対応する利得係数値を表し、Ｇ_{ｉ（ｎ−１）}は周波数成分ｉに関する前のセグメント（ｎ−１）に対応する利得係数値を表し、Ｇ_{（ｉ−１）ｎ}は近隣周波数成分（ｉ−１）に関するセグメントｎに対応する利得係数値を表し、そしてβはゼロ（無更新）から１（無平滑化）までの範囲内の値を有する周波数平滑化係数を表す。更なる例では、式（９）はＧ_{（ｉ−１）ｎ}の代わりに最も近い選択された周波数成分に関する利得係数値を使用するように変更される。タスクＴ３００は時間的平滑化として同じ時間の前または後における、または同じ時間における周波数に亘って平滑化を実行するように構成され得る。

タスクＴ４００は、タスクＴ３００において更新された少なくとも１つの利得係数値に基づいて、マルチチャネル信号のもう１つのチャネルの対応する応答特性に関してマルチチャネル信号の１つのチャネルの応答特性（例えば、利得応答）を修正することによって、処理されたマルチチャネル信号（「均衡化された」または「較正された」信号とも呼ばれる）を作り出す。タスクＴ４００は、第１のチャネルにおける周波数成分の振幅に関して第２のチャネルにおける対応する周波数成分の振幅を変えるために１セットのサブバンド利得係数値の各々を使用することによって、処理されたマルチチャネル信号を作り出すように構成され得る。タスクＴ４００は、例えば応答性のより小さいチャネルからの信号を増幅するように構成され得る。代替として、タスクＴ４００は、２次マイクロホンに対応するチャネルにおける周波数成分の振幅を制御する（例えば、増幅する、または減衰させる）ように構成され得る。上記のように、マルチチャネル信号の任意の特定のセグメントにおいて、１セットの利得係数値のすべてより少ないものが更新されることは可能である。

タスクＴ４００は、単一の利得係数値を信号の各セグメントに適用することによって、またはそうではなく利得係数値を１つより多い周波数成分に適用することによって、処理されたマルチチャネル信号を作り出すように構成され得る。例えば、タスクＴ４００は、１次マイクロホンチャネルの対応する振幅に関して２次マイクロホンチャネルの振幅を修正するために（例えば、１次マイクロホンチャネルに関して２次マイクロホンチャネルを増幅する、または減衰させるために）更新された利得係数値を適用するように構成され得る。

タスクＴ４００は、線形ドメインにおいてチャネル応答均衡化を実行するように構成され得る。例えば、タスクＴ４００は第２のチャネルにおけるセグメントのタイムドメイン・サンプルの値の各々にこのセグメントに対応する利得係数の値を掛けることによって、セグメントの第２のチャネルの振幅を制御するように構成され得る。サブバンド利得係数に関して、タスクＴ４００は、第２のチャネルにおける対応する周波数成分の振幅に利得係数の値を掛けることによって、またはタイムドメインにおける対応するサブバンドに利得係数を適用するためにサブバンドフィルタを使用することによって、第２のチャネルにおける対応する周波数成分の振幅を制御するように構成され得る。

代替として、タスクＴ４００は対数ドメインにおいてチャネル応答均衡化を実行するように構成され得る。例えば、タスクＴ４００は、利得係数の対応する値をセグメントの持続時間に亘ってセグメントの第２のチャネルに適用された対数利得制御値に加えることによって、セグメントの第２のチャネルの振幅を制御するように構成され得る。サブバンド利得係数に関して、タスクＴ４００は、対応する利得係数の値を第２のチャネルにおける周波数成分の振幅に加えることによって、第２のチャネルにおける周波数成分の振幅を制御するように構成され得る。このような場合、タスクＴ４００は、対数値（例えば、デシベル単位の）として振幅および利得係数値を受信するように、および／または（例えば、ｘ_ｌｉｎは線形値であり、ｘ_ｌｏｇは対応する対数値であるとしてｘ_ｌｏｇ＝２０ｌｏｇｘ_ｌｉｎのような式に従って）線形振幅または利得係数値を対数値に変換するように構成され得る。

タスクＴ４００は、チャネル（単数または複数）の他の振幅制御（例えば、自動利得制御（ＡＧＣ）または自動ボリューム制御（ＡＶＣ）モジュール、ユーザ操作ボリューム制御など）と組み合され得る、または他の振幅制御の上流または下流で実行され得る。

２つより多いマイクロホンのアレイに関して、各チャネルの応答が少なくとも１つの他のチャネルの応答に均衡するように、２対以上のチャネルの各々に方法Ｍ１００のそれぞれの事例を実行することが望ましいことができる。例えば、方法Ｍ１００の１つの事例（例えば、方法Ｍ１１０）は１対のチャネル（例えば、第１および第２のチャネル）に基づいてコヒーレンシー測定値を計算するように実行され得るが、方法Ｍ１００のもう１つの事例はもう１対のチャネル（例えば、第１のチャネルおよび第３のチャネル、または第３および第４のチャネル）に基づいてコヒーレンシー測定値を計算するように実行される。しかしながら、１対のチャネルに対して共通の動作が実行されない場合には、この１対のチャネルの均衡化は省略され得る。

利得係数更新タスクＴ３００は、各チャネルにおいて同じレベルを有すると予期されるマルチチャネル信号の周波数成分および／またはセグメント（例えば、本明細書で「音響的に均衡した部分」とも呼ばれるそれぞれのマイクロホンチャネルによって等しい応答をもたらすと予期される周波数成分および／またはセグメント）を示すために、またこれらの部分からの情報に基づいて１つ以上の利得係数値を計算するために、計算された位相差からの情報を使用することを含み得る。アレイＲ１００の幅広面方向における音源から受信されたサウンド成分はマイクロホンＭＣ１０およびＭＣ２０によって等しい応答をもたらすことが予期され得る。これとは逆に、アレイＲ１００のエンドファイア方向のいずれかにおける近距離音場音源から受信されたサウンド成分は、一方のマイクロホンに他方のマイクロホンより高い出力レベルを持たせる（すなわち、「音響的に不均衡化される」）ことが予期され得る。従って、マルチチャネル信号の対応する周波数成分が音響的に均衡化されるか、音響的に不均衡化されるかどうかを決定するために、タスクＴ１００において計算された位相差を使用するようにタスクＴ３００を構成することが望ましいことができる。

タスクＴ３００は、対応する周波数成分の各々に関するマスクスコア（mask score）を取得ために、タスクＴ１００によって計算された位相差に指向性マスキング演算を実行するように構成され得る。限定された周波数範囲に亘るタスクＴ１００による位相推定に関する上記の論議によれば、タスクＴ３００は信号の周波数成分のすべてより少ないものに関する（例えば、タスクＴ１１２１によって実行されたＦＦＴの周波数サンプルのすべてより少ないものに関する）マスクスコアを取得するように構成され得る。

図５ＡはサブタスクＴ３１０、Ｔ３２０およびＴ３４０を含むタスクＴ３００の実現形態Ｔ３０２の流れ図を示す。タスクＴ１００からの複数の計算された位相差の各々に関して、タスクＴ３１０は対応する方向インジケータを計算する。タスクＴ３２０は方向インジケータを評価するために（例えば、方向インジケータの値を振幅またはマグニチュードスケールにおける値に変換またはマッピングするために）、指向性マスキング関数を使用する。タスクＴ３２０によって作り出された評価に基づいて、タスクＴ３４０は（例えば、上記の式（８）または（９）に従って）更新された利得係数値を計算する。例えば、タスクＴ３４０は、信号の周波数成分が音響的に均衡化されていることを評価が示す信号の周波数成分を選択するように、そしてこの成分に関するチャネル間の観測された不均衡に基づくこれらの成分の各々に関する更新された利得係数値を計算するように、構成され得る。

タスクＴ３１０は、マルチチャネル信号の対応する周波数成分ｆ_ｉの到着方向θ_ｉとして方向インジケータの各々を計算するように構成され得る。例えば、タスクＴ３１０は、ｃがサウンドの速度（約３４０ｍ／ｓｅｃ）を表し、ｄがマイクロホン間の距離を表し、Δφ_ｉが２つのマイクロホンに関する対応する位相推定値間の差をラジアン単位で表し、ｆ_ｉが位相推定値が対応する周波数成分（例えば、対応するＦＦＴサンプルの周波数、または対応するサブバンドの中心周波数またはエッジ周波数）である場合に、量ｃΔφ_ｉ／ｄ２πｆ_ｉの逆コサイン（アークコサインとも呼ばれる）として到着方向θ_ｉを推定するように構成され得る。代替として、タスクＴ３１０は、λ_ｉが周波数成分ｆ_ｉの波長を表す場合に、量λ_ｉΔφ_ｉ／ｄ２πの逆コサインとして到着方向θ_ｉを推定するように構成され得る。

図６Ａは２マイクロホンアレイＭＣ１０、ＭＣ２０のマイクロホンＭＣ２０に関する到着方向θを推定する、このアプローチを示す幾何学的近似の一例を示す。この例では、θ_ｉ＝０という値は基準エンドファイア方向（すなわち、マイクロホンＭＣ１０の方向）からマイクロホンＭＣ２０に到着する信号を表し、θ_ｉ＝πという値は他のエンドファイア方向から到着する信号を表し、θ_ｉ＝π／２という値は幅広面方向から到着する信号を表す。別の例では、タスクＴ３１０は、異なる基準位置（例えば、マイクロホンＭＣ１０、またはマイクロホン間の中間点といった他のポイント）および／または異なる基準方向（例えば、他のエンドファイア方向、幅広面方向など）に関してθｉを評価するように構成され得る。

図６Ａに示されている幾何学的近似は距離ｓが距離Ｌに等しいことを想定しており、ここでｓはマイクロホンＭＣ２０の位置と、音源とマイクロホンＭＣ２０との間の直線へのマイクロホンＭＣ１０の位置の直交投影と、の間の距離であり、Ｌは各マイクロホンの音源までの距離間の実際の差である。誤差（ｓ−Ｌ）は、マイクロホンＭＣ２０に関する到着方向θがゼロに近づくにつれて小さくなる。この誤差はまた、音源とマイクロホンアレイとの間の相対的距離が増加するにつれて小さくなる。

図６Ａに示されている方式は、Δφ_ｉの第１象限および第４象限の値（すなわち、ゼロから＋π／２およびゼロから−π／２）のために使用され得る。図６Ｂは、Δφ_ｉの第２象限および第３象限の値（すなわち、＋π／２から−π／２）のために同じ近似を使用する一例を示す。この場合、到着方向θ_ｉを生み出すためにπラジアンから差し引かれる角度ζを評価するために、上記のように逆コサインが計算され得る。現役のエンジニアは、到着方向θ_ｉが度で表され得ること、またはラジアンの代わりに特定用途のために適当な他の任意の単位で表され得ることを理解するであろう。

π／２ラジアンに近い到着方向（アレイの幅広面方向）を有する周波数成分を選択するようにタスクＴ３００を構成することが望ましいことができる。その結果、一方におけるΔφ_ｉの第３および第４象限の値と他方におけるΔφ_ｉの第２および第３象限の値との間の差異は較正目的のためには重要でなくなる。

代替実現形態では、タスクＴ３１０はマルチチャネル信号の対応する周波数成分ｆ_ｉの到着時間遅延τ_ｉ（例えば、秒単位の）として方向インジケータの各々を計算するように構成されている。タスクＴ３１０はτ_ｉ＝λ_ｉΔφ_ｉ／ｃ２πまたはτ_ｉ＝Δφ_ｉ／２πｆ_ｉといった数式を使用してマイクロホンＭ１０に関連してマイクロホンＭ２０における到着時間遅延τ_ｉを推定するように構成され得る。これらの例では、τ_ｉ＝０という値は幅広面方向から到着する信号を表し、τ_ｉの大きな正の値は基準エンドファイア方向から到着する信号を表し、τ_ｉの大きな負の値は他の基準エンドファイア方向から到着する信号を表す。値τ_ｉを計算する際に、サンプリング周期といった特定の用途のために適当であると考えられる時間の単位（例えば、８ｋＨｚのサンプリング速度のための１２５マイクロセカンド単位）または秒の何分の一（例えば、１０^−３、１０^−４、１０^−５または１０^−６秒）を使用することが望ましいことができる。タスクＴ３１０がタイムドメインにおける各チャネルの周波数成分ｆ_ｉを相互相関させることによって到着時間遅延τ_ｉを計算するようにも構成され得ることに留意されたい。

同じポイントの音源から直接到着するサウンド成分に関して、Δφ／ｆの値は理想的にはすべての周波数に関して定数ｋに等しく、ここで、ｋの値は到着方向θと到着時間遅延τとに関連する。もう１つの代替実施形態ではタスクＴ３１０は、推定された位相差Δφ_ｉと周波数ｆ_ｉとの比ｒ_ｉ（例えば、ｒ_ｉ＝Δφ_ｉ／ｆ_ｉまたはｒ_ｉ＝ｆ_ｉ／Δφ_ｉ）として方向インジケータの各々を計算するように構成されている。

式θ_ｉ＝ｃｏｓ^−１（ｃΔφ_ｉ／ｄ２πｆ_ｉ）またはθ_ｉ＝ｃｏｓ^−１（λ_ｉΔφ_ｉ／ｄ２π）は、遠距離音場モデル（すなわち、平面波面を想定したモデル）に従って方向インジケータθ_ｉを計算するが、式τ_ｉ＝λ_ｉΔφ_ｉ／ｃ２π、τ_ｉ＝Δφ_ｉ／２πｆ_ｉ、ｒ_ｉ＝Δφ_ｉ／ｆ_ｉおよびｒ_ｉ＝ｆ_ｉ／Δφ_ｉは近距離音場モデル（すなわち、図７に示されているような球形波面を想定したモデル）に従って方向インジケータτ_ｉおよびｒ_ｉを計算する。近距離音場モデルに基づく方向インジケータは計算することがより正確および／または容易である結果を与え得るが、遠距離音場モデルに基づく方向インジケータは方法Ｍ１００のある幾つかの構成のために望ましいことができる位相差と方向インジケータとの間の非線形マッピングを与える。

タスクＴ３０２はまた、タスクＴ３１０によって作り出された方向インジケータを評価するサブタスクＴ３２０を含む。タスクＴ３２０は、吟味されるべき周波数成分に関して、方向インジケータの値を振幅、マグニチュード、または合格／不合格（pass/fail）スケール（「マスクスコア」とも呼ばれる）についての対応する値に変換またはマッピングすることによって、方向インジケータを評価するように構成され得る。例えば、タスクＴ３２０は、指示された方向がマスキング関数のパスバンド内に入るかどうか（および／またはどれほどうまく入るか）を示すマスクスコアに各方向インジケータの値をマッピングするために、指向性マスキング関数を使用するように構成され得る。（この文脈では、用語「パスバンド」はマスキング関数によって通された到着方向の範囲を指す。）種々の周波数成分に関するこの１セットのマスクスコアはベクトルと考えられ得る。タスクＴ３２０は種々の方向インジケータを連続しておよび／または並行して評価するように構成され得る。

マスキング関数のパスバンドは所望の信号方向を含むように選択され得る。マスキング関数の空間選択性はパスバンドの幅を変えることによって制御され得る。例えば、収束速度と較正精度との間のトレードオフに従ってパスバンド幅を選択することが望ましいことができる。より幅広いパスバンドは周波数成分のより多くが較正動作に寄与することを可能にすることによって、より速い収束を可能にし得るが、アレイの幅広面軸からより遠い方向から到着する成分を受け入れることによって、より不正確になることも予期されるであろう（従って、マイクロホンに異なる影響を与えることが予期され得る）。１つの例では、タスクＴ３００（例えば、下記のようなタスクＴ３２０またはタスクＴ３３０）はアレイの幅広面軸の５０度以内の方向から到着する成分（すなわち、７５〜１０５度または同等に５π／１２〜７π／１２ラジアンの範囲内の到着方向を有する成分）を選択するように構成されている。

図８Ａは、パスバンドとストップバンド（「ブリックウォール（brickwall）」プロファイルとも呼ばれる）との間の比較的急な遷移と、到着方向θ＝π／２に中心を持つパスバンドと、を有するマスキング関数の一例を示す。１つのこのような場合には、タスクＴ３２０は、方向インジケータがマスキング関数のパスバンド内の方向を示すときに第１の値（例えば、１）を有するバイナリ値マスクスコアを割り当て、方向インジケータがこの関数のパスバンド外の方向を示すときには第２の値（例えば、ゼロ）を有するマスクスコアを割り当てるように構成されている。信号対雑音比（ＳＮＲ）、雑音レベルなどといった１つ以上の因子に依存してストップバンドとパスバンドとの間の遷移の位置を変えること（例えば、ＳＮＲが高いときに、より狭いパスバンドを使用して較正精度に悪影響を与え得る所望の指向性信号の存在を示すこと）が望ましいことができる。

代替として、パスバンドとストップバンドとの間にあまり急激でない遷移（例えば、非２成分値マスクスコアを生み出す、より緩やかなロールオフ）を有するマスキング関数を使用するようにタスクＴ３２０を構成することが望ましいことができる。図８Ｂは到着方向θ＝π／２に中心を持つパスバンドを有するマスキング関数に関する線形ロールオフの一例を示し、図８Ｃは到着方向θ＝π／２に中心を持つパスバンドを有するマスキング関数に関する非線形ロールオフの一例を示す。ＳＮＲ、雑音レベルなどといった１つ以上の因子に依存して、ストップバンドとパスバンドとの間の遷移の位置および／または急激さを変えること（例えば、ＳＮＲが高いときに、より急激なロールオフを使用して較正精度に悪影響を与え得る所望の指向性信号の存在を示すこと）が望ましいことができる。マスキング関数（例えば、図８Ａ〜図８Ｃに示されているような）が、方向θよりむしろ時間遅延τまたは比ｒの観点からも表され得ることは無論である。例えば、到着方向θ＝π／２はゼロの時間遅延τまたは比ｒ＝Δφ／ｆに対応する。

非線形マスキング関数の一例は、

のように表され得、ここで、ζ_Ｔは目標到着方向を表し、ｗはラジアン単位で所望のマスク幅を表し、γは急激さパラメータを表す。図９Ａ〜図９Ｃは、それぞれ（８，π／２，π／２）、（２０，π／４，π／２）、および（５０，π／８，π／５）に等しい（γ，ｗ，θ_Ｔ）に関するこのような関数の例を示す。このような関数が方向θよりむしろ時間遅延τまたは比ｒの観点からも表され得ることは無論である。ＳＮＲ、雑音レベルなどといった１つ以上の因子に依存してマスクの幅および／または急激さを変えること（例えば、ＳＮＲが高いときに、より狭いマスクおよび／またはより急激なロールオフを使用すること）が望ましいことができる。

図５Ｂは、タスクＴ３００の代替実現形態の流れ図を示す。複数の方向インジケータの各々を評価するために同じマスキング関数を使用する代わりに、タスクＴ３０４は、対応する指向性マスキング関数ｍ_ｉを使用して各位相差Δφ_ｉを評価し、計算された位相差を方向インジケータとして使用するサブタスクＴ３３０を含む。例えば、θ_Ｌからθ_Ｈまでの範囲内の方向から到着する音響成分を選択することが望まれる場合には、各マスキング関数ｍ_ｉは、Δφ_Ｌ＝（ｄ２πｆ_ｉ／ｃ）ｃｏｓθ_Ｈ（同等に、Δφ_Ｌ＝（ｄ２π／λ_ｉ）ｃｏｓθ_Ｈ）およびΔφ_Ｈ＝（ｄ２πｆ_ｉ／ｃ）ｃｏｓθ_Ｌ（同等に、Δφ_Ｈ＝（ｄ２π／λ_ｉ）ｃｏｓθ_Ｌ）として、Δφ_ＬからΔφ_Ｈの範囲にあるパスバンドを有するように構成され得る。τ_Ｌからτ_Ｈの到着時間遅延の範囲に対応する方向から到着するサウンド成分を選択することが望まれる場合には、各マスキング関数ｍ_ｉは、Δφ_Ｌｉ＝２πｆ_ｉτ_Ｌ（同等に、Δφ_Ｌｉ＝ｃ２πτ_Ｌ／λ_ｉ）およびΔφ_Ｈｉ＝２πｆ_ｉτ_Ｈ（同等に、Δφ_Ｈｉ＝ｃ２πτ_Ｈ／λ_ｉ）として、Δφ_ＬｉからΔφ_Ｈｉの範囲にあるパスバンドを有するように構成され得る。ｒ_Ｌからｒ_Ｈの位相差対周波数の比の範囲に対応する方向から到着するサウンド成分を選択することが望まれる場合には、各マスキング関数ｍ_ｉは、Δφ_Ｌｉ＝ｆ_ｉｒ_ＬおよびΔφ_Ｈｉ＝ｆ_ｉｒ_Ｈとして、Δφ_ＬｉからΔφ_Ｈｉの範囲にあるパスバンドを有するように構成され得る。タスクＴ３２０に関して前に論じられたように、各マスキング関数のプロファイルはＳＮＲ、雑音レベルなどといった１つ以上の因子に従って選択され得る。

周波数成分の１つ以上（場合によってはすべて）の各々に関するマスクスコアを時間的に平滑化された値として作り出すようにタスクＴ３００を構成することが望ましいことができる。タスクＴ３００のこのような実現形態は、ｍの可能な値が５、１０、２０、および５０を含むとして、このような値をごく最近のｍ個のフレームに亘る周波数成分に関するマスクスコアの平均値として計算するように構成され得る。より一般的には、タスクＴ３００のこのような実現形態は、有限または無限インパルス応答（ＦＩＲまたはＩＩＲ）フィルタといった時間的平滑化関数を使用して平滑化された値を計算するように構成され得る。１つのこのような例では、ｖ_ｉ（ｎ−１）は前のフレームのための周波数成分ｉに関するマスクスコアの平滑化された値を表し、ｃ_ｉ（ｎ）は周波数成分ｉに関するマスクスコアの現在値を表し、α_ｉはゼロ（無平滑化）から１（無更新）までの範囲から選択され得る平滑化係数であるとした場合に、タスクＴ３００は、ｖ_ｉ（ｎ）＝α_ｉｖ_ｉ（ｎ−１）＋（１−α_ｉ）ｃ_ｉ（ｎ）といった式に従ってフレームｎの周波数成分ｉに関するマスクスコアの平滑化された値ｖ_ｉ（ｎ）を計算するように構成されている。この１次ＩＩＲフィルタはまた「漏洩積分器（leaky integrator）」とも呼ばれ得る。

平滑化係数α_ｉの典型的な値は０．９９、０．０９、０．９５、０．９および０．８を含む。タスクＴ３００が１フレームの各周波数成分に関してα_ｉの同じ値を使用することは、典型的ではあるが必要ではない。初期収束期間の間（例えば、オーディオセンシング回路の電源投入または他の活性化動作の直後）に、タスクＴ３００がより短い間隔に亘って、平滑化された値を計算すること、または引き続く定常状態動作中より小さい値を平滑化係数α_ｉの１つ以上（場合によってはすべて）に関して使用すること、が望ましいことができる。

タスクＴ３４０は信号の音響的に均衡化された部分を選択するために複数のマスクスコアからの情報を使用するように構成され得る。タスクＴ３４０は音響的均衡の方向インジケータとして、２成分値マスクスコアを採用するように構成され得る。例えば、パスバンドがアレイＲ１００の幅広面方向にあるマスクに関して、タスクＴ３４０は１というマスクスコアを有する周波数成分を選択するように構成され得るが、パスバンドがアレイＲ１００のエンドファイア方向（例えば、図３Ｂに示されているような）にあるマスクに関しては、タスクＴ３４０はゼロというマスクスコアを有する周波数成分を選択するように構成され得る。

非２成分値マスクスコアの場合には、タスクＴ３４０はマスクスコアをある閾値と比較するように構成され得る。例えば、パスバンドがアレイＲ１００の幅広面方向にあるマスクに関しては、マスクスコアが閾値より大きい（代替として、小さくない）場合に、タスクＴ３４０が周波数成分を音響的に均衡化された部分として識別することが望ましいことができる。同様に、パスバンドがアレイＲ１００のエンドファイア方向にあるマスクに関しては、マスクスコアが閾値より小さい（代替として、大きくない）場合に、タスクＴ３４０が周波数成分を音響的に均衡化された部分として識別することが望ましいことができる。

タスクＴ３４０のこのような実現形態は、周波数成分のすべてに関して同じ閾値を使用するように構成され得る。代替として、タスクＴ３４０は周波数成分の２つ以上（場合によってはすべて）の各々に関して異なる閾値を使用するように構成され得る。タスクＴ３４０は、一定の閾値（単数または複数）を使用するように構成され得るが、代替として信号の特性（例えば、フレームエネルギー）および／またはマスクの特性（例えば、パスバンド幅）に基づいて経過時間に亘って１つのセグメントからもう１つのセグメントに閾値（単数または複数）を適応させるように構成され得る。

図５Ｃは、タスクＴ２００の実現形態Ｔ２０５と；タスクＴ３００（例えば、タスクＴ３０２またはＴ３０４）の実現形態Ｔ３０５と；タスクＴ４００の実現形態Ｔ４０５と；を含む方法Ｍ１００の実現形態Ｍ２００の流れ図を示す。タスクＴ２０５は（少なくとも）２つのサブバンドの各々における各チャネルに関するレベルを計算するように構成されている。タスクＴ３０５はこれらのサブバンドの各々に関する利得係数値を更新するように構成され、またタスクＴ４０５はサブバンドにおける第１のチャネルの振幅に関して対応するサブバンドにおける第２のチャネルの振幅を修正するために各更新された利得係数を適用するように構成されている。

信号が理想的なポイント音源から残響なしに受信されるときには、すべての周波数成分は同じ到着方向を持つはずである（例えば、比Δφ／ｆの値はすべての周波数に亘って一定であるはずである）。信号の異なる周波数成分が同じ到着方向を有する度合いは「方向的コヒーレンス」とも呼ばれる。マイクロホンアレイが遠距離音場（例えば、背景雑音源）から発生したサウンドを受けるとき、結果として得られたマルチチャネル信号は、典型的には近距離音場音源から発生する受信サウンド（例えば、ユーザのボイス）に関するより方向的コヒーレンスに乏しいであろう。例えば、異なる周波数成分の各々におけるマイクロホンチャネル間の位相差は典型的には、近距離音場音源から発生する受信サウンドに関する周波数より遠距離音場音源から発生する受信サウンドに関する周波数に、より少ない相関性を持つであろう。

マルチチャネル信号の一部分（例えば、セグメントまたはサブバンド）が音響的に均衡化されているか、音響的に不均衡化されているかどうかを示すために、到着方向と同様に方向的コヒーレンスを使用するようにタスクＴ３００を構成することが望ましいことができる。例えば、これらの部分における周波数成分が方向的にコヒーレントである度合いに基づいて、マルチチャネル信号の音響的に均衡化された部分を選択するように、タスクＴ３００を構成することが望ましいことができる。方向的コヒーレンスの使用は、例えばアレイのエンドファイア方向に位置する方向的にコヒーレントな音源（例えば、近距離音場音源）による活動を含むセグメントまたはサブバンドの拒絶を可能にすることによって、チャネル較正動作の高められた精度および／または信頼度をサポートし得る。

図１０は、タスクＴ３００の一実現形態によって、２マイクロホンアレイＲ１００からマルチチャネル信号に適用され得るようなマスキング関数の指向性パターンの前方および後方ローブを示す。アレイＲ１００の幅広面方向における近距離音場音源または任意方向における遠距離音場音源といったこのパターンの外側に位置する音源から受信されたサウンド成分は、音響的に均衡化されるであろう（すなわち、マイクロホンＭＣ１０およびＭＣ２０による等しい応答をもたらすであろう）ことが予期され得る。同様に、このようなパターンの前方または後方ローブ内の音源（すなわち、アレイＲ１００のエンドファイア方向のいずれかにおける近距離音場音源）から受信されたサウンド成分は、音響的に不均衡化されるであろう（すなわち、一方のマイクロホンが他方のマイクロホンより高い出力レベル持たせるであろう）ことが予期され得る。従って、このようなマスキング関数パターンのいずれのローブ内にも音源を持たないセグメントまたはサブバンド（例えば、方向的にコヒーレントでない、または幅広面方向にだけコヒーレントであるセグメントまたはサブバンド）を選択するように、タスクＴ３００の対応する実現形態を構成することが望ましいことができる。

上記のように、タスクＴ３００はマルチチャネル信号の音響的に均衡化された部分を識別するために、タスクＴ１００によって計算された位相差からの情報を使用するように構成され得る。識別されたサブバンドまたはセグメントに関してだけ、対応する利得係数値の更新が実行されるように、タスクＴ３００はサブバンドまたはセグメントがアレイの幅広面方向において方向的にコヒーレントである（または、代替として、エンドファイア方向には方向的にコヒーレントでない）ことをマスクスコアが示す信号のサブバンドまたはセグメントとして、音響的に均衡化された部分を識別するように実現され得る。

図１１Ａは、タスクＴ３００の実現形態Ｔ３０６を含む方法Ｍ１００の実現形態Ｍ１１０の流れ図を示す。タスクＴ３０６は、タスクＴ１００によって計算された位相差からの情報に基づいて、コヒーレンシー測定の値を計算するサブタスクＴ３６０を含む。図１１Ｂは、上記のサブタスクＴ３１２およびＴ３２２の事例とサブタスクＴ３５０とを含むタスクＴ３６０の実現形態Ｔ３６２の流れ図を示す。図１１Ｃは、上記のサブタスクＴ３３２の事例とサブタスクＴ３５０とを含むタスクＴ３６０の実現形態Ｔ３６４の流れ図を示す。

タスクＴ３５０は、サブバンドに関するコヒーレンシー測定値を取得するために各サブバンドにおける周波数成分のマスクスコアを組み合わせるように構成され得る。１つのこのような例では、タスクＴ３５０は特定の状態を有するマスクスコアの数に基づいてコヒーレンシー測定値を計算するように構成されている。もう１つの例では、タスクＴ３５０はマスクスコアの合計としてコヒーレンシー測定値を計算するように構成されている。更なる例では、タスクＴ３５０はマスクスコアの平均値としてコヒーレンシー測定値を計算するように構成されている。これらのケースのいずれにおいても、タスクＴ３５０はマスクスコアの各々を等しく重み付けするように、（例えば、各マスクスコアを１で重み付けするように）または１つ以上のマスクスコアを互いに異なるように重み付けするように（例えば、低周波数または高周波数成分に対応するマスクスコアを中音域周波数成分に対応するマスクスコアより重くなく重み付けするように）構成され得る。

パスバンドがアレイＲ１００の幅広面方向にあるマスク（例えば、図８Ａ〜図８Ｃおよび図９Ａ〜図９Ｃに示されているような）に関して、タスクＴ３５０は、例えばマスクスコアの合計または平均がある閾値より小さくない（代替として、より大きい）場合に、またはサブバンドにおける少なくとも最小数の（代替として、最小数より多い）周波数成分が１というマスクスコアを有する場合に第１の状態（例えば、高い、または「１」）を有し、そうでない場合には第２の状態（例えば、低い、または「０」）を有するコヒーレンシー指示を作り出すように構成され得る。パスバンドがアレイＲ１００のエンドファイア方向にあるマスクに関して、タスクＴ３５０は、例えばマスクスコアの合計または平均がある閾値より大きくない（代替として、より小さい）場合に、またはサブバンドにおける最大数より大きくない（代替として、より小さい）数の周波数成分が１というマスクスコアを有する場合に第１の状態を有し、そうでない場合には第２の状態を有するコヒーレンシー測定値を作り出すように構成され得る。

タスクＴ３５０は、各サブバンドに関して同じ閾値を使用するように、またはサブバンドの２つ以上（おそらくはすべて）の各々に関して異なる閾値を使用するように、構成され得る。各閾値は発見的に決定される可能性があり、またパスバンド幅、信号の１つ以上の特性（例えば、ＳＮＲ、雑音レベル）などといった１つ以上の因子に依存して経過時間に亘って閾値を変えることが望ましいことができる。（同じ原理は前のパラグラフで述べられた最大および最小数に当てはまる。）
代替として、タスクＴ３５０はマルチチャネル信号の一連のセグメントの各々に関して、対応する方向的コヒーレンシー測定値を作り出すように構成され得る。この場合、タスクＴ３５０は（例えば、上記のように、特定の状態を有するマスクスコアの数に基づいて、またはマスクスコアの合計または平均に基づいて）セグメントに関するコヒーレンシー測定値を取得するために、各セグメントにおける周波数成分の２つ以上（場合によってはすべて）のマスクスコアを組み合わせるように構成され得る。タスクＴ３５０のこのような実現形態は各セグメントに関して同じ閾値を使用するように、または上記のように１つ以上の因子に依存して経過時間に亘って閾値を変えるように構成され得る（例えば、最大数または最小数のマスクスコアに同じ原理が当てはまる）。

セグメントのすべての周波数成分のマスクスコアに基づいて各セグメントに関するコヒーレンシー測定値を計算するようにタスクＴ３５０を構成することが望ましいことができる。代替として、限定された周波数範囲に亘る周波数成分のマスクスコアに基づいて各セグメントに関するコヒーレンシー測定値を計算するようにタスクＴ３５０を構成することが望ましいことができる。例えば、タスクＴ３５０は、約５０、１００、２００、または３００Ｈｚから約５００または１０００Ｈｚの周波数範囲（これら８つの組合せの各々は明確に考えられて開示されている）に亘る周波数成分のマスクスコアに基づいてコヒーレンシー測定値を計算するように構成され得る。例えば、チャネルの応答特性間の差はこのような周波数範囲に亘るチャネルの利得応答における差によって実質的に特徴付けられることが決定され得る。

タスクＴ３４０は、タスクＴ３６０によって識別された音響的に均衡化された部分からの情報に基づいて少なくとも１つの利得係数の各々に関する更新された値を計算するように構成され得る。例えば、対応するセグメントまたはサブバンドにおいてマルチチャネル信号が方向的にコヒーレントであるという指示に応じて（例えば、対応するコヒーレンス指示の状態によって示されるようにタスクＴ３６０におけるサブバンドまたはセグメントの選択に応じて）、更新された利得係数を計算するようにタスクＴ３４０を構成することが望ましいことができる。

タスクＴ４００は、第１のチャネルの振幅に関して第２のチャネルの振幅を制御するためにタスクＴ３００によって作り出された更新済み利得係数値を使用するように構成され得る。本明細書で説明されているように、音響的に均衡化されたセグメントの観測されたレベル不均衡に基づいて利得係数値を更新するようにタスクＴ３００を構成することが望ましいことができる。音響的に均衡化されていない次のセグメントに関して、タスクＴ３００が利得係数値を更新することを差し控えること、およびタスクＴ４００がごく最近更新された利得係数値を適用し続けることが望ましいことができる。図１２Ａは、タスクＴ４００のこのような実現形態Ｔ４２０を含む方法Ｍ１００の実現形態Ｍ１２０の流れ図を示す。タスクＴ４２０は、マルチチャネル信号の１シリーズの連続するセグメントの各々（例えば、１シリーズの音響的に不均衡化されたセグメントの各々）において第１のチャネルの振幅に関して第２のチャネルの振幅を修正するために更新済み利得係数値を使用するように構成されている。このような１シリーズは、タスクＴ３００が利得係数値を再び更新するようにもう１つの音響的に均衡化されたセグメントが識別されるまで続き得る。（このパラグラフで説明された原理は本明細書で説明されたようにサブバンド利得係数値の更新および利用にも適用され得る。）
方法Ｍ１００の実現形態は、較正依存性であり得る空間選択性処理動作といったマルチチャネル信号および／または処理済みマルチチャネル信号に対する種々の更なる動作（例えば、オーディオセンシング・デバイスと特定の音源との間の距離を決定し、雑音を減らし、特定の方向から到着する信号成分を増強し、および／または１つ以上のサウンド成分を他の環境サウンドから分離する１つ以上の動作）をサポートするようにも構成され得る。例えば、均衡化されたマルチチャネル信号（例えば、処理済みマルチチャネル信号）の用途の範囲は、非定常拡散および／または指向性雑音の低減；近距離音場の所望スピーカーによって作り出されるサウンドの残響除去；マイクロホンチャネル間で無相関である雑音（例えば、風および／またはセンサー雑音）の除去；望ましくない方向からのサウンドの抑制；任意の方向からの遠距離音場信号の抑制；直接経路対残響（direct-path-to-reverberation）信号強度の推定（例えば、遠距離音場音源からの干渉の大幅な低減）；近距離および遠距離音場音源間の識別を介した非定常雑音の低減；および典型的には利得ベースのアプローチでは達成できない休止中だけでなく近距離音場所望音源活動中の正面干渉体からのサウンドの低減；を含む。

図１２Ｂは、処理されたマルチチャネル信号にボイス活動検出（ＶＡＤ）動作を実行するタスクＴ５００を含む方法Ｍ１００の実施形態Ｍ１３０の流れ図を示す。図１３Ａは、処理されたマルチチャネル信号からの情報に基づいて雑音推定値を更新し、そしてボイス活動検出動作を含み得るタスクＴ６００を含む方法Ｍ１００の実施形態Ｍ１４０の流れ図を示す。

近距離音場および遠距離音場音源からのサウンド間を弁別する信号処理方式を実現する（例えば、より良好な雑音低減のために）ことが望ましいことができる。このような方式の１つの振幅ベースまたは利得ベースの例は、音源が近距離音場または遠距離音場であるかどうかを決定するために２つのマイクロホン間の圧力傾斜音場（pressure gradient field）を使用する。このような技法は近距離音場無音時に遠距離音場音源からの雑音を減らすために有用であり得るが、両音源が活動しているときには近距離音場信号と遠距離音場信号との間の弁別をサポートしない可能性がある。

特定の角度範囲内に一貫性のあるピックアップを用意することが望ましいことができる。例えば、特定の範囲（例えば、マイクロホンアレイの軸に関して６０度の範囲）内のすべての近距離音場信号を受け入れて、他のすべて（例えば、７０度以上の角度における音源からの信号）を減衰させることが望ましいことができる。ビーム形成およびＢＳＳによれば、角度的減衰は典型的にはこのような範囲に亘って一貫性のあるピックアップを防止する。このような方法はまた、後処理動作が再収束する前で、デバイスの方位変化（例えば、回転）後にボイス拒絶という結果を招く可能性もある。本明細書で説明されたような方法Ｍ１００の実現形態は、所望スピーカーに対する方向がなお許容可能な方向の範囲内にあり、それによって収束遅延に起因するボイス変動および／または期限切れ雑音基準に起因するボイス減衰を防止する限り、デバイスの急激な回転に対して強固である雑音低減方法を取得するために使用され得る。

均衡化されたマルチチャネル信号からの利得差と位相ベースの方向情報とを組み合わせることによって、信号の存在が監視され得るマイクロホンアレイの周りにおいて調整可能な空間領域が選択され得る。異なるサブタスクのための狭いまたは広いピックアップ領域を定義するために利得ベース範囲および／または方向範囲が設定され得る。例えば、所望のボイス活動を検出するためにはより狭い範囲が設定され得るが、雑音低減といった目的のためには選択された領域上のより広い範囲が使用され得る。位相相関および利得差評価の精度はＳＮＲの低下と共に低下する傾向があり、誤警報率を制御するためにそれに応じて閾値および／または決定を調整することは望ましい可能性がある。

処理されたマルチチャネル信号がボイス活動検出（ＶＡＤ）動作をサポートするためだけに使用されている用途に関して、効果的で正確な雑音低減動作が短縮された雑音低減収束時間で、より敏速に実行され得るように、利得較正が低下した精度レベルで動作することは受入れ可能であり得る。

音源とマイクロホンペアとの間の相対的距離が増加するにつれて、（例えば、残響の増加に起因して）異なる周波数成分の到着方向間のコヒーレンスは減少すると予期され得る。従って、タスクＴ３６０において計算されたコヒーレンシー測定値はまた、ある程度、近接度測定値としても役立ち得る。到着方向だけに基づく処理動作とは異なり、例えば本明細書で説明されたようなコヒーレンシー測定の値に基づく時間依存性および／または周波数依存性振幅制御は、ユーザのスピーチまたは他の所望近距離音場音源を同じ方向の遠距離音場音源からの、競合するスピーカーのスピーチといった干渉音から区別するために有効であり得る。方向的コヒーレンシーが距離と共に減少する速度は環境によって変化し得る。例えば、自動車の内部は典型的には極めて残響が大きいので、広い範囲の周波数に亘る方向的コヒーレンシーは、音源からほんの約５０センチメートルの範囲内だけで経過時間に亘って信頼できる安定なレベルに維持され得る。このような場合、スピーカーが指向性マスキング関数のパスバンド内に位置する場合でも、後部座席の乗客からのサウンドはコヒーレントでないとして拒絶される可能性がある。検出可能なコヒーレンスの範囲は（例えば、すぐ近くの天井からの反響によって）丈の高いスピーカーに関するこのような状況においても低減されることもあり得る。

処理されたマルチチャネル信号は、ＢＳＳ、到着遅延または他の指向性ＳＳＰといった他の空間選択性処理（ＳＳＰ）、または近接検出といった距離ＳＳＰをサポートするために使用され得る。近接検出はチャネル間の利得差に基づき得る。（例えば、限定された周波数範囲に亘る、および／または多数のピッチ周波数における、コヒーレンスの測定値として）タイムドメインまたは周波数ドメインにおける利得差を計算することが望ましいことができる。

携帯型オーディオセンシング・デバイスのためのマルチマイクロホン雑音低減方式は、ビーム形成アプローチとブラインド音源分離（ＢＳＳ）アプローチとを含む。このようなアプローチは典型的には、所望の音源（例えば、近距離音場スピーカーのボイス）と同じ方向から到着する雑音を抑制する能力のないことに悩まされる。特に、ヘッドホンおよび中音域音場または遠距離音場のハンドヘルドアプリケーション（例えば、送受話器またはスマートフォンのブラウジングトーク（browse-talk）およびスピーカーフォン・モード）において、マイクロホンアレイによって記録されたマルチチャネル信号は、干渉雑音源からのサウンドおよび／または所望近距離音場の話し手のスピーチの大きな残響を含み得る。特にヘッドホンに関して、ユーザの口までの大きな距離は、方向情報だけを使用して大きく抑制することが困難であり得る正面方向からの多量の雑音をマイクロホンアレイがピックアップすることを可能にする恐れがある。

典型的なＢＳＳまたは汎用サイドローブ・キャンセル（ＧＳＣ）タイプの技法は、最初に所望のボイスを１つのマイクロホンチャネルに分離し、それからこの分離されたボイスに後処理動作を実行することによって雑音低減を実行する。この手順は音響シナリオ変更の場合に長い収束時間を引き起こす可能性がある。例えば、ブラインド音源分離、ＧＳＣ、または類似の適応型学習ルールに基づく雑音低減方式は、デバイスユーザ保持パターン（例えば、デバイスとユーザの口との間の方位）の変化時および／または音量の急激な変化時の長い収束時間を示す、および／または環境雑音（例えば、通過車両、公衆アドレス告知（public address announcement））のスペクトルシグネチャー（spectral signature）を示すことができる。残響の大きい環境（例えば、車両内部）では適応型学習方式はトラブル収束を有することができる。収束するためのこのような方式の不成功は、この方式に所望の信号成分を拒絶させることができる。ボイス通信の用途において、このような拒絶はボイス歪みを増大させることができる。

デバイスユーザ保持パターンの変化に対するこのような方式の強固さを向上させるためには、および／または収束時間を高速化するためには、より迅速な初期雑音低減応答を供与するためにデバイスの周りの空間ピックアップ領域を限定することが望ましいことができる。このような方法は、ある角度方向に対する（例えば、マイクロホンアレイの軸といったデバイスの基準方向に関する）弁別によって限定された空間ピックアップ領域を定義するためにマイクロホン間の、および／または近距離および遠距離音場音源からの信号成分間の、位相および利得関係を活用するように構成され得る。常に基準線初期雑音低減を示す所望スピーカー方向におけるオーディデバイスの周りの選択領域を有することによって、環境雑音の急激な変化ばかりでなくオーディオデバイスに関する所望ユーザの空間的変化に対する高度の強固さが達成され得る。

均衡化されたチャネル間の利得差は、より良好な正面雑音抑制（例えば、ユーザの前の干渉スピーカーの抑制）といった、より積極的な近距離音場／遠距離音場弁別をサポートし得る近接検出のために使用され得る。マイクロホン間の距離に依存して、均衡化されたマイクロホンチャネル間の利得差は、典型的には音源が５０センチメートルまたは１メートル以内にある場合にだけ発生するであろう。

図１３Ｂは、方法Ｍ１００の実現形態Ｍ１５０の流れ図を示す。方法Ｍ１５０は、処理されたマルチチャネル信号に近接検出動作を実行するタスクＴ７００を含む。例えば、タスクＴ７００は、処理されたマルチチャネル信号のチャネルのレベル間の差がある閾値より大きいとき（代替として、（Ａ）較正されていないチャネルのレベル差と（Ｂ）タスクＴ３００の利得係数値との合計がこの閾値より大きいとき）セグメントが所望の音源からであることを検出するように（例えば、ボイス活動の検出を示すように）構成され得る。この閾値は発見的に決定され得るが、また信号対雑音比（ＳＮＲ）、雑音レベルなどといった１つ以上の因子に依存して異なる閾値を使用することは（例えば、ＳＮＲが低いときに高い閾値を使用することは）望ましい可能性がある。図１４Ａは閾値が高くなるにつれて小さくなる領域を有する、３つの異なる閾値に対応する近接検出領域の境界の例を示す。

スピーカーカバレッジ（speaker coverage）のコーン（cone）を取得するために、またこのゾーンの外側の音源からの非定常雑音を減衰させるために、許容された方向の範囲（例えば、プラスマイナス４５度）を近距離音場／遠距離音場近接バブルと組み合わせることが望ましいことができる。このような方法は、音源が許容可能な方向の範囲内にあるときでも遠距離音場音源からのサウンドを減衰させるために使用され得る。例えば、近距離音場／遠距離音場弁別器の積極的調整をサポートするために良好なマイクロホン較正を用意することが望ましいことができる。図１４Ｂは、スピーカーカバレッジのこのようなコーンを取得するために許容可能な方向の範囲（図１０に示されているような）と近接バブル（図１４Ａに示されているような）との交差（太線で示されている）の一例を示す。このような場合、タスクＴ１００において計算された複数の位相差は、所望の範囲内の音源から発生したセグメントを識別するために（例えば、タスクＴ３１２、Ｔ３２２、およびＴ３３２を参照しながら上記に論じられたような）マスキング関数および／または（例えば、タスクＴ３６０を参照しながら上記に論じられたような）コヒーレンシー測定値を使用して許容可能な方向の範囲を強化するために使用され得る。このようなマスキング関数の方向およびプロファイルは、所望の用途に従って選択され得る（例えば、ボイス活動検出のためにはより急峻なプロファイル、または雑音成分の減衰のためにはより平滑なプロファイル）。

上記のように、図２は、ユーザの口に関して標準的な方位にあるユーザの耳に装着されたヘッドホンの上面図を示す。図１５および図１６は、この用途に適用される図１４Ｂに示されているような音源選択領域境界の上面図および側面図を示す。

ボイス活動検出（ＶＡＤ）のために近接検出動作（例えば、タスクＴ７００）の結果を使用することは望ましい可能性がある。１つのこのような例では、（例えば、雑音周波数成分および／またはセグメントを減衰させるために）チャネルの１つ以上における利得制御として非２成分改善ＶＡＤ測定値が適用される。図１７Ａは、均衡化されたマルチチャネル信号にこのような利得制御動作を実行するタスクＴ８００を含む方法Ｍ１００の実現形態Ｍ１６０の流れ図を示す。もう１つのこのような例では、（例えば、ＶＡＤ動作によって雑音として分類された周波数成分またはセグメントを使用して）雑音低減動作のために雑音推定値を計算する（例えば、更新する）ために２成分改善ＶＡＤが適用される。図１７Ｂは、近接検出動作の結果に基づいて雑音推定値を計算する（例えば、更新する）タスクＴ８１０を含む方法Ｍ１００の実現形態Ｍ１７０の流れ図を示す。図１８は、方法Ｍ１７０の実現形態Ｍ１８０の流れ図を示す。方法Ｍ１８０は、更新された雑音推定値に基づくマルチチャネル信号の少なくとも１つのチャネルに雑音低減動作（例えば、スペクトル減算またはＷｉｅｎｅｒフィルタリング動作）を実行するタスクＴ８２０を含む。

（例えば、図１４Ｂおよび／または図１５および図１６に示されているようなバブルを定義する）近接検出動作および方向的コヒーレンス検出動作からの結果は、改善されたマルチチャネルボイス活動検出（ＶＡＤ）動作を取得するために組み合され得る。この組み合わされたＶＡＤ動作は、非ボイスフレームの敏速な拒絶のために、および／または１次マイクロホンチャネル上で動作する雑音低減方式を構築するために、使用され得る。このような方法は、較正とＶＡＤのための方向および近接情報を組み合わせることとＶＡ動作の結果に基づいて雑音低減動作を実行することとを含み得る。例えば、近接検出タスクＴ７００の代わりに、方法Ｍ１６０、Ｍ１７０、またはＭ１８０においてこのような組み合わされたＶＡＤ動作を使用することが望ましいことができる。

典型的な環境における音響雑音は、片言雑音、空港雑音、街頭雑音、競合する話し手のボイス、および／または干渉音源（例えば、ＴＶセットまたはラジオ）からのサウンドを含み得る。その結果、このような雑音は典型的には非定常的であって、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを持つことができる。単一マイクロホン信号から計算されるような雑音パワー（エネルギー）基準信号は通常、単なる近似的定常雑音推定値である。更に、このような計算は一般に、雑音パワー推定遅延を伴うので、サブバンド利得の対応する調整はかなりの遅延後にだけ実行されることができる。環境雑音の信頼できる同時的な推定値を取得することが望ましいことができる。

雑音推定値の例は、単一チャネルＶＡＤに基づく単一チャネル長期推定値とマルチチャネルＢＳＳフィルタによって作り出されるような雑音基準とを含む。タスクＴ８１０は、１次マイクロホンチャネルの成分および／またはセグメントを分類するために近接検出動作からの（２重チャネル）情報を使用することによって単一チャネル雑音基準を計算するように構成され得る。このような雑音推定は、長期推定を必要としないので他のアプローチより遥かに敏速に利用可能になり得る。この単一チャネル雑音基準は、典型的には非定常雑音の除去をサポートできない長期推定ベースのアプローチとは異なり、非定常雑音も捕捉できる。このような方法は速くて正確な非定常雑音基準を提供し得る。例えば、このような方法は、図１４Ｂに示されているような前方コーン内に存在しないいかなるフレームに関する雑音基準も更新するように構成され得る。雑音基準は（例えば、場合によっては各周波数成分上にある１次スムーザー（first-degree smoother）を使用して）平滑化され得る。近接検出の使用は、このような方法を使用するデバイスが指向性マスキング関数の前方ローブ内に進入する車両の雑音の音響といったすぐ近くの遷移を拒絶することを可能にし得る。

収束するマルチチャネルＢＳＳ方式を待つよりむしろ直接１次チャネルから雑音基準を取るようにタスクＴ８１０を構成することが望ましいことができる。このような雑音基準は、組み合わされた位相・利得ＶＡＤを使用するか、単に位相ＶＡＤを使用して構成され得る。このようなアプローチはまた、スピーカーと電話との間の新しい空間構成に収束しながら、または送受話器が次善の空間構成で使用されているときに、ボイスを減衰させるＢＳＳ方式の問題を回避する助けにもなり得る。

上記のようなＶＡＤ指示は雑音基準信号の計算をサポートするために使用され得る。例えば、あるフレームが雑音であることをＶＡＤ指示が示しているとき、このフレームは雑音基準信号（例えば、１次マイクロホンチャネルの雑音成分のスペクトルプロファイル）を更新するために使用され得る。このような更新は、例えば周波数成分値を時間的に平滑化することによって（例えば、各成分の前の値を現在雑音推定値の対応する成分の値で更新することによって）周波数ドメインにおいて実行され得る。１つの例では、Ｗｉｅｎｅｒフィルタは１次マイクロホンチャネルに雑音低減動作を実行するために雑音基準信号を使用する。もう１つの例では、スペクトル減算動作は（例えば、１次マイクロホンチャネルから雑音スペクトルを減算することによって）１次マイクロホンチャネルに雑音低減動作を実行するために雑音基準信号を使用する。あるフレームが雑音でないことをＶＡＤ指示が示すときには、このフレームは１次マイクロホンチャネルの信号成分のスペクトルプロファイルを更新するために使用され得るが、このプロファイルも雑音低減動作を実行するためにＷｉｅｎｅｒフィルタによって使用され得る。結果的に行われた動作は、２重チャネルＶＡＤ動作を使用する擬似単一チャネル（quasi-single-channel）雑音低減アルゴリズムであると考えられ得る。

チャネル較正が必要とされない（例えば、マイクロホンチャネルが既に均衡化されている）状況においても本明細書で説明されたような近接検出動作が適用され得ることは明らかに注目される。図１９Ａは、本明細書で説明されたようなタスクＴ１００の事例およびＴ３６０と、本明細書で説明されたようなコヒーレンシー測定および近接決定（例えば、図１４Ｂに示されているようなバブル）に基づくＶＡＤ動作Ｔ９００と、を含む全体的構成による方法Ｍ３００の流れ図を示す。図１９Ｂは、（例えば、タスクＴ８１０を参照しながら説明されたような）雑音推定値計算タスクＴ９１０を含む方法Ｍ３００の実現形態Ｍ３１０の流れ図を示し、また図２０Ａは、（例えば、タスクＴ８２０を参照しながら説明されたような）雑音低減タスクＴ９２０を含む方法Ｍ３１０の実現形態Ｍ３２０の流れ図を示す。

図２０Ｂは全体的構成による装置Ｇ１００のブロック図を示す。装置Ｇ１００は（例えば、タスクＴ１００を参照しながら本明細書で説明されたような）複数の位相差を取得するための手段Ｆ１００を含む。装置Ｇ１００はまた、（例えば、タスクＴ２００を参照しながら本明細書で説明されたような）マルチチャネル信号の第１および第２のチャネルのレベルを計算するための手段Ｆ２００を含む。装置Ｇ１００はまた、（例えば、タスクＴ３００を参照しながら本明細書で説明されたような）利得係数値を更新するための手段Ｆ３００を含む。装置Ｇ１００はまた、（例えば、タスクＴ４００を参照しながら本明細書で説明されたような）更新された利得係数値に基づいて第１のチャネルに関して第２のチャネルの振幅を修正するための手段Ｆ４００を含む。

図２１Ａは、全体的構成による装置Ａ１００のブロック図を示す。装置Ａ１００は（例えば、タスクＴ１００を参照しながら本明細書で説明されたような）マルチチャネル信号のチャネルＳ１０−１およびＳ１０−２から複数の位相差を取得するように構成された位相差計算器１００を含む。装置Ａ１００はまた、（例えば、タスクＴ２００を参照しながら本明細書で説明されたような）マルチチャネル信号の第１および第２のチャネルのレベルを計算するように構成されたレベル計算器２００を含む。装置Ａ１００はまた、例えば、タスクＴ３００を参照しながら本明細書で説明されたような）利得係数値を更新するように構成された利得係数計算器３００を含む（。装置Ａ１００はまた、（例えば、タスクＴ４００を参照しながら本明細書で説明されたような）更新された利得係数値に基づいて第１のチャネルに関して第２のチャネルの振幅を修正することによって処理済みマルチチャネル信号を作り出すように構成された利得制御要素４００を含む。

図２１Ｂは、装置Ａ１００と；周波数ドメインにおける信号Ｓ１０−１およびＳ１０−２をそれぞれ作り出すように構成されたＦＦＴモジュールＴＭ１０ａおよびＴＭ１０ｂと；処理済みマルチチャネル信号に（例えば、本明細書で説明されたような）空間選択性処理動作を実行するように構成された空間選択性処理モジュールＳＳ１００と；を含む装置Ａ１１０のブロック図を示す。図２２は装置Ａ１００とＦＦＴモジュールＴＭ１０ａおよびＴＭ１０ｂとを含む装置Ａ１２０のブロック図を示す。装置Ａ１２０はまた、（例えば、タスクＴ７００を参照しながら本明細書で説明されたような）処理済みマルチチャネル信号に近接検出動作（例えば、ボイス活動検出動作）を実行するように構成された近接検出モジュール７００（例えば、ボイス活動検出器）と；（例えば、タスクＴ８１０を参照しながら本明細書で説明されたような）雑音推定値を更新するように構成された雑音基準計算器８１０と；（例えば、タスクＴ８２０を参照しながら本明細書で説明されたような）処理済みマルチチャネル信号の少なくとも１つのチャネルに雑音低減動作を実行するように構成された雑音低減モジュール８２０と；雑音低減された信号をタイムドメインに変換するように構成された逆ＦＦＴモジュールＩＭ１０と；を含む。近接検出モジュール７００に加えて、または代替として装置Ａ１１０は、処理済みマルチチャネル信号の方向性処理（例えば、図１４Ｂに示されているような前方ローブに基づくボイス活動検出）のためのモジュールを含み得る。

ある幾つかのマルチチャネル信号処理動作はマルチチャネル出力の各チャネルを作り出すためにマルチチャネルの１つより多いチャネルからの情報を使用する。このような動作の例は、ビーム形成動作とブラインド音源分離（ＢＳＳ）動作とを含み得る。エコーキャンセル動作は各出力チャネルにおける残留エコーを変える傾向があるので、エコーキャンセルをこのような技法に統合することは困難であり得る。本明細書で説明されているように、方法Ｍ１００は、マルチチャネル信号の１つ以上のチャネルの各々に（例えば、１次チャネルに）単一チャネル時間および／または周波数依存振幅制御（例えば、雑音低減動作）を実行するために計算された位相差からの情報を使用するように実現され得る。このような単一チャネル動作は、残留エコーが実質的に変わらないままに留まるように実現され得る。その結果、このような雑音低減動作を含む方法Ｍ１００の一実現形態とのエコーキャンセル動作の統合は、２つ以上のマイクロホンチャネル上で動作する雑音低減動作とのエコーキャンセル動作の統合より容易であり得る。

残留背景雑音を白化する（whiten）ことは望ましい可能性がある。例えば、雑音だけの間隔を識別して、このような間隔中の信号スペクトルを雑音スペクトルプロファイル（例えば、擬似ホワイトまたはピンク・スペクトルプロファイル）に圧縮・伸張または低減するためにＶＡＤ動作（例えば、本明細書で説明されたような方向および／または近接度ベースのＶＡＤ動作）を使用することが望ましいことができる。このような雑音白化は残留定常雑音レベルの感知を創造することができる、および／または背景内に入れられる、または引っ込む雑音の認知を引き起こすことができる。白化が適用されない間隔（例えば、スピーチ間隔）と白化が適用される間隔（例えば、雑音間隔）との間の遷移を取り扱うために時間的平滑化方式といった平滑化方式を含むことが望ましいことができる。このような平滑化は間隔間の平滑な遷移をサポートする助けとなり得る。

マイクロホン（例えば、ＭＣ１０およびＭＣ２０）がサウンド以外の放射線または放出体（emission）に敏感なトランスデューサとして、より一般的に実現され得ることは明らかに注目される。１つのこのような例では、マイクロホンペアは１対の超音波トランスデューサ（例えば、１５、２０、２５、３０、４０、または５０ｋＨｚ以上より高い音響周波数に敏感なトランスデューサ）として実現される。

（例えば、図１４Ｂに示されているような前方ローブを識別する）方向的信号処理アプリケーションに関して、スピーチ信号（または、他の所望信号）が方向的にコヒーレントであることが予期され得る特定の周波数成分または周波数範囲を目標にすることが望ましいことができる。指向性雑音（例えば、自動車といった音源からの）および／または拡散雑音といった背景雑音が同じ範囲に亘って方向的にコヒーレントでないことは予期され得る。音声は４から８ｋＨｚの範囲内で低いパワーを持つ傾向があるので、４ｋＨｚより高くない周波数に関連して方向的コヒーレンスを決定することが望ましいことができる。例えば、約７００Ｈｚから約２ｋＨｚの範囲に亘って方向的コヒーレンスを決定することが望ましいことができる。

上記のように、限定された周波数範囲に亘る周波数成分の位相差に基づいてコヒーレンシー測定値を計算するようにタスクＴ３６０を構成することが望ましいことができる。更に、または代替として、多数のピッチ周波数における周波数成分に基づいてコヒーレンシー測定値を計算するために、タスクＴ３６０および／または（特に、図１４Ｂに示されているような前方ローブを定義するといったスピーチアプリケーションのための）別の方向的処理タスクを構成することが望ましいことができる。

発声されたスピーチ（例えば、母音）のエネルギースペクトルは、ピッチ周波数の高調波においてローカルピークを有する傾向がある。他方、背景雑音のエネルギースペクトルは相対的に構造化されない傾向がある。その結果、ピッチ周波数の高調波における入力チャネルの成分は、他の成分より高い信号対雑音比（ＳＮＲ）を有すると予期され得る。方法Ｍ１００のスピーチ処理アプリケーション（例えば、ボイス活動検出アプリケーション）のための方向的処理タスクに関して、推定されたピッチ周波数の多数に対応する位相差だけを考慮するようにタスクを構成すること（例えば、前方ローブ識別タスクを構成すること）が望ましいことができる。

典型的ピッチ周波数は、男性話者に関しては約７０から１００Ｈｚ、女性話者に関しては約１５０から２００Ｈｚの範囲にある。現在ピッチ周波数は、ピッチ周期を隣接ピッチピーク（例えば、１次マイクロホンチャネルにおける）間の距離として計算することによって推定され得る。入力チャネルのサンプルは、これのエネルギーの測定値に基づいて（例えば、サンプルエネルギーとフレーム平均エネルギーとの間の比に基づいて）および／またはこのサンプルの近隣が既知のピッチピークの同様な近隣とどれほどよい相関性があるかの測定値に基づいてピッチピークとして識別され得る。ピッチ推定手順は、例えばwww-dot-3gpp-dot-orgにおいてオンラインで利用可能なＥＶＲＣ（Enhanced Variable Rate Code（改善可変速度コード））文書ＣＳ００１４−Ｃのセクション４．６．３（４−４４から４−４９ページ）に説明されている。（例えば、ピッチ周期または「ピッチラグ」の推定値の形をした）ピッチ周波数の現在推定値は典型的には既に、スピーチ符号化および／または復号を含むアプリケーション（例えば、符号励起線形予測（ＣＥＬＰ）および原型波形補間（ＰＷＩ）といったピッチ推定を含むコーデックを使用するボイス通信）において利用可能であろう。

ピッチ周波数の多数に対応するこれらの位相差だけを考慮することによって、考慮されるべき位相差の数は大幅に削減され得る。更に、これらの選択された位相差が計算される周波数係数は考慮される周波数範囲内の他の周波数係数に関して高いＳＮＲを有することが予期され得る。より一般的な場合では、他の信号特性も考慮され得る。例えば、計算された位相差の少なくとも２５、５０、または７５パーセントが推定ピッチ周波数の多数に対応するように、方向的処理タスクを構成することが望ましいことができる。同じ原理は他の所望高調波信号にも適用され得る。

上記のように、音響信号を受信するように構成された２つ以上のマイクロホンのアレイＲ１００を有する携帯型オーディオセンシング・デバイスを製造することが望ましいことができる。このようなアレイを含むように実現され得る、そしてオーディオレコーディングおよび／またはボイス通信アプリケーションのために使用され得る携帯型オーディオセンシング・デバイスの例は、電話送受話器（例えば、携帯電話送受話器）；有線または無線ヘッドホン（例えば、Ｂｌｕｅｔｏｏｔｈヘッドホン）；ハンドヘルド・オーディオおよび／またはビデオレコーダー；オーディオおよび／またはビデオコンテンツを記録するように構成されたパーソナル・メディア・プレーヤー；パーソナル・ディジタル・アシスタント（ＰＤＡ）または他のハンドヘルド・コンピューティングデバイス；およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、または他の携帯型コンピューティングデバイス；を含む。

アレイＲ１００の各マイクロホンは全方向性、双方向性または一方向性（例えば、心臓形）である応答を持ち得る。アレイＲ１００において使用され得る種々のタイプのマイクロホンは圧電性マイクロホン、動的マイクロホンおよびエレクトレットマイクロホンを含む（限定なしに）。送受話器またはヘッドホンといった携帯型音声通信のためのデバイスでは、アレイＲ１００の隣接マイクロホン間の中心間の間隔は典型的には、約１．５ｃｍから約４．５ｃｍの範囲にあるが、送受話器といったデバイスでは、より大きな間隔（例えば、最大１０または１５ｃｍ）も可能である。補聴器では、アレイＲ１００のマイクロホン間の中心間の間隔は約４または５ｍｍほどに小さい可能性がある。アレイＲ１００のマイクロホンは、１直線に沿って、または代替としてこれらの中心が２次元形状（例えば、３角形）または３次元形状の頂点にあるように、配置され得る。

マルチマイクロホン・オーディオセンシング・デバイス（例えば、本明細書で説明されるようなデバイスＤ１００、Ｄ２００、Ｄ３００，Ｄ４００，Ｄ５００、またはＤ６００）の動作時に、アレイＲ１００は各チャネルがマイクロホンのうちの音響環境に対応する１つのマイクロホンの応答に基づくマルチチャネル信号を作り出す。１つのマイクロホンはもう１つのマイクロホンより直接的に特定の音を受信し得るので、単一のマイクロホンを使用して捕捉され得るより完全な音響環境の表現をまとめて与えるために、対応するチャネルは互いに異なる。

マルチチャネル信号Ｓ１０を作り出すために、これらのマイクロホンによって作り出された信号に１つ以上の処理動作をアレイＲ１００が実行することが望ましいことができる。図２３Ａは、インピーダンス整合、アナログ・ディジタル変換、利得制御、および／またはアナログおよび／またはディジタルドメインにおけるフィルタリングを含み得る（限定なしに）１つ以上のこのような動作を実行するように構成されたオーディオ前処理ステージＡＰ１０を含むアレイＲ１００の実現形態Ｒ２００のブロック図を示す。

図２３Ｂは、アレイＲ２００の実現形態Ｒ２１０のブロック図を示す。アレイＲ２１０はアナログ前処理ステージＰ１０ａおよびＰ１０ｂを含むオーディオ前処理ステージＡＰ１０の実現形態ＡＰ２０を含む。１つの例では、ステージＰ１０ａおよび１０ｂは各々、対応するマイクロホン信号にハイパスフィルタリング動作を（例えば、５０、１００または２００Ｈｚの遮断周波数で）実行するように構成されている。

アレイＲ１００がマルチチャネル信号をディジタル信号として、すなわち一連のサンプルとして作り出すことが望ましいことができる。アレイＲ２１０は例えば、各々が対応するアナログチャネルをサンプリングするように整えられたアナログ・ディジタル変換器（ＡＤＣ）Ｃ１０ａおよびＣ１０ｂを含む。音響アプリケーションのための典型的なサンプリングレートは８ｋＨｚ、１２ｋＨｚ、１６ｋＨｚの周波数、および約８から約１６ｋＨｚの範囲内の他の周波数を含むが、約４４ｋＨｚほどの高いサンプリングレートも使用され得る。この特定の例ではアレイＲ２１０はまた各々が、対応するディジタル化されたチャネルに１つ以上の前処理動作（例えば、エコーキャンセル、雑音低減および／またはスペクトル形成）を実行するように構成されたディジタル前処理ステージＰ２０ａおよびＰ２０ｂを含む。

アレイＲ１００のマイクロホンがサウンド以外の放射線または放出体に敏感なトランスデューサとして、より一般的に実現され得ることは明らかに注目される。１つのこのような例では、アレイＲ１００のマイクロホンは超音波トランスデューサ（例えば、１５、２０、２５、３０、４０、または５０ｋＨｚ以上より高い音響周波数に敏感なトランスデューサ）として実現される。

図２４Ａは、全体的構成によるデバイスＤ１０のブロック図を示す。デバイスＤ１０は本明細書で開示されたマイクロホンアレイＲ１００のいずれかの実現形態の事例を含み、また本明細書で開示されたオーディオセンシング・デバイスのいずれもデバイスＤ１０の一事例として実現され得る。デバイスＤ１０はまた、コヒーレンシー測定の値を計算するためにアレイＲ１００によって作り出されたマルチチャネル信号を処理するように構成された装置Ａ１０の実現形態の一事例を含む。例えば、装置Ａ１０は本明細書で開示された方法Ｍ１００の実現形態のうちのいずれかの実現形態の一事例に従ってマルチチャネルオーディオ信号を処理するように構成され得る。装置Ａ１０はハードウエアにおいて、および／またはソフトウエア（例えば、ファームウエア）において実現され得る。例えば、装置Ａ１０は、処理されたマルチチャネル信号に上記の空間処理動作（例えば、オーディオセンシング・デバイスと特定の音源との間の距離を決定する、雑音を減らす、特定の方向から到着する信号成分を増強する、および／または他の環境サウンドから１つ以上のサウンド成分を分離する１つ以上の動作）を実行するようにも構成されたデバイスＤ１０のプロセッサ上に実現され得る。上記のような装置Ａ１０は装置Ａ１０の一事例として実現され得る。

図２４Ｂは、デバイスＤ１０の一実現形態である通信デバイスＤ２０のブロック図を示す。デバイスＤ２０は装置Ａ１０を含むチップまたはチップセットＣＳ１０（例えば、移動局モデム（ＭＳＭ）チップセット）を含む。チップ／チップセットＣＳ１０は装置Ａ１０の全部または一部を実行する（例えば、命令として）ように構成され得る１つ以上のプロッセサを含み得る。チップ／チップセットＣＳ１０はまたアレイＲ１００の処理要素（例えば、オーディオ前処理ステージＡＰ１０の要素）も含み得る。チップ／チップセットＣＳ１０は、無線周波数（ＲＦ）通信信号を受信してＲＦ信号内の符号化されたオーディオ信号を復号して再生するように構成された受信機と、装置Ａ１０によって作り出された処理済み信号に基づくオーディオ信号を符号化してこの符号化されたオーディオ信号を記述するＲＦ通信信号を送信するように構成された送信機と、を含む。例えば、チップ／チップセットＣＳ１０の１つ以上のプロセッサは、符号化されたオーディオ信号が雑音低減された信号に基づくようにマルチチャネル信号の１つ以上のチャネルに上記のような雑音低減動作を実行するように構成され得る。

デバイスＤ２０は、アンテナＣ３０を介してＲＦ通信信号を受信および送信するように構成されている。デバイスＤ２０はまた、アンテナＣ３０までの経路にダイプレクサー（diplexer）と１つ以上のパワーアンプとを含み得る。チップ／チップセットＣＳ１０はまた、キーパッドＣ１０を介してユーザ入力を受信し、ディスプレイＣ２０を介して情報を表示するようにも構成されている。この例では、デバイスＤ２０はまた、全世界測位システム（ＧＰＳ）位置探索サービスを、および／または無線（例えば、Ｂｌｕｅｔｏｏｔｈ（商標））ヘッドホンといった外部デバイスとの短距離通信を、サポートするための１つ以上のアンテナＣ４０も含む。もう１つの例では、このような通信デバイスはそれ自身がＢｌｕｅｔｏｏｔｈヘッドホンであって、キーパッドＣ１０、ディスプレイＣ２０およびアンテナＣ３０を欠いている。

本明細書で説明されているような装置Ａ１０の実現形態はヘッドホンおよび送受話器を含む種々のオーディオセンシング・デバイスに具体化され得る。送受話器実現形態の一例は、マイクロホン間に６．５センチメートル間隔を有するアレイＲ１００の前向き２重マイクロホン実現形態を含む。２重マイクロホン・マスキングアプローチの実現形態は、直接的にスペクトログラムにおけるマイクロホンペアの位相関係を分析することと、望ましくない方向からの時間・周波数ポイントをマスキングすることと、を含み得る。

図２５Ａ〜図２５Ｄは、デバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ１００の種々の図を示す。デバイスＤ１００は、アレイＲ１００の２マイクロホン実現形態を保持するハウジングＺ１０とこのハウジングから延びるイヤホンＺ２０とを含む無線ヘッドホンである。このようなデバイスは、（例えば、Ｂｌｕｅｔｏｏｔｈ特別関心グループ社、べレビュー、ワシントン州（Bluetooth Special Interest Group, Inc., Bellevue, WA）によって公表されているＢｌｕｅｔｏｏｔｈ（商標）プロトコルの１バージョンを使用して）携帯電話送受話器といった電話機デバイスとの通信を介して半二重または全二重電話方式をサポートするように構成され得る。一般に、ヘッドホンのハウジングは、矩形であるか、またはそうでなければ図２５Ａ、図２５Ｂ、および図２５Ｄに示されているように細長くされる（例えば、ミニブームのように形作られる）可能性があり、あるいは、より丸く、円形にさえされ得る。ハウジングはまた、バッテリーとプロセッサおよび／または他の処理回路（例えば、プリント回路基板とこれに搭載された部品）とを収容することもあり、また電気ポート（例えば、ミニ・ユニバーサル・シリアル・バス（ＵＢＳ）またはバッテリー充電のための他のポート）と１つ以上のボタンスイッチといったユーザインタフェース機構および／またはＬＥＤとを含み得る。典型的には、ハウジングの長軸に沿った長さは１インチから３インチの範囲内にある。

典型的には、アレイＲ１００の各マイクロホンはデバイス内、音響ポートとして役立つハウジングの１つ以上の小さな孔の後方に装着される。図２５Ｂ〜図２５Ｄは、デバイスＤ１００のアレイの１次マイクロホンのための音響ポートＺ４０とデバイスＤ１００のアレイの２次マイクロホンのための音響ポートＺ５０との位置を示す。

ヘッドホンはまた、典型的にはヘッドホンから取り外し可能であるイヤフックＺ３０といった固定デバイスも含み得る。外部のイヤフックは、例えばユーザがどちらの耳でも使用できるようにヘッドホンを構成することを可能にするために両側使用可能（reversible）であり得る。代替としてヘッドホンのイヤホンは、異なるユーザが特定のユーザの外耳道の外側部分へのより良好な嵌合のために異なるサイズ（例えば、直径）の受話口を使用することを可能にするための取り外し可能な受話口を含み得る内部固定デバイス（例えば、イヤプラグ）としてデザインされ得る。

図２６Ａ〜図２６Ｄは、無線ヘッドホンのもう１つの例であるデバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ２００の種々の図を示す。デバイスＤ２００は、丸い楕円形のハウジングＺ１２とイヤプラグとして構成され得るイヤホンＺ２２とを含む。図２６Ａ〜図２６Ｄはまた、デバイスＤ２００のアレイの１次マイクロホンのための音響ポートＺ４２と２次マイクロホンのための音響ポートＺ５２との位置を示す。２次マイクロホンポートが少なくとも部分的に閉塞され得る（例えば、ユーザインタフェース・ボタンによって）ことはあり得る。

図２７Ａは、通信送受話器であるデバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ３００の（中心軸に沿った）断面図を示す。デバイスＤ３００は、１次マイクロホンＭＣ１０と２次マイクロホンＭＣ２０とを有するアレイＲ１００の一実現形態を含む。この例では、デバイスＤ３００はまた１次ラウドスピーカーＳＰ１０および２次ラウドスピーカーＳＰ２０も含む。このようなデバイスは、１つ以上の符号化および復号方式（「コーデック」とも呼ばれる）を介して無線でボイス通信を送信および受信するように構成され得る。このようなコーデックの例は、２００７年２月の「Enhanced Variable Rate Codec, Speech Service Options 3, 68 and 70 for Wideband Spread Spectrum Digital Systems」（広帯域拡散スペクトル・ディジタルシステムのための改良型可変速度コーデック、スピーチサービスオプション３、６８、および７０）と題する第３世代パートナーシッププロジェクト２（３ＧＰＰ２）文書Ｃ．Ｓ００１４−Ｃ，ｖ１．０（www-dot-3gpp-dot-orgにおいてオンラインで利用可能）；２００４年１月の「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」（広帯域拡散スペクトル通信システムのための選択可能モードボコーダ（ＳＭＶ）サービスオプション）と題する３ＧＰＰ２文書Ｃ．Ｓ００３０−０，ｖ３．０（www-dot-3gpp-dot-orgにおいてオンラインで利用可能）；文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０ヨーロッパ電気通信規格協会（European Telecommunications Standards Institute (ETSI)、ソフィア・アンチポリス・セデックス、フランス、２００４年１２月（Sophia Antipolis Cedex、FR,December 2004）に記載の適応型マルチレー（Adaptive Multi Rate (AMR））スピーチコーデック；および文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）に記載のＡＭＲ広帯域スピーチコーデック；に記載されたような改良型可変速度コーデックを含む。図３Ａの例では、送受話器Ｄ３００はクラムシェルタイプの携帯電話送受話器（「フリップ」ハンドセットとも呼ばれる）である。このようなマルチマイクロホン通信送受話器の他の構成はバータイプおよびスライダータイプの電話送受話器を含む。図２７Ｂは、第３のマイクロホンＭＣ３０を含むアレイＲ１００の３マイクロホン実現形態Ｄ３１０の断面図を示す。

図２８Ａは、メディアプレーヤーであるデバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ４００の図を示す。このようなデバイスは、標準的圧縮フォーマット（例えば、Moving Pictures Experts Group (MPEG)-1 Audio Layer 3（ＭＰ３）、MPEG-4 Part 14（ＭＰ４）、Windows（登録商標）Media Audio/Video（ＷＭＡ／ＷＭＶ）（マイクロソフト社、レッドモンド、ワシントン州（Microsoft Corp., Redmond, WA））の１バージョン、国際電気通信連合（International Telecommunication Union）（ＩＴＵ）−ＴＨ．２６４など）に従って符号化されたファイルまたはストリームといった圧縮されたオーディオまたはオーディオビジュアル情報のプレイバック（再生）のために構成され得る。デバイスＤ４００は、デバイスの前面に配置されたディスプレイスクリーンＳＣ１０とラウドスピーカーＳＰ１０とを含み、アレイＲ１００のマイクロホンＭＣ１０およびＭＣ２０はデバイスの同じ面に（例えば、この例のように上面の両反対側に、または正面の両反対側に）配置される。図２８ＢはマイクロホンＭＣ１０およびＭＣ２０がデバイスの両反対側に配置されたデバイスＤ４００のもう１つの実現形態Ｄ４１０を示し、図２８ＣはマイクロホンＭＣ１０およびＭＣ２０がデバイスの隣接面に配置されたデバイスＤ４００の更なる実現形態Ｄ４２０を示す。メディアプレーヤーは意図した使用の間中、長軸が水平になっているようにもデザインされ得る。

図２９は、ハンズフリーカーキットであるデバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ５００の図を示す。このようなデバイスは、ダッシュボード、フロントガラス、バックミラー、サンバイザー、または車両のもう１つの内面にまたは内面上に設置されるように、または取り外し可能に固定されるように構成され得る。デバイスＤ５００はラウドスピーカー８５とアレイＲ１００の一実現形態とを含む。この特定の例では、デバイスＤ５００は直線状アレイに配置された４個のマイクロホンとしてのアレイＲ１００の実現形態Ｒ１０２を含む。このようなデバイスは上記にリストアップされた例といった１つ以上のコーデックを介して無線でボイス通信データを送信および受信するように構成され得る。代替として、または更に、このようなデバイスは、（例えば、上記のようなＢｌｕｅｔｏｏｔｈ（商標）プロトコルの１バージョンを使用して）携帯電話送受話器といった電話デバイスとの通信を介して半二重または全二重電話方式をサポートするように構成され得る。

図３０は、ハンドヘルドアプリケーションのためのデバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ６００の図を示す。デバイスＤ６００は、タッチスクリーン・ディスプレイＴＳ１０、３個の前部マイクロホンＭＣ１０〜ＭＣ３０、１個の後部マイクロホン、２個のラウドスピーカーＳＰ１０およびＳＰ２０、左側ユーザインタフェース・コントロール（例えば、選択用）ＵＩ１０、および右側ユーザインタフェース・コントロール（例えば、ナビゲーション用）ＵＩ２０を含む。ユーザインタフェース・コントロールの各々は、押しボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティックおよび／または他のポインティングデバイスなどの１つ以上を使用して実現され得る。ブラウジングトーク（browse talk）モードまたはゲームプレイ・モードで使用され得るデバイスＤ８００の典型的なサイズは約１５センチメートル×２０センチメートルである。本明細書で開示されたシステム、方法、および装置の適用可能性が図２５Ａ〜図３０に示されている特定の例に限定されないことは明らかに開示されている。このようなステム、方法、および装置が適用され得る携帯型オーディオセンシング・デバイスの他の例は補聴器を含む。

本明細書で開示された方法および装置は一般に、いかなる送受通信アプリケーションおよび／またはオーディオセンシング・アプリケーションにおいても、特に移動通信またはそうでなければこのようなアプリケーションの他の携帯型事例においても適用され得る。例えば、本明細書で開示された構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インタフェースを使用するように構成された無線電話通信システムに常駐する通信デバイスを含む。それにもかかわらず、本明細書で説明されたような特徴を有する方法および装置が有線および／または無線（例えば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）伝送チャネルに亘ってボイスオーバーＩＰ（ＶｏＰ）を使用するシステムといった当業者に知られた広範囲の技術を使用する種々の通信システムのいずれにも常駐し得ることは当業者によって理解されるであろう。

本明細書で開示された通信デバイスがパケット交換されるネットワーク（例えば、ＶｏＩＰといったプロトコルに従ってオーディオ伝送体を搬送するように整えられた有線および／または無線ネットワーク）および／または回線交換されるネットワークにおける使用のために適応し得ることは明確に考えられ、本明細書で開示されている。本明細書で開示された通信デバイスが狭帯域符号化システム（例えば、約４または５ｋＨｚのオーディオ周波数範囲を符号化するシステム）での使用のために、および／または全帯域広帯域符号化システムと分割帯域広帯域符号化システムとを含む広帯域符号化システム（例えば、５ｋＨｚより高いオーディオ周波数を符号化するシステム）での使用のために、適応し得ることも明確に考えられ、本明細書で開示されている。

本明細書で説明された構成の表現は、いかなる当業者も本明細書で開示された方法および他の構成を行う、または使用することを可能にするために提供されている。本明細書で図示され説明された流れ図、ブロック図および他の構成図は単なる例であってこれらの構成の他の変形版も本開示の範囲内にある。これらの構成に対する種々の修正は可能であり、本明細書で提示された一般的原理は他の構成にも同様に適用され得る。このように、本開示は上記の構成に限定されるようには意図されておらず、むしろ本明細書で任意の仕方で開示されて、出願された添付の請求項に含まれる、オリジナルな開示の一部を形成する原理と新規な特徴とに一致する最も広い範囲に合致させられるべきである。

当業者は、情報および信号が種々の異なる技術および技法のいずれかを使用して表現され得ることを理解しているであろう。例えば、上記の説明全体を通して参照され得るデータ、命令、コマンド、情報、信号、ビット、および記号は、電圧、電流、電磁波、磁界または磁気粒子、光場または光粒子、またはこれらの任意の組合せによって表現され得る。

本明細書で開示されたような構成の実現のための重要なデザイン要件は特に、圧縮されたオーディオまたはオーディオビジュアル情報（例えば、本明細書で識別された例の１つといった圧縮フォーマットに従って符号化されたファイルまたはストリーム）のプレイバックといった計算集中的なアプリケーションまたは広帯域通信（例えば、１２、１６、または４４ｋＨｚといた８ｋＨｚより高いサンプリングレートでのボイス通信）のためのアプリケーションのために、処理遅延および／または計算の複雑さ（典型的には、１秒当り百万命令単位またはＭＩＰＳ単位で測定される）を最小にすることを含み得る。

マルチマイクロホン処理システムの目標は、全体的雑音低減において１０〜１２デシベルを達成すること、所望スピーカーの移動中にも音声のレベルおよびカラーを維持すること、積極的な雑音除去の代わりに雑音が背景に移されたという認識を取得すること、ススピーチの残響除去、および／またはより積極的な雑音低減のための後処理のオプションを取得すること、を含み得る。

本明細書で開示されたＡＮＣ装置の一実現形態の種々の要素は、意図された用途のために適していると見なされるハードウエア、ソフトウエアおよび／またはファームウエアのいかなる組合せにおいても具体化され得る。例えば、このような要素は、例えば同じチップ上に、または１チップセット内の２つ以上のチップの間に常駐する電子および／または光デバイスとして製造され得る。このようなデバイスの１つの例は、トランジスタまたは論理ゲートといった論理要素の固定された、またはプログラム可能なアレイであり、これらの要素のいずれも１つ以上のこのようなアレイとして実現され得る。これらの要素の任意の２つ以上またはすべては、同じアレイ（単数または複数）内に実現され得る。このようなアレイ（単数または複数）は１つ以上のチップ内に（例えば、２つ以上のチップを含む１つのチップセット内に）実現され得る。

本明細書で開示されたＡＮＣ装置の種々の実現形態の１つ以上の要素はまた、マイクロプロセッサ、埋め込み型プロセッサ、ＩＰコア、ディジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブル・ゲートアレイ）、ＡＳＳＰ（特定アプリケーション向け標準製品）およびＡＳＩＣ（特定アプリケーション向け集積回路）といった論理要素の１つ以上の固定された、またはプログラム可能なアレイを実行するように整えられた命令の１つ以上のセットとして全体的または部分的に実現され得る。本明細書で開示されたような装置の実現形態の種々の要素のいかなるものでも、１つ以上のコンピュータ（例えば、「プロセッサ」とも呼ばれる、命令の１つ以上のセットまたは列を実行するようにプログラムされた１つ以上のアレイを含む機械）として実現されることが可能であり、またこれらの要素のいかなる２つ以上またはすべても、同じこのようなコンピュータ（単数または複数）内に実現され得る。

本明細書で開示されたプロセッサまたは他の処理のための手段は、例えば同じチップ上に、またはチップセット内の２つ以上のチップの間に常駐する電子および／または光デバイスとして製造され得る。このようなデバイスの１つの例は、トランジスタまたは論理ゲートといった論理要素の固定された、またはプログラム可能なアレイであり、これらの要素のいずれも１つ以上のこのようなアレイとして実現され得る。このようなアレイ（単数または複数）は１つ以上のチップ内に（例えば、２つ以上のチップを含む１つのチップセット内に）実現され得る。このようなアレイの例は、マイクロプロセッサ、埋め込み型プロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣといった論理要素の１つ以上の固定された、またはプログラム可能なアレイを含む。本明細書で開示されたようなプロセッサまたは他の処理するための手段はまた、１つ以上のコンピュータ（例えば、命令の１つ以上のセットまたは列を実行するようにプログラムされた１つ以上のアレイを含む機械）または他のプロセッサとして具体化されることもあり得る。プロセッサが埋め込まれたデバイスまたはシステム（例えば、オーディオセンシング・デバイス）の他の動作に関連するタスクといったコヒーレンシー検出手順に直接関連しないタスクを実行するために、または命令の他のセットを実行するために、本明細書で説明されたプロセッサが使用されることは可能である。本明細書で開示された方法の一部がオーディオセンシング・デバイスのプロセッサによって実行されることも、またこの方法の他の一部が１つ以上の他のプロセッサのコントロール下で実行されることも可能である。

当業者は、本明細書で開示された構成に関連して説明された種々の例示的モジュール、論理ブロック、回路、およびテストおよび他の動作が電子ハードウエア、コンピュータソフトウエアまたは両者の組合せとして実現され得ることを認めるであろう。このようなモジュール、論理ブロック、回路、および動作は、汎用プロセッサ、ディジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラム可能な論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウエア部品、または本明細書で説明されたような構成を作り出すためにデザインされたこれらの任意の組合せ、によって実現または実行され得る。例えば、このような構成は少なくとも部分的には、配線接続された回路として、または特定用途向け集積回路に製造された回路構成として、または汎用プロセッサまたは他のディジタル信号処理ユニットといった論理要素のアレイによって実行可能な命令である機械可読コードとして不揮発性記憶装置にロードされたファームウエアプログラムまたはデータ記憶媒体からまたはデータ記憶媒体にロードされたソフトウエアプログラムとして、実現され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替としてプロセッサはいかなる従来型プロセッサ、コントローラ、マイクロコントローラ、または状態機械でもあり得る。プロセッサはまた、コンピューティングデバイスの組合せとして、例えばＤＳＰとマイクロプロセッサとの組合せ、複数のプロセッサ、ＤＳＰコアと連動する１つ以上のマイクロプロセッサ、または他の任意のこのような構成、としても実現され得る。ソフトウエアモジュールは、ＲＡＭ（ランダムアクセス・メモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭといった不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当分野で周知の他の任意の形式の記憶媒体、に常駐し得る。例示的記憶媒体は、この記憶媒体から情報を読取ることができて、この記憶媒体に情報を書き込むことができるプロセッサに連結される。代替として、記憶媒体はプロセッサと一体化され得る。プロセッサおよび記憶媒体はＡＳＩＣ内に常駐し得る。ＡＳＩＣはユーザ端末内に常駐し得る。代替としてプロセッサおよび記憶媒体はユーザ端末内に個別部品として常駐し得る。

本明細書で開示された種々の方法がプロセッサといった論理要素のアレイによって実行され得ること、および本明細書で説明された装置の種々の要素がこのようなアレイ上で実行するようにデザインされたモジュールとして実現され得ることに留意されたい。本明細書で使用されているように、用語「モジュール」または「サブモジュール」は、ソフトウエア、ハードウエア、またはファームウエア形式のコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。多数のモジュールまたはシステムが１つのモジュールまたはシステムに組み合されることが可能であり、また１つのモジュールまたはシステムが同じ機能を実行するために多数のモジュールまたはシステムに分離されることが可能であることは理解されるべきである。ソフトウエアまたは他のコンピュータ実行可能命令に実現されたとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などといった関連タスクを実行するためのコードセグメントである。用語「ソフトウエア」は、ソースコード、アセンブリ言語コード、マシンコード、２進コード、ファームウエア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の１つ以上のセットまたは列、およびこのような例の任意の組合せ、を含むと理解されるべきである。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶され得るか、または搬送波内で具体化されたコンピュータデータ信号によって伝送媒体または通信リンク上で伝送され得る。

本明細書で開示された方法、方式、および技法の実現形態は、論理要素のアレイを含む機械（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）によって読取り可能および／または実行可能な命令の１つ以上のセットとして（例えば、本明細書でリストアップされたような１つ以上のコンピュータ可読媒体に）明確に具体化されることもあり得る。用語「コンピュータ可読媒体」は、揮発性、不揮発性、リムーバブル、およびノンリムーバブル媒体を含む、情報を記憶または移送できる任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数（ＲＦ）リンク、または所望の情報を記憶するために使用され得るそしてアクセスされ得る他の任意の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、空気、電磁、ＲＦリンクなどといった伝送媒体上を伝播し得るいかなる信号も含み得る。コードセグメントは、インターネットまたはイントラネットといったコンピュータネットワークを介してダウンロードされ得る。いずれの場合にも、本開示の範囲はこのような実施形態によって限定されると解釈されるべきではない。

本明細書で説明された方法のタスクの各々は直接的に、ハードウエアに、またはプロセッサによって実行されるソフトウエアモジュールに、またはこれら２つの組合せに、具体化され得る。本明細書で開示された方法の実現形態の典型的用途では、論理要素（例えば、論理ゲート）のアレイは、この方法の種々のタスクのうちの１つのタスク、または１つより多いタスク、またはすべてのタスクを実行するように構成されている。これらのタスクの１つ以上（場合によってはすべて）はまた、論理要素のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（例えば、コンピュータ）によって読取り可能および／または実行可能であるコンピュータプログラム製品（例えば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどといった１つ以上のデータ記憶媒体）に具体化されたコード（例えば、命令の１つ以上のセット）としても実現され得る。本明細書で開示されたような方法の実現形態のタスクは１つより多いこのようなアレイまたは機械によって実行されることもあり得る。これらまたは他の実現形態ではこれらのタスクは、携帯電話またはこのような通信機能を有する他のデバイスといった無線通信用デバイス内で実行され得る。このようなデバイスは、（例えば、ＶｏＩＰといった１つ以上のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成され得る。例えば、このようなデバイスは符号化されたフレームを受信および／または送信するように構成されたＲＦ回路を含み得る。

本明細書で開示された種々の方法が送受話器、ヘッドホン、またはポータブル・ディジタル・アシスタント（ＰＤＡ）といった携帯型通信デバイスによって実行され得ること、および本明細書で説明された種々の装置がこのようなデバイス内に含まれ得ることは明確に開示されている。典型的なリアルタイム（例えば、オンライン）アプリケーションはこのような移動デバイスを使用して行われる電話の会話である。

１つ以上の例示的実施形態では本明細書で説明された動作は、ハードウエア、ソフトウエア、ファームウエア、またはこれらの任意の組合せにおいて実現され得る。ソフトウエアにおいて実現された場合には、このような動作は１つ以上の命令またはコードとしてコンピュータ可読媒体上に記憶され得るか、またはコンピュータ可読媒体上を伝送され得る。用語「コンピュータ可読媒体」は、１つの場所から他の場所へのコンピュータプログラムの移送を容易にするいかなる媒体も含むコンピュータ記憶媒体および通信媒体の両者を含む。記憶媒体は、コンピュータによってアクセスされ得るいかなる利用可能な媒体でもあり得る。限定ではなく例として、このようなコンピュータ可読媒体は、半導体メモリ（ダイナミックまたはスタティックＲＡＭ，ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを限定なしに含み得る）、または強誘電性、磁気抵抗性、オボニック（ovonic）、ポリマー、または位相変化メモリ；ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、またはコンピュータによってアクセスされ得る具体的構造の命令またはデータ構造の形をした所望のプログラムコードを記憶するために使用され得る他の任意の媒体；といった記憶要素のアレイを備え得る。また、いかなる接続媒体も適切にコンピュータ可読媒体と名付けられる。例えば、ソフトウエアが同軸ケーブル、光ファイバケーブル、より対線、ディジタル加入者線（ＤＳＬ）、または赤外線、無線および／またはマイクロ波といった無線技術、を使用してウェブサイト、サーバまたは他の遠隔情報源から送信される場合には、これらの同軸ケーブル、光ファイバケーブル、より対線、ＤＳＬ、または赤外線、無線および／またはマイクロ波といった無線技術、は媒体の定義に含まれる。本明細書で使用されるようなディスク（disk）およびディスク（disc）はコンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、ディジタル・バーサタイル・ディスク（ＤＶＤ）、フロッピーディスクおよびブルーレイディスク（Blu-ray Disc（商標））（ブルーレイディスク・アソシエーション、ユニバーサルシティ、カリフォルニア州（Blu-Ray Disc Association, Universal City, CA））を含む。ここで、diskは通常、データを磁気的に再生するが、discはデータをレーザによって光学的に再生する。上記のものの組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

本明細書で説明されたような音響信号処理装置は、ある幾つかの動作を制御するためにスピーチ入力を受け入れる、またはそうでなければ背景雑音からの所望の雑音の分離から利益を得ることがあり得る、通信デバイスといった電子デバイスに組み込まれ得る。多くの用途は、多数の方向から発生する背景サウンドから明瞭な所望のサウンドを増強または分離することから利益を得ることがあり得る。このような用途は、ボイス認識および検出、ボイス増強および分離、ボイス活性化制御などといった機能を組み入れている電子またはコンピューティングデバイスにおける人間・機械インタフェースを含み得る。単に限定された機能を提供するデバイスに適するようにこのような音響信号処理装置を実現することが望ましいことができる。

本明細書で説明されたモジュール、要素、およびデバイスの種々の実現形態の要素は、例えば同じチップ上に、または１つのチップセット内の２つ以上のチップ間に常駐する電子および／または光デバイスとして製造され得る。このようなデバイスの１つの例は、トランジスタまたはゲートといった論理要素の固定された、またはプログラム可能なアレイである。本明細書で説明された装置の種々の実現形態の１つ以上の要素はまた、マイクロプロセッサ、埋め込み型プロセッサ、ＩＰコア、ディジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣといった論理要素の１つ以上の固定された、またはプログラム可能なアレイ上で実行するように整えられた命令の１つ以上のセットとして全体的または部分的に実現され得る。

本明細書で説明された装置の実現形態の１つ以上の要素が、この装置の動作に直接的には関連しない他の命令セットを実行するために、またはこの装置が埋め込まれたデバイスまたはシステムの他の動作に関連するタスクといったタスクを実行するために、使用されることは可能である。このような装置の実現形態の１つ以上の要素が、共通した構造（例えば、異なるときに異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なるときに異なる要素に対応するタスクを実行するために実行される１セットの命令、または異なるときに異なる要素に関する動作を実行する電子および／または光デバイスの配置）を有することも可能である。

図１は、使用中のヘッドホンＤ１００の側面図を示す。図２は、ユーザの耳に装着されたヘッドホンＤ１００の上面図を示す。図３Ａは、使用中の送受話器Ｄ３００の側面図を示す。図３Ｂは、マイクロホンアレイに関する幅広面領域およびエンドファイア（endfire）領域の例を示す。図４Ａは、全体的構成によるマルチチャネル信号を処理する方法Ｍ１００のための流れ図を示す。図４Ｂは、タスクＴ１００の実現形態Ｔ１０２の流れ図を示す。図４Ｃは、タスクＴ１１０の実現形態Ｔ１１２の流れ図を示す。図５Ａは、タスクＴ３００の実現形態Ｔ３０２の流れ図を示す。図５Ｂは、タスクＴ３００の代替実現形態Ｔ３０４の流れ図を示す。図５Ｃは、方法Ｍ１００の実現形態Ｍ２００の流れ図を示す。図６Ａは、到着方向を推定するためのアプローチを示す幾何学的近似の一例を示す。図６Ｂは、第２象限値および第３象限値に関して図６Ａの近似を使用することの一例を示す。図７は、球形波面を想定するモデルの一例を示す。図８Ａは、パスバンドとストップバンドとの間の比較的急激な遷移を有するマスキング関数の一例を示す。図８Ｂは、マスキング関数のための線形ロールオフの一例を示す。図８Ｃは、マスキング関数のための非線形ロールオフの一例を示す。図９Ａは、異なるパラメータ値のための非線形関数の例を示す。図９Ｂは、異なるパラメータ値のための非線形関数の例を示す。図９Ｃは、異なるパラメータ値のための非線形関数の例を示す。図１０は、マスキング関数の指向性パターンの前方ローブおよび後方ローブを示す。図１１Ａは、方法Ｍ１００の実現形態Ｍ１１０の流れ図を示す。図１１Ｂは、タスクＴ３６０の実現形態Ｔ３６２の流れ図を示す。図１１Ｃは、タスクＴ３６０の実現形態Ｔ３６４の流れ図を示す。図１２Ａは、方法Ｍ１００の実現形態Ｍ１２０の流れ図を示す。図１２Ｂは、方法Ｍ１００の実現形態Ｍ１３０の流れ図を示す。図１３Ａは、方法Ｍ１００の実現形態Ｍ１４０の流れ図を示す。図１３Ｂは、方法Ｍ１００の実現形態Ｍ１５０の流れ図を示す。図１４Ａは、３つの異なる閾値に対応する近接検出領域の境界の一例を示す。図１４Ｂは、スピーカーカバレッジのコーンを取得するための近接バブルとある範囲の許容された方向との交差の一例を示す。図１５は、図１４Ｂに示された音源選択領域境界の上面図を示す。図１６は、図１４Ｂに示された音源選択領域境界の側面図を示す。図１７Ａは、方法Ｍ１００の実現形態Ｍ１６０の流れ図を示す。図１７Ｂは、方法Ｍ１００の実現形態Ｍ１７０の流れ図を示す。図１８は、方法Ｍ１７０の実現形態Ｍ１８０の流れ図を示す。図１９Ａは、全体的構成による方法Ｍ３００の流れ図を示す。図１９Ｂは、方法Ｍ３００の実現形態Ｍ３１０の流れ図を示す。図２０Ａは、方法Ｍ３１０の実現形態Ｍ３２０の流れ図を示す。図２０Ｂは、全体的構成による装置Ｇ１００のブロック図を示す。図２１Ａは、全体的構成による装置Ａ１００のブロック図を示す。図２１Ｂは、装置Ａ１１０のブロック図を示す。図２２は、装置Ａ１２０のブロック図を示す。図２３Ａは、アレイＲ１００の実現形態Ｒ２００のブロック図を示す。図２３Ｂは、アレイＲ２００の実現形態Ｒ２１０のブロック図を示す。図２４Ａは、全体的構成によるデバイスＤ１０のブロック図を示す。図２４Ｂは、デバイスＤ１０の実現形態Ｄ２０のブロック図を示す。図２５Ａは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２５Ｂは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２５Ｃは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２５Ｄは、マルチマイクロホン無線ヘッドホンＤ１００の種々の図を示す。図２６Ａは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２６Ｂは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２６Ｃは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２６Ｄは、マルチマイクロホン無線ヘッドホンＤ２００の種々の図を示す。図２７Ａは、マルチマイクロホン通信送受話器Ｄ３００の（中心軸に沿った）断面図を示す。図２７Ｂは、デバイスＤ３００の実現形態Ｄ３１０の断面図を示す。図２８Ａは、マルチマイクロホン・メディア・プレーヤＤ４００の図を示す。図２８Ｂは、マルチマイクロホン・メディア・プレーヤＤ４１０の図を示す。図２８Ｃは、マルチマイクロホン・メディア・プレーヤＤ４２０の図を示す。図２９は、マルチマイクロホン・ハンズフリー・カーキットＤ５００の図を示す。図３０は、デバイスＤ１０のマルチマイクロホン携帯型オーディオセンシング実現形態Ｄ６００の図を示す。

Claims

マルチチャネル信号を処理する方法であって、
前記マルチチャネル信号の複数の異なる周波数成分の各々に関して、複数の計算された位相差を取得するために、前記マルチチャネル信号の第１のチャネルにおける前記周波数成分の位相と前記マルチチャネル信号の第２のチャネルにおける前記周波数成分の位相との間の差を計算することと；
前記第１のチャネルのレベルと前記第２のチャネルの対応するレベルとを計算することと；
前記第１のチャネルの前記計算されたレベルと前記第２のチャネルの前記計算されたレベルと前記複数の計算された位相差の少なくとも１つとに基づいて、利得係数の更新された値を計算することと；及び
前記更新された値に従って、前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することによって、処理されたマルチチャネル信号を生成することと；
を備える、マルチチャネル信号を処理する方法。
前記第１のチャネルの前記計算されたレベルは第１の周波数サブバンドにおける前記第１のチャネルの計算されたエネルギーであり、前記第２のチャネルの前記計算されたレベルは前記第１の周波数サブバンドにおける前記第２のチャネルの計算されたエネルギーであり、且つ
前記第１のチャネルの前記振幅は前記第１の周波数サブバンドにおける前記第１のチャネルの振幅であり、前記第２のチャネルの前記対応する振幅は前記第１の周波数サブバンドにおける前記第２のチャネルの振幅であり、且つ
前記方法は：
前記第１の周波数サブバンドとは異なる第２の周波数サブバンドにおける前記第１のチャネルのエネルギーを計算することと；
前記第２の周波数サブバンドにおける前記第２のチャネルのエネルギーを計算することと；及び
前記第２の周波数サブバンドにおける前記第１のチャネルの前記計算されたエネルギーと、前記第２の周波数サブバンドにおける前記第２のチャネルの前記計算されたエネルギーと、前記複数の計算された位相差の少なくとも１つとに基づいて、第２の利得係数の更新された値を計算することと；
を備えており、
処理されたマルチチャネル信号を前記生成することは、前記第２の周波数サブバンドにおける前記第１のチャネルの振幅に関して前記第２の周波数サブバンドにおける前記第２のチャネルの振幅を、前記第２の利得係数の前記更新された値に従って、修正することによって前記処理されたマルチチャネル信号を生成することを含む、請求項１に記載のマルチチャネル信号を処理する方法。
前記方法は、前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の到着方向間のコヒーレンスの度合いを示すコヒーレンシー測定の値を計算することを備えており、且つ
利得係数の更新された値を前記計算することは、前記コヒーレンシー測定の前記計算された値に基づく、請求項１および２のいずれか一項に記載のマルチチャネル信号を処理する方法。
前記第２のチャネルの対応する振幅に関して前記第１のチャネルの振幅を前記修正することは、前記コヒーレンシー測定の前記値をある閾値と比較した結果に応じて実行される、請求項３に記載のマルチチャネル信号を処理する方法。
前記方法は、前記マルチチャネル信号の推定されたピッチ周波数に基づいて前記複数の異なる周波数成分を選択することを含む、請求項１乃至４のいずれか一項に記載のマルチチャネル信号を処理する方法。
利得係数の前記更新された値は、前記第１のチャネルの前記計算されたレベルと前記第２のチャネルの前記計算されたレベルとの比に基づく、請求項１乃至５のいずれか一項に記載のマルチチャネル信号を処理する方法。
前記更新された値に従って、前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することによって、処理されたマルチチャネル信号を前記生成することは、前記第１および第２のチャネルの前記計算されたレベル間の不均衡を低減することを備える、請求項１乃至６のいずれか一項に記載のマルチチャネル信号を処理する方法。
処理されたマルチチャネル信号を前記生成することは、前記更新された値に従って、前記マルチチャネル信号の複数の連続するセグメントの各々において前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することを含む、請求項１乃至７のいずれか一項に記載のマルチチャネル信号を処理する方法。
前記方法は、前記処理されたマルチチャネル信号の第１のチャネルのレベルと前記処理されたマルチチャネル信号の第２のチャネルのレベルとの間の関係に基づいて音声活動の存在を示すことを備える、請求項１乃至８のいずれか一項に記載のマルチチャネル信号を処理する方法。
前記方法は、前記処理されたマルチチャネル信号の第１のチャネルのレベルと前記処理されたマルチチャネル信号の第２のチャネルのレベルとの間の関係に基づいて、及び、前記コヒーレンシー測定の前記値をある閾値と比較した結果に応じて、前記マルチチャネル信号の前記第１および第２のチャネルの少なくとも１つからの音響情報に従って雑音推定値を更新することを備える、請求項３および４のいずれか一項に記載のマルチチャネル信号を処理する方法。
プロセッサによって読み取られたときに請求項１乃至１０のいずれか一項による方法を前記プロセッサに実行させる具体的な特徴を備える、コンピュータ可読媒体。
マルチチャネル信号を処理するための装置であって、
前記マルチチャネル信号の複数の異なる周波数成分の各々に関して、前記マルチチャネル信号の第１のチャネルにおける前記周波数成分の位相と前記マルチチャネル信号の第２のチャネルにおける前記周波数成分の位相との間の差を計算することによって複数の計算された位相差を取得するように構成された第１の計算器と；
前記第１のチャネルのレベルと前記第２のチャネルの対応するレベルとを計算するように構成された第２の計算器と；
前記第１のチャネルの前記計算されたレベルと前記第２のチャネルの前記計算されたレベルと前記複数の計算された位相差の少なくとも１つとに基づいて、利得係数の更新された値を計算するように構成された第３の計算器と；及び
前記更新された値に従って前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することによって、処理されたマルチチャネル信号を生成するように構成された利得制御要素と；
を備える、マルチチャネル信号を処理するための装置。
前記第１のチャネルの前記計算されたレベルは第１の周波数サブバンドにおける前記第１のチャネルの計算されたエネルギーであり、前記第２のチャネルの前記計算されたレベルは前記第１の周波数サブバンドにおける前記第２のチャネルの計算されたエネルギーであり、且つ
前記第１のチャネルの前記振幅は前記第１の周波数サブバンドにおける前記第１のチャネルの振幅であり、前記第２のチャネルの前記対応する振幅は前記第１の周波数サブバンドにおける前記第２のチャネルの振幅であり、且つ
前記第２の計算器は、前記第１の周波数サブバンドとは異なる第２の周波数サブバンドにおける前記第１のチャネルのエネルギーを計算するように、及び前記第２の周波数サブバンドにおける前記第２のチャネルのエネルギーを計算するように構成され、且つ
前記第３の計算器は、前記第２の周波数サブバンドにおける前記第１のチャネルの前記計算されたエネルギーと、前記第２の周波数サブバンドにおける前記第２のチャネルの前記計算されたエネルギーと、前記複数の計算された位相差と、のうち少なくとも１つに基づいて、第２の利得係数の更新された値を計算するように構成され、
前記利得制御要素は、前記第２の利得係数の前記更新された値に従って、前記第２の周波数サブバンドにおける前記第１のチャネルの振幅に関して前記第２の周波数サブバンドにおける前記第２のチャネルの振幅を修正することによって前記処理されたマルチチャネル信号を生成するように構成されている、請求項１２に記載の装置。
前記第３の計算器は、前記複数の計算された位相差からの情報に基づいて少なくとも前記複数の異なる周波数成分の到着方向間のコヒーレンスの度合いを示すコヒーレンシー測定の値を計算するように構成され、且つ
前記第３の計算器は、前記コヒーレンシー測定の前記計算された値に基づいて利得係数の前記更新された値を計算するように構成されている、請求項１２および１３のいずれか一項に記載の装置。
前記第３の計算器は、前記コヒーレンシー測定の前記値をある閾値と比較するように構成され、且つ
前記利得制御要素は、前記コヒーレンシー測定の前記値をある閾値と前記比較した結果に応じて前記第２のチャネルの対応する振幅に関して前記第１のチャネルの振幅を修正するように構成されている、請求項１４に記載の装置。
前記位相差計算器は、前記マルチチャネル信号の推定されたピッチ周波数に基づいて前記複数の異なる周波数成分を選択するように構成されている、請求項１２乃至１５のいずれか一項に記載の装置。
利得係数の前記更新された値は、前記第１のチャネルの前記計算されたレベルと前記第２のチャネルの前記計算されたレベルとの比に基づく、請求項１２乃至１６のいずれか一項に記載の装置。
前記利得制御要素は、前記更新された値に従って、前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することによって前記第１および第２のチャネルの前記計算されたレベル間の不均衡を低減するように構成されている、請求項１２乃至１７のいずれか一項に記載の装置。
前記利得制御要素は、前記更新された値に従って、前記マルチチャネル信号の複数の連続するセグメントの各々において前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することによって前記処理されたマルチチャネル信号を生成するように構成されている、請求項１２乃至１８のいずれか一項に記載の装置。
前記装置は、前記処理されたマルチチャネル信号の第１のチャネルのレベルと前記処理されたマルチチャネル信号の第２のチャネルのレベルとの間の関係に基づいてボイス活動の存在を示すように構成されたボイス活動検出器を含む、請求項１２乃至１９のいずれか一項に記載の装置。
前記方法は、前記処理されたマルチチャネル信号の第１のチャネルのレベルと前記処理されたマルチチャネル信号の第２のチャネルのレベルとの間の関係に基づいて、及び前記コヒーレンシー測定の前記値をある閾値と比較した結果に応じて、前記マルチチャネル信号の前記第１および第２のチャネルの少なくとも１つからの音響情報に従って雑音推定値を更新することを備える、請求項１４および１５のいずれか一項に記載の装置。
マルチチャネル信号を処理するための装置であって、
複数の計算された位相差を取得するために、前記マルチチャネル信号の複数の異なる周波数成分の各々に関して、前記マルチチャネル信号の第１のチャネルにおける前記周波数成分の位相と前記マルチチャネル信号の第２のチャネルにおける前記周波数成分の位相との間の差を計算するための手段と；
前記第１のチャネルのレベルと前記第２のチャネルの対応するレベルを計算するための手段と；
前記第１のチャネルの前記計算されたレベルと、前記第２のチャネルの前記計算されたレベルと、前記複数の計算された位相差の少なくとも１つとに基づいて、利得係数の更新された値を計算するための手段と；及び
前記更新された値に従って、前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することによって、処理されたマルチチャネル信号を生成するための手段と；
を備える、マルチチャネル信号を処理するための装置。
前記第１のチャネルの前記計算されたレベルは第１の周波数サブバンドにおける前記第１のチャネルの計算されたエネルギーであり、前記第２のチャネルの前記計算されたレベルは前記第１の周波数サブバンドにおける前記第２のチャネルの計算されたエネルギーであり、且つ
前記第１のチャネルの前記振幅は前記第１の周波数サブバンドにおける前記第１のチャネルの振幅であり、前記第２のチャネルの前記対応する振幅は前記第１の周波数サブバンドにおける前記第２のチャネルの振幅であり、且つ
前記装置は：
前記第１の周波数サブバンドとは異なる第２の周波数サブバンドにおける前記第１のチャネルのエネルギーを計算するための手段と；
前記第２の周波数サブバンドにおける前記第２のチャネルのエネルギーを計算するための手段と；及び
前記第２の周波数サブバンドにおける前記第１のチャネルの前記計算されたエネルギーと、前記第２の周波数サブバンドにおける前記第２のチャネルの前記計算されたエネルギーと、前記複数の計算された位相差の少なくとも１つとに基づいて、第２の利得係数の更新された値を計算するための手段と；
を備えており、
処理されたマルチチャネル信号を生成するための前記手段は、前記第２の利得係数の前記更新された値に従って、前記第２の周波数サブバンドにおける前記第１のチャネルの振幅に関して前記第２の周波数サブバンドにおける前記第２のチャネルの振幅を修正することによって、前記処理されたマルチチャネル信号を生成するための手段を含む、請求項２２に記載の装置。
前記装置は、前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の到着方向間のコヒーレンスの度合いを示すコヒーレンシー測定の値を計算するための手段を備えており、且つ
利得係数の更新された値を計算するための前記手段は、前記コヒーレンシー測定の前記計算された値に基づいて前記利得係数の前記更新された値を計算するように構成されている、請求項２２および２３のいずれか一項に記載の装置。
前記第２のチャネルの対応する振幅に関して前記第１のチャネルの振幅を修正するための前記手段は、前記コヒーレンシー測定の前記値をある閾値と比較するための前記手段の出力に応じてこのような修正を実行するように構成されている、請求項２４に記載の装置。
前記装置は、前記マルチチャネル信号の推定されたピッチ周波数に基づいて前記複数の異なる周波数成分を選択するための手段を含む、請求項２２乃至２５のいずれか一項に記載の装置。
利得係数の前記更新された値は、前記第１のチャネルの前記計算されたレベルと前記第２のチャネルの前記計算されたレベルとの比に基づく、請求項２２乃至２６のいずれか一項に記載の装置。
前記更新された値に従って、前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正することによって、処理されたマルチチャネル信号を生成するための前記手段は、前記第１および第２のチャネルの前記計算されたレベル間の不均衡を低減するように構成されている、請求項２２乃至２７のいずれか一項に記載の装置。
処理されたマルチチャネル信号を生成するための前記手段は、前記更新された値に従って、前記マルチチャネル信号の複数の連続するセグメントの各々において前記第１のチャネルの対応する振幅に関して前記第２のチャネルの振幅を修正するための手段を含む、請求項２２乃至２８のいずれか一項に記載の装置。
前記装置は、前記処理されたマルチチャネル信号の第１のチャネルのレベルと前記処理されたマルチチャネル信号の第２のチャネルのレベルとの間の関係に基づいて、ボイス活動の存在を示すための手段を備える、請求項２２乃至２９のいずれか一項に記載の装置。
前記装置は、前記処理されたマルチチャネル信号の第１のチャネルのレベルと前記処理されたマルチチャネル信号の第２のチャネルのレベルとの間の関係に基づいて、及び前記コヒーレンシー測定の前記値をある閾値と比較した結果に応じて、前記マルチチャネル信号の前記第１および第２のチャネルの少なくとも１つからの音響情報に従って雑音推定値を更新するための手段を備える、請求項２４および２５のいずれか一項に記載の装置。