JP2012524505A

JP2012524505A - ロバストな雑音低減のためのマイクロフォンアレイサブセット選択

Info

Publication number: JP2012524505A
Application number: JP2012507484A
Authority: JP
Inventors: ビサー、エリク; リウ、エアナン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-02-18
Filing date: 2011-02-18
Publication date: 2012-10-11
Anticipated expiration: 2031-02-18
Also published as: JP5038550B1; WO2011103488A1; CN102763160B; KR101337695B1; US8897455B2; CN102763160A; EP2537153A1; TW201142830A; KR20120123562A; US20120051548A1

Abstract

開示される方法は、マルチチャネル信号の少なくとも１つの周波数成分の到来方向に関連する情報に基づいて、マルチチャネル信号のチャネルの全てより少ない複数のチャネルを選択する。

Description

米国特許法第１１９条の下での優先権の主張
本特許出願は、２０１０年２月１８日に出願された「ＭＩＣＲＯＰＨＯＮＥＡＲＲＡＹＳＵＢＳＥＴＳＥＬＥＣＴＩＯＮＦＯＲＲＯＢＵＳＴＮＯＩＳＥＲＥＤＵＣＴＩＯＮ」という名称で、本出願の譲受人に譲渡され、参照により本明細書に明示的に組込まれる米国仮特許出願第６１／３０５，７６３号（整理番号１００２１７Ｐ１）に対する優先権を主張する。

本開示は、信号処理に関する。

静かなオフィスまたは家庭環境で以前は実施されていた多くの活動が、今日では、車、道路、またはカフェのような音響的に可変の状況で実施されている。たとえば、人は、音声通信チャネルを使用して別の人と通信したいと欲する場合がある。チャネルは、たとえば、移動無線ハンドセットまたはヘッドセット、ウォーキートーキー、２方向無線機、カーキット、または別の通信デバイスによって提供され得る。その結果、かなりの量の音声通信は、人々が集まる傾向がある場所で通常遭遇する種類の雑音コンテンツとともにユーザが他の人々によって囲まれる環境において、移動体デバイス（たとえば、スマートフォン、ハンドセット、および／またはヘッドセット）を使用して行われる。こうした雑音は、電話の会話の遠方端にいるユーザの気を散らすまたは悩ませる傾向がある。さらに、多くの標準的な自動化されたビジネストランザクション（たとえば、勘定残高または株式相場チェック）は、音声認識ベースのデータ照会を使用し、これらのシステムの精度は、干渉雑音によって著しく妨害される可能性がある。

通信が、雑音が多い環境で起こるアプリケーションの場合、所望のスピーチ信号を背景雑音から分離することが望ましい場合がある。雑音は、所望の信号に干渉するか、さもなければ信号を劣化させる全ての信号の組合せとして定義することができる。背景雑音は、他の人々の背景会話ならびに所望の信号および／または他の信号の任意の信号から生成される反射および残響などの、音響環境内で生成される多数の雑音信号を含む可能性がある。所望のスピーチ信号が背景雑音から分離されなければ、その信号を確実にかつ効率的に使用することは難しい可能性がある。１つの特定の例では、スピーチ信号は、雑音が多い環境で生成され、スピーチ処理方法は、スピーチ信号を環境的雑音から分離するために使用される。

移動体環境で遭遇する雑音は、競合する話し手、音楽、ざわめき、通りの雑音、および／または空港雑音などの種々の異なる成分を含む可能性がある。こうした雑音のシグネチャは、通常、非定常的であり、かつ、ユーザ自身の周波数シグネチャに近いため、雑音は、伝統的な単一マイクロフォンまたは固定ビーム形成タイプの方法を使用して、モデル化することが難しい可能性がある。単一マイクロフォン雑音低減技法は、通常、最適性能を達成するためにかなりのパラメータ調整を必要とする。たとえば、適切な雑音参照(noise reference)は、こうした場合には直接利用可能でなく、雑音参照を間接的に引出すことが必要である可能性がある。したがって、雑音が多い環境における音声通信のための移動体デバイスの使用をサポートするために、複数マイクロフォンベースの高度信号処理が、望ましい場合がある。

一般的な構成によるマルチチャネル信号を処理する方法は、マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、マルチチャネル信号の第１の対のチャネルのそれぞれの第１の時間における周波数成分の位相間の差を計算することであって、それにより、第１の複数の位相差を得る、計算すること、および、第１の複数の計算された位相差からの情報に基づいて、第１の時間における第１の対の少なくとも複数の異なる周波数成分の到来方向が、第１の空間セクタにおいてコヒーレントである程度を示す第１のコヒーレンス量の値を計算することを含む。この方法はまた、マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、マルチチャネル信号の、第２の対（第２の対は第１の対と異なる）のチャネルのそれぞれの第２の時間における周波数成分の位相間の差を計算することであって、それにより、第２の複数の位相差を得る、計算すること、および、第２の複数の計算された位相差からの情報に基づいて、第２の時間における第２の対の少なくとも複数の異なる周波数成分の到来方向が、第２の空間セクタにおいてコヒーレントである程度を示す第２のコヒーレンス量の値を計算することを含む。この方法はまた、第１のコヒーレンス量の計算値と、ある期間にわたる第１のコヒーレンス量の平均値との間の関係を評価することによって、第１のコヒーレンス量のコントラストを計算すること、および、第２のコヒーレンス量の計算値と、ある期間にわたる第２のコヒーレンス量の平均値との間の関係を評価することによって、第２のコヒーレンス量のコントラストを計算することを含む。この方法はまた、第１および第２のコヒーレンス量の中で、どれが最も大きなコントラストを有するかに基づいて、第１および第２の対のチャネルの中から一方の対を選択することを含む。開示される構成はまた、有形的な特徴であって、特徴を読取る機械に、こうした方法を実施させる、有形的な特徴を有するコンピュータ可読記憶媒体を含む。

一般的な構成によるマルチチャネル信号を処理する装置は、マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、マルチチャネル信号の第１の対のチャネルのそれぞれの第１の時間における周波数成分の位相間の差を計算して、第１の複数の位相差を得るための手段と、第１の複数の計算された位相差からの情報に基づいて、第１の時間における第１の対の少なくとも複数の異なる周波数成分の到来方向が、第１の空間セクタにおいてコヒーレントである程度を示す第１のコヒーレンス量の値を計算するための手段とを含む。この装置はまた、マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、マルチチャネル信号の、第２の対（第２の対は第１の対と異なる）のチャネルのそれぞれの第２の時間における周波数成分の位相間の差を計算して、第２の複数の位相差を得るための手段と、第２の複数の計算された位相差からの情報に基づいて、第２の時間における第２の対の少なくとも複数の異なる周波数成分の到来方向が、第２の空間セクタにおいてコヒーレントである程度を示す第２のコヒーレンス量の値を計算するための手段とを含む。この装置はまた、第１のコヒーレンス量の計算値と、ある期間にわたる第１のコヒーレンス量の平均値との間の関係を評価することによって、第１のコヒーレンス量のコントラストを計算するための手段と、第２のコヒーレンス量の計算値と、ある期間にわたる第２のコヒーレンス量の平均値との間の関係を評価することによって、第２のコヒーレンス量のコントラストを計算するための手段とを含む。この装置はまた、第１および第２のコヒーレンス量の中で、どれが最も大きなコントラストを有するかに基づいて、第１および第２の対のチャネルの中から一方の対を選択するための手段を含む。

別の一般的な構成によるマルチチャネル信号を処理する装置は、マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、マルチチャネル信号の第１の対のチャネルのそれぞれの第１の時間における周波数成分の位相間の差を計算して、第１の複数の位相差を得るように構成された第１の計算器と、第１の複数の計算された位相差からの情報に基づいて、第１の時間における第１の対の少なくとも複数の異なる周波数成分の到来方向が、第１の空間セクタにおいてコヒーレントである程度を示す第１のコヒーレンス量の値を計算するように構成された第２の計算器とを含む。この装置はまた、マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、マルチチャネル信号の第２の対（第２の対は第１の対と異なる）のチャネルのそれぞれの第２の時間における周波数成分の位相間の差を計算して、第２の複数の位相差を得るように構成された第３の計算器と、第２の複数の計算された位相差からの情報に基づいて、第２の時間における第２の対の少なくとも複数の異なる周波数成分の到来方向が、第２の空間セクタにおいてコヒーレントである程度を示す第２のコヒーレンス量の値を計算するように構成された第４の計算器とを含む。この装置はまた、第１のコヒーレンス量の計算値と、ある期間にわたる第１のコヒーレンス量の平均値との間の関係を評価することによって、第１のコヒーレンス量のコントラストを計算するように構成された第５の計算器と、第２のコヒーレンス量の計算値と、ある期間にわたる第２のコヒーレンス量の平均値との間の関係を評価することによって、第２のコヒーレンス量のコントラストを計算するように構成された第６の計算器とを含む。この装置はまた、第１および第２のコヒーレンス量の中で、どれが最も大きなコントラストを有するかに基づいて、第１および第２の対のチャネルの中から一方の対を選択するように構成された選択器を含む。

通常のハンドセットモード保持位置で使用されているハンドセットの例を示す図。２つの異なる保持位置におけるハンドセットの例を示す図。その前面に３つのマイクロフォンの列およびその背面に別のマイクロフォンを有するハンドセット用の異なる保持位置のうちの１つの保持位置の例を示す図。その前面に３つのマイクロフォンの列およびその背面に別のマイクロフォンを有するハンドセット用の異なる保持位置のうちの１つの保持位置の例を示す図。その前面に３つのマイクロフォンの列およびその背面に別のマイクロフォンを有するハンドセット用の異なる保持位置のうちの１つの保持位置の例を示す図。ハンドセットＤ３４０の正面図、背面図、および側面図。ハンドセットＤ３６０の正面図、背面図、および側面図。アレイＲ１００の実装態様Ｒ２００のブロック図。アレイＲ２００の実装態様Ｒ２１０のブロック図。マルチマイクロフォン無線ヘッドセットＤ１００の種々の図のうちの１つの図。マルチマイクロフォン無線ヘッドセットＤ１００の種々の図のうちの１つの図。マルチマイクロフォン無線ヘッドセットＤ１００の種々の図のうちの１つの図。マルチマイクロフォン無線ヘッドセットＤ１００の種々の図のうちの１つの図。マルチマイクロフォン無線ヘッドセットＤ２００の種々の図のうちの１つの図。マルチマイクロフォン無線ヘッドセットＤ２００の種々の図のうちの１つの図。マルチマイクロフォン無線ヘッドセットＤ２００の種々の図のうちの１つの図。マルチマイクロフォン無線ヘッドセットＤ２００の種々の図のうちの１つの図。マルチマイクロフォン通信ハンドセットＤ３００の（中心軸に沿う）断面図。デバイスＤ３００の実装態様Ｄ３１０の断面図。マルチマイクロフォン可搬型メディアプレーヤＤ４００の線図。マルチマイクロフォン可搬型メディアプレーヤＤ４００の実装態様Ｄ４１０の線図。マルチマイクロフォン可搬型メディアプレーヤＤ４００の実装態様Ｄ４２０の線図。ハンドセットＤ３２０の正面図。ハンドセットＤ３２０の側面図。ハンドセットＤ３３０の正面図。ハンドセットＤ３３０の側面図。手持ち用途のための可搬型マルチマイクロフォンオーディオ検知デバイスＤ８００の線図。マルチマイクロフォンハンズフリーカーキットＤ５００の線図。マルチマイクロフォン書込みデバイスＤ６００の線図。可搬型コンピューティングデバイスＤ７００の図。可搬型コンピューティングデバイスＤ７００の図。可搬型コンピューティングデバイスＤ７１０の図。可搬型コンピューティングデバイスＤ７１０の図。可搬型オーディオ検知デバイスのさらなる例を示す図。可搬型オーディオ検知デバイスのさらなる例を示す図。可搬型オーディオ検知デバイスのさらなる例を示す図。複数信号源環境におけるアレイＲ１００の３マイクロフォン実装態様の例を示す図。関連する例を示す図。関連する例を示す図。会議デバイスのいくつかの例のうちの１つの例の平面図。会議デバイスのいくつかの例のうちの１つの例の平面図。会議デバイスのいくつかの例のうちの１つの例の平面図。会議デバイスのいくつかの例のうちの１つの例の平面図。一般的な構成による方法Ｍ１００のフローチャート。一般的な構成による装置ＭＦ１００のブロック図。一般的な構成による装置Ａ１００のブロック図。タスクＴ１００の実装態様Ｔ１０２のフローチャート。マイクロフォン対ＭＣ１０−ＭＣ２０に対する空間セクタの例を示す図。到来方向を推定する手法を示す幾何学的近似の例を示す図。到来方向を推定する手法を示す幾何学的近似の例を示す図。異なるモデルの例を示す図。信号のＦＦＴについての、マグニチュード対周波数ビンのプロット。図２６のスペクトラムに関するピッチ選択オペレーションの結果を示す図。マスキング関数の例を示す図。マスキング関数の例を示す図。マスキング関数の例を示す図。マスキング関数の例を示す図。非線形マスキング関数の例を示す図。非線形マスキング関数の例を示す図。非線形マスキング関数の例を示す図。非線形マスキング関数の例を示す図。マイクロフォン対ＭＣ２０−ＭＣ１０に対する空間セクタの例を示す図。方法Ｍ１００の実装態様Ｍ１１０のフローチャート。方法Ｍ１１０の実装態様Ｍ１１２のフローチャート。装置ＭＦ１００の実装態様ＭＦ１１２のブロック図。装置Ａ１００の実装態様Ａ１１２のブロック図。装置Ａ１１２の実装態様Ａ１１２１のブロック図。ハンドセットＤ３４０の種々のマイクロフォン対に対する空間セクタの例を示す図。ハンドセットＤ３４０の種々のマイクロフォン対に対する空間セクタの例を示す図。ハンドセットＤ３４０の種々のマイクロフォン対に対する空間セクタの例を示す図。ハンドセットＤ３４０の種々のマイクロフォン対に対する空間セクタの例を示す図。ハンドセットＤ３６０の種々のマイクロフォン対に対する空間セクタの例を示す図。ハンドセットＤ３６０の種々のマイクロフォン対に対する空間セクタの例を示す図。ハンドセットＤ３６０の種々のマイクロフォン対に対する空間セクタの例を示す図。方法Ｍ１００の実装態様Ｍ２００のフローチャート。一般的な構成によるデバイスＤ１０のブロック図。通信デバイスＤ２０のブロック図。

この説明は、検知されるマルチチャネル信号の一定の周波数成分が、許容可能なマイクロフォン間角度の範囲内から生じたか、その範囲外から生じたかを判定するために、マイクロフォン間距離および周波数とマイクロフォン間位相差との間の相関に関する情報を適用するシステム、方法、および装置の開示を含む。こうした判定は、（たとえば、その範囲内から発生する音が保存され、その範囲外で発生する音が抑制されるように）異なる方向から到来する信号を識別するために、かつ／または、近接場(near-field)信号と遠方場(far-field)信号を識別するために使用されてもよい。

その文脈によって明示的に制限されない限り、用語「信号（signal）」は、ワイヤ、バス、または他の伝送媒体上で表現されるメモリロケーション（またはメモリロケーションのセット）の状態を含む、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「生成する（generating）」は、計算するまたはその他の方法で生成するなど、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「計算する（calculating）」は、複数の値から計算する、評価する、推定する、かつ／または選択するなど、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「得る（obtaining）」は、計算する、導出する、（たとえば、外部デバイスから）受取る、かつ／または（たとえば、記憶素子のアレイから）取出すなど、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「選択する（selecting）」は、２つ以上のもののセットの少なくとも１つのものおよび全てより少数のものを特定する、示す、適用する、かつ／または使用するなど、その通常の意味の任意の意味を示すために本明細書で使用される。用語「備える（comprising）」は、本説明および特許請求の範囲で使用される場合、他の要素またはオペレーションを排除しない。用語「に基づく（based on）」（「ＡはＢに基づく」の場合のような）は、（ｉ）「から導出される（derived from）」（たとえば、「ＢはＡの前駆体である」）場合、（ｉｉ）「少なくとも…に基づく（based on at least）」（たとえば、「Ａは少なくともＢに基づく」）場合、および特定の文脈で適切である場合、（ｉｉｉ）「に等しい（equal to）」（たとえば、「ＡはＢに等しい」）場合を含む、その通常の意味の任意の意味を示すために使用される。同様に、用語「に応答して（in response to）」は、「少なくとも…に応答して（in response to at least）」を含む、その通常の意味の任意の意味を示すために使用される。

マルチマイクロフォンオーディオ検知デバイスのマイクロフォンの「ロケーション（location）」に対する参照は、文脈によって別途示されない限り、マイクロフォンの音響検知面の中心のロケーションを示す。用語「チャネル（channel）」は、特定の文脈に応じて、あるときには信号経路を示すために、他のときにはこうした経路によって運ばれる信号を示すために使用される。別途示されない限り、用語「一連（series）」は、２つ以上のアイテムのシーケンスを示すために使用される。用語「対数（logarithm）」は、底が１０の対数を示すために使用されるが、他の底に対するこうしたオペレーションの拡張は本開示の範囲内である。用語「周波数成分（frequency component）」は、（たとえば、高速フーリエ変換によって生成される）信号の周波数領域表示のサンプルなどの信号の周波数帯域または周波数のセットあるいはその信号のサブ帯域（たとえば、バークスケールまたはメルスケールサブ帯域）の中の１つを示すために使用される。

別途示されない限り、特定の特徴を有する装置のオペレーションのいずれの開示も、類似の特徴を有する方法を開示することを明示的に意図され（その逆もまた同じであり）、特定の構成による装置のオペレーションのいずれの開示も、類似の構成による方法を開示することを明示的に意図される（その逆もまた同じである）。用語「構成（configuration）」は、その特定の文脈によって示される方法、装置、および／またはシステムを参照して使用されてもよい。用語「方法（method）」、「プロセス（process）」、「手順（procedure）」、および「技法（technique）」は、特定の文脈によって別途示されない限り、汎用的にかつ交換可能に使用される。用語「装置（apparatus）」および「デバイス（device）」は、特定の文脈によって別途示されない限り、汎用的にかつ交換可能に使用される。用語「要素（element）」および「モジュール（module）」は、通常、より大きな構成のある部分を示すために使用される。その文脈によって明示的に制限されない限り、用語「システム（system）」は、「共通の目的に役立つために相互作用する要素のグループ（a group of elements that interact to serve a common purpose）」を含む、その通常の意味の任意の意味を示すために本明細書で使用される。文書のある部分の参照によるいずれの組込みも、その部分内で参照される用語または変数の定義（こうした定義はその文書の他の所で現れる）、ならびに、組込まれた部分内で参照される任意の図を組込むことと理解されるものとする。

近接場は、音受信機（たとえば、マイクロフォンアレイ）から１波長未満だけ離れている空間領域として定義されてもよい。この定義の下で、領域の境界までの距離は、周波数と逆に変わる。たとえば、２００、７００、および２０００ヘルツの周波数では、１波長境界までの距離は、それぞれ約１７０、４９、および１７センチメートルである。その代わりに、近接場／遠方場境界を、マイクロフォンアレイから特定の距離（たとえば、アレイのマイクロフォンからまたはアレイの中心から５０センチメートルあるいはアレイのマイクロフォンからまたはアレイの中心から１メートルまたは１．５メートル）にあるものとして考えることが有用である場合がある。

図１は、通常のハンドセットモード保持位置で使用されている２マイクロフォンアレイ（第１のマイクロフォンおよび第２のマイクロフォンを含む）を有するハンドセットの例を示す。この例では、アレイの第１のマイクロフォンは、ハンドセットの正面側に（すなわち、ユーザに向かって）あり、第２のマイクロフォンは、ハンドセットの背面側に（すなわち、ユーザから離れて）あるが、アレイは、ハンドセットの同じ側にマイクロフォンを有するように構成されてもよい。

ハンドセットがこの保持位置にある状態で、マイクロフォンアレイからの信号は、デュアルマイクロフォン雑音低減をサポートするために使用されてもよい。たとえば、ハンドセットは、マイクロフォンアレイを介して受信されるステレオ信号（すなわち、各チャネルが、２つのマイクロフォンの対応するマイクロフォンによって生成される信号に基づくステレオ信号）に関して空間選択的処理（spatially selective processing）（ＳＳＰ）オペレーションを実施するように構成されてもよい。ＳＳＰオペレーションの例は、チャネル間の位相および／またはレベル（たとえば、振幅、利得、エネルギー）の差に基づいて、受信されるマルチチャネル信号の１つまたは複数の周波数成分の到来方向（direction of arrival）（ＤＯＡ）を示すオペレーションを含む。ＳＳＰオペレーションは、前方エンドファイア方向からアレイに到来する音による信号成分（たとえば、ユーザの口の方向から到来する所望の音声信号）と、ブロードサイド方向からアレイに到来する音による信号成分（たとえば、周囲環境からの雑音）とを区別するように構成されてもよい。

デュアルマイクロフォン配置構成は、指向性雑音の影響を受けやすい場合がある。たとえば、デュアルマイクロフォン配置構成は、大きな空間領域内に位置する信号源から到来する音を許容する可能性があり、それにより、位相ベース指向性コヒーレンスおよび利得差用の厳しい閾値に基づいて近接場信号源と遠方場信号源を識別することが難しい可能性がある。

デュアルマイクロフォン雑音低減技法は、通常、マイクロフォンアレイの軸から遠い方向から所望の音信号が到来するときに効果的でない。ハンドセットが口から離して（たとえば、図２に示す角度のある保持位置のいずれかに）保持されるとき、マイクロフォンアレイの軸は、口に対してブロードサイドであり、効果的なデュアルマイクロフォン雑音低減が可能でない可能性がある。ハンドセットがこうした位置に保持される時間間隔中のデュアルマイクロフォン雑音低減の使用は、所望の音声信号の減衰をもたらす可能性がある。ハンドセットモードについて、デュアルマイクロフォンベーススキームは、通常、広い範囲の電話保持位置の少なくとも一部の位置において所望のスピーチレベルを減衰することなく、広い範囲の電話保持位置にわたって整合性のある雑音低減を提供できない。

アレイのエンドファイア方向が、ユーザの口から離れた方を指す保持位置の場合、スピーチ減衰を回避するために、シングルマイクロフォン雑音低減スキームに切換えることが望ましい場合がある。こうしたオペレーションは、（たとえば、時間平均された雑音信号を周波数領域においてチャネルから減算することによって）定常雑音を低減することができ、かつ／または、これらのブロードサイド時間間隔中にスピーチを保存することができる。しかし、シングルマイクロフォン雑音低減スキームは、通常、非定常雑音（たとえば、インパルスならびに他の突然のおよび／または一過性の雑音事象）の低減をもたらさない。

ハンドセットモードで遭遇する可能性がある広い範囲の角度のある保持位置の場合、デュアルマイクロフォン手法は、通常、整合性のある雑音低減と所望のスピーチレベル保存を同時に提供しないと結論付けられ得る。

提案される解決策は、３つ以上のマイクロフォンのセットを、セットの中からアレイ（たとえば、選択されたマイクロフォン対）を選択する切換え方策と共に、使用する。換言すれば、切換え方策は、セットのマイクロフォンの全てより少数のマイクロフォンのアレイを選択する。この選択は、マイクロフォンのセットによって生成されるマルチチャネル信号の少なくとも１つの周波数成分の到来方向に関連する情報に基づく。

エンドファイア配置構成では、マイクロフォンアレイは、アレイの軸が信号源に向くように信号源（たとえば、ユーザの口）に対して方向付けされる。こうした配置構成は、所望のスピーチ−雑音信号の最大限に差別化された２つの混合物を提供する。ブロードサイド配置構成では、マイクロフォンアレイは、アレイの中心から信号源への方向がアレイの軸にほぼ垂直(orthogonal)であるように信号源（たとえば、ユーザの口）に対して方向付けされる。こうした配置構成は、基本的に非常に似ている所望のスピーチ−雑音信号の２つの混合物を生成する。その結果、エンドファイア配置構成は、通常、雑音低減オペレーションをサポートするために、（たとえば、可搬型デバイス上の）小型マイクロフォンアレイが使用されている場合について好ましい。

図３、４、および５は、その前面に３つのマイクロフォンの列およびその背面に別のマイクロフォンを有するハンドセット用の異なる使用の場合（ここでは、異なる保持位置）の例を示す。図３では、ハンドセットは、ユーザの口が、前面の中央マイクロフォン（第１のマイクロフォンとして）および背面のマイクロフォン（第２のマイクロフォンとして）のアレイのエンドファイア方向になるように通常の保持位置に保持され、切換え方策は、この対を選択する。図４では、ハンドセットは、ユーザの口が、前面の左マイクロフォン（第１のマイクロフォンとして）および前面の中央マイクロフォン（第２のマイクロフォンとして）のアレイのエンドファイア方向になるように保持され、切換え方策は、この対を選択する。図５では、ハンドセットは、ユーザの口が、前面の右マイクロフォン（第１のマイクロフォンとして）および前面の中央マイクロフォン（第２のマイクロフォンとして）のアレイのエンドファイア方向になるように保持され、切換え方策は、この対を選択する。

こうした技法は、ハンドセットモードについて、３つ、４つ、またはそれより多い数のマイクロフォンのアレイに基づくことができる。図６は、こうした方策を実施するように構成され得る５つのマイクロフォンのセットを有するハンドセットＤ３４０の正面図、背面図、および側面図を示す。この例では、マイクロフォンのうちの３つは前面上の直線アレイで位置し、別のマイクロフォンは前面の上部角に位置し、別のマイクロフォンは、背面に位置する。図７は、こうした方策を実施するように構成され得る５つのマイクロフォンの異なる配置構成を有するハンドセットＤ３６０の正面図、背面図、および側面図を示す。この例では、マイクロフォンのうちの３つは前面に位置し、マイクロフォンのうちの２つは背面に位置する。こうしたハンドセットのマイクロフォン間の最大距離は、通常、約１０または１２センチメートルである。こうした方策を実施するように構成され得る２つ以上のマイクロフォンを有するハンドセットの他の例が本明細書で述べられる。

こうした切換え方策と共に使用するためのマイクロフォンのセットを設計するとき、予想される全ての信号源−デバイス方向付けについて、少なくとも１つの実質的にエンドファイアに方向付けされたマイクロフォン対が存在する可能性があるように、個々のマイクロフォン対の軸を方向付けすることが望ましい場合がある。結果として得られる配置構成は、意図される特定の使用の場合に応じて変わる可能性がある。

一般に、本明細書で述べる切換え方策は、（以下で述べる方法Ｍ１００の種々の実装態様の場合のように）音響信号を受信するように構成された２つ以上のマイクロフォンのアレイＲ１００をそれぞれ有する１つまたは複数の可搬型オーディオ検知デバイスを使用して実装されてもよい。こうしたアレイを含み、オーディオ記録および／または音声通信アプリケーションのためのこの切換え方策と共に使用されるように構築されてもよい可搬型オーディオ検知デバイスの例は、電話ハンドセット（たとえば、携帯電話ハンドセット）、有線または無線ハンドセット（たとえば、ブルートゥースヘッドセット）、手持ち式オーディオおよび／またはビデオレコーダ、オーディオおよび／またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末（ＰＤＡ）または他の手持ち式コンピューティングデバイス、ならびに、ノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他の可搬型コンピューティングデバイスを含む。アレイＲ１００の例を含み、この切換え方策と共に使用されるように構築されてもよいオーディオ検知デバイスの他の例は、セットトップボックスおよびオーディオおよび／またはビデオ会議デバイスを含む。

アレイＲ１００の各マイクロフォンは、全方向性、双方向性、または１方向性（たとえば、カージオイド）である応答を有してもよい。アレイＲ１００で使用されてもよい種々のタイプのマイクロフォンは、（制限なしで）圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンを含む。ハンドセットまたはヘッドセットなどの可搬型音声通信用のデバイスでは、アレイＲ１００の隣接マイクロフォン間の中心−中心間隔は、通常、約１．５ｃｍ〜約４．５ｃｍの範囲にあるが、より大きな間隔（たとえば、１０または１５ｃｍまで）も、ハンドセットまたはスマートフォンなどのデバイスで可能であり、さらに大きな間隔（たとえば、２０、２５、または３０ｃｍ以上まで）が、タブレットコンピュータなどのデバイスで可能である。補聴器では、アレイＲ１００の隣接マイクロフォン間の中心−中心間隔は、約４または５ｍｍほどの小ささであってよい。アレイＲ１００のマイクロフォンは、直線に沿って、または別法として、マイクロフォンの中心が、２次元（たとえば三角形）形状または３次元形状の頂点に存在するように配列されてもよい。しかし、一般に、アレイＲ１００のマイクロフォンは、特定のアプリケーションに適すると思われる任意の構成で配設されてもよい。たとえば図６および７はそれぞれ、正多角形に適合しないアレイＲ１００の５マイクロフォン実装態様の例を示す。

本明細書で述べるマルチマイクロフォンオーディオ検知デバイスのオペレーション中に、アレイＲ１００は、マルチチャネル信号を生成し、各チャネルは、音響環境に対するマイクロフォンのうちの対応する１つのマイクロフォンの応答に基づく。１つのマイクロフォンは、別のマイクロフォンに比べてより直接的に特定の音を受ける可能性があり、それにより、対応するチャネルは互いに異なり、単一マイクロフォンを使用して取得されうるものよりも、音響環境のより完全な表現を集合的に提供する。

マルチチャネル信号Ｓ１０を生成するために、アレイＲ１００が、マイクロフォンによって生成される信号に関して１つまたは複数の処理オペレーションを実施することが望ましい場合がある。図８Ａは、１つまたは複数のこうしたオペレーションを実施するように構成されたオーディオ前処理ステージＡＰ１０を含むアレイＲ１００の実装態様Ｒ２００のブロック図を示しており、１つまたは複数のこうしたオペレーションは、（制限なしで）インピーダンス整合、アナログ−デジタル変換、利得制御、および／または、アナログおよび／デジタル領域におけるフィルタリングを含んでもよい。

図８Ｂは、アレイＲ２００の実装態様Ｒ２１０のブロック図を示す。アレイＲ２１０は、アナログ前処理ステージＰ１０ａおよびＰ１０ｂを含むオーディオ前処理ステージＡＰ１０の実装態様ＡＰ２０を含む。一例では、ステージＰ１０ａおよびＰ１０ｂはそれぞれ、対応するマイクロフォン信号に関して（５０、１００、または２００Ｈｚのカットオフ周波数を有する）ハイパスフィルタリングオペレーションを実施するように構成される。

アレイＲ１００が、デジタル信号として、すなわちサンプルのシーケンスとしてマルチチャネル信号を生成することが望ましい場合がある。アレイＲ２１０は、たとえば、対応するアナログチャネルをサンプリングするようにそれぞれが配列されるアナログ−デジタル変換器（ＡＤＣ）Ｃ１０ａおよびＣ１０ｂを含む。音響アプリケーション用の典型的なサンプリングレートは、８ｋＨｚ、１２ｋＨｚ、１６ｋＨｚ、および約８〜約１６ｋＨｚの範囲の他の周波数を含むが、約４４ｋＨｚ程度の高いサンプリングレートが使用されてもよい。この特定の例では、アレイＲ２１０はまた、対応するデジタル化されたチャネルに関して１つまたは複数の前処理オペレーション（たとえば、エコー除去、雑音低減、および／または、スペクトル整形）を実施するようにそれぞれが構成されたデジタル前処理ステージＰ２０ａおよびＰ２０ｂを含む。

アレイＲ１００のマイクロフォンは、音以外の放射または放出に高感度な変換器としてより一般的に実装されてもよいことが明示的に留意される。１つのこうした例では、アレイＲ１００のマイクロフォンは、超音波変換器（たとえば、１５、２０、２５、３０、４０、または５０キロヘルツ以上より大きな音響周波数に高感度な変換器）として実装される。

図９Ａ〜９Ｄは、マルチマイクロフォン可搬型オーディオ検知デバイスＤ１００の種々の図を示す。デバイスＤ１００は、アレイＲ１００の２マイクロフォン実装態様を保持するハウジングＺ１０およびハウジングから延在するイヤフォンＺ２０を含む無線ヘッドセットである。こうしたデバイスは、（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ，Ｉｎｃ．（ワシントン州ベルビュー（Ｂｅｌｌｅｖｕｅ，ＷＡ）所在）によって公表されたあるバージョンのブルートゥース（商標）プロトコルを使用して）携帯電話ハンドセットなどの電話デバイスとの通信を介して半２重または全２重電話通信をサポートするように構成されてもよい。一般に、ヘッドセットのハウジングは、図９Ａ、９Ｂ、および９Ｄに示すように、長方形かまたはその他の方法で細長くても（たとえば、ミニブーム(mini-boom)に似た形状でも）よく、あるいは、より丸いかまたはさらに円形であってよい。ハウジングはまた、電池およびプロセッサおよび／または他の処理回路（たとえば、プリント回路板およびその上に搭載されたコンポーネント）を含んでもよく、また、電気ポート（たとえば、ミニユニバーサルシリアルバス（ＵＳＢ）または電池充電用の他のポート）および１つまたは複数のボタンスイッチおよび／またはＬＥＤなどのユーザインタフェース特徴を含んでもよい。通常、その主要な軸に沿うハウジングの長さは、１〜３インチの範囲である。

通常、アレイＲ１００の各マイクロフォンは、音響ポートの役をする、ハウジング内の１つまたは複数の小さな穴の背後のデバイス内に搭載される。図９Ｂ〜９Ｄは、デバイスＤ１００のアレイの第１のマイクロフォン用の音響ポートＺ４０およびデバイスＤ１００のアレイの第２のマイクロフォン用の音響ポートＺ５０のロケーションを示す。

ヘッドセットはまた、通常はヘッドセットから着脱可能である耳フックＺ３０などの取付けデバイスを含んでもよい。外部耳フックは、たとえばユーザがどちらの耳でも使用するためにヘッドセットを構成することを可能にするために、反転可能であってよい。あるいは、ヘッドセットのイヤフォンは、内部取付けデバイス（たとえば、耳プラグ）として設計されてもよく、内部取付けデバイスは、特定のユーザの外耳道の外側部分によりよく合わせるために、異なるユーザが異なるサイズ（たとえば直径）のイヤピースを使用することを可能にする取外し可能なイヤピースを含んでもよい。

図１０Ａ〜１０Ｄは、無線ヘッドセットの別の例であるマルチマイクロフォン可搬型オーディオ検知デバイスＤ２００の種々の図を示す。デバイスＤ２００は、丸い楕円形のハウジングＺ１２およびイヤプラグとして構成されてもよいイヤフォンＺ２２を含む。図１０Ａ〜１０Ｄはまた、デバイスＤ２００のアレイの第１のマイクロフォン用の音響ポートＺ４２および第２のマイクロフォン用の音響ポートＺ５２のロケーションを示す。第２のマイクロフォンポートＺ５２は、（たとえば、ユーザインタフェースボタンによって）少なくとも部分的に閉塞されてもよいことが可能である。

図１１Ａは、通信ハンドセットであるマルチマイクロフォン可搬型オーディオ検知デバイスＤ３００の（中心軸に沿う）断面図を示す。デバイスＤ３００は、第１のマイクロフォンＭＣ１０および第２のマイクロフォンＭＣ２０を有するアレイＲ１００の実装態様を含む。この例では、デバイスＤ３００はまた、第１のラウドスピーカＳＰ１０および第２のラウドスピーカＳＰ２０を含む。こうしたデバイスは、１つまたは複数の符号化および復号化スキーム（「コーデックス（codecs）」とも呼ばれる）によって、無線で音声通信データを送受信するように構成されてもよい。こうしたコーデックスの例は、「ＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ，ＳｐｅｅｃｈＳｅｒｖｉｃｅＯｐｔｉｏｎｓ３，６８，ａｎｄ７０ｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＤｉｇｉｔａｌＳｙｓｔｅｍｓ」（Ｆｅｂｒｕａｒｙ２００７）という名称の第３世代パートナーシッププロジェクト２（３ＧＰＰ２）文書Ｃ．Ｓ００１４−Ｃ，ｖ１．０に記載される強化可変レートコーデック（Enhanced Variable Rate Codec）（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇにてオンラインで入手可能）、「ＳｅｌｅｃｔａｂｌｅＭｏｄｅＶｏｃｏｄｅｒ（ＳＭＶ）ＳｅｒｖｉｃｅＯｐｔｉｏｎｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍｓ」（Ｊａｎｕａｒｙ２００４）という名称の３ＧＰＰ２文書Ｃ．Ｓ００３０−０，ｖ３．０に記載される選択可能モードボコーダスピーチコーデック（Selectable Mode Vocoder speech codec）（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇにてオンラインで入手可能）、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（欧州電気通信標準化機構（ＥＴＳＩ），ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ，ＦＲ，Ｄｅｃｅｍｂｅｒ２００４）に記載される適応マルチレート（Adaptive Multi Rate）（ＡＭＲ）スピーチコーデック、および文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ，Ｄｅｃｅｍｂｅｒ２００４）に記載されるＡＭＲ広帯域スピーチコーデック（Wideband speech codec）を含む。図３Ａの例では、ハンドセットＤ３００は、クラムシェルタイプの携帯電話ハンドセット（「フリップ（flip）」ハンドセットとも呼ばれる）である。こうしたマルチマイクロフォン通信ハンドセットの他の構成は、バータイプおよびスライダタイプ電話ハンドセットを含む。図１１Ｂは、第３のマイクロフォンＭＣ３０を含むアレイＲ１００の３マイクロフォン実装態様を含むデバイスＤ３００の実装態様Ｄ３１０の断面図を示す。

図１２Ａは、メディアプレーヤであるマルチマイクロフォン可搬型オーディオ検知デバイスＤ４００の線図を示す。こうしたデバイスは、標準的な圧縮形式（たとえば、ムービングピクチャエキスパートグループ（ＭＰＥＧ）−１オーディオレイヤ３（ＭＰ３）、ＭＰＥＧ−４パート１４（ＭＰ４）、ウィンドウズ（登録商標）メディアオーディオ／ビデオ（ＷＭＡ／ＷＭＶ）（ＭｉｃｒｏｓｏｆｔＣｏｒｐ．、ワシントン州レドモンド（Redmond, WA）所在）、アドバンストオーディオコーディング（ＡＡＣ）、国際電気通信連合（ＩＴＵ）−ＴＨ．２６４、または同様なもの）に従って符号化されたファイルまたはストリームなどの、圧縮されたオーディオまたはオーディオビジュアル情報の再生のために構成されてもよい。デバイスＤ４００は、ディスプレイスクリーンＳＣ１０およびデバイスの前面に配設されたラウドスピーカＳＰ１０を含み、アレイＲ１００のマイクロフォンＭＣ１０およびＭＣ２０は、デバイスの同じ面に（たとえば、この例の場合と同様に上部面の対向する側に、または、前面の対向する側に）配設される。図１２Ｂは、マイクロフォンＭＣ１０およびＭＣ２０がデバイスの対向する面に配設されるデバイスＤ４００の別の実装態様Ｄ４１０を示し、図１２Ｃは、マイクロフォンＭＣ１０およびＭＣ２０がデバイスの隣接面に配設されるデバイスＤ４００のさらなる実装態様Ｄ４２０を示す。メディアプレーヤはまた、意図される使用中に、長い軸が水平であるように設計されてもよい。

アレイＲ１００の４マイクロフォンの場合の例では、マイクロフォンは、ほぼ４面体構成で配列され、それにより、１つのマイクロフォンは、その頂点が、約３センチメートル離間する他の３つのマイクロフォンの位置によって画定される三角形の後に（たとえば、約１センチメートル後に）配置される。こうしたアレイについての考えられるアプリケーションは、話し手の口とアレイとの間の予想距離が約２０〜３０センチメートルであるスピーカフォンモードで動作するハンドセットを含む。図１３Ａは、４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０がほぼ４面体構成で配列されるアレイＲ１００の実装態様を含むハンドセットＤ３２０の正面図を示す。図１３Ｂは、ハンドセット内のマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０の位置を示すハンドセットＤ３２０の側面図を示す。

ハンドセットアプリケーションのためのアレイＲ１００の４マイクロフォンの場合の別の例は、ハンドセットの前面に（たとえば、キーパッドの１、７、および９の位置の近くに）３つのマイクロフォンを、また、背面（たとえば、キーパッドの７または９の位置の背後に）１つのマイクロフォンを含む。図１３Ｃは、４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０が「星形（star）」構成で配列されるアレイＲ１００の実装態様を含むハンドセットＤ３３０の正面図を示す。図１３Ｄは、ハンドセット内のマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０の位置を示すハンドセットＤ３３０の側面図を示す。本明細書で述べる切換え方策を実施するために使用されてもよい可搬型オーディオ検知デバイスの他の例は、ハンドセットＤ３２０およびＤ３３０のタッチスクリーン実装態様（たとえば、ｉＰｈｏｎｅ（ＡｐｐｌｅＩｎｃ．，カルフォルニア州クパチーノ（Cupartino, CA）所在）、ＨＤ２（ＨＴＣ，台湾，ＲＯＣ所在）、またはＣＬＩＱ（ＭｏｔｏｒｏｌａＩｎｃ．，イリノイ州シャウムバーグ（Schaumberg, IL）所在）などのフラットで非折り曲げスラブ(slabs)）を含み、マイクロフォンは、タッチスクリーンの周縁に同様な方式で配列される。

図１４は、手持ち用途のための可搬型マルチマイクロフォンオーディオ検知デバイスＤ８００の線図を示す。デバイスＤ８００は、タッチスクリーンディスプレイＴＳ１０、ユーザインタフェース選択コントロールＵＩ１０（左側）、ユーザインタフェースナビゲーションコントロールＵＩ２０（右側）、２つのラウドスピーカＳＰ１０およびＳＰ２０、ならびに、３つの前面マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０および背面マイクロフォンＭＣ４０を含むアレイＲ１００の実装態様を含む。ユーザインタフェースコントロールはそれぞれ、プッシュボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティック、および／または他のポインティングデバイスなどの１つまたは複数を使用して実装されてもよい。ブラウズトークモードまたはゲームプレイモードで使用されてもよいデバイスＤ８００の典型的なサイズは、約１５センチメートル×２０センチメートルである。可搬型マルチマイクロフォンオーディオ検知デバイスは、タブレットコンピュータとして同様に実装されてもよく、タブレットコンピュータは、上部表面にタッチスクリーンディスプレイ（たとえば、ｉＰａｄ（ＡｐｐｌｅＩｎｃ．）、Ｓｌａｔｅ（Ｈｅｗｌｅｔｔ−ＰａｃｋａｒｄＣｏ．，カルフォルニア州パロアルト（Palo Alto, CA）所在）、またはＳｔｒｅａｋ（ＤｅｌｌＩｎｃ．，テキサス州ラウンドロック（Round Rock, TX）所在）などの「スレート（slate）」）を含み、アレイＲ１００のマイクロフォンは、タブレットコンピュータの上部表面の縁部内に、かつ／または、１つまたは複数の側部表面に配設される。

図１５Ａは、ハンズフリーカーキットであるマルチマイクロフォン可搬型オーディオ検知デバイスＤ５００の線図を示す。こうしたデバイスは、車両のダッシュボード、フロントガラス、バックミラー、サンバイザ、または別の内側表面に設置されるか、その上に設置されるか、またはそこに取外し可能に固定されるように構成されてもよい。デバイスＤ５００は、ラウドスピーカ８５およびアレイＲ１００の実装態様を含む。この特定の例では、デバイスＤ５００は、直線アレイに配列された４つのマイクロフォンとしてアレイＲ１００の実装態様Ｒ１０２を含む。こうしたデバイスは、先に挙げた例などの１つまたは複数のコーデックスによって、無線で音声通信データを送受信するように構成されてもよい。別法としてまたは付加的に、こうしたデバイスは、（上述した、あるバージョンのブルートゥース（商標）プロトコルを使用して）携帯電話ハンドセットなどの電話デバイスとの通信を介して半２重または全２重電話通信をサポートするように構成されてもよい。

図１５Ｂは、書込みデバイス（たとえば、ペンまたはペンシル）であるマルチマイクロフォン可搬型オーディオ検知デバイスＤ６００の線図を示す。デバイスＤ６００は、アレイＲ１００の実装態様を含む。こうしたデバイスは、先に挙げた例などの１つまたは複数のコーデックスによって、無線で音声通信データを送受信するように構成されてもよい。別法としてまたは付加的に、こうしたデバイスは、（上述した、あるバージョンのブルートゥース（商標）プロトコルを使用して）携帯電話ハンドセットおよび／または無線ヘッドセットなどのデバイスとの通信を介して半２重または全２重電話通信をサポートするように構成されてもよい。デバイスＤ６００は、アレイＲ１００によって生成される信号におけるスクラッチ雑音８２のレベルを低減する空間選択的な処理オペレーションを実施するように構成された１つまたは複数のプロセッサを含んでもよく、スクラッチ雑音は、描画表面８１（たとえば、一枚の紙）にわたるデバイスＤ６００の先端の移動から生じる可能性がある。

可搬型コンピューティングデバイスの種類は、現在のところ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、移動体インターネットデバイス、スマートブック、またはスマートフォンなどの名前を持つデバイスを含む。１つのタイプのこうしたデバイスは、上述したようにスレートまたはスラブ構成を有し、また、スライドアウト式キーボードを含んでもよい。図１６Ａ〜１６Ｄは、ディスプレイスクリーンを含む上部パネルおよびキーボードを含んでもよい底部パネルを有する別のタイプのこうしたデバイスを示し、２つのパネルは、クラムシェルまたは他のヒンジ式関係で接続されてもよい。

図１６Ａは、ディスプレイスクリーンＳＣ１０の上の上部パネルＰＬ１０上に直線アレイで配列された４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を含むこうしたデバイスＤ７００の例の正面図を示す。図１６Ｂは、別の角度で４つのマイクロフォンの位置を示す上部パネルＰＬ１０の平面図を示す。図１６Ｃは、ディスプレイスクリーンＳＣ１０の上の上部パネルＰＬ１２上に非直線アレイで配列された４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を含むこうした可搬型コンピューティングデバイスＤ７１０の別の例の正面図を示す。図１６Ｄは、別の角度で４つのマイクロフォンの位置を示す上部パネルＰＬ１２の平面図を示し、マイクロフォンＭＣ１０、ＭＣ２０、およびＭＣ３０はパネルの前面に配設され、マイクロフォンＭＣ４０はパネルの背面に配設される。

図１７Ａ〜１７Ｃは、アレイＲ１００の例を含むように実装され、本明細書で開示される切換え方策と共に使用されることができる可搬型オーディオ検知デバイスのさらなる例を示す。これらの例のそれぞれにおいて、アレイＲ１００のマイクロフォンは白丸で示される。図１７Ａは、少なくとも１つの前に方向付けされたマイクロフォン対を有するメガネ（たとえば、度付きメガネ、サングラス、または安全メガネ）を示し、対の一方のマイクロフォンはこめかみ上に、他のマイクロフォンは、こめかみまたは対応する末端部上にある。図１７Ｂは、アレイＲ１００が１つまたは複数のマイクロフォン対（この例では、口の対およびユーザの頭部の両側の対）を含むヘルメットを示す。図１７Ｃは、少なくとも１つのマイクロフォン対（この例では、前面および側面対）を含むゴーグル（たとえば、スキーゴーグル）を示す。

本明細書で開示される切換え方策と共に使用されるための、１つまたは複数のマイクロフォンを有する可搬型オーディオ検知デバイスのためのさらなる配置例は、キャップまたはハットのバイザまたはつば、ラペル、胸ポケット、肩、上腕（すなわち、肩と肘との間）、前腕（すなわち、肘と手首との間）、袖口、または腕時計を含むが、それに限定されない。方策において使用される１つまたは複数のマイクロフォンは、カメラまたはカムコーダなどの手持ち式デバイス上に存在してもよい。

本明細書で開示される切換え方策の適用は、可搬型オーディオ検知デバイスに限定されない。図１８は、複数信号源環境（たとえば、オーディオまたはビデオ会議アプリケーション）におけるアレイＲ１００の３マイクロフォン実装態様の例を示す。この例では、マイクロフォン対ＭＣ１０−ＭＣ２０は、話者ＳＡおよびＳＣに関してエンドファイア配置構成にあり、マイクロフォン対ＭＣ２０−ＭＣ３０は、話者ＳＢおよびＳＤに関してエンドファイア配置構成にある。その結果、話者ＳＡおよびＳＣがアクティブであるとき、マイクロフォン対ＭＣ１０−ＭＣ２０によって取得された信号を使用して雑音低減を実施することが望ましい可能性があり、話者ＳＢおよびＳＤがアクティブであるとき、マイクロフォン対ＭＣ２０−ＭＣ３０によって取得された信号を使用して雑音低減を実施することが望ましい可能性がある。異なる話者配置について、マイクロフォン対ＭＣ１０−ＭＣ３０によって取得された信号を使用して雑音低減を実施することが望ましい可能性があることが留意される。

図１９は、アレイＲ１００がさらなるマイクロフォンＭＣ４０を含む関連する例を示す。図２０は、異なる相対的なアクティブ話者ロケーションについて、切換え方策が、アレイの異なるマイクロフォン対をどのように選択するかを示す。

図２１Ａ〜２１Ｄは、会議デバイスのいくつかの例の平面図を示す。図２０Ａは、アレイＲ１００の３マイクロフォン実装態様（マイクロフォンＭＣ１０、ＭＣ２０、およびＭＣ３０）を含む。図２０Ｂは、アレイＲ１００の４マイクロフォン実装態様（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０）を含む。図２０Ｃは、アレイＲ１００の５マイクロフォン実装態様（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０、およびＭＣ５０）を含む。図２０Ｄは、アレイＲ１００の６マイクロフォン実装態様（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０、ＭＣ５０、およびＭＣ６０）を含む。正多角形の対応する頂点にアレイＲ１００のマイクロフォンのそれぞれを配置することが望ましい可能性がある。遠方端オーディオ信号の再生用のラウドスピーカＳＰ１０は、（たとえば、図２０Ａに示すように）デバイス内に含まれてもよい、かつ／または、こうしたラウドスピーカは、（たとえば、音響フィードバックを低減するために）デバイスから離れて位置してもよい。さらなる遠方場使用の場合の例は、（たとえば、ボイスオーバＩＰ（Voice over IP）（ＶｏＩＰ）アプリケーションをサポートするための）ＴＶセットトップボックスおよびゲームコンソール（たとえば、ＭｉｃｒｏｓｏｆｔＸｂｏｘ、ＳｏｎｙＰｌａｙｓｔａｔｉｏｎ、ＮｉｎｔｅｎｄｏＷｉｉ）を含む。

本明細書で開示されるシステム、方法、および装置の適用可能性は、図６〜２１Ｄに示す特定の例を含み、また、それに限定されないことが明示的に開示される。切換え方策の実装態様で使用されるマイクロフォン対は、さらに、対がある期間にわたって互いに対して可動であるように、異なるデバイス（すなわち、分散セット）上に位置してもよい。こうした実装態様で使用されるマイクロフォンは、可搬型メディアプレーヤ（たとえば、ＡｐｐｌｅｉＰｏｄ）と電話、ヘッドセットと電話、ラペルマウントと電話、可搬型コンピューティングデバイス（たとえば、タブレット）および電話またはヘッドセット、ユーザの身体にそれぞれが装着される２つの異なるデバイス、ユーザの身体に装着されるデバイスとユーザの手に保持されるデバイス、ユーザによって装着されるかまたは保持されるデバイスとユーザによって装着されないかまたは保持されないデバイスなどの両方の上に位置してもよい。異なるマイクロフォン対からのチャネルは、異なる周波数範囲および／または異なるサンプリングレートを有してもよい。

切換え方策は、所与の信号源−デバイス方向付け（たとえば、所与の電話保持位置）について最良のエンドファイアマイクロフォン対を選択するように構成されてもよい。たとえば全ての保持位置について、切換え方策は、複数のマイクロフォン（たとえば、４つのマイクロフォン）の選択から、ユーザの口に向かってエンドファイア方向にほぼ方向付けられるマイクロフォン対を特定するように構成されてもよい。この特定は、マイクロフォン信号間の位相および／または利得差に基づいてもよい近接場ＤＯＡ推定に基づいてもよい。特定されたマイクロフォン対からの信号は、マイクロフォン信号間の位相および／または利得差に基づいてもよい、デュアルマイクロフォン雑音低減などの１つまたは複数のマルチチャネル空間選択的処理オペレーションをサポートするために使用されてもよい。

図２２Ａは、一般的な構成による方法Ｍ１００（たとえば、切換え方策）用のフローチャートを示す。方法Ｍ１００は、たとえば３つ以上のマイクロフォンのセットのマイクロフォンの異なる対の間で切換えるための決定機構として実装されてもよく、その場合、マイクロフォンのセットの各マイクロフォンは、マルチチャネル信号の対応するチャネルを生成する。方法Ｍ１００は、マルチチャネル信号の所望の音成分（たとえば、ユーザの音声の音）の到来方向（ＤＯＡ）に関連する情報を計算するタスクＴ１００を含む。方法Ｍ１００はまた、計算されたＤＯＡ情報に基づいて、マルチチャネル信号のチャネルの適切なサブセット（すなわち、全てより少数のチャネル）を選択するタスクＴ２００を含む。たとえば、タスクＴ２００は、そのエンドファイア方向が、タスクＴ１００によって示されるＤＯＡに対応するマイクロフォン対のチャネルを選択するように構成されてもよい。タスクＴ２００はまた、（たとえば、オーディオおよび／またはビデオ会議アプリケーションなどの複数信号源アプリケーションについて）一度に２つ以上のサブセットを選択するように実装されてもよいことが明示的に留意される。

図２２Ｂは、一般的な構成による装置ＭＦ１００のブロック図を示す。装置ＭＦ１００は、（たとえば、本明細書で述べるタスクＴ１００の実装態様を実施することによって）マルチチャネル信号の所望の音成分の到来方向（ＤＯＡ）に関連する情報を計算するための手段Ｆ１００および（たとえば、本明細書で述べるタスクＴ２００の実装態様を実施することによって）計算されたＤＯＡ情報に基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するための手段Ｆ２００を含む。

図２２Ｃは、一般的な構成による装置Ａ１００のブロック図を示す。装置Ａ１００は、（たとえば、本明細書で述べるタスクＴ１００の実装態様を実施することによって）マルチチャネル信号の所望の音成分の到来方向（ＤＯＡ）に関連する情報を計算するように構成される方向情報計算器１００および（たとえば、本明細書で述べるタスクＴ２００の実装態様を実施することによって）計算されたＤＯＡ情報に基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するように構成されるサブセット選択器２００を含む。

タスクＴ１００は、対応するチャネル対の各時間−周波数点についてマイクロフォン対に関する到来方向を計算するように構成されてもよい。指向性マスキング関数は、所望の範囲（たとえば、エンドファイアセクタ）内の到来方向を有する点と、他の到来方向を有する点とを区別するために、これらの結果に適用されてもよい。マスキングオペレーションからの結果はまた、マスクの外側の到来方向を有する時間−周波数点を廃棄するかまたは減衰させることによって、望ましくない方向からの信号を除去するために使用されてもよい。

タスクＴ１００は、マルチチャネル信号を一連のセグメントとして処理するように構成されてもよい。典型的なセグメント長は、約５または１０ミリ秒〜約４０または５０ミリ秒の範囲にあり、セグメントは、オーバラップしてもよく（たとえば、隣接セグメントが、２５％または５０％だけオーバラップする）、または、オーバラップしなくてもよい。１つの特定の例では、マルチチャネル信号は、それぞれが１０ミリ秒の長さを有する一連の非オーバラップセグメントまたは「フレーム（frame）」に分割される。タスクＴ１００によって処理されるセグメントはまた、異なるオペレーションによって処理されるより大きなセグメントのセグメント（すなわち、「サブフレーム（subframe）」）であってよく、またはその逆であってもよい。

タスクＴ１００は、マイクロフォンのアレイ（たとえば、マイクロフォン対）からのマルチチャネル記録を使用していくつかの空間セクタ内の指向性コヒーレンスに基づいて近接場信号源のＤＯＡを示すように構成されてもよい。図２３Ａは、サブタスクＴ１１０およびＴ１２０を含んでいるタスクＴ１００の実装態様Ｔ１０２のフローチャートを示す。タスクＴ１１０によって計算される複数の位相差に基づいて、タスクＴ１２０は、複数の空間セクタの１つまたは複数のそれぞれにおけるマルチチャネル信号の指向性コヒーレンスの程度を評価する。

タスクＴ１１０は、高速フーリエ変換（ＦＦＴ）または離散コサイン変換（ＤＣＴ）などの、各チャネルの周波数変換を計算することを含んでもよい。タスクＴ１１０は、通常、各セグメントについてチャネルの周波数変換を計算するように構成される。たとえば各セグメントの１２８点または２５６点ＦＦＴを実施するようにタスクＴ１１０を構成することが望ましい場合がある。タスクＴ１１０の代替の実装態様は、一連のサブ帯域フィルタを使用して、チャネルの種々の周波数成分を分離するように構成される。

タスクＴ１１０はまた、異なる周波数成分（「ビン（bins）」とも呼ばれる）のそれぞれについて、マイクロフォンチャネルの位相を計算すること（たとえば、推定すること）を含んでもよい。たとえば、検査される各周波数成分について、タスクＴ１１０は、対応するＦＦＴ係数の虚数項とＦＦＴ係数の実数項との比の逆タンジェント（アークタンジェントとも呼ばれる）として位相を推定するように構成されてもよい。

タスクＴ１１０は、各チャネルについての推定された位相に基づいて、異なる周波数成分のそれぞれについて位相差Δφを計算する。タスクＴ１１０は、１つのチャネルにおけるその周波数成分についての推定位相を、別のチャネルにおけるその周波数成分についての推定位相から減算することによって、位相差を計算するように構成されてもよい。たとえば、タスクＴ１１０は、第１のチャネルにおけるその周波数成分についての推定位相を、別の（たとえば、第２の）チャネルにおけるその周波数成分についての推定位相から減算することによって、位相差を計算するように構成されてもよい。こうした場合、第１のチャネルは、デバイスの通常の使用中に、ユーザの音声を最も直接に受けると予想されるマイクロフォンに対応するチャネルなどの、最も高い信号対雑音比を有すると予想されるチャネルであり得る。

周波数の広帯域範囲にわたって各対のチャネル間の指向性コヒーレンスを確定するように方法Ｍ１００（または、こうした方法を実施するように構成されたシステムまたは装置）を構成することが望ましい場合がある。こうした広帯域範囲は、たとえば、０、５０、１００、または２００Ｈｚの周波数下限から３、３．５、または４ｋＨｚ（または、７または８ｋＨｚ以上までなどのさらに高い値）の周波数上限まで延びてもよい。しかし、タスクＴ１１０が、信号の全帯域幅にわたって位相差を計算することは必要でない場合がある。たとえば、こうした広帯域範囲における多くの帯域について、位相推定は、実用的でないまたは不必要である場合がある。非常に低い周波数における受信波形の位相関係の実用的な評価は、通常、変換器間に相応して大きな間隔を必要とする。その結果、マイクロフォン間の利用可能な最大間隔は、周波数下限を確立する可能性がある。一方、マイクロフォン間の距離は、空間エイリアシングを回避するために、最小波長の半分を超えるべきではない。たとえば、８キロヘルツのサンプリングレートは、０〜４キロヘルツの帯域幅を与える。４ｋＨｚ信号の波長は、約８．５センチメートルであるため、この場合、隣接マイクロフォン間の間隔は、約４センチメートルを超えるべきではない。マイクロフォンチャネルは、空間エイリアシングを生じさせる可能性がある周波数を除去するためにローパスフィルタリングされてもよい。

スピーチ信号（または他の所望の信号）が、それにわたって指向性的にコヒーレントであると予想される可能性がある特定の周波数成分または特定の周波数範囲を目標にすることが望ましい場合がある。指向性雑音（たとえば、自動車などの信号源からの）および／または拡散性雑音などの背景雑音は、同じ範囲にわたって指向性的にコヒーレントでないと予想される場合がある。スピーチは、４〜８キロヘルツの範囲において低パワーを有する傾向があるため、少なくともこの範囲にわたって位相推定をなしで済ませることが望ましい場合がある。たとえば、約７００ヘルツ〜約２キロヘルツの範囲にわたって位相推定を実施し、指向性コヒーレンシを確定することが望ましい場合がある。

したがって、周波数成分の全てより少数の成分について（たとえば、ＦＦＴの周波数サンプルの全てより少数のサンプルについて）位相推定を計算するように、タスクＴ１１０を構成することが望ましい場合がある。一例では、タスクＴ１１０は、７００Ｈｚ〜２０００Ｈｚの周波数範囲について位相推定を計算する。４キロヘルツ帯域幅信号の１２８点ＦＦＴの場合、７００〜２０００Ｈｚの範囲は、１０番目のサンプルから３２番目のサンプルまでの２３の周波数サンプルにほぼ対応する。

タスクＴ１１０によって計算される位相差からの情報に基づいて、タスクＴ１２０は、少なくとも１つの空間セクタ（空間セクタは、マイクロフォン対の軸に対する）におけるチャネル対の指向性コヒーレンスを評価する。マルチチャネル信号の「指向性コヒーレンス（directional coherence）」は、信号の種々の周波数成分が同じ方向から到来する程度として定義される。理想的に指向性的にコヒーレントなチャネル対の場合、

の値は、全ての周波数について定数ｋに等しく、ｋの値は、到来方向θおよび到来時間遅延τに関連する。マルチチャネル信号の指向性コヒーレンスは、たとえば、推定される到来方向が特定の方向にどれほどよく一致するかに従って、各周波数成分について推定される到来方向を格付けし、次に、種々の周波数成分についての格付け結果を結合して、その信号についてのコヒーレンス量(coherency measure)を得ることによって、定量化されてもよい。指向性コヒーレンスの量の計算および適用はまた、たとえば国際特許公開ＷＯ２０１０／０４８６２０Ａ１およびＷＯ２０１０／１４４５７７Ａ１（Ｖｉｓｓｅｒ他）に記載されている。

複数の計算された位相差のそれぞれについて、タスクＴ１２０は、対応する到来方向の指標を計算する。タスクＴ１２０は、推定される位相差Δφ_iと周波数ｆ_iとの比ｒ_i（たとえば、

）として各周波数成分の到来方向θ_iの指標を計算するように構成されてもよい。あるいは、タスクＴ１２０は、量

の逆コサイン（アークコサインとも呼ばれる）として到来方向θ_iを推定するように構成されてもよい。式中、ｃは音速（約３４０ｍ／ｓｅｃ）を示し、ｄはマイクロフォン間の距離を示し、Δφ_iは２つのマイクロフォンについての対応する位相推定値間のラジアン単位の差を示し、ｆ_iは、位相推定値が対応する周波数成分（たとえば、対応するＦＦＴサンプルの周波数または対応するサブ帯域の中心またはエッジ周波数）である。あるいは、タスクＴ１２０は、量

の逆コサインとして到来方向θ_iを推定するように構成されてもよい。式中、λ_iは、周波数成分ｆ_iの波長を示す。

図２４Ａは、マイクロフォン対ＭＣ１０、ＭＣ２０のうちのマイクロフォンＭＣ２０に対する到来方向θを推定するこの手法を示す幾何学的近似の例を示す。この近似は、距離ｓが距離Ｌに等しいと仮定しており、ｓは、マイクロフォンＭＣ２０の位置と、音源とマイクロフォンＭＣ２０との間のライン上へのマイクロフォンＭＣ１０の位置の直角投影との間の距離であり、Ｌは、音源に対する各マイクロフォンの距離間の実際の差である。マイクロフォンＭＣ２０に関する到来方向θが０に近づくにつれて、誤差（ｓ−Ｌ）は小さくなる。この誤差はまた、音源とマイクロフォンアレイとの間の相対距離が増加するにつれて、小さくなる。

図２４Ａに示すスキームは、Δφ_iの第１象限および第４象限（すなわち、０〜＋π／２および０〜−π／２）の値について使用されてもよい。図２４Ｂは、Δφ_iの第２象限および第３象限（すなわち、＋π／２〜−π／２）の値について同じ近似を使用する例を示す。この場合、逆コサインは、角度ζを評価するために上述したように計算されてもよく、角度ζは、その後、到来方向θ_iをもたらすために、πラジアンから減算される。現場技術者はまた、到来方向θ_iが、度(degree)またはラジアンの代わりに特定のアプリケーションに適切な任意の他の単位で表現されてもよいことを理解するであろう。

図２４Ａの例では、θ_i＝０の値は、参照エンドファイア方向（すなわち、マイクロフォンＭＣ１０の方向）からマイクロフォンＭＣ２０に到来する信号を示し、θ_i＝πの値は、他のエンドファイア方向から到来する信号を示し、θ_i＝π／２の値は、ブロードサイド方向から到来する信号を示す。別の例では、タスクＴ１２０は、異なる参照位置（たとえば、マイクロフォンＭＣ１０またはマイクロフォン間の中間の点などのある他の点）および／または異なる参照方向（たとえば、他のエンドファイア方向、ブロードサイド方向など）に関してθ_iを評価するように構成されてもよい。

別の例では、タスクＴ１２０は、マルチチャネル信号の対応する周波数成分ｆ_iの到来時間遅延τ_i（たとえば、秒単位）として到来方向の指標を計算するように構成される。たとえば、タスクＴ１２０は、

または

などの式を使用して、第１のマイクロフォンＭＣ１０に関する第２のマイクロフォンＭＣ２０での到来時間遅延τ_iを推定するように構成されてもよい。これらの例では、τ_i＝０の値は、ブロードサイド方向から到来する信号を示し、τ_iの大きな正の値は、参照エンドファイア方向から到来する信号を示し、τ_iの大きな負の値は、他のエンドファイア方向から到来する信号を示す。値τ_iを計算するときに、サンプリング周期（たとえば、８ｋＨｚのサンプリングレートの場合、１２５マイクロ秒の単位）または１秒の何分の１（たとえば、１０^-3、１０^-4、１０^-5、または１０^-6秒）などの、特定のアプリケーションに適切であるとみなされる時間単位を使用することが望ましい場合がある。タスクＴ１００はまた、時間領域において各チャネルの周波数成分ｆ_iを相互相関させることによって到来時間遅延τ_iを計算するように構成されてもよいことが留意される。

式

または

は遠方場モデル（すなわち、平坦波面を仮定するモデル）に従って方向インジケータθ_iを計算するが、式

および

は、近接場モデル（すなわち、図２５に示すように、球波面を仮定するモデル）に従って方向インジケータτ_iおよびｒ_iを計算することが留意される。近接場モデルに基づく方向インジケータは、計算するのがより正確でかつ／またはより容易である結果を提供する可能性があるが、遠方場モデルに基づく方向インジケータは、方法Ｍ１００の一部のアプリケーションについて望ましい可能性がある方向インジケータ値と位相差との間の非線形マッピングを提供する。

スピーチ信号の１つまたは複数の特性に従って方法Ｍ１００を構成することが望ましい場合がある。１つのこうした例では、タスクＴ１１０は、ユーザの音声のエネルギーのほとんどを含むと予想される可能性がある７００Ｈｚ〜２０００Ｈｚの周波数範囲について位相差を計算するように構成される。４キロヘルツ帯域幅信号の１２８点ＦＦＴの場合、７００Ｈｚ〜２０００Ｈｚの範囲は、１０番目のサンプルから３２番目のサンプルまでの２３の周波数サンプルにほぼ対応する。さらなる例では、タスクＴ１１０は、約５０、１００、２００、３００、または５００Ｈｚの下限から約７００、１０００、１２００、１５００、または２０００Ｈｚの上限まで延びる周波数範囲にわたって位相差を計算するように構成される（これらの下限と上限の２５の組合せのそれぞれは、明示的に想定され開示される）。

発話スピーチ（たとえば、母音）のエネルギースペクトルは、ピッチ周波数の調波(harmonics)にて局所ピークを有する傾向がある。図２６は、こうした信号の２５６点ＦＦＴの最初の１２８のビンのマグニチュードを示し、アスタリスクはピークを示す。一方、背景雑音のエネルギースペクトルは、比較的構造不定である傾向がある。その結果、ピッチ周波数の調波における入力チャネルの成分は、他の成分と比較してより高い信号対雑音比（ＳＮＲ）を有することが予想される場合がある。推定されるピッチ周波数の倍数に対応する位相差だけを考慮するように方法Ｍ１１０を構成することが（たとえば、タスクＴ１２０を構成することが）望ましい場合がある。

典型的なピッチ周波数は、男性の話し手に対しての約７０〜１００Ｈｚから女性の話し手に対しての約１５０〜２００Ｈｚの範囲である。目下のピッチ周波数は、（たとえば、第１のマイクロフォンチャネルにおいて）隣接するピッチピーク間の距離としてピッチ周期を計算することによって推定されてもよい。入力チャネルのサンプルは、（たとえば、サンプルエネルギーとフレーム平均エネルギーとの比に基づく）そのエネルギーの測定値および／またはサンプルの近傍が、既知のピッチピークの同様の近傍とどれほどうまく相関するかについての測定値に基づくピッチピークとして特定されてもよい。ピッチ推定手順は、たとえば、ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇにてオンラインで入手可能な、ＥＶＲＣ（強化可変レートコーデック）文書Ｃ．Ｓ００１４−Ｃの章４．６．３（ｐｐ．４−４４から４−４９）に記載されている。ピッチ周波数の目下の推定値（たとえば、「ピッチ遅れ（pitch lag）」あるいはピッチ周期の推定値の形態）は、通常、スピーチ符号化および／または復号化を含むアプリケーション（たとえば、符号励振線形予測（code-excited linear prediction）（ＣＥＬＰ）およびプロトタイプ波形補間（ＰＷＩ）などのピッチ推定を含むコーデックを使用した音声通信）において既に入手可能であることになる。

図２７は、そのスペクトルが図２６に示される信号に対して（たとえば、タスクＴ１２０の）方法Ｍ１１０のこうした実装態様を適用する例を示す。点線は、考慮される周波数範囲を示す。この例では、範囲は、１０番目の周波数ビンから７６番目の周波数ビンまで（約３００から２５００Ｈｚまで）延びる。ピッチ周波数（この例では約１９０Ｈｚ）の倍数に対応する位相差だけを考慮することによって、考慮される位相差の数は、６７からたった１１まで減少する。さらに、これらの１１の位相差がそこから計算される周波数係数は、考慮される周波数範囲内の他の周波数係数に対して高いＳＮＲを有することになることが予想される場合がある。より一般的な場合、他の信号特性が考慮されてもよい。たとえば、計算される位相差の少なくとも２５、５０、または７５％が、推定されるピッチ周波数の倍数に対応するようにタスクＴ１１０を構成することが望ましい場合がある。同じ原理が、他の所望の調波信号に適用されてもよい。方法Ｍ１１０の関連する実装態様では、タスクＴ１１０は、チャネル対の少なくともサブ帯域の周波数成分のそれぞれについて位相差を計算するように構成され、タスクＴ１２０は、推定されるピッチ周波数の倍数に対応する位相差だけに基づいてコヒーレンスを評価するように構成される。

フォルマント追跡は、スピーチ処理アプリケーション（たとえば、音声アクティビティ検出アプリケーション）のための方法Ｍ１００の実装態様に含まれてもよい別のスピーチ特性関連手順である。フォルマント追跡は、線形予測符号化、隠れマルコフモデル（ＨＭＭ）、カルマンフィルタ、および／またはメル周波数ケプストラム係数（mel-frequency cepstral coefficient）（ＭＦＣＣ）を使用して実施されてもよい。フォルマント情報は、通常、スピーチ符号化および／または復号化を含むアプリケーション（たとえば、線形予測符号化を使用する音声通信、ＭＦＣＣおよび／またはＨＭＭを使用するスピーチ認識アプリケーション）において既に入手可能である。

タスクＴ１２０は、検査される各周波数成分について、方向インジケータの値を、振幅、マグニチュード、またはパス／フェールスケールに関する対応する値に変換するかまたはマッピングすることによって方向インジケータを格付けするように構成されてもよい。たとえば、コヒーレンスがそこで評価される各セクタについて、タスクＴ１２０は、指向性マスキング関数を使用して、示された方向が、マスキング関数の通過帯域内に入るかどうか（および／または、どれほどうまく入るか）を示すマスクスコアに、各方向インジケータの値をマッピングするように構成されてもよい。（この文脈では、用語「通過帯域（passband）」は、マスキング関数によってパスさせられる到来方向の範囲を指す。）マスキング関数の通過帯域は、指向性コヒーレンスがその中で評価される空間セクタを反映するように選択される。種々の周波数成分についてのマスクスコアのセットは、ベクトルとして考えられてもよい。

通過帯域の幅は、その中でコヒーレンスが評価されるセクタの数、セクタ間のオーバラップの所望の程度、および／またはセクタによって覆われる総合角度範囲（３６０°未満である可能性がある）などの因子によって確定されてもよい。（たとえば、所望の話者の移動について連続性を保証するために、よりスムーズな遷移をサポートするために、かつ／またはジッタを低減するために）隣接セクタ間のオーバラップを設計することが望ましい場合がある。セクタは、互いに同じ角度幅（たとえば、度(degree)またはラジアン単位）を有してもよく、あるいは、セクタの２つ以上（場合によっては全て）が、互いに異なる幅を有してもよい。

通過帯域の幅はまた、マスキング関数の空間選択性を制御するために使用されてもよく、それは、許可範囲（すなわち、関数によってパスされる到来方向または時間遅延の範囲）と雑音除去との間の所望のトレードオフに従って選択されてもよい。広い通過帯域は、より大きなユーザ移動性および使用の柔軟性を可能にする場合があるが、チャネル対における環境雑音のより多くが出力まで通過することを可能にすることも予想されるであろう。

指向性マスキング関数は、阻止帯域と通過帯域との間の１つまたは複数の遷移の急峻さが、信号対雑音比（ＳＮＲ）、ノイズフロアーなどの１つまたは複数の因子の値に従って、動作中に選択可能である、かつ／または可変であるように実装されてもよい。たとえば、ＳＮＲが低いときにより狭い通過帯域を使用することが望ましい場合がある。

図２８Ａは、通過帯域と阻止帯域との間の比較的急な遷移（「ブリックウォール（brickwall）」プロファイルとも呼ばれる）および到来方向θ＝０に中心を持つ通過帯域（すなわち、エンドファイアセクタ）を有するマスキング関数の例を示す。１つのこうした場合では、タスクＴ１２０は、方向インジケータが関数の通過帯域内の方向を示すときに、第１の値（たとえば、１）を有する２値マスクスコアを、方向インジケータが関数の通過帯域の外の方向を示すときに、第２の値（たとえば、０）を有するマスクスコアを割当てるように構成される。タスクＴ１２０は、方向インジケータを閾値と比較することによって、こうしたマスキング関数を適用するように構成されてもよい。図２８Ｂは、「ブリックウォール」プロファイルおよび到来方向θ＝π／２に中心を持つ通過帯域（すなわち、ブロードサイドセクタ）を有するマスキング関数の例を示す。タスクＴ１２０は、方向インジケータを上限閾値および下限閾値と比較することによって、こうしたマスキング関数を適用するように構成されてもよい。（たとえば、較正の精度に悪い影響を与える可能性がある所望の指向性信号の存在を示すＳＮＲが高いときに、より狭い通過帯域を使用するために）信号対雑音比（ＳＮＲ）、ノイズフロアーなどの１つまたは複数の因子に応じて、阻止帯域と通過帯域と間の遷移のロケーションを変えることが望ましい場合がある。

あるいは、通過帯域と阻止帯域との間にそれほど急峻でない遷移（たとえば、非２値マスクスコアをもたらす漸進的なロールオフ）を有するマスキング関数を使用するようにタスクＴ１２０を構成することが望ましい場合がある。図２８Ｃは、到来方向θ＝０に中心を持つ通過帯域を有するマスキング関数についての線形ロールオフの例を示し、図２８Ｄは、到来方向θ＝０に中心を持つ通過帯域を有するマスキング関数についての非線形ロールオフの例を示す。（たとえば、較正の精度に悪い影響を与える可能性がある所望の指向性信号の存在を示すＳＮＲが高いときに、より急峻なロールオフを使用するために）ＳＮＲ、ノイズフロアーなどの１つまたは複数の因子に応じて、阻止帯域と通過帯域と間の遷移のロケーションおよび／または急峻さを変えることが望ましい場合がある。もちろん、（たとえば、図２８Ａ〜２８Ｄに示す）マスキング関数はまた、方向θの代わりに、時間遅延τまたは比ｒによって表現されてもよい。たとえば、到来方向θ＝π／２は、０の時間遅延τまたは比

に対応する。

非線形マスキング関数の一例は、

として表現されてもよい。式中、θ_Tは目標の到来方向を示し、ｗはラジアン単位のマスクの所望の幅を示し、γは急峻さのパラメータを示す。図２９Ａ〜２９Ｄは、

および

にそれぞれ等しい（γ，ｗ，θ）についてのこうした関数の例を示す。もちろん、こうした関数はまた、方向θの代わりに、時間遅延τまたは比ｒによって表現されてもよい。（たとえば、ＳＮＲが高いときに、より狭いマスクを使用する、かつ／またはより急峻なロールオフを使用するために）ＳＮＲ、ノイズフロアーなどの１つまたは複数の因子に応じて、マスクの幅および／または急峻さを変えることが望ましい場合がある。

小さなマクロフォン間距離（たとえば１０ｃｍ以下）および低い周波数（たとえば、１ｋＨｚ未満）について、Δφの観測可能値が制限されてもよいことが留意される。たとえば２００Ｈｚの周波数成分の場合、対応する波長は、約１７０ｃｍである。１センチメートルのマイクロフォン間距離を有するアレイは、この成分について約２°だけの（たとえば、エンドファイアにおける）最大位相差を観測できる。こうした場合、２°より大きい観測される位相差は、２つ以上の信号源からの信号（たとえば、信号およびその残響）を示す。その結果、報告される位相差が最大値（たとえば、特定のマイクロフォン間距離および周波数が与えられた場合の最大観測可能位相差）を超えるときに検出するように、方法Ｍ１１０を構成することが望ましい場合がある。こうした条件は、単一信号源に整合性がないと解釈される可能性がある。１つのこうした例では、タスクＴ１２０は、こうした条件が検出されると、対応する周波数成分に最も低い格付け値（たとえば、０）を割当てる。

タスクＴ１２０は、格付け結果に基づいて信号についてコヒーレンス量を計算する。たとえば、タスクＴ１２０は、関心の周波数（たとえば、７００〜２０００Ｈｚの範囲の成分および／またはピッチ周波数の倍数の成分）に対応する種々のマスクスコアを結合して、コヒーレンス量を得るように構成されてもよい。たとえば、タスクＴ１２０は、マスクスコアを平均することによって（たとえば、マスクスコアの和をとることによって、または、マスクスコアのミーン（mean）を得るために和を正規化することによって）コヒーレンス量を計算するように構成されてもよい。こうした場合、タスクＴ１２０は、マスクスコアのそれぞれを均等に重み付ける（たとえば、各マスクスコアを１で重み付ける）ように、または、１つまたは複数のマスクスコアを互いに異なるように重み付ける（たとえば、範囲の中央の周波数成分に対応するマスクスコアに比べて、低周波数成分または高周波数成分に対応するマスクスコアにより少なく重み付ける）ように構成されてもよい。あるいは、タスクＴ１２０は、関心の周波数成分（たとえば、７００〜２０００Ｈｚの範囲の成分および／またはピッチ周波数の倍数の成分）の重み付けされた値（たとえば、マグニチュード）の和を計算することによってコヒーレンス量を計算するように構成されてもよく、各値は、対応するマスクスコアによって重み付けされる。こうした場合、各周波数成分の値は、マルチチャネル信号の１つのチャネル（たとえば、第１のチャネル）から、または、両方のチャネルから（たとえば、各チャネルからの対応する値の平均として）取得されてもよい。

複数の方向インジケータのそれぞれを格付けする代わりに、タスクＴ１２０の代替の実装態様は、対応する指向性マスキング関数ｍ_iを使用して各位相差Δφ_iを格付けするように構成される。たとえば、θ_L〜θ_Hの範囲の方向から到来するコヒーレント信号を選択することが所望される場合、各マスキング関数ｍ_iは、Δφ_Li〜Δφ_Hiの範囲にある通過帯域を有するように構成されてもよい。ここで、

（等価的に

）であり、

（等価的に

）である。τ_L〜τ_Hの到来時間遅延の範囲に対応する方向から到来するコヒーレント信号を選択することが所望される場合、各マスキング関数ｍ_iは、Δφ_Li〜Δφ_Hiの範囲にある通過帯域を有するように構成されてもよい。ここで、Δφ_Li＝２πｆ_iτ_L（等価的に

）であり、Δφ_Hi＝２πｆ_iτ_H（等価的に

）である。ｒ_L〜ｒ_Hの、位相差と周波数の比の範囲に対応する方向から到来するコヒーレント信号を選択することが所望される場合、各マスキング関数ｍ_iは、Δφ_Li〜Δφ_Hiの範囲にある通過帯域を有するように構成されてもよい。ここで、Δφ_Li＝ｆ_iｒ_Lであり、Δφ_Hi＝ｆ_iｒ_Hである。各マスキング関数のプロファイルは、評価されるセクタに従って、またおそらく先に論じたさらなる因子に従って選択される。

時間的に平滑化された値としてコヒーレンス量を生成するように、タスクＴ１２０を構成することが望ましい場合がある。たとえば、タスクＴ１２０は、有限または無限インパルス応答フィルタなどの時間的平滑化関数を使用してコヒーレンス量を計算するように構成されてもよい。１つのこうした例では、タスクは、最も最近のｍフレームにわたるミーン値としてコヒーレンス量を生成するように構成される。ここで、考えられるｍの値は、４、５、８、１０、１６、および２０を含む。別のこうした例では、タスクは、ｚ（ｎ）＝βｚ（ｎ−１）＋（１−β）ｃ（ｎ）（１次ＩＩＲフィルタまたは再帰フィルタとしても知られる）などの式に従ってフレームｎについて平滑化されたコヒーレンス量ｚ（ｎ）を計算するように構成される。ここで、ｚ（ｎ−１）は前のフレームについての平滑化されたコヒーレンス量を示し、ｃ（ｎ）はコヒーレンス量の目下の非平滑化値を示し、βは平滑化因子であり、平滑化因子の値は０（平滑化なし）〜１（更新なし）の範囲から選択されてもよい。平滑化因子βの典型的な値は、０．１、０．２、０．２５、０．３、０．４、および０．５を含む。（たとえば、パワーオンまたはオーディオ検知回路の他の起動に続いてすぐの）初期収束期間中に、タスクが、より短い間隔にわたってコヒーレンス量を平滑化する、または、後続の定常状態動作中よりも平滑化因子αのより小さな値を使用することが望ましい場合がある。異なるセクタに対応するコヒーレンス量を平滑化するためにβの同じ値を使用することは典型的であるが必要ではない。

コヒーレンス量のコントラストは、コヒーレンス量の目下の値と、ある期間にわたるコヒーレンス量の平均値（たとえば、最も最近の１０、２０、５０、または１００フレームにわたるミーン、モード、中央値）との間の関係の値（たとえば、差または比）として表現されてもよい。タスクＴ２００は、漏れ積分器などの時間的平滑化関数を使用して、または、ｖ（ｎ）＝αｖ（ｎ−１）＋（１−α）ｃ（ｎ）などの式に従ってコヒーレンス量の平均値を計算するように構成されてもよい。ここで、ｖ（ｎ）は目下のフレームについての平均値を示し、ｖ（ｎ−１）は前のフレームについての平均値を示し、ｃ（ｎ）はコヒーレンス量の目下の値を示し、αは平滑化因子であり、平滑化因子の値は０（平滑化なし）〜１（更新なし）の範囲から選択されてもよい。平滑化因子αの典型的な値は、０．０１、０．０２、０．０５、および０．１を含む。

１つの選択されたサブセットから別のサブセットへのスムーズな遷移をサポートするロジックを含むようにタスクＴ２００を実装することが望ましい場合がある。たとえば、ジッタを低減するのに役立つ可能性があるハングオーバロジックなどの慣性機構を含むようにタスクＴ２００を構成することが望ましい場合がある。こうしたハングオーバロジックは、（たとえば、上述したような）サブセットへの切換えを示す状態がいくつかの連続フレーム（たとえば、２、３、４、５、１０、または２０フレーム）の期間にわたって継続しなければ、タスクＴ２００がチャネルの異なるサブセットへ切換えるのを禁止するように構成されてもよい。

図２３Ｂは、３つのオーバラップするセクタのそれぞれにおいて、マイクロフォンＭＣ１０およびＭＣ２０（あるいは、ＭＣ１０およびＭＣ３０）のサブアレイを介して受信されるステレオ信号の指向性コヒーレンスの程度をタスクＴ１０２が評価するように構成される例を示す。図２３Ｂに示す例では、タスクＴ２００は、ステレオ信号がセクタ１において最もコヒーレント性の高い場合、マイクロフォン対ＭＣ１０（第１のマイクロフォンとして）およびＭＣ３０（第２のマイクロフォンとして）に対応するチャネルを選択し、ステレオ信号がセクタ２において最もコヒーレント性の高い場合、マイクロフォン対ＭＣ１０（第１のマイクロフォンとして）およびＭＣ４０（第２のマイクロフォンとして）に対応するチャネルを選択し、ステレオ信号がセクタ３において最もコヒーレント性の高い場合、マイクロフォン対ＭＣ１０（第１のマイクロフォンとして）およびＭＣ２０（第２のマイクロフォンとして）に対応するチャネルを選択する。

タスクＴ２００は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するように構成されてもよい。あるいは、タスクＴ１０２は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有する（たとえば、そのセクタについてコヒーレンス量の長期間時間平均から最大相対マグニチュードだけ異なる目下の値を有する）セクタとして選択するように構成されてもよい。

図３０は、３つのオーバラップするセクタのそれぞれにおいて、マイクロフォンＭＣ２０およびＭＣ１０（あるいは、ＭＣ２０およびＭＣ３０）のサブアレイを介して受信されるステレオ信号の指向性コヒーレンスの程度をタスクＴ１０２が評価するように構成される別の例を示す。図３０に示す例では、タスクＴ２００は、ステレオ信号がセクタ１において最もコヒーレント性の高い場合、マイクロフォン対ＭＣ２０（第１のマイクロフォンとして）およびＭＣ１０（第２のマイクロフォンとして）に対応するチャネルを選択し、ステレオ信号がセクタ２において最もコヒーレント性の高い場合、マイクロフォン対ＭＣ１０またはＭＣ２０（第１のマイクロフォンとして）およびＭＣ４０（第２のマイクロフォンとして）に対応するチャネルを選択し、ステレオ信号がセクタ３において最もコヒーレント性の高い場合、マイクロフォン対ＭＣ１０またはＭＣ３０（第１のマイクロフォンとして）およびＭＣ２０またはＭＣ１０（第２のマイクロフォンとして）に対応するチャネルを選択する。（次に続くテキストでは、マイクロフォン対のマイクロフォンは、第１のマイクロフォンを最初に、第２のマイクロフォンを最後に挙げられる。）先に述べたように、タスクＴ２００は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。

あるいは、タスクＴ１００は、３つ以上（たとえば、４つ）のマイクロフォンのセットからのマルチチャネル記録を使用したいくつかのセクタにおける指向性コヒーレンスに基づいて近接場信号源のＤＯＡを示すように構成されてもよい。図３１は、方法Ｍ１００のこうした実装態様Ｍ１１０のフローチャートを示す。方法Ｍ１１０は、上述したタスクＴ２００およびタスクＴ１００の実装態様Ｔ１０４を含む。タスクＴ１０４は、タスクＴ１１０およびＴ１２０のｎ（ｎは値は２以上の整数である）のインスタンスを含む。タスクＴ１０４では、タスクＴ１１０の各インスタンスは、マルチチャネル信号のチャネルの対応する異なる対の周波数成分について位相差を計算し、タスクＴ１２０の各インスタンスは、少なくとも１つの空間セクタのそれぞれにおける対応する対の指向性コヒーレンスの程度を評価する。評価されたコヒーレンスの程度に基づいて、タスクＴ２００は、マルチチャネル信号のチャネルの適切なサブセットを選択する（たとえば、信号が、最もコヒーレント性の高いセクタに対応するチャネル対を選択する）。

先に述べたように、タスクＴ２００は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。図３２は、タスクＴ２００のこうした実装態様Ｔ２０４を含む方法Ｍ１００の実装態様Ｍ１１２のフローチャートを示す。タスクＴ２０４は、それぞれが、対応するチャネル対について各コヒーレンス量のコントラストを計算するタスクＴ２１０のｎのインスタンスを含む。タスクＴ２０４はまた、計算されたコントラストに基づいてマルチチャネル信号のチャネルの適切なサブセットを選択するタスクＴ２２０を含む。

図３３は、装置ＭＦ１００の実装態様ＭＦ１１２のブロック図を示す。装置ＭＦ１１２は、（たとえば、本明細書で述べるタスクＴ１１０の実装態様を実施することによって）マルチチャネル信号のチャネルの対応する異なる対の周波数成分について位相差を計算するための手段Ｆ１１０のｎのインスタンスを含む手段Ｆ１００の実装態様Ｆ１０４を含む。手段Ｆ１０４はまた、（たとえば、本明細書で述べるタスクＴ１２０の実装態様を実施することによって）対応する計算された位相差に基づいて、少なくとも１つの空間セクタのそれぞれにおいて、対応する対のコヒーレンス量を計算するための手段Ｆ１２０のｎのインスタンスを含む。装置ＭＦ１１２はまた、（たとえば、本明細書で述べるタスクＴ２１０の実装態様を実施することによって）対応するチャネル対について各コヒーレンス量のコントラストを計算するための手段Ｆ２１０のｎのインスタンスを含む手段Ｆ２００の実装態様Ｆ２０４を含む。手段Ｆ２０４はまた、（たとえば、本明細書で述べるタスクＴ２２０の実装態様を実施することによって）計算されたコントラストに基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するための手段Ｆ２２０を含む。

図３４Ａは、装置Ａ１００の実装態様Ａ１１２のブロック図を示す。装置Ａ１１２は、それぞれが、（たとえば、本明細書で述べるタスクＴ１１０の実装態様を実施することによって）マルチチャネル信号のチャネルの対応する異なる対の周波数成分について位相差を計算するように構成された、計算器１１０のｎのインスタンスを有する方向情報計算器１００の実装態様１０２を含む。計算器１０２はまた、それぞれが、（たとえば、本明細書で述べるタスクＴ１２０の実装態様を実施することによって）対応する計算された位相差に基づいて、少なくとも１つの空間セクタのそれぞれにおいて、対応する対のコヒーレンス量を計算するように構成された、計算器１２０のｎのインスタンスを含む。装置Ａ１１２はまた、それぞれが、（たとえば、本明細書で述べるタスクＴ２１０の実装態様を実施することによって）対応するチャネル対について各コヒーレンス量のコントラストを計算するように構成された、計算器２１０のｎのインスタンスを有するサブセット選択器２００の実装態様２０２を含む。選択器２０２はまた、（たとえば、本明細書で述べるタスクＴ２２０の実装態様を実施することによって）計算されたコントラストに基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するように構成された選択器２２０を含む。図３４Ｂは、それぞれが、対応する時間領域マイクロフォンチャネルに関してＦＦＴオペレーションを実施するように構成されている、ＦＦＴモジュールＦＦＴａ１、ＦＦＴａ２〜ＦＦＴｎ１、ＦＦＴｎ２の対のｎのインスタンスを含む装置Ａ１１２の実装態様Ａ１１２１のブロック図を示す。

図３５は、ハンドセットＤ３４０のマイクロフォンセットＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を介して受信されるマルチチャネル信号が、３つのオーバラップするセクタの任意のセクタにおいてコヒーレントであるかどうかを示すためのタスクＴ１０４の適用の例を示す。セクタ１について、タスクＴ１２０の第１のインスタンスは、マイクロフォン対ＭＣ２０およびＭＣ１０（あるいは、ＭＣ３０）に対応するチャネルからタスクＴ１１０の第１のインスタンスによって計算される複数の位相差に基づいて第１のコヒーレンス量を計算する。セクタ２について、タスクＴ１２０の第２のインスタンスは、マイクロフォン対ＭＣ１０およびＭＣ４０に対応するチャネルからタスクＴ１１０の第２のインスタンスによって計算される複数の位相差に基づいて第２のコヒーレンス量を計算する。セクタ３について、タスクＴ１２０の第３のインスタンスは、マイクロフォン対ＭＣ３０およびＭＣ１０（あるいは、ＭＣ２０）に対応するチャネルからタスクＴ１１０の第３のインスタンスによって計算される複数の位相差に基づいて第３のコヒーレンス量を計算する。コヒーレンス量の値に基づいて、タスクＴ２００は、マルチチャネル信号のチャネル対を選択する（たとえば、信号が、最もコヒーレント性の高いセクタに対応する対を選択する）。先に述べたように、タスクＴ２００は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。

図３６は、ハンドセットＤ３４０のマイクロフォンセットＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を介して受信されるマルチチャネル信号が、４つのオーバラップするセクタの任意のセクタにおいてコヒーレントであるかどうかを示し、それに応じてチャネル対を選択するためのタスクＴ１０４の適用の同様な例を示す。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。

図３７は、ハンドセットＤ３４０のマイクロフォンセットＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を介して受信されるマルチチャネル信号が、５つのセクタ（同様にオーバラップしてもよい）の任意のセクタにおいてコヒーレントであるかどうかを示すためのタスクＴ１０４の同様な適用の例を示し、各セクタの中央ＤＯＡは、対応する矢印で示される。セクタ１について、タスクＴ１２０の第１のインスタンスは、マイクロフォン対ＭＣ２０およびＭＣ１０（あるいは、ＭＣ３０）に対応するチャネルからタスクＴ１１０の第１のインスタンスによって計算される複数の位相差に基づいて第１のコヒーレンス量を計算する。セクタ２について、タスクＴ１２０の第２のインスタンスは、マイクロフォン対ＭＣ２０およびＭＣ４０に対応するチャネルからタスクＴ１１０の第２のインスタンスによって計算される複数の位相差に基づいて第２のコヒーレンス量を計算する。セクタ３について、タスクＴ１２０の第３のインスタンスは、マイクロフォン対ＭＣ１０およびＭＣ４０に対応するチャネルからタスクＴ１１０の第３のインスタンスによって計算される複数の位相差に基づいて第３のコヒーレンス量を計算する。セクタ４について、タスクＴ１２０の第４のインスタンスは、マイクロフォン対ＭＣ３０およびＭＣ４０に対応するチャネルからタスクＴ１１０の第４のインスタンスによって計算される複数の位相差に基づいて第４のコヒーレンス量を計算する。セクタ５について、タスクＴ１２０の第５のインスタンスは、マイクロフォン対ＭＣ３０およびＭＣ１０（あるいは、ＭＣ２０）に対応するチャネルからタスクＴ１１０の第５のインスタンスによって計算される複数の位相差に基づいて第５のコヒーレンス量を計算する。コヒーレンス量の値に基づいて、タスクＴ２００は、マルチチャネル信号のチャネル対を選択する（たとえば、信号が、最もコヒーレント性の高いセクタに対応する対を選択する）。先に述べたように、タスクＴ２００は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。

図３８は、ハンドセットＤ３４０のマイクロフォンセットＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を介して受信されるマルチチャネル信号が、８つのセクタ（同様にオーバラップしてもよい）の任意のセクタにおいてコヒーレントであるかどうかを示し（各セクタの中央ＤＯＡは、対応する矢印で示される）、それに応じてチャネル対を選択するためのタスクＴ１０４の適用の同様な例を示す。セクタ６について、タスクＴ１２０の第６のインスタンスは、マイクロフォン対ＭＣ４０およびＭＣ２０に対応するチャネルからタスクＴ１１０の第６のインスタンスによって計算される複数の位相差に基づいて第６のコヒーレンス量を計算する。セクタ７について、タスクＴ１２０の第７のインスタンスは、マイクロフォン対ＭＣ４０およびＭＣ１０に対応するチャネルからタスクＴ１１０の第７のインスタンスによって計算される複数の位相差に基づいて第７のコヒーレンス量を計算する。セクタ８について、タスクＴ１２０の第８のインスタンスは、マイクロフォン対ＭＣ４０およびＭＣ３０に対応するチャネルからタスクＴ１１０の第８のインスタンスによって計算される複数の位相差に基づいて第８のコヒーレンス量を計算する。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。

図３９は、ハンドセットＤ３６０のマイクロフォンセットＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を介して受信されるマルチチャネル信号が、４つのセクタ（同様にオーバラップしてもよい）の任意のセクタにおいてコヒーレントであるかどうかを示すためのタスクＴ１０４の同様な適用の例を示し、各セクタの中央ＤＯＡは、対応する矢印で示される。セクタ１について、タスクＴ１２０の第１のインスタンスは、マイクロフォン対ＭＣ１０およびＭＣ３０に対応するチャネルからタスクＴ１１０の第１のインスタンスによって計算される複数の位相差に基づいて第１のコヒーレンス量を計算する。セクタ２について、タスクＴ１２０の第２のインスタンスは、マイクロフォン対ＭＣ１０およびＭＣ４０（あるいは、ＭＣ２０およびＭＣ４０またはＭＣ１０およびＭＣ２０）に対応するチャネルからタスクＴ１１０の第２のインスタンスによって計算される複数の位相差に基づいて第２のコヒーレンス量を計算する。セクタ３について、タスクＴ１２０の第３のインスタンスは、マイクロフォン対ＭＣ３０およびＭＣ４０に対応するチャネルからタスクＴ１１０の第３のインスタンスによって計算される複数の位相差に基づいて第３のコヒーレンス量を計算する。セクタ４について、タスクＴ１２０の第４のインスタンスは、マイクロフォン対ＭＣ３０およびＭＣ１０に対応するチャネルからタスクＴ１１０の第４のインスタンスによって計算される複数の位相差に基づいて第４のコヒーレンス量を計算する。コヒーレンス量の値に基づいて、タスクＴ２００は、マルチチャネル信号のチャネル対を選択する（たとえば、信号が、最もコヒーレント性の高いセクタに対応する対を選択する）。先に述べたように、タスクＴ２００は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。

図４０は、ハンドセットＤ３６０のマイクロフォンセットＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を介して受信されるマルチチャネル信号が、６つのセクタ（同様にオーバラップしてもよい）の任意のセクタにおいてコヒーレントであるかどうかを示し（各セクタの中央ＤＯＡは、対応する矢印で示される）、それに応じてチャネル対を選択するためのタスクＴ１０４の適用の同様な例を示す。セクタ５について、タスクＴ１２０の第５のインスタンスは、マイクロフォン対ＭＣ４０およびＭＣ１０（あるいは、ＭＣ２０）に対応するチャネルからタスクＴ１１０の第５のインスタンスによって計算される複数の位相差に基づいて第５のコヒーレンス量を計算する。セクタ６について、タスクＴ１２０の第６のインスタンスは、マイクロフォン対ＭＣ４０およびＭＣ３０に対応するチャネルからタスクＴ１１０の第６のインスタンスによって計算される複数の位相差に基づいて第６のコヒーレンス量を計算する。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。

図４１は、受信されるマルチチャネル信号が、８つのセクタ（同様にオーバラップしてもよい）の任意のセクタにおいてコヒーレントがあるかどうかを示し（各セクタの中央ＤＯＡは、対応する矢印で示される）、それに応じてチャネル対を選択するためにハンドセットＤ３６０のマイクロフォンＭＣ５０を同様に利用するタスクＴ１０４の適用の同様な例を示す。セクタ７について、タスクＴ１２０の第７のインスタンスは、マイクロフォン対ＭＣ５０およびＭＣ４０（あるいは、ＭＣ１０またはＭＣ２０）に対応するチャネルからタスクＴ１１０の第７のインスタンスによって計算される複数の位相差に基づいて第７のコヒーレンス量を計算する。セクタ８について、タスクＴ１２０の第８のインスタンスは、マイクロフォン対ＭＣ４０（あるいは、ＭＣ１０またはＭＣ２０）およびＭＣ５０に対応するチャネルからタスクＴ１１０の第８のインスタンスによって計算される複数の位相差に基づいて第８のコヒーレンス量を計算する。この場合、セクタ２についてのコヒーレンス量は、代わりに、マイクロフォン対ＭＣ３０およびＭＣ５０に対応するチャネルから計算されてもよく、また、セクタ２についてのコヒーレンス量は、代わりに、マイクロフォン対ＭＣ５０およびＭＣ３０に対応するチャネルから計算されてもよい。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。

先に述べたように、マルチチャネル信号の異なる対のチャネルは、異なるデバイス上のマイクロフォン対によって生成される信号に基づいてもよい。この場合、種々の対のマイクロフォンは、ある期間にわたって互いに対して可動であってよい。１つのこうしたデバイスから他のデバイスへの（たとえば、切換え方策を実施するデバイスへの）チャネル対の通信は、有線および／または無線伝送チャネルを通じて起こってもよい。こうした通信リンクをサポートするために使用されてもよい無線方法の例は、ブルートゥース（たとえば、ブルートゥースコア仕様バージョン４．０［クラシックブルートゥース、ブルートゥース高速、およびブルートゥース低エネルギープロトコルを含む］（ＢｌｕｅｔｏｏｔｈＳＩＧ，Ｉｎｃ．，ワシントン州カークランド（Kirkland, WA）所在）に記載されるヘッドセットまたは他のプロファイル）、Ｐｅａｎｕｔ（ＱＵＡＬＣＯＭＭＩｎｃｏｒｐｏｒａｔｅｄ，カルフォルニア州サンディエゴ（San Diego, CA）所在）、およびＺｉｇＢｅｅ（登録商標）（たとえば、ＺｉｇＢｅｅ２００７仕様および／またはＺｉｇＢｅｅＲＦ４ＣＥ仕様（ＺｉｇＢｅｅＡｌｌｉａｎｃｅ，カルフォルニア州サンラモン（San Ramon, CA）所在）に記載される）などの短距離（たとえば、数インチから数フィートまでの）通信用の低パワー無線仕様を含む。使用されてもよい他の無線伝送チャネルは、赤外線および超音波などの非ラジオチャネルを含む。

（たとえば、ある対のマイクロフォンが、ある期間にわたって互いに対して可動であるように）ある対の２つのチャネルが、異なるデバイス上のマイクロフォン対によって生成される信号に基づくことも可能である。１つのこうしたデバイスから他のデバイスへの（たとえば、切換え方策を実施するデバイスへの）チャネルの通信は、上述したように有線および／または無線伝送チャネルを通じて起こってもよい。こうした場合、伝送遅延および／またはサンプリングクロック不一致を補償するために、遠隔チャネル（または、両方のチャネルが、切換え方策を実施するデバイスによって無線で受信される場合、複数のチャネル）を処理することが望ましい場合がある。

伝送遅延は、無線通信プロトコル（たとえば、ブルートゥース（商標））の結果として起こる可能性がある。遅延補償に必要とされる遅延値は、通常、所与のヘッドセットについて知られている。遅延値が未知である場合、公称値が、遅延補償のために使用されてもよく、また、さらなる処理ステージにおいて、不正確さが配慮されてもよい。

（たとえば、サンプリングレート補償によって）２つのマイクロフォン信号間のデータレート差を補償することが望ましい場合がある。一般に、デバイスは、２つの独立したクロック供給源によって制御される可能性があり、また、クロックレートは、経時的に互いに対してわずかにドリフトしうる。クロックレートが異なる場合、２つのマイクロフォン信号について１フレーム当たりに送出されるサンプル数は異なりうる。これは、通常、サンプルスリッピング問題として知られており、当業者に知られている種々の手法が、この問題を処理するために使用されうる。サンプルスリッピングが起こる場合、方法Ｍ１００は、２つのマイクロフォン信号間のデータレート差を補償するタスクを含んでもよく、方法Ｍ１００を実施するように構成された装置は、こうした補償実施のための手段（たとえば、サンプリグレート補償モジュール）を含んでもよい。

こうした場合、タスクＴ１００が実施される前に、チャネル対のサンプリングレートを一致させることが望ましい場合がある。たとえば、一方法は、他のストリームのサンプル／フレームに一致させるために、１つのストリームからサンプルを付加する／取除くことである。別の方法は、他のストリームに一致させるために、１つのストリームのサンプリングレートの微調整を行うことである。一例では、両方のチャネルは、８ｋＨｚの公称サンプリングレートを有するが、一方のチャネルの実際のサンプリングレートは、７９８５Ｈｚである。この場合、このチャネルからのオーディオサンプルを８０００Ｈｚへアップサンプリングすることが望ましい場合がある。別の例では、一方のチャンルは、８０２３Ｈｚのサンプリングレートを有しており、そのオーディオサンプルを８ｋＨｚにダウンサンプリングすることが望ましい場合がある。

上述したように、方法Ｍ１００は、異なる周波数のチャネル間の位相差に基づくＤＯＡ情報に従って、特定のエンドファイアマイクロフォン対に対応するチャネルを選択するように構成されてもよい。別法としてまたは付加的に、方法Ｍ１００は、チャネル間の利得差に基づくＤＯＡ情報に従って、特定のエンドファイアマイクロフォン対に対応するチャネルを選択するように構成されてもよい。マルチチャネル信号の指向性処理のための利得差ベースの技法の例は、（制限なしで）ビーム形成、ブラインド信号源分離（blind source separation）（ＢＳＳ）、およびステアード応答パワー位相変換（steered response power-phase transform）（ＳＲＰ−ＰＨＡＴ）を含む。ビーム形成手法の例は、一般化サイドローブ除去（generalized sidelobe cancellation）（ＧＳＣ）、最小変動無歪応答（minimum variance distortionless response）（ＭＶＤＲ）、および線形制約最小変動（linearly constrained minimum variance）（ＬＣＭＶ）ビーム形成器を含む。ＢＳＳ手法の例は、独立成分分析（ＩＣＡ）および独立ベクトル分析（ＩＶＡ）を含む。

位相差ベースの指向性処理技法は、通常、１つまたは複数の音源がマイクロフォンに近い（たとえば、１メートル以内にある）ときに良好な結果を生じるが、その性能は、より大きな信号源−マイクロフォン距離で低下する可能性がある。方法Ｍ１１０は、信号源の推定範囲（信号源とマイクロフォンとの間の推定距離）に応じて、あるときには、上述した位相差ベース処理を使用して、また、他のときには、利得差ベース処理を使用してサブセットを選択するように実装されてもよい。こうした場合、ある対のチャネルのレベル間の関係（たとえば、チャネルのエネルギー間の対数領域での差または線形領域での比）は、信号源範囲のインジケータとして使用されてもよい。（たとえば、遠方場指向性ニーズおよび／または分散雑音抑圧ニーズなどの因子に基づいて）指向性コヒーレンスおよび／または利得差閾値を調節することも望ましい場合がある。

方法Ｍ１１０のこうした実装態様は、位相差ベースおよび利得差ベースの処理技法からの指向性指標を結合することによって、チャネルのサブセットを選択するように構成されてもよい。たとえば、こうした実装態様は、推定範囲が小さいとき、位相差ベース技法の指向性指標により重く重み付けし、推定範囲が大きいとき、利得差ベース技法の指向性指標により重く重み付けするように構成されてもよい。あるいは、こうした実装態様は、推定範囲が小さいとき、位相差ベース技法の指向性指標に基づいてチャネルのサブセットを選択し、推定範囲が大きいとき、代わりに利得差ベース技法の指向性指標に基づいてチャネルのサブセットを選択するように構成されてもよい。

一部の可搬型オーディオ検知デバイス（たとえば、無線ヘッドセット）は、（たとえば、ブルートゥース（商標）などの通信プロトコルを通して）範囲情報を提供することが可能である。こうした範囲情報は、たとえば、ヘッドセットが、目下通信しているデバイス（たとえば、電話）からどれほど遠くに位置しているかを示してもよい。マイクロフォン間距離に関するこうした情報は、位相差計算のために、かつ／または、どのタイプの方向推定技法が使用されるかを決定するために、方法Ｍ１００において使用されてもよい。たとえば、ビーム形成方法は、通常、第１および第２のマイクロフォンが互いに対して近く（距離＜８ｃｍ）に位置するときにうまく働き、ＢＳＳアルゴリズムは、通常、中間の範囲（６ｃｍ＜距離＜１５ｃｍ）でうまく働き、空間ダイバシティ手法は、通常、マイクロフォンが遠く（距離＞１５ｃｍ）に離間しているときにうまく働く。

図４２は、方法Ｍ１００の実装態様Ｍ２００のフローチャートを示す。方法Ｍ２００は、タスクＴ１００の実装態様の複数のインスタンスＴ１５０Ａ〜Ｔ１５０Ｃを含み、インスタンスＴ１５０Ａ〜Ｔ１５０Ｃはそれぞれ、エンドファイア方向における対応するマイクロフォン対からのステレオ信号の指向性コヒーレンスまたは固定されたビーム形成器出力エネルギーを評価する。たとえば、タスクＴ１５０は、信号源からマイクロフォンまでの推定距離に応じて、あるときには、指向性コヒーレンスベース処理を実施し、他のときには、ビーム形成器ベース処理を使用するように構成されてもよい。タスクＴ２００の実装態様Ｔ２５０は、正規化された最大指向性コヒーレンス（すなわち、最大コントラストを有するコヒーレンス量）またはビーム形成出力エネルギーを有するマイクロフォン対からの信号を選択し、タスクＴ３００は、選択された信号からの雑音低減出力をシステムレベル出力に提供する。

方法Ｍ１００（または、こうした方法を実施する装置）の実装態様はまた、チャネルの選択されたサブセットに関して１つまたは複数の空間選択的処理オペレーションを実施することを含む。たとえば、方法Ｍ１００は、選択されたサブセットの指向性的にコヒーレントである部分のＤＯＡと異なる方向（たとえば、対応するセクタ以外の方向）から到来する周波数成分を減衰させることによって、選択されたサブセットに基づくマスク済み信号を生成することを含むように実装されてもよい。あるいは、方法Ｍ１００は、選択されたサブセットの指向性的にコヒーレントである部分のＤＯＡと異なる方向から到来する周波数成分を含む選択されたサブセットの雑音成分の推定値を計算するように構成されてもよい。別法としてまたは付加的に、１つまたは複数の未選択セクタ（場合によっては、さらに１つまたは複数の未選択サブセット）が、雑音推定値を生成するために使用されてもよい。雑音推定値が計算される場合、方法Ｍ１００はまた、雑音推定値を使用して、選択されたサブセットの１つまたは複数のチャネルに関する雑音低減オペレーション（たとえば、選択されたサブセットの１つまたは複数のチャネルからの雑音推定値のウィーナフィルタリングまたはスペクトル減算）を実施するように構成されてもよい。

タスクＴ２００はまた、選択されたセクタ内のコヒーレンス量について対応する閾値を選択するように構成されてもよい。コヒーレンス量（またおそらく、こうした閾値）は、たとえば、音声アクティビティ検出（ＶＡＤ）オペレーションをサポートするために使用されてもよい。チャネル間の利得差は、ＶＡＤオペレーションをサポートするために同様に使用されてもよい近接性検出のために使用されてもよい。ＶＡＤオペレーションは、適応フィルタをトレーニングするために、かつ／または、信号の時間的なセグメント（segment in time）（たとえば、フレーム）を、（遠方場）雑音または（近接場）音声として分類して雑音低減オペレーションをサポートするために使用されてもよい。たとえば、上述した雑音推定値（たとえば、第１のチャネルのフレームに基づく単一チャネル雑音推定値またはデュアルチャネル雑音推定値）は、対応するコヒーレンス量の値に基づき雑音として分類されるフレームを使用して更新されてもよい。こうしたスキームは、広い範囲の考えられる信号源−マイクロフォン対方向付けにわたって所望のスピーチを減衰させることなく、整合性のある雑音低減をサポートするように実装されてもよい。

たとえばセクタ間の最大コヒーレンス量（あるいは、コヒーレンス量間の最大コントラスト）が、ある期間、低過ぎた場合に、方法または装置が、単一チャネル雑音推定（たとえば、時間平均された単一チャネル雑音推定）に切換わるように構成されように、タイミング機構を有する方法または装置を使用することが望ましい場合がある。

図４３Ａは、一般的な構成によるデバイスＤ１０のブロック図を示す。デバイスＤ１０は、本明細書で開示されるマイクロフォンアレイＲ１００の実装態様の任意の実装態様の例を含み、本明細書で開示されるオーディオ検知デバイスの任意のデバイスは、デバイスＤ１０の例として実装されてもよい。デバイスＤ１０はまた、（本明細書で開示される方法Ｍ１００の実装態様の任意の実装態様の例に従って）アレイＲ１００によって生成されたマルチチャネル信号を処理して、マルチチャネル信号のチャネルの適切なサブセットを選択するように構成される装置１００の実装態様の例を含む。装置１００は、ハードウェアで、かつ／または、ハードウェアとソフトウェアおよび／またはファームウェアとの組合せで実装されてもよい。たとえば、装置１００は、デバイスＤ１０のプロセッサ上に実装されてもよく、プロセッサはまた、選択されたサブセットに関して、上述した空間処理オペレーション（たとえば、オーディオ検知デバイスと特定の音源との間の距離を確定し、雑音を低減し、特定の方向から到来する信号成分を増大させ、かつ／または、他の環境音から１つまたは複数の音成分を分離する１つまたは複数のオペレーション）を実施するように構成される。

図４３Ｂは、デバイスＤ１０の実装態様である通信デバイスＤ２０のブロック図を示す。本明細書で述べる可搬型オーディオ検知デバイスの任意のデバイスは、装置１００を含むチップまたはチップセットＣＳ１０（たとえば、移動局モデム（ＭＳＭ）チップセット）を含むデバイスＤ２０の例として実装されてもよい。チップ／チップセットＣＳ１０は、（たとえば、命令として）装置１００のソフトウェアおよび／またはファームウェア部分を実行するように構成されてもよい１つまたは複数のプロセッサを含んでもよい。チップ／チップセットＣＳ１０はまた、アレイＲ１００の処理要素（たとえば、オーディオ前処理ステージＡＰ１０の要素）を含んでもよい。チップ／チップセットＣＳ１０は、無線周波数（ＲＦ）通信信号を受信し、ＲＦ信号内に符号化されたオーディオ信号を復号し再生するように構成されている受信機、および、装置Ａ１０によって生成される処理済み信号に基づくオーディオ信号を符号化し、符号化済みオーディオ信号を表わすＲＦ通信信号を送信するように構成されている送信機を含む。たとえば、チップ／チップセットＣＳ１０の１つまたは複数のプロセッサは、符号化済みオーディオ信号が雑音低減済み信号に基づくように、マルチチャネル信号の１つまたは複数のチャネルに関して上述した雑音低減オペレーションを実施するように構成されてもよい。

デバイスＤ２０は、アンテナＣ３０を介してＲＦ通信信号を送受信するように構成される。デバイスＤ２０はまた、アンテナＣ３０への経路にダイプレクサおよび１つまたは複数のパワー増幅器を含んでもよい。チップ／チップセットＣＳ１０はまた、キーパッドＣ１０を介してユーザ入力を受信し、ディスプレイＣ２０を介して情報を表示するように構成される。この例では、デバイスＤ２０はまた、全地球測位システム（ＧＰＳ）ロケーションサービスおよび／または無線（たとえば、ブルートゥース（商標））ヘッドセットなどの外部デバイスとの短距離通信をサポートするために１つまたは複数のアナテナＣ４０を含む。別の例では、こうした通信デバイスは、それ自体ブルートゥースヘッドセットであり、キーパッドＣ１０、ディスプレイＣ２０、およびアンテナＣ３０がない。

本明細書で開示される方法および装置は、任意の送受信および／またはオーディオ検知アプリケーション、特にこうしたアプリケーションの移動体またはその他の可搬型の例において一般に適用されてもよい。たとえば、本明細書で開示される構成の範囲は、符号分割多重アクセス（ＣＤＭＡ）オーバザエアインタフェースを使用するように構成された無線テレフォニー通信システム内に存在する通信デバイスを含む。それでも、本明細書で述べる特徴を有する方法および装置は、有線および／または無線（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）伝送チャネルを通じたボイスオーバＩＰを使用するシステムなどの、当業者に知られている広範囲の技術を使用する種々の通信システムの任意のシステム内に存在してもよいことが当業者によって理解されるであろう。

本明細書で開示される通信デバイスは、パケット切換え式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ伝送情報を搬送するように構成（arrange）された有線および／または無線ネットワーク）および／または回路切換え式であるネットワークでの使用のために適合してもよいことが明示的に想定され、これにより開示される。本明細書で開示される通信デバイスは、狭帯域コーディングシステム（coding system）（たとえば、約４または５キロヘルツのオーディオ周波数範囲を符号化するシステム）で使用するために、かつ／または、全帯域広帯域コーディングシステムおよびスプリット帯域広帯域コーディングシステムを含む広帯域コーディングシステム（たとえば、５キロヘルツより高いオーディオ周波数を符号化するシステム）で使用するために適合してもよいことも明示的に想定され、これにより開示される。

述べた構成の先の提示は、本明細書で開示される方法および他の構造を、当業者が作るかまたは使用することを可能にするために設けられる。本明細書で示し述べるフローチャート、ブロック図、および他の構造は、例に過ぎず、これらの構造の他の変形もまた、本開示の範囲内にある。これらの構成に対する種々の変更が可能であり、本明細書に提示される一般的な原理は、他の構成にも適用されてもよい。そのため、本開示は、先に示される構成に限定されることを意図されるのではなく、むしろ、オリジナルの開示の一部を形成する、出願された添付特許請求の範囲を含む、本明細書で任意の様式で開示される原理および新規な特徴と整合性がある最も広い範囲に一致（accord）される。

情報および信号は、種々の異なる技術および技法の任意のものを使用して表現されてもよいことを当業者は理解するであろう。たとえば、上記説明全体を通して参照される可能性があるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁気フィールドまたは粒子、光フィールドまたは粒子、あるいはその任意の組合せによって表現されてもよい。

本明細書で開示される構成の実装態様についての重要な設計要件は、特に８キロヘルツより高い（たとえば、１２、１６、または４４ｋＨｚ）サンプリングレートでの音声通信用のアプリケーションなどの計算集約的なアプリケーションのために、処理遅延および／または（通常、百万命令／秒またはＭＩＰＳ単位で測定される）計算の複雑さを最小にすることを含んでもよい。

本明細書で述べるマルチマイクロフォン処理システムの目標は、総合雑音低減において１０〜１２ｄＢを達成すること、所望の話者の移動中に音声レベルおよびカラーを保存すること、積極的な雑音除去の代わりに、雑音が背景内に移動したという認識（perception）を得ること、スピーチの残響除去（dereverberation）、および／またはより積極的な雑音低減のために後処理（たとえば、マスキングおよび／または雑音低減）のオプションを使用可能にすることを含んでもよい。

本明細書で開示する装置の実装態様の種々の要素（たとえば、装置Ａ１００、Ａ１１２、Ａ１１２１、ＭＦ１００、およびＭＦ１１２）は、意図されるアプリケーションに適すると見なされる、任意のハードウェア構造あるいはハードウェアとソフトウェアおよび／またはファームウェアとの任意の組合せで具現化されてもよい。たとえば、こうした要素は、たとえば同じチップ上にあるいはチップセット内の２つ以上のチップの間に存在する電子デバイスおよび／または光デバイスとして作製されてもよい。こうしたデバイスの一例は、トランジスタまたはロジックゲートなどの、ロジック要素の固定のまたはプログラマブルなアレイであり、これらの要素の任意の要素は、１つまたは複数のこうしたアレイとして実装されてもよい。これらの要素の任意の２つ以上のまたはさらに全ての要素は、同じ１つまたは複数のアレイ内に実装されてもよい。こうした１つまたは複数のアレイは、１つまたは複数のチップ内に（たとえば、２つ以上のチップを含むチップセット内に）実装されてもよい。

本明細書で開示する装置の種々の実装態様の１つまたは複数の要素（たとえば、装置Ａ１００、Ａ１１２、Ａ１１２１、ＭＦ１００、およびＭＦ１１２）はまた、マイクロプロセッサ、埋め込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの、ロジック要素の１つまたは複数の固定のまたはプログラマブルなアレイ上で実行されるように構成（arrange）された命令の１つまたは複数のセットとして部分的に実装されてもよい。本明細書で開示される装置の実装態様の種々の要素の任意の要素はまた、１つまたは複数のコンピュータ（たとえば、「プロセッサ（processor）」ともよばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）として具現化されてもよく、また、これらの要素の任意の２つ以上、または全てさえも、同じこうした１つまたは複数のコンピュータ内に実装されてもよい。

プロセッサまたは本明細書で開示される処理するための手段は、たとえば同じチップ上にあるいはチップセット内の２つ以上のチップの間に存在する１つまたは複数の電子デバイスおよび／または光デバイスとして作製されてもよい。こうしたデバイスの一例は、トランジスタまたはロジックゲートなどの、ロジック要素の固定のまたはプログラマブルなアレイであり、これらの要素の任意の要素は、１つまたは複数のこうしたアレイとして実装されてもよい。こうした１つまたは複数のアレイは、１つまたは複数のチップ内に（たとえば、２つ以上のチップを含むチップセット内に）実装されてもよい。こうしたアレイの例は、マイクロプロセッサ、埋め込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなどの、ロジック要素の固定のまたはプログラマブルなアレイを含む。プロセッサまたは本明細書で開示される処理するための手段はまた、１つまたは複数のコンピュータ（たとえば、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）または他のプロセッサとして具現化されてもよい。本明細書で述べるプロセッサは、プロセッサがそこに埋め込まれるデバイスまたはシステム（たとえば、オーディオ検知デバイス）の別のオペレーションに関連するタスクなどの、マルチチャネル信号のチャネルのサブセットを選択する手順に直接関連しないタスクを実施するかまたは命令の他のセットを実行するために使用されることが可能である。本明細書で開示される方法の一部（たとえば、タスクＴ１００）は、オーディオ検知デバイスのプロセッサによって実施されることも可能であり、方法の別の一部（たとえば、タスクＴ２００）は、１つまたは複数の他のプロセッサの制御下で実施されることも可能である。

本明細書で開示される構成に関連して述べる種々の例証的なモジュール、ロジックブロック、回路、および試験、ならびに他のオペレーションは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装されてもよいことを当業者は理解するであろう。こうしたモジュール、ロジックブロック、回路、およびオペレーションは、本明細書で開示される構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェアコンポーネント、またはその任意の組合せによって実装されるまたは実施されてもよい。たとえば、こうした構成は、少なくとも部分的に、実配線された回路として、特定用途向け集積回路内に作製された回路構成として、あるいは、機械可読コードとして、不揮発性記憶装置にロードされたファームウェアプログラムまたはデータ記憶媒体からロードされるかまたはそこへロードされたソフトウェアプログラムとして実装されてもよく、こうしたコードは、汎用プロセッサまたは他のデジタル信号処理ユニットなどのロジック要素のアレイによって実行可能な命令である。汎用プロセッサは、マイクロプロセッサであってよいが、代替法として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサはまた、コンピューティングデバイスの組合せ、たとえばＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携した１つまたは複数のマイクロプロセッサ、または任意の他のこうした構成として実装されてもよい。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）などの非一過性記憶媒体、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、取外し可能ディスク、またはＣＤ−ＲＯＭ内に、あるいは、当業者に知られている任意の他の形態の記憶媒体内に存在してもよい。例証的な記憶媒体は、プロセッサが記憶媒体から情報を読出し、記憶媒体へ情報を書込むようにプロセッサに結合される。代替法では、記憶媒体は、プロセッサに対して一体であってよい。プロセッサおよび記憶媒体は、ＡＳＩＣ内に存在してもよい。ＡＳＩＣは、ユーザ端末内に存在してもよい。代替法として、プロセッサおよび記憶媒体は、ユーザ端末内でディスクリートコンポーネントとして存在してもよい。

本明細書で開示される種々の方法（たとえば、方法Ｍ１００、Ｍ１１０、Ｍ１１２、およびＭ２００）が、プロセッサなどのロジック要素のアレイによって実施されてもよいこと、および、本明細書で開示される装置の種々の要素が、こうしたアレイ上で実行されるように設計されたモジュールとして部分的に実装されてもよいことが留意される。本明細書で使用されるように、用語「モジュール（module）」または「サブモジュール（sub-module）」は、ソフトウェア、ハードウェア、またはファームウェア形態でコンピュータ命令（たとえば、ロジック表現）を含む任意の方法、装置、デバイス、ユニット、またはコンピュータ可読データ記憶媒体を指しうる。複数のモジュールまたはシステムが、結合されて、１つのモジュールまたはシステムになりうる、また、１つのモジュールまたはシステムが、同じ機能を実施する複数のモジュールまたはシステムに分離されうることが理解される。ソフトウェアまたは他のコンピュータ実行可能命令で実装されると、プロセスの要素は、本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造および同様なものなどによって関連タスクを実施するコードセグメントである。用語「ソフトウェア（software）」は、ソースコード、アセンブリ言語コード、機械コード、２値コード、ファームウェア、マクロコード、マイクロコード、ロジック要素のアレイによって実行可能な命令の任意の１つまたは複数のセットまたはシーケンス、ならびに、こうした例の任意の組合せを含むと理解されるべきである。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶されうる、または、伝送媒体または通信リンクを通じて搬送波で具現化されるコンピュータデータ信号によって伝送されうる。

本明細書で開示される方法、スキーム、および技法の実装態様はまた、ロジック要素のアレイを含む機械（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）によって実行可能な命令の１つまたは複数のセットとして（たとえば、本明細書で挙げた１つまたは複数のコンピュータ可読記憶媒体の有形なコンピュータ可読フィーチャで）有形に具現化されてもよい。用語「コンピュータ可読媒体（computer-readable medium）」は、揮発性、不揮発性、取外し可能、および取外し不可能記憶媒体を含む、情報を記憶しうる、または、転送しうる任意の媒体を含んでもよい。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線（ＲＦ）リンク、または、所望の情報を記憶するために使用されることができ、また、アクセスされることができる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、空気、電磁波、ＲＦリンクなどのような伝送媒体を通じて伝搬しうる任意の信号を含んでもよい。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされてもよい。いずれにしても、本開示の範囲は、こうした実施形態によって制限されると考えられるべきでない。

本明細書で述べる方法のタスクはそれぞれ、ハードウェアで直接、プロセッサによって実行されるソフトウェアモジュールで、または２つの組合せで具現化されてもよい。本明細書で開示される方法の実装形態の典型的なアプリケーションでは、ロジック要素の（たとえば、ロジックゲート）のアレイは、方法の種々のタスクのうちの１つ、２つ以上、または全てのタスクさえも実施するように構成される。タスクの１つまたは複数（場合によっては全て）はまた、ロジック要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって読取り可能および／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなど１つまたは複数のデータ記憶媒体）で具現化されるコード（たとえば、命令の１つまたは複数のセット）として実装されてもよい。本明細書で開示される方法の実装態様のタスクはまた、２つ以上のこうしたアレイまたは機械によって実施されてもよい。これらのまた他の実装態様では、タスクは、携帯電話などの無線通信用のデバイスまたはこうした通信能力を有する他のデバイス内で実施されてもよい。こうしたデバイスは、（たとえば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回路切換えおよび／またはパケット切換えネットワークと通信するように構成されてもよい。たとえば、こうしたデバイスは、符号化されたフレームを受信するかつ／または送信するように構成されたＲＦ回路を含んでもよい。

本明細書で開示される種々の方法が、可搬型通信デバイス（たとえば、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ））によって実施されてもよいこと、および、本明細書で述べる種々の装置が、こうしたデバイス内に含まれてもよいことが明示的に開示される。典型的なリアルタイム（たとえば、オンライン）アプリケーションは、こうした移動体デバイスを使用して行われる電話の会話である。

１つまたは複数の例示的な実施形態では、本明細書で述べるオペレーションは、ハードウェア、ソフトウェア、ファームウェア、またはその任意の組合せで実装されてもよい。ソフトウェアで実装される場合、こうしたオペレーションは、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるかまたはそれを通じて伝送されてもよい。用語「コンピュータ可読媒体」は、コンピュータ可読記憶媒体と通信（たとえば、伝送）媒体の両方を含む。制限としてではなく例として、コンピュータ可読記憶媒体は、半導体メモリ（制限なしで、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含んでもよい）、あるいは強誘電（ferroelectric）、磁気抵抗、オボニック（ovonic）、ポリマー、または相変化メモリ；ＣＤ−ＲＯＭまたは他の光ディスク記憶装置；および／または磁気ディスク記憶装置または他の磁気記憶デバイスなどの記憶要素のアレイを備えうる。こうした記憶媒体は、コンピュータによってアクセスされうる命令またはデータ構造の形態で情報を記憶してもよい。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用されることができ、また、コンピュータによってアクセスされることができる任意の媒体を備えうる。同様に、任意の接続が、コンピュータ可読媒体と適切によばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、あるいは、赤外線、無線、および／またはマイクロ波などの無線技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、あるいは、赤外線、無線、および／またはマイクロ波などの無線技術は、媒体の定義に含まれる。本明細書で使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザディスク、光ディスク、デジタル多用途ディスク（ＤＶＤ）、フロッピディスク、およびブルーレイディスク（商標）（Ｂｌｕｅ−ＲａｙＤｉｓｃＡｓｓｏｃｉａｔｉｏｎ，カルフォルニア州ユニバーサルシティ（Universal City, CA）所在）を含み、ディスク（disk）は、通常、データを磁気的に再生し、一方、ディスク（disc）は、レーザによってデータを光学的に再生する。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

本明細書で述べる音響信号処理装置は、あるオペレーションを制御するためにスピーチ入力を受容する電子デバイス内に組込まれてもよい、またはそうでなければ、通信デバイスなどの背景雑音から所望の雑音を分離することから利益を受けてもよい。多くのアプリケーションは、複数の方向から発生する背景雑音から明瞭な所望の音を増大させるまたは分離させることから利益を得ることができる。こうしたアプリケーションは、音声認識および検出、スピーチ増大および分離、音声起動式制御、および同様なもののような能力を組込む、電子またはコンピューティングデバイス内のヒューマンマシンインタフェースを含んでもよい。制限された処理能力を提供するだけであるデバイスにおいて適するこうした音響信号処理装置を実装することが望ましい場合がある。

本明細書で述べるモジュール、要素、およびデバイスの種々の実装態様の要素は、たとえば同じチップ上にあるいはチップセット内の２つ以上のチップの間に存在する電子デバイスおよび／または光デバイスとして作製されてもよい。こうしたデバイスの一例は、トランジスタまたはゲートなどの、ロジック要素の固定のまたはプログラマブルなアレイである。本明細書で述べる装置の種々の実装態様の１つまたは複数の要素はまた、マイクロプロセッサ、埋め込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなどの、ロジック要素の１つまたは複数の固定のまたはプログラマブルなアレイ上で実行されるように構成（arrange）された命令の１つまたは複数のセットとして全体的にまたは部分的に実装されてもよい。

本明細書で述べる装置の実装態様の１つまたは複数の要素が、装置がそこに埋め込まれるデバイスまたはシステムの別のオペレーションに関連するタスクなどの、装置のオペレーションに直接関連しないタスクを実施するかまたは命令の他のセットを実行するために使用されることが可能である。こうした装置の実装態様の１つまたは複数の要素が、共通の構造（たとえば、異なるときに異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なるときに異なる要素に対応するタスクを実施するために実行される命令のセット、または、異なるときに異なる要素についてオペレーションを実施する電子デバイスおよび／または光デバイスの配置構成）を有することも可能である。たとえば、計算器１１０ａ〜１１０ｎの１つまたは複数（場合によっては全て）は、異なるときに同じ構造（位相差計算オペレーションを定義する同じセットの命令）を使用するために実装されてもよい。

Claims

マルチチャネル信号を処理する方法であって、
前記マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、前記マルチチャネル信号の第１の対のチャネルのそれぞれの第１の時間における周波数成分の位相間の差を計算することであって、それにより、第１の複数の位相差を得る、計算すること、
前記第１の複数の計算された位相差からの情報に基づいて、前記第１の時間における前記第１の対の少なくとも複数の異なる周波数成分の到来方向が、第１の空間セクタにおいてコヒーレントである程度を示す第１のコヒーレンス量の値を計算すること、
前記マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、前記マルチチャネル信号の、前記第１の対と異なる第２の対のチャネルのそれぞれの第２の時間における周波数成分の位相間の差を計算することであって、それにより、第２の複数の位相差を得る、計算すること、
前記第２の複数の計算された位相差からの情報に基づいて、前記第２の時間における前記第２の対の少なくとも複数の異なる周波数成分の到来方向が、第２の空間セクタにおいてコヒーレントである程度を示す第２のコヒーレンス量の値を計算すること、
前記第１のコヒーレンス量の計算値と、ある期間にわたる前記第１のコヒーレンス量の平均値との間の関係を評価することによって、前記第１のコヒーレンス量のコントラストを計算すること、
前記第２のコヒーレンス量の計算値と、ある期間にわたる前記第２のコヒーレンス量の平均値との間の関係を評価することによって、前記第２のコヒーレンス量のコントラストを計算すること、および、
前記第１および第２のコヒーレンス量の中で、どれが最も大きなコントラストを有するかに基づいて、前記第１および第２の対のチャネルの中から一方の対を選択することを備える方法。
前記第１および第２の対のチャネルの中から一方の対を前記選択することは、（Ａ）前記第１の対のチャネルのそれぞれのエネルギー間の関係、および、（Ｂ）前記第２の対のチャネルのそれぞれのエネルギー間の関係に基づく請求項１に記載の方法。
前記第１および第２の対のチャネルの中から一方の対を前記選択することに応答して、選択された対の雑音成分の推定値を計算することを備える請求項１および２のいずれか一項に記載の方法。
前記選択された対の少なくとも１つのチャネルの少なくとも１つの周波数成分について、前記周波数成分の計算された位相差に基づいて前記周波数成分を減衰させることを備える請求項１から３のいずれか一項に記載の方法。
信号源の範囲を推定することを備え、
前記第１および第２の対のチャネルの中から一方の対を前記選択することは、前記推定された範囲に基づく請求項１から４のいずれか一項に記載の方法。
前記第１の対のチャネルのそれぞれは、第１の対のマイクロフォンの対応するマイクロフォンによって生成される信号に基づき、
前記第２の対のチャネルのそれぞれは、第２の対のマイクロフォンの対応するマイクロフォンによって生成される信号に基づく請求項１から５のいずれか一項に記載の方法。
前記第１の空間セクタは、前記第１の対のマイクロフォンのエンドファイア方向を含み、前記第２の空間セクタは、前記第２の対のマイクロフォンのエンドファイア方向を含む請求項６に記載の方法。
前記第１の空間セクタは、前記第１の対のマイクロフォンのブロードサイド方向を排除し、前記第２の空間セクタは、前記第２の対のマイクロフォンのブロードサイド方向を排除する請求項６および７のいずれか一項に記載の方法。
前記第１の対のマイクロフォンは、前記第２の対のマイクロフォンの中の１つのマイクロフォンを含む請求項６から８のいずれか一項に記載の方法。
前記第１の対のマイクロフォンの中のそれぞれのマイクロフォンの位置は、前記第１の対のマイクロフォンの中の他のマイクロフォンの位置に対して固定され、
前記第２の対のマイクロフォンの中の少なくとも１つのマイクロフォンは、前記第１の対のマイクロフォンに対して可動である請求項６から９のいずれか一項に記載の方法。
無線伝送チャネルを介して前記第２の対のチャネルの中の少なくとも１つのチャネルを受信することを備える請求項６から１０のいずれか一項に記載の方法。
前記第１および第２の対のチャネルの中から一方の対を前記選択することは、（Ａ）前記第１の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第１の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第１の対のチャネルのエネルギーと、（Ｂ）前記第２の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第２の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第２の対のチャネルのエネルギーとの間の関係（Ａ）に基づく請求項６から１１のいずれか一項に記載の方法。
信号源の範囲を推定すること、および、
前記第１および第２の時間に続く第３の時間にて、また、前記推定された範囲に基づいて、（Ａ）前記第１の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第１の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第１の対のチャネルのエネルギーと、（Ｂ）前記第２の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第２の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第２の対のチャネルのエネルギーとの間の関係（Ａ）に基づいて、前記第１および第２の対のチャネルの中から別の対を選択することを備える請求項６から１２のいずれか一項に記載の方法。
有形的な特徴であって、特徴を読取る機械に、請求項１から１３のいずれか一項に記載の方法を実施させる、有形的な特徴を有するコンピュータ可読記憶媒体。
マルチチャネル信号を処理する装置であって、
前記マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、前記マルチチャネル信号の第１の対のチャネルのそれぞれの第１の時間における周波数成分の位相間の差を計算して、第１の複数の位相差を得るための手段と、
前記第１の複数の計算された位相差からの情報に基づいて、前記第１の時間における前記第１の対の少なくとも複数の異なる周波数成分の到来方向が、第１の空間セクタにおいてコヒーレントである程度を示す第１のコヒーレンス量の値を計算するための手段と、
前記マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、前記マルチチャネル信号の、前記第１の対と異なる第２の対のチャネルのそれぞれの第２の時間における周波数成分の位相間の差を計算して、第２の複数の位相差を得るための手段と、
前記第２の複数の計算された位相差からの情報に基づいて、前記第２の時間における前記第２の対の少なくとも複数の異なる周波数成分の到来方向が、第２の空間セクタにおいてコヒーレントである程度を示す第２のコヒーレンス量の値を計算するための手段と、
前記第１のコヒーレンス量の計算値と、ある期間にわたる前記第１のコヒーレンス量の平均値との間の関係を評価することによって、前記第１のコヒーレンス量のコントラストを計算するための手段と、
前記第２のコヒーレンス量の計算値と、ある期間にわたる前記第２のコヒーレンス量の平均値との間の関係を評価することによって、前記第２のコヒーレンス量のコントラストを計算するための手段と、
前記第１および第２のコヒーレンス量の中で、どれが最も大きなコントラストを有するかに基づいて、前記第１および第２の対のチャネルの中から一方の対を選択するための手段とを備える装置。
前記第１および第２の対のチャネルの中から一方の対を選択するための前記手段は、（Ａ）前記第１の対のチャネルのそれぞれのエネルギー間の関係、および、（Ｂ）前記第２の対のチャネルのそれぞれのエネルギー間の関係に基づいて前記第１および第２の対のチャネルの中から前記一方の対を選択するように構成される請求項１５に記載の装置。
前記第１および第２の対のチャネルの中から一方の対を前記選択することに応答して、前記選択された対の雑音成分の推定値を計算するための手段を備える請求項１５および１６のいずれか一項に記載の装置。
前記第１の対のチャネルのそれぞれは、第１の対のマイクロフォンの対応するマイクロフォンによって生成される信号に基づき、
前記第２の対のチャネルのそれぞれは、第２の対のマイクロフォンの対応するマイクロフォンによって生成される信号に基づく請求項１５から１７のいずれか一項に記載の装置。
前記第１の空間セクタは、前記第１の対のマイクロフォンのエンドファイア方向を含み、前記第２の空間セクタは、前記第２の対のマイクロフォンのエンドファイア方向を含む請求項１８に記載の装置。
前記第１の空間セクタは、前記第１の対のマイクロフォンのブロードサイド方向を排除し、前記第２の空間セクタは、前記第２の対のマイクロフォンのブロードサイド方向を排除する請求項１８および１９のいずれか一項に記載の装置。
前記第１の対のマイクロフォンは、前記第２の対のマイクロフォンの中の１つのマイクロフォンを含む請求項１８から２０のいずれか一項に記載の装置。
前記第１の対のマイクロフォンの中のそれぞれのマイクロフォンの位置は、前記第１の対のマイクロフォンの中の他のマイクロフォンの位置に対して固定され、
前記第２の対のマイクロフォンの中の少なくとも１つのマイクロフォンは、前記第１の対のマイクロフォンに対して可動である請求項１８から２１のいずれか一項に記載の装置。
無線伝送チャネルを介して前記第２の対のチャネルの中の少なくとも１つのチャネルを受信するための手段を備える請求項１８から２２のいずれか一項に記載の装置。
前記第１および第２の対のチャネルの中から一方の対を選択するための前記手段は、（Ａ）前記第１の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第１の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第１の対のチャネルのエネルギーと、（Ｂ）前記第２の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第２の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第２の対のチャネルのエネルギーとの間の関係（Ａ）に基づいて前記第１および第２の対のチャネルの中から前記一方の対を選択するように構成される請求項１８から２３のいずれか一項に記載の装置。
マルチチャネル信号を処理する装置であって、
前記マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、前記マルチチャネル信号の第１の対のチャネルのそれぞれの第１の時間における周波数成分の位相間の差を計算して、第１の複数の位相差を得るように構成された第１の計算器と、
前記第１の複数の計算された位相差からの情報に基づいて、前記第１の時間における前記第１の対の少なくとも複数の異なる周波数成分の到来方向が、第１の空間セクタにおいてコヒーレントである程度を示す第１のコヒーレンス量の値を計算するように構成された第２の計算器と、
前記マルチチャネル信号の複数の異なる周波数成分のそれぞれについて、前記マルチチャネル信号の、前記第１の対と異なる第２の対のチャネルのそれぞれの第２の時間における周波数成分の位相間の差を計算して、第２の複数の位相差を得るように構成された第３の計算器と、
前記第２の複数の計算された位相差からの情報に基づいて、前記第２の時間における前記第２の対の少なくとも複数の異なる周波数成分の到来方向が、第２の空間セクタにおいてコヒーレントである程度を示す第２のコヒーレンス量の値を計算するように構成された第４の計算器と、
前記第１のコヒーレンス量の計算値と、ある期間にわたる前記第１のコヒーレンス量の平均値との間の関係を評価することによって、前記第１のコヒーレンス量のコントラストを計算するように構成された第５の計算器と、
前記第２のコヒーレンス量の計算値と、ある期間にわたる前記第２のコヒーレンス量の平均値との間の関係を評価することによって、前記第２のコヒーレンス量のコントラストを計算するように構成された第６の計算器と、
前記第１および第２のコヒーレンス量の中で、どれが最も大きなコントラストを有するかに基づいて、前記第１および第２の対のチャネルの中から一方の対を選択するように構成された選択器とを備える装置。
前記選択器は、（Ａ）前記第１の対のチャネルのそれぞれのエネルギー間の関係、および、（Ｂ）前記第２の対のチャネルのそれぞれのエネルギー間の関係に基づいて前記第１および第２の対のチャネルの中から前記一方の対を選択するように構成される請求項２５に記載の装置。
前記第１および第２の対のチャネルの中から一方の対を前記選択することに応答して、前記選択された対の雑音成分の推定値を計算するように構成された第７の計算器を備える請求項２５および２６のいずれか一項に記載の装置。
前記第１の対のチャネルのそれぞれは、第１の対のマイクロフォンの対応するマイクロフォンによって生成される信号に基づき、
前記第２の対のチャネルのそれぞれは、第２の対のマイクロフォンの対応するマイクロフォンによって生成される信号に基づく請求項２５から２７のいずれか一項に記載の装置。
前記第１の空間セクタは、前記第１の対のマイクロフォンのエンドファイア方向を含み、前記第２の空間セクタは、前記第２の対のマイクロフォンのエンドファイア方向を含む請求項２８に記載の装置。
前記第１の空間セクタは、前記第１の対のマイクロフォンのブロードサイド方向を排除し、前記第２の空間セクタは、前記第２の対のマイクロフォンのブロードサイド方向を排除する請求項２８および２９のいずれか一項に記載の装置。
前記第１の対のマイクロフォンは、前記第２の対のマイクロフォンの中の１つのマイクロフォンを含む請求項２８から３０のいずれか一項に記載の装置。
前記第１の対のマイクロフォンの中のそれぞれのマイクロフォンの位置は、前記第１の対のマイクロフォンの中の他のマイクロフォンの位置に対して固定され、
前記第２の対のマイクロフォンの中の少なくとも１つのマイクロフォンは、前記第１の対のマイクロフォンに対して可動である請求項２８から３１のいずれか一項に記載の装置。
無線伝送チャネルを介して前記第２の対のチャネルの中の少なくとも１つのチャネルを受信するように構成された受信機を備える請求項２８から３２のいずれか一項に記載の装置。
前記選択器は、（Ａ）前記第１の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第１の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第１の対のチャネルのエネルギーと、（Ｂ）前記第２の対のマイクロフォンの１つのエンドファイア方向を含みかつ前記第２の対のマイクロフォンの他のエンドファイア方向を排除するビームにおける前記第２の対のチャネルのエネルギーとの間の関係（Ａ）に基づいて前記第１および第２の対のチャネルの中から前記一方の対を選択するように構成される請求項２８から３３のいずれか一項に記載の装置。