この説明は、検知されるマルチチャネル信号の一定の周波数成分が、許容可能なマイクロフォン間角度の範囲内から生じたか、その範囲外から生じたかを判定するために、マイクロフォン間距離および周波数とマイクロフォン間位相差との間の相関に関する情報を適用するシステム、方法、および装置の開示を含む。こうした判定は、(たとえば、その範囲内から発生する音が保存され、その範囲外で発生する音が抑制されるように)異なる方向から到来する信号を識別するために、かつ/または、近接場(near-field)信号と遠方場(far-field)信号を識別するために使用されてもよい。
その文脈によって明示的に制限されない限り、用語「信号(signal)」は、ワイヤ、バス、または他の伝送媒体上で表現されるメモリロケーション(またはメモリロケーションのセット)の状態を含む、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「生成する(generating)」は、計算するまたはその他の方法で生成するなど、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「計算する(calculating)」は、複数の値から計算する、評価する、推定する、かつ/または選択するなど、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「得る(obtaining)」は、計算する、導出する、(たとえば、外部デバイスから)受取る、かつ/または(たとえば、記憶素子のアレイから)取出すなど、その通常の意味の任意の意味を示すために本明細書で使用される。その文脈によって明示的に制限されない限り、用語「選択する(selecting)」は、2つ以上のもののセットの少なくとも1つのものおよび全てより少数のものを特定する、示す、適用する、かつ/または使用するなど、その通常の意味の任意の意味を示すために本明細書で使用される。用語「備える(comprising)」は、本説明および特許請求の範囲で使用される場合、他の要素またはオペレーションを排除しない。用語「に基づく(based on)」(「AはBに基づく」の場合のような)は、(i)「から導出される(derived from)」(たとえば、「BはAの前駆体である」)場合、(ii)「少なくとも…に基づく(based on at least)」(たとえば、「Aは少なくともBに基づく」)場合、および特定の文脈で適切である場合、(iii)「に等しい(equal to)」(たとえば、「AはBに等しい」)場合を含む、その通常の意味の任意の意味を示すために使用される。同様に、用語「に応答して(in response to)」は、「少なくとも…に応答して(in response to at least)」を含む、その通常の意味の任意の意味を示すために使用される。
マルチマイクロフォンオーディオ検知デバイスのマイクロフォンの「ロケーション(location)」に対する参照は、文脈によって別途示されない限り、マイクロフォンの音響検知面の中心のロケーションを示す。用語「チャネル(channel)」は、特定の文脈に応じて、あるときには信号経路を示すために、他のときにはこうした経路によって運ばれる信号を示すために使用される。別途示されない限り、用語「一連(series)」は、2つ以上のアイテムのシーケンスを示すために使用される。用語「対数(logarithm)」は、底が10の対数を示すために使用されるが、他の底に対するこうしたオペレーションの拡張は本開示の範囲内である。用語「周波数成分(frequency component)」は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表示のサンプルなどの信号の周波数帯域または周波数のセットあるいはその信号のサブ帯域(たとえば、バークスケールまたはメルスケールサブ帯域)の中の1つを示すために使用される。
別途示されない限り、特定の特徴を有する装置のオペレーションのいずれの開示も、類似の特徴を有する方法を開示することを明示的に意図され(その逆もまた同じであり)、特定の構成による装置のオペレーションのいずれの開示も、類似の構成による方法を開示することを明示的に意図される(その逆もまた同じである)。用語「構成(configuration)」は、その特定の文脈によって示される方法、装置、および/またはシステムを参照して使用されてもよい。用語「方法(method)」、「プロセス(process)」、「手順(procedure)」、および「技法(technique)」は、特定の文脈によって別途示されない限り、汎用的にかつ交換可能に使用される。用語「装置(apparatus)」および「デバイス(device)」は、特定の文脈によって別途示されない限り、汎用的にかつ交換可能に使用される。用語「要素(element)」および「モジュール(module)」は、通常、より大きな構成のある部分を示すために使用される。その文脈によって明示的に制限されない限り、用語「システム(system)」は、「共通の目的に役立つために相互作用する要素のグループ(a group of elements that interact to serve a common purpose)」を含む、その通常の意味の任意の意味を示すために本明細書で使用される。文書のある部分の参照によるいずれの組込みも、その部分内で参照される用語または変数の定義(こうした定義はその文書の他の所で現れる)、ならびに、組込まれた部分内で参照される任意の図を組込むことと理解されるものとする。
近接場は、音受信機(たとえば、マイクロフォンアレイ)から1波長未満だけ離れている空間領域として定義されてもよい。この定義の下で、領域の境界までの距離は、周波数と逆に変わる。たとえば、200、700、および2000ヘルツの周波数では、1波長境界までの距離は、それぞれ約170、49、および17センチメートルである。その代わりに、近接場/遠方場境界を、マイクロフォンアレイから特定の距離(たとえば、アレイのマイクロフォンからまたはアレイの中心から50センチメートルあるいはアレイのマイクロフォンからまたはアレイの中心から1メートルまたは1.5メートル)にあるものとして考えることが有用である場合がある。
図1は、通常のハンドセットモード保持位置で使用されている2マイクロフォンアレイ(第1のマイクロフォンおよび第2のマイクロフォンを含む)を有するハンドセットの例を示す。この例では、アレイの第1のマイクロフォンは、ハンドセットの正面側に(すなわち、ユーザに向かって)あり、第2のマイクロフォンは、ハンドセットの背面側に(すなわち、ユーザから離れて)あるが、アレイは、ハンドセットの同じ側にマイクロフォンを有するように構成されてもよい。
ハンドセットがこの保持位置にある状態で、マイクロフォンアレイからの信号は、デュアルマイクロフォン雑音低減をサポートするために使用されてもよい。たとえば、ハンドセットは、マイクロフォンアレイを介して受信されるステレオ信号(すなわち、各チャネルが、2つのマイクロフォンの対応するマイクロフォンによって生成される信号に基づくステレオ信号)に関して空間選択的処理(spatially selective processing)(SSP)オペレーションを実施するように構成されてもよい。SSPオペレーションの例は、チャネル間の位相および/またはレベル(たとえば、振幅、利得、エネルギー)の差に基づいて、受信されるマルチチャネル信号の1つまたは複数の周波数成分の到来方向(direction of arrival)(DOA)を示すオペレーションを含む。SSPオペレーションは、前方エンドファイア方向からアレイに到来する音による信号成分(たとえば、ユーザの口の方向から到来する所望の音声信号)と、ブロードサイド方向からアレイに到来する音による信号成分(たとえば、周囲環境からの雑音)とを区別するように構成されてもよい。
デュアルマイクロフォン配置構成は、指向性雑音の影響を受けやすい場合がある。たとえば、デュアルマイクロフォン配置構成は、大きな空間領域内に位置する信号源から到来する音を許容する可能性があり、それにより、位相ベース指向性コヒーレンスおよび利得差用の厳しい閾値に基づいて近接場信号源と遠方場信号源を識別することが難しい可能性がある。
デュアルマイクロフォン雑音低減技法は、通常、マイクロフォンアレイの軸から遠い方向から所望の音信号が到来するときに効果的でない。ハンドセットが口から離して(たとえば、図2に示す角度のある保持位置のいずれかに)保持されるとき、マイクロフォンアレイの軸は、口に対してブロードサイドであり、効果的なデュアルマイクロフォン雑音低減が可能でない可能性がある。ハンドセットがこうした位置に保持される時間間隔中のデュアルマイクロフォン雑音低減の使用は、所望の音声信号の減衰をもたらす可能性がある。ハンドセットモードについて、デュアルマイクロフォンベーススキームは、通常、広い範囲の電話保持位置の少なくとも一部の位置において所望のスピーチレベルを減衰することなく、広い範囲の電話保持位置にわたって整合性のある雑音低減を提供できない。
アレイのエンドファイア方向が、ユーザの口から離れた方を指す保持位置の場合、スピーチ減衰を回避するために、シングルマイクロフォン雑音低減スキームに切換えることが望ましい場合がある。こうしたオペレーションは、(たとえば、時間平均された雑音信号を周波数領域においてチャネルから減算することによって)定常雑音を低減することができ、かつ/または、これらのブロードサイド時間間隔中にスピーチを保存することができる。しかし、シングルマイクロフォン雑音低減スキームは、通常、非定常雑音(たとえば、インパルスならびに他の突然のおよび/または一過性の雑音事象)の低減をもたらさない。
ハンドセットモードで遭遇する可能性がある広い範囲の角度のある保持位置の場合、デュアルマイクロフォン手法は、通常、整合性のある雑音低減と所望のスピーチレベル保存を同時に提供しないと結論付けられ得る。
提案される解決策は、3つ以上のマイクロフォンのセットを、セットの中からアレイ(たとえば、選択されたマイクロフォン対)を選択する切換え方策と共に、使用する。換言すれば、切換え方策は、セットのマイクロフォンの全てより少数のマイクロフォンのアレイを選択する。この選択は、マイクロフォンのセットによって生成されるマルチチャネル信号の少なくとも1つの周波数成分の到来方向に関連する情報に基づく。
エンドファイア配置構成では、マイクロフォンアレイは、アレイの軸が信号源に向くように信号源(たとえば、ユーザの口)に対して方向付けされる。こうした配置構成は、所望のスピーチ−雑音信号の最大限に差別化された2つの混合物を提供する。ブロードサイド配置構成では、マイクロフォンアレイは、アレイの中心から信号源への方向がアレイの軸にほぼ垂直(orthogonal)であるように信号源(たとえば、ユーザの口)に対して方向付けされる。こうした配置構成は、基本的に非常に似ている所望のスピーチ−雑音信号の2つの混合物を生成する。その結果、エンドファイア配置構成は、通常、雑音低減オペレーションをサポートするために、(たとえば、可搬型デバイス上の)小型マイクロフォンアレイが使用されている場合について好ましい。
図3、4、および5は、その前面に3つのマイクロフォンの列およびその背面に別のマイクロフォンを有するハンドセット用の異なる使用の場合(ここでは、異なる保持位置)の例を示す。図3では、ハンドセットは、ユーザの口が、前面の中央マイクロフォン(第1のマイクロフォンとして)および背面のマイクロフォン(第2のマイクロフォンとして)のアレイのエンドファイア方向になるように通常の保持位置に保持され、切換え方策は、この対を選択する。図4では、ハンドセットは、ユーザの口が、前面の左マイクロフォン(第1のマイクロフォンとして)および前面の中央マイクロフォン(第2のマイクロフォンとして)のアレイのエンドファイア方向になるように保持され、切換え方策は、この対を選択する。図5では、ハンドセットは、ユーザの口が、前面の右マイクロフォン(第1のマイクロフォンとして)および前面の中央マイクロフォン(第2のマイクロフォンとして)のアレイのエンドファイア方向になるように保持され、切換え方策は、この対を選択する。
こうした技法は、ハンドセットモードについて、3つ、4つ、またはそれより多い数のマイクロフォンのアレイに基づくことができる。図6は、こうした方策を実施するように構成され得る5つのマイクロフォンのセットを有するハンドセットD340の正面図、背面図、および側面図を示す。この例では、マイクロフォンのうちの3つは前面上の直線アレイで位置し、別のマイクロフォンは前面の上部角に位置し、別のマイクロフォンは、背面に位置する。図7は、こうした方策を実施するように構成され得る5つのマイクロフォンの異なる配置構成を有するハンドセットD360の正面図、背面図、および側面図を示す。この例では、マイクロフォンのうちの3つは前面に位置し、マイクロフォンのうちの2つは背面に位置する。こうしたハンドセットのマイクロフォン間の最大距離は、通常、約10または12センチメートルである。こうした方策を実施するように構成され得る2つ以上のマイクロフォンを有するハンドセットの他の例が本明細書で述べられる。
こうした切換え方策と共に使用するためのマイクロフォンのセットを設計するとき、予想される全ての信号源−デバイス方向付けについて、少なくとも1つの実質的にエンドファイアに方向付けされたマイクロフォン対が存在する可能性があるように、個々のマイクロフォン対の軸を方向付けすることが望ましい場合がある。結果として得られる配置構成は、意図される特定の使用の場合に応じて変わる可能性がある。
一般に、本明細書で述べる切換え方策は、(以下で述べる方法M100の種々の実装態様の場合のように)音響信号を受信するように構成された2つ以上のマイクロフォンのアレイR100をそれぞれ有する1つまたは複数の可搬型オーディオ検知デバイスを使用して実装されてもよい。こうしたアレイを含み、オーディオ記録および/または音声通信アプリケーションのためのこの切換え方策と共に使用されるように構築されてもよい可搬型オーディオ検知デバイスの例は、電話ハンドセット(たとえば、携帯電話ハンドセット)、有線または無線ハンドセット(たとえば、ブルートゥースヘッドセット)、手持ち式オーディオおよび/またはビデオレコーダ、オーディオおよび/またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末(PDA)または他の手持ち式コンピューティングデバイス、ならびに、ノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他の可搬型コンピューティングデバイスを含む。アレイR100の例を含み、この切換え方策と共に使用されるように構築されてもよいオーディオ検知デバイスの他の例は、セットトップボックスおよびオーディオおよび/またはビデオ会議デバイスを含む。
アレイR100の各マイクロフォンは、全方向性、双方向性、または1方向性(たとえば、カージオイド)である応答を有してもよい。アレイR100で使用されてもよい種々のタイプのマイクロフォンは、(制限なしで)圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンを含む。ハンドセットまたはヘッドセットなどの可搬型音声通信用のデバイスでは、アレイR100の隣接マイクロフォン間の中心−中心間隔は、通常、約1.5cm〜約4.5cmの範囲にあるが、より大きな間隔(たとえば、10または15cmまで)も、ハンドセットまたはスマートフォンなどのデバイスで可能であり、さらに大きな間隔(たとえば、20、25、または30cm以上まで)が、タブレットコンピュータなどのデバイスで可能である。補聴器では、アレイR100の隣接マイクロフォン間の中心−中心間隔は、約4または5mmほどの小ささであってよい。アレイR100のマイクロフォンは、直線に沿って、または別法として、マイクロフォンの中心が、2次元(たとえば三角形)形状または3次元形状の頂点に存在するように配列されてもよい。しかし、一般に、アレイR100のマイクロフォンは、特定のアプリケーションに適すると思われる任意の構成で配設されてもよい。たとえば図6および7はそれぞれ、正多角形に適合しないアレイR100の5マイクロフォン実装態様の例を示す。
本明細書で述べるマルチマイクロフォンオーディオ検知デバイスのオペレーション中に、アレイR100は、マルチチャネル信号を生成し、各チャネルは、音響環境に対するマイクロフォンのうちの対応する1つのマイクロフォンの応答に基づく。1つのマイクロフォンは、別のマイクロフォンに比べてより直接的に特定の音を受ける可能性があり、それにより、対応するチャネルは互いに異なり、単一マイクロフォンを使用して取得されうるものよりも、音響環境のより完全な表現を集合的に提供する。
マルチチャネル信号S10を生成するために、アレイR100が、マイクロフォンによって生成される信号に関して1つまたは複数の処理オペレーションを実施することが望ましい場合がある。図8Aは、1つまたは複数のこうしたオペレーションを実施するように構成されたオーディオ前処理ステージAP10を含むアレイR100の実装態様R200のブロック図を示しており、1つまたは複数のこうしたオペレーションは、(制限なしで)インピーダンス整合、アナログ−デジタル変換、利得制御、および/または、アナログおよび/デジタル領域におけるフィルタリングを含んでもよい。
図8Bは、アレイR200の実装態様R210のブロック図を示す。アレイR210は、アナログ前処理ステージP10aおよびP10bを含むオーディオ前処理ステージAP10の実装態様AP20を含む。一例では、ステージP10aおよびP10bはそれぞれ、対応するマイクロフォン信号に関して(50、100、または200Hzのカットオフ周波数を有する)ハイパスフィルタリングオペレーションを実施するように構成される。
アレイR100が、デジタル信号として、すなわちサンプルのシーケンスとしてマルチチャネル信号を生成することが望ましい場合がある。アレイR210は、たとえば、対応するアナログチャネルをサンプリングするようにそれぞれが配列されるアナログ−デジタル変換器(ADC)C10aおよびC10bを含む。音響アプリケーション用の典型的なサンプリングレートは、8kHz、12kHz、16kHz、および約8〜約16kHzの範囲の他の周波数を含むが、約44kHz程度の高いサンプリングレートが使用されてもよい。この特定の例では、アレイR210はまた、対応するデジタル化されたチャネルに関して1つまたは複数の前処理オペレーション(たとえば、エコー除去、雑音低減、および/または、スペクトル整形)を実施するようにそれぞれが構成されたデジタル前処理ステージP20aおよびP20bを含む。
アレイR100のマイクロフォンは、音以外の放射または放出に高感度な変換器としてより一般的に実装されてもよいことが明示的に留意される。1つのこうした例では、アレイR100のマイクロフォンは、超音波変換器(たとえば、15、20、25、30、40、または50キロヘルツ以上より大きな音響周波数に高感度な変換器)として実装される。
図9A〜9Dは、マルチマイクロフォン可搬型オーディオ検知デバイスD100の種々の図を示す。デバイスD100は、アレイR100の2マイクロフォン実装態様を保持するハウジングZ10およびハウジングから延在するイヤフォンZ20を含む無線ヘッドセットである。こうしたデバイスは、(たとえば、Bluetooth(登録商標) Special Interest Group,Inc.(ワシントン州ベルビュー(Bellevue,WA)所在)によって公表されたあるバージョンのブルートゥース(商標)プロトコルを使用して)携帯電話ハンドセットなどの電話デバイスとの通信を介して半2重または全2重電話通信をサポートするように構成されてもよい。一般に、ヘッドセットのハウジングは、図9A、9B、および9Dに示すように、長方形かまたはその他の方法で細長くても(たとえば、ミニブーム(mini-boom)に似た形状でも)よく、あるいは、より丸いかまたはさらに円形であってよい。ハウジングはまた、電池およびプロセッサおよび/または他の処理回路(たとえば、プリント回路板およびその上に搭載されたコンポーネント)を含んでもよく、また、電気ポート(たとえば、ミニユニバーサルシリアルバス(USB)または電池充電用の他のポート)および1つまたは複数のボタンスイッチおよび/またはLEDなどのユーザインタフェース特徴を含んでもよい。通常、その主要な軸に沿うハウジングの長さは、1〜3インチの範囲である。
通常、アレイR100の各マイクロフォンは、音響ポートの役をする、ハウジング内の1つまたは複数の小さな穴の背後のデバイス内に搭載される。図9B〜9Dは、デバイスD100のアレイの第1のマイクロフォン用の音響ポートZ40およびデバイスD100のアレイの第2のマイクロフォン用の音響ポートZ50のロケーションを示す。
ヘッドセットはまた、通常はヘッドセットから着脱可能である耳フックZ30などの取付けデバイスを含んでもよい。外部耳フックは、たとえばユーザがどちらの耳でも使用するためにヘッドセットを構成することを可能にするために、反転可能であってよい。あるいは、ヘッドセットのイヤフォンは、内部取付けデバイス(たとえば、耳プラグ)として設計されてもよく、内部取付けデバイスは、特定のユーザの外耳道の外側部分によりよく合わせるために、異なるユーザが異なるサイズ(たとえば直径)のイヤピースを使用することを可能にする取外し可能なイヤピースを含んでもよい。
図10A〜10Dは、無線ヘッドセットの別の例であるマルチマイクロフォン可搬型オーディオ検知デバイスD200の種々の図を示す。デバイスD200は、丸い楕円形のハウジングZ12およびイヤプラグとして構成されてもよいイヤフォンZ22を含む。図10A〜10Dはまた、デバイスD200のアレイの第1のマイクロフォン用の音響ポートZ42および第2のマイクロフォン用の音響ポートZ52のロケーションを示す。第2のマイクロフォンポートZ52は、(たとえば、ユーザインタフェースボタンによって)少なくとも部分的に閉塞されてもよいことが可能である。
図11Aは、通信ハンドセットであるマルチマイクロフォン可搬型オーディオ検知デバイスD300の(中心軸に沿う)断面図を示す。デバイスD300は、第1のマイクロフォンMC10および第2のマイクロフォンMC20を有するアレイR100の実装態様を含む。この例では、デバイスD300はまた、第1のラウドスピーカSP10および第2のラウドスピーカSP20を含む。こうしたデバイスは、1つまたは複数の符号化および復号化スキーム(「コーデックス(codecs)」とも呼ばれる)によって、無線で音声通信データを送受信するように構成されてもよい。こうしたコーデックスの例は、「Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems」(February 2007)という名称の第3世代パートナーシッププロジェクト2(3GPP2)文書C.S0014−C,v1.0に記載される強化可変レートコーデック(Enhanced Variable Rate Codec)(www−dot−3gpp−dot−orgにてオンラインで入手可能)、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」(January 2004)という名称の3GPP2文書C.S0030−0,v3.0に記載される選択可能モードボコーダスピーチコーデック(Selectable Mode Vocoder speech codec)(www−dot−3gpp−dot−orgにてオンラインで入手可能)、文書ETSI TS 126 092 V6.0.0(欧州電気通信標準化機構(ETSI),Sophia Antipolis Cedex,FR,December 2004)に記載される適応マルチレート(Adaptive Multi Rate)(AMR)スピーチコーデック、および文書ETSI TS 126 192 V6.0.0(ETSI,December 2004)に記載されるAMR広帯域スピーチコーデック(Wideband speech codec)を含む。図3Aの例では、ハンドセットD300は、クラムシェルタイプの携帯電話ハンドセット(「フリップ(flip)」ハンドセットとも呼ばれる)である。こうしたマルチマイクロフォン通信ハンドセットの他の構成は、バータイプおよびスライダタイプ電話ハンドセットを含む。図11Bは、第3のマイクロフォンMC30を含むアレイR100の3マイクロフォン実装態様を含むデバイスD300の実装態様D310の断面図を示す。
図12Aは、メディアプレーヤであるマルチマイクロフォン可搬型オーディオ検知デバイスD400の線図を示す。こうしたデバイスは、標準的な圧縮形式(たとえば、ムービングピクチャエキスパートグループ(MPEG)−1オーディオレイヤ3(MP3)、MPEG−4 パート14(MP4)、ウィンドウズ(登録商標)メディアオーディオ/ビデオ(WMA/WMV)(Microsoft Corp.、ワシントン州レドモンド(Redmond, WA)所在)、アドバンストオーディオコーディング(AAC)、国際電気通信連合(ITU)−T H.264、または同様なもの)に従って符号化されたファイルまたはストリームなどの、圧縮されたオーディオまたはオーディオビジュアル情報の再生のために構成されてもよい。デバイスD400は、ディスプレイスクリーンSC10およびデバイスの前面に配設されたラウドスピーカSP10を含み、アレイR100のマイクロフォンMC10およびMC20は、デバイスの同じ面に(たとえば、この例の場合と同様に上部面の対向する側に、または、前面の対向する側に)配設される。図12Bは、マイクロフォンMC10およびMC20がデバイスの対向する面に配設されるデバイスD400の別の実装態様D410を示し、図12Cは、マイクロフォンMC10およびMC20がデバイスの隣接面に配設されるデバイスD400のさらなる実装態様D420を示す。メディアプレーヤはまた、意図される使用中に、長い軸が水平であるように設計されてもよい。
アレイR100の4マイクロフォンの場合の例では、マイクロフォンは、ほぼ4面体構成で配列され、それにより、1つのマイクロフォンは、その頂点が、約3センチメートル離間する他の3つのマイクロフォンの位置によって画定される三角形の後に(たとえば、約1センチメートル後に)配置される。こうしたアレイについての考えられるアプリケーションは、話し手の口とアレイとの間の予想距離が約20〜30センチメートルであるスピーカフォンモードで動作するハンドセットを含む。図13Aは、4つのマイクロフォンMC10、MC20、MC30、MC40がほぼ4面体構成で配列されるアレイR100の実装態様を含むハンドセットD320の正面図を示す。図13Bは、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示すハンドセットD320の側面図を示す。
ハンドセットアプリケーションのためのアレイR100の4マイクロフォンの場合の別の例は、ハンドセットの前面に(たとえば、キーパッドの1、7、および9の位置の近くに)3つのマイクロフォンを、また、背面(たとえば、キーパッドの7または9の位置の背後に)1つのマイクロフォンを含む。図13Cは、4つのマイクロフォンMC10、MC20、MC30、MC40が「星形(star)」構成で配列されるアレイR100の実装態様を含むハンドセットD330の正面図を示す。図13Dは、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示すハンドセットD330の側面図を示す。本明細書で述べる切換え方策を実施するために使用されてもよい可搬型オーディオ検知デバイスの他の例は、ハンドセットD320およびD330のタッチスクリーン実装態様(たとえば、iPhone(Apple Inc.,カルフォルニア州クパチーノ(Cupartino, CA)所在)、HD2(HTC,台湾,ROC所在)、またはCLIQ(Motorola Inc.,イリノイ州シャウムバーグ(Schaumberg, IL)所在)などのフラットで非折り曲げスラブ(slabs))を含み、マイクロフォンは、タッチスクリーンの周縁に同様な方式で配列される。
図14は、手持ち用途のための可搬型マルチマイクロフォンオーディオ検知デバイスD800の線図を示す。デバイスD800は、タッチスクリーンディスプレイTS10、ユーザインタフェース選択コントロールUI10(左側)、ユーザインタフェースナビゲーションコントロールUI20(右側)、2つのラウドスピーカSP10およびSP20、ならびに、3つの前面マイクロフォンMC10、MC20、MC30および背面マイクロフォンMC40を含むアレイR100の実装態様を含む。ユーザインタフェースコントロールはそれぞれ、プッシュボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティック、および/または他のポインティングデバイスなどの1つまたは複数を使用して実装されてもよい。ブラウズトークモードまたはゲームプレイモードで使用されてもよいデバイスD800の典型的なサイズは、約15センチメートル×20センチメートルである。可搬型マルチマイクロフォンオーディオ検知デバイスは、タブレットコンピュータとして同様に実装されてもよく、タブレットコンピュータは、上部表面にタッチスクリーンディスプレイ(たとえば、iPad(Apple Inc.)、Slate(Hewlett−Packard Co.,カルフォルニア州パロアルト(Palo Alto, CA)所在)、またはStreak(Dell Inc.,テキサス州ラウンドロック(Round Rock, TX)所在)などの「スレート(slate)」)を含み、アレイR100のマイクロフォンは、タブレットコンピュータの上部表面の縁部内に、かつ/または、1つまたは複数の側部表面に配設される。
図15Aは、ハンズフリーカーキットであるマルチマイクロフォン可搬型オーディオ検知デバイスD500の線図を示す。こうしたデバイスは、車両のダッシュボード、フロントガラス、バックミラー、サンバイザ、または別の内側表面に設置されるか、その上に設置されるか、またはそこに取外し可能に固定されるように構成されてもよい。デバイスD500は、ラウドスピーカ85およびアレイR100の実装態様を含む。この特定の例では、デバイスD500は、直線アレイに配列された4つのマイクロフォンとしてアレイR100の実装態様R102を含む。こうしたデバイスは、先に挙げた例などの1つまたは複数のコーデックスによって、無線で音声通信データを送受信するように構成されてもよい。別法としてまたは付加的に、こうしたデバイスは、(上述した、あるバージョンのブルートゥース(商標)プロトコルを使用して)携帯電話ハンドセットなどの電話デバイスとの通信を介して半2重または全2重電話通信をサポートするように構成されてもよい。
図15Bは、書込みデバイス(たとえば、ペンまたはペンシル)であるマルチマイクロフォン可搬型オーディオ検知デバイスD600の線図を示す。デバイスD600は、アレイR100の実装態様を含む。こうしたデバイスは、先に挙げた例などの1つまたは複数のコーデックスによって、無線で音声通信データを送受信するように構成されてもよい。別法としてまたは付加的に、こうしたデバイスは、(上述した、あるバージョンのブルートゥース(商標)プロトコルを使用して)携帯電話ハンドセットおよび/または無線ヘッドセットなどのデバイスとの通信を介して半2重または全2重電話通信をサポートするように構成されてもよい。デバイスD600は、アレイR100によって生成される信号におけるスクラッチ雑音82のレベルを低減する空間選択的な処理オペレーションを実施するように構成された1つまたは複数のプロセッサを含んでもよく、スクラッチ雑音は、描画表面81(たとえば、一枚の紙)にわたるデバイスD600の先端の移動から生じる可能性がある。
可搬型コンピューティングデバイスの種類は、現在のところ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、移動体インターネットデバイス、スマートブック、またはスマートフォンなどの名前を持つデバイスを含む。1つのタイプのこうしたデバイスは、上述したようにスレートまたはスラブ構成を有し、また、スライドアウト式キーボードを含んでもよい。図16A〜16Dは、ディスプレイスクリーンを含む上部パネルおよびキーボードを含んでもよい底部パネルを有する別のタイプのこうしたデバイスを示し、2つのパネルは、クラムシェルまたは他のヒンジ式関係で接続されてもよい。
図16Aは、ディスプレイスクリーンSC10の上の上部パネルPL10上に直線アレイで配列された4つのマイクロフォンMC10、MC20、MC30、MC40を含むこうしたデバイスD700の例の正面図を示す。図16Bは、別の角度で4つのマイクロフォンの位置を示す上部パネルPL10の平面図を示す。図16Cは、ディスプレイスクリーンSC10の上の上部パネルPL12上に非直線アレイで配列された4つのマイクロフォンMC10、MC20、MC30、MC40を含むこうした可搬型コンピューティングデバイスD710の別の例の正面図を示す。図16Dは、別の角度で4つのマイクロフォンの位置を示す上部パネルPL12の平面図を示し、マイクロフォンMC10、MC20、およびMC30はパネルの前面に配設され、マイクロフォンMC40はパネルの背面に配設される。
図17A〜17Cは、アレイR100の例を含むように実装され、本明細書で開示される切換え方策と共に使用されることができる可搬型オーディオ検知デバイスのさらなる例を示す。これらの例のそれぞれにおいて、アレイR100のマイクロフォンは白丸で示される。図17Aは、少なくとも1つの前に方向付けされたマイクロフォン対を有するメガネ(たとえば、度付きメガネ、サングラス、または安全メガネ)を示し、対の一方のマイクロフォンはこめかみ上に、他のマイクロフォンは、こめかみまたは対応する末端部上にある。図17Bは、アレイR100が1つまたは複数のマイクロフォン対(この例では、口の対およびユーザの頭部の両側の対)を含むヘルメットを示す。図17Cは、少なくとも1つのマイクロフォン対(この例では、前面および側面対)を含むゴーグル(たとえば、スキーゴーグル)を示す。
本明細書で開示される切換え方策と共に使用されるための、1つまたは複数のマイクロフォンを有する可搬型オーディオ検知デバイスのためのさらなる配置例は、キャップまたはハットのバイザまたはつば、ラペル、胸ポケット、肩、上腕(すなわち、肩と肘との間)、前腕(すなわち、肘と手首との間)、袖口、または腕時計を含むが、それに限定されない。方策において使用される1つまたは複数のマイクロフォンは、カメラまたはカムコーダなどの手持ち式デバイス上に存在してもよい。
本明細書で開示される切換え方策の適用は、可搬型オーディオ検知デバイスに限定されない。図18は、複数信号源環境(たとえば、オーディオまたはビデオ会議アプリケーション)におけるアレイR100の3マイクロフォン実装態様の例を示す。この例では、マイクロフォン対MC10−MC20は、話者SAおよびSCに関してエンドファイア配置構成にあり、マイクロフォン対MC20−MC30は、話者SBおよびSDに関してエンドファイア配置構成にある。その結果、話者SAおよびSCがアクティブであるとき、マイクロフォン対MC10−MC20によって取得された信号を使用して雑音低減を実施することが望ましい可能性があり、話者SBおよびSDがアクティブであるとき、マイクロフォン対MC20−MC30によって取得された信号を使用して雑音低減を実施することが望ましい可能性がある。異なる話者配置について、マイクロフォン対MC10−MC30によって取得された信号を使用して雑音低減を実施することが望ましい可能性があることが留意される。
図19は、アレイR100がさらなるマイクロフォンMC40を含む関連する例を示す。図20は、異なる相対的なアクティブ話者ロケーションについて、切換え方策が、アレイの異なるマイクロフォン対をどのように選択するかを示す。
図21A〜21Dは、会議デバイスのいくつかの例の平面図を示す。図20Aは、アレイR100の3マイクロフォン実装態様(マイクロフォンMC10、MC20、およびMC30)を含む。図20Bは、アレイR100の4マイクロフォン実装態様(マイクロフォンMC10、MC20、MC30、およびMC40)を含む。図20Cは、アレイR100の5マイクロフォン実装態様(マイクロフォンMC10、MC20、MC30、MC40、およびMC50)を含む。図20Dは、アレイR100の6マイクロフォン実装態様(マイクロフォンMC10、MC20、MC30、MC40、MC50、およびMC60)を含む。正多角形の対応する頂点にアレイR100のマイクロフォンのそれぞれを配置することが望ましい可能性がある。遠方端オーディオ信号の再生用のラウドスピーカSP10は、(たとえば、図20Aに示すように)デバイス内に含まれてもよい、かつ/または、こうしたラウドスピーカは、(たとえば、音響フィードバックを低減するために)デバイスから離れて位置してもよい。さらなる遠方場使用の場合の例は、(たとえば、ボイスオーバIP(Voice over IP)(VoIP)アプリケーションをサポートするための)TVセットトップボックスおよびゲームコンソール(たとえば、Microsoft Xbox、Sony Playstation、Nintendo Wii)を含む。
本明細書で開示されるシステム、方法、および装置の適用可能性は、図6〜21Dに示す特定の例を含み、また、それに限定されないことが明示的に開示される。切換え方策の実装態様で使用されるマイクロフォン対は、さらに、対がある期間にわたって互いに対して可動であるように、異なるデバイス(すなわち、分散セット)上に位置してもよい。こうした実装態様で使用されるマイクロフォンは、可搬型メディアプレーヤ(たとえば、Apple iPod)と電話、ヘッドセットと電話、ラペルマウントと電話、可搬型コンピューティングデバイス(たとえば、タブレット)および電話またはヘッドセット、ユーザの身体にそれぞれが装着される2つの異なるデバイス、ユーザの身体に装着されるデバイスとユーザの手に保持されるデバイス、ユーザによって装着されるかまたは保持されるデバイスとユーザによって装着されないかまたは保持されないデバイスなどの両方の上に位置してもよい。異なるマイクロフォン対からのチャネルは、異なる周波数範囲および/または異なるサンプリングレートを有してもよい。
切換え方策は、所与の信号源−デバイス方向付け(たとえば、所与の電話保持位置)について最良のエンドファイアマイクロフォン対を選択するように構成されてもよい。たとえば全ての保持位置について、切換え方策は、複数のマイクロフォン(たとえば、4つのマイクロフォン)の選択から、ユーザの口に向かってエンドファイア方向にほぼ方向付けられるマイクロフォン対を特定するように構成されてもよい。この特定は、マイクロフォン信号間の位相および/または利得差に基づいてもよい近接場DOA推定に基づいてもよい。特定されたマイクロフォン対からの信号は、マイクロフォン信号間の位相および/または利得差に基づいてもよい、デュアルマイクロフォン雑音低減などの1つまたは複数のマルチチャネル空間選択的処理オペレーションをサポートするために使用されてもよい。
図22Aは、一般的な構成による方法M100(たとえば、切換え方策)用のフローチャートを示す。方法M100は、たとえば3つ以上のマイクロフォンのセットのマイクロフォンの異なる対の間で切換えるための決定機構として実装されてもよく、その場合、マイクロフォンのセットの各マイクロフォンは、マルチチャネル信号の対応するチャネルを生成する。方法M100は、マルチチャネル信号の所望の音成分(たとえば、ユーザの音声の音)の到来方向(DOA)に関連する情報を計算するタスクT100を含む。方法M100はまた、計算されたDOA情報に基づいて、マルチチャネル信号のチャネルの適切なサブセット(すなわち、全てより少数のチャネル)を選択するタスクT200を含む。たとえば、タスクT200は、そのエンドファイア方向が、タスクT100によって示されるDOAに対応するマイクロフォン対のチャネルを選択するように構成されてもよい。タスクT200はまた、(たとえば、オーディオおよび/またはビデオ会議アプリケーションなどの複数信号源アプリケーションについて)一度に2つ以上のサブセットを選択するように実装されてもよいことが明示的に留意される。
図22Bは、一般的な構成による装置MF100のブロック図を示す。装置MF100は、(たとえば、本明細書で述べるタスクT100の実装態様を実施することによって)マルチチャネル信号の所望の音成分の到来方向(DOA)に関連する情報を計算するための手段F100および(たとえば、本明細書で述べるタスクT200の実装態様を実施することによって)計算されたDOA情報に基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するための手段F200を含む。
図22Cは、一般的な構成による装置A100のブロック図を示す。装置A100は、(たとえば、本明細書で述べるタスクT100の実装態様を実施することによって)マルチチャネル信号の所望の音成分の到来方向(DOA)に関連する情報を計算するように構成される方向情報計算器100および(たとえば、本明細書で述べるタスクT200の実装態様を実施することによって)計算されたDOA情報に基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するように構成されるサブセット選択器200を含む。
タスクT100は、対応するチャネル対の各時間−周波数点についてマイクロフォン対に関する到来方向を計算するように構成されてもよい。指向性マスキング関数は、所望の範囲(たとえば、エンドファイアセクタ)内の到来方向を有する点と、他の到来方向を有する点とを区別するために、これらの結果に適用されてもよい。マスキングオペレーションからの結果はまた、マスクの外側の到来方向を有する時間−周波数点を廃棄するかまたは減衰させることによって、望ましくない方向からの信号を除去するために使用されてもよい。
タスクT100は、マルチチャネル信号を一連のセグメントとして処理するように構成されてもよい。典型的なセグメント長は、約5または10ミリ秒〜約40または50ミリ秒の範囲にあり、セグメントは、オーバラップしてもよく(たとえば、隣接セグメントが、25%または50%だけオーバラップする)、または、オーバラップしなくてもよい。1つの特定の例では、マルチチャネル信号は、それぞれが10ミリ秒の長さを有する一連の非オーバラップセグメントまたは「フレーム(frame)」に分割される。タスクT100によって処理されるセグメントはまた、異なるオペレーションによって処理されるより大きなセグメントのセグメント(すなわち、「サブフレーム(subframe)」)であってよく、またはその逆であってもよい。
タスクT100は、マイクロフォンのアレイ(たとえば、マイクロフォン対)からのマルチチャネル記録を使用していくつかの空間セクタ内の指向性コヒーレンスに基づいて近接場信号源のDOAを示すように構成されてもよい。図23Aは、サブタスクT110およびT120を含んでいるタスクT100の実装態様T102のフローチャートを示す。タスクT110によって計算される複数の位相差に基づいて、タスクT120は、複数の空間セクタの1つまたは複数のそれぞれにおけるマルチチャネル信号の指向性コヒーレンスの程度を評価する。
タスクT110は、高速フーリエ変換(FFT)または離散コサイン変換(DCT)などの、各チャネルの周波数変換を計算することを含んでもよい。タスクT110は、通常、各セグメントについてチャネルの周波数変換を計算するように構成される。たとえば各セグメントの128点または256点FFTを実施するようにタスクT110を構成することが望ましい場合がある。タスクT110の代替の実装態様は、一連のサブ帯域フィルタを使用して、チャネルの種々の周波数成分を分離するように構成される。
タスクT110はまた、異なる周波数成分(「ビン(bins)」とも呼ばれる)のそれぞれについて、マイクロフォンチャネルの位相を計算すること(たとえば、推定すること)を含んでもよい。たとえば、検査される各周波数成分について、タスクT110は、対応するFFT係数の虚数項とFFT係数の実数項との比の逆タンジェント(アークタンジェントとも呼ばれる)として位相を推定するように構成されてもよい。
タスクT110は、各チャネルについての推定された位相に基づいて、異なる周波数成分のそれぞれについて位相差Δφを計算する。タスクT110は、1つのチャネルにおけるその周波数成分についての推定位相を、別のチャネルにおけるその周波数成分についての推定位相から減算することによって、位相差を計算するように構成されてもよい。たとえば、タスクT110は、第1のチャネルにおけるその周波数成分についての推定位相を、別の(たとえば、第2の)チャネルにおけるその周波数成分についての推定位相から減算することによって、位相差を計算するように構成されてもよい。こうした場合、第1のチャネルは、デバイスの通常の使用中に、ユーザの音声を最も直接に受けると予想されるマイクロフォンに対応するチャネルなどの、最も高い信号対雑音比を有すると予想されるチャネルであり得る。
周波数の広帯域範囲にわたって各対のチャネル間の指向性コヒーレンスを確定するように方法M100(または、こうした方法を実施するように構成されたシステムまたは装置)を構成することが望ましい場合がある。こうした広帯域範囲は、たとえば、0、50、100、または200Hzの周波数下限から3、3.5、または4kHz(または、7または8kHz以上までなどのさらに高い値)の周波数上限まで延びてもよい。しかし、タスクT110が、信号の全帯域幅にわたって位相差を計算することは必要でない場合がある。たとえば、こうした広帯域範囲における多くの帯域について、位相推定は、実用的でないまたは不必要である場合がある。非常に低い周波数における受信波形の位相関係の実用的な評価は、通常、変換器間に相応して大きな間隔を必要とする。その結果、マイクロフォン間の利用可能な最大間隔は、周波数下限を確立する可能性がある。一方、マイクロフォン間の距離は、空間エイリアシングを回避するために、最小波長の半分を超えるべきではない。たとえば、8キロヘルツのサンプリングレートは、0〜4キロヘルツの帯域幅を与える。4kHz信号の波長は、約8.5センチメートルであるため、この場合、隣接マイクロフォン間の間隔は、約4センチメートルを超えるべきではない。マイクロフォンチャネルは、空間エイリアシングを生じさせる可能性がある周波数を除去するためにローパスフィルタリングされてもよい。
スピーチ信号(または他の所望の信号)が、それにわたって指向性的にコヒーレントであると予想される可能性がある特定の周波数成分または特定の周波数範囲を目標にすることが望ましい場合がある。指向性雑音(たとえば、自動車などの信号源からの)および/または拡散性雑音などの背景雑音は、同じ範囲にわたって指向性的にコヒーレントでないと予想される場合がある。スピーチは、4〜8キロヘルツの範囲において低パワーを有する傾向があるため、少なくともこの範囲にわたって位相推定をなしで済ませることが望ましい場合がある。たとえば、約700ヘルツ〜約2キロヘルツの範囲にわたって位相推定を実施し、指向性コヒーレンシを確定することが望ましい場合がある。
したがって、周波数成分の全てより少数の成分について(たとえば、FFTの周波数サンプルの全てより少数のサンプルについて)位相推定を計算するように、タスクT110を構成することが望ましい場合がある。一例では、タスクT110は、700Hz〜2000Hzの周波数範囲について位相推定を計算する。4キロヘルツ帯域幅信号の128点FFTの場合、700〜2000Hzの範囲は、10番目のサンプルから32番目のサンプルまでの23の周波数サンプルにほぼ対応する。
タスクT110によって計算される位相差からの情報に基づいて、タスクT120は、少なくとも1つの空間セクタ(空間セクタは、マイクロフォン対の軸に対する)におけるチャネル対の指向性コヒーレンスを評価する。マルチチャネル信号の「指向性コヒーレンス(directional coherence)」は、信号の種々の周波数成分が同じ方向から到来する程度として定義される。理想的に指向性的にコヒーレントなチャネル対の場合、
の値は、全ての周波数について定数kに等しく、kの値は、到来方向θおよび到来時間遅延τに関連する。マルチチャネル信号の指向性コヒーレンスは、たとえば、推定される到来方向が特定の方向にどれほどよく一致するかに従って、各周波数成分について推定される到来方向を格付けし、次に、種々の周波数成分についての格付け結果を結合して、その信号についてのコヒーレンス量(coherency measure)を得ることによって、定量化されてもよい。指向性コヒーレンスの量の計算および適用はまた、たとえば国際特許公開WO2010/048620 A1およびWO2010/144577 A1(Visser他)に記載されている。
複数の計算された位相差のそれぞれについて、タスクT120は、対応する到来方向の指標を計算する。タスクT120は、推定される位相差Δφ
iと周波数f
iとの比r
i(たとえば、
)として各周波数成分の到来方向θ
iの指標を計算するように構成されてもよい。あるいは、タスクT120は、量
の逆コサイン(アークコサインとも呼ばれる)として到来方向θ
iを推定するように構成されてもよい。式中、cは音速(約340m/sec)を示し、dはマイクロフォン間の距離を示し、Δφ
iは2つのマイクロフォンについての対応する位相推定値間のラジアン単位の差を示し、f
iは、位相推定値が対応する周波数成分(たとえば、対応するFFTサンプルの周波数または対応するサブ帯域の中心またはエッジ周波数)である。あるいは、タスクT120は、量
の逆コサインとして到来方向θiを推定するように構成されてもよい。式中、λiは、周波数成分fiの波長を示す。
図24Aは、マイクロフォン対MC10、MC20のうちのマイクロフォンMC20に対する到来方向θを推定するこの手法を示す幾何学的近似の例を示す。この近似は、距離sが距離Lに等しいと仮定しており、sは、マイクロフォンMC20の位置と、音源とマイクロフォンMC20との間のライン上へのマイクロフォンMC10の位置の直角投影との間の距離であり、Lは、音源に対する各マイクロフォンの距離間の実際の差である。マイクロフォンMC20に関する到来方向θが0に近づくにつれて、誤差(s−L)は小さくなる。この誤差はまた、音源とマイクロフォンアレイとの間の相対距離が増加するにつれて、小さくなる。
図24Aに示すスキームは、Δφiの第1象限および第4象限(すなわち、0〜+π/2および0〜−π/2)の値について使用されてもよい。図24Bは、Δφiの第2象限および第3象限(すなわち、+π/2〜−π/2)の値について同じ近似を使用する例を示す。この場合、逆コサインは、角度ζを評価するために上述したように計算されてもよく、角度ζは、その後、到来方向θiをもたらすために、πラジアンから減算される。現場技術者はまた、到来方向θiが、度(degree)またはラジアンの代わりに特定のアプリケーションに適切な任意の他の単位で表現されてもよいことを理解するであろう。
図24Aの例では、θi=0の値は、参照エンドファイア方向(すなわち、マイクロフォンMC10の方向)からマイクロフォンMC20に到来する信号を示し、θi=πの値は、他のエンドファイア方向から到来する信号を示し、θi=π/2の値は、ブロードサイド方向から到来する信号を示す。別の例では、タスクT120は、異なる参照位置(たとえば、マイクロフォンMC10またはマイクロフォン間の中間の点などのある他の点)および/または異なる参照方向(たとえば、他のエンドファイア方向、ブロードサイド方向など)に関してθiを評価するように構成されてもよい。
別の例では、タスクT120は、マルチチャネル信号の対応する周波数成分f
iの到来時間遅延τ
i(たとえば、秒単位)として到来方向の指標を計算するように構成される。たとえば、タスクT120は、
などの式を使用して、第1のマイクロフォンMC10に関する第2のマイクロフォンMC20での到来時間遅延τiを推定するように構成されてもよい。これらの例では、τi=0の値は、ブロードサイド方向から到来する信号を示し、τiの大きな正の値は、参照エンドファイア方向から到来する信号を示し、τiの大きな負の値は、他のエンドファイア方向から到来する信号を示す。値τiを計算するときに、サンプリング周期(たとえば、8kHzのサンプリングレートの場合、125マイクロ秒の単位)または1秒の何分の1(たとえば、10-3、10-4、10-5、または10-6秒)などの、特定のアプリケーションに適切であるとみなされる時間単位を使用することが望ましい場合がある。タスクT100はまた、時間領域において各チャネルの周波数成分fiを相互相関させることによって到来時間遅延τiを計算するように構成されてもよいことが留意される。
は遠方場モデル(すなわち、平坦波面を仮定するモデル)に従って方向インジケータθ
iを計算するが、式
は、近接場モデル(すなわち、図25に示すように、球波面を仮定するモデル)に従って方向インジケータτiおよびriを計算することが留意される。近接場モデルに基づく方向インジケータは、計算するのがより正確でかつ/またはより容易である結果を提供する可能性があるが、遠方場モデルに基づく方向インジケータは、方法M100の一部のアプリケーションについて望ましい可能性がある方向インジケータ値と位相差との間の非線形マッピングを提供する。
スピーチ信号の1つまたは複数の特性に従って方法M100を構成することが望ましい場合がある。1つのこうした例では、タスクT110は、ユーザの音声のエネルギーのほとんどを含むと予想される可能性がある700Hz〜2000Hzの周波数範囲について位相差を計算するように構成される。4キロヘルツ帯域幅信号の128点FFTの場合、700Hz〜2000Hzの範囲は、10番目のサンプルから32番目のサンプルまでの23の周波数サンプルにほぼ対応する。さらなる例では、タスクT110は、約50、100、200、300、または500Hzの下限から約700、1000、1200、1500、または2000Hzの上限まで延びる周波数範囲にわたって位相差を計算するように構成される(これらの下限と上限の25の組合せのそれぞれは、明示的に想定され開示される)。
発話スピーチ(たとえば、母音)のエネルギースペクトルは、ピッチ周波数の調波(harmonics)にて局所ピークを有する傾向がある。図26は、こうした信号の256点FFTの最初の128のビンのマグニチュードを示し、アスタリスクはピークを示す。一方、背景雑音のエネルギースペクトルは、比較的構造不定である傾向がある。その結果、ピッチ周波数の調波における入力チャネルの成分は、他の成分と比較してより高い信号対雑音比(SNR)を有することが予想される場合がある。推定されるピッチ周波数の倍数に対応する位相差だけを考慮するように方法M110を構成することが(たとえば、タスクT120を構成することが)望ましい場合がある。
典型的なピッチ周波数は、男性の話し手に対しての約70〜100Hzから女性の話し手に対しての約150〜200Hzの範囲である。目下のピッチ周波数は、(たとえば、第1のマイクロフォンチャネルにおいて)隣接するピッチピーク間の距離としてピッチ周期を計算することによって推定されてもよい。入力チャネルのサンプルは、(たとえば、サンプルエネルギーとフレーム平均エネルギーとの比に基づく)そのエネルギーの測定値および/またはサンプルの近傍が、既知のピッチピークの同様の近傍とどれほどうまく相関するかについての測定値に基づくピッチピークとして特定されてもよい。ピッチ推定手順は、たとえば、www−dot−3gpp−dot−orgにてオンラインで入手可能な、EVRC(強化可変レートコーデック)文書C.S0014−Cの章4.6.3(pp.4−44から4−49)に記載されている。ピッチ周波数の目下の推定値(たとえば、「ピッチ遅れ(pitch lag)」あるいはピッチ周期の推定値の形態)は、通常、スピーチ符号化および/または復号化を含むアプリケーション(たとえば、符号励振線形予測(code-excited linear prediction)(CELP)およびプロトタイプ波形補間(PWI)などのピッチ推定を含むコーデックを使用した音声通信)において既に入手可能であることになる。
図27は、そのスペクトルが図26に示される信号に対して(たとえば、タスクT120の)方法M110のこうした実装態様を適用する例を示す。点線は、考慮される周波数範囲を示す。この例では、範囲は、10番目の周波数ビンから76番目の周波数ビンまで(約300から2500Hzまで)延びる。ピッチ周波数(この例では約190Hz)の倍数に対応する位相差だけを考慮することによって、考慮される位相差の数は、67からたった11まで減少する。さらに、これらの11の位相差がそこから計算される周波数係数は、考慮される周波数範囲内の他の周波数係数に対して高いSNRを有することになることが予想される場合がある。より一般的な場合、他の信号特性が考慮されてもよい。たとえば、計算される位相差の少なくとも25、50、または75%が、推定されるピッチ周波数の倍数に対応するようにタスクT110を構成することが望ましい場合がある。同じ原理が、他の所望の調波信号に適用されてもよい。方法M110の関連する実装態様では、タスクT110は、チャネル対の少なくともサブ帯域の周波数成分のそれぞれについて位相差を計算するように構成され、タスクT120は、推定されるピッチ周波数の倍数に対応する位相差だけに基づいてコヒーレンスを評価するように構成される。
フォルマント追跡は、スピーチ処理アプリケーション(たとえば、音声アクティビティ検出アプリケーション)のための方法M100の実装態様に含まれてもよい別のスピーチ特性関連手順である。フォルマント追跡は、線形予測符号化、隠れマルコフモデル(HMM)、カルマンフィルタ、および/またはメル周波数ケプストラム係数(mel-frequency cepstral coefficient)(MFCC)を使用して実施されてもよい。フォルマント情報は、通常、スピーチ符号化および/または復号化を含むアプリケーション(たとえば、線形予測符号化を使用する音声通信、MFCCおよび/またはHMMを使用するスピーチ認識アプリケーション)において既に入手可能である。
タスクT120は、検査される各周波数成分について、方向インジケータの値を、振幅、マグニチュード、またはパス/フェールスケールに関する対応する値に変換するかまたはマッピングすることによって方向インジケータを格付けするように構成されてもよい。たとえば、コヒーレンスがそこで評価される各セクタについて、タスクT120は、指向性マスキング関数を使用して、示された方向が、マスキング関数の通過帯域内に入るかどうか(および/または、どれほどうまく入るか)を示すマスクスコアに、各方向インジケータの値をマッピングするように構成されてもよい。(この文脈では、用語「通過帯域(passband)」は、マスキング関数によってパスさせられる到来方向の範囲を指す。)マスキング関数の通過帯域は、指向性コヒーレンスがその中で評価される空間セクタを反映するように選択される。種々の周波数成分についてのマスクスコアのセットは、ベクトルとして考えられてもよい。
通過帯域の幅は、その中でコヒーレンスが評価されるセクタの数、セクタ間のオーバラップの所望の程度、および/またはセクタによって覆われる総合角度範囲(360°未満である可能性がある)などの因子によって確定されてもよい。(たとえば、所望の話者の移動について連続性を保証するために、よりスムーズな遷移をサポートするために、かつ/またはジッタを低減するために)隣接セクタ間のオーバラップを設計することが望ましい場合がある。セクタは、互いに同じ角度幅(たとえば、度(degree)またはラジアン単位)を有してもよく、あるいは、セクタの2つ以上(場合によっては全て)が、互いに異なる幅を有してもよい。
通過帯域の幅はまた、マスキング関数の空間選択性を制御するために使用されてもよく、それは、許可範囲(すなわち、関数によってパスされる到来方向または時間遅延の範囲)と雑音除去との間の所望のトレードオフに従って選択されてもよい。広い通過帯域は、より大きなユーザ移動性および使用の柔軟性を可能にする場合があるが、チャネル対における環境雑音のより多くが出力まで通過することを可能にすることも予想されるであろう。
指向性マスキング関数は、阻止帯域と通過帯域との間の1つまたは複数の遷移の急峻さが、信号対雑音比(SNR)、ノイズフロアーなどの1つまたは複数の因子の値に従って、動作中に選択可能である、かつ/または可変であるように実装されてもよい。たとえば、SNRが低いときにより狭い通過帯域を使用することが望ましい場合がある。
図28Aは、通過帯域と阻止帯域との間の比較的急な遷移(「ブリックウォール(brickwall)」プロファイルとも呼ばれる)および到来方向θ=0に中心を持つ通過帯域(すなわち、エンドファイアセクタ)を有するマスキング関数の例を示す。1つのこうした場合では、タスクT120は、方向インジケータが関数の通過帯域内の方向を示すときに、第1の値(たとえば、1)を有する2値マスクスコアを、方向インジケータが関数の通過帯域の外の方向を示すときに、第2の値(たとえば、0)を有するマスクスコアを割当てるように構成される。タスクT120は、方向インジケータを閾値と比較することによって、こうしたマスキング関数を適用するように構成されてもよい。図28Bは、「ブリックウォール」プロファイルおよび到来方向θ=π/2に中心を持つ通過帯域(すなわち、ブロードサイドセクタ)を有するマスキング関数の例を示す。タスクT120は、方向インジケータを上限閾値および下限閾値と比較することによって、こうしたマスキング関数を適用するように構成されてもよい。(たとえば、較正の精度に悪い影響を与える可能性がある所望の指向性信号の存在を示すSNRが高いときに、より狭い通過帯域を使用するために)信号対雑音比(SNR)、ノイズフロアーなどの1つまたは複数の因子に応じて、阻止帯域と通過帯域と間の遷移のロケーションを変えることが望ましい場合がある。
あるいは、通過帯域と阻止帯域との間にそれほど急峻でない遷移(たとえば、非2値マスクスコアをもたらす漸進的なロールオフ)を有するマスキング関数を使用するようにタスクT120を構成することが望ましい場合がある。図28Cは、到来方向θ=0に中心を持つ通過帯域を有するマスキング関数についての線形ロールオフの例を示し、図28Dは、到来方向θ=0に中心を持つ通過帯域を有するマスキング関数についての非線形ロールオフの例を示す。(たとえば、較正の精度に悪い影響を与える可能性がある所望の指向性信号の存在を示すSNRが高いときに、より急峻なロールオフを使用するために)SNR、ノイズフロアーなどの1つまたは複数の因子に応じて、阻止帯域と通過帯域と間の遷移のロケーションおよび/または急峻さを変えることが望ましい場合がある。もちろん、(たとえば、図28A〜28Dに示す)マスキング関数はまた、方向θの代わりに、時間遅延τまたは比rによって表現されてもよい。たとえば、到来方向θ=π/2は、0の時間遅延τまたは比
に対応する。
として表現されてもよい。式中、θ
Tは目標の到来方向を示し、wはラジアン単位のマスクの所望の幅を示し、γは急峻さのパラメータを示す。図29A〜29Dは、
にそれぞれ等しい(γ,w,θ)についてのこうした関数の例を示す。もちろん、こうした関数はまた、方向θの代わりに、時間遅延τまたは比rによって表現されてもよい。(たとえば、SNRが高いときに、より狭いマスクを使用する、かつ/またはより急峻なロールオフを使用するために)SNR、ノイズフロアーなどの1つまたは複数の因子に応じて、マスクの幅および/または急峻さを変えることが望ましい場合がある。
小さなマクロフォン間距離(たとえば10cm以下)および低い周波数(たとえば、1kHz未満)について、Δφの観測可能値が制限されてもよいことが留意される。たとえば200Hzの周波数成分の場合、対応する波長は、約170cmである。1センチメートルのマイクロフォン間距離を有するアレイは、この成分について約2°だけの(たとえば、エンドファイアにおける)最大位相差を観測できる。こうした場合、2°より大きい観測される位相差は、2つ以上の信号源からの信号(たとえば、信号およびその残響)を示す。その結果、報告される位相差が最大値(たとえば、特定のマイクロフォン間距離および周波数が与えられた場合の最大観測可能位相差)を超えるときに検出するように、方法M110を構成することが望ましい場合がある。こうした条件は、単一信号源に整合性がないと解釈される可能性がある。1つのこうした例では、タスクT120は、こうした条件が検出されると、対応する周波数成分に最も低い格付け値(たとえば、0)を割当てる。
タスクT120は、格付け結果に基づいて信号についてコヒーレンス量を計算する。たとえば、タスクT120は、関心の周波数(たとえば、700〜2000Hzの範囲の成分および/またはピッチ周波数の倍数の成分)に対応する種々のマスクスコアを結合して、コヒーレンス量を得るように構成されてもよい。たとえば、タスクT120は、マスクスコアを平均することによって(たとえば、マスクスコアの和をとることによって、または、マスクスコアのミーン(mean)を得るために和を正規化することによって)コヒーレンス量を計算するように構成されてもよい。こうした場合、タスクT120は、マスクスコアのそれぞれを均等に重み付ける(たとえば、各マスクスコアを1で重み付ける)ように、または、1つまたは複数のマスクスコアを互いに異なるように重み付ける(たとえば、範囲の中央の周波数成分に対応するマスクスコアに比べて、低周波数成分または高周波数成分に対応するマスクスコアにより少なく重み付ける)ように構成されてもよい。あるいは、タスクT120は、関心の周波数成分(たとえば、700〜2000Hzの範囲の成分および/またはピッチ周波数の倍数の成分)の重み付けされた値(たとえば、マグニチュード)の和を計算することによってコヒーレンス量を計算するように構成されてもよく、各値は、対応するマスクスコアによって重み付けされる。こうした場合、各周波数成分の値は、マルチチャネル信号の1つのチャネル(たとえば、第1のチャネル)から、または、両方のチャネルから(たとえば、各チャネルからの対応する値の平均として)取得されてもよい。
複数の方向インジケータのそれぞれを格付けする代わりに、タスクT120の代替の実装態様は、対応する指向性マスキング関数m
iを使用して各位相差Δφ
iを格付けするように構成される。たとえば、θ
L〜θ
Hの範囲の方向から到来するコヒーレント信号を選択することが所望される場合、各マスキング関数m
iは、Δφ
Li〜Δφ
Hiの範囲にある通過帯域を有するように構成されてもよい。ここで、
)である。τ
L〜τ
Hの到来時間遅延の範囲に対応する方向から到来するコヒーレント信号を選択することが所望される場合、各マスキング関数m
iは、Δφ
Li〜Δφ
Hiの範囲にある通過帯域を有するように構成されてもよい。ここで、Δφ
Li=2πf
iτ
L(等価的に
)である。rL〜rHの、位相差と周波数の比の範囲に対応する方向から到来するコヒーレント信号を選択することが所望される場合、各マスキング関数miは、ΔφLi〜ΔφHiの範囲にある通過帯域を有するように構成されてもよい。ここで、ΔφLi=firLであり、ΔφHi=firHである。各マスキング関数のプロファイルは、評価されるセクタに従って、またおそらく先に論じたさらなる因子に従って選択される。
時間的に平滑化された値としてコヒーレンス量を生成するように、タスクT120を構成することが望ましい場合がある。たとえば、タスクT120は、有限または無限インパルス応答フィルタなどの時間的平滑化関数を使用してコヒーレンス量を計算するように構成されてもよい。1つのこうした例では、タスクは、最も最近のmフレームにわたるミーン値としてコヒーレンス量を生成するように構成される。ここで、考えられるmの値は、4、5、8、10、16、および20を含む。別のこうした例では、タスクは、z(n)=βz(n−1)+(1−β)c(n)(1次IIRフィルタまたは再帰フィルタとしても知られる)などの式に従ってフレームnについて平滑化されたコヒーレンス量z(n)を計算するように構成される。ここで、z(n−1)は前のフレームについての平滑化されたコヒーレンス量を示し、c(n)はコヒーレンス量の目下の非平滑化値を示し、βは平滑化因子であり、平滑化因子の値は0(平滑化なし)〜1(更新なし)の範囲から選択されてもよい。平滑化因子βの典型的な値は、0.1、0.2、0.25、0.3、0.4、および0.5を含む。(たとえば、パワーオンまたはオーディオ検知回路の他の起動に続いてすぐの)初期収束期間中に、タスクが、より短い間隔にわたってコヒーレンス量を平滑化する、または、後続の定常状態動作中よりも平滑化因子αのより小さな値を使用することが望ましい場合がある。異なるセクタに対応するコヒーレンス量を平滑化するためにβの同じ値を使用することは典型的であるが必要ではない。
コヒーレンス量のコントラストは、コヒーレンス量の目下の値と、ある期間にわたるコヒーレンス量の平均値(たとえば、最も最近の10、20、50、または100フレームにわたるミーン、モード、中央値)との間の関係の値(たとえば、差または比)として表現されてもよい。タスクT200は、漏れ積分器などの時間的平滑化関数を使用して、または、v(n)=αv(n−1)+(1−α)c(n)などの式に従ってコヒーレンス量の平均値を計算するように構成されてもよい。ここで、v(n)は目下のフレームについての平均値を示し、v(n−1)は前のフレームについての平均値を示し、c(n)はコヒーレンス量の目下の値を示し、αは平滑化因子であり、平滑化因子の値は0(平滑化なし)〜1(更新なし)の範囲から選択されてもよい。平滑化因子αの典型的な値は、0.01、0.02、0.05、および0.1を含む。
1つの選択されたサブセットから別のサブセットへのスムーズな遷移をサポートするロジックを含むようにタスクT200を実装することが望ましい場合がある。たとえば、ジッタを低減するのに役立つ可能性があるハングオーバロジックなどの慣性機構を含むようにタスクT200を構成することが望ましい場合がある。こうしたハングオーバロジックは、(たとえば、上述したような)サブセットへの切換えを示す状態がいくつかの連続フレーム(たとえば、2、3、4、5、10、または20フレーム)の期間にわたって継続しなければ、タスクT200がチャネルの異なるサブセットへ切換えるのを禁止するように構成されてもよい。
図23Bは、3つのオーバラップするセクタのそれぞれにおいて、マイクロフォンMC10およびMC20(あるいは、MC10およびMC30)のサブアレイを介して受信されるステレオ信号の指向性コヒーレンスの程度をタスクT102が評価するように構成される例を示す。図23Bに示す例では、タスクT200は、ステレオ信号がセクタ1において最もコヒーレント性の高い場合、マイクロフォン対MC10(第1のマイクロフォンとして)およびMC30(第2のマイクロフォンとして)に対応するチャネルを選択し、ステレオ信号がセクタ2において最もコヒーレント性の高い場合、マイクロフォン対MC10(第1のマイクロフォンとして)およびMC40(第2のマイクロフォンとして)に対応するチャネルを選択し、ステレオ信号がセクタ3において最もコヒーレント性の高い場合、マイクロフォン対MC10(第1のマイクロフォンとして)およびMC20(第2のマイクロフォンとして)に対応するチャネルを選択する。
タスクT200は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するように構成されてもよい。あるいは、タスクT102は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有する(たとえば、そのセクタについてコヒーレンス量の長期間時間平均から最大相対マグニチュードだけ異なる目下の値を有する)セクタとして選択するように構成されてもよい。
図30は、3つのオーバラップするセクタのそれぞれにおいて、マイクロフォンMC20およびMC10(あるいは、MC20およびMC30)のサブアレイを介して受信されるステレオ信号の指向性コヒーレンスの程度をタスクT102が評価するように構成される別の例を示す。図30に示す例では、タスクT200は、ステレオ信号がセクタ1において最もコヒーレント性の高い場合、マイクロフォン対MC20(第1のマイクロフォンとして)およびMC10(第2のマイクロフォンとして)に対応するチャネルを選択し、ステレオ信号がセクタ2において最もコヒーレント性の高い場合、マイクロフォン対MC10またはMC20(第1のマイクロフォンとして)およびMC40(第2のマイクロフォンとして)に対応するチャネルを選択し、ステレオ信号がセクタ3において最もコヒーレント性の高い場合、マイクロフォン対MC10またはMC30(第1のマイクロフォンとして)およびMC20またはMC10(第2のマイクロフォンとして)に対応するチャネルを選択する。(次に続くテキストでは、マイクロフォン対のマイクロフォンは、第1のマイクロフォンを最初に、第2のマイクロフォンを最後に挙げられる。)先に述べたように、タスクT200は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。
あるいは、タスクT100は、3つ以上(たとえば、4つ)のマイクロフォンのセットからのマルチチャネル記録を使用したいくつかのセクタにおける指向性コヒーレンスに基づいて近接場信号源のDOAを示すように構成されてもよい。図31は、方法M100のこうした実装態様M110のフローチャートを示す。方法M110は、上述したタスクT200およびタスクT100の実装態様T104を含む。タスクT104は、タスクT110およびT120のn(nは値は2以上の整数である)のインスタンスを含む。タスクT104では、タスクT110の各インスタンスは、マルチチャネル信号のチャネルの対応する異なる対の周波数成分について位相差を計算し、タスクT120の各インスタンスは、少なくとも1つの空間セクタのそれぞれにおける対応する対の指向性コヒーレンスの程度を評価する。評価されたコヒーレンスの程度に基づいて、タスクT200は、マルチチャネル信号のチャネルの適切なサブセットを選択する(たとえば、信号が、最もコヒーレント性の高いセクタに対応するチャネル対を選択する)。
先に述べたように、タスクT200は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。図32は、タスクT200のこうした実装態様T204を含む方法M100の実装態様M112のフローチャートを示す。タスクT204は、それぞれが、対応するチャネル対について各コヒーレンス量のコントラストを計算するタスクT210のnのインスタンスを含む。タスクT204はまた、計算されたコントラストに基づいてマルチチャネル信号のチャネルの適切なサブセットを選択するタスクT220を含む。
図33は、装置MF100の実装態様MF112のブロック図を示す。装置MF112は、(たとえば、本明細書で述べるタスクT110の実装態様を実施することによって)マルチチャネル信号のチャネルの対応する異なる対の周波数成分について位相差を計算するための手段F110のnのインスタンスを含む手段F100の実装態様F104を含む。手段F104はまた、(たとえば、本明細書で述べるタスクT120の実装態様を実施することによって)対応する計算された位相差に基づいて、少なくとも1つの空間セクタのそれぞれにおいて、対応する対のコヒーレンス量を計算するための手段F120のnのインスタンスを含む。装置MF112はまた、(たとえば、本明細書で述べるタスクT210の実装態様を実施することによって)対応するチャネル対について各コヒーレンス量のコントラストを計算するための手段F210のnのインスタンスを含む手段F200の実装態様F204を含む。手段F204はまた、(たとえば、本明細書で述べるタスクT220の実装態様を実施することによって)計算されたコントラストに基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するための手段F220を含む。
図34Aは、装置A100の実装態様A112のブロック図を示す。装置A112は、それぞれが、(たとえば、本明細書で述べるタスクT110の実装態様を実施することによって)マルチチャネル信号のチャネルの対応する異なる対の周波数成分について位相差を計算するように構成された、計算器110のnのインスタンスを有する方向情報計算器100の実装態様102を含む。計算器102はまた、それぞれが、(たとえば、本明細書で述べるタスクT120の実装態様を実施することによって)対応する計算された位相差に基づいて、少なくとも1つの空間セクタのそれぞれにおいて、対応する対のコヒーレンス量を計算するように構成された、計算器120のnのインスタンスを含む。装置A112はまた、それぞれが、(たとえば、本明細書で述べるタスクT210の実装態様を実施することによって)対応するチャネル対について各コヒーレンス量のコントラストを計算するように構成された、計算器210のnのインスタンスを有するサブセット選択器200の実装態様202を含む。選択器202はまた、(たとえば、本明細書で述べるタスクT220の実装態様を実施することによって)計算されたコントラストに基づいて、マルチチャネル信号のチャネルの適切なサブセットを選択するように構成された選択器220を含む。図34Bは、それぞれが、対応する時間領域マイクロフォンチャネルに関してFFTオペレーションを実施するように構成されている、FFTモジュールFFTa1、FFTa2〜FFTn1、FFTn2の対のnのインスタンスを含む装置A112の実装態様A1121のブロック図を示す。
図35は、ハンドセットD340のマイクロフォンセットMC10、MC20、MC30、MC40を介して受信されるマルチチャネル信号が、3つのオーバラップするセクタの任意のセクタにおいてコヒーレントであるかどうかを示すためのタスクT104の適用の例を示す。セクタ1について、タスクT120の第1のインスタンスは、マイクロフォン対MC20およびMC10(あるいは、MC30)に対応するチャネルからタスクT110の第1のインスタンスによって計算される複数の位相差に基づいて第1のコヒーレンス量を計算する。セクタ2について、タスクT120の第2のインスタンスは、マイクロフォン対MC10およびMC40に対応するチャネルからタスクT110の第2のインスタンスによって計算される複数の位相差に基づいて第2のコヒーレンス量を計算する。セクタ3について、タスクT120の第3のインスタンスは、マイクロフォン対MC30およびMC10(あるいは、MC20)に対応するチャネルからタスクT110の第3のインスタンスによって計算される複数の位相差に基づいて第3のコヒーレンス量を計算する。コヒーレンス量の値に基づいて、タスクT200は、マルチチャネル信号のチャネル対を選択する(たとえば、信号が、最もコヒーレント性の高いセクタに対応する対を選択する)。先に述べたように、タスクT200は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。
図36は、ハンドセットD340のマイクロフォンセットMC10、MC20、MC30、MC40を介して受信されるマルチチャネル信号が、4つのオーバラップするセクタの任意のセクタにおいてコヒーレントであるかどうかを示し、それに応じてチャネル対を選択するためのタスクT104の適用の同様な例を示す。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。
図37は、ハンドセットD340のマイクロフォンセットMC10、MC20、MC30、MC40を介して受信されるマルチチャネル信号が、5つのセクタ(同様にオーバラップしてもよい)の任意のセクタにおいてコヒーレントであるかどうかを示すためのタスクT104の同様な適用の例を示し、各セクタの中央DOAは、対応する矢印で示される。セクタ1について、タスクT120の第1のインスタンスは、マイクロフォン対MC20およびMC10(あるいは、MC30)に対応するチャネルからタスクT110の第1のインスタンスによって計算される複数の位相差に基づいて第1のコヒーレンス量を計算する。セクタ2について、タスクT120の第2のインスタンスは、マイクロフォン対MC20およびMC40に対応するチャネルからタスクT110の第2のインスタンスによって計算される複数の位相差に基づいて第2のコヒーレンス量を計算する。セクタ3について、タスクT120の第3のインスタンスは、マイクロフォン対MC10およびMC40に対応するチャネルからタスクT110の第3のインスタンスによって計算される複数の位相差に基づいて第3のコヒーレンス量を計算する。セクタ4について、タスクT120の第4のインスタンスは、マイクロフォン対MC30およびMC40に対応するチャネルからタスクT110の第4のインスタンスによって計算される複数の位相差に基づいて第4のコヒーレンス量を計算する。セクタ5について、タスクT120の第5のインスタンスは、マイクロフォン対MC30およびMC10(あるいは、MC20)に対応するチャネルからタスクT110の第5のインスタンスによって計算される複数の位相差に基づいて第5のコヒーレンス量を計算する。コヒーレンス量の値に基づいて、タスクT200は、マルチチャネル信号のチャネル対を選択する(たとえば、信号が、最もコヒーレント性の高いセクタに対応する対を選択する)。先に述べたように、タスクT200は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。
図38は、ハンドセットD340のマイクロフォンセットMC10、MC20、MC30、MC40を介して受信されるマルチチャネル信号が、8つのセクタ(同様にオーバラップしてもよい)の任意のセクタにおいてコヒーレントであるかどうかを示し(各セクタの中央DOAは、対応する矢印で示される)、それに応じてチャネル対を選択するためのタスクT104の適用の同様な例を示す。セクタ6について、タスクT120の第6のインスタンスは、マイクロフォン対MC40およびMC20に対応するチャネルからタスクT110の第6のインスタンスによって計算される複数の位相差に基づいて第6のコヒーレンス量を計算する。セクタ7について、タスクT120の第7のインスタンスは、マイクロフォン対MC40およびMC10に対応するチャネルからタスクT110の第7のインスタンスによって計算される複数の位相差に基づいて第7のコヒーレンス量を計算する。セクタ8について、タスクT120の第8のインスタンスは、マイクロフォン対MC40およびMC30に対応するチャネルからタスクT110の第8のインスタンスによって計算される複数の位相差に基づいて第8のコヒーレンス量を計算する。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。
図39は、ハンドセットD360のマイクロフォンセットMC10、MC20、MC30、MC40を介して受信されるマルチチャネル信号が、4つのセクタ(同様にオーバラップしてもよい)の任意のセクタにおいてコヒーレントであるかどうかを示すためのタスクT104の同様な適用の例を示し、各セクタの中央DOAは、対応する矢印で示される。セクタ1について、タスクT120の第1のインスタンスは、マイクロフォン対MC10およびMC30に対応するチャネルからタスクT110の第1のインスタンスによって計算される複数の位相差に基づいて第1のコヒーレンス量を計算する。セクタ2について、タスクT120の第2のインスタンスは、マイクロフォン対MC10およびMC40(あるいは、MC20およびMC40またはMC10およびMC20)に対応するチャネルからタスクT110の第2のインスタンスによって計算される複数の位相差に基づいて第2のコヒーレンス量を計算する。セクタ3について、タスクT120の第3のインスタンスは、マイクロフォン対MC30およびMC40に対応するチャネルからタスクT110の第3のインスタンスによって計算される複数の位相差に基づいて第3のコヒーレンス量を計算する。セクタ4について、タスクT120の第4のインスタンスは、マイクロフォン対MC30およびMC10に対応するチャネルからタスクT110の第4のインスタンスによって計算される複数の位相差に基づいて第4のコヒーレンス量を計算する。コヒーレンス量の値に基づいて、タスクT200は、マルチチャネル信号のチャネル対を選択する(たとえば、信号が、最もコヒーレント性の高いセクタに対応する対を選択する)。先に述べたように、タスクT200は、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大であるセクタとして選択するか、または、信号が、最もコヒーレント性の高いセクタを、そのコヒーレンス量が最大のコントラストを有するセクタとして選択するように構成されてもよい。
図40は、ハンドセットD360のマイクロフォンセットMC10、MC20、MC30、MC40を介して受信されるマルチチャネル信号が、6つのセクタ(同様にオーバラップしてもよい)の任意のセクタにおいてコヒーレントであるかどうかを示し(各セクタの中央DOAは、対応する矢印で示される)、それに応じてチャネル対を選択するためのタスクT104の適用の同様な例を示す。セクタ5について、タスクT120の第5のインスタンスは、マイクロフォン対MC40およびMC10(あるいは、MC20)に対応するチャネルからタスクT110の第5のインスタンスによって計算される複数の位相差に基づいて第5のコヒーレンス量を計算する。セクタ6について、タスクT120の第6のインスタンスは、マイクロフォン対MC40およびMC30に対応するチャネルからタスクT110の第6のインスタンスによって計算される複数の位相差に基づいて第6のコヒーレンス量を計算する。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。
図41は、受信されるマルチチャネル信号が、8つのセクタ(同様にオーバラップしてもよい)の任意のセクタにおいてコヒーレントがあるかどうかを示し(各セクタの中央DOAは、対応する矢印で示される)、それに応じてチャネル対を選択するためにハンドセットD360のマイクロフォンMC50を同様に利用するタスクT104の適用の同様な例を示す。セクタ7について、タスクT120の第7のインスタンスは、マイクロフォン対MC50およびMC40(あるいは、MC10またはMC20)に対応するチャネルからタスクT110の第7のインスタンスによって計算される複数の位相差に基づいて第7のコヒーレンス量を計算する。セクタ8について、タスクT120の第8のインスタンスは、マイクロフォン対MC40(あるいは、MC10またはMC20)およびMC50に対応するチャネルからタスクT110の第8のインスタンスによって計算される複数の位相差に基づいて第8のコヒーレンス量を計算する。この場合、セクタ2についてのコヒーレンス量は、代わりに、マイクロフォン対MC30およびMC50に対応するチャネルから計算されてもよく、また、セクタ2についてのコヒーレンス量は、代わりに、マイクロフォン対MC50およびMC30に対応するチャネルから計算されてもよい。こうした適用は、たとえばスピーカフォンモードにおけるハンドセットの動作中に有用である可能性がある。
先に述べたように、マルチチャネル信号の異なる対のチャネルは、異なるデバイス上のマイクロフォン対によって生成される信号に基づいてもよい。この場合、種々の対のマイクロフォンは、ある期間にわたって互いに対して可動であってよい。1つのこうしたデバイスから他のデバイスへの(たとえば、切換え方策を実施するデバイスへの)チャネル対の通信は、有線および/または無線伝送チャネルを通じて起こってもよい。こうした通信リンクをサポートするために使用されてもよい無線方法の例は、ブルートゥース(たとえば、ブルートゥースコア仕様バージョン4.0[クラシックブルートゥース、ブルートゥース高速、およびブルートゥース低エネルギープロトコルを含む](Bluetooth SIG,Inc.,ワシントン州カークランド(Kirkland, WA)所在)に記載されるヘッドセットまたは他のプロファイル)、Peanut(QUALCOMM Incorporated,カルフォルニア州サンディエゴ(San Diego, CA)所在)、およびZigBee(登録商標)(たとえば、ZigBee 2007仕様および/またはZigBee RF4CE仕様(ZigBee Alliance,カルフォルニア州サンラモン(San Ramon, CA)所在)に記載される)などの短距離(たとえば、数インチから数フィートまでの)通信用の低パワー無線仕様を含む。使用されてもよい他の無線伝送チャネルは、赤外線および超音波などの非ラジオチャネルを含む。
(たとえば、ある対のマイクロフォンが、ある期間にわたって互いに対して可動であるように)ある対の2つのチャネルが、異なるデバイス上のマイクロフォン対によって生成される信号に基づくことも可能である。1つのこうしたデバイスから他のデバイスへの(たとえば、切換え方策を実施するデバイスへの)チャネルの通信は、上述したように有線および/または無線伝送チャネルを通じて起こってもよい。こうした場合、伝送遅延および/またはサンプリングクロック不一致を補償するために、遠隔チャネル(または、両方のチャネルが、切換え方策を実施するデバイスによって無線で受信される場合、複数のチャネル)を処理することが望ましい場合がある。
伝送遅延は、無線通信プロトコル(たとえば、ブルートゥース(商標))の結果として起こる可能性がある。遅延補償に必要とされる遅延値は、通常、所与のヘッドセットについて知られている。遅延値が未知である場合、公称値が、遅延補償のために使用されてもよく、また、さらなる処理ステージにおいて、不正確さが配慮されてもよい。
(たとえば、サンプリングレート補償によって)2つのマイクロフォン信号間のデータレート差を補償することが望ましい場合がある。一般に、デバイスは、2つの独立したクロック供給源によって制御される可能性があり、また、クロックレートは、経時的に互いに対してわずかにドリフトしうる。クロックレートが異なる場合、2つのマイクロフォン信号について1フレーム当たりに送出されるサンプル数は異なりうる。これは、通常、サンプルスリッピング問題として知られており、当業者に知られている種々の手法が、この問題を処理するために使用されうる。サンプルスリッピングが起こる場合、方法M100は、2つのマイクロフォン信号間のデータレート差を補償するタスクを含んでもよく、方法M100を実施するように構成された装置は、こうした補償実施のための手段(たとえば、サンプリグレート補償モジュール)を含んでもよい。
こうした場合、タスクT100が実施される前に、チャネル対のサンプリングレートを一致させることが望ましい場合がある。たとえば、一方法は、他のストリームのサンプル/フレームに一致させるために、1つのストリームからサンプルを付加する/取除くことである。別の方法は、他のストリームに一致させるために、1つのストリームのサンプリングレートの微調整を行うことである。一例では、両方のチャネルは、8kHzの公称サンプリングレートを有するが、一方のチャネルの実際のサンプリングレートは、7985Hzである。この場合、このチャネルからのオーディオサンプルを8000Hzへアップサンプリングすることが望ましい場合がある。別の例では、一方のチャンルは、8023Hzのサンプリングレートを有しており、そのオーディオサンプルを8kHzにダウンサンプリングすることが望ましい場合がある。
上述したように、方法M100は、異なる周波数のチャネル間の位相差に基づくDOA情報に従って、特定のエンドファイアマイクロフォン対に対応するチャネルを選択するように構成されてもよい。別法としてまたは付加的に、方法M100は、チャネル間の利得差に基づくDOA情報に従って、特定のエンドファイアマイクロフォン対に対応するチャネルを選択するように構成されてもよい。マルチチャネル信号の指向性処理のための利得差ベースの技法の例は、(制限なしで)ビーム形成、ブラインド信号源分離(blind source separation)(BSS)、およびステアード応答パワー位相変換(steered response power-phase transform)(SRP−PHAT)を含む。ビーム形成手法の例は、一般化サイドローブ除去(generalized sidelobe cancellation)(GSC)、最小変動無歪応答(minimum variance distortionless response)(MVDR)、および線形制約最小変動(linearly constrained minimum variance)(LCMV)ビーム形成器を含む。BSS手法の例は、独立成分分析(ICA)および独立ベクトル分析(IVA)を含む。
位相差ベースの指向性処理技法は、通常、1つまたは複数の音源がマイクロフォンに近い(たとえば、1メートル以内にある)ときに良好な結果を生じるが、その性能は、より大きな信号源−マイクロフォン距離で低下する可能性がある。方法M110は、信号源の推定範囲(信号源とマイクロフォンとの間の推定距離)に応じて、あるときには、上述した位相差ベース処理を使用して、また、他のときには、利得差ベース処理を使用してサブセットを選択するように実装されてもよい。こうした場合、ある対のチャネルのレベル間の関係(たとえば、チャネルのエネルギー間の対数領域での差または線形領域での比)は、信号源範囲のインジケータとして使用されてもよい。(たとえば、遠方場指向性ニーズおよび/または分散雑音抑圧ニーズなどの因子に基づいて)指向性コヒーレンスおよび/または利得差閾値を調節することも望ましい場合がある。
方法M110のこうした実装態様は、位相差ベースおよび利得差ベースの処理技法からの指向性指標を結合することによって、チャネルのサブセットを選択するように構成されてもよい。たとえば、こうした実装態様は、推定範囲が小さいとき、位相差ベース技法の指向性指標により重く重み付けし、推定範囲が大きいとき、利得差ベース技法の指向性指標により重く重み付けするように構成されてもよい。あるいは、こうした実装態様は、推定範囲が小さいとき、位相差ベース技法の指向性指標に基づいてチャネルのサブセットを選択し、推定範囲が大きいとき、代わりに利得差ベース技法の指向性指標に基づいてチャネルのサブセットを選択するように構成されてもよい。
一部の可搬型オーディオ検知デバイス(たとえば、無線ヘッドセット)は、(たとえば、ブルートゥース(商標)などの通信プロトコルを通して)範囲情報を提供することが可能である。こうした範囲情報は、たとえば、ヘッドセットが、目下通信しているデバイス(たとえば、電話)からどれほど遠くに位置しているかを示してもよい。マイクロフォン間距離に関するこうした情報は、位相差計算のために、かつ/または、どのタイプの方向推定技法が使用されるかを決定するために、方法M100において使用されてもよい。たとえば、ビーム形成方法は、通常、第1および第2のマイクロフォンが互いに対して近く(距離<8cm)に位置するときにうまく働き、BSSアルゴリズムは、通常、中間の範囲(6cm<距離<15cm)でうまく働き、空間ダイバシティ手法は、通常、マイクロフォンが遠く(距離>15cm)に離間しているときにうまく働く。
図42は、方法M100の実装態様M200のフローチャートを示す。方法M200は、タスクT100の実装態様の複数のインスタンスT150A〜T150Cを含み、インスタンスT150A〜T150Cはそれぞれ、エンドファイア方向における対応するマイクロフォン対からのステレオ信号の指向性コヒーレンスまたは固定されたビーム形成器出力エネルギーを評価する。たとえば、タスクT150は、信号源からマイクロフォンまでの推定距離に応じて、あるときには、指向性コヒーレンスベース処理を実施し、他のときには、ビーム形成器ベース処理を使用するように構成されてもよい。タスクT200の実装態様T250は、正規化された最大指向性コヒーレンス(すなわち、最大コントラストを有するコヒーレンス量)またはビーム形成出力エネルギーを有するマイクロフォン対からの信号を選択し、タスクT300は、選択された信号からの雑音低減出力をシステムレベル出力に提供する。
方法M100(または、こうした方法を実施する装置)の実装態様はまた、チャネルの選択されたサブセットに関して1つまたは複数の空間選択的処理オペレーションを実施することを含む。たとえば、方法M100は、選択されたサブセットの指向性的にコヒーレントである部分のDOAと異なる方向(たとえば、対応するセクタ以外の方向)から到来する周波数成分を減衰させることによって、選択されたサブセットに基づくマスク済み信号を生成することを含むように実装されてもよい。あるいは、方法M100は、選択されたサブセットの指向性的にコヒーレントである部分のDOAと異なる方向から到来する周波数成分を含む選択されたサブセットの雑音成分の推定値を計算するように構成されてもよい。別法としてまたは付加的に、1つまたは複数の未選択セクタ(場合によっては、さらに1つまたは複数の未選択サブセット)が、雑音推定値を生成するために使用されてもよい。雑音推定値が計算される場合、方法M100はまた、雑音推定値を使用して、選択されたサブセットの1つまたは複数のチャネルに関する雑音低減オペレーション(たとえば、選択されたサブセットの1つまたは複数のチャネルからの雑音推定値のウィーナフィルタリングまたはスペクトル減算)を実施するように構成されてもよい。
タスクT200はまた、選択されたセクタ内のコヒーレンス量について対応する閾値を選択するように構成されてもよい。コヒーレンス量(またおそらく、こうした閾値)は、たとえば、音声アクティビティ検出(VAD)オペレーションをサポートするために使用されてもよい。チャネル間の利得差は、VADオペレーションをサポートするために同様に使用されてもよい近接性検出のために使用されてもよい。VADオペレーションは、適応フィルタをトレーニングするために、かつ/または、信号の時間的なセグメント(segment in time)(たとえば、フレーム)を、(遠方場)雑音または(近接場)音声として分類して雑音低減オペレーションをサポートするために使用されてもよい。たとえば、上述した雑音推定値(たとえば、第1のチャネルのフレームに基づく単一チャネル雑音推定値またはデュアルチャネル雑音推定値)は、対応するコヒーレンス量の値に基づき雑音として分類されるフレームを使用して更新されてもよい。こうしたスキームは、広い範囲の考えられる信号源−マイクロフォン対方向付けにわたって所望のスピーチを減衰させることなく、整合性のある雑音低減をサポートするように実装されてもよい。
たとえばセクタ間の最大コヒーレンス量(あるいは、コヒーレンス量間の最大コントラスト)が、ある期間、低過ぎた場合に、方法または装置が、単一チャネル雑音推定(たとえば、時間平均された単一チャネル雑音推定)に切換わるように構成されように、タイミング機構を有する方法または装置を使用することが望ましい場合がある。
図43Aは、一般的な構成によるデバイスD10のブロック図を示す。デバイスD10は、本明細書で開示されるマイクロフォンアレイR100の実装態様の任意の実装態様の例を含み、本明細書で開示されるオーディオ検知デバイスの任意のデバイスは、デバイスD10の例として実装されてもよい。デバイスD10はまた、(本明細書で開示される方法M100の実装態様の任意の実装態様の例に従って)アレイR100によって生成されたマルチチャネル信号を処理して、マルチチャネル信号のチャネルの適切なサブセットを選択するように構成される装置100の実装態様の例を含む。装置100は、ハードウェアで、かつ/または、ハードウェアとソフトウェアおよび/またはファームウェアとの組合せで実装されてもよい。たとえば、装置100は、デバイスD10のプロセッサ上に実装されてもよく、プロセッサはまた、選択されたサブセットに関して、上述した空間処理オペレーション(たとえば、オーディオ検知デバイスと特定の音源との間の距離を確定し、雑音を低減し、特定の方向から到来する信号成分を増大させ、かつ/または、他の環境音から1つまたは複数の音成分を分離する1つまたは複数のオペレーション)を実施するように構成される。
図43Bは、デバイスD10の実装態様である通信デバイスD20のブロック図を示す。本明細書で述べる可搬型オーディオ検知デバイスの任意のデバイスは、装置100を含むチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含むデバイスD20の例として実装されてもよい。チップ/チップセットCS10は、(たとえば、命令として)装置100のソフトウェアおよび/またはファームウェア部分を実行するように構成されてもよい1つまたは複数のプロセッサを含んでもよい。チップ/チップセットCS10はまた、アレイR100の処理要素(たとえば、オーディオ前処理ステージAP10の要素)を含んでもよい。チップ/チップセットCS10は、無線周波数(RF)通信信号を受信し、RF信号内に符号化されたオーディオ信号を復号し再生するように構成されている受信機、および、装置A10によって生成される処理済み信号に基づくオーディオ信号を符号化し、符号化済みオーディオ信号を表わすRF通信信号を送信するように構成されている送信機を含む。たとえば、チップ/チップセットCS10の1つまたは複数のプロセッサは、符号化済みオーディオ信号が雑音低減済み信号に基づくように、マルチチャネル信号の1つまたは複数のチャネルに関して上述した雑音低減オペレーションを実施するように構成されてもよい。
デバイスD20は、アンテナC30を介してRF通信信号を送受信するように構成される。デバイスD20はまた、アンテナC30への経路にダイプレクサおよび1つまたは複数のパワー増幅器を含んでもよい。チップ/チップセットCS10はまた、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD20はまた、全地球測位システム(GPS)ロケーションサービスおよび/または無線(たとえば、ブルートゥース(商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートするために1つまたは複数のアナテナC40を含む。別の例では、こうした通信デバイスは、それ自体ブルートゥースヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
本明細書で開示される方法および装置は、任意の送受信および/またはオーディオ検知アプリケーション、特にこうしたアプリケーションの移動体またはその他の可搬型の例において一般に適用されてもよい。たとえば、本明細書で開示される構成の範囲は、符号分割多重アクセス(CDMA)オーバザエアインタフェースを使用するように構成された無線テレフォニー通信システム内に存在する通信デバイスを含む。それでも、本明細書で述べる特徴を有する方法および装置は、有線および/または無線(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)伝送チャネルを通じたボイスオーバIPを使用するシステムなどの、当業者に知られている広範囲の技術を使用する種々の通信システムの任意のシステム内に存在してもよいことが当業者によって理解されるであろう。
本明細書で開示される通信デバイスは、パケット切換え式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ伝送情報を搬送するように構成(arrange)された有線および/または無線ネットワーク)および/または回路切換え式であるネットワークでの使用のために適合してもよいことが明示的に想定され、これにより開示される。本明細書で開示される通信デバイスは、狭帯域コーディングシステム(coding system)(たとえば、約4または5キロヘルツのオーディオ周波数範囲を符号化するシステム)で使用するために、かつ/または、全帯域広帯域コーディングシステムおよびスプリット帯域広帯域コーディングシステムを含む広帯域コーディングシステム(たとえば、5キロヘルツより高いオーディオ周波数を符号化するシステム)で使用するために適合してもよいことも明示的に想定され、これにより開示される。
述べた構成の先の提示は、本明細書で開示される方法および他の構造を、当業者が作るかまたは使用することを可能にするために設けられる。本明細書で示し述べるフローチャート、ブロック図、および他の構造は、例に過ぎず、これらの構造の他の変形もまた、本開示の範囲内にある。これらの構成に対する種々の変更が可能であり、本明細書に提示される一般的な原理は、他の構成にも適用されてもよい。そのため、本開示は、先に示される構成に限定されることを意図されるのではなく、むしろ、オリジナルの開示の一部を形成する、出願された添付特許請求の範囲を含む、本明細書で任意の様式で開示される原理および新規な特徴と整合性がある最も広い範囲に一致(accord)される。
情報および信号は、種々の異なる技術および技法の任意のものを使用して表現されてもよいことを当業者は理解するであろう。たとえば、上記説明全体を通して参照される可能性があるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁気フィールドまたは粒子、光フィールドまたは粒子、あるいはその任意の組合せによって表現されてもよい。
本明細書で開示される構成の実装態様についての重要な設計要件は、特に8キロヘルツより高い(たとえば、12、16、または44kHz)サンプリングレートでの音声通信用のアプリケーションなどの計算集約的なアプリケーションのために、処理遅延および/または(通常、百万命令/秒またはMIPS単位で測定される)計算の複雑さを最小にすることを含んでもよい。
本明細書で述べるマルチマイクロフォン処理システムの目標は、総合雑音低減において10〜12dBを達成すること、所望の話者の移動中に音声レベルおよびカラーを保存すること、積極的な雑音除去の代わりに、雑音が背景内に移動したという認識(perception)を得ること、スピーチの残響除去(dereverberation)、および/またはより積極的な雑音低減のために後処理(たとえば、マスキングおよび/または雑音低減)のオプションを使用可能にすることを含んでもよい。
本明細書で開示する装置の実装態様の種々の要素(たとえば、装置A100、A112、A1121、MF100、およびMF112)は、意図されるアプリケーションに適すると見なされる、任意のハードウェア構造あるいはハードウェアとソフトウェアおよび/またはファームウェアとの任意の組合せで具現化されてもよい。たとえば、こうした要素は、たとえば同じチップ上にあるいはチップセット内の2つ以上のチップの間に存在する電子デバイスおよび/または光デバイスとして作製されてもよい。こうしたデバイスの一例は、トランジスタまたはロジックゲートなどの、ロジック要素の固定のまたはプログラマブルなアレイであり、これらの要素の任意の要素は、1つまたは複数のこうしたアレイとして実装されてもよい。これらの要素の任意の2つ以上のまたはさらに全ての要素は、同じ1つまたは複数のアレイ内に実装されてもよい。こうした1つまたは複数のアレイは、1つまたは複数のチップ内に(たとえば、2つ以上のチップを含むチップセット内に)実装されてもよい。
本明細書で開示する装置の種々の実装態様の1つまたは複数の要素(たとえば、装置A100、A112、A1121、MF100、およびMF112)はまた、マイクロプロセッサ、埋め込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの、ロジック要素の1つまたは複数の固定のまたはプログラマブルなアレイ上で実行されるように構成(arrange)された命令の1つまたは複数のセットとして部分的に実装されてもよい。本明細書で開示される装置の実装態様の種々の要素の任意の要素はまた、1つまたは複数のコンピュータ(たとえば、「プロセッサ(processor)」ともよばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)として具現化されてもよく、また、これらの要素の任意の2つ以上、または全てさえも、同じこうした1つまたは複数のコンピュータ内に実装されてもよい。
プロセッサまたは本明細書で開示される処理するための手段は、たとえば同じチップ上にあるいはチップセット内の2つ以上のチップの間に存在する1つまたは複数の電子デバイスおよび/または光デバイスとして作製されてもよい。こうしたデバイスの一例は、トランジスタまたはロジックゲートなどの、ロジック要素の固定のまたはプログラマブルなアレイであり、これらの要素の任意の要素は、1つまたは複数のこうしたアレイとして実装されてもよい。こうした1つまたは複数のアレイは、1つまたは複数のチップ内に(たとえば、2つ以上のチップを含むチップセット内に)実装されてもよい。こうしたアレイの例は、マイクロプロセッサ、埋め込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなどの、ロジック要素の固定のまたはプログラマブルなアレイを含む。プロセッサまたは本明細書で開示される処理するための手段はまた、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)または他のプロセッサとして具現化されてもよい。本明細書で述べるプロセッサは、プロセッサがそこに埋め込まれるデバイスまたはシステム(たとえば、オーディオ検知デバイス)の別のオペレーションに関連するタスクなどの、マルチチャネル信号のチャネルのサブセットを選択する手順に直接関連しないタスクを実施するかまたは命令の他のセットを実行するために使用されることが可能である。本明細書で開示される方法の一部(たとえば、タスクT100)は、オーディオ検知デバイスのプロセッサによって実施されることも可能であり、方法の別の一部(たとえば、タスクT200)は、1つまたは複数の他のプロセッサの制御下で実施されることも可能である。
本明細書で開示される構成に関連して述べる種々の例証的なモジュール、ロジックブロック、回路、および試験、ならびに他のオペレーションは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装されてもよいことを当業者は理解するであろう。こうしたモジュール、ロジックブロック、回路、およびオペレーションは、本明細書で開示される構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェアコンポーネント、またはその任意の組合せによって実装されるまたは実施されてもよい。たとえば、こうした構成は、少なくとも部分的に、実配線された回路として、特定用途向け集積回路内に作製された回路構成として、あるいは、機械可読コードとして、不揮発性記憶装置にロードされたファームウェアプログラムまたはデータ記憶媒体からロードされるかまたはそこへロードされたソフトウェアプログラムとして実装されてもよく、こうしたコードは、汎用プロセッサまたは他のデジタル信号処理ユニットなどのロジック要素のアレイによって実行可能な命令である。汎用プロセッサは、マイクロプロセッサであってよいが、代替法として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサはまた、コンピューティングデバイスの組合せ、たとえばDSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連携した1つまたは複数のマイクロプロセッサ、または任意の他のこうした構成として実装されてもよい。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)などの非一過性記憶媒体、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、取外し可能ディスク、またはCD−ROM内に、あるいは、当業者に知られている任意の他の形態の記憶媒体内に存在してもよい。例証的な記憶媒体は、プロセッサが記憶媒体から情報を読出し、記憶媒体へ情報を書込むようにプロセッサに結合される。代替法では、記憶媒体は、プロセッサに対して一体であってよい。プロセッサおよび記憶媒体は、ASIC内に存在してもよい。ASICは、ユーザ端末内に存在してもよい。代替法として、プロセッサおよび記憶媒体は、ユーザ端末内でディスクリートコンポーネントとして存在してもよい。
本明細書で開示される種々の方法(たとえば、方法M100、M110、M112、およびM200)が、プロセッサなどのロジック要素のアレイによって実施されてもよいこと、および、本明細書で開示される装置の種々の要素が、こうしたアレイ上で実行されるように設計されたモジュールとして部分的に実装されてもよいことが留意される。本明細書で使用されるように、用語「モジュール(module)」または「サブモジュール(sub-module)」は、ソフトウェア、ハードウェア、またはファームウェア形態でコンピュータ命令(たとえば、ロジック表現)を含む任意の方法、装置、デバイス、ユニット、またはコンピュータ可読データ記憶媒体を指しうる。複数のモジュールまたはシステムが、結合されて、1つのモジュールまたはシステムになりうる、また、1つのモジュールまたはシステムが、同じ機能を実施する複数のモジュールまたはシステムに分離されうることが理解される。ソフトウェアまたは他のコンピュータ実行可能命令で実装されると、プロセスの要素は、本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造および同様なものなどによって関連タスクを実施するコードセグメントである。用語「ソフトウェア(software)」は、ソースコード、アセンブリ言語コード、機械コード、2値コード、ファームウェア、マクロコード、マイクロコード、ロジック要素のアレイによって実行可能な命令の任意の1つまたは複数のセットまたはシーケンス、ならびに、こうした例の任意の組合せを含むと理解されるべきである。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶されうる、または、伝送媒体または通信リンクを通じて搬送波で具現化されるコンピュータデータ信号によって伝送されうる。
本明細書で開示される方法、スキーム、および技法の実装態様はまた、ロジック要素のアレイを含む機械(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)によって実行可能な命令の1つまたは複数のセットとして(たとえば、本明細書で挙げた1つまたは複数のコンピュータ可読記憶媒体の有形なコンピュータ可読フィーチャで)有形に具現化されてもよい。用語「コンピュータ可読媒体(computer-readable medium)」は、揮発性、不揮発性、取外し可能、および取外し不可能記憶媒体を含む、情報を記憶しうる、または、転送しうる任意の媒体を含んでもよい。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気記憶装置、CD−ROM/DVDまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線(RF)リンク、または、所望の情報を記憶するために使用されることができ、また、アクセスされることができる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、空気、電磁波、RFリンクなどのような伝送媒体を通じて伝搬しうる任意の信号を含んでもよい。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされてもよい。いずれにしても、本開示の範囲は、こうした実施形態によって制限されると考えられるべきでない。
本明細書で述べる方法のタスクはそれぞれ、ハードウェアで直接、プロセッサによって実行されるソフトウェアモジュールで、または2つの組合せで具現化されてもよい。本明細書で開示される方法の実装形態の典型的なアプリケーションでは、ロジック要素の(たとえば、ロジックゲート)のアレイは、方法の種々のタスクのうちの1つ、2つ以上、または全てのタスクさえも実施するように構成される。タスクの1つまたは複数(場合によっては全て)はまた、ロジック要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなど1つまたは複数のデータ記憶媒体)で具現化されるコード(たとえば、命令の1つまたは複数のセット)として実装されてもよい。本明細書で開示される方法の実装態様のタスクはまた、2つ以上のこうしたアレイまたは機械によって実施されてもよい。これらのまた他の実装態様では、タスクは、携帯電話などの無線通信用のデバイスまたはこうした通信能力を有する他のデバイス内で実施されてもよい。こうしたデバイスは、(たとえば、VoIPなどの1つまたは複数のプロトコルを使用して)回路切換えおよび/またはパケット切換えネットワークと通信するように構成されてもよい。たとえば、こうしたデバイスは、符号化されたフレームを受信するかつ/または送信するように構成されたRF回路を含んでもよい。
本明細書で開示される種々の方法が、可搬型通信デバイス(たとえば、ハンドセット、ヘッドセット、または携帯情報端末(PDA))によって実施されてもよいこと、および、本明細書で述べる種々の装置が、こうしたデバイス内に含まれてもよいことが明示的に開示される。典型的なリアルタイム(たとえば、オンライン)アプリケーションは、こうした移動体デバイスを使用して行われる電話の会話である。
1つまたは複数の例示的な実施形態では、本明細書で述べるオペレーションは、ハードウェア、ソフトウェア、ファームウェア、またはその任意の組合せで実装されてもよい。ソフトウェアで実装される場合、こうしたオペレーションは、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるかまたはそれを通じて伝送されてもよい。用語「コンピュータ可読媒体」は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。制限としてではなく例として、コンピュータ可読記憶媒体は、半導体メモリ(制限なしで、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含んでもよい)、あるいは強誘電(ferroelectric)、磁気抵抗、オボニック(ovonic)、ポリマー、または相変化メモリ;CD−ROMまたは他の光ディスク記憶装置;および/または磁気ディスク記憶装置または他の磁気記憶デバイスなどの記憶要素のアレイを備えうる。こうした記憶媒体は、コンピュータによってアクセスされうる命令またはデータ構造の形態で情報を記憶してもよい。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用されることができ、また、コンピュータによってアクセスされることができる任意の媒体を備えうる。同様に、任意の接続が、コンピュータ可読媒体と適切によばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線(DSL)、あるいは、赤外線、無線、および/またはマイクロ波などの無線技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、あるいは、赤外線、無線、および/またはマイクロ波などの無線技術は、媒体の定義に含まれる。本明細書で使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)、レーザディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピディスク、およびブルーレイディスク(商標)(Blue−Ray Disc Association,カルフォルニア州ユニバーサルシティ(Universal City, CA)所在)を含み、ディスク(disk)は、通常、データを磁気的に再生し、一方、ディスク(disc)は、レーザによってデータを光学的に再生する。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
本明細書で述べる音響信号処理装置は、あるオペレーションを制御するためにスピーチ入力を受容する電子デバイス内に組込まれてもよい、またはそうでなければ、通信デバイスなどの背景雑音から所望の雑音を分離することから利益を受けてもよい。多くのアプリケーションは、複数の方向から発生する背景雑音から明瞭な所望の音を増大させるまたは分離させることから利益を得ることができる。こうしたアプリケーションは、音声認識および検出、スピーチ増大および分離、音声起動式制御、および同様なもののような能力を組込む、電子またはコンピューティングデバイス内のヒューマンマシンインタフェースを含んでもよい。制限された処理能力を提供するだけであるデバイスにおいて適するこうした音響信号処理装置を実装することが望ましい場合がある。
本明細書で述べるモジュール、要素、およびデバイスの種々の実装態様の要素は、たとえば同じチップ上にあるいはチップセット内の2つ以上のチップの間に存在する電子デバイスおよび/または光デバイスとして作製されてもよい。こうしたデバイスの一例は、トランジスタまたはゲートなどの、ロジック要素の固定のまたはプログラマブルなアレイである。本明細書で述べる装置の種々の実装態様の1つまたは複数の要素はまた、マイクロプロセッサ、埋め込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなどの、ロジック要素の1つまたは複数の固定のまたはプログラマブルなアレイ上で実行されるように構成(arrange)された命令の1つまたは複数のセットとして全体的にまたは部分的に実装されてもよい。
本明細書で述べる装置の実装態様の1つまたは複数の要素が、装置がそこに埋め込まれるデバイスまたはシステムの別のオペレーションに関連するタスクなどの、装置のオペレーションに直接関連しないタスクを実施するかまたは命令の他のセットを実行するために使用されることが可能である。こうした装置の実装態様の1つまたは複数の要素が、共通の構造(たとえば、異なるときに異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なるときに異なる要素に対応するタスクを実施するために実行される命令のセット、または、異なるときに異なる要素についてオペレーションを実施する電子デバイスおよび/または光デバイスの配置構成)を有することも可能である。たとえば、計算器110a〜110nの1つまたは複数(場合によっては全て)は、異なるときに同じ構造(位相差計算オペレーションを定義する同じセットの命令)を使用するために実装されてもよい。