JP5329655B2

JP5329655B2 - マルチチャネル信号のバランスをとるためのシステム、方法及び装置

Info

Publication number: JP5329655B2
Application number: JP2011512595A
Authority: JP
Inventors: チャン、クワクルン; パーク、ヒュン・ジン・シニア
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-06-02
Filing date: 2009-06-02
Publication date: 2013-10-30
Anticipated expiration: 2029-06-02
Also published as: JP2011523836A; TW201012244A; US8321214B2; CN102047688B; US20090299739A1; EP2301258A1; CN102047688A; WO2009149119A1; KR101217970B1; KR20110025677A

Description

（35 U.S.C.§119の下の優先権の主張）
本特許出願は、２００８年６月２日付け提出され、本願の譲受人に譲渡され、「SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES」と題された米国仮出願第６１／０５８，１３２号（Attorney Docket No. 081747P1）の優先権を主張する。

（同時継続の特許出願への参照）
本特許出願は、以下の同時継続の米国特許出願に関係する：
２００８年８月２５日付け提出され、本願の譲受人に譲渡され、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題された米国特許出願第１２／１９７，９２４号;及び
２００８年１２月１２日付け提出され、本願の譲受人に譲渡され、「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題された米国特許出願第１２／３３４，２４６号（Attorney Docket No. 080426）。

（技術分野）
この開示は、２又はそれ以上のチャネルを有するオーディオ信号のバランスをとることに関係する。

以前に静かなオフィス又は家庭環境において実行された多くの活動が、今日、車、ストリート又はカフェのような音響的に変わりやすい状況において実行されている。従って、かなりの量の音声通信（voice communication）は、ユーザが他の人によって囲まれる環境において、人々が集まる傾向にある所で一般的に遭遇する一種のノイズコンテンツ（noise content）を伴い、モバイル・デバイス（例えば、ハンドセット及び／又はヘッドセット）を使用して起こっている。そのような雑音は、電話で会話中のユーザの気を散らせあるいは悩ます傾向がある。さらに、多くの標準的なオートメーション化した商取引（例えば、アカウント・バランス又は株価情報チェック（stock quote checks））は、音声認識ベースのデータ問合せを使用し、これらのシステムの正確さは、干渉する雑音によってかなり妨害される可能性がある。

雑音が多い環境で通信が起こるアプリケーションについて、所望のスピーチ信号（speech signal）をバックグラウンド・ノイズから分離することは、望ましい場合がある。雑音は、所望の信号に干渉するか或いは所望の信号の品質を低下させる（degrading）すべての信号の組み合せとして定義されることもできる。バックグラウンド・ノイズは、信号の各々から生成される反射（reflections）及び反響（reverberation）だけでなく、音響環境内で生成される多数の雑音信号（例えば他の人たちの背景会話（ckground conversations））を含むことがある。所望のスピーチ信号がバックグラウンド・ノイズから分離（separated）及び分離（isolated）されない限り、それの信頼性ある効果的な利用をすることは、難しい場合がある。一つの特定の例において、スピーチ信号が雑音の多い環境で生成され、そして、スピーチ処理方法がスピーチ信号を環境雑音から分離するために使用される。雑音は現実の社会状況（real-world conditions）においてほとんどいつでも存在するので、そのようなスピーチ信号処理は日常的な通信の多くの領域で重要である。

モバイル環境で起こるノイズは、様々な異なる成分（例えば、競合する話し手、音楽、喧騒（babble）、町の騒音（street noise）及び／又は空港雑音）を含み得る。そのような雑音のサイン（signature）は一般的に非定常でユーザ自身の周波数サインに近いので、雑音は伝統的なシングルマイク又は固定されたビームフォーミング・タイプの方法を使用してモデル化するのが難しい場合がある。シングルマイクの雑音低減技術は、一般的に、最適性能を達成するために、重要なパラメータのチューニングを要求する。例えば、適当な雑音基準（noise reference）は、そのような場合、直接利用できない可能性があり、間接的に雑音基準を導き出すことが必要とされる場合がある。したがって、マルチマイク・ベースの高度信号処理（multiple microphone based advanced signal processing）は、雑音が多い環境における音声通信のためのモバイル・デバイスの使用をサポートするために望ましい場合がある。

一般的な構成に従ったマルチチャネル・オーディオ信号を処理する方法は、時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算することと、時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算することを含む。この方法は、前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算することと、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御することを含む。この方法は、前記オーディオ信号のセグメントが情報セグメントであることを指示することを含む。この方法において、時間にわたってゲイン・ファクタの値の系列を計算することは、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つについて且つ前記指示することに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタ値を計算することを含む。この方法において、前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置（audio sensing device）の標準的な方向に基づくものである。また、例えば通信デバイスのような音声検出装置内のそのような方法の実行が、本明細書で開示される。また、そのような方法を実行するために手段を含む装置及びそのような方法のための実行可能なインストラクションを持つコンピュータ読み取り可能な媒体が、本明細書で開示される。

一般的な構成に従ったマルチチャネル・オーディオ信号を処理するための装置は、時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算するための手段と、時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算するための手段とを含む。この装置は、前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するための手段と、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御するための手段とを含む。この装置は、前記オーディオ信号のセグメントが情報セグメントであることを指示するための手段を含む。この装置において、時間にわたってゲイン・ファクタの値の系列を計算するための前記手段は、前記インジケーションに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成される。この装置において、前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである。また、前記装置は、第１のチャネルのレベルの値の系列を計算するための前記手段が第１レベル計算機であり、第２のチャネルのレベルの値の系列を計算するための前記手段が第２レベル計算機であり、ゲイン・ファクタの値の系列を計算するための前記手段がゲイン・ファクタ計算機であり、前記第２のチャネルの振幅を制御するための前記手段が振幅制御エレメントであり、前記音声信号のセグメントが情報セグメントであることを指示するための前記手段が情報セグメント・インジケータであるこの装置の実装が、本明細書で開示される。また、前記マルチチャネル・オーディオ信号を作り出すように構成されたマイク・アレイを含む音声検出装置の様々な実装が、本明細書で開示される。

図１Ａ〜１Ｄは、マルチマイク無線ヘッドセットＤ１００の様々な図を示す。図１Ａ〜１Ｄは、マルチマイク無線ヘッドセットＤ１００の様々な図を示す。図１Ａ〜１Ｄは、マルチマイク無線ヘッドセットＤ１００の様々な図を示す。図１Ａ〜１Ｄは、マルチマイク無線ヘッドセットＤ１００の様々な図を示す。図２Ａ〜２Ｄは、マルチマイク無線ヘッドセットＤ２００の様々な図を示す。図２Ａ〜２Ｄは、マルチマイク無線ヘッドセットＤ２００の様々な図を示す。図２Ａ〜２Ｄは、マルチマイク無線ヘッドセットＤ２００の様々な図を示す。図２Ａ〜２Ｄは、マルチマイク無線ヘッドセットＤ２００の様々な図を示す。図３Ａは、マルチマイク通信ハンドセットＤ３００の（中心軸に沿った）横断面図を示す。図３Ｂは、デバイスＤ３００の実装Ｄ３１０の横断面図を示す。図４Ａは、マルチマイク・メディアプレーヤーＤ４００の図を示す。図４Ｂ及び４Ｃは、それぞれ、デバイスＤ４００の実装Ｄ４１０及びＤ４２０の図を示す。図４Ｂ及び４Ｃは、それぞれ、デバイスＤ４００の実装Ｄ４１０及びＤ４２０の図を示す。図５Ａは、マルチマイク・ハンズフリー・カーキットＤ５００の図を示す。図５Ｂは、マルチマイク・ライティング・デバイスＤ６００の図を示す。図６Ａは、アレイＲ１００の実装Ｒ２００のブロック図を示す。図６Ｂは、アレイＲ２００の実装Ｒ２１０のブロック図を示す。図７Ａは、アレイＲ１００のマイクが音響ポート（acoustic port）の後方のデバイス・ハウジング内にマウントされてもよい例の横断面を示す。図７Ｂは、プレデリバリー・キャリブレーション・オペレーション（pre-delivery calibration operation）のために配置される無反響室（anechoic chamber）の平面図を示す。図８は、ユーザの口に対する（relative to）標準的な方向においてユーザの耳にマウントされるヘッドセットＤ１００の図を示す。図９は、ユーザの口に対する標準的な方向において配置されるハンドセットＤ３００の図を示す。図１０Ａは、一般的な構成（general configuration）に従ったマルチチャネル・オーディオ信号を処理する方法Ｍ１００のフローチャートを示す。図１０Ｂは、方法Ｍ１００の実装Ｍ２００のフローチャートを示す。図１１Ａは、タスクＴ４００の実装Ｔ４１０のフローチャートを示す。図１１Ｂは、タスクＴ４００の実装Ｔ４６０のフローチャートを示す。図１２Ａは、タスクＴ４１０の実装Ｔ４２０のフローチャートを示す。図１２Ｂは、タスクＴ４６０の実装Ｔ４７０のフローチャートを示す。図１３Ａは、タスクＴ４２０の実装Ｔ４３０のフローチャートを示す。図１３Ｂは、タスクＴ４７０の実装Ｔ４８０のフローチャートを示す。図１４は、ヘッドセットＤ１００についてユーザの口に対する標準的な方向の範囲の２つの境界の例を示す。図１５は、ハンドセットＤ３００についてユーザの口に対する標準的な方向の範囲の２つの境界の例を示す。図１６Ａは、方法Ｍ１００の実装Ｍ３００のフローチャートを示す。図１６Ｂは、タスクＴ５００の実装Ｔ５１０のフローチャートを示す。図１７は、様々なタイプの情報及びノイズ源アクティビティーに関するおよその到来角（angles of arrival）の理想化された視覚的な描写を示す。図１８Ａは、タスクＴ５１０の実装Ｔ５５０のためのフローチャートを示す。図１８Ｂは、タスクＴ５１０の実装Ｔ５６０のためのフローチャートを示す。図１９は、３つの異なる情報ソースによるアクティビティーに関するおよその到来角の理想化された視覚的な描写を示す。図２０Ａは、方法Ｍ１００の実装Ｍ４００のフローチャートを示す。図２０Ｂは、タスクＴ５００の実行がタスクＴ４００の結果に関して条件付きである例のフローチャートを示す。図２１Ａは、タスクＴ５５０の実行がタスクＴ４００の結果に関して条件付きである例のフローチャートを示す。図２１Ｂは、タスクＴ４００の実行がタスクＴ５００の結果に関して条件付きである例のフローチャートを示す。図２２Ａは、タスクＴ５１０の実装Ｔ５２０のフローチャートを示す。図２２Ｂは、タスクＴ５１０の実装Ｔ５３０のフローチャートを示す。図２３Ａは、タスクＴ５５０の実装Ｔ５７０のフローチャートを示す。図２３Ｂは、タスクＴ５５０の実装Ｔ５８０のフローチャートを示す。図２４Ａは、一般的な構成に従ったデバイスＤ１０のブロック図を示す。図２４Ｂは、装置ＭＦ１００の実装ＭＦ１１０のブロック図を示す。図２５は、装置ＭＦ１１０の実装ＭＦ２００のブロック図を示す。図２６は、装置ＭＦ１１０の実装ＭＦ３００のブロック図を示す。図２７は、装置ＭＦ１１０の実装ＭＦ４００のブロック図を示す。図２８Ａは、一般的な構成に従ったデバイスＤ２０のブロック図を示す。図２８Ｂは、装置Ａ１００の実装Ａ１１０のブロック図を示す。図２９は、装置Ａ１１０の実装Ａ２００のブロック図を示す。図３０は、装置Ａ１１０の実装Ａ３００のブロック図を示す。図３１は、装置Ａ１１０の実装Ａ４００のブロック図を示す。図３２は、装置ＭＦ３００の実装ＭＦ３１０のブロック図を示す。図３３は、装置Ａ３００の実装Ａ３１０のブロック図を示す。図３４は、通信デバイスＤ５０のブロック図を示す。

詳細な説明

用語「信号（signal）」は、その文脈により明確に限定されない限り、その通常の意味のいずれをも示すために本明細書で使用され、ワイヤー、バス又は他の伝送媒体上で表現されるメモリ位置（又は１セットのメモリ位置）の状態を含む。用語「生成（generating）」は、その文脈により明確に限定されない限り、例えば作成（creating）、計算（computing）或いは生成、発生、作り出すこと（producing）のような、その通常の意味のいずれをも示すために本明細書で使用される。用語「計算（calculating）」は、その文脈により明確に限定されない限り、例えば計算（computing）、評価（evaluating）、スムージング（smoothing）及び／又は複数の値からの選択（selecting from a plurality of values）のような、その通常の意味のいずれをも示すために本明細書で使用される。用語「取得、得ること（obtaining）」は、その文脈により明確に限定されない限り、例えば計算（calculating）、導くこと（deriving）、（例えば外部デバイスからの）受信（receiving）及び／又は（例えば記憶素子アレイからの）検索（retrieving）のような、その通常の意味のいずれをも示すために使用される。用語「含む（comprising）」が、本説明及び特許請求の範囲で使用される場合に、それは他のエレメント又はオペレーションを排除するものではない。用語「ＡはＢに基づいている（A is based on B）」におけるような「基づいている（based on）」は、ケース（ｉ）「少なくとも基づいている（based on at least）」（例えば、「Ａは少なくともＢに基づいている（A is based on at least B）」）、及び、特定の文脈で適切な場合に、ケース（ｉｉ）「等しい（equal to）」（例えば、「ＡはＢに等しい（A is equal to B）」）を含めて、その通常の意味のいずれをも示すために使用される。同様に、用語“〜に応答して（in response to）”は、その通常の意味のいずれをも示すために使用され、“少なくとも〜に応答して（in response to at least）”を含む。

特に文脈により明記されない限り、マルチマイク音声検出装置（multi-microphone audio sensing device）のマイクの“位置”への言及は、そのマイクの音響的にセンシティブな面の中心の位置を示す。用語“チャネル（channel）”は、時に、信号経路を示すために、そして、他の時に、特定の文脈に従って、そのような経路により運ばれる信号を示すために、使用される。特に明記されない限り、用語“系列（series）”は、一連（sequence）の２つ又はそれ以上のアイテムを示すために使用される。用語“対数（logarithm）”は、底を１０とする対数を示すために使用されるが、当該演算の他の底への拡張は、この開示の範囲内である。

特に明記されない限り、特定の特徴（feature）を有する装置のオペレーションの開示はまた、類似する特徴を有する方法を開示することを明確に意図されており（逆の場合も同じ）、特定の構成を有する装置のオペレーションの開示はまた、類似する構成に従った方法を開示することを明確に意図されている（逆の場合も同じ）。用語“構成（configuration）”は、その特定の文脈により示されるような、方法、装置及び／又はシステムに関連して使用されることがある。用語“方法（method）”、“プロセス（process）”、“手続き（procedure）”及び“技術（technique）”は、特定の文脈によって特に明記されない限り、一般的にそして互換的に使用される。用語“装置（apparatus）”及び“デバイス（device）”は、特定の文脈によって特に明記されない限り、一般的にそして互換的に使用される。用語“要素（element）”及び“モジュール（module）”は、一般的に、より大きな構成の一部を示すために使用される。用語“システム”は、その文脈により明確に限定されない限り、その通常の意味のいずれをも示すために本明細書で使用され、“共通の目的を果たすために相互に作用する一群の要素（a group of elements that interact to serve a common purpose）”を含む。文書の部分の参照による組み込みはまた、組み込まれるその部分において参照される図面と同様に、その部分の中で参照される項（terms）又は変数（variables）の定義（当該定義は、その文書中の他の部分に現れる。）を組み込むことと、解釈されるべきである。

音響信号（acoustic signals）を受信するように構成された２又はそれ以上のマイクのアレイＲ１００を有する携帯型の音声検出装置を作り出すことは、望ましい可能性がある。例えば、補聴器（hearing aid）が、そのようなアレイを含むように実装されても良い。そのようなアレイを含むように実装され、オーディオ録音（audio recording）アプリケーション及び／又は音声通信アプリケーションのために使用され得る携帯型の音声検出装置の他の例は、電話のハンドセット（例えば、セルラー電話のハンドセット）、有線又は無線のヘッドセット（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット）、ハンドヘルドのオーディオ及び／又はビデオ・レコーダー、オーディオ及び／又はビデオ・コンテンツを記録するように構成されたパーソナル・メディア・プレーヤー、携帯情報端末（ＰＤＡ）又は他のハンドヘルドのコンピュータ・デバイス、及び、ノートブック型コンピュータ、ラップトップ・コンピュータ、又は、他の携帯型のコンピュータ・デバイスを含む。

アレイＲ１００の各々のマイクは、無指向性（omnidirectional）、両指向性（bidirectional）又は単一指向性（unidirectional）（例えば、カージオイド（cardioid））のレスポンスを有しても良い。アレイＲ１００において使用され得る様々なタイプのマイクは、圧電マイクロフォン、ダイナミック・マイクロフォン及びエレクトレット・マイクロフォンを含む（ただし、それらに制限されない）。携帯型の音声通信のためのデバイス（例えば、ハンドセット又はヘッドセット）において、アレイＲ１００の隣接するマイクの間の中心間距離は、一般的に、およそ１．５ｃｍからおよそ４．５ｃｍまでの範囲にあるが、より大きな間隔（例えば、最高１０又は１５ｃｍ）もまた、例えばハンドセットのようなデバイスにおいて可能である。補聴器において、アレイＲ１００の隣接マイク間の中心間距離は、わずかおよそ４又は５ｍｍであっても良い。アレイＲ１００のマイクは、直線に沿って配置されても良く、または、その代わりに、それらのセンターが二次元の形の（例えば、三角形の（triangular））頂点又は３次元の形の頂点に配置されても良い。

図１Ａ〜１Ｄは、マルチマイク携帯型音声検出装置Ｄ１００の様々な図を示す。デバイスＤ１００は、アレイＲ１００の２マイク（two-microphone）実装をもたらすハウジングＺ１０及びハウジングから延びるイヤホンＺ２０を含む無線ヘッドセットである。そのようなデバイスは、例えばセルラー電話ハンドセットのような電話デバイスとの通信を介して（例えば、Bluetooth ＳＩＧ社、ベルヴュー、ＷＡ（the Bluetooth Special Interest Group, Inc., Bellevue, WA）によって広められるＢｌｕｅｔｏｏｔｈプロトコルのバージョンを使用して）半二重又は全二重の電話通信（telephony）をサポートするように構成されても良い。一般に、ヘッドセットのハウジングは、長方形であるか或いは図１Ａ、１Ｂ及び１Ｄで示されるように細長く（例えば、ミニブーム（miniboom）のような形をしている）であっても良いし、又は、丸みを帯びて板も良いし若しくは円形でさえあっても良い。ハウジングはまた、バッテリー及びプロセッサ及び／又は他の処理回路（例えば、プリント回路基板及びその上にマウントされるコンポーネント）を封入（enclose）していても良く、そして、電気的ポート（例えば、ミニ・ユニバーサル・シリアル・バス（ＵＳＢ）又はバッテリー充電のための他のポート）及びユーザ・インタフェース機能（例えば、１又は複数のボタン・スイッチ及び／又はＬＥＤのような）を含んでも良い。一般的に、ハウジングの、その長軸に沿った長さは、１インチから３インチまでの範囲にある。

一般的に、アレイＲ１００の各々のマイクは、音響ポートとして働くハウジングにおける１又は複数の小さな穴の後方で、デバイス中にマウントされる。図１Ｂ〜１Ｄは、デバイスＤ１００のアレイの一次マイクのための音響ポートＺ５０及びデバイスＤ１００のアレイの二次マイクのための音響ポートＺ４０の位置を示す。

ヘッドセットはまた、固定デバイス（securing device）（例えばイヤーフックＺ３０）を含んでも良い。それは、一般的にヘッドセットから取り外し可能である。例えば、外部イヤーフックは、ユーザがヘッドセットをどちらの耳での使用のためにも設定（configure）できるように、リバーシブルであっても良い。あるいは、ヘッドセットのイヤホンは、異なるユーザが、特定のユーザの外耳道（ear canal）の外側部へのより良いフィットのために、異なるサイズ（例えば、直径）のイヤーピース（earpiece）を使用するのを可能にするために、取り外し可能なイヤーピースを含み得る内部固定デバイス（例えば、耳栓）としてデザインされても良い。

図２Ａ〜２Ｄは、ワイヤレス・ヘッドセットの他の例であるマルチマイク携帯型音声検出装置Ｄ２００の様々な図を示す。デバイスＤ２００は、丸みを帯びた楕円ハウジングＺ１２、及び、耳栓として構成され得るイヤホンＺ２２を含む。図２Ａ〜２Ｄはまた、デバイスＤ２００のアレイの一次マイクのための音響ポートＺ４２及び二次マイクのための音響ポートＺ５２の位置を示す。二次マイク・ポートＺ５２は、（例えば、ユーザ・インタフェース・ボタンによって）少なくとも部分的にふさがれて（occluded）いても良い。

図３Ａは、通信ハンドセットであるマルチマイク携帯型音声検出装置Ｄ３００の（中心軸に沿った）横断面図を示す。デバイスＤ３００は、一次マイクＭＣ１０及び二次マイクＭＣ２０を有するアレイＲ１００の実装を含む。この例において、デバイスＤ３００はまた、一次ラウドスピーカＳＰ１０及び二次ラウドスピーカＳＰ２０を含む。そのようなデバイスは、１又は複数の符号化及び復号化スキーム（“コーデック（codecs）”とも呼ばれる）によって音声通信データを無線で送信及び受信するように構成されても良い。そのようなコーデックの例は、第３世代パートナーシッププロジェクト２（３ＧＰＰ２）のドキュメントC.S0014-C, v1.0（タイトル“Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems,” February 2007 (www-dot-3gpp-dot-orgでオンラインで入手できる)）に記載されているような強化された可変レート・コーデック（Enhanced Variable Rate Codec）、３ＧＰＰ２のドキュメントC.S0030-0, v3.0（タイトル“Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems,” January 2004 (www-dot-3gpp-dot-orgでオンラインで入手できる)）に記載されているような選択可能モードのボコーダ・スピーチコーデック（Selectable Mode Vocoder speech codec）、ドキュメントETSI TS 126 092 V6.0.0 (European Telecommunications Standards Institute (ETSI), Sophia Antipolis Cedex, FR, December 2004)に記載されているような適応マルチレート（ＡＭＲ）スピーチコーデック（Adaptive Multi Rate (AMR) speech codec）、及び、ドキュメントETSI TS 126 192 V6.0.0 (ETSI, December 2004)に記載されているようなＡＭＲワイドバンド・スピーチコーデック（AMR Wideband speech codec）を含む。図３Ａの例において、ハンドセットＤ３００は、クラムシェル・タイプのセルラー電話ハンドセット（“フリップ”ハンドセットとも呼ばれる）である。そのようなマルチマイク通信ハンドセットの他の構成は、バー・タイプ及びスライダー・タイプの電話ハンドセットを含む。図３Ｂは、三次マイクＭＣ３０を含むアレイＲ１００の３マイク（three-microphone）実装を含むデバイスＤ３００の実装Ｄ３１０の横断面図を示す。

図４Ａは、メディア・プレーヤーであるマルチマイク携帯型音声検出装置Ｄ４００の図を示す。そのようなデバイスは、例えば標準的な圧縮フォーマット（例えば、ムービング・ピクチャーズ・エキスパーツ・グループ（ＭＰＥＧ）−１オーディオ・レイヤ３（ＭＰ３）、ＭＰＥＧ−４パート１４（ＭＰ４）、ウィンドウズ（登録商標）メディア・オーディオ／ビデオ（ＷＭＡ／ＷＭＶ）のバージョン(Microsoft Corp., Redmond, WA)、アドバンスト・オーディオ・コーディング（ＡＡＣ）、国際電気通信連合（ＩＴＵ）−ＴＨ．２６４、又は、同種のもの）に従って符号化されるファイル又はストリームのような、圧縮されたオーディオ又はオーディオビジュアル情報の再生（playback of）のために構成されても良い。デバイスＤ４００は、デバイスの前面に配置される表示スクリーンＳＣ１０及びラウドスピーカＳＰ１０を含み、そして、アレイＲ１００のマイクＭＣ１０及びＭＣ２０は、デバイスの同一面に（例えば、この例の場合のように上面の両側に、又は、前面の両側に）配置される。図４Ｂは、マイクＭＣ１０及びＭＣ２０がデバイスの対面に配置されるデバイスＤ４００の他の実装Ｄ４１０を示し、図４Ｃは、マイクＭＣ１０及びＭＣ２０がデバイスの隣接面に配置されるデバイスＤ４００の更なる実装Ｄ４２０を示す。メディア・プレーヤーはまた、意図された使用の間、長軸が水平になるように、デザインされても良い。

図５Ａは、ハンズフリー自動車のキットであるマルチマイク携帯型音声検出装置Ｄ５００の図を示す。そのような装置は、車両のダッシュボードに取り付けられるか、又は、フロントガラス、バイザー若しくは他の内面（interior surface）に取り外し可能に取り付けられるように、構成されても良い。デバイスＤ５００は、ラウドスピーカ８５及びアレイＲ１００の実装を含む。この特定の例において、デバイスＤ５００は、アレイＲ１００の４マイク（four-microphone）実装Ｒ１０２を含む。そのようなデバイスは、１又は複数のコーデック（例えば上記に掲載された例）によって音声通信データを無線で送信及び受信するように構成されても良い。代わりに又は加えて、そのようなデバイスは、例えばセルラー電話ハンドセットのような電話デバイスとの通信を介して（例えば、先に述べたようにＢｌｕｅｔｏｏｔｈプロトコルのバージョンを使用して）半二重又は全二重の電話通信をサポートするように構成されても良い。

図５Ｂは、ライティング・デバイス（例えば、ペン又は鉛筆）であるマルチマイク携帯型音声検出装置Ｄ６００の図を示す。デバイスＤ６００は、アレイＲ１００の実装を含む。そのようなデバイスは、１又は複数のコーデック（例えば上記の例）により音声通信データを無線で送信及び受信するように構成されても良い。代わりに又は加えて、そのようなデバイスは、例えばセルラー電話ハンドセット及び／又は無線ヘッドセットのようなデバイスとの通信を介して（例えば、先に述べたようにＢｌｕｅｔｏｏｔｈプロトコルのバージョンを使用して）半二重又は全二重の電話通信をサポートするように構成されても良い。デバイスＤ６００は、アレイＲ１００により生成される信号において、スクラッチ・ノイズ８２のレベルを低減するために、空間選択的な処理オペレーション（spatially selective processing operation）を実行するように構成される１又は複数のプロセッサを含んでも良い。このスクラッチ・ノイズは、描画面（drawing surface）８１（例えば、紙）を横切るデバイスＤ６００の先端の運動から生じ得る。本明細書で開示されるシステム、方法及び装置の適用性は図１Ａ〜５Ｂに示される特定の例に制限されないことが、明確に開示される。

マルチマイク音声検出装置（例えば、デバイスＤ１００，Ｄ２００，Ｄ３００，Ｄ４００，Ｄ５００又はＤ６００）のオペレーションの間、アレイＲ１００は、マルチチャネル信号を生成する。マルチチャネル信号において、各々のチャネルは、音響環境に対する複数のマイクのうちの対応する一つのマイクのレスポンスに基づいている。シングルマイクを使用して捕捉される（captured）ことができるよりも、音響環境のより完全な表現を提供するために、対応する複数のチャネルが互い異なるように、一つのマイクが、他のマイクに比較してより直接的に、特定のサウンド（sound）を受信しても良い。

マルチチャネル信号Ｓ１０を生成するために、アレイＲ１００が、複数のマイクにより生成される信号に対して１又は複数の処理オペレーションを実行することは、望ましい場合がある。図６Ａは、１又は複数のそのようなオペレーションを実行するように構成されるオーディオ前処理ステージＡＰ１０を含むアレイＲ１００の実装Ｒ２００のブロック図を示す。そのようなオペレーションは、インピーダンス整合、アナログ・デジタル変換、ゲイン制御、及び／又は、アナログ領域及び／又はデジタル領域におけるフィルタリングを含んでも良い（ただし、それらに制限されない）。

図６Ｂは、アレイＲ２００の実装Ｒ２１０のブロック図を示す。アレイＲ２１０は、アナログ前処理ステージＰ１０ａ及びＰ１０ｂを含むオーディオ前処理ステージＡＰ１０の実装ＡＰ２０を含む。一つの例において、ステージＰ１０ａ及びＰ１０ｂは、対応するマイク信号に対してハイパス・フィルタリング・オペレーション（例えば、５０、１００又は２００Ｈｚのカットオフ周波数による）を実行するようにそれぞれ構成される。

アレイＲ１００がデジタル信号としてマルチチャネル信号を生成する（すなわち、サンプルの系列として）ことは、望ましい場合がある。アレイＲ２１０は、例えば、対応するアナログ・チャネルをサンプルするようにそれぞれアレンジされたアナログ・デジタル変換器（ＡＤＣ）Ｃ１０ａ及びＣ１０ｂを含む。音響アプリケーションのための典型的なサンプリング・レートは、８ｋＨｚ，１２ｋＨｚ，１６ｋＨｚ及びおよそ８〜およそ１６ｋＨｚの範囲の他の周波数を含むが、およそ４４ｋＨｚと同じ高さのサンプリング・レートが使用されても良い。この特定の例において、アレイＲ２１０はまた、対応するデジタイズされたチャネルに対して１又は複数の前処理オペレーション（例えば、エコー・キャンセル、ノイズ・リダクション及び／又はスペクトラル・シェイピング）を実行するようにそれぞれ構成されたデジタル前処理ステージＰ２０ａ及びＰ２０ｂを含む。

アレイＲ１００により生成されるマルチチャネル信号は、空間処理オペレーション（例えば、音声検出装置と特定の音源（sound source）との間の距離を判定し、ノイズを低減し、特定の方向から到来する信号成分を強化し、及び／又は、１又は複数のサウンド・コンポーネントを他の環境音（environmental sounds）から分離するオペレーション）をサポートするために使用されても良い。例えば、空間選択的な処理オペレーションは、マルチチャネル信号の１又は複数の所望のサウンド・コンポーネントを、該マルチチャネル信号の１又は複数のノイズ・コンポーネントから分離するために実行されても良い。典型的な所望のサウンド・コンポーネントは、音声検出装置のユーザのボイスのサウンドであり、ノイズ・コンポーネントの例は、拡散環境雑音（diffuse environmental noise）（例えば、町の騒音（street noise）、自動車騒音及び／又は喧騒雑音（babble noise））、及び、指向性雑音（例えば、干渉するスピーカ）、及び／又は、他の点音源（point source）からのサウンド（例えば、テレビ、ラジオ又は拡声装置（public address system））を含む（ただし、それらに制限されない）。空間処理オペレーション（それは音声検出装置内で及び／又は他のデバイス内で実行されてもよい）の例は、米国特許出願番号１２／１９７，９２４（２００８年８月２５日付け提出、タイトル“SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION”）、及び、米国特許出願番号１２／２７７，２８３（２００８年１１月２４日付け提出、タイトル“SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY”）に記載されており、また、ビームフォーミング及びブラインド・ソース分離オペレーションを含む（ただし、これに制限されない）。

アレイＲ１００のマイクの製造の間、変化が生じることがある。、一回分の大量生産であって一見したところは全く同じマイクの間でさえ、マイクによって感度が有意に変化することがある。携帯型の大量市場向けのデバイスに使用されるマイクは、＋／−３デシベルの感度トレランス（sensitivity tolerance）で製造されることがあり、例えばアレイＲ１００の実装における２つのそのようなマイクの感度が６デシベルも異なることがある。

さらに、一旦、それがデバイス中に又はデバイス上にマウントされると、マイクの実効的なレスポンス特性において変化が生じる場合がある。マイクは、一般的に、音響ポートの後方でデバイス・ハウジング内にマウントされ、圧力によって及び／又は摩擦若しくは粘着力によって、所定の位置に固定され得る。図７Ａは、マイクＡ１０が音響ポートＡ３０の後方でデバイス・ハウジングＡ２０内にマウントされる例の横断面を示す。ハウジングＡ２０は、一般的に、成形されたプラスチック（例えば、ポリカーボネート（ＰＣ）及び／又はアクリロニトリル−ブタジエン−スチレン共重合樹脂（ＡＢＳ））で出来ており、そして、音響ポートＡ３０は、一般的に、ハウジングの１又は複数の小さなホール又はスロットとして実装される。ハウジングＡ２０におけるタブは、マイクを適切な位置に固定するために、圧縮性の（例えば、ゴム弾性の（elastomeric））ガスケットＡ４０に対して、マイクＡ１０を加圧する。多くのファクタは、このような方法でマウントされるマイクの実効的なレスポンス特性に影響を及ぼす可能性がある（例えば、マイクがマウントされる空洞の共鳴（resonances）及び／又は他の音響特性、ガスケットに対する圧力の量及び／又は均一性、音響ポートのサイズ及び形、その他）。

アレイＲ１００により生成されるマルチチャネル信号に対するオペレーション（例えば、空間処理オペレーション）のパフォーマンスは、アレイ・チャネルのレスポンス特性がどれくらい良く互いにマッチするかに依存し得る。例えば、それぞれのマイクのレスポンス特性の相違、それぞれの前処理ステージのゲイン・レベルの相違及び／又は回路ノイズのレベルの相違に起因して、チャネルのレベルは異なり得る。このような場合、マイク・レスポンス特性の相違が補償（compensated）されない限り、結果として生じるマルチチャネル信号は、音響環境の正確な表現を提供しない可能性がある。そのような補償をしなければ、そのような信号に基づく空間処理オペレーションは、誤った結果を与える可能性がある。例えば、低周波（すなわち、およそ１００Ｈｚから１ｋＨｚ）における１又は２デシベルと同じくらい小さなチャネル間の振幅レスポンスの偏り（deviations）は、低周波の指向性をかなり低減する可能性がある。アレイＲ１００のチャネル間のアンバランスの影響は、３以上のマイクを有するアレイＲ１００の実装からのマルチチャネル信号を処理するアプリケーションに対して特に有害（detrimental）である場合がある。

アレイのチャネルの実効的なレスポンス特性の相違を定量化するために、組み立てられたマルチマイク音声検出装置に対してプレデリバリー・キャリブレーション・オペレーション（pre-delivery calibration operation）を実行すること（すなわち、ユーザへの供給（delivery）の前に）は、望ましい場合がある。例えば、アレイのチャネルの実効的なゲイン特性の相違を定量化するために、組み立てられたマルチマイク音声検出装置に対してプレデリバリー・キャリブレーション・オペレーションを実行することは、望ましい場合がある。

プレデリバリー・キャリブレーション・オペレーションは、キャリブレートされるべきマイクの全てが同一の音圧レベル（sound pressure levels）（ＳＰＬ）にさらされる音場（sound field）に対する、アレイＲ１００のインスタンスのレスポンスに基づいて、１又は複数の補償ファクタを計算することを含んでも良い。図７Ｂは、そのようなオペレーションの一つの例のために配置される無反響室の上面図を示す。この例において、頭・胴シミュレーター（Head and Torso Simulator）（HAT,デンマークのネーロムのブリュエル・ケアー社（Bruel & Kjaer, Naerum, Denmark）製のような）は、無反響室において、４つのラウドスピーカの内向きに集中されたアレイ（inward-focused array）内に置かれる。音圧レベル（ＳＰＬ）が音場内の位置に関して実質的に一定になるように、ラウドスピーカは、図示されるように、ＨＡＴＳを囲む音場を作成するように、キャリブレーション信号によって駆動される。一つの例において、それらラウドスピーカは、拡散ノイズ音場（diffuse noise field）を作成するように、ホワイトノイズ又はピンクノイズのキャリブレーション信号により駆動される。他の例において、キャリブレーション信号は、インタレストの周波数における１又は複数のトーン（例えば、およそ２００Ｈｚからおよそ２ｋＨｚの範囲における（例えば１ｋＨｚにおける）トーン）を含む。音場が、ＨＡＴＳの耳基準点（ear reference point）（ＥＲＰ）又は口基準点（mouth reference point）（ＭＲＰ）において、７５から７８ｄＢまでのＳＰＬを有することは、望ましい場合がある。

キャリブレートされるべきアレイＲ１００のインスタンスを有するマルチマイク音声検出装置が、音場内に適切に配置される。例えば、ヘッドセットＤ１００又はＤ２００は、図８の例の場合のように口スピーカ（mouth speaker）に対する標準的な方向においてＨＡＴＳの耳にマウントされても良いし、あるいは、ハンドセットＤ３００は、図９の例の場合のように口スピーカに対する標準的な方向においてＨＡＴＳに配置されても良い。音場に応答してアレイにより生成されるマルチチャネル信号は、それから、録音（recorded）される。信号のチャネル間の関係に基づいて、１又は複数の補償ファクタは、アレイの特定のインスタンスのチャネルのゲイン及び／又は周波数レスポンス特性にマッチするように計算される（例えば、デバイスの１又は複数のプロセッサによって及び／又は１又は複数の外部プロセッサによって）。例えば、ゲイン・ファクタを得るために、チャネルのレベル間の差分（difference）又は比率（ratio）が計算されても良い。ゲイン・ファクタは、これ以降、アレイのチャネルのゲイン・レスポンス特性の相違（difference）を補償するために、複数のチャネルのうちの１つに（例えば、ゲイン・ファクタとして）適用されても良い。

プレデリバリー・キャリブレーション手続きは、研究及びデザインの間、有用であり得るが、そのような手続きは、大部分の製造されたデバイスのために実行するにはあまりに時間がかかるか或いは非実用的である場合がある。例えば、大量市場向けのデバイスの各々のインスタンスについてそのようなオペレーションを実行することは、経済的に実行不可能である場合がある。さらに、プレデリバリー・オペレーションだけでは、デバイスの耐用年数（lifetime）の間、良いパフォーマンスを確実にするには不十分である場合がある。エイジング、温度、放射線及び汚染を含み得るファクタに起因して、マイク感度は、緩やかに変動（drift）するか或いは経時変化する場合がある。しかし、アレイの様々なチャネルのレスポンス間のアンバランスの十分な補償をしないと、マルチチャネル・オペレーション（例えば、空間選択的な処理オペレーション）のためのパフォーマンスの所望のレベルは、達成するのが難しいか或いは不可能である場合がある。

図１０Ａは、タスクＴ１００ａ，Ｔ１００ｂ，Ｔ２００及びＴ３００を含む一般的な構成に従ってマルチチャネル・オーディオ信号（例えば、アレイＲ１００の実装により生成されるような）を処理する方法Ｍ１００のフローチャートを示す。タスクＴ１００ａは、時間にわたってオーディオ信号の第１のチャネルのレベルの値の系列を計算し、タスクＴ１００ｂは、時間にわたってオーディオ信号の第２のチャネルのレベルの値の系列を計算する。タスクＴ２００は、第１及び第２のチャネルの値の系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算する。タスクＴ３００は、ゲイン・ファクタ値の系列に従って、時間にわたって第１のチャネルの振幅に対して（relative to）第２のチャネルの振幅を制御する。

タスクＴ１００ａ及びＴ１００ｂは、対応する一定期間（period of time）（マルチチャネル信号の“セグメント”とも呼ばれる）にわたって、チャネルの振幅（amplitude）又は振幅（magnitude）の尺度（measure）（“絶対振幅（absolute amplitude）”又は“調整振幅（rectified amplitude）”とも呼ばれる）として、対応するチャネルのレベルの値の系列をそれぞれ計算するように構成されても良い。振幅（amplitude）又は振幅（magnitude）の尺度の例は、総振幅（total magnitude）、平均振幅（average magnitude）、平方二乗平均（root-mean-square）（ＲＭＳ）振幅、メジアン振幅（median magnitude）及びピーク振幅（peak magnitude）を含む。デジタル領域において、これらの尺度は、次のような式に従ってｎ個のサンプル値ｘ_ｉ，ｉ＝１，２，．．．，ｎのブロック（“フレーム”とも呼ばれる）にわたって計算されても良い。

それらのような式はまた、変換領域（例えば、フーリエ又は離散コサイン変換（ＤＣＴ）領域）においてこれらの尺度を計算するために使用されても良い。これらの尺度はまた、類似する式に従って（例えば、総和の代わりに積分を使用して）、アナログの領域において計算されても良い。

代わりに、タスクＴ１００ａ及びＴ１００ｂは、対応する一定期間（period of time）にわたって、チャネルのエネルギーの尺度として、対応するチャネルのレベルの値の系列をそれぞれ計算するように構成されても良い。エネルギーの尺度の例は、総エネルギー及び平均エネルギーを含む。

デジタル領域において、これらの尺度は、次のような式に従ってｎ個のサンプル値ｘ_ｉ，ｉ＝１，２，．．．，ｎのブロックにわたって計算されても良い。

典型的なセグメント長は、およそ５又は１０ミリ秒からおよそ４０又は５０ミリ秒にわたり、セグメントは、オーバーラップするものであっても良いし（例えば、隣接するセグメントが、２５％又は５０％オーバーラップする）、又は、オーバーラップしないものであっても良い。一つの特定の例において、オーディオ信号の各々のチャネルは、１０ミリ秒のオーバーラップしないセグメントの系列に分割され、タスクＴ１００ａは、第１のチャネルの各々のセグメントのためのレベルの値を計算するように構成され、タスクＴ１００ｂは、第２のチャネルの各々のセグメントのためのレベルの値を計算するように構成される。タスクＴ１００ａ及びＴ１００ｂにより処理されるセグメントはまた、異なるオペレーションにより処理されるようなより大きなセグメントのセグメント（すなわち、“サブフレーム（subframe）”）であっても良く、その逆も同じである（vice versa）。

レベル値の系列を計算する前に、オーディオ信号チャネルに対して１又は複数のスペクトラル・シェイピング・オペレーションを実行するように、タスクＴ１００ａ及びＴ１００ｂを構成することは、望ましい場合がある。そのようなオペレーションは、アナログ領域及び／又はデジタル領域において実行されても良い。例えば、レベル値の系列を計算する前に、それぞれのチャネルからの信号に対して、ローパスフィルタ（例えば、２００、５００又は１０００Ｈｚのカットオフ周波数で）又はバンドパスフィルタ（例えば、２００Ｈｚから１ｋＨｚの通過帯域で）を適用するように、タスクＴ１００ａ及びＴ１００ｂの各々を構成することは、望ましい場合がある。

対応するレベル値の系列が時間上でスムージングされるように、時間的スムージング・オペレーションを含むようにタスクＴ１００ａ及び／又はタスクＴ１００ｂを構成することは、望ましい場合がある。そのようなオペレーションは、例えば次のような式に従って実行されても良い。

ここで、Ｌ_ｊｎは、チャネルｊのためのセグメントｎに対応するレベル値を表し、Ｌ_{ｊ−ｔｍｐ}は、例えば上の式（１）−（７）のうちの一つのような式に従ってセグメントｎのチャネルｊについて計算されたスムージングされていないレベル値を表し、Ｌ_{ｊ（ｎ−１）}は、チャネルｊのための前のセグメント（ｎ−１）に対応するレベル値を表し、μは、０．１（最大スムージング）から１（スムージングなし）までの範囲の値（例えば０．３、０．５又は０．７のような）を有する時間的スムージング・ファクタを表す。

音声検出装置のオペレーションの間のある時において、音響情報ソース及び任意の指向性ノイズ源は、実質的にアクティブでない。こうした時に、マルチチャネル信号の指向性コンテンツは、バックグラウンド・ノイズ・レベルと比較して（relative to）重要でない場合がある。サイレンス又はバックグラウンド・ノイズのみを含むオーディオ信号の対応するセグメントは、本明細書で“バックグラウンド（background）”セグメントと呼ばれる。各々のマイクの音圧レベルが一般的に等しくなるように、これらの時間のサウンド環境は、拡散場（diffuse field）であると考えられても良く、バックグラウンド・セグメントにおけるチャネルのレベルもまた、等しくなるはずであると予期されても良い。

図１０Ｂは、方法Ｍ１００の実装Ｍ２００のフローチャートを示す。方法Ｍ２００は、バックグラウンド・セグメントを指示するように構成されるタスクＴ４００を含む。タスクＴ４００は、１の値を有するステートが、対応するセグメントはバックグラウンド・セグメントであることを指示し、且つ、他の値を有するステートが、対応するセグメントはバックグラウンド・セグメントでないことを指示するように、時間にわたってバイナリの値を有する信号（binary-valued signal）のステート（例えば、バイナリの値を有するフラグのステート）の系列として、インジケーションを生成するように構成されても良い。代わりに、ステートが非バックグラウンド・セグメントの２又はそれ以上の異なるタイプのうちの１つを示し得るように、タスクＴ４００は、一度に、２を超える可能性がある値を有する信号のステートの系列として、インジケーションを生成するように構成されても良い。

タスクＴ４００は、セグメントの１又は複数の特性（例えば、全体的なエネルギー、ローバンド・エネルギー、ハイバンド・エネルギー、スペクトル分布（例えば、１又は複数の線スペクトル周波数、線スペクトル対及び／又は反射係数を使用して評価されるような）、信号対雑音比、周期性、及び／又、周期・頻度特性（zero-crossing rate））に基づいて、セグメントがバックグラウンド・セグメントであることを指示するように構成されても良い。そのようなオペレーションは、そのような特性の１又は複数の各々について、そのような特性の値又は振幅（magnitude）を、固定された又は適応可能な閾値と比較することを含んでも良い。代わりに又は加えて、そのようなオペレーションは、そのような特性の１又は複数の各々について、そのような特性の値又は振幅（magnitude）における変化の値又は振幅（magnitude）を、計算し、そして、固定された又は適応可能な閾値と比較することを含んでも良い。複数の基準（例えば、エネルギー、周期−頻度特性（zero-crossing rate）、その他）及び／又は最近のバックグラウンド・セグメント・インジケーションのメモリに基づいて、セグメントがバックグラウンド・セグメントであることを指示するように、タスクＴ４００を実装することは、望ましい場合がある。

代わりに又は加えて、タスクＴ４００は、１つの周波数バンドにおける、そのような特性（例えば、エネルギー）の値若しくは振幅（magnitude）、又は、そのような特性における変化の値若しくは振幅（magnitude）を、他の周波数バンドにおける同様の値と比較することを含んでも良い。例えば、タスクＴ４００は、低周波バンド（例えば、３００Ｈｚから２ｋＨｚ）及び高周波バンド（例えば、２ｋＨｚから４ｋＨｚ）の各々における現在のセグメントのエネルギーを評価し、そして、各々のバンドにおけるエネルギーがそれぞれの閾値未満（あるいは、以下）であるならば、セグメントがバックグラウンド・セグメントであることを指示するように、構成されても良い。閾値は、固定されていても良いし、又は、適応可能であっても良い。タスクＴ４００により実行され得るそのようなボイス・アクティビティー検出オペレーション（voice activity detection operation）の一つの例は、再生される（reproduced）オーディオ信号Ｓ４０のハイバンド・エネルギー及びローバンド・エネルギーを、それぞれの閾値値と比較することを含む（例えば、３ＧＰＰ２のドキュメントC.S0014-C, v1.0（タイトルEnhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems,” January 2007(www-dot-3gpp-dot-orgでオンラインで入手できる)）のセクション４．７(pp. 4-49 to 4-57)に記載されているように）。この例において、各々のバンドのための閾値は、アンカー・オペレーティング・ポイント（anchor operating point）（所望の平均データレートから導かれるような）、前のセグメントに関するそのバンドのバックグラウンド・ノイズ・レベルの推定、及び、前のセグメントに関するそのバンドの信号対雑音比に基づくものである。

代わりに、タスクＴ４００は、（Ａ）セグメントに対応するレベルｓｌ_ｎと、（Ｂ）バックグラウンド・レベル値ｂｇとの関係に従って、セグメントがバックグラウンド・セグメントであるかどうか指示するように構成されても良い。レベル値ｓｌ_ｎは、セグメントｎのチャネルのうちのただ１つのレベルの値であっても良い（例えば、タスクＴ１００ａにより計算されるＬ_１ｎ又はタスクＴ１００ｂにより計算されるＬ_２ｎ）。このような場合、レベル値ｓｌ_ｎは、一般的に、一次マイクＭＣ１０（すなわち、より直接的に所望の情報信号を受信するために配置されるマイク）に対応するチャネルのレベルの値である。代わりに、レベル値ｓｌ_ｎは、例えば上記の式（１）−（７）のうちの一つのような式に従って計算されるような、セグメントｎの２又はそれ以上のチャネルのミクスチャー（mixture）（例えば、平均）のレベルの値であっても良い。更なる代わりの方法において、セグメント・レベルｓｌ_ｎは、セグメントｎの２又はそれ以上のチャネルの各々のレベルの値の平均であっても良い。タスクＴ１００ａが時間にわたってＬ_１ｎをスムージングするように構成され、タスクＴ１００ｂが時間にわたってＬ_２ｎをスムージングするように構成される場合についてさえ、レベル値ｓｌ_ｎが（例えば、式（８）に関して上で説明されたように）時間にわたってスムージングされてはいない値であることは、望ましい場合がある。

図１１Ａは、タスクＴ４００のそのような実装Ｔ４１０のフローチャートを示す（それは、レベル値ｓｌ_ｎを、バックグラウンド・レベル値ｂｇと重みｗ_１との積と、比較する）。他の例において、重みｗ_１は、ファクタとしてよりもむしろバックグラウンド・レベル値ｂｇへのオフセットとして実装される。重みｗ_１の値は、例えば１から、１．５，２又は５までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、ｗ_１の値は、１．２と等しい。タスクＴ４１０は、オーディオ信号の各々のセグメントごとに又はより少ない頻度で（例えば、２番目のセグメントごとに（一つ置きに）、又は、４番目のセグメントごとに）、実行するように実装されても良い。

図１１Ｂは、タスクＴ４００の関係する実装Ｔ４６０のフローチャートを示す（それは、レベル値ｓｌとバックグラウンド・レベル値ｂｇとの間の差分を、バックグラウンド・レベル値ｂｇと重みｗ_２との積と、比較する）。他の例において、重みｗ_２は、ファクタとしてよりもむしろバックグラウンド・レベル値ｂｇへのオフセットとして実装される。重みｗ_２の値は、例えば０から、０．４，１又は２までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、ｗ_２の値は、０．２と等しい。タスクＴ４６０は、オーディオ信号の各々のセグメントごとに又はより少ない頻度で（例えば、２番目のセグメントごとに（一つ置きに）、又は、４番目のセグメントごとに）、実行するように実装されても良い。

タスクＴ４００は、対応するレベル値ｓｌ_ｎが下限（lower bound）より大きい（又は、以上）であるときにのみ、セグメントがバックグラウンド・セグメントであることを指示するように構成されても良い。そのような特性は、例えば、主に非音響ノイズ（例えば、固有雑音又は回路雑音）に基づいてゲイン・ファクタの値を計算することを避けるために使用されても良い。あるいは、タスクＴ４００は、そのような機能（feature）なしで実行するように構成されても良い。例えば、タスクＴ２１０が、音響コンポーネントについてだけでなくバックグラウンド・ノイズ環境の非音響コンポーネントについても、ゲイン・ファクタの値を計算することを可能にする（permit）ことは、望ましい場合がある。

タスクＴ４００は、バックグラウンド・レベル値ｂｇについて固定値を使用するように構成されても良い。しかし、より一般的には、タスクＴ４００は、時間とともにバックグラウンド・レベルの値を更新するように構成される。例えば、タスクＴ４００は、バックグラウンド・レベル値ｂｇを、バックグラウンド・セグメントからの情報（例えば、対応するセグメント・レベル値ｓｌ_ｎ）で置き換えるか或いは更新するように構成されても良い。そのような更新は、例えばｂｇ←（１−α）ｂｇ＋（α）ｓｌ_ｎのような式に従って実行されても良い。ここで、αは０（更新なし）から１（スムージングなし）までの範囲の値を有する時間的スムージング・ファクタであり、ｙ←ｘは、ｘの値のｙへの割り当て（代入）（assignment）を示す。タスクＴ４００は、バックグラウンド・セグメントごとに又はより少ない頻度で（例えば、バックグラウンド・セグメントについて一つ置きに、又は、４番目のバックグラウンド・セグメントごとに、など）、バックグラウンド・レベルの値を更新するように構成されても良い。タスクＴ４００はまた、非バックグラウンド・セグメントからバックグラウンド・セグメントへの移行の後に、１又は複数のセグメント（“ハンドオーバー・ピリオド（hangover period）”とも呼ばれる）について、バックグラウンド・レベルの値を更新することを控えるように構成されても良い。

タスクＴ４００を、時間の経過に伴うバックグラウンド・レベルの値の間の関係（例えば、現在と前のバックグラウンド・レベルの値の間の関係）に従って、異なるスムージング・ファクタ値を使用するように構成することは、望ましい場合がある。例えば、バックグラウンド・レベルが下がっている（falling）とき（例えば、バックグラウンド・レベルの現在の値がバックグラウンド・レベルの前の値より小さいとき）よりも、バックグラウンド・レベルが上がっている（rising）とき（例えば、バックグラウンド・レベルの現在の値がバックグラウンド・レベルの前の値より大きいとき）、タスクＴ４００を、より多いスムージングを実行するように構成することは、望ましい場合がある。一つの特定の例において、スムージング・ファクタαは、バックグラウンド・レベルが上がっているときに、値α_Ｒ＝０．０１を割り当てられ、バックグラウンド・レベルが下がっているとき、値α_Ｆ＝０．０２（あるいは、２＊α_Ｒ）を割り当てられる。図１２Ａは、タスクＴ４１０のそのような実装Ｔ４２０のフローチャートを示し、図１２Ｂは、タスクＴ４６０のそのような実装Ｔ４７０のフローチャートを示す。

方法Ｍ２００がどれくらい長く実行していたかに従って、異なるスムージング・ファクタ値を使用するように、タスクＴ４００を構成することは、望ましい場合がある。例えば、タスクＴ４００が、音声検出セッションの初期セグメントの間に（例えば、セッションの、最初の５０，１００，２００，４００若しくは８００のセグメント、又は、最初の５，１０，２０若しくは３０秒の間に）、もっと後のセグメントの間に比べて、より少ないスムージングを実行する（例えば、αのより高い値（例えばα_Ｆ）を使用する）ように、方法Ｍ２００を構成することは、望ましい場合がある。そのような構成は、例えば、音声検出セッション（例えば、通話（telephone call）のような通信セッション）の間、バックグラウンド・レベル値ｂｇのより速い初期収束（initial convergence）をサポートするために使用されても良い。

タスクＴ４００は、バックグラウンド・レベル値ｂｇに関して下限を観測するように構成されても良い。例えば、タスクＴ４００は、（Ａ）バックグラウンド・レベル値ｂｇのための計算された値と、（Ｂ）最小許容バックグラウンド・レベル値minlvlとのうちの最大値として、バックグラウンド・レベル値ｂｇのための現在の値を選択するように構成されても良い。最小許容値minlvlは、固定値であっても良い。あるいは、最小許容値minlvlは、例えば最も低く観測された最近のレベル（例えば、最も最近の２００のセグメントにおけるセグメント・レベル値ｓｌ_ｎのうちで最も低い値）のような適応可能な値であっても良い。図１３Ａは、タスクＴ４２０のそのような実装Ｔ４３０のフローチャートを示し、図１３Ｂは、タスクＴ４７０のそのような実装Ｔ４８０のフローチャートを示す。

バックグラウンド・レベル値ｂｇ及び／又は最小許容値minlvlを、方法Ｍ２００のその後の実行における（例えば、その後の音声検出セッションにおける及び／又はパワー・サイクルの後での）それぞれのパラメータに対する初期値として使用するために、不揮発性メモリに保存するように、タスクＴ４００を構成することは、望ましい場合がある。タスクＴ４００のそのような実装は、音声検出セッション（例えば、通話のような通信セッション）の終わりにおいて及び／又はパワーダウン・ルーチンの間に、周期的に（例えば、１０、２０、３０又は６０秒ごとに１回）そのような保存を実行するように構成されても良い。

方法Ｍ２００はまた、タスクＴ４００のインジケーションに基づいてゲイン・ファクタの値の系列を計算するように構成されるタスクＴ２００の実装Ｔ２１０を含む。一般的に、バックグラウンド・セグメントについては、第１及び第２のチャネルのレベルの対応する値が等しくなることは、望ましい。しかし、アレイＲ１００のチャネルのレスポンス特性の間の相違は、これらのレベルがマルチチャネル・オーディオ信号において異なる原因になる場合がある。バックグラウンド・セグメントにおけるチャネル・レベル間のアンバランスは、レベル間の関係に従ってセグメントにわたって第２のチャネルの振幅（amplitude）を変化させることによって、少なくとも部分的に補償されても良い。方法Ｍ２００は、セグメントの第２のチャネルのサンプルを、Ｌ_１ｎ／Ｌ_２ｎのファクタにより乗算することによって、そのような補償オペレーションの特定の例を実行するように構成されても良い。ここで、Ｌ_１ｎ及びＬ_２ｎは、それぞれ、セグメントの第１及び第２のチャネルのレベルの値を表す。

バックグラウンド・セグメントについて、タスクＴ２１０は、第１のチャネルのレベルの値と第２のチャネルのレベルの値との間の関係に基づいて、ゲイン・ファクタの値を計算するように構成されても良い。例えば、タスクＴ２１０は、第１のチャネルのレベルの対応する値と第２のチャネルのレベルの対応する値との間の関係に基づいて、バックグラウンド・セグメントのためのゲイン・ファクタの値を計算するように構成されても良い。そのようなタスクＴ２１０の実装は、線形レベル値の関数として（例えば、Ｇ_ｎ＝Ｌ_１ｎ／Ｌ_２ｎのような式に従って）、ゲイン・ファクタの値を計算するように構成されても良い。ここで、Ｇ_ｎは、ゲイン・ファクタの現在の値を表す。あるいは、そのようなタスクＴ２１０の実装は、対数領域のレベル値の関数として（例えば、Ｇ_ｎ＝Ｌ_１ｎ−Ｌ_２ｎのような式に従って）、ゲイン・ファクタの値を計算するように構成されても良い。

タスクＴ２１０を、時間にわたってゲイン・ファクタの値をスムージングするように構成することは、望ましい場合がある。例えば、タスクＴ２１０は、例えば次のような式に従ってゲイン・ファクタの現在の値を計算するように構成されても良い。

ここで、Ｇ_ｔｍｐは、第１及び第２のチャネルのレベルの値の間の関係に基づくゲイン・ファクタのスムージングされていない（unsmoothed）値（例えば、Ｇ_ｔｍｐ＝Ｌ_１ｎ／Ｌ_２ｎのような式に従って計算される値）であり、Ｇ_ｎ−１は、ゲイン・ファクタの最も最近の値（例えば、最も最近のバックグラウンド・セグメントに対応する値）を表し、βは、０（更新なし）から１（スムージングなし）までの範囲の値を有する時間的スムージング・ファクタである。

マイク・アレイのチャネルのレスポンス特性の間の相違は、チャネル・レベルが、バックグラウンド・セグメントのためにだけでなく非バックグラウンド・セグメントのためにも、異なる原因になる場合がある。しかし、非バックグラウンド・セグメントについて、チャネル・レベルはまた、音響情報ソースの指向性に起因して異なる場合がある。非バックグラウンド・セグメントについて、ソース指向性に起因するチャネル・レベルの間でのアンバランスを取り除くことなく、アレイ・アンバランスを補償することは、望ましい場合がある。

例えば、バックグラウンド・セグメントについてのみゲイン・ファクタの値を更新するように、タスクＴ２１０を構成することは、望ましい場合がある。タスクＴ２１０のそのような実装は、例えば次のうちの一つのような式に従ってゲイン・ファクタＧ_ｎの現在の値を計算するように構成されても良い。

タスクＴ３００は、ゲイン・ファクタの値の系列に従って、時間にわたって他のチャネルの振幅に対してオーディオ信号の一つのチャネルの振幅（amplitude）を制御する。例えば、タスクＴ３００は、よりセンシティブでないチャネルからの信号を増幅するように構成されても良い。あるいは、タスクＴ３００は、二次マイクに対応するチャネルの振幅（amplitude）を制御する（例えば、増幅又は減衰する）ように構成されても良い。

タスクＴ３００は、線形領域においてチャネルの振幅制御を実行するように構成されても良い。例えば、タスクＴ３００は、セグメントの第２のチャネルの振幅を、そのチャネルにおける該セグメントのサンプルの値の各々を該セグメントに対応するゲイン・ファクタの値で乗算することによって、制御するように構成されても良い。あるいは、タスクＴ３００は、対数領域において振幅を制御するように構成されても良い。例えば、タスクＴ３００は、セグメントの第２のチャネルの振幅を、該セグメントの継続時間にわたってそのチャネルに適用される対数関数ゲイン制御値に対してゲイン・ファクタの対応する値を加えることによって、制御するように構成されても良い。このような場合、タスクＴ３００は、対数関数値（例えば、デシベルで）としてゲイン・ファクタの値の系列を受信し、または、線形ゲイン・ファクタ値を対数関数値に変換するように構成されても良い（例えば、ｘ_ｌｏｇ＝２０ｌｏｇｘ_ｌｉｎのような式に従って（ここで、ｘ_ｌｉｎは線形ゲイン・ファクタ値であり、ｘ_ｌｏｇは対応する対数関数値である））。タスクＴ３００は、１つのチャネル又は複数のチャネルの他の振幅制御（例えば、自動ゲイン制御（ＡＧＣ）又は自動ボリューム制御（ＡＶＣ）モジュール、ユーザ操作によるボリューム制御（user-operated volume control）、その他）と結合されても良いし、または、その上流（upstream）又は下流（downstream）で実行されても良い。

時間にわたるゲイン・ファクタの値の間の関係（例えば、現在と前のゲイン・ファクタの値の間の関係）に従って異なるスムージング・ファクタ値を使用するように、タスクＴ２１０を構成することは、望ましい場合がある。例えば、ゲイン・ファクタの値が下がっているとき（例えば、ゲイン・ファクタの現在の値がゲイン・ファクタの前の値より小さいとき）よりも、ゲイン・ファクタの値が上がっているとき（例えば、ゲイン・ファクタの現在の値がゲイン・ファクタの前の値より大きいとき）、タスクＴ２１０を、より多いスムージングを実行するように構成することは、望ましい場合がある。そのようなタスクＴ２１０の構成の例は、パラメータΔＧ_ｎ＝Ｇ_ｔｍｐ−Ｇ_ｎ−１を評価し、ΔＧが０より大きい（あるいは、０以上である）ときはβ_Ｒの値をスムージング・ファクタβに割り当て、そうでないときはβ_Ｆの値をΔＧに割り当てることによって、実装されても良い。一つの特定の例において、β_Ｒは０．２の値を有し、β_Ｆは０．３（あるいは、１．５＊β_Ｒ）の値を有する。タスクＴ２１０が以下のようにΔＧに関して上記の式（１１）を実装するように構成されても良い点に注意される。

方法Ｍ２００がどれくらい長く実行していたかに従って、ゲイン・ファクタ値の時間的スムージングの程度を変化させるように、タスクＴ２１０を構成することは、望ましい場合がある。例えば、タスクＴ２１０が、音声検出セッションの初期セグメントの間（例えば、セッションの、最初の５０，１００，２００，４００若しくは８００のセグメント、又は、最初の５，１０，２０若しくは３０秒の間）に、もっと後のセグメントの間に比べて、より少ないスムージングを実行する（例えば、より高いスムージング・ファクタ値（例えばβ＊２またはβ＊３）を使用する）ように、方法Ｍ２００を構成することは、望ましい場合がある。そのような構成は、例えば、音声検出セッション（例えば、通話）の間、該値のより速い初期収束をサポートするために使用されても良い。代わりに又は加えて、タスクＴ２１０が、初期セグメントの間（例えば、セッションの、最初の５０，１００，２００，４００又は８００のセグメント、又は、最初の５，１０，２０又は３０秒の後）に比べて、音声検出セッションのもっと後のセグメントの間に、より多いスムージングを実行する（例えば、より低いスムージング・ファクタ値（例えば、β／２，β／３又はβ／４）を使用する）ように、方法Ｍ２００を構成することは、望ましい場合がある。

タスクＴ２００が何らかの状況（circumstances）においてゲイン・ファクタの値を更新するのを抑制する（inhibit）ことは、望ましい場合がある。例えば、対応するセグメント・レベル値ｓｌ_ｎが最小レベル値未満（あるいは、以下）であるときに、ゲイン・ファクタの前の値を使用するように、タスクＴ２００を構成することは、望ましい場合がある。他の例において、対応するセグメントのチャネルのレベル値の間のアンバランスがあまりに大きい（例えば、レベル値の間の絶対差（absolute difference）が最大アンバランス値より大きい（あるいは、以上である）か、又は、レベル値の間の比率が、あまりに大きいか若しくはあまりに小さい）ときに、ゲイン・ファクタの前の値を使用するように、タスクＴ２００を構成することは、望ましい場合がある。そのような状態（それは一方又は両方のチャネル・レベルの値が信頼できないことを示す可能性がある）は、マイクのうちの一つがふさがれているか（例えば、ユーザの指によって）、壊れているか、又は、汚染されている（例えば、埃又は水によって）ときに、起こる場合がある。

更なる例において、無相関ノイズ（例えば、ウィンド・ノイズ（wind noise））が対応するセグメントにおいて検出されるときに、ゲイン・ファクタの前の値を使用するように、タスクＴ２００を構成することは、望ましい場合がある。マルチチャネル・オーディオ信号の無相関ノイズの検出は、例えば、米国特許出願番号１２／２０１，５２８, filed August 29, 2008, entitled “SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT”に記載されている。このドキュメントは、無相関ノイズの検出及び／又はそのような検出のインジケーションのための装置及びプロシージャーの開示に制限された目的のために参照によって本明細書に組み込まれる。そのような検出は、差分信号（difference signal）のエネルギーを閾値と比較することを含んでも良い。ここで、差分信号はセグメントのチャネルの間の差分である。そのような検出は、チャネルをローパスフィルタリングすること、及び／又は、差分信号の計算の上流で、ゲイン・ファクタの前の値を第２のチャネルに適用することを含んでも良い。

マルチマイク音声検出装置は、音響情報ソースに対して（relative to）、特定の方法（“標準的な方向（standard orientation）”とも呼ばれる）において、着用され、持たれ、或いは、正しい位置に置かれるようにデザインされても良い。例えばハンドセット又はヘッドセットのような音声通信デバイスについて、情報ソースは、一般的に、ユーザの口である。図８は、アレイＲ１００の一次マイクＭＣ１０が、第二のマイクＭＣ２０に比べて、ユーザの口により直接的に向けられ、及び、ユーザの口により近付けられるように、標準的な方向にあるヘッドセットＤ１００の上面図を示す。図９は、一次マイクＭＣ１０が、第二のマイクＭＣ２０に比べて、ユーザの口により直接的に向けられ、及び、ユーザの口により近付けられるように、標準的な方向にあるハンドセットＤ３００の側面図を示す。

通常の使用の間、携帯型の音声検出装置は、情報ソースに対して標準的な方向の範囲の間で、任意にオペレートしても良い。例えば、異なるユーザが、異なってデバイスを着用し又は持っても良く、同一のユーザが、同一の使用期間内（例えば、１回の通話（single telephone call）の間）でさえ、異なる時に異なるようにデバイス着用し又は持っても良い。図１４は、ユーザの耳６５にマウントされるヘッドセットＤ１００について、ユーザの口６４に対して標準的な方向の範囲６６の２つの境界の例を示す。図１５は、ユーザの口に対してハンドセットＤ３００について標準的な方向の範囲の２つの境界の例を示す。

オーディオ信号の“情報”セグメントは、指向性音響情報ソース（例えば、ユーザの口）からの情報を含む（アレイのマイクのうちの第１のものは、アレイのマイクのうちの第２のものに比べて、該ソースにより近付けられており及び／又は該ソースへより直接向けられている）。この場合、たとえ２つのマイクのレスポンスが完全にマッチされるとしても、対応するチャネルのレベルは異なると予期され得る。

上で示したように、マイク・アレイのチャネルのレスポンス特性の間の相違に起因するチャネル・レベルの間のアンバランスを補償することは、望ましい場合がある。しかし、情報セグメントについて、情報ソースの指向性に起因するチャネル・レベルの間のアンバランスを維持することはまた、望ましい場合がある。ソース指向性に起因するアンバランスは、重要な情報を、例えば空間処理オペレーションに、提供し得る。

図１６Ａは、方法Ｍ１００の実装Ｍ３００のフローチャートを示す。方法Ｍ３００は、情報セグメントを指示するように構成されるタスクＴ５００を含む。タスクＴ５００は、例えば第１のチャネルのレベルの対応する値及び第２のチャネルのレベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成されても良い。方法Ｍ３００はまた、タスクＴ５００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるタスクＴ２００の実装Ｔ２２０を含む。

図１６Ｂは、タスクＴ５００の実装Ｔ５１０のフローチャートを示す。タスクＴ５１０は、セグメントのバランス尺度（balance measure）の値に基づいて、セグメントが情報セグメントであるかどうか指示するように構成される。ここで、バランス尺度は、第１及び第２のチャネルのレベルの対応する値と、アレイＲ１００のチャネルの異なるレスポンス特性に起因するチャネル・レベルの間の推定されたアンバランス（“アレイ・アンバランス推定（array imbalance estimate）”）とに基づくものである。タスクＴ５１０は、レベル値の間の関係に重み付けをするために、アレイ・アンバランス推定を使用することによって、バランス尺度を計算するように構成されても良い。例えば、タスクＴ５１０は、例えばＭ_Ｂ＝Ｉ_Ａ（Ｌ_２ｎ／Ｌ_１ｎ）のような式に従ってセグメントｎについてバランス尺度Ｍ_Ｂを計算するように構成されても良い。Ｌ_１ｎ及びＬ_２ｎは、それぞれ、セグメントについて第１及び第２のチャネルのレベルの値を示し（すなわち、タスクＴ１００ａ及びＴ１００ｂによって計算されたもののような）、Ｉ_Ａは、アレイ・アンバランス推定を表す。

アレイ・アンバランス推定Ｉ_Ａは、ゲイン・ファクタの少なくとも１つの値に基づいても良い（すなわち、タスクＴ２２０によって計算されたもののような）。一つの特定の例において、アレイ・アンバランス推定Ｉ_Ａは、ゲイン・ファクタの前の値Ｇ_{（ｎ−１）}である。他の例において、アレイ・アンバランス推定Ｉ_Ａは、ゲイン・ファクタの前の値の２個又はそれ以上の個数の平均（例えば、ゲイン・ファクタの２つの最も最近の値の平均）である。

タスクＴ５１０は、対応するバランス尺度Ｍ_Ｂが閾値Ｔ_１未満（あるいは、以下）であるときに、セグメントが情報セグメントであることを指示するように構成されても良い。例えば、タスクＴ５１０は、例えば次のような式に従って、各々のセグメントについてバイナリ・インジケーションを生成するように構成されても良い。

ここで、１の結果は、情報セグメントを示し、０の結果は、非情報セグメントを示す。タスクＴ５１０のそのような構成を実装するために使用され得る同じ関係の他の式は以下を含んでも良い（それらに制限されない）。

もちろん、そのような式の他の実装は、対応する結果を示すために異なる値を使用しても良い（例えば、情報セグメントを示す０の値及び非情報セグメントを示す１の値）。タスクＴ５１０は、割り当てられた数値（例えば１，１．２，１．５若しくは２又はそのような値に等しい対数関数）を有する閾値Ｔ１を使用するように構成されても良い。あるいは、閾値Ｔ１が、タスクＴ２２０に関して下記のようにバイアス・ファクタに基づくことは、望ましい場合がある。ゲイン・ファクタ計算タスクＴ２２０の適切なオペレーションをサポートするために、閾値Ｔ１を選択することは、望ましい場合がある。例えば、フォールス・ポジティブ（false positives）（非情報セグメントを情報セグメントとして指示）とフォールス・ネガティブ（false negatives）（情報セグメントを指示することに失敗）との間のタスクＴ５１０における適切なバランスを提供するために、閾値Ｔ１を選択することは、望ましい場合がある。

タスクＴ２２０は、タスクＴ５００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される。情報セグメントについて、タスクＴ２２０は、チャネル・レベル値及びバイアス・ファクタＩ_Ｓに基づいて、ゲイン・ファクタ値の対応する値を計算するように構成される。バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものであり、一般的に、セグメントの第１及び第２のチャネルのレベルの間の比率から独立しており、そして、下記のように計算又は評価されても良い。タスクＴ２２０は、第１及び第２のチャネルのレベルの対応する値の間の関係における重みとしてバイアス・ファクタを使用することによって、情報セグメントについてゲイン・ファクタの値を計算するように構成されても良い。そのようなタスクＴ２２０の実装は、線形値の関数として（例えば、Ｇ_ｎ＝Ｌ_１ｎ／Ｉ_ｓ（Ｌ_２ｎ）のような式に従って（ここで、バイアス・ファクタＩ_ｓは、第２のチャネルのレベルの値を重み付けするために使用される））、ゲイン・ファクタの値を計算するように構成されても良い。あるいは、そのようなタスクＴ２２０の実装は、対数領域の値の関数として（例えば、Ｇ_ｎ＝Ｌ_１ｎ−（Ｉ_ｓ＋Ｌ_２ｎ）のような式に従って）、ゲイン・ファクタの値を計算するように構成されても良い。

情報セグメントについてのみゲイン・ファクタの値を更新するように、タスクＴ２２０を構成することは、望ましい場合がある。タスクＴ２２０のそのような実装は、例えば次のうちの一つのような式に従ってゲイン・ファクタＧ_ｎの現在の値を計算するように構成されても良い。

ここで、βは、上で述べられたように、スムージング・ファクタ値である。

バイアス・ファクタＩ_Ｓは、指向性音源からの音響信号に起因するアレイの異なるマイクにおける音圧レベルの間の比率の近似として計算されても良い。そのような計算は、例えばデバイス内のマイクの位置及び方向のようなファクタ及びデバイスがソースに対して標準的な方向にあるときのデバイスとソースとの間の予測距離（expected distance）のようなファクタに基づいて、オフラインで（例えば、デバイスの設計又は製造の間に）実行されても良い。そのような計算はまた、マイク・アレイにより検出（sensed）される音場に影響を及ぼし得る音響ファクタ（例えば、デバイスの表面の及び／又はユーザの頭の反射特性）を考慮しても良い。

加えて又は代わりに、バイアス・ファクタＩ_Ｓは、指向性音響信号に対するデバイスのインスタンスの実際のレスポンスに基づいて、オフラインで評価されても良い。この方法において、デバイスの基準インスタンス（“基準デバイス（reference device）”とも呼ばれる）は、指向性情報ソースに対して標準的な方向に置かれ、そして、音響信号は、ソースにより発生（produces）される。マルチチャネル信号は、音響信号に応答してデバイス・アレイから得られ、バイアス・ファクタは、マルチチャネル信号のチャネル・レベルの間の関係に基づいて、（例えば、一次マイクのチャネルのレベル対二次マイクのチャネルのレベルの比率のような、チャネル・レベル間の比率として）計算される。

そのような評価オペレーションは、指向性音源（例えば、ＨＡＴＳの口ラウドスピーカ）に対して標準的な方向において適したテスト・スタンド（例えば、ＨＡＴＳ）の上に基準デバイスをマウントすることを含んでも良い。他の例において、基準デバイスは、人に着用されるか或いは人の口に対して標準的な方向においてマウントされる。ソースが、（例えば、耳基準点（ＥＲＰ）又は口基準点（ＭＲＰ）において測定されるような）７５から７８ｄＢまでの音圧レベル（ＳＰＬ）のスピーチ信号又は人工スピーチ信号として音響信号を発生することは、望ましい場合がある。（例えば、図６Ｂで示されるような配置において）マルチチャネル信号が得られる間、基準デバイス及びソースは、無反響室内に位置しても良い。マルチチャネル信号が得られる間、基準デバイスが、拡散ノイズ音場（例えば、図６Ｂで示されるように配置された４つのラウドスピーカにより発生され、ホワイト又はピンクノイズにより駆動される音場）内にあることはまた、望ましい場合がある。基準デバイスのプロセッサ又は外部処理デバイスは、バイアス・ファクタを（例えば、一次マイクのチャネルのレベル対二次マイクのチャネルのレベルの比率のような、チャネルのレベルの比率として）計算するために、マルチチャネル信号を処理する。

バイアス・ファクタＩ_Ｓが、ソースに対して標準的な方向における基準インスタンス（例えば、同一のモデルの任意のデバイス）と同じタイプのデバイスの任意のインスタンスについて、情報ソースの指向性によって、予期され得るチャネル・アンバランスを表現（describe）することは、望ましい場合がある。そのようなバイアス・ファクタは、一般的に、大量生産の間、デバイスの他のインスタンスに対してコピー（copied）されるであろう。ヘッドセット・アプリケーション及びハンドセット・アプリケーションのためのバイアス・ファクタＩ_Ｓの典型的な値は、１，１．５，２，２．５，３，４及び６デシベル並びにそのような値の線形等価（linear equivalents）を含む。

デバイスの他のインスタンスに信頼して（reliably）適用できるバイアス・ファクタを得るために、バイアス・ファクタ評価を実行する前に、デバイスの基準インスタンスをキャリブレートすることは、望ましい場合がある。そのようなキャリブレーションは、バイアス・ファクタが、基準デバイスのアレイのチャネルのレスポンス特性の間のアンバランスから独立していることを確実とするために、望ましい場合がある。図６Ｂに関して以前に説明されたように、基準デバイスは、例えば、プレデリバリー・キャリブレーション・オペレーションに従ってキャリブレートされても良い。

あるいは、バイアス・ファクタ評価オペレーションの後に基準インスタンスをキャリブレートし、そして、キャリブレーション結果に従って（例えば、結果として生じる補償ファクタに従って）、バイアス・ファクタＩ_Ｓを調整（adjust）することは、望ましい場合がある。更なる代わりの方法において、バイアス・ファクタは、各々の生成デバイス（production device）内での方法Ｍ１００の実行の間、バックグラウンド・セグメントについてタスクＴ２００により計算されるようなゲイン・ファクタの値に基づいて、調整される。

任意の一つの基準インスタンスに起因するバイアス・ファクタＩ_Ｓにおける誤差の影響を低減することは、望ましい場合がある。例えば、デバイスの幾つかの基準インスタンスに対してバイアス・ファクタ評価オペレーションを実行し、そして、バイアス・ファクタＩ_Ｓを得るために、該結果を平均することは、望ましい場合がある。

上記のように、タスクＴ５１０の閾値Ｔ１が、バイアス・ファクタＩ_Ｓに基づくことは、望ましい場合がある。この場合、閾値Ｔ１は、例えば１／（１＋δε）のような値を有しても良い。ここで、ε＝（Ｉ_ｓ−１）であり、δは０．５から２まで範囲の値（例えば、０．８、０．９又は１）を有する。

時間にわたってバイアス・ファクタＩ_Ｓを調整（tune）するためにタスクＴ５００を実装することは、望ましい場合がある。例えば、バイアス・ファクタの最適の値は、同一のデバイスについて、一人のユーザから他のユーザまで（ユーザごとに）、少し（slightly）変化させても良い。そのような変化は、例えば様々なユーザによって採用（adopted）される標準的な方向の間の相違及び／又はデバイスとユーザの口との間の距離上の相違のようなファクタに起因して、生じる場合がある。一つの例において、タスクＴ５００は、バックグラウンドと情報セグメントとの間の移行にわたってゲイン・ファクタの値の系列における変化を最小にするように、バイアス・ファクタＩ_Ｓを調整するために実装される。タスクＴ５００のそのような実装はまた、更新されたバイアス・ファクタＩ_Ｓを、方法Ｍ３００の後続する実行における（例えば、その後の音声検出セッションにおける及び／又はパワー・サイクルの後での）それぞれのパラメータのための初期値として使用するために、不揮発性メモリに保存するように構成されても良い。タスクＴ５００のそのような実装は、音声検出セッション（例えば、通話）の終わりにおいて及び／又はパワーダウン・ルーチンの間に、周期的に（例えば、１０，２０，３０又は６０秒おきに１回）そのような保存を実行するように構成されても良い。

図１７は、バランス尺度Ｍ_Ｂの値がどのようにしてマルチチャネル・オーディオ信号の対応するセグメントの指向性コンポーネントのおよその到来角を判定するために使用され得るかという理想化された視覚的描写を示す。これらの表現（terms）において、タスクＴ５１０は、バランス尺度Ｍ_Ｂの対応する値が閾値Ｔ１より小さい場合に、セグメントを情報ソースＳ１に対応付けるものとして表現（described）されても良い。

遠い指向性ソースからのサウンドは、拡散する傾向がある。したがって、遠距離音場（far-field）アクティビティーの期間の間に、アレイＲ１００のマイクにおけるＳＰＬは、サイレンス又はバックグラウンド・ノイズの期間の間のように、比較的均等であろうと仮定されても良い。遠距離音場アクティビティーの期間の間のＳＰＬは、サイレンス又はバックグラウンド・ノイズの期間の間のそれらより高いが、しかし、対応するセグメントから導かれるチャネル・アンバランス情報は、バックグラウンド・セグメントから導かれる類似する情報に比べて、非音響ノイズ・コンポーネント（例えば回路ノイズ）からの影響をより受けない可能性がある。

３以上のタイプのセグメントの間で区別するように、タスクＴ５００を構成することは、望ましい場合がある。例えば、情報セグメントだけでなく遠距離音場アクティビティーの期間に対応するセグメント（“バランス・ノイズ（balanced noise）”セグメントとも呼ばれる）を指示するように、タスクＴ５００を構成することは、望ましい場合がある。タスクＴ５００のそのような実装は、対応するバランス尺度Ｍ_Ｂが、閾値Ｔ_２より大きく（あるいは、以上であり）、且つ、閾値Ｔ_３より少ない（あるいは、以下である）ときに、セグメントはバランス・ノイズ・セグメントであることを指示するように構成されても良い。例えば、タスクＴ５１０の実装は、例えば次のような式に従って各々のセグメントのためのインジケーションを生成するように構成されても良い。

ここで、１の結果は情報セグメントを示し、−１の結果はバランス・ノイズ・セグメントを示し、０の結果はいずれでもないセグメントを示す。

タスクＴ５１０のそのような実装は、割り当てられた数値（例えば、閾値Ｔ２について、１，１．２，１．５若しくは２又はそのような値に等しい対数関数、及び、閾値Ｔ２について、１．２，１．５，２若しくは３又はそのような値に等しい対数関数）を有する閾値を使用するように構成されても良い。あるいは、閾値Ｔ２及び／又は閾値Ｔ３がバイアス・ファクタＩ_Ｓに基づくことは、望ましい場合がある。例えば、閾値Ｔ２は、例えば１／（１＋γε）のような値を有しても良く、及び／又は、閾値Ｔ３は、例えば１＋γεのような値を有しても良い。ここで、ε＝（Ｉ_ｓ−１）であり、γは０．０３から０．５まで範囲の値（例えば、０．０５、０．１又は０．２）を有する。ゲイン・ファクタ計算タスクＴ２２０の適切なオペレーションをサポートするために、閾値Ｔ２及びＴ３を選択することは、望ましい場合がある。例えば、情報セグメントの十分な棄却（rejection）を提供するために閾値Ｔ２を選択し、近距離音場（near-field）ノイズの十分な棄却を提供するために閾値Ｔ３を選択することは、望ましい場合がある。

タスクＴ５００が情報セグメント及びバランス・ノイズ・セグメントを指示するように構成されるケースについて、タスクＴ２２０は、例えば次のうちの一つのような式に従ってゲイン・ファクタＧ_ｎの現在の値を計算するように構成されても良い。

ここで、βは、上で示したように、スムージング・ファクタ値である。

図１８Ａは、例えば式（１９）により表現されるようなプロシージャーに従って、情報セグメント及びバランス・ノイズ・セグメントを指示するタスクＴ５１０の実装Ｔ５５０のためのフローチャートを示す。図１８Ｂは、バランス・ノイズ・セグメントに対するテストが、情報セグメントに対するテストの上流で実行されるタスクＴ５１０の類似する実装Ｔ５６０のためのフローチャートを示す。当業者は、いま、タスクＴ５１０のそのような構成を実装するために使用され得る同一の関係の様々な他の式を認識するであろう。当業者はまた、そのようなその式が、対応する結果を示すために、異なる値を使用してもよいことを認識するであろう。

例えばヘッドセット又はハンドセットのような携帯型の通信デバイスの典型的な使用において、ただ１つの情報ソースが予想される（すなわち、ユーザの口）。しかし、他の音声検出アプリケーションについて、情報セグメントの２又はそれ以上の異なるタイプの間で区別するように、タスクＴ５００を構成することは、望ましい場合がある。そのような能力は、例えば、会議開催アプリケーション又はスピーカーホン・アプリケーションにおいて有用である場合がある。図１９は、バランス尺度Ｍ_Ｂの値がどのようにして３つの異なるそれぞれの情報ソース（例えば、電話会議開催デバイスを使用している３人の人）からのアクティビティーに対応する情報セグメントの間で区別するために使用され得るかという理想化された視覚的描写を示す。タスクＴ５１０の対応する実装は、例えば次のような式に従って情報セグメントの特定のタイプを指示するように構成されても良い。

ここで、第１、第２及び第３の結果が、それぞれ、ソースＳ１、Ｓ２及びＳ３に対応する情報セグメントを示し、閾値Ｔ１〜Ｔ４は、ゲイン・ファクタ計算タスクＴ２２０の適切なオペレーションをサポートするために、選択される。

異なるそれぞれの情報ソースからのアクティビティーに対応する情報セグメントの間で区別するように方法Ｍ３００が構成されるケースについて、タスクＴ２２０は、情報セグメントの異なるタイプの各々について、異なるそれぞれのバイアス・ファクタを使用するように構成されても良い。方法Ｍ３００のそのような実装については、異なるバイアス・ファクタの各々を得るために、先に述べたようなバイアス・ファクタ評価オペレーションの対応するインスタンスを実行することは、望ましい場合がある（基準バイスは、各々のケースにおけるそれぞれの情報ソースに対して標準的な方向にある）。

音声検出装置は、方法Ｍ２００及びＭ３００のうちの一つを実行するように構成されても良い。あるいは、音声検出装置は、方法Ｍ２００及びＭ３００の間で選択するように構成されても良い。例えば、方法Ｍ２００の信頼できる使用をサポートするのに不十分なバックグラウンド音響ノイズを有する環境において、方法Ｍ３００を使用するように、音声検出装置を構成することは、望ましい場合がある。更なる代わりの構成において、音声検出装置は、図２０Ａのフローチャートで示されるような方法Ｍ１００の実装Ｍ４００を実行するように構成される。方法Ｍ４００（それはまた方法Ｍ２００及びＭ３００の実装である）は、本明細書で説明されたタスクＴ４００の実装の任意のインスタンス及び本明細書で説明されたタスクＴ５００の実装の任意のインスタンスを含む。方法Ｍ４００はまた、タスクＴ４００のインジケーション及びタスクＴ５００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるタスクＴ２００の実装Ｔ２３０を含む。

タスクＴ４００及びＴ５００を並列に実行するように方法Ｍ４００を構成することは、望ましい場合がある。あるいは、タスクＴ４００及びＴ５００を逐次的な（例えば、カスケードな）方法で実行するように方法Ｍ４００を構成することは、望ましい場合がある。図２０Ｂは、タスクＴ５００の実行が、各々のセグメントに対するタスクＴ４００の結果に関して条件付きである、そのような例のフローチャートを示す。図２１Ａは、タスクＴ５５０の実行が、各々のセグメントに対するタスクＴ４００の結果に関して条件付きである、そのような例のフローチャートを示す。図２１Ｂは、タスクＴ４００の実行が、各々のセグメントに対するタスクＴ５００の結果に関して条件付きである、そのような例のフローチャートを示す。

タスクＴ５００は、セグメントに対応するレベル値（例えば、タスクＴ４１０に関して本明細書で説明されるレベル値ｓｌ_ｎ）とバックグラウンド・レベル値（例えば、タスクＴ４１０に関して本明細書で説明されるバックグラウンド・レベル値ｂｇ）との間の関係に基づいて、セグメントは情報セグメントであることを指示するように構成されても良い。図２２Ａは、その実行がタスクＴ４００の結果に関して条件付きであるタスクＴ５１０の、そのような実装Ｔ５２０のフローチャートを示す。タスクＴ５２０は、レベル値ｓｌ_ｎを、バックグラウンド・レベル値ｂｇと重みｗ_３との積に比較するテストを含む。他の例において、重みｗ_３は、ファクタとしてよりもむしろバックグラウンド・レベル値ｂｇへのオフセットとして実装される。重みｗ_３の値は、例えば１から、１．５，２又は５までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、ｗ_３の値は、１．３と等しい。

図２２Ｂは、タスクＴ５１０の類似する実装Ｔ５３０のフローチャートを示す。それは、レベル値ｓｌとバックグラウンド・レベル値ｂｇとの間の差分を、バックグラウンド・レベル値ｂｇと重みｗ_４の積との積と比較するテストを含む。他の例において、重みｗ_４は、ファクタとしてよりもむしろバックグラウンド・レベル値ｂｇへのオフセットとして実装される。重みｗ_４の値は、例えば０から、０．４，１又は２までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、ｗ_４の値は、０．３と等しい。図２３Ａ及び２３Ｂは、それぞれ、タスクＴ５５０の類似する実装Ｔ５７０及びＴ５８０のフローチャートを示す。

方法Ｍ１００の様々なタスクの比較（“テスト”とも呼ばれる）及び他のオペレーションも、同一のタスク中のテスト及び他のオペレーションも、他のオペレーションの結果がオペレーションを不必要にし得るケースについてさえ、並行して実行するように実装されても良い点に明確に留意される。例えば、たとえ第１のテストの否定的な結果が第２のテストを不必要にし得るとしても、タスクＴ５２０の複数のテスト（又は、タスクＴ５３０の複数のテスト）を並行して実行すること（或いは、タスクＴ５７０又はＴ５８０の複数のテストのうちの２又はそれ以上を並行して実行すること）は、望ましい場合がある。

タスクＴ２３０は、例えば次のうちの一つのような式に従ってゲイン・ファクタＧ_ｎの現在の値を計算するように構成されても良い。

ここで、βは、上で示したように、スムージング・ファクタ値である。タスクＴ４００及び／又はタスクＴ５００のインジケーションに従って、ゲイン・ファクタの時間的スムージングの程度を変化させるように、タスクＴ２３０を構成することは、望ましい場合がある。例えば、タスクＴ２３０を、少なくとも音声検出セッションの初期セグメントの間に（例えば、セッションの、最初の５０，１００，２００，４００若しくは８００のセグメント、又は、最初の５，１０，２０若しくは３０秒の間に）、バックグラウンド・セグメントについて、より少ない（より程度を抑えた）スムージングを実行するように（例えば、より高いスムージング・ファクタ値（例えば、β＊２又はβ＊３）を使用するように）構成することは、望ましい場合がある。加えて又は代わりに、情報及び／又はバランス・ノイズ・セグメントの間、より多くのスムージングを実行するように（例えば、より低いスムージング・ファクタ値（例えば、β／２、β／３又はβ／４）を使用するように）、タスクＴ２３０を構成することは、望ましい場合がある。

タスクＴ５００が情報セグメント及びバランス・ノイズ・セグメントを指示するように構成される方法Ｍ４００の実装については、タスクＴ２３０は、例えば次のうちの一つのような式に従ってゲイン・ファクタＧ_ｎの現在の値を計算するように構成されても良い。

ここで、βは、上で示したように、スムージング・ファクタ値である。また、先に述べたように、バックグラウンド・セグメントについて、及び／又は、情報及び／又はバランス・ノイズ・セグメントについて、ゲイン・ファクタ値の時間的スムージングの程度を変化させるように、タスクＴ２３０を構成することは、望ましい場合がある。

レベル値計算タスクＴ１００ａ、レベル値計算タスクＴ１００ｂ及びゲイン・ファクタ計算タスクＴ２００のうちの１又は複数を、他のタスクに比べて異なる時間スケール（time scale）の上で実行するように、方法Ｍ１００を構成することは、望ましい場合がある。例えば、方法Ｍ１００は、タスクＴ１００ａ及びＴ１００ｂは、各々のセグメントについてレベル値を生成するが、タスクＴ２００は、一つ置きのセグメントについてだけ、又は、４番目のセグメントごとにだけ、ゲイン・ファクタを計算するように、構成されても良い。同様に、方法Ｍ２００（又は方法Ｍ３００）は、タスクＴ１００ａ及びＴ１００ｂは、各々のセグメントについてレベル値を生成するが、タスクＴ４００（及び／又はタスクＴ５００）は、一つ置きのセグメントについてだけ、又は、４番目のセグメントごとにだけ、その結果を更新するように、構成されても良い。そのような場合、より頻度の低いタスクからの結果が、より頻度の高いタスクからの結果の平均に基づいても良い。

タスクＴ３００によって、１つのセグメントに対応するゲイン・ファクタ値（例えば、セグメントｎからのレベル値に基づくゲイン・ファクタ値）が、異なるセグメント（例えば、セグメント（ｎ＋１）又はセグメント（ｎ＋２））に適用されるように、方法Ｍ１００を構成することは、望ましい場合がある。同様に、タスクＴ３００によって、１つのセグメントに対応するバックグラウンド・セグメント・インジケーション（あるいは、情報又はバランス・ノイズ・セグメント・インジケーション）が、異なるセグメントに（例えば、次のセグメントに）適用されるゲイン・ファクタ値を計算するために使用されるように、方法Ｍ２００（又はＭ３００）を構成することは、望ましい場合がある。そのような構成は、例えば可聴アーティファクト（audible artifact）を作成することなくそれが計算量（computational budget）を削減するならば、望ましい場合がある。

マルチチャネル・オーディオ信号のそれぞれの周波数サブバンドの上で方法Ｍ１００の独立したインスタンスを実行することは、望ましい場合がある。そのような例において、１セットの解析フィルタ又は変換オペレーション（例えば、高速フーリエ変換又はＦＦＴ）は、信号の各々のチャネルを１セットのサブバンドにデコンポーズ（decompose）するために使用され、方法Ｍ１００のインスタンスは、各々のサブバンドの上で別々に実行され、そして、１セットの合成フィルタ又は逆変換オペレーションは、第１のチャネル及び処理された第２のチャネルの各々をリコンポーズ（recompose）するために使用される。様々なサブバンドは、オーバーラップしていてもオーバーラップしていなくても良く、また、均一な幅であっても不均一な幅であっても良い。使用されても良い不均一のサブバンド分割スキームの例は、例えばバーク・スケール（Bark scale）に基づくスキームのような超越関数（transcendental）スキーム、又は、例えばメル・スケール（Mel scale）に基づくスキームのような対数関数スキームを含む。

方法Ｍ１００を、３以上のチャネルを有するマルチチャネル・オーディオ信号まで拡張することは、望ましい場合がある。例えば、方法Ｍ１００の一つのインスタンスは、第１及び第２のチャネルのレベルに基づいて、第１のチャネルに対して（relative to）第２のチャネルの振幅を制御するために実行されても良く、一方、方法Ｍ１００の他のインスタンスは、第１のチャネルに対して第３のチャネルの振幅を制御するために実行される。このような場合、方法Ｍ３００の異なるインスタンスは、異なるそれぞれのバイアス・ファクタを使用するように構成されても良い。ここで、バイアス・ファクタの各々は、基準デバイスの対応するチャネルの上で、それぞれのバイアス・ファクタ評価オペレーションを実行することによって、得られても良い。

マイク・アレイのチャネルの稼動中（in-service）のマッチングについて本明細書で説明されるように、携帯型のマルチマイク音声検出装置は、方法Ｍ１００の実装を実行するように構成されても良い。そのようなデバイスは、デバイスのあらゆる使用の間、方法Ｍ１００の実装を実行するように構成されても良い。あるいは、そのようなデバイスは、全体の使用期間より少ない間隔の間、方法Ｍ１００の実装を実行するように構成されても良い。例えば、そのようなデバイスは、あらゆる使用よりも低い頻度（例えば、毎日、毎週又は毎月につき１回未満）で、方法Ｍ１００の実装を実行するように構成されても良い。あるいは、そのようなデバイスは、何らかのイベントに応じて（例えば、あらゆるバッテリー充電サイクルで）、方法Ｍ１００の実装を実行するように構成されても良い。他の時は、デバイスは、格納されたゲイン・ファクタ値（例えば、最も最近計算されたゲイン・ファクタ値）に従って、第１のチャネルに対して第２のチャネルの振幅制御を実行するように構成されても良い。

図２４Ａは、一般的な構成に従ってデバイスＤ１０のブロック図を示す。デバイスＤ１０は、本明細書で開示されるマイク・アレイＲ１００の実装のうちの任意のもののインスタンスを含み、本明細書で開示される音声検出装置のうちの任意のもの（例えば、デバイスＤ１００，Ｄ２００，Ｄ３００，Ｄ４００，Ｄ５００及びＤ６００）は、デバイスＤ１０のインスタンスとして実装されても良い。第１のチャネルの振幅に対して第２のチャネルの振幅を制御するために、デバイスＤ１０はまた、アレイＲ１００によって生成されるマルチチャネル・オーディオ信号を処理するように構成される装置ＭＦ１００を含む。例えば、装置ＭＦ１００は、本明細書で開示される方法Ｍ１００の実装のうちの任意のもののインスタンスに従って、マルチチャネル・オーディオ信号を処理するように構成されても良い。装置ＭＦ１００は、ハードウェアで及び／又はソフトウェア（例えば、ファームウェア）で実装されても良い。例えば、装置ＭＦ１００は、処理されたマルチチャネル信号の上で先に述べたように空間処理オペレーション（例えば、音声検出装置と特定のサウンド・ソースとの間の距離を判定し、雑音を低減し、特定の方向から到来する信号コンポーネントを強化し、及び／又は、１又は複数のサウンド・コンポーネントを他の環境音から分離する、１又は複数のオペレーション）を実行するように更に構成されるデバイスＤ１０のプロセッサ上で実装されても良い。

図２４Ｂは、装置ＭＦ１００の実装ＭＦ１１０のブロック図を示す。装置ＭＦ１１０は、（例えば、タスクＴ１００ａに関して上で説明されたように）時間にわたってオーディオ信号の第１のチャネルのレベルの値の系列を計算するための手段ＦＬ１００ａを含む。装置ＭＦ１１０はまた、（例えば、タスクＴ１００ｂに関して上で説明されたように）時間にわたってオーディオ信号の第２のチャネルのレベルの値の系列を計算するための手段ＦＬ１００ｂを含む。手段ＦＬ１００ａ及びＦＬ１００ｂは、異なる構造（例えば、異なる回路又はソフトウェア・モジュール）として、同一の構造の異なる部分（例えば、論理素子のアレイの異なる領域又はコンピュータ・プロセスのパラレル・スレッド）として、及び／又は、異なる時間における同一の構造（例えば、時間にわたって異なるタスクの系列を実行するように構成される計算回路又はプロセッサ）として、実装されても良い。

装置ＭＦ１１０はまた、（例えば、タスクＴ２００に関して上で説明されたように）時間にわたってゲイン・ファクタの値の系列を計算するための手段ＦＧ１００と、（例えば、タスクＴ３００に関して上で説明されたように）第１のチャネルの振幅に対して第２のチャネルの振幅を制御するための手段ＦＡ１００とを含む。手段ＦＬ１００ａ及びＦＬ１００ｂのいずれに関しても、計算手段ＦＧ１００は、異なる構造として、同一の構造の異なる部分として、及び／又は、異なる時間における同一の構造として実装されても良い。手段ＦＬ１００ａ、ＦＬ１００ｂ及びＦＧ１００のいずれに関しても、手段ＦＡ１００は、異なる構造として、同一の構造の異なる部分として、及び／又は、異なる時間における同一の構造として実装されても良い。一つの例において、手段ＦＡ１００は、第２のチャネルのサンプルにゲイン・ファクタの対応する値を乗算するように構成される計算回路又はプロセスとして実装される。他の例において、手段ＦＡ１００は、アンプ又は他の調節可能なゲイン制御素子として実装される。

図２５は、装置ＭＦ１１０の実装ＭＦ２００のブロック図を示す。装置ＭＦ２００は、（例えば、タスクＴ４００に関して上で説明されたように）セグメントはバックグラウンド・セグメントであることを指示するための手段ＦＤ１００を含む。手段ＦＤ１００は、例えば、論理回路（例えば、論理素子のアレイ）として及び／又はプロセッサにより実行可能なタスクとして実装されても良い。一つの例において、手段ＦＤ１００は、ボイス・アクティビティー検出器（voice activity detector）として実装される。装置ＭＦ２００はまた、（例えば、タスクＴ２１０に関して上で説明されたように）手段ＦＤ１００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される手段ＦＧ１００の実装ＦＧ２００を含む。

図２６は、装置ＭＦ１１０の実装ＭＦ３００のブロック図を示す。装置ＭＦ３００は、（例えば、タスクＴ５００に関して上で説明されたように）セグメントは情報セグメントであることを指示するための手段ＦＤ２００を含む。手段ＦＤ２００は、例えば、論理回路（例えば、論理素子のアレイ）として及び／又はプロセッサにより実行可能なタスクとして実装されても良い。装置ＭＦ３００はまた、（例えば、タスクＴ２２０に関して上で説明されたように）手段ＦＤ２００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される手段ＦＧ１００の実装ＦＧ３００を含む。

図２７は、セグメントはバックグラウンド・セグメントであることを指示する手段ＦＤ１００及びセグメントは情報セグメントであることを指示する手段ＦＤ２００を含む装置ＭＦ１１０の実装ＭＦ４００のブロック図を示す。装置ＭＦ４００はまた、（例えば、タスクＴ２３０に関して上で説明されたように）手段ＦＤ１００及びＦＤ２００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される手段ＦＧ１００の実装ＦＧ４００を含む。

図２８Ａは、一般的な構成に従ってデバイスＤ２０のブロック図を示す。デバイスＤ２０は、本明細書で開示されるマイク・アレイＲ１００の実装のうちの任意のもののインスタンスを含み、本明細書で開示される音声検出装置のうちの任意のもの（例えば、デバイスＤ１００，Ｄ２００，Ｄ３００，Ｄ４００，Ｄ５００及びＤ６００）は、デバイスＤ２０のインスタンスとして実装されても良い。第１のチャネルの振幅に対して第２のチャネルの振幅を制御するために、デバイスＤ２０はまた、アレイＲ１００によって生成されるマルチチャネル・オーディオ信号を処理するように構成される装置Ａ１００を含む。例えば、装置Ａ１００は、本明細書で開示される方法Ｍ１００の実装のうちの任意のもののインスタンスに従って、マルチチャネル・オーディオ信号を処理するように構成されても良い。装置Ａ１００は、ハードウェアで及び／又はソフトウェア（例えば、ファームウェア）で実装されても良い。例えば、装置Ａ１００は、処理されたマルチチャネル信号の上で先に述べたように空間処理オペレーション（例えば、音声検出装置と特定のサウンド・ソースとの間の距離を判定し、雑音を低減し、特定の方向から到来する信号コンポーネントを強化し、及び／又は、１又は複数のサウンド・コンポーネントを他の環境音から分離する、１又は複数のオペレーション）を実行するように更に構成されるデバイスＤ２０のプロセッサ上で実装されても良い。

図２８Ｂは、装置Ａ１００の実装Ａ１１０のブロック図を示す。装置Ａ１１０は、（例えば、タスクＴ１００ａに関して説明されたように）時間にわたってオーディオ信号の第１のチャネルのレベルの値の系列を計算するように構成される第１のレベル計算機ＬＣ１００ａを含む。装置Ａ１１０はまた、（例えば、タスクＴ１００ｂに関して上で説明されたように）時間にわたってオーディオ信号の第２のチャネルのレベルの値の系列を計算するように構成される第２のレベル計算機ＬＣ１００ｂを含む。レベル計算機ＬＣ１００ａ及びＬＣ１００ｂは、異なる構造（例えば、異なる回路又はソフトウェア・モジュール）として、同一の構造の異なる部分（例えば、論理素子のアレイの異なる領域又はコンピュータ・プロセスのパラレル・スレッド）として、及び／又は、異なる時間における同一の構造（例えば、時間にわたって異なるタスクの系列を実行するように構成される計算回路又はプロセッサ）として、実装されても良い。

装置Ａ１１０はまた、（例えば、タスクＴ２００に関して上で説明されたように）時間にわたってゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機ＧＦ１００と、（例えば、タスクＴ３００に関して上で説明されたように）第１のチャネルの振幅に対して第２のチャネルの振幅を制御するように構成される振幅制御要素ＡＣ１００とを含む。レベル計算機ＬＣ１００ａ及びＬＣ１００ｂのどちらに関しても、ゲイン・ファクタ計算機ＧＦ１００は、異なる構造として、同一の構造の異なる部分として、及び／又は、異なる時間における同一の構造として実装されても良い。計算機ＬＣ１００ａ、ＬＣ１００ｂ及びＧＦ１００のいずれに関しても、振幅制御要素ＡＣ１００は、異なる構造として、同一の構造の異なる部分として、及び／又は、異なる時間における同一の構造として実装されても良い。一つの例において、振幅制御要素ＡＣ１００は、第２のチャネルのサンプルにゲイン・ファクタの対応する値を乗算するように構成される計算回路又はプロセスとして実装される。他の例において、振幅制御要素ＡＣ１００は、アンプ又は他の調節可能なゲイン制御素子として実装される。

図２９は、装置Ａ１１０の実装Ａ２００のブロック図を示す。装置Ａ２００は、（例えば、タスクＴ４００に関して上で説明されたように）セグメントはバックグラウンド・セグメントであることを指示するように構成されるバックグラウンド・セグメント・インジケータＳＤ１００を含む。インジケータＳＤ１００は、例えば、論理回路（例えば、論理素子のアレイ）として及び／又はプロセッサにより実行可能なタスクとして実装されても良い。一つの例において、インジケータＳＤ１００は、ボイス・アクティビティー検出器として実装される。装置Ａ２００はまた、（例えば、タスクＴ２１０に関して上で説明されたように）インジケータＳＤ１００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機ＧＦ１００の実装ＧＦ２００を含む。

図３０は、装置Ａ１１０の実装Ａ３００のブロック図を示す。装置Ａ３００は、（例えば、タスクＴ５００に関して上で説明されたように）セグメントは情報セグメントであることを指示するように構成される情報セグメント・インジケータＳＤ２００を含む。インジケータＳＤ２００は、例えば、論理回路（例えば、論理素子のアレイ）として及び／又はプロセッサにより実行可能なタスクとして実装されても良い。装置Ａ３００はまた、（例えば、タスクＴ２２０に関して上で説明されたように）インジケータＳＤ２００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機ＧＦ１００の実装ＧＦ３００を含む。

図３１は、バックグラウンド・セグメント・インジケータＳＤ１００及び情報セグメント・インジケータＳＤ２００を含む装置Ａ１１０の実装Ａ４００のブロック図を示す。装置Ａ４００はまた、（例えば、タスクＴ２３０に関して上で説明されたように）インジケータＳＤ１００及びＳＤ２００のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機ＧＦ１００の実装ＧＦ４００を含む。

方法Ｍ１００は、第２のチャネルのレベルの値の系列が振幅制御タスクＴ３００の下流で計算されるように、フィードバック構成で実装されても良い。方法Ｍ２００のフィードバック実装において、タスクＴ２１０は、例えば次のうちの一つのような式に従ってゲイン・ファクタＧ_ｎの現在の値を計算するように構成されても良い。

ここで、λ_２ｎは、セグメントの第２のチャネルのレベルの値を表す。

同様に、方法Ｍ３００のフィードバック実装において、タスクＴ２２０は、例えば次のうちの一つのような式に従ってゲイン・ファクタＧ_ｎの現在の値を計算するように構成されても良い。

ここで、βは、上で示したように、スムージング・ファクタ値である。同様に、タスクＴ５１０は、例えばＭ_Ｂ＝（Ｉ_Ａ／Ｇ_ｎ−１）（λ_２ｎ／Ｌ_１ｎ）のような式に従ってセグメントｎについてバランス尺度Ｍ_Ｂを計算するために、方法Ｍ３００のフィードバック実装で構成されても良い。

同様に、装置ＭＦ１１０は、第２のチャネルのレベルの値の系列が振幅制御装置ＦＡ１００の下流で計算されるように、構成されても良く、また、装置Ａ１１０は、第２のチャネルのレベルの値の系列が振幅制御要素ＡＣ１００の下流で計算されるように、構成されても良い。例えば、図３２は、ゲイン・ファクタ計算手段ＦＧ３００の実装ＦＧ３１０（それは、タスクＴ２２０のフィードバック・バージョンを実行するように構成されても良い（例えば、式（２９）又は（３０）に従って））と、情報セグメント指示手段ＦＤ２００の実装ＦＤ２１０（それは、先に述べたように、タスクＴ５１０のフィードバック・バージョンを実行するように構成されても良い）とを含む装置ＭＦ３００のそのような実装ＭＦ３１０のブロック図を示す。図３３は、ゲイン・ファクタ計算機ＧＦ３００の実装ＧＦ３１０（それは、タスクＴ２２０のフィードバック・バージョンを実行するように構成されても良い（例えば、式（２９）又は（３０）に従って）と、情報セグメント・インジケータＳＤ２００の実装ＳＤ２１０（それは、先に述べたように、タスクＴ５１０のフィードバック・バージョンを実行するように構成されても良い）とを含む装置Ａ３００のそのような実装Ａ３１０のブロック図を示す。

図３４は、デバイスＤ１０の実装である通信デバイスＤ５０のブロック図を示す。デバイスＤ５０は、装置ＭＦ１００を含むチップ又はチップセットＣＳ１０（例えば、モバイル・ステーション・モデム（ＭＳＭ）チップセット）を含む。チップ／チップセットＣＳ１０は、１又は複数のプロセッサを含んでも良い。そして、それは、装置ＭＦ１００の全部又は一部を（例えば、インストラクションとして）実行するように構成されても良い。チップ／チップセットＣＳ１０は、受信機及び送信機を含む。受信機は、高周波（ＲＦ）通信信号を受信し、該ＲＦ信号内に符号化されたオーディオ信号を復号し再生させるように構成される。送信機は、装置ＭＦ１００により生成された、処理されたマルチチャネル信号に基づいて、オーディオ信号を符号化し、該符号化されたオーディオ信号を表現するＲＦ通信信号を送信するように構成される。符号化されたオーディオ信号が空間的に処理された信号に基づくように、チップ／チップセットＣＳ１０の１又は複数のプロセッサは、処理されたマルチチャネル信号の上で先に述べたように空間処理オペレーション（例えば、音声検出装置と特定のサウンド・ソースとの間の距離を判定し、雑音を低減し、特定の方向から到来する信号コンポーネントを強化し、及び／又は、１又は複数のサウンド・コンポーネントを他の環境音から分離する、１又は複数のオペレーション）を実行するように構成されても良い。

デバイスＤ５０は、アンテナＣ３０を介してＲＦ通信信号を受信及び送信するように構成される。デバイスＤ５０はまた、アンテナＣ３０への経路中に、ダイプレクサー及び１又は複数のパワーアンプを含んでも良い。チップ／チップセットＣＳ１０はまた、キーパッドＣ１０を介してユーザ入力を受信し、表示Ｃ２０を介して情報を表示するように構成される。この例において、デバイスＤ５０はまた、グローバル・ポジショニング・システム（ＧＰＳ）位置サービス及び／又は例えば無線（例えば、Ｂｌｕｅｔｏｏｔｈ）ヘッドセットのような外部デバイスでとの近距離通信をサポートするために、１又は複数のアンテナＣ４０を含む。他の例において、そのような通信デバイスは、それ自身、Ｂｌｕｅｔｏｏｔｈヘッドセット、キーパッドＣ１０、表示Ｃ２０及びアンテナＣ３０である。

本明細書で開示される方法及び装置は、任意のトランシービング（transceiving）アプリケーション及び／又はオーディオ再生アプリケーション（特に、そのようなアプリケーションのモバイル或いは携帯型のインスタンス）において、一般に適用されても良い。例えば、本明細書で開示される構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インタフェースを使用するように構成される無線電話通信システムに存在する通信デバイスを含む。それでもなお、本明細書で説明される特徴を有する方法及び装置は、例えば有線及び／又は無線（例えば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ及び／又はＴＤ−ＳＣＤＭＡ）の伝送チャネル上でボイスオーバーＩＰ（ＶｏＩＰ）を使用するシステムのような、当業者に知られている広範囲の技術を使用する様々な通信システムのうちの任意のものに存在しても良いと、当業者により理解されるであろう。

本明細書で開示される通信デバイスが、パケット交換（packet-switched）（例えば、ＶｏＩＰなどのようなプロトコルに従って音声通信（audio transmissions）を運ぶようにアレンジされた有線及び／又は無線ネットワーク）及び／又は回線交換（circuit-switched）であるネットワークにおいて使用するために適応され得ることは、明確に予期され、また、本明細書に開示される。また、本明細書で開示される通信デバイスが、狭帯域符号化システム（例えば、およそ４又は５キロヘルツの音声周波数範囲（audio frequency range）を符号化するシステム）において使用するために、及び／又は、全バンド広帯域符号化システム（whole-band wideband coding systems）及びスプリット・バンド広帯域符号化システム（split-band wideband coding systems）を含む、広帯域符号化システム（例えば、５キロヘルツより大きな音声周波数を符号化するシステム）において使用するために適応され得ることは、明確に予期され、また、本明細書に開示される。

説明された構成の前述の提示は、投票者が本明細書で開示される方法及び他の構造を製造又は使用できるようにするために提供される。本明細書で図示され説明されたフローチャート、ブロック図、状態図及び他の構造は、単なる例であり、これらの構造の他の変形はまた開示の範囲内である。これらの構成に対する様々な修正が可能であり、本明細書で提示される一般的な原理（generic principles）は同様に他の構成に適用され得る。それゆえ、本開示は、上に示された構成に制限されることが意図されておらず、むしろ、原開示の一部を形成する提出された添付のクレームを含む本明細書でいずれかの方法で開示された原理又は新規な特徴と調和する最も広い範囲を与えられるべきである。

情報及び信号は、いろいろな異なるテクノロジー及びテクニックの任意のものを用いて表現可能であることを、当業者は理解できるであろう。例えば、上記説明の間に参照される、データ、インストラクション、コマンド、情報、信号、ビット、及び、シンボルは、電圧、電流、電磁波、磁場若しくは磁性粒子（magnetic fields or particles）、光場若しくは光学粒子（optical fields or particles）、又はそれらの任意の組み合わせにより表現可能である。

本明細書で開示される構成の実装に関する重要なデザインの要求は、処理の遅延及び／又は、計算の複雑性（computational complexity）（典型的には、数百万インストラクション毎秒又はＭＩＰＳ）を最小化することを含んでも良い（特に、例えばより高いサンプリング・レートでの（例えば、広帯域の通信のための）音声通信のためのアプリケーションのような、計算集約型のアプリケーション（computation-intensive applications）について）。

本明細書で開示される装置の実装の様々な要素は、対象とするアプリケーションに適すると考えられる、ハードウェア、ソフトウェア及び／又はファームウェアの任意の組み合せで実現（embodied）されても良い。例えば、そのような要素は、例えば、同一のチップの上に又はチップセット中の２以上のチップ間に存在している電子及び／又は光学デバイスとして作られて（fabricated）も良い。そのようなデバイスの１つの例は、例えばトランジスタ又は論理ゲートのような論理素子の固定された又はプログラム可能なアレイであり、これらの要素のうちの任意のものは、１又は複数のそのようなアレイとして実装されても良い。これらの要素のうちの任意の２以上のものは、あるいは、全てのものでさえ、同一のアレイ又は複数のアレイ内に実装されても良い。そのような１つのアレイ又は複数のアレイは、１又は複数のチップ内に（例えば、２以上のチップを含むチップセット内に）実装されても良い。

また、本明細書で開示される装置の様々な実装の１又は複数の要素（例えば、装置ＭＦ１００、ＭＦ１１０、ＭＦ２００、ＭＦ３００、ＭＦ３１０、ＭＦ４００、Ａ１００、Ａ１１０、Ａ２００、Ａ３００、Ａ３１０及びＡ４００）は、全体において又は一部において、例えば、マイクロプロセッサ、埋め込みプロセッサ、ＩＰコア、デジタルシグナルプロセッサ、ＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）、ＡＳＳＰ（特定用途向け規格品）及びＡＳＩＣ（特定用途向け集積回路）のような１又は複数の固定された又はプログラム可能な論理素子のアレイの上で実行するようにアレンジされた、１又は複数のインストラクションのセットとして実装されても良い。また、本明細書で開示される装置の実装の様々な要素のいずれも、１又は複数のコンピュータ（例えば、インストラクションの１又は複数のセット又はシーケンスを実行するようにプログラムされた１又は複数のアレイを含むマシン（“プロセッサ”とも呼ばれる））として実現（embodied）されても良く、これらの要素のうちの任意の２以上のものは、あるいは、全てのものでさえ、同一のそのようなコンピュータ又は複数のコンピュータ内に実装されても良い。

本明細書で開示される処理のためのプロセッサ又は他の手段は、例えば、同一のチップの上に又はチップセット中の２以上のチップ間に存在している１又は複数の電子及び／又は光学デバイスとして作られても良い。そのようなデバイスの一つの例は、例えばトランジスタ又は論理ゲートのような論理素子の固定された又はプログラム可能なアレイであり、これらの要素のうちの任意のものは、１又は複数のそのようなアレイとして実装されても良い。そのような１つのアレイ又は複数のアレイは、１又は複数のチップ内に（例えば、２以上のチップを含むチップセット内に）実装されても良い。そのようなアレイの例は、例えばマイクロプロセッサ、組み込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ及びＡＳＩＣ）のような固定された又はプログラム可能な論理素子のアレイを含む。本明細書で開示される処理のためのプロセッサ又は他の手段はまた、１又は複数のコンピュータ（例えば、インストラクションの１又は複数のセット又はシーケンスを実行するようにプログラムされた１又は複数のアレイを含むマシン）又は他のプロセッサとして実現されても良い。本明細書で説明されるプロセッサが、シグナル・バランシング・プロシージャー（signal balancing procedure）には直接関係しないタスク（例えば、該プロセッサが組み込まれるデバイス又はシステム（例えば、音声検出装置）の他のオペレーションに関係するタスク）を実行（perform）し又は他のインストラクションのセットを実行（execute）するために使用されることは、可能である。また、本明細書で開示される方法の一部が、音声検出装置のプロセッサにより実行されることは可能であり（例えば、レベル値計算タスクＴ１００ａとＴ１００ｂ、及びゲイン・ファクタ計算タスクＴ２００）、また、本方法の他の部分が、１又は複数の他のプロセッサの制御の下で実行されることは可能である（例えば、振幅制御タスクＴ３００）。

本明細書で開示される構成に関連して説明された様々な実例となる（illustrative）モジュール、論理ブロック、回路、及び、テスト及び他のオペレーションは、電子的なハードウェア、コンピュータ・ソフトウェア又は両方の組み合せとして実装されても良いと、当業者は認識するであろう。そのようなモジュール、論理ブロック、回路及びオペレーションは、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、ＡＳＩＣ又はＡＳＳＰ、ＦＰＧＡ又は他のプログラマブル・ロジック・デバイス、ディスクリート・ゲート又はトランジスタ・ロジック、個別ハードウェア・コンポーネント、又は、本明細書で開示されるような構成を作り出す（produces）ようにデザインされたそれらの任意の組み合わせにより実装されても良く又は実行されても良い。例えば、そのような構成は、配線で接続された回路として、特定用途向け集積回路に作られた回路構成として、又は、不揮発性記憶装置にロードされたファームウェア・プログラム若しくはデータ記憶媒体から／データ記憶媒体中へ機械読み取り可能なコードとして（例えば、汎用プロセッサ又は他のデジタル信号処理ユニットのような論理素子のアレイにより実行可能なインストラクションであるコード）ロードされるソフトウェア・プログラムとして、少なくとも部分的に実装されても良い。汎用プロセッサは、マイクロプロセッサであっても良いし、その代わりに、該プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ又は状態機械であっても良い。プロセッサはまた、複数のコンピュータ・デバイスの組み合せ（例えば、ＤＳＰとマイクロプロセッサの組み合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携した１又は複数のマイクロプロセッサ、又は、任意の他のそのような構成）として実装されても良い。ソフトウェア・モジュールは、ＲＡＭ（ランダムアクセス・メモリ）、ＲＯＭ（リードオンリーメモリ）、不揮発性ＲＡＭ（ＮＶＲＡＭ）（例えばフラッシュＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ又は技術的に知られている任意の他のタイプの記憶媒体に存在していても良い。実例となる記憶媒体は、プロセッサがその記憶媒体から情報を読み込み、また、それへ情報を書き込むことができるように、そのプロセッサに接続される。代わりに、記憶媒体は、プロセッサに一体化されていても良い。プロセッサ及び記憶媒体は、ＡＳＩＣにおいて存在してもよい。ＡＳＩＣは、ユーザ端末に存在しても良い。その代わりに、プロセッサ及び記憶媒体は、ユーザ端末の個別のコンポーネントとして存在しても良い。

本明細書で開示される様々な方法（例えば、方法Ｍ１００、Ｍ２００、Ｍ３００及びＭ４００）は、例えばプロセッサのような論理素子のアレイにより実行されても良い点に、また、本明細書で説明される装置の様々な要素は、そのようなアレイの上で実行するようにデザインされたモジュールとして実装されても良い点に、注意される。本明細書で使用されるように、“モジュール”又は“サブモジュール”という用語は、任意の方法、装置、デバイス、ユニット、又は、コンピュータ・インストラクション（例えば、論理的表現（logical expressions））をソフトウェア、ハードウェア又はファームウェアの形で含むコンピュータ読み取り可能なデータ記憶媒体を指し示すことができる。複数のモジュール又はシステムが、１つモジュール又はシステムに一体化されることができ、１つのモジュール又はシステムが、同一の機能を実行する複数のモジュール又はシステムに分離あれることができることは、理解されるべきである。ソフトウェア又は他のコンピュータ実行可能なインストラクションで実装されるとき、プロセスの要素は、基本的にが、関係するタスクを実行するコード・セグメント（例えばルーチン、プログラム、オブジェクト、コンポーネント、データ構造及び同類のもの）である。“ソフトウェア”という用語は、ソースコード、アセンブリ言語コード、マシンコード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理素子のアレイにより実行可能なインストラクションの１又は複数のセット又はシーケンス、又は、そのような例の任意の組み合わせを含むことは、理解されるべきである。プログラム又はコード・セグメントは、プロセッサ読み取り可能な媒体に記憶されることができる、又は、伝送媒体又は通信リンク上の搬送波において実現されるコンピュータ・データ信号によって送信されることができる。

また、本明細書で開示される方法、スキーム及び技術の実装は、論理素子のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ又は他の有限状態機械）を含むマシンにより読み取り可能な及び／又は実行可能なインストラクションの１又は複数のセットとして（例えば本明細書に記載されるような１又は複数のコンピュータ読み取り可能な媒体において）明らかに実現されても良い。“コンピュータ読み取り可能な媒体（computer-readable medium）”という用語は、揮発性、不揮発性、取り外し可能及び取り外し不能な媒体を含む、情報を記憶又は転送することができる任意の媒体を含んでも良い。コンピュータ読み取り可能な媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスク又は他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤ又は他のが光記憶装置、ハードディスク、光ファイバー媒体、無線周波数（ＲＦ）リンク、又は、所望の情報を記憶するために使用されることができ且つアクセスされることができる任意の他の媒体を含む。コンピュータ・データ信号は、例えば電子回路網チャネル（electronic network channels）、光ファイバー、エアー（air）、電磁気、ＲＦリンクなどのような伝送媒体上を伝搬することができる任意の信号を含んでも良い。コード・セグメントは、例えばインターネット又はイントラネットのようなコンピュータ・ネットワークを介してダウンロードされても良い。いずれにしても、本開示の範囲がそのような実施態様により制限されるものとして解釈されてはならない。

本明細書で説明される方法のタスクの各々は、直接ハードウェアで、プロセッサにより実行されるソフトウェア・モジュールで、又は、それら二つの組み合せで、実現されても良い。本明細書で開示される方法の実装の典型的なアプリケーションにおいて、論理素子のアレイ（例えば、論理ゲート）は、本方法の様々なタスクのうちの２以上のものは、あるいは、全てのものでさえ、実行するように構成される。また、タスクのうちの１又は複数のもの（場合によっては、全て）は、論理素子のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ又は他の有限状態機械）を含むマシン（例えば、コンピュータ）により読み取り可能及び／又は実行可能である、コンピュータ・プログラム製品（例えば、ディスク、フラッシュ又は他の不揮発性メモリカード、半導体メモリチップなどのような１又は複数のデータ記憶媒体）として実現される、コード（例えば、インストラクションの１又は複数のセット）として実装されても良い。本明細書で開示される方法の実装のタスクはまた、２以上のそのようなアレイ又は機械により実行されても良い。これら又は他の実装において、タスクは、例えばセルラー電話又はそのような通信能力を有する他のデバイス無線通信のためのデバイス内で実行されても良い。そのようなデバイスは、（例えば１又は複数のプロトコル（例えばＶｏＩＰ）を使用して）回線交換ネットワーク及び／又はパケット交換ネットワークと通信するように構成されても良い。例えば、そのようなデバイスは、符号化されたフレームを受信及び／又は送信するように構成されるＲＦ回路を含んでも良い。

本明細書で開示される様々な方法が、例えばハンドセット、ヘッドセット又はポータブル・デジタル・アシスタント（ＰＤＡ）などのような携帯型の通信デバイスにより実行されても良く、また、本明細書で説明される様々な装置が、そのようなデバイスに含まれても良いことが、明確に開示される。典型的なリアルタイム（例えば、オンライン）アプリケーションは、そのようなモバイル・デバイスを使用して行われる電話会話（telephone conversation）である。

一つ又は複数の例示的な実施形態において、本明細書で説明されるオペレーションは、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせにより実行されても良い。ソフトウェアで実装される場合には、そのようなオペレーションは、１又は複数のインストラクション又はコードとして、コンピュータ読み取り可能な媒体に格納され又は、コンピュータ読み取り可能な媒体により伝えられ（transmitted over）てもされても良い。用語“コンピュータ読み取り可能な媒体（computer-readable media）”は、コンピュータ記憶媒体（computer storage media）及び通信媒体（communication media）の両方を含み、或る場所から他の場所へのコンピュータ・プログラムの転送を容易にする任意の媒体を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体であっても良い。制限としてではなく例として、そのようなコンピュータ読み取り可能な媒体は、例えば、半導体メモリ（それは、ダイナミック又はスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ及び／又はフラッシュＲＡＭを含んでも良い（ただし、それらに制限されない））、又は、強誘電性、磁気抵抗、オボニック（ovonic）若しくは相変化メモリ、ＣＤ−ＲＯＭ又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他磁気記憶装置、又は、インストラクション又はデータ構造の形で所望のプログラム・コードを運ぶ又は記憶するために使用されることができ且つコンピュータによりアクセスされることができる任意の他の媒体のような、記憶要素（storage elements,）のアレイを含むことができる。また、任意のコネクションは、適切にコンピュータ読み取り可能な媒体と呼ばれる。例えば、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、又は、例えば赤外線、無線及び／又はマイクロ波のような無線技術を使用することによって、ウェブサイト、サーバ、又は他のリモートソースからソフトウェアが送信される場合に、その同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、又は、例えば赤外線、無線及び／又はマイクロ波のような無線技術は、媒体の定義に含まれる。本明細書で用いられるディスク（Disk）及びディスク（d
isc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピー（登録商標）ディスク及びブルーレイディスク（登録商標）(Blu-Ray Disc Association, Universal City, CA)を含む。ここで、ディスク（disks）は、通常、磁気的にデータを再生（reproduce）し、一方、ディスク（discs）は、レーザーを使って光学的にデータを再生する。上記の組み合わせはまた、コンピュータ読み取り可能な媒体の範囲の中に含まれるべきである。

本明細書で説明される音響信号処理装置は、幾つかのオペレーションを制御するためにスピーチ入力を受け入れる電子デバイスに組み込まれても良く、或いは、バックグラウンド・ノイズからの所望のノイズの分離の利益を享受し得る（例えば、通信デバイス）。多くのアプリケーションは、複数の方向が期限であるバックグラウンド・サウンドから、明瞭な所望のサウンドを、強調又は分離する利益を享受し得る。そのようなアプリケーションは、例えば音声認識及び検出（voice recognition and detection）、スピーチ強調及び分離（speech enhancement and separation）、音声作動式制御（voice-activated control）及び同類のもののような能力を組み込んだ電子又はコンピュータ・デバイスにおけるヒューマンマシンインタフェースを含んでも良い。制限された処理能力のみを提供するデバイスに適するように、そのような音響信号処理装置を実装することは、望ましい場合がある。

本明細書で説明されるモジュール、要素及びデバイスの様々な実装の要素は、例えば、同一のチップ上に又はチップセットの２以上のチップ間に存在している電子及び／又は光学デバイスとして作られても良い。そのようなデバイスの一つの例は、例えばトランジスタ又はゲートのような論理素子の固定された又はプログラム可能なアレイである。本明細書で説明される装置の様々な実装の１又は複数の要素はまた、全体において又は一部において、例えば、マイクロプロセッサ、埋め込みプロセッサ、ＩＰコア、デジタルシグナルプロセッサ、ＦＰＧＡ、ＡＳＳＰ及びＡＳＩＣのような１又は複数の固定された又はプログラム可能な論理素子のアレイの上で実行するようにアレンジされた、１又は複数のインストラクションのセットとして実装されても良い。

本明細書で説明される装置の１又は複数の要素が、該装置のオペレーションには直接関係しないタスク（例えば、該装置が組み込まれるデバイス又はシステムの他のオペレーションに関係するタスク）を実行（perform）し又は他のインストラクションのセットを実行（execute）するために使用されることは、可能である。また、そのような装置の実装の１又は複数の要素が、共通する構造（例えば、異なる時に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時に異なる要素に対応するタスクを実行するために実行される１セットのインストラクション、又は、異なる時に異なる要素のためにオペレーションを実行する電子及び／又は光学デバイスのアレイ）を有することは、可能である。例えば、レベル計算機ＬＣ１００ａ及びＬＣ１００ｂの２以上が、異なる時に同一の構造を含むように実装されても良い。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
〔１〕
マルチチャネル・オーディオ信号を処理する方法において、前記方法は、
時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算することと、
時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算することと、
前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算することと、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御することを含み、
前記方法は、前記オーディオ信号のセグメントが情報セグメントであることを指示することを含み、
時間にわたってゲイン・ファクタの値の系列を計算することは、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つについて且つ前記指示することに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタ値を計算することを含み、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである方法。
〔２〕
セグメントが情報セグメントであることを前記指示することは、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づくものである〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔３〕
セグメントが情報セグメントであることを前記指示することは、アレイ・アンバランス推定を含む関係に基づくものであり、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔４〕
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔５〕
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔６〕
前記バイアス・ファクタ値を前記計算することは、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用することを含み、
前記バイアス・ファクタ値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔７〕
前記方法は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示することを含む〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔８〕
前記方法は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含む〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔９〕
前記方法は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔１〕のマルチチャネル・オーディオ信号を処理する方法。
〔１０〕
少なくとも一つのプロセッサにより実行されるときに、前記少なくとも一つのプロセッサに、マルチチャネル・オーディオ信号を処理する方法を実行させるインストラクションを含むコンピュータ読み取り可能な媒体において、前記インストラクションは、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御させるインストラクションとを含み、
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記オーディオ信号のセグメントが情報セグメントであることを指示させるインストラクションを含み、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたってゲイン・ファクタの値の系列を計算させる前記インストラクションは、前記指示に応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算することを含み、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものであるコンピュータ読み取り可能な媒体。
〔１１〕
前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含む〔１０〕のコンピュータ読み取り可能な媒体。
〔１２〕
前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔１０〕のコンピュータ読み取り可能な媒体。
〔１３〕
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔１０〕のコンピュータ読み取り可能な媒体。
〔１４〕
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している〔１０〕のコンピュータ読み取り可能な媒体。
〔１５〕
前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタ値を計算させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用させるインストラクションを含み、
前記バイアス・ファクタ値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔１０〕のコンピュータ読み取り可能な媒体。
〔１６〕
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示させるインストラクションを含む〔１０〕のコンピュータ読み取り可能な媒体。
〔１７〕
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含む〔１０〕のコンピュータ読み取り可能な媒体。
〔１８〕
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔１０〕のコンピュータ読み取り可能な媒体。
〔１９〕
マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算するための手段と、
時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算するための手段と、
前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するための手段と、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御するための手段を含み、
前記装置は、前記オーディオ信号のセグメントが情報セグメントであることを指示するための手段を含み、
時間にわたってゲイン・ファクタの値の系列を計算するための前記手段は、前記インジケーションに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
〔２０〕
セグメントが情報セグメントであることを指示するための前記手段は、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２１〕
セグメントが情報セグメントであることを指示するための前記手段は、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２２〕
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２３〕
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２４〕
前記バイアス・ファクタ値を計算するための前記手段は、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々のを計算するように構成され、
前記バイアス・ファクタ値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２５〕
前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するための手段を含む〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２６〕
前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含む〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２７〕
前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２８〕
前記装置は、第１のチャネルのレベルの値の系列を計算するための前記手段と、第２のチャネルのレベルの値の系列を計算するための前記手段と、ゲイン・ファクタの値の系列を計算するための前記手段と、前記第２のチャネルの振幅を制御するための前記手段と、
前記音声信号のセグメントが情報セグメントであることを指示するための前記手段とを含む通信デバイスを含み、
前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む〔１９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔２９〕
マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算するように構成された第１レベル計算機と、
時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算するように構成された第２レベル計算機と、
前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するように構成されたゲイン・ファクタ計算機と、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御するように構成された振幅制御エレメントと、
前記オーディオ信号のセグメントが情報セグメントであることを指示するように構成された情報セグメント・インジケータとを含み、
前記ゲイン・ファクタ計算機は、前記インジケーションに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
前記バイアス・ファクタは、指向性アコースティック情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
〔３０〕
前記情報セグメント・インジケータは、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３１〕
前記情報セグメント・インジケータは、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３２〕
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３３〕
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３４〕
前記ゲイン・ファクタ計算機は、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々のを計算するように構成され、
前記バイアス・ファクタ値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３５〕
前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するように構成されたバックグラウンド・セグメント・インジケータを含む〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３６〕
前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含む〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３７〕
前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。
〔３８〕
前記装置は、前記第１レベル計算機と、前記第２レベル計算機と、前記ゲイン・ファクタ計算機と、前記振幅制御エレメントと、前記情報セグメント・インジケータとを含む通信デバイスを含み、
前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む〔２９〕のマルチチャネル・オーディオ信号を処理するための装置。

Claims

マルチチャネル・オーディオ信号を処理する方法において、前記方法は、
時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算することと、
時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算することと、
前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算することと、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御することを含み、
前記方法は、プロセッサにより、前記オーディオ信号のセグメントが情報セグメントであることを指示することを含み、
時間にわたってゲイン・ファクタの値の系列を計算することは、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つについて且つ前記指示することに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値を計算することを含み、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである方法。
セグメントが情報セグメントであることを前記指示することは、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づくものである請求項１のマルチチャネル・オーディオ信号を処理する方法。
セグメントが情報セグメントであることを前記指示することは、アレイ・アンバランス推定を含む関係に基づくものであり、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項１のマルチチャネル・オーディオ信号を処理する方法。
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項１のマルチチャネル・オーディオ信号を処理する方法。
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項１のマルチチャネル・オーディオ信号を処理する方法。
前記ゲイン・ファクタの値を前記計算することは、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用することを含み、
前記ゲイン・ファクタの値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項１のマルチチャネル・オーディオ信号を処理する方法。
前記方法は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示することを含む請求項１のマルチチャネル・オーディオ信号を処理する方法。
前記方法は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含む請求項１のマルチチャネル・オーディオ信号を処理する方法。
前記方法は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項１のマルチチャネル・オーディオ信号を処理する方法。
少なくとも一つのプロセッサにより実行されるときに、前記少なくとも一つのプロセッサに、マルチチャネル・オーディオ信号を処理する方法を実行させるインストラクションを含むコンピュータ読み取り可能な記録媒体において、前記インストラクションは、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御させるインストラクションとを含み、
前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記オーディオ信号のセグメントが情報セグメントであることを指示させるインストラクションを含み、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたってゲイン・ファクタの値の系列を計算させる前記インストラクションは、前記指示に応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算することを含み、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものであるコンピュータ読み取り可能な記録媒体。
前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含む請求項１０のコンピュータ読み取り可能な記録媒体。
前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項１０のコンピュータ読み取り可能な記録媒体。
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項１０のコンピュータ読み取り可能な記録媒体。
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項１０のコンピュータ読み取り可能な記録媒体。
前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタの値を計算させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用させるインストラクションを含み、
前記ゲイン・ファクタの値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項１０のコンピュータ読み取り可能な記録媒体。
前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示させるインストラクションを含む請求項１０のコンピュータ読み取り可能な記録媒体。
前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含む請求項１０のコンピュータ読み取り可能な記録媒体。
前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項１０のコンピュータ読み取り可能な記録媒体。
マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算するための手段と、
時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算するための手段と、
前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するための手段と、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御するための手段を含み、
前記装置は、前記オーディオ信号のセグメントが情報セグメントであることを指示するための手段を含み、
時間にわたってゲイン・ファクタの値の系列を計算するための前記手段は、前記インジケーションに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
セグメントが情報セグメントであることを指示するための前記手段は、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
セグメントが情報セグメントであることを指示するための前記手段は、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
前記ゲイン・ファクタの値を計算するための前記手段は、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々を計算するように構成され、
前記ゲイン・ファクタの値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するための手段を含む請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含む請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、第１のチャネルのレベルの値の系列を計算するための前記手段と、第２のチャネルのレベルの値の系列を計算するための前記手段と、ゲイン・ファクタの値の系列を計算するための前記手段と、前記第２のチャネルの振幅を制御するための前記手段と、
前記音声信号のセグメントが情報セグメントであることを指示するための前記手段とを含む通信デバイスを含み、
前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む請求項１９のマルチチャネル・オーディオ信号を処理するための装置。
マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
時間にわたって前記オーディオ信号の第１のチャネルのレベルの値の系列を計算するように構成された第１レベル計算機と、
時間にわたって前記オーディオ信号の第２のチャネルのレベルの値の系列を計算するように構成された第２レベル計算機と、
前記第１のチャネルのレベルの値の前記系列及び前記第２のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するように構成されたゲイン・ファクタ計算機と、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第１のチャネルの振幅に対して前記第２のチャネルの振幅を制御するように構成された振幅制御エレメントと、
前記オーディオ信号のセグメントが情報セグメントであることを指示するように構成された情報セグメント・インジケータとを含み、
前記ゲイン・ファクタ計算機は、前記インジケーションに応答して、前記第１のチャネルの前記レベルの対応する値、前記第２のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
前記バイアス・ファクタは、指向性アコースティック情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
前記情報セグメント・インジケータは、前記第１のチャネルの前記レベルの対応する値及び前記第２のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記情報セグメント・インジケータは、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記ゲイン・ファクタの値の系列の各々は、前記第１のチャネルのレベルの値の前記系列のうちの一つ対前記第２のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記バイアス・ファクタは、前記第１のチャネルの前記レベルの前記対応する値と前記第２のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記ゲイン・ファクタ計算機は、前記第２のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々を計算するように構成され、
前記ゲイン・ファクタの値は、前記第１のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第２のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するように構成されたバックグラウンド・セグメント・インジケータを含む請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含む請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項２９のマルチチャネル・オーディオ信号を処理するための装置。
前記装置は、前記第１レベル計算機と、前記第２レベル計算機と、前記ゲイン・ファクタ計算機と、前記振幅制御エレメントと、前記情報セグメント・インジケータとを含む通信デバイスを含み、
前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む請求項２９のマルチチャネル・オーディオ信号を処理するための装置。