JP7350092B2

JP7350092B2 - 眼鏡デバイス、システム、装置、および方法のためのマイク配置

Info

Publication number: JP7350092B2
Application number: JP2021568767A
Authority: JP
Inventors: ダセンファン; シーチェン
Original assignee: ソロズ・テクノロジー・リミテッド
Priority date: 2019-05-22
Filing date: 2020-05-21
Publication date: 2023-09-25
Anticipated expiration: 2040-05-21
Also published as: GB202115400D0; JP2022533391A; WO2021048632A2; WO2021048632A3; GB2597009A; CN113875264A; GB2597009B

Description

［関連出願への相互参照］
本出願は、２０１５年１０月１８日に出願された、発明の名称「雑音消去マイク形状装置を備えるヘッドウェアラブル音響システムおよび方法」、番号１４/８８６，０７７号の米国非仮特許出願の一部継続出願であり、当該米国非仮特許出願は、２０１４年３月１２日に出願された、発明の名称「希望信号抽出のための二段雑音低減構造」、番号１４/２０７，１６３号の米国非仮特許出願の一部継続出願であり、番号１４/２０７，１６３号の米国非仮特許出願は、２０１３年３月１３日に出願された、発明の名称「雑音消去マイク装置」、番号６１/７８０，１０８号の米国仮特許出願、および２０１４年２月１８日に出願された、発明の名称「音響信号を処理するためのシステムおよび方法」、番号６１/９４１，０８８号の米国仮特許出願からの優先権を主張する。
特許番号１４/８８６，０７７号はまた、２０１４年２月１４日に出願された、発明の名称「マイクアレイを備える眼鏡」、番号１４/１８０，９９４号の米国非仮特許出願の一部継続出願であり、番号１４/１８０，９９４号の米国非仮特許出願は、２０１３年３月１３日に出願された米国仮特許出願番号６１/７８０，１０８号、２０１３年６月２５日に出願された米国仮特許出願番号６１/８３９，２１１号、２０１３年６月２５日に出願された米国仮特許出願番号６１/８３９，２２７号、および２０１３年１２月６日に出願された米国仮特許出願番号６１/９１２，８４４号からの優先権を主張する。
本出願はまた、２０１９年２月５日に出願された発明の名称「眼鏡デバイス装置および方法のためのマイク配置」、米国仮特許出願番号６２/８０１，６１８号からの優先権を主張する。
米国仮特許出願番号６２/８０１，６１８号は、参照により本明細書中に組み入れられる。米国仮特許出願番号６１/７８０，１０８号は、参照により本明細書中に組み入れられる。米国仮特許出願番号６１/９４１，０８８号は、参照により本明細書中に組み入れられる。米国非仮特許出願番号１４/２０７，１６３号は、参照により本明細書中に組み入れられる。米国非仮特許出願番号１４/１８０，９９４号は、参照により本明細書中に組み入れられる。米国仮特許出願番号６１/８３９，２１１号は、参照により本明細書中に組み入れられる。米国仮特許出願番号６１/８３９，２２７号は、参照により本明細書中に組み入れられる。米国仮特許出願番号６１/９１２，８４４号は、参照により本明細書中に組み入れられる。

本発明は、一般に、音響信号データの検出及び処理用ウェアラブルデバイスに関し、より具体的には、ヘッドウェアラブル音響システムの雑音を低減し、ユーザの聴覚を支援することに関する。

音響システムは、マイクなどの音響センサを使用してオーディオ信号を受信する。通常は、それらのシステムは、受信マイクに希望オーディオおよび不要オーディオ（雑音とも呼ばれる）を同時に出す現実世界の環境において使用される。そのような受信マイクは、携帯電話、ハンドヘルドマイク、補聴器などのさまざまなシステムの一部である。それらのシステムは、受信した音響信号に対して音声認識処理を実行することがよくある。希望オーディオおよび不要オーディオを同時に受信すると、希望オーディオの品質に悪影響を及ぼす。希望オーディオの品質の低下により、ユーザへ出力された希望オーディオはユーザに理解されにくい可能性がある。音声認識（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ；ＳＲ）や自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ；ＡＳＲ）などのアルゴリズムで使用される劣化した希望オーディオは、エラー率を増加し、それによって再構成された音声を理解することは難しい。それらのどちらにも問題がある。

ハンドヘルドシステムが実装されているデバイスを把持および／または操作するために、ハンドヘルドシステムにはユーザの指が必要である。携帯電話を例にとると、ユーザの指を占有すると、ユーザが必要不可欠な機能を実行できなくなる。それは問題を引き起こす可能性がある。

不要オーディオ（雑音）は、希望オーディオのソースではないさまざまなソースから発生する可能性がある。したがって、不要オーディオのソースは、統計的に希望オーディオと相関していない。ソースは、非定常起源または定常起源からのものである可能性がある。定常は、音響信号の振幅、周波数、および方向がかなり変化しない時間と空間に適用される。例えば、自動車環境において、一定速度のエンジン雑音は定常の雑音であり、ロード雑音や風切り音なども同様である。非定常信号の場合、音響信号の雑音振幅、周波数分布、および方向は、時間や空間の関数として変化する。非定常雑音は、たとえば、カーステレオ、バンプ、ドアの開閉などによる一時的な雑音、車両の後部座席での雑談などの背景での会話などから発生する。不要オーディオの定常および非定常ソースは、オフィス環境、コンサートホール、サッカースタジアム、飛行機のキャビン、ユーザが音響システム（例えば、マイク、ヘッドセット、イヤーバッドマイクなどを備える携帯電話、タブレットコンピュータなど）を使用するすべての場所に存在する。時には、音響システムが使用されている環境は残響があり、それにより、雑音は、環境内で反響して、不要オーディオの複数のパスによってマイクの位置に到着する。どちらの雑音の源、つまり、非定常または定常の不要オーディオは、ＳＲやＡＳＲなどの音声認識アルゴリズムのエラー率を増加させ、または、システムがユーザに理解できる希望オーディオを出力することを困難にする可能性がある。それらすべてが問題を引き起こす可能性がある。

定常および非定常の源からの雑音を低減するために、様々な雑音消去アプローチが採用されてきた。既存の雑音消去アプローチは、雑音の大きさが希望オーディオの大きさよりも小さい環境、たとえば比較的低い雑音の環境において、うまく機能する。スペクトル減算法は、音声認識アルゴリズムおよび補聴器などのさまざまな音響システムでの雑音を低減するために使用される。自動音声認識（ＡＳＲ）アプリケーションにおいて使用される場合、不要オーディオの大きさが大きくなると、スペクトル減算法を採用しているシステムは、許容できるエラー率を生成しない。それは問題を引き起こす可能性がある。

さらに、スペクトル減算法などの既存のアルゴリズムは、音響信号に非線形処理を採用する。音響信号を非線形に処理すると、入力に比例しない出力が得られた。音声認識（ＳＲ）アルゴリズムは、雑音がない静かな環境において録音された音声信号を使用して開発される。したがって、非線形信号処理によって音声プロセスに非直線ひずみが導入されると、音声認識アルゴリズム（雑音がない静かな環境で開発された）は高いエラー率を生成する。音響信号の非線形処理は、希望オーディオの非線形歪みをもたらす可能性があり、音声認識に必要な特徴抽出を妨害し、それによって高いエラー率をもたらす。それらすべてが問題を引き起こす可能性がある。

例えば、音声認識（ＳＲ）または自動音声認識（ＡＳＲ）アプリケーションなどの音響システムから不要オーディオを抑制または除去しようとするために、様々な方法が使用されてきた。一つのアプローチは、音声活動検出器（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｒ；ＶＡＤ）として知られている。ＶＡＤは、希望オーディオが存在する場合および不要オーディオが存在する場合を検出しようとする。それにより、希望オーディオのみを受け入れ、不要オーディオを送信しないことによって雑音として扱う。従来の音声活動検出は、単一の音源、または希望オーディオの大きさに比べて大きさが小さい定常雑音（不要オーディオ）に対してのみ適切に機能する。したがって、従来の音声活動検出によって、雑音の多い環境においてＶＡＤのパフォーマンスがよくない。さらに、希望オーディオと不要オーディオが同時に受信マイクに到着する場合に、ＶＡＤを使用して不要オーディオを削除することは望ましい効果を有しない。それは問題を引き起こす可能性がある。

雑音の多い環境において使用される単一のマイクを備える音響システムは、希望オーディオおよび不要オーディオが単一のチャネルで同時に受信されるという問題を提示する。不要オーディオので、人間のユーザ、または音声認識（ＳＲ）や自動音声認識（ＡＳＲ）アルゴリズムなどの受信した音声を使用するように設計されたアルゴリズムのいずれかは、希望オーディオを理解できない可能性がある。それは問題を引き起こす可能性がある。希望オーディオと不要オーディオを同時に受信する問題に対処するために、複数のチャネルが採用されてきた。したがって、一方のチャネルにおいて、希望オーディオおよび不要オーディオが受信され、他方のチャネルにおいて、希望オーディオおよび不要オーディオも含む音響信号が受信される。時間の経過とともに、各チャネルの感度がドリフトする可能性があり、それによって、不要オーディオがチャネル間で不均衡になる。チャネルの感度がドリフトすると、不要オーディオが希望オーディオから不正確に削除される可能性がある。元の希望オーディオの非線形歪みは、感度が時間とともにドリフトするチャネルから得られた音響信号を処理することにより生じる可能性がある。それは問題を引き起こす可能性がある。

本発明の実施形態を説明するために使用される以下の説明および添付の図面を参照することにより、本発明は最もよく理解され得る。本発明は、実施形態において例として例示され、以下のような添付の図面に限定されない。添付の図面において、同じ参照符号は、同様の要素を示す。
本発明の実施形態に係る、ヘッドウェアラブルデバイス上のマイク配置のための一般的なプロセスを示す。本発明の実施形態に係る、マイク配置形状を示す。本発明の実施形態に係る、プライマリマイクが第一位置に位置する一般化マイク配置を示す。本発明の実施形態に係る、図３Ａに配置される主マイクの信号対雑音比の差の測定値を示す。本発明の実施形態に係る、図３Ｂに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を示す。本発明の実施形態に係る、プライマリマイクが第二位置に位置する一般化マイク配置を示す。本発明の実施形態に係る、図４Ａに配置される主マイクの信号対雑音比の差の測定値を示す。本発明の実施形態に係る、図４Ｂに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を示す。本発明の実施形態に係る、プライマリマイクが第三位置に位置する一般化マイク配置を示す。本発明の実施形態に係る、図５Ａに配置される主マイクの信号対雑音比の差の測定値を示す。本発明の実施形態に係る、図５Ｂに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を示す。本発明の実施形態に係る、マイク指向性パターンを示す。本発明の実施形態に係る、位置合わせされていない参照マイク応答軸を示す。本発明の一実施形態における二つの組み込みマイクを備える眼鏡デバイスを示す。本発明の一実施形態における三つの組み込みマイクを備える眼鏡デバイスを示す。本発明の別の実施形態に係る、二つの双方向マイクを、四つの音響ポートでの四つの全方向性マイクに置き換えることを示す。眼鏡の前フレームによって規定されるレンズ開口部を斜めに横切って配置される二つの全方向性マイクロホンを使用する本発明の眼鏡の概略図である。本発明の別の実施形態に係る、眼鏡フレームの上部および下部に沿って配置される四つの全方向性マイクを使用することを示す。本発明の別の実施形態に係る、マイクが、内側に向いて眼鏡のテンプル部分に、下に向いて眼鏡の前フレームの中央下隅に配置されることを示す。本発明の別の実施形態に係る、マイクが、内側に向いて眼鏡のテンプル部分に、下に向いて眼鏡の前フレームの中央下隅に配置されることを示す。本発明の実施形態に係る、内蔵の音響雑音消去システムを備える眼鏡を示す。本発明の実施形態に係る、図１５からのヘッドウェアラブルデバイスにおけるプライマリマイクの位置を示す。本発明の実施形態に係る、内蔵の音響雑音消去システムを備えるゴーグルを示す。本発明の実施形態に係る、内蔵の音響雑音消去システムを備える日よけ帽を示す。本発明の実施形態に係る、内蔵の音響雑音消去システムを備えるヘルメットを示す。本発明の実施形態に係る、希望オーディオ信号を抽出するためのプロセスを示す。本発明の実施形態に係る、システム構造を示す。本発明の実施形態に係る、フィルタコントローラーを示す。本発明の実施形態に係る、別のシステム構造を示す。本発明の実施形態に係る、別の自動平衡を組み入れたシステム構造を示す。本発明の実施形態に係る、雑音低減のためのプロセスを示す。本発明の実施形態に係る、ビーム形成を示す。本発明の実施形態に係る、別のビーム形成を示す。本発明の実施形態に係る、共有音響要素を利用するビーム形成を示す。本発明の実施形態に係る、多チャネル適応フィルタリングを示す。本発明の実施形態に係る、単一チャネルフィルタリングを示す。本発明の実施形態に係る、希望音声活動検出を示す。本発明の実施形態に係る、正規化された音声閾値比較器を示す。本発明の実施形態に係る、複数の参照チャネルを利用する希望音声活動検出を示す。本発明の実施形態に係る、圧縮を利用するプロセスを示す。本発明の実施形態に係る、圧縮を提供するための異なる関数を示す。本発明の実施形態に係る、自動平衡構造を示す。本発明の実施形態に係る、自動平衡を示す。本発明の実施形態に係る、フィルタリングを示す。本発明の実施形態に係る、自動平衡のためのプロセスを示す。本発明の実施形態に係る、音響信号処理システムを示す。本発明の実施形態に係る、ヘッドウェアラブルデバイス上のマイク配置の斜視図を示す。本発明の実施形態に係る、図３２Ａに対応するヘッドウェアラブルデバイス上のマイク配置の上面図を示す。本発明の実施形態に係る、図３２Ａに対応するヘッドウェアラブルデバイス上のマイク配置の底面図を示す。本発明の実施形態に係る、ヘッドウェアラブルデバイス上の別のセットのマイク配置の斜視図を示す。本発明の実施形態に係る、図３２Ｄに対応するヘッドウェアラブルデバイス上のマイク配置の底面図を示す。本発明の実施形態に係る、図３２Ａ－Ｄからの、異なる音源に対するヘッドウェアラブルデバイスを示す。本発明の実施形態に係る、ヘッドウェアラブルデバイスで構成されるマイクのアレイからの音響信号を処理することを示す。

本発明の実施形態の以下の詳細な説明において、添付の図面が参照され、これらの添付の図面において、同様の参照は同様の要素を示し、本発明を実施することができる特定の実施形態は、例として示されている。これらの実施形態は、当業者が本発明を実施できるように十分詳細に説明されている。他の例において、この説明の理解を曖昧にしないために、周知の回路、構造、および技術は詳細には示されていない。したがって、以下の詳細な説明は、限定的な意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によりのみ限定される。

ヘッドウェアラブルデバイス内の希望オーディオおよび不要オーディオを含む音響信号の検出および処理のための装置および方法が説明されている。一つまたは複数の実施形態において、雑音消去構造は、多チャネル雑音消去および単一チャネル雑音消去を組み合わせて、不要オーディオから希望オーディオを抽出する。一つまたは複数の実施形態において、多チャネル音響信号圧縮が、希望音声活動検出のために使用される。一つまたは複数の実施形態において、音響チャネルは自動的に平衡が取れている。一つまたは複数の実施形態において、システムは、音響信号を抽出するために、可能なマイクのアレイからマイクのサブセットを自動的に選択する。一つまたは複数の実施形態において、地元の環境からの音を聞くことを容易にするための聴覚補助は、ユーザに提供される。

図１は、本発明の実施形態に係る、ヘッドウェアラブルデバイス上のマイク配置のための一般的なプロセスを１００で示す。図１を参照すると、プロセスは、ブロック１０２において開始する。ブロック１０４において、「主」または「プライマリ」マイクチャネルは、一つまたは複数のマイクを使用して、ヘッドウェアラブルデバイス上に作られる。主マイクは、希望オーディオの受信を最適化するように配置され、それによってＳＮＲ_Ｍとして示される主マイクに関連付けられる第一信号対雑音比が向上する。ブロック１０６において、参照マイクチャネルは、一つまたは複数のマイクを使用して、ヘッドウェアラブルデバイス上に作られる。参照マイクは、ヘッドウェアラブルデバイス上に配置され、ユーザからの希望オーディオの検出に関してより低い信号対雑音比を提供し、それにより、ＳＮＲ_Ｒとして示される第二信号対雑音比をもたらす。したがって、ブロック１０８において、信号対雑音比の差は、ヘッドウェアラブルデバイス上のマイクの配置形状によって実現され、それにより、第一信号対雑音比ＳＮＲ_Ｍは、第二信号対雑音比ＳＮＲ_Ｒよりも大きくなる。

ブロック１１０において、信号対雑音比の差は、主マイクチャネルおよび参照マイクチャネルに対して異なる応答パターン（指向性パターン）を作ることにより、ビーム形成によって達成される。さまざまな指向性パターンを利用して信号対雑音比の差を生み出す方法について、以下の図と併せて以下でより詳しく説明する。

様々な実施形態において、ブロック１１２において、信号対雑音比の差は、マイク配置形状、ビーム形成、および主チャネルと参照チャネルの異なる指向性パターンの利用のうちの一つまたは複数の組み合わせによって達成される。当該プロセスはブロック１１４において終了する。

図２は、本発明の実施形態に係る、マイク配置形状を全体的に２００で示す。図２を参照すると、希望オーディオ２０４は、希望オーディオのソース、２０２で示されるユーザの口から発せられる。ソース２０２は、ヘッドウェアラブルデバイスに取り付けられるマイクに、希望オーディオ２０４を提供する。第一マイク２０６は、ソース２０２からｄ_１２０８で示される距離に配置される。第二マイク２１０は、ソース２０２からｄ_２２１２で示される距離に配置される。システム２００も、２１８で示されるように、不要オーディオにさらされる。

ソース２０２に関して、２１４でのΔＬによって表されるように、第一マイク２０６および第二マイク２１０は、ソース２０２から異なる音響距離にある。音響距離の差ΔＬ２１４は式２１６で与えられる。この実施形態の説明で使用されるように、距離ｄ_１およびｄ_２は、音波がそれぞれのマイク２０６および２１０に到着するために移動するパスを表す。したがって、ヘッドウェアラブルデバイス上のマイクの特定の位置および興味深い音響周波数に応じて、それらの距離は線形であっても湾曲してもよい。説明を明確にするために、それらのパスおよび対応する距離は直線で示されているが、それによって限定を意味するものではない。

不要オーディオ２１８は、通常は、距離ｄ_１およびｄ_２よりもはるかに大きい距離に位置する様々なソースから生じる。例えば、建設雑音、車の雑音、飛行機の雑音などはすべて、通常は、ｄ_１およびｄ_２よりも数桁大きい距離で発生する。したがって、不要オーディオ２１８は、マイク位置２０６および２１０において実質的に相関し、または少なくとも各位置でかなり均一なレベルで受信される。様々なメカニズムのために、第一マイク２０８と比較して、２１４での音響距離の差ΔＬは、第二マイク２１０で受信される希望オーディオ２０４の振幅を減少させる。そのようなメカニズムの一つは、例えば、希望オーディオ信号をｌ／ｒ^２の関数として減衰させる球面拡散である。そこで、ｒは、ソース（例えば、２０２）と受信位置（例えば、２０６または２１０）との間の距離（例えば、２０８または２１２）である。第二マイク位置２１０での希望オーディオの減少は、２０６に対して２１０での信号対雑音比を減少させ、それは雑音振幅が各位置で実質的に同じであるが、信号振幅が２０６で受信された振幅に対して２１０で減少するためである。パスの長さに関連するもう一つのメカニズムは、あるパスに沿った音響インピーダンスと別のパスに沿った音響インペンデンスとの差異であり、それによって直線パスではなく湾曲した音響パスが生成される。まとめると、それらのメカニズムが組み合わされて、主マイク位置と比較して、参照マイク位置で受信される希望オーディオの振幅が減少する。したがって、配置形状は、雑音消去システムにおける使用される二つのマイクの位置間の信号対雑音比の差を提供するために使用され、それについては以下でさらに説明し、それによって主マイクチャネルからの不要オーディオを低減させる。

マイク配置形状は、プライマリマイクおよび参照マイクの配置のための様々な構成を可能にする。様々な実施形態において、一般化マイク配置方法が以下の図３Ａ乃至図５Ｃと併せて説明および示され、この方法は、ヘッドウェアデバイス上の様々な場所にマイクを配置することを可能にする。

図３Ａは、本発明の実施形態に係る、プライマリマイクが第一位置に位置する一般化マイク配置を全体的に３００で示す。図３Ａを参照すると、ヘッドウェアラブルデバイス３０２が示される。この実施形態の詳細な説明で使用されるように、ヘッドウェアラブルデバイスは、例えば、これに限定するものではないが、眼鏡、ゴーグル、ヘルメット、日よけ帽、ヘッドバンドなどのユーザの頭部に装着されるように構成されるデバイスのいずれかであり得る。以下の図３Ａ～図５Ｃと組み合わせて示される議論は、どのヘッドウェアデバイスにも等しく適用できることが認識され、例えば、この議論は図８乃至図１９に示されるもの、および本出願の図に具体的に示されていないヘッドウェアラブルデバイスにも等しく適用できる。したがって、本発明の実施形態は、まだ名前が付けられていないヘッドウェアラブルデバイス、またはまだ発明されていないヘッドウェアラブルデバイスに適用することができる。

図３Ａに戻って、一実施形態において、ヘッドウェアラブルデバイスは、フレーム３０２、フレーム３０２に取り付けられるテンプル３０４およびテンプル３０６、ガラス３０８、およびガラス３１０を有する。様々な実施形態において、ヘッドウェアラブルデバイス３０２は、ユーザの頭部に装着される眼鏡である。マイク１、マイク２、マイク３、マイク４、マイク５、マイク６、マイク７、マイク８、およびオプションのマイク９とマイク１０などの複数のマイクは、ヘッドウェアラブルデバイス３０２上に位置する。様々な実施形態において、図示のフレーム３０２／テンプル３０４および３０６を含むヘッドウェアラブルデバイスは、以下でさらに説明するように、信号処理用のエレクトロニクス３１８を含むようにサイズ設定されることができる。エレクトロニクス３１８は、ヘッドウェアラブルデバイス３０２に取り付けられるマイクへの電気的接続を提供する。

ヘッドウェアラブルデバイス３０２は、その構造によって画定される内部ボリュームを有し、エレクトロニクス３１８はその中に取り付けられることができる。または、エレクトロニクス３１８は、その構造の外部に取り付けられることができる。一つまたは複数の実施形態において、エレクトロニクス３１８にアクセスするためのアクセスパネルが提供される。他の実施形態において、アクセスドアは明示的に提供されないが、エレクトロニクス３１８は、ヘッドウェアラブルデバイス３０２のボリューム内に含まれ得る。そのような場合、エレクトロニクス３１８は、ヘッドウェアラブルデバイスの組み立ての前に埋め込まれることができ、一つまたは複数の部品は互いにインターロックし、それにより、エレクトロニクス３１８をその中に捕捉するハウジングを形成する。さらに他の実施形態において、ヘッドウェアラブルデバイスは、エレクトロニクス３１８の周りに成形され、それにより、エレクトロニクス３１８をヘッドウェアラブルデバイス３０２のボリューム内にカプセル化する。様々な非限定的な実施形態において、エレクトロニクス３１８は、適応雑音消去ユニット、単一チャネル雑音消去ユニット、フィルタコントローラー、電源、希望音声活動検出器、フィルタなどを含む。エレクトロニクス１１８の他の構成要素は、以下の図で説明される。

ヘッドウェアラブルデバイス３０２は、ヘッドウェアラブルデバイス３０２をパワーアップまたはパワーダウンするために使用されるスイッチ（図示せず）を含むことができる。ヘッドウェアラブルデバイス３０２のボリューム内には、それに関連するマイクによって受信される音響信号を処理するために、データ処理システムを含むことができる。当該データ処理システムは、以下でさらに説明する図３１に示されるシステムの一つまたは複数の要素を含むことができる。したがって、図３Ａ乃至図５Ｃの図は、本発明の実施形態を限定するものではない。

図３Ａのヘッドウェアラブルデバイスは、マイクをデバイス上の任意の場所に配置できることを示す。図において、説明のために選択される１０個の場所は、単に配置形状の一般原理を説明するために選択され、本発明の実施形態を制限するものではない。したがって、マイクは図示されたもの以外の異なる場所で使用されることができ、且つ異なるマイクは様々な場所で使用されることができる。説明のために、制限なしに、図３Ａ乃至図５Ｃと組み合わせて行われる測定は全方向性マイクを使用する。他の実施形態において、指向性マイクが使用される。信号対雑音比の測定に使用される配置例において、各マイクはハウジング内に取り付けられ、各ハウジングには環境へのポート開口部がある。マイク１に関連付けられるポートの方向は矢印１ｂで示される。マイク２に関連付けられるポートの方向は矢印２ｂで示される。マイク３に関連付けられるポートの方向は矢印３ｂで示される。マイク４に関連付けられるポートの方向は矢印４ｂで示される。マイク５に関連付けられるポートの方向は矢印５ｂで示される。マイク６に関連付けられるポートの方向は矢印６ｂで示される。マイク７に関連付けられるポートの方向は矢印７ｂで示される。マイク８に関連付けられるポートの方向は矢印８ｂで示される。

ユーザの口は、図２の２０２で示される希望オーディオのソースに類似する３１２で示される。ユーザの口３１２から各マイクまでの音響パス長さ（本明細書において音響距離または距離と呼ばれる）は、ユーザの口３１２からそれぞれのマイク位置までの矢印で示される。例えば、ｄ_１は、ユーザの口３１２からマイク１までの音響距離を示す。ｄ_２は、ユーザの口３１２からマイク２までの音響距離を示す。ｄ_３は、ユーザの口３１２からマイク３までの音響距離を示す。ｄ_４は、ユーザの口３１２からマイク４までの音響距離を示す。ｄ_５は、ユーザの口３１２からマイク５までの音響距離を示す。ｄ_６は、ユーザの口３１２からマイク６までの音響距離を示す。ｄ_７は、ユーザの口３１２からマイク７までの音響距離を示す。ｄ_８は、ユーザの口３１２からマイク８までの音響距離を示す。同様に、オプションのマイク９にもマイク１０にも音響距離がある。ただし、図の明確さを維持するために、そのようにラベル付けされていない。

図３Ａにおいて、マイク１、２、３、および６およびユーザの口３１２は、概してＸーＺ平面内にあり（座標系３１６を参照）、対応する音響距離ｄ_１、ｄ_２、ｄ_３、およびｄ_６は、概して直線で表される。マイク４、５、７、および８へのパス、つまりｄ_４、ｄ_５、ｄ_７、およびｄ_８は、ユーザの頭部が音場に対して透過的ではないという事実を反映する湾曲したパスとして表される。したがって、そのような場合、音響パスは幾分湾曲している。一般に、希望オーディオのソースとヘッドウェアラブルデバイス上のマイクとの間の音響パスは、直線的または湾曲的であり得る。主マイクと参照マイクとの間のパス長さの差が十分に大きい限り、雑音消去システムに必要な信号対雑音比の差が得られ、それによって許容可能なレベルの雑音消去を実現する。

図３Ｂおよび図３Ｃに示される測定を行うために、音響テスト設備を使用して、プライマリマイクの位置と参照マイクの位置との間の信号対雑音比の差を測定する。テスト施設は、スピーカーを内蔵したマネキンを含み、ヘッドウェアラブルデバイスを着用しているユーザをシミュレートするために使用される。ユーザの口の位置に配置されるスピーカーを使用して、希望オーディオ信号を生成する。マネキンは、音響テスト施設の無響室の中に置かれる。背景雑音は、スピーカーアレイを備えた無響室内において生成される。測定中にピンク雑音スペクトルが使用され、ただし、周波数の他の重み付けを背景雑音フィールドに使用できる。それらの測定中に、背景雑音のスペクトル振幅レベルは７５ｄＢ/ｕｐａ/Ｈｚに設定される。ヘッドウェアラブルデバイスは、マネキンに配置される。テスト中に、マイクは、ヘッドウェアラブルデバイスの図３Ａに示される位置に配置される。以下の図３Ｂおよび図３Ｃに示すように、主チャネルまたはプライマリチャネルのマイクは、第一測定シーケンスのマイク１として選択される。

希望オーディオ信号は、「Ｃａｍｅｒａ」という単語で構成される。この言葉はマネキンのスピーカーによって伝えられる。マイク１での「Ｃａｍｅｒａ」という単語に対応する受信信号は、雑音消去システム（以下の図で説明されるように）を介して処理され、時間内にゲートされ、平均化され、それにより、マイク１に対応する「信号」振幅が生成される。「Ｃａｍｅｒａ」という単語に対応する信号が、位置２、３、４、５、６、７、および８にある他の各マイクで順番に測定される。同様に、各マイクの位置において、背景雑音スペクトルレベルが測定される。それらの測定により、各マイク位置において信号対雑音比が計算され、次に、以下の図に示すように、マイクペアの信号対雑音比の差が計算される。

図３Ｂは、本発明の実施形態に係る、図３Ａに配置される主マイクの信号対雑音比の差の測定値を全体的に３２０で示す。図３Ｂおよび図３Ａを参照すると、３１４において、マイク１が、主またはプライマリマイクとして使用される。次に、さまざまな位置に利用して、マイク２、マイク３、マイク６、マイク４、マイク５、マイク７、マイク８などの参照マイクを配置する。図３Ｂにおいて、列３２２は、一連の測定に使用されるマイクペアを示す。列３２４は、列３２２の所与のマイクペアの間の音響パス長さの近似の差を示す。近似の音響パス長さ～ΔＬは、図２の式２１６で与えられる。列３２６は、信号対雑音比の測定に使用される七つの異なるマイクペアの１～７の無次元数の範囲を示す。列３２８は、列３２２にリストされた所与のマイクペアの信号対雑音比の差をリストする。各行３３０、３３２、３３４、３３６、３３８、３４０、および３４２は、異なるマイクペアをリストし、主マイク３１４がマイク１として一定に保たれている間に、参照マイクが変更されている。式３４４に示すように、さまざまなマイクペアの音響パス長さの近似の差を昇順で並べることができることに留意されたい。式３４４に従って、マイクペアは、近似の音響パス長さの差３２４を増加させるように、列３３０～３４２に配置される。信号対雑音比の差は、参照マイクとして使用されるマイク２の５.５５ｄＢから、参照マイクとしてマイク８が使用される場合の１０.４８ｄＢまで変化する。

図３Ｃは、本発明の実施形態に係る、図３Ｂに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を全体的に３５０で示す。図３Ｃを参照すると、信号対雑音比の差が縦軸３５２にプロットされ、列３２６（図３Ｂ）の無次元Ｘ値が横軸３５４にプロットされる。上記のように、無次元Ｘ値は、近似の音響パス長さの差～ΔLを表すことに留意されたい。データが近似の音響パス長さの差～ΔＬを増加させる方式によって配列およびプロットされるので、Ｘ軸３５４は、～ΔＬと厳密に対応していないが、～ΔＬに関連していることに留意されたい。データのこのような順序付けは、図２に関連して上記の信号対雑音比の差の特性を説明するのに役立つ。すなわち、信号対雑音比の差は、主マイクと参照マイクとの間の音響パス長さの差が大きくなるにつれて大きくなる。その挙動は、曲線３５６を利用して、信号対雑音比の差が～ΔＬの関数として増加していることを観察することによって識別され、曲線３５６は、列３２６からのデータの関数として列３２８からのデータをプロットする（図３Ｂ）。

図４Ａは、本発明の実施形態に係る、プライマリマイクが第二位置に位置する一般化マイク配置を全体的に４２０で示す。図４Ａにおいて、主マイク４１４の第二位置は、マイク２によって占められている位置である。上記のテストは、主マイクとしてマイク２を使用して繰り返され、参照マイクの位置は、選択的に、マイク６、マイク３、マイク４、マイク５、マイク７、およびマイク８の位置である。それらのデータは、図４Ｂおよび図４Ｃと併せて以下に説明される。

図４Ｂは、本発明の実施形態に係る、図４Ａに配置される主マイクの信号対雑音比の差の測定値を示す。図４Ｂおよび図４Ａを参照すると、マイク２が、主またはプライマリマイク４１４として使用される。次に、さまざまな位置に利用して、マイク６、マイク３、マイク４、マイク５、マイク７、およびマイク８などの参照マイクを配置する。図４Ｂにおいて、列４２２は、一連の測定に使用されるマイクペアを示す。列４２４は、列４２２の所与のマイクペアの間の音響パス長さの近似の差を示す。近似の音響パス長さ～ΔＬは、図２の式２１６で与えられる。列４２６は、信号対雑音比の測定に使用される六つの異なるマイクペアの１～６の無次元数の範囲を示す。列４２８は、列４２２にリストされた所与のマイクペアの信号対雑音比の差をリストする。各行４３０、４３２、４３４、３３６、４３８、および４４０は、異なるマイクペアをリストし、主マイク４１４がマイク２として一定に保たれている間に、参照マイクが変更されている。式４４２に示すように、さまざまなマイクペアの音響パス長さの近似の差を昇順で並べることができることに留意されたい。式４４２に従って、マイクペアは、近似の音響パス長さの差４２４を増加させるように、列４３０～４４０に配置される。信号対雑音比の差は、参照マイクとして使用されるマイク６の１.２ｄＢから、参照マイクとしてマイク８が使用される場合の５.２ｄＢまで変化する。

図４Ｃは、本発明の実施形態に係る、図４Ｂに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を示す。図４Ｃを参照すると、信号対雑音比の差が縦軸４５２にプロットされ、列４２６（図４Ｂ）の無次元Ｘ値が横軸４５４にプロットされる。上記のように、無次元Ｘ値は、近似の音響パス長さの差～ΔＬを表すことに留意されたい。データが近似の音響パス長さの差～ΔＬを増加させる方式によって配列およびプロットされるので、Ｘ軸４５４は、～ΔＬと厳密に対応していないが、～ΔＬに関連していることに留意されたい。データのこのような順序付けは、図２に関連して上記の信号対雑音比の差の特性を説明するのに役立つ。すなわち、信号対雑音比の差は、主マイクと参照マイクとの間の音響パス長さの差が大きくなるにつれて大きくなる。その挙動は、曲線４５６を利用して、信号対雑音比の差が～ΔＬの関数として増加していることを観察することによって識別され、曲線４５６は、列４２６からのデータの関数として列４２８からのデータをプロットする（図４Ｂ）。

図５Ａは、本発明の実施形態に係る、プライマリマイクが第三位置に位置する一般化マイク配置を示す。図５Ａにおいて、主マイク５１４の第三位置は、マイク３によって占められている位置である。上記のテストは、主マイクとしてマイク３を使用して繰り返され、参照マイクの位置は、選択的に、マイク６、マイク４、マイク５、マイク７、およびマイク８の位置である。それらのデータは、図５Ｂおよび図５Ｃと併せて以下に説明されている。

図５Ｂは、本発明の実施形態に係る、図５Ａに配置される主マイクの信号対雑音比の差の測定値を示す。図５Ｂおよび図５Ａを参照すると、マイク３が、主またはプライマリマイク５１４として使用される。次に、さまざまな位置に利用して、マイク６、マイク４、マイク５、マイク７、およびマイク８などの参照マイクを配置する。図５Ｂにおいて、列５２２は、一連の測定に使用されるマイクペアを示す。列５２４は、列５２２の所与のマイクペアの間の音響パス長さの近似の差を示す。近似の音響パス長さ～ΔＬは、図２の式２１６で与えられる。列５２６は、信号対雑音比の測定に使用される五つの異なるマイクペアの１～５の無次元数の範囲を示す。列５２８は、列５２２にリストされた所与のマイクペアの信号対雑音比の差をリストする。各行５３０、５３２、５３４、５３６、および５３８は、異なるマイクペアをリストし、主マイク５１４がマイク３として一定に保たれている間に、参照マイクが変更されている。式５４０に示すように、さまざまなマイクペアの音響パス長さの近似の差を昇順で並べることができることに留意されたい。式５４０に従って、マイクペアは、近似の音響パス長さの差５２４を増加させるように、列５３０～５３８に配置される。信号対雑音比の差は、参照マイクとして使用されるマイク６の０ｄＢから、参照マイクとしてマイク７が使用される場合の５.１６ｄＢまで変化する。

図５Ｃは、本発明の実施形態に係る、図５Ｂに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を示す。図５Ｃを参照すると、信号対雑音比の差が縦軸５５２にプロットされ、列５２６（図５Ｂ）の無次元Ｘ値が横軸５５４にプロットされる。上記のように、無次元Ｘ値は、近似の音響パス長さの差～ΔＬを表すことに留意されたい。データが近似の音響パス長さの差～ΔＬを増加させる方式によって配列およびプロットされるので、Ｘ軸５５４は、～ΔＬと厳密に対応していないが、～ΔＬに関連していることに留意されたい。データのこのような順序付けは、図２に関連して上記の信号対雑音比の差の特性を説明するのに役立つ。すなわち、信号対雑音比の差は、主マイクと参照マイクとの間の音響パス長さの差が大きくなるにつれて大きくなる。その挙動は、曲線５５６を利用して、信号対雑音比の差が～ΔＬの関数として増加していることを観察することによって識別され、曲線５５６は、列５２６からのデータの関数として列５２８からのデータをプロットする（図５Ｂ）。

上の図に示されているビュー内に、マイクの特定の位置は、例示のみを目的として選択されることに留意されたい。それらの位置は、本発明の実施形態を制限するものではない。他の実施形態において、ヘッドウェアラブルデバイス上のマイクの他の位置が使用される。

したがって、図１のブロック１０８および図２乃至図５Ｃと併せて上記で説明したように、様々な実施形態において、マイク配置形状を使用して、二つのマイクの間の音響パス長さの差を生み出し、主マイクと参照マイクとの間に対応する信号対雑音比の差を生み出す。信号対雑音比の差は、主マイクと参照マイクに異なる指向性パターンを使用することにより、実現されることができる。いくつかの実施形態において、ビーム形成は、主チャネルおよび参照チャネルに対して異なる指向性パターンを作るために、使用される。例えば、図５Ａにおいて、音響パス長さｄ_３とｄ_６の値が類似しすぎているので、主マイクおよび参照マイクの位置をそのように選択するのは、十分な信号対雑音比の差を生成しない（図５Ｂの列５２８行５３０での０ｄＢ）。そのような場合、マイクの指向性パターン（一方または両方のマイク）および/またはビーム形成の変化は、主チャネルと参照チャネルとの間に必要な信号対雑音比の差を生み出すために、使用されることができる。

指向性マイクを使用して、希望オーディオの受信を減少させる、および／または不要オーディオの受信を増加させることができ、それにより、第二マイク（参照マイク）の信号対雑音比を低下させて、プライマリマイクと参照マイクとの間の信号対雑音比の差が大きくなる。第二マイク（図示せず）および以下の図６と図７における教えられる技術を使用する例は、図３Ａに示される。いくつかの実施形態において、第二マイクは、マイク１と概して同じ位置にあることができる。他の実施形態において、ソース３１２から第二マイクまでの距離は、ソース３１２から第一マイクまでの距離に等しい。いくつかの実施形態において、第二マイクは、指向性マイクであり、第二マイクの主応答軸が音響パスｄ_１に実質的に垂直である（または位置合わせされていないことに相当する）。したがって、希望音声ｄ_１の方向には、３１２からの希望音声に対する第二マイクのヌルまたは応答が少ない方向が存在する。それにより、第二マイクの信号対雑音比が減少し、計算された第一マイクと第二マイクとの間の信号対雑音比の差が増加する。二つのマイクは、ヘッドウェアラブルデバイス３０２上の任意の位置に配置することができることに留意されたい。それには、上記のような同じ位置が含まれる。他の実施形態において、一つまたは複数のマイク要素がビームフォーマへの入力として使用されて、異なる指向性パターンを有する主チャネルおよび参照チャネル、およびそれらの間の信号対雑音比の差をもたらす。

図６は、本発明の実施形態に係る、マイク指向性パターンを全体的に６００で示す。図６を参照すると、全方向性マイク指向性パターンは円６０２で示され、円６０２は一定半径６０４を有し、一定半径６０４は、参照６０６から測定された６０８で示されている角度アルファ（α）の関数としての均一な感度を示す。

カージオイド指向性パターン６２２を有する指向性マイクの例は、プロット６２０内に示され、カージオイド指向性パターン６２２は、６２４で示されるピーク感度軸および６２６で示されるヌルを有する。カージオイド指向性パターンは、二つの全方向性マイクで形成され、または一つの全方向性マイクおよびそのマイクの適切な取り付け構造を使用して形成されることができる。

双方向指向性パターン６４２／６４４を有する指向性マイクの例は、プロット６４０内に示され、双方向指向性パターンの第一葉６４２は、６４８で示される第一ピーク感度軸を有し、第二葉６４４は、６４６で示される第二ピーク感度軸を有する。第一ヌルは方向６５０に存在し、第二ヌルは方向６５２に存在する。

スーパーカージオイド指向性パターンを有する指向性マイクの例は、プロット６６０内に示され、スーパーカージオイド指向性パターン６６４／６６５は、方向６６２で示されるピーク感度軸、方向６６６で示される小さい感度軸、および方向６６８と６７０で示されるヌルを有する。

図７は、本発明の実施形態に係る、位置合わせされていない参照マイク応答軸を全体的に７００で示す。図７を参照すると、マイクは７０２に示される。マイク７０２は、主応答軸７０６と、その指向性パターンにおける７０４で示されるヌルと、を有する指向性マイクである。入射音場は、方向７０８から到着することが示されている。様々な実施形態において、マイク７０２は、例えば、上記の図６に示されるような双方向マイクである。ヘッドウェアラブルデバイス上に適切に配置される指向性マイク７０２は、参照マイクとして使用される場合に、方向７１０から来る不要オーディオに応答しながら、方向７０８から来る希望オーディオへの応答を制限することにより、信号対雑音比を減少させる。上記のように、指向性マイク７０２の応答は、信号対雑音比の差の増加をもたらす。

したがって、本明細書で教示される実施形態の範囲内において、一つまたは複数の主マイクおよび一つまたは複数の参照マイクは、主マイクと参照マイクとの間の適切な信号対雑音比の差を得るために、ヘッドウェアラブルデバイス上の複数の位置に配置される。そのような信号対雑音比の差により、以下の図と併せて以下に説明するように、希望オーディオと不要オーディオとの両方を含む音響信号から希望オーディオを抽出することが可能になる。マイクはヘッドウェアラブルデバイスのさまざまな位置に配置されることができ、それは、主マイクと参照マイクとをヘッドウェアラブルデバイスの共通の同一位置に配置することを含む。

いくつかの実施形態において、ブロック１１２（図１）に従って、マイク配置形状の技術は、マイクレベルで、またはビーム形成を通じて得られる異なる指向性パターンと組み合わされ、それによって主チャネルと参照チャネルとの間に信号対雑音比の差を生成する。

様々な実施形態において、ヘッドウェアラブルデバイスは、以下の図と併せて以下に説明されるような眼鏡デバイスである。図８は、本発明の一実施形態の眼鏡デバイス８００の例を示す図である。図中に示されるように、眼鏡デバイス８００は、マイクが埋め込まれた眼鏡８０２を含む。眼鏡８０２は、二つのマイク８０４および８０６を有する。第一マイク８０４は、眼鏡８０２フレームの中央に配置されている。第二マイク８０６は、眼鏡８０２フレームの側面に配置されている。マイク８０４および８０６は、双方向または単方向のいずれかの圧力勾配マイクロホン要素であり得る。一つまたは複数の実施形態において、各マイク８０４および８０６は、ゴムブート内のマイクアセンブリである。ゴムブートは、マイクの前面および背面に音響ダクトを備える音響ポートを提供する。二つのマイク８０４と８０６およびそれらのそれぞれのブートは同じであり得る。マイク８０４および８０６は、気密封止されることができる（例えば、密閉する）。音響ダクトは、フロントガラスの素材で満たされている。ポートは、織物の層で密閉される。下部と上部の音響ポートは、防水膜で密閉される。マイクは、眼鏡フレームの構造に内蔵されることができる。各マイクには、音響ポートとしての上部の穴と底部の穴がある。一実施形態において、圧力勾配マイク要素であり得る二つのマイク８０４および８０６は、それぞれ二つの全方向性マイクに取って代わられることができる。

図９は、本発明の実施形態の別の例を示す図である。図９に示されるように、眼鏡デバイス９００は、三つの埋め込まれたマイクを有する眼鏡９５２を含む。図９の眼鏡９５２は、図８の眼鏡８０２に類似するが、二つのマイクの代わりに三つのマイクを使用する。図９の眼鏡９５２は、眼鏡９５２の中央に配置される第一マイク９５４、眼鏡９５２の左側に配置される第二マイク９５６、および眼鏡９５２の右側に配置される第三マイク９５８を有する。その三つのマイクは、上記の三つのマイクの実施形態で使用されることができる。

図１０は本発明の一実施形態の眼鏡デバイス１０００を示す図であり、図１０において、例えば、図８に示される二つの双方向マイクを四つの全方向性マイク１００２、１００４、１００６、１００８、および電子ビームステアリングに置き換える。二つの双方向マイクを四つの全方向性マイクに置き換えることにより、眼鏡フレームの設計者により一層の融通性と製造可能性を提供する。四つの全方向性マイクを有する例示的な実施形態において、四つの全方向性マイクは、眼鏡フレーム上の任意の位置に配置されることができ、好ましくは、レンズの周りで垂直に並んでいるマイクペアを使用する。この実施形態において、全方向性マイク１００２および１００４は、干渉から分離されるプライマリ音を検出するための主マイクであり、マイク１００４、１００８は、プライマリ音から分離される背景雑音を検出するための参照マイクである。マイクアレイは、全方向性マイクであり得、全方向性マイクは、エレクトレットコンデンサーマイクロホン、アナログ微小電気機械システム（ｍｉｃｒｏｅｌｅｃｔｒｏｍｅｃｈａｎｉｃａｌｓｙｓｔｅｍｓ；ＭＥＭＳ）マイク、またはデジタルＭＥＭＳマイクの任意の組み合わせであり得る。

本発明の別の例示的な実施形態は、図１１に示されるように、雑音消去マイクアレイを備える眼鏡デバイスを含み、当該眼鏡デバイスは眼鏡フレーム１１００と、当該眼鏡フレームに結合されるマイクアレイと、を含み、当該マイクアレイは、少なくとも第一マイク１１０２と、第二マイク１１０４と、を含み、当該第一マイクは、テンプル領域の近くの眼鏡フレームに結合され、当該テンプル領域は、レンズ開口部の上部コーナーと支持アームとの間にほぼ位置することができ、第一オーディオチャネル出力を提供し、当該第二マイクは、レンズ開口部の内側下隅の近くの眼鏡フレームに結合され、第二オーディオチャネル出力を提供する。当該第二マイクは、レンズ開口部１１０６を斜めに横切って配置されるが、レンズの内側フレームに沿って任意の位置、例えば、下隅、上隅、または内側フレームエッジに配置されることができる。さらに、当該第二マイクは、ノーズブリッジの左側または右側のレンズの内側エッジに沿って配置されることができる。

本発明のさらに別の実施形態において、マイクアレイは、図１２に示されるように、少なくとも一つのフレキシブルプリント回路基板（ｆｌｅｘｉｂｌｅｐｒｉｎｔｅｄｂｏａｒｄ；ＰＣＢ）ストリップを使用して眼鏡フレームに結合されることができる。この実施形態において、本発明の眼鏡デバイス１２００は、第一マイク１２０４および第四マイク１２０６を含む上部フレキシブルＰＣＢストリップ１２０２と、第二マイク１２１０および第三マイク１２１２を含む下部フレキシブルＰＣＢストリップ１２０８と、を含む。

さらなる例示的な実施形態において、眼鏡フレームは、マイクアレイに対応する穴アレイをさらに含むことができる。マイクアレイは、下部ポートまたは上部ポートの微小電気機械システム（ＭＥＭＳ）マイクであり得る。図１２の眼鏡のマイクコンポーネントである図１３に示されるように、ＭＥＭＳマイクコンポーネント１３００は、フレキシブルプリント回路基板（ＰＣＢ）１３０４に貼られているＭＥＭＳマイク１３０２を含む。ガスケット１３０６は、フレキシブルＰＣＢ１３０４をデバイスケース１３０８から分離する。穴１３１０は、フレキシブルＰＣＢ１３０４、ガスケット１３０６、およびデバイスケース１３０８によって画定される。穴１３１０は、音声波をＭＥＭＳマイク１３０２に導くためのオーディオ細孔である。第一および第四ＭＥＭＳマイクは上部フレキシブルＰＣＢストリップに結合されることができ、第二および第三ＭＥＭＳマイクは下部フレキシブルＰＣＢストリップに結合されることができ、ＭＥＭＳマイクアレイは、下部ポートまたは上部ポートが対応する穴を介して音響信号を受信するように配置されることができる。

図１４は眼鏡１４００の別の代替実施形態を示し、眼鏡１４００において、マイク１４０２、１４０４がそれぞれテンプル領域１４０６と前フレーム１４０８に置かれる。

図１５は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備える眼鏡を全体的に１５００で示す。図１５を参照すると、ヘッドウェアラブルデバイス１５０２は、主音響チャネルに使用される一つまたは複数のマイクと、参照音響チャネルに使用される一つまたは複数のマイクと、を含む。ヘッドウェアラブルデバイス１５０２は、情報ディスプレイ１５０４を備えるウェアラブルコンピュータとして構成される。様々な実施形態において、エレクトロニクスは、１５０６および／または１５０８に含まれる。様々な実施形態において、当該エレクトロニクスは、以下の図と併せて以下により完全に説明される雑音消去エレクトロニクスを含むことができる。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス１５０２と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス１５０２の外部に位置する。様々な実施形態において、そのような実施形態において、Ｂｌｕｅｔｏｏｔｈ（登録商標）プロトコル、ＺｉｇＢｅｅ（登録商標）プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。

図１６は、本発明の実施形態に係る、図１５からのヘッドウェアラブルデバイスにおけるプライマリマイクの位置を全体的に１６００で示す。図１６を参照すると、主マイクの位置が１６０２に示される。

図１７は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備えるゴーグルを全体的に１７００で示す。図１７を参照すると、ゴーグル１７０２の形態のヘッドウェアラブルデバイスは、位置１７０４にある主マイクと、位置１７０６にある参照マイクロホンと、を有するように構成される。様々な実施形態において、雑音消去エレクトロニクスは、ゴーグル１７０２内に含まれる。雑音消去エレクトロニクスは、以下の図と併せて以下でより完全に説明される。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス１７０２と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス１７０２の外部に位置する。そのような実施形態において、Ｂｌｕｅｔｏｏｔｈ（登録商標）プロトコル、ＺｉｇＢｅｅ（登録商標）プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。

図１８は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備える日よけ帽を全体的に１８００で示す。図１８を参照すると、日よけ帽１８０２の形態のヘッドウェアラブルデバイスは、主マイク１８０４と、参照マイク１８０６と、を有する。様々な実施形態において、雑音消去エレクトロニクスは、日よけ帽１８０２内に含まれる。雑音消去エレクトロニクスは、以下の図と併せて以下でより完全に説明される。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス１８０２と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス１８０２の外部に位置する。そのような実施形態において、Ｂｌｕｅｔｏｏｔｈ（登録商標）プロトコル、ＺｉｇＢｅｅ（登録商標）プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。

図１９は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備えるヘルメットを全体的に１９００で示す。図１９を参照すると、ヘルメット１９０２の形態のヘッドウェアラブルデバイスは、主マイク１９０４と、参照マイク１９０６と、を有する。様々な実施形態において、雑音消去エレクトロニクスは、ヘルメット１９０２内に含まれる。雑音消去エレクトロニクスは、以下の図と併せて以下でより完全に説明される。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス１９０２と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス１９０２の外部に位置する。そのような実施形態において、Ｂｌｕｅｔｏｏｔｈ（登録商標）プロトコル、ＺｉｇＢｅｅ（登録商標）プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。

図２０は、本発明の実施形態に係る、希望オーディオ信号を抽出するためのプロセスを全体的に２０００で示す。図２０を参照すると、プロセスは、ブロック２００２において開始する。ブロック２００４において、主音響信号は、ヘッドウェアラブルデバイスに位置する主マイクから受信される。ブロック２００６において、参照音響信号は、ヘッドウェアラブルデバイスに位置する参照マイクから受信される。ブロック２００８において、正規化された主音響信号が形成される。様々な実施形態において、正規化された主音響信号は、以下の図に説明されるように、一つまたは複数の参照音響信号を使用して形成される。ブロック２０１０において、正規化された主音響信号は、ヘッドウェアラブルデバイス内に含まれる音響信号処理システムを使用して雑音消去を制御するために使用される。当該プロセスはブロック２０１２において終了する。

図２１は、本発明の実施形態に係る、システム構造を全体的に２１００で示す。図２１を参照すると、二つの音響チャネルは、適応雑音消去ユニット２１０６に入力される。本明細書における主チャネル２１０２と呼ばれる第一音響チャネルは、本実施形態の説明において、同義語として「プライマリ」または「主」チャネルと呼ばれる。主チャネル２１０２は、希望オーディオと、不要オーディオと、を含む。以下の図でより完全に説明されるように、主チャネル２１０２での音響信号入力は、一つまたは複数の音響要素上に存在する希望オーディオおよび不要オーディオから生じる。主チャネルに使用される一つまたは複数のマイクの構成に応じて、マイク要素はアナログ信号を出力できる。アナログ信号は、アナログデジタルコンバーター（ａｎａｌｏｇ－ｔｏ－ｄｉｇｉｔａｌｃｏｎｖｅｒｔｅｒ；ＡＤ）変換器（図示せず）でデジタル信号に変換される。さらに、増幅器はマイク要素またはＡＤコンバーターの近くに位置することができる。本明細書における参照チャネル２１０４と呼ばれる第二音響チャネルは、希望オーディオおよび不要オーディオの存在からも生じる音響信号を提供する。オプションとして、第二参照チャネル２１０４ｂを適応雑音消去ユニット２１０６に入力することができる。主チャネルと同様に、参照チャネルに使用される一つまたは複数のマイクの構成に応じて、マイク要素はアナログ信号を出力できる。アナログ信号は、アナログデジタルコンバーター（ＡＤ）変換器（図示せず）でデジタル信号に変換される。さらに、増幅器はマイク要素またはＡＤコンバーターの近くに位置することができる。いくつかの実施形態において、マイクは、デジタルマイクとして実装される。

いくつかの実施形態において、主チャネル２１０２は全方向性応答を有し、参照チャネル２１０４は全方向性応答を有する。いくつかの実施形態において、主チャネル２１０２および参照チャネル２１０４の音響要素の音響ビームパターンは異なる。他の実施形態において、主チャネル２１０２および参照チャネル２１０４の音響要素の音響ビームパターンは同じである。しかしながら、主チャネル２１０２で受信される希望オーディオは、参照チャネル２１０４で受信される希望オーディオとは異なる。したがって、主チャネル２１０２の信号対雑音比は、参照チャネル２１０４の信号対雑音比とは異なる。一般に、参照チャネルの信号対雑音比は、主チャネルの信号対雑音比より小さい。様々な実施形態において、非限定的な例として、主チャネルの信号対雑音比と参照チャネルの信号対雑音比との間の差は、約１または２デシベル（ｄＢ）以上である。他の非限定的な例において、主チャネルの信号対雑音比と参照チャネルの信号対雑音比との差は、１デシベル（ｄＢ）以下である。したがって、本発明の実施形態は、希望オーディオに関して低い信号対雑音比をもたらし得る高雑音環境、およびより高い信号対雑音比を有し得る低雑音環境に適している。この実施形態の説明で使用されるように、信号対雑音比は、チャネル内の希望オーディオと不要オーディオとの比率を意味する。さらに、「主チャネルの信号対雑音比」という用語は、「主信号対雑音比」という用語と交換可能に使用される。同様に、「参照チャネルの信号対雑音比」という用語は、「参照信号対雑音比」という用語と交換可能に使用される。

主チャネル２１０２、参照チャネル２１０４、およびオプションの第二参照チャネル２１０４ｂは、適応雑音消去ユニット２１０６への入力を提供する。図には第二参照チャネルが示されるが、様々な実施形態において、三つ以上の参照チャネルが使用される。適応雑音消去ユニット２１０６は、主チャネル２１０２からの不要オーディオをフィルタリングして、入力の複数の音響チャネルを備えるフィルタリングの第一段階を提供する。様々な実施形態において、適応雑音消去ユニット２１０６は、適応有限インパルス応答（ｆｉｎｉｔｅｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ；ＦＩＲ）フィルタを利用する。本発明の実施形態が使用される環境は、残響音場を提示することができる。したがって、適応雑音消去ユニット２１０６は、システムが使用される環境のインパルス応答を近似するのに十分な主チャネルの遅延を含む。使用される遅延の大きさは、残響を設計で考慮する必要があるかどうかを含む設計されるシステムの特定のアプリケーションによって異なる。いくつかの実施形態において、複数のマイクチャネルが非常に接近して配置される（且つ、残響が少ない）場合、遅延の大きさはミリ秒の何分の１かのオーダーであり得る。遅延に使用できる値の範囲の下限では、チャネル間の音響移動時間が最小遅延値を表すことができることに留意されたい。したがって、様々な実施形態において、遅延値は、アプリケーションに応じて、約１ミリ秒の何分の１から約５００ミリ秒またはそれ以上の範囲になることができる。適応雑音消去ユニット１１０６およびそれに関連する構成要素のさらなる説明は、以下の図と併せて以下に提供される。

適応雑音消去ユニット２１０６の出力２１０７は、単一チャネル雑音消去ユニット２１１８に入力される。単一チャネル雑音消去ユニット２１１８は、出力２１０７をフィルタリングし、出力２１０７からの不要オーディオのさらなる低減を提供し、それにより、フィルタリングの第二段階を提供する。単一チャネル雑音消去ユニット２１１８は、不要オーディオへのほとんど定常的な寄与をフィルタリングする。単一チャネル雑音消去ユニット２１１８は、例えば、ウィーナー（Ｗｉｅｎｅｒ）フィルタ、最小平均二乗誤差（ＭｉｎｉｍｕｍＭｅａｎＳｑｕａｒｅＥｒｒｏｒ；ＭＭＳＥ）フィルタ実装、線形定常雑音フィルタ、または推定されるパラメータに関する事前情報を使用する他のベイズ（Ｂａｙｅｓｉａｎ）フィルタアプローチなどの線形フィルタを含む。単一チャネル雑音消去ユニット２１１８で使用されるフィルタは、以下の図と併せて以下でより完全に説明される。

主チャネル２１０２からの音響信号は、２１０８においてフィルタコントローラー２１１２に入力される。同様に、参照チャネル２１０４からの音響信号は、２１１０においてフィルタコントローラー２１１２に入力される。オプションの第二参照チャネルは、２１０８ｂにおいてフィルタコントローラー２１１２に入力される。フィルタコントローラー２１１２は、適応雑音消去ユニット２１０６に制御信号２１１４を提供し、単一チャネル雑音消去ユニット２１１８に制御信号２１１６を提供する。様々な実施形態において、フィルタコントローラー２１１２の操作は、以下の図と併せて以下により完全に説明される。単一チャネル雑音消去ユニット２１１８の出力２１２０は、ほとんどの希望オーディオおよび量を低減する不要オーディオを含む音響信号を提供する。

本発明の様々な実施形態により、図２１に示されるシステム構造は、音響信号を処理するために使用される様々な異なるシステムにおいて使用され得る。異なる音響システムの例は、これに限定するものではないが、携帯電話、ハンドヘルドマイク、ブームマイク、マイクヘッドセット、補聴器、ハンズフリーマイクデバイス、眼鏡のフレームに埋め込まれたウェアラブルシステム、眼鏡、ニアツーアイ（ｎｅａｒ－ｔｏ－ｅｙｅ；ＮＴＥ）ヘッドセットディスプレイまたはヘッドセットコンピューティングデバイス、一般的な構成のヘッドウェアラブルデバイスであり、当該一般的な構成のヘッドウェアラブルデバイスは、例えば、これに限定するものではないが、眼鏡、ゴーグル、日よけ帽、ヘッドバンド、ヘルメットなどを含む。それらの音響システムが使用される環境は、主チャネル２１０２および参照チャネル２１０４に音響信号を提供する音響要素に入射する複数の音響エネルギー源を有することができる。様々な実施形態において、希望オーディオは、通常は、ユーザの自身の声の結果である（上記の図２を参照する）。様々な実施形態において、不要オーディオは、通常は、主チャネルおよび参照チャネルの両方に使用される音響要素に入射する複数のソースからの不要音響エネルギーの組み合わせの結果である。したがって、不要オーディオは、統計的に希望オーディオと相関していない。さらに、主チャネルにおける不要オーディオと参照チャネルにおける不要オーディオとの間には、因果関係がない。そのような場合、因果関係がなく、興味のある信号（希望オーディオ）以外は純粋な雑音信号（不要オーディオ）の測定がないため、エコーキャンセルは機能しない。エコーキャンセル雑音低減システムにおいて、音響信号を生成するスピーカーは、純粋な雑音信号のメトリックを提供する。本明細書に記載のシステムの実施形態の文脈において、純粋な雑音信号を抽出することができるスピーカーまたは雑音源がない。

図２２は、本発明の実施形態に係る、フィルタコントローラーを全体的に２１１２で示す。図２２を参照すると、主チャネル２１０２からの音響信号は、２１０８において希望音声活動検出ユニット２２０２に入力される。主チャネル２１０２での活動に関連するフラグ（図２１）を作成するために、２１０８での音響信号は、主チャネル活動検出器２２０６によって監視される。オプションとして、第二参照チャネルでの活動に関連するフラグを作成するために、２１１０ｂでの音響信号は、第二参照チャネル活動検出器（図示せず）によって監視される。オプションとして、第二参照チャネル活動検出器の出力は、禁止制御ロジック２２１４に結合される。参照チャネル２１０４での活動に関連するフラグ（図２１）を作成するために、２１１０での音響信号は、参照チャネル活動検出器２２０８によって監視される。希望音声活動検出ユニット２２０２は、２１１０、２１０８、およびオプションの２１１０ｂからの音響信号入力を利用して、希望音声活動信号２２０４を生成する。希望音声活動検出ユニット２２０２の操作は、以下の図においてより完全に以下に説明される。

様々な実施形態において、禁止ロジックユニット２２１４は、入力として、２２１０での主チャネル活動に関する情報、２２１２での参照チャネル活動に関する情報、および希望音声が２２０４で存在するかどうかに関する情報を受信する。様々な実施形態において、禁止ロジック２２１４は、例えば、図２１の適応雑音消去ユニット２１０６および単一チャネル雑音消去ユニット２１１８に送信されるフィルタ制御信号２１１４／２１１６を出力する。主チャネル活動検出器２２０６、参照チャネル活動検出器２２０８、および禁止ロジック２２１４の実装および操作は、発明の名称「希望ヌルに基づいている音響デバイス、システムおよび方法を備えるカージオイドビーム」と題された米国特許第７３８６１３５号にさらに完全に記載されており、米国特許第７３８６１３５号は参照により本明細書中に組み入れられる。

動作において、様々な実施形態において、連続するフィルタリング段階が適応雑音消去ユニット２１０６および単一チャネル雑音消去ユニット２１１８によって適用される場合、図２１のシステムおよび図２２のフィルタコントローラーは、主チャネル２１０２からの不要オーディオのフィルタリングおよび除去を提供する。一つまたは複数の実施形態において、システム全体にわたって、信号処理の適用は線形に適用される。線形信号処理において、出力は入力に線形に関連している。したがって、入力の値を変更すると、出力が比例して変化する。信号への信号処理プロセスの線形適用は、希望オーディオの品質および忠実度を維持し、それにより、希望オーディオの非線形歪みを実質的に排除または最小化する。音声の正確な再生が情報の正確な通信を容易にするのに役立つので、希望音声の信号品質の保存はユーザにとって有用である。

さらに、音声認識（ＳＲ）アルゴリズムや自動音声認識（ＡＳＲ）アルゴリズムなどの音声の処理に使用されるアルゴリズムは、非線形歪みが実質的にない音響信号の正確な表示から恩恵を受ける。したがって、非線形である信号処理プロセスの適用から生じる可能性のある歪みは、本発明の実施形態により排除される。本発明の実施形態により教示される線形雑音消去アルゴリズムは、音声認識エンジンで使用されるＳＲおよびＡＳＲアルゴリズムの操作に対して透過的な希望オーディオへの変化を生成する。したがって、音声認識エンジンのエラー率は、本発明の実施形態を適用することによって大幅に低減される。

図２３は、本発明の実施形態に係る、別のシステム構造を全体的に２３００で示す。図２３を参照すると、本明細書中に示されるシステム構造において、第一チャネルは、２３０２での第一マイク（図において、名目上、ＭＩＣ１としてラベル付けされている）からの音響信号を提供する。第二チャネルは、２３０４での第二マイク（図において、名目上、ＭＩＣ２としてラベル付けされている）からの音響信号を提供する。様々な実施形態において、一つまたは複数のマイクを使用して、第一マイク２３０２からの信号を作成することができる。様々な実施形態において、一つまたは複数のマイクを使用して、第二マイク２３０４からの信号を作成することができる。いくつかの実施形態において、一つまたは複数の音響要素を使用して、第一マイク２３０２からの信号および第二マイク２３０４からの信号に寄与する信号を作成することができる（以下に説明される図２５Ｃを参照する）。したがって、音響要素は、２３０２および２３０４に共有されることができる。様々な実施形態において、２３０２、２３０４において信号を提供する音響要素、主チャネル、および参照チャネルの配置は、以下の図と併せて以下に説明される。

ビームフォーマ２３０５は、入力として、第一マイク２３０２からの信号、第二マイク２３０４からの信号、およびオプションの第三マイク２３０４ｂからの信号（図において、名目上、ＭＩＣ３としてラベル付けされている）を受信する。ビームフォーマ２３０５は、信号２３０２、２３０４、およびオプションの２３０４ｂを使用して、希望オーディオおよび不要オーディオの両方を含む主チャネル２３０８ａを作成する。ビームフォーマ２３０５はまた、信号２３０２、２３０４、およびオプションの２３０４ｂを使用して、一つまたは複数の参照チャネル２３１０ａおよびオプションの２３１１ａを作成する。参照チャネルには、希望オーディオおよび不要オーディオの両方が含まれている。「主チャネル信号対雑音比」と呼ばれる主チャネルの信号対雑音比は、本明細書における「参照チャネル信号対雑音比」と呼ばれる参照チャネルの信号対雑音比よりも大きい。ビームフォーマ２３０５および／またはＭＩＣ１およびＭＩＣ２に使用される音響要素の配置は、参照チャネル信号対雑音比よりも大きい主チャネル信号対雑音比を提供する。

ビームフォーマ２３０５は、適応雑音消去ユニット２３０６およびフィルタ制御ユニット２３１２に結合されている。主チャネル信号は、２３０８ａにおいてビームフォーマ２３０５から出力され、適応雑音消去ユニット２３０６に入力される。同様に、参照チャネル信号は、２３１０ａにおいてビームフォーマ２３０５から出力され、適応雑音消去ユニット２３０６に入力される。主チャネル信号はまた、ビームフォーマ２３０５から出力され、２３０８ｂにおいてフィルタコントローラー２３１２に入力される。同様に、参照チャネル信号は、ビームフォーマ２３０５から出力され、２３１０ｂにおいてフィルタコントローラー２３１２に入力される。オプションとして、第二参照チャネル信号は、２３１１ａにおいて出力され、適応雑音消去ユニット２３０６に入力される。オプションの第二参照チャネル信号は、２３１１ｂにおいて出力され、フィルタコントローラー２０１２に入力される。

フィルタコントローラー２３１２は、入力２３０８ｂ、２３１０ｂ、およびオプションの２３１１ｂを使用して、チャネル活動フラグおよび希望音声活動検出を生成し、それにより、フィルタ制御信号２３１４を適応雑音消去ユニット２３０６に提供し、フィルタ制御信号２３１６を単一チャネル雑音低減ユニット２３１８に提供する。

適応雑音消去ユニット２３０６は、多チャネルフィルタリングを提供し、フィルタリングの第一段階中に、主チャネル２３０８ａからの不要オーディオの第一量をフィルタリングして、２３０７でフィルタリングされた主チャネルを出力する。単一チャネル雑音低減ユニット２３１８は、入力として、フィルタリングされた主チャネル２３７０を受信し、フィルタリングの第二段階を提供し、それにより、２３０７からの不要オーディオをさらに低減させる。単一チャネル雑音低減ユニット２３１８は、２３２０においてほとんど希望オーディオを出力する。

様々な実施形態において、本明細書に示される本発明の実施形態に必要な音響信号を提供するために、異なるタイプのマイクを使用することができる。音波を電気信号に変換する任意の変換器は、本明細書において教示される本発明の実施形態での使用に適する。マイクのいくつかの非限定的な例は、これに限定するものではないがダイナミックマイク、コンデンサーマイクロホン、エレクトレットコンデンサーマイクロホン（ＥｌｅｃｔｒｅＣｏｎｄｅｎｓｅｒＭｉｃｒｏｐｈｏｎｅ；ＥＣＭ）、および微小電気機械システム（ＭＥＭＳ）マイクである他の実施形態において、コンデンサーマイク（ｃｏｎｄｅｎｓｅｒｍｉｃｒｏｐｈｏｎｅ；ＣＭ）が使用される。他の実施形態において、微小機械加工マイクが使用される。圧電フィルムに基づくマイクは、他の実施形態において使用される。圧電素子は、セラミック材料、プラスチック材料、またはフィルムでできている。さらに他の実施形態において、微小機械加工マイクのアレイが使用される。さらに他の実施形態において、シリコンまたはポリシリコン微小機械加工マイクが使用される。いくつかの実施形態において、双方向圧力勾配マイクを使用して、複数の音響チャネルを提供する。本明細書に記載のシステムを含む様々なマイクまたはマイクアレイは、眼鏡またはヘッドセットなどの構造物の上または内部に取り付けることができる。

図２４Ａは、本発明の実施形態に係る、別の自動平衡を組み入れたシステム構造を全体的に２４００で示す。図２４Ａを参照すると、本明細書中に示されるシステム構造において、第一チャネルは、２４０２での第一マイク（図において、名目上、ＭＩＣ１としてラベル付けされている）からの音響信号を提供する。第二チャネルは、２４０４での第二マイク（図において、名目上、ＭＩＣ２としてラベル付けされている）からの音響信号を提供する。様々な実施形態において、一つまたは複数のマイクを使用して、第一マイク２４０２からの信号を作成することができる。様々な実施形態において、一つまたは複数のマイクを使用して、第二マイク２４０４からの信号を作成することができる。いくつかの実施形態において、図２３と併せて上記で説明されたように、一つまたは複数の音響要素を使用して、第一マイク２４０２からの信号および第二マイク２４０４からの信号の一部となる信号を作成することができる。様々な実施形態において、信号２４０２、２４０４を提供する音響要素、主チャネル、および参照チャネルの配置は、以下の図と併せて以下に説明される。

ビームフォーマ２４０５は、入力として、第一マイク２４０２からの信号および第二マイク２４０４からの信号を受信する。ビームフォーマ２４０５は、信号２４０２および２４０４を使用して、希望オーディオおよび不要オーディオの両方を含む主チャネルを作成する。ビームフォーマ２４０５はまた、信号２４０２および２４０４を使用して、参照チャネルを作成する。オプションとして、第三チャネルは、２４０４ｂでの第三マイク（図において、名目上、ＭＩＣ３としてラベル付けされている）からの音響信号を提供する。当該音響信号は、ビームフォーマ２４０５に入力される。様々な実施形態において、一つまたは複数のマイクを使用して、第三マイクからの信号２４０４ｂを生成することができる。参照チャネルには、希望オーディオおよび不要オーディオの両方が含まれている。「主チャネル信号対雑音比」と呼ばれる主チャネルの信号対雑音比は、本明細書における「参照チャネル信号対雑音比」と呼ばれる参照チャネルの信号対雑音比よりも大きい。ビームフォーマ２４０５および／またはＭＩＣ１、ＭＩＣ２およびオプションのＭＩＣ３に使用される音響要素の配置は、参照チャネル信号対雑音比よりも大きい主チャネル信号対雑音比を提供する。いくつかの実施形態において、双方向圧力勾配マイク要素は、信号２４０２、２４０４、およびオプションの２４０４ｂを提供する。

ビームフォーマ２４０５は、適応雑音消去ユニット２４０６および希望音声活動検出器２４１２（フィルタコントローラー）に結合されている。主チャネル信号は、２４０８ａにおいてビームフォーマ２４０５から出力され、適応雑音消去ユニット２４０６に入力される。同様に、参照チャネル信号は、２４１０ａにおいてビームフォーマ２４０５から出力され、適応雑音消去ユニット２４０６に入力される。主チャネル信号はまた、ビームフォーマ２４０５から出力され、２４０８ｂにおいて希望音声活動検出器２４１２に入力される。同様に、参照チャネル信号は、ビームフォーマ２４０５から出力され、２４１０ｂにおいて希望音声活動検出器２４１２に入力される。オプションとして、第二参照チャネル信号は、２４０９ａにおいてビームフォーマ２４０５から出力され、適応雑音消去ユニット２４０６に入力される。第二参照チャネル信号は、２４０９ｂにおいてビームフォーマ２４０５から出力され、希望音声活動検出器２４１２に入力される。

希望音声活動検出器２４１２は、入力２４０８ｂ、２４１０ｂ、およびオプションの２４０９ｂを使用して、適応雑音消去ユニット２４０８のためのフィルタ制御信号２４１４および単一チャネル雑音低減ユニット２４１８のためのフィルタ制御信号２４１６を生成する。適応雑音消去ユニット２４０６は、多チャネルフィルタリングを提供し、フィルタリングの第一段階中に主チャネル２４０８ａからの不要オーディオの第一量をフィルタリングして、２４０７においてフィルタリングされた主チャネルを出力する。単一チャネル雑音低減ユニット２４１８は、入力として、フィルタリングされた主チャネル２４０７を受信し、フィルタリングの第二段階を提供し、それにより、２４０７からの不要オーディオをさらに低減させる。単一チャネル雑音低減ユニット２４１８は、２４２０においてほとんど希望オーディオを出力する。

希望音声活動検出器２４１２は、自動平衡ユニット２４２４のための制御信号２４２２を提供する。自動平衡ユニット２４２４は、２４２６において、第一マイク２４０２からの信号パスに結合されている。自動平衡ユニット２４２４はまた、２４２８において、第二マイク２４０４からの信号パスに結合されている。オプションとして、自動平衡ユニット２４２４はまた、２４２９において、第三マイク２４０４ｂからの信号パスに結合されている。自動平衡ユニット２４２４は、システムの動作寿命にわたって遠距離場信号に対するマイク応答の平衡をとる。マイクチャネルのバランスを保つことにより、システムの性能が向上し、マイクの感度のドリフトを防ぐことにより、高レベルの性能を維持する。自動平衡ユニットについては、以下の図と併せて以下で詳しく説明される。

図２４Ｂは、本発明の実施形態に係る、雑音低減のためのプロセスを全体的に２４５０で示す。図２４Ｂを参照すると、プロセスは、ブロック２４５２において開始する。ブロック２４５４において、主音響信号がシステムによって受信される。主音響信号は、例えば、様々な実施形態において、２１０２（図２１）、２３０２／２３０８ａ／２３０８ｂ（図２３）、または２４０２／２４０８ａ／２４０８ｂ（図２４Ａ）によって表されるような信号であり得る。ブロック２４５６において、参照音響信号がシステムによって受信される。参照音響信号は、例えば、様々な実施形態において、２１０４およびオプションの２１０４ｂ（図２１）、２３０４／２３１０ａ／２３１０ｂおよびオプションの２３０４ｂ／２３１１ａ／２３１１ｂ（図２３）、または２４０４／２４１０ａ／２４１０ｂおよびオプションの２４０４ｂ／２４０９ａ／２４０９ｂ（図２４Ａ）によって表されるような信号であり得る。ブロック２４５８において、適応フィルタリングは、複数の入力のチャネルによって実行され、例えば、適応フィルタユニット２１０６（図２１）、２３０６（図２３）、および２４０６（図２４Ａ）を使用して、例えば、２１０７（図２１）、２３０７（図２３）、および２４０７（図２４Ａ）で示されるフィルタリングされた音響信号を提供する。ブロック２４６０において、単一チャネルユニットを使用して、ブロック２４５８のプロセスから生じるフィルタリングされた音響信号をフィルタリングする。単一チャネルユニットは、例えば、様々な実施形態において、２１１８（図２１）、２３１８（図２３）、または２４１８（図２４Ａ）によって表されるようなユニットであり得る。当該プロセスはブロック２４６２において終了する。

様々な実施形態において、２１０６（図２１）、２３０６（図２３）、および２４０６（図２４Ａ）などの適応雑音消去ユニットは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、適応雑音消去ユニット２１０６、２３０６または２４０６は、単一の集積回路ダイに実装される。他の実施形態において、適応雑音消去ユニット２１０６、２３０６または２４０６は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。

様々な実施形態において、２０１８（図２１）、２３１８（図２３）、および２４１８（図２４Ａ）などの単一チャネル雑音消去ユニットは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、単一チャネル雑音消去ユニット２１１８、２３１８または２４１８は、単一の集積回路ダイに実装される。他の実施形態において、単一チャネル雑音消去ユニット２１１８、２３１８または２４１８は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。

様々な実施形態において、２１１２（図２１および２２）または２３１２（図２３）などのフィルタコントローラーは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、フィルタコントローラー２１１２または２３１２は、単一の集積回路ダイに実装される。他の実施形態において、フィルタコントローラー２１１２または２３１２は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。

様々な実施形態において、２３０５（図２３）または２４０５（図２４Ａ）などのビームフォーマは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、ビームフォーマ２３０５または２４０５は、単一の集積回路ダイに実装される。他の実施形態において、フィルタコントローラー２３０５または２４０５は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。

図２５Ａは、本発明の実施形態に係る、ビーム形成を全体的に２５００で示す。図２５Ａを参照すると、ビーム形成ブロック２５０６は、二つのマイク入力２５０２および２５０４に適用される。一つまたは複数の実施形態において、マイク入力２５０２は、第一指向性マイクから生じることができ、マイク入力２５０４は、第二指向性マイクから生じることができ、または、マイク信号２５０２および２５０４は、全方向性マイクから生じることができる。さらに他の実施形態において、マイク信号２５０２および２５０４は、双方向圧力勾配マイクの出力によって提供される。様々な指向性マイクは使用されることができ、例えば、これに限定するものではないが、カージオイドビームパターン、ダイポールビームパターン、全方向性ビームパターン、またはユーザで画定されるビームパターンを有するマイクを使用する。いくつかの実施形態において、一つまたは複数の音響要素は、マイク入力２５０２および２５０４を提供するように構成される。

様々な実施形態において、ビーム形成ブロック２５０６は、フィルタ２５０８を含む。使用されるマイクのタイプおよび特定の用途に応じて、フィルタ２５０８は、マイク入力２５０２のＤＣおよび超低周波成分をフィルタリングする直流（ｄｉｒｅｃｔｃｕｒｒｅｎｔ；ＤＣ）遮断フィルタを提供することができる。フィルタ２５０８の後に、いくつかの実施形態において、追加のフィルタリングは、フィルタ２５１０によって提供される。一部のマイクは、周波数の関数として非平坦の応答を有する。そのような場合、ディエンファシスフィルタを使用してマイクの周波数応答を平坦化することが望ましい場合がある。フィルタ２５１０は、ディエンファシスを提供することができ、それにより、マイクの周波数応答を平坦化する。フィルタ２５１０によるディエンファシスフィルタリングの後に、主マイクチャネルは、２５１２ａにおいて適応雑音消去ユニットに供給され、２５１２ｂにおいて希望音声活動検出器に供給される。

マイク入力２５０４は、ビーム形成ブロック２５０６に入力され、いくつかの実施形態においてフィルタ２５１２によってフィルタリングされる。使用されるマイクのタイプおよび特定の用途に応じて、フィルタ２５１２は、マイク入力２５０４のＤＣおよび超低周波成分をフィルタリングする直流（ＤＣ）遮断フィルタを提供することができる。フィルタ２５１４は、フィルタ２５１２から出力される音響信号をフィルタリングする。フィルタ２５１４は、ゲイン、位相を調整し、音響信号の周波数応答を形成することもできる。フィルタ２５１４の後に、いくつかの実施形態において、追加のフィルタリングは、フィルタ２５１６によって提供される。一部のマイクは、周波数の関数として非平坦の応答を有する。そのような場合、ディエンファシスフィルタを使用してマイクの周波数応答を平坦化することが望ましい場合がある。フィルタ２５１６は、ディエンファシスを提供することができ、それにより、マイクの周波数応答を平坦化する。フィルタ２５１６によるディエンファシスフィルタリングの後に、参照マイクチャネルは、２５１８ａにおいて適応雑音消去ユニットに供給され、２５１８ｂにおいて希望音声活動検出器に供給される。

オプションとして、第三マイクチャネルは、２５０４ｂにおいてビーム形成ブロック２５０６に入力される。チャネル２５０４について上で説明される信号パスと同様に、第三マイクチャネルは、フィルタ２５１２ｂによってフィルタリングされる。使用されるマイクのタイプおよび特定の用途に応じて、フィルタ２５１２ｂは、マイク入力２５０４ｂのＤＣおよび超低周波成分をフィルタリングする直流（ＤＣ）遮断フィルタを提供することができる。フィルタ２５１４ｂは、フィルタ２５１２ｂから出力される音響信号をフィルタリングする。フィルタ２５１４ｂは、ゲイン、位相を調整し、音響信号の周波数応答を形成することもできる。フィルタ２５１４ｂの後に、いくつかの実施形態において、追加のフィルタリングは、フィルタ２５１６ｂによって提供される。一部のマイクは、周波数の関数として非平坦の応答を有する。そのような場合、ディエンファシスフィルタを使用してマイクの周波数応答を平坦化することが望ましい場合がある。フィルタ２５１６ｂは、ディエンファシスを提供することができ、それにより、マイクの周波数応答を平坦化する。フィルタ２５１６ｂによるディエンファシスフィルタリングの後に、第二参照マイクチャネルは、２５２０ａにおいて適応雑音消去ユニットに供給され、２５２０ｂにおいて希望音声活動検出器に供給される。

図２５Ｂは、本発明の実施形態に係る、別のビーム形成を全体的に２５３０で示す。図２５Ｂを参照すると、ビームパターンは、第一マイク２５３２および第二マイク２５３８を使用して主チャネルに対して作成される。第一マイク２５３２から出力される信号２５３４は、加算器２５３６に入力される。第二マイク２５３８から出力される信号２５４０の振幅は、ブロック２５４２において調整され、信号２５４０の位相は、ブロック２５４４において遅延を適用することによって調整され、それにより、加算器２５３６に入力される信号２５４６を得る。加算器２５３６は、一方の信号を他方から減算し、それにより、出力信号２５４８を得る。マイク２５３２および２５３８の最初のビームパターンならびに２５４２において適用されるゲインおよび２５４４において適用される遅延に応じて、出力信号２５４８は、様々な形態を呈することができるビームパターンを有する。非限定的な例として、ビームパターンは、カージオイド、ダイポールなどを含むことができる。

ビームパターンは、第三マイク２５５２および第四マイク２５５８を使用して参照チャネルに対して作成される。第三マイク２５５２から出力される信号２５５４は、加算器２５５６に入力される。第四マイク２５５８から出力される信号２５６０の振幅は、ブロック２５６２において調整され、信号２５６０の位相は、ブロック２５６４において遅延を適用することによって調整され、それにより、加算器２５５６に入力される信号２５６６を得る。加算器２５５６は、一方の信号を他方から減算し、それにより、出力信号２５６８を得る。マイク２５５２および２５５８の最初のビームパターンならびに２５６２において適用されるゲインおよび２５６４において適用される遅延に応じて、出力信号２５６８は、様々な形態を呈することができるビームパターンを有する。非限定的な例として、ビームパターンは、カージオイド、ダイポールなどを含むことができる。

図２５Ｃは、本発明の実施形態に係る、共有音響要素を利用するビーム形成を全体的に２５７０で示す。図２５Ｃを参照すると、マイク２５５２は、主音響チャネルと参照音響チャネルとの間で共有されている。マイク２５５２からの出力は分割され、２５７２においてゲイン２５７４および遅延２５６７へ移動し、次いで２５８６において加算器２５３６に入力される。２５７４での適切なゲインおよび２５７６での遅延を選択して、加算器２５３６からの出力２５４８と同等の加算器２５３６からの出力２５７８（図２５Ｂ）を実現することができる。同様に、ゲイン２５８２および遅延２５８４を調整して、２５６８（図２５Ｂ）と同等の出力信号２５８８を提供することができる。非限定的な例として、ビームパターンは、カージオイド、ダイポールなどを含むことができる。

図２６は、本発明の実施形態に係る、多チャネル適応フィルタリングを全体的に２６００で示す。図２６を参照すると、適応フィルタユニットの実施形態は、遅延要素２６０６に入力される主チャネル２６０４（マイク信号を含む）を備えるように示されている。参照チャネル２６０２（マイク信号を含む）は、適応フィルタ２６０８に入力される。様々な実施形態において、適応フィルタ２６０８は、正規化最小二乗平均適応（ｎｏｒｍａｌｉｚｅｄｌｅａｓｔ－ｍｅａｎ－ｓｑｕａｒｅ－ａｄａｐｔａｔｉｏｎ；ＮＬＭＳ）または別のアルゴリズムを実装するように設計される適応ＦＩＲフィルタであり得る。本発明の実施形態は、ＮＬＭＳ適応に限定されない。適応ＦＩＲフィルタは、参照信号２６０２からの希望オーディオの推定値をフィルタリングする。一つまたは複数の実施形態において、適応フィルタ２６０８の出力２６０９は、加算器２６１０に入力される。遅延された主チャネル信号２６０７は加算器２６１０に入力され、出力２６０９は遅延された主チャネル信号２６０７から差し引かれる。加算器２６１６の出力は、量が減少した不要オーディオを有する希望オーディオを含む信号を提供する。

音響システムが本発明の実施形態を採用する多くの環境は、残響が存在する状態で使用される。残響は、一種の雑音をもたらし、本明細書で説明されるフィルタリングおよび信号抽出の対象である不要オーディオをもたらす。様々な実施形態において、２６００で示される２チャネル適応ＦＩＲフィルタリングは、二つのチャネルとそれらが使用される環境との間の残響をモデル化する。したがって、不要オーディオは、直接パス、および環境のインパルス応答をモデル化するために適応FIRフィルタを必要とする残響パスに沿って伝播する。必要な精度に応じて、環境のインパルス応答のさまざまな近似を行うことができる。一つの非限定的な例において、遅延の量は、環境のインパルス応答時間にほぼ等しい。別の非限定的な例において、遅延の量は、環境のインパルス応答よりも大きい。一実施形態において、遅延の量は、環境のインパルス応答時間のｎ倍にほぼ等しい。ｎは、例えば、２または３以上に等しくなり得る。または、遅延量は、インパルス応答時間の整数倍ではなく、例えば、０.５、１.４、２.７５などである。例えば、一実施形態において、フィルタ長は、２６０６のために選択される遅延の２倍にほぼ等しい。したがって、２００タップを有する適応フィルタが使用される場合、遅延２６０６の長さは、１００タップの時間遅延にほぼ等しい。１００タップによる伝播時間に相当する時間遅延は、単に例示のために提供されており、本発明の実施形態に対するいかなる形態の制限も意味しない。

本発明の実施形態は、ある範囲のインパルス応答時間を有する様々な環境で使用することができる。インパルス応答時間のいくつかの例は、例示のみを目的として、非限定的な例として与えられており、本発明の実施形態を制限するものではない。例えば、オフィス環境において、通常は、約１００ミリ秒から２００ミリ秒のインパルス応答時間がある。車のキャビンの内部は、３０ミリ秒から６０ミリ秒の範囲のインパルス応答時間を提供できる。一般に、本発明の実施形態は、インパルス応答時間が数ミリ秒から５００ミリ秒以上の範囲であり得る環境において使用される。

適応フィルタユニット２６００は、２６１４において、禁止ロジック２２１４およびフィルタ制御信号２１１４（図２２）などの禁止ロジックと通信する。禁止ロジック２２１４によって制御される信号２６１４は、フィルタ２６０８によって実行されるフィルタリングおよびフィルタ係数の適応を制御するために使用される。適応雑音消去ユニット２６００の出力２６１６は、例えば、前の図で上に説明されるような単一チャネル雑音消去ユニット、例えば、２１１８（図２１）、２３１８（図２３）、および２４１８（図２４Ａ）に入力される。不要オーディオの第一レベルは主音響チャネルから抽出され、それにより出力２６１６が生成される。さまざまな動作条件において、雑音のレベルつまり不要オーディオは、興味のある信号つまり希望オーディオに比べて非常に大きくなる可能性がある。本発明の実施形態は、主チャネルと参照チャネルとの間に信号対雑音比にいくらかの差が存在する条件で動作可能である。いくつかの実施形態において、信号対雑音比の差は、およそ１デシベル（ｄＢ）以下の幅である。他の実施形態において、信号対雑音比の差は、およそ１デシベル（ｄＢ）以上の幅である。出力２６１６は、単一チャネル雑音低減ユニットを使用する後続のプロセスに含まれる不要オーディオの量を低減さえるために、さらにフィルタリングされる。

信号２６１４（図２６）を含む上記の図２２で説明される禁止ロジックは、主チャネルまたは参照チャネルのいずれかが非アクティブであると決定された場合、フィルタ２６０８の実質的な稼働休止およびフィルタ係数の非適応を提供する。そのような場合、主チャネル２６０４に存在する信号は２６１６において出力される。

主チャネルと参照チャネルがアクティブであり、希望オーディオが検出された場合、または一時停止のしきい値に達していない場合、フィルタ係数を凍結することによって適応は無効になり、参照チャネル２６０２上の信号は、フィルタ２６０８によってフィルタリングされ、加算器２６１０によって主チャネル２６０７から減算され、２６１６において出力される。

主チャネルと参照チャネルがアクティブであり、希望オーディオが検出されず、一時停止しきい値（一時停止時間とも呼ばれる）を超えた場合、フィルタ係数が調整される。一時停止のしきい値は、アプリケーションによって異なる。例えば、一つの非限定的な例において、自動音声認識（ＡＳＲ）の場合、一時停止のしきい値は約数分の１秒になる。

図２８Ａは、本発明の実施形態に係る、希望音声活動検出を全体的に２８００で示す。図２８Ａを参照すると、２８０６において、二重入力希望音声活動検出器が示される。主チャネルからの音響信号は、２８０２において、例えば、ビームフォーマから、または前の図と併せて上記で説明される主音響チャネルから、二重入力希望音声活動検出器２８０６の第一信号パス２８７０ａに入力される。第一信号パス２８０７ａは、音声帯域フィルタ２８０８を含む。音声帯域フィルタ２８０８は、主音響チャネル２８０２内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ２８０８は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、５０から３００Ｈｚの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約５０Hzである。標準のテレフォニーにおいて、下部のコーナー周波数は約３００Hzである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は２,５００Hzである。上部のコーナー周波数のもう一つの非限定的な位置は、４,０００Hzである。

第一信号パス２８０７ａは、短期パワー計算機２８１０を含む。短期パワー計算機２８１０は、様々な実施形態において、二乗平均平方根（ｒｏｏｔｍｅａｎｓｑｕａｒｅ；ＲＭＳ）測定、パワー検出器、エネルギー検出器などとして実現される。短期パワー計算機２８１０は、同義語として、短時間パワー計算機２８１０と呼ばれることができる。短期パワー検出器２８１０は、フィルタ処理した信号中の瞬間的なパワーを近似的に計算する。短期パワー検出器２８１０（Ｙ１）の出力は、信号圧縮器２８１２に入力される。様々な実施形態において、圧縮器２８１２は、信号をＬｏｇ_２ドメイン、Ｌｏｇ_１０ドメインなどに変換する。他の実施形態において、圧縮器２８１２は、信号Ｙ１に対してユーザで画定される圧縮アルゴリズムを実行する。

上記の第一信号パスと同様に、参照チャネルからの音響信号は、２８０４において、例えば、ビームフォーマから、または前の図と併せて上記で説明される参照音響チャネルから、二重入力希望音声活動検出器２８０６の第二信号パス２８０７ｂに入力される。第二信号パス２８０７ｂは、音声帯域フィルタ２８１６を含む。音声帯域フィルタ２８１６は、参照音響チャネル２８０４内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ２８１６は、第一信号パスおよび音声帯域フィルタ２８０８について上で説明されるような、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。

第二信号パス２８０７ｂは、短期パワー計算機２８１８を含む。短期パワー計算機２８１８は、様々な実施形態において、二乗平均平方根（ＲＭＳ）測定、パワー検出器、エネルギー検出器などとして実現される。短期パワー計算機２８１８は、同義語として、短時間パワー計算機２８１８と呼ばれることができる。短期パワー検出器２８１８は、フィルタ処理した信号中の瞬間的なパワーを近似的に計算する。短期パワー検出器２８１８（Ｙ２）の出力は、信号圧縮器２８２０に入力される。様々な実施形態において、圧縮器２８２０は、信号をＬｏｇ_２ドメイン、Ｌｏｇ_１０ドメインなどに変換する。他の実施形態において、圧縮器２８２０は、信号Ｙ２に対してユーザで画定される圧縮アルゴリズムを実行する。

第二信号パス２８２２からの圧縮信号は、減算器２８２４において、第一信号パス２８１４からの圧縮信号から減算され、それにより、２８２６（Ｚ）において正規化された主信号が得られる。他の実施形態において、異なる圧縮関数が２８１２および２８２０において適用され、それにより、２８２６において信号の異なる正規化がもたらされる。他の実施形態において、対数圧縮が実施されていない場合、正規化を達成するために、除算演算は２８２４において適用されることができる。例えば、平方根関数に基づく圧縮が実装されている場合などである。

正規化された主信号２８２６は、単一チャネル正規化された音声閾値比較器（ｓｉｎｇｌｅｃｈａｎｎｅｌｎｏｒｍａｌｉｚｅｄｖｏｉｃｅｔｈｒｅｓｈｏｌｄｃｏｍｐａｒａｔｏｒ；ＳＣ－ＮＶＴＣ）２８２８に入力され、それにより、正規化された希望音声活動検出信号２８３０が得られる。２チャネル音声活動検出器の構造は、二つの入力チャネルの信号対雑音比の全体的な差に基づく正規化された希望音声活動検出信号２８３０を使用して、希望音声の検出を提供することに留意されたい。したがって、正規化された希望音声活動検出信号２８３０は、特定の周波数ビンのエネルギーではなく、音声帯域中のエネルギーの積分に基づいており、それにより、上記の雑音消去ユニット内の線形性を維持する。圧縮信号２８１４および２８２２は、対数圧縮を利用して、２８２６（Ｚ）において入力を提供し、当該入力は、ゼロ未満からゼロを超えるまでさまざまある値を持つことができる雑音フロア（以下の図２８Ｅの列２８９５c、列２８９５d、または列２８９５eを参照する）を有し、常にゼロより高い雑音フロア（以下の図２８Ｅの列２８９５ｂを参照する）を有する非圧縮の単一チャネル入力と異なる。

図２８Ｂは、本発明の実施形態に係る、単一チャネル正規化された音声閾値比較器（ＳＣ－ＮＶＴＣ）を全体的に２８５０で示す。図２８Ｂを参照すると、正規化された主信号２８２６は、長期正規化されたパワー推定器２８３２に入力される。長期正規化されたパワー推定器２８３２は、正規化された主信号２８２６の実行中の見積もりを提供する。実行中の見積もりは、希望オーディオの下限を提供する。オフセット値２８３４は、加算器２８３６において、長期正規化されたパワー推定器２８３２の出力のランニング見積もりに加えられる。加算器２８３８の出力は、比較器２８４０に入力される。正規化された主信号２８２６の瞬時見積もり２８４２は、比較器２８４０に入力される。比較器２８４０は、２８４２での瞬時値を、２８３８でのランニング比率およびオフセットの和と、比較するロジックを含む。２８４２での値は２８３８での値よりも大きい場合、希望オーディオは検出され、それに応じてフラグは、設定され、正規化された希望音声活動検出信号２８３０の一部として送信される。２８４２での値は２８３８での値よりも小さい場合、希望オーディオは検出されず、それに応じてフラグは、設定され、正規化された希望音声活動検出信号２８３０の一部として送信される。長期正規化されたパワー推定器２８３２は、振幅変動の変化を遅くするために、正規化された主信号２８２６を十分に長い時間にわたって平均化する。したがって、振幅変動は、２８３３においてゆっくりと変化する。平均化時間は、非限定的な例として、数分の１秒から数分までさまざまあり得る。様々な実施形態において、平均化時間は、２８３２の出力において、ゆっくりと変化する振幅変動を提供するように選択される。

図２８Ｃは、本発明の実施形態に係る、複数の参照チャネルを利用する希望音声活動検出を全体的に２８４６で示す。図２８Ｃを参照すると、２８４８において、希望音声検出器が示される。希望音声検出器２８４８は、入力として、主チャネル２８０２および第一信号パス２８０７ａ（上記で図２８Ａと併せて説明された）を、参照チャネル２８０４および第二信号パス２８０７ｂ（上記で図２８Ａと併せて説明された）と共に含む。それに加えて、希望音声検出器２８４８に入力され、第三信号パス２８０７ｃの一部である第二参照音響チャネル２８５０がある。第二信号パス２８０７ｂ（上記）と同様に、第二参照チャネルからの音響信号は、２８５０において、例えば、ビームフォーマから、または上記で前の図と併せて説明される第二参照音響チャネルから、多入力希望音声検出器２８４８の第三信号パス２８０７ｃに入力される。第三信号パス２８０７ｃは、音声帯域フィルタ２８５２を含む。音声帯域フィルタ２８５２は、参照音響チャネル２８５０内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ２８５２は、第二信号パスおよび音声帯域フィルタ２８０８について上で説明されるような、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。

第三信号パス２８０７ｃは、短期パワー計算機２８５４を含む。短期パワー計算機２８５４は、様々な実施形態において、二乗平均平方根（ＲＭＳ）測定、パワー検出器、エネルギー検出器などとして実現される。短期パワー計算機２８５４は、同義語として、短時間パワー計算機２８５４と呼ばれることができる。短期パワー検出器２８５４は、フィルタ処理した信号中の瞬間的なパワーを近似的に計算する。短期パワー検出器２８５４の出力は、信号圧縮器２８５６に入力される。様々な実施形態において、圧縮器２８５６は、信号をＬｏｇ_２ドメイン、Ｌｏｇ_１０ドメインなどに変換する。他の実施形態において、圧縮器２８５４は、信号Ｙ３に対してユーザで画定される圧縮アルゴリズムを実行する。

第三信号パス２８５８からの圧縮信号は、減算器２８６０において、第一信号パス２８１４からの圧縮信号から減算され、それにより、２８６２（Ｚ２）において正規化された主信号が得られる。他の実施形態において、異なる圧縮関数が２８５６および２８１２において適用され、それにより、２８６２において信号の異なる正規化がもたらされる。他の実施形態において、対数圧縮が実施されていない場合、除算演算は２８６０において適用されることができる。例えば、平方根関数に基づく圧縮が実装されている場合などである。

正規化された主信号２８６２は、単一チャネル正規化された音声閾値比較器（ＳＣ－ＮＶＴＣ）２８６４に入力され、それにより、正規化された希望音声活動検出信号２８６８が得られる。多チャネル音声活動検出器の構造は、二つの入力チャネルの信号対雑音比の全体的な差に基づく正規化された希望音声活動検出信号２８６８を使用して、希望音声の検出を提供することに留意されたい。したがって、正規化された希望音声活動検出信号２８６８は、特定の周波数ビンのエネルギーではなく、音声帯域中のエネルギーの積分に基づいており、それにより、上記の雑音消去ユニット内の線形性を維持する。圧縮信号２８１４および２８５８は、対数圧縮を利用して、２８６２（Ｚ２）において入力を提供し、当該入力は、ゼロ未満からゼロを超えるまでさまざまある値を持つことができる雑音フロア（以下の図２８Ｅの列２８９５c、列２８９５d、または列２８９５eを参照する）を有し、常にゼロより高い雑音フロア（以下の図２８Ｅの列２８９５ｂを参照する）を有する非圧縮の単一チャネル入力とは異なる。

少なくとも二つの参照チャネル入力を備える多チャネル入力を有する希望音声検出器２８４８は、希望音声活動信号２８７４を出力するために使用される二つの正規化された希望音声活動検出信号２８６８および２８７０を提供する。一実施形態において、正規化された希望音声活動検出信号２８６８および２８７０は、論理ＯＲゲート２８７２に入力される。論理ＯＲゲートは、その入力２８６８および２８７０に基づいて、希望音声活動信号２８７４を出力する。さらに他の実施形態において、追加の参照チャネルは、希望音声検出器２８４８に追加されることができる。追加の各参照チャネルは、別の正規化された主チャネルを作成するために使用され、その正規化された主チャネルは、別の単一チャネル正規化された音声閾値比較器（ＳＣ―ＮＶＴＣ）（図示せず）に入力される。追加の単一チャネル正規化された音声閾値比較器（ＳＣ―ＮＶＴＣ）（図示せず）からの出力は、追加の排他的ＯＲゲート（これも図示せず）（一実施形態において）を介して２８７４と組み合わされて、希望音声活動信号を提供し、その信号は上記で前の図と併せて説明されたように出力される。多チャネル希望音声検出器で追加の参照チャネルを利用すると、上記のように、複数の参照チャネルを介して雑音フィールドに関してより多くの情報が得られるので、希望音声のよりロバストな検出が得られる。

図２８Ｄは、本発明の実施形態に係る、圧縮を利用するプロセスを全体的に２８８０で示す。図２８Ｄを参照すると、プロセスは、ブロック２８８２において開始する。図２８Ａまたは図２８Ｃと併せて説明されるように、ブロック２８８４において、主音響チャネルは、例えば、Ｌｏｇ_１０圧縮またはユーザによって画定される圧縮を利用して圧縮される。図２８Ａまたは図２８Ｃと併せて説明されるように、ブロック２８８６において、参照音響信号は、例えば、Ｌｏｇ_１０圧縮またはユーザによって画定される圧縮を利用して圧縮される。ブロック２８８８において、正規化された主音響信号が作成される。ブロック２８９０において、希望音声は、正規化された音響信号を使用して、検出される。当該プロセスはブロック２８９２において終了する。

図２８Ｅは、本発明の実施形態に係る、圧縮を提供するための異なる関数を全体的に２８９３で示す。図２８Ｅを参照すると説明のために、表２８９４は、いくつかの圧縮関数を示しており、それによって限定を意味するものではない。列２８９５ａには、変数Ｘの６つのサンプル値が含まれている。この例において、２８９６で示されるように、変数Ｘは０.０１から１０００.０の範囲の値を取る。列２８９５ｂは、圧縮なしを示し、ここでＹ＝Ｘである。列２８９５ｃは、１０を底とする対数圧縮を示し、ここで圧縮値Ｙ＝Ｌｏｇ１０（Ｘ）である。列２８９５ｄは、ｌｎ（Ｘ）圧縮を示し、ここで圧縮値Ｙ＝ｌｎ（Ｘ）である。列２８９５eは、２を底とする対数圧縮を示し、ここでＹ＝Ｌｏｇ_２（Ｘ）である。２８９５c、２８９５d、または２８９５eよりも多かれ少なかれ圧縮を提供するために、必要に応じてユーザで画定される圧縮（図示せず）を実装することもできる。２８１２および２８２０での圧縮関数（図２８Ａ）を利用して、短期パワー検出器２８１０および２８１８の結果を圧縮し、それにより、単一チャネル正規化された音声閾値比較器（ＳＣ―ＮＶＴＣ）２８２８に入力される２８２６（Ｚ）での正規化された主信号のダイナミックレンジが減少する。同様に、２８１２、２８２０、および２８５６での圧縮関数（図２８Ａ）を利用して、短期パワー検出器２８１０、２８１８、および２８５４の結果を圧縮し、それにより、ＳＣ―ＮＶＴＣ８２８およびＳＣーＮＶＴＣ８６４にそれぞれ入力される２８２６（Ｚ）および２８６２（Ｚ２）での正規化された主信号のダイナミックレンジが減少する。圧縮によって達成されるダイナミックレンジの減少により、希望オーディオの存在をより正確に検出することができ、したがって、本明細書に示される本発明の実施形態によって、より大きく雑音低減を実現することができる。

様々な実施形態において、図２８Ａ、図２８Ｂ、図２８Ｃ、図２８Ｄ、および図２８Ｅに示されるような多入力希望音声検出器のコンポーネントは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、多入力希望音声検出器は、単一の集積回路ダイに実装される。他の実施形態において、多入力希望音声検出器は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。

図２９Ａは、本発明の実施形態に係る、自動平衡構造を全体的に２９００で示す。図２９Ａを参照すると、自動平衡コンポーネント２９０３は、第一信号パス２９０５ａおよび第二信号パス２９０５ｂを有する。第一音響チャネル２９０２ａ（ＭＩＣ１）は、２９０２ｂにおいて、第一信号パス２９０５ａに結合されている。第二音響チャネル２９０４ａは、２９０４ｂにおいて、第二信号パス２９０５ｂに結合されている。音響信号は、２９０２ｂにおいて、音声帯域フィルタ２９０６に入力される。音声帯域フィルタ２９０６は、第一音響チャネル２９０２ａ内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ１９０６は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、５０から３００Ｈｚの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約５０Ｈｚである。標準のテレフォニーにおいて、下部のコーナー周波数は約３００Ｈｚである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は２,５００Ｈｚである。上部のコーナー周波数のもう一つの非限定的な位置は、４,０００Ｈｚである。

第一信号パス２８０５ａは、長期パワー計算機２９０８を含む。長期パワー計算機２９０８は、様々な実施形態において、二乗平均平方根（ＲＭＳ）測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機２９０８は、同義語として、長時間パワー計算機２９０８と呼ばれることができる。長期パワー計算機２９０８は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機２９０８の出力２９０９は、除算器２９１７に入力される。制御信号２９１４は、２９１６において、長期パワー計算機２９０８に入力される。制御信号２９１４は、例えば、図２８Ａ、図２８Ｂ、図２８Ｃの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第一チャネル２９０２ｂ上の音響信号のセグメントは、２９０８で生成された長期パワー平均から除外される。

音響信号は、２９０４ｂにおいて、第二信号パス２９０５ｂの音声帯域フィルタ２９１０に入力される。音声帯域フィルタ２９１０は、第二音響チャネル２９０４ａ内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ２９１０は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、５０から３００Ｈｚの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約５０Ｈｚである。標準のテレフォニーにおいて、下部のコーナー周波数は約３００Ｈｚである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は２,５００Ｈｚである。上部のコーナー周波数のもう一つの非限定的な位置は、４,０００Ｈｚである。

第二信号パス２９０５ｂは、長期パワー計算機２９１２を含む。長期パワー計算機２９１２は、様々な実施形態において、二乗平均平方根（ＲＭＳ）測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機２９１２は、同義語として、長時間パワー計算機２９１２と呼ばれることができる。長期パワー計算機２９１２は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機２９１２の出力２９１３は、除算器２９１７に入力される。制御信号２９１４は、２９１６において、長期パワー計算機２９１２に入力される。制御信号２９１６は、例えば、図２８Ａ、図２８Ｂ、図２８Ｃの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第二チャネル２９０４ｂ上の音響信号のセグメントは、２９１２で生成された長期パワー平均から除外される。

一実施形態において、振幅補正信号２９１８を生成するために、出力２９０９は、出力２９１３によって２９１７において正規化される。一実施形態において、除算器は、２９１７において使用される。２９２２において補正された第二マイク信号を生成するために、振幅補正信号２９１８は、乗算器２９２０において、２９０４ａ上の第二マイク信号の瞬時値に乗算される。

別の実施形態において、または、振幅補正信号２９１８を生成するために、出力２９１３は、出力２９０９によって２９１７において正規化される。一実施形態において、除算器は、２９１７において使用される。２９０２ａに結合される乗算器（図示せず）を使用して、第一マイクチャネル２９０２ａの補正された第一マイク信号を生成するために、振幅補正信号２９１８は、１９０２ａ上の第一マイク信号の瞬時値に乗算される。したがって、様々な実施形態において、第二マイク信号は、第一マイク信号に対して、自動的に平衡が取れ、または、オプションとして、第一マイク信号は、第二マイク信号に対して、自動的に平衡が取れている。

希望オーディオがない場合に、２９０８および２９１２において計算される長期平均パワーは、実行されることに留意されたい。したがって、平均パワーは、通常は、遠距離場において生じる不要オーディオの平均値を表す。様々な実施形態において、非限定的な例として、いくつかの実施形態において、長期パワー計算機の持続時間は、例えば、０.５秒などの約数分の１秒から５秒までおよび５秒から数分の範囲であり、アプリケーションに依存する。

図２９Ｂは、本発明の実施形態に係る、自動平衡を全体的に２９５０で示す。図２９Ｂを参照すると、自動平衡コンポーネント２９５２は、入力として、主音響チャネル２９５４ａおよび参照音響チャネル２９５６ａを受信するように構成される。平衡関数は、第一音響チャネル２９０２ａ（ＭＩＣ１）および第二音響チャネル２９０４ａ（ＭＩＣ２）を使用して図２９Ａと併せて上記で提供された説明と、同様に続行する。

図２９Ｂを参照すると、自動平衡コンポーネント２９５２は、第一信号パス２９０５ａおよび第二信号パス２９０５ｂを有する。第一音響チャネル２９５４ａ（主）は、２９５４ｂにおいて、第一信号パス２９０５ａに結合されている。第二音響チャネル２９５６ａは、２９５６ｂにおいて、第二信号パス２９０５ｂに結合されている。音響信号は、２９５４ｂにおいて、音声帯域フィルタ２９０６に入力される。音声帯域フィルタ２９０６は、第一音響チャネル２９５４ａ内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ２９０６は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、５０から３００Ｈｚの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約５０Ｈｚである。標準のテレフォニーにおいて、下部のコーナー周波数は約３００Ｈｚである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は２,５００Ｈｚである。上部のコーナー周波数のもう一つの非限定的な位置は、４,０００Ｈｚである。

第一信号パス２９０５ａは、長期パワー計算機２９０８を含む。長期パワー計算機２９０８は、様々な実施形態において、二乗平均平方根（ＲＭＳ）測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機２９０８は、同義語として、長時間パワー計算機２９０８と呼ばれることができる。長期パワー計算機２９０８は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機２９０８の出力２９０９ｂは、除算器２９１７に入力される。制御信号２９１４は、２９１６において、長期パワー計算機２９０８に入力される。制御信号２９１６は、例えば、図２８Ａ、図２８Ｂ、図２８Ｃの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第一チャネル２９５４ｂ上の音響信号のセグメントは、２９０８で生成された長期パワー平均から除外される。

音響信号は、２９５６ｂにおいて、第二信号パス２９０５ｂの音声帯域フィルタ２９１０に入力される。音声帯域フィルタ２９１０は、第二音響チャネル２９５６ａ内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ２９１０は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、５０から３００Ｈｚの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約５０Ｈｚである。標準のテレフォニーにおいて、下部のコーナー周波数は約３００Ｈｚである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は２,５００Ｈｚである。上部のコーナー周波数のもう一つの非限定的な位置は、４,０００Ｈｚである。

第二信号パス２９０５ｂは、長期パワー計算機２９１２を含む。長期パワー計算機２９１２は、様々な実施形態において、二乗平均平方根（ＲＭＳ）測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機２９１２は、同義語として、長時間パワー計算機２９１２と呼ばれることができる。長期パワー計算機２９１２は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機２９１２の出力２９１３ｂは、除算器２９１７に入力される。制御信号２９１４は、２９１６において、長期パワー計算機２９１２に入力される。制御信号２９１６は、例えば、図２８Ａ、図２８Ｂ、図２８Ｃの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第二チャネル２９５６ｂ上の音響信号のセグメントは、２９１２で生成された長期パワー平均から除外される。

一実施形態において、振幅補正信号２９１８ｂを生成するために、出力２９０９ｂは、出力２９１３ｂによって２９１７において正規化される。一実施形態において、除算器は、２９１７において使用される。２９２２ｂにおいて補正された第二マイク信号を生成するために、振幅補正信号２９１８ｂは、乗算器２９２０において、２９５６ａ上の第二マイク信号の瞬時値に乗算される。

別の実施形態において、また、振幅補正信号２９１８ｂを生成するために、出力２９１３ｂは、出力２９０９ｂによって２９１７において正規化される。一実施形態において、除算器は、２９１７において使用される。第一マイクチャネル２９５４ａの補正された第一マイク信号を生成するために、２９５４ａに結合される乗算器（図示せず）を使用して、振幅補正信号２９１８ｂは、２９５４ａ上の第一マイク信号の瞬時値に乗算される。したがって、様々な実施形態において、第二マイク信号は、第一マイク信号に対して、自動的に平衡が取れ、または、オプションとして、第一マイク信号は、第二マイク信号に対して、自動的に平衡が取れている。

自動平衡コンポーネント２９０２または２９５２の実施形態は、図２４Ａに示されるような複数のマイクチャネルの自動平衡のために構成される。そのような構成において、複数のチャネル（複数の参照チャネルなど）は、主チャネルに対して、平衡が取れている。または、複数の参照チャネルおよび一つの主チャネルは、図２９Ａまたは図２９Ｂと併せて上記で説明されるように、特定の参照チャネルに対して、平衡が取れている。

図２９Ｃは、本発明の実施形態に係る、フィルタリングを示す。図２９Ｃを参照すると、２９６０ａは、周波数２９６４の関数としてプロットされた振幅２９６２を有する二つのマイク信号２９６６ａおよび２６６８ａを示す。いくつかの実施形態において、マイクは、周波数の関数としての不変の感度を持たない。例えば、マイク応答２９６６ａは、周波数が平坦である広帯域励起によって励起された非平坦の周波数応答を有するマイク出力（応答）を示すことができる。マイク応答２９６６ａは、非平坦な領域２９７４および平坦な領域２９７０を含む。この例において、応答２９６８ａを生成するマイクは、周波数に対して、均一な感度を持っている。したがって、周波数が平坦である広帯域励起に応えて２９６８ａは全体的に平坦である。いくつかの実施形態において、マイクの応答の平坦な領域２９７０の平衡を取ることは、重要である。そのような場合、非平坦な領域２９７４のエネルギーはマイクの自動平衡手順に影響を与えないようにするために、非平坦な領域２９７４が除去される。興味深いのは、二つのマイクの応答の平坦な領域間の差異２９７２である。

２９６０ｂにおいて、フィルタ関数２９７８ａは、周波数２９６４の関数としてプロットされる振幅２９７６で、プロットされて示されている。様々な実施形態において、フィルタ関数は、マイクの応答の非平坦な部分２９７４を消去するように選択される。フィルタ関数２９７８ａは、下部のコーナー周波数２９７８ｂおよび上部のコーナー周波数２９７８ｃに特徴付けられる。２９６０ｂのフィルタ関数は、二つのマイク信号２９６６ａと２９６８ａに適用され、結果が２９６０ｃに示される。

２９６０ｃにおいて、マイク信号２９６６ａおよび２９６８ａのフィルタリングされた表現２９６６cおよび２９６８cが、振幅２９８０および周波数２９６６の関数としてプロットされる。差異２９７２は、二つのフィルタリングされたマイク信号２９６６ｃと２９６８ｃとの間の感度の差異を描く。図２９Ａおよび図２９Ｂと併せて説明される上記のシステムにより、二つのマイク応答間のその差異の平衡が取れている。図２９Ａおよび図２９Ｂに戻って、様々な実施形態において、音声帯域フィルタ２９０６および２９１０は、一つの非限定的な例において、２９６０ｂに示されるフィルタ関数は、マイクチャネル２９０２ｂと２９０４ｂ（図２９Ａ）、または主チャネルと参照チャネル２９５４ｂと２９５６ｂ（図２９Ｂ）のいずれかに適用されることができる。上記の図２９Ａまたは図２９Ｂで説明される自動平衡手順により、二つのマイクチャネル間の差異２９７２は最小化または消去される。

図３０は、本発明の実施形態に係る、自動平衡のためのプロセスを全体的に３０００で示す。図３０を参照すると、プロセスは、ブロック３００２において開始する。ブロック３００４において、第一マイクチャネルの平均長期パワーが計算される。第一マイクチャネルに対して計算された平均長期パワーには、希望オーディオが存在するときに発生したマイク信号のセグメントが含まれない。希望音声活動検出器からの入力は、希望オーディオの関連部分を除外するために使用される。ブロック３００６において、第二マイクチャネルの平均パワーが計算される。第二マイクチャネルに対して計算された平均長期パワーには、希望オーディオが存在するときに発生したマイク信号のセグメントが含まれない。希望音声活動検出器からの入力は、希望オーディオの関連部分を除外するために使用される。ブロック３００８において、ブロック３００４およびブロック３００６において計算された平均値を使用して、振幅補正信号は計算される。

様々な実施形態において、自動平衡コンポーネント２９０３または２９５２のコンポーネントは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、自動平衡コンポーネント２９０３または２９５２は、単一の集積回路ダイに実装される。他の実施形態において、自動平衡コンポーネント２９０３または２９５２は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。

図３１は、本発明の実施形態を使用できる音響信号処理システムを全体的に３１００で示す。ブロック図は、高レベルの概念的な表現であり、さまざまな方法でさまざまな構造により実装されることができる。図３１を参照すると、バスシステム３１０２は、中央処理装置（ＣＰＵ）３１０４、読み取り専用メモリ（ＲＯＭ）３１０６、ランダムアクセスメモリ（ＲＡＭ）３１０８、ストレージ３１１０、ディスプレイ３１２０、オーディオ３１２２、キーボード３１２４、ポインター３１２６、データ収集ユニット（ＤＡＵ）３１２８、および通信３１３０を相互接続する。バスシステム３１０２は、例えば、システムバス、周辺機器相互接続（ＰＣＩ）、アドバンストグラフィックポート（ＡＧＰ）、小型コンピュータシステムインターフェース（ＳＣＳＩ）、米国電気電子技術者協会（ＩＥＥＥ）規格番号１３９４（ＦｉｒｅＷｉｒｅ）、ユニバーサルシリアルバス（ＵＳＢ）、またはカスタムアプリケーション用に設計された専用バスなどの一つまたは複数であってもよい。ＣＰＵ３１０４は、単一、複数、または分散コンピューティングリソース、またはデジタル信号処理（ＤＳＰ）チップであってもよい。ストレージ３１１０は、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ハードディスク（ＨＤ）、光ディスク、テープ、フラッシュ、メモリスティック、ビデオレコーダーなどであってもよい。音響信号処理システム３１００を使用して、複数のマイク（例えば、第一マイク、第二マイクなど）から、または上記の図と併せて説明される主音響チャネルおよび複数の参照音響チャネルから入力される音響信号を受信することができる。音響信号処理システムの実際の実装に応じて、当該音響信号処理システムには、ブロック図中のコンポーネントの一部、全部、それ以上、または再配置が含まれる場合があることに留意されたい。いくつかの実施形態において、システム３１００のあらゆる側面は、ソフトウェアにおいて実行される。いくつかの実施形態において、システム３１００のあらゆる側面は、デジタル信号処理（ＤＳＰ）チップなどの専用ハードウェア、ならびに当業者によって知られ、認識されている専用ハードウェアとソフトウェアとの組み合わせにおいて実行される。

したがって、様々な実施形態において、音響信号データは、３１２９において受信されて、音響信号処理システム３１００によって処理される。そのようなデータは、遠隔地においてさらに処理するために、通信インターフェース３１３０を介して３１３２において送信されることができる。当業者によって認識されているように、イントラネットまたはインターネットなどのネットワークとの接続は、３１３２を介して得られ、それにより、音響信号処理システム３１００は、遠隔地にある他のデータ処理デバイスまたはシステムと通信することができる。

例えば、本発明の実施形態は、デスクトップコンピュータまたはワークステーションとして構成されたコンピュータシステム３１００に実装されることができ、例えば、ＷＩＮＤＯＷＳ（登録商標）ＸＰＨｏｍｅやＷＩＮＤＯＷＳ（登録商標）ＸＰＰｒｏｆｅｓｓｉｏｎａｌ、Ｌｉｎｕｘ（登録商標）、Ｕｎｉｘなどオペレーティングシステムを実行しているＷＩＮＤＯＷＳ（登録商標）互換性のあるコンピュータ、およびＯＳＸなどのオペレーティングシステムを実行しているＡＰＰＬＥＣＯＭＰＵＴＥＲ，Ｉｎｃ．からのコンピュータに実装される。または、そのような実装と併せて、本発明の実施形態は、ブルートゥース（登録商標）通信チャネルと共に使用するために構成されるスピーカー、イヤホン、ビデオモニターなどのデバイスを有するように構成されることができる。さらに他の実施形態において、本発明の実施形態は、モバイルデバイスによって実装されるように構成され、そのモバイルデバイスは、スマートフォン、タブレットコンピュータ、眼鏡などのウェアラブルデバイス、ニアツーアイ（ＮＴＥ）ヘッドセット、眼鏡、ゴーグル、日よけ帽、ヘッドバンド、ヘルメットなどの一般的な構成のヘッドウェアラブルデバイスである。

一つまたは複数の実施形態において、地元の環境からの音を聞くことを容易にするための聴覚補助は、ユーザに提供される。

図３２Ａは、本発明の実施形態に係る、ヘッドウェアラブルデバイス上のマイク配置を全体的に３２００で示す。図３２Ｂは、本発明の実施形態に係る、図３２Ａに対応するヘッドウェアラブルデバイス上のマイク配置の上面図を全体的に３２２０で示す。図３２Ｃは、本発明の実施形態に係る、図３２Ａに対応するヘッドウェアラブルデバイス上のマイク配置の底面図を全体的に３２４０で示す。図３３は、本発明の実施形態に係る、図３２Ａからの、異なる音源に対するヘッドウェアラブルデバイスを、一般に３３００で示す。図３２Ａ乃至図３３を参照すると、ヘッドウェアラブルデバイス３２０１は、三次元空間において使用するための眼鏡の形で示される。三次元空間は、３３０１でのＸ、Ｙ、Ｚ軸で示される（図３３）。三次元空間は、当技術分野で周知のデカルト座標系として示される。ただし、それによって限定を意味するものではない。三次元空間は、別の座標系で示されることができる。他の実施形態において、ヘッドウェアラブルデバイスは、ゴーグルなどの形状である。それによって限定を意味するものではない。本明細書において、「眼鏡」または「眼鏡デバイス」という用語は、ヘッドウェアラブル装置と同義に用いられる。ヘッドウェアラブルデバイス３２０１は、前フレームを有し、前フレームは、通常は、ガラスまたはプラスチック製の一つまたは複数のレンズ、左フレーム３２１４、および右フレーム３２１２を含む。左右のフレームは、当技術分野においてテンプルとも呼ばれる。ヘッドウェアラブルデバイスは、マイク０（３２０２）、マイク１（３２０４）、マイク２（３２０６）、およびマイク３（３２１０）の４つのマイクを有するように示される。一つまたは複数の実施形態において、マイク０（３２０２）は左側フレーム３２１４の下に位置し、マイク１（３２０４）およびマイク２（３２０６）は左側フレーム３２１４の頂上に位置する。マイク３（３２１０）は、右側のフレーム３２１２の頂上に位置する。または、マイク０（３２０２）、マイク１（３２０４）、およびマイク２（３２０６）は右側のフレーム３２１２に位置し、マイク３（３２１０）は左側のフレーム３２１４に位置する。

様々な実施形態において、眼鏡デバイスは、少なくとも一つのサイドフレーム部材に結合されたマイクのアレイを含む。当該マイクのアレイは、少なくとも第一マイクおよび第二マイクを含む。一つまたは複数の実施形態において、第一および第二マイク、例えば３２０２および３２０４は、前フレーム部材に近いサイドフレーム部材３２１４に位置する。３２０９でのＬ２（図３２Ｂ）で示されるように、前フレーム部材から第一および第二マイクまでの距離は、約５mmから３０mmであり、約１５ｍｍであり得る。第一マイク（マイク０（３２０２））はサイドフレーム部材３２１４の底部側に位置し、第二マイク（マイク１（３２０４））はサイド部材３２１４の上面に位置し、サイドフレーム部材３２１４の頂上に直接またはほぼ位置する。別の実施形態において、第三マイク（マイク２（３２０６））は、サイドフレーム部材３２１４に位置し、前フレーム部材からさらに離れている。３２０８でのＬ_１で示されるように、第一および／または第二マイク（３２０２／３２０４）からの第三マイク（マイク２（３２０６））の位置は、約１０ｍｍから２０ｍｍの間であり、約１５ｍｍであり得る。距離Ｌ１が長すぎる場合、第三マイク（マイク２（３２０６））は、サイドフレーム部材に埋め込まれて着用者の耳の近くに位置するスピーカーの近くにあり得る。そのような場合、スピーカーからマイク２（３２０６）へのエコーがある可能性がある。そのようなエコーは、特定の実施の距離Ｌ１を減らすことにより改善される。距離Ｌ１の減少は、マイク２（３２０６）とスピーカー３３５０との間の分離距離を増加し、それによってエコーが減少する。

別の実施形態において、第四マイク（マイク３（３２１０））は、向こう側のフレーム部材３２１２に位置する。マイク３（３２１０）は、前フレーム部材の近くに示されているが、フレーム部材３２１２に沿った他の位置が可能である。マイク１（３２０４）とマイク３（３２１０）との間の距離は、眼鏡フレームの幅によって決まり、その距離は、システムが二つのマイクからの信号レベルの差を検出するのに十分なほど大きさである。マイク１（３２０４）とマイク３（３２１０）の間の距離は定数ではなく、代わりに、通常は、ヘッドウェアラブルデバイスの形状および寸法で定められる。同様に、マイク０（３２０２）とマイク３（３２１０）の間の距離は定数ではなく、代わりに、通常は、ヘッドウェアラブルデバイスの形状および寸法で定められる。

図３２Ｄは、本発明の実施形態に係る、ヘッドウェアラブルデバイス上の別のセットのマイク配置の斜視図を全体的に３２６０で示す。図３２Ｅは、本発明の実施形態に係る、図３２Ｄに対応するヘッドウェアラブルデバイス上のマイク配置の底面図を全体的に３２８０で示す。図３２Ｄを参照すると、マイク０（３２０２）およびマイク１（３２０４）はテンプル３２１２の内面に位置する。マイク２（３２０６）は、右テンプル３２１２の底面に位置し、マイク０（３２０２）／マイク１（３２０４）から上記のようなＬ１に等しい量だけ後退する。マイク０（３２０２）／マイク１（３２０４）と前フレームとの間の距離は、上記のＬ２として示される（図３２Ｂ）。図３２Ｄに戻って、マイク３（３２１０）は、左テンプル３２１０の底部側に位置し、または、マイク２（３２０６）とマイク３（３２１０）との一方または両方は、それぞれのテンプルの上面に位置することもできる。

一つのオプションの実施形態において、図３２D／３２Ｅに示されているマイクの配置を、テンプルに対して逆にすることができる。例えば、マイク０（３２０２）、マイク１（３２０４）、およびマイク２（３２０６）は、左テンプル３２１４の内面に位置し、マイク３（３２１０）は右テンプル３２１２に位置することができる。

本明細書に記載のようなマイク０およびマイク１を使用する配置１、マイク１およびマイク２を使用する配置２、およびマイク１およびマイク３を使用する配置３などのさまざまな使用シナリオのために、上記の四つのマイクは、三つ以上のマイクの組み合わせをサポートする。いくつかの実施形態において、ソフトウェアインターフェイスは、マイクのこれらの組み合わせ間の切り替えおよび配置間のシーケンシングを制御するために、使用される。

様々な実施形態において、眼鏡は、四つを超えるマイクまたは四つ未満のマイクを有する。本明細書に記載されるような一つまたは複数の実施形態を説明するために、四つのマイクが使用され、本発明の実施形態を制限するものではない。マイクの三つの配置を以下に説明し、当該三つの配置は、ヘッドウェアラブルデバイスのユーザが使用する音響信号を受信および処理してユーザの聴覚を支援し、ある場合に例えば音声認識、コマンドおよび制御、および別のユーザによる受信と聞くことによってリモートで使用され、ならびに埋め込まれた音声認識などによってローカルで使用される。以下に説明される構成は、上記の雑音消去システムで使用するためのプライマリおよび参照音響信号を提供するために使用されることができる。

配置１
一つまたは複数の実施形態において、ユーザはヘッドウェアラブルデバイス１０１を着用している間に話している場合に、マイク０およびマイク１は、音響信号を処理するために使用される。配置１において、マイク０およびマイク１から出力される信号は、主音響応答を軸３３０２に沿って下向きに配置するように、ビーム形成される。軸３３０２は、ユーザの口３３１０の公称方向にあるが、それに正確に位置合わせされる必要はない。マイク０およびマイク１は、ユーザの口３３２０までの異なる音響距離を有し、マイク０の音響距離は、マイク１の音響距離よりも小さい。ユーザの口３３１０から発する音響信号３３１２は、マイクペアマイク０およびマイク１に対するユーザ３３１０の方向に対して最大の音響感度で受信される。そのようにして得られた音響信号は、多チャネル雑音消去システムに入力するためのプライマリ信号として使用される。音源３３１０から１８０度それる主応答を有するマイクペアマイク０およびマイク１をビーム形成することにより、主に雑音（主に不要オーディオ）を含む参照信号が得られる。したがって、参照信号は、軸３３０２に沿ってユーザの口３３１０から離れて潜在的な雑音源に向かって見上げる方向で得られ、例えば、３３６０で表される雑音源によって雑音３３６２（不要オーディオ）を発する。そのようにしてユーザの口３３１０から遠ざかって得られた信号は、上記のような多チャネル雑音消去システムに入力するための参照信号として使用される。参照信号に適用されるビーム形成は、ユーザの口３３１０から到着する信号に対する音響感度を最小化し、ユーザの口の方向から離れて生成される雑音に対する感度を最大化する。したがって、マイク０とマイク１との間の信号対雑音比の差は最大化され、それにより、その後の雑音消去の適用を通じて、プライマリ信号からの雑音の低減を提供する。

興味のある信号（希望オーディオ）からの雑音（不要オーディオ）を低減する処理により、マイク０とマイク１との組み合わせを許可し、それにより、雑音の多い環境での通話に対するユーザの声を強化する。それは、雑音の多い環境において使用される場合、システムのコマンドおよび制御性能にも役立つ。雑音の多い環境において、ユーザの声は、背景雑音に埋もれており、通話中に向こう側の聞き手に理解されるのは難しく、または音声エンジンで認識されるのは困難である。マイク０とマイク１の組み合わせは、ビーム形成技術を使用して、背景雑音に対するユーザの音声の信号対雑音比（ＳＮＲ）を改善し（また、マイク０とマイク１との間の信号対雑音比の差を大きくし）、それによって雑音消去のための音声活動検出精度が向上する。この組み合わせは、９０-ｄＢ以上の背景雑音振幅を持つ非常に雑音の多い環境においても有用な性能向上を提供する。上記のように、マイク０とマイク１は、全方向性マイクを使用して実装できる。

配置２
一つまたは複数の実施形態において、ユーザは３３３０などのリモート音源を聴いている時にヘッドウェアラブルデバイス３２０１を着用している場合、マイク１およびマイク２は、音響信号を処理するために使用される。配置２において、マイク１およびマイク２から出力される信号は、主音響応答を軸３３０４に沿って前方に配置するように、ビーム形成され、それにより、マイクペアマイク１とマイク２に対する音源３３３０の方向に向けられる最大音響感度を利用して、３３３０で示される音源から発せられる音響信号３３３２を受信する。そのようにして得られる信号は、多チャネル雑音消去システムに入力するためのプライマリ信号として使用される。主に雑音を含む参照信号は、ビーム形成の有無にかかわらずマイク２から取得できる。全方向性マイクをマイク１およびマイク２に使用する場合、マイク１およびマイク２をビーム形成してプライマリ信号を取得し、同時に、参照信号にマイク２のみを使用し、マイク１とのビーム形成がなく、ソース３３３０に対するマイク２のみの感度と比較して、ソース３３３０の方向のビーム形成されたペアの感度を約６ｄＢ増加させる。そのような処理により、マイク１とマイク２との間に、雑音消去性能に有利になる大きな信号対雑音比の差が生じる。軸３３０４は、ユーザの前方の公称方向を指しているが、それに正確に位置合わせされる必要はない。マイク１およびマイク２は、３３３０などのユーザの前方にある音源までの音響距離が異なる。音源３３３０とマイク１との間の音響距離は、マイク２と音源３３３０との間の音響距離よりも小さい。したがって、マイク１およびマイク２は、ヘッドウェアラブルデバイスの前に位置する音源に対して異なる音響距離を提供するために、ヘッドウェアラブルデバイス上に柔軟に配置されることができ、同時に必ずしも音源３３３０を直接指す必要はない。

オプションの実施形態において、音源３３３０から１８０度それる主応答を有するマイクペアマイク１およびマイク２のビーム形成は、参照信号（ほとんどの場合、不要音声）を提供するために使用されることができる。最小量の希望オーディオが組み合わされた参照信号を取得することが望ましいことに留意されたい。両方の方法で参照信号を取得して比較し、最高のシステム性能に基づいて選択することができる。したがって、いずれかの方法によってそのように得られる参照信号は、プライマリ信号の信号対雑音比よりも小さい信号対雑音比を有する。したがって、例えば３３３０／３３３２などのヘッドウェアラブルデバイス３２０１の前方の公称方向から発生する興味のある信号に関するマイク１／マイク２対の信号対雑音比の差は、得られる。ソース３３３０から離れて、上記のいずれかの方法によってそのように得られる信号は、多チャネル雑音消去システムに入力するための参照信号として使用される。参照信号に使用されるビーム形成は、ソース３３３０などのユーザの前から到着する信号（希望オーディオ）に最小の音響感度を提供し、ソース３３３０以外の方向から生成される雑音に対する感度を最大にするように選択される。したがって、マイク１とマイク２との間の信号対雑音比の差は最大化され、それにより、その後の雑音消去の適用を通じて、プライマリ信号からの雑音の低減を提供する。

次に、雑音消去システムの出力がスピーカー３３５０に提供されて、ユーザが音源３３３０を聞くのを支援する。スピーカー３３５０は、眼鏡３２０１の一方または両方のサイドフレームに組み込まれている。したがって、様々な実施形態において、マイク１、マイク２の組み合わせは、例えば、テレビを見たり、眼鏡３２０２を着用しているユーザの前の人と会話したりするようないくつかの活動中に、ユーザの聴覚を強化するために使用される。聴覚障害のある人は、特に騒がしい環境において、音声信号をはっきりと理解できない。組み合わせ２は、ビーム形成技術を適用して、背景雑音を空間的に除去することにより、ユーザが興味のあるオーディオ信号に集中できるようにする。

配置３
一つまたは複数の実施形態において、ユーザは３３２０または３３４０などのどちらか一方から到着するリモート音源を聞いているか、またはそれと対話している間に、ヘッドウェアラブルデバイス３２０１を着用している場合、マイク１およびマイク３は、音響信号を処理するために使用される。または、マイク３およびマイク２は、配置３の信号を処理するために使用され、またはマイク３およびマイク０を使用する。配置３について以下の説明は、マイク３とマイク１に関して提供されており、それによって暗示される制限はない。配置３において、マイク１およびマイク３から出力される音響エネルギーを比較して、ユーザのどちら側から最も大きな音が聞こえているかを判断する。例えば、テーブルの周りに座っている人々との会議において、様々な人々が時々話して、眼鏡３２０１を着用しているユーザに対して異なる到着方向を生成するので、そのような情報は有用である。配置３において、選択される一対のマイクから出力された信号は、軸３３０６に沿って主音響応答を配置するように処理される。軸３３０６は、音源の公称方向にあるが、それに正確に位置合わせされる必要はない。選択されるマイクのペア、例えば、マイク３とマイク０、マイク３とマイク１、またはマイク３とマイク２のいずれかは、音源までの異なる音響距離を有する。

一つの動作方法に従うと、プライマリマイクは、最大の音響エネルギー出力を有するマイク１、マイク３ペアからのマイクである。次に、マイク１、マイク３ペア中のもう一方のマイクが、参照マイクとして指定される。どのマイクが最大の音響エネルギーを出力しているかの決定後に、交互にプライマリ信号および参照信号を処理することができる。例えば、一つまたは複数の実施形態において、ビーム形成は、マイク１およびマイク３から出力される信号に適用される。一例において、ビーム形成プロセスの主応答軸は最大の音響エネルギーが測定されている側（方向）に向けられたときに、プライマリ信号が取得される。その例において、ビーム形成プロセスの主応答軸をプライマリの応答軸とは反対側に向けることにより、参照信号は、取得される。

そのプロセスの一つの変化は、ビーム形成を使用してプライマリ信号を取得することであり、すなわち、マイク１とマイク３の出力をビーム形成し（マイク１とマイク３とのいずれかで最大音響エネルギーが測定される側に導かれ、同時に低い音響エネルギーを有するマイクの非ビーム形成の出力を参照信号に使用する。

そのプロセスのさらに別の変化は、ビーム形成を使用して参照信号を取得することであり、すなわち、マイク１とマイク３の出力をビーム形成し（マイク１とマイク３とのいずれかで最小音響エネルギーが測定される側に導かれ、同時に最大音響エネルギーを有するマイクの非ビーム形成の出力をプライマリ信号に使用する。

一つの非限定的な例において、図３３を参照すると、音源３３２０が音源３３４０よりも大きい場合、仮想的な使用シナリオが存在する。一つまたは複数の実施形態において、システムは、プライマリ信号を受信する側としてマイク３を選択するように設計される。例えば、主応答軸３３０６を音源３３２０の方向に配置しながら、マイク１およびマイク３をビーム形成することなどの上記の方法のいずれかにより、プライマリ信号の受信は達成されることができる。または、マイク３からの出力を、ビーム形成なしでプライマリ信号として使用することもできる。主応答軸３３０６を音源３３２０の方向と反対の方向に配置しながら、マイク１およびマイク３をビーム形成することにより、参照信号は取得されることができる。または、マイク１からの出力を、ビーム形成なしで参照信号として使用することもできる。

いくつかの実施形態において、システムは、例えば、プライマリ信号または参照信号を選択するためのビーム形成、およびプライマリ信号または参照信号のいずれかにマイクの非ビーム形成出力を使用することなどの上記の方法を介してシーケンスするように、実装される。各方法の性能メトリック、例えば、プライマリ信号と参照信号との信号対雑音比の差は、計算され、信号対雑音比の差が最も大きい方法は、マイク１およびマイク３からの信号を処理するために使用される方法である。当該方法によるシーケンスは、信号処理の開始時に実行され、または、性能メトリックを監視するために継続的に実行され、そして性能メトリックの進化に基づいて、当該方法を瞬時に更新することができる。したがって、配置３の実装中には、さまざまな方法を使用できる。次に、雑音消去システムの出力が一つまたは複数のスピーカー３３５０に提供されて、ユーザが音源３３２０を聞くのを支援する。スピーカー３３５０は、眼鏡３２０１の一方または両方のサイドフレーム（テンプル）に組み込まれている。

音源３３４０が、マイク３で受信された音響エネルギーレベルと比較して、マイク１でより大きな音響エネルギー３３４２を生成した場合、同様のプロセスが実施される。そのような場合、システムは、ビーム形成プロセスを使用して、マイクペアの主応答軸を音源３３４０の方向に導くことができる。

マイク１とマイク３のペアは、マイク１およびマイク３から拾った音響エネルギーを比較することにより、会話中に、ユーザがユーザの周り、特に左側および右側から、より強い声を拾うのに役立つ。グループ会議またはチャット中に、音声信号はさまざまな方向（右側または左側）からユーザに送信される可能性がある。配置３は、二つのマイクのそれぞれの音声信号エネルギーを比較して、音声信号がどちら側から来ているかを判断して、ユーザが会話中に話しているアクティブな人に集中できるようにする。次に、雑音消去システムの出力がスピーカー３３５０に提供されて、ユーザが音源３３２０または３３４０を聞くのを支援する。スピーカー３３５０は、眼鏡３２０１の一方または両方のサイドフレームに組み込まれている。

配置の切り替えおよび走査
様々な実施形態において、システムは、二つ、三つ、またはそれ以上の配置の間で切り替えるように構成されることができる。配置の走査、またはヘッドウェアラブルデバイスに組み込まれたマイクのアレイから形成されたさまざまなビーム（または選択されるマイクペア）の走査は、ヘッドウェアラブルデバイスに組み込まれた信号処理（ハードウェア、またはハードウェアとソフトウェアとの組み合わせ）により、自動的に実行できる。したがって、いくつかの実施形態において、一つのシステムが実装され、当該システムは、ユーザに対していくつかの方向を走査して、ビームを形成し（または選択されるマイクペアを処理し）、ローカルまたは向こう側でのユーザに提示する前に、ビーム形成、雑音消去、および／または音量調整のうちの一つまたは複数によって受信および改善されたオーディオ信号を利用してユーザに支援を提供する。

例えば、テレビを見ながら電話で話している間に、システムは、配置１（電話）と配置２（テレビ視聴）との間で切り替えるように構成されることができる。配置１（電話機能）に切り替えるためのメトリックは、マイク０での音響エネルギーの変化の検出に関連付けることができる。

配置の切り替えの別の例は、会話中に配置３から配置２に切り替えることである。例えば、会議中に、眼鏡３２０１を着用しているユーザの右側に座っている人が話し始める。このような形状は、音響エネルギー３３２２を出力するソース３３２０およびマイク３の出力によって表され、マイク３の出力はマイク１からの出力よりも大きい。この時点で、システムは配置３で動作する。ユーザは耳を傾け、話者が右側にいることに気付いたときに、ユーザは頭を右に向けて話者に向かわせる可能性がある。話者３３２０に向かって、マイク１とマイク３で受信される音響エネルギーの差は減少し、マイク１での音響エネルギーは増加した。そのような状況において、システムは上記のように配置２に切り替わる。

一つの動作モードにおいて、ユーザは、会議で話者に面するために頭を左右に回転させる必要はない。話しているアクティブな人の位置の変化につれて、例えば、位置３３２０（眼鏡３２０１に対して右側）から位置３３４０（眼鏡３２０１に対して左側）、位置３３３０（眼鏡３２０１の前）、位置３３８０（眼鏡３２０１の後ろ）に変化するにつれて、システムは、マイクのペアおよび方向を切り替えて、話者の方向にプライマリマイク（単独またはビーム形成された出力）を選択し、雑音（主に不要オーディオ）の方向に参照マイク（単独またはビーム形成された出力）を選択する。

したがって、本発明の実施形態は、配置１、２、および３（またはその任意のサブセット）を切り替えるシステムによって実装され、配置１、２、および３（またはその任意のサブセット）の切り替えは、機械的スイッチング、オーディオスイッチングによって動作することができ、または一つまたは複数の性能メトリックの分析を通じて動作可能な知能設計によって動作することができ、その性能メトリックは、例えば、これに限定するものではないが、最大信号対雑音比の差、マイクまたはビーム形成された出力からの最大音響エネルギー出力などを含む。

三つまたは四つのマイクを使用する三つの配置は、上記の図と併せて説明された。四つ以上のマイクは、ヘッドウェアラブルデバイスと共に使用され、それにより、音響信号を処理するための一般的なｎの数の方向（軸）および潜在的な配置を提供できることに留意されたい。同様に、ビーム形成は二つ以上のマイクを利用して実行されることができる。

図３４は、本発明の実施形態に係る、ヘッドウェアラブルデバイスで構成されるマイクのアレイからの音響信号を処理することを全体的に３４００で示す。図３４を参照すると、プロセスは、ブロック３４０２において開始する。ブロック３４０４において、ヘッドウェアラブルデバイスに取り付けられたマイクのアレイの一部であるマイクは、走査される。走査は、マイクからの音響信号の信号振幅レベルおよび場合によっては他のパラメータの分析を含む。ブロック３４０６において、配置は、ブロック３４０４からの走査に基づいて選択される。いくつかの実施形態において、選択ロジックは、所与のマイクのアレイを利用して得られる配置から選択するために使用される。ブロック３４０８において、ブロック３４０６で選択された配置からの音響信号は、音響信号を改善するために処理される。音響信号を改善することは、音響信号を雑音消去ブロックに入力して、プライマリ音響チャネルから下側のオーディオを除去することを含むことができる。音響信号を改善することは、音響信号を増幅させ、ヘッドウェアラブルデバイスに組み込まれたスピーカーで、増幅された音響信号を、ヘッドウェアラブルデバイスのユーザに呈することを含むことができる。当該プロセスはブロック３４１２において終了する。

本発明の異なる実施形態を議論し理解する目的で、技術およびアプローチを説明するために、当業者は様々な用語を使用することを理解されたい。さらに、説明する際、説明のために、多数の特定の詳細が示され、それにより、本発明の完全な理解を提供する。しかし、当業者が、これらの特定の詳細がなくても本発明を実施できることは明らかである。いくつかの実施形態において、あいまいにするのを避けるために、よく知られた構造およびデバイスを詳細ではなくブロック図の形で示している。それらの実施形態は、当業者が本発明を実施できるように十分詳細に説明されており、他の実施形態を利用して本発明の範囲を逸脱しない限り、論理的な、機械的な、電気的な、およびその他の変更を行うことができることが理解されたい。

説明のいくつかの部分は、アルゴリズム、およびコンピュータメモリ内のデータビットなどに対する運用の記号表現で提示され得る。それらのアルゴリズムの説明および表現は、データ処理技術の当業者が作業の内容を他の当業者に最も効果的に伝えるために使用する手段である。そこでのアルゴリズムは、一般的に、望ましい結果につながる行為のセルフコンシステントのシーケンスであると考えられている。それらの行為は、物理量の物理的な操作を必要とする行為である。通常は、必ずしもそうではないが、それらの量は、保存、転送、結合、比較、その他の操作が可能な電気信号または磁気信号の形を取る。主に一般的な使用上の理由で、それらの信号をビット、値、要素、記号、文字、用語、数字、波形、データ、時系列などと呼ぶことは、いつも便利であることが証明された。

しかし、それらおよび類似の用語はすべて、適切な物理量に関連付けられており、それらの量に適用される便利なラベルにすぎないことに留意されたい。別途説明されない限り、議論から明らかなように、説明全体にわたって「処理」または「コンピューティング」または「計算」または「決定」または「表示」などの用語を使用する議論は、コンピュータシステムまたは類似の電子コンピューティングデバイスの動作およびプロセスを参照することができ、そのコンピュータシステムまたは類似の電子コンピューティングデバイスは、コンピュータシステムのレジスタおよびメモリ内の物理（電子）量として表されるデータを操作して、コンピュータシステムのメモリはまた、レジスタまたは他のそのような情報記憶装置、送信装置、または表示装置内の物理（電子）量として表される他のデータに変換する。

そこでの動作を実行する装置は、本発明を実施することができる。この装置は、必要な目的のために特別に構築されてもよいし、またはコンピュータに記憶されているコンピュータプログラムにより選択的に作動または再構成された汎用コンピュータを含んでもよい。コンピュータプログラムは、コンピュータ可読記憶媒体に記憶されることができる。当該コンピュータ可読記憶媒体は、例えば、これに限定するものではないが、フロッピーディスク（登録商標）、ハードディスク、光ディスク、コンパクトディスク読み取り専用メモリ（ＣＤ-ＲＯＭｓ）、磁気ディスク、読み取り専用メモリ（ＲＯＭｓ）、ランダムアクセスメモリ（ＲＡＭｓ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、電気的にプログラム可能な読み取り専用メモリ（ＥＰＲＯＭｓ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭｓ）、フラッシュメモリ、磁気または光学カード、ＲＡＩＤなどを含む任意のタイプのディスク、またはコンピュータのローカルまたはコンピュータのリモートのいずれかで電子命令の格納に適用する任意のタイプのメディアである。

本明細書に提示されるアルゴリズムおよび表示は、特定のコンピュータまたは他の装置に本質的に関連するものではない。本明細書の教示に従って、様々な汎用システムは、プログラムと共に使用されることができ、または必要な方法を実行するためのより特殊な装置を構築することが便利であることが証明された。例えば、本発明による方法はいずれも、汎用プロセッサをプログラミングすることにより得られるハードウェア回路、またはハードウェアおよびソフトウェアの任意の組み合わせにより、実装されることができる。当業者は、本発明が、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電化製品、デジタル信号処理(ＤＳＰ）デバイス、セットトップボックス、ネットワークＰＣｓ、ミニコンピュータ、メインフレームコンピュータなどの説明されたもの以外の他のコンピュータシステム構成により実施できることをすぐに理解する。本発明は、分散コンピューティング環境で実施されることができ、その中のタスクが通信ネットワークを介してリンクされたリモート処理デバイスにより実行される。他の例において、上記の図１乃至図３１に記載された本発明の実施形態は、システムオンチップ（ｓｙｓｔｅｍｏｎａｃｈｉｐ；ＳＯＣ）、ブルートゥースチップ、デジタル信号処理（ＤＳＰ）チップ、集積回路（ＩＣｓ）を備えるコーデック、またはハードウェアおよびソフトウェアの他の実施を使用して実施されることができる。

本発明の方法は、コンピュータソフトウェアを使用して実装されることができる。認知された標準に準拠するプログラミング言語で書く場合に、さまざまなハードウェアプラットフォームで実行したり、さまざまなオペレーティングシステムとインターフェースしたりするように、それらの方法を実装するように設計される命令シーケンスをコンパイルすることができる。さらに、本発明は、特定のプログラミング言語を参照して説明されていない。本明細書に記載される実施形態の教示を実施するために、様々なプログラミング言語を使用することができることを理解されたい。さらに、当技術分野において、ある形式または他の形式（例えば、プログラム、手順、アプリケーション、ドライバーなど）のソフトウェアは、一般的に、あるアクションを実行すること、またはある結果を引き起こすことと言われる。そのような表現は、コンピュータがソフトウェアを実行することにより、コンピュータのプロセッサがアクションを実行したり、結果を生成したりすることについての単なる短い表現である。

当業者は、さまざまな用語および技術を使用して、通信、プロトコル、アプリケーション、実装、メカニズムなどを説明することを理解されたい。そのような技術の一つは、アルゴリズムまたは数式により、技法の実装を説明することである。すなわち、技術は、例えば、コンピュータのコードを実行することとして実装され得るが、その技術の表現は、式、アルゴリズム、または数式として、より適切かつ簡潔に伝えられて伝達され得る。したがって、当業者は、Ａ＋Ｂ＝Ｃを加算関数ブロックと表わすことのハードウェアおよび／またはソフトウェアにおける実装が、二つの入力（ＡおよびＢ）を取り、総和出力（Ｃ）を生成することであることを認識できる。したがって、説明としての式、アルゴリズム、数式、フローダイヤグラム、またはフローチャートの使用は、少なくともハードウェアおよび／またはソフトウェア（例えば、コンピュータシステム、本発明の技術が当該コンピュータシステムにおいて、実施形態として実施され得る）において、物理的な表現を有するものとして理解されるべきである。

非一時的な機械可読媒体は、機械（例えば、コンピュータ）により読み取り可能な形式で情報（プログラムコードなど）を記憶するための任意のメカニズムを含むことが理解される。例えば、コンピュータ可読媒体と同義で呼ばれる機械可読媒体は、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイスを含み、伝播信号（例えば、搬送波、赤外線信号、デジタル信号など）を介する電気的、光学的、音響的、または他の形態の情報伝達を除く。

本説明で使用される「一実施形態」または「実施形態」または類似の語句は、説明されている特徴が本発明の少なくとも一つの実施形態に含まれることを意味する。本説明における「一実施形態」への言及は、必ずしも同じ実施形態を指すとは限らない。しかし、それらの実施形態は相互に排他的ではない。また、「一実施形態」は、本発明の実施形態が単一であることを意味するものではない。例えば、「一実施形態」に記載されている特徴、構成、行為などは、他の実施形態にも含まれ得る。したがって、本発明は、本明細書に記載されている実施形態の様々な組み合わせおよび／または統合を含むことができる。

したがって、本発明の実施形態は、希望オーディオを処理および配信する音響システムから、不要オーディオを低減または排除するために使用されることができる。システムのいくつかの非限定的な例は、これに限定するものではないが、企業コールセンター、産業用および一般的なモバイル用途に適したテレフォニー用のオーディオヘッドセット、眼鏡のフレーム上またはフレーム内に取り付けられた入力ライン（ワイヤー、ケーブル、またはその他のコネクター）を備えるインライン「イヤホン」ヘッドセット、ニアトゥアイ（ｎｅａｒ－ｔｏ－ｅｙｅ；ＮＴＥ）ヘッドセットディスプレイまたはヘッドセットコンピューティングデバイスなどの短いブームヘッドセット中の使用、産業、軍事、航空アプリケーションなどの非常に雑音の多い環境向けの長いブームヘッドセット中の使用、ならびに構造的なコストをかけずに劇場やシンフォニーホールタイプの高品質の音響を提供するために使用できるグースネックデスクトップスタイルのマイク中の使用である。本発明の他の実施形態は、一般的な構成のヘッドウェアラブルデバイスに容易に実装され、当該一般的な構成のヘッドウェアラブルデバイスは、例えば、これに限定するものではないが、眼鏡、ゴーグル、日よけ帽、ヘッドバンド、ヘルメットなどを含む。

本発明をいくつかの実施形態において説明してきたが、当業者は、本発明が説明した実施形態に限定されず、添付の特許請求の範囲の精神および範囲内で修正および変更して実施できることを理解できる。したがって、当該説明は、限定ではなく例示と見なされるべきである。

Claims

ユーザの頭部に装着される装置であって、
ヘッドウェアラブルデバイスと、
複数の少なくとも二つの非平行軸に沿って配置されている少なくとも三つのマイクを有するアレイと、
前記複数の非平行軸から選択される軸を識別し、前記選択される軸を形成するアレイから二つのマイクを識別するように構成される選択ロジックと、
前記二つのマイクからの信号を入力として受信し、主マイクチャネルおよび参照マイクチャネルを出力するように構成されるビームフォーマと、を含む、ことを特徴とする装置。
前記選択ロジックは、メトリックを使用して前記選択される軸を識別する、ことを特徴とする請求項１に記載の装置。
前記メトリックは、最大音圧レベルを受信するマイクを含む、ことを特徴とする請求項２に記載の装置。
前記メトリックは、最小音圧レベルを受信するマイクを含む、ことを特徴とする請求項３に記載の装置。
前記選択ロジックは、前記メトリックを監視し、前記メトリックの新しい値に基づいて前記複数の非平行軸から新しい選択される軸を選択するように構成される、ことを特徴とする請求項２に記載の装置。
前記メトリックは、前記二つのマイクの最大信号対雑音比の差である、ことを特徴とする請求項２に記載の装置。
スイッチをさらに含み、
前記選択される軸は、前記スイッチの状態に基づいて選択される、ことを特徴とする請求項１に記載の装置。
前記主マイクチャネル及び前記参照マイクチャネルは、二段階雑音消去ブロックに入力される、ことを特徴とする請求項１に記載の装置。
スピーカーをさらに含み、
前記スピーカーは、前記ヘッドウェアラブルデバイスに結合され、ユーザが聞ける信号を提供するように構成される、ことを特徴とする請求項１に記載の装置。
前記選択される軸は前記ユーザの口を指していない場合、前記主マイクチャネル及び前記参照マイクチャネルは、前記スピーカーに入力される信号を生成するために用いられる、ことを特徴とする請求項９に記載の装置。
前記アレイの第一マイク、第二マイク、および第三マイクは、前記ヘッドウェアラブルデバイスの第一テンプルに位置する、ことを特徴とする請求項１に記載の装置。
前記第一マイクおよび前記第二マイクは、前記第一テンプルの内面に位置する、ことを特徴とする請求項１１に記載の装置。
前記アレイは、第四マイクをさらに含み、
前記第四マイクは、前記ヘッドウェアラブルデバイスの第二テンプルに位置し、前記第一マイクおよび前記第四マイクは第三軸を形成し、
前記第二マイクおよび前記第四マイクは第四軸を形成し、前記第三軸は前記第四軸とは異なり、
前記選択ロジックは、少なくとも第一軸、第二軸、および前記第三軸のいずれかからアクティブな方向を選択する、ことを特徴とする請求項１１に記載の装置。
ユーザの頭部に装着される装置であって、
ヘッドウェアラブルデバイスと、スピーカーと、選択ロジックと、ビームフォーマと、を含み、
前記ヘッドウェアラブルデバイスは、三つのマイクを有するアレイをさらに含み、
前記アレイは前記ヘッドウェアラブルデバイスに結合され、前記アレイの第一マイクおよび第二マイクは第一軸を定義し、前記第二マイクおよび第三マイクは第二軸を定義し、前記第一軸と前記第二軸は、二つの非平行軸であり、
前記スピーカーは、前記ヘッドウェアラブルデバイスに結合され、ユーザが聞ける信号を提供するように構成され、
前記選択ロジックは、前記二つの非平行軸から選択される軸を識別し、前記選択される軸を形成するアレイから二つのマイクを識別するように構成され、
前記ビームフォーマは、前記二つのマイクからの信号を入力として受信し、主マイクチャネルおよび参照マイクチャネルを出力するように構成され、
前記選択ロジックは、前記第一軸および前記第二軸からアクティブな方向を選択し、
前記アクティブな方向は前記第一軸である場合、
ａ、前記第一マイクおよび前記第二マイクからの出力は、前記ヘッドウェアラブルデバイスによる送信のために、処理され、
前記アクティブな方向は前記第二軸である場合、
ｂ、前記第二マイクおよび前記第三マイクからの出力は、前記スピーカーへの入力として使用されるために、処理される、ことを特徴とする装置。
前記第一マイク、前記第二マイク、および前記第三マイクは、前記ヘッドウェアラブルデバイスの第一テンプルに位置する、ことを特徴とする請求項１４に記載の装置。
前記第一マイクおよび前記第二マイクは、前記第一テンプルの内面に位置し、前記第三マイクは、前記第一テンプルの底面に位置する、ことを特徴とする請求項１５に記載の装置。
前記アレイは、第四マイクをさらに含み、
前記第四マイクは、前記ヘッドウェアラブルデバイスの第二テンプルに位置し、前記第一マイクおよび前記第四マイクは第三軸を形成し、
前記第二マイクおよび前記第四マイクは第四軸を形成し、前記第三軸は前記第四軸とは異なり、
前記選択ロジックは、少なくとも第一軸、第二軸、および前記第三軸のいずれかからアクティブな方向を選択する、ことを特徴とする請求項１５に記載の装置。
ユーザの頭部に装着されるデバイスで受信される音響信号を選択する方法であって、
少なくとも三つのマイクを有するアレイからの音響信号を比較するステップと、
前記アレイから、第一マイクおよび第二マイクを含む第一マイクペアを選択するステップと、
前記第一マイクペアから、プライマリマイク信号を形成するステップと、
前記第一マイクペアから、参照マイク信号を形成するステップと、を含み、
前記少なくとも三つのマイクの位置は、三つの非平行軸を画定し、
前記プライマリマイク信号および前記参照マイク信号は、前記プライマリマイク信号からのノイズを低減するために、雑音消去ブロックに入力される、ことを特徴とする方法。
前記比較は、前記アレイから少なくとも三つのマイクペアを形成し、潜在的なプライマリマイクおよび潜在的な参照マイクは、各マイクペアから識別され、信号対雑音比の差は、各マイクペアに対して計算され、前記第一マイクペアは、最大ＳＮＲの差を有するマイクペアである、ことを特徴とする請求項１８に記載の方法。
前記プライマリマイク信号の形成は、前記第一マイクペアをビーム形成することによって成し遂げられ、前記参照マイク信号の形成は、前記第一マイクペアをビーム形成しないで成し遂げられる、ことを特徴とする請求項１８に記載の方法。
前記プライマリマイク信号の形成は、前記第一マイクペアをビーム形成しないで成し遂げられ、前記参照マイク信号の形成は、前記第一マイクペアをビーム形成することによって成し遂げられる、ことを特徴とする請求項１８に記載の方法。
音響信号の比較中に、ビーム形成はマイクペアに対して行われる、ことを特徴とする請求項１９に記載の方法。
ユーザの頭部に装着される装置であって、
前記ユーザの頭部に装着されるように構成されるヘッドウェアラブルデバイスと、
音源から第一音響信号を受信するために、前記ヘッドウェアラブルデバイスに結合される第一マイクと、
前記音源から第二音響信号を受信するために、前記ヘッドウェアラブルデバイスに結合される第二マイクと、
ビームフォーマと、を含み、
前記ビームフォーマは、
前記第一音響信号を受信するように構成される第一入力と、
前記第二音響信号を受信するように構成される第二入力と、
主信号出力と、参照信号出力と、をさらに含み、
前記ビームフォーマは、前記第一音響信号および前記第二音響信号から主信号を形成するように構成され、前記主信号は、主応答軸を第一方向に導くことによって形成され、前記主信号は、前記主信号出力から出力され、
前記ビームフォーマは、前記第一音響信号および前記第二音響信号から参照信号を形成するように構成され、前記参照信号は、参照応答軸を第二方向に導くことによって形成され、前記第一方向は前記第二方向とは異なり、前記参照信号は、前記参照信号出力から出力され、
前記ヘッドウェアラブルデバイスが前記ユーザの頭部にある場合、前記第一マイクと前記第二マイクとの間に形成される第一軸は、前記ユーザの口を指し、前記第一マイクと前記第二マイクとの間に形成される第二軸は、前記ユーザの前方を指し、前記第一マイクと前記第二マイクとの間に形成される第三軸は、前記ユーザの側を指し、
選択ロジックをさらに含み、
前記選択ロジックは、所定の基準に基づいて、前記第一軸、前記第二軸、および前記第三軸のうちの一つから前記第一方向を選択するように構成される、ことを特徴とする装置。
前記主信号は、主チャネルとして二段階雑音消去ユニットに入力され、前記参照信号は、参照チャネルとして前記二段階雑音消去ユニットに入力される、ことを特徴とする請求項２３に記載の装置。
ユーザの頭部に装着される装置であって、
前記ユーザの頭部に装着されるように構成されるヘッドウェアラブルデバイスと、
音源から第一音響信号を受信するために、前記ヘッドウェアラブルデバイスの第一テンプルに結合され、前記音源から第一距離にある第一マイクと、
前記音源から第二音響信号を受信するために、前記ヘッドウェアラブルデバイスの第一テンプルに結合され、前記音源から第二距離にある第二マイクと、
ビームフォーマと、を含み、
前記ビームフォーマは、
前記第一音響信号を受信するように構成される第一入力と、
前記第二音響信号を受信するように構成される第二入力と、
主信号出力と、参照信号と、をさらに含み、
前記ビームフォーマは、前記第一音響信号および前記第二音響信号から主信号を形成するように構成され、前記主信号は、主応答軸を第一方向に導くことによって形成され、前記主信号は、前記主信号出力から出力され、
前記第二音響信号は前記参照信号に用いられ、前記第二距離は前記第一距離よりも大きく、
前記ヘッドウェアラブルデバイスが前記ユーザの頭部にある場合、前記第一マイクと前記第二マイクとの間に形成される第一軸は、前記ユーザの口を指し、前記第一マイクと前記第二マイクとの間に形成される第二軸は、前記ユーザの前方を指し、前記第一マイクと前記第二マイクとの間に形成される第三軸は、前記ユーザの側を指し、
選択ロジックをさらに含み、
前記選択ロジックは、所定の基準に基づいて、前記第一軸、前記第二軸、および前記第三軸のうちの一つから前記第一方向を選択するように構成される、ことを特徴とする装置。