本発明の実施形態の以下の詳細な説明において、添付の図面が参照され、これらの添付の図面において、同様の参照は同様の要素を示し、本発明を実施することができる特定の実施形態は、例として示されている。これらの実施形態は、当業者が本発明を実施できるように十分詳細に説明されている。他の例において、この説明の理解を曖昧にしないために、周知の回路、構造、および技術は詳細には示されていない。したがって、以下の詳細な説明は、限定的な意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によりのみ限定される。
ヘッドウェアラブルデバイス内の希望オーディオおよび不要オーディオを含む音響信号の検出および処理のための装置および方法が説明されている。一つまたは複数の実施形態において、雑音消去構造は、多チャネル雑音消去および単一チャネル雑音消去を組み合わせて、不要オーディオから希望オーディオを抽出する。一つまたは複数の実施形態において、多チャネル音響信号圧縮が、希望音声活動検出のために使用される。一つまたは複数の実施形態において、音響チャネルは自動的に平衡が取れている。一つまたは複数の実施形態において、システムは、音響信号を抽出するために、可能なマイクのアレイからマイクのサブセットを自動的に選択する。一つまたは複数の実施形態において、地元の環境からの音を聞くことを容易にするための聴覚補助は、ユーザに提供される。
図1は、本発明の実施形態に係る、ヘッドウェアラブルデバイス上のマイク配置のための一般的なプロセスを100で示す。図1を参照すると、プロセスは、ブロック102において開始する。ブロック104において、「主」または「プライマリ」マイクチャネルは、一つまたは複数のマイクを使用して、ヘッドウェアラブルデバイス上に作られる。主マイクは、希望オーディオの受信を最適化するように配置され、それによってSNRMとして示される主マイクに関連付けられる第一信号対雑音比が向上する。ブロック106において、参照マイクチャネルは、一つまたは複数のマイクを使用して、ヘッドウェアラブルデバイス上に作られる。参照マイクは、ヘッドウェアラブルデバイス上に配置され、ユーザからの希望オーディオの検出に関してより低い信号対雑音比を提供し、それにより、SNRRとして示される第二信号対雑音比をもたらす。したがって、ブロック108において、信号対雑音比の差は、ヘッドウェアラブルデバイス上のマイクの配置形状によって実現され、それにより、第一信号対雑音比SNRMは、第二信号対雑音比SNRRよりも大きくなる。
ブロック110において、信号対雑音比の差は、主マイクチャネルおよび参照マイクチャネルに対して異なる応答パターン(指向性パターン)を作ることにより、ビーム形成によって達成される。さまざまな指向性パターンを利用して信号対雑音比の差を生み出す方法について、以下の図と併せて以下でより詳しく説明する。
様々な実施形態において、ブロック112において、信号対雑音比の差は、マイク配置形状、ビーム形成、および主チャネルと参照チャネルの異なる指向性パターンの利用のうちの一つまたは複数の組み合わせによって達成される。当該プロセスはブロック114において終了する。
図2は、本発明の実施形態に係る、マイク配置形状を全体的に200で示す。図2を参照すると、希望オーディオ204は、希望オーディオのソース、202で示されるユーザの口から発せられる。ソース202は、ヘッドウェアラブルデバイスに取り付けられるマイクに、希望オーディオ204を提供する。第一マイク206は、ソース202からd1 208で示される距離に配置される。第二マイク210は、ソース202からd2 212で示される距離に配置される。システム200も、218で示されるように、不要オーディオにさらされる。
ソース202に関して、214でのΔLによって表されるように、第一マイク206および第二マイク210は、ソース202から異なる音響距離にある。音響距離の差ΔL 214は式216で与えられる。この実施形態の説明で使用されるように、距離d1およびd2は、音波がそれぞれのマイク206および210に到着するために移動するパスを表す。したがって、ヘッドウェアラブルデバイス上のマイクの特定の位置および興味深い音響周波数に応じて、それらの距離は線形であっても湾曲してもよい。説明を明確にするために、それらのパスおよび対応する距離は直線で示されているが、それによって限定を意味するものではない。
不要オーディオ218は、通常は、距離d1およびd2よりもはるかに大きい距離に位置する様々なソースから生じる。例えば、建設雑音、車の雑音、飛行機の雑音などはすべて、通常は、d1およびd2よりも数桁大きい距離で発生する。したがって、不要オーディオ218は、マイク位置206および210において実質的に相関し、または少なくとも各位置でかなり均一なレベルで受信される。様々なメカニズムのために、第一マイク208と比較して、214での音響距離の差ΔLは、第二マイク210で受信される希望オーディオ204の振幅を減少させる。そのようなメカニズムの一つは、例えば、希望オーディオ信号をl/r2の関数として減衰させる球面拡散である。そこで、rは、ソース(例えば、202)と受信位置(例えば、206または210)との間の距離(例えば、208または212)である。 第二マイク位置210での希望オーディオの減少は、206に対して210での信号対雑音比を減少させ、それは雑音振幅が各位置で実質的に同じであるが、信号振幅が206で受信された振幅に対して210で減少するためである。パスの長さに関連するもう一つのメカニズムは、あるパスに沿った音響インピーダンスと別のパスに沿った音響インペンデンスとの差異であり、それによって直線パスではなく湾曲した音響パスが生成される。まとめると、それらのメカニズムが組み合わされて、主マイク位置と比較して、参照マイク位置で受信される希望オーディオの振幅が減少する。したがって、配置形状は、雑音消去システムにおける使用される二つのマイクの位置間の信号対雑音比の差を提供するために使用され、それについては以下でさらに説明し、それによって主マイクチャネルからの不要オーディオを低減させる。
マイク配置形状は、プライマリマイクおよび参照マイクの配置のための様々な構成を可能にする。様々な実施形態において、一般化マイク配置方法が以下の図3A乃至図5Cと併せて説明および示され、この方法は、ヘッドウェアデバイス上の様々な場所にマイクを配置することを可能にする。
図3Aは、本発明の実施形態に係る、プライマリマイクが第一位置に位置する一般化マイク配置を全体的に300で示す。図3Aを参照すると、ヘッドウェアラブルデバイス302が示される。この実施形態の詳細な説明で使用されるように、ヘッドウェアラブルデバイスは、例えば、これに限定するものではないが、眼鏡、ゴーグル、ヘルメット、日よけ帽、ヘッドバンドなどのユーザの頭部に装着されるように構成されるデバイスのいずれかであり得る。以下の図3A~図5Cと組み合わせて示される議論は、どのヘッドウェアデバイスにも等しく適用できることが認識され、例えば、この議論は図8乃至図19に示されるもの、および本出願の図に具体的に示されていないヘッドウェアラブルデバイスにも等しく適用できる。したがって、本発明の実施形態は、まだ名前が付けられていないヘッドウェアラブルデバイス、またはまだ発明されていないヘッドウェアラブルデバイスに適用することができる。
図3Aに戻って、一実施形態において、ヘッドウェアラブルデバイスは、フレーム302、フレーム302に取り付けられるテンプル304およびテンプル306、ガラス308、およびガラス310を有する。様々な実施形態において、ヘッドウェアラブルデバイス302は、ユーザの頭部に装着される眼鏡である。マイク1、マイク2、マイク3、マイク4、マイク5、マイク6、マイク7、マイク8、およびオプションのマイク9とマイク10などの複数のマイクは、ヘッドウェアラブルデバイス302上に位置する。様々な実施形態において、図示のフレーム302/テンプル304および306を含むヘッドウェアラブルデバイスは、以下でさらに説明するように、信号処理用のエレクトロニクス318を含むようにサイズ設定されることができる。エレクトロニクス318は、ヘッドウェアラブルデバイス302に取り付けられるマイクへの電気的接続を提供する。
ヘッドウェアラブルデバイス302は、その構造によって画定される内部ボリュームを有し、エレクトロニクス318はその中に取り付けられることができる。または、エレクトロニクス318は、その構造の外部に取り付けられることができる。一つまたは複数の実施形態において、エレクトロニクス318にアクセスするためのアクセスパネルが提供される。他の実施形態において、アクセスドアは明示的に提供されないが、エレクトロニクス318は、ヘッドウェアラブルデバイス302のボリューム内に含まれ得る。そのような場合、エレクトロニクス318は、ヘッドウェアラブルデバイスの組み立ての前に埋め込まれることができ、一つまたは複数の部品は互いにインターロックし、それにより、エレクトロニクス318をその中に捕捉するハウジングを形成する。さらに他の実施形態において、ヘッドウェアラブルデバイスは、エレクトロニクス318の周りに成形され、それにより、エレクトロニクス318をヘッドウェアラブルデバイス302のボリューム内にカプセル化する。様々な非限定的な実施形態において、エレクトロニクス318は、適応雑音消去ユニット、単一チャネル雑音消去ユニット、フィルタコントローラー、電源、希望音声活動検出器、フィルタなどを含む。エレクトロニクス118の他の構成要素は、以下の図で説明される。
ヘッドウェアラブルデバイス302は、ヘッドウェアラブルデバイス302をパワーアップまたはパワーダウンするために使用されるスイッチ(図示せず)を含むことができる。ヘッドウェアラブルデバイス302のボリューム内には、それに関連するマイクによって受信される音響信号を処理するために、データ処理システムを含むことができる。当該データ処理システムは、以下でさらに説明する図31に示されるシステムの一つまたは複数の要素を含むことができる。したがって、図3A乃至図5Cの図は、本発明の実施形態を限定するものではない。
図3Aのヘッドウェアラブルデバイスは、マイクをデバイス上の任意の場所に配置できることを示す。図において、説明のために選択される10個の場所は、単に配置形状の一般原理を説明するために選択され、本発明の実施形態を制限するものではない。したがって、マイクは図示されたもの以外の異なる場所で使用されることができ、且つ異なるマイクは様々な場所で使用されることができる。説明のために、制限なしに、図3A乃至図5Cと組み合わせて行われる測定は全方向性マイクを使用する。他の実施形態において、指向性マイクが使用される。 信号対雑音比の測定に使用される配置例において、各マイクはハウジング内に取り付けられ、各ハウジングには環境へのポート開口部がある。マイク1に関連付けられるポートの方向は矢印1bで示される。マイク2に関連付けられるポートの方向は矢印2bで示される。マイク3に関連付けられるポートの方向は矢印3bで示される。マイク4に関連付けられるポートの方向は矢印4bで示される。マイク5に関連付けられるポートの方向は矢印5bで示される。マイク6に関連付けられるポートの方向は矢印6bで示される。マイク7に関連付けられるポートの方向は矢印7bで示される。マイク8に関連付けられるポートの方向は矢印8bで示される。
ユーザの口は、図2の202で示される希望オーディオのソースに類似する312で示される。ユーザの口312から各マイクまでの音響パス長さ(本明細書において音響距離または距離と呼ばれる)は、ユーザの口312からそれぞれのマイク位置までの矢印で示される。例えば、d1は、ユーザの口312からマイク1までの音響距離を示す。d2は、ユーザの口312からマイク2までの音響距離を示す。d3は、ユーザの口312からマイク3までの音響距離を示す。d4は、ユーザの口312からマイク4までの音響距離を示す。d5は、ユーザの口312からマイク5までの音響距離を示す。d6は、ユーザの口312からマイク6までの音響距離を示す。d7は、ユーザの口312からマイク7までの音響距離を示す。d8は、ユーザの口312からマイク8までの音響距離を示す。同様に、オプションのマイク9にもマイク10にも音響距離がある。ただし、図の明確さを維持するために、そのようにラベル付けされていない。
図3Aにおいて、マイク1、2、3、および6およびユーザの口312は、概してXーZ平面内にあり(座標系316を参照)、対応する音響距離d1、d2、d3、およびd6は、概して直線で表される。マイク4、5、7、および8へのパス、つまりd4、d5、d7、およびd8は、ユーザの頭部が音場に対して透過的ではないという事実を反映する湾曲したパスとして表される。したがって、そのような場合、音響パスは幾分湾曲している。一般に、希望オーディオのソースとヘッドウェアラブルデバイス上のマイクとの間の音響パスは、直線的または湾曲的であり得る。主マイクと参照マイクとの間のパス長さの差が十分に大きい限り、雑音消去システムに必要な信号対雑音比の差が得られ、それによって許容可能なレベルの雑音消去を実現する。
図3Bおよび図3Cに示される測定を行うために、音響テスト設備を使用して、プライマリマイクの位置と参照マイクの位置との間の信号対雑音比の差を測定する。テスト施設は、スピーカーを内蔵したマネキンを含み、ヘッドウェアラブルデバイスを着用しているユーザをシミュレートするために使用される。ユーザの口の位置に配置されるスピーカーを使用して、希望オーディオ信号を生成する。マネキンは、音響テスト施設の無響室の中に置かれる。背景雑音は、スピーカーアレイを備えた無響室内において生成される。測定中にピンク雑音スペクトルが使用され、ただし、周波数の他の重み付けを背景雑音フィールドに使用できる。それらの測定中に、背景雑音のスペクトル振幅レベルは75dB/upa/Hzに設定される。ヘッドウェアラブルデバイスは、マネキンに配置される。テスト中に、マイクは、ヘッドウェアラブルデバイスの図3Aに示される位置に配置される。以下の図3Bおよび図3Cに示すように、主チャネルまたはプライマリチャネルのマイクは、第一測定シーケンスのマイク1として選択される。
希望オーディオ信号は、「Camera」という単語で構成される。 この言葉はマネキンのスピーカーによって伝えられる。マイク1での「Camera」という単語に対応する受信信号は、雑音消去システム(以下の図で説明されるように)を介して処理され、時間内にゲートされ、平均化され、それにより、マイク1に対応する「信号」振幅が生成される。「Camera」という単語に対応する信号が、位置2、3、4、5、6、7、および8にある他の各マイクで順番に測定される。同様に、各マイクの位置において、背景雑音スペクトルレベルが測定される。それらの測定により、各マイク位置において信号対雑音比が計算され、次に、以下の図に示すように、マイクペアの信号対雑音比の差が計算される。
図3Bは、本発明の実施形態に係る、図3Aに配置される主マイクの信号対雑音比の差の測定値を全体的に320で示す。図3Bおよび図3Aを参照すると、314において、マイク1が、主またはプライマリマイクとして使用される。次に、さまざまな位置に利用して、マイク2、マイク3、マイク6、マイク4、マイク5、マイク7、マイク8などの参照マイクを配置する。図3Bにおいて、列322は、一連の測定に使用されるマイクペアを示す。列324は、列322の所与のマイクペアの間の音響パス長さの近似の差を示す。近似の音響パス長さ~ΔLは、図2の式216で与えられる。列326は、信号対雑音比の測定に使用される七つの異なるマイクペアの1~7の無次元数の範囲を示す。列328は、列322にリストされた所与のマイクペアの信号対雑音比の差をリストする。各行330、332、334、336、338、340、および342は、異なるマイクペアをリストし、主マイク314がマイク1として一定に保たれている間に、参照マイクが変更されている。式344に示すように、さまざまなマイクペアの音響パス長さの近似の差を昇順で並べることができることに留意されたい。式344に従って、マイクペアは、近似の音響パス長さの差324を増加させるように、列330~342に配置される。信号対雑音比の差は、参照マイクとして使用されるマイク2の5.55dBから、参照マイクとしてマイク8が使用される場合の10.48dBまで変化する。
図3Cは、本発明の実施形態に係る、図3Bに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を全体的に350で示す。図3Cを参照すると、信号対雑音比の差が縦軸352にプロットされ、列326(図3B)の無次元X値が横軸354にプロットされる。上記のように、無次元X値は、近似の音響パス長さの差~ΔLを表すことに留意されたい。データが近似の音響パス長さの差~ΔLを増加させる方式によって配列およびプロットされるので、X軸354は、~ΔLと厳密に対応していないが、~ΔLに関連していることに留意されたい。データのこのような順序付けは、図2に関連して上記の信号対雑音比の差の特性を説明するのに役立つ。すなわち、信号対雑音比の差は、主マイクと参照マイクとの間の音響パス長さの差が大きくなるにつれて大きくなる。その挙動は、曲線356を利用して、信号対雑音比の差が~ΔLの関数として増加していることを観察することによって識別され、曲線356は、列326からのデータの関数として列328からのデータをプロットする(図3B)。
図4Aは、本発明の実施形態に係る、プライマリマイクが第二位置に位置する一般化マイク配置を全体的に420で示す。図4Aにおいて、主マイク414の第二位置は、マイク2によって占められている位置である。上記のテストは、主マイクとしてマイク2を使用して繰り返され、参照マイクの位置は、選択的に、マイク6、マイク3、マイク4、マイク5、マイク7、およびマイク8の位置である。それらのデータは、図4Bおよび図4Cと併せて以下に説明される。
図4Bは、本発明の実施形態に係る、図4Aに配置される主マイクの信号対雑音比の差の測定値を示す。図4Bおよび図4Aを参照すると、マイク2が、主またはプライマリマイク414として使用される。次に、さまざまな位置に利用して、マイク6、マイク3、マイク4、マイク5、マイク7、およびマイク8などの参照マイクを配置する。図4Bにおいて、列422は、一連の測定に使用されるマイクペアを示す。列424は、列422の所与のマイクペアの間の音響パス長さの近似の差を示す。近似の音響パス長さ~ΔLは、図2の式216で与えられる。列426は、信号対雑音比の測定に使用される六つの異なるマイクペアの1~6の無次元数の範囲を示す。列428は、列422にリストされた所与のマイクペアの信号対雑音比の差をリストする。各行430、432、434、336、438、および440は、異なるマイクペアをリストし、主マイク414がマイク2として一定に保たれている間に、参照マイクが変更されている。式442に示すように、さまざまなマイクペアの音響パス長さの近似の差を昇順で並べることができることに留意されたい。式442に従って、マイクペアは、近似の音響パス長さの差424を増加させるように、列430~440に配置される。信号対雑音比の差は、参照マイクとして使用されるマイク6の1.2dBから、参照マイクとしてマイク8が使用される場合の5.2dBまで変化する。
図4Cは、本発明の実施形態に係る、図4Bに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を示す。図4Cを参照すると、信号対雑音比の差が縦軸452にプロットされ、列426(図4B)の無次元X値が横軸454にプロットされる。上記のように、無次元X値は、近似の音響パス長さの差~ΔLを表すことに留意されたい。データが近似の音響パス長さの差~ΔLを増加させる方式によって配列およびプロットされるので、X軸454は、~ΔLと厳密に対応していないが、~ΔLに関連していることに留意されたい。データのこのような順序付けは、図2に関連して上記の信号対雑音比の差の特性を説明するのに役立つ。すなわち、信号対雑音比の差は、主マイクと参照マイクとの間の音響パス長さの差が大きくなるにつれて大きくなる。その挙動は、曲線456を利用して、信号対雑音比の差が~ΔLの関数として増加していることを観察することによって識別され、曲線456は、列426からのデータの関数として列428からのデータをプロットする(図4B)。
図5Aは、本発明の実施形態に係る、プライマリマイクが第三位置に位置する一般化マイク配置を示す。図5Aにおいて、主マイク514の第三位置は、マイク3によって占められている位置である。上記のテストは、主マイクとしてマイク3を使用して繰り返され、参照マイクの位置は、選択的に、マイク6、マイク4、マイク5、マイク7、およびマイク8の位置である。それらのデータは、図5Bおよび図5Cと併せて以下に説明されている。
図5Bは、本発明の実施形態に係る、図5Aに配置される主マイクの信号対雑音比の差の測定値を示す。図5Bおよび図5Aを参照すると、マイク3が、主またはプライマリマイク514として使用される。次に、さまざまな位置に利用して、マイク6、マイク4、マイク5、マイク7、およびマイク8などの参照マイクを配置する。図5Bにおいて、列522は、一連の測定に使用されるマイクペアを示す。列524は、列522の所与のマイクペアの間の音響パス長さの近似の差を示す。近似の音響パス長さ~ΔLは、図2の式216で与えられる。列526は、信号対雑音比の測定に使用される五つの異なるマイクペアの1~5の無次元数の範囲を示す。列528は、列522にリストされた所与のマイクペアの信号対雑音比の差をリストする。各行530、532、534、536、および538は、異なるマイクペアをリストし、主マイク514がマイク3として一定に保たれている間に、参照マイクが変更されている。式540に示すように、さまざまなマイクペアの音響パス長さの近似の差を昇順で並べることができることに留意されたい。式540に従って、マイクペアは、近似の音響パス長さの差524を増加させるように、列530~538に配置される。信号対雑音比の差は、参照マイクとして使用されるマイク6の0dBから、参照マイクとしてマイク7が使用される場合の5.16dBまで変化する。
図5Cは、本発明の実施形態に係る、図5Bに示されるデータのための信号対雑音比の差およびマイク音響分離距離の増加を示す。図5Cを参照すると、信号対雑音比の差が縦軸552にプロットされ、列526(図5B)の無次元X値が横軸554にプロットされる。上記のように、無次元X値は、近似の音響パス長さの差~ΔLを表すことに留意されたい。データが近似の音響パス長さの差~ΔLを増加させる方式によって配列およびプロットされるので、X軸554は、~ΔLと厳密に対応していないが、~ΔLに関連していることに留意されたい。データのこのような順序付けは、図2に関連して上記の信号対雑音比の差の特性を説明するのに役立つ。すなわち、信号対雑音比の差は、主マイクと参照マイクとの間の音響パス長さの差が大きくなるにつれて大きくなる。その挙動は、曲線556を利用して、信号対雑音比の差が~ΔLの関数として増加していることを観察することによって識別され、曲線556は、列526からのデータの関数として列528からのデータをプロットする(図5B)。
上の図に示されているビュー内に、マイクの特定の位置は、例示のみを目的として選択されることに留意されたい。それらの位置は、本発明の実施形態を制限するものではない。他の実施形態において、ヘッドウェアラブルデバイス上のマイクの他の位置が使用される。
したがって、図1のブロック108および図2乃至図5Cと併せて上記で説明したように、様々な実施形態において、マイク配置形状を使用して、二つのマイクの間の音響パス長さの差を生み出し、主マイクと参照マイクとの間に対応する信号対雑音比の差を生み出す。信号対雑音比の差は、主マイクと参照マイクに異なる指向性パターンを使用することにより、実現されることができる。いくつかの実施形態において、ビーム形成は、主チャネルおよび参照チャネルに対して異なる指向性パターンを作るために、使用される。例えば、図5Aにおいて、音響パス長さd3とd6の値が類似しすぎているので、主マイクおよび参照マイクの位置をそのように選択するのは、十分な信号対雑音比の差を生成しない(図5Bの列528行530での0dB)。そのような場合、マイクの指向性パターン(一方または両方のマイク)および/またはビーム形成の変化は、主チャネルと参照チャネルとの間に必要な信号対雑音比の差を生み出すために、使用されることができる。
指向性マイクを使用して、希望オーディオの受信を減少させる、および/または不要オーディオの受信を増加させることができ、それにより、第二マイク(参照マイク)の信号対雑音比を低下させて、プライマリマイクと参照マイクとの間の信号対雑音比の差が大きくなる。第二マイク(図示せず)および以下の図6と図7における教えられる技術を使用する例は、図3Aに示される。いくつかの実施形態において、第二マイクは、マイク1と概して同じ位置にあることができる。他の実施形態において、ソース312から第二マイクまでの距離は、ソース312から第一マイクまでの距離に等しい。いくつかの実施形態において、第二マイクは、指向性マイクであり、第二マイクの主応答軸が音響パスd1に実質的に垂直である(または位置合わせされていないことに相当する)。したがって、希望音声d1の方向には、312からの希望音声に対する第二マイクのヌルまたは応答が少ない方向が存在する。それにより、第二マイクの信号対雑音比が減少し、計算された第一マイクと第二マイクとの間の信号対雑音比の差が増加する。二つのマイクは、ヘッドウェアラブルデバイス302上の任意の位置に配置することができることに留意されたい。それには、上記のような同じ位置が含まれる。他の実施形態において、一つまたは複数のマイク要素がビームフォーマへの入力として使用されて、異なる指向性パターンを有する主チャネルおよび参照チャネル、およびそれらの間の信号対雑音比の差をもたらす。
図6は、本発明の実施形態に係る、マイク指向性パターンを全体的に600で示す。図6を参照すると、全方向性マイク指向性パターンは円602で示され、円602は一定半径604を有し、一定半径604は、参照606から測定された608で示されている角度アルファ(α)の関数としての均一な感度を示す。
カージオイド指向性パターン622を有する指向性マイクの例は、プロット620内に示され、カージオイド指向性パターン622は、624で示されるピーク感度軸および626で示されるヌルを有する。カージオイド指向性パターンは、二つの全方向性マイクで形成され、または一つの全方向性マイクおよびそのマイクの適切な取り付け構造を使用して形成されることができる。
双方向指向性パターン642/644を有する指向性マイクの例は、プロット640内に示され、双方向指向性パターンの第一葉642は、648で示される第一ピーク感度軸を有し、第二葉644は、646で示される第二ピーク感度軸を有する。第一ヌルは方向650に存在し、第二ヌルは方向652に存在する。
スーパーカージオイド指向性パターンを有する指向性マイクの例は、プロット660内に示され、スーパーカージオイド指向性パターン664/665は、方向662で示されるピーク感度軸、方向666で示される小さい感度軸、および方向668と670で示されるヌルを有する。
図7は、本発明の実施形態に係る、位置合わせされていない参照マイク応答軸を全体的に700で示す。図7を参照すると、マイクは702に示される。マイク702は、主応答軸706と、その指向性パターンにおける704で示されるヌルと、を有する指向性マイクである。入射音場は、方向708から到着することが示されている。様々な実施形態において、マイク702は、例えば、上記の図6に示されるような双方向マイクである。ヘッドウェアラブルデバイス上に適切に配置される指向性マイク702は、参照マイクとして使用される場合に、方向710から来る不要オーディオに応答しながら、方向708から来る希望オーディオへの応答を制限することにより、信号対雑音比を減少させる。上記のように、指向性マイク702の応答は、信号対雑音比の差の増加をもたらす。
したがって、本明細書で教示される実施形態の範囲内において、一つまたは複数の主マイクおよび一つまたは複数の参照マイクは、主マイクと参照マイクとの間の適切な信号対雑音比の差を得るために、ヘッドウェアラブルデバイス上の複数の位置に配置される。そのような信号対雑音比の差により、以下の図と併せて以下に説明するように、希望オーディオと不要オーディオとの両方を含む音響信号から希望オーディオを抽出することが可能になる。マイクはヘッドウェアラブルデバイスのさまざまな位置に配置されることができ、それは、主マイクと参照マイクとをヘッドウェアラブルデバイスの共通の同一位置に配置することを含む。
いくつかの実施形態において、ブロック112(図1)に従って、マイク配置形状の技術は、マイクレベルで、またはビーム形成を通じて得られる異なる指向性パターンと組み合わされ、それによって主チャネルと参照チャネルとの間に信号対雑音比の差を生成する。
様々な実施形態において、ヘッドウェアラブルデバイスは、以下の図と併せて以下に説明されるような眼鏡デバイスである。図8は、本発明の一実施形態の眼鏡デバイス800の例を示す図である。図中に示されるように、眼鏡デバイス800は、マイクが埋め込まれた眼鏡802を含む。眼鏡802は、二つのマイク804および806を有する。第一マイク804は、眼鏡802フレームの中央に配置されている。第二マイク806は、眼鏡802フレームの側面に配置されている。マイク804および806は、双方向または単方向のいずれかの圧力勾配マイクロホン要素であり得る。一つまたは複数の実施形態において、各マイク804および806は、ゴムブート内のマイクアセンブリである。ゴムブートは、マイクの前面および背面に音響ダクトを備える音響ポートを提供する。二つのマイク804と806およびそれらのそれぞれのブートは同じであり得る。マイク804および806は、気密封止されることができる(例えば、密閉する)。音響ダクトは、フロントガラスの素材で満たされている。ポートは、織物の層で密閉される。下部と上部の音響ポートは、防水膜で密閉される。マイクは、眼鏡フレームの構造に内蔵されることができる。各マイクには、音響ポートとしての上部の穴と底部の穴がある。一実施形態において、圧力勾配マイク要素であり得る二つのマイク804および806は、それぞれ二つの全方向性マイクに取って代わられることができる。
図9は、本発明の実施形態の別の例を示す図である。図9に示されるように、眼鏡デバイス900は、三つの埋め込まれたマイクを有する眼鏡952を含む。図9の眼鏡952は、図8の眼鏡802に類似するが、二つのマイクの代わりに三つのマイクを使用する。図9の眼鏡952は、眼鏡952の中央に配置される第一マイク954、眼鏡952の左側に配置される第二マイク956、および眼鏡952の右側に配置される第三マイク958を有する。その三つのマイクは、上記の三つのマイクの実施形態で使用されることができる。
図10は本発明の一実施形態の眼鏡デバイス1000を示す図であり、図10において、例えば、図8に示される二つの双方向マイクを四つの全方向性マイク1002、1004、1006、1008、および電子ビームステアリングに置き換える。二つの双方向マイクを四つの全方向性マイクに置き換えることにより、眼鏡フレームの設計者により一層の融通性と製造可能性を提供する。四つの全方向性マイクを有する例示的な実施形態において、四つの全方向性マイクは、眼鏡フレーム上の任意の位置に配置されることができ、好ましくは、レンズの周りで垂直に並んでいるマイクペアを使用する。この実施形態において、全方向性マイク1002および1004は、干渉から分離されるプライマリ音を検出するための主マイクであり、マイク1004、1008は、プライマリ音から分離される背景雑音を検出するための参照マイクである。マイクアレイは、全方向性マイクであり得、全方向性マイクは、エレクトレットコンデンサーマイクロホン、アナログ微小電気機械システム(microelectromechanical systems;MEMS)マイク、またはデジタルMEMSマイクの任意の組み合わせであり得る。
本発明の別の例示的な実施形態は、図11に示されるように、雑音消去マイクアレイを備える眼鏡デバイスを含み、当該眼鏡デバイスは眼鏡フレーム1100と、当該眼鏡フレームに結合されるマイクアレイと、を含み、当該マイクアレイは、少なくとも第一マイク1102と、第二マイク1104と、を含み、当該第一マイクは、テンプル領域の近くの眼鏡フレームに結合され、当該テンプル領域は、レンズ開口部の上部コーナーと支持アームとの間にほぼ位置することができ、第一オーディオチャネル出力を提供し、当該第二マイクは、レンズ開口部の内側下隅の近くの眼鏡フレームに結合され、第二オーディオチャネル出力を提供する。当該第二マイクは、レンズ開口部1106を斜めに横切って配置されるが、レンズの内側フレームに沿って任意の位置、例えば、下隅、上隅、または内側フレームエッジに配置されることができる。さらに、当該第二マイクは、ノーズブリッジの左側または右側のレンズの内側エッジに沿って配置されることができる。
本発明のさらに別の実施形態において、マイクアレイは、図12に示されるように、少なくとも一つのフレキシブルプリント回路基板(flexible printed board;PCB)ストリップを使用して眼鏡フレームに結合されることができる。この実施形態において、本発明の眼鏡デバイス1200は、第一マイク1204および第四マイク1206を含む上部フレキシブルPCBストリップ1202と、第二マイク1210および第三マイク1212を含む下部フレキシブルPCBストリップ1208と、を含む。
さらなる例示的な実施形態において、眼鏡フレームは、マイクアレイに対応する穴アレイをさらに含むことができる。マイクアレイは、下部ポートまたは上部ポートの微小電気機械システム(MEMS)マイクであり得る。図12の眼鏡のマイクコンポーネントである図13に示されるように、MEMSマイクコンポーネント1300は、フレキシブルプリント回路基板(PCB)1304に貼られているMEMSマイク1302を含む。ガスケット1306は、フレキシブルPCB1304をデバイスケース1308から分離する。穴1310は、フレキシブルPCB1304、ガスケット1306、およびデバイスケース1308によって画定される。穴1310は、音声波をMEMSマイク1302に導くためのオーディオ細孔である。第一および第四MEMSマイクは上部フレキシブルPCBストリップに結合されることができ、第二および第三MEMSマイクは下部フレキシブルPCBストリップに結合されることができ、MEMSマイクアレイは、下部ポートまたは上部ポートが対応する穴を介して音響信号を受信するように配置されることができる。
図14は眼鏡1400の別の代替実施形態を示し、眼鏡1400において、マイク1402、1404がそれぞれテンプル領域1406と前フレーム1408に置かれる。
図15は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備える眼鏡を全体的に1500で示す。図15を参照すると、ヘッドウェアラブルデバイス1502は、主音響チャネルに使用される一つまたは複数のマイクと、参照音響チャネルに使用される一つまたは複数のマイクと、を含む。ヘッドウェアラブルデバイス1502は、情報ディスプレイ1504を備えるウェアラブルコンピュータとして構成される。様々な実施形態において、エレクトロニクスは、1506および/または1508に含まれる。様々な実施形態において、当該エレクトロニクスは、以下の図と併せて以下により完全に説明される雑音消去エレクトロニクスを含むことができる。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス1502と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス1502の外部に位置する。様々な実施形態において、そのような実施形態において、Bluetooth(登録商標)プロトコル、ZigBee(登録商標)プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。
図16は、本発明の実施形態に係る、図15からのヘッドウェアラブルデバイスにおけるプライマリマイクの位置を全体的に1600で示す。図16を参照すると、主マイクの位置が1602に示される。
図17は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備えるゴーグルを全体的に1700で示す。図17を参照すると、ゴーグル1702の形態のヘッドウェアラブルデバイスは、位置1704にある主マイクと、位置1706にある参照マイクロホンと、を有するように構成される。様々な実施形態において、雑音消去エレクトロニクスは、ゴーグル1702内に含まれる。雑音消去エレクトロニクスは、以下の図と併せて以下でより完全に説明される。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス1702と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス1702の外部に位置する。そのような実施形態において、Bluetooth(登録商標)プロトコル、ZigBee(登録商標)プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。
図18は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備える日よけ帽を全体的に1800で示す。図18を参照すると、日よけ帽1802の形態のヘッドウェアラブルデバイスは、主マイク1804と、参照マイク1806と、を有する。様々な実施形態において、雑音消去エレクトロニクスは、日よけ帽1802内に含まれる。雑音消去エレクトロニクスは、以下の図と併せて以下でより完全に説明される。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス1802と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス1802の外部に位置する。そのような実施形態において、Bluetooth(登録商標)プロトコル、ZigBee(登録商標)プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。
図19は、本発明の実施形態に係る、内蔵の音響雑音消去システムを備えるヘルメットを全体的に1900で示す。図19を参照すると、ヘルメット1902の形態のヘッドウェアラブルデバイスは、主マイク1904と、参照マイク1906と、を有する。様々な実施形態において、雑音消去エレクトロニクスは、ヘルメット1902内に含まれる。雑音消去エレクトロニクスは、以下の図と併せて以下でより完全に説明される。他の実施形態において、雑音消去エレクトロニクスは、ヘッドウェアラブルデバイス1902と同じ位置に置かれていなくて、ヘッドウェアラブルデバイス1902の外部に位置する。そのような実施形態において、Bluetooth(登録商標)プロトコル、ZigBee(登録商標)プロトコルなどと互換性がある無線通信リンクは提供され、それによってマイクから受信される音響信号を外部の位置に送信して、雑音消去エレクトロニクスによって処理する。
図20は、本発明の実施形態に係る、希望オーディオ信号を抽出するためのプロセスを全体的に2000で示す。図20を参照すると、プロセスは、ブロック2002において開始する。ブロック2004において、主音響信号は、ヘッドウェアラブルデバイスに位置する主マイクから受信される。ブロック2006において、参照音響信号は、ヘッドウェアラブルデバイスに位置する参照マイクから受信される。ブロック2008において、正規化された主音響信号が形成される。様々な実施形態において、正規化された主音響信号は、以下の図に説明されるように、一つまたは複数の参照音響信号を使用して形成される。ブロック2010において、正規化された主音響信号は、ヘッドウェアラブルデバイス内に含まれる音響信号処理システムを使用して雑音消去を制御するために使用される。当該プロセスはブロック2012において終了する。
図21は、本発明の実施形態に係る、システム構造を全体的に2100で示す。図21を参照すると、二つの音響チャネルは、適応雑音消去ユニット2106に入力される。本明細書における主チャネル2102と呼ばれる第一音響チャネルは、本実施形態の説明において、同義語として「プライマリ」または「主」チャネルと呼ばれる。主チャネル2102は、希望オーディオと、不要オーディオと、を含む。以下の図でより完全に説明されるように、主チャネル2102での音響信号入力は、一つまたは複数の音響要素上に存在する希望オーディオおよび不要オーディオから生じる。主チャネルに使用される一つまたは複数のマイクの構成に応じて、マイク要素はアナログ信号を出力できる。アナログ信号は、アナログデジタルコンバーター(analog-to-digital converter;AD)変換器(図示せず)でデジタル信号に変換される。さらに、増幅器はマイク要素またはADコンバーターの近くに位置することができる。本明細書における参照チャネル2104と呼ばれる第二音響チャネルは、希望オーディオおよび不要オーディオの存在からも生じる音響信号を提供する。オプションとして、第二参照チャネル2104bを適応雑音消去ユニット2106に入力することができる。主チャネルと同様に、参照チャネルに使用される一つまたは複数のマイクの構成に応じて、マイク要素はアナログ信号を出力できる。アナログ信号は、アナログデジタルコンバーター(AD)変換器(図示せず)でデジタル信号に変換される。さらに、増幅器はマイク要素またはADコンバーターの近くに位置することができる。いくつかの実施形態において、マイクは、デジタルマイクとして実装される。
いくつかの実施形態において、主チャネル2102は全方向性応答を有し、参照チャネル2104は全方向性応答を有する。いくつかの実施形態において、主チャネル2102および参照チャネル2104の音響要素の音響ビームパターンは異なる。他の実施形態において、主チャネル2102および参照チャネル2104の音響要素の音響ビームパターンは同じである。しかしながら、主チャネル2102で受信される希望オーディオは、参照チャネル2104で受信される希望オーディオとは異なる。したがって、主チャネル2102の信号対雑音比は、参照チャネル2104の信号対雑音比とは異なる。一般に、参照チャネルの信号対雑音比は、主チャネルの信号対雑音比より小さい。様々な実施形態において、非限定的な例として、主チャネルの信号対雑音比と参照チャネルの信号対雑音比との間の差は、約1または2デシベル(dB)以上である。他の非限定的な例において、主チャネルの信号対雑音比と参照チャネルの信号対雑音比との差は、1デシベル(dB)以下である。したがって、本発明の実施形態は、希望オーディオに関して低い信号対雑音比をもたらし得る高雑音環境、およびより高い信号対雑音比を有し得る低雑音環境に適している。この実施形態の説明で使用されるように、信号対雑音比は、チャネル内の希望オーディオと不要オーディオとの比率を意味する。さらに、「主チャネルの信号対雑音比」という用語は、「主信号対雑音比」という用語と交換可能に使用される。同様に、「参照チャネルの信号対雑音比」という用語は、「参照信号対雑音比」という用語と交換可能に使用される。
主チャネル2102、参照チャネル2104、およびオプションの第二参照チャネル2104bは、適応雑音消去ユニット2106への入力を提供する。図には第二参照チャネルが示されるが、様々な実施形態において、三つ以上の参照チャネルが使用される。適応雑音消去ユニット2106は、主チャネル2102からの不要オーディオをフィルタリングして、入力の複数の音響チャネルを備えるフィルタリングの第一段階を提供する。様々な実施形態において、適応雑音消去ユニット2106は、適応有限インパルス応答(finite impulse response;FIR)フィルタを利用する。本発明の実施形態が使用される環境は、残響音場を提示することができる。したがって、適応雑音消去ユニット2106は、システムが使用される環境のインパルス応答を近似するのに十分な主チャネルの遅延を含む。使用される遅延の大きさは、残響を設計で考慮する必要があるかどうかを含む設計されるシステムの特定のアプリケーションによって異なる。いくつかの実施形態において、複数のマイクチャネルが非常に接近して配置される(且つ、残響が少ない)場合、遅延の大きさはミリ秒の何分の1かのオーダーであり得る。遅延に使用できる値の範囲の下限では、チャネル間の音響移動時間が最小遅延値を表すことができることに留意されたい。したがって、様々な実施形態において、遅延値は、アプリケーションに応じて、約1ミリ秒の何分の1から約500ミリ秒またはそれ以上の範囲になることができる。適応雑音消去ユニット1106およびそれに関連する構成要素のさらなる説明は、以下の図と併せて以下に提供される。
適応雑音消去ユニット2106の出力2107は、単一チャネル雑音消去ユニット2118に入力される。単一チャネル雑音消去ユニット2118は、出力2107をフィルタリングし、出力2107からの不要オーディオのさらなる低減を提供し、それにより、フィルタリングの第二段階を提供する。単一チャネル雑音消去ユニット2118は、不要オーディオへのほとんど定常的な寄与をフィルタリングする。単一チャネル雑音消去ユニット2118は、例えば、ウィーナー(Wiener)フィルタ、最小平均二乗誤差(Minimum Mean Square Error;MMSE)フィルタ実装、線形定常雑音フィルタ、または推定されるパラメータに関する事前情報を使用する他のベイズ(Bayesian)フィルタアプローチなどの線形フィルタを含む。単一チャネル雑音消去ユニット2118で使用されるフィルタは、以下の図と併せて以下でより完全に説明される。
主チャネル2102からの音響信号は、2108においてフィルタコントローラー2112に入力される。同様に、参照チャネル2104からの音響信号は、2110においてフィルタコントローラー2112に入力される。オプションの第二参照チャネルは、2108bにおいてフィルタコントローラー2112に入力される。フィルタコントローラー2112は、適応雑音消去ユニット2106に制御信号2114を提供し、単一チャネル雑音消去ユニット2118に制御信号2116を提供する。様々な実施形態において、フィルタコントローラー2112の操作は、以下の図と併せて以下により完全に説明される。単一チャネル雑音消去ユニット2118の出力2120は、ほとんどの希望オーディオおよび量を低減する不要オーディオを含む音響信号を提供する。
本発明の様々な実施形態により、図21に示されるシステム構造は、音響信号を処理するために使用される様々な異なるシステムにおいて使用され得る。異なる音響システムの例は、これに限定するものではないが、携帯電話、ハンドヘルドマイク、ブームマイク、マイクヘッドセット、補聴器、ハンズフリーマイクデバイス、眼鏡のフレームに埋め込まれたウェアラブルシステム、眼鏡、ニアツーアイ(near-to-eye;NTE)ヘッドセットディスプレイまたはヘッドセットコンピューティングデバイス、一般的な構成のヘッドウェアラブルデバイスであり、当該一般的な構成のヘッドウェアラブルデバイスは、例えば、これに限定するものではないが、眼鏡、ゴーグル、日よけ帽、ヘッドバンド、ヘルメットなどを含む。それらの音響システムが使用される環境は、主チャネル2102および参照チャネル2104に音響信号を提供する音響要素に入射する複数の音響エネルギー源を有することができる。様々な実施形態において、希望オーディオは、通常は、ユーザの自身の声の結果である(上記の図2を参照する)。様々な実施形態において、不要オーディオは、通常は、主チャネルおよび参照チャネルの両方に使用される音響要素に入射する複数のソースからの不要音響エネルギーの組み合わせの結果である。したがって、不要オーディオは、統計的に希望オーディオと相関していない。さらに、主チャネルにおける不要オーディオと参照チャネルにおける不要オーディオとの間には、因果関係がない。そのような場合、因果関係がなく、興味のある信号(希望オーディオ)以外は純粋な雑音信号(不要オーディオ)の測定がないため、エコーキャンセルは機能しない。エコーキャンセル雑音低減システムにおいて、音響信号を生成するスピーカーは、純粋な雑音信号のメトリックを提供する。本明細書に記載のシステムの実施形態の文脈において、純粋な雑音信号を抽出することができるスピーカーまたは雑音源がない。
図22は、本発明の実施形態に係る、フィルタコントローラーを全体的に2112で示す。図22を参照すると、主チャネル2102からの音響信号は、2108において希望音声活動検出ユニット2202に入力される。主チャネル2102での活動に関連するフラグ(図21)を作成するために、2108での音響信号は、主チャネル活動検出器2206によって監視される。オプションとして、第二参照チャネルでの活動に関連するフラグを作成するために、2110bでの音響信号は、第二参照チャネル活動検出器(図示せず)によって監視される。オプションとして、第二参照チャネル活動検出器の出力は、禁止制御ロジック2214に結合される。参照チャネル2104での活動に関連するフラグ(図21)を作成するために、2110での音響信号は、参照チャネル活動検出器2208によって監視される。希望音声活動検出ユニット2202は、2110、2108、およびオプションの2110bからの音響信号入力を利用して、希望音声活動信号2204を生成する。希望音声活動検出ユニット2202の操作は、以下の図においてより完全に以下に説明される。
様々な実施形態において、禁止ロジックユニット2214は、入力として、2210での主チャネル活動に関する情報、2212での参照チャネル活動に関する情報、および希望音声が2204で存在するかどうかに関する情報を受信する。様々な実施形態において、禁止ロジック2214は、例えば、図21の適応雑音消去ユニット2106および単一チャネル雑音消去ユニット2118に送信されるフィルタ制御信号2114/2116を出力する。主チャネル活動検出器2206、参照チャネル活動検出器2208、および禁止ロジック2214の実装および操作は、発明の名称「希望ヌルに基づいている音響デバイス、システムおよび方法を備えるカージオイドビーム」と題された米国特許第7386135号にさらに完全に記載されており、米国特許第7386135号は参照により本明細書中に組み入れられる。
動作において、様々な実施形態において、連続するフィルタリング段階が適応雑音消去ユニット2106および単一チャネル雑音消去ユニット2118によって適用される場合、図21のシステムおよび図22のフィルタコントローラーは、主チャネル2102からの不要オーディオのフィルタリングおよび除去を提供する。一つまたは複数の実施形態において、システム全体にわたって、信号処理の適用は線形に適用される。線形信号処理において、出力は入力に線形に関連している。したがって、入力の値を変更すると、出力が比例して変化する。信号への信号処理プロセスの線形適用は、希望オーディオの品質および忠実度を維持し、それにより、希望オーディオの非線形歪みを実質的に排除または最小化する。音声の正確な再生が情報の正確な通信を容易にするのに役立つので、希望音声の信号品質の保存はユーザにとって有用である。
さらに、音声認識(SR)アルゴリズムや自動音声認識(ASR)アルゴリズムなどの音声の処理に使用されるアルゴリズムは、非線形歪みが実質的にない音響信号の正確な表示から恩恵を受ける。したがって、非線形である信号処理プロセスの適用から生じる可能性のある歪みは、本発明の実施形態により排除される。本発明の実施形態により教示される線形雑音消去アルゴリズムは、音声認識エンジンで使用されるSRおよびASRアルゴリズムの操作に対して透過的な希望オーディオへの変化を生成する。したがって、音声認識エンジンのエラー率は、本発明の実施形態を適用することによって大幅に低減される。
図23は、本発明の実施形態に係る、別のシステム構造を全体的に2300で示す。図23を参照すると、本明細書中に示されるシステム構造において、第一チャネルは、2302での第一マイク(図において、名目上、MIC1としてラベル付けされている)からの音響信号を提供する。第二チャネルは、2304での第二マイク(図において、名目上、MIC2としてラベル付けされている)からの音響信号を提供する。様々な実施形態において、一つまたは複数のマイクを使用して、第一マイク2302からの信号を作成することができる。様々な実施形態において、一つまたは複数のマイクを使用して、第二マイク2304からの信号を作成することができる。いくつかの実施形態において、一つまたは複数の音響要素を使用して、第一マイク2302からの信号および第二マイク2304からの信号に寄与する信号を作成することができる(以下に説明される図25Cを参照する)。したがって、音響要素は、2302および2304に共有されることができる。様々な実施形態において、2302、2304において信号を提供する音響要素、主チャネル、および参照チャネルの配置は、以下の図と併せて以下に説明される。
ビームフォーマ2305は、入力として、第一マイク2302からの信号、第二マイク2304からの信号、およびオプションの第三マイク2304bからの信号(図において、名目上、MIC3としてラベル付けされている)を受信する。ビームフォーマ2305は、信号2302、2304、およびオプションの2304bを使用して、希望オーディオおよび不要オーディオの両方を含む主チャネル2308aを作成する。ビームフォーマ2305はまた、信号2302、2304、およびオプションの2304bを使用して、一つまたは複数の参照チャネル2310aおよびオプションの2311aを作成する。参照チャネルには、希望オーディオおよび不要オーディオの両方が含まれている。「主チャネル信号対雑音比」と呼ばれる主チャネルの信号対雑音比は、本明細書における「参照チャネル信号対雑音比」と呼ばれる参照チャネルの信号対雑音比よりも大きい。ビームフォーマ2305および/またはMIC1およびMIC2に使用される音響要素の配置は、参照チャネル信号対雑音比よりも大きい主チャネル信号対雑音比を提供する。
ビームフォーマ2305は、適応雑音消去ユニット2306およびフィルタ制御ユニット2312に結合されている。主チャネル信号は、2308aにおいてビームフォーマ2305から出力され、適応雑音消去ユニット2306に入力される。同様に、参照チャネル信号は、2310aにおいてビームフォーマ2305から出力され、適応雑音消去ユニット2306に入力される。主チャネル信号はまた、ビームフォーマ2305から出力され、2308bにおいてフィルタコントローラー2312に入力される。同様に、参照チャネル信号は、ビームフォーマ2305から出力され、2310bにおいてフィルタコントローラー2312に入力される。オプションとして、第二参照チャネル信号は、2311aにおいて出力され、適応雑音消去ユニット2306に入力される。オプションの第二参照チャネル信号は、2311bにおいて出力され、フィルタコントローラー2012に入力される。
フィルタコントローラー2312は、入力2308b、2310b、およびオプションの2311bを使用して、チャネル活動フラグおよび希望音声活動検出を生成し、それにより、フィルタ制御信号2314を適応雑音消去ユニット2306に提供し、フィルタ制御信号2316を単一チャネル雑音低減ユニット2318に提供する。
適応雑音消去ユニット2306は、多チャネルフィルタリングを提供し、フィルタリングの第一段階中に、主チャネル2308aからの不要オーディオの第一量をフィルタリングして、2307でフィルタリングされた主チャネルを出力する。単一チャネル雑音低減ユニット2318は、入力として、フィルタリングされた主チャネル2370を受信し、フィルタリングの第二段階を提供し、それにより、2307からの不要オーディオをさらに低減させる。単一チャネル雑音低減ユニット2318は、2320においてほとんど希望オーディオを出力する。
様々な実施形態において、本明細書に示される本発明の実施形態に必要な音響信号を提供するために、異なるタイプのマイクを使用することができる。音波を電気信号に変換する任意の変換器は、本明細書において教示される本発明の実施形態での使用に適する。マイクのいくつかの非限定的な例は、これに限定するものではないがダイナミックマイク、コンデンサーマイクロホン、エレクトレットコンデンサーマイクロホン(Electre Condenser Microphone;ECM)、および微小電気機械システム(MEMS)マイクである他の実施形態において、コンデンサーマイク(condenser microphone;CM)が使用される。他の実施形態において、微小機械加工マイクが使用される。圧電フィルムに基づくマイクは、他の実施形態において使用される。圧電素子は、セラミック材料、プラスチック材料、またはフィルムでできている。さらに他の実施形態において、微小機械加工マイクのアレイが使用される。さらに他の実施形態において、シリコンまたはポリシリコン微小機械加工マイクが使用される。いくつかの実施形態において、双方向圧力勾配マイクを使用して、複数の音響チャネルを提供する。本明細書に記載のシステムを含む様々なマイクまたはマイクアレイは、眼鏡またはヘッドセットなどの構造物の上または内部に取り付けることができる。
図24Aは、本発明の実施形態に係る、別の自動平衡を組み入れたシステム構造を全体的に2400で示す。図24Aを参照すると、本明細書中に示されるシステム構造において、第一チャネルは、2402での第一マイク(図において、名目上、MIC1としてラベル付けされている)からの音響信号を提供する。第二チャネルは、2404での第二マイク(図において、名目上、MIC2としてラベル付けされている)からの音響信号を提供する。様々な実施形態において、一つまたは複数のマイクを使用して、第一マイク2402からの信号を作成することができる。様々な実施形態において、一つまたは複数のマイクを使用して、第二マイク2404からの信号を作成することができる。いくつかの実施形態において、図23と併せて上記で説明されたように、一つまたは複数の音響要素を使用して、第一マイク2402からの信号および第二マイク2404からの信号の一部となる信号を作成することができる。様々な実施形態において、信号2402、2404を提供する音響要素、主チャネル、および参照チャネルの配置は、以下の図と併せて以下に説明される。
ビームフォーマ2405は、入力として、第一マイク2402からの信号および第二マイク2404からの信号を受信する。ビームフォーマ2405は、信号2402および2404を使用して、希望オーディオおよび不要オーディオの両方を含む主チャネルを作成する。ビームフォーマ2405はまた、信号2402および2404を使用して、参照チャネルを作成する。オプションとして、第三チャネルは、2404bでの第三マイク(図において、名目上、MIC3としてラベル付けされている)からの音響信号を提供する。当該音響信号は、ビームフォーマ2405に入力される。様々な実施形態において、一つまたは複数のマイクを使用して、第三マイクからの信号2404bを生成することができる。参照チャネルには、希望オーディオおよび不要オーディオの両方が含まれている。「主チャネル信号対雑音比」と呼ばれる主チャネルの信号対雑音比は、本明細書における「参照チャネル信号対雑音比」と呼ばれる参照チャネルの信号対雑音比よりも大きい。ビームフォーマ2405および/またはMIC1、MIC2およびオプションのMIC3に使用される音響要素の配置は、参照チャネル信号対雑音比よりも大きい主チャネル信号対雑音比を提供する。いくつかの実施形態において、双方向圧力勾配マイク要素は、信号2402、2404、およびオプションの2404bを提供する。
ビームフォーマ2405は、適応雑音消去ユニット2406および希望音声活動検出器2412(フィルタコントローラー)に結合されている。主チャネル信号は、2408aにおいてビームフォーマ2405から出力され、適応雑音消去ユニット2406に入力される。同様に、参照チャネル信号は、2410aにおいてビームフォーマ2405から出力され、適応雑音消去ユニット2406に入力される。主チャネル信号はまた、ビームフォーマ2405から出力され、2408bにおいて希望音声活動検出器2412に入力される。同様に、参照チャネル信号は、ビームフォーマ2405から出力され、2410bにおいて希望音声活動検出器2412に入力される。オプションとして、第二参照チャネル信号は、2409aにおいてビームフォーマ2405から出力され、適応雑音消去ユニット2406に入力される。第二参照チャネル信号は、2409bにおいてビームフォーマ2405から出力され、希望音声活動検出器2412に入力される。
希望音声活動検出器2412は、入力2408b、2410b、およびオプションの2409bを使用して、適応雑音消去ユニット2408のためのフィルタ制御信号2414および単一チャネル雑音低減ユニット2418のためのフィルタ制御信号2416を生成する。適応雑音消去ユニット2406は、多チャネルフィルタリングを提供し、フィルタリングの第一段階中に主チャネル2408aからの不要オーディオの第一量をフィルタリングして、2407においてフィルタリングされた主チャネルを出力する。単一チャネル雑音低減ユニット2418は、入力として、フィルタリングされた主チャネル2407を受信し、フィルタリングの第二段階を提供し、それにより、2407からの不要オーディオをさらに低減させる。単一チャネル雑音低減ユニット2418は、2420においてほとんど希望オーディオを出力する。
希望音声活動検出器2412は、自動平衡ユニット2424のための制御信号2422を提供する。自動平衡ユニット2424は、2426において、第一マイク2402からの信号パスに結合されている。自動平衡ユニット2424はまた、2428において、第二マイク2404からの信号パスに結合されている。オプションとして、自動平衡ユニット2424はまた、2429において、第三マイク2404bからの信号パスに結合されている。自動平衡ユニット2424は、システムの動作寿命にわたって遠距離場信号に対するマイク応答の平衡をとる。マイクチャネルのバランスを保つことにより、システムの性能が向上し、マイクの感度のドリフトを防ぐことにより、高レベルの性能を維持する。自動平衡ユニットについては、以下の図と併せて以下で詳しく説明される。
図24Bは、本発明の実施形態に係る、雑音低減のためのプロセスを全体的に2450で示す。図24Bを参照すると、プロセスは、ブロック2452において開始する。ブロック2454において、主音響信号がシステムによって受信される。主音響信号は、例えば、様々な実施形態において、2102(図21)、2302/2308a/2308b(図23)、または2402/2408a/2408b(図24A)によって表されるような信号であり得る。ブロック2456において、参照音響信号がシステムによって受信される。参照音響信号は、例えば、様々な実施形態において、2104およびオプションの2104b(図21)、2304/2310a/2310bおよびオプションの2304b/2311a/2311b(図23)、または2404/2410a/2410bおよびオプションの2404b/2409a/2409b(図24A)によって表されるような信号であり得る。ブロック2458において、適応フィルタリングは、複数の入力のチャネルによって実行され、例えば、適応フィルタユニット2106(図21)、2306(図23)、および2406(図24A)を使用して、例えば、2107(図21)、2307(図23)、および2407(図24A)で示されるフィルタリングされた音響信号を提供する。ブロック2460において、単一チャネルユニットを使用して、ブロック2458のプロセスから生じるフィルタリングされた音響信号をフィルタリングする。単一チャネルユニットは、例えば、様々な実施形態において、2118(図21)、2318(図23)、または2418(図24A)によって表されるようなユニットであり得る。当該プロセスはブロック2462において終了する。
様々な実施形態において、2106(図21)、2306(図23)、および2406(図24A)などの適応雑音消去ユニットは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、適応雑音消去ユニット2106、2306または2406は、単一の集積回路ダイに実装される。他の実施形態において、適応雑音消去ユニット2106、2306または2406は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。
様々な実施形態において、2018(図21)、2318(図23)、および2418(図24A)などの単一チャネル雑音消去ユニットは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、単一チャネル雑音消去ユニット2118、2318または2418は、単一の集積回路ダイに実装される。他の実施形態において、単一チャネル雑音消去ユニット2118、2318または2418は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。
様々な実施形態において、2112(図21および22)または2312(図23)などのフィルタコントローラーは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、フィルタコントローラー2112または2312は、単一の集積回路ダイに実装される。他の実施形態において、フィルタコントローラー2112または2312は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。
様々な実施形態において、2305(図23)または2405(図24A)などのビームフォーマは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、ビームフォーマ2305または2405は、単一の集積回路ダイに実装される。他の実施形態において、フィルタコントローラー2305または2405は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。
図25Aは、本発明の実施形態に係る、ビーム形成を全体的に2500で示す。図25Aを参照すると、ビーム形成ブロック2506は、二つのマイク入力2502および2504に適用される。一つまたは複数の実施形態において、マイク入力2502は、第一指向性マイクから生じることができ、マイク入力2504は、第二指向性マイクから生じることができ、または、マイク信号2502および2504は、全方向性マイクから生じることができる。さらに他の実施形態において、マイク信号2502および2504は、双方向圧力勾配マイクの出力によって提供される。様々な指向性マイクは使用されることができ、例えば、これに限定するものではないが、カージオイドビームパターン、ダイポールビームパターン、全方向性ビームパターン、またはユーザで画定されるビームパターンを有するマイクを使用する。いくつかの実施形態において、一つまたは複数の音響要素は、マイク入力2502および2504を提供するように構成される。
様々な実施形態において、ビーム形成ブロック2506は、フィルタ2508を含む。使用されるマイクのタイプおよび特定の用途に応じて、フィルタ2508は、マイク入力2502のDCおよび超低周波成分をフィルタリングする直流(direct current;DC)遮断フィルタを提供することができる。フィルタ2508の後に、いくつかの実施形態において、追加のフィルタリングは、フィルタ2510によって提供される。一部のマイクは、周波数の関数として非平坦の応答を有する。そのような場合、ディエンファシスフィルタを使用してマイクの周波数応答を平坦化することが望ましい場合がある。フィルタ2510は、ディエンファシスを提供することができ、それにより、マイクの周波数応答を平坦化する。フィルタ2510によるディエンファシスフィルタリングの後に、主マイクチャネルは、2512aにおいて適応雑音消去ユニットに供給され、2512bにおいて希望音声活動検出器に供給される。
マイク入力2504は、ビーム形成ブロック2506に入力され、いくつかの実施形態においてフィルタ2512によってフィルタリングされる。使用されるマイクのタイプおよび特定の用途に応じて、フィルタ2512は、マイク入力2504のDCおよび超低周波成分をフィルタリングする直流(DC)遮断フィルタを提供することができる。フィルタ2514は、フィルタ2512から出力される音響信号をフィルタリングする。フィルタ2514は、ゲイン、位相を調整し、音響信号の周波数応答を形成することもできる。フィルタ2514の後に、いくつかの実施形態において、追加のフィルタリングは、フィルタ2516によって提供される。一部のマイクは、周波数の関数として非平坦の応答を有する。そのような場合、ディエンファシスフィルタを使用してマイクの周波数応答を平坦化することが望ましい場合がある。フィルタ2516は、ディエンファシスを提供することができ、それにより、マイクの周波数応答を平坦化する。フィルタ2516によるディエンファシスフィルタリングの後に、参照マイクチャネルは、2518aにおいて適応雑音消去ユニットに供給され、2518bにおいて希望音声活動検出器に供給される。
オプションとして、第三マイクチャネルは、2504bにおいてビーム形成ブロック2506に入力される。チャネル2504について上で説明される信号パスと同様に、第三マイクチャネルは、フィルタ2512bによってフィルタリングされる。使用されるマイクのタイプおよび特定の用途に応じて、フィルタ2512bは、マイク入力2504bのDCおよび超低周波成分をフィルタリングする直流(DC)遮断フィルタを提供することができる。フィルタ2514bは、フィルタ2512bから出力される音響信号をフィルタリングする。フィルタ2514bは、ゲイン、位相を調整し、音響信号の周波数応答を形成することもできる。フィルタ2514bの後に、いくつかの実施形態において、追加のフィルタリングは、フィルタ2516bによって提供される。一部のマイクは、周波数の関数として非平坦の応答を有する。そのような場合、ディエンファシスフィルタを使用してマイクの周波数応答を平坦化することが望ましい場合がある。フィルタ2516bは、ディエンファシスを提供することができ、それにより、マイクの周波数応答を平坦化する。フィルタ2516bによるディエンファシスフィルタリングの後に、第二参照マイクチャネルは、2520aにおいて適応雑音消去ユニットに供給され、2520bにおいて希望音声活動検出器に供給される。
図25Bは、本発明の実施形態に係る、別のビーム形成を全体的に2530で示す。図25Bを参照すると、ビームパターンは、第一マイク2532および第二マイク2538を使用して主チャネルに対して作成される。第一マイク2532から出力される信号2534は、加算器2536に入力される。第二マイク2538から出力される信号2540の振幅は、ブロック2542において調整され、信号2540の位相は、ブロック2544において遅延を適用することによって調整され、それにより、加算器2536に入力される信号2546を得る。加算器2536は、一方の信号を他方から減算し、それにより、出力信号2548を得る。マイク2532および2538の最初のビームパターンならびに2542において適用されるゲインおよび2544において適用される遅延に応じて、出力信号2548は、様々な形態を呈することができるビームパターンを有する。非限定的な例として、ビームパターンは、カージオイド、ダイポールなどを含むことができる。
ビームパターンは、第三マイク2552および第四マイク2558を使用して参照チャネルに対して作成される。第三マイク2552から出力される信号2554は、加算器2556に入力される。第四マイク2558から出力される信号2560の振幅は、ブロック2562において調整され、信号2560の位相は、ブロック2564において遅延を適用することによって調整され、それにより、加算器2556に入力される信号2566を得る。加算器2556は、一方の信号を他方から減算し、それにより、出力信号2568を得る。マイク2552および2558の最初のビームパターンならびに2562において適用されるゲインおよび2564において適用される遅延に応じて、出力信号2568は、様々な形態を呈することができるビームパターンを有する。非限定的な例として、ビームパターンは、カージオイド、ダイポールなどを含むことができる。
図25Cは、本発明の実施形態に係る、共有音響要素を利用するビーム形成を全体的に2570で示す。図25Cを参照すると、マイク2552は、主音響チャネルと参照音響チャネルとの間で共有されている。マイク2552からの出力は分割され、2572においてゲイン2574および遅延2567へ移動し、次いで2586において加算器2536に入力される。2574での適切なゲインおよび2576での遅延を選択して、加算器2536からの出力2548と同等の加算器2536からの出力2578(図25B)を実現することができる。同様に、ゲイン2582および遅延2584を調整して、2568(図25B)と同等の出力信号2588を提供することができる。非限定的な例として、ビームパターンは、カージオイド、ダイポールなどを含むことができる。
図26は、本発明の実施形態に係る、多チャネル適応フィルタリングを全体的に2600で示す。図26を参照すると、適応フィルタユニットの実施形態は、遅延要素2606に入力される主チャネル2604(マイク信号を含む)を備えるように示されている。参照チャネル2602(マイク信号を含む)は、適応フィルタ2608に入力される。様々な実施形態において、適応フィルタ2608は、正規化最小二乗平均適応(normalized least-mean-square-adaptation;NLMS)または別のアルゴリズムを実装するように設計される適応FIRフィルタであり得る。本発明の実施形態は、NLMS適応に限定されない。適応FIRフィルタは、参照信号2602からの希望オーディオの推定値をフィルタリングする。一つまたは複数の実施形態において、適応フィルタ2608の出力2609は、加算器2610に入力される。遅延された主チャネル信号2607は加算器2610に入力され、出力2609は遅延された主チャネル信号2607から差し引かれる。加算器2616の出力は、量が減少した不要オーディオを有する希望オーディオを含む信号を提供する。
音響システムが本発明の実施形態を採用する多くの環境は、残響が存在する状態で使用される。残響は、一種の雑音をもたらし、本明細書で説明されるフィルタリングおよび信号抽出の対象である不要オーディオをもたらす。様々な実施形態において、2600で示される2チャネル適応FIRフィルタリングは、二つのチャネルとそれらが使用される環境との間の残響をモデル化する。したがって、不要オーディオは、直接パス、および環境のインパルス応答をモデル化するために適応FIRフィルタを必要とする残響パスに沿って伝播する。必要な精度に応じて、環境のインパルス応答のさまざまな近似を行うことができる。一つの非限定的な例において、遅延の量は、環境のインパルス応答時間にほぼ等しい。別の非限定的な例において、遅延の量は、環境のインパルス応答よりも大きい。一実施形態において、遅延の量は、環境のインパルス応答時間のn倍にほぼ等しい。nは、例えば、2または3以上に等しくなり得る。または、遅延量は、インパルス応答時間の整数倍ではなく、例えば、0.5、1.4、2.75などである。例えば、一実施形態において、フィルタ長は、2606のために選択される遅延の2倍にほぼ等しい。したがって、200タップを有する適応フィルタが使用される場合、遅延2606の長さは、100タップの時間遅延にほぼ等しい。100タップによる伝播時間に相当する時間遅延は、単に例示のために提供されており、本発明の実施形態に対するいかなる形態の制限も意味しない。
本発明の実施形態は、ある範囲のインパルス応答時間を有する様々な環境で使用することができる。インパルス応答時間のいくつかの例は、例示のみを目的として、非限定的な例として与えられており、本発明の実施形態を制限するものではない。例えば、オフィス環境において、通常は、約100ミリ秒から200ミリ秒のインパルス応答時間がある。車のキャビンの内部は、30ミリ秒から60ミリ秒の範囲のインパルス応答時間を提供できる。一般に、本発明の実施形態は、インパルス応答時間が数ミリ秒から500ミリ秒以上の範囲であり得る環境において使用される。
適応フィルタユニット2600は、2614において、禁止ロジック2214およびフィルタ制御信号2114(図22)などの禁止ロジックと通信する。禁止ロジック2214によって制御される信号2614は、フィルタ2608によって実行されるフィルタリングおよびフィルタ係数の適応を制御するために使用される。適応雑音消去ユニット2600の出力2616は、例えば、前の図で上に説明されるような単一チャネル雑音消去ユニット、例えば、2118(図21)、2318(図23)、および2418(図24A)に入力される。不要オーディオの第一レベルは主音響チャネルから抽出され、それにより出力2616が生成される。さまざまな動作条件において、雑音のレベルつまり不要オーディオは、興味のある信号つまり希望オーディオに比べて非常に大きくなる可能性がある。本発明の実施形態は、主チャネルと参照チャネルとの間に信号対雑音比にいくらかの差が存在する条件で動作可能である。いくつかの実施形態において、信号対雑音比の差は、およそ1デシベル(dB)以下の幅である。他の実施形態において、信号対雑音比の差は、およそ1デシベル(dB)以上の幅である。出力2616は、単一チャネル雑音低減ユニットを使用する後続のプロセスに含まれる不要オーディオの量を低減さえるために、さらにフィルタリングされる。
信号2614(図26)を含む上記の図22で説明される禁止ロジックは、主チャネルまたは参照チャネルのいずれかが非アクティブであると決定された場合、フィルタ2608の実質的な稼働休止およびフィルタ係数の非適応を提供する。そのような場合、主チャネル2604に存在する信号は2616において出力される。
主チャネルと参照チャネルがアクティブであり、希望オーディオが検出された場合、または一時停止のしきい値に達していない場合、フィルタ係数を凍結することによって適応は無効になり、参照チャネル2602上の信号は、フィルタ2608によってフィルタリングされ、加算器2610によって主チャネル2607から減算され、2616において出力される。
主チャネルと参照チャネルがアクティブであり、希望オーディオが検出されず、一時停止しきい値(一時停止時間とも呼ばれる)を超えた場合、フィルタ係数が調整される。一時停止のしきい値は、アプリケーションによって異なる。例えば、一つの非限定的な例において、自動音声認識(ASR)の場合、一時停止のしきい値は約数分の1秒になる。
図28Aは、本発明の実施形態に係る、希望音声活動検出を全体的に2800で示す。図28Aを参照すると、2806において、二重入力希望音声活動検出器が示される。主チャネルからの音響信号は、2802において、例えば、ビームフォーマから、または前の図と併せて上記で説明される主音響チャネルから、二重入力希望音声活動検出器2806の第一信号パス2870aに入力される。第一信号パス2807aは、音声帯域フィルタ2808を含む。音声帯域フィルタ2808は、主音響チャネル2802内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ2808は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、50から300Hzの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約50Hzである。標準のテレフォニーにおいて、下部のコーナー周波数は約300Hzである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は2,500Hzである。上部のコーナー周波数のもう一つの非限定的な位置は、4,000Hzである。
第一信号パス2807aは、短期パワー計算機2810を含む。短期パワー計算機2810は、様々な実施形態において、二乗平均平方根(root mean square;RMS)測定、パワー検出器、エネルギー検出器などとして実現される。短期パワー計算機2810は、同義語として、短時間パワー計算機2810と呼ばれることができる。短期パワー検出器2810は、フィルタ処理した信号中の瞬間的なパワーを近似的に計算する。短期パワー検出器2810(Y1)の出力は、信号圧縮器2812に入力される。様々な実施形態において、圧縮器2812は、信号をLog2ドメイン、Log10ドメインなどに変換する。他の実施形態において、圧縮器2812は、信号Y1に対してユーザで画定される圧縮アルゴリズムを実行する。
上記の第一信号パスと同様に、参照チャネルからの音響信号は、2804において、例えば、ビームフォーマから、または前の図と併せて上記で説明される参照音響チャネルから、二重入力希望音声活動検出器2806の第二信号パス2807bに入力される。第二信号パス2807bは、音声帯域フィルタ2816を含む。音声帯域フィルタ2816は、参照音響チャネル2804内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ2816は、第一信号パスおよび音声帯域フィルタ2808について上で説明されるような、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。
第二信号パス2807bは、短期パワー計算機2818を含む。短期パワー計算機2818は、様々な実施形態において、二乗平均平方根(RMS)測定、パワー検出器、エネルギー検出器などとして実現される。短期パワー計算機2818は、同義語として、短時間パワー計算機2818と呼ばれることができる。短期パワー検出器2818は、フィルタ処理した信号中の瞬間的なパワーを近似的に計算する。短期パワー検出器2818(Y2)の出力は、信号圧縮器2820に入力される。様々な実施形態において、圧縮器2820は、信号をLog2ドメイン、Log10ドメインなどに変換する。他の実施形態において、圧縮器2820は、信号Y2に対してユーザで画定される圧縮アルゴリズムを実行する。
第二信号パス2822からの圧縮信号は、減算器2824において、第一信号パス2814からの圧縮信号から減算され、それにより、2826(Z)において正規化された主信号が得られる。他の実施形態において、異なる圧縮関数が2812および2820において適用され、それにより、2826において信号の異なる正規化がもたらされる。他の実施形態において、対数圧縮が実施されていない場合、正規化を達成するために、除算演算は2824において適用されることができる。例えば、平方根関数に基づく圧縮が実装されている場合などである。
正規化された主信号2826は、単一チャネル正規化された音声閾値比較器(single channel normalized voice threshold comparator;SC-NVTC)2828に入力され、それにより、正規化された希望音声活動検出信号2830が得られる。2チャネル音声活動検出器の構造は、二つの入力チャネルの信号対雑音比の全体的な差に基づく正規化された希望音声活動検出信号2830を使用して、希望音声の検出を提供することに留意されたい。したがって、正規化された希望音声活動検出信号2830は、特定の周波数ビンのエネルギーではなく、音声帯域中のエネルギーの積分に基づいており、それにより、上記の雑音消去ユニット内の線形性を維持する。圧縮信号2814および2822は、対数圧縮を利用して、2826(Z)において入力を提供し、当該入力は、ゼロ未満からゼロを超えるまでさまざまある値を持つことができる雑音フロア(以下の図28Eの列2895c、列2895d、または列2895eを参照する)を有し、常にゼロより高い雑音フロア(以下の図28Eの列2895bを参照する)を有する非圧縮の単一チャネル入力と異なる。
図28Bは、本発明の実施形態に係る、単一チャネル正規化された音声閾値比較器(SC-NVTC)を全体的に2850で示す。図28Bを参照すると、正規化された主信号2826は、長期正規化されたパワー推定器2832に入力される。長期正規化されたパワー推定器2832は、正規化された主信号2826の実行中の見積もりを提供する。実行中の見積もりは、希望オーディオの下限を提供する。オフセット値2834は、加算器2836において、長期正規化されたパワー推定器2832の出力のランニング見積もりに加えられる。加算器2838の出力は、比較器2840に入力される。正規化された主信号2826の瞬時見積もり2842は、比較器2840に入力される。比較器2840は、2842での瞬時値を、2838でのランニング比率およびオフセットの和と、比較するロジックを含む。2842での値は2838での値よりも大きい場合、希望オーディオは検出され、それに応じてフラグは、設定され、正規化された希望音声活動検出信号2830の一部として送信される。2842での値は2838での値よりも小さい場合、希望オーディオは検出されず、それに応じてフラグは、設定され、正規化された希望音声活動検出信号2830の一部として送信される。長期正規化されたパワー推定器2832は、振幅変動の変化を遅くするために、正規化された主信号2826を十分に長い時間にわたって平均化する。したがって、振幅変動は、2833においてゆっくりと変化する。平均化時間は、非限定的な例として、数分の1秒から数分までさまざまあり得る。様々な実施形態において、平均化時間は、2832の出力において、ゆっくりと変化する振幅変動を提供するように選択される。
図28Cは、本発明の実施形態に係る、複数の参照チャネルを利用する希望音声活動検出を全体的に2846で示す。図28Cを参照すると、2848において、希望音声検出器が示される。希望音声検出器2848は、入力として、主チャネル2802および第一信号パス2807a(上記で図28Aと併せて説明された)を、参照チャネル2804および第二信号パス2807b(上記で図28Aと併せて説明された)と共に含む。それに加えて、希望音声検出器2848に入力され、第三信号パス2807cの一部である第二参照音響チャネル2850がある。第二信号パス2807b(上記)と同様に、第二参照チャネルからの音響信号は、2850において、例えば、ビームフォーマから、または上記で前の図と併せて説明される第二参照音響チャネルから、多入力希望音声検出器2848の第三信号パス2807cに入力される。第三信号パス2807cは、音声帯域フィルタ2852を含む。音声帯域フィルタ2852は、参照音響チャネル2850内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ2852は、第二信号パスおよび音声帯域フィルタ2808について上で説明されるような、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。
第三信号パス2807cは、短期パワー計算機2854を含む。短期パワー計算機2854は、様々な実施形態において、二乗平均平方根(RMS)測定、パワー検出器、エネルギー検出器などとして実現される。短期パワー計算機2854は、同義語として、短時間パワー計算機2854と呼ばれることができる。短期パワー検出器2854は、フィルタ処理した信号中の瞬間的なパワーを近似的に計算する。短期パワー検出器2854の出力は、信号圧縮器2856に入力される。様々な実施形態において、圧縮器2856は、信号をLog2ドメイン、Log10ドメインなどに変換する。他の実施形態において、圧縮器2854は、信号Y3に対してユーザで画定される圧縮アルゴリズムを実行する。
第三信号パス2858からの圧縮信号は、減算器2860において、第一信号パス2814からの圧縮信号から減算され、それにより、2862(Z2)において正規化された主信号が得られる。他の実施形態において、異なる圧縮関数が2856および2812において適用され、それにより、2862において信号の異なる正規化がもたらされる。他の実施形態において、対数圧縮が実施されていない場合、除算演算は2860において適用されることができる。例えば、平方根関数に基づく圧縮が実装されている場合などである。
正規化された主信号2862は、単一チャネル正規化された音声閾値比較器(SC-NVTC)2864に入力され、それにより、正規化された希望音声活動検出信号2868が得られる。多チャネル音声活動検出器の構造は、二つの入力チャネルの信号対雑音比の全体的な差に基づく正規化された希望音声活動検出信号2868を使用して、希望音声の検出を提供することに留意されたい。したがって、正規化された希望音声活動検出信号2868は、特定の周波数ビンのエネルギーではなく、音声帯域中のエネルギーの積分に基づいており、それにより、上記の雑音消去ユニット内の線形性を維持する。圧縮信号2814および2858は、対数圧縮を利用して、2862(Z2)において入力を提供し、当該入力は、ゼロ未満からゼロを超えるまでさまざまある値を持つことができる雑音フロア(以下の図28Eの列2895c、列2895d、または列2895eを参照する)を有し、常にゼロより高い雑音フロア(以下の図28Eの列2895bを参照する)を有する非圧縮の単一チャネル入力とは異なる。
少なくとも二つの参照チャネル入力を備える多チャネル入力を有する希望音声検出器2848は、希望音声活動信号2874を出力するために使用される二つの正規化された希望音声活動検出信号2868および2870を提供する。一実施形態において、正規化された希望音声活動検出信号2868および2870は、論理ORゲート2872に入力される。論理ORゲートは、その入力2868および2870に基づいて、希望音声活動信号2874を出力する。さらに他の実施形態において、追加の参照チャネルは、希望音声検出器2848に追加されることができる。追加の各参照チャネルは、別の正規化された主チャネルを作成するために使用され、その正規化された主チャネルは、別の単一チャネル正規化された音声閾値比較器(SC―NVTC)(図示せず)に入力される。追加の単一チャネル正規化された音声閾値比較器(SC―NVTC)(図示せず)からの出力は、追加の排他的ORゲート(これも図示せず)(一実施形態において)を介して2874と組み合わされて、希望音声活動信号を提供し、その信号は上記で前の図と併せて説明されたように出力される。多チャネル希望音声検出器で追加の参照チャネルを利用すると、上記のように、複数の参照チャネルを介して雑音フィールドに関してより多くの情報が得られるので、希望音声のよりロバストな検出が得られる。
図28Dは、本発明の実施形態に係る、圧縮を利用するプロセスを全体的に2880で示す。図28Dを参照すると、プロセスは、ブロック2882において開始する。図28Aまたは図28Cと併せて説明されるように、ブロック2884において、主音響チャネルは、例えば、Log10圧縮またはユーザによって画定される圧縮を利用して圧縮される。図28Aまたは図28Cと併せて説明されるように、ブロック2886において、参照音響信号は、例えば、Log10圧縮またはユーザによって画定される圧縮を利用して圧縮される。ブロック2888において、正規化された主音響信号が作成される。ブロック2890において、希望音声は、正規化された音響信号を使用して、検出される。当該プロセスはブロック2892において終了する。
図28Eは、本発明の実施形態に係る、圧縮を提供するための異なる関数を全体的に2893で示す。図28Eを参照すると説明のために、表2894は、いくつかの圧縮関数を示しており、それによって限定を意味するものではない。列2895aには、変数Xの6つのサンプル値が含まれている。この例において、2896で示されるように、変数Xは0.01から1000.0の範囲の値を取る。列2895bは、圧縮なしを示し、ここでY=Xである。列2895cは、10を底とする対数圧縮を示し、ここで圧縮値Y=Log10(X)である。列2895dは、ln(X)圧縮を示し、ここで圧縮値Y=ln(X)である。列2895eは、2を底とする対数圧縮を示し、ここでY=Log2(X)である。2895c、2895d、または2895eよりも多かれ少なかれ圧縮を提供するために、必要に応じてユーザで画定される圧縮(図示せず)を実装することもできる。2812および2820での圧縮関数(図28A)を利用して、短期パワー検出器2810および2818の結果を圧縮し、それにより、単一チャネル正規化された音声閾値比較器(SC―NVTC)2828に入力される2826(Z)での正規化された主信号のダイナミックレンジが減少する。同様に、2812、2820、および2856での圧縮関数(図28A)を利用して、短期パワー検出器2810、2818、および2854の結果を圧縮し、それにより、SC―NVTC828およびSCーNVTC864にそれぞれ入力される2826(Z)および2862(Z2)での正規化された主信号のダイナミックレンジが減少する。圧縮によって達成されるダイナミックレンジの減少により、希望オーディオの存在をより正確に検出することができ、したがって、本明細書に示される本発明の実施形態によって、より大きく雑音低減を実現することができる。
様々な実施形態において、図28A、図28B、図28C、図28D、および図28Eに示されるような多入力希望音声検出器のコンポーネントは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、多入力希望音声検出器は、単一の集積回路ダイに実装される。他の実施形態において、多入力希望音声検出器は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。
図29Aは、本発明の実施形態に係る、自動平衡構造を全体的に2900で示す。図29Aを参照すると、自動平衡コンポーネント2903は、第一信号パス2905aおよび第二信号パス2905bを有する。第一音響チャネル2902a(MIC1)は、2902bにおいて、第一信号パス2905aに結合されている。第二音響チャネル2904aは、2904bにおいて、第二信号パス2905bに結合されている。音響信号は、2902bにおいて、音声帯域フィルタ2906に入力される。音声帯域フィルタ2906は、第一音響チャネル2902a内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ1906は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、50から300Hzの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約50Hzである。標準のテレフォニーにおいて、下部のコーナー周波数は約300Hzである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は2,500Hzである。上部のコーナー周波数のもう一つの非限定的な位置は、4,000Hzである。
第一信号パス2805aは、長期パワー計算機2908を含む。長期パワー計算機2908は、様々な実施形態において、二乗平均平方根(RMS)測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機2908は、同義語として、長時間パワー計算機2908と呼ばれることができる。長期パワー計算機2908は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機2908の出力2909は、除算器2917に入力される。制御信号2914は、2916において、長期パワー計算機2908に入力される。制御信号2914は、例えば、図28A、図28B、図28Cの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第一チャネル2902b上の音響信号のセグメントは、2908で生成された長期パワー平均から除外される。
音響信号は、2904bにおいて、第二信号パス2905bの音声帯域フィルタ2910に入力される。音声帯域フィルタ2910は、第二音響チャネル2904a内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ2910は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、50から300Hzの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約50Hzである。標準のテレフォニーにおいて、下部のコーナー周波数は約300Hzである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は2,500Hzである。上部のコーナー周波数のもう一つの非限定的な位置は、4,000Hzである。
第二信号パス2905bは、長期パワー計算機2912を含む。長期パワー計算機2912は、様々な実施形態において、二乗平均平方根(RMS)測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機2912は、同義語として、長時間パワー計算機2912と呼ばれることができる。長期パワー計算機2912は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機2912の出力2913は、除算器2917に入力される。制御信号2914は、2916において、長期パワー計算機2912に入力される。制御信号2916は、例えば、図28A、図28B、図28Cの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第二チャネル2904b上の音響信号のセグメントは、2912で生成された長期パワー平均から除外される。
一実施形態において、振幅補正信号2918を生成するために、出力2909は、出力2913によって2917において正規化される。一実施形態において、除算器は、2917において使用される。2922において補正された第二マイク信号を生成するために、振幅補正信号2918は、乗算器2920において、2904a上の第二マイク信号の瞬時値に乗算される。
別の実施形態において、または、振幅補正信号2918を生成するために、出力2913は、出力2909によって2917において正規化される。一実施形態において、除算器は、2917において使用される。2902aに結合される乗算器(図示せず)を使用して、第一マイクチャネル2902aの補正された第一マイク信号を生成するために、振幅補正信号2918は、1902a上の第一マイク信号の瞬時値に乗算される。したがって、様々な実施形態において、第二マイク信号は、第一マイク信号に対して、自動的に平衡が取れ、または、オプションとして、第一マイク信号は、第二マイク信号に対して、自動的に平衡が取れている。
希望オーディオがない場合に、2908および2912において計算される長期平均パワーは、実行されることに留意されたい。したがって、平均パワーは、通常は、遠距離場において生じる不要オーディオの平均値を表す。様々な実施形態において、非限定的な例として、いくつかの実施形態において、長期パワー計算機の持続時間は、例えば、0.5秒などの約数分の1秒から5秒までおよび5秒から数分の範囲であり、アプリケーションに依存する。
図29Bは、本発明の実施形態に係る、自動平衡を全体的に2950で示す。図29Bを参照すると、自動平衡コンポーネント2952は、入力として、主音響チャネル2954aおよび参照音響チャネル2956aを受信するように構成される。平衡関数は、第一音響チャネル2902a(MIC1)および第二音響チャネル2904a(MIC2)を使用して図29Aと併せて上記で提供された説明と、同様に続行する。
図29Bを参照すると、自動平衡コンポーネント2952は、第一信号パス2905aおよび第二信号パス2905bを有する。第一音響チャネル2954a(主)は、2954bにおいて、第一信号パス2905aに結合されている。第二音響チャネル2956aは、2956bにおいて、第二信号パス2905bに結合されている。音響信号は、2954bにおいて、音声帯域フィルタ2906に入力される。音声帯域フィルタ2906は、第一音響チャネル2954a内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ2906は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、50から300Hzの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約50Hzである。標準のテレフォニーにおいて、下部のコーナー周波数は約300Hzである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は2,500Hzである。上部のコーナー周波数のもう一つの非限定的な位置は、4,000Hzである。
第一信号パス2905aは、長期パワー計算機2908を含む。長期パワー計算機2908は、様々な実施形態において、二乗平均平方根(RMS)測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機2908は、同義語として、長時間パワー計算機2908と呼ばれることができる。長期パワー計算機2908は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機2908の出力2909bは、除算器2917に入力される。制御信号2914は、2916において、長期パワー計算機2908に入力される。制御信号2916は、例えば、図28A、図28B、図28Cの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第一チャネル2954b上の音響信号のセグメントは、2908で生成された長期パワー平均から除外される。
音響信号は、2956bにおいて、第二信号パス2905bの音声帯域フィルタ2910に入力される。音声帯域フィルタ2910は、第二音響チャネル2956a内の希望音声エネルギーの大部分を取り込む。様々な実施形態において、音声帯域フィルタ2910は、下部のコーナー周波数と、上部のコーナー周波数と、上部のコーナー周波数からのロールオフと、を特徴とする帯域通過フィルタである。様々な実施形態において、アプリケーションに応じて、下部のコーナー周波数は、50から300Hzの範囲であり得る。例えば、広帯域電話において、下部のコーナー周波数は約50Hzである。標準のテレフォニーにおいて、下部のコーナー周波数は約300Hzである。マイクの周波数応答の比較的平坦な部分によって拾われた音声エネルギーの大部分を、フィルタが通過できるようにするために、上部のコーナー周波数は選択される。したがって、アプリケーションに応じて、上部のコーナー周波数をさまざまな位置に配置できる。一つの位置の非限定的な例は2,500Hzである。上部のコーナー周波数のもう一つの非限定的な位置は、4,000Hzである。
第二信号パス2905bは、長期パワー計算機2912を含む。長期パワー計算機2912は、様々な実施形態において、二乗平均平方根(RMS)測定、パワー検出器、エネルギー検出器などとして実現される。長期パワー計算機2912は、同義語として、長時間パワー計算機2912と呼ばれることができる。長期パワー計算機2912は、フィルタ処理した信号中のランニング平均長期パワーを近似的に計算する。長期パワー計算機2912の出力2913bは、除算器2917に入力される。制御信号2914は、2916において、長期パワー計算機2912に入力される。制御信号2916は、例えば、図28A、図28B、図28Cの希望オーディオが存在する場合および希望オーディオが存在しない場合を示す希望音声検出器と併せて説明される上記のような信号を提供する。希望オーディオが存在する第二チャネル2956b上の音響信号のセグメントは、2912で生成された長期パワー平均から除外される。
一実施形態において、振幅補正信号2918bを生成するために、出力2909bは、出力2913bによって2917において正規化される。一実施形態において、除算器は、2917において使用される。2922bにおいて補正された第二マイク信号を生成するために、振幅補正信号2918bは、乗算器2920において、2956a上の第二マイク信号の瞬時値に乗算される。
別の実施形態において、また、振幅補正信号2918bを生成するために、出力2913bは、出力2909bによって2917において正規化される。一実施形態において、除算器は、2917において使用される。第一マイクチャネル2954aの補正された第一マイク信号を生成するために、2954aに結合される乗算器(図示せず)を使用して、振幅補正信号2918bは、2954a上の第一マイク信号の瞬時値に乗算される。したがって、様々な実施形態において、第二マイク信号は、第一マイク信号に対して、自動的に平衡が取れ、または、オプションとして、第一マイク信号は、第二マイク信号に対して、自動的に平衡が取れている。
希望オーディオがない場合に、2908および2912において計算される長期平均パワーは、実行されることに留意されたい。したがって、平均パワーは、通常は、遠距離場において生じる不要オーディオの平均値を表す。様々な実施形態において、非限定的な例として、いくつかの実施形態において、長期パワー計算機の持続時間は、例えば、0.5秒などの約数分の1秒から5秒までおよび5秒から数分の範囲であり、アプリケーションに依存する。
自動平衡コンポーネント2902または2952の実施形態は、図24Aに示されるような複数のマイクチャネルの自動平衡のために構成される。そのような構成において、複数のチャネル(複数の参照チャネルなど)は、主チャネルに対して、平衡が取れている。または、複数の参照チャネルおよび一つの主チャネルは、図29Aまたは図29Bと併せて上記で説明されるように、特定の参照チャネルに対して、平衡が取れている。
図29Cは、本発明の実施形態に係る、フィルタリングを示す。図29Cを参照すると、2960aは、周波数2964の関数としてプロットされた振幅2962を有する二つのマイク信号2966aおよび2668aを示す。いくつかの実施形態において、マイクは、周波数の関数としての不変の感度を持たない。例えば、マイク応答2966aは、周波数が平坦である広帯域励起によって励起された非平坦の周波数応答を有するマイク出力(応答)を示すことができる。マイク応答2966aは、非平坦な領域2974および平坦な領域2970を含む。この例において、応答2968aを生成するマイクは、周波数に対して、均一な感度を持っている。したがって、周波数が平坦である広帯域励起に応えて2968aは全体的に平坦である。いくつかの実施形態において、マイクの応答の平坦な領域2970の平衡を取ることは、重要である。そのような場合、非平坦な領域2974のエネルギーはマイクの自動平衡手順に影響を与えないようにするために、非平坦な領域2974が除去される。興味深いのは、二つのマイクの応答の平坦な領域間の差異2972である。
2960bにおいて、フィルタ関数2978aは、周波数2964の関数としてプロットされる振幅2976で、プロットされて示されている。様々な実施形態において、フィルタ関数は、マイクの応答の非平坦な部分2974を消去するように選択される。フィルタ関数2978aは、下部のコーナー周波数2978bおよび上部のコーナー周波数2978cに特徴付けられる。2960bのフィルタ関数は、二つのマイク信号2966aと2968aに適用され、結果が2960cに示される。
2960cにおいて、マイク信号2966aおよび2968aのフィルタリングされた表現2966cおよび2968cが、振幅2980および周波数2966の関数としてプロットされる。差異2972は、二つのフィルタリングされたマイク信号2966cと2968cとの間の感度の差異を描く。図29Aおよび図29Bと併せて説明される上記のシステムにより、二つのマイク応答間のその差異の平衡が取れている。図29Aおよび図29Bに戻って、様々な実施形態において、音声帯域フィルタ2906および2910は、一つの非限定的な例において、2960bに示されるフィルタ関数は、マイクチャネル2902bと2904b(図29A)、または主チャネルと参照チャネル2954bと2956b(図29B)のいずれかに適用されることができる。上記の図29Aまたは図29Bで説明される自動平衡手順により、二つのマイクチャネル間の差異2972は最小化または消去される。
図30は、本発明の実施形態に係る、自動平衡のためのプロセスを全体的に3000で示す。図30を参照すると、プロセスは、ブロック3002において開始する。ブロック3004において、第一マイクチャネルの平均長期パワーが計算される。第一マイクチャネルに対して計算された平均長期パワーには、希望オーディオが存在するときに発生したマイク信号のセグメントが含まれない。希望音声活動検出器からの入力は、希望オーディオの関連部分を除外するために使用される。ブロック3006において、第二マイクチャネルの平均パワーが計算される。第二マイクチャネルに対して計算された平均長期パワーには、希望オーディオが存在するときに発生したマイク信号のセグメントが含まれない。希望音声活動検出器からの入力は、希望オーディオの関連部分を除外するために使用される。ブロック3008において、ブロック3004およびブロック3006において計算された平均値を使用して、振幅補正信号は計算される。
様々な実施形態において、自動平衡コンポーネント2903または2952のコンポーネントは、集積回路デバイスに実装され、当該集積回路デバイスは、集積回路を含む集積回路パッケージを含むことができる。いくつかの実施形態において、自動平衡コンポーネント2903または2952は、単一の集積回路ダイに実装される。他の実施形態において、自動平衡コンポーネント2903または2952は、集積回路デバイスの複数の集積回路ダイに実装され、当該集積回路デバイスは、集積回路を含むマルチチップパッケージを含むことができる。
図31は、本発明の実施形態を使用できる音響信号処理システムを全体的に3100で示す。ブロック図は、高レベルの概念的な表現であり、さまざまな方法でさまざまな構造により実装されることができる。図31を参照すると、バスシステム3102は、中央処理装置(CPU)3104、読み取り専用メモリ(ROM)3106、ランダムアクセスメモリ(RAM)3108、ストレージ3110、ディスプレイ3120、オーディオ3122、キーボード3124、ポインター3126、データ収集ユニット(DAU)3128、および通信3130を相互接続する。バスシステム3102は、例えば、システムバス、周辺機器相互接続(PCI)、アドバンストグラフィックポート(AGP)、小型コンピュータシステムインターフェース(SCSI)、米国電気電子技術者協会(IEEE)規格番号1394(FireWire)、ユニバーサルシリアルバス(USB)、またはカスタムアプリケーション用に設計された専用バスなどの一つまたは複数であってもよい。CPU3104は、単一、複数、または分散コンピューティングリソース、またはデジタル信号処理(DSP)チップであってもよい。ストレージ3110は、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ハードディスク(HD)、光ディスク、テープ、フラッシュ、メモリスティック、ビデオレコーダーなどであってもよい。音響信号処理システム3100を使用して、複数のマイク(例えば、第一マイク、第二マイクなど)から、または上記の図と併せて説明される主音響チャネルおよび複数の参照音響チャネルから入力される音響信号を受信することができる。音響信号処理システムの実際の実装に応じて、当該音響信号処理システムには、ブロック図中のコンポーネントの一部、全部、それ以上、または再配置が含まれる場合があることに留意されたい。いくつかの実施形態において、システム3100のあらゆる側面は、ソフトウェアにおいて実行される。いくつかの実施形態において、システム3100のあらゆる側面は、デジタル信号処理(DSP)チップなどの専用ハードウェア、ならびに当業者によって知られ、認識されている専用ハードウェアとソフトウェアとの組み合わせにおいて実行される。
したがって、様々な実施形態において、音響信号データは、3129において受信されて、音響信号処理システム3100によって処理される。そのようなデータは、遠隔地においてさらに処理するために、通信インターフェース3130を介して3132において送信されることができる。当業者によって認識されているように、イントラネットまたはインターネットなどのネットワークとの接続は、3132を介して得られ、それにより、音響信号処理システム3100は、遠隔地にある他のデータ処理デバイスまたはシステムと通信することができる。
例えば、本発明の実施形態は、デスクトップコンピュータまたはワークステーションとして構成されたコンピュータシステム3100に実装されることができ、例えば、WINDOWS(登録商標)XP HomeやWINDOWS(登録商標)XP Professional、Linux(登録商標)、Unixなどオペレーティングシステムを実行しているWINDOWS(登録商標)互換性のあるコンピュータ、およびOS Xなどのオペレーティングシステムを実行しているAPPLECOMPUTER,Inc.からのコンピュータに実装される。または、そのような実装と併せて、本発明の実施形態は、ブルートゥース(登録商標)通信チャネルと共に使用するために構成されるスピーカー、イヤホン、ビデオモニターなどのデバイスを有するように構成されることができる。さらに他の実施形態において、本発明の実施形態は、モバイルデバイスによって実装されるように構成され、そのモバイルデバイスは、スマートフォン、タブレットコンピュータ、眼鏡などのウェアラブルデバイス、ニアツーアイ(NTE)ヘッドセット、眼鏡、ゴーグル、日よけ帽、ヘッドバンド、ヘルメットなどの一般的な構成のヘッドウェアラブルデバイスである。
一つまたは複数の実施形態において、地元の環境からの音を聞くことを容易にするための聴覚補助は、ユーザに提供される。
図32Aは、本発明の実施形態に係る、ヘッドウェアラブルデバイス上のマイク配置を全体的に3200で示す。図32Bは、本発明の実施形態に係る、図32Aに対応するヘッドウェアラブルデバイス上のマイク配置の上面図を全体的に3220で示す。図32Cは、本発明の実施形態に係る、図32Aに対応するヘッドウェアラブルデバイス上のマイク配置の底面図を全体的に3240で示す。図33は、本発明の実施形態に係る、図32Aからの、異なる音源に対するヘッドウェアラブルデバイスを、一般に3300で示す。図32A乃至図33を参照すると、ヘッドウェアラブルデバイス3201は、三次元空間において使用するための眼鏡の形で示される。三次元空間は、3301でのX、Y、Z軸で示される(図33)。三次元空間は、当技術分野で周知のデカルト座標系として示される。ただし、それによって限定を意味するものではない。三次元空間は、別の座標系で示されることができる。他の実施形態において、ヘッドウェアラブルデバイスは、ゴーグルなどの形状である。それによって限定を意味するものではない。本明細書において、「眼鏡」または「眼鏡デバイス」という用語は、ヘッドウェアラブル装置と同義に用いられる。ヘッドウェアラブルデバイス3201は、前フレームを有し、前フレームは、通常は、ガラスまたはプラスチック製の一つまたは複数のレンズ、左フレーム3214、および右フレーム3212を含む。左右のフレームは、当技術分野においてテンプルとも呼ばれる。ヘッドウェアラブルデバイスは、マイク0(3202)、マイク1(3204)、マイク2(3206)、およびマイク3(3210)の4つのマイクを有するように示される。一つまたは複数の実施形態において、マイク0(3202)は左側フレーム3214の下に位置し、マイク1(3204)およびマイク2(3206)は左側フレーム3214の頂上に位置する。マイク3(3210)は、右側のフレーム3212の頂上に位置する。または、マイク0(3202)、マイク1(3204)、およびマイク2(3206)は右側のフレーム3212に位置し、マイク3(3210)は左側のフレーム3214に位置する。
様々な実施形態において、眼鏡デバイスは、少なくとも一つのサイドフレーム部材に結合されたマイクのアレイを含む。当該マイクのアレイは、少なくとも第一マイクおよび第二マイクを含む。一つまたは複数の実施形態において、第一および第二マイク、例えば3202および3204は、前フレーム部材に近いサイドフレーム部材3214に位置する。3209でのL2(図32B)で示されるように、前フレーム部材から第一および第二マイクまでの距離は、約5mmから30mmであり、約15mmであり得る。第一マイク(マイク0(3202))はサイドフレーム部材3214の底部側に位置し、第二マイク(マイク1(3204))はサイド部材3214の上面に位置し、サイドフレーム部材3214の頂上に直接またはほぼ位置する。別の実施形態において、第三マイク(マイク2(3206))は、サイドフレーム部材3214に位置し、前フレーム部材からさらに離れている。3208でのL1で示されるように、第一および/または第二マイク(3202/3204)からの第三マイク(マイク2(3206))の位置は、約10mmから20mmの間であり、約15mmであり得る。距離L1が長すぎる場合、第三マイク(マイク2(3206))は、サイドフレーム部材に埋め込まれて着用者の耳の近くに位置するスピーカーの近くにあり得る。そのような場合、スピーカーからマイク2(3206)へのエコーがある可能性がある。そのようなエコーは、特定の実施の距離L1を減らすことにより改善される。距離L1の減少は、マイク2(3206)とスピーカー3350との間の分離距離を増加し、それによってエコーが減少する。
別の実施形態において、第四マイク(マイク3(3210))は、向こう側のフレーム部材3212に位置する。マイク3(3210)は、前フレーム部材の近くに示されているが、フレーム部材3212に沿った他の位置が可能である。マイク1(3204)とマイク3(3210)との間の距離は、眼鏡フレームの幅によって決まり、その距離は、システムが二つのマイクからの信号レベルの差を検出するのに十分なほど大きさである。マイク1(3204)とマイク3(3210)の間の距離は定数ではなく、代わりに、通常は、ヘッドウェアラブルデバイスの形状および寸法で定められる。同様に、マイク0(3202)とマイク3(3210)の間の距離は定数ではなく、代わりに、通常は、ヘッドウェアラブルデバイスの形状および寸法で定められる。
図32Dは、本発明の実施形態に係る、ヘッドウェアラブルデバイス上の別のセットのマイク配置の斜視図を全体的に3260で示す。図32Eは、本発明の実施形態に係る、図32Dに対応するヘッドウェアラブルデバイス上のマイク配置の底面図を全体的に3280で示す。図32Dを参照すると、マイク0(3202)およびマイク1(3204)はテンプル3212の内面に位置する。マイク2(3206)は、右テンプル3212の底面に位置し、マイク0(3202)/マイク1(3204)から上記のようなL1に等しい量だけ後退する。マイク0(3202)/マイク1(3204)と前フレームとの間の距離は、上記のL2として示される(図32B)。図32Dに戻って、マイク3(3210)は、左テンプル3210の底部側に位置し、または、マイク2(3206)とマイク3(3210)との一方または両方は、それぞれのテンプルの上面に位置することもできる。
一つのオプションの実施形態において、図32D/32Eに示されているマイクの配置を、テンプルに対して逆にすることができる。例えば、マイク0(3202)、マイク1(3204)、およびマイク2(3206)は、左テンプル3214の内面に位置し、マイク3(3210)は右テンプル3212に位置することができる。
本明細書に記載のようなマイク0およびマイク1を使用する配置1、マイク1およびマイク2を使用する配置2、およびマイク1およびマイク3を使用する配置3などのさまざまな使用シナリオのために、上記の四つのマイクは、三つ以上のマイクの組み合わせをサポートする。いくつかの実施形態において、ソフトウェアインターフェイスは、マイクのこれらの組み合わせ間の切り替えおよび配置間のシーケンシングを制御するために、使用される。
様々な実施形態において、眼鏡は、四つを超えるマイクまたは四つ未満のマイクを有する。本明細書に記載されるような一つまたは複数の実施形態を説明するために、四つのマイクが使用され、本発明の実施形態を制限するものではない。マイクの三つの配置を以下に説明し、当該三つの配置は、ヘッドウェアラブルデバイスのユーザが使用する音響信号を受信および処理してユーザの聴覚を支援し、ある場合に例えば音声認識、コマンドおよび制御、および別のユーザによる受信と聞くことによってリモートで使用され、ならびに埋め込まれた音声認識などによってローカルで使用される。以下に説明される構成は、上記の雑音消去システムで使用するためのプライマリおよび参照音響信号を提供するために使用されることができる。
配置1
一つまたは複数の実施形態において、ユーザはヘッドウェアラブルデバイス101を着用している間に話している場合に、マイク0およびマイク1は、音響信号を処理するために使用される。配置1において、マイク0およびマイク1から出力される信号は、主音響応答を軸3302に沿って下向きに配置するように、ビーム形成される。軸3302は、ユーザの口3310の公称方向にあるが、それに正確に位置合わせされる必要はない。マイク0およびマイク1は、ユーザの口3320までの異なる音響距離を有し、マイク0の音響距離は、マイク1の音響距離よりも小さい。ユーザの口3310から発する音響信号3312は、マイクペアマイク0およびマイク1に対するユーザ3310の方向に対して最大の音響感度で受信される。そのようにして得られた音響信号は、多チャネル雑音消去システムに入力するためのプライマリ信号として使用される。音源3310から180度それる主応答を有するマイクペアマイク0およびマイク1をビーム形成することにより、主に雑音(主に不要オーディオ)を含む参照信号が得られる。したがって、参照信号は、軸3302に沿ってユーザの口3310から離れて潜在的な雑音源に向かって見上げる方向で得られ、例えば、3360で表される雑音源によって雑音3362(不要オーディオ)を発する。そのようにしてユーザの口3310から遠ざかって得られた信号は、上記のような多チャネル雑音消去システムに入力するための参照信号として使用される。参照信号に適用されるビーム形成は、ユーザの口3310から到着する信号に対する音響感度を最小化し、ユーザの口の方向から離れて生成される雑音に対する感度を最大化する。したがって、マイク0とマイク1との間の信号対雑音比の差は最大化され、それにより、その後の雑音消去の適用を通じて、プライマリ信号からの雑音の低減を提供する。
興味のある信号(希望オーディオ)からの雑音(不要オーディオ)を低減する処理により、マイク0とマイク1との組み合わせを許可し、それにより、雑音の多い環境での通話に対するユーザの声を強化する。それは、雑音の多い環境において使用される場合、システムのコマンドおよび制御性能にも役立つ。雑音の多い環境において、ユーザの声は、背景雑音に埋もれており、通話中に向こう側の聞き手に理解されるのは難しく、または音声エンジンで認識されるのは困難である。マイク0とマイク1の組み合わせは、ビーム形成技術を使用して、背景雑音に対するユーザの音声の信号対雑音比(SNR)を改善し(また、マイク0とマイク1との間の信号対雑音比の差を大きくし)、それによって雑音消去のための音声活動検出精度が向上する。この組み合わせは、90-dB以上の背景雑音振幅を持つ非常に雑音の多い環境においても有用な性能向上を提供する。上記のように、マイク0とマイク1は、全方向性マイクを使用して実装できる。
配置2
一つまたは複数の実施形態において、ユーザは3330などのリモート音源を聴いている時にヘッドウェアラブルデバイス3201を着用している場合、マイク1およびマイク2は、音響信号を処理するために使用される。配置2において、マイク1およびマイク2から出力される信号は、主音響応答を軸3304に沿って前方に配置するように、ビーム形成され、それにより、マイクペアマイク1とマイク2に対する音源3330の方向に向けられる最大音響感度を利用して、3330で示される音源から発せられる音響信号3332を受信する。そのようにして得られる信号は、多チャネル雑音消去システムに入力するためのプライマリ信号として使用される。主に雑音を含む参照信号は、ビーム形成の有無にかかわらずマイク2から取得できる。全方向性マイクをマイク1およびマイク2に使用する場合、マイク1およびマイク2をビーム形成してプライマリ信号を取得し、同時に、参照信号にマイク2のみを使用し、マイク1とのビーム形成がなく、ソース3330に対するマイク2のみの感度と比較して、ソース3330の方向のビーム形成されたペアの感度を約6dB増加させる。そのような処理により、マイク1とマイク2との間に、雑音消去性能に有利になる大きな信号対雑音比の差が生じる。軸3304は、ユーザの前方の公称方向を指しているが、それに正確に位置合わせされる必要はない。マイク1およびマイク2は、3330などのユーザの前方にある音源までの音響距離が異なる。音源3330とマイク1との間の音響距離は、マイク2と音源3330との間の音響距離よりも小さい。したがって、マイク1およびマイク2は、ヘッドウェアラブルデバイスの前に位置する音源に対して異なる音響距離を提供するために、ヘッドウェアラブルデバイス上に柔軟に配置されることができ、同時に必ずしも音源3330を直接指す必要はない。
オプションの実施形態において、音源3330から180度それる主応答を有するマイクペアマイク1およびマイク2のビーム形成は、参照信号(ほとんどの場合、不要音声)を提供するために使用されることができる。最小量の希望オーディオが組み合わされた参照信号を取得することが望ましいことに留意されたい。両方の方法で参照信号を取得して比較し、最高のシステム性能に基づいて選択することができる。したがって、いずれかの方法によってそのように得られる参照信号は、プライマリ信号の信号対雑音比よりも小さい信号対雑音比を有する。したがって、例えば3330/3332などのヘッドウェアラブルデバイス3201の前方の公称方向から発生する興味のある信号に関するマイク1/マイク2対の信号対雑音比の差は、得られる。ソース3330から離れて、上記のいずれかの方法によってそのように得られる信号は、多チャネル雑音消去システムに入力するための参照信号として使用される。参照信号に使用されるビーム形成は、ソース3330などのユーザの前から到着する信号(希望オーディオ)に最小の音響感度を提供し、ソース3330以外の方向から生成される雑音に対する感度を最大にするように選択される。したがって、マイク1とマイク2との間の信号対雑音比の差は最大化され、それにより、その後の雑音消去の適用を通じて、プライマリ信号からの雑音の低減を提供する。
次に、雑音消去システムの出力がスピーカー3350に提供されて、ユーザが音源3330を聞くのを支援する。スピーカー3350は、眼鏡3201の一方または両方のサイドフレームに組み込まれている。したがって、様々な実施形態において、マイク1、マイク2の組み合わせは、例えば、テレビを見たり、眼鏡3202を着用しているユーザの前の人と会話したりするようないくつかの活動中に、ユーザの聴覚を強化するために使用される。聴覚障害のある人は、特に騒がしい環境において、音声信号をはっきりと理解できない。組み合わせ2は、ビーム形成技術を適用して、背景雑音を空間的に除去することにより、ユーザが興味のあるオーディオ信号に集中できるようにする。
配置3
一つまたは複数の実施形態において、ユーザは3320または3340などのどちらか一方から到着するリモート音源を聞いているか、またはそれと対話している間に、ヘッドウェアラブルデバイス3201を着用している場合、マイク1およびマイク3は、音響信号を処理するために使用される。または、マイク3およびマイク2は、配置3の信号を処理するために使用され、またはマイク3およびマイク0を使用する。配置3について以下の説明は、マイク3とマイク1に関して提供されており、それによって暗示される制限はない。配置3において、マイク1およびマイク3から出力される音響エネルギーを比較して、ユーザのどちら側から最も大きな音が聞こえているかを判断する。例えば、テーブルの周りに座っている人々との会議において、様々な人々が時々話して、眼鏡3201を着用しているユーザに対して異なる到着方向を生成するので、そのような情報は有用である。配置3において、選択される一対のマイクから出力された信号は、軸3306に沿って主音響応答を配置するように処理される。軸3306は、音源の公称方向にあるが、それに正確に位置合わせされる必要はない。選択されるマイクのペア、例えば、マイク3とマイク0、マイク3とマイク1、またはマイク3とマイク2のいずれかは、音源までの異なる音響距離を有する。
一つの動作方法に従うと、プライマリマイクは、最大の音響エネルギー出力を有するマイク1、マイク3ペアからのマイクである。次に、マイク1、マイク3ペア中のもう一方のマイクが、参照マイクとして指定される。どのマイクが最大の音響エネルギーを出力しているかの決定後に、交互にプライマリ信号および参照信号を処理することができる。例えば、一つまたは複数の実施形態において、ビーム形成は、マイク1およびマイク3から出力される信号に適用される。一例において、ビーム形成プロセスの主応答軸は最大の音響エネルギーが測定されている側(方向)に向けられたときに、プライマリ信号が取得される。その例において、ビーム形成プロセスの主応答軸をプライマリの応答軸とは反対側に向けることにより、参照信号は、取得される。
そのプロセスの一つの変化は、ビーム形成を使用してプライマリ信号を取得することであり、すなわち、マイク1とマイク3の出力をビーム形成し(マイク1とマイク3とのいずれかで最大音響エネルギーが測定される側に導かれ、同時に低い音響エネルギーを有するマイクの非ビーム形成の出力を参照信号に使用する。
そのプロセスのさらに別の変化は、ビーム形成を使用して参照信号を取得することであり、すなわち、マイク1とマイク3の出力をビーム形成し(マイク1とマイク3とのいずれかで最小音響エネルギーが測定される側に導かれ、同時に最大音響エネルギーを有するマイクの非ビーム形成の出力をプライマリ信号に使用する。
一つの非限定的な例において、図33を参照すると、音源3320が音源3340よりも大きい場合、仮想的な使用シナリオが存在する。一つまたは複数の実施形態において、システムは、プライマリ信号を受信する側としてマイク3を選択するように設計される。例えば、主応答軸3306を音源3320の方向に配置しながら、マイク1およびマイク3をビーム形成することなどの上記の方法のいずれかにより、プライマリ信号の受信は達成されることができる。または、マイク3からの出力を、ビーム形成なしでプライマリ信号として使用することもできる。主応答軸3306を音源3320の方向と反対の方向に配置しながら、マイク1およびマイク3をビーム形成することにより、参照信号は取得されることができる。または、マイク1からの出力を、ビーム形成なしで参照信号として使用することもできる。
いくつかの実施形態において、システムは、例えば、プライマリ信号または参照信号を選択するためのビーム形成、およびプライマリ信号または参照信号のいずれかにマイクの非ビーム形成出力を使用することなどの上記の方法を介してシーケンスするように、実装される。各方法の性能メトリック、例えば、プライマリ信号と参照信号との信号対雑音比の差は、計算され、信号対雑音比の差が最も大きい方法は、マイク1およびマイク3からの信号を処理するために使用される方法である。当該方法によるシーケンスは、信号処理の開始時に実行され、または、性能メトリックを監視するために継続的に実行され、そして性能メトリックの進化に基づいて、当該方法を瞬時に更新することができる。したがって、配置3の実装中には、さまざまな方法を使用できる。次に、雑音消去システムの出力が一つまたは複数のスピーカー3350に提供されて、ユーザが音源3320を聞くのを支援する。スピーカー3350は、眼鏡3201の一方または両方のサイドフレーム(テンプル)に組み込まれている。
音源3340が、マイク3で受信された音響エネルギーレベルと比較して、マイク1でより大きな音響エネルギー3342を生成した場合、同様のプロセスが実施される。そのような場合、システムは、ビーム形成プロセスを使用して、マイクペアの主応答軸を音源3340の方向に導くことができる。
マイク1とマイク3のペアは、マイク1およびマイク3から拾った音響エネルギーを比較することにより、会話中に、ユーザがユーザの周り、特に左側および右側から、より強い声を拾うのに役立つ。グループ会議またはチャット中に、音声信号はさまざまな方向(右側または左側)からユーザに送信される可能性がある。配置3は、二つのマイクのそれぞれの音声信号エネルギーを比較して、音声信号がどちら側から来ているかを判断して、ユーザが会話中に話しているアクティブな人に集中できるようにする。次に、雑音消去システムの出力がスピーカー3350に提供されて、ユーザが音源3320または3340を聞くのを支援する。スピーカー3350は、眼鏡3201の一方または両方のサイドフレームに組み込まれている。
配置の切り替えおよび走査
様々な実施形態において、システムは、二つ、三つ、またはそれ以上の配置の間で切り替えるように構成されることができる。配置の走査、またはヘッドウェアラブルデバイスに組み込まれたマイクのアレイから形成されたさまざまなビーム(または選択されるマイクペア)の走査は、ヘッドウェアラブルデバイスに組み込まれた信号処理(ハードウェア、またはハードウェアとソフトウェアとの組み合わせ)により、自動的に実行できる。したがって、いくつかの実施形態において、一つのシステムが実装され、当該システムは、ユーザに対していくつかの方向を走査して、ビームを形成し(または選択されるマイクペアを処理し)、ローカルまたは向こう側でのユーザに提示する前に、ビーム形成、雑音消去、および/または音量調整のうちの一つまたは複数によって受信および改善されたオーディオ信号を利用してユーザに支援を提供する。
例えば、テレビを見ながら電話で話している間に、システムは、配置1(電話)と配置2(テレビ視聴)との間で切り替えるように構成されることができる。配置1(電話機能)に切り替えるためのメトリックは、マイク0での音響エネルギーの変化の検出に関連付けることができる。
配置の切り替えの別の例は、会話中に配置3から配置2に切り替えることである。例えば、会議中に、眼鏡3201を着用しているユーザの右側に座っている人が話し始める。このような形状は、音響エネルギー3322を出力するソース3320およびマイク3の出力によって表され、マイク3の出力はマイク1からの出力よりも大きい。この時点で、システムは配置3で動作する。ユーザは耳を傾け、話者が右側にいることに気付いたときに、ユーザは頭を右に向けて話者に向かわせる可能性がある。話者3320に向かって、マイク1とマイク3で受信される音響エネルギーの差は減少し、マイク1での音響エネルギーは増加した。そのような状況において、システムは上記のように配置2に切り替わる。
一つの動作モードにおいて、ユーザは、会議で話者に面するために頭を左右に回転させる必要はない。話しているアクティブな人の位置の変化につれて、例えば、位置3320(眼鏡3201に対して右側)から位置3340(眼鏡3201に対して左側)、位置3330(眼鏡3201の前)、位置3380(眼鏡3201の後ろ)に変化するにつれて、システムは、マイクのペアおよび方向を切り替えて、話者の方向にプライマリマイク(単独またはビーム形成された出力)を選択し、雑音(主に不要オーディオ)の方向に参照マイク(単独またはビーム形成された出力)を選択する。
したがって、本発明の実施形態は、配置1、2、および3(またはその任意のサブセット)を切り替えるシステムによって実装され、配置1、2、および3(またはその任意のサブセット)の切り替えは、機械的スイッチング、オーディオスイッチングによって動作することができ、または一つまたは複数の性能メトリックの分析を通じて動作可能な知能設計によって動作することができ、その性能メトリックは、例えば、これに限定するものではないが、最大信号対雑音比の差、マイクまたはビーム形成された出力からの最大音響エネルギー出力などを含む。
三つまたは四つのマイクを使用する三つの配置は、上記の図と併せて説明された。四つ以上のマイクは、ヘッドウェアラブルデバイスと共に使用され、それにより、音響信号を処理するための一般的なnの数の方向(軸)および潜在的な配置を提供できることに留意されたい。同様に、ビーム形成は二つ以上のマイクを利用して実行されることができる。
図34は、本発明の実施形態に係る、ヘッドウェアラブルデバイスで構成されるマイクのアレイからの音響信号を処理することを全体的に3400で示す。図34を参照すると、プロセスは、ブロック3402において開始する。ブロック3404において、ヘッドウェアラブルデバイスに取り付けられたマイクのアレイの一部であるマイクは、走査される。走査は、マイクからの音響信号の信号振幅レベルおよび場合によっては他のパラメータの分析を含む。ブロック3406において、配置は、ブロック3404からの走査に基づいて選択される。いくつかの実施形態において、選択ロジックは、所与のマイクのアレイを利用して得られる配置から選択するために使用される。ブロック3408において、ブロック3406で選択された配置からの音響信号は、音響信号を改善するために処理される。音響信号を改善することは、音響信号を雑音消去ブロックに入力して、プライマリ音響チャネルから下側のオーディオを除去することを含むことができる。音響信号を改善することは、音響信号を増幅させ、ヘッドウェアラブルデバイスに組み込まれたスピーカーで、増幅された音響信号を、ヘッドウェアラブルデバイスのユーザに呈することを含むことができる。当該プロセスはブロック3412において終了する。
本発明の異なる実施形態を議論し理解する目的で、技術およびアプローチを説明するために、当業者は様々な用語を使用することを理解されたい。さらに、説明する際、説明のために、多数の特定の詳細が示され、それにより、本発明の完全な理解を提供する。しかし、当業者が、これらの特定の詳細がなくても本発明を実施できることは明らかである。いくつかの実施形態において、あいまいにするのを避けるために、よく知られた構造およびデバイスを詳細ではなくブロック図の形で示している。それらの実施形態は、当業者が本発明を実施できるように十分詳細に説明されており、他の実施形態を利用して本発明の範囲を逸脱しない限り、論理的な、機械的な、電気的な、およびその他の変更を行うことができることが理解されたい。
説明のいくつかの部分は、アルゴリズム、およびコンピュータメモリ内のデータビットなどに対する運用の記号表現で提示され得る。それらのアルゴリズムの説明および表現は、データ処理技術の当業者が作業の内容を他の当業者に最も効果的に伝えるために使用する手段である。そこでのアルゴリズムは、一般的に、望ましい結果につながる行為のセルフコンシステントのシーケンスであると考えられている。それらの行為は、物理量の物理的な操作を必要とする行為である。通常は、必ずしもそうではないが、それらの量は、保存、転送、結合、比較、その他の操作が可能な電気信号または磁気信号の形を取る。主に一般的な使用上の理由で、それらの信号をビット、値、要素、記号、文字、用語、数字、波形、データ、時系列などと呼ぶことは、いつも便利であることが証明された。
しかし、それらおよび類似の用語はすべて、適切な物理量に関連付けられており、それらの量に適用される便利なラベルにすぎないことに留意されたい。別途説明されない限り、議論から明らかなように、説明全体にわたって「処理」または「コンピューティング」または「計算」または「決定」または「表示」などの用語を使用する議論は、コンピュータシステムまたは類似の電子コンピューティングデバイスの動作およびプロセスを参照することができ、そのコンピュータシステムまたは類似の電子コンピューティングデバイスは、コンピュータシステムのレジスタおよびメモリ内の物理(電子)量として表されるデータを操作して、コンピュータシステムのメモリはまた、レジスタまたは他のそのような情報記憶装置、送信装置、または表示装置内の物理(電子)量として表される他のデータに変換する。
そこでの動作を実行する装置は、本発明を実施することができる。この装置は、必要な目的のために特別に構築されてもよいし、またはコンピュータに記憶されているコンピュータプログラムにより選択的に作動または再構成された汎用コンピュータを含んでもよい。コンピュータプログラムは、コンピュータ可読記憶媒体に記憶されることができる。当該コンピュータ可読記憶媒体は、例えば、これに限定するものではないが、フロッピーディスク(登録商標)、ハードディスク、光ディスク、コンパクトディスク読み取り専用メモリ(CD-ROMs)、磁気ディスク、読み取り専用メモリ(ROMs)、ランダムアクセスメモリ(RAMs)、ダイナミックランダムアクセスメモリ(DRAM)、電気的にプログラム可能な読み取り専用メモリ(EPROMs)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROMs)、フラッシュメモリ、磁気または光学カード、RAIDなどを含む任意のタイプのディスク、またはコンピュータのローカルまたはコンピュータのリモートのいずれかで電子命令の格納に適用する任意のタイプのメディアである。
本明細書に提示されるアルゴリズムおよび表示は、特定のコンピュータまたは他の装置に本質的に関連するものではない。本明細書の教示に従って、様々な汎用システムは、プログラムと共に使用されることができ、または必要な方法を実行するためのより特殊な装置を構築することが便利であることが証明された。例えば、本発明による方法はいずれも、汎用プロセッサをプログラミングすることにより得られるハードウェア回路、またはハードウェアおよびソフトウェアの任意の組み合わせにより、実装されることができる。当業者は、本発明が、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラム可能な家庭用電化製品、デジタル信号処理(DSP)デバイス、セットトップボックス、ネットワークPCs、ミニコンピュータ、メインフレームコンピュータなどの説明されたもの以外の他のコンピュータシステム構成により実施できることをすぐに理解する。本発明は、分散コンピューティング環境で実施されることができ、その中のタスクが通信ネットワークを介してリンクされたリモート処理デバイスにより実行される。他の例において、上記の図1乃至図31に記載された本発明の実施形態は、システムオンチップ(system on a chip;SOC)、ブルートゥースチップ、デジタル信号処理(DSP)チップ、集積回路(ICs)を備えるコーデック、またはハードウェアおよびソフトウェアの他の実施を使用して実施されることができる。
本発明の方法は、コンピュータソフトウェアを使用して実装されることができる。認知された標準に準拠するプログラミング言語で書く場合に、さまざまなハードウェアプラットフォームで実行したり、さまざまなオペレーティングシステムとインターフェースしたりするように、それらの方法を実装するように設計される命令シーケンスをコンパイルすることができる。さらに、本発明は、特定のプログラミング言語を参照して説明されていない。本明細書に記載される実施形態の教示を実施するために、様々なプログラミング言語を使用することができることを理解されたい。さらに、当技術分野において、ある形式または他の形式(例えば、プログラム、手順、アプリケーション、ドライバーなど)のソフトウェアは、一般的に、あるアクションを実行すること、またはある結果を引き起こすことと言われる。そのような表現は、コンピュータがソフトウェアを実行することにより、コンピュータのプロセッサがアクションを実行したり、結果を生成したりすることについての単なる短い表現である。
当業者は、さまざまな用語および技術を使用して、通信、プロトコル、アプリケーション、実装、メカニズムなどを説明することを理解されたい。そのような技術の一つは、アルゴリズムまたは数式により、技法の実装を説明することである。すなわち、技術は、例えば、コンピュータのコードを実行することとして実装され得るが、その技術の表現は、式、アルゴリズム、または数式として、より適切かつ簡潔に伝えられて伝達され得る。したがって、当業者は、A+B=Cを加算関数ブロックと表わすことのハードウェアおよび/またはソフトウェアにおける実装が、二つの入力(AおよびB)を取り、総和出力(C)を生成することであることを認識できる。したがって、説明としての式、アルゴリズム、数式、フローダイヤグラム、またはフローチャートの使用は、少なくともハードウェアおよび/またはソフトウェア(例えば、コンピュータシステム、本発明の技術が当該コンピュータシステムにおいて、実施形態として実施され得る)において、物理的な表現を有するものとして理解されるべきである。
非一時的な機械可読媒体は、機械(例えば、コンピュータ)により読み取り可能な形式で情報(プログラムコードなど)を記憶するための任意のメカニズムを含むことが理解される。例えば、コンピュータ可読媒体と同義で呼ばれる機械可読媒体は、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイスを含み、伝播信号(例えば、搬送波、赤外線信号、デジタル信号など)を介する電気的、光学的、音響的、または他の形態の情報伝達を除く。
本説明で使用される「一実施形態」または「実施形態」または類似の語句は、説明されている特徴が本発明の少なくとも一つの実施形態に含まれることを意味する。本説明における「一実施形態」への言及は、必ずしも同じ実施形態を指すとは限らない。しかし、それらの実施形態は相互に排他的ではない。また、「一実施形態」は、本発明の実施形態が単一であることを意味するものではない。例えば、「一実施形態」に記載されている特徴、構成、行為などは、他の実施形態にも含まれ得る。したがって、本発明は、本明細書に記載されている実施形態の様々な組み合わせおよび/または統合を含むことができる。
したがって、本発明の実施形態は、希望オーディオを処理および配信する音響システムから、不要オーディオを低減または排除するために使用されることができる。システムのいくつかの非限定的な例は、これに限定するものではないが、企業コールセンター、産業用および一般的なモバイル用途に適したテレフォニー用のオーディオヘッドセット、眼鏡のフレーム上またはフレーム内に取り付けられた入力ライン(ワイヤー、ケーブル、またはその他のコネクター)を備えるインライン「イヤホン」ヘッドセット、ニアトゥアイ(near-to-eye;NTE)ヘッドセットディスプレイまたはヘッドセットコンピューティングデバイスなどの短いブームヘッドセット中の使用、産業、軍事、航空アプリケーションなどの非常に雑音の多い環境向けの長いブームヘッドセット中の使用、ならびに構造的なコストをかけずに劇場やシンフォニーホールタイプの高品質の音響を提供するために使用できるグースネックデスクトップスタイルのマイク中の使用である。本発明の他の実施形態は、一般的な構成のヘッドウェアラブルデバイスに容易に実装され、当該一般的な構成のヘッドウェアラブルデバイスは、例えば、これに限定するものではないが、眼鏡、ゴーグル、日よけ帽、ヘッドバンド、ヘルメットなどを含む。
本発明をいくつかの実施形態において説明してきたが、当業者は、本発明が説明した実施形態に限定されず、添付の特許請求の範囲の精神および範囲内で修正および変更して実施できることを理解できる。したがって、当該説明は、限定ではなく例示と見なされるべきである。