JP6009619B2

JP6009619B2 - 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体

Info

Publication number: JP6009619B2
Application number: JP2015113262A
Authority: JP
Inventors: ヒュン・ジン・パク; クウォクリュン・チャン; レン・リ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-02-23
Filing date: 2015-06-03
Publication date: 2016-10-19
Anticipated expiration: 2032-02-22
Also published as: EP2679022A1; KR101606966B1; WO2012161781A1; JP2014511612A; CN103392349A; JP2015173502A; EP2679022B1; ES2898717T3; US9037458B2; CN103392349B; KR20130124573A; US20120215519A1

Description

関連出願

[0001]本特許出願は、２０１１年２月２３日に出願され、本発明の譲受人に譲渡された「AUDIO AUGUMENTED REALITY USING ANC HEADSET」という名称の仮出願第６１／４４５９７４に基づく優先権を主張する。

[0002]本開示は、音声信号処理に関する。

[0003]「拡張現実（augmented reality）」（またはＡＲ）という用語は、コンピュータによって生成される知覚による入力を通じて知覚された環境の拡張を指す。それに対して「仮想現実（virtual reality）」という用語は、現実の環境をシュミレーションされた環境と置き換えることを指す。

[0004]現実の視覚的な拡張は、広く実証されている。映像のアプリケーションでは、環境の元の要素を対応する拡張要素と、その元の要素を隠す（cover up）ために不透明なオーバーレイとして拡張要素を単に適用することによって、置き換えることは比較的容易である。視覚的な拡張現実の１つの例は、現在ではフットボールゲームの放送の共通の特徴である、黄色の、コンピュータによって生成された「ファーストダウン（first down）」ラインである。

[0005]一般的な構成にしたがってマルチチャネル信号を処理する方法は、対ノイズ信号を作り出すために、マルチチャネル信号の第１の音声入力チャネルにアクティブノイズ取消動作を実行することを含む。前記方法はまた、ソースコンポーネントを得るためにマルチチャネル信号を処理することも含み、前記処理することは、背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することを含む。前記方法はまた、対象コンポーネントを作り出すために得られたソースコンポーネントを処理すること、ならびに音声出力信号を作り出すために対象コンポーネントに基づく拡張信号および前記対ノイズ信号を結合することも含む。有体的な特徴を読み取る機械に、そのような方法を実行させる前記特徴を持つコンピュータ可読記憶媒体（例えば、一時的でない媒体）も開示されている。

[0006]一般的な構成にしたがってマルチチャネル信号を処理する装置は、対ノイズ信号を作り出すために、前記マルチチャネル信号の第１の音声入力チャネルにアクティブノイズ取消動作を実行する手段を含む。前記装置はまた、ソースコンポーネントを得るために前記マルチチャネル信号を処理する手段も含み、前記処理することは、背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することを含む。前記装置はまた、対象コンポーネントを作り出すために得られたソースコンポーネントを処理する手段、ならびに音声出力信号を作り出すために前記対象コンポーネントに基づく拡張信号および前記対ノイズ信号を結合する手段も含む。

[0007]別の一般的な構成にしたがってマルチチャネル信号を処理する装置は、対ノイズ信号を作り出すために、前記マルチチャネル信号の第１の音声入力チャネルにアクティブノイズ取消動作を実行するように構成されたアクティブノイズ取消フィルタを含む。前記装置はまた、ソースコンポーネントを得るために前記マルチチャネル信号を処理するように構成された拡張現実処理モジュールも含む。前記拡張現実処理モジュールは、背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行するように構成された空間的選択フィルタ、ならびに（Ａ）対象コンポーネントを作り出すために得られたソースコンポーネントを処理し、（Ｂ）前記対象コンポーネントに基づく拡張信号を出力する、ように構成された拡張モジュールを含む。前記装置はまた、音声出力信号を作り出すために前記拡張信号および前記対ノイズ信号を結合するように構成された音声出力ステージも含む。

一般的な構成にしたがった、方法Ｍ１００のフローチャート。ユーザの右耳に着けられているヘッドセットＨＳ１０の使用の上方視点の図。ワイヤレスヘッドセットＨＳ１０の様々な視点のうちの１つの図。ワイヤレスヘッドセットＨＳ１０の様々な視点のうちの１つの図。ワイヤレスヘッドセットＨＳ１０の様々な視点のうちの１つの図。ワイヤレスヘッドセットＨＳ１０の様々な視点のうちの１つの図。マルチマイクロフォンの携帯型音声感知デバイスＨＳ２０の様々な視点のうちの１つの図。マルチマイクロフォンの携帯型音声感知デバイスＨＳ２０の様々な視点のうちの１つの図。マルチマイクロフォンの携帯型音声感知デバイスＨＳ２０の様々な視点のうちの１つの図。マルチマイクロフォンの携帯型音声感知デバイスＨＳ２０の様々な視点のうちの１つの図。イヤカップの右側のインプリメンテーションＥＣＲ１０の平面断面図。イヤカップの右側のインプリメンテーションＥＣＲ２０の平面断面図。イヤカップの右側のインプリメンテーションＥＣＲ３０の平面断面図。イヤカップの右側のインプリメンテーションＥＣＲ４０の平面断面図。イヤカップの右側のインプリメンテーションＥＣＲ５０の平面断面図。イヤカップの右側のインプリメンテーションＥＣＲ６０の平面断面図。ヘッドフォンのペアの通常使用ケースの上方視点の図。ヘッドフォンのペアの通常使用ケースの正面視点の図。一般的な構成にしたがった、装置Ａ１００のブロック図。頭部装着型ＡＮＣデバイスと処理デバイスＰＤ１０との間の装置Ａ１００の要素の区分の１つの例を示す図。音声前処理ステージＡＰ１０を含む配列のブロック図。音声前処理ステージＡＰ１０のインプリメンテーションＡＰ２０を含む配列のブロック図。音声前処理ステージＡＰ１０のインプリメンテーションＡＰ２０を含む配列のブロック図。イヤバットＥＢ１０の左手の例を示す図。装置Ａ１００のインプリメンテーションＡ２００のブロック図。イヤバットＥＢ２０の左手の例の側面視点の図。イヤバットＥＢ３０の例の正面視点の図。マイクロフォンＭＬ１０およびＭＲ１０を搬送するイヤバットの使用ケースを示す図。装置Ａ２００のインプリメンテーションＡ２１０のブロック図。ここで記述されるようにマイクロフォンおよび／またはスピーカを搬送するように使用されうるデバイスの追加の例を示す図。ここで記述されるようにマイクロフォンおよび／またはスピーカを搬送するように使用されうるデバイスの追加の例を示す図。ここで記述されるようにマイクロフォンおよび／またはスピーカを搬送するように使用されうるデバイスの追加の例を示す図。ここで記述されるようにマイクロフォンおよび／またはスピーカを搬送するように使用されうるデバイスの追加の例を示す図。ここで記述されるようにマイクロフォンおよび／またはスピーカを搬送するように使用されうるデバイスの追加の例を示す図。モジュールＡＲ１０のインプリメンテーションＡＲ２０のブロック図。拡張モジュールＡＭ１０のインプリメンテーションＡＭ２０のブロック図。ＳＳＰモジュールＳＭ１０のインプリメンテーションＳＭ２０のブロック図。３つの空間セクタの中の所望の１つを選択する例を示す図。５つの空間セクタの中の所望の１つを選択する例を示す図。装置Ａ２１０のインプリメンテーションＡ２００のブロック図。複数の選択可能な空間的セクタの例の上方視点の図。提案されたスキームが「人工耳（bionic ear）」のアプリケーションをサポートするように使用される例を示す図。提案されたスキームが「人工耳」のアプリケーションをサポートするように使用される例を示す図。露出した耳の状態のユーザＡに対する知覚されたサウンド利得の空間的パターンの例を示す図。ユーザＡに対する知覚されたサウンド利得の空間的パターンの例を示す図。分離されたソースコンポーネントに対する知覚された音声利得の空間的パターンの例を示す図。対象コンポーネントに対する知覚された音声利得の空間的パターンの例を示す図。ユーザＡに対する知覚されたサウンド利得の空間的パターンの例を示す図。提案されたスキームが生のスピーチの翻訳をサポートするように使用される例を示す図。提案されたスキームが生のスピーチの翻訳をサポートするように使用される例を示す図。サウンド利得の空間的パターンの例を示す図。サウンド利得の空間的パターンの例を示す図。サウンド利得の空間的パターンの例を示す図。サウンド利得の空間的パターンの例を示す図。拡張現実処理モジュールＡＲ１０のインプリメンテーションＡＲ３０のブロック図。拡張モジュールＡＭ２０およびＡＭ３０のインプリメンテーションＡＭ４０のブロック図。拡張モジュールＡＲ２０のインプリメンテーションＡＲ１００のブロック図。一般的な構成にしたがった装置ＭＦ１００のブロック図。一般的なＡＮＣシステムのブロック図。ヘッドセットＨＳ１０のインプリメンテーションＨＳ１５の例を示す図。ヘッドセットＨＳ２０のインプリメンテーションＨＳ２５の例を示す図。イヤバットＥＢ３０のインプリメンテーションＥＢ３２を示す図。イヤカップＥＣＲ２０のＥＣＲ１５を示す図。イヤカップＥＣＲ２０のＥＣＲ２５を示す図。

[0047]音声環境を効率的に制御することは困難であるため、現実の音声拡張は追跡されない。例えば、入ってくるサウンド要素は、映像の要素のような簡易のオーバーレイで取り除かれることはできず、ユーザの耳への自然のサウンドの到着を選択的にパスし、ブロックすることは難しい。

[0048]従来の聴取支援は、環境サウンドを聴取するユーザの能力を強化するために使用されうる。聴取支援は環境サウンドを増幅することができるけれども、しかしながらそれは、そのようなデバイスが音声現実を拡張するのに十分な制御を提供しないように、それらをブロックしない。受動的なヘッドセットが環境サウンドをブロックするように使用されてきたけれども、それらのブロック能力は制限されている。

[0049]アクティブノイズ取消（active noise cancellation）（ＡＮＣ）ヘッドセットが、あらかじめ記録された媒体または遠隔通信を傾聴する間に環境サウンドを取消するように使用されうる。ここで記述されるシステム、方法、および装置は、環境サウンドの拡張および選択的な制御を提供するために、マルチマイクロフォンの（例えば、立体音響の）アクティブノイズ取消（ＡＮＣ）ヘッドセットと共に使用されうる。音声拡張現実の種々の使用ケースおよびＡＮＣヘッドセットとモバイルデバイスを通じたその効率的なインプリメンテーションが開示されている。

[0050]その文脈によって明示的に限定されない限り、「信号」という用語は、ここでは、ワイヤ、バス、または、他の送信媒体上で表現されているような、メモリロケーションの状態（または、１組のメモリロケーション）を含む、その一般的な意味のいずれかを示すために使用される。その文脈によって明示的に限定されない限り、「発生させる」という用語は、ここでは、計算する、または、そうでなければ作り出すなどのような、その一般的な意味のうちのいずれかを示すために使用される。その文脈によって明示的に限定されない限り、「計算する」という用語は、ここでは、算出する、評価する、推定する、および／または、複数の値から選択するなどのような、その一般的な意味のうちのいずれかを示すために使用される。その文脈によって明示的に限定されない限り、「得る」という用語は、計算する、導出する、（例えば、外部デバイスから）受信する、および／または、（例えば、記憶要素のアレイから）取り出すなどのような、その一般的な意味のうちのいずれかを示すために使用される。その文脈によって明示的に限定されない限り、「選択する」という用語は、識別する、示す、適用する、および／または、２つ以上の組のうちの少なくとも１つ、および、２つ以上の組のうちのすべてより少ないものを使用するなどのような、その一般的な意味のうちのいずれかを示すために使用される。本記述および特許請求の範囲において、「備える」という用語が使用されている場合、それは、他の要素または動作を除外しない。（「ＡはＢに基づく」のような）「に基づいて」という用語は、（ｉ）「から導出する」（例えば、「Ｂは、Ａの前身（precursor）である」）、（ｉｉ）「に少なくとも基づいて」（例えば、「Ａは少なくともＢに基づく」）、および、特定の文脈で適切な場合には、（ｉｉｉ）「に等しい」（例えば、「ＡはＢに等しい」）のケースを含む、その一般的な意味のうちのいずれかを示すために使用される。同様に、「に応答して」という用語は、「に少なくとも応答して」を含む、その一般的な意味のうちのいずれかを示すために使用される。

[0051]マルチマイクロフォンの音声感知デバイスのマイクロフォンの「ロケーション」に対する参照は、文脈によって他の方法で示されていない限り、マイクロフォンの音響的に感知できる面の中心のロケーションを示している。「チャネル」という用語は特定の文脈にしたがって、あるときには信号パスを示すように、および、またあるときにはこのようなパスによって運ばれる信号を示すように使用される。他の方法で示されていない限り、「一連の」という用語は、２つ以上のアイテムのシーケンスを示すために使用される。「対数」という用語は、十進法の対数を示すために使用されるが、このような動作の他の底への拡張は、本開示の範囲内にある。「周波数コンポーネント」という用語は、（例えば、高速フーリエ変換によって作り出されるような、）信号の周波数ドメイン表現のサンプル、または、信号のサブバンド（例えば、バーク尺度またはメル尺度のサブバンド）などのような、信号の周波数または周波数帯域の組の中の１つを示すために使用される。

[0052]他の方法で示されていない限り、特定の特徴を持つ装置の動作の何らかの開示は、類似する特徴を持つ方法を開示する（およびその逆もまた同じである）ことも明示的に意図されており、特定の構成にしたがった装置の動作の何らかの開示は、類似する構成にしたがった方法を開示する（およびその逆もまた同じである）ことも明示的に意図されている。「構成」という用語はその特定の文脈によって示されているような、方法、装置、および／または、システムを参照して、使用されうる。「方法」、「プロセス」、「手順」、および、「技法」という用語は、特定の文脈によって他の方法で示されていない限り、包括的におよび交換可能に使用される。「装置」および「デバイス」という用語もまた、特定の文脈によって他の方法で示されていない限り、包括的におよび交換可能に使用される。通常、「要素」および「モジュール」という用語は、より大きな構成の一部を示すために使用される。その文脈によって明示的に限定されない限り、「システム」という用語は、ここでは、「共通の目的を供給するために対話する要素のグループ」を含む、その一般的な意味のうちのいずれかを示すために使用される。文書の一部を参照することによる何らかの組み込みもまた、その一部の内で参照される用語の定義または変数を組み込むことが理解されるだろう。ここで、そのような定義は、文書中とともに、組み込まれている一部において参照されている何らかの図面中のどこかに表れる。

[0053]発せられたサウンドフィールドの近接場（near-field）および遠隔場（far-field）の領域において、波形がそれぞれ、球形ならびに平面であることが前提とされうる。近接場は、サウンド受信機（例えば、マイクロフォンアレイ）から１波長よりも短く離れた空間のその領域として定義されうる。この定義の下では、領域の境界までの距離は、周波数に反比例して変わる。２００、７００、および２０００ヘルツの周波数では、例えば、１波長の境界までの距離は、それぞれ、およそ、１７０、４９、および１７センチメールである。代わりに、近接場／遠隔場の境界を、マイクロフォンアレイからの特定の距離（例えば、アレイのマイクロフォンから、または、アレイの重心から５０センチメートル、あるいは、アレイのマイクロフォンから、または、アレイの重心から１メートルまたは１．５メートル）におけるものであると考慮することが有用であるかもしれない。

[0054]アクティブノイズ取消（ＡＮＣ、またはアクティブノイズ軽減とも称される）は、「逆位相」または「対ノイズ」の波形とも称される、（例えば同じレベルで逆の位相を有する）ノイズ波の逆の形態である波形を生成することによって空間において音響ノイズをアクティブに低減する技術である。ＡＮＣシステムは、概して、外部のノイズ基準信号を拾うために１つまたは複数のマイクロフォンを使用し、ノイズ基準信号から対ノイズ波形を生成し、１つまたは複数のスピーカを通じて対ノイズ波形を再現する。この対ノイズ波形は、ユーザの耳に到達するノイズのレベルを軽減するために、元のノイズ波に破壊的に干渉する。

[0055]ＡＮＣヘッドセットは、ここで記述されるように、環境サウンドのユーザの耳への移動を制御し、ユーザの環境傾聴能力を向上させる効率的なメカニズムとして使用されうる。提案されるスキームでのＡＮＣヘッドセットの使用は、仮想音声と現実の音声信号の、従来の拡張現実の技法で利用可能なものよりも効率的な置き換えを提供することができる。

[0056]ＡＮＣヘッドセットは、通常、環境サウンドを捕捉するために、ユーザの耳の近くに位置付けられる１つまたは複数の基準マイクロフォンを含む。そのような１つまたは複数のマイクロフォンはまた、拡張現実のアプリケーションのための音声信号を捕捉するために有利に位置し、空間的多様性に基づく選択的な信号処理および拡張のための環境サウンドの選択的な捕捉および処理を提供するように使用されうる。

[0057]図１Ａは、タスクＴ１００、Ｔ２００、Ｔ３００、およびＴ４００を含む一般的な構成にしたがった、マルチチャネル信号を処理する方法Ｍ１００のフローチャートを提示している。タスクＴ１００は、対ノイズ信号を作り出すために、マルチチャネル信号の第１の音声入力チャネルにＡＮＣ動作を実行する。タスクＴ２００は、マルチチャネル信号のソースコンポーネントを得るために、第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号を処理する。タスクＴ２００は、マルチチャネル信号の背景コンポーネントからソースコンポーネントを分離するためにマルチチャネル信号に空間的選択処理（ＳＳＰ）動作を実行することを含む。タスクＴ３００は、対象コンポーネントを作り出すために、得られたソースコンポーネントを処理する。タスクＴ３００は、通常、得られたソースコンポーネントの知覚力を増加させることを含む。タスクＴ４００は、音声出力信号を作り出すために対象コンポーネントに基づく拡張信号および対ノイズ信号を結合する。

[0058]２つ以上のマイクロフォンを有する、イヤピースまたは他のヘッドセットは、方法Ｍ１００のインプリメンテーションを実行するように構成されうる携帯型音声感知デバイス（例えば、通信デバイス）の一種である。そのようなヘッドセットは、ワイヤード（wired）またはワイヤレスでありうる。例えば、ワイヤレスヘッドセットは、（例えば、Bluetooth Special Interest Group, Inc., Bellevue, WAによって普及されたようなＢｌｕｅｔｏｏｔｈ^ＴＭプロトコルのバージョンを使用して）セルラ式電話のヘッドセットのような電話デバイスを用いた通信を介した半二重の、または全二重の電話通信をサポートするように構成されうる。

[0059]図２Ａから図２Ｄは、方法Ｍ１００のインプリメンテーションを実行するように構成されうるワイヤレスヘッドセットＨＳ１０の様々な視点を提示している。ヘッドセットＨＳ１０は、ハウジングから拡大するイヤフォンＺ２０および２つのマイクロフォンアレイを搬送するハウジングＺ１０を含む。概して、ヘッドセットのハウジングは、矩形である、そうでなければ図２Ａ、図２Ｂ、および図２Ｄにおいて提示されているように（例えば、ミニブーム（miniboom）のように形作られた）引き伸ばされることができ、または、より丸くあるいはさらに円形であることもできる。ハウジングもまた、バッテリおよびプロセッサ、ならびに／あるいは他の処理回路（例えば、プリント回路版、およびそこに装着されたコンポーネント）を囲うことができ、電気ポート（例えば、ミニユニバーサルシリアルバス（ＵＳＢ）またはバッテリチャージのための他のポート）および１つまたは複数のボタンスイッチならびに／あるいはＬＥＤのようなユーザインタフェース特性を含むことができる。通常、主軸に沿ったハウジングの長さは、１から３インチの範囲内にある。

[0060]方法Ｍ１００のそのようなインプリメンテーションでは、第１の音声入力チャネルがヘッドセットの主要マイクロフォンによって作り出される信号に基づき、第１の音声入力チャネルがヘッドセットの二次的マイクロフォンによって作り出される信号に基づく。通常、各マイクロフォンは、音響ポートとしての役割をするハウジング内の１つまたは複数の小さなホールの後ろでヘッドセット内に装着される。図２Ｂから図２Ｄは、デバイスＨＳ１０の主要マイクロフォンのための音響ポートＺ５０、およびデバイスＨＳ１０の二次的マイクロフォンのための音響ポートＺ４０のロケーションを提示している。イヤフォンＺ２０は、音声出力信号に基づく音響信号を作り出す、ヘッドセットのスピーカからのサウンドをユーザの耳の穴に向ける。

[0061]ヘッドセットは、通常ヘッドセットから取り外し可能な、イヤホックＺ３０のような固定デバイスも含むことができる。外部イヤホックは、例えばユーザがどちらかの耳での使用のためにヘッドセットを構成することを可能にするようにリバーシブルであることができる。代わりとして、ヘッドセットのイヤフォンは、特定のユーザの耳の穴の外部により良く適合するように、異なるユーザが異なるサイズ（例えば、直径）のイヤピースを使用することを可能にする着脱可能なイヤピースを含むことができる内部固定デバイス（例えば、イヤプラグ）として設計されうる。図１Ｂは、ユーザの右耳に着けられているヘッドセットＨＳ１０の使用の上方視点を提示している。

[0062]図３Ａから３Ｄは、方法Ｍ１００のインプリメンテーションを実行するように構成されうるワイヤレスヘッドセットの別の例であるマルチマイクロフォンの携帯型音声感知デバイスＨＳ２０の様々な視点を提示している。デバイスＨＳ２０は、丸く、楕円形のハウジングＺ１２、およびイヤプラグとして構成されうるイヤフォンＺ２２を含む。図３Ａから図３Ｄはまた、主要マイクロフォンのための音響ポートＺ５２、およびデバイスＨＳ２０の二次的マイクロフォンのための音響ポートＺ４２のロケーションも提示している。（例えば、ユーザインタフェースのボタンによって）主要マイクロフォンポートＺ５２は少なくとも部分的に塞がれうる。

[0063]２つ以上のマイクロフォンを有するイヤカップ、またはそれぞれが少なくとも１つのマイクロフォンを有する（通常、ユーザの頭上を渡って着けられるバンドによって繋がれる）イヤカップのペアは、方法Ｍ１００のインプリメンテーションを実行するように構成されうる別の種類の携帯型通信デバイスである。図４Ａから図５Ｃは、ユーザの耳への音声出力信号に基づいて音響信号を作り出すように設けられているスピーカＲＬＳ１０を含む、そのようなイヤカップ（ヘッドフォンとも称される）の右側のインプリメンテーションＥＣＲ１０、ＥＣＲ２０、ＥＣＲ３０、ＥＣＲ４０、ＥＣＲ５０およびＥＣＲ６０のそれぞれの平面の横断面図を提示している。そのようなイヤカップは、耳載せ（つまり、使用中にユーザの耳にそれを囲うことなく据えるように）、または耳覆い（つまり、使用中にユーザの耳を覆うように）であるように構成されうる。これらの例はまた、イヤカップハウジング内で音響ポートを介して環境音響信号を受信し、対応する入力音声信号が基づく信号を作り出すように設けられている１つまたは複数のマイクロフォンＭＲ１０、ＭＲ２０、ＭＲ３０も含む。イヤカップの構造を通じてスピーカＲＬＳ１０から機械的な振動を受信することからマイクロフォンを断絶することが望ましい。

[0064]ここで記述される様々な右側のイヤカップの左側の事例は類似して構成されることは理解されることになる。図６Ａおよび図６Ｂはヘッドフォンのペアの通常使用ケースの上方の、および正面の視点をそれぞれ提示している。この例は、イヤカップＥＣＲ４０のインプリメンテーションＥＣＲ４２、対応する左側のイヤカップＥＣＬ４２、および２つのイヤカップを繋ぐバンドＢＤ１０を含む。

[0065]図７Ａは、ＡＮＣフィルタＡＦ１０、拡張現実（ＡＲ）処理モジュールＡＲ１０、および音声出力ステージＡＯ１０を含む一般的な構成にしたがって装置Ａ１００のブロック図を提示している。装置Ａ１００は、方法Ｍ１００のインプリメンテーションを実行するように使用されうる。例えば、ＡＮＣフィルタＡＦ１０は、タスクＴ１００を実行するように使用され、ＡＲ処理モジュールＡＲ１０はタスクＴ２００およびＴ３００を実行するように使用され、音声出力ステージＡＯ１０はタスクＴ４００を実行するように使用されうる。

[0066]ここで記述されるようなマルチマイクロフォンの音声感知デバイスの動作の間、２つ以上のマイクロフォンのアレイは、各チャネルが音響環境へのマイクロフォンの対応するものの応答に基づいているマルチチャネル信号を作り出す。１つのマイクロフォンは、対応するチャネルが単一のマイクロフォンを使用して捕捉されることができるものよりも音響環境のより完全な表現をまとめて提供するために互いに異なるように、別のマイクロフォンよりも直接特定のサウンドを受信することができる。

[0067]音声感知デバイスが、対応するマルチチャネル信号を作り出すためにマイクロフォンによって作り出される信号に１つまたは複数の処理動作を実行することが望ましい。例えば、そのようなデバイスは、音声前処理ステージＡＰ１０を含む、図８Ａで提示されるような配列を含むことができる。音声前処理ステージＡＰ１０は、各チャネルＳＩ１０およびＳＩ２０が音響信号への対応するマイクロフォンの応答に基づくようにマルチチャネル信号ＭＣＳ１０を作り出すために、マイクロフォンによって作り出される信号に、アナログおよび／またはデジタルドメインにおいてインピーダンス整合、アナログデジタル変換、利得制御、ならびに／またはフィルタリングを（制限なく）含むことができる、１つまたは複数のそのような動作を実行するように構成される。

[0068]図８Ｂは、アナログ前処理ステージＰ１０ａおよびＰ１０ｂを含む音声前処理ステージＡＰ１０のインプリメンテーションＡＰ２０を含むような配列のブロック図を提示している。１つの例では、ステージＰ１０ａおよびＰ１０ｂはそれぞれ、マイクロフォンＭＲ１０およびＭＲ２０からの対応する信号にハイパスフィルタリング動作を（例えば、５０、１００、または２００Ｈｚのカットオフ周波数で）実行するように構成される。

[0069]前処理ステージは、デジタル信号、いわゆるサンプルのシーケンスとして対応するマルチチャネル信号を作り出すことが望ましい。例えば、音声前処理ステージＡＰ２０は、それぞれが対応するアナログチャネルをサンプリングするように設けられているアナログデジタルコンバータ（ＡＤＣ）Ｃ１０ａおよびＣ１０ｂを含む。音響アプリケーションのための通常のサンプリングレートは、約３２、４４．１、４８、または１９２ｋＨｚと同じくらい高いサンプリングレートもまた使用されうるけれども、８ｋＨｚ、１２ｋＨｚ、１６ｋＨｚ、および約８から１６ｋＨｚの範囲内の他の周波数を含む。この特定の例では、音声前処理ステージＡＰ２０はまた、マルチチャネル信号ＭＣＳ１０の対応するチャネルＳＩ１０、ＳＩ２０を作り出すために、それぞれが対応するデジタル化されたチャネルに１つまたは複数の前処理動作（例えば、エコー取消、ノイズ軽減、および／またはスペクトル形成）を実行するように構成されるデジタル前処理ステージＰ２０ａおよびＰ２０ｂを含む。図８Ｃは、音声前処理ステージＡＰ２０が対応するマイクロフォンＭＬ１０およびＭＲ１０によって作り出される信号に基づいて音声入力チャネルＳＩ１０およびＳＩ２０を作り出すように設けられている例を提示している。

[0070]ＡＮＣデバイスが十分に大きい（例えば、ヘッドフォン）ケースでは、装置Ａ１００はそのデバイス内でインプリメントされうる。他のケースでは、頭部装着型ＡＮＣデバイス内の装置Ａ１００のいくつかの要素、および携帯型処理デバイスＰＤ１０内の装置Ａ１００の他の要素をインプリメントすることが望ましい。そのような処理デバイスの例は、制限なく、セルラ式電話のヘッドセット、スマートフォン、または他のモバイル通信デバイス、パーソナルデジタルアシスタント（ＰＤＡ）または他のコンパクトなコンピューティングデバイス、ならびにノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他の携帯型コンピューティングデバイスを含む。図７Ｂは、頭部装着型ＡＮＣデバイス（例えば、ここで記述されるような、ヘッドセット、イヤカップ、またはイヤバッド）と処理デバイスＰＤ１０との間の装置Ａ１００の要素のそのような区分の１つの例を提示している。この例では、装置Ａ１００の部分Ａ１０２Ａ（つまり、ＡＮＣフィルタＡＦ１０および音声出力ステージＡＯ１０）は、ＡＮＣデバイス内でインプリメントされ、装置Ａ１００の部分Ａ１０２Ｂ（つまり、ＡＲ処理モジュールＡＲ１０）は、ＰＤ１０内でインプリメントされる。装置Ａ１００のこの、および他のインプリメンテーションでは、ＡＮＣフィルタＡＦ１０が、アナログドメインまたはデジタルドメインでＡＮＣフィルタリングを実行するためにインプリメントされ、さらに音声出力ステージＡＯ１０は、アナログドメインおよびデジタルドメインで出力信号ＳＯ１０を作り出すために信号ＳＧ１０とＳＡ１０を結合するようにインプリメントされうる間に、ＡＲ処理モジュールＡＲ１０は通常、デジタルドメインで実行される。

[0071]チャネルＳＩ１０とＳＩ２０との通信、および携帯型処理デバイスＰＤ１０とＡＮＣデバイスとの間の信号ＳＧ１０は、ワイヤードおよび／またはワイヤレス送信チャネルを渡って生じうる。そのような通信リンクをサポートするために使用されうる、ワイヤレス方法の例は、Ｂｌｕｅｔｏｏｔｈ（登録商標）（例えば、 [クラッシクＢｌｕｅｔｏｏｔｈ、Ｂｌｕｅｔｏｏｔｈハイスピード、およびＢｌｕｅｔｏｏｔｈローエネルギープロトコルを含む］Ｂｌｕｅｔｏｏｔｈコア仕様バージョン４．０中で記述されているような、ヘッドセットまたは他のプロファイル、ＢｌｕｅｔｏｏｔｈＳＩＧ，Ｉｎｃ．，Ｋｉｒｋｌａｎｄ，ＷＡ）、ピーナツ（ＱＵＡＬＣＯＭＭＩｎｃｏｒｐｏｒａｔｅｄ，ＳａｎＤｉｅｇｏ，ＣＡ）、およびＺｉｇＢｅｅ（登録商標）（例えば、ＺｉｇＢｅｅ２００７仕様および／またはＺｉｇＢｅｅＲＦ４ＣＥ仕様中で記述されている、ＺｉｇＢｅｅＡｌｌｉａｎｃｅ，ＳａｎＲａｍｏｎ，ＣＡ）のような、（例えば、数インチから数フィートまでの）短距離通信用の低電力無線仕様を含む。そのようなデバイス間で使用されうる他のワイヤレス送信チャネルは、赤外線および超音波のような非無線チャネルを含む。

[0072]別の例では、マイクロフォンおよびスピーカが１つまたは複数のイヤバット内でインプリメントされる。図９Ａは、コード付きのインプリメンテーションでの、スピーカＬＬＳ１０およびマイクロフォンＭＬ１０およびＭＬ２０を含むイヤバッドＥＢ１０の左手の例を提示している。この例では、マイクロフォンＭＬ２０は、マイクロフォンＭＬ１０から約３から４センチメートルの距離でコードＣＤ１０の半硬質のケーブル部分ＣＢ１０に装着される。半硬質ケーブルＣＢ１０は、フレクシブルで軽量であるけれども、マイクロフォンＭＬ２０が使用中に（例えば、マイクロフォンＭＬ１０に対して）比較的一定の方向に向けられたままにするのに十分固いように構成されうる。図１０Ａは、マイクロフォンＭＬ２０は、マイクロフォンＭＬ２０が使用中に（例えば、マイクロフォンＭＬ１０に対して）比較的一定の前方方向に向けられるように、マイクロフォン２０がイヤバットでコードＣＤ２０の張力緩和部分内に装着される別のイヤバッドＥＢ２０の左手の例の側面を提示している。

[0073]別の例では、マイクロフォンＭＬ１０およびＭＲ１０は、イヤバッドのペアのそれぞれのものの内でインプリメントされる。図１０Ｂは、左のスピーカＬＬＳ１０および左のマイクロフォンＭＬ１０を含むイヤバッドＥＢ３０の例の正面の視点を提示している。使用中に、イヤバッドＥＢ３０は、（例えば、コードＣＤ３０を介して受信される音声出力信号ＳＯ１０の事例から）左のスピーカＬＬＳ１０によって作り出される音響信号をユーザの耳の穴に向けるようにユーザの左耳に着けられる。音響信号をユーザの耳の穴に向けるイヤバッド（例えば、ＥＢ１０、ＥＢ２０、ＥＢ３０）の部分が、それがユーザの耳の穴の封止を形成するように心地よく着けられうるように、エラストマー（例えば、シリコンゴム）のような回復機能を有するマテリアルによって作られる、またはカバーされることが望ましい。

[0074]拡張現実のアプリケーションが信号をユーザの耳にパスするケースでは、ＡＮＣヘッドセットは、（例えば、両耳のキュー（cue）に関して）もっとも高い忠実度のサウンドも供給することができる。図９Ｂは、第２のＡＮＣフィルタＡＦ２０および第２の音声出力ステージＡＯ２０を含む装置Ａ１００のインプリメンテーションＡ２００のブロック図を提示している。ＡＮＣフィルタＡＦ１０の第２の事例ＡＦ２０は、第２の音声入力チャネルＳＩ２０に基づく第２の対ノイズ信号ＳＡ２０を作り出すように構成され、音声出力ステージＡＯ１０の第２の事例ＡＯ２０は、第２の音声出力信号ＳＯ２０を作り出すために拡張信号ＳＧ１０を対ノイズ信号ＳＡ２０と結合するように構成される。

[0075]装置Ａ２００を含むデバイスは、通常、それぞれ、第１の音声入力信号ＳＩ１０を作り出し、音声出力信号ＳＯ１０によって駆動されるための（例えば、ここで記述されるようなヘッドセット、イヤカップ、またはイヤバッド内の）ユーザの耳の１つに着けられるスピーカおよびマイクロフォン、ならびに、それぞれ、第２の音声入力信号ＳＩ２０を作り出し、音声出力信号ＳＯ２０によって駆動されるための（例えば、ここで記述されるような別のヘッドセット、イヤカップ、またはイヤバッド内の）ユーザの耳のもう片方に着けられる別のマイクロフォンおよびスピーカを含むように構成される。例えば、装置Ａ２００は、ここで記載されるような、ヘッドセット、イヤカップ（例えば、ヘッドフォン）、またはイヤバッドのペアの１つまたは両方内で、ならびに／または携帯型処理デバイスＰＤ１０の事例内でインプリメントされうる。装置Ａ２００がワイヤレスヘッドセットのペアでインプリメントされるケースでは、そのようなヘッドセットは、ここで記述されるワイヤレスチャネルのいずれかを使用して、デバイスＰＤ１０および／または互いにそれぞれの音声入力および出力信号を転送するように構成されうる。

[0076]装置Ａ１００は、少なくとも２つのマイクロフォンから音声入力信号を受信するようにインプリメントされるけれども、より良い性能（例えば、増大した方向感度）は、２つより多いマイクロフォンが使用される場合に期待されうる。図１１は、ＡＲ処理モジュールＡＲ１０のインプリメンテーションＡＲ１２を含む装置Ａ２００のインプリメンテーションＡ２１０のブロック図を提示している。この例では、モジュールＡＲ１２は、背景コンポーネントからソースコンポーネントを分離するために、音声入力チャネルＳＩ１０、ＳＩ２０およびＳＩ３０に空間的選択処理動作を実行するように構成される。音声入力チャネルＳＩ３０は、頭部装着型マイクロフォンの配置の様々な例を参照してここで記述されるように追加のマイクロフォンＭＬ２０、ＭＲ２０、またはＭＣ１０によって作り出される信号に基づくことができる。ＡＲ処理モジュールＡＲ１０は、４、５、または任意のより大きな数の音声入力チャネルを処理するような方法で同様に拡張されうることは理解されることになる。

[0077]図１０Ｃは、マイクロフォンＭＬ１０、ＭＲ１０、および対応する左ならびに右のスピーカ（図示せず）を搬送するイヤバッドが、コードＣＤ４０を渡って、携帯型メディアプレイヤＰＤ２０としての携帯型処理デバイスＰＤ１０のインプリメンテーションに音声入力信号ＳＩ１０、ＳＩ２０、ＳＩ３０を、そのインプリメンテーションから音声出力信号ＳＯ１０、ＳＩ２０を転送するようにインプリメントされる使用ケースを提示している。このケースでは、第３の音声入力信号ＳＩ３０は、コード装着型マイクロフォンＭＬ２０によって作り出される信号に基づく。

[0078]図１２Ａ―図１２Ｅは、ここで記述されるようにマイクロフォンおよび／またはスピーカを搬送するように使用されうるデバイスの追加の例を提示している。図１２Ａは、テンプルに装着された両耳のペアの各マイクロフォンＭＬ１０、ＭＲ１０、およびテンプルまたは対応する末端部に装着された別のマイクロフォンＭＲ２０を有する眼鏡（例えば、度付き眼鏡、サングラス、または保護眼鏡）を提示している。図１２Ｂは、マイクロフォンＭＣ１０は、ユーザの顔（例えばユーザの口）の前に装着され、両耳のペアＭＬ１０、ＭＲ１０の各マイクロフォンがユーザの頭の対応する側に装着されるヘルメットを提示している。図１２Ｃ−Ｅは、両耳のペアＭＬ１０、ＭＲ１０の各マイクロフォンがユーザの頭の対応する側に装着されるゴーグル（例えば、スキーゴーグル）の例を提示しており、これらの例の各々は、追加のマイクロフォンＭＣ１０に対する異なる対応する位置を提示している。ここで記述されているような装置Ａ１００のインプリメンテーションでの使用のためのマイクロフォンに関する追加の例は、キャップまたは帽子のサンバイザあるいはツバ、折り襟、胸のポケット、またはショルダに限定はされないが含む。

[0079]アクティブノイズ取消フィルタＡＦ１０は、第１の入力音声チャネルＳＩ１０を受信し、対応する対ノイズ信号ＳＡ１０を作り出すためにアクティブノイズ取消動作を実行するように構成される。通常、振幅において音響ノイズと適合し、位相において音響ノイズと反対であるように対ノイズ信号ＳＡ１０を生成するようにＡＮＣフィルタＡＦ１０を構成することが望ましい。フィルタＡＦ１０はまた、最適なノイズ取消を達成するように、信号処理動作（例えば、時間遅延適合または最小化、利得増幅、および／または周波数応答等化）を実行することもできる。ＡＮＣフィルタＡＦ１０を（例えば、高振幅な低周波数の音響信号を減衰させるために）信号をハイパスでフィルタリングするように構成することが望ましい。加えて、または代わりとして、ＡＮＣフィルタＡＦ１０を、（例えば、ＡＮＣ効果が高周波数で周波数に伴って減少するように）信号をローパスでフィルタリングするように構成することが望ましい。対ノイズ信号ＳＡ１０は、音響ノイズがマイクロフォンからスピーカまで移動する時間まで利用可能であるべきなので、ＡＮＣフィルタＡＦ１０によって引き起こされる処理遅延は、非常に短い時間（通常約３０−６０マイクロ秒）を越えるべきではない。

[0080]フィルタＡＦ１０は、アナログドメインおよび／またはデジタルドメインで、ならびに時間ドメインおよび／または変換ドメイン（例えば、フーリエ変換あるいは他の周波数ドメイン）で、ＡＮＣ動作を実行するように構成されうる。対ノイズ信号ＳＡ１０を作り出すためにＡＮＣフィルタＡＦ１０によって実行されうるＡＮＣ動作の例は、位相反転フィルタリング動作、最小二重平均（ＬＭＳ）フィルタリング動作（例えば、米国特許出願公開番号第２００６／００６９５６６号(Nadjar et al.)およびその他で記述されているようなフィルタリングされた参照番号（「フィルタリングされたＸ（filtered-x）」）ＬＭＳ）および（例えば、米国特許番号第５１０５３７７号(Ziegler)で記述されているような）デジタル仮想地球アルゴリズムを含む。ＡＮＣフィルタＡＦ１０によって実行されうるＬＭＳフィルタリング動作の他の例は、フィルタリングされたエラー（「フィルタリングされたＥ（filtered-E）」）ＬＭＳ、フィルタリングされたＵ（filtered-U）ＬＭＳ、および他の変数（例えば、サブバンドＬＭＳ、ステップサイズに通常化された（step-size-normalized）ＬＭＳなど）を含む。

[0081]デジタルドメインにおいて非常に低い遅延（例えば、約１０マイクロ秒）を得るために、パルス密度変調（ＰＤＭ）ドメインにおいてＡＮＣフィルタリングを実行し、ならびにパルスコード変調（ＰＣＭ）ドメインにおいて遂行するアルゴリズムを用いてこのＰＤＭフィルタの係数を適応させるようにＡＮＣフィルタＡＦ１０をインプリメントすることが望ましい。そのようなケースでは、ＰＤＭドメインは、低い解像度（例えば、１、２、または４ビットのビット幅）および非常に高いサンプリングレート（例えば、約１００ｋＨｚ、１ＭＨｚ、またはさらに１０ＭＨｚ）を有し、ＰＣＭドメインは、より高い解像度（例えば、８、１０、１２、または１６ビットもしくはさらに高いビット幅）およびより低いクロックレート（例えば、８、１２、１６、３２、４４．１、または４８ｋＨｚのような、約１または１０ｋＨｚ(e.g., on the order of one or ten kHz, such as eight, 12, 16, 32, 44.1, or 48 kHz)）を有する。ＰＤＭフィルタリングは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、または特定用途向け規格品（application-specific standard product（ＡＳＳＰ））のような、デジタルハードウェアによって実行されうる。ＰＣＭ適応は、ソフトウェア（例えば、ＤＳＰのようなプロセッサによる遂行のための命令）を使用するＰＣＭドメインにおける適応ＡＮＣアルゴリズムのインプリメンテーションを用いて実行されうる。ＡＮＣフィルタＡＦ１０のそのようなインプリメンテーションの例は、２０１１年1月１３日に公表され、「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR ADAPTIVE ACTIVE NOISE CANCELLATION」という名称の米国特許出願第２０１１／０００７９０７号において記述されている。（ＡＮＣフィルタＡＦ２０は、ここで記述されるようなＡＮＣフィルタＡＦ１０の第２の事例として同様に実行されうることは留意されたい。）
[0082]拡張現実処理モジュールＡＲ１０は、第１の音声入力チャネルＳＩ１０および第２の音声入力チャネルＳＩ１０を含むマルチチャネル信号を処理し、拡張信号ＳＧ１０を作り出すように構成される。図１３Ａは、空間的選択処理（ＳＳＰ）モジュールＳＭ１０および拡張モジュールＡＭ１０を含むモジュールＡＲ１０のインプリメンテーションＡＲ２０のブロック図を提示している。

[0083]空間的選択処理（ＳＳＰ）モジュールＳＭ１０は、背景コンポーネントからマルチチャネル信号のソースコンポーネントＳＣ１０を分離するようにマルチチャネル信号にＳＳＰ動作を実行するように構成されたＳＳＰフィルタを含むように構成される。そのようなＳＳＰ動作は、例えば、音声入力チャネル間の位相の差異および／または利得の差異に基づくことができる。マイクロフォンアレイの軸に近い近隣のソースからのサウンドは、例えば、利得の差異に基づいて、背景コンポーネント（例えば、遠隔ソースからのサウンドおよび拡散したサウンド）とは区別されうる。１つの例では、ＳＳＰフィルタは、しきい値を満たす（代わりとして超える）チャネル間の利得の差異を有するフレームが他のフレームから分離されるように、近接に基づいてソースコンポーネントを分離するようにインプリメントされる。そのようなケースでは、各チャネルに関するフレームの利得は、時間ドメインでは、総合のエネルギー（例えば、定められた（squared）サンプルの合計）または、サンプル毎の平均のエネルギーとして、あるいは周波数ドメインでは、例えば、定められた（squared）大きさ（magnitude）の合計に基づいて計算されうる。

[0084]チャネル間の利得の差異はまた、望ましい範囲の方向から（つまり、マイクロフォンのアレイの軸に対して）到着する信号を、背景コンポーネント（例えば、他の方向から到着するサウンド）から分離するために使用されうる。図１４Ａは、３つの空間セクタ（つまり、エンドファイア（endfire）セクタ１、ブロードサイドセクタ２、およびエンドファイアセクタ３）のうちの望ましい１つから到着する信号を他の信号から分離するために、マルチチャネル信号のフレームｎに関する利得の差異ＧＤ[ｎ］と利得の差異のしきい値Ｔ_Ｌとの間の関係の状態を使用する例を提示している。図１４Ｂは、ＳＳＰフィルタが５つの空間セクタのうちの望ましい１つから到着する信号を選択するために、利得の差異ＧＤ[ｎ］と第１の利得の差異のしきい値Ｔ_Ｌ１との間の関係の状態、および利得の差異ＧＤ[ｎ］と第２の利得の差異のしきい値Ｔ_Ｌ２との間の関係の状態を使用する例を提示している。図１５は、ワイヤレスヘッドセットＨＳ１０および単一マイクロフォンのヘッドセットＨＳ３０を含むインプリメンテーションにおける複数の選択可能な空間セクタの別の例の上方視点の図を提示している。

[0085]チャネル間の位相の差異はまた、望ましい範囲の方向から到着する信号を、背景コンポーネント（例えば、他の方向から到着するサウンド）と分離するために使用されうる。そのようなケースでは、マルチチャネル信号におけるその位相の差異が望ましい範囲内にある到着の方向を示す周波数のビンのみをパスすることによって音声入力チャネルの１つまたは複数から空間的に分離されたソースコンポーネントを作り出すようにＳＳＰフィルタを構成することが望ましい。

[0086]マルチチャネル信号の「方向の一貫性（directional coherence）」は、信号の様々な周波数コンポーネントが同じ方向から到着する程度として定義される。理想的な方向的に一貫したチャネルペアでは、周波数に対する位相の差異の割合の値は、全ての周波数に対して一定のｋに等しく、ここにおいてｋの値は、到着の方向θ、および到着の時間遅延τに関連する。別の例では、ＳＳＰフィルタは、望ましい範囲の方向内で十分に方向的に一貫しているフレームをパスするように構成されている。

[0087]ＳＳＰモジュールＳＭ１０内のＳＳＰフィルタによって実行されうる方向的選択ＳＳＰ動作の他の例は、ビームフォーミングおよびブラインド音源分離（blind source separation（ＢＳＳ））を含む。対応する方向でコンポーネントを選択するために１つまたは複数のフィルタを生成するように使用されうるビームフォーミングのアプローチの例は、一般化されたサイドローブキャンセレーション（（genelized sidelobe cancellation）ＧＳＣ）、最小分散無歪み応答（minimum variance distortionless respomse（ＭＶＤＲ））および線形制約された最小分散（linearly constrained minimum variance（ＬＣＭＶ））ビームフォーマを含む。ＢＳＳ方法の例は、干渉ポイントソースに対してヌルビームを向けることによって動作する、独立コンポーネント分析（ＩＣＡ）および独立ベクトル分析（ＩＶＡ）を含む。

[0088]ＳＳＰフィルタは、（例えば、ユーザの前方方向から到着する信号を、他の方向から到着する信号を含む背景コンポーネントから分離するために）固定された方向で空間的選択処理動作を適用するように構成されうる。代わりとして、到着の望ましい方向は選択され、そうでなければ、例えばデバイスＰＤ１０のユーザインタフェース（例えば、タッチスクリーンのディスプレイ）を介してユーザによって示されうる。そのようなケースでは、ＳＳＰフィルタが、ユーザの頭が回転するにつれて（地球の重力場および／または磁場のような、固定された外部の基準に関連して）その選択された方向を適応して維持するためにインプリメントされうるように、デバイスの頭部装着部分がユーザの頭の回転を追跡するように構成された、１つまたは複数の磁気探知機、姿勢制御装置、および／または加速度計を含むことが望ましい。そのような適応は、例えば異なる利得の差異のしきい値の関連を選択すること、位相の差異と周波数の異なる割合を選択すること、異なる対応する方向に方向づけられたビームフォーミングフィルタのセットの異なる１つを選択することによって、異なる空間セクタを選択することを含みうる。

[0089]ＳＳＰフィルタによって実行されるように空間ドメインにおけるソースコンポーネントの分離に加えて、１つまたは複数の他のドメインでも同様にソースコンポーネントを分離するようにＳＳＰモジュールＳＭ１０をインプリメントすることが望ましい。図１３Ｃは、ここで記述されるようなＳＳＰフィルタＳＦ１０、およびドメイン選択フィルタＤＦ１０を含むＳＳＰモジュールＳＭ１０のインプリメンテーションＳＭ２０のブロック図を提示している。フィルタＤＦ１０は、ＳＳＰフィルタＳＦ１０によって作り出される空間的に分離されたソースコンポーネントを、それを１つまたは複数の追加のドメインにおいて分離するために処理するように構成されている。１つの例では、フィルタＤＦ１０は、スピーチアクティブフレームをスピーチ非アクティブフレームから（例えば、時間ドメインにおいて）分離するために空間的に分離されたソースコンポーネントにボイスアクティビティ検出（ＶＡＤ）動作を実行するようにインプリメントされる。

[0090]そのようなＶＡＤ動作は、フレームエネルギー、信号対ノイズ比、周期性、スピーチおよび／または余剰（例えば、線形予測符号化余剰）の自己相関、ゼロ交差レート、および／または第１の反発係数のような１つまたは複数のファクタに基づきうる。そのような分類は、そのようなファクタの値または大きさをしきい値と比較すること、および／またはそのようなファクタにおける変化の大きさをしきい値と比較することを含みうる。代わりとして、または追加で、そのような分類は、１つの周波数帯域におけるエネルギーのような、そのようなファクタの値または大きさ、またはそのようなファクタにおける変化の大きさを別の周波数帯域における同様の値と比較することを含むことができる。複数の基準（例えば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ決定のメモリに基づいてボイスアクティビティ検出を実行するためにフィルタＤＦ１０をインプリメントすることが望ましい。フィルタＤＦ１０によって実行されうるボイスアクティビティ検出動作の１つの例は、例えば、２００７年１月の「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」という名称の３ＧＰＰ２の文書C.S0014-C, v1.0のセクション４．７（４−４９から４−５７頁）（www-dot-3gpp-dot-orgにおいてオンラインで利用可能である）において記述されているように、空間的に分離されたソースコンポーネントの高帯域および低帯域のエネルギーをそれぞれのしきい値と比較することを含む。

[0091]追加で、または代わりとして、フィルタＤＦ１０は、線形予測符号化（ＬＰＣ）および／または時間ドメインにおけるスピーチコンテンツの分離をサポートするために、空間的に分離されたソースコンポーネントにＬＰＣ分析動作を実行するようにインプリメントされうる。１つのそのような例では、フィルタＤＦ１０は、例えばホルマント構造（例えば、狭すぎず、および／または広すぎない帯域幅）、および／またはスペクトル傾斜に基づいて他のコンテンツからスピーチフレームを分離するようにインプリメントされる。別の例では、フィルタＤＦ１０は、（例えば、男性の語り手からスピーチのみを、女性の語り手からスピーチのみを、あるいは幼児から泣き声または他の発生のみを選択するために）ＬＰＣ余剰からピッチの周波数推定を計算し、示されたピッチの周波数範囲に基づいて、他のコンテンツから特定のスピーチフレームを分離するようにインプリメントされる。そのような選択は、（例えば、デバイスＰＤ１０のユーザインタフェースを介して）ユーザによって示されうる。ピッチ推定の過程は、例えば、www-dot-3gpp-dot-orgにおいてオンラインで利用可能なＥＶＲＣ（可変速度符号化（Enhanced Variable Rate Codec））の文書C.S0014-Cのセクション４．６．３（４−４４から４−４９ページ）において記述されている。そのようなＬＰＣ分析はまた、特定の人間からのスピーチフレームを他のスピーチコンテンツから分離するように使用されうる。

[0092]追加で、または代わりとして、フィルタＤＦ１０は、示された口語（例えば、英語のみ、または韓国語のみ）においてスピーチコンテンツのみを分離するために空間的に分離されたソースコンポーネントを処理することによってソースコンポーネントＳＣ１０を作り出すためにインプリメントされうる。選択されるべき言語は、（例えば、デバイスＰＤ１０のユーザインタフェースを介して）ユーザによって示されうる。例えば、フィルタＤＦ１０は、示された言語においてコンテンツを含む可能性のある分離されたソースコンポーネントのフレームを識別するために隠れマルコフモデル（ＨＭＭ）処理を使用するようにインプリメントされうる。

[0093]拡張モジュールＡＭ１０は、対象コンポーネントを作り出すために、ならびにその対象コンポーネントに基づく拡張信号ＳＧ１０を作り出すためにソースコンポーネントＳＣ１０に拡張動作を実行するように構成されている。図１３Ｂは、拡張信号ＳＧ１０として対象コンポーネントＴＣ１０を出力するように構成される拡張モジュールＡＭ１０のインプリメンテーションＡＭ２０のブロック図を提示している。拡張モジュールＡＭ２０は、ソースコンポーネントＳＣ１０の知覚力を増加させることによって、対象コンポーネントＴＣ１０を作り出すためにソースコンポーネントＳＣ１０を処理するように構成されるソース処理モジュールＰＭ１０を含む。

[0094]ソースコンポーネントＳＣ１０の知覚力を増加させるためにソース処理モジュールＰＭ１０によって実行されうる動作の例は、増幅、等化、脱残響、ノイズ低減、スピーチスピードの修正、およびスピーチピッチのシフトを、限定ではなく、含む。そのような動作は、例えばデバイスＰＤ１０のユーザインタフェース（例えば、タッチスクリーンのディスプレイ）を介してユーザによって選択および／または構成されうる。

[0095]ソース処理モジュールＰＭ１０は、推定された室内伝達関数を使用してコンポーネントを逆フィルタリングすることによってソースコンポーネントＳＣ１０を脱残響するようにインプリメントされうる。ソースコンポーネントＳＣ１０を白色化する（whitening）ことなく、そのような逆フィルタリングを実行することが望ましい。１つの例では、ソースコンポーネントＳＣ１０が空間的に分離される背景コンポーネントは、逆にされた室内伝達関数を推定するために使用される。

[0096]ソース処理モジュールＰＭ１０は、ユーザの選好にしたがってソースコンポーネントＳＣ１０を等価する、ならびに／あるいはユーザの聴力低下を補う（例えば、高周波数を増強する）ためにインプリメントされうる。別の例では、ソース処理モジュールＰＭ１０は、ソースコンポーネントＳＣ１０の低周波数コンテンツを調和的に広げることによって、心理音響的バス増強（psychoacoustic bass enhancement(PBE)）動作を実行するようにインプリメントされる。そのような動作は、低周波数コンテンツの知覚力および／または操向の能力（directability）を増強することができる。

[0097]ソース処理モジュールＰＭ１０は、ソースコンポーネントＳＣ１０にノイズ低減動作を実行するようにインプリメントされうる。そのような動作は、例えば、非スピーチインターバルの間にソースコンポーネントＳＣ１０のレベルを低減すること、および／またはソースコンポーネントＳＣ１０からのノイズ推定の空間的減算を含み、ノイズ推定は、非スピーチインターバルを渡った時間平均として、および／または非スピーチ方向から到着するコンポーネント（例えば、ソースコンポーネントＳＣ１０が空間的に分離されている背景コンポーネント）のスペクトルに基づいて、周波数ドメインにおいて計算される。

[0098]ソース処理モジュールＰＭ１０は、ソースコンポーネントＳＣ１０にスピーチスピード変更動作を実行するようにインプリメントされうる。時間に関してスピーチ信号を拡大または圧縮することによって実行されるそのような動作は、通常、スピーチコンテンツのスピードを減速するように使用され、ピッチ情報を提供する、余剰からホルマント構造を分離するためのＬＰＣ分析動作を含む。ソース処理モジュールＰＭ１０は、各フレームの長さを拡大すること、ピッチ周期を有声のスピーチセグメントに挿入して（例えば、ランダムエキサイテーション（excitation）信号を使用して）同様に無声のスピーチセグメントを拡大して、スピーチコンテンツを再生するために望ましいスピードでＬＰＣ合成動作を実行することによってそのような減速を実行するようにインプリメントされうる。そのような減速することはまた、沈黙期間を時間拡大されたスピーチコンテンツと置き換えることも含むことができる。そのようなスピーチスピード変更動作は、スピード変更ファクタ（例えば、０．７、０．７５、０．８、０．９、１．１、１．２、１．２５、１．３など）を選択することによってユーザにより構成されうる。

[0099]ソース処理モジュールＰＭ１０は、スピーチコンテンツのピッチ周波数を変化させるために、ソースコンポーネントＳＣ１０にスピーチピッチ変更動作を実行するようにインプリメントされうる。ソース処理モジュールＰＭ１０は、そのような動作を、ピッチ情報を抽出するためにＬＰＣ分析動作を実行すること、フレームの長さを変化させることなく余剰の信号を圧縮または拡大すること、および望ましいピッチを有するスピーチコンテンツを再生するためにＬＰＣ合成動作を実行することによって実行するようにインプリメントされうる。そのようなスピーチスピードの修正動作は、望ましいピッチ範囲または（例えば、０．５、０．７、または０．８から１．２、１．４、１．５、１．７、または２の範囲内の）ピッチ修正ファクタを選択することによってユーザにより構成されうる。

[0100]拡張モジュールＡＭ１０（またはＡＭ２０）は、拡張信号ＳＧ１０の動的範囲を圧縮するように設けられている音響利得制御（ＡＧＣ）モジュールを含むように構成されうる。そのようなモジュールは、ヘッドルーム定義および／またはマスターボリューム設定を提供するように構成されうる。代わりとして、または追加で、拡張モジュールＡＭ１０（またはＡＭ２０）は、拡張信号ＳＧ１０のレベルを制限するように設けられているピークリミッタを含むように構成されうる。

[0101]音声出力ステージＡＯ１０は、音声出力信号ＳＯ１０を作り出すために、対ノイズ信号ＳＡ１０および拡張信号ＳＧ１０を結合するように構成される。例えば、音声出力ステージＡＯ１０は、対ノイズ信号ＳＡ１０を拡張信号ＳＧ１０と混合することによって、音声出力信号ＳＯ１０を作り出すように構成されるミキサとしてインプリメントされうる。音声出力ステージＡＯ１０はまた、対ノイズ信号ＳＡ１０、拡張信号ＳＧ１０、デジタル形態からアナログ形態への２つの信号の混合をコンバートすることによって、ならびに／あるいはそのような信号に任意の他の望ましい音声処理動作（例えば、そのような信号のレベルをフィルタリング、増幅、そのような信号に利得ファクタを適用、および／またはそのような信号のレベルを制御する）を実行することによって、音声出力信号ＳＯ１０を作り出すように構成されうる。音声出力ステージＡＯ１０はまた、スピーカ、スピーカへ至る音声周波数送信パス、および／または音声出力信号ＳＯ１０を受信または転送するように設けられている、他の電子、視覚、または磁気インタフェース（例えば、音声出力ジャック、またはワイヤレス送信回路へのインタフェース）にインピーダンス一致を提供するように構成されうる。

[0102]両耳の音声出力を作り出すために、拡張信号ＳＧ１０にＳＳＰ動作を実行するように、ＡＲ処理モジュールＡＲ１０をインプリメントすること（例えば、拡張モジュールＡＭ１０またはＡＭ２０をインプリメントすること）が望ましい。例えば、ソースコンポーネントの元の方向に類似する到着の知覚された方向を提供するために、ステレオ信号として拡張信号ＳＧ１０を作り出すことが望ましい。そのような構成は、（例えば、視覚的に知覚されるような）現実の環境に対応する両耳のキューを作り出すことによって、ユーザの拡張現実の経験を増強することができる。図１４は、ＡＲ処理モジュールＡＲ１２のインプリメンテーションＡＲ１４を含む装置Ａ２１０のインプリメンテーションＡ２２０のブロック図を提示している。そのようなケースでは、ＡＲ処理モジュールＡＲ１４は、マルチチャネル入力信号から得られる（例えば、ここで記述されるような）類似の方向情報に基づいて、チャネルＳＧ１０ａおよびＳＧ１０ｂのステレオペアとして拡張信号ＳＧ１０を作り出すためのビームフォーミングまたは利得の差異（例えば、バランス制御）動作を実行する拡張モジュールＡＭ１０（またはＡＭ２０）のインプリメンテーションを含むことができる。

[0103]方法Ｍ１００のインプリメンテーションのための使用ケースは、マルチチャネル信号のソースコンポーネントの知覚力を増加させるために多くの重要なアプリケーションを含む。１つのそのようなアプリケーションは、口語で「人工耳」として指されうる方向選択増幅である。別のそのようなアプリケーションは、例えば、翻訳、減速、等化、および／または増幅されてきたバージョンと受信されたスピーチ信号の実際的な置き換えである。分離されたソースコンポーネントの知覚力を増加させることによって拡張信号を作り出すための捕捉された環境サウンド（つまり、ヘッドセットによるもの、またはヘッドセットが結合されるデバイスを処理することによるもの）の処理は、到着の方向またはソースによって捕捉されたサウンドを分離すること、１つまたは複数の基準（例えば、方向、距離、スピーチ認識、サウンド分類）にしたがって関心のソースを識別すること、分離されたストリームを増強、変換、ブロック、パス、あるいはそうでなければ改めること、および／または選択されたストリームに対する有用な信号処理（例えば、個別の等化、スピードを減速すること、ピッチの変更、および／または言語の翻訳）を適用すること、のうちの１つまたは複数を含むことができる。そのような処理は、処理されたサウンドを混合すること、および結果として生じる拡張信号をユーザの耳を再生することを含むことができる。

[0104]「人工耳」のアプリケーションでは、装置Ａ１００のユーザは、環境からの特定のサウンドが、他のサウンドがブロックされ、ならびに／あるいはより知覚されない間に、環境からの特定のサウンドがより知覚可能になることを知覚する。図１６Ａおよび図１６Ｂは、方法Ｍ１００のインプリメンテーションが「人工耳」のアプリケーションをサポートするために実行される。図１６Ａは、語り手Ｂが「おばあちゃん、こっちに来て？」と尋ね、ユーザＡが他の方向から到着する干渉サウンドのために語り手Ｂのスピーチを傾聴および理解することができない、現実の環境における例において起こることを描写している。

[0105]図１６Ｂは、他のサウンドが減衰されている状態で語り手Ｂの要求の増幅されたバージョンである、拡張現実を有する同じシナリオでユーザＡが傾聴するものを描写している。この例において、ＡＮＣフィルタＡＦ１０は、環境サウンドをブロックし、ＡＲ処理モジュールＡＲ１０は、１つまたは複数の特定のソースまたは方向からサウンドを分離するためにマルチマイクロフォンの空間的選択処理を実行する。そのような技法は、ユーザＡの耳に特定のソース（語り手Ｂ）からのサウンドを増幅するけれども本質的な環境サウンドがユーザＡの耳にパスすることをブロックすることによって、図１９において提示されているような空間的音声利得パターンを得るように使用されうる。その結果は、ＡＮＣデバイスのスピーカを通じて処理および再生される、特定のソース（または方向）からのサウンド以外のほとんどの環境サウンドをユーザＡが傾聴しないことである。そのような「人工耳」のアプリケーションのための他の使用ケースは、周囲のノイズを抑える間、リアルタイムの教師または講義の声を増幅することを含む。

[0106]図１７Ａは、露出した耳の状態のユーザＡに対する知覚されたサウンド利得の空間的パターンの例を提示している。この例では、１つの耳の利得は通常の傾聴条件に等しい。図１７Ｂは、ここで記述されるようにＡＮＣデバイスの両耳のインプリメンテーション（例えば、装置Ａ２００のインプリメンテーションを用いたヘッドセット、ヘッドフォン、またはイヤパッドのペア）を使用して、ユーザＡに対する知覚されたサウンド利得の空間パターンの例を提示している。この図は、周囲の環境の知覚された利得がユーザの耳で低減される、ＡＮＣフィルタＡＦ１０およびＡＦ２０を使用して作り出される空間音声利得パターンの例を提示している。

[0107]図１８Ａは、タスクＴ２００のマルチマイクロフォン信号処理動作の方向選択インプリメンテーションによって作り出される分離されたソースコンポーネントのための知覚された音声利得の空間的パターンの例を提示している。この例では、ユーザの前方方向から到着するサウンドが、他の方向から到着するサウンドがブロックされる間に、通常の利得と共にパスされる。図１８Ｂは、ソースコンポーネントを増幅することによって作り出される対象コンポーネントのための知覚された音声の空間的パターンの例を提示している。

[0108]この「人工耳」の例では、ＡＮＣ基準マイクロフォンを含むマイクロフォンアレイは、環境サウンドＸ（＝語り手ＢのスピーチＹ＋他の方向および他の環境サウンドＺ）を拾い、音声入力信号ＳＩ１０およびＳＩ２０を作り出す。ＡＲ処理モジュールＡＲ１０は、他のサウンドコンポーネントからスピーチコンポーネントＹ（つまり、ソースコンポーネントＳＣ１０）を分離するためにマルチマイクロフォンの空間的選択処理を実行する。ＡＲ処理モジュールＡＲ１０はまた、対象スピーチ信号Ｙ´を作り出すためにスピーチ信号Ｙを処理する。このケースでは、そのような処理は、スピーチコンポーネントＹを増幅することを含み、また、コンポーネントＹを等化すること、近くの距離をシュミレーションするためにコンポーネントＹを脱残響すること、および／またはコンポーネントＹのスピーチコンテンツを（例えば、２５％または５０％単位で）低減することを含むことができる。空間的選択処理は、スケーリングされたコンポーネントＺ’（＝ａＺ、ここにおいてa<<1）を作り出すために残りのサウンドコンポーネントＺのレベルを低減し、ＡＲモジュールＡＲ１０は、拡張された信号Ｘ’（＝Ｙ’＋Ｚ’）をＡＮＣヘッドセットに生成する。ＡＮＣヘッドセットは、耳から環境のサウンドＸをブロックするために対ノイズ信号を生成し、音声出力ステージＡＯ１０は、ユーザの耳に拡張された信号Ｘ’を再生する。

[0109]選択されたソースコンポーネントは、（例えば、図１８Ｂにおいて例示されるように）増幅され、および／またはそうでなければ、コンポーネントの知覚力を増加させるために処理（例えば、ここで記述されるように等化、減速、ピッチ変更、および／または脱音響）されうる。

[0110]図２０Ａおよび２０Ｂは、方法Ｍ１００のインプリメンテーションが、１つの話されている言語から別のものへの実際的なスピーチの翻訳をサポートするために実行される例を提示している。図２０Ａは、実際に起こること（例えば、語り手Ｂが

と尋ねる）を描写しており、ならびに図２０Ｂは、ユーザＡが拡張現実を用いて傾聴するもの（例えば、「あなたはスペイン語を話しますか（Do you speak Spanish?）」）を描写している。

[0111]図２０Ａおよび２０Ｂにおいて提示されている例は、語り手Ｂの元のスピーチが、ＡＮＣデバイスによって抑えられるけれども、他の環境のサウンドが（例えば、マルチマイクロフォンに基づく側音ミキシングによって）ユーザの耳にパスされるようにインプリメントされうる。この場合、ユーザＡは、語り手Ｂからのスピーチ以外の、周囲の環境の存在しているサウンドを傾聴する。処理デバイスＰＤ１０は、（例えば、到着の推定された方向に基づいて）語り手Ｂのスピーチを選択的に分離するために、（例えば、チャネル間の位相の差異、および／またはチャネル間の利得の差異に基づいて）ここで記述されるマルチマイクロフォンＳＳＰ技法を実行するように構成されうる。処理デバイスＰＤ１０はまた、スピーチ情報を抽出（例えば、認識）して翻訳し、ならびに（例えば、テキスト音声化（text-to-speech（ＴＴＳ））を通じて）同時翻訳の結果を統合するようにも構成されうる。統合されたＴＴＳのサウンドはその後、（任意で方向のキューイング（cueing）を用いて）ＡＮＣデバイスにミキシングされる。

[0112]拡張モジュールＡＭ１０（例えば、ソース処理モジュールＰＭ１０）は、（例えば、隠れマルコフに出る処理を使用して）スピーチのコンテンツを認識するためのスピーチ音声化する動作を実行し、ソース言語から対象言語に認識されたテキストを翻訳し、ならびに対象コンポーネントを作り出すためにテキスト音声化動作を実行するためにソースコンポーネント処理することによって同時スピーチ翻訳を実行するようにインプリメントされうる。拡張モジュールＡＭ１０は、ユーザによって選択されたボイスまたはピッチ（例えば、低ピッチから中ピッチのボイス）で翻訳された対象コンポーネントを作り出す、または元の語り手のボイスの１つまたは複数の特徴（例えば、ピッチ周波数）を抽出して提供する、ようにインプリメントされうる。特定のソース言語が翻訳されていることを示すアイコン（例えば、対応する国旗）を表示するようにデバイスＰＤ１０を構成することが望ましい。類似の例では、ユーザＡは、減速、ピッチ変更、および／または等化された語り手Ｂのスピーチの同時バージョンを傾聴することができる。

[0113]図１８Ａは、マルチマイクロフォンの信号処理に関する音声利得の空間的パターンの例を提示している。この例では、ユーザの前方方向から到着するサウンドが、他の方向から到着するサウンドがブロックされる間に、通常の利得と共にパスされる。図２１は、特定のソース（スピーカＢ）からのサウンドを、ユーザＡの耳にパスするけれどもユーザＡの耳にパスすることから包括的な環境サウンドをブロックする空間的音声利得パターンを得るための、図１８Ａの例のアプリケーションを提示している。

[0114]この同時翻訳の例では、ＡＮＣ基準マイクロフォンを含むマイクロフォンアレイは、環境サウンドＸ（＝語り手ＢのスピーチＹ＋他の全ての環境サウンドＺ）を拾い、音声入力信号ＳＩ１０およびＳＩ２０を作り出す。ＡＲ処理モジュールＡＲ１０は、他のサウンドコンポーネントＺからスピーチコンポーネントＹ（つまり、ソースコンポーネントＳＣ１０）を分離するために、マルチマイクロフォンの空間的処理を実行する。ＡＲ処理モジュールＡＲ１０はまた、対象スピーチ信号Ｙ’を作り出すために、スピーチ信号Ｙを（例えば、テキスト音声化、つまり「ＴＴＳ」を通じて）対象言語に翻訳し、拡張信号Ｘ’（＝Ｙ’＋Ｚ）をＡＮＣヘッドセットに生成する。代わりとして、または追加として、ＡＲ処理モジュールＡＲ１は、Ｙ’を生成するために５０％だけ信号Ｙを減速し、ならびに／あるいはそうでなければ対象コンポーネントを作り出すためにここで説明されるような追加の知覚力増加処理（例えば、ピッチ変更、脱音響）を実行するように構成されうる。ＡＮＣヘッドセットは、耳から環境のサウンドＸをブロックするために対ノイズ信号を生成し、音声出力ステージＡＯ１０は、耳に拡張された信号Ｘ’を再生する。

[0115]上記で述べられたように、音声拡張は、対象コンポーネントを用いてユーザの耳に他の環境サウンド（例えば、背景コンポーネント）をパスすることを含むことができる。拡張信号を生成するために、いくつかの信号処理技法を、環境サウンドの複数のソースに別々に適用することが望ましい。１つのそのような例では、ユーザＡは、道路近くの歩道上のスピーカと話している。このケースでは、ユーザＡは、ボイス増幅サービス（つまり、「人工耳」）を用いて語り手Ｂの話を聞くことを希望しているけれども、依然として歩道の環境のサウンドも聞くことを希望する。同じときに、ユーザＡは車によって生成される、大きな道路わきのノイズを聞くことは希望しない。ここで記述されるようなＡＮＣヘッドセットを基準とした拡張現実のスキームは、ここで記述されるようにそのようなユーザの経験を提供することができる。

[0116]図２２は、マルチマイクロフォンの信号処理に関する音声利得の空間的パターンの例を提示している。この例では、ユーザの前方方向から到着するサウンドは、他の方向から到着するサウンドが通常の利得でパスされる間にブロックされる。図２３は、ユーザＡの耳に環境サウンドをパスし。ユーザＡの耳にパスすることから特定のソース（語り手Ｂ）からのサウンドをブロックする空間的音声利得パターンを得るための、図２２の例のアプリケーションを提示している。上記の実際的な翻訳例を参照して説明されるように、語り手Ｂからの欠けたスピーチは、（例えば、ＴＴＳを介して）スピーチ情報の翻訳されたバージョンと置き換えられることができる。

[0117]図２４において例示されるように、結合されたシナリオの例において、第１の方向の範囲から到着するサウンドは、（例えば、ＴＴＳを介して）言語翻訳と置き換えられ、第２の方向の範囲から到着するサウンド（例えば、道路のノイズ）は、ブロックされ、第３の方向から到着するサウンド（例えば、歩道のサウンド）はパスされる。ＡＮＣデバイスは、ユーザＡの耳に環境サウンド（例えば、歩道のサウンド）をパスしますが、空間的選択処理は、特定のソース（語り手Ｂ）からのサウンド、およびユーザＡの耳に向かうことから特定のノイズの方向をブロックする。拡張処理は、ユーザＡの耳に語り手Ｂからのスピーチの増幅された（および可能であれば減速された）バージョンを投入する。ユーザＡは、歩道のサウンドおよび語り手Ｂからの処理されたサウンドを聞くけれども、道路からの車のノイズのほとんどを聞かない。

[0118]この空間的な様々な例では、ＡＮＣ基準マイクロフォンを含むマイクロフォンアレイは、環境サウンドＸ（＝語り手ＢのスピーチＹ＋歩道のサウンドＺ＋道路のノイズＷ）を拾い、音声入力信号ＳＩ１０およびＳＩ２０を作り出す。ＡＲ処理モジュールＡＲ１０は、ユーザＢ（つまり、ソースコンポーネントＳＣ１０）からスピーチコンポーネントを、方向Ｃから歩道のサウンドＺを、および方向Ｄから道路のノイズＷを分離するために、マルチマイクロフォンの空間的選択処理を実行する。ＡＲ処理モジュールＡＲ１０は、対象スピーチ信号Ｙ’を作り出すためにスピーチ信号Ｙを処理（例えば、増幅、等化、脱音響、および／または減速）し、歩道のサウンドコンポーネントＺをパスし、ならびにＡＮＣデバイスに拡張された信号Ｘ’（＝Ｙ’＋Ｚ）を生成する。ＡＮＣデバイスは、耳から環境のサウンドＸをブロックするために対ノイズ信号を生成し、音声出力ステージＡＯ１０は、耳に拡張された信号Ｘ’を再生する。

[0119]図２５Ａは、ＳＳＰフィルタＳＦ１０のインプリメンテーションＳＦ２０および拡張モジュールＡＭ１０のインプリメンテーションＡＭ３０を含む拡張現実処理モジュールＡＲ１０のインプリメンテーションＡＲ３０のブロック図を提示している。フィルタＳＦ２０は、背景コンポーネントＢＣ１０からソースコンポーネントＳＣ１０を分離するために、マルチチャネル信号にＳＳＰ動作を実行するように構成される。フィルタＳＦ２０は、マルチチャネル信号と（例えば、選択されない周波数ビンまたはフレームのような）空間的に分離されたソースコンポーネントとの差異として背景コンポーネントＢＣ１０を作り出すように構成されうる。代わりとして、フィルタＳＦ２０は、背景コンポーネントＢＣ１０をソースコンポーネントＳＣ１０から、ならびに可能であれば他のサウンドから分離するためにマルチチャネル信号にＳＳＰ動作を実行するようにインプリメントされうる。このケースでは、フィルタＳＦ２０は、（例えば利得および／または位相の差異、ビームフォーミング、ＢＳＳに基づいて）ここで説明されるＳＳＰ動作のいずれかを使用して、背景コンポーネントを作り出すためにインプリメントされうる。

[0120]例えば、フィルタＳＦ２０は、ソースコンポーネントの方向とは別の方向への広範なビームを有するビームフォーミングフィルタを適用することによって、マルチチャネル信号から背景コンポーネントＢＣ１０を作り出すようにインプリメントされうる。別の例では、フィルタＳＦ２０は、排除されるべきソースの方向への（例えば、（例えば、上記で論じられた例における、道路ノイズＷのソースの方向Ｄのような）ノイズソースの方向、および／またはソースコンポーネントへの）ヌルビームを有する１つまたは複数のビームフォーミングフィルタを適用することによって、マルチチャネル信号から背景コンポーネントＢＣ１０を作り出すようにインプリメントされる。拡張モジュールＡＭ３０は、対象コンポーネントＴＣ１０および分離された背景コンポーネントＢＣ１０に基づく拡張信号ＳＧ１０のインプリメンテーションＳＧ２０を作り出すように構成される。

[0121]図２５Ｂは、拡張信号ＳＧ２０を作り出すために、対象コンポーネントＴＣ１０を分離された背景コンポーネントＢＣ１０と混合（例えば、追加）するように構成されたミキサＭＸ１０を含む拡張モジュールＡＭ２０およびＡＭ３０のインプリメンテーションＡＭ４０のブロック図を提示している。

[0122]サイレン、車のクラクション、アラーム、または人の注意を捕捉、警報、または警告することが意図されている他のサウンドのような、警告サウンドを検出およびパスするためにＡＲ処理モジュールＡＲ１０をインプリメントすることが望ましい。そのようなサウンドは通常、スピーチおよびノイズコンポーネントのような、他のサウンド信号と比べると狭い帯域幅を有する音調のコンポーネントである。図２６Ａは、警告サウンド検出器ＷＤ１０を含むＡＲ処理モジュールＡＲ１０のインプリメンテーションＡＲ１００のブロック図を提示している。警告サウンド検出器ＷＤ１０は、特定の周波数の範囲（例えば、約５００または１０００ヘルツから約２または３キロヘルツ）内のみに現れ、狭い帯域幅（例えば、約５０、１００、または２００ヘルツよりは大きくない）を有し、シャープアタックプロファイルを有し（例えば、１つのフレームから次のフレームへ、約５０よりも小さい、７５、または１００パーセントでの、エネルギーの増加を有し）、ならびに／あるいは、しきい値よりも高いピッチ周波数（例えば、赤ん坊の泣き声のサウンド）を有するサウンドを検出するように構成されている。警告サウンド検出器ＷＤ１０は、時間ドメイン、ＬＰＣドメイン、および／または変換ドメイン（例えば、フーリエまたは他の周波数ドメイン）においてそのような検出を実行し、対応する警告指示ＳＷ１０を作り出すように構成されうる。別の例では、警告サウンド検出器ＷＤ１０は、ドップラー効果検出によって近づいてくる乗り物のサウンドを検出するように構成される。

[0123]ＡＲ処理モジュールＡＲ１００は、警告指示ＳＷ１０に応じてサウンドコンポーネントＳＣ１０の拡張を削除するように構成される拡張モジュールＡＭ１０のインプリメンテーションＡＭ１００も含む。ＡＲ処理モジュールＡＲ１００は、警告指示ＳＷ１０に応じてＡＮＣ動作を無効にし、ならびに／あるいはユーザに追加の音声指示を提供する（例えば、警報サウンドを生成する）ようにも構成されうる。

[0124]警告サウンド検出器ＷＤ１０によって実行される検出は、（例えば、音声入力チャネル上で、２つ以上の音声入力チャネル上で別々に、ならびに／あるいは１つまたは複数の音声入力チャネルの合計上で）無方向性でありうる。代わりとして、検出器ＷＤ１０は、検出された警報サウンドの選択および／または拡張（例えば、増幅）のために、拡張モジュールＡＭ１００に警告サウンドの方向を指示するようにインプリメントされうる。両耳のインプリメンテーションでは、そのような拡張は、ユーザに警報サウンドの到着の方向を示すための方向のキューイングを含むことができる。そのようなケースでは、低周波数の指向性を強化するために、ＡＮＣ動作を無効にし、ならびに／あるいは警報サウンドにＰＢＥ動作を実行しないことが望ましい。

[0125]方法Ｍ１００および／または装置Ａ１００に対する追加の強化は、文書の環境の音声翻訳（例えば、別の言語でのサインの音声翻訳）を含むことができる。追加のアプリケーションは、視覚障害のあるユーザのナビゲーション支援として、物理的な障害を示すためにピッチにおける変化を作り出すように構成された仮想サウンドステッキを含む。

[0126]図２６Ｂは一般的な構成にしたがった、装置ＭＦ１００のブロック図を提示している。装置ＭＦ１００は、（例えば、タスクＴ１００および／またはＡＮＣフィルタＡＦ１０のインプリメンテーションを参照してここで記述されるように）対ノイズ信号を作り出すために第１の音声入力チャネルにアクティブノイズ取消動作を実行する手段Ｆ１００を含む。装置ＭＦ１００はまた、（例えば、タスクＴ２００および／またはＳＳＰモジュールＳＭ１０のインプリメンテーションを参照してここで記述されるような）背景コンポーネントからソースコンポーネントを分離するためにマルチチャネル信号に空間的選択処理動作を実行する手段を含む、ソースコンポーネントを得るためにマルチチャネル信号を処理する手段Ｆ２００も含む。装置ＭＦ１００はまた、（例えば、タスクＴ３００および／または拡張モジュールＡＭ１０のインプリメンテーションを参照してここで記述されるような）対象コンポーネントを作り出すために得られたソースコンポーネントを処理する手段Ｆ３００も含む。装置ＭＦ１００は、（例えば、タスクＴ４００および／または音声出力ステージＡＯ１０のインプリメンテーションを参照してここで記述されるような）音声出力信号を作り出すために対象コンポーネントに基づく拡張信号および対ノイズ信号を結合する手段Ｆ４００も含む。

[0127]図２７Ａは、一般的なＡＮＣシステムのブロック図を提示している。適合フィルタＷ（ｚ）は、削除されるべき外部ノイズを検出する基準マイクロフォン（例えば、マイクロフォンＭＬ１０またはＭＲ１０）から、基準マイクロフォンよりもユーザの耳の穴に近い（例えば、耳の穴の中にある、耳の穴に向けられている、および／またはスピーカによって放たれている音響フィールド内にある）エラーマイクロフォンへの主要パス転送機能Ｐ（ｚ）を推定するために使用される。フィルタＷ（ｚ）によって生成された音響信号からフィルタＷ（ｚ）を適合するために使用されるエラー信号への電気または音響パスを含む、第２のパス転送機能Ｓ（ｚ）を推定することが望ましい。例えば、フィルタされたＸのＬＭＳアルゴリズムは、エラー信号、およびＳ（ｚ）の推定によってフィルタリングされる基準信号のバージョンに基づいてフィルタＷ（ｚ）を適合する。追加で、または代わりとして、対ノイズ信号から基準マイクロフォンへのフィードバックパス転送機能Ｆ（ｚ）を考慮に入れることが望ましい。タスクＴ１００および／またはＡＮＣフィルタＡＦ１０は、これらのＡＮＣ原則のいずれかにしたがってインプリメントされうる。例えば、図２７Ｂおよび２７Ｃは、それぞれがＡＮＣエラーマイクロフォンＭＥ１０の例を含む、ヘッドセットＨＳ１０およびＨＳ２０のインプリメンテーションＨＳ１５およびＨＳ２５のそれぞれの例を提示しており、図２８Ａ−Ｃは、イヤバッドＥＢ３０、ならびにイヤカップＥＣＲ２０およびＥＣＲ２０の類似のインプリメンテーションＥＢ３２、ＥＣＲ１５、およびＥＣＲ２５を提示している。

[0128]図２７Ａから、拡張信号ＳＧ１０を対ノイズ信号ＳＡ１０とミキシングすることは、拡張信号ＳＧ１０に、基準信号（例えば、音声入力チャネル）に音響的にフィードバック（feed back）、および／またはエラー信号に音響的にフィードフォワード（feed forward）させることができる。結果として、拡張信号ＳＧ１０のＡＮＣフィルタ適合への効果を低減するために、基準信号およびエラー信号の１つまたは両方に拡張信号ＳＧ１０の逆バージョンをミキシングすることが望ましい。

[0129]ここで開示する方法および装置は、一般的に、何らかのトランシービングならびに/あるいはオーディオ感知アプリケーション中で適用されてもよく、特に、このようなアプリケーションの移動体またはそうでなければポータブルのインスタンスに適用されうる。例えば、ここで開示する構成の範囲は、無線インタフェースでコード分割多元接続（ＣＤＭＡ）を用いるように構成されているワイヤレス電話通信（telephony）通信システム中に存在する通信デバイスを含む。しかしながら、ここで説明するような特徴を有する方法ならびに装置が、ワイヤードならびに/あるいはワイヤレス（例えば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および/または、ＴＤ−ＳＣＤＭＡ）の送信チャネルを通るボイスオーバーＩＰ（ＶｏＩＰ）を用いるシステムのような、当業者に知られているより広い範囲の技術を用いるさまざまな通信システムのうちのいずれかに存在しうることを当業者によって理解されるだろう。

[0130]ここで開示した通信デバイスが、パケット交換であるネットワーク（例えば、ＶｏＩＰのようなプロトコルにしたがって、オーディオ送信を搬送するように設けられているワイヤードネットワークおよび/またはワイヤレスネットワーク）、ならびに／あるいは、回路交換であるネットワーク中での使用に適合されうることを、明確に企図し、ここで開示している。ここで開示した通信デバイスが、ナローバンドコーディングシステム（例えば、約４または５キロヘルツの音声周波数範囲をエンコードするシステム）中での使用に、ならびに／あるいは、全帯域ワイドバンドコーディングシステムと、分割帯域ワイドバンドコーディングシステムとを含む、ワイドバンドコーディングシステム（例えば、５キロヘルツよりも大きい音声周波数をエンコードするシステム）中での使用に、適合されうることも、明確に企図し、それにより開示している。

[0131]記述された構成の上記提示は、当業者がここで開示された方法および他の構造を製造または使用できるように提供してきた。ここで提示され、説明されたフローチャート、ブロックダイヤグラム、および、他の構造は、例に過ぎず、これらの構造の他の変形もまた、本開示の範囲内にある。これらの構成に対するさまざまな改良が可能であり、ここで提示された一般的な原理は、他の構成にも適用されうる。したがって、本開示は、上記で示された構成に限定されることを意図しているものではなく、むしろ、元々の開示の一部を形成する、提出されたような添付した特許請求の範囲を含む、何らかの形で、ここで開示された原理および新規な特徴と一致した最も広い範囲に一致させるべきである。

[0132]さまざまな異なるテクノロジーおよび技術のうちのいずれかを使用して、情報および信号を提示されうることを、当業者は理解するだろう。例えば、前記記述全体を通して参照された、データ、命令、コマンド、情報、信号、ビット、および、シンボルは、電圧、電流、電磁波、磁界または磁気の粒子、光学界または光の粒子、ならびに、これらの任意の組み合わせたものにより表されうる。

[0133]ここで記述されるような構成のインプリメンテーションに関する重要な設計要件は、特に８キロヘルツよりも高いサンプリングレート（例えば、１２、１６、３２、４４．１、４８、または１９２ｋＨｚ）でボイス通信のためのアプリケーションのような、計算集中的なアプリケーションに関する、（通常１００万命令／秒、つまりＭＩＰＳで測定される）計算の複雑性および処理遅延を最小化することを含みうる。

[0134]ここで記述されたような、マルチマイクロフォン処理システムの目的は、全体的なノイズ減少において１０から１２ｄＢを達成すること、所望のスピーカの動きの間の、音声レベルおよび色を保存すること、積極的なノイズ除去、スピーチの残響除去の代わりにノイズがバックグラウンドに移ったとの知覚を取得すること、および／または、より積極的なノイズ減少のために事後処理のオプション（例えば、マスキングおよび／またはノイズ減少）を可能にすることを含みうる。

[0135]ここで開示されたような装置（例えば、装置Ａ１００、Ａ２００およびＭＦ１００）は、意図されたアプリケーションに適していると思われる、ソフトウェアを有するおよび／またはファームウェアを有するハードウェアの任意の組み合わせにおいて実現されうる。例えば、このような装置の要素は、例えば、同じチップ上またはチップセット中の２つ以上のチップの間に存在する、電子デバイスおよび／または光デバイスとして組み立てられうる。このようなデバイスの１つの例は、トランジスタまたは論理ゲートのような、論理要素の固定型アレイまたはプログラム可能アレイであり、このような要素のうちのいずれかが、１つまたは複数のこのようなアレイとして実現されうる。これらの要素の任意の２つ以上またはすべてが、同じアレイまたは複数のアレイ内で実現されうる。このようなアレイは、１つまたは複数のチップ内で（例えば、２つ以上のチップを含むチップセット内で）実現されうる。

[0136]ここで開示された装置（例えば、装置Ａ１００、Ａ２００およびＭＦ１００）のさまざまなインプリメンテーションのうちの１つまたは複数の要素はまた、その全体または一部が、マイクロプロセッサと、組み込まれたプロセッサと、ＩＰコアと、デジタル信号プロセッサと、ＦＰＧＡ（フィールドプログラム可能ゲートアレイ）と、ＡＳＳＰ（特定用途向け規格品（application-specific standard products））と、ＡＳＩＣ（特定用途向け集積回路）とのような、論理要素の１つまたは複数の固定型またはプログラム可能アレイ上で実行するように設けられている１つまたは複数の組の命令として実現されうる。ここで開示されたような装置のインプリメンテーションのさまざまな要素のうちのいずれも、１つまたは複数のコンピュータ（例えば、「プロセッサ」とも称される、１つまたは複数の組の命令または１つまたは複数のシーケンスの命令を実行するようにプログラムされている１つまたは複数のアレイを含む機械）として具現化され、これらの要素のうちの２つ以上またはすべてが、このような同じコンピュータまたは複数のコンピュータ内で実現されうる。

[0137]ここで開示したような処理のためのプロセッサまたは他の手段は、例えば、同じチップ上またはチップセット中の２つ以上のチップの間に存在する、１つまたは複数の電子デバイスおよび/または光デバイスとして組み立てられうる。このようなデバイスの１つの例は、トランジスタまたは論理ゲートのような、論理要素の固定型アレイまたはプログラム可能アレイであり、このような要素のうちのいずれかが、１つまたは複数のこのようなアレイとして実現されうる。このようなアレイは、１つまたは複数のチップ内で（例えば、２つ以上のチップを含むチップセット内で）実現されうる。このようなアレイの例は、マイクロプロセッサと、組み込まれたプロセッサと、ＩＰコアと、ＤＳＰと、ＦＰＧＡと、ＡＳＳＰと、ＡＳＩＣとのような、論理要素の固定型アレイまたはプログラム可能アレイを含む。ここで開示されたような処理のためのプロセッサまたは他の手段はまた、１つまたは複数のコンピュータ（例えば、１つまたは複数の組の命令または１つまたは複数のシーケンスの命令を実行するようにプログラムされている１つまたは複数のアレイを含む機械）あるいは他のプロセッサとして具現化されうる。ここで記述したようなプロセッサを使用して、タスクを実行するか、あるいは、プロセッサがその中に組み込まれているデバイスまたはシステム（例えば、音声感知デバイス）の別の動作に関連するタスクのような、方法Ｍ１００またはＭＦ２００の実現の手順に直接関連しない他のセットの命令を実行することが可能である。ここで開示したような方法の一部を、音声感知デバイスのプロセッサによって実行し、方法の別の部分を、１つまたは複数の他のプロセッサの制御下で実行することも可能である。

[0138]ここで開示された構成に関連して説明した、さまざまな例示的なモジュール、論理ブロック、回路およびテスト、ならびに、他の動作が、電子ハードウェア、コンピュータソフトウェア、あるいは、双方の組み合わせたものとして実現されうることを当業者は正しく認識するであろう。このようなモジュール、論理ブロック、回路、および、動作は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいは、ここで開示されたような構成を生成させるように設計されたこれらの任意の組み合わせによって、実現または実行されうる。例えば、このような構成は、ハードワイヤード回路として、特定用途向け集積回路中に組み立てられている回路構成として、あるいは、不揮発性記憶装置中にロードされたファームウェアプログラムとして、または、機械読取可能コードとしてデータ記憶媒体からロードされたソフトウェアプログラムまた機械読取可能コードとしてデータ記憶媒体中にロードされたソフトウェアプログラムとして、少なくとも部分的に実現されうる。このようなコードは、汎用プロセッサまたは他のデジタル信号処理ユニットのような、論理要素のアレイによって実行可能な命令である。汎用プロセッサは、マイクロプロセッサでありうるが、代わりの実施形態では、プロセッサは、何らかの従来のプロセッサ、制御装置、マイクロ制御装置、または、状態機械でありうる。プロセッサはまた、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと関連した１つまたは複数のマイクロプロセッサ、あるいはその他このような構成であるコンピューティングデバイスの組み合わせとして実現しうる。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（リードオンリーメモリ）、フラッシュＲＡＭのような不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラム可能ＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラム可能ＲＯＭ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、または、ＣＤ−ＲＯＭ、あるいは、技術的に知られている他の何らかの形態の記憶媒体のような、一時的でない記憶媒体中に存在しうる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合されうる。代わりの実施形態では、記憶媒体はプロセッサと一体化しうる。プロセッサおよび記憶媒体は、ＡＳＩＣ中に存在しうる。ＡＳＩＣは、ユーザ端末中に存在しうる。代わりとして実施形態では、プロセッサおよび記憶媒体は、ユーザ端末中にディスクリートコンポーネントとして存在しうる。

[0139]ここで開示されたさまざまな方法（例えば、方法Ｍ１００、および、さまざまな記述した装置の動作を参照して開示したさまざまな方法）は、プロセッサのような論理要素のアレイによって実行されうることに、ならびに、ここで記述されたような装置のさまざまな要素が、このようなアレイ上で実行するように設計されているモジュールとして部分的に実現しうることに留意されたい。ここで使用されたような、用語「モジュール」または「サブモジュール」は、ソフトウェアの形で、ハードウェアの形で、または、ファームウェアの形で、コンピュータ命令（例えば、論理表現（logical expressions））を含む、何らかの方法、装置、デバイス、ユニット、または、コンピュータ読取可能データ記憶媒体のことを指すことができる。複数のモジュールまたはシステムを組み合わせて、１つのモジュールおよびシステムにすることができ、あるいは、同じ機能を実行するために、１つのモジュールまたはシステムを、複数のモジュールまたはシステムに分離できることを理解すべきである。ソフトウェアまたは他のコンピュータ実行可能な命令で実現されたときに、プロセスの要素は、例えば、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、および、これらに類するものによって、関連するタスクを実行するための、本来、コードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の１つまたは複数の組またはシーケンス、ならびに、このような例の任意の組み合わせを含むことを理解すべきである。プログラムまたはコードセグメントは、プロセッサ読み取り可能記憶媒体中に記憶することができ、あるいは、送信媒体または通信リンクを通して、搬送波で具現化されるコンピュータデータ信号によって送信することができる。

[0140]ここで開示した、方法、スキーム、および、技術のインプリメンテーションはまた、論理要素のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロ制御装置、または、他の限定された状態機械）を含む機械によって実行可能な、ならびに／または読み取り可能な命令の１つまたは複数の組として、有体的に（例えば、ここでリストアップしたような１つまたは複数のコンピュータ読取可能媒体の有体的なコンピュータ読取可能機能で）具現化されうる。「コンピュータ読取可能媒体」という用語は、揮発性媒体と、不揮発性媒体と、リムーバブル媒体と、ノンリムーバブル記憶媒体とを含む、情報を記憶または転送できる何らかの媒体を含みうる。コンピュータ読取可能媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能なＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数（ＲＦ）リンク、あるいは、所望の情報を記憶するために使用でき、アクセスすることができる他の何らかの媒体を含んでいる。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エア（air）、電磁気、ＲＦリンク等のような、送信媒体を通して伝搬できる何らかの信号を含みうる。コードセグメントは、インターネットまたはイントラネットのようなコンピュータネットワークを介してダウンロードされうる。任意のケースでは、本開示の範囲は、このような実施形態によって限定されるものとして解釈すべきではない。

[0141]ここで記述された方法（例えば、方法Ｍ１００、およびここで記述された様々な装置の動作の説明により開示される他の方法）のタスクのそれぞれは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、またはその２つの組み合わせで直接具現化されうる。ここで開示したような方法のインプリメンテーションの典型的な適用において、論理要素（例えば、論理ゲート）のアレイは、方法のさまざまなタスクのうちの１つ、１つより多いもの、または、すべてを実行するように構成されている。タスクのうちの１つ以上（場合によってはすべて）は、コード（例えば、１つまたは複数のセットの命令）としても実現されてもよく、論理要素のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロ制御装置、または、他の有限状態機械）を含む機械（例えば、コンピュータ）によって読み取り可能なおよび/また実行可能な、コンピュータプログラムプロダクト（例えば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップ等のような、１つまたは複数のデータ記憶媒体）で具現化されうる。ここで開示されたような方法の実現のタスクは、このような１つより多いアレイまたは機械によっても実行されうる。これらの実現または他の実現において、セルラ電話機またはこのような通信能力を有する他のデバイスのような、ワイヤレス通信のためのデバイス内で、タスクを実行しうる。このようなデバイスは、（例えば、ＶｏＩＰのような１つまたは複数のプロトコルを使用する）回線交換ネットワークまたはパケット交換ネットワークと通信するように構成されうる。例えば、このようなデバイスは、エンコードされたフレームを受信および／または送信するように構成されているＲＦ回路を含みうる。

[0142]ここで開示された様々な方法が、ポータブル通信デバイス（例えば、ハンドセット、ヘッドセット、スマートフォン、またはポータブルデジタルアシスタント（ＰＤＡ））によって実行され、ならびに、ここで記述された様々な装置がこのようなデバイス内に含まれうることが明確に開示される。典型的なリアルタイム（例えば、オンライン）アプリケーションは、このような移動デバイスを使用して行われる電話機での会話である。

[0143]１つまたは複数の例示的な実施形態では、ここで記述された動作は、ハードウェアで、ソフトウェアで、ファームウェアで、または、これらのものを組み合わせた任意のもので実現されうる。ソフトウェアで実現された場合に、このような動作は、１つまたは複数の命令またはコードとして、コンピュータ読取可能媒体上に記憶され、１つまたは複数の命令またはコードとして、コンピュータ読取可能媒体上に送信されうる。「コンピュータ読取可能媒体」という用語は、コンピュータ読取可能記憶媒体と通信（例えば、送信）媒体の双方を含む。一例として、これらに限定されないが、コンピュータ読取可能記憶媒体は、（これらに限定されないが、ダイナミックまたはスタティックな、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭならびに／あるいはフラッシュＲＡＭを含みうる）半導体メモリ、または、強誘電体、磁気抵抗、オボニック（ovonic）、ポリメトリック（polymetric）、または、相変化（phase-change）メモリのような、記憶要素のアレイ、ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、および／または、磁気ディスク記憶装置または他の磁気記憶デバイスを含む。このような記憶媒体は、コンピュータによってアクセスできる命令またはデータ構造の形態で、情報を記憶しうる。通信媒体は、１つの場所から別の場所へのコンピュータプログラムの転送を促進する任意の媒体を含む、コンピュータによってアクセスできる命令またはデータ構造の形態で、所望のプログラムコードを搬送するために使用できる任意の媒体を含むことができる。また、あらゆる接続は、コンピュータ読み取り可能媒体と適切に呼ばれている。例えば、同軸ケーブル、光ファイバケーブル、撚り対、デジタル加入者回線（ＤＳＬ）、あるいは、赤外線、無線、および/またはマイクロ波のようなワイヤレス技術を使用しているウェブサイト、サーバ、または、他の遠隔ソースから、ソフトウェアが送信される場合には、同軸ケーブル、光ファイバケーブル、撚り対、ＤＳＬ、あるいは、赤外線、無線、および/またはマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用したようなディスク（ｄｉｓｋおよびｄｉｓｃ）は、コンパクトディスク（ＣＤ）、レーザディスク（登録商標）、光ディスク、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、および、ブルーレイ（登録商標）ディスク（ブルーレイディスクassociation、universal city, CA）を含むが、一般的に、ディスク（ｄｉｓｋ）は、データを磁気的に再生する一方で、ディスク（ｄｉｓｃ）はデータをレーザによって光学的に再生する。先のものを組み合わせたものもまた、コンピュータ読み取り可能媒体の範囲内に含められるべきである。

[0144]ここで説明するような音響信号処理装置（例えば、装置Ａ１００、ＭＦ１００）は、ある動作を制御するためにスピーチ入力を受け入れる電子デバイス中に組み込まれ、または、そうでなければ、通信デバイスのような、バックグラウンドノイズから所望のノイズを分離することによって恩恵を受けうる。多くのアプリケーションは、所望のクリアーなサウンドを向上させること、または、複数の方向から生じるバックグラウンドサウンドから所望のクリアーなサウンドを分離することによって恩恵を受けうる。このようなアプリケーションは、音声認識および検出と、スピーチ向上および分離と、音声アクティベートされた制御と、これらに類似するもののような能力を組み込んでいる電子デバイス中あるいはコンピューティングデバイス中に、人間−機械インタフェースを含みうる。制限された処理能力のみを提供するデバイスにおいて適切であるように、このような音響信号処理装置を実現することが望ましいことがある。

[0145]例えば、ここで説明したモジュール、要素、および、デバイスのさまざまなインプリメンテーションの要素は、例えば、同じチップ上またはチップセット中の２つ以上のチップの間に存在する、電子デバイスおよび/または光デバイスとして組み立てられうる。このようなデバイスの１つの例は、このようなトランジスタまたはゲートのような、論理要素の固定型あるいはプログラム可能アレイである。ここで記述した装置のさまざまな実現のうちの１つまたは複数の要素もまた、マイクロプロセッサと、組み込まれたプロセッサと、ＩＰコアと、デジタル信号プロセッサと、ＦＰＧＡと、ＡＳＳＰと、ＡＳＩＣとのような、論理要素の１つまたは複数の固定型またはプログラム可能アレイ上で実行するように設けられている１つまたは複数のセットの命令として、全体的または部分的に実現されうる。

[0146]ここで説明したような装置のインプリメンテーションのうちの１つまたは複数の要素を使用して、タスクを実行するか、あるいは、装置がその中に組み込まれているデバイスまたはシステムの別の動作に関連するタスクのような、装置の動作に直接関連しない他の組の命令を実行することが可能である。このような装置のインプリメンテーションのうちの１つまたは複数の要素が、共通の構造（例えば、異なる時間において、異なる要素に対応するコードの一部を実行するために使用されるプロセッサ、異なる時間において、異なる要素に対応するタスクを実行するように実行される１組の命令、あるいは、異なる時間において、異なる要素に対する動作を実行する、電子デバイスおよび／または光デバイスの配列）を有することも可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号を処理する方法であって、
対ノイズ信号を作り出すために、前記第１の音声入力チャネルにアクティブノイズ取消動作を実行することと、
ソースコンポーネントを得るために前記マルチチャネル信号を処理することと、前記処理することは、背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することを含み、
対象コンポーネントを作り出すために前記得られたソースコンポーネントを処理することと、
音声出力信号を作り出すために前記対象コンポーネントに基づく拡張信号および前記対ノイズ信号を結合することと、
を備える方法。
［Ｃ２］前記方法は、前記拡張信号を作り出すために、前記対象コンポーネントおよび前記分離された背景コンポーネントを結合することを備える、Ｃ１に記載の信号処理の方法。
［Ｃ３］前記空間的選択処理動作は、前記ソースコンポーネントを作り出すために、ソースの方向にビームを適用することを含む、Ｃ１および２のうちのいずれか１つに記載の信号処理の方法。
［Ｃ４］前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、前記ソースの方向にヌルビームを適用することを含む、Ｃ１−３のいずれか１つに記載の信号処理の方法。
［Ｃ５］前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ノイズソースの方向に第２のヌルビームを適用することを含む、Ｃ４に記載の信号処理の方法。
［Ｃ６］前記空間的選択処理動作は、（Ａ）前記第１と第２の音声入力チャネルとの間の位相の差異、および（Ｂ）前記第１と第２の音声入力チャネルとの間の利得の差異のうちの少なくとも１つに基づく、Ｃ１−５のいずれか１つに記載の信号処理の方法。
［Ｃ７］前記得られたソースコンポーネントを処理することは、前記分離されたソースコンポーネントを増幅すること、前記分離されたソースコンポーネントの動的な範囲を圧縮すること、前記分離されたソースコンポーネントを脱残響すること、および前記分離されたソースコンポーネントの周波数スペクトルを変更することのうちの少なくとも１つによって、前記得られたソースコンポーネントの知覚力を増大させることを備える、Ｃ１−６のいずれか１つに記載の信号処理の方法。
［Ｃ８］前記知覚力を増大させることは、前記分離されたソースコンポーネントのスピーチコンテンツの知覚力を増大させることを含む、Ｃ１−７のうちのいずれか１つに記載の信号処理の方法。
［Ｃ９］前記スピーチコンテンツの知覚力を増大させることは、（Ａ）前記スピーチコンテンツのスピードを変動させること、および（Ｂ）第１の口語から、前記第１の口語とは異なる第２の口語に前記スピーチコンテンツを置き換えること、のうちの少なくとも１つを含む、Ｃ８に記載の信号処理の方法。
［Ｃ１０］前記スピーチコンテンツの知覚力を増大させることは、前記分離されたソースコンポーネントよりも大きな数のピッチ周期を有するように前記対象コンポーネントを作り出すことを含む、Ｃ８に記載の信号処理の方法。
［Ｃ１１］前記方法は、前記音声出力信号に基づく音響信号を作り出すためにスピーカを駆動することを備え、前記スピーカはユーザの耳に着けられて前記ユーザの耳の穴に向けられるように配置され、
前記アクティブノイズ取消動作は、エラーマイクロフォンによって作り出される信号に基づき、前記エラーマイクロフォンは前記耳の穴に向けられるように配置される、
Ｃ１−１０のうちのいずれか１つに記載の信号処理の方法。
［Ｃ１２］前記背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することは、前記背景コンポーネントから前記ユーザ以外の人のボイスを分離することを含む、Ｃ１−１０のうちのいずれか１つに記載の信号処理の方法。
［Ｃ１３］第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号を処理する装置であって、
対ノイズ信号を作り出すために、前記第１の音声入力チャネルにアクティブノイズ取消動作を実行する手段と、
ソースコンポーネントを得るために前記マルチチャネル信号を処理する手段と、前記処理する手段は、背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行する手段を含み、
対象コンポーネントを作り出すために前記得られたソースコンポーネントを処理する手段と、
音声出力信号を作り出すために前記対象コンポーネントに基づく拡張信号および前記対ノイズ信号を結合する手段と、
を備える装置。
［Ｃ１４］前記装置は、前記拡張信号を作り出すために、前記対象コンポーネントおよび前記分離された背景コンポーネントを結合する手段を含む、Ｃ１３に記載の装置。
［Ｃ１５］前記空間的選択処理動作は、前記ソースコンポーネントを作り出すために、ソースの方向にビームを適用することを含む、Ｃ１３および１４のうちのいずれか１つに記載の装置。
［Ｃ１６］前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、前記ソースの方向にヌルビームを適用することを含む、Ｃ１３−１５のいずれか１つに記載の装置。
［Ｃ１７］前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ノイズソースの方向に第２のヌルビームを適用することを含む、Ｃ１６に記載の装置。
［Ｃ１８］前記空間的選択処理動作は、（Ａ）前記第１と第２の音声入力チャネルの間の位相の差異、および（Ｂ）前記第１と第２の音声入力チャネルとの間の利得の差異のうちの少なくとも１つに基づく、Ｃ１３−１７のいずれか１つに記載の装置。
［Ｃ１９］前記得られたソースコンポーネントを処理する手段は、前記分離されたソースコンポーネントを増幅すること、前記分離されたソースコンポーネントの動的な範囲を圧縮すること、前記分離されたソースコンポーネントを脱残響すること、および前記分離されたソースコンポーネントの周波数スペクトルを変更すること、のうちの少なくとも１つによって、前記得られたソースコンポーネントの知覚力を増大させる手段を備える、Ｃ１３−１８のいずれか１つに記載の装置。
［Ｃ２０］前記知覚力を増大させることは、前記分離されたソースコンポーネントのスピーチコンテンツの知覚力を増大させることを含む、Ｃ１３−１９のうちのいずれか１つに記載の装置。
［Ｃ２１］前記スピーチコンテンツの知覚力を増大させることは、（Ａ）前記スピーチコンテンツのスピードを変動させること、および（Ｂ）第１の口語から、前記第１の口語とは異なる第２の口語に前記スピーチコンテンツを置き換えること、のうちの少なくとも１つを含む、Ｃ２０に記載の装置。
［Ｃ２２］前記スピーチコンテンツの知覚力を増大させることは、前記分離されたソースコンポーネントよりも大きな数のピッチ周期を有するように前記対象コンポーネントを作り出すことを含む、Ｃ２０に記載の装置。
［Ｃ２３］前記装置は、前記音声出力信号に基づく音響信号を作り出すためにスピーカを駆動する手段を備え、前記スピーカはユーザの耳に着けられて前記ユーザの耳の穴に向けられるように配置され、
前記アクティブノイズ取消動作は、エラーマイクロフォンによって作り出される信号に基づき、前記エラーマイクロフォンは前記耳の穴に向けられるように配置される、
Ｃ１３−２２のうちのいずれか１つに記載の信号処理の装置。
［Ｃ２４］前記背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することは、前記背景コンポーネントから前記ユーザ以外の人のボイスを分離することを含む、Ｃ１３−２２のうちのいずれか１つに記載の装置。
［Ｃ２５］第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号を処理する装置であって、
対ノイズ信号を作り出すために、前記第１の音声入力チャネルにアクティブノイズ取消動作を実行するように構成されたアクティブノイズ取消フィルタと、
ソースコンポーネントを得るために前記マルチチャネル信号を処理するように構成された拡張現実処理モジュールと、
を備え、前記モジュールは、
背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行するように構成された空間的選択フィルタと、
（Ａ）対象コンポーネントを作り出すために前記得られたソースコンポーネントを処理するように、ならびに（Ｂ）前記対象コンポーネントに基づく拡張信号を出力するように構成された拡張モジュールと、
音声出力信号を作り出すために前記拡張信号および前記対ノイズ信号を結合するように構成された音声出力ステージと、
を備える装置。
［Ｃ２６］前記拡張モジュールは、前記拡張信号を作り出すために、前記対象コンポーネントおよび分離された背景コンポーネントを結合するように構成される、Ｃ２５に記載の装置。
［Ｃ２７］前記空間的選択処理動作は、前記ソースコンポーネントを作り出すために、ソースの方向にビームを適用することを含む、Ｃ２５および２６のうちのいずれか１つに記載の装置。
［Ｃ２８］前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、前記ソースの方向にヌルビームを適用することを含む、Ｃ２５−２７のいずれか１つに記載の装置。
［Ｃ２９］前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ノイズソースの方向に第２のヌルビームを適用することを含む、Ｃ２８に記載の装置。
［Ｃ３０］前記空間的選択処理動作は、（Ａ）前記第１と第２の音声入力チャネルの間の位相の差異、および（Ｂ）前記第１と第２の音声入力チャネルとの間の利得の差異のうちの少なくとも１つに基づく、Ｃ２５−２９のいずれか１つに記載の装置。
［Ｃ３１］前記拡張モジュールは、前記分離されたソースコンポーネントを増幅すること、前記分離されたソースコンポーネントの動的な範囲を圧縮すること、前記分離されたソースコンポーネントの脱残響すること、および前記分離されたソースコンポーネントの周波数スペクトルを変更することのうちの少なくとも１つによって、前記得られたソースコンポーネントの知覚力を増大させるように構成される、Ｃ２５−３０のうちのいずれか１つに記載の装置。
［Ｃ３２］前記拡張モジュールは、前記分離されたソースコンポーネントのスピーチコンテンツの知覚力を増大させるように構成される、Ｃ２５−３１のうちのいずれか１つに記載の装置。
［Ｃ３３］前記スピーチコンテンツの知覚力を増大させることは、（Ａ）前記スピーチコンテンツのスピードを変動させること、および（Ｂ）第１の口語から、前記第１の口語とは異なる第２の口語に前記スピーチコンテンツを置き換えること、のうちの少なくとも１つを含む、Ｃ３２に記載の装置。
［Ｃ３４］前記スピーチコンテンツの知覚力を増大させることは、前記分離されたソースコンポーネントよりも大きな数のピッチ周期を有するように前記対象コンポーネントを作り出すことを含む、Ｃ３２に記載の装置。
［Ｃ３５］前記音声出力ステージは、前記音声出力信号に基づく音響信号を作り出すためにスピーカを駆動するように構成され、前記スピーカはユーザの耳に着けられて前記ユーザの耳の穴に向けられるように配置され、
前記アクティブノイズ取消動作は、エラーマイクロフォンによって作り出される信号に基づき、前記エラーマイクロフォンは前記耳の穴に向けられるように配置される、
Ｃ２５−３４のうちのいずれか１つに記載の信号処理の方法。
［Ｃ３６］前記背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することは、前記背景コンポーネントから前記ユーザ以外の人のボイスを分離することを含む、Ｃ２５−３４のうちのいずれか１つに記載の装置。
［Ｃ３７］具体的な特性を読み込む機械に、Ｃ１−１２のうちのいずれか１つに記載の方法を実行させる前記特性を有するコンピュータ可読記憶媒体。

Claims

第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号を処理する方法であって、
対ノイズ信号を作り出すために、前記第１の音声入力チャネルにアクティブノイズ取消動作を実行することと、
ソースコンポーネントを得るために前記マルチチャネル信号を処理することと、前記処理することは、背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することを含み、
対象コンポーネントを作り出すために前記得られたソースコンポーネントを処理することと、
音声出力信号を作り出すために前記対象コンポーネントに基づく拡張信号および前記対ノイズ信号を結合することと、
ここにおいて前記得られたソースコンポーネントを前記処理することは、分離されたソースコンポーネントを増幅することにより前記得られたソースコンポーネントの知覚力を増大させることを備え、ここにおいて前記分離されたソースコンポーネントは、第１の口語から、前記第１の口語とは異なる第２の口語に置き換えられたスピーチコンテンツである、
を備える、信号処理の方法。
前記方法は、前記拡張信号を作り出すために、前記対象コンポーネントおよび前記分離された背景コンポーネントを結合することを備える、請求項１に記載の信号処理の方法。
前記空間的選択処理動作は、前記ソースコンポーネントを作り出すために、ソースの方向にビームを適用することを含む、請求項１に記載の信号処理の方法。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ソースの方向にヌルビームを適用することを含む、請求項１に記載の信号処理の方法。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ノイズソースの方向に第２のヌルビームを適用することを含む、請求項４に記載の信号処理の方法。
前記空間的選択処理動作は、（Ａ）前記第１と第２の音声入力チャネルとの間の位相の差異、および（Ｂ）前記第１と第２の音声入力チャネルとの間の利得の差異のうちの少なくとも１つに基づく、請求項１に記載の信号処理の方法。
前記得られたソースコンポーネントを処理することはさらに、前記分離されたソースコンポーネントの動的な範囲を圧縮すること、前記分離されたソースコンポーネントを脱残響すること、および前記分離されたソースコンポーネントの周波数スペクトルを変更することのうちの少なくとも１つによって、前記得られたソースコンポーネントの知覚力を増大させることを備える、請求項１に記載の信号処理の方法。
前記知覚力を増大させることは、前記分離されたソースコンポーネントのスピーチコンテンツの知覚力を増大させることを含む、請求項７に記載の信号処理の方法。
前記スピーチコンテンツの知覚力を増大させることはさらに、前記スピーチコンテンツのスピードを変動させることを含む、請求項８に記載の信号処理の方法。
前記スピーチコンテンツの知覚力を増大させることは、前記分離されたソースコンポーネントよりも大きな数のピッチ周期を有するように前記対象コンポーネントを作り出すことを含む、請求項８に記載の信号処理の方法。
前記方法は、前記音声出力信号に基づく音響信号を作り出すためにスピーカを駆動することを備え、前記スピーカはユーザの耳に着けられて前記ユーザの耳の穴に向けられるように配置され、
前記アクティブノイズ取消動作は、エラーマイクロフォンによって作り出される信号に基づき、前記エラーマイクロフォンは前記耳の穴に向けられるように配置される、
請求項１に記載の信号処理の方法。
前記背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することは、前記背景コンポーネントからユーザ以外の人のボイスを分離することを含む、請求項１に記載の信号処理の方法。
第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号を処理する装置であって、
対ノイズ信号を作り出すために、前記第１の音声入力チャネルにアクティブノイズ取消動作を実行する手段と、
ソースコンポーネントを得るために前記マルチチャネル信号を処理する手段と、前記処理する手段は、背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行する手段を含み、
対象コンポーネントを作り出すために前記得られたソースコンポーネントを処理する手段と、
音声出力信号を作り出すために前記対象コンポーネントに基づく拡張信号および前記対ノイズ信号を結合する手段と、
ここにおいて前記得られたソースコンポーネントを前記処理することは、分離されたソースコンポーネントを増幅することにより前記得られたソースコンポーネントの知覚力を増大させることを備え、ここにおいて前記分離されたソースコンポーネントは、第１の口語から、前記第１の口語とは異なる第２の口語に置き換えられたスピーチコンテンツである、
を備える、装置。
前記装置は、前記拡張信号を作り出すために、前記対象コンポーネントおよび前記分離された背景コンポーネントを結合する手段を含む、請求項１３に記載の装置。
前記空間的選択処理動作は、前記ソースコンポーネントを作り出すために、ソースの方向にビームを適用することを含む、請求項１３に記載の装置。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ソースの方向にヌルビームを適用することを含む、請求項１３に記載の装置。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ノイズソースの方向に第２のヌルビームを適用することを含む、請求項１６に記載の装置。
前記空間的選択処理動作は、（Ａ）前記第１と第２の音声入力チャネルとの間の位相の差異、および（Ｂ）前記第１と第２の音声入力チャネルとの間の利得の差異のうちの少なくとも１つに基づく、請求項１３に記載の装置。
前記得られたソースコンポーネントを処理する手段はさらに、前記分離されたソースコンポーネントの動的な範囲を圧縮すること、前記分離されたソースコンポーネントを脱残響すること、および前記分離されたソースコンポーネントの周波数スペクトルを変更すること、のうちの少なくとも１つによって、前記得られたソースコンポーネントの知覚力を増大させる手段を備える、請求項１３に記載の装置。
前記知覚力を増大させることは、前記分離されたソースコンポーネントのスピーチコンテンツの知覚力を増大させることを含む、請求項１９に記載の装置。
前記スピーチコンテンツの知覚力を増大させることはさらに、前記スピーチコンテンツのスピードを変動させることを含む、請求項２０に記載の装置。
前記スピーチコンテンツの知覚力を増大させることは、前記分離されたソースコンポーネントよりも大きな数のピッチ周期を有するように前記対象コンポーネントを作り出すことを含む、請求項２０に記載の装置。
前記装置は、前記音声出力信号に基づく音響信号を作り出すためにスピーカを駆動する手段を備え、前記スピーカはユーザの耳に着けられて前記ユーザの耳の穴に向けられるように配置され、
前記アクティブノイズ取消動作は、エラーマイクロフォンによって作り出される信号に基づき、前記エラーマイクロフォンは前記耳の穴に向けられるように配置される、
請求項１３に記載の信号処理の装置。
前記背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することは、前記背景コンポーネントからユーザ以外の人のボイスを分離することを含む、請求項１３に記載の装置。
第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号を処理する装置であって、
対ノイズ信号を作り出すために、前記第１の音声入力チャネルにアクティブノイズ取消動作を実行するように構成されたアクティブノイズ取消フィルタと、
ソースコンポーネントを得るために前記マルチチャネル信号を処理するように構成された拡張現実処理モジュールと、
を備え、前記モジュールは、
背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行するように構成された空間的選択フィルタと、（Ａ）対象コンポーネントを作り出すために前記得られたソースコンポーネントを処理するように、ならびに（Ｂ）前記対象コンポーネントに基づく拡張信号を出力するように構成された拡張モジュールと、
音声出力信号を作り出すために前記拡張信号および前記対ノイズ信号を結合するように構成された音声出力ステージと、
ここにおいて前記得られたソースコンポーネントを前記処理することは、分離されたソースコンポーネントを増幅することにより前記得られたソースコンポーネントの知覚力を増大させることを備え、ここにおいて前記分離されたソースコンポーネントは、第１の口語から、前記第１の口語とは異なる第２の口語に置き換えられたスピーチコンテンツである、
を備える、装置。
前記拡張モジュールは、前記拡張信号を作り出すために、前記対象コンポーネントおよび分離された背景コンポーネントを結合するように構成される、請求項２５に記載の装置。
前記空間的選択処理動作は、前記ソースコンポーネントを作り出すために、ソースの方向にビームを適用することを含む、請求項２５に記載の装置。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ソースの方向にヌルビームを適用することを含む、請求項２５に記載の装置。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ノイズソースの方向に第２のヌルビームを適用することを含む、請求項２８に記載の装置。
前記空間的選択処理動作は、（Ａ）前記第１と第２の音声入力チャネルとの間の位相の差異、および（Ｂ）前記第１と第２の音声入力チャネルとの間の利得の差異のうちの少なくとも１つに基づく、請求項２５に記載の装置。
前記拡張モジュールはさらに、前記分離されたソースコンポーネントの動的な範囲を圧縮すること、前記分離されたソースコンポーネントの脱残響すること、および前記分離されたソースコンポーネントの周波数スペクトルを変更することのうちの少なくとも１つによって、前記得られたソースコンポーネントの知覚力を増大させるように構成される、請求項２５に記載の装置。
前記拡張モジュールは、前記分離されたソースコンポーネントのスピーチコンテンツの知覚力を増大させるように構成される、請求項２５に記載の装置。
前記スピーチコンテンツの知覚力を増大させることはさらに、前記スピーチコンテンツのスピードを変動させることを含む、請求項３２に記載の装置。
前記スピーチコンテンツの知覚力を増大させることは、前記分離されたソースコンポーネントよりも大きな数のピッチ周期を有するように前記対象コンポーネントを作り出すことを含む、請求項３２に記載の装置。
前記音声出力ステージは、前記音声出力信号に基づく音響信号を作り出すためにスピーカを駆動するように構成され、前記スピーカはユーザの耳に着けられて前記ユーザの耳の穴に向けられるように配置され、
前記アクティブノイズ取消動作は、エラーマイクロフォンによって作り出される信号に基づき、前記エラーマイクロフォンは前記耳の穴に向けられるように配置される、
請求項２５に記載の装置。
前記背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することは、前記背景コンポーネントからユーザ以外の人のボイスを分離することを含む、請求項２５に記載の装置。
対ノイズ信号を作り出すために、第１の音声入力チャネルにアクティブノイズ取消動作を実行することと、
ソースコンポーネントを得るためにマルチチャネル信号を処理することと、前記処理することは、背景コンポーネントから前記ソースコンポーネントを分離するために第１の音声入力チャネルおよび第２の音声入力チャネルを含むマルチチャネル信号に空間的選択処理動作を実行することを含み、
対象コンポーネントを作り出すために前記得られたソースコンポーネントを処理することと、
音声出力信号を作り出すために前記対象コンポーネントに基づく拡張信号および前記対ノイズ信号を結合することと、
ここにおいて前記得られたソースコンポーネントを前記処理することは、分離されたソースコンポーネントを増幅することにより前記得られたソースコンポーネントの知覚力を増大させることを備え、ここにおいて前記分離されたソースコンポーネントは、第１の口語から、前記第１の口語とは異なる第２の口語に置き換えられたスピーチコンテンツである、
を特性を読み込む機械に実行させる前記特性を有する、コンピュータ可読記憶媒体。
前記コンピュータ可読記憶媒体は、前記拡張信号を作り出すために、前記対象コンポーネントおよび前記分離された背景コンポーネントを結合することを、特性を読み込む機械に実行させる特性を含む、請求項３７に記載のコンピュータ可読記憶媒体。
前記空間的選択処理動作は、前記ソースコンポーネントを作り出すために、ソースの方向にビームを適用することを含む、請求項３７に記載のコンピュータ可読記憶媒体。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ソースの方向にヌルビームを適用することを含む、請求項３７に記載のコンピュータ可読記憶媒体。
前記空間的選択処理動作は、前記背景コンポーネントを作り出すために、ノイズソースの方向に第２のヌルビームを適用することを含む、請求項４０に記載のコンピュータ可読記憶媒体。
前記空間的選択処理動作は、（Ａ）前記第１と第２の音声入力チャネルとの間の位相の差異、および（Ｂ）前記第１と第２の音声入力チャネルとの間の利得の差異のうちの少なくとも１つに基づく、請求項３７に記載のコンピュータ可読記憶媒体。
前記得られたソースコンポーネントを処理することはさらに、前記分離されたソースコンポーネントの動的な範囲を圧縮すること、前記分離されたソースコンポーネントを脱残響すること、および前記分離されたソースコンポーネントの周波数スペクトルを変更することのうちの少なくとも１つによって、前記得られたソースコンポーネントの知覚力を増大させることを備える、請求項３７に記載のコンピュータ可読記憶媒体。
前記知覚力を増大させることは、前記分離されたソースコンポーネントのスピーチコンテンツの知覚力を増大させることを含む、請求項４３に記載のコンピュータ可読記憶媒体。
前記スピーチコンテンツの知覚力を増大させることはさらに、前記スピーチコンテンツのスピードを変動させることを含む、請求項４４に記載のコンピュータ可読記憶媒体。
前記スピーチコンテンツの知覚力を増大させることは、前記分離されたソースコンポーネントよりも大きな数のピッチ周期を有するように前記対象コンポーネントを作り出すことを含む、請求項４４に記載のコンピュータ可読記憶媒体。
前記コンピュータ可読記憶媒体は、前記音声出力信号に基づく音響信号を作り出すためにスピーカを駆動することを、前記特性を読み込む機械に実行させる特性を含み、前記スピーカはユーザの耳に着けられて前記ユーザの耳の穴に向けられるように配置され、
前記アクティブノイズ取消動作は、エラーマイクロフォンによって作り出される信号に基づき、前記エラーマイクロフォンは前記耳の穴に向けられるように配置される、
請求項４４に記載のコンピュータ可読記憶媒体。
前記背景コンポーネントから前記ソースコンポーネントを分離するために前記マルチチャネル信号に空間的選択処理動作を実行することは、前記背景コンポーネントからユーザ以外の人のボイスを分離することを含む、請求項３７に記載のコンピュータ可読記憶媒体。