現実世界は、残響という結果を招く多数のサウンドにしばしば侵入する(transgress)シングルポイント雑音源を含む多数の雑音源で溢れている。背景音響雑音は、所望のサウンド信号から、および/または他の信号のいずれかから生成される反響および残響ばかりでなく、一般環境によって生成される多数の雑音信号および他の人々の背景会話によって生成される干渉信号を含み得る。
環境雑音は、近端スピーチ信号といった感知されたオーディオ信号の理解度に影響を及ぼすことができる。背景雑音から所望のオーディオ信号を区別するために信号処理を使用することは望ましいことであり得る。通信が雑音の多い環境で行われることができる用途に関しては、例えば、背景雑音からスピーチ信号を区別してスピーチ信号の理解度を高めるためのスピーチ処理方法を使用することが望ましいことができる。現実世界の状況では雑音はほとんど常に存在するので、このような処理は毎日の通信の多くの領域において重要であり得る。
音響信号を受信するように構成された2つ以上のマイクロホンのアレイR100を有する携帯型オーディオセンシング・デバイスを製造することが望ましいことができる。このようなアレイを含むように実現され得る、そしてオーディオレコーディングおよび/またはボイス通信用途のために使用され得る携帯型オーディオセンシング・デバイスの例は、電話送受話器(例えば、携帯電話送受話器またはスマートフォン);有線または無線ヘッドホン(例えば、Bluetooth(登録商標)ヘッドホン)、ハンドヘルド・オーディオおよび/またはビデオレコーダー;オーディオおよび/またはビデオコンテンツを記録するように構成されたパーソナル・メディア・プレーヤー;パーソナル・ディジタル・アシスタント(PDA)または他のハンドヘルド・コンピューティング・デバイス;およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、または他のポータブル・コンピューティング・デバイスを含む。
通常の使用時に、携帯型オーディオセンシング・デバイスは所望の音源に関してある範囲の標準的な方位の間のどこでも動作し得る。例えば、異なるユーザが異なる仕方でデバイスを装着または保持することがあり、また同じユーザが同じ使用期間内(例えば、1回の電話通話中)であっても異なる時に異なる仕方でデバイスを装着または保持することがあり得る。図1は、ユーザの口に関してデバイスのある範囲の標準的方位にある2つの例を含む使用中のヘッドホンD100の側面図を示す。ヘッドホンD100は、デバイスの典型的な使用時に、より直接的にユーザのボイスを受け入れるように位置付けられた1次マイクロホンMC10と、デバイスの典型的な使用時に、より直接的でなくユーザのボイスを受け入れるように位置付けられた2次マイクロホンMC20とを含むアレイR100の一事例を有する。図2は、ユーザの口に関して標準的な方位にあるユーザの耳に装着されたヘッドホンD100の上面図を示す。図3Aは、ユーザの口に関してデバイスのある範囲の標準的方位にある2つの例を含む使用中の送受話器D300の側面図を示す。
文脈によって明確に限定されていない場合には、用語「信号」は本明細書では、ワイヤ、バスまたは他の伝送媒体について表されるようなメモリ位置(または、1セットのメモリ位置)の状態を含むこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「生成すること(generating)」は本明細書では、コンピューティング(computing)またはそうでなければ作り出すこと(producing)といったこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「計算すること(calculating)」は本明細書では、コンピューティング、評価すること(evaluating)、平滑化すること(smoothing)および/または複数の値から選択することといったこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「取得すること(obtaining)」は本明細書では、計算すること、導き出すこと、受信すること(例えば、外部デバイスから)、および/または(例えば、1アレイの記憶要素から)検索することといったこの用語の通常の意味のいずれかを指すために使用される。文脈によって明確に限定されていない場合には、用語「選択すること(selecting)」は本明細書では、識別すること、指示すること、適用すること、および/または2つ以上のセットの内の少なくとも1つ、およびすべてより少なく、を使用すること、といったこの用語の通常の意味のいずれかを指すために使用される。用語「備えること(comprising)」が本説明および請求項において使用される場合には、この用語は他の要素または動作を除外しない。用語「に基づく(based on)」(「AはBに基づく」におけるような)は、ケース(i)「から導き出される」(例えば、「BはAの先行体である」、(ii)「少なくとも・・・に基づく」(例えば、「Aは少なくともBに基づく」)、および特定の文脈において適当であれば、(iii)「・・・に等しい」(例えば、「AはBに等しい」)を含むこの用語の通常の意味のいずれかを指すために使用される。同様に用語「・・・に応じて(in response to)」は「少なくとも・・・に応じて」を含むこの用語の通常の意味のいずれかを指すために使用される。
マルチマイクロホン・オーディオセンシング・デバイスのマイクロホンの「位置(location)」への言及は、文脈によって別に指示されていない場合には、マイクロホンの音響的に敏感な面の中心の位置を指す。用語「チャネル(channel)」は、特定の文脈に従って、時には信号経路を指すために、また他の時にはこのような経路によって伝達される信号を指すために使用される。別に指示されていない場合には、用語「シリーズ(series)」は2つ以上の項目の一続きを指すために使用される。用語「対数(logarithm)」は10を底とする対数を指すために使用されるが、他の底へのこのような演算の拡張も本開示の範囲内にある。用語「周波数成分(frequency component)」は、信号の周波数ドメイン表現(例えば、高速フーリエ変換によって作り出されるような)のサンプル(または、「ビン(bin)」)、または信号のサブバンド(例えば、バークスケール(Bark scale)サブバンド)といった信号の1セットの周波数または周波数帯域の間の1つを指すために使用される。
別に指示されていない場合には、特定の特徴機能を有する装置の動作のいかなる開示もアナログ的特徴機能を有する方法を開示するように明確に意図されており(逆もまた同様である)、また特定の構成による装置の動作のいかなる開示もアナログ的構成による方法を開示するように明確に意図されている(逆もまた同様である)。用語「構成(configuration)」はこの用語の特定の文脈によって示されるような方法、装置および/またはシステムへの参照時に使用され得る。用語「方法」、「プロセス」、「手順」、および「技法」は、特定の文脈によって別に指示されていない場合には、一般的にまた相互交換可能に使用される。用語「装置(apparatus)」および「デバイス(device)」もまた、特定の文脈によって別に指示されていない場合には、一般的にまた相互交換可能に使用される。用語「要素」および「モジュール」は典型的には、より大きな構成の一部分を指すために使用される。用語「システム」は、この用語の文脈によって明確に限定されていない場合には、本明細書では「共通目的に役立つために相互作用する要素の1グループ」を含むこの用語の通常の意味のいずれかを指すために使用される。文書の一部分の参照によるいかなる抱合も、抱合された部分において参照される何らかの数字(figure)と同様に用語または変数の定義がこの文書のほかの場所に現れる部分内で参照される用語または変数の定義を抱合すると理解されるべきである。
近距離音場(near-field)は、サウンド受信機(例えば、マイクロホンアレイ)から1波長未満離れた空間の領域として定義され得る。この定義の下で、この領域の境界までの距離は周波数とは逆に変化する。例えば、200Hz、700Hzおよび2000Hzの周波数において1波長境界までの距離は、それぞれ約170、49および17センチメートルである。その代わりに近距離音場/遠距離音場境界がマイクロホンアレイから特定の距離(例えば、このアレイのマイクロホンから、またはこのアレイの重心から50センチメートル、またはこのアレイのマイクロホンから、またはこのアレイの重心から1メートルまたは1.5メートル)にあると考えることは有用であり得る。
マイクロホンアレイは、各チャネルが音響環境に対するマイクロホンの対応する1つの応答に基づいているマルチチャネル信号を作り出す。異なる音源から受信された信号の成分間を弁別するためにマルチチャネル信号に対して空間選択的処理(SSP)動作を実行することが望ましいことができる。例えば、指向性サウンドの所望の音源(例えば、ユーザの口)からのサウンド成分と、拡散背景雑音および/または指向性干渉雑音の1つ以上の音源(例えば、競合スピーカー)からのサウンド成分との間を弁別することは望ましい可能性がある。SSP動作の例は、ビーム形成アプローチ(例えば、汎用サイドローブ・キャンセレーション(GSC)、最小分散無歪み応答(MVDR)、および/または線形拘束最小分散(LCMV)ビームフォーマー)、ブラインドソース分離(BSS)および他の適応型学習アプローチ、および利得ベース近接検出を含む。SSP動作の典型的な用途は、携帯型オーディオセンシング・デバイスのためのマルチマイクロホン雑音低減方式を含む。
SSP動作といったアレイR100によって作り出されたマルチチャネル信号に対する動作の成果は、アレイチャネルの応答特性が互いにどれほどよく整合しているかに依存することができる。例えば、チャネルのレベルはそれぞれのマイクロホンの応答特性の差、それぞれの前処理ステージの利得レベルの差、および/またはチャネルの回路雑音レベルの差に起因して異なる可能性がある。このような場合、結果として得られたマルチチャネル信号は、チャネル応答特性間の不整合(「チャネル応答不均衡」とも呼ばれる)が補正され得ない場合には、音響環境の正確な表現を与えないことができる。
このような補正なしでは、このような信号に基づくSSP動作は誤った結果を与えることができる。チャネル間の利得差が指向性音源の相対的近接度を示すために使用される動作に関しては、チャネルの応答間の不均衡は近接度指示の精度を下げる傾向があるであろう。もう1つの例では、低周波数(すなわち、約100Hz〜1kHz)における1または2デシベルほどの小さいチャネル間の振幅応答偏差は低周波数指向性を著しく低減することができる。アレイR100のチャネルの応答間の不均衡の影響は、2個より多いマイクロホンを有するアレイR100の実現形態からのマルチチャネル信号を処理する用途のために特に有害であり得る。
正確なチャネル較正は、ヘッドホン用途のために特に重要であり得る。例えば、近距離音場音源から到着するサウンド成分と遠距離音場音源から到着するサウンド成分との間を弁別するように携帯型オーディオセンシング・デバイスを構成することが望ましいことができる。このような弁別は、マルチチャネル信号の2つのチャネルの利得レベル間の差(すなわち、「チャネル間利得レベル差」)がアレイのエンドファイア方向(すなわち、対応するマイクロホンの中心を通る直線の近く)に配置された近距離音場音源からのサウンド成分のために、より高いことが予期され得るので、この差に基づいて実行され得る。
マイクロホン間の距離が減少すると、近距離音場信号に関するチャネル間利得レベル差も減少する。ハンドヘルド用途のために、近距離音場信号に関するチャネル間利得レベル差は典型的には、遠距離音場信号に関するチャネル間利得レベル差から約6デシベルである。しかしながらヘッドホン用途のためには、典型的な近距離音場サウンド成分に関するチャネル間利得レベル差は、典型的な遠距離音場音響成分に関するチャネル間利得レベル差の3デシベル(または、これより小さい)以内にあり得る。このような場合には、ほんの数デシベルのチャネル応答不均衡がこのような成分間を弁別する能力を厳しく妨げることができるが、3デシベル以上の不均衡はこの能力を台無しにすることができる。
アレイチャネルの応答間の不均衡は、マイクロホン自体の応答間の差から発生し得る。アレイR100の製造時にばらつきが発生し得るので、1バッチの量産された一見同じマイクロホンの間でも感度はマイクロホンによってかなり変わることができる。携帯型の大量市場向けオーディオセンシング・デバイスでの使用のためのマイクロホンは、例えばプラスマイナス3デシベルの感度公差で製造され得るので、アレイR100の実現形態における2つのこのようなマイクロホンの感度は6デシベルほどの大きさだけ異なることができる。
チャネル応答不均衡の問題は、応答が既に整合させられている(例えば、選別または廃棄プロセスを介して)マイクロホンを使用することによって携帯型オーディオセンシング・デバイスの製造時に取り組まれ得る。代替としてまたは更に、チャネル較正手順は、研究所においておよび/または工場といった製造施設においてアレイR100のマイクロホン(または、アレイを含むデバイス上の)に実行され得る。このような手順は、均衡したマルチチャネル信号を作り出すために1つ以上の利得係数を計算してこのような係数を対応するチャネルに適用することによって不均衡を補正し得る。サービスの前に実行され得る較正手順の例は、2009年5月28日に出願された、「SYSTEMS,METHODS,AND APPARATUS FOR MULTICHANNEL SIGNAL BALANCING」(マルチチャネル信号均衡化のためのシステム、方法、および装置)と題する米国特許出願第12/473,930号と、2008年12月12日に出願された、「SYSTEMS,METHODS,AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」(マルチマイクロホンベースの音声改善のためのシステム、方法、および装置)と題する米国特許出願第12/334,246号とに説明されている。このような整合または較正動作はデバイスを製造するコストを増加させることができるが、デバイスのサービス寿命(例えば、老化による)の期間中に発生するチャネル応答不均衡に対しては無効でもあり得る。
代替としてまたは更に、チャネル較正は稼働中に(例えば、米国特許出願第12/473,930号に説明されているように)実行され得る。このような手順は、時間の経過と共に発生する応答不均衡を修正するために、および/または初期応答不均衡を修正するために使用され得る。初期応答不均衡は、例えばマイクロホン不整合および/または誤った較正手順(例えば、この手順中にマイクロホンが触られるか、またはカバーされる)に起因することができる。変動するチャネルレベルによってユーザの気を紛らわすことを防止するために、このような手順が時間の経過と共に徐々に変化する補正を適用することが望ましいことができる。しかしながら初期応答不均衡が大きい場合にはこのような徐々の補正は、マルチチャネル信号に対するSSP動作がうまく実行できず、不満足なユーザ体験につながる恐れがある、長い収束期間(例えば、1〜10分以上)を引き起こすことができる。
マルチチャネル信号の時間・周波数ポイントを分類するために位相分析が使用され得る。例えば、信号のチャネルの推定された位相間の複数の異なる周波数の各々における差に基づいてマルチチャネル信号の時間・周波数ポイントを分類するようにシステム、方法または装置を構成することが望ましいことができる。このような構成は本明細書では「位相ベース」と呼ばれる。
特定の位相差特性を示す時間・周波数ポイントを識別するために位相ベース方式を使用することは望ましいことができる。例えば、位相ベース方式は、感知されたマルチチャネル信号の特定の周波数成分がアレイ軸に関する可能な角度の範囲内から、またはこの範囲外から発生したかどうかを決定するために、マイクロホン間距離とチャネル間位相差とに関する情報を適用するように構成され得る。このような決定は、異なる方向から到着する音響成分間を弁別するために(例えば、可能な範囲内から発生するサウンドが選択されてこの範囲外から発生するサウンドが拒絶されるように)、および/または近距離音場音源および遠距離音場音源から到着するサウンド成分間を弁別するために使用され得る。
典型的な用途ではこのようなシステム、方法、または装置は、マルチチャネル信号の少なくとも一部分に亘る(例えば、特定の範囲の周波数に亘る、および/または特定の時間間隔に亘る)各時間・周波数ポイントに関するマイクロホンペアに関して到着方向を計算するために使用される。指向性マスキング関数は、所望の範囲内の到着方向を有するポイントを他の到着方向を有するポイントから区別するためにこれらの結果に適用され得る。指向性マスキング演算からの結果は、このマスクの外側の到着方向を有する時間・周波数ポイントを廃棄する、または減衰させることによって望ましくない方向からのサウンド成分を減衰させるために使用され得る。
上記のように、多くのマルチマイクロホン空間処理動作は本来的にマイクロホンチャネルの相対的利得応答に依存しているので、チャネル利得応答の較正はこのような空間処理動作を可能にするために必要であり得る。製造時にこのような較正を実行することは典型的には多大の時間を必要とする、および/またはそうでなくとも高価である。しかしながら位相ベースの方式は、入力チャネル間の利得不均衡によって比較的影響されないように実現され得るので、対応するチャネルの利得応答が互いに整合させられる度合いは、計算された位相差の精度およびこれらに基づく引き続きの動作(例えば、指向性マスキング)に対する限定要因ではない。
本明細書に説明されているようなチャネル較正動作(「チャネル均衡化」動作とも呼ばれる)をサポートするために、このような方式の分類結果を使用することによって位相ベース方式のチャネル不均衡に対する強固さを活用することが望ましいことができる。例えば、チャネル均衡化のために有用であり得る記録されたマルチチャネル信号の周波数成分および/または時間間隔を識別するために位相ベース方式を使用することが望ましいことができる。このような方式は、到着方向が各チャネルにおいて比較的等しい応答を作り出すように予期されることを示す時間・周波数ポイントを選択するように構成され得る。
図3Bに示されているような2マイクロホンアレイに関するある範囲の音源方向に関して、チャネル較正のための幅広面方向(すなわち、アレイ軸に直交する方向)から到着するサウンド成分だけを使用することが望ましいことができる。このような状況は、例えば近距離音場音源が動作しておらず音源が分散している(例えば、背景雑音)ときに見出され得る。較正のための遠距離音場エンドファイア音源から到着するサウンド成分は無視可能なチャネル間利得レベル差(例えば、分散に起因する)を引き起こすと予期され得るので、このようなサウンド成分を使用することも受入れ可能であり得る。しかしながら、アレイのエンドファイア方向(すなわち、アレイ軸に近い方向)から到着する近距離音場サウンド成分は、チャネル不均衡よりむしろ音源位置情報を表すチャネル間利得差を有すると予期されるであろう。その結果、較正のためにこのような成分を使用することは誤った結果を作り出す可能性があり、幅広面方向から到着するサウンド成分からこのような成分を区別するために指向性マスキング演算を使用することが望ましいことができる。
このような位相ベースの分類方式は、実行時間における(例えば、デバイスの使用時に連続的または間欠的いずれにおいても)較正動作をサポートするために使用され得る。このような仕方で、チャネル利得応答不均衡にそれ自身は影響されない敏速で正確なチャネル較正動作が達成され得る。代替として、選択された時間・周波数ポイントからの情報は、後にチャネル較正動作をサポートするために、ある時間に亘って蓄積され得る。
図4Aは、タスクT100、T200、T300、およびT400を含む全体的構成によるマルチチャネル信号を処理する方法M100のための流れ図を示す。タスクT100は、この信号の複数の異なる周波数成分の各々に関してマルチチャネル信号のチャネル(例えば、マイクロホンチャネル)間の位相差を計算する。タスクT200は、マルチチャネル信号の第1のチャネルのレベルとマルチチャネル信号の第2のチャネルの対応するレベルとを計算する。計算されたレベルと計算された位相差の少なくとも1つとに基づいて、タスクT300は利得係数値を更新する。更新された利得係数値に基づいて、タスクT400は処理された(例えば、均衡化された)マルチチャネル信号を作り出すために、第1のチャネルの対応する振幅に関して第2のチャネルの振幅を修正する。方法M100はまた、SSP動作といった(例えば、本明細書で更に詳細に説明されるような)マルチチャネル信号に対する更なる動作をサポートするためにも使用され得る。
方法M100は、マルチチャネル信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は、約5または10ミリセカンドから約40または50ミリセカンドの範囲にあり、これらのセグメントはオーバーラップしていることも(例えば、隣接セグメントと25%または50%だけオーバーラップしている)、オーバーラップしていないこともあり得る。1つの特定の例ではマルチチャネル信号は、各々が10ミリセカンドの長さを有する一連のオーバーラップしていないセグメントまたは「フレーム」に分割される。タスクT100は、セグメントの各々に関する1セットの(例えば、1ベクトルの)位相差を計算するように構成され得る。方法M100のある幾つかの実現形態では、タスクT200は各チャネルのセグメントの各々に関するレベルを計算するように構成され、タスクT300はセグメントの少なくとも一部に関する利得係数値を更新するように構成されている。方法M100の他の実現形態では、タスクT200は各チャネルのセグメントの各々に関する1セットのサブバンドレベルを計算するように構成され、タスクT300は1セットのサブバンド利得係数値の1つ以上を更新するように構成されている。方法M100によって処理されたセグメントは、異なる動作によって処理された更に大きなセグメントのセグメント(すなわち、「サブフレーム」)でもあり得るが、逆もまた同様である。
図4BはタスクT100の実現形態T102の流れ図を示す。各マイクロホンチャネルに関しては、タスクT102は異なる周波数成分の各々に関してこのチャネルに関する位相を推定するサブタスクT110のそれぞれの事例を含む。図4Cは、サブタスクT1121およびT1122を含むタスクT110の実現形態T112の流れ図を示す。タスクT1121は、高速フーリエ変換(FFT)または離散コサイン変換(DCT)といったチャネルの周波数変換を計算する。タスクT1121は典型的には、各セグメントに関するチャネルの周波数変換を計算するように構成されている。例えば、各セグメントの128ポイントまたは256ポイントFFTを実行するようにタスクT1121を構成することは望ましい可能性がある。タスクT1121の代替実現形態は1バンクのサブバンドフィルタを使用してチャネルの種々の周波数成分を分離するように構成されている。
タスクT1122は異なる周波数成分(「ビン」とも呼ばれる)の各々に関するマイクロホンチャネルの位相を計算する(例えば、推定する)。推定されるべき各周波数成分に関して、例えばタスクT1122は対応するFFT係数の虚数項対FFT係数の実数項の比の逆タンジェント(アークタンジェントとも呼ばれる)として位相を推定するように構成され得る。
タスクT102はまた、各チャネルに関して推定された位相に基づいて異なる周波数成分の各々に関する位相差Δφを計算するサブタスクT120を含む。タスクT120は、1つのチャネルにおける周波数成分に関して推定された位相を、他のチャネルにおける周波数成分に関して推定された位相から差し引くことによって、位相差を計算するように構成され得る。例えば、タスクT120は1次チャネルにおける周波数成分に関して推定された位相を、もう1つの(例えば、2次)チャネルにおける周波数成分に関して推定された位相から差し引くことによって、位相差を計算するように構成され得る。このような場合、1次チャネルはデバイスの典型的な使用時に最も直接的にユーザのボイスを受け入れると予期されるマイクロホンに対応するチャネルといった最も高い信号対雑音比を有すると予期されるチャネルであり得る。
周波数の広帯域範囲に亘るマルチチャネル信号のチャネル間の位相差を推定するように方法M100(または、このような方法を実行するように構成されたシステムまたは装置)を構成することが望ましいことができる。このような広帯域範囲は、例えばゼロ、50、100または200Hzという低い周波数範囲から3、3.5または4kHzという高い周波数範囲(または、より高い最大7または8kHz以上といった)まで広がり得る。しかしながら、タスクT100が信号の全帯域幅に亘って位相差を計算することは必要でない可能性がある。例えば、このような広帯域幅における多くの帯域に関して、位相推定は実用的でない、または不必要であることができる。極めて低い周波数において受信された波形の位相関係の実際的評価は典型的には、対応するようにトランスデューサ間の大きな間隔を必要とする。この結果、マイクロホン間の最大利用可能間隔は低周波数範囲を確立し得る。他方では、マイクロホン間の距離は空間エイリアシングを防止するために、最小波長の半分を超えるべきでない。例えば8kHzのサンプリング速度はゼロから4kHzの帯域幅を与える。4kHz信号の波長は約8.5センチメートルであるから、この場合、隣接マイクロホン間の間隔は約4センチメートルを超えるべきでない。マイクロホンチャネルは空間エイリアシングを引き起こす可能性がある周波数を除去するために、ローパスフィルタリングされ得る。
従って、タスクT1121によって作り出された周波数成分のすべてより少ないものに関して(例えば、タスクT1121によって実行されたFFTの周波数サンプルのすべてより少ないものに関して)位相推定値を計算するようにタスクT1122を構成することが望ましいことができる。例えば、タスクT1122は、約50、100、200、または300Hzから約500または1000Hzまでの周波数範囲に関して位相推定値を計算するように構成され得る(これら8つの組合せの各々は明確に考えられ、開示されている)。このような範囲が較正のために特に有用である成分を含み、較正のためにあまり有用でない成分を除外するであろうことは予期され得る。
チャネル較正以外の目的のために使用される位相推定値を計算するようにもタスクT100を構成することが望ましいことができる。例えば、タスクT100はまた、(例えば、下記により詳細に説明されるように)ユーザのボイスを追跡および/または増強するために使用される位相推定値を計算するようにも構成され得る。1つのこのような例では、タスクT1122はまたユーザのボイスのエネルギーの大部分を含むと予期され得る700Hzから2000Hzの周波数範囲に関する位相推定値を計算するようにも構成され得る。4kHz帯域幅信号の128ポイントFFTに関して、700〜2000Hzの範囲は概して、第10番目サンプルから第32番目サンプルまでの23個の周波数サンプルに対応する。更なる例では、タスクT1122は約50、100、200、300、または500Hzの低周波数範囲から約700、1000、1200、1500、または2000Hzの高周波数範囲に広がる周波数範囲に亘って位相推定値を計算するように構成されている(これら低周波数範囲および高周波数範囲の25個の組合せの各々は明確に考えられて開示されている)。
レベル計算タスクT200は、マルチチャネル信号の対応するセグメントにおける第1および第2のチャネルの各々に関するレベルを計算するように構成されている。代替としてタスクT200は、マルチチャネル信号の対応するセグメントの1セットのサブバンドの各々における第1および第2のチャネルの各々に関するレベルを計算するように構成され得る。このような場合、タスクT200は同じ幅(例えば、500、1000または1200Hzの均一な幅)を有する1セットのサブバンドの各々に関するレベルを計算するように構成され得る。代替としてタスクT200は、サブバンドの少なくとも2つ(場合によってはすべて)が異なる幅を有する1セットのサブバンド(例えば、信号スペクトルのBarkまたはMelスケール分割による幅といった不均一幅を有する1セットのサブバンド)の各々に関するレベルを計算するように構成され得る。
タスクT200は、対応する時間に亘る(例えば、対応するセグメントに亘る)チャネルにおけるサブバンドの振幅またはマグニチュード(「絶対振幅」または「修正振幅」とも呼ばれる)の測定値としてタイムドメインにおける選択されたサブバンドの各チャネルに関するレベルLを計算するように構成され得る。振幅またはマグニチュードの測定値の例は、全マグニチュード、平均マグニチュード、二乗平均平方根(RMS)振幅、中央値マグニチュードおよびピークマグニチュードを含む。ディジタルドメインにおいて、このような測定値は下記の1つといった式に従って、n個のサンプル値x
t,t=1,2,・・・,nの1ブロック(または、「フレーム」)に亘って計算され得る:
タスクT200はまた、このような式に従って周波数ドメイン(例えば、フーリエ変換ドメイン)またはもう1つの変換ドメイン(例えば、離散型コサイン変換(DCT)ドメイン)における選択されたサブバンドの各チャネルに関するレベルLを計算するようにも構成され得る。タスクT200はまた、同様の式に従って(例えば、合計の代わりに積分を使用して)、アナログドメインにおけるレベルを計算するようにも構成され得る。
代替として、タスクT200は、対応する時間に亘る(例えば、対応するセグメントに亘る)サブバンドのエネルギーの測定値としてタイムドメインにおける選択されたサブバンドの各チャネルに関するレベルLを計算するように構成され得る。エネルギーの測定値の例は全エネルギーと平均エネルギーとを含む。ディジタルドメインでは、これらの測定値は下記のような式に従ってn個のサンプル値x
t,t=1,2,・・・,nの1ブロックに亘って計算され得る:
タスクT200はまた、このような式に従って、周波数ドメイン(例えば、フーリエ変換ドメイン)またはもう1つの変換ドメイン(例えば、離散型コサイン変換(DCT)ドメイン)における選択されたサブバンドの各チャネルに関するレベルLを計算するようにも構成され得る。タスクT200はまた、同様の式に従って(例えば、合計の代わりに積分を使用して)アナログドメインにおけるレベルを計算するようにも構成され得る。更なる代替として、タスクT200は、対応する時間に亘る(例えば、対応するセグメントに亘る)サブバンドのパワースペクトル密度(PSD)として、選択されたサブバンドの各チャネルに関するレベルを計算するように構成される。
代替としてタスクT200は、タイムドメインにおける、または周波数ドメインにおける、またはもう1つの変換ドメインにおけるマルチチャネル信号の選択されたセグメントの各チャネルiに関するレベルLiを、このチャネルにおけるセグメントの振幅、マグニチュードまたはエネルギーの測定値として計算するようにアナログ的仕方で構成され得る。例えば、タスクT200はセグメントのチャネルに関するレベルLを、このチャネルにおけるセグメントのタイムドメイン・サンプル値の2乗の合計として、またはこのチャネルにおけるセグメントの周波数ドメインサンプル値の2乗の合計として、またはこのチャネルにおけるセグメントのPSDとして、計算するように構成され得る。タスクT300によって処理されたセグメントはまた、異なる動作によって処理された、より大きなセグメントのセグメント(すなわち、「サブフレーム」)でもあり得るが、この逆もまた同様である。
レベル値を計算する前にオーディオ信号チャネルに1つ以上のスペクトル形成動作を実行するようにタスクT200を構成することが望ましいことができる。このような動作はアナログおよび/またはディジタルドメインにおいて実行され得る。例えば、対応するレベル値(単数またな複数)を計算する前にそれぞれのチャネルからの信号に、(例えば、200、500または1000Hzの遮断周波数を有する)ローパスフィルタまたは(例えば、200Hzから1kHzのパスバンドを有する)バンドパスフィルタを適用するようにタスクT200を構成することが望ましいことができる。
利得係数更新タスクT300は、計算されたレベルに基づいて少なくとも1つの利得係数の各々に関する値を更新するように構成されている。例えば、タスクT200によって計算された対応する選択された周波数成分における各チャネルのレベル間の観測された不均衡に基づいて利得係数値の各々を更新するようにタスクT300を構成することは望ましい可能性がある。
タスクT300のこのような実現形態は、観測された不均衡を線形レベル値の関数として(例えば、L1およびL2がそれぞれ第1および第2のチャネルのレベルを表す場合にL1/L2といった式にしたがう比として)計算するように構成され得る。代替として、タスクT300のこのような実現形態は、観測された不均衡を対数ドメインにおけるレベル値の関数として(例えば、L1−L2といった式にしたがう差として)計算するように構成され得る。
タスクT300は、観測された不均衡を対応する周波数成分に関する更新された利得係数値として使用するように構成され得る。代替として、タスクT300は利得係数の対応する前の値を更新するために観測された不均衡を使用するように構成され得る。このような場合、タスクT300は下記のような式に従って、更新された値を計算するように構成され得る:
ここで、Ginは周波数成分iに関するセグメントnに対応する利得係数値を表し、Gi(n−1)は周波数成分iに関する前のセグメント(n−1)に対応する利得係数値を表し、Rinはセグメントnにおける周波数成分iに関して計算された観測された不均衡を表し、そしてμiは0.3、0.5または0.7といった0.1(最大平滑化)から1(無平滑化)までの範囲内の値を有する時間的平滑化係数を表す。タスクT300のこのような実現形態が各周波数成分に関して平滑化係数μiの同じ値を使用することは典型的ではあるが必要ではない。観測された不均衡の計算に先立って観測されたレベルの値を時間的に平滑化するように、および/または更新された利得係数値の計算に先立って観測されたチャネル不均衡の値を時間的に平滑化するように、タスクT300を構成することも可能である。
下記に更に詳細に説明されるように、利得係数更新タスクT300はまた、タスクT100において計算された複数の位相差からの情報(例えば、マルチチャネル信号の音響的に均衡した部分の識別情報)に基づいて少なくとも1つの利得係数の各々に関する値を更新するようにも構成されている。マルチチャネル信号の何らかの特定のセグメントにおいてタスクT300は、1セットの利得係数値のすべてより少ないものを更新し得る。例えば、較正動作時に周波数成分を音響的に不均衡状態のままに留まらせる音源の存在は、タスクT300が観測された不均衡とこの周波数成分に関する新しい利得係数値とを計算するのを妨げることができる。その結果、周波数に亘って観測されたレベル、観測された不均衡および/または利得係数の値を平滑化するようにタスクT300を構成することが望ましいことができる。例えば、タスクT300は選択された周波数成分の観測されたレベルの(または、観測された不均衡または利得係数の)平均値を計算して、この計算された平均値を、無選択周波数成分に割り当てるように構成され得る。もう1つの例では、タスクT300は下記のような式に従って無選択周波数成分iに対応する利得係数値を更新するように構成されている:
ここで、Ginは周波数成分iに関するセグメントnに対応する利得係数値を表し、Gi(n−1)は周波数成分iに関する前のセグメント(n−1)に対応する利得係数値を表し、G(i−1)nは近隣周波数成分(i−1)に関するセグメントnに対応する利得係数値を表し、そしてβはゼロ(無更新)から1(無平滑化)までの範囲内の値を有する周波数平滑化係数を表す。更なる例では、式(9)はG(i−1)nの代わりに最も近い選択された周波数成分に関する利得係数値を使用するように変更される。タスクT300は時間的平滑化として同じ時間の前または後における、または同じ時間における周波数に亘って平滑化を実行するように構成され得る。
タスクT400は、タスクT300において更新された少なくとも1つの利得係数値に基づいて、マルチチャネル信号のもう1つのチャネルの対応する応答特性に関してマルチチャネル信号の1つのチャネルの応答特性(例えば、利得応答)を修正することによって、処理されたマルチチャネル信号(「均衡化された」または「較正された」信号とも呼ばれる)を作り出す。タスクT400は、第1のチャネルにおける周波数成分の振幅に関して第2のチャネルにおける対応する周波数成分の振幅を変えるために1セットのサブバンド利得係数値の各々を使用することによって、処理されたマルチチャネル信号を作り出すように構成され得る。タスクT400は、例えば応答性のより小さいチャネルからの信号を増幅するように構成され得る。代替として、タスクT400は、2次マイクロホンに対応するチャネルにおける周波数成分の振幅を制御する(例えば、増幅する、または減衰させる)ように構成され得る。上記のように、マルチチャネル信号の任意の特定のセグメントにおいて、1セットの利得係数値のすべてより少ないものが更新されることは可能である。
タスクT400は、単一の利得係数値を信号の各セグメントに適用することによって、またはそうではなく利得係数値を1つより多い周波数成分に適用することによって、処理されたマルチチャネル信号を作り出すように構成され得る。例えば、タスクT400は、1次マイクロホンチャネルの対応する振幅に関して2次マイクロホンチャネルの振幅を修正するために(例えば、1次マイクロホンチャネルに関して2次マイクロホンチャネルを増幅する、または減衰させるために)更新された利得係数値を適用するように構成され得る。
タスクT400は、線形ドメインにおいてチャネル応答均衡化を実行するように構成され得る。例えば、タスクT400は第2のチャネルにおけるセグメントのタイムドメイン・サンプルの値の各々にこのセグメントに対応する利得係数の値を掛けることによって、セグメントの第2のチャネルの振幅を制御するように構成され得る。サブバンド利得係数に関して、タスクT400は、第2のチャネルにおける対応する周波数成分の振幅に利得係数の値を掛けることによって、またはタイムドメインにおける対応するサブバンドに利得係数を適用するためにサブバンドフィルタを使用することによって、第2のチャネルにおける対応する周波数成分の振幅を制御するように構成され得る。
代替として、タスクT400は対数ドメインにおいてチャネル応答均衡化を実行するように構成され得る。例えば、タスクT400は、利得係数の対応する値をセグメントの持続時間に亘ってセグメントの第2のチャネルに適用された対数利得制御値に加えることによって、セグメントの第2のチャネルの振幅を制御するように構成され得る。サブバンド利得係数に関して、タスクT400は、対応する利得係数の値を第2のチャネルにおける周波数成分の振幅に加えることによって、第2のチャネルにおける周波数成分の振幅を制御するように構成され得る。このような場合、タスクT400は、対数値(例えば、デシベル単位の)として振幅および利得係数値を受信するように、および/または(例えば、xlinは線形値であり、xlogは対応する対数値であるとしてxlog=20logxlinのような式に従って)線形振幅または利得係数値を対数値に変換するように構成され得る。
タスクT400は、チャネル(単数または複数)の他の振幅制御(例えば、自動利得制御(AGC)または自動ボリューム制御(AVC)モジュール、ユーザ操作ボリューム制御など)と組み合され得る、または他の振幅制御の上流または下流で実行され得る。
2つより多いマイクロホンのアレイに関して、各チャネルの応答が少なくとも1つの他のチャネルの応答に均衡するように、2対以上のチャネルの各々に方法M100のそれぞれの事例を実行することが望ましいことができる。例えば、方法M100の1つの事例(例えば、方法M110)は1対のチャネル(例えば、第1および第2のチャネル)に基づいてコヒーレンシー測定値を計算するように実行され得るが、方法M100のもう1つの事例はもう1対のチャネル(例えば、第1のチャネルおよび第3のチャネル、または第3および第4のチャネル)に基づいてコヒーレンシー測定値を計算するように実行される。しかしながら、1対のチャネルに対して共通の動作が実行されない場合には、この1対のチャネルの均衡化は省略され得る。
利得係数更新タスクT300は、各チャネルにおいて同じレベルを有すると予期されるマルチチャネル信号の周波数成分および/またはセグメント(例えば、本明細書で「音響的に均衡した部分」とも呼ばれるそれぞれのマイクロホンチャネルによって等しい応答をもたらすと予期される周波数成分および/またはセグメント)を示すために、またこれらの部分からの情報に基づいて1つ以上の利得係数値を計算するために、計算された位相差からの情報を使用することを含み得る。アレイR100の幅広面方向における音源から受信されたサウンド成分はマイクロホンMC10およびMC20によって等しい応答をもたらすことが予期され得る。これとは逆に、アレイR100のエンドファイア方向のいずれかにおける近距離音場音源から受信されたサウンド成分は、一方のマイクロホンに他方のマイクロホンより高い出力レベルを持たせる(すなわち、「音響的に不均衡化される」)ことが予期され得る。従って、マルチチャネル信号の対応する周波数成分が音響的に均衡化されるか、音響的に不均衡化されるかどうかを決定するために、タスクT100において計算された位相差を使用するようにタスクT300を構成することが望ましいことができる。
タスクT300は、対応する周波数成分の各々に関するマスクスコア(mask score)を取得ために、タスクT100によって計算された位相差に指向性マスキング演算を実行するように構成され得る。限定された周波数範囲に亘るタスクT100による位相推定に関する上記の論議によれば、タスクT300は信号の周波数成分のすべてより少ないものに関する(例えば、タスクT1121によって実行されたFFTの周波数サンプルのすべてより少ないものに関する)マスクスコアを取得するように構成され得る。
図5AはサブタスクT310、T320およびT340を含むタスクT300の実現形態T302の流れ図を示す。タスクT100からの複数の計算された位相差の各々に関して、タスクT310は対応する方向インジケータを計算する。タスクT320は方向インジケータを評価するために(例えば、方向インジケータの値を振幅またはマグニチュードスケールにおける値に変換またはマッピングするために)、指向性マスキング関数を使用する。タスクT320によって作り出された評価に基づいて、タスクT340は(例えば、上記の式(8)または(9)に従って)更新された利得係数値を計算する。例えば、タスクT340は、信号の周波数成分が音響的に均衡化されていることを評価が示す信号の周波数成分を選択するように、そしてこの成分に関するチャネル間の観測された不均衡に基づくこれらの成分の各々に関する更新された利得係数値を計算するように、構成され得る。
タスクT310は、マルチチャネル信号の対応する周波数成分fiの到着方向θiとして方向インジケータの各々を計算するように構成され得る。例えば、タスクT310は、cがサウンドの速度(約340m/sec)を表し、dがマイクロホン間の距離を表し、Δφiが2つのマイクロホンに関する対応する位相推定値間の差をラジアン単位で表し、fiが位相推定値が対応する周波数成分(例えば、対応するFFTサンプルの周波数、または対応するサブバンドの中心周波数またはエッジ周波数)である場合に、量cΔφi/d2πfiの逆コサイン(アークコサインとも呼ばれる)として到着方向θiを推定するように構成され得る。代替として、タスクT310は、λiが周波数成分fiの波長を表す場合に、量λiΔφi/d2πの逆コサインとして到着方向θiを推定するように構成され得る。
図6Aは2マイクロホンアレイMC10、MC20のマイクロホンMC20に関する到着方向θを推定する、このアプローチを示す幾何学的近似の一例を示す。この例では、θi=0という値は基準エンドファイア方向(すなわち、マイクロホンMC10の方向)からマイクロホンMC20に到着する信号を表し、θi=πという値は他のエンドファイア方向から到着する信号を表し、θi=π/2という値は幅広面方向から到着する信号を表す。別の例では、タスクT310は、異なる基準位置(例えば、マイクロホンMC10、またはマイクロホン間の中間点といった他のポイント)および/または異なる基準方向(例えば、他のエンドファイア方向、幅広面方向など)に関してθiを評価するように構成され得る。
図6Aに示されている幾何学的近似は距離sが距離Lに等しいことを想定しており、ここでsはマイクロホンMC20の位置と、音源とマイクロホンMC20との間の直線へのマイクロホンMC10の位置の直交投影と、の間の距離であり、Lは各マイクロホンの音源までの距離間の実際の差である。誤差(s−L)は、マイクロホンMC20に関する到着方向θがゼロに近づくにつれて小さくなる。この誤差はまた、音源とマイクロホンアレイとの間の相対的距離が増加するにつれて小さくなる。
図6Aに示されている方式は、Δφiの第1象限および第4象限の値(すなわち、ゼロから+π/2およびゼロから−π/2)のために使用され得る。図6Bは、Δφiの第2象限および第3象限の値(すなわち、+π/2から−π/2)のために同じ近似を使用する一例を示す。この場合、到着方向θiを生み出すためにπラジアンから差し引かれる角度ζを評価するために、上記のように逆コサインが計算され得る。現役のエンジニアは、到着方向θiが度で表され得ること、またはラジアンの代わりに特定用途のために適当な他の任意の単位で表され得ることを理解するであろう。
π/2ラジアンに近い到着方向(アレイの幅広面方向)を有する周波数成分を選択するようにタスクT300を構成することが望ましいことができる。その結果、一方におけるΔφiの第3および第4象限の値と他方におけるΔφiの第2および第3象限の値との間の差異は較正目的のためには重要でなくなる。
代替実現形態では、タスクT310はマルチチャネル信号の対応する周波数成分fiの到着時間遅延τi(例えば、秒単位の)として方向インジケータの各々を計算するように構成されている。タスクT310はτi=λiΔφi/c2πまたはτi=Δφi/2πfiといった数式を使用してマイクロホンM10に関連してマイクロホンM20における到着時間遅延τiを推定するように構成され得る。これらの例では、τi=0という値は幅広面方向から到着する信号を表し、τiの大きな正の値は基準エンドファイア方向から到着する信号を表し、τiの大きな負の値は他の基準エンドファイア方向から到着する信号を表す。値τiを計算する際に、サンプリング周期といった特定の用途のために適当であると考えられる時間の単位(例えば、8kHzのサンプリング速度のための125マイクロセカンド単位)または秒の何分の一(例えば、10−3、10−4、10−5または10−6秒)を使用することが望ましいことができる。タスクT310がタイムドメインにおける各チャネルの周波数成分fiを相互相関させることによって到着時間遅延τiを計算するようにも構成され得ることに留意されたい。
同じポイントの音源から直接到着するサウンド成分に関して、Δφ/fの値は理想的にはすべての周波数に関して定数kに等しく、ここで、kの値は到着方向θと到着時間遅延τとに関連する。もう1つの代替実施形態ではタスクT310は、推定された位相差Δφiと周波数fiとの比ri(例えば、ri=Δφi/fiまたはri=fi/Δφi)として方向インジケータの各々を計算するように構成されている。
式θi=cos−1(cΔφi/d2πfi)またはθi=cos−1(λiΔφi/d2π)は、遠距離音場モデル(すなわち、平面波面を想定したモデル)に従って方向インジケータθiを計算するが、式τi=λiΔφi/c2π、τi=Δφi/2πfi、ri=Δφi/fiおよびri=fi/Δφiは近距離音場モデル(すなわち、図7に示されているような球形波面を想定したモデル)に従って方向インジケータτiおよびriを計算する。近距離音場モデルに基づく方向インジケータは計算することがより正確および/または容易である結果を与え得るが、遠距離音場モデルに基づく方向インジケータは方法M100のある幾つかの構成のために望ましいことができる位相差と方向インジケータとの間の非線形マッピングを与える。
タスクT302はまた、タスクT310によって作り出された方向インジケータを評価するサブタスクT320を含む。タスクT320は、吟味されるべき周波数成分に関して、方向インジケータの値を振幅、マグニチュード、または合格/不合格(pass/fail)スケール(「マスクスコア」とも呼ばれる)についての対応する値に変換またはマッピングすることによって、方向インジケータを評価するように構成され得る。例えば、タスクT320は、指示された方向がマスキング関数のパスバンド内に入るかどうか(および/またはどれほどうまく入るか)を示すマスクスコアに各方向インジケータの値をマッピングするために、指向性マスキング関数を使用するように構成され得る。(この文脈では、用語「パスバンド」はマスキング関数によって通された到着方向の範囲を指す。)種々の周波数成分に関するこの1セットのマスクスコアはベクトルと考えられ得る。タスクT320は種々の方向インジケータを連続しておよび/または並行して評価するように構成され得る。
マスキング関数のパスバンドは所望の信号方向を含むように選択され得る。マスキング関数の空間選択性はパスバンドの幅を変えることによって制御され得る。例えば、収束速度と較正精度との間のトレードオフに従ってパスバンド幅を選択することが望ましいことができる。より幅広いパスバンドは周波数成分のより多くが較正動作に寄与することを可能にすることによって、より速い収束を可能にし得るが、アレイの幅広面軸からより遠い方向から到着する成分を受け入れることによって、より不正確になることも予期されるであろう(従って、マイクロホンに異なる影響を与えることが予期され得る)。1つの例では、タスクT300(例えば、下記のようなタスクT320またはタスクT330)はアレイの幅広面軸の50度以内の方向から到着する成分(すなわち、75〜105度または同等に5π/12〜7π/12ラジアンの範囲内の到着方向を有する成分)を選択するように構成されている。
図8Aは、パスバンドとストップバンド(「ブリックウォール(brickwall)」プロファイルとも呼ばれる)との間の比較的急な遷移と、到着方向θ=π/2に中心を持つパスバンドと、を有するマスキング関数の一例を示す。1つのこのような場合には、タスクT320は、方向インジケータがマスキング関数のパスバンド内の方向を示すときに第1の値(例えば、1)を有するバイナリ値マスクスコアを割り当て、方向インジケータがこの関数のパスバンド外の方向を示すときには第2の値(例えば、ゼロ)を有するマスクスコアを割り当てるように構成されている。信号対雑音比(SNR)、雑音レベルなどといった1つ以上の因子に依存してストップバンドとパスバンドとの間の遷移の位置を変えること(例えば、SNRが高いときに、より狭いパスバンドを使用して較正精度に悪影響を与え得る所望の指向性信号の存在を示すこと)が望ましいことができる。
代替として、パスバンドとストップバンドとの間にあまり急激でない遷移(例えば、非2成分値マスクスコアを生み出す、より緩やかなロールオフ)を有するマスキング関数を使用するようにタスクT320を構成することが望ましいことができる。図8Bは到着方向θ=π/2に中心を持つパスバンドを有するマスキング関数に関する線形ロールオフの一例を示し、図8Cは到着方向θ=π/2に中心を持つパスバンドを有するマスキング関数に関する非線形ロールオフの一例を示す。SNR、雑音レベルなどといった1つ以上の因子に依存して、ストップバンドとパスバンドとの間の遷移の位置および/または急激さを変えること(例えば、SNRが高いときに、より急激なロールオフを使用して較正精度に悪影響を与え得る所望の指向性信号の存在を示すこと)が望ましいことができる。マスキング関数(例えば、図8A〜図8Cに示されているような)が、方向θよりむしろ時間遅延τまたは比rの観点からも表され得ることは無論である。例えば、到着方向θ=π/2はゼロの時間遅延τまたは比r=Δφ/fに対応する。
のように表され得、ここで、ζTは目標到着方向を表し、wはラジアン単位で所望のマスク幅を表し、γは急激さパラメータを表す。図9A〜図9Cは、それぞれ(8,π/2,π/2)、(20,π/4,π/2)、および(50,π/8,π/5)に等しい(γ,w,θT)に関するこのような関数の例を示す。このような関数が方向θよりむしろ時間遅延τまたは比rの観点からも表され得ることは無論である。SNR、雑音レベルなどといった1つ以上の因子に依存してマスクの幅および/または急激さを変えること(例えば、SNRが高いときに、より狭いマスクおよび/またはより急激なロールオフを使用すること)が望ましいことができる。
図5Bは、タスクT300の代替実現形態の流れ図を示す。複数の方向インジケータの各々を評価するために同じマスキング関数を使用する代わりに、タスクT304は、対応する指向性マスキング関数miを使用して各位相差Δφiを評価し、計算された位相差を方向インジケータとして使用するサブタスクT330を含む。例えば、θLからθHまでの範囲内の方向から到着する音響成分を選択することが望まれる場合には、各マスキング関数miは、ΔφL=(d2πfi/c)cosθH(同等に、ΔφL=(d2π/λi)cosθH)およびΔφH=(d2πfi/c)cosθL(同等に、ΔφH=(d2π/λi)cosθL)として、ΔφLからΔφHの範囲にあるパスバンドを有するように構成され得る。τLからτHの到着時間遅延の範囲に対応する方向から到着するサウンド成分を選択することが望まれる場合には、各マスキング関数miは、ΔφLi=2πfiτL(同等に、ΔφLi=c2πτL/λi)およびΔφHi=2πfiτH(同等に、ΔφHi=c2πτH/λi)として、ΔφLiからΔφHiの範囲にあるパスバンドを有するように構成され得る。rLからrHの位相差対周波数の比の範囲に対応する方向から到着するサウンド成分を選択することが望まれる場合には、各マスキング関数miは、ΔφLi=firLおよびΔφHi=firHとして、ΔφLiからΔφHiの範囲にあるパスバンドを有するように構成され得る。タスクT320に関して前に論じられたように、各マスキング関数のプロファイルはSNR、雑音レベルなどといった1つ以上の因子に従って選択され得る。
周波数成分の1つ以上(場合によってはすべて)の各々に関するマスクスコアを時間的に平滑化された値として作り出すようにタスクT300を構成することが望ましいことができる。タスクT300のこのような実現形態は、mの可能な値が5、10、20、および50を含むとして、このような値をごく最近のm個のフレームに亘る周波数成分に関するマスクスコアの平均値として計算するように構成され得る。より一般的には、タスクT300のこのような実現形態は、有限または無限インパルス応答(FIRまたはIIR)フィルタといった時間的平滑化関数を使用して平滑化された値を計算するように構成され得る。1つのこのような例では、vi(n−1)は前のフレームのための周波数成分iに関するマスクスコアの平滑化された値を表し、ci(n)は周波数成分iに関するマスクスコアの現在値を表し、αiはゼロ(無平滑化)から1(無更新)までの範囲から選択され得る平滑化係数であるとした場合に、タスクT300は、vi(n)=αivi(n−1)+(1−αi)ci(n)といった式に従ってフレームnの周波数成分iに関するマスクスコアの平滑化された値vi(n)を計算するように構成されている。この1次IIRフィルタはまた「漏洩積分器(leaky integrator)」とも呼ばれ得る。
平滑化係数αiの典型的な値は0.99、0.09、0.95、0.9および0.8を含む。タスクT300が1フレームの各周波数成分に関してαiの同じ値を使用することは、典型的ではあるが必要ではない。初期収束期間の間(例えば、オーディオセンシング回路の電源投入または他の活性化動作の直後)に、タスクT300がより短い間隔に亘って、平滑化された値を計算すること、または引き続く定常状態動作中より小さい値を平滑化係数αiの1つ以上(場合によってはすべて)に関して使用すること、が望ましいことができる。
タスクT340は信号の音響的に均衡化された部分を選択するために複数のマスクスコアからの情報を使用するように構成され得る。タスクT340は音響的均衡の方向インジケータとして、2成分値マスクスコアを採用するように構成され得る。例えば、パスバンドがアレイR100の幅広面方向にあるマスクに関して、タスクT340は1というマスクスコアを有する周波数成分を選択するように構成され得るが、パスバンドがアレイR100のエンドファイア方向(例えば、図3Bに示されているような)にあるマスクに関しては、タスクT340はゼロというマスクスコアを有する周波数成分を選択するように構成され得る。
非2成分値マスクスコアの場合には、タスクT340はマスクスコアをある閾値と比較するように構成され得る。例えば、パスバンドがアレイR100の幅広面方向にあるマスクに関しては、マスクスコアが閾値より大きい(代替として、小さくない)場合に、タスクT340が周波数成分を音響的に均衡化された部分として識別することが望ましいことができる。同様に、パスバンドがアレイR100のエンドファイア方向にあるマスクに関しては、マスクスコアが閾値より小さい(代替として、大きくない)場合に、タスクT340が周波数成分を音響的に均衡化された部分として識別することが望ましいことができる。
タスクT340のこのような実現形態は、周波数成分のすべてに関して同じ閾値を使用するように構成され得る。代替として、タスクT340は周波数成分の2つ以上(場合によってはすべて)の各々に関して異なる閾値を使用するように構成され得る。タスクT340は、一定の閾値(単数または複数)を使用するように構成され得るが、代替として信号の特性(例えば、フレームエネルギー)および/またはマスクの特性(例えば、パスバンド幅)に基づいて経過時間に亘って1つのセグメントからもう1つのセグメントに閾値(単数または複数)を適応させるように構成され得る。
図5Cは、タスクT200の実現形態T205と;タスクT300(例えば、タスクT302またはT304)の実現形態T305と;タスクT400の実現形態T405と;を含む方法M100の実現形態M200の流れ図を示す。タスクT205は(少なくとも)2つのサブバンドの各々における各チャネルに関するレベルを計算するように構成されている。タスクT305はこれらのサブバンドの各々に関する利得係数値を更新するように構成され、またタスクT405はサブバンドにおける第1のチャネルの振幅に関して対応するサブバンドにおける第2のチャネルの振幅を修正するために各更新された利得係数を適用するように構成されている。
信号が理想的なポイント音源から残響なしに受信されるときには、すべての周波数成分は同じ到着方向を持つはずである(例えば、比Δφ/fの値はすべての周波数に亘って一定であるはずである)。信号の異なる周波数成分が同じ到着方向を有する度合いは「方向的コヒーレンス」とも呼ばれる。マイクロホンアレイが遠距離音場(例えば、背景雑音源)から発生したサウンドを受けるとき、結果として得られたマルチチャネル信号は、典型的には近距離音場音源から発生する受信サウンド(例えば、ユーザのボイス)に関するより方向的コヒーレンスに乏しいであろう。例えば、異なる周波数成分の各々におけるマイクロホンチャネル間の位相差は典型的には、近距離音場音源から発生する受信サウンドに関する周波数より遠距離音場音源から発生する受信サウンドに関する周波数に、より少ない相関性を持つであろう。
マルチチャネル信号の一部分(例えば、セグメントまたはサブバンド)が音響的に均衡化されているか、音響的に不均衡化されているかどうかを示すために、到着方向と同様に方向的コヒーレンスを使用するようにタスクT300を構成することが望ましいことができる。例えば、これらの部分における周波数成分が方向的にコヒーレントである度合いに基づいて、マルチチャネル信号の音響的に均衡化された部分を選択するように、タスクT300を構成することが望ましいことができる。方向的コヒーレンスの使用は、例えばアレイのエンドファイア方向に位置する方向的にコヒーレントな音源(例えば、近距離音場音源)による活動を含むセグメントまたはサブバンドの拒絶を可能にすることによって、チャネル較正動作の高められた精度および/または信頼度をサポートし得る。
図10は、タスクT300の一実現形態によって、2マイクロホンアレイR100からマルチチャネル信号に適用され得るようなマスキング関数の指向性パターンの前方および後方ローブを示す。アレイR100の幅広面方向における近距離音場音源または任意方向における遠距離音場音源といったこのパターンの外側に位置する音源から受信されたサウンド成分は、音響的に均衡化されるであろう(すなわち、マイクロホンMC10およびMC20による等しい応答をもたらすであろう)ことが予期され得る。同様に、このようなパターンの前方または後方ローブ内の音源(すなわち、アレイR100のエンドファイア方向のいずれかにおける近距離音場音源)から受信されたサウンド成分は、音響的に不均衡化されるであろう(すなわち、一方のマイクロホンが他方のマイクロホンより高い出力レベル持たせるであろう)ことが予期され得る。従って、このようなマスキング関数パターンのいずれのローブ内にも音源を持たないセグメントまたはサブバンド(例えば、方向的にコヒーレントでない、または幅広面方向にだけコヒーレントであるセグメントまたはサブバンド)を選択するように、タスクT300の対応する実現形態を構成することが望ましいことができる。
上記のように、タスクT300はマルチチャネル信号の音響的に均衡化された部分を識別するために、タスクT100によって計算された位相差からの情報を使用するように構成され得る。識別されたサブバンドまたはセグメントに関してだけ、対応する利得係数値の更新が実行されるように、タスクT300はサブバンドまたはセグメントがアレイの幅広面方向において方向的にコヒーレントである(または、代替として、エンドファイア方向には方向的にコヒーレントでない)ことをマスクスコアが示す信号のサブバンドまたはセグメントとして、音響的に均衡化された部分を識別するように実現され得る。
図11Aは、タスクT300の実現形態T306を含む方法M100の実現形態M110の流れ図を示す。タスクT306は、タスクT100によって計算された位相差からの情報に基づいて、コヒーレンシー測定の値を計算するサブタスクT360を含む。図11Bは、上記のサブタスクT312およびT322の事例とサブタスクT350とを含むタスクT360の実現形態T362の流れ図を示す。図11Cは、上記のサブタスクT332の事例とサブタスクT350とを含むタスクT360の実現形態T364の流れ図を示す。
タスクT350は、サブバンドに関するコヒーレンシー測定値を取得するために各サブバンドにおける周波数成分のマスクスコアを組み合わせるように構成され得る。1つのこのような例では、タスクT350は特定の状態を有するマスクスコアの数に基づいてコヒーレンシー測定値を計算するように構成されている。もう1つの例では、タスクT350はマスクスコアの合計としてコヒーレンシー測定値を計算するように構成されている。更なる例では、タスクT350はマスクスコアの平均値としてコヒーレンシー測定値を計算するように構成されている。これらのケースのいずれにおいても、タスクT350はマスクスコアの各々を等しく重み付けするように、(例えば、各マスクスコアを1で重み付けするように)または1つ以上のマスクスコアを互いに異なるように重み付けするように(例えば、低周波数または高周波数成分に対応するマスクスコアを中音域周波数成分に対応するマスクスコアより重くなく重み付けするように)構成され得る。
パスバンドがアレイR100の幅広面方向にあるマスク(例えば、図8A〜図8Cおよび図9A〜図9Cに示されているような)に関して、タスクT350は、例えばマスクスコアの合計または平均がある閾値より小さくない(代替として、より大きい)場合に、またはサブバンドにおける少なくとも最小数の(代替として、最小数より多い)周波数成分が1というマスクスコアを有する場合に第1の状態(例えば、高い、または「1」)を有し、そうでない場合には第2の状態(例えば、低い、または「0」)を有するコヒーレンシー指示を作り出すように構成され得る。パスバンドがアレイR100のエンドファイア方向にあるマスクに関して、タスクT350は、例えばマスクスコアの合計または平均がある閾値より大きくない(代替として、より小さい)場合に、またはサブバンドにおける最大数より大きくない(代替として、より小さい)数の周波数成分が1というマスクスコアを有する場合に第1の状態を有し、そうでない場合には第2の状態を有するコヒーレンシー測定値を作り出すように構成され得る。
タスクT350は、各サブバンドに関して同じ閾値を使用するように、またはサブバンドの2つ以上(おそらくはすべて)の各々に関して異なる閾値を使用するように、構成され得る。各閾値は発見的に決定される可能性があり、またパスバンド幅、信号の1つ以上の特性(例えば、SNR、雑音レベル)などといった1つ以上の因子に依存して経過時間に亘って閾値を変えることが望ましいことができる。(同じ原理は前のパラグラフで述べられた最大および最小数に当てはまる。)
代替として、タスクT350はマルチチャネル信号の一連のセグメントの各々に関して、対応する方向的コヒーレンシー測定値を作り出すように構成され得る。この場合、タスクT350は(例えば、上記のように、特定の状態を有するマスクスコアの数に基づいて、またはマスクスコアの合計または平均に基づいて)セグメントに関するコヒーレンシー測定値を取得するために、各セグメントにおける周波数成分の2つ以上(場合によってはすべて)のマスクスコアを組み合わせるように構成され得る。タスクT350のこのような実現形態は各セグメントに関して同じ閾値を使用するように、または上記のように1つ以上の因子に依存して経過時間に亘って閾値を変えるように構成され得る(例えば、最大数または最小数のマスクスコアに同じ原理が当てはまる)。
セグメントのすべての周波数成分のマスクスコアに基づいて各セグメントに関するコヒーレンシー測定値を計算するようにタスクT350を構成することが望ましいことができる。代替として、限定された周波数範囲に亘る周波数成分のマスクスコアに基づいて各セグメントに関するコヒーレンシー測定値を計算するようにタスクT350を構成することが望ましいことができる。例えば、タスクT350は、約50、100、200、または300Hzから約500または1000Hzの周波数範囲(これら8つの組合せの各々は明確に考えられて開示されている)に亘る周波数成分のマスクスコアに基づいてコヒーレンシー測定値を計算するように構成され得る。例えば、チャネルの応答特性間の差はこのような周波数範囲に亘るチャネルの利得応答における差によって実質的に特徴付けられることが決定され得る。
タスクT340は、タスクT360によって識別された音響的に均衡化された部分からの情報に基づいて少なくとも1つの利得係数の各々に関する更新された値を計算するように構成され得る。例えば、対応するセグメントまたはサブバンドにおいてマルチチャネル信号が方向的にコヒーレントであるという指示に応じて(例えば、対応するコヒーレンス指示の状態によって示されるようにタスクT360におけるサブバンドまたはセグメントの選択に応じて)、更新された利得係数を計算するようにタスクT340を構成することが望ましいことができる。
タスクT400は、第1のチャネルの振幅に関して第2のチャネルの振幅を制御するためにタスクT300によって作り出された更新済み利得係数値を使用するように構成され得る。本明細書で説明されているように、音響的に均衡化されたセグメントの観測されたレベル不均衡に基づいて利得係数値を更新するようにタスクT300を構成することが望ましいことができる。音響的に均衡化されていない次のセグメントに関して、タスクT300が利得係数値を更新することを差し控えること、およびタスクT400がごく最近更新された利得係数値を適用し続けることが望ましいことができる。図12Aは、タスクT400のこのような実現形態T420を含む方法M100の実現形態M120の流れ図を示す。タスクT420は、マルチチャネル信号の1シリーズの連続するセグメントの各々(例えば、1シリーズの音響的に不均衡化されたセグメントの各々)において第1のチャネルの振幅に関して第2のチャネルの振幅を修正するために更新済み利得係数値を使用するように構成されている。このような1シリーズは、タスクT300が利得係数値を再び更新するようにもう1つの音響的に均衡化されたセグメントが識別されるまで続き得る。(このパラグラフで説明された原理は本明細書で説明されたようにサブバンド利得係数値の更新および利用にも適用され得る。)
方法M100の実現形態は、較正依存性であり得る空間選択性処理動作といったマルチチャネル信号および/または処理済みマルチチャネル信号に対する種々の更なる動作(例えば、オーディオセンシング・デバイスと特定の音源との間の距離を決定し、雑音を減らし、特定の方向から到着する信号成分を増強し、および/または1つ以上のサウンド成分を他の環境サウンドから分離する1つ以上の動作)をサポートするようにも構成され得る。例えば、均衡化されたマルチチャネル信号(例えば、処理済みマルチチャネル信号)の用途の範囲は、非定常拡散および/または指向性雑音の低減;近距離音場の所望スピーカーによって作り出されるサウンドの残響除去;マイクロホンチャネル間で無相関である雑音(例えば、風および/またはセンサー雑音)の除去;望ましくない方向からのサウンドの抑制;任意の方向からの遠距離音場信号の抑制;直接経路対残響(direct-path-to-reverberation)信号強度の推定(例えば、遠距離音場音源からの干渉の大幅な低減);近距離および遠距離音場音源間の識別を介した非定常雑音の低減;および典型的には利得ベースのアプローチでは達成できない休止中だけでなく近距離音場所望音源活動中の正面干渉体からのサウンドの低減;を含む。
図12Bは、処理されたマルチチャネル信号にボイス活動検出(VAD)動作を実行するタスクT500を含む方法M100の実施形態M130の流れ図を示す。図13Aは、処理されたマルチチャネル信号からの情報に基づいて雑音推定値を更新し、そしてボイス活動検出動作を含み得るタスクT600を含む方法M100の実施形態M140の流れ図を示す。
近距離音場および遠距離音場音源からのサウンド間を弁別する信号処理方式を実現する(例えば、より良好な雑音低減のために)ことが望ましいことができる。このような方式の1つの振幅ベースまたは利得ベースの例は、音源が近距離音場または遠距離音場であるかどうかを決定するために2つのマイクロホン間の圧力傾斜音場(pressure gradient field)を使用する。このような技法は近距離音場無音時に遠距離音場音源からの雑音を減らすために有用であり得るが、両音源が活動しているときには近距離音場信号と遠距離音場信号との間の弁別をサポートしない可能性がある。
特定の角度範囲内に一貫性のあるピックアップを用意することが望ましいことができる。例えば、特定の範囲(例えば、マイクロホンアレイの軸に関して60度の範囲)内のすべての近距離音場信号を受け入れて、他のすべて(例えば、70度以上の角度における音源からの信号)を減衰させることが望ましいことができる。ビーム形成およびBSSによれば、角度的減衰は典型的にはこのような範囲に亘って一貫性のあるピックアップを防止する。このような方法はまた、後処理動作が再収束する前で、デバイスの方位変化(例えば、回転)後にボイス拒絶という結果を招く可能性もある。本明細書で説明されたような方法M100の実現形態は、所望スピーカーに対する方向がなお許容可能な方向の範囲内にあり、それによって収束遅延に起因するボイス変動および/または期限切れ雑音基準に起因するボイス減衰を防止する限り、デバイスの急激な回転に対して強固である雑音低減方法を取得するために使用され得る。
均衡化されたマルチチャネル信号からの利得差と位相ベースの方向情報とを組み合わせることによって、信号の存在が監視され得るマイクロホンアレイの周りにおいて調整可能な空間領域が選択され得る。異なるサブタスクのための狭いまたは広いピックアップ領域を定義するために利得ベース範囲および/または方向範囲が設定され得る。例えば、所望のボイス活動を検出するためにはより狭い範囲が設定され得るが、雑音低減といった目的のためには選択された領域上のより広い範囲が使用され得る。位相相関および利得差評価の精度はSNRの低下と共に低下する傾向があり、誤警報率を制御するためにそれに応じて閾値および/または決定を調整することは望ましい可能性がある。
処理されたマルチチャネル信号がボイス活動検出(VAD)動作をサポートするためだけに使用されている用途に関して、効果的で正確な雑音低減動作が短縮された雑音低減収束時間で、より敏速に実行され得るように、利得較正が低下した精度レベルで動作することは受入れ可能であり得る。
音源とマイクロホンペアとの間の相対的距離が増加するにつれて、(例えば、残響の増加に起因して)異なる周波数成分の到着方向間のコヒーレンスは減少すると予期され得る。従って、タスクT360において計算されたコヒーレンシー測定値はまた、ある程度、近接度測定値としても役立ち得る。到着方向だけに基づく処理動作とは異なり、例えば本明細書で説明されたようなコヒーレンシー測定の値に基づく時間依存性および/または周波数依存性振幅制御は、ユーザのスピーチまたは他の所望近距離音場音源を同じ方向の遠距離音場音源からの、競合するスピーカーのスピーチといった干渉音から区別するために有効であり得る。方向的コヒーレンシーが距離と共に減少する速度は環境によって変化し得る。例えば、自動車の内部は典型的には極めて残響が大きいので、広い範囲の周波数に亘る方向的コヒーレンシーは、音源からほんの約50センチメートルの範囲内だけで経過時間に亘って信頼できる安定なレベルに維持され得る。このような場合、スピーカーが指向性マスキング関数のパスバンド内に位置する場合でも、後部座席の乗客からのサウンドはコヒーレントでないとして拒絶される可能性がある。検出可能なコヒーレンスの範囲は(例えば、すぐ近くの天井からの反響によって)丈の高いスピーカーに関するこのような状況においても低減されることもあり得る。
処理されたマルチチャネル信号は、BSS、到着遅延または他の指向性SSPといった他の空間選択性処理(SSP)、または近接検出といった距離SSPをサポートするために使用され得る。近接検出はチャネル間の利得差に基づき得る。(例えば、限定された周波数範囲に亘る、および/または多数のピッチ周波数における、コヒーレンスの測定値として)タイムドメインまたは周波数ドメインにおける利得差を計算することが望ましいことができる。
携帯型オーディオセンシング・デバイスのためのマルチマイクロホン雑音低減方式は、ビーム形成アプローチとブラインド音源分離(BSS)アプローチとを含む。このようなアプローチは典型的には、所望の音源(例えば、近距離音場スピーカーのボイス)と同じ方向から到着する雑音を抑制する能力のないことに悩まされる。特に、ヘッドホンおよび中音域音場または遠距離音場のハンドヘルドアプリケーション(例えば、送受話器またはスマートフォンのブラウジングトーク(browse-talk)およびスピーカーフォン・モード)において、マイクロホンアレイによって記録されたマルチチャネル信号は、干渉雑音源からのサウンドおよび/または所望近距離音場の話し手のスピーチの大きな残響を含み得る。特にヘッドホンに関して、ユーザの口までの大きな距離は、方向情報だけを使用して大きく抑制することが困難であり得る正面方向からの多量の雑音をマイクロホンアレイがピックアップすることを可能にする恐れがある。
典型的なBSSまたは汎用サイドローブ・キャンセル(GSC)タイプの技法は、最初に所望のボイスを1つのマイクロホンチャネルに分離し、それからこの分離されたボイスに後処理動作を実行することによって雑音低減を実行する。この手順は音響シナリオ変更の場合に長い収束時間を引き起こす可能性がある。例えば、ブラインド音源分離、GSC、または類似の適応型学習ルールに基づく雑音低減方式は、デバイスユーザ保持パターン(例えば、デバイスとユーザの口との間の方位)の変化時および/または音量の急激な変化時の長い収束時間を示す、および/または環境雑音(例えば、通過車両、公衆アドレス告知(public address announcement))のスペクトルシグネチャー(spectral signature)を示すことができる。残響の大きい環境(例えば、車両内部)では適応型学習方式はトラブル収束を有することができる。収束するためのこのような方式の不成功は、この方式に所望の信号成分を拒絶させることができる。ボイス通信の用途において、このような拒絶はボイス歪みを増大させることができる。
デバイスユーザ保持パターンの変化に対するこのような方式の強固さを向上させるためには、および/または収束時間を高速化するためには、より迅速な初期雑音低減応答を供与するためにデバイスの周りの空間ピックアップ領域を限定することが望ましいことができる。このような方法は、ある角度方向に対する(例えば、マイクロホンアレイの軸といったデバイスの基準方向に関する)弁別によって限定された空間ピックアップ領域を定義するためにマイクロホン間の、および/または近距離および遠距離音場音源からの信号成分間の、位相および利得関係を活用するように構成され得る。常に基準線初期雑音低減を示す所望スピーカー方向におけるオーディデバイスの周りの選択領域を有することによって、環境雑音の急激な変化ばかりでなくオーディオデバイスに関する所望ユーザの空間的変化に対する高度の強固さが達成され得る。
均衡化されたチャネル間の利得差は、より良好な正面雑音抑制(例えば、ユーザの前の干渉スピーカーの抑制)といった、より積極的な近距離音場/遠距離音場弁別をサポートし得る近接検出のために使用され得る。マイクロホン間の距離に依存して、均衡化されたマイクロホンチャネル間の利得差は、典型的には音源が50センチメートルまたは1メートル以内にある場合にだけ発生するであろう。
図13Bは、方法M100の実現形態M150の流れ図を示す。方法M150は、処理されたマルチチャネル信号に近接検出動作を実行するタスクT700を含む。例えば、タスクT700は、処理されたマルチチャネル信号のチャネルのレベル間の差がある閾値より大きいとき(代替として、(A)較正されていないチャネルのレベル差と(B)タスクT300の利得係数値との合計がこの閾値より大きいとき)セグメントが所望の音源からであることを検出するように(例えば、ボイス活動の検出を示すように)構成され得る。この閾値は発見的に決定され得るが、また信号対雑音比(SNR)、雑音レベルなどといった1つ以上の因子に依存して異なる閾値を使用することは(例えば、SNRが低いときに高い閾値を使用することは)望ましい可能性がある。図14Aは閾値が高くなるにつれて小さくなる領域を有する、3つの異なる閾値に対応する近接検出領域の境界の例を示す。
スピーカーカバレッジ(speaker coverage)のコーン(cone)を取得するために、またこのゾーンの外側の音源からの非定常雑音を減衰させるために、許容された方向の範囲(例えば、プラスマイナス45度)を近距離音場/遠距離音場近接バブルと組み合わせることが望ましいことができる。このような方法は、音源が許容可能な方向の範囲内にあるときでも遠距離音場音源からのサウンドを減衰させるために使用され得る。例えば、近距離音場/遠距離音場弁別器の積極的調整をサポートするために良好なマイクロホン較正を用意することが望ましいことができる。図14Bは、スピーカーカバレッジのこのようなコーンを取得するために許容可能な方向の範囲(図10に示されているような)と近接バブル(図14Aに示されているような)との交差(太線で示されている)の一例を示す。このような場合、タスクT100において計算された複数の位相差は、所望の範囲内の音源から発生したセグメントを識別するために(例えば、タスクT312、T322、およびT332を参照しながら上記に論じられたような)マスキング関数および/または(例えば、タスクT360を参照しながら上記に論じられたような)コヒーレンシー測定値を使用して許容可能な方向の範囲を強化するために使用され得る。このようなマスキング関数の方向およびプロファイルは、所望の用途に従って選択され得る(例えば、ボイス活動検出のためにはより急峻なプロファイル、または雑音成分の減衰のためにはより平滑なプロファイル)。
上記のように、図2は、ユーザの口に関して標準的な方位にあるユーザの耳に装着されたヘッドホンの上面図を示す。図15および図16は、この用途に適用される図14Bに示されているような音源選択領域境界の上面図および側面図を示す。
ボイス活動検出(VAD)のために近接検出動作(例えば、タスクT700)の結果を使用することは望ましい可能性がある。1つのこのような例では、(例えば、雑音周波数成分および/またはセグメントを減衰させるために)チャネルの1つ以上における利得制御として非2成分改善VAD測定値が適用される。図17Aは、均衡化されたマルチチャネル信号にこのような利得制御動作を実行するタスクT800を含む方法M100の実現形態M160の流れ図を示す。もう1つのこのような例では、(例えば、VAD動作によって雑音として分類された周波数成分またはセグメントを使用して)雑音低減動作のために雑音推定値を計算する(例えば、更新する)ために2成分改善VADが適用される。図17Bは、近接検出動作の結果に基づいて雑音推定値を計算する(例えば、更新する)タスクT810を含む方法M100の実現形態M170の流れ図を示す。図18は、方法M170の実現形態M180の流れ図を示す。方法M180は、更新された雑音推定値に基づくマルチチャネル信号の少なくとも1つのチャネルに雑音低減動作(例えば、スペクトル減算またはWienerフィルタリング動作)を実行するタスクT820を含む。
(例えば、図14Bおよび/または図15および図16に示されているようなバブルを定義する)近接検出動作および方向的コヒーレンス検出動作からの結果は、改善されたマルチチャネルボイス活動検出(VAD)動作を取得するために組み合され得る。この組み合わされたVAD動作は、非ボイスフレームの敏速な拒絶のために、および/または1次マイクロホンチャネル上で動作する雑音低減方式を構築するために、使用され得る。このような方法は、較正とVADのための方向および近接情報を組み合わせることとVA動作の結果に基づいて雑音低減動作を実行することとを含み得る。例えば、近接検出タスクT700の代わりに、方法M160、M170、またはM180においてこのような組み合わされたVAD動作を使用することが望ましいことができる。
典型的な環境における音響雑音は、片言雑音、空港雑音、街頭雑音、競合する話し手のボイス、および/または干渉音源(例えば、TVセットまたはラジオ)からのサウンドを含み得る。その結果、このような雑音は典型的には非定常的であって、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを持つことができる。単一マイクロホン信号から計算されるような雑音パワー(エネルギー)基準信号は通常、単なる近似的定常雑音推定値である。更に、このような計算は一般に、雑音パワー推定遅延を伴うので、サブバンド利得の対応する調整はかなりの遅延後にだけ実行されることができる。環境雑音の信頼できる同時的な推定値を取得することが望ましいことができる。
雑音推定値の例は、単一チャネルVADに基づく単一チャネル長期推定値とマルチチャネルBSSフィルタによって作り出されるような雑音基準とを含む。タスクT810は、1次マイクロホンチャネルの成分および/またはセグメントを分類するために近接検出動作からの(2重チャネル)情報を使用することによって単一チャネル雑音基準を計算するように構成され得る。このような雑音推定は、長期推定を必要としないので他のアプローチより遥かに敏速に利用可能になり得る。この単一チャネル雑音基準は、典型的には非定常雑音の除去をサポートできない長期推定ベースのアプローチとは異なり、非定常雑音も捕捉できる。このような方法は速くて正確な非定常雑音基準を提供し得る。例えば、このような方法は、図14Bに示されているような前方コーン内に存在しないいかなるフレームに関する雑音基準も更新するように構成され得る。雑音基準は(例えば、場合によっては各周波数成分上にある1次スムーザー(first-degree smoother)を使用して)平滑化され得る。近接検出の使用は、このような方法を使用するデバイスが指向性マスキング関数の前方ローブ内に進入する車両の雑音の音響といったすぐ近くの遷移を拒絶することを可能にし得る。
収束するマルチチャネルBSS方式を待つよりむしろ直接1次チャネルから雑音基準を取るようにタスクT810を構成することが望ましいことができる。このような雑音基準は、組み合わされた位相・利得VADを使用するか、単に位相VADを使用して構成され得る。このようなアプローチはまた、スピーカーと電話との間の新しい空間構成に収束しながら、または送受話器が次善の空間構成で使用されているときに、ボイスを減衰させるBSS方式の問題を回避する助けにもなり得る。
上記のようなVAD指示は雑音基準信号の計算をサポートするために使用され得る。例えば、あるフレームが雑音であることをVAD指示が示しているとき、このフレームは雑音基準信号(例えば、1次マイクロホンチャネルの雑音成分のスペクトルプロファイル)を更新するために使用され得る。このような更新は、例えば周波数成分値を時間的に平滑化することによって(例えば、各成分の前の値を現在雑音推定値の対応する成分の値で更新することによって)周波数ドメインにおいて実行され得る。1つの例では、Wienerフィルタは1次マイクロホンチャネルに雑音低減動作を実行するために雑音基準信号を使用する。もう1つの例では、スペクトル減算動作は(例えば、1次マイクロホンチャネルから雑音スペクトルを減算することによって)1次マイクロホンチャネルに雑音低減動作を実行するために雑音基準信号を使用する。あるフレームが雑音でないことをVAD指示が示すときには、このフレームは1次マイクロホンチャネルの信号成分のスペクトルプロファイルを更新するために使用され得るが、このプロファイルも雑音低減動作を実行するためにWienerフィルタによって使用され得る。結果的に行われた動作は、2重チャネルVAD動作を使用する擬似単一チャネル(quasi-single-channel)雑音低減アルゴリズムであると考えられ得る。
チャネル較正が必要とされない(例えば、マイクロホンチャネルが既に均衡化されている)状況においても本明細書で説明されたような近接検出動作が適用され得ることは明らかに注目される。図19Aは、本明細書で説明されたようなタスクT100の事例およびT360と、本明細書で説明されたようなコヒーレンシー測定および近接決定(例えば、図14Bに示されているようなバブル)に基づくVAD動作T900と、を含む全体的構成による方法M300の流れ図を示す。図19Bは、(例えば、タスクT810を参照しながら説明されたような)雑音推定値計算タスクT910を含む方法M300の実現形態M310の流れ図を示し、また図20Aは、(例えば、タスクT820を参照しながら説明されたような)雑音低減タスクT920を含む方法M310の実現形態M320の流れ図を示す。
図20Bは全体的構成による装置G100のブロック図を示す。装置G100は(例えば、タスクT100を参照しながら本明細書で説明されたような)複数の位相差を取得するための手段F100を含む。装置G100はまた、(例えば、タスクT200を参照しながら本明細書で説明されたような)マルチチャネル信号の第1および第2のチャネルのレベルを計算するための手段F200を含む。装置G100はまた、(例えば、タスクT300を参照しながら本明細書で説明されたような)利得係数値を更新するための手段F300を含む。装置G100はまた、(例えば、タスクT400を参照しながら本明細書で説明されたような)更新された利得係数値に基づいて第1のチャネルに関して第2のチャネルの振幅を修正するための手段F400を含む。
図21Aは、全体的構成による装置A100のブロック図を示す。装置A100は(例えば、タスクT100を参照しながら本明細書で説明されたような)マルチチャネル信号のチャネルS10−1およびS10−2から複数の位相差を取得するように構成された位相差計算器100を含む。装置A100はまた、(例えば、タスクT200を参照しながら本明細書で説明されたような)マルチチャネル信号の第1および第2のチャネルのレベルを計算するように構成されたレベル計算器200を含む。装置A100はまた、例えば、タスクT300を参照しながら本明細書で説明されたような)利得係数値を更新するように構成された利得係数計算器300を含む(。装置A100はまた、(例えば、タスクT400を参照しながら本明細書で説明されたような)更新された利得係数値に基づいて第1のチャネルに関して第2のチャネルの振幅を修正することによって処理済みマルチチャネル信号を作り出すように構成された利得制御要素400を含む。
図21Bは、装置A100と;周波数ドメインにおける信号S10−1およびS10−2をそれぞれ作り出すように構成されたFFTモジュールTM10aおよびTM10bと;処理済みマルチチャネル信号に(例えば、本明細書で説明されたような)空間選択性処理動作を実行するように構成された空間選択性処理モジュールSS100と;を含む装置A110のブロック図を示す。図22は装置A100とFFTモジュールTM10aおよびTM10bとを含む装置A120のブロック図を示す。装置A120はまた、(例えば、タスクT700を参照しながら本明細書で説明されたような)処理済みマルチチャネル信号に近接検出動作(例えば、ボイス活動検出動作)を実行するように構成された近接検出モジュール700(例えば、ボイス活動検出器)と;(例えば、タスクT810を参照しながら本明細書で説明されたような)雑音推定値を更新するように構成された雑音基準計算器810と;(例えば、タスクT820を参照しながら本明細書で説明されたような)処理済みマルチチャネル信号の少なくとも1つのチャネルに雑音低減動作を実行するように構成された雑音低減モジュール820と;雑音低減された信号をタイムドメインに変換するように構成された逆FFTモジュールIM10と;を含む。近接検出モジュール700に加えて、または代替として装置A110は、処理済みマルチチャネル信号の方向性処理(例えば、図14Bに示されているような前方ローブに基づくボイス活動検出)のためのモジュールを含み得る。
ある幾つかのマルチチャネル信号処理動作はマルチチャネル出力の各チャネルを作り出すためにマルチチャネルの1つより多いチャネルからの情報を使用する。このような動作の例は、ビーム形成動作とブラインド音源分離(BSS)動作とを含み得る。エコーキャンセル動作は各出力チャネルにおける残留エコーを変える傾向があるので、エコーキャンセルをこのような技法に統合することは困難であり得る。本明細書で説明されているように、方法M100は、マルチチャネル信号の1つ以上のチャネルの各々に(例えば、1次チャネルに)単一チャネル時間および/または周波数依存振幅制御(例えば、雑音低減動作)を実行するために計算された位相差からの情報を使用するように実現され得る。このような単一チャネル動作は、残留エコーが実質的に変わらないままに留まるように実現され得る。その結果、このような雑音低減動作を含む方法M100の一実現形態とのエコーキャンセル動作の統合は、2つ以上のマイクロホンチャネル上で動作する雑音低減動作とのエコーキャンセル動作の統合より容易であり得る。
残留背景雑音を白化する(whiten)ことは望ましい可能性がある。例えば、雑音だけの間隔を識別して、このような間隔中の信号スペクトルを雑音スペクトルプロファイル(例えば、擬似ホワイトまたはピンク・スペクトルプロファイル)に圧縮・伸張または低減するためにVAD動作(例えば、本明細書で説明されたような方向および/または近接度ベースのVAD動作)を使用することが望ましいことができる。このような雑音白化は残留定常雑音レベルの感知を創造することができる、および/または背景内に入れられる、または引っ込む雑音の認知を引き起こすことができる。白化が適用されない間隔(例えば、スピーチ間隔)と白化が適用される間隔(例えば、雑音間隔)との間の遷移を取り扱うために時間的平滑化方式といった平滑化方式を含むことが望ましいことができる。このような平滑化は間隔間の平滑な遷移をサポートする助けとなり得る。
マイクロホン(例えば、MC10およびMC20)がサウンド以外の放射線または放出体(emission)に敏感なトランスデューサとして、より一般的に実現され得ることは明らかに注目される。1つのこのような例では、マイクロホンペアは1対の超音波トランスデューサ(例えば、15、20、25、30、40、または50kHz以上より高い音響周波数に敏感なトランスデューサ)として実現される。
(例えば、図14Bに示されているような前方ローブを識別する)方向的信号処理アプリケーションに関して、スピーチ信号(または、他の所望信号)が方向的にコヒーレントであることが予期され得る特定の周波数成分または周波数範囲を目標にすることが望ましいことができる。指向性雑音(例えば、自動車といった音源からの)および/または拡散雑音といった背景雑音が同じ範囲に亘って方向的にコヒーレントでないことは予期され得る。音声は4から8kHzの範囲内で低いパワーを持つ傾向があるので、4kHzより高くない周波数に関連して方向的コヒーレンスを決定することが望ましいことができる。例えば、約700Hzから約2kHzの範囲に亘って方向的コヒーレンスを決定することが望ましいことができる。
上記のように、限定された周波数範囲に亘る周波数成分の位相差に基づいてコヒーレンシー測定値を計算するようにタスクT360を構成することが望ましいことができる。更に、または代替として、多数のピッチ周波数における周波数成分に基づいてコヒーレンシー測定値を計算するために、タスクT360および/または(特に、図14Bに示されているような前方ローブを定義するといったスピーチアプリケーションのための)別の方向的処理タスクを構成することが望ましいことができる。
発声されたスピーチ(例えば、母音)のエネルギースペクトルは、ピッチ周波数の高調波においてローカルピークを有する傾向がある。他方、背景雑音のエネルギースペクトルは相対的に構造化されない傾向がある。その結果、ピッチ周波数の高調波における入力チャネルの成分は、他の成分より高い信号対雑音比(SNR)を有すると予期され得る。方法M100のスピーチ処理アプリケーション(例えば、ボイス活動検出アプリケーション)のための方向的処理タスクに関して、推定されたピッチ周波数の多数に対応する位相差だけを考慮するようにタスクを構成すること(例えば、前方ローブ識別タスクを構成すること)が望ましいことができる。
典型的ピッチ周波数は、男性話者に関しては約70から100Hz、女性話者に関しては約150から200Hzの範囲にある。現在ピッチ周波数は、ピッチ周期を隣接ピッチピーク(例えば、1次マイクロホンチャネルにおける)間の距離として計算することによって推定され得る。入力チャネルのサンプルは、これのエネルギーの測定値に基づいて(例えば、サンプルエネルギーとフレーム平均エネルギーとの間の比に基づいて)および/またはこのサンプルの近隣が既知のピッチピークの同様な近隣とどれほどよい相関性があるかの測定値に基づいてピッチピークとして識別され得る。ピッチ推定手順は、例えばwww-dot-3gpp-dot-orgにおいてオンラインで利用可能なEVRC(Enhanced Variable Rate Code(改善可変速度コード))文書CS0014−Cのセクション4.6.3(4−44から4−49ページ)に説明されている。(例えば、ピッチ周期または「ピッチラグ」の推定値の形をした)ピッチ周波数の現在推定値は典型的には既に、スピーチ符号化および/または復号を含むアプリケーション(例えば、符号励起線形予測(CELP)および原型波形補間(PWI)といったピッチ推定を含むコーデックを使用するボイス通信)において利用可能であろう。
ピッチ周波数の多数に対応するこれらの位相差だけを考慮することによって、考慮されるべき位相差の数は大幅に削減され得る。更に、これらの選択された位相差が計算される周波数係数は考慮される周波数範囲内の他の周波数係数に関して高いSNRを有することが予期され得る。より一般的な場合では、他の信号特性も考慮され得る。例えば、計算された位相差の少なくとも25、50、または75パーセントが推定ピッチ周波数の多数に対応するように、方向的処理タスクを構成することが望ましいことができる。同じ原理は他の所望高調波信号にも適用され得る。
上記のように、音響信号を受信するように構成された2つ以上のマイクロホンのアレイR100を有する携帯型オーディオセンシング・デバイスを製造することが望ましいことができる。このようなアレイを含むように実現され得る、そしてオーディオレコーディングおよび/またはボイス通信アプリケーションのために使用され得る携帯型オーディオセンシング・デバイスの例は、電話送受話器(例えば、携帯電話送受話器);有線または無線ヘッドホン(例えば、Bluetoothヘッドホン);ハンドヘルド・オーディオおよび/またはビデオレコーダー;オーディオおよび/またはビデオコンテンツを記録するように構成されたパーソナル・メディア・プレーヤー;パーソナル・ディジタル・アシスタント(PDA)または他のハンドヘルド・コンピューティングデバイス;およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、または他の携帯型コンピューティングデバイス;を含む。
アレイR100の各マイクロホンは全方向性、双方向性または一方向性(例えば、心臓形)である応答を持ち得る。アレイR100において使用され得る種々のタイプのマイクロホンは圧電性マイクロホン、動的マイクロホンおよびエレクトレットマイクロホンを含む(限定なしに)。送受話器またはヘッドホンといった携帯型音声通信のためのデバイスでは、アレイR100の隣接マイクロホン間の中心間の間隔は典型的には、約1.5cmから約4.5cmの範囲にあるが、送受話器といったデバイスでは、より大きな間隔(例えば、最大10または15cm)も可能である。補聴器では、アレイR100のマイクロホン間の中心間の間隔は約4または5mmほどに小さい可能性がある。アレイR100のマイクロホンは、1直線に沿って、または代替としてこれらの中心が2次元形状(例えば、3角形)または3次元形状の頂点にあるように、配置され得る。
マルチマイクロホン・オーディオセンシング・デバイス(例えば、本明細書で説明されるようなデバイスD100、D200、D300,D400,D500、またはD600)の動作時に、アレイR100は各チャネルがマイクロホンのうちの音響環境に対応する1つのマイクロホンの応答に基づくマルチチャネル信号を作り出す。1つのマイクロホンはもう1つのマイクロホンより直接的に特定の音を受信し得るので、単一のマイクロホンを使用して捕捉され得るより完全な音響環境の表現をまとめて与えるために、対応するチャネルは互いに異なる。
マルチチャネル信号S10を作り出すために、これらのマイクロホンによって作り出された信号に1つ以上の処理動作をアレイR100が実行することが望ましいことができる。図23Aは、インピーダンス整合、アナログ・ディジタル変換、利得制御、および/またはアナログおよび/またはディジタルドメインにおけるフィルタリングを含み得る(限定なしに)1つ以上のこのような動作を実行するように構成されたオーディオ前処理ステージAP10を含むアレイR100の実現形態R200のブロック図を示す。
図23Bは、アレイR200の実現形態R210のブロック図を示す。アレイR210はアナログ前処理ステージP10aおよびP10bを含むオーディオ前処理ステージAP10の実現形態AP20を含む。1つの例では、ステージP10aおよび10bは各々、対応するマイクロホン信号にハイパスフィルタリング動作を(例えば、50、100または200Hzの遮断周波数で)実行するように構成されている。
アレイR100がマルチチャネル信号をディジタル信号として、すなわち一連のサンプルとして作り出すことが望ましいことができる。アレイR210は例えば、各々が対応するアナログチャネルをサンプリングするように整えられたアナログ・ディジタル変換器(ADC)C10aおよびC10bを含む。音響アプリケーションのための典型的なサンプリングレートは8kHz、12kHz、16kHzの周波数、および約8から約16kHzの範囲内の他の周波数を含むが、約44kHzほどの高いサンプリングレートも使用され得る。この特定の例ではアレイR210はまた各々が、対応するディジタル化されたチャネルに1つ以上の前処理動作(例えば、エコーキャンセル、雑音低減および/またはスペクトル形成)を実行するように構成されたディジタル前処理ステージP20aおよびP20bを含む。
アレイR100のマイクロホンがサウンド以外の放射線または放出体に敏感なトランスデューサとして、より一般的に実現され得ることは明らかに注目される。1つのこのような例では、アレイR100のマイクロホンは超音波トランスデューサ(例えば、15、20、25、30、40、または50kHz以上より高い音響周波数に敏感なトランスデューサ)として実現される。
図24Aは、全体的構成によるデバイスD10のブロック図を示す。デバイスD10は本明細書で開示されたマイクロホンアレイR100のいずれかの実現形態の事例を含み、また本明細書で開示されたオーディオセンシング・デバイスのいずれもデバイスD10の一事例として実現され得る。デバイスD10はまた、コヒーレンシー測定の値を計算するためにアレイR100によって作り出されたマルチチャネル信号を処理するように構成された装置A10の実現形態の一事例を含む。例えば、装置A10は本明細書で開示された方法M100の実現形態のうちのいずれかの実現形態の一事例に従ってマルチチャネルオーディオ信号を処理するように構成され得る。装置A10はハードウエアにおいて、および/またはソフトウエア(例えば、ファームウエア)において実現され得る。例えば、装置A10は、処理されたマルチチャネル信号に上記の空間処理動作(例えば、オーディオセンシング・デバイスと特定の音源との間の距離を決定する、雑音を減らす、特定の方向から到着する信号成分を増強する、および/または他の環境サウンドから1つ以上のサウンド成分を分離する1つ以上の動作)を実行するようにも構成されたデバイスD10のプロセッサ上に実現され得る。上記のような装置A10は装置A10の一事例として実現され得る。
図24Bは、デバイスD10の一実現形態である通信デバイスD20のブロック図を示す。デバイスD20は装置A10を含むチップまたはチップセットCS10(例えば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は装置A10の全部または一部を実行する(例えば、命令として)ように構成され得る1つ以上のプロッセサを含み得る。チップ/チップセットCS10はまたアレイR100の処理要素(例えば、オーディオ前処理ステージAP10の要素)も含み得る。チップ/チップセットCS10は、無線周波数(RF)通信信号を受信してRF信号内の符号化されたオーディオ信号を復号して再生するように構成された受信機と、装置A10によって作り出された処理済み信号に基づくオーディオ信号を符号化してこの符号化されたオーディオ信号を記述するRF通信信号を送信するように構成された送信機と、を含む。例えば、チップ/チップセットCS10の1つ以上のプロセッサは、符号化されたオーディオ信号が雑音低減された信号に基づくようにマルチチャネル信号の1つ以上のチャネルに上記のような雑音低減動作を実行するように構成され得る。
デバイスD20は、アンテナC30を介してRF通信信号を受信および送信するように構成されている。デバイスD20はまた、アンテナC30までの経路にダイプレクサー(diplexer)と1つ以上のパワーアンプとを含み得る。チップ/チップセットCS10はまた、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するようにも構成されている。この例では、デバイスD20はまた、全世界測位システム(GPS)位置探索サービスを、および/または無線(例えば、Bluetooth(商標))ヘッドホンといった外部デバイスとの短距離通信を、サポートするための1つ以上のアンテナC40も含む。もう1つの例では、このような通信デバイスはそれ自身がBluetoothヘッドホンであって、キーパッドC10、ディスプレイC20およびアンテナC30を欠いている。
本明細書で説明されているような装置A10の実現形態はヘッドホンおよび送受話器を含む種々のオーディオセンシング・デバイスに具体化され得る。送受話器実現形態の一例は、マイクロホン間に6.5センチメートル間隔を有するアレイR100の前向き2重マイクロホン実現形態を含む。2重マイクロホン・マスキングアプローチの実現形態は、直接的にスペクトログラムにおけるマイクロホンペアの位相関係を分析することと、望ましくない方向からの時間・周波数ポイントをマスキングすることと、を含み得る。
図25A〜図25Dは、デバイスD10のマルチマイクロホン携帯型オーディオセンシング実現形態D100の種々の図を示す。デバイスD100は、アレイR100の2マイクロホン実現形態を保持するハウジングZ10とこのハウジングから延びるイヤホンZ20とを含む無線ヘッドホンである。このようなデバイスは、(例えば、Bluetooth特別関心グループ社、べレビュー、ワシントン州(Bluetooth Special Interest Group, Inc., Bellevue, WA)によって公表されているBluetooth(商標)プロトコルの1バージョンを使用して)携帯電話送受話器といった電話機デバイスとの通信を介して半二重または全二重電話方式をサポートするように構成され得る。一般に、ヘッドホンのハウジングは、矩形であるか、またはそうでなければ図25A、図25B、および図25Dに示されているように細長くされる(例えば、ミニブームのように形作られる)可能性があり、あるいは、より丸く、円形にさえされ得る。ハウジングはまた、バッテリーとプロセッサおよび/または他の処理回路(例えば、プリント回路基板とこれに搭載された部品)とを収容することもあり、また電気ポート(例えば、ミニ・ユニバーサル・シリアル・バス(UBS)またはバッテリー充電のための他のポート)と1つ以上のボタンスイッチといったユーザインタフェース機構および/またはLEDとを含み得る。典型的には、ハウジングの長軸に沿った長さは1インチから3インチの範囲内にある。
典型的には、アレイR100の各マイクロホンはデバイス内、音響ポートとして役立つハウジングの1つ以上の小さな孔の後方に装着される。図25B〜図25Dは、デバイスD100のアレイの1次マイクロホンのための音響ポートZ40とデバイスD100のアレイの2次マイクロホンのための音響ポートZ50との位置を示す。
ヘッドホンはまた、典型的にはヘッドホンから取り外し可能であるイヤフックZ30といった固定デバイスも含み得る。外部のイヤフックは、例えばユーザがどちらの耳でも使用できるようにヘッドホンを構成することを可能にするために両側使用可能(reversible)であり得る。代替としてヘッドホンのイヤホンは、異なるユーザが特定のユーザの外耳道の外側部分へのより良好な嵌合のために異なるサイズ(例えば、直径)の受話口を使用することを可能にするための取り外し可能な受話口を含み得る内部固定デバイス(例えば、イヤプラグ)としてデザインされ得る。
図26A〜図26Dは、無線ヘッドホンのもう1つの例であるデバイスD10のマルチマイクロホン携帯型オーディオセンシング実現形態D200の種々の図を示す。デバイスD200は、丸い楕円形のハウジングZ12とイヤプラグとして構成され得るイヤホンZ22とを含む。図26A〜図26Dはまた、デバイスD200のアレイの1次マイクロホンのための音響ポートZ42と2次マイクロホンのための音響ポートZ52との位置を示す。2次マイクロホンポートが少なくとも部分的に閉塞され得る(例えば、ユーザインタフェース・ボタンによって)ことはあり得る。
図27Aは、通信送受話器であるデバイスD10のマルチマイクロホン携帯型オーディオセンシング実現形態D300の(中心軸に沿った)断面図を示す。デバイスD300は、1次マイクロホンMC10と2次マイクロホンMC20とを有するアレイR100の一実現形態を含む。この例では、デバイスD300はまた1次ラウドスピーカーSP10および2次ラウドスピーカーSP20も含む。このようなデバイスは、1つ以上の符号化および復号方式(「コーデック」とも呼ばれる)を介して無線でボイス通信を送信および受信するように構成され得る。このようなコーデックの例は、2007年2月の「Enhanced Variable Rate Codec, Speech Service Options 3, 68 and 70 for Wideband Spread Spectrum Digital Systems」(広帯域拡散スペクトル・ディジタルシステムのための改良型可変速度コーデック、スピーチサービスオプション3、68、および70)と題する第3世代パートナーシッププロジェクト2(3GPP2)文書C.S0014−C,v1.0(www-dot-3gpp-dot-orgにおいてオンラインで利用可能);2004年1月の「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」(広帯域拡散スペクトル通信システムのための選択可能モードボコーダ(SMV)サービスオプション)と題する3GPP2文書C.S0030−0,v3.0(www-dot-3gpp-dot-orgにおいてオンラインで利用可能);文書ETSI TS 126092V6.0.0ヨーロッパ電気通信規格協会(European Telecommunications Standards Institute (ETSI)、ソフィア・アンチポリス・セデックス、フランス、2004年12月(Sophia Antipolis Cedex、FR,December 2004)に記載の適応型マルチレー(Adaptive Multi Rate (AMR))スピーチコーデック;および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載のAMR広帯域スピーチコーデック;に記載されたような改良型可変速度コーデックを含む。図3Aの例では、送受話器D300はクラムシェルタイプの携帯電話送受話器(「フリップ」ハンドセットとも呼ばれる)である。このようなマルチマイクロホン通信送受話器の他の構成はバータイプおよびスライダータイプの電話送受話器を含む。図27Bは、第3のマイクロホンMC30を含むアレイR100の3マイクロホン実現形態D310の断面図を示す。
図28Aは、メディアプレーヤーであるデバイスD10のマルチマイクロホン携帯型オーディオセンシング実現形態D400の図を示す。このようなデバイスは、標準的圧縮フォーマット(例えば、Moving Pictures Experts Group (MPEG)-1 Audio Layer 3(MP3)、MPEG-4 Part 14(MP4)、Windows(登録商標)Media Audio/Video(WMA/WMV)(マイクロソフト社、レッドモンド、ワシントン州(Microsoft Corp., Redmond, WA))の1バージョン、国際電気通信連合(International Telecommunication Union)(ITU)−TH.264など)に従って符号化されたファイルまたはストリームといった圧縮されたオーディオまたはオーディオビジュアル情報のプレイバック(再生)のために構成され得る。デバイスD400は、デバイスの前面に配置されたディスプレイスクリーンSC10とラウドスピーカーSP10とを含み、アレイR100のマイクロホンMC10およびMC20はデバイスの同じ面に(例えば、この例のように上面の両反対側に、または正面の両反対側に)配置される。図28BはマイクロホンMC10およびMC20がデバイスの両反対側に配置されたデバイスD400のもう1つの実現形態D410を示し、図28CはマイクロホンMC10およびMC20がデバイスの隣接面に配置されたデバイスD400の更なる実現形態D420を示す。メディアプレーヤーは意図した使用の間中、長軸が水平になっているようにもデザインされ得る。
図29は、ハンズフリーカーキットであるデバイスD10のマルチマイクロホン携帯型オーディオセンシング実現形態D500の図を示す。このようなデバイスは、ダッシュボード、フロントガラス、バックミラー、サンバイザー、または車両のもう1つの内面にまたは内面上に設置されるように、または取り外し可能に固定されるように構成され得る。デバイスD500はラウドスピーカー85とアレイR100の一実現形態とを含む。この特定の例では、デバイスD500は直線状アレイに配置された4個のマイクロホンとしてのアレイR100の実現形態R102を含む。このようなデバイスは上記にリストアップされた例といった1つ以上のコーデックを介して無線でボイス通信データを送信および受信するように構成され得る。代替として、または更に、このようなデバイスは、(例えば、上記のようなBluetooth(商標)プロトコルの1バージョンを使用して)携帯電話送受話器といった電話デバイスとの通信を介して半二重または全二重電話方式をサポートするように構成され得る。
図30は、ハンドヘルドアプリケーションのためのデバイスD10のマルチマイクロホン携帯型オーディオセンシング実現形態D600の図を示す。デバイスD600は、タッチスクリーン・ディスプレイTS10、3個の前部マイクロホンMC10〜MC30、1個の後部マイクロホン、2個のラウドスピーカーSP10およびSP20、左側ユーザインタフェース・コントロール(例えば、選択用)UI10、および右側ユーザインタフェース・コントロール(例えば、ナビゲーション用)UI20を含む。ユーザインタフェース・コントロールの各々は、押しボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティックおよび/または他のポインティングデバイスなどの1つ以上を使用して実現され得る。ブラウジングトーク(browse talk)モードまたはゲームプレイ・モードで使用され得るデバイスD800の典型的なサイズは約15センチメートル×20センチメートルである。本明細書で開示されたシステム、方法、および装置の適用可能性が図25A〜図30に示されている特定の例に限定されないことは明らかに開示されている。このようなステム、方法、および装置が適用され得る携帯型オーディオセンシング・デバイスの他の例は補聴器を含む。
本明細書で開示された方法および装置は一般に、いかなる送受通信アプリケーションおよび/またはオーディオセンシング・アプリケーションにおいても、特に移動通信またはそうでなければこのようなアプリケーションの他の携帯型事例においても適用され得る。例えば、本明細書で開示された構成の範囲は、符号分割多元接続(CDMA)無線インタフェースを使用するように構成された無線電話通信システムに常駐する通信デバイスを含む。それにもかかわらず、本明細書で説明されたような特徴を有する方法および装置が有線および/または無線(例えば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)伝送チャネルに亘ってボイスオーバーIP(VoP)を使用するシステムといった当業者に知られた広範囲の技術を使用する種々の通信システムのいずれにも常駐し得ることは当業者によって理解されるであろう。
本明細書で開示された通信デバイスがパケット交換されるネットワーク(例えば、VoIPといったプロトコルに従ってオーディオ伝送体を搬送するように整えられた有線および/または無線ネットワーク)および/または回線交換されるネットワークにおける使用のために適応し得ることは明確に考えられ、本明細書で開示されている。本明細書で開示された通信デバイスが狭帯域符号化システム(例えば、約4または5kHzのオーディオ周波数範囲を符号化するシステム)での使用のために、および/または全帯域広帯域符号化システムと分割帯域広帯域符号化システムとを含む広帯域符号化システム(例えば、5kHzより高いオーディオ周波数を符号化するシステム)での使用のために、適応し得ることも明確に考えられ、本明細書で開示されている。
本明細書で説明された構成の表現は、いかなる当業者も本明細書で開示された方法および他の構成を行う、または使用することを可能にするために提供されている。本明細書で図示され説明された流れ図、ブロック図および他の構成図は単なる例であってこれらの構成の他の変形版も本開示の範囲内にある。これらの構成に対する種々の修正は可能であり、本明細書で提示された一般的原理は他の構成にも同様に適用され得る。このように、本開示は上記の構成に限定されるようには意図されておらず、むしろ本明細書で任意の仕方で開示されて、出願された添付の請求項に含まれる、オリジナルな開示の一部を形成する原理と新規な特徴とに一致する最も広い範囲に合致させられるべきである。
当業者は、情報および信号が種々の異なる技術および技法のいずれかを使用して表現され得ることを理解しているであろう。例えば、上記の説明全体を通して参照され得るデータ、命令、コマンド、情報、信号、ビット、および記号は、電圧、電流、電磁波、磁界または磁気粒子、光場または光粒子、またはこれらの任意の組合せによって表現され得る。
本明細書で開示されたような構成の実現のための重要なデザイン要件は特に、圧縮されたオーディオまたはオーディオビジュアル情報(例えば、本明細書で識別された例の1つといった圧縮フォーマットに従って符号化されたファイルまたはストリーム)のプレイバックといった計算集中的なアプリケーションまたは広帯域通信(例えば、12、16、または44kHzといた8kHzより高いサンプリングレートでのボイス通信)のためのアプリケーションのために、処理遅延および/または計算の複雑さ(典型的には、1秒当り百万命令単位またはMIPS単位で測定される)を最小にすることを含み得る。
マルチマイクロホン処理システムの目標は、全体的雑音低減において10〜12デシベルを達成すること、所望スピーカーの移動中にも音声のレベルおよびカラーを維持すること、積極的な雑音除去の代わりに雑音が背景に移されたという認識を取得すること、ススピーチの残響除去、および/またはより積極的な雑音低減のための後処理のオプションを取得すること、を含み得る。
本明細書で開示されたANC装置の一実現形態の種々の要素は、意図された用途のために適していると見なされるハードウエア、ソフトウエアおよび/またはファームウエアのいかなる組合せにおいても具体化され得る。例えば、このような要素は、例えば同じチップ上に、または1チップセット内の2つ以上のチップの間に常駐する電子および/または光デバイスとして製造され得る。このようなデバイスの1つの例は、トランジスタまたは論理ゲートといった論理要素の固定された、またはプログラム可能なアレイであり、これらの要素のいずれも1つ以上のこのようなアレイとして実現され得る。これらの要素の任意の2つ以上またはすべては、同じアレイ(単数または複数)内に実現され得る。このようなアレイ(単数または複数)は1つ以上のチップ内に(例えば、2つ以上のチップを含む1つのチップセット内に)実現され得る。
本明細書で開示されたANC装置の種々の実現形態の1つ以上の要素はまた、マイクロプロセッサ、埋め込み型プロセッサ、IPコア、ディジタル信号プロセッサ、FPGA(フィールドプログラマブル・ゲートアレイ)、ASSP(特定アプリケーション向け標準製品)およびASIC(特定アプリケーション向け集積回路)といった論理要素の1つ以上の固定された、またはプログラム可能なアレイを実行するように整えられた命令の1つ以上のセットとして全体的または部分的に実現され得る。本明細書で開示されたような装置の実現形態の種々の要素のいかなるものでも、1つ以上のコンピュータ(例えば、「プロセッサ」とも呼ばれる、命令の1つ以上のセットまたは列を実行するようにプログラムされた1つ以上のアレイを含む機械)として実現されることが可能であり、またこれらの要素のいかなる2つ以上またはすべても、同じこのようなコンピュータ(単数または複数)内に実現され得る。
本明細書で開示されたプロセッサまたは他の処理のための手段は、例えば同じチップ上に、またはチップセット内の2つ以上のチップの間に常駐する電子および/または光デバイスとして製造され得る。このようなデバイスの1つの例は、トランジスタまたは論理ゲートといった論理要素の固定された、またはプログラム可能なアレイであり、これらの要素のいずれも1つ以上のこのようなアレイとして実現され得る。このようなアレイ(単数または複数)は1つ以上のチップ内に(例えば、2つ以上のチップを含む1つのチップセット内に)実現され得る。このようなアレイの例は、マイクロプロセッサ、埋め込み型プロセッサ、IPコア、DSP、FPGA、ASSP、およびASICといった論理要素の1つ以上の固定された、またはプログラム可能なアレイを含む。本明細書で開示されたようなプロセッサまたは他の処理するための手段はまた、1つ以上のコンピュータ(例えば、命令の1つ以上のセットまたは列を実行するようにプログラムされた1つ以上のアレイを含む機械)または他のプロセッサとして具体化されることもあり得る。プロセッサが埋め込まれたデバイスまたはシステム(例えば、オーディオセンシング・デバイス)の他の動作に関連するタスクといったコヒーレンシー検出手順に直接関連しないタスクを実行するために、または命令の他のセットを実行するために、本明細書で説明されたプロセッサが使用されることは可能である。本明細書で開示された方法の一部がオーディオセンシング・デバイスのプロセッサによって実行されることも、またこの方法の他の一部が1つ以上の他のプロセッサのコントロール下で実行されることも可能である。
当業者は、本明細書で開示された構成に関連して説明された種々の例示的モジュール、論理ブロック、回路、およびテストおよび他の動作が電子ハードウエア、コンピュータソフトウエアまたは両者の組合せとして実現され得ることを認めるであろう。このようなモジュール、論理ブロック、回路、および動作は、汎用プロセッサ、ディジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラム可能な論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウエア部品、または本明細書で説明されたような構成を作り出すためにデザインされたこれらの任意の組合せ、によって実現または実行され得る。例えば、このような構成は少なくとも部分的には、配線接続された回路として、または特定用途向け集積回路に製造された回路構成として、または汎用プロセッサまたは他のディジタル信号処理ユニットといった論理要素のアレイによって実行可能な命令である機械可読コードとして不揮発性記憶装置にロードされたファームウエアプログラムまたはデータ記憶媒体からまたはデータ記憶媒体にロードされたソフトウエアプログラムとして、実現され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替としてプロセッサはいかなる従来型プロセッサ、コントローラ、マイクロコントローラ、または状態機械でもあり得る。プロセッサはまた、コンピューティングデバイスの組合せとして、例えばDSPとマイクロプロセッサとの組合せ、複数のプロセッサ、DSPコアと連動する1つ以上のマイクロプロセッサ、または他の任意のこのような構成、としても実現され得る。ソフトウエアモジュールは、RAM(ランダムアクセス・メモリ)、ROM(読取り専用メモリ)、フラッシュRAMといった不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当分野で周知の他の任意の形式の記憶媒体、に常駐し得る。例示的記憶媒体は、この記憶媒体から情報を読取ることができて、この記憶媒体に情報を書き込むことができるプロセッサに連結される。代替として、記憶媒体はプロセッサと一体化され得る。プロセッサおよび記憶媒体はASIC内に常駐し得る。ASICはユーザ端末内に常駐し得る。代替としてプロセッサおよび記憶媒体はユーザ端末内に個別部品として常駐し得る。
本明細書で開示された種々の方法がプロセッサといった論理要素のアレイによって実行され得ること、および本明細書で説明された装置の種々の要素がこのようなアレイ上で実行するようにデザインされたモジュールとして実現され得ることに留意されたい。本明細書で使用されているように、用語「モジュール」または「サブモジュール」は、ソフトウエア、ハードウエア、またはファームウエア形式のコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。多数のモジュールまたはシステムが1つのモジュールまたはシステムに組み合されることが可能であり、また1つのモジュールまたはシステムが同じ機能を実行するために多数のモジュールまたはシステムに分離されることが可能であることは理解されるべきである。ソフトウエアまたは他のコンピュータ実行可能命令に実現されたとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などといった関連タスクを実行するためのコードセグメントである。用語「ソフトウエア」は、ソースコード、アセンブリ言語コード、マシンコード、2進コード、ファームウエア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の1つ以上のセットまたは列、およびこのような例の任意の組合せ、を含むと理解されるべきである。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶され得るか、または搬送波内で具体化されたコンピュータデータ信号によって伝送媒体または通信リンク上で伝送され得る。
本明細書で開示された方法、方式、および技法の実現形態は、論理要素のアレイを含む機械(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)によって読取り可能および/または実行可能な命令の1つ以上のセットとして(例えば、本明細書でリストアップされたような1つ以上のコンピュータ可読媒体に)明確に具体化されることもあり得る。用語「コンピュータ可読媒体」は、揮発性、不揮発性、リムーバブル、およびノンリムーバブル媒体を含む、情報を記憶または移送できる任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気記憶装置、CD−ROM/DVDまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、または所望の情報を記憶するために使用され得るそしてアクセスされ得る他の任意の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、空気、電磁、RFリンクなどといった伝送媒体上を伝播し得るいかなる信号も含み得る。コードセグメントは、インターネットまたはイントラネットといったコンピュータネットワークを介してダウンロードされ得る。いずれの場合にも、本開示の範囲はこのような実施形態によって限定されると解釈されるべきではない。
本明細書で説明された方法のタスクの各々は直接的に、ハードウエアに、またはプロセッサによって実行されるソフトウエアモジュールに、またはこれら2つの組合せに、具体化され得る。本明細書で開示された方法の実現形態の典型的用途では、論理要素(例えば、論理ゲート)のアレイは、この方法の種々のタスクのうちの1つのタスク、または1つより多いタスク、またはすべてのタスクを実行するように構成されている。これらのタスクの1つ以上(場合によってはすべて)はまた、論理要素のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(例えば、コンピュータ)によって読取り可能および/または実行可能であるコンピュータプログラム製品(例えば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどといった1つ以上のデータ記憶媒体)に具体化されたコード(例えば、命令の1つ以上のセット)としても実現され得る。本明細書で開示されたような方法の実現形態のタスクは1つより多いこのようなアレイまたは機械によって実行されることもあり得る。これらまたは他の実現形態ではこれらのタスクは、携帯電話またはこのような通信機能を有する他のデバイスといった無線通信用デバイス内で実行され得る。このようなデバイスは、(例えば、VoIPといった1つ以上のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。例えば、このようなデバイスは符号化されたフレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示された種々の方法が送受話器、ヘッドホン、またはポータブル・ディジタル・アシスタント(PDA)といった携帯型通信デバイスによって実行され得ること、および本明細書で説明された種々の装置がこのようなデバイス内に含まれ得ることは明確に開示されている。典型的なリアルタイム(例えば、オンライン)アプリケーションはこのような移動デバイスを使用して行われる電話の会話である。
1つ以上の例示的実施形態では本明細書で説明された動作は、ハードウエア、ソフトウエア、ファームウエア、またはこれらの任意の組合せにおいて実現され得る。ソフトウエアにおいて実現された場合には、このような動作は1つ以上の命令またはコードとしてコンピュータ可読媒体上に記憶され得るか、またはコンピュータ可読媒体上を伝送され得る。用語「コンピュータ可読媒体」は、1つの場所から他の場所へのコンピュータプログラムの移送を容易にするいかなる媒体も含むコンピュータ記憶媒体および通信媒体の両者を含む。記憶媒体は、コンピュータによってアクセスされ得るいかなる利用可能な媒体でもあり得る。限定ではなく例として、このようなコンピュータ可読媒体は、半導体メモリ(ダイナミックまたはスタティックRAM,ROM、EEPROM、および/またはフラッシュRAMを限定なしに含み得る)、または強誘電性、磁気抵抗性、オボニック(ovonic)、ポリマー、または位相変化メモリ;CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、またはコンピュータによってアクセスされ得る具体的構造の命令またはデータ構造の形をした所望のプログラムコードを記憶するために使用され得る他の任意の媒体;といった記憶要素のアレイを備え得る。また、いかなる接続媒体も適切にコンピュータ可読媒体と名付けられる。例えば、ソフトウエアが同軸ケーブル、光ファイバケーブル、より対線、ディジタル加入者線(DSL)、または赤外線、無線および/またはマイクロ波といった無線技術、を使用してウェブサイト、サーバまたは他の遠隔情報源から送信される場合には、これらの同軸ケーブル、光ファイバケーブル、より対線、DSL、または赤外線、無線および/またはマイクロ波といった無線技術、は媒体の定義に含まれる。本明細書で使用されるようなディスク(disk)およびディスク(disc)はコンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、ディジタル・バーサタイル・ディスク(DVD)、フロッピーディスクおよびブルーレイディスク(Blu-ray Disc(商標))(ブルーレイディスク・アソシエーション、ユニバーサルシティ、カリフォルニア州(Blu-Ray Disc Association, Universal City, CA))を含む。ここで、diskは通常、データを磁気的に再生するが、discはデータをレーザによって光学的に再生する。上記のものの組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
本明細書で説明されたような音響信号処理装置は、ある幾つかの動作を制御するためにスピーチ入力を受け入れる、またはそうでなければ背景雑音からの所望の雑音の分離から利益を得ることがあり得る、通信デバイスといった電子デバイスに組み込まれ得る。多くの用途は、多数の方向から発生する背景サウンドから明瞭な所望のサウンドを増強または分離することから利益を得ることがあり得る。このような用途は、ボイス認識および検出、ボイス増強および分離、ボイス活性化制御などといった機能を組み入れている電子またはコンピューティングデバイスにおける人間・機械インタフェースを含み得る。単に限定された機能を提供するデバイスに適するようにこのような音響信号処理装置を実現することが望ましいことができる。
本明細書で説明されたモジュール、要素、およびデバイスの種々の実現形態の要素は、例えば同じチップ上に、または1つのチップセット内の2つ以上のチップ間に常駐する電子および/または光デバイスとして製造され得る。このようなデバイスの1つの例は、トランジスタまたはゲートといった論理要素の固定された、またはプログラム可能なアレイである。本明細書で説明された装置の種々の実現形態の1つ以上の要素はまた、マイクロプロセッサ、埋め込み型プロセッサ、IPコア、ディジタル信号プロセッサ、FPGA、ASSP、およびASICといった論理要素の1つ以上の固定された、またはプログラム可能なアレイ上で実行するように整えられた命令の1つ以上のセットとして全体的または部分的に実現され得る。
本明細書で説明された装置の実現形態の1つ以上の要素が、この装置の動作に直接的には関連しない他の命令セットを実行するために、またはこの装置が埋め込まれたデバイスまたはシステムの他の動作に関連するタスクといったタスクを実行するために、使用されることは可能である。このような装置の実現形態の1つ以上の要素が、共通した構造(例えば、異なるときに異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なるときに異なる要素に対応するタスクを実行するために実行される1セットの命令、または異なるときに異なる要素に関する動作を実行する電子および/または光デバイスの配置)を有することも可能である。