以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。
図3は、本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す。
オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ301を備える。本例では、マイクロフォンアレイ301はオプションのエコーキャンセラ303に結合され、エコーキャンセラ303は、(1つ又は複数の)マイクロフォン信号におけるエコーに線形的に関係する(基準信号が利用可能である)音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。
エコーキャンセラ303はオプションであり、多くの実施形態において簡単に省略されることが理解されよう。
マイクロフォンアレイ301は、一般に、直接、又はエコーキャンセラ303を介して(並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して)のいずれかで第1のビームフォーマ305に結合される。
第1のビームフォーマ305は、マイクロフォンアレイ301の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ301からの信号を合成するように構成される。したがって、第1のビームフォーマ305は、第1のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ305は適応ビームフォーマであり、その指向性は、第1のビームフォーマ305のビームフォーム動作の、第1のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。
第1のビームフォーマ305は第1の適応器307に結合され、第1の適応器307は、第1のビームフォームパラメータを適応させるように構成される。したがって、第1の適応器307は、ビームがステアリングされ得るように第1のビームフォーマ305のパラメータを適応させるように構成される。
さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ309、311を備え、制約付きビームフォーマ309、311の各々が、マイクロフォンアレイ301の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ301からの信号を合成するように構成される。したがって、制約付きビームフォーマ309、311の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ305と同様に、制約付きビームフォーマ309、311は、各制約付きビームフォーマ309、311の指向性が、制約付きビームフォーマ309、311の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。
したがって、オーディオキャプチャ装置は、第2の適応器313を備え、第2の適応器313は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させ、それにより、これらによって形成されたビームを適応させるように構成される。
したがって、第1のビームフォーマ305と制約付きビームフォーマ309、311の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ305、309、311は、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
たいていの実施形態では、ビームフォームフィルタの各々は、(単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する)単純なディラックパルスではない時間ドメインインパルス応答を有し、むしろ、一般に2ミリ秒、5ミリ秒、10ミリ秒、さらには30ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する。
インパルス応答は、しばしば、複数の係数をもつFIR(有限インパルス応答)フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、第1の適応器307と第2の適応器313とは、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、FIRフィルタは、固定時間オフセット(一般にサンプル時間オフセット)に対応する係数を有し、適応器307、313は、係数値を適応させるように構成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数(たとえば、2つ又は3つのみ)を有するが、これらのタイミングは(も)適応可能である。
単純な可変遅延(又は単純な周波数ドメイン利得/位相調整)であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ305、309、311が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ305、309、311が、一般に反射に対応するさらなる信号経路を含むように適応されることを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び/又は残響環境における性能の改善、並びに/或いは、マイクロフォンアレイ301から離れているオーディオソースのための性能の改善を可能にする。
異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、適応器307、313は、ビームフォーマの出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、(時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける)フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。そのような手法のさらなる詳細は、米国特許第7146012号及び米国特許第7602926号において見つけられ得る。
米国特許第7146012号及び米国特許第7602926号のものなどの手法は、ビームフォーマからのオーディオソース信号z(n)と(1つ又は複数の)雑音基準信号x(n)の両方に基づく適応に基づくことに留意されたい。同じ手法が図3のシステムのために使用されることが理解されよう。
第1のビームフォーマ305と制約付きビームフォーマ309、311とは、詳細には、図1に示され、米国特許第7146012号及び米国特許第7602926号において開示されたビームフォーマに対応するビームフォーマである。
多くの実施形態では、第1のビームフォーマ305及び制約付きビームフォーマ309、311の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のFIRフィルタ構造を有するなどである。
しかしながら、第1のビームフォーマ305及び制約付きビームフォーマ309、311の動作及びパラメータは異なり、特に、制約付きビームフォーマ309、311は、第1のビームフォーマ305が制約されないやり方で制約される。詳細には、制約付きビームフォーマ309、311の適応は、第1のビームフォーマ305の適応とは異なり、詳細には、いくつかの制約を受ける。
詳細には、制約付きビームフォーマ309、311は、適応(ビームフォームフィルタパラメータの更新)が、基準が満たされるときの状況に制約されるという制約を受けるが、第1のビームフォーマ305は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第1の適応器307は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第1のビームフォーマ305によってキャプチャされたオーディオの(又は制約付きビームフォーマ309、311のいずれかの)特性によって制約されない。
制約付きビームフォーマ309、311を適応させるための基準は、後でより詳細に説明される。
多くの実施形態では、第1のビームフォーマ305についての適応レートは、制約付きビームフォーマ309、311についての適応レートよりも高い。したがって、多くの実施形態では、第1の適応器307は、第2の適応器313よりも高速に変動に適応するように構成され、したがって、第1のビームフォーマ305は、制約付きビームフォーマ309、311よりも高速に更新される。これは、たとえば、最大化又は最小化されている値(たとえば、出力信号の信号レベル又は誤差信号の大きさ)の低域フィルタ処理が、第1のビームフォーマ305について、制約付きビームフォーマ309、311についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ(詳細には、ビームフォームフィルタ係数)の更新ごとの最大変化は、第1のビームフォーマ305について、制約付きビームフォーマ309、311よりも高い。
したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束(適応制約付き)ビームフォーマが、この制約を受けない、自走する(free running)より高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。
図3のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。
第1のビームフォーマ305と制約付きビームフォーマ309、311とは、出力プロセッサ315に結合され、出力プロセッサ315は、ビームフォーマ305、309、311から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ305、309、311からのオーディオ出力信号にある。
多くの実施形態では、出力プロセッサ315からの出力信号は、ビームフォーマ305、309、311からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。
したがって、出力プロセッサ315の出力選択及び後処理は、特定用途向けであり、及び/又は、異なる実装形態/実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る(たとえば、最も強いスピーカーが選択される)などである。
ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。
通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、(たとえば出力プロセッサ315によって)オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
図3のシステムでは、第1のビームフォーマ305と制約付きビームフォーマ309、311との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。
この目的で、オーディオキャプチャ装置は、差分プロセッサ317を備え、差分プロセッサ317は、制約付きビームフォーマ309、311のうちの1つ又は複数と第1のビームフォーマ305との間の差分測度を決定するように構成される。差分測度は、第1のビームフォーマ305及び制約付きビームフォーマ309、311それぞれによって形成されたビーム間の差分を示す。したがって、第1の制約付きビームフォーマ309についての差分測度は、第1のビームフォーマ305によって形成されるビームと第1の制約付きビームフォーマ309によって形成されるビームとの間の差分を示す。このようにして、差分測度は、2つのビームフォーマ305、309がどのくらい密接に同じオーディオソースに適応されるかを示す。
異なる実施形態及び適用例では異なる差分測度が使用される。
いくつかの実施形態では、差分測度は、異なるビームフォーマ305、309、311からの生成されたビームフォーミングされたオーディオ出力に基づいて決定される。一例として、単純な差分測度は、単に、第1のビームフォーマ305及び第1の制約付きビームフォーマ309の出力の信号レベルを測定し、これらを互いに比較することによって生成される。信号レベルが互いに近くなるほど、差分測度は低くなる(一般に、差分測度はまた、たとえば第1のビームフォーマ305の実際の信号レベルの関数として増加する)。
より好適な差分測度が、多くの実施形態では、第1のビームフォーマ305及び第1の制約付きビームフォーマ309からのビームフォーミングされたオーディオ出力間の相関を決定することによって生成される。相関値が高くなるほど、差分測度は低くなる。
代替又は追加として、差分測度は、第1のビームフォーマ305のビームフォームパラメータと第1の制約付きビームフォーマ309のビームフォームパラメータとの比較に基づいて決定される。たとえば、所与のマイクロフォンについての第1のビームフォーマ305のビームフォームフィルタ及び第1の制約付きビームフォーマ309のビームフォームフィルタの係数は、2つのベクトルによって表される。次いで、これらの2つのベクトルの差分ベクトルの大きさが計算される。プロセスはすべてのマイクロフォンについて繰り返され、合成された、又は平均的な大きさが、距離測度として決定され、使用される。したがって、生成された差分測度は、ビームフォームフィルタの係数が第1のビームフォーマ305と第1の制約付きビームフォーマ309とについてどのくらい異なるかを反映し、これは、ビームについての差分測度として使用される。
したがって、図3のシステムでは、第1のビームフォーマ305のビームフォームパラメータと第1の制約付きビームフォーマ309のビームフォームパラメータとの間の差分及び/又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。
差分測度を生成すること、決定すること、及び/又は使用することは、類似性測度を生成すること、決定すること、及び/又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、したがって、差分測度は類似性測度でもあり(その逆も同様)、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。
差分プロセッサ317は、第2の適応器313に結合され、これに差分測度を与える。第2の適応器313は、差分測度に応答して制約付きビームフォーマ309、311を適応させるように構成される。詳細には、第2の適応器313は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。したがって、所与の制約付きビームフォーマ309、311についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ309、311についての決定された差分測度が、第1のビームフォーマ305のビームと所与の制約付きビームフォーマ309、311のビームとが十分に類似していないことを示す場合、適応は実行されない。
したがって、図3のオーディオキャプチャ装置では、制約付きビームフォーマ309、311は、ビームの適応において制約される。詳細には、制約付きビームフォーマ309、311は、制約付きビームフォーマ309、311によって形成された現在のビームが、自走する第1のビームフォーマ305が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ309、311は、第1のビームフォーマ305が個々の制約付きビームフォーマ309、311に十分に近くなるように現在適応されている場合のみ適応される。
これの結果は、制約付きビームフォーマ309、311の適応が第1のビームフォーマ305の動作によって制御され、それにより、効果的に、第1のビームフォーマ305によって形成されたビームが、制約付きビームフォーマ309、311のうちのどちらが最適化/適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ309、311は、所望のオーディオソースが制約付きビームフォーマ309、311の現在の適応に近いときのみ適応される傾向がある。
適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。
多くの実施形態では、適応の制約は、さらなる要件を条件とする。
たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。したがって、個々の制約付きビームフォーマ309、311のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。
異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。
いくつかの実施形態では、制約付きビームフォーマ309、311の適応は、制約付きビームフォーマ309、311の出力において、いつスピーチスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。
図3~図5のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。したがって、連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ305、309、311は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ309、311を選択し、この制約付きビームフォーマ309、311を更新する/適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、5ミリ秒から50ミリ秒の間の持続時間を有する。
いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ309、311の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。
多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力におけるポイントオーディオソースの検出に依存する。したがって、多くの実施形態では、オーディオキャプチャ装置は、図4に示されているようにオーディオソース検出器401をさらに備える。
オーディオソース検出器401は、詳細には、多くの実施形態において、第2のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するように構成され、したがって、オーディオソース検出器401は、制約付きビームフォーマ309、311に結合され、オーディオソース検出器401は、これらから、ビームフォーミングされたオーディオ出力を受信する。
音響におけるオーディオポイントソース(audio point source)は、空間におけるポイントから発生する音である。オーディオソース検出器401は、所与の制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力においてポイントオーディオソースが存在するかどうかを推定(検出)するために異なるアルゴリズム又は基準を使用し、当業者は様々なそのような手法に気づくことが理解されよう。
手法は、詳細には、マイクロフォンアレイ301のマイクロフォンによってキャプチャされた単一の又は支配的なポイントソースの特性を識別することに基づく。単一の又は支配的なポイントソースは、たとえば、マイクロフォン上の信号間の相関を調べることによって検出され得る。高い相関がある場合、支配的なポイントソースが存在すると考えられる。相関が低い場合、支配的なポイントソースがないが、キャプチャされた信号が多くの無相関ソースから発生すると考えられる。したがって、多くの実施形態では、ポイントオーディオソースは、空間的に相関するオーディオソースであると考えられ、ここで、空間的相関は、マイクロフォン信号の相関によって反映される。
この場合は、相関は、ビームフォームフィルタによるフィルタ処理の後に決定される。詳細には、制約付きビームフォーマ309、311のビームフォームフィルタの出力の相関が決定され、これが所与のしきい値を超える場合、ポイントオーディオソースが検出されたと考えられる。
他の実施形態では、ポイントソースは、ビームフォーミングされたオーディオ出力のコンテンツを評価することによって検出される。たとえば、オーディオソース検出器401は、ビームフォーミングされたオーディオ出力を分析し、十分な強度のスピーチスピーチ成分がビームフォーミングされたオーディオ出力において検出された場合、これはポイントオーディオソースに対応すると考えられ、したがって、強いスピーチスピーチ成分の検出はポイントオーディオソースの検出であると考えられる。
検出結果はオーディオソース検出器401から第2の適応器313に受け渡され、第2の適応器313は、これに応答して適応を適応させるように構成される。詳細には、第2の適応器313は、ポイントオーディオソースが検出されたことをオーディオソース検出器401が示す制約付きビームフォーマ309、311のみを適応させるように構成される。
したがって、オーディオキャプチャ装置は、形成されたビームにおいてポイントオーディオソースが存在する制約付きビームフォーマ309、311のみが適応され、その形成されたビームが第1のビームフォーマ305によって形成されたビームに近くなるように、制約付きビームフォーマ309、311の適応を制約するように構成される。したがって、適応は、一般に、すでに(所望の)ポイントオーディオソースに近い制約付きビームフォーマ309、311に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ309、311を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。
多くの実施形態では、オーディオキャプチャ装置は、一度に1つの制約付きビームフォーマ309、311のみを適応させるように構成される。したがって、第2の適応器313は、各適応時間間隔において、制約付きビームフォーマ309、311のうちの1つを選択し、ビームフォームパラメータを更新することによってこれのみを適応させる。
単一の制約付きビームフォーマ309、311の選択は、一般に、形成された現在のビームが第1のビームフォーマ305によって形成されたビームに近い場合、及びポイントオーディオソースがビームにおいて検出された場合のみ適応のために制約付きビームフォーマ309、311を選択するとき、自動的に行われる。
しかしながら、いくつかの実施形態では、複数の制約付きビームフォーマ309、311が同時に基準を満たすことが可能である。たとえば、ポイントオーディオソースが、2つの異なる制約付きビームフォーマ309、311によってカバーされた領域の近くに配置される(又は、たとえば、ポイントオーディオソースがそれらの領域の重複するエリア中にある)場合、ポイントオーディオソースは両方のビームにおいて検出され、これらは両方とも、両方がポイントオーディオソースのほうへ適応されることによって、互いに近くなるように適応される。
したがって、そのような実施形態では、第2の適応器313は、2つの基準を満たす制約付きビームフォーマ309、311のうちの1つを選択し、この1つのみを適応させる。これは、2つのビームが同じポイントオーディオソースのほうへ適応される危険を低減し、したがって、これらの動作が互いに干渉する危険を低減する。
実際、対応する差分測度が十分に低くなければならないという制約の下で制約付きビームフォーマ309、311を適応させることと、(たとえば、各処理時間間隔/フレームにおける)適応のために単一の制約付きビームフォーマ309、311のみを選択することとにより、適応は、異なる制約付きビームフォーマ309、311間で差別化される。これにより、制約付きビームフォーマ309、311は異なる領域をカバーするように適応され、第1のビームフォーマ305によって検出されたオーディオソースを適応させ/それに従うように、最も近い制約付きビームフォーマ309、311が自動的に選択される傾向がある。しかしながら、たとえば図2の手法とは対照的に、領域は、固定及び所定ではなく、むしろ、動的に及び自動的に形成される。
また、領域は、複数の経路のためのビームフォーミングに依存し、一般に、到来角度方向(angular direction of arrival)領域に限定されないことに留意されたい。たとえば、領域は、マイクロフォンアレイまでの距離に基づいて差別化される。したがって、領域という用語は、差分測度についての類似性要件を満たす適応が生じるオーディオソースの空間における位置を指すと考えられる。したがって、それは、直接経路の考慮だけでなく、たとえば、反射が、ビームフォームパラメータにおいて考慮され、特に、空間的側面と時間的側面の両方に基づいて決定される(及び詳細には、ビームフォームフィルタの完全なインパルス応答に依存する)場合、反射の考慮をも含む。
単一の制約付きビームフォーマ309、311の選択は、詳細には、キャプチャされたオーディオレベルに応答したものである。たとえば、オーディオソース検出器401は、基準を満たす制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力の各々のオーディオレベルを決定し、オーディオソース検出器401は、最も高いレベルを生じる制約付きビームフォーマ309、311を選択する。いくつかの実施形態では、オーディオソース検出器401は、ビームフォーミングされたオーディオ出力において検出されたポイントオーディオソースが最も高い値を有する制約付きビームフォーマ309、311を選択する。たとえば、オーディオソース検出器401は、2つの制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力においてスピーチスピーチ成分を検出し、続いて、最も高いレベルのスピーチスピーチ成分を有する制約付きビームフォーマを選択する。
本手法では、したがって、制約付きビームフォーマ309、311の極めて選択的な適応が実行され、それは、これらが特定の状況においてのみ適応することにつながる。これは、制約付きビームフォーマ309、311による極めてロバストなビームフォーミングを与え、これにより、所望のオーディオソースのキャプチャの改善が生じる。しかしながら、多くのシナリオでは、また、ビームフォーミングにおける制約により、適応性がより低速になり、実際、多くの状況において、新しいオーディオソース(たとえば新しいスピーカー)が、検出されないか、又は極めて低速にのみ適応されることになる。
図5は図4のオーディオキャプチャ装置を示すが、第2の適応器313及びオーディオソース検出器401に結合されるビームフォーマコントローラ501が加えられている。ビームフォーマコントローラ501は、いくつかの状況において制約付きビームフォーマ309、311を初期化するように構成される。詳細には、ビームフォーマコントローラ501は、第1のビームフォーマ305に応答して制約付きビームフォーマ309、311を初期化することができ、詳細には、第1のビームフォーマ305のビームに対応するビームを形成するために制約付きビームフォーマ309、311のうちの1つを初期化することができる。
ビームフォーマコントローラ501は、詳細には、これ以降第1のビームフォームパラメータと呼ばれる、第1のビームフォーマ305のビームフォームパラメータに応答して、制約付きビームフォーマ309、311のうちの1つのビームフォームパラメータを設定する。いくつかの実施形態では、制約付きビームフォーマ309、311のフィルタと第1のビームフォーマ305のフィルタとは同等であり、たとえば、それらは同じアーキテクチャを有する。特定の例として、制約付きビームフォーマ309、311のフィルタと第1のビームフォーマ305のフィルタの両方は、同じ長さ(すなわち、所与の数の係数)をもつFIRフィルタであり、第1のビームフォーマ305のフィルタからの現在適応されている係数値は、単に、制約付きビームフォーマ309、311にコピーされ、すなわち、制約付きビームフォーマ309、311の係数は第1のビームフォーマ305の値に設定される。このようにして、制約付きビームフォーマ309、311は、第1のビームフォーマ305によって現在適応されているものと同じビーム特性で初期化される。
いくつかの実施形態では、制約付きビームフォーマ309、311のフィルタの設定は、第1のビームフォーマ305のフィルタパラメータから決定されるが、これらを直接使用するのではなく、それらは、適用される前に適応される。たとえば、いくつかの実施形態では、FIRフィルタの係数は、第1のビームフォーマ305のビームよりも広くなる(ただし、たとえば同じ方向に形成される)ように制約付きビームフォーマ309、311のビームを初期化するために変更される。
ビームフォーマコントローラ501は、多くの実施形態において、したがって、いくつかの状況において、第1のビームフォーマ305のビームに対応する初期ビームで制約付きビームフォーマ309、311のうちの1つを初期化する。本システムは、続いて、前に説明されたように制約付きビームフォーマ309、311を扱い、詳細には、続いて、制約付きビームフォーマ309、311が前に説明された基準を満たすとき、それを適応させる。
制約付きビームフォーマ309、311を初期化するための基準は、異なる実施形態において異なる。
多くの実施形態では、ビームフォーマコントローラ501は、ポイントオーディオソースの存在が第1のビームフォーミングされたオーディオ出力において検出されるが、制約付きのビームフォーミングされたオーディオ出力において検出されない場合、制約付きビームフォーマ309、311を初期化するように構成される。
したがって、オーディオソース検出器401は、ポイントオーディオソースが、制約付きビームフォーマ309、311又は第1のビームフォーマ305のいずれかからのビームフォーミングされたオーディオ出力のいずれかにおいて存在するかどうかを決定する。各ビームフォーミングされたオーディオ出力についての検出/推定結果は、ビームフォーマコントローラ501にフォワーディングされ、ビームフォーマコントローラ501はこれを評価する。ポイントオーディオソースが、第1のビームフォーマ305についてのみ検出され、制約付きビームフォーマ309、311のいずれについても検出されない場合、これは、スピーカーなどのポイントオーディオソースが存在し、第1のビームフォーマ305によって検出されるが、制約付きビームフォーマ309、311のいずれもポイントオーディオソースを検出しなかったか、又はポイントオーディオソースに適応されなかった状況を反映する。この場合、制約付きビームフォーマ309、311は、ポイントオーディオソースに決して適応しない(又は極めて低速にのみ適応する)。したがって、制約付きビームフォーマ309、311のうちの1つは、ポイントオーディオソースに対応するビームを形成するために初期化される。その後、このビームは、ポイントオーディオソースに十分に近い可能性があり、それは、(一般に低速に、ただし確実に)この新しいポイントオーディオソースに適応する。
したがって、本手法は、高速の第1のビームフォーマ305と確実な制約付きビームフォーマ309、311の両方の有利な効果を合成し、与える。
いくつかの実施形態では、ビームフォーマコントローラ501は、制約付きビームフォーマ309、311についての差分測度がしきい値を超える場合のみ、制約付きビームフォーマ309、311を初期化するように構成される。詳細には、制約付きビームフォーマ309、311についての最も低い決定された差分測度がしきい値を下回る場合、初期化は実行されない。そのような状況では、制約付きビームフォーマ309、311の適応が所望の状況により近いが、第1のビームフォーマ305のあまり確実でない適応があまり正確でなく、第1のビームフォーマ305により近くなるように適応することが可能である。したがって、差分測度が十分に低いそのようなシナリオでは、システムが自動的に適応することを試みることを可能にすることが有利である。
いくつかの実施形態では、ビームフォーマコントローラ501は、詳細には、ポイントオーディオソースが第1のビームフォーマ305と制約付きビームフォーマ309、311のうちの1つとの両方について検出されたが、これらについての差分測度が類似性基準を満たすことができないとき、制約付きビームフォーマ309、311を初期化するように構成される。詳細には、ビームフォーマコントローラ501は、ポイントオーディオソースが第1のビームフォーマ305からのビームフォーミングされたオーディオ出力と制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力の両方において検出され、これらについての差分測度がしきい値を超える場合、第1のビームフォーマ305のビームフォームパラメータに応答して第1の制約付きビームフォーマ309、311についてのビームフォームパラメータを設定するように構成される。
そのようなシナリオは、制約付きビームフォーマ309、311が場合によってはポイントオーディオソースに適応し、ポイントオーディオソースをキャプチャしたが、そのポイントオーディオソースは、第1のビームフォーマ305によってキャプチャされたポイントオーディオソースとは異なる状況を反映する。したがって、そのようなシナリオは、詳細には、制約付きビームフォーマ309、311が「間違った」ポイントオーディオソースをキャプチャしたことを反映する。したがって、制約付きビームフォーマ309、311は、所望のポイントオーディオソースのほうへビームを形成するために再初期化される。
いくつかの実施形態では、アクティブである制約付きビームフォーマ309、311の数は、変動している。たとえば、オーディオキャプチャ装置は、潜在的に比較的多数の制約付きビームフォーマ309、311を形成するための機能を備える。たとえば、オーディオキャプチャ装置は、最高で、たとえば、8つの同時の制約付きビームフォーマ309、311を実装する。しかしながら、たとえば電力消費及び計算負荷を低減するために、これらのすべてが同時にアクティブであるとは限らない。
したがって、いくつかの実施形態では、制約付きビームフォーマ309、311のアクティブセットが、ビームフォーマのより大きいプールから選択される。これは、詳細には、制約付きビームフォーマ309、311が初期化されるときに行われる。したがって、上記で与えられた例では、(たとえば、ポイントオーディオソースが、アクティブな制約付きビームフォーマ309、311において検出されない場合の)制約付きビームフォーマ309、311の初期化は、プールからのアクティブでない制約付きビームフォーマ309、311を初期化し、それにより、アクティブな制約付きビームフォーマ309、311の数を増加させることによって、達成される。
プール中のすべての制約付きビームフォーマ309、311が現在アクティブである場合、制約付きビームフォーマ309、311の初期化は、現在アクティブな制約付きビームフォーマ309、311を初期化することによって行われる。初期化されるべき制約付きビームフォーマ309、311は、任意の好適な基準に従って選択される。たとえば、最も大きい差分測度又は最も低い信号レベルを有する制約付きビームフォーマ309、311が選択される。
いくつかの実施形態では、制約付きビームフォーマ309、311は、好適な基準が満たされたことに応答して非アクティブ化される。たとえば、制約付きビームフォーマ309、311は、差分測度が所与のしきい値を上回って増加した場合、非アクティブ化される。
上記で説明された例の多くに従って制約付きビームフォーマ309、311の適応及び設定を制御するための特定の手法が、図6のフローチャートによって示されている。
本方法は、次の処理時間間隔を初期化すること(たとえば、次の処理時間間隔の開始を待つこと、処理時間間隔のためのサンプルのセットを集めることなど)によって、ステップ601において開始する。
ステップ601の後にステップ603が続き、制約付きビームフォーマ309、311のビームのいずれかにおいて検出されたポイントオーディオソースがあるかどうかが決定される。
制約付きビームフォーマ309、311のビームのいずれかにおいて検出されたポイントオーディオソースがある場合、本方法はステップ605において続き、差分測度が類似性基準を満たすかどうか、詳細には、差分測度がしきい値を下回るかどうかが決定される。
差分測度が類似性基準を満たす場合、本方法はステップ607において続き、ポイントオーディオソースが検出された(又は、ポイントオーディオソースが2つ以上の制約付きビームフォーマ309、311において検出された場合には最も大きい信号レベルを有する)制約付きビームフォーマ309、311が適応され、すなわち、ビームフォーム(フィルタ)パラメータが更新される。
差分測度が類似性基準を満たさない場合、本方法はステップ609において続き、制約付きビームフォーマ309、311が初期化され、制約付きビームフォーマ309、311のビームフォームパラメータは、第1のビームフォーマ305のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ309、311は、新しい制約付きビームフォーマ309、311(すなわち、非アクティブなビームフォーマのプールからのビームフォーマ)であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ309、311である。
ステップ607及びステップ609のいずれかに続いて、本方法はステップ601に戻り、次の処理時間間隔を待つ。
ステップ603において、ポイントオーディオソースが制約付きビームフォーマ309、311のいずれかのビームフォーミングされたオーディオ出力において検出されなかったことが検出された場合、本方法はステップ611に進み、ポイントオーディオソースが第1のビームフォーマ305において検出されたかどうか、すなわち、現在のシナリオが、ポイントオーディオソースが第1のビームフォーマ305によってキャプチャされたが制約付きビームフォーマ309、311のいずれによってもキャプチャされていないことに対応するかどうかが決定される。
ポイントオーディオソースが第1のビームフォーマ305において検出されない場合、ポイントオーディオソースはまったく検出されず、本方法はステップ601に戻って、次の処理時間間隔を待つ。
他の場合、本方法はステップ613に進み、差分測度が類似性基準を満たすかどうか、詳細には、差分測度が(ステップ605において使用されるものと同じであるか、又は異なるしきい値/基準である)しきい値を下回るかどうかが決定される。
差分測度が類似性基準を満たす場合、本方法はステップ615に進み、差分測度がしきい値を下回る制約付きビームフォーマ309、311が適応される(又は、2つ以上の制約付きビームフォーマ309、311が基準を満たす場合、たとえば最も低い差分測度をもつものが選択される)。
他の場合、本方法はステップ617に進み、制約付きビームフォーマ309、311が初期化され、制約付きビームフォーマ309、311のビームフォームパラメータは、第1のビームフォーマ305のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ309、311は、新しい制約付きビームフォーマ309、311(すなわち、非アクティブなビームフォーマのプールからのビームフォーマ)であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ309、311である。
ステップ615及びステップ617のいずれかに続いて、本方法はステップ601に戻り、次の処理時間間隔を待つ。
図3のオーディオキャプチャ装置の説明された手法は、多くのシナリオにおいて有利な性能を与え、特に、オーディオキャプチャ装置が、オーディオソースをキャプチャするために、集束された、ロバストで正確なビームを動的に形成することを可能にする傾向がある。ビームは、異なる領域をカバーするように適応される傾向があり、本手法は、たとえば、最も近い制約付きビームフォーマ309、311を自動的に選択し、適応させる。
したがって、たとえば図2の手法とは対照的に、ビーム方向又はフィルタ係数に関する特定の制約が直接課される必要がない。むしろ、支配的な単一のオーディオソースがあるとき、及びそれが制約付きビームフォーマ309、311のビームに十分に近いときのみ、制約付きビームフォーマ309、311を(条件付きで)適応させることによって、別個の領域が自動的に生成/形成され得る。これは、詳細には、直接場と(第1の)反射の両方を考慮に入れるフィルタ係数を考慮することによって決定され得る。
(単純な遅延フィルタ、すなわち、単一係数フィルタを使用することとは対照的に)拡張インパルス応答をもつフィルタを使用することは、直接場の後ある(特定の)時間が経って反射が到着することをも考慮に入れることに留意されたい。したがって、ビームは、空間的特性(直接場及び反射がどの方向から到着するか)によって決定されるだけでなく、時間的特性(直接場が到着した後のどの時間において反射が到着するか)によっても決定される。したがって、ビームへの言及は、単に空間的考慮事項に制限されるだけでなく、ビームフォームフィルタの時間成分をも反映する。同様に、領域への言及は、ビームフォームフィルタの純粋に空間的な効果と時間的な効果の両方を含む。
したがって、本手法は、第1のビームフォーマ305の自走するビームと制約付きビームフォーマ309、311のビームとの間の距離測度の差分によって決定される領域を形成すると考えられ得る。たとえば、制約付きビームフォーマ309、311が(空間的特性と時間的特性の両方をもつ)ソースに集束されたビームを有すると仮定する。そのソースが無音であり、新しいソースがアクティブになり、第1のビームフォーマ305がこれに集束するように適応すると仮定する。次いで、第1のビームフォーマ305のビームと制約付きビームフォーマ309、311のビームとの間の距離がしきい値を超えないような空間時間的特性をもつあらゆるソースが、制約付きビームフォーマ309、311の領域中にあると考えられ得る。このようにして、第1の制約付きビームフォーマ309に関する制約は、空間における制約に変換されると考えられ得る。
ビームを初期化する(たとえば、ビームフォームフィルタ係数をコピーする)手法とともに、制約付きビームフォーマの適応のための距離基準は、一般に、制約付きビームフォーマ309、311が異なる領域においてビームを形成することを可能にする。
本手法は、一般に、図2の手法のような所定の固定システムではなく、環境におけるオーディオソースの存在を反映する領域の自動形成を生じる。このフレキシブルな手法は、システムが、反射によって引き起こされるものなど、空間時間的特性に基づくことを可能にし、空間時間的特性は、(これらの特性が、部屋のサイズ、形状及び残響特性など、多くのパラメータに依存するので)所定及び固定システムにとって含むことが極めて困難で複雑である。
以下では、差分測度を決定するための特定の手法が図6を参照しながら説明され、図6は、簡潔及び明快のために、マイクロフォンアレイ301と、第1のビームフォーマ305と、制約付きビームフォーマ309のうちの1つである第2のビームフォーマ309と、差分プロセッサ317とを示す。第1のビームフォーマ305の出力は、第1のビームフォーミングされたオーディオ出力信号と呼ばれ、第2のビームフォーマ309の出力は、第2のビームフォーミングされたオーディオ出力信号と呼ばれる。
したがって、第1のビームフォーマ303と第2のビームフォーマ305とは、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。
詳細には、ビームフォーマ305、309は、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
たいていの実施形態では、ビームフォームフィルタの各々は、(単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する)単純なディラックパルスでなく、むしろ、一般に2ミリ秒、5ミリ秒、10ミリ秒、さらには30ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する、時間ドメインインパルス応答を有する。
インパルス応答は、しばしば、複数の係数をもつFIR(有限インパルス応答)フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ305、309は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、FIRフィルタは、固定時間オフセット(一般にサンプル時間オフセット)に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数(たとえば、2つ又は3つのみ)を有するが、これらのタイミングは(も)適応可能である。
単純な可変遅延(又は単純な周波数ドメイン利得/位相調整)であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ305、309が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ305、309が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び/又は残響環境における性能の改善、並びに/或いは、マイクロフォンアレイ301から離れているオーディオソースのための性能の改善を可能にする。
詳細には、ビームフォーマ305、309は、フィルタ合成(特にフィルタ和)ビームフォーマである。図8は、2つのマイクロフォン801のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォン801はビームフォームフィルタ803、805に結合され、ビームフォームフィルタ803、805の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器808において加算される。ビームフォームフィルタ803、805はインパルス応答f1及びf2を有し、インパルス応答f1及びf2は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは3つ以上のマイクロフォンを備え、図8の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。
第1のビームフォーマ303と第2のビームフォーマ305とは、(たとえば、米国特許第7146012号及び米国特許第7602926号のビームフォーマの場合のように)ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ301は3つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ305、309は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ305、309は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。
ビームフォーマとビームとを比較するための従来の手法では、ビーム間の類似性は、生成されたオーディオ出力を比較することによって査定される。たとえば、オーディオ出力間の相互相関が生成され、相関の大きさによってその類似性が示される。いくつかのシステムでは、マイクロフォンペアについてのオーディオ信号を相互相関させ、ピークのタイミングに応答してDoAを決定することによって、DoAが決定される。
図7のシステムでは、差分測度は、単に、ビームフォーマからのビームフォーミングされたオーディオ出力信号であるのか入力マイクロフォン信号であるのかにかかわらず、オーディオ信号の特性又は比較に基づいて決定されるだけでなく、むしろ、図7のオーディオキャプチャ装置の差分プロセッサ317は、第1のビームフォーマ305のビームフォームフィルタのインパルス応答と第2のビームフォーマ309のビームフォームフィルタのインパルス応答との比較に応答して差分測度を決定するように構成される。
図7のシステムでは、第1のビームフォーマ305のためのビームフォームフィルタのパラメータは、第2のビームフォーマ309のビームフォームフィルタのパラメータと比較される。次いで、これらのパラメータが互いにどのくらい近いかを反映するために差分測度が決定される。詳細には、各マイクロフォンについて、第1のビームフォーマ305の対応するビームフォームフィルタと第2のビームフォーマ309の対応するビームフォームフィルタとが互いに比較されて、中間差分測度が生成される。次いで、中間差分測度は単一の差分測度に合成され、差分プロセッサ317から出力される。
比較されているビームフォームパラメータは、一般に、フィルタ係数である。詳細には、ビームフォームフィルタは、FIRフィルタ係数のセットによって定義される時間ドメインインパルス応答を有するFIRフィルタである。差分プロセッサ317は、フィルタ間の相関を決定することによって第1のビームフォーマ305の対応するフィルタと第2のビームフォーマ309の対応するフィルタとを比較するように構成される。相関値が最大相関として決定される(すなわち、相関を最大化する時間オフセットについての相関値)。
差分プロセッサ317は、次いで、たとえば、単にこれらを一緒に加算することによって、すべてのこれらの個々の相関値を単一の差分測度に合成する。他の実施形態では、たとえば、より大きい係数をより低い係数よりも高く重み付けすることによって、重み付き合成(weighted combination)が実行される。
そのような差分測度がフィルタの増加する相関について増加する値を有し、したがって、より高い値が差分の増加ではなくビームの類似性の増加を示すことが理解されよう。しかしながら、増加する差分について差分測度が増加することが望まれる実施形態では、単調減少関数が、単に、合成された相関に適用され得る。
オーディオ信号(ビームフォーミングされたオーディオ出力信号又はマイクロフォン信号)に基づくのではなくビームフォームフィルタのインパルス応答の比較に基づく差分測度の決定は、多くのシステム及び適用例において有意な利点を与える。特に、本手法は、一般に、はるかに改善された性能を与え、実際、残響オーディオ環境において適用するのに適しており、特に残響半径外のオーディオソースを含む、より離れた距離にあるオーディオソースに適している。実際、本手法は、オーディオソースからの直接経路が支配的でなく、むしろ、直接経路、及び場合によっては早期反射が、たとえば拡散音場によって支配されるシナリオにおいて、はるかに改善された性能を与える。特に、そのようなシナリオでは、オーディオ信号に基づく差分推定は、音場の空間的及び時間的特性に大きく左右されるが、フィルタベース手法は、フィルタパラメータに基づくビームのより直接的な査定を可能にし、これは、直接音場/経路を反映するだけでなく、(早期反射を考慮に入れるために延長された持続時間を有するインパルス応答により)直接音場/経路及び早期反射も反映するように適応される。
実際、2つのビームフォーマの類似性を推定するための従来のDoA及びオーディオ信号相関メトリックは、無響環境に基づき、したがって、所望のユーザが(残響半径内の)マイクロフォンに近く、それにより拡散音場のエネルギーが支配する環境においてうまく動作するが、図7の手法は、そのような仮定に基づかず、多くの反射及び/又はかなりの拡散音響雑音の存在下でさえ優れた推定を与える。
他の利点は、差分測度が、現在のビームフォームパラメータに基づいて、詳細には現在のフィルタ係数に基づいて直ちに決定され得ることを含む。たいていの実施形態ではパラメータの平均化の必要がなく、むしろ、適応ビームフォーマの適応速度が追跡挙動を決定する。
特に有利な側面は、比較と差分測度とが、延長された持続時間を有するインパルス応答に基づき得ることである。これは、差分測度が、単に直接経路の遅延又はビームの角度方向を反映することを可能にするのではなく、むしろ、推定された音響室内インパルスの有意な部分、又は実際はすべてが考慮に入れられることを可能にする。したがって、差分測度は、従来の手法の場合のように、単に、マイクロフォン信号によって励起される部分空間に基づくのではない。
いくつかの実施形態では、差分測度は、詳細には、時間ドメインにおいてではなく周波数ドメインにおいてインパルス応答を比較するように構成される。詳細には、差分プロセッサ317は、第1のビームフォーマ305のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。同様に、差分プロセッサ317は、第2のビームフォーマ309のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。変換は、詳細には、たとえば高速フーリエ変換(FFT)を、第1のビームフォーマ305と第2のビームフォーマ309の両方のビームフォームフィルタのインパルス応答に適用することによって実行される。
したがって、差分プロセッサ317は、第1のビームフォーマ305及び第2のビームフォーマ309の各フィルタについて、周波数ドメイン係数のセットを生成する。差分プロセッサ317は、続いて、周波数表現に基づいて差分測度を決定する。たとえば、マイクロフォンアレイ301の各マイクロフォンについて、差分プロセッサ317は、2つのビームフォームフィルタの周波数ドメイン係数を比較する。単純な例として、差分プロセッサ317は、単に、2つのフィルタについての周波数ドメイン係数ベクトル間の差分として計算された差分ベクトルの大きさを決定する。次いで、個々の周波数について生成された中間差分測度を合成することによって差分測度が決定される。
以下では、差分測度を決定するためのいくつかの特定の及び極めて有利な手法が説明される。本手法は、周波数ドメインにおける適応インパルス応答の比較に基づく。本手法では、差分プロセッサ317は、周波数ドメイン表現の周波数についての周波数差分測度を決定するように構成される。詳細には、周波数差分測度は、周波数表現における各周波数について決定される。次いで、これらの個々の周波数差分測度から出力差分測度が生成される。
詳細には、周波数差分測度は、ビームフォームフィルタの各フィルタペアの各周波数フィルタ係数について生成され、ここで、フィルタペアは、同じマイクロフォンのための第1のビームフォーマ305及び第2のビームフォーマ309それぞれのフィルタを表す。この周波数係数ペアについての周波数差分測度は、2つの係数の関数として生成される。実際、いくつかの実施形態では、係数ペアについての周波数差分測度は、係数間の絶対差分として決定される。
しかしながら、実数値時間ドメイン係数(すなわち、実数値インパルス応答)について、周波数係数は概して複素数値であり、多くの適用例において、係数のペアについての特に有利な周波数差分測度は、第1の周波数ドメイン係数と第2の周波数ドメイン係数の共役との乗算に応答して(すなわち、ペアの一方のフィルタの複素係数と他方のフィルタの複素係数の共役との乗算に応答して)決定される。
したがって、ビームフォームフィルタのインパルス応答の周波数ドメイン表現の各周波数ビンについて、周波数差分測度は、各マイクロフォン/フィルタペアについて生成される。次いで、すべてのマイクロフォンについてこれらのマイクロフォン固有周波数差分測度を合成することによって、たとえば単にそれらを加算することによって、周波数についての合成された周波数差分測度が生成される。
より詳細には、ビームフォーマ305、309は、各マイクロフォンについて、及び周波数ドメイン表現の各周波数について周波数ドメインフィルタ係数を含む。
第1のビームフォーマ305の場合、これらの係数はF11(ejω)...F1M(ejω)と示され、第2のビームフォーマ309の場合、それらはF21(ejω)...F2M(ejω)と示され、ここで、Mはマイクロフォンの数である。
ある周波数についての及びすべてのマイクロフォンについてのビームフォーム周波数ドメインフィルタ係数の全セットは、第1のビームフォーマ305及び第2のビームフォーマ309について、それぞれf1及びf2として示される。
この場合、所与の周波数についての周波数差分測度は、次のように決定される。
S(ω)=f(f1,f2)
同じマイクロフォンに属する複素数値フィルタ係数を乗算することによって、あらゆる周波数について、第1の形態の距離測度を取得し、したがって、
ここで、(・)
*は複素共役を表す。これは、マイクロフォンmについての周波数ωについての差分測度として使用される。すべてのマイクロフォンについての合成された周波数差分測度は、これらの和として生成され、すなわち、
2つのフィルタが関係しない場合、すなわち、フィルタの適応された状態、したがって、形成されたビームがまったく異なる場合、この和は0に近いことが予想され、したがって、周波数差分測度は0に近い。しかしながら、フィルタ係数が類似する場合、大きい正値が取得される。フィルタ係数が反対の符号を有する場合、大きい負値が取得される。したがって、生成された周波数差分測度は、この周波数についてのビームフォームフィルタの類似性を示す。
(共役を含む)2つの複素係数の乗算により、複素数値が生じ、多くの実施形態では、これをスカラー値に変換することが望ましい。
特に、多くの実施形態では、所与の周波数についての周波数差分測度は、その周波数についての異なるマイクロフォンについての周波数差分測度の合成の実数部に応答して決定される。
詳細には、合成された周波数差分測度は、次のように決定される。
この測度では、Re(S)に基づく類似性測度は、フィルタ係数が同じであるときは、最大値が達成されることになるが、フィルタ係数が同じであるが反対の符号を有するときは、最小値が達成される。
別の手法は、マイクロフォンについての周波数差分測度の合成のノルムに応答して所与の周波数についての合成された周波数差分測度を決定することである。ノルムは、一般に、有利にはL1又はL2ノルムである。
たとえば、
いくつかの実施形態では、マイクロフォンアレイ301のすべてのマイクロフォンについての合成された周波数差分測度は、したがって、個々のマイクロフォンについての複素数値周波数差分測度の和の振幅又は絶対値として決定される。
多くの実施形態では、差分測度を正規化することが有利である。たとえば、差分測度が[0;1]の間隔内に入るように差分測度を正規化することが有利である。
いくつかの実施形態では、上記で説明された差分測度は、第1のビームフォーマ305についての周波数ドメイン係数の和のノルムの単調関数と、第2のビームフォーマ309についての周波数ドメイン係数の和についてのノルムの単調関数との和に応答して決定されることによって正規化され、ここで、それらの和は、マイクロフォンにわたるものである。ノルムは有利にはL2ノルムであり、単調関数は有利には2乗関数である。
したがって、差分測度は、以下の値に対して正規化される。
上記で説明された第1の手法と組み合わせると、これにより、次のように与えられる合成された周波数差分測度が生じる。
ここで、f
1=f
2の場合、周波数差分測度が1の値を有し、f
1=-f
2の場合、周波数差分測度が0の値を有するように、1/2のオフセットが導入される。したがって、0から1の間の差分測度が生成され、ここで、増加する値は低減する差分を示す。増加する差分について増加する値が望まれる場合、これは、単に、以下を決定することによって達成され得ることが理解されよう。
同様に、第2の手法の場合、以下の周波数差分測度が決定され得る。
この場合も、[0;1]の間隔内に入る周波数差分測度が生じる。
別の例として、正規化は、いくつかの実施形態では、周波数ドメイン係数の個々の総和のノルム、詳細にはL2ノルムの乗算に基づく。
N2(f1,f2)=||f1||2・||f2||2
これは、特に、多くの適用例において、差分測度の最後の例のための極めて有利な性能を与える(すなわち、係数についてのL1ノルムに基づく)。特に、以下の周波数差分測度が使用される。
したがって、特定の周波数差分測度は、次のように決定される。
ここで、〈a|b〉=((a)
Hb)
*は内積であり、
はL
2ノルムである。
差分プロセッサ317は、次いで、周波数差分測度を第1のビームフォーマ305のビームと第2のビームフォーマ309のビームとがどのくらい類似しているかを示す単一の差分測度に合成することよって、これらの周波数差分測度から差分測度を生成する。
詳細には、差分測度は、周波数差分測度の周波数選択性重み付き和として決定される。周波数選択性手法は、詳細には、たとえば、たとえばオーディオ範囲又は主要なスピーチ周波数間隔など、特定の周波数範囲が強調されることを可能にする好適な周波数ウィンドウを適用するために有用である。たとえば、ロバストな広帯域差分測度を生成するために(重み付き)平均化が適用される。
詳細には、差分測度は、次のように決定される。
ここで、w(e
jω)は、好適な重み付け関数である。
一例として、重み関数w(ejω)は、スピーチがいくつかの周波数帯域において主にアクティブであること、及び/又は、マイクロフォンアレイが比較的低い周波数について低い方向性(directionality)を有する傾向があることを考慮に入れるように設計される。
上式は連続周波数ドメインにおいて提示されるが、それらは容易に離散周波数ドメインに変換され得ることが理解されよう。
たとえば、離散時間ドメインフィルタは、最初に、離散フーリエ変換を適用することによって離散周波数ドメインフィルタに変換され、すなわち、0≦k<Kの場合、次のように計算することができる。
ここで、
は、m番目のマイクロフォンのためのj番目のビームフォーマの離散時間フィルタ応答を表し、N
fは、時間ドメインフィルタの長さであり、
は、m番目のマイクロフォンのためのj番目のビームフォーマの離散周波数ドメインフィルタを表し、Kは、一般にK=2N
fとして選定された周波数ドメインビームフォームフィルタの長さである(しばしば時間ドメイン係数と同じ数であるが、これが必ずしも当てはまるとは限らない。たとえば、2
Nとは異なる時間ドメイン係数の数の場合、(たとえばFFTを使用する)周波数ドメイン変換を容易にするためにゼロスタッフィングが使用される)。
ベクトルf1及びf2の離散周波数ドメインカウンターパートは、ベクトルF1[k]及びF2[k]であり、ベクトルF1[k]及びF2[k]は、すべてのマイクロフォンについての周波数インデックスkについての周波数ドメインフィルタ係数を集めてベクトルにすることによって取得される。
その後、たとえば類似性測度s
7(F
1,F
2)[k]の計算が、次いで、以下のようにして実行される。
ここでは、
ここで、(・)
*は複素共役を表す。
最後に、広帯域類似性測度S
7(F
1,F
2)は、重み付け関数w[k]に基づいて、以下のように計算される。
w[k]=1/Kとして重み付け関数を選定することは、0から1の間で有界であり、すべての周波数を等しく重み付けする広帯域類似性測度につながる。
代替重み付け関数は、(たとえば、特定の周波数範囲がスピーチを含んでいる可能性があることにより)特定の周波数範囲に焦点を当てることができる。そのような場合、0から1の間で有界な類似性測度につながる重み付け関数は、次いで、たとえば次のように選定され得る。
ここで、k
1及びk
2は、所望の周波数範囲の限界に対応する周波数インデックスである。
導出された差分測度は、異なる実施形態において望ましい異なる特性をもつ特に効率的な性能を与える。特に、決定された値はビーム差分の異なる特性に対する感度が高く、個々の実施形態の選好に応じて、異なる測度が選好される。
実際、差分/類似性測度s5(f1,f2)は、ビームフォーマ間の位相差分、減衰差分、及び方向差分を測定すると考えられ得、s6(f1,f2)は、利得差分及び方向差分のみを考慮に入れる。最後に、差分測度s7(f1,f2)は、方向差分のみを考慮に入れ、位相差分及び減衰差分を無視する。
これらの差分は、ビームフォーマの構造に関する。詳細には、ビームフォーマのフィルタ係数が、A(e
jω)として示す共通(周波数依存)因子をすべてのマイクロフォンにわたって共有すると仮定する。この場合、ビームフォーマフィルタ係数は、以下のように分解され得る。
簡略な表記法では、
とする。次に、共通因子A(e
jω)の2つのバージョンを考慮する。
第1の場合では、共通因子が、全域通過フィルタとしても知られる(周波数依存)位相シフトのみからなる、すなわち、
と仮定する。第2の場合では、共通因子が周波数ごとの任意の利得及び位相シフトを有すると仮定する。3つの提示された類似性測度は、これらの共通因子を別様に扱う。
・ s
5(f
1,f
2)は、ビームフォーマ間の共通振幅及び位相差分に対する感度が高い。
・ s
6(f
1,f
2)は、ビームフォーマ間の共通振幅差分に対する感度が高い
・ s
7(f
1,f
2)は、共通因子A(e
jω)に対する感度が低い
これは、以下の実施例からわかり得る。
この実施例では、f
1=A(e
jω)f
2であるシナリオを考慮し、
は、周波数ごとの任意の位相、すなわち、全域通過フィルタである。
これにより、類似性測度についての以下の結果が生じる。
この実施例では、f
1=B(e
jω)f
2であるシナリオを考慮し、B(e
jω)は、周波数ごとの任意の利得及び位相である。これにより、類似性測度についての以下の結果が生じる。
多くの実際的実施形態では、ビームフォーマ間の共通利得及び位相差分があり、したがって、差分測度s7(f1,f2)が、多くの実施形態において、特に魅力的な測度を与える。
以下では、ポイントオーディオソース推定値を決定するための特定の手法が、詳細には、ビームフォーマからのビームフォーミングされたオーディオ出力信号においてポイントオーディオソースを検出するためにポイントオーディオソース検出器401によって使用され得る。例は第1のビームフォーマ305に関して説明されるが、例は制約付きビームフォーマ309、311のいずれにも等しく適用され得ることが理解されよう。
例は、図9を参照しながら説明され、前に説明されたように、ビームフォーマ305がビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成することに基づく。
ビームフォーマ305は、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成するように構成される。
ビームフォーマ305は、所望のオーディオソースをキャプチャし、これをビームフォーミングされたオーディオ出力信号で表すためにビームフォーミングを適応させるように構成される。ビームフォーマ305は、さらに、残りのキャプチャされたオーディオの推定値を与えるために雑音基準信号を生成し、すなわち、それは、所望のオーディオソースの不在下でキャプチャされる雑音を示す。
ビームフォーマ305が米国特許第7146012号及び米国特許第7602926号に開示されるようなビームフォーマである例では、雑音基準は、たとえば誤差信号を直接使用することによって、前に説明されたように生成される。しかしながら、他の実施形態では他の手法が使用されることが理解されよう。たとえば、いくつかの実施形態では、雑音基準は、生成されたビームフォーミングされたオーディオ出力信号を減じた(たとえば、オムニ指向性)マイクロフォンからのマイクロフォン信号、さらには、この雑音基準マイクロフォンが他のマイクロフォンから遠く離れており、所望のスピーチを含んでいない場合、マイクロフォン信号自体として生成される。別の例として、ビームフォーマ305は、ビームの最大値の方向にヌルを有する第2のビームを生成し、ビームフォーミングされたオーディオ出力信号を生成するように構成され、雑音基準は、この補足的ビームによってキャプチャされるオーディオとして生成される。
いくつかの実施形態では、ビームフォーマ305は、異なるビームを個々に生成する2つのサブビームフォーマを備える。そのような例では、サブビームフォーマのうちの一方は、ビームフォーミングされたオーディオ出力信号を生成するように構成され、他方のサブビームフォーマは、雑音基準信号を生成するように構成される。たとえば、第1のサブビームフォーマは出力信号を最大化するように構成され、これにより、支配的ソースがキャプチャされることになり、第2のサブビームフォーマは出力レベルを最小化するように構成され、それにより、一般に、支配的ソースのほうへヌルが生成されることになる。したがって、後者のビームフォーミングされた信号は、雑音基準として使用される。
いくつかの実施形態では、2つのサブビームフォーマは、マイクロフォンアレイ301の異なるマイクロフォンに結合され、それを使用する。したがって、いくつかの実施形態では、マイクロフォンアレイ301は、2つ(又はそれ以上)のマイクロフォンサブアレイによって形成され、2つ(又はそれ以上)のマイクロフォンサブアレイの各々は、異なるサブビームフォーマに結合され、ビームを個々に生成するように構成される。実際、いくつかの実施形態では、サブアレイは、互いから離れたところにさえ配置され、異なる位置からオーディオ環境をキャプチャする。したがって、ビームフォーミングされたオーディオ出力信号は、ある位置にあるマイクロフォンサブアレイから生成され、雑音基準信号は、異なる位置にある(及び一般に異なるデバイス中の)マイクロフォンサブアレイから生成される。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、出力プロセッサ306によって、オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
多くの実施形態では、ポイントオーディオソースが、ビームフォーマ305によって生成された、ビームフォーミングされたオーディオ出力において存在するかどうかを推定することが望ましく、すなわち、ビームフォーマ305が、オーディオソースに適応し、それにより、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを推定することが望ましい。
オーディオポイントソースは、音響において、空間におけるポイントから発生する音のソースであると考えられる。多くの適用例では、たとえば人間の話者など、ポイントオーディオソースを検出及びキャプチャすることが望まれる。いくつかのシナリオでは、そのようなポイントオーディオソースは、音響環境における支配的なオーディオソースであるが、他の実施形態では、これは当てはまらず、すなわち、所望のポイントオーディオソースは、たとえば拡散背景雑音によって支配される。
ポイントオーディオソースは、直接経路音が、強い相関を伴って異なるマイクロフォンに到着する傾向があるという特性を有し、実際、一般に、同じ信号は、経路長の差分に対応する遅延(周波数ドメイン線形位相変動)を伴ってキャプチャされる。したがって、マイクロフォンによってキャプチャされた信号間の相関を考慮するとき、高い相関は支配的なポイントソースを示し、低い相関は、キャプチャされたオーディオが多くの無相関ソースから受信されたことを示す。実際、オーディオ環境におけるポイントオーディオソースは、直接信号成分がマイクロフォン信号についての高い相関を生じるものと考えられ得、実際、ポイントオーディオソースは、空間的に相関するオーディオソースに対応すると考えられ得る。
しかしながら、マイクロフォン信号についての相関を決定することによってポイントオーディオソースの存在を検出しようとすることが可能であるが、これは、不正確であり、最適性能を与えない傾向がある。たとえば、ポイントオーディオソース(実際、直接経路成分)が支配的でない場合、検出は、不正確である傾向がある。したがって、本手法は、たとえば、マイクロフォンアレイから遠い(詳細には、残響半径外にある)か、又は、高レベルのたとえば拡散雑音がある、ポイントオーディオソースに適していない。また、そのような手法は、単にポイントオーディオソースが存在するかどうかを示すが、ビームフォーマがそのポイントオーディオソースに適応したかどうかを反映しない。
図9のオーディオキャプチャ装置はポイントオーディオソース検出器401を備え、ポイントオーディオソース検出器401は、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するように構成される。ポイントオーディオソース検出器401は、マイクロフォン信号についての相関を決定しないが、代わりに、ビームフォーマ305によって生成された、ビームフォーミングされたオーディオ出力信号及び雑音基準信号に基づいてポイントオーディオソース推定値を決定する。
ポイントオーディオソース検出器401は、ビームフォーミングされたオーディオ出力信号に周波数変換を適用することによって第1の周波数ドメイン信号を生成するように構成された第1の変換器901を備える。詳細には、ビームフォーミングされたオーディオ出力信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第1の周波数ドメイン信号は周波数ドメインサンプルによって表され、各周波数ドメインサンプルが特定の時間間隔(対応する処理フレーム)と特定の周波数間隔とに対応する。各そのような周波数間隔及び時間間隔は、一般に、時間周波数タイルとして知られるフィールドにある。したがって、第1の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
ポイントオーディオソース検出器401は、雑音基準信号を受信する第2の変換器903をさらに備える。第2の変換器903は、雑音基準信号に周波数変換を適用することによって第2の周波数ドメイン信号を生成するように構成される。詳細には、雑音基準信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第2の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
図10は、第1の変換ユニット901及び第2の変換ユニット903の可能な実装形態の機能要素の特定の例を示す。本例では、直列並列変換器が2Bのサンプルの重複するブロック(フレーム)を生成し、それらは次いで、ハニング窓掛けされ、高速フーリエ変換(FFT)によって周波数ドメインに変換される。
ビームフォーミングされたオーディオ出力信号及び雑音基準信号は、以下では、それぞれz(n)及びx(n)と呼ばれ、第1の周波数ドメイン信号及び第2の周波数ドメイン信号は、ベクトル
及び
によって参照される(各ベクトルは、所与の処理/変換時間セグメント/フレームについてのすべてのM周波数タイル値を含む)。
使用するとき、z(n)は雑音及びスピーチを含むと仮定され、x(n)は、理想的には雑音のみを含むと仮定される。さらに、z(n)及びx(n)の雑音成分は無相関であると仮定される(それらの成分は、時間的に無相関であると仮定される。ただし、一般に平均振幅間の関係があると仮定され、この関係は、後で説明されるようにコヒーレンス項によって表される)。そのような仮定は、いくつかのシナリオにおいて有効である傾向があり、詳細には、多くの実施形態では、ビームフォーマ305は、図1の例の場合のように、適応フィルタを備え、適応フィルタは、雑音基準信号と相関させられるビームフォーミングされたオーディオ出力信号における雑音を減衰又は除去する。
周波数ドメインへの変換の後に、時間周波数値の実数及び虚数成分は、ガウス分布していると仮定される。この仮定は、一般に、たとえば、拡散音場から雑音が発生するシナリオについて、センサー雑音について、及び多くの実際的シナリオにおいて経験されるいくつかの他の雑音ソースについて正確である。
第1の変換器901と第2の変換器903とは、差分プロセッサ905に結合され、差分プロセッサ905は、個々のタイル周波数についての時間周波数タイル差分測度を生成するように構成される。詳細には、差分プロセッサ905は、FFTから生じる各周波数ビンについての現在フレームについて、差分測度を生成することができる。差分測度は、ビームフォーミングされたオーディオ出力信号及び雑音基準信号の、すなわち、第1の周波数ドメイン信号及び第2の周波数ドメイン信号の対応する時間周波数タイル値から生成される。
特に、所与の時間周波数タイルについての差分測度は、第1の周波数ドメイン信号の(すなわち、ビームフォーミングされたオーディオ出力信号の)時間周波数タイル値のノルムの第1の単調関数と第2の周波数ドメイン信号(雑音基準信号)の時間周波数タイル値のノルムの第2の単調関数との間の差分を反映するように生成される。第1の単調関数と第2の単調関数とは、同じであるか又は異なる。
ノルムは、一般に、L1ノルム又はL2ノルムである。ここで、多くの実施形態では、時間周波数タイル差分測度は、第1の周波数ドメイン信号の値の大きさ又は電力(power)の単調関数と第2の周波数ドメイン信号の値の大きさ又は電力の単調関数との間の差分を反映する差分指示として決定される。
単調関数は、一般に、両方とも単調増加であるが、いくつかの実施形態では、両方とも単調減少である。
異なる実施形態では異なる差分測度が使用されることが理解されよう。たとえば、いくつかの実施形態では、差分測度は、単に、第1の関数の結果及び第2の関数の結果を互いから減算することによって決定される。他の実施形態では、第1の関数の結果及び第2の関数の結果を互いで除算して、差分を示す比などを生成する。
したがって、差分プロセッサ905は、各時間周波数タイルについての時間周波数タイル差分測度を生成し、その差分測度は、その周波数におけるビームフォーミングされたオーディオ出力信号及び雑音基準信号それぞれの相対レベルを示す。
差分プロセッサ905は、ポイントオーディオソース推定器907に結合され、ポイントオーディオソース推定器907は、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成する。したがって、ポイントオーディオソース推定器907は、所与の周波数超の周波数についての周波数タイル差分測度を合成することによってポイントオーディオソース推定値を生成する。合成は、詳細には、所与のしきい値周波数超のすべての時間周波数タイル差分測度の、総和、又は、たとえば、周波数依存重み付けを含む重み付き合成である。
したがって、ポイントオーディオソース推定値は、所与の周波数超のビームフォーミングされたオーディオ出力信号のレベルと雑音基準信号のレベルとの間の相対周波数固有差分を反映するように生成される。しきい値周波数は、一般に、500Hzを上回る。
発明者は、そのような測度が、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において含まれるか否かの強い指示を与えることを了解した。実際、発明者は、周波数固有比較が、より高い周波数への制限とともに、実際には、ポイントオーディオソースの存在の指示の改善を与えることを了解した。さらに、発明者は、推定値が、音響環境、及び従来の手法が正確な結果を与えないシナリオにおいて適用するのに適していることを了解した。詳細には、説明される手法は、マイクロフォンアレイ301から遠くにあり(及び残響半径外にあり)、強い拡散雑音の存在下にある、非支配的ポイントオーディオソースについてさえ、ポイントオーディオソースの有利で正確な検出を与える。
多くの実施形態では、ポイントオーディオソース推定器907は、ポイントオーディオソースが検出されたか否かを単に示すためにポイントオーディオソース推定値を生成するように構成される。詳細には、ポイントオーディオソース推定器907は、合成された差分値がしきい値を超える場合、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの存在が検出されたことを示すように構成される。したがって、生成された合成された差分値が、差分が所与のしきい値よりも高いことを示す場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。合成された差分値がしきい値を下回る場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されなかったと考えられる。
したがって、説明された手法は、生成されたビームフォーミングされたオーディオ出力信号がポイントソースを含むか否かの低複雑度検出を与える。
そのような検出が、多くの異なる適用例及びシナリオのために使用され得、実際、多くの異なるやり方で使用され得ることが理解されよう。
たとえば、前述のように、ポイントオーディオソース推定値/検出は、出力オーディオ信号を適応させる際に出力プロセッサ306によって使用される。単純な例として、出力は、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において検出されない限り、ミュートされる。別の例として、出力プロセッサ306の動作は、ポイントオーディオソース推定値に応答して適応される。たとえば、雑音抑圧は、ポイントオーディオソースが存在する尤度に応じて適応される。
いくつかの実施形態では、ポイントオーディオソース推定値は、単に、オーディオ出力信号とともに出力信号として与えられる。たとえば、スピーチキャプチャシステムでは、ポイントオーディオソースはスピーチ存在推定値であると考えられ、これは、オーディオ信号とともに与えられる。スピーチ認識器が、オーディオ出力信号を与えられ、たとえば、ボイスコマンドを検出するためにスピーチ認識を実行するように構成される。スピーチ認識器は、スピーチソースが存在することをポイントオーディオソース推定値が示すときのみスピーチ認識を実行するように構成される。
以下では、ポイントオーディオソース推定値の極めて有利な決定の特定の例が説明される。
本例では、ビームフォーマ305は、前に説明されたように、所望のオーディオソースに集束するように、詳細には、スピーチソースに集束するように適応する。ビームフォーマ305は、ソースに集束されるビームフォーミングされたオーディオ出力信号、並びに、他のソースからのオーディオを示す雑音基準信号を与える。ビームフォーミングされたオーディオ出力信号はz(n)として示され、雑音基準信号はx(n)として示される。z(n)とx(n)の両方は、一般に、雑音、詳細には拡散雑音などで汚染される。以下の説明はスピーチ検出に焦点を当てるが、それが概してポイントオーディオソースに適用されることが理解されよう。
Z(tk,ωl)を、ビームフォーミングされたオーディオ出力信号に対応する(複素)第1の周波数ドメイン信号とする。この信号は、所望のスピーチ信号Zs(tk,ωl)と、雑音信号Zn(tk,ωl)とからなり、
Z(tk,ωl)=Zs(tk,ωl)+Zn(tk,ωl)
である。
Zn(tk,ωl)の振幅が知られていた場合、変数dを、
d(tk,ωl)=|Z(tk,ωl)|-|Zn(tk,ωl)|
のように導出することが可能であり、これは、スピーチ振幅|Zs(tk,ωl)|を表す。
第2の周波数ドメイン信号、すなわち、雑音基準信号x(n)の周波数ドメイン表現は、Xn(tk,ωl)によって示される。
zn(n)とx(n)とは、それらが両方とも拡散雑音を表し、等しい分散を伴う(zn)信号を加算すること又は等しい分散を伴う(xn)信号を減算することによって取得されるので、等しい分散を有すると仮定され得、結果として、Zn(tk,ωl)及びXn(tk,ωl)の実部及び虚部も等しい分散を有することになる。したがって、|Zn(tk,ωl)|は、上式では|Xn(tk,ωl)|によって置換され得る。
スピーチが存在しない(したがって、Z(tk,ωl)=Zn(tk,ωl))場合、これは、
d(tk,ωl)=|Zn(tk,ωl)|-|Xn(tk,ωl)|
につながり、ここで、|Zn(tk,ωl)|と|Xn(tk,ωl)|とは、実部及び虚部がガウス分布しており、依存しないので、レイリー分布になる。
2つの確率変数の差分の平均は、平均の差分に等しく、したがって、上記の時間周波数タイル差分測度の平均値は0であり、
E{d}=0
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、したがって、
var(d)=(4-π)σ2
である。
次に、分散は、(t
k,ω
l)平面におけるL個の非依存値にわたって|Z
n(t
k,ω
l)|と|X
n(t
k,ω
l)|とを平均化することによって低減され得、
を与える。
平滑化(低域フィルタ処理)は平均を変更せず、したがって、
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、
である。
したがって、平均化は、雑音の分散を低減する。
したがって、スピーチが存在しないときの時間周波数タイル差分測度の平均値は、0である。しかしながら、スピーチの存在下では、平均値は増加する。詳細には、スピーチ成分のL個の値にわたる平均化は、|Zs(tk,ωl)|のすべての要素が正であり、
E{|Zs(tk,ωl)|}>0
であるので、あまり効果がない。
したがって、スピーチが存在するとき、上記の時間周波数タイル差分測度の平均値は0を上回り、
である。
時間周波数タイル差分測度は、1よりも大きい過減算因子γの形態の設計パラメータを適用することによって変更され、
である。
この場合、平均値
は、スピーチが存在しないとき、0を下回る。しかしながら、過減算因子γは、スピーチの存在下での平均値
が0を上回る傾向があるように選択される。
ポイントオーディオソース推定値を生成するために、複数の時間周波数タイルについての時間周波数タイル差分測度は、たとえば単純な総和によって、合成される。さらに、合成は、第1のしきい値を上回る周波数についての時間周波数タイルのみを、場合によっては、第2のしきい値を下回る時間周波数タイルについてのみ、含むように構成される。
詳細には、ポイントオーディオソース推定値は、次のように生成される。
このポイントオーディオソース推定値は、雑音基準信号におけるエネルギーの量に対する、所望のスピーチソースからのビームフォーミングされたオーディオ出力信号におけるエネルギーの量を示す。したがって、それは、スピーチを拡散雑音と区別するための特に有利な測度を与える。詳細には、e(tk)が正である場合のみ存在することがわかるスピーチソースが考えられる。e(tk)が負である場合、所望のスピーチソースが見つけられないと考えられる。
決定されたポイントオーディオソース推定値は、ポイントオーディオソース、又は詳細にはスピーチソースが、キャプチャ環境において存在するかどうかを示すだけでなく、詳細には、これが、実際、ビームフォーミングされたオーディオ出力信号において存在するかどうかの指示を与え、すなわち、それが、ビームフォーマ305がこのソースに適応したかどうかの指示をも与えることを理解されたい。
実際、ビームフォーマ305が所望のスピーカーに完全に集束されたとは限らない場合、スピーチ信号の一部が雑音基準信号x(n)において存在する。米国特許第7146012号及び米国特許第7602926号の適応ビームフォーマの場合、マイクロフォン信号における所望のソースのエネルギーの和が、ビームフォーミングされたオーディオ出力信号におけるエネルギーと(1つ又は複数の)雑音基準信号におけるエネルギーとの和に等しいことを示すことが可能である。ビームが完全に集束されたとは限らない場合、ビームフォーミングされたオーディオ出力信号におけるエネルギーは減少し、(1つ又は複数の)雑音基準におけるエネルギーは増加する。これにより、完全に集束されるビームフォーマと比較して、e(tk)についての有意なより低い値が生じる。このようにして、ロバストな弁別器が実現され得る。
上記の説明は図9のシステムの手法の背景及び利益を例示するが、本手法を損なうことなしに多くの変形及び変更が適用され得ることが理解されよう。
異なる実施形態では、たとえばビームフォーミングされたオーディオ出力信号の大きさと雑音基準信号の大きさとの間の差分を反映する差分測度を決定するために異なる関数及び手法が使用されることが理解されよう。実際、異なるノルムを使用すること又はノルムに異なる関数を適用することは、異なる特性をもつ異なる推定値を与えるが、依然として、所与の時間周波数タイルにおけるビームフォーミングされたオーディオ出力信号と雑音基準信号との間の基本的な差分を示す差分測度を生じる。
したがって、多くの実施形態では、前に説明された特定の手法が特に有利な性能を与えるが、他の実施形態では、適用例の特定の特性に応じて多くの他の関数及び手法が使用される。
より一般的には、差分測度は、
d(tk,ωl)=f1(|Z(tk,ωl)|)-f2(|X(tk,ωl)|)
のように計算され、ここで、f1(x)とf2(x)とは、個々の実施形態の特定の選好及び要件に適している任意の単調関数であるように選択され得る。一般に、関数f1(x)及びf2(x)は、単調増加又は減少関数である。また、単に大きさを使用するのではなく、他のノルム(たとえば、L2ノルム)が使用されることが理解されよう。
時間周波数タイル差分測度は、上記の例では、第1の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第1の単調関数f1(x)と、第2の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第2の単調関数f2(x)との間の差分を示す。いくつかの実施形態では、第1の単調関数と第2の単調関数とは、異なる関数である。しかしながら、たいていの実施形態では、2つの関数は等しい。
さらに、関数f1(x)及びf2(x)の一方又は両方は、たとえば、マイクロフォン信号の全体的な平均電力レベル、周波数など、様々な他のパラメータ及び測度に依存する。
多くの実施形態では、関数f1(x)及びf2(x)の一方又は両方は、たとえば、周波数及び/又は時間次元における他のタイルにわたるZ(tk,ωl)、|Z(tk,ωl)|、f1(|Z(tk,ωl)|)、X(tk,ωl)、|X(tk,ωl)|、又はf2(|X(tk,ωl)|)のうちの1つ又は複数の平均化(すなわち、k及び/又はlの変動するインデックスについての値の平均化)による、他の周波数タイルについての信号値に依存する。多くの実施形態では、時間次元と周波数次元の両方において拡張する近傍にわたる平均化が実行される。早期に与えられた特定の差分測度式に基づく特定の例について後で説明するが、対応する手法が、差分測度を決定する他のアルゴリズム又は関数にも適用されることが理解されよう。
差分測度を決定するための可能な関数の例は、たとえば、
d(t
k,ω
l)=|Z(t
k,ω
l)|
α-γ・|X(t
k,ω
l)|
β
を含み、ここで、α及びβは、たとえば、
などにおける、一般にα=βである設計パラメータであり、ここで、σ(ω
l)は、差分測度及びポイントオーディオソース推定値の所望のスペクトル特性を与えるために使用される好適な重み付け関数である。
これらの関数が例にすぎず、距離測度を計算するための多くの他の式及びアルゴリズムが想定され得ることが理解されよう。
上式では、因子γは、差分測度を負値のほうへバイアスするために導入される因子を表す。特定の例は、雑音基準信号時間周波数タイルに適用される単純なスケール因子によってこのバイアスを導入するが、多くの他の手法が可能であることが理解されよう。
実際、負値のほうへのバイアスを与えるために第1の関数f1(x)及び第2の関数f2(x)を構成する任意の好適なやり方が使用される。バイアスは、詳細には、前の例の場合のように、スピーチがない場合に負である差分測度の予想される値を生成するバイアスである。実際、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方がランダム雑音のみを含んでいる(たとえば、サンプル値が平均値のあたりで対称的に及びランダムに分布している)場合、差分測度の予想される値は、0ではなく負である。前の特定の例では、これは、スピーチがないときに負値を生じた過減算因子γによって達成された。
説明される考慮事項に基づくポイントオーディオソース検出器401の一例が、図11において与えられる。本例では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とは、第1の変換器901及び第2の変換器903に与えられ、第1の変換器901及び第2の変換器903は、対応する第1の周波数ドメイン信号及び第2の周波数ドメイン信号を生成する。
周波数ドメイン信号は、たとえば、たとえば時間ドメイン信号の重複するハニング窓掛けされたブロックの短時間フーリエ変換(STFT)を算出することによって、生成される。STFTは、概して、時間と周波数の両方の関数であり、2つの引数tk及びωlによって表され、tk=kBは離散時間であり、ここで、kはフレームインデックスであり、Bはフレームシフトであり、ωl=lω0は(離散)周波数であり、lは周波数インデックスであり、ω0は基本周波数間隔を示す。
したがって、この周波数ドメイン変換の後に、長さのベクトル
及び
それぞれによって表された周波数ドメイン信号が与えられる。
周波数ドメイン変換は、特定の例では、大きさユニット(magnitude unit)1101、1103に供給され、大きさユニット1101、1103は、2つの信号の大きさを決定及び出力し、すなわち、それらは、値
を生成する。
他の実施形態では、他のノルムが使用され、処理は、単調関数を適用することを含む。
大きさユニット1101、1103は低域フィルタ1105に結合され、低域フィルタ1105は、大きさ値を平滑化する。フィルタ処理/平滑化は、時間ドメイン、周波数ドメイン、又は、しばしば有利にはその両方におけるものであり、すなわち、フィルタ処理は、時間次元と周波数次元の両方において拡張する。
フィルタ処理された大きさの信号/ベクトル
及び
は、
及び
とも呼ばれる。
フィルタ1105は差分プロセッサ905に結合され、差分プロセッサ905は、時間周波数タイル差分測度を決定するように構成される。特定の例として、差分プロセッサ905は、次のように時間周波数タイル差分測度を生成する。
設計パラメータγnは、一般に、1..2の範囲内にある。
差分プロセッサ905はポイントオーディオソース推定器907に結合され、ポイントオーディオソース推定器907は、時間周波数タイル差分測度を供給され、応答して、続いて、これらを合成することによってポイントオーディオソース推定値を決定する。
詳細には、ω
l=ω
lowからω
l=ω
highの間の周波数値についての時間周波数タイル差分測度
の和が、次のように決定される。
いくつかの実施形態では、この値はポイントオーディオソース検出器401から出力される。他の実施形態では、決定された値は、しきい値と比較され、たとえば、ポイントオーディオソースが検出されたと考えられるか否かを示す2進値を生成するために使用される。詳細には、値e(tk)は0のしきい値と比較され、すなわち、値が負である場合は、ポイントオーディオソースが検出されなかったと考えられ、値が正である場合は、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。
本例では、ポイントオーディオソース検出器401は、ビームフォーミングされたオーディオ出力信号の大きさ時間周波数タイル値についての、及び雑音基準信号の大きさ時間周波数タイル値についての低域フィルタ処理/平均化を含む。平滑化は、詳細には、隣接値にわたって平均化を実行することによって実行される。たとえば、以下の低域フィルタ処理が第1の周波数ドメイン信号に適用される。
ここで、(N=1の場合)Wは1/9の重みをもつ3*3行列である。他の実施形態では、もちろんNの他の値が使用され得、同様に、異なる時間間隔が使用され得ることが理解されよう。実際、フィルタ処理/平滑化がそれにわたって実行されるサイズは、たとえば周波数に応じて変動している(たとえば、より低い周波数についてよりも大きいカーネルが、より高い周波数について適用される)。
実際、フィルタ処理は、時間方向(考慮される隣接時間フレームの数)と周波数方向(考慮される隣接周波数ビンの数)の両方における好適な拡張を有するカーネルを適用することによって達成され、実際、このようなカーネルのサイズは、たとえば異なる周波数について又は異なる信号特性について変動していることが理解されよう。
また、上式においてW(m,n)によって表されるように、異なるカーネルは変動しており、これは、同様に、たとえば異なる周波数についての、又は信号特性に応答する動的変動である。
フィルタ処理は、雑音を低減し、したがってより正確な推定を与えるだけでなく、それは特に、スピーチと雑音との間の差別化をも高める。実際、フィルタ処理は、ポイントオーディオソースに対する影響よりも大幅に大きな影響を雑音に対して有し、これにより、より大きい差分が時間周波数タイル差分測度について生成されることになる。
図1のものなど、ビームフォーマについてのビームフォーミングされたオーディオ出力信号と(1つ又は複数の)雑音基準信号との間の相関は、周波数が増加するにつれて低減することがわかった。したがって、ポイントオーディオソース推定値は、しきい値を上回る周波数についての時間周波数タイル差分測度のみに応答して生成される。これにより、スピーチが存在するとき、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の無相関の増加、したがってより大きい差分が生じる。これにより、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの検出がより正確になる。
多くの実施形態では、500Hzを下回らない、又は、いくつかの実施形態では、有利には、1kHz、さらには2kHzを下回らない周波数についての時間周波数タイル差分測度のみに基づくようにポイントオーディオソース推定値を限定することによって、有利な性能が見つけられた。
しかしながら、いくつかの適用例又はシナリオでは、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の有意な相関は、比較的高いオーディオ周波数についてさえ残り、実際、いくつかのシナリオでは、オーディオ帯域全体について残る。
実際、理想的な球状等方性拡散雑音場では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とが部分的に相関され、その結果、|Zn(tk,ωl)|及び|Xn(tk,ωl)|の予想される値は等しくなくなり、したがって、|Zn(tk,ωl)|は|Xn(tk,ωl)|と容易に置き換えられ得ない。
これは、理想的な球状等方性拡散雑音場の特性を見ることによって理解され得る。2つのマイクロフォンが、そのような場で距離d離れて置かれ、それぞれマイクロフォン信号U(t
k,ω
l)及びU
2(t
k,ω
l)を有するとき、
E{|U
1(t
k,ω)|
2}=E{|U
2(t
k,ω)|
2}=2σ
2
及び
になり、波数
(cは音速である)であり、σ
2は、ガウス分布している、U
1(t
k,ω
l)及びU
2(t
k,ω
l)の実部及び虚部の分散である。
ビームフォーマが単純な2マイクロフォン遅延和(Delay-and-Sum)ビームフォーマであり、ブロードサイド(broadside)ビームを形成する(すなわち、遅延が0である)と仮定する。
Z(tk,ωl)=U1(tk,ωl)+U2(tk,ωl)、
及び、雑音基準信号の場合、
X(tk,ωl)=U1(tk,ωl)-U2(tk,ωl)
と書くことができる。
得られた予想される値について、雑音のみが存在すると仮定すると、
である。
同様に、E{|X(tk,ω)|2}について、
E{|X(tk,ω)|2}=4σ2(1-sinc(kd))
が得られる。
したがって、低い周波数について、|Zn(tk,ωl)|と|Xn(tk,ωl)|とは、等しくない。
いくつかの実施形態では、ポイントオーディオソース検出器401は、そのような相関を補償するように構成される。特に、ポイントオーディオソース検出器401は、雑音コヒーレンス推定値C(tk,ωl)を決定するように構成され、雑音コヒーレンス推定値C(tk,ωl)は、雑音基準信号の振幅とビームフォーミングされたオーディオ出力信号の雑音成分の振幅との間の相関を示す。次いで、時間周波数タイル差分測度の決定は、このコヒーレンス推定値の関数としてのものである。
実際、多くの実施形態では、ポイントオーディオソース検出器401は、ビームフォーマからのビームフォーミングされたオーディオ出力信号及び雑音基準信号についてのコヒーレンスを、予想される振幅間の比に基づいて決定するように構成される。
ここで、E{.}は期待値演算子である。コヒーレンス項は、ビームフォーミングされたオーディオ出力信号における雑音成分の振幅と雑音基準信号の振幅との間の平均相関の指示である。
C(tk,ωl)は、マイクロフォンにおける瞬時オーディオに依存せず、代わりに、雑音音場の空間的特性に依存するので、時間の関数としてのC(tk,ωl)の変動は、Zn及びXnの時間変動よりもはるかに小さい。
その結果、C(tk,ωl)は、スピーチが存在しない期間中の時間にわたって|Zn(tk,ωl)|と|Xn(tk,ωl)|とを平均化することによって、比較的正確に推定され得る。そうするための手法は、米国特許第7602926号において開示され、米国特許第7602926号は、詳細には、C(tk,ωl)を決定するための、明示的スピーチ検出が必要とされない方法が記載されている。
雑音コヒーレンス推定値C(tk,ωl)を決定するための任意の好適な手法が使用されることが理解されよう。たとえば、較正が実行され、ここで、スピーカーが話さないように命令され、第1の周波数ドメイン信号と第2の周波数ドメイン信号とが比較され、各時間周波数タイルについての雑音相関推定値C(tk,ωl)が、単に、第1の周波数ドメイン信号の時間周波数タイル値と第2の周波数ドメイン信号の時間周波数タイル値との平均比として決定される。理想的な球状等方性拡散雑音場の場合、コヒーレンス関数も、上記で説明された手法に従って分析的に決定され得る。
この推定値に基づいて、|Z
n(t
k,ω
l)|は、|X
n(t
k,ω
l)|だけではなく、C(t
k,ω
l)|X
n(t
k,ω
l)|と置き換えられ得る。これにより、時間周波数タイル差分測度が
によって与えられる。
したがって、前の時間周波数タイル差分測度は、コヒーレンス関数が1の一定値に設定された、上記の差分測度の特定の例と考えられ得る。
コヒーレンス関数の使用により、本手法は、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の比較的強い相関がある周波数を含む、より低い周波数において使用されることが可能になる。
本手法は、さらに有利には、多くの実施形態では、適応キャンセラをさらに含み、適応キャンセラは、少なくとも1つの雑音基準信号と相関されるビームフォーミングされたオーディオ出力信号の信号成分をキャンセルするように構成されることが理解されよう。たとえば、図1の例と同様に、適応フィルタは、入力としての雑音基準信号を有し、その出力が、ビームフォーミングされたオーディオ出力信号から減算される。適応フィルタは、たとえば、スピーチが存在しない時間間隔中の得られた信号のレベルを最小化するように構成される。
上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションに実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。
本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有する(comprising)という用語は、他の要素又はステップが存在することを除外するものではない。
さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び/又は有利でないことを暗示するものではない。また、請求項の1つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、「a」、「an」、「第1の」、「第2の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。