以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。
図3は、本発明のいくつかの実施形態による、オーディオキャプチャ装置のいくつかの要素の一例を示す。
オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ301を備える。
マイクロフォンアレイ301は、(一般に、当業者によく知られるように、直接、又はエコーキャンセラ、増幅器、デジタルアナログ変換器などを介してのいずれかで)ビームフォーマ303に結合される。
ビームフォーマ303は、マイクロフォンアレイ301の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ301からの信号を合成するように構成される。したがって、ビームフォーマ303は、ビームフォーミングされたオーディオ出力又はビームフォーミングされたオーディオ出力信号と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。ビームフォーマ303は適応ビームフォーマであり、その指向性はビームフォーマ303のビームフォーム動作の、ビームフォームパラメータと呼ばれるパラメータを設定することによって、詳細には、ビームフォームフィルタのフィルタパラメータ(一般に係数)を設定することによって制御され得る。
したがって、ビームフォーマ303は、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。
ビームフォーマ303は、詳細には、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
図4は、2つのマイクロフォン401のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォンはビームフォームフィルタ403、405に結合され、ビームフォームフィルタ403、405の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器407において加算される。ビームフォームフィルタ403、405はインパルス応答f1及びf2を有し、インパルス応答f1及びf2は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは3つ以上のマイクロフォンを備え、図4の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。
ビームフォーマ303は、(たとえば、米国特許第7146012号及び米国特許第7602926号のビームフォーマの場合のように)ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ301は3つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ303は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ303は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。
たいていの実施形態では、ビームフォームフィルタの各々は、(単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する)単純なディラックパルスでなく、むしろ、一般に2ミリ秒、5ミリ秒、10ミリ秒、さらには30ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する、時間ドメインインパルス応答を有する。
インパルス応答は、しばしば、複数の係数をもつFIR(有限インパルス応答)フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ303は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、FIRフィルタは、固定時間オフセット(一般にサンプル時間オフセット)に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数(たとえば、2つ又は3つのみ)を有するが、これらのタイミングは(も)適応可能である。
単純な可変遅延(又は単純な周波数ドメイン利得/位相調整)であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ303が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ303が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び/又は残響環境における性能の改善、並びに/或いは、マイクロフォンアレイ301から離れているオーディオソースのための性能の改善を可能にする。
適応ビームフォーマの性能の極めて重要な要素は、方向性(directionality)の適応である(一般にビームと呼ばれるが、拡張インパルス応答により、この指向性が、空間成分だけでなく時間成分、すなわち、反射についての時間的変動として形成されたビームなどをも有することになることが理解されよう)。
図3のシステムでは、ビームフォーマ303は、第1のビームフォーマのビームフォームパラメータを適応させるように構成された適応器305を備える。詳細には、適応器305は、所与の(空間的及び時間的)ビームを与えるためにビームフォームフィルタの係数を適応させるように構成される。
異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、適応器305は、ビームフォーマ303の出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、(時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける)フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。これはさらに、本質的に、誤差信号から雑音基準信号を生成することができる。そのような手法のさらなる詳細は、米国特許第7146012号及び米国特許第7602926号において見つけられ得る。
米国特許第7146012号及び米国特許第7602926号のものなどの手法は、ビームフォーマからのオーディオソース信号z(n)と(1つ又は複数の)雑音基準信号x(n)の両方に基づく適応に基づくことに留意されたい。同じ手法が図3のビームフォーマのために使用されることが理解されよう。
実際、ビームフォーマ303は、詳細には、図1に示され、米国特許第7146012号及び米国特許第7602926号において開示されたビームフォーマに対応するビームフォーマである。
ビームフォーマ303は、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成するように構成される。
ビームフォーマ303は、所望のオーディオソースをキャプチャし、これをビームフォーミングされたオーディオ出力信号で表すためにビームフォーミングを適応させるように構成される。ビームフォーマ303は、さらに、残りのキャプチャされたオーディオの推定値を与えるために雑音基準信号を生成し、すなわち、それは、所望のオーディオソースの不在下でキャプチャされる雑音を示す。
ビームフォーマ303が米国特許第7146012号及び米国特許第7602926号に開示されるようなビームフォーマである実施形態における例では、雑音基準は、たとえば誤差信号を直接使用することによって、前に説明されたように生成される。しかしながら、他の実施形態では他の手法が使用されることが理解されよう。たとえば、いくつかの実施形態では、雑音基準は、生成されたビームフォーミングされたオーディオ出力信号を減じた(たとえば、オムニ指向性)マイクロフォンからのマイクロフォン信号、さらには、この雑音基準マイクロフォンが他のマイクロフォンから遠く離れており、所望のスピーチを含んでいない場合、マイクロフォン信号自体として生成される。別の例として、ビームフォーマ303は、ビームの最大値の方向にヌルを有する第2のビームを生成し、ビームフォーミングされたオーディオ出力信号を生成するように構成され、雑音基準は、この補足的ビームによってキャプチャされるオーディオとして生成される。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、出力プロセッサ305によって、オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
適応性能は、ビームフォーミングオーディオキャプチャシステムの性能にとって重要である。しかしながら、一般的な従来の手法は、理論的な及び理想的なオーディオ環境ではうまく機能するが、多くの実際的シナリオでは、それほど効率的及び正確でない傾向がある。
実際、適応は、雑音が増加するにつれて劣化する傾向があり、詳細には、アクティブソースが存在しないときに適応が実行される場合、適応は、この時間間隔中に、所望のオーディオソースではなく雑音に適応する。これに対処するために、オーディオソースが存在するときのみ適応が実行されるシステムが開発された。詳細には、スピーチキャプチャシステムの場合、スピーチの存在を検出し、スピーチの期間中にのみ適応させるシステムが開発された。
しかしながら、この手法は、所望のオーディオソースがアクティブでないときの適応の問題に対処するが、所望のオーディオソースがアクティブである時間中の潜在的問題のいずれにも対処しない。
実際、発明者によって了解されるように、音響環境の特性は、特に、室内インパルス応答のより大きい間隔を推定しようとする拡張インパルス応答フィルタが使用されるとき、適応及び全体的性能に著しく影響を及ぼす。特に、発明者は、直接経路が支配的でないシナリオでは、適応がしばしば準最適であることを了解した。実際、オーディオソースが残響半径外にあるシナリオでは、受信された信号は、より後の反射及び残響によって支配される傾向がある。これは、適応を複雑にし、劣化させ、さらには、実際、多くのシナリオでは、正しいオーディオソースがアクティブであるときでも、正しいオーディオソースへの適応を妨げる。
図3のシステムは適応制御を含み、適応制御は、多くのシナリオでは、適応性能の改善を与え、スピーチキャプチャの改善を生じる。
オーディオキャプチャ装置は、詳細には、検出器307を含み、検出器307は、ビームフォーミングされたオーディオ出力信号においてスピーチのアタックを検出するように構成される。
スピーチのアタックは、前の期間の平均スピーチレベルと比較したときのスピーチレベルの急激な増加である。スピーチセンテンスは音素のシーケンスからなり、各音素は、一定の強度又は音圧を有し、60ミリ秒から100ミリ秒の間の平均長を有する。音素の強度の差分は、極めて大きくなり得る。母音、特に拡張母音は、相対的な強いレベルを有し得る。閉鎖子音は、先行する母音よりも20dB〜30dB低くなり得る。
そのような母音の開始は、レベルが、先行する音素のレベルよりも、たとえば4dB、10dB、さらには20dB強いとき、スピーチアタックと見なされ得る。
したがって、前の期間の平均スピーチレベルに対する(スピーチソースからの)スピーチのレベルの増加(すなわち、ソーススピーチレベルの増加)が、スピーチのアタックとして知られる。前の期間は、一般に、60ミリ秒から100ミリ秒までの範囲内にある。ソーススピーチレベルの増加は、一般に急激な増加であり、しばしば大幅な増加である。たとえば、たとえば5ミリ秒、10ミリ秒又は20ミリ秒以下の期間内のスピーチレベルの、たとえば少なくとも3dB、4dB、10dB以上の増加が、スピーチのアタックであると考えられ得る。
アタックのスピーチは、いくつかの実施形態では、早期反射の信号レベルが後の残響及び/又は残響拡散雑音の信号レベルを支配するときに生じると考えられる。
検出器307は、詳細には、いくつかのシナリオでは、スピーチ発生を検出し、すなわち、スピーチアタック(スピーチのアタック)の特定の例がスピーチの発生である。したがって、検出器307は、(ビームフォーミングされたオーディオ出力信号上でスピーチコンテンツが検出されない)無音期間の後に、スピーチの期間がいつ開始するかを検出するように構成される。
検出器307はコントローラ309に結合され、コントローラ309は、適応器305及び検出器307に結合され、スピーチのアタックの検出から決定される適応時間間隔において適応が生じるようにビームフォームパラメータの適応を制御するように構成される。したがって、適応時間間隔は、スピーチセグメントの開始の検出に応答して決定される。適応時間間隔は、詳細には、スピーチのアタックが検出された(これ以降、スピーチアタック検出とも呼ばれる)ときに開始し、たとえば所定の持続時間を有する。
したがって、コントローラ309は、ビームフォーマ303の適応を開始するように構成され、意義深いことに、適応を停止するようにも構成される。したがって、コントローラ309は、スピーチセグメントが適応時間間隔の持続時間を超えて延長する場合でも、ビームフォーマ303の適応を停止するように構成される。したがって、コントローラ309は、スピーチセグメント中に適応時間間隔を終了するように構成される。したがって、コントローラ309は、詳細には新しいスピーチセグメントの開始時に一般に比較的短い時間間隔において生じるように、適応を制御するように構成される。多くの実施形態では、適応は、そのような適応時間間隔中にのみ生じる。
説明された例では、適応時間間隔は、所定の持続時間又は所定の最大持続時間を有する所定の適応時間間隔である。したがって、適応時間間隔は所定の最大持続時間を有し、したがって、適応は、この所定の最大持続時間の後に終了される。いくつかの実施形態では、コントローラは、たとえば、適応に適していない条件が検出された場合(詳細には、早期反射が支配的でないことが検出された場合)、所定の最大持続時間より前に適応時間間隔を終了するようにさらに構成される。
適応が連続的に(又は、所望のスピーチソースがアクティブであるときに連続的に)実行される従来の手法とは対照的に、コントローラ309は、スピーチセグメントの初期間隔において実行されるように適応を制限する。本手法は、詳細には、ビームフォーマ303を適応させる際にスピーチアタックの特定の特性が利用され得る時間期間中に適応が実行されるように、適応を制御する。本手法は、詳細には、適応の焦点を、それがスピーチセグメントのより後の時間間隔中よりも、直接経路又は早期反射が、より後の反射及び残響に対して有意である初期間隔に合わせる。発明者は、この効果を了解しただけでなく、それが、ビームフォーミングスピーチキャプチャシステムのための、特に、かなりの、しかしながらすべての可能な反射を含むのに十分でない持続時間を有するインパルス応答によって音響室内応答がモデル化されるシステムのための、適応の大幅な改善を与えることもわかった。
本手法は、さらに、スピーチがアクティブであるときはいつでもビームフォーマが連続的に適応されるシナリオについて発明者によって了解される効果を最初に説明することによって、解明される。
ビームフォーマのビームフォームフィルタは、オーディオソースから対応するマイクロフォンへの音響室内応答をエミュレートすることを試みるように適応される。所望のソースが残響半径外にある場合、直接場及び第1の反射によって引き起こされた、音場におけるエネルギーは、(残響を含む)反射の残りによって引き起こされたエネルギーと比較して、比較的低い。したがって、ビームフォーマがスピーチセグメント中に連続的に適応されるとき、適応は、一般に、全体的なキャプチャされるスピーチエネルギーがより大きくなるので、より後の反射に対するものである。したがって、直接経路及び第1の反射への適応ではなく、適応は、一般に、より後の反射に対するものである。
これは、図5に示されているように、スピーカーから2つの異なるマイクロフォンへの2つの簡略化された室内応答を考慮することによって示され得る。
本例では、室内応答は、同じ時間tdにおいてマイクロフォンに到着する直接場/経路寄与を含む。さらに、第1の反射は、同じ時間においてマイクロフォンに到着する(tr1)。さらに、極めて強い反射が、異なる時間tr2及びtr3においてマイクロフォンに到着する。そのようなシナリオにおいて、ビームフォームフィルタがTNに等しい適応フィルタのフィルタ長を有すると考えられる場合、適応フィルタが第1の反射辺りの時間をモデル化することが望まれ、すなわち、インパルス応答がτsからτs+TNの間の時間を反映することが望まれ、ここで、τs=td−Δであり、Δは、マイクロフォンにおいて同じ時間において到着しない直接場寄与を扱うことが可能であるのに十分に大きくなるように選択される。
しかしながら、そのようなシナリオでは、適応は、一般に、主に強い反射によって決定されるようにビームフォームフィルタのインパルス応答を適応させ、したがって、それらは遅延(tr3−tr2)をモデル化するように適応する。
これは、ビームフォーミングされた出力信号zが、フォワードマッチングフィルタにおいてマイクロフォン信号をフィルタ処理し、フィルタ処理された出力を加算することによって取得される、図4の2マイクロフォン例を考慮することから理解され得る。フォワードマッチングフィルタは、フィルタ係数に関する電力制約の下でzの出力電力が最大化される適応プロセスにおいて得られる。これにより、ビームフォームフィルタのインパルス応答は、図6に示されているもののように見えるように適応されることになるが、所望の結果は図7のものである。したがって、同時応答により直接経路及び第1の反射がフィルタ処理の後にコヒーレントに加算することになる所望の結果ではなく、図6の適応されたフィルタにより、これらは減衰されることになる。
しかしながら、図3のシステムの手法では、スピーチのアタックが検出され、詳細には、直接経路からの第1の信号の到来が検出される。この時点において、適応時間間隔が初期化され、すなわち、ビームフォーマ303が、適応することを開始する。したがって、適応器305は、コントローラ309によって、図5中の時間t=tdにおいて適応を開始するように制御される。それは、続いて、TNの持続時間を有する適応時間間隔中にビームフォーマを更新し(詳細には出力電力を最大化する)、ここで、TNは所定であるか、又は、所定の最大値を有し、したがって、適応は、この持続時間内に受信された信号のみに基づいて適応される。この持続時間が十分に短く保たれる場合、適応は、大きい後の反射が到着する時間を含まず、したがって、適応は、より弱くより早期の反射(及び直接経路)に基づき得る。これは、特定の例において、ビームフォームフィルタが、図7の所望のインパルス応答を有するように適応されることを可能にする。
したがって、本手法は、システムが弱い直接経路及び第1の反射をモデル化することが可能になるので、ビームフォーマの適応が、スピーチのアタック中であり、減衰中でないとき、適応の改善が達成されるという洞察に基づく。
言い換えると、スピーチのアタックの場合、信号レベルは、一般に、極めて高速に、及び大幅に増加する。これにより、マイクロフォンアレイにおいて受信された直接経路及び(他の)早期反射が高レベルスピーチ信号から発生し、後の反射を介して、又は残響/拡散雑音として現在受信されている信号成分が、アタックより前に発生し、したがって低い信号レベルに対応する時間が生じる。これにより、室内応答が早期反射よりも強い後の反射/残響を呈する場合でも、早期反射が受信された信号を支配することになる。したがって、システムは、この状況を検出し、詳細には、これが生じたときにビームフォーマを適応させる。
したがって、本手法は、適応するときに所望のオーディオソースを他のオーディオソースからの雑音から分離するように考慮事項又は要望を拡張し、さらに、所望のオーディオソースから受信された異なる信号成分間の、詳細には、より早期の信号成分とより後の信号成分との間の差別化を導入する。したがって、本手法では、拡散音部分は、実際、所望のソースからも発生し、したがって、背景雑音又は他のオーディオソースがない状況においてさえ、本手法は、スピーチが存在するときはいつでも単に適応させる一般的な従来のシステムに勝る適応の改善を与える。本手法は、直接経路及び早期反射成分がより後の反射よりもはるかに弱いときでも、適応の改善を可能にし、実際、システムは、より後の反射がマイクロフォンアレイに達するのに十分な時間を有していなかったことにより、直接経路/早期反射が依然として支配する場合、スピーチのアタックへの適応を限定するように構成される。
異なる実施形態では、スピーチのアタックを検出するための異なる手法が使用されることが理解されよう。実際、スピーチ信号が、拡散背景雑音を含む他のオーディオソースに関して支配的であるいくつかの実施形態では、検出器307は、単に、信号レベルがいつ(たとえば、第1の直接経路の到着を検出するのに十分低く設定された)しきい値を上回って増加するかを検出するレベル検出器である。
しかしながら、たいていの実施形態では、有意な後の反射及び/又は雑音があり、より複雑な検出が有利に適用される。
たとえば、いくつかの実施形態では、検出器307は、受信された後の反射の信号レベルに対する受信された早期反射の信号レベルに応答してスピーチのアタックを直接検出するように構成される。実際、スピーチアタックの初期部分中は早期反射が後の反射を支配するが、スピーチセグメント自体中は後の反射が支配的である。
この効果は、早期反射が支配する時間に焦点を当てている適応において活用されるだけでなく、いくつかの実施形態では、スピーチのアタックを検出するためにも直接使用される。
一例として、検出器307は、ビームフォーミングされたオーディオ信号のエンベロープを決定し、その後、そのエンベロープ信号の高域フィルタ処理が続く。スピーチにおけるアタックは、エンベロープを鋭く上昇させるが、後の残響は、エンベロープを、残響時間によって決定された指数関数に従って緩やかに減衰させる。高域フィルタ処理はエンベロープ信号の減衰部分を除去し、アタックが残る。高域フィルタ処理されたエンベロープ信号がしきい値を超え、後の残響を超える場合、これは、スピーチのアタックの検出に対応すると考えられ得る。
別の例として、2つの低域フィルタが、受信された(スピーチ)信号をフィルタ処理し、一方の低域フィルタは他方よりも低いカットオフ周波数を有する(したがって、より長い持続時間にわたって「平均化」する)。スピーチのアタックが生じた場合、スピーチの信号レベルは、急激に、大幅に増加する。この増加により、低周波数カットオフフィルタ(lower frequency cut−off filter)についてよりも、高周波数カットオフフィルタ(higher frequency cut−off filter)について、出力レベルが高速に増加することになる。事実上、高周波数カットオフフィルタは、この場合、アタック後の信号(post attack signal)、したがって、アタックについての早期反射を表し、低周波数カットオフフィルタは、依然として、アタック前の全信号(pre−attack total signal)を反映し、アタック前の全信号は、後の反射によって支配される。
したがって、スピーチのアタックは、フィルタ出力を比較し、高周波数カットオフフィルタの出力が低周波数カットオフフィルタの出力を所与の量だけ超えるときにスピーチアタックを示すことによって、検出される。
したがって、早期反射と後の反射とを表す信号(又は、早期反射と後の反射との合成を表す信号、すなわち全信号)を評価することによって、適応のための特に有利な状況が検出され得る。これらは、無音期間に続くスピーチ発生において検出されるだけでなく、通常の連続スピーチ中にも決定される。実際、それらは、直接及び早期反射が、受信されたスピーチ信号を支配するときはいつでも適応することが可能であるように検出され得る。スピーチの新しい部分が前の部分よりもはるかに大きいとき、直接及び早期反射は、前の部分からのより後の反射のより弱い部分を支配する。これが検出され、次いで適応が実行され、室内応答の所望のセクション、すなわち早期応答への適応の改善が生じる。
図3の例では、ビームフォーマ303は、ビームフォーミングされたオーディオ出力信号と1つ又は複数の雑音基準信号の両方を生成するように構成される。そのような実施形態では、検出器307は、少なくとも1つの雑音基準信号についての信号レベル(詳細には電力)指示に対するビームフォーミングされたオーディオ出力信号についての信号レベル(詳細には電力)指示の比較に応答してスピーチのアタックを検出するように構成される。したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは雑音基準信号の信号レベルと比較され、スピーチのアタックの検出はこの比較に基づく。たとえば、ビームフォーミングされたオーディオ出力信号の信号レベルが雑音基準信号の信号レベルを所与のマージンだけ超える場合、これは、スピーチのアタックの検出に対応すると考えられる。
実際、無音期間(又は、後の反射/残響が支配する場合、一定のスピーチレベル)の後に、ビームの方向においてキャプチャされたオーディオと、他の方向においてキャプチャされたオーディオとは、一般に、(場合によってはビームの幅の補償の後に)かなり類似する。たとえば、拡散雑音が空間的に一様に分布している場合、信号レベルの唯一の差分は、ビームが狭いことによるものであり、したがって、これは補償される。
しかしながら、ビームがすでに所望のスピーチソースに集束された(すなわち、何らかの適応がすでに実行された)場合、スピーチのアタックにより、対応する増加された信号レベルがビームフォーマ303によってキャプチャされることになり、ビームフォーミングされたオーディオ出力信号の信号レベルが増加する。さらに、ビームフォームフィルタが直接経路及び早期反射に適応され、これらが、初期アタック中、アタックから受信されるすべてであるとき、スピーチソースから受信されたエネルギーの大部分がキャプチャされ、したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは増加し、雑音基準信号の信号レベルは一定にとどまる。したがって、雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルは大幅に増加し、これは、スピーチのアタックとして検出され得る。
さらに、一定の遅延の後に、アタックからの後の反射がマイクロフォンアレイに到着する。しかしながら、これらが、ビームフォームフィルタのインパルス応答の持続時間よりも長い遅延を伴って到着した(すなわち、それらが、ビームフォームフィルタのインパルス応答の持続時間を超える遅延を伴う室内応答の反射である)場合、それらは、ビームフォーミングされたオーディオ出力信号にコヒーレントに合成されないが、結果として、雑音基準信号にも寄与している。したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは、(より後の反射がより強いと仮定して)雑音基準信号の信号レベルよりももはや高くなくなり、その結果、検出器307はスピーチのアタックをもはや検出しなくなる。
したがって、そのような検出器307は、詳細には、単にスピーチの存在とは対照的に、スピーチのアタックを検出することができる。さらに、これはスピーチセグメント中に連続的に行われ得、実際、本手法は、後の反射を支配する早期反射を生じるスピーチのアタックの自動検出を可能にする。これは、極めて有利な手法を与える。
実際、いくつかの実施形態では、適応時間間隔の開始と終了の両方が、検出器307の出力に応答して決定される。詳細には、適応時間間隔は、検出器307が、スピーチアタックが検出された(たとえば、信号レベルの差分がしきい値を超える)ことを示すときに開始され、検出器307がスピーチのアタックを検出しなくなる(たとえば、信号レベルの差分がもはやしきい値を超えなくなる)まで続く。いくつかの実施形態では、適応時間間隔の終了は、所定の持続時間の後に生じると決定される。他の実施形態では、終了時間は所定の最大持続時間の後に決定されるか、又は特定の条件が検出された場合、適応時間間隔はこれより前になるように決定される。
以下では、スピーチのアタックの検出についての特定の及び特に有利な手法が説明される。本手法は、ビームフォーミングされたオーディオ出力信号を雑音基準信号と比較する手法に基づくが、個々の時間周波数タイルにおける比較に基づく。本手法は、オーディオソースが残響半径外にあり、かなりの雑音が存在する特定のシナリオを含む多くの実際的シナリオにおいて、極めてロバストであり、極めて有利な性能を与える検出を与えることがわかっている。
本手法では、図3の検出器307は、図8に示されているような要素を備える。詳細には、検出器307は、スピーチのアタックが生じているか否かを示すスピーチアタック推定値を生成するように構成された検出器307を含む。検出器307は、ビームフォーマ303によって生成された、ビームフォーミングされたオーディオ出力信号及び雑音基準信号に基づいてこの推定値を決定する。
検出器307は、ビームフォーミングされたオーディオ出力信号に周波数変換を適用することによって第1の周波数ドメイン信号を生成するように構成された第1の変換器801を備える。詳細には、ビームフォーミングされたオーディオ出力信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第1の周波数ドメイン信号は周波数ドメインサンプルによって表され、各周波数ドメインサンプルが特定の時間間隔(対応する処理フレーム)と特定の周波数間隔とに対応する。各そのような周波数間隔及び時間間隔は、一般に、時間周波数タイルとして知られるフィールドにある。したがって、第1の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
検出器307は、雑音基準信号を受信する第2の変換器803をさらに備える。第2の変換器803は、雑音基準信号に周波数変換を適用することによって第2の周波数ドメイン信号を生成するように構成される。詳細には、雑音基準信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第2の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
図9は、第1の変換ユニット801及び第2の変換ユニット803の可能な実装形態の機能要素の特定の例を示す。本例では、直列並列変換器が2Bのサンプルの重複するブロック(フレーム)を生成し、それらは次いで、ハニング窓掛けされ、高速フーリエ変換(FFT)によって周波数ドメインに変換される。
ビームフォーミングされたオーディオ出力信号及び雑音基準信号は、以下では、それぞれz(n)及びx(n)と呼ばれ、第1の周波数ドメイン信号及び第2の周波数ドメイン信号は、ベクトル
及び
によって参照される(各ベクトルは、所与の処理/変換時間セグメント/フレームについてのすべてのM周波数タイル値を含む)。
多くの実施形態では、ビームフォーマ303は、図1の例の場合のように、適応フィルタを備え、適応フィルタは、雑音基準信号と相関させられるビームフォーミングされたオーディオ出力信号における雑音を減衰又は除去する。
周波数ドメインへの変換の後に、時間周波数値の実数及び虚数成分は、ガウス分布していると仮定される。この仮定は、一般に、たとえば、拡散音場から雑音が発生するシナリオについて、センサー雑音について、及び多くの実際的シナリオにおいて経験されるいくつかの他の雑音ソースについて正確である。
第1の変換器801と第2の変換器803とは、差分プロセッサ805に結合され、差分プロセッサ805は、個々のタイル周波数についての時間周波数タイル差分測度を生成するように構成される。詳細には、差分プロセッサ805は、FFTから生じる各周波数ビンについての現在フレームについて、差分測度を生成することができる。差分測度は、ビームフォーミングされたオーディオ出力信号及び雑音基準信号の、すなわち、第1の周波数ドメイン信号及び第2の周波数ドメイン信号の対応する時間周波数タイル値から生成される。
特に、所与の時間周波数タイルについての差分測度は、第1の周波数ドメイン信号の(すなわち、ビームフォーミングされたオーディオ出力信号の)時間周波数タイル値のノルムの第1の単調関数と第2の周波数ドメイン信号(雑音基準信号)の時間周波数タイル値のノルムの第2の単調関数との間の差分を反映するように生成される。第1の単調関数と第2の単調関数とは、同じであるか又は異なる。
ノルムは、一般に、L1ノルム又はL2ノルムである。ここで、多くの実施形態では、時間周波数タイル差分測度は、第1の周波数ドメイン信号の値の大きさ又は電力(power)の単調関数と第2の周波数ドメイン信号の値の大きさ又は電力の単調関数との間の差分を反映する差分指示として決定される。
単調関数は、一般に、両方とも単調増加であるが、いくつかの実施形態では、両方とも単調減少である。
異なる実施形態では異なる差分測度が使用されることが理解されよう。たとえば、いくつかの実施形態では、差分測度は、単に、第1の関数の結果及び第2の関数の結果を互いから減算することによって決定される。他の実施形態では、第1の関数の結果及び第2の関数の結果を互いで除算して、差分を示す比などを生成する。
したがって、差分プロセッサ805は、各時間周波数タイルについての時間周波数タイル差分測度を生成し、その差分測度は、その周波数におけるビームフォーミングされたオーディオ出力信号及び雑音基準信号それぞれの相対レベルを示す。
差分プロセッサ805は、スピーチアタック推定器807に結合され、スピーチアタック推定器807は、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してスピーチアタック推定値を生成する。したがって、スピーチアタック推定器807は、所与の周波数超の周波数についての周波数タイル差分測度を合成することによってスピーチアタック推定値を生成する。合成は、詳細には、所与のしきい値周波数超のすべての時間周波数タイル差分測度の、総和、又は、たとえば、周波数依存重み付けを含む重み付き合成(weighted combination)である。
したがって、スピーチアタック推定値は、所与の周波数超のビームフォーミングされたオーディオ出力信号のレベルと雑音基準信号のレベルとの間の相対周波数固有差分を反映するように生成される。しきい値周波数は、一般に、500Hzを上回る。
発明者は、そのような測度が、スピーチアタックが生じるか否かの強い指示を与えることを了解した。実際、発明者は、周波数固有比較が、より高い周波数への制限とともに、実際には、スピーチアタックの存在の指示の改善を与えることを了解した。さらに、発明者は、推定値が、音響環境、及び従来の手法が正確な結果を与えないシナリオにおいて適用するのに適していることを了解した。詳細には、説明される手法は、マイクロフォンアレイ301から遠くにあり(及び残響半径外にあり)、強い拡散雑音の存在下にある、非支配的スピーチソースについてさえ、スピーチアタックの有利で正確な検出を与える。
多くの実施形態では、スピーチアタック推定器807は、スピーチアタックが検出されたか否かを単に示すためにスピーチアタック推定値を生成するように構成される。詳細には、スピーチアタック推定器807は、合成された差分値がしきい値を超える場合、スピーチアタックが検出されたことを示すように構成される。したがって、生成された合成された差分値が、差分が所与のしきい値よりも高いことを示す場合、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されたと考えられる。合成された差分値がしきい値を下回る場合、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されなかったと考えられる。
したがって、説明される手法は、スピーチアタックの低複雑度検出を与える。特に、スピーチアタック推定値が、前に説明された特性を呈すること、すなわち、無音期間又は一定の信号レベル期間中は推定値が低くなり、アタックの後の反射ではなく早期反射が受信されるときのアタックの時間中は推定値が高くなり、(インパルス応答間隔外である)アタックの強い後の反射が受信されるときのアタックの後は推定値が低くなることに留意されたい。したがって、本手法は、スピーチアタック推定値が、単にスピーチの存在を検出することではなく、スピーチアタックが生じていることを直接示すことを可能にする。特定の手法は、さらに、実際には極めて効率的な性能を与えることがわかっており、実際、残響間隔外のスピーチソースについて、並びに、後の反射及び残響から生じる強い雑音の存在下で、有利な検出を与えることがわかった。
以下では、スピーチアタック推定値の極めて有利な決定の特定の例が説明される。
本例では、ビームフォーマ303は、前に説明されたように、所望のスピーチソースに集束するように適応する。ビームフォーマ303は、ソースに集束されるビームフォーミングされたオーディオ出力信号、並びに、他のソースからの後の残響及び場合によってはオーディオを示す雑音基準信号を与える。ビームフォーミングされたオーディオ出力信号はz(n)として示され、雑音基準信号はx(n)として示される。z(n)とx(n)の両方は、一般に、後の残響及び場合によっては雑音で汚染され、それらの両方が拡散雑音としてモデル化され得る。
Z(tk,ωl)を、ビームフォーミングされたオーディオ出力信号に対応する(複素)第1の周波数ドメイン信号とする。この信号は、所望の(直接及び第1の反射)スピーチ信号Zs(tk,ωl)と、(ビームフォーマのビームフォームフィルタによってモデル化され得ない残響及び後の反射を含む)残響スピーチ信号Zr(tk,ωl)とからなり、
Z(tk,ωl)=Zs(tk,ωl)+Zr(tk,ωl)
である。
Zr(tk,ωl)の振幅が知られていた場合、変数dを、
d(tk,ωl)=|Z(tk,ωl)|−|Zr(tk,ωl)|
のように導出することが可能であり、
これは、スピーチ振幅|Zs(tk,ωl)|を表す。
第2の周波数ドメイン信号、すなわち、雑音基準信号x(n)の周波数ドメイン表現は、Xn(tk,ωl)によって示される。
zr(n)とx(n)とは、それらが両方とも拡散雑音を表し、等しい分散を伴う(zr)信号を加算すること又は等しい分散を伴う(x)信号を減算することによって取得されるので、等しい分散を有すると仮定され得、結果として、Zr(tk,ωl)及びXn(tk,ωl)の実部及び虚部も等しい分散を有することになる。したがって、|Zr(tk,ωl)|は、上式では|Xn(tk,ωl)|によって置換され得る。
スピーチが存在しない(したがって、Z(tk,ωl)=Zr(tk,ωl))場合、これは、
d(tk,ωl)=|Zr(tk,ωl)|−|Xn(tk,ωl)|
につながり、
ここで、|Zr(tk,ωl)|と|Xn(tk,ωl)|とは、実部及び虚部がガウス分布しており、依存しないので、レイリー分布になる。
2つの確率変数の差分の平均は、平均の差分に等しく、したがって、上記の時間周波数タイル差分測度の平均値は0であり、
E{d}=0
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、したがって、
var(d)=(4−π)σ2
である。
次に、分散は、(t
k,ω
l)平面におけるL個の非依存値にわたって|Z
r(t
k,ω
l)|と|X
n(t
k,ω
l)|とを平均化することによって低減され得、
を与える。
平滑化(低域フィルタ処理)は平均を変更せず、したがって、
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、
である。
したがって、平均化は、雑音の分散を低減する。
したがって、スピーチが存在しないときの時間周波数タイル差分測度の平均値は、0である。しかしながら、スピーチ(直接及び第1の反射)の存在下では、平均値は増加する。詳細には、スピーチ成分のL個の値にわたる平均化は、|Zs(tk,ωl)|のすべての要素が正であり、
E{|Zs(tk,ωl)|}>0
であるので、あまり効果がない。
したがって、スピーチが存在するとき、上記の時間周波数タイル差分測度の平均値は0を上回り、
である。
時間周波数タイル差分測度は、1よりも大きい過減算因子(over−subtraction factor)γの形態の設計パラメータを適用することによって変更され、
である。
この場合、平均値
は、(直接及び第1の反射)スピーチが存在しないとき、及び実際、スピーチが存在するが、後の支配的な反射がビームフォームフィルタのインパルス応答の長さ/持続時間外の遅延を伴って到着するとき、0を下回る。しかしながら、過減算因子γは、スピーチアタックの存在下での平均値
が0を上回る傾向があるように選択される。
スピーチアタック推定値を生成するために、複数の時間周波数タイルについての時間周波数タイル差分測度は、たとえば単純な総和によって、合成される。さらに、合成は、第1のしきい値を上回る周波数についての時間周波数タイルのみを、場合によっては、第2のしきい値を下回る時間周波数タイルについてのみ、含むように構成される。
詳細には、スピーチアタック推定値は、次のように生成される。
このスピーチアタック推定値は、雑音基準信号におけるエネルギーの量に対する、ビームフォームフィルタインパルス応答のウィンドウ内に受信された所望のスピーチソースからのビームフォーミングされたオーディオ出力信号におけるエネルギーの量を示す。したがって、それは、スピーチアタックを区別するための特に有利な測度を与える。詳細には、スピーチのアタックは、e(tk)が正である場合、存在すると考えられる。e(tk)が負である場合、所望のスピーチソースが見つけられないか、又は、インパルス応答ウィンドウ外の後の反射が支配すると考えられる。他の実施形態では0以外の他のしきい値が使用されることが理解されよう。
上記の説明は図3のシステムの手法の背景及び利益を例示するが、本手法を損なうことなしに多くの変形及び変更が適用され得ることが理解されよう。
異なる実施形態では、たとえばビームフォーミングされたオーディオ出力信号の大きさと雑音基準信号の大きさとの間の差分を反映する差分測度を決定するために異なる関数及び手法が使用されることが理解されよう。実際、異なるノルムを使用すること又はノルムに異なる関数を適用することは、異なる特性をもつ異なる推定値を与えるが、依然として、所与の時間周波数タイルにおけるビームフォーミングされたオーディオ出力信号と雑音基準信号との間の基本的な差分を示す差分測度を生じる。
したがって、多くの実施形態では、前に説明された特定の手法が特に有利な性能を与えるが、他の実施形態では、適用例の特定の特性に応じて多くの他の関数及び手法が使用される。
より一般的には、差分測度は、
d(tk,ωl)=f1(|Z(tk,ωl)|)−f2(|X(tk,ωl)|)
のように計算され、
ここで、f1(x)とf2(x)とは、個々の実施形態の特定の選好及び要件に適している任意の単調関数であるように選択され得る。一般に、関数f1(x)及びf2(x)は、単調増加又は減少関数である。また、単に大きさを使用するのではなく、他のノルム(たとえば、L2ノルム)が使用されることが理解されよう。
時間周波数タイル差分測度は、上記の例では、第1の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第1の単調関数f1(x)と、第2の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第2の単調関数f2(x)との間の差分を示す。いくつかの実施形態では、第1の単調関数と第2の単調関数とは、異なる関数である。しかしながら、たいていの実施形態では、2つの関数は等しい。
さらに、関数f1(x)及びf2(x)の一方又は両方は、たとえば、マイクロフォン信号の全体的な平均電力レベル、周波数など、様々な他のパラメータ及び測度に依存する。
多くの実施形態では、関数f1(x)及びf2(x)の一方又は両方は、たとえば、周波数及び/又は時間次元における他のタイルにわたるZ(tk,ωl)、|Z(tk,ωl)|、f1(|Z(tk,ωl)|)、X(tk,ωl)、|X(tk,ωl)|、又はf2(|X(tk,ωl)|)のうちの1つ又は複数の平均化(すなわち、k及び/又はlの変動するインデックスについての値の平均化)による、他の周波数タイルについての信号値に依存する。多くの実施形態では、時間次元と周波数次元の両方において拡張する近傍にわたる平均化が実行される。早期に与えられた特定の差分測度式に基づく特定の例について後で説明するが、対応する手法が、差分測度を決定する他のアルゴリズム又は関数にも適用されることが理解されよう。
差分測度を決定するための可能な関数の例は、たとえば、
d(t
k,ω
l)=|Z(t
k,ω
l)|
α−γ・|X(t
k,ω
l)|
β
を含み、ここで、α及びβは、たとえば、
などにおける、一般にα=βである設計パラメータであり、ここで、σ(ω
l)は、差分測度及びスピーチアタック推定値の所望のスペクトル特性を与えるために使用される好適な重み付け関数である。
これらの関数が例にすぎず、距離測度を計算するための多くの他の式及びアルゴリズムが想定され得ることが理解されよう。
上式では、因子γは、差分測度を負値のほうへバイアスするために導入される因子を表す。特定の例は、雑音基準信号時間周波数タイルに適用される単純なスケール因子によってこのバイアスを導入するが、多くの他の手法が可能であることが理解されよう。
実際、負値のほうへのバイアスを与えるために第1の関数f1(x)及び第2の関数f2(x)を構成する任意の好適なやり方が使用される。バイアスは、詳細には、前の例の場合のように、スピーチがない場合、又はスピーチが主に後の(遅すぎる)反射によって受信される場合に負である差分測度の予想される値を生成するバイアスである。実際、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方がランダム雑音のみを含んでいる(たとえば、サンプル値が平均値のあたりで対称的に及びランダムに分布している)場合、差分測度の予想される値は、0ではなく負である。前の特定の例では、これは、スピーチアタックがないときに負値を生じた過減算因子γによって達成された。
説明される考慮事項に基づく検出器307の一例が、図10において与えられる。本例では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とは、第1の変換器801及び第2の変換器803に与えられ、第1の変換器801及び第2の変換器803は、対応する第1の周波数ドメイン信号及び第2の周波数ドメイン信号を生成する。
周波数ドメイン信号は、たとえば、たとえば時間ドメイン信号の重複するハニング窓掛けされたブロックの短時間フーリエ変換(STFT)を算出することによって、生成される。STFTは、概して、時間と周波数の両方の関数であり、2つの引数tk及びωlによって表され、tk=kBは離散時間であり、ここで、kはフレームインデックスであり、Bはフレームシフトであり、ωl=lω0は(離散)周波数であり、lは周波数インデックスであり、ω0は基本周波数間隔を示す。
したがって、この周波数ドメイン変換の後に、長さのベクトル
及び
それぞれによって表された周波数ドメイン信号が与えられる。
周波数ドメイン変換は、特定の例では、大きさユニット(magnitude unit)1001、1003に供給され、大きさユニット1001、1003は、2つの信号の大きさを決定及び出力し、すなわち、それらは、値
を生成する。
他の実施形態では、他のノルムが使用され、処理は、単調関数を適用することを含む。
大きさユニット1001、1003は低域フィルタ1005に結合され、低域フィルタ1005は、大きさ値を平滑化する。フィルタ処理/平滑化は、時間ドメイン、周波数ドメイン、又は、しばしば有利にはその両方におけるものであり、すなわち、フィルタ処理は、時間次元と周波数次元の両方において拡張する。
フィルタ処理された大きさの信号/ベクトル
及び
は、
及び
とも呼ばれる。
フィルタ1005は差分プロセッサ805に結合され、差分プロセッサ805は、時間周波数タイル差分測度を決定するように構成される。特定の例として、差分プロセッサ805は、次のように時間周波数タイル差分測度を生成する。
設計パラメータγnは、一般に、1..2の範囲内にある。
差分プロセッサ805はスピーチアタック推定器807に結合され、スピーチアタック推定器807は、時間周波数タイル差分測度を供給され、応答して、続いて、これらを合成することによってスピーチアタック推定値を決定する。
詳細には、ω
l=ω
lowからω
l=ω
highの間の周波数値についての時間周波数タイル差分測度
の和が、次のように決定される。
いくつかの実施形態では、この値は検出器307から出力される。他の実施形態では、決定された値は、しきい値と比較され、たとえば、スピーチアタックが検出されたと考えられるか否かを示す2進値を生成するために使用される。詳細には、値e(tk)は0のしきい値と比較され、すなわち、値が負である場合は、スピーチアタックが検出されなかったと考えられ、値が正である場合は、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されたと考えられる。
本例では、検出器307は、ビームフォーミングされたオーディオ出力信号の大きさ時間周波数タイル値についての、及び雑音基準信号の大きさ時間周波数タイル値についての低域フィルタ処理/平均化を含む。
平滑化は、詳細には、隣接値にわたって平均化を実行することによって実行される。たとえば、以下の低域フィルタ処理が第1の周波数ドメイン信号に適用される。
ここで、(N=1の場合)Wは1/9の重みをもつ3*3行列である。他の実施形態では、もちろんNの他の値が使用され得、同様に、異なる時間間隔が使用され得ることが理解されよう。実際、フィルタ処理/平滑化がそれにわたって実行されるサイズは、たとえば周波数に応じて変動している(たとえば、より低い周波数についてよりも大きいカーネルが、より高い周波数について適用される)。
実際、フィルタ処理は、時間方向(考慮される隣接時間フレームの数)と周波数方向(考慮される隣接周波数ビンの数)の両方における好適な拡張を有するカーネルを適用することによって達成され、実際、このようなカーネルのサイズは、たとえば異なる周波数について又は異なる信号特性について変動していることが理解されよう。
また、上式においてW(m,n)によって表されるように、異なるカーネルは変動しており、これは、同様に、たとえば異なる周波数についての、又は信号特性に応答する動的変動である。
フィルタ処理は、後の残響及び雑音を低減し、したがってより正確な推定を与えるだけでなく、それは特に、(直接及び第1の反射)スピーチと後の残響及び雑音との間の差別化をも高める。実際、フィルタ処理は、ポイントオーディオソースの直接経路及び第1の反射に対する影響よりも大幅に大きな影響を後の残響及び雑音に対して有し、これにより、より大きい差分が時間周波数タイル差分測度について生成されることになる。
図1のものなど、ビームフォーマについてのビームフォーミングされたオーディオ出力信号と(1つ又は複数の)雑音基準信号との間の相関は、周波数が増加するにつれて低減することがわかった。したがって、スピーチアタック推定値は、しきい値を上回る周波数についての時間周波数タイル差分測度のみに応答して生成される。これにより、スピーチが存在するとき、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の無相関の増加、したがってより大きい差分が生じる。これにより、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの検出がより正確になる。
多くの実施形態では、500Hzを下回らない、又は、いくつかの実施形態では、有利には、1kHz、さらには2kHzを下回らない周波数についての時間周波数タイル差分測度のみに基づくようにスピーチアタック推定値を限定することによって、有利な性能が見つけられた。
しかしながら、いくつかの適用例又はシナリオでは、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の有意な相関は、比較的高いオーディオ周波数についてさえ残り、実際、いくつかのシナリオでは、オーディオ帯域全体について残る。
実際、理想的な球状等方性拡散音場では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とが部分的に相関され、その結果、|Zr(tk,ωl)|及び|Xn(tk,ωl)|の予想される値は等しくなくなり、したがって、|Zr(tk,ωl)|は|Xn(tk,ωl)|と容易に置き換えられ得ない。
これは、理想的な球状等方性拡散音場の特性を見ることによって理解され得る。2つのマイクロフォンが、そのような場で距離d離れて置かれ、それぞれマイクロフォン信号U(t
k,ω
l)及びU
2(t
k,ω
l)を有するとき、
E{|U
1(t
k,ω)|
2}=E{|U
2(t
k,ω)|
2}=2σ
2
及び
になり、
波数
(cは音速である)であり、σ
2は、ガウス分布している、U
1(t
k,ω
l)及びU
2(t
k,ω
l)の実部及び虚部の分散である。
ビームフォーマが単純な2マイクロフォン遅延和(Delay−and−Sum)ビームフォーマであり、ブロードサイド(broadside)ビームを形成する(すなわち、遅延が0である)と仮定する。
Z(tk,ωl)=U1(tk,ωl)+U2(tk,ωl)、
及び、雑音基準信号の場合、
X(tk,ωl)=U1(tk,ωl)−U2(tk,ωl)
と書くことができる。
得られた予想される値について、後の残響及び場合によっては雑音のみが存在すると仮定すると、
である。
同様に、E{|X(tk,ω)|2}について、
E{|X(tk,ω)|2}=4σ2(1−sinc(kd))
が得られる。
したがって、低い周波数について、|Zr(tk,ωl)|と|Xn(tk,ωl)|とは、等しくない。
いくつかの実施形態では、検出器307は、そのような相関を補償するように構成される。特に、検出器307は、雑音コヒーレンス推定値C(tk,ωl)を決定するように構成され、雑音コヒーレンス推定値C(tk,ωl)は、雑音基準信号の振幅とビームフォーミングされたオーディオ出力信号の雑音成分の振幅との間の相関を示す。次いで、時間周波数タイル差分測度の決定は、このコヒーレンス推定値の関数としてのものである。
実際、多くの実施形態では、検出器307は、ビームフォーマからのビームフォーミングされたオーディオ出力信号及び雑音基準信号についてのコヒーレンスを、予想される振幅間の比に基づいて決定するように構成される。
ここで、E{.}は期待値演算子である。コヒーレンス項は、ビームフォーミングされたオーディオ出力信号における雑音成分の振幅と雑音基準信号の振幅との間の平均相関の指示である。
C(tk,ωl)は、マイクロフォンにおける瞬時オーディオに依存せず、代わりに、雑音音場の空間的特性に依存するので、時間の関数としてのC(tk,ωl)の変動は、Zr及びXnの時間変動よりもはるかに小さい。
その結果、C(tk,ωl)は、直接スピーチ及び第1の反射が存在しない期間中の時間にわたって|Zr(tk,ωl)|と|Xn(tk,ωl)|とを平均化することによって、比較的正確に推定され得る。そうするための手法は、米国特許第7602926号において開示され、米国特許第7602926号は、詳細には、C(tk,ωl)を決定するための、明示的スピーチ検出が必要とされない方法が記載されている。
雑音コヒーレンス推定値C(tk,ωl)を決定するための任意の好適な手法が使用されることが理解されよう。たとえば、e(tk)があるしきい値を超えず、これが、直接スピーチ及び早期反射が利用可能/支配的でないことを示す、各時間周波数タイルについて、第1の周波数ドメイン信号と第2の周波数ドメイン信号とが比較され得、雑音相関推定値C(tk,ωl)は、単に、第1の周波数ドメイン信号の時間周波数タイル値と第2の周波数ドメイン信号の時間周波数タイル値との平均比として決定され得る。
理想的な球状等方性拡散雑音場の場合、コヒーレンス関数も、上記で説明された手法に従って分析的に決定され得る。
この推定値に基づいて、|Z
r(t
k,ω
l)|は、|X
n(t
k,ω
l)|だけではなく、C(t
k,ω
l)|X
n(t
k,ω
l)|と置き換えられ得る。これにより、時間周波数タイル差分測度が
によって与えられる。
したがって、前の時間周波数タイル差分測度は、コヒーレンス関数が1の一定値に設定された、上記の差分測度の特定の例と考えられ得る。
コヒーレンス関数の使用により、本手法は、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の比較的強い相関がある周波数を含む、より低い周波数において使用されることが可能になる。
本手法は、さらに有利には、多くの実施形態では、適応キャンセラをさらに含み、適応キャンセラは、少なくとも1つの雑音基準信号と相関されるビームフォーミングされたオーディオ出力信号の信号成分をキャンセルするように構成されることが理解されよう。たとえば、図1の例と同様に、適応フィルタは、入力としての雑音基準信号を有し、その出力が、ビームフォーミングされたオーディオ出力信号から減算される。適応フィルタは、たとえば、スピーチが存在しない時間間隔中の得られた信号のレベルを最小化するように構成される。
したがって、スピーチのアタック中に、ビームフォーマからのビームフォーミングされたオーディオ出力信号が雑音基準と比較して大きく、雑音基準が、より後の、及び潜在的に支配的な反射が受信されたとき、(出力信号に対して)増加する(及び、後になっても、反射が拡散音場から来るものとしてモデル化され得る)という洞察は、特定のスピーチアタック推定値の発展につながった。実際、生成された測度e(tk)は、直接場及び第1の反射がマイクロフォン信号(e(tk)正)を支配するかどうか、或いは、残りの後の反射及び/又は拡散エコーがマイクロフォン信号(e(tk)負)を支配するかどうかの優れた指示を与える。それは、ビームフォーマが、一般的なスピーチセグメント中の頻繁な間隔中に適応されることをも可能にする。実際、それは、休止の後のスピーチセグメントのまさに開始においてのみ適応するように限定されないが、スピーチセグメント中にアタックが生じるときはいつでも適応が生じることを可能にする。
ビームフォーマを適応させるための、及びビームフォームフィルタについての好適な更新値を決定するための多くの異なる手法が知られており、任意の好適な手法が、図3(又は図11)の適応器によって使用されることが理解されよう。
また、異なる適応ステップサイズ、したがって異なる適応レート又は帯域幅が使用され得ることが理解されよう。実際、多くの実施形態では、適応ステップサイズは、有利には適応可能にされ、動的に変動している。
実際、多くの実施形態では、(一定の頻度の更新について、ビームフォームパラメータの変更のサイズ、大きさ、又はスケーリングに対応する)適応レートが、個々の時間周波数タイルについて個々に適応されることが有利であることがわかっている。実際、発明者は、所与の時間周波数タイルについての時間周波数タイル差分に応答してそのタイルについての適応レートを適応させることが特に有利であることを了解した。詳細には、適応レート又はサイズは、その時間周波数タイルについての差分測度に依存する因子によってスケーリングされる。そのような手法の効果は、それが一般に適応を周波数依存にすることである。
特定の例として、適応ステップサイズは周波数依存利得関数を乗算され、周波数依存利得関数は、0から1の間で変動し、個々の時間周波数タイルについての差分測度に依存する。可能な利得関数は、詳細には、
である。
この利得因子は、
が
と比較して小さい状況では、G(t
k,ω
l)が約1であるという特徴を有する。
が|Z(t
k,ω
l)|よりも大きい状況では、G(t
k,ω
l)は0である。したがって、適応は、ビームフォーミングされたオーディオ出力信号のエネルギーレベルと雑音基準信号のエネルギーレベルとの比較から生じるスピーチアタックの指示を反映するように、周波数依存で適応される。
異なる実施形態では、適応時間間隔の持続時間が異なることが理解されよう。たとえば、いくつかの実施形態では、適応時間間隔は、スピーチのアタックが検出されたとき開始し、固定時間期間の間続く。そのような場合、適応持続時間がスピーチの蓄積全体を含むのに十分に長いが、好ましくは、強いより後の反射が支配的になるときに適応を含まないことが望ましい。
多くの実施形態では、適応時間間隔が長すぎないことが望ましく、実際、しばしば100ミリ秒を下回る持続時間について性能の改善が見られることがわかっている。
本手法は、(人工的な)例によってさらに示される。第1に、スピーチ信号が単一のディラックパルスからなると考えられる場合、マイクロフォンにおいて受信された信号は、室内インパルス応答である。ビームフォームフィルタが、最初の、たとえば、16ミリ秒をモデル化することができる(すなわち、ビームフォームフィルタインパルス応答長が16ミリ秒である)と仮定される場合、第1の音がマイクロフォンに達した後、音の最初の16ミリ秒のみがフィルタによってモデル化され得るので、これのみが有用である。したがって、16ミリ秒後に適応を停止することが望ましい。
しかしながら、代わりに、スピーチ信号が、各々が16ミリ秒だけ分離されるが、たとえば、1、1000、1000000の(すなわち、大幅に増加する)振幅をもつ3つの続いて起こるディラックパルスからなると仮定される場合、(一般に第1のディラックパルスの直接経路に対応する)第1の音の到着の後の最初の16ミリ秒中、すべての受信された音は有用であり、適応するに値する。16ミリ秒後、第1のパルスからの不要な音が受信され、すなわち、モデル化され得ない後の反射が第1のディラックパルスから受信される。しかしながら、さらに、有用で関連する音が第2のディラックパルスから受信される(すなわち、この音は、モデル化され得る室内応答の最初の16ミリ秒内にあるので、これは、ビームフォームフィルタによって依然としてモデル化され得る)。さらに、第2のディラックパルスからのこの音は、第1のディラックパルスからの残りの音よりもはるかに強く、したがって有用である。したがって、依然として、ビームフォーマ303を適応させることが望ましい。これは、第3のディラックパルスについても繰り返し、すなわち、32ミリ秒後、モデル化され得ない後の反射が第1及び第2のディラックパルスから受信されるが、同時に、モデル化され得る強い信号が第3のディラックパルスから受信されている。したがって、このシナリオでは、48ミリ秒後に適応を停止することが望ましい。
したがって、(人工的なディラックパルスによって示される)事実上3つの異なるスピーチアタックが生じるこの状況では、適応時間間隔は、スピーチアタックの各検出において開始される。実際、各適応時間間隔が終了される前に、新しいスピーチアタックが検出され、適応時間間隔は、前のスピーチからの後の反射が(新しいアタックから生じるより高い信号レベルにより)新しいアタックについての早期反射によって支配されることを反映するように拡張される。
いくつかの実施形態では、適応時間間隔は、インパルス応答の持続時間の50%から200%の間の持続時間を有するように構成される。多くの実施形態では、適応時間間隔は、インパルス応答の持続時間を超えない持続時間を有するように構成される。特に、いくつかの実施形態では、そのような持続時間は、所定であるように設定される。たとえば、上記の特定のシナリオでは、インパルス応答は16ミリ秒の持続時間を有し、適応時間間隔の持続時間は16ミリ秒になるように設定される。これにより、本例では、16ミリ秒の3つの連続する適応時間間隔が生じ、48ミリ秒の所望の全体的適応持続時間が生じる。
多くの実施形態では、コントローラ309は、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して適応時間間隔の終了時間を決定するように構成される。たとえば、雑音基準信号の信号電力に対するビームフォーミングされたオーディオ出力信号の信号電力の比又は差分が所与のレベルを下回る場合、これは、前に説明されたように、モデル化され得ない後の反射が支配的になっていることを示す。したがって、コントローラは適応を終了する。したがって、いくつかの実施形態では、コントローラ309は、特定の条件が生じたことが検出された場合、所定の最大持続時間より前に適応時間間隔を終了するように構成される。この条件は、詳細には、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較によって決定される。
特定の例として、コントローラ309は、上記で導出された値e(tk)を連続的に監視し、これが所与のしきい値(一般に0)を下回る場合、適応は終了される。
したがって、実際、詳細にはe(tk)などのスピーチアタック推定値がスピーチの非定常性により変動するので、コントローラがこれを連続的に監視する、システムが与えられる。スピーチアタック推定値がしきい値を上回って増加する場合、コントローラ309は適応を開始し、スピーチアタック推定値がしきい値を下回るとき、コントローラ309は適応を停止する。このようにして、本システムは、モデル化され得る直接経路及び早期反射が、モデル化され得ない後の反射及び残響を支配する時間中にのみ生じるように、ビームフォーマ303の適応を自動的に制御する。
以下では、特に有利なオーディオキャプチャシステムを与えるために、スピーチアタック検出器307が他の説明される要素と相互作用するオーディオキャプチャ装置が説明される。特に、本手法は、雑音の多い環境及び残響環境においてオーディオソースをキャプチャするのに極めて適している。本手法は、所望のオーディオソースが残響半径外にあり、マイクロフォンによってキャプチャされたオーディオが拡散雑音及び後の反射又は残響によって支配される適用例について、特に有利な性能を与える。
図11は、本発明のいくつかの実施形態による、そのようなオーディオキャプチャ装置の要素の一例を示す。図3のシステムの要素及び手法は、以下で提示されるように、図11のシステムに対応する。
オーディオキャプチャ装置は、図3のマイクロフォンアレイ301に直接対応するマイクロフォンアレイ1101を備える。本例では、マイクロフォンアレイ1101はオプションのエコーキャンセラ1103に結合され、エコーキャンセラ1103は、(1つ又は複数の)マイクロフォン信号におけるエコーに線形的に関係する(基準信号が利用可能である)音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。
エコーキャンセラ1103はオプションであり、多くの実施形態において簡単に省略されることが理解されよう。
マイクロフォンアレイ1101は、一般に、直接、又はエコーキャンセラ1103を介して(並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して)のいずれかで第1のビームフォーマ1105に結合される。第1のビームフォーマ1105は、図3のビームフォーマ303に直接対応する。
第1のビームフォーマ1105は、マイクロフォンアレイ1101の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ1101からの信号を合成するように構成される。したがって、第1のビームフォーマ1105は、第1のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ1105は適応ビームフォーマであり、その指向性は、第1のビームフォーマ1105のビームフォーム動作の、第1のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。
第1のビームフォーマ1105は第1の適応器1107に結合され、第1の適応器1107は、第1のビームフォームパラメータを適応させるように構成される。したがって、第1の適応器1107は、ビームがステアリングされ得るように第1のビームフォーマ1105のパラメータを適応させるように構成される。
さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ1109、1111を備え、制約付きビームフォーマ1109、1111の各々が、マイクロフォンアレイ1101の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ1101からの信号を合成するように構成される。したがって、制約付きビームフォーマ1109、1111の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ1105と同様に、制約付きビームフォーマ1109、1111は、各制約付きビームフォーマ1109、1111の指向性が、制約付きビームフォーマ1109、1111の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。
したがって、オーディオキャプチャ装置は、第2の適応器1113を備え、第2の適応器1113は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させ、それにより、これらによって形成されたビームを適応させるように構成される。
図3のビームフォーマ303は、図11の第1の制約付きビームフォーマ1109に直接対応する。また、残りの制約付きビームフォーマ1111は、第1のビームフォーマ1109に対応し、これの具体例と考えられ得ることが理解されよう。
したがって、第1のビームフォーマ1105と制約付きビームフォーマ1109、1111の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ1105、1109、1111は、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
図3のビームフォーマ303は、ビームフォーマ1105、1109、1111のいずれかに対応し、実際、図3のビームフォーマ303に関して与えられたコメントは、図11の第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111のいずれかに等しく適用されることが理解されよう。
同様に、第2の適応器513は、図3の適応器305に直接対応する。
多くの実施形態では、第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のFIRフィルタ構造を有するなどである。
しかしながら、第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111の動作及びパラメータは異なり、特に、制約付きビームフォーマ1109、1111は、第1のビームフォーマ1105が制約されないやり方で制約される。詳細には、制約付きビームフォーマ1109、1111の適応は、第1のビームフォーマ1105の適応とは異なり、詳細には、いくつかの制約を受ける。
詳細には、制約付きビームフォーマ1109、1111は、適応(ビームフォームフィルタパラメータの更新)が、基準が満たされるときの状況に制約されるという制約を受けるが、第1のビームフォーマ1105は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第1の適応器1107は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第1のビームフォーマ1105によってキャプチャされたオーディオの(又は制約付きビームフォーマ1109、1111のいずれかの)特性によって制約されない。さらに、第2の適応器1113は、スピーチアタックの検出に応答して決定される適応時間間隔中にのみ適応するように構成される。
制約付きビームフォーマ1109、1111を適応させるための基準は、後でより詳細に説明される。
多くの実施形態では、第1のビームフォーマ1105についての適応レートは、制約付きビームフォーマ1109、1111についての適応レートよりも高い。したがって、多くの実施形態では、第1の適応器1107は、第2の適応器1113よりも高速に変動に適応するように構成され、したがって、第1のビームフォーマ1105は、制約付きビームフォーマ1109、1111よりも高速に更新される。これは、たとえば、最大化又は最小化されている値(たとえば、出力信号の信号レベル又は誤差信号の大きさ)の低域フィルタ処理が、第1のビームフォーマ1105について、制約付きビームフォーマ1109、1111についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ(詳細には、ビームフォームフィルタ係数)の更新ごとの最大変化は、第1のビームフォーマ1105について、制約付きビームフォーマ1109、1111よりも高い。
したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束(適応制約付き)ビームフォーマが、この制約を受けない、自走する(free running)より高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。
図11のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。
第1のビームフォーマ1105と制約付きビームフォーマ1109、1111とは、出力プロセッサ1115に結合され、出力プロセッサ1115は、ビームフォーマ1105、1109、1111から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ1105、1109、1111からのオーディオ出力信号にある。
多くの実施形態では、出力プロセッサ1115からの出力信号は、ビームフォーマ1105、1109、1111からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。
したがって、出力プロセッサ1115の出力選択及び後処理は、特定用途向けであり、及び/又は、異なる実装形態/実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る(たとえば、最も強いスピーカーが選択される)などである。
ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。
通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、(たとえば出力プロセッサ1115によって)オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
図11のシステムでは、第1のビームフォーマ1105と制約付きビームフォーマ1109、1111との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。
この目的で、オーディオキャプチャ装置は、ビーム差分プロセッサ1117を備え、ビーム差分プロセッサ1117は、制約付きビームフォーマ1109、1111のうちの1つ又は複数と第1のビームフォーマ1105との間の差分測度を決定するように構成される。差分測度は、第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111それぞれによって形成されたビーム間の差分を示す。したがって、第1の制約付きビームフォーマ1109についての差分測度は、第1のビームフォーマ1105によって形成されるビームと第1の制約付きビームフォーマ1109によって形成されるビームとの間の差分を示す。このようにして、差分測度は、2つのビームフォーマ1105、1109がどのくらい密接に同じオーディオソースに適応されるかを示す。
異なる実施形態及び適用例では異なる差分測度が使用される。
いくつかの実施形態では、差分測度は、異なるビームフォーマ1105、1109、1111からの生成されたビームフォーミングされたオーディオ出力に基づいて決定される。一例として、単純な差分測度は、単に、第1のビームフォーマ1105及び第1の制約付きビームフォーマ1109の出力の信号レベルを測定し、これらを互いに比較することによって生成される。信号レベルが互いに近くなるほど、差分測度は低くなる(一般に、差分測度はまた、たとえば第1のビームフォーマ1105の実際の信号レベルの関数として増加する)。
より好適な差分測度が、多くの実施形態では、第1のビームフォーマ1105及び第1の制約付きビームフォーマ1109からのビームフォーミングされたオーディオ出力間の相関を決定することによって生成される。相関値が高くなるほど、差分測度は低くなる。
代替又は追加として、差分測度は、第1のビームフォーマ1105のビームフォームパラメータと第1の制約付きビームフォーマ1109のビームフォームパラメータとの比較に基づいて決定される。たとえば、所与のマイクロフォンについての第1のビームフォーマ1105のビームフォームフィルタ及び第1の制約付きビームフォーマ1109のビームフォームフィルタの係数は、2つのベクトルによって表される。次いで、これらの2つのベクトルの差分ベクトルの大きさが計算される。プロセスはすべてのマイクロフォンについて繰り返され、合成された、又は平均的な大きさが、距離測度として決定され、使用される。したがって、生成された差分測度は、ビームフォームフィルタの係数が第1のビームフォーマ1105と第1の制約付きビームフォーマ1109とについてどのくらい異なるかを反映し、これは、ビームについての差分測度として使用される。
したがって、図11のシステムでは、第1のビームフォーマ1105のビームフォームパラメータと第1の制約付きビームフォーマ1109のビームフォームパラメータとの間の差分及び/又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。
差分測度を生成すること、決定すること、及び/又は使用することは、類似性測度を生成すること、決定すること、及び/又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、したがって、差分測度は類似性測度でもあり(その逆も同様)、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。
ビーム差分プロセッサ1117は、第2の適応器1113に結合され、これに差分測度を与える。第2の適応器1113は、差分測度に応答して制約付きビームフォーマ1109、1111を適応させるように構成される。詳細には、第2の適応器1113は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。したがって、所与の制約付きビームフォーマ1109、1111についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ1109、1111についての決定された差分測度が、第1のビームフォーマ1105のビームと所与の制約付きビームフォーマ1109、1111のビームとが十分に類似していないことを示す場合、適応は実行されない。
したがって、図11のオーディオキャプチャ装置では、制約付きビームフォーマ1109、1111は、ビームの適応において制約される。詳細には、制約付きビームフォーマ1109、1111は、制約付きビームフォーマ1109、1111によって形成された現在のビームが、自走する第1のビームフォーマ1105が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ1109、1111は、第1のビームフォーマ1105が個々の制約付きビームフォーマ1109、1111に十分に近くなるように現在適応されている場合のみ適応される。
これの結果は、制約付きビームフォーマ1109、1111の適応が第1のビームフォーマ1105の動作によって制御され、それにより、効果的に、第1のビームフォーマ1105によって形成されたビームが、制約付きビームフォーマ1109、1111のうちのどちらが最適化/適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ1109、1111は、所望のオーディオソースが制約付きビームフォーマ1109、1111の現在の適応に近いときのみ適応される傾向がある。
適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。
多くの実施形態では、適応の制約は、さらなる要件を条件とする。
たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。したがって、個々の制約付きビームフォーマ1109、1111のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。
異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。
いくつかの実施形態では、制約付きビームフォーマ1109、1111の適応は、制約付きビームフォーマ1109、1111の出力において、いつスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。特に、検出器307の、前に説明された手法が適用される。
図3及び図11のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。したがって、連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ1105、1109、1111は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ1109、1111を選択し、この制約付きビームフォーマ1109、1111を更新する/適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、11ミリ秒から110ミリ秒の間の持続時間を有する。
いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ1109、1111の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。
本システムでは、適応は、さらに、ビームフォーミングされたオーディオ出力におけるスピーチアタックの検出に依存する。したがって、オーディオキャプチャ装置は、図3に関してすでに説明された検出器307をさらに備える。
検出器307は、詳細には、多くの実施形態では、制約付きビームフォーマ1109、1111の各々においてスピーチアタックを検出するように構成され、したがって、検出器307は、これらに結合され、ビームフォーミングされたオーディオ出力信号を受信する。さらに、検出器307は、制約付きビームフォーマ1109、1111からの雑音基準信号を受信する(明快のために、図11は、ビームフォーミングされたオーディオ出力信号と雑音基準信号とを単一の線によって示し、すなわち、図11の線は、ビームフォーミングされたオーディオ出力信号と(1つ又は複数の)雑音基準信号の両方、並びに、たとえばビームフォームパラメータを含むバスを表すと考えられる)。
したがって、図11のシステムの動作は、前に説明された原理に従って検出器307によって実行されるスピーチアタック推定に依存する。検出器307は、詳細には、すべてのビームフォーマ1105、1109、1111についてのスピーチアタック推定値を生成するように構成される。
検出結果は検出器307から第2の適応器1113に受け渡され、第2の適応器1113は、これに応答して適応を適応させるように構成される。詳細には、第2の適応器1113は、スピーチアタックが検出されたことを検出器307が示す制約付きビームフォーマ1109、1111のみを適応させるように構成される。詳細には、図3のコントローラ309は第2の適応器1113中に含まれ、第2の適応器1113は、したがって、制約付きビームフォーマ1109、1111の適応を、スピーチアタックの検出に続く(短い)適応時間間隔においてのみ生じるように制約するように構成される。
したがって、オーディオキャプチャ装置は、スピーチアタックが生じている制約付きビームフォーマ1109、1111のみが適応され、その形成されたビームが第1のビームフォーマ1105によって形成されたビームに近くなるように、制約付きビームフォーマ1109、1111の適応を制約するように構成される。したがって、適応は、一般に、すでに(所望の)ポイントオーディオソースに近い制約付きビームフォーマ1109、1111に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ1109、1111を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。
多くの実施形態では、オーディオキャプチャ装置は、一度に1つの制約付きビームフォーマ1109、1111のみを適応させるように構成される。したがって、第2の適応器1113は、各適応時間間隔において、制約付きビームフォーマ1109、1111のうちの1つを選択し、ビームフォームパラメータを更新することによってこれのみを適応させる。スピーチアタックが複数の制約付きビームフォーマ1109、1111について検出されたシナリオでは、最も低い差分測度を有する制約付きビームフォーマ1109、1111が選択される。
いくつかの実施形態では、適応はビーム差分測度に依存しないことがあり、実際、そのような測度が決定されないことがある。実際、いくつかの実施形態では、適応は、スピーチアタック推定値のみに基づく。
たとえば、いくつかの実施形態では、第2の適応器1113は、スピーチアタックが検出されたすべての制約付きビームフォーマ1109、1111のための適応を可能にするように構成される。いくつかの実施形態では、第2の適応器1113は、スピーチアタックの最も強い指示が検出された制約付きビームフォーマ1109、1111のみのための適応を可能にするように構成される。
他の実施形態では、第2の適応器1113は、スピーチアタックの最も強い指示が現在のスピーチアタックがないことを示す場合でも、この指示を与える制約付きビームフォーマ1109、1111を単に選択するように構成される。
特定の例として、第2の適応器1113は、擬似コードで表される以下の演算を実行する。
el(tk)が最も大きいビームフォーマlを決定する
if
el(tk)>0
then allowtoadapt=真
else
if el(tk)>average(ei(tk))/athr∀i,i≠l
then allowtoadapt=真
else allowtoadapt=偽
end
if allowtoadapt==真
then 制約付きビームフォーマkを適応させる
end
したがって、いくつかの実施形態では、オーディオキャプチャ装置は、スピーチアタック推定値が現在のスピーチアタックを示す場合、又は、スピーチアタック推定値が、好適なマージンを伴って、任意の他の制約付きビームフォーマ1109、1111についてよりも、所与の制約付きビームフォーマについて強い場合、このビームフォーマを適応させるように構成される。この後者の条件が満たされる場合、それは、直接スピーチがビームフォーマlにおいて存在するが、ビームフォーマがまだ正確に集束されていないことを示す。
上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションに実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。
本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有するという用語は、他の要素又はステップが存在することを除外するものではない。
さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び/又は有利でないことを暗示するものではない。また、請求項の1つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、「a」、「an」、「第1の」、「第2の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。