JP6665353B2 - ビームフォーミングを使用するオーディオキャプチャ - Google Patents

ビームフォーミングを使用するオーディオキャプチャ Download PDF

Info

Publication number
JP6665353B2
JP6665353B2 JP2019535791A JP2019535791A JP6665353B2 JP 6665353 B2 JP6665353 B2 JP 6665353B2 JP 2019535791 A JP2019535791 A JP 2019535791A JP 2019535791 A JP2019535791 A JP 2019535791A JP 6665353 B2 JP6665353 B2 JP 6665353B2
Authority
JP
Japan
Prior art keywords
speech
beamformer
signal
constrained
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019535791A
Other languages
English (en)
Other versions
JP2020503562A (ja
Inventor
コルネリス ピーター ヤンス
コルネリス ピーター ヤンス
リック ヨセフ マルティヌス ヤンセン
リック ヨセフ マルティヌス ヤンセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2020503562A publication Critical patent/JP2020503562A/ja
Application granted granted Critical
Publication of JP6665353B2 publication Critical patent/JP6665353B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、ビームフォーミングを使用するオーディオキャプチャに関する。
オーディオ、特にスピーチをキャプチャすることは、ここ数十年間でますます重要になった。実際、スピーチをキャプチャすることは、電気通信、遠隔会議、ゲーミング、オーディオユーザインターフェースなどを含む様々な適用例にとって、ますます重要になった。しかしながら、多くのシナリオ及び適用例における問題は、所望のスピーチソースが、一般に、環境における唯一のオーディオソースでないことである。むしろ、一般的なオーディオ環境において、マイクロフォンによってキャプチャされている多くの他のオーディオ/雑音ソースがある。多くのスピーチキャプチャ適用例が直面する重大な問題のうちの1つは、雑音の多い環境において、どのように最も良くスピーチを抽出するかの問題である。この問題に対処するために、雑音抑圧のためのいくつかの異なる手法が提案された。
実際、たとえばハンズフリースピーチ通信システムの研究は、数十年の間に多くの関心を受けた論題である。利用可能な最初の商業システムは、低い背景雑音及び低い残響時間をもつ環境におけるプロフェッショナル(ビデオ)会議システムに焦点を当てた。たとえば所望のスピーカーなど、所望のオーディオソースを識別し、抽出するための特に有利な手法は、マイクロフォンアレイからの信号に基づくビームフォーミングの使用であることがわかった。初めに、マイクロフォンアレイはしばしば集束固定ビームとともに使用されたが、後に、適応ビームの使用がより普及した。
1990年代後半には、モバイルのためのハンズフリーシステムが導入され始めた。これらは、残響室を含む多くの異なる環境において、及び(より)高い背景雑音レベルにおいて使用されることが意図された。そのようなオーディオ環境は、大幅により困難な課題を与え、特に、形成されたビームの適応を複雑にするか、又は劣化させる。
初めに、そのような環境のためのオーディオキャプチャの研究は、エコーキャンセルに、及び後に雑音抑圧に焦点を当てた。ビームフォーミングに基づくオーディオキャプチャシステムの一例が図1に示されている。本例では、複数のマイクロフォンのアレイ101がビームフォーマ103に結合され、ビームフォーマ103は、オーディオソース信号z(n)と1つ又は複数の雑音基準信号x(n)とを生成する。
マイクロフォンアレイ101は、いくつかの実施形態では2つのマイクロフォンのみを備えるが、一般に、より大きい数を備える。
ビームフォーマ103は、詳細には、好適な適応アルゴリズムを使用して1つのビームがスピーチソースのほうへ向けられ得る適応ビームフォーマである。
たとえば、米国特許第7146012号及び米国特許第7602926号は、スピーチに焦点を当てるが、スピーチを(ほとんど)含んでいない基準信号をも与える適応ビームフォーマの例を開示する。
ビームフォーマは、受信された信号をフォワードマッチングフィルタにおいてフィルタ処理し、フィルタ処理された出力を加算することによって、マイクロフォン信号の所望の部分をコヒーレントに加算することによって、拡張出力信号z(n)を作成する。また、出力信号は、(時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける)フォワードフィルタへの共役フィルタ応答を有するバックワード適応フィルタにおいてフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、オーディオビームが支配的な信号のほうへステアリングされることになる。生成された誤差信号x(n)は、拡張出力信号z(n)に対して追加の雑音低減を実行するのに特に適した雑音基準信号と見なされ得る。
1次信号z(n)と基準信号x(n)とは、一般に、両方とも雑音によって汚染される。2つの信号における雑音がコヒーレントである場合(たとえば、干渉するポイント雑音ソース(point noise source)があるとき)、コヒーレント雑音を低減するために適応フィルタ105が使用され得る。
この目的で、雑音基準信号x(n)は適応フィルタ105の入力に結合され、その出力が、オーディオソース信号z(n)から減算されて、補償信号r(n)を生成する。適応フィルタ105は、一般に所望のオーディオソースがアクティブでないとき(たとえば、スピーチがないとき)、補償信号r(n)の電力を最小化するように適応され、これにより、コヒーレント雑音の抑圧が生じる。
補償信号はポストプロセッサ107に供給され、ポストプロセッサ107は、雑音基準信号x(n)に基づいて補償信号r(n)に対して雑音低減を実行する。詳細には、ポストプロセッサ107は、短時間フーリエ変換を使用して補償信号r(n)と雑音基準信号x(n)とを周波数ドメインに変換する。ポストプロセッサ107は、次いで、各周波数ビンについて、X(ω)の振幅スペクトルのスケーリングされたバージョンを減算することによってR(ω)の振幅を変更する。得られた複素スペクトルは時間ドメインに変換されて、雑音が抑圧された出力信号q(n)をもたらす。スペクトル減算のこの技法は、最初に、S.F.Boll、「Suppression of Acoustic Noise in Speech using Spectral Subtraction」、IEEE Trans.Acoustics,Speech and Signal Processing、vol.27、113〜120頁、1979年4月に記載された。
個々の時間周波数タイルにおけるオーディオソース信号と雑音基準信号との相対エネルギーに基づく雑音(noise)抑圧の特定の例が、WO2015139938Aに記載されている。
多くのオーディオキャプチャシステムでは、オーディオソースに独立して適応することができる複数のビームフォーマが適用される。たとえば、オーディオ環境において2つの異なるスピーカー(speaker)を追跡するために、オーディオキャプチャ装置は、2つの独立して適応できるビームフォーマを含む。
実際、図1のシステムは、多くのシナリオにおいて極めて効率的な動作及び有利な性能を与えるが、それは、すべてのシナリオにおいて最適であるとは限らない。実際、図1の例を含む多くの従来のシステムが、所望のオーディオソース/スピーカーがマイクロフォンアレイの残響半径内にあるとき、すなわち、所望のオーディオソースの直接エネルギーが所望のオーディオソースの反射のエネルギーよりも(好ましくは著しく)強い適用例について、極めて良好な性能を与えるが、それは、これが当てはまらないとき、あまり最適でない結果を与える傾向がある。一般的な環境において、一般にマイクロフォンアレイの1〜1.5メートル内にスピーカーがあるべきであることがわかっている。
しかしながら、ユーザがマイクロフォンアレイからより離れた距離にある場合のオーディオベースハンズフリー解決策、適用例、及びシステムに対する強い要望がある。これは、たとえば、多くの通信システム及び適用例と、多くのボイス制御システム及び適用例の両方について望まれる。そのような状況のための残響除去及び雑音抑圧を含むスピーチ強調を与えるシステムは、スーパーハンズフリーシステムと呼ばれる分野にある。
より詳細には、追加の拡散雑音と残響半径外の所望のスピーカーとを扱うとき、以下の問題が生じる。
・ ビームフォーマは、所望のスピーチのエコーと拡散背景雑音とを区別する問題をしばしば有し、これがスピーチひずみを生じる。
・ 適応ビームフォーマは、所望のスピーカーのほうへより低速に収束する。適応ビームがまだ収束していない時間中に、基準信号においてスピーチ漏れがあり、この基準信号が非定常雑音抑圧及びキャンセルのために使用される場合、スピーチひずみを生じる。交互に話す、より多くの所望のソースがあるとき、問題は増加する。
(背景雑音により)より低速に収束する適応フィルタを扱うための解決策は、図2に示されているように異なる方向に照準を定められているいくつかの固定ビームでこれを補うことである。ただし、この手法は、特に、所望のオーディオソースが残響半径内に存在するシナリオのために開発される。それは、残響半径外のオーディオソースについてあまり効率的でなく、そのような場合、特に音響拡散背景雑音もある場合、しばしば、非ロバストな解決策につながる。
ビームフォーマを使用するオーディオのキャプチャの特に重要な要素が、ビームフォーマ/ビームの適応である。様々なビームフォーミング適応アルゴリズムが提案されている。たとえば、スピーチキャプチャ適用例の場合、適応アルゴリズムは、スピーチの期間中に出力信号レベルを最大化する基準に基づいてビームフォームフィルタを適応させようとする。
しかしながら、現在の適応アルゴリズムは、ビームフォーマが適応しているオーディオソースが、比較的高い信号対雑音比を与える支配的なオーディオソースである良好な環境を仮定することに基づく傾向がある。実際、たいていのアルゴリズムは、直接経路(及び場合によっては早期反射)が、より後の反射と、残響テール、実際は、(拡散背景雑音を含む)他のソースからの雑音の両方を支配すると仮定する傾向がある。
結果として、そのような適応手法は、これらの仮定が満たされない環境において準最適である傾向があり、実際、多くの現実の適用例のための準最適な性能を与える傾向がある。
実際、概して残響半径外のソースのためのオーディオキャプチャは、ソースからデバイスへの直接場のエネルギーが、反射されたスピーチ及び音響背景雑音のエネルギーと比較して小さいことにより、困難である傾向がある。マルチビームシステムはそのようなシナリオにおけるオーディオキャプチャを改善するが、キャプチャは、適応が確実でない場合、劣化されるか、又は実際しばしば単に機能しない。
現在の適応アルゴリズムは、所望のオーディオソースが、後の反射、残響、及び/又は、特に拡散雑音を含む雑音によって支配されるシナリオの場合、準最適であり、比較的不十分な適応を与える傾向がある。そのようなシナリオは、一般に、所望のオーディオソースがマイクロフォンアレイから遠いときに生じる。
したがって、多くの実際的適用例では、ビームフォーミングオーディオキャプチャシステムの性能は、適応性能によって劣化されるか、又は限定される。
したがって、改善されたビームフォーミングオーディオキャプチャ手法が有利であり、特に、改善された適応を与える手法が有利である。特に、複雑さの低減、フレキシビリティの増加、実施の容易さ、コストの低減、オーディオキャプチャの改善、残響半径外のオーディオをキャプチャすることに対する適合性の改善、雑音感度の低減、スピーチキャプチャの改善、ビームフォーム適応の改善、制御の改善、及び/又は性能の改善を可能にする手法が有利である。
したがって、本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの1つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。
本発明の一態様によれば、ビームフォーミングされたオーディオ出力信号を生成するように構成された第1のビームフォーマと、第1のビームフォーマのビームフォームパラメータを適応させるための適応器と、ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するための検出器と、スピーチのアタックの検出に応答して決定された所定の適応時間間隔において生じるようにビームフォームパラメータの適応を制御するためのコントローラとを備えるオーディオキャプチャ装置が提供される。
本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び/又はより遠い距離にあるオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のスピーチソースのキャプチャの改善が達成され得る。
本手法は、支配的な後の反射又は残響を伴う室内応答を経験するスピーチソースのためのスピーチキャプチャの改善を与える。本手法は、限られた持続時間のインパルス応答によって十分にモデル化され得ない室内応答を経験するスピーチソースのための適応及びオーディオキャプチャを改善する。特に、性能の改善は、多くの実施形態では、適応が(ビームフォームフィルタによってモデル化されない)後の反射を無視しながら直接経路及び早期反射成分のほうへ向けられることによって達成される。
特に、性能の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び/又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。より離れた距離にある、特に残響半径外のポイントオーディオソースのための性能の改善が、しばしば達成され得る。
本手法は、ビームフォーマを適応させるための有利な特性が存在する適応時間間隔にビームフォームパラメータを適応させるように適応器を自動制御する。特に、本手法は、スピーチ信号がそのような有利なシナリオを生じる時間中にビームフォームパラメータを適応させるようにシステムを自動制御し、詳細には、適応は、スピーチソースからの所望の信号成分が不要な/干渉する信号成分を支配する適応時間間隔中に実行される。
実際、本手法は、スピーチソースからの不要な信号成分(ビームフォームフィルタによってモデル化され得ない後の反射/残響/拡散雑音)が支配する時間間隔中に適応することなしに、支配的な信号成分(詳細には早期反射)が、主に、ビームフォーマのビームフォームフィルタがモデル化することができるものである適応時間間隔中にあるように適応を制御する。実際、スピーチアタックが検出されるときにしばしば、スピーチソースからの受信された信号成分は、強い早期反射によって支配され、現在受信されている後の反射/残響からの信号成分は、より早期のより弱いスピーチセクションから発生する。多くの実施形態及びシナリオでは、スピーチのアタックの検出は、所与のスピーチソースからの受信された信号成分が、アタック中のより強い信号からの早期反射と、アタックより前のより弱い信号からの後の反射及び残響とから構成されるシナリオを示す。このシナリオは、後の反射がアタック中又はアタックの後の強いスピーチからも発生するまで所与の持続時間の間存在し、その、後の反射が発生する時間において、適応時間間隔が一般に終了される(又はすでに終了されていることがある)。したがって、適応は、(直接経路を含む)早期反射が支配的である時間中に自動的に実行され、したがって、適応は、音響室内応答が、より後の反射についてはるかに強い成分を有する場合でも、早期反射に適応しようとし、後の反射に適応しようとしない。
したがって、本手法は、後の反射及び残響が所与のスピーチソースについて有意であるシナリオにおいて、大幅な性能の改善を与える。特に、性能の改善は、残響半径外のスピーチソースのために達成される。本手法は、同時に、有利な状況が生じるときはいつでもスピーチセグメント全体にわたって実行されるような効率的な適応を可能にする。したがって、適応は、スピーチの開始に限定されず、アタックが生じるときはいつでもスピーチ全体にわたって実行される。
スピーチのアタックは、詳細には、無音期間の後のスピーチの発生(onset)である。しかしながら、多くの実施形態及びシナリオでは、スピーチのアタックはスピーチの期間中に生じる。
スピーチのアタックは、前の期間の平均スピーチレベルと比較したときのソーススピーチレベルの増加である。前の期間は、一般に、60ミリ秒から100ミリ秒までの範囲内にある。ソーススピーチレベルの増加は、一般に急激な増加であり、しばしば大幅な増加である。
アタックのスピーチは、いくつかの実施形態では、早期反射の信号レベルが後の残響及び/又は残響拡散雑音の信号レベルを支配するときに生じると考えられる。
オーディオキャプチャ装置は、多くの実施形態では、ビームフォーミングされたオーディオ出力信号に応答してオーディオ出力信号を生成するための出力ユニットを備える。
ビームフォーマは、フィルタ合成ビームフォーマである。フィルタ合成ビームフォーマは、各マイクロフォンのためのビームフォームフィルタと、ビームフォーミングされたオーディオ出力信号を生成するためにビームフォームフィルタの出力を合成するための合成器とを備える。フィルタ合成ビームフォーマは、詳細には、複数の係数を有する有限応答フィルタ(FIR)の形態のビームフォームフィルタを備える。
たいていの実施形態では、ビームフォームフィルタの各々は、(単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する)単純なディラックパルスではない時間ドメインインパルス応答を有し、むしろ、一般に2ミリ秒、5ミリ秒、10ミリ秒、さらには30ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する。
所定の適応時間間隔は、所定の持続時間を有し、多くの実施形態では、所定の最大持続時間を有する。所定の(最大)持続時間は、多くの実施形態では、5ミリ秒、10ミリ秒、20ミリ秒、50ミリ秒、又は100ミリ秒以上である。所定の(最大)持続時間は、多くの実施形態では、50ミリ秒、100ミリ秒、200ミリ秒、500ミリ秒、又は1秒を超えない。
本発明のオプションの特徴によれば、検出器は、受信された後の反射の信号レベルに対する受信された早期反射の信号レベルに応答してスピーチのアタックを検出するように構成される。
これは、適応を制御するのに適したスピーチアタックを検出するための特に有利な手法を与える。特に、それは、特に有利な適応を与え、それは、ビームフォーマのビームフォームフィルタによって効果的にモデル化され得る直接経路及び早期反射のほうへこれを向けることによるものである。早期反射は、(一般に0番目の反射と考えられる)第1の反射を含む。
スピーチのアタックは、詳細には、検出され、(直接経路を含む)早期反射によってスピーチソースから受信された信号成分が後の反射及び/又は残響/拡散雑音中で受信された信号成分を支配するときに生じると考えられる。(直接経路を含む)早期反射からの信号成分は、これらの信号エネルギーが後の反射及び/又は残響/拡散雑音において受信された信号成分の信号エネルギーよりも高い(又はいくつかの場合には、3dB、6dB、さらには10dB高い)ときに支配すると考えられる。いくつかの実施形態では、早期反射は、ビームフォームフィルタのインパルス応答の持続時間を超えない直接経路からの遅延を伴って受信された反射であると考えられる。スピーチソースからの(残響及び拡散雑音を含む)より後の反射は、インパルス応答の持続時間よりも高い遅延を伴って受信されるものである。いくつかの実施形態では、早期反射は、たとえば、所与の(場合によっては所定の)しきい値を下回る直接経路に対する遅延を伴って受信される反射であると考えられる。残りの信号成分は、後の反射又は残響と考えられる。異なる実施形態では、(直接経路を含む)早期反射と(残響/拡散雑音を含む)後の反射とを差別化するために、異なる手法又は考慮事項が使用される。
本発明のオプションの特徴によれば、第1のビームフォーマは、少なくとも1つの雑音基準信号を生成するように構成され、検出器は、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答してスピーチのアタックを検出するように構成される。
これは、適応を制御するのに適したスピーチアタックを検出するための特に有利な手法を与える。特に、それは、特に有利な適応を与え、それは、ビームフォーマのビームフォームフィルタによって効果的にモデル化され得る直接経路及び早期反射のほうへこれを向けることによるものである。早期反射は、(一般に0番目の反射と考えられる)第1の反射を含む。
本手法は、詳細には、スピーチアタック推定値が、雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルに応答して生成されることを可能にする。たとえば、スピーチアタック推定値は、これらの間の比として決定される。
そのような測度は、マイクロフォンアレイにおける受信されたスピーチが、いつ、ビームフォームフィルタによってモデル化され得る信号成分(早期反射)によって主に特徴づけられるかと、それが、いつ、ビームフォームフィルタによってモデル化され得ない信号成分によって主に特徴づけられるかとの強い指示を自動的に与える。したがって、適応は、適応が、モデル化され得る信号成分に焦点を当てるシナリオに焦点を合わせている。これは、たとえば、残響半径外のスピーチソースのためのスピーチキャプチャの大幅な改善を与える。
ビームフォーミングされたオーディオ出力信号と雑音基準との比較に基づくスピーチアタック推定値は、スピーチアタックの開始とスピーチアタックの終了の両方の良好な指示を与える。それは、特に、受信された信号が早期反射によって支配されるスピーチアタック中のシナリオを識別するのに極めて適しており、このシナリオが、後の反射が支配するシナリオといつ置き換えられているかを示す。
いくつかの実施形態では、コントローラは、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して所定の適応時間間隔の開始時間を決定するように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。それは、受信された信号が(ビームフォームフィルタのインパルス応答の持続時間内に)早期反射によって支配される状況の開始の望ましい検出を与える。
開始時間は、詳細には、ビームフォーミングされたオーディオ出力信号の信号レベルと雑音基準信号の信号レベルとの間の差分測度が、しきい値を上回って増加することに応答して決定される。
本発明のオプションの特徴によれば、コントローラは、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して所定の適応時間間隔を終了するように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。それは、受信された信号が(ビームフォームフィルタのインパルス応答の持続時間内に)早期反射によって支配される状況の終了の望ましい検出を与える。
コントローラは、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して所定の終了時間より前に適応時間間隔を終了するように構成される。いくつかの実施形態では、適応時間間隔は、所定の最大持続時間をもつ適応時間間隔を有する。しかしながら、比較が、早期反射が支配的でないことを示す場合、コントローラは、続いて、所定の最大持続時間より前に適応時間間隔(及びしたがって適応)を終了する。
所定の適応時間間隔を終了するための時間は、詳細には、ビームフォーミングされたオーディオ出力信号の信号レベルと雑音基準信号の信号レベルとの間の差分測度が、しきい値を下回ることに応答して決定される。
コントローラは、比較に応答して所定の持続時間より前に適応時間間隔を終了するように構成される。
本発明のオプションの特徴によれば、第1のビームフォーマは、少なくとも1つの雑音基準信号を生成するように構成され、検出器は、ビームフォーミングされたオーディオ出力信号の周波数変換から第1の周波数ドメイン信号を生成するための第1の変換器であって、第1の周波数ドメイン信号が時間周波数タイル値によって表される、第1の変換器と、少なくとも1つの雑音基準信号の周波数変換から第2の周波数ドメイン信号を生成するための第2の変換器であって、第2の周波数ドメイン信号が時間周波数タイル値によって表される、第2の変換器と、第1の周波数ドメイン信号の時間周波数タイル値のノルムの第1の単調関数と第2の周波数ドメイン信号の時間周波数タイル値のノルムの第2の単調関数との間の差分を示す時間周波数タイル差分測度を生成するように構成された差分プロセッサと、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してスピーチアタック推定値を生成するためのスピーチアタック推定器とを備える。
これは、多くのシナリオ及び適用例において、特に有利なスピーチキャプチャを与える。このようにして決定されたスピーチアタック推定値は、ビームフォーマを適応させるための好適な時間の極めて有利で高性能な指示を与えることがわかった。高度の拡散雑音、残響信号及び/又は後の反射を含むシナリオのための性能の改善が、詳細には達成され得る。より離れた距離にある、特に残響半径外のソースのためのスピーチキャプチャの改善が、しばしば達成され得る。
スピーチアタック推定値は、マイクロフォンアレイにおける受信されたスピーチが、いつ、ビームフォームフィルタによってモデル化され得る信号成分(早期反射)によって主に特徴づけられるかと、それが、いつ、ビームフォームフィルタによってモデル化され得ない信号成分によって主に特徴づけられるかとの強い指示を自動的に与える。したがって、適応は、適応が、モデル化され得る信号成分に焦点を当てるシナリオに焦点を合わせている。これは、たとえば、残響半径外のスピーチソースのためのスピーチキャプチャの大幅な改善を与える。
第1の単調関数と第2の単調関数とは、一般に、両方とも単調増加関数であるが、いくつかの実施形態では、両方とも単調減少関数である。
ノルムは、一般に、L1ノルム又はL2ノルムであり、すなわち、詳細には、ノルムは、時間周波数タイル値についての大きさ又は電力測度に対応する。
時間周波数タイルは、詳細には、1つの時間セグメント/フレーム中の周波数変換の1つのビンに対応する。詳細には、第1の変換器と第2の変換器とは、第1及び第2の信号の連続するセグメントを変換するためにブロック処理を使用する。時間周波数タイルは、1つのセグメント/フレーム中の変換ビンのセット(一般に1つ)に対応する。
多くの実施形態では、周波数しきい値は500Hzを下回らない。これは、性能をさらに改善し、たとえば、多くの実施形態及びシナリオでは、ポイントオーディオソース推定値を決定する際に使用されるビームフォーミングされたオーディオ出力信号値と雑音基準信号値との間の十分な又は改善された無相関化が達成されることを保証する。いくつかの実施形態では、周波数しきい値は、有利には、1kHz、1.5kHz、2kHz、3kHz、さらには4kHzを下回らない。
本発明のオプションの特徴によれば、検出器は、合成された差分値がしきい値を上回って増加することに応答して所定の適応時間間隔のための開始時間を決定するように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。それは、受信された信号が(ビームフォームフィルタのインパルス応答の持続時間内に)早期反射によって支配される状況の終了と開始の両方の望ましい検出を与える。
本発明のオプションの特徴によれば、検出器は、合成された差分値がしきい値を下回ることに応答して適応時間間隔を終了するように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。それは、受信された信号が(ビームフォームフィルタのインパルス応答の持続時間内に)早期反射によって支配される状況の終了の望ましい検出を与える。
本発明のオプションの特徴によれば、検出器は、ビームフォーミングされたオーディオ出力信号の振幅と少なくとも1つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成するように構成され、第1の単調関数及び第2の単調関数のうちの少なくとも1つが雑音コヒーレンス推定値に依存する。
これは、性能をさらに改善し、詳細には、多くの実施形態において、特に、より小さいマイクロフォン間距離をもつマイクロフォンアレイのための性能の改善を与える。
雑音コヒーレンス推定値は、詳細には、アクティブなポイントオーディオソースがないときの(たとえば、スピーチのない時間期間中の、すなわち、スピーチソースが非アクティブであるときの)ビームフォーミングされたオーディオ出力信号の振幅と雑音基準信号の振幅との間の相関の推定値である。雑音コヒーレンス推定値は、いくつかの実施形態では、ビームフォーミングされたオーディオ出力信号及び雑音基準信号、並びに/又は第1及び第2の周波数ドメイン信号に基づいて決定される。いくつかの実施形態では、雑音コヒーレンス推定値は、別個の較正又は測定プロセスに基づいて生成される。
本発明のオプションの特徴によれば、適応器は、第1の時間周波数タイルについての時間周波数タイル差分測度に応答して、第1の時間周波数タイルについてビームフォームパラメータについての適応レートを変更するように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。
本発明のオプションの特徴によれば、検出器は、第1の周波数ドメイン信号の時間周波数タイル値のノルム及び第2の周波数ドメイン信号の時間周波数タイル値のノルムのうちの少なくとも1つをフィルタ処理するように構成され、フィルタ処理は時間と周波数の両方において異なる時間周波数タイルを含む。
これは、多くの実施形態においてスピーチアタック推定値の改善を与える。フィルタ処理は、たとえば平均化などの低域フィルタ処理である。
本発明のオプションの特徴によれば、スピーチのアタックから所定の適応時間間隔の終了までの持続時間は、100ミリ秒を超えない。
これは、多くの実施形態において有利な性能を与える。いくつかの実施形態では、所定の適応時間間隔は、10ミリ秒、15ミリ秒、20ミリ秒、30ミリ秒、50ミリ秒、150ミリ秒、250ミリ秒又は500ミリ秒を超えない。
本発明のオプションの特徴によれば、オーディオキャプチャ装置は、第1のビームフォーマを含む複数のビームフォーマをさらに備え、検出器は、複数のビームフォーマの各ビームフォーマについてのスピーチアタック推定値を生成するように構成され、オーディオキャプチャ装置は、スピーチアタック推定値に応答して複数のビームフォーマのうちの少なくとも1つを適応させるための適応器をさらに備える。
これは、性能をさらに改善し、詳細には、多くの実施形態において、複数のビームフォーマを利用するシステムのための適応性能の改善を与える。特に、それは、システムの全体的性能が、現在のオーディオシナリオへの正確で確実な適応を与えると同時に、(たとえば新しいオーディオソースが出現したときの)これの変化への急速な適応を与えることを可能にする。
本発明のオプションの特徴によれば、複数のビームフォーマは、ビームフォーミングされたオーディオ出力信号と少なくとも1つの雑音基準信号とを生成するように構成された第1のビームフォーマと、マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力と少なくとも1つの制約付き雑音基準信号とを生成するように各々が構成された複数の制約付きビームフォーマとを備え、適応器は、第1の制約付きビームフォーマについてのスピーチアタック推定値が、スピーチアタックが第1の制約付きビームフォーマについて検出されたことを示すこと、及び第1の制約付きビームフォーマについてのスピーチアタック推定値が、複数の制約付きビームフォーマのうちの任意の他の制約付きビームフォーマについてのスピーチアタック推定値よりも高い、スピーチアタックの確率を示すことのグループからの少なくとも1つの制約を含む基準を条件とする第1の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるように構成される。
本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び/又はオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与えると同時に、新しい所望のオーディオソースへの高速適応を与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のオーディオソースのキャプチャの改善が達成され得る。
いくつかの実施形態では、第1のビームフォーミングされたオーディオ出力及び/又は制約付きのビームフォーミングされたオーディオ出力に応答して、オーディオキャプチャ装置からの出力オーディオ信号が生成される。いくつかの実施形態では、出力オーディオ信号は、制約付きのビームフォーミングされたオーディオ出力の合成として生成され、詳細には、たとえば単一の制約付きのビームフォーミングされたオーディオ出力を選択する選択合成(selection combining)が使用される。
ビームフォーマの適応は、特にフィルタ係数を適応させることによるなど、ビームフォーマのビームフォームフィルタのフィルタパラメータを適応させることによるものである。適応は、所与の適応パラメータを最適化(最大化又は最小化)しようとするもの、たとえば、オーディオソースが検出されるときに出力信号レベルを最大化すること、又は、雑音のみが検出されるときに出力信号レベルを最小化することなどである。適応は、測定されたパラメータを最適化するためにビームフォームフィルタを変更しようとする。
本発明のオプションの特徴によれば、オーディオキャプチャ装置は、複数の制約付きビームフォーマのうちの少なくとも1つについての差分測度を決定するためのビーム差分プロセッサであって、差分測度が、第1のビームフォーマによって形成されたビームと複数の制約付きビームフォーマのうちの少なくとも1つによって形成されたビームとの間の差分を示す、ビーム差分プロセッサをさらに備え、適応器は、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、制約付きビームフォームパラメータを適応させるように構成される。
これは、多くの実施形態において性能の改善を与える。
差分測度は、第1のビームフォーマの形成されたビームと、差分測度が生成された制約付きビームフォーマの形成されたビームとの間の差分を反映し、その差分は、たとえば、ビームの方向間の差分として測定される。多くの実施形態では、差分測度は、第1のビームフォーマからのビームフォーミングされたオーディオ出力と制約付きビームフォーマからのビームフォーミングされたオーディオ出力との間の差分を示す。いくつかの実施形態では、差分測度は、第1のビームフォーマのビームフォームフィルタと制約付きビームフォーマのビームフォームフィルタとの間の差分を示す。差分測度は、たとえば、第1のビームフォーマ及び制約付きビームフォーマのビームフォームフィルタの係数のベクトル間の距離として決定された測度など、距離測度である。
類似性測度は、2つの特徴間の類似性に関係する情報を与えることによる類似性測度が、本質的に、これらの間の差分に関係する情報をも与えるという点で差分測度と等価であり、その逆も同様であることが理解されよう。
類似性基準は、たとえば、差分が所与の測度を下回っていることを差分測度が示すという要件を含み、たとえば、増加する差分について増加する値を有する差分測度がしきい値を下回ることが必要とされる。
本発明の一態様によれば、ビームフォーマが、ビームフォーミングされたオーディオ出力信号を生成するステップと、ビームフォーマのビームフォームパラメータを適応させるステップと、ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するステップと、スピーチのアタックの検出に応答して決定された適応時間間隔において生じるようにビームフォームパラメータの適応を制御するステップとを有するオーディオキャプチャの方法が提供される。
本発明のこれら及び他の態様、特徴及び利点は、以下で説明される(1つ又は複数の)実施形態から明らかになり、それらに関して解明されるであろう。
本発明の実施形態が、図面を参照しながら単に例として説明される。
ビームフォーミングオーディオキャプチャシステムの要素の一例を示す図である。 オーディオキャプチャシステムによって形成された複数のビームの一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。 フィルタ和(filter−and−sum)ビームフォーマの要素の一例を示す図である。 スピーチソースからの受信された音響反射の例を示す図である。 スピーチソースからの受信された音響反射の例を示す図である。 スピーチソースからの受信された音響反射の例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置のためのスピーチアタック推定器の要素の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置のためのスピーチアタック推定器のための周波数ドメイン変換器の要素の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置のためのスピーチアタック推定器の要素の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。
以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。
図3は、本発明のいくつかの実施形態による、オーディオキャプチャ装置のいくつかの要素の一例を示す。
オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ301を備える。
マイクロフォンアレイ301は、(一般に、当業者によく知られるように、直接、又はエコーキャンセラ、増幅器、デジタルアナログ変換器などを介してのいずれかで)ビームフォーマ303に結合される。
ビームフォーマ303は、マイクロフォンアレイ301の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ301からの信号を合成するように構成される。したがって、ビームフォーマ303は、ビームフォーミングされたオーディオ出力又はビームフォーミングされたオーディオ出力信号と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。ビームフォーマ303は適応ビームフォーマであり、その指向性はビームフォーマ303のビームフォーム動作の、ビームフォームパラメータと呼ばれるパラメータを設定することによって、詳細には、ビームフォームフィルタのフィルタパラメータ(一般に係数)を設定することによって制御され得る。
したがって、ビームフォーマ303は、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。
ビームフォーマ303は、詳細には、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
図4は、2つのマイクロフォン401のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォンはビームフォームフィルタ403、405に結合され、ビームフォームフィルタ403、405の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器407において加算される。ビームフォームフィルタ403、405はインパルス応答f1及びf2を有し、インパルス応答f1及びf2は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは3つ以上のマイクロフォンを備え、図4の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。
ビームフォーマ303は、(たとえば、米国特許第7146012号及び米国特許第7602926号のビームフォーマの場合のように)ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ301は3つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ303は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ303は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。
たいていの実施形態では、ビームフォームフィルタの各々は、(単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する)単純なディラックパルスでなく、むしろ、一般に2ミリ秒、5ミリ秒、10ミリ秒、さらには30ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する、時間ドメインインパルス応答を有する。
インパルス応答は、しばしば、複数の係数をもつFIR(有限インパルス応答)フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ303は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、FIRフィルタは、固定時間オフセット(一般にサンプル時間オフセット)に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数(たとえば、2つ又は3つのみ)を有するが、これらのタイミングは(も)適応可能である。
単純な可変遅延(又は単純な周波数ドメイン利得/位相調整)であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ303が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ303が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び/又は残響環境における性能の改善、並びに/或いは、マイクロフォンアレイ301から離れているオーディオソースのための性能の改善を可能にする。
適応ビームフォーマの性能の極めて重要な要素は、方向性(directionality)の適応である(一般にビームと呼ばれるが、拡張インパルス応答により、この指向性が、空間成分だけでなく時間成分、すなわち、反射についての時間的変動として形成されたビームなどをも有することになることが理解されよう)。
図3のシステムでは、ビームフォーマ303は、第1のビームフォーマのビームフォームパラメータを適応させるように構成された適応器305を備える。詳細には、適応器305は、所与の(空間的及び時間的)ビームを与えるためにビームフォームフィルタの係数を適応させるように構成される。
異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、適応器305は、ビームフォーマ303の出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、(時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける)フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。これはさらに、本質的に、誤差信号から雑音基準信号を生成することができる。そのような手法のさらなる詳細は、米国特許第7146012号及び米国特許第7602926号において見つけられ得る。
米国特許第7146012号及び米国特許第7602926号のものなどの手法は、ビームフォーマからのオーディオソース信号z(n)と(1つ又は複数の)雑音基準信号x(n)の両方に基づく適応に基づくことに留意されたい。同じ手法が図3のビームフォーマのために使用されることが理解されよう。
実際、ビームフォーマ303は、詳細には、図1に示され、米国特許第7146012号及び米国特許第7602926号において開示されたビームフォーマに対応するビームフォーマである。
ビームフォーマ303は、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成するように構成される。
ビームフォーマ303は、所望のオーディオソースをキャプチャし、これをビームフォーミングされたオーディオ出力信号で表すためにビームフォーミングを適応させるように構成される。ビームフォーマ303は、さらに、残りのキャプチャされたオーディオの推定値を与えるために雑音基準信号を生成し、すなわち、それは、所望のオーディオソースの不在下でキャプチャされる雑音を示す。
ビームフォーマ303が米国特許第7146012号及び米国特許第7602926号に開示されるようなビームフォーマである実施形態における例では、雑音基準は、たとえば誤差信号を直接使用することによって、前に説明されたように生成される。しかしながら、他の実施形態では他の手法が使用されることが理解されよう。たとえば、いくつかの実施形態では、雑音基準は、生成されたビームフォーミングされたオーディオ出力信号を減じた(たとえば、オムニ指向性)マイクロフォンからのマイクロフォン信号、さらには、この雑音基準マイクロフォンが他のマイクロフォンから遠く離れており、所望のスピーチを含んでいない場合、マイクロフォン信号自体として生成される。別の例として、ビームフォーマ303は、ビームの最大値の方向にヌルを有する第2のビームを生成し、ビームフォーミングされたオーディオ出力信号を生成するように構成され、雑音基準は、この補足的ビームによってキャプチャされるオーディオとして生成される。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、出力プロセッサ305によって、オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
適応性能は、ビームフォーミングオーディオキャプチャシステムの性能にとって重要である。しかしながら、一般的な従来の手法は、理論的な及び理想的なオーディオ環境ではうまく機能するが、多くの実際的シナリオでは、それほど効率的及び正確でない傾向がある。
実際、適応は、雑音が増加するにつれて劣化する傾向があり、詳細には、アクティブソースが存在しないときに適応が実行される場合、適応は、この時間間隔中に、所望のオーディオソースではなく雑音に適応する。これに対処するために、オーディオソースが存在するときのみ適応が実行されるシステムが開発された。詳細には、スピーチキャプチャシステムの場合、スピーチの存在を検出し、スピーチの期間中にのみ適応させるシステムが開発された。
しかしながら、この手法は、所望のオーディオソースがアクティブでないときの適応の問題に対処するが、所望のオーディオソースがアクティブである時間中の潜在的問題のいずれにも対処しない。
実際、発明者によって了解されるように、音響環境の特性は、特に、室内インパルス応答のより大きい間隔を推定しようとする拡張インパルス応答フィルタが使用されるとき、適応及び全体的性能に著しく影響を及ぼす。特に、発明者は、直接経路が支配的でないシナリオでは、適応がしばしば準最適であることを了解した。実際、オーディオソースが残響半径外にあるシナリオでは、受信された信号は、より後の反射及び残響によって支配される傾向がある。これは、適応を複雑にし、劣化させ、さらには、実際、多くのシナリオでは、正しいオーディオソースがアクティブであるときでも、正しいオーディオソースへの適応を妨げる。
図3のシステムは適応制御を含み、適応制御は、多くのシナリオでは、適応性能の改善を与え、スピーチキャプチャの改善を生じる。
オーディオキャプチャ装置は、詳細には、検出器307を含み、検出器307は、ビームフォーミングされたオーディオ出力信号においてスピーチのアタックを検出するように構成される。
スピーチのアタックは、前の期間の平均スピーチレベルと比較したときのスピーチレベルの急激な増加である。スピーチセンテンスは音素のシーケンスからなり、各音素は、一定の強度又は音圧を有し、60ミリ秒から100ミリ秒の間の平均長を有する。音素の強度の差分は、極めて大きくなり得る。母音、特に拡張母音は、相対的な強いレベルを有し得る。閉鎖子音は、先行する母音よりも20dB〜30dB低くなり得る。
そのような母音の開始は、レベルが、先行する音素のレベルよりも、たとえば4dB、10dB、さらには20dB強いとき、スピーチアタックと見なされ得る。
したがって、前の期間の平均スピーチレベルに対する(スピーチソースからの)スピーチのレベルの増加(すなわち、ソーススピーチレベルの増加)が、スピーチのアタックとして知られる。前の期間は、一般に、60ミリ秒から100ミリ秒までの範囲内にある。ソーススピーチレベルの増加は、一般に急激な増加であり、しばしば大幅な増加である。たとえば、たとえば5ミリ秒、10ミリ秒又は20ミリ秒以下の期間内のスピーチレベルの、たとえば少なくとも3dB、4dB、10dB以上の増加が、スピーチのアタックであると考えられ得る。
アタックのスピーチは、いくつかの実施形態では、早期反射の信号レベルが後の残響及び/又は残響拡散雑音の信号レベルを支配するときに生じると考えられる。
検出器307は、詳細には、いくつかのシナリオでは、スピーチ発生を検出し、すなわち、スピーチアタック(スピーチのアタック)の特定の例がスピーチの発生である。したがって、検出器307は、(ビームフォーミングされたオーディオ出力信号上でスピーチコンテンツが検出されない)無音期間の後に、スピーチの期間がいつ開始するかを検出するように構成される。
検出器307はコントローラ309に結合され、コントローラ309は、適応器305及び検出器307に結合され、スピーチのアタックの検出から決定される適応時間間隔において適応が生じるようにビームフォームパラメータの適応を制御するように構成される。したがって、適応時間間隔は、スピーチセグメントの開始の検出に応答して決定される。適応時間間隔は、詳細には、スピーチのアタックが検出された(これ以降、スピーチアタック検出とも呼ばれる)ときに開始し、たとえば所定の持続時間を有する。
したがって、コントローラ309は、ビームフォーマ303の適応を開始するように構成され、意義深いことに、適応を停止するようにも構成される。したがって、コントローラ309は、スピーチセグメントが適応時間間隔の持続時間を超えて延長する場合でも、ビームフォーマ303の適応を停止するように構成される。したがって、コントローラ309は、スピーチセグメント中に適応時間間隔を終了するように構成される。したがって、コントローラ309は、詳細には新しいスピーチセグメントの開始時に一般に比較的短い時間間隔において生じるように、適応を制御するように構成される。多くの実施形態では、適応は、そのような適応時間間隔中にのみ生じる。
説明された例では、適応時間間隔は、所定の持続時間又は所定の最大持続時間を有する所定の適応時間間隔である。したがって、適応時間間隔は所定の最大持続時間を有し、したがって、適応は、この所定の最大持続時間の後に終了される。いくつかの実施形態では、コントローラは、たとえば、適応に適していない条件が検出された場合(詳細には、早期反射が支配的でないことが検出された場合)、所定の最大持続時間より前に適応時間間隔を終了するようにさらに構成される。
適応が連続的に(又は、所望のスピーチソースがアクティブであるときに連続的に)実行される従来の手法とは対照的に、コントローラ309は、スピーチセグメントの初期間隔において実行されるように適応を制限する。本手法は、詳細には、ビームフォーマ303を適応させる際にスピーチアタックの特定の特性が利用され得る時間期間中に適応が実行されるように、適応を制御する。本手法は、詳細には、適応の焦点を、それがスピーチセグメントのより後の時間間隔中よりも、直接経路又は早期反射が、より後の反射及び残響に対して有意である初期間隔に合わせる。発明者は、この効果を了解しただけでなく、それが、ビームフォーミングスピーチキャプチャシステムのための、特に、かなりの、しかしながらすべての可能な反射を含むのに十分でない持続時間を有するインパルス応答によって音響室内応答がモデル化されるシステムのための、適応の大幅な改善を与えることもわかった。
本手法は、さらに、スピーチがアクティブであるときはいつでもビームフォーマが連続的に適応されるシナリオについて発明者によって了解される効果を最初に説明することによって、解明される。
ビームフォーマのビームフォームフィルタは、オーディオソースから対応するマイクロフォンへの音響室内応答をエミュレートすることを試みるように適応される。所望のソースが残響半径外にある場合、直接場及び第1の反射によって引き起こされた、音場におけるエネルギーは、(残響を含む)反射の残りによって引き起こされたエネルギーと比較して、比較的低い。したがって、ビームフォーマがスピーチセグメント中に連続的に適応されるとき、適応は、一般に、全体的なキャプチャされるスピーチエネルギーがより大きくなるので、より後の反射に対するものである。したがって、直接経路及び第1の反射への適応ではなく、適応は、一般に、より後の反射に対するものである。
これは、図5に示されているように、スピーカーから2つの異なるマイクロフォンへの2つの簡略化された室内応答を考慮することによって示され得る。
本例では、室内応答は、同じ時間tにおいてマイクロフォンに到着する直接場/経路寄与を含む。さらに、第1の反射は、同じ時間においてマイクロフォンに到着する(tr1)。さらに、極めて強い反射が、異なる時間tr2及びtr3においてマイクロフォンに到着する。そのようなシナリオにおいて、ビームフォームフィルタがTに等しい適応フィルタのフィルタ長を有すると考えられる場合、適応フィルタが第1の反射辺りの時間をモデル化することが望まれ、すなわち、インパルス応答がτからτ+Tの間の時間を反映することが望まれ、ここで、τ=t−Δであり、Δは、マイクロフォンにおいて同じ時間において到着しない直接場寄与を扱うことが可能であるのに十分に大きくなるように選択される。
しかしながら、そのようなシナリオでは、適応は、一般に、主に強い反射によって決定されるようにビームフォームフィルタのインパルス応答を適応させ、したがって、それらは遅延(tr3−tr2)をモデル化するように適応する。
これは、ビームフォーミングされた出力信号zが、フォワードマッチングフィルタにおいてマイクロフォン信号をフィルタ処理し、フィルタ処理された出力を加算することによって取得される、図4の2マイクロフォン例を考慮することから理解され得る。フォワードマッチングフィルタは、フィルタ係数に関する電力制約の下でzの出力電力が最大化される適応プロセスにおいて得られる。これにより、ビームフォームフィルタのインパルス応答は、図6に示されているもののように見えるように適応されることになるが、所望の結果は図7のものである。したがって、同時応答により直接経路及び第1の反射がフィルタ処理の後にコヒーレントに加算することになる所望の結果ではなく、図6の適応されたフィルタにより、これらは減衰されることになる。
しかしながら、図3のシステムの手法では、スピーチのアタックが検出され、詳細には、直接経路からの第1の信号の到来が検出される。この時点において、適応時間間隔が初期化され、すなわち、ビームフォーマ303が、適応することを開始する。したがって、適応器305は、コントローラ309によって、図5中の時間t=tにおいて適応を開始するように制御される。それは、続いて、Tの持続時間を有する適応時間間隔中にビームフォーマを更新し(詳細には出力電力を最大化する)、ここで、Tは所定であるか、又は、所定の最大値を有し、したがって、適応は、この持続時間内に受信された信号のみに基づいて適応される。この持続時間が十分に短く保たれる場合、適応は、大きい後の反射が到着する時間を含まず、したがって、適応は、より弱くより早期の反射(及び直接経路)に基づき得る。これは、特定の例において、ビームフォームフィルタが、図7の所望のインパルス応答を有するように適応されることを可能にする。
したがって、本手法は、システムが弱い直接経路及び第1の反射をモデル化することが可能になるので、ビームフォーマの適応が、スピーチのアタック中であり、減衰中でないとき、適応の改善が達成されるという洞察に基づく。
言い換えると、スピーチのアタックの場合、信号レベルは、一般に、極めて高速に、及び大幅に増加する。これにより、マイクロフォンアレイにおいて受信された直接経路及び(他の)早期反射が高レベルスピーチ信号から発生し、後の反射を介して、又は残響/拡散雑音として現在受信されている信号成分が、アタックより前に発生し、したがって低い信号レベルに対応する時間が生じる。これにより、室内応答が早期反射よりも強い後の反射/残響を呈する場合でも、早期反射が受信された信号を支配することになる。したがって、システムは、この状況を検出し、詳細には、これが生じたときにビームフォーマを適応させる。
したがって、本手法は、適応するときに所望のオーディオソースを他のオーディオソースからの雑音から分離するように考慮事項又は要望を拡張し、さらに、所望のオーディオソースから受信された異なる信号成分間の、詳細には、より早期の信号成分とより後の信号成分との間の差別化を導入する。したがって、本手法では、拡散音部分は、実際、所望のソースからも発生し、したがって、背景雑音又は他のオーディオソースがない状況においてさえ、本手法は、スピーチが存在するときはいつでも単に適応させる一般的な従来のシステムに勝る適応の改善を与える。本手法は、直接経路及び早期反射成分がより後の反射よりもはるかに弱いときでも、適応の改善を可能にし、実際、システムは、より後の反射がマイクロフォンアレイに達するのに十分な時間を有していなかったことにより、直接経路/早期反射が依然として支配する場合、スピーチのアタックへの適応を限定するように構成される。
異なる実施形態では、スピーチのアタックを検出するための異なる手法が使用されることが理解されよう。実際、スピーチ信号が、拡散背景雑音を含む他のオーディオソースに関して支配的であるいくつかの実施形態では、検出器307は、単に、信号レベルがいつ(たとえば、第1の直接経路の到着を検出するのに十分低く設定された)しきい値を上回って増加するかを検出するレベル検出器である。
しかしながら、たいていの実施形態では、有意な後の反射及び/又は雑音があり、より複雑な検出が有利に適用される。
たとえば、いくつかの実施形態では、検出器307は、受信された後の反射の信号レベルに対する受信された早期反射の信号レベルに応答してスピーチのアタックを直接検出するように構成される。実際、スピーチアタックの初期部分中は早期反射が後の反射を支配するが、スピーチセグメント自体中は後の反射が支配的である。
この効果は、早期反射が支配する時間に焦点を当てている適応において活用されるだけでなく、いくつかの実施形態では、スピーチのアタックを検出するためにも直接使用される。
一例として、検出器307は、ビームフォーミングされたオーディオ信号のエンベロープを決定し、その後、そのエンベロープ信号の高域フィルタ処理が続く。スピーチにおけるアタックは、エンベロープを鋭く上昇させるが、後の残響は、エンベロープを、残響時間によって決定された指数関数に従って緩やかに減衰させる。高域フィルタ処理はエンベロープ信号の減衰部分を除去し、アタックが残る。高域フィルタ処理されたエンベロープ信号がしきい値を超え、後の残響を超える場合、これは、スピーチのアタックの検出に対応すると考えられ得る。
別の例として、2つの低域フィルタが、受信された(スピーチ)信号をフィルタ処理し、一方の低域フィルタは他方よりも低いカットオフ周波数を有する(したがって、より長い持続時間にわたって「平均化」する)。スピーチのアタックが生じた場合、スピーチの信号レベルは、急激に、大幅に増加する。この増加により、低周波数カットオフフィルタ(lower frequency cut−off filter)についてよりも、高周波数カットオフフィルタ(higher frequency cut−off filter)について、出力レベルが高速に増加することになる。事実上、高周波数カットオフフィルタは、この場合、アタック後の信号(post attack signal)、したがって、アタックについての早期反射を表し、低周波数カットオフフィルタは、依然として、アタック前の全信号(pre−attack total signal)を反映し、アタック前の全信号は、後の反射によって支配される。
したがって、スピーチのアタックは、フィルタ出力を比較し、高周波数カットオフフィルタの出力が低周波数カットオフフィルタの出力を所与の量だけ超えるときにスピーチアタックを示すことによって、検出される。
したがって、早期反射と後の反射とを表す信号(又は、早期反射と後の反射との合成を表す信号、すなわち全信号)を評価することによって、適応のための特に有利な状況が検出され得る。これらは、無音期間に続くスピーチ発生において検出されるだけでなく、通常の連続スピーチ中にも決定される。実際、それらは、直接及び早期反射が、受信されたスピーチ信号を支配するときはいつでも適応することが可能であるように検出され得る。スピーチの新しい部分が前の部分よりもはるかに大きいとき、直接及び早期反射は、前の部分からのより後の反射のより弱い部分を支配する。これが検出され、次いで適応が実行され、室内応答の所望のセクション、すなわち早期応答への適応の改善が生じる。
図3の例では、ビームフォーマ303は、ビームフォーミングされたオーディオ出力信号と1つ又は複数の雑音基準信号の両方を生成するように構成される。そのような実施形態では、検出器307は、少なくとも1つの雑音基準信号についての信号レベル(詳細には電力)指示に対するビームフォーミングされたオーディオ出力信号についての信号レベル(詳細には電力)指示の比較に応答してスピーチのアタックを検出するように構成される。したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは雑音基準信号の信号レベルと比較され、スピーチのアタックの検出はこの比較に基づく。たとえば、ビームフォーミングされたオーディオ出力信号の信号レベルが雑音基準信号の信号レベルを所与のマージンだけ超える場合、これは、スピーチのアタックの検出に対応すると考えられる。
実際、無音期間(又は、後の反射/残響が支配する場合、一定のスピーチレベル)の後に、ビームの方向においてキャプチャされたオーディオと、他の方向においてキャプチャされたオーディオとは、一般に、(場合によってはビームの幅の補償の後に)かなり類似する。たとえば、拡散雑音が空間的に一様に分布している場合、信号レベルの唯一の差分は、ビームが狭いことによるものであり、したがって、これは補償される。
しかしながら、ビームがすでに所望のスピーチソースに集束された(すなわち、何らかの適応がすでに実行された)場合、スピーチのアタックにより、対応する増加された信号レベルがビームフォーマ303によってキャプチャされることになり、ビームフォーミングされたオーディオ出力信号の信号レベルが増加する。さらに、ビームフォームフィルタが直接経路及び早期反射に適応され、これらが、初期アタック中、アタックから受信されるすべてであるとき、スピーチソースから受信されたエネルギーの大部分がキャプチャされ、したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは増加し、雑音基準信号の信号レベルは一定にとどまる。したがって、雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルは大幅に増加し、これは、スピーチのアタックとして検出され得る。
さらに、一定の遅延の後に、アタックからの後の反射がマイクロフォンアレイに到着する。しかしながら、これらが、ビームフォームフィルタのインパルス応答の持続時間よりも長い遅延を伴って到着した(すなわち、それらが、ビームフォームフィルタのインパルス応答の持続時間を超える遅延を伴う室内応答の反射である)場合、それらは、ビームフォーミングされたオーディオ出力信号にコヒーレントに合成されないが、結果として、雑音基準信号にも寄与している。したがって、ビームフォーミングされたオーディオ出力信号の信号レベルは、(より後の反射がより強いと仮定して)雑音基準信号の信号レベルよりももはや高くなくなり、その結果、検出器307はスピーチのアタックをもはや検出しなくなる。
したがって、そのような検出器307は、詳細には、単にスピーチの存在とは対照的に、スピーチのアタックを検出することができる。さらに、これはスピーチセグメント中に連続的に行われ得、実際、本手法は、後の反射を支配する早期反射を生じるスピーチのアタックの自動検出を可能にする。これは、極めて有利な手法を与える。
実際、いくつかの実施形態では、適応時間間隔の開始と終了の両方が、検出器307の出力に応答して決定される。詳細には、適応時間間隔は、検出器307が、スピーチアタックが検出された(たとえば、信号レベルの差分がしきい値を超える)ことを示すときに開始され、検出器307がスピーチのアタックを検出しなくなる(たとえば、信号レベルの差分がもはやしきい値を超えなくなる)まで続く。いくつかの実施形態では、適応時間間隔の終了は、所定の持続時間の後に生じると決定される。他の実施形態では、終了時間は所定の最大持続時間の後に決定されるか、又は特定の条件が検出された場合、適応時間間隔はこれより前になるように決定される。
以下では、スピーチのアタックの検出についての特定の及び特に有利な手法が説明される。本手法は、ビームフォーミングされたオーディオ出力信号を雑音基準信号と比較する手法に基づくが、個々の時間周波数タイルにおける比較に基づく。本手法は、オーディオソースが残響半径外にあり、かなりの雑音が存在する特定のシナリオを含む多くの実際的シナリオにおいて、極めてロバストであり、極めて有利な性能を与える検出を与えることがわかっている。
本手法では、図3の検出器307は、図8に示されているような要素を備える。詳細には、検出器307は、スピーチのアタックが生じているか否かを示すスピーチアタック推定値を生成するように構成された検出器307を含む。検出器307は、ビームフォーマ303によって生成された、ビームフォーミングされたオーディオ出力信号及び雑音基準信号に基づいてこの推定値を決定する。
検出器307は、ビームフォーミングされたオーディオ出力信号に周波数変換を適用することによって第1の周波数ドメイン信号を生成するように構成された第1の変換器801を備える。詳細には、ビームフォーミングされたオーディオ出力信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第1の周波数ドメイン信号は周波数ドメインサンプルによって表され、各周波数ドメインサンプルが特定の時間間隔(対応する処理フレーム)と特定の周波数間隔とに対応する。各そのような周波数間隔及び時間間隔は、一般に、時間周波数タイルとして知られるフィールドにある。したがって、第1の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
検出器307は、雑音基準信号を受信する第2の変換器803をさらに備える。第2の変換器803は、雑音基準信号に周波数変換を適用することによって第2の周波数ドメイン信号を生成するように構成される。詳細には、雑音基準信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第2の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
図9は、第1の変換ユニット801及び第2の変換ユニット803の可能な実装形態の機能要素の特定の例を示す。本例では、直列並列変換器が2Bのサンプルの重複するブロック(フレーム)を生成し、それらは次いで、ハニング窓掛けされ、高速フーリエ変換(FFT)によって周波数ドメインに変換される。
ビームフォーミングされたオーディオ出力信号及び雑音基準信号は、以下では、それぞれz(n)及びx(n)と呼ばれ、第1の周波数ドメイン信号及び第2の周波数ドメイン信号は、ベクトル
Figure 0006665353
及び
Figure 0006665353
によって参照される(各ベクトルは、所与の処理/変換時間セグメント/フレームについてのすべてのM周波数タイル値を含む)。
多くの実施形態では、ビームフォーマ303は、図1の例の場合のように、適応フィルタを備え、適応フィルタは、雑音基準信号と相関させられるビームフォーミングされたオーディオ出力信号における雑音を減衰又は除去する。
周波数ドメインへの変換の後に、時間周波数値の実数及び虚数成分は、ガウス分布していると仮定される。この仮定は、一般に、たとえば、拡散音場から雑音が発生するシナリオについて、センサー雑音について、及び多くの実際的シナリオにおいて経験されるいくつかの他の雑音ソースについて正確である。
第1の変換器801と第2の変換器803とは、差分プロセッサ805に結合され、差分プロセッサ805は、個々のタイル周波数についての時間周波数タイル差分測度を生成するように構成される。詳細には、差分プロセッサ805は、FFTから生じる各周波数ビンについての現在フレームについて、差分測度を生成することができる。差分測度は、ビームフォーミングされたオーディオ出力信号及び雑音基準信号の、すなわち、第1の周波数ドメイン信号及び第2の周波数ドメイン信号の対応する時間周波数タイル値から生成される。
特に、所与の時間周波数タイルについての差分測度は、第1の周波数ドメイン信号の(すなわち、ビームフォーミングされたオーディオ出力信号の)時間周波数タイル値のノルムの第1の単調関数と第2の周波数ドメイン信号(雑音基準信号)の時間周波数タイル値のノルムの第2の単調関数との間の差分を反映するように生成される。第1の単調関数と第2の単調関数とは、同じであるか又は異なる。
ノルムは、一般に、L1ノルム又はL2ノルムである。ここで、多くの実施形態では、時間周波数タイル差分測度は、第1の周波数ドメイン信号の値の大きさ又は電力(power)の単調関数と第2の周波数ドメイン信号の値の大きさ又は電力の単調関数との間の差分を反映する差分指示として決定される。
単調関数は、一般に、両方とも単調増加であるが、いくつかの実施形態では、両方とも単調減少である。
異なる実施形態では異なる差分測度が使用されることが理解されよう。たとえば、いくつかの実施形態では、差分測度は、単に、第1の関数の結果及び第2の関数の結果を互いから減算することによって決定される。他の実施形態では、第1の関数の結果及び第2の関数の結果を互いで除算して、差分を示す比などを生成する。
したがって、差分プロセッサ805は、各時間周波数タイルについての時間周波数タイル差分測度を生成し、その差分測度は、その周波数におけるビームフォーミングされたオーディオ出力信号及び雑音基準信号それぞれの相対レベルを示す。
差分プロセッサ805は、スピーチアタック推定器807に結合され、スピーチアタック推定器807は、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してスピーチアタック推定値を生成する。したがって、スピーチアタック推定器807は、所与の周波数超の周波数についての周波数タイル差分測度を合成することによってスピーチアタック推定値を生成する。合成は、詳細には、所与のしきい値周波数超のすべての時間周波数タイル差分測度の、総和、又は、たとえば、周波数依存重み付けを含む重み付き合成(weighted combination)である。
したがって、スピーチアタック推定値は、所与の周波数超のビームフォーミングされたオーディオ出力信号のレベルと雑音基準信号のレベルとの間の相対周波数固有差分を反映するように生成される。しきい値周波数は、一般に、500Hzを上回る。
発明者は、そのような測度が、スピーチアタックが生じるか否かの強い指示を与えることを了解した。実際、発明者は、周波数固有比較が、より高い周波数への制限とともに、実際には、スピーチアタックの存在の指示の改善を与えることを了解した。さらに、発明者は、推定値が、音響環境、及び従来の手法が正確な結果を与えないシナリオにおいて適用するのに適していることを了解した。詳細には、説明される手法は、マイクロフォンアレイ301から遠くにあり(及び残響半径外にあり)、強い拡散雑音の存在下にある、非支配的スピーチソースについてさえ、スピーチアタックの有利で正確な検出を与える。
多くの実施形態では、スピーチアタック推定器807は、スピーチアタックが検出されたか否かを単に示すためにスピーチアタック推定値を生成するように構成される。詳細には、スピーチアタック推定器807は、合成された差分値がしきい値を超える場合、スピーチアタックが検出されたことを示すように構成される。したがって、生成された合成された差分値が、差分が所与のしきい値よりも高いことを示す場合、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されたと考えられる。合成された差分値がしきい値を下回る場合、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されなかったと考えられる。
したがって、説明される手法は、スピーチアタックの低複雑度検出を与える。特に、スピーチアタック推定値が、前に説明された特性を呈すること、すなわち、無音期間又は一定の信号レベル期間中は推定値が低くなり、アタックの後の反射ではなく早期反射が受信されるときのアタックの時間中は推定値が高くなり、(インパルス応答間隔外である)アタックの強い後の反射が受信されるときのアタックの後は推定値が低くなることに留意されたい。したがって、本手法は、スピーチアタック推定値が、単にスピーチの存在を検出することではなく、スピーチアタックが生じていることを直接示すことを可能にする。特定の手法は、さらに、実際には極めて効率的な性能を与えることがわかっており、実際、残響間隔外のスピーチソースについて、並びに、後の反射及び残響から生じる強い雑音の存在下で、有利な検出を与えることがわかった。
以下では、スピーチアタック推定値の極めて有利な決定の特定の例が説明される。
本例では、ビームフォーマ303は、前に説明されたように、所望のスピーチソースに集束するように適応する。ビームフォーマ303は、ソースに集束されるビームフォーミングされたオーディオ出力信号、並びに、他のソースからの後の残響及び場合によってはオーディオを示す雑音基準信号を与える。ビームフォーミングされたオーディオ出力信号はz(n)として示され、雑音基準信号はx(n)として示される。z(n)とx(n)の両方は、一般に、後の残響及び場合によっては雑音で汚染され、それらの両方が拡散雑音としてモデル化され得る。
Z(t,ω)を、ビームフォーミングされたオーディオ出力信号に対応する(複素)第1の周波数ドメイン信号とする。この信号は、所望の(直接及び第1の反射)スピーチ信号Z(t,ω)と、(ビームフォーマのビームフォームフィルタによってモデル化され得ない残響及び後の反射を含む)残響スピーチ信号Z(t,ω)とからなり、
Z(t,ω)=Z(t,ω)+Z(t,ω
である。
(t,ω)の振幅が知られていた場合、変数dを、
d(t,ω)=|Z(t,ω)|−|Z(t,ω)|
のように導出することが可能であり、
これは、スピーチ振幅|Z(t,ω)|を表す。
第2の周波数ドメイン信号、すなわち、雑音基準信号x(n)の周波数ドメイン表現は、X(t,ω)によって示される。
(n)とx(n)とは、それらが両方とも拡散雑音を表し、等しい分散を伴う(z)信号を加算すること又は等しい分散を伴う(x)信号を減算することによって取得されるので、等しい分散を有すると仮定され得、結果として、Z(t,ω)及びX(t,ω)の実部及び虚部も等しい分散を有することになる。したがって、|Z(t,ω)|は、上式では|X(t,ω)|によって置換され得る。
スピーチが存在しない(したがって、Z(t,ω)=Z(t,ω))場合、これは、
d(t,ω)=|Z(t,ω)|−|X(t,ω)|
につながり、
ここで、|Z(t,ω)|と|X(t,ω)|とは、実部及び虚部がガウス分布しており、依存しないので、レイリー分布になる。
2つの確率変数の差分の平均は、平均の差分に等しく、したがって、上記の時間周波数タイル差分測度の平均値は0であり、
E{d}=0
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、したがって、
var(d)=(4−π)σ
である。
次に、分散は、(t,ω)平面におけるL個の非依存値にわたって|Z(t,ω)|と|X(t,ω)|とを平均化することによって低減され得、
Figure 0006665353
を与える。
平滑化(低域フィルタ処理)は平均を変更せず、したがって、
Figure 0006665353
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、
Figure 0006665353
である。
したがって、平均化は、雑音の分散を低減する。
したがって、スピーチが存在しないときの時間周波数タイル差分測度の平均値は、0である。しかしながら、スピーチ(直接及び第1の反射)の存在下では、平均値は増加する。詳細には、スピーチ成分のL個の値にわたる平均化は、|Z(t,ω)|のすべての要素が正であり、
E{|Z(t,ω)|}>0
であるので、あまり効果がない。
したがって、スピーチが存在するとき、上記の時間周波数タイル差分測度の平均値は0を上回り、
Figure 0006665353
である。
時間周波数タイル差分測度は、1よりも大きい過減算因子(over−subtraction factor)γの形態の設計パラメータを適用することによって変更され、
Figure 0006665353
である。
この場合、平均値
Figure 0006665353
は、(直接及び第1の反射)スピーチが存在しないとき、及び実際、スピーチが存在するが、後の支配的な反射がビームフォームフィルタのインパルス応答の長さ/持続時間外の遅延を伴って到着するとき、0を下回る。しかしながら、過減算因子γは、スピーチアタックの存在下での平均値
Figure 0006665353
が0を上回る傾向があるように選択される。
スピーチアタック推定値を生成するために、複数の時間周波数タイルについての時間周波数タイル差分測度は、たとえば単純な総和によって、合成される。さらに、合成は、第1のしきい値を上回る周波数についての時間周波数タイルのみを、場合によっては、第2のしきい値を下回る時間周波数タイルについてのみ、含むように構成される。
詳細には、スピーチアタック推定値は、次のように生成される。
Figure 0006665353
このスピーチアタック推定値は、雑音基準信号におけるエネルギーの量に対する、ビームフォームフィルタインパルス応答のウィンドウ内に受信された所望のスピーチソースからのビームフォーミングされたオーディオ出力信号におけるエネルギーの量を示す。したがって、それは、スピーチアタックを区別するための特に有利な測度を与える。詳細には、スピーチのアタックは、e(t)が正である場合、存在すると考えられる。e(t)が負である場合、所望のスピーチソースが見つけられないか、又は、インパルス応答ウィンドウ外の後の反射が支配すると考えられる。他の実施形態では0以外の他のしきい値が使用されることが理解されよう。
上記の説明は図3のシステムの手法の背景及び利益を例示するが、本手法を損なうことなしに多くの変形及び変更が適用され得ることが理解されよう。
異なる実施形態では、たとえばビームフォーミングされたオーディオ出力信号の大きさと雑音基準信号の大きさとの間の差分を反映する差分測度を決定するために異なる関数及び手法が使用されることが理解されよう。実際、異なるノルムを使用すること又はノルムに異なる関数を適用することは、異なる特性をもつ異なる推定値を与えるが、依然として、所与の時間周波数タイルにおけるビームフォーミングされたオーディオ出力信号と雑音基準信号との間の基本的な差分を示す差分測度を生じる。
したがって、多くの実施形態では、前に説明された特定の手法が特に有利な性能を与えるが、他の実施形態では、適用例の特定の特性に応じて多くの他の関数及び手法が使用される。
より一般的には、差分測度は、
d(t,ω)=f(|Z(t,ω)|)−f(|X(t,ω)|)
のように計算され、
ここで、f(x)とf(x)とは、個々の実施形態の特定の選好及び要件に適している任意の単調関数であるように選択され得る。一般に、関数f(x)及びf(x)は、単調増加又は減少関数である。また、単に大きさを使用するのではなく、他のノルム(たとえば、L2ノルム)が使用されることが理解されよう。
時間周波数タイル差分測度は、上記の例では、第1の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第1の単調関数f(x)と、第2の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第2の単調関数f(x)との間の差分を示す。いくつかの実施形態では、第1の単調関数と第2の単調関数とは、異なる関数である。しかしながら、たいていの実施形態では、2つの関数は等しい。
さらに、関数f(x)及びf(x)の一方又は両方は、たとえば、マイクロフォン信号の全体的な平均電力レベル、周波数など、様々な他のパラメータ及び測度に依存する。
多くの実施形態では、関数f(x)及びf(x)の一方又は両方は、たとえば、周波数及び/又は時間次元における他のタイルにわたるZ(t,ω)、|Z(t,ω)|、f(|Z(t,ω)|)、X(t,ω)、|X(t,ω)|、又はf(|X(t,ω)|)のうちの1つ又は複数の平均化(すなわち、k及び/又はlの変動するインデックスについての値の平均化)による、他の周波数タイルについての信号値に依存する。多くの実施形態では、時間次元と周波数次元の両方において拡張する近傍にわたる平均化が実行される。早期に与えられた特定の差分測度式に基づく特定の例について後で説明するが、対応する手法が、差分測度を決定する他のアルゴリズム又は関数にも適用されることが理解されよう。
差分測度を決定するための可能な関数の例は、たとえば、
d(t,ω)=|Z(t,ω)|α−γ・|X(t,ω)|β
を含み、ここで、α及びβは、たとえば、
Figure 0006665353
などにおける、一般にα=βである設計パラメータであり、ここで、σ(ω)は、差分測度及びスピーチアタック推定値の所望のスペクトル特性を与えるために使用される好適な重み付け関数である。
これらの関数が例にすぎず、距離測度を計算するための多くの他の式及びアルゴリズムが想定され得ることが理解されよう。
上式では、因子γは、差分測度を負値のほうへバイアスするために導入される因子を表す。特定の例は、雑音基準信号時間周波数タイルに適用される単純なスケール因子によってこのバイアスを導入するが、多くの他の手法が可能であることが理解されよう。
実際、負値のほうへのバイアスを与えるために第1の関数f(x)及び第2の関数f(x)を構成する任意の好適なやり方が使用される。バイアスは、詳細には、前の例の場合のように、スピーチがない場合、又はスピーチが主に後の(遅すぎる)反射によって受信される場合に負である差分測度の予想される値を生成するバイアスである。実際、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方がランダム雑音のみを含んでいる(たとえば、サンプル値が平均値のあたりで対称的に及びランダムに分布している)場合、差分測度の予想される値は、0ではなく負である。前の特定の例では、これは、スピーチアタックがないときに負値を生じた過減算因子γによって達成された。
説明される考慮事項に基づく検出器307の一例が、図10において与えられる。本例では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とは、第1の変換器801及び第2の変換器803に与えられ、第1の変換器801及び第2の変換器803は、対応する第1の周波数ドメイン信号及び第2の周波数ドメイン信号を生成する。
周波数ドメイン信号は、たとえば、たとえば時間ドメイン信号の重複するハニング窓掛けされたブロックの短時間フーリエ変換(STFT)を算出することによって、生成される。STFTは、概して、時間と周波数の両方の関数であり、2つの引数t及びωによって表され、t=kBは離散時間であり、ここで、kはフレームインデックスであり、Bはフレームシフトであり、ω=lωは(離散)周波数であり、lは周波数インデックスであり、ωは基本周波数間隔を示す。
したがって、この周波数ドメイン変換の後に、長さのベクトル
Figure 0006665353
及び
Figure 0006665353
それぞれによって表された周波数ドメイン信号が与えられる。
周波数ドメイン変換は、特定の例では、大きさユニット(magnitude unit)1001、1003に供給され、大きさユニット1001、1003は、2つの信号の大きさを決定及び出力し、すなわち、それらは、値
Figure 0006665353
を生成する。
他の実施形態では、他のノルムが使用され、処理は、単調関数を適用することを含む。
大きさユニット1001、1003は低域フィルタ1005に結合され、低域フィルタ1005は、大きさ値を平滑化する。フィルタ処理/平滑化は、時間ドメイン、周波数ドメイン、又は、しばしば有利にはその両方におけるものであり、すなわち、フィルタ処理は、時間次元と周波数次元の両方において拡張する。
フィルタ処理された大きさの信号/ベクトル
Figure 0006665353
及び
Figure 0006665353
は、
Figure 0006665353
及び
Figure 0006665353
とも呼ばれる。
フィルタ1005は差分プロセッサ805に結合され、差分プロセッサ805は、時間周波数タイル差分測度を決定するように構成される。特定の例として、差分プロセッサ805は、次のように時間周波数タイル差分測度を生成する。
Figure 0006665353
設計パラメータγは、一般に、1..2の範囲内にある。
差分プロセッサ805はスピーチアタック推定器807に結合され、スピーチアタック推定器807は、時間周波数タイル差分測度を供給され、応答して、続いて、これらを合成することによってスピーチアタック推定値を決定する。
詳細には、ω=ωlowからω=ωhighの間の周波数値についての時間周波数タイル差分測度
Figure 0006665353
の和が、次のように決定される。
Figure 0006665353
いくつかの実施形態では、この値は検出器307から出力される。他の実施形態では、決定された値は、しきい値と比較され、たとえば、スピーチアタックが検出されたと考えられるか否かを示す2進値を生成するために使用される。詳細には、値e(t)は0のしきい値と比較され、すなわち、値が負である場合は、スピーチアタックが検出されなかったと考えられ、値が正である場合は、ビームフォーミングされたオーディオ出力信号においてスピーチアタックが検出されたと考えられる。
本例では、検出器307は、ビームフォーミングされたオーディオ出力信号の大きさ時間周波数タイル値についての、及び雑音基準信号の大きさ時間周波数タイル値についての低域フィルタ処理/平均化を含む。
平滑化は、詳細には、隣接値にわたって平均化を実行することによって実行される。たとえば、以下の低域フィルタ処理が第1の周波数ドメイン信号に適用される。
Figure 0006665353
ここで、(N=1の場合)Wは1/9の重みをもつ3*3行列である。他の実施形態では、もちろんNの他の値が使用され得、同様に、異なる時間間隔が使用され得ることが理解されよう。実際、フィルタ処理/平滑化がそれにわたって実行されるサイズは、たとえば周波数に応じて変動している(たとえば、より低い周波数についてよりも大きいカーネルが、より高い周波数について適用される)。
実際、フィルタ処理は、時間方向(考慮される隣接時間フレームの数)と周波数方向(考慮される隣接周波数ビンの数)の両方における好適な拡張を有するカーネルを適用することによって達成され、実際、このようなカーネルのサイズは、たとえば異なる周波数について又は異なる信号特性について変動していることが理解されよう。
また、上式においてW(m,n)によって表されるように、異なるカーネルは変動しており、これは、同様に、たとえば異なる周波数についての、又は信号特性に応答する動的変動である。
フィルタ処理は、後の残響及び雑音を低減し、したがってより正確な推定を与えるだけでなく、それは特に、(直接及び第1の反射)スピーチと後の残響及び雑音との間の差別化をも高める。実際、フィルタ処理は、ポイントオーディオソースの直接経路及び第1の反射に対する影響よりも大幅に大きな影響を後の残響及び雑音に対して有し、これにより、より大きい差分が時間周波数タイル差分測度について生成されることになる。
図1のものなど、ビームフォーマについてのビームフォーミングされたオーディオ出力信号と(1つ又は複数の)雑音基準信号との間の相関は、周波数が増加するにつれて低減することがわかった。したがって、スピーチアタック推定値は、しきい値を上回る周波数についての時間周波数タイル差分測度のみに応答して生成される。これにより、スピーチが存在するとき、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の無相関の増加、したがってより大きい差分が生じる。これにより、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの検出がより正確になる。
多くの実施形態では、500Hzを下回らない、又は、いくつかの実施形態では、有利には、1kHz、さらには2kHzを下回らない周波数についての時間周波数タイル差分測度のみに基づくようにスピーチアタック推定値を限定することによって、有利な性能が見つけられた。
しかしながら、いくつかの適用例又はシナリオでは、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の有意な相関は、比較的高いオーディオ周波数についてさえ残り、実際、いくつかのシナリオでは、オーディオ帯域全体について残る。
実際、理想的な球状等方性拡散音場では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とが部分的に相関され、その結果、|Z(t,ω)|及び|X(t,ω)|の予想される値は等しくなくなり、したがって、|Z(t,ω)|は|X(t,ω)|と容易に置き換えられ得ない。
これは、理想的な球状等方性拡散音場の特性を見ることによって理解され得る。2つのマイクロフォンが、そのような場で距離d離れて置かれ、それぞれマイクロフォン信号U(t,ω)及びU(t,ω)を有するとき、
E{|U(t,ω)|}=E{|U(t,ω)|}=2σ
及び
Figure 0006665353
になり、
波数
Figure 0006665353
(cは音速である)であり、σは、ガウス分布している、U(t,ω)及びU(t,ω)の実部及び虚部の分散である。
ビームフォーマが単純な2マイクロフォン遅延和(Delay−and−Sum)ビームフォーマであり、ブロードサイド(broadside)ビームを形成する(すなわち、遅延が0である)と仮定する。
Z(t,ω)=U(t,ω)+U(t,ω)、
及び、雑音基準信号の場合、
X(t,ω)=U(t,ω)−U(t,ω
と書くことができる。
得られた予想される値について、後の残響及び場合によっては雑音のみが存在すると仮定すると、
Figure 0006665353
である。
同様に、E{|X(t,ω)|}について、
E{|X(t,ω)|}=4σ(1−sinc(kd))
が得られる。
したがって、低い周波数について、|Z(t,ω)|と|X(t,ω)|とは、等しくない。
いくつかの実施形態では、検出器307は、そのような相関を補償するように構成される。特に、検出器307は、雑音コヒーレンス推定値C(t,ω)を決定するように構成され、雑音コヒーレンス推定値C(t,ω)は、雑音基準信号の振幅とビームフォーミングされたオーディオ出力信号の雑音成分の振幅との間の相関を示す。次いで、時間周波数タイル差分測度の決定は、このコヒーレンス推定値の関数としてのものである。
実際、多くの実施形態では、検出器307は、ビームフォーマからのビームフォーミングされたオーディオ出力信号及び雑音基準信号についてのコヒーレンスを、予想される振幅間の比に基づいて決定するように構成される。
Figure 0006665353
ここで、E{.}は期待値演算子である。コヒーレンス項は、ビームフォーミングされたオーディオ出力信号における雑音成分の振幅と雑音基準信号の振幅との間の平均相関の指示である。
C(t,ω)は、マイクロフォンにおける瞬時オーディオに依存せず、代わりに、雑音音場の空間的特性に依存するので、時間の関数としてのC(t,ω)の変動は、Z及びXの時間変動よりもはるかに小さい。
その結果、C(t,ω)は、直接スピーチ及び第1の反射が存在しない期間中の時間にわたって|Z(t,ω)|と|X(t,ω)|とを平均化することによって、比較的正確に推定され得る。そうするための手法は、米国特許第7602926号において開示され、米国特許第7602926号は、詳細には、C(t,ω)を決定するための、明示的スピーチ検出が必要とされない方法が記載されている。
雑音コヒーレンス推定値C(t,ω)を決定するための任意の好適な手法が使用されることが理解されよう。たとえば、e(t)があるしきい値を超えず、これが、直接スピーチ及び早期反射が利用可能/支配的でないことを示す、各時間周波数タイルについて、第1の周波数ドメイン信号と第2の周波数ドメイン信号とが比較され得、雑音相関推定値C(t,ω)は、単に、第1の周波数ドメイン信号の時間周波数タイル値と第2の周波数ドメイン信号の時間周波数タイル値との平均比として決定され得る。
理想的な球状等方性拡散雑音場の場合、コヒーレンス関数も、上記で説明された手法に従って分析的に決定され得る。
この推定値に基づいて、|Z(t,ω)|は、|X(t,ω)|だけではなく、C(t,ω)|X(t,ω)|と置き換えられ得る。これにより、時間周波数タイル差分測度が
Figure 0006665353
によって与えられる。
したがって、前の時間周波数タイル差分測度は、コヒーレンス関数が1の一定値に設定された、上記の差分測度の特定の例と考えられ得る。
コヒーレンス関数の使用により、本手法は、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の比較的強い相関がある周波数を含む、より低い周波数において使用されることが可能になる。
本手法は、さらに有利には、多くの実施形態では、適応キャンセラをさらに含み、適応キャンセラは、少なくとも1つの雑音基準信号と相関されるビームフォーミングされたオーディオ出力信号の信号成分をキャンセルするように構成されることが理解されよう。たとえば、図1の例と同様に、適応フィルタは、入力としての雑音基準信号を有し、その出力が、ビームフォーミングされたオーディオ出力信号から減算される。適応フィルタは、たとえば、スピーチが存在しない時間間隔中の得られた信号のレベルを最小化するように構成される。
したがって、スピーチのアタック中に、ビームフォーマからのビームフォーミングされたオーディオ出力信号が雑音基準と比較して大きく、雑音基準が、より後の、及び潜在的に支配的な反射が受信されたとき、(出力信号に対して)増加する(及び、後になっても、反射が拡散音場から来るものとしてモデル化され得る)という洞察は、特定のスピーチアタック推定値の発展につながった。実際、生成された測度e(t)は、直接場及び第1の反射がマイクロフォン信号(e(t)正)を支配するかどうか、或いは、残りの後の反射及び/又は拡散エコーがマイクロフォン信号(e(t)負)を支配するかどうかの優れた指示を与える。それは、ビームフォーマが、一般的なスピーチセグメント中の頻繁な間隔中に適応されることをも可能にする。実際、それは、休止の後のスピーチセグメントのまさに開始においてのみ適応するように限定されないが、スピーチセグメント中にアタックが生じるときはいつでも適応が生じることを可能にする。
ビームフォーマを適応させるための、及びビームフォームフィルタについての好適な更新値を決定するための多くの異なる手法が知られており、任意の好適な手法が、図3(又は図11)の適応器によって使用されることが理解されよう。
また、異なる適応ステップサイズ、したがって異なる適応レート又は帯域幅が使用され得ることが理解されよう。実際、多くの実施形態では、適応ステップサイズは、有利には適応可能にされ、動的に変動している。
実際、多くの実施形態では、(一定の頻度の更新について、ビームフォームパラメータの変更のサイズ、大きさ、又はスケーリングに対応する)適応レートが、個々の時間周波数タイルについて個々に適応されることが有利であることがわかっている。実際、発明者は、所与の時間周波数タイルについての時間周波数タイル差分に応答してそのタイルについての適応レートを適応させることが特に有利であることを了解した。詳細には、適応レート又はサイズは、その時間周波数タイルについての差分測度に依存する因子によってスケーリングされる。そのような手法の効果は、それが一般に適応を周波数依存にすることである。
特定の例として、適応ステップサイズは周波数依存利得関数を乗算され、周波数依存利得関数は、0から1の間で変動し、個々の時間周波数タイルについての差分測度に依存する。可能な利得関数は、詳細には、
Figure 0006665353
である。
この利得因子は、
Figure 0006665353

Figure 0006665353
と比較して小さい状況では、G(t,ω)が約1であるという特徴を有する。
Figure 0006665353
が|Z(t,ω)|よりも大きい状況では、G(t,ω)は0である。したがって、適応は、ビームフォーミングされたオーディオ出力信号のエネルギーレベルと雑音基準信号のエネルギーレベルとの比較から生じるスピーチアタックの指示を反映するように、周波数依存で適応される。
異なる実施形態では、適応時間間隔の持続時間が異なることが理解されよう。たとえば、いくつかの実施形態では、適応時間間隔は、スピーチのアタックが検出されたとき開始し、固定時間期間の間続く。そのような場合、適応持続時間がスピーチの蓄積全体を含むのに十分に長いが、好ましくは、強いより後の反射が支配的になるときに適応を含まないことが望ましい。
多くの実施形態では、適応時間間隔が長すぎないことが望ましく、実際、しばしば100ミリ秒を下回る持続時間について性能の改善が見られることがわかっている。
本手法は、(人工的な)例によってさらに示される。第1に、スピーチ信号が単一のディラックパルスからなると考えられる場合、マイクロフォンにおいて受信された信号は、室内インパルス応答である。ビームフォームフィルタが、最初の、たとえば、16ミリ秒をモデル化することができる(すなわち、ビームフォームフィルタインパルス応答長が16ミリ秒である)と仮定される場合、第1の音がマイクロフォンに達した後、音の最初の16ミリ秒のみがフィルタによってモデル化され得るので、これのみが有用である。したがって、16ミリ秒後に適応を停止することが望ましい。
しかしながら、代わりに、スピーチ信号が、各々が16ミリ秒だけ分離されるが、たとえば、1、1000、1000000の(すなわち、大幅に増加する)振幅をもつ3つの続いて起こるディラックパルスからなると仮定される場合、(一般に第1のディラックパルスの直接経路に対応する)第1の音の到着の後の最初の16ミリ秒中、すべての受信された音は有用であり、適応するに値する。16ミリ秒後、第1のパルスからの不要な音が受信され、すなわち、モデル化され得ない後の反射が第1のディラックパルスから受信される。しかしながら、さらに、有用で関連する音が第2のディラックパルスから受信される(すなわち、この音は、モデル化され得る室内応答の最初の16ミリ秒内にあるので、これは、ビームフォームフィルタによって依然としてモデル化され得る)。さらに、第2のディラックパルスからのこの音は、第1のディラックパルスからの残りの音よりもはるかに強く、したがって有用である。したがって、依然として、ビームフォーマ303を適応させることが望ましい。これは、第3のディラックパルスについても繰り返し、すなわち、32ミリ秒後、モデル化され得ない後の反射が第1及び第2のディラックパルスから受信されるが、同時に、モデル化され得る強い信号が第3のディラックパルスから受信されている。したがって、このシナリオでは、48ミリ秒後に適応を停止することが望ましい。
したがって、(人工的なディラックパルスによって示される)事実上3つの異なるスピーチアタックが生じるこの状況では、適応時間間隔は、スピーチアタックの各検出において開始される。実際、各適応時間間隔が終了される前に、新しいスピーチアタックが検出され、適応時間間隔は、前のスピーチからの後の反射が(新しいアタックから生じるより高い信号レベルにより)新しいアタックについての早期反射によって支配されることを反映するように拡張される。
いくつかの実施形態では、適応時間間隔は、インパルス応答の持続時間の50%から200%の間の持続時間を有するように構成される。多くの実施形態では、適応時間間隔は、インパルス応答の持続時間を超えない持続時間を有するように構成される。特に、いくつかの実施形態では、そのような持続時間は、所定であるように設定される。たとえば、上記の特定のシナリオでは、インパルス応答は16ミリ秒の持続時間を有し、適応時間間隔の持続時間は16ミリ秒になるように設定される。これにより、本例では、16ミリ秒の3つの連続する適応時間間隔が生じ、48ミリ秒の所望の全体的適応持続時間が生じる。
多くの実施形態では、コントローラ309は、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して適応時間間隔の終了時間を決定するように構成される。たとえば、雑音基準信号の信号電力に対するビームフォーミングされたオーディオ出力信号の信号電力の比又は差分が所与のレベルを下回る場合、これは、前に説明されたように、モデル化され得ない後の反射が支配的になっていることを示す。したがって、コントローラは適応を終了する。したがって、いくつかの実施形態では、コントローラ309は、特定の条件が生じたことが検出された場合、所定の最大持続時間より前に適応時間間隔を終了するように構成される。この条件は、詳細には、少なくとも1つの雑音基準信号の信号レベルに対するビームフォーミングされたオーディオ出力信号の信号レベルの比較によって決定される。
特定の例として、コントローラ309は、上記で導出された値e(t)を連続的に監視し、これが所与のしきい値(一般に0)を下回る場合、適応は終了される。
したがって、実際、詳細にはe(t)などのスピーチアタック推定値がスピーチの非定常性により変動するので、コントローラがこれを連続的に監視する、システムが与えられる。スピーチアタック推定値がしきい値を上回って増加する場合、コントローラ309は適応を開始し、スピーチアタック推定値がしきい値を下回るとき、コントローラ309は適応を停止する。このようにして、本システムは、モデル化され得る直接経路及び早期反射が、モデル化され得ない後の反射及び残響を支配する時間中にのみ生じるように、ビームフォーマ303の適応を自動的に制御する。
以下では、特に有利なオーディオキャプチャシステムを与えるために、スピーチアタック検出器307が他の説明される要素と相互作用するオーディオキャプチャ装置が説明される。特に、本手法は、雑音の多い環境及び残響環境においてオーディオソースをキャプチャするのに極めて適している。本手法は、所望のオーディオソースが残響半径外にあり、マイクロフォンによってキャプチャされたオーディオが拡散雑音及び後の反射又は残響によって支配される適用例について、特に有利な性能を与える。
図11は、本発明のいくつかの実施形態による、そのようなオーディオキャプチャ装置の要素の一例を示す。図3のシステムの要素及び手法は、以下で提示されるように、図11のシステムに対応する。
オーディオキャプチャ装置は、図3のマイクロフォンアレイ301に直接対応するマイクロフォンアレイ1101を備える。本例では、マイクロフォンアレイ1101はオプションのエコーキャンセラ1103に結合され、エコーキャンセラ1103は、(1つ又は複数の)マイクロフォン信号におけるエコーに線形的に関係する(基準信号が利用可能である)音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。
エコーキャンセラ1103はオプションであり、多くの実施形態において簡単に省略されることが理解されよう。
マイクロフォンアレイ1101は、一般に、直接、又はエコーキャンセラ1103を介して(並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して)のいずれかで第1のビームフォーマ1105に結合される。第1のビームフォーマ1105は、図3のビームフォーマ303に直接対応する。
第1のビームフォーマ1105は、マイクロフォンアレイ1101の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ1101からの信号を合成するように構成される。したがって、第1のビームフォーマ1105は、第1のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ1105は適応ビームフォーマであり、その指向性は、第1のビームフォーマ1105のビームフォーム動作の、第1のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。
第1のビームフォーマ1105は第1の適応器1107に結合され、第1の適応器1107は、第1のビームフォームパラメータを適応させるように構成される。したがって、第1の適応器1107は、ビームがステアリングされ得るように第1のビームフォーマ1105のパラメータを適応させるように構成される。
さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ1109、1111を備え、制約付きビームフォーマ1109、1111の各々が、マイクロフォンアレイ1101の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ1101からの信号を合成するように構成される。したがって、制約付きビームフォーマ1109、1111の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ1105と同様に、制約付きビームフォーマ1109、1111は、各制約付きビームフォーマ1109、1111の指向性が、制約付きビームフォーマ1109、1111の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。
したがって、オーディオキャプチャ装置は、第2の適応器1113を備え、第2の適応器1113は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させ、それにより、これらによって形成されたビームを適応させるように構成される。
図3のビームフォーマ303は、図11の第1の制約付きビームフォーマ1109に直接対応する。また、残りの制約付きビームフォーマ1111は、第1のビームフォーマ1109に対応し、これの具体例と考えられ得ることが理解されよう。
したがって、第1のビームフォーマ1105と制約付きビームフォーマ1109、1111の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ1105、1109、1111は、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
図3のビームフォーマ303は、ビームフォーマ1105、1109、1111のいずれかに対応し、実際、図3のビームフォーマ303に関して与えられたコメントは、図11の第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111のいずれかに等しく適用されることが理解されよう。
同様に、第2の適応器513は、図3の適応器305に直接対応する。
多くの実施形態では、第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のFIRフィルタ構造を有するなどである。
しかしながら、第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111の動作及びパラメータは異なり、特に、制約付きビームフォーマ1109、1111は、第1のビームフォーマ1105が制約されないやり方で制約される。詳細には、制約付きビームフォーマ1109、1111の適応は、第1のビームフォーマ1105の適応とは異なり、詳細には、いくつかの制約を受ける。
詳細には、制約付きビームフォーマ1109、1111は、適応(ビームフォームフィルタパラメータの更新)が、基準が満たされるときの状況に制約されるという制約を受けるが、第1のビームフォーマ1105は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第1の適応器1107は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第1のビームフォーマ1105によってキャプチャされたオーディオの(又は制約付きビームフォーマ1109、1111のいずれかの)特性によって制約されない。さらに、第2の適応器1113は、スピーチアタックの検出に応答して決定される適応時間間隔中にのみ適応するように構成される。
制約付きビームフォーマ1109、1111を適応させるための基準は、後でより詳細に説明される。
多くの実施形態では、第1のビームフォーマ1105についての適応レートは、制約付きビームフォーマ1109、1111についての適応レートよりも高い。したがって、多くの実施形態では、第1の適応器1107は、第2の適応器1113よりも高速に変動に適応するように構成され、したがって、第1のビームフォーマ1105は、制約付きビームフォーマ1109、1111よりも高速に更新される。これは、たとえば、最大化又は最小化されている値(たとえば、出力信号の信号レベル又は誤差信号の大きさ)の低域フィルタ処理が、第1のビームフォーマ1105について、制約付きビームフォーマ1109、1111についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ(詳細には、ビームフォームフィルタ係数)の更新ごとの最大変化は、第1のビームフォーマ1105について、制約付きビームフォーマ1109、1111よりも高い。
したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束(適応制約付き)ビームフォーマが、この制約を受けない、自走する(free running)より高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。
図11のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。
第1のビームフォーマ1105と制約付きビームフォーマ1109、1111とは、出力プロセッサ1115に結合され、出力プロセッサ1115は、ビームフォーマ1105、1109、1111から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ1105、1109、1111からのオーディオ出力信号にある。
多くの実施形態では、出力プロセッサ1115からの出力信号は、ビームフォーマ1105、1109、1111からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。
したがって、出力プロセッサ1115の出力選択及び後処理は、特定用途向けであり、及び/又は、異なる実装形態/実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る(たとえば、最も強いスピーカーが選択される)などである。
ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。
通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、(たとえば出力プロセッサ1115によって)オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
図11のシステムでは、第1のビームフォーマ1105と制約付きビームフォーマ1109、1111との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。
この目的で、オーディオキャプチャ装置は、ビーム差分プロセッサ1117を備え、ビーム差分プロセッサ1117は、制約付きビームフォーマ1109、1111のうちの1つ又は複数と第1のビームフォーマ1105との間の差分測度を決定するように構成される。差分測度は、第1のビームフォーマ1105及び制約付きビームフォーマ1109、1111それぞれによって形成されたビーム間の差分を示す。したがって、第1の制約付きビームフォーマ1109についての差分測度は、第1のビームフォーマ1105によって形成されるビームと第1の制約付きビームフォーマ1109によって形成されるビームとの間の差分を示す。このようにして、差分測度は、2つのビームフォーマ1105、1109がどのくらい密接に同じオーディオソースに適応されるかを示す。
異なる実施形態及び適用例では異なる差分測度が使用される。
いくつかの実施形態では、差分測度は、異なるビームフォーマ1105、1109、1111からの生成されたビームフォーミングされたオーディオ出力に基づいて決定される。一例として、単純な差分測度は、単に、第1のビームフォーマ1105及び第1の制約付きビームフォーマ1109の出力の信号レベルを測定し、これらを互いに比較することによって生成される。信号レベルが互いに近くなるほど、差分測度は低くなる(一般に、差分測度はまた、たとえば第1のビームフォーマ1105の実際の信号レベルの関数として増加する)。
より好適な差分測度が、多くの実施形態では、第1のビームフォーマ1105及び第1の制約付きビームフォーマ1109からのビームフォーミングされたオーディオ出力間の相関を決定することによって生成される。相関値が高くなるほど、差分測度は低くなる。
代替又は追加として、差分測度は、第1のビームフォーマ1105のビームフォームパラメータと第1の制約付きビームフォーマ1109のビームフォームパラメータとの比較に基づいて決定される。たとえば、所与のマイクロフォンについての第1のビームフォーマ1105のビームフォームフィルタ及び第1の制約付きビームフォーマ1109のビームフォームフィルタの係数は、2つのベクトルによって表される。次いで、これらの2つのベクトルの差分ベクトルの大きさが計算される。プロセスはすべてのマイクロフォンについて繰り返され、合成された、又は平均的な大きさが、距離測度として決定され、使用される。したがって、生成された差分測度は、ビームフォームフィルタの係数が第1のビームフォーマ1105と第1の制約付きビームフォーマ1109とについてどのくらい異なるかを反映し、これは、ビームについての差分測度として使用される。
したがって、図11のシステムでは、第1のビームフォーマ1105のビームフォームパラメータと第1の制約付きビームフォーマ1109のビームフォームパラメータとの間の差分及び/又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。
差分測度を生成すること、決定すること、及び/又は使用することは、類似性測度を生成すること、決定すること、及び/又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、したがって、差分測度は類似性測度でもあり(その逆も同様)、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。
ビーム差分プロセッサ1117は、第2の適応器1113に結合され、これに差分測度を与える。第2の適応器1113は、差分測度に応答して制約付きビームフォーマ1109、1111を適応させるように構成される。詳細には、第2の適応器1113は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。したがって、所与の制約付きビームフォーマ1109、1111についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ1109、1111についての決定された差分測度が、第1のビームフォーマ1105のビームと所与の制約付きビームフォーマ1109、1111のビームとが十分に類似していないことを示す場合、適応は実行されない。
したがって、図11のオーディオキャプチャ装置では、制約付きビームフォーマ1109、1111は、ビームの適応において制約される。詳細には、制約付きビームフォーマ1109、1111は、制約付きビームフォーマ1109、1111によって形成された現在のビームが、自走する第1のビームフォーマ1105が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ1109、1111は、第1のビームフォーマ1105が個々の制約付きビームフォーマ1109、1111に十分に近くなるように現在適応されている場合のみ適応される。
これの結果は、制約付きビームフォーマ1109、1111の適応が第1のビームフォーマ1105の動作によって制御され、それにより、効果的に、第1のビームフォーマ1105によって形成されたビームが、制約付きビームフォーマ1109、1111のうちのどちらが最適化/適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ1109、1111は、所望のオーディオソースが制約付きビームフォーマ1109、1111の現在の適応に近いときのみ適応される傾向がある。
適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。
多くの実施形態では、適応の制約は、さらなる要件を条件とする。
たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。したがって、個々の制約付きビームフォーマ1109、1111のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。
異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。
いくつかの実施形態では、制約付きビームフォーマ1109、1111の適応は、制約付きビームフォーマ1109、1111の出力において、いつスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。特に、検出器307の、前に説明された手法が適用される。
図3及び図11のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。したがって、連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ1105、1109、1111は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ1109、1111を選択し、この制約付きビームフォーマ1109、1111を更新する/適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、11ミリ秒から110ミリ秒の間の持続時間を有する。
いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ1109、1111の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。
本システムでは、適応は、さらに、ビームフォーミングされたオーディオ出力におけるスピーチアタックの検出に依存する。したがって、オーディオキャプチャ装置は、図3に関してすでに説明された検出器307をさらに備える。
検出器307は、詳細には、多くの実施形態では、制約付きビームフォーマ1109、1111の各々においてスピーチアタックを検出するように構成され、したがって、検出器307は、これらに結合され、ビームフォーミングされたオーディオ出力信号を受信する。さらに、検出器307は、制約付きビームフォーマ1109、1111からの雑音基準信号を受信する(明快のために、図11は、ビームフォーミングされたオーディオ出力信号と雑音基準信号とを単一の線によって示し、すなわち、図11の線は、ビームフォーミングされたオーディオ出力信号と(1つ又は複数の)雑音基準信号の両方、並びに、たとえばビームフォームパラメータを含むバスを表すと考えられる)。
したがって、図11のシステムの動作は、前に説明された原理に従って検出器307によって実行されるスピーチアタック推定に依存する。検出器307は、詳細には、すべてのビームフォーマ1105、1109、1111についてのスピーチアタック推定値を生成するように構成される。
検出結果は検出器307から第2の適応器1113に受け渡され、第2の適応器1113は、これに応答して適応を適応させるように構成される。詳細には、第2の適応器1113は、スピーチアタックが検出されたことを検出器307が示す制約付きビームフォーマ1109、1111のみを適応させるように構成される。詳細には、図3のコントローラ309は第2の適応器1113中に含まれ、第2の適応器1113は、したがって、制約付きビームフォーマ1109、1111の適応を、スピーチアタックの検出に続く(短い)適応時間間隔においてのみ生じるように制約するように構成される。
したがって、オーディオキャプチャ装置は、スピーチアタックが生じている制約付きビームフォーマ1109、1111のみが適応され、その形成されたビームが第1のビームフォーマ1105によって形成されたビームに近くなるように、制約付きビームフォーマ1109、1111の適応を制約するように構成される。したがって、適応は、一般に、すでに(所望の)ポイントオーディオソースに近い制約付きビームフォーマ1109、1111に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ1109、1111を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。
多くの実施形態では、オーディオキャプチャ装置は、一度に1つの制約付きビームフォーマ1109、1111のみを適応させるように構成される。したがって、第2の適応器1113は、各適応時間間隔において、制約付きビームフォーマ1109、1111のうちの1つを選択し、ビームフォームパラメータを更新することによってこれのみを適応させる。スピーチアタックが複数の制約付きビームフォーマ1109、1111について検出されたシナリオでは、最も低い差分測度を有する制約付きビームフォーマ1109、1111が選択される。
いくつかの実施形態では、適応はビーム差分測度に依存しないことがあり、実際、そのような測度が決定されないことがある。実際、いくつかの実施形態では、適応は、スピーチアタック推定値のみに基づく。
たとえば、いくつかの実施形態では、第2の適応器1113は、スピーチアタックが検出されたすべての制約付きビームフォーマ1109、1111のための適応を可能にするように構成される。いくつかの実施形態では、第2の適応器1113は、スピーチアタックの最も強い指示が検出された制約付きビームフォーマ1109、1111のみのための適応を可能にするように構成される。
他の実施形態では、第2の適応器1113は、スピーチアタックの最も強い指示が現在のスピーチアタックがないことを示す場合でも、この指示を与える制約付きビームフォーマ1109、1111を単に選択するように構成される。
特定の例として、第2の適応器1113は、擬似コードで表される以下の演算を実行する。
(t)が最も大きいビームフォーマlを決定する
if
(t)>0
then allowtoadapt=真
else
if e(t)>average(e(t))/athr∀i,i≠l
then allowtoadapt=真
else allowtoadapt=偽
end
if allowtoadapt==真
then 制約付きビームフォーマkを適応させる
end
したがって、いくつかの実施形態では、オーディオキャプチャ装置は、スピーチアタック推定値が現在のスピーチアタックを示す場合、又は、スピーチアタック推定値が、好適なマージンを伴って、任意の他の制約付きビームフォーマ1109、1111についてよりも、所与の制約付きビームフォーマについて強い場合、このビームフォーマを適応させるように構成される。この後者の条件が満たされる場合、それは、直接スピーチがビームフォーマlにおいて存在するが、ビームフォーマがまだ正確に集束されていないことを示す。
上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションに実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。
本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有するという用語は、他の要素又はステップが存在することを除外するものではない。
さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び/又は有利でないことを暗示するものではない。また、請求項の1つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、「a」、「an」、「第1の」、「第2の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims (15)

  1. ビームフォーミングされたオーディオ出力信号を生成する第1のビームフォーマと、
    前記第1のビームフォーマのビームフォームパラメータを適応させるための適応器と、
    前記ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するための検出器と、
    前記スピーチのアタックの前記検出に応答して決定された所定の適応時間間隔において生じるように前記ビームフォームパラメータの前記適応を制御するためのコントローラと
    を備える、オーディオキャプチャ装置。
  2. 前記検出器は、受信された後の反射の信号レベルに対する受信された早期反射の信号レベルに応答して前記スピーチのアタックを検出する、請求項1に記載のオーディオキャプチャ装置。
  3. 前記第1のビームフォーマは、少なくとも1つの雑音基準信号を生成し、前記検出器は、前記少なくとも1つの雑音基準信号の信号レベルに対する前記ビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して前記スピーチのアタックを検出する、請求項1又は2に記載のオーディオキャプチャ装置。
  4. 前記コントローラは、前記少なくとも1つの雑音基準信号の信号レベルに対する前記ビームフォーミングされたオーディオ出力信号の信号レベルの比較に応答して前記所定の適応時間間隔を終了する、請求項3に記載のオーディオキャプチャ装置。
  5. 前記第1のビームフォーマは、少なくとも1つの雑音基準信号を生成し、前記検出器は、
    前記ビームフォーミングされたオーディオ出力信号の周波数変換から第1の周波数ドメイン信号を生成するための第1の変換器であって、前記第1の周波数ドメイン信号が時間周波数タイル値によって表される、当該第1の変換器と、
    前記少なくとも1つの雑音基準信号の周波数変換から第2の周波数ドメイン信号を生成するための第2の変換器であって、前記第2の周波数ドメイン信号が時間周波数タイル値によって表される、当該第2の変換器と、
    前記第1の周波数ドメイン信号の時間周波数タイル値のノルムの第1の単調関数と前記第2の周波数ドメイン信号の時間周波数タイル値のノルムの第2の単調関数との間の差分を示す時間周波数タイル差分測度を生成する差分プロセッサと、
    周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してスピーチアタック推定値を生成するためのスピーチアタック推定器と
    を備える、請求項1乃至4の何れか一項に記載のオーディオキャプチャ装置。
  6. 前記検出器は、前記合成された差分値がしきい値を上回って増加することに応答して前記所定の適応時間間隔のための開始時間を決定する、請求項5に記載のオーディオキャプチャ装置。
  7. 前記検出器は、前記合成された差分値がしきい値を下回ることに応答して前記所定の適応時間間隔を終了する、請求項5又は6に記載のオーディオキャプチャ装置。
  8. 前記検出器は、前記ビームフォーミングされたオーディオ出力信号の振幅と前記少なくとも1つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成し、前記第1の単調関数及び前記第2の単調関数のうちの少なくとも1つが前記雑音コヒーレンス推定値に依存する、請求項5乃至7の何れか一項に記載のオーディオキャプチャ装置。
  9. 前記適応器は、第1の時間周波数タイルについての時間周波数タイル差分測度に応答して、前記第1の時間周波数タイルについてビームフォームパラメータについての適応レートを変更する、請求項5乃至8の何れか一項に記載のオーディオキャプチャ装置。
  10. 前記検出器は、前記第1の周波数ドメイン信号の時間周波数タイル値の前記ノルム及び前記第2の周波数ドメイン信号の時間周波数タイル値の前記ノルムのうちの少なくとも1つをフィルタ処理し、前記フィルタ処理は時間と周波数の両方において異なる時間周波数タイルを含む、請求項5乃至9の何れか一項に記載のオーディオキャプチャ装置。
  11. 前記スピーチのアタックから前記所定の適応時間間隔の終了までの持続時間は、100ミリ秒を超えない、請求項1乃至10の何れか一項に記載のオーディオキャプチャ装置。
  12. 前記オーディオキャプチャ装置は、前記第1のビームフォーマを含む複数のビームフォーマを備え、前記検出器は、前記複数のビームフォーマの各ビームフォーマについてのスピーチアタック推定値を生成し、前記オーディオキャプチャ装置は、前記スピーチアタック推定値に応答して前記複数のビームフォーマのうちの少なくとも1つを適応させるための適応器をさらに備える、請求項1に記載のオーディオキャプチャ装置。
  13. 前記複数のビームフォーマは、前記ビームフォーミングされたオーディオ出力信号と前記少なくとも1つの雑音基準信号とを生成する第1のビームフォーマと、マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力と少なくとも1つの制約付き雑音基準信号とを各々が生成する複数の制約付きビームフォーマとを備え、前記適応器は、
    第1の制約付きビームフォーマについてのスピーチアタック推定値が、スピーチアタックが前記第1の制約付きビームフォーマについて検出されたことを示すこと、及び
    第1の制約付きビームフォーマについてのスピーチアタック推定値が、前記複数の制約付きビームフォーマのうちの任意の他の制約付きビームフォーマについてのスピーチアタック推定値よりも高い、スピーチアタックの確率を示すこと
    のグループからの少なくとも1つの制約を含む基準を条件とする当該第1の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させる、
    請求項12に記載のオーディオキャプチャ装置。
  14. 前記オーディオキャプチャ装置は、前記複数の制約付きビームフォーマのうちの少なくとも1つについての差分測度を決定するためのビーム差分プロセッサであって、前記差分測度が、前記第1のビームフォーマによって形成されたビームと前記複数の制約付きビームフォーマのうちの前記少なくとも1つによって形成されたビームとの間の差分を示す、当該ビーム差分プロセッサをさらに備え、
    前記適応器は、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、当該制約付きビームフォームパラメータを適応させる、
    請求項13に記載のオーディオキャプチャ装置。
  15. ビームフォーマが、ビームフォーミングされたオーディオ出力信号を生成するステップと、
    前記ビームフォーマのビームフォームパラメータを適応させるステップと、
    前記ビームフォーミングされたオーディオ出力信号におけるスピーチのアタックを検出するステップと、
    前記スピーチのアタックの前記検出に応答して決定された所定の適応時間間隔において生じるように前記ビームフォームパラメータの前記適応を制御するステップと
    を有する、オーディオキャプチャの方法。
JP2019535791A 2017-01-03 2018-01-02 ビームフォーミングを使用するオーディオキャプチャ Active JP6665353B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17150096 2017-01-03
EP17150096.0 2017-01-03
PCT/EP2018/050045 WO2018127483A1 (en) 2017-01-03 2018-01-02 Audio capture using beamforming

Publications (2)

Publication Number Publication Date
JP2020503562A JP2020503562A (ja) 2020-01-30
JP6665353B2 true JP6665353B2 (ja) 2020-03-13

Family

ID=57714510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535791A Active JP6665353B2 (ja) 2017-01-03 2018-01-02 ビームフォーミングを使用するオーディオキャプチャ

Country Status (7)

Country Link
US (1) US11039242B2 (ja)
EP (1) EP3566228B1 (ja)
JP (1) JP6665353B2 (ja)
CN (1) CN110140171B (ja)
BR (1) BR112019013239A2 (ja)
RU (1) RU2751760C2 (ja)
WO (1) WO2018127483A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402913B (zh) * 2020-02-24 2023-09-12 北京声智科技有限公司 降噪方法、装置、设备和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146012B1 (en) 1997-11-22 2006-12-05 Koninklijke Philips Electronics N.V. Audio processing arrangement with multiple sources
US7206418B2 (en) 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
GB2388001A (en) * 2002-04-26 2003-10-29 Mitel Knowledge Corp Compensating for beamformer steering delay during handsfree speech recognition
DE60325595D1 (de) 2002-07-01 2009-02-12 Koninkl Philips Electronics Nv Von der stationären spektralleistung abhängiges audioverbesserungssystem
KR20060085392A (ko) * 2005-01-24 2006-07-27 현대자동차주식회사 어레이 마이크 시스템
ATE497327T1 (de) 2005-07-06 2011-02-15 Koninkl Philips Electronics Nv Vorrichtung und verfahren zur schallstrahlformung
US8077892B2 (en) * 2006-10-30 2011-12-13 Phonak Ag Hearing assistance system including data logging capability and method of operating the same
US8005238B2 (en) 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
ATE473603T1 (de) * 2007-04-17 2010-07-15 Harman Becker Automotive Sys Akustische lokalisierung eines sprechers
WO2010070552A1 (en) * 2008-12-16 2010-06-24 Koninklijke Philips Electronics N.V. Speech signal processing
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN104053088A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 一种麦克风阵列调整方法、麦克风阵列及电子设备
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
WO2014171920A1 (en) * 2013-04-15 2014-10-23 Nuance Communications, Inc. System and method for addressing acoustic signal reverberation
US9984675B2 (en) * 2013-05-24 2018-05-29 Google Technology Holdings LLC Voice controlled audio recording system with adjustable beamforming
EP2819429B1 (en) * 2013-06-28 2016-06-22 GN Netcom A/S A headset having a microphone
EP3120355B1 (en) 2014-03-17 2018-08-29 Koninklijke Philips N.V. Noise suppression
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
EP3057337B1 (en) * 2015-02-13 2020-03-25 Oticon A/s A hearing system comprising a separate microphone unit for picking up a users own voice
US10395644B2 (en) * 2016-02-25 2019-08-27 Panasonic Corporation Speech recognition method, speech recognition apparatus, and non-transitory computer-readable recording medium storing a program
RU2759715C2 (ru) 2017-01-03 2021-11-17 Конинклейке Филипс Н.В. Звукозапись с использованием формирования диаграммы направленности
BR112019013548A2 (pt) 2017-01-03 2020-01-07 Koninklijke Philips N.V. Aparelho de captura de áudio, método de operação para capturar áudio, e produto de programa de computador
CN111194445A (zh) * 2017-10-13 2020-05-22 思睿逻辑国际半导体有限公司 重放攻击的检测

Also Published As

Publication number Publication date
BR112019013239A2 (pt) 2019-12-24
JP2020503562A (ja) 2020-01-30
RU2751760C2 (ru) 2021-07-16
US20210136489A1 (en) 2021-05-06
RU2019124535A (ru) 2021-02-05
EP3566228A1 (en) 2019-11-13
US11039242B2 (en) 2021-06-15
CN110140171B (zh) 2023-08-22
EP3566228B1 (en) 2020-06-10
RU2019124535A3 (ja) 2021-05-21
CN110140171A (zh) 2019-08-16
WO2018127483A1 (en) 2018-07-12

Similar Documents

Publication Publication Date Title
JP7041156B2 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
JP7041157B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP6644959B1 (ja) ビームフォーミングを使用するオーディオキャプチャ
KR101470528B1 (ko) 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
JP6196320B2 (ja) 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法
RU2768514C2 (ru) Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией
GB2571371A (en) Signal processing for speech dereverberation
US10937418B1 (en) Echo cancellation by acoustic playback estimation
Schwarz et al. A two-channel reverberation suppression scheme based on blind signal separation and Wiener filtering
JP6665353B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
Braun et al. Directional interference suppression using a spatial relative transfer function feature
Xiong et al. A study on joint beamforming and spectral enhancement for robust speech recognition in reverberant environments
Yong et al. Incorporating multi-channel Wiener filter with single-channel speech enhancement algorithm
KALUVA Integrated Speech Enhancement Technique for Hands-Free Mobile Phones

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190807

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200219

R150 Certificate of patent or registration of utility model

Ref document number: 6665353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250