JP7041156B2 - ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 - Google Patents

ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 Download PDF

Info

Publication number
JP7041156B2
JP7041156B2 JP2019535783A JP2019535783A JP7041156B2 JP 7041156 B2 JP7041156 B2 JP 7041156B2 JP 2019535783 A JP2019535783 A JP 2019535783A JP 2019535783 A JP2019535783 A JP 2019535783A JP 7041156 B2 JP7041156 B2 JP 7041156B2
Authority
JP
Japan
Prior art keywords
constrained
beamformer
frequency
difference
beamformers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019535783A
Other languages
English (en)
Other versions
JP2020503780A (ja
JP7041156B6 (ja
Inventor
コルネリス ピーター ヤンス
ブライアン ブランド アントニウス ヨハネス ブレーメンダール
パトリック ケチチャン
リック ヨセフ マルティヌス ヤンセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2020503780A publication Critical patent/JP2020503780A/ja
Publication of JP7041156B2 publication Critical patent/JP7041156B2/ja
Application granted granted Critical
Publication of JP7041156B6 publication Critical patent/JP7041156B6/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、ビームフォーミングを使用するオーディオキャプチャに関し、特に、限定はしないが、ビームフォーミングを使用するスピーチキャプチャに関する。
オーディオ、特にスピーチをキャプチャすることは、ここ数十年間でますます重要になった。実際、スピーチをキャプチャすることは、電気通信、遠隔会議、ゲーミング、オーディオユーザインターフェースなどを含む様々な適用例にとって、ますます重要になった。しかしながら、多くのシナリオ及び適用例における問題は、所望のスピーチソースが、一般に、環境における唯一のオーディオソースでないことである。むしろ、一般的なオーディオ環境において、マイクロフォンによってキャプチャされている多くの他のオーディオ/雑音ソースがある。多くのスピーチキャプチャ適用例が直面する重大な問題のうちの1つは、雑音の多い環境において、どのように最も良くスピーチを抽出するかの問題である。この問題に対処するために、雑音抑圧のためのいくつかの異なる手法が提案された。
実際、たとえばハンズフリースピーチ通信システムの研究は、数十年の間に多くの関心を受けた論題である。利用可能な最初の商業システムは、低い背景雑音及び低い残響時間をもつ環境におけるプロフェッショナル(ビデオ)会議システムに焦点を当てた。たとえば所望のスピーカーなど、所望のオーディオソースを識別し、抽出するための特に有利な手法は、マイクロフォンアレイからの信号に基づくビームフォーミングの使用であることがわかった。初めに、マイクロフォンアレイはしばしば集束固定ビームとともに使用されたが、後に、適応ビームの使用がより普及した。
1990年代後半には、モバイルのためのハンズフリーシステムが導入され始めた。これらは、残響室を含む多くの異なる環境において、及び(より)高い背景雑音レベルにおいて使用されることが意図された。そのようなオーディオ環境は、大幅により困難な課題を与え、特に、形成されたビームの適応を複雑にするか、又は劣化させる。
初めに、そのような環境のためのオーディオキャプチャの研究は、エコーキャンセルに、及び後に雑音抑圧に焦点を当てた。ビームフォーミングに基づくオーディオキャプチャシステムの一例が図1に示されている。本例では、複数のマイクロフォンのアレイ101がビームフォーマ103に結合され、ビームフォーマ103は、オーディオソース信号z(n)と1つ又は複数の雑音基準信号x(n)とを生成する。
マイクロフォンアレイ101は、いくつかの実施形態では2つのマイクロフォンのみを備えるが、一般に、より大きい数を備える。
ビームフォーマ103は、詳細には、好適な適応アルゴリズムを使用して1つのビームがスピーチソースのほうへ向けられ得る適応ビームフォーマである。
たとえば、米国特許第7146012号及び米国特許第7602926号は、スピーチに焦点を当てるが、スピーチを(ほとんど)含んでいない基準信号をも与える適応ビームフォーマの例を開示する。
代替的に、米国特許出願第2014/278394号は、スピーチ認識結果を含む様々なパラメータに応じて制御及び変更され得るビームを開示する。ビームを制御及び変更するために使用されるパラメータはすべて、ビームの出力信号に基づくか、又はビームの出力信号から導出される。
ビームフォーマは、受信された信号をフォワードマッチングフィルタにおいてフィルタ処理し、フィルタ処理された出力を加算することによって、マイクロフォン信号の所望の部分をコヒーレントに加算することによって、拡張出力信号z(n)を作成する。また、出力信号は、(時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける)フォワードフィルタへの共役フィルタ応答を有するバックワード適応フィルタにおいてフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、オーディオビームが支配的な信号のほうへステアリングされることになる。生成された誤差信号x(n)は、拡張出力信号z(n)に対して追加の雑音低減を実行するのに特に適した雑音基準信号と見なされ得る。
1次信号z(n)と基準信号x(n)とは、一般に、両方とも雑音によって汚染される。2つの信号における雑音がコヒーレントである場合(たとえば、干渉するポイント雑音ソースがあるとき)、コヒーレント雑音を低減するために適応フィルタ105が使用され得る。
この目的で、雑音基準信号x(n)は適応フィルタ105の入力に結合され、その出力が、オーディオソース信号z(n)から減算されて、補償信号r(n)を生成する。適応フィルタ105は、一般に所望のオーディオソースがアクティブでないとき(たとえば、スピーチがないとき)、補償信号r(n)の電力を最小化するように適応され、これにより、コヒーレント雑音の抑圧が生じる。
補償信号はポストプロセッサ107に供給され、ポストプロセッサ107は、雑音基準信号x(n)に基づいて補償信号r(n)に対して雑音低減を実行する。詳細には、ポストプロセッサ107は、短時間フーリエ変換を使用して補償信号r(n)と雑音基準信号x(n)とを周波数ドメインに変換する。ポストプロセッサ107は、次いで、各周波数ビンについて、X(ω)の振幅スペクトルのスケーリングされたバージョンを減算することによってR(ω)の振幅を変更する。得られた複素スペクトルは時間ドメインに変換されて、雑音が抑圧された出力信号q(n)をもたらす。スペクトル減算のこの技法は、最初に、S.F.Boll、「Suppression of Acoustic Noise in Speech using Spectral Subtraction」、IEEE Trans.Acoustics,Speech and Signal Processing、vol.27、113~120頁、1979年4月に記載された。
図1のシステムは、多くのシナリオにおいて極めて効率的な動作及び有利な性能を与えるが、それは、すべてのシナリオにおいて最適であるとは限らない。実際、図1の例を含む多くの従来のシステムが、所望のオーディオソース/スピーカー(speaker)がマイクロフォンアレイの残響半径内にあるとき、すなわち、所望のオーディオソースの直接エネルギーが所望のオーディオソースの反射のエネルギーよりも(好ましくは著しく)強い適用例について、極めて良好な性能を与えるが、そうでない場合は、最適でない結果を与える傾向がある。一般的な環境において、一般にマイクロフォンアレイの1~1.5メートル内にスピーカーがあるべきであることがわかっている。
しかしながら、ユーザがマイクロフォンアレイからより離れた距離にある場合のオーディオベースハンズフリー解決策、適用例、及びシステムに対する強い要望がある。これは、たとえば、多くの通信システム及び適用例と、多くのボイス制御システム及び適用例の両方について望まれる。そのような状況のための残響除去及び雑音抑圧を含むスピーチ強調を与えるシステムは、スーパーハンズフリーシステムと呼ばれる分野にある。
より詳細には、追加の拡散雑音と残響半径外の所望のスピーカーとを扱うとき、以下の問題が生じる。
・ ビームフォーマは、所望のスピーチのエコーと拡散背景雑音との区別の問題をしばしば有し、これがスピーチひずみを生じる。
・ 適応ビームフォーマは、所望のスピーカーのほうへ遅く収束する。適応ビームがまだ収束していない時間中に、基準信号においてスピーチ漏れがあり、この基準信号が非定常雑音抑圧及びキャンセルのために使用される場合、スピーチひずみを生じる。交互に話す、より多くの所望のソースがあるとき、問題は増加する。
(背景雑音のため)遅く収束する適応フィルタを扱うための解決策は、図2に示されているように異なる方向に照準を定められているいくつかの固定ビームでこれを補うことである。ただし、この手法は、特に、所望のオーディオソースが残響半径内に存在するシナリオのために開発される。それは、残響半径外のオーディオソースについてあまり効率的でなく、そのような場合、特に音響拡散背景雑音もある場合、しばしば、非ロバストな解決策につながる。
これは、以下のように理解され得る。すなわち、所望のオーディオソースが残響半径外にある場合、直接音場のエネルギーは、反射から生み出された拡散音場のエネルギーと比較して小さい。拡散背景雑音もある場合、直接音場対拡散音場比はさらに劣化する。異なるビームのエネルギーはほぼ同じであり、したがって、これは、ビームフォーマを制御するための好適なパラメータを与えない。同じ理由で、到来方向(DOA)を測定することに基づくシステムはロバストでない。すなわち、直接場の低いエネルギーにより、信号を相互相関させることは、鋭い明確なピークを与えず、大きい誤差を生じる。検出器をよりロバストにすることにより、しばしば、所望のオーディオソースが検出されなくなり、非集束ビームにつながる。一般的な結果は、雑音基準におけるスピーチ漏れであり、雑音基準信号に基づいて1次信号における雑音を低減することが試みられた場合、深刻なひずみが生じる。
したがって、改善されたオーディオキャプチャ手法が有利であり、特に、複雑さの低減、フレキシビリティの増加、実施の容易さ、コストの低減、オーディオキャプチャの改善、残響半径外のオーディオをキャプチャすることに対する適合性の改善、雑音感度の低減、スピーチキャプチャの改善、及び/又は性能の改善を可能にする手法が有利である。
したがって、本発明は、好ましくは、単独で又は任意の組合せで上述の欠点のうちの1つ又は複数を軽減するか、緩和するか、又はなくそうとするものである。
本発明の一態様によれば、オーディオをキャプチャするための装置が提供され、本装置は、マイクロフォンアレイと、マイクロフォンアレイに結合され、第1のビームフォーミングされたオーディオ出力を生成するように構成された第1のビームフォーマと、マイクロフォンアレイに結合され、制約付きのビームフォーミングされたオーディオ出力を生成するように各々が構成された複数の制約付きビームフォーマと、第1のビームフォーマのビームフォームパラメータを適応させるための第1の適応器と、複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるための第2の適応器と、複数の制約付きビームフォーマのうちの少なくとも1つについての差分測度を決定するための差分プロセッサであって、差分測度が、第1のビームフォーマによって形成されたビームと複数の制約付きビームフォーマのうちの少なくとも1つによって形成されたビームとの間の差分を示す、差分プロセッサとを備え、第2の適応器は、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、制約付きビームフォームパラメータを適応させるように構成される。
本発明は、多くの実施形態においてオーディオキャプチャの改善を与える。特に、しばしば、残響環境における性能の改善、及び/又はオーディオソースのための性能の改善が達成される。本手法は、特に、多くの難しいオーディオ環境におけるスピーチキャプチャの改善を与える。多くの実施形態では、本手法は、確実で正確なビームフォーミングを与えると同時に、新しい所望のオーディオソースへの高速適応を与える。本手法は、たとえば、雑音、残響、及び反射に対する感度が低減されたオーディオキャプチャ装置を与える。特に、しばしば、残響半径外のオーディオソースのキャプチャの改善が達成され得る。
いくつかの実施形態では、第1のビームフォーミングされたオーディオ出力及び/又は制約付きのビームフォーミングされたオーディオ出力に応答して、オーディオキャプチャ装置からの出力オーディオ信号が生成される。いくつかの実施形態では、出力オーディオ信号は、制約付きのビームフォーミングされたオーディオ出力の合成として生成され、詳細には、たとえば単一の制約付きのビームフォーミングされたオーディオ出力を選択する選択合成が使用される。
差分測度は、第1のビームフォーマの形成されたビームと、差分測度が生成された制約付きビームフォーマの形成されたビームとの間の差分を反映し、その差分は、たとえば、ビームの方向間の差分として測定される。多くの実施形態では、差分測度は、第1のビームフォーマからのビームフォーミングされたオーディオ出力と制約付きビームフォーマからのビームフォーミングされたオーディオ出力との間の差分を示す。いくつかの実施形態では、差分測度は、第1のビームフォーマのビームフォームフィルタと制約付きビームフォーマのビームフォームフィルタとの間の差分を示す。差分測度は、たとえば、第1のビームフォーマ及び制約付きビームフォーマのビームフォームフィルタの係数のベクトル間の距離として決定された測度など、距離測度である。
類似性測度は、2つの特徴間の類似性に関係する情報を与えることによる類似性測度が、本質的に、これらの間の差分に関係する情報をも与えるという点で差分測度と等価であり、その逆も同様であることが理解されよう。
類似性基準は、たとえば、差分が所与の測度を下回っていることを差分測度が示すという要件を含み、たとえば、増加する差分について増加する値を有する差分測度がしきい値を下回ることが必要とされる。
制約付きビームフォーマは、差分測度が類似性基準を満たす場合のみ適応が実行されるという制約を、適応が受けるという点で、制約される。対照的に、第1のビームフォーマはこの要件を受けない。特に、第1のビームフォーマの適応は、制約付きビームフォーマのいずれにも依存せず、詳細には、これらのビームのビームフォーミングに依存しない。
差分測度がたとえばしきい値を下回ることを必要とするような適応の制限は、適応が、第1のビームフォーマが現在適応されているオーディオソースに近い領域中のオーディオソースに対応するビームを現在形成している制約付きビームフォーマについてのみのものであることに対応すると考えられ得る。
ビームフォーマの適応は、特にフィルタ係数を適応させることによるなど、ビームフォーマのビームフォームフィルタのフィルタパラメータを適応させることによるものである。適応は、所与の適応パラメータを最適化(最大化又は最小化)しようとするもの、たとえば、オーディオソースが検出されるときに出力信号レベルを最大化すること、又は、雑音のみが検出されるときに出力信号レベルを最小化することなどである。適応は、測定されたパラメータを最適化するためにビームフォームフィルタを変更しようとする。
本発明のオプションの特徴によれば、本装置は、第2のビームフォーミングされたオーディオ出力においてポイントオーディオソース(point audio source)を検出するためのオーディオソース検出器をさらに備え、第2の適応器は、制約付きのビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在が検出された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。
これは、性能をさらに改善し、たとえばよりロバストな性能を与え、これにより、オーディオキャプチャが改善される。異なる実施形態においてポイントオーディオソースを検出するために異なる基準が使用される。ポイントオーディオソースは、詳細には、マイクロフォンアレイのマイクロフォンのための相関するオーディオソースである。ポイントオーディオソースは、(たとえば制約付きビームフォーマのビームフォームフィルタによるフィルタ処理の後の)マイクロフォンアレイからのマイクロフォン信号間の相関が所与のしきい値を超える場合、検出されると考えられる。
本発明のオプションの特徴によれば、オーディオソース検出器は、第1のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するようにさらに構成され、本装置は、ポイントオーディオソースが、第1のビームフォーミングされたオーディオ出力において検出されたが、制約付きのビームフォーミングされたオーディオ出力において検出されなかった場合、第1のビームフォーマのビームフォームパラメータに応答して第1の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するように構成されたコントローラをさらに備える。
これは、性能をさらに改善し、たとえば、多くの実施形態において、新しい所望のポイントオーディオソースのための適応性能の改善を与える。多くの実施形態及びシナリオでは、それは、新しいオーディオソースのより速い又はより確実な検出を可能にする。
本発明のオプションの特徴によれば、コントローラは、第1の制約付きビームフォーマについての差分測度がしきい値を超える場合のみ、第1のビームフォーマのビームフォームパラメータに応答して第1の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。
本発明のオプションの特徴によれば、オーディオソース検出器は、第1のビームフォーミングされたオーディオ出力においてオーディオソースを検出するようにさらに構成され、本装置は、ポイントオーディオソースが、第1のビームフォーミングされたオーディオ出力と、第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力とにおいて検出され、第1の制約付きビームフォーマについてしきい値を超える差分測度が決定された場合、第1のビームフォーマのビームフォームパラメータに応答して第1の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するように構成されたコントローラをさらに備える。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。
本発明のオプションの特徴によれば、複数の制約付きビームフォーマは、制約付きビームフォーマのプールから選択された制約付きビームフォーマのアクティブサブセットであり、コントローラは、第1のビームフォーマのビームフォームパラメータを使用して制約付きビームフォーマのプールからの制約付きビームフォーマを初期化することによって、第1の制約付きビームフォーマを含めるためにアクティブ制約付きビームフォーマの数を増加させるように構成される。
これは、さらに、性能を改善し、並びに/或いは実施及び/又は動作を容易にする。それは、多くのシナリオにおいて計算リソース要件を低減する。
本発明のオプションの特徴によれば、第2の適応器は、第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力のレベルが、任意の他の第2のビームフォーミングされたオーディオ出力についてのレベルよりも高いという要件と、第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力におけるポイントオーディオソースのレベルが、任意の他の第2のビームフォーミングされたオーディオ出力における任意のポイントオーディオソースよりも高いという要件と、第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件と、第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力がスピーチスピーチ成分を含むという要件とのグループから選択された少なくとも1つの要件を含む基準が満たされた場合のみ、第1の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるようにさらに構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。
本発明のオプションの特徴によれば、差分プロセッサは、パラメータの第1のセットと第1の制約付きビームフォーマについてのパラメータの制約付きセットとの間の差分と、第1のビームフォーミングされたオーディオ出力と第1の制約付きビームフォーマからの制約付きのビームフォーミングされたオーディオ出力との間の差分とのうちの少なくとも1つを反映するように、第1の制約付きビームフォーマについての差分測度を決定するように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。
本発明のオプションの特徴によれば、第1のビームフォーマについての適応レートは、複数の制約付きビームフォーマについての適応レートよりも高い。
これは、性能をさらに改善し、詳細には、多くの実施形態において、適応性能の改善を与える。特に、それは、システムの全体的性能が、現在のオーディオシナリオへの正確で確実な適応を与えると同時に、(たとえば新しいオーディオソースが出現したときの)これの変化への急速な適応を与えることを可能にする。
本発明のオプションの特徴によれば、第1のビームフォーマと複数の制約付きビームフォーマとは、フィルタ合成(filter-and-combine)ビームフォーマである。
フィルタ合成ビームフォーマは、詳細には、複数の係数を有する有限応答フィルタ(FIR)の形態のビームフォームフィルタを備える。
本発明のオプションの特徴によれば、第1のビームフォーマは、各々が第1の適応インパルス応答を有する第1の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマであり、複数の制約付きビームフォーマのうちの制約付きビームフォーマである第2のビームフォーマは、各々が第2の適応インパルス応答を有する第2の複数のビームフォームフィルタを含むフィルタ合成ビームフォーマであり、差分プロセッサは、第1の適応インパルス応答と第2の適応インパルス応答との比較に応答して第1のビームフォーマのビームと第2のビームフォーマのビームとの間の差分測度を決定するように構成される。
本手法は、多くのシナリオ及び適用例において、2つのビームフォーマによって形成されたビーム間の差分/類似性の指示の改善を与える。特に、差分測度の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び/又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。
本手法は、(ビームフォーミングされたオーディオ出力なのかマイクロフォン信号なのかにかかわらず)オーディオ信号の特性の感度を低減し、したがって、たとえば雑音に対する感度が低い。多くのシナリオでは、差分測度は、より高速に、たとえば、いくつかのシナリオでは瞬時に生成される。特に、差分測度は、平均化することなしに現在のフィルタパラメータに基づいて生成される。
フィルタ合成ビームフォーマは、各マイクロフォンのためのビームフォームフィルタと、ビームフォーミングされたオーディオ出力信号を生成するためにビームフォームフィルタの出力を合成するための合成器とを備える。合成器は、詳細には、総和ユニットであり、フィルタ合成ビームフォーマは、フィルタ和(filter-and-sum)ビームフォーマである。
ビームフォーマは、適応ビームフォーマであり、適応インパルス応答を適応させる(それにより、マイクロフォンアレイの有効な指向性を適応させる)ための適応機能を備える。
差分測度は、類似性測度と等価である。
フィルタ合成ビームフォーマは、詳細には、複数の係数を有する有限応答フィルタ(FIR)の形態のビームフォームフィルタを備える。
いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの各マイクロフォンについて、マイクロフォンのための第1の適応インパルス応答と第2の適応インパルス応答との間の相関を決定し、マイクロフォンアレイの各マイクロフォンについての相関の合成に応答して差分測度を決定するように構成される。
これは、過度の複雑さを必要とすることなしに、特に有利な差分測度を与える。
いくつかの実施形態では、差分プロセッサは、第1の適応インパルス応答の周波数ドメイン表現と第2の適応インパルス応答の周波数ドメイン表現とを決定し、第1の適応インパルス応答の周波数ドメイン表現と第2の適応インパルス応答の周波数ドメイン表現とに応答して差分測度を決定するように構成される。
これは、さらに、性能を改善し、及び/又は動作を容易にする。それは、多くの実施形態では、差分測度の決定を容易にする。いくつかの実施形態では、適応インパルス応答は周波数ドメインにおいて与えられ、周波数ドメイン表現は容易に利用可能である。しかしながら、たいていの実施形態では、適応インパルス応答は、たとえばFIRフィルタの係数によって、時間ドメインにおいて与えられ、差分プロセッサは、周波数表現を生成するために、たとえば離散フーリエ変換(DFT)を時間ドメインインパルス応答に適用するように構成される。
いくつかの実施形態では、差分プロセッサは、周波数ドメイン表現の周波数についての周波数差分測度を決定し、周波数ドメイン表現の周波数についての周波数差分測度に応答して差分測度を決定するように構成され、差分プロセッサは、第1の周波数ドメイン係数と第2の周波数ドメイン係数とに応答して第1の周波数及びマイクロフォンアレイの第1のマイクロフォンについての周波数差分測度を決定するように構成され、第1の周波数ドメイン係数は、第1のマイクロフォンのための第1の適応インパルス応答についての第1の周波数についての周波数ドメイン係数であり、第2の周波数ドメイン係数は、第1のマイクロフォンのための第2の適応インパルス応答についての第1の周波数についての周波数ドメイン係数であり、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての周波数差分測度の合成に応答して第1の周波数についての周波数差分測度を決定するようにさらに構成される。
これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。
周波数ω及びマイクロフォンmについての第1の周波数成分及び第2の周波数成分を、それぞれF1m(ejω)及びF2m(ejω)として示すと、周波数ω及びマイクロフォンmについての周波数差分測度は、次のように決定される。
ω,m=f(F1m(ejω),F2m(ejω))
マイクロフォンアレイの複数のマイクロフォンについての周波数ωについての(合成された)周波数差分測度は、異なるマイクロフォンについての値を合成することによって決定される。たとえば、M個のマイクロフォンにわたる単純な総和の場合、以下の通りである。
Figure 0007041156000001
次いで、全体的差分測度が、個々の周波数差分測度を合成することによって決定される。たとえば、周波数依存合成が適用される。
Figure 0007041156000002
ここで、w(ejω)は、好適な周波数重み付け関数である。
いくつかの実施形態では、差分プロセッサは、第1の周波数ドメイン係数と第2の周波数ドメイン係数の共役との乗算に応答して第1の周波数及び第1のマイクロフォンについての周波数差分測度を決定するように構成される。
これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。いくつかの実施形態では、周波数ω及びマイクロフォンmについての周波数差分測度は、次のように決定される。
Figure 0007041156000003
いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第1の周波数についての周波数差分測度の合成の実数部に応答して第1の周波数についての周波数差分測度を決定するように構成される。
これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。
いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第1の周波数についての周波数差分測度の合成のノルムに応答して第1の周波数についての周波数差分測度を決定するように構成される。
これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。ノルムは、詳細にはL1ノルムである。
いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第1の周波数ドメイン係数の和についてのL2ノルムの関数と第2の周波数ドメイン係数の和についてのL2ノルムの関数との和に対する、マイクロフォンアレイの複数のマイクロフォンについての第1の周波数についての周波数差分測度の合成の実数部及びノルムのうちの少なくとも1つに応答して第1の周波数についての周波数差分測度を決定するように構成される。
これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。単調関数は、詳細には2乗関数である。
いくつかの実施形態では、差分プロセッサは、マイクロフォンアレイの複数のマイクロフォンについての第1の周波数ドメイン係数の和についてのL2ノルムの関数と第2の周波数ドメイン係数の和についてのL2ノルムの関数との積に対する、マイクロフォンアレイの複数のマイクロフォンについての第1の周波数についての周波数差分測度の合成のノルムに応答して第1の周波数についての周波数差分測度を決定するように構成される。
これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。単調関数は、詳細には絶対値関数である。
いくつかの実施形態では、差分プロセッサは、周波数差分測度の周波数選択性重み付き和として差分測度を決定するように構成される。
これは、特に有利な差分測度を与え、その差分測度は、特にビーム間の差分の正確な指示を与える。特に、それは、スピーチ周波数の強調など、特に知覚的に有意な周波数の強調を与える。
いくつかの実施形態では、第1の複数のビームフォームフィルタと第2の複数のビームフォームフィルタとは、複数の係数を有する有限インパルス応答フィルタである。
これは、多くの実施形態において効率的な動作及び実施を与える。
本発明のオプションの特徴によれば、本装置は、ビームフォーミングされたオーディオ出力信号と少なくとも1つの雑音基準信号とを生成するように構成された雑音基準ビームフォーマであって、第1のビームフォーマ及び複数の制約付きビームフォーマのうちの一方である、雑音基準ビームフォーマと、ビームフォーミングされたオーディオ出力信号の周波数変換から第1の周波数ドメイン信号を生成するための第1の変換器であって、第1の周波数ドメイン信号が時間周波数タイル値によって表される、第1の変換器と、少なくとも1つの雑音基準信号の周波数変換から第2の周波数ドメイン信号を生成するための第2の変換器であって、第2の周波数ドメイン信号が時間周波数タイル値によって表される、第2の変換器と、時間周波数タイル差分測度を生成するように構成された差分プロセッサであって、第1の周波数についての時間周波数タイル差分測度が、第1の周波数についての第1の周波数ドメイン信号の時間周波数タイル値のノルムの第1の単調関数と第1の周波数についての第2の周波数ドメイン信号の時間周波数タイル値のノルムの第2の単調関数との間の差分を示す、差分プロセッサと、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するためのポイントオーディオソース推定器であって、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成するように構成された、ポイントオーディオソース推定器とを備える。
本手法は、多くのシナリオ及び適用例において、ポイントオーディオソース推定値/検出の改善を与える。特に、推定値の改善は、ビームフォーマが適応するオーディオソースからの直接経路が支配的でないシナリオにおいて、しばしば与えられる。高度の拡散雑音、残響信号及び/又は後の反射を含むシナリオのための性能の改善が、しばしば達成され得る。より離れた距離にある、特に残響半径外のポイントオーディオソースのための検出の改善が、しばしば達成され得る。
ビームフォーマは、ビームフォームフィルタの適応インパルス応答を適応させる(それにより、マイクロフォンアレイの有効な指向性を適応させる)ための適応機能を備える適応ビームフォーマである。
第1の単調関数と第2の単調関数とは、一般に、両方とも単調増加関数であるが、いくつかの実施形態では、両方とも単調減少関数である。
ノルムは、一般に、L1ノルム又はL2ノルムであり、すなわち、詳細には、ノルムは、時間周波数タイル値についての大きさ又は電力測度に対応する。
時間周波数タイルは、詳細には、1つの時間セグメント/フレーム中の周波数変換の1つのビンに対応する。詳細には、第1の変換器と第2の変換器とは、第1及び第2の信号の連続するセグメントを変換するためにブロック処理を使用する。時間周波数タイルは、1つのセグメント/フレーム中の変換ビンのセット(一般に1つ)に対応する。
少なくとも1つのビームフォーマは2つのビームフォーマを備え、一方が、ビームフォーミングされたオーディオ出力信号を生成し、他方が雑音基準信号を生成する。2つのビームフォーマは、マイクロフォンアレイのマイクロフォンの、異なる、潜在的に独立のセットに結合される。実際、いくつかの実施形態では、マイクロフォンアレイは、異なるビームフォーマに結合された2つの別個のサブアレイを備える。サブアレイ(及び場合によってはビームフォーマ)は、異なる位置にあり、潜在的に互いから離れたところにある。詳細には、サブアレイ(及び場合によってはビームフォーマ)は、異なるデバイス中にある。
本発明のいくつかの実施形態では、アレイ中の複数のマイクロフォンのサブセットのみが、ビームフォーマに結合される。
いくつかの実施形態では、ポイントオーディオソース推定器は、合成された差分値がしきい値を超えることに応答して、ビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在を検出するように構成される。
本手法は、一般に、ビームフォーマのための、特に、直接場が支配的でない、残響半径外のポイントオーディオソースを検出するための、ポイントオーディオソース検出の改善を与える。
いくつかの実施形態では、周波数しきい値は500Hzを下回らない。
これは、性能をさらに改善し、たとえば、多くの実施形態及びシナリオでは、ポイントオーディオソース推定値を決定する際に使用されるビームフォーミングされたオーディオ出力信号値と雑音基準信号値との間の十分な又は改善された無相関化が達成されることを保証する。いくつかの実施形態では、周波数しきい値は、有利には、1kHz、1.5kHz、2kHz、3kHz、さらには4kHzを下回らない。
いくつかの実施形態では、差分プロセッサは、ビームフォーミングされたオーディオ出力信号の振幅と少なくとも1つの雑音基準信号の振幅との間の相関を示す雑音コヒーレンス推定値を生成するように構成され、第1の単調関数及び第2の単調関数のうちの少なくとも1つが雑音コヒーレンス推定値に依存する。
これは、性能をさらに改善し、詳細には、多くの実施形態において、特に、より小さいマイクロフォン間距離をもつマイクロフォンアレイのための性能の改善を与える。
雑音コヒーレンス推定値は、詳細には、アクティブなポイントオーディオソースがないときの(たとえば、スピーチのない時間期間中の、すなわち、スピーチソースが非アクティブであるときの)ビームフォーミングされたオーディオ出力信号の振幅と雑音基準信号の振幅との間の相関の推定値である。雑音コヒーレンス推定値は、いくつかの実施形態では、ビームフォーミングされたオーディオ出力信号及び雑音基準信号、並びに/又は第1及び第2の周波数ドメイン信号に基づいて決定される。いくつかの実施形態では、雑音コヒーレンス推定値は、別個の較正又は測定プロセスに基づいて生成される。
いくつかの実施形態では、差分プロセッサは、雑音コヒーレンス推定値に応答して、第1の周波数についての第2の周波数ドメイン信号の時間周波数タイル値のノルムに対して第1の周波数についての第1の周波数ドメイン信号の時間周波数タイル値のノルムをスケーリングするように構成される。
これは、性能をさらに改善し、詳細には、多くの実施形態において、ポイントオーディオソース推定値の精度の改善を与える。それは、さらに低複雑度実施を可能にする。
いくつかの実施形態では、差分プロセッサは、実質的に次のように、周波数ωにおける時間tについての時間周波数タイル差分測度を生成するように構成される。
d=|Z(t,ω)|-γC(t,ω)|X(t,ω)|
ここで、Z(t,ω)は、周波数ωにおける時間tにおけるビームフォーミングされたオーディオ出力信号についての時間周波数タイル値であり、X(t,ω)は、周波数ωにおける時間tにおける少なくとも1つの雑音基準信号についての時間周波数タイル値であり、C(t,ω)は、周波数ωにおける時間tにおける雑音コヒーレンス推定値であり、γは設計パラメータである。
これは、多くのシナリオ及び実施形態において、特に有利なポイントオーディオソース推定値を与える。
いくつかの実施形態では、差分プロセッサは、ビームフォーミングされたオーディオ出力信号の時間周波数タイル値及び少なくとも1つの雑音基準信号の時間周波数タイル値のうちの少なくとも1つをフィルタ処理するように構成される。
これは、ポイントオーディオソース推定値の改善を与える。フィルタ処理は、たとえば平均化などの低域フィルタ処理である。
いくつかの実施形態では、フィルタは、周波数方向と時間方向との両方である。
これは、ポイントオーディオソース推定値の改善を与える。差分プロセッサは、複数の時間周波数タイルにわたって時間周波数タイル値をフィルタ処理するように構成され、フィルタ処理は、時間と周波数との両方において異なる時間周波数タイルを含む。
本発明の一態様によれば、オーディオをキャプチャする方法が提供され、本方法は、マイクロフォンアレイに結合された第1のビームフォーマが、第1のビームフォーミングされたオーディオ出力を生成するステップと、マイクロフォンアレイに結合された複数の制約付きビームフォーマが、制約付きのビームフォーミングされたオーディオ出力を生成するステップと、第1のビームフォーマのビームフォームパラメータを適応させるステップと、複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるステップと、複数の制約付きビームフォーマのうちの少なくとも1つについての差分測度を決定するステップであって、差分測度が、第1のビームフォーマによって形成されたビームと複数の制約付きビームフォーマのうちの少なくとも1つによって形成されたビームとの間の差分を示す、決定するステップとを有し、制約付きビームフォームパラメータを適応させるステップは、制約付きビームフォームパラメータが、類似性基準を満たす差分測度が決定された複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ適応されるという制約で、制約付きビームフォームパラメータを適応させるステップを有する。
本発明のこれら及び他の態様、特徴及び利点は、以下で説明される(1つ又は複数の)実施形態から明らかになり、それらに関して解明されるであろう。
本発明の実施形態が、図面を参照しながら単に例として説明される。
ビームフォーミングオーディオキャプチャシステムの要素の一例を示す図である。 オーディオキャプチャシステムによって形成された複数のビームの一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の制約付きビームフォーマを適応させる手法のためのフローチャートの一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。 フィルタ和ビームフォーマの要素の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す図である。 周波数ドメイン変換器の一例を示す図である。 本発明のいくつかの実施形態による、オーディオキャプチャ装置のための差分プロセッサの要素の一例を示す図である。
以下の説明は、ビームフォーミングに基づくスピーチキャプチャオーディオシステムに適用可能な本発明の実施形態に焦点を当てるが、本手法はオーディオキャプチャのための多くの他のシステム及びシナリオに適用可能であることが理解されよう。
図3は、本発明のいくつかの実施形態による、オーディオキャプチャ装置の要素の一例を示す。
オーディオキャプチャ装置は、環境においてオーディオをキャプチャするように構成された複数のマイクロフォンを備えるマイクロフォンアレイ301を備える。本例では、マイクロフォンアレイ301はオプションのエコーキャンセラ303に結合され、エコーキャンセラ303は、(1つ又は複数の)マイクロフォン信号におけるエコーに線形的に関係する(基準信号が利用可能である)音響ソースから発生するエコーをキャンセルする。このソースは、たとえばラウドスピーカーであり得る。適応フィルタが、入力としての基準信号を伴って適用され得、出力が、マイクロフォン信号から減算されて、エコー補償信号を作成する。これは、各個々のマイクロフォンについて繰り返され得る。
エコーキャンセラ303はオプションであり、多くの実施形態において簡単に省略されることが理解されよう。
マイクロフォンアレイ301は、一般に、直接、又はエコーキャンセラ303を介して(並びに場合によっては、当業者によく知られるように、増幅器、デジタルアナログ変換器などを介して)のいずれかで第1のビームフォーマ305に結合される。
第1のビームフォーマ305は、マイクロフォンアレイ301の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ301からの信号を合成するように構成される。したがって、第1のビームフォーマ305は、第1のビームフォーミングされたオーディオ出力と呼ばれる出力信号を生成し、出力信号は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ305は適応ビームフォーマであり、その指向性は、第1のビームフォーマ305のビームフォーム動作の、第1のビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る。
第1のビームフォーマ305は第1の適応器307に結合され、第1の適応器307は、第1のビームフォームパラメータを適応させるように構成される。したがって、第1の適応器307は、ビームがステアリングされ得るように第1のビームフォーマ305のパラメータを適応させるように構成される。
さらに、オーディオキャプチャ装置は、複数の制約付きビームフォーマ309、311を備え、制約付きビームフォーマ309、311の各々が、マイクロフォンアレイ301の有効な指向性オーディオ感度が生成されるようにマイクロフォンアレイ301からの信号を合成するように構成される。したがって、制約付きビームフォーマ309、311の各々は、制約付きのビームフォーミングされたオーディオ出力と呼ばれるオーディオ出力を生成するように構成され、オーディオ出力は、環境におけるオーディオの選択的キャプチャに対応する。第1のビームフォーマ305と同様に、制約付きビームフォーマ309、311は、各制約付きビームフォーマ309、311の指向性が、制約付きビームフォーマ309、311の、制約付きビームフォームパラメータと呼ばれるパラメータを設定することによって制御され得る適応ビームフォーマである。
したがって、オーディオキャプチャ装置は、第2の適応器313を備え、第2の適応器313は、複数の制約付きビームフォーマの制約付きビームフォームパラメータを適応させ、それにより、これらによって形成されたビームを適応させるように構成される。
したがって、第1のビームフォーマ305と制約付きビームフォーマ309、311の両方は、形成された実際のビームが動的に適応され得る適応ビームフォーマである。詳細には、ビームフォーマ305、309、311は、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
たいていの実施形態では、ビームフォームフィルタの各々は、(単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する)単純なディラックパルスではない時間ドメインインパルス応答を有し、むしろ、一般に2ミリ秒、5ミリ秒、10ミリ秒、さらには30ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する。
インパルス応答は、しばしば、複数の係数をもつFIR(有限インパルス応答)フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、第1の適応器307と第2の適応器313とは、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、FIRフィルタは、固定時間オフセット(一般にサンプル時間オフセット)に対応する係数を有し、適応器307、313は、係数値を適応させるように構成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数(たとえば、2つ又は3つのみ)を有するが、これらのタイミングは(も)適応可能である。
単純な可変遅延(又は単純な周波数ドメイン利得/位相調整)であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ305、309、311が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ305、309、311が、一般に反射に対応するさらなる信号経路を含むように適応されることを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び/又は残響環境における性能の改善、並びに/或いは、マイクロフォンアレイ301から離れているオーディオソースのための性能の改善を可能にする。
異なる実施形態において異なる適応アルゴリズムが使用され、様々な最適化パラメータが当業者に知られることが理解されよう。たとえば、適応器307、313は、ビームフォーマの出力信号値を最大化するようにビームフォームパラメータを適応させる。特定の例として、受信されたマイクロフォン信号がフォワードマッチングフィルタを用いてフィルタ処理され、フィルタ処理された出力が加算される、ビームフォーマを考慮する。出力信号は、(時間ドメインにおける時間反転インパルス応答に対応する周波数ドメインにおける)フォワードフィルタへの共役フィルタ応答を有する、バックワード適応フィルタによってフィルタ処理される。バックワード適応フィルタの入力信号と出力との間の差分として誤差信号が生成され、フィルタの係数は、誤差信号を最小化するように適応され、それにより、最大出力電力が生じる。そのような手法のさらなる詳細は、米国特許第7146012号及び米国特許第7602926号において見つけられ得る。
米国特許第7146012号及び米国特許第7602926号のものなどの手法は、ビームフォーマからのオーディオソース信号z(n)と(1つ又は複数の)雑音基準信号x(n)の両方に基づく適応に基づくことに留意されたい。同じ手法が図3のシステムのために使用されることが理解されよう。
第1のビームフォーマ305と制約付きビームフォーマ309、311とは、詳細には、図1に示され、米国特許第7146012号及び米国特許第7602926号において開示されたビームフォーマに対応するビームフォーマである。
多くの実施形態では、第1のビームフォーマ305及び制約付きビームフォーマ309、311の構造及び実装形態は同じであり、たとえば、ビームフォームフィルタは同じ数の係数をもつ同等のFIRフィルタ構造を有するなどである。
しかしながら、第1のビームフォーマ305及び制約付きビームフォーマ309、311の動作及びパラメータは異なり、特に、制約付きビームフォーマ309、311は、第1のビームフォーマ305が制約されないやり方で制約される。詳細には、制約付きビームフォーマ309、311の適応は、第1のビームフォーマ305の適応とは異なり、詳細には、いくつかの制約を受ける。
詳細には、制約付きビームフォーマ309、311は、適応(ビームフォームフィルタパラメータの更新)が、基準が満たされるときの状況に制約されるという制約を受けるが、第1のビームフォーマ305は、そのような基準が満たされないときでも適応することを可能にされる。実際、多くの実施形態では、第1の適応器307は、ビームフォームフィルタを常に適応させることを可能にされ、これは、第1のビームフォーマ305によってキャプチャされたオーディオの(又は制約付きビームフォーマ309、311のいずれかの)特性によって制約されない。
制約付きビームフォーマ309、311を適応させるための基準は、後でより詳細に説明される。
多くの実施形態では、第1のビームフォーマ305についての適応レートは、制約付きビームフォーマ309、311についての適応レートよりも高い。したがって、多くの実施形態では、第1の適応器307は、第2の適応器313よりも高速に変動に適応するように構成され、したがって、第1のビームフォーマ305は、制約付きビームフォーマ309、311よりも高速に更新される。これは、たとえば、最大化又は最小化されている値(たとえば、出力信号の信号レベル又は誤差信号の大きさ)の低域フィルタ処理が、第1のビームフォーマ305について、制約付きビームフォーマ309、311についてのカットオフ周波数よりも高いカットオフ周波数を有することによって達成される。別の例として、ビームフォームパラメータ(詳細には、ビームフォームフィルタ係数)の更新ごとの最大変化は、第1のビームフォーマ305について、制約付きビームフォーマ309、311よりも高い。
したがって、本システムでは、低速に、及び特定の基準が満たされるときのみ適応する複数の集束(適応制約付き)ビームフォーマが、この制約を受けない、自走する(free running)より高速に適応するビームフォーマによって補われる。より低速の集束ビームフォーマは、一般に、自走するビームフォーマよりも低速であるが正確で確実な適応を特定のオーディオ環境に与えるが、自走するビームフォーマは、一般に、より大きいパラメータ間隔にわたって急速に適応することが可能である。
図3のシステムでは、これらのビームフォーマは、後でより詳細に説明されるように性能の改善を与えるために、一緒に、相乗的に使用される。
第1のビームフォーマ305と制約付きビームフォーマ309、311とは、出力プロセッサ315に結合され、出力プロセッサ315は、ビームフォーマ305、309、311から、ビームフォーミングされたオーディオ出力信号を受信する。オーディオキャプチャ装置から生成された厳密な出力は、個々の実施形態の特定の選好及び要件に依存する。実際、いくつかの実施形態では、オーディオキャプチャ装置からの出力は、単に、ビームフォーマ305、309、311からのオーディオ出力信号にある。
多くの実施形態では、出力プロセッサ315からの出力信号は、ビームフォーマ305、309、311からのオーディオ出力信号の合成として生成される。実際、いくつかの実施形態では、単純な選択合成、たとえば、信号対雑音比、又は単に信号レベルが最も高いオーディオ出力信号を選択することが実行される。
したがって、出力プロセッサ315の出力選択及び後処理は、特定用途向けであり、及び/又は、異なる実装形態/実施形態において異なる。たとえば、すべての可能な集束ビーム出力が与えられ得、ユーザによって定義された基準に基づいて選択が行われ得る(たとえば、最も強いスピーカーが選択される)などである。
ボイス制御適用例の場合、たとえば、すべての出力は、ボイス制御を初期化するために特定のワード又はフレーズを検出するように構成されたボイストリガ認識器にフォワーディングされる。そのような例では、トリガワード又はフレーズが検出されたオーディオ出力信号は、トリガフレーズに続いて、特定のコマンドを検出するためにボイス認識器によって使用される。
通信適用例の場合、たとえば、最も強く、たとえば特定のポイントオーディオソースの存在が見つけられたオーディオ出力信号を選択することが有利である。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、(たとえば出力プロセッサ315によって)オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
図3のシステムでは、第1のビームフォーマ305と制約付きビームフォーマ309、311との間の相乗的相互作用及び相互関係に基づいてオーディオをキャプチャするために、特に有利な手法がとられる。
この目的で、オーディオキャプチャ装置は、差分プロセッサ317を備え、差分プロセッサ317は、制約付きビームフォーマ309、311のうちの1つ又は複数と第1のビームフォーマ305との間の差分測度を決定するように構成される。差分測度は、第1のビームフォーマ305及び制約付きビームフォーマ309、311それぞれによって形成されたビーム間の差分を示す。したがって、第1の制約付きビームフォーマ309についての差分測度は、第1のビームフォーマ305によって形成されるビームと第1の制約付きビームフォーマ309によって形成されるビームとの間の差分を示す。このようにして、差分測度は、2つのビームフォーマ305、309がどのくらい密接に同じオーディオソースに適応されるかを示す。
異なる実施形態及び適用例では異なる差分測度が使用される。
いくつかの実施形態では、差分測度は、異なるビームフォーマ305、309、311からの生成されたビームフォーミングされたオーディオ出力に基づいて決定される。一例として、単純な差分測度は、単に、第1のビームフォーマ305及び第1の制約付きビームフォーマ309の出力の信号レベルを測定し、これらを互いに比較することによって生成される。信号レベルが互いに近くなるほど、差分測度は低くなる(一般に、差分測度はまた、たとえば第1のビームフォーマ305の実際の信号レベルの関数として増加する)。
より好適な差分測度が、多くの実施形態では、第1のビームフォーマ305及び第1の制約付きビームフォーマ309からのビームフォーミングされたオーディオ出力間の相関を決定することによって生成される。相関値が高くなるほど、差分測度は低くなる。
代替又は追加として、差分測度は、第1のビームフォーマ305のビームフォームパラメータと第1の制約付きビームフォーマ309のビームフォームパラメータとの比較に基づいて決定される。たとえば、所与のマイクロフォンについての第1のビームフォーマ305のビームフォームフィルタ及び第1の制約付きビームフォーマ309のビームフォームフィルタの係数は、2つのベクトルによって表される。次いで、これらの2つのベクトルの差分ベクトルの大きさが計算される。プロセスはすべてのマイクロフォンについて繰り返され、合成された、又は平均的な大きさが、距離測度として決定され、使用される。したがって、生成された差分測度は、ビームフォームフィルタの係数が第1のビームフォーマ305と第1の制約付きビームフォーマ309とについてどのくらい異なるかを反映し、これは、ビームについての差分測度として使用される。
したがって、図3のシステムでは、第1のビームフォーマ305のビームフォームパラメータと第1の制約付きビームフォーマ309のビームフォームパラメータとの間の差分及び/又はこれらのビームフォーミングされたオーディオ出力間の差分を反映するために、差分測度が生成される。
差分測度を生成すること、決定すること、及び/又は使用することは、類似性測度を生成すること、決定すること、及び/又は使用することと直接等価であることが理解されよう。実際、一方は、一般に他方の単調減少関数であると考えられ、したがって、差分測度は類似性測度でもあり(その逆も同様)、一般に、一方は単に値を増加させることによって増加する差分を示し、他方は値を減少させることによってこれを行う。
差分プロセッサ317は、第2の適応器313に結合され、これに差分測度を与える。第2の適応器313は、差分測度に応答して制約付きビームフォーマ309、311を適応させるように構成される。詳細には、第2の適応器313は、類似性基準を満たす差分測度が決定された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させるように構成される。したがって、所与の制約付きビームフォーマ309、311についての差分測度が決定されていない場合、又は、所与の制約付きビームフォーマ309、311についての決定された差分測度が、第1のビームフォーマ305のビームと所与の制約付きビームフォーマ309、311のビームとが十分に類似していないことを示す場合、適応は実行されない。
したがって、図3のオーディオキャプチャ装置では、制約付きビームフォーマ309、311は、ビームの適応において制約される。詳細には、制約付きビームフォーマ309、311は、制約付きビームフォーマ309、311によって形成された現在のビームが、自走する第1のビームフォーマ305が形成しているビームに近い場合のみ適応するように制約され、すなわち、個々の制約付きビームフォーマ309、311は、第1のビームフォーマ305が個々の制約付きビームフォーマ309、311に十分に近くなるように現在適応されている場合のみ適応される。
これの結果は、制約付きビームフォーマ309、311の適応が第1のビームフォーマ305の動作によって制御され、それにより、効果的に、第1のビームフォーマ305によって形成されたビームが、制約付きビームフォーマ309、311のうちのどちらが最適化/適応されるかを制御することである。この手法により、詳細には、制約付きビームフォーマ309、311は、所望のオーディオソースが制約付きビームフォーマ309、311の現在の適応に近いときのみ適応される傾向がある。
適応を可能にするためにビーム間の類似性を必要とする手法は、実際には、所望のオーディオソース、この場合は所望のスピーカーが残響半径外にあるとき、大幅な性能の改善が生じることがわかった。実際、その手法は、特に、非支配的な直接経路オーディオ成分をもつ残響環境における弱いオーディオソースについて、極めて望ましい性能を与えることがわかった。
多くの実施形態では、適応の制約は、さらなる要件を条件とする。
たとえば、多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件である。したがって、個々の制約付きビームフォーマ309、311のための適応は、これが十分に適応され、適応がその基礎に基づく信号が所望のオーディオ信号を反映する、シナリオに制限される。
異なる実施形態では、信号対雑音比を決定するための異なる手法が使用されることが理解されよう。たとえば、マイクロフォン信号の雑音フロアが、平滑化された電力推定値の最小値を追跡することによって決定され得、各フレーム又は時間間隔について、瞬時電力がこの最小値と比較される。別の例として、ビームフォーマの出力の雑音フロアは、決定され、ビームフォーミングされた出力の瞬時出力電力と比較される。
いくつかの実施形態では、制約付きビームフォーマ309、311の適応は、制約付きビームフォーマ309、311の出力において、いつスピーチスピーチ成分が検出されたかに制限される。これは、スピーチキャプチャ適用例のための性能の改善を与える。オーディオ信号におけるスピーチを検出するための任意の好適なアルゴリズム又は手法が使用されることが理解されよう。
図3~図5のシステムは、一般に、フレーム又はブロック処理を使用して動作することが理解されよう。したがって、連続する時間間隔又はフレームが定義され、説明された処理が各時間間隔内に実行される。たとえば、マイクロフォン信号は処理時間間隔に分割され、各処理時間間隔について、ビームフォーマ305、309、311は、その時間間隔のためのビームフォーミングされたオーディオ出力信号を生成し、差分測度を決定し、制約付きビームフォーマ309、311を選択し、この制約付きビームフォーマ309、311を更新する/適応させるなどである。処理時間間隔は、多くの実施形態において、有利には、5ミリ秒から50ミリ秒の間の持続時間を有する。
いくつかの実施形態では、オーディオキャプチャ装置の異なる態様及び機能について異なる処理時間間隔が使用されることが理解されよう。たとえば、差分測度と、適応のための制約付きビームフォーマ309、311の選択とは、たとえばビームフォーミングのための処理時間間隔よりも低い頻度において実行される。
多くの実施形態では、適応は、ビームフォーミングされたオーディオ出力におけるポイントオーディオソースの検出に依存する。したがって、多くの実施形態では、オーディオキャプチャ装置は、図4に示されているようにオーディオソース検出器401をさらに備える。
オーディオソース検出器401は、詳細には、多くの実施形態において、第2のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するように構成され、したがって、オーディオソース検出器401は、制約付きビームフォーマ309、311に結合され、オーディオソース検出器401は、これらから、ビームフォーミングされたオーディオ出力を受信する。
音響におけるオーディオポイントソース(audio point source)は、空間におけるポイントから発生する音である。オーディオソース検出器401は、所与の制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力においてポイントオーディオソースが存在するかどうかを推定(検出)するために異なるアルゴリズム又は基準を使用し、当業者は様々なそのような手法に気づくことが理解されよう。
手法は、詳細には、マイクロフォンアレイ301のマイクロフォンによってキャプチャされた単一の又は支配的なポイントソースの特性を識別することに基づく。単一の又は支配的なポイントソースは、たとえば、マイクロフォン上の信号間の相関を調べることによって検出され得る。高い相関がある場合、支配的なポイントソースが存在すると考えられる。相関が低い場合、支配的なポイントソースがないが、キャプチャされた信号が多くの無相関ソースから発生すると考えられる。したがって、多くの実施形態では、ポイントオーディオソースは、空間的に相関するオーディオソースであると考えられ、ここで、空間的相関は、マイクロフォン信号の相関によって反映される。
この場合は、相関は、ビームフォームフィルタによるフィルタ処理の後に決定される。詳細には、制約付きビームフォーマ309、311のビームフォームフィルタの出力の相関が決定され、これが所与のしきい値を超える場合、ポイントオーディオソースが検出されたと考えられる。
他の実施形態では、ポイントソースは、ビームフォーミングされたオーディオ出力のコンテンツを評価することによって検出される。たとえば、オーディオソース検出器401は、ビームフォーミングされたオーディオ出力を分析し、十分な強度のスピーチスピーチ成分がビームフォーミングされたオーディオ出力において検出された場合、これはポイントオーディオソースに対応すると考えられ、したがって、強いスピーチスピーチ成分の検出はポイントオーディオソースの検出であると考えられる。
検出結果はオーディオソース検出器401から第2の適応器313に受け渡され、第2の適応器313は、これに応答して適応を適応させるように構成される。詳細には、第2の適応器313は、ポイントオーディオソースが検出されたことをオーディオソース検出器401が示す制約付きビームフォーマ309、311のみを適応させるように構成される。
したがって、オーディオキャプチャ装置は、形成されたビームにおいてポイントオーディオソースが存在する制約付きビームフォーマ309、311のみが適応され、その形成されたビームが第1のビームフォーマ305によって形成されたビームに近くなるように、制約付きビームフォーマ309、311の適応を制約するように構成される。したがって、適応は、一般に、すでに(所望の)ポイントオーディオソースに近い制約付きビームフォーマ309、311に制限される。本手法は、所望のオーディオソースが残響半径外にある環境において非常にうまく機能する極めてロバストで正確なビームフォーミングを可能にする。さらに、複数の制約付きビームフォーマ309、311を動作させ、選択的に更新することによって、このロバストネス及び精度は、比較的高速の反応時間によって補われ、高速に移動するか又は新たに生じる音ソースへの、全体としてのシステムの急速な適応を可能にする。
多くの実施形態では、オーディオキャプチャ装置は、一度に1つの制約付きビームフォーマ309、311のみを適応させるように構成される。したがって、第2の適応器313は、各適応時間間隔において、制約付きビームフォーマ309、311のうちの1つを選択し、ビームフォームパラメータを更新することによってこれのみを適応させる。
単一の制約付きビームフォーマ309、311の選択は、一般に、形成された現在のビームが第1のビームフォーマ305によって形成されたビームに近い場合、及びポイントオーディオソースがビームにおいて検出された場合のみ適応のために制約付きビームフォーマ309、311を選択するとき、自動的に行われる。
しかしながら、いくつかの実施形態では、複数の制約付きビームフォーマ309、311が同時に基準を満たすことが可能である。たとえば、ポイントオーディオソースが、2つの異なる制約付きビームフォーマ309、311によってカバーされた領域の近くに配置される(又は、たとえば、ポイントオーディオソースがそれらの領域の重複するエリア中にある)場合、ポイントオーディオソースは両方のビームにおいて検出され、これらは両方とも、両方がポイントオーディオソースのほうへ適応されることによって、互いに近くなるように適応される。
したがって、そのような実施形態では、第2の適応器313は、2つの基準を満たす制約付きビームフォーマ309、311のうちの1つを選択し、この1つのみを適応させる。これは、2つのビームが同じポイントオーディオソースのほうへ適応される危険を低減し、したがって、これらの動作が互いに干渉する危険を低減する。
実際、対応する差分測度が十分に低くなければならないという制約の下で制約付きビームフォーマ309、311を適応させることと、(たとえば、各処理時間間隔/フレームにおける)適応のために単一の制約付きビームフォーマ309、311のみを選択することとにより、適応は、異なる制約付きビームフォーマ309、311間で差別化される。これにより、制約付きビームフォーマ309、311は異なる領域をカバーするように適応され、第1のビームフォーマ305によって検出されたオーディオソースを適応させ/それに従うように、最も近い制約付きビームフォーマ309、311が自動的に選択される傾向がある。しかしながら、たとえば図2の手法とは対照的に、領域は、固定及び所定ではなく、むしろ、動的に及び自動的に形成される。
また、領域は、複数の経路のためのビームフォーミングに依存し、一般に、到来角度方向(angular direction of arrival)領域に限定されないことに留意されたい。たとえば、領域は、マイクロフォンアレイまでの距離に基づいて差別化される。したがって、領域という用語は、差分測度についての類似性要件を満たす適応が生じるオーディオソースの空間における位置を指すと考えられる。したがって、それは、直接経路の考慮だけでなく、たとえば、反射が、ビームフォームパラメータにおいて考慮され、特に、空間的側面と時間的側面の両方に基づいて決定される(及び詳細には、ビームフォームフィルタの完全なインパルス応答に依存する)場合、反射の考慮をも含む。
単一の制約付きビームフォーマ309、311の選択は、詳細には、キャプチャされたオーディオレベルに応答したものである。たとえば、オーディオソース検出器401は、基準を満たす制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力の各々のオーディオレベルを決定し、オーディオソース検出器401は、最も高いレベルを生じる制約付きビームフォーマ309、311を選択する。いくつかの実施形態では、オーディオソース検出器401は、ビームフォーミングされたオーディオ出力において検出されたポイントオーディオソースが最も高い値を有する制約付きビームフォーマ309、311を選択する。たとえば、オーディオソース検出器401は、2つの制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力においてスピーチスピーチ成分を検出し、続いて、最も高いレベルのスピーチスピーチ成分を有する制約付きビームフォーマを選択する。
本手法では、したがって、制約付きビームフォーマ309、311の極めて選択的な適応が実行され、それは、これらが特定の状況においてのみ適応することにつながる。これは、制約付きビームフォーマ309、311による極めてロバストなビームフォーミングを与え、これにより、所望のオーディオソースのキャプチャの改善が生じる。しかしながら、多くのシナリオでは、また、ビームフォーミングにおける制約により、適応性がより低速になり、実際、多くの状況において、新しいオーディオソース(たとえば新しいスピーカー)が、検出されないか、又は極めて低速にのみ適応されることになる。
図5は図4のオーディオキャプチャ装置を示すが、第2の適応器313及びオーディオソース検出器401に結合されるビームフォーマコントローラ501が加えられている。ビームフォーマコントローラ501は、いくつかの状況において制約付きビームフォーマ309、311を初期化するように構成される。詳細には、ビームフォーマコントローラ501は、第1のビームフォーマ305に応答して制約付きビームフォーマ309、311を初期化することができ、詳細には、第1のビームフォーマ305のビームに対応するビームを形成するために制約付きビームフォーマ309、311のうちの1つを初期化することができる。
ビームフォーマコントローラ501は、詳細には、これ以降第1のビームフォームパラメータと呼ばれる、第1のビームフォーマ305のビームフォームパラメータに応答して、制約付きビームフォーマ309、311のうちの1つのビームフォームパラメータを設定する。いくつかの実施形態では、制約付きビームフォーマ309、311のフィルタと第1のビームフォーマ305のフィルタとは同等であり、たとえば、それらは同じアーキテクチャを有する。特定の例として、制約付きビームフォーマ309、311のフィルタと第1のビームフォーマ305のフィルタの両方は、同じ長さ(すなわち、所与の数の係数)をもつFIRフィルタであり、第1のビームフォーマ305のフィルタからの現在適応されている係数値は、単に、制約付きビームフォーマ309、311にコピーされ、すなわち、制約付きビームフォーマ309、311の係数は第1のビームフォーマ305の値に設定される。このようにして、制約付きビームフォーマ309、311は、第1のビームフォーマ305によって現在適応されているものと同じビーム特性で初期化される。
いくつかの実施形態では、制約付きビームフォーマ309、311のフィルタの設定は、第1のビームフォーマ305のフィルタパラメータから決定されるが、これらを直接使用するのではなく、それらは、適用される前に適応される。たとえば、いくつかの実施形態では、FIRフィルタの係数は、第1のビームフォーマ305のビームよりも広くなる(ただし、たとえば同じ方向に形成される)ように制約付きビームフォーマ309、311のビームを初期化するために変更される。
ビームフォーマコントローラ501は、多くの実施形態において、したがって、いくつかの状況において、第1のビームフォーマ305のビームに対応する初期ビームで制約付きビームフォーマ309、311のうちの1つを初期化する。本システムは、続いて、前に説明されたように制約付きビームフォーマ309、311を扱い、詳細には、続いて、制約付きビームフォーマ309、311が前に説明された基準を満たすとき、それを適応させる。
制約付きビームフォーマ309、311を初期化するための基準は、異なる実施形態において異なる。
多くの実施形態では、ビームフォーマコントローラ501は、ポイントオーディオソースの存在が第1のビームフォーミングされたオーディオ出力において検出されるが、制約付きのビームフォーミングされたオーディオ出力において検出されない場合、制約付きビームフォーマ309、311を初期化するように構成される。
したがって、オーディオソース検出器401は、ポイントオーディオソースが、制約付きビームフォーマ309、311又は第1のビームフォーマ305のいずれかからのビームフォーミングされたオーディオ出力のいずれかにおいて存在するかどうかを決定する。各ビームフォーミングされたオーディオ出力についての検出/推定結果は、ビームフォーマコントローラ501にフォワーディングされ、ビームフォーマコントローラ501はこれを評価する。ポイントオーディオソースが、第1のビームフォーマ305についてのみ検出され、制約付きビームフォーマ309、311のいずれについても検出されない場合、これは、スピーカーなどのポイントオーディオソースが存在し、第1のビームフォーマ305によって検出されるが、制約付きビームフォーマ309、311のいずれもポイントオーディオソースを検出しなかったか、又はポイントオーディオソースに適応されなかった状況を反映する。この場合、制約付きビームフォーマ309、311は、ポイントオーディオソースに決して適応しない(又は極めて低速にのみ適応する)。したがって、制約付きビームフォーマ309、311のうちの1つは、ポイントオーディオソースに対応するビームを形成するために初期化される。その後、このビームは、ポイントオーディオソースに十分に近い可能性があり、それは、(一般に低速に、ただし確実に)この新しいポイントオーディオソースに適応する。
したがって、本手法は、高速の第1のビームフォーマ305と確実な制約付きビームフォーマ309、311の両方の有利な効果を合成し、与える。
いくつかの実施形態では、ビームフォーマコントローラ501は、制約付きビームフォーマ309、311についての差分測度がしきい値を超える場合のみ、制約付きビームフォーマ309、311を初期化するように構成される。詳細には、制約付きビームフォーマ309、311についての最も低い決定された差分測度がしきい値を下回る場合、初期化は実行されない。そのような状況では、制約付きビームフォーマ309、311の適応が所望の状況により近いが、第1のビームフォーマ305のあまり確実でない適応があまり正確でなく、第1のビームフォーマ305により近くなるように適応することが可能である。したがって、差分測度が十分に低いそのようなシナリオでは、システムが自動的に適応することを試みることを可能にすることが有利である。
いくつかの実施形態では、ビームフォーマコントローラ501は、詳細には、ポイントオーディオソースが第1のビームフォーマ305と制約付きビームフォーマ309、311のうちの1つとの両方について検出されたが、これらについての差分測度が類似性基準を満たすことができないとき、制約付きビームフォーマ309、311を初期化するように構成される。詳細には、ビームフォーマコントローラ501は、ポイントオーディオソースが第1のビームフォーマ305からのビームフォーミングされたオーディオ出力と制約付きビームフォーマ309、311からのビームフォーミングされたオーディオ出力の両方において検出され、これらについての差分測度がしきい値を超える場合、第1のビームフォーマ305のビームフォームパラメータに応答して第1の制約付きビームフォーマ309、311についてのビームフォームパラメータを設定するように構成される。
そのようなシナリオは、制約付きビームフォーマ309、311が場合によってはポイントオーディオソースに適応し、ポイントオーディオソースをキャプチャしたが、そのポイントオーディオソースは、第1のビームフォーマ305によってキャプチャされたポイントオーディオソースとは異なる状況を反映する。したがって、そのようなシナリオは、詳細には、制約付きビームフォーマ309、311が「間違った」ポイントオーディオソースをキャプチャしたことを反映する。したがって、制約付きビームフォーマ309、311は、所望のポイントオーディオソースのほうへビームを形成するために再初期化される。
いくつかの実施形態では、アクティブである制約付きビームフォーマ309、311の数は、変動している。たとえば、オーディオキャプチャ装置は、潜在的に比較的多数の制約付きビームフォーマ309、311を形成するための機能を備える。たとえば、オーディオキャプチャ装置は、最高で、たとえば、8つの同時の制約付きビームフォーマ309、311を実装する。しかしながら、たとえば電力消費及び計算負荷を低減するために、これらのすべてが同時にアクティブであるとは限らない。
したがって、いくつかの実施形態では、制約付きビームフォーマ309、311のアクティブセットが、ビームフォーマのより大きいプールから選択される。これは、詳細には、制約付きビームフォーマ309、311が初期化されるときに行われる。したがって、上記で与えられた例では、(たとえば、ポイントオーディオソースが、アクティブな制約付きビームフォーマ309、311において検出されない場合の)制約付きビームフォーマ309、311の初期化は、プールからのアクティブでない制約付きビームフォーマ309、311を初期化し、それにより、アクティブな制約付きビームフォーマ309、311の数を増加させることによって、達成される。
プール中のすべての制約付きビームフォーマ309、311が現在アクティブである場合、制約付きビームフォーマ309、311の初期化は、現在アクティブな制約付きビームフォーマ309、311を初期化することによって行われる。初期化されるべき制約付きビームフォーマ309、311は、任意の好適な基準に従って選択される。たとえば、最も大きい差分測度又は最も低い信号レベルを有する制約付きビームフォーマ309、311が選択される。
いくつかの実施形態では、制約付きビームフォーマ309、311は、好適な基準が満たされたことに応答して非アクティブ化される。たとえば、制約付きビームフォーマ309、311は、差分測度が所与のしきい値を上回って増加した場合、非アクティブ化される。
上記で説明された例の多くに従って制約付きビームフォーマ309、311の適応及び設定を制御するための特定の手法が、図6のフローチャートによって示されている。
本方法は、次の処理時間間隔を初期化すること(たとえば、次の処理時間間隔の開始を待つこと、処理時間間隔のためのサンプルのセットを集めることなど)によって、ステップ601において開始する。
ステップ601の後にステップ603が続き、制約付きビームフォーマ309、311のビームのいずれかにおいて検出されたポイントオーディオソースがあるかどうかが決定される。
制約付きビームフォーマ309、311のビームのいずれかにおいて検出されたポイントオーディオソースがある場合、本方法はステップ605において続き、差分測度が類似性基準を満たすかどうか、詳細には、差分測度がしきい値を下回るかどうかが決定される。
差分測度が類似性基準を満たす場合、本方法はステップ607において続き、ポイントオーディオソースが検出された(又は、ポイントオーディオソースが2つ以上の制約付きビームフォーマ309、311において検出された場合には最も大きい信号レベルを有する)制約付きビームフォーマ309、311が適応され、すなわち、ビームフォーム(フィルタ)パラメータが更新される。
差分測度が類似性基準を満たさない場合、本方法はステップ609において続き、制約付きビームフォーマ309、311が初期化され、制約付きビームフォーマ309、311のビームフォームパラメータは、第1のビームフォーマ305のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ309、311は、新しい制約付きビームフォーマ309、311(すなわち、非アクティブなビームフォーマのプールからのビームフォーマ)であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ309、311である。
ステップ607及びステップ609のいずれかに続いて、本方法はステップ601に戻り、次の処理時間間隔を待つ。
ステップ603において、ポイントオーディオソースが制約付きビームフォーマ309、311のいずれかのビームフォーミングされたオーディオ出力において検出されなかったことが検出された場合、本方法はステップ611に進み、ポイントオーディオソースが第1のビームフォーマ305において検出されたかどうか、すなわち、現在のシナリオが、ポイントオーディオソースが第1のビームフォーマ305によってキャプチャされたが制約付きビームフォーマ309、311のいずれによってもキャプチャされていないことに対応するかどうかが決定される。
ポイントオーディオソースが第1のビームフォーマ305において検出されない場合、ポイントオーディオソースはまったく検出されず、本方法はステップ601に戻って、次の処理時間間隔を待つ。
他の場合、本方法はステップ613に進み、差分測度が類似性基準を満たすかどうか、詳細には、差分測度が(ステップ605において使用されるものと同じであるか、又は異なるしきい値/基準である)しきい値を下回るかどうかが決定される。
差分測度が類似性基準を満たす場合、本方法はステップ615に進み、差分測度がしきい値を下回る制約付きビームフォーマ309、311が適応される(又は、2つ以上の制約付きビームフォーマ309、311が基準を満たす場合、たとえば最も低い差分測度をもつものが選択される)。
他の場合、本方法はステップ617に進み、制約付きビームフォーマ309、311が初期化され、制約付きビームフォーマ309、311のビームフォームパラメータは、第1のビームフォーマ305のビームフォームパラメータに応じて設定される。初期化されている制約付きビームフォーマ309、311は、新しい制約付きビームフォーマ309、311(すなわち、非アクティブなビームフォーマのプールからのビームフォーマ)であるか、又は、新しいビームフォームパラメータが与えられるすでにアクティブな制約付きビームフォーマ309、311である。
ステップ615及びステップ617のいずれかに続いて、本方法はステップ601に戻り、次の処理時間間隔を待つ。
図3のオーディオキャプチャ装置の説明された手法は、多くのシナリオにおいて有利な性能を与え、特に、オーディオキャプチャ装置が、オーディオソースをキャプチャするために、集束された、ロバストで正確なビームを動的に形成することを可能にする傾向がある。ビームは、異なる領域をカバーするように適応される傾向があり、本手法は、たとえば、最も近い制約付きビームフォーマ309、311を自動的に選択し、適応させる。
したがって、たとえば図2の手法とは対照的に、ビーム方向又はフィルタ係数に関する特定の制約が直接課される必要がない。むしろ、支配的な単一のオーディオソースがあるとき、及びそれが制約付きビームフォーマ309、311のビームに十分に近いときのみ、制約付きビームフォーマ309、311を(条件付きで)適応させることによって、別個の領域が自動的に生成/形成され得る。これは、詳細には、直接場と(第1の)反射の両方を考慮に入れるフィルタ係数を考慮することによって決定され得る。
(単純な遅延フィルタ、すなわち、単一係数フィルタを使用することとは対照的に)拡張インパルス応答をもつフィルタを使用することは、直接場の後ある(特定の)時間が経って反射が到着することをも考慮に入れることに留意されたい。したがって、ビームは、空間的特性(直接場及び反射がどの方向から到着するか)によって決定されるだけでなく、時間的特性(直接場が到着した後のどの時間において反射が到着するか)によっても決定される。したがって、ビームへの言及は、単に空間的考慮事項に制限されるだけでなく、ビームフォームフィルタの時間成分をも反映する。同様に、領域への言及は、ビームフォームフィルタの純粋に空間的な効果と時間的な効果の両方を含む。
したがって、本手法は、第1のビームフォーマ305の自走するビームと制約付きビームフォーマ309、311のビームとの間の距離測度の差分によって決定される領域を形成すると考えられ得る。たとえば、制約付きビームフォーマ309、311が(空間的特性と時間的特性の両方をもつ)ソースに集束されたビームを有すると仮定する。そのソースが無音であり、新しいソースがアクティブになり、第1のビームフォーマ305がこれに集束するように適応すると仮定する。次いで、第1のビームフォーマ305のビームと制約付きビームフォーマ309、311のビームとの間の距離がしきい値を超えないような空間時間的特性をもつあらゆるソースが、制約付きビームフォーマ309、311の領域中にあると考えられ得る。このようにして、第1の制約付きビームフォーマ309に関する制約は、空間における制約に変換されると考えられ得る。
ビームを初期化する(たとえば、ビームフォームフィルタ係数をコピーする)手法とともに、制約付きビームフォーマの適応のための距離基準は、一般に、制約付きビームフォーマ309、311が異なる領域においてビームを形成することを可能にする。
本手法は、一般に、図2の手法のような所定の固定システムではなく、環境におけるオーディオソースの存在を反映する領域の自動形成を生じる。このフレキシブルな手法は、システムが、反射によって引き起こされるものなど、空間時間的特性に基づくことを可能にし、空間時間的特性は、(これらの特性が、部屋のサイズ、形状及び残響特性など、多くのパラメータに依存するので)所定及び固定システムにとって含むことが極めて困難で複雑である。
以下では、差分測度を決定するための特定の手法が図6を参照しながら説明され、図6は、簡潔及び明快のために、マイクロフォンアレイ301と、第1のビームフォーマ305と、制約付きビームフォーマ309のうちの1つである第2のビームフォーマ309と、差分プロセッサ317とを示す。第1のビームフォーマ305の出力は、第1のビームフォーミングされたオーディオ出力信号と呼ばれ、第2のビームフォーマ309の出力は、第2のビームフォーミングされたオーディオ出力信号と呼ばれる。
したがって、第1のビームフォーマ303と第2のビームフォーマ305とは、ビームフォーム動作のパラメータを適応させることによって指向性が制御され得る適応ビームフォーマである。
詳細には、ビームフォーマ305、309は、フィルタ合成(又は、詳細には、たいていの実施形態ではフィルタ和)ビームフォーマである。ビームフォームフィルタがマイクロフォン信号の各々に適用され、フィルタ処理された出力は、一般に単に合計されることによって合成される。
たいていの実施形態では、ビームフォームフィルタの各々は、(単純な遅延、したがって、周波数ドメインにおける利得及び位相オフセットに対応する)単純なディラックパルスでなく、むしろ、一般に2ミリ秒、5ミリ秒、10ミリ秒、さらには30ミリ秒以上の時間間隔にわたって拡張するインパルス応答を有する、時間ドメインインパルス応答を有する。
インパルス応答は、しばしば、複数の係数をもつFIR(有限インパルス応答)フィルタであるビームフォームフィルタによって実施される。そのような実施形態では、ビームフォーマ305、309は、フィルタ係数を適応させることによってビームフォーミングを適応させる。多くの実施形態では、FIRフィルタは、固定時間オフセット(一般にサンプル時間オフセット)に対応する係数を有し、適応は、係数値を適応させることによって達成される。他の実施形態では、ビームフォームフィルタは、一般に、大幅により少数の係数(たとえば、2つ又は3つのみ)を有するが、これらのタイミングは(も)適応可能である。
単純な可変遅延(又は単純な周波数ドメイン利得/位相調整)であるのではなく、拡張インパルス応答を有するビームフォームフィルタの特定の利点は、それが、ビームフォーマ305、309が、最も強い、一般に直接の、信号成分のみに適応することを可能にするわけではないことである。むしろ、それは、ビームフォーマ305、309が、一般に反射に対応するさらなる信号経路を含むように適応することを可能にする。したがって、本手法は、たいていの実環境における性能の改善を可能にし、詳細には、反射及び/又は残響環境における性能の改善、並びに/或いは、マイクロフォンアレイ301から離れているオーディオソースのための性能の改善を可能にする。
詳細には、ビームフォーマ305、309は、フィルタ合成(特にフィルタ和)ビームフォーマである。図8は、2つのマイクロフォン801のみを備えるマイクロフォンアレイに基づくフィルタ和ビームフォーマの簡略化された例を示す。本例では、各マイクロフォン801はビームフォームフィルタ803、805に結合され、ビームフォームフィルタ803、805の出力は、ビームフォーミングされたオーディオ出力信号を生成するために加算器808において加算される。ビームフォームフィルタ803、805はインパルス応答f1及びf2を有し、インパルス応答f1及びf2は、所与の方向でビームを形成するように適応される。一般に、マイクロフォンアレイは3つ以上のマイクロフォンを備え、図8の原理は、各マイクロフォンのためのビームフォームフィルタをさらに含むことによってより多くのマイクロフォンに容易に拡張されることが理解されよう。
第1のビームフォーマ303と第2のビームフォーマ305とは、(たとえば、米国特許第7146012号及び米国特許第7602926号のビームフォーマの場合のように)ビームフォーミングのためのそのようなフィルタ和アーキテクチャを含む。ただし、多くの実施形態では、マイクロフォンアレイ301は3つ以上のマイクロフォンを備えることが理解されよう。さらに、ビームフォーマ305、309は、前に説明されたようにビームフォームフィルタを適応させるための機能を含むことが理解されよう。また、特定の例では、ビームフォーマ305、309は、ビームフォーミングされたオーディオ出力信号だけでなく雑音基準信号をも生成する。
ビームフォーマとビームとを比較するための従来の手法では、ビーム間の類似性は、生成されたオーディオ出力を比較することによって査定される。たとえば、オーディオ出力間の相互相関が生成され、相関の大きさによってその類似性が示される。いくつかのシステムでは、マイクロフォンペアについてのオーディオ信号を相互相関させ、ピークのタイミングに応答してDoAを決定することによって、DoAが決定される。
図7のシステムでは、差分測度は、単に、ビームフォーマからのビームフォーミングされたオーディオ出力信号であるのか入力マイクロフォン信号であるのかにかかわらず、オーディオ信号の特性又は比較に基づいて決定されるだけでなく、むしろ、図7のオーディオキャプチャ装置の差分プロセッサ317は、第1のビームフォーマ305のビームフォームフィルタのインパルス応答と第2のビームフォーマ309のビームフォームフィルタのインパルス応答との比較に応答して差分測度を決定するように構成される。
図7のシステムでは、第1のビームフォーマ305のためのビームフォームフィルタのパラメータは、第2のビームフォーマ309のビームフォームフィルタのパラメータと比較される。次いで、これらのパラメータが互いにどのくらい近いかを反映するために差分測度が決定される。詳細には、各マイクロフォンについて、第1のビームフォーマ305の対応するビームフォームフィルタと第2のビームフォーマ309の対応するビームフォームフィルタとが互いに比較されて、中間差分測度が生成される。次いで、中間差分測度は単一の差分測度に合成され、差分プロセッサ317から出力される。
比較されているビームフォームパラメータは、一般に、フィルタ係数である。詳細には、ビームフォームフィルタは、FIRフィルタ係数のセットによって定義される時間ドメインインパルス応答を有するFIRフィルタである。差分プロセッサ317は、フィルタ間の相関を決定することによって第1のビームフォーマ305の対応するフィルタと第2のビームフォーマ309の対応するフィルタとを比較するように構成される。相関値が最大相関として決定される(すなわち、相関を最大化する時間オフセットについての相関値)。
差分プロセッサ317は、次いで、たとえば、単にこれらを一緒に加算することによって、すべてのこれらの個々の相関値を単一の差分測度に合成する。他の実施形態では、たとえば、より大きい係数をより低い係数よりも高く重み付けすることによって、重み付き合成(weighted combination)が実行される。
そのような差分測度がフィルタの増加する相関について増加する値を有し、したがって、より高い値が差分の増加ではなくビームの類似性の増加を示すことが理解されよう。しかしながら、増加する差分について差分測度が増加することが望まれる実施形態では、単調減少関数が、単に、合成された相関に適用され得る。
オーディオ信号(ビームフォーミングされたオーディオ出力信号又はマイクロフォン信号)に基づくのではなくビームフォームフィルタのインパルス応答の比較に基づく差分測度の決定は、多くのシステム及び適用例において有意な利点を与える。特に、本手法は、一般に、はるかに改善された性能を与え、実際、残響オーディオ環境において適用するのに適しており、特に残響半径外のオーディオソースを含む、より離れた距離にあるオーディオソースに適している。実際、本手法は、オーディオソースからの直接経路が支配的でなく、むしろ、直接経路、及び場合によっては早期反射が、たとえば拡散音場によって支配されるシナリオにおいて、はるかに改善された性能を与える。特に、そのようなシナリオでは、オーディオ信号に基づく差分推定は、音場の空間的及び時間的特性に大きく左右されるが、フィルタベース手法は、フィルタパラメータに基づくビームのより直接的な査定を可能にし、これは、直接音場/経路を反映するだけでなく、(早期反射を考慮に入れるために延長された持続時間を有するインパルス応答により)直接音場/経路及び早期反射も反映するように適応される。
実際、2つのビームフォーマの類似性を推定するための従来のDoA及びオーディオ信号相関メトリックは、無響環境に基づき、したがって、所望のユーザが(残響半径内の)マイクロフォンに近く、それにより拡散音場のエネルギーが支配する環境においてうまく動作するが、図7の手法は、そのような仮定に基づかず、多くの反射及び/又はかなりの拡散音響雑音の存在下でさえ優れた推定を与える。
他の利点は、差分測度が、現在のビームフォームパラメータに基づいて、詳細には現在のフィルタ係数に基づいて直ちに決定され得ることを含む。たいていの実施形態ではパラメータの平均化の必要がなく、むしろ、適応ビームフォーマの適応速度が追跡挙動を決定する。
特に有利な側面は、比較と差分測度とが、延長された持続時間を有するインパルス応答に基づき得ることである。これは、差分測度が、単に直接経路の遅延又はビームの角度方向を反映することを可能にするのではなく、むしろ、推定された音響室内インパルスの有意な部分、又は実際はすべてが考慮に入れられることを可能にする。したがって、差分測度は、従来の手法の場合のように、単に、マイクロフォン信号によって励起される部分空間に基づくのではない。
いくつかの実施形態では、差分測度は、詳細には、時間ドメインにおいてではなく周波数ドメインにおいてインパルス応答を比較するように構成される。詳細には、差分プロセッサ317は、第1のビームフォーマ305のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。同様に、差分プロセッサ317は、第2のビームフォーマ309のフィルタの適応インパルス応答を周波数ドメインに変換するように構成される。変換は、詳細には、たとえば高速フーリエ変換(FFT)を、第1のビームフォーマ305と第2のビームフォーマ309の両方のビームフォームフィルタのインパルス応答に適用することによって実行される。
したがって、差分プロセッサ317は、第1のビームフォーマ305及び第2のビームフォーマ309の各フィルタについて、周波数ドメイン係数のセットを生成する。差分プロセッサ317は、続いて、周波数表現に基づいて差分測度を決定する。たとえば、マイクロフォンアレイ301の各マイクロフォンについて、差分プロセッサ317は、2つのビームフォームフィルタの周波数ドメイン係数を比較する。単純な例として、差分プロセッサ317は、単に、2つのフィルタについての周波数ドメイン係数ベクトル間の差分として計算された差分ベクトルの大きさを決定する。次いで、個々の周波数について生成された中間差分測度を合成することによって差分測度が決定される。
以下では、差分測度を決定するためのいくつかの特定の及び極めて有利な手法が説明される。本手法は、周波数ドメインにおける適応インパルス応答の比較に基づく。本手法では、差分プロセッサ317は、周波数ドメイン表現の周波数についての周波数差分測度を決定するように構成される。詳細には、周波数差分測度は、周波数表現における各周波数について決定される。次いで、これらの個々の周波数差分測度から出力差分測度が生成される。
詳細には、周波数差分測度は、ビームフォームフィルタの各フィルタペアの各周波数フィルタ係数について生成され、ここで、フィルタペアは、同じマイクロフォンのための第1のビームフォーマ305及び第2のビームフォーマ309それぞれのフィルタを表す。この周波数係数ペアについての周波数差分測度は、2つの係数の関数として生成される。実際、いくつかの実施形態では、係数ペアについての周波数差分測度は、係数間の絶対差分として決定される。
しかしながら、実数値時間ドメイン係数(すなわち、実数値インパルス応答)について、周波数係数は概して複素数値であり、多くの適用例において、係数のペアについての特に有利な周波数差分測度は、第1の周波数ドメイン係数と第2の周波数ドメイン係数の共役との乗算に応答して(すなわち、ペアの一方のフィルタの複素係数と他方のフィルタの複素係数の共役との乗算に応答して)決定される。
したがって、ビームフォームフィルタのインパルス応答の周波数ドメイン表現の各周波数ビンについて、周波数差分測度は、各マイクロフォン/フィルタペアについて生成される。次いで、すべてのマイクロフォンについてこれらのマイクロフォン固有周波数差分測度を合成することによって、たとえば単にそれらを加算することによって、周波数についての合成された周波数差分測度が生成される。
より詳細には、ビームフォーマ305、309は、各マイクロフォンについて、及び周波数ドメイン表現の各周波数について周波数ドメインフィルタ係数を含む。
第1のビームフォーマ305の場合、これらの係数はF11(ejω)...F1M(ejω)と示され、第2のビームフォーマ309の場合、それらはF21(ejω)...F2M(ejω)と示され、ここで、Mはマイクロフォンの数である。
ある周波数についての及びすべてのマイクロフォンについてのビームフォーム周波数ドメインフィルタ係数の全セットは、第1のビームフォーマ305及び第2のビームフォーマ309について、それぞれf及びfとして示される。
この場合、所与の周波数についての周波数差分測度は、次のように決定される。
S(ω)=f(f,f
同じマイクロフォンに属する複素数値フィルタ係数を乗算することによって、あらゆる周波数について、第1の形態の距離測度を取得し、したがって、
Figure 0007041156000004
ここで、(・)は複素共役を表す。これは、マイクロフォンmについての周波数ωについての差分測度として使用される。すべてのマイクロフォンについての合成された周波数差分測度は、これらの和として生成され、すなわち、
Figure 0007041156000005
2つのフィルタが関係しない場合、すなわち、フィルタの適応された状態、したがって、形成されたビームがまったく異なる場合、この和は0に近いことが予想され、したがって、周波数差分測度は0に近い。しかしながら、フィルタ係数が類似する場合、大きい正値が取得される。フィルタ係数が反対の符号を有する場合、大きい負値が取得される。したがって、生成された周波数差分測度は、この周波数についてのビームフォームフィルタの類似性を示す。
(共役を含む)2つの複素係数の乗算により、複素数値が生じ、多くの実施形態では、これをスカラー値に変換することが望ましい。
特に、多くの実施形態では、所与の周波数についての周波数差分測度は、その周波数についての異なるマイクロフォンについての周波数差分測度の合成の実数部に応答して決定される。
詳細には、合成された周波数差分測度は、次のように決定される。
Figure 0007041156000006
この測度では、Re(S)に基づく類似性測度は、フィルタ係数が同じであるときは、最大値が達成されることになるが、フィルタ係数が同じであるが反対の符号を有するときは、最小値が達成される。
別の手法は、マイクロフォンについての周波数差分測度の合成のノルムに応答して所与の周波数についての合成された周波数差分測度を決定することである。ノルムは、一般に、有利にはL1又はL2ノルムである。
たとえば、
Figure 0007041156000007
いくつかの実施形態では、マイクロフォンアレイ301のすべてのマイクロフォンについての合成された周波数差分測度は、したがって、個々のマイクロフォンについての複素数値周波数差分測度の和の振幅又は絶対値として決定される。
多くの実施形態では、差分測度を正規化することが有利である。たとえば、差分測度が[0;1]の間隔内に入るように差分測度を正規化することが有利である。
いくつかの実施形態では、上記で説明された差分測度は、第1のビームフォーマ305についての周波数ドメイン係数の和のノルムの単調関数と、第2のビームフォーマ309についての周波数ドメイン係数の和についてのノルムの単調関数との和に応答して決定されることによって正規化され、ここで、それらの和は、マイクロフォンにわたるものである。ノルムは有利にはL2ノルムであり、単調関数は有利には2乗関数である。
したがって、差分測度は、以下の値に対して正規化される。
Figure 0007041156000008
上記で説明された第1の手法と組み合わせると、これにより、次のように与えられる合成された周波数差分測度が生じる。
Figure 0007041156000009
ここで、f=fの場合、周波数差分測度が1の値を有し、f=-fの場合、周波数差分測度が0の値を有するように、1/2のオフセットが導入される。したがって、0から1の間の差分測度が生成され、ここで、増加する値は低減する差分を示す。増加する差分について増加する値が望まれる場合、これは、単に、以下を決定することによって達成され得ることが理解されよう。
Figure 0007041156000010
同様に、第2の手法の場合、以下の周波数差分測度が決定され得る。
Figure 0007041156000011
この場合も、[0;1]の間隔内に入る周波数差分測度が生じる。
別の例として、正規化は、いくつかの実施形態では、周波数ドメイン係数の個々の総和のノルム、詳細にはL2ノルムの乗算に基づく。
(f,f)=||f||・||f||
これは、特に、多くの適用例において、差分測度の最後の例のための極めて有利な性能を与える(すなわち、係数についてのL1ノルムに基づく)。特に、以下の周波数差分測度が使用される。
Figure 0007041156000012
したがって、特定の周波数差分測度は、次のように決定される。
Figure 0007041156000013
ここで、〈a|b〉=((a)b)は内積であり、
Figure 0007041156000014
はLノルムである。
差分プロセッサ317は、次いで、周波数差分測度を第1のビームフォーマ305のビームと第2のビームフォーマ309のビームとがどのくらい類似しているかを示す単一の差分測度に合成することよって、これらの周波数差分測度から差分測度を生成する。
詳細には、差分測度は、周波数差分測度の周波数選択性重み付き和として決定される。周波数選択性手法は、詳細には、たとえば、たとえばオーディオ範囲又は主要なスピーチ周波数間隔など、特定の周波数範囲が強調されることを可能にする好適な周波数ウィンドウを適用するために有用である。たとえば、ロバストな広帯域差分測度を生成するために(重み付き)平均化が適用される。
詳細には、差分測度は、次のように決定される。
Figure 0007041156000015
ここで、w(ejω)は、好適な重み付け関数である。
一例として、重み関数w(ejω)は、スピーチがいくつかの周波数帯域において主にアクティブであること、及び/又は、マイクロフォンアレイが比較的低い周波数について低い方向性(directionality)を有する傾向があることを考慮に入れるように設計される。
上式は連続周波数ドメインにおいて提示されるが、それらは容易に離散周波数ドメインに変換され得ることが理解されよう。
たとえば、離散時間ドメインフィルタは、最初に、離散フーリエ変換を適用することによって離散周波数ドメインフィルタに変換され、すなわち、0≦k<Kの場合、次のように計算することができる。
Figure 0007041156000016
ここで、
Figure 0007041156000017
は、m番目のマイクロフォンのためのj番目のビームフォーマの離散時間フィルタ応答を表し、Nは、時間ドメインフィルタの長さであり、
Figure 0007041156000018
は、m番目のマイクロフォンのためのj番目のビームフォーマの離散周波数ドメインフィルタを表し、Kは、一般にK=2Nとして選定された周波数ドメインビームフォームフィルタの長さである(しばしば時間ドメイン係数と同じ数であるが、これが必ずしも当てはまるとは限らない。たとえば、2とは異なる時間ドメイン係数の数の場合、(たとえばFFTを使用する)周波数ドメイン変換を容易にするためにゼロスタッフィングが使用される)。
ベクトルf及びfの離散周波数ドメインカウンターパートは、ベクトルF[k]及びF[k]であり、ベクトルF[k]及びF[k]は、すべてのマイクロフォンについての周波数インデックスkについての周波数ドメインフィルタ係数を集めてベクトルにすることによって取得される。
その後、たとえば類似性測度s(F,F)[k]の計算が、次いで、以下のようにして実行される。
Figure 0007041156000019
ここでは、
Figure 0007041156000020
ここで、(・)は複素共役を表す。
最後に、広帯域類似性測度S(F,F)は、重み付け関数w[k]に基づいて、以下のように計算される。
Figure 0007041156000021
w[k]=1/Kとして重み付け関数を選定することは、0から1の間で有界であり、すべての周波数を等しく重み付けする広帯域類似性測度につながる。
代替重み付け関数は、(たとえば、特定の周波数範囲がスピーチを含んでいる可能性があることにより)特定の周波数範囲に焦点を当てることができる。そのような場合、0から1の間で有界な類似性測度につながる重み付け関数は、次いで、たとえば次のように選定され得る。
Figure 0007041156000022
ここで、k及びkは、所望の周波数範囲の限界に対応する周波数インデックスである。
導出された差分測度は、異なる実施形態において望ましい異なる特性をもつ特に効率的な性能を与える。特に、決定された値はビーム差分の異なる特性に対する感度が高く、個々の実施形態の選好に応じて、異なる測度が選好される。
実際、差分/類似性測度s(f,f)は、ビームフォーマ間の位相差分、減衰差分、及び方向差分を測定すると考えられ得、s(f,f)は、利得差分及び方向差分のみを考慮に入れる。最後に、差分測度s(f,f)は、方向差分のみを考慮に入れ、位相差分及び減衰差分を無視する。
これらの差分は、ビームフォーマの構造に関する。詳細には、ビームフォーマのフィルタ係数が、A(ejω)として示す共通(周波数依存)因子をすべてのマイクロフォンにわたって共有すると仮定する。この場合、ビームフォーマフィルタ係数は、以下のように分解され得る。
Figure 0007041156000023
簡略な表記法では、
Figure 0007041156000024
とする。次に、共通因子A(ejω)の2つのバージョンを考慮する。
第1の場合では、共通因子が、全域通過フィルタとしても知られる(周波数依存)位相シフトのみからなる、すなわち、
Figure 0007041156000025
と仮定する。第2の場合では、共通因子が周波数ごとの任意の利得及び位相シフトを有すると仮定する。3つの提示された類似性測度は、これらの共通因子を別様に扱う。
・ s(f,f)は、ビームフォーマ間の共通振幅及び位相差分に対する感度が高い。
・ s(f,f)は、ビームフォーマ間の共通振幅差分に対する感度が高い
・ s(f,f)は、共通因子A(ejω)に対する感度が低い
これは、以下の実施例からわかり得る。
この実施例では、f=A(ejω)fであるシナリオを考慮し、
Figure 0007041156000026
は、周波数ごとの任意の位相、すなわち、全域通過フィルタである。
これにより、類似性測度についての以下の結果が生じる。
Figure 0007041156000027
この実施例では、f=B(ejω)fであるシナリオを考慮し、B(ejω)は、周波数ごとの任意の利得及び位相である。これにより、類似性測度についての以下の結果が生じる。
Figure 0007041156000028
多くの実際的実施形態では、ビームフォーマ間の共通利得及び位相差分があり、したがって、差分測度s(f,f)が、多くの実施形態において、特に魅力的な測度を与える。
以下では、ポイントオーディオソース推定値を決定するための特定の手法が、詳細には、ビームフォーマからのビームフォーミングされたオーディオ出力信号においてポイントオーディオソースを検出するためにポイントオーディオソース検出器401によって使用され得る。例は第1のビームフォーマ305に関して説明されるが、例は制約付きビームフォーマ309、311のいずれにも等しく適用され得ることが理解されよう。
例は、図9を参照しながら説明され、前に説明されたように、ビームフォーマ305がビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成することに基づく。
ビームフォーマ305は、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方を生成するように構成される。
ビームフォーマ305は、所望のオーディオソースをキャプチャし、これをビームフォーミングされたオーディオ出力信号で表すためにビームフォーミングを適応させるように構成される。ビームフォーマ305は、さらに、残りのキャプチャされたオーディオの推定値を与えるために雑音基準信号を生成し、すなわち、それは、所望のオーディオソースの不在下でキャプチャされる雑音を示す。
ビームフォーマ305が米国特許第7146012号及び米国特許第7602926号に開示されるようなビームフォーマである例では、雑音基準は、たとえば誤差信号を直接使用することによって、前に説明されたように生成される。しかしながら、他の実施形態では他の手法が使用されることが理解されよう。たとえば、いくつかの実施形態では、雑音基準は、生成されたビームフォーミングされたオーディオ出力信号を減じた(たとえば、オムニ指向性)マイクロフォンからのマイクロフォン信号、さらには、この雑音基準マイクロフォンが他のマイクロフォンから遠く離れており、所望のスピーチを含んでいない場合、マイクロフォン信号自体として生成される。別の例として、ビームフォーマ305は、ビームの最大値の方向にヌルを有する第2のビームを生成し、ビームフォーミングされたオーディオ出力信号を生成するように構成され、雑音基準は、この補足的ビームによってキャプチャされるオーディオとして生成される。
いくつかの実施形態では、ビームフォーマ305は、異なるビームを個々に生成する2つのサブビームフォーマを備える。そのような例では、サブビームフォーマのうちの一方は、ビームフォーミングされたオーディオ出力信号を生成するように構成され、他方のサブビームフォーマは、雑音基準信号を生成するように構成される。たとえば、第1のサブビームフォーマは出力信号を最大化するように構成され、これにより、支配的ソースがキャプチャされることになり、第2のサブビームフォーマは出力レベルを最小化するように構成され、それにより、一般に、支配的ソースのほうへヌルが生成されることになる。したがって、後者のビームフォーミングされた信号は、雑音基準として使用される。
いくつかの実施形態では、2つのサブビームフォーマは、マイクロフォンアレイ301の異なるマイクロフォンに結合され、それを使用する。したがって、いくつかの実施形態では、マイクロフォンアレイ301は、2つ(又はそれ以上)のマイクロフォンサブアレイによって形成され、2つ(又はそれ以上)のマイクロフォンサブアレイの各々は、異なるサブビームフォーマに結合され、ビームを個々に生成するように構成される。実際、いくつかの実施形態では、サブアレイは、互いから離れたところにさえ配置され、異なる位置からオーディオ環境をキャプチャする。したがって、ビームフォーミングされたオーディオ出力信号は、ある位置にあるマイクロフォンサブアレイから生成され、雑音基準信号は、異なる位置にある(及び一般に異なるデバイス中の)マイクロフォンサブアレイから生成される。
いくつかの実施形態では、図1の雑音抑圧などの後処理が、出力プロセッサ306によって、オーディオキャプチャ装置の出力に適用される。これは、たとえばボイス通信のための性能を改善する。そのような後処理では、非線形動作が含まれるが、たとえばいくつかのスピーチ認識器の場合、線形処理のみを含むように処理を限定することがより有利である。
多くの実施形態では、ポイントオーディオソースが、ビームフォーマ305によって生成された、ビームフォーミングされたオーディオ出力において存在するかどうかを推定することが望ましく、すなわち、ビームフォーマ305が、オーディオソースに適応し、それにより、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを推定することが望ましい。
オーディオポイントソースは、音響において、空間におけるポイントから発生する音のソースであると考えられる。多くの適用例では、たとえば人間の話者など、ポイントオーディオソースを検出及びキャプチャすることが望まれる。いくつかのシナリオでは、そのようなポイントオーディオソースは、音響環境における支配的なオーディオソースであるが、他の実施形態では、これは当てはまらず、すなわち、所望のポイントオーディオソースは、たとえば拡散背景雑音によって支配される。
ポイントオーディオソースは、直接経路音が、強い相関を伴って異なるマイクロフォンに到着する傾向があるという特性を有し、実際、一般に、同じ信号は、経路長の差分に対応する遅延(周波数ドメイン線形位相変動)を伴ってキャプチャされる。したがって、マイクロフォンによってキャプチャされた信号間の相関を考慮するとき、高い相関は支配的なポイントソースを示し、低い相関は、キャプチャされたオーディオが多くの無相関ソースから受信されたことを示す。実際、オーディオ環境におけるポイントオーディオソースは、直接信号成分がマイクロフォン信号についての高い相関を生じるものと考えられ得、実際、ポイントオーディオソースは、空間的に相関するオーディオソースに対応すると考えられ得る。
しかしながら、マイクロフォン信号についての相関を決定することによってポイントオーディオソースの存在を検出しようとすることが可能であるが、これは、不正確であり、最適性能を与えない傾向がある。たとえば、ポイントオーディオソース(実際、直接経路成分)が支配的でない場合、検出は、不正確である傾向がある。したがって、本手法は、たとえば、マイクロフォンアレイから遠い(詳細には、残響半径外にある)か、又は、高レベルのたとえば拡散雑音がある、ポイントオーディオソースに適していない。また、そのような手法は、単にポイントオーディオソースが存在するかどうかを示すが、ビームフォーマがそのポイントオーディオソースに適応したかどうかを反映しない。
図9のオーディオキャプチャ装置はポイントオーディオソース検出器401を備え、ポイントオーディオソース検出器401は、ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するように構成される。ポイントオーディオソース検出器401は、マイクロフォン信号についての相関を決定しないが、代わりに、ビームフォーマ305によって生成された、ビームフォーミングされたオーディオ出力信号及び雑音基準信号に基づいてポイントオーディオソース推定値を決定する。
ポイントオーディオソース検出器401は、ビームフォーミングされたオーディオ出力信号に周波数変換を適用することによって第1の周波数ドメイン信号を生成するように構成された第1の変換器901を備える。詳細には、ビームフォーミングされたオーディオ出力信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第1の周波数ドメイン信号は周波数ドメインサンプルによって表され、各周波数ドメインサンプルが特定の時間間隔(対応する処理フレーム)と特定の周波数間隔とに対応する。各そのような周波数間隔及び時間間隔は、一般に、時間周波数タイルとして知られるフィールドにある。したがって、第1の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
ポイントオーディオソース検出器401は、雑音基準信号を受信する第2の変換器903をさらに備える。第2の変換器903は、雑音基準信号に周波数変換を適用することによって第2の周波数ドメイン信号を生成するように構成される。詳細には、雑音基準信号は、時間セグメント/間隔に分割される。各時間セグメント/間隔は、たとえばFFTによって、周波数ドメインサンプルのグループに変換されるサンプルのグループを備える。したがって、第2の周波数ドメイン信号は、複数の時間周波数タイルの各々についての値によって、すなわち、時間周波数タイル値によって表される。
図10は、第1の変換ユニット901及び第2の変換ユニット903の可能な実装形態の機能要素の特定の例を示す。本例では、直列並列変換器が2Bのサンプルの重複するブロック(フレーム)を生成し、それらは次いで、ハニング窓掛けされ、高速フーリエ変換(FFT)によって周波数ドメインに変換される。
ビームフォーミングされたオーディオ出力信号及び雑音基準信号は、以下では、それぞれz(n)及びx(n)と呼ばれ、第1の周波数ドメイン信号及び第2の周波数ドメイン信号は、ベクトル
Figure 0007041156000029
及び
Figure 0007041156000030
によって参照される(各ベクトルは、所与の処理/変換時間セグメント/フレームについてのすべてのM周波数タイル値を含む)。
使用するとき、z(n)は雑音及びスピーチを含むと仮定され、x(n)は、理想的には雑音のみを含むと仮定される。さらに、z(n)及びx(n)の雑音成分は無相関であると仮定される(それらの成分は、時間的に無相関であると仮定される。ただし、一般に平均振幅間の関係があると仮定され、この関係は、後で説明されるようにコヒーレンス項によって表される)。そのような仮定は、いくつかのシナリオにおいて有効である傾向があり、詳細には、多くの実施形態では、ビームフォーマ305は、図1の例の場合のように、適応フィルタを備え、適応フィルタは、雑音基準信号と相関させられるビームフォーミングされたオーディオ出力信号における雑音を減衰又は除去する。
周波数ドメインへの変換の後に、時間周波数値の実数及び虚数成分は、ガウス分布していると仮定される。この仮定は、一般に、たとえば、拡散音場から雑音が発生するシナリオについて、センサー雑音について、及び多くの実際的シナリオにおいて経験されるいくつかの他の雑音ソースについて正確である。
第1の変換器901と第2の変換器903とは、差分プロセッサ905に結合され、差分プロセッサ905は、個々のタイル周波数についての時間周波数タイル差分測度を生成するように構成される。詳細には、差分プロセッサ905は、FFTから生じる各周波数ビンについての現在フレームについて、差分測度を生成することができる。差分測度は、ビームフォーミングされたオーディオ出力信号及び雑音基準信号の、すなわち、第1の周波数ドメイン信号及び第2の周波数ドメイン信号の対応する時間周波数タイル値から生成される。
特に、所与の時間周波数タイルについての差分測度は、第1の周波数ドメイン信号の(すなわち、ビームフォーミングされたオーディオ出力信号の)時間周波数タイル値のノルムの第1の単調関数と第2の周波数ドメイン信号(雑音基準信号)の時間周波数タイル値のノルムの第2の単調関数との間の差分を反映するように生成される。第1の単調関数と第2の単調関数とは、同じであるか又は異なる。
ノルムは、一般に、L1ノルム又はL2ノルムである。ここで、多くの実施形態では、時間周波数タイル差分測度は、第1の周波数ドメイン信号の値の大きさ又は電力(power)の単調関数と第2の周波数ドメイン信号の値の大きさ又は電力の単調関数との間の差分を反映する差分指示として決定される。
単調関数は、一般に、両方とも単調増加であるが、いくつかの実施形態では、両方とも単調減少である。
異なる実施形態では異なる差分測度が使用されることが理解されよう。たとえば、いくつかの実施形態では、差分測度は、単に、第1の関数の結果及び第2の関数の結果を互いから減算することによって決定される。他の実施形態では、第1の関数の結果及び第2の関数の結果を互いで除算して、差分を示す比などを生成する。
したがって、差分プロセッサ905は、各時間周波数タイルについての時間周波数タイル差分測度を生成し、その差分測度は、その周波数におけるビームフォーミングされたオーディオ出力信号及び雑音基準信号それぞれの相対レベルを示す。
差分プロセッサ905は、ポイントオーディオソース推定器907に結合され、ポイントオーディオソース推定器907は、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答してポイントオーディオソース推定値を生成する。したがって、ポイントオーディオソース推定器907は、所与の周波数超の周波数についての周波数タイル差分測度を合成することによってポイントオーディオソース推定値を生成する。合成は、詳細には、所与のしきい値周波数超のすべての時間周波数タイル差分測度の、総和、又は、たとえば、周波数依存重み付けを含む重み付き合成である。
したがって、ポイントオーディオソース推定値は、所与の周波数超のビームフォーミングされたオーディオ出力信号のレベルと雑音基準信号のレベルとの間の相対周波数固有差分を反映するように生成される。しきい値周波数は、一般に、500Hzを上回る。
発明者は、そのような測度が、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において含まれるか否かの強い指示を与えることを了解した。実際、発明者は、周波数固有比較が、より高い周波数への制限とともに、実際には、ポイントオーディオソースの存在の指示の改善を与えることを了解した。さらに、発明者は、推定値が、音響環境、及び従来の手法が正確な結果を与えないシナリオにおいて適用するのに適していることを了解した。詳細には、説明される手法は、マイクロフォンアレイ301から遠くにあり(及び残響半径外にあり)、強い拡散雑音の存在下にある、非支配的ポイントオーディオソースについてさえ、ポイントオーディオソースの有利で正確な検出を与える。
多くの実施形態では、ポイントオーディオソース推定器907は、ポイントオーディオソースが検出されたか否かを単に示すためにポイントオーディオソース推定値を生成するように構成される。詳細には、ポイントオーディオソース推定器907は、合成された差分値がしきい値を超える場合、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの存在が検出されたことを示すように構成される。したがって、生成された合成された差分値が、差分が所与のしきい値よりも高いことを示す場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。合成された差分値がしきい値を下回る場合、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されなかったと考えられる。
したがって、説明された手法は、生成されたビームフォーミングされたオーディオ出力信号がポイントソースを含むか否かの低複雑度検出を与える。
そのような検出が、多くの異なる適用例及びシナリオのために使用され得、実際、多くの異なるやり方で使用され得ることが理解されよう。
たとえば、前述のように、ポイントオーディオソース推定値/検出は、出力オーディオ信号を適応させる際に出力プロセッサ306によって使用される。単純な例として、出力は、ポイントオーディオソースがビームフォーミングされたオーディオ出力信号において検出されない限り、ミュートされる。別の例として、出力プロセッサ306の動作は、ポイントオーディオソース推定値に応答して適応される。たとえば、雑音抑圧は、ポイントオーディオソースが存在する尤度に応じて適応される。
いくつかの実施形態では、ポイントオーディオソース推定値は、単に、オーディオ出力信号とともに出力信号として与えられる。たとえば、スピーチキャプチャシステムでは、ポイントオーディオソースはスピーチ存在推定値であると考えられ、これは、オーディオ信号とともに与えられる。スピーチ認識器が、オーディオ出力信号を与えられ、たとえば、ボイスコマンドを検出するためにスピーチ認識を実行するように構成される。スピーチ認識器は、スピーチソースが存在することをポイントオーディオソース推定値が示すときのみスピーチ認識を実行するように構成される。
以下では、ポイントオーディオソース推定値の極めて有利な決定の特定の例が説明される。
本例では、ビームフォーマ305は、前に説明されたように、所望のオーディオソースに集束するように、詳細には、スピーチソースに集束するように適応する。ビームフォーマ305は、ソースに集束されるビームフォーミングされたオーディオ出力信号、並びに、他のソースからのオーディオを示す雑音基準信号を与える。ビームフォーミングされたオーディオ出力信号はz(n)として示され、雑音基準信号はx(n)として示される。z(n)とx(n)の両方は、一般に、雑音、詳細には拡散雑音などで汚染される。以下の説明はスピーチ検出に焦点を当てるが、それが概してポイントオーディオソースに適用されることが理解されよう。
Z(t,ω)を、ビームフォーミングされたオーディオ出力信号に対応する(複素)第1の周波数ドメイン信号とする。この信号は、所望のスピーチ信号Z(t,ω)と、雑音信号Z(t,ω)とからなり、
Z(t,ω)=Z(t,ω)+Z(t,ω
である。
(t,ω)の振幅が知られていた場合、変数dを、
d(t,ω)=|Z(t,ω)|-|Z(t,ω)|
のように導出することが可能であり、これは、スピーチ振幅|Z(t,ω)|を表す。
第2の周波数ドメイン信号、すなわち、雑音基準信号x(n)の周波数ドメイン表現は、X(t,ω)によって示される。
(n)とx(n)とは、それらが両方とも拡散雑音を表し、等しい分散を伴う(z)信号を加算すること又は等しい分散を伴う(x)信号を減算することによって取得されるので、等しい分散を有すると仮定され得、結果として、Z(t,ω)及びX(t,ω)の実部及び虚部も等しい分散を有することになる。したがって、|Z(t,ω)|は、上式では|X(t,ω)|によって置換され得る。
スピーチが存在しない(したがって、Z(t,ω)=Z(t,ω))場合、これは、
d(t,ω)=|Z(t,ω)|-|X(t,ω)|
につながり、ここで、|Z(t,ω)|と|X(t,ω)|とは、実部及び虚部がガウス分布しており、依存しないので、レイリー分布になる。
2つの確率変数の差分の平均は、平均の差分に等しく、したがって、上記の時間周波数タイル差分測度の平均値は0であり、
E{d}=0
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、したがって、
var(d)=(4-π)σ
である。
次に、分散は、(t,ω)平面におけるL個の非依存値にわたって|Z(t,ω)|と|X(t,ω)|とを平均化することによって低減され得、
Figure 0007041156000031
を与える。
平滑化(低域フィルタ処理)は平均を変更せず、したがって、
Figure 0007041156000032
である。
2つの確率信号の差分の分散は、個々の分散の和に等しく、
Figure 0007041156000033
である。
したがって、平均化は、雑音の分散を低減する。
したがって、スピーチが存在しないときの時間周波数タイル差分測度の平均値は、0である。しかしながら、スピーチの存在下では、平均値は増加する。詳細には、スピーチ成分のL個の値にわたる平均化は、|Z(t,ω)|のすべての要素が正であり、
E{|Z(t,ω)|}>0
であるので、あまり効果がない。
したがって、スピーチが存在するとき、上記の時間周波数タイル差分測度の平均値は0を上回り、
Figure 0007041156000034
である。
時間周波数タイル差分測度は、1よりも大きい過減算因子γの形態の設計パラメータを適用することによって変更され、
Figure 0007041156000035
である。
この場合、平均値
Figure 0007041156000036
は、スピーチが存在しないとき、0を下回る。しかしながら、過減算因子γは、スピーチの存在下での平均値
Figure 0007041156000037
が0を上回る傾向があるように選択される。
ポイントオーディオソース推定値を生成するために、複数の時間周波数タイルについての時間周波数タイル差分測度は、たとえば単純な総和によって、合成される。さらに、合成は、第1のしきい値を上回る周波数についての時間周波数タイルのみを、場合によっては、第2のしきい値を下回る時間周波数タイルについてのみ、含むように構成される。
詳細には、ポイントオーディオソース推定値は、次のように生成される。
Figure 0007041156000038
このポイントオーディオソース推定値は、雑音基準信号におけるエネルギーの量に対する、所望のスピーチソースからのビームフォーミングされたオーディオ出力信号におけるエネルギーの量を示す。したがって、それは、スピーチを拡散雑音と区別するための特に有利な測度を与える。詳細には、e(t)が正である場合のみ存在することがわかるスピーチソースが考えられる。e(t)が負である場合、所望のスピーチソースが見つけられないと考えられる。
決定されたポイントオーディオソース推定値は、ポイントオーディオソース、又は詳細にはスピーチソースが、キャプチャ環境において存在するかどうかを示すだけでなく、詳細には、これが、実際、ビームフォーミングされたオーディオ出力信号において存在するかどうかの指示を与え、すなわち、それが、ビームフォーマ305がこのソースに適応したかどうかの指示をも与えることを理解されたい。
実際、ビームフォーマ305が所望のスピーカーに完全に集束されたとは限らない場合、スピーチ信号の一部が雑音基準信号x(n)において存在する。米国特許第7146012号及び米国特許第7602926号の適応ビームフォーマの場合、マイクロフォン信号における所望のソースのエネルギーの和が、ビームフォーミングされたオーディオ出力信号におけるエネルギーと(1つ又は複数の)雑音基準信号におけるエネルギーとの和に等しいことを示すことが可能である。ビームが完全に集束されたとは限らない場合、ビームフォーミングされたオーディオ出力信号におけるエネルギーは減少し、(1つ又は複数の)雑音基準におけるエネルギーは増加する。これにより、完全に集束されるビームフォーマと比較して、e(t)についての有意なより低い値が生じる。このようにして、ロバストな弁別器が実現され得る。
上記の説明は図9のシステムの手法の背景及び利益を例示するが、本手法を損なうことなしに多くの変形及び変更が適用され得ることが理解されよう。
異なる実施形態では、たとえばビームフォーミングされたオーディオ出力信号の大きさと雑音基準信号の大きさとの間の差分を反映する差分測度を決定するために異なる関数及び手法が使用されることが理解されよう。実際、異なるノルムを使用すること又はノルムに異なる関数を適用することは、異なる特性をもつ異なる推定値を与えるが、依然として、所与の時間周波数タイルにおけるビームフォーミングされたオーディオ出力信号と雑音基準信号との間の基本的な差分を示す差分測度を生じる。
したがって、多くの実施形態では、前に説明された特定の手法が特に有利な性能を与えるが、他の実施形態では、適用例の特定の特性に応じて多くの他の関数及び手法が使用される。
より一般的には、差分測度は、
d(t,ω)=f(|Z(t,ω)|)-f(|X(t,ω)|)
のように計算され、ここで、f(x)とf(x)とは、個々の実施形態の特定の選好及び要件に適している任意の単調関数であるように選択され得る。一般に、関数f(x)及びf(x)は、単調増加又は減少関数である。また、単に大きさを使用するのではなく、他のノルム(たとえば、L2ノルム)が使用されることが理解されよう。
時間周波数タイル差分測度は、上記の例では、第1の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第1の単調関数f(x)と、第2の周波数ドメイン信号の大きさ(又は他のノルム)時間周波数タイル値の第2の単調関数f(x)との間の差分を示す。いくつかの実施形態では、第1の単調関数と第2の単調関数とは、異なる関数である。しかしながら、たいていの実施形態では、2つの関数は等しい。
さらに、関数f(x)及びf(x)の一方又は両方は、たとえば、マイクロフォン信号の全体的な平均電力レベル、周波数など、様々な他のパラメータ及び測度に依存する。
多くの実施形態では、関数f(x)及びf(x)の一方又は両方は、たとえば、周波数及び/又は時間次元における他のタイルにわたるZ(t,ω)、|Z(t,ω)|、f(|Z(t,ω)|)、X(t,ω)、|X(t,ω)|、又はf(|X(t,ω)|)のうちの1つ又は複数の平均化(すなわち、k及び/又はlの変動するインデックスについての値の平均化)による、他の周波数タイルについての信号値に依存する。多くの実施形態では、時間次元と周波数次元の両方において拡張する近傍にわたる平均化が実行される。早期に与えられた特定の差分測度式に基づく特定の例について後で説明するが、対応する手法が、差分測度を決定する他のアルゴリズム又は関数にも適用されることが理解されよう。
差分測度を決定するための可能な関数の例は、たとえば、
d(t,ω)=|Z(t,ω)|α-γ・|X(t,ω)|β
を含み、ここで、α及びβは、たとえば、
Figure 0007041156000039
などにおける、一般にα=βである設計パラメータであり、ここで、σ(ω)は、差分測度及びポイントオーディオソース推定値の所望のスペクトル特性を与えるために使用される好適な重み付け関数である。
これらの関数が例にすぎず、距離測度を計算するための多くの他の式及びアルゴリズムが想定され得ることが理解されよう。
上式では、因子γは、差分測度を負値のほうへバイアスするために導入される因子を表す。特定の例は、雑音基準信号時間周波数タイルに適用される単純なスケール因子によってこのバイアスを導入するが、多くの他の手法が可能であることが理解されよう。
実際、負値のほうへのバイアスを与えるために第1の関数f(x)及び第2の関数f(x)を構成する任意の好適なやり方が使用される。バイアスは、詳細には、前の例の場合のように、スピーチがない場合に負である差分測度の予想される値を生成するバイアスである。実際、ビームフォーミングされたオーディオ出力信号と雑音基準信号の両方がランダム雑音のみを含んでいる(たとえば、サンプル値が平均値のあたりで対称的に及びランダムに分布している)場合、差分測度の予想される値は、0ではなく負である。前の特定の例では、これは、スピーチがないときに負値を生じた過減算因子γによって達成された。
説明される考慮事項に基づくポイントオーディオソース検出器401の一例が、図11において与えられる。本例では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とは、第1の変換器901及び第2の変換器903に与えられ、第1の変換器901及び第2の変換器903は、対応する第1の周波数ドメイン信号及び第2の周波数ドメイン信号を生成する。
周波数ドメイン信号は、たとえば、たとえば時間ドメイン信号の重複するハニング窓掛けされたブロックの短時間フーリエ変換(STFT)を算出することによって、生成される。STFTは、概して、時間と周波数の両方の関数であり、2つの引数t及びωによって表され、t=kBは離散時間であり、ここで、kはフレームインデックスであり、Bはフレームシフトであり、ω=lωは(離散)周波数であり、lは周波数インデックスであり、ωは基本周波数間隔を示す。
したがって、この周波数ドメイン変換の後に、長さのベクトル
Figure 0007041156000040
及び
Figure 0007041156000041
それぞれによって表された周波数ドメイン信号が与えられる。
周波数ドメイン変換は、特定の例では、大きさユニット(magnitude unit)1101、1103に供給され、大きさユニット1101、1103は、2つの信号の大きさを決定及び出力し、すなわち、それらは、値
Figure 0007041156000042
を生成する。
他の実施形態では、他のノルムが使用され、処理は、単調関数を適用することを含む。
大きさユニット1101、1103は低域フィルタ1105に結合され、低域フィルタ1105は、大きさ値を平滑化する。フィルタ処理/平滑化は、時間ドメイン、周波数ドメイン、又は、しばしば有利にはその両方におけるものであり、すなわち、フィルタ処理は、時間次元と周波数次元の両方において拡張する。
フィルタ処理された大きさの信号/ベクトル
Figure 0007041156000043
及び
Figure 0007041156000044
は、
Figure 0007041156000045
及び
Figure 0007041156000046
とも呼ばれる。
フィルタ1105は差分プロセッサ905に結合され、差分プロセッサ905は、時間周波数タイル差分測度を決定するように構成される。特定の例として、差分プロセッサ905は、次のように時間周波数タイル差分測度を生成する。
Figure 0007041156000047
設計パラメータγは、一般に、1..2の範囲内にある。
差分プロセッサ905はポイントオーディオソース推定器907に結合され、ポイントオーディオソース推定器907は、時間周波数タイル差分測度を供給され、応答して、続いて、これらを合成することによってポイントオーディオソース推定値を決定する。
詳細には、ω=ωlowからω=ωhighの間の周波数値についての時間周波数タイル差分測度
Figure 0007041156000048
の和が、次のように決定される。
Figure 0007041156000049
いくつかの実施形態では、この値はポイントオーディオソース検出器401から出力される。他の実施形態では、決定された値は、しきい値と比較され、たとえば、ポイントオーディオソースが検出されたと考えられるか否かを示す2進値を生成するために使用される。詳細には、値e(t)は0のしきい値と比較され、すなわち、値が負である場合は、ポイントオーディオソースが検出されなかったと考えられ、値が正である場合は、ビームフォーミングされたオーディオ出力信号においてポイントオーディオソースが検出されたと考えられる。
本例では、ポイントオーディオソース検出器401は、ビームフォーミングされたオーディオ出力信号の大きさ時間周波数タイル値についての、及び雑音基準信号の大きさ時間周波数タイル値についての低域フィルタ処理/平均化を含む。平滑化は、詳細には、隣接値にわたって平均化を実行することによって実行される。たとえば、以下の低域フィルタ処理が第1の周波数ドメイン信号に適用される。
Figure 0007041156000050
ここで、(N=1の場合)Wは1/9の重みをもつ3*3行列である。他の実施形態では、もちろんNの他の値が使用され得、同様に、異なる時間間隔が使用され得ることが理解されよう。実際、フィルタ処理/平滑化がそれにわたって実行されるサイズは、たとえば周波数に応じて変動している(たとえば、より低い周波数についてよりも大きいカーネルが、より高い周波数について適用される)。
実際、フィルタ処理は、時間方向(考慮される隣接時間フレームの数)と周波数方向(考慮される隣接周波数ビンの数)の両方における好適な拡張を有するカーネルを適用することによって達成され、実際、このようなカーネルのサイズは、たとえば異なる周波数について又は異なる信号特性について変動していることが理解されよう。
また、上式においてW(m,n)によって表されるように、異なるカーネルは変動しており、これは、同様に、たとえば異なる周波数についての、又は信号特性に応答する動的変動である。
フィルタ処理は、雑音を低減し、したがってより正確な推定を与えるだけでなく、それは特に、スピーチと雑音との間の差別化をも高める。実際、フィルタ処理は、ポイントオーディオソースに対する影響よりも大幅に大きな影響を雑音に対して有し、これにより、より大きい差分が時間周波数タイル差分測度について生成されることになる。
図1のものなど、ビームフォーマについてのビームフォーミングされたオーディオ出力信号と(1つ又は複数の)雑音基準信号との間の相関は、周波数が増加するにつれて低減することがわかった。したがって、ポイントオーディオソース推定値は、しきい値を上回る周波数についての時間周波数タイル差分測度のみに応答して生成される。これにより、スピーチが存在するとき、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の無相関の増加、したがってより大きい差分が生じる。これにより、ビームフォーミングされたオーディオ出力信号におけるポイントオーディオソースの検出がより正確になる。
多くの実施形態では、500Hzを下回らない、又は、いくつかの実施形態では、有利には、1kHz、さらには2kHzを下回らない周波数についての時間周波数タイル差分測度のみに基づくようにポイントオーディオソース推定値を限定することによって、有利な性能が見つけられた。
しかしながら、いくつかの適用例又はシナリオでは、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の有意な相関は、比較的高いオーディオ周波数についてさえ残り、実際、いくつかのシナリオでは、オーディオ帯域全体について残る。
実際、理想的な球状等方性拡散雑音場では、ビームフォーミングされたオーディオ出力信号と雑音基準信号とが部分的に相関され、その結果、|Z(t,ω)|及び|X(t,ω)|の予想される値は等しくなくなり、したがって、|Z(t,ω)|は|X(t,ω)|と容易に置き換えられ得ない。
これは、理想的な球状等方性拡散雑音場の特性を見ることによって理解され得る。2つのマイクロフォンが、そのような場で距離d離れて置かれ、それぞれマイクロフォン信号U(t,ω)及びU(t,ω)を有するとき、
E{|U(t,ω)|}=E{|U(t,ω)|}=2σ
及び
Figure 0007041156000051
になり、波数
Figure 0007041156000052
(cは音速である)であり、σは、ガウス分布している、U(t,ω)及びU(t,ω)の実部及び虚部の分散である。
ビームフォーマが単純な2マイクロフォン遅延和(Delay-and-Sum)ビームフォーマであり、ブロードサイド(broadside)ビームを形成する(すなわち、遅延が0である)と仮定する。
Z(t,ω)=U(t,ω)+U(t,ω)、
及び、雑音基準信号の場合、
X(t,ω)=U(t,ω)-U(t,ω
と書くことができる。
得られた予想される値について、雑音のみが存在すると仮定すると、
Figure 0007041156000053
である。
同様に、E{|X(t,ω)|}について、
E{|X(t,ω)|}=4σ(1-sinc(kd))
が得られる。
したがって、低い周波数について、|Z(t,ω)|と|X(t,ω)|とは、等しくない。
いくつかの実施形態では、ポイントオーディオソース検出器401は、そのような相関を補償するように構成される。特に、ポイントオーディオソース検出器401は、雑音コヒーレンス推定値C(t,ω)を決定するように構成され、雑音コヒーレンス推定値C(t,ω)は、雑音基準信号の振幅とビームフォーミングされたオーディオ出力信号の雑音成分の振幅との間の相関を示す。次いで、時間周波数タイル差分測度の決定は、このコヒーレンス推定値の関数としてのものである。
実際、多くの実施形態では、ポイントオーディオソース検出器401は、ビームフォーマからのビームフォーミングされたオーディオ出力信号及び雑音基準信号についてのコヒーレンスを、予想される振幅間の比に基づいて決定するように構成される。
Figure 0007041156000054
ここで、E{.}は期待値演算子である。コヒーレンス項は、ビームフォーミングされたオーディオ出力信号における雑音成分の振幅と雑音基準信号の振幅との間の平均相関の指示である。
C(t,ω)は、マイクロフォンにおける瞬時オーディオに依存せず、代わりに、雑音音場の空間的特性に依存するので、時間の関数としてのC(t,ω)の変動は、Z及びXの時間変動よりもはるかに小さい。
その結果、C(t,ω)は、スピーチが存在しない期間中の時間にわたって|Z(t,ω)|と|X(t,ω)|とを平均化することによって、比較的正確に推定され得る。そうするための手法は、米国特許第7602926号において開示され、米国特許第7602926号は、詳細には、C(t,ω)を決定するための、明示的スピーチ検出が必要とされない方法が記載されている。
雑音コヒーレンス推定値C(t,ω)を決定するための任意の好適な手法が使用されることが理解されよう。たとえば、較正が実行され、ここで、スピーカーが話さないように命令され、第1の周波数ドメイン信号と第2の周波数ドメイン信号とが比較され、各時間周波数タイルについての雑音相関推定値C(t,ω)が、単に、第1の周波数ドメイン信号の時間周波数タイル値と第2の周波数ドメイン信号の時間周波数タイル値との平均比として決定される。理想的な球状等方性拡散雑音場の場合、コヒーレンス関数も、上記で説明された手法に従って分析的に決定され得る。
この推定値に基づいて、|Z(t,ω)|は、|X(t,ω)|だけではなく、C(t,ω)|X(t,ω)|と置き換えられ得る。これにより、時間周波数タイル差分測度が
Figure 0007041156000055
によって与えられる。
したがって、前の時間周波数タイル差分測度は、コヒーレンス関数が1の一定値に設定された、上記の差分測度の特定の例と考えられ得る。
コヒーレンス関数の使用により、本手法は、ビームフォーミングされたオーディオ出力信号と雑音基準信号との間の比較的強い相関がある周波数を含む、より低い周波数において使用されることが可能になる。
本手法は、さらに有利には、多くの実施形態では、適応キャンセラをさらに含み、適応キャンセラは、少なくとも1つの雑音基準信号と相関されるビームフォーミングされたオーディオ出力信号の信号成分をキャンセルするように構成されることが理解されよう。たとえば、図1の例と同様に、適応フィルタは、入力としての雑音基準信号を有し、その出力が、ビームフォーミングされたオーディオ出力信号から減算される。適応フィルタは、たとえば、スピーチが存在しない時間間隔中の得られた信号のレベルを最小化するように構成される。
上記の説明では、明快のために、異なる機能回路、ユニット及びプロセッサに関して本発明の実施形態について説明したことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット又はプロセッサ間の機能の任意の好適な分散が使用されることは明らかであろう。たとえば、別個のプロセッサ又はコントローラによって実行されるものとして示された機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造或いは編成を示すのではなく、説明された機能を提供するための好適な手段への言及としてのみ参照されるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組合せを含む任意の好適な形態で実装され得る。本発明は、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行しているコンピュータソフトウェアとして、オプションに実装される。本発明の一実施形態の要素及び構成要素は、物理的に、機能的に及び論理的に、任意の好適なやり方で実装される。実際、機能は、単一のユニットにおいて、複数のユニットにおいて又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットにおいて実装されるか、又は、異なるユニット、回路及びプロセッサ間で物理的に及び機能的に分散される。
本発明はいくつかの実施形態に関して説明されたが、本発明は、本明細書に記載された特定の形態に限定されるものではない。むしろ、本発明の範囲は、添付の特許請求の範囲によって限定されるにすぎない。さらに、特徴は特定の実施形態に関して説明されるように見えるが、説明された実施形態の様々な特徴が本発明に従って組み合わせられることを、当業者は認識されよう。特許請求の範囲において、備える、含む、有する(comprising)という用語は、他の要素又はステップが存在することを除外するものではない。
さらに、個々にリストされているが、複数の手段、要素、回路又は方法のステップは、たとえば単一の回路、ユニット又はプロセッサによって実施される。さらに、個々の特徴は異なる請求項に含まれるが、これらは、場合によっては、有利に組み合わせられ、異なる請求項に含むことは、特徴の組合せが実現可能及び/又は有利でないことを暗示するものではない。また、請求項の1つのカテゴリーに特徴を含むことは、このカテゴリーの限定を暗示するものではなく、むしろ、特徴が、適宜に、他の請求項のカテゴリーに等しく適用可能であることを示すものである。さらに、請求項における特徴の順序は、特徴が動作されなければならない特定の順序を暗示するものではなく、特に、方法クレームにおける個々のステップの順序は、ステップがこの順序で実行されなければならないことを暗示するものではない。むしろ、ステップは、任意の好適な順序で実行される。さらに、単数形の言及は、複数を除外しない。したがって、「a」、「an」、「第1の」、「第2の」などへの言及は、複数を排除しない。特許請求の範囲中の参照符号は、明快にする例として与えられたにすぎず、いかなる形でも、特許請求の範囲を限定するものと解釈されるべきでない。

Claims (14)

  1. オーディオをキャプチャするための装置であって、前記装置は、
    マイクロフォンアレイと、
    前記マイクロフォンアレイに結合され、第1のビームフォーミングされたオーディオ出力を生成する、第1のビームフォーマと、
    前記マイクロフォンアレイに結合され、各々が制約付きのビームフォーミングされたオーディオ出力を生成する、複数の制約付きビームフォーマと、
    前記第1のビームフォーマのビームフォームパラメータを適応させるための第1の適応器と、
    前記複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるための第2の適応器と、
    前記複数の制約付きビームフォーマのうちの少なくとも1つについての差分測度を決定するための差分プロセッサであって、前記差分測度が、前記第1のビームフォーマによって形成されたビームと前記複数の制約付きビームフォーマのうちの前記少なくとも1つによって形成されたビームとの間の差分を示す、差分プロセッサと
    を備え、
    前記第2の適応器は、類似性基準を満たす差分測度が決定された前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ、前記制約付きビームフォームパラメータが適応されるという制約で、前記制約付きビームフォームパラメータを適応させ、
    前記差分プロセッサは、パラメータの第1のセットと第1の制約付きビームフォーマについてのパラメータの制約付きセットとの間の差分として、前記第1の制約付きビームフォーマについての差分測度を決定する、装置。
  2. 前記装置は、第2のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出するためのオーディオソース検出器をさらに備え、前記第2の適応器は、前記制約付きのビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在が検出された制約付きビームフォーマについてのみ制約付きビームフォームパラメータを適応させる、請求項1に記載の装置。
  3. 前記オーディオソース検出器はさらに、前記第1のビームフォーミングされたオーディオ出力においてポイントオーディオソースを検出し、前記装置は、ポイントオーディオソースが、前記第1のビームフォーミングされたオーディオ出力において検出されたが、いかなる制約付きのビームフォーミングされたオーディオ出力においても検出されなかった場合、前記第1のビームフォーマのビームフォームパラメータに応答して第1の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するコントローラをさらに備える、請求項2に記載の装置。
  4. 前記コントローラは、前記第1の制約付きビームフォーマについての差分測度がしきい値を超える場合のみ、前記第1のビームフォーマの前記ビームフォームパラメータに応答して前記第1の制約付きビームフォーマについての前記制約付きビームフォームパラメータを設定する、請求項3に記載の装置。
  5. 前記オーディオソース検出器はさらに、前記第1のビームフォーミングされたオーディオ出力においてオーディオソースを検出し、前記装置は、ポイントオーディオソースが、前記第1のビームフォーミングされたオーディオ出力と、第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力とにおいて検出され、前記第1の制約付きビームフォーマについてしきい値を超える差分測度が決定された場合、前記第1のビームフォーマの前記ビームフォームパラメータに応答して前記第1の制約付きビームフォーマについての制約付きビームフォームパラメータを設定するコントローラをさらに備える、請求項2乃至4の何れか一項に記載の装置。
  6. 前記複数の制約付きビームフォーマは、制約付きビームフォーマのプールから選択された制約付きビームフォーマのアクティブサブセットであり、前記コントローラは、前記第1のビームフォーマの前記ビームフォームパラメータを使用して前記制約付きビームフォーマのプールからの制約付きビームフォーマを初期化することによって、前記第1の制約付きビームフォーマを含めるためにアクティブ制約付きビームフォーマの数を増加させる、請求項5に記載の装置。
  7. 前記第2の適応器はさらに、
    第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力のレベルが、任意の他の第2のビームフォーミングされたオーディオ出力についてのレベルよりも高いという要件と、
    第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力におけるポイントオーディオソースのレベルが、任意の他の第2のビームフォーミングされたオーディオ出力における任意のポイントオーディオソースよりも高いという要件と、
    第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力についての信号対雑音比がしきい値を超えるという要件と、
    第1の制約付きビームフォーマからの第2のビームフォーミングされたオーディオ出力がスピーチ成分を含むという要件と
    のグループから選択された少なくとも1つの要件を含む基準が満たされた場合のみ、前記第1の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させる、請求項1乃至6の何れか一項に記載の装置。
  8. 前記第1のビームフォーマについての適応レートは、前記複数の制約付きビームフォーマについての適応レートよりも高い、請求項1乃至7の何れか一項に記載の装置。
  9. 前記第1のビームフォーマと前記複数の制約付きビームフォーマとは、フィルタ合成ビームフォーマである、請求項1乃至8の何れか一項に記載の装置。
  10. 前記第1のビームフォーマは、各々が第1の適応インパルス応答を有する第1の複数のビームフォームフィルタを備えるフィルタ合成ビームフォーマであり、前記複数の制約付きビームフォーマのうちの制約付きビームフォーマである第2のビームフォーマは、各々が第2の適応インパルス応答を有する第2の複数のビームフォームフィルタを含むフィルタ合成ビームフォーマであり、前記差分プロセッサは、前記第1の適応インパルス応答と前記第2の適応インパルス応答との比較に応答して前記第1のビームフォーマのビームと前記第2のビームフォーマのビームとの間の差分測度を決定する、請求項1乃至9の何れか一項に記載の装置。
  11. ビームフォーミングされたオーディオ出力信号と少なくとも1つの雑音基準信号とを生成する雑音基準ビームフォーマであって、前記第1のビームフォーマ及び前記複数の制約付きビームフォーマのうちの一方である、雑音基準ビームフォーマと、
    前記ビームフォーミングされたオーディオ出力信号の周波数変換から第1の周波数ドメイン信号を生成するための第1の変換器であって、前記第1の周波数ドメイン信号が時間周波数タイル値によって表される、第1の変換器と、
    前記少なくとも1つの雑音基準信号の周波数変換から第2の周波数ドメイン信号を生成するための第2の変換器であって、前記第2の周波数ドメイン信号が時間周波数タイル値によって表される、第2の変換器と、
    時間周波数タイル差分測度を生成する差分プロセッサであって、第1の周波数についての時間周波数タイル差分測度が、前記第1の周波数についての前記第1の周波数ドメイン信号の時間周波数タイル値のノルムの第1の単調関数と前記第1の周波数についての前記第2の周波数ドメイン信号の時間周波数タイル値のノルムの第2の単調関数との間の差分を示す、差分プロセッサと、
    前記ビームフォーミングされたオーディオ出力信号がポイントオーディオソースを含むかどうかを示すポイントオーディオソース推定値を生成するためのポイントオーディオソース推定器であって、周波数しきい値を上回る周波数についての時間周波数タイル差分測度についての合成された差分値に応答して前記ポイントオーディオソース推定値を生成する、ポイントオーディオソース推定器と
    を備える、請求項1に記載の装置。
  12. 前記ポイントオーディオソース推定器は、前記合成された差分値がしきい値を超えることに応答して、前記ビームフォーミングされたオーディオ出力においてポイントオーディオソースの存在を検出する、請求項11に記載の装置。
  13. オーディオをキャプチャする方法であって、前記方法は、
    マイクロフォンアレイに結合された第1のビームフォーマが、第1のビームフォーミングされたオーディオ出力を生成するステップと、
    前記マイクロフォンアレイに結合された複数の制約付きビームフォーマが、制約付きのビームフォーミングされたオーディオ出力を生成するステップと、
    前記第1のビームフォーマのビームフォームパラメータを適応させるステップと、
    前記複数の制約付きビームフォーマについての制約付きビームフォームパラメータを適応させるステップと、
    前記複数の制約付きビームフォーマのうちの少なくとも1つについての差分測度を決定するステップであって、前記差分測度が、前記第1のビームフォーマによって形成されたビームと複前記数の制約付きビームフォーマのうちの前記少なくとも1つによって形成されたビームとの間の差分を示す、決定するステップと
    を有し、
    前記制約付きビームフォームパラメータを適応させるステップは、類似性基準を満たす差分測度が決定された前記複数の制約付きビームフォーマのうちの制約付きビームフォーマについてのみ、前記制約付きビームフォームパラメータが適応されるという制約で、前記制約付きビームフォームパラメータを適応させるステップを有し、
    差分プロセッサが、パラメータの第1のセットと第1の制約付きビームフォーマについてのパラメータの制約付きセットとの間の差分として前記第1の制約付きビームフォーマについての差分測度を決定する、
    方法。
  14. コンピュータ上で動作するときに、請求項13に記載の方法の全てのステップを実行するコンピュータプログラムコード手段を含む、コンピュータプログラム。
JP2019535783A 2017-01-03 2017-12-28 ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 Active JP7041156B6 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17150098 2017-01-03
EP17150098.6 2017-01-03
PCT/EP2017/084679 WO2018127447A1 (en) 2017-01-03 2017-12-28 Method and apparatus for audio capture using beamforming

Publications (3)

Publication Number Publication Date
JP2020503780A JP2020503780A (ja) 2020-01-30
JP7041156B2 true JP7041156B2 (ja) 2022-03-23
JP7041156B6 JP7041156B6 (ja) 2022-05-31

Family

ID=57777500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535783A Active JP7041156B6 (ja) 2017-01-03 2017-12-28 ビームフォーミングを使用するオーディオキャプチャのための方法及び装置

Country Status (7)

Country Link
US (1) US10771894B2 (ja)
EP (1) EP3566461B1 (ja)
JP (1) JP7041156B6 (ja)
CN (1) CN110140360B (ja)
BR (1) BR112019013555A2 (ja)
RU (1) RU2760097C2 (ja)
WO (1) WO2018127447A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
GB2578715A (en) * 2018-07-20 2020-05-27 Nokia Technologies Oy Controlling audio focus for spatial audio processing
CN108932949A (zh) * 2018-09-05 2018-12-04 科大讯飞股份有限公司 一种参考信号获取方法及装置
US11277685B1 (en) * 2018-11-05 2022-03-15 Amazon Technologies, Inc. Cascaded adaptive interference cancellation algorithms
US11404073B1 (en) * 2018-12-13 2022-08-02 Amazon Technologies, Inc. Methods for detecting double-talk
GB2584629A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
CN110517703B (zh) * 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质
CN111814688B (zh) * 2020-07-09 2023-10-13 成都傅立叶电子科技有限公司 基于FFTc的数字波束形成角度捕获方法及装置、存储介质
CN112466326B (zh) * 2020-12-14 2023-06-20 江苏师范大学 一种基于transformer模型编码器的语音情感特征提取方法
EP4250767A1 (en) * 2022-03-21 2023-09-27 GN Audio A/S Microphone apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007013525A1 (ja) 2005-07-26 2007-02-01 Honda Motor Co., Ltd. 音源特性推定装置
JP2011119898A (ja) 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 音声取得装置、音声取得方法、音声取得プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146012B1 (en) * 1997-11-22 2006-12-05 Koninklijke Philips Electronics N.V. Audio processing arrangement with multiple sources
DE60042335D1 (de) * 1999-12-24 2009-07-16 Koninkl Philips Electronics Nv Mehrkanal-audiosignalverarbeitungsgerät
DE60129955D1 (de) * 2000-05-26 2007-09-27 Koninkl Philips Electronics Nv Verfahren und gerät zur akustischen echounterdrückung mit adaptiver strahlbildung
JP4689269B2 (ja) 2002-07-01 2011-05-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 静的スペクトルパワー依存型音響強調システム
US20050147258A1 (en) * 2003-12-24 2005-07-07 Ville Myllyla Method for adjusting adaptation control of adaptive interference canceller
CN101218848B (zh) * 2005-07-06 2011-11-16 皇家飞利浦电子股份有限公司 用于声束形成的设备和方法
US8112272B2 (en) * 2005-08-11 2012-02-07 Asashi Kasei Kabushiki Kaisha Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
KR101572793B1 (ko) * 2008-06-25 2015-12-01 코닌클리케 필립스 엔.브이. 오디오 처리
EP2146519B1 (en) * 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
US8401206B2 (en) * 2009-01-15 2013-03-19 Microsoft Corporation Adaptive beamformer using a log domain optimization criterion
US8644517B2 (en) * 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
US9215527B1 (en) * 2009-12-14 2015-12-15 Cirrus Logic, Inc. Multi-band integrated speech separating microphone array processor with adaptive beamforming
US20130304476A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
CN102969002B (zh) * 2012-11-28 2014-09-03 厦门大学 一种可抑制移动噪声的麦克风阵列语音增强装置
CN103856871B (zh) * 2012-12-06 2016-08-10 华为技术有限公司 麦克风阵列采集多声道声音的装置及其方法
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US20140278395A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Determining a Motion Environment Profile to Adapt Voice Recognition Processing
TR201815883T4 (tr) 2014-03-17 2018-11-21 Anheuser Busch Inbev Sa Gürültü bastırılması.
US20150379990A1 (en) 2014-06-30 2015-12-31 Rajeev Conrad Nongpiur Detection and enhancement of multiple speech sources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007013525A1 (ja) 2005-07-26 2007-02-01 Honda Motor Co., Ltd. 音源特性推定装置
JP2011119898A (ja) 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 音声取得装置、音声取得方法、音声取得プログラム

Also Published As

Publication number Publication date
US20200145752A1 (en) 2020-05-07
JP2020503780A (ja) 2020-01-30
EP3566461A1 (en) 2019-11-13
BR112019013555A2 (pt) 2020-01-07
US10771894B2 (en) 2020-09-08
RU2019124546A3 (ja) 2021-05-05
RU2019124546A (ru) 2021-02-05
CN110140360A (zh) 2019-08-16
EP3566461B1 (en) 2021-11-24
CN110140360B (zh) 2021-07-16
JP7041156B6 (ja) 2022-05-31
WO2018127447A1 (en) 2018-07-12
RU2760097C2 (ru) 2021-11-22

Similar Documents

Publication Publication Date Title
JP7041156B2 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
JP7041157B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP6644959B1 (ja) ビームフォーミングを使用するオーディオキャプチャ
US8891785B2 (en) Processing signals
WO2013049738A2 (en) Processing signals
JP6665353B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
Wang et al. Speech Enhancement Using Multi‐channel Post‐Filtering with Modified Signal Presence Probability in Reverberant Environment
Xiong et al. A study on joint beamforming and spectral enhancement for robust speech recognition in reverberant environments
Yong et al. Incorporating multi-channel Wiener filter with single-channel speech enhancement algorithm
US11425495B1 (en) Sound source localization using wave decomposition
Braun et al. Directional interference suppression using a spatial relative transfer function feature
Chodingala et al. Robustness of DAS Beamformer Over MVDR for Replay Attack Detection On Voice Assistants

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220310

R150 Certificate of patent or registration of utility model

Ref document number: 7041156

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150