JP6335985B2 - マルチセンサ音源定位 - Google Patents
マルチセンサ音源定位 Download PDFInfo
- Publication number
- JP6335985B2 JP6335985B2 JP2016161417A JP2016161417A JP6335985B2 JP 6335985 B2 JP6335985 B2 JP 6335985B2 JP 2016161417 A JP2016161417 A JP 2016161417A JP 2016161417 A JP2016161417 A JP 2016161417A JP 6335985 B2 JP6335985 B2 JP 6335985B2
- Authority
- JP
- Japan
- Prior art keywords
- sensor
- sound source
- signal
- sound
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004807 localization Effects 0.000 title description 10
- 238000000034 methods Methods 0.000 claims description 61
- 230000004044 response Effects 0.000 claims description 58
- 238000007476 Maximum Likelihood Methods 0.000 claims description 19
- 238000004364 calculation methods Methods 0.000 claims description 6
- 230000000875 corresponding Effects 0.000 claims description 5
- 230000001747 exhibiting Effects 0.000 claims description 5
- 230000010255 response to auditory stimulus Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 description 18
- 238000005516 engineering processes Methods 0.000 description 17
- 239000011159 matrix materials Substances 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 8
- 239000000203 mixtures Substances 0.000 description 7
- 238000006243 chemical reactions Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagrams Methods 0.000 description 6
- 239000000562 conjugates Substances 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 230000002596 correlated Effects 0.000 description 2
- 230000003111 delayed Effects 0.000 description 2
- 230000000051 modifying Effects 0.000 description 2
- 230000003287 optical Effects 0.000 description 2
- 280001018231 Memory Technology companies 0.000 description 1
- 238000004458 analytical methods Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000969 carriers Substances 0.000 description 1
- 239000002131 composite materials Substances 0.000 description 1
- 238000007796 conventional methods Methods 0.000 description 1
- 230000001808 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reactions Methods 0.000 description 1
- 230000001419 dependent Effects 0.000 description 1
- 238000005755 formation reactions Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000010950 nickel Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000002104 routine Effects 0.000 description 1
- 230000003595 spectral Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Description
マイクロホンアレイを用いる音源定位(SSL:sound source localization)が、人間とコンピュータの相互作用及びインテリジェントルームのような多くの重要な適用例で使用されている。多数のSSLアルゴリズムが、異なる程度の精度及び計算の複雑性で、提示されている。例えば、電話会議のような広帯域音源定位の適用例では、幾つかのSSL技術が普及している。これらには、制御型ビームフォーマ(SB:steered−beamfomer)、高解像度スペクトル推定、到着遅延時間(TDOA:time delay of arrival)、及び学習ベースの技術が含まれる。
TDOAアプローチに関して、大部分の既存のアルゴリズムでは、マイクロホンアレイ内の各音声センサ対を取り、その音声センサの相互相関関数を計算する。その環境内の残響と雑音を補償するために、しばしば相関を求める前に重み付け関数が使用される。幾つかの重み付け関数が試行されている。それらの中には最尤(ML)重み付け関数がある。
しかし、これらの既存のTDOAアルゴリズムは、音声センサの対に対して最適な重みを見つけるように設計されている。複数のセンサ対がマイクロホンアレイに存在するときは、センサ対は独立で、それらの尤度を乗算できることが仮定される。センサ対が真に独立であることは一般にはないので、このアプローチは疑問である。従って、これらの既存のTDOAアルゴリズムは、複数の音声センサ対を有するマイクロホンアレイに対しては正確なMLアルゴリズムを表さない。
本発明のマルチセンサ音源定位(SSL)技術では、複数の音声センサ対を有するマイクロホンアレイに対して正確な最尤(ML)処理を提供する。この技術は、残響及び環境雑音を示す環境内の音源が発する音を拾うように配置したマイクロホンアレイの各音声センサによって出力される信号を用いて、音源の位置を推定する。一般に、これは、アレイ内の全てのセンサから入力された音声センサ出力信号が同時に生成される尤度を最大化する、音源からアレイの音声センサへの伝播時間をもたらす音源の位置を選択することで実現される。尤度は、センサ各々の音源信号に対する未知の音声センサ応答を推定する一意の項を含む。
「背景技術」の項で説明した既存のSSL技術における前述の欠点は、本発明によるマルチセンサSSL技術の特定の実装で解決することができるが、この実装は述べた欠点のいずれか又は全てを解決するだけの実装に限定されることは決してないことに留意されたい。そうではなく、後に続く説明から明らかになるように、本発明の技術の適用範囲はそれよりかなり広い。
本「発明の概要」は、後の「発明を実施するための形態」でさらに説明する選択した概念を、簡潔な形で導入するために提供していることにも留意されたい。本「発明の概要」は、特許請求の範囲に記載されている主題の主要な機能又は本質的な機能を特定することは意図しておらず、特許請求の範囲に記載されている主題の範囲を決定する際の補助として使用することも意図していない。今説明した利益に加えて、本発明の他の利点は、添付の図面と併せて考慮するとき、後に続く発明を実施するための形態から明らかになるであろう。
本発明の具体的な機能、態様、及び利点は、以下の説明、添付の特許請求の範囲、及び付属の図面に関してより良く理解されよう。
以下の本発明の実施形態の説明では、その説明の一部を構成する付属図面への参照がなされる。図面では、例として、本発明を実施できる具体的な実施形態を示してある。他の実施形態を利用してもよく、本発明の範囲を逸脱しなければ構造的な変更を加えてもよいことは理解されよう。
1.0 コンピューティング環境
本発明のマルチセンサSSL技術の実施形態の説明を提供する前に、この実施形態の一部を実装できる適切なコンピューティング環境の、簡潔且つ一般的な説明を行う。本発明のマルチセンサSSL技術は、多数の汎用目的又は特殊目的のコンピューティングシステム環境又は構成で動作可能である。適切である可能性がある公知なコンピューティングシステム、環境、及び/又は構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システム又は装置のいずれかを含む分散コンピューティング環境、等が含まれるが、これらに限らない。
図1は、適切なコンピューティングシステム環境の例を示す。このコンピューティングシステム環境は、適切なコンピューティング環境の一例に過ぎず、本発明のマルチセンサSSL技術の使用範囲又は機能範囲に関するいかなる限定を示唆することも意図していない。また、このコンピューティング環境は、例示的な動作環境で示した構成要素のいずれか1つ又はその組合せに関していかなる依存性又は要件を有するとも解釈すべきではい。図1を参照すると、本発明のマルチセンサSSL技術を実装する例示的なシステムは、コンピューティング装置100のようなコンピューティング装置を含む。その最も基本的な構成では、コンピューティング装置100は、一般に少なくとも1つの処理装置102とメモリ104とを含む。コンピューティング装置の正確な構成と種類に応じて、メモリ104は、(RAMのような)揮発性、(ROM、フラッシュメモリ、等のような)不揮発性、又はその2つの何らかの組合せであることができる。この最も基本的な構成を図1では点線106で示す。さらに、装置100は追加の機能/機能性を有してもよい。例えば、装置100は、追加の(取外し可能及び/又は取外し不能な)記憶装置を含むこともできる。この記憶装置には、磁気ディスクもしくは光ディスク又はテープが含まれるがこれらに限らない。係る追加の記憶装置を、図1では取外し可能記憶装置108及び取外し不能記憶装置110で示す。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような情報を記憶するための任意の方法又は技術で実装した揮発性及び不揮発性媒体、取外し可能及び取外し不能媒体が含まれる。メモリ104、取外し可能記憶装置108及び取外し不能記憶装置110は全てコンピュータ記憶媒体の例である。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、DVD(dgital versatile disk)もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、又は所望の情報の記憶に使用可能で装置100がアクセス可能な他の任意の媒体が含まれるが、これらに限らない。係る任意のコンピュータ記憶媒体は装置100の一部であることができる。
装置100は、この装置が他の装置と通信するのを可能にする通信接続112を含むこともできる。通信接続112は、通信媒体の例である。通信媒体は、一般にコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを、搬送波又は他の伝送機構のような変調データ信号で具体化し、任意の情報配信媒体を含む。「変調データ信号」という用語は、その1つ又は複数の特性集合を有するか、又は信号内の情報を符号化するように変化した信号を意味する。限定ではなく例として、通信媒体には、有線ネットワーク又は直接有線接続のような有線媒体、ならびに音響、RF、赤外線及び他の無線媒体のような無線媒体が含まれる。本明細書で使用するコンピュータ可読媒体という用語は、記憶媒体と通信媒体の両方を含む。
装置100は、キーボード、マウス、ペン、音声入力装置、タッチ入力装置、カメラ、等のような入力装置114も有することができる。ディスプレイ、スピーカ、プリンタ、等のような出力装置116も含めることができる。これらの装置は全て当分野で公知であり、ここで詳細に説明する必要はない。
特筆すべきは、装置100が複数の音声センサを有するマイクロホンアレイ118を含み、その各々は音を捕捉し、捕捉した音を代表する出力信号を生成できることである。音声センサの出力信号は、適切なインタフェース(図示せず)を介して装置100に入力される。しかし、マイクロホンアレイの使用を必要とせずに、音声データを同様に任意のコンピュータ可読媒体から装置100へ入力することもできることに留意されたい。
本発明のマルチセンサSSL技術を、プログラムモジュールのような、コンピュータ装置により実行されるコンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造、等が含まれる。本発明のマルチセンサSSL技術を、通信ネットワークを通して接続したリモート処理装置によりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルコンピュータの記憶媒体とリモートコンピュータの記憶媒体との両方に配置することができる。
例示的な動作環境を説明してきたので、この発明を実施するための形態の残りの部分は、専ら、本発明のマルチセンサSSL技術を具体化するプログラムモジュールに関する説明に充てる。
2.0 マルチセンサ音源定位(SSL)
本発明のマルチセンサ音源定位(SSL)技術は、残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した複数の音声センサを有するマイクロホンアレイにより出力される信号を用いて、音源の位置を推定する。図2を参照すると、一般に本発明の技術は、このアレイ内の各音声センサからの出力信号をまず入力することを伴う(200)。次に、全ての入力した音声センサ出力信号が同時に生成される尤度を最大化する、音源から音声センサへの伝播時間をもたらすこととなる音源の位置を選択する(202)。次に、選択した位置を、推定音源位置として指定する(204)。
本技術、及び特に前述の音源位置の選択方法を以下の節でより詳細に説明する。既存のアプローチの数学的説明から始める。
2.1 既存のアプローチ
P個の音声センサからなるアレイを考える。音源s(t)が与えられると、これらのセンサで受信される信号を次のようにモデル化することができる。
ここで、i=1,・・・,Pはセンサのインデックスであり、τiは音源位置からi番目のセンサ位置までの伝播時間であり、αiは信号の伝播エネルギー減衰、対応するセンサの利得、音源及びセンサの指向性、ならびに他の因子を含む音声センサの応答係数であり、ni(t)はi番目のセンサにより感知された雑音であり、
は、しばしば残響と呼ばれる、環境応答関数と音源信号との間の畳み込みを表す。通常は、周波数領域で作業をする方がより効率的である。周波数領域では上記モデルを次のように書き換えることができる。
従って、図3に示すように、アレイ内の各センサに対して、音源が発する音に応答して音声センサにより生成され、遅延副成分e-jωτ304及び振幅副成分α(ω)306を含むセンサ応答により修正される音源信号S(ω)302と、音源が発する音の残響に応答して音声センサにより生成される残響雑音信号H(ω)308と、環境雑音に応答して音声センサにより生成される環境雑音信号N(ω)310との組合せとして、センサの出力X(ω)300を特徴付けることができる。
最も分かりやすいSSL技術は、センサの各対を取って、このセンサの相互相関関数を計算することである。例えば、センサiとkで受信した信号間の相関は次のようになる。
上の相関を最大化するτが2つの信号間の推定時間遅延である。実際には、次のように上の相互相関関数を周波数領域でより効率的に計算することができる。
ここで、*は複素共役を表す。式(2)を式(4)に当てはめ、残響項を無視し、雑音と音源信号が独立であると仮定すると、上記相関を最大化するτはτi−τkとなり、これは2つのセンサ間の実際の遅延である。3つ以上のセンサを考えると、全ての可能なセンサの対に対して総和を取ると次式が得られる。
一般的に行われることは、仮説検定を通して上記相関を最大化することである。この場合、sは仮定した音源位置であり、右辺のτiを決定する。式(6)はマイクロホンアレイの制御型応答電力(SRP:steered response power)としても知られている。
SSLの精度に影響を及ぼす可能性のある残響及び雑音に対処するため、相関を求める前に重み付け関数を加えることが非常に有用であることが分かっている。従って、式(5)は次のように書き換えられる。
幾つかの重み付け関数が試みられてきた。そのうち、次式で定義される経験則ベースのPHAT重み付けが、現実的な音響条件下で非常に良く動作することが分かっている。
式(8)を式(7)に代入すると次式が得られる。
このアルゴリズムはSRP-PHATと呼ばれている。重み付け及び総和の数が式(7)内のP2個からP個に減るので、SRP-PHATは計算するのに非常に効率的であることを留意されたい。
より理論的に信頼できる重み付け関数は、最尤(ML)定式化であり、高い信号対雑音比と残響がないことが仮定される。センサ対の重み付け関数は次式のように定義される。
式(10)を式(7)に代入してMLベースのアルゴリズムを得ることができる。このアルゴリズムは、環境雑音に対して堅牢であることが知られているが、残響がその導出中にモデル化されないため、実世界の適用では性能が比較的劣る。改良版では残響を明確に考慮している。この残響は、別の種類の雑音として扱われる。すなわち、
である。ここで、
は結合雑音又は総雑音である。次に、式(11)を式(10)に代入する(Ni(ω)を
で置換して新規の重み付け関数を得る)。さらに式(11)を幾分近似すると、
となる。この式の計算効率はSRP-PHATに近い。
2.2 本発明の技術
式(10)から導出したアルゴリズムは正確なMLアルゴリズムではないことに留意されたい。これは、式(10)中の最適な重みが2つのセンサに対してしか導出されないからである。3つ以上のセンサを使用するときは、式(7)の採用はセンサ対が独立でありそれらの尤度を乗算できることを仮定するが、これは疑問である。本発明のマルチセンサSSL技術は複数の音声センサの場合に対して正確なMLアルゴリズムであり、これを次に説明する。
前述のように、本発明のマルチセンサSSLは、入力された音声センサ出力信号を生成する尤度を最大化する、音源から音声センサへの伝播時間をもたらす音源の位置を選択することを伴う。このタスクを実行する技術の一実施形態を図4A-Bに概説する。本技術は、マイクロホンアレイ内の各音声センサからの信号出力を信号成分の組合せとして特徴付けることに基づく。これらの成分は、音源が発する音に応答して音声センサにより生成され、遅延副成分と振幅副成分とを含むセンサ応答により修正される音源信号を含む。また、音源が発した音の残響に応答して音声センサにより生成される残響雑音信号がある。さらに、環境雑音に応答して音声センサにより生成される環境雑音信号がある。
前述の特徴づけが与えられると、本技術は、音声センサ出力信号の各々に対してセンサ応答の振幅副成分、残響雑音、及び環境雑音を測定又は推定することにより開始する(400)。環境雑音に関して、これを音響信号の無音期間に基づいて推定することができる。これらは、音源及び残響雑音の信号成分を含まないセンサ信号の部分である。残響雑音に関して、これを、推定した環境雑音信号より少ない所定の割合のセンサ出力信号として推定することができる。この所定の割合は一般に、典型的には環境内で遭遇する音の残響に起因するセンサ出力信号の割合であり、環境の状況に依存する。例えば、この所定の割合は、環境が音を吸収するときは小さく、音源がマイクロホンアレイ近傍にあると予想されるときは小さい。
次に、一組の候補音源位置を定める(402)。この候補位置の各々は、可能な音源の位置を表す。この最後のタスクは、様々な方法で行うことができる。例えば、この位置を、マイクロホンアレイを取り囲んでいる標準的なパターンで選択することができる。1つの実装では、これを、アレイの音声センサにより定義される平面内に位置する、半径が増大していく一組の同心円の各々の周りの、一定間隔にある点を選択することで達成する。候補位置を定める方法の別の例では、音源が一般に存在することが分かっている、アレイを取り囲む環境の領域中で位置を選択することを伴う。例えば、マイクロホンアレイからの音源の方向を発見する従来の方法を使用することができる。いったん方向が決まると、環境内のその一般的な方向にある領域中で候補位置が選択される。
本技術は、続いて以前に未選択であった候補音源位置を選択する(404)。次に、選択した候補位置が実際の音源位置であったならば現れたであろうセンサ応答遅延副成分を、音声センサ出力信号の各々に対して推定する(406)。音声センサの遅延副成分は音源からセンサまでの伝播時間に依存することに留意されたい。これは後でさらに詳細に説明する。この遅延副成分が与えられ、各音声センサの位置を前もって知っていると仮定すると、各候補音源位置から音声センサの各々への音の伝播時間を計算することができる。センサ応答遅延副成分を推定するために使用されるのは、この伝播時間である。
センサ応答の副成分、すなわち、音声センサ出力信号の各々に関連する残響雑音及び環境雑音に対して測定値又は推定値が与えられると、(センサの応答により修正されていなければ)選択した候補位置にある音源が発する音に応答して各音声センサにより生成されるであろう音源信号を、前述した音声センサの出力信号の特徴付けに基づいて推定する(408)。次にこれらの測定及び推定した成分を使用して、選択した候補音源位置に対して各音声センサの推定センサ出力信号を計算する(410)。これを再度、前述の信号の特徴付けを用いて行う。次に、任意の残っている未選択の候補音源位置があるかどうかを判定する(412)。残っていれば、全ての候補位置が考慮され、推定される音声センサ出力信号が各センサ及び各候補音源位置に対して計算されるまで、動作404から412を繰り返す。
推定される音声センサ出力信号を計算した後、どの候補音源位置がセンサの実際のセンサ出力信号に最も近い音声センサからの一組の推定センサ出力信号を生成するかを次に確認する(414)。この最も近い組を生成する位置を、入力された音声センサ出力信号を生成する尤度を最大化する前述の選択された音源位置として指定する(416)。
数学的な表現では、上述の技術を以下のように記述することができる。まず、式(2)を次式のようにベクトル形に書き換える。
ここで、
である。
これらの変数のうち、X(ω)は受信信号を表し、既知である。後で詳述するが、G(ω)をSSLプロセス中に推定又は仮定することができる。残響項S(ω)H(ω)は未知であり、別の種類の雑音として扱う。
上記モデルを数学的に扱いやすくするため、結合総雑音(combined total noise)
がゼロ平均の、周波数間で独立な、結合ガウシアン分布に従うと仮定する。すなわち、
である。ここでρは定数であり、上付き文字Hはエルミート転置を表し、Q(ω)は共分散行列を表す。Q(ω)は次式で推定することができる。
ここで、雑音及び残響が無相関であると仮定する。式(16)の第1項は、前述の音響信号の無音期間から直接推定することができる。すなわち、
である。ここで、kは、無音である音声フレームのインデックスである。室内のコンピュータのファンにより生成されるもののような、異なるセンサで受信した背景雑音は相関してもよいことに留意されたい。この雑音が異なるセンサで独立であると考えられる場合、式(16)の第1項を対角行列としてさらに簡略化することができる。すなわち、
である。
式(16)の第2項は残響に関係する。この第2項は一般に未知である。近似として、第2項が対角行列、すなわち、
とし、i番目の対角要素を
と仮定する。ここで、0<γ<1は経験的な雑音パラメータである。検証された本技術の実施形態において、γは環境の残響特性に応じて約0.1から約0.5の間に設定したことに留意されたい。式(20)では残響エネルギーが総受信信号エネルギーと環境雑音エネルギーとの差分の一部であると仮定していることにも留意されたい。同じ仮定を式(11)でも使用した。通常は異なるセンサで受信した残響信号は相関し、行列はゼロでない非対角要素を有するはずであるので、式(19)は近似であることに再度留意されたい。残念ながら、現実の残響信号又はこれらの非対角要素を実際に推定することは一般に非常に難しい。以降の分析では、Q(ω)を使用して雑音共分散行列を表す。従って、行列がゼロでない非対角要素を含むときでもその導出が可能である。
共分散行列Q(ω)を既知の信号から計算又は推定できるとき、受信信号の尤度を次のように書くことができる。
ここで、
かつ
である。
本発明のSSL技術は、観測結果X(ω)、センサ応答行列G(ω)及び雑音共分散行列Q(ω)が与えられれば、上記尤度を最大化する。センサ応答行列G(ω)には音源がどこから来るかに関する情報が必要であり、従って通常は仮説検定を通して最適化を解くことに留意されたい。すなわち、音源位置に関して仮説を立て、G(ω)を与える。次に尤度を測定する。最高の尤度をもたらす仮説をSSLアルゴリズムの出力と判定する。
式(21)において尤度を最大化する代わりに、以下の負の対数尤度、すなわち、
を最小化することができる。
周波数上では確率は互いに独立であると仮定しているので、未知の変数S(ω)を変化させることで各J(ω)を別々に最小化することができる。Q-1(ω)がエルミート対称行列、すなわち、Q-1(ω)=Q-H(ω)であるとすると、S(ω)上でJ(ω)の微分を取ってゼロに設定すれば、次式が得られる。
従って、
である。次に、上のS(ω)をJ(ω)に代入すると、
となる。ここで、
である。
J1(ω)は仮説検定中に仮定した位置とは関係しないことに留意されたい。従って、本発明のMLベースのSSL技術は次式を最大化するのみである。
式(26)により、J2を次式のように書き換えることができる。
分母[GH(ω)Q-1(ω)G(ω)]-1をMVDRビーム形成後の残差雑音電力として示すことができる。従って、このMLベースのSSLは、複数のMVDRビームフォーマに複数の仮説方向に沿ってビーム形成させ、その出力方向を信号対雑音比が最大となる方向として取得させた場合と同様である。
次に、センサ内の雑音が独立であり、従ってQ(ω)が対角行列であると仮定する。すなわち、
であり、i番目の対角要素は
のようになる。
従って、式(30)は
と書くことができる。
幾つかの適用例では、センサ応答係数αi(ω)を正確に測定することができる。この係数が未知である適用例では、係数が正の実数であって次式のように推定できると仮定することができる。
ここで、両辺は、結合雑音(雑音及び残響)がない、センサiで受信した信号の電力を表す。従って、
となる。
式(36)を式(34)に代入すると、
が得られる。
本技術は、周波数依存の重み付けが追加される点で式(10)のMLアルゴリズムとは異なることに留意されたい。本技術はより厳密な導出であり、複数のセンサ対に対して正確なML技術である。
前述のように、本技術はどの候補音源位置が実際のセンサ出力信号に最も近い音声センサからの一組の推定センサ出力信号を生成するか確認することを伴う。式(34)及び(37)は、最も近い組を最大化技術の文脈で発見できる方法のうちの2つを表す。図5A-5Bはこの最大化技術を実装する一実施形態を示す。
本技術は、音声センサ出力信号をマイクロホンアレイ内のセンサの各々から入力すること(500)及び信号の各々の周波数変換を計算すること(502)から開始する。任意の適切な周波数変換をこの目的に使用することができる。さらに、この周波数変換を、音源が示すことが分かっている周波数又は周波数域だけに限定することができる。このように、着目する周波数のみを扱うため、処理コストが削減される。前述のSSLを推定する一般的な手順と同様に、一組の候補音源位置を定める(504)。次に、以前に未選択であった周波数変換される音声センサ出力信号のうちの1つXi(ω)を選択する(506)。選択した出力信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を、着目する各周波数ωに対して推定する(508)。さらに、音声センサ出力信号の電力スペクトル|Xi(ω)|2を、着目する各周波数ωに対する選択した信号Xi(ω)に対して計算する(510)。任意的に、選択した信号Xi(ω)に関連する音声センサの応答の振幅副成分αi(ω)を、着目する各周波数ωに対して測定する(512)。この動作の任意性を図5Aの点線の箱により示したことに留意されたい。次に、任意の残っている未選択の音声センサ出力信号Xi(ω)があるかどうかを判定する(514)。残っていれば、動作(506)から(514)を繰り返す。
図5Bを参照すると、残っている未選択の音声センサ出力信号がないと判定される場合、候補音源位置のうち以前に未選択であったものを選択する(516)。次に、選択した候補音源位置から選択した出力信号に関連する音声センサまでの伝播時間τiを計算する(518)。次に、振幅副成分αi(ω)を測定したかどうかを判定する(520)。測定した場合、式(34)を計算し(522)、測定しなかった場合、式(37)を計算する(524)。いずれの場合でも、J2に対する結果の値を記録する(526)。次に、未選択の任意の残っている候補音源位置があるかどうかを判定する(528)。残っている位置がある場合、動作(516)から(528)を繰り返す。選択すべき位置がない場合、J2の値は各候補音源位置で計算済みである。これが与えられれば、J2の最大値を生み出す候補音源位置が推定音源位置として指定される(530)。
上述の技術の多数の実用的な適用例では、マイクロホンアレイの音声センサにより出力される信号はデジタル信号であることに留意されたい。その場合、音声センサの出力信号に関して着目する周波数、各信号の期待される環境雑音電力スペクトル、各信号の音声センサ出力信号電力スペクトル、及び各信号に関連する音声センサ応答の振幅成分は、デジタル信号により定義されるところの周波数ビンである。従って、式(34)及び(37)は、積分としてではなく着目する全ての周波数ビンに渡る総和として計算される。
3.0 他の実施形態
以上の説明を通した前述の実施形態のいずれか又は全てを、追加の複合実施形態を形成することを望まれる任意の組合せで使用してもよいことに留意されたい。本発明の主題を構造的特徴及び/又は方法論的動作に固有な言葉で説明したが、添付の特許請求の範囲で定義した本発明の主題は、必ずしも上述した特定の特徴又は動作に限定されないことは理解されよう。そうではなく、上述の特定の特徴及び動作は添付の諸請求項を実施する形態の例として開示される。
いくつかの態様を記載しておく。
〔態様1〕
残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した複数の音声センサを有するマイクロホンアレイにより出力される信号を用いて音源の位置を推定するコンピュータ実装型プロセスであって、コンピュータを用いて実施する以下のプロセス動作、すなわち、
前記音声センサの各々により出力される前記信号を入力するステップと、
最尤計算を用いて音源の位置を特定するステップであって、前記音源の位置は、前記音源の位置から音が発せられた場合に、前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される前記信号をもたらすこととなる、前記音源の位置から前記音声センサの各々への、前記発せられた音の伝播時間を示す位置であり、前記最尤計算は、前記実際の信号に最も近似にマッチする前記信号を計算する際に、前記音声センサ毎の遅延副成分および振幅副成分を含む音声センサ応答の推定を用いるものであり、音声センサの前記センサ応答の遅延副成分は前記音源が発する音の前記音声センサへの伝播時間に依存する、特定するステップと、
前記特定された音源の位置を推定音源位置として指定するステップと
を備えることを特徴とするコンピュータ実装型プロセス。
〔態様2〕
前記音源の位置を特定する前記プロセス動作は、
各センサ出力信号を、
前記音源が発する音に応答して前記音声センサにより生成され、前記遅延副成分と前記振幅副成分とを含む前記センサ応答により修正される音源信号と、
前記音源が発する前記音の残響に応答して前記音声センサにより生成される残響雑音信号と、
環境雑音に応答して前記音声センサにより生成される環境雑音信号と
を含む信号成分の組合せとして特徴付けるステップと、
各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定するステップと、
前記音声センサの各々に対する所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップであって、各候補音源位置は前記音源の可能な位置を表すステップと、
前記センサの前記センサ応答により修正されていなければ前記音源が発する音に応答して各音声センサにより生成されることとなる推定音源信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定したセンサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定センサ応答出力信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定した音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定したセンサ出力信号を対応する実際のセンサ出力信号と比較し、どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップと、
前記最も近い組の推定センサ出力信号に関連する前記候補音源位置を、選択された音源位置として指定するステップと
の動作を備えることを特徴とする態様1に記載のコンピュータ実装型プロセス。
〔態様3〕
各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定する前記プロセス動作は、
前記センサ出力信号を測定するステップと、
前記環境雑音信号を、前記音源信号と前記残響雑音信号とを含む信号成分を含まない前記測定したセンサ信号の部分に基づいて推定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様4〕
前記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定する前記プロセス動作は、
音源の位置を推定する前に、前記一組の候補音源位置を定めるステップと、
音源の位置を推定する前に、前記候補音源位置に関係する各音声センサの位置を定めるステップと、
各音声センサ及び各候補音源位置に対して、前記音源が前記候補音源位置に位置する場合に、前記音源が発する音の前記音声センサへの伝播時間を計算するステップと、
各センサ及び候補位置に対応する計算した伝播時間を用いて、前記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様5〕
前記一組の候補音源位置を定める前記プロセス動作は、前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの動作を含むことを特徴とする態様4に記載のコンピュータ実装型プロセス。
〔態様6〕
前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの前記プロセス動作は、前記複数の音声センサにより定義される平面内の、半径が増大していく一組の同心円の各々の周りの、一定間隔にある点を選択するステップの動作を含むことを特徴とする態様5に記載のコンピュータ実装型プロセス。
〔態様7〕
前記一組の候補音源位置を定める前記プロセス動作は、前記音源位置が位置することが分かっている前記環境の領域中の位置を選択するステップの動作を含むことを特徴とする態様4に記載のコンピュータ実装型プロセス。
〔態様8〕
前記一組の候補音源位置を定める前記プロセス動作は、
前記マイクロホンアレイから前記音源が位置する任意の方向を定めるステップと、
前記任意の方向にある前記環境の領域中の位置を選択するステップと
の動作を含むことを特徴とする態様4に記載のコンピュータ実装型プロセス。
〔態様9〕
どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップの前記プロセス動作は、
ωは着目する周波数を示し、Pを音声センサiの総数、αi(ω)を前記音声センサ応答の前記振幅副成分、γを所定の雑音パラメータ、|Xi(ω)|2を前記センサ信号Xi(ω)に対する音声センサの出力信号電力スペクトル、E{|Ni(ω)|2}を前記信号Xi(ω)の期待される環境雑音電力スペクトルとし、*は複素共役を示し、及びτiを、前記音源が前記候補音源位置にあった場合の前記音源が発する音の前記音声センサiへの伝播時間とした場合、各候補音源位置に対して、式
前記式を最大化する前記候補音源位置を、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成する音源位置として指定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様10〕
どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップの前記プロセス動作は、
ωは着目する周波数を示し、Pを音声センサiの総数、γを所定の雑音パラメータ、|Xi(ω)|2を前記センサ信号Xi(ω)に対する音声センサの出力信号電力スペクトル、E{|Ni(ω)|2}を前記信号Xi(ω)の期待される環境雑音電力スペクトル、及びτiを、前記音源が前記候補音源位置にあった場合の前記音源が発する音の前記音声センサiへの伝播時間とした場合、各候補音源位置に対して、式
前記式を最大化する前記候補音源位置を、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成する音源位置として指定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様11〕
残響及び環境雑音を示す環境において音源の位置を推定するシステムであって、
前記音源が発する音を拾うように配置した2つ又は複数の音声センサを有するマイクロホンアレイと、
汎用目的コンピューティング装置と、
前記コンピューティング装置により実行可能なプログラムモジュールを含むコンピュータプログラムであって、前記コンピューティング装置は、前記コンピュータプログラムの前記プログラムモジュールにより、
前記音声センサの各々により出力される信号を入力し、
各音声センサ出力信号の周波数変換を計算し、
各々が前記音源の可能な位置を表す一組の候補音源位置を定め、
各候補音源位置及び各音声センサに対して、iがいずれかの音声センサを表すものとして、前記候補音源位置から前記音声センサまでの伝播時間τiを計算し、
各周波数変換した音声センサ出力信号の着目する各周波数に対して、
ωは着目するいずれかの周波数を表すものとし、前記信号に関連すると期待される環境雑音電力スペクトルである、前記信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を推定し、
前記信号Xi(ω)に対して音声センサ出力信号電力スペクトル|Xi(ω)|2を計算し、
前記信号Xi(ω)に関連する前記センサの音声センサ応答の振幅副成分αi(ω)を測定し、
Pを音声センサの総数とし、*は複素共役を示し、及びγを所定の雑音パラメータとした場合、各候補音源位置に対して式
前記式を最大化する前記候補音源位置を推定音源位置として指定するように指示されるコンピュータプログラムと
を含むシステム。
〔態様12〕
前記マイクロホンアレイにより出力される前記信号はデジタル信号であり、前記音声センサ出力信号の各々の着目する周波数、各信号の前記期待される環境雑音電力スペクトル、各信号の前記音声センサ出力信号電力スペクトル、及び前記信号に関連する前記音声センサ応答の前記振幅成分は、前記デジタル信号により定義される周波数ビンであり、前記式は、前記周波数に渡る積分としてではなく前記周波数ビンの全てに渡る総和として計算されることを特徴とする態様11に記載のシステム。
〔態様13〕
各音声センサ出力信号の周波数変換を計算する前記プログラムモジュールは、前記周波数変換を、前記音源により示されることが分かっている周波数のみに限定するためのサブモジュールを含むことを特徴とする態様11に記載のシステム。
〔態様14〕
前記所定の雑音パラメータγは0.1から0.5の間の範囲の値であることを特徴とする態様11に記載のシステム。
〔態様15〕
残響及び環境雑音を示す環境において音源の位置を推定するシステムであって、
前記音源が発する音を拾うように配置した2つ又は複数の音声センサを有するマイクロホンアレイと、
汎用目的コンピューティング装置と、
前記コンピューティング装置により実行可能なプログラムモジュールを含むコンピュータプログラムであって、前記コンピューティング装置は、前記コンピュータプログラムの前記プログラムモジュールにより、
前記音声センサの各々により出力される信号を入力し、
各音声センサ出力信号の周波数変換を計算し、
各々が前記音源の可能な位置を表す一組の候補音源位置を定め、
iがいずれかの音声センサを表すものとした場合に、各候補音源位置及び各音声センサに対して、前記候補音源位置から前記音声センサまでの伝播時間τiを計算し、
各周波数変換した音声センサ出力信号の着目する各周波数に対して、
ωは着目するいずれかの周波数を表すものとし、前記信号に関連すると期待される環境雑音電力スペクトルである、前記信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を推定し、
前記信号Xi(ω)に対して音声センサ出力信号電力スペクトル|Xi(ω)|2を計算し、
Pを音声センサの総数、及びγを所定の雑音パラメータとした場合、各候補音源位置に対して、
前記式を最大化する前記候補音源位置を推定音源位置として指定するように指示されるコンピュータプログラムと
を含むシステム。
〔態様16〕
前記マイクロホンアレイにより出力される前記信号はデジタル信号であり、前記音声センサ出力信号の各々の着目する周波数、各信号の前記期待される環境雑音電力スペクトル、及び各信号の前記音声センサ出力信号電力スペクトルは、前記デジタル信号により定義されるところの周波数ビンであり、前記式は前記周波数に渡る積分としてではなく前記周波数ビンの全てに渡る総和として計算されることを特徴とする態様15に記載のシステム。
Claims (10)
- 残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した三つ以上の音声センサを有するマイクロホンアレイにより出力される信号を用いて音源の位置を推定するコンピュータ実装型プロセスであって、コンピュータを用いて実施する以下のプロセス動作、すなわち、
前記音声センサの各々により出力される前記信号を入力するステップと、
最尤計算を用いて音源の位置を特定するステップであって、前記音源の位置は、前記音源の位置から音が発せられた場合に、前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される信号をもたらすこととなる位置であり、前記最尤計算は、所与の音源位置から音が発せられた場合に、前記音声センサにより出力される信号を計算する際に、前記音声センサ毎の遅延副成分および振幅副成分を含む音声センサ応答の推定を用いるものであり、音声センサの前記センサ応答の遅延副成分は前記音源が発する音の前記音声センサへの伝播時間に依存し、音声センサの前記センサ応答の振幅副成分は前記音源が発する音の伝搬エネルギー減衰に依存する、特定するステップと、
前記特定された音源の位置を推定音源位置として指定するステップと
を備えることを特徴とするコンピュータ実装型プロセス。 - 前記音源の位置を特定する前記プロセス動作は、
各センサ出力信号を、
前記音源が発する音に応答して前記音声センサにより生成され、前記遅延副成分と前記振幅副成分とを含む前記センサ応答により修正される音源信号と、
前記音源が発する前記音の残響に応答して前記音声センサにより生成される残響雑音信号と、
環境雑音に応答して前記音声センサにより生成される環境雑音信号と
を含む信号成分の組合せとして特徴付けるステップと、
各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定するステップと、
前記音声センサの各々に対する所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップであって、各候補音源位置は前記音源の可能な位置を表すステップと、
前記センサの前記センサ応答により修正されていなければ前記音源が発する音に応答して各音声センサにより生成されることとなる推定音源信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定したセンサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定センサ出力信号を、各候補音源位置に対する各音声センサに関連する、推定音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
推定したセンサ出力信号を対応する実際のセンサ出力信号と比較し、どの候補音源位置が、前記三つ以上の音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップと、
前記最も近い組の推定センサ出力信号に関連する前記候補音源位置を、選択された音源位置として指定するステップと
の動作を備えることを特徴とする請求項1に記載のコンピュータ実装型プロセス。 - 各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定する前記プロセス動作は、
前記センサ出力信号を測定するステップと、
前記環境雑音信号を、前記音源信号と前記残響雑音信号とを含む信号成分を含まない前記測定したセンサ信号の部分に基づいて推定するステップと
の動作を含むことを特徴とする請求項2に記載のコンピュータ実装型プロセス。 - 前記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定する前記プロセス動作は、
音源の位置を推定する前に、前記一組の候補音源位置を定めるステップと、
音源の位置を推定する前に、前記候補音源位置に関係する各音声センサの位置を定めるステップと、
各音声センサ及び各候補音源位置に対して、前記音源が前記候補音源位置に位置する場合に、前記音源が発する音の前記音声センサへの伝播時間を計算するステップと、
各センサ及び候補位置に対応する計算した伝播時間を用いて、前記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップと
の動作を含むことを特徴とする請求項2に記載のコンピュータ実装型プロセス。 - 前記一組の候補音源位置を定める前記プロセス動作は、前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの動作を含むことを特徴とする請求項4に記載のコンピュータ実装型プロセス。
- 前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの前記プロセス動作は、前記三つ以上の音声センサにより定義される平面内の、半径が増大していく一組の同心円の各々の周りの、一定間隔にある点を選択するステップの動作を含むことを特徴とする請求項5に記載のコンピュータ実装型プロセス。
- 前記一組の候補音源位置を定める前記プロセス動作は、前記音源位置が位置することが分かっている前記環境の領域中の位置を選択するステップの動作を含むことを特徴とする請求項4に記載のコンピュータ実装型プロセス。
- 前記一組の候補音源位置を定める前記プロセス動作は、
前記マイクロホンアレイから前記音源が位置する任意の方向を定めるステップと、
前記任意の方向にある前記環境の領域中の位置を選択するステップと
の動作を含むことを特徴とする請求項4に記載のコンピュータ実装型プロセス。 - 前記最尤計算は、所与の音源位置から音が発せられた場合に、前記音声センサにより出力される信号を計算する際に、測定又は推定した残響雑音信号および環境雑音信号をさらに用いるものであり、
どの候補音源位置が、前記三つ以上の音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定することを含む、
請求項1ないし8のうちいずれか一項記載のコンピュータ実装型プロセス。 - 前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される信号をもたらすこととなる前記音源の位置は、
音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を与えられたときに前記三つ以上の音声センサに対する前記実際のセンサ出力信号が生じる尤度を最大にする候補音源位置を判定することによって特定される、
請求項1ないし8のうちいずれか一項記載のコンピュータ実装型プロセス。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/627,799 | 2007-01-26 | ||
US11/627,799 US8233353B2 (en) | 2007-01-26 | 2007-01-26 | Multi-sensor sound source localization |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date | |
---|---|---|---|---|
JP2014220389 Division | 2014-10-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016218078A JP2016218078A (ja) | 2016-12-22 |
JP6335985B2 true JP6335985B2 (ja) | 2018-05-30 |
Family
ID=39644902
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009547447A Pending JP2010517047A (ja) | 2007-01-26 | 2008-01-26 | マルチセンサ音源定位 |
JP2014220389A Active JP6042858B2 (ja) | 2007-01-26 | 2014-10-29 | マルチセンサ音源定位 |
JP2016161417A Active JP6335985B2 (ja) | 2007-01-26 | 2016-08-19 | マルチセンサ音源定位 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009547447A Pending JP2010517047A (ja) | 2007-01-26 | 2008-01-26 | マルチセンサ音源定位 |
JP2014220389A Active JP6042858B2 (ja) | 2007-01-26 | 2014-10-29 | マルチセンサ音源定位 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8233353B2 (ja) |
EP (1) | EP2123116B1 (ja) |
JP (3) | JP2010517047A (ja) |
CN (1) | CN101595739B (ja) |
TW (1) | TW200839737A (ja) |
WO (1) | WO2008092138A1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007058130A1 (ja) * | 2005-11-15 | 2007-05-24 | Yamaha Corporation | 遠隔会議装置及び放収音装置 |
JP4816221B2 (ja) * | 2006-04-21 | 2011-11-16 | ヤマハ株式会社 | 収音装置および音声会議装置 |
CN101512374B (zh) * | 2006-11-09 | 2012-04-11 | 松下电器产业株式会社 | 声源位置检测装置 |
KR101483269B1 (ko) * | 2008-05-06 | 2015-01-21 | 삼성전자주식회사 | 로봇의 음원 위치 탐색 방법 및 그 장치 |
US8989882B2 (en) | 2008-08-06 | 2015-03-24 | At&T Intellectual Property I, L.P. | Method and apparatus for managing presentation of media content |
CN102257401B (zh) * | 2008-12-16 | 2014-04-02 | 皇家飞利浦电子股份有限公司 | 使用粒子滤波估计声源地点 |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
TWI417563B (zh) * | 2009-11-20 | 2013-12-01 | Univ Nat Cheng Kung | 遠距離音源定位晶片裝置及其方法 |
CN101762806B (zh) * | 2010-01-27 | 2013-03-13 | 华为终端有限公司 | 声源定位方法和装置 |
US8861756B2 (en) | 2010-09-24 | 2014-10-14 | LI Creative Technologies, Inc. | Microphone array system |
US9100734B2 (en) | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
CN102147458B (zh) * | 2010-12-17 | 2013-03-13 | 中国科学院声学研究所 | 一种针对宽带声源的波达方向估计方法及其装置 |
CN102809742B (zh) | 2011-06-01 | 2015-03-18 | 杜比实验室特许公司 | 声源定位设备和方法 |
HU1200197A2 (hu) * | 2012-04-03 | 2013-10-28 | Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem | Eljárás és elrendezés környezeti zaj valós idejû, forrásszelektív monitorozására és térképezésére |
US9251436B2 (en) | 2013-02-26 | 2016-02-02 | Mitsubishi Electric Research Laboratories, Inc. | Method for localizing sources of signals in reverberant environments using sparse optimization |
CN105308681B (zh) | 2013-02-26 | 2019-02-12 | 皇家飞利浦有限公司 | 用于生成语音信号的方法和装置 |
CN105144747B9 (zh) * | 2013-03-14 | 2017-05-10 | 苹果公司 | 用于对设备的取向进行广播的声学信标 |
US20140328505A1 (en) * | 2013-05-02 | 2014-11-06 | Microsoft Corporation | Sound field adaptation based upon user tracking |
GB2516314B (en) * | 2013-07-19 | 2017-03-08 | Canon Kk | Method and apparatus for sound sources localization with improved secondary sources localization |
FR3011377B1 (fr) * | 2013-10-01 | 2015-11-06 | Aldebaran Robotics | METHOD FOR LOCATING A SOUND SOURCE AND HUMANOID ROBOT USING SUCH A METHOD |
US9544687B2 (en) * | 2014-01-09 | 2017-01-10 | Qualcomm Technologies International, Ltd. | Audio distortion compensation method and acoustic channel estimation method for use with same |
CN103778288B (zh) * | 2014-01-15 | 2017-05-17 | 河南科技大学 | 基于蚁群优化的非均匀阵元噪声条件下近场声源定位方法 |
US9774995B2 (en) * | 2014-05-09 | 2017-09-26 | Microsoft Technology Licensing, Llc | Location tracking based on overlapping geo-fences |
US9685730B2 (en) | 2014-09-12 | 2017-06-20 | Steelcase Inc. | Floor power distribution system |
US9584910B2 (en) | 2014-12-17 | 2017-02-28 | Steelcase Inc. | Sound gathering system |
DE102015002962A1 (de) | 2015-03-07 | 2016-09-08 | Hella Kgaa Hueck & Co. | Verfahren zur Lokalisierung einer Signalquelle eines Körperschallsignals, insbesondere eines durch mindestens ein Schadensereignis erzeugtes Körperschallsignal an einem flächig ausgebildeten Bauteil |
WO2016208173A1 (ja) * | 2015-06-26 | 2016-12-29 | 日本電気株式会社 | 信号検知装置、信号検知方法および記録媒体 |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
WO2017007848A1 (en) | 2015-07-06 | 2017-01-12 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
CN105785319B (zh) * | 2016-05-20 | 2018-03-20 | 中国民用航空总局第二研究所 | 机场场面目标声学定位方法、装置及系统 |
US20180317006A1 (en) | 2017-04-28 | 2018-11-01 | Qualcomm Incorporated | Microphone configurations |
US10176808B1 (en) | 2017-06-20 | 2019-01-08 | Microsoft Technology Licensing, Llc | Utilizing spoken cues to influence response rendering for virtual assistants |
EP3531090A1 (en) * | 2018-02-27 | 2019-08-28 | Distran AG | Estimation of the sensitivity of a detector device comprising a transducer array |
CN110035379B (zh) * | 2019-03-28 | 2020-08-25 | 维沃移动通信有限公司 | 一种定位方法及终端设备 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60108779A (en) * | 1983-11-18 | 1985-06-14 | Matsushita Electric Ind Co Ltd | Sound source position measuring apparatus |
JPH04238284A (en) * | 1991-01-22 | 1992-08-26 | Oki Electric Ind Co Ltd | Sound source position estimating device |
JPH0545439A (ja) * | 1991-08-12 | 1993-02-23 | Oki Electric Ind Co Ltd | 音源位置推定装置 |
JP2570110B2 (ja) * | 1993-06-08 | 1997-01-08 | 日本電気株式会社 | 水中音源位置推定システム |
JP3572594B2 (ja) * | 1995-07-05 | 2004-10-06 | 株式会社ダイマジック | 信号源探査方法及び装置 |
JP2641417B2 (ja) * | 1996-05-09 | 1997-08-13 | 安川商事株式会社 | 時空間微分法を用いた計測装置 |
US6130949A (en) * | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
DE19646055A1 (de) * | 1996-11-07 | 1998-05-14 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Abbildung von Schallquellen auf Lautsprecher |
JPH11304906A (ja) * | 1998-04-20 | 1999-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 音源位置推定方法およびそのプログラムを記録した記録媒体 |
JP2001352530A (ja) * | 2000-06-09 | 2001-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 通信会議装置 |
JP2002091469A (ja) * | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
JP4722347B2 (ja) * | 2000-10-02 | 2011-07-13 | 中部電力株式会社 | 音源探査システム |
JP2002277228A (ja) * | 2001-03-15 | 2002-09-25 | Kansai Electric Power Co Inc:The | 音源位置標定方法 |
US7349005B2 (en) * | 2001-06-14 | 2008-03-25 | Microsoft Corporation | Automated video production system and method using expert video production rules for online publishing of lectures |
US7130446B2 (en) * | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
JP4195267B2 (ja) * | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation | 音声認識装置、その音声認識方法及びプログラム |
JP2004012151A (ja) * | 2002-06-03 | 2004-01-15 | Matsushita Electric Ind Co Ltd | 音源方向推定装置 |
FR2841022B1 (fr) * | 2002-06-12 | 2004-08-27 | Centre Nat Rech Scient | METHOD FOR LOCATING AN IMPACT ON A SURFACE AND DEVICE FOR IMPLEMENTING SAID METHOD |
US7039199B2 (en) * | 2002-08-26 | 2006-05-02 | Microsoft Corporation | System and process for locating a speaker using 360 degree sound source localization |
JP4247037B2 (ja) * | 2003-01-29 | 2009-04-02 | 株式会社東芝 | 音声信号処理方法と装置及びプログラム |
US6882959B2 (en) * | 2003-05-02 | 2005-04-19 | Microsoft Corporation | System and process for tracking an object state using a particle filter sensor fusion technique |
US6999593B2 (en) * | 2003-05-28 | 2006-02-14 | Microsoft Corporation | System and process for robust sound source localization |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
JP4080987B2 (ja) * | 2003-10-30 | 2008-04-23 | 日本電信電話株式会社 | エコー・雑音抑制方法および多チャネル拡声通話システム |
US6970796B2 (en) * | 2004-03-01 | 2005-11-29 | Microsoft Corporation | System and method for improving the precision of localization estimates |
CN1808571A (zh) * | 2005-01-19 | 2006-07-26 | 松下电器产业株式会社 | 声音信号分离系统及方法 |
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
US7583808B2 (en) * | 2005-03-28 | 2009-09-01 | Mitsubishi Electric Research Laboratories, Inc. | Locating and tracking acoustic sources with microphone arrays |
CN1952684A (zh) * | 2005-10-20 | 2007-04-25 | 松下电器产业株式会社 | 利用麦克风定位声源的方法和装置 |
-
2007
- 2007-01-26 US US11/627,799 patent/US8233353B2/en active Active
-
2008
- 2008-01-23 TW TW97102575A patent/TW200839737A/zh unknown
- 2008-01-26 CN CN2008800032518A patent/CN101595739B/zh active IP Right Grant
- 2008-01-26 EP EP20080714034 patent/EP2123116B1/en active Active
- 2008-01-26 WO PCT/US2008/052139 patent/WO2008092138A1/en active Application Filing
- 2008-01-26 JP JP2009547447A patent/JP2010517047A/ja active Pending
-
2014
- 2014-10-29 JP JP2014220389A patent/JP6042858B2/ja active Active
-
2016
- 2016-08-19 JP JP2016161417A patent/JP6335985B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2008092138A1 (en) | 2008-07-31 |
CN101595739B (zh) | 2012-11-14 |
JP2016218078A (ja) | 2016-12-22 |
CN101595739A (zh) | 2009-12-02 |
TW200839737A (en) | 2008-10-01 |
US8233353B2 (en) | 2012-07-31 |
JP2010517047A (ja) | 2010-05-20 |
EP2123116A1 (en) | 2009-11-25 |
EP2123116A4 (en) | 2012-09-19 |
US20080181430A1 (en) | 2008-07-31 |
JP2015042989A (ja) | 2015-03-05 |
JP6042858B2 (ja) | 2016-12-14 |
EP2123116B1 (en) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10063965B2 (en) | Sound source estimation using neural networks | |
JP2017102488A (ja) | 源信号分離のためのシステム及び方法 | |
US20200058316A1 (en) | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation | |
US9460732B2 (en) | Signal source separation | |
US9622003B2 (en) | Speaker localization | |
JP5710792B2 (ja) | 可聴音と超音波とを用いたソース特定のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
Ho et al. | Passive source localization using time differences of arrival and gain ratios of arrival | |
Cobos et al. | A survey of sound source localization methods in wireless acoustic sensor networks | |
TWI647961B (zh) | 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置 | |
US9100734B2 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
JP3906230B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US9354295B2 (en) | Systems, methods, and apparatus for estimating direction of arrival | |
US7415117B2 (en) | System and method for beamforming using a microphone array | |
US9232332B2 (en) | Microphone calibration | |
Habets et al. | Generating sensor signals in isotropic noise fields | |
RU2642353C2 (ru) | Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи | |
US7720679B2 (en) | Speech recognition apparatus, speech recognition apparatus and program thereof | |
US8891785B2 (en) | Processing signals | |
US6999593B2 (en) | System and process for robust sound source localization | |
CN101595739B (zh) | 多传感器声源定位 | |
Gunel et al. | Acoustic source separation of convolutive mixtures based on intensity vector statistics | |
KR101442446B1 (ko) | 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 | |
JP4248445B2 (ja) | マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置 | |
US9042573B2 (en) | Processing signals | |
US8098842B2 (en) | Enhanced beamforming for arrays of directional microphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6335985 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |