JP6335985B2 - マルチセンサ音源定位 - Google Patents

マルチセンサ音源定位 Download PDF

Info

Publication number
JP6335985B2
JP6335985B2 JP2016161417A JP2016161417A JP6335985B2 JP 6335985 B2 JP6335985 B2 JP 6335985B2 JP 2016161417 A JP2016161417 A JP 2016161417A JP 2016161417 A JP2016161417 A JP 2016161417A JP 6335985 B2 JP6335985 B2 JP 6335985B2
Authority
JP
Japan
Prior art keywords
sensor
sound source
signal
sound
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016161417A
Other languages
English (en)
Other versions
JP2016218078A (ja
Inventor
チャン チャ
チャン チャ
フロレンチオ ジネイ
フロレンチオ ジネイ
チャン チェンユー
チャン チェンユー
Original Assignee
マイクロソフト テクノロジー ライセンシング,エルエルシー
マイクロソフト テクノロジー ライセンシング,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US11/627,799 priority Critical
Priority to US11/627,799 priority patent/US8233353B2/en
Application filed by マイクロソフト テクノロジー ライセンシング,エルエルシー, マイクロソフト テクノロジー ライセンシング,エルエルシー filed Critical マイクロソフト テクノロジー ライセンシング,エルエルシー
Publication of JP2016218078A publication Critical patent/JP2016218078A/ja
Application granted granted Critical
Publication of JP6335985B2 publication Critical patent/JP6335985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Description

マイクロホンアレイを用いる音源定位(SSL:sound source localization)が、人間とコンピュータの相互作用及びインテリジェントルームのような多くの重要な適用例で使用されている。多数のSSLアルゴリズムが、異なる程度の精度及び計算の複雑性で、提示されている。例えば、電話会議のような広帯域音源定位の適用例では、幾つかのSSL技術が普及している。これらには、制御型ビームフォーマ(SB:steered−beamfomer)、高解像度スペクトル推定、到着遅延時間(TDOA:time delay of arrival)、及び学習ベースの技術が含まれる。

TDOAアプローチに関して、大部分の既存のアルゴリズムでは、マイクロホンアレイ内の各音声センサ対を取り、その音声センサの相互相関関数を計算する。その環境内の残響と雑音を補償するために、しばしば相関を求める前に重み付け関数が使用される。幾つかの重み付け関数が試行されている。それらの中には最尤(ML)重み付け関数がある。

しかし、これらの既存のTDOAアルゴリズムは、音声センサの対に対して最適な重みを見つけるように設計されている。複数のセンサ対がマイクロホンアレイに存在するときは、センサ対は独立で、それらの尤度を乗算できることが仮定される。センサ対が真に独立であることは一般にはないので、このアプローチは疑問である。従って、これらの既存のTDOAアルゴリズムは、複数の音声センサ対を有するマイクロホンアレイに対しては正確なMLアルゴリズムを表さない。

本発明のマルチセンサ音源定位(SSL)技術では、複数の音声センサ対を有するマイクロホンアレイに対して正確な最尤(ML)処理を提供する。この技術は、残響及び環境雑音を示す環境内の音源が発する音を拾うように配置したマイクロホンアレイの各音声センサによって出力される信号を用いて、音源の位置を推定する。一般に、これは、アレイ内の全てのセンサから入力された音声センサ出力信号が同時に生成される尤度を最大化する、音源からアレイの音声センサへの伝播時間をもたらす音源の位置を選択することで実現される。尤度は、センサ各々の音源信号に対する未知の音声センサ応答を推定する一意の項を含む。

「背景技術」の項で説明した既存のSSL技術における前述の欠点は、本発明によるマルチセンサSSL技術の特定の実装で解決することができるが、この実装は述べた欠点のいずれか又は全てを解決するだけの実装に限定されることは決してないことに留意されたい。そうではなく、後に続く説明から明らかになるように、本発明の技術の適用範囲はそれよりかなり広い。

本「発明の概要」は、後の「発明を実施するための形態」でさらに説明する選択した概念を、簡潔な形で導入するために提供していることにも留意されたい。本「発明の概要」は、特許請求の範囲に記載されている主題の主要な機能又は本質的な機能を特定することは意図しておらず、特許請求の範囲に記載されている主題の範囲を決定する際の補助として使用することも意図していない。今説明した利益に加えて、本発明の他の利点は、添付の図面と併せて考慮するとき、後に続く発明を実施するための形態から明らかになるであろう。

本発明の具体的な機能、態様、及び利点は、以下の説明、添付の特許請求の範囲、及び付属の図面に関してより良く理解されよう。

本発明を実装する例示的なシステムを構成する、汎用目的のコンピューティング装置を示す図である。 マイクロホンアレイによって出力される信号を用いて音源の位置を推定する技術を一般的に概説する流れ図である。 マイクロホンアレイの音声センサの出力を構成する信号成分の特徴付けを示すブロック図である。 図2のマルチセンサ音源定位を実装する技術の実施形態を一般的に概説する連続的な流れ図である。 図2のマルチセンサ音源定位を実装する技術の実施形態を一般的に概説する連続的な流れ図である。 図4Aのマルチセンサ音源定位の数学的実装を一般的に概説する連続的な流れ図である。 図4Bのマルチセンサ音源定位の数学的実装を一般的に概説する連続的な流れ図である。

以下の本発明の実施形態の説明では、その説明の一部を構成する付属図面への参照がなされる。図面では、例として、本発明を実施できる具体的な実施形態を示してある。他の実施形態を利用してもよく、本発明の範囲を逸脱しなければ構造的な変更を加えてもよいことは理解されよう。

1.0 コンピューティング環境
本発明のマルチセンサSSL技術の実施形態の説明を提供する前に、この実施形態の一部を実装できる適切なコンピューティング環境の、簡潔且つ一般的な説明を行う。本発明のマルチセンサSSL技術は、多数の汎用目的又は特殊目的のコンピューティングシステム環境又は構成で動作可能である。適切である可能性がある公知なコンピューティングシステム、環境、及び/又は構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システム又は装置のいずれかを含む分散コンピューティング環境、等が含まれるが、これらに限らない。

図1は、適切なコンピューティングシステム環境の例を示す。このコンピューティングシステム環境は、適切なコンピューティング環境の一例に過ぎず、本発明のマルチセンサSSL技術の使用範囲又は機能範囲に関するいかなる限定を示唆することも意図していない。また、このコンピューティング環境は、例示的な動作環境で示した構成要素のいずれか1つ又はその組合せに関していかなる依存性又は要件を有するとも解釈すべきではい。図1を参照すると、本発明のマルチセンサSSL技術を実装する例示的なシステムは、コンピューティング装置100のようなコンピューティング装置を含む。その最も基本的な構成では、コンピューティング装置100は、一般に少なくとも1つの処理装置102とメモリ104とを含む。コンピューティング装置の正確な構成と種類に応じて、メモリ104は、(RAMのような)揮発性、(ROM、フラッシュメモリ、等のような)不揮発性、又はその2つの何らかの組合せであることができる。この最も基本的な構成を図1では点線106で示す。さらに、装置100は追加の機能/機能性を有してもよい。例えば、装置100は、追加の(取外し可能及び/又は取外し不能な)記憶装置を含むこともできる。この記憶装置には、磁気ディスクもしくは光ディスク又はテープが含まれるがこれらに限らない。係る追加の記憶装置を、図1では取外し可能記憶装置108及び取外し不能記憶装置110で示す。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような情報を記憶するための任意の方法又は技術で実装した揮発性及び不揮発性媒体、取外し可能及び取外し不能媒体が含まれる。メモリ104、取外し可能記憶装置108及び取外し不能記憶装置110は全てコンピュータ記憶媒体の例である。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、DVD(dgital versatile disk)もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、又は所望の情報の記憶に使用可能で装置100がアクセス可能な他の任意の媒体が含まれるが、これらに限らない。係る任意のコンピュータ記憶媒体は装置100の一部であることができる。

装置100は、この装置が他の装置と通信するのを可能にする通信接続112を含むこともできる。通信接続112は、通信媒体の例である。通信媒体は、一般にコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを、搬送波又は他の伝送機構のような変調データ信号で具体化し、任意の情報配信媒体を含む。「変調データ信号」という用語は、その1つ又は複数の特性集合を有するか、又は信号内の情報を符号化するように変化した信号を意味する。限定ではなく例として、通信媒体には、有線ネットワーク又は直接有線接続のような有線媒体、ならびに音響、RF、赤外線及び他の無線媒体のような無線媒体が含まれる。本明細書で使用するコンピュータ可読媒体という用語は、記憶媒体と通信媒体の両方を含む。

装置100は、キーボード、マウス、ペン、音声入力装置、タッチ入力装置、カメラ、等のような入力装置114も有することができる。ディスプレイ、スピーカ、プリンタ、等のような出力装置116も含めることができる。これらの装置は全て当分野で公知であり、ここで詳細に説明する必要はない。

特筆すべきは、装置100が複数の音声センサを有するマイクロホンアレイ118を含み、その各々は音を捕捉し、捕捉した音を代表する出力信号を生成できることである。音声センサの出力信号は、適切なインタフェース(図示せず)を介して装置100に入力される。しかし、マイクロホンアレイの使用を必要とせずに、音声データを同様に任意のコンピュータ可読媒体から装置100へ入力することもできることに留意されたい。

本発明のマルチセンサSSL技術を、プログラムモジュールのような、コンピュータ装置により実行されるコンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造、等が含まれる。本発明のマルチセンサSSL技術を、通信ネットワークを通して接続したリモート処理装置によりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルコンピュータの記憶媒体とリモートコンピュータの記憶媒体との両方に配置することができる。

例示的な動作環境を説明してきたので、この発明を実施するための形態の残りの部分は、専ら、本発明のマルチセンサSSL技術を具体化するプログラムモジュールに関する説明に充てる。

2.0 マルチセンサ音源定位(SSL)
本発明のマルチセンサ音源定位(SSL)技術は、残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した複数の音声センサを有するマイクロホンアレイにより出力される信号を用いて、音源の位置を推定する。図2を参照すると、一般に本発明の技術は、このアレイ内の各音声センサからの出力信号をまず入力することを伴う(200)。次に、全ての入力した音声センサ出力信号が同時に生成される尤度を最大化する、音源から音声センサへの伝播時間をもたらすこととなる音源の位置を選択する(202)。次に、選択した位置を、推定音源位置として指定する(204)。

本技術、及び特に前述の音源位置の選択方法を以下の節でより詳細に説明する。既存のアプローチの数学的説明から始める。

2.1 既存のアプローチ
P個の音声センサからなるアレイを考える。音源s(t)が与えられると、これらのセンサで受信される信号を次のようにモデル化することができる。

ここで、i=1,・・・,Pはセンサのインデックスであり、τiは音源位置からi番目のセンサ位置までの伝播時間であり、αiは信号の伝播エネルギー減衰、対応するセンサの利得、音源及びセンサの指向性、ならびに他の因子を含む音声センサの応答係数であり、ni(t)はi番目のセンサにより感知された雑音であり、

は、しばしば残響と呼ばれる、環境応答関数と音源信号との間の畳み込みを表す。通常は、周波数領域で作業をする方がより効率的である。周波数領域では上記モデルを次のように書き換えることができる。

従って、図3に示すように、アレイ内の各センサに対して、音源が発する音に応答して音声センサにより生成され、遅延副成分e-jωτ304及び振幅副成分α(ω)306を含むセンサ応答により修正される音源信号S(ω)302と、音源が発する音の残響に応答して音声センサにより生成される残響雑音信号H(ω)308と、環境雑音に応答して音声センサにより生成される環境雑音信号N(ω)310との組合せとして、センサの出力X(ω)300を特徴付けることができる。

最も分かりやすいSSL技術は、センサの各対を取って、このセンサの相互相関関数を計算することである。例えば、センサiとkで受信した信号間の相関は次のようになる。

上の相関を最大化するτが2つの信号間の推定時間遅延である。実際には、次のように上の相互相関関数を周波数領域でより効率的に計算することができる。

ここで、*は複素共役を表す。式(2)を式(4)に当てはめ、残響項を無視し、雑音と音源信号が独立であると仮定すると、上記相関を最大化するτはτi−τkとなり、これは2つのセンサ間の実際の遅延である。3つ以上のセンサを考えると、全ての可能なセンサの対に対して総和を取ると次式が得られる。

一般的に行われることは、仮説検定を通して上記相関を最大化することである。この場合、sは仮定した音源位置であり、右辺のτiを決定する。式(6)はマイクロホンアレイの制御型応答電力(SRP:steered response power)としても知られている。

SSLの精度に影響を及ぼす可能性のある残響及び雑音に対処するため、相関を求める前に重み付け関数を加えることが非常に有用であることが分かっている。従って、式(5)は次のように書き換えられる。

幾つかの重み付け関数が試みられてきた。そのうち、次式で定義される経験則ベースのPHAT重み付けが、現実的な音響条件下で非常に良く動作することが分かっている。

式(8)を式(7)に代入すると次式が得られる。

このアルゴリズムはSRP-PHATと呼ばれている。重み付け及び総和の数が式(7)内のP2個からP個に減るので、SRP-PHATは計算するのに非常に効率的であることを留意されたい。

より理論的に信頼できる重み付け関数は、最尤(ML)定式化であり、高い信号対雑音比と残響がないことが仮定される。センサ対の重み付け関数は次式のように定義される。

式(10)を式(7)に代入してMLベースのアルゴリズムを得ることができる。このアルゴリズムは、環境雑音に対して堅牢であることが知られているが、残響がその導出中にモデル化されないため、実世界の適用では性能が比較的劣る。改良版では残響を明確に考慮している。この残響は、別の種類の雑音として扱われる。すなわち、

である。ここで、

は結合雑音又は総雑音である。次に、式(11)を式(10)に代入する(Ni(ω)を

で置換して新規の重み付け関数を得る)。さらに式(11)を幾分近似すると、

となる。この式の計算効率はSRP-PHATに近い。

2.2 本発明の技術
式(10)から導出したアルゴリズムは正確なMLアルゴリズムではないことに留意されたい。これは、式(10)中の最適な重みが2つのセンサに対してしか導出されないからである。3つ以上のセンサを使用するときは、式(7)の採用はセンサ対が独立でありそれらの尤度を乗算できることを仮定するが、これは疑問である。本発明のマルチセンサSSL技術は複数の音声センサの場合に対して正確なMLアルゴリズムであり、これを次に説明する。

前述のように、本発明のマルチセンサSSLは、入力された音声センサ出力信号を生成する尤度を最大化する、音源から音声センサへの伝播時間をもたらす音源の位置を選択することを伴う。このタスクを実行する技術の一実施形態を図4A-Bに概説する。本技術は、マイクロホンアレイ内の各音声センサからの信号出力を信号成分の組合せとして特徴付けることに基づく。これらの成分は、音源が発する音に応答して音声センサにより生成され、遅延副成分と振幅副成分とを含むセンサ応答により修正される音源信号を含む。また、音源が発した音の残響に応答して音声センサにより生成される残響雑音信号がある。さらに、環境雑音に応答して音声センサにより生成される環境雑音信号がある。

前述の特徴づけが与えられると、本技術は、音声センサ出力信号の各々に対してセンサ応答の振幅副成分、残響雑音、及び環境雑音を測定又は推定することにより開始する(400)。環境雑音に関して、これを音響信号の無音期間に基づいて推定することができる。これらは、音源及び残響雑音の信号成分を含まないセンサ信号の部分である。残響雑音に関して、これを、推定した環境雑音信号より少ない所定の割合のセンサ出力信号として推定することができる。この所定の割合は一般に、典型的には環境内で遭遇する音の残響に起因するセンサ出力信号の割合であり、環境の状況に依存する。例えば、この所定の割合は、環境が音を吸収するときは小さく、音源がマイクロホンアレイ近傍にあると予想されるときは小さい。

次に、一組の候補音源位置を定める(402)。この候補位置の各々は、可能な音源の位置を表す。この最後のタスクは、様々な方法で行うことができる。例えば、この位置を、マイクロホンアレイを取り囲んでいる標準的なパターンで選択することができる。1つの実装では、これを、アレイの音声センサにより定義される平面内に位置する、半径が増大していく一組の同心円の各々の周りの、一定間隔にある点を選択することで達成する。候補位置を定める方法の別の例では、音源が一般に存在することが分かっている、アレイを取り囲む環境の領域中で位置を選択することを伴う。例えば、マイクロホンアレイからの音源の方向を発見する従来の方法を使用することができる。いったん方向が決まると、環境内のその一般的な方向にある領域中で候補位置が選択される。

本技術は、続いて以前に未選択であった候補音源位置を選択する(404)。次に、選択した候補位置が実際の音源位置であったならば現れたであろうセンサ応答遅延副成分を、音声センサ出力信号の各々に対して推定する(406)。音声センサの遅延副成分は音源からセンサまでの伝播時間に依存することに留意されたい。これは後でさらに詳細に説明する。この遅延副成分が与えられ、各音声センサの位置を前もって知っていると仮定すると、各候補音源位置から音声センサの各々への音の伝播時間を計算することができる。センサ応答遅延副成分を推定するために使用されるのは、この伝播時間である。

センサ応答の副成分、すなわち、音声センサ出力信号の各々に関連する残響雑音及び環境雑音に対して測定値又は推定値が与えられると、(センサの応答により修正されていなければ)選択した候補位置にある音源が発する音に応答して各音声センサにより生成されるであろう音源信号を、前述した音声センサの出力信号の特徴付けに基づいて推定する(408)。次にこれらの測定及び推定した成分を使用して、選択した候補音源位置に対して各音声センサの推定センサ出力信号を計算する(410)。これを再度、前述の信号の特徴付けを用いて行う。次に、任意の残っている未選択の候補音源位置があるかどうかを判定する(412)。残っていれば、全ての候補位置が考慮され、推定される音声センサ出力信号が各センサ及び各候補音源位置に対して計算されるまで、動作404から412を繰り返す。

推定される音声センサ出力信号を計算した後、どの候補音源位置がセンサの実際のセンサ出力信号に最も近い音声センサからの一組の推定センサ出力信号を生成するかを次に確認する(414)。この最も近い組を生成する位置を、入力された音声センサ出力信号を生成する尤度を最大化する前述の選択された音源位置として指定する(416)。

数学的な表現では、上述の技術を以下のように記述することができる。まず、式(2)を次式のようにベクトル形に書き換える。

ここで、

である。

これらの変数のうち、X(ω)は受信信号を表し、既知である。後で詳述するが、G(ω)をSSLプロセス中に推定又は仮定することができる。残響項S(ω)H(ω)は未知であり、別の種類の雑音として扱う。

上記モデルを数学的に扱いやすくするため、結合総雑音(combined total noise)

がゼロ平均の、周波数間で独立な、結合ガウシアン分布に従うと仮定する。すなわち、

である。ここでρは定数であり、上付き文字Hはエルミート転置を表し、Q(ω)は共分散行列を表す。Q(ω)は次式で推定することができる。

ここで、雑音及び残響が無相関であると仮定する。式(16)の第1項は、前述の音響信号の無音期間から直接推定することができる。すなわち、

である。ここで、kは、無音である音声フレームのインデックスである。室内のコンピュータのファンにより生成されるもののような、異なるセンサで受信した背景雑音は相関してもよいことに留意されたい。この雑音が異なるセンサで独立であると考えられる場合、式(16)の第1項を対角行列としてさらに簡略化することができる。すなわち、

である。

式(16)の第2項は残響に関係する。この第2項は一般に未知である。近似として、第2項が対角行列、すなわち、

とし、i番目の対角要素を

と仮定する。ここで、0<γ<1は経験的な雑音パラメータである。検証された本技術の実施形態において、γは環境の残響特性に応じて約0.1から約0.5の間に設定したことに留意されたい。式(20)では残響エネルギーが総受信信号エネルギーと環境雑音エネルギーとの差分の一部であると仮定していることにも留意されたい。同じ仮定を式(11)でも使用した。通常は異なるセンサで受信した残響信号は相関し、行列はゼロでない非対角要素を有するはずであるので、式(19)は近似であることに再度留意されたい。残念ながら、現実の残響信号又はこれらの非対角要素を実際に推定することは一般に非常に難しい。以降の分析では、Q(ω)を使用して雑音共分散行列を表す。従って、行列がゼロでない非対角要素を含むときでもその導出が可能である。

共分散行列Q(ω)を既知の信号から計算又は推定できるとき、受信信号の尤度を次のように書くことができる。

ここで、

かつ

である。

本発明のSSL技術は、観測結果X(ω)、センサ応答行列G(ω)及び雑音共分散行列Q(ω)が与えられれば、上記尤度を最大化する。センサ応答行列G(ω)には音源がどこから来るかに関する情報が必要であり、従って通常は仮説検定を通して最適化を解くことに留意されたい。すなわち、音源位置に関して仮説を立て、G(ω)を与える。次に尤度を測定する。最高の尤度をもたらす仮説をSSLアルゴリズムの出力と判定する。

式(21)において尤度を最大化する代わりに、以下の負の対数尤度、すなわち、

を最小化することができる。

周波数上では確率は互いに独立であると仮定しているので、未知の変数S(ω)を変化させることで各J(ω)を別々に最小化することができる。Q-1(ω)がエルミート対称行列、すなわち、Q-1(ω)=Q-H(ω)であるとすると、S(ω)上でJ(ω)の微分を取ってゼロに設定すれば、次式が得られる。

従って、

である。次に、上のS(ω)をJ(ω)に代入すると、

となる。ここで、

である。

1(ω)は仮説検定中に仮定した位置とは関係しないことに留意されたい。従って、本発明のMLベースのSSL技術は次式を最大化するのみである。

式(26)により、J2を次式のように書き換えることができる。

分母[GH(ω)Q-1(ω)G(ω)]-1をMVDRビーム形成後の残差雑音電力として示すことができる。従って、このMLベースのSSLは、複数のMVDRビームフォーマに複数の仮説方向に沿ってビーム形成させ、その出力方向を信号対雑音比が最大となる方向として取得させた場合と同様である。

次に、センサ内の雑音が独立であり、従ってQ(ω)が対角行列であると仮定する。すなわち、

であり、i番目の対角要素は

のようになる。

従って、式(30)は

と書くことができる。

幾つかの適用例では、センサ応答係数αi(ω)を正確に測定することができる。この係数が未知である適用例では、係数が正の実数であって次式のように推定できると仮定することができる。

ここで、両辺は、結合雑音(雑音及び残響)がない、センサiで受信した信号の電力を表す。従って、

となる。

式(36)を式(34)に代入すると、

が得られる。

本技術は、周波数依存の重み付けが追加される点で式(10)のMLアルゴリズムとは異なることに留意されたい。本技術はより厳密な導出であり、複数のセンサ対に対して正確なML技術である。

前述のように、本技術はどの候補音源位置が実際のセンサ出力信号に最も近い音声センサからの一組の推定センサ出力信号を生成するか確認することを伴う。式(34)及び(37)は、最も近い組を最大化技術の文脈で発見できる方法のうちの2つを表す。図5A-5Bはこの最大化技術を実装する一実施形態を示す。

本技術は、音声センサ出力信号をマイクロホンアレイ内のセンサの各々から入力すること(500)及び信号の各々の周波数変換を計算すること(502)から開始する。任意の適切な周波数変換をこの目的に使用することができる。さらに、この周波数変換を、音源が示すことが分かっている周波数又は周波数域だけに限定することができる。このように、着目する周波数のみを扱うため、処理コストが削減される。前述のSSLを推定する一般的な手順と同様に、一組の候補音源位置を定める(504)。次に、以前に未選択であった周波数変換される音声センサ出力信号のうちの1つXi(ω)を選択する(506)。選択した出力信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を、着目する各周波数ωに対して推定する(508)。さらに、音声センサ出力信号の電力スペクトル|Xi(ω)|2を、着目する各周波数ωに対する選択した信号Xi(ω)に対して計算する(510)。任意的に、選択した信号Xi(ω)に関連する音声センサの応答の振幅副成分αi(ω)を、着目する各周波数ωに対して測定する(512)。この動作の任意性を図5Aの点線の箱により示したことに留意されたい。次に、任意の残っている未選択の音声センサ出力信号Xi(ω)があるかどうかを判定する(514)。残っていれば、動作(506)から(514)を繰り返す。

図5Bを参照すると、残っている未選択の音声センサ出力信号がないと判定される場合、候補音源位置のうち以前に未選択であったものを選択する(516)。次に、選択した候補音源位置から選択した出力信号に関連する音声センサまでの伝播時間τiを計算する(518)。次に、振幅副成分αi(ω)を測定したかどうかを判定する(520)。測定した場合、式(34)を計算し(522)、測定しなかった場合、式(37)を計算する(524)。いずれの場合でも、J2に対する結果の値を記録する(526)。次に、未選択の任意の残っている候補音源位置があるかどうかを判定する(528)。残っている位置がある場合、動作(516)から(528)を繰り返す。選択すべき位置がない場合、J2の値は各候補音源位置で計算済みである。これが与えられれば、J2の最大値を生み出す候補音源位置が推定音源位置として指定される(530)。

上述の技術の多数の実用的な適用例では、マイクロホンアレイの音声センサにより出力される信号はデジタル信号であることに留意されたい。その場合、音声センサの出力信号に関して着目する周波数、各信号の期待される環境雑音電力スペクトル、各信号の音声センサ出力信号電力スペクトル、及び各信号に関連する音声センサ応答の振幅成分は、デジタル信号により定義されるところの周波数ビンである。従って、式(34)及び(37)は、積分としてではなく着目する全ての周波数ビンに渡る総和として計算される。

3.0 他の実施形態
以上の説明を通した前述の実施形態のいずれか又は全てを、追加の複合実施形態を形成することを望まれる任意の組合せで使用してもよいことに留意されたい。本発明の主題を構造的特徴及び/又は方法論的動作に固有な言葉で説明したが、添付の特許請求の範囲で定義した本発明の主題は、必ずしも上述した特定の特徴又は動作に限定されないことは理解されよう。そうではなく、上述の特定の特徴及び動作は添付の諸請求項を実施する形態の例として開示される。

いくつかの態様を記載しておく。
〔態様1〕
残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した複数の音声センサを有するマイクロホンアレイにより出力される信号を用いて音源の位置を推定するコンピュータ実装型プロセスであって、コンピュータを用いて実施する以下のプロセス動作、すなわち、
前記音声センサの各々により出力される前記信号を入力するステップと、
最尤計算を用いて音源の位置を特定するステップであって、前記音源の位置は、前記音源の位置から音が発せられた場合に、前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される前記信号をもたらすこととなる、前記音源の位置から前記音声センサの各々への、前記発せられた音の伝播時間を示す位置であり、前記最尤計算は、前記実際の信号に最も近似にマッチする前記信号を計算する際に、前記音声センサ毎の遅延副成分および振幅副成分を含む音声センサ応答の推定を用いるものであり、音声センサの前記センサ応答の遅延副成分は前記音源が発する音の前記音声センサへの伝播時間に依存する、特定するステップと、
前記特定された音源の位置を推定音源位置として指定するステップと
を備えることを特徴とするコンピュータ実装型プロセス。
〔態様2〕
前記音源の位置を特定する前記プロセス動作は、
各センサ出力信号を、
前記音源が発する音に応答して前記音声センサにより生成され、前記遅延副成分と前記振幅副成分とを含む前記センサ応答により修正される音源信号と、
前記音源が発する前記音の残響に応答して前記音声センサにより生成される残響雑音信号と、
環境雑音に応答して前記音声センサにより生成される環境雑音信号と
を含む信号成分の組合せとして特徴付けるステップと、
各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定するステップと、
前記音声センサの各々に対する所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップであって、各候補音源位置は前記音源の可能な位置を表すステップと、
前記センサの前記センサ応答により修正されていなければ前記音源が発する音に応答して各音声センサにより生成されることとなる推定音源信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定したセンサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定センサ応答出力信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定した音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
各音声センサに対する推定したセンサ出力信号を対応する実際のセンサ出力信号と比較し、どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップと、
前記最も近い組の推定センサ出力信号に関連する前記候補音源位置を、選択された音源位置として指定するステップと
の動作を備えることを特徴とする態様1に記載のコンピュータ実装型プロセス。
〔態様3〕
各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定する前記プロセス動作は、
前記センサ出力信号を測定するステップと、
前記環境雑音信号を、前記音源信号と前記残響雑音信号とを含む信号成分を含まない前記測定したセンサ信号の部分に基づいて推定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様4〕
前記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定する前記プロセス動作は、
音源の位置を推定する前に、前記一組の候補音源位置を定めるステップと、
音源の位置を推定する前に、前記候補音源位置に関係する各音声センサの位置を定めるステップと、
各音声センサ及び各候補音源位置に対して、前記音源が前記候補音源位置に位置する場合に、前記音源が発する音の前記音声センサへの伝播時間を計算するステップと、
各センサ及び候補位置に対応する計算した伝播時間を用いて、前記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様5〕
前記一組の候補音源位置を定める前記プロセス動作は、前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの動作を含むことを特徴とする態様4に記載のコンピュータ実装型プロセス。
〔態様6〕
前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの前記プロセス動作は、前記複数の音声センサにより定義される平面内の、半径が増大していく一組の同心円の各々の周りの、一定間隔にある点を選択するステップの動作を含むことを特徴とする態様5に記載のコンピュータ実装型プロセス。
〔態様7〕
前記一組の候補音源位置を定める前記プロセス動作は、前記音源位置が位置することが分かっている前記環境の領域中の位置を選択するステップの動作を含むことを特徴とする態様4に記載のコンピュータ実装型プロセス。
〔態様8〕
前記一組の候補音源位置を定める前記プロセス動作は、
前記マイクロホンアレイから前記音源が位置する任意の方向を定めるステップと、
前記任意の方向にある前記環境の領域中の位置を選択するステップと
の動作を含むことを特徴とする態様4に記載のコンピュータ実装型プロセス。
〔態様9〕
どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップの前記プロセス動作は、
ωは着目する周波数を示し、Pを音声センサiの総数、αi(ω)を前記音声センサ応答の前記振幅副成分、γを所定の雑音パラメータ、|Xi(ω)|2を前記センサ信号Xi(ω)に対する音声センサの出力信号電力スペクトル、E{|Ni(ω)|2}を前記信号Xi(ω)の期待される環境雑音電力スペクトルとし、*は複素共役を示し、及びτiを、前記音源が前記候補音源位置にあった場合の前記音源が発する音の前記音声センサiへの伝播時間とした場合、各候補音源位置に対して、式
を計算するステップと、
前記式を最大化する前記候補音源位置を、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成する音源位置として指定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様10〕
どちらの候補音源位置が、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップの前記プロセス動作は、
ωは着目する周波数を示し、Pを音声センサiの総数、γを所定の雑音パラメータ、|Xi(ω)|2を前記センサ信号Xi(ω)に対する音声センサの出力信号電力スペクトル、E{|Ni(ω)|2}を前記信号Xi(ω)の期待される環境雑音電力スペクトル、及びτiを、前記音源が前記候補音源位置にあった場合の前記音源が発する音の前記音声センサiへの伝播時間とした場合、各候補音源位置に対して、式
を計算するステップと、
前記式を最大化する前記候補音源位置を、全体として前記音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成する音源位置として指定するステップと
の動作を含むことを特徴とする態様2に記載のコンピュータ実装型プロセス。
〔態様11〕
残響及び環境雑音を示す環境において音源の位置を推定するシステムであって、
前記音源が発する音を拾うように配置した2つ又は複数の音声センサを有するマイクロホンアレイと、
汎用目的コンピューティング装置と、
前記コンピューティング装置により実行可能なプログラムモジュールを含むコンピュータプログラムであって、前記コンピューティング装置は、前記コンピュータプログラムの前記プログラムモジュールにより、
前記音声センサの各々により出力される信号を入力し、
各音声センサ出力信号の周波数変換を計算し、
各々が前記音源の可能な位置を表す一組の候補音源位置を定め、
各候補音源位置及び各音声センサに対して、iがいずれかの音声センサを表すものとして、前記候補音源位置から前記音声センサまでの伝播時間τiを計算し、
各周波数変換した音声センサ出力信号の着目する各周波数に対して、
ωは着目するいずれかの周波数を表すものとし、前記信号に関連すると期待される環境雑音電力スペクトルである、前記信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を推定し、
前記信号Xi(ω)に対して音声センサ出力信号電力スペクトル|Xi(ω)|2を計算し、
前記信号Xi(ω)に関連する前記センサの音声センサ応答の振幅副成分αi(ω)を測定し、
Pを音声センサの総数とし、*は複素共役を示し、及びγを所定の雑音パラメータとした場合、各候補音源位置に対して式
を計算し、
前記式を最大化する前記候補音源位置を推定音源位置として指定するように指示されるコンピュータプログラムと
を含むシステム。
〔態様12〕
前記マイクロホンアレイにより出力される前記信号はデジタル信号であり、前記音声センサ出力信号の各々の着目する周波数、各信号の前記期待される環境雑音電力スペクトル、各信号の前記音声センサ出力信号電力スペクトル、及び前記信号に関連する前記音声センサ応答の前記振幅成分は、前記デジタル信号により定義される周波数ビンであり、前記式は、前記周波数に渡る積分としてではなく前記周波数ビンの全てに渡る総和として計算されることを特徴とする態様11に記載のシステム。
〔態様13〕
各音声センサ出力信号の周波数変換を計算する前記プログラムモジュールは、前記周波数変換を、前記音源により示されることが分かっている周波数のみに限定するためのサブモジュールを含むことを特徴とする態様11に記載のシステム。
〔態様14〕
前記所定の雑音パラメータγは0.1から0.5の間の範囲の値であることを特徴とする態様11に記載のシステム。
〔態様15〕
残響及び環境雑音を示す環境において音源の位置を推定するシステムであって、
前記音源が発する音を拾うように配置した2つ又は複数の音声センサを有するマイクロホンアレイと、
汎用目的コンピューティング装置と、
前記コンピューティング装置により実行可能なプログラムモジュールを含むコンピュータプログラムであって、前記コンピューティング装置は、前記コンピュータプログラムの前記プログラムモジュールにより、
前記音声センサの各々により出力される信号を入力し、
各音声センサ出力信号の周波数変換を計算し、
各々が前記音源の可能な位置を表す一組の候補音源位置を定め、
iがいずれかの音声センサを表すものとした場合に、各候補音源位置及び各音声センサに対して、前記候補音源位置から前記音声センサまでの伝播時間τiを計算し、
各周波数変換した音声センサ出力信号の着目する各周波数に対して、
ωは着目するいずれかの周波数を表すものとし、前記信号に関連すると期待される環境雑音電力スペクトルである、前記信号Xi(ω)の期待される環境雑音電力スペクトルE{|Ni(ω)|2}を推定し、
前記信号Xi(ω)に対して音声センサ出力信号電力スペクトル|Xi(ω)|2を計算し、
Pを音声センサの総数、及びγを所定の雑音パラメータとした場合、各候補音源位置に対して、
を計算し、
前記式を最大化する前記候補音源位置を推定音源位置として指定するように指示されるコンピュータプログラムと
を含むシステム。
〔態様16〕
前記マイクロホンアレイにより出力される前記信号はデジタル信号であり、前記音声センサ出力信号の各々の着目する周波数、各信号の前記期待される環境雑音電力スペクトル、及び各信号の前記音声センサ出力信号電力スペクトルは、前記デジタル信号により定義されるところの周波数ビンであり、前記式は前記周波数に渡る積分としてではなく前記周波数ビンの全てに渡る総和として計算されることを特徴とする態様15に記載のシステム。

Claims (10)

  1. 残響及び環境雑音を示す環境内の音源が発する音を拾うように配置した三つ以上の音声センサを有するマイクロホンアレイにより出力される信号を用いて音源の位置を推定するコンピュータ実装型プロセスであって、コンピュータを用いて実施する以下のプロセス動作、すなわち、
    前記音声センサの各々により出力される前記信号を入力するステップと、
    最尤計算を用いて音源の位置を特定するステップであって、前記音源の位置は、前記音源の位置から音が発せられた場合に、前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される信号をもたらすこととなる位置であり、前記最尤計算は、所与の音源位置から音が発せられた場合に、前記音声センサにより出力される信号を計算する際に、前記音声センサ毎の遅延副成分および振幅副成分を含む音声センサ応答の推定を用いるものであり、音声センサの前記センサ応答の遅延副成分は前記音源が発する音の前記音声センサへの伝播時間に依存し、音声センサの前記センサ応答の振幅副成分は前記音源が発する音の伝搬エネルギー減衰に依存する、特定するステップと、
    前記特定された音源の位置を推定音源位置として指定するステップと
    を備えることを特徴とするコンピュータ実装型プロセス。
  2. 前記音源の位置を特定する前記プロセス動作は、
    各センサ出力信号を、
    前記音源が発する音に応答して前記音声センサにより生成され、前記遅延副成分と前記振幅副成分とを含む前記センサ応答により修正される音源信号と、
    前記音源が発する前記音の残響に応答して前記音声センサにより生成される残響雑音信号と、
    環境雑音に応答して前記音声センサにより生成される環境雑音信号と
    を含む信号成分の組合せとして特徴付けるステップと、
    各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定するステップと、
    前記音声センサの各々に対する所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップであって、各候補音源位置は前記音源の可能な位置を表すステップと、
    前記センサの前記センサ応答により修正されていなければ前記音源が発する音に応答して各音声センサにより生成されることとなる推定音源信号を、各候補音源位置に対する各音声センサに関連する、測定又は推定したセンサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
    各音声センサに対する推定センサ出力信号を、各候補音源位置に対する各音声センサに関連する、推定音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を用いて計算するステップと、
    定したセンサ出力信号を対応する実際のセンサ出力信号と比較し、どの候補音源位置が、前三つ以上の音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定するステップと、
    前記最も近い組の推定センサ出力信号に関連する前記候補音源位置を、選択された音源位置として指定するステップと
    の動作を備えることを特徴とする請求項1に記載のコンピュータ実装型プロセス。
  3. 各音声センサに関連する前記センサ応答の振幅副成分、残響雑音信号及び環境雑音信号を測定又は推定する前記プロセス動作は、
    前記センサ出力信号を測定するステップと、
    前記環境雑音信号を、前記音源信号と前記残響雑音信号とを含む信号成分を含まない前記測定したセンサ信号の部分に基づいて推定するステップと
    の動作を含むことを特徴とする請求項2に記載のコンピュータ実装型プロセス。
  4. 記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定する前記プロセス動作は、
    音源の位置を推定する前に、前記一組の候補音源位置を定めるステップと、
    音源の位置を推定する前に、前記候補音源位置に関係する各音声センサの位置を定めるステップと、
    各音声センサ及び各候補音源位置に対して、前記音源が前記候補音源位置に位置する場合に、前記音源が発する音の前記音声センサへの伝播時間を計算するステップと、
    各センサ及び候補位置に対応する計算した伝播時間を用いて、前記音声センサの各々に対する前記所定の組の候補音源位置の各々に対して前記センサ応答の遅延副成分を推定するステップと
    の動作を含むことを特徴とする請求項2に記載のコンピュータ実装型プロセス。
  5. 前記一組の候補音源位置を定める前記プロセス動作は、前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの動作を含むことを特徴とする請求項4に記載のコンピュータ実装型プロセス。
  6. 前記マイクロホンアレイを取り囲む標準的なパターンで位置を選択するステップの前記プロセス動作は、前記三つ以上の音声センサにより定義される平面内の、半径が増大していく一組の同心円の各々の周りの、一定間隔にある点を選択するステップの動作を含むことを特徴とする請求項5に記載のコンピュータ実装型プロセス。
  7. 前記一組の候補音源位置を定める前記プロセス動作は、前記音源位置が位置することが分かっている前記環境の領域中の位置を選択するステップの動作を含むことを特徴とする請求項4に記載のコンピュータ実装型プロセス。
  8. 前記一組の候補音源位置を定める前記プロセス動作は、
    前記マイクロホンアレイから前記音源が位置する任意の方向を定めるステップと、
    前記任意の方向にある前記環境の領域中の位置を選択するステップと
    の動作を含むことを特徴とする請求項4に記載のコンピュータ実装型プロセス。
  9. 前記最尤計算は、所与の音源位置から音が発せられた場合に、前記音声センサにより出力される信号を計算する際に、測定又は推定した残響雑音信号および環境雑音信号をさらに用いるものであり、
    どの候補音源位置が、前記三つ以上の音声センサに対する前記実際のセンサ出力信号に最も近い一組の推定センサ出力信号を生成するかを判定することを含む、
    請求項1ないし8のうちいずれか一項記載のコンピュータ実装型プロセス。
  10. 前記音声センサにより出力される実際の信号に最も近似にマッチする、前記音声センサにより出力される信号をもたらすこととなる前記音源の位置は、
    音源信号、センサ応答の振幅副成分、残響雑音信号、環境雑音信号、及びセンサ応答の遅延副成分を与えられたときに前記三つ以上の音声センサに対する前記実際のセンサ出力信号が生じる尤度を最大にする候補音源位置を判定することによって特定される、
    請求項1ないし8のうちいずれか一項記載のコンピュータ実装型プロセス。
JP2016161417A 2007-01-26 2016-08-19 マルチセンサ音源定位 Active JP6335985B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/627,799 2007-01-26
US11/627,799 US8233353B2 (en) 2007-01-26 2007-01-26 Multi-sensor sound source localization

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014220389 Division 2014-10-29

Publications (2)

Publication Number Publication Date
JP2016218078A JP2016218078A (ja) 2016-12-22
JP6335985B2 true JP6335985B2 (ja) 2018-05-30

Family

ID=39644902

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2009547447A Pending JP2010517047A (ja) 2007-01-26 2008-01-26 マルチセンサ音源定位
JP2014220389A Active JP6042858B2 (ja) 2007-01-26 2014-10-29 マルチセンサ音源定位
JP2016161417A Active JP6335985B2 (ja) 2007-01-26 2016-08-19 マルチセンサ音源定位

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2009547447A Pending JP2010517047A (ja) 2007-01-26 2008-01-26 マルチセンサ音源定位
JP2014220389A Active JP6042858B2 (ja) 2007-01-26 2014-10-29 マルチセンサ音源定位

Country Status (6)

Country Link
US (1) US8233353B2 (ja)
EP (1) EP2123116B1 (ja)
JP (3) JP2010517047A (ja)
CN (1) CN101595739B (ja)
TW (1) TW200839737A (ja)
WO (1) WO2008092138A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007058130A1 (ja) * 2005-11-15 2007-05-24 Yamaha Corporation 遠隔会議装置及び放収音装置
JP4816221B2 (ja) * 2006-04-21 2011-11-16 ヤマハ株式会社 収音装置および音声会議装置
CN101512374B (zh) * 2006-11-09 2012-04-11 松下电器产业株式会社 声源位置检测装置
KR101483269B1 (ko) * 2008-05-06 2015-01-21 삼성전자주식회사 로봇의 음원 위치 탐색 방법 및 그 장치
US8989882B2 (en) 2008-08-06 2015-03-24 At&T Intellectual Property I, L.P. Method and apparatus for managing presentation of media content
CN102257401B (zh) * 2008-12-16 2014-04-02 皇家飞利浦电子股份有限公司 使用粒子滤波估计声源地点
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
TWI417563B (zh) * 2009-11-20 2013-12-01 Univ Nat Cheng Kung 遠距離音源定位晶片裝置及其方法
CN101762806B (zh) * 2010-01-27 2013-03-13 华为终端有限公司 声源定位方法和装置
US8861756B2 (en) 2010-09-24 2014-10-14 LI Creative Technologies, Inc. Microphone array system
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN102147458B (zh) * 2010-12-17 2013-03-13 中国科学院声学研究所 一种针对宽带声源的波达方向估计方法及其装置
CN102809742B (zh) 2011-06-01 2015-03-18 杜比实验室特许公司 声源定位设备和方法
HU1200197A2 (hu) * 2012-04-03 2013-10-28 Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem Eljárás és elrendezés környezeti zaj valós idejû, forrásszelektív monitorozására és térképezésére
US9251436B2 (en) 2013-02-26 2016-02-02 Mitsubishi Electric Research Laboratories, Inc. Method for localizing sources of signals in reverberant environments using sparse optimization
CN105308681B (zh) 2013-02-26 2019-02-12 皇家飞利浦有限公司 用于生成语音信号的方法和装置
CN105144747B9 (zh) * 2013-03-14 2017-05-10 苹果公司 用于对设备的取向进行广播的声学信标
US20140328505A1 (en) * 2013-05-02 2014-11-06 Microsoft Corporation Sound field adaptation based upon user tracking
GB2516314B (en) * 2013-07-19 2017-03-08 Canon Kk Method and apparatus for sound sources localization with improved secondary sources localization
FR3011377B1 (fr) * 2013-10-01 2015-11-06 Aldebaran Robotics METHOD FOR LOCATING A SOUND SOURCE AND HUMANOID ROBOT USING SUCH A METHOD
US9544687B2 (en) * 2014-01-09 2017-01-10 Qualcomm Technologies International, Ltd. Audio distortion compensation method and acoustic channel estimation method for use with same
CN103778288B (zh) * 2014-01-15 2017-05-17 河南科技大学 基于蚁群优化的非均匀阵元噪声条件下近场声源定位方法
US9774995B2 (en) * 2014-05-09 2017-09-26 Microsoft Technology Licensing, Llc Location tracking based on overlapping geo-fences
US9685730B2 (en) 2014-09-12 2017-06-20 Steelcase Inc. Floor power distribution system
US9584910B2 (en) 2014-12-17 2017-02-28 Steelcase Inc. Sound gathering system
DE102015002962A1 (de) 2015-03-07 2016-09-08 Hella Kgaa Hueck & Co. Verfahren zur Lokalisierung einer Signalquelle eines Körperschallsignals, insbesondere eines durch mindestens ein Schadensereignis erzeugtes Körperschallsignal an einem flächig ausgebildeten Bauteil
WO2016208173A1 (ja) * 2015-06-26 2016-12-29 日本電気株式会社 信号検知装置、信号検知方法および記録媒体
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
WO2017007848A1 (en) 2015-07-06 2017-01-12 Dolby Laboratories Licensing Corporation Estimation of reverberant energy component from active audio source
CN105785319B (zh) * 2016-05-20 2018-03-20 中国民用航空总局第二研究所 机场场面目标声学定位方法、装置及系统
US20180317006A1 (en) 2017-04-28 2018-11-01 Qualcomm Incorporated Microphone configurations
US10176808B1 (en) 2017-06-20 2019-01-08 Microsoft Technology Licensing, Llc Utilizing spoken cues to influence response rendering for virtual assistants
EP3531090A1 (en) * 2018-02-27 2019-08-28 Distran AG Estimation of the sensitivity of a detector device comprising a transducer array
CN110035379B (zh) * 2019-03-28 2020-08-25 维沃移动通信有限公司 一种定位方法及终端设备

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60108779A (en) * 1983-11-18 1985-06-14 Matsushita Electric Ind Co Ltd Sound source position measuring apparatus
JPH04238284A (en) * 1991-01-22 1992-08-26 Oki Electric Ind Co Ltd Sound source position estimating device
JPH0545439A (ja) * 1991-08-12 1993-02-23 Oki Electric Ind Co Ltd 音源位置推定装置
JP2570110B2 (ja) * 1993-06-08 1997-01-08 日本電気株式会社 水中音源位置推定システム
JP3572594B2 (ja) * 1995-07-05 2004-10-06 株式会社ダイマジック 信号源探査方法及び装置
JP2641417B2 (ja) * 1996-05-09 1997-08-13 安川商事株式会社 時空間微分法を用いた計測装置
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
DE19646055A1 (de) * 1996-11-07 1998-05-14 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Abbildung von Schallquellen auf Lautsprecher
JPH11304906A (ja) * 1998-04-20 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> 音源位置推定方法およびそのプログラムを記録した記録媒体
JP2001352530A (ja) * 2000-06-09 2001-12-21 Nippon Telegr & Teleph Corp <Ntt> 通信会議装置
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
JP4722347B2 (ja) * 2000-10-02 2011-07-13 中部電力株式会社 音源探査システム
JP2002277228A (ja) * 2001-03-15 2002-09-25 Kansai Electric Power Co Inc:The 音源位置標定方法
US7349005B2 (en) * 2001-06-14 2008-03-25 Microsoft Corporation Automated video production system and method using expert video production rules for online publishing of lectures
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation 音声認識装置、その音声認識方法及びプログラム
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
FR2841022B1 (fr) * 2002-06-12 2004-08-27 Centre Nat Rech Scient METHOD FOR LOCATING AN IMPACT ON A SURFACE AND DEVICE FOR IMPLEMENTING SAID METHOD
US7039199B2 (en) * 2002-08-26 2006-05-02 Microsoft Corporation System and process for locating a speaker using 360 degree sound source localization
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
US6882959B2 (en) * 2003-05-02 2005-04-19 Microsoft Corporation System and process for tracking an object state using a particle filter sensor fusion technique
US6999593B2 (en) * 2003-05-28 2006-02-14 Microsoft Corporation System and process for robust sound source localization
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
JP4080987B2 (ja) * 2003-10-30 2008-04-23 日本電信電話株式会社 エコー・雑音抑制方法および多チャネル拡声通話システム
US6970796B2 (en) * 2004-03-01 2005-11-29 Microsoft Corporation System and method for improving the precision of localization estimates
CN1808571A (zh) * 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离系统及方法
CN1832633A (zh) * 2005-03-07 2006-09-13 华为技术有限公司 一种声源定位方法
US7583808B2 (en) * 2005-03-28 2009-09-01 Mitsubishi Electric Research Laboratories, Inc. Locating and tracking acoustic sources with microphone arrays
CN1952684A (zh) * 2005-10-20 2007-04-25 松下电器产业株式会社 利用麦克风定位声源的方法和装置

Also Published As

Publication number Publication date
WO2008092138A1 (en) 2008-07-31
CN101595739B (zh) 2012-11-14
JP2016218078A (ja) 2016-12-22
CN101595739A (zh) 2009-12-02
TW200839737A (en) 2008-10-01
US8233353B2 (en) 2012-07-31
JP2010517047A (ja) 2010-05-20
EP2123116A1 (en) 2009-11-25
EP2123116A4 (en) 2012-09-19
US20080181430A1 (en) 2008-07-31
JP2015042989A (ja) 2015-03-05
JP6042858B2 (ja) 2016-12-14
EP2123116B1 (en) 2014-06-11

Similar Documents

Publication Publication Date Title
US10063965B2 (en) Sound source estimation using neural networks
JP2017102488A (ja) 源信号分離のためのシステム及び方法
US20200058316A1 (en) Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US9460732B2 (en) Signal source separation
US9622003B2 (en) Speaker localization
JP5710792B2 (ja) 可聴音と超音波とを用いたソース特定のためのシステム、方法、装置、およびコンピュータ可読媒体
Ho et al. Passive source localization using time differences of arrival and gain ratios of arrival
Cobos et al. A survey of sound source localization methods in wireless acoustic sensor networks
TWI647961B (zh) 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置
US9100734B2 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
JP3906230B2 (ja) 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US9354295B2 (en) Systems, methods, and apparatus for estimating direction of arrival
US7415117B2 (en) System and method for beamforming using a microphone array
US9232332B2 (en) Microphone calibration
Habets et al. Generating sensor signals in isotropic noise fields
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
US7720679B2 (en) Speech recognition apparatus, speech recognition apparatus and program thereof
US8891785B2 (en) Processing signals
US6999593B2 (en) System and process for robust sound source localization
CN101595739B (zh) 多传感器声源定位
Gunel et al. Acoustic source separation of convolutive mixtures based on intensity vector statistics
KR101442446B1 (ko) 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
US9042573B2 (en) Processing signals
US8098842B2 (en) Enhanced beamforming for arrays of directional microphones

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180501

R150 Certificate of patent or registration of utility model

Ref document number: 6335985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150