JP2017151221A - 音源定位装置、方法、及びプログラム - Google Patents

音源定位装置、方法、及びプログラム Download PDF

Info

Publication number
JP2017151221A
JP2017151221A JP2016032366A JP2016032366A JP2017151221A JP 2017151221 A JP2017151221 A JP 2017151221A JP 2016032366 A JP2016032366 A JP 2016032366A JP 2016032366 A JP2016032366 A JP 2016032366A JP 2017151221 A JP2017151221 A JP 2017151221A
Authority
JP
Japan
Prior art keywords
frequency
sound source
time
observation
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016032366A
Other languages
English (en)
Other versions
JP6488245B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
惇 鈴木
Jun Suzuki
惇 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016032366A priority Critical patent/JP6488245B2/ja
Publication of JP2017151221A publication Critical patent/JP2017151221A/ja
Application granted granted Critical
Publication of JP6488245B2 publication Critical patent/JP6488245B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】雑音が存在する場合であっても、複数の音源を同時に定位することができるようにする。
【解決手段】空間差分算出部22が、複数の方向に対し、観測信号の差分を算出し、時間周波数展開部24が、基準のマイクロホンの観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、複数の方向に対して算出された観測信号の差分を入力として、複数の方向に対して、各周波数の観測時間周波数成分を出力する。音源位置推定部25が、音源拘束偏微分方程式の周波数領域表現を用いて定められた、複数の音源と加法雑音が存在する場合における、複数の音源の位置を条件とした、基準のマイクロホンの各周波数の観測時間周波数成分、及び複数の方向に対する各周波数の観測時間周波数成分の確率密度値を大きくし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、複数の音源の各々の位置を推定する。
【選択図】図3

Description

本発明は、音源定位装置、方法、及びプログラムに係り、特に、音響信号から、音源の位置を推定する音源定位装置、方法、及びプログラムに関する。
波源定位は、レーダやソナーといった幅広い応用を有している。特に、小さいアレイで、移動する波源を瞬時に定位し追跡できるようにすることは重要課題である。波源定位問題に対する従来法としては、Multiple Signal Classication (MUSIC) 法、Generalized Cross-Correlation methods with Phase Transform (GCC-PHAT) 法、波源拘束偏微分方程式に基づく手法(非特許文献1〜3)などがある。
MUSIC 法やGCC-PHAT 法は、音源に対し平面波を仮定し各音源のセンサ間での到来時間差を定位の手がかりとするため、一般にアレイサイズは大きい方が有利となる。また、いずれもセンサアレイの受信信号間の自己相関関数や相互相関関数といった、統計量に基づく手法であるため、音源を高い精度で定位するためには観測時間幅を十分長く取る必要がある。このため、これらの手法は小さいアレイサイズと瞬時的な観測のみによる波源定位には必ずしも向いていない。一方、波源拘束偏微分方程式に基づく手法は、各時刻ごとに成立する音響信号の時空間偏微分方程式を元に音源定位を行うもので、理論的には瞬時の小領域観測のみで波源定位を行うことが可能である。
藤田悠哉, 小野順貴, 安藤繁, "有限時間窓と離散フーリエ変換の利用を可能にする音源定位の高速厳密解法とその実験" 日本音響学会2006 年秋季研究発表会講演論文集, 3-1-3, pp. 483-484, Sep. 2006. S. Ando, N. Ono, T. Nara, "Direct algebraic method for sound source localization with nest resolution both in time and frequency," in Proc. ICSV14, Jul. 2007. 小山翔一, 栗原徹, 安藤繁, "偏微分方程式の空間荷重積分による瞬時音源定位," 日本音響学会2008 年秋季研究発表会講演論文集, 2-8-20, pp. 679-682, Sep. 2008.
しかしながら、上記の波源拘束偏微分方程式に基づく手法は単一波源に対して成立する方程式をベースとしているため、複数の音源を同時に定位することはできない。また、雑音が存在する場合など、観測音響信号が偏微分方程式から逸脱する場合に脆弱であるという欠点を有している。
本発明は、上記事情を鑑みてなされたものであり、雑音が存在する場合であっても、複数の音源を同時に定位することができる音源定位装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音源定位装置は、マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置であって、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出する空間差分算出部と、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力する時間周波数展開部と、前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、前記複数の音源の各々の位置を推定する音源位置推定部と、を含んで構成されている。
本発明に係る音源定位方法は、マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置における音源定位方法であって、空間差分算出部が、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出し、時間周波数展開部が、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力し、音源位置推定部が、前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、前記複数の音源の各々の位置を推定する。
本発明に係るプログラムは、上記の音源定位装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の音源定位装置、方法、及びプログラムによれば、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、前記複数の音源の各々の位置を推定することにより、雑音が存在する場合であっても、複数の音源を同時に定位することができる、という効果が得られる。
点音源から観測点rへ到来する球面波を示す図である。 マイクロホンアレイの配置の一例を示す図である。 本発明の実施の形態に係る音源定位装置の構成を示す概略図である。 本発明の実施の形態に係る音源定位装置における音源定位処理ルーチンの内容を示すフローチャートである。 フレーム幅がL = 16 の場合の実験結果を示す図である。 フレーム幅がL = 32 の場合の実験結果を示す図である。 フレーム幅がL = 64 の場合の実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音響信号から波源位置を推定することを目的とした信号処理技術である。
<本発明の実施の形態の概要>
本発明の実施の形態は、上述した従来手法の利点を併せ持つ、小領域・瞬時観測による複数音源の波源定位を可能にする技術である。
本発明の実施の形態では、音源拘束偏微分方程式の周波数領域表現をベースにした音響信号の確率分布と、雑音を含む全音源のスパース性の仮定(複数の音源が混在する音響信号の時間周波数表現において、各時間周波数点で高々一つの音源のみが支配的であるという仮定)に基づき、Expectation-Maximization (EM) アルゴリズムにより各時間周波数点でどの音源が支配的らしいかを推定しながら各音源の波源定位を行う。
<本発明の実施の形態の原理>
次に、音源の位置を推定する原理について説明する。
<音源拘束偏微分方程式>
図1に示すように、観測点の基準となる位置ベクトルを

とし、単一波源の位置ベクトルを

とする。波源の信号をg(t)、音速をc とし、単一点波源からの球面波伝播を仮定すると観測点における観測値は

と表される。ここで、

である。観測点から波源方向へ向かう単位ベクトルをn とすると、

であるため、f(r, t) の空間微分は、

となる。また、f(r, t) の時間微分は

となるので、式(1) と式(8) を式(7) に代入することでgが消去され、

のように、観測信号とその時間・空間微分のみを含む方程式を立てることができる。ただし、R = |r − r0|は観測点から波源までの距離である。この式を音源拘束式と呼ぶ(上記非特許文献1〜3)。以上のように音源拘束式は、任意の音源信号波形で成り立つ、音源の位置と空間の場の一意な関係を記述する偏微分方程式である。
<音源拘束偏微分方程式に基づく音響信号の確率モデル化>
図2のようなマイクロホンアレイで、観測信号の空間微分を空間差分で近似する場合を考える。図2に示す観測信号fの空間微分を取得するためのアレイ幾何の例では、例えばx方向のfの空間微分は、(f1,t −f2,t)/2Dで近似できる。
ただし、マイクロホンアレイの配置は、観測信号の空間微分を空間差分で近似できるものであれば良く、以下の理論は図2の配置に限らない。図2のマイクロホンアレイの場合、7本のマイクロホンを用いて各時刻tlで、基準点における信号f0,l およびその各方向の空間差分



を得ることができる。ただし、lは離散時刻のインデックスを表す。
基準点における観測信号の時間微分を時間差分で近似することにすると、式(9) は

と表せる。ただし、nx、ny、nz はそれぞれ のx, y, z 方向の成分、T はサンプリング周期である。
式(10) の左辺を右辺に移項すると

が得られる。ここで、f0,l, fx,l, fy,l, fz,l を窓関数で窓掛けして取得された信号とする。切り出し区間の両端点の影響を無視できるものとすると、式(11) は周波数領域で

と表される。ただし、F0,m, Fx,m, Fy,m, Fz,m はf0,m, fx,m, fy,m, fz,m の離散Fourier 変換であり、m は離散周波数インデックスである。
式(12) の右辺は雑音の存在や差分近似に伴う誤差により実際には必ずしも厳密に0 にはならない。
そこで、式(11) の右辺を

のように誤差変数εx,m, εy,m, εz,m に置き換え、これらを平均が0 で互いに独立な正規確率変数(複素正規分布に従う確率変数)

と仮定する。また、観測点における観測信号の各周波数成分を平均が0、分散がσ2 0,m の正規確率変数とする。これは、

と仮定することに相当する。
ここで、Fx,m, Fy,m, Fz,m, F0,m を並べたベクトルとεx,m, εy,m, εz,m, ε0,m を並べたベクトルを


とし、f0,..., fL/2 を連結したベクトルとε0,...,εL/2を連結したベクトルを

と表記すると、式(13) は

の形で書ける。ただし、θ= {R,n} であり、A(θ) は

で与えられる。式(14), (16) より、εは平均が0、分散共分散行列が

の複素正規分布

に従う。

(A(θ) は正則)であるので、f は

と表され、式(24) より、

が言える。従って、観測信号およびその空間差分が与えられた下での最尤音源位置^θは

により得られる。
<複数音源の定位アルゴリズム>
音声信号や楽音など実世界の音響信号の多くは時間周波数成分がスパースである。従って、複数の音源が存在する場合でも、各時間周波数点では高々一つの音源のみが支配的であると仮定できる場合が多い。この音源の時間周波数成分のスパース性の仮定と以上のfの確率モデル化に基づき、音源が複数個存在する場合、および雑音が存在する場合の観測信号の確率分布を導くことができる。
信号の切り出しフレームの時刻のインデックスをn = 0,...,N-1、音源インデックスをk = 1,...,K + 1、音源k の音源位置パラメータをθ(k) = {R(k),n(k)}、観測基準点における時間周波数成分のパワー

をσ0,m,n (k)2 とする。また、k = K +1 は雑音に対応するものとする。ここで、雑音を含む全音源の時間周波数成分のスパース性を仮定し、周波数m,時刻n においてzm,n番目の音源のみが支配的であるとき、それ以外の音源のパワーを0 とする。このとき、所与のzm,n の下での観測信号の時間周波数成分とその空間差分

(以後単に観測信号と呼ぶ)の条件付き確率密度関数は

で与えられる。ただし、Σm,n (k)

である。また、Γm,n は雑音の時間周波数成分の分散共分散行列で、周波数にのみ依存する正規化分散共分散行列モデルWm と時刻にも依存する雑音のパワーν2 m,nの積

で表されるものとする。Wm の設定方法については後述する。

は、各音源kの音源位置θ(k)と各音源kの音源信号の成分エネルギーσ(k) 0,m 2とを含むすべての未知パラメータを表す。zm,n の事前確率をP(zm,n= k) = α(k) m,n とすると、観測信号

の確率密度関数(

の尤度関数)は、以下の式となる。
以上より、複数の音源と雑音が存在する場合の各音源の最尤音源位置

は、観測信号yが与えられた下で

を解くことにより得られる。
y を不完全データと見なし、yと

を完全データと見なすことで、以上の最尤推定問題に対しExpectation-Maximization (EM) アルゴリズムを適用することができる。完全データ対数尤度


で与えられるので、y が与えられた下での

のZに関する条件付き期待値(Q 関数)は
で与えられる。この関数が増大するように

を更新するステップ(M ステップ)と、更新した

に代入し、

を計算するステップ(E ステップ)とを繰り返すことで

を局所的に最大にする

を求めることができる。以上より、本発明の実施の形態で説明する複数音源定位アルゴリズムは、以下の初期設定、Eステップ、Mステップからなる。
(初期ステップ)

を初期設定する。
(E ステップ)

に代入し、式(40) によりη(k) m,n を計算する。
(Mステップ)

が増大するように

を更新し、Eステップに戻る。
M ステップでは

を最大にするn(k), R(k)(k) 0,m,n 2m,n,α(k) m,nの同時最適解を解析的に求めることは難しいが、座標勾配法によりそれぞれの変数に関して

が最大となるように反復更新することで

を局所最大化することができる(EM アルゴリズムでは、M ステップで補助関数が単調に増大することが保証されていれば収束性は保証される)。以下に、M ステップの更新方法を1 例示す。
<混合比α(k) m,nの更新式>
ここまでは混合比α(k) m,n を時刻nと周波数mに依存する変数と見なしたが、すべてのn において等しい場合、すべてのm において等しい場合、すべてのm, n において等しい場合など、さまざまなバリエーションが考えられる。そこで、ここではα(k) m,n を以下の(a)〜(d)の場合の更新式を導く。
(a) そのまま変数として扱う場合
(b) 時刻n に依らない変数に制約する場合(α(k) m,n = π(k) m
(c) 周波数m に依らない変数に制約する場合(α(k) m,n(k) n
(d) 時刻n にも周波数m にも依らない変数に制約する場合(α(k) m,n = w(k)

の形に制約する場合

の中でα(k) m,n に依存する項は

である。ただし、=ξはξに関係する項のみについての等号を表すものとする。いずれの場合でもα(k) m,n

を満たす必要がある。従って、α(k) m,nの更新式は(a)〜(d) のケースでは

のようなラグランジアンを用いたLagrange 未定乗数法により得ることができる。それぞれのラグランジアンをα(k) m,n、π(k) m、ρ(k) n に関して偏微分し、0 と置くことにより、

を得る。
<音源方向n(k)の更新式>
n(k)は単位ベクトルなので、

の制約下で

ができるだけ大きくなるようにn(k) を更新する。この制約つき最適化問題は、

のようなラグランジアンを用いてLagrange 未定乗数法で解くことができる。i 行j 列目の要素のみが1 で残りは0 であるような4×4 行列をEi,jとすると、Cm(k)) は

のようにn(k)に依存する項とそうでない項に分解できるので、L(n(k)) のn(k) に関する偏微分


を0 と置くことにより、

を得る。あとはn(k) x 2+n(k) y 2+n(k) z 2= 1 となるようにγ(k)を二分法などで探索し、式(55)〜(57) に代入すれば良い。
<音源距離R(k)の更新式>

とする。上記と同様、Cm(k)) は


のようにS(k) に依存する項とそうでない項に分解することができるので、

のS(k)に関する偏微分

を0 と置くことにより、

を得る。行列要素ごとの表記にすると

となる。ただし、

である。式(62) の分子における

はFast Fourier Transform (FFT) を用いて効率的に計算することができる。
<パワーσ(k) 0,m,n 2 の更新式>
上記と同様、Σ(k)-1 m,n

のようにσ(k) 0,m,n 2 に依存する項とそうでない項に分解できるので、

のσ(k) 0,m,n 2 に関する偏微分を0 と置くことにより、

を得る。
<雑音分散共分散行列Γの更新式>
雑音の分散共分散行列を

のように、正規化分散共分散行列モデルWm と周波数m、時刻nにおけるエネルギーν2 m,nの積で表し、ν2 m,nを推定すべき変数とする。後述するがWm は空間無相関モデルや拡散音場モデルなどから導かれる定数行列である。

のν2 m,n に関する偏微分

を0 と置くことにより、

を得る。
また、雑音エネルギーが時刻に依存しない場合を考える。この場合、雑音エネルギーはν2 mで表され、雑音の分散共分散行列は

となる。上記と同様、

のν2 mに関する偏微分

を0 と置くことにより、

を得る。
<正規化分散共分散行列モデルW の設定方法>
ここでは雑音の空間相関行列から正規化分散共分散行列モデルWm の設定例を述べる。図2 のような7 本のマイクロホンの配置を想定する。ここで,fi,0,...,fi,L-1のFourier 変換をFi,0,...,Fi,L-1とする。~fm = (F0,m,...,F6,m)Tおよびfm = (Fx,m, Fy,m, Fz,m, F0,m)T の関係は

と書かれることから、~fm= (F0,m,...,F6,m)T の分散共分散行列をΨm とすると、fmの分散共分散行列はBΨmBT となる。従って、例えば空間的に無相関で等しいパワーの雑音を仮定する場合、Ψm は単位行列となるため、fmの分散共分散行列Wm

と置けば良い。
ある区域内で、エネルギー密度が一様でかつすべての方向に対するエネルギーの流れが等しい確率であるとみなせる分布をしている音場を拡散音場といい、残響環境の音場を良く近似的に表すことが知られている。拡散音場においては、2点間の空間相関係数が距離d にのみ依存し、

で与えられる。従って、拡散性雑音を仮定する場合、図2 のようなアレイ幾何の例では、~fm =(F0,m,...,F6,m)Tの分散共分散行列Ψm

となる。これを用いて、fmの分散共分散行列Wm をBΨmBT と置けば良い。
<システム構成>
次に、マイクロホンアレイにより入力された音響信号から、複数の音源の位置を推定する音源定位装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図3に示すように、本発明の実施の形態に係る音源定位装置100は、CPUと、RAMと、音源定位処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図3に示すように、音源定位装置100は、入力部10と、演算部20と、出力部90とを備えている。
入力部10は、上記図2に示すようなマイクロホンアレイの各マイクロホンから出力された、複数の音源からの音源信号が混じっている音響信号(以後、観測信号)の時系列データを受け付ける。
演算部20は、空間差分算出部22と、時間周波数展開部24と、音源位置推定部25と、を含んで構成されている。
空間差分算出部22は、マイクロホンアレイの各マイクロホンから出力された観測信号から、各時刻tlで、基準点のマイクロホンにおける観測信号f0,lを取得すると共に、以下の式に従って、各方向x、y、zの空間差分fx,l,fy,l,fz,lを算出する。


時間周波数展開部24は、空間差分算出部22により得られた、基準点のマイクロホンにおける各時刻tlの観測信号f0,lから、各周波数mの観測時間周波数成分F0,mを計算する。また、時間周波数展開部24は、空間差分算出部22により得られた、各時刻tlの各方向x、y、zの空間差分fx,l,fy,l,fz,lから、各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,mを計算する。本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
音源位置推定部25は、時間周波数展開部24において取得した各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,m,F0,mからなる観測周波数成分yに基づいて、EMアルゴリズムを用いて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、複数の音源と加法雑音が存在する場合における、複数の音源の各々の位置を含む未知パラメータを条件とした、観測周波数成分yの確率分布

を大きくし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、複数の音源の各々の位置を推定する。
具体的には、音源位置推定部25は、期待値算出部26と、変数更新部28と、収束判定部30とを備えている。
期待値算出部26は、時間周波数展開部24において取得した各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,m,F0,mからなる観測周波数成分yと、初期設定された、又は前回更新された各音源kの音源位置θ(k)と、初期設定された、又は前回更新された各音源kの音源信号の成分エネルギーσ(k) 0,m,n 2とを含む未知パラメータに基づいて、各音源k、各時刻n、及び各周波数mについて、上記式(40) によりη(k) m,nを計算する。
変数更新部28は、期待値算出部26によって算出されたη(k) m,nに基づいて、

ができるだけ大きくなるように、上記式(47)〜式(50)の何れかと、式(55)〜式(57)と、式(62)と、式(67)〜式(68)と、式(74)とに従って、各音源kの方向ベクトルn(k),音源距離R(k),パワーσ(k) 0,m,n 2,混合比α(k) m,n,雑音共分散行列Γを更新する。
収束判定部30は、予め定められた収束判定条件を満たすまで、期待値算出部26及び変数更新部28による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。
収束判定条件を満たしたときに、最終的に得られた各音源kの方向ベクトルn(k)、音源距離R(k)を、各音源kの位置の推定結果として、出力部90により出力する。
<音源定位装置の作用>
次に、本実施の形態に係る音源定位装置100の作用について説明する。
入力部10において、マイクロホンアレイの各マイクロホンから出力された観測信号の時系列データを受け付けると、音源定位装置100は、図4に示す音源定位処理ルーチンを実行する。
まず、ステップS120では、マイクロホンアレイの各マイクロホンから入力された観測信号の時系列データから、各時刻tlで、基準点のマイクロホンにおける観測信号f0,lを取得すると共に、各方向x、y、zの空間差分fx,l,fy,l,fz,lを算出する。
ステップS121では、上記ステップS120で得られた基準点のマイクロホンにおける各時刻tlの観測信号f0,lから、各周波数mの観測時間周波数成分F0,mを計算する。また、各時刻tlの各方向x、y、zの空間差分fx,l,fy,l,fz,lから、各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,mを計算する。
ステップS122では、各音源kの音源位置θ(k)と各音源kの音源信号の成分エネルギーσ(k) 0,m,n 2と各音源kの混合比α(k) m,nと雑音共分散行列Γとを含む未知パラメータに初期値を設定する。
そして、ステップS123では、上記ステップS121で取得した各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,m,F0,mからなる観測周波数成分yと、上記ステップS122で初期設定された、又は後述するステップS124で前回更新された各音源kの音源位置θ(k)、音源信号のパワーσ(k) 0,m,n 2、混合比α(k) m,n、及び雑音共分散行列Γに基づいて、上記式(40) によりη(k) m,nを計算する。
ステップS124では、上記ステップS123で算出されたη(k) m,nに基づいて、

ができるだけ大きくなるように、上記式(47)〜式(50)の何れかと、式(55)〜式(57)と、式(62)と、式(67)〜式(68)と、式(74)とに従って、各音源kの方向ベクトルn(k),音源距離R(k),パワーσ(k) 0,m,n 2,混合比α(k) m,n,雑音共分散行列Γを更新する。
ステップS125において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS123へ戻る。一方、収束判定条件を満たした場合には、ステップS126へ進む。
ステップS126では、上記ステップS124で最終的に得られた各音源kの方向ベクトルn(k),音源距離R(k)を、各音源kの位置の推定結果として、出力部90により出力して、音源定位処理ルーチンを終了する。
<実験>
以下の条件で残響環境下の音源定位実験を行った。
(実験条件)
音源数: 1(+ 拡散雑音)
音源位置: マイク中心+ [-1.73; 1.0; 0.0], マイク中心+[2.0; 2.0; 0.0], マイク中心+[0.0; -2.0; 0.0]
部屋サイズ: [6.0; 10.0; 8.0] (中心にマイクを配置)
壁面の反射係数: 0.01, 0.5, 0.8(残響の影響の大きさに相当)
マイク間隔: 0.01, 0.1 [m]
フレーム幅: 16, 32, 64 [点]
実験フレーム数: 2x10(ファイル) (無音区間は含まれていない)
マイク位置が3か所あるので、1 条件当たり実質60 回のデータとなる。
評価指標として、誤差の二乗和平方根(rad)を用いた。
図5〜7に実験結果を示す。単一音源のみの存在を仮定した尤度関数(式(28))を最大にする方法(従来法に相当し,図中の”OneSrc" はこの方法を意味する。)と比べ、高精度な定位が行えていることが分かった。
以上説明したように、本実施の形態に係る音源定位装置によれば、音源拘束偏微分方程式の周波数領域表現を用いて定められた、複数の音源と加法雑音が存在する場合における、複数の音源の各々の位置を条件とした、基準のマイクロホンの各周波数の観測時間周波数成分、及び複数の方向の各々に対する各周波数の観測時間周波数成分の確率分布を大きくし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、複数の音源の各々の位置を推定することにより、雑音が存在する場合であっても、複数の音源を同時に定位することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の音源定位装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
22 空間差分算出部
24 時間周波数展開部
25 音源位置推定部
26 期待値算出部
28 変数更新部
30 収束判定部
90 出力部
100 音源定位装置

Claims (7)

  1. マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置であって、
    複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出する空間差分算出部と、
    前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力する時間周波数展開部と、
    前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、前記複数の音源の各々の位置を推定する音源位置推定部と、
    を含む音源定位装置。
  2. 前記確率密度値は、以下の式で表わされる請求項1記載の音源定位装置。




    ただし、nが、時刻のインデックスであり、ym,nが、時刻nの前記基準のマイクロホンの周波数mの観測時間周波数成分、及び時刻nの前記複数の方向の各々に対する周波数mの観測時間周波数成分を表し、zm,nは、時刻nの周波数mにおいて支配的な音源を表す変数であり、kは、音源のインデックスであり、K+1は、雑音を表し、Γは、前記加法雑音の周波数mの分散共分散行列であり、θ(k)は、音源kの位置を表し、σx,m (k)2、σy,m (k)2、σz,m (k)2は、音源kからの音源信号の方向x、y、zの差分における周波数mの成分エネルギーを表し、σ0,m,n (k)2は、音源kからの音源信号の前記基準のマイクロホンにおける時刻nの周波数mの成分エネルギーを表し、Rは、音源までの距離を表し、cは、音速を表し、Lは、周波数のインデッックスを規定するための定数であり、Tは、サンプリング周期を表し、nx、ny、nzは、音源へ向かう単位ベクトルの方向x、y、zの成分を表す。
  3. 前記音源位置推定部は、EM(Expectation-Maximization)アルゴリズムにより、前記確率密度値が大きくなり、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、複数の音源kの各々までの距離R(k)、前記複数の音源kの各々へ向かう単位ベクトルn(k)、前記複数の音源kの各々の前記基準のマイクロホンにおける時刻nの周波数mの成分エネルギーσ0,m,n (k)2、前記複数の音源kの各々についての時刻nの周波数mにおける混合比αm,n (k)、及び前記加法雑音の周波数mの分散共分散行列Γを繰り返し更新することにより、前記複数の音源の各々の位置を推定する請求項2記載の音源定位装置。
  4. マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置における音源定位方法であって、
    空間差分算出部が、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出し、
    時間周波数展開部が、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力し、
    音源位置推定部が、前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくし、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、前記複数の音源の各々の位置を推定する
    音源定位方法。
  5. 前記確率密度値は、以下の式で表わされる請求項4記載の音源定位方法。




    ただし、nが、時刻のインデックスであり、ym,nが、時刻nの前記基準のマイクロホンの周波数mの観測時間周波数成分、及び時刻nの前記複数の方向の各々に対する周波数mの観測時間周波数成分を表し、zm,nは、時刻nの周波数mにおいて支配的な音源を表す変数であり、kは、音源のインデックスであり、K+1は、雑音を表し、Γは、前記加法雑音の周波数mの分散共分散行列であり、θ(k)は、音源kの位置を表し、σx,m (k)2、σy,m (k)2、σz,m (k)2は、音源kからの音源信号の方向x、y、zの差分における周波数mの成分エネルギーを表し、σ0,m,n (k)2は、音源kからの音源信号の前記基準のマイクロホンにおける時刻nの周波数mの成分エネルギーを表し、Rは、音源までの距離を表し、cは、音速を表し、Lは、周波数のインデッックスを規定するための定数であり、Tは、サンプリング周期を表し、nx、ny、nzは、音源へ向かう単位ベクトルの方向x、y、zの成分を表す。
  6. 前記音源位置推定部が推定することでは、EM(Expectation-Maximization)アルゴリズムにより、前記確率密度値が大きくなり、かつ、周波数領域表現における各時刻の各周波数成分において、高々1つの音源のみが支配的になるように、複数の音源kの各々までの距離R(k)、前記複数の音源kの各々へ向かう単位ベクトルn(k)、前記複数の音源kの各々の前記基準のマイクロホンにおける時刻nの周波数mの成分エネルギーσ0,m,n (k)2、前記複数の音源kの各々についての時刻nの周波数mにおける混合比αm,n (k)、及び前記加法雑音の周波数mの分散共分散行列Γを繰り返し更新することにより、前記複数の音源の各々の位置を推定する請求項5記載の音源定位方法。
  7. 請求項1〜請求項3の何れか1項に記載の音源定位装置の各部としてコンピュータを機能させるためのプログラム。
JP2016032366A 2016-02-23 2016-02-23 音源定位装置、方法、及びプログラム Active JP6488245B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032366A JP6488245B2 (ja) 2016-02-23 2016-02-23 音源定位装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032366A JP6488245B2 (ja) 2016-02-23 2016-02-23 音源定位装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017151221A true JP2017151221A (ja) 2017-08-31
JP6488245B2 JP6488245B2 (ja) 2019-03-20

Family

ID=59740713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032366A Active JP6488245B2 (ja) 2016-02-23 2016-02-23 音源定位装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6488245B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011179888A (ja) * 2010-02-26 2011-09-15 Nissan Motor Co Ltd 波動源位置演算方法及び波動源位置演算装置
WO2013073399A1 (ja) * 2011-11-14 2013-05-23 日産自動車株式会社 他移動体位置検出装置及び他移動体位置検出方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011179888A (ja) * 2010-02-26 2011-09-15 Nissan Motor Co Ltd 波動源位置演算方法及び波動源位置演算装置
WO2013073399A1 (ja) * 2011-11-14 2013-05-23 日産自動車株式会社 他移動体位置検出装置及び他移動体位置検出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
早川 大智: "複数音源定位における適応的な時間周波数分解に関する研究", 電子情報通信学会技術研究報告, vol. Vol.114 No.112, JPN6019002122, June 2014 (2014-06-01), JP, pages P.25−30 *

Also Published As

Publication number Publication date
JP6488245B2 (ja) 2019-03-20

Similar Documents

Publication Publication Date Title
JP2017150903A (ja) 音源定位装置、方法、及びプログラム
Sasaki et al. Real-time modelling of wavepackets in turbulent jets
US9658318B2 (en) Sparsity-driven passive tracking of acoustic sources
JP6623185B2 (ja) 音源定位装置、方法、及びプログラム
JP6635903B2 (ja) 音源位置推定装置、音源位置推定方法、及びプログラム
Talmon et al. Parametrization of linear systems using diffusion kernels
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
Byun et al. Sparse underwater acoustic channel parameter estimation using a wideband receiver array
CN111123192A (zh) 一种基于圆形阵列和虚拟扩展的二维doa定位方法
JP6488245B2 (ja) 音源定位装置、方法、及びプログラム
JP6529451B2 (ja) 音源定位装置、方法、及びプログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
Zanjireh et al. Multi component signal decomposition based on chirplet pursuit and genetic algorithms
Coutino et al. Greedy alternative for room geometry estimation from acoustic echoes: A subspace-based method
JP2014048398A (ja) 音響信号解析装置、方法、及びプログラム
Michalopoulou et al. Sediment sound speed inversion with time-frequency analysis and modal arrival time probability density functions
Jing et al. Acoustic source tracking based on adaptive distributed particle filter in distributed microphone networks
Madadi et al. Three-dimensional localization of multiple acoustic sources in shallow ocean with non-Gaussian noise
Houegnigan et al. Neural networks for high performance time delay estimation and acoustic source localization
Guo et al. Sequential inversion for geoacoustic parameters in the south China sea using modal dispersion curves
JP2013195575A (ja) 音響信号分析装置、方法、及びプログラム
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
Maranò et al. A state-space approach for the analysis of wave and diffusion fields
Asano et al. Sound source localization in spatially colored noise using a hierarchical Bayesian model
Zou et al. Acceleration-based Dopplerlet transform—Part II: Implementations and applications to passive motion parameter estimation of moving sound source

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190225

R150 Certificate of patent or registration of utility model

Ref document number: 6488245

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150