JP6529451B2 - Sound source localization apparatus, method, and program - Google Patents
Sound source localization apparatus, method, and program Download PDFInfo
- Publication number
- JP6529451B2 JP6529451B2 JP2016032364A JP2016032364A JP6529451B2 JP 6529451 B2 JP6529451 B2 JP 6529451B2 JP 2016032364 A JP2016032364 A JP 2016032364A JP 2016032364 A JP2016032364 A JP 2016032364A JP 6529451 B2 JP6529451 B2 JP 6529451B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- sound source
- sound
- observation
- directions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
本発明は、音源定位装置、方法、及びプログラムに係り、特に、音響信号から、音源の位置を推定する音源定位装置、方法、及びプログラムに関する。 The present invention relates to a sound source localization apparatus, method, and program, and more particularly to a sound source localization apparatus, method, and program for estimating the position of a sound source from an acoustic signal.
波源定位は、レーダやソナーといった幅広い応用を有している。特に、小さいアレイで、移動する波源を瞬時に定位し追跡できるようにすることは重要課題である。波源定位問題に対する従来法としては、Multiple Signal Classication (MUSIC) 法、Generalized Cross-Correlation methods with Phase Transform (GCC-PHAT) 法、波源拘束偏微分方程式に基づく手法(非特許文献1〜3)などがある。 Source localization has a wide range of applications, such as radar and sonar. In particular, it is important to be able to localize and track moving wave sources instantaneously in small arrays. Conventional methods for source localization problems include Multiple Signal Classication (MUSIC) method, Generalized Cross-Correlation methods with Phase Transform (GCC-PHAT) method, and methods based on wave source constrained partial differential equations (Non-patent documents 1 to 3), etc. is there.
MUSIC 法やGCC-PHAT 法は、音源に対し平面波を仮定し各音源のセンサ間での到来時間差を定位の手がかりとするため、一般にアレイサイズは大きい方が有利となる。また、いずれもセンサアレイの受信信号間の自己相関関数や相互相関関数といった、統計量に基づく手法であるため、音源を高い精度で定位するためには観測時間幅を十分長く取る必要がある。このため、これらの手法は小さいアレイサイズと瞬時的な観測のみによる波源定位には必ずしも向いていない。一方、波源拘束偏微分方程式に基づく手法は、各時刻ごとに成立する音響信号の時空間偏微分方程式を元に音源定位を行うもので、理論的には瞬時の小領域観測のみで波源定位を行うことが可能である。 Since the MUSIC method and the GCC-PHAT method assume a plane wave as a sound source and use the difference in arrival time between sensors of each sound source as a clue for localization, generally larger array sizes are advantageous. Also, since all of them are methods based on statistics such as autocorrelation function and cross correlation function between received signals of the sensor array, it is necessary to take a sufficiently long observation time width in order to localize the sound source with high accuracy. For this reason, these methods are not always suitable for source localization with only a small array size and instantaneous observation. On the other hand, the method based on the source constrained partial differential equation performs sound source localization based on the spatiotemporal partial differential equation of the acoustic signal established at each time, and theoretically, the source localization is performed only by instantaneous small area observation. It is possible to do.
しかしながら、上記の波源拘束偏微分方程式に基づく手法は単一波源に対して成立する方程式をベースとしているため、複数の音源を同時に定位することはできない。また、雑音が存在する場合など、観測音響信号が偏微分方程式から逸脱する場合に脆弱であるという欠点を有している。 However, since the method based on the above-described source-constrained partial differential equation is based on the equation that holds for a single wave source, it is not possible to simultaneously localize a plurality of sound sources. It also has the disadvantage of being vulnerable if the observed acoustic signal deviates from the partial differential equation, such as in the presence of noise.
本発明は、上記事情を鑑みてなされたものであり、雑音が存在する場合であっても、複数の音源を同時に定位することができる音源定位装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and it is an object of the present invention to provide a sound source localization apparatus, method, and program capable of simultaneously localizing a plurality of sound sources even in the presence of noise. Do.
上記の目的を達成するために本発明に係る音源定位装置は、マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置であって、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出する空間差分算出部と、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力する時間周波数展開部と、前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する音源位置推定部と、を含んで構成されている。 In order to achieve the above object, a sound source localization apparatus according to the present invention estimates a position of each of a plurality of sound sources from an observation signal in which sound source signals from a plurality of sound sources input by a microphone array are mixed. A localization apparatus comprising: a spatial difference calculation unit that calculates a difference between the observation signals input by a pair of microphones arranged in the direction among the microphone arrays in each of a plurality of directions; Among them, the observation time frequency component of each frequency is output with the observation signal input by the reference microphone as an input, and the observation signal calculated for each of the plurality of directions by the spatial difference calculation unit A time frequency expansion unit which outputs an observation time frequency component of each frequency in each of the plurality of directions with a difference as an input; The frequency domain of the sound source restricted partial differential equation based on the observation time frequency component of each frequency of the reference microphone and the observation time frequency component of each frequency for each of the plurality of directions output by the time frequency expansion unit An observation time-frequency component of each frequency of the reference microphone, the position of each of the plurality of sound sources being determined in the presence of the plurality of sound sources and the additive noise, which are determined using a representation; And a sound source position estimation unit for estimating the position of each of the plurality of sound sources so as to increase the probability density value of the observation time frequency component of each frequency with respect to each direction of.
本発明に係る音源定位方法は、マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置における音源定位方法であって、空間差分算出部が、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出し、時間周波数展開部が、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力し、音源位置推定部が、前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する。 A sound source localization method according to the present invention is a sound source localization method in a sound source localization apparatus for estimating the position of each of the plurality of sound sources from observation signals in which sound source signals from a plurality of sound sources input by a microphone array are mixed. The spatial difference calculation unit calculates, for each of a plurality of directions, a difference between the observation signals input by a pair of microphones aligned in the direction in the microphone array, and the time-frequency expansion unit The observation time frequency component of each frequency is output with the observation signal input by the reference microphone in the microphone array as an input, and the space difference calculation unit calculates the direction calculated for each of the plurality of directions. An observation time frequency component of each frequency is output in each of the plurality of directions with the difference of the observation signal as an input, and the sound source position is output. The estimation unit is a sound source constrained partial differential based on the observation time frequency component of each frequency of the reference microphone and the observation time frequency component of each frequency for each of the plurality of directions output by the time frequency expansion unit. An observation time frequency component of each frequency of the reference microphone based on the position of each of the plurality of sound sources in the presence of the plurality of sound sources and the additive noise, which is determined using a frequency domain expression of an equation The position of each of the plurality of sound sources is estimated so as to increase the probability density value of the observation time frequency component of each frequency for each of the plurality of directions.
本発明に係るプログラムは、上記の音源定位装置の各部としてコンピュータを機能させるためのプログラムである。 A program according to the present invention is a program for causing a computer to function as each part of the sound source localization apparatus described above.
以上説明したように、本発明の音源定位装置、方法、及びプログラムによれば、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定することにより、雑音が存在する場合であっても、複数の音源を同時に定位することができる、という効果が得られる。 As described above, according to the sound source localization apparatus, method, and program of the present invention, in the case where the plurality of sound sources and the additive noise are determined using the frequency domain representation of the sound source constrained partial differential equation, In order to increase the probability density value of the observation time-frequency component of each frequency for each frequency of the reference microphone and the direction of each of the plurality of microphones, the position of each of the plurality of sound sources being conditions By estimating the position of each of the plurality of sound sources, it is possible to simultaneously localize a plurality of sound sources even in the presence of noise.
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音響信号から波源位置を推定することを目的とした信号処理技術である。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The technique proposed in the present invention is a signal processing technique aiming to estimate a wave source position from an acoustic signal.
<本発明の実施の形態の概要>
本発明の実施の形態は、上述した従来手法の利点を併せ持つ、小領域・瞬時観測による複数音源の波源定位を可能にする技術である。
<Overview of the embodiment of the present invention>
The embodiment of the present invention is a technology that enables source localization of a plurality of sound sources by small-area / instant observation, which has the advantage of the above-described conventional method.
本発明の実施の形態では、音源拘束偏微分方程式の周波数領域表現をベースにした音響信号およびその空間差分の確率分布を構築することで複数の音源と加法雑音が存在する場合の混合信号およびその空間差分の確率分布を記述し、Expectation-Maximization (EM) アルゴリズムにより複数の音源の波源定位を行う。 In the embodiment of the present invention, a mixed signal in the case where a plurality of sound sources and additive noise exist by constructing an acoustic signal based on a frequency domain representation of a sound source constrained partial differential equation and a probability distribution of its spatial difference Describe probability distribution of spatial difference, and perform source localization of multiple sound sources by Expectation-Maximization (EM) algorithm.
<本発明の実施の形態の原理>
次に、音源の位置を推定する原理について説明する。
<Principle of the embodiment of the present invention>
Next, the principle of estimating the position of the sound source will be described.
<音源拘束偏微分方程式>
図1に示すように、観測点の基準となる位置ベクトルを
とし、単一波源の位置ベクトルを
とする。波源の信号をg(t)、音速をc とし、単一点波源からの球面波伝播を仮定すると観測点における観測値は
と表される。ここで、
である。観測点から波源方向へ向かう単位ベクトルをn とすると、
であるため、f(r, t) の空間微分は、
となる。また、f(r, t) の時間微分は
となるので、式(1) と式(8) を式(7) に代入することでgが消去され、
のように、観測信号とその時間・空間微分のみを含む方程式を立てることができる。ただし、R = |r − r0|は観測点から波源までの距離である。この式を音源拘束式と呼ぶ(上記非特許文献1〜3)。以上のように音源拘束式は、任意の音源信号波形で成り立つ、音源の位置と空間の場の一意な関係を記述する偏微分方程式である。
<Source-constrained partial differential equation>
As shown in Figure 1, the position vector that is the reference of the observation point
And the position vector of the single wave source
I assume. Assuming that the signal of the wave source is g (t), the sound speed is c, and the spherical wave propagation from the single point wave source is assumed, the observed value at the observation point is
It is expressed as here,
It is. Assuming that the unit vector from the observation point to the source direction is n,
So that the spatial derivative of f (r, t) is
It becomes. Also, the time derivative of f (r, t) is
Therefore, g is eliminated by substituting equation (1) and equation (8) into equation (7),
, An equation including only the observed signal and its time-space derivative can be established. Where R = | r-r 0 | is the distance from the observation point to the wave source. This equation is called a sound source constraint equation (the above non-patent documents 1 to 3). As described above, the sound source constraint equation is a partial differential equation which is established by an arbitrary sound source signal waveform and describes a unique relationship between the position of the sound source and the spatial field.
<音源拘束偏微分方程式に基づく音響信号の確率モデル化>
図2のようなマイクロホンアレイで、観測信号の空間微分を空間差分で近似する場合を考える。図2に示す観測信号fの空間微分を取得するためのアレイ幾何の例では、例えばx方向のfの空間微分は、(f1,t −f2,t)/2Dで近似できる。
<Probability modeling of acoustic signal based on source-constrained partial differential equation>
Consider a case in which spatial differentiation of the observation signal is approximated by spatial difference using a microphone array as shown in FIG. In the example of the array geometry for acquiring the spatial derivative of the observation signal f shown in FIG. 2, for example, the spatial derivative of f in the x direction can be approximated by (f 1, t −f 2, t 2 ) / 2D.
ただし、マイクロホンアレイの配置は、観測信号の空間微分を空間差分で近似できるものであれば良く、以下の理論は図2の配置に限らない。図2のマイクロホンアレイの場合、7本のマイクロホンを用いて各時刻tlで、基準点における信号f0,l およびその各方向の空間差分
を得ることができる。ただし、lは離散時刻のインデックスを表す。
However, the arrangement of the microphone array may be any arrangement as long as the spatial differentiation of the observation signal can be approximated by the spatial difference, and the following theory is not limited to the arrangement of FIG. In the case of the microphone array of FIG. 2, the signal f 0, l at the reference point and the spatial difference in each direction thereof at each time t l using seven microphones
You can get Where l represents the index of discrete time.
基準点における観測信号の時間微分を時間差分で近似することにすると、式(9) は
と表せる。ただし、nx、ny、nz はそれぞれ のx, y, z 方向の成分、T はサンプリング周期である。
When the time derivative of the observation signal at the reference point is approximated by the time difference, equation (9) is
It can be expressed. Here, n x , n y and n z are components in the x, y and z directions, respectively, and T is a sampling period.
式(10) の左辺を右辺に移項すると
が得られる。ここで、f0,l, fx,l, fy,l, fz,l を窓関数で窓掛けして取得された信号とする。切り出し区間の両端点の影響を無視できるものとすると、式(11) は周波数領域で
と表される。ただし、F0,m, Fx,m, Fy,m, Fz,m はf0,m, fx,m, fy,m, fz,m の離散Fourier 変換であり、m は離散周波数インデックスである。
Transposing the left side of equation (10) to the right side
Is obtained. Here, let f 0, l , f x, l , f y, l , f z, l be signals obtained by windowing with a window function. Assuming that the influence of both end points of the clipping interval can be ignored, equation (11) is
It is expressed as Where F 0, m , F x, m , F y, m , F z, m are discrete Fourier transforms of f 0, m , f x, m , f y, m , f z, m and m is It is a discrete frequency index.
式(12) の右辺は雑音の存在や差分近似に伴う誤差により実際には必ずしも厳密に0 にはならない。 The right side of the equation (12) is not necessarily exactly zero in practice due to the presence of noise and an error caused by the difference approximation.
そこで、式(11) の右辺を
のように誤差変数εx,m, εy,m, εz,m に置き換え、これらを平均が0 で互いに独立な正規確率変数(複素正規分布に従う確率変数)
と仮定する。また、観測点における観測信号の各周波数成分を平均が0、分散がσ2 0,m の正規確率変数とする。これは、
と仮定することに相当する。
Therefore, the right side of equation (11)
Replace the error variables ε x, m , ε y, m , ε z, m with 0 mean and independent from each other normal random variables (random variables according to complex normal distribution)
Suppose. Also, let each frequency component of the observation signal at the observation point be a normal random variable with an average of 0 and a variance of σ 2 0, m . this is,
It corresponds to assuming.
ここで、Fx,m, Fy,m, Fz,m, F0,m を並べたベクトルとεx,m, εy,m, εz,m, ε0,m を並べたベクトルを
とし、f0,..., fL/2 を連結したベクトルとε0,...,εL/2を連結したベクトルを
と表記すると、式(13) は
の形で書ける。ただし、θ= {R,n} であり、A(θ) は
で与えられる。式(14), (16) より、εは平均が0、分散共分散行列が
の複素正規分布
に従う。
Here, a vector in which F x, m , F y, m , F z, m , F 0, m are arranged and a vector in which ε x, m , ε y, m , ε z, m , ε 0, m are arranged The
Let f 0 , ..., f L / 2 be a connected vector and ε 0 , ..., ε L / 2 be a connected vector
If it is written that, equation (13) is
Can be written in the form of Where θ = {R, n} and A (θ) is
Given by From Eqs. (14) and (16), ε has a mean of 0 and a variance-covariance matrix
Complex normal distribution of
Obey.
(A(θ) は正則)であるので、f は
と表され、式(24) より、
が言える。従って、観測信号およびその空間差分が与えられた下での最尤音源位置^θは
により得られる。
(A (θ) is regular), so f is
It can be expressed as equation (24),
Can be said. Therefore, the maximum likelihood source position ^ θ given the observed signal and its spatial difference is
Obtained by
<複数音源の定位アルゴリズム>
以上のf の確率モデル化により、音源が複数個存在する場合、および雑音が存在する場合の観測信号の確率分布を導くことができる。音源インデックスをk とし、音源k に由来する観測信号の成分、音源位置パラメータをそれぞれf(k)、θ(k) とする。また、f(k) の周波数m の成分エネルギーをσ(k) 0,m 2 とする。式(29) より、
となる。また、加法雑音をvとし、観測信号を
とする。f(1),・・・,f(K),vが互いに独立であれば、観測信号y は
に従う。ただし、Γはvの分散共分散行列である。以上より、複数の音源と雑音が存在する場合の各音源の最尤音源位置
は、観測信号
が与えられた下で
を解くことにより得られる。
<Localization algorithm of multiple sound sources>
The above probability modeling of f 1 can lead to the probability distribution of the observed signal when there are a plurality of sound sources and when there are noises. The sound source index is k, and the component of the observed signal derived from the sound source k and the sound source position parameter are f (k) and θ (k) , respectively. Also, let the component energy of the frequency m of f (k) be σ (k) 0, m 2 . From equation (29),
It becomes. Also, let the additive noise be v and the observation signal be
I assume. If f (1) , ..., f (K) , v are independent of each other, the observation signal y is
Obey. Where Γ is the variance-covariance matrix of v. From the above, the maximum likelihood sound source position of each sound source when there are multiple sound sources and noise
Is the observation signal
Under the given
It is obtained by solving
y を不完全データ、
を完全データと見なすことで、以上の最尤推定問題に対しExpectation-Maximization (EM) アルゴリズムを適用することができる。完全データ対数尤度log p(x|θ) は
で与えられるので、y が与えられた下でのlog p(x|θ) のx に関する条件付き期待値(Q 関数)は
で与えられる。ただし、
はx に関係する項のみについての等号を意味する。この関数が増大するようにθを更新するステップ(M ステップ)と、更新したθをθ´に代入し、
と
を計算するステップ(E ステップ)を繰り返すことでp(y|θ) を局所的に最大にするθを求めることができる。
y is incomplete data,
By considering as a complete data, the Expectation-Maximization (EM) algorithm can be applied to the above maximum likelihood estimation problem. The complete data log likelihood log p (x | θ) is
The conditional expectation value (Q function) for x of log p (x | θ) given y is given by
Given by However,
Means the equal sign only for the term related to x. Updating θ to increase this function (M step), substituting the updated θ into θ ′,
When
By repeating the step of calculating (E step), it is possible to obtain θ which maximizes p (y | θ) locally.
完全データx と不完全データy の関係は
と書けるので、
はそれぞれ
で与えられる。以上より、以下の初期設定、Eステップ、Mステップからなるアルゴリズムを得る。
The relationship between complete data x and incomplete data y is
I can write
Are each
Given by From the above, an algorithm consisting of the following initial setting, E step and M step is obtained.
(初期ステップ)
θを初期設定する。
(Initial step)
Initialize θ.
(E ステップ)
θをθ´に代入し、式(39) により
を計算する。
(E step)
Substituting θ into θ ′, equation (39)
Calculate
(Mステップ)
下式によりθを更新する。
(M step)
Update θ by the following equation.
<Mステップ更新式>
A(θ(k)) はC1(θ(k)),...,CL(θ(k)) を対角に並べたブロック対角行列なので、
と書かれる。ただし、
である。また、Φ(k) m はΦ(k)の4×4のブロック対角成分である。
<M step update formula>
Since A (θ (k) ) is a block diagonal matrix in which C 1 (θ (k) ), ..., CL (θ (k) ) are arranged diagonally,
It is written. However,
It is. Also, ((k) m is a 4 × 4 block diagonal component of ((k) .
M ステップではQ(θ,θ´) ができるだけ大きくなるようにn(k), R(k),σ(k) 0,m 2,Γ を更新する。 In the M step, n (k) , R (k) , σ (k) 0, m 2 and Γ are updated so that Q (θ, θ ′) becomes as large as possible.
Q(θ,θ´) を最大にするn(k), R(k),σ(k) 0,m 2,Γの同時最適解を解析的に求めることは難しいが、座標勾配法によりそれぞれの変数に関してQ(θ,θ´) が最大となるように反復更新することでp(y|θ) を局所最大化することができる(EM アルゴリズムでは、M ステップで補助関数が単調に増大することが保証されていれば収束性は保証される)。以下に、M ステップの更新方法を1 例示す。 It is difficult to analytically find simultaneous optimal solutions of n (k) , R (k) , σ (k) 0, m 2 and す る that maximize Q (θ, θ ' ) , but it is difficult It is possible to locally maximize p (y | θ) by iteratively updating Q (θ, θ ') with respect to variables of the maximum (in EM algorithm, the auxiliary function monotonously increases in M steps) Convergence is guaranteed if it is guaranteed). Below is an example of how to update M step.
<n(k)の更新式>
n(k)は単位ベクトルなので、
の下で
ができるだけ小さくなるようにn(k) を更新する。この制約つき最適化問題は、
のようなラグランジアンを用いてLagrange 未定乗数法で解くことができる。i 行j 列目の要素のみが1 で残りは0 であるような4×4 行列をEi,jとすると、Cm(θ(k)) は
のようにn(k)に依存する項とそうでない項に分解できるので、L(n(k)) のn(k) に関する偏微分
を0 と置くことにより、
を得る。ただし、[・]i,j は行列のi 行j 列目の成分を表す。
<N (k) update formula>
Since n (k) is a unit vector,
Under
Update n (k) so that is as small as possible. This constrained optimization problem is
It can be solved by Lagrange undetermined multiplier method using Lagrangian like. Let E i, j be a 4 × 4 matrix in which only the i th row and j th column elements are 1 and the remainder is 0. Then C m (θ (k) ) is
Partial derivatives of L (n (k) ) with respect to n (k) because it can be decomposed into terms that depend on n (k) and terms that do not.
By putting 0 as
Get Here, [·] i, j represents the component of the i-th row and j-th column of the matrix.
より、あとはn(k) x 2+n(k) y 2+n(k) z 2= 1 となるようにγ(k)を二分法などで探索し、式(52)〜(54) に代入すれば良い。
After that, γ (k) is searched by the dichotomy so that n (k) x 2 + n (k) y 2 + n (k) z 2 = 1 and substituted into equations (52) to (54). Just do it.
<音源距離R(k)の更新式>
とする。上記と同様、Cm(θ(k)) は
のようにρ(k) に依存する項とそうでない項に分解することができるので、Q(θ,θ´) のρ(k)に関する偏微分
を0 と置くことにより、
を得る。行列要素ごとの表記にすると
となる。ただし、
である。式(60) の分子における
はFast Fourier Transform (FFT) を用いて効率的に計算することができる。
<Update formula of sound source distance R (k) >
I assume. As above, C m (θ (k) ) is
Since it can be decomposed into terms dependent on ((k) and terms not depending on よ う(k) as in, partial derivatives of Q (θ, θ ' ) with respect to ((k)
By putting 0 as
Get In the case of notation for each matrix element
It becomes. However,
It is. In the molecule of formula (60)
Can be efficiently calculated using Fast Fourier Transform (FFT).
<σ(k) 0,m 2 の更新式>
上記と同様、Σ(k)-1 mを
のようにσ(k) 0,m 2 に依存する項とそうでない項に分解できるので、Q(θ,θ´) のσ(k) 0,m 2 に関する偏微分を0 と置くことにより、
を得る。
<Update formula for σ (k) 0, m 2 >
As above, Σ (k) -1 m
Since it can be decomposed into terms that depend on σ (k) 0, m 2 and terms that do not, like this, by setting the partial derivative of Q (θ, θ ') with respect to σ (k) 0, m 2 to 0,
Get
<雑音分散共分散行列Γの更新式>
雑音の分散共分散行列を
のように、正規化分散共分散行列モデルWm と周波数mの成分エネルギーν2 mの積で表し、ν2 mを推定すべき変数とする。後述するがWm は空間無相関モデルや拡散音場モデルなどから導かれる定数行列である。Q(θ,θ´) のν2 に関する偏微分を0 と置くことにより、
を得る。
<Update formula of noise variance covariance matrix >>
The variance-covariance matrix of the noise
As shown, the product of the normalized variance-covariance matrix W m and the component energy 2 2 m of the frequency m is represented, and ν 2 m is a variable to be estimated. As described later, W m is a constant matrix derived from a spatial decorrelation model, a diffuse sound field model, and the like. By setting the partial derivative of Q (θ, θ ') with respect to 2 2 as 0,
Get
<正規化分散共分散行列モデルW の設定方法>
ここでは雑音の空間相関行列から正規化分散共分散行列モデルWm の設定例を述べる。図2 のような7 本のマイクロホンの配置を想定する。ここで,fi,0,...,fi,L-1のFourier 変換をFi,0,...,Fi,L-1とする。~fm = (F0,m,...,F6,m)Tおよびfm = (Fx,m, Fy,m, Fz,m, F0,m)T の関係は
と書かれることから、~fm= (F0,m,...,F6,m)T の分散共分散行列をΨm とすると、fmの分散共分散行列はBΨmBT となる。従って、例えば空間的に無相関で等しいパワーの雑音を仮定する場合、Ψm は単位行列となるため、fmの分散共分散行列Wm を
と置けば良い。
<Setting method of normalized variance-covariance matrix model W>
Here, a setting example of the normalized variance-covariance matrix model W m will be described from the spatial correlation matrix of noise. The arrangement of seven microphones as shown in Fig. 2 is assumed. Here, f i, 0, ..., f i, L-1 of the Fourier transform of F i, 0, ..., F i, and L-1. ~ f m = (F 0, m , ..., F 6, m ) T and f m = (F x, m , F y, m , F z, m , F 0, m ) T is
From the fact that it is written that the dispersion covariance matrix of ~ f m = (F 0, m , ..., F 6, m ) T is Ψ m , the dispersion covariance matrix of f m is BΨ m B T Become. Thus, for example, assuming the noise equal power in a spatially uncorrelated, since the [psi m identity matrix, the variance-covariance matrix W m of f m
Just put it.
ある区域内で、エネルギー密度が一様でかつすべての方向に対するエネルギーの流れが等しい確率であるとみなせる分布をしている音場を拡散音場といい、残響環境の音場を良く近似的に表すことが知られている。拡散音場においては、2点間の空間相関係数が距離d にのみ依存し、
で与えられる。従って、拡散性雑音を仮定する場合、図2 のようなアレイ幾何の例では、~fm =(F0,m,...,F6,m)Tの分散共分散行列Ψm は
となる。これを用いて、fmの分散共分散行列Wm をBΨmBT と置けば良い。
A sound field having a distribution in which the energy density is uniform and the energy flow in all directions can be regarded as equal probability in a certain area is called a diffuse sound field, and the sound field of the reverberant environment is well approximated. It is known to represent. In the diffuse sound field, the spatial correlation coefficient between two points depends only on the distance d,
Given by Therefore, assuming diffusive noise, in the example of array geometry as shown in FIG. 2, the variance-covariance matrix Ψ m of ~ f m = (F 0, m , ..., F 6, m ) T is
It becomes. Using this, the variance-covariance matrix W m of f m may be put and BΨ m B T.
<システム構成>
次に、マイクロホンアレイにより入力された音響信号から、複数の音源の位置を推定する音源定位装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
<System configuration>
Next, an embodiment of the present invention will be described by taking as an example a case where the present invention is applied to a sound source localization apparatus that estimates the positions of a plurality of sound sources from acoustic signals input by a microphone array.
図3に示すように、本発明の実施の形態に係る音源定位装置100は、CPUと、RAMと、音源定位処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。 As shown in FIG. 3, the sound source localization apparatus 100 according to the embodiment of the present invention is configured by a computer including a CPU, a RAM, and a ROM storing a program for executing a sound source localization processing routine. It is functionally configured as follows.
図3に示すように、音源定位装置100は、入力部10と、演算部20と、出力部90とを備えている。 As shown in FIG. 3, the sound source localization apparatus 100 includes an input unit 10, an arithmetic unit 20, and an output unit 90.
入力部10は、上記図2に示すようなマイクロホンアレイの各マイクロホンから出力された、複数の音源からの音源信号が混じっている音響信号(以後、観測信号)の時系列データを受け付ける。 The input unit 10 receives time-series data of an acoustic signal (hereinafter referred to as an observation signal) in which sound source signals from a plurality of sound sources are mixed, which are output from the microphones of the microphone array as shown in FIG.
演算部20は、空間差分算出部22と、時間周波数展開部24と、音源位置推定部25と、を含んで構成されている。 The calculation unit 20 includes a spatial difference calculation unit 22, a time frequency expansion unit 24, and a sound source position estimation unit 25.
空間差分算出部22は、マイクロホンアレイの各マイクロホンから出力された観測信号から、各時刻tlで、基準点のマイクロホンにおける観測信号f0,lを取得すると共に、以下の式に従って、各方向x、y、zの空間差分fx,l,fy,l,fz,lを算出する。 The spatial difference calculation unit 22 acquires the observation signal f 0, l at the microphone of the reference point at each time t l from the observation signals output from the microphones of the microphone array, and also according to the following equation: , Y, z spatial differences f x, l , f y, l , f z, l are calculated.
時間周波数展開部24は、空間差分算出部22により得られた、基準点のマイクロホンにおける各時刻tlの観測信号f0,lから、各周波数mの観測時間周波数成分F0,mを計算する。また、時間周波数展開部24は、空間差分算出部22により得られた、各時刻tlの各方向x、y、zの空間差分fx,l,fy,l,fz,lから、各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,mを計算する。本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。 Time-frequency expansion unit 24 were obtained by the spatial difference calculating unit 22, from the observed signal f 0, l at each time t l at the microphone of the reference point, to calculate the observation time-frequency component F 0, m of each frequency m . Further, the time-frequency expansion unit 24 obtains each space difference f x, l , f y, l , f z, l in each direction x, y, z at each time tl obtained by the space difference calculation unit 22. The observation time frequency components F x, m , F y, m , F z, m of frequency m are calculated. In the present embodiment, time-frequency expansion such as short-time Fourier transform or wavelet transform is performed.
音源位置推定部25は、時間周波数展開部24において取得した各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,m,F0,mからなる観測周波数成分yに基づいて、EMアルゴリズムを用いて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、複数の音源と加法雑音が存在する場合における、複数の音源の各々の位置を条件とした、観測周波数成分yの確率分布P(y|θ)を大きくするように、複数の音源の各々の位置を推定する。 The sound source position estimation unit 25 is based on the observation frequency component y consisting of the observation time frequency components F x, m , F y, m , F z, m , F 0, m of each frequency m acquired in the time frequency expansion unit 24. Observation frequency determined on the basis of the position of each of a plurality of sound sources in the presence of a plurality of sound sources and additive noise determined using a frequency domain representation of a sound source constrained partial differential equation using an EM algorithm The position of each of the plurality of sound sources is estimated so as to increase the probability distribution P (y | θ) of the component y.
音源位置推定部25は、期待値算出部26と、変数更新部28と、収束判定部30とを備えている。 The sound source position estimation unit 25 includes an expected value calculation unit 26, a variable update unit 28, and a convergence determination unit 30.
期待値算出部26は、時間周波数展開部24において取得した各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,m,F0,mからなる観測周波数成分yと、初期設定された、又は前回更新された各音源kの音源位置θ(k)と、初期設定された、又は前回更新された各音源kの音源信号の成分エネルギーσ(k) 0,m 2に基づいて、上記式(39) により
を計算する。
The expected value calculation unit 26 is an observation frequency component y consisting of observation time frequency components F x, m , F y, m , F z, m , F 0, m of each frequency m acquired in the time frequency expansion unit 24; The sound source position θ (k) of each sound source k initialized or previously updated and the component energy σ (k) 0, m 2 of the sound source signal of each sound source k initialized or previously updated Based on the above equation (39)
Calculate
変数更新部28は、期待値算出部26によって算出された
に基づいて、Q(θ,θ´) ができるだけ大きくなるように、上記式(52)〜式(54)、式(60)、式(64)、式(66)、式(67)に従って、各音源kの方向ベクトルn(k),音源距離R(k),成分エネルギーσ(k) 0,m 2,雑音共分散行列Γ を更新する。
The variable update unit 28 is calculated by the expected value calculation unit 26.
Based on equation (52) to equation (54), equation (60), equation (64), equation (66), and equation (67) so that Q (θ, θ ′) becomes as large as possible. The direction vector n (k) of each sound source k, the sound source distance R (k) , the component energy σ (k) 0, m 2 , and the noise covariance matrix Γ are updated.
収束判定部30は、予め定められた収束判定条件を満たすまで、期待値算出部26及び変数更新部28による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。 The convergence determination unit 30 repeats each processing by the expectation value calculation unit 26 and the variable update unit 28 until the predetermined convergence determination condition is satisfied. The convergence determination condition is, for example, reaching a predetermined number of repetitions.
収束判定条件を満たしたときに、最終的に得られた各音源kの方向ベクトルn(k)、音源距離R(k)を、各音源kの位置の推定結果として、出力部90により出力する。 When the convergence determination condition is satisfied, the output unit 90 outputs the direction vector n (k) of each sound source k finally obtained and the sound source distance R (k) as the estimation result of the position of each sound source k. .
<音源定位装置の作用>
次に、本実施の形態に係る音源定位装置100の作用について説明する。
<Operation of sound source localization device>
Next, the operation of the sound source localization apparatus 100 according to the present embodiment will be described.
入力部10において、マイクロホンアレイの各マイクロホンから出力された観測信号の時系列データを受け付けると、音源定位装置100は、図4に示す音源定位処理ルーチンを実行する。 When the input unit 10 receives time-series data of observation signals output from the microphones of the microphone array, the sound source localization apparatus 100 executes a sound source localization processing routine shown in FIG. 4.
まず、ステップS120では、マイクロホンアレイの各マイクロホンから入力された観測信号の時系列データから、各時刻tlで、基準点のマイクロホンにおける観測信号f0,lを取得すると共に、各方向x、y、zの空間差分fx,l,fy,l,fz,lを算出する。 First, in step S120, the time-series data of observation signals input from each microphone of the microphone array, at each time t l, acquires the observation signal f 0, l at the microphone of the reference points, each direction x, y , Z spatial differences f x, l , f y, l , f z, l are calculated.
ステップS121では、上記ステップS120で得られた基準点のマイクロホンにおける各時刻tlの観測信号f0,lから、各周波数mの観測時間周波数成分F0,mを計算する。また、各時刻tlの各方向x、y、zの空間差分fx,l,fy,l,fz,lから、各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,mを計算する。 In step S121, the observed signal f 0, l at each time t l at the microphone of the resulting reference point in step S120, it calculates the observation time-frequency component F 0, m of each frequency m. Also, from the spatial differences f x, l , f y, l , f z, l in each direction x, y, z at each time t l , the observation time frequency components F x, m , F y, m of each frequency m , F z, m .
ステップS122では、各音源kの音源位置θ(k)と各音源kの音源信号の成分エネルギーσ(k) 0,m 2とに初期値を設定する。 In step S122, initial values are set to the sound source position θ (k) of each sound source k and the component energy σ (k) 0, m 2 of the sound source signal of each sound source k.
そして、ステップS123では、上記ステップS121で取得した各周波数mの観測時間周波数成分Fx,m,Fy,m,Fz,m,F0,mからなる観測周波数成分yと、上記ステップS122で初期設定された、又は後述するステップS124で前回更新された各音源kの音源位置θ(k)及び音源信号の成分エネルギーσ(k) 0,m 2とに基づいて、上記式(39) により
を計算する。
And in step S123, the observation frequency component y which consists of observation time frequency component Fx, m , Fy, m , Fz, m , F 0, m of each frequency m acquired in the said step S121, and the said step S122 (39) based on the sound source position θ (k) of each sound source k initialized in step S124 or previously updated in step S124 described later and the component energy σ (k) 0, m 2 of the sound source signal By
Calculate
ステップS124では、上記ステップS123で算出された
に基づいて、Q(θ,θ´) ができるだけ大きくなるように、上記式(52)〜式(54)、式(60)、式(64)、式(66)、式(67)に従って、各音源kの方向ベクトルn(k),音源距離R(k),成分エネルギーσ(k) 0,m 2,雑音共分散行列Γ を更新する。
In step S124, it is calculated in step S123.
Based on equation (52) to equation (54), equation (60), equation (64), equation (66), and equation (67) so that Q (θ, θ ′) becomes as large as possible. The direction vector n (k) of each sound source k, the sound source distance R (k) , the component energy σ (k) 0, m 2 , and the noise covariance matrix Γ are updated.
ステップS125において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS123へ戻る。一方、収束判定条件を満たした場合には、ステップS126へ進む。 In step S125, it is determined whether or not a predetermined convergence determination condition is satisfied. If the convergence determination condition is not satisfied, the process returns to step S123. On the other hand, if the convergence determination condition is satisfied, the process proceeds to step S126.
ステップS126では、上記ステップS124で最終的に得られた各音源kの方向ベクトルn(k),音源距離R(k)を、各音源kの位置の推定結果として、出力部90により出力して、音源定位処理ルーチンを終了する。 In step S126, the output unit 90 outputs the direction vector n (k) and the sound source distance R (k) of each sound source k finally obtained in step S124 above as the estimation result of the position of each sound source k. , End the sound source localization processing routine.
<実験>
以下の条件で残響環境下の音源定位実験を行った。
<Experiment>
We performed sound source localization experiments under reverberant environment under the following conditions.
(実験条件)
音源数: 1(+ 拡散雑音)
音源位置: マイク中心+ [-1.73; 1.0; 0.0], マイク中心+[2.0; 2.0; 0.0], マイク中心+[0.0; -2.0; 0.0]
部屋サイズ: [6.0; 10.0; 8.0] (中心にマイクを配置)
壁面の反射係数: 0.01, 0.5, 0.8(残響の影響の大きさに相当)
マイク間隔: 0.01, 0.1 [m]
フレーム幅: 16, 32, 64 [点]
実験フレーム数: 2x10(ファイル) (無音区間は含まれていない)
(Experimental conditions)
Number of sound sources: 1 (+ diffuse noise)
Sound source position: microphone center + [-1. 73; 1.0; 0.0], microphone center + [2.0; 2.0; 0.0], microphone center + [0.0; -2.0; 0.0]
Room size: [6.0; 10.0; 8.0] (Mike placed at the center)
Wall reflection coefficient: 0.01, 0.5, 0.8 (equivalent to the magnitude of the reverberation effect)
Microphone interval: 0.01, 0.1 [m]
Frame width: 16, 32, 64 [points]
Experiment frame number: 2 x 10 (file) (silence section is not included)
マイク位置が3か所あるので、1 条件当たり実質60 回のデータとなる。 Because there are three microphone positions, there are practically 60 data per condition.
評価指標として、誤差の二乗和平方根(rad)を用いた。 The square root of error (rad) was used as an evaluation index.
図5〜7に実験結果を示す。単一音源のみの存在を仮定した尤度関数(式(28))を最大にする方法(従来法に相当し,図中の”OneSrc" はこの方法を意味する。)と比べ、高精度な定位が行えていることが分かった。 The experimental results are shown in FIGS. A method of maximizing the likelihood function (equation (28)) assuming the presence of only a single sound source (corresponding to the conventional method, and “OneSrc” in the figure means this method), the accuracy is high. It turned out that localization was done.
以上説明したように、本実施の形態に係る音源定位装置によれば、音源拘束偏微分方程式の周波数領域表現を用いて定められた、複数の音源と加法雑音が存在する場合における、複数の音源の各々の位置を条件とした、基準のマイクロホンの各周波数の観測時間周波数成分、及び複数の方向の各々に対する各周波数の観測時間周波数成分の確率分布を大きくするように、複数の音源の各々の位置を推定することにより、雑音が存在する場合であっても、複数の音源を同時に定位することができる。 As described above, according to the sound source localization apparatus according to the present embodiment, the plurality of sound sources determined in the frequency domain representation of the sound source restricted partial differential equation when there are a plurality of sound sources and additive noise The observation time-frequency component of each frequency of the reference microphone and the probability distribution of the observation time-frequency component of each frequency for each of a plurality of directions, each condition of each of the plurality of sound sources being conditional on each position of By estimating the position, multiple sound sources can be localized simultaneously, even in the presence of noise.
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the scope of the present invention.
例えば、上述の音源定位装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 For example, although the above-described sound source localization apparatus has a computer system inside, the "computer system" also includes a homepage providing environment (or display environment) if the WWW system is used.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 Furthermore, although the present invention has been described as an embodiment in which the program is installed in advance, it is also possible to provide the program by storing the program in a computer readable recording medium.
10 入力部
20 演算部
22 空間差分算出部
24 時間周波数展開部
25 音源位置推定部
26 期待値算出部
28 変数更新部
30 収束判定部
90 出力部
100 音源定位装置
DESCRIPTION OF SYMBOLS 10 input part 20 arithmetic part 22 space difference calculation part 24 time frequency expansion part 25 sound source position estimation part 26 expected value calculation part 28 variable update part 30 convergence determination part 90 output part 100 sound source localization apparatus
Claims (7)
複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出する空間差分算出部と、
前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力する時間周波数展開部と、
前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する音源位置推定部と、
を含む音源定位装置。 A sound source localization apparatus for estimating the position of each of a plurality of sound sources from an observation signal in which sound source signals from a plurality of sound sources input by a microphone array are mixed,
A spatial difference calculation unit that calculates a difference between the observation signals input by a pair of microphones arranged in the direction among the microphone arrays for each of a plurality of directions;
An observation time frequency component of each frequency is output with the observation signal input by the reference microphone in the microphone array as an input, and calculated by the spatial difference calculation unit in each of the plurality of directions. A time-frequency expansion unit which outputs an observation time frequency component of each frequency in each of the plurality of directions with the difference of the observation signal as an input;
Based on the observation time frequency component of each frequency of the reference microphone and the observation time frequency component of each frequency for each of the plurality of directions output from the time frequency expansion unit, the frequency domain of the sound source restricted partial differential equation An observation time-frequency component of each frequency of the reference microphone, the position of each of the plurality of sound sources being determined in the presence of the plurality of sound sources and the additive noise, which are determined using a representation; A sound source position estimation unit for estimating the position of each of the plurality of sound sources so as to increase the probability density value of the observation time frequency component of each frequency for each of the directions of
Sound source localization device including:
ただし、ymが、前記基準のマイクロホンの周波数mの観測時間周波数成分、及び前記複数の方向の各々に対する周波数mの観測時間周波数成分を表し、Γmは、前記加法雑音の周波数mの分散共分散行列であり、θ(k)は、音源kの位置を表し、σx,m (k)2、σy,m (k)2、σz,m (k)2は、音源kからの音源信号の方向x、y、zの差分における周波数mの成分エネルギーを表し、σ0,m (k)2は、音源kからの音源信号の前記基準のマイクロホンにおける周波数mの成分エネルギーを表し、Rは、音源までの距離を表し、cは、音速を表し、Lは、周波数のインデッックスを規定するための定数であり、Tは、サンプリング周期を表し、nx、ny、nzは、音源へ向かう単位ベクトルの方向x、y、zの成分を表す。 The sound source localization apparatus according to claim 1, wherein the probability density value is expressed by the following equation.
Where y m represents the observed time frequency component of the frequency m of the reference microphone and the observed time frequency component of the frequency m for each of the plurality of directions, and Γ m represents the variance covariance of the frequency m of the additive noise The variance matrix, θ (k) represents the position of the sound source k, σ x, m (k) 2 , σ y, m (k) 2 , σ z, m (k) 2 is from the sound source k Represents the component energy of frequency m in the direction x, y, z difference of the source signal, σ 0, m (k) 2 represents the component energy of frequency m of the reference microphone of the source signal from the source k, R represents the distance to the sound source, c represents the speed of sound, L is a constant for defining the index of the frequency, T represents the sampling period, n x , n y , n z is Represents components in the directions x, y, z of the unit vector toward the sound source.
空間差分算出部が、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出し、
時間周波数展開部が、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号を入力として、各周波数の観測時間周波数成分を出力すると共に、前記空間差分算出部によって前記複数の方向の各々に対して算出された前記観測信号の差分を入力として、前記複数の方向の各々に対して、各周波数の観測時間周波数成分を出力し、
音源位置推定部が、前記時間周波数展開部により出力された、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分に基づいて、音源拘束偏微分方程式の周波数領域表現を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各周波数の観測時間周波数成分、及び前記複数の方向の各々に対する各周波数の観測時間周波数成分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する
音源定位方法。 A sound source localization method in a sound source localization apparatus for estimating the position of each of a plurality of sound sources from an observation signal in which sound source signals from a plurality of sound sources input by a microphone array are mixed,
The spatial difference calculation unit calculates, for each of a plurality of directions, a difference between the observation signals input by a pair of microphones aligned in the direction in the microphone array;
The time-frequency expansion unit outputs the observation time-frequency component of each frequency with the observation signal input by the reference microphone in the microphone array as an input, and the space difference calculation unit calculates each of the plurality of directions. The observation time frequency component of each frequency is output for each of the plurality of directions, using the difference of the observation signal calculated for
The sound source position estimation unit is based on the observation time frequency component of each frequency of the reference microphone and the observation time frequency component of each frequency for each of the plurality of directions output by the time frequency expansion unit. Observation time of each frequency of the reference microphone based on the position of each of the plurality of sound sources in the presence of the plurality of sound sources and the additive noise, which is determined using a frequency domain representation of a partial differential equation A sound source localization method for estimating the position of each of the plurality of sound sources so as to increase the probability density value of the frequency component and the observation time frequency component of each frequency in each of the plurality of directions.
ただし、ymが、前記基準のマイクロホンの周波数mの観測時間周波数成分、及び前記複数の方向の各々に対する周波数mの観測時間周波数成分を表し、Γmは、前記加法雑音の周波数mの分散共分散行列であり、θ(k)は、音源kの位置を表し、σx,m (k)2、σy,m (k)2、σz,m (k)2は、音源kからの音源信号の方向x、y、zの差分における周波数mの成分エネルギーを表し、σ0,m (k)2は、音源kからの音源信号の前記基準のマイクロホンにおける周波数mの成分エネルギーを表し、Rは、音源までの距離を表し、cは、音速を表し、Lは、周波数のインデッックスを規定するための定数であり、Tは、サンプリング周期を表し、nx、ny、nzは、音源へ向かう単位ベクトルの方向x、y、zの成分を表す。 The sound source localization method according to claim 4, wherein the probability density value is expressed by the following equation.
Where y m represents the observed time frequency component of the frequency m of the reference microphone and the observed time frequency component of the frequency m for each of the plurality of directions, and Γ m represents the variance covariance of the frequency m of the additive noise The variance matrix, θ (k) represents the position of the sound source k, σ x, m (k) 2 , σ y, m (k) 2 , σ z, m (k) 2 is from the sound source k Represents the component energy of frequency m in the direction x, y, z difference of the source signal, σ 0, m (k) 2 represents the component energy of frequency m of the reference microphone of the source signal from the source k, R represents the distance to the sound source, c represents the speed of sound, L is a constant for defining the index of the frequency, T represents the sampling period, n x , n y , n z is Represents components in the directions x, y, z of the unit vector toward the sound source.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016032364A JP6529451B2 (en) | 2016-02-23 | 2016-02-23 | Sound source localization apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016032364A JP6529451B2 (en) | 2016-02-23 | 2016-02-23 | Sound source localization apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017151220A JP2017151220A (en) | 2017-08-31 |
JP6529451B2 true JP6529451B2 (en) | 2019-06-12 |
Family
ID=59740709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016032364A Active JP6529451B2 (en) | 2016-02-23 | 2016-02-23 | Sound source localization apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6529451B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11802932B2 (en) | 2018-03-07 | 2023-10-31 | Nec Corporation | Transmission source position estimation system, transmission source position estimation method, and transmission source position estimation program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100499124B1 (en) * | 2002-03-27 | 2005-07-04 | 삼성전자주식회사 | Orthogonal circular microphone array system and method for detecting 3 dimensional direction of sound source using thereof |
JP2008070339A (en) * | 2006-09-15 | 2008-03-27 | Univ Of Tokyo | Sound source localization method and sound source localization device |
JP5593547B2 (en) * | 2010-02-26 | 2014-09-24 | 日産自動車株式会社 | Wave source position calculation method and wave source position calculation apparatus |
-
2016
- 2016-02-23 JP JP2016032364A patent/JP6529451B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017151220A (en) | 2017-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6531050B2 (en) | Sound source localization apparatus, method, and program | |
Blandin et al. | Multi-source TDOA estimation in reverberant audio using angular spectra and clustering | |
Talmon et al. | Parametrization of linear systems using diffusion kernels | |
Swartling et al. | Source localization for multiple speech sources using low complexity non-parametric source separation and clustering | |
US20160086093A1 (en) | Passive Tracking of Underwater Acoustic Sources with Sparse Innovations | |
JP6623185B2 (en) | Sound source localization apparatus, method, and program | |
JP2018063200A (en) | Sound source position estimation device, sound source position estimation method, and program | |
CN111123192A (en) | Two-dimensional DOA positioning method based on circular array and virtual extension | |
Padois et al. | Time domain localization technique with sparsity constraint for imaging acoustic sources | |
JP6724905B2 (en) | Signal processing device, signal processing method, and program | |
Moreira et al. | A graph signal processing approach to direction of arrival estimation | |
Saqib et al. | Estimation of acoustic echoes using expectation-maximization methods | |
White et al. | Localisation of sperm whales using bottom-mounted sensors | |
JP6529451B2 (en) | Sound source localization apparatus, method, and program | |
Zhai et al. | A grid-free global optimization algorithm for sound sources localization in three-dimensional reverberant environments | |
Nesta et al. | Enhanced multidimensional spatial functions for unambiguous localization of multiple sparse acoustic sources | |
WO2012164448A1 (en) | Method for self - calibrating a set of acoustic sensors, and corresponding system | |
Tichavsky et al. | Quasi-fluid-mechanics-based quasi-Bayesian Crame/spl acute/r-Rao bounds for deformed towed-array direction finding | |
Hübner et al. | Efficient training data generation for phase-based DOA estimation | |
JP6488245B2 (en) | Sound source localization apparatus, method, and program | |
Madadi et al. | Three-dimensional localization of multiple acoustic sources in shallow ocean with non-Gaussian noise | |
Loesch et al. | On the robustness of the multidimensional state coherence transform for solving the permutation problem of frequency-domain ICA | |
Grondin et al. | A study of the complexity and accuracy of direction of arrival estimation methods based on GCC-PHAT for a pair of close microphones | |
Schwartz et al. | Blind microphone geometry calibration using one reverberant speech event | |
Gburrek et al. | On source-microphone distance estimation using convolutional recurrent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6529451 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |