JP2017150903A - Sound source localization device, method, and program - Google Patents

Sound source localization device, method, and program Download PDF

Info

Publication number
JP2017150903A
JP2017150903A JP2016032365A JP2016032365A JP2017150903A JP 2017150903 A JP2017150903 A JP 2017150903A JP 2016032365 A JP2016032365 A JP 2016032365A JP 2016032365 A JP2016032365 A JP 2016032365A JP 2017150903 A JP2017150903 A JP 2017150903A
Authority
JP
Japan
Prior art keywords
sound source
sound
sound sources
sources
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016032365A
Other languages
Japanese (ja)
Other versions
JP6531050B2 (en
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
惇 鈴木
Jun Suzuki
惇 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016032365A priority Critical patent/JP6531050B2/en
Publication of JP2017150903A publication Critical patent/JP2017150903A/en
Application granted granted Critical
Publication of JP6531050B2 publication Critical patent/JP6531050B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To enable a plurality of sound sources to be localized at the same time even when noise exists.SOLUTION: A spatial difference calculation unit 22 calculates a difference in observation signal for each of a plurality of directions. A sound source position estimation unit 25 estimates, on the basis of a difference between an observation signal inputted by a reference microphone and an observation signal calculated for each of a plurality of directions, the position of each of a plurality of sound sources so as to increase the probability density value of a difference between an observation signal at each time of a day of the reference microphone and an observation signal at each time of a day for each of the plurality of directions, with the position of each of a plurality of sound sources for the case where a plurality of sound sources and additive noise exist that is defined using a sound source constraint partial differential equation as being a condition.SELECTED DRAWING: Figure 3

Description

本発明は、音源定位装置、方法、及びプログラムに係り、特に、音響信号から、音源の位置を推定する音源定位装置、方法、及びプログラムに関する。   The present invention relates to a sound source localization device, method, and program, and more particularly, to a sound source localization device, method, and program for estimating the position of a sound source from an acoustic signal.

波源定位は、レーダやソナーといった幅広い応用を有している。特に、小さいアレイで、移動する波源を瞬時に定位し追跡できるようにすることは重要課題である。波源定位問題に対する従来法としては、Multiple Signal Classication (MUSIC) 法、Generalized Cross-Correlation methods with Phase Transform (GCC-PHAT) 法、波源拘束偏微分方程式に基づく手法(非特許文献1〜3)などがある。   Wave source localization has a wide range of applications such as radar and sonar. In particular, it is important to be able to quickly locate and track a moving wave source with a small array. Conventional methods for the source localization problem include Multiple Signal Classication (MUSIC) method, Generalized Cross-Correlation methods with Phase Transform (GCC-PHAT) method, and methods based on source-constrained partial differential equations (Non-Patent Documents 1 to 3). is there.

MUSIC 法やGCC-PHAT 法は、音源に対し平面波を仮定し各音源のセンサ間での到来時間差を定位の手がかりとするため、一般にアレイサイズは大きい方が有利となる。また、いずれもセンサアレイの受信信号間の自己相関関数や相互相関関数といった、統計量に基づく手法であるため、音源を高い精度で定位するためには観測時間幅を十分長く取る必要がある。このため、これらの手法は小さいアレイサイズと瞬時的な観測のみによる波源定位には必ずしも向いていない。一方、波源拘束偏微分方程式に基づく手法は、各時刻ごとに成立する音響信号の時空間偏微分方程式を元に音源定位を行うもので、理論的には瞬時の小領域観測のみで波源定位を行うことが可能である。   Since the MUSIC method and GCC-PHAT method assume a plane wave for the sound source and use the arrival time difference between the sensors of each sound source as a key for localization, in general, a larger array size is advantageous. In addition, since both methods are based on statistics such as autocorrelation function and cross-correlation function between received signals of the sensor array, it is necessary to take a sufficiently long observation time width in order to localize the sound source with high accuracy. For this reason, these methods are not necessarily suitable for wave source localization using only a small array size and instantaneous observation. On the other hand, the method based on the partial differential equation of the wave source performs sound source localization based on the spatio-temporal partial differential equation of the acoustic signal that is established at each time. Theoretically, the source localization is performed only by instantaneous small region observation. Is possible.

藤田悠哉, 小野順貴, 安藤繁, "有限時間窓と離散フーリエ変換の利用を可能にする音源定位の高速厳密解法とその実験" 日本音響学会2006 年秋季研究発表会講演論文集, 3-1-3, pp. 483-484, Sep. 2006.Junya Fujita, Junki Ono, Shigeru Ando, "Fast and accurate solution of sound source localization that enables the use of finite time windows and discrete Fourier transform" and Proceedings of the Autumn Meeting of the Acoustical Society of Japan 2006, 3-1 -3, pp. 483-484, Sep. 2006. S. Ando, N. Ono, T. Nara, "Direct algebraic method for sound source localization with nest resolution both in time and frequency," in Proc. ICSV14, Jul. 2007.S. Ando, N. Ono, T. Nara, "Direct algebraic method for sound source localization with nest resolution both in time and frequency," in Proc. ICSV14, Jul. 2007. 小山翔一, 栗原徹, 安藤繁, "偏微分方程式の空間荷重積分による瞬時音源定位," 日本音響学会2008 年秋季研究発表会講演論文集, 2-8-20, pp. 679-682, Sep. 2008.Shoichi Koyama, Toru Kurihara, Shigeru Ando, "Instant sound source localization by spatial load integration of partial differential equations," Proceedings of the 2008 Annual Meeting of the Acoustical Society of Japan, 2-8-20, pp. 679-682, Sep . 2008.

しかしながら、上記の波源拘束偏微分方程式に基づく手法は単一波源に対して成立する方程式をベースとしているため、複数の音源を同時に定位することはできない。また、雑音が存在する場合など、観測音響信号が偏微分方程式から逸脱する場合に脆弱であるという欠点を有している。   However, since the method based on the above-mentioned wave source-constrained partial differential equation is based on an equation that holds for a single wave source, a plurality of sound sources cannot be localized simultaneously. In addition, there is a drawback that it is fragile when the observed acoustic signal deviates from the partial differential equation, such as when noise is present.

本発明は、上記事情を鑑みてなされたものであり、雑音が存在する場合であっても、複数の音源を同時に定位することができる音源定位装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a sound source localization apparatus, method, and program capable of simultaneously locating a plurality of sound sources even in the presence of noise. To do.

上記の目的を達成するために本発明に係る音源定位装置は、マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置であって、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出する空間差分算出部と、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号と、前記複数の方向の各々に対して算出された前記観測信号の差分とに基づいて、音源拘束偏微分方程式を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各時刻の観測信号、及び前記複数の方向の各々に対する各時刻の観測信号の差分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する音源位置推定部と、を含んで構成されている。   In order to achieve the above object, a sound source localization apparatus according to the present invention is a sound source that estimates the position of each of a plurality of sound sources from an observation signal mixed with sound source signals from a plurality of sound sources input by a microphone array. A localization apparatus, for each of a plurality of directions, a spatial difference calculation unit that calculates a difference between the observation signals input by a pair of microphones arranged in the direction of the microphone array; Of these, the plurality of signals determined using a sound source constrained partial differential equation based on the observed signal input by a reference microphone and the difference between the observed signals calculated for each of the plurality of directions. When there is a sound source and additive noise, the observation signal at each time of the reference microphone on the condition of the position of each of the plurality of sound sources, So as to increase the probability density value of the difference of the observed signals at each time with respect to fine the plurality of directions each is configured to include a sound source position estimating section for estimating the position of each of the plurality of sound sources.

本発明に係る音源定位方法は、マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置における音源定位方法であって、空間差分算出部が、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出し、音源位置推定部が、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号と、前記複数の方向の各々に対して算出された前記観測信号の差分とに基づいて、音源拘束偏微分方程式を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各時刻の観測信号、及び前記複数の方向の各々に対する各時刻の観測信号の差分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する。   The sound source localization method according to the present invention is a sound source localization method in a sound source localization apparatus that estimates the position of each of the plurality of sound sources from an observation signal obtained by mixing sound source signals from a plurality of sound sources input by a microphone array. Then, for each of a plurality of directions, a spatial difference calculation unit calculates a difference between the observation signals input by a pair of microphones arranged in the direction in the microphone array, and a sound source position estimation unit, Based on the observation signal input from a reference microphone in the microphone array and the difference between the observation signals calculated for each of the plurality of directions, the sound source constraint partial differential equation is used. , Each time of the reference microphone on the condition of each position of the plurality of sound sources in the presence of the plurality of sound sources and additive noise Observed signal, and so as to increase the probability density value of the difference of the observed signals at each time for each of said plurality of directions, estimating the position of each of the plurality of sound sources.

本発明に係るプログラムは、上記の音源定位装置の各部としてコンピュータを機能させるためのプログラムである。   The program according to the present invention is a program for causing a computer to function as each part of the sound source localization apparatus.

以上説明したように、本発明の音源定位装置、方法、及びプログラムによれば、音源拘束偏微分方程式を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各時刻の観測信号、及び前記複数の方向の各々に対する各時刻の観測信号の差分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定することにより、雑音が存在する場合であっても、複数の音源を同時に定位することができる、という効果が得られる。   As described above, according to the sound source localization apparatus, method, and program of the present invention, the plurality of sound sources in the case where the plurality of sound sources and additive noise exist, which are determined using a sound source constrained partial differential equation. In order to increase the probability density value of the difference between the observation signal at each time of the reference microphone and the observation signal at each time with respect to each of the plurality of directions on the condition of each position of the plurality of sound sources, By estimating each position, it is possible to obtain an effect that a plurality of sound sources can be localized simultaneously even in the presence of noise.

点音源から観測点rへ到来する球面波を示す図である。It is a figure which shows the spherical wave which arrives at the observation point r from a point sound source. マイクロホンアレイの配置の一例を示す図である。It is a figure which shows an example of arrangement | positioning of a microphone array. 本発明の実施の形態に係る音源定位装置の構成を示す概略図である。It is the schematic which shows the structure of the sound source localization apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る音源定位装置における音源定位処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the sound source localization process routine in the sound source localization apparatus which concerns on embodiment of this invention. マイクロホンアレイ基準点と音源位置を示す図である。It is a figure which shows a microphone array reference point and a sound source position. 一音源、雑音なし、壁の反射係数0.01 の場合の定位結果を示す図であるIt is a figure which shows the localization result in the case of one sound source, no noise, and a wall reflection coefficient of 0.01 一音源、雑音あり、壁の反射係数0.01 の場合の定位結果を示す図である。It is a figure which shows the localization result in the case of one sound source, noise, and a wall reflection coefficient of 0.01. 一音源、雑音あり、壁の反射係数0.25 の場合の定位結果を示す図である。It is a figure which shows the localization result in the case of one sound source, noise, and a wall reflection coefficient of 0.25. 一音源、雑音あり、壁の反射係数0.5 の場合の定位結果を示す図である。It is a figure which shows the localization result in the case of one sound source, noise, and a wall reflection coefficient of 0.5. マイクロホンアレイ基準点と音源位置を示す図である。It is a figure which shows a microphone array reference point and a sound source position. 二音源、雑音あり、壁の反射係数0.01 の場合の定位結果を示す図であるIt is a figure which shows the localization result in the case of two sound sources, noise, and a wall reflection coefficient of 0.01

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音響信号から波源位置を推定することを目的とした信号処理技術である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The technique proposed in the present invention is a signal processing technique for the purpose of estimating a wave source position from an acoustic signal.

<本発明の実施の形態の概要>
本発明の実施の形態は、上述した従来手法の利点を併せ持つ、小領域・瞬時観測による複数音源の波源定位を可能にする技術である。
<Outline of Embodiment of the Present Invention>
The embodiment of the present invention is a technology that enables wave source localization of a plurality of sound sources by small region / instantaneous observation, which has the advantages of the conventional method described above.

本発明の実施の形態では、音源拘束偏微分方程式の時間領域表現をベースにした音響信号の確率分布を構築することで複数の音源と加法雑音が存在する場合の混合信号の確率分布を記述し、Expectation-Maximization (EM) アルゴリズムにより複数の音源の波源定位を行う。   In the embodiment of the present invention, the probability distribution of the mixed signal in the case where there are a plurality of sound sources and additive noise is described by constructing the probability distribution of the acoustic signal based on the time domain representation of the sound source constrained partial differential equation. , Localization of multiple sound sources using the Expectation-Maximization (EM) algorithm.

<本発明の実施の形態の原理>
次に、音源の位置を推定する原理について説明する。
<Principle of Embodiment of the Present Invention>
Next, the principle of estimating the position of the sound source will be described.

<音源拘束偏微分方程式>
図1に示すように、観測点の基準となる位置ベクトルを

とし、単一波源の位置ベクトルを

とする。波源の信号をg(t)、音速をc とし、単一点波源からの球面波伝播を仮定すると観測点における観測値は

と表される。ここで、

である。観測点から波源方向へ向かう単位ベクトルをn とすると、

であるため、f(r, t) の空間微分は、

となる。また、f(r, t) の時間微分は

となるので、式(1) と式(8) を式(7) に代入することでgが消去され、

のように、観測信号とその時間・空間微分のみを含む方程式を立てることができる。ただし、R = |r − r0|は観測点から波源までの距離である。この式を音源拘束式と呼ぶ(上記非特許文献1〜3)。以上のように音源拘束式は、任意の音源信号波形で成り立つ、音源の位置と空間の場の一意な関係を記述する偏微分方程式である。
<Sound source constrained partial differential equation>
As shown in FIG. 1, the position vector that becomes the reference of the observation point is

And the position vector of a single source

And Assuming that the wave source signal is g (t), the sound velocity is c, and spherical wave propagation from a single point source is assumed, the observed value at the observation point is

It is expressed. here,

It is. If the unit vector going from the observation point toward the wave source is n,

Therefore, the spatial derivative of f (r, t) is

It becomes. The time derivative of f (r, t) is

Therefore, substituting Equation (1) and Equation (8) into Equation (7) eliminates g,

Thus, an equation including only the observed signal and its time / space derivative can be established. However, R = | r−r 0 | is the distance from the observation point to the wave source. This equation is called a sound source constraint equation (Non-Patent Documents 1 to 3). As described above, the sound source constraint equation is a partial differential equation describing a unique relationship between the position of the sound source and the space field, which is formed by an arbitrary sound source signal waveform.

<音源拘束偏微分方程式に基づく音響信号の確率モデル化>
図2のようなマイクロホンアレイで、観測信号の空間微分を空間差分で近似する場合を考える。図2に示す観測信号fの空間微分を取得するためのアレイ幾何の例では、例えばx方向のfの空間微分は、(f1,t −f2,t)/2Dで近似できる。
<Probability modeling of acoustic signals based on sound source constrained partial differential equations>
Consider a case in which the spatial differentiation of an observation signal is approximated by a spatial difference in a microphone array as shown in FIG. In the example of the array geometry for obtaining the spatial differential of the observation signal f shown in FIG. 2, for example, the spatial differential of f in the x direction can be approximated by (f 1, t −f 2, t ) / 2D.

ただし、マイクロホンアレイの配置は、観測信号の空間微分を空間差分で近似できるものであれば良く、以下の理論は図2の配置に限らない。図2のマイクロホンアレイの場合、7本のマイクロホンを用いて各時刻tlで、基準点における信号f0,l およびその各方向の空間差分



を得ることができる。ただし、lは離散時刻のインデックスを表す。
However, the arrangement of the microphone array is not limited as long as the spatial differentiation of the observation signal can be approximated by a spatial difference, and the following theory is not limited to the arrangement shown in FIG. In the case of the microphone array of FIG. 2, the signal f 0, l at the reference point and the spatial difference in each direction at each time t 1 using seven microphones.



Can be obtained. Here, l represents an index of discrete time.

基準点における観測信号の時間微分を時間差分で近似することにすると、式(9) は

と表せる。ただし、nx、ny、nz はそれぞれ のx, y, z 方向の成分、T はサンプリング周期である。
If the time derivative of the observed signal at the reference point is approximated by the time difference, Equation (9) becomes

It can be expressed. Where n x , n y , and nz are the components in the x, y, and z directions, respectively, and T is the sampling period.

式(10) の左辺を右辺に移項し、整理すると

が得られる。式(11) の右辺は雑音の存在や差分近似に伴う誤差により実際には必ずしも厳密に0 にはならない。そこで、式(11) の右辺を

のように誤差変数εx,l, εy,l, εz,l に置き換え、これらを平均が0 で互いに独立な正規確率変数(複素正規分布に従う確率変数)

と仮定する。また、観測点における観測信号を、平均が0、分散がσ2 0の正規確率変数とする。これは、

と仮定することに相当する。
If the left side of Equation (10) is moved to the right side and rearranged,

Is obtained. The right side of Equation (11) is not always exactly 0 due to the presence of noise and errors accompanying differential approximation. Therefore, the right side of equation (11)

Are replaced with error variables ε x, l , ε y, l , ε z, l , and these are normal random variables whose mean is 0 and independent of each other (random variables that follow a complex normal distribution)

Assume that The observation signal at the observation point is a normal random variable with an average of 0 and a variance of σ 2 0 . this is,

Is equivalent to assuming.

ここで、fx,l, fy,l, fz,l, f0,l を並べたベクトルとεx,l, εy,l, εz,l, ε0,l を並べたベクトルを

とし、f0,0, f1,..., fL を連結したベクトルとε0,0, ε1,...,εL を連結したベクトルを

と表記すると、式(12) は

の形で書ける。ただし、θ= {R,n} であり、A(θ) は

で与えられる。式(13), (15) より、εは平均が0、分散共分散行列が

の複素正規分布

に従う。
Where f x, l , f y, l , f z, l , f 0, l vector and ε x, l , ε y, l , ε z, l , ε 0, l vector The

And a vector concatenated f 0,0 , f 1 , ..., f L and a vector concatenated ε 0,0 , ε 1 , ..., ε L

And (12) becomes

Can be written in the form of However, θ = {R, n} and A (θ) is

Given in. From Eqs. (13) and (15), ε is 0 on average and the variance-covariance matrix is

Complex normal distribution of

Follow.


(A(θ) は正則)であるので、f は

と表され、式(27) より、

が言える。従って、観測信号およびその空間差分が与えられた下での最尤音源位置^θは


により得られる。

(A (θ) is regular), so f is

From equation (27),

I can say. Therefore, the maximum likelihood sound source position ^ θ under the given observation signal and its spatial difference is


Is obtained.

<複数音源の定位アルゴリズム>
以上のf の確率モデル化により、音源が複数個存在する場合、および雑音が存在する場合の観測信号の確率分布を導くことができる。音源インデックスをk とし、音源k に由来する観測信号の成分、音源位置パラメータをそれぞれf(k)、θ(k) とする。また、f(k) の分散をσ(k) 0 2 とする。式(32) より、

となる。また、加法雑音をvとし、観測信号を

とする。f(1),・・・,f(K),vが互いに独立であれば、観測信号y は

に従う。ただし、Γはvの分散共分散行列である。以上より、複数の音源と雑音が存在する場合の各音源の最尤音源位置

は、観測信号yが与えられた下で

を解くことにより得られる。
<Multiple sound source localization algorithm>
By the probability modeling of f above, it is possible to derive the probability distribution of the observed signal when there are a plurality of sound sources and when there is noise. The sound source index is k, and the components of the observation signal derived from the sound source k and the sound source position parameters are f (k) and θ (k) , respectively. Further, the variance of f (k) is σ (k) 0 2 . From equation (32)

It becomes. Also, the additive noise is v and the observed signal is

And If f (1) , ..., f (K) , v are independent of each other, the observed signal y is

Follow. Where Γ is the variance covariance matrix of v. From the above, the maximum likelihood sound source position of each sound source when multiple sound sources and noise exist

Under the observation signal y

Is obtained by solving

y を不完全データ、

を完全データと見なすことで、以上の最尤推定問題に対しExpectation-Maximization (EM) アルゴリズムを適用することができる。完全データ対数尤度log p(x|θ) は

で与えられるので、y が与えられた下でのlog p(x|θ) のx に関する条件付き期待値(Q 関数)は

で与えられる。ただし、

はx に関係する項のみについての等号を意味する。この関数が増大するようにθを更新するステップ(M ステップ)と、更新したθをθ´に代入し、



を計算するステップ(E ステップ)を繰り返すことでp(y|θ) を局所的に最大にするθを求めることができる。
y is incomplete data,

Can be applied to the above maximum likelihood estimation problem. The complete data log likelihood log p (x | θ) is

The conditional expectation value (Q function) of log p (x | θ) with respect to x under y is given by

Given in. However,

Means an equal sign only for terms related to x. The step of updating θ so that this function increases (M step), and the updated θ is substituted into θ ′,

When

By repeating the step of calculating (E step), θ that locally maximizes p (y | θ) can be obtained.

完全データx と不完全データy の関係は

と書けるので、

はそれぞれ

で与えられる。以上より、以下の初期設定、Eステップ、Mステップからなるアルゴリズムを得る。
The relationship between complete data x and incomplete data y is

So you can write

Each

Given in. As described above, an algorithm including the following initial setting, E step, and M step is obtained.

(初期ステップ)
θを初期設定する。
(Initial step)
Initialize θ.

(E ステップ)
θをθ´に代入し、式(41) により

を計算する。
(E step)
Substituting θ into θ ′, and using equation (41)

Calculate

(Mステップ)
下式によりθを更新する。
(M step)
Update θ using the following formula.

<Mステップ更新式>
Mステップでは、

ができるだけ大きくなるように

を更新する。
<M step update formula>
In M step,

To be as large as possible

Update.


を最大にする

の同時最適解を解析的に求めることは難しいが、座標勾配法によりそれぞれの変数に関して

が最大となるように反復更新することで

を局所最大化することができる(EM アルゴリズムでは、M ステップで補助関数が単調に増大することが保証されていれば収束性は保証される)。以下に、M ステップの更新方法を2例示す。

Maximize

Although it is difficult to analytically find the simultaneous optimal solution of

By repeatedly updating so that becomes the maximum

(The EM algorithm guarantees convergence if the auxiliary function is guaranteed to increase monotonically in M steps). Two examples of M-step update methods are shown below.

<例1>
<n(k)の更新式>
n(k)は単位ベクトルなので、

の下で

ができるだけ小さくなるようにn(k) を更新する。この制約つき最適化問題は、例えば、

のようなラグランジアンを用いてLagrange 未定乗数法で解くことができる。A(θ(k)) は


のようにn(k)に依存する項とそうでない項に分解できるので、L(n(k)) のn(k) に関する偏微分を0 と置くことにより、

を得る。ただし、Ei,jは、i 行j 列目の要素のみが1 で残りは0 であるような4×4 行列である。
<Example 1>
<Renewal formula of n (k) >
n (k) is a unit vector, so

Under

Update n (k) so that becomes as small as possible. This constrained optimization problem is, for example,

It can be solved by the Lagrange multiplier method using a Lagrangian such as A (θ (k) ) is


, The term that depends on n (k) and the term that does not depend on n (k) can be decomposed, and by setting the partial derivative of L (n (k) ) with respect to n (k) to 0,

Get. However, E i, j is a 4 × 4 matrix in which only the element in the i-th row and j-th column is 1 and the rest is 0.


より、あとは

となるようにγ(k)を二分法などで探索し、式(52)に代入すれば良い。

And the rest

Search for γ (k) by the bisection method or the like so that

<音源距離R(k)の更新式>

とする。上記と同様、A(θ(k)) は

のようにρ(k) に依存する項とそうでない項に分解することができるので、Q(θ,θ´) のρ(k)に関する偏微分を0 と置くことにより、

を得る。
<Renewal formula of sound source distance R (k) >

And As above, A (θ (k) ) is

As shown in Fig. 1, the term that depends on ρ (k) and the term that does not depend on ρ (k) can be decomposed, so by setting the partial derivative of Q (θ, θ ′ ) with respect to ρ (k) to 0,

Get.

<σ(k) 0 2 の更新式>
上記と同様、Σ(k)-1

のようにσ(k) 0,m 2 に依存する項とそうでない項に分解できるので、Q(θ,θ´) のσ(k) 0 2 に関する偏微分を0 と置くことにより、

を得る。
<Updating formula for σ (k) 0 2 >
As above, Σ (k) -1

Thus, it can be decomposed into terms that depend on σ (k) 0, m 2 and terms that do not, so by putting the partial derivative of Q (θ, θ ′) with respect to σ (k) 0 2 as 0,

Get.

<雑音分散共分散行列Γの更新式>
雑音の分散共分散行列を

のように、正規化分散共分散行列モデルW と雑音のエネルギーν2の積で表し、ν2 mを変数とする。W は空間無相関モデルや拡散音場モデルなどから導かれる定数行列である。Q(θ,θ´) のν2 に関する偏微分を0 と置くことにより、

を得る。
<Update formula of noise variance covariance matrix Γ>
Noise variance covariance matrix

As shown, the product of the normalized variance covariance matrix model W and the noise energy ν 2 is used, and ν 2 m is a variable. W is a constant matrix derived from a spatial uncorrelated model or a diffuse sound field model. By setting the partial derivative of Q (θ, θ ′) with respect to ν 2 to 0,

Get.

<例2>
<音源位置ベクトルr(k)の更新式>
この例では例1と到来方向の更新の仕方のみが異なる。この例では

を変数とする。この場合はノルムの制約は不要なので、制約なし最適化問題として、Q(θ,θ´) を最大にするr(k) を求めれば良い。A(θ(k))は

のようにr(k) に依存する項とそうでない項に分解できるので,Q(θ,θ´)のr(k) に関する偏微分を0と置くことにより、

を得る。音源距離R(k)の更新式、σ(k) 0 2 の更新式、雑音分散共分散行列Γの更新式は例1と同様である。
<Example 2>
<Update formula of sound source position vector r (k)>
This example differs from Example 1 only in the way of updating the arrival direction. In this example

Is a variable. In this case, no norm constraint is required, and r (k) that maximizes Q (θ, θ ′) may be obtained as an unconstrained optimization problem. A (θ (k)) is

As we can divide into terms that depend on r (k) and terms that do not, like this, by setting the partial derivative of Q (θ, θ ′) with respect to r (k) to 0,

Get. The update formula for the sound source distance R (k), the update formula for σ (k) 0 2 , and the update formula for the noise variance covariance matrix Γ are the same as in Example 1.

<逆行列計算>
式(41) より、Eステップでは

の逆行列計算が必要である。ここでは点音源が一つと雑音源が一つの場合と、点音源が二つの場合にこの逆行列計算が効率的に行えることを示す。
<Inverse matrix calculation>
From Eq. (41)

Inverse matrix calculation is required. Here, it is shown that this inverse matrix calculation can be performed efficiently when there is one point sound source and one noise source and when there are two point sound sources.

<1音源と1雑音源の場合>
1音源と1雑音源の場合、(HΛHT)-1

と書ける。ここで、Woodbury の公式

を用いると、式(61)は

と書ける。Γはブロック対角行列、V1は帯行列(ブロック三重対角行列)なので、Γ-1+V1 は帯行列となり、(Γ-1+V1)V1 の計算はCholesky 分解を用いて効率的に行うことができる。
<1 sound source and 1 noise source>
For one sound source and one noise source, (HΛH T ) -1 is

Can be written. Where Woodbury's official

(61) becomes

Can be written. Since Γ is a block diagonal matrix and V 1 is a band matrix (block tridiagonal matrix), Γ −1 + V 1 is a band matrix, and calculation of (Γ −1 + V 1 ) V 1 is efficient using Cholesky decomposition. Can be done.

<2音源の場合>
2音源の場合,(HΛHT)-1

と書ける。上記同様、Woodbury の公式を用いると、式(65) は

と書ける。V1 とV2 はいずれも帯行列なので、V2+V1も帯行列となり、(V2+V1)‐1V1の計算はCholesky 分解を用いて効率的に行うことができる。
<In the case of 2 sound sources>
In the case of two sound sources, (HΛH T ) -1 is

Can be written. As above, using Woodbury's formula, equation (65) becomes

Can be written. Since V 1 and V 2 are both band matrices, V 2 + V 1 is also a band matrix, and the calculation of (V 2 + V 1 ) −1V 1 can be efficiently performed using Cholesky decomposition.

<システム構成>
次に、マイクロホンアレイにより入力された音響信号から、複数の音源の位置を推定する音源定位装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
<System configuration>
Next, an embodiment of the present invention will be described by taking as an example a case where the present invention is applied to a sound source localization apparatus that estimates the positions of a plurality of sound sources from acoustic signals input from a microphone array.

図3に示すように、本発明の第1の実施の形態に係る音源定位装置100は、CPUと、RAMと、音源定位処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。   As shown in FIG. 3, the sound source localization apparatus 100 according to the first embodiment of the present invention is a computer including a CPU, a RAM, and a ROM that stores a program for executing a sound source localization processing routine. It is configured and functionally configured as follows.

図3に示すように、音源定位装置100は、入力部10と、演算部20と、出力部90とを備えている。   As shown in FIG. 3, the sound source localization apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 90.

入力部10は、上記図2に示すようなマイクロホンアレイの各マイクロホンから出力された、複数の音源からの音源信号が混じっている音響信号(以後、観測信号)の時系列データを受け付ける。   The input unit 10 receives time-series data of an acoustic signal (hereinafter referred to as an observation signal) output from each microphone of the microphone array as shown in FIG. 2 and mixed with sound source signals from a plurality of sound sources.

演算部20は、空間差分算出部22と、音源位置推定部25と、を含んで構成されている。   The calculation unit 20 includes a spatial difference calculation unit 22 and a sound source position estimation unit 25.

空間差分算出部22は、マイクロホンアレイの各マイクロホンから出力された観測信号から、各時刻tlで、基準点のマイクロホンにおける観測信号f0,lを取得すると共に、以下の式に従って、各方向x、y、zの空間差分fx,l,fy,l,fz,lを算出する。 The spatial difference calculation unit 22 acquires the observation signal f 0, l at the microphone at the reference point from each observation signal output from each microphone of the microphone array at each time t 1 , and each direction x , Y, z spatial differences f x, l , f y, l , f z, l are calculated.





音源位置推定部25は、空間差分算出部22により得られた、基準点のマイクロホンにおける各時刻tlの観測信号f0,lと、各時刻tlの各方向x、y、zの空間差分fx,l,fy,l,fz,lとからなる観測信号yに基づいて、EMアルゴリズムを用いて、音源拘束偏微分方程式を用いて定められた、複数の音源と加法雑音が存在する場合における、複数の音源の各々の位置を条件とした、観測信号yの確率分布P(y|θ)を大きくするように、複数の音源の各々の位置を推定する。 Sound source position estimation unit 25 was obtained by the spatial difference calculating unit 22, the observed signal f 0 of the time t l of the microphone of the reference point, l and, spatial difference in each direction x, y, z at each time t l f x, l, f y, l, f z, based on the observed signal y consisting of l, using the EM algorithm, defined by using the sound source restraining partial differential equations, there is a plurality of sound sources and additive noise In this case, the position of each of the plurality of sound sources is estimated so as to increase the probability distribution P (y | θ) of the observation signal y on the condition of each position of the plurality of sound sources.

音源位置推定部25は、期待値算出部26と、変数更新部28と、収束判定部30とを備えている。   The sound source position estimation unit 25 includes an expected value calculation unit 26, a variable update unit 28, and a convergence determination unit 30.

期待値算出部26は、空間差分算出部22により得られた、基準点のマイクロホンにおける各時刻tlの観測信号f0,lと、各時刻tlの各方向x、y、zの空間差分fx,l,fy,l,fz,lとからなる観測信号yと、初期設定された、又は前回更新された各音源kの音源位置θ(k)と、初期設定された、又は前回更新された各音源kの音源信号の分散σ(k) 0 2に基づいて、上記式(41) により

を計算する。
Expected value calculation unit 26 was obtained by the spatial difference calculating section 22, and the observed signal f 0, l at each time t l at the microphone of the reference point, the spatial difference of the directions x, y, z at each time t l an observation signal y consisting of f x, l , f y, l , f z, l, and a sound source position θ (k) of each sound source k that has been initialized or updated last time, Based on the variance σ (k) 0 2 of the sound source signal of each sound source k updated last time,

Calculate

変数更新部28は、期待値算出部26によって算出された

に基づいて、Q(θ,θ´) ができるだけ大きくなるように、上記式(52)、式(54)、式(56)〜式(58)に従って、各音源kの方向ベクトルn(k),音源距離R(k),分散σ(k) 0 2,雑音共分散行列Γ を更新する。なお、上述した例2のように、上記式(60)、式(54)、式(56)〜式(58)に従って、各音源kの位置ベクトルr(k),音源距離R(k),分散σ(k) 0 2,雑音共分散行列Γ を更新する。
The variable update unit 28 is calculated by the expected value calculation unit 26.

, The direction vector n (k) of each sound source k according to the above formula (52), formula (54), and formula (56) to formula (58) so that Q (θ, θ ′) becomes as large as possible. Then, the sound source distance R (k) , variance σ (k) 0 2 , and noise covariance matrix Γ are updated. Note that, as in Example 2 described above, the position vector r (k) , the sound source distance R (k) , and the sound source distance k of each sound source k according to the above formulas (60), (54), and (56) to (58 ) . Update the variance σ (k) 0 2 and the noise covariance matrix Γ.

収束判定部30は、予め定められた収束判定条件を満たすまで、期待値算出部26及び変数更新部28による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。   The convergence determination unit 30 repeats each process performed by the expected value calculation unit 26 and the variable update unit 28 until a predetermined convergence determination condition is satisfied. The convergence determination condition is, for example, reaching a predetermined number of repetitions.

収束判定条件を満たしたときに、最終的に得られた各音源kの方向ベクトルn(k)、音源距離R(k)を、各音源kの位置の推定結果として、出力部90により出力する。 When the convergence determination condition is satisfied, the output unit 90 outputs the direction vector n (k) and the sound source distance R (k) of each sound source k finally obtained as the estimation result of the position of each sound source k. .

<音源定位装置の作用>
次に、本実施の形態に係る音源定位装置100の作用について説明する。
<Operation of sound source localization device>
Next, the operation of the sound source localization apparatus 100 according to the present embodiment will be described.

入力部10において、マイクロホンアレイの各マイクロホンから出力された観測信号の時系列データを受け付けると、音源定位装置100は、図4に示す音源定位処理ルーチンを実行する。   When the input unit 10 receives time-series data of observation signals output from each microphone of the microphone array, the sound source localization apparatus 100 executes a sound source localization processing routine shown in FIG.

まず、ステップS120では、マイクロホンアレイの各マイクロホンから入力された観測信号の時系列データから、各時刻tlで、基準点のマイクロホンにおける観測信号f0,lを取得すると共に、各方向x、y、zの空間差分fx,l,fy,l,fz,lを算出する。 First, in step S120, the observation signal f 0, l at the reference point microphone is obtained at each time t 1 from the time series data of the observation signal input from each microphone of the microphone array, and each direction x, y , Z spatial differences f x, l , f y, l , f z, l are calculated.

ステップS122では、各音源kの音源位置θ(k)と各音源kの音源信号の分散σ(k) 0 2とに初期値を設定する。 In step S122, initial values are set for the sound source position θ (k) of each sound source k and the sound source signal variance σ (k) 0 2 of each sound source k.

そして、ステップS123では、上記ステップS120で取得した各時刻tlの観測信号f0,l、及び各時刻tlの各方向x、y、zの空間差分fx,l,fy,l,fz,lからなる観測信号yと、上記ステップS122で初期設定された、又は後述するステップS124で前回更新された各音源kの音源位置θ(k)及び分散σ(k) 0 2とに基づいて、上記式(41) により

を計算する。
In step S123, the observation signal f 0, l at each time t l acquired in step S120 and the spatial differences f x, l , f y, l , in each direction x, y, z at each time t l are obtained. The observation signal y composed of f z, l and the sound source position θ (k) and variance σ (k) 0 2 of each sound source k that is initially set in step S122 or updated last time in step S124 described later. Based on the above equation (41)

Calculate

ステップS124では、上記ステップS123で算出された

に基づいて、Q(θ,θ´) ができるだけ大きくなるように、上記式(52)、式(54)、式(56)〜式(58)に従って、に従って、各音源kの方向ベクトルn(k),音源距離R(k),分散σ(k) 0 2,雑音共分散行列Γ を更新する。
In step S124, the value calculated in step S123 is calculated.

In accordance with the above equation, the direction vector n ( ) of each sound source k is obtained according to the above equations (52), (54), and (56) to (58) so that Q (θ, θ ′) becomes as large as possible. k) , the sound source distance R (k) , the variance σ (k) 0 2 , and the noise covariance matrix Γ are updated.

ステップS125において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS123へ戻る。一方、収束判定条件を満たした場合には、ステップS126へ進む。   In step S125, it is determined whether or not a predetermined convergence determination condition is satisfied. If the convergence determination condition is not satisfied, the process returns to step S123. On the other hand, if the convergence determination condition is satisfied, the process proceeds to step S126.

ステップS126では、上記ステップS124で最終的に得られた各音源kの方向ベクトルn(k),音源距離R(k)を、各音源kの位置の推定結果として、出力部90により出力して、音源定位処理ルーチンを終了する。 In step S126, the output unit 90 outputs the direction vector n (k) and the sound source distance R (k) of each sound source k finally obtained in step S124 as the estimation result of the position of each sound source k. Then, the sound source localization processing routine ends.

<実験>
図5のように単一音源とマイクロホンアレイを配置し,以下の条件で雑音・残響環境下の音源定位実験を行った。
<Experiment>
As shown in Fig. 5, a single sound source and a microphone array were arranged, and a sound source localization experiment was performed under a noise / reverberation environment under the following conditions.

(実験条件)
音源数: 1
部屋の反響を考慮した反射係数: 0.01, 0.5, 0.8
観測時間長: 64 点(4ms)
マイク間隔: 1cm
(Experimental conditions)
Number of Sound Sources: 1
Reflection coefficient considering room reflection: 0.01, 0.5, 0.8
Observation time length: 64 points (4 ms)
Microphone interval: 1cm

図6〜9に、各条件の定位結果を示す。   6-9 show the localization results for each condition.

図6は、一音源、雑音なしの場合で、壁の反射係数が0.01 の場合の定位結果を示す。各点は異なる初期値ごとに得られる推定音源方向を表す。180 度の違いは正解と見なしてよいため、どの初期値からも真の音源方向を正しく推定できていることが分かる。   FIG. 6 shows a localization result in the case of one sound source, no noise, and a wall reflection coefficient of 0.01. Each point represents an estimated sound source direction obtained for each different initial value. Since the difference of 180 degrees may be regarded as a correct answer, it can be seen that the true sound source direction can be correctly estimated from any initial value.

図7は、一音源、雑音あり、壁の反射係数0.01 の場合の定位結果を示す。各点は異なる初期値ごとに得られる推定音源方向を表す。   FIG. 7 shows a localization result in the case of one sound source, noise, and a wall reflection coefficient of 0.01. Each point represents an estimated sound source direction obtained for each different initial value.

図8は、一音源、雑音あり、壁の反射係数0.25 の場合の定位結果を示す。各点は異なる初期値ごとに得られる推定音源方向を表す。   FIG. 8 shows a localization result in the case of one sound source, noise, and a wall reflection coefficient of 0.25. Each point represents an estimated sound source direction obtained for each different initial value.

図9は、一音源、雑音あり、壁の反射係数0.5 の場合の定位結果を示す。各点は異なる初期値ごとに得られる推定音源方向を表す。   FIG. 9 shows a localization result in the case of one sound source, noise, and a wall reflection coefficient of 0.5. Each point represents an estimated sound source direction obtained for each different initial value.

また、図10のように二音源とマイクロホンアレイを配置し、以下の条件で雑音・残響環境下の音源定位実験を行った。   In addition, as shown in FIG. 10, two sound sources and a microphone array were arranged, and a sound source localization experiment under a noise / reverberation environment was performed under the following conditions.

(実験条件)
音源数: 2
部屋の反響を考慮した反射係数:0.01
観測時間長: 64 点(4ms)
マイク間隔: 1cm
(Experimental conditions)
Number of Sound Sources: 2
Reflection coefficient considering room reflection: 0.01
Observation time length: 64 points (4 ms)
Microphone interval: 1cm

図11に定位結果を示す。図11は、二音源、雑音あり、壁の反射係数0.01 の場合の定位結果を示す。各点は異なる初期値ごとに得られる推定音源方向を表す。180 度の違いは正解と見なしてよいため、どの初期値からも真の音源方向を正しく推定できていることが分かる。   FIG. 11 shows the localization result. FIG. 11 shows a localization result in the case of two sound sources, noise, and a wall reflection coefficient of 0.01. Each point represents an estimated sound source direction obtained for each different initial value. Since the difference of 180 degrees may be regarded as a correct answer, it can be seen that the true sound source direction can be correctly estimated from any initial value.

以上説明したように、本実施の形態に係る音源定位装置によれば、音源拘束偏微分方程式を用いて定められた、複数の音源と加法雑音が存在する場合における、複数の音源の各々の位置を条件とした、基準のマイクロホンの各時刻の観測信号、及び複数の方向の各々に対する各時刻の観測信号の確率分布を大きくするように、複数の音源の各々の位置を推定することにより、雑音が存在する場合であっても、複数の音源を同時に定位することができる。   As described above, according to the sound source localization apparatus according to the present embodiment, each position of a plurality of sound sources when there are a plurality of sound sources and additive noises determined using a sound source constrained partial differential equation. By estimating the position of each of a plurality of sound sources so as to increase the probability distribution of the observation signal at each time of the reference microphone and the observation signal at each time in each of a plurality of directions under the condition of Even if there is a sound, a plurality of sound sources can be localized simultaneously.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、上述の音源定位装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   For example, the sound source localization apparatus described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 入力部
20 演算部
22 空間差分算出部
25 音源位置推定部
26 期待値算出部
28 変数更新部
30 収束判定部
90 出力部
100 音源定位装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Calculation part 22 Spatial difference calculation part 25 Sound source position estimation part 26 Expected value calculation part 28 Variable update part 30 Convergence determination part 90 Output part 100 Sound source localization apparatus

Claims (7)

マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置であって、
複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出する空間差分算出部と、
前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号と、前記複数の方向の各々に対して算出された前記観測信号の差分とに基づいて、音源拘束偏微分方程式を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各時刻の観測信号、及び前記複数の方向の各々に対する各時刻の観測信号の差分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する音源位置推定部と、
を含む音源定位装置。
A sound source localization device that estimates the position of each of the plurality of sound sources from an observation signal mixed with sound source signals from a plurality of sound sources input by a microphone array,
For each of a plurality of directions, a spatial difference calculation unit that calculates a difference between the observation signals input by a pair of microphones arranged in the direction in the microphone array;
Based on the observation signal input from a reference microphone in the microphone array and the difference between the observation signals calculated for each of the plurality of directions, the sound source constraint partial differential equation is used. In addition, in the case where additive noise is present with the plurality of sound sources, the observation signal at each time of the reference microphone on the condition of the position of each of the plurality of sound sources, and each time for each of the plurality of directions A sound source position estimation unit that estimates the position of each of the plurality of sound sources so as to increase the probability density value of the difference between the observation signals;
Sound source localization device including
前記確率密度値は、以下の式で表わされる請求項1記載の音源定位装置。



ただし、f(k)が、音源kからの観測される音源信号を表し、Γは、前記加法雑音の分散共分散行列であり、θ(k)は、音源kの位置を表し、σx (k)2、σy (k)2、σz (k)2は、音源kからの観測される音源信号の方向x、y、zの差分における分散を表し、σ0 (k)2は、音源kからの観測される音源信号の前記基準のマイクロホンにおける分散を表し、Rは、音源までの距離を表し、cは、音速を表し、Tは、サンプリング周期を表し、nx、ny、nzは、音源へ向かう単位ベクトルの方向x、y、zの成分を表す。
The sound source localization apparatus according to claim 1, wherein the probability density value is represented by the following expression.



Where f (k) represents the observed sound source signal from the sound source k, Γ is the variance-covariance matrix of the additive noise, θ (k) represents the position of the sound source k, and σ x ( k) 2 , σ y (k) 2 , σ z (k) 2 represent the variance in the difference between the observed sound source signal directions x, y, z from the sound source k, and σ 0 (k) 2 is represents the variance in the microphone of the reference sound source signals observed from the sound source k, R represents the distance to the sound source, c is, represents the sound velocity, T is, represents the sampling period, n x, n y, n z represents the component of the direction x, y, z of the unit vector toward the sound source.
前記音源位置推定部は、EM(Expectation-Maximization)アルゴリズムにより、前記確率密度値が大きくなるように、複数の音源kの各々までの距離R(k)、前記複数の音源kの各々へ向かう単位ベクトルn(k)、前記複数の音源kの各々の前記基準のマイクロホンにおける分散0 (k)2、及び前記加法雑音の分散共分散行列Γを繰り返し更新することにより、前記複数の音源の各々の位置を推定する請求項2記載の音源定位装置。 The sound source position estimator uses a EM (Expectation-Maximization) algorithm so that the probability density value increases, the distance R (k) to each of the plurality of sound sources k, and the unit toward each of the plurality of sound sources k. By repeatedly updating the vector n (k) , the variance 0 (k) 2 in the reference microphone of each of the plurality of sound sources k, and the variance-covariance matrix Γ of the additive noise, each of the plurality of sound sources The sound source localization apparatus according to claim 2, wherein the position is estimated. マイクロホンアレイにより入力された複数の音源からの音源信号が混合された観測信号から、前記複数の音源の各々の位置を推定する音源定位装置における音源定位方法であって、
空間差分算出部が、複数の方向の各々に対し、前記マイクロホンアレイのうち、前記方向に並んだマイクロホンのペアにより入力された前記観測信号の差分を算出し、
音源位置推定部が、前記マイクロホンアレイのうち、基準のマイクロホンにより入力された前記観測信号と、前記複数の方向の各々に対して算出された前記観測信号の差分とに基づいて、音源拘束偏微分方程式を用いて定められた、前記複数の音源と加法雑音が存在する場合における、前記複数の音源の各々の位置を条件とした、前記基準のマイクロホンの各時刻の観測信号、及び前記複数の方向の各々に対する各時刻の観測信号の差分の確率密度値を大きくするように、前記複数の音源の各々の位置を推定する
音源定位方法。
A sound source localization method in a sound source localization device that estimates the position of each of the plurality of sound sources from an observation signal mixed with sound source signals from a plurality of sound sources input by a microphone array,
A spatial difference calculation unit calculates, for each of a plurality of directions, a difference between the observation signals input by a pair of microphones arranged in the direction in the microphone array,
A sound source position estimation unit is configured to generate a sound source constrained partial differential based on the observation signal input from a reference microphone in the microphone array and the difference between the observation signals calculated for each of the plurality of directions. An observation signal at each time of the reference microphone and a plurality of directions, which are defined using an equation, on the condition of each position of the plurality of sound sources in the presence of the plurality of sound sources and additive noise. A sound source localization method for estimating a position of each of the plurality of sound sources so as to increase a probability density value of a difference between observation signals at each time with respect to each of the sound sources.
前記確率密度値は、以下の式で表わされる請求項4記載の音源定位方法。



ただし、f(k)が、音源kからの観測される音源信号を表し、Γは、前記加法雑音の分散共分散行列であり、θ(k)は、音源kの位置を表し、σx (k)2、σy (k)2、σz (k)2は、音源kからの観測される音源信号の方向x、y、zの差分における分散を表し、σ0 (k)2は、音源kからの観測される音源信号の前記基準のマイクロホンにおける分散を表し、Rは、音源までの距離を表し、cは、音速を表し、Tは、サンプリング周期を表し、nx、ny、nzは、音源へ向かう単位ベクトルの方向x、y、zの成分を表す。
The sound source localization method according to claim 4, wherein the probability density value is represented by the following expression.



Where f (k) represents the observed sound source signal from the sound source k, Γ is the variance-covariance matrix of the additive noise, θ (k) represents the position of the sound source k, and σ x ( k) 2 , σ y (k) 2 , σ z (k) 2 represent the variance in the difference between the observed sound source signal directions x, y, z from the sound source k, and σ 0 (k) 2 is represents the variance in the microphone of the reference sound source signals observed from the sound source k, R represents the distance to the sound source, c is, represents the sound velocity, T is, represents the sampling period, n x, n y, n z represents the component of the direction x, y, z of the unit vector toward the sound source.
前記音源位置推定部が推定することでは、EM(Expectation-Maximization)アルゴリズムにより、前記確率密度値が大きくなるように、複数の音源kの各々までの距離R(k)、前記複数の音源kの各々へ向かう単位ベクトルn(k)、前記複数の音源kの各々の前記基準のマイクロホンにおける分散0 (k)2、及び前記加法雑音の分散共分散行列Γを繰り返し更新することにより、前記複数の音源の各々の位置を推定する請求項5記載の音源定位方法。 When the sound source position estimation unit estimates, the distance R (k) to each of the plurality of sound sources k, the plurality of sound sources k, and the number of the sound sources k are increased so that the probability density value is increased by an EM (Expectation-Maximization) algorithm. By repeatedly updating the unit vector n (k) toward each, the variance 0 (k) 2 in the reference microphone of each of the plurality of sound sources k, and the variance covariance matrix Γ of the additive noise, The sound source localization method according to claim 5, wherein the position of each sound source is estimated. 請求項1〜請求項3の何れか1項に記載の音源定位装置の各部としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as each part of the sound source localization apparatus of any one of Claims 1-3.
JP2016032365A 2016-02-23 2016-02-23 Sound source localization apparatus, method, and program Active JP6531050B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032365A JP6531050B2 (en) 2016-02-23 2016-02-23 Sound source localization apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032365A JP6531050B2 (en) 2016-02-23 2016-02-23 Sound source localization apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2017150903A true JP2017150903A (en) 2017-08-31
JP6531050B2 JP6531050B2 (en) 2019-06-12

Family

ID=59741663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032365A Active JP6531050B2 (en) 2016-02-23 2016-02-23 Sound source localization apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6531050B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109870694A (en) * 2019-02-21 2019-06-11 哈尔滨工程大学 High-precision Long baselines positioning system based on more unmanned boat platforms
CN109946643A (en) * 2019-03-18 2019-06-28 西安电子科技大学 Bearing estimate method is reached based on the non-circular signal wave that MUSIC is solved
CN113376576A (en) * 2020-07-23 2021-09-10 郑州大学 Positioning method of sound source positioning sensor based on small-aperture microphone array
CN113674762A (en) * 2021-08-02 2021-11-19 大连理工大学 Noise source identification system based on multiple signal classification algorithm and working method
WO2023073861A1 (en) * 2021-10-28 2023-05-04 日本電気株式会社 Signal source position estimation device, system, and method, and non-transitory computer-readable medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134688A (en) * 1998-10-28 2000-05-12 Fujitsu Ltd Microphone array device
JP2006237952A (en) * 2005-02-24 2006-09-07 Sony Corp Microphone system
JP2008070339A (en) * 2006-09-15 2008-03-27 Univ Of Tokyo Sound source localization method and sound source localization device
JP2008145610A (en) * 2006-12-07 2008-06-26 Univ Of Tokyo Sound source separation and localization method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134688A (en) * 1998-10-28 2000-05-12 Fujitsu Ltd Microphone array device
JP2006237952A (en) * 2005-02-24 2006-09-07 Sony Corp Microphone system
JP2008070339A (en) * 2006-09-15 2008-03-27 Univ Of Tokyo Sound source localization method and sound source localization device
JP2008145610A (en) * 2006-12-07 2008-06-26 Univ Of Tokyo Sound source separation and localization method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小野 順貴 ほか: ""時空間勾配法に基づく実時間3次元音源定位センサ"", 日本音響学会2004年秋季研究発表会講演論文集−I− THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI, JPN6018050925, September 2004 (2004-09-01), JP, pages 607 - 608, ISSN: 0003947783 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109870694A (en) * 2019-02-21 2019-06-11 哈尔滨工程大学 High-precision Long baselines positioning system based on more unmanned boat platforms
CN109946643A (en) * 2019-03-18 2019-06-28 西安电子科技大学 Bearing estimate method is reached based on the non-circular signal wave that MUSIC is solved
CN109946643B (en) * 2019-03-18 2022-08-26 西安电子科技大学 Non-circular signal direction-of-arrival angle estimation method based on MUSIC solution
CN113376576A (en) * 2020-07-23 2021-09-10 郑州大学 Positioning method of sound source positioning sensor based on small-aperture microphone array
CN113674762A (en) * 2021-08-02 2021-11-19 大连理工大学 Noise source identification system based on multiple signal classification algorithm and working method
WO2023073861A1 (en) * 2021-10-28 2023-05-04 日本電気株式会社 Signal source position estimation device, system, and method, and non-transitory computer-readable medium

Also Published As

Publication number Publication date
JP6531050B2 (en) 2019-06-12

Similar Documents

Publication Publication Date Title
Dai et al. Sparse Bayesian learning approach for outlier-resistant direction-of-arrival estimation
JP2017150903A (en) Sound source localization device, method, and program
US9658318B2 (en) Sparsity-driven passive tracking of acoustic sources
Schwartz et al. Speaker tracking using recursive EM algorithms
US9384447B2 (en) Passive tracking of underwater acoustic sources with sparse innovations
EP3078210B1 (en) Estimating a room impulse response for acoustic echo cancelling
JP6623185B2 (en) Sound source localization apparatus, method, and program
Xie et al. Sequential subspace change point detection
JP7235534B2 (en) Microphone array position estimation device, microphone array position estimation method, and program
Padois et al. Time domain localization technique with sparsity constraint for imaging acoustic sources
Jia et al. Multistatic sonar localization with a transmitter
EP2716074B1 (en) Method for self-calibrating a set of acoustic sensors, and corresponding system
Nesta et al. Enhanced multidimensional spatial functions for unambiguous localization of multiple sparse acoustic sources
Khazaie et al. Localization of random acoustic sources in an inhomogeneous medium
JP6529451B2 (en) Sound source localization apparatus, method, and program
Tichavsky et al. Quasi-fluid-mechanics-based quasi-Bayesian Crame/spl acute/r-Rao bounds for deformed towed-array direction finding
Coutino et al. Greedy alternative for room geometry estimation from acoustic echoes: A subspace-based method
Jing et al. Acoustic source tracking based on adaptive distributed particle filter in distributed microphone networks
JP6488245B2 (en) Sound source localization apparatus, method, and program
Xue et al. Noise robust direction of arrival estimation for speech source with weighted bispectrum spatial correlation matrix
Wang et al. Sound source localization in a randomly inhomogeneous medium using matched statistical moment method
Madadi et al. Three-dimensional localization of multiple acoustic sources in shallow ocean with non-Gaussian noise
Wu et al. Multistatic localization by differential time delays and time differences of arrival in the absence of transmitter position
Michalopoulou et al. Sediment sound speed inversion with time-frequency analysis and modal arrival time probability density functions
Houegnigan et al. Neural networks for high performance time delay estimation and acoustic source localization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190520

R150 Certificate of patent or registration of utility model

Ref document number: 6531050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150