JP2013097176A - Sound source separation device, sound source separation method, and program - Google Patents

Sound source separation device, sound source separation method, and program Download PDF

Info

Publication number
JP2013097176A
JP2013097176A JP2011240054A JP2011240054A JP2013097176A JP 2013097176 A JP2013097176 A JP 2013097176A JP 2011240054 A JP2011240054 A JP 2011240054A JP 2011240054 A JP2011240054 A JP 2011240054A JP 2013097176 A JP2013097176 A JP 2013097176A
Authority
JP
Japan
Prior art keywords
sound source
signal
time difference
arrival time
observed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011240054A
Other languages
Japanese (ja)
Other versions
JP5726709B2 (en
Inventor
Akiko Araki
章子 荒木
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011240054A priority Critical patent/JP5726709B2/en
Publication of JP2013097176A publication Critical patent/JP2013097176A/en
Application granted granted Critical
Publication of JP5726709B2 publication Critical patent/JP5726709B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a sound source separation technique which provides a method for efficiently estimating an arrival time difference δ and eliminates the need of overall search operation to increase the speed of estimation.SOLUTION: An arrival time difference δ, a power spectrum σof noise, a sound source spectrum s, and a sound source existence probability p(k|θ) are estimated from an observation signal x=[x,x]in a frequency domain. The estimation is performed in accordance with formula where: mis a posterior probability indicative of an expected value of attribution of the observation signal xto a sound source k; D is an interval between two microphones; c is a speed of an original signal; φ=sinc(2πfD/c) is true; ξ=[x-φ(x-s)] is true; ψand ψare phases of spectra sand ξrespectively; and δis the arrival time difference. The uncertainty of ±π which the estimated arrival time difference δincludes is corrected.

Description

本発明は信号処理の技術分野に属する。特に本発明は複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を推定し、分離抽出する音源分離技術に関する。特に、原信号やそれらがどのように混ざったかの情報を用いずに複数の原信号とノイズとが混在している観測信号のみから、それぞれの原信号を推定する、ブラインド音源分離技術に属する。   The present invention belongs to the technical field of signal processing. In particular, the present invention relates to a sound source separation technique for estimating and separating and extracting each original signal from an observed signal in a situation where a plurality of original signals are mixed with noise and observed with two microphones. In particular, the present invention belongs to a blind sound source separation technique for estimating each original signal from only the observation signal in which a plurality of original signals and noise are mixed without using the information on the original signals and how they are mixed.

非特許文献1が音源分離の従来技術として知られている。非特許文献1では、音源kから発せられる原信号の、二個のマイクへの到達時間差δNon-Patent Document 1 is known as a conventional technique of sound source separation. In Non-Patent Document 1, the arrival time difference δ k between the two microphones of the original signal emitted from the sound source k is calculated.

Figure 2013097176
Figure 2013097176

として推定している。 As estimated.

和泉洋介,小野順貴,嵯峨山茂樹,“スパースな混合モデルに基づく雑音・残響環境下の劣決定ブラインド音源分離”,電子情報通信学会総合大会講演論文集,2008年3月Yosuke Izumi, Junki Ono, Shigeki Hatakeyama, “Underdetermined Blind Source Separation under Noise / Reverberation Environment Based on Sparse Mixture Model”, Proceedings of the IEICE General Conference, March 2008

しかしながら、従来技術では、到達時間差δの解析的な更新式は与えられていないため、多くの計算コストを要する全探索操作によって、到達時間差δを推定する必要がある。 However, in the prior art, since an analytical update formula for the arrival time difference δ k is not given, it is necessary to estimate the arrival time difference δ k by a full search operation that requires a large calculation cost.

本発明は、到達時間差δの性質に着目し、到達時間差δを効率的に推定する方法を与え、従来技術において必要であった全探索操作を不要とし、高速な音源分離技術を提供することを目的とする。   The present invention focuses on the nature of the arrival time difference δ, provides a method for efficiently estimating the arrival time difference δ, eliminates the full search operation required in the prior art, and provides a high-speed sound source separation technique. Objective.

上記の課題を解決するために、本発明の第一の態様によれば、複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する。原信号の音源のインデックスをkとし、周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rから、二個のマイクへの原信号の到達時間差δf,kと雑音のパワースペクトルσ と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定する。観測信号xf,tと推定されたパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する。観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、二個のマイクの間隔をDとし、原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、スペクトルsf,t,k及びξf,t,kの位相をそれぞれψsk及びψξkとし、到達時間差δf,kIn order to solve the above problems, according to the first aspect of the present invention, in a situation where a plurality of original signals are mixed together with noise and observed by two microphones, each original signal is separated from the observed signal. Extract. The source signal source index is k, and the arrival time difference δ of the original signal to the two microphones from the frequency domain observation signal x f, t = [x f, t, L , x f, t, R ] T f, k , noise power spectrum σ f 2 , original signal spectrum s f, t, k and sound source existence probability p (k | θ) are estimated. Generate separated signals y f, t, k from observed signals x f, t and estimated parameters θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}. . The posterior probability that the observed signal x f, t indicates the expected value attributed to the sound source k is m f, t, k , the distance between the two microphones is D, the speed of the original signal is c, φ f = sinc ( 2πfD / c), and ξ f, t, k = [x f, t, R −φ f (x t, t, L −s f, t, k )], and spectra s f, t, k and ξ The phases of f, t, k are ψ sk and ψ ξk , respectively, and the arrival time difference δ f, k is

Figure 2013097176
Figure 2013097176

として推定する。推定された到達時間差δf,kが内包する±πの不定性を補正する。 Estimate as The uncertainty of ± π included in the estimated arrival time difference δ f, k is corrected.

本発明は、到達時間差δを効率的に推定する方法を与え、高速な音源分離ができるという効果を奏する。   The present invention provides a method for efficiently estimating the arrival time difference δ, and has the effect of enabling high-speed sound source separation.

第一実施形態に係る音源分離装置の機能ブロック図。The functional block diagram of the sound source separation apparatus which concerns on 1st embodiment. 第一実施形態に係る音源分離装置の処理フローを示す図。The figure which shows the processing flow of the sound source separation apparatus which concerns on 1st embodiment. Eステップ計算部の機能ブロック図。The functional block diagram of an E step calculation part. Mステップ計算部の機能ブロック図。The functional block diagram of an M step calculation part. パラメタ推定部の処理フローを示す図。The figure which shows the processing flow of a parameter estimation part. シミュレーションを行った環境を示す図。The figure which shows the environment which performed the simulation. 図7Aは音源数が2つの場合のシミュレーション結果を、図7Bは音源数が3つの場合のシミュレーション結果を示す図。FIG. 7A shows a simulation result when the number of sound sources is two, and FIG. 7B shows a simulation result when the number of sound sources is three. 音源スペクトル推定部の処理を時間差推定部の処理の前に行う場合のMステップ計算部の機能ブロック図。The functional block diagram of the M step calculation part in the case of performing the process of a sound source spectrum estimation part before the process of a time difference estimation part.

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.

<第一実施形態に係る音源分離装置1>
図1は本実施形態に係る音源分離装置1の機能ブロック図を、図2はその処理フローを示す。
<Sound source separation apparatus 1 according to the first embodiment>
FIG. 1 is a functional block diagram of a sound source separation device 1 according to the present embodiment, and FIG. 2 shows a processing flow thereof.

音源分離装置1は周波数領域変換部11とパラメタ推定部12と分離信号生成部13と時間領域変換部14とを含み、さらにパラメタ推定部12はEステップ計算部121とMステップ計算部122とを含む。   The sound source separation device 1 includes a frequency domain conversion unit 11, a parameter estimation unit 12, a separated signal generation unit 13, and a time domain conversion unit 14. The parameter estimation unit 12 further includes an E step calculation unit 121 and an M step calculation unit 122. Including.

まず、観測信号について説明する。信号原(以下「音源」とも言う)がK個あり、k(k=1,2,…,K)を音源のインデックスとし、音源kから発せられる信号(以下「原信号」という)をs(t)とする。複数の原信号s(t),・・・,s(t)がノイズとともに二個のマイクL,Rで観測される状況で、マイクLで観測される時間領域の観測信号をx(t)とし、マイクRで観測される時間領域の観測信号をx(t)とし、二個のマイクL,Rで観測される時間領域の観測信号をx(t)=[x(t),x(t)]とする。「」は転置を表す。tはフレーム番号及びそのフレーム番号に対応する時刻を表す。Tを時間フレームの総数とすると、t=0,1,…,T−1である。ここで周波数領域の観測信号をxf,t=[xf,t,L,xf,t,Rと表記する。なお、fはサンプリング周波数fをF等分した離散点であり、f∈{0,f/F,…,(F−1)f/F}である。以降、断りのない場合、観測信号とは、周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rを指し、時間領域の観測信号の場合はそれを明記する。
ここで、観測信号は、
First, the observation signal will be described. There are K signal sources (hereinafter also referred to as “sound sources”), k (k = 1, 2,..., K) is an index of a sound source, and a signal (hereinafter referred to as “original signal”) emitted from the sound source k is s k. (T). In a situation where a plurality of original signals s 1 (t),..., S K (t) are observed with two microphones L and R together with noise, a time domain observation signal observed with the microphone L is expressed as x L. (T), a time domain observation signal observed by the microphone R is x R (t), and a time domain observation signal observed by the two microphones L and R is x (t) = [x L ( t), and x R (t)] T.T ” represents transposition. t represents a frame number and a time corresponding to the frame number. When T is the total number of time frames, t = 0, 1,..., T−1. Here, the observation signal in the frequency domain is expressed as xf, t = [ xf, t, L , xf, t, R ] T. Note that f is a discrete point obtained by equally dividing the sampling frequency f s by F, and f∈ {0, f s / F,..., (F−1) f s / F}. Hereinafter, when there is no notice, the observation signal means the observation signal x f, t = [x f, t, L , x f, t, R ] T in the frequency domain, and in the case of the observation signal in the time domain, Specify clearly.
Here, the observed signal is

Figure 2013097176
Figure 2013097176

と表されると仮定する。ここで、sf,t,kは原信号s(t)のスペクトル(以下「音源スペクトル」ともいう)を、nf,k=[nf,k,L,nf,k,R]はマイクL,Rにおける加算的雑音を表す。またbf,k=[bf,k,L,bf,k,Rは音源kに関するステアリングベクトル(音源kの方向を特定するベクトルであり、方向ベクトルともいう)であり、原信号s(t)のマイクL、Rへの到達時間差をδとすると、 Suppose that Here, s f, t, k is the spectrum of the original signal s k (t) (hereinafter also referred to as “sound source spectrum”), and n f, k = [n f, k, L , n f, k, R ] Represents additive noise in the microphones L and R. B f, k = [b f, k, L , b f, k, R ] T is a steering vector related to the sound source k (a vector for specifying the direction of the sound source k, also referred to as a direction vector), and the original signal If the arrival time difference between s k (t) and the microphones L and R is δ k ,

Figure 2013097176
Figure 2013097176

である(非特許文献1参照)。本実施形態では、原信号の観測時間内においては、音源及びマイクは固定されており、またK個の音源は全て、異なる位置に配置されているとする。すなわち、ステアリングベクトルbf,kは時間tに依らず、kの値によって異なる値を取るものと仮定する。音源分離の目的は、観測信号xf,tのみを用いて、全ての音源スペクトルsf,t,kを推定することである。 (See Non-Patent Document 1). In the present embodiment, it is assumed that the sound source and the microphone are fixed within the observation time of the original signal, and that all the K sound sources are arranged at different positions. That is, it is assumed that the steering vector b f, k takes a different value depending on the value of k regardless of the time t. The purpose of sound source separation is to estimate all sound source spectra s f, t, k using only the observation signals x f, t .

本実施形態に係る音源分離装置1は、時間領域の観測信号x(t)=[x(t),x(t)]を入力とし、時間領域の分離信号(推定された各原信号)y(t)を出力する。以下、各部の処理内容を説明する。 The sound source separation apparatus 1 according to the present embodiment receives a time domain observation signal x (t) = [x L (t), x R (t)] T as an input, and uses a time domain separation signal (estimated original signals). Signal) y k (t) is output. Hereinafter, the processing content of each part is demonstrated.

<周波数領域変換部11>
まず、周波数領域変換部11は、マイクL、Rで収音した時間領域の観測信号x(t)=[x(t),x(t)]を入力とし、これを短時間フーリエ変換等により周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rに変換し(s1)、パラメタ推定部12及び分離信号生成部13に出力する。
<Frequency domain converter 11>
First, the frequency domain transform unit 11 receives the time domain observation signal x (t) = [x L (t), x R (t)] T collected by the microphones L and R, and uses this as a short-time Fourier transform. The frequency domain observation signal x f, t = [x f, t, L , x f, t, R ] is converted to T by conversion or the like (s 1), and is output to the parameter estimation unit 12 and the separated signal generation unit 13.

<パラメタ推定部12>
次に、パラメタ推定部12は、観測信号xf,tから、音源分離のために必要なパラメタθを推定する(s2)。なおθ={δf,k,σ ,sf,t,k,p(k|θ)}であり、δf,kは原信号の、二個のマイクへの到達時間差を表す。σ は雑音のパワースペクトルを、sf,t,kは音源スペクトルを、p(k|θ)は音源存在確率(混合信号中の音源kの寄与率)を表す。
<Parameter estimation unit 12>
Next, the parameter estimation unit 12 estimates a parameter θ necessary for sound source separation from the observation signals xf, t (s2). Note that θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}, where δ f, k represents the arrival time difference of the original signal to the two microphones. σ f 2 represents the noise power spectrum, s f, t, k represents the sound source spectrum, and p (k | θ) represents the sound source existence probability (contribution rate of the sound source k in the mixed signal).

本実施形態では、上記パラメタを推定するために、以下の2つの仮定を用いる。   In the present embodiment, the following two assumptions are used to estimate the above parameters.

(仮定1)は、雑音nが、平均0、共分散行列σ の正規分布に従う定常雑音でモデル化できるという仮定である。ここでσ は周波数fにおける雑音のパワーであり、Vは例えば拡散性雑音の場合 (Assumption 1) is an assumption that the noise n can be modeled by stationary noise according to a normal distribution of mean 0 and covariance matrix σ f 2 V f . Here, σ f 2 is the noise power at the frequency f, and V f is, for example, diffuse noise.

Figure 2013097176
Figure 2013097176

で与えられる(非特許文献1参照)。ここでcは原信号の速度(音速等)、Dは二個のマイクの間隔である。 (See Non-Patent Document 1). Here, c is the speed of the original signal (sound speed, etc.), and D is the interval between the two microphones.

(仮定2)は、原信号がスパースな信号(つまり、成分のうち0でないもの(非零の成分)がまばらである信号、言い換えると、ほとんどの(または多くの)成分が0である信号)であるという仮定である。すなわち、ある時間周波数(f,t)において、たかだか1つの原信号のみが支配的であると仮定する。(仮定2)によると、式(2)は   (Assumption 2) is a signal in which the original signal is sparse (that is, a signal in which non-zero components (non-zero components) are sparse, in other words, a signal in which most (or many) components are zero). This is an assumption. That is, it is assumed that only one original signal is dominant at a certain time frequency (f, t). According to (Assumption 2), Equation (2) is

Figure 2013097176
Figure 2013097176

と表記できる(非特許文献1参照)。
上記(仮定1)、(仮定2)に基づけば、到達時間差δf,kとなる方向に存在する音源kから発せられる原信号が到来してxf,tが観測される尤度は、
(See Non-Patent Document 1).
Based on the above (Assumption 1) and (Assumption 2), the likelihood that the original signal emitted from the sound source k existing in the direction of the arrival time difference δ f, k arrives and x f, t is observed is

Figure 2013097176
Figure 2013097176

で与えられる(非特許文献1参照)。「」はエルミート転置を表す。ここでbf,kは式(3)で表される。これより、到達時間差δf,k、音源スペクトルsf,t,k及び雑音のパワースペクトルσ は、対数尤度関数 (See Non-Patent Document 1). “ H ” represents Hermitian transpose. Here, b f, k is expressed by Equation (3). Thus, the arrival time difference δ f, k , the sound source spectrum s f, t, k and the noise power spectrum σ f 2 are expressed by the log likelihood function.

Figure 2013097176
Figure 2013097176

を最大化するパラメタとして最尤推定により求める(非特許文献1参照)。但し、上記において、p(k|δf,k,σ ,sf,t,k)は音源存在確率を表し、混合信号中の音源kの寄与率であり、 Is obtained by maximum likelihood estimation as a parameter that maximizes (see Non-Patent Document 1). However, in the above, p (k | δ f, k , σ f 2 , s f, t, k ) represents a sound source existence probability and is a contribution rate of the sound source k in the mixed signal,

Figure 2013097176
Figure 2013097176

である(非特許文献1参照)。
具体的には、期待値最大化法(以下「EMアルゴリズム」ともいう)を適用し、Q関数
(See Non-Patent Document 1).
Specifically, an expected value maximization method (hereinafter also referred to as “EM algorithm”) is applied, and the Q function

Figure 2013097176
Figure 2013097176

を最大とするパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}を、以下のEステップ及びMステップの繰り返しにより求める(非特許文献1参照)。ここでmf,t,kは後述する式(11)で、p(xf,t|k,θ’)は前述の式(6)で与えられ、θ’は、1回前の繰り返しで得られているパラメタを意味する。 Parameter θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)} that maximizes is obtained by repeating the following E step and M step (see Non-Patent Document 1). ). Here, m f, t, k is given by the following equation (11), p (x f, t | k, θ ′) is given by the above-mentioned equation (6), and θ ′ is the previous iteration. Means the parameter being obtained.

この繰り返し計算を、パラメタ推定部12にて行なう。以下、パラメタ推定部12の処理の詳細を説明する。   This iterative calculation is performed by the parameter estimation unit 12. Details of the processing of the parameter estimation unit 12 will be described below.

図3はEステップ計算部121の機能ブロック図を、図4はMステップ計算部122の機能ブロック図を、図5はパラメタ推定部12の処理フローを示す。   3 is a functional block diagram of the E step calculation unit 121, FIG. 4 is a functional block diagram of the M step calculation unit 122, and FIG. 5 shows a processing flow of the parameter estimation unit 12.

まず、パラメタ推定部12は、各パラメタを初期化する(s20)。パラメタのうちσ 、δf,k、及びp(k|θ)を初期化する。例えば、σ =|xf,t=0,L,δf,k=(D/c)cosα(cは原信号の速度(音速等)、Dはマイク間隔,αは音源kの方向の初期値(−π/2〜π/2の間の適当な値)),p(k|θ)=1/Kとする。さらに、初期化したパラメタδf,kとxf,t=0とを用いて、式(3)及び後述する式(19)に基づき、sf,t,kを初期化する。更新回数n=0とする。なお、最大更新回数N及び収束判定閾値Δは、当該装置の設計者や利用者等により予め設定されているものとする。 First, the parameter estimation unit 12 initializes each parameter (s20). Among the parameters, σ f 2 , δ f, k , and p (k | θ) are initialized. For example, σ f 2 = | x f, t = 0, L | 2 , δ f, k = (D / c) cos α k (c is the speed of the original signal (sound speed, etc.), D is the microphone interval, and α k is An initial value in the direction of the sound source k (appropriate value between −π / 2 to π / 2)), p (k | θ) = 1 / K. Further, using the initialized parameters δ f, k and x f, t = 0 , s f, t, k is initialized based on Expression (3) and Expression (19) described later. The number of updates n = 0. Note that the maximum number of updates N and the convergence determination threshold value Δ are set in advance by the designer or user of the apparatus.

Eステップ計算部121は事後確率推定部1211とQ関数計算部1212とを含む(図3参照)。Mステップ計算部122は時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とを含み、時間差推定部1221はさらに逆正接計算部12211と時間補正部12212とを備える(図4参照)。事後確率推定部1211とQ関数計算部1212とにおける処理を併せてEステップと呼び、時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とにおける処理を併せてMステップと呼ぶ。   The E step calculation unit 121 includes a posterior probability estimation unit 1211 and a Q function calculation unit 1212 (see FIG. 3). The M step calculation unit 122 includes a time difference estimation unit 1221, a sound source spectrum estimation unit 1222, a noise power estimation unit 1223, and a sound source existence probability estimation unit 1224. The time difference estimation unit 1221 further includes an arctangent calculation unit 12211, a time correction unit 12212, and the like. (See FIG. 4). The processes in the posterior probability estimation unit 1211 and the Q function calculation unit 1212 are collectively referred to as E step, and the processes in the time difference estimation unit 1221, the sound source spectrum estimation unit 1222, the noise power estimation unit 1223, and the sound source existence probability estimation unit 1224 are combined. This is called M step.

(事後確率推定部1211)
Eステップ計算部121の事後確率推定部1211は、観測信号xf,tと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の事後確率推定においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて事後確率mf,t,k=p(k|xf,t,θ’)を以下の式(11)により求め(s22)、Q関数計算部1212とMステップ計算部122とに出力する。
(A posteriori probability estimation unit 1211)
The posterior probability estimation unit 1211 of the E step calculation unit 121 uses the observed signal x f, t and the parameter θ ′ obtained in the previous iteration (however, the parameter θ ′ obtained in the previous iteration). Is present, that is, in the first posterior probability estimation, the above-described initialized parameter) is used as an input, and these values are used to determine the posterior probability m f, t, k = p (k | x f, t , θ ′) is obtained from the following equation (11) (s22), and is output to the Q function calculator 1212 and the M step calculator 122.

Figure 2013097176
Figure 2013097176

なお、p(xf,t|k,θ’)は式(6)により与えられる。なお、事後確率mf,t,kは観測信号xf,tが音源kに帰属する事後確率を表す。 Note that p (x f, t | k, θ ′) is given by equation (6). The posterior probability m f, t, k represents the posterior probability that the observed signal x f, t belongs to the sound source k.

(逆正接計算部12211)
Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの音源スペクトルsf,t,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の逆正接計算においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、到達時間差δf,k(より詳しく言うと到達時間差δf,kに2πfを乗じた値2πfδf,k)を以下の式(13)により推定し(s25)、時間補正部12212に出力する。
(Inverse tangent calculation unit 12211)
The arc tangent calculation unit 12211 of the time difference estimation unit 1221 of the M step calculation unit 122 has an observation signal x f, t , a posteriori probability m f, t, k, and a parameter θ ′ ( More specifically, it is the sound source spectrum s f, t, k of θ ′, provided that there is no parameter θ ′ obtained in the previous iteration, that is, in the first arc tangent calculation. And the above-described initialized parameter) as inputs, and using these values, an arrival time difference δ f, k (more specifically , a value 2πfδ f, k obtained by multiplying the arrival time difference δ f, k by 2πf) is as follows: (S25) and output to the time correction unit 12212.

Figure 2013097176
Figure 2013097176

ψsk(但し添え字skはsを表す)及びψξk(但し添え字ξkはξを表す)は、それぞれsf,t,k及びξf,t,kの位相を表す。なお、式(13)の導出については後述する。 [psi sk (where subscript sk represents s k) and ψ ξk (although representing a subscript Kushik is xi] k), respectively s f, t, k and xi] f, t, represents the phase of the k. The derivation of equation (13) will be described later.

なお、従来技術では式(1)に基づきδを離散全探索によって推定するため多くの計算コストを要していたが、本実施形態では式(13)に基づきδf,kを算出するため全探索を要せず計算コストを小さくできる。また、式(13)に基づき周波数f毎に到達時間差δf,kを求める点が従来技術とは異なる。 In the prior art, δ k is estimated by a discrete full search based on Equation (1), which requires a lot of calculation cost. In this embodiment, δ f, k is calculated based on Equation (13). The calculation cost can be reduced without requiring a full search. Moreover, the point which calculates | requires arrival time difference (delta) f, k for every frequency f based on Formula (13) differs from a prior art.

(時間補正部12212)
Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を補正する(s26)。この補正は、式(13)の左辺2πfδf,kが−πからπの値を取るのに対し、式(13)の右辺の逆正接が−π/2からπ/2の値しか返すことができないため、2πfδf,kが−π〜−π/2及びπ/2〜πの範囲を取る場合の値を正しく求めるために必要である。式(13)で得られた値を2πfδ’f,kと記載すると、補正は以下のように行なう。
(Time correction unit 12212)
The time correction unit 12212 of the time difference estimation unit 1221 of the M step calculation unit 122 includes an observation signal x f, t , a posteriori probability m f, t, k, and a parameter θ ′ obtained by the previous iteration (however, When the parameter θ ′ obtained in the previous iteration does not exist, that is, in the first time correction, the above-described initialized parameter) is used as an input, and using these values, the equation ( The uncertainty of ± π included in the arrival time difference δ f, k estimated in 13) is corrected (s26). This correction is such that the left side 2πfδ f, k of equation (13) takes a value from −π to π, whereas the arctangent of the right side of equation (13) returns only a value from −π / 2 to π / 2. Therefore, it is necessary to correctly obtain a value when 2πfδf , k is in the range of −π to −π / 2 and π / 2 to π. When the value obtained by Expression (13) is described as 2πfδ ′ f, k , correction is performed as follows.

Figure 2013097176
Figure 2013097176

ここでξf,t,k、φはそれぞれ式(14)、(15)で与えられ、ψsk(但し添え字skはsを表す)、ψξk(但し添え字ξkはξを表す)はそれぞれsf,t,k及びξf,t,kの位相を表す。なお、式(17)、(18)の導出については後述する。 Here ξ f, t, k, respectively formula φ f (14), the given by (15), ψ sk (where subscript sk represents s k), ψ ξk (where subscript Kushik is xi] k Represents the phases of s f, t, k and ξ f, t, k , respectively. The derivation of equations (17) and (18) will be described later.

さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、音源スペクトル推定部1222と雑音パワー推定部1223とQ関数計算部1212とに出力する。 Further, the time correcting unit 12212 is corrected value 2Paiefuderuta f, the k divided by 2 [pi] f, calculated arrival time difference [delta] f, k, outputted to the sound source spectrum estimation section 1222 and the noise power estimation section 1223 and the Q function calculating unit 1212 To do.

(音源スペクトル推定部1222)
Mステップ計算部122の音源スペクトル推定部1222は、到達時間差δf,kと観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを以下の式(19)により推定し(s27)、雑音パワー推定部1223とQ関数計算部1212とに出力する。
(Sound source spectrum estimation unit 1222)
The sound source spectrum estimation unit 1222 of the M step calculation unit 122 receives the arrival time difference δ f, k and the observation signal x f, t and inputs the sound source spectrum s f, t, k using the following formula ( 19) (s27) and output to the noise power estimation unit 1223 and the Q function calculation unit 1212.

Figure 2013097176
Figure 2013097176

ここで、bf,k、Vはそれぞれ式(3)、(4)で表される。 Here, b f, k and V f are expressed by equations (3) and (4), respectively.

(雑音パワー推定部1223)
Mステップ計算部122の雑音パワー推定部1223は、到達時間差δf,kと音源スペクトルsf,t,kと観測信号xf,tと事後確率mf,t,kとを入力とし、これらの値を用いて、雑音のパワースペクトルσ を以下の式(20)により推定し(s28)、Q関数計算部1212に出力する。
(Noise power estimation unit 1223)
The noise power estimation unit 1223 of the M step calculation unit 122 receives the arrival time difference δ f, k , the sound source spectrum s f, t, k , the observation signal x f, t and the posterior probability m f, t, k , Is used to estimate the power spectrum σ f 2 of noise by the following equation (20) (s28) and output to the Q function calculator 1212.

Figure 2013097176
Figure 2013097176

なお、Tは時間フレームの総数である。 T is the total number of time frames.

(音源存在確率推定部1224)
Mステップ計算部122の音源存在確率推定部1224は、事後確率mf,t,kを入力とし、音源存在確率を以下の式(21)により推定し(s29)、Q関数計算部1212に出力する。
(Sound source existence probability estimation unit 1224)
The sound source existence probability estimation unit 1224 of the M step calculation unit 122 receives the posterior probabilities m f, t, and k , estimates the sound source existence probability by the following equation (21) (s29), and outputs it to the Q function calculation unit 1212 To do.

Figure 2013097176
Figure 2013097176

(Q関数計算部1212)
Eステップ計算部121のQ関数計算部1212は、観測信号xf,tと、パラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}と、事後確率mf,t,kと、を入力とし、これらの値を用いてQ関数を上述の式(10)により求める(s30)。
(Q function calculator 1212)
The Q function calculation unit 1212 of the E step calculation unit 121 includes an observation signal x f, t and parameters θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}, The posterior probabilities m f, t, and k are used as inputs, and the Q function is obtained by the above equation (10) using these values (s30).

s20〜s30までの処理を終えると、パラメタ推定部12は、(条件1)Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θ)|)が所定の収束判定閾値Δより小さくなるか、または、(条件2)更新回数nが所定の最大更新回数N(例えばN=20)以上か否かを判定する(s31)。 When the processing from s20 to s30 is completed, the parameter estimation unit 12 determines that (condition 1) the amount of change in the value of the Q function (| Q (θ | θ n-1 ) −Q (θ | θ n ) |) is predetermined. (Condition 2) Whether the number of updates n is equal to or greater than a predetermined maximum number of updates N (for example, N = 20) is determined (s31).

パラメタ推定部12は、(条件1)、(条件2)の何れかを満たしたときは、パラメタ推定部12はその時点で取得している最新の事後確率mf,t,kと到達時間差δf,kを分離信号生成部13に出力する。 When the parameter estimation unit 12 satisfies any one of (Condition 1) and (Condition 2), the parameter estimation unit 12 obtains the latest posterior probability m f, t, k and arrival time difference δ acquired at that time. f and k are output to the separated signal generator 13.

パラメタ推定部12は、(条件1)、(条件2)の何れも満たさないときは、EステップとMステップを繰り返す(s31、s21)。なお、図示しない記憶部にパラメタθとQ関数の値Q(θ|θ)とを記憶しておき、次の繰り返しの際に用いる。 When neither of (Condition 1) and (Condition 2) is satisfied, the parameter estimation unit 12 repeats the E step and the M step (s31, s21). Note that the parameter θ and the value Q (θ | θ n ) of the Q function are stored in a storage unit (not shown), and are used in the next iteration.

<分離信号生成部13>
分離信号生成部13は、事後確率mf,t,kと到達時間差δf,kと観測信号xf,tとを入力とし、以下の式(22)により、分離信号yf,t,kを生成し(s3)、時間領域変換部14へ出力する。
<Separated signal generator 13>
The separated signal generation unit 13 receives the posterior probability m f, t, k , the arrival time difference δ f, k and the observation signal x f, t and inputs the separated signal y f, t, k according to the following equation (22). Is generated (s3) and output to the time domain conversion unit 14.

Figure 2013097176
Figure 2013097176

なお、音源スペクトルsf,t,kは、音源の発する原信号のスペクトルを推定したものであるが、この音源スペクトルを単純に時間領域の信号に変換した場合には、他の音源の発する原信号が残ることがある。上述の式(22)によって、音源kの発する原信号のみを抽出、分離することができる。 The sound source spectrum s f, t, k is an estimation of the spectrum of the original signal emitted by the sound source. However, when this sound source spectrum is simply converted into a signal in the time domain, the source sound emitted by another sound source is obtained. A signal may remain. Only the original signal emitted from the sound source k can be extracted and separated by the above equation (22).

<時間領域変換部14>
時間領域変換部14は、分離信号yf,t,kを入力とし、周波数領域変換部11において行った周波数領域変換方法に対応する時間領域変換方法(例えば短時間フーリエ逆変換)で、分離信号yf,t,kを時間領域の分離信号y(t)に変換し(s4)、音源分離装置1の出力値として出力する。
<Time domain conversion unit 14>
The time domain transform unit 14 receives the separated signals y f, t, and k as input, and uses a time domain transform method (for example, short-time Fourier inverse transform) corresponding to the frequency domain transform method performed in the frequency domain transform unit 11 to separate the separated signals. y f, t, k is converted into a separation signal y k (t) in the time domain (s4) and output as an output value of the sound source separation device 1.

<本実施形態のポイント>
以下、本実施形態のポイントを説明し、式(13)、(17)、(18)の導出方法を説明する。
<Points of this embodiment>
Hereinafter, the points of the present embodiment will be described, and the derivation methods of equations (13), (17), and (18) will be described.

本実施形態では、
(性質1)到達時間差δf,kがRチャネルとLチャネルの位相差に影響を与える値であること
(性質2)位相差が周期的な値を取る量であること
という2つの性質を利用して、到着時間差δf,kを推定する。ここで(性質1)は、式(2)にてノイズnf,tが十分に小さい場合を考えれば明らかである。(性質2)は、ある2つの位相を表わす量の差Θが、−π≦Θ<πの範囲の値だけではなく、Θ±2πM(Mは任意の整数)という周期的な不定性を内包する値を取る性質を持つことを意味する。
In this embodiment,
(Property 1) The arrival time difference δ f, k is a value that affects the phase difference between the R channel and the L channel. (Property 2) Uses two properties that the phase difference is an amount that takes a periodic value. Then, the arrival time difference δ f, k is estimated. Here, (property 1) is obvious when the case where the noise n f, t is sufficiently small in the expression (2) is considered. (Property 2) is not only a value in the range of −π ≦ Θ <π, but also a periodic indefiniteness of Θ ± 2πM (M is an arbitrary integer). It means that it has the property of taking the value to be.

(性質2)について、さらに以下にて説明を行なう。式(6)   (Property 2) will be further described below. Formula (6)

Figure 2013097176
Figure 2013097176

の右辺における、expのカッコの中のベクトル及び行列x,b,Vを、それぞれの成分で表して整理すると、 The vectors in the parentheses of exp and the matrices x, b, and V on the right side of

Figure 2013097176
Figure 2013097176

となる(Cはδf,kに依らない定数)。式(32)は、位相や角度の分布のように周期的な値を取る変数に対する分布であるVon Mises分布 (C is a constant independent of δ f, k ). Expression (32) is a Von Mises distribution that is a distribution for a variable that takes a periodic value such as a phase or angle distribution.

Figure 2013097176
Figure 2013097176

と同じ形をしていることが分かる(参考文献1参照)。
[参考文献1]C.M.ビショップ著,元田ら訳,“パターン認識と機械学習(上)”,シュプリンガー・ジャパン,2006.
(See Reference 1).
[Reference Document 1] C.I. M.M. Bishop, Motoda et al., “Pattern Recognition and Machine Learning (Part 1)”, Springer Japan, 2006.

ここで−π<x≦π、μは分布の平均(−π<μ≦π)、κ>0は分布の集中度パラメタ(正規分布での(1/分散)に相当)、I(x)は0次の第1種ベッセル関数である。 Here, −π <x ≦ π, μ is the distribution average (−π <μ ≦ π), κ> 0 is the distribution concentration parameter (corresponding to (1 / dispersion) in the normal distribution), I 0 (x ) Is a zeroth-order first-type Bessel function.

すなわち、式(33)の変数xが式(32)のψξk−ψskに対応し、式(33)の平均μが式(32)の2πfδf,kに対応し、式(33)の集中度κが式(32)の(|ξf,t,k||sf,t,k|)/(σ (1−φ ))に対応する。 That is, the variable x in the equation (33) corresponds to ψ ξk −ψ sk in the equation (32), the average μ in the equation (33) corresponds to 2πfδ f, k in the equation (32), and the equation (33) The degree of concentration κ corresponds to (| ξ f, t, k || s f, t, k |) / (σ f 2 (1−φ f 2 )) in Expression (32).

説明をより直感的にするため、雑音のパラメタがφ=0である場合を考える(これは、雑音が式(4)に示す拡散性雑音ではなく、分散σ のガウス雑音が観測x,xにそれぞれ乗ることを意味する)。このとき、式(14)によりξf,t,k=xf,t,Rとなるため、式(32)において、ψξkはψxf,t,R(但し、添え字xf,t,Rはxf,t,Rを表し、ψxf,t,RはマイクRの観測信号xf,t,Rの位相を表す)となる。また、式(3)、(5)により(但し式(5)においてnf,t=0)、sf,t,k=xf,t,Lとなるため、式(32)においてψskはψxf,t,L(但し、添え字xf,t,Lはxf,t,Lを表し、ψxf,t,LはマイクLの観測信号xf,t,Lの位相を表す)となる。また、前述の通りξf,t,k=xf,t,Rであり、式(3)、(5)よりxf,t,R=ej2πfδk,f・sf,t,k(但し、eの添え字δk,fはδk,fを表す)となるため、式(32)において、|ξf,t,k|=|ej2πfδk,f・sf,t,k|=|sf,t,k|となる。よって、式(32)は To make the description more intuitive, consider the case where the noise parameter is φ f = 0 (this is not the diffusive noise shown in Equation (4), but the Gaussian noise with variance σ f 2 is observed x L, means that the ride each to x R). At this time, since ξ f, t, k = x f, t, R according to the equation (14), in the equation (32), ψ ξk is ψ xf, t, R (however, the subscripts xf, t, R Represents x f, t, R and ψ xf, t, R represents the phase of the observation signal x f, t, R of the microphone R). Also, according to equations (3) and (5) (where n f, t = 0 in equation (5)), s f, t, k = x f, t, L , so ψ sk in equation (32) is [psi xf, t, L (where subscripts xf, t, L represents a x f, t, L, ψ xf, t, L represents an observed signal x f, t, L of the phase of the microphone L) It becomes. Further, as described above, ξ f, t, k = x f, t, R , and from equations (3) and (5), x f, t, R = e j2πfδk, f · s f, t, k (however, , E subscripts δk, f represent δ k, f ), so in equation (32), | ξ f, t, k | = | e j2πfδk, f · s f, t, k | = | s f, t, k | Therefore, equation (32) becomes

Figure 2013097176
Figure 2013097176

となる。これとVon Mises分布との解釈を合わせると、
(1)RチャネルとLチャネルの位相差ψxf,t,R−ψxf,t,Lという周期的な値を取る変数の分布が、平均μ=2πfδf,kを取る、
(2)Von Mises分布の集中度κが、SN比|sf,k,t/σ に対応するようになる。すなわち、SN比が低い(条件が悪い)と、RチャネルとLチャネルの位相差の値の集中度が下がる(=分散が大きくなる)。これは、SN比が低い条件においては位相差の測定値がばらつく現象と対応する、
の2点が言える。
It becomes. Combine this with the Von Mises distribution,
(1) The distribution of variables taking periodic values of phase differences ψ xf, t, R −ψ xf, t, L between the R channel and the L channel takes an average μ = 2πfδ f, k .
(2) The degree of concentration κ of the Von Mises distribution corresponds to the SN ratio | s f, k, t | 2 / σ f 2 . That is, when the S / N ratio is low (the condition is bad), the degree of concentration of the R channel and L channel phase difference values decreases (= dispersion increases). This corresponds to a phenomenon in which the measured value of the phase difference varies under a low SN ratio.
Two points can be said.

本実施形態では、(性質1)、(性質2)を利用しており、実施の手続きとしては、RチャネルとLチャネルの位相差に関する量が、周期的な値を取る変数に対する分布であるVon Mises分布で表現できることに着目し、Von Mises分布のパラメタに対する最尤推定により、分布の平均値μ=2πfδf,kを推定することで、信号到達時間差パラメタδf,kを推定する。 In this embodiment, (property 1) and (property 2) are used, and as an implementation procedure, an amount related to the phase difference between the R channel and the L channel is a distribution for a variable that takes a periodic value. Focusing on the fact that it can be expressed by the Mises distribution, the signal arrival time difference parameter δ f, k is estimated by estimating the average value μ = 2πfδ f, k of the distribution by maximum likelihood estimation with respect to the parameter of the Von Mises distribution.

式(31)のp(xf,t|k,θ)をQ関数の式(10)に代入し、 Substituting p (x f, t | k, θ) of equation (31) into equation (10) of the Q function,

Figure 2013097176
Figure 2013097176

を解くことで、式(13)が得られる。
また時間補正部12212における関数Fの式(17)、(18)は、Q関数の2階微分
(13) is obtained by solving.
Further, the expressions (17) and (18) of the function F in the time correction unit 12212 are the second-order derivatives of the Q function

Figure 2013097176
Figure 2013097176

である。時間補正部12212では、式(13)で得られた解δ’f,kがQ関数の極大値・極小値のどちらを与えるかを、F(2πfδ’f,k)の値の正負にて調べ、δ’f,kが極小値を与える場合に、上述の+πまたは−πの補正を行なう。 It is. In the time correction unit 12212, whether the solution δ ′ f, k obtained by the equation (13) gives the maximum value or the minimum value of the Q function is determined by whether the value of F (2πfδ ′ f, k ) is positive or negative. When δ ′ f, k gives a minimum value, the above correction of + π or −π is performed.

<効果>
従来法においては、時間差推定部において解析的な更新式が与えられていなかったため、多くの計算コストを要する全探索操作が必要であった。よって、時間差推定部の計算コストを削減し、高速な音源分離手段を提供することが課題である。本実施形態では、到着時間差δf,kが、マイクRとマイクLの位相差に影響を与える値であることと、位相差が周期的な値を取る性質を持つことに着目し、到着時間差δf,kを推定する。これにより、従来必要であった全探索操作が不要となるため、高速な音源分離手段を提供することが可能となる。
<Effect>
In the conventional method, since an analytical update formula is not given in the time difference estimation unit, a full search operation requiring a large calculation cost is required. Therefore, it is a problem to reduce the calculation cost of the time difference estimation unit and to provide a high-speed sound source separation unit. In the present embodiment, focusing on the fact that the arrival time difference δ f, k is a value that affects the phase difference between the microphone R and the microphone L and that the phase difference has a periodic value, Estimate δ f, k . This eliminates the need for a full search operation that has been required in the past, and thus provides a high-speed sound source separation unit.

<シミュレーション結果>
発明の効果を示すため実験を行なった。図6に示す部屋において、音源数は2つ(70度と150度)又は3つ(30,70,150度)とした。音源は、英語話者音声を用い、音源数2及び3の場合それぞれにおいて10通りの音源組合せにて実験を行なった。
<Simulation results>
An experiment was conducted to show the effect of the invention. In the room shown in FIG. 6, the number of sound sources was two (70 degrees and 150 degrees) or three (30, 70, 150 degrees). As the sound source, an English speaker voice was used, and when the number of sound sources was 2 and 3, the experiment was performed with 10 different sound source combinations.

雑音としては、平均0、共分散行列σ (Vは式(4)により与えられる)のガウスノイズをSN比約25dBにて重畳した。部屋の残響時間は130ms、サンプリング周波数は8kHz,短時間フーリエ変換の窓長及びシフト長はそれぞれ64ms,16msとした。 As the noise, Gaussian noise having an average of 0 and a covariance matrix σ f 2 V f (V f is given by Equation (4)) was superimposed at an SN ratio of about 25 dB. The reverberation time of the room was 130 ms, the sampling frequency was 8 kHz, and the short Fourier transform window length and shift length were 64 ms and 16 ms, respectively.

従来法では到達時間差δを推定する際に、音源位置Θ(図6参照)を0度から180度まで1度きざみで変化させ、それに対応する181種類の到達時間差δの値について全探索を行なった。 In the conventional method, when the arrival time difference δ k is estimated, the sound source position Θ (see FIG. 6) is changed in increments of 1 degree from 0 degrees to 180 degrees, and a total search is performed for the corresponding 181 types of arrival time differences δ k. Was done.

図7に、SIR(信号対雑音比、雑音には他話者音声含む)、SDR(信号対歪み比)、及びパソコン(IntelXeon(登録商標)X5650 2.67GHz(6Core)×2CPU)における計算時間を示す。図7Aは音源が二つの場合(70度と150度)を、図7Bは音源が三つの場合(30度,70度,150度)を示す。SIRとSDRは大きな値であるほど良い性能であることを示す。数字は、10通りの音源組合せの平均値である。図7A、Bに示す通り、本実施形態は、1/10程度の計算時間で、従来法とほぼ同程度の分離性能を達成できることが見てとれる。   Figure 7 shows the calculation time in SIR (signal-to-noise ratio, noise includes other speaker's voice), SDR (signal-to-distortion ratio), and personal computer (IntelXeon (registered trademark) X5650 2.67 GHz (6 Core) x 2 CPU). Show. FIG. 7A shows the case where there are two sound sources (70 degrees and 150 degrees), and FIG. 7B shows the case where there are three sound sources (30 degrees, 70 degrees and 150 degrees). A larger value of SIR and SDR indicates better performance. The numbers are average values of 10 different sound source combinations. As shown in FIGS. 7A and 7B, it can be seen that the present embodiment can achieve substantially the same separation performance as the conventional method with a calculation time of about 1/10.

<その他の変形例>
本実施形態のポイントは上述の通り、到達時間差の推定方法である。従って、他の処理やパラメタの推定方法については、上記の実施形態に限定されるものではなく、他の従来技術を用いてもよい。
<Other variations>
As described above, the point of this embodiment is a method for estimating the arrival time difference. Therefore, other processes and parameter estimation methods are not limited to the above-described embodiment, and other conventional techniques may be used.

本実施形態では、各部間で直接データを受け渡しているが、図示しない記憶部を介して、各データを読み書きしてもよい。   In this embodiment, data is directly transferred between the respective units, but each data may be read and written via a storage unit (not shown).

また、本実施形態では、雑音パワー推定部1223は音源スペクトルsf,t,kを音源スペクトル推定部1222から取得しているが、到達時間差δf,kと観測信号xf,tとを用いて式(19)に基づき雑音パワー推定部1223で計算する構成としてもよい。 In this embodiment, the noise power estimation unit 1223 obtains the sound source spectrum s f, t, k from the sound source spectrum estimation unit 1222, but uses the arrival time difference δ f, k and the observation signal x f, t. The noise power estimator 1223 may be configured to calculate based on the equation (19).

本実施形態では、拡散性雑音の場合を想定しているが、他の特性を持つ雑音であってもよい。その場合、雑音の特性に応じて、式(4)や式(15)のsinc(2πfD/c)を適宜変更すればよい。   In this embodiment, the case of diffuse noise is assumed, but noise having other characteristics may be used. In that case, the sinc (2πfD / c) in the equations (4) and (15) may be appropriately changed according to the noise characteristics.

分離信号生成部13は、事後確率mf,t,kと音源スペクトルsf,t,kとを入力とし、式(22)に代えて、以下の式により、分離信号yf,t,kを生成してもよい。 The separated signal generation unit 13 receives the posterior probabilities m f, t, k and the sound source spectra s f, t, k as inputs, and instead of the equation (22), the separated signals y f, t, k are expressed by the following equations. May be generated.

Figure 2013097176
Figure 2013097176

この場合、パラメタ推定部12は、Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θ)|)が所定の収束判定閾値Δより小さくなったとき、または、更新回数nが所定の最大更新回数N以上になったとき(s31)に取得している最新の事後確率mf,t,kと音源スペクトルsf,t,kを分離信号生成部13に出力する。このような構成により、式(22)と同様に分離信号yf,t,kを生成することができる(式(19)参照)。 In this case, when the amount of change in the value of the Q function (| Q (θ | θ n−1 ) −Q (θ | θ n ) |) is smaller than the predetermined convergence determination threshold Δ, Alternatively, the latest signal posterior probabilities m f, t, k and the sound source spectrum s f, t, k acquired when the number of updates n is equal to or greater than the predetermined maximum number of updates N (s31) are separated signal generation unit 13 Output to. With such a configuration, the separated signals y f, t, and k can be generated in the same manner as Expression (22) (see Expression (19)).

Mステップの計算順序は、本実施形態の計算順序に限らない。例えば、時間差推定部1221と音源スペクトル推定部1222の計算順序はどちらを先に行ってもよい。図8は音源スペクトル推定部1222の音源スペクトル推定処理(s27)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行う場合の機能ブロック図を示す。以下、図8を用いて説明する。   The calculation order of M steps is not limited to the calculation order of this embodiment. For example, whichever of the calculation order of the time difference estimation unit 1221 and the sound source spectrum estimation unit 1222 may be performed first. FIG. 8 is a functional block diagram when the arrival time difference estimation processing (s25, s26) of the time difference estimation unit 1221 is performed after the sound source spectrum estimation processing (s27) of the sound source spectrum estimation unit 1222 is performed. Hereinafter, a description will be given with reference to FIG.

Mステップ計算部122の音源スペクトル推定部1222は、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの到達時間差δf,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の音源スペクトル計算においては、前述の初期化したパラメタ)と観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを式(19)により推定し、雑音パワー推定部1223とQ関数計算部1212と時間差推定部1221と時間補正部12212とに出力する。 The sound source spectrum estimation unit 1222 of the M step calculation unit 122 is the parameter θ ′ obtained in the previous iteration (more specifically, the arrival time difference δ f, k of θ ′. If the parameter θ ′ obtained by repeating the above is not present, that is, in the first sound source spectrum calculation, the above-described initialized parameter) and the observation signal x f, t are input, and these values are used. The sound source spectrum s f, t, k is estimated by the equation (19) and output to the noise power estimation unit 1223, the Q function calculation unit 1212, the time difference estimation unit 1221, and the time correction unit 12212.

Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kとを入力とし、これらの値を用いて、到達時間差δf,kを式(13)により推定し、時間補正部12212に出力する。 The arc tangent calculation unit 12211 of the time difference estimation unit 1221 of the M step calculation unit 122 receives the observation signal x f, t , the posterior probability m f, t, k, and the sound source spectrum s f, t, k, and these Is used to estimate the arrival time difference δ f, k by the equation (13) and output it to the time correction unit 12212.

Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの雑音のパワースペクトルσ である。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を式(16)に基づき補正する。さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、雑音パワー推定部1223とQ関数計算部1212とに出力する。 The time correction unit 12212 of the time difference estimation unit 1221 of the M step calculation unit 122 repeats the observation signal xf , t , the posterior probability mf, t, k , the sound source spectrum sf , t, k, and the previous iteration. Is the noise power spectrum σ f 2 of θ ′. More specifically, when the parameter θ ′ obtained in the previous iteration does not exist, that is, In the first time correction, the above-described initialized parameter) is used as an input, and by using these values, the uncertainty of ± π included in the arrival time difference δ f, k estimated by Expression (13) is included. Correction is made based on equation (16). Further, the time correction unit 12212, the correction value 2Paiefuderuta f, the k divided by 2 [pi] f, calculated arrival time difference [delta] f, k, and outputs to the noise power estimation section 1223 and the Q function calculating unit 1212.

上述の構成とすることで、第一実施形態と同様の効果を得ることができる。なお、同様に、一回前の繰り返しで得られているパラメタθ’のうちの到達時間差δf,kに基づき雑音パワー推定部1223の雑音パワー推定処理(s28)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行ってもよい。 By setting it as the above-mentioned structure, the effect similar to 1st embodiment can be acquired. Similarly, after performing the noise power estimation process (s28) of the noise power estimation unit 1223 based on the arrival time difference δ f, k in the parameter θ ′ obtained in the previous iteration, the time difference estimation unit The arrival time difference estimation process 1221 (s25, s26) may be performed.

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
上述した音源分離装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The sound source separation device described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a processing procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.

Claims (3)

複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する音源分離装置であって、
前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,Rから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσ と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定手段と、
前記観測信号xf,tと推定されたパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成手段とを含み、
前記パラメタ推定手段は、
観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,k
Figure 2013097176

として推定する逆正接計算手段と、
推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正手段とを有する、
音源分離装置。
In a situation where a plurality of original signals are mixed with noise and observed with two microphones, a sound source separation device that separates and extracts each original signal from the observed signal,
The sound source index of the original signal is k, and the original signal to the two microphones from the observed signal x f, t = [x f, t, L , x f, t, R ] T in the frequency domain. Parameter estimation means for estimating the arrival time difference δ f, k , noise power spectrum σ f 2 , original signal spectrum s f, t, k and sound source existence probability p (k | θ);
A separated signal y f, t, k is generated from the observed signal x f, t and the estimated parameter θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}. Separating signal generating means for
The parameter estimation means includes
The posterior probability that the observed signal x f, t indicates the expected value attributed to the sound source k is m f, t, k , the distance between the two microphones is D, the speed of the original signal is c, φ f = sinc (2πfD / c) and ξ f, t, k = [x f, t, R −φ f (x t, t, L −s f, t, k )], and the spectrum s f, t, The phases of k and ξ f, t, k are ψ sk and ψ ξk , respectively, and the arrival time difference δ f, k is
Figure 2013097176

Arc tangent calculation means to estimate as
Correction means for correcting the indefiniteness of ± π included in the estimated arrival time difference δ f, k .
Sound source separation device.
複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する音源分離方法であって、
前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,Rから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσ と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定ステップと、
前記観測信号xf,tと推定されたパラメタθ={δf,k,σ ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成ステップとを含み、
前記パラメタ推定ステップは、
観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,k
Figure 2013097176

として推定する逆正接計算ステップと、
推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正ステップとを有する、
音源分離方法。
In a situation where a plurality of original signals are mixed with noise and observed by two microphones, a sound source separation method for separating and extracting each original signal from the observed signal,
The sound source index of the original signal is k, and the original signal to the two microphones from the observed signal x f, t = [x f, t, L , x f, t, R ] T in the frequency domain. Parameter estimation step for estimating the arrival time difference δ f, k , noise power spectrum σ f 2 , original signal spectrum s f, t, k, and sound source existence probability p (k | θ);
A separated signal y f, t, k is generated from the observed signal x f, t and the estimated parameter θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}. And a separated signal generating step
The parameter estimation step includes:
The posterior probability that the observed signal x f, t indicates the expected value attributed to the sound source k is m f, t, k , the distance between the two microphones is D, the speed of the original signal is c, φ f = sinc (2πfD / c) and ξ f, t, k = [x f, t, R −φ f (x t, t, L −s f, t, k )], and the spectrum s f, t, The phases of k and ξ f, t, k are ψ sk and ψ ξk , respectively, and the arrival time difference δ f, k is
Figure 2013097176

Arc tangent calculation step to estimate as
A correction step of correcting the indefiniteness of ± π included in the estimated arrival time difference δ f, k .
Sound source separation method.
コンピュータを請求項1記載の音源分離装置として機能させるためのプログラム。   A program for causing a computer to function as the sound source separation device according to claim 1.
JP2011240054A 2011-11-01 2011-11-01 Sound source separation device, sound source separation method and program Active JP5726709B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011240054A JP5726709B2 (en) 2011-11-01 2011-11-01 Sound source separation device, sound source separation method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011240054A JP5726709B2 (en) 2011-11-01 2011-11-01 Sound source separation device, sound source separation method and program

Publications (2)

Publication Number Publication Date
JP2013097176A true JP2013097176A (en) 2013-05-20
JP5726709B2 JP5726709B2 (en) 2015-06-03

Family

ID=48619166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011240054A Active JP5726709B2 (en) 2011-11-01 2011-11-01 Sound source separation device, sound source separation method and program

Country Status (1)

Country Link
JP (1) JP5726709B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823317A (en) * 2021-10-18 2021-12-21 国网重庆市电力公司电力科学研究院 Transformer substation noise separation method, device and medium based on frequency spectrum structured recognition
CN113932912A (en) * 2021-10-13 2022-01-14 国网湖南省电力有限公司 Transformer substation noise anti-interference estimation method, system and medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210062475A (en) 2019-11-21 2021-05-31 삼성전자주식회사 Electronic apparatus and control method thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145610A (en) * 2006-12-07 2008-06-26 Univ Of Tokyo Sound source separation and localization method
JP2010145836A (en) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> Direction information distribution estimating device, sound source number estimating device, sound source direction measuring device, sound source separating device, methods thereof, and programs thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145610A (en) * 2006-12-07 2008-06-26 Univ Of Tokyo Sound source separation and localization method
JP2010145836A (en) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> Direction information distribution estimating device, sound source number estimating device, sound source direction measuring device, sound source separating device, methods thereof, and programs thereof

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNJ200810082388; 和泉 洋介: 'スパースな混合モデルに基づく雑音・残響環境下の劣決定BSS' 電子情報通信学会2008年総合大会講演論文集 基礎・境界 , 20080305, pp.S-58 - S-59, 電子情報通信学会 *
CSNJ201110018331; 中谷 智広: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 20100916, pp.577-580, 日本音響学会 *
CSNJ201110039210; 武田 和馬: '音源のW-DO性を仮定した多チャンネル複素NMFによる劣決定BSS' 日本音響学会2011年春季研究発表会講演論文集CD-ROM , 20110311, pp.801-804, 日本音響学会 *
JPN6014036806; 和泉 洋介: 'スパースな混合モデルに基づく雑音・残響環境下の劣決定BSS' 電子情報通信学会2008年総合大会講演論文集 基礎・境界 , 20080305, pp.S-58 - S-59, 電子情報通信学会 *
JPN6014036809; 中谷 智広: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 20100916, pp.577-580, 日本音響学会 *
JPN6014036811; 武田 和馬: '音源のW-DO性を仮定した多チャンネル複素NMFによる劣決定BSS' 日本音響学会2011年春季研究発表会講演論文集CD-ROM , 20110311, pp.801-804, 日本音響学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113932912A (en) * 2021-10-13 2022-01-14 国网湖南省电力有限公司 Transformer substation noise anti-interference estimation method, system and medium
CN113932912B (en) * 2021-10-13 2023-09-12 国网湖南省电力有限公司 Transformer substation noise anti-interference estimation method, system and medium
CN113823317A (en) * 2021-10-18 2021-12-21 国网重庆市电力公司电力科学研究院 Transformer substation noise separation method, device and medium based on frequency spectrum structured recognition
CN113823317B (en) * 2021-10-18 2023-06-30 国网重庆市电力公司电力科学研究院 Transformer substation noise separation method, device and medium based on spectrum structured recognition

Also Published As

Publication number Publication date
JP5726709B2 (en) 2015-06-03

Similar Documents

Publication Publication Date Title
KR101871604B1 (en) Method and Apparatus for Estimating Reverberation Time based on Multi-Channel Microphone using Deep Neural Network
JP5337072B2 (en) Model estimation apparatus, sound source separation apparatus, method and program thereof
Mohammadiha et al. A new linear MMSE filter for single channel speech enhancement based on nonnegative matrix factorization
US9754608B2 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
CN103559888A (en) Speech enhancement method based on non-negative low-rank and sparse matrix decomposition principle
CN109817234B (en) Target speech signal enhancement method, system and storage medium based on continuous noise tracking
JP5568530B2 (en) Sound source separation device, method and program thereof
Wang Multi-band multi-centroid clustering based permutation alignment for frequency-domain blind speech separation
Wu et al. The theory of compressive sensing matching pursuit considering time-domain noise with application to speech enhancement
Seki et al. Generalized multichannel variational autoencoder for underdetermined source separation
JP5726709B2 (en) Sound source separation device, sound source separation method and program
CN114041185A (en) Method and apparatus for determining a depth filter
JP4960933B2 (en) Acoustic signal enhancement apparatus and method, program, and recording medium
Jiang et al. An improved unsupervised single-channel speech separation algorithm for processing speech sensor signals
Garg Speech enhancement using long short term memory with trained speech features and adaptive wiener filter
Zhang et al. Multi-Target Ensemble Learning for Monaural Speech Separation.
Deng et al. Conv-TasSAN: Separative Adversarial Network Based on Conv-TasNet.
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
JP2012173584A (en) Sound-source separation device, and method and program thereof
JP3887192B2 (en) Independent component analysis method and apparatus, independent component analysis program, and recording medium recording the program
Narayanaswamy et al. Audio source separation via multi-scale learning with dilated dense u-nets
WO2020184210A1 (en) Noise-spatial-covariance-matrix estimation device, noise-spatial-covariance-matrix estimation method, and program
JP2013195511A (en) Device for spectrum estimation, method for the same and program
Maas et al. A highly efficient optimization scheme for REMOS-based distant-talking speech recognition
Wan et al. Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150401

R150 Certificate of patent or registration of utility model

Ref document number: 5726709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150