JP2013097176A - Sound source separation device, sound source separation method, and program - Google Patents
Sound source separation device, sound source separation method, and program Download PDFInfo
- Publication number
- JP2013097176A JP2013097176A JP2011240054A JP2011240054A JP2013097176A JP 2013097176 A JP2013097176 A JP 2013097176A JP 2011240054 A JP2011240054 A JP 2011240054A JP 2011240054 A JP2011240054 A JP 2011240054A JP 2013097176 A JP2013097176 A JP 2013097176A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- signal
- time difference
- arrival time
- observed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は信号処理の技術分野に属する。特に本発明は複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を推定し、分離抽出する音源分離技術に関する。特に、原信号やそれらがどのように混ざったかの情報を用いずに複数の原信号とノイズとが混在している観測信号のみから、それぞれの原信号を推定する、ブラインド音源分離技術に属する。 The present invention belongs to the technical field of signal processing. In particular, the present invention relates to a sound source separation technique for estimating and separating and extracting each original signal from an observed signal in a situation where a plurality of original signals are mixed with noise and observed with two microphones. In particular, the present invention belongs to a blind sound source separation technique for estimating each original signal from only the observation signal in which a plurality of original signals and noise are mixed without using the information on the original signals and how they are mixed.
非特許文献1が音源分離の従来技術として知られている。非特許文献1では、音源kから発せられる原信号の、二個のマイクへの到達時間差δkを
Non-Patent
として推定している。 As estimated.
しかしながら、従来技術では、到達時間差δkの解析的な更新式は与えられていないため、多くの計算コストを要する全探索操作によって、到達時間差δkを推定する必要がある。 However, in the prior art, since an analytical update formula for the arrival time difference δ k is not given, it is necessary to estimate the arrival time difference δ k by a full search operation that requires a large calculation cost.
本発明は、到達時間差δの性質に着目し、到達時間差δを効率的に推定する方法を与え、従来技術において必要であった全探索操作を不要とし、高速な音源分離技術を提供することを目的とする。 The present invention focuses on the nature of the arrival time difference δ, provides a method for efficiently estimating the arrival time difference δ, eliminates the full search operation required in the prior art, and provides a high-speed sound source separation technique. Objective.
上記の課題を解決するために、本発明の第一の態様によれば、複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する。原信号の音源のインデックスをkとし、周波数領域の観測信号xf,t=[xf,t,L,xf,t,R]Tから、二個のマイクへの原信号の到達時間差δf,kと雑音のパワースペクトルσf 2と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定する。観測信号xf,tと推定されたパラメタθ={δf,k,σf 2,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する。観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、二個のマイクの間隔をDとし、原信号の速度をcとし、φf=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φf(xt,t,L−sf,t,k)]とし、スペクトルsf,t,k及びξf,t,kの位相をそれぞれψsk及びψξkとし、到達時間差δf,kを In order to solve the above problems, according to the first aspect of the present invention, in a situation where a plurality of original signals are mixed together with noise and observed by two microphones, each original signal is separated from the observed signal. Extract. The source signal source index is k, and the arrival time difference δ of the original signal to the two microphones from the frequency domain observation signal x f, t = [x f, t, L , x f, t, R ] T f, k , noise power spectrum σ f 2 , original signal spectrum s f, t, k and sound source existence probability p (k | θ) are estimated. Generate separated signals y f, t, k from observed signals x f, t and estimated parameters θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}. . The posterior probability that the observed signal x f, t indicates the expected value attributed to the sound source k is m f, t, k , the distance between the two microphones is D, the speed of the original signal is c, φ f = sinc ( 2πfD / c), and ξ f, t, k = [x f, t, R −φ f (x t, t, L −s f, t, k )], and spectra s f, t, k and ξ The phases of f, t, k are ψ sk and ψ ξk , respectively, and the arrival time difference δ f, k is
として推定する。推定された到達時間差δf,kが内包する±πの不定性を補正する。 Estimate as The uncertainty of ± π included in the estimated arrival time difference δ f, k is corrected.
本発明は、到達時間差δを効率的に推定する方法を与え、高速な音源分離ができるという効果を奏する。 The present invention provides a method for efficiently estimating the arrival time difference δ, and has the effect of enabling high-speed sound source separation.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
<第一実施形態に係る音源分離装置1>
図1は本実施形態に係る音源分離装置1の機能ブロック図を、図2はその処理フローを示す。
<Sound
FIG. 1 is a functional block diagram of a sound
音源分離装置1は周波数領域変換部11とパラメタ推定部12と分離信号生成部13と時間領域変換部14とを含み、さらにパラメタ推定部12はEステップ計算部121とMステップ計算部122とを含む。
The sound
まず、観測信号について説明する。信号原(以下「音源」とも言う)がK個あり、k(k=1,2,…,K)を音源のインデックスとし、音源kから発せられる信号(以下「原信号」という)をsk(t)とする。複数の原信号s1(t),・・・,sK(t)がノイズとともに二個のマイクL,Rで観測される状況で、マイクLで観測される時間領域の観測信号をxL(t)とし、マイクRで観測される時間領域の観測信号をxR(t)とし、二個のマイクL,Rで観測される時間領域の観測信号をx(t)=[xL(t),xR(t)]Tとする。「T」は転置を表す。tはフレーム番号及びそのフレーム番号に対応する時刻を表す。Tを時間フレームの総数とすると、t=0,1,…,T−1である。ここで周波数領域の観測信号をxf,t=[xf,t,L,xf,t,R]Tと表記する。なお、fはサンプリング周波数fsをF等分した離散点であり、f∈{0,fs/F,…,(F−1)fs/F}である。以降、断りのない場合、観測信号とは、周波数領域の観測信号xf,t=[xf,t,L,xf,t,R]Tを指し、時間領域の観測信号の場合はそれを明記する。
ここで、観測信号は、
First, the observation signal will be described. There are K signal sources (hereinafter also referred to as “sound sources”), k (k = 1, 2,..., K) is an index of a sound source, and a signal (hereinafter referred to as “original signal”) emitted from the sound source k is s k. (T). In a situation where a plurality of original signals s 1 (t),..., S K (t) are observed with two microphones L and R together with noise, a time domain observation signal observed with the microphone L is expressed as x L. (T), a time domain observation signal observed by the microphone R is x R (t), and a time domain observation signal observed by the two microphones L and R is x (t) = [x L ( t), and x R (t)] T. “ T ” represents transposition. t represents a frame number and a time corresponding to the frame number. When T is the total number of time frames, t = 0, 1,..., T−1. Here, the observation signal in the frequency domain is expressed as xf, t = [ xf, t, L , xf, t, R ] T. Note that f is a discrete point obtained by equally dividing the sampling frequency f s by F, and f∈ {0, f s / F,..., (F−1) f s / F}. Hereinafter, when there is no notice, the observation signal means the observation signal x f, t = [x f, t, L , x f, t, R ] T in the frequency domain, and in the case of the observation signal in the time domain, Specify clearly.
Here, the observed signal is
と表されると仮定する。ここで、sf,t,kは原信号sk(t)のスペクトル(以下「音源スペクトル」ともいう)を、nf,k=[nf,k,L,nf,k,R]はマイクL,Rにおける加算的雑音を表す。またbf,k=[bf,k,L,bf,k,R]Tは音源kに関するステアリングベクトル(音源kの方向を特定するベクトルであり、方向ベクトルともいう)であり、原信号sk(t)のマイクL、Rへの到達時間差をδkとすると、 Suppose that Here, s f, t, k is the spectrum of the original signal s k (t) (hereinafter also referred to as “sound source spectrum”), and n f, k = [n f, k, L , n f, k, R ] Represents additive noise in the microphones L and R. B f, k = [b f, k, L , b f, k, R ] T is a steering vector related to the sound source k (a vector for specifying the direction of the sound source k, also referred to as a direction vector), and the original signal If the arrival time difference between s k (t) and the microphones L and R is δ k ,
である(非特許文献1参照)。本実施形態では、原信号の観測時間内においては、音源及びマイクは固定されており、またK個の音源は全て、異なる位置に配置されているとする。すなわち、ステアリングベクトルbf,kは時間tに依らず、kの値によって異なる値を取るものと仮定する。音源分離の目的は、観測信号xf,tのみを用いて、全ての音源スペクトルsf,t,kを推定することである。 (See Non-Patent Document 1). In the present embodiment, it is assumed that the sound source and the microphone are fixed within the observation time of the original signal, and that all the K sound sources are arranged at different positions. That is, it is assumed that the steering vector b f, k takes a different value depending on the value of k regardless of the time t. The purpose of sound source separation is to estimate all sound source spectra s f, t, k using only the observation signals x f, t .
本実施形態に係る音源分離装置1は、時間領域の観測信号x(t)=[xL(t),xR(t)]Tを入力とし、時間領域の分離信号(推定された各原信号)yk(t)を出力する。以下、各部の処理内容を説明する。
The sound
<周波数領域変換部11>
まず、周波数領域変換部11は、マイクL、Rで収音した時間領域の観測信号x(t)=[xL(t),xR(t)]Tを入力とし、これを短時間フーリエ変換等により周波数領域の観測信号xf,t=[xf,t,L,xf,t,R]Tに変換し(s1)、パラメタ推定部12及び分離信号生成部13に出力する。
<
First, the frequency
<パラメタ推定部12>
次に、パラメタ推定部12は、観測信号xf,tから、音源分離のために必要なパラメタθを推定する(s2)。なおθ={δf,k,σf 2,sf,t,k,p(k|θ)}であり、δf,kは原信号の、二個のマイクへの到達時間差を表す。σf 2は雑音のパワースペクトルを、sf,t,kは音源スペクトルを、p(k|θ)は音源存在確率(混合信号中の音源kの寄与率)を表す。
<
Next, the
本実施形態では、上記パラメタを推定するために、以下の2つの仮定を用いる。 In the present embodiment, the following two assumptions are used to estimate the above parameters.
(仮定1)は、雑音nが、平均0、共分散行列σf 2Vfの正規分布に従う定常雑音でモデル化できるという仮定である。ここでσf 2は周波数fにおける雑音のパワーであり、Vfは例えば拡散性雑音の場合 (Assumption 1) is an assumption that the noise n can be modeled by stationary noise according to a normal distribution of mean 0 and covariance matrix σ f 2 V f . Here, σ f 2 is the noise power at the frequency f, and V f is, for example, diffuse noise.
で与えられる(非特許文献1参照)。ここでcは原信号の速度(音速等)、Dは二個のマイクの間隔である。 (See Non-Patent Document 1). Here, c is the speed of the original signal (sound speed, etc.), and D is the interval between the two microphones.
(仮定2)は、原信号がスパースな信号(つまり、成分のうち0でないもの(非零の成分)がまばらである信号、言い換えると、ほとんどの(または多くの)成分が0である信号)であるという仮定である。すなわち、ある時間周波数(f,t)において、たかだか1つの原信号のみが支配的であると仮定する。(仮定2)によると、式(2)は (Assumption 2) is a signal in which the original signal is sparse (that is, a signal in which non-zero components (non-zero components) are sparse, in other words, a signal in which most (or many) components are zero). This is an assumption. That is, it is assumed that only one original signal is dominant at a certain time frequency (f, t). According to (Assumption 2), Equation (2) is
と表記できる(非特許文献1参照)。
上記(仮定1)、(仮定2)に基づけば、到達時間差δf,kとなる方向に存在する音源kから発せられる原信号が到来してxf,tが観測される尤度は、
(See Non-Patent Document 1).
Based on the above (Assumption 1) and (Assumption 2), the likelihood that the original signal emitted from the sound source k existing in the direction of the arrival time difference δ f, k arrives and x f, t is observed is
で与えられる(非特許文献1参照)。「H」はエルミート転置を表す。ここでbf,kは式(3)で表される。これより、到達時間差δf,k、音源スペクトルsf,t,k及び雑音のパワースペクトルσf 2は、対数尤度関数 (See Non-Patent Document 1). “ H ” represents Hermitian transpose. Here, b f, k is expressed by Equation (3). Thus, the arrival time difference δ f, k , the sound source spectrum s f, t, k and the noise power spectrum σ f 2 are expressed by the log likelihood function.
を最大化するパラメタとして最尤推定により求める(非特許文献1参照)。但し、上記において、p(k|δf,k,σf 2,sf,t,k)は音源存在確率を表し、混合信号中の音源kの寄与率であり、 Is obtained by maximum likelihood estimation as a parameter that maximizes (see Non-Patent Document 1). However, in the above, p (k | δ f, k , σ f 2 , s f, t, k ) represents a sound source existence probability and is a contribution rate of the sound source k in the mixed signal,
である(非特許文献1参照)。
具体的には、期待値最大化法(以下「EMアルゴリズム」ともいう)を適用し、Q関数
(See Non-Patent Document 1).
Specifically, an expected value maximization method (hereinafter also referred to as “EM algorithm”) is applied, and the Q function
を最大とするパラメタθ={δf,k,σf 2,sf,t,k,p(k|θ)}を、以下のEステップ及びMステップの繰り返しにより求める(非特許文献1参照)。ここでmf,t,kは後述する式(11)で、p(xf,t|k,θ’)は前述の式(6)で与えられ、θ’は、1回前の繰り返しで得られているパラメタを意味する。 Parameter θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)} that maximizes is obtained by repeating the following E step and M step (see Non-Patent Document 1). ). Here, m f, t, k is given by the following equation (11), p (x f, t | k, θ ′) is given by the above-mentioned equation (6), and θ ′ is the previous iteration. Means the parameter being obtained.
この繰り返し計算を、パラメタ推定部12にて行なう。以下、パラメタ推定部12の処理の詳細を説明する。
This iterative calculation is performed by the
図3はEステップ計算部121の機能ブロック図を、図4はMステップ計算部122の機能ブロック図を、図5はパラメタ推定部12の処理フローを示す。
3 is a functional block diagram of the E
まず、パラメタ推定部12は、各パラメタを初期化する(s20)。パラメタのうちσf 2、δf,k、及びp(k|θ)を初期化する。例えば、σf 2=|xf,t=0,L|2,δf,k=(D/c)cosαk(cは原信号の速度(音速等)、Dはマイク間隔,αkは音源kの方向の初期値(−π/2〜π/2の間の適当な値)),p(k|θ)=1/Kとする。さらに、初期化したパラメタδf,kとxf,t=0とを用いて、式(3)及び後述する式(19)に基づき、sf,t,kを初期化する。更新回数n=0とする。なお、最大更新回数N及び収束判定閾値Δは、当該装置の設計者や利用者等により予め設定されているものとする。
First, the
Eステップ計算部121は事後確率推定部1211とQ関数計算部1212とを含む(図3参照)。Mステップ計算部122は時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とを含み、時間差推定部1221はさらに逆正接計算部12211と時間補正部12212とを備える(図4参照)。事後確率推定部1211とQ関数計算部1212とにおける処理を併せてEステップと呼び、時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とにおける処理を併せてMステップと呼ぶ。
The E
(事後確率推定部1211)
Eステップ計算部121の事後確率推定部1211は、観測信号xf,tと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の事後確率推定においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて事後確率mf,t,k=p(k|xf,t,θ’)を以下の式(11)により求め(s22)、Q関数計算部1212とMステップ計算部122とに出力する。
(A posteriori probability estimation unit 1211)
The posterior
なお、p(xf,t|k,θ’)は式(6)により与えられる。なお、事後確率mf,t,kは観測信号xf,tが音源kに帰属する事後確率を表す。 Note that p (x f, t | k, θ ′) is given by equation (6). The posterior probability m f, t, k represents the posterior probability that the observed signal x f, t belongs to the sound source k.
(逆正接計算部12211)
Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの音源スペクトルsf,t,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の逆正接計算においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、到達時間差δf,k(より詳しく言うと到達時間差δf,kに2πfを乗じた値2πfδf,k)を以下の式(13)により推定し(s25)、時間補正部12212に出力する。
(Inverse tangent calculation unit 12211)
The arc
ψsk(但し添え字skはskを表す)及びψξk(但し添え字ξkはξkを表す)は、それぞれsf,t,k及びξf,t,kの位相を表す。なお、式(13)の導出については後述する。 [psi sk (where subscript sk represents s k) and ψ ξk (although representing a subscript Kushik is xi] k), respectively s f, t, k and xi] f, t, represents the phase of the k. The derivation of equation (13) will be described later.
なお、従来技術では式(1)に基づきδkを離散全探索によって推定するため多くの計算コストを要していたが、本実施形態では式(13)に基づきδf,kを算出するため全探索を要せず計算コストを小さくできる。また、式(13)に基づき周波数f毎に到達時間差δf,kを求める点が従来技術とは異なる。 In the prior art, δ k is estimated by a discrete full search based on Equation (1), which requires a lot of calculation cost. In this embodiment, δ f, k is calculated based on Equation (13). The calculation cost can be reduced without requiring a full search. Moreover, the point which calculates | requires arrival time difference (delta) f, k for every frequency f based on Formula (13) differs from a prior art.
(時間補正部12212)
Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を補正する(s26)。この補正は、式(13)の左辺2πfδf,kが−πからπの値を取るのに対し、式(13)の右辺の逆正接が−π/2からπ/2の値しか返すことができないため、2πfδf,kが−π〜−π/2及びπ/2〜πの範囲を取る場合の値を正しく求めるために必要である。式(13)で得られた値を2πfδ’f,kと記載すると、補正は以下のように行なう。
(Time correction unit 12212)
The
ここでξf,t,k、φfはそれぞれ式(14)、(15)で与えられ、ψsk(但し添え字skはskを表す)、ψξk(但し添え字ξkはξkを表す)はそれぞれsf,t,k及びξf,t,kの位相を表す。なお、式(17)、(18)の導出については後述する。 Here ξ f, t, k, respectively formula φ f (14), the given by (15), ψ sk (where subscript sk represents s k), ψ ξk (where subscript Kushik is xi] k Represents the phases of s f, t, k and ξ f, t, k , respectively. The derivation of equations (17) and (18) will be described later.
さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、音源スペクトル推定部1222と雑音パワー推定部1223とQ関数計算部1212とに出力する。
Further, the
(音源スペクトル推定部1222)
Mステップ計算部122の音源スペクトル推定部1222は、到達時間差δf,kと観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを以下の式(19)により推定し(s27)、雑音パワー推定部1223とQ関数計算部1212とに出力する。
(Sound source spectrum estimation unit 1222)
The sound source
ここで、bf,k、Vfはそれぞれ式(3)、(4)で表される。 Here, b f, k and V f are expressed by equations (3) and (4), respectively.
(雑音パワー推定部1223)
Mステップ計算部122の雑音パワー推定部1223は、到達時間差δf,kと音源スペクトルsf,t,kと観測信号xf,tと事後確率mf,t,kとを入力とし、これらの値を用いて、雑音のパワースペクトルσf 2を以下の式(20)により推定し(s28)、Q関数計算部1212に出力する。
(Noise power estimation unit 1223)
The noise
なお、Tは時間フレームの総数である。 T is the total number of time frames.
(音源存在確率推定部1224)
Mステップ計算部122の音源存在確率推定部1224は、事後確率mf,t,kを入力とし、音源存在確率を以下の式(21)により推定し(s29)、Q関数計算部1212に出力する。
(Sound source existence probability estimation unit 1224)
The sound source existence
(Q関数計算部1212)
Eステップ計算部121のQ関数計算部1212は、観測信号xf,tと、パラメタθ={δf,k,σf 2,sf,t,k,p(k|θ)}と、事後確率mf,t,kと、を入力とし、これらの値を用いてQ関数を上述の式(10)により求める(s30)。
(Q function calculator 1212)
The Q
s20〜s30までの処理を終えると、パラメタ推定部12は、(条件1)Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θn)|)が所定の収束判定閾値Δより小さくなるか、または、(条件2)更新回数nが所定の最大更新回数N(例えばN=20)以上か否かを判定する(s31)。
When the processing from s20 to s30 is completed, the
パラメタ推定部12は、(条件1)、(条件2)の何れかを満たしたときは、パラメタ推定部12はその時点で取得している最新の事後確率mf,t,kと到達時間差δf,kを分離信号生成部13に出力する。
When the
パラメタ推定部12は、(条件1)、(条件2)の何れも満たさないときは、EステップとMステップを繰り返す(s31、s21)。なお、図示しない記憶部にパラメタθとQ関数の値Q(θ|θn)とを記憶しておき、次の繰り返しの際に用いる。
When neither of (Condition 1) and (Condition 2) is satisfied, the
<分離信号生成部13>
分離信号生成部13は、事後確率mf,t,kと到達時間差δf,kと観測信号xf,tとを入力とし、以下の式(22)により、分離信号yf,t,kを生成し(s3)、時間領域変換部14へ出力する。
<
The separated
なお、音源スペクトルsf,t,kは、音源の発する原信号のスペクトルを推定したものであるが、この音源スペクトルを単純に時間領域の信号に変換した場合には、他の音源の発する原信号が残ることがある。上述の式(22)によって、音源kの発する原信号のみを抽出、分離することができる。 The sound source spectrum s f, t, k is an estimation of the spectrum of the original signal emitted by the sound source. However, when this sound source spectrum is simply converted into a signal in the time domain, the source sound emitted by another sound source is obtained. A signal may remain. Only the original signal emitted from the sound source k can be extracted and separated by the above equation (22).
<時間領域変換部14>
時間領域変換部14は、分離信号yf,t,kを入力とし、周波数領域変換部11において行った周波数領域変換方法に対応する時間領域変換方法(例えば短時間フーリエ逆変換)で、分離信号yf,t,kを時間領域の分離信号yk(t)に変換し(s4)、音源分離装置1の出力値として出力する。
<Time
The time
<本実施形態のポイント>
以下、本実施形態のポイントを説明し、式(13)、(17)、(18)の導出方法を説明する。
<Points of this embodiment>
Hereinafter, the points of the present embodiment will be described, and the derivation methods of equations (13), (17), and (18) will be described.
本実施形態では、
(性質1)到達時間差δf,kがRチャネルとLチャネルの位相差に影響を与える値であること
(性質2)位相差が周期的な値を取る量であること
という2つの性質を利用して、到着時間差δf,kを推定する。ここで(性質1)は、式(2)にてノイズnf,tが十分に小さい場合を考えれば明らかである。(性質2)は、ある2つの位相を表わす量の差Θが、−π≦Θ<πの範囲の値だけではなく、Θ±2πM(Mは任意の整数)という周期的な不定性を内包する値を取る性質を持つことを意味する。
In this embodiment,
(Property 1) The arrival time difference δ f, k is a value that affects the phase difference between the R channel and the L channel. (Property 2) Uses two properties that the phase difference is an amount that takes a periodic value. Then, the arrival time difference δ f, k is estimated. Here, (property 1) is obvious when the case where the noise n f, t is sufficiently small in the expression (2) is considered. (Property 2) is not only a value in the range of −π ≦ Θ <π, but also a periodic indefiniteness of Θ ± 2πM (M is an arbitrary integer). It means that it has the property of taking the value to be.
(性質2)について、さらに以下にて説明を行なう。式(6) (Property 2) will be further described below. Formula (6)
の右辺における、expのカッコの中のベクトル及び行列x,b,Vを、それぞれの成分で表して整理すると、 The vectors in the parentheses of exp and the matrices x, b, and V on the right side of
となる(Cはδf,kに依らない定数)。式(32)は、位相や角度の分布のように周期的な値を取る変数に対する分布であるVon Mises分布 (C is a constant independent of δ f, k ). Expression (32) is a Von Mises distribution that is a distribution for a variable that takes a periodic value such as a phase or angle distribution.
と同じ形をしていることが分かる(参考文献1参照)。
[参考文献1]C.M.ビショップ著,元田ら訳,“パターン認識と機械学習(上)”,シュプリンガー・ジャパン,2006.
(See Reference 1).
[Reference Document 1] C.I. M.M. Bishop, Motoda et al., “Pattern Recognition and Machine Learning (Part 1)”, Springer Japan, 2006.
ここで−π<x≦π、μは分布の平均(−π<μ≦π)、κ>0は分布の集中度パラメタ(正規分布での(1/分散)に相当)、I0(x)は0次の第1種ベッセル関数である。 Here, −π <x ≦ π, μ is the distribution average (−π <μ ≦ π), κ> 0 is the distribution concentration parameter (corresponding to (1 / dispersion) in the normal distribution), I 0 (x ) Is a zeroth-order first-type Bessel function.
すなわち、式(33)の変数xが式(32)のψξk−ψskに対応し、式(33)の平均μが式(32)の2πfδf,kに対応し、式(33)の集中度κが式(32)の(|ξf,t,k||sf,t,k|)/(σf 2(1−φf 2))に対応する。 That is, the variable x in the equation (33) corresponds to ψ ξk −ψ sk in the equation (32), the average μ in the equation (33) corresponds to 2πfδ f, k in the equation (32), and the equation (33) The degree of concentration κ corresponds to (| ξ f, t, k || s f, t, k |) / (σ f 2 (1−φ f 2 )) in Expression (32).
説明をより直感的にするため、雑音のパラメタがφf=0である場合を考える(これは、雑音が式(4)に示す拡散性雑音ではなく、分散σf 2のガウス雑音が観測xL,xRにそれぞれ乗ることを意味する)。このとき、式(14)によりξf,t,k=xf,t,Rとなるため、式(32)において、ψξkはψxf,t,R(但し、添え字xf,t,Rはxf,t,Rを表し、ψxf,t,RはマイクRの観測信号xf,t,Rの位相を表す)となる。また、式(3)、(5)により(但し式(5)においてnf,t=0)、sf,t,k=xf,t,Lとなるため、式(32)においてψskはψxf,t,L(但し、添え字xf,t,Lはxf,t,Lを表し、ψxf,t,LはマイクLの観測信号xf,t,Lの位相を表す)となる。また、前述の通りξf,t,k=xf,t,Rであり、式(3)、(5)よりxf,t,R=ej2πfδk,f・sf,t,k(但し、eの添え字δk,fはδk,fを表す)となるため、式(32)において、|ξf,t,k|=|ej2πfδk,f・sf,t,k|=|sf,t,k|となる。よって、式(32)は To make the description more intuitive, consider the case where the noise parameter is φ f = 0 (this is not the diffusive noise shown in Equation (4), but the Gaussian noise with variance σ f 2 is observed x L, means that the ride each to x R). At this time, since ξ f, t, k = x f, t, R according to the equation (14), in the equation (32), ψ ξk is ψ xf, t, R (however, the subscripts xf, t, R Represents x f, t, R and ψ xf, t, R represents the phase of the observation signal x f, t, R of the microphone R). Also, according to equations (3) and (5) (where n f, t = 0 in equation (5)), s f, t, k = x f, t, L , so ψ sk in equation (32) is [psi xf, t, L (where subscripts xf, t, L represents a x f, t, L, ψ xf, t, L represents an observed signal x f, t, L of the phase of the microphone L) It becomes. Further, as described above, ξ f, t, k = x f, t, R , and from equations (3) and (5), x f, t, R = e j2πfδk, f · s f, t, k (however, , E subscripts δk, f represent δ k, f ), so in equation (32), | ξ f, t, k | = | e j2πfδk, f · s f, t, k | = | s f, t, k | Therefore, equation (32) becomes
となる。これとVon Mises分布との解釈を合わせると、
(1)RチャネルとLチャネルの位相差ψxf,t,R−ψxf,t,Lという周期的な値を取る変数の分布が、平均μ=2πfδf,kを取る、
(2)Von Mises分布の集中度κが、SN比|sf,k,t|2/σf 2に対応するようになる。すなわち、SN比が低い(条件が悪い)と、RチャネルとLチャネルの位相差の値の集中度が下がる(=分散が大きくなる)。これは、SN比が低い条件においては位相差の測定値がばらつく現象と対応する、
の2点が言える。
It becomes. Combine this with the Von Mises distribution,
(1) The distribution of variables taking periodic values of phase differences ψ xf, t, R −ψ xf, t, L between the R channel and the L channel takes an average μ = 2πfδ f, k .
(2) The degree of concentration κ of the Von Mises distribution corresponds to the SN ratio | s f, k, t | 2 / σ f 2 . That is, when the S / N ratio is low (the condition is bad), the degree of concentration of the R channel and L channel phase difference values decreases (= dispersion increases). This corresponds to a phenomenon in which the measured value of the phase difference varies under a low SN ratio.
Two points can be said.
本実施形態では、(性質1)、(性質2)を利用しており、実施の手続きとしては、RチャネルとLチャネルの位相差に関する量が、周期的な値を取る変数に対する分布であるVon Mises分布で表現できることに着目し、Von Mises分布のパラメタに対する最尤推定により、分布の平均値μ=2πfδf,kを推定することで、信号到達時間差パラメタδf,kを推定する。 In this embodiment, (property 1) and (property 2) are used, and as an implementation procedure, an amount related to the phase difference between the R channel and the L channel is a distribution for a variable that takes a periodic value. Focusing on the fact that it can be expressed by the Mises distribution, the signal arrival time difference parameter δ f, k is estimated by estimating the average value μ = 2πfδ f, k of the distribution by maximum likelihood estimation with respect to the parameter of the Von Mises distribution.
式(31)のp(xf,t|k,θ)をQ関数の式(10)に代入し、 Substituting p (x f, t | k, θ) of equation (31) into equation (10) of the Q function,
を解くことで、式(13)が得られる。
また時間補正部12212における関数Fの式(17)、(18)は、Q関数の2階微分
(13) is obtained by solving.
Further, the expressions (17) and (18) of the function F in the
である。時間補正部12212では、式(13)で得られた解δ’f,kがQ関数の極大値・極小値のどちらを与えるかを、F(2πfδ’f,k)の値の正負にて調べ、δ’f,kが極小値を与える場合に、上述の+πまたは−πの補正を行なう。
It is. In the
<効果>
従来法においては、時間差推定部において解析的な更新式が与えられていなかったため、多くの計算コストを要する全探索操作が必要であった。よって、時間差推定部の計算コストを削減し、高速な音源分離手段を提供することが課題である。本実施形態では、到着時間差δf,kが、マイクRとマイクLの位相差に影響を与える値であることと、位相差が周期的な値を取る性質を持つことに着目し、到着時間差δf,kを推定する。これにより、従来必要であった全探索操作が不要となるため、高速な音源分離手段を提供することが可能となる。
<Effect>
In the conventional method, since an analytical update formula is not given in the time difference estimation unit, a full search operation requiring a large calculation cost is required. Therefore, it is a problem to reduce the calculation cost of the time difference estimation unit and to provide a high-speed sound source separation unit. In the present embodiment, focusing on the fact that the arrival time difference δ f, k is a value that affects the phase difference between the microphone R and the microphone L and that the phase difference has a periodic value, Estimate δ f, k . This eliminates the need for a full search operation that has been required in the past, and thus provides a high-speed sound source separation unit.
<シミュレーション結果>
発明の効果を示すため実験を行なった。図6に示す部屋において、音源数は2つ(70度と150度)又は3つ(30,70,150度)とした。音源は、英語話者音声を用い、音源数2及び3の場合それぞれにおいて10通りの音源組合せにて実験を行なった。
<Simulation results>
An experiment was conducted to show the effect of the invention. In the room shown in FIG. 6, the number of sound sources was two (70 degrees and 150 degrees) or three (30, 70, 150 degrees). As the sound source, an English speaker voice was used, and when the number of sound sources was 2 and 3, the experiment was performed with 10 different sound source combinations.
雑音としては、平均0、共分散行列σf 2Vf(Vfは式(4)により与えられる)のガウスノイズをSN比約25dBにて重畳した。部屋の残響時間は130ms、サンプリング周波数は8kHz,短時間フーリエ変換の窓長及びシフト長はそれぞれ64ms,16msとした。 As the noise, Gaussian noise having an average of 0 and a covariance matrix σ f 2 V f (V f is given by Equation (4)) was superimposed at an SN ratio of about 25 dB. The reverberation time of the room was 130 ms, the sampling frequency was 8 kHz, and the short Fourier transform window length and shift length were 64 ms and 16 ms, respectively.
従来法では到達時間差δkを推定する際に、音源位置Θ(図6参照)を0度から180度まで1度きざみで変化させ、それに対応する181種類の到達時間差δkの値について全探索を行なった。 In the conventional method, when the arrival time difference δ k is estimated, the sound source position Θ (see FIG. 6) is changed in increments of 1 degree from 0 degrees to 180 degrees, and a total search is performed for the corresponding 181 types of arrival time differences δ k. Was done.
図7に、SIR(信号対雑音比、雑音には他話者音声含む)、SDR(信号対歪み比)、及びパソコン(IntelXeon(登録商標)X5650 2.67GHz(6Core)×2CPU)における計算時間を示す。図7Aは音源が二つの場合(70度と150度)を、図7Bは音源が三つの場合(30度,70度,150度)を示す。SIRとSDRは大きな値であるほど良い性能であることを示す。数字は、10通りの音源組合せの平均値である。図7A、Bに示す通り、本実施形態は、1/10程度の計算時間で、従来法とほぼ同程度の分離性能を達成できることが見てとれる。 Figure 7 shows the calculation time in SIR (signal-to-noise ratio, noise includes other speaker's voice), SDR (signal-to-distortion ratio), and personal computer (IntelXeon (registered trademark) X5650 2.67 GHz (6 Core) x 2 CPU). Show. FIG. 7A shows the case where there are two sound sources (70 degrees and 150 degrees), and FIG. 7B shows the case where there are three sound sources (30 degrees, 70 degrees and 150 degrees). A larger value of SIR and SDR indicates better performance. The numbers are average values of 10 different sound source combinations. As shown in FIGS. 7A and 7B, it can be seen that the present embodiment can achieve substantially the same separation performance as the conventional method with a calculation time of about 1/10.
<その他の変形例>
本実施形態のポイントは上述の通り、到達時間差の推定方法である。従って、他の処理やパラメタの推定方法については、上記の実施形態に限定されるものではなく、他の従来技術を用いてもよい。
<Other variations>
As described above, the point of this embodiment is a method for estimating the arrival time difference. Therefore, other processes and parameter estimation methods are not limited to the above-described embodiment, and other conventional techniques may be used.
本実施形態では、各部間で直接データを受け渡しているが、図示しない記憶部を介して、各データを読み書きしてもよい。 In this embodiment, data is directly transferred between the respective units, but each data may be read and written via a storage unit (not shown).
また、本実施形態では、雑音パワー推定部1223は音源スペクトルsf,t,kを音源スペクトル推定部1222から取得しているが、到達時間差δf,kと観測信号xf,tとを用いて式(19)に基づき雑音パワー推定部1223で計算する構成としてもよい。
In this embodiment, the noise
本実施形態では、拡散性雑音の場合を想定しているが、他の特性を持つ雑音であってもよい。その場合、雑音の特性に応じて、式(4)や式(15)のsinc(2πfD/c)を適宜変更すればよい。 In this embodiment, the case of diffuse noise is assumed, but noise having other characteristics may be used. In that case, the sinc (2πfD / c) in the equations (4) and (15) may be appropriately changed according to the noise characteristics.
分離信号生成部13は、事後確率mf,t,kと音源スペクトルsf,t,kとを入力とし、式(22)に代えて、以下の式により、分離信号yf,t,kを生成してもよい。
The separated
この場合、パラメタ推定部12は、Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θn)|)が所定の収束判定閾値Δより小さくなったとき、または、更新回数nが所定の最大更新回数N以上になったとき(s31)に取得している最新の事後確率mf,t,kと音源スペクトルsf,t,kを分離信号生成部13に出力する。このような構成により、式(22)と同様に分離信号yf,t,kを生成することができる(式(19)参照)。
In this case, when the amount of change in the value of the Q function (| Q (θ | θ n−1 ) −Q (θ | θ n ) |) is smaller than the predetermined convergence determination threshold Δ, Alternatively, the latest signal posterior probabilities m f, t, k and the sound source spectrum s f, t, k acquired when the number of updates n is equal to or greater than the predetermined maximum number of updates N (s31) are separated
Mステップの計算順序は、本実施形態の計算順序に限らない。例えば、時間差推定部1221と音源スペクトル推定部1222の計算順序はどちらを先に行ってもよい。図8は音源スペクトル推定部1222の音源スペクトル推定処理(s27)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行う場合の機能ブロック図を示す。以下、図8を用いて説明する。
The calculation order of M steps is not limited to the calculation order of this embodiment. For example, whichever of the calculation order of the time
Mステップ計算部122の音源スペクトル推定部1222は、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの到達時間差δf,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の音源スペクトル計算においては、前述の初期化したパラメタ)と観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを式(19)により推定し、雑音パワー推定部1223とQ関数計算部1212と時間差推定部1221と時間補正部12212とに出力する。
The sound source
Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kとを入力とし、これらの値を用いて、到達時間差δf,kを式(13)により推定し、時間補正部12212に出力する。
The arc
Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの雑音のパワースペクトルσf 2である。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を式(16)に基づき補正する。さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、雑音パワー推定部1223とQ関数計算部1212とに出力する。
The
上述の構成とすることで、第一実施形態と同様の効果を得ることができる。なお、同様に、一回前の繰り返しで得られているパラメタθ’のうちの到達時間差δf,kに基づき雑音パワー推定部1223の雑音パワー推定処理(s28)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行ってもよい。
By setting it as the above-mentioned structure, the effect similar to 1st embodiment can be acquired. Similarly, after performing the noise power estimation process (s28) of the noise
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
上述した音源分離装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The sound source separation device described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a processing procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.
Claims (3)
前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,R]Tから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσf 2と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定手段と、
前記観測信号xf,tと推定されたパラメタθ={δf,k,σf 2,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成手段とを含み、
前記パラメタ推定手段は、
観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φf=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φf(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,kを
として推定する逆正接計算手段と、
推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正手段とを有する、
音源分離装置。 In a situation where a plurality of original signals are mixed with noise and observed with two microphones, a sound source separation device that separates and extracts each original signal from the observed signal,
The sound source index of the original signal is k, and the original signal to the two microphones from the observed signal x f, t = [x f, t, L , x f, t, R ] T in the frequency domain. Parameter estimation means for estimating the arrival time difference δ f, k , noise power spectrum σ f 2 , original signal spectrum s f, t, k and sound source existence probability p (k | θ);
A separated signal y f, t, k is generated from the observed signal x f, t and the estimated parameter θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}. Separating signal generating means for
The parameter estimation means includes
The posterior probability that the observed signal x f, t indicates the expected value attributed to the sound source k is m f, t, k , the distance between the two microphones is D, the speed of the original signal is c, φ f = sinc (2πfD / c) and ξ f, t, k = [x f, t, R −φ f (x t, t, L −s f, t, k )], and the spectrum s f, t, The phases of k and ξ f, t, k are ψ sk and ψ ξk , respectively, and the arrival time difference δ f, k is
Arc tangent calculation means to estimate as
Correction means for correcting the indefiniteness of ± π included in the estimated arrival time difference δ f, k .
Sound source separation device.
前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,R]Tから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσf 2と原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定ステップと、
前記観測信号xf,tと推定されたパラメタθ={δf,k,σf 2,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成ステップとを含み、
前記パラメタ推定ステップは、
観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φf=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φf(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,kを
として推定する逆正接計算ステップと、
推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正ステップとを有する、
音源分離方法。 In a situation where a plurality of original signals are mixed with noise and observed by two microphones, a sound source separation method for separating and extracting each original signal from the observed signal,
The sound source index of the original signal is k, and the original signal to the two microphones from the observed signal x f, t = [x f, t, L , x f, t, R ] T in the frequency domain. Parameter estimation step for estimating the arrival time difference δ f, k , noise power spectrum σ f 2 , original signal spectrum s f, t, k, and sound source existence probability p (k | θ);
A separated signal y f, t, k is generated from the observed signal x f, t and the estimated parameter θ = {δ f, k , σ f 2 , s f, t, k , p (k | θ)}. And a separated signal generating step
The parameter estimation step includes:
The posterior probability that the observed signal x f, t indicates the expected value attributed to the sound source k is m f, t, k , the distance between the two microphones is D, the speed of the original signal is c, φ f = sinc (2πfD / c) and ξ f, t, k = [x f, t, R −φ f (x t, t, L −s f, t, k )], and the spectrum s f, t, The phases of k and ξ f, t, k are ψ sk and ψ ξk , respectively, and the arrival time difference δ f, k is
Arc tangent calculation step to estimate as
A correction step of correcting the indefiniteness of ± π included in the estimated arrival time difference δ f, k .
Sound source separation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011240054A JP5726709B2 (en) | 2011-11-01 | 2011-11-01 | Sound source separation device, sound source separation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011240054A JP5726709B2 (en) | 2011-11-01 | 2011-11-01 | Sound source separation device, sound source separation method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097176A true JP2013097176A (en) | 2013-05-20 |
JP5726709B2 JP5726709B2 (en) | 2015-06-03 |
Family
ID=48619166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011240054A Active JP5726709B2 (en) | 2011-11-01 | 2011-11-01 | Sound source separation device, sound source separation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5726709B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823317A (en) * | 2021-10-18 | 2021-12-21 | 国网重庆市电力公司电力科学研究院 | Transformer substation noise separation method, device and medium based on frequency spectrum structured recognition |
CN113932912A (en) * | 2021-10-13 | 2022-01-14 | 国网湖南省电力有限公司 | Transformer substation noise anti-interference estimation method, system and medium |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210062475A (en) | 2019-11-21 | 2021-05-31 | 삼성전자주식회사 | Electronic apparatus and control method thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145610A (en) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | Sound source separation and localization method |
JP2010145836A (en) * | 2008-12-19 | 2010-07-01 | Nippon Telegr & Teleph Corp <Ntt> | Direction information distribution estimating device, sound source number estimating device, sound source direction measuring device, sound source separating device, methods thereof, and programs thereof |
-
2011
- 2011-11-01 JP JP2011240054A patent/JP5726709B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145610A (en) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | Sound source separation and localization method |
JP2010145836A (en) * | 2008-12-19 | 2010-07-01 | Nippon Telegr & Teleph Corp <Ntt> | Direction information distribution estimating device, sound source number estimating device, sound source direction measuring device, sound source separating device, methods thereof, and programs thereof |
Non-Patent Citations (6)
Title |
---|
CSNJ200810082388; 和泉 洋介: 'スパースな混合モデルに基づく雑音・残響環境下の劣決定BSS' 電子情報通信学会2008年総合大会講演論文集 基礎・境界 , 20080305, pp.S-58 - S-59, 電子情報通信学会 * |
CSNJ201110018331; 中谷 智広: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 20100916, pp.577-580, 日本音響学会 * |
CSNJ201110039210; 武田 和馬: '音源のW-DO性を仮定した多チャンネル複素NMFによる劣決定BSS' 日本音響学会2011年春季研究発表会講演論文集CD-ROM , 20110311, pp.801-804, 日本音響学会 * |
JPN6014036806; 和泉 洋介: 'スパースな混合モデルに基づく雑音・残響環境下の劣決定BSS' 電子情報通信学会2008年総合大会講演論文集 基礎・境界 , 20080305, pp.S-58 - S-59, 電子情報通信学会 * |
JPN6014036809; 中谷 智広: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 20100916, pp.577-580, 日本音響学会 * |
JPN6014036811; 武田 和馬: '音源のW-DO性を仮定した多チャンネル複素NMFによる劣決定BSS' 日本音響学会2011年春季研究発表会講演論文集CD-ROM , 20110311, pp.801-804, 日本音響学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113932912A (en) * | 2021-10-13 | 2022-01-14 | 国网湖南省电力有限公司 | Transformer substation noise anti-interference estimation method, system and medium |
CN113932912B (en) * | 2021-10-13 | 2023-09-12 | 国网湖南省电力有限公司 | Transformer substation noise anti-interference estimation method, system and medium |
CN113823317A (en) * | 2021-10-18 | 2021-12-21 | 国网重庆市电力公司电力科学研究院 | Transformer substation noise separation method, device and medium based on frequency spectrum structured recognition |
CN113823317B (en) * | 2021-10-18 | 2023-06-30 | 国网重庆市电力公司电力科学研究院 | Transformer substation noise separation method, device and medium based on spectrum structured recognition |
Also Published As
Publication number | Publication date |
---|---|
JP5726709B2 (en) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101871604B1 (en) | Method and Apparatus for Estimating Reverberation Time based on Multi-Channel Microphone using Deep Neural Network | |
JP5337072B2 (en) | Model estimation apparatus, sound source separation apparatus, method and program thereof | |
Mohammadiha et al. | A new linear MMSE filter for single channel speech enhancement based on nonnegative matrix factorization | |
US9754608B2 (en) | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium | |
CN103559888A (en) | Speech enhancement method based on non-negative low-rank and sparse matrix decomposition principle | |
CN109817234B (en) | Target speech signal enhancement method, system and storage medium based on continuous noise tracking | |
JP5568530B2 (en) | Sound source separation device, method and program thereof | |
Wang | Multi-band multi-centroid clustering based permutation alignment for frequency-domain blind speech separation | |
Wu et al. | The theory of compressive sensing matching pursuit considering time-domain noise with application to speech enhancement | |
Seki et al. | Generalized multichannel variational autoencoder for underdetermined source separation | |
JP5726709B2 (en) | Sound source separation device, sound source separation method and program | |
CN114041185A (en) | Method and apparatus for determining a depth filter | |
JP4960933B2 (en) | Acoustic signal enhancement apparatus and method, program, and recording medium | |
Jiang et al. | An improved unsupervised single-channel speech separation algorithm for processing speech sensor signals | |
Garg | Speech enhancement using long short term memory with trained speech features and adaptive wiener filter | |
Zhang et al. | Multi-Target Ensemble Learning for Monaural Speech Separation. | |
Deng et al. | Conv-TasSAN: Separative Adversarial Network Based on Conv-TasNet. | |
JP5726790B2 (en) | Sound source separation device, sound source separation method, and program | |
JP2012173584A (en) | Sound-source separation device, and method and program thereof | |
JP3887192B2 (en) | Independent component analysis method and apparatus, independent component analysis program, and recording medium recording the program | |
Narayanaswamy et al. | Audio source separation via multi-scale learning with dilated dense u-nets | |
WO2020184210A1 (en) | Noise-spatial-covariance-matrix estimation device, noise-spatial-covariance-matrix estimation method, and program | |
JP2013195511A (en) | Device for spectrum estimation, method for the same and program | |
Maas et al. | A highly efficient optimization scheme for REMOS-based distant-talking speech recognition | |
Wan et al. | Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5726709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |