JP7046636B2 - Signal analyzers, methods, and programs - Google Patents
Signal analyzers, methods, and programs Download PDFInfo
- Publication number
- JP7046636B2 JP7046636B2 JP2018026316A JP2018026316A JP7046636B2 JP 7046636 B2 JP7046636 B2 JP 7046636B2 JP 2018026316 A JP2018026316 A JP 2018026316A JP 2018026316 A JP2018026316 A JP 2018026316A JP 7046636 B2 JP7046636 B2 JP 7046636B2
- Authority
- JP
- Japan
- Prior art keywords
- constituent sound
- separation matrix
- constituent
- time
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、信号解析装置、方法、及びプログラムに係り、特に、各構成音が混合された観測信号を分離する信号解析装置、方法、及びプログラムに関する。 The present invention relates to a signal analysis device, a method, and a program, and more particularly to a signal analysis device, a method, and a program for separating an observation signal in which each constituent sound is mixed.
ブラインド音源分離(Blind Source separation; BSS) は、音源とマイクとの間の伝達関数が未知な状況下で、マイクアレイの入力から個々の音源信号を分離する技術である。周波数領域で定式化されるBSS のアプローチは、周波数ごとの音源分離の問題と周波数ごとに得られる分離信号がそれぞれどの音源のものであるかを対応づけるパーミュテーション整合と呼ぶ問題を併せて解く必要があるが、音源の混合過程を畳み込み演算を含まない瞬時混合系で表せるため比較的効率の高いアルゴリズムを実現できる利点がある。また、音源に関する時間周波数領域で成り立つ様々な仮定やマイクロホンアレーの周波数応答に関する仮定を有効活用できるようになる点も大きな利点である。例えば、同一音源に由来する周波数成分の大きさは同期して時間変化しやすいという傾向を手がかりにしながら各周波数における音源分離とパーミュテーション整合を同時解決する独立ベクトル分析(Independent Vector Analysis; IVA)と呼ぶICAの拡張版が提案されている。 Blind Source separation (BSS) is a technology that separates individual sound source signals from the input of a microphone array when the transfer function between the sound source and the microphone is unknown. The BSS approach formulated in the frequency domain solves the problem of sound source separation for each frequency and the problem called permutation matching that associates the sound source separation signal obtained for each frequency with each other. Although it is necessary, there is an advantage that a relatively efficient algorithm can be realized because the mixing process of the sound source can be represented by an instantaneous mixing system that does not include the convolution operation. It is also a great advantage that various assumptions about the sound source in the time frequency domain and assumptions about the frequency response of the microphone array can be effectively utilized. For example, Independent Vector Analysis (IVA), which solves sound source separation and permutation matching at each frequency at the same time, using the tendency that the magnitude of frequency components derived from the same sound source tends to change with time in synchronization. An extended version of ICA called ICA has been proposed.
異なるアプローチとして、非負行列因子分解(Non-negative Matrix Factorization; NMF) の多チャンネル拡張が近年注目を集めている(非特許文献1~3)。NMFはもともとモノラル音源分離に適用されてきた手法である。NMFでは観測信号のパワー(あるいは振幅)スペクトログラムを非負値行列とみなし、これを二つの行列の非負値行列の積で近似する。これは、各時間フレームで観測される混合信号のパワースペクトルが、時間変化する振幅によってスケーリングされた限られた数の基底スペクトルの線形和によって近似できると仮定することに相当する。多チャンネルNMF(MNMF)は分離のための追加の手掛かりとして空間情報の使用を可能にするために、このアプローチを多チャンネルのケースに拡張したものである。また、MNMF は周波数ごとの音源分離とパーミュテーション整合の手掛かりとしてスペクトルテンプレートを用いた周波数領域BSSの拡張として解釈することもできる。 As a different approach, the multi-channel extension of non-negative Matrix Factorization (NMF) has been attracting attention in recent years (Non-Patent Documents 1 to 3). NMF is a method originally applied to monaural sound source separation. In NMF, the power (or amplitude) spectrogram of the observed signal is regarded as a non-negative matrix, and this is approximated by the product of the non-negative matrices of the two matrices. This corresponds to assuming that the power spectrum of the mixed signal observed in each time frame can be approximated by the linear sum of a limited number of basis spectra scaled by the time-varying amplitude. Multi-channel NMF (MNMF) extends this approach to the multi-channel case to allow the use of spatial information as an additional clue for isolation. MNMF can also be interpreted as an extension of the frequency domain BSS using a spectral template as a clue to sound source separation and permutation matching for each frequency.
従来のMNMF (非特許文献1)では劣決定条件(マイク数<音源数)における分離を対象としているが、優決定(マイク数_音源数)の状況に限定した場合、優決定MNMF(DMNMF)と呼ばれる効果的な手法が提案されている(非特許文献2、3)。非特許文献3ではDNMFとIVAの関連が考察されており、この考察を通して、IVAで導入された高速なアルゴリズムをDMNMF における分離行列推定に適用可能であることが示されている。これにより、非特許文献3のアルゴリズムは従来の劣決定版MNMF(非特許文献1)よりも30倍以上高速であることが報告されている。
The conventional MNMF (Non-Patent Document 1) targets separation under the inferior determination condition (number of microphones <number of sound sources), but when limited to the situation of superior determination (number of microphones_number of sound sources), superior determination MNMF (DMNMF) An effective method called (Non-Patent
IVAやDMNMFで仮定している時間周波数領域での瞬時混合モデルの1つの欠点は、高残響下でその仮定が成り立たない点である。 One drawback of the instantaneous mixing model in the time frequency domain assumed by IVA and DMNMF is that the assumption does not hold under high reverberation.
本発明では、上記事情を鑑みて成されたものであり、高残響下であっても、各構成音が混合した混合信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and is a signal analysis device and method capable of accurately separating each constituent sound from a mixed signal in which each constituent sound is mixed even under high reverberation. , And the purpose of providing the program.
上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された観測信号を入力として、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定するパラメータ推定部を含んで構成されている。 In order to achieve the above object, the signal analysis device according to the present invention uses an observation signal in which each constituent sound is mixed as an input, and represents a base spectrum of each constituent sound, each constituent sound, and a volume at each time of each base. The activation parameter, the separation matrix for separating the mixed sound in which each constituent sound is mixed in the time frequency region into each constituent sound, and the signal obtained by separating the observation signal whose reverberation is removed by using the reverberation removal filter into each constituent sound. To reduce the objective function represented by It is configured to include a parameter estimation unit for estimating.
本発明に係る信号解析方法は、パラメータ推定部が、各構成音が混合された観測信号を入力として、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定する。 In the signal analysis method according to the present invention, the parameter estimation unit uses an observation signal in which each constituent sound is mixed as an input, and an activation parameter representing the base spectrum of each constituent sound, each constituent sound, and the volume at each time of each base. , A separation matrix for separating the mixed sound in which each constituent sound is mixed in the time frequency region into each constituent sound, and a signal obtained by separating the observation signal whose reverberation has been removed by using the reverberation removal filter into each constituent sound. Estimate the base spectrum at each constituent sound and each base, the activation parameters at each time of each constituent sound and each base, the separation matrix, and the reverberation removal filter so as to reduce the objective function represented. ..
また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。 Further, the program of the present invention is a program for making a computer function as each part constituting the above-mentioned signal analysis apparatus.
以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定することにより、高残響下であっても、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。 As described above, according to the signal analyzer, method, and program of the present invention, the base spectrum of each constituent sound, the activation parameter representing the volume of each constituent sound and each base at each time, and each in the time frequency region. A separation matrix for separating the mixed sound in which the constituent sounds are mixed into each constituent sound, and an objective function expressed using the signal obtained by separating the observation signal whose reverberation has been removed by using the reverberation removal filter into each constituent sound. High reverberation by estimating the base spectrum of each constituent sound and each base, the activation parameter at each time of each constituent sound and each base, the separation matrix, and the reverberation removal filter so as to make it smaller. Even so, each constituent sound can be accurately separated from the mixed signal in which each constituent sound is mixed.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<本発明の実施の形態の概要>
高残響の混合信号の音源分離は、周波数領域の畳み込み混合モデルを用いて効果的に解くことができることが示されている(非特許文献2、5)。非特許文献5の方法では、分離行列、残響除去フィルタおよび各音源のスペクトルパラメータを反復的に更新することによって、周波数領域畳み込み混合モデルのパラメータを効率的に推定することを可能にしている。
<Outline of Embodiment of the present invention>
It has been shown that the sound source separation of a highly reverberant mixed signal can be effectively solved using a convolutional mixed model in the frequency domain (Non-Patent
本発明の実施の形態は、周波数領域畳み込み混合モデルをDNMF の枠組に導入し、非特許文献6と非特許文献3、4と非特許文献5のアルゴリズムを融合することにより、高残響下で頑健な音源分離を実現するものである。本発明の実施の形態の最適化プロセスは、(i) 補助関数法を用いたNMF のパラメータ推定、(ii) 分離行列更新、(iii) 残響除去フィルタ更新、の3ステップによって構成され、(i) に非特許文献6、7のアルゴリズム、(ii) に非特許文献3、4のアルゴリズム、(iii) に非特許文献5のアルゴリズムを用いる。
In the embodiment of the present invention, a frequency domain convolution mixed model is introduced into the framework of DNMF, and the algorithms of Non-Patent Document 6 and Non-Patent
[非特許文献4] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2011 IEEE Workshop on. IEEE, 2011, pp. 189-192. [Non-Patent Document 4] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2011 IEEE Workshop on. IEEE, 2011, pp . 189-192.
[非特許文献5] T. Yoshioka, T. Nakatani, M. Miyoshi, and H. G. Okuno, “Blind separation and dereverberation of speech mixtures by joint optimization," IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 1, pp. 69-84, 2011. [Non-Patent Document 5] T. Yoshioka, T. Nakatani, M. Miyoshi, and HG Okuno, “Blind separation and dereverberation of speech laminate by joint optimization,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 1, pp. 69-84, 2011.
[非特許文献6] 亀岡弘和, 後藤真孝, 嵯峨山茂樹, “スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ," 情報処理学会研究報告, 2006-MUS-66-13, pp. 77-84, Aug. 2006. [Non-Patent Document 6] Hirokazu Kameoka, Masataka Goto, Shigeki Sagayama, "Selective Equalizer of Periodic and Aperiodic Components in Mixed Sound by Spectral Control Envelope," IPSJ Research Report, 2006-MUS-66-13, pp. 77-84, Aug. 2006.
[非特許文献7] M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, and S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence," in Proc. IEEE International Workshop on Machine Learning for Signal Processing (MLSP), 2010, pp. 283-288. [Non-Patent Document 7] M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, and S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence,” in Proc. IEEE International Workshop on Machine Learning for Signal Processing (MLSP), 2010, pp. 283-288.
<問題の定式化>
マイク数をM、音源数をMとし、観測信号、推定信号に短時間フーリエ変換(short-time Fouriertrans form; STFT) をかけた信号をそれぞれ
<Problem formulation>
The number of microphones is M, the number of sound sources is M, and the observed signal and the estimated signal are subjected to short-time Fourier transform (STFT).
とする。ここで、f とn はそれぞれ周波数ビンおよび時間フレームのインデックス、i とj はそれぞれマイクと音源のインデックスである。また、(・)T は行列またはベクトルの転置を表す。多くの優決定条件のBSS では時間周波数領域での瞬時分離系 And. Where f and n are the frequency bin and time frame indexes, respectively, and i and j are the microphone and sound source indexes, respectively. Also, (・) T represents the transpose of a matrix or vector. In BSS with many dominant conditions, the instantaneous separation system in the time frequency domain
を仮定する。ここでWH(f) は分離行列と呼ばれる。また、(・)Hは複素共役転置を表す。しかしながら、高残響下(インパルス応答がSTFTのフレーム長より長い状況)ではこの仮定は成り立たない。 Is assumed. Here W H (f) is called the separation matrix. Also, (・) H represents the complex conjugate transpose. However, this assumption does not hold under high reverberation (the situation where the impulse response is longer than the frame length of the STFT).
本発明の実施の形態では時間周波数領域でマルチチャネル有限インパルス応答を有する分離システム In the embodiment of the present invention, a separation system having a multi-channel finite impulse response in the time frequency domain.
を用いる。ここでWH(f, n′)、 0≦n′≦N′はM×Mの係数行列である。WH(f, 0) が可逆であるとすると、式(4) は次のように変形できる。 Is used. Here, W H (f, n ′) and 0 ≦ n ′ ≦ N ′ are coefficient matrices of M × M. Assuming that WH (f, 0) is reversible, Eq. (4) can be transformed as follows.
ここで
である。式(5) は混合信号x(f,n)の残響除去を行うプロセスであり、式(6) は残響除去された信号y(f,n) の分離プロセスであることが分かる。
here
Is. It can be seen that Eq. (5) is the process of removing the reverberation of the mixed signal x (f, n), and Eq. (6) is the process of separating the signal y (f, n) from which the reverberation has been removed.
確率変数sj(f,n) を Random variable s j (f, n)
とし、sj(f, n) とsj′ (f′,n′) が(f, n, j) ≠ (f′, n′, j′) のとき統計的に独立であるとする。ここで複素正規分布を Let s j (f, n) and s j ′ (f ′, n ′) be statistically independent when (f, n, j) ≠ (f ′, n ′, j ′). Here is the complex normal distribution
とする。さらにパワースペクトル密度vj(f, n) を And. Further, the power spectral density v j (f, n)
とする。それぞれ、hj,k(f)≧0は基底行列、uj,k(n)≧0はアクティベーション行列のj 番目の音源の(j, k) 要素である。パワースペクトログラムモデル(9) や、その類似モデルを用いた多チャンネル音源分離はMNMF と呼ばれている。yi(f, n) に関して負の対数尤度をとると目的関数 And. H j, k (f) ≧ 0 is the basis matrix, and u j, k (n) ≧ 0 is the (j, k) element of the jth sound source of the activation matrix, respectively. The multi-channel sound source separation using the power spectrogram model (9) and its similar model is called MNMF. Taking a negative log-likelihood with respect to y i (f, n) is the objective function
が得られる。ここで
である。
Is obtained. here
Is.
<パラメータ推定アルコリスムの導出>
目的関数(10) は次のように各変数についてそれぞれ最小化することで、関数値を小さくする更新式が得られる。
<Derivation of parameter estimation alcoholism>
By minimizing the objective function (10) for each variable as follows, an update expression that reduces the function value can be obtained.
以下の節で各変数に関する更新式を導出する。 The update formula for each variable is derived in the following sections.
<
の更新>
<
Update>
に関する更新式は補助関数法を用いて導出する。式(10) から
に関する項だけを取り出すと
The update formula for is derived using the auxiliary function method. From equation (10)
If you take out only the section about
となる。この関数を最小化するために、C1 の補助関数(上界関数) Will be. Auxiliary function of C 1 (upper bound function) to minimize this function
を用いる。ここで
である。このときC1
+が補助関数になっていることは
Is used. here
Is. At this time, the fact that C 1 + is an auxiliary function
を満たすことから確認できる。また、式(16)、(17) の等号成立条件はそれぞれ It can be confirmed by satisfying. In addition, the conditions for establishing the equal sign in equations (16) and (17) are different, respectively.
である。目的関数C1 は次の二つの更新を繰り返すことで間接的に最小化される。 Is. The objective function C 1 is indirectly minimized by repeating the following two updates.
1. 式(18)、(19) を用いてC1
+を
について最小化、
1. Using equations (18) and (19), C 1 +
Minimize about,
2. C1
+ を
について最小化.
2. C 1 +
Minimize about.
二番目の更新は
の要素ごとに偏微分が0 になるように行う。
The second update is
The partial differential is set to 0 for each element of.
ここで
とした。
here
And said.
<
の更新>
<
Update>
式(10) から
に関する項だけを取り出すと
From equation (10)
If you take out only the section about
となる。ここでwj(f) は
のj 番目の列ベクトル、
である。前述の通り、
を固定したとき、式(10) は残響除去された混合信号y(f, n) の瞬時分離問題である。このことから、分離行列
に関する更新は、従来の優決定BSS で用いられていた手法を使うことができる。例えば自然勾配法、FastICA(FICA) や反復射影法(IP) などである。ここではIP を用いた導出を行う。
Will be. Where w j (f) is
Jth column vector,
Is. As mentioned above
When fixed, Eq. (10) is the instantaneous separation problem of the reverberated mixed signal y (f, n). From this, the separation matrix
Updates can use the techniques used in traditional dominant BSS. For example, the natural gradient method, FastICA (FICA) and iterative projection method (IP). Here, the derivation using IP is performed.
IP は
の列ベクトルごとに更新するブロック座標降下型アルゴリズムである。
IP is
It is a block coordinate descent type algorithm that updates each column vector of.
を
の複素共役
で偏微分し、それを0 とすると
of
Complex conjugate of
Partially differentiate with, and set it to 0
となる。行列式に関する微分
を用いることで式(23) は次のように変形できる。
Will be. Derivatives for determinants
By using, Eq. (23) can be transformed as follows.
このとき、式(24)、(25)からの解は、 At this time, the solutions from equations (24) and (25) are
を全てのf、 j について行うことで得られる。ej はM×M 単位行列Iのj 列ベクトルである。 Is obtained by doing for all f and j. e j is a j-column vector of the M × M identity matrix I.
<
の更新>
<
Update>
式(10) から
に関する項だけを取り出すと
From equation (10)
If you take out only the section about
となる。ここで
であり、
を零行列とする。
Will be. here
And
Let be a zero matrix.
式(28) から明らかに、全てのf について
が互いに依存している。
を独立に更新するために、
を次のようにベクトル化し、式変形を行う。
Obviously from equation (28) for all f
Are dependent on each other.
To update independently
Is vectorized as follows, and the formula is transformed.
ここで
は
のm番目の列ベクトルである。g(f) を用いて、式(28) の
は
here
teeth
The mth column vector of. Using g (f), Eq. (28)
teeth
と書き換えられる。ここで Is rewritten as. here
はクロネッカー積である。式(28) に式(31) を代入すると、目的関数は
Is the Kronecker product. Substituting Eq. (31) into Eq. (28), the objective function becomes
となる。以上より
について最小化する更新を求めればよいが、式(33) は
に関する二次式となるため偏微分が0 になるように更新すればよく、
Will be. From the above
You can ask for an update that minimizes about, but Eq. (33)
Since it is a quadratic equation with respect to, it should be updated so that the partial derivative becomes 0.
となる。 Will be.
<全体の更新式>
以上より、提案手法の更新式をまとめると次のようになる。
<Overall update formula>
From the above, the update formula of the proposed method can be summarized as follows.
Step1)
の初期値を設定する。
Step1)
Set the initial value of.
Step2) 式(20)、(21)に従って各周波数f、各時刻n、各構成音jについて
の要素を更新する。
Step2) For each frequency f, each time n, and each constituent sound j according to equations (20) and (21).
Update the element of.
Step3) 式(26)、(27)に従って、各周波数f、各構成音jについて
の要素を更新する。
Step3) For each frequency f and each constituent sound j according to equations (26) and (27)
Update the element of.
Step4) 式(34)に従って、各周波数fについて
の要素を更新する。
Step4) For each frequency f according to equation (34)
Update the element of.
収束するまで、Step2)~Step4)を繰り返す。 Repeat Step 2) to Step 4) until it converges.
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
<Structure of the signal analysis device according to the embodiment of the present invention>
Next, the configuration of the signal analysis device according to the embodiment of the present invention will be described. As shown in FIG. 1, the
入力部10は、複数の構成音が混じっている混合信号(以後、観測信号)の時系列データを受け付ける。
The
演算部20は、時間周波数展開部24と、パラメータ推定部36と、を含んで構成されている。
The
時間周波数展開部24は、観測信号の時系列データに基づいて、各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
The time
パラメータ推定部36は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムに基づいて、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、分離行列と、残響除去フィルタとを推定する。
The
具体的には、パラメータ推定部36は、初期値設定部40、パラメータ更新部42、分離行列更新部44、残響除去フィルタ更新部46、及び収束判定部48を備えている。
Specifically, the
初期値設定部40は、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、分離行列と、残響除去フィルタとに初期値を設定する。
The initial
パラメータ更新部42は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(15)式に示す補助関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを更新する。
The
具体的には、上記(15)式に示す補助関数を小さくするように、上記(20)式、(21)式に従って、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを要素毎に更新する。 Specifically, according to the above equations (20) and (21), the basis spectrum of each constituent sound and each basis, and the basis spectrum of each constituent sound and each basis so as to reduce the auxiliary function shown in the above equation (15). Update the activation parameters at each time element by element.
分離行列更新部44は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、更新された基底スペクトル及びアクティベーションパラメータと、前回更新された、又は初期値が設定された、分離行列及び残響除去フィルタとに基づいて、上記(10)式に示す目的関数を小さくするように、上記(26)式、(27)式に従って、分離行列を更新する。
The
残響除去フィルタ更新部46は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、更新された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタに基づいて、上記(10)式に示す目的関数を小さくするように、上記(34)式に従って、残響除去フィルタを更新する。
The reverberation removal
収束判定部48は、収束条件を満たすか否かを判定し、収束条件を満たすまで、パラメータ更新部42における更新処理と、分離行列更新部44における更新処理と、残響除去フィルタ更新部46における更新処理とを繰り返させる。
The
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(10)式の目的関数の値と前回の目的関数の値との差分が、予め定められた閾値以下であることを用いることができる。 As the convergence condition, for example, it can be used that the number of repetitions has reached the upper limit. Alternatively, as the convergence condition, it can be used that the difference between the value of the objective function in the above equation (10) and the value of the previous objective function is equal to or less than a predetermined threshold value.
出力部90は、パラメータ推定部36において取得した、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを出力する。
The
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。
<Operation of the signal analysis device according to the embodiment of the present invention>
Next, the operation of the
入力部10において、各構成音が混在した観測信号の時系列データを受け付けると、信号解析装置100は、図2に示すパラメータ推定処理ルーチンを実行する。
When the
まず、ステップS120では、観測信号の時系列データに基づいて、各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムを計算する。 First, in step S120, an amplitude spectrogram or a power spectrogram representing a spectrum at each time is calculated based on the time series data of the observed signal.
ステップS122では、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、分離行列と、残響除去フィルタとに初期値を設定する。 In step S122, initial values are set in the base spectrum of each constituent sound and each basis, the activation parameter at each time of each constituent sound and each basis, the separation matrix, and the reverberation removal filter.
ステップS124では、パラメータ更新部42は、上記ステップS120で計算された観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(15)式に示す補助関数を小さくするように、上記(20)式、(21)式に従って、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを要素毎に更新する。
In step S124, the
ステップS126では、分離行列更新部44は、上記ステップS120で計算された観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(10)式に示す目的関数を小さくするように、上記(26)式、(27)式に従って、分離行列を更新する。
In step S126, the separation
ステップS128では、残響除去フィルタ更新部46は、上記ステップS120で計算された観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(10)式に示す目的関数を小さくするように、上記(34)式に従って、残響除去フィルタを更新する。
In step S128, the reverberation removal
次に、ステップS130では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS132へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124~ステップS128の処理を繰り返す。 Next, in step S130, it is determined whether or not the convergence condition is satisfied. If the convergence condition is satisfied, the process proceeds to step S132, and if the convergence condition is not satisfied, the process proceeds to step S124, and the processes of steps S124 to S128 are repeated.
ステップS132では、上記ステップS124で最終的に更新された各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを、出力部90から出力して、パラメータ推定処理ルーチンを終了する。
In step S132, the base spectrum of each constituent sound and each basis finally updated in step S124, and the activation parameter at each time of each constituent sound and each base are output from the
<実験例>
本実施の形態の手法の有効性を確認するため、ATR speech database の男性話者と女性話者の声を用いて実験を行った。音源数を2、 マイク数を4 として、インパルス応答を畳み込むことで高残響(0.6 sec) な状況の混合信号を生成した。比較対象として従来のDMNMF をベースラインとした。図3にその結果を示す。提案手法が他手法に比べて高い分離性能を得られていることが確認できる。
<Experimental example>
In order to confirm the effectiveness of the method of this embodiment, an experiment was conducted using the voices of male and female speakers in the ATR speech database. By convolving the impulse response with 2 sound sources and 4 microphones, a mixed signal with high reverberation (0.6 sec) was generated. The conventional DMNMF was used as the baseline for comparison. The result is shown in FIG. It can be confirmed that the proposed method has obtained higher separation performance than other methods.
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定することにより、高残響下であっても、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。 As described above, according to the signal analysis apparatus according to the embodiment of the present invention, the base spectrum of each constituent sound, the activation parameter representing the volume of each constituent sound and each base at each time, and each in the time frequency region. A separation matrix for separating the mixed sound in which the constituent sounds are mixed into each constituent sound, and an objective function expressed using the signal obtained by separating the observation signal whose reverberation has been removed by using the reverberation removal filter into each constituent sound. High reverberation by estimating the base spectrum of each constituent sound and each base, the activation parameter at each time of each constituent sound and each base, the separation matrix, and the reverberation removal filter so as to make it smaller. Even so, each constituent sound can be accurately separated from the mixed signal in which each constituent sound is mixed.
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.
例えば、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。 For example, the order of the parameters to be updated is arbitrary, and is not limited to the order of the above embodiments.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。 Further, in the specification of the present application, the program has been described as a pre-installed embodiment, but the program can be stored in a computer-readable recording medium and provided, or provided via a network. It is also possible to do.
10 入力部
20 演算部
24 時間周波数展開部
36 パラメータ推定部
40 初期値設定部
42 パラメータ更新部
44 分離行列更新部
46 残響除去フィルタ更新部
48 収束判定部
90 出力部
100 信号解析装置
10
Claims (3)
各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定するパラメータ推定部
を含み、
前記パラメータ推定部は、
前記目的関数の上界関数である補助関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを更新するパラメータ更新部と、
前記目的関数を小さくするように、前記分離行列を更新する分離行列更新部と、
前記目的関数を小さくするように、前記残響除去フィルタを更新する残響除去フィルタ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新、前記分離行列更新部による更新、及び前記残響除去フィルタ更新部による更新を繰り返させる収束判定部と、
を含み、
前記目的関数は、以下の式で表わされる信号解析装置。
ただし、
であり、Nは時間フレームの総数を表し、
は、周波数fの分離行列を表し、(・) H は、ベクトルの複素共役転置であり、h j,k は、基底k及び構成音jの基底スペクトルを表し、u j,k は、構成音j及び基底kのアクティベーションパラメータを表し、s j (f,n)は、前記残響除去された観測信号を構成音jに分離した信号の時間フレームnの周波数fの成分を表す。 Using the observation signal, which is a mixture of each constituent sound, as an input
The base spectrum of each constituent sound, the activation parameter representing the volume of each constituent sound at each time, the separation matrix for separating the mixed sound in which each constituent sound is mixed in the time frequency region, and the separation matrix for each constituent sound. The base spectrum of each constituent sound and each base, and each constituent sound and each Includes a parameter estimator that estimates activation parameters at each base time, said separation matrix, and said reverberation filter.
The parameter estimation unit is
A parameter updater that updates the base spectrum of each constituent sound and each basis and the activation parameter at each time of each constituent sound and each basis so as to reduce the auxiliary function that is the upper bound function of the objective function.
A separation matrix updater that updates the separation matrix so as to make the objective function smaller,
A reverberation removal filter update unit that updates the reverberation removal filter so as to make the objective function smaller,
A convergence test unit that repeats the update by the parameter update unit, the update by the separation matrix update unit, and the update by the reverberation removal filter update unit until a predetermined convergence condition is satisfied.
Including
The objective function is a signal analysis device represented by the following equation .
However,
And N represents the total number of time frames
Represents a separation matrix of frequency f, (・) H is a complex conjugate transposition of a vector, h j and k represent the basis spectra of the basis k and the constituent sound j, and u j and k represent the constituent sounds. Represents the activation parameters of j and the basis k, and s j (f, n) represents the component of the frequency f of the time frame n of the signal obtained by separating the reverberation-removed observation signal into the constituent sounds j.
各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定する
ことを含み、
前記パラメータ推定部によって推定することでは、
パラメータ更新部が、前記目的関数の上界関数である補助関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを更新し、
分離行列更新部が、前記目的関数を小さくするように、前記分離行列を更新し、
残響除去フィルタ更新部が、前記目的関数を小さくするように、前記残響除去フィルタを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新、前記分離行列更新部による更新、及び前記残響除去フィルタ更新部による更新を繰り返させ、
前記目的関数は、以下の式で表わされる信号解析方法。
ただし、
であり、Nは時間フレームの総数を表し、
は、周波数fの分離行列を表し、(・) H は、ベクトルの複素共役転置であり、h j,k は、基底k及び構成音jの基底スペクトルを表し、u j,k は、構成音j及び基底kのアクティベーションパラメータを表し、s j (f,n)は、前記残響除去された観測信号を構成音jに分離した信号の時間フレームnの周波数fの成分を表す。 The parameter estimator uses the observation signal, which is a mixture of each constituent sound, as an input.
The base spectrum of each constituent sound, the activation parameter representing the volume of each constituent sound at each time, the separation matrix for separating the mixed sound in which each constituent sound is mixed in the time frequency region, and the separation matrix for each constituent sound. The base spectrum of each constituent sound and each base, and each constituent sound and each Estimate the activation parameters at each base time, the separation matrix, and the reverberation filter.
Including that
By estimating by the parameter estimation unit,
The parameter update unit updates the base spectrum of each constituent sound and each basis and the activation parameter at each time of each constituent sound and each basis so as to reduce the auxiliary function which is the upper bound function of the objective function. ,
The separation matrix update unit updates the separation matrix so as to make the objective function smaller.
The reverberation removal filter update unit updates the reverberation removal filter so as to make the objective function smaller.
The convergence test unit repeats the update by the parameter update unit, the update by the separation matrix update unit, and the update by the reverberation removal filter update unit until the predetermined convergence condition is satisfied.
The objective function is a signal analysis method represented by the following equation .
However,
And N represents the total number of time frames
Represents a separation matrix of frequency f, (・) H is a complex conjugate transposition of a vector, h j and k represent the basis spectra of the basis k and the constituent sound j, and u j and k represent the constituent sounds. Represents the activation parameters of j and the basis k, and s j (f, n) represents the component of the frequency f of the time frame n of the signal obtained by separating the reverberation-removed observation signal into the constituent sounds j.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018026316A JP7046636B2 (en) | 2018-02-16 | 2018-02-16 | Signal analyzers, methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018026316A JP7046636B2 (en) | 2018-02-16 | 2018-02-16 | Signal analyzers, methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019144320A JP2019144320A (en) | 2019-08-29 |
JP7046636B2 true JP7046636B2 (en) | 2022-04-04 |
Family
ID=67773253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018026316A Active JP7046636B2 (en) | 2018-02-16 | 2018-02-16 | Signal analyzers, methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7046636B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230087982A1 (en) * | 2020-02-26 | 2023-03-23 | Nippon Telegraph And Telephone Corporation | Signal processing apparatus, signal processing method, and program |
US20230370778A1 (en) * | 2020-10-15 | 2023-11-16 | Nippon Telegraph And Telephone Corporation | Acoustic signal enhancement apparatus, method and program |
WO2022168230A1 (en) | 2021-02-04 | 2022-08-11 | 日本電信電話株式会社 | Dereverberation device, parameter estimation device, dereverberation method, parameter estimation method, and program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045221A (en) | 2014-08-19 | 2016-04-04 | 日本電信電話株式会社 | Signal analysis device, method, and program |
-
2018
- 2018-02-16 JP JP2018026316A patent/JP7046636B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045221A (en) | 2014-08-19 | 2016-04-04 | 日本電信電話株式会社 | Signal analysis device, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2019144320A (en) | 2019-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101197407B1 (en) | Apparatus and method for separating audio signals | |
US9668066B1 (en) | Blind source separation systems | |
JP4556875B2 (en) | Audio signal separation apparatus and method | |
Scheibler et al. | Fast and stable blind source separation with rank-1 updates | |
CN111133511B (en) | sound source separation system | |
Kim et al. | Independent vector analysis: Definition and algorithms | |
JP6807029B2 (en) | Sound source separators and methods, and programs | |
JP7046636B2 (en) | Signal analyzers, methods, and programs | |
JP2002510930A (en) | Separation of unknown mixed sources using multiple decorrelation methods | |
JP2007526511A (en) | Method and apparatus for blind separation of multipath multichannel mixed signals in the frequency domain | |
KR102410850B1 (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
Nesta et al. | Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction | |
JP6448567B2 (en) | Acoustic signal analyzing apparatus, acoustic signal analyzing method, and program | |
US20040054528A1 (en) | Noise removing system and noise removing method | |
CN113823316B (en) | Voice signal separation method for sound source close to position | |
KR101243897B1 (en) | Blind Source separation method in reverberant environments based on estimation of time delay and attenuation of the signals | |
JP5807914B2 (en) | Acoustic signal analyzing apparatus, method, and program | |
JP6910609B2 (en) | Signal analyzers, methods, and programs | |
Oyabu et al. | Linear multichannel blind source separation based on time-frequency mask obtained by harmonic/percussive sound separation | |
JP4219611B2 (en) | Noise removal system and noise removal method | |
Golokolenko et al. | A fast stereo audio source separation for moving sources | |
Wake et al. | Semi-Blind speech enhancement basedon recurrent neural network for source separation and dereverberation | |
JP4714892B2 (en) | High reverberation blind signal separation apparatus and method | |
Smaragdis | Extraction of speech from mixture signals | |
Douglas et al. | Blind separation of acoustical mixtures without time-domain deconvolution or decorrelation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7046636 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |