JP2011164467A - Model estimation device, sound source separation device, and method and program therefor - Google Patents

Model estimation device, sound source separation device, and method and program therefor Download PDF

Info

Publication number
JP2011164467A
JP2011164467A JP2010028985A JP2010028985A JP2011164467A JP 2011164467 A JP2011164467 A JP 2011164467A JP 2010028985 A JP2010028985 A JP 2010028985A JP 2010028985 A JP2010028985 A JP 2010028985A JP 2011164467 A JP2011164467 A JP 2011164467A
Authority
JP
Japan
Prior art keywords
model
phase difference
sound source
probability
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010028985A
Other languages
Japanese (ja)
Other versions
JP5337072B2 (en
Inventor
Akiko Araki
章子 荒木
Tomohiro Nakatani
智広 中谷
Hiroshi Sawada
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010028985A priority Critical patent/JP5337072B2/en
Publication of JP2011164467A publication Critical patent/JP2011164467A/en
Application granted granted Critical
Publication of JP5337072B2 publication Critical patent/JP5337072B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound source separation device which correctly operates even if the number of sound sources is not known, and which attains sound source separation without any permutation problem between frequency components. <P>SOLUTION: A frequency domain conversion unit converts each observation signal of a time domain in each microphone to an observation signal spectrum of each frequency domain, and a phase difference calculation unit calculates a phase difference of the observation signal spectrum in each microphone. A model estimation unit sequentially applies the observation signal spectrum to a spectrum probability model for indicating distribution of a spectrum, and applies the phase difference between microphones to a phase difference probability model for indicating distribution of the phase difference, respectively, and calculates a model parameter of each probability model suitable for signal extraction and presence probability of each sound source, by using a predetermined evaluation function for evaluating each probability model. An effective sound source is extracted by using the model parameter of each probability model and the presence probability of each sound source, the observation signal spectrum is separated for each effective sound source by using a mask corresponding to the effective sound source. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、複数信号が混在している音響データからそれぞれの原信号を推定する音源分離技術に属し、特にそれぞれの原信号やそれらがどのように混ざったかの情報を用いずに、複数信号が混在している音響データのみからそれぞれの原信号を推定するブラインド音源分離技術に属するモデル推定装置、音源分離装置、それらの方法及びプログラムに関する。   The present invention belongs to a sound source separation technique for estimating each original signal from acoustic data in which a plurality of signals are mixed, and in particular, a plurality of signals are mixed without using information on each of the original signals and how they are mixed. The present invention relates to a model estimation device, a sound source separation device, a method and a program thereof belonging to a blind sound source separation technique for estimating each original signal from only the acoustic data being processed.

従来のブラインド音源分離技術(例えば非特許文献1)に基づいて構成された音源分離装置10を図9に示す。ある時刻tにおいてM個の音源から放音されノイズとともに混合された信号を2個のマイク#1、#2で観測し、   FIG. 9 shows a sound source separation device 10 configured based on a conventional blind sound source separation technique (for example, Non-Patent Document 1). At a certain time t, the signals emitted from the M sound sources and mixed with the noise are observed with the two microphones # 1 and # 2,

を得たとする。 Suppose that

まず、周波数領域変換部110において、上記時間領域の観測信号を短時間フーリエ変換により   First, in the frequency domain transform unit 110, the observation signal in the time domain is subjected to a short-time Fourier transform.

に変換する。nはフーリエ変換を行う時間フレームのインデックスであり、fは周波数成分のインデックスである。以後、断りのない場合、観測信号とは周波数領域の信号を指すとし、時間領域の観測信号の場合はそれを明記する。 Convert to n is an index of a time frame for performing Fourier transform, and f is an index of a frequency component. Hereinafter, when there is no notice, the observation signal indicates a frequency domain signal, and in the case of a time domain observation signal, it is specified.

ここで観測信号スペクトルは、   Here, the observed signal spectrum is

で表されると仮定する。ここで、hf,L,mは音源m(m=1、2、・・・、M)からマイクL(L=1、2)までの周波数応答、Sn,f,mは音源mの信号の周波数領域表現、n(=0,・・・,N−1)は時刻、 It is assumed that Here, h f, L, m is the frequency response from the sound source m (m = 1, 2,..., M) to the microphone L (L = 1, 2), and Sn, f, m is the sound source m. Frequency domain representation of signal, n (= 0, ..., N n -1) is time,

は周波数、fはサンプリング周波数、Fはサンプリング点数、を表す。 Represents frequency, f s is the sampling frequency, F is the number of sampling points, a.

音源分離を行うために、音源がスパースである、すなわち音源信号sn,f,mはまれにしか大きな値をとらず各時間周波数 (n,f)では高々1個の音源Sn,f,mのみが大きな値をとることを仮定する。これは、互いに異なる音声信号などで確認される性質である。これを仮定すると式(1)は、 In order to perform sound source separation, the sound source is sparse, that is, the sound source signal s n, f, m rarely takes a large value, and at most one sound source Sn , f, m at each time frequency (n, f) . Assume that only m takes a large value. This is a property confirmed by different audio signals. Assuming this, equation (1) becomes

と書ける。ここで、Sn,f,mは時間周波数 (n,f)にて支配的な音源信号である。 Can be written. Here, S n, f, m is a sound source signal dominant at the time frequency (n, f).

次に、位相差計算部120において、マイク#1とマイク#2における観測信号スペクトル間の位相差(マイク間位相差と呼ぶ)An,f=arg[Xn,f,1/Xn,f,2]を計算する。このマイク間位相差An,fは、信号の音源とマイクとの位置関係によって定まり、音源の位置が互いに異なっていれば、An,fは各音源固有の値をとる。 Next, in the phase difference calculation unit 120, the phase difference between the observed signal spectra in the microphone # 1 and the microphone # 2 (referred to as the inter-microphone phase difference) An, f = arg [ Xn, f, 1 / Xn, f, 2 ] is calculated. This inter-microphone phase difference An, f is determined by the positional relationship between the sound source of the signal and the microphone, and if the positions of the sound sources are different from each other, An, f takes a value specific to each sound source.

次に、位相差分類部31において、マイク間位相差An,fを周波数ごとにクラスタリングする。スパース性を仮定した式(2)より、音源mが支配的な時間周波数(n,f)では音源mに対応する位相差μn,f,mが、音源m´が支配的な時間周波数(n,f)では音源m´に対応する位相差μn,f,m´が求まっているため、位相差An,fをクラスタリングすると、各音源成分に対応するクラスタが形成される。ここで従来法では、クラスタリングでいくつのクラスタを作るかを指定するため、音源数保持部32から音源数Mを読み込み、位相差分類部31ではk-means法などを用いてクラスタリングを行う。クラスタリングは周波数ごとに行われるため、クラスタのインデックスと、そのクラスタに対応する音源のインデックスとの対応関係は、周波数ごとにばらばらである。例えば、ある周波数fでは1番目のクラスタが音源1に、2番目のクラスタが音源2に対応するが、別の周波数f´では1番目のクラスタが音源2に、2番目のクラスタに音源1に対応する、というように、クラスタと音源との対応関係がばらばらになってしまうことが一般的である。これをパーミュテーションの問題という。そこで、このパーミュテーションの問題を解決するために、パーミュテーション解決部33を設け、ここで全ての周波数についてクラスタインデックスと音源のインデックスとを揃え、クラスタと音源とが完全に一対一に対応するように整える。これは例えば次のように行われる。まず、各周波数において得られた各クラスタについて、そのクラスタ内の位相差An,fの平均値Afを求める。次に、平均値Afを周波数fで正規化したAf/2πfをクラスタリングし、同じ音源に対応する周波数成分をまとめる。これにより全ての周波数でクラスタインデックスと音源のインデックスを揃えることができる。最終的には、m番目のクラスタCには音源mに対応するAn,fの成分のみが含まれる。 Next, the phase difference classification unit 31 clusters the inter-microphone phase difference An, f for each frequency. From Equation (2) assuming sparseness , the phase difference μ n, f, m corresponding to the sound source m is the time frequency (n, f) where the sound source m is dominant, and the time frequency ( Since the phase difference μ n, f, m ′ corresponding to the sound source m is obtained at n, f), when the phase difference An, f is clustered, a cluster corresponding to each sound source component is formed. Here, in the conventional method, in order to specify how many clusters to create by clustering, the number of sound sources M is read from the sound source number holding unit 32, and the phase difference classification unit 31 performs clustering using the k-means method or the like. Since clustering is performed for each frequency, the correspondence between the cluster index and the sound source index corresponding to the cluster varies from frequency to frequency. For example, at a certain frequency f, the first cluster corresponds to the sound source 1 and the second cluster corresponds to the sound source 2, but at another frequency f ′, the first cluster becomes the sound source 2 and the second cluster becomes the sound source 1. In general, the correspondence between the cluster and the sound source is dispersed. This is called a permutation problem. Therefore, in order to solve this permutation problem, a permutation resolution unit 33 is provided. Here, the cluster index and the sound source index are aligned for all frequencies, and the cluster and the sound source completely correspond one to one. Arrange to do. This is performed, for example, as follows. First, for each cluster obtained at each frequency, an average value A f of the phase differences An, f within the cluster is obtained. Next, A f / 2πf obtained by normalizing the average value A f with the frequency f is clustered, and the frequency components corresponding to the same sound source are collected. This makes it possible to align the cluster index and the sound source index at all frequencies. Eventually, the m th cluster C m A n corresponding to the sound source m, contains only the component of f.

次に音源分離部40において、Cを参照し音源mに対応するクラスタを形成している時間周波数(n,f)では1を、それ以外の時間周波数(n,f)では0をとるマスクMn,f,mを作る。これを全ての音源mについて作る。更に、マスクMn,f,mを観測信号の1つ(ここではXn,f,1)に乗算し、分離信号Yn,f,mを得る。 Next, the sound source separation unit 40 refers to C m and takes 1 at the time frequency (n, f) forming a cluster corresponding to the sound source m, and 0 at other time frequencies (n, f). Make M n, f, m . This is made for all sound sources m. Furthermore, the mask M n, f, m is multiplied by one of the observation signals (here, X n, f, 1 ) to obtain a separated signal Y n, f, m .

n,f,m=Xn,f,1・Mn,f,m (3)
最後に、時間領域変換部150において、得られた分離信号Yn,f,mを時間領域信号に変換する。
Y n, f, m = X n, f, 1・ M n, f, m (3)
Finally, the time domain conversion unit 150 converts the obtained separated signal Y n, f, m into a time domain signal.

H.Sawada, S.Araki and S.Makino, "A two-stage frequency-domain blind source separation method for underdetermined convolutive mixtures", Proc. WASPAA2007, 2007, p.139-142H. Sawada, S. Araki and S. Makino, "A two-stage frequency-domain blind source separation method for underdetermined convolutive combination", Proc. WASPAA2007, 2007, p.139-142

上記のように従来の手法では、周波数間のパーミュテーションの問題が生じるため、それを解決することが不可欠である。しかし解決に際しては、パーミュテーション解決部33でよく用いられるAf/2πfのクラスタリングが、部屋の残響が多い場合やマイク間隔が広い場合にうまく動作しないという問題がある。すなわち、部屋の残響が多い場合にはマイク間位相差が周波数依存性を持つためにAf/2πfの値が各周波数で一定の値をとらず、Af/2πfのクラスタリングが困難になる。また、マイク間隔が広い場合には、An,f=arg[xn,f,1/xn,f,2]の計算において実際のマイク間位相差は±2πを超えるにもかかわらず、argの計算でAn,fの値が−2π≦An,f≦2πの範囲に押さえこまれるため、Af/2πfの値が各周波数で一定の値を取らず、Af/2πfのクラスタリングが困難になる。また、従来の手法では分離すべき音源数Mがわかっている必要があるため、音源数Mが未知の場合は適用が困難であった。 As described above, the conventional method has a problem of permutation between frequencies, and it is indispensable to solve it. However, when solving, there is a problem that the clustering of A f / 2πf, which is often used in the permutation resolution unit 33, does not work well when there is much room reverberation or when the microphone interval is wide. That is, without taking a constant value the value of A f / 2 [pi] f is at each frequency in order to have a phase difference depends on the frequency between microphone when the reverberation of the room is large, clustering A f / 2 [pi] f becomes difficult. When the microphone interval is wide, the actual phase difference between microphones exceeds ± 2π in the calculation of A n, f = arg [x n, f, 1 / x n, f, 2 ]. for calculated in a n of arg, the value of f is crowded pressing in the range of -2.pi. ≦ a n, f ≦ 2 [pi, the values of a f / 2 [pi] f is not take a constant value at each frequency, the a f / 2 [pi] f Clustering becomes difficult. In addition, since it is necessary to know the number M of sound sources to be separated in the conventional method, it is difficult to apply when the number M of sound sources is unknown.

本発明の目的は、音源数が未知であっても動作し、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離が可能なモデル推定装置及びそれを用いた音源分離装置を提供することにある。   An object of the present invention is to provide a model estimation device that operates even when the number of sound sources is unknown and can perform good sound source separation without causing the problem of permutation between frequency components, and a sound source separation device using the model estimation device There is to do.

本発明のモデル推定装置は、混合された複数の音源からの信号を複数個のマイクで観測し、混合された各音源の信号を抽出するモデル推定装置であり、周波数領域変換部と位相差計算部とモデル推定部とを備える。周波数領域変換部は、各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する。位相差計算部は、各マイクにおける観測信号スペクトル間の位相差(マイク間位相差)を計算する。モデル推定部は、前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタと各音源の存在確率を計算する。   The model estimation device of the present invention is a model estimation device that observes signals from a plurality of mixed sound sources with a plurality of microphones, and extracts the signals of each mixed sound source. And a model estimation unit. The frequency domain conversion unit converts the observation signal in the time domain of each microphone into an observation signal spectrum in the frequency domain. The phase difference calculation unit calculates a phase difference (observation phase difference between microphones) between observed signal spectra in each microphone. The model estimation unit sequentially applies the observed signal spectrum to a spectrum probability model indicating a spectrum distribution and the phase difference between microphones to a phase difference probability model indicating a phase difference distribution, and evaluates each probability model. Using a predetermined evaluation function, the model parameter of each probability model suitable for signal extraction and the existence probability of each sound source are calculated.

また、本発明の音源分離装置は、前記のモデル推定装置と信号分離部と時間領域変換部とを備える。信号分離部は、前記各音源の存在確率に基づき有効音源を抽出し、各確率モデルのモデルパラメタと各音源の存在確率に基づき計算した事後確率を用いて各有効音源に対応するマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する。時間領域変換部は、各有効音源ごとの前記分離信号を、時間領域の信号に変換する。   Further, a sound source separation device of the present invention includes the model estimation device, a signal separation unit, and a time domain conversion unit. The signal separation unit extracts an effective sound source based on the existence probability of each sound source, and creates a mask corresponding to each effective sound source using a model parameter of each probability model and a posteriori probability calculated based on the existence probability of each sound source. Then, a separated signal is generated by separating the observed signal spectrum for each effective sound source using the mask. The time domain conversion unit converts the separated signal for each effective sound source into a time domain signal.

本発明のモデル推定装置及びそれを用いた音源分離装置によれば、音源数が未知であっても動作し、かつ、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離をすることができる。   According to the model estimation apparatus of the present invention and the sound source separation apparatus using the model estimation apparatus, the sound source separation is performed without causing the problem of permutation between frequency components, even when the number of sound sources is unknown. be able to.

本発明のモデル推定装置100の構成例を示すブロック図。The block diagram which shows the structural example of the model estimation apparatus 100 of this invention. 本発明のモデル推定装置100の処理フロー例を示す図。The figure which shows the example of a processing flow of the model estimation apparatus 100 of this invention. 信号の周波数成分が同期する様子を示す図。The figure which shows a mode that the frequency component of a signal synchronizes. 本発明の音源分離装置200の構成例を示すブロック図。The block diagram which shows the structural example of the sound source separation apparatus 200 of this invention. 本発明の音源分離装置200の処理フロー例を示す図。The figure which shows the example of a processing flow of the sound source separation apparatus 200 of this invention. マスク生成部142により得られるマスクの例を示す図。The figure which shows the example of the mask obtained by the mask production | generation part 142. FIG. 図6において、m=4、5の場合の位相差パラメタ(平均値)の周波数特性とスペクトルパラメタの時間特性の例を示す図。In FIG. 6, the figure which shows the example of the frequency characteristic of a phase difference parameter (average value) in case of m = 4, 5, and the time characteristic of a spectrum parameter. 本発明のモデル推定装置200と従来の音源分離装置10との性能比較を示す図。The figure which shows the performance comparison of the model estimation apparatus 200 of this invention and the conventional sound source separation apparatus 10. FIG. 従来の音源分離装置10の構成例を示すブロック図。The block diagram which shows the structural example of the conventional sound source separation apparatus 10. FIG.

以下、本発明の実施の形態について、詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail.

図1に本発明のモデル推定装置100の構成例を示すブロック図を、図2にその処理フロー例を示す。モデル推定装置100は、ノイズとともに混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であり、周波数領域変換部110と位相差計算部120とモデル推定部130とを備える。   FIG. 1 is a block diagram showing a configuration example of the model estimation apparatus 100 of the present invention, and FIG. 2 shows a processing flow example thereof. The model estimation apparatus 100 is a model estimation apparatus that observes signals from a plurality of sound sources mixed with noise with a plurality of microphones, and extracts each of the mixed signals, and includes a frequency domain conversion unit 110 and a phase difference calculation unit. 120 and a model estimation unit 130.

周波数領域変換部110と位相差計算部120は従来の音源分離装置10と同様のものである。すなわち、ある時刻tにおいてM個の音源から放音され混合された信号を、2個のマイク#1、#2で観測することにより得られた   The frequency domain conversion unit 110 and the phase difference calculation unit 120 are the same as those of the conventional sound source separation device 10. In other words, it was obtained by observing a mixed signal emitted from M sound sources at a certain time t with two microphones # 1 and # 2.

を、周波数領域変換部110において短時間フーリエ変換により By the short-time Fourier transform in the frequency domain transform unit 110

に変換する(S1)。nはフーリエ変換を行うフレームのインデックスであり、fは周波数成分のインデックスである。位相差計算部120は、マイク#1の観測信号スペクトルとマイク#2の観測信号スペクトルの位相差(以下、「マイク間位相差」という。)An,f=arg[Xn,f,1/Xn,f,2]を計算する(S2)。 (S1). n is an index of a frame to be subjected to Fourier transform, and f is an index of a frequency component. The phase difference calculation unit 120 includes a phase difference between the observation signal spectrum of the microphone # 1 and the observation signal spectrum of the microphone # 2 (hereinafter referred to as “phase difference between microphones”) An, f = arg [ Xn, f, 1. / X n, f, 2 ] is calculated (S2).

以後、マイク#1の観測信号スペクトルをXn,fと表記し、これを説明に用いる。 Hereinafter, the observation signal spectrum of the microphone # 1 is denoted as X n, f and used for the description.

モデル推定部130は、マイク間位相差を位相差の分布を示す位相差確率モデルに、また、観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルにそれぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタ等を計算する(S3〜5)。   The model estimation unit 130 sequentially applies the phase difference between microphones to a phase difference probability model indicating a phase difference distribution and the observation signal spectrum to a spectrum probability model indicating a spectrum distribution, respectively, and evaluates each probability model. Using the evaluation function, model parameters and the like of each probability model suitable for signal extraction are calculated (S3-5).

位相差の分布を示す位相差確率モデル及びスペクトルの分布を示すスペクトル確率モデルは以下のようにモデル化されたものである。   The phase difference probability model indicating the phase difference distribution and the spectrum probability model indicating the spectrum distribution are modeled as follows.

音源の位置が固定で、かつ全ての音源のマイクから見た方向が異なる場合、マイク間位相差An,fはそれぞれの音源mごとに固有の値をとる。そのため、本発明では音源mに関するマイク間位相差An,fの分布を平均μf,m、分散σ2 f,mの正規分布で以下のようにモデル化する。 When the positions of the sound sources are fixed and the directions of all the sound sources viewed from the microphones are different, the inter-microphone phase difference An, f takes a unique value for each sound source m. Therefore, in the present invention, the distribution of the inter-microphone phase difference An, f with respect to the sound source m is modeled as a normal distribution with an average μ f, m and a variance σ 2 f, m as follows.

これを、位相差確率モデルと呼ぶ。なお、位相差の分布は周波数fごとに定義する。なお、Nは正規分布 This is called a phase difference probability model. The phase difference distribution is defined for each frequency f. N is a normal distribution

である。以上に基づき、位相差確率モデルのモデルパラメタを、
θ={μf,m2 f,m}
と表すことができる。
It is. Based on the above, the model parameters of the phase difference probability model are
θ A = {μ f, m , σ 2 f, m }
It can be expressed as.

また、観測信号スペクトルXn,fをモデル化するため、本発明では式(2)と同様に音源のスパース性を仮定する。加えて、記載の平易化のため、音源mからマイク1までの周波数応答|hf,1,m|=1、arg(hf,1,m)=0とする。これにより、式(2)は、 In addition, in order to model the observed signal spectrum X n, f , the present invention assumes the sparseness of the sound source as in the equation (2). In addition, for simplicity of description, it is assumed that the frequency response | h f, 1, m | = 1 from the sound source m to the microphone 1 and arg (h f, 1, m ) = 0. As a result, equation (2) becomes

と表すことができる。このような仮定を元に、観測信号スペクトルXn,fを平均値0、分散γ2 n,f,mの複素正規分布で以下のようにモデル化する。 It can be expressed as. Based on this assumption, the observed signal spectrum X n, f is modeled as a complex normal distribution with an average value of 0 and a variance γ 2 n, f, m as follows.

これをスペクトル確率モデルと呼ぶ。ここで、Nは複素正規分布 This is called a spectral probability model. Where N c is the complex normal distribution

である。またMは混合数であり、音源数が既知であればそれと同じ数を用い、音源数が未知であれば十分に大きな数(例えばM=10)を用いる。また、分散γ2 n,f,mは音源mのパワーの期待値E[|Sn,f,m|]を意味する量である。更に、γn,f,mを時間依存ではあるが周波数には依存しないスペクトル包絡ρn,mと時間・周波数の双方に依存するスペクトル形状an,f,mとを用いて、以下のようにモデル化する。 It is. M is the number of mixtures. If the number of sound sources is known, the same number is used, and if the number of sound sources is unknown, a sufficiently large number (for example, M = 10) is used. The variance γ 2 n, f, m is an amount that represents the expected value E [| S n, f, m | 2 ] of the power of the sound source m. Further, by using a spectral envelope ρ n, m that is time-dependent but not frequency-dependent for γ n, f, m and a spectrum shape an n, f, m that depends on both time and frequency, To model.

γn,f,m=an,f,m・ρn,m (7)
ここで、スペクトル包絡ρn,mは信号の周波数成分のオンセット(信号のパワーが強い成分の開始時点)やオフセット(信号のパワーが強い成分の終了時点)が、全ての周波数で同期する性質をモデル化している。図3に同期のイメージを示す。色が濃いほどパワーが強いことを示し、この図から各周波数成分のパワーが強くなっている部分がほぼ同じ時期に同期していることがわかる。また、本発明ではスペクトル形状an,f,mを観測信号スペクトルの振幅|Xn,f|で代用する。すなわち、an,f,m=|Xn,f|とする。以上に基づき、スペクトル確率モデルのモデルパラメタを
θ={ρ2 n,m}
と表すことができる。
γ n, f, m = a n, f, m・ ρ n, m (7)
Here, the spectral envelope ρ n, m is the property that the onset of the signal's frequency component (the start time of the component with strong signal power) and the offset (the end point of the component with strong signal power) are synchronized at all frequencies. Is modeled. FIG. 3 shows an image of synchronization. The darker the color, the stronger the power. From this figure, it can be seen that the portions where the power of each frequency component is strong are synchronized at almost the same time. In the present invention, the spectrum shape an , f, m is substituted by the amplitude | Xn, f | of the observed signal spectrum. That is, a n, f, m = | X n, f | Based on the above, the model parameters of the spectral probability model are set to θ X = {ρ 2 n, m }
It can be expressed as.

以上より、観測データ(マイク間位相差An,fと観測信号スペクトルXn,f)のモデルpn,f(Xn,f,An,f;θ)は、 From the above, the model pn, f (X n, f , A n, f ; θ) of the observation data (the phase difference An n, f between the microphones and the observation signal spectrum X n, f ) is

となる。ここで、αは音源mの存在確率p(m;θ)であり、Σα=1である。αを以下、混合重みと呼ぶ。また、pn,f(Xn,f,An,f|m;θ)は、マイク間位相差An,fと観測信号スペクトルXn,fが互いに独立であると仮定し、 It becomes. Here, α m is the existence probability p (m; θ) of the sound source m, and Σ m α m = 1. α m is hereinafter referred to as a mixture weight. Further, pn, f (X n, f , A n, f | m; θ) assumes that the inter-microphone phase difference An, f and the observed signal spectrum X n, f are independent from each other,

となる。ここで、wとwはそれぞれ、位相差の尤度に対する重みとスペクトルの尤度に対する重みである。 It becomes. Here, w a and w x are a weight for the likelihood of the phase difference and a weight for the likelihood of the spectrum, respectively.

モデル推定部130では、以上のようにモデル化された位相差確率モデル及びスペクトル確率モデルを用い、マイク間位相差An,fを位相差確率モデルに、また、観測信号スペクトルXn,fをスペクトル確率モデルにそれぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、事後確率(説明は後述する。)と信号抽出に適したパラメタ集合θ={θ}={μf,m2 f,m2 n,m}とを求める。 The model estimation unit 130 uses the phase difference probability model and the spectrum probability model modeled as described above, the inter-microphone phase difference An, f is used as the phase difference probability model, and the observation signal spectrum X n, f is obtained. Using a predetermined evaluation function that sequentially applies each spectrum probability model and evaluates each probability model, a posteriori probability (explained later) and a parameter set suitable for signal extraction θ = {θ A , θ X , α m } = {Μ f, m , σ 2 f, m , ρ 2 n, m , α m }

モデル推定部130は、事後確率計算部131とパラメタ更新部132とパラメタ保持部133とを備える。なお、モデル推定部130での処理に先立ち、パラメタ集合θ={μf,m2 f,m2 n,m}の初期値θをパラメタ保持部133に用意しておき、また、パラメタ更新回数インデックスtの初期値、混合数M、及びパラメタ更新回数の最大値T又は収束判定の閾値Δを設定しておく(S0)。なお、モデル推定部130での処理の前であればいつ行っても構わない。 The model estimation unit 130 includes a posterior probability calculation unit 131, a parameter update unit 132, and a parameter holding unit 133. Prior to processing by the model estimation unit 130, an initial value θ 0 of the parameter set θ = {μ f, m , σ 2 f, m , ρ 2 n, m , α m } is prepared in the parameter holding unit 133. In addition, the initial value of the parameter update count index t, the mixing number M, the maximum parameter update count T, or the threshold value Δ for convergence determination is set (S0). Note that it may be performed at any time before the process in the model estimation unit 130.

事後確率計算部131は、観測信号スペクトルXn,fとマイク間位相差An,fと、パラメタ保持部に記憶された現在のパラメタ集合θ={μt f,m,(σ2 f,m)t,(ρ2 n,m)tt }とから、事後確率pmn,f、すなわちマイク間位相差An,fと観測信号スペクトルXn,fとが各時間周波数(n,f)において各音源mからの信号によるものである確率を以下のように計算する(S3)。 The posterior probability calculation unit 131 uses the observed signal spectrum X n, f , the phase difference An n, f between microphones , and the current parameter set θ t = {μ t f, m , (σ 2 f , m ) t , (ρ 2 n, m ) t , α t m }, the a posteriori probability pm n, f , that is, the inter-microphone phase difference An n, f and the observed signal spectrum X n, f The probability that it is due to the signal from each sound source m at (n, f) is calculated as follows (S3).

ここで、wとwは例えばw=1.0、w=0.2などを用いる。 Here, w a and w x is for example w a = 1.0, the like w x = 0.2.

パラメタ更新部132は、スペクトルパラメタ更新手段132aと位相差パラメタ更新手段132bと混合重み更新手段132cとを備え、現在のパラメタ集合θをθt+1に更新する(S4)。 The parameter update unit 132 includes a spectrum parameter update unit 132a, a phase difference parameter update unit 132b, and a mixture weight update unit 132c, and updates the current parameter set θ t to θ t + 1 (S4).

スペクトルパラメタ更新手段132aは、事後確率pmn,fを用いてスペクトル確率モデルのモデルパラメタ(ρ2 n,m)tを、次の計算により更新する(S4−1)。 The spectrum parameter updating unit 132a updates the model parameter (ρ 2 n, m ) t of the spectrum probability model using the posterior probability pm n, f by the following calculation (S4-1).

ここで、Nは周波数成分の数である。 Here, N f is the number of frequency components.

位相差パラメタ更新手段132bは、事後確率pmn,fとマイク間位相差An,fとを用いて位相差確率モデルのモデルパラメタθ ={μt f,m,(σ2 f,m)t}を、次の計算により更新する(S4−2)。 The phase difference parameter updating means 132b uses the posterior probability pm n, f and the inter-microphone phase difference An, f to model parameter θ A t = {μ t f, m , (σ 2 f, m ) t } is updated by the following calculation (S4-2).

混合重み計算手段132cは、事後確率pmn,fを用いて混合重みα を次の計算により更新する(S4−3)。 The mixture weight calculation unit 132c updates the mixture weight α t m by the following calculation using the posterior probability pm n, f (S4-3).

ここで、Nは時間フレームの数である。 Here, N n is the number of time frames.

パラメタ更新部132における各更新式(11)〜(14)の導出根拠を説明する。パラメタ更新はEMアルゴリズムを導出してそれに基づき行う。なお、正規分布のインデックスmはEMアルゴリズムにおける隠れ変数として扱う。まず、最尤推定のためのコスト関数L(θ)は次のように与えられる。   The basis for deriving each update formula (11) to (14) in the parameter update unit 132 will be described. The parameter update is performed based on the EM algorithm. The normal distribution index m is treated as a hidden variable in the EM algorithm. First, the cost function L (θ) for maximum likelihood estimation is given as follows.

ここで、p(m|θ)は混合重みαであり、pn,f(Xn,f,An,f|m;θ)は式(9)の通りである。
また、wとwはそれぞれ、位相差との尤度とスペクトルの尤度に対する重みである。そして、EMアルゴリズムで用いる評価関数(Q関数)は次のように与えられる。
Here, p (m | θ) is the mixture weight α m , and pn, f (X n, f , A n, f | m; θ) is as shown in Equation (9).
W a and w x are weights for the likelihood of the phase difference and the likelihood of the spectrum, respectively. The evaluation function (Q function) used in the EM algorithm is given as follows.

このQ関数はオンセットとオフセットが同期するスペクトル包絡が1つのクラスタにクラスタリングされているほど高い評価値を与える。すなわち、それぞれの信号について、各周波数成分の強弱がより同期しているほど信号抽出により適するという評価を与える。
更新後のパラメタ集合θt+1={μt+1 f,m,(σ2 f,m)t+1,(ρ2 n,m)t+1t+1 }は、このQ関数を最大にするものとして推定される。すなわち、スペクトル確率モデルのモデルパラメタ(ρ2 n,m)t+1を求める式(11)は、
This Q function gives a higher evaluation value as the spectral envelope in which the onset and the offset are synchronized is clustered into one cluster. That is, for each signal, an evaluation is given that it is more suitable for signal extraction as the strength of each frequency component is more synchronized.
The updated parameter set θ t + 1 = {μ t + 1 f, m , (σ 2 f, m ) t + 1 , (ρ 2 n, m ) t + 1 , α t + 1 m } Estimated to maximize the Q function. That is, the equation (11) for obtaining the model parameter (ρ 2 n, m ) t + 1 of the spectral probability model is

により導出され、位相差確率モデルのモデルパラメタμt+1 f,m、(σ2 f,m)t+1を求める式(12)、(13)はそれぞれ、 Equations (12) and (13) for obtaining model parameters μ t + 1 f, m and (σ 2 f, m ) t + 1 of the phase difference probability model

により導出され、混合重みαt+1 を求める式(14)は、 Equation (14) for obtaining the mixture weight α t + 1 m derived from

により導出される。 Is derived by

パラメタ保持部133は、パラメタ更新部132での更新処理により得られたパラメタ集合θt+1を保存し、事後確率推定部131及びパラメタ更新部132での次回の処理の際にパラメタ集合θとして提供する。 Parameter holding unit 133 stores the parameter set theta t + 1 obtained by the update processing in the parameter update unit 132, a parameter set theta t at the next process in the posterior probability estimation unit 131 and the parameter updating unit 132 As offered.

モデル推定部130における、事後確率計算部131、パラメタ更新部132(及びパラメタ保持部133への更新データの読み書き)は、事前に設定したパラメタ更新回数の最大値Tに達するか、又は各パラメタ値の更新による変動幅が収束判定の閾値Δより小さくなるまで反復して行う。そして、モデル推定部130は、反復終了後のパラメタ集合θ={μe f,m,(σe f,m)2,(ρe n,m)2e }及びその時点での事後確率pm n,fを出力する。 In the model estimation unit 130, the posterior probability calculation unit 131 and the parameter update unit 132 (and the read / write of update data to the parameter holding unit 133) reach the maximum parameter update count T set in advance, or each parameter value This is repeated until the fluctuation range due to updating becomes smaller than the threshold value Δ for convergence determination. The model estimation unit 130 then sets the parameter set θ e = {μ e f, m , (σ e f, m ) 2 , (ρ e n, m ) 2 , α e m } after the iteration and at that time. The posterior probability pm e n, f of is output.

実施例1で説明したモデル推定装置100に、図4に示すように信号分離部140と時間領域変換部150とを追加することで音源分離装置200を構成することができる。また、処理フローを図5に示す。   The sound source separation device 200 can be configured by adding a signal separation unit 140 and a time domain conversion unit 150 to the model estimation device 100 described in the first embodiment as illustrated in FIG. The processing flow is shown in FIG.

信号分離部140は、有効音源推定部141とマスク作成部142と分離信号作成部143とを備え、観測信号スペクトルXn,fから各音源の信号を分離する(S6)。 The signal separation unit 140 includes an effective sound source estimation unit 141, a mask creation unit 142, and a separated signal creation unit 143, and separates the signal of each sound source from the observed signal spectrum X n, f (S6).

有効音源推定部141は、計算に用いた混合数M個の各インデックスmのうち、実際に存在する音源(以下、「有効音源」という。)のインデックスを抽出する。具体的には、音源数が既知であり混合数M=音源数である場合には、全てのインデックスmを出力する。音源数が未知である場合には、更新後の混合重みαe のうち、十分大きな値(例えばαe >ε(εは10−6など))を満たすmを有効音源と判定し、そのmを全て出力する。 The effective sound source estimation unit 141 extracts an index of a sound source that actually exists (hereinafter, referred to as “effective sound source”) from the M indexes of the number of mixtures M used in the calculation. Specifically, when the number of sound sources is known and the number of mixing M = the number of sound sources, all indexes m are output. If the number of sound sources is unknown, m that satisfies a sufficiently large value (for example, α e m > ε (ε is 10 −6 or the like)) among the updated mixture weight α e m is determined as an effective sound source, Output all m.

マスク作成部142は、有効音源として出力した音源のインデックスmに対応するそれぞれの音源を抽出するマスクMn,f,mを作成する。マスクMn,f,m
更新後の事後確率pm n,fを用いて、
n,f,m=pm n,f (17)
により求めることができる。
The mask creation unit 142 creates a mask M n, f, m for extracting each sound source corresponding to the index m of the sound source output as an effective sound source. The mask M n, f, m uses the updated posterior probability pm e n, f ,
M n, f, m = pm e n, f (17)
It can ask for.

分離信号作成部143は、マスクMn,f,mを観測信号スペクトルXn,fに乗算し、分離信号Yn,f,mを計算する。 Separation signal generator 143 multiplies the mask M n, f, a m observed signal spectrum X n, the f, to calculate the separation signal Y n, f, m.

n,f,m=Xn,f・Mn,f,m (18)
最後に時間領域変換部150において、分離信号Yn,f,mを音源mごとに時間領域信号ym(t)に変換して出力する。
Y n, f, m = X n, f · M n, f, m (18)
Finally, the time domain conversion unit 150 converts the separated signal Y n, f, m into a time domain signal y m (t) for each sound source m and outputs it.

以上、実施例1、2で説明したモデル推定装置100及び音源分離装置200により、音源数が未知であっても有効音源を抽出することができ、周波数成分間のパーミュテーションの問題を生ずることなく良好に音源分離をすることができる。その理由を説明する。   As described above, the model estimation apparatus 100 and the sound source separation apparatus 200 described in the first and second embodiments can extract an effective sound source even when the number of sound sources is unknown, and cause a problem of permutation between frequency components. The sound source can be separated well without any problems. The reason will be explained.

・有効音源を抽出できる理由
スペクトルのモデルをあらわす式(6)は、少ない数のクラスタが大きい分散を持っている方が、その尤度が大きくなることを示している。すなわち、式(6)は観測信号をなるべく少数のクラスタで説明する効果を持つ。これにより、有効音源に相当するインデックスmに対応する混合重みαのみが大きな値を持ち、その他のインデックスm´に対応する混合重み(α´)は限りなく0に近くなるため、これにより有効音源を抽出することができる。
-Reason why effective sound source can be extracted Equation (6), which represents a spectrum model, shows that the likelihood is larger when a small number of clusters have a large variance. That is, Equation (6) has the effect of explaining the observation signal with as few clusters as possible. As a result, only the mixing weight α m corresponding to the index m corresponding to the effective sound source has a large value, and the mixing weight (α m ′) corresponding to the other index m ′ is infinitely close to 0. An effective sound source can be extracted.

・パーミュテーションの問題が生じない理由
評価関数である式(16)の第一項の最大化は、各周波数における位相差クラスタリングによる分離と解釈でき、第二項の最大化は、オンセットやオフセットが同期するスペクトル包絡のクラスタリングと解釈できる。すなわち、式(16)は第二項の最大化により、周波数ごとのパーミュテーションの問題を本質的に生じさせないようにしながら、第一項で分離を行える構成となっている。
Reason why permutation problem does not occur Maximization of the first term of the evaluation function (16) can be interpreted as separation by phase difference clustering at each frequency. It can be interpreted as clustering of spectral envelopes with synchronized offsets. That is, Equation (16) has a configuration in which separation can be performed with the first term while essentially preventing the problem of permutation for each frequency by maximizing the second term.

上記の各実施例では、スペクトル形状an,f,mを観測信号スペクトルの振幅|Xn,f|で代用したが、スペクトル形状を時間に依存しないパラメタaf,mとしてモデルパラメタθに含め、スペクトルパラメタ更新手段132aで計算してもよい。この場合、スペクトルパラメタ更新手段132aでは以下の式(19)〜(21)の計算を行う。 In each of the above embodiments, the spectrum shape an , f, m is substituted with the amplitude | Xn, f | of the observed signal spectrum, but the spectrum shape is included in the model parameter θ as a parameter af , m that does not depend on time. The spectrum parameter updating unit 132a may calculate the value. In this case, the spectrum parameter updating unit 132a calculates the following equations (19) to (21).

ここで、式(20)はaf,mとρn,mのスケーリングの不定性を解消するために、Σff,m=1の制約を与えたものである。 Here, equation (20) are those given a f, in order to eliminate the scaling ambiguity m and [rho n, m, a Σ f a f, m = 1 constraint.

上記の各実施例では、マイクが2個の場合、すなわちマイク間位相差としてマイク#1とマイク#2との位相差An,f=arg[Xn,f,1/Xn,f,2]を用いたが、2個以上のマイクを用いることもできる。すなわち、マイク#jとマイクj´における観測信号の位相差Ajj'n,f=arg[Xn,f,j/Xn,f,j']を全てのマイクペアについて並べた縦ベクトルを考えて、マイク間位相差をモデル化することもできる。この場合、式(4)を複数マイクに拡張し、音源mに係るマイク間位相差の分布を、 In each of the embodiments described above, when there are two microphones, that is, as the phase difference between microphones, the phase difference An, f = arg [ Xn, f, 1 / Xn, f, 2 ] is used, but two or more microphones can be used. That is, consider a vertical vector in which the phase difference A jj′n, f = arg [X n, f, j / X n, f, j ′ ] of observation signals between microphones #j and j ′ is arranged for all microphone pairs. Thus, the phase difference between microphones can be modeled. In this case, the expression (4) is expanded to a plurality of microphones, and the distribution of the phase difference between the microphones related to the sound source m is

でモデル化する。この時、位相差パラメタ更新手段132bでは、 Model with. At this time, the phase difference parameter updating unit 132b

を計算する。 Calculate

<発明の効果>
本発明の効果を確認するため、従来法及び本発明の方法で音源分離の実験を行った。音源数・マイク数はともに2とした。また、サンプリング周波数は8kHz、マイク間隔は4cm及び20cmである。発明法において、混合数M=8とした。一方、従来法としてはk−means法を用いてマイク間位相差のクラスタリングを行った。k−means法で与える音源数(=クラスタリング数)は、発明法の混合数と同じくk=8とした。
<Effect of the invention>
In order to confirm the effect of the present invention, a sound source separation experiment was performed using the conventional method and the method of the present invention. The number of sound sources and the number of microphones were both 2. The sampling frequency is 8 kHz, and the microphone intervals are 4 cm and 20 cm. In the invention method, the mixing number M was set to 8. On the other hand, clustering of the phase difference between microphones was performed using the k-means method as a conventional method. The number of sound sources (= clustering number) given by the k-means method was set to k = 8 similarly to the number of mixtures in the inventive method.

図6は、混合数M=8を仮定して本発明の方法を用いた時に得られるマスクMn,f,m=pm n,fをm=1〜8のそれぞれ場合についてプロットしたものである。図6より、本発明の方法では2つの信号に対するマスクが大きなパワーを持つことがわかる。この結果と式(14)により有効音源の抽出が可能であることがわかる。 6, the mask M n obtained when using the method of assuming the present invention a mixed number M = 8, f, m = pm e n, the f plots for each case of m = 1 to 8 is there. From FIG. 6, it can be seen that the mask for two signals has a large power in the method of the present invention. This result and equation (14) show that an effective sound source can be extracted.

図7は、図6のm=4とm=5について、得られた位相差確率モデルのモデルパラメタのうちμf,m(図7(a))の周波数特性と、スペクトル確率モデルのモデルパラメタρn,m(図7(b))の時間特性を示したものである。図7(a)より、線形位相特性を持つパラメタμf,mが得られていることがわかる。また、図7(b)より、信号のスペクトル包絡がスペクトルパラメタρn,mにより得られていることがわかる。 FIG. 7 shows the frequency characteristics of μ f, m (FIG. 7A) and the model parameters of the spectral probability model among the model parameters of the obtained phase difference probability model for m = 4 and m = 5 in FIG. The time characteristic of ρ n, m (FIG. 7 (b)) is shown. FIG. 7A shows that a parameter μ f, m having a linear phase characteristic is obtained. Further, FIG. 7 (b) shows that the spectral envelope of the signal is obtained by the spectral parameter ρ n, m .

図8は、20通りの音声組み合わせについて音源分離性能(信号対妨害音比(Signal to interference ratio: SIR)と信号対歪比(Signal to distortion ratio: SDR))を評価し、その平均を求めたものである。図8において、k−meansが従来法の、proposedが本発明の方法の性能を示す。本発明の方法では従来法より高い分離性能が得られることがわかる。   FIG. 8 shows the evaluation of the sound source separation performance (Signal to interference ratio (SIR) and Signal to distortion ratio (SDR)) of 20 kinds of voice combinations, and the average was obtained. Is. In FIG. 8, k-means indicates the performance of the conventional method, and proposed indicates the performance of the method of the present invention. It can be seen that the method of the present invention provides higher separation performance than the conventional method.

以上のモデル推定装置及び音源分離装置をコンピュータによって実現する場合、割当制御部が担う処理機能はプログラムによって記述される。そしてパソコンや携帯端末上で、入力手段や各種記憶手段とCPUとのデータのやりとりを通じてこのプログラムを実行することにより、ハードウェアとソフトウェアが協働し、上記処理機能がコンピュータ上で実現されて本発明のモデル推定装置及び音源分離装置の作用効果を奏する。なおこの場合、処理機能の少なくとも一部をハードウェア的に実現することとしてもよい。また、上記の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   When the above model estimation device and sound source separation device are realized by a computer, the processing functions performed by the assignment control unit are described by a program. By executing this program on the personal computer or portable terminal through the exchange of data between the input means and various storage means and the CPU, the hardware and software cooperate to realize the above processing functions on the computer. The effects of the model estimation device and the sound source separation device of the invention are exhibited. In this case, at least a part of the processing function may be realized by hardware. Further, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

Claims (9)

混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換部と、
各マイクにおける観測信号スペクトル間の位相差(以下、「マイク間位相差」という。)を計算する位相差計算部と、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定部と、
を備えるモデル推定装置。
A model estimation device for observing signals from a plurality of mixed sound sources with a plurality of microphones and extracting each mixed signal,
A frequency domain conversion unit that converts the observation signal in the time domain of each microphone into an observation signal spectrum in the frequency domain;
A phase difference calculation unit for calculating a phase difference between observation signal spectra in each microphone (hereinafter referred to as “phase difference between microphones”);
A predetermined evaluation function for evaluating each probability model is obtained by sequentially applying the observed signal spectrum to a spectrum probability model indicating a spectrum distribution and the phase difference between microphones to a phase difference probability model indicating a phase difference distribution. A model estimator that calculates model parameters for each probability model suitable for signal extraction,
A model estimation device comprising:
請求項1に記載のモデル推定装置であって、
前記評価関数は、それぞれの信号について、各周波数成分の強弱がより同期しているほど、信号抽出により適するという評価を与える
ことを特徴とするモデル推定装置。
The model estimation apparatus according to claim 1,
The model estimation apparatus according to claim 1, wherein the evaluation function gives an evaluation that each signal is more suitable for signal extraction as the strength of each frequency component is more synchronized.
請求項1又は2に記載のモデル推定装置であって、
前記モデル推定部は、
前記観測信号スペクトルと前記マイク間位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率(以下、「混合重み」という。)とから、当該観測信号スペクトルと当該マイク間位相差とが各時間周波数において各音源からの信号によるものである確率(以下、「事後確率」という。)を計算する事後確率計算部と、
前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新手段と、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新手段と、前記事後確率を用いて前記混合重みを更新する混合重み更新手段と、を備えるパラメタ更新部と、
前記パラメタ更新部で更新した、各モデルパラメタと混合重みを記憶するパラメタ保持部と、
を備える
ことを特徴とするモデル推定装置。
The model estimation apparatus according to claim 1 or 2,
The model estimation unit includes:
The observed signal spectrum, the phase difference between the microphones, the model parameter of the phase difference probability model, the model parameter of the spectrum probability model, and the existence probability of each sound source (hereinafter referred to as “mixing weight”) stored in the parameter holding unit )), The posterior probability calculation unit for calculating the probability that the observed signal spectrum and the phase difference between the microphones are due to signals from each sound source at each time frequency (hereinafter referred to as “posterior probability”);
Spectral parameter updating means for updating the model parameter of the spectral probability model using the posterior probability, Phase difference parameter updating means for updating the model parameter of the phase difference probability model using the posterior probability, A parameter updating unit comprising: a mixing weight updating unit configured to update the mixing weight using a posterior probability;
A parameter holding unit for storing each model parameter and mixing weight, which is updated by the parameter updating unit;
A model estimation apparatus comprising:
請求項1乃至3のいずれかに記載のモデル推定装置と、
更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離部と、
各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換部と、
を備える音源分離装置。
The model estimation device according to any one of claims 1 to 3,
An effective sound source is extracted based on the updated mixed weight, a mask is created using the updated posterior probability corresponding to each effective sound source, and the observed signal spectrum is determined for each effective sound source using the mask. A signal separation unit for generating a separated separated signal;
A time domain converter that converts the separated signal for each effective sound source into a signal in the time domain;
A sound source separation device comprising:
混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定方法であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換ステップと、
各マイクにおける観測信号スペクトル間の位相差を計算する位相差計算ステップと、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記観測信号スペクトル間の位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定ステップと、
を備えるモデル推定方法。
A model estimation method for observing signals from a plurality of mixed sound sources with a plurality of microphones and extracting each mixed signal,
A frequency domain conversion step for converting an observation signal in the time domain in each microphone into an observation signal spectrum in the frequency domain, and
A phase difference calculating step for calculating a phase difference between observed signal spectra in each microphone;
The observed signal spectrum is sequentially applied to a spectrum probability model indicating a spectrum distribution, and the phase difference between the observed signal spectra is sequentially applied to a phase difference probability model indicating a phase difference distribution, and each probability model is evaluated. A model estimation step for calculating a model parameter of each probability model suitable for signal extraction using an evaluation function;
A model estimation method comprising:
請求項5に記載のモデル推定方法であって、
前記評価関数は、それぞれの信号について、各周波数成分の強弱がより同期しているほど、信号抽出により適するという評価を与える
ことを特徴とするモデル推定方法。
The model estimation method according to claim 5, comprising:
The model estimation method according to claim 1, wherein the evaluation function gives an evaluation that each signal is more suitable for signal extraction as the strength of each frequency component is more synchronized.
請求項5又は6に記載のモデル推定方法であって、
前記モデル推定ステップは、
前記観測信号スペクトルと前記観測信号スペクトル間の位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率(以下、「混合重み」という。)とから、当該観測信号スペクトルと当該観測信号スペクトル間の位相差とが各時間周波数において各音源からの信号によるものである確率(以下、「事後確率」という。)を計算する事後確率計算ステップと、
前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新サブステップと、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新サブステップと、前記事後確率を用いて前記混合重みを更新する混合重み更新サブステップと、を実行するパラメタ更新ステップと、
前記パラメタ更新ステップで更新した、各モデルパラメタと混合重みをパラメタ保持部に記憶するパラメタ保持ステップと、
を、所定の回数又は前記各モデルパラメタと前記混合重みの値が収束するまで繰り返し実行する
ことを特徴とするモデル推定方法。
A model estimation method according to claim 5 or 6,
The model estimation step includes:
The phase difference between the observed signal spectrum and the observed signal spectrum, the model parameter of the phase difference probability model, the model parameter of the spectral probability model, and the existence probability of each sound source (hereinafter referred to as “mixed”) The probability (hereinafter referred to as “posterior probability”) that the observed signal spectrum and the phase difference between the observed signal spectra are due to the signal from each sound source at each time frequency is calculated. A posteriori probability calculation step;
A spectral parameter update substep for updating the model parameter of the spectral probability model using the posterior probability, and a phase difference parameter update substep for updating the model parameter of the phase difference probability model using the posterior probability; A parameter update step for performing a mixture weight update substep for updating the mixture weight using the posterior probability; and
A parameter holding step for storing each model parameter and the mixing weight updated in the parameter updating step in a parameter holding unit;
Is repeatedly executed a predetermined number of times or until the values of the respective model parameters and the mixture weights converge.
請求項5乃至7のいずれかに記載のモデル推定方法と、
更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離ステップと、
各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換ステップと、
を実行する音源分離方法。
A model estimation method according to any one of claims 5 to 7,
An effective sound source is extracted based on the updated mixed weight, a mask is created using the updated posterior probability corresponding to each effective sound source, and the observed signal spectrum is determined for each effective sound source using the mask. A signal separation step for generating a separated separated signal;
A time domain conversion step of converting the separated signal for each effective sound source into a time domain signal;
Sound source separation method to perform.
請求項5乃至8のいずれかに記載の方法をコンピュータに実行させるためのプログラム。   A program for causing a computer to execute the method according to claim 5.
JP2010028985A 2010-02-12 2010-02-12 Model estimation apparatus, sound source separation apparatus, method and program thereof Expired - Fee Related JP5337072B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010028985A JP5337072B2 (en) 2010-02-12 2010-02-12 Model estimation apparatus, sound source separation apparatus, method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010028985A JP5337072B2 (en) 2010-02-12 2010-02-12 Model estimation apparatus, sound source separation apparatus, method and program thereof

Publications (2)

Publication Number Publication Date
JP2011164467A true JP2011164467A (en) 2011-08-25
JP5337072B2 JP5337072B2 (en) 2013-11-06

Family

ID=44595195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010028985A Expired - Fee Related JP5337072B2 (en) 2010-02-12 2010-02-12 Model estimation apparatus, sound source separation apparatus, method and program thereof

Country Status (1)

Country Link
JP (1) JP5337072B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048399A (en) * 2012-08-30 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Sound signal analyzing device, method and program
WO2014047025A1 (en) * 2012-09-19 2014-03-27 Analog Devices, Inc. Source separation using a circular model
JP2014215385A (en) * 2013-04-24 2014-11-17 日本電信電話株式会社 Model estimation system, sound source separation system, model estimation method, sound source separation method, and program
JP2015061306A (en) * 2013-09-20 2015-03-30 富士通株式会社 Sound processing device, and computer program for sound processing
JP2015161551A (en) * 2014-02-26 2015-09-07 株式会社東芝 Sound source direction estimation device, sound source estimation method, and program
JP2015179243A (en) * 2014-02-27 2015-10-08 株式会社Jvcケンウッド Audio signal processor
JP2016045225A (en) * 2014-08-19 2016-04-04 日本電信電話株式会社 Number of sound sources estimation device, number of sound sources estimation method, and number of sound sources estimation program
JP2017067948A (en) * 2015-09-29 2017-04-06 本田技研工業株式会社 Voice processor and voice processing method
CN110036441A (en) * 2016-12-16 2019-07-19 日本电信电话株式会社 Target sound emphasizes that device, Noise estimation emphasize method, Noise estimation parametric learning method, program with parameter learning device, target sound
WO2019194315A1 (en) * 2018-04-06 2019-10-10 日本電信電話株式会社 Signal analysis device, signal analysis method, and signal analysis program
CN113689875A (en) * 2021-08-25 2021-11-23 湖南芯海聆半导体有限公司 Double-microphone voice enhancement method and device for digital hearing aid

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597306B (en) * 2020-05-18 2021-12-07 腾讯科技(深圳)有限公司 Sentence recognition method and device, storage medium and electronic equipment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145610A (en) * 2006-12-07 2008-06-26 Univ Of Tokyo Sound source separation and localization method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145610A (en) * 2006-12-07 2008-06-26 Univ Of Tokyo Sound source separation and localization method

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048399A (en) * 2012-08-30 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Sound signal analyzing device, method and program
WO2014047025A1 (en) * 2012-09-19 2014-03-27 Analog Devices, Inc. Source separation using a circular model
JP2014215385A (en) * 2013-04-24 2014-11-17 日本電信電話株式会社 Model estimation system, sound source separation system, model estimation method, sound source separation method, and program
JP2015061306A (en) * 2013-09-20 2015-03-30 富士通株式会社 Sound processing device, and computer program for sound processing
JP2015161551A (en) * 2014-02-26 2015-09-07 株式会社東芝 Sound source direction estimation device, sound source estimation method, and program
JP2015179243A (en) * 2014-02-27 2015-10-08 株式会社Jvcケンウッド Audio signal processor
JP2016045225A (en) * 2014-08-19 2016-04-04 日本電信電話株式会社 Number of sound sources estimation device, number of sound sources estimation method, and number of sound sources estimation program
JP2017067948A (en) * 2015-09-29 2017-04-06 本田技研工業株式会社 Voice processor and voice processing method
CN110036441A (en) * 2016-12-16 2019-07-19 日本电信电话株式会社 Target sound emphasizes that device, Noise estimation emphasize method, Noise estimation parametric learning method, program with parameter learning device, target sound
CN110036441B (en) * 2016-12-16 2023-02-17 日本电信电话株式会社 Target sound emphasis device and method, noise estimation parameter learning device and method, and recording medium
WO2019194315A1 (en) * 2018-04-06 2019-10-10 日本電信電話株式会社 Signal analysis device, signal analysis method, and signal analysis program
JP2019184773A (en) * 2018-04-06 2019-10-24 日本電信電話株式会社 Signal analyzer, signal analysis method and signal analysis program
CN113689875A (en) * 2021-08-25 2021-11-23 湖南芯海聆半导体有限公司 Double-microphone voice enhancement method and device for digital hearing aid
CN113689875B (en) * 2021-08-25 2024-02-06 湖南芯海聆半导体有限公司 Digital hearing aid-oriented double-microphone voice enhancement method and device

Also Published As

Publication number Publication date
JP5337072B2 (en) 2013-11-06

Similar Documents

Publication Publication Date Title
JP5337072B2 (en) Model estimation apparatus, sound source separation apparatus, method and program thereof
CN109584903B (en) Multi-user voice separation method based on deep learning
Wang et al. A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures
CN103559888A (en) Speech enhancement method based on non-negative low-rank and sparse matrix decomposition principle
JP4403436B2 (en) Signal separation device, signal separation method, and computer program
Wang Multi-band multi-centroid clustering based permutation alignment for frequency-domain blind speech separation
US20220059114A1 (en) Method and apparatus for determining a deep filter
WO2013089536A1 (en) Target sound source removal method and speech recognition method and apparatus according to same
KR100636368B1 (en) Convolutive blind source separation using relative optimization
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
Jiang et al. An improved unsupervised single-channel speech separation algorithm for processing speech sensor signals
JP5406866B2 (en) Sound source separation apparatus, method and program thereof
JP4960933B2 (en) Acoustic signal enhancement apparatus and method, program, and recording medium
Garg Speech enhancement using long short term memory with trained speech features and adaptive wiener filter
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
Araki et al. Simultaneous clustering of mixing and spectral model parameters for blind sparse source separation
JP4119112B2 (en) Mixed sound separator
JP5726709B2 (en) Sound source separation device, sound source separation method and program
JP5826502B2 (en) Sound processor
Kitano et al. A sparse component model of source signals and its application to blind source separation
JP5807914B2 (en) Acoustic signal analyzing apparatus, method, and program
Nie et al. Two-stage multi-target joint learning for monaural speech separation
Paul et al. Effective Pitch Estimation using Canonical Correlation Analysis
Shi et al. Auditory mask estimation by RPCA for monaural speech enhancement
Jan et al. A blind source separation approach based on IVA for convolutive speech mixtures

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130802

R150 Certificate of patent or registration of utility model

Ref document number: 5337072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees