JP6059112B2 - Sound source separation device, method and program thereof - Google Patents

Sound source separation device, method and program thereof Download PDF

Info

Publication number
JP6059112B2
JP6059112B2 JP2013171079A JP2013171079A JP6059112B2 JP 6059112 B2 JP6059112 B2 JP 6059112B2 JP 2013171079 A JP2013171079 A JP 2013171079A JP 2013171079 A JP2013171079 A JP 2013171079A JP 6059112 B2 JP6059112 B2 JP 6059112B2
Authority
JP
Japan
Prior art keywords
sound source
signal
microphone
observed
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013171079A
Other languages
Japanese (ja)
Other versions
JP2015040934A (en
Inventor
慶介 木下
慶介 木下
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013171079A priority Critical patent/JP6059112B2/en
Publication of JP2015040934A publication Critical patent/JP2015040934A/en
Application granted granted Critical
Publication of JP6059112B2 publication Critical patent/JP6059112B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、入力信号に複数の目的信号が含まれている場合において、各目的信号を精度良く抽出する音源分離装置と、その方法とプログラムに関する。   The present invention relates to a sound source separation device that extracts each target signal with high accuracy when an input signal includes a plurality of target signals, and a method and program thereof.

複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。その結果、本来の目的音声信号(以下、目的信号)の性質を抽出することが困難となり、自動音声認識(以下、音声認識)システムの認識率も著しく低下する。よって認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離することで、目的信号の明瞭度を回復する工夫(方法)が必要である。   When an acoustic signal is collected in an environment where a plurality of target sound sources exist, a mixed signal in which the target signals overlap each other is often observed. At this time, when the target sound source of interest is an audio signal, the clarity of the target sound is greatly reduced due to the influence of other sound source signals superimposed on the target signal. As a result, it becomes difficult to extract the nature of the original target speech signal (hereinafter referred to as the target signal), and the recognition rate of the automatic speech recognition (hereinafter referred to as speech recognition) system is significantly reduced. Therefore, in order to prevent the recognition rate from being lowered, it is necessary to devise a method (method) for recovering the clarity of the target signal by separating a plurality of target signals.

この複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるTV会議システム、実環境で用いられる音声認識システム、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。   The elemental technology for separating the plurality of target signals can be used for various acoustic signal processing systems. For example, a hearing aid that extracts the target signal from the sound collected in the real environment to improve ease of hearing, a TV conference system that improves the intelligibility of the voice by extracting the target signal, and audio used in the real environment It can be used for a recognition system, a machine-human interaction device in a machine control interface, a music information processing system for searching and recording music, and the like.

図7に、例えば非特許文献1に開示されている従来の音源分離装置900の機能構成を示してその動作を簡単に説明する。音源分離装置900は、全マイク共通音源存在事後確率推定部90、フィルタリング部91、を備える。   FIG. 7 shows a functional configuration of a conventional sound source separation device 900 disclosed in Non-Patent Document 1, for example, and its operation will be briefly described. The sound source separation device 900 includes a sound source existence posterior probability estimation unit 90 and a filtering unit 91 for all microphones.

全マイク共通音源存在事後確率推定部90は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力として、当該各観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを算出し、その特徴ベクトルを分類することで各音源に関する存在確率を計算する。フィルタリング部91は、複数のマイクロホンで収音した複数チャネルの観測信号に、上記存在確率を乗算することで音源信号を回復する。   The sound source signal posterior probability estimation unit 90 common to all microphones receives a plurality of channel observation signals obtained by collecting sound source signals emitted from a plurality of sound sources with a plurality of microphones, and characterizes each time frequency bin of each observation signal And the existence probability for each sound source is calculated by classifying the feature vectors. The filtering unit 91 recovers the sound source signal by multiplying the observation signals of a plurality of channels collected by a plurality of microphones by the existence probability.

H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignement,” IEEE Trans. Audio, Speech and Lang. Process., vol. 19, pp.516-527, March 2011.H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignement,” IEEE Trans. Audio, Speech and Lang. Process., Vol. 19, pp.516- 527, March 2011.

しかし、複数のマイクロホンが空間的に大きく分散された形で配置されていると、各マイクロホンで観測されるある音源の音圧は同程度にならない。極端な場合は、ある音源はあるマイクロホンにおいて実質的に観測不可能な状況も起こり得る。このような状況では、各マイクロホンで異なる音源存在確率(アクティビティパタン)を仮定することが妥当である。しかし、従来の方法では、マイクロホン別に音源存在確率を計算することができないため、分散マイクロホンアレイ環境において、効率的な音源分離を行うことができない課題があった。   However, if a plurality of microphones are arranged in a spatially dispersed manner, the sound pressure of a certain sound source observed by each microphone does not become comparable. In extreme cases, a situation can occur in which a certain sound source is substantially unobservable with a certain microphone. In such a situation, it is reasonable to assume different sound source existence probabilities (activity patterns) for each microphone. However, in the conventional method, since the sound source existence probability cannot be calculated for each microphone, there is a problem that efficient sound source separation cannot be performed in a distributed microphone array environment.

この発明は、このような課題に鑑みてなされたものであり、分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる音源分離装置とその方法とプログラムを提供することを目的とする。   The present invention has been made in view of such a problem, and an object thereof is to provide a sound source separation apparatus, a method thereof, and a program capable of efficiently performing sound source separation even in a distributed microphone array environment.

この発明の音源分離装置は、マイク別音源存在事後確率推定部と、モデルパラメータ推定部と、出力音推定部と、を具備する。マイク別音源存在事後確率推定部は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定する。モデルパラメータ推定部は、複数チャネルの観測信号と、音源存在事後確率を入力として、観測信号のモデルパラメータを推定する。出力音推定部は、複数チャネルの観測信号と、音源存在事後確率と、モデルパラメータと、を入力として各マイクロホンごとに各音源からの到来信号を推定して出力する。   The sound source separation device according to the present invention includes a microphone-specific sound source presence posterior probability estimation unit, a model parameter estimation unit, and an output sound estimation unit. The microphone-specific sound source existence posterior probability estimation unit includes a plurality of channel observation signals obtained by collecting sound source signals emitted from a plurality of sound sources by a plurality of microphones, and each of the plurality of sound sources observed by each of the plurality of microphones. The sound source existence posterior probability for each sound source is estimated for each microphone, using the model of the observed signal assuming that the sound pressures of the signals are different. The model parameter estimation unit estimates the model parameters of the observation signal by using the observation signals of a plurality of channels and the sound source existence posterior probability as inputs. The output sound estimation unit estimates and outputs an incoming signal from each sound source for each microphone by using the observation signals of a plurality of channels, the sound source posterior probability, and the model parameters as inputs.

この発明の音源分離装置によれば、複数のマイクロホンごとに各音源に関して推定した音源存在事後確率を用いて、音源ごとに音源からの到来信号(音源イメージ)を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。評価実験で確認した具体的な効果については後述する。   According to the sound source separation device of the present invention, the arrival signal (sound source image) from the sound source is estimated for each sound source using the sound source existence posterior probability estimated for each sound source for each of a plurality of microphones. Sound source separation can be performed efficiently. Specific effects confirmed in the evaluation experiment will be described later.

この発明の音源分離装置100の機能構成例を示す図。The figure which shows the function structural example of the sound source separation apparatus 100 of this invention. 音源分離装置100の動作フローを示す図。The figure which shows the operation | movement flow of the sound source separation apparatus. この発明のEMアルゴリズムとNewton-Raphson法を用いる音源分離装置100′の機能構成例を示す図。The figure which shows the function structural example of sound source separation apparatus 100 'using EM algorithm and Newton-Raphson method of this invention. モデルパラメータ最適化の動作フローを示す図。The figure which shows the operation | movement flow of model parameter optimization. 評価実験に使用した音響環境を示す図。The figure which shows the acoustic environment used for evaluation experiment. 評価実験結果を示す図Figure showing the evaluation experiment results 従来の音声分離装置900の機能構成例を示す図。The figure which shows the function structural example of the conventional audio | voice separation apparatus 900.

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、観測信号をモデル化する。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated. Before the description of the embodiment, the observation signal is modeled.

〔観測信号のモデル化〕
複数の点音源(1,2,…N)から発音する音声を、複数のマイクロホン(1,2,…N)のm番目のマイクロホンで観測した場合、i番目の音源から到来する信号xt,f (i,m)は、時間周波数領域において以下のように表される。t(t=1,…N),f(f=1,…,N)は、時間と周波数のインデックスである。
[Modeling of observed signals]
When sound generated from a plurality of point sound sources (1, 2,... N i ) is observed by the m-th microphone of the plurality of microphones (1, 2,... N m ), the signal x coming from the i-th sound source t, f (i, m) is expressed as follows in the time-frequency domain. t (t = 1,... N t ) and f (f = 1,..., N f ) are time and frequency indexes.

Figure 0006059112
Figure 0006059112

ここでSt,f (i)とst,f (i)は、それぞれi番目の音源からのクリーン音声信号の短時間フーリエ変換領域での信号と対数パワー領域での信号に相当し、それぞれマイク位置非依存のパラメータである。また、H (i,m)とβ (i,m)は、同様に短時間フーリエ変換領域と対数パワースペクトル領域での伝達関数に相当する。 Here, S t, f (i) and st, f (i) correspond to a signal in the short-time Fourier transform domain and a signal in the logarithmic power domain of the clean speech signal from the i-th sound source, respectively. This is a microphone position independent parameter. Similarly, H f (i, m) and β f (i, m) correspond to transfer functions in the short-time Fourier transform region and the logarithmic power spectrum region.

以降の説明では、変数β (i,m)はマイク位置依存・音源時不変ゲインと称する。i番目の音源から到来する信号xt,f (i,m)を音源イメージと称する。et,f (i,m)はエラー項であり、xt,f (i,m)とlog|St,f (i) (i,m)の差であり、例えば伝達関数の揺らぎを表す。このエラー項et,f (i,m)は、平均0、分散σt,f (i,m)の白色信号であると仮定する。 In the following description, the variable β f (i, m) is referred to as a microphone position dependent / sound source time invariant gain. A signal x t, f (i, m) coming from the i-th sound source is referred to as a sound source image. e t, f (i, m ) is the error term, x t, f (i, m) and log | S t, f (i ) H f (i, m) | is the difference between the 2, for example, transfer Represents function fluctuations. This error term et, f (i, m) is assumed to be a white signal with an average of 0 and a variance σt , f (i, m) .

以上の定義に従うと、i番目の音源からのクリーン音声信号st,f (i)とその音源イメージxt,f (i,m)との関係は、ガウス分布の確率密度関数として次のようにモデル化することができる。 According to the above definition, the relationship between the clean sound signal s t, f (i) from the i-th sound source and the sound source image x t, f (i, m) is as follows as a probability density function of Gaussian distribution. Can be modeled.

Figure 0006059112
Figure 0006059112

ここで、θ(i)はモデルパラメータ一式を表す。Nは正規分布(Normal distribution)を意味する。 Here, θ (i) represents a set of model parameters. N means a normal distribution.

次に、LogMax近似を用いて、複数の点音源が存在する環境におけるm番目のマイクロホンで収音した観測信号ot,f (m)をモデル化する。その近似を用いれば、次式に示すように観測信号ot,f (m)は、全点音源の中で最大の音圧を持つ支配的な音源信号の値と同値となる。 Next, the observation signal o t, f (m) collected by the m-th microphone in an environment where a plurality of point sound sources exists is modeled using LogMax approximation. If the approximation is used, the observed signal ot , f (m) becomes the same value as the dominant sound source signal having the maximum sound pressure among all point sound sources as shown in the following equation.

Figure 0006059112
Figure 0006059112

このモデル化では支配的ではない音源は、観測信号の対数パワースペクトル以下の値であれば、任意の値を取ることができる。上記したLogMax近似モデルは、次式に示すように確率的に定式化される。   A sound source that is not dominant in this modeling can take any value as long as it is a value less than or equal to the logarithmic power spectrum of the observation signal. The above LogMax approximate model is stochastically formulated as shown in the following equation.

Figure 0006059112
Figure 0006059112

ここで、It,f (m)は、m番目のマイクロホンの観測信号の各時間周波数ビンにおける支配的な音源の音源インデックスを表し、δ(・)はディラックのデルタ関数を表す。以降の説明では、変数It,f (m)は支配的音源インデックス(DSI:Dominant Source Index)と称し、簡単のために添え字は省略する。 Here, I t, f (m) represents a sound source index of a dominant sound source in each time frequency bin of the observation signal of the m-th microphone, and δ (·) represents a Dirac delta function. In the following description, the variable It , f (m) is referred to as a dominant source index (DSI), and the subscript is omitted for simplicity.

式(3)は、m番目のマイクロホンにおける観測信号ot,f (m)が、そのマイクロホンにおける支配的な音源イメージと同値であることを表している。ここで、マイクロホンごとに異なる音声のアクティビティパタン、つまり支配的音源インデックスDSIが割り当てられていることに注意されたい。 Expression (3) represents that the observation signal ot , f (m) in the m-th microphone is equivalent to the dominant sound source image in the microphone. Here, it should be noted that a different sound activity pattern, that is, a dominant sound source index DSI, is assigned to each microphone.

上記した確率モデルを用いると観測信号ot,f (m)とI(支配的音源インデックスDSI)の同時確率は次式のように導出される。 When the above probability model is used, the joint probability of the observation signals ot , f (m) and I (dominant sound source index DSI) is derived as follows.

Figure 0006059112
Figure 0006059112

なお、θ(i)は各音源iに関するパラメータを表し、θはすべての音源に関するパラメータを表す。すなわち、式(6)は、観測信号ot,f (m)とI(支配的音源インデックスDSI)を含むモデルパラメータθの同時確率である。各音源の音源イメージxt,f (i,m)と観測信号の確率モデルを、上記したようにモデル化した前提で、以下の実施例を説明する。なお、以降の説明では、上述のLogMax近似モデル(式(4))を、「LogMax観測モデル」あるいは「観測信号の確率モデル」として参照する。 Θ (i) represents a parameter related to each sound source i, and θ represents a parameter related to all sound sources. That is, Expression (6) is a joint probability of the model parameter θ including the observation signal o t, f (m) and I (dominant sound source index DSI). The following example will be described on the assumption that the sound source image x t, f (i, m) of each sound source and the probability model of the observation signal are modeled as described above. In the following description, the above-described LogMax approximate model (formula (4)) is referred to as a “LogMax observation model” or an “observation signal probability model”.

〔この発明の考え〕
この発明の音源分離方法は、上記した音源イメージxt,f (i,m)に含まれる重要なパラメータに着目することで、複数のマイクロホンごとに異なるアクティビティパタンの推定を可能にする。
[Concept of this invention]
The sound source separation method of the present invention makes it possible to estimate a different activity pattern for each of a plurality of microphones by paying attention to important parameters included in the sound source image x t, f (i, m) .

この発明の音源分離方法を特徴付ける重要なパラメータは、支配的音源インデックスDSIである。支配的音源インデックスDSIは、各音源の各マイクロホンにおけるアクティビティパタンを示しているので、このパラメータを推定できれば、各マイクロホンごとに異なるアクティビティパタンを推定することが直接的に可能となる。   An important parameter characterizing the sound source separation method of the present invention is the dominant sound source index DSI. Since the dominant sound source index DSI indicates an activity pattern of each microphone of each sound source, if this parameter can be estimated, it is possible to directly estimate an activity pattern that is different for each microphone.

この支配的音源インデックスDSIに加えて、当該パラメータを暗に支える形となっている時不変のマイク位置依存・音源時不変ゲインβ (i,m)と、時変のマイク非依存・音源対数パワースペクトルst,f (i)を用いる(式(1)参照)。 In addition to the dominant sound source index DSI, the time-invariant microphone position dependence / sound source time-invariant gain β f (i, m) and the time-variant microphone independence / sound source logarithm that are implicitly supporting the parameter The power spectrum s t, f (i) is used (see equation (1)).

これらのパラメータを用いることで、アクティビティパタンが推定できる原理を簡単に説明する。例えば、仮にある音源がm番目のマイクロホンに高いSNRで到来すると、SNRに対応するパラメータであるマイク位置依存・音源時不変ゲインβ (i,m)は相対的に高い値を取る傾向にあり、その音源はLogMax観測モデルの元で支配的な音源として観測される。 The principle that the activity pattern can be estimated by using these parameters will be briefly described. For example, if a certain sound source arrives at the m-th microphone with a high SNR, the microphone position-dependent / sound source time-invariant gain β f (i, m), which is a parameter corresponding to the SNR, tends to take a relatively high value. The sound source is observed as the dominant sound source under the LogMax observation model.

ある時間周波数ビンにおいて支配的な音源として陽に観測された信号は、その音源の対数パワースペクトルを推定することを可能にする。一方で、ある音源がm番目のマイクロホンに低いSNRで到来すると、マイク位置依存・音源時不変ゲインβ (i,m)は相対的に低い値を取る傾向にあり、その音源はLogMax観測モデルの元で非支配的な音源となる。LogMax観測モデルの元では、非支配的な音源のスペクトルは陽には観測されないので、その音源の対数パワースペクトルの推定は行われない。 A signal that is positively observed as the dominant sound source in a certain time frequency bin makes it possible to estimate the logarithmic power spectrum of that sound source. On the other hand, when a certain sound source arrives at the m-th microphone with a low SNR, the microphone position-dependent / sound source time-invariant gain β f (i, m) tends to take a relatively low value. Becomes a non-dominant sound source. Under the LogMax observation model, the spectrum of the non-dominant sound source is not observed explicitly, so the logarithmic power spectrum of the sound source is not estimated.

このようにこの発明では、各音源の対数パワースペクトルの推定を行うのにSNRの高い、一般的には音源に近いマイクロホンの観測信号を主に用いるようになる。その結果、複数のマイクロホンからの情報を効果的に加味しながら、各マイクロホンごとに異なるアクティビティパタンの推定が可能となる。   As described above, in the present invention, a microphone observation signal having a high SNR, generally close to the sound source, is mainly used to estimate the logarithmic power spectrum of each sound source. As a result, it is possible to estimate different activity patterns for each microphone while effectively taking into account information from a plurality of microphones.

具体的な実施例では、支配的音源インデックスDSIを潜在変数とした期待値最大化法(EMアルゴリズム)を用いてアクティビティパタンの推定を行う。Eステップ(期待値)では、支配的音源インデックスDSIに関する事後確率を更新し、どの音源がどのマイクロホンのどの時間周波数ビンで支配的かという情報を推定する。Mステップ(更新)では、その事後確率に基づいて、各音源のマイク位置依存・音源時不変ゲインβ (i,m)とマイク非依存・音源対数パワースペクトルst,f (i)とエラー項et,f (i,m)の分散σt,f (i,m)を更新する。 In a specific embodiment, the activity pattern is estimated using an expected value maximization method (EM algorithm) with the dominant sound source index DSI as a latent variable. In step E (expected value), the posterior probability relating to the dominant sound source index DSI is updated, and information about which sound source is dominant in which time frequency bin of which microphone is estimated. In M step (update), based on the posterior probability, the microphone position-dependent / sound source time-invariant gain β f (i, m) , microphone-independent / sound source log power spectrum st, f (i) and error Update the variance σ t, f (i, m) of the term et, f (i, m) .

図1に、この発明の音源分離装置100の機能構成例を示す。その動作フローを図2に示す。音源分離装置100は、マイク別音源存在事後確率推定部10と、モデルパラメータ推定部20と、出力音推定部30と、を具備する。音源分離装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。   FIG. 1 shows a functional configuration example of a sound source separation device 100 of the present invention. The operation flow is shown in FIG. The sound source separation device 100 includes a microphone-specific sound source presence posterior probability estimation unit 10, a model parameter estimation unit 20, and an output sound estimation unit 30. The function of each unit of the sound source separation device 100 is realized by reading a predetermined program into a computer configured by, for example, a ROM, a RAM, and a CPU, and executing the program by the CPU.

マイク別音源存在事後確率推定部10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号ot,f (m)と、マイクロホンの各々で観測される上記複数の音源iの各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンmごとに各音源iに関する音源存在事後確率^Mt,f (i,m)を推定する(ステップS10)。ここで、観測信号のモデルは、m番目のマイクロホンで観測される信号ot,f (i,m)が、複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるように定義されたモデル(LogMax観測モデル、式(4))である。また、到来信号のモデルは、m番目のマイクロホンで観測されるi番目の音源の音源イメージxt,f (i,m)が、i番目の音源のマイク非依存・音源対数パワースペクトルst,f (i)と、i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応するマイク位置依存・音源時不変ゲインβ (i,m)と、i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、により定義した確率モデルである(式(1))。 The microphone-specific sound source existence posterior probability estimation unit 10 collects sound source signals emitted from a plurality of sound sources with a plurality of microphones and a plurality of channel observation signals ot , f (m), and the plurality of microphones observed with each of the microphones. The sound source existence posterior probability ^ M t, f (i, m) for each sound source i is estimated for each microphone m using a model of an observation signal that is assumed that the sound pressure of the signal from each of the sound sources i is different. (Step S10). Here, the model of the observed signal is that the signal ot , f (i, m) observed by the m-th microphone comes from each of a plurality of sound sources and is observed by the m-th microphone. , A model (LogMax observation model, equation (4)) defined to be equivalent to the incoming signal having the maximum sound pressure. The model of the incoming signal is that the sound source image x t, f (i, m) of the i th sound source observed by the m th microphone is the microphone independent / sound source logarithmic power spectrum s t, f (i) , the microphone position-dependent / sound source time-invariant gain β f (i, m) corresponding to the sound pressure of the signal arriving at the m th microphone from the i th sound source, and the m th This is a probability model defined by an error term et, f (i, m) corresponding to the difference between the signal arriving at the microphone and the signal from the i-th sound source observed by the m-th microphone (Equation ( 1)).

なお、マイク非依存・音源対数パワースペクトルst,f (i)は、マイクロホンに依存しない音源からのクリーン音声信号と称しても良いものである。また、マイク位置依存・音源時不変ゲインβ (i,m)は、音源とマイクロホン位置によって変化する値であり、伝達関数と称しても良いものである。なお、^等の表記は、図及び式中に表記されているように変数の直上に位置するのが正しい表記である。 The microphone-independent / sound source logarithmic power spectrum s t, f (i) may be referred to as a clean audio signal from a sound source that does not depend on the microphone. The microphone position-dependent / sound source time-invariant gain β f (i, m) is a value that varies depending on the sound source and the microphone position, and may be referred to as a transfer function. It should be noted that the notation such as ^ is a correct notation that is located immediately above the variable as shown in the drawings and equations.

モデルパラメータ推定部20は、複数チャネルの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で推定した音源存在事後確率^Mt,f (i,m)を入力として、観測信号のモデルパラメータ^θ(i)を推定する(ステップS20)。モデルパラメータ^θ(i)は、マイク非依存・音源対数パワースペクトルst,f (i)と、マイク位置依存・音源時不変ゲインβ (i,m)と、エラー項et,f (i,m)の分散σt,f (i,m)と、である。 The model parameter estimation unit 20 receives the observation signals o t, f (m) of a plurality of channels and the sound source existence posterior probability ^ M t, f (i, m) estimated by the microphone-specific sound source existence posterior probability estimation unit 10 as inputs. Then, the model parameter ^ θ (i) of the observation signal is estimated (step S20). The model parameter ^ θ (i) includes microphone independent / sound source logarithmic power spectrum s t, f (i) , microphone position dependent / sound source time invariant gain β f (i, m) , and error term et, f ( i, m) variance σ t, f (i, m) .

出力音推定部30は、複数チャネルの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で推定した音源存在事後確率^Mt,f (i,m)と、モデルパラメータ推定部20で推定したモデルパラメータ^θ(i)と、を入力として各マイクロホンmごとに各音源iに関する音源イメージxt,f (i,m)を推定して出力する(ステップS30)。 The output sound estimation unit 30 includes a plurality of channel observation signals ot , f (m) , a sound source existence posterior probability ^ M t, f (i, m) estimated by the microphone-specific sound source existence posterior probability estimation unit 10, and a model. Using the model parameter ^ θ (i) estimated by the parameter estimation unit 20 as an input, the sound source image x t, f (i, m) relating to each sound source i is estimated and output for each microphone m (step S30).

以上説明したように動作する音源分離装置100は、複数の各マイクロホンmにおいて各音源iごとに推定した音源存在事後確率^Mt,f (i,m)を用いて、音源iごとの音源イメージxt,f (i,m)を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。以降において、音源分離装置100の動作を更に詳しく説明する。 The sound source separation apparatus 100 that operates as described above uses the sound source existence posterior probability ^ M t, f (i, m) estimated for each sound source i in each of the plurality of microphones m, and the sound source image for each sound source i. Since x t, f (i, m) is estimated, sound source separation can be performed efficiently even in a distributed microphone array environment. Hereinafter, the operation of the sound source separation device 100 will be described in more detail.

音源分離装置100は、最大事後確率(MAP)基準で効果的にモデルパラメータ^θ(i)の推定を行う。この実施例では、支配的音源インデックスDSIを潜在変数とみなして、モデルパラメータ^θ(i)=(st,f (i),β (i,m),σt,f (i,m))を推定する。効率的な最大事後確率パラメータ推定を行うために、この実施例ではEMアルゴリズムを用い以下の補助関数を繰り返し最大化する。 The sound source separation device 100 effectively estimates the model parameter {circumflex over ( θ ) } (i) on the basis of the maximum posterior probability (MAP). In this embodiment, the dominant sound source index DSI is regarded as a latent variable, and model parameters ^ (i) = (s t, f (i) , β f (i, m) , σ t, f (i, m )) ). In order to perform efficient maximum posterior probability parameter estimation, this embodiment repeatedly maximizes the following auxiliary functions using the EM algorithm.

Figure 0006059112
Figure 0006059112

ここで、θはモデルパラメータの事前推定値、^θはモデルパラメータの推定値を表す。また、式(7)におけるp(xt,f (i,m);θ(i))は、式(2)で定義されている通り、モデルパラメータの事前推定値θから算出することができる。なお、事前推定値θは予め与えられているものとする。すなわち、上述の補助関数Q(θ|^θ)は、観測信号ot,f (m)と支配的音源インデックスDSIを含むモデルパラメータの事前推定値との同時確率p(ot,f (m),It,f (m)=i;θ(i))に、音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和である。EMアルゴリズムでは、この補助関数の値が大きくなるように、モデルパラメータを更新する。 Here, θ represents a prior estimated value of the model parameter, and ^ θ represents an estimated value of the model parameter. Further, p (x t, f (i, m) ; θ (i) ) in the equation (7) can be calculated from the pre-estimated value θ of the model parameter as defined in the equation (2). . It is assumed that the prior estimated value θ is given in advance. That is, the auxiliary function Q (θ | ^ θ) described above has the simultaneous probability p (o t, f (m ) between the observed signal o t, f (m) and the prior estimation value of the model parameter including the dominant sound source index DSI. ) , It , f (m) = i; θ (i) ) multiplied by the weight corresponding to the sound source posterior probability ^ M t, f (i, m) for all the observed signals It is a weighted sum. In the EM algorithm, the model parameter is updated so that the value of the auxiliary function is increased.

各マイクロホンmにおける音源存在事後確率^Mt,f (i,m)は次式で表せる。 The sound source existence posterior probability ^ M t, f (i, m) in each microphone m can be expressed by the following equation.

Figure 0006059112
Figure 0006059112

式(7)は、第二項の複雑性により、解析的に最大化することができない。そこで、この実施例では、Newton-Raphson法を用いて効率的に補助関数を最大化する。   Equation (7) cannot be maximized analytically due to the complexity of the second term. Therefore, in this embodiment, the auxiliary function is maximized efficiently using the Newton-Raphson method.

図3に、EMアルゴリズムとNewton-Raphson法を用いる音源分離装置100′の機能構成例を示す。音源分離装置100′は、音源分離装置100の構成に加えて、更に記憶部40と、反復処理部50と、を備える。モデルパラメータ推定部20は、マイク位置依存・音源時不変ゲイン推定手段201と、マイク非依存・音源対数パワースペクトル推定手段202と、を含む。   FIG. 3 shows a functional configuration example of a sound source separation device 100 ′ using the EM algorithm and the Newton-Raphson method. In addition to the configuration of the sound source separation device 100, the sound source separation device 100 ′ further includes a storage unit 40 and an iterative processing unit 50. The model parameter estimation unit 20 includes a microphone position dependent / sound source time invariant gain estimating unit 201 and a microphone independent / sound source logarithmic power spectrum estimating unit 202.

パラメータの最適化手順は、マイク別音源存在事後確率推定部10とモデルパラメータ推定部20と記憶部40と反復処理部50と、で行う。図4に、パラメータの最適化手順の動作フローを示す。   The parameter optimization procedure is performed by the microphone-specific sound source presence posterior probability estimation unit 10, the model parameter estimation unit 20, the storage unit 40, and the iterative processing unit 50. FIG. 4 shows an operation flow of the parameter optimization procedure.

記憶部40には、モデルパラメータ^θ(i)=(^st,f (i),^β (i,m),^σt,f (i,m))の初期値θと、更新された値とが記憶される。記憶部40は、更新されたモデルパラメータ^θ(i)のみを記憶し、初期値θはその値を必要とする各部に予め定数として持たせるようにしても良い。 In the storage unit 40, model parameters { circumflex over ( θ ) } (i) = (^ s t, f (i) , ^ β f (i, m) , ^ σ t, f (i, m) )) The updated value is stored. The storage unit 40 may store only the updated model parameter {circumflex over ( θ ) } (i) , and the initial value θ may be previously given as a constant to each unit that requires the value.

マイク別音源存在事後確率推定部10は、複数のマイクロホンごとの観測信号ot,f (m)と、記憶部40に記憶されたモデルパラメータ^θ(i)=(^st,f (i),^β (i,m),^σt,f (i,m))とを入力として、各マイクロホンごとに、式(8)により、各音源iに関する音源存在事後確率^Mt,f (i,m)を計算する(ステップS10)。すなわち、マイク別音源存在事後確率推定部10は、観測信号ot,f (m)とモデルパラメータ^θ(i)とを観測信号のモデルに当てはめたときの、観測信号ot,f (m)とモデルパラメータ^θ(i)との同時確率に基づいて、音源存在事後確率^Mt,f (i,m)を計算する。この処理は、EMアルゴリズムのEステップに当たる。 The microphone-specific sound source existence posterior probability estimation unit 10 uses the observation signal ot , f (m) for each of the plurality of microphones and the model parameter ^ θ (i) = (^ s t, f (i ) , ^ Β f (i, m) , ^ σ t, f (i, m) ) as inputs, and for each microphone, the sound source existence posterior probability ^ M t, f (i, m) is calculated (step S10). That is, the microphone by the sound source exists posteriori probability estimation unit 10, the observed signals o t, f (m) and the model parameters ^ theta when the fitted model of the observation signal (i), the observed signal o t, f (m ) And the model parameter {circumflex over ( θ ) } (i) , the sound source existence posterior probability {circumflex over ( M ) } t, f (i, m) is calculated. This process corresponds to the E step of the EM algorithm.

マイク位置依存・音源時不変ゲイン推定手段201は、複数のマイクロホンごとの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)と、記憶部40に記憶されたモデルパラメータ^θ(i)のマイク非依存・音源対数パワースペクトル^st,f (i)を入力として、次式でマイク位置依存・音源時不変ゲイン^β (i,m)と分散σt,f (i,m)を計算して、記憶部40に記憶されている当該パラメータの値を更新する(ステップS201)。なお、以下の式では、条件ot,f (m)>(^st,f (i)+^β (i,m))が満たされる場合は、^κt,f (i、m)=^Mt,f (i,m)とし、満たされない場合は^κt,f (i、m)=1とする。 The microphone position-dependent / sound source time-invariant gain estimation unit 201 uses the observation signal ot , f (m) for each of the plurality of microphones and the sound source presence posterior probability ^ M t, f calculated by the microphone-specific sound source presence posterior probability estimation unit 10. (I, m) and the microphone parameter independent sound source log power spectrum ^ s t, f (i) of the model parameter { circumflex over ( θ ) } (i) stored in the storage unit 40 as input, The time invariant gain ^ β f (i, m) and the variance σ t, f (i, m) are calculated, and the value of the parameter stored in the storage unit 40 is updated (step S201). In the following expression, when the condition o t, f (m) > (^ s t, f (i) + ^ β f (i, m) ) is satisfied, ^ κ t, f (i, m ) = ^ M t, f (i, m), and if not satisfied, ^ κ t, f (i, m) = 1.

Figure 0006059112
Figure 0006059112

マイク非依存・音源対数パワースペクトル推定手段202は、マイクロホンmごとの観測信号ot,f (m)と、記憶部40に記憶されたモデルパラメータ^θ(i)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)を入力として、複数のマイクロホンmとの間で共通となるi番目の音源からのクリーン音声信号st,f (i)を次式で計算して、記憶部40に記憶されている当該パラメータの値を更新する(ステップS202)。ステップS201とS202の処理(ステップS20)は、EMアルゴリズムのMステップに当たる。 The microphone-independent / logarithmic power logarithmic power spectrum estimation means 202 is arranged such that the observed signal ot , f (m) for each microphone m, the model parameter ^ θ (i) stored in the storage unit 40, and the sound source existence posterior probability for each microphone. Using the sound source existence posterior probability ^ M t, f (i, m) calculated by the estimation unit 10 as an input, the clean sound signal st, f (i) from the i-th sound source that is common to the plurality of microphones m. ) Is calculated by the following equation, and the value of the parameter stored in the storage unit 40 is updated (step S202). The processing of steps S201 and S202 (step S20) corresponds to the M step of the EM algorithm.

Figure 0006059112
Figure 0006059112

また、^st,f (i)と^β (i,m)の更新式は類似していることが分かる。これらの更新式の違いは平均化処理にあり、^st,f (i)はマイクロホン番号に関する平均として計算され、一方で^β (i,m)は、時間インデックスに関する平均として計算される。 Also, it can be seen that the update formulas of ^ s t, f (i) and ^ β f (i, m) are similar. The difference between these update formulas is in the averaging process, where {circumflex over ( s ) } t, f (i) is calculated as the average over the microphone number, while {circumflex over ( β ) f (i, m) is calculated as the average over the time index. .

なお、式(9)における補助関数は、式(7)で定義される補助関数と式(12)で計算される値に重みρを乗じたものを加算した値とする。これは、あるマイクロホンにおいて全く支配的にならない音源(LogMax観測モデルの元では陽には全く観測されない音源)があると、マイク位置依存・音源時不変ゲイン^β (i,m)の最適解は無限小となってしまい推定処理全体が不安定になる。前述のように、マイク非依存・音源対数パワースペクトル^st,f (i)に関して以下のような正規化項(事前分布)203を定義し、補助関数に重みρで加算すれば、このような問題を回避することができる。 The auxiliary function in equation (9) is a value obtained by adding the auxiliary function defined in equation (7) and the value calculated in equation (12) multiplied by the weight ρ. This is because if there is a sound source that does not dominate at all in a certain microphone (a sound source that is not positively observed under the LogMax observation model ) , the optimal solution for the microphone position-dependent and sound source time-invariant gain ^ β f (i, m) Becomes infinitesimal and the entire estimation process becomes unstable. As described above, the following normalization term (prior distribution) 203 is defined for the microphone-independent / sound source log power spectrum ^ s t, f (i) , and added to the auxiliary function with the weight ρ, like this Problems can be avoided.

Figure 0006059112
Figure 0006059112

正規化項203は、記憶部40に予め記憶させておいても良いし、図3に示すようにモデルパラメータ推定部20の内部に定数として持たせるようにしても良い。   The normalization term 203 may be stored in the storage unit 40 in advance, or may be provided as a constant inside the model parameter estimation unit 20 as shown in FIG.

以上のように、モデルパラメータ推定部20では、式(7)の補助関数、つまり、観測信号ot,f (m)と現在のモデルパラメータ推定値θ(i)を観測モデルに当てはめたときの、観測信号ot,f (m)と支配的音源インデックスDSIを含むモデルパラメータ推定値θ(i)との同時確率p(ot,f (m),It,f (m)=i;θ(i))に、音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、モデルパラメータ(マイク位置依存・音源時不変ゲイン^β (i,m)と分散σt,f (i,m)とマイク非依存・音源対数パワースペクトル^st,f (i))を更新する(式(9)〜(11))。 As described above, in the model parameter estimation unit 20, the auxiliary function of Expression (7), that is, the observation signal o t, f (m) and the current model parameter estimation value θ (i) are applied to the observation model. , The joint probability p (ot , f (m) , It , f (m) = i; of the observed signal o t, f (m) and the model parameter estimate θ (i) including the dominant sound source index DSI; θ (i) ) is multiplied by the weight corresponding to the sound source posterior probability ^ M t, f (i, m) , and the model parameter is set so that the weighted sum of all the observed signals is increased. (Mic position dependent / sound source time-invariant gain ^ β f (i, m) , variance σ t, f (i, m) and microphone independent / sound source log power spectrum ^ s t, f (i) ) are updated ( Formulas (9) to (11)).

反復処理部50は、所定の基準を満たすまでEステップとMステップを繰り返す(ステップS51)。所定の基準としては、例えば更新前のモデルパラメータ^θ及び各音源に関する音源存在事後確率^Mt,f (i,m)から計算される式(7)に示したQ関数(補助関数)の値と、更新後のモデルパラメータ及び各音源に関する音源存在事後確率^Mt,f (i,m)から計算されるQ関数の値との差が所定の閾値未満となった時を、所定の基準を満たしたと判定する方法や、予め定めた繰り返す回数に達した場合に所定の基準を満たしたと判定する方法が考えられる。繰り返し処理を行うことで補助関数を最大化することができる。 The iterative processing unit 50 repeats the E step and the M step until a predetermined criterion is satisfied (step S51). As the predetermined standard, for example, the Q function (auxiliary function) shown in the equation (7) calculated from the model parameter ^ θ before update and the sound source existence posterior probability ^ M t, f (i, m) for each sound source When the difference between the value and the value of the Q function calculated from the updated model parameter and the sound source existence posterior probability ^ M t, f (i, m) for each sound source is less than a predetermined threshold, There are a method for determining that the standard is satisfied, and a method for determining that the predetermined standard is satisfied when a predetermined number of repetitions is reached. The auxiliary function can be maximized by repeating the process.

所定の基準を満たすと、出力音推定部30は、複数のマイクロホンごとの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)と、記憶部40に記憶されたモデルパラメータ^θ(i)と、を入力として、m番目のマイクロホンにおけるi番目の音源イメージ^xt,f (i,m)を計算して出力する。EMアルゴリズムを用いてパラメータ推定を行うと最小二乗誤差推定で音源イメージ^xt,f (i,m)を求めることが可能となる。推定される音源イメージ^xt,f (i,m)は、次式で表される。 When the predetermined criterion is satisfied, the output sound estimation unit 30 uses the observation signal ot , f (m) for each of the plurality of microphones and the sound source existence posterior probability ^ M t, calculated by the microphone-specific sound source existence posterior probability estimation unit 10 . Using f (i, m) and the model parameter ^ θ (i) stored in the storage unit 40 as input, the i-th sound source image ^ x t, f (i, m) in the m-th microphone is calculated. And output. When parameter estimation is performed using the EM algorithm, a sound source image ^ x t, f (i, m) can be obtained by least square error estimation. The estimated sound source image ^ x t, f (i, m) is expressed by the following equation.

Figure 0006059112
Figure 0006059112

〔評価実験〕
この発明の音源分離装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
[Evaluation experiment]
An evaluation experiment was conducted for the purpose of evaluating the performance of the sound source separation device 100 of the present invention. The experimental conditions were as follows.

図5に、シミュレーションに用いた音響環境を示す。部屋のサイズは10m(W)×5m(D)×5m(H)であり、残響時間は100msである。この音響環境を鏡像法(参考文献1:J. B. Allen and D. A. Berkeley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am., vol. 65(4), pp. 943-950, 1979.)を用いてシミュレーションした。   FIG. 5 shows the acoustic environment used for the simulation. The size of the room is 10 m (W) × 5 m (D) × 5 m (H), and the reverberation time is 100 ms. This acoustic environment is mirror image (Reference 1: JB Allen and DA Berkeley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am., Vol. 65 (4), pp. 943-950. , 1979.).

音響環境としては4つの環境を模擬した。第1音響環境と第2音響環境は、3人の話者が半径80cmの円状に等間隔を開けて座り、同時会話する状況を想定した。第1音響環境は、3つのマイクロホンが半径10cmの同心円状に配置されている状況とし、第2音響環境は、同じマイクロホンが半径50cmの同心円状に配置されている状況とした。図3において、第1音響環境と第2音響環境は一方の2人の話者とマイクロホンのグループが存在しない状態である。   Four acoustic environments were simulated. The first acoustic environment and the second acoustic environment are assumed to be a situation in which three speakers sit at equal intervals in a circle with a radius of 80 cm and talk at the same time. The first acoustic environment is a situation where three microphones are arranged concentrically with a radius of 10 cm, and the second acoustic environment is a situation where the same microphone is arranged concentrically with a radius of 50 cm. In FIG. 3, the first acoustic environment and the second acoustic environment are in a state where there is no group of two speakers and a microphone.

第3音響環境と第4音響環境は、3人の話者と2人の話者の2つのグループが同じ部屋で会話している状況を想定した。第3音響環境は、5つのマイクロホンが半径10cmの同心円状に配置されている状況とし、第4音響環境は、同じマイクロホンが半径50cmの同心円状に配置されている状況とした。   The 3rd acoustic environment and the 4th acoustic environment assumed the situation where two groups of three speakers and two speakers are talking in the same room. The third acoustic environment is a situation where five microphones are arranged concentrically with a radius of 10 cm, and the fourth acoustic environment is a situation where the same microphone is arranged concentrically with a radius of 50 cm.

第1番目と第2番目の音響環境においては3音源の分離を行った。第3番目と第4番目の音響環境においては5音源の分離を行った。この発明と比較する従来法は、すべてのマイクロホンにおいて共通の音源アクティビティパタンを仮定して、ソフトマスクを用いた音源分離を行う非特許文献1に示された方法とした。従来法では、各音源に最も近いマイク観測信号にソフトマスク処理を行い、分離信号を算出した。   Three sound sources were separated in the first and second acoustic environments. In the third and fourth acoustic environments, five sound sources were separated. The conventional method compared with the present invention is the method shown in Non-Patent Document 1 that performs sound source separation using a soft mask, assuming a sound source activity pattern common to all microphones. In the conventional method, the microphone observation signal closest to each sound source is subjected to soft mask processing, and the separated signal is calculated.

この発明の方法では、EMアルゴリズムの初期値として従来方法の処理結果を使用した。式(12)に示した正規化項の計算にも従来法の処理結果を用いた。正規化項の重みρはρ=0.00001とした。   In the method of the present invention, the processing result of the conventional method is used as the initial value of the EM algorithm. The processing result of the conventional method was also used for the calculation of the normalization term shown in Equation (12). The normalization term weight ρ was set to ρ = 0.0001.

評価指標としてはケプストラム距離を用いた。ケプストラム距離は、比較対象信号と各音源に最も近いマイクロホンにおける各音源イメージの距離とした。評価音声としては、TIMIT(参考文献2:W. Fisher, G.R. Doddington, and K. M. Goudie-Marshall, “The DARPA speech recognition research database: specifications and status,” in Proc. DARPA workshop on Speech Recognition, 7986, pp. 96-99.)から無作為に抽出した音声を用い、各音響環境において計20個の異なる混合音声を用意し、結果はそれらの平均値として算出した。   The cepstrum distance was used as an evaluation index. The cepstrum distance is the distance between the comparison target signal and each sound source image in the microphone closest to each sound source. For evaluation speech, TIMIT (Reference 2: W. Fisher, GR Doddington, and KM Goudie-Marshall, “The DARPA speech recognition research database: specifications and status,” in Proc. DARPA workshop on Speech Recognition, 7986, pp. 96-99.), Randomly mixed speech was used to prepare 20 different mixed speech in each acoustic environment, and the result was calculated as an average value thereof.

図6に、評価実験の結果を示す。横軸は音響環境、縦軸はケプストラム距離(dB)である。音響環境ごとに観測信号と従来法と本発明のケプストラム距離を示す。ここで、観測信号のケプストラム距離の算出のためには、各話者に最も近いマイクロホンの観測信号を用いており、最近傍マイクロホンを既知とした際のマイクロホン選択処理の結果に相当する。   FIG. 6 shows the results of the evaluation experiment. The horizontal axis is the acoustic environment, and the vertical axis is the cepstrum distance (dB). The observation signal, the conventional method, and the cepstrum distance of the present invention are shown for each acoustic environment. Here, in order to calculate the cepstrum distance of the observation signal, the observation signal of the microphone closest to each speaker is used, which corresponds to the result of the microphone selection process when the nearest microphone is known.

第1音響環境における結果では、従来法でもケプストラム距離を減らしているが、本発明は更にケプストラム距離を減らすことができている。これは、この発明の方法がケプストラム領域と類似する対数パワースペクトル領域にてパラメータ最適推定を行っているためと考えられる。   As a result of the first acoustic environment, the cepstrum distance is reduced even in the conventional method, but the present invention can further reduce the cepstrum distance. This is considered because the method of the present invention performs parameter optimum estimation in the logarithmic power spectrum region similar to the cepstrum region.

第2〜第4音響環境では、従来法による性能改善を確認することができない。従来法はケプストラム距離尺度で性能が劣化しており、過抑圧などにより歪が増大していることが予想される。本発明の方法では、全ての音響環境において、効果的にケプストラム距離を減少させることができた。このように本発明の音源分離装置100によれば、分散マイクロホンアレイ環境においても効率的に音源分離を行うことが確認できた。   In the second to fourth acoustic environments, the performance improvement by the conventional method cannot be confirmed. In the conventional method, performance is degraded on the cepstrum distance scale, and distortion is expected to increase due to over-suppression. The method of the present invention can effectively reduce the cepstrum distance in all acoustic environments. Thus, according to the sound source separation apparatus 100 of the present invention, it was confirmed that sound source separation was performed efficiently even in a distributed microphone array environment.

上記した音声分離装置100における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。   When the processing means in the speech separation apparatus 100 described above is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.

なお、効率的に最大事後確率パラメータ推定を行う目的で、EMアルゴリズムNewton-Raphson法を用いた音源分離装置100′について説明を行ったが、この発明はこの実施例に限定されない。例えば最大事後確率パラメータ推定を行うのに、EMアルゴリズムを用いる必要はない。全ての組み合わせを探索する全組み合わせ探索法を用いても、この発明の技術思想の範囲に含まれる。   For the purpose of efficiently estimating the maximum posterior probability parameter, the sound source separation apparatus 100 ′ using the EM algorithm Newton-Raphson method has been described, but the present invention is not limited to this embodiment. For example, it is not necessary to use the EM algorithm to perform maximum posterior probability parameter estimation. Even if an all combination search method for searching all combinations is used, it is within the scope of the technical idea of the present invention.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.

Claims (7)

複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定するマイク別音源存在事後確率推定部と、
上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定部と、
上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定部と、
を具備する音源分離装置。
It is assumed that the sound pressure of the signals from the multiple sound sources observed by each of the multiple microphones is different from the observation signal of the multiple channels obtained by collecting the sound source signals emitted from the multiple sound sources by the multiple microphones. A microphone-specific sound source presence posterior probability estimator that estimates the sound source presence posterior probability for each sound source for each microphone using the observed signal model;
A model parameter estimator for estimating the model parameters of the observation signal, using the observation signals of the plurality of channels and the sound source existence posterior probability as inputs;
An output sound estimator that estimates and outputs an incoming signal from each sound source for each of the microphones by using the observation signals of the plurality of channels, the sound source existence posterior probability, and the model parameter;
A sound source separation apparatus comprising:
請求項1に記載した音源分離装置において、
上記観測信号のモデルは、
m番目のマイクロホンで観測される信号ot,f (m)(但し、tは時間のインデックス、fは周波数のインデックスとする)が、上記複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
上記到来信号のモデルは、
m番目のマイクロホンで観測されるi番目の音源からの到来信号xt,f (i,m)を、
i番目の音源のクリーン音声信号st,f (i)と、
i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応する伝達関数β (i,m)と、
i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、
により定義した確率モデルであり、
上記モデルパラメータは、上記音源のクリーン音声信号st,f (i)と上記伝達関数β (i,m)と上記エラー項et,f (i,m)の分散σt,f (i,m)とである、
ことを特徴とする音源分離装置。
The sound source separation device according to claim 1,
The model of the observed signal is
A signal ot , f (m) observed by the m-th microphone (where t is a time index and f is a frequency index) arrives from each of the plurality of sound sources and is received by the m-th microphone. It is a model that is defined to be equivalent to the incoming signal with the maximum sound pressure among the observed incoming signals,
The incoming signal model is
The incoming signal x t, f (i, m) from the i th sound source observed by the m th microphone is
clean sound signal st, f (i) of the i-th sound source,
a transfer function β f (i, m) corresponding to the sound pressure of the signal arriving at the m th microphone from the i th sound source,
an error term et, f (i, m) corresponding to the difference between the signal arriving at the mth microphone from the ith sound source and the signal from the ith sound source observed at the mth microphone;
Is a probability model defined by
The model parameters are the clean sound signal s t, f (i) of the sound source, the transfer function β f (i, m) and the variance σ t, f (i ) of the error term et, f (i, m). , M)
A sound source separation device characterized by that.
請求項2に記載した音源分離装置において、
更に、記憶部と反復処理部とを備え、
上記記憶部は上記観測信号のモデルパラメータ^θ(i)を記憶するものであり、
上記マイク別音源存在事後確率推定部は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率に基づいて、上記マイクロホンmと音源iごとに音源存在事後確率^Mt,f (i,m)を推定するものであり、
上記モデルパラメータ推定部は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)と上記音源存在事後確率^Mt,f (i,m)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率の対数に、上記音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数β (i,m)とエラー項et,f (i,m)の分散σt,f (i,m)とクリーン音声信号st,f (i)とを更新するものであり、
上記反復処理部は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定部と上記モデルパラメータ推定部の処理を繰り返すものであり、
上記出力音推定部は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ^θ(i)とを入力として上記音源iごとの到来信号xt,f (i,m)を計算するもの、
であることを特徴とする音源分離装置。
In the sound source separation device according to claim 2 ,
Furthermore, a storage unit and an iterative processing unit are provided,
The storage unit stores the model parameter ^ θ (i) of the observation signal,
The microphone-specific sound source existence posterior probability estimation unit receives the observation signal ot , f (m) for each microphone m and the model parameter ^ θ (i) stored in the storage unit as inputs, and outputs the signal for each microphone m. When the observed signal o t, f (m) and the model parameter ^ θ (i) are applied to the observed signal model, the observed signal o t, f (m) and the observed signal model parameter ^ θ (i ) And the sound source existence posterior probability ^ M t, f (i, m) for each microphone m and sound source i,
The model parameter estimator includes the observation signal ot , f (m) for each microphone m, the model parameter ^ θ (i) stored in the storage unit, and the sound source posterior probability ^ M t, f (i, and m) as an input, the observed signal when the observed signal o t for each said microphone m, f a model parameter ^ theta and (i) (m) was fitted to the model of the observed signal o t, f (m ) And the model parameter ^ θ (i) of the observed signal multiplied by the weight corresponding to the sound source posterior probability ^ M t, f (i, m) to all the observed signals The transfer function β f (i, m) and the variance σ t, f (i, m) of the error term et, f (i, m) stored in the storage unit are increased so that the weighted sum added with respect to m) and clean audio signal st, f (i) Is a new one,
The iterative processing unit repeats the processing of the microphone-specific sound source presence posterior probability estimation unit and the model parameter estimation unit until a predetermined criterion is satisfied,
The output sound estimation unit receives the observation signals of the plurality of channels, the sound source existence posterior probability, and the parameter ^ θ (i) stored in the storage unit, and receives the incoming signal x t, f (i , M)
A sound source separation device characterized by the above.
複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定するマイク別音源存在事後確率推定過程と、
上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定過程と、
上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定過程と、
を備える音源分離方法。
It is assumed that the sound pressure of the signals from the multiple sound sources observed by each of the multiple microphones is different from the observation signal of the multiple channels obtained by collecting the sound source signals emitted from the multiple sound sources by the multiple microphones. A microphone-specific sound source presence posterior probability estimation process for estimating the sound source presence posterior probability for each sound source for each microphone using the observed signal model;
A model parameter estimation process for estimating the model parameters of the observation signal by using the observation signals of the plurality of channels and the sound source existence posterior probability as inputs,
An output sound estimation process for estimating and outputting an incoming signal from each sound source for each of the microphones by using the observation signals of the plurality of channels, the sound source existence posterior probability, and the model parameter;
A sound source separation method comprising:
請求項4に記載した音源分離方法において、
上記観測信号のモデルは、
m番目のマイクロホンで観測される信号ot,f (m)(但し、tは時間のインデックス、fは周波数のインデックスとする)が、上記複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
上記到来信号のモデルは、
m番目のマイクロホンで観測されるi番目の音源からの到来信号xt,f (i,m)を、
i番目の音源のクリーン音声信号st,f (i)と、
i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応する伝達関数β (i,m)と、
i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、
により定義した確率モデルであり、
上記モデルパラメータは、上記音源のクリーン音声信号st,f (i)と上記伝達関数β (i,m)と上記エラー項et,f (i,m)の分散σt,f (i,m)とである、
ことを特徴とする音源分離方法。
In the sound source separation method according to claim 4,
The model of the observed signal is
A signal ot , f (m) observed by the m-th microphone (where t is a time index and f is a frequency index) arrives from each of the plurality of sound sources and is received by the m-th microphone. It is a model that is defined to be equivalent to the incoming signal with the maximum sound pressure among the observed incoming signals,
The incoming signal model is
The incoming signal x t, f (i, m) from the i th sound source observed by the m th microphone is
clean sound signal st, f (i) of the i-th sound source,
a transfer function β f (i, m) corresponding to the sound pressure of the signal arriving at the m th microphone from the i th sound source,
an error term et, f (i, m) corresponding to the difference between the signal arriving at the mth microphone from the ith sound source and the signal from the ith sound source observed at the mth microphone;
Is a probability model defined by
The model parameters are the clean sound signal s t, f (i) of the sound source, the transfer function β f (i, m) and the variance σ t, f (i ) of the error term et, f (i, m). , M)
A sound source separation method characterized by the above.
請求項5に記載した音源分離方法において、
更に、反復処理過程を備え、
上記マイク別音源存在事後確率推定過程は、上記マイクロホンmごとの観測信号ot,f (m)と記憶部に記憶されたモデルパラメータ^θ(i)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率に基づいて、上記マイクロホンmと音源iごとに音源存在事後確率^Mt,f (i,m)を推定するものであり、
上記モデルパラメータ推定過程は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)と上記音源存在事後確率^Mt,f (i,m)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率の対数に、上記音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数β (i,m)とエラー項et,f (i,m)の分散σt,f (i,m)とクリーン音声信号st,f (i)とを更新するものであり、
上記反復処理過程は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定過程と上記モデルパラメータ推定過程の処理を繰り返すものであり、
上記出力音推定過程は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ^θ(i)とを入力として上記音源iごとの到来信号xt,f (i,m)を計算する過程、
であることを特徴とする音源分離方法。
In the sound source separation method according to claim 5 ,
Furthermore, it has an iterative process,
The microphone-specific sound source existence posterior probability estimation process is performed by using the observation signal ot , f (m) for each microphone m and the model parameter ^ θ (i) stored in the storage unit as input, and observing for each microphone m. The observed signal o t, f (m) and the model parameter ^ θ (i) of the observed signal when the signal o t, f (m) and the model parameter ^ θ (i) are applied to the model of the observed signal. And the sound source existence posterior probability ^ M t, f (i, m) for each microphone m and sound source i,
The model parameter estimation process includes the observation signal ot , f (m) for each microphone m, the model parameter ^ θ (i) stored in the storage unit, and the sound source existence posterior probability ^ M t, f (i, and m) as an input, the observed signal when the observed signal o t for each said microphone m, f a model parameter ^ theta and (i) (m) was fitted to the model of the observed signal o t, f (m ) And the model parameter ^ θ (i) of the observed signal multiplied by the weight corresponding to the sound source posterior probability ^ M t, f (i, m) to all the observed signals The transfer function β f (i, m) and the variance σ t, f (i, m) of the error term et, f (i, m) stored in the storage unit are increased so that the weighted sum added with respect to m) and the clean audio signal st, f (i) To update,
The iterative process is to repeat the processes of the microphone-specific sound source presence posterior probability estimation process and the model parameter estimation process until a predetermined criterion is satisfied,
In the output sound estimation process, the received signals x t, f (i ) for each sound source i are input with the observation signals of the plurality of channels, the sound source existence posterior probability, and the parameter ^ θ (i) stored in the storage unit. , M) ,
A sound source separation method characterized by the above.
請求項4乃至6の何れかに記載した音源分離方法を、コンピュータで処理するためのプログラム。   A program for processing the sound source separation method according to any one of claims 4 to 6 by a computer.
JP2013171079A 2013-08-21 2013-08-21 Sound source separation device, method and program thereof Active JP6059112B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013171079A JP6059112B2 (en) 2013-08-21 2013-08-21 Sound source separation device, method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013171079A JP6059112B2 (en) 2013-08-21 2013-08-21 Sound source separation device, method and program thereof

Publications (2)

Publication Number Publication Date
JP2015040934A JP2015040934A (en) 2015-03-02
JP6059112B2 true JP6059112B2 (en) 2017-01-11

Family

ID=52695141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013171079A Active JP6059112B2 (en) 2013-08-21 2013-08-21 Sound source separation device, method and program thereof

Country Status (1)

Country Link
JP (1) JP6059112B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6339520B2 (en) * 2015-04-01 2018-06-06 日本電信電話株式会社 Sound source separation device, sound source separation method, and sound source separation program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008079256A (en) * 2006-09-25 2008-04-03 Toshiba Corp Acoustic signal processing apparatus, acoustic signal processing method, and program
JP5568530B2 (en) * 2011-09-06 2014-08-06 日本電信電話株式会社 Sound source separation device, method and program thereof

Also Published As

Publication number Publication date
JP2015040934A (en) 2015-03-02

Similar Documents

Publication Publication Date Title
JP4875656B2 (en) Signal section estimation device and method, program, and recording medium
JP5568530B2 (en) Sound source separation device, method and program thereof
JP4964204B2 (en) Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium
JP6723120B2 (en) Acoustic processing device and acoustic processing method
KR20200145219A (en) Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments
KR102087307B1 (en) Method and apparatus for estimating direction of ensemble sound source based on deepening neural network for estimating direction of sound source robust to reverberation environment
JP2007279444A (en) Feature amount compensation apparatus, method and program
JP6594839B2 (en) Speaker number estimation device, speaker number estimation method, and program
JP2012088390A (en) Voice recognition device and voice recognition method
KR20190130533A (en) Hearing Aid Having Voice Activity Detector and Method thereof
JP2007047427A (en) Sound processor
KR20220022286A (en) Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder
JP5351856B2 (en) Sound source parameter estimation device, sound source separation device, method thereof, program, and storage medium
JP6059112B2 (en) Sound source separation device, method and program thereof
Subba Ramaiah et al. A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization
EP3557576A1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP6285855B2 (en) Filter coefficient calculation apparatus, audio reproduction apparatus, filter coefficient calculation method, and program
JP6339520B2 (en) Sound source separation device, sound source separation method, and sound source separation program
KR102346133B1 (en) Direction-of-arrival estimation method based on deep neural networks
JP6114053B2 (en) Sound source separation device, sound source separation method, and program
Nakagome et al. Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation.
KR101022457B1 (en) Method to combine CASA and soft mask for single-channel speech separation
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
JP2019193073A (en) Sound source separation device, method thereof, and program
JP2010181467A (en) A plurality of signals emphasizing device and method and program therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161208

R150 Certificate of patent or registration of utility model

Ref document number: 6059112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150