JP6059112B2 - Sound source separation device, method and program thereof - Google Patents
Sound source separation device, method and program thereof Download PDFInfo
- Publication number
- JP6059112B2 JP6059112B2 JP2013171079A JP2013171079A JP6059112B2 JP 6059112 B2 JP6059112 B2 JP 6059112B2 JP 2013171079 A JP2013171079 A JP 2013171079A JP 2013171079 A JP2013171079 A JP 2013171079A JP 6059112 B2 JP6059112 B2 JP 6059112B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- signal
- microphone
- observed
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、入力信号に複数の目的信号が含まれている場合において、各目的信号を精度良く抽出する音源分離装置と、その方法とプログラムに関する。 The present invention relates to a sound source separation device that extracts each target signal with high accuracy when an input signal includes a plurality of target signals, and a method and program thereof.
複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。その結果、本来の目的音声信号(以下、目的信号)の性質を抽出することが困難となり、自動音声認識(以下、音声認識)システムの認識率も著しく低下する。よって認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離することで、目的信号の明瞭度を回復する工夫(方法)が必要である。 When an acoustic signal is collected in an environment where a plurality of target sound sources exist, a mixed signal in which the target signals overlap each other is often observed. At this time, when the target sound source of interest is an audio signal, the clarity of the target sound is greatly reduced due to the influence of other sound source signals superimposed on the target signal. As a result, it becomes difficult to extract the nature of the original target speech signal (hereinafter referred to as the target signal), and the recognition rate of the automatic speech recognition (hereinafter referred to as speech recognition) system is significantly reduced. Therefore, in order to prevent the recognition rate from being lowered, it is necessary to devise a method (method) for recovering the clarity of the target signal by separating a plurality of target signals.
この複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるTV会議システム、実環境で用いられる音声認識システム、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。 The elemental technology for separating the plurality of target signals can be used for various acoustic signal processing systems. For example, a hearing aid that extracts the target signal from the sound collected in the real environment to improve ease of hearing, a TV conference system that improves the intelligibility of the voice by extracting the target signal, and audio used in the real environment It can be used for a recognition system, a machine-human interaction device in a machine control interface, a music information processing system for searching and recording music, and the like.
図7に、例えば非特許文献1に開示されている従来の音源分離装置900の機能構成を示してその動作を簡単に説明する。音源分離装置900は、全マイク共通音源存在事後確率推定部90、フィルタリング部91、を備える。
FIG. 7 shows a functional configuration of a conventional sound source separation device 900 disclosed in Non-Patent
全マイク共通音源存在事後確率推定部90は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力として、当該各観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを算出し、その特徴ベクトルを分類することで各音源に関する存在確率を計算する。フィルタリング部91は、複数のマイクロホンで収音した複数チャネルの観測信号に、上記存在確率を乗算することで音源信号を回復する。
The sound source signal posterior
しかし、複数のマイクロホンが空間的に大きく分散された形で配置されていると、各マイクロホンで観測されるある音源の音圧は同程度にならない。極端な場合は、ある音源はあるマイクロホンにおいて実質的に観測不可能な状況も起こり得る。このような状況では、各マイクロホンで異なる音源存在確率(アクティビティパタン)を仮定することが妥当である。しかし、従来の方法では、マイクロホン別に音源存在確率を計算することができないため、分散マイクロホンアレイ環境において、効率的な音源分離を行うことができない課題があった。 However, if a plurality of microphones are arranged in a spatially dispersed manner, the sound pressure of a certain sound source observed by each microphone does not become comparable. In extreme cases, a situation can occur in which a certain sound source is substantially unobservable with a certain microphone. In such a situation, it is reasonable to assume different sound source existence probabilities (activity patterns) for each microphone. However, in the conventional method, since the sound source existence probability cannot be calculated for each microphone, there is a problem that efficient sound source separation cannot be performed in a distributed microphone array environment.
この発明は、このような課題に鑑みてなされたものであり、分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる音源分離装置とその方法とプログラムを提供することを目的とする。 The present invention has been made in view of such a problem, and an object thereof is to provide a sound source separation apparatus, a method thereof, and a program capable of efficiently performing sound source separation even in a distributed microphone array environment.
この発明の音源分離装置は、マイク別音源存在事後確率推定部と、モデルパラメータ推定部と、出力音推定部と、を具備する。マイク別音源存在事後確率推定部は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定する。モデルパラメータ推定部は、複数チャネルの観測信号と、音源存在事後確率を入力として、観測信号のモデルパラメータを推定する。出力音推定部は、複数チャネルの観測信号と、音源存在事後確率と、モデルパラメータと、を入力として各マイクロホンごとに各音源からの到来信号を推定して出力する。 The sound source separation device according to the present invention includes a microphone-specific sound source presence posterior probability estimation unit, a model parameter estimation unit, and an output sound estimation unit. The microphone-specific sound source existence posterior probability estimation unit includes a plurality of channel observation signals obtained by collecting sound source signals emitted from a plurality of sound sources by a plurality of microphones, and each of the plurality of sound sources observed by each of the plurality of microphones. The sound source existence posterior probability for each sound source is estimated for each microphone, using the model of the observed signal assuming that the sound pressures of the signals are different. The model parameter estimation unit estimates the model parameters of the observation signal by using the observation signals of a plurality of channels and the sound source existence posterior probability as inputs. The output sound estimation unit estimates and outputs an incoming signal from each sound source for each microphone by using the observation signals of a plurality of channels, the sound source posterior probability, and the model parameters as inputs.
この発明の音源分離装置によれば、複数のマイクロホンごとに各音源に関して推定した音源存在事後確率を用いて、音源ごとに音源からの到来信号(音源イメージ)を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。評価実験で確認した具体的な効果については後述する。 According to the sound source separation device of the present invention, the arrival signal (sound source image) from the sound source is estimated for each sound source using the sound source existence posterior probability estimated for each sound source for each of a plurality of microphones. Sound source separation can be performed efficiently. Specific effects confirmed in the evaluation experiment will be described later.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、観測信号をモデル化する。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated. Before the description of the embodiment, the observation signal is modeled.
〔観測信号のモデル化〕
複数の点音源(1,2,…Ni)から発音する音声を、複数のマイクロホン(1,2,…Nm)のm番目のマイクロホンで観測した場合、i番目の音源から到来する信号xt,f (i,m)は、時間周波数領域において以下のように表される。t(t=1,…Nt),f(f=1,…,Nf)は、時間と周波数のインデックスである。
[Modeling of observed signals]
When sound generated from a plurality of point sound sources (1, 2,... N i ) is observed by the m-th microphone of the plurality of microphones (1, 2,... N m ), the signal x coming from the i-th sound source t, f (i, m) is expressed as follows in the time-frequency domain. t (t = 1,... N t ) and f (f = 1,..., N f ) are time and frequency indexes.
ここでSt,f (i)とst,f (i)は、それぞれi番目の音源からのクリーン音声信号の短時間フーリエ変換領域での信号と対数パワー領域での信号に相当し、それぞれマイク位置非依存のパラメータである。また、Hf (i,m)とβf (i,m)は、同様に短時間フーリエ変換領域と対数パワースペクトル領域での伝達関数に相当する。 Here, S t, f (i) and st, f (i) correspond to a signal in the short-time Fourier transform domain and a signal in the logarithmic power domain of the clean speech signal from the i-th sound source, respectively. This is a microphone position independent parameter. Similarly, H f (i, m) and β f (i, m) correspond to transfer functions in the short-time Fourier transform region and the logarithmic power spectrum region.
以降の説明では、変数βf (i,m)はマイク位置依存・音源時不変ゲインと称する。i番目の音源から到来する信号xt,f (i,m)を音源イメージと称する。et,f (i,m)はエラー項であり、xt,f (i,m)とlog|St,f (i)Hf (i,m)|2の差であり、例えば伝達関数の揺らぎを表す。このエラー項et,f (i,m)は、平均0、分散σt,f (i,m)の白色信号であると仮定する。 In the following description, the variable β f (i, m) is referred to as a microphone position dependent / sound source time invariant gain. A signal x t, f (i, m) coming from the i-th sound source is referred to as a sound source image. e t, f (i, m ) is the error term, x t, f (i, m) and log | S t, f (i ) H f (i, m) | is the difference between the 2, for example, transfer Represents function fluctuations. This error term et, f (i, m) is assumed to be a white signal with an average of 0 and a variance σt , f (i, m) .
以上の定義に従うと、i番目の音源からのクリーン音声信号st,f (i)とその音源イメージxt,f (i,m)との関係は、ガウス分布の確率密度関数として次のようにモデル化することができる。 According to the above definition, the relationship between the clean sound signal s t, f (i) from the i-th sound source and the sound source image x t, f (i, m) is as follows as a probability density function of Gaussian distribution. Can be modeled.
ここで、θ(i)はモデルパラメータ一式を表す。Nは正規分布(Normal distribution)を意味する。 Here, θ (i) represents a set of model parameters. N means a normal distribution.
次に、LogMax近似を用いて、複数の点音源が存在する環境におけるm番目のマイクロホンで収音した観測信号ot,f (m)をモデル化する。その近似を用いれば、次式に示すように観測信号ot,f (m)は、全点音源の中で最大の音圧を持つ支配的な音源信号の値と同値となる。 Next, the observation signal o t, f (m) collected by the m-th microphone in an environment where a plurality of point sound sources exists is modeled using LogMax approximation. If the approximation is used, the observed signal ot , f (m) becomes the same value as the dominant sound source signal having the maximum sound pressure among all point sound sources as shown in the following equation.
このモデル化では支配的ではない音源は、観測信号の対数パワースペクトル以下の値であれば、任意の値を取ることができる。上記したLogMax近似モデルは、次式に示すように確率的に定式化される。 A sound source that is not dominant in this modeling can take any value as long as it is a value less than or equal to the logarithmic power spectrum of the observation signal. The above LogMax approximate model is stochastically formulated as shown in the following equation.
ここで、It,f (m)は、m番目のマイクロホンの観測信号の各時間周波数ビンにおける支配的な音源の音源インデックスを表し、δ(・)はディラックのデルタ関数を表す。以降の説明では、変数It,f (m)は支配的音源インデックス(DSI:Dominant Source Index)と称し、簡単のために添え字は省略する。 Here, I t, f (m) represents a sound source index of a dominant sound source in each time frequency bin of the observation signal of the m-th microphone, and δ (·) represents a Dirac delta function. In the following description, the variable It , f (m) is referred to as a dominant source index (DSI), and the subscript is omitted for simplicity.
式(3)は、m番目のマイクロホンにおける観測信号ot,f (m)が、そのマイクロホンにおける支配的な音源イメージと同値であることを表している。ここで、マイクロホンごとに異なる音声のアクティビティパタン、つまり支配的音源インデックスDSIが割り当てられていることに注意されたい。 Expression (3) represents that the observation signal ot , f (m) in the m-th microphone is equivalent to the dominant sound source image in the microphone. Here, it should be noted that a different sound activity pattern, that is, a dominant sound source index DSI, is assigned to each microphone.
上記した確率モデルを用いると観測信号ot,f (m)とI(支配的音源インデックスDSI)の同時確率は次式のように導出される。 When the above probability model is used, the joint probability of the observation signals ot , f (m) and I (dominant sound source index DSI) is derived as follows.
なお、θ(i)は各音源iに関するパラメータを表し、θはすべての音源に関するパラメータを表す。すなわち、式(6)は、観測信号ot,f (m)とI(支配的音源インデックスDSI)を含むモデルパラメータθの同時確率である。各音源の音源イメージxt,f (i,m)と観測信号の確率モデルを、上記したようにモデル化した前提で、以下の実施例を説明する。なお、以降の説明では、上述のLogMax近似モデル(式(4))を、「LogMax観測モデル」あるいは「観測信号の確率モデル」として参照する。 Θ (i) represents a parameter related to each sound source i, and θ represents a parameter related to all sound sources. That is, Expression (6) is a joint probability of the model parameter θ including the observation signal o t, f (m) and I (dominant sound source index DSI). The following example will be described on the assumption that the sound source image x t, f (i, m) of each sound source and the probability model of the observation signal are modeled as described above. In the following description, the above-described LogMax approximate model (formula (4)) is referred to as a “LogMax observation model” or an “observation signal probability model”.
〔この発明の考え〕
この発明の音源分離方法は、上記した音源イメージxt,f (i,m)に含まれる重要なパラメータに着目することで、複数のマイクロホンごとに異なるアクティビティパタンの推定を可能にする。
[Concept of this invention]
The sound source separation method of the present invention makes it possible to estimate a different activity pattern for each of a plurality of microphones by paying attention to important parameters included in the sound source image x t, f (i, m) .
この発明の音源分離方法を特徴付ける重要なパラメータは、支配的音源インデックスDSIである。支配的音源インデックスDSIは、各音源の各マイクロホンにおけるアクティビティパタンを示しているので、このパラメータを推定できれば、各マイクロホンごとに異なるアクティビティパタンを推定することが直接的に可能となる。 An important parameter characterizing the sound source separation method of the present invention is the dominant sound source index DSI. Since the dominant sound source index DSI indicates an activity pattern of each microphone of each sound source, if this parameter can be estimated, it is possible to directly estimate an activity pattern that is different for each microphone.
この支配的音源インデックスDSIに加えて、当該パラメータを暗に支える形となっている時不変のマイク位置依存・音源時不変ゲインβf (i,m)と、時変のマイク非依存・音源対数パワースペクトルst,f (i)を用いる(式(1)参照)。 In addition to the dominant sound source index DSI, the time-invariant microphone position dependence / sound source time-invariant gain β f (i, m) and the time-variant microphone independence / sound source logarithm that are implicitly supporting the parameter The power spectrum s t, f (i) is used (see equation (1)).
これらのパラメータを用いることで、アクティビティパタンが推定できる原理を簡単に説明する。例えば、仮にある音源がm番目のマイクロホンに高いSNRで到来すると、SNRに対応するパラメータであるマイク位置依存・音源時不変ゲインβf (i,m)は相対的に高い値を取る傾向にあり、その音源はLogMax観測モデルの元で支配的な音源として観測される。 The principle that the activity pattern can be estimated by using these parameters will be briefly described. For example, if a certain sound source arrives at the m-th microphone with a high SNR, the microphone position-dependent / sound source time-invariant gain β f (i, m), which is a parameter corresponding to the SNR, tends to take a relatively high value. The sound source is observed as the dominant sound source under the LogMax observation model.
ある時間周波数ビンにおいて支配的な音源として陽に観測された信号は、その音源の対数パワースペクトルを推定することを可能にする。一方で、ある音源がm番目のマイクロホンに低いSNRで到来すると、マイク位置依存・音源時不変ゲインβf (i,m)は相対的に低い値を取る傾向にあり、その音源はLogMax観測モデルの元で非支配的な音源となる。LogMax観測モデルの元では、非支配的な音源のスペクトルは陽には観測されないので、その音源の対数パワースペクトルの推定は行われない。 A signal that is positively observed as the dominant sound source in a certain time frequency bin makes it possible to estimate the logarithmic power spectrum of that sound source. On the other hand, when a certain sound source arrives at the m-th microphone with a low SNR, the microphone position-dependent / sound source time-invariant gain β f (i, m) tends to take a relatively low value. Becomes a non-dominant sound source. Under the LogMax observation model, the spectrum of the non-dominant sound source is not observed explicitly, so the logarithmic power spectrum of the sound source is not estimated.
このようにこの発明では、各音源の対数パワースペクトルの推定を行うのにSNRの高い、一般的には音源に近いマイクロホンの観測信号を主に用いるようになる。その結果、複数のマイクロホンからの情報を効果的に加味しながら、各マイクロホンごとに異なるアクティビティパタンの推定が可能となる。 As described above, in the present invention, a microphone observation signal having a high SNR, generally close to the sound source, is mainly used to estimate the logarithmic power spectrum of each sound source. As a result, it is possible to estimate different activity patterns for each microphone while effectively taking into account information from a plurality of microphones.
具体的な実施例では、支配的音源インデックスDSIを潜在変数とした期待値最大化法(EMアルゴリズム)を用いてアクティビティパタンの推定を行う。Eステップ(期待値)では、支配的音源インデックスDSIに関する事後確率を更新し、どの音源がどのマイクロホンのどの時間周波数ビンで支配的かという情報を推定する。Mステップ(更新)では、その事後確率に基づいて、各音源のマイク位置依存・音源時不変ゲインβf (i,m)とマイク非依存・音源対数パワースペクトルst,f (i)とエラー項et,f (i,m)の分散σt,f (i,m)を更新する。 In a specific embodiment, the activity pattern is estimated using an expected value maximization method (EM algorithm) with the dominant sound source index DSI as a latent variable. In step E (expected value), the posterior probability relating to the dominant sound source index DSI is updated, and information about which sound source is dominant in which time frequency bin of which microphone is estimated. In M step (update), based on the posterior probability, the microphone position-dependent / sound source time-invariant gain β f (i, m) , microphone-independent / sound source log power spectrum st, f (i) and error Update the variance σ t, f (i, m) of the term et, f (i, m) .
図1に、この発明の音源分離装置100の機能構成例を示す。その動作フローを図2に示す。音源分離装置100は、マイク別音源存在事後確率推定部10と、モデルパラメータ推定部20と、出力音推定部30と、を具備する。音源分離装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows a functional configuration example of a sound source separation device 100 of the present invention. The operation flow is shown in FIG. The sound source separation device 100 includes a microphone-specific sound source presence posterior
マイク別音源存在事後確率推定部10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号ot,f (m)と、マイクロホンの各々で観測される上記複数の音源iの各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンmごとに各音源iに関する音源存在事後確率^Mt,f (i,m)を推定する(ステップS10)。ここで、観測信号のモデルは、m番目のマイクロホンで観測される信号ot,f (i,m)が、複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるように定義されたモデル(LogMax観測モデル、式(4))である。また、到来信号のモデルは、m番目のマイクロホンで観測されるi番目の音源の音源イメージxt,f (i,m)が、i番目の音源のマイク非依存・音源対数パワースペクトルst,f (i)と、i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応するマイク位置依存・音源時不変ゲインβf (i,m)と、i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、により定義した確率モデルである(式(1))。
The microphone-specific sound source existence posterior
なお、マイク非依存・音源対数パワースペクトルst,f (i)は、マイクロホンに依存しない音源からのクリーン音声信号と称しても良いものである。また、マイク位置依存・音源時不変ゲインβf (i,m)は、音源とマイクロホン位置によって変化する値であり、伝達関数と称しても良いものである。なお、^等の表記は、図及び式中に表記されているように変数の直上に位置するのが正しい表記である。 The microphone-independent / sound source logarithmic power spectrum s t, f (i) may be referred to as a clean audio signal from a sound source that does not depend on the microphone. The microphone position-dependent / sound source time-invariant gain β f (i, m) is a value that varies depending on the sound source and the microphone position, and may be referred to as a transfer function. It should be noted that the notation such as ^ is a correct notation that is located immediately above the variable as shown in the drawings and equations.
モデルパラメータ推定部20は、複数チャネルの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で推定した音源存在事後確率^Mt,f (i,m)を入力として、観測信号のモデルパラメータ^θ(i)を推定する(ステップS20)。モデルパラメータ^θ(i)は、マイク非依存・音源対数パワースペクトルst,f (i)と、マイク位置依存・音源時不変ゲインβf (i,m)と、エラー項et,f (i,m)の分散σt,f (i,m)と、である。
The model
出力音推定部30は、複数チャネルの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で推定した音源存在事後確率^Mt,f (i,m)と、モデルパラメータ推定部20で推定したモデルパラメータ^θ(i)と、を入力として各マイクロホンmごとに各音源iに関する音源イメージxt,f (i,m)を推定して出力する(ステップS30)。
The output
以上説明したように動作する音源分離装置100は、複数の各マイクロホンmにおいて各音源iごとに推定した音源存在事後確率^Mt,f (i,m)を用いて、音源iごとの音源イメージxt,f (i,m)を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。以降において、音源分離装置100の動作を更に詳しく説明する。 The sound source separation apparatus 100 that operates as described above uses the sound source existence posterior probability ^ M t, f (i, m) estimated for each sound source i in each of the plurality of microphones m, and the sound source image for each sound source i. Since x t, f (i, m) is estimated, sound source separation can be performed efficiently even in a distributed microphone array environment. Hereinafter, the operation of the sound source separation device 100 will be described in more detail.
音源分離装置100は、最大事後確率(MAP)基準で効果的にモデルパラメータ^θ(i)の推定を行う。この実施例では、支配的音源インデックスDSIを潜在変数とみなして、モデルパラメータ^θ(i)=(st,f (i),βf (i,m),σt,f (i,m))を推定する。効率的な最大事後確率パラメータ推定を行うために、この実施例ではEMアルゴリズムを用い以下の補助関数を繰り返し最大化する。 The sound source separation device 100 effectively estimates the model parameter {circumflex over ( θ ) } (i) on the basis of the maximum posterior probability (MAP). In this embodiment, the dominant sound source index DSI is regarded as a latent variable, and model parameters ^ (i) = (s t, f (i) , β f (i, m) , σ t, f (i, m )) ). In order to perform efficient maximum posterior probability parameter estimation, this embodiment repeatedly maximizes the following auxiliary functions using the EM algorithm.
ここで、θはモデルパラメータの事前推定値、^θはモデルパラメータの推定値を表す。また、式(7)におけるp(xt,f (i,m);θ(i))は、式(2)で定義されている通り、モデルパラメータの事前推定値θから算出することができる。なお、事前推定値θは予め与えられているものとする。すなわち、上述の補助関数Q(θ|^θ)は、観測信号ot,f (m)と支配的音源インデックスDSIを含むモデルパラメータの事前推定値との同時確率p(ot,f (m),It,f (m)=i;θ(i))に、音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和である。EMアルゴリズムでは、この補助関数の値が大きくなるように、モデルパラメータを更新する。 Here, θ represents a prior estimated value of the model parameter, and ^ θ represents an estimated value of the model parameter. Further, p (x t, f (i, m) ; θ (i) ) in the equation (7) can be calculated from the pre-estimated value θ of the model parameter as defined in the equation (2). . It is assumed that the prior estimated value θ is given in advance. That is, the auxiliary function Q (θ | ^ θ) described above has the simultaneous probability p (o t, f (m ) between the observed signal o t, f (m) and the prior estimation value of the model parameter including the dominant sound source index DSI. ) , It , f (m) = i; θ (i) ) multiplied by the weight corresponding to the sound source posterior probability ^ M t, f (i, m) for all the observed signals It is a weighted sum. In the EM algorithm, the model parameter is updated so that the value of the auxiliary function is increased.
各マイクロホンmにおける音源存在事後確率^Mt,f (i,m)は次式で表せる。 The sound source existence posterior probability ^ M t, f (i, m) in each microphone m can be expressed by the following equation.
式(7)は、第二項の複雑性により、解析的に最大化することができない。そこで、この実施例では、Newton-Raphson法を用いて効率的に補助関数を最大化する。 Equation (7) cannot be maximized analytically due to the complexity of the second term. Therefore, in this embodiment, the auxiliary function is maximized efficiently using the Newton-Raphson method.
図3に、EMアルゴリズムとNewton-Raphson法を用いる音源分離装置100′の機能構成例を示す。音源分離装置100′は、音源分離装置100の構成に加えて、更に記憶部40と、反復処理部50と、を備える。モデルパラメータ推定部20は、マイク位置依存・音源時不変ゲイン推定手段201と、マイク非依存・音源対数パワースペクトル推定手段202と、を含む。
FIG. 3 shows a functional configuration example of a sound source separation device 100 ′ using the EM algorithm and the Newton-Raphson method. In addition to the configuration of the sound source separation device 100, the sound source separation device 100 ′ further includes a
パラメータの最適化手順は、マイク別音源存在事後確率推定部10とモデルパラメータ推定部20と記憶部40と反復処理部50と、で行う。図4に、パラメータの最適化手順の動作フローを示す。
The parameter optimization procedure is performed by the microphone-specific sound source presence posterior
記憶部40には、モデルパラメータ^θ(i)=(^st,f (i),^βf (i,m),^σt,f (i,m))の初期値θと、更新された値とが記憶される。記憶部40は、更新されたモデルパラメータ^θ(i)のみを記憶し、初期値θはその値を必要とする各部に予め定数として持たせるようにしても良い。
In the
マイク別音源存在事後確率推定部10は、複数のマイクロホンごとの観測信号ot,f (m)と、記憶部40に記憶されたモデルパラメータ^θ(i)=(^st,f (i),^βf (i,m),^σt,f (i,m))とを入力として、各マイクロホンごとに、式(8)により、各音源iに関する音源存在事後確率^Mt,f (i,m)を計算する(ステップS10)。すなわち、マイク別音源存在事後確率推定部10は、観測信号ot,f (m)とモデルパラメータ^θ(i)とを観測信号のモデルに当てはめたときの、観測信号ot,f (m)とモデルパラメータ^θ(i)との同時確率に基づいて、音源存在事後確率^Mt,f (i,m)を計算する。この処理は、EMアルゴリズムのEステップに当たる。
The microphone-specific sound source existence posterior
マイク位置依存・音源時不変ゲイン推定手段201は、複数のマイクロホンごとの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)と、記憶部40に記憶されたモデルパラメータ^θ(i)のマイク非依存・音源対数パワースペクトル^st,f (i)を入力として、次式でマイク位置依存・音源時不変ゲイン^βf (i,m)と分散σt,f (i,m)を計算して、記憶部40に記憶されている当該パラメータの値を更新する(ステップS201)。なお、以下の式では、条件ot,f (m)>(^st,f (i)+^βf (i,m))が満たされる場合は、^κt,f (i、m)=^Mt,f (i,m)とし、満たされない場合は^κt,f (i、m)=1とする。
The microphone position-dependent / sound source time-invariant
マイク非依存・音源対数パワースペクトル推定手段202は、マイクロホンmごとの観測信号ot,f (m)と、記憶部40に記憶されたモデルパラメータ^θ(i)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)を入力として、複数のマイクロホンmとの間で共通となるi番目の音源からのクリーン音声信号st,f (i)を次式で計算して、記憶部40に記憶されている当該パラメータの値を更新する(ステップS202)。ステップS201とS202の処理(ステップS20)は、EMアルゴリズムのMステップに当たる。
The microphone-independent / logarithmic power logarithmic power spectrum estimation means 202 is arranged such that the observed signal ot , f (m) for each microphone m, the model parameter ^ θ (i) stored in the
また、^st,f (i)と^βf (i,m)の更新式は類似していることが分かる。これらの更新式の違いは平均化処理にあり、^st,f (i)はマイクロホン番号に関する平均として計算され、一方で^βf (i,m)は、時間インデックスに関する平均として計算される。 Also, it can be seen that the update formulas of ^ s t, f (i) and ^ β f (i, m) are similar. The difference between these update formulas is in the averaging process, where {circumflex over ( s ) } t, f (i) is calculated as the average over the microphone number, while {circumflex over ( β ) f (i, m) is calculated as the average over the time index. .
なお、式(9)における補助関数は、式(7)で定義される補助関数と式(12)で計算される値に重みρを乗じたものを加算した値とする。これは、あるマイクロホンにおいて全く支配的にならない音源(LogMax観測モデルの元では陽には全く観測されない音源)があると、マイク位置依存・音源時不変ゲイン^βf (i,m)の最適解は無限小となってしまい推定処理全体が不安定になる。前述のように、マイク非依存・音源対数パワースペクトル^st,f (i)に関して以下のような正規化項(事前分布)203を定義し、補助関数に重みρで加算すれば、このような問題を回避することができる。 The auxiliary function in equation (9) is a value obtained by adding the auxiliary function defined in equation (7) and the value calculated in equation (12) multiplied by the weight ρ. This is because if there is a sound source that does not dominate at all in a certain microphone (a sound source that is not positively observed under the LogMax observation model ) , the optimal solution for the microphone position-dependent and sound source time-invariant gain ^ β f (i, m) Becomes infinitesimal and the entire estimation process becomes unstable. As described above, the following normalization term (prior distribution) 203 is defined for the microphone-independent / sound source log power spectrum ^ s t, f (i) , and added to the auxiliary function with the weight ρ, like this Problems can be avoided.
正規化項203は、記憶部40に予め記憶させておいても良いし、図3に示すようにモデルパラメータ推定部20の内部に定数として持たせるようにしても良い。
The
以上のように、モデルパラメータ推定部20では、式(7)の補助関数、つまり、観測信号ot,f (m)と現在のモデルパラメータ推定値θ(i)を観測モデルに当てはめたときの、観測信号ot,f (m)と支配的音源インデックスDSIを含むモデルパラメータ推定値θ(i)との同時確率p(ot,f (m),It,f (m)=i;θ(i))に、音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、モデルパラメータ(マイク位置依存・音源時不変ゲイン^βf (i,m)と分散σt,f (i,m)とマイク非依存・音源対数パワースペクトル^st,f (i))を更新する(式(9)〜(11))。
As described above, in the model
反復処理部50は、所定の基準を満たすまでEステップとMステップを繰り返す(ステップS51)。所定の基準としては、例えば更新前のモデルパラメータ^θ及び各音源に関する音源存在事後確率^Mt,f (i,m)から計算される式(7)に示したQ関数(補助関数)の値と、更新後のモデルパラメータ及び各音源に関する音源存在事後確率^Mt,f (i,m)から計算されるQ関数の値との差が所定の閾値未満となった時を、所定の基準を満たしたと判定する方法や、予め定めた繰り返す回数に達した場合に所定の基準を満たしたと判定する方法が考えられる。繰り返し処理を行うことで補助関数を最大化することができる。
The
所定の基準を満たすと、出力音推定部30は、複数のマイクロホンごとの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)と、記憶部40に記憶されたモデルパラメータ^θ(i)と、を入力として、m番目のマイクロホンにおけるi番目の音源イメージ^xt,f (i,m)を計算して出力する。EMアルゴリズムを用いてパラメータ推定を行うと最小二乗誤差推定で音源イメージ^xt,f (i,m)を求めることが可能となる。推定される音源イメージ^xt,f (i,m)は、次式で表される。
When the predetermined criterion is satisfied, the output
〔評価実験〕
この発明の音源分離装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
[Evaluation experiment]
An evaluation experiment was conducted for the purpose of evaluating the performance of the sound source separation device 100 of the present invention. The experimental conditions were as follows.
図5に、シミュレーションに用いた音響環境を示す。部屋のサイズは10m(W)×5m(D)×5m(H)であり、残響時間は100msである。この音響環境を鏡像法(参考文献1:J. B. Allen and D. A. Berkeley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am., vol. 65(4), pp. 943-950, 1979.)を用いてシミュレーションした。 FIG. 5 shows the acoustic environment used for the simulation. The size of the room is 10 m (W) × 5 m (D) × 5 m (H), and the reverberation time is 100 ms. This acoustic environment is mirror image (Reference 1: JB Allen and DA Berkeley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am., Vol. 65 (4), pp. 943-950. , 1979.).
音響環境としては4つの環境を模擬した。第1音響環境と第2音響環境は、3人の話者が半径80cmの円状に等間隔を開けて座り、同時会話する状況を想定した。第1音響環境は、3つのマイクロホンが半径10cmの同心円状に配置されている状況とし、第2音響環境は、同じマイクロホンが半径50cmの同心円状に配置されている状況とした。図3において、第1音響環境と第2音響環境は一方の2人の話者とマイクロホンのグループが存在しない状態である。 Four acoustic environments were simulated. The first acoustic environment and the second acoustic environment are assumed to be a situation in which three speakers sit at equal intervals in a circle with a radius of 80 cm and talk at the same time. The first acoustic environment is a situation where three microphones are arranged concentrically with a radius of 10 cm, and the second acoustic environment is a situation where the same microphone is arranged concentrically with a radius of 50 cm. In FIG. 3, the first acoustic environment and the second acoustic environment are in a state where there is no group of two speakers and a microphone.
第3音響環境と第4音響環境は、3人の話者と2人の話者の2つのグループが同じ部屋で会話している状況を想定した。第3音響環境は、5つのマイクロホンが半径10cmの同心円状に配置されている状況とし、第4音響環境は、同じマイクロホンが半径50cmの同心円状に配置されている状況とした。 The 3rd acoustic environment and the 4th acoustic environment assumed the situation where two groups of three speakers and two speakers are talking in the same room. The third acoustic environment is a situation where five microphones are arranged concentrically with a radius of 10 cm, and the fourth acoustic environment is a situation where the same microphone is arranged concentrically with a radius of 50 cm.
第1番目と第2番目の音響環境においては3音源の分離を行った。第3番目と第4番目の音響環境においては5音源の分離を行った。この発明と比較する従来法は、すべてのマイクロホンにおいて共通の音源アクティビティパタンを仮定して、ソフトマスクを用いた音源分離を行う非特許文献1に示された方法とした。従来法では、各音源に最も近いマイク観測信号にソフトマスク処理を行い、分離信号を算出した。
Three sound sources were separated in the first and second acoustic environments. In the third and fourth acoustic environments, five sound sources were separated. The conventional method compared with the present invention is the method shown in
この発明の方法では、EMアルゴリズムの初期値として従来方法の処理結果を使用した。式(12)に示した正規化項の計算にも従来法の処理結果を用いた。正規化項の重みρはρ=0.00001とした。 In the method of the present invention, the processing result of the conventional method is used as the initial value of the EM algorithm. The processing result of the conventional method was also used for the calculation of the normalization term shown in Equation (12). The normalization term weight ρ was set to ρ = 0.0001.
評価指標としてはケプストラム距離を用いた。ケプストラム距離は、比較対象信号と各音源に最も近いマイクロホンにおける各音源イメージの距離とした。評価音声としては、TIMIT(参考文献2:W. Fisher, G.R. Doddington, and K. M. Goudie-Marshall, “The DARPA speech recognition research database: specifications and status,” in Proc. DARPA workshop on Speech Recognition, 7986, pp. 96-99.)から無作為に抽出した音声を用い、各音響環境において計20個の異なる混合音声を用意し、結果はそれらの平均値として算出した。 The cepstrum distance was used as an evaluation index. The cepstrum distance is the distance between the comparison target signal and each sound source image in the microphone closest to each sound source. For evaluation speech, TIMIT (Reference 2: W. Fisher, GR Doddington, and KM Goudie-Marshall, “The DARPA speech recognition research database: specifications and status,” in Proc. DARPA workshop on Speech Recognition, 7986, pp. 96-99.), Randomly mixed speech was used to prepare 20 different mixed speech in each acoustic environment, and the result was calculated as an average value thereof.
図6に、評価実験の結果を示す。横軸は音響環境、縦軸はケプストラム距離(dB)である。音響環境ごとに観測信号と従来法と本発明のケプストラム距離を示す。ここで、観測信号のケプストラム距離の算出のためには、各話者に最も近いマイクロホンの観測信号を用いており、最近傍マイクロホンを既知とした際のマイクロホン選択処理の結果に相当する。 FIG. 6 shows the results of the evaluation experiment. The horizontal axis is the acoustic environment, and the vertical axis is the cepstrum distance (dB). The observation signal, the conventional method, and the cepstrum distance of the present invention are shown for each acoustic environment. Here, in order to calculate the cepstrum distance of the observation signal, the observation signal of the microphone closest to each speaker is used, which corresponds to the result of the microphone selection process when the nearest microphone is known.
第1音響環境における結果では、従来法でもケプストラム距離を減らしているが、本発明は更にケプストラム距離を減らすことができている。これは、この発明の方法がケプストラム領域と類似する対数パワースペクトル領域にてパラメータ最適推定を行っているためと考えられる。 As a result of the first acoustic environment, the cepstrum distance is reduced even in the conventional method, but the present invention can further reduce the cepstrum distance. This is considered because the method of the present invention performs parameter optimum estimation in the logarithmic power spectrum region similar to the cepstrum region.
第2〜第4音響環境では、従来法による性能改善を確認することができない。従来法はケプストラム距離尺度で性能が劣化しており、過抑圧などにより歪が増大していることが予想される。本発明の方法では、全ての音響環境において、効果的にケプストラム距離を減少させることができた。このように本発明の音源分離装置100によれば、分散マイクロホンアレイ環境においても効率的に音源分離を行うことが確認できた。 In the second to fourth acoustic environments, the performance improvement by the conventional method cannot be confirmed. In the conventional method, performance is degraded on the cepstrum distance scale, and distortion is expected to increase due to over-suppression. The method of the present invention can effectively reduce the cepstrum distance in all acoustic environments. Thus, according to the sound source separation apparatus 100 of the present invention, it was confirmed that sound source separation was performed efficiently even in a distributed microphone array environment.
上記した音声分離装置100における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the speech separation apparatus 100 described above is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
なお、効率的に最大事後確率パラメータ推定を行う目的で、EMアルゴリズムNewton-Raphson法を用いた音源分離装置100′について説明を行ったが、この発明はこの実施例に限定されない。例えば最大事後確率パラメータ推定を行うのに、EMアルゴリズムを用いる必要はない。全ての組み合わせを探索する全組み合わせ探索法を用いても、この発明の技術思想の範囲に含まれる。 For the purpose of efficiently estimating the maximum posterior probability parameter, the sound source separation apparatus 100 ′ using the EM algorithm Newton-Raphson method has been described, but the present invention is not limited to this embodiment. For example, it is not necessary to use the EM algorithm to perform maximum posterior probability parameter estimation. Even if an all combination search method for searching all combinations is used, it is within the scope of the technical idea of the present invention.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (7)
上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定部と、
上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定部と、
を具備する音源分離装置。 It is assumed that the sound pressure of the signals from the multiple sound sources observed by each of the multiple microphones is different from the observation signal of the multiple channels obtained by collecting the sound source signals emitted from the multiple sound sources by the multiple microphones. A microphone-specific sound source presence posterior probability estimator that estimates the sound source presence posterior probability for each sound source for each microphone using the observed signal model;
A model parameter estimator for estimating the model parameters of the observation signal, using the observation signals of the plurality of channels and the sound source existence posterior probability as inputs;
An output sound estimator that estimates and outputs an incoming signal from each sound source for each of the microphones by using the observation signals of the plurality of channels, the sound source existence posterior probability, and the model parameter;
A sound source separation apparatus comprising:
上記観測信号のモデルは、
m番目のマイクロホンで観測される信号ot,f (m)(但し、tは時間のインデックス、fは周波数のインデックスとする)が、上記複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
上記到来信号のモデルは、
m番目のマイクロホンで観測されるi番目の音源からの到来信号xt,f (i,m)を、
i番目の音源のクリーン音声信号st,f (i)と、
i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応する伝達関数βf (i,m)と、
i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、
により定義した確率モデルであり、
上記モデルパラメータは、上記音源のクリーン音声信号st,f (i)と上記伝達関数βf (i,m)と上記エラー項et,f (i,m)の分散σt,f (i,m)とである、
ことを特徴とする音源分離装置。 The sound source separation device according to claim 1,
The model of the observed signal is
A signal ot , f (m) observed by the m-th microphone (where t is a time index and f is a frequency index) arrives from each of the plurality of sound sources and is received by the m-th microphone. It is a model that is defined to be equivalent to the incoming signal with the maximum sound pressure among the observed incoming signals,
The incoming signal model is
The incoming signal x t, f (i, m) from the i th sound source observed by the m th microphone is
clean sound signal st, f (i) of the i-th sound source,
a transfer function β f (i, m) corresponding to the sound pressure of the signal arriving at the m th microphone from the i th sound source,
an error term et, f (i, m) corresponding to the difference between the signal arriving at the mth microphone from the ith sound source and the signal from the ith sound source observed at the mth microphone;
Is a probability model defined by
The model parameters are the clean sound signal s t, f (i) of the sound source, the transfer function β f (i, m) and the variance σ t, f (i ) of the error term et, f (i, m). , M)
A sound source separation device characterized by that.
更に、記憶部と反復処理部とを備え、
上記記憶部は上記観測信号のモデルパラメータ^θ(i)を記憶するものであり、
上記マイク別音源存在事後確率推定部は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率に基づいて、上記マイクロホンmと音源iごとに音源存在事後確率^Mt,f (i,m)を推定するものであり、
上記モデルパラメータ推定部は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)と上記音源存在事後確率^Mt,f (i,m)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率の対数に、上記音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数βf (i,m)とエラー項et,f (i,m)の分散σt,f (i,m)とクリーン音声信号st,f (i)とを更新するものであり、
上記反復処理部は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定部と上記モデルパラメータ推定部の処理を繰り返すものであり、
上記出力音推定部は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ^θ(i)とを入力として上記音源iごとの到来信号xt,f (i,m)を計算するもの、
であることを特徴とする音源分離装置。 In the sound source separation device according to claim 2 ,
Furthermore, a storage unit and an iterative processing unit are provided,
The storage unit stores the model parameter ^ θ (i) of the observation signal,
The microphone-specific sound source existence posterior probability estimation unit receives the observation signal ot , f (m) for each microphone m and the model parameter ^ θ (i) stored in the storage unit as inputs, and outputs the signal for each microphone m. When the observed signal o t, f (m) and the model parameter ^ θ (i) are applied to the observed signal model, the observed signal o t, f (m) and the observed signal model parameter ^ θ (i ) And the sound source existence posterior probability ^ M t, f (i, m) for each microphone m and sound source i,
The model parameter estimator includes the observation signal ot , f (m) for each microphone m, the model parameter ^ θ (i) stored in the storage unit, and the sound source posterior probability ^ M t, f (i, and m) as an input, the observed signal when the observed signal o t for each said microphone m, f a model parameter ^ theta and (i) (m) was fitted to the model of the observed signal o t, f (m ) And the model parameter ^ θ (i) of the observed signal multiplied by the weight corresponding to the sound source posterior probability ^ M t, f (i, m) to all the observed signals The transfer function β f (i, m) and the variance σ t, f (i, m) of the error term et, f (i, m) stored in the storage unit are increased so that the weighted sum added with respect to m) and clean audio signal st, f (i) Is a new one,
The iterative processing unit repeats the processing of the microphone-specific sound source presence posterior probability estimation unit and the model parameter estimation unit until a predetermined criterion is satisfied,
The output sound estimation unit receives the observation signals of the plurality of channels, the sound source existence posterior probability, and the parameter ^ θ (i) stored in the storage unit, and receives the incoming signal x t, f (i , M)
A sound source separation device characterized by the above.
上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定過程と、
上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定過程と、
を備える音源分離方法。 It is assumed that the sound pressure of the signals from the multiple sound sources observed by each of the multiple microphones is different from the observation signal of the multiple channels obtained by collecting the sound source signals emitted from the multiple sound sources by the multiple microphones. A microphone-specific sound source presence posterior probability estimation process for estimating the sound source presence posterior probability for each sound source for each microphone using the observed signal model;
A model parameter estimation process for estimating the model parameters of the observation signal by using the observation signals of the plurality of channels and the sound source existence posterior probability as inputs,
An output sound estimation process for estimating and outputting an incoming signal from each sound source for each of the microphones by using the observation signals of the plurality of channels, the sound source existence posterior probability, and the model parameter;
A sound source separation method comprising:
上記観測信号のモデルは、
m番目のマイクロホンで観測される信号ot,f (m)(但し、tは時間のインデックス、fは周波数のインデックスとする)が、上記複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
上記到来信号のモデルは、
m番目のマイクロホンで観測されるi番目の音源からの到来信号xt,f (i,m)を、
i番目の音源のクリーン音声信号st,f (i)と、
i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応する伝達関数βf (i,m)と、
i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、
により定義した確率モデルであり、
上記モデルパラメータは、上記音源のクリーン音声信号st,f (i)と上記伝達関数βf (i,m)と上記エラー項et,f (i,m)の分散σt,f (i,m)とである、
ことを特徴とする音源分離方法。 In the sound source separation method according to claim 4,
The model of the observed signal is
A signal ot , f (m) observed by the m-th microphone (where t is a time index and f is a frequency index) arrives from each of the plurality of sound sources and is received by the m-th microphone. It is a model that is defined to be equivalent to the incoming signal with the maximum sound pressure among the observed incoming signals,
The incoming signal model is
The incoming signal x t, f (i, m) from the i th sound source observed by the m th microphone is
clean sound signal st, f (i) of the i-th sound source,
a transfer function β f (i, m) corresponding to the sound pressure of the signal arriving at the m th microphone from the i th sound source,
an error term et, f (i, m) corresponding to the difference between the signal arriving at the mth microphone from the ith sound source and the signal from the ith sound source observed at the mth microphone;
Is a probability model defined by
The model parameters are the clean sound signal s t, f (i) of the sound source, the transfer function β f (i, m) and the variance σ t, f (i ) of the error term et, f (i, m). , M)
A sound source separation method characterized by the above.
更に、反復処理過程を備え、
上記マイク別音源存在事後確率推定過程は、上記マイクロホンmごとの観測信号ot,f (m)と記憶部に記憶されたモデルパラメータ^θ(i)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率に基づいて、上記マイクロホンmと音源iごとに音源存在事後確率^Mt,f (i,m)を推定するものであり、
上記モデルパラメータ推定過程は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)と上記音源存在事後確率^Mt,f (i,m)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率の対数に、上記音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数βf (i,m)とエラー項et,f (i,m)の分散σt,f (i,m)とクリーン音声信号st,f (i)とを更新するものであり、
上記反復処理過程は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定過程と上記モデルパラメータ推定過程の処理を繰り返すものであり、
上記出力音推定過程は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ^θ(i)とを入力として上記音源iごとの到来信号xt,f (i,m)を計算する過程、
であることを特徴とする音源分離方法。 In the sound source separation method according to claim 5 ,
Furthermore, it has an iterative process,
The microphone-specific sound source existence posterior probability estimation process is performed by using the observation signal ot , f (m) for each microphone m and the model parameter ^ θ (i) stored in the storage unit as input, and observing for each microphone m. The observed signal o t, f (m) and the model parameter ^ θ (i) of the observed signal when the signal o t, f (m) and the model parameter ^ θ (i) are applied to the model of the observed signal. And the sound source existence posterior probability ^ M t, f (i, m) for each microphone m and sound source i,
The model parameter estimation process includes the observation signal ot , f (m) for each microphone m, the model parameter ^ θ (i) stored in the storage unit, and the sound source existence posterior probability ^ M t, f (i, and m) as an input, the observed signal when the observed signal o t for each said microphone m, f a model parameter ^ theta and (i) (m) was fitted to the model of the observed signal o t, f (m ) And the model parameter ^ θ (i) of the observed signal multiplied by the weight corresponding to the sound source posterior probability ^ M t, f (i, m) to all the observed signals The transfer function β f (i, m) and the variance σ t, f (i, m) of the error term et, f (i, m) stored in the storage unit are increased so that the weighted sum added with respect to m) and the clean audio signal st, f (i) To update,
The iterative process is to repeat the processes of the microphone-specific sound source presence posterior probability estimation process and the model parameter estimation process until a predetermined criterion is satisfied,
In the output sound estimation process, the received signals x t, f (i ) for each sound source i are input with the observation signals of the plurality of channels, the sound source existence posterior probability, and the parameter ^ θ (i) stored in the storage unit. , M) ,
A sound source separation method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013171079A JP6059112B2 (en) | 2013-08-21 | 2013-08-21 | Sound source separation device, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013171079A JP6059112B2 (en) | 2013-08-21 | 2013-08-21 | Sound source separation device, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015040934A JP2015040934A (en) | 2015-03-02 |
JP6059112B2 true JP6059112B2 (en) | 2017-01-11 |
Family
ID=52695141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013171079A Active JP6059112B2 (en) | 2013-08-21 | 2013-08-21 | Sound source separation device, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6059112B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6339520B2 (en) * | 2015-04-01 | 2018-06-06 | 日本電信電話株式会社 | Sound source separation device, sound source separation method, and sound source separation program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008079256A (en) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | Acoustic signal processing apparatus, acoustic signal processing method, and program |
JP5568530B2 (en) * | 2011-09-06 | 2014-08-06 | 日本電信電話株式会社 | Sound source separation device, method and program thereof |
-
2013
- 2013-08-21 JP JP2013171079A patent/JP6059112B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015040934A (en) | 2015-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4875656B2 (en) | Signal section estimation device and method, program, and recording medium | |
JP5568530B2 (en) | Sound source separation device, method and program thereof | |
JP4964204B2 (en) | Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium | |
JP6723120B2 (en) | Acoustic processing device and acoustic processing method | |
KR20200145219A (en) | Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments | |
KR102087307B1 (en) | Method and apparatus for estimating direction of ensemble sound source based on deepening neural network for estimating direction of sound source robust to reverberation environment | |
JP2007279444A (en) | Feature amount compensation apparatus, method and program | |
JP6594839B2 (en) | Speaker number estimation device, speaker number estimation method, and program | |
JP2012088390A (en) | Voice recognition device and voice recognition method | |
KR20190130533A (en) | Hearing Aid Having Voice Activity Detector and Method thereof | |
JP2007047427A (en) | Sound processor | |
KR20220022286A (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
JP5351856B2 (en) | Sound source parameter estimation device, sound source separation device, method thereof, program, and storage medium | |
JP6059112B2 (en) | Sound source separation device, method and program thereof | |
Subba Ramaiah et al. | A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization | |
EP3557576A1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP6285855B2 (en) | Filter coefficient calculation apparatus, audio reproduction apparatus, filter coefficient calculation method, and program | |
JP6339520B2 (en) | Sound source separation device, sound source separation method, and sound source separation program | |
KR102346133B1 (en) | Direction-of-arrival estimation method based on deep neural networks | |
JP6114053B2 (en) | Sound source separation device, sound source separation method, and program | |
Nakagome et al. | Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation. | |
KR101022457B1 (en) | Method to combine CASA and soft mask for single-channel speech separation | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
JP2019193073A (en) | Sound source separation device, method thereof, and program | |
JP2010181467A (en) | A plurality of signals emphasizing device and method and program therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6059112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |