JP2016156944A - Model estimation device, target sound enhancement device, model estimation method, and model estimation program - Google Patents
Model estimation device, target sound enhancement device, model estimation method, and model estimation program Download PDFInfo
- Publication number
- JP2016156944A JP2016156944A JP2015034398A JP2015034398A JP2016156944A JP 2016156944 A JP2016156944 A JP 2016156944A JP 2015034398 A JP2015034398 A JP 2015034398A JP 2015034398 A JP2015034398 A JP 2015034398A JP 2016156944 A JP2016156944 A JP 2016156944A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- reverberation
- model
- estimated
- mixed signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラムに関する。 The present invention relates to a model estimation device, a target sound enhancement device, a model estimation method, and a model estimation program.
従来から、目的音強調の技術として音源分離技術がある。音源分離技術は、複数のマイクロホンで取得した、複数の音源信号の混合信号を用いて、各音源信号を推定する技術である。特に、クラスタリングに基づく音源分離技術、独立成分分析に基づく音源分離技術がよく知られている。以下、従来技術として、クラスタリングに基づく音源分離技術ついて説明する。以下において、例えばAがベクトルである場合には“ベクトルA”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、以下において、特に断らない限り、時間周波数領域での信号表現を用いる。時間フレームの番号をt∈{1,2,・・・,T}(Tは、フレーム総数)で表し、周波数binの番号をf∈{1,2,・・・,F}(Fは、ナイキスト周波数以下の周波数binの総数)で表す。 Conventionally, there is a sound source separation technique as a target sound enhancement technique. The sound source separation technique is a technique for estimating each sound source signal using a mixed signal of a plurality of sound source signals acquired by a plurality of microphones. In particular, a sound source separation technique based on clustering and a sound source separation technique based on independent component analysis are well known. Hereinafter, as a conventional technique, a sound source separation technique based on clustering will be described. In the following, for example, when A is a vector, it is expressed as “vector A”, and when A is a scalar, for example, it is simply expressed as “A”. In the following description, signal expression in the time frequency domain is used unless otherwise specified. The time frame number is represented by t∈ {1, 2,..., T} (T is the total number of frames), and the frequency bin number is represented by f∈ {1, 2,. The total number of frequency bins below the Nyquist frequency).
時間周波数領域での信号表現は、時間領域での信号表現に対し、短時間フーリエ変換などの時間周波数変換を適用することで得られる。逆に、時間領域での信号表現は、時間周波数領域での信号表現に対し、逆短時間フーリエ変換などの時間周波数変換の逆変換を適用することで得られる。 The signal representation in the time-frequency domain can be obtained by applying a time-frequency transform such as a short-time Fourier transform to the signal representation in the time domain. Conversely, the signal representation in the time domain can be obtained by applying the inverse transform of the time frequency transform such as the inverse short time Fourier transform to the signal representation in the time frequency domain.
N個(Nは、自然数)の音源からの信号をM個(Mは、自然数)のマイクロホンで観測するとする。m(1≦m≦M)番目のマイクロホンで観測される混合信号をy(m) tfで表し、下記(1)式のように、M個のマイクロホンで観測される混合信号を混合信号ベクトルytfとしてまとめて表記する。 Assume that signals from N sound sources (N is a natural number) are observed with M (M is a natural number) microphones. The mixed signal observed by the m (1 ≦ m ≦ M) -th microphone is represented by y (m) tf , and the mixed signal observed by the M microphones is expressed by the mixed signal vector y as shown in the following equation (1). Expressed collectively as tf .
上記(1)式において、・Tは、・の転置を表す。残響時間がフレーム長に比べて十分短い場合、混合信号ベクトルytfは、下記(2)式によりモデル化できる。 In the above formula (1), · T represents transposition of ·. When the reverberation time is sufficiently shorter than the frame length, the mixed signal vector y tf can be modeled by the following equation (2).
上記(2)式において、c(n) tfは、n番目の音源信号を表す。また、上記(2)式におけるベクトルh(n) fは、下記(3)式により定義される。なお、下記(3)式において、h(m,n) fは、n番目の音源信号からm番目のマイクロホンへの時不変の伝達関数を表す。 In the above equation (2), c (n) tf represents the nth sound source signal. Further, the vector h (n) f in the above equation (2) is defined by the following equation (3). In the following equation (3), h (m, n) f represents a time-invariant transfer function from the nth sound source signal to the mth microphone.
ベクトルh(n) fは、ステアリングベクトルと呼ばれ、n番目の音源の位置に関する情報を含む。以下では、簡単のため、マイクロホン数がM=2であり、残響や反響の影響は無視でき、各音源信号は平面波として伝搬すると仮定する。この場合、ベクトルh(n) fは、下記(4)式によりモデル化できる。なお、下記(4)式において、“j”は虚数単位を表す。 The vector h (n) f is called a steering vector and includes information on the position of the nth sound source. In the following, for simplicity, it is assumed that the number of microphones is M = 2, the influence of reverberation and reverberation can be ignored, and each sound source signal propagates as a plane wave. In this case, the vector h (n) f can be modeled by the following equation (4). In the following formula (4), “j” represents an imaginary unit.
ここで、上記(4)式におけるωfは、周波数binの番号fに対応する角周波数を表し、d(m,n)は、m番目のマイクロホンとn番目の音源との距離を表し、cは、音速を表す。n番目の音源のマイクロホン間到来時間差δ(n)を、下記(5)式により定義する。 Here, ω f in the above equation (4) represents the angular frequency corresponding to the number f of the frequency bin, d (m, n) represents the distance between the m-th microphone and the n-th sound source, and c Represents the speed of sound. An arrival time difference δ (n) between microphones of the n-th sound source is defined by the following equation (5).
すると、ステアリングベクトルh(n) fにおけるマイクロホン間位相差arg(h(1,n) f)−arg(h(2,n) f)(arg(・)は、・の偏角(位相)を表す)と、n番目のマイクロホン間到来時間差δ(n)との間には、下記(6)式に示す関係がある。 Then, the phase difference between microphones in the steering vector h (n) f arg (h (1, n) f ) −arg (h (2, n) f ) (arg (•) is the declination (phase) of And the nth inter-microphone arrival time difference δ (n) has a relationship represented by the following equation (6).
クラスタリングに基づく音源分離技術では、観測された混合信号ベクトルytfは、「各時間周波数点では単一の音源成分のみからなる」(以下、「スパース」と表記する)と仮定する(例えば、非特許文献1参照)。スパースは、残響の影響が小さく、音源信号が音声である場合に、精度よく成立することが知られている。スパースの仮定の下では、「時間周波数点(t,f)において混合信号ベクトルytfに含まれる」(以下、「アクティブ」と表記する)音源の番号をdtfで表すと、上記(2)式は、下記(7)式のように書き換えられる。 In the sound source separation technique based on clustering, the observed mixed signal vector y tf is assumed to be “consisting of only a single sound source component at each time frequency point” (hereinafter referred to as “sparse”) (for example, non Patent Document 1). It is known that sparse is accurately established when the influence of reverberation is small and the sound source signal is speech. Under the sparse assumption, the number of the sound source “included in the mixed signal vector y tf at the time frequency point (t, f)” (hereinafter referred to as “active”) is represented by d tf , and the above (2) The equation can be rewritten as the following equation (7).
スパース性の仮定の下では、観測信号から、下記(8)式の定義に基づき計算される特徴量ztfは、下記(9)式に示すように、アクティブなdtf番目の音源のマイクロホン間到来時間差と一致する。 Under the assumption of sparsity, the feature quantity z tf calculated from the observed signal based on the definition of the following equation (8) is the distance between microphones of the active d tf sound source as shown in the following equation (9): It matches the arrival time difference.
よって、ztfのクラスタリングにより音源分離が実現できる。クラスタリングは、例えば、混合モデルのフィッティングやk-meansクラスタリングなどのクラスタリング技術により行うことができる(例えば、非特許文献2参照)。 Therefore, sound source separation can be realized by clustering z tf . Clustering can be performed, for example, by clustering techniques such as mixed model fitting and k-means clustering (see, for example, Non-Patent Document 2).
しかしながら、上記従来技術は、フレーム長と比べて残響時間が十分短いことを前提とするため、この前提が成立しない多くの実環境(例えば、会議室など)において、音源分離性能が低下する問題がある。 However, since the above prior art is based on the premise that the reverberation time is sufficiently short compared with the frame length, there is a problem that the sound source separation performance is deteriorated in many real environments (for example, conference rooms) where this premise is not satisfied. is there.
本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、フレーム長と比べて残響時間が長い場合においても、より高精度な音源分離を実現することを目的とする。 An example of the embodiment disclosed in the present application has been made in view of the above, and an object thereof is to realize more accurate sound source separation even when the reverberation time is longer than the frame length.
本願の実施形態の一例は、モデル推定装置は、複数の音源が出力する音による残響の特性を示す回帰行列を含む、残響を含む混合信号のモデルのパラメータを保存する記憶部を備える。モデル推定装置は、音を複数のマイクロホンで観測した観測信号と、記憶部に保存される回帰行列とを用いた線形予測により、残響を含まない混合信号を推定する。モデル推定装置は、推定された混合信号を、各時間周波数点が属する音源毎のクラスタにクラスタリングし、記憶部に保存されるパラメータから、各クラスタと対応する事後確率を計算する。モデル推定装置は、推定された混合信号と、計算された事後確率とから、パラメータを推定し、推定したパラメータで記憶部に保存されるパラメータを更新する。モデル推定装置は、信号推定、クラスタリング及びパラメータ推定を、所定条件が満たされるまで繰り返す。 In an example of the embodiment of the present application, the model estimation apparatus includes a storage unit that stores a model parameter of a mixed signal including reverberation including a regression matrix indicating characteristics of reverberation due to sounds output from a plurality of sound sources. The model estimation apparatus estimates a mixed signal that does not include reverberation by linear prediction using observation signals obtained by observing sound with a plurality of microphones and a regression matrix stored in a storage unit. The model estimation apparatus clusters the estimated mixed signal into clusters for each sound source to which each time frequency point belongs, and calculates a posteriori probability corresponding to each cluster from parameters stored in the storage unit. The model estimation apparatus estimates a parameter from the estimated mixed signal and the calculated posterior probability, and updates the parameter stored in the storage unit with the estimated parameter. The model estimation apparatus repeats signal estimation, clustering, and parameter estimation until a predetermined condition is satisfied.
本願が開示する実施形態の一例によれば、例えば、フレーム長と比べて残響時間が長い場合においても、より高精度な音源分離を実現できる。 According to an example of the embodiment disclosed in the present application, for example, even when the reverberation time is longer than the frame length, more accurate sound source separation can be realized.
[実施形態]
以下、本願が開示するモデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す各実施形態は、矛盾しない範囲で適宜組合せてもよい。
[Embodiment]
Hereinafter, embodiments of a model estimation device, a target sound enhancement device, a model estimation method, and a model estimation program disclosed in the present application will be described. The following embodiments are merely examples, and do not limit the technology disclosed by the present application. Moreover, you may combine suitably each embodiment shown below in the range which does not contradict.
なお、以下の実施形態では、例えばAがベクトルである場合には“ベクトルA”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記するものとする。また、例えばベクトルAの関数fは、f(ベクトルA)と表記するものとする。また、ベクトル又はスカラーであるAに対し、“〜A”と記載する場合は「“A”の直上に“〜”が記された記号」と同等であるとする。また、ベクトル又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。また、ベクトル又はスカラーであるAに対し、“〜^A”と記載する場合は「“A”の直上に“^”が記され、さらにその直上に“〜”が付された記号」と同等であるとする。また、ベクトル又はスカラーであるAに対し、ATはAの転置を表す。また、行列Aに対し、行列A−1は行列Aの逆行列を表し、detAは行列Aの行列式を表し、trAは行列Aの対角和(トレース)を表す。また、行列Aに対し、行列AHは、行列Aのエルミート転置を表し、行列A*は、行列Aの複素共役を表す。また、集合Aに対し、#Aは集合Aの要素数を表す。また、exp(・)は、指数関数であり、ln(・)は対数関数である。 In the following embodiments, for example, when A is a vector, it is expressed as “vector A”, and when A is a scalar, for example, it is simply expressed as “A”. For example, when A is a set, it is described as “set A”. For example, the function f of the vector A is expressed as f (vector A). Further, with respect to A is a vector or scalar, be referred to as a "~ A" is assumed to be equivalent to "" A "symbol" ~ "is written directly above the". Further, when “^ A” is described for A which is a vector or a scalar, it is equivalent to “a symbol in which“ ^ ”is written immediately above“ A ””. In addition, when “˜ ^ A” is written for A which is a vector or a scalar, it is equivalent to “a symbol where“ ^ ”is written immediately above“ A ”and“ ˜ ”is added immediately above” ”. Suppose that In addition, A T represents transposition of A with respect to A which is a vector or a scalar. Further, with respect to the matrix A, the matrix A- 1 represents the inverse matrix of the matrix A, detA represents the determinant of the matrix A, and trA represents the diagonal sum (trace) of the matrix A. Further, with respect to the matrix A, the matrix A H represents the Hermitian transpose of the matrix A, and the matrix A * represents the complex conjugate of the matrix A. For set A, #A represents the number of elements in set A. Exp (·) is an exponential function, and ln (·) is a logarithmic function.
[実施形態1]
以下、実施形態1について、実施形態1の理論的背景を説明後、実施形態1の一態様を説明する。
[Embodiment 1]
Hereinafter, after describing the theoretical background of the first embodiment, one aspect of the first embodiment will be described.
<実施形態1の理論的背景>
実施形態1は、残響下で、N個(Nは、自然数)の音源からの信号をM個(Mは、自然数)のマイクロホンで観測するとする。m(1≦m≦M)番目のマイクロホンで観測された残響を含む混合信号をy(m) tfで表し、下記(10)式のように、M個のマイクロホンで観測される混合信号を混合信号ベクトルytfとしてまとめて表記する。
<Theoretical Background of
In the first embodiment, it is assumed that signals from N (N is a natural number) sound sources are observed with M (M is a natural number) microphones under reverberation. The mixed signal including reverberation observed by the m (1 ≦ m ≦ M) -th microphone is represented by y (m) tf , and the mixed signal observed by M microphones is mixed as shown in the following equation (10). These are collectively expressed as a signal vector y tf .
実施形態1のモデル推定装置は、残響を含む混合信号ベクトルytfを、混合信号ベクトルytfの分布を表す確率モデルに当てはめ、所定の確率モデルのパラメータを推定する。以下では、先ず、混合信号ベクトルytfの分布を表す確率モデルについて説明し、次に、混合信号ベクトルytfの分布を表す確率モデルのパラメータを推定するアルゴリズムを導出する。以下、残響を含む混合信号ベクトルのモデル化、及び、パラメータ推定アルゴリズムの導出それぞれについて、理論的背景を説明する。 The model estimation apparatus according to the first embodiment applies a mixed signal vector y tf including reverberation to a probability model representing the distribution of the mixed signal vector y tf and estimates a parameter of a predetermined probability model. Hereinafter, first, a probability model representing the distribution of the mixed signal vector y tf will be described, and then an algorithm for estimating the parameters of the probability model representing the distribution of the mixed signal vector y tf will be derived. Hereinafter, the theoretical background will be described for each of modeling of the mixed signal vector including reverberation and derivation of the parameter estimation algorithm.
(実施形態1の残響を含む混合信号ベクトルのモデル化)
n(1≦n≦N)番目の音源のみが存在し、残響および他の音源が存在しないと仮定した場合に、M個のマイクロホンで観測される予定の信号を並べたベクトル(以下、「n番目の音源の残響を含まないマイクロホン像」と表記する)をベクトルs(n) tf∈集合CMで表す。ここで、ベクトルs(n) tfは、複素数を要素とするM次元のベクトルである。残響が存在しないと仮定した場合に、M個のマイクロホンで観測される予定の混合信号を並べたベクトル(以下、「残響を含まない混合信号ベクトル」と表記する)をxtf∈集合CMで表す。残響を含まない混合信号ベクトルxtfがスパースであると仮定すれば、混合信号ベクトルxtfは、下記(11)式によりモデル化できる。
(Modeling of mixed signal vector including reverberation in embodiment 1)
When it is assumed that only the nth (1 ≦ n ≦ N) sound source exists and no reverberation and other sound sources exist, a vector (hereinafter referred to as “n”) in which signals scheduled to be observed by M microphones are arranged. (The microphone image that does not include the reverberation of the second sound source) is represented by a vector s (n) tf ∈ set C M. Here, the vector s (n) tf is an M-dimensional vector whose elements are complex numbers. Assuming that no reverberation exists, a vector in which mixed signals to be observed by M microphones are arranged (hereinafter referred to as a “mixed signal vector not including reverberation”) is expressed as x tf ∈ set C M Represent. Assuming a mixed signal vector x tf free of reverberation is sparse, mixed signal vector x tf can be modeled by the following equation (11).
従来のクラスタリングに基づく音源分離では、残響を含む混合信号ベクトルytfがスパースであると仮定するのに対し、実施形態1は、残響を含まない混合信号ベクトルxtfがスパースであると仮定する。これにより、残響下でも正確なモデル化が可能である。上記(11)式による混合信号ベクトルxtfのモデルに基づき、残響を含まない混合信号ベクトルxtfの分布は、下記(12)式の混合分布によりモデル化される。 In the sound source separation based on the conventional clustering, the mixed signal vector y tf including reverberation is assumed to be sparse, whereas the first embodiment assumes that the mixed signal vector x tf not including reverberation is sparse. This enables accurate modeling even under reverberation. Based on the model of the mixed signal vector x tf according to the above equation (11), the distribution of the mixed signal vector x tf not including reverberation is modeled by the mixture distribution of the following equation (12).
上記(12)式において、p(ベクトルs(n) tf|Θ)は、n番目の音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルを表す。また、上記(12)式において、P(dtf|Θ)は、混合重みと呼ばれ、アクティブな音源の番号dtfの確率モデルを表す。また、上記(12)式において、Θは、確率モデルのパラメータの集合を表す。集合Θの定義は、後述する。 In the above equation (12), p (vector s (n) tf | Θ) represents a probability model representing the distribution of the vector s (n) tf of the microphone image that does not include the reverberation of the nth sound source. In the above equation (12), P (d tf | Θ) is called a mixing weight and represents a probability model of the active sound source number d tf . In the above equation (12), Θ represents a set of parameters of the probability model. The definition of the set Θ will be described later.
一方、残響を含む混合信号ベクトルytfは、残響を含まない混合信号ベクトルxtfにより駆動されたマルチチャネル自己回帰過程により、下記(13)式のようにモデル化できる。混合信号ベクトルytfのモデル化については、文献1「T. Yoshioka, T. Nakatani, M. Miyoshi, and H.G. Okuno, “Blind separation and dereverberation of speech mixtures by joint optimization.” IEEE Trans. ASLP, vol. 19, no. 1, pp. 69.84, Jan. 2011.」に詳述されている。
On the other hand, the mixed signal vector y tf including reverberation can be modeled by the following equation (13) by a multichannel autoregressive process driven by the mixed signal vector x tf not including reverberation. For modeling of the mixed signal vector y tf ,
ここで、上記(13)式において、kはタップ番号を表し、Kはタップ数を表し、行列Gkf∈集合CM×Mは、複素数を要素とするM行M列の回帰行列を表し、行列GH kfは、回帰行列Gkfのエルミート転置を表す。また、上記(13)式において、Δは、所定の遅延を表すが、好ましくは、音源信号が自己相関を持つ時間(音声の場合、20〜30ms程度)に相当するように設定する。遅延Δを導入することで、推定された回帰行列Gkfを用いて残響除去を行う際に、音源信号の自己相関が除去されることを防ぐ。また、便宜上、t<0に対しては、混合信号ベクトルytf=0(ゼロベクトル)と定義する。便宜上、上記(13)式のモデルを確率モデルとして表すと、下記(14)式を得る。なお、下記(14)式において、δは、ディラックのデルタ関数である。 Here, in the above equation (13), k represents a tap number, K represents the number of taps, a matrix G kf ∈ set C M × M represents an M-row M-column regression matrix having complex numbers as elements, The matrix G H kf represents the Hermitian transpose of the regression matrix G kf . In the above equation (13), Δ represents a predetermined delay, but is preferably set so as to correspond to a time during which the sound source signal has autocorrelation (in the case of speech, about 20 to 30 ms). By introducing the delay Δ, the autocorrelation of the sound source signal is prevented from being removed when dereverberation is performed using the estimated regression matrix G kf . For convenience, the mixed signal vector y tf = 0 (zero vector) is defined for t <0. For convenience, when the model of the above equation (13) is expressed as a probability model, the following equation (14) is obtained. In the following equation (14), δ is a Dirac delta function.
上記(12)式及び上記(14)式の確率モデルを用いると、残響を含む混合信号ベクトルytfの分布を表す確率モデルを、下記(15)式及び下記(16)式のように導出できる。 Using the probability models of the above equations (12) and (14), a probability model representing the distribution of the mixed signal vector y tf including reverberation can be derived as in the following equations (15) and (16). .
残響を含む混合信号ベクトルytfの分布を表す、上記(16)式の確率モデルの導出においては、各音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)と、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)との具体形について、何の仮定も置いていないことに注意する。すなわち、これらの確率モデルを任意の確率分布によりモデル化しても、残響を含む混合信号ベクトルytfの分布を表す確率モデルは、上記(16)式により与えられる。 In the derivation of the probability model of the above equation (16) representing the distribution of the mixed signal vector y tf including reverberation, a probability model p (representing the distribution of the vector s (n) tf of the microphone image not including the reverberation of each sound source. Note that no assumptions are made about the concrete form of the vector s (n) tf | Θ) and the probability model P (d tf | Θ) of the active sound source number d tf . That is, even if these probability models are modeled by an arbitrary probability distribution, a probability model representing the distribution of the mixed signal vector y tf including reverberation is given by the above equation (16).
上記(16)式によれば、残響を含む混合信号ベクトルytfの分布を表す確率モデルを定めることは、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)と、各音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)とを定めることに帰着することが分かる。これらの確率モデルは、任意の確率分布を用いてモデル化できるが、以下では、実施形態1における、これらのモデル化について説明する。 According to the above equation (16), the probability model representing the distribution of the mixed signal vector y tf including reverberation is determined by the probability model P (d tf | Θ) of the active sound source number d tf and each sound source. It can be seen that this results in defining a probability model p (vector s (n) tf | Θ) representing the distribution of the vector s (n) tf of the microphone image that does not include reverberation. Although these probability models can be modeled using arbitrary probability distributions, these modeling in the first embodiment will be described below.
n番目の音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)は、例えば、下記(17)式の時変ガウス分布でモデル化できる。このモデル化については、文献2「N.Q.K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model.” IEEE Trans. ASLP, vol. 18, no. 7, pp. 1830.1840, Sep. 2010.」に詳述されている。
The probability model p (vector s (n) tf | Θ) representing the distribution of the vector s (n) tf of the microphone image not including the reverberation of the nth sound source is, for example, a time-varying Gaussian distribution of the following equation (17). Can be modeled. For this modeling, refer to
ここで、上記(17)式において、φ(n) tfは、ベクトルs(n) tfの時変のパワースペクトルをモデル化するパラメータであり、行列B(n) fは、ベクトルs(n) tfの時不変の空間共分散行列をモデル化するパラメータである。また、上記(17)式の右辺は、下記(18)式により表される複素ガウス分布の確率密度関数である。下記(18)式は、確率変数がベクトルα、平均がベクトルμ、共分散行列Σである複素ガウス分布の確率密度関数を表す。下記(18)式において、πは円周率、det(πΣ)は、行列πΣの行列式を表す。 Here, in the above equation (17), φ (n) tf is a parameter for modeling the time-varying power spectrum of the vector s (n) tf , and the matrix B (n) f is the vector s (n) It is a parameter that models the time-invariant spatial covariance matrix of tf . The right side of the above equation (17) is a probability density function of a complex Gaussian distribution expressed by the following equation (18). The following equation (18) represents a probability density function of a complex Gaussian distribution in which a random variable is a vector α, an average is a vector μ, and a covariance matrix Σ. In the following equation (18), π represents a circular ratio, and det (πΣ) represents a determinant of a matrix πΣ.
また、実施形態1では、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)を、周波数依存の混合重みα(n) fを用いて、下記(19)式によりモデル化する。 In the first embodiment, the probability model P (d tf | Θ) of the active sound source number d tf is modeled by the following equation (19) using the frequency-dependent mixture weight α (n) f .
実施形態1における、残響を含む混合信号ベクトルytfの分布を表す確率モデルの具体形は、一般の場合である上記(16)式に、n番目の音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)の具体形である上記(17)式と、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)の具体形である上記(19)式とを代入することで、下記(20)式のように得られる。 The concrete form of the probability model representing the distribution of the mixed signal vector y tf including reverberation in the first embodiment is a microphone image vector s that does not include the reverberation of the nth sound source in the above-described equation (16), which is a general case. (n) the probability model representing the distribution of tf p (vector s (n) tf | theta) and the formula (17) is a specific form of the probability model P number d tf active sound sources (d tf | theta) By substituting the above formula (19) which is a specific form of the following formula, the following formula (20) is obtained.
ここで、パラメータの集合Θは、具体的には、下記(21)式により定義される。 Here, the parameter set Θ is specifically defined by the following equation (21).
(実施形態1のパラメータ推定アルゴリズムの導出)
残響を含む混合信号ベクトルytfの確率モデルを示す上記(16)式に基づくと、例えば、最尤法又はMAP(Maximum A Posteriori)推定法に従って、パラメータの集合Θを推定することができる。
(Derivation of Parameter Estimation Algorithm of Embodiment 1)
Based on the above equation (16) indicating the probability model of the mixed signal vector y tf including reverberation, the set of parameters Θ can be estimated, for example, according to the maximum likelihood method or the MAP (Maximum A Posteriori) estimation method.
最尤法では、残響を含む混合信号ベクトルytfの尤度p(Y|Θ)を評価関数とし、尤度p(Y|Θ)を最大化することでパラメータの集合の推定値Θ=arg maxΘ{p(Y|Θ)}を求める。ここで、集合Yは、Y:={ベクトルytf}tf:={ベクトルytf |∀t,f}と定義する。 In the maximum likelihood method, the likelihood p (Y | Θ) of the mixed signal vector y tf including reverberation is used as an evaluation function, and the likelihood p (Y | Θ) is maximized to estimate the parameter set Θ = arg Find max Θ {p (Y | Θ)}. Here, the set Y is defined as Y: = {vector y tf } tf : = {vector y tf | ∀t, f}.
一方、MAP推定法では、パラメータの集合Θの事後確率p(Θ|Y)を評価関数とし、事後確率p(Θ|Y)を最大化することでパラメータの集合の推定値Θ=arg maxΘ{p(Θ|Y)}を求める。さらに、ベイズの定理より、p(Θ|Y)={p(Y|Θ)p(Θ)}/p(Y)であることと、p(Y)は定数であることに注意すると、MAP推定法によるパラメータの集合Θの推定値は、下記(22)式のように書きなおせる。なお、下記(22)式において、p(Θ)はパラメータの集合Θの事前確率を表す。 On the other hand, in the MAP estimation method, the posterior probability p (Θ | Y) of the parameter set Θ is used as an evaluation function, and the estimated value Θ = arg max Θ of the parameter set is maximized by maximizing the posterior probability p (Θ | Y). {P (Θ | Y)} is obtained. Furthermore, MAP is noted from the Bayes' theorem that p (Θ | Y) = {p (Y | Θ) p (Θ)} / p (Y) and p (Y) is a constant. The estimated value of the parameter set Θ by the estimation method can be rewritten as the following equation (22). In the following equation (22), p (Θ) represents the prior probability of the parameter set Θ.
残響を含む混合信号ベクトルytfの尤度p(Y|Θ)は、上記(15)式の左辺に現れる、残響を含む混合信号ベクトルytfの分布を表す確率モデルを用いて、下記(23)式で表される。 The likelihood p mixed signal vector y tf containing reverberation (Y | theta), using a probability model representing the distribution of the mixed signal vector y tf appear on the left-hand side of the equation (15), including reverberation, following (23 ) Expression.
パラメータの集合Θの事前確率p(Θ)は、任意の確率モデルを用いてモデル化することができるが、例えば一様な分布を用いることができる。一様分布を用いる場合、上記(22)式に基づく、MAP推定法によるパラメータの集合Θの推定値は、最尤推定と一致する。もしくは、混合重みの事前分布として、下記(24)式のようなディリクレ分布を仮定する。 The prior probability p (Θ) of the parameter set Θ can be modeled using an arbitrary probability model, but a uniform distribution can be used, for example. When the uniform distribution is used, the estimated value of the parameter set Θ by the MAP estimation method based on the above equation (22) coincides with the maximum likelihood estimation. Alternatively, a Dirichlet distribution such as the following equation (24) is assumed as the prior distribution of the mixture weight.
そして、混合重み以外のパラメータに対しては、一様な事前分布を仮定してもよい。この場合、パラメータの集合Θの事前分布P(Θ)は、上記(24)式に示す混合重みの事前分布に比例する。ここで、上記(24)式におけるψは、ハイパーパラメータと呼ばれる所定の定数である。ψは、任意の正数に設定することができるが、例えばψ=600とすればよい。 A uniform prior distribution may be assumed for parameters other than the mixture weight. In this case, the prior distribution P (Θ) of the set of parameters Θ is proportional to the prior distribution of the mixture weights shown in the above equation (24). Here, ψ in the above equation (24) is a predetermined constant called a hyper parameter. ψ can be set to an arbitrary positive number. For example, ψ = 600 may be set.
以下では、上記(22)式に基づくMAP推定法により、パラメータの集合Θを推定するためのアルゴリズムの一例として、集合D:={dtf}を隠れ変数とみなしたEM(Expectation-Maximization)アルゴリズムを導出する。なお、EMについては、文献3「A.P. Dempster, N.M. Laird, and D.B. Rubin, “Maximum likelihood from incomplete data via the EM algorithm.” Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, no. 1, pp. 1.38, 1977.」に詳述されている。
In the following, as an example of an algorithm for estimating the parameter set Θ by the MAP estimation method based on the above equation (22), an EM (Expectation-Maximization) algorithm that considers the set D: = {d tf } as a hidden variable Is derived. Regarding EM,
EMアルゴリズムとは、以下に定義するEステップとMステップを、収束条件が満たされるまで反復するものである。Eステップでは、下記(25)式で定義されるQ関数:Q(Θ;Θ´)を計算する。 The EM algorithm is to repeat the E step and M step defined below until the convergence condition is satisfied. In the E step, a Q function defined by the following equation (25): Q (Θ; Θ ′) is calculated.
ここで、lnP(Y,D|Θ)は、完全データの集合{Y,D}の対数尤度を表し、P(D|Y,Θ´)は、パラメータの集合Θの現在の推定値Θ´に対する集合Dの事後確率を表し、<・>P(D|Y,Θ´)は、P(D|Y,Θ´)に関する期待値演算を表す。 Where lnP (Y, D | Θ) represents the log likelihood of the complete data set {Y, D}, and P (D | Y, Θ ′) is the current estimate Θ of the parameter set Θ. Represents the posterior probability of the set D with respect to ′, and </ P (D | Y, Θ ′) represents the expected value calculation for P (D | Y, Θ ′).
一方、Mステップでは、Q関数の最大化により、パラメータの集合Θを更新する。EMアルゴリズムの各反復において、評価関数p(Y|Θ)p(Θ)の単調非減少性が保証されている。Q関数の具体形を計算するために、下記(26)式〜(30)式のように、p(Y,D|Θ)、p(D|Y,Θ´)を求める。 On the other hand, in the M step, the parameter set Θ is updated by maximizing the Q function. In each iteration of the EM algorithm, the monotonic non-decreasing property of the evaluation function p (Y | Θ) p (Θ) is guaranteed. In order to calculate the specific form of the Q function, p (Y, D | Θ) and p (D | Y, Θ ′) are obtained as in the following equations (26) to (30).
ここで、上記(30)式におけるγ(n) tfは、下記(31)式〜(33)式で定義する。 Here, γ (n) tf in the above equation (30) is defined by the following equations (31) to (33).
ただし、簡単のため、上記(33)式において、α(n) f、回帰行列Gkf、φ(n) tf、行列B(n) fの現在の推定値を、それぞれ、単にα(n) f、回帰行列Gkf、φ(n) tf、行列B(n) fと表記した。 However, for the sake of simplicity, in the above equation (33), the current estimated values of α (n) f , regression matrix G kf , φ (n) tf , and matrix B (n) f are simply α (n) , respectively. f , regression matrix G kf , φ (n) tf , matrix B (n) f .
上記(28)式、上記(30)式を、上記(25)式へ代入することで、Q関数の具体形が、下記(34)式、(35)式のように得られる。 By substituting the above equations (28) and (30) into the above equation (25), specific forms of the Q function can be obtained as the following equations (34) and (35).
混合重みα(n) fの更新式は、拘束条件ΣN n=1α(n) f=1に注意して、ラグランジュの未定乗数法を用いることで得られる。φ(n) tf及び行列B(n) fの更新式は、上記(35)式に示すQ関数のφ(n) tf、及び、行列B(n) fの複素共役である(行列B(n) f)*に関する偏微分を0とおくことで得られる。 The update formula of the mixture weight α (n) f is obtained by using the Lagrange's undetermined multiplier method while paying attention to the constraint condition Σ N n = 1 α (n) f = 1. phi (n) tf and update equation of the matrix B (n) f is the (35) φ (n) tf of Q function shown in the expression and the complex conjugate of the matrix B (n) f (matrix B ( n) It is obtained by setting the partial derivative with respect to f ) * to 0.
回帰行列Gkfの更新式は、上記(35)式に示すQ関数から、回帰行列Gkfのエルミート転置である行列GH kfに依存する項のみを抜き出すと、下記(36)式、(37)式のようになる。 Update equation of the regression matrix G kf from Q function shown in the expression (35), when extracting only the term that depends on a Hermitian transpose of regression matrix G kf matrix G H kf, following equation (36), (37 )
上記(37)式の、行列〜GH fに関する偏微分を0とおいて整理すると、下記(41)式のようになる。 If the partial differentiation with respect to the matrix to G H f in the equation (37) is set to 0, the following equation (41) is obtained.
上記(41)式の両辺に、vec作用素を作用させ、下記(a)式で示される、行列A、行列B、行列Xについての、クロネッカー積に関する公式を適用すると、下記(42)式のようになる。 By applying the vec operator to both sides of the above equation (41) and applying the formula for the Kronecker product for the matrix A, the matrix B, and the matrix X shown by the following equation (a), the following equation (42) is obtained. become.
ただし、上記(42)式において、vec[a1・・・aP]及び行列〜GH fを、それぞれ下記(43)式、(44)式のように定義する。 However, in the above equation (42), vec [a 1 ... A P ] and matrices to G H f are defined as the following equations (43) and (44), respectively.
よって、上記(42)式から、下記(45)式のように、vec[行列〜GH f]が求まる。 Therefore, from the above equation (42), vec [matrix˜G H f ] is obtained as in the following equation (45).
<実施形態1の一態様>
以下、上述の実施形態1の理論的背景に基づく、実施形態1の一態様を説明する。なお、実施形態1の一態様において、音源数Nは既知と仮定する。
<One aspect of
Hereinafter, one aspect of the first embodiment based on the theoretical background of the first embodiment will be described. In one aspect of
(実施形態1に係るモデル推定装置の構成)
図1は、実施形態1に係るモデル推定装置の構成の一例を示す図である。実施形態1に係るモデル推定装置10Aは、残響除去処理部11A、クラスタリング部12Aを有する。残響除去処理部11Aは、初期化部11A−1、共分散行列更新部11A−2、回帰行列更新部11A−3、残響除去部11A−4を有する。共分散行列更新部11A−2及び回帰行列更新部11A−3及び混合重み更新部12A−2は、パラメータ推定部の一例である。残響除去部11A−4は、信号推定部の一例である。事後確率更新部12A−1は、事後確率計算部の一例である。
(Configuration of Model Estimation Device According to Embodiment 1)
FIG. 1 is a diagram illustrating an example of a configuration of a model estimation apparatus according to the first embodiment. The
初期化部11A−1は、まず、パラメータの集合Θの初期値を計算する。この初期値は、例えば、以下のように計算することができる。まず、アクティブな音源の番号dtfの推定値^dtfを、残響モデルを含まない従来のクラスタリングに基づく音源分離技術を用いて計算する。残響モデルを含まない従来のクラスタリングに基づく音源分離技術は、文献4「伊藤信貴,荒木章子,木下慶介,中谷智広,“音源位置情報に基づく劣決定ブラインド音源分離のためのパーミュテーションフリークラスタリング法”,電子情報通信学会論文誌, vol. J97-A, no. 4, pp. 234.246, Apr. 2014.」に詳述されている。
The
次に、初期化部11A−1は、推定値^dtfを用いて、下記(46)式〜(49)式により、各パラメータを初期化する。なお、下記(46)式及び(48)式における集合C(n) fは、C(n) f:={t|dtf=n}で定義される行列である。また、下記(46)式及び(48)式における#C(n) fは、集合C(n) fの要素数を表す。また、下記(49)式における“tr[・]”は、行列[・]のトレースを表す。
Next, the
共分散行列更新部11A−2は、各音源n(n=1,・・・,N)の残響を含まないマイクロホン像のベクトルs(n) tfの共分散行列φ(n) tfB(n) fのパラメータφ(n) tf及び行列B(n) fを、それぞれ下記(50)式、(51)式により更新する。
The covariance
回帰行列更新部11A−3は、回帰行列Gkfを、下記(52)式、(53)式により更新する。
The regression
ここで、上記(53)式の左辺に現れる行列〜Gf及び上記(53)式の右辺に現れるベクトル〜yt-Δ-1,fは、下記(54)式、(55)式のように定義される。 Here, the matrix ~ G f appearing on the left side of the above expression (53) and the vector ~ y t-Δ-1, f appearing on the right side of the above expression (53) are expressed by the following expressions (54) and (55). Defined in
残響除去部11A−4は、残響を含まない混合信号ベクトルの推定値^xtfを、下記(56)式により更新する。
The
クラスタリング部12Aは、事後確率更新部12A−1、混合重み更新部12A−2を有する。事後確率更新部12A−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、下記(57)式により更新する。なお、γ(n) tf:=P(dtf=n|ベクトルytf,Θ)と定義する。
The
混合重み更新部12A−2は、混合重みα(n) fを、下記(58)式により更新する。
The mixing
なお、性能向上のため、モデル推定装置10Aの全処理に先立ち、残響を含む混合信号ベクトルytfに対し、前処理として、下記に示す白色化をおこなってもよい。
In addition, in order to improve performance, whitening as described below may be performed as preprocessing on the mixed signal vector y tf including reverberation prior to the entire processing of the
なお、実施形態1は、クラスタリング部12Aの事後確率更新部12A−1が、上記(57)式に基づき、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとした。しかし、これに限らず、k-meansクラスタリング等の従来技法を用い、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとしてもよい。
In the first embodiment, the a posteriori
(実施形態1に係るモデル推定装置の処理)
図2は、実施形態1に係るモデル推定装置の処理手順の一例を示すフローチャートである。以下に述べるモデル推定装置10Aの処理は、所定の収束判定条件が満たされるまで反復される。所定の収束条件は、例えば、「所定の反復回数に達している、又は、事後確率更新部12A−1、混合重み更新部12A−2の各更新部のうち1つ以上の更新部による更新前後のパラメータ値の差分が所定の閾値未満である」などとすればよい。
(Processing of model estimation apparatus according to Embodiment 1)
FIG. 2 is a flowchart illustrating an example of a processing procedure of the model estimation apparatus according to the first embodiment. The process of the
先ず、ステップS11では、初期化部11A−1は、パラメータの集合Θの初期値を、上記(46)式〜(49)式に基づき計算し、モデル推定装置10Aの主記憶装置に保存する。次に、ステップS12では、残響除去部11A−4は、モデル推定装置10Aの主記憶装置に現在保存されている回帰行列Gkfに基づき、上記(56)式により、残響を含まない混合信号ベクトルの推定値^xtfを更新する(“残響除去”処理)。
First, in step S11, the
次に、ステップS13では、事後確率更新部12A−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、上記(57)式により計算し、モデル推定装置10Aの主記憶装置に保存する。また、ステップS13では、混合重み更新部12A−2は、混合重みα(n) fを、上記(58)式により計算し、モデル推定装置10Aの主記憶装置に保存する(以上、“クラスタリング”処理)。
Next, in step S13, the posterior
次に、モデル推定装置10Aは、収束判定条件が満たされているか否かを判定する(ステップS14)。モデル推定装置10Aは、収束判定条件が満たされている場合(ステップS14Yes)、処理を終了する。モデル推定装置10Aは、収束判定条件が満たされていない場合(ステップS14No)、ステップS15へ処理を移す。
Next, the
ステップS15では、共分散行列更新部11A−2は、各音源n(n=1,・・・,N)の残響を含まないマイクロホン像のベクトルs(n) tfの共分散行列φ(n) tfB(n) fのパラメータφ(n) tf及び行列B(n) fを、それぞれ上記(50)式、(51)式により計算し、モデル推定装置10Aの主記憶装置に更新保存する。また、ステップS15では、回帰行列更新部11A−3は、共分散行列更新部11A−2により計算されたパラメータφ(n) tf及び行列B(n) fに基づき、回帰行列Gkfを、上記(52)式、(53)式により計算し、モデル推定装置10Aの主記憶装置に更新保存する。
In step S15, the covariance
また、ステップS15では、事後確率更新部12A−1は、モデル推定装置10Aの主記憶装置に現在保存されているパラメータの集合Θ、及び、最後に実行したステップS12による残響を含まない混合信号ベクトルの推定値^xtfに基づき、上記(57)式により、事後確率γ(n) tfを計算し、モデル推定装置10Aの主記憶装置に更新保存する。また、ステップS15では、混合重み更新部12A−2は、事後確率更新部12A−1により計算された事後確率γ(n) tfに基づき、上記(58)式により、混合重みα(n) fを更新し、モデル推定装置10Aの主記憶装置に更新保存する。以上のステップS15の処理が終了すると、モデル推定装置10Aは、ステップS12へ処理を移す。
In step S15, the posterior
[実施形態2]
以下、実施形態2について、実施形態2の理論的背景を説明後、実施形態2の一態様を説明する。
[Embodiment 2]
Hereinafter, after describing the theoretical background of the second embodiment, one aspect of the second embodiment will be described.
<実施形態2の理論的背景>
実施形態1のように、上記(19)式に示す周波数依存の混合重みを用いる場合、評価関数である事後確率には、パーミュテーション(置換)の不定性がある。すなわち、{1,・・・,N}上の置換Πfにより、パラメータの集合Θのα(n) f、φ(n) tf、行列B(n) tfの順序を、下記(62)式のように入れ替えた場合を考える。
<Theoretical Background of
As in the first embodiment, when the frequency-dependent mixture weight shown in the above equation (19) is used, the posterior probability that is the evaluation function has indefiniteness of permutation (replacement). That is, the order of α (n) f , φ (n) tf , and matrix B (n) tf of the parameter set Θ is expressed by the following equation (62) by the permutation Π f on {1 ,. Consider the case of replacement.
このとき、下記(63)式が成り立つ。 At this time, the following equation (63) holds.
すなわち、事後確率を最大化するだけでは、推定されたΘにおける番号nは、周波数毎に、異なる音源に対応してしまうというパーミュテーション問題がある。よって、推定されたΘをそのまま用いては、適切に目的音強調を行うことはできない。従って、実施形態1に基づいて目的音強調装置を構成する際には、番号nが周波数によらず同一の音源に対応するように置換Πfを決定する、パーミュテーション解決の処理が別途必要となる。 That is, there is a permutation problem that the number n in the estimated Θ corresponds to a different sound source for each frequency only by maximizing the posterior probability. Therefore, the target sound cannot be properly emphasized by using the estimated Θ as it is. Therefore, when the target sound enhancement device is configured based on the first embodiment, a permutation resolution process is separately required for determining the replacement Π f so that the number n corresponds to the same sound source regardless of the frequency. It becomes.
これに対し、実施形態2のモデル推定装置は、時間依存の混合重みを用いる。これにより、上記文献4に開示されている通り、事後確率の最大化により、パーミュテーション問題を生じずにモデル推定が可能である。
In contrast, the model estimation apparatus according to the second embodiment uses time-dependent mixture weights. Thereby, as disclosed in the above-mentioned
以下、実施形態2の理論的背景を、実施形態1との差異に重点を置きながら説明する。 Hereinafter, the theoretical background of the second embodiment will be described with an emphasis on the difference from the first embodiment.
(実施形態2の残響を含む混合信号ベクトルのモデル化)
実施形態2では、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)を、周波数依存の混合重みではなく、時間依存の混合重みα(n) tを用いて、下記(64)式でモデル化する。
(Modeling of mixed signal vector including reverberation in embodiment 2)
In the second embodiment, the probability model P (d tf | Θ) of the active sound source number d tf is expressed by the following (64) using the time-dependent mixture weight α (n) t instead of the frequency-dependent mixture weight. Model with an expression.
従って、実施形態2における残響を含む混合信号ベクトルytfの分布を表す確率モデル(上記(16)式参照)の具体形は、下記(65)式のように得られる。 Therefore, the concrete form of the probability model (see the above equation (16)) representing the distribution of the mixed signal vector y tf including reverberation in the second embodiment is obtained as the following equation (65).
パラメータの集合Θは、具体的には、下記(66)式で表される。 The parameter set Θ is specifically expressed by the following equation (66).
(実施形態2のパラメータ推定アルゴリズムの導出)
EMアルゴリズムにより、事後確率を最大化する点は、実施形態2は、実施形態1と同様である。しかし、実施形態2は、EMアルゴリズムの各反復において、Eステップ、Mステップの処理に加えて、P(Permutation)ステップの処理を行う。Pステップでは、各周波数binの番号fにて、目的関数である事後確率が最大となるように、共分散行列φ(n) tfB(n) fを音源間で置換することにより、パーミュテーションを解決する。すなわち、Πfを{1,・・・,N}上の置換として、下記(67)式〜(69)式の処理を行う。
(Derivation of Parameter Estimation Algorithm of Embodiment 2)
The second embodiment is the same as the first embodiment in that the EM algorithm maximizes the posterior probability. However, in the second embodiment, in each iteration of the EM algorithm, a P (Permutation) step process is performed in addition to the E step and M step processes. In the P step, permutation is performed by replacing the covariance matrix φ (n) tf B (n) f between sound sources so that the posterior probability that is the objective function is maximized at the number f of each frequency bin. Solve the problem. That is, Π f is substituted on {1,..., N}, and the following formulas (67) to (69) are processed.
なお、Eステップ及びMステップにおける更新式の導出は、実施形態1と同様であるので、説明を省略する。 Note that the derivation of the update formula in the E step and the M step is the same as in the first embodiment, and thus the description thereof is omitted.
<実施形態2の一態様>
以下、上述の実施形態2の理論的背景に基づく、実施形態2の一態様を説明する。なお、実施形態2の一態様において、音源数Nは既知と仮定する。しかし、実施形態2は、真の音源数N0が既知でなくても、その上限は分かっていると仮定し、仮定する音源数Nを、真の音源数N0の上限より大きく設定することで、音源数が既知である場合と同様に実施可能である。
<One aspect of
Hereinafter, an aspect of the second embodiment based on the theoretical background of the second embodiment will be described. In one aspect of the second embodiment, the number N of sound sources is assumed to be known. However, the second embodiment assumes that the upper limit is known even if the true sound source number N 0 is not known, and sets the assumed sound source number N to be larger than the upper limit of the true sound source number N 0. Thus, the present invention can be implemented in the same manner as when the number of sound sources is known.
(実施形態2に係るモデル推定装置の構成)
図3は、実施形態2に係るモデル推定装置の構成の一例を示す図である。実施形態2に係るモデル推定装置10Bは、残響除去処理部11B、クラスタリング部12Bを有する。残響除去処理部11Bは、初期化部11B−1、共分散行列更新部11B−2、回帰行列更新部11B−3、残響除去部11B−4を有する。共分散行列更新部11B−2及び回帰行列更新部11B−3及び混合重み更新部12B−2は、パラメータ推定部の一例である。残響除去部11B−4は、信号推定部の一例である。事後確率更新部12B−1は、事後確率計算部の一例である。
(Configuration of model estimation apparatus according to Embodiment 2)
FIG. 3 is a diagram illustrating an example of the configuration of the model estimation apparatus according to the second embodiment. The
初期化部11B−1は、まず、パラメータの集合Θの初期値を計算する。この初期値は、例えば、以下のように計算することができる。まず、アクティブな音源の番号dtfの推定値^dtfを、実施形態1と同様に、残響モデルを含まない従来のクラスタリングに基づく音源分離技術を用いて計算する。次に、初期化部11B−1は、推定値^dtfを用いて、上記(47)式〜(49)式、及び、下記(70)式により、各パラメータを初期化する。なお、下記(70)式における集合〜C(n) tは、C(n) t:={f|dtf=n}で定義される行列である。また、下記(70)式における#C(n) tは、集合C(n) tの要素数を表す。
The
共分散行列更新部11B−2、回帰行列更新部11B−3、残響除去部11B−4は、実施形態1の共分散行列更新部11A−2、回帰行列更新部11A−3、残響除去部11A−4とそれぞれ同様である。
The covariance
クラスタリング部12Bは、事後確率更新部12B−1、混合重み更新部12B−2、パーミュテーション解決部12B−3を有する。事後確率更新部12B−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、下記(71)式により更新する。なお、γ(n) tf:=P(dtf=n|ベクトルytf,Θ)と定義する。
The
混合重み更新部12B−2は、混合重みα(n) tを、下記(72)式により更新する。
The mixing
パーミュテーション解決部12B−3は、各周波数binの番号fにて、目的関数である事後確率が最大となるように、共分散行列φ(n) tfB(n) fを音源間で置換することにより、パーミュテーションを解決する。すなわち、Πfを{1,・・・,N}上の置換として、下記(73)式〜(75)式により、共分散行列φ(n) tfB(n) fを置換する。
The
なお、性能向上のため、モデル推定装置10Bの全処理に先立ち、残響を含む混合信号ベクトルytfに対し、前処理として、上記(59)式〜(61)式に示す白色化をおこなってもよい。
In order to improve the performance, whitening shown in the above equations (59) to (61) is performed as preprocessing on the mixed signal vector y tf including reverberation prior to the entire processing of the
なお、実施形態2は、クラスタリング部12Bの事後確率更新部12B−1が、上記(71)式に基づき、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとした。しかし、これに限らず、k-meansクラスタリング等の従来技法を用い、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとしてもよい。
In the second embodiment, the a posteriori
[実施形態3]
実施形態3は、実施形態2のモデル推定装置10Bを用いて、上記文献4に記載の音源数推定技術により、音源数も推定する構成にしたものである。実施形態3は、真の音源数N0は分からないがその上限は分かっていると仮定し、仮定する音源数Nを、真の音源数N0の上限より大きく設定する。
[Embodiment 3]
In the third embodiment, the number of sound sources is also estimated using the
(実施形態3に係るモデル推定装置の構成)
図4は、実施形態3に係るモデル推定装置の構成の一例を示す図である。実施形態3に係るモデル推定装置10Cは、実施形態2に係るモデル推定装置10Bと比較して、音源数推定部13をさらに有する。
(Configuration of Model Estimation Device According to Embodiment 3)
FIG. 4 is a diagram illustrating an example of the configuration of the model estimation apparatus according to the third embodiment. The
音源数推定部13は、クラスタリング部12Bによって計算されたn番目の音源がアクティブである事後確率γ(n) tfを用いて、番号n=1,・・・,Nのうち、真の音源に対応する番号n(1),・・・, n(N0)を判定し、真の音源に対応する番号のパラメータのみを出力する。具体的には、音源数推定部13は、n番目の音源がアクティブである事後確率γ(n) tfを用いて、n番目の音源がアクティブである事後確率の総和を、例えば下記(76)式により算出する。
The number of sound
そして、音源数推定部13は、各n番目の音源がアクティブである事後確率の総和ρ(n)を2つにクラスタリングし、総和の大きい方のクラスタに属するρ(n)の番号n=n(1),・・・, n(^N0)を求め、真の音源に対応する番号とみなす。例えば、音源数推定部13は、ρ(n)に対して、クラスタ数2のk-meansクラスタリングを適用してクラスタリングする。
The sound source
最後に、音源数推定部13は、真の音源に対応するn=n(1),・・・, n(^N0)に対応する、下記(77)式に示すパラメータのみを出力する。なお、下記(77)式において、l=1,・・・,^N0である。
Finally, the sound source
(実施形態3に係るモデル推定装置の処理)
図5は、実施形態3に係るモデル推定装置の処理手順の一例を示すフローチャートである。以下に述べるモデル推定装置10Cの処理は、実施形態1又は2と同様の所定の収束判定条件が満たされるまで反復される。
(Processing of model estimation apparatus according to Embodiment 3)
FIG. 5 is a flowchart illustrating an example of a processing procedure of the model estimation apparatus according to the third embodiment. The process of the
先ず、ステップS21では、初期化部11B−1は、パラメータの集合Θの初期値を、上記(47)式〜(49)式、及び、(70)式に基づき計算し、モデル推定装置10Cの主記憶装置に保存する。次に、ステップS22では、残響除去部11B−4は、モデル推定装置10Cの主記憶装置に現在保存されている回帰行列Gkfに基づき、上記(56)式により、残響を含まない混合信号ベクトルの推定値^xtfを更新する(“残響除去”処理)。
First, in step S21, the
次に、ステップS23では、事後確率更新部12B−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、上記(71)式により計算し、モデル推定装置10Cの主記憶装置に保存する。また、ステップS23では、混合重み更新部12B−2は、混合重みα(n) tを、上記(72)式により計算し、モデル推定装置10Cの主記憶装置に保存する(以上、“クラスタリング”処理)。また、ステップS23では、パーミュテーション解決部12B−3は、Πfを{1,・・・,N}上の置換として、上記(73)式〜(75)式により、共分散行列φ(n) tfB(n) fを置換する。
Next, in step S23, the posterior
次に、モデル推定装置10Cは、収束判定条件が満たされているか否かを判定する(ステップS24)。モデル推定装置10Cは、収束判定条件が満たされている場合(ステップS24Yes)、ステップS26へ処理を移す。モデル推定装置10Cは、収束判定条件が満たされていない場合(ステップS24No)、ステップS25へ処理を移す。
Next, the
ステップS25の処理は、図2に示す実施形態1のステップS15の処理と同様である。ステップS26では、音源数推定部13は、n番目の音源がアクティブである事後確率γ(n) tfを用いて、真の音源数を推定し、推定結果を出力する。
The process of step S25 is the same as the process of step S15 of the first embodiment shown in FIG. In step S26, the sound source
[実施形態4]
実施形態4に係る目的音強調装置は、実施形態1〜3に係るモデル推定装置10A〜10Cのいずれかを有する目的音強調装置100である。
[Embodiment 4]
The target sound enhancement apparatus according to the fourth embodiment is the target
(実施形態4に係る目的音強調装置の構成)
図6は、実施形態4に係る目的音強調装置の構成の一例を示す図である。実施形態4に係る目的音強調装置100は、周波数領域変換部20、モデル推定装置10A(あるいは10B又は10C)、強調音計算部30、時間領域変換部40を有する。
(Configuration of target sound enhancement apparatus according to Embodiment 4)
FIG. 6 is a diagram illustrating an example of the configuration of the target sound enhancement device according to the fourth embodiment. The target
周波数領域変換部20は、時間領域での残響を含む混合信号ベクトル〜yτを、短時間フーリエ変換などの時間周波数変換により、時間周波数領域での残響を含む混合信号ベクトルytfに変換する。ここで、混合信号ベクトル〜yτは、下記(78)式により定義される。
The frequency
ただし、上記(78)式において、〜y(m) τは、時間領域でのm(m=1,・・・,M)番目のマイクロホンで観測された残響を含む混合信号であり、τはサンプル番号を表す。モデル推定装置10A(あるいは10B又は10C)は、パラメータの集合Θと、各音源nがアクティブである事後確率γ(n) tfを計算する。
In the above equation (78), ˜y (m) τ is a mixed signal including reverberation observed by the m (m = 1,..., M) th microphone in the time domain, and τ is Represents the sample number. The
強調音計算部30は、周波数領域変換部20から出力された時間周波数領域での残響を含む混合信号ベクトルytfと、モデル推定装置10A(あるいは10B又は10C)から出力されたパラメータの集合Θと各音源nがアクティブである事後確率γ(n) tfとを用いて、時間周波数領域での各音源の残響を含まないマイクロホン像の推定値^s(n) tfを、下記(79)式及び(80)式により計算し、出力する。
The enhancement
なお、目的音強調装置100において実施形態1のモデル推定装置10Aを用いる場合は、上記(79)式及び(80)式の処理に先立って、γ(n) tfの番号nが周波数によらず同一の音源に対応するように、パーミュテーション解決を行う必要がある。このパーミュテーション解決は、例えば文献5「H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment.” IEEE Trans. ASLP, vol. 19, no. 3, pp. 516.527, Mar. 2011.」に記載の方法により行うことができる。
When the target
時間領域変換部40は、強調音計算部30から出力された時間周波数領域での各音源の残響を含まないマイクロホン像の推定値のベクトル^s(n) tfに、逆短時間フーリエ変換などの時間周波数変換の逆変換を適用して、時間領域での各音源の残響を含まないマイクロホン像の推定値のベクトル〜^s(n) τを計算する。ここで、ベクトル〜^s(n) τは、下記(81)式により定義される。ただし、〜^s(m,n) τは、ベクトル^s(n) τの第m要素^s(m,n) tfの逆短時間フーリエ変換である。
The time domain transforming unit 40 converts an estimated value of the microphone image that does not include the reverberation of each sound source in the time frequency domain output from the emphasized
なお、強調音計算部30において、残響除去と音源分離を同時に実現する例を示したが、残響のみを除去するために、時間周波数領域での残響を含まない混合信号の推定値^xtfに、逆短時間フーリエ変換などの時間周波数変換の逆変換を適用して、時間領域での残響を含まない混合信号の推定値のベクトル〜^xτを得る構成としてもよい。ここで、ベクトル〜^xτは、下記(82)式で定義される。ただし、〜^s(m,n) τは、ベクトル^s(n) τの第m要素^s(m,n) tfの逆短時間フーリエ変換である。
Note that in the emphasized
(実施形態4に係る目的音強調装置の処理)
図7は、実施形態4に係る目的音強調装置の処理手順の一例を示すフローチャートである。実施形態4に係る目的音強調装置100において、先ず、ステップS31では、周波数領域変換部20は、各マイクロホンで観測された信号をそれぞれ時間周波数領域の信号に変換する。次に、ステップS32では、モデル推定装置10A(あるいは10B又は10C)は、モデル推定を行う。次に、ステップS33では、強調音計算部30は、強調音を計算により推定する。次に、ステップS34では、時間領域変換部40は、強調音計算部30により推定された強調音を周波数領域から時間領域に変換する。
(Processing of the target sound enhancement device according to the fourth embodiment)
FIG. 7 is a flowchart illustrating an example of a processing procedure of the target sound enhancement device according to the fourth embodiment. In the target
以下、実施形態4を例に取り、開示の実施形態の実施例及びその効果について説明する。図8及び図9は、実施形態4の効果の一例を説明する図である。実施形態4に係る目的音強調装置100(以下「提案法」)と、従来の残響モデルを含まないクラスタリングベースの音源分離手法(例えば、文献4に記載の手法、以下「従来法」)の性能を比較する実験をおこなった。ただし、実施形態4に係る目的音強調装置100のモデル推定装置としては、実施形態2に係るモデル推定装置10Bを用いた。
Hereinafter, examples of the disclosed embodiment and effects thereof will be described using the fourth embodiment as an example. 8 and 9 are diagrams for explaining an example of the effect of the fourth embodiment. Performance of the target sound enhancement apparatus 100 (hereinafter “proposed method”) according to the fourth embodiment and a conventional clustering-based sound source separation method that does not include a reverberation model (for example, the method described in
マイクロホンで観測される残響を含む混合信号は、残響を含まない音声波形に、実験室で計測したインパルス応答(例えば、上述の文献5参照)を畳み込むことにより生成した。図8は、インパルス応答を計測した際のマイクロホンと音源の位置を示す。なお、提案法及び従来法の両方において、パラメータΘの推定に先立って、残響を含む混合信号ベクトルytfに対し、上記(59)式〜(61)式に示す白色化をおこなった。また、音源数Nは既知とした。また、他の実験条件は、下記(表1)に示すとおりとした。なお、図8に示す実験室は、4.45m×3.55m×(高さ)2.50mの空間であった。また、図8に示すSource1及び2とMicrophone1及び2の、実験室の床面に対する高さは、1.2mとした。
A mixed signal including reverberation observed by a microphone was generated by convolving an impulse response (for example, see Reference 5 described above) measured in a laboratory with a speech waveform not including reverberation. FIG. 8 shows the positions of the microphone and the sound source when the impulse response is measured. In both the proposed method and the conventional method, prior to the estimation of the parameter Θ, the mixed signal vector y tf including reverberation was whitened as shown in the above equations (59) to (61). The number N of sound sources is assumed to be known. Other experimental conditions were as shown in the following (Table 1). In addition, the laboratory shown in FIG. 8 was a space of 4.45 m × 3.55 m × (height) 2.50 m. Further, the height of
提案法及び従来法の性能は、下記(83)式で定義されるSIR(Signal-to-Interference Ratio)により評価した。 The performance of the proposed method and the conventional method was evaluated by SIR (Signal-to-Interference Ratio) defined by the following equation (83).
ここで、〜^s(1,n,ν) τは、〜^s(1,n)に含まれるν番目の音源成分を表す。Τ:=8kHz×8s=64000は、サンプリング点の総数を表し、Σν≠nは、n以外のνの値に対する総和を表す。 Here, ˜ ^ s (1, n, ν) τ represents the νth sound source component included in ˜ ^ s (1, n) . Τ: = 8 kHz × 8 s = 64000 represents the total number of sampling points, and Σν ≠ n represents the sum for values of ν other than n.
ここで、〜^s(1,n,ν) τの求め方を説明する。観測された残響を含む混合信号ベクトルytfは、ν番目の音源の残響を含むマイクロホン像のベクトルx(ν) tfを用いて、下記(84)式のように分解できる。 Here, how to obtain ~ ^ s (1, n, ν) τ will be described. The mixed signal vector y tf including the observed reverberation can be decomposed as the following equation (84) using the microphone image vector x (ν) tf including the reverberation of the νth sound source.
従って、n番目の音源の残響を含まないマイクロホン像の推定値のベクトル^s(n) tfは、下記(85)式及び(86)式のように分解できる。 Therefore, the estimated vector ^ s (n) tf of the microphone image that does not include the reverberation of the nth sound source can be decomposed as shown in the following equations (85) and (86).
ここで、上記(86)式において、^s(n,ν) tfは、^s(n) tfに含まれるν番目の音源成分を表す。よって、下記(87)式により、^s(n,ν) tfを求め、^s(n,ν) tfを逆短時間フーリエ変換して〜^s(n,ν) τを求め、〜^s(n,ν) τの第1要素として〜^s(1,n,ν) τが求まる。 Here, in the above equation (86) , ss (n, ν) tf represents the νth sound source component included in ss (n) tf . Therefore, by the following (87) equation, ^ s (n, [nu) seeking tf, seek ^ s (n, [nu) ~ and inverse short time Fourier transform tf ^ s (n, ν) τ, ~ ^ s (n, ν) ~ as the first element of τ ^ s (1, n, ν) τ is obtained.
図9に、各残響時間に対し、音声波形の組み合わせを変えて8回の試行を行った際のSIRの平均値をプロットしたグラフを示す。残響時間が最も小さい条件(残響時間130ms程度)では、提案法と従来法は同等の性能を示した。しかし、図9に示すように、残響時間が大きくなるにつれて、従来法に対する提案法の性能改善量が増加する傾向があった。特に、残響時間が370ms程度の場合に、性能改善量は、試行中、最大の約4dBとなった。 FIG. 9 shows a graph in which the average value of SIR is plotted for each reverberation time when eight trials are performed with different combinations of speech waveforms. Under the conditions with the shortest reverberation time (reverberation time of about 130 ms), the proposed method and the conventional method showed equivalent performance. However, as shown in FIG. 9, as the reverberation time increases, the performance improvement amount of the proposed method with respect to the conventional method tends to increase. In particular, when the reverberation time was about 370 ms, the performance improvement amount was about 4 dB at the maximum during the trial.
以上から、実施形態1〜4は、独立成分分析に基づく音源分離技術と比較して、音源数が未知の場合でも適用できる等の利点があるクラスタリングに基づく音源分離技術において、線形予測に基づく残響除去とクラスタリングに基づく音源分離を交互に反復する。実施形態1〜4は、線形予測に基づく残響除去により推定された残響を含まない混合信号に対して、クラスタリングに基づく音源分離を適用することで、音源分離の性能を向上させることができる。さらに、実施形態1〜4は、改善された音源分離結果を用いることで、残響除去の性能を改善することができる。よって、実施形態1〜4は、残響除去と上記音源分離の反復により、残響時間がフレーム長に比べて長い場合でも、より高精度な音源分離を実現することができる。
As described above, the reverberation based on linear prediction is used in the first to fourth embodiments in the sound source separation technology based on clustering that has an advantage that it can be applied even when the number of sound sources is unknown, compared to the sound source separation technology based on independent component analysis. The sound source separation based on removal and clustering is repeated alternately.
(モデル推定装置及び目的音強調装置の装置構成について)
図1、図3、図4に示すモデル推定装置10A〜10C及び図6に示す目的音強調装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、モデル推定装置10A〜10C及び目的音強調装置100の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。
(About the device configuration of the model estimation device and the target sound enhancement device)
The components of the
また、モデル推定装置10A〜10C及び目的音強調装置100において行われる各処理は、全部又は任意の一部が、CPU(Central Processing Unit)等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、モデル推定装置10A〜10C及び目的音強調装置100において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
In addition, each of the processes performed in the
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。 In addition, among the processes described in the embodiment, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or some of the processes described as being manually performed among the processes described in the embodiments can be automatically performed by a known method. In addition, the above-described and illustrated processing procedures, control procedures, specific names, and information including various data and parameters can be changed as appropriate unless otherwise specified.
(プログラムについて)
図10は、プログラムが実行されることにより、モデル推定装置及び目的音強調装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
(About the program)
FIG. 10 is a diagram illustrating an example of a computer in which a model estimation device and a target sound enhancement device are realized by executing a program. The
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、モデル推定装置10A〜10C及び目的音強調装置100の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、モデル推定装置10A〜10C及び目的音強調装置100における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
The hard disk drive 1031 stores, for example, an
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
The setting data used in the processing of the embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 The above-described embodiments and other embodiments are included in the invention disclosed in the claims and equivalents thereof as well as included in the technology disclosed in the present application.
10A、10B、10C モデル推定装置
11A、11B 残響除去処理部
11A−1、11B−1 初期化部
11A−2、11B−2 共分散行列更新部
11A−3、11B−3 回帰行列更新部
11A−4、11B−4 残響除去部
12A、12B クラスタリング部
12A−1、12B−1 事後確率更新部
12A−2、12B−2 混合重み更新部
12B−3 パーミュテーション解決部
13 音源数推定部
20 周波数領域変換部
30 強調音計算部
40 時間領域変換部
100 目的音強調装置
1000 コンピュータ
1010 メモリ
1020 CPU
10A, 10B, 10C
Claims (8)
前記音を複数のマイクロホンで観測した観測信号と、前記記憶部に保存される回帰行列とを用いた線形予測により、前記残響を含まない混合信号を推定する信号推定部と、
前記信号推定部により推定された混合信号から、各時間周波数点が属する前記音源に対応するクラスタ毎の事後確率を計算する事後確率計算部と、
前記観測信号と、前記信号推定部により推定された混合信号と、前記事後確率計算部により計算された事後確率と、前記記憶部に保存されるパラメータとから、前記パラメータを推定し、推定したパラメータで前記記憶部に保存されるパラメータを更新するパラメータ推定部と
を備え、
前記信号推定部、前記事後確率計算部及び前記パラメータ推定部は、所定条件が満たされるまで各処理を繰り返す
ことを特徴とするモデル推定装置。 A storage unit for storing parameters of a model of a mixed signal including reverberation including a regression matrix indicating characteristics of reverberation due to sounds output from a plurality of sound sources;
A signal estimation unit for estimating a mixed signal not including the reverberation by linear prediction using an observation signal obtained by observing the sound with a plurality of microphones and a regression matrix stored in the storage unit;
A posterior probability calculation unit that calculates a posterior probability for each cluster corresponding to the sound source to which each time frequency point belongs, from the mixed signal estimated by the signal estimation unit;
The parameter is estimated and estimated from the observed signal, the mixed signal estimated by the signal estimation unit, the posterior probability calculated by the posterior probability calculation unit, and the parameter stored in the storage unit. A parameter estimation unit that updates a parameter stored in the storage unit with a parameter, and
The signal estimation unit, the posterior probability calculation unit, and the parameter estimation unit repeat each process until a predetermined condition is satisfied.
前記確率モデルは、各前記クラスタに関する前記残響を含む混合信号の分布を表す確率モデルの重み付き和で表される混合モデルであり、
前記パラメータ推定部は、前記確率モデルを評価する所定の評価関数により前記パラメータを推定する
ことを特徴とする請求項1に記載のモデル推定装置。 The mixed signal model including reverberation is a probabilistic model representing a distribution of the mixed signal including reverberation;
The probability model is a mixture model represented by a weighted sum of probability models representing a distribution of a mixture signal including the reverberation for each of the clusters;
The model estimation apparatus according to claim 1, wherein the parameter estimation unit estimates the parameter using a predetermined evaluation function for evaluating the probability model.
ことを特徴とする請求項2に記載のモデル推定装置。 The predetermined evaluation function is a likelihood of a mixed signal including the reverberation with respect to a parameter estimated by the parameter estimation unit, or a posterior probability of a parameter estimated by the parameter estimation unit. 2. The model estimation apparatus according to 2.
前記混合重み値は、前記残響を含む混合信号の周波数毎の混合重み値又は前記残響を含む混合信号の時刻毎の混合重み値である
ことを特徴とする請求項3に記載のモデル推定装置。 The parameter estimated by the parameter estimation unit includes a mixing weight value indicating a distribution of the plurality of sound sources included in the mixed signal including the reverberation at each time frequency point,
The model estimation apparatus according to claim 3, wherein the mixing weight value is a mixing weight value for each frequency of the mixed signal including the reverberation or a mixing weight value for each time of the mixed signal including the reverberation.
ことを特徴とする請求項4に記載のモデル推定装置。 The parameter estimation unit, based on the posterior probability corresponding to each of the plurality of sound sources included in the mixed signal including the reverberation at each time frequency point, the sound source included in the mixed signal including the reverberation among the plurality of sound sources. The model estimation apparatus according to claim 4, wherein a parameter corresponding to the estimated sound source is used as the estimated parameter.
を備えることを特徴とする目的音強調装置。 From the parameter and the posterior probability estimated by the model estimation device according to any one of claims 1 to 5 and a mixed signal including reverberation of each sound source in the time frequency domain, in the time frequency domain. An objective sound emphasizing apparatus comprising: an output unit that estimates and outputs an estimated value of an acoustic signal that does not include reverberation of each of the sound sources.
前記モデル推定装置は、複数の音源が出力する音による残響の特性を示す回帰行列を含む、該残響を含む混合信号のモデルのパラメータを保存する記憶部を備え、
前記音を複数のマイクロホンで観測した観測信号と、前記記憶部に保存される回帰行列とを用いた線形予測により、前記残響を含まない混合信号を推定する信号推定工程と、
前記信号推定工程により推定された混合信号から、各時間周波数点が属する前記音源に対応するクラスタ毎の事後確率を計算する事後確率計算工程と、
前記観測信号と、前記信号推定工程により推定された混合信号と、前記事後確率計算工程により計算された事後確率と、前記記憶部に保存されるパラメータとから、前記パラメータを推定し、推定したパラメータで前記記憶部に保存されるパラメータを更新するパラメータ推定工程と
を含み、
前記信号推定工程、前記事後確率計算工程及び前記パラメータ推定工程は、所定条件が満たされるまで繰り返される
ことを特徴とするモデル推定方法。 A model estimation method executed by a model estimation device,
The model estimation apparatus includes a storage unit that stores a parameter of a model of a mixed signal including reverberation including a regression matrix indicating characteristics of reverberation due to sound output from a plurality of sound sources,
A signal estimation step of estimating a mixed signal not including the reverberation by linear prediction using an observation signal obtained by observing the sound with a plurality of microphones and a regression matrix stored in the storage unit;
A posterior probability calculation step of calculating a posterior probability for each cluster corresponding to the sound source to which each time frequency point belongs, from the mixed signal estimated by the signal estimation step;
The parameter is estimated and estimated from the observed signal, the mixed signal estimated by the signal estimation step, the posterior probability calculated by the posterior probability calculation step, and the parameter stored in the storage unit. A parameter estimation step of updating a parameter stored in the storage unit with a parameter, and
The signal estimation step, the posterior probability calculation step, and the parameter estimation step are repeated until a predetermined condition is satisfied.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015034398A JP6290803B2 (en) | 2015-02-24 | 2015-02-24 | Model estimation apparatus, objective sound enhancement apparatus, model estimation method, and model estimation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015034398A JP6290803B2 (en) | 2015-02-24 | 2015-02-24 | Model estimation apparatus, objective sound enhancement apparatus, model estimation method, and model estimation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016156944A true JP2016156944A (en) | 2016-09-01 |
JP6290803B2 JP6290803B2 (en) | 2018-03-07 |
Family
ID=56826018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015034398A Active JP6290803B2 (en) | 2015-02-24 | 2015-02-24 | Model estimation apparatus, objective sound enhancement apparatus, model estimation method, and model estimation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6290803B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269581A (en) * | 2017-01-04 | 2018-07-10 | 中国科学院声学研究所 | A kind of dual microphone time delay estimation method based on coherence in frequency domain function |
CN111312276A (en) * | 2020-02-14 | 2020-06-19 | 北京声智科技有限公司 | Audio signal processing method, device, equipment and medium |
CN113257265A (en) * | 2021-05-10 | 2021-08-13 | 北京有竹居网络技术有限公司 | Voice signal dereverberation method and device and electronic equipment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009053349A (en) * | 2007-08-24 | 2009-03-12 | Nippon Telegr & Teleph Corp <Ntt> | Signal separation device, signal separation method, program, and recording medium |
JP2010049083A (en) * | 2008-08-22 | 2010-03-04 | Nippon Telegr & Teleph Corp <Ntt> | Sound signal enhancement device and method therefore, program and recording medium |
-
2015
- 2015-02-24 JP JP2015034398A patent/JP6290803B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009053349A (en) * | 2007-08-24 | 2009-03-12 | Nippon Telegr & Teleph Corp <Ntt> | Signal separation device, signal separation method, program, and recording medium |
JP2010049083A (en) * | 2008-08-22 | 2010-03-04 | Nippon Telegr & Teleph Corp <Ntt> | Sound signal enhancement device and method therefore, program and recording medium |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269581A (en) * | 2017-01-04 | 2018-07-10 | 中国科学院声学研究所 | A kind of dual microphone time delay estimation method based on coherence in frequency domain function |
CN108269581B (en) * | 2017-01-04 | 2021-06-08 | 中国科学院声学研究所 | Double-microphone time delay difference estimation method based on frequency domain coherent function |
CN111312276A (en) * | 2020-02-14 | 2020-06-19 | 北京声智科技有限公司 | Audio signal processing method, device, equipment and medium |
CN113257265A (en) * | 2021-05-10 | 2021-08-13 | 北京有竹居网络技术有限公司 | Voice signal dereverberation method and device and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP6290803B2 (en) | 2018-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6434657B2 (en) | Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program | |
JP6976804B2 (en) | Sound source separation method and sound source separation device | |
WO2017141542A1 (en) | Mask estimation apparatus, mask estimation method, and mask estimation program | |
WO2019198306A1 (en) | Estimation device, learning device, estimation method, learning method, and program | |
JP6517760B2 (en) | Mask estimation parameter estimation device, mask estimation parameter estimation method and mask estimation parameter estimation program | |
JP6195548B2 (en) | Signal analysis apparatus, method, and program | |
JP6748304B2 (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
JP6290803B2 (en) | Model estimation apparatus, objective sound enhancement apparatus, model estimation method, and model estimation program | |
JP6448567B2 (en) | Acoustic signal analyzing apparatus, acoustic signal analyzing method, and program | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
Giacobello et al. | Speech dereverberation based on convex optimization algorithms for group sparse linear prediction | |
JP5726790B2 (en) | Sound source separation device, sound source separation method, and program | |
JP6711765B2 (en) | Forming apparatus, forming method, and forming program | |
JP5807914B2 (en) | Acoustic signal analyzing apparatus, method, and program | |
JP6910609B2 (en) | Signal analyzers, methods, and programs | |
WO2021033296A1 (en) | Estimation device, estimation method, and estimation program | |
JP6581054B2 (en) | Sound source separation apparatus, sound source separation method, and sound source separation program | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
Mirzaei et al. | Under-determined reverberant audio source separation using Bayesian non-negative matrix factorization | |
JP6734237B2 (en) | Target sound source estimation device, target sound source estimation method, and target sound source estimation program | |
JP2019074621A (en) | Signal separation device, signal separation method and program | |
JP6644356B2 (en) | Sound source separation system, method and program | |
JP2018028620A (en) | Sound source separation method, apparatus and program | |
WO2019208137A1 (en) | Sound source separation device, method therefor, and program | |
WO2023209993A1 (en) | Signal processing device, learning device, signal processing method, learning method, signal processing program, and learning program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6290803 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |