JP6193823B2 - Sound source number estimation device, sound source number estimation method, and sound source number estimation program - Google Patents
Sound source number estimation device, sound source number estimation method, and sound source number estimation program Download PDFInfo
- Publication number
- JP6193823B2 JP6193823B2 JP2014167025A JP2014167025A JP6193823B2 JP 6193823 B2 JP6193823 B2 JP 6193823B2 JP 2014167025 A JP2014167025 A JP 2014167025A JP 2014167025 A JP2014167025 A JP 2014167025A JP 6193823 B2 JP6193823 B2 JP 6193823B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- cluster
- sound
- model
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音源数推定装置、音源数推定方法および音源数推定プログラムに関する。 The present invention relates to a sound source number estimation device, a sound source number estimation method, and a sound source number estimation program.
従来、音源分離技術として、クラスタリングに基づく音源分離を行う技術が知られている。例えば、音源数が既知であることを前提として、音源数と同数のクラスタを用いてクラスタリングを行う(例えば、非特許文献1参照)。1音源の特徴量は、各周波数内で同じ特徴量空間に集中しやすいため、このようなクラスタリングにより音源分離を行うことができる。 Conventionally, a technique for performing sound source separation based on clustering is known as a sound source separation technique. For example, assuming that the number of sound sources is known, clustering is performed using the same number of clusters as the number of sound sources (see, for example, Non-Patent Document 1). Since the feature values of one sound source tend to concentrate in the same feature value space within each frequency, sound source separation can be performed by such clustering.
各音源の特徴量空間の形状は、周波数に依存するが、1音源信号は、全周波数で同時に立ちあがりやすく、且つ、立ち下がりやすい。すなわち、音源アクティビティは周波数間で同期する。非特許文献1に記載のクラスタリングでは、この音源アクティビティの同期性を適切にモデル化し、全体最適化に組み込むことにより、音源位置特徴量と音源アクティビティの同時クラスタリングを実現している。
The shape of the feature amount space of each sound source depends on the frequency, but one sound source signal is likely to rise at the same time and fall easily at all frequencies. That is, sound source activity is synchronized between frequencies. In the clustering described in
ところが、非特許文献1に記載のクラスタリングでは、音源数が既知であることを前提としており、音源数が未知である場合には、音源数と同数のクラスタを用いてクラスタリングを行うことができない。一方、音源数を推定する技術が知られている。例えば、音源数を推定する技術として、「音源数≦マイクロホン数、かつ残響なし」であることを前提とし、音源数を推定する方法がある(例えば、非特許文献2を参照)。
However, the clustering described in Non-Patent
しかしながら、上記した従来の音源数を推定する技術では、「音源数≦マイクロホン数、かつ残響なし」であることを前提としており、実環境に近い条件下では、音源数を適切に推定することができないという課題があった。つまり、従来の音源数を推定する技術は、「音源数≦マイクロホン数、かつ残響なし」という理想的な条件でしか成立せず、例えば、「音源数>マイクロホン数、または残響あり」というような状況である場合には、音源数を適切に推定することができない。 However, the conventional techniques for estimating the number of sound sources are based on the premise that “the number of sound sources ≦ the number of microphones and no reverberation”, and under conditions close to the actual environment, the number of sound sources can be estimated appropriately. There was a problem that it was not possible. In other words, the conventional technique for estimating the number of sound sources can only be realized under the ideal condition of “the number of sound sources ≦ the number of microphones and no reverberation”, for example, “the number of sound sources> the number of microphones, or there is reverberation”. If this is the situation, the number of sound sources cannot be estimated appropriately.
上述した課題を解決し、目的を達成するために、本発明の音源数推定装置は、kをクラスタのインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、前記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、前記確率モデルのモデルパラメータを推定し、該モデルパラメータを用いて、前記観測信号ベクトルyτωが、前記N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算するモデル推定部と、前記事後確率が有意な値をとるクラスタの個数を、音源数として推定する音源数推定部と、を含み、前記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、前記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、前記確率モデルのモデルパラメータは、前記混合重みと、各音源に関する前記特徴ベクトルxτωの分布のパラメータであることを特徴とする。 In order to solve the above-described problems and achieve the object, the sound source number estimation apparatus of the present invention uses k as the cluster index, τ as the time frame index, ω as the angular frequency, and N sound sources. A feature extraction unit that extracts a feature vector x τω corresponding to an observation signal vector y τω composed of a time-frequency component of each observation signal from an observation signal obtained by observing a mixed signal in which signals are mixed with M microphones; The vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins, using the model parameters, the observed signal vector y Tauomega calculates the posterior probability of the conditional probability belonging to the N respective clusters configured more than sound mode Includes a Le estimating unit, the number of clusters probability after previous article takes a significant value, and the number of sound sources estimating unit for estimating a number of sound sources, and the probabilistic model, the weights of the distribution of the feature vectors x Tauomega for each sound source A mixture model represented by a sum, wherein the mixture weight of the probability model depends on the time frame τ and does not depend on the angular frequency ω, and the model parameter of the probability model includes the mixture weight, It is a parameter of the distribution of the feature vector x τω related to the sound source.
本発明によれば、実環境に近い条件下であっても、音源数を適切に推定することが可能であるという効果を奏する。 According to the present invention, there is an effect that it is possible to appropriately estimate the number of sound sources even under conditions close to a real environment.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.
[発明のポイント]
この発明の音源数推定装置における技術のポイントは、音源数が未知である条件下において、音源数を推定することが可能である点である。詳細は後述するが、音源数よりも多いクラスタ数を設定して非特許文献1に記載のクラスタリングを行い、各クラスタの事後確率を計算し、事後確率が有意な値をとるクラスタの個数を、音源数として推定するものである。
[Points of Invention]
The technical point of the sound source number estimation apparatus according to the present invention is that the number of sound sources can be estimated under conditions where the number of sound sources is unknown. Although details will be described later, clustering described in
[第一実施形態]
この発明の第一実施形態は、複数の音源からの信号を複数個のマイクロホンで観測し、各音源に関するモデルパラメータを推定するモデル推定装置である。
[First embodiment]
1st Embodiment of this invention is a model estimation apparatus which observes the signal from a several sound source with a several microphone, and estimates the model parameter regarding each sound source.
図1を参照して、第一実施形態のモデル推定装置Aの機能構成例を説明する。モデル推定装置Aは、周波数領域変換部1、特徴抽出部2及びモデル推定部3を含む。モデル推定部3は、事後確率計算部31、パラメータ更新部32及びパラメータ保持部33を含む。パラメータ更新部33は、混合重み更新手段321、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325を含む。
With reference to FIG. 1, the example of a function structure of the model estimation apparatus A of 1st embodiment is demonstrated. The model estimation apparatus A includes a frequency
図2を参照して、モデル推定装置Aの動作例を手続きの順に従って説明する。周波数領域変換部1へM個のマイクロホンにより観測された時間領域の混合信号~ytが入力される。時間領域の混合信号~ytは式(1)で定義される。
ここで、tは時間インデックスを表し、・T(上付き文字のT)はベクトル・の転置を表し、~ymtはm(1≦m≦M)番目のマイクロホンで観測された時間領域の混合信号を表す。 Where t is the time index, • T (superscript T) is the transpose of the vector • ~ y mt is the time domain mixture observed by the mth (1 ≦ m ≦ M) microphone Represents a signal.
周波数領域変換部1は入力された時間領域の混合信号~ytから短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルyτωを生成し出力する(ステップS1)。時間周波数領域の観測信号ベクトルyτωは式(2)で定義される。
ここで、τは時間フレームのインデックスを表し、ωは角周波数を表し、ymτωは混合信号~ymtの時間周波数領域での表現である。 Here, tau represents the time frame index, the ω represents an angular frequency, y Emutauomega is expressed in the time frequency domain mixed signals ~ y mt.
特徴抽出部2は、周波数領域変換部1の出力する時間周波数領域の観測信号ベクトルyτωを入力とし、特徴ベクトルxτωを計算し出力する(ステップS2)。特徴ベクトルxτωの計算は、時間周波数領域の観測信号ベクトルyτωを正規化することにより行ってもよいし、時間周波数領域の観測信号ベクトルyτωを白色化した後に正規化することによって行ってもよいし、時間周波数領域の観測信号ベクトルyτωを正規化した後に白色化して再度正規化することにより行ってもよい。例えば、時間周波数領域の観測信号ベクトルyτωを正規化することにより特徴ベクトルxτωを計算する場合は式(3)により計算すればよい。
また、例えば、時間周波数領域の観測信号ベクトルyτωを白色化した後に正規化する場合には、以下のように特徴ベクトルxτωを計算すればよい。まず、時間周波数領域の観測信号ベクトルyτωを用いて、式(4)により時間周波数領域の観測信号ベクトルyτωの標本相関行列Rω yを計算する。
ここで、Tはフレームの個数であり、・H(上付き文字のH)はエルミート(Hermite)転置である。 Here, T is the number of frames, and • H (superscript H) is Hermite transpose.
次に、標本相関行列Rω yの固有値と固有ベクトルを計算する。計算した標本相関行列Rω yの固有値を、大きい順に並べたものをσω1,σω2,…,σωMと表す。したがって、式(5)の関係が成り立つ。
ここで、標本相関行列Rω yはエルミート行列であるから、固有値σω1,σω2,…,σωMはすべて実数であることに注意する。また、固有値σω1,σω2,…,σωMに対応し、正規直交系をなす標本相関行列Rω yの固有ベクトルをuω1,uω2,…,uωMで表す。ここで、標本相関行列Rω yはエルミート行列であるから、このような固有ベクトルが存在することに注意する。 Here, since the sample correlation matrix R ω y is a Hermitian matrix, the eigenvalues σ ω1, σ ω2, ..., σ ωM is to note that all is a real number. Further, the eigenvectors of the sample correlation matrix R ω y forming the orthonormal system corresponding to the eigenvalues σ ω1 , σ ω2 ,..., Σ ωM are represented by u ω1 , u ω2 ,. Here, since the sample correlation matrix R ω y is a Hermitian matrix, it should be noted that such an eigenvector exists.
次に、行列Σωを式(6)により求め、行列Uωを式(7)により求める。
次に、行列Uω及び行列Σωを用いて、時間周波数領域の観測信号ベクトルyτωを白色化したベクトルy’τωを式(8)により計算する。
最後に、次式のようにベクトルy’τωをそのノルムで正規化することにより、特徴ベクトルxτωを計算する。
モデル推定部3は、特徴ベクトルxτωを特徴ベクトルの分布を表す確率モデルに当てはめ、確率モデルを評価する所定の評価関数を用いて、クラスタリングに適した確率モデルのモデルパラメータを計算する。そして、モデル推定部3は、該モデルパラメータを用いて、観測信号ベクトルyτωが、N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算する。
The
音源の位置が固定の場合、各周波数ビンにおいて、特徴ベクトルxτωは理想的にはそれぞれの音源ごとに固有の値をとる。ただし、実際には、雑音・残響の影響、モデル化誤差などに起因する変動が存在するため、特徴ベクトルxτωは音源ごとにある値を中心にクラスタを形成する。そのため、この発明では、クラスタkに関する特徴ベクトルxτωの分布を、例えば、以下のようにワトソン(Watson)分布でモデル化する。 When the position of the sound source is fixed, in each frequency bin, the feature vector x τω ideally takes a unique value for each sound source. However, in practice, there are fluctuations due to the effects of noise and reverberation, modeling errors, and the like, so the feature vector x τω forms a cluster around a certain value for each sound source. Therefore, in the present invention, the distribution of the feature vector x τω related to the cluster k is modeled by, for example, the Watson distribution as follows.
ここで、akωはクラスタkに関する特徴ベクトルの分布の中心を表し、平均方向(mean orientation)と呼ばれ、κkωはクラスタkに関する特徴ベクトルの分布の広がりの小ささを表し、密度パラメータ(concentration parameter)と呼ばれる。M(a,b,x)はクンマー(Kummer)関数である。クンマー関数についての詳細は「S. Sra and D. Karp, “The multivariate Watson distribution: maximum-likelihood estimation and other aspects”, arXiv: 1104.4422v2, 2012.(参考文献1)」を参照されたい。ここで、特徴ベクトルの分布が周波数ビンごとに定義されることに注意する。 Where a kω represents the center of the distribution of feature vectors for cluster k and is called the mean orientation, κ kω represents the small spread of the distribution of feature vectors for cluster k, and the density parameter (concentration parameter). M (a, b, x) is a Kummer function. For details on the Kummer function, see “S. Sra and D. Karp,“ The multivariate Watson distribution: maximum-likelihood estimation and other aspects ”, arXiv: 1104.4422v2, 2012. (Reference 1)”. Note that the distribution of feature vectors is defined for each frequency bin.
音声をはじめとする多くの音源信号は、「音源信号の時間周波数変換の振幅値の時系列{|snτω|}τが、周波数ビン間で類似する」という共通振幅変調の性質をもつ(例えば、「G. J. Brown, “Computational Auditory Scene Analysis: A Representational Approach”, Ph.D. thesis, University of Sheffield, 1992.」を参照)。この発明では、この共通振幅変調の性質を、パーミュテーション問題を回避するための手掛かりとして利用できることに着目した。混合信号の各時間周波数成分に寄与する音源信号は高々一つであるという仮定(WDO(W-Disjoint Orthogonality)性の仮定)にもとづき、この共通振幅変調の性質を、クラスタリングの枠組みにおいて利用しやすい表現で言い換えると、「観測信号に寄与するクラスタ番号の時系列{d(τ,ω)}τは、周波数ビン間で類似する」と言える。この発明では、この周波数ビン間での{d(τ,ω)}τの類似性を、「d(τ,ω)の事前分布P(d(τ,ω)=k)が、フレームτに依存(時変)し、周波数ビン(角周波数ω)にはよらない(周波数非依存)」とモデル化する。このような各音源信号に対する、周波数ビン間での振幅変調の共通性を利用することにより、パーミュテーションを引き起こさずに、クラスタリングできる。この事前確率をαkτにより表す。なお、αkτはΣk=1 Kαkτ=1を満たす。ここでは、音源数は未知であることを前提とし、モデル推定装置Aでは、音源数を超えるクラスタ数が設定されているものとする。 Many sound source signals including speech have a common amplitude modulation property that “the time series {| s nτω |} τ of the amplitude value of the time-frequency conversion of the sound source signal is similar between frequency bins” (for example, , “GJ Brown,“ Computational Auditory Scene Analysis: A Representational Approach ”, Ph.D. thesis, University of Sheffield, 1992.”). In the present invention, attention is paid to the fact that the property of the common amplitude modulation can be used as a clue to avoid the permutation problem. Based on the assumption that there is at most one sound source signal contributing to each time frequency component of the mixed signal (WDO (W-Disjoint Orthogonality) property), this common amplitude modulation property is easy to use in the framework of clustering In other words, it can be said that “the time series {d (τ, ω)} τ of cluster numbers contributing to the observation signal is similar between frequency bins”. In the present invention, the similarity of {d (τ, ω)} τ between the frequency bins is expressed as “the prior distribution P (d (τ, ω) = k) of d (τ, ω) in the frame τ. It depends (time-varying) and does not depend on the frequency bin (angular frequency ω) (frequency-independent) ”. By using the commonality of amplitude modulation between frequency bins for each sound source signal, clustering can be performed without causing permutation. This prior probability is represented by α kτ . Α kτ satisfies Σ k = 1 K α kτ = 1. Here, it is assumed that the number of sound sources is unknown, and it is assumed that the number of clusters exceeding the number of sound sources is set in the model estimation apparatus A.
この事前確率は、1個の時間フレームごとに変化すると仮定してもよいし、複数の時間フレームからなるブロックごとに変化すると仮定してもよい。事前確率が1個の時間フレームごとに変化すると仮定する場合、任意のクラスタkと任意の時間フレームτに対して、αkτは独立変数であり、推定すべきパラメータである。 This prior probability may be assumed to change every one time frame, or may be assumed to change every block consisting of a plurality of time frames. Assuming that the prior probability changes every time frame, for any cluster k and any time frame τ, α kτ is an independent variable and a parameter to be estimated.
一方、事前確率が数個の時間フレームからなるブロックごとに変化すると仮定する場合、Bをブロックの総数とし、ブロック番号をb=1,2,…,Bとし、Jを各ブロック内における時間フレームの総数とし、各ブロック内における時間フレームの番号をj=1,2,…,Jとすると、τ=(b−1)×J+jと表せ、αk,(b−1)×J+j(j=1,2,…,J)は等しくなるから、推定すべきパラメータである混合重みは~αkb=αk,(b−1)×J+1により定義される~αkbである。以下では、特に断りのない限り、事前確率が1個の時間フレームごとに変化すると仮定する場合について説明する。 On the other hand, if it is assumed that the prior probability changes for each block consisting of several time frames, B is the total number of blocks, block numbers are b = 1, 2,..., B, and J is a time frame within each block. If the time frame number in each block is j = 1, 2,..., J, it can be expressed as τ = (b−1) × J + j, α k, (b−1) × J + j (j = 1,2, ..., J) from the equal, mixture weights are parameters to be estimated is ~ α kb = α k, with ~ alpha kb defined by (b-1) × J + 1 is there. In the following, a case will be described where it is assumed that the prior probability changes every one time frame unless otherwise specified.
以上より、特徴ベクトルxτωの尤度関数は、式(11)で表す混合モデルで与えられる。
ここで、Θは、式(12)に示すパラメータ集合である。
ここで、{αkτ}kτは式(13)により定義される。
他の同様の記法もこれにならって定義される。以降では、αkτを混合重みと呼ぶ。混合重みαkτの事前分布として式(14)に示すディリクレ(Dirichlet)分布を用いる。
ここで、Γはガンマ関数であり、φはハイパーパラメータと呼ばれる。φの値を十分大きく定めることにより、混合重みαkτの変動を抑えることができる。φの値を微調整する必要はないが、例えば、φ=1,10,100,1000などの値を用いることができる。 Here, Γ is a gamma function, and φ is called a hyperparameter. By setting the value of φ sufficiently large, fluctuations in the mixing weight α kτ can be suppressed. Although it is not necessary to finely adjust the value of φ, for example, values such as φ = 1, 10, 100, 1000 can be used.
混合重みαkτ以外のパラメータについては一様な事前分布を仮定する。したがって、p(Θ)=Πτp({αkτ}k)である。 A uniform prior distribution is assumed for parameters other than the mixing weight α kτ . Therefore, it is p (Θ) = Π τ p ({α kτ} k).
モデル推定部3では、特徴ベクトルxτωを以上のようにモデル化された確率モデルに当てはめ、確率モデルを評価する所定の評価関数を用いて、事後確率及びクラスタリングに適したパラメータ集合Θを求める。
The
以下、モデル推定部3の各部の処理を詳細に説明する。モデル推定部3は、図1に示すとおり、事後確率計算部31、パラメータ更新部32及びパラメータ保持部33を含む。モデル推定部3での処理に先立ち、パラメータ集合Θの初期値をパラメータ保持部33に用意しておく(ステップS0)。この初期値は、例えば、αkτ=1/K、κkω=20とし、akωは{xτω}τωから無作為に選ぶことにより設定することができる。
Hereinafter, the process of each part of the
事後確率計算部31は、パラメータ保持部33に記憶されたパラメータ集合Θから事後確率γkτω、すなわち特徴ベクトルxτωが与えられたもとでd(τ,ω)=kとなる条件付き確率を式(15)により計算する(ステップS31)。
パラメータ更新部32は、図1に示すとおり、混合重み更新手段321、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325を含み、現在のパラメータ集合Θを更新して新たなパラメータ集合Θ’を生成する(ステップS32)。
As shown in FIG. 1, the
混合重み更新手段321は、事後確率γkτωを用いて、式(16)を計算することにより、混合重みαkτを新しい値α’kτに更新する。
Mixing
ここで、Fは周波数ビンの個数を表す。φ=1のとき、α’kτは全周波数ビンにわたる事後確率γkτωの平均値となることがわかる。φの増加とともに、α’kτは定数1/Kに近づく。 Here, F represents the number of frequency bins. When φ = 1, α 'kτ it can be seen that the average value of the posterior probability gamma Keitauomega over all frequency bins. As φ increases, α ′ kτ approaches the constant 1 / K.
相関行列更新手段322は、特徴ベクトルxτωと事後確率γkτωを用いて、式(17)を計算することにより、各クラスタkに対する相関行列Rkωを新しい値R’kωに更新する。
平均方向更新手段323は、相関行列Rkωの正規化された主成分ベクトルとして、平均方向akωを新しい値a’kωに更新する。
The average
密度パラメータ更新手段324は、相関行列Rkωの最大固有値λkωを用いて、密度パラメータкkωを式(18)により新しい値к’kωに更新する。
パーミュテーション解決手段325は、式(19)〜(21)に示すように、各周波数ビンにおいて、平均方向a’kωと密度パラメータк’kωを、事後確率p(Θ’|{xτω}τω)が最大になるように音源間で置換し、パーミュテーションを解決する(ステップS325)。 As shown in equations (19) to (21), the permutation solving means 325 uses the average direction a ′ kω and the density parameter к ′ kω as the posterior probabilities p (Θ ′ | {x τω } for each frequency bin. The permutation is solved by replacing between sound sources so that τω ) is maximized (step S325).
なお、以上では、混合重みが1個の時間フレームごとに変化する場合の処理について説明したが、混合重みが複数の時間フレームからなるブロックごとに変化する場合は、混合重み更新手段321における混合重みαkτの更新式(16)において、分子の事後確率γkτωの時間フレーム内の和を事後確率γkτωのブロック内の和に置き換え、分母のFをF×Jで置き換えればよい。一方、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325においては、混合重みが1個の時間フレームごとに変化する場合の処理と同一の処理を行えばよい。
In the above, the processing when the mixing weight changes for each time frame has been described. However, when the mixing weight changes for each block composed of a plurality of time frames, the mixing weight in the mixing
以下、パラメータ更新部32における各更新式の導出根拠を説明する。パラメータ更新はEM(Expectation-Maximization)アルゴリズムを導入して、それに基づき行う。なお、{d(τ,ω)}τωは、EMアルゴリズムにおける隠れ変数として扱う。
Hereinafter, the basis for deriving each update formula in the
まず、MAP(Maximum a posteriori)推定のためのコスト関数L(Θ)は、式(22)〜(24)により与えられる。
ここで、{xτω}τωは互いに独立であると仮定し、Θに依存しない定数項を無視した。この目的関数を式(25)に示す制約条件のもとで最大化する。
目的関数L(Θ)は、パーミュテーション問題がない場合に大きい値を取るため、L(Θ)の最大化によりパーミュテーション問題が回避できる。実際、式(24)の第一項から分かるように、目的関数L(Θ)が大きくなるのは、混合重みαkτが大きい値をとるk、τに対し、クラスタkに対する尤度(もっともらしさ)p(xτω|d(τ,ω)=k,akω,κkω)が大きい場合である。したがって、L(Θ)の最大化により、クラスタkに対する尤度の時系列{p(xτω|d(τ,ω)=k,akω,κkω)}τが周波数ビン間で同期する。このことと、上述の「観測信号に寄与する音源インデックスの時系列{d(τ,ω)}τは、周波数ビン間で類似する」という性質を考え合わせると、L(Θ)はパーミュテーション問題がない場合に大きい値を取ることがわかる。EMアルゴリズムで用いる評価関数(Q関数)は式(26)(27)により与えられる。 Since the objective function L (Θ) takes a large value when there is no permutation problem, the permutation problem can be avoided by maximizing L (Θ). In fact, as can be seen from the first term of equation (24), the objective function L (Θ) increases because of the likelihood (probability) of cluster k with respect to k and τ where the mixture weight α kτ takes a large value. ) When p ( xτω | d (τ, ω) = k, a kω , κ kω ) is large. Therefore, by maximizing L (Θ), the time series of likelihood {p (x τω | d (τ, ω) = k, a kω , κ kω )} τ for cluster k is synchronized between frequency bins. Considering this and the above-mentioned property that “the time series of the sound source index contributing to the observation signal {d (τ, ω)} τ is similar between frequency bins”, L (Θ) is permutation. It can be seen that it takes a large value when there is no problem. The evaluation function (Q function) used in the EM algorithm is given by equations (26) and (27).
更新後のパラメータ集合Θ'は次式により定義される。
Q関数を式(25)の制約のもとで最大にするものとして導かれる。すなわち、混合重みαkτの新たな値α'kτを求める式(16)は、ラグランジュ(Lagrange)の未定乗数法によって、式(28)(29)により導出される。
ここで、μはラグランジュの未定乗数である。
It is derived that the Q function is maximized under the constraint of equation (25). That is, Expression (16) for obtaining a new value α ′ kτ of the mixture weight α kτ is derived from Expressions (28) and (29) by Lagrange's undetermined multiplier method.
Here, μ is Lagrange's undetermined multiplier.
平均方向の更新式は、
を解くことで得られる。したがって、クーラン・フィッシャー(Courant-Fischer)の定理より、Rkωの最大固有値に対応する固有ベクトル(主成分ベクトル)によって、平均方向を更新すればよい。
The average direction update formula is
Can be obtained by solving Therefore, the average direction may be updated by the eigenvector (principal component vector) corresponding to the maximum eigenvalue of R kω according to the Courant-Fischer theorem.
また、密度パラメータの更新式(18)については、まず∂Q/∂κkω=0より式(31)を得る。
ここで、
であり、λkωは相関行列Rkωの最大固有値である。上式は、近似的に次の式(32)のように解くことができる。
here,
Λ kω is the maximum eigenvalue of the correlation matrix R kω . The above equation can be approximately solved as the following equation (32).
パラメータ保持部33は、パラメータ更新部32での更新処理により得られたパラメータ集合Θ’を記憶する(ステップS33)。また、事後確率計算部31での次回の処理の際には、記憶したパラメータ集合Θ’をパラメータ集合として提供する。なお、第一の実施形態のモデル推定装置を用いて推定した、パラメータ集合Θを用いることで、音源定位、音源数が未知の条件下での音源分離、音源数と分離音の同時推定等を行うことが可能である。
The
ステップS31からステップS33までの処理は、事前に設定した最大反復回数max_iterに達するまで、またはパラメータ更新部32における各パラメータの更新による変動幅が収束判定の閾値Δよりも小さくなるまで、反復して行う(ステップS91)。最大反復回数max_iter及び閾値Δの具体的な値は、例えば、max_iter=100、Δ=10−10とすることができる。
The processing from step S31 to step S33 is repeated until the preset maximum number of iterations max_iter is reached or until the fluctuation range due to updating of each parameter in the
ステップS91において、モデル推定部3における処理が最大反復回数max_iterに達した場合、または各パラメータの更新による変動幅が閾値Δよりも小さくなった場合、モデル推定部3は反復終了後の事後確率γo kτωを出力する。
In step S91, when the process in the
[第二実施形態]
この発明の第二実施形態は、第一実施形態のモデル推定装置Aを用いて音源数推定装置として構成した実施形態である。
[Second Embodiment]
The second embodiment of the present invention is an embodiment configured as a sound source number estimating device using the model estimating device A of the first embodiment.
図3を参照して、第二実施形態の音源数推定装置Bの機能構成例を説明する。音源数推定装置Bは、第一実施形態のモデル推定装置Aの各部に加えて、音源数推定部4を含む。
With reference to FIG. 3, the function structural example of the sound source number estimation apparatus B of 2nd embodiment is demonstrated. The sound source number estimation device B includes a sound source
音源数推定部4は、事後確率が有意な値をとるクラスタの個数を、音源数として推定する。具体的には、音源数推定部4は、事後確率計算部31によって計算された各クラスタの事後確率の入力を受け付け、各クラスタの事後確率を用いて、各クラスタの事後確率の総和を算出する。例えば、音源数推定部4は、下記式(33)を用いて、各クラスタの事後確率の総和を算出する。なお、各クラスタの事後確率の総和を算出することに限定させるものではなく、例えば、特定の周波数範囲に限った事後確率の部分和を算出してもよい。
The sound source
そして、音源数推定部4は、各クラスタの事後確率の総和を2つにクラスタリングし、総和の大きい方のクラスタに属するクラスタの数を音源数として推定する。
Then, the sound source
図4を参照して、音源数推定装置Bの動作例を手続きの順に従って説明する。ステップS0からステップS91までの処理は第一実施形態のモデル推定装置Aの動作例と同様であるので詳細な説明は省略する。 With reference to FIG. 4, the operation example of the sound source number estimation apparatus B will be described in the order of procedures. Since the processing from step S0 to step S91 is the same as the operation example of the model estimation apparatus A of the first embodiment, detailed description thereof is omitted.
音源数推定部4は、各クラスタの事後確率を用いて、各クラスタの事後確率の総和を算出する(ステップS41)。具体的には、音源数推定部4は、事後確率計算部31によって計算された各クラスタの事後確率の入力を受け付け、各クラスタの事後確率を用いて、各クラスタの事後確率の総和を算出する。
The sound source
そして、音源数推定部4は、各クラスタの事後確率の総和を2つにクラスタリングする(ステップS42)。例えば、音源数推定部4は、各クラスタの事後確率の総和に対して、クラスタ数2のk-meansクラスタリングを適用してクラスタリングする。
Then, the sound source
続いて、音源数推定部4は、事後確率の総和の大きい方のクラスタに属するクラスタ数を音源数と推定する(ステップS43)。例えば、音源数推定部4は、セントロイドがより大きいクラスタに属するクラスタの個数を、音源数として推定する。
Subsequently, the sound source
ここで、音源数推定部4は、上記で例示したように、クラスタ数が「2」のk-meansクラスタリングを適用してクラスタリングする場合に限定されるものではなく、より簡易な処理として、所定の閾値を用いて、各クラスタの事後確率の総和に対して閾値処理を行ってもよい。具体的には、音源数推定部4は、各クラスタの事後確率の総和が所定の閾値以上であるかを判定し、所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定してもよい。クラスタ数が「2」のk-meansクラスタリングを適用してクラスタリングする方法は、所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定する方法と比べ、残響時間などの条件の変化に対して、より頑健であると期待される。
Here, as exemplified above, the sound source
第一実施形態の説明では、音源数が未知であることを前提として、音源数を超えるクラスタ数を設定しているものとして説明した。このように、音源数を超えるクラスタを設定して、段落0040〜0065において説明した、パラメータの更新処理および事後確率の計算処理を行うことで、音源数と同数のクラスタのみ有意な事後確率をもち、残りのクラスタは小さい事後確率をもつこととなる。ここで、図5において、音源数が「3」であり、クラスタ数「4」の場合に、第二実施形態に記載のクラスタリング方法で得られた事後確率の例を示す。図5について、横軸が時間であり、縦軸が周波数であり、輝度の大きい点ほど、事後確率が大きいことを示している。 In the description of the first embodiment, it is assumed that the number of clusters exceeding the number of sound sources is set on the assumption that the number of sound sources is unknown. In this way, by setting clusters exceeding the number of sound sources and performing the parameter update processing and posterior probability calculation processing described in paragraphs 0040 to 0065, only the same number of clusters as the number of sound sources have significant posterior probabilities. The remaining clusters will have a small posterior probability. Here, FIG. 5 shows an example of the posterior probability obtained by the clustering method described in the second embodiment when the number of sound sources is “3” and the number of clusters is “4”. In FIG. 5, the horizontal axis is time, the vertical axis is frequency, and the higher the luminance, the higher the posterior probability.
つまり、実際の音源数と同数のクラスタのみ、音源アクティビティが有意な値をもっていることがわかる。図5の例を用いて説明すると、「cluster1」、「cluster2」、「cluster4」の3つのクラスタは有意な事後確率をもち、「cluster3」は小さい事後確率であり、有意な事後確率をもっていないといえる。 That is, it can be seen that the sound source activity has a significant value only in the same number of clusters as the actual number of sound sources. Using the example in FIG. 5, the three clusters “cluster1,” “cluster2,” and “cluster4” have significant posterior probabilities, and “cluster3” has a small posterior probability and no significant posterior probabilities. I can say that.
このため、上述したように、音源数推定部4は、クラスタ数2のk-meansクラスタリングを適用してクラスタリングした場合には、「cluster1」、「cluster2」および「cluster4」の3つのクラスタの事後確率の総和と、「cluster3」のみの1つのクラスタの事後確率の総和とでそれぞれクラスタリングされる。そして、事後確率の総和の大きい方のクラスタに属するクラスタ数(要素数)が、「cluster1」、「cluster2」および「cluster4」の3つであるから、音源数が「3」と推定される。
For this reason, as described above, the sound source
[実験結果]
ここで、音源数推定装置Bによる音源数推定処理を実施した場合の実験結果について説明する。
[Experimental result]
Here, an experimental result when the sound source number estimation processing by the sound source number estimation apparatus B is performed will be described.
図6に、音源数推定実験における正解率を示す。図6に示すように、φ=600とした場合、全ての条件において、100%の正解率が得られた。また、φを1→600と増加させることにより、正解率が向上する傾向があった。一方、φをさらに600→1000と増加させると、音源数N=3、残響時間370msの条件での正解率が、100%→88%と減少した。
FIG. 6 shows the correct answer rate in the sound source number estimation experiment. As shown in FIG. 6, when φ = 600, a 100% accuracy rate was obtained under all conditions. Moreover, there was a tendency that the accuracy rate was improved by increasing φ from 1 to 600. On the other hand, when φ was further increased from 600 to 1000, the correct answer rate under the conditions of the number of sound sources N = 3 and the
以上のように、従来は音源数の推定が困難であるような条件、例えば、「音源数>マイクロホン数、または残響あり」のような条件下でも、音源数を適切に推定することが可能である。 As described above, it is possible to appropriately estimate the number of sound sources even under conditions in which it is difficult to estimate the number of sound sources, for example, the number of sound sources> the number of microphones or reverberation. is there.
続いて、本発明の原理について説明する。まず、非特許文献1に記載のクラスタリングに基づく音源分離法について説明する。非特許文献1に記載のクラスタリングに基づく音源分離法は、音源数が既知であることを前提としており、音源数と同数のクラスタを用いてクラスタリングを行うものである。図7を参照して、上記の非特許文献1の技術について説明する。ここで、図7中の×印は、各時間周波数点における音源位置特徴量(例:マイクロホン間の位相差、時間差、振幅比)を表す。図7に示すように、同一音源の×印がそれぞれ円で囲まれており、1音源の特徴量は、各周波数内で、同じ特徴量空間に集中しやすい。各音源の特徴量空間の形状は、周波数に依存するが、1音源信号は、全周波数で同時に立ち上がりやすく、且つ、立ち下がりやすい。すなわち、音源アクティビティは周波数間で同期する。このようなクラスタリングでは、この音源アクティビティの同期性を適切にモデル化し、全体最適化に組み込むことにより、音源位置特徴量と音源アクティビティの同時クラスタリングを実現している。
Next, the principle of the present invention will be described. First, a sound source separation method based on clustering described in
上述のように、非特許文献1の技術では、音源数と同数のクラスタを用いてクラスタリングを行っていた。これを、音源数よりも多いクラスタを用いる構成に変更することは、これまでの技術常識に鑑みれば、容易に想到できるものではなかった。なぜならば、クラスタリングに基づく音源分離において、音源数よりも多いクラスタを用いると、通常、図8に示すように、1つの音源が複数のクラスタに分裂してしまうため、各クラスタが音源に対応しないからである。なお、図8は、音源数2、クラスタ数4の例である。
As described above, in the technique of
これに対して、本発明に至る研究の過程で、次の全く新しい知見が得られた。すなわち、非特許文献1のクラスタリングにおいて、音源数よりも多いクラスタを用いる構成に変更すると、上記の技術常識に反して、1音源が複数のクラスタに分かれるようなことは起こらず、1音源は1つのクラスタにまとまる。つまり、先行技術のクラスタリングでは、上述のように、音源アクティビティの同期性を適切にモデル化しているため、図8のようなことは起こらず、図9のように1音源は1つのクラスタにまとまる。なお、図9は、音源数2、クラスタ数3の例である。図9に示すように、音源1および音源2がそれぞれ一つのクラスタにまとまっている。また、残り一つのクラスタは小さい事後確率をもつクラスタとなる。
On the other hand, the following completely new knowledge was obtained in the course of research leading to the present invention. In other words, in the clustering of
本発明では、以上の知見に基づき、非特許文献1のクラスタリングを、音源数よりも多いクラスタを用いる構成に変更する。また、本発明では、クラスタリング結果に基づき音源数を決定する際に、各クラスタの事後確率の総和を大小2クラスタにクラスタリングし、大きい方のクラスタの要素数として音源数を決定する。これにより、固定の閾値を用いる場合と比べて、より頑健に音源数を推定することができる。本発明の方法により、音源数が未知でも音源分離を行ったり、音源数を推定したりすることが可能になる。また、上記の実験結果からも分かるように、本発明の方法を用いて、極めて良好に音源数を推定できることが確認された。
In the present invention, based on the above knowledge, the clustering of
また、本発明の音源数推定法では、「音源数>マイクロホン数、または残響あり」の場合にも、音源数を適切に推定することができる。実際、実験により、「音源数>マイクロホン数」の場合や、残響時間が比較的長い場合にも、本発明の音源数推定法により、きわめて良好に音源数を推定できることが示された。 Further, according to the sound source number estimation method of the present invention, the number of sound sources can be appropriately estimated even when “the number of sound sources> the number of microphones or reverberation”. In fact, experiments have shown that the number of sound sources can be estimated very well by the sound source number estimation method of the present invention even when “the number of sound sources> the number of microphones” or when the reverberation time is relatively long.
上述してきたように、音源数推定装置Bは、kをクラスタのインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する。そして、音源数推定装置Bは、特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、確率モデルのモデルパラメータを推定し、該モデルパラメータを用いて、観測信号ベクトルyτωが、N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算する。その後、音源数推定装置Bは、事後確率を用いて、各クラスタの事後確率の総和を算出し、各クラスタの事後確率の総和に基づいて、音源数を推定する。これにより、音源数推定装置Bでは、実環境に近い条件下であっても、音源数を適切に推定することが可能である。 As described above, the sound source number estimation apparatus B uses M as a mixed signal in which signals from N sound sources are mixed, where k is a cluster index, τ is a time frame index, ω is an angular frequency. The feature vector x τω corresponding to the observed signal vector y τω composed of the time frequency component of each observed signal is extracted from the observed signal observed with the microphone. The sound source number estimation device B applies the feature vector x τω to a predetermined probability model, and uses an evaluation function that gives a higher evaluation value as the time series of the likelihood of each sound source is synchronized between frequency bins, The model parameters of the probabilistic model are estimated, and the posterior probabilities that are conditional probabilities belonging to each cluster in which the observed signal vector yτω is set to be larger than N sound sources are calculated using the model parameters. Thereafter, the sound source number estimation device B calculates the sum of the posterior probabilities of each cluster using the posterior probability, and estimates the number of sound sources based on the sum of the posterior probabilities of each cluster. As a result, the sound source number estimation apparatus B can appropriately estimate the number of sound sources even under conditions close to the real environment.
また、音源数推定装置Bは、各クラスタの事後確率の総和を2つにクラスタリングし、総和の大きい方のクラスタに属するクラスタの数を音源数として推定する。音源数推定装置Bは、閾値を用いる場合と比べて、より頑健に音源数を推定することができる。 Further, the sound source number estimation device B clusters the sum of the posterior probabilities of each cluster into two, and estimates the number of clusters belonging to the cluster with the larger sum as the number of sound sources. The sound source number estimation apparatus B can more robustly estimate the number of sound sources than when using a threshold value.
また、音源数推定装置Bは、各クラスタの事後確率の総和が所定の閾値以上であるかを判定し、所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定してもよい。この場合には、上記の2つにクラスタリングを行う場合と比べて、より簡易に音源数を推定することができる。 Further, the sound source number estimation device B determines whether the sum of the posterior probabilities of each cluster is equal to or greater than a predetermined threshold, and estimates the number of clusters corresponding to the sum of the posterior probabilities equal to or greater than the predetermined threshold as the number of sound sources. May be. In this case, the number of sound sources can be estimated more easily than in the case where clustering is performed on the above two.
[第三実施形態]
この発明の第三実施形態は、第二実施形態に係る音源数推定装置Bの構成に音源分離部5および時間領域変換部6を追加した音源数推定装置Cとして構成した実施形態である。
[Third embodiment]
The third embodiment of the present invention is an embodiment configured as a sound source number estimation device C in which a sound source separation unit 5 and a time domain conversion unit 6 are added to the configuration of the sound source number estimation device B according to the second embodiment.
図10を参照して、第三実施形態の音源数推定装置Cの機能構成例を説明する。音源数推定装置Cは、第二実施形態の音源数推定装置Bの各部に加えて、音源分離部5及び時間領域変換部6を含む。音源分離部5は、マスク作成部51及び分離音作成部52を含む。
With reference to FIG. 10, a functional configuration example of the sound source number estimation apparatus C of the third embodiment will be described. The sound source number estimation device C includes a sound source separation unit 5 and a time domain conversion unit 6 in addition to each unit of the sound source number estimation device B of the second embodiment. The sound source separation unit 5 includes a
図11を参照して、音源数推定装置Cの動作例を手続きの順に従って説明する。ステップS0からステップS43までの処理は第二実施形態の音源数推定装置Bの動作例と同様であるので詳細な説明は省略する。音源数推定部4は、前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)を出力し、音源分離部5での処理に供する。
With reference to FIG. 11, an operation example of the sound source number estimation apparatus C will be described in the order of procedures. Since the processing from step S0 to step S43 is the same as the operation example of the sound source number estimation apparatus B of the second embodiment, detailed description thereof is omitted. The sound source
音源分離部5は、音源数推定部4の出力する前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)と、周波数領域変換部1の出力する混合音の時間周波数変換yτωと、事後確率計算部31の出力する反復終了後の事後確率γo kτωとを用いて、分離音の時間周波数変換^snτωを推定する(nは音源の番号)。
The sound source separation unit 5 includes a cluster number k (1), k (2),..., K (^ N) that the posterior probability output from the sound source
マスク作成部51は、音源数推定部4の出力する前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)と、事後確率計算部31の出力する前記反復終了後の事後確率γo kτωとを用いて、音源数推定部4により推定された音源数に対応するマスクmnτωを求める(ステップS51)。まず、マスク作成部51は、反復終了後の事後確率γo kτωのうち、有意な値である事後確率γs nτωをγs nτω=γo k(n)τωにより計算する。ここで、n=1、2、…、^Nであり、γの上付き文字のSは、Significant(有意)を表す。次に、マスク作成部51は、反復終了後の有意な値である事後確率γs nτωを用いて、式(34)により、アクティブな音源の番号ds(τ,ω)の推定値^ds(τ,ω)を計算する。
次に、マスク作成部51は、マスクmnτωを式(35)により計算する。
なお、マスク作成部51は、マスクmnτωを式(36)により求めてもよい。
分離音作成部52は、式(37)により、マスクmnτωを混合音の時間周波数変換y1τωに乗算し、分離音の時間周波数変換^snτωを計算する。これにより、周波数領域の観測信号を音源ごとに分離する(ステップS52)。
時間領域変換部6は、音源nごとに、時間周波数領域の分離信号^snτωを時間領域の分離信号~^sntに変換して出力する(ステップS6)。 For each sound source n, the time domain conversion unit 6 converts the separation signal ^ s nτω in the time frequency domain into a separation signal ~ ^ s nt in the time domain and outputs it (step S6).
上述してきたように、音源数推定装置Cは、音源数が未知である場合であっても、音源数を推定した後に、音源分離技術を実現することができる。また、音源数推定装置Cは、パーミュテーション問題を生じず、二段階の処理を必要としない音源分離技術を実現することができる。これにより、例えば、音源位置などが時間的に変化する時変の環境での音声強調のためのオンライン音源分離を容易に実現することが可能となる。 As described above, the sound source number estimation device C can realize the sound source separation technique after estimating the number of sound sources even when the number of sound sources is unknown. In addition, the sound source number estimation apparatus C can realize a sound source separation technique that does not cause a permutation problem and does not require a two-stage process. Thereby, for example, it is possible to easily realize online sound source separation for speech enhancement in a time-varying environment in which the sound source position changes with time.
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、モデル推定部3と音源数推定部4を統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 In addition, among the processes described in this embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
また、上記実施形態に係る音源数推定装置B、Cが実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、音源数推定装置B、Cと同様の機能を実現する音源数推定プログラムを実行するコンピュータの一例を説明する。
[program]
In addition, it is possible to create a program in which the processing executed by the sound source number estimation devices B and C according to the above embodiment is described in a language that can be executed by a computer. In this case, the same effect as the above-described embodiment can be obtained by the computer executing the program. Further, such a program may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by a computer and executed to execute the same processing as in the above embodiment. Below, an example of the computer which performs the sound source number estimation program which implement | achieves the function similar to the sound source number estimation apparatuses B and C is demonstrated.
図12は、音源数推定プログラムを実行するコンピュータを示す図である。図12に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
FIG. 12 is a diagram illustrating a computer that executes a sound source number estimation program. As illustrated in FIG. 12, the
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
The
ここで、図12に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各データは、例えばハードディスクドライブ1090やメモリ1010に記憶される。
Here, as shown in FIG. 12, the hard disk drive 1090 stores, for example, an
また、音源数推定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ1090に記憶される。具体的には、上記実施形態で説明した音源数推定装置B、Cが実行する各処理が記述されたプログラムモジュールが、ハードディスクドライブ1090に記憶される。
The sound source number estimation program is stored in the hard disk drive 1090 as a program module in which a command executed by the
また、音源数推定プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ1090に記憶される。そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
Data used for information processing by the sound source number estimation program is stored as program data in, for example, the hard disk drive 1090. Then, the
なお、音源数推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、分散データ処理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
A モデル推定装置
B、C 音源数推定装置
1 周波数領域変換部
2 特徴抽出部
3 モデル推定部
31 事後確率計算部
32 パラメータ更新部
321 混合重み更新手段
322 相関行列更新手段
323 平均方向更新手段
324 密度パラメータ更新手段
325 パーミュテーション解決手段
33 パラメータ保持部
4 音源数推定部
5 音源分離部
51 マスク作成部
52 分離音作成部
6 時間領域変換部
A Model estimation device B, C Sound source
Claims (10)
N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、
前記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、前記確率モデルのモデルパラメータを推定し、該モデルパラメータを用いて、前記観測信号ベクトルyτωが、前記N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算するモデル推定部と、
前記事後確率が有意な値をとるクラスタの個数を、音源数として推定する音源数推定部と、
を含み、
前記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
前記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
前記確率モデルのモデルパラメータは、前記混合重みと、各音源に関する前記特徴ベクトルxτωの分布のパラメータである
ことを特徴とする音源数推定装置。 k is the cluster index, τ is the time frame index, ω is the angular frequency,
A feature that extracts a feature vector x τω corresponding to an observation signal vector y τω composed of temporal frequency components of each observation signal from observation signals obtained by observing mixed signals obtained by mixing signals from N sound sources with M microphones. An extractor;
The feature vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins. And using the model parameter, a model estimation unit that calculates a posterior probability that is a conditional probability that the observed signal vector y τω belongs to each cluster set more than the N sound sources;
A number-of-sound-sources estimation unit that estimates the number of clusters in which the posterior probability takes a significant value as the number of sound sources;
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixture weight of the probabilistic model is a weight that depends on the time frame τ and does not depend on the angular frequency ω,
The model parameter of the stochastic model is a parameter of the distribution of the feature weight x τω related to each sound source and the mixture weight.
前記音源数推定部は、各クラスタの事後確率の総和を算出し、該各クラスタの事後確率の総和を2つにクラスタリングし、総和の大きい方のクラスタに属するクラスタの数を音源数として推定することを特徴とする音源数推定装置。 The sound source number estimation apparatus according to claim 1,
The sound source number estimation unit calculates the sum of the posterior probabilities of each cluster, clusters the sum of the posterior probabilities of each cluster into two, and estimates the number of clusters belonging to the cluster with the larger sum as the number of sound sources An apparatus for estimating the number of sound sources.
前記音源数推定部は、各クラスタの事後確率の総和を算出し、該各クラスタの事後確率の総和が所定の閾値以上であるかを判定し、前記所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定することを特徴とする音源数推定装置。 The sound source number estimation apparatus according to claim 1,
The sound source number estimation unit calculates the sum of the posterior probabilities for each cluster, determines whether the sum of the posterior probabilities for each cluster is equal to or greater than a predetermined threshold, and determines the sum of the posterior probabilities equal to or greater than the predetermined threshold. An apparatus for estimating the number of sound sources, wherein the number of corresponding clusters is estimated as the number of sound sources.
クラスタkに関する前記特徴ベクトルxτωの分布は、平均方向をakωとし、密度パラメータをκkωとするワトソン分布であり、
クラスタkに関する前記特徴ベクトルxτωの分布のパラメータは、前記平均方向akωと前記密度パラメータκkωであることを特徴とする音源数推定装置。 It is a sound source number estimation apparatus as described in any one of Claim 1 to 3,
The distribution of the feature vector x τω with respect to the cluster k is a Watson distribution in which the average direction is a kω and the density parameter is κ kω .
The number-of-sound-sources estimation device characterized in that the distribution parameter of the feature vector x τω related to the cluster k is the average direction a kω and the density parameter κ kω .
前記混合重みの事前分布は、クラスタkに依存しないハイパーパラメータφを各混合重みの指数とする前記混合重みについてのディリクレ分布であることを特徴とする音源数推定装置。 The sound source number estimation device according to any one of claims 1 to 4,
The sound source number estimation device according to claim 1, wherein the prior distribution of the mixture weights is a Dirichlet distribution for the mixture weights using a hyperparameter φ that does not depend on the cluster k as an index of each mixture weight.
前記モデル推定部は、クラスタkに関する前記特徴ベクトルxτωの分布とクラスタkの時間フレームτにおける混合重みとの積に基づいて、特徴ベクトルxτωが与えられたもとで、xτωに対応する前記観測信号ベクトルyτωがクラスタkに属する条件付き確率を計算する事後確率計算部と、
前記条件付き確率とクラスタkに依存しないハイパーパラメータφとに基づいて、前記混合重みを更新する混合重み更新手段と、
前記条件付き確率と前記特徴ベクトルxτωとに基づいて、クラスタkに対する相関行列Rkωを計算する相関行列更新手段と、
前記相関行列Rkωの正規化された主成分ベクトルを新たな値として前記平均方向akωを更新する平均方向更新手段と、
前記相関行列Rkωの最大固有値に基づいて、前記密度パラメータκkωを更新する密度パラメータ更新手段と、
周波数ビンごとに、前記評価関数が最大になるように、前記平均方向akωと前記密度パラメータκkωとをそれぞれ音源間で並べ替えるパーミュテーション解決手段と、
を含むことを特徴とする音源数推定装置。 It is a sound source number estimation apparatus as described in any one of Claim 1 to 5,
The observation the model estimator is based on the product of the mixture weights at time frame τ distribution and cluster k of the feature vector x Tauomega about the cluster k, by Moto which the feature vector x Tauomega given corresponding to x Tauomega A posterior probability calculator for calculating a conditional probability that the signal vector y τω belongs to the cluster k;
A mixing weight updating means for updating the mixing weight based on the conditional probability and the hyperparameter φ independent of the cluster k;
Correlation matrix updating means for calculating a correlation matrix R kω for cluster k based on the conditional probability and the feature vector x τω ;
Average direction updating means for updating the average direction a kω with the normalized principal component vector of the correlation matrix R kω as a new value;
Density parameter updating means for updating the density parameter κ kω based on the maximum eigenvalue of the correlation matrix R kω ;
Permutation solving means for reordering the average direction a kω and the density parameter κ kω between sound sources so that the evaluation function is maximized for each frequency bin;
A sound source number estimation device comprising:
γkτωを前記条件付き確率とし、αkτを前記混合重みとし、d(τ,ω)を前記観測信号ベクトルyτωに寄与するクラスタ番号とし、Fを周波数ビンの数とし、・Hを・のエルミート転置とし、λkωを前記相関行列Rkωの最大固有値とし、
前記事後確率計算部は、次式により前記条件付き確率を計算し、
前記混合重み更新手段は、次式により求めたα’kτを新たな値として前記混合重みを更新し、
前記相関行列更新手段は、次式により求めたR’kωを新たな値として前記相関行列Rkωを更新し、
前記密度パラメータ更新手段は、次式により求めたκ’kωを新たな値として前記密度パラメータκkωを更新する
ことを特徴とする音源数推定装置。 It is a sound source number estimation apparatus of Claim 6, Comprising:
The gamma Keitauomega as the conditional probability, alpha Lkr and the mixture weight, d (τ, ω) and contributing cluster number in the observed signal vector y τω, the number of frequency bins F, of a · H · Hermitian transpose, λ kω is the maximum eigenvalue of the correlation matrix R kω ,
The posterior probability calculation unit calculates the conditional probability by the following equation:
The mixing weight updating means updates the mixing weight with α ′ kτ obtained by the following formula as a new value,
The correlation matrix updating means updates the correlation matrix R kW the R 'kW determined by the following equation as a new value,
The density parameter updating means updates the density parameter kappa kW the kappa 'kW determined by the following equation as a new value
An apparatus for estimating the number of sound sources.
nを音源の番号とし、^Nを前記音源数推定部により推定された音源数とし、
前記音源数推定部は、前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)を出力し、
前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)と、前記各クラスタに属する条件付き確率である事後確率とを用いて、前記音源数推定部により推定された音源数に対応するマスクmnτωを求めるマスク作成部と、
前記観測信号ベクトルyτωから前記マスクmnτωを用いて時間周波数領域の分離音を計算する分離音作成部と、
を含むことを特徴とする音源数推定装置。 It is a sound source number estimation apparatus as described in any one of Claim 1 to 7,
n is the number of the sound source, ^ N is the number of sound sources estimated by the sound source number estimating unit,
The sound source number estimation unit outputs cluster numbers k (1), k (2),..., K (^ N) where the posterior probability takes a significant value,
Using the cluster numbers k (1), k (2),..., K (^ N) for which the posterior probabilities have significant values, and the posterior probabilities that are conditional probabilities belonging to the respective clusters, A mask creating unit for obtaining a mask m nτω corresponding to the number of sound sources estimated by the sound source number estimating unit;
A separated sound creating unit that calculates a separated sound in the time-frequency domain using the mask m nτω from the observed signal vector y τω ;
A sound source number estimation device comprising:
N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出するステップと、
前記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、前記確率モデルのモデルパラメータを推定し、前記モデルパラメータを用いて、前記観測信号ベクトルyτωが、前記N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算するステップと、
前記事後確率が有意な値をとるクラスタの個数を、音源数として推定するステップと、
を含み、
前記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
前記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
前記確率モデルのモデルパラメータは、前記混合重みと、各音源に関する前記特徴ベクトルxτωの分布のパラメータである
ことを特徴とする音源数推定方法。 k is the cluster index, τ is the time frame index, ω is the angular frequency,
A step of extracting a feature vector x τω corresponding to an observation signal vector y τω composed of time frequency components of each observation signal from observation signals obtained by observing a mixed signal obtained by mixing signals from N sound sources with M microphones. When,
The feature vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins. And using the model parameters, calculating a posterior probability that is a conditional probability that the observed signal vector y τω belongs to each cluster set more than the N sound sources;
Estimating the number of clusters for which the posterior probability takes a significant value as the number of sound sources;
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixture weight of the probabilistic model is a weight that depends on the time frame τ and does not depend on the angular frequency ω,
The model parameter of the probability model is a parameter of the number of sound sources, characterized in that the mixture weight and a parameter of the distribution of the feature vector x τω for each sound source.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167025A JP6193823B2 (en) | 2014-08-19 | 2014-08-19 | Sound source number estimation device, sound source number estimation method, and sound source number estimation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167025A JP6193823B2 (en) | 2014-08-19 | 2014-08-19 | Sound source number estimation device, sound source number estimation method, and sound source number estimation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016045225A JP2016045225A (en) | 2016-04-04 |
JP6193823B2 true JP6193823B2 (en) | 2017-09-06 |
Family
ID=55635880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014167025A Active JP6193823B2 (en) | 2014-08-19 | 2014-08-19 | Sound source number estimation device, sound source number estimation method, and sound source number estimation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6193823B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6538624B2 (en) * | 2016-08-26 | 2019-07-03 | 日本電信電話株式会社 | Signal processing apparatus, signal processing method and signal processing program |
EP3557576B1 (en) * | 2016-12-16 | 2022-12-07 | Nippon Telegraph and Telephone Corporation | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program |
CN117153186A (en) * | 2022-08-05 | 2023-12-01 | 深圳Tcl新技术有限公司 | Sound signal processing method, device, electronic equipment and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5134525B2 (en) * | 2008-12-19 | 2013-01-30 | 日本電信電話株式会社 | Direction information distribution estimation device, sound source number estimation device, sound source direction measurement device, sound source separation device, method thereof, program thereof |
JP5337072B2 (en) * | 2010-02-12 | 2013-11-06 | 日本電信電話株式会社 | Model estimation apparatus, sound source separation apparatus, method and program thereof |
-
2014
- 2014-08-19 JP JP2014167025A patent/JP6193823B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016045225A (en) | 2016-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107564513B (en) | Voice recognition method and device | |
CN110797021B (en) | Hybrid speech recognition network training method, hybrid speech recognition device and storage medium | |
US10643633B2 (en) | Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program | |
JP6976804B2 (en) | Sound source separation method and sound source separation device | |
CN108701468B (en) | Mask estimation device, mask estimation method, and recording medium | |
WO2019198306A1 (en) | Estimation device, learning device, estimation method, learning method, and program | |
CN104737229A (en) | Method for transforming input signal | |
Su et al. | GMM-HMM acoustic model training by a two level procedure with Gaussian components determined by automatic model selection | |
JP6059072B2 (en) | Model estimation device, sound source separation device, model estimation method, sound source separation method, and program | |
JP6538624B2 (en) | Signal processing apparatus, signal processing method and signal processing program | |
JP6193823B2 (en) | Sound source number estimation device, sound source number estimation method, and sound source number estimation program | |
Xie et al. | Deep Neural Network Based Acoustic-to-Articulatory Inversion Using Phone Sequence Information. | |
JP6441769B2 (en) | Clustering apparatus, clustering method, and clustering program | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
JP6711765B2 (en) | Forming apparatus, forming method, and forming program | |
JP5726790B2 (en) | Sound source separation device, sound source separation method, and program | |
JP6910609B2 (en) | Signal analyzers, methods, and programs | |
WO2019194300A1 (en) | Signal analysis device, signal analysis method, and signal analysis program | |
CN113127648A (en) | Data verification method and device, electronic equipment and computer readable medium | |
CN111160487A (en) | Method and device for expanding face image data set | |
JP6915579B2 (en) | Signal analyzer, signal analysis method and signal analysis program | |
JP6616472B2 (en) | Clustering apparatus, clustering method, and clustering program | |
Kawaguchi et al. | Logspline independent component analysis | |
JP6586061B2 (en) | Signal analysis apparatus, method, and program | |
Prashanth | THESIS CERTIFICATE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6193823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |