JP2016045225A - Number of sound sources estimation device, number of sound sources estimation method, and number of sound sources estimation program - Google Patents

Number of sound sources estimation device, number of sound sources estimation method, and number of sound sources estimation program Download PDF

Info

Publication number
JP2016045225A
JP2016045225A JP2014167025A JP2014167025A JP2016045225A JP 2016045225 A JP2016045225 A JP 2016045225A JP 2014167025 A JP2014167025 A JP 2014167025A JP 2014167025 A JP2014167025 A JP 2014167025A JP 2016045225 A JP2016045225 A JP 2016045225A
Authority
JP
Japan
Prior art keywords
sound source
cluster
sound sources
sound
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014167025A
Other languages
Japanese (ja)
Other versions
JP6193823B2 (en
Inventor
信貴 伊藤
Nobutaka Ito
信貴 伊藤
智広 中谷
Tomohiro Nakatani
智広 中谷
章子 荒木
Akiko Araki
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014167025A priority Critical patent/JP6193823B2/en
Publication of JP2016045225A publication Critical patent/JP2016045225A/en
Application granted granted Critical
Publication of JP6193823B2 publication Critical patent/JP6193823B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To appropriately estimate the number of sound sources even under a condition close to an actual environment.SOLUTION: A number of sound sources estimation device B extracts, from an observation signal derived by observing with M microphones, a mixed signal in which signals from N sound sources are mixed, a feature vector xthat corresponds to an observation signal vector ycomprising the time-frequency component of each observation signal. Then, the number of sound sources estimation device B applies the feature vector xτω to a prescribed probability model, estimates the model parameter of the probability model by using an evaluation function that gives a higher evaluation value in correspondence to the degree of synchronization of the time series of likelihood of each sound source between frequency bins, and calculates by using the model parameter, posterior probability which is conditional probability that the observation signal vector ybelongs to each of the clusters set in greater number than the N sound sources. Thereafter, the number of sound sources estimation device B calculates the sum total of posterior probability of each cluster by using the posterior probability, and estimates the number of sound sources on the basis of the sum total of posterior probability of each cluster.SELECTED DRAWING: Figure 3

Description

本発明は、音源数推定装置、音源数推定方法および音源数推定プログラムに関する。   The present invention relates to a sound source number estimation device, a sound source number estimation method, and a sound source number estimation program.

従来、音源分離技術として、クラスタリングに基づく音源分離を行う技術が知られている。例えば、音源数が既知であることを前提として、音源数と同数のクラスタを用いてクラスタリングを行う(例えば、非特許文献1参照)。1音源の特徴量は、各周波数内で同じ特徴量空間に集中しやすいため、このようなクラスタリングにより音源分離を行うことができる。   Conventionally, a technique for performing sound source separation based on clustering is known as a sound source separation technique. For example, assuming that the number of sound sources is known, clustering is performed using the same number of clusters as the number of sound sources (see, for example, Non-Patent Document 1). Since the feature values of one sound source tend to concentrate in the same feature value space within each frequency, sound source separation can be performed by such clustering.

各音源の特徴量空間の形状は、周波数に依存するが、1音源信号は、全周波数で同時に立ちあがりやすく、且つ、立ち下がりやすい。すなわち、音源アクティビティは周波数間で同期する。非特許文献1に記載のクラスタリングでは、この音源アクティビティの同期性を適切にモデル化し、全体最適化に組み込むことにより、音源位置特徴量と音源アクティビティの同時クラスタリングを実現している。   The shape of the feature amount space of each sound source depends on the frequency, but one sound source signal is likely to rise at the same time and fall easily at all frequencies. That is, sound source activity is synchronized between frequencies. In the clustering described in Non-Patent Document 1, the synchronism of the sound source activity is appropriately modeled and incorporated into the overall optimization, thereby realizing simultaneous clustering of the sound source position feature quantity and the sound source activity.

ところが、非特許文献1に記載のクラスタリングでは、音源数が既知であることを前提としており、音源数が未知である場合には、音源数と同数のクラスタを用いてクラスタリングを行うことができない。一方、音源数を推定する技術が知られている。例えば、音源数を推定する技術として、「音源数≦マイクロホン数、かつ残響なし」であることを前提とし、音源数を推定する方法がある(例えば、非特許文献2を参照)。   However, the clustering described in Non-Patent Document 1 assumes that the number of sound sources is known. If the number of sound sources is unknown, clustering cannot be performed using the same number of clusters as the number of sound sources. On the other hand, a technique for estimating the number of sound sources is known. For example, as a technique for estimating the number of sound sources, there is a method for estimating the number of sound sources on the premise that “the number of sound sources ≦ the number of microphones and no reverberation” (see, for example, Non-Patent Document 2).

伊藤信貴、荒木章子、中谷智広“時変混合重みに基づくパーミュテーション問題のないクラスタリングベース音源分離”、社団法人電子情報通信学会、信学技報, VOL.113, NO.27, 2013年5月Nobutaka Ito, Akiko Araki, Tomohiro Nakatani “Clustering-based sound source separation without permutation problem based on time-varying mixture weights”, The Institute of Electronics, Information and Communication Engineers, IEICE Technical Report, VOL.113, NO.27, 20135 Moon MATI WAX,THOMAS KAILATH,“Detection of Signals by Information Theoretic Criteria”, IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL. ASSP-33, NO.2, APRIL 1985MATI WAX, THOMAS KAILATH, “Detection of Signals by Information Theoretic Criteria”, IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.ASSP-33, NO.2, APRIL 1985

しかしながら、上記した従来の音源数を推定する技術では、「音源数≦マイクロホン数、かつ残響なし」であることを前提としており、実環境に近い条件下では、音源数を適切に推定することができないという課題があった。つまり、従来の音源数を推定する技術は、「音源数≦マイクロホン数、かつ残響なし」という理想的な条件でしか成立せず、例えば、「音源数>マイクロホン数、または残響あり」というような状況である場合には、音源数を適切に推定することができない。   However, the conventional techniques for estimating the number of sound sources are based on the premise that “the number of sound sources ≦ the number of microphones and no reverberation”, and under conditions close to the actual environment, the number of sound sources can be estimated appropriately. There was a problem that it was not possible. In other words, the conventional technique for estimating the number of sound sources can only be realized under the ideal condition of “the number of sound sources ≦ the number of microphones and no reverberation”, for example, “the number of sound sources> the number of microphones, or there is reverberation”. If this is the situation, the number of sound sources cannot be estimated appropriately.

上述した課題を解決し、目的を達成するために、本発明の音源数推定装置は、kをクラスタのインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、前記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、前記確率モデルのモデルパラメータを推定し、該モデルパラメータを用いて、前記観測信号ベクトルyτωが、前記N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算するモデル推定部と、前記事後確率が有意な値をとるクラスタの個数を、音源数として推定する音源数推定部と、を含み、前記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、前記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、前記確率モデルのモデルパラメータは、前記混合重みと、各音源に関する前記特徴ベクトルxτωの分布のパラメータであることを特徴とする。 In order to solve the above-described problems and achieve the object, the sound source number estimation apparatus of the present invention uses k as the cluster index, τ as the time frame index, ω as the angular frequency, and N sound sources. A feature extraction unit that extracts a feature vector x τω corresponding to an observation signal vector y τω composed of a time-frequency component of each observation signal from an observation signal obtained by observing a mixed signal in which signals are mixed with M microphones; The vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins, using the model parameters, the observed signal vector y Tauomega calculates the posterior probability of the conditional probability belonging to the N respective clusters configured more than sound mode Includes a Le estimating unit, the number of clusters probability after previous article takes a significant value, and the number of sound sources estimating unit for estimating a number of sound sources, and the probabilistic model, the weights of the distribution of the feature vectors x Tauomega for each sound source A mixture model represented by a sum, wherein the mixture weight of the probability model depends on the time frame τ and does not depend on the angular frequency ω, and the model parameter of the probability model includes the mixture weight, It is a parameter of the distribution of the feature vector x τω related to the sound source.

本発明によれば、実環境に近い条件下であっても、音源数を適切に推定することが可能であるという効果を奏する。   According to the present invention, there is an effect that it is possible to appropriately estimate the number of sound sources even under conditions close to a real environment.

図1は、第一実施形態に係るモデル推定装置の機能構成を例示する図である。FIG. 1 is a diagram illustrating a functional configuration of the model estimation apparatus according to the first embodiment. 図2は、第一実施形態に係るモデル推定装置の処理フローを例示する図である。FIG. 2 is a diagram illustrating a processing flow of the model estimation apparatus according to the first embodiment. 図3は、第二実施形態に係る音源数推定装置の機能構成を例示する図である。FIG. 3 is a diagram illustrating a functional configuration of the sound source number estimation apparatus according to the second embodiment. 図4は、第二実施形態に係る音源数推定装置の処理フローを例示する図である。FIG. 4 is a diagram illustrating a processing flow of the sound source number estimation apparatus according to the second embodiment. 図5は、実際の音源数を超えるクラスタ数を設定した場合の事後確率の例を示す図である。FIG. 5 is a diagram illustrating an example of the posterior probability when the number of clusters exceeding the actual number of sound sources is set. 図6は、実験結果を示す図である。FIG. 6 is a diagram showing experimental results. 図7は、音源とクラスタ数とを同じに設定した場合における特徴量空間にプロットされる音源位置特徴量を示す図である。FIG. 7 is a diagram illustrating sound source position feature amounts plotted in the feature amount space when the sound source and the number of clusters are set to be the same. 図8は、音源よりもクラスタ数を多く設定した場合における特徴量空間にプロットされる音源位置特徴量の例を示す図である。FIG. 8 is a diagram illustrating an example of the sound source position feature amount plotted in the feature amount space when the number of clusters is set larger than that of the sound source. 図9は、音源よりもクラスタ数を多く設定した場合における特徴量空間にプロットされる音源位置特徴量の例を示す図である。FIG. 9 is a diagram illustrating an example of the sound source position feature amount plotted in the feature amount space when the number of clusters is set larger than that of the sound source. 図10は、第三実施形態に係る音源数推定装置の機能構成を例示する図である。FIG. 10 is a diagram illustrating a functional configuration of the sound source number estimation apparatus according to the third embodiment. 図11は、第三実施形態に係る音源数推定装置の処理フローを例示する図である。FIG. 11 is a diagram illustrating a processing flow of the sound source number estimation apparatus according to the third embodiment. 図12は、音源数推定方法を実行するコンピュータを示す図である。FIG. 12 is a diagram illustrating a computer that executes the sound source number estimation method.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.

[発明のポイント]
この発明の音源数推定装置における技術のポイントは、音源数が未知である条件下において、音源数を推定することが可能である点である。詳細は後述するが、音源数よりも多いクラスタ数を設定して非特許文献1に記載のクラスタリングを行い、各クラスタの事後確率を計算し、事後確率が有意な値をとるクラスタの個数を、音源数として推定するものである。
[Points of Invention]
The technical point of the sound source number estimation apparatus according to the present invention is that the number of sound sources can be estimated under conditions where the number of sound sources is unknown. Although details will be described later, clustering described in Non-Patent Document 1 is performed by setting the number of clusters larger than the number of sound sources, the posterior probability of each cluster is calculated, and the number of clusters for which the posterior probability takes a significant value, This is estimated as the number of sound sources.

[第一実施形態]
この発明の第一実施形態は、複数の音源からの信号を複数個のマイクロホンで観測し、各音源に関するモデルパラメータを推定するモデル推定装置である。
[First embodiment]
1st Embodiment of this invention is a model estimation apparatus which observes the signal from a several sound source with a several microphone, and estimates the model parameter regarding each sound source.

図1を参照して、第一実施形態のモデル推定装置Aの機能構成例を説明する。モデル推定装置Aは、周波数領域変換部1、特徴抽出部2及びモデル推定部3を含む。モデル推定部3は、事後確率計算部31、パラメータ更新部32及びパラメータ保持部33を含む。パラメータ更新部33は、混合重み更新手段321、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325を含む。   With reference to FIG. 1, the example of a function structure of the model estimation apparatus A of 1st embodiment is demonstrated. The model estimation apparatus A includes a frequency domain conversion unit 1, a feature extraction unit 2, and a model estimation unit 3. The model estimation unit 3 includes a posterior probability calculation unit 31, a parameter update unit 32, and a parameter holding unit 33. The parameter update unit 33 includes a mixture weight update unit 321, a correlation matrix update unit 322, an average direction update unit 323, a density parameter update unit 324, and a permutation solution unit 325.

図2を参照して、モデル推定装置Aの動作例を手続きの順に従って説明する。周波数領域変換部1へM個のマイクロホンにより観測された時間領域の混合信号~ytが入力される。時間領域の混合信号~ytは式(1)で定義される。

Figure 2016045225
With reference to FIG. 2, the operation example of the model estimation apparatus A will be described in the order of procedures. Mixed signals ~ y t of the observed time domain by M microphones to frequency domain transform unit 1 is input. The time domain mixed signal ~ y t is defined by equation (1).
Figure 2016045225

ここで、tは時間インデックスを表し、・T(上付き文字のT)はベクトル・の転置を表し、~ymtはm(1≦m≦M)番目のマイクロホンで観測された時間領域の混合信号を表す。 Where t is the time index, • T (superscript T) is the transpose of the vector • ~ y mt is the time domain mixture observed by the mth (1 ≦ m ≦ M) microphone Represents a signal.

周波数領域変換部1は入力された時間領域の混合信号~ytから短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルyτωを生成し出力する(ステップS1)。時間周波数領域の観測信号ベクトルyτωは式(2)で定義される。

Figure 2016045225
The frequency domain transform unit 1 generates and outputs an observation signal vector y τω in the time frequency domain from the input time domain mixed signal ~ y t by short-time Fourier transform or the like (step S1). The observation signal vector yτω in the time-frequency domain is defined by equation (2).
Figure 2016045225

ここで、τは時間フレームのインデックスを表し、ωは角周波数を表し、ymτωは混合信号~ymtの時間周波数領域での表現である。 Here, tau represents the time frame index, the ω represents an angular frequency, y Emutauomega is expressed in the time frequency domain mixed signals ~ y mt.

特徴抽出部2は、周波数領域変換部1の出力する時間周波数領域の観測信号ベクトルyτωを入力とし、特徴ベクトルxτωを計算し出力する(ステップS2)。特徴ベクトルxτωの計算は、時間周波数領域の観測信号ベクトルyτωを正規化することにより行ってもよいし、時間周波数領域の観測信号ベクトルyτωを白色化した後に正規化することによって行ってもよいし、時間周波数領域の観測信号ベクトルyτωを正規化した後に白色化して再度正規化することにより行ってもよい。例えば、時間周波数領域の観測信号ベクトルyτωを正規化することにより特徴ベクトルxτωを計算する場合は式(3)により計算すればよい。

Figure 2016045225
The feature extraction unit 2 receives the time-frequency domain observation signal vector y τω output from the frequency domain transformation unit 1 as input, and calculates and outputs a feature vector x τω (step S2). Computation of a feature vector x Tauomega may be performed by normalizing the observed signal vector y Tauomega the time-frequency domain, performed by normalizing the observed signal vector y Tauomega the time-frequency domain after the whitened Alternatively , the observation signal vector y τω in the time frequency domain may be normalized and then whitened and then normalized again. For example, when the feature vector x τω is calculated by normalizing the observation signal vector y τω in the time-frequency domain, the feature vector x τω may be calculated by Expression (3).
Figure 2016045225

また、例えば、時間周波数領域の観測信号ベクトルyτωを白色化した後に正規化する場合には、以下のように特徴ベクトルxτωを計算すればよい。まず、時間周波数領域の観測信号ベクトルyτωを用いて、式(4)により時間周波数領域の観測信号ベクトルyτωの標本相関行列Rω を計算する。

Figure 2016045225
Further, for example, when normalizing the observation signal vector y τω in the time frequency domain after whitening, the feature vector x τω may be calculated as follows . First, the sample correlation matrix R ω y of the observation signal vector y τω in the time-frequency domain is calculated by the equation (4) using the observation signal vector y τω in the time-frequency domain.
Figure 2016045225

ここで、Tはフレームの個数であり、・H(上付き文字のH)はエルミート(Hermite)転置である。 Here, T is the number of frames, and • H (superscript H) is Hermite transpose.

次に、標本相関行列Rω の固有値と固有ベクトルを計算する。計算した標本相関行列Rω の固有値を、大きい順に並べたものをσω1ω2,…,σωMと表す。したがって、式(5)の関係が成り立つ。

Figure 2016045225
Next, eigenvalues and eigenvectors of the sample correlation matrix R ω y are calculated. The eigenvalues of the calculated sample correlation matrix R ω y arranged in descending order are represented as σ ω1 , σ ω2 ,..., Σ ωM . Therefore, the relationship of Formula (5) is established.
Figure 2016045225

ここで、標本相関行列Rω はエルミート行列であるから、固有値σω1ω2,…,σωMはすべて実数であることに注意する。また、固有値σω1ω2,…,σωMに対応し、正規直交系をなす標本相関行列Rω の固有ベクトルをuω1,uω2,…,uωMで表す。ここで、標本相関行列Rω はエルミート行列であるから、このような固有ベクトルが存在することに注意する。 Here, since the sample correlation matrix R ω y is a Hermitian matrix, the eigenvalues σ ω1, σ ω2, ..., σ ωM is to note that all is a real number. Further, the eigenvectors of the sample correlation matrix R ω y forming the orthonormal system corresponding to the eigenvalues σ ω1 , σ ω2 ,..., Σ ωM are represented by u ω1 , u ω2 ,. Here, since the sample correlation matrix R ω y is a Hermitian matrix, it should be noted that such an eigenvector exists.

次に、行列Σωを式(6)により求め、行列Uωを式(7)により求める。

Figure 2016045225
Next, matrix sigma omega determined by equation (6), the matrix U omega is obtained by equation (7).
Figure 2016045225

次に、行列Uω及び行列Σωを用いて、時間周波数領域の観測信号ベクトルyτωを白色化したベクトルy’τωを式(8)により計算する。

Figure 2016045225
Next, a vector y ′ τω obtained by whitening the observation signal vector y τω in the time-frequency domain using the matrix U ω and the matrix Σ ω is calculated according to the equation (8).
Figure 2016045225

最後に、次式のようにベクトルy’τωをそのノルムで正規化することにより、特徴ベクトルxτωを計算する。

Figure 2016045225
Finally, the feature vector x τω is calculated by normalizing the vector y ′ τω with its norm as in the following equation.
Figure 2016045225

モデル推定部3は、特徴ベクトルxτωを特徴ベクトルの分布を表す確率モデルに当てはめ、確率モデルを評価する所定の評価関数を用いて、クラスタリングに適した確率モデルのモデルパラメータを計算する。そして、モデル推定部3は、該モデルパラメータを用いて、観測信号ベクトルyτωが、N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算する。 The model estimation unit 3 applies the feature vector x τω to a probability model representing the distribution of the feature vector, and calculates a model parameter of the probability model suitable for clustering using a predetermined evaluation function for evaluating the probability model. Then, the model estimation unit 3 calculates a posteriori probability, which is a conditional probability belonging to each cluster in which the observed signal vector yτω is set to be larger than N sound sources, using the model parameter.

音源の位置が固定の場合、各周波数ビンにおいて、特徴ベクトルxτωは理想的にはそれぞれの音源ごとに固有の値をとる。ただし、実際には、雑音・残響の影響、モデル化誤差などに起因する変動が存在するため、特徴ベクトルxτωは音源ごとにある値を中心にクラスタを形成する。そのため、この発明では、クラスタkに関する特徴ベクトルxτωの分布を、例えば、以下のようにワトソン(Watson)分布でモデル化する。 When the position of the sound source is fixed, in each frequency bin, the feature vector x τω ideally takes a unique value for each sound source. However, in practice, there are fluctuations due to the effects of noise and reverberation, modeling errors, and the like, so the feature vector x τω forms a cluster around a certain value for each sound source. Therefore, in the present invention, the distribution of the feature vector x τω related to the cluster k is modeled by, for example, the Watson distribution as follows.

Figure 2016045225
Figure 2016045225

ここで、aはクラスタkに関する特徴ベクトルの分布の中心を表し、平均方向(mean orientation)と呼ばれ、κはクラスタkに関する特徴ベクトルの分布の広がりの小ささを表し、密度パラメータ(concentration parameter)と呼ばれる。M(a,b,x)はクンマー(Kummer)関数である。クンマー関数についての詳細は「S. Sra and D. Karp, “The multivariate Watson distribution: maximum-likelihood estimation and other aspects”, arXiv: 1104.4422v2, 2012.(参考文献1)」を参照されたい。ここで、特徴ベクトルの分布が周波数ビンごとに定義されることに注意する。 Where a represents the center of the distribution of feature vectors for cluster k and is called the mean orientation, κ represents the small spread of the distribution of feature vectors for cluster k, and the density parameter (concentration parameter). M (a, b, x) is a Kummer function. For details on the Kummer function, see “S. Sra and D. Karp,“ The multivariate Watson distribution: maximum-likelihood estimation and other aspects ”, arXiv: 1104.4422v2, 2012. (Reference 1)”. Note that the distribution of feature vectors is defined for each frequency bin.

音声をはじめとする多くの音源信号は、「音源信号の時間周波数変換の振幅値の時系列{|snτω|}τが、周波数ビン間で類似する」という共通振幅変調の性質をもつ(例えば、「G. J. Brown, “Computational Auditory Scene Analysis: A Representational Approach”, Ph.D. thesis, University of Sheffield, 1992.」を参照)。この発明では、この共通振幅変調の性質を、パーミュテーション問題を回避するための手掛かりとして利用できることに着目した。混合信号の各時間周波数成分に寄与する音源信号は高々一つであるという仮定(WDO(W-Disjoint Orthogonality)性の仮定)にもとづき、この共通振幅変調の性質を、クラスタリングの枠組みにおいて利用しやすい表現で言い換えると、「観測信号に寄与するクラスタ番号の時系列{d(τ,ω)}τは、周波数ビン間で類似する」と言える。この発明では、この周波数ビン間での{d(τ,ω)}τの類似性を、「d(τ,ω)の事前分布P(d(τ,ω)=k)が、フレームτに依存(時変)し、周波数ビン(角周波数ω)にはよらない(周波数非依存)」とモデル化する。このような各音源信号に対する、周波数ビン間での振幅変調の共通性を利用することにより、パーミュテーションを引き起こさずに、クラスタリングできる。この事前確率をαにより表す。なお、αはΣk=1 Kα=1を満たす。ここでは、音源数は未知であることを前提とし、モデル推定装置Aでは、音源数を超えるクラスタ数が設定されているものとする。 Many sound source signals including speech have a common amplitude modulation property that “the time series {| s nτω |} τ of the amplitude value of the time-frequency conversion of the sound source signal is similar between frequency bins” (for example, , “GJ Brown,“ Computational Auditory Scene Analysis: A Representational Approach ”, Ph.D. thesis, University of Sheffield, 1992.”). In the present invention, attention is paid to the fact that the property of the common amplitude modulation can be used as a clue to avoid the permutation problem. Based on the assumption that there is at most one sound source signal contributing to each time frequency component of the mixed signal (WDO (W-Disjoint Orthogonality) property), this common amplitude modulation property is easy to use in the framework of clustering In other words, it can be said that “the time series {d (τ, ω)} τ of cluster numbers contributing to the observation signal is similar between frequency bins”. In the present invention, the similarity of {d (τ, ω)} τ between the frequency bins is expressed as “the prior distribution P (d (τ, ω) = k) of d (τ, ω) in the frame τ. It depends (time-varying) and does not depend on the frequency bin (angular frequency ω) (frequency-independent) ”. By using the commonality of amplitude modulation between frequency bins for each sound source signal, clustering can be performed without causing permutation. This prior probability is represented by α . Α satisfies Σ k = 1 K α = 1. Here, it is assumed that the number of sound sources is unknown, and it is assumed that the number of clusters exceeding the number of sound sources is set in the model estimation apparatus A.

この事前確率は、1個の時間フレームごとに変化すると仮定してもよいし、複数の時間フレームからなるブロックごとに変化すると仮定してもよい。事前確率が1個の時間フレームごとに変化すると仮定する場合、任意のクラスタkと任意の時間フレームτに対して、αは独立変数であり、推定すべきパラメータである。 This prior probability may be assumed to change every one time frame, or may be assumed to change every block consisting of a plurality of time frames. Assuming that the prior probability changes every time frame, for any cluster k and any time frame τ, α is an independent variable and a parameter to be estimated.

一方、事前確率が数個の時間フレームからなるブロックごとに変化すると仮定する場合、Bをブロックの総数とし、ブロック番号をb=1,2,…,Bとし、Jを各ブロック内における時間フレームの総数とし、各ブロック内における時間フレームの番号をj=1,2,…,Jとすると、τ=(b−1)×J+jと表せ、αk,(b−1)×J+j(j=1,2,…,J)は等しくなるから、推定すべきパラメータである混合重みは~αkbk,(b−1)×J+1により定義される~αkbである。以下では、特に断りのない限り、事前確率が1個の時間フレームごとに変化すると仮定する場合について説明する。 On the other hand, if it is assumed that the prior probability changes for each block consisting of several time frames, B is the total number of blocks, block numbers are b = 1, 2,..., B, and J is a time frame within each block. If the time frame number in each block is j = 1, 2,..., J, it can be expressed as τ = (b−1) × J + j, α k, (b−1) × J + j (j = 1,2, ..., J) from the equal, mixture weights are parameters to be estimated is ~ α kb = α k, with ~ alpha kb defined by (b-1) × J + 1 is there. In the following, a case will be described where it is assumed that the prior probability changes every one time frame unless otherwise specified.

以上より、特徴ベクトルxτωの尤度関数は、式(11)で表す混合モデルで与えられる。

Figure 2016045225
From the above, the likelihood function of the feature vector x τω is given by the mixed model expressed by the equation (11).
Figure 2016045225

ここで、Θは、式(12)に示すパラメータ集合である。

Figure 2016045225
Here, Θ is a parameter set shown in Expression (12).
Figure 2016045225

ここで、{α}は式(13)により定義される。

Figure 2016045225
Here, {α } is defined by equation (13).
Figure 2016045225

他の同様の記法もこれにならって定義される。以降では、αを混合重みと呼ぶ。混合重みαの事前分布として式(14)に示すディリクレ(Dirichlet)分布を用いる。

Figure 2016045225
Other similar notations are defined accordingly. Hereinafter, α is referred to as a mixing weight. As a prior distribution of the mixture weight α , a Dirichlet distribution shown in Expression (14) is used.
Figure 2016045225

ここで、Γはガンマ関数であり、φはハイパーパラメータと呼ばれる。φの値を十分大きく定めることにより、混合重みαの変動を抑えることができる。φの値を微調整する必要はないが、例えば、φ=1,10,100,1000などの値を用いることができる。 Here, Γ is a gamma function, and φ is called a hyperparameter. By setting the value of φ sufficiently large, fluctuations in the mixing weight α can be suppressed. Although it is not necessary to finely adjust the value of φ, for example, values such as φ = 1, 10, 100, 1000 can be used.

混合重みα以外のパラメータについては一様な事前分布を仮定する。したがって、p(Θ)=Πτp({α}k)である。 A uniform prior distribution is assumed for parameters other than the mixing weight α . Therefore, it is p (Θ) = Π τ p ({α kτ} k).

モデル推定部3では、特徴ベクトルxτωを以上のようにモデル化された確率モデルに当てはめ、確率モデルを評価する所定の評価関数を用いて、事後確率及びクラスタリングに適したパラメータ集合Θを求める。 The model estimation unit 3 applies the feature vector x τω to the probability model modeled as described above, and obtains a parameter set Θ suitable for posterior probability and clustering using a predetermined evaluation function for evaluating the probability model.

以下、モデル推定部3の各部の処理を詳細に説明する。モデル推定部3は、図1に示すとおり、事後確率計算部31、パラメータ更新部32及びパラメータ保持部33を含む。モデル推定部3での処理に先立ち、パラメータ集合Θの初期値をパラメータ保持部33に用意しておく(ステップS0)。この初期値は、例えば、α=1/K、κ=20とし、aは{xτω}τωから無作為に選ぶことにより設定することができる。 Hereinafter, the process of each part of the model estimation part 3 is demonstrated in detail. The model estimation unit 3 includes a posterior probability calculation unit 31, a parameter update unit 32, and a parameter holding unit 33, as shown in FIG. Prior to processing in the model estimation unit 3, initial values of the parameter set Θ are prepared in the parameter holding unit 33 (step S0). The initial value is, for example, α kτ = 1 / K, and κ kω = 20, a kω can be set by selecting at random from {x τω} τω.

事後確率計算部31は、パラメータ保持部33に記憶されたパラメータ集合Θから事後確率γkτω、すなわち特徴ベクトルxτωが与えられたもとでd(τ,ω)=kとなる条件付き確率を式(15)により計算する(ステップS31)。

Figure 2016045225
The posterior probability calculation unit 31 uses the parameter set Θ stored in the parameter holding unit 33 to give a posterior probability γ kτω , that is, a conditional probability that d (τ, ω) = k when the feature vector x τω is given by the formula ( 15) (step S31).
Figure 2016045225

パラメータ更新部32は、図1に示すとおり、混合重み更新手段321、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325を含み、現在のパラメータ集合Θを更新して新たなパラメータ集合Θ’を生成する(ステップS32)。   As shown in FIG. 1, the parameter update unit 32 includes a mixture weight update unit 321, a correlation matrix update unit 322, an average direction update unit 323, a density parameter update unit 324, and a permutation solution unit 325, and a current parameter set Θ Is updated to generate a new parameter set Θ ′ (step S32).

混合重み更新手段321は、事後確率γkτωを用いて、式(16)を計算することにより、混合重みαを新しい値α’に更新する。 Mixing weight updating unit 321 uses the posterior probability gamma Keitauomega, by calculating equation (16), and updates the mixture weight alpha Lkr new value alpha 'Lkr.

Figure 2016045225
Figure 2016045225

ここで、Fは周波数ビンの個数を表す。φ=1のとき、α’は全周波数ビンにわたる事後確率γkτωの平均値となることがわかる。φの増加とともに、α’は定数1/Kに近づく。 Here, F represents the number of frequency bins. When φ = 1, α 'kτ it can be seen that the average value of the posterior probability gamma Keitauomega over all frequency bins. As φ increases, α ′ approaches the constant 1 / K.

相関行列更新手段322は、特徴ベクトルxτωと事後確率γkτωを用いて、式(17)を計算することにより、各クラスタkに対する相関行列Rを新しい値R’に更新する。

Figure 2016045225
The correlation matrix updating unit 322 updates the correlation matrix R for each cluster k to a new value R ′ by calculating Expression (17) using the feature vector x τω and the posterior probability γ kτω .
Figure 2016045225

平均方向更新手段323は、相関行列Rの正規化された主成分ベクトルとして、平均方向aを新しい値a’に更新する。 The average direction updating unit 323 updates the average direction a to a new value a ′ as a normalized principal component vector of the correlation matrix R .

密度パラメータ更新手段324は、相関行列Rの最大固有値λを用いて、密度パラメータкを式(18)により新しい値к’に更新する。

Figure 2016045225
The density parameter updating unit 324 updates the density parameter к to a new value к ′ using Equation (18) using the maximum eigenvalue λ of the correlation matrix R .
Figure 2016045225

パーミュテーション解決手段325は、式(19)〜(21)に示すように、各周波数ビンにおいて、平均方向a’と密度パラメータк’を、事後確率p(Θ’|{xτω}τω)が最大になるように音源間で置換し、パーミュテーションを解決する(ステップS325)。 As shown in equations (19) to (21), the permutation solving means 325 uses the average direction a ′ and the density parameter к ′ as the posterior probabilities p (Θ ′ | {x τω } for each frequency bin. The permutation is solved by replacing between sound sources so that τω ) is maximized (step S325).

Figure 2016045225
Figure 2016045225

なお、以上では、混合重みが1個の時間フレームごとに変化する場合の処理について説明したが、混合重みが複数の時間フレームからなるブロックごとに変化する場合は、混合重み更新手段321における混合重みαの更新式(16)において、分子の事後確率γkτωの時間フレーム内の和を事後確率γkτωのブロック内の和に置き換え、分母のFをF×Jで置き換えればよい。一方、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325においては、混合重みが1個の時間フレームごとに変化する場合の処理と同一の処理を行えばよい。 In the above, the processing when the mixing weight changes for each time frame has been described. However, when the mixing weight changes for each block composed of a plurality of time frames, the mixing weight in the mixing weight update unit 321 is used. in alpha Lkr update equations (16), replacing the sum in the time frame of the posterior probability gamma Keitauomega molecules to the sum of the block of the posterior probability gamma Keitauomega, the F in the denominator may be replaced by F × J. On the other hand, the correlation matrix updating unit 322, the average direction updating unit 323, the density parameter updating unit 324, and the permutation solving unit 325 perform the same processing as that when the mixing weight changes for each time frame. Just do it.

以下、パラメータ更新部32における各更新式の導出根拠を説明する。パラメータ更新はEM(Expectation-Maximization)アルゴリズムを導入して、それに基づき行う。なお、{d(τ,ω)}τωは、EMアルゴリズムにおける隠れ変数として扱う。 Hereinafter, the basis for deriving each update formula in the parameter update unit 32 will be described. Parameter update is performed based on the EM (Expectation-Maximization) algorithm. Note that {d (τ, ω)} τω is treated as a hidden variable in the EM algorithm.

まず、MAP(Maximum a posteriori)推定のためのコスト関数L(Θ)は、式(22)〜(24)により与えられる。

Figure 2016045225
First, a cost function L (Θ) for MAP (Maximum a posteriori) estimation is given by equations (22) to (24).
Figure 2016045225

ここで、{xτω}τωは互いに独立であると仮定し、Θに依存しない定数項を無視した。この目的関数を式(25)に示す制約条件のもとで最大化する。

Figure 2016045225
Here, {x τω } τω is assumed to be independent from each other, and a constant term independent of Θ is ignored. This objective function is maximized under the constraint condition shown in equation (25).
Figure 2016045225

目的関数L(Θ)は、パーミュテーション問題がない場合に大きい値を取るため、L(Θ)の最大化によりパーミュテーション問題が回避できる。実際、式(24)の第一項から分かるように、目的関数L(Θ)が大きくなるのは、混合重みαが大きい値をとるk、τに対し、クラスタkに対する尤度(もっともらしさ)p(xτω|d(τ,ω)=k,a)が大きい場合である。したがって、L(Θ)の最大化により、クラスタkに対する尤度の時系列{p(xτω|d(τ,ω)=k,a)}τが周波数ビン間で同期する。このことと、上述の「観測信号に寄与する音源インデックスの時系列{d(τ,ω)}τは、周波数ビン間で類似する」という性質を考え合わせると、L(Θ)はパーミュテーション問題がない場合に大きい値を取ることがわかる。EMアルゴリズムで用いる評価関数(Q関数)は式(26)(27)により与えられる。 Since the objective function L (Θ) takes a large value when there is no permutation problem, the permutation problem can be avoided by maximizing L (Θ). In fact, as can be seen from the first term of equation (24), the objective function L (Θ) increases because of the likelihood (probability) of cluster k with respect to k and τ where the mixture weight α takes a large value. ) When p ( xτω | d (τ, ω) = k, a , κ ) is large. Therefore, by maximizing L (Θ), the time series of likelihood {p (x τω | d (τ, ω) = k, a , κ )} τ for cluster k is synchronized between frequency bins. Considering this and the above-mentioned property that “the time series of the sound source index contributing to the observation signal {d (τ, ω)} τ is similar between frequency bins”, L (Θ) is permutation. It can be seen that it takes a large value when there is no problem. The evaluation function (Q function) used in the EM algorithm is given by equations (26) and (27).

Figure 2016045225
Figure 2016045225

更新後のパラメータ集合Θ'は次式により定義される。

Figure 2016045225
The updated parameter set Θ ′ is defined by the following equation.
Figure 2016045225

Q関数を式(25)の制約のもとで最大にするものとして導かれる。すなわち、混合重みαの新たな値α'を求める式(16)は、ラグランジュ(Lagrange)の未定乗数法によって、式(28)(29)により導出される。

Figure 2016045225

ここで、μはラグランジュの未定乗数である。 It is derived that the Q function is maximized under the constraint of equation (25). That is, Expression (16) for obtaining a new value α ′ of the mixture weight α is derived from Expressions (28) and (29) by Lagrange's undetermined multiplier method.
Figure 2016045225

Here, μ is Lagrange's undetermined multiplier.

平均方向の更新式は、

Figure 2016045225

を解くことで得られる。したがって、クーラン・フィッシャー(Courant-Fischer)の定理より、Rの最大固有値に対応する固有ベクトル(主成分ベクトル)によって、平均方向を更新すればよい。 The average direction update formula is
Figure 2016045225

Can be obtained by solving Therefore, the average direction may be updated by the eigenvector (principal component vector) corresponding to the maximum eigenvalue of R kω according to the Courant-Fischer theorem.

また、密度パラメータの更新式(18)については、まず∂Q/∂κ=0より式(31)を得る。

Figure 2016045225
As for the density parameter update formula (18), formula (31) is first obtained from ∂Q / ∂κ = 0.
Figure 2016045225

ここで、

Figure 2016045225

であり、λは相関行列Rの最大固有値である。上式は、近似的に次の式(32)のように解くことができる。 here,
Figure 2016045225

Λ is the maximum eigenvalue of the correlation matrix R . The above equation can be approximately solved as the following equation (32).

Figure 2016045225
Figure 2016045225

パラメータ保持部33は、パラメータ更新部32での更新処理により得られたパラメータ集合Θ’を記憶する(ステップS33)。また、事後確率計算部31での次回の処理の際には、記憶したパラメータ集合Θ’をパラメータ集合として提供する。なお、第一の実施形態のモデル推定装置を用いて推定した、パラメータ集合Θを用いることで、音源定位、音源数が未知の条件下での音源分離、音源数と分離音の同時推定等を行うことが可能である。   The parameter holding unit 33 stores the parameter set Θ ′ obtained by the update process in the parameter update unit 32 (step S33). In the next processing by the posterior probability calculation unit 31, the stored parameter set Θ 'is provided as a parameter set. By using the parameter set Θ estimated using the model estimation apparatus of the first embodiment, sound source localization, sound source separation under conditions where the number of sound sources is unknown, simultaneous estimation of the number of sound sources and separated sounds, etc. Is possible.

ステップS31からステップS33までの処理は、事前に設定した最大反復回数max_iterに達するまで、またはパラメータ更新部32における各パラメータの更新による変動幅が収束判定の閾値Δよりも小さくなるまで、反復して行う(ステップS91)。最大反復回数max_iter及び閾値Δの具体的な値は、例えば、max_iter=100、Δ=10−10とすることができる。 The processing from step S31 to step S33 is repeated until the preset maximum number of iterations max_iter is reached or until the fluctuation range due to updating of each parameter in the parameter updating unit 32 becomes smaller than the convergence determination threshold value Δ. This is performed (step S91). Specific values of the maximum number of iterations max_iter and the threshold Δ may be, for example, max_iter = 100 and Δ = 10 −10 .

ステップS91において、モデル推定部3における処理が最大反復回数max_iterに達した場合、または各パラメータの更新による変動幅が閾値Δよりも小さくなった場合、モデル推定部3は反復終了後の事後確率γo kτωを出力する。 In step S91, when the process in the model estimation unit 3 reaches the maximum number of iterations max_iter, or when the fluctuation range due to the update of each parameter becomes smaller than the threshold value Δ, the model estimation unit 3 determines the posterior probability γ after the end of the iteration. o Output kτω .

[第二実施形態]
この発明の第二実施形態は、第一実施形態のモデル推定装置Aを用いて音源数推定装置として構成した実施形態である。
[Second Embodiment]
The second embodiment of the present invention is an embodiment configured as a sound source number estimating device using the model estimating device A of the first embodiment.

図3を参照して、第二実施形態の音源数推定装置Bの機能構成例を説明する。音源数推定装置Bは、第一実施形態のモデル推定装置Aの各部に加えて、音源数推定部4を含む。   With reference to FIG. 3, the function structural example of the sound source number estimation apparatus B of 2nd embodiment is demonstrated. The sound source number estimation device B includes a sound source number estimation unit 4 in addition to each unit of the model estimation device A of the first embodiment.

音源数推定部4は、事後確率が有意な値をとるクラスタの個数を、音源数として推定する。具体的には、音源数推定部4は、事後確率計算部31によって計算された各クラスタの事後確率の入力を受け付け、各クラスタの事後確率を用いて、各クラスタの事後確率の総和を算出する。例えば、音源数推定部4は、下記式(33)を用いて、各クラスタの事後確率の総和を算出する。なお、各クラスタの事後確率の総和を算出することに限定させるものではなく、例えば、特定の周波数範囲に限った事後確率の部分和を算出してもよい。   The sound source number estimation unit 4 estimates the number of clusters in which the posterior probability takes a significant value as the number of sound sources. Specifically, the sound source number estimation unit 4 receives the input of the posterior probability of each cluster calculated by the posterior probability calculation unit 31, and calculates the sum of the posterior probabilities of each cluster using the posterior probability of each cluster. . For example, the sound source number estimation unit 4 calculates the sum of the posterior probabilities of each cluster using the following equation (33). Note that the present invention is not limited to calculating the sum of the posterior probabilities of each cluster, and for example, a partial sum of posterior probabilities limited to a specific frequency range may be calculated.

Figure 2016045225
Figure 2016045225

そして、音源数推定部4は、各クラスタの事後確率の総和を2つにクラスタリングし、総和の大きい方のクラスタに属するクラスタの数を音源数として推定する。   Then, the sound source number estimation unit 4 clusters the sum of the posterior probabilities of each cluster into two, and estimates the number of clusters belonging to the cluster with the larger sum as the number of sound sources.

図4を参照して、音源数推定装置Bの動作例を手続きの順に従って説明する。ステップS0からステップS91までの処理は第一実施形態のモデル推定装置Aの動作例と同様であるので詳細な説明は省略する。   With reference to FIG. 4, the operation example of the sound source number estimation apparatus B will be described in the order of procedures. Since the processing from step S0 to step S91 is the same as the operation example of the model estimation apparatus A of the first embodiment, detailed description thereof is omitted.

音源数推定部4は、各クラスタの事後確率を用いて、各クラスタの事後確率の総和を算出する(ステップS41)。具体的には、音源数推定部4は、事後確率計算部31によって計算された各クラスタの事後確率の入力を受け付け、各クラスタの事後確率を用いて、各クラスタの事後確率の総和を算出する。   The sound source number estimation unit 4 calculates the sum of the posterior probabilities of each cluster using the posterior probabilities of each cluster (step S41). Specifically, the sound source number estimation unit 4 receives the input of the posterior probability of each cluster calculated by the posterior probability calculation unit 31, and calculates the sum of the posterior probabilities of each cluster using the posterior probability of each cluster. .

そして、音源数推定部4は、各クラスタの事後確率の総和を2つにクラスタリングする(ステップS42)。例えば、音源数推定部4は、各クラスタの事後確率の総和に対して、クラスタ数2のk-meansクラスタリングを適用してクラスタリングする。   Then, the sound source number estimation unit 4 clusters the sum of the posterior probabilities of each cluster into two (step S42). For example, the sound source number estimation unit 4 performs clustering by applying k-means clustering with two clusters to the sum of the posterior probabilities of each cluster.

続いて、音源数推定部4は、事後確率の総和の大きい方のクラスタに属するクラスタ数を音源数と推定する(ステップS43)。例えば、音源数推定部4は、セントロイドがより大きいクラスタに属するクラスタの個数を、音源数として推定する。   Subsequently, the sound source number estimation unit 4 estimates the number of clusters belonging to the cluster with the larger sum of the posterior probabilities as the number of sound sources (step S43). For example, the sound source number estimation unit 4 estimates the number of clusters belonging to a cluster having a larger centroid as the number of sound sources.

ここで、音源数推定部4は、上記で例示したように、クラスタ数が「2」のk-meansクラスタリングを適用してクラスタリングする場合に限定されるものではなく、より簡易な処理として、所定の閾値を用いて、各クラスタの事後確率の総和に対して閾値処理を行ってもよい。具体的には、音源数推定部4は、各クラスタの事後確率の総和が所定の閾値以上であるかを判定し、所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定してもよい。クラスタ数が「2」のk-meansクラスタリングを適用してクラスタリングする方法は、所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定する方法と比べ、残響時間などの条件の変化に対して、より頑健であると期待される。   Here, as exemplified above, the sound source number estimation unit 4 is not limited to clustering by applying k-means clustering with the number of clusters of “2”. Threshold processing may be performed on the sum of the posterior probabilities of each cluster using the threshold. Specifically, the sound source number estimation unit 4 determines whether the sum of the posterior probabilities of each cluster is equal to or greater than a predetermined threshold, and determines the number of clusters corresponding to the sum of the posterior probabilities equal to or greater than the predetermined threshold. May be estimated. The method of clustering by applying k-means clustering with the number of clusters of “2” is different from the method of estimating the number of clusters corresponding to the sum of the posterior probabilities equal to or higher than a predetermined threshold as the number of sound sources. Expected to be more robust against changing conditions.

第一実施形態の説明では、音源数が未知であることを前提として、音源数を超えるクラスタ数を設定しているものとして説明した。このように、音源数を超えるクラスタを設定して、段落0040〜0065において説明した、パラメータの更新処理および事後確率の計算処理を行うことで、音源数と同数のクラスタのみ有意な事後確率をもち、残りのクラスタは小さい事後確率をもつこととなる。ここで、図5において、音源数が「3」であり、クラスタ数「4」の場合に、第二実施形態に記載のクラスタリング方法で得られた事後確率の例を示す。図5について、横軸が時間であり、縦軸が周波数であり、輝度の大きい点ほど、事後確率が大きいことを示している。   In the description of the first embodiment, it is assumed that the number of clusters exceeding the number of sound sources is set on the assumption that the number of sound sources is unknown. In this way, by setting clusters exceeding the number of sound sources and performing the parameter update processing and posterior probability calculation processing described in paragraphs 0040 to 0065, only the same number of clusters as the number of sound sources have significant posterior probabilities. The remaining clusters will have a small posterior probability. Here, FIG. 5 shows an example of the posterior probability obtained by the clustering method described in the second embodiment when the number of sound sources is “3” and the number of clusters is “4”. In FIG. 5, the horizontal axis is time, the vertical axis is frequency, and the higher the luminance, the higher the posterior probability.

つまり、実際の音源数と同数のクラスタのみ、音源アクティビティが有意な値をもっていることがわかる。図5の例を用いて説明すると、「cluster1」、「cluster2」、「cluster4」の3つのクラスタは有意な事後確率をもち、「cluster3」は小さい事後確率であり、有意な事後確率をもっていないといえる。   That is, it can be seen that the sound source activity has a significant value only in the same number of clusters as the actual number of sound sources. Using the example in FIG. 5, the three clusters “cluster1,” “cluster2,” and “cluster4” have significant posterior probabilities, and “cluster3” has a small posterior probability and no significant posterior probabilities. I can say that.

このため、上述したように、音源数推定部4は、クラスタ数2のk-meansクラスタリングを適用してクラスタリングした場合には、「cluster1」、「cluster2」および「cluster4」の3つのクラスタの事後確率の総和と、「cluster3」のみの1つのクラスタの事後確率の総和とでそれぞれクラスタリングされる。そして、事後確率の総和の大きい方のクラスタに属するクラスタ数(要素数)が、「cluster1」、「cluster2」および「cluster4」の3つであるから、音源数が「3」と推定される。   For this reason, as described above, the sound source number estimation unit 4 applies the posterior of the three clusters “cluster1,” “cluster2,” and “cluster4” when clustering is performed by applying k-means clustering with two clusters. Clustering is performed using the sum of probabilities and the sum of posterior probabilities of only one cluster of “cluster3”. Then, since the number of clusters (number of elements) belonging to the cluster with the larger sum of the posterior probabilities is three, “cluster1”, “cluster2”, and “cluster4”, the number of sound sources is estimated to be “3”.

[実験結果]
ここで、音源数推定装置Bによる音源数推定処理を実施した場合の実験結果について説明する。
[Experimental result]
Here, an experimental result when the sound source number estimation processing by the sound source number estimation apparatus B is performed will be described.

図6に、音源数推定実験における正解率を示す。図6に示すように、φ=600とした場合、全ての条件において、100%の正解率が得られた。また、φを1→600と増加させることにより、正解率が向上する傾向があった。一方、φをさらに600→1000と増加させると、音源数N=3、残響時間370msの条件での正解率が、100%→88%と減少した。   FIG. 6 shows the correct answer rate in the sound source number estimation experiment. As shown in FIG. 6, when φ = 600, a 100% accuracy rate was obtained under all conditions. Moreover, there was a tendency that the accuracy rate was improved by increasing φ from 1 to 600. On the other hand, when φ was further increased from 600 to 1000, the correct answer rate under the conditions of the number of sound sources N = 3 and the reverberation time 370 ms decreased from 100% to 88%.

以上のように、従来は音源数の推定が困難であるような条件、例えば、「音源数>マイクロホン数、または残響あり」のような条件下でも、音源数を適切に推定することが可能である。   As described above, it is possible to appropriately estimate the number of sound sources even under conditions in which it is difficult to estimate the number of sound sources, for example, the number of sound sources> the number of microphones or reverberation. is there.

続いて、本発明の原理について説明する。まず、非特許文献1に記載のクラスタリングに基づく音源分離法について説明する。非特許文献1に記載のクラスタリングに基づく音源分離法は、音源数が既知であることを前提としており、音源数と同数のクラスタを用いてクラスタリングを行うものである。図7を参照して、上記の非特許文献1の技術について説明する。ここで、図7中の×印は、各時間周波数点における音源位置特徴量(例:マイクロホン間の位相差、時間差、振幅比)を表す。図7に示すように、同一音源の×印がそれぞれ円で囲まれており、1音源の特徴量は、各周波数内で、同じ特徴量空間に集中しやすい。各音源の特徴量空間の形状は、周波数に依存するが、1音源信号は、全周波数で同時に立ち上がりやすく、且つ、立ち下がりやすい。すなわち、音源アクティビティは周波数間で同期する。このようなクラスタリングでは、この音源アクティビティの同期性を適切にモデル化し、全体最適化に組み込むことにより、音源位置特徴量と音源アクティビティの同時クラスタリングを実現している。   Next, the principle of the present invention will be described. First, a sound source separation method based on clustering described in Non-Patent Document 1 will be described. The sound source separation method based on clustering described in Non-Patent Document 1 is based on the premise that the number of sound sources is known, and performs clustering using the same number of clusters as the number of sound sources. With reference to FIG. 7, the technique of said nonpatent literature 1 is demonstrated. Here, the x mark in FIG. 7 represents the sound source position feature amount (eg, phase difference, time difference, amplitude ratio between microphones) at each time frequency point. As shown in FIG. 7, the X marks of the same sound source are each surrounded by a circle, and the feature amount of one sound source tends to concentrate in the same feature amount space within each frequency. The shape of the feature amount space of each sound source depends on the frequency, but one sound source signal easily rises and falls easily at all frequencies simultaneously. That is, sound source activity is synchronized between frequencies. In such clustering, the synchronism of the sound source activity is appropriately modeled and incorporated into the overall optimization, thereby realizing simultaneous clustering of the sound source position feature quantity and the sound source activity.

上述のように、非特許文献1の技術では、音源数と同数のクラスタを用いてクラスタリングを行っていた。これを、音源数よりも多いクラスタを用いる構成に変更することは、これまでの技術常識に鑑みれば、容易に想到できるものではなかった。なぜならば、クラスタリングに基づく音源分離において、音源数よりも多いクラスタを用いると、通常、図8に示すように、1つの音源が複数のクラスタに分裂してしまうため、各クラスタが音源に対応しないからである。なお、図8は、音源数2、クラスタ数4の例である。   As described above, in the technique of Non-Patent Document 1, clustering is performed using the same number of clusters as the number of sound sources. Changing this to a configuration using more clusters than the number of sound sources has not been easily conceived in view of the common general technical knowledge. This is because, in the sound source separation based on clustering, if more clusters than the number of sound sources are used, normally one sound source is divided into a plurality of clusters as shown in FIG. 8, so each cluster does not correspond to a sound source. Because. FIG. 8 shows an example in which the number of sound sources is 2 and the number of clusters is 4.

これに対して、本発明に至る研究の過程で、次の全く新しい知見が得られた。すなわち、非特許文献1のクラスタリングにおいて、音源数よりも多いクラスタを用いる構成に変更すると、上記の技術常識に反して、1音源が複数のクラスタに分かれるようなことは起こらず、1音源は1つのクラスタにまとまる。つまり、先行技術のクラスタリングでは、上述のように、音源アクティビティの同期性を適切にモデル化しているため、図8のようなことは起こらず、図9のように1音源は1つのクラスタにまとまる。なお、図9は、音源数2、クラスタ数3の例である。図9に示すように、音源1および音源2がそれぞれ一つのクラスタにまとまっている。また、残り一つのクラスタは小さい事後確率をもつクラスタとなる。   On the other hand, the following completely new knowledge was obtained in the course of research leading to the present invention. In other words, in the clustering of Non-Patent Document 1, if the configuration is changed to a configuration using more clusters than the number of sound sources, contrary to the above technical common sense, one sound source is not divided into a plurality of clusters. Group into two clusters. That is, in the clustering of the prior art, as described above, the synchronism of sound source activity is appropriately modeled, so that the situation shown in FIG. 8 does not occur, and one sound source is grouped into one cluster as shown in FIG. . FIG. 9 shows an example in which the number of sound sources is 2 and the number of clusters is 3. As shown in FIG. 9, the sound source 1 and the sound source 2 are each grouped into one cluster. The remaining one cluster has a small posterior probability.

本発明では、以上の知見に基づき、非特許文献1のクラスタリングを、音源数よりも多いクラスタを用いる構成に変更する。また、本発明では、クラスタリング結果に基づき音源数を決定する際に、各クラスタの事後確率の総和を大小2クラスタにクラスタリングし、大きい方のクラスタの要素数として音源数を決定する。これにより、固定の閾値を用いる場合と比べて、より頑健に音源数を推定することができる。本発明の方法により、音源数が未知でも音源分離を行ったり、音源数を推定したりすることが可能になる。また、上記の実験結果からも分かるように、本発明の方法を用いて、極めて良好に音源数を推定できることが確認された。   In the present invention, based on the above knowledge, the clustering of Non-Patent Document 1 is changed to a configuration that uses clusters larger than the number of sound sources. In the present invention, when the number of sound sources is determined based on the clustering result, the sum of the posterior probabilities of each cluster is clustered into two large and small clusters, and the number of sound sources is determined as the number of elements of the larger cluster. Thereby, compared with the case where a fixed threshold value is used, the number of sound sources can be estimated more robustly. The method of the present invention makes it possible to perform sound source separation or estimate the number of sound sources even if the number of sound sources is unknown. Further, as can be seen from the above experimental results, it was confirmed that the number of sound sources can be estimated extremely well by using the method of the present invention.

また、本発明の音源数推定法では、「音源数>マイクロホン数、または残響あり」の場合にも、音源数を適切に推定することができる。実際、実験により、「音源数>マイクロホン数」の場合や、残響時間が比較的長い場合にも、本発明の音源数推定法により、きわめて良好に音源数を推定できることが示された。   Further, according to the sound source number estimation method of the present invention, the number of sound sources can be appropriately estimated even when “the number of sound sources> the number of microphones or reverberation”. In fact, experiments have shown that the number of sound sources can be estimated very well by the sound source number estimation method of the present invention even when “the number of sound sources> the number of microphones” or when the reverberation time is relatively long.

上述してきたように、音源数推定装置Bは、kをクラスタのインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する。そして、音源数推定装置Bは、特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、確率モデルのモデルパラメータを推定し、該モデルパラメータを用いて、観測信号ベクトルyτωが、N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算する。その後、音源数推定装置Bは、事後確率を用いて、各クラスタの事後確率の総和を算出し、各クラスタの事後確率の総和に基づいて、音源数を推定する。これにより、音源数推定装置Bでは、実環境に近い条件下であっても、音源数を適切に推定することが可能である。 As described above, the sound source number estimation apparatus B uses M as a mixed signal in which signals from N sound sources are mixed, where k is a cluster index, τ is a time frame index, ω is an angular frequency. The feature vector x τω corresponding to the observed signal vector y τω composed of the time frequency component of each observed signal is extracted from the observed signal observed with the microphone. The sound source number estimation device B applies the feature vector x τω to a predetermined probability model, and uses an evaluation function that gives a higher evaluation value as the time series of the likelihood of each sound source is synchronized between frequency bins, The model parameters of the probabilistic model are estimated, and the posterior probabilities that are conditional probabilities belonging to each cluster in which the observed signal vector yτω is set to be larger than N sound sources are calculated using the model parameters. Thereafter, the sound source number estimation device B calculates the sum of the posterior probabilities of each cluster using the posterior probability, and estimates the number of sound sources based on the sum of the posterior probabilities of each cluster. As a result, the sound source number estimation apparatus B can appropriately estimate the number of sound sources even under conditions close to the real environment.

また、音源数推定装置Bは、各クラスタの事後確率の総和を2つにクラスタリングし、総和の大きい方のクラスタに属するクラスタの数を音源数として推定する。音源数推定装置Bは、閾値を用いる場合と比べて、より頑健に音源数を推定することができる。   Further, the sound source number estimation device B clusters the sum of the posterior probabilities of each cluster into two, and estimates the number of clusters belonging to the cluster with the larger sum as the number of sound sources. The sound source number estimation apparatus B can more robustly estimate the number of sound sources than when using a threshold value.

また、音源数推定装置Bは、各クラスタの事後確率の総和が所定の閾値以上であるかを判定し、所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定してもよい。この場合には、上記の2つにクラスタリングを行う場合と比べて、より簡易に音源数を推定することができる。   Further, the sound source number estimation device B determines whether the sum of the posterior probabilities of each cluster is equal to or greater than a predetermined threshold, and estimates the number of clusters corresponding to the sum of the posterior probabilities equal to or greater than the predetermined threshold as the number of sound sources. May be. In this case, the number of sound sources can be estimated more easily than in the case where clustering is performed on the above two.

[第三実施形態]
この発明の第三実施形態は、第二実施形態に係る音源数推定装置Bの構成に音源分離部5および時間領域変換部6を追加した音源数推定装置Cとして構成した実施形態である。
[Third embodiment]
The third embodiment of the present invention is an embodiment configured as a sound source number estimation device C in which a sound source separation unit 5 and a time domain conversion unit 6 are added to the configuration of the sound source number estimation device B according to the second embodiment.

図10を参照して、第三実施形態の音源数推定装置Cの機能構成例を説明する。音源数推定装置Cは、第二実施形態の音源数推定装置Bの各部に加えて、音源分離部5及び時間領域変換部6を含む。音源分離部5は、マスク作成部51及び分離音作成部52を含む。   With reference to FIG. 10, a functional configuration example of the sound source number estimation apparatus C of the third embodiment will be described. The sound source number estimation device C includes a sound source separation unit 5 and a time domain conversion unit 6 in addition to each unit of the sound source number estimation device B of the second embodiment. The sound source separation unit 5 includes a mask creation unit 51 and a separated sound creation unit 52.

図11を参照して、音源数推定装置Cの動作例を手続きの順に従って説明する。ステップS0からステップS43までの処理は第二実施形態の音源数推定装置Bの動作例と同様であるので詳細な説明は省略する。音源数推定部4は、前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)を出力し、音源分離部5での処理に供する。   With reference to FIG. 11, an operation example of the sound source number estimation apparatus C will be described in the order of procedures. Since the processing from step S0 to step S43 is the same as the operation example of the sound source number estimation apparatus B of the second embodiment, detailed description thereof is omitted. The sound source number estimation unit 4 outputs cluster numbers k (1), k (2),..., K (^ N) for which the posterior probabilities have significant values, and is used for processing in the sound source separation unit 5. .

音源分離部5は、音源数推定部4の出力する前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)と、周波数領域変換部1の出力する混合音の時間周波数変換yτωと、事後確率計算部31の出力する反復終了後の事後確率γo kτωとを用いて、分離音の時間周波数変換^snτωを推定する(nは音源の番号)。 The sound source separation unit 5 includes a cluster number k (1), k (2),..., K (^ N) that the posterior probability output from the sound source number estimation unit 4 takes a significant value, and a frequency domain conversion unit. 1 is used to estimate the time-frequency conversion ^ s nτω of the separated sound using the time-frequency conversion y τω of the mixed sound output by 1 and the posterior probability γ o kτω after completion of the repetition output from the posterior probability calculation unit 31 (n Is the number of the sound source.

マスク作成部51は、音源数推定部4の出力する前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)と、事後確率計算部31の出力する前記反復終了後の事後確率γo kτωとを用いて、音源数推定部4により推定された音源数に対応するマスクmnτωを求める(ステップS51)。まず、マスク作成部51は、反復終了後の事後確率γo kτωのうち、有意な値である事後確率γ nτωをγ nτω=γo k(n)τωにより計算する。ここで、n=1、2、…、^Nであり、γの上付き文字のSは、Significant(有意)を表す。次に、マスク作成部51は、反復終了後の有意な値である事後確率γs nτωを用いて、式(34)により、アクティブな音源の番号d(τ,ω)の推定値^d(τ,ω)を計算する。

Figure 2016045225
The mask creation unit 51 includes a cluster number k (1), k (2),..., K (^ N) where the posterior probability output from the sound source number estimation unit 4 takes a significant value, and a posterior probability calculation unit. A mask m nτω corresponding to the number of sound sources estimated by the number-of-sound sources estimation unit 4 is obtained using the posterior probability γ o kτω that is output from 31 after the end of the iteration (step S51). First, the mask creation unit 51 calculates a significant posterior probability γ s nτω among posterior probabilities γ o kτω after the end of the iteration, using γ s nτω = γ o k (n) τω . Here, n = 1, 2,..., ^ N, and the superscript S of γ represents significant. Next, the mask creation unit 51 uses the posterior probability γ s nτω , which is a significant value after the end of the iteration, to calculate the estimated value ^ d of the active sound source number d s (τ, ω) by Equation (34) ^ d s (τ, ω) is calculated.
Figure 2016045225

次に、マスク作成部51は、マスクmnτωを式(35)により計算する。

Figure 2016045225
Next, the mask creation unit 51 calculates the mask m nτω using the equation (35).
Figure 2016045225

なお、マスク作成部51は、マスクmnτωを式(36)により求めてもよい。

Figure 2016045225
Note that the mask creation unit 51 may obtain the mask m nτω by the equation (36).
Figure 2016045225

分離音作成部52は、式(37)により、マスクmnτωを混合音の時間周波数変換y1τωに乗算し、分離音の時間周波数変換^snτωを計算する。これにより、周波数領域の観測信号を音源ごとに分離する(ステップS52)。

Figure 2016045225
The separated sound creating unit 52 multiplies the mask m nτω by the time frequency conversion y 1τω of the mixed sound according to the equation (37) to calculate the time frequency conversion ^ s nτω of the separated sound. Thereby, the observation signal in the frequency domain is separated for each sound source (step S52).
Figure 2016045225

時間領域変換部6は、音源nごとに、時間周波数領域の分離信号^snτωを時間領域の分離信号~^sntに変換して出力する(ステップS6)。 For each sound source n, the time domain conversion unit 6 converts the separation signal ^ s nτω in the time frequency domain into a separation signal ~ ^ s nt in the time domain and outputs the converted signal (step S6).

上述してきたように、音源数推定装置Cは、音源数が未知である場合であっても、音源数を推定した後に、音源分離技術を実現することができる。また、音源数推定装置Cは、パーミュテーション問題を生じず、二段階の処理を必要としない音源分離技術を実現することができる。これにより、例えば、音源位置などが時間的に変化する時変の環境での音声強調のためのオンライン音源分離を容易に実現することが可能となる。   As described above, the sound source number estimation device C can realize the sound source separation technique after estimating the number of sound sources even when the number of sound sources is unknown. In addition, the sound source number estimation apparatus C can realize a sound source separation technique that does not cause a permutation problem and does not require a two-stage process. Thereby, for example, it is possible to easily realize online sound source separation for speech enhancement in a time-varying environment in which the sound source position changes with time.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、モデル推定部3と音源数推定部4を統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the model estimation unit 3 and the sound source number estimation unit 4 may be integrated. Further, all or any part of each processing function performed in each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.

また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   In addition, among the processes described in this embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
また、上記実施形態に係る音源数推定装置B、Cが実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、音源数推定装置B、Cと同様の機能を実現する音源数推定プログラムを実行するコンピュータの一例を説明する。
[program]
In addition, it is possible to create a program in which the processing executed by the sound source number estimation devices B and C according to the above embodiment is described in a language that can be executed by a computer. In this case, the same effect as the above-described embodiment can be obtained by the computer executing the program. Further, such a program may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by a computer and executed to execute the same processing as in the above embodiment. Below, an example of the computer which performs the sound source number estimation program which implement | achieves the function similar to the sound source number estimation apparatuses B and C is demonstrated.

図12は、音源数推定プログラムを実行するコンピュータを示す図である。図12に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。   FIG. 12 is a diagram illustrating a computer that executes a sound source number estimation program. As illustrated in FIG. 12, the computer 1000 includes, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1090. The disk drive interface 1040 is connected to the disk drive 1041. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041. For example, a mouse 1110 and a keyboard 1120 are connected to the serial port interface 1050. For example, a display 1130 is connected to the video adapter 1060.

ここで、図12に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各データは、例えばハードディスクドライブ1090やメモリ1010に記憶される。   Here, as shown in FIG. 12, the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. Each data described in the above embodiment is stored in, for example, the hard disk drive 1090 or the memory 1010.

また、音源数推定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ1090に記憶される。具体的には、上記実施形態で説明した音源数推定装置B、Cが実行する各処理が記述されたプログラムモジュールが、ハードディスクドライブ1090に記憶される。   The sound source number estimation program is stored in the hard disk drive 1090 as a program module in which a command executed by the computer 1000 is described, for example. Specifically, a program module describing each process executed by the sound source number estimation apparatuses B and C described in the above embodiment is stored in the hard disk drive 1090.

また、音源数推定プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ1090に記憶される。そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。   Data used for information processing by the sound source number estimation program is stored as program data in, for example, the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the hard disk drive 1090 to the RAM 1012 as necessary, and executes the above-described procedures.

なお、音源数推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、分散データ処理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   Note that the program module 1093 and the program data 1094 related to the sound source number estimation program are not limited to being stored in the hard disk drive 1090. For example, the program module 1093 and the program data 1094 are stored in a removable storage medium and are stored in the removable storage medium by the CPU 1020 via the disk drive 1041 or the like. It may be read out. Alternatively, the program module 1093 and the program data 1094 related to the distributed data processing program are stored in another computer connected via a network such as a LAN (Local Area Network) or a WAN (Wide Area Network), and the network interface 1070 is stored. Via the CPU 1020.

A モデル推定装置
B、C 音源数推定装置
1 周波数領域変換部
2 特徴抽出部
3 モデル推定部
31 事後確率計算部
32 パラメータ更新部
321 混合重み更新手段
322 相関行列更新手段
323 平均方向更新手段
324 密度パラメータ更新手段
325 パーミュテーション解決手段
33 パラメータ保持部
4 音源数推定部
5 音源分離部
51 マスク作成部
52 分離音作成部
6 時間領域変換部
A Model estimation device B, C Sound source number estimation device 1 Frequency domain conversion unit 2 Feature extraction unit 3 Model estimation unit 31 A posteriori probability calculation unit 32 Parameter update unit 321 Mixed weight update unit 322 Correlation matrix update unit 323 Average direction update unit 324 Density Parameter updating means 325 Permutation solving means 33 Parameter holding section 4 Number of sound sources estimation section 5 Sound source separation section 51 Mask creation section 52 Separated sound creation section 6 Time domain conversion section

Claims (10)

kをクラスタのインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、
N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、
前記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、前記確率モデルのモデルパラメータを推定し、該モデルパラメータを用いて、前記観測信号ベクトルyτωが、前記N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算するモデル推定部と、
前記事後確率が有意な値をとるクラスタの個数を、音源数として推定する音源数推定部と、
を含み、
前記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
前記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
前記確率モデルのモデルパラメータは、前記混合重みと、各音源に関する前記特徴ベクトルxτωの分布のパラメータである
ことを特徴とする音源数推定装置。
k is the cluster index, τ is the time frame index, ω is the angular frequency,
A feature that extracts a feature vector x τω corresponding to an observation signal vector y τω composed of temporal frequency components of each observation signal from observation signals obtained by observing mixed signals obtained by mixing signals from N sound sources with M microphones. An extractor;
The feature vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins. And using the model parameter, a model estimation unit that calculates a posterior probability that is a conditional probability that the observed signal vector y τω belongs to each cluster set more than the N sound sources;
A number-of-sound-sources estimation unit that estimates the number of clusters in which the posterior probability takes a significant value as the number of sound sources;
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixture weight of the probabilistic model is a weight that depends on the time frame τ and does not depend on the angular frequency ω,
The model parameter of the stochastic model is a parameter of the distribution of the feature weight x τω related to each sound source and the mixture weight.
請求項1に記載の音源数推定装置であって、
前記音源数推定部は、各クラスタの事後確率の総和を算出し、該各クラスタの事後確率の総和を2つにクラスタリングし、総和の大きい方のクラスタに属するクラスタの数を音源数として推定することを特徴とする音源数推定装置。
The sound source number estimation apparatus according to claim 1,
The sound source number estimation unit calculates the sum of the posterior probabilities of each cluster, clusters the sum of the posterior probabilities of each cluster into two, and estimates the number of clusters belonging to the cluster with the larger sum as the number of sound sources An apparatus for estimating the number of sound sources.
請求項1に記載の音源数推定装置であって、
前記音源数推定部は、各クラスタの事後確率の総和を算出し、該各クラスタの事後確率の総和が所定の閾値以上であるかを判定し、前記所定の閾値以上である事後確率の総和に対応するクラスタの数を音源数として推定することを特徴とする音源数推定装置。
The sound source number estimation apparatus according to claim 1,
The sound source number estimation unit calculates the sum of the posterior probabilities for each cluster, determines whether the sum of the posterior probabilities for each cluster is equal to or greater than a predetermined threshold, and determines the sum of the posterior probabilities equal to or greater than the predetermined threshold. An apparatus for estimating the number of sound sources, wherein the number of corresponding clusters is estimated as the number of sound sources.
請求項1から3のいずれか1つに記載の音源数推定装置であって、
クラスタkに関する前記特徴ベクトルxτωの分布は、平均方向をaとし、密度パラメータをκとするワトソン分布であり、
クラスタkに関する前記特徴ベクトルxτωの分布のパラメータは、前記平均方向aと前記密度パラメータκであることを特徴とする音源数推定装置。
It is a sound source number estimation apparatus as described in any one of Claim 1 to 3,
The distribution of the feature vector x τω with respect to the cluster k is a Watson distribution in which the average direction is a and the density parameter is κ .
The number-of-sound-sources estimation device characterized in that the distribution parameter of the feature vector x τω related to the cluster k is the average direction a and the density parameter κ .
請求項1から4のいずれか1つに記載の音源数推定装置であって、
前記混合重みの事前分布は、クラスタkに依存しないハイパーパラメータφを各混合重みの指数とする前記混合重みについてのディリクレ分布であることを特徴とする音源数推定装置。
The sound source number estimation device according to any one of claims 1 to 4,
The sound source number estimation device according to claim 1, wherein the prior distribution of the mixture weights is a Dirichlet distribution for the mixture weights using a hyperparameter φ that does not depend on the cluster k as an index of each mixture weight.
請求項1から5のいずれか1つに記載の音源数推定装置であって、
前記モデル推定部は、クラスタkに関する前記特徴ベクトルxτωの分布とクラスタkの時間フレームτにおける混合重みとの積に基づいて、特徴ベクトルxτωが与えられたもとで、xτωに対応する前記観測信号ベクトルyτωがクラスタkに属する条件付き確率を計算する事後確率計算部と、
前記条件付き確率とクラスタkに依存しないハイパーパラメータφとに基づいて、前記混合重みを更新する混合重み更新手段と、
前記条件付き確率と前記特徴ベクトルxτωとに基づいて、クラスタkに対する相関行列Rを計算する相関行列更新手段と、
前記相関行列Rの正規化された主成分ベクトルを新たな値として前記平均方向aを更新する平均方向更新手段と、
前記相関行列Rの最大固有値に基づいて、前記密度パラメータκを更新する密度パラメータ更新手段と、
周波数ビンごとに、前記評価関数が最大になるように、前記平均方向aと前記密度パラメータκとをそれぞれ音源間で並べ替えるパーミュテーション解決手段と、
を含むことを特徴とする音源数推定装置。
It is a sound source number estimation apparatus as described in any one of Claim 1 to 5,
The observation the model estimator is based on the product of the mixture weights at time frame τ distribution and cluster k of the feature vector x Tauomega about the cluster k, by Moto which the feature vector x Tauomega given corresponding to x Tauomega A posterior probability calculator for calculating a conditional probability that the signal vector y τω belongs to the cluster k;
A mixing weight updating means for updating the mixing weight based on the conditional probability and the hyperparameter φ independent of the cluster k;
Correlation matrix updating means for calculating a correlation matrix R for cluster k based on the conditional probability and the feature vector x τω ;
Average direction updating means for updating the average direction a with the normalized principal component vector of the correlation matrix R as a new value;
Density parameter updating means for updating the density parameter κ based on the maximum eigenvalue of the correlation matrix R ;
Permutation solving means for reordering the average direction a and the density parameter κ between sound sources so that the evaluation function is maximized for each frequency bin;
A sound source number estimation device comprising:
請求項6に記載の音源数推定装置であって、
γkτωを前記条件付き確率とし、αを前記混合重みとし、d(τ,ω)を前記観測信号ベクトルyτωに寄与するクラスタ番号とし、Fを周波数ビンの数とし、・Hを・のエルミート転置とし、λを前記相関行列Rの最大固有値とし、
前記事後確率計算部は、次式により前記条件付き確率を計算し、
Figure 2016045225

前記混合重み更新手段は、次式により求めたα’を新たな値として前記混合重みを更新し、
Figure 2016045225

前記相関行列更新手段は、次式により求めたR’を新たな値として前記相関行列Rを更新し、
Figure 2016045225

前記密度パラメータ更新手段は、次式により求めたκ’を新たな値として前記密度パラメータκを更新する
Figure 2016045225

ことを特徴とする音源数推定装置。
It is a sound source number estimation apparatus of Claim 6, Comprising:
The gamma Keitauomega as the conditional probability, alpha Lkr and the mixture weight, d (τ, ω) and contributing cluster number in the observed signal vector y τω, the number of frequency bins F, of a · H · Hermitian transpose, λ is the maximum eigenvalue of the correlation matrix R ,
The posterior probability calculation unit calculates the conditional probability by the following equation:
Figure 2016045225

The mixing weight updating means updates the mixing weight with α ′ kτ obtained by the following formula as a new value,
Figure 2016045225

The correlation matrix updating means updates the correlation matrix R kW the R 'kW determined by the following equation as a new value,
Figure 2016045225

The density parameter updating means updates the density parameter kappa kW the kappa 'kW determined by the following equation as a new value
Figure 2016045225

An apparatus for estimating the number of sound sources.
請求項1から7のいずれか1つに記載の音源数推定装置であって、
nを音源の番号とし、^Nを前記音源数推定部により推定された音源数とし、
前記音源数推定部は、前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)を出力し、
前記事後確率が有意な値をとるクラスタの番号k(1)、k(2)、…、k(^N)と、前記各クラスタに属する条件付き確率である事後確率とを用いて、前記音源数推定部により推定された音源数に対応するマスクmnτωを求めるマスク作成部と、
前記観測信号ベクトルyτωから前記マスクmnτωを用いて時間周波数領域の分離音を計算する分離音作成部と、
を含むことを特徴とする音源数推定装置。
It is a sound source number estimation apparatus as described in any one of Claim 1 to 7,
n is the number of the sound source, ^ N is the number of sound sources estimated by the sound source number estimating unit,
The sound source number estimation unit outputs cluster numbers k (1), k (2),..., K (^ N) where the posterior probability takes a significant value,
Using the cluster numbers k (1), k (2),..., K (^ N) for which the posterior probabilities have significant values, and the posterior probabilities that are conditional probabilities belonging to the respective clusters, A mask creating unit for obtaining a mask m nτω corresponding to the number of sound sources estimated by the sound source number estimating unit;
A separated sound creating unit that calculates a separated sound in the time-frequency domain using the mask m nτω from the observed signal vector y τω ;
A sound source number estimation device comprising:
kをクラスタのインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、
N個の音源からの信号が混合された混合信号をM個のマイクロホンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出するステップと、
前記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、前記確率モデルのモデルパラメータを推定し、前記モデルパラメータを用いて、前記観測信号ベクトルyτωが、前記N個の音源よりも多く設定された各クラスタに属する条件付き確率である事後確率を計算するステップと、
前記事後確率が有意な値をとるクラスタの個数を、音源数として推定するステップと、
を含み、
前記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
前記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
前記確率モデルのモデルパラメータは、前記混合重みと、各音源に関する前記特徴ベクトルxτωの分布のパラメータである
ことを特徴とする音源数推定方法。
k is the cluster index, τ is the time frame index, ω is the angular frequency,
A step of extracting a feature vector x τω corresponding to an observation signal vector y τω composed of time frequency components of each observation signal from observation signals obtained by observing a mixed signal obtained by mixing signals from N sound sources with M microphones. When,
The feature vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins. And using the model parameters, calculating a posterior probability that is a conditional probability that the observed signal vector y τω belongs to each cluster set more than the N sound sources;
Estimating the number of clusters for which the posterior probability takes a significant value as the number of sound sources;
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixture weight of the probabilistic model is a weight that depends on the time frame τ and does not depend on the angular frequency ω,
The model parameter of the probability model is a parameter of the number of sound sources, characterized in that the mixture weight and a parameter of the distribution of the feature vector x τω for each sound source.
請求項1から8のいずれか1つに記載の音源数推定装置としてコンピュータを機能させるための音源数推定プログラム。   A sound source number estimation program for causing a computer to function as the sound source number estimation device according to claim 1.
JP2014167025A 2014-08-19 2014-08-19 Sound source number estimation device, sound source number estimation method, and sound source number estimation program Active JP6193823B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014167025A JP6193823B2 (en) 2014-08-19 2014-08-19 Sound source number estimation device, sound source number estimation method, and sound source number estimation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014167025A JP6193823B2 (en) 2014-08-19 2014-08-19 Sound source number estimation device, sound source number estimation method, and sound source number estimation program

Publications (2)

Publication Number Publication Date
JP2016045225A true JP2016045225A (en) 2016-04-04
JP6193823B2 JP6193823B2 (en) 2017-09-06

Family

ID=55635880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014167025A Active JP6193823B2 (en) 2014-08-19 2014-08-19 Sound source number estimation device, sound source number estimation method, and sound source number estimation program

Country Status (1)

Country Link
JP (1) JP6193823B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018032001A (en) * 2016-08-26 2018-03-01 日本電信電話株式会社 Signal processing device, signal processing method and signal processing program
CN110036441A (en) * 2016-12-16 2019-07-19 日本电信电话株式会社 Target sound emphasizes that device, Noise estimation emphasize method, Noise estimation parametric learning method, program with parameter learning device, target sound
CN117153186A (en) * 2022-08-05 2023-12-01 深圳Tcl新技术有限公司 Sound signal processing method, device, electronic equipment and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145836A (en) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> Direction information distribution estimating device, sound source number estimating device, sound source direction measuring device, sound source separating device, methods thereof, and programs thereof
JP2011164467A (en) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Model estimation device, sound source separation device, and method and program therefor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145836A (en) * 2008-12-19 2010-07-01 Nippon Telegr & Teleph Corp <Ntt> Direction information distribution estimating device, sound source number estimating device, sound source direction measuring device, sound source separating device, methods thereof, and programs thereof
JP2011164467A (en) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Model estimation device, sound source separation device, and method and program therefor

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
伊藤信貴 他: ""時変混合重みに基づくパーミュテーション問題のないクラスタリングベース音源分離"", 電子情報通信学会技術研究報告, vol. 113, no. 29, JPN6017029622, 9 May 2013 (2013-05-09), pages 7 - 12, ISSN: 0003615357 *
荒木章子 他: ""ディリクレ事前分布を用いた音声のスパース性に基づく音源数推定と音源分離"", 日本音響学会2009年 秋季研究発表会講演論文集CD-ROM, JPN6017029625, 8 September 2009 (2009-09-08), pages 647 - 650, ISSN: 0003615359 *
荒木章子 他: ""マイク間位相差とスペクトル包絡の同時クラスタリングに基づくスパース音源分離"", 日本音響学会2010年 春季研究発表会講演論文集CD-ROM, JPN6017029624, 1 March 2010 (2010-03-01), pages 799 - 802, ISSN: 0003615358 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018032001A (en) * 2016-08-26 2018-03-01 日本電信電話株式会社 Signal processing device, signal processing method and signal processing program
CN110036441A (en) * 2016-12-16 2019-07-19 日本电信电话株式会社 Target sound emphasizes that device, Noise estimation emphasize method, Noise estimation parametric learning method, program with parameter learning device, target sound
CN110036441B (en) * 2016-12-16 2023-02-17 日本电信电话株式会社 Target sound emphasis device and method, noise estimation parameter learning device and method, and recording medium
CN117153186A (en) * 2022-08-05 2023-12-01 深圳Tcl新技术有限公司 Sound signal processing method, device, electronic equipment and storage medium
WO2024027246A1 (en) * 2022-08-05 2024-02-08 深圳Tcl新技术有限公司 Sound signal processing method and apparatus, and electronic device and storage medium

Also Published As

Publication number Publication date
JP6193823B2 (en) 2017-09-06

Similar Documents

Publication Publication Date Title
CN107564513B (en) Voice recognition method and device
US10643633B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
CN110797021B (en) Hybrid speech recognition network training method, hybrid speech recognition device and storage medium
JP6976804B2 (en) Sound source separation method and sound source separation device
CN108701468B (en) Mask estimation device, mask estimation method, and recording medium
JPWO2019198306A1 (en) Estimator, learning device, estimation method, learning method and program
JP6517760B2 (en) Mask estimation parameter estimation device, mask estimation parameter estimation method and mask estimation parameter estimation program
CN104737229A (en) Method for transforming input signal
JP6193823B2 (en) Sound source number estimation device, sound source number estimation method, and sound source number estimation program
Xie et al. Deep Neural Network Based Acoustic-to-Articulatory Inversion Using Phone Sequence Information.
JP6059072B2 (en) Model estimation device, sound source separation device, model estimation method, sound source separation method, and program
JP6538624B2 (en) Signal processing apparatus, signal processing method and signal processing program
JP6441769B2 (en) Clustering apparatus, clustering method, and clustering program
JP6711765B2 (en) Forming apparatus, forming method, and forming program
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
JP2013167698A (en) Apparatus and method for estimating spectral shape feature quantity of signal for every sound source, and apparatus, method and program for estimating spectral feature quantity of target signal
JP6910609B2 (en) Signal analyzers, methods, and programs
Krempl et al. Online clustering of high-dimensional trajectories under concept drift
WO2019194300A1 (en) Signal analysis device, signal analysis method, and signal analysis program
JP6915579B2 (en) Signal analyzer, signal analysis method and signal analysis program
CN111160487A (en) Method and device for expanding face image data set
JP6616472B2 (en) Clustering apparatus, clustering method, and clustering program
Kawaguchi et al. Logspline independent component analysis
JP6114209B2 (en) Model processing apparatus, model processing method, and program
JP6082679B2 (en) Signal source number estimation device, signal source number estimation method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170810

R150 Certificate of patent or registration of utility model

Ref document number: 6193823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150