JP2014215385A - Model estimation system, sound source separation system, model estimation method, sound source separation method, and program - Google Patents
Model estimation system, sound source separation system, model estimation method, sound source separation method, and program Download PDFInfo
- Publication number
- JP2014215385A JP2014215385A JP2013091223A JP2013091223A JP2014215385A JP 2014215385 A JP2014215385 A JP 2014215385A JP 2013091223 A JP2013091223 A JP 2013091223A JP 2013091223 A JP2013091223 A JP 2013091223A JP 2014215385 A JP2014215385 A JP 2014215385A
- Authority
- JP
- Japan
- Prior art keywords
- model
- sound source
- feature vector
- probability
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 57
- 238000000926 separation method Methods 0.000 title claims description 51
- 239000013598 vector Substances 0.000 claims abstract description 87
- 238000009826 distribution Methods 0.000 claims abstract description 48
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000001360 synchronised effect Effects 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 28
- 239000000203 mixture Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012805 post-processing Methods 0.000 abstract description 6
- 238000005259 measurement Methods 0.000 abstract 2
- 238000012545 processing Methods 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 238000012733 comparative method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Circuit For Audible Band Transducer (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
Abstract
Description
この発明は、複数の音が混合した混合信号をもとに、混合前の原音(音源信号)を復元する音源分離技術に関し、特に、音響系に関する事前情報を用いずに音源分離を行うブラインド音源分離技術のうちクラスタリングに基づく音源分離を行う技術に関する。 The present invention relates to a sound source separation technique for restoring an original sound (sound source signal) before mixing based on a mixed signal in which a plurality of sounds are mixed, and in particular, a blind sound source that performs sound source separation without using prior information about an acoustic system. The present invention relates to a technique for performing sound source separation based on clustering among separation techniques.
まず、ブラインド音源分離技術全体における、クラスタリングに基づくブラインド音源分離技術の位置づけを説明する。ブラインド音源分離技術には、単一のマイクロフォンを用いる方法と複数のマイクロフォンを備えるマイクロフォンアレイを用いる方法とがある。後者の方法は、音源分離の手がかりとして音源位置の違いを利用できるため、一般に前者の方法よりも高い音源分離性能を達成することができる。複数のマイクロフォンを用いた音源分離技術としては、独立成分分析による方法とクラスタリングに基づく方法とが一般的である。後者の方法は、音源の数がマイクロフォンの数よりも多い場合にも適用できるという利点がある。 First, the position of the blind sound source separation technique based on clustering in the entire blind sound source separation technique will be described. As the blind sound source separation technology, there are a method using a single microphone and a method using a microphone array including a plurality of microphones. Since the latter method can use the difference in the sound source position as a clue for sound source separation, it is generally possible to achieve higher sound source separation performance than the former method. As a sound source separation technique using a plurality of microphones, a method based on independent component analysis and a method based on clustering are generally used. The latter method has an advantage that it can be applied even when the number of sound sources is larger than the number of microphones.
クラスタリングに基づく音源分離技術は、混合信号の各時間周波数成分に寄与する音源信号は高々一つであるという仮定(W-Disjoint Orthogonality: WDO)に基づく(非特許文献1参照)。この仮定は、例えば音声の場合のように、各音源信号が、
・ごく少数の時間周波数成分のみが大きく、
・その他の時間周波数成分はすべて0に近い
というスパース性を満たす場合に、特に精度よく成立することが知られている。
The sound source separation technique based on clustering is based on the assumption that at most one sound source signal contributes to each time frequency component of the mixed signal (W-Disjoint Orthogonality: WDO) (see Non-Patent Document 1). The assumption is that each sound source signal is
-Only a small number of time frequency components are large,
It is known that the other time frequency components are established particularly accurately when the sparsity that all are close to 0 is satisfied.
ここで、記法を定義する。m番目のマイクロフォンで観測された混合信号の時間周波数変換をymτωで表す。ここで、τはフレーム番号を表し、ωは角周波数を表す。また、各マイクロフォンで観測された混合信号の時間周波数変換を並べたベクトルを式(1)で表す。
ここで、Mはマイクロフォンの個数であり、・T(上付き文字のT)はベクトル・の転置を表す。また、仮にk番目の音源のみが存在するとしたときに、1番目のマイクロフォンにおいて観測される信号の時間周波数変換をskτωで表す。また、skτωからyτωへの伝達関数をhkωで表す。skτωを1番目のマイクロフォンにおいて定義したため、hkωの第1成分は1に等しいことに注意する。 Here, M is the number of microphones, and • T (superscript T) represents the transpose of the vector. Further, if only the k-th sound source exists, the time-frequency conversion of the signal observed in the first microphone is represented by s kτω . The transfer function from s kτω to y τω is represented by h kω . Note that the first component of h kω is equal to 1 because s kτω is defined in the first microphone.
上述の記法を用いて、混合信号のモデルを記述する。まず、WDOを仮定せず、yτωにすべての音源信号が寄与する一般の場合を考えると、混合信号のモデルは式(2)で与えられる。
ここで、Kは音源数(既知と仮定する)である。
A mixed signal model is described using the above notation. First, considering the general case where all sound source signals contribute to y τω without assuming WDO, the model of the mixed signal is given by Equation (2).
Here, K is the number of sound sources (assumed to be known).
一方、WDOを仮定する場合、yτωに寄与する音源信号の番号をd(τ,ω)で表すと、
であるから、式(2)は式(4)のように単純になる。
WDOの仮定のもとでは、各音源skτωを推定する音源分離の問題は、d(τ,ω)を推定する問題と等価である。以下でその理由を説明する。まず、式(4)の第一要素を抜き出すと式(5)を得る。
式(5)と式(3)とにより、各音源信号は次のように表せる。
ただし、mkτωは時間周波数マスクと呼ばれ、式(8)で定義される。
以上より、d(τ,ω)を推定できれば、これを用いて式(8)によりマスクmkτωを計算でき、このマスクmkτωを式(7)のように混合信号y1τωに乗算することによりskτωを計算することができる。 From the above, if d (τ, ω) can be estimated, the mask m kτω can be calculated using Equation (8) using this, and this mask m kτω is multiplied by the mixed signal y 1τω as shown in Equation (7). s kτω can be calculated.
d(τ,ω)の推定は、通常、各時間周波数成分に対して、音源の方向や位置などの特徴量を抽出して、この特徴量に基づいて時間周波数成分を各音源に対応するクラスにクラスタリングすることにより行われる。このクラスタリングの精度は、クラスタリングに基づく音源分離の性能に大きく影響する。 The estimation of d (τ, ω) usually involves extracting feature quantities such as the direction and position of the sound source for each time frequency component, and classifying the time frequency component to each sound source based on this feature quantity. This is done by clustering. The accuracy of this clustering greatly affects the performance of sound source separation based on clustering.
クラスタリングの従来技術として非特許文献2に記載されている方法が挙げられる。この方法では、混合信号の各時間周波数成分に対して、yτωをノルムが1になるように正規化した、式(9)で定義される特徴量を計算し、この特徴量に基づいて周波数ビンごとに時間周波数成分をクラスタリングする。
ここで、||・||はベクトルのユークリッドノルムを表す。
As a conventional clustering technique, a method described in Non-Patent
Here, || · || represents the Euclidean norm of the vector.
この方法では、ある周波数ビンにおけるi番目のクラスと別の周波数ビンにおけるi番目のクラスとが、必ずしも同じ音源に対応するとは限らないというパーミュテーション問題が生じる。したがって、この方法では、周波数ビンごとのクラスタリングを行った後で、すべての周波数ビンにおけるi番目のクラスが同じ音源に対応するように各周波数ビンにおけるクラス番号を付け替えるパーミュテーション解決を行うというように、二段階の処理が必要であった。 This method has a permutation problem that the i-th class in a certain frequency bin and the i-th class in another frequency bin do not necessarily correspond to the same sound source. Therefore, in this method, after performing clustering for each frequency bin, permutation resolution is performed in which the class number in each frequency bin is changed so that the i-th class in all frequency bins corresponds to the same sound source. In addition, two steps of treatment were necessary.
非特許文献2に記載されたようなクラスタリングに基づく音源分離の従来技術においては、周波数ビンごとのクラスタリングを行った後で、パーミュテーション解決を行うという、二段階の処理が必要であった。
In the conventional technique of sound source separation based on clustering as described in Non-Patent
この発明の目的は、パーミュテーション問題を生じず、二段階の処理を必要としない音源分離手法を提供することである。 An object of the present invention is to provide a sound source separation method that does not cause a permutation problem and does not require a two-stage process.
上記の課題を解決するために、この発明の一態様によるモデル推定装置は、kを音源のインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、確率モデルのモデルパラメータを推定するモデル推定部と、を含む。確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、確率モデルのモデルパラメータは、混合重みと、各音源に関する特徴ベクトルxτωの分布のパラメータである。 In order to solve the above-described problem, a model estimation apparatus according to an aspect of the present invention uses k as a sound source index, τ as a time frame index, ω as an angular frequency, and signals from K sound sources mixed. A feature extraction unit for extracting a feature vector x τω corresponding to an observation signal vector y τω composed of time-frequency components of each observation signal from observation signals obtained by observing the mixed signal with M microphones, and a feature vector x τω A model estimation unit that applies a predetermined probability model and estimates a model parameter of the probability model using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins; Including. The probabilistic model is a mixed model represented by a weighted sum of the distribution of feature vectors x τω for each sound source, and the mixed weight of the probabilistic model is a weight that depends on the time frame τ and does not depend on the angular frequency ω, The model parameters of the probability model are parameters of the distribution of the mixture weight and the feature vector x τω for each sound source.
この発明の一態様による音源分離装置は、kを音源のインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、確率モデルのモデルパラメータを推定するモデル推定部と、モデルパラメータを用いて音源kに対応するマスクmkτωを求めるマスク作成部と、観測信号ベクトルyτωからマスクmkτωを用いて時間周波数領域の分離音を計算する分離音作成部と、を含む。確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、確率モデルのモデルパラメータは、混合重みと、各音源に関する特徴ベクトルxτωの分布のパラメータである。
A sound source separation device according to one aspect of the present invention is configured to use M microphones as a mixed signal in which k is an index of a sound source, τ is an index of a time frame, ω is an angular frequency, and signals from K sound sources are mixed. A feature extraction unit that extracts a feature vector x τω corresponding to an observation signal vector y τω composed of time-frequency components of each observation signal from the observation signal observed in
この発明によれば、パーミュテーション問題を生じず、二段階の処理を必要としない音源分離技術を実現することができる。これにより、例えば、音源位置などが時間的に変化する時変の環境での音声強調のためのオンライン音源分離を容易に実現することが可能となる。 According to the present invention, it is possible to realize a sound source separation technique that does not cause a permutation problem and does not require a two-stage process. Thereby, for example, it is possible to easily realize online sound source separation for speech enhancement in a time-varying environment in which the sound source position changes with time.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.
[発明のポイント]
詳細は後述するが、この発明の音源分離技術のポイントは以下の3点である。
1.一般に音源信号は、「音源信号の時間周波数変換の振幅値の時系列{|skτω|}τが、周波数ビン間で類似する」という共通振幅変調の性質をもつ(例えば、非特許文献「G. J. Brown, “Computational Auditory Scene Analysis: A Representational Approach”, Ph.D. thesis, University of Sheffield, 1992.」を参照)。この発明では、この共通振幅変調の性質を、パーミュテーション問題を回避するための手掛かりとして利用できることに着目した。各音源信号に対する、周波数ビン間での振幅変調の共通性を、時変・周波数非依存の混合重みとしてモデル化することにより、パーミュテーションを引き起こさずに、クラスタリングできる。この時変・周波数非依存の混合重みは、従来用いられてきた時不変の混合重みとは一線を画す画期的なアイディアである。
2.混合重みの事前分布としてディリクレ分布を導入する。このディリクレ分布のハイパーパラメータを調整することにより、時変・周波数非依存の混合重みが極端に変動しすぎないように制御し、音源分離性能の低下を防ぐことができる。
3.パラメータ更新の反復ごとに、目的関数が最大となるように平均方向と密度パラメータを音源間で置換する。これにより、混合重みを時変・周波数非依存にすることによって生じる目的関数の局所解への収束を回避し、適切にモデルパラメータを推定することができる。
[Points of Invention]
Although details will be described later, the points of the sound source separation technique of the present invention are the following three points.
1. In general, a sound source signal has a common amplitude modulation property that “a time series {| s kτω |} τ of time values of time-frequency conversion of a sound source signal is similar between frequency bins” (for example, non-patent document “GJ Brown, “Computational Auditory Scene Analysis: A Representational Approach”, Ph.D. thesis, University of Sheffield, 1992.). In the present invention, attention is paid to the fact that the property of the common amplitude modulation can be used as a clue to avoid the permutation problem. Clustering can be performed without causing permutation by modeling the commonality of amplitude modulation between frequency bins for each sound source signal as a time-varying / frequency-independent mixture weight. This time-varying / frequency-independent mixing weight is an epoch-making idea that is different from the time-invariant mixing weight that has been conventionally used.
2. A Dirichlet distribution is introduced as a prior distribution of mixture weights. By adjusting the hyperparameter of the Dirichlet distribution, it is possible to control the time-varying / frequency-independent mixture weight not to fluctuate excessively, and to prevent the sound source separation performance from being deteriorated.
3. At each parameter update iteration, the average direction and density parameters are replaced between sound sources so that the objective function is maximized. Thereby, the convergence of the objective function to the local solution caused by making the mixture weight time-dependent and frequency-independent can be avoided, and the model parameters can be estimated appropriately.
[第一実施形態]
この発明の第一実施形態は、複数の音源からの信号を複数個のマイクロフォンで観測し、モデルパラメータを推定するモデル推定装置である。
[First embodiment]
The first embodiment of the present invention is a model estimation apparatus that observes signals from a plurality of sound sources with a plurality of microphones and estimates model parameters.
図1を参照して、第一実施形態のモデル推定装置Aの機能構成例を説明する。モデル推定装置Aは、周波数領域変換部1、特徴抽出部2及びモデル推定部3を含む。モデル推定部3は、事後確率計算部31、パラメータ更新部32及びパラメータ保持部33を含む。パラメータ更新部32は、混合重み更新手段321、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325を含む。
With reference to FIG. 1, the example of a function structure of the model estimation apparatus A of 1st embodiment is demonstrated. The model estimation apparatus A includes a frequency
図2を参照して、モデル推定装置Aの動作例を手続きの順に従って説明する。 With reference to FIG. 2, the operation example of the model estimation apparatus A will be described in the order of procedures.
周波数領域変換部1へM個のマイクロフォンにより観測された時間領域の混合信号~ytが入力される。時間領域の混合信号~ytは式(10)で定義される。
ここで、tは時間インデックスを表し、・T(上付き文字のT)はベクトル・の転置を表し、~ymtはm(1≦m≦M)番目のマイクロフォンで観測された時間領域の混合信号を表す。 Where t is the time index, • T (superscript T) is the transpose of the vector, and ~ y mt is the time domain mixture observed by the mth (1 ≦ m ≦ M) microphone Represents a signal.
周波数領域変換部1は入力された時間領域の混合信号~ytから短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルyτωを生成し出力する(ステップS1)。時間周波数領域の観測信号ベクトルyτωは式(11)で定義される。
ここで、τは時間フレームのインデックスを表し、ωは角周波数を表し、ymτωは混合信号~ymtの時間周波数領域での表現である。 Here, tau represents the time frame index, the ω represents an angular frequency, y Emutauomega is expressed in the time frequency domain mixed signals ~ y mt.
特徴抽出部2は、周波数領域変換部1の出力する時間周波数領域の観測信号ベクトルyτωを入力とし、特徴ベクトルxτωを計算し出力する(ステップS2)。特徴ベクトルxτωの計算は、時間周波数領域の観測信号ベクトルyτωを正規化することにより行ってもよいし、時間周波数領域の観測信号ベクトルyτωを白色化した後に正規化することによって行ってもよいし、時間周波数領域の観測信号ベクトルyτωを正規化した後に白色化して再度正規化することにより行ってもよい。例えば、時間周波数領域の観測信号ベクトルyτωを正規化することにより特徴ベクトルxτωを計算する場合は式(12)により計算すればよい。
また、例えば、時間周波数領域の観測信号ベクトルyτωを白色化した後に正規化する場合には、以下のように特徴ベクトルxτωを計算すればよい。まず、時間周波数領域の観測信号ベクトルyτωを用いて、式(13)により時間周波数領域の観測信号ベクトルyτωの標本相関行列Rω yを計算する。
ここで、Tはフレームの個数であり、・H(上付き文字のH)はエルミート(Hermite)転置である。 Here, T is the number of frames, and • H (superscript H) is Hermite transpose.
次に、標本相関行列Rω yの固有値と固有ベクトルを計算する。計算した標本相関行列Rω yの固有値を、大きい順に並べたものをσω1,σω2,…,σωMと表す。したがって、式(14)の関係が成り立つ。
ここで、標本相関行列Rω yはエルミート行列であるから、固有値σω1,σω2,…,σωMはすべて実数であることに注意する。また、固有値σω1,σω2,…,σωMに対応し、正規直交系をなす標本相関行列Rω yの固有ベクトルをuω1,uω2,…,uωMで表す。ここで、標本相関行列Rω yはエルミート行列であるから、このような固有ベクトルが存在することに注意する。 Here, since the sample correlation matrix R ω y is a Hermitian matrix, the eigenvalues σ ω1, σ ω2, ..., σ ωM is to note that all is a real number. Further, the eigenvectors of the sample correlation matrix R ω y forming the orthonormal system corresponding to the eigenvalues σ ω1 , σ ω2 ,..., Σ ωM are represented by u ω1 , u ω2 ,. Here, since the sample correlation matrix R ω y is a Hermitian matrix, it should be noted that such an eigenvector exists.
次に、行列Σωを式(15)により求め、行列Uωを式(16)により求める。
次に、行列Uω及び行列Σωを用いて、時間周波数領域の観測信号ベクトルyτωを白色化したベクトルy’τωを式(17)により計算する。
最後に、次式のようにベクトルy’τωをそのノルムで正規化することにより、特徴ベクトルxτωを計算する。
モデル推定部3は、特徴ベクトルxτωを特徴ベクトルの分布を表す確率モデルに当てはめ、確率モデルを評価する所定の評価関数を用いて、信号抽出に適した確率モデルのモデルパラメータを計算する。
The
特徴ベクトルの分布を表す確率モデルは、例えば、以下のようにモデル化されたものである。音源の位置が固定の場合、各周波数ビンにおいて、特徴ベクトルxτωは理想的にはそれぞれの音源kごとに固有の値をとる。ただし、実際には、雑音・残響の影響、モデル化誤差などに起因する変動が存在するため、特徴ベクトルxτωは音源kごとにある値を中心に分布する。そのため、この発明では、音源kに関する特徴ベクトルxτωの分布を、例えば、以下のようにワトソン(Watson)分布でモデル化する。 The probability model representing the distribution of feature vectors is modeled as follows, for example. When the position of the sound source is fixed, the feature vector x τω ideally takes a unique value for each sound source k in each frequency bin. However, in practice, there are fluctuations due to the effects of noise and reverberation, modeling errors, and the like, so the feature vector x τω is distributed around a certain value for each sound source k. Therefore, in the present invention, the distribution of the feature vector x τω related to the sound source k is modeled by, for example, the Watson distribution as follows.
ここで、akωは音源kに関する特徴ベクトルの分布の中心を表し、平均方向(mean orientation)と呼ばれ、κkωは音源kに関する特徴ベクトルの分布の広がりの小ささを表し、密度パラメータ(concentration parameter)と呼ばれる。M(a,b,x)はクンマー(Kummer)関数である。クンマー関数についての詳細は「S. Sra and D. Karp, “The multivariate Watson distribution: maximum-likelihood estimation and other aspects”, arXiv: 1104.4422v2, 2012.(参考文献1)」を参照されたい。ここで、特徴ベクトルの分布が周波数ビンごとに定義されることに注意する。 Here, a kω represents the center of the distribution of the feature vector related to the sound source k and is called a mean orientation, and κ kω represents the small spread of the distribution of the feature vector related to the sound source k, and the density parameter (concentration parameter). M (a, b, x) is a Kummer function. For details on the Kummer function, see “S. Sra and D. Karp,“ The multivariate Watson distribution: maximum-likelihood estimation and other aspects ”, arXiv: 1104.4422v2, 2012. (Reference 1)”. Note that the distribution of feature vectors is defined for each frequency bin.
一般に音源信号は、「音源信号の時間周波数変換の振幅値の時系列{|skτω|}τが、周波数ビン間で類似する」という共通振幅変調の性質をもつ(例えば、「G. J. Brown, “Computational Auditory Scene Analysis: A Representational Approach”, Ph.D. thesis, University of Sheffield, 1992.」を参照)。この発明では、この共通振幅変調の性質を、パーミュテーション問題を回避するための手掛かりとして利用できることに着目した。上述のWDO性の仮定にもとづき、この共通振幅変調の性質を、クラスタリングの枠組みにおいて利用しやすい表現で言い換えると、「観測信号に寄与する音源インデックスの時系列{d(τ,ω)}τは、周波数ビン間で類似する」と言える。この発明では、この周波数ビン間での{d(τ,ω)}τの類似性を、「d(τ,ω)の事前分布P(d(τ,ω)=k)が、フレームτに依存(時変)し、周波数ビン(角周波数ω)にはよらない(周波数非依存)」とモデル化する。このような各音源信号に対する、周波数ビン間での振幅変調の共通性を利用することにより、パーミュテーションを引き起こさずに、クラスタリングできる。これが上述で示したこの発明の3つのポイントのうちの第1のポイントである。この事前確率をαkτにより表す。なお、αkτはΣk=1 Kαkτ=1を満たす。 In general, a sound source signal has a common amplitude modulation property that “a time series of amplitude values of time-frequency conversion of a sound source signal {| s kτω |} τ is similar between frequency bins” (for example, “GJ Brown,“ Computational Auditory Scene Analysis: A Representational Approach ”, Ph.D. thesis, University of Sheffield, 1992.). In the present invention, attention is paid to the fact that the property of the common amplitude modulation can be used as a clue to avoid the permutation problem. Based on the assumption of the WDO property described above, this common amplitude modulation property can be rephrased as an easy-to-use expression in the framework of clustering: “Time series of sound source indices contributing to the observed signal {d (τ, ω)} τ is Are similar between frequency bins ”. In the present invention, the similarity of {d (τ, ω)} τ between the frequency bins is expressed as “the prior distribution P (d (τ, ω) = k) of d (τ, ω) in the frame τ. It depends (time-varying) and does not depend on the frequency bin (angular frequency ω) (frequency-independent) ”. By using the commonality of amplitude modulation between frequency bins for each sound source signal, clustering can be performed without causing permutation. This is the first of the three points of the present invention described above. This prior probability is represented by α kτ . Α kτ satisfies Σ k = 1 K α kτ = 1.
この事前確率は、1個の時間フレームごとに変化すると仮定してもよいし、複数の時間フレームからなるブロックごとに変化すると仮定してもよい。事前確率が1個の時間フレームごとに変化すると仮定する場合、任意の音源kと任意の時間フレームτに対して、αkτは独立変数であり、推定すべきパラメータである。 This prior probability may be assumed to change every one time frame, or may be assumed to change every block consisting of a plurality of time frames. Assuming that the prior probability changes every one time frame, for an arbitrary sound source k and an arbitrary time frame τ, α kτ is an independent variable and is a parameter to be estimated.
一方、事前確率が数個の時間フレームからなるブロックごとに変化すると仮定する場合、Bをブロックの総数とし、ブロック番号をb=1,2,…,Bとし、Jを各ブロック内における時間フレームの総数とし、各ブロック内における時間フレームの番号をj=1,2,…,Jとすると、τ=(b−1)×J+jと表せ、αk,(b−1)×J+j(j=1,2,…,J)は等しくなるから、推定すべきパラメータである混合重みは~αkb=αk,(b−1)×J+1により定義される~αkbである。以下では、特に断りのない限り、事前確率が1個の時間フレームごとに変化すると仮定する場合について説明する。 On the other hand, if it is assumed that the prior probability changes for each block consisting of several time frames, B is the total number of blocks, block numbers are b = 1, 2,..., B, and J is a time frame within each block. If the time frame number in each block is j = 1, 2,..., J, it can be expressed as τ = (b−1) × J + j, α k, (b−1) × J + j (j = 1,2, ..., J) from the equal, mixture weights are parameters to be estimated is ~ α kb = α k, with ~ alpha kb defined by (b-1) × J + 1 is there. In the following, a case will be described where it is assumed that the prior probability changes every one time frame unless otherwise specified.
以上より、特徴ベクトルxτωの尤度関数は、式(20)で表す混合モデルで与えられる。
ここで、Θは、式(21)に示すパラメータ集合である。
ここで、{αkτ}kτは式(22)により定義される。
他の同様の記法もこれにならって定義される。以降では、αkτを混合重みと呼ぶ。混合重みαkτが急激に変動して音源分離性能が低下することを防ぐため、混合重みαkτの事前分布として式(23)に示すディリクレ(Dirichlet)分布を用いる。これがこの発明の第2のポイントである。
ここで、Γはガンマ関数であり、φはハイパーパラメータと呼ばれる。φの値を十分大きく定めることにより、混合重みαkτの変動を抑えることができる。φの値を微調整する必要はないが、例えば、φ=1,10,100,1000などの値を用いることができる。 Here, Γ is a gamma function, and φ is called a hyperparameter. By setting the value of φ sufficiently large, fluctuations in the mixing weight α kτ can be suppressed. Although it is not necessary to finely adjust the value of φ, for example, values such as φ = 1, 10, 100, 1000 can be used.
混合重みαkτ以外のパラメータについては一様な事前分布を仮定する。したがって、p(Θ)=Πτp({αkτ}k)である。 A uniform prior distribution is assumed for parameters other than the mixing weight α kτ . Therefore, it is p (Θ) = Π τ p ({α kτ} k).
モデル推定部3では、特徴ベクトルxτωを以上のようにモデル化された確率モデルに当てはめ、確率モデルを評価する所定の評価関数を用いて、事後確率及び信号抽出に適したパラメータ集合Θを求める。
In the
以下、モデル推定部3の各部の処理を詳細に説明する。モデル推定部3は、図1に示すとおり、事後確率計算部31、パラメータ更新部32及びパラメータ保持部33を含む。モデル推定部3での処理に先立ち、パラメータ集合Θの初期値をパラメータ保持部33に用意しておく(ステップS0)。この初期値は、例えば、αkτ=1/K、κkω=20とし、akωは{xτω}τωから無作為に選ぶことにより設定することができる。
Hereinafter, the process of each part of the
事後確率計算部31は、パラメータ保持部33に記憶されたパラメータ集合Θから事後確率γkτω、すなわち特徴ベクトルxτωが与えられたもとでd(τ,ω)=kとなる条件付き確率を式(24)により計算する(ステップS31)。
パラメータ更新部32は、図1に示すとおり、混合重み更新手段321、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325を含み、現在のパラメータ集合Θを更新して新たなパラメータ集合Θ’を生成する(ステップS32)。
As shown in FIG. 1, the
混合重み更新手段321は、事後確率γkτωを用いて、式(25)を計算することにより、混合重みαkτを新しい値α’kτに更新する。
Mixing
ここで、Fは周波数ビンの個数を表す。φ=1のとき、α’kτは全周波数ビンにわたる事後確率γkτωの平均値となることがわかる。φの増加とともに、α’kτは定数1/Kに近づく。 Here, F represents the number of frequency bins. When φ = 1, α 'kτ it can be seen that the average value of the posterior probability gamma Keitauomega over all frequency bins. As φ increases, α ′ kτ approaches the constant 1 / K.
相関行列更新手段322は、特徴ベクトルxτωと事後確率γkτωを用いて、式(26)を計算することにより、各音源kに対する相関行列Rkωを新しい値R’kωに更新する。
平均方向更新手段323は、相関行列Rkωの正規化された主成分ベクトルとして、平均方向akωを新しい値a’kωに更新する。
The average
密度パラメータ更新手段324は、相関行列Rkωの最大固有値λkωを用いて、密度パラメータкkωを式(27)により新しい値к’kωに更新する。
パーミュテーション解決手段325は、式(28)〜(30)に示すように、各周波数ビンにおいて、平均方向a’kωと密度パラメータк’kωを、事後確率p(Θ’|{xτω}τω)が最大になるように音源間で置換する(ステップS325)。これがこの発明の第3のポイントである。 The permutation solving means 325 uses the average direction a ′ kω and the density parameter к ′ kω as the posterior probabilities p (Θ ′ | {x τω } for each frequency bin, as shown in equations (28) to (30). Replacement between sound sources is performed so that τω ) is maximized (step S325). This is the third point of the present invention.
ここで、Π:{1,2,…,K}→{1,2,…,K}である。
Here, Π: {1,2, ..., K} → {1,2, ..., K}.
なお、以上では、混合重みが1個の時間フレームごとに変化する場合の処理について説明したが、混合重みが複数の時間フレームからなるブロックごとに変化する場合は、混合重み更新手段321における混合重みαkτの更新式(25)において、分子の事後確率γkτωの時間フレームτに含まれるF個の時間周波数成分についての和を事後確率γkτωの時間フレームτを含むブロックbに含まれるF×J個の時間周波数成分の和に置き換え、分母のFをF×Jで置き換えればよい。一方、相関行列更新手段322、平均方向更新手段323、密度パラメータ更新手段324及びパーミュテーション解決手段325においては、混合重みが1個の時間フレームごとに変化する場合の処理と同一の処理を行えばよい。
In the above, the processing when the mixing weight changes for each time frame has been described. However, when the mixing weight changes for each block composed of a plurality of time frames, the mixing weight in the mixing
以下、パラメータ更新部32における各更新式の導出根拠を説明する。パラメータ更新はEM(Expectation-Maximization)アルゴリズムを導入して、それに基づき行う。なお、{d(τ,ω)}τωは、EMアルゴリズムにおける隠れ変数として扱う。
Hereinafter, the basis for deriving each update formula in the
まず、MAP(Maximum a posteriori)推定のためのコスト関数L(Θ)は、式(31)〜(33)により与えられる。
ここで、{xτω}τωは互いに独立であると仮定し、Θに依存しない定数項を無視した。この目的関数を式(34)に示す制約条件のもとで最大化する。
目的関数L(Θ)は、パーミュテーション問題がない場合に大きい値を取るため、L(Θ)の最大化によりパーミュテーション問題が回避できる。実際、式(33)の第一項から分かるように、目的関数L(Θ)が大きくなるのは、混合重みαkτが大きい値をとるk、τに対し、音源kに対する尤度(もっともらしさ)p(xτω|d(τ,ω)=k,akω,κkω)が大きい場合である。したがって、L(Θ)の最大化により、音源kに対する尤度の時系列{p(xτω|d(τ,ω)=k,akω,κkω)}τが周波数ビン間で同期する。このことと、上述の「観測信号に寄与する音源インデックスの時系列{d(τ,ω)}τは、周波数ビン間で類似する」という性質を考え合わせると、L(Θ)はパーミュテーション問題がない場合に大きい値を取ることがわかる。EMアルゴリズムで用いる評価関数(Q関数)は式(35)(36)により与えられる。 Since the objective function L (Θ) takes a large value when there is no permutation problem, the permutation problem can be avoided by maximizing L (Θ). In fact, as can be seen from the first term of Equation (33), the objective function L (Θ) increases because of the likelihood (probability) of the sound source k with respect to k and τ where the mixing weight α kτ takes a large value. ) When p ( xτω | d (τ, ω) = k, a kω , κ kω ) is large. Therefore, by maximizing L (Θ), the time series of likelihood {p (x τω | d (τ, ω) = k, a kω , κ kω )} τ for the sound source k is synchronized between frequency bins. Considering this and the above-mentioned property that “the time series of the sound source index contributing to the observation signal {d (τ, ω)} τ is similar between frequency bins”, L (Θ) is permutation. It can be seen that it takes a large value when there is no problem. The evaluation function (Q function) used in the EM algorithm is given by equations (35) and (36).
更新後のパラメータ集合Θ'は次式により定義され、
Q関数を式(34)の制約のもとで最大にするものとして導かれる。すなわち、混合重みαkτの新たな値α'kτを求める式(25)は、ラグランジュ(Lagrange)の未定乗数法によって、式(37)(38)により導出される。
平均方向の算出方法は、クーラン・フィッシャー(Courant-Fischer)の定理を式(39)に適用することにより導出される。
また、密度パラメータの更新式(27)については、まず∂Q/∂κkω=0より式(40)を得る。
ここで、
パラメータ保持部33は、パラメータ更新部32での更新処理により得られたパラメータ集合Θ’を記憶する(ステップS33)。また、事後確率計算部31での次回の処理の際には、記憶したパラメータ集合Θ’をパラメータ集合Θとして提供する。
The
ステップS31からステップS33までの処理は、事前に設定した最大反復回数max_iterに達するまで、またはパラメータ更新部32における各パラメータの更新による変動幅が収束判定の閾値Δよりも小さくなるまで、反復して行う(ステップS91)。最大反復回数max_iter及び閾値Δの具体的な値は、例えば、max_iter=100、Δ=10-10とすることができる。
The processing from step S31 to step S33 is repeated until the preset maximum number of iterations max_iter is reached or until the fluctuation range due to updating of each parameter in the
ステップS91において、モデル推定部3における処理が最大反復回数max_iterに達した場合、または各パラメータの更新による変動幅が閾値Δよりも小さくなった場合、モデル推定部3は反復終了後の事後確率γo kτωを出力する。
In step S91, when the process in the
[第二実施形態]
この発明の第二実施形態は、第一実施形態のモデル推定装置Aを用いて音源分離装置として構成した実施形態である。
[Second Embodiment]
The second embodiment of the present invention is an embodiment configured as a sound source separation device using the model estimation device A of the first embodiment.
図3を参照して、第二実施形態の音源分離装置Bの機能構成例を説明する。音源分離装置Bは、第一実施形態のモデル推定装置Aの各部に加えて、音源分離部4及び時間領域変換部5を含む。音源分離部4は、マスク作成部41及び分離音作成部42を含む。
With reference to FIG. 3, the functional structural example of the sound source separation apparatus B of 2nd embodiment is demonstrated. The sound source separation device B includes a sound source separation unit 4 and a time domain conversion unit 5 in addition to each part of the model estimation device A of the first embodiment. The sound source separation unit 4 includes a
図4を参照して、音源分離装置Bの動作例を手続きの順に従って説明する。ステップS0からステップS91までの処理は第一実施形態のモデル推定装置Aの動作例と同様であるので詳細な説明は省略する。 With reference to FIG. 4, the operation example of the sound source separation apparatus B will be described in the order of procedures. Since the processing from step S0 to step S91 is the same as the operation example of the model estimation apparatus A of the first embodiment, detailed description thereof is omitted.
音源分離部4は、周波数領域変換部1の出力する混合音の時間周波数変換yτωと、事後確率計算部31の出力する反復終了後の事後確率γo kτωとを用いて、分離音の時間周波数変換^skτωを推定する。
The sound source separation unit 4 uses the time-frequency conversion y τω of the mixed sound output from the frequency
マスク作成部41は、反復終了後の事後確率γo kτωを用いて、混合音に含まれる各音源を抽出するマスクmkτωを作成する(ステップS41)。まず、マスク作成部41は、反復終了後の事後確率γo kτωを用いて、式(42)によりd(τ,ω)の推定値^d(τ,ω)を計算する。
次に、マスク作成部41は、マスクmkτωを式(43)により計算する。
なお、マスク作成部41は、マスクmkτωを式(44)により求めてもよい。
分離音作成部42は、式(45)により、マスクmkτωを混合音の時間周波数変換y1τωに乗算し、分離音の時間周波数変換^skτωを計算する。
時間領域変換部5は、音源kごとに、時間周波数領域の分離信号^skτωを時間領域の分離信号~^sktに変換して出力する(ステップS5)。 For each sound source k, the time domain conversion unit 5 converts the time frequency domain separation signal ^ s kτω into a time domain separation signal ~ ^ s kt and outputs the converted signal (step S5).
[実験結果]
この発明の効果を確認するために二通りの実験を行った。
<実験1>
1番目の実験は、以下の二点を実証するための実験である。
・本発明の方法により、パーミュテーション解決の後処理を行わなくても、音源分離が可能であること。
・混合重みのディリクレ事前分布が、音源分離性能の低下を防ぐ効果を持つこと。
[Experimental result]
Two experiments were conducted to confirm the effect of the present invention.
<
The first experiment is an experiment for demonstrating the following two points.
The sound source can be separated by the method of the present invention without performing post-processing for post-processing.
-The Dirichlet prior distribution of mixing weights has the effect of preventing deterioration of sound source separation performance.
そのために、以下に示す3つの異なるクラスタリング方法に基づく音源分離手法により特徴ベクトルxτωを音源分離し、その性能を比較した。
1.本発明の方法1(ディリクレ事前分布あり):時変・周波数非依存の混合重みを持つ混合ワトソンモデルによるクラスタリング方法に基づく音源分離手法である。混合重みの事前分布はディリクレ分布であると仮定し、ディリクレ分布のハイパーパラメータをφ=10,102,103として構成した。
2.本発明の方法2(ディリクレ事前分布なし):本発明の方法1において、ディリクレ分布のハイパーパラメータをφ=1として、ディリクレ事前分布の効果をなくすように構成した。
3.比較手法:時不変・周波数非依存の混合重み0.5を持つ混合ワトソンモデルによる、周波数ビンごとのクラスタリングの後、非特許文献2に記載されているパーミュテーション解決技術を適用するように構成した。混合重みの事前分布は一様であると仮定した。
For that purpose, the feature vector xτω was subjected to sound source separation by the sound source separation method based on the following three different clustering methods, and the performance was compared.
1.
2.
3. Comparison method: After per-frequency bin clustering using a mixed Watson model having a time-invariant and frequency-independent mixture weight of 0.5, the permutation solution technique described in
特徴ベクトルxτωとしては、観測信号ベクトルyτωを正規化したのち、白色化し、再び正規化したものを用いた。 As the feature vector x τω , the observed signal vector y τω was normalized, whitened, and then normalized again.
図5を参照して実験環境を説明する。直方体の空間の中央付近に正三角形を描くように3つのマイクロフォンが配置され、それらのマイクロフォンを取り囲む円を描くように4つの音源が配置される。4つの音源は図5の紙面下方向を0°として反時計回りに70°、150°、245°、315°の位置に配置されている。3つのマイクロフォンの描く正三角形の中心から4つの音源までの距離は1.2メートルとした。3つのマイクロフォンと4つの音源は水平に設置され、その床面からの高さは1.2メートルとした。実験では、図5中に太字で描いた紙面右側の2つの音源(70°及び150°の位置)と、紙面左側の2つのマイクロフォン(m=1,2)を用いた。 The experimental environment will be described with reference to FIG. Three microphones are arranged in the vicinity of the center of the rectangular parallelepiped space so as to draw an equilateral triangle, and four sound sources are arranged so as to draw a circle surrounding the microphones. The four sound sources are arranged at positions of 70 °, 150 °, 245 °, and 315 ° counterclockwise with the downward direction in FIG. 5 as 0 °. The distance from the center of the equilateral triangle drawn by the three microphones to the four sound sources was 1.2 meters. Three microphones and four sound sources were installed horizontally, and the height from the floor was 1.2 meters. In the experiment, two sound sources on the right side of the paper (70 ° and 150 ° positions) drawn in bold in FIG. 5 and two microphones (m = 1, 2) on the left side of the paper were used.
表1にその他の条件を含めた実験条件をまとめる。
音源分離性能の評価尺度としては、SDR(signal-to-distortion ratio)を、2つの音源と8通りの話者組み合わせとに関して平均したものを用いた。以下では、このSDRの平均値を単にSDRと呼ぶ。SDRが大きいほど音源分離性能が高いことを意味する。SDRについての詳細は、「E. Vincent, H. Sawada, P. Bofill, S. Makino, and J. Rosca, “First stereo audio source separation evaluation campaign: data, algorithms and results”, in Proceedings of ICA, pp. 552-559, 2007.(参考文献2)」を参照されたい。 As an evaluation scale of the sound source separation performance, an average of SDR (signal-to-distortion ratio) with respect to two sound sources and eight kinds of speaker combinations was used. Hereinafter, this average value of SDR is simply referred to as SDR. Larger SDR means higher sound source separation performance. For more information on SDR, see “E. Vincent, H. Sawada, P. Bofill, S. Makino, and J. Rosca,“ First stereo audio source separation evaluation campaign: data, algorithms and results ”, in Proceedings of ICA, pp. 552-559, 2007. (Reference 2).
表2に、異なる残響時間(RT60)それぞれに対する各手法のSDRを示す。
本発明の各方法及び比較手法の実験結果により同等のSDRが得られたことがわかる。特に、本発明の方法1においてφ=103とすると、残響時間が130,200,250,300,370ミリ秒である場合には、比較手法と同じか0.1〜0.4dB大きいSDRが得られた。残響時間が440ミリ秒である場合には比較手法のSDRの方が高かったが、その差はわずか0.1dBであった。この結果から、本発明の方法により、パーミュテーション解決の後処理を行わなくても良好に音源分離ができていることがわかる。
It can be seen that the equivalent SDR was obtained from the experimental results of the methods and comparative methods of the present invention. In particular, when phi = 10 3 in
また、本発明の方法1と本発明の方法2とを比較すると、前者の方が高いSDRを与えた。特に、本発明の方法1において、φ=103とすると、本発明の方法2と比べて、0.8〜1.3dB大きいSDRが得られており、比較手法と同等以上のSDRが得られた。このことから、混合重みのディリクレ事前分布が、音源分離性能の低下を防ぐ効果を持つことがわかる。
Further, when comparing the
<実験2>
2番目の実験は、パラメータ更新部におけるパーミュテーション解決手段の有効性を検証するための実験である。これを検証するために、次の二つの方法によるパラメータ推定を比較した。
1.本発明の方法1:実験1で用いた本発明の方法1において、ディリクレ分布のハイパーパラメータをφ=103として構成した。
2.本発明の方法3:本発明の方法1において、パーミュテーション解決手段325における処理を行わない。
<
The second experiment is an experiment for verifying the effectiveness of the permutation solving means in the parameter updating unit. In order to verify this, the parameter estimation by the following two methods was compared.
1.
2.
平均方向の初期値としては、1〜2kHzの範囲において、真の値を音源間で交換することで得られる、パーミュテーションが生じている初期値を用いた。ここで、真の値は、仮にそれぞれの音源を別個に観測できるとして、それを用いて計算した。他の実験条件は、実験1におけるものと同一である。
As an initial value in the average direction, an initial value in which permutation occurs is obtained by exchanging a true value between sound sources in a range of 1 to 2 kHz. Here, the true value was calculated using each sound source as if it could be observed separately. Other experimental conditions are the same as those in
本発明の各方法と比較手法とによる平均方向の推定値を比較するために、次式に示す平均方向のマイクロフォン間位相差をプロットした。 In order to compare the estimated values in the average direction according to the methods of the present invention and the comparison method, the phase difference between the microphones in the average direction represented by the following equation was plotted.
ここで、[・]mは、ベクトルの第m要素を表す。
Here, [•] m represents the m-th element of the vector.
実験2の実験結果を図6〜9に示す。実験結果は、位相差δkω(縦軸、単位は度(°))を周波数ω/(2π)(横軸、単位はキロヘルツ(kHz))の関数としてプロットした。各クラスタkに対するプロットを異なるマーカで示しており、クラスタk=1は「+」でプロットし、クラスタk=2は「×」でプロットした。
The experimental results of
図6は、本発明の方法3の反復終了後の値である。図7は、本発明の方法1の反復終了後の値である。図8は、初期値である。図9は、真の値である。
FIG. 6 shows values after the completion of the
図6に示す本発明の方法3の反復終了後のマイクロフォン間位相差は、図8に示す初期値の場合と非常に近い値をとることがわかる。EMアルゴリズムは、局所解への収束性が保証されたアルゴリズムであることから、上述の結果は、パーミュテーションの生じている初期値が目的関数の局所解となっていることを示している。
It can be seen that the phase difference between the microphones after the iteration of the
一方、図7に示す本発明の方法1の反復終了後のマイクロフォン間位相差は、図9に示す真の値の場合と非常に近い値をとることがわかる。
On the other hand, it can be seen that the phase difference between the microphones after the iteration of the
この結果より、本発明のパーミュテーション解決手段はパーミュテーション問題を回避するのに有効であり、本発明の方法においてパーミュテーション解決手段を用いないとパーミュテーション問題の生じている局所解に陥ってしまうことがわかる。 From this result, the permutation solving means of the present invention is effective in avoiding the permutation problem. If the permutation solving means is not used in the method of the present invention, the local solution in which the permutation problem occurs is obtained. It turns out that it falls into.
以上に説明したとおり、実験1の結果から、この発明によりパーミュテーション解決の後処理を行わなくても音源分離が可能であること、及び、混合重みのディリクレ事前分布が音源分離性能の低下を防ぐ効果を持つことが確認された。また、実験2の結果から、パラメータ更新部におけるパーミュテーション解決手段の有効性が確認された。
As described above, from the result of
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[Program, recording medium]
The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above-described embodiments are not only executed in time series according to the order described, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes.
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。 When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
A モデル推定装置
B 音源分離装置
1 周波数領域変換部
2 特徴抽出部
3 モデル推定部
31 事後確率計算部
32 パラメータ更新部
321 混合重み更新手段
322 相関行列更新手段
323 平均方向更新手段
324 密度パラメータ更新手段
325 パーミュテーション解決手段
33 パラメータ保持部
4 音源分離部
41 マスク作成部
42 分離音作成部
5 時間領域変換部
A Model estimation device B Sound
Claims (10)
K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、
上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定部と、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する上記特徴ベクトルxτωの分布のパラメータである
モデル推定装置。 k is a sound source index, τ is a time frame index, ω is an angular frequency,
Feature that extracts feature vector x τω corresponding to observed signal vector y τω consisting of time-frequency components of each observed signal from observed signals obtained by observing mixed signal mixed with signals from K sound sources with M microphones An extractor;
The feature vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins. A model estimation unit to
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixing weight of the probability model is a weight that depends on the time frame τ and does not depend on the angular frequency ω.
The model estimation device, wherein the model parameter of the probability model is a parameter of the distribution of the mixture weight and the feature vector x τω regarding each sound source.
音源kに関する上記特徴ベクトルxτωの分布は、平均方向をakωとし、密度パラメータをκkωとするワトソン分布であり、
音源kに関する上記特徴ベクトルxτωの分布のパラメータは、上記平均方向akωと上記密度パラメータκkωである
モデル推定装置。 The model estimation apparatus according to claim 1,
The distribution of the feature vector x τω related to the sound source k is a Watson distribution in which the average direction is a kω and the density parameter is κ kω .
The model estimation device, wherein the distribution vector of the feature vector x τω related to the sound source k is the average direction a kω and the density parameter κ kω .
上記混合重みの事前分布は、音源kに依存しないハイパーパラメータφを各混合重みの指数とする上記混合重みについてのディリクレ分布である
モデル推定装置。 The model estimation apparatus according to claim 1 or 2,
The model estimation device, wherein the prior distribution of the mixture weight is a Dirichlet distribution for the mixture weight with a hyperparameter φ that does not depend on the sound source k as an index of each mixture weight.
上記モデル推定部は、音源kに関する上記特徴ベクトルxτωの分布と音源kの時間フレームτにおける混合重みとの積に基づいて、特徴ベクトルxτωが与えられたもとで、xτωに対応する上記観測信号ベクトルyτωが音源kに対応するクラスタに属する条件付き確率を計算する事後確率計算部と、
上記条件付き確率と上記ハイパーパラメータφとに基づいて、上記混合重みを更新する混合重み更新手段と、
上記条件付き確率と上記特徴ベクトルxτωとに基づいて、音源kに対する相関行列Rkωを計算する相関行列更新手段と、
上記相関行列Rkωの正規化された主成分ベクトルを新たな値として上記平均方向akωを更新する平均方向更新手段と、
上記相関行列Rkωの最大固有値に基づいて、上記密度パラメータκkωを更新する密度パラメータ更新手段と、
周波数ビンごとに、上記評価関数が最大になるように、上記平均方向akωと上記密度パラメータκkωとをそれぞれ音源間で並べ替えるパーミュテーション解決手段と、
を含むモデル推定装置。 The model estimation device according to any one of claims 1 to 3,
The model estimator is based on the product of the mixture weights at time frame τ distribution and the sound source k of the feature vector x Tauomega about source k, by Moto which the feature vector x Tauomega given the observed corresponding to x Tauomega A posterior probability calculator for calculating a conditional probability that the signal vector y τω belongs to the cluster corresponding to the sound source k;
Based on the conditional probability and the hyperparameter φ, a mixing weight updating means for updating the mixing weight;
Correlation matrix updating means for calculating a correlation matrix R kω for the sound source k based on the conditional probability and the feature vector x τω ;
Average direction updating means for updating the average direction a kω with the normalized principal component vector of the correlation matrix R kω as a new value;
Density parameter updating means for updating the density parameter κ kω based on the maximum eigenvalue of the correlation matrix R kω ;
Permutation solving means for rearranging the average direction a kω and the density parameter κ kω between sound sources so that the evaluation function is maximized for each frequency bin;
Model estimation apparatus including
γkτωを上記条件付き確率とし、αkτを上記混合重みとし、d(τ,ω)を上記観測信号ベクトルyτωに寄与する音源番号とし、Fを周波数ビンの数とし、・Hを・のエルミート転置とし、λkωを上記相関行列Rkωの最大固有値とし、
上記事後確率計算部は、次式により上記条件付き確率を計算し、
上記混合重み更新手段は、次式により求めたα’kτを新たな値として上記混合重みを更新し、
上記相関行列更新手段は、次式により求めたR’kωを新たな値として上記相関行列Rkωを更新し、
上記密度パラメータ更新手段は、次式により求めたκ’kωを新たな値として上記密度パラメータκkωを更新する
モデル推定装置。 The model estimation apparatus according to claim 4, wherein
The gamma Keitauomega a probability with the above conditions, alpha Lkr and the mixture weight and, d (τ, ω) was contribute sound source number to the observed signal vector y τω, the number of frequency bins F, of a · H · Hermitian transpose, λ kω is the maximum eigenvalue of the correlation matrix R kω ,
The posterior probability calculation unit calculates the conditional probability by the following formula,
The mixing weight updating means updates the mixing weight with α ′ kτ obtained by the following equation as a new value,
The correlation matrix updating means updates the correlation matrix R kW the R 'kW determined by the following equation as a new value,
The density parameter update means updates the density parameter kappa kW the kappa 'kW determined by the following equation as a new value
Model estimation device.
K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、
上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定部と、
上記モデルパラメータを用いて音源kに対応するマスクmkτωを求めるマスク作成部と、
上記観測信号ベクトルyτωから上記マスクmkτωを用いて時間周波数領域の分離音を計算する分離音作成部と、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する上記特徴ベクトルxτωの分布のパラメータである
音源分離装置。 k is a sound source index, τ is a time frame index, ω is an angular frequency,
Feature that extracts feature vector x τω corresponding to observed signal vector y τω consisting of time-frequency components of each observed signal from observed signals obtained by observing mixed signal mixed with signals from K sound sources with M microphones An extractor;
The feature vector x τω is applied to a predetermined probability model, and the model parameters of the probability model are estimated using an evaluation function that gives a higher evaluation value as the time series of likelihood of each sound source is synchronized between frequency bins. A model estimation unit to
A mask creation unit for obtaining a mask m kτω corresponding to the sound source k using the model parameters;
A separated sound generator for calculating a separated sound in the time-frequency domain using the mask m kτω from the observed signal vector y τω ,
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixing weight of the probability model is a weight that depends on the time frame τ and does not depend on the angular frequency ω.
The model parameter of the probabilistic model is a parameter of the distribution of the mixture weight and the distribution of the feature vector x τω for each sound source.
特徴抽出部が、K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出ステップと、
モデル推定部が、上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定ステップと、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する上記特徴ベクトルxτωの分布のパラメータである
モデル推定方法。 k is a sound source index, τ is a time frame index, ω is an angular frequency,
A feature vector corresponding to an observed signal vector y τω consisting of time-frequency components of each observed signal from an observed signal obtained by observing mixed signals obtained by mixing signals from K sound sources with M microphones. a feature extraction step for extracting τω ;
The model estimation unit applies the feature vector x τω to a predetermined probability model, and uses the evaluation function that gives a higher evaluation value as the time series of the likelihood of each sound source is synchronized between frequency bins. A model estimation step for estimating model parameters of
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixing weight of the probability model is a weight that depends on the time frame τ and does not depend on the angular frequency ω.
The model estimation method, wherein the model parameter of the probability model is a parameter of the distribution of the mixture weight and the feature vector xτω for each sound source.
特徴抽出部が、K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出ステップと、
モデル推定部が、上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定ステップと、
マスク作成部が、上記モデルパラメータを用いて音源kに対応するマスクmkτωを求めるマスク作成ステップと、
分離音作成部が、上記観測信号ベクトルyτωから上記マスクmkτωを用いて時間周波数領域の分離音を計算する分離音作成ステップと、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する特徴ベクトルxτωの分布のパラメータである
音源分離方法。 k is a sound source index, τ is a time frame index, ω is an angular frequency,
A feature vector corresponding to an observed signal vector y τω consisting of time-frequency components of each observed signal from an observed signal obtained by observing mixed signals obtained by mixing signals from K sound sources with M microphones. a feature extraction step for extracting τω ;
The model estimation unit applies the feature vector x τω to a predetermined probability model, and uses the evaluation function that gives a higher evaluation value as the time series of the likelihood of each sound source is synchronized between frequency bins. A model estimation step for estimating model parameters of
A mask creating step for obtaining a mask m kτω corresponding to the sound source k using the model parameter;
A separated sound creating unit calculates a separated sound in the time frequency domain using the mask m kτω from the observed signal vector y τω ,
Including
The probability model is a mixed model represented by a weighted sum of distributions of feature vectors x τω for each sound source,
The mixing weight of the probability model is a weight that depends on the time frame τ and does not depend on the angular frequency ω.
The model parameter of the probabilistic model is a sound source separation method in which the mixture weight and a distribution parameter of the feature vector x τω for each sound source are parameters.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013091223A JP6059072B2 (en) | 2013-04-24 | 2013-04-24 | Model estimation device, sound source separation device, model estimation method, sound source separation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013091223A JP6059072B2 (en) | 2013-04-24 | 2013-04-24 | Model estimation device, sound source separation device, model estimation method, sound source separation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014215385A true JP2014215385A (en) | 2014-11-17 |
JP6059072B2 JP6059072B2 (en) | 2017-01-11 |
Family
ID=51941207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013091223A Active JP6059072B2 (en) | 2013-04-24 | 2013-04-24 | Model estimation device, sound source separation device, model estimation method, sound source separation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6059072B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018508823A (en) * | 2015-02-16 | 2018-03-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Audio source isolation |
CN108701468A (en) * | 2016-02-16 | 2018-10-23 | 日本电信电话株式会社 | Mask estimation device, mask estimation method and mask estimation program |
JP2019049414A (en) * | 2017-09-07 | 2019-03-28 | 本田技研工業株式会社 | Sound processing device, sound processing method and program |
CN115575896A (en) * | 2022-12-01 | 2023-01-06 | 杭州兆华电子股份有限公司 | Feature enhancement method for non-point sound source image |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060058983A1 (en) * | 2003-09-02 | 2006-03-16 | Nippon Telegraph And Telephone Corporation | Signal separation method, signal separation device, signal separation program and recording medium |
JP2009053349A (en) * | 2007-08-24 | 2009-03-12 | Nippon Telegr & Teleph Corp <Ntt> | Signal separation device, signal separation method, program, and recording medium |
JP4406428B2 (en) * | 2005-02-08 | 2010-01-27 | 日本電信電話株式会社 | Signal separation device, signal separation method, signal separation program, and recording medium |
JP2011164467A (en) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Model estimation device, sound source separation device, and method and program therefor |
-
2013
- 2013-04-24 JP JP2013091223A patent/JP6059072B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060058983A1 (en) * | 2003-09-02 | 2006-03-16 | Nippon Telegraph And Telephone Corporation | Signal separation method, signal separation device, signal separation program and recording medium |
JP4406428B2 (en) * | 2005-02-08 | 2010-01-27 | 日本電信電話株式会社 | Signal separation device, signal separation method, signal separation program, and recording medium |
JP2009053349A (en) * | 2007-08-24 | 2009-03-12 | Nippon Telegr & Teleph Corp <Ntt> | Signal separation device, signal separation method, program, and recording medium |
JP2011164467A (en) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Model estimation device, sound source separation device, and method and program therefor |
Non-Patent Citations (4)
Title |
---|
JPN6016024597; ソウデン メレズ 木下 慶介 中谷 智広: 'ノード内・ノード間情報の統合に基づく分散マイクアレイ音源分離' 日本音響学会 2013年 春季研究発表会講演論文集 , 20130315, pp.797-798 * |
JPN6016024597; ソウデン メレズ 木下 慶介 中谷 智広: 'ノード内・ノード間情報の統合に基づく分散マイクアレイ音源分離' 日本音響学会 2013年 春季研究発表会講演論文集CD-ROM , 20130315, pp.797-798 * |
JPN6016024599; 荒木章子 中谷智広 澤田宏: 'マイク間位相差とスペクトル包絡の同時クラスタリングに基づくスパース音源分離' 日本音響学会 2010年 春季研究発表会講演論文集 , 20100310, pp.799-802 * |
JPN6016024599; 荒木章子 中谷智広 澤田宏: 'マイク間位相差とスペクトル包絡の同時クラスタリングに基づくスパース音源分離' 日本音響学会 2010年 春季研究発表会講演論文集CD-ROM , 20100310, pp.799-802 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018508823A (en) * | 2015-02-16 | 2018-03-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Audio source isolation |
CN108701468A (en) * | 2016-02-16 | 2018-10-23 | 日本电信电话株式会社 | Mask estimation device, mask estimation method and mask estimation program |
CN108701468B (en) * | 2016-02-16 | 2023-06-02 | 日本电信电话株式会社 | Mask estimation device, mask estimation method, and recording medium |
JP2019049414A (en) * | 2017-09-07 | 2019-03-28 | 本田技研工業株式会社 | Sound processing device, sound processing method and program |
CN115575896A (en) * | 2022-12-01 | 2023-01-06 | 杭州兆华电子股份有限公司 | Feature enhancement method for non-point sound source image |
CN115575896B (en) * | 2022-12-01 | 2023-03-10 | 杭州兆华电子股份有限公司 | Feature enhancement method for non-point sound source image |
Also Published As
Publication number | Publication date |
---|---|
JP6059072B2 (en) | 2017-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107564513B (en) | Voice recognition method and device | |
US20210327456A1 (en) | Anomaly detection apparatus, probability distribution learning apparatus, autoencoder learning apparatus, data transformation apparatus, and program | |
JP6059072B2 (en) | Model estimation device, sound source separation device, model estimation method, sound source separation method, and program | |
CN108701468B (en) | Mask estimation device, mask estimation method, and recording medium | |
Sadhu et al. | Continual Learning in Automatic Speech Recognition. | |
WO2018010683A1 (en) | Identity vector generating method, computer apparatus and computer readable storage medium | |
US20140114650A1 (en) | Method for Transforming Non-Stationary Signals Using a Dynamic Model | |
JP4964259B2 (en) | Parameter estimation device, sound source separation device, direction estimation device, method and program thereof | |
Walter et al. | Source counting in speech mixtures by nonparametric Bayesian estimation of an infinite Gaussian mixture model | |
JP6441769B2 (en) | Clustering apparatus, clustering method, and clustering program | |
JP6538624B2 (en) | Signal processing apparatus, signal processing method and signal processing program | |
JP5791081B2 (en) | Sound source separation localization apparatus, method, and program | |
Leglaive et al. | Student's t source and mixing models for multichannel audio source separation | |
JP6193823B2 (en) | Sound source number estimation device, sound source number estimation method, and sound source number estimation program | |
JP5406866B2 (en) | Sound source separation apparatus, method and program thereof | |
JP5726790B2 (en) | Sound source separation device, sound source separation method, and program | |
JP2013167698A (en) | Apparatus and method for estimating spectral shape feature quantity of signal for every sound source, and apparatus, method and program for estimating spectral feature quantity of target signal | |
JP5807914B2 (en) | Acoustic signal analyzing apparatus, method, and program | |
Sharma et al. | Novel approach to design matched digital filter with Abelian group and fuzzy particle swarm optimization vector quantization | |
Singh | Support vector machine based approaches for real time automatic speaker recognition system | |
Gu et al. | Speech Separation Using Independent Vector Analysis with an Amplitude Variable Gaussian Mixture Model. | |
JP6910609B2 (en) | Signal analyzers, methods, and programs | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP6114053B2 (en) | Sound source separation device, sound source separation method, and program | |
JP6915579B2 (en) | Signal analyzer, signal analysis method and signal analysis program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6059072 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |