JP6059072B2 - モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム - Google Patents
モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム Download PDFInfo
- Publication number
- JP6059072B2 JP6059072B2 JP2013091223A JP2013091223A JP6059072B2 JP 6059072 B2 JP6059072 B2 JP 6059072B2 JP 2013091223 A JP2013091223 A JP 2013091223A JP 2013091223 A JP2013091223 A JP 2013091223A JP 6059072 B2 JP6059072 B2 JP 6059072B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- sound source
- probability
- feature vector
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
・ごく少数の時間周波数成分のみが大きく、
・その他の時間周波数成分はすべて0に近い
というスパース性を満たす場合に、特に精度よく成立することが知られている。
ここで、Kは音源数(既知と仮定する)である。
ここで、||・||はベクトルのユークリッドノルムを表す。
詳細は後述するが、この発明の音源分離技術のポイントは以下の3点である。
1.一般に音源信号は、「音源信号の時間周波数変換の振幅値の時系列{|skτω|}τが、周波数ビン間で類似する」という共通振幅変調の性質をもつ(例えば、非特許文献「G. J. Brown, “Computational Auditory Scene Analysis: A Representational Approach”, Ph.D. thesis, University of Sheffield, 1992.」を参照)。この発明では、この共通振幅変調の性質を、パーミュテーション問題を回避するための手掛かりとして利用できることに着目した。各音源信号に対する、周波数ビン間での振幅変調の共通性を、時変・周波数非依存の混合重みとしてモデル化することにより、パーミュテーションを引き起こさずに、クラスタリングできる。この時変・周波数非依存の混合重みは、従来用いられてきた時不変の混合重みとは一線を画す画期的なアイディアである。
2.混合重みの事前分布としてディリクレ分布を導入する。このディリクレ分布のハイパーパラメータを調整することにより、時変・周波数非依存の混合重みが極端に変動しすぎないように制御し、音源分離性能の低下を防ぐことができる。
3.パラメータ更新の反復ごとに、目的関数が最大となるように平均方向と密度パラメータを音源間で置換する。これにより、混合重みを時変・周波数非依存にすることによって生じる目的関数の局所解への収束を回避し、適切にモデルパラメータを推定することができる。
この発明の第一実施形態は、複数の音源からの信号を複数個のマイクロフォンで観測し、モデルパラメータを推定するモデル推定装置である。
この発明の第二実施形態は、第一実施形態のモデル推定装置Aを用いて音源分離装置として構成した実施形態である。
この発明の効果を確認するために二通りの実験を行った。
<実験1>
1番目の実験は、以下の二点を実証するための実験である。
・本発明の方法により、パーミュテーション解決の後処理を行わなくても、音源分離が可能であること。
・混合重みのディリクレ事前分布が、音源分離性能の低下を防ぐ効果を持つこと。
1.本発明の方法1(ディリクレ事前分布あり):時変・周波数非依存の混合重みを持つ混合ワトソンモデルによるクラスタリング方法に基づく音源分離手法である。混合重みの事前分布はディリクレ分布であると仮定し、ディリクレ分布のハイパーパラメータをφ=10,102,103として構成した。
2.本発明の方法2(ディリクレ事前分布なし):本発明の方法1において、ディリクレ分布のハイパーパラメータをφ=1として、ディリクレ事前分布の効果をなくすように構成した。
3.比較手法:時不変・周波数非依存の混合重み0.5を持つ混合ワトソンモデルによる、周波数ビンごとのクラスタリングの後、非特許文献2に記載されているパーミュテーション解決技術を適用するように構成した。混合重みの事前分布は一様であると仮定した。
2番目の実験は、パラメータ更新部におけるパーミュテーション解決手段の有効性を検証するための実験である。これを検証するために、次の二つの方法によるパラメータ推定を比較した。
1.本発明の方法1:実験1で用いた本発明の方法1において、ディリクレ分布のハイパーパラメータをφ=103として構成した。
2.本発明の方法3:本発明の方法1において、パーミュテーション解決手段325における処理を行わない。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
B 音源分離装置
1 周波数領域変換部
2 特徴抽出部
3 モデル推定部
31 事後確率計算部
32 パラメータ更新部
321 混合重み更新手段
322 相関行列更新手段
323 平均方向更新手段
324 密度パラメータ更新手段
325 パーミュテーション解決手段
33 パラメータ保持部
4 音源分離部
41 マスク作成部
42 分離音作成部
5 時間領域変換部
Claims (11)
- kを音源のインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、
K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、
上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定部と、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する上記特徴ベクトルxτωの分布のパラメータである
モデル推定装置。 - 請求項1に記載のモデル推定装置であって、
音源kに関する上記特徴ベクトルxτωの分布は、平均方向をakωとし、密度パラメータをκkωとするワトソン分布であり、
音源kに関する上記特徴ベクトルxτωの分布のパラメータは、上記平均方向akωと上記密度パラメータκkωである
モデル推定装置。 - 請求項1に記載のモデル推定装置であって、
上記混合重みの事前分布は、音源kに依存しないハイパーパラメータφを各混合重みの指数とする上記混合重みについてのディリクレ分布である
モデル推定装置。 - 請求項2に記載のモデル推定装置であって、
上記混合重みの事前分布は、音源kに依存しないハイパーパラメータφを各混合重みの指数とする上記混合重みについてのディリクレ分布である
モデル推定装置。 - 請求項4に記載のモデル推定装置であって、
上記モデル推定部は、音源kに関する上記特徴ベクトルxτωの分布と音源kの時間フレームτにおける混合重みとの積に基づいて、特徴ベクトルxτωが与えられたもとで、xτωに対応する上記観測信号ベクトルyτωが音源kに対応するクラスタに属する条件付き確率を計算する事後確率計算部と、
上記条件付き確率と上記ハイパーパラメータφとに基づいて、上記混合重みを更新する混合重み更新手段と、
上記条件付き確率と上記特徴ベクトルxτωとに基づいて、音源kに対する相関行列Rkωを計算する相関行列更新手段と、
上記相関行列Rkωの正規化された主成分ベクトルを新たな値として上記平均方向akωを更新する平均方向更新手段と、
上記相関行列Rkωの最大固有値に基づいて、上記密度パラメータκkωを更新する密度パラメータ更新手段と、
周波数ビンごとに、上記評価関数が最大になるように、上記平均方向akωと上記密度パラメータκkωとをそれぞれ音源間で並べ替えるパーミュテーション解決手段と、
を含むモデル推定装置。 - 請求項5に記載のモデル推定装置であって、
γkτωを上記条件付き確率とし、αkτを上記混合重みとし、d(τ,ω)を上記観測信号ベクトルyτωに寄与する音源番号とし、Fを周波数ビンの数とし、・Hを・のエルミート転置とし、λkωを上記相関行列Rkωの最大固有値とし、
上記事後確率計算部は、次式により上記条件付き確率を計算し、
上記混合重み更新手段は、次式により求めたα’kτを新たな値として上記混合重みを更新し、
上記相関行列更新手段は、次式により求めたR’kωを新たな値として上記相関行列Rkωを更新し、
上記密度パラメータ更新手段は、次式により求めたκ’kωを新たな値として上記密度パラメータκkωを更新する
モデル推定装置。 - kを音源のインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、
K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出部と、
上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定部と、
上記モデルパラメータを用いて音源kに対応するマスクmkτωを求めるマスク作成部と、
上記観測信号ベクトルyτωから上記マスクmkτωを用いて時間周波数領域の分離音を計算する分離音作成部と、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する上記特徴ベクトルxτωの分布のパラメータである
音源分離装置。 - kを音源のインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、
特徴抽出部が、K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出ステップと、
モデル推定部が、上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定ステップと、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する上記特徴ベクトルxτωの分布のパラメータである
モデル推定方法。 - kを音源のインデックスとし、τを時間フレームのインデックスとし、ωを角周波数とし、
特徴抽出部が、K個の音源からの信号が混合された混合信号をM個のマイクロフォンで観測した観測信号から、各観測信号の時間周波数成分からなる観測信号ベクトルyτωに対応する特徴ベクトルxτωを抽出する特徴抽出ステップと、
モデル推定部が、上記特徴ベクトルxτωを所定の確率モデルにあてはめ、各音源の尤度の時系列が周波数ビン間で同期しているほど高い評価値を与える評価関数を用いて、上記確率モデルのモデルパラメータを推定するモデル推定ステップと、
マスク作成部が、上記モデルパラメータを用いて音源kに対応するマスクmkτωを求めるマスク作成ステップと、
分離音作成部が、上記観測信号ベクトルyτωから上記マスクmkτωを用いて時間周波数領域の分離音を計算する分離音作成ステップと、
を含み、
上記確率モデルは、各音源に関する特徴ベクトルxτωの分布の重み付き和で表される混合モデルであり、
上記確率モデルの混合重みは、時間フレームτに依存し、角周波数ωに依存しない重みであり、
上記確率モデルのモデルパラメータは、上記混合重みと、各音源に関する特徴ベクトルxτωの分布のパラメータである
音源分離方法。 - 請求項1から6のいずれかに記載のモデル推定装置としてコンピュータを機能させるためのプログラム。
- 請求項7に記載の音源分離装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013091223A JP6059072B2 (ja) | 2013-04-24 | 2013-04-24 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013091223A JP6059072B2 (ja) | 2013-04-24 | 2013-04-24 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014215385A JP2014215385A (ja) | 2014-11-17 |
JP6059072B2 true JP6059072B2 (ja) | 2017-01-11 |
Family
ID=51941207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013091223A Active JP6059072B2 (ja) | 2013-04-24 | 2013-04-24 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6059072B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878832B2 (en) * | 2016-02-16 | 2020-12-29 | Nippon Telegraph And Telephone Corporation | Mask estimation apparatus, mask estimation method, and mask estimation program |
JP6859235B2 (ja) * | 2017-09-07 | 2021-04-14 | 本田技研工業株式会社 | 音響処理装置、音響処理方法及びプログラム |
CN115575896B (zh) * | 2022-12-01 | 2023-03-10 | 杭州兆华电子股份有限公司 | 一种针对非点声源声源图像的特征增强方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004027774D1 (de) * | 2003-09-02 | 2010-07-29 | Nippon Telegraph & Telephone | Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm |
EP1752969A4 (en) * | 2005-02-08 | 2007-07-11 | Nippon Telegraph & Telephone | SIGNAL SEPARATION DEVICE, SIGNAL SEPARATION METHOD, SIGNAL SEPARATION PROGRAM, AND RECORDING MEDIUM |
JP4769238B2 (ja) * | 2007-08-24 | 2011-09-07 | 日本電信電話株式会社 | 信号分離装置、信号分離方法、プログラム及び記録媒体 |
JP5337072B2 (ja) * | 2010-02-12 | 2013-11-06 | 日本電信電話株式会社 | モデル推定装置、音源分離装置、それらの方法及びプログラム |
-
2013
- 2013-04-24 JP JP2013091223A patent/JP6059072B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US11961533B2 (en) | 2016-06-14 | 2024-04-16 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
Also Published As
Publication number | Publication date |
---|---|
JP2014215385A (ja) | 2014-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107564513B (zh) | 语音识别方法及装置 | |
US20210327456A1 (en) | Anomaly detection apparatus, probability distribution learning apparatus, autoencoder learning apparatus, data transformation apparatus, and program | |
CN108701468B (zh) | 掩码估计装置、掩码估计方法以及记录介质 | |
US20140114650A1 (en) | Method for Transforming Non-Stationary Signals Using a Dynamic Model | |
JP6059072B2 (ja) | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム | |
JP4964259B2 (ja) | パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム | |
Mohammadiha et al. | A state-space approach to dynamic nonnegative matrix factorization | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6441769B2 (ja) | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
Leglaive et al. | Student's t source and mixing models for multichannel audio source separation | |
JP6193823B2 (ja) | 音源数推定装置、音源数推定方法および音源数推定プログラム | |
JP5406866B2 (ja) | 音源分離装置、その方法及びプログラム | |
JP2014021315A (ja) | 音源分離定位装置、方法、及びプログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP2013167698A (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
Sharma et al. | Novel approach to design matched digital filter with Abelian group and fuzzy particle swarm optimization vector quantization | |
Duong et al. | Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model | |
Singh | Support vector machine based approaches for real time automatic speaker recognition system | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
Gu et al. | Speech Separation Using Independent Vector Analysis with an Amplitude Variable Gaussian Mixture Model. | |
Mo et al. | Sparse representation in Szegő kernels through reproducing kernel Hilbert space theory with applications | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Dat et al. | Robust speaker verification using low-rank recovery under total variability space | |
JP5807914B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
Hasumi et al. | Empirical Bayesian independent deeply learned matrix analysis for multichannel audio source separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6059072 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |