JP5337072B2 - モデル推定装置、音源分離装置、それらの方法及びプログラム - Google Patents
モデル推定装置、音源分離装置、それらの方法及びプログラム Download PDFInfo
- Publication number
- JP5337072B2 JP5337072B2 JP2010028985A JP2010028985A JP5337072B2 JP 5337072 B2 JP5337072 B2 JP 5337072B2 JP 2010028985 A JP2010028985 A JP 2010028985A JP 2010028985 A JP2010028985 A JP 2010028985A JP 5337072 B2 JP5337072 B2 JP 5337072B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- parameter
- phase difference
- probability
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
最後に、時間領域変換部150において、得られた分離信号Yn,f,mを時間領域信号に変換する。
θA={μf,m,σ2 f,m}
と表すことができる。
ここで、スペクトル包絡ρn,mは信号の周波数成分のオンセット(信号のパワーが強い成分の開始時点)やオフセット(信号のパワーが強い成分の終了時点)が、全ての周波数で同期する性質をモデル化している。図3に同期のイメージを示す。色が濃いほどパワーが強いことを示し、この図から各周波数成分のパワーが強くなっている部分がほぼ同じ時期に同期していることがわかる。また、本発明ではスペクトル形状an,f,mを観測信号スペクトルの振幅|Xn,f|で代用する。すなわち、an,f,m=|Xn,f|とする。以上に基づき、スペクトル確率モデルのモデルパラメタを
θX={ρ2 n,m}
と表すことができる。
また、waとwxはそれぞれ、位相差との尤度とスペクトルの尤度に対する重みである。そして、EMアルゴリズムで用いる評価関数(Q関数)は次のように与えられる。
更新後のパラメタ集合θt+1={μt+1 f,m,(σ2 f,m)t+1,(ρ2 n,m)t+1,αt+1 m}は、このQ関数を最大にするものとして推定される。すなわち、スペクトル確率モデルのモデルパラメタ(ρ2 n,m)t+1を求める式(11)は、
更新後の事後確率pme n,fを用いて、
Mn,f,m=pme n,f (17)
により求めることができる。
最後に時間領域変換部150において、分離信号Yn,f,mを音源mごとに時間領域信号ym(t)に変換して出力する。
スペクトルのモデルをあらわす式(6)は、少ない数のクラスタが大きい分散を持っている方が、その尤度が大きくなることを示している。すなわち、式(6)は観測信号をなるべく少数のクラスタで説明する効果を持つ。これにより、有効音源に相当するインデックスmに対応する混合重みαmのみが大きな値を持ち、その他のインデックスm´に対応する混合重み(αm´)は限りなく0に近くなるため、これにより有効音源を抽出することができる。
評価関数である式(16)の第一項の最大化は、各周波数における位相差クラスタリングによる分離と解釈でき、第二項の最大化は、オンセットやオフセットが同期するスペクトル包絡のクラスタリングと解釈できる。すなわち、式(16)は第二項の最大化により、周波数ごとのパーミュテーションの問題を本質的に生じさせないようにしながら、第一項で分離を行える構成となっている。
本発明の効果を確認するため、従来法及び本発明の方法で音源分離の実験を行った。音源数・マイク数はともに2とした。また、サンプリング周波数は8kHz、マイク間隔は4cm及び20cmである。発明法において、混合数M=8とした。一方、従来法としてはk−means法を用いてマイク間位相差のクラスタリングを行った。k−means法で与える音源数(=クラスタリング数)は、発明法の混合数と同じくk=8とした。
Claims (7)
- 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換部と、
各マイクにおける観測信号スペクトル間の位相差(以下、「マイク間位相差」という。)を計算する位相差計算部と、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各周波数成分の強弱が同期しているほど高い評価値を与える評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定部と、
を備え、
前記スペクトル確率モデルは、平均を0、分散を第1分散パラメタとする複素正規分布であり、
前記位相差確率モデルは、平均を第2平均パラメタ、分散を第2分散パラメタとする正規分布であり、
前記第1分散パラメタは、周波数成分の同期を表す周波数非依存のスペクトル包絡パラメタと、スペクトル形状を示す周波数依存のスペクトル形状パラメタとの積に対応したパラメタであり、
前記各確率モデルのモデルパラメタは、前記第1分散パラメタと前記第2平均パラメタと前記第2分散パラメタであるモデル推定装置。 - 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定装置であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換部と、
各マイクにおける観測信号スペクトル間の位相差(以下、「マイク間位相差」という。)を計算する位相差計算部と、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記マイク間位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定部と、
を備え、
前記モデル推定部は、
前記観測信号スペクトルと前記マイク間位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率(以下、「混合重み」という。)とから、当該観測信号スペクトルと当該マイク間位相差とが各時間周波数において各音源からの信号によるものである確率(以下、「事後確率」という。)を計算する事後確率計算部と、
前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新手段と、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新手段と、前記事後確率を用いて前記混合重みを更新する混合重み更新手段と、を備えるパラメタ更新部と、
前記パラメタ更新部で更新した、各モデルパラメタと混合重みを記憶するパラメタ保持部と、
を備える
ことを特徴とするモデル推定装置。 - 請求項2に記載のモデル推定装置と、
更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離部と、
各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換部と、
を備える音源分離装置。 - 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定方法であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換ステップと、
各マイクにおける観測信号スペクトル間の位相差を計算する位相差計算ステップと、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記観測信号スペクトル間の位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各周波数成分の強弱が同期しているほど高い評価値を与える評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定ステップと、
を備え、
前記スペクトル確率モデルは、平均を0、分散を第1分散パラメタとする複素正規分布であり、
前記位相差確率モデルは、平均を第2平均パラメタ、分散を第2分散パラメタとする正規分布であり、
前記第1分散パラメタは、周波数成分の同期を表す周波数非依存のスペクトル包絡パラメタと、スペクトル形状を示す周波数依存のスペクトル形状パラメタとの積に対応したパラメタであり、
前記各確率モデルのモデルパラメタは、前記第1分散パラメタと前記第2平均パラメタと前記第2分散パラメタであるモデル推定方法。 - 混合された複数の音源からの信号を複数個のマイクで観測し、混合された各信号を抽出するモデル推定方法であって、
各マイクにおける時間領域での観測信号をそれぞれ周波数領域の観測信号スペクトルに変換する周波数領域変換ステップと、
各マイクにおける観測信号スペクトル間の位相差を計算する位相差計算ステップと、
前記観測信号スペクトルをスペクトルの分布を示すスペクトル確率モデルに、また、前記観測信号スペクトル間の位相差を位相差の分布を示す位相差確率モデルに、それぞれ逐次当てはめ、各確率モデルを評価する所定の評価関数を用いて、信号抽出に適した各確率モデルのモデルパラメタを計算するモデル推定ステップと、
を備え、
前記モデル推定ステップは、
前記観測信号スペクトルと前記観測信号スペクトル間の位相差と、パラメタ保持部に記憶された、前記位相差確率モデルのモデルパラメタと前記スペクトル確率モデルのモデルパラメタと各音源の存在確率(以下、「混合重み」という。)とから、当該観測信号スペクトルと当該観測信号スペクトル間の位相差とが各時間周波数において各音源からの信号によるものである確率(以下、「事後確率」という。)を計算する事後確率計算ステップと、
前記事後確率を用いて前記スペクトル確率モデルのモデルパラメタを更新するスペクトルパラメタ更新サブステップと、前記事後確率を用いて前記位相差確率モデルのモデルパラメタを更新する位相差パラメタ更新サブステップと、前記事後確率を用いて前記混合重みを更新する混合重み更新サブステップと、を実行するパラメタ更新ステップと、
前記パラメタ更新ステップで更新した、各モデルパラメタと混合重みをパラメタ保持部に記憶するパラメタ保持ステップと、
を、所定の回数又は前記各モデルパラメタと前記混合重みの値が収束するまで繰り返し実行する
ことを特徴とするモデル推定方法。 - 請求項5に記載のモデル推定方法と、
更新後の前記混合重みに基づき有効音源を抽出し、各有効音源に対応する更新後の前記事後確率を用いてマスクを作成し、当該マスクを用いて前記観測信号スペクトルを前記有効音源ごとに分離した分離信号を生成する信号分離ステップと、
各有効音源ごとの前記分離信号を、時間領域の信号に変換する時間領域変換ステップと、
を実行する音源分離方法。 - 請求項4乃至6のいずれかに記載の方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010028985A JP5337072B2 (ja) | 2010-02-12 | 2010-02-12 | モデル推定装置、音源分離装置、それらの方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010028985A JP5337072B2 (ja) | 2010-02-12 | 2010-02-12 | モデル推定装置、音源分離装置、それらの方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011164467A JP2011164467A (ja) | 2011-08-25 |
JP5337072B2 true JP5337072B2 (ja) | 2013-11-06 |
Family
ID=44595195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010028985A Expired - Fee Related JP5337072B2 (ja) | 2010-02-12 | 2010-02-12 | モデル推定装置、音源分離装置、それらの方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5337072B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597306A (zh) * | 2020-05-18 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 语句识别方法和装置、存储介质及电子设备 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5911101B2 (ja) * | 2012-08-30 | 2016-04-27 | 日本電信電話株式会社 | 音響信号解析装置、方法、及びプログラム |
US20150312663A1 (en) * | 2012-09-19 | 2015-10-29 | Analog Devices, Inc. | Source separation using a circular model |
JP6059072B2 (ja) * | 2013-04-24 | 2017-01-11 | 日本電信電話株式会社 | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム |
JP6156012B2 (ja) * | 2013-09-20 | 2017-07-05 | 富士通株式会社 | 音声処理装置及び音声処理用コンピュータプログラム |
JP6289936B2 (ja) * | 2014-02-26 | 2018-03-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
JP6260504B2 (ja) * | 2014-02-27 | 2018-01-17 | 株式会社Jvcケンウッド | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
JP6193823B2 (ja) * | 2014-08-19 | 2017-09-06 | 日本電信電話株式会社 | 音源数推定装置、音源数推定方法および音源数推定プログラム |
JP6606784B2 (ja) * | 2015-09-29 | 2019-11-20 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
ES2937232T3 (es) * | 2016-12-16 | 2023-03-27 | Nippon Telegraph & Telephone | Dispositivo para enfatizar sonido objetivo, dispositivo de aprendizaje de parámetros de estimación de ruido, método para enfatizar sonido objetivo, método de aprendizaje de parámetros de estimación de ruido y programa |
JP6915579B2 (ja) * | 2018-04-06 | 2021-08-04 | 日本電信電話株式会社 | 信号分析装置、信号分析方法および信号分析プログラム |
CN113689875B (zh) * | 2021-08-25 | 2024-02-06 | 湖南芯海聆半导体有限公司 | 一种面向数字助听器的双麦克风语音增强方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
-
2010
- 2010-02-12 JP JP2010028985A patent/JP5337072B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597306A (zh) * | 2020-05-18 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 语句识别方法和装置、存储介质及电子设备 |
CN111597306B (zh) * | 2020-05-18 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语句识别方法和装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2011164467A (ja) | 2011-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5337072B2 (ja) | モデル推定装置、音源分離装置、それらの方法及びプログラム | |
CN109584903B (zh) | 一种基于深度学习的多人语音分离方法 | |
Sawada et al. | Measuring dependence of bin-wise separated signals for permutation alignment in frequency-domain BSS | |
CN111133511B (zh) | 声源分离系统 | |
Wang et al. | A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures | |
CN103325381B (zh) | 一种基于模糊隶属函数的语音分离方法 | |
CN103559888A (zh) | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 | |
JP2011215317A (ja) | 信号処理装置、および信号処理方法、並びにプログラム | |
CN106531181A (zh) | 一种基于谐波提取的欠定语音盲分离方法及装置 | |
WO2013089536A1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 및 음성인식장치 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
KR100636368B1 (ko) | 상대 최적화를 이용한 다중경로 혼합신호 분리 방법 및 그장치 | |
JP5406866B2 (ja) | 音源分離装置、その方法及びプログラム | |
Min et al. | Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement | |
CN108597531B (zh) | 一种通过多声源活动检测来改进双通道盲信号分离的方法 | |
Araki et al. | Simultaneous clustering of mixing and spectral model parameters for blind sparse source separation | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP5807914B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
CN109640242B (zh) | 音频源分量及环境分量提取方法 | |
JP5726709B2 (ja) | 音源分離装置、音源分離方法及びプログラム | |
Araki et al. | Hybrid approach for multichannel source separation combining time-frequency mask with multi-channel Wiener filter | |
JP5826502B2 (ja) | 音響処理装置 | |
Paul et al. | Effective Pitch Estimation using Canonical Correlation Analysis | |
Muhsina et al. | Signal enhancement of source separation techniques | |
Jan et al. | A blind source separation approach based on IVA for convolutive speech mixtures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130321 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5337072 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |