JP5713818B2 - 雑音抑圧装置、方法及びプログラム - Google Patents
雑音抑圧装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5713818B2 JP5713818B2 JP2011142230A JP2011142230A JP5713818B2 JP 5713818 B2 JP5713818 B2 JP 5713818B2 JP 2011142230 A JP2011142230 A JP 2011142230A JP 2011142230 A JP2011142230 A JP 2011142230A JP 5713818 B2 JP5713818 B2 JP 5713818B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- model
- acoustic
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1及び図2を用いて第一実施形態に係る雑音抑圧装置100を説明する。
音響特徴抽出部104は、音響信号の音響特徴を抽出する(s104)。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
ot={ot,0,ot,1,…,ot,n,…,ot,Frame-1}
なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数wnを掛け合わせて切り出してもよい。
図示しない記憶部には、雑音を含まない音声信号の確率モデル(以下「音声モデル」という)が予め記憶される。例えば、記憶部の一部であるGMM記憶部107には、音声モデルとして無音GMMとクリーン音声GMMが格納される。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
雑音モデル推定部105は、対数メルスペクトルOtと無音GMMとクリーン音声GMMとを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音GMMを教師無し学習する(s105)。本実施形態では、雑音信号そのものではなく、雑音信号の音響特徴(対数メルスペクトル)を推定し、これを用いて、雑音GMMを学習する。
まず第一初期値推定手段302は、第一EMアルゴリズムの繰り返し回数を示すインデックスiを初期化する(s301)。次に第一初期値推定手段302は、対数メルスペクトルOtを受け取り、第一EMアルゴリズムにおける雑音モデルパラメータの初期値λ(i=0)={w(i=0) N,l,w(i=0) N,l,w(i=0) N,l}を次式により推定し(s302)、確率モデル生成手段303に出力する。但し、Aは初期値推定に要するフレーム数である(例えばA=10)。
確率モデル生成手段303は、雑音GMMとクリーン音声GMMと無音GMMとを用いて、音響モデルを生成する(s303)。例えば、確率モデル生成手段303は、i回目の繰り返し推定における雑音モデルパラメータλ(i)を第一初期値推定手段302または第一収束判定手段307から受け取り、無音GMMとクリーン音声GMMのパラメータ(wS,j,k,μS,j,k,ΣS,j,k)をGMM記憶部107から受け取り、これらの値を利用して、対数メルスペクトルOtの確率モデルを以下のようなGMMで構成する。
第一期待値計算手段304は、音響モデルのパラメータであるwO,j,k,l (i)とμO,j,k,l (i)とΣO,j,k,l (i)とを確率モデル生成手段303から受け取り、音響信号の対数メルスペクトルOtを音響特徴抽出部104から受け取り、i回目の繰り返し推定における対数メルスペクトルOtの確率モデルのコスト関数Q1()の期待値を次式により計算する(E−step)(s304)。
雑音信号推定手段305は、音響信号を用いて、雑音信号を推定する(s305)。例えば、雑音信号推定手段305は、P(i) t,jとP(i) t,j,k,lを第一期待値計算手段304から受け取り、音響信号の対数メルスペクトルOtを音響特徴抽出部104から受け取り、雑音モデルパラメータλ(i)を更新するために用いる雑音信号の対数メルスペクトルN(i) tを推定し、雑音モデルパラメータ推定手段306に出力する。雑音の対数メルスペクトルN(i) tは、次式により推定される。
雑音モデルパラメータ推定手段306は、雑音信号の対数メルスペクトルN(i) tを学習データとして、雑音モデルパラメータλ(i)を推定し(M−step)(s306)、推定した雑音モデルパラメータを第一収束判定手段307に出力する。雑音モデルパラメータλ(i)の具体的な推定方法については後述する。
第一収束判定手段307は、第一期待値計算手段304から第一期待値Q1を受け取り、この値を用いて収束条件を満たすか否かを判定し(s307)、満たす場合はλ=λ(i)としλを出力し雑音モデル推定部105の処理を終了する。満たさない場合はλ(i)を確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q1(O0:T−1,λ(i))と一つ前の第一期待値Q1(O0:T−1,λ(i−1))との差が所定値以下である場合や、繰り返し回数iが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。
雑音モデルパラメータ推定手段306は、例えば図6に示すように第二初期値推定手段402と第二期待値計算手段403とパラメータ更新手段404と第二収束判定手段405とを含む。雑音モデルパラメータ推定手段306は、図7に示す処理フローで処理を行い、雑音信号推定手段305で推定した雑音の対数メルスペクトルN(i) tと、第二EMアルゴリズムにより、雑音モデルパラメータλ(i)を推定する。以下、図6及び図7を用いて雑音モデルパラメータ推定手段306の詳細を説明する。
第二初期値推定手段402は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスiiを初期化する(s401)。次に第二初期値推定手段402は、雑音の対数メルスペクトルN(i) tを受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータλ(ii)の初期値λ(ii=0)={w(ii=0) N,l,μ(ii=0) N,l,Σ(ii=0) N,l}を次式により推定し、第二期待値計算手段403に出力する。
第二期待値計算手段403は、雑音の対数メルスペクトルN(i) tを雑音信号推定手段305から受け取り、第二EMアルゴリズムにおける雑音モデルパラメータλ(ii)を第二初期値推定手段402または第二収束判定手段405から受け取り、ii回目の繰り返し推定における雑音GMMのコスト関数Q2()の期待値を次式により計算し(E−step)(s403)、第二収束判定手段405に出力する。
パラメータ更新手段404は、P(ii) t,lを受け取り、雑音の対数メルスペクトルN(i) tを雑音信号推定手段305から受け取り、雑音モデルパラメータλ(ii)を次式により更新し(M−step)(s404)、更新した雑音モデルパラメータλ(ii)を第二収束判定手段405に出力する。
第二収束判定手段405は、第二期待値計算手段403から第二期待値Q2を受け取り、この値を用いて収束条件を満たすか否かを判定し(s405)、満たす場合はλ(i)=λ(ii)としλ(i)を出力し雑音モデルパラメータ推定手段306の処理を終了する。満たさない場合はλ(ii)を第二期待値計算手段403に出力し、ii←ii+1(s406)として、繰り返し処理を行うように各部に制御信号を出力し、s403、s404の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q2(O0:T−1,λ(i))と一つ前の第二期待値Q2(O0:T−1,λ(i−1))との差が所定値以下である場合や、繰り返し回数iiが所定値以上になった場合等とすることができる。例えば以下の式で表すことができる。
雑音抑圧部106は、雑音GMMを用いて音響信号の雑音信号を抑圧する(s106)。例えば、図8に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段501と雑音抑圧フィルタ適用手段502を含む。雑音抑圧フィルタ推定手段501は音響信号の対数メルスペクトルOtと、無音GMMとクリーン音声GMMのパラメータ{wS,j,k,μS,j,k,ΣS,j,k}と、雑音モデルパラメータλとを受け取り、雑音抑圧フィルタWLin t,mを推定する。雑音抑圧フィルタ適用手段502は、複素数スペクトルSpctと、雑音抑圧フィルタWLin t,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
雑音抑圧フィルタ推定手段501は図9に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段501は、無音GMMとクリーン音声GMMのパラメータと、雑音モデルパラメータを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOtの確率モデルのパラメータを以下のように生成する(s601)。
雑音抑圧フィルタ適用手段502は図10に示す流れで処理を行う。雑音抑圧フィルタ適用手段502は、雑音抑圧フィルタ推定手段501から雑音抑圧フィルタWLin t,mを受け取り、音響特徴抽出部104から受け取った複素数スペクトルSpctに対して雑音抑圧フィルタWLin t,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
このような構成とすることで、雑音信号のみが存在する時間区間における雑音信号だけでなく、雑音信号と音声信号とが何れも存在する時間区間における雑音信号を学習データとして利用できる。言い換えると、音声信号の存在有無に関わらず、雑音信号を学習データとして利用できる。これにより、より多くの雑音信号の変化や特徴を雑音信号の確率モデルに反映することができ、より正確に雑音信号をモデル化し、高精度に雑音抑圧を実施することができる。なお、推定された雑音信号には誤差が含まれる可能性があるが、確率モデルの推定においては、学習データの統計的な性質を推定してモデル化を行っているため、誤差の問題は致命的な問題とならない。
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
上記実施形態において、音響特徴抽出部104のフレーム切り出し処理s201にて窓関数wnにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。
上述した雑音抑圧装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
Claims (7)
- 雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
フレームごとの前記音響信号の音響特徴O t (tはフレーム番号)を抽出する音響特徴抽出部と、
雑音を含まない音声信号の確率モデル(以下「音声モデル」という)が記憶される記憶部と、
前記フレームごとの音響信号の音響特徴O t と前記音声モデルを用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する雑音モデル推定部と、
音声モデルと雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧部と、を含み、
前記雑音モデル推定部は、
音響特徴O t の確率モデルの尤度をb O,j (i) (O t )とし、多次元正規分布の確率密度関数をN(・)とし、前記フレームごとの音響信号の音響特徴O t の確率モデルを
としたときの当該確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを、前記音声モデルのパラメータを用いて計算する確率モデル生成手段と、
前記音響特徴O t の確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを用いて、
と、
により事後確率であるP (i) t,j とP (i) t,j、k、l を計算する第一期待値計算手段と、
前記事後確率P (i) t,j と前記事後確率P (i) t,j,k,l と前記音響信号の音響特徴O t と前記音響特徴O t の確率モデルのパラメータである平均ベクトルμ (i) O,j,k,l とを用いて、
により前記フレームごとの音響信号に含まれる雑音信号の特徴量を計算する雑音信号推定手段と、
複数フレームについて計算された前記フレームごとの雑音信号の特徴量を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定手段と、を含み、
前記音響信号を用いて、前記音響特徴O t の確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成手段と第一期待値計算手段と雑音信号推定手段と雑音モデルパラメータ推定手段の処理を繰り返す、
雑音抑圧装置。 - 請求項1または2記載の雑音抑圧装置であって、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定部は、前記雑音モデルを教師無し学習する、
雑音抑圧装置。 - 雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
フレームごとの前記音響信号の音響特徴O t (tはフレーム番号)を抽出する音響特徴抽出ステップと、
前記フレームごとの音響信号の音響特徴O t と雑音を含まない音声信号の確率モデル(以下「音声モデル」という)を用いて、雑音信号を推定し、推定した雑音信号を学習データとして雑音信号の確率モデル(以下「雑音モデル」という)を教師無し学習する雑音モデル推定ステップと、
雑音モデルを用いて前記音響信号の雑音信号を抑圧する雑音抑圧ステップと、を含み
前記雑音モデル推定ステップは、
音響特徴O t の確率モデルの尤度をb O,j (i) (O t )とし、多次元正規分布の確率密度関数をN(・)とし、前記フレームごとの音響信号の音響特徴O t の確率モデルを
としたときの当該確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを、前記音声モデルのパラメータを用いて計算する確率モデル生成サブステップと、
前記音響特徴O t の確率モデルのパラメータである混合重みw (i) O,j,k,l と平均ベクトルμ (i) O,j,k,l と対角分散行列Σ (i) O,j,k,l とを用いて、
と、
により事後確率であるP (i) t,j とP (i) t,j、k、l を計算する第一期待値計算サブステップと、
前記事後確率P (i) t,j と前記事後確率P (i) t,j,k,l と前記音響信号の音響特徴O t と前記音響特徴O t の確率モデルのパラメータである平均ベクトルμ (i) O,j,k,l とを用いて、
により前記フレームごとの音響信号に含まれる雑音信号の特徴量を計算する雑音信号推定サブステップと、
複数フレームについて計算された前記フレームごとの雑音信号の特徴量を学習データとして、前記雑音モデルのパラメータを推定する雑音モデルパラメータ推定サブステップと、を含み、
前記音響信号を用いて、前記音響特徴O t の確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで確率モデル生成サブステップと第一期待値計算サブステップと雑音信号推定サブステップと雑音モデルパラメータ推定サブステップの処理を繰り返す、
を含む雑音抑圧方法。 - 請求項4または5記載の雑音抑圧方法であって、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記雑音モデル推定ステップにおいて、前記雑音モデルを教師無し学習する、
雑音抑圧方法。 - 請求項1から3記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011142230A JP5713818B2 (ja) | 2011-06-27 | 2011-06-27 | 雑音抑圧装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011142230A JP5713818B2 (ja) | 2011-06-27 | 2011-06-27 | 雑音抑圧装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013007975A JP2013007975A (ja) | 2013-01-10 |
JP5713818B2 true JP5713818B2 (ja) | 2015-05-07 |
Family
ID=47675357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011142230A Active JP5713818B2 (ja) | 2011-06-27 | 2011-06-27 | 雑音抑圧装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5713818B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140316775A1 (en) * | 2012-02-10 | 2014-10-23 | Mitsubishi Electric Corporation | Noise suppression device |
JP5997114B2 (ja) * | 2013-08-14 | 2016-09-28 | 日本電信電話株式会社 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
JPWO2015093025A1 (ja) * | 2013-12-17 | 2017-03-16 | 日本電気株式会社 | 音声処理装置、音声処理方法、及び、音声処理プログラム |
US10748551B2 (en) | 2014-07-16 | 2020-08-18 | Nec Corporation | Noise suppression system, noise suppression method, and recording medium storing program |
US20210065731A1 (en) * | 2019-08-29 | 2021-03-04 | Sony Interactive Entertainment Inc. | Noise cancellation using artificial intelligence (ai) |
CN113223505B (zh) * | 2021-04-30 | 2023-12-08 | 珠海格力电器股份有限公司 | 模型训练、数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4856662B2 (ja) * | 2008-02-29 | 2012-01-18 | 日本電信電話株式会社 | 雑音除去装置、その方法、そのプログラム及び記録媒体 |
JP5411936B2 (ja) * | 2009-07-21 | 2014-02-12 | 日本電信電話株式会社 | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 |
-
2011
- 2011-06-27 JP JP2011142230A patent/JP5713818B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013007975A (ja) | 2013-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1515305B1 (en) | Noise adaption for speech recognition | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
US7457745B2 (en) | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
Liao et al. | Uncertainty decoding for noise robust speech recognition | |
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
CN111951796B (zh) | 语音识别方法及装置、电子设备、存储介质 | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
Gales et al. | Model-based approaches to handling additive noise in reverberant environments | |
JP5997114B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Hachkar et al. | A comparison of DHMM and DTW for isolated digits recognition system of Arabic language | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
WO2002023525A1 (en) | Speech recognition system and method | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
Patlar et al. | Triphone based continuous speech recognition system for turkish language using hidden markov model | |
JP2003076393A (ja) | 騒音環境下における音声推定方法および音声認識方法 | |
Mandel et al. | Analysis-by-synthesis feature estimation for robust automatic speech recognition using spectral masks | |
Ramya et al. | Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition | |
Munteanu et al. | Robust Romanian language automatic speech recognizer based on multistyle training | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5713818 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |