JP6243858B2 - 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム - Google Patents

音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム Download PDF

Info

Publication number
JP6243858B2
JP6243858B2 JP2015021453A JP2015021453A JP6243858B2 JP 6243858 B2 JP6243858 B2 JP 6243858B2 JP 2015021453 A JP2015021453 A JP 2015021453A JP 2015021453 A JP2015021453 A JP 2015021453A JP 6243858 B2 JP6243858 B2 JP 6243858B2
Authority
JP
Japan
Prior art keywords
signal
speech
noise
learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015021453A
Other languages
English (en)
Other versions
JP2016143043A (ja
Inventor
雅清 藤本
雅清 藤本
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015021453A priority Critical patent/JP6243858B2/ja
Publication of JP2016143043A publication Critical patent/JP2016143043A/ja
Application granted granted Critical
Publication of JP6243858B2 publication Critical patent/JP6243858B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムに関する。
近年、自動音声認識は、情報化社会の中で利用局面が増えつつあり、技術の進歩が大きく期待されている。自動音声認識を実際の環境で利用する場合には、処理対象とする音声信号以外の信号、つまり雑音が含まれる音響信号から雑音を取り除き、所望の音声信号を抽出する必要がある。
例えば、音声信号と雑音信号が混合された信号を入力とし、あらかじめ推定した音声信号及び雑音信号それぞれの確率モデルから入力混合信号の確率モデルを生成する。その際、入力混合信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、入力混合信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。その差分をEMアルゴリズムを用いて推定し、入力混合信号の確率モデルを最適化する。その後、最適化された入力混合信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている(例えば非特許文献1参照)。
また、例えば、音声信号と雑音信号が混合された信号を入力とし,多数話者の学習用音声データを用いて学習された音声信号の確率モデルを入力混合信号に含まれる音声信号の発話者の特徴に適応(話者適応)させ、かつ統計的な性質が多峰的な分布に従う雑音信号に対処するため、入力混合信号より音声信号と、雑音信号とをそれぞれ抽出する。この際、SN比を基準として、単位時間毎に各抽出信号の信頼度を算出する。抽出した音声信号及び雑音信号と、各信号の信頼度とを用いて話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルをEMアルゴリズムにより推定する。その後、話者適応後の音声信号の確率モデルと、推定した雑音の確率モデルとから入力信号の最適な確率モデルを生成し、入力混合信号の最適な確率モデルと話者適応後の音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている(例えば非特許文献2参照)。
P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylor series approach for environment-independent speech recognition." in Proceedings of ICASSP '96, vol. II, pp. 733-736, May 1996. M. Fujimoto and T. Nakatani, "A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation." in Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.
しかしながら、上記従来技術は、例えば非特許文献1において、入力混合信号に含まれる雑音信号の特徴が定常的かつ、その分布(頻度分布もしくは確率分布)が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、入力混合信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。
また、上記従来技術は、例えば非特許文献2において、多峰的な分布に従う雑音信号の確率モデルを推定することにより、非定常的な雑音信号に対応することが可能であっても、話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルとをEMアルゴリズムにより推定する。音声信号の確率モデルには、混合正規分布(Gaussian Mixture Model:GMM)を用いるが、入力混合信号から音声信号と雑音信号とを抽出、話者適応パラメータ推定及び雑音抑圧フィルタを設計する際には、音声信号のGMMに含まれる各要素分布に対する事後確率(音声事後確率と定義)が必要となる。これは,入力混合信号に含まれる音声信号が、各時刻において音声信号のGMM内のどの要素分布に属するかという識別問題に相当する。しかし、識別器としてのGMMの性能は低く、GMMでは十分な雑音抑圧性能が得られない。
本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、雑音抑圧性能を向上させることを目的とする。
本願の実施形態の一例は、学習用の音声信号から音響特徴量を抽出する。そして、実施形態の一例は、抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する。そして、実施形態の一例は、学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、生成されたラベル情報と、抽出された正規化された音響特徴量とを用いて、音声モデルを学習する。
また、本願の実施形態の一例は、上記音声モデル学習方法により学習された音声モデルを音声モデル記憶部に保存する。そして、実施形態の一例は、音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する。そして、実施形態の一例は、混合音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、音声モデルと、抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する。そして、実施形態の一例は、計算された音声事後確率と、音声信号の混合正規分布とを用いて、混合音響信号における雑音信号を抑圧する。
本願が開示する実施形態の一例によれば、例えば、雑音抑圧性能を向上させることができる。
図1は、音声モデル学習装置の構成の一例を示す図である。 図2は、音声モデル学習装置の第1音響特徴抽出部の処理手順の一例を示すフローチャートである。 図3は、音声モデル学習装置の第2音響特徴抽出部の処理手順の一例を示すフローチャートである。 図4は、雑音抑圧装置の構成の一例を示す図である。 図5は、雑音抑圧装置のパラメータ推定部の構成の一例を示す図である。 図6は、雑音抑圧装置のパラメータ推定部の処理手順の一例を示すフローチャートである。 図7は、雑音抑圧装置のパラメータ推定部による信頼データ選択処理のサブルーチンの一例を示すフローチャートである。 図8は、雑音抑圧装置の雑音抑圧部の構成の一例を示す図である。 図9は、雑音抑圧装置の雑音抑圧フィルタ推定部の処理手順の一例を示すフローチャートである。 図10は、雑音抑圧装置の雑音抑圧フィルタ適用部の処理手順の一例を示すフローチャートである。 図11は、実施形態による効果の一例を示す図である。 図12は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。
[実施形態]
以下、本願が開示する音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
なお、以下の実施形態では、例えば、ベクトル又はスカラーであるAに対し、“^A”と記載する場合は「“A”の真上に“^”が記された記号」と同等とし、“ ̄A”と記載する場合は「“A”の真上に“ ̄”が記された記号」と同等であるとする。また、“A”がベクトルである場合には、「ベクトルA」と表記し、“A”がスカラーである場合には、単に「A」と表記し、“A”が集合である場合には、「集合A」と表記するものとする。また、例えばベクトルAの関数fは、f(ベクトルA)と表記するものとする。なお、行列Aに対し、行列A−1は、行列Aの逆行列を表す。
また、以下の実施形態では、音声信号の識別器として、ディープニューラルネットワーク(Deep Neural Network:DNN)に基づく識別器を導入する。DNNは、多層パーセプトロンの一種であり、通常の多層パーセプトロンが3層程度の識別層を有するのに対し、実施形態では、3層より多くの識別層を有し、より深いネットワークを構築する。具体的には、各識別層を制約付きボルツマンマシン(Restricted Boltzmann Machine:RBM)で学習し、その後、各識別層のRBMを連結してネットワーク全体のパラメータを調整することにより、深い識別層を持つニューラルネットワークを構築することができる。このような深い識別層を持たせることで、音声信号の識別性能を高めることができる。
DNNによる音声信号の識別器を雑音抑圧に導入するためには、DNNの出力層に含まれる各ノードと、音声信号のGMMの各要素分布との対応付けを行う必要がある。そのために、先ず、各時刻における雑音の存在しない音声信号が、音声信号のGMMに含まれるどの要素分布に属するかを示した分布ラベルを生成する。その後、音声信号と雑音信号との混合信号と、分布ラベルを用いて音声信号のDNNを学習する。このような方法を用いることにより、音声信号のGMMの各要素と音声信号のDNNの出力層の各ノードとの対応付けが可能となる。
また、音声信号のDNNを用いることで、入力混合信号に含まれる音声信号の識別性能が向上し、入力混合信号からの音声信号と雑音信号との抽出精度、及び、話者適応パラメータと、雑音抑圧フィルタとの推定精度とを改善することが可能となる。
なお、DNNについては、文献1「A. Mohamed, G. Dahl, G. Hinton, “Acoustic Modeling Using Deep Belief Networks.”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no1., pp. 14-22, 2012.」、文献2「久保陽太郎,“ディープラーニングによるパターン認識”,情報処理,vol. 54,no. 5,pp. 500-508,April 2013.」に詳述されている。
(音声モデル学習装置の構成)
図1は、音声モデル学習装置の構成の一例を示す図である。音声モデル学習装置100は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。音声GMM記憶装置300は、音声GMM300aを記憶する。音声DNN記憶装置400は、後述する音声DNN学習部140により学習されたパラメータである重み行列Wと、バイアスベクトルvとを含む音声DNN400aを記憶する。音声モデル学習装置100は、学習用音声信号Oclean τ及び学習用音声信号Oclean τと学習用雑音信号とが混合した学習用混合信号Onoisy τを入力とし、DNNのパラメータである重み行列Wと、バイアスベクトルvとを出力する。音声モデル学習装置100は、第1音響特徴抽出部110、第2音響特徴抽出部120、最尤分布推定部130、音声DNN学習部140を有する。
第1音響特徴抽出部110は、学習用音声信号Oclean τを入力とし、学習用音声信号Oclean τから音声DNNの学習に用いる対応分布ラベルLabを得るための特徴量である学習用対数メルスペクトルのベクトルOclean を抽出する。
図2は、音声モデル学習装置の第1音響特徴抽出部の処理手順の一例を示すフローチャートである。図2に従い、第1音響特徴抽出部110の処理を説明する。先ず、第1音響特徴抽出部110は、フレーム切出処理にて学習用音声信号Oclean τ(τは離散信号のサンプル点)を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す(ステップS110a)。例えば、第1音響特徴抽出部110は、Frame=400個のサンプル点(16,000Hz×25ms)の音響信号Oclean τ,nを、Shift=160個のサンプル点(16,000Hz×10ms)ずつ始点を移動させながら切り出す。ここで、tはフレーム番号、nはフレーム内のn番目のサンプル点を表す。その際、第1音響特徴抽出部110は、例えば、下記(1)式に示すハミング窓のような窓関数wを掛け合わせて切り出す。
Figure 0006243858
その後、第1音響特徴抽出部110は、音響信号Oclean t,nに対して、M点(Mは2のべき乗かつFrame以上の値であり、例えばM=512)の高速フーリエ変換処理を実行し、複素数スペクトルのベクトルSpcclean ={Spcclean t,0,・・・,Spcclean t,m,・・・,Spcclean t,M−1を得る(mは、周波数ビンの番号)(ステップS110b)。なお、{・}は、行列又はベクトルの転置を表す。次に、各Spcclean t,mの絶対値に対して、メルフィルタバンク分析処理(ステップS110c)、対数化処理(ステップS110d)を適用し、R次元(例えばR=24)の対数メルスペクトルを要素に持つベクトルOclean ={Oclean t,0,・・・,Oclean t,r,・・・,Oclean t,R−1を算出する(rはベクトルOclean の要素番号)。この結果、第1音響特徴抽出部110は、学習用対数メルスペクトルとして、ベクトルOclean を出力する。
第2音響特徴抽出部120は、学習用音声信号Oclean τと学習用雑音信号とが混合した学習用混合信号Onoisy τを入力とし、学習用混合信号Onoisy τから音声モデル学習を実施するための特徴量である学習用正規化対数メルスペクトルのベクトルOnoisy を抽出する。
図3は、音声モデル学習装置の第2音響特徴抽出部の処理手順の一例を示すフローチャートである。図3に従い、第2音響特徴抽出部120の処理を説明する。第2音響特徴抽出部120は、ステップS120a〜S120dにおいて、Onoisy τに対して、図2に示す、Oclean τに対して実行されるステップS110a〜S110dそれぞれと同様の処理を実行する。
次に、第2音響特徴抽出部120は、ステップS120dの対数化処理にて得られた学習用混合信号Onoisy τの対数メルスペクトルに対して、正規化処理を適用する(ステップS120e)。具体的には、第2音響特徴抽出部120は、学習用混合信号Onoisy τの対数メルスペクトル全体から求めた学習用混合信号Onoisy τの対数メルスペクトルの平均と標準偏差を用いて、学習用混合信号Onoisy τの対数メルスペクトルを平均0、分散1に正規化する。
次に、第2音響特徴抽出部120は、ステップS120eの正規化処理にて正規化された学習用混合信号Onoisy τの対数メルスペクトルの1次と、2次の回帰係数を算出し、正規化された学習用混合信号Onoisy τの対数メルスペクトルと合わせて3R次元のベクトルOnorm ={Onorm t,0,・・・,Onorm t,r,・・・,Onorm t,3R−1を構成する回帰係数付与処理を実行する(ステップS120f)。その後、第2音響特徴抽出部120は、ステップS120fの回帰係数付与処理にて回帰係数が付与されたベクトルOnorm をフレームtの前後Zフレーム{t−Z,・・・,t,・・・,t+Z}分だけ結合した3R×(2R+1)次元のベクトルOnorm ={ベクトルOnorm t―Z ,・・・,ベクトルOnorm ,・・・,ベクトルOnorm t+Z を算出するフレーム連結処理を実行する(例えばZ=5)(ステップS120g)。この結果、第2音響特徴抽出部120は、学習用正規化対数メルスペクトルのベクトルOnorm を出力する。
最尤分布推定部130は、第1音響特徴抽出部110の出力である学習用対数メルスペクトルのベクトルOclean と、音声GMM記憶装置300の主記憶上に記憶された音声GMM300aとを用いて、対応分布ラベルLabを得る。
最尤分布推定部130は、学習用対数メルスペクトルのベクトルOclean と、音声GMM300aとを用いて、音声DNNの学習に用いる対応分布ラベルLabを、下記(2)式により推定する。
Figure 0006243858
上記(2)式において、kは音声GMM300aに含まれる正規分布の番号であり、最大値Kを取る。Kは総正規分布数である。例えば、K=512である。上記(2)式において、wSI,kは音声GMM300aの混合重みであり、ベクトルμSI,kは音声GMM300aの平均ベクトルであり、ベクトルΣSI,kは音声GMM300aの対角分散行列である。それぞれのパラメータであるwSI,k、ベクトルμSI,k、ベクトルΣSI,kは、多数話者の学習用音声データを用いて事前に推定されたものである。また、上記(2)式において、関数N(・)は、下記(3)式で与えられる多次元正規分布の確率密度関数である。上記(2)式は、kを1≦k≦Kの範囲で走査した場合のmax{・}を対応分布ラベルLabとする。
Figure 0006243858
音声DNN学習部140は、対応分布ラベルLabと学習用正規化対数メルスペクトルのベクトルOnoisy とを用いて、音声DNN400aのパラメータである重み行列Wとバイアスベクトルvとを学習する。音声DNN学習部140は、最尤分布推定部130により推定された対応分布ラベルLabと、第2音響特徴抽出部120により計算された学習用正規化対数メルスペクトルのベクトルOnoisy とを用いて、音声DNN400aとして、J層の隠れ層を持つDNNを学習する(例えばJ=5)。DNNの一般的な学習方法は、前述の文献1及び文献2に示されるとおりである。
音声DNN学習部140は、音声DNN400aのパラメータである重み行列Wと、バイアスベクトルvとを、音声DNN記憶装置400へ出力し、主記憶上に記憶させる。なお、重み行列WはD×Dj−1次元の行列であり、バイアスベクトルvはD次元の縦ベクトルである(例えば、D=3R×(2Z+1)、D=2048(j=1,・・・,J−1)、D=K)。
(雑音抑圧装置の構成)
図4は、雑音抑圧装置の構成の一例を示す図である。雑音抑圧装置200は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。雑音抑圧装置200は、音声信号及び雑音信号が混合された入力混合信号Oτを入力とし、入力混合信号Oτにおいて雑音信号が抑圧されたと推定される雑音抑圧信号^Sτを出力する。雑音抑圧装置200は、第1音響特徴抽出部210、第2音響特徴抽出部220、パラメータ推定部230、雑音抑圧部240を有する。
第1音響特徴抽出部210は、音声信号及び雑音信号が混合した入力混合信号Oτを入力とし、入力混合信号Oτに対して雑音抑圧を実施するための特徴量である複素数スペクトルのベクトルSpc及び入力混合信号Oτの対数メルスペクトルのベクトルOを抽出する。第1音響特徴抽出部210は、音声モデル学習装置100の第1音響特徴抽出部110と同様の処理機能を有する。
第2音響特徴抽出部220は、入力混合信号Oτを入力とし、入力混合信号Oτから音声事後確率Pt,kを計算するための特徴量である正規化対数メルスペクトルのベクトルODNN を抽出する。第2音響特徴抽出部220は、音声モデル学習装置100の第2音響特徴抽出部120と同様の処理機能を有する。
パラメータ推定部230は、第1音響特徴抽出部210により抽出された対数メルスペクトルのベクトルOと、音声GMM記憶装置300に記憶された音声GMM300aと、第2音響特徴抽出部220により抽出された正規化対数メルスペクトルのベクトルODNN と、音声DNN記憶装置400に記憶された音声DNN400aとを用いて、話者適応パラメータのベクトルbと、雑音の確率モデルである雑音GMMのパラメータセットλとを推定する。
多数話者の学習用音声データから推定されたパラメータから構成される音声GMM300aは、話者独立(Speaker Independent:SI)GMMと呼ばれ、特定話者の学習用音声データから推定されたパラメータから構成される音声GMMは、話者依存(Speaker Dependent:SD)GMMと呼ばれる。話者独立GMMを特定話者の学習用音声データを用いて学習することは、実用的ではないため、話者適応処理により、話者依存GMMを得る。すなわち、下記(4)式による話者適応処理により、話者独立GMMの平均ベクトルμSI,kを変換することにより、話者依存GMMの平均ベクトルμSD,kを得る。
Figure 0006243858
上記(4)式において、ベクトルbは話者適応パラメータであり、R次元のベクトルでる。ベクトルbは、音声GMM300aに含まれる正規分布の番号kに対して独立のパラメータとする。一方、雑音GMMは、下記(5)式により与えられる。
Figure 0006243858
上記(5)式において、lは雑音GMMに含まれる正規分布の番号、Lは正規分布の総数である(例えば、L=4)。また、ベクトルNは雑音の対数メルスペクトルであり、p(ベクトルN)は雑音GMMの尤度である。また、wN,lは雑音GMMの混合重みであり、ベクトルμN,lは雑音GMMの平均ベクトル、行列ΣN,lは雑音GMMの対角分散行列である。以後、雑音GMMのパラメータセットをλ={wN,l,ベクトルμN,l,行列ΣN,l}と定義する。
パラメータ推定部230は、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλは、EMアルゴリズムにより推定する。EMアルゴリズムは、ある確率モデルのパラメータ推定に用いられる方法であり、確率モデルのコスト関数(対数尤度関数)の期待値を計算するExpectation−step(E−step)と、コスト関数を最大化するMaximization−step(M−step)とを、収束条件を満たすまで繰り返すことによりパラメータを最適化する。
さらに、図4に示すパラメータ推定部230の詳細構成について説明する。図5は、雑音抑圧装置のパラメータ推定部の構成の一例を示す図である。図5に示すように、パラメータ推定部230は、初期化部231、確率及び信号推定部232、信頼データ選択部233、話者適応パラメータ推定部234、雑音GMM推定部235、収束判定部236を有する。
図6は、雑音抑圧装置のパラメータ推定部の処理手順の一例を示すフローチャートである。図6に従い、パラメータ推定部230の処理を説明する。先ず、初期化部231は、EMアルゴリズムの繰り返しインデックスをi=1と初期化する(ステップS230a)。次に、初期化部231は、EMアルゴリズムにおける話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλの初期値を、下記(6)〜(11)式により推定する初期値推定処理を実行する(ステップS230b)。ここで、下記(9)式におけるUは初期値推定に要するフレーム数である(例えばU=10)。また、下記(9)式におけるdiag{・}は、行列・の対角成分のみを計算し、非対角成分を0とすることを表す。
Figure 0006243858
上記(9)式において、添え字iはEMアルゴリズムにおけるi回目の繰り返し推定におけるパラメータであることを示す。また、上記(6)式におけるベクトル0は、要素が0であるR次元縦ベクトルである。また、上記(10)式におけるGaussRand(・)は、正規乱数の発生関数である。
次に、確率及び信号推定部232は、正規化対数メルスペクトルのベクトルODNN と、音声DNN400a記憶されるパラメータである重み行列W及びバイアスベクトルvとを用いて、下記(12)式〜(15)式により、音声事後確率Pt,kを計算する音声事後確率計算処理を実行する(ステップS230c)。
Figure 0006243858
なお、上記(14)式において、Wj,k,k´は重み行列Wの要素であり、vj,kはバイアスベクトルvの要素であり、上記(15)式において、ODNN t,KはベクトルODNN の要素である。
次に、確率及び信号推定部232は、(i−1)回目の繰り返し推定における話者適応パラメータのベクトルb(i−1)と、(i−1)回目の繰り返し推定における雑音GMMのパラメータセットλ(i−1)と、音声GMM300aのパラメータを利用して、下記(16)式のような、対数メルスペクトルのベクトルOのGMMを構成する混合信号GMM生成処理を実行する(ステップS230d)。
Figure 0006243858
なお、上記(16)式において、p (i)(ベクトルO)は、ステップS230dの混合信号GMM生成処理にて生成される対数メルスペクトルのベクトルOの、音声GMM300aに対する尤度である。また、wO,k,l (i)、ベクトルμO,k,l (i)、行列ΣO,k,l (i)は、それぞれ、(i−1)回目の繰り返し推定における話者適応パラメータセットのベクトルb(i−1)と、雑音GMMのパラメータセットλ(i−1)と、音声GMM300aのパラメータとから生成される対数メルスペクトルのベクトルOtのGMMの混合重み、平均ベクトル、対角分散行列であり、下記(17)式〜(20)式で与えられる。
Figure 0006243858
なお、上記(18)式において、対数関数log(・)及び指数関数exp(・)は、ベクトルの要素毎に演算を行う。また、上記(18)式及び(20)式において、ベクトル1は、全ての要素が1であるR次元縦ベクトルである。また、上記(19)式において、Hk,l (i)は、関数h(・)のヤコビ行列である。
次に、確率及び信号推定部232は、i回目の繰り返し推定における対数メルスペクトルのベクトルOの確率モデルのコスト関数Qo(・)の期待値を、下記(21)式により計算する期待値計算処理を実行する(EMアルゴリズムのE−step)(ステップS230e)。
Figure 0006243858
上記(21)式において、ベクトルO0:T−1={O,・・・,O,・・・OT−1}である。また、上記(21)式において、Tは対数メルスペクトルのベクトルOの総フレーム数である。また、上記(21)式において、Pt,k,l (i)は、下記(22)式及び(23)により、フレームtにおける音声GMM300aの正規分布番号k及び雑音GMMの正規分布番号lに対して与えられる音声事後確率である。
Figure 0006243858
なお、EMアルゴリズムのM−stepは、ステップS230fの信号推定処理、ステップS230gの信頼データ選択処理、ステップS230hの話者適応パラメータ推定処理、ステップS230iの雑音GMMパラメータ推定処理に該当する。
ステップS230fにおいて、確率及び信号推定部232は、話者適応パラメータのベクトルb(i)と、雑音GMMのパラメータセットλ(i)を更新するために用いる、クリーン音声の対数メルスペクトルのベクトルS (i)と、雑音の対数メルスペクトルのベクトルN (i)とを、対数メルスペクトルのベクトルOから推定する。クリーン音声の対数メルスペクトルのベクトルS (i)と、雑音の対数メルスペクトルのベクトルN (i)は、下記(24)式及び(25)式により推定される。
Figure 0006243858
次に、信頼データ選択部233は、話者適応パラメータのベクトルb(i)と、雑音GMMのパラメータセットλ(i)とを推定する際に用いる、クリーン音声の推定対数メルスペクトルのベクトル^S (i)と、雑音の推定対数メルスペクトル^N (i)とを選択する信頼データ選択処理を実行する(ステップS230g)。
図7は、雑音抑圧装置のパラメータ推定部による信頼データ選択処理のサブルーチンの一例を示すフローチャートである。信頼データ選択処理は、全フレームにおいて、クリーン音声と、雑音とのいずれが優勢であるかを判定した結果に基づき、クリーン音声が優勢であれば、各フレーム番号tをクリーン音声信号フレームの集合T (i)に格納し、雑音が優勢であれば、各フレーム番号tを雑音フレームの集合T (i)に格納する処理である。図7に示すように、先ず、信頼データ選択部233は、各フレームtにおけるSN比であるSNR (i)を、下記(26)式により計算する。
Figure 0006243858
上記(26)式において、^St,r (i)は、フレームtにおけるクリーン音声の推定対数メルスペクトルのベクトル^S (i)の要素であり、^Nt,r (i)は、フレームtにおける雑音の推定対数メルスペクトルのベクトル^N (i)の要素である。そして、信頼データ選択部233は、上記(26)式により得られた、各フレームtにおけるSN比であるSNR (i)にk−meanクラスタリングを適用して、全てのフレームtにおけるSNR (i)を2つのクラスC=0,1に分類し、各クラスの平均SN比をAveSNR (i)と定義する(以上、ステップS230g−1)。
そして、信頼データ選択部233は、各フレームtにおいてAveSNRc=0 (i)≧AveSNRc=1 (i)であるか否かを判定する(ステップS230g−2)。信頼データ選択部233は、フレームtにおいてAveSNRc=0 (i)≧AveSNRc=1 (i)であると判定した場合、ステップS230g−3へ処理を移す。一方、信頼データ選択部233は、フレームtにおいてAveSNRc=0 (i)<AveSNRc=1 (i)であると判定した場合、ステップS230g−6へ処理を移す。
ステップS230g−3では、信頼データ選択部233は、各フレームtにおけるSNR (i)がSNR (i)∈{C=0}、すなわち、SNR (i)が集合{C=0}(C=0のクラスタ)に属するか否かを判定する。信頼データ選択部233は、SNR (i)∈{C=0}であると判定したフレームtについては、ステップS230g−4へ処理を移す。一方、信頼データ選択部233は、SNR (i)∈{C=1}であると判定したフレームtについては、ステップS230g−5へ処理を移す。
ステップS230g−4では、信頼データ選択部233は、ステップS230g−3で判定したフレーム番号tを、クリーン音声信号フレームの集合T (i)へ格納する。一方、ステップS230g−5では、信頼データ選択部233は、ステップS230g−3で判定したフレーム番号tを、雑音信号フレームの集合T (i)へ格納する。
他方、ステップS230g−6では、信頼データ選択部233は、各フレームtにおけるSNR (i)がSNR (i)∈{C=1}、すなわち、SNR (i)が集合{C=1}(C=1のクラスタ)に属するか否かを判定する。信頼データ選択部233は、SNR (i)∈{C=1}であると判定したフレームtについては、ステップS230g−7へ処理を移す。一方、信頼データ選択部233は、SNR (i)∈{C=0}であると判定したフレームtについては、ステップS230g−8へ処理を移す。
ステップS230g−7では、信頼データ選択部233は、ステップS230g−6で判定したフレーム番号tを、クリーン音声信号フレームの集合T (i)へ格納する。一方、ステップS230g−8では、信頼データ選択部233は、ステップS230g−6で判定したフレーム番号tを、雑音信号フレームの集合T (i)へ格納する。ステップS230g−4、S230g−5、S230g−7、S230g−8の処理が終了すると、信頼データ選択部233は、図6に示す雑音抑圧装置のパラメータ推定部230の処理へ処理を復帰させる。
次に、話者適応パラメータ推定部234は、ステップS230cの音声事後確率計算処理にて得た音声事後確率Pt,kと、ステップS230fの信号推定処理にて推定したクリーン音声の対数メルスペクトル^S (i)と、ステップS230gの信頼データ選択処理にて推定したクリーン音声信号フレームの集合T (i)を用いて、下記(27)式により、話者適応パラメータのベクトルb(i)を更新する話者適応パラメータ推定処理を実行する(ステップS230h)。
Figure 0006243858
次に、雑音GMM推定部235は、ステップS230eの期待値計算処理にて得た音声事後確率Pt,l (i)と、ステップS230fの信号推定処理にて推定した雑音の対数メルスペクトルのベクトル^N (i)と、ステップS230gの信頼データ選択処理にて推定した雑音信号フレームの集合T (i)を用いて、下記(28)式〜(30)式により、雑音GMMのパラメータセットλ(i)を更新する雑音GMMパラメータ推定処理を実行する(ステップS230i)。
Figure 0006243858
次に、収束判定部236は、所定の収束条件が満されるか否かを判定する収束判定処理を実行する(ステップS230j)。収束判定部236は、所定の収束条件が満される場合は、ベクトルb=b(i)として、パラメータ推定部230の処理を終了する。一方、収束判定部236は、所定の収束条件が満たされない場合は、iを1インクリメント(i←i+1)し(ステップS230k)、ステップS230dへ処理を移す。なお、所定の収束条件は、下記(31)式で表される。なお、下記(31)式おいて、Q(・)は、上記(21)式で定義される。また、下記(31)式おいて、η=0.0001とする。
Figure 0006243858
また、さらに、図4に示す雑音抑圧部240の詳細構成について説明する。図8は、雑音抑圧装置の雑音抑圧部の構成の一例を示す図である。雑音抑圧部240は、複素数スペクトルのベクトルSpcと、対数メルスペクトルのベクトルOと、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλと、音声事後確率Pt,kとを用いて雑音抑圧フィルタを構成し、雑音を抑圧して雑音抑圧信号^Sτを得る。
図8に示すように、雑音抑圧部240は、雑音抑圧フィルタ推定部241、雑音抑圧フィルタ適用部242を有する。雑音抑圧フィルタ推定部241は、対数メルスペクトルのベクトルOtと、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλと、音声事後確率Pt,kとを入力とし、雑音抑圧フィルタFt,m Linを推定する。雑音抑圧フィルタ適用部242は、複素数スペクトルのベクトルSpcと、雑音抑圧フィルタFt,m Linとを入力とし、雑音を抑圧して雑音抑圧信号^Sτを得る。
図9は、雑音抑圧装置の雑音抑圧フィルタ推定部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ推定部241は、音声GMM300aと、話者適応パラメータのベクトルbと、雑音GMMのパラメータセットλとから、対数メルスペクトルのベクトルOtのGMMのパラメータを、下記(32)式〜(35)式のように生成する確率モデル生成処理を実行する(ステップS241a)。
Figure 0006243858
次に、雑音抑圧フィルタ推定部241は、下記(36)式及び(37)式により、事後確率Pt,k,lを、対数メルスペクトルのベクトルOのGMMのパラメータと、対数メルスペクトルのベクトルOと、音声事後確率Pt,kとを用いて計算する確率計算処理を実行する(ステップS241b)。
Figure 0006243858
次に、雑音抑圧フィルタ推定部241は、音声GMM300aの平均ベクトルμSI,kと、話者適応パラメータのベクトルbとから生成される話者依存(SD)GMMの平均ベクトルμSD,kと、雑音GMMのパラメータセットλに含まれる雑音GMMの平均ベクトルμN,lと、事後確率Pt,k,lとを用いて、メル周波数軸上での雑音抑圧フィルタFt,r Melを、下記(38)式のように推定する雑音抑圧フィルタ推定処理を実行する(ステップS241c)。なお、下記(38)式は、ベクトルの要素毎の表記である。
Figure 0006243858
次に、雑音抑圧フィルタ推定部241は、メル周波数軸上での雑音抑圧フィルタFt,r Melを、線形周波数軸上での雑音抑圧フィルタFt,r Linへ変換する雑音抑圧フィルタ変換処理を実行する(ステップS241d)。メル周波数軸上での雑音抑圧フィルタFt,r Melを、線形周波数軸上での雑音抑圧フィルタFt,r Linへ変換する処理は、3次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値が推定されるものである。ステップS241dが終了すると、雑音抑圧フィルタ推定部241の処理は終了する。
図10は、雑音抑圧装置の雑音抑圧フィルタ適用部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ適用部242は、複素数スペクトルのベクトルSpcに対して雑音抑圧フィルタFt,m Linを、下記(39)式のように掛け合わせることにより、雑音抑圧された複素数スペクトル^St,mを得るフィルタリング処理を実行する(ステップS242a)。なお、下記(39)式は、ベクトルの要素毎の表記である。
Figure 0006243858
次に、雑音抑圧フィルタ適用部242は、複素数スペクトル^St,mに対して逆高速フーリエ変換を適用することにより、フレームtにおける雑音抑圧音声^St,nを得る逆高速フーリエ変化処理を実行する(ステップS242b)。次に、雑音抑圧フィルタ適用部242は、各フレームtの雑音抑圧音声^St,nを、下記(40)式及び(41)式のように、窓関数wを解除しながら連結して、連続した雑音抑圧音声^sτを得る波形連結処理を実行する(ステップS242c)。ステップS242cが終了すると、雑音抑圧フィルタ適用部242の処理は終了する。
Figure 0006243858
[実施形態による効果]
実施形態の効果を示すため、音声信号と雑音信号が混在する音響信号を実施形態の雑音抑圧装置200へ入力し、雑音抑圧を実施した例を示す。以下、実験方法及び結果について説明する。
実験では、AURORA4とよばれる雑音環境下音声認識データベースを用いて評価を行った。AURORA4の評価データセットは、A: 雑音の無い音声、B:6種類の雑音が混在した音声、C:異なるマイクで収録された雑音の無い音声、D:異なるマイクで収録された6種類の雑音が混在した音声の4セットで構成される。AURORA4の詳細については、文献3「N. Parihar, J. Picone, D. Pearce, H.G. Hirsch,“Performance analysis of the Aurora large vocabulary baseline system.” in Proceedings of the European Signal Processing Conference, Vienna, Austria, 2004.」に記載のとおりである。
AURORA4の音声データは、サンプリング周波数16,000Hz、量子化ビット数16ビットで離散サンプリングされたモノラル信号である。この音声データに基づく音響信号に対し、1フレームの時間長を25ms(Frame=400サンプル点)とし、10ms(Shift=160サンプル点)ごとにフレームの始点を移動させて、音響特徴抽出を行った。
音声GMM300aとして、R=24次元の対数メルスペクトルを音響特徴量とする混合分布数K=512のGMMを用い、AURORA4の雑音の混合が無い学習用音声データを用いて学習した。雑音GMMの混合分布数にはL=4を与えた。音声DNN400aには、R=24次元の対数メルスペクトルとその1次及び2次の回帰係数、及び現在のフレームを中心に前後Z=5フレームずつの特徴量を含む合計D=3R×(2Z+1)=792次元のベクトルを音響特徴量としてJ=5層の隠れ層を有し、入力層にD=792ノード、隠れ層にD=2048(j=1,・・・,4)ノード、出力層にD=K=512ノードを有するDNNを用い、AURORA4の雑音が混合した学習用音声データを用いて学習した。
音声認識は、有限状態トランスデューサーに基づく認識器により行った。有限状態トランスデューサーに基づく認識器の詳細は、文献4「T. Hori, et al.,“Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition.” IEEE Trans. on ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007.」に記載のとおりである。
音響モデルにはDNNを用いており、7層の隠れ層を有する。各隠れ層のノード数は、2048である。また、出力層のノード数は、3042である。音声認識の音響特徴量は、1フレームの時間長を25ms(Frame=400)とし、10ms(Shift=1600サンプル点)ごとにフレームの始点を移動させて分析した24次元の対数メルスペクトルとその1次及び2次の回帰係数、及び現在のフレームを中心に前後5フレームずつの特徴量を含む合計792次元のベクトルである。また、言語モデルにはTri−gramを用い、語彙数は5,000単語である。また、音声認識の評価尺度は、下記(42)式の単語誤り率(Word Error Rate:WER)とした。下記(42)式のNは総単語数、Dは脱落誤り単語数、Sは置換誤り単語数、Iは挿入誤り単語数であり、WERの値が小さい程、音声認識性能が高いことを示す。
Figure 0006243858
図11は、実施形態による効果の一例を示す図である。図11に示す「従来技術」は、、文献5「M. Fujimoto and T. Nakatani, “A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation.” in Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.」に開示されている方法による雑音抑圧結果を示す。図11は、「雑音抑圧なし」、「従来技術」、「実施形態」の各音声認識の評価結果の比較を示す。図11に示すとおり、実施形態は、従来技術に比べ、雑音を含む評価セットB及びDにおいて、WERが小さいことから、より高い雑音抑圧性能を得られることが分かる。
すなわち、実施形態によれば、様々な雑音が存在する環境において、音響信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、入力された音響信号から雑音信号を抑圧して、目的とする音声信号を高品質で取り出すことができる。
[その他の実施形態]
その他の実施形態では、図2のステップS110a及び図3のステップS120aのフレーム切り出し処理において、窓関数wとして、ハミング窓以外に、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、その他の実施形態では、音声GMM300aに代えて、音声信号の確率モデルとして、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。また、その他の実施形態では、雑音GMMに代えて、雑音信号の確率モデルとして、HMM等の他の確率モデルを用いてもよい。
また、その他の実施形態では、話者適応パラメータのベクトルbを、下記(43)式のように、音声GMM300aに含まれる正規分布の番号kに依存するパラメータとしてもよい。
Figure 0006243858
また、その他の実施形態では、図6のステップS230g及び図7に示す信頼データ選択処理を、k−meanクラスタリングに代えて、下記(44)式に示すように、所定閾値ThSNRを用いて実行してもよい。
Figure 0006243858
また、その他の実施形態では、図9のステップS241cの雑音抑圧フィルタ推定処理において、上記(38)式のような各事後確率Pt,k,lの重み付け平均ではなく、最大の重みつまり最大の事後確率Pt,k,lにより重み付けした推定結果を用いてもよい。この場合、最大の事後確率Pt,k,lが他の事後確率Pt,k,lと比べて十分大きいことが望ましい。
(音声モデル学習装置及び雑音抑圧装置の装置構成について)
図1に示す音声モデル学習装置100及び図4に示す雑音抑圧装置200の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音声モデル学習装置100及び雑音抑圧装置200の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、音声モデル学習装置100及び雑音抑圧装置200は、一体の装置であってもよい。
また、実施形態では、音声モデル学習装置100及び雑音抑圧装置200は別装置とし、音声モデル学習装置100の第1音響特徴抽出部110及び第2音響特徴抽出部120と、雑音抑圧装置200の第1音響特徴抽出部210及び第2音響特徴抽出部220とは、それぞれ異なる機能構成部とした。しかし、これに限らず、第1音響特徴抽出部110と第1音響特徴抽出部210、及び/又は、第2音響特徴抽出部120と第2音響特徴抽出部220は、同一の機能構成部であってもよい。
また、実施形態では、音声GMM記憶装置300及び音声DNN記憶装置400は、音声モデル学習装置100及び雑音抑圧装置200と別装置であるとした。しかし、これに限らず、音声GMM記憶装置300及び/又は音声DNN記憶装置400は、音声モデル学習装置100及び/又は雑音抑圧装置200と一体の装置であってもよい。
また、音声モデル学習装置100及び雑音抑圧装置200において行われる各処理は、全部又は任意の一部が、CPU(Central Processing Unit)等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、音声モデル学習装置100及び雑音抑圧装置200において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
(プログラムについて)
図12は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声モデル学習装置100及び雑音抑圧装置200の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、音声モデル学習装置100及び雑音抑圧装置200における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
100 音声モデル学習装置
110 第1音響特徴抽出部
120 第2音響特徴抽出部
130 最尤分布推定部
140 音声DNN学習部
200 雑音抑圧装置
210 第1音響特徴抽出部
220 第2音響特徴抽出部
230 パラメータ推定部
231 初期化部
232 確率及び信号推定部
233 信頼データ選択部
234 話者適応パラメータ推定部
235 雑音GMM推定部
236 収束判定部
240 雑音抑圧部
241 雑音抑圧フィルタ推定部
242 雑音抑圧フィルタ適用部
300 音声GMM記憶装置
300a 音声GMM
400 音声DNN記憶装置
400a 音声DNN
1000 コンピュータ
1010 メモリ
1020 CPU

Claims (12)

  1. 音声モデル学習装置が実行する音声モデル学習方法であって、
    学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出工程と、
    前記学習用特徴量抽出工程により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成工程と、
    前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出工程と、
    前記音声ラベル生成工程により生成されたラベル情報と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習工程と
    を含んだことを特徴とする音声モデル学習方法。
  2. 前記音声モデル学習工程は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
    ことを特徴とする請求項1に記載の音声モデル学習方法。
  3. 雑音抑圧装置が実行する雑音抑圧方法であって、
    請求項1又は2に記載の音声モデル学習方法により学習された前記音声モデルを音声モデル記憶部に保存する音声モデル記憶工程と、
    音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出工程と、
    前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出工程と、
    前記音声モデルと、前記正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算工程と、
    前記音声事後確率計算工程により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧工程と
    を含んだことを特徴とする雑音抑圧方法。
  4. 前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定工程と、
    前記信号推定工程により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定工程と、
    前記信号推定工程により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成工程と、
    前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成工程と、
    前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算工程と
    をさらに含み、
    前記信号推定工程、前記話者適応パラメータ推定工程、前記雑音混合正規分布生成工程、前記混合正規分布生成工程及び前記期待値計算工程は、前記期待値計算工程により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
    ことを特徴とする請求項3に記載の雑音抑圧方法。
  5. 前記信号推定工程により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択工程
    をさらに備え、
    前記話者適応パラメータ推定工程は、前記選択工程により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
    前記雑音混合正規分布生成工程は、前記選択工程により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
    ことを特徴とする請求項4に記載の雑音抑圧方法。
  6. 学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出部と、
    前記学習用特徴量抽出部により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成部と、
    前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出部と、
    前記音声ラベル生成部により生成されたラベル情報と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習部と
    を備えることを特徴とする音声モデル学習装置。
  7. 前記音声モデル学習部は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
    ことを特徴とする請求項6に記載の音声モデル学習装置。
  8. 請求項6又は7に記載の音声モデル学習装置により学習された前記音声モデルを記憶する音声モデル記憶部と、
    音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出部と、
    前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出部と、
    前記音声モデルと、前記正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算部と、
    前記音声事後確率計算部により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧部と
    を備えることを特徴とする雑音抑圧装置。
  9. 前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定部と、
    前記信号推定部により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定部と、
    前記信号推定部により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成部と、
    前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成部と、
    前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算部と
    をさらに備え、
    前記信号推定部、前記話者適応パラメータ推定部、前記雑音混合正規分布生成部、前記混合正規分布生成部及び前記期待値計算部は、前記期待値計算部により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
    ことを特徴とする請求項8に記載の雑音抑圧装置。
  10. 前記信号推定部により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択部
    をさらに備え、
    前記話者適応パラメータ推定部は、前記選択部により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
    前記雑音混合正規分布生成部は、前記選択部により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
    ことを特徴とする請求項9に記載の雑音抑圧装置。
  11. 請求項6又は7に記載の音声モデル学習装置としてコンピュータを機能させる音声モデル学習プログラム。
  12. 請求項8、9又は10に記載の雑音抑圧装置としてコンピュータを機能させる雑音抑圧プログラム。
JP2015021453A 2015-02-05 2015-02-05 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム Active JP6243858B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015021453A JP6243858B2 (ja) 2015-02-05 2015-02-05 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015021453A JP6243858B2 (ja) 2015-02-05 2015-02-05 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム

Publications (2)

Publication Number Publication Date
JP2016143043A JP2016143043A (ja) 2016-08-08
JP6243858B2 true JP6243858B2 (ja) 2017-12-06

Family

ID=56570438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015021453A Active JP6243858B2 (ja) 2015-02-05 2015-02-05 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム

Country Status (1)

Country Link
JP (1) JP6243858B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7019138B2 (ja) * 2017-02-28 2022-02-15 国立大学法人電気通信大学 符号化装置、符号化方法およびプログラム
JP6588936B2 (ja) * 2017-03-22 2019-10-09 日本電信電話株式会社 雑音抑圧装置、その方法、及びプログラム
CN106991999B (zh) * 2017-03-29 2020-06-02 北京小米移动软件有限公司 语音识别方法及装置
CN107452389B (zh) * 2017-07-20 2020-09-01 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN109754821B (zh) * 2017-11-07 2023-05-02 北京京东尚科信息技术有限公司 信息处理方法及其系统、计算机系统和计算机可读介质
WO2019162990A1 (ja) * 2018-02-20 2019-08-29 三菱電機株式会社 学習装置、音声区間検出装置および音声区間検出方法
CN108922560B (zh) * 2018-05-02 2022-12-02 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
JP7231181B2 (ja) * 2018-07-17 2023-03-01 国立研究開発法人情報通信研究機構 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
CN111028852A (zh) * 2019-11-06 2020-04-17 杭州哲信信息技术有限公司 一种基于cnn的智能呼叫系统中的噪声去除方法
JP7504601B2 (ja) * 2020-01-28 2024-06-24 株式会社東芝 信号処理装置、信号処理方法およびプログラム
CN111402922B (zh) * 2020-03-06 2023-06-30 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN111489763B (zh) * 2020-04-13 2023-06-20 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN113223505B (zh) * 2021-04-30 2023-12-08 珠海格力电器股份有限公司 模型训练、数据处理方法、装置、电子设备及存储介质
CN113593591B (zh) * 2021-07-27 2024-06-11 北京小米移动软件有限公司 语料降噪方法及装置、电子设备和存储介质
KR20240056314A (ko) * 2022-10-21 2024-04-30 주식회사 히어디엘 대역통과필터와 딥러닝을 이용한 음성파형의 주변잡음 제거 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5670298B2 (ja) * 2011-11-30 2015-02-18 日本電信電話株式会社 雑音抑圧装置、方法及びプログラム
JP5740362B2 (ja) * 2012-07-31 2015-06-24 日本電信電話株式会社 雑音抑圧装置、方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统

Also Published As

Publication number Publication date
JP2016143043A (ja) 2016-08-08

Similar Documents

Publication Publication Date Title
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
Li et al. An overview of noise-robust automatic speech recognition
EP1515305B1 (en) Noise adaption for speech recognition
EP2189976B1 (en) Method for adapting a codebook for speech recognition
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
JPH0850499A (ja) 信号識別方法
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
WO2010019831A1 (en) Hidden markov model for speech processing with training method
JPWO2009133719A1 (ja) 音響モデル学習装置および音声認識装置
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
KR102406512B1 (ko) 음성인식 방법 및 그 장치
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
JP5997114B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP4960845B2 (ja) 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
Ming et al. An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion
JP2004509364A (ja) 音声認識システム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171110

R150 Certificate of patent or registration of utility model

Ref document number: 6243858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150