JP4464797B2 - 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 - Google Patents

音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP4464797B2
JP4464797B2 JP2004333487A JP2004333487A JP4464797B2 JP 4464797 B2 JP4464797 B2 JP 4464797B2 JP 2004333487 A JP2004333487 A JP 2004333487A JP 2004333487 A JP2004333487 A JP 2004333487A JP 4464797 B2 JP4464797 B2 JP 4464797B2
Authority
JP
Japan
Prior art keywords
noise
signal
speech
model
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004333487A
Other languages
English (en)
Other versions
JP2006145694A (ja
Inventor
哲 小橋川
敏 高橋
義和 山口
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004333487A priority Critical patent/JP4464797B2/ja
Publication of JP2006145694A publication Critical patent/JP2006145694A/ja
Application granted granted Critical
Publication of JP4464797B2 publication Critical patent/JP4464797B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下、HMMという。)を用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。図1に従来のHMMを用いた音声認識装置の構成例を示す。音声信号入力端子11から入力された音声は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部13において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したHMMをモデルパラメータメモリ14から読み出し、モデル照合尤度計算部15において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果として認識結果出力部16より出力する。
背景雑音などの加法性雑音が重畳した音声の認識方法として、背景雑音が重畳した音声の確率モデルである雑音重畳音声モデルを作成し、作成した雑音重畳音声モデルを用いて認識する雑音重畳モデル作成法と、入力信号に対して雑音成分を推定し、推定した雑音成分を除去する雑音抑圧処理後の信号を用いて認識する雑音抑圧法とがある。
まず、雑音重畳モデル作成法について3つの方法を説明する。1つ目は入力信号における背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
雑音重畳モデル作成法の2つ目は、HMMの合成による雑音重畳音声の認識手法、以下HMM合成法(例えば、非特許文献1)である。雑音重畳音声に対しては、上記のように雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、HMMを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、この方法では雑音のない大量の音声データをもとに予めクリーン音声HMMを作成しておき、認識時には観測した背景雑音から作成した雑音HMMと、上記クリーン音声HMMを合成する。合成した雑音重畳音声HMMは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。
3つ目は、Taylor展開による音響モデルの適応(ヤコビアン適応法)による雑音重畳音声の認識手法(例えば、非特許文献2)である。前述のHMM合成法で行っているモデルパラメータの非線形変換をTaylor展開の1次項を用いて線形近似することで、雑音適応が可能になる。HMM合成法に比べ、音声モデルの処理時間も少なく、高速に雑音適応ができ、雑音の変化に追従できる。
次に、雑音抑圧法について2つの方法を説明する。1つ目は、スペクトルサブトラクション法(以下、SS法という。)に基づく雑音抑圧法である(例えば、非特許文献3)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では雑音重畳音声から推定雑音成分を線形パワースペクトル上で減算し、音声成分を抽出する。図2にスペクトルサブトラクションを用いた音声認識装置の構成例を示す。音声入力端子11から入力された音声は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号は、雑音であるか、雑音重畳音声であるかを音声/雑音判定部21で判定される。雑音であるならば、音声/雑音スイッチ22を雑音端子24側に接続し、平均雑音パワースペクトル計算部25で雑音区間の平均パワースペクトルを計算する。認識対象である雑音重畳音声区間であると判定された場合は、音声/雑音判定スイッチ22を音声端子23側に接続し、雑音重畳音声パワースペクトル計算部26において、雑音重畳音声のパワースペクトルを計算する。そして、スペクトルサブトラクション部27において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルY(t,f)は、以下のように計算される。
D(Y(t,f))=Y(t,f)−αN^(f)
(t,f)=D(Y(t,f)) : D(Y(t,f))>βY(t,f)の場合
(t,f)=βY(t,f) : その他の場合 (1)
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、
N^(f)は推定された周波数fの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常1より大きい。
βはフロアリング係数であり、1より小さい。
スペクトルサブトラクション部27から出力されるパワースペクトルから、音声認識の特徴パラメータ(例えば、12次元のMFCC(Mel−Frequency Cepstrum Coefficien))を特徴パラメータ抽出部13で計算する。これ以後の処理は、図1で説明した通りである。
雑音抑圧法の2つ目は、ウィナー・フィルタ法(以下、WF法という。)に基づく雑音抑圧法について図3を参照して説明する(例えば、非特許文献4参照)。
平均雑音パワー計算部25で平均雑音パワースペクトルを求め、雑音重畳音声パワー計算部26で雑音重畳音声パワースペクトルを求める。これらを用いて音声/雑音スイッチ22の音声端子23側からの雑音重畳音声信号に対し、雑音抑圧処理部31で雑音抑圧処理が行われる。まずゲイン関数計算部32でWF法のゲイン関数Gが式(2)により計算される。
G=E[|S|]/(E[|S|]+E[|N|]) (2)
ただし、E[|S|]とE[|N|]はそれぞれ音声信号と雑音信号の各集合平均を表す。
つまり式(2)は音声信号のパワーレベル/雑音重畳音声信号のパワーレベルを意味しており、雑音重畳音声パワー計算部26から出力される式(2)の分母E[|S|]+E[|N|]と対応する値から、平均雑音パワー計算部25から出力されるE[|N|]と対応する値を引算して式(2)の分子E[|S|]と対応する値を求め、式(2)を計算する。次にウィナーフィルタ処理部33において、音声端子23側から入力された雑音抑圧前の信号Zに対してゲイン関数Gを乗算し、WF法による雑音抑圧処理された信号S^=GZが求められる。
このようにWF法による雑音抑圧法は、フレーム毎のS/Nを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部33で雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献5に示されている。つまりウィナーフィルタ処理部33の出力に対し、原音付加部34で式(3)を計算する。
S’=(1−δ)Z+δS^ (3)
非特許文献5によれば、原音付加率(1−δ)を0.2とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約14dBとなることが記載されている。
マイクの特性や空間伝達特性などの乗法性歪みが重畳した音声の認識方法として、入力信号に対して長時間平均特徴パラメータを正規化する手法について述べる。乗法性歪みが重畳した音声の認識性能を改善する方法として、従来からケプストラム平均正規化法(Cepstral Mean Normalization、以下、CMN法という。)が知られている(例えば、非特許文献6)。CMN法は、音声の長時間平均スペクトルが同一であるという仮定から、乗法性歪みの影響が長時間ケプストラム平均の差に現れることを利用して、信号の各フレームから得られるケプストラムから長時間ケプストラム平均分を差し引いた成分を特徴量として用いるととにより、乗法性歪みに影響を取り除いている。このように各フレームから得られるケプストラムから前記長時間ケプストラム平均を減算することをケプストラム平均正規化(CMN)という。
加法性雑音と乗法性歪みが重畳した音声の認識方法として、CMN法とHMM合成法を連携させる手法について説明する。図11に機能構成の例を、図12に処理手順の例を示す。この従来法では、認識対象の雑音重畳した音声信号が入力するまでは、雑音モデル合成部1101で雑音モデルの学習を行い(ステップS2’)、音声信号が入力すると、スペクトルサブトラクション部1102で雑音除去を行い(ステップS4)、長時間ケプストラム平均計算部1103で雑音除去後の入力音声信号の長時間ケプストラム平均を抽出する(ステップS5)。次に、CMN処理済のモデル学習用クリーン音声から作成されたCMN済みクリーン音声モデルのモデルパラメータに対して、モデルパラメータ更新部47で上記長時間ケプストラム平均を加算する(ステップS7)ことにより、長時間ケプストラム平均の正規化を行い、乗法性歪み重畳音声モデルパラメータメモリ43に格納する。そして、長時間ケプストラム平均の正規化済み音声モデルに対して、雑音適応部42でHMM合成法により入力信号中の雑音に適応することにより乗法性歪み及び加法性雑音にも適応した音声モデルを得て(ステップS8)、歪み・雑音重畳音声モデルパラメータメモリ48に格納する。得られた音声モデルを用いて、雑音が重畳した音声信号に対して認識を行い(ステップS3,S9)、結果を出力する(ステップS10)。このような方法により、乗法性歪み及び加法性雑音の環境下でも高い認識性能を得ようとしている。
F.Martin他:"Recognition of Noisy Speech by Composition of Hidden Markov Models,"電子情報通信学会技術研究報告SP92−96,pp.9−16,1992 山口義和、高橋淳一、高橋敏、嵯峨山茂樹、"Taylor展開による音響モデルの適応"電子情報通信学会技術研究報告SP96−78,pp.1−8,1996 Steven F.Boll:"Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing, Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979 S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003 B.S.Ata1, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," Proc. J. Acoust. Soc. Am, Vo1.55, pp.1304-1312, 1974
従来法では、SS法による雑音抑圧処理後の雑音重畳音声から長時間ケプストラム平均を求めている。雑音が完全に除去できれば、この長時間ケプネトラム平均は、乗法性歪みを反映したパラメータとなる。しかしながら、雑音抑圧処理を施しても、完全に雑音を除去することは出来ないにもかかわらず、雑音が完全に無くなった前提で処理をしているため、長時間ケプストラム平均の推定誤差による認識精度の低下が避けられない。また、この方法で認識精度を向上させるためには、上記推定誤差を最小化する最適な抑圧処理のパラメータを求めるなどの追加の処理が必要である。すなわち、SS法などの雑音抑圧処理を用いたとしても、乗法性歪みに加え加法性雑音が重畳した音声から、乗法性歪み成分のみに相当する長時間ケプストラム平均を抽出することは困難である。
さらに、従来法は、音声信号が入力されてから、長時間ケプストラム平均計算、モデルパラメータ更新、およびクリーン音声モデルと雑音モデルとの合成を行い、その結果得られる音声モデルを用いて入力音声の認識を行うため、音声認識の開始時間が遅れてしまう。特に、クリーン音声モデルは膨大な情報からなっているため、クリーン音声モデルと雑音モデルとの合成での遅延が大きい。したがって、オンライン処理などの応答速度が求められるアプリケーションへの適応が困難であった。
本発明では、音声信号が入力される前に、少なくとも観測した雑音から雑音モデルを学習し、クリーン音声モデルと雑音モデルとの合成、観測した雑音を重畳した基準信号の特徴パラメータの長時間平均の計算を行っておく。音声信号が入力されると、雑音が重畳された音声信号の特徴パラメータを抽出し、特徴パラメータの長時間平均を計算し、モデル照合尤度計算を行う。
本発明では、雑音が重畳されている前提で雑音重畳音声モデルを生成するため、推定誤差による認識精度の低下を避けることができる。また、遅延の主要因であったクリーン音声モデルと雑音モデルとの合成を、音声信号が入力される前に行うことができ、処理遅延の大幅な短縮が可能である。
以下、本発明の実施形態の図面を参照して説明するが、この明細書及び図面において対応する部分には同一参照符号を付けて重複説明を省略する。
[第1実施形態]
本発明は、伝達特性の違いに起因する特徴パラメータの長時間平均の差分を埋めるために、特徴パラメータと照合に用いる音声モデルの特徴パラメータの長時間平均を一致させる。具体的には、雑音を重畳させる基準信号(例えば、50文程度の雑音の無いクリーン音声信号)の長時間ケプストラム平均と、合成した雑音重畳音声モデルの長時間ケプストラム平均とが同一と仮定し、認識対象の音声信号に対する特徴パラメータの長時間ケプストラム平均と一致するように照合用の音声モデルパラメータを更新する。なお、特徴パラメータとして、ケプストラムに限らず、MFCCやLPCケプストラムを用いてもよい。
本発明の機能構成例を図4に、その処理手順を図5に示す。本発明の最も重要な点は、図4のモデル適応部410である。以下に本発明の流れを説明する。
ステップS1
入力端子11より入力した音声信号はA/D変換部12でディジタル信号に変換され、フレーム処理された後、音声/雑音判定部21により音声区間が開始されたか否かが判定される。音声区間が開始していないと判定されている間は、音声/雑音スイッチ22は雑音端子24側と接続される。
ステップS2
上記ディジタル信号は雑音区間の信号として処理される。この雑音区間の信号から、雑音モデル作成部411では、例えば雑音HMMなどの雑音モデルが学習される。
ステップS3
雑音適応部42では、この雑音モデルとクリーン音声モデルパラメータメモリ41に格納済みのクリーン音声モデルから雑音重畳音声モデルが合成され、雑音重畳音声モデルパラメータメモリ43に格納される。クリーン音声モデルパラメータメモリ41に格納済みのクリーン音声モデル膨大な量の情報であり、雑音重畳音声モデルの合成を音声信号が入力される前に実行しておくことが本発明の重要なポイントの1つである。
ステップS4
雑音重畳部45では、上記雑音区間の信号を基準信号メモリ44に格納してある基準信号に重畳する。なお、基準信号は、クリーン音声モデル用の学習データの一部を用いてもよいし、別の雑音の無い音声データを用いてもよい。また、雑音区間の信号の重畳の方法としては、例えば、基準信号のフレーム数と同じフレーム数の直近の雑音区間の信号を重畳してもよいし、最新フレームの雑音区間の信号を基準信号のフレーム数回繰り返して重畳してもよい。基準信号に観測された雑音を重畳させることで、雑音が存在する前提での処理となり、長時間ケプストラム平均の推定誤差による認識精度の低下を避けることができる。
ステップS5
長時間ケプストラム平均計算部46では、上記雑音区間の信号が重畳された基準信号の長時間ケプストラム平均を計算する。長時間平均では、より長時間の平均を行う方が一般的に精度は良くなるため、当該フレームまでの全フレームの平均を計算する方法もある。
ステップS1
一方、音声/雑音判定部21により音声区間であると判定された場合、音声/雑音スイッチ22は音声端子23側と接続され、上記ディジタル信号は音声区間の信号として処理される。
ステップS7
上記音声区間の信号は、特徴パラメータ抽出部13で特徴パラメータが抽出される。
ステップS5’
長時間ケプストラム平均計算部412では、抽出した音声区間の信号の特徴パラメータから上記音声区間の信号の長時間ケプストラム平均が計算される。長時間ケプストラム平均差分計算部61では、上記音声区間の信号の長時間ケプストラム平均と、ステップS5で得られた雑音が重畳された基準信号の長時間ケプストラム平均との差分が計算される。
なお、上記のように長時間平均では、より長時間の平均を行う方が一般的に精度は良くなる。特に雑音を重畳された基準信号の長時間ケプストラム平均は、雑音区間の信号が入力している間に行われるため、音声認識処理の遅延に関係が無く、長時間の平均化処理が望ましい。したがって、雑音を重畳された基準信号の長時間ケプストラム平均の平均時間を長くし、音声区間の信号の長時間ケプストラム平均の平均時間を短くする方法がある。具体的には、雑音を重畳された基準信号の長時間ケプストラム平均の平均化を発話単位とし、音声区間の信号の長時間ケプストラム平均の平均時間を1秒程度(例えば、シフト長10ミリ秒で100フレーム程度)とする方法などである。
一方、長時間平均の差分の精度は、2つの長時間平均の精度の悪い方によって決まるため、片方の長時間平均のみを一方的に高精度とする必要性は低く、同じフレーム数の長時間平均を行う方法も合理的である。具体的には、両方の長時間平均の計算時間をともに発話単位とする方法や、1秒程度とする方法などがある。
ステップS6
モデルパラメータ更新部47で、雑音重畳音声モデルパラメータメモリ43に格納されている雑音重畳音声モデルパラメータに、ステップS5’で得られた差分を加算してモデルパラメータを更新する。更新されたモデルパラメータは、CMN済雑音重畳音声モデルパラメータメモリ48に格納される。
なお、モデルパラメータの更新は、フレームごとに行ってもよいし、上記長時間平均を行うフレーム数に1回行ってもよい。フレームごとに更新する場合には、長時間平均は1フレームごとにシフトさせながら毎フレーム行うことになる。
ステップS9
モデル照合尤度計算部15では、ステップS7で得られた特徴パラメータに対して、ステップS6で得られたモデルとのモデル照合尤度が計算される。
ステップS10
認識結果出力部16で認識結果が出力される。
なお、再び雑音区間となった場合の処理は、本発明の使われ方によっていくつかの方法がある。例えば、あらかじめ閾値を定めておき、閾値以上に雑音区間の時間が長くなった場合には音声/雑音スイッチ22を雑音端子24側に接続し、雑音区間の信号の処理手順に戻る方法、雑音区間が閾値以上に長くなった場合には処理を終了し、別の装置やオペレータなどからの指示によって再び処理を開始する方法、一度、音声区間のなった場合には別の装置やオペレータなどからの指示があるまでは音声区間の信号の処理手順を続ける方法などである。
[第2実施形態]
本発明では、雑音の無い環境の音声から作成されたクリーン音声モデルを用いて観測した雑音に適応した雑音重畳音声モデルを合成するとともに、基準信号(例えば、50文程度の雑音の無いクリーン音声信号)に対して雑音を重畳した信号の長時間ケプストラム平均を計算し、前記雑音重畳音声モデルのパラメータから前記長時間ケプストラム平均を減算することで、長時間ケプストラム平均正規化(CMN)済雑音重畳音声モデルを合成し、観測した音声信号に対しては長時間ケプストラム平均正規化を行い、上記の合成したモデルから認識結果を得る。なお、第1実施形態の場合と同様に、特徴パラメータとして、ケプストラムに限らず、MFCCやLPCケプストラムを用いてもよい。
本発明の機能構成例を図6に、処理手順を図7に示す。本発明の最も重要な処理は、モデル適応部410およびステップS11である。
雑音区間でのステップS1からステップS5までは、第1実施形態と同じである。
ステップS6
モデルパラメータ更新部47では、雑音重畳音声モデルパラメータメモリ43に格納されている雑音重畳音声モデルパラメータから、雑音重畳基準信号の長時間ケプストラム平均を減算することでモデルパラメータを更新し、結果をCMN済雑音重畳音声モデルパラメータメモリ48に格納する。本発明では、モデルパラメータの更新を音声信号の入力前にのみ行い、音声信号入力後には行わない点が、第1実施形態と異なる点である。したがって、第1実施形態にくらべ、モデルパラメータ更新に必要な時間だけ音声認識の遅延を短縮できる。
ステップS1
一方、音声/雑音判定部21により音声区間であると判定された場合、音声/雑音スイッチ22は音声端子23側と接続され、上記ディジタル信号は音声区間の信号として処理される。
ステップS7
上記音声区間の信号は、特徴パラメータ抽出部13で特徴パラメータが抽出される。
ステップS8
長時間ケプストラム平均計算部412では、上記特徴パラメータから音声区間の信号の長時間ケプストラム平均が計算される。ケプストラム平均正規化処理部49では、上記特徴パラメータから上記音声区間の信号の長時間ケプストラム平均を減算する正規化の処理が行われる。
ステップS9
モデル照合尤度計算部15では、ステップS8で得られた正規化された特徴パラメータに対して、ステップS6で得られたモデルとのモデル照合尤度が計算される。
ステップS10
認識結果出力部16で認識結果が出力される。
なお、再び雑音区間となった場合の処理については、第1実施形態と同じである。
[第3実施形態]
本発明では、第1、2実施形態に加えて音声信号及び雑音信号に対して、例えば上記のスペクトルサブトラクション法やウィナーフィルタ法に基づく雑音抑圧処理を含む。雑音抑圧処理により、雑音に埋もれていた音声信号の特徴の抽出精度が向上するとともに、特徴パラメータの長時間平均の抽出精度が向上することが期待され、高い認識性能が期待できる。本発明は、雑音抑圧処理を行う点では図11、12に示した従来の方法と同じであるが、雑音抑圧処理によって完全に雑音が消去されたという前提ではなく、残った雑音が重畳した音声信号を第1、2実施形態の入力信号としている。第3実施形態の機能構成例を図8に、処理手順を図9に示す。
ステップS1
入力端子11より入力した音声信号はA/D変換部12でディジタル信号に変換され、フレーム処理された後、音声/雑音判定部21により音声区間が開始されたか否かが判定される。音声区間が開始していないと判定されている間は、音声/雑音スイッチ22は雑音端子24側と接続される。
ステップS12
上記ディジタル信号は雑音区間の信号として処理される。雑音抑圧処理部81では、この雑音区間の信号に対して、雑音成分が抑圧される。具体的な抑圧方法にはスペクトルサブトラクション法やウィナーフィルタ法などがある。
ステップS11
抑圧処理後の信号を用いてモデル適応が行われる。
ステップS1
一方、音声/雑音判定部21により音声区間であると判定された場合、音声/雑音スイッチ22は音声端子23側と接続され、上記ディジタル信号は音声区間の信号として処理される。
ステップS13
上記音声区間の信号に対しても、ステップS12と同じように雑音抑圧処理が行われる。
以後の処理は、第1実施形態及び第2実施形態と同じである。ただし、以後の処理で第1実施形態を用いた場合は、ケプストラム平均正規化処理49(ステップS8)を通らず、図8、9の破線の矢印のパスとなる。
[実験例]
第3実施形態に基づく雑音・伝達特準重畳音声認識の実験例について述べ・本実施形態の効果を明らかにする。音響モデルは、音素環境依存音素数30、3状態、8混合分布モデルを用いた。特徴パラメータは、12次元のMFCC、ΔMFCC、Δパワーである。サンプリング周波数は、16kHzである。評価用音声データは男女各8名の話者が発声した4桁数字計640発声である。この音声に対して、マイクと音源(スピーカ)との距離が50cm程度離れた位置にある環境における、音源−マイク間のインパルス応答を測定し、測定したインパルス応答を計算機上で重畳し、伝達特性を模擬した音声を合成した。これに、ノートPCの内蔵マイクで収音したPCのファン雑音を計算機上で重畳した。重畳音声のS/N比が、20dB、25dB、30dBとなるように評価データの音声のパワーレベルを調整して雑音を重畳した。スペクトルサブトラクションのための平均雑音パワースペクトルは、3秒の雑音区間から計算した。スペクトルサブトラクシ'ヨンの係数は、α=1.0、β=0.5とした。
図10にS/N比を変えた時の、各手法の認識率を示す。雑音・伝達特性重畳音声をクリーン音声HMMで認識した場合(対策無し)、スペクトルサブトラクション法を用いた場合(SS)、HMM合成を用いた場合(HMM合成)、および第3実施形態に基づく手法(SS−HMM合成+CMN)について実験した。第3実施形態に基づく手法の性能が、全てのS/Nで従来の手法に比べ、良い手法であることが示された。
従来のHMMを用いた音声認識装置の機能構成を示すブロック図である。 従来のスペクトルサブトラクション法による雑音抑圧処理を用いた音声認識装置の機能構成を示すブロック図である。 従来のウィナーフィルタ法による雑音抑圧処理を用いた音声認識装置の機能構成を示すブロック図である。 第1実施形態の機能構成を示す図である。 第1実施形態の処理手順を示す図である。 第2実施形態の機能構成を示す図である。 第2実施形態の処理手順を示す図である。 第3実施形態の機能構成を示す図である。 第3実施形態の処理手順を示す図である。 各種手法による音声認識の実験結果を示すグラフ。 従来手法の機能構成の例を示す図である。 従来手法の処理手順の例を示す図である。

Claims (12)

  1. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
    前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
    前記雑音区間の信号から生成された雑音モデルとあらかじめ用意された雑音のない音声モデルとを合成する雑音重畳音声モデル合成過程と、
    前記雑音区間の信号をあらかじめ用意した雑音のない音声信号に重畳し、該重畳信号のケプストラムの長時間平均を求める過程と
    記音声区間の信号のケプストラムの長時間平均を求め、前記重畳信号のケプストラムの長時間平均との差分を求める過程と、
    前記長時間平均の差分によって前記雑音重畳音声モデルを更新する過程と、
    前記更新された雑音重畳音声モデルを用いて尤度を計算する過程と、
    を含むことを特徴とする音声認識方法。
  2. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
    前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
    前記雑音区間の信号から生成された雑音モデルとあらかじめ用意された雑音のない音声モデルとを合成する雑音重畳音声モデル合成過程と、
    前記雑音区間の信号をあらかじめ用意した雑音のない音声信号に重畳し、該重畳信号のケプストラムの長時間平均を求める過程と、
    前記重畳信号のケプストラムの長時間平均によって前記雑音重畳音声モデルを更新する過程と
    記音声区間の信号のケプストラムの長時間平均を求め、該ケプストラムの長時間平均から前記音声区間の信号の特徴パラメータを正規化する過程と、
    前記正規化された音声区間の信号の特徴パラメータに対して、前記更新された雑音重畳音声モデルを用いて尤度を計算する過程と、
    を含むことを特徴とする音声認識方法。
  3. 前記雑音区間の信号を重畳した前記雑音のない音声信号のケプストラムの長時間平均における平均する時間と、前記音声区間の信号のケプストラムの長時間平均における平均する時間とを同じにすること
    を特徴とする請求項1または2に記載の音声認識方法。
  4. 前記ケプストラムがMFCC又はLPCケプストラムであることを特徴とする請求項1乃至3のいずれかに記載の音声認識方法。
  5. 入力信号に対して雑音抑圧処理を行う過程
    を含むことを特徴とする請求項1〜のいずれかに記載の音声認識方法。
  6. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
    雑音のない音声モデルを蓄積するクリーン音声モデル格納部と、
    雑音のない音声信号を蓄積する基準信号格納部と、
    前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声/雑音判定部と、
    前記雑音区間の信号から生成された雑音モデルと前記クリーン音声モデル格納部に記憶された雑音のない音声モデルとを合成し、雑音重畳音声モデルを生成する雑音適応部と、
    前記雑音区間の信号を基準信号格納部に記憶された雑音のない音声信号に重畳する雑音重畳部と、
    雑音が重畳された雑音のない音声信号のケプストラムの長時間平均を求める雑音区間の長時間平均部と
    記音声区間の信号のケプストラムの長時間平均を求める、音声区間の長時間平均部と、
    前記音声区間の信号のケプストラムの長時間平均と前記雑音重畳部の出力信号のケプストラムの長時間平均との差分を求める差分計算部と、
    前記長時間平均の差分によって前記雑音重畳音声モデルを更新するモデルパラメータ更新部と、
    前記更新された雑音重畳音声モデルを用いて尤度を計算するモデル照合尤度計算部と、
    を具備することを特徴とする音声認識装置。
  7. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
    雑音のない音声モデルを蓄積するクリーン音声モデル格納部と、
    雑音のない音声信号を蓄積する基準信号格納部と、
    前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声/雑音判定部と、
    前記雑音区間の信号から生成された雑音モデルと前記クリーン音声モデル格納部に記憶された雑音のない音声モデルとを合成し、雑音重畳音声モデルを生成する雑音適応部と、
    前記雑音区間の信号を基準信号格納部に記憶された雑音のない音声信号に重畳する雑音重畳部と、
    雑音が重畳された雑音のない音声信号のケプストラムの長時間平均を求める雑音区間の長時間平均部と、
    前記雑音が重畳された雑音のない音声信号のケプストラムの長時間平均によって前記雑音重畳音声モデルを更新するモデルパラメータ更新部と
    記音声区間の信号のケプストラムの長時間平均を求める、音声区間の長時間平均部と、
    前記音声区間の信号のケプストラムの長時間平均によって、前記音声区間の信号の特徴パラメータを正規化する平均正規化処理部と、
    前記正規化された音声区間の信号の特徴パラメータに対して、前記更新された雑音重畳音声モデルを用いて尤度を計算するモデル照合尤度計算部と、
    を具備することを特徴とする音声認識装置。
  8. 前記ケプストラムがMFCC又はLPCケプストラムであることを特徴とする請求項6または7に記載の音声認識装置。
  9. 前記雑音を重畳した雑音のない音声信号の長時間平均部で平均化する時間と、前記音声区間の長時間平均部で平均化する時間とを同じにすること
    を特徴とする請求項6〜8のいずれかに記載の音声認識装置。
  10. 入力信号に対して雑音抑圧処理を行う雑音抑圧処理部
    を具備することを特徴とする請求項6〜9のいずれかに記載の音声認識装置。
  11. 請求項1〜のいずれかに記載の音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
  12. 請求項11に記載の音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2004333487A 2004-11-17 2004-11-17 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 Expired - Fee Related JP4464797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004333487A JP4464797B2 (ja) 2004-11-17 2004-11-17 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004333487A JP4464797B2 (ja) 2004-11-17 2004-11-17 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2006145694A JP2006145694A (ja) 2006-06-08
JP4464797B2 true JP4464797B2 (ja) 2010-05-19

Family

ID=36625501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004333487A Expired - Fee Related JP4464797B2 (ja) 2004-11-17 2004-11-17 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4464797B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI356399B (en) 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
JP2013164572A (ja) 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP6092345B2 (ja) * 2012-01-10 2017-03-08 株式会社東芝 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
US9666204B2 (en) * 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
KR102260216B1 (ko) * 2019-07-29 2021-06-03 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버
KR102321792B1 (ko) * 2019-08-30 2021-11-05 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스

Also Published As

Publication number Publication date
JP2006145694A (ja) 2006-06-08

Similar Documents

Publication Publication Date Title
CN111161752B (zh) 回声消除方法和装置
Narayanan et al. Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
JP4107613B2 (ja) 残響除去における低コストのフィルタ係数決定法
Droppo et al. Environmental robustness
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
JPH0850499A (ja) 信号識別方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JP2004279466A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP3632529B2 (ja) 音声認識装置及び方法ならびに記録媒体
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP2019020678A (ja) ノイズ低減装置および音声認識装置
US9311916B2 (en) Apparatus and method for improving voice recognition
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4313728B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4856526B2 (ja) 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
Aravinda et al. Digital Preservation and Noise Reduction using Machine Learning

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees