JP4464797B2

JP4464797B2 - 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Info

Publication number: JP4464797B2
Application number: JP2004333487A
Authority: JP
Inventors: 哲小橋川; 敏高橋; 義和山口; 厚徳小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-17
Filing date: 2004-11-17
Publication date: 2010-05-19
Anticipated expiration: 2024-11-17
Also published as: JP2006145694A

Description

この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、以下、ＨＭＭという。）を用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。図1に従来のＨＭＭを用いた音声認識装置の構成例を示す。音声信号入力端子１１から入力された音声は、Ａ／Ｄ変換部１２においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部１３において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したＨＭＭをモデルパラメータメモリ１４から読み出し、モデル照合尤度計算部１５において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果として認識結果出力部１６より出力する。

背景雑音などの加法性雑音が重畳した音声の認識方法として、背景雑音が重畳した音声の確率モデルである雑音重畳音声モデルを作成し、作成した雑音重畳音声モデルを用いて認識する雑音重畳モデル作成法と、入力信号に対して雑音成分を推定し、推定した雑音成分を除去する雑音抑圧処理後の信号を用いて認識する雑音抑圧法とがある。
まず、雑音重畳モデル作成法について３つの方法を説明する。１つ目は入力信号における背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。

雑音重畳モデル作成法の２つ目は、ＨＭＭの合成による雑音重畳音声の認識手法、以下ＨＭＭ合成法（例えば、非特許文献１)である。雑音重畳音声に対しては、上記のように雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、ＨＭＭを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、この方法では雑音のない大量の音声データをもとに予めクリーン音声ＨＭＭを作成しておき、認識時には観測した背景雑音から作成した雑音ＨＭＭと、上記クリーン音声ＨＭＭを合成する。合成した雑音重畳音声ＨＭＭは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。

３つ目は、Ｔａｙｌｏｒ展開による音響モデルの適応（ヤコビアン適応法）による雑音重畳音声の認識手法(例えば、非特許文献２）である。前述のＨＭＭ合成法で行っているモデルパラメータの非線形変換をＴａｙｌｏｒ展開の1次項を用いて線形近似することで、雑音適応が可能になる。ＨＭＭ合成法に比べ、音声モデルの処理時間も少なく、高速に雑音適応ができ、雑音の変化に追従できる。
次に、雑音抑圧法について２つの方法を説明する。1つ目は、スペクトルサブトラクション法（以下、ＳＳ法という。）に基づく雑音抑圧法である(例えば、非特許文献３)。時間領域で加法性の２つの信号は、線形パワースペクトル上でも加法性であることから、ＳＳ法では雑音重畳音声から推定雑音成分を線形パワースペクトル上で減算し、音声成分を抽出する。図２にスペクトルサブトラクションを用いた音声認識装置の構成例を示す。音声入力端子１１から入力された音声は、Ａ／Ｄ変換部１２においてディジタル信号に変換される。そのディジタル信号は、雑音であるか、雑音重畳音声であるかを音声／雑音判定部２１で判定される。雑音であるならば、音声／雑音スイッチ２２を雑音端子２４側に接続し、平均雑音パワースペクトル計算部２５で雑音区間の平均パワースペクトルを計算する。認識対象である雑音重畳音声区間であると判定された場合は、音声／雑音判定スイッチ２２を音声端子２３側に接続し、雑音重畳音声パワースペクトル計算部２６において、雑音重畳音声のパワースペクトルを計算する。そして、スペクトルサブトラクション部27において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻ｔのパワースペクトルの周波数ｆの雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）は、以下のように計算される。

Ｄ(Ｙ（ｔ，ｆ）)＝Ｙ(ｔ，ｆ)−αＮ＾(ｆ)
Ｙ^Ｄ(ｔ，ｆ)＝Ｄ(Ｙ(ｔ，ｆ)) ：Ｄ(Ｙ(ｔ，ｆ))＞βＹ(ｔ，ｆ)の場合
Ｙ^Ｄ(ｔ，ｆ)＝βＹ(ｔ，ｆ) ：その他の場合（１）
ここで、Ｙ（ｔ，ｆ）は、入力雑音重畳音声の時刻ｔ、周波数ｆのパワースペクトル、
Ｎ＾(ｆ)は推定された周波数ｆの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常１より大きい。
βはフロアリング係数であり、１より小さい。
スペクトルサブトラクション部２７から出力されるパワースペクトルから、音声認識の特徴パラメータ（例えば、１２次元のＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎ））を特徴パラメータ抽出部１３で計算する。これ以後の処理は、図１で説明した通りである。

雑音抑圧法の２つ目は、ウィナー・フィルタ法（以下、ＷＦ法という。）に基づく雑音抑圧法について図３を参照して説明する（例えば、非特許文献４参照）。
平均雑音パワー計算部２５で平均雑音パワースペクトルを求め、雑音重畳音声パワー計算部２６で雑音重畳音声パワースペクトルを求める。これらを用いて音声／雑音スイッチ２２の音声端子２３側からの雑音重畳音声信号に対し、雑音抑圧処理部３１で雑音抑圧処理が行われる。まずゲイン関数計算部３２でＷＦ法のゲイン関数Ｇが式（２）により計算される。

Ｇ＝Ｅ［｜Ｓ｜^２］／（Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］）（２）
ただし、Ｅ［｜Ｓ｜^２］とＥ［｜Ｎ｜^２］はそれぞれ音声信号と雑音信号の各集合平均を表す。
つまり式（２）は音声信号のパワーレベル／雑音重畳音声信号のパワーレベルを意味しており、雑音重畳音声パワー計算部２６から出力される式（２）の分母Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］と対応する値から、平均雑音パワー計算部２５から出力されるＥ［｜Ｎ｜^２］と対応する値を引算して式（２）の分子Ｅ［｜Ｓ｜^２］と対応する値を求め、式（２）を計算する。次にウィナーフィルタ処理部３３において、音声端子２３側から入力された雑音抑圧前の信号Ｚに対してゲイン関数Ｇを乗算し、ＷＦ法による雑音抑圧処理された信号Ｓ^＝ＧＺが求められる。

このようにＷＦ法による雑音抑圧法は、フレーム毎のＳ／Ｎを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部３３で雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献５に示されている。つまりウィナーフィルタ処理部３３の出力に対し、原音付加部３４で式（３）を計算する。
Ｓ’＝（１−δ）Ｚ＋δＳ^ （３）
非特許文献５によれば、原音付加率（１−δ）を０．２とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約１４ｄＢとなることが記載されている。

マイクの特性や空間伝達特性などの乗法性歪みが重畳した音声の認識方法として、入力信号に対して長時間平均特徴パラメータを正規化する手法について述べる。乗法性歪みが重畳した音声の認識性能を改善する方法として、従来からケプストラム平均正規化法（ＣｅｐｓｔｒａｌＭｅａｎＮｏｒｍａｌｉｚａｔｉｏｎ、以下、ＣＭＮ法という。）が知られている(例えば、非特許文献６)。ＣＭＮ法は、音声の長時間平均スペクトルが同一であるという仮定から、乗法性歪みの影響が長時間ケプストラム平均の差に現れることを利用して、信号の各フレームから得られるケプストラムから長時間ケプストラム平均分を差し引いた成分を特徴量として用いるととにより、乗法性歪みに影響を取り除いている。このように各フレームから得られるケプストラムから前記長時間ケプストラム平均を減算することをケプストラム平均正規化（ＣＭＮ）という。

加法性雑音と乗法性歪みが重畳した音声の認識方法として、ＣＭＮ法とＨＭＭ合成法を連携させる手法について説明する。図１１に機能構成の例を、図１２に処理手順の例を示す。この従来法では、認識対象の雑音重畳した音声信号が入力するまでは、雑音モデル合成部１１０１で雑音モデルの学習を行い（ステップＳ２’）、音声信号が入力すると、スペクトルサブトラクション部１１０２で雑音除去を行い（ステップＳ４）、長時間ケプストラム平均計算部１１０３で雑音除去後の入力音声信号の長時間ケプストラム平均を抽出する（ステップＳ５）。次に、ＣＭＮ処理済のモデル学習用クリーン音声から作成されたＣＭＮ済みクリーン音声モデルのモデルパラメータに対して、モデルパラメータ更新部４７で上記長時間ケプストラム平均を加算する(ステップＳ７)ことにより、長時間ケプストラム平均の正規化を行い、乗法性歪み重畳音声モデルパラメータメモリ４３に格納する。そして、長時間ケプストラム平均の正規化済み音声モデルに対して、雑音適応部４２でＨＭＭ合成法により入力信号中の雑音に適応することにより乗法性歪み及び加法性雑音にも適応した音声モデルを得て（ステップＳ８）、歪み・雑音重畳音声モデルパラメータメモリ４８に格納する。得られた音声モデルを用いて、雑音が重畳した音声信号に対して認識を行い（ステップＳ３，Ｓ９）、結果を出力する（ステップＳ１０）。このような方法により、乗法性歪み及び加法性雑音の環境下でも高い認識性能を得ようとしている。
F.Martin他："Recognition of Noisy Speech by Composition of Hidden Markov Models，"電子情報通信学会技術研究報告ＳＰ９２−９６，pp.９−１６，１９９２山口義和、高橋淳一、高橋敏、嵯峨山茂樹、"Ｔａｙｌｏｒ展開による音響モデルの適応"電子情報通信学会技術研究報告ＳＰ９６−７８，ｐｐ．１−８，１９９６ Steven F.Boll："Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing, Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979 S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003 B.S.Ata1, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," Proc. J. Acoust. Soc. Am, Vo1.55, pp.1304-1312, 1974

従来法では、ＳＳ法による雑音抑圧処理後の雑音重畳音声から長時間ケプストラム平均を求めている。雑音が完全に除去できれば、この長時間ケプネトラム平均は、乗法性歪みを反映したパラメータとなる。しかしながら、雑音抑圧処理を施しても、完全に雑音を除去することは出来ないにもかかわらず、雑音が完全に無くなった前提で処理をしているため、長時間ケプストラム平均の推定誤差による認識精度の低下が避けられない。また、この方法で認識精度を向上させるためには、上記推定誤差を最小化する最適な抑圧処理のパラメータを求めるなどの追加の処理が必要である。すなわち、ＳＳ法などの雑音抑圧処理を用いたとしても、乗法性歪みに加え加法性雑音が重畳した音声から、乗法性歪み成分のみに相当する長時間ケプストラム平均を抽出することは困難である。

さらに、従来法は、音声信号が入力されてから、長時間ケプストラム平均計算、モデルパラメータ更新、およびクリーン音声モデルと雑音モデルとの合成を行い、その結果得られる音声モデルを用いて入力音声の認識を行うため、音声認識の開始時間が遅れてしまう。特に、クリーン音声モデルは膨大な情報からなっているため、クリーン音声モデルと雑音モデルとの合成での遅延が大きい。したがって、オンライン処理などの応答速度が求められるアプリケーションへの適応が困難であった。

本発明では、音声信号が入力される前に、少なくとも観測した雑音から雑音モデルを学習し、クリーン音声モデルと雑音モデルとの合成、観測した雑音を重畳した基準信号の特徴パラメータの長時間平均の計算を行っておく。音声信号が入力されると、雑音が重畳された音声信号の特徴パラメータを抽出し、特徴パラメータの長時間平均を計算し、モデル照合尤度計算を行う。

本発明では、雑音が重畳されている前提で雑音重畳音声モデルを生成するため、推定誤差による認識精度の低下を避けることができる。また、遅延の主要因であったクリーン音声モデルと雑音モデルとの合成を、音声信号が入力される前に行うことができ、処理遅延の大幅な短縮が可能である。

以下、本発明の実施形態の図面を参照して説明するが、この明細書及び図面において対応する部分には同一参照符号を付けて重複説明を省略する。
［第１実施形態］
本発明は、伝達特性の違いに起因する特徴パラメータの長時間平均の差分を埋めるために、特徴パラメータと照合に用いる音声モデルの特徴パラメータの長時間平均を一致させる。具体的には、雑音を重畳させる基準信号（例えば、５０文程度の雑音の無いクリーン音声信号）の長時間ケプストラム平均と、合成した雑音重畳音声モデルの長時間ケプストラム平均とが同一と仮定し、認識対象の音声信号に対する特徴パラメータの長時間ケプストラム平均と一致するように照合用の音声モデルパラメータを更新する。なお、特徴パラメータとして、ケプストラムに限らず、ＭＦＣＣやＬＰＣケプストラムを用いてもよい。

本発明の機能構成例を図４に、その処理手順を図５に示す。本発明の最も重要な点は、図４のモデル適応部４１０である。以下に本発明の流れを説明する。
ステップＳ１
入力端子１１より入力した音声信号はＡ／Ｄ変換部１２でディジタル信号に変換され、フレーム処理された後、音声／雑音判定部２１により音声区間が開始されたか否かが判定される。音声区間が開始していないと判定されている間は、音声／雑音スイッチ２２は雑音端子２４側と接続される。

ステップＳ２
上記ディジタル信号は雑音区間の信号として処理される。この雑音区間の信号から、雑音モデル作成部４１１では、例えば雑音ＨＭＭなどの雑音モデルが学習される。
ステップＳ３
雑音適応部４２では、この雑音モデルとクリーン音声モデルパラメータメモリ４１に格納済みのクリーン音声モデルから雑音重畳音声モデルが合成され、雑音重畳音声モデルパラメータメモリ４３に格納される。クリーン音声モデルパラメータメモリ４１に格納済みのクリーン音声モデル膨大な量の情報であり、雑音重畳音声モデルの合成を音声信号が入力される前に実行しておくことが本発明の重要なポイントの１つである。

ステップＳ４
雑音重畳部４５では、上記雑音区間の信号を基準信号メモリ４４に格納してある基準信号に重畳する。なお、基準信号は、クリーン音声モデル用の学習データの一部を用いてもよいし、別の雑音の無い音声データを用いてもよい。また、雑音区間の信号の重畳の方法としては、例えば、基準信号のフレーム数と同じフレーム数の直近の雑音区間の信号を重畳してもよいし、最新フレームの雑音区間の信号を基準信号のフレーム数回繰り返して重畳してもよい。基準信号に観測された雑音を重畳させることで、雑音が存在する前提での処理となり、長時間ケプストラム平均の推定誤差による認識精度の低下を避けることができる。

ステップＳ５
長時間ケプストラム平均計算部４６では、上記雑音区間の信号が重畳された基準信号の長時間ケプストラム平均を計算する。長時間平均では、より長時間の平均を行う方が一般的に精度は良くなるため、当該フレームまでの全フレームの平均を計算する方法もある。
ステップＳ１
一方、音声／雑音判定部２１により音声区間であると判定された場合、音声／雑音スイッチ２２は音声端子２３側と接続され、上記ディジタル信号は音声区間の信号として処理される。

ステップＳ７
上記音声区間の信号は、特徴パラメータ抽出部１３で特徴パラメータが抽出される。
ステップＳ５’
長時間ケプストラム平均計算部４１２では、抽出した音声区間の信号の特徴パラメータから上記音声区間の信号の長時間ケプストラム平均が計算される。長時間ケプストラム平均差分計算部６１では、上記音声区間の信号の長時間ケプストラム平均と、ステップＳ５で得られた雑音が重畳された基準信号の長時間ケプストラム平均との差分が計算される。

なお、上記のように長時間平均では、より長時間の平均を行う方が一般的に精度は良くなる。特に雑音を重畳された基準信号の長時間ケプストラム平均は、雑音区間の信号が入力している間に行われるため、音声認識処理の遅延に関係が無く、長時間の平均化処理が望ましい。したがって、雑音を重畳された基準信号の長時間ケプストラム平均の平均時間を長くし、音声区間の信号の長時間ケプストラム平均の平均時間を短くする方法がある。具体的には、雑音を重畳された基準信号の長時間ケプストラム平均の平均化を発話単位とし、音声区間の信号の長時間ケプストラム平均の平均時間を1秒程度（例えば、シフト長１０ミリ秒で１００フレーム程度）とする方法などである。

一方、長時間平均の差分の精度は、２つの長時間平均の精度の悪い方によって決まるため、片方の長時間平均のみを一方的に高精度とする必要性は低く、同じフレーム数の長時間平均を行う方法も合理的である。具体的には、両方の長時間平均の計算時間をともに発話単位とする方法や、1秒程度とする方法などがある。
ステップＳ６
モデルパラメータ更新部４７で、雑音重畳音声モデルパラメータメモリ４３に格納されている雑音重畳音声モデルパラメータに、ステップＳ５’で得られた差分を加算してモデルパラメータを更新する。更新されたモデルパラメータは、ＣＭＮ済雑音重畳音声モデルパラメータメモリ４８に格納される。

なお、モデルパラメータの更新は、フレームごとに行ってもよいし、上記長時間平均を行うフレーム数に１回行ってもよい。フレームごとに更新する場合には、長時間平均は１フレームごとにシフトさせながら毎フレーム行うことになる。
ステップＳ９
モデル照合尤度計算部１５では、ステップＳ７で得られた特徴パラメータに対して、ステップＳ６で得られたモデルとのモデル照合尤度が計算される。
ステップＳ１０
認識結果出力部１６で認識結果が出力される。

なお、再び雑音区間となった場合の処理は、本発明の使われ方によっていくつかの方法がある。例えば、あらかじめ閾値を定めておき、閾値以上に雑音区間の時間が長くなった場合には音声／雑音スイッチ２２を雑音端子２４側に接続し、雑音区間の信号の処理手順に戻る方法、雑音区間が閾値以上に長くなった場合には処理を終了し、別の装置やオペレータなどからの指示によって再び処理を開始する方法、一度、音声区間のなった場合には別の装置やオペレータなどからの指示があるまでは音声区間の信号の処理手順を続ける方法などである。
［第２実施形態］
本発明では、雑音の無い環境の音声から作成されたクリーン音声モデルを用いて観測した雑音に適応した雑音重畳音声モデルを合成するとともに、基準信号（例えば、５０文程度の雑音の無いクリーン音声信号）に対して雑音を重畳した信号の長時間ケプストラム平均を計算し、前記雑音重畳音声モデルのパラメータから前記長時間ケプストラム平均を減算することで、長時間ケプストラム平均正規化（ＣＭＮ）済雑音重畳音声モデルを合成し、観測した音声信号に対しては長時間ケプストラム平均正規化を行い、上記の合成したモデルから認識結果を得る。なお、第１実施形態の場合と同様に、特徴パラメータとして、ケプストラムに限らず、ＭＦＣＣやＬＰＣケプストラムを用いてもよい。

本発明の機能構成例を図６に、処理手順を図７に示す。本発明の最も重要な処理は、モデル適応部４１０およびステップＳ１１である。
雑音区間でのステップＳ１からステップＳ５までは、第１実施形態と同じである。
ステップＳ６
モデルパラメータ更新部４７では、雑音重畳音声モデルパラメータメモリ４３に格納されている雑音重畳音声モデルパラメータから、雑音重畳基準信号の長時間ケプストラム平均を減算することでモデルパラメータを更新し、結果をＣＭＮ済雑音重畳音声モデルパラメータメモリ４８に格納する。本発明では、モデルパラメータの更新を音声信号の入力前にのみ行い、音声信号入力後には行わない点が、第１実施形態と異なる点である。したがって、第１実施形態にくらべ、モデルパラメータ更新に必要な時間だけ音声認識の遅延を短縮できる。

ステップＳ１
一方、音声／雑音判定部２１により音声区間であると判定された場合、音声／雑音スイッチ２２は音声端子２３側と接続され、上記ディジタル信号は音声区間の信号として処理される。
ステップＳ７
上記音声区間の信号は、特徴パラメータ抽出部１３で特徴パラメータが抽出される。
ステップＳ８
長時間ケプストラム平均計算部４１２では、上記特徴パラメータから音声区間の信号の長時間ケプストラム平均が計算される。ケプストラム平均正規化処理部４９では、上記特徴パラメータから上記音声区間の信号の長時間ケプストラム平均を減算する正規化の処理が行われる。

ステップＳ９
モデル照合尤度計算部１５では、ステップＳ８で得られた正規化された特徴パラメータに対して、ステップＳ６で得られたモデルとのモデル照合尤度が計算される。
ステップＳ１０
認識結果出力部１６で認識結果が出力される。
なお、再び雑音区間となった場合の処理については、第１実施形態と同じである。
［第３実施形態］
本発明では、第１、２実施形態に加えて音声信号及び雑音信号に対して、例えば上記のスペクトルサブトラクション法やウィナーフィルタ法に基づく雑音抑圧処理を含む。雑音抑圧処理により、雑音に埋もれていた音声信号の特徴の抽出精度が向上するとともに、特徴パラメータの長時間平均の抽出精度が向上することが期待され、高い認識性能が期待できる。本発明は、雑音抑圧処理を行う点では図１１、１２に示した従来の方法と同じであるが、雑音抑圧処理によって完全に雑音が消去されたという前提ではなく、残った雑音が重畳した音声信号を第１、２実施形態の入力信号としている。第３実施形態の機能構成例を図８に、処理手順を図９に示す。

ステップＳ１
入力端子１１より入力した音声信号はＡ／Ｄ変換部１２でディジタル信号に変換され、フレーム処理された後、音声／雑音判定部２１により音声区間が開始されたか否かが判定される。音声区間が開始していないと判定されている間は、音声／雑音スイッチ２２は雑音端子２４側と接続される。
ステップＳ１２
上記ディジタル信号は雑音区間の信号として処理される。雑音抑圧処理部８１では、この雑音区間の信号に対して、雑音成分が抑圧される。具体的な抑圧方法にはスペクトルサブトラクション法やウィナーフィルタ法などがある。

ステップＳ１１
抑圧処理後の信号を用いてモデル適応が行われる。
ステップＳ１
一方、音声／雑音判定部２１により音声区間であると判定された場合、音声／雑音スイッチ２２は音声端子２３側と接続され、上記ディジタル信号は音声区間の信号として処理される。
ステップＳ１３
上記音声区間の信号に対しても、ステップＳ１２と同じように雑音抑圧処理が行われる。

以後の処理は、第１実施形態及び第２実施形態と同じである。ただし、以後の処理で第１実施形態を用いた場合は、ケプストラム平均正規化処理４９（ステップＳ８）を通らず、図８、９の破線の矢印のパスとなる。
［実験例］
第３実施形態に基づく雑音・伝達特準重畳音声認識の実験例について述べ・本実施形態の効果を明らかにする。音響モデルは、音素環境依存音素数３０、３状態、８混合分布モデルを用いた。特徴パラメータは、１２次元のＭＦＣＣ、ΔＭＦＣＣ、Δパワーである。サンプリング周波数は、１６ｋＨｚである。評価用音声データは男女各８名の話者が発声した４桁数字計６４０発声である。この音声に対して、マイクと音源（スピーカ）との距離が５０ｃｍ程度離れた位置にある環境における、音源−マイク間のインパルス応答を測定し、測定したインパルス応答を計算機上で重畳し、伝達特性を模擬した音声を合成した。これに、ノートＰＣの内蔵マイクで収音したＰＣのファン雑音を計算機上で重畳した。重畳音声のＳ／Ｎ比が、２０ｄＢ、２５ｄＢ、３０ｄＢとなるように評価データの音声のパワーレベルを調整して雑音を重畳した。スペクトルサブトラクションのための平均雑音パワースペクトルは、３秒の雑音区間から計算した。スペクトルサブトラクシ'ヨンの係数は、α＝１．０、β＝０．５とした。

図１０にＳ／Ｎ比を変えた時の、各手法の認識率を示す。雑音・伝達特性重畳音声をクリーン音声ＨＭＭで認識した場合（対策無し）、スペクトルサブトラクション法を用いた場合（ＳＳ）、ＨＭＭ合成を用いた場合（ＨＭＭ合成）、および第３実施形態に基づく手法（ＳＳ−ＨＭＭ合成＋ＣＭＮ）について実験した。第３実施形態に基づく手法の性能が、全てのＳ／Ｎで従来の手法に比べ、良い手法であることが示された。

従来のＨＭＭを用いた音声認識装置の機能構成を示すブロック図である。従来のスペクトルサブトラクション法による雑音抑圧処理を用いた音声認識装置の機能構成を示すブロック図である。従来のウィナーフィルタ法による雑音抑圧処理を用いた音声認識装置の機能構成を示すブロック図である。第１実施形態の機能構成を示す図である。第１実施形態の処理手順を示す図である。第２実施形態の機能構成を示す図である。第２実施形態の処理手順を示す図である。第３実施形態の機能構成を示す図である。第３実施形態の処理手順を示す図である。各種手法による音声認識の実験結果を示すグラフ。従来手法の機能構成の例を示す図である。従来手法の処理手順の例を示す図である。

Claims

入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
前記雑音区間の信号から生成された雑音モデルとあらかじめ用意された雑音のない音声モデルとを合成する雑音重畳音声モデル合成過程と、
前記雑音区間の信号をあらかじめ用意した雑音のない音声信号に重畳し、該重畳信号のケプストラムの長時間平均を求める過程と、
前記音声区間の信号のケプストラムの長時間平均を求め、前記重畳信号のケプストラムの長時間平均との差分を求める過程と、
前記長時間平均の差分によって前記雑音重畳音声モデルを更新する過程と、
前記更新された雑音重畳音声モデルを用いて尤度を計算する過程と、
を含むことを特徴とする音声認識方法。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
前記雑音区間の信号から生成された雑音モデルとあらかじめ用意された雑音のない音声モデルとを合成する雑音重畳音声モデル合成過程と、
前記雑音区間の信号をあらかじめ用意した雑音のない音声信号に重畳し、該重畳信号のケプストラムの長時間平均を求める過程と、
前記重畳信号のケプストラムの長時間平均によって前記雑音重畳音声モデルを更新する過程と、
前記音声区間の信号のケプストラムの長時間平均を求め、該ケプストラムの長時間平均から前記音声区間の信号の特徴パラメータを正規化する過程と、
前記正規化された音声区間の信号の特徴パラメータに対して、前記更新された雑音重畳音声モデルを用いて尤度を計算する過程と、
を含むことを特徴とする音声認識方法。
前記雑音区間の信号を重畳した前記雑音のない音声信号のケプストラムの長時間平均における平均する時間と、前記音声区間の信号のケプストラムの長時間平均における平均する時間とを同じにすること
を特徴とする請求項１または２に記載の音声認識方法。
前記ケプストラムがＭＦＣＣ又はＬＰＣケプストラムであることを特徴とする請求項１乃至３のいずれかに記載の音声認識方法。
入力信号に対して雑音抑圧処理を行う過程
を含むことを特徴とする請求項１〜４のいずれかに記載の音声認識方法。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
雑音のない音声モデルを蓄積するクリーン音声モデル格納部と、
雑音のない音声信号を蓄積する基準信号格納部と、
前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声／雑音判定部と、
前記雑音区間の信号から生成された雑音モデルと前記クリーン音声モデル格納部に記憶された雑音のない音声モデルとを合成し、雑音重畳音声モデルを生成する雑音適応部と、
前記雑音区間の信号を基準信号格納部に記憶された雑音のない音声信号に重畳する雑音重畳部と、
雑音が重畳された雑音のない音声信号のケプストラムの長時間平均を求める雑音区間の長時間平均部と、
前記音声区間の信号のケプストラムの長時間平均を求める、音声区間の長時間平均部と、
前記音声区間の信号のケプストラムの長時間平均と前記雑音重畳部の出力信号のケプストラムの長時間平均との差分を求める差分計算部と、
前記長時間平均の差分によって前記雑音重畳音声モデルを更新するモデルパラメータ更新部と、
前記更新された雑音重畳音声モデルを用いて尤度を計算するモデル照合尤度計算部と、
を具備することを特徴とする音声認識装置。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
雑音のない音声モデルを蓄積するクリーン音声モデル格納部と、
雑音のない音声信号を蓄積する基準信号格納部と、
前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声／雑音判定部と、
前記雑音区間の信号から生成された雑音モデルと前記クリーン音声モデル格納部に記憶された雑音のない音声モデルとを合成し、雑音重畳音声モデルを生成する雑音適応部と、
前記雑音区間の信号を基準信号格納部に記憶された雑音のない音声信号に重畳する雑音重畳部と、
雑音が重畳された雑音のない音声信号のケプストラムの長時間平均を求める雑音区間の長時間平均部と、
前記雑音が重畳された雑音のない音声信号のケプストラムの長時間平均によって前記雑音重畳音声モデルを更新するモデルパラメータ更新部と、
前記音声区間の信号のケプストラムの長時間平均を求める、音声区間の長時間平均部と、
前記音声区間の信号のケプストラムの長時間平均によって、前記音声区間の信号の特徴パラメータを正規化する平均正規化処理部と、
前記正規化された音声区間の信号の特徴パラメータに対して、前記更新された雑音重畳音声モデルを用いて尤度を計算するモデル照合尤度計算部と、
を具備することを特徴とする音声認識装置。
前記ケプストラムがＭＦＣＣ又はＬＰＣケプストラムであることを特徴とする請求項６または７に記載の音声認識装置。
前記雑音を重畳した雑音のない音声信号の長時間平均部で平均化する時間と、前記音声区間の長時間平均部で平均化する時間とを同じにすること
を特徴とする請求項６〜８のいずれかに記載の音声認識装置。
入力信号に対して雑音抑圧処理を行う雑音抑圧処理部
を具備することを特徴とする請求項６〜９のいずれかに記載の音声認識装置。
請求項１〜５のいずれかに記載の音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
請求項１１に記載の音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。