JP2005326673A

JP2005326673A - 音声認識方法、その装置およびプログラム、その記録媒体

Info

Publication number: JP2005326673A
Application number: JP2004145345A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Satoshi Takahashi; 敏高橋; Yoshikazu Yamaguchi; 義和山口; Atsunori Ogawa; 厚徳小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-14
Filing date: 2004-05-14
Publication date: 2005-11-24

Abstract

【課題】各種Ｓ／Ｎ条件の入力音声信号に対して認識率を向上させる。
【解決手段】入力音声信号の雑音区間から雑音成分を求め（２３）、その雑音成分で雑音区間信号を抑圧し（３２）、その残り雑音と、音声区間信号に対して雑音抑圧した信号（３４の出力）とからＳ／Ｎを推定する（３３）。雑音抑圧された音声信号の特徴パワースペクトルを抽出し（１３）、メモリ３６内の複数Ｓ／Ｎ条件の学習信号から作成したモデルＶ_１，…，Ｖ_Ｍを用いて、認識処理を並列に行う（３５）。メモリ３６内の各モデルと対応したＳ／Ｎ_１，…，Ｓ／Ｎ_Ｍ中の推定Ｓ／Ｎと最も近いものを求め（３７）これと対応したモデルによる認識結果を最終結果として出力する（３８）。
【選択図】図４

Description

この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（Hidden Markov Model、以下ではＨＭＭと記す。）などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のＨＭＭを用いた音声認識装置を図１を参照して簡単に説明する。入力端子１１から入力された音声信号は、Ａ／Ｄ変換部１２においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部１３において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したＨＭＭをモデルメモリ１４から読み出し、尤度計算部１５において、抽出された音声特徴パラメータに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果とし出力部１６より出力する。特徴パラメータ抽出部１３、尤度計算部１５及び出力部１６は認識処理部１７を構成している。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。

背景雑音などの加法性雑音が重畳した音声の従来の認識方法を以下に４つ説明する。１つ目は入力音声信号における背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
２つ目は、ＨＭＭの合成による雑音重畳音声の認識手法（例えば非特許文献１参照）について説明する。雑音重畳音声に対しては、前述のように、雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、ＨＭＭを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、雑音のない大量の音声データをもとに予めクリーン音声ＨＭＭを作成しておく。認識時には観測した背景雑音から作成した雑音ＨＭＭと、クリーン音声ＨＭＭを合成する。この合成した雑音重畳音声ＨＭＭは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。

３つ目は、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法（以下、ＳＳ法と記す）について説明する（例えば非特許文献２参照）。時間領域で加法性の２つの信号は、線形パワースペクトル上でも加法性であることから、ＳＳ法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。
ＳＳ法を用いた音声認識装置を図２を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声／雑音判定部２１で判定される。この判定部２１は、その判定が雑音であるならば、音声／雑音スイッチ２２を雑音端子２２ａ側に接続してＡ／Ｄ変換部１２の出力側を平均雑音パワースペクトル計算部２３に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部２１で認識対象である雑音重畳音声区間であると判定された場合は、音声／雑音スイッチ２２を音声端子２２ｂ側に接続して、Ａ／Ｄ変換部１２の出力側を雑音重畳音声パワースペクトル計算部２４に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部２５において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻ｔのパワースペクトルの周波数ｆの雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）は、以下のように計算される。

Ｄ(Ｙ（ｔ，ｆ）)＝Ｙ(ｔ，ｆ)−αＮ＾(ｆ)
Ｙ^Ｄ(ｔ，ｆ)＝Ｄ(Ｙ(ｔ，ｆ)) ：Ｄ(Ｙ(ｔ，ｆ))＞βＹ(ｔ，ｆ)の場合
Ｙ^Ｄ(ｔ，ｆ)＝βＹ(ｔ，ｆ) その他の場合（１）
ここで、Ｙ（ｔ，ｆ）は、入力雑音重畳音声の時刻ｔ、周波数ｆのパワースペクトル、
Ｎ＾(ｆ)は推定された周波数ｆの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常１より大きい。
βはフロアリング係数であり、１より小さい。
抑圧処理部２５から出力されるパワースペクトルから、音声認識の特徴パラメータ（例えば、１２次元のメルフレクエンシイケプストラム係数（Mel-Frequency Cepstrum Coefficient：ＭＦＣＣ））を特徴パラメータ抽出部１３で計算する。これ以後の処理は、図１で説明した通りである。

さらに、別の雑音抑圧手法としてウィナー・フィルタ法（以下、ＷＦ法と略す）に基づく雑音抑圧法について図３を参照して説明する（例えば非特許文献３参照）。計算部２３で平均雑音パワースペクトルを求め、計算部２４で雑音重畳音声パワースペクトルを求めることは、図３に示したＳＳ法と同様であり、これらを用いて音声／雑音スイッチ２２の端子２２ｂ側からの雑音重畳音声信号に対し、雑音抑圧処理部２６で雑音抑圧処理が行われる。まず雑音重畳音声パワースペクトル計算部２４からのパワースペクトルは平均雑音重畳音声パワースペクトル計算部２６ａで平均雑音重畳音声パワースペクトルが計算され、ゲイン関数計算部２６ｂでＷＦ法のゲイン関数Ｇが式（２）により計算される。
Ｇ＝Ｅ［｜Ｓ｜^２］／（Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］）（２）
ただし、Ｅ［｜Ｓ｜^２］とＥ［｜Ｎ｜^２］はそれぞれ音声信号と雑音信号の各集合平均を表す。

つまり式（２）は音声信号のパワーレベル／雑音重畳音声信号のパワーレベルを意味しており、計算部２６ａから出力される式（２）の分母Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］と対応する値から、計算部２３から出力されるＥ［｜Ｎ｜^２］と対応する値を引算して式（２）の分子Ｅ［｜Ｓ｜^２］と対応する値を求め、式（２）を計算する。
次にウィナーフィルタ処理部２６ｃにおいて、端子２２ｂから入力された雑音抑圧前の信号Ｚに対してゲイン関数Ｇを乗算し、ＷＦ法による雑音抑圧処理された信号Ｓ^＝ＧＺ
が求められる。
このようにＷＦ法による雑音抑圧法は、フレーム毎のＳ／Ｎを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。

しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部２６ｃで雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献４に示されている。つまりウィナーフィルタ処理部２６ｃの出力に対し、原音付加部２６ｄで式（３）を計算する。
Ｓ’＝（１−δ）Ｚ＋δＳ^ （３）
非特許文献４によれば、原音付加率（１−δ）を０．２とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約１４ｄＢとなることが記載されている。
F.Martin他："Recognition of Noisy Speech by Composition of Hidden Markov Models，"電子情報通信学会技術研究報告ＳＰ９２−９６，pp.９−１６，１９９２ Steven F.Boll："Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing, Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enbancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003.

このような点から同一入力音声信号に対して、複数のＳ／Ｎ条件で学習された雑音重畳音声モデルを用いて認識処理を行い、これら複数の認識結果からその照合尤度が最も高いものを認識結果とすることが考えられる。しかし異なるＳ／Ｎ条件で作成された雑音重畳音声モデルを用いた音声認識結果の照合尤度の分布は例えばＳ／Ｎが２５ｄＢ程度であれば音声に近い分布となるがＳ／Ｎが５ｄＢ程度であれば雑音の分布に近いものとなり、その照合尤度のモデル毎に異なるため照合尤度が最も高い認識結果は必ずしも最適なＳ／Ｎ条件の雑音重畳音声モデルを用いた認識結果が最終結果として出力されるとは限らない。このためたまたま高い照合尤度を出力した観測信号とＳ／Ｎ条件の異なる雑音重畳音声モデルから出力された認識結果を選択することになり、誤認識の要因となる。

また照合する雑音重畳音声モデルを作成する際のＳ／Ｎ条件は有限であり、離散的なものとなる。従って入力音声信号のＳ／Ｎ条件と雑音重畳音声モデルのＳ／Ｎ条件とは完全に一致するとは限らない。このため正解の認識結果候補の照合尤度は他の候補の照合尤度と比べて高くなるとは限らず、誤認識の要因となる。

この発明は２つの態様があり、いずれも入力音声中の音声区間の信号と雑音区間の信号とを判別し、その音声区間の信号と雑音区間の信号とから入力音声信号のＳ／Ｎを推定する。
第１態様では入力音声信号に対して、複数のＳ／Ｎ条件で作成された雑音重畳音声モデルを用いて認識処理を並列に行い前記複数のＳ／Ｎ条件中の前記推定したＳ／Ｎと最も近いものを近接Ｓ／Ｎ条件とし、この近接Ｓ／Ｎ条件と対応するモデルを用いた認識処理結果を選択して最終結果出力とする。

第２態様では前記雑音区間の信号から特徴パラメータを抽出して雑音モデルを学習作成し、雑音のない音声信号から予め作成されたクリーン音声モデルと前記雑音モデルとを前記推定したＳ／Ｎの条件にあわせて合成し雑音重畳音声モデルとしてこれを用いて前記入力音声信号に対し認識処理を行う。

第１態様によれば入力音声信号のＳ／Ｎを推定しこれに近いＳ／Ｎ条件の雑音重畳音声モデルを用いた認識結果を最終結果としているため、つまり認識結果の照合尤度が最大のものから選択するものではなく常にＳ／Ｎ条件が近い雑音重畳音声モデルによる認識結果が得られ認識率が向上する。しかも並列に認識処理を行っており、Ｓ／Ｎが決定した時点で最終的な雑音重畳音声モデルを選択するため短時間で最終認識結果が得られる。
第２態様によれば入力音声信号の推定したＳ／Ｎ条件にあわせて、入力音声信号中の雑音から作った雑音モデルとクリーン音声モデルを合成しているため入力音声信号に対して最も適切なモデルを使って認識処理をすることになり認識率が向上する。しかも複数の雑音重畳音声モデルを用いて並列に認識処理を行う必要がないから大きな計算処理能力を必要としない。

以下この発明の実施形態を図面を参照して説明するが、この明細書及び図面において対応する部分には同一参照符号を付けて重複説明を省略する。
［第１実施形態］
第１実施形態では複数のＳ／Ｎ条件で作成された雑音重畳音声モデルを用いて入力音声信号を並列的に認識処理を行うとともに入力音声信号のＳ／Ｎを推定しこのＳ／Ｎと最も近接しているＳ／Ｎ条件の雑音重畳音声モデルによる認識結果を最終結果とする。つまりこの発明の第１態様の実施形態である。この発明装置の第１実施形態の機能構成例を図４に、この発明方法の第１実施形態の処理手順を図５に示す。

入力音声信号はこの例ではその雑音成分が抑圧処理され、その抑圧処理された入力音声信号について処理するようにした場合である。例えば入力端子１１よりの入力音声信号はディジタル信号に変換され更にパワースペクトルがパワースペクトル計算部３１により計算される（ステップＳ１）。このパワースペクトル信号に基づいて音声／雑音判定部２１により判定された雑音区間の信号（ステップＳ２）は音声／雑音スイッチ２２を通じて平均雑音パワースペクトル計算部２３へ供給され、これにより平均雑音パワースペクトルが計算され、つまり入力音声信号中の雑音成分が推定される（ステップＳ３）。この平均雑音パワースペクトルにより雑音区間のパワースペクトルが雑音用抑圧部３２で抑圧処理される（ステップＳ４）。この抑圧処理は例えば背景技術の項で述べたＳＳ法の式（１）による。

抑圧処理された雑音区間のパワースペクトル、つまり雑音区間の信号から推定雑音成分を除去した残りの雑音信号がＳ／Ｎ推定部３３に供給される。一方入力音声信号中の音声区間の信号この例ではパワースペクトルは音声用抑圧部３４へ入力され平均雑音パワースペクトルにより抑圧処理される（ステップＳ５）。この抑圧処理は雑音用抑圧部３２における抑圧処理と同様に行われる。この抑圧処理された音声区間のパワースペクトルはＳ／Ｎ推定部３３及び並列認識処理部３５内の特徴パラメータ抽出部１３へ供給される。
Ｓ／Ｎ推定部３３では入力された雑音区間信号と音声区間信号とから音声と雑音のパワー比、Ｓ／Ｎが計算推定される。つまり入力された消し残り雑音パワースペクトルから雑音用レベル計算部３３ａで雑音パワーレベルが計算され（ステップＳ６）、また入力された雑音抑圧音声区間信号から音声用レベル計算部３３ｂでパワーレベルが計算され、このパワーレベルから雑音用レベル計算部３３ａよりの雑音パワーレベルが引き算部３３ｃで引き算されて音声パワーレベルが推定される（ステップＳ７）。この推定音声パワーレベルが雑音パワーレベルにより除算部３３ｄで割り算されて入力音声信号のＳ／Ｎが推定される（ステップＳ８）。このＳ／Ｎ推定を正確に行うために入力音声信号全体にわたって行うことが好ましい。

一方特徴パラメータ抽出部１３に入力された抑圧処理音声区間信号は特徴パラメータが分析抽出される（ステップＳ７）。特徴パラメータの抽出と音声レベルの推定はいずれを先に行ってもよい。抽出された特徴パラメータに対する認識用モデルメモリ３６からの雑音重畳音声モデルの照合尤度が尤度計算部１５で計算され（ステップＳ９）、その最大照合尤度のモデルが表現する音声単位、つまり認識結果が最大決定部１６により決定される（ステップＳ１０）。認識用モデルメモリ３６にはその音声部（モデル部）３６ａに複数のＳ／Ｎ条件の学習雑音重畳音声信号に基いて作成された雑音重畳音声モデルＶ_ｍ（ｍ＝１，２，…，Ｍ）が格納され、またこれらモデルＶ_ｍと対応するＳ／Ｎ条件Ｓ／Ｎ_ｍがＳ／Ｎ部３６ｂに格納されてある。抽出された特徴パラメータの、前記複数の雑音重畳音声モデルＶ_ｍに対する照合尤度が並列認識処理部３５内の尤度計算部１５で並列に計算される。

認識用モデル３６に格納されている複数のＳ／Ｎ条件中の、Ｓ／Ｎ推定部３３で推定されたＳ／Ｎに最も近いものが、近接Ｓ／Ｎとして近接Ｓ／Ｎ決定部３７により決定される（ステップＳ１１）。例えば各Ｓ／Ｎ_ｍ条件と推定Ｓ／Ｎとの差が最小のＳ／Ｎ_ｍ条件を近接Ｓ／Ｎとする。並列認識処理され、モデルごとに得られている認識結果単位中の近接Ｓ／Ｎと対応する雑音重畳音声モデルに基づくものが、選択出力部３８により選択され、最終認識結果として出力される（ステップＳ１２）。
この第１実施形態の音声認識装置を動作させるには、認識用モデルメモリ３６に前述したように複数の雑音重畳音声モデルＶ_ｍおよびその対応Ｓ／Ｎ条件Ｓ／Ｎ_ｍを格納しておき、図５に示すようにまず入力音声信号のパワースペクトルを計算し、入力音声信号中に音声が重畳されるまではステップＳ２で音声区間と判定されず、背景雑音の平均雑音パワースペクトルが計算され、背景雑音パワースペクトルに対する雑音抑圧処理が行われる。ステップＳ２で音声区間と判定されると、ステップＳ５でその雑音音声区間のパワースペクトルに対する雑音抑圧処理が行われる。この雑音抑圧処理は例えばＳＳ法の式（１）による。

つまり雑音重畳音声信号の時刻ｔ、周波数ｆのパワースペクトルＹ（ｔ，ｆ）から周波数ｆの時間平均雑音パワースペクトルＮ＾（ｆ）をα倍した値を減算してＤ（Ｙ（ｔ，ｆ））を求め（ステップＳ５ａ）、Ｄ（Ｙ（ｔ，ｆ））がβ（Ｙ（ｔ，ｆ））より大きいかを判定し、大であれば雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）としてＤ（Ｙ（ｔ，ｆ））を出力し（ステップＳ５ｃ）、Ｄ（Ｙ（ｔ，ｆ））＞βＹ（ｔ，ｆ）でなければβＹ（ｔ，ｆ）をＹ^Ｄ（ｔ，ｆ）として出力する（ステップＳ５ｄ）。なおこの抑圧処理は音声に歪みをなるべく与えないようにαは小さめに例えば１．０±０．５程度、βは大きめに例えば０．５±０．１程度として雑音抑圧量が小さくなるようにする。このＳＳ法の処理に代えて時間的変動する抑圧処理、つまり背景雑音だけではなく各隣接音声区間の間の各雑音区間について平均雑音パワースペクトルを求め、Ｄ（Ｙ（ｔ，ｆ））＝Ｙ（ｔ，ｆ）−αＮ＾（ｆ）を雑音抑圧後のパワースペクトルとしてもよい。この場合はＮ＾（ｆ）が時間的に変化する。ステップＳ４の雑音区間の雑音抑圧処理も音声区間の信号の雑音抑圧処理と同様に行う。

入力音声信号のＳ／Ｎ推定は一般に長い時間を掛けた方が正しいものとなり、例えば発話後の応答を重視する場合には、１回の発話における入力音声信号の全体についてＳ／Ｎ推定を行うとよい。この場合、ステップＳ６及びＳ７の次にステップＳ１３で入力音声信号が終了したか否かの判断が終了判断部３９（図４）で行われ、終了していなければ、ステップＳ９に移る。つまり入力音声信号が終了するまでは入力音声信号について複数の雑音重畳音声モデルを用いて並列に認識処理が行われ、またこれと並列に各隣接雑音区間と音声区間ごとにＳ／Ｎ推定が行われ、又は雑音レベルの計算及びその累積と音声レベルの推定及びその累積とが行われる。
ステップＳ１３で入力音声信号が終了したと判断されると、ステップＳ８でＳ／Ｎ推定が行われ、それまでに推定されたＳ／Ｎの平均を推定Ｓ／Ｎとして用い、又は累積音声レベルを累積雑音レベルで割り算して推定Ｓ／Ｎとする。

この第１実施形態によれば［発明の効果］の項で第１態様について述べた効果が得られることは容易に理解できよう。更にこの第１実施形態の場合は、入力音声信号に対し雑音抑圧処理を行っているため、音声認識率を向上させることができるが、その雑音抑圧処理により音声信号に歪が生じる。このため音声モデルとの不適合性から、複数のＳ／Ｎ条件で作成された雑音重畳音声モデルを用いて並列に認識処理し、最終的に照合尤度が最大のモデルの認識結果を採用すると、得られる照合尤度が全体的に低めになってしまい、Ｓ／Ｎ条件毎の照合尤度の差が小さく、照合尤度が最大となるモデルが入力音声信号（評価対象）のＳ／Ｎ条件に必ずしも適合したものが選ばれるとは限らない。しかしこの第１実施形態では雑音抑圧処理後の入力音声信号に対して、Ｓ／Ｎを推定し、これに最も近いＳ／Ｎ条件で作成された雑音重畳音声モデルの認識結果を最終的な認識結果とすることで、この雑音抑圧処理後の照合尤度の不安定性に対処することができる。

［第２実施形態］
この第２実施形態はまずＳ／Ｎ推定を行い、またその推定Ｓ／Ｎ処理の際に求めた雑音区間の信号に基づき雑音モデルを作り、この雑音モデルとクリーン音声モデルとを推定Ｓ／Ｎに合せて合成して雑音重畳音声モデルを作り、このモデルを用いて入力音声信号に対し音声認識を行う、つまりこの発明の第２態様の実施形態である。
またこの第２実施形態では入力音声信号に対し雑音抑圧処理をした場合であり、図６にその機能構成例を、図７に処理手順の例を示す。

この第２実施形態においても、入力音声信号のパワースペクトルが計算され（ステップＳ１）、その音声区間と雑音区間が判定され（ステップＳ２）、その雑音区間の信号の平均雑音パワースペクトルが計算され（ステップＳ３）、雑音区間の信号及び音声区間の信号がそれぞれ雑音抑圧処理され（ステップＳ４及びＳ５）、これらよりＳ／Ｎが推定される（Ｓ８）。
この第２実施形態では雑音抑圧処理された残り雑音信号、つまり雑音用抑圧部３２よりの残り雑音パワースペクトルから雑音モデル作成部４１で雑音モデルが作成される（ステップＳ２１）。つまり残り雑音パワースペクトルから特徴パラメータが分析抽出され、この特徴パラメータに基づき雑音モデルが学習作成される。一方雑音がない多数の学習音声信号から作成されたクリーン音声モデルと、その音声区間の平均パワーレベルＬ_CSがクリーン音声モデルメモリ４２内に格納されてあり、このクリーン音声モデルと前記雑音モデルとが、推定されたＳ／Ｎに合せて合成される。このモデル合成は例えば非特許文献１に示す方法による。

つまり多くの音響モデルのパラメータは、ケプストラム係数を基本としたものであり、合成した雑音重畳音声の音響モデルのパラメータとしてのケプストラム係数ｃ_Ｓ＋Ｎは式（５）をもとに計算される。
ｃ_Ｓ＋Ｎ＝Ｆ^−１（ｌｏｇ［ｅｘｐ｛Ｆ（ｃ_Ｓ）｝］＋ｋｌｏｇ［ｅｘｐ｛Ｆ（ｃ_Ｎ）｝］）（５）
ｃ_Ｓはクリーン音声のケプストラム係数、ｃ_Ｎは雑音のケプストラム係数、Ｆはフーリエ変換、Ｆ^−１は逆フーリエ変換を表す。ゲインｋはＳ／Ｎに依存した値であり、クリーン音響モデル作成時の学習データの音声パワーレベルＬ_ＣＳと、雑音モデルの作成に用いた観測した雑音信号の平均パワーレベルＬ_Ｎを用いて計算される。例えば、所望のＳ／ＮをＳ／Ｎ_Ｄとすると、ｋは以下の式（６）で表される。
ｋ＝Ｌ_ＣＳ／Ｌ_Ｎ÷Ｓ／Ｎ_Ｄ（６）

このｋが調整パラメータ計算部４４で調整パラメータとして計算される（ステップＳ２４）。この調整パラメータｋと、雑音モデルとクリーン音声モデルとがモデル合成部４３に入力されて、式（５）が計算され、雑音重畳音声信号モデルが作成される（ステップＳ２５）。このモデルが尤度計算部１５へ供給されて、入力音声信号に対する認識処理が行われる。
この第２実施形態の処理手順においては、ステップＳ４の後、雑音モデルが作らされたか否かにより処理が判断され（ステップＳ２２）、作られていなければ、ステップＳ２１で残り雑音パワースペクトルから雑音区間の平均パワーレベルが計算され、また雑音モデルの作成処理が行われる。ステップＳ２２で雑音モデルが作られてると判断されると、雑音区間の平均パワーレベルの計算のみが行われる（ステップＳ６）。またステップＳ５の後、音声区間の平均パワーレベルの計算が行われる（ステップＳ２３）。

ステップＳ２３、ステップＳ６及びステップＳ２１のいずれの後にも、ステップＳ１３で、入力音声信号が終ったか否かの判断が行われ、終ってなければステップＳ２に戻り、終っていればステップＳ８でＳ／Ｎの推定計算が行われる。その後、調整パラメータが計算され（ステップＳ２４）、その調整パラメータに基づき、雑音モデルとクリーン音声モデルとが合成されて雑音重畳音声モデルが作成され（ステップＳ２５）、このモデルを用いて、入力音声信号、この例では音声区間の雑音抑圧処理されたパワースペクトルに対する音声認識処理が行われる（ステップＳ２６）。

この第２実施形態によれば［発明の効果］の項で第２態様について述べた効果が得られることは理解されよう。第１実施形態ではメモリ３６に格納されているＳ／Ｎ条件は離散的な値であるから、近接Ｓ／Ｎであっても推定したＳ／Ｎとある程度異なっており、このためＳ／Ｎ条件の違いに基づく誤認識が生じるおそれがあるが、この第２実施形態ではその問題が解決される。
しかも入力音声信号の推定Ｓ／Ｎに合せてクリーン音声モデルと雑音モデルと合成して雑音重畳音声モデルを作成しているから第１実施形態よりもより適切なＳ／Ｎ条件の雑音重畳音声モデルとなり、しかも入力音声信号に対し雑音抑圧処理を行って認識処理を行っているため、認識率がより向上する。

［変形形態］
抑圧処理
第１及び第２実施形態のいずれにおいても、入力音声信号に対し、まず雑音抑圧処理を行ってもよい。第１実施形態において、例えば図８に機能構成の一部を、図９に処理手順の一部をそれぞれ示すようにディジタル変換された入力音声信号の雑音成分が雑音推定部４６で推定される（ステップＳ３１）。この推定は例えば入力音声信号中の時間的にほぼ一定なパワーレベルが雑音成分として推定される。この推定雑音成分により入力音声信号に対し、雑音抑圧部４７で抑圧処理される（ステップＳ３２）。この抑圧処理は第１実施形態での抑圧処理と同様に行うことができる。その抑圧処理された入力音声信号のパワースペクトルが計算され（ステップＳ１）、このパワースペクトルにより音声／雑音区間が音声／雑音判定部２１により判定され（ステップＳ２）、その判定結果により、音声／雑音スイッチ２２を通じて入力音声信号のパワースペクトルがＳ／Ｎ推定部３３から並列認識処理部３５に供給される。つまりステップＳ２の判定が音声区間でなければ、ステップＳ６で雑音区間の雑音平均パワーレベルが計算され、判定が音声区間であれば、ステップＳ７で音声区間の平均パワーレベルが推定され、また特徴パラメータが抽出される。その他の機能構成及び処理手順は先に述べた第１実施形態と同一である。

第２実施形態においてはその機能構成の一部を図１０に、処理手順の一部を図１１に示すように、第１実施形態で雑音抑圧処理をまず行う場合と同様に背景雑音成分が推定され、これにより入力音声信号に対し雑音抑圧処理が行われて更にパワースペクトルが計算され、雑音区間の残り雑音パワースペクトルはＳ／Ｎ推定部３３及び雑音モデル学習部４１へ供給され、音声区間の雑音抑圧パワースペクトルは認識処理部１７へ供給される。ステップＳ２の音声／雑音判定部２１による判定が音声区間でなければステップＳ２２で雑音モデルが作成されたと判断され、音声区間であれば、ステップＳ２３で音声区間の平均パワーレベルが推定される。

Ｓ／Ｎ短時間推定
先に述べたように、Ｓ／Ｎ推定は発話区間の終了を待ってから行った方が正確であるが、そのようにすると、認識結果の応答が遅れてしまう場合がある。その場合は例えば入力音声信号中に音声が重畳し始めてから１秒間などの要求される認識結果の応答に遅れない範囲でなるべく長く決めた時間が経過するとＳ／Ｎ推定を行う。このようにしても、第１実施形態では近接Ｓ／Ｎ条件を可成り正しく決定することができ、第２実施形態においても入力音声信号における実際のＳ／Ｎと可成り近いものとなり、作成された雑音重畳音声モデルは入力音声信号の認識に適するものになる。

第１実施形態においては、図４中の終了判断部３９は括弧書きで示すように、時間経過判断部３９とされ、予め決めた時間が経過したかが判断される。また図５中においてステップＳ１３が省略され、破線５１で示すように、ステップＳ６及びＳ７の次にステップＳ３５で認識処理の開始から予め決めた時間が経過したか否かの判断が行われ、経過していなければステップＳ９へ移って照合尤度計算を行い、時間が経過していればステップＳ３６で近接Ｓ／Ｎが決定されたか否かが判断され決定されていなければ、ステップＳ８に移り、それまでのデータでＳ／Ｎ推定を行い、近接Ｓ／Ｎが決定されていればステップＳ１２へ移り、それまでに得られたまだ最終認識結果として出力されていない認識結果から近接Ｓ／Ｎと対応するものを最終結果として出力する。その後、ステップＳ３７で入力音声信号が終ったか否かが判断され、終っていなければステップＳ５に戻り、終っていれば処理を終了する。

第２実施形態においては、図６において終了判断部３９が時間経過判断部３９とされ、図７においてステップＳ１３が省略され、替りに破線５２で示すように、このステップＳ３５が挿入され予め決めた時間が経過したか否かが判断され、経過していなければステップＳ２に移り、経過していればステップＳ８に移る。
このように入力音声信号が終らないうちにＳ／Ｎを推定することは先に述べた入力音声信号に対し、まず雑音抑圧処理する場合の各例にも適用できる。

雑音抑圧なし
これまでに述べた各実施形態では入力音声信号に対し、雑音抑圧処理を行ったが、これを省略してもよい。第１実施形態において例えば図４において平均雑音パワースペクトル計算部２３、雑音用抑圧部３２及び音声用抑圧部３４が省略され、破線５３で示すように音声／雑音スイッチ２２の雑音側端子２２ａはＳ／Ｎ推定部３５に直接接続され、音声側端子２２ｂは破線５４で示すようにＳ／Ｎ推定部３３及び特徴パラメータ抽出部１３と直接接続される。
図５においてはステップＳ３，Ｓ４及びＳ５が省略され、ステップＳ２で音声区間でないと判定されると、破線５５で示すように直ちにステップＳ６へ移り、音声区間であると判断されると、破線５６で示すようにステップＳ７に直ちに移る。

第２実施形態においても第１実施形態と同様である。つまり図６において、図４と同様に破線５３及び５４の接続となり、雑音抑圧処理部分が省略され、図７において図５と同様に破線５５及び５６に示す手順となり、雑音抑圧処理が省略されることになる。
図８及び図１０においては雑音推定部４６及び雑音抑圧部４７が省略され、破線５７で示すように、Ａ／Ｄ変換部１２の出力側がパワースペクトル計算部３１に直接接続される。図９及び図１１においてはステップＳ３１及びＳ３２が省略され、破線５８で示すようにステップ３１のパワースペクトル計算から始めることになる。

抑圧処理の他の具体例
更に、図４及び図６、図８、図１０中の抑圧部３２，３４，４７、図５及び図７、図９、図１１中のステップＳ４，Ｓ５，Ｓ３２の抑圧処理として、背景技術の項で図３を参照して説明した雑音抑圧処理を適用してもよい。例えば、図４中の音声用抑圧部３４の機能構成は図１２に示すようになる。端子２２ｂからの音声区間のパワースペクトルは平均雑音重畳音声パワースペクトル計算部２６ａにより平均雑音重畳音声パワースペクトルが計算され、この計算結果から平均雑音パワースペクトル計算部２３よりの平均雑音パワースペクトルが減算部２６ｂ１で引算され、その残りが平均雑音重畳音声パワースペクトルにより除算部２６ｂ２で割算されて、式（２）のゲイン関数Ｇが求められる。そのゲイン関数Ｇが端子２２ｂよりの雑音重畳音声信号Ｚに対してウィナーフィルタ処理部２６ｃで乗算されフィルタ処理結果Ｓ^が得られる。

原音付加部２６ｄにおいて、端子２２ｂからの雑音重畳音声信号Ｚに対し、原音付加率（１−δ）が乗算部２６ｄ１で乗算され、またウィナーフィルタ処理部２６ｃの出力Ｓ^
に対しδが乗算部２６ｄ２で乗算され、両乗算部２６ｄ１及び２６ｄ２の各出力が加算部２６ｄ３で加算されて、抑圧処理された雑音重畳音声パワースペクトルが得られる。雑音区間における雑音用抑圧部３２も同様に構成されるが、平均雑音パワースペクトルＥ［｜Ｎ^２｜］は例えば１秒間程度の雑音パワースペクトルの平均であり、Ｅ［｜Ｓ^２｜］＋Ｅ［｜Ｎ^２｜］に対応する値は、各フレーム、例えば３０ミリ秒間の雑音パワースペクトルの平均Ｅ［｜Ｏ^２｜］であり、式（２）のゲインＧは（Ｅ［｜Ｏ^２｜］−Ｅ［｜Ｎ^２｜］）／Ｅ［｜Ｏ^２｜］となり、小さな値となる。よって、雑音用抑圧部３２の出力は（１−δ）Ｚに近い値になる。

このような雑音抑圧処理を適用した場合は、原音付加率（１−δ）は例えば０．３〜０．２程度とされる。
図４、図６、図８及び図１０に示した装置をコンピュータにより機能させてもよい。この場合は図５、図７、図９及び図１１中の対応するものに示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにＣＤ−ＲＯＭ、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。

［実験例］
第１実施形態に基づく雑音環境下音声認識の実験例について述べ、第１実施形態の効果を明らかにする。音響モデルは、音素環境独立音素数３０、３状態、４混合分布モデルを用いた。学習データには、男性話者１名による５０３文章の発声信号を用いた。特徴パラメータは、１２次元のＭＦＣＣ、ΔＭＦＣＣ、Δパワーである。サンプリング周波数は、１６ｋＨｚである。評価用音声データ（入力音声信号）は前記の学習データと同一の男性話者１名が発声した２１６単語発声信号である。これに、ノート形パーソナルコンピュータの内蔵マイクロホンで収音したパーソナルコンピュータの冷却用ファン雑音信号を電子計算機上で重畳した。重畳音声信号のＳ／Ｎが、５ｄＢ、１０ｄＢ、１５ｄＢとなるように評価データの音声信号のパワーレベルを調整して雑音信号を重畳した。雑音抑圧のための平均雑音パワースペクトルは、３秒の雑音区間から計算した。ＳＳ法の係数は、α＝１．０、β＝０．５とした。

図１３にＳ／Ｎ比を変えた時の、各手法の認識率を示す。雑音重畳音声信号をクリーン音声ＨＭＭで認識した場合結果は「クリーン音声ＨＭＭ」（変形のプロット点）となり、Ｓ／Ｎの判定処理を用い雑音抑圧処理後の入力音声信号を、複数のＳ／Ｎ条件で合成した複数のＳ／Ｎの雑音重畳音声モデルで認識し、照合尤度比較により認識結果を得る場合の結果は「尤度選択ＳＳ＋ＨＭＭ法」（正方形のプロット点）となり、第１実施形態による手法による結果は「Ｓ／Ｎ判定付きＳＳ＋ＨＭＭ法」（三角のプロット点）となった。この第１実施形態による手法の性能が、全てのＳ／Ｎで最も良い手法であることが示された。

従来のＨＭＭを用いた音声認識装置の機能構成を示すブロック図。スペクトルサブトラクション法を用いた従来の音声認識装置の機能構成を示すブロック図。ウィナー・フィルタ法を用いた従来の雑音抑圧を示す機能構成図。この発明装置の第１実施形態の機能構成例を示すブロック図。この発明の方法の第１実施形態の処理手順の例を示すフローチャート。この発明装置の第２実施形態の機能構成例を示すブロック図。この発明方法の第２実施形態の処理手順の例を示すフローチャート。雑音抑圧を先ず行う第１実施形態の機能構成例の一部を示すブロック図。図８の処理手順の一部を示すフローチャート。雑音抑圧を先ず行う第２実施形態の機能構成例の一部を示すブロック図。図１０の処理手順の一部を示すフローチャート。実施形態中の音声用抑圧部３４にＷＦ法を適用した機能構成例を示すブロック図。各種手法による音声認識の実験結果を示すグラフ。

Claims

入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
前記音声区間の信号と前記雑音区間の信号から前記入力音声信号の信号対雑音比（以下Ｓ／Ｎと書く）を推定するＳ／Ｎ推定過程と、
前記入力音声信号に対し、複数のＳ／Ｎ条件で作成された雑音重畳音声モデルを用いて認識処理を行う並列認識処理過程と、
前記複数のＳ／Ｎ条件中の前記推定されたＳ／Ｎと最も近いものを近接Ｓ／Ｎ条件として決定する近接Ｓ／Ｎ決定過程と、
前記近接Ｓ／Ｎ条件と対応するモデルを用いた認識処理された結果を出力する選択過程と
を含むことを特徴とする音声認識方法。
予め決めた時間が経過したかを判定する判定過程と、
前記判定が経過してないであれば前記並列認識処理過程及び前記Ｓ／Ｎ推定過程を実行し、前記判定が経過したであれば前記近接Ｓ／Ｎ決定過程及び前記選択過程を実行し、その後は前記近接Ｓ／Ｎ条件と対応するモデルのみを用い前記入力音声信号中の残りの信号に対して認識処理を行う過程とを含むことを特徴とする請求項１記載の音声認識方法。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
前記音声区間の信号と前記雑音区間の信号から前記入力音声信号の信号対雑音比（以下Ｓ／Ｎと書く）を推定するＳ／Ｎ推定過程と、
前記雑音区間の信号から特徴パラメータを抽出して、雑音モデルを作成する雑音モデル作成過程と、
雑音のない音声信号から予め作成されたクリーン音声モデルと前記雑音モデルとを前記推定されたＳ／Ｎ条件に合せて合成して雑音重畳音声モデルを作成する認識用モデル作成過程と、
前記雑音重畳音声モデルを用いて前記入力音声信号に対し認識処理を行う認識処理過程と
を含むことを特徴とする音声認識方法。
予め決めた時間が経過したかを判定する判定過程と、
前記判定が経過してないであれば前記Ｓ／Ｎ推定過程を実行し、前記判定が経過したであれば前記Ｓ／Ｎ推定過程のそれまでに得られたデータに基づきＳ／Ｎを近似推定し、その近似推定Ｓ／Ｎを用いて前記認識用モデル作成過程及び前記認識処理過程を実行する過程とを含むことを特徴とする請求項３記載の音声認識方法。
前記入力音声信号に対し雑音抑圧処理する過程を含み、
前記Ｓ／Ｎ推定過程は前記雑音抑圧処理された入力音声信号に対して実行する過程であることを特徴とする請求項１〜４のいずれかに記載の音声認識方法。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声／雑音判定部と、
前記判別された音声区間の信号と前記雑音区間の信号が入力され、前記入力音声信号の信号対雑音比（以下Ｓ／Ｎと書く）を推定するＳ／Ｎ推定部と、
複数のＳ／Ｎ条件で作成された雑音重畳音声モデルと前記複数のＳ／Ｎ条件が格納されている認識用モデルメモリと、
前記入力音声信号に対し、前記複数の雑音重畳音声モデルを用いて認識処理を並列に実行する並列認識処理部と、
前記複数のＳ／Ｎ条件及び前記推定されたＳ／Ｎが入力され推定Ｓ／Ｎと最も近いＳ／Ｎ条件を近接Ｓ／Ｎ条件として決定する近接Ｓ／Ｎ決定部と、
前記近接Ｓ／Ｎ条件と対応するモデルを用いて認識処理された結果を、前記並列認識処理部から選出する選択部と
を具備することを特徴とする音声認識装置。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声／雑音判定部と、
前記判別された音声区間の信号と前記雑音区間の信号が入力され、前記入力音声信号の信号対雑音比（以下Ｓ／Ｎと書く）を推定するＳ／Ｎ推定部と、
前記雑音区間の信号が入力され、これらから特徴パラメータを抽出して、雑音モデルを作成する雑音モデル作成部と、
雑音のない音声信号から予め作成されたクリーン音声モデルが格納されたクリーン音声モデルメモリと、
前記雑音モデルと前記クリーン音声モデルとを前記推定されたＳ／Ｎ条件に合せて合成して雑音重畳音声モデルを作成する認識用モデル作成部と、
前記作成された雑音重畳音声モデルを用いて前記入力音声信号に対し認識処理を行う認識処理部と
を具備することを特徴とする音声認識装置。
請求項１〜５のいずれかに記載した音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
請求項８に記載した音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。