JP4242320B2

JP4242320B2 - 音声認識方法、その装置およびプログラム、その記録媒体

Info

Publication number: JP4242320B2
Application number: JP2004145334A
Authority: JP
Inventors: 哲小橋川; 敏高橋; 義和山口; 明弘今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-14
Filing date: 2004-05-14
Publication date: 2009-03-25
Anticipated expiration: 2024-05-14
Also published as: JP2005326672A

Description

この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（Hidden Markov Model、以下ではＨＭＭと記す。）などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のＨＭＭを用いた音声認識装置を図１を参照して簡単に説明する。入力端子１１から入力された音声信号は、Ａ／Ｄ変換部１２においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部１３において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したＨＭＭをモデルメモリ１４から読み出し、尤度計算部１５において、抽出された音声特徴パラメータに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果とし出力部１６より出力する。特徴パラメータ抽出部１３、尤度計算部１５及び出力部１６は認識処理部１７を構成している。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。

背景雑音などの加法性雑音が重畳した音声の従来の認識方法を以下に５つ説明する。１つ目は入力音声信号における背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
２つ目は、ＨＭＭの合成による雑音重畳音声の認識手法（例えば非特許文献１参照）について説明する。雑音重畳音声に対しては、前述のように、雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、ＨＭＭを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、雑音のない大量の音声データをもとに予めクリーン音声ＨＭＭを作成しておく。認識時には観測した背景雑音から作成した雑音ＨＭＭと、クリーン音声ＨＭＭを合成する。この合成した雑音重畳音声ＨＭＭは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。

３つ目はテイラー（Taylor）展開による音響モデルの適応（ヤコビアン適応法）による雑音重畳音声の認識手法（例えば、非特許文献２参照）について説明する。前述のＨＭＭ合成法で行っているモデルパラメータの非線形変換を、Taylor展開の１次項を用いて線形近似することで、観測した背景雑音に適応させることが可能になる。ＨＭＭ合成法に比べ、音声モデルの処理時間も少なく、高速に雑音適応ができ、雑音の変化に追従できる。
４つ目は、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法（以下、ＳＳ法と記す）について説明する（例えば非特許文献３参照）。時間領域で加法性の２つの信号は、線形パワースペクトル上でも加法性であることから、ＳＳ法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。

ＳＳ法を用いた音声認識装置を図２を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声／雑音判定部２１で判定される。この判定部２１は、その判定が雑音であるならば、音声／雑音スイッチ２２を雑音端子２２ａ側に接続してＡ／Ｄ変換部１２の出力側を平均雑音パワースペクトル計算部２３に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部２１で認識対象である雑音重畳音声区間であると判定された場合は、音声／雑音スイッチ２２を音声端子２２ｂ側に接続して、Ａ／Ｄ変換部１２の出力側を雑音重畳音声パワースペクトル計算部２４に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部２５において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻ｔのパワースペクトルの周波数ｆの雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）は、以下のように計算される。

Ｄ(Ｙ（ｔ，ｆ）)＝Ｙ(ｔ，ｆ)−αＮ＾(ｆ)
Ｙ^Ｄ(ｔ，ｆ)＝Ｄ(Ｙ(ｔ，ｆ)) ：Ｄ(Ｙ(ｔ，ｆ))＞βＹ(ｔ，ｆ)の場合
Ｙ^Ｄ(ｔ，ｆ)＝βＹ(ｔ，ｆ) その他の場合（１）
ここで、Ｙ（ｔ，ｆ）は、入力雑音重畳音声の時刻ｔ、周波数ｆのパワースペクトル、
Ｎ＾(ｆ)は推定された周波数ｆの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常１より大きい。
βはフロアリング係数であり、１より小さい。

抑圧処理部２５から出力されるパワースペクトルから、音声認識の特徴パラメータ（例えば、１２次元のメルフレクエンシイケプストラム係数（Mel-Frequency Cepstrum Coefficient：ＭＦＣＣ））を特徴パラメータ抽出部１３で計算する。これ以後の処理は、図１で説明した通りである。
さらに、別の雑音抑圧手法としてウィナー・フィルタ法（以下、ＷＦ法と略す）に基づく雑音抑圧法について図３を参照して説明する（例えば非特許文献４参照）。計算部２３で平均雑音パワースペクトルを求め、計算部２４で雑音重畳音声パワースペクトルを求めることは、図３に示したＳＳ法と同様であり、これらを用いて音声／雑音スイッチ２２の端子２２ｂ側からの雑音重畳音声信号に対し、雑音抑圧処理部２６で雑音抑圧処理が行われる。まず雑音重畳音声パワースペクトル計算部２４からのパワースペクトルは平均雑音重畳音声パワースペクトル計算部２６ａで平均雑音重畳音声パワースペクトルが計算され、ゲイン関数計算部２６ｂでＷＦ法のゲイン関数Ｇが式（２）により計算される。

Ｇ＝Ｅ［｜Ｓ｜^２］／（Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］）（２）
ただし、Ｅ［｜Ｓ｜^２］とＥ［｜Ｎ｜^２］はそれぞれ音声信号と雑音信号の各集合平均を表す。
つまり式（２）は音声信号のパワーレベル／雑音重畳音声信号のパワーレベルを意味しており、計算部２６ａから出力される式（２）の分母Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］と対応する値から、計算部２３から出力されるＥ［｜Ｎ｜^２］と対応する値を引算して式（２）の分子Ｅ［｜Ｓ｜^２］と対応する値を求め、式（２）を計算する。

次にウィナーフィルタ処理部２６ｃにおいて、端子２２ｂから入力された雑音抑圧前の信号Ｚに対してゲイン関数Ｇを乗算し、ＷＦ法による雑音抑圧処理された信号Ｓ^＝ＧＺ
が求められる。
このようにＷＦ法による雑音抑圧法は、フレーム毎のＳ／Ｎを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。
しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部２６ｃで雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献５に示されている。つまりウィナーフィルタ処理部２６ｃの出力に対し、原音付加部２６ｄで式（３）を計算する。

Ｓ’＝（１−δ）Ｚ＋δＳ^ （３）
非特許文献５によれば、原音付加率（１−δ）を０．２とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約１４ｄＢとなることが記載されている。
F.Martin他："Recognition of Noisy Speech by Composition of Hidden Markov Models，"電子情報通信学会技術研究報告ＳＰ９２−９６，pp.９−１６，１９９２山口義和、高橋淳一、高橋敏、嵯峨山茂樹："Taylor展開による音響モデルの適応"電子情報通信学会技術研究報告ＳＰ９６−７８，pp.１−８，１９９６ Steven F.Boll："Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing, Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enbancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003.

一般に、雑音の無い環境下に比べ、雑音環境下では音声の認識性能は劣化する。さらに、雑音の種類が多く、予め用意してある雑音重畳音声モデルとの不整合を起こし、認識性能が劣化する。実際の利用環境を考えると、雑音の種類は刻々と変化する場合も多く、利用環境に依存した雑音環境に適応した雑音重畳音声モデルを事前に作成しておくのは困難である。
そこで、周囲の雑音環境やＳ／Ｎ条件が事前に用意した雑音重畳音声モデルと近い環境であればそのモデルを用いて認識し、周囲の環境が事前に想定した環境と異なる場合には新たに環境に適応して認識を行うというように、利用環境における雑音条件の変化に自律的に適応していくような音声認識方法が必要となる。

この発明の目的は、事前に用意してある雑音重畳音声モデルの学習時の環境と、認識時の環境が異なっていても、比較的容易に新たに環境に適応した雑音重畳音声モデルを作成することができる音声認識方法、その装置及びプログラム、その記録媒体を提供することにある。

入力音声信号に対して、雑音信号であるか、雑音重畳音声信号であるかを判定し、判定結果が雑音である場合に、少くとも一つの事前に作成しておいた雑音重畳音声モデルの学習時に重畳した雑音信号と前記判定した雑音信号との類似度を少くとも推定し、類似度が所定値以上のモデルがあれば、そのうちの類似度が最も高いもののモデルを認識モデルとして音声認識を行い、前記類似度が所定値以上のものがなければ、事前に作成しておいた音声モデルと前記判定雑音信号とを用いて前記判定雑音信号に適応した雑音重畳音声モデルを作成し、この雑音重畳音声モデルを用いて前記入力音声信号に対して音声認識を行う。

この構成によれば、まず入力音声信号中の雑音信号を検出して、これより音声認識に適する雑音重畳音声モデルが予め用意した雑音重畳音声モデル中にあるかを調べ、あればその音声モデルを用いなければ、その検出した雑音信号と予め用意した音声モデルとを用いてその検出した雑音信号に適合した雑音重畳音声モデルを作成して、認識を行うため、環境雑音に比較的影響されずかつ比較的短時間に高い認識率の認識を行うことができる。

以下にこの発明の実施形態を説明するが、この明細書及び図面において、対応する部分には同一参照番号を付けて重複説明を省略する。
［第１実施形態］
この発明の第１実施形態は入力音声信号中の雑音信号と、格納されている雑音重畳音声モデルの作成の際に用いた学習音声信号中の雑音信号との類似度に基づき、認識に格納されているモデルを用いるか、適合したモデルを作成して用いるかを判断する。第１実施形態の機能構成例を図４にその処理手順を図５にそれぞれ示す。

入力された入力音声信号はＡ／Ｄ変換部２１でディジタル入力音声信号に変換され、そのディジタル入力音声信号のパワースペクトルがパワースペクトル計算部３１により計算される（ステップＳ１）。このパワースペクトルに基づき入力音声信号が音声区間であるか雑音区間であるかの判定が音声／雑音判定部２１により判定される（ステップＳ２）。この実施形態では類似度の計算に用いる。入力音声信号中の雑音信号として、抑圧された雑音信号を用いている。つまり入力音声信号中の雑音区間平均雑音パワースペクトルが雑音平均パワースペクトル計算部２３により計算されて入力音声信号中の雑音成分が推定され（ステップＳ３）、パワースペクトル計算部３１からの入力部信号のパワースペクトル中の音声／雑音スイッチ２２の雑音側端子２２ａよりのパワースペクトルが、この平均雑音パワースペクトルにより雑音用抑圧部３２により抑圧処理されて抑圧処理された雑音区間信号と対応する信号のパワースペクトル（抑圧処理後パワースペクトル）が得られる（ステップＳ４）。この抑圧処理は例えば背景技術の項で述べたＳＳ法の式（１）により行なう。

一方、雑音重畳音声モデルメモリ３３には、利用環境において想定される雑音信号の平均パワースペクトルを減算した抑圧雑音信号から作成された雑音モデルが、雑音重畳音声モデルメモリ３３内の雑音部Ｎ_ｎ（ｎ＝１，…，Ｎ）が少くとも１つ格納してあり、またその雑音モデルとクリーン音声モデルを合成した雑音重畳音声モデルが音声部（モデル部）Ｍ_ｎに格納してある。
ステップＳ４で抑圧処理された雑音パワースペクトルは類似度計算判定部３４の雑音部３４ａにおいて雑音重畳音声モデルメモリ３３に格納してある雑音モデルと雑音類似度が計算される（ステップＳ５）。この類似度が判定部３４ｂで所定値以上か否かの判定が行われる（ステップＳ６）。メモリ３３内に格納してある雑音重畳音声モデルが複数の場合はその各雑音モデルとの類似度が計算される。判定部３４ｂで所定値以上のものが複数あればその類似度の最も高いものと対応する雑音重畳音声モデルが読み出されて認識処理部１７中の尤度計算部１５へ供給される（ステップＳ７）。つまり図４で類似度計算判定部３４の出力により切り替えスイッチ３５が端子３５ａ側に切り替えられてメモリ３３に接続され、前記モデルが読み出されて尤度計算部１５に供給される。前記尤度の計算は例えば前記抑圧処理された雑音パワースペクトルから特徴パラメータを抽出してこれを雑音モデルに代入演算して確率値として求めればよい。

ステップＳ６で所定値以上のものがなければステップＳ８に移り、つまり図４において類似度計算判定部３４の出力によりスイッチ３６がオンにされて雑音用抑圧部３２よりの抑圧処理された雑音パワースペクトルがモデル作成部３７に供給される。この抑圧処理された雑音パワースペクトルと、予め格納してある音声モデルとから雑音重畳音声モデルが作成される。この実施形態では雑音のない学習音声信号から作成されたクリーン音声モデルがクリーン音声モデルメモリ３７ａに予め格納してある。抑圧処理された雑音パワースペクトルは雑音モデル学習部３７ｂで学習されて雑音モデルが生成され（ステップＳ８ａ）、つまり抑圧処理された雑音パワースペクトルから特徴量が抽出されこれより雑音モデルが学習生成される。この雑音モデルとメモリ３７ａ内のクリーン音声モデルとが合成部３７ｃで合成されて（ステップＳ８ｂ）、雑音重畳音声モデルとしてスイッチ３５の端子３５ｂを通じて尤度計算部１５へ供給される。スイッチ３５はスイッチ３６がオンになる時に端子３５ｂ側に同期して切り替えられる。合成部３７ｃでの合成は例えば非特許文献１に示す方法により行う。

一方ステップＳ２で音声区間であると判定されるとパワースペクトル計算部３１よりのパワースペクトルは音声用抑圧部３８に供給され平均雑音パワースペクトル計算部２３よりの平均雑音パワースペクトルにより雑音抑圧される（ステップＳ９）。この雑音抑圧処理も例えば前記ＳＳ法の式（１）による。つまり雑音重畳音声信号の時刻ｔ、周波数ｆのパワースペクトルＹ（ｔ，ｆ）から周波数ｆの時間平均雑音パワースペクトルＮ＾（ｆ）をα倍した値を減算してＤ（Ｙ（ｔ，ｆ））を求め（ステップＳ９ａ）、Ｄ（Ｙ（ｔ，ｆ））がβ（Ｙ（ｔ，ｆ））より大きいかを判定し、大であれば雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）としてＤ（Ｙ（ｔ，ｆ））を出力し（ステップＳ９ｃ）、Ｄ（Ｙ（ｔ，ｆ））＞βＹ（ｔ，ｆ）でなければβＹ（ｔ，ｆ）をＹ^Ｄ（ｔ，ｆ）として出力する（ステップＳ９ｄ）。なおこの抑圧処理は音声に歪みをなるべく与えないようにαは小さめに例えば１．０±０．５程度、βは大きめに例えば０．５±０．１程度として雑音抑圧量が小さくなるようにする。このＳＳ法の処理に代えて時間的変動する抑圧処理、つまり背景雑音だけではなく各隣接音声区間の間の各雑音区間について平均雑音パワースペクトルを求め、Ｄ（Ｙ（ｔ，ｆ））＝Ｙ（ｔ，ｆ）−αＮ＾（ｆ）を雑音抑圧後のパワースペクトルとしてもよい。この場合はＮ＾（ｆ）が時間的に変化する。

この雑音抑圧処理された音声区間のパワースペクトルは認識処理部１７において認識処理される（ステップＳ１０）。つまり雑音抑圧された音声区間パワースペクトルは特徴パラメータが抽出され（ステップＳ１０ａ）、その特徴パラメータについて尤度計算部１５でこれに入力された雑音重畳音声モデルに対する尤度が計算され（ステップＳ１０ｂ）、その最も高い尤度と対応する認識音声単位が出力される（ステップＳ１０ｃ）。この音声認識装置を使用する場合には雑音重畳音声モデルメモリ３３に予め想定される少なくとも一つの雑音重畳音声モデルを格納しておき、またクリーン音声モデルをメモリ３７ａに格納しておき、音声認識に先立ち入力された入力音声信号、つまり音声信号が重畳されていない背景（環境）雑音信号について前述したような処理により抑圧処理された雑音パワースペクトルとメモリ３３内の雑音モデルとの類似度を求めてメモリ３３に格納してある雑音重畳音声モデルを使用するか、モデル作成部３７で作成された雑音重畳音声モデルを使用するかが決定される。その後音声が重畳されている入力信号中の音声区間の信号に対する認識処理が行われる。

従ってステップＳ５で計算された雑音類似度が高ければ、検出された背景雑音と、メモリ３３内の雑音重畳音声モデルの作成の際に重畳した雑音信号とがよく類似しておりこの雑音重畳音声モデルを用いて認識することにより高い認識率が得られる。前記計算した類似度が低ければ前述したように検出された背景雑音と格納してあるクリーン音声モデルとから雑音重畳音声モデルが作成されこれが認識に用いられるため同様に高い認識率が得られ、しかもこのモデルの作成は学習雑音重畳音声信号から音声モデルを作成するのではなく、これに比べ比較的短時間で作ることができる。

またこの実施形態においては検出した背景雑音に対してその雑音成分がこの例では平均雑音パワースペクトルとして検出されこれにより検出された背景雑音が抑圧処理され、同様にメモリ３３内の雑音モデルも抑圧された雑音から生成されており、これら抑圧処理された雑音は抑圧処理されない雑音よりもその変化状態の態様が少ないため、つまり雑音のバリエーションが減っているため雑音類似度の演算量が少なくしかもかなり正確に類似性を判断することができる。また音声区間信号に対しても雑音抑圧処理を行っているためそれだけ高い認識率が得られる。

なお、判定部３４ｂにおけるしきい値としての所定値は種々の場合により異なるため、例えば適当ないくつかの値をそれぞれ所定値として、予め既知の入力音声信号に対して認識処理を行い、それぞれの認識率を求め好ましい所定値を実験により決定しておくことになる。
［第２実施形態］
音声認識においてはその入力音声信号の信号対雑音比（Ｓ／Ｎ）が、認識に用いる雑音重畳音声モデル作成に用いたＳ／Ｎと類似していないと認識率が低下する。つまり入力音声信号のＳ／Ｎ条件も認識率に影響を与える。この第２実施形態では入力音声信号と格納してある雑音重畳音声モデルの作成時に用いた学習音声信号との類似度を考慮して格納してあるモデルを用いるかモデルを作成して用いるかの判断をする。

このＳ／Ｎの類似度も考慮するために必要な機能構成を図４中に、処理手順を図５に破線で付け加えて示す。以下に第１実施例と異なる点について説明する。
図４において雑音区間と判定されるとパワースペクトル計算部３１で計算されたパワースペクトルがＳ／Ｎ計算部４１の雑音部４１ａに入力されて雑音区間のパワーレベルが計算される。音声区間と判定されるとパワースペクトル計算部３１からのパワースペクトルがＳ／Ｎ計算部４１の信号部４１ｂに入力されて音声区間のパワーレベルが計算される。計算部４１ｃで、この音声区間のパワーレベルから雑音区間のパワーレベルが差し引かれ、これにより得られた推定音声信号パワーレベルが雑音区間のパワーレベルで割算部４１ｄで割算され、Ｓ／Ｎが得られる。このＳ／Ｎは、類似度計算判定部３４のＳ／Ｎ部３４ｃにおいて、メモリ３３内のＳ／Ｎ部３３ｃに格納してあるモデル対応のＳ／Ｎとの類似度が計算されこのＳ／Ｎ類似度と雑音部３４ａで得られた雑音類似度とを総合した類似度が総合部３４ｄで計算され、この総合類似度が判定部３４ｂへ供給される。

モデルメモリ３３内の各雑音重畳モデルはそれぞれが多数の各種学習データから作られており、これ等の学習データはそれぞれＳ／Ｎが異なっており、つまり各モデルごとに異なるＳ／Ｎの分布を持っている。この分布がモデルメモリ３３内のＳ／Ｎ部３３ｃにモデル対応で格納されてある。Ｓ／Ｎ計算部４１で計算されたＳ／Ｎの、メモリ３３内の各Ｓ／Ｎ部３３ｃに格納されたＳ／Ｎ分布に対する類似度を確率値として求めることができる。従って総合部３４ｄにおいてこのＳ／Ｎの類似度確率値と雑音部３４ａで得られた雑音類似度確率値との積を求めることによって総合類似度を求めることが出来る。この総合類似度について第１実施形態と同様に判定部３４ｂで判定する。

認識処理に当っては図５に示すようにステップＳ２で音声区間と判定されるとステップＳ１１でモデル作成部３７による雑音重畳音声モデルが作成されたかが判断され、作成されていなければステップＳ１２において先に入力された背景雑音信号の、つまり雑音区間のパワーレベルが計算され又音声区間の信号のパワーレベルが計算される。これらパワーレベルからステップＳ１３でＳ／Ｎが計算される。次にステップＳ１４で、第１実施形態で述べたように雑音類似度が計算され、また先に述べたようにＳ／Ｎ類似度が計算され更にステップＳ１５で総合類似度が計算されこの総合類似度がステップＳ６で所定値以上かの判定がされることになる。一方ステップＳ１１でモデルが出来ていると判定されるとステップＳ９に移り、その後の処理は第１実施形態と同様である。

このようにこの第２実施形態では格納してある雑音重畳音声モデルの作成環境と入力音声信号の環境との比較に雑音の種類だけではなくＳ／Ｎ条件も用いているのでより最適なモデルの選択が可能になる。
［第３実施形態］
第１及び第２実施形態においては雑音成分の推定を雑音区間の信号に対しつまり平均雑音パワースペクトル計算部２３で求めた。この第３実施形態においては図６に機能構成を、図７に処理手順を示すように入力音声信号のディジタル信号から雑音推定部４５で入力音声信号中の雑音成分、例えばほぼ時間的に一定な低レベル成分を雑音成分として推定し（ステップＳ２１）、この成分を雑音抑圧部４６でＡ／Ｄ変換部１２からの入力音声信号から差し引いて雑音抑圧処理を行う（ステップＳ２２）。この雑音抑圧処理された信号に対しパワースペクトルを計算して第１又は第２実施形態と同様の処理を行う。

この場合は雑音抑圧された信号に基づき音声区間か雑音区間かの判定処理を行っているので第１及び第２実施形態における区間判定よりも正確に各区間を判定することができ、それだけ高い認識率が得られる。
［変形例］
上述では雑音抑圧処理を行ったが、いずれの実施形態においても、雑音抑圧処理を行わなくてもよい。この場合は図４において平均雑音パワースペクトル２３及び雑音用抑圧部３２が省略され、音声／雑音スイッチ２２の端子２２ａが直接類似度計算判定部３４とスイッチ３６に接続されまた音声用抑圧部３８が省略され音声／雑音スイッチ２２の端子２２ｂが直接認識処理部１７に接続される。更に雑音重畳音声モデルメモリ３３内の雑音部３３ｂに格納される雑音モデルは抑圧されない雑音信号から作られたものとなる。

図５においては、このステップＳ３及びＳ４が省略されステップＳ２で音声区間でないと判定されると直ちにステップＳ５に移り、またステップＳ９が省略されステップＳ２で音声区間と判定されると直ちにステップＳ１０に移る。
図６においては雑音推定部４５と雑音抑圧部４６が省略されＡ／Ｄ変換部１２の出力側がパワースペクトル計算部３１に直接接続されることになる。雑音重畳音声モデルメモリ３３に格納される雑音モデルも図４について述べたと同様に変更される。図７においてはステップＳ２１及びＳ２２が省略されステップＳ１から始まることになる。

上述においてモデル作成部３７で作成するモデル、つまりステップＳ８のモデル作成処理で作成するモデルは、入力音声信号中の雑音信号から作った雑音モデルとクリーン音声モデルとを合成して入力音声信号中の雑音信号に適応させた雑音重畳音声モデルとした。いずれの実施形態においても、この雑音信号に適応させた雑音重畳音声モデルの作成は、メモリ３３内に格納されているモデルを入力音声信号中の雑音信号により適応させて作成してもよい。この適応修正処理によるモデルの作成は例えば非特許文献２に示す方法による。例えば図４中のモデル作成部３７内に破線で示すように、類似度計算判定部３４で計算された類似度中の最大のものと対応するメモリ３３内の雑音重畳音声モデルが、適応修正部３７ｄに入力され、またスイッチ３６を通じて抑圧処理された雑音パワースペクトルも適応修正部３７ｄに入力され、その雑音重畳音声モデルが前記入力された雑音パワースペクトルに適応させられて、つまりモデル適応処理がなされ（図５、ステップＳ８ｃ）雑音重畳音声モデルとして尤度計算部１５へ出力される。このようにすることにより先に述べたモデル合成により場合によりは、適応性が多少悪いが短時間で雑音重畳音声モデルを作成することができる。

またモデル作成部３７における入力音声信号から抽出された環境雑音信号に適応した雑音重畳音声モデルの作成は再学習によってもよい。つまり例えば図４中に示すように再学習部３７ｅにおいて雑音がない学習クリーン音声信号に雑音区間の信号（抑圧処理された信号の場合もある）を重畳し、この雑音重畳音声信号を学習して雑音重畳音声モデルを作成してもよい（図５、ステップＳ８ｄ）。この変形も第１乃至第３実施形態のいずれに適用してもよい。
またいずれの実施形態においても、例えば図４中に示すようにモデル作成部３７で作成した雑音重畳音声モデルを格納部４２によりメモリ３３の音声部３３ａに格納し（図５、ステップＳ１６）、次の入力音声信号に対する認識処理に用いてもよい。この場合、その音声モデルと対応する雑音モデル学習部３７ｂで作成された雑音モデル（抑圧処理されたものの場合もある）、必要に応じてＳ／Ｎ計算部４１で計算されたＳ／Ｎもメモリ３３に格納される。このように作成したモデルをメモリ３３に格納するようにすると、メモリ３３内のモデルが入力音声信号の環境雑音に自律的に適応し、認識率が向上するようになる。なお必要に応じて、類似度が小さいモデルはメモリ３３から削除し、なるべく無駄な処理をしないようにしてもよい。

類似度計算判定部３４で判定した類似度が所定値以下で雑音重畳音声モデルを作成する場合に、次の入力音声信号の認識までの時間を考慮してその作成方法を選択し、この選択した方法により作成したモデルを用いて現在の入力音声信号に対し認識処理を行うと共に、その作成したモデルを雑音重畳音声モデルメモリ３３に格納して、この新たに作成したモデルも次の入力音声信号の認識処理の際に利用してもよい。そのための機能構成を示す図８及び処理手順を示す図９を参照して以下に説明する。
モデル作成部３７には作成法選択部３７ｆ、適応修正部３７ｄ、合成部３７ｇ、再学習部３７ｅが設けられ、再学習部３７ｅは雑音がないクリーン音声信号に尤度計算判定部３４での尤度計算に用いた入力音声信号中の雑音信号を重畳した信号について音声モデルを学習するものであり、その学習に必要とするおおよその時間Ｔ１はわかる。合成部３７ｇは図４中のモデル作成部３７内に示したものと同様のものであり、前記尤度計算に用いた入力音声信号中の雑音信号の雑音モデルを学習生成し、これとクリーン音声モデルとを合成するものであり、このモデル作成に必要なおおよその時間Ｔ２はわかる。適応修正部３７ｄは図５中のモデル作成部３７内に示した適応修正部３７ｄと同様のものであり、この適応修正に必要なおおよその時間Ｔ３はわかる。

作成法選択部３７ｆには前記Ｔ１，Ｔ２及びＴ３がそれぞれ予めレジスタに格納され、又この例では予め決めた所定類似度Ｐｓも格納されている。この作成法選択部には次の入力音声信号の認識までの時間Ｔｄが入力され又類似度計算判定部３４から所定値以下と判定された類似度中の最高の値Ｐｄも入力され、これらに基づきいずれの作成法を用いるかが決められる（ステップＳ１７）。
例えば図９に示すようにステップＳ１７ａで入力された最高類似度Ｐｄが所定値Ｐｓ以下か否か判定され、所定値以下であればステップＳ１７ｂで入力された時間Ｔｄが第一基準時間Ｔ１以下か否か判定され、以下でなければ再学習部３７ｅにより再学習処理されて雑音重畳音声モデルが作成される（ステップＳ８ｄ）。ステップＳ１７ｂでＴ１以下であればステップＳ１７ｃでＴｄが第二基準時間Ｔ２以下か否かが判定され、以下でなければ合成部３７ｇで合成処理による雑音重畳音声モデルが作成される（ステップＳ８ｂ）。

ステップＳ１７ｃでＴ２以下であればステップＳ１７ｄでＴｄが第三基準時間Ｔ３以下か否かが判定され、以下でなければ適応修正部３７ｄで適応修正処理が行われて雑音重畳音声モデルが生成される（ステップＳ８ｃ）。ステップＳ１７ｄでＴ３以下であればメモリ３３への格納は行わず、現にメモリ３３に格納されている雑音重畳音声モデルを用いて認識処理を行う。ステップＳ１７ａで入力された類似度Ｐｄが所定値Ｐｓ以下でなければステップＳ１７ｃ又はＳ１７ｄに移ることにより現在認識しようとしている入力音声信号に対する処理を早くするようにしてもよい。

このようにすることにより入力音声信号中の環境雑音がメモリ３３に格納されている雑音とあまりにもかけ離れている場合には前述したようにまずＴｄが十分大きければ時間がかかるけれども再学習処理によりその環境雑音に最も適応した雑音重畳音声メモリを作る。しかし時間Ｔｄが短くなるにつれて環境雑音への適応が劣るが合成処理によるモデル作成更にＴｄが短ければ適応修正処理によるモデル作成を行うことができる。なおこの作成法選択処理において計算に用いた類似度Ｐｄは省略してもよい。これら図８及び図９に示したことは第１乃至第３実施形態のいずれにも適用することができる。

更に、図４及び図６中の抑圧部３２，３８，４６、図５及び図７中のステップＳ４，Ｓ９，Ｓ２２の抑圧処理として、背景技術の項で図３を参照して説明した雑音抑圧処理を適用してもよい。例えば、図４中の音声用抑圧部３８の機能構成は図１０に示すようになる。端子２２ｂからの音声区間のパワースペクトルは平均雑音重畳音声パワースペクトル計算部２６ａにより平均雑音重畳音声パワースペクトルが計算され、この計算結果から平均雑音パワースペクトル計算部２３よりの平均雑音パワースペクトルが減算部２６ｂ１で引算され、その残りが平均雑音重畳音声パワースペクトルにより除算部２６ｂ２で割算されて、式（２）のゲイン関数Ｇが求められる。そのゲイン関数Ｇが端子２２ｂよりの雑音重畳音声信号Ｚに対してウィナーフィルタ処理部２６ｃで乗算されフィルタ処理結果Ｓ^が得られる。

原音付加部２６ｄにおいて、端子２２ｂからの雑音重畳音声信号Ｚに対し、原音付加率（１−δ）が乗算部２６ｄ１で乗算され、またウィナーフィルタ処理部２６ｃの出力Ｓ^
に対しδが乗算部２６ｄ２で乗算され、両乗算部２６ｄ１及び２６ｄ２の各出力が加算部２６ｄ３で加算されて、抑圧処理された雑音重畳音声パワースペクトルが得られる。雑音区間における雑音用抑圧部３２も同様に構成されるが、平均雑音パワースペクトルＥ［｜Ｎ^２｜］は例えば１秒間程度の雑音パワースペクトルの平均であり、Ｅ［｜Ｓ^２｜］＋Ｅ［｜Ｎ^２｜］に対応する値は、各フレーム、例えば３０ミリ秒間の雑音パワースペクトルの平均Ｅ［｜Ｏ^２｜］であり、式（２）のゲインＧは（Ｅ［｜Ｏ^２｜］−Ｅ［｜Ｎ^２｜］）／Ｅ［｜Ｏ^２｜］となり、小さな値となる。よって、雑音用抑圧部３２の出力は（１−δ）Ｚに近い値になる。

このような雑音抑圧処理を適用した場合は、原音付加率（１−δ）は例えば０．３〜０．２程度とされる。
図４及び図６に示した装置をコンピュータにより機能させてもよい。この場合は図５又は図７に示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにＣＤ−ＲＯＭ、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。

従来のＨＭＭを用いた音声認識装置の機能構成を示すブロック図。スペクトルサブトラクション法を用いた従来の音声認識装置の機能構成を示すブロック図。ウィナー・フィルタ法を用いた従来の雑音抑圧を示す機能構成図。この発明装置の第１及び第２実施形態の機能構成例を示すブロック図。この発明の方法の第１及び第２実施形態の処理手順の例を示すフローチャート。この発明装置の第３実施形態の機能構成例を示すブロック図。この発明方法の第３実施形態の処理手順の例を示すフローチャート。モデル作成方法を選択してメモリに格納するための機能構成例を示す図。図８に示した機能構成の処理手段の例を示すフローチャート。実施形態中の音声用抑圧部３８にＷＦ法を適用した機能構成例を示すブロック図。

Claims

入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
前記入力音声信号が音声区間であるか雑音区間であるかを判定する区間判定過程と、
前記入力音声信号中の前記雑音区間の信号と、少くとも一つの予め格納してある雑音重畳音声モデルを作成する際に重畳した雑音信号との類似度（雑音類似度という）を少くとも計算する類似度計算過程と、
前記類似度が所定値以上のものがあるか否かを判断する判断過程と、
前記判断過程の判断があるであれば前記所定値以上のもので最も高い類似度のものと対応する前記格納してある雑音重畳音声モデルを前記確率モデルとする過程と、
前記判断過程の判断が否であれば予め格納してある音声モデルと前記入力音声信号中の雑音区間の信号とから前記入力音声信号中の雑音信号に適応した雑音重畳音声モデルを作成して前記確率モデルとするモデル作成過程と
を有する音声認識方法。
前記雑音類似度は、
前記雑音区間の信号から雑音成分を推定し、
前記推定された雑音成分を少くとも前記雑音区間の信号に対し抑圧処理し、
前記抑圧処理後の信号と、前記重畳雑音信号に対し抑圧処理した後の信号との類似度であり、
前記入力音声信号中の前記音声区間の信号に対し雑音成分抑圧処理を特徴とする請求項１記載の音声認識方法。
前記区間判定過程は前記入力音声信号に対し、前記推定雑音成分を抑圧処理し、
その抑圧処理後の信号に対して前記音声区間であるか前記雑音区間であるかの判定を行う過程であり、
前記抑圧処理後の信号中の前記音声区間の信号から特徴パラメータ系列を計算し、
この計算した特徴パラメータ系列を前記類似尤度値計に用いることを特徴とする請求項２記載の音声認識方法。
前記類似度計算過程は、
前記音声区間の信号と前記雑音区間の信号とに基づき信号対雑音比Ｓ／Ｎを計算する過程と、
前記格納してある雑音重畳音声モデル作成時の学習データのＳ／Ｎの分布から前記計算したＳ／Ｎの類似度（Ｓ／Ｎ類似度という）を計算し、
このＳ／Ｎ類似度と対応する前記雑音類似度から前記判断過程に用いる類似度を求める過程であることを特徴とする請求項１〜３のいずれかに記載の音声認識方法。
前記モデル作成過程で作成された雑音重畳音声モデルを前記格納してある雑音重畳音声モデルが格納されたメモリに格納してあるモデルとして格納する過程を含むことを特徴とする請求項１〜４のいずれかに記載の音声認識方法。
前記モデル作成過程は、
前記類似度の計算に用いた雑音信号から雑音モデルを作成し、
この雑音モデルと予め格納されている雑音の無い学習音声信号から作られたクリーン音声モデルとを合成して前記確率モデルとする過程であることを特徴とする請求項１〜５のいずれかに記載の音声認識方法。
前記モデル作成過程は、
前記格納してある雑音重畳音声モデルを、前記類似度の計算に用いた雑音信号に適応させる前記確率モデルとする過程であることを特徴とする請求項１〜５のいずれかに記載の音声認識方法。
前記モデル作成過程は、
前記類似度の計算に用いた雑音信号を、雑音がないクリーン音声信号に重畳し、この雑音重畳音声信号を学習して前記確立モデルを作成する過程であることを特徴とする請求項１〜５のいずれかに記載の音声認識方法。
前記モデル作成過程は、
少なくとも次の入力音声信号に対する認識処理までの時間に基づきモデル作成法を選択する過程と、
クリーン音声信号に前記類似度の計算に用いた雑音信号を重畳し、この重畳した音声信号から新たに雑音重畳音声モデルを再学習する過程、クリーン音声モデルと、前記類似度の計算に用いた雑音信号から学習した雑音モデルとを合成して雑音重畳音声モデルを作成する過程及び前記格納してある雑音重畳音声モデルを前記類似度の計算に用いた雑音信号に適応修正する過程のいずれかを前記選択したモデル作成法に基づき選択して、これを実行して前記確率モデルを作成する過程とを有し、
前記作成された確立モデルを前記格納してある雑音重畳音声モデルが格納されたメモリに格納する過程とを含むことを特徴とする請求項１〜４のいずれかに記載の音声認識方法。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、少なくとも一つの雑音重畳音声モデルおよびその雑音重畳音声モデル学習時の雑音重畳音声信号中の重畳雑音信号が格納された雑音重畳音声モデルメモリと、
前記入力音声信号が音声区間であるか雑音区間であるかを判定する音声／雑音判定部と、
前記入力音声信号中の前記雑音区間の信号と、前記雑音重畳音声モデルメモリ中の各重畳雑音信号との類似度を少くとも計算し、前記類似度が所定値以上のものがあるか否かを判断する類似度計算判定部と、
予め格納してある音声モデルと前記入力音声信号中の雑音区間の信号とから前記入力音声信号中の雑音信号に適応した雑音重畳音声モデルを作成するモデル作成部と、
前記類似度計算判定部による判断が所定値以上であれば最も高い類似度のものと対応する前記メモリ内の雑音重畳音声モデルが入力され、前記判断が所定値以上のものがなければ、前記モデル作成部で作成された雑音重畳音声モデルが入力され、この入力された雑音重畳音声モデルを用いて前記入力音声信号中の前記音声区間の信号を認識処理する認識処理部とを具備することを特徴とする音声認識装置。
請求項１〜８のいずれかに記載した音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
請求項１１記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。