JP2005321539A

JP2005321539A - 音声認識方法、その装置およびプログラム、その記録媒体

Info

Publication number: JP2005321539A
Application number: JP2004138808A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Satoshi Takahashi; 敏高橋; Yoshikazu Yamaguchi; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-07
Filing date: 2004-05-07
Publication date: 2005-11-17

Abstract

【課題】音声区間を精度よく検出し、かつ環境雑音に影響され難くする。
【解決手段】入力信号のパワースペクトルを計算し（３１）、その雑音区間の平均パワーを求め（３２）、前記パワースペクトルに対し、平均パワーに基づき、雑音を大きく抑圧し（３４）、その抑圧されたパワースペクトルから音声／雑音区間を検出する（３５）。前記パワースペクトルに対し平均パワーを用いて雑音を小さく抑圧し（４２）、この低抑圧パワースペクトル中の雑音区間のものを用いて抑圧し残した雑音のモデルを作り（３６）、この雑音モデルをクリーン音声モデルに合成する（３８）。低抑圧パワースペクトル中の音声区間のものについて合成モデルを用いて認識処理する（１７）。
【選択図】図１

Description

この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（Hidden Markov Model、以下ではＨＭＭと記す。）などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のＨＭＭを用いた音声認識装置を図１を参照して簡単に説明する。入力端子１１から入力された音声信号は、Ａ／Ｄ変換部１２においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部１３において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したＨＭＭをモデルメモリ１４から読み出し、尤度計算部１５において、抽出された音声特徴パラメータに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果とし出力部１６より出力する。特徴パラメータ抽出部１３、尤度計算部１５及び出力部１６は認識処理部１７を構成している。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。
背景雑音などの加法性雑音が重畳した音声の認識方法として、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法（以下、ＳＳ法と記す）について説明する（例えば非特許文献１参照）。時間領域で加法性の２つの信号は、線形パワースペクトル上でも加法性であることから、ＳＳ法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。

ＳＳ法を用いた音声認識装置を図２を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声／雑音判定部２１で判定される。この判定部２１は、その判定が雑音であるならば、音声／雑音スイッチ２２を雑音端子２２ａ側に接続してＡ／Ｄ変換部１２の出力側を平均雑音パワースペクトル計算部２３に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部２１で認識対象である雑音重畳音声区間であると判定された場合は、音声／雑音スイッチ２２を音声端子２２ｂ側に切り替えて、Ａ／Ｄ変換部１２の出力側を雑音重畳音声パワースペクトル計算部２４に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部２５において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻ｔのパワースペクトルの周波数ｆの雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）は、以下のように計算される。
Ｄ(Ｙ（ｔ，ｆ）)＝Ｙ(ｔ，ｆ)−αＮ＾(ｆ)
Ｙ^Ｄ(ｔ，ｆ)＝Ｄ(Ｙ(ｔ，ｆ)) ：Ｄ(Ｙ(ｔ，ｆ))＞βＹ(ｔ，ｆ)の場合
Ｙ^Ｄ(ｔ，ｆ)＝βＹ(ｔ，ｆ) その他の場合（１）
ここで、Ｙ（ｔ，ｆ）は、入力雑音重畳音声の時刻ｔ、周波数ｆのパワースペクトル、
Ｎ＾(ｆ)は推定された周波数ｆの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常１より大きい。
βはフロアリング係数であり、１より小さい。

抑圧処理部２５から出力されるパワースペクトルから、音声認識の特徴パラメータ（例えば、１２次元のメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficient：ＭＦＣＣ））を特徴パラメータ抽出部１３で計算する。これ以後の処理は、図１で説明した通りである。
さらに、別の雑音抑圧手法としてウィナー・フィルタ法（以下、ＷＦ法と略す）に基づく雑音抑圧法について図３を参照して説明する（例えば非特許文献２参照）。計算部２３で平均雑音パワースペクトルを求め、計算部２４で雑音重畳音声パワースペクトルを求めることは、図３に示したＳＳ法と同様であり、これらを用いて音声／雑音スイッチ２２の端子２２ｂ側からの雑音重畳音声信号に対し、雑音抑圧処理部２６で雑音抑圧処理が行われる。まず雑音重畳音声パワースペクトル計算部２４からのパワースペクトルは平均雑音重畳音声パワースペクトル計算部２６ａで平均雑音重畳音声パワースペクトルが計算され、ゲイン関数計算部２６ｂでＷＦ法のゲイン関数Ｇが式（２）により計算される。
Ｇ＝Ｅ［｜Ｓ｜^２］／（Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］）（２）
ただし、Ｅ［｜Ｓ｜^２］とＥ［｜Ｎ｜^２］はそれぞれ音声信号と雑音信号の各集合平均を表す。

つまり式（２）は音声信号のパワーレベル／雑音重畳音声信号のパワーレベルを意味しており、計算部２６ａから出力される式（２）の分母Ｅ［｜Ｓ｜^２］＋Ｅ［｜Ｎ｜^２］と対応する値から、計算部２３から出力されるＥ［｜Ｎ｜^２］と対応する値を計算して式（２）の分子Ｅ［｜Ｓ｜^２］と対応する値を求め、式（２）を計算する。
次にウィナーフィルタ処理部２６ｃにおいて、端子２２ｂから入力された雑音抑圧前の信号Ｚに対してゲイン関数Ｇを乗算し、ＷＦ法による雑音抑圧処理された信号Ｓ^＝ＧＺが求められる。
このようにＷＦ法による雑音抑圧法は、フレーム毎のＳ／Ｎを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。

しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部２６ｃで雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献３に示されている。つまりウィナーフィルタ処理部２６ｃの出力に対し、原音付加部２６ｄで式（３）を計算する。
Ｓ’＝（１−δ）Ｚ＋δＳ^ （３）
非特許文献３によれば、原音付加率（１−δ）を０．２とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約１４ｄＢとなることが記載されている。

雑音のない大量の音声データをもとに予めクリーン音声ＨＭＭを作成しておき、認識時に観測した背景雑音から雑音ＨＭＭを作成し、この雑音ＨＭＭはクリーン音声ＨＭＭを合成して雑音重畳音声ＨＭＭを作り、このＨＭＭを用いて認識処理を行うことが例えば非特許文献４に記載されている。
Steven F.Boll："Suppression of Acoustic Noise in Speech Using Spectral Subtraction，"IEEE Transactions on Acoustics，Speech and Signal Processing，Vol.ASSP-27，No.2，pp.113-120，April 1979 J.S. Lim and A. V. Oppenheim, "Enbancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003. F.Martin他, "Recognition of Nosiy Speech by Composition of Hidden Markov Models"電子情報通信学会技術研究報告SP92-96，pp.9-16，1992.

一般に、音声区間の抽出誤りは音声認識性能の劣化をもたらす。雑音環境下において高精度に音声区間を検出することは難しい。雑音環境下での音声区間誤りを低減する方法として、雑音抑圧手法を用いて音声区間を強調することが考えられる。しかしながら、雑音抑圧によって起こる音声の歪みも音声認識の性能を劣化させる要因になる。音声認識性能を向上させるためには、音声区間検出性能を高精度に保ったまま、認識時の音声の歪み量を抑える必要がある。
この発明の目的は、雑音環境下での音声区間検出誤りを抑え、高い認識性能を保つことができる音声認識方法、その装置およびプログラム、その記録媒体を提供することである。

この発明によれば入力音声信号に対して、高い抑圧量又は時間的に一定の高雑音抑圧処理を行い、この高雑音抑圧処理された信号から音声／雑音区間の時間情報を抽出し、一方で、入力音声信号に対して、低抑圧量又は時間的に変化する低雑音抑圧処理を行い、前記低雑音抑圧処理された信号中の前記音声区間の時間情報と対応した信号に対して確率モデルを用いて認識処理を行う。

入力音声信号に対して、高雑音抑圧処理を行って、音声／雑音区間の時間情報を抽出しているため、高い精度で音声／雑音区間を検出できる。その一方で、入力音声信号に対して、低雑音抑圧処理を行った信号中の音声区間の信号に対して認識処理を行うため、対象認識音声信号は歪みが少ない。これらのため高い認識率が得られる。

以下、図面を用いてこの発明の実施の形態について説明する。
［第１実施形態］
図４にこの発明装置の一実施形態の機能構成例を、図５にこの発明方法の実施形態の処理手順を示す。
入力端子１１から入力される音声信号はＡ／Ｄ変換部１２によりディジタル入力音声信号に変換され、そのディジタル信号のパワースペクトルがパワースペクトル計算部３１で計算される（ステップＳ１）。ディジタル入力音声信号は音声／雑音判定部２１により雑音であるか雑音重畳音声であるかが判定され（ステップＳ２）、その判定が雑音であれば音声／雑音スイッチ２２が切り替えられてディジタル入力音声信号は平均雑音パワースペクトル計算部３２に入力されて雑音区間の平均パワースペクトルが計算される（ステップＳ３）。パワースペクトル計算部３１で計算された雑音パワースペクトルから前記平均雑音パワースペクトルが雑音用低抑圧処理部３３で減算される（ステップＳ４）。

パワースペクトル計算部３１で計算されたパワースペクトルから前記平均雑音パワースペクトルが高抑圧処理部３４で減算され（ステップＳ５）、この高抑圧処理されたパワースペクトルに対して音声／雑音区間の時間情報が区間時間情報抽出部３５で抽出される（ステップＳ６）。雑音用低抑圧処理部３３の出力と区間情報抽出部３５から得られた低抑圧処理されたパワースペクトル中の雑音区間の時間情報と対応するパワースペクトルを用いて雑音モデルが作成される（ステップＳ７）。つまり入力音声信号中に実際に音声信号が重畳される前の例えば１〜３秒程度の背景雑音信号の平均雑音パワースペクトルが計算され、この平均雑音パワースペクトルが背景雑音パワースペクトルから減算され、消し残された雑音パワースペクトルが得られる。この消し残り雑音パワースペクトルが雑音モデル学習部３６に入力される。この雑音モデルの学習は通常の音声ＨＭＭの学習と同様に消し残り雑音パワースペクトルから対数パラメータを抽出して行われる。

予め雑音の無い音声データを基に認識する音声単位のＨＭＭを作成し、クリーン音声ＨＭＭとして予めクリーン音声モデルメモリ３７に記憶されてある。雑音モデル学習部３６で作成した雑音ＨＭＭと前記クリーン音声ＨＭＭとがモデル合成部３８で合成されて雑音重畳音声モデルが作成される（ステップＳ８）。その後処理はステップＳ２に戻る。
音声／雑音判定部２１でディジタル入力音声信号が雑音重畳音声に対するものと判定されると、音声／雑音スイッチ２２が音声用低抑圧処理部３９側に切り替えられて、音声用低抑圧処理部３９で前記パワースペクトルから前記平均雑音パワースペクトルが減算される（ステップＳ９）。つまり雑音重畳音声信号から背景雑音が除去された信号のパワースペクトルが得られる。

この音声用低抑圧処理されたパワースペクトルと区間時間情報抽出部３５で抽出された音声区間の時間情報が特徴パラメータ抽出部４１に入力され、音声用低抑圧処理されたパワースペクトル中の音声区間の時間情報により決められた音声区間のパワースペクトルから音声の特徴パラメータが抽出される（ステップＳ１０）。
この抽出された特徴パラメータに対する、モデル合成部３８よりの各モデルの照合尤度が尤度計算部１５で計算され（ステップＳ１１）、この計算された尤度中の最も高いものと対応するモデルが認識結果として出力部１６から出力される（ステップＳ１５）。モデル合成部３８での合成は例えば非特許文献２に示す方法で行う。

音声用低抑圧処理部３９における、ステップＳ９での音声用低抑圧処理は「背景技術」の項で述べたＳＳ法の式（１）による。つまり雑音重畳音声信号の時刻ｔ、周波数ｆのパワースペクトルＹ（ｔ，ｆ）から周波数ｆの時間平均雑音パワースペクトルＮ＾（ｆ）をα倍した値を減算してＤ（Ｙ（ｔ，ｆ））を求め（ステップＳ９ａ）、Ｄ（Ｙ（ｔ，ｆ））がβ（Ｙ（ｔ，ｆ））より大きいかを判定し、大であれば雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）としてＤ（Ｙ（ｔ，ｆ））を出力し（ステップＳ９ｃ）、Ｄ（Ｙ（ｔ，ｆ））＞βＹ（ｔ，ｆ）でなければβＹ（ｔ，ｆ）をＹ^Ｄ（ｔ，ｆ）として出力する（ステップＳ９ｄ）。雑音用低抑圧処理部３３におけるステップＳ４の雑音用低抑圧処理も同様に行われ、更に高抑圧処理部３４におけるステップＳ５の高抑圧処理も同様に行われる。

ここで大事なことは低抑圧処理部３３及び３９に用いるα（＝α_Ｌ）は小さめに例えば１．０±０．５程度、β（＝β_Ｌ）は大きめ、例えば０．５±０．１程度として雑音抑圧量が小さくなるようにし、高抑圧処理部３４に用いるα（＝α_Ｈ）は大きめ、例えば２．０±０．５程度、β（＝β_Ｈ）は小さめ、例えば０．３±０．１程度として雑音抑圧量が低抑圧処理部３３及び３９よりも大きくなるようにする。またα_Ｌ＜α_Ｈ、β_Ｌ＞β_Ｈとなるようにする。前述したようにαは一般に１．０以上であるが、１．０より小さくてもよく、βは１．０より小さい。

このように高抑圧処理部３４では入力音声信号に対し、雑音抑圧を大きく行っているため、音声区間を精度よく検出できる。音声用低抑圧処理部３９で雑音抑圧量が小さいため、抑圧に伴う音声信号の歪みが小さくなる。従って認識処理部１７ではこの精度よく検出された音声区間の雑音重畳音声信号に対し、小さい抑圧量で雑音抑圧され、この雑音抑圧された信号に対し認識処理することになり、認識率が向上する。
音声用低抑圧処理部３９における雑音抑圧処理量が小さいため、抑圧できなかった雑音が重畳されたものとなる。しかしこの実施形態では雑音モデル学習部３６により消し残り雑音のモデルを作成し、この雑音モデルをクリーン音声モデルと合成し、この合成モデルを用いて認識処理を行っており、つまり前記抑圧できなかった重畳雑音を加味した雑音重畳音声モデルを用いて認識処理を行っているため、より高い認識率が得られる。この場合は認識処理に先立って背景雑音を検出し、この背景雑音を用いて前述したようにして雑音モデルを作成し、更に雑音重畳音声モデルを作成し、その後認識処理を行うことになる。

［第２実施形態］
話者から発声された音声はマイクロホンに到達するまで話者の口とマイクロホンとの間の伝達特性の影響を受け、話者が発声した音声に対し前記伝達特性を乗算した状態になる。つまり音声は乗法性歪みを受けたことと云える。雑音環境下では雑音の影響があり、高精度で乗法性歪みの影響を低減することは難しい。この第２実施形態では雑音の影響を抑えつつ乗法性歪みの影響による低減をするものである。
この第２実施形態の装置の機能構成例を図６に、方法の処理手順を図７にそれぞれ示す。第１実施形態と異なる部分について説明する。
高抑圧処理部３４で高抑圧処理されたパワースペクトルが特徴パラメータ抽出部４３に入力される。

区間時間情報抽出部３５からの音声区間時間情報に基づき音声区間の高抑圧パワースペクトルから特徴パラメータが抽出される（ステップＳ２０）。この特徴パラメータ抽出部４３で抽出された特徴パラメータの、クリーン音声モデル３７に予め記憶された、クリーン音声モデルの作成に用いたクリーン音声特徴パラメータの長時間平均に対する平均推移量が平均推移量計算部４５で計算され（ステップＳ２１）、この平均推移量に基づいて、雑音や乗法性歪みのない音声から作られたクリーン音声モデルメモリ３７のクリーン音声モデルがモデル推定部４６で推移される（ステップＳ２２）。この推移された音声モデルが尤度計算部１５に入力される。
平均推移量計算を具体的に述べれば例えば特徴パラメータ抽出部４３で対数スペクトル上の特徴パラメータが抽出され、この特徴パラメータの長時間平均が長時間平均部４５ａにより計算され（ステップＳ２１ａ）、クリーン音声モデルメモリ３７の記憶部３７ａに予め記憶されたクリーン音声の対数パワースペクトル上の特徴パラメータの長時間平均との差分が差分計算部４５ｂで計算されて平均推移量が求められる（ステップＳ１ｂ）。

処理手順において図７でステップＳ６から直ちにステップＳ２に戻る。ステップＳ２で音声区間であると判断されると、尤度計算に用いられる確率モデルがモデル作成部４７で作成されたか否かがステップＳ２３において判定され、確率モデルが作成されていなければステップＳ２０に移って、ステップＳ５で高抑圧処理されたパワースペクトルから特徴パラメータが抽出される。ステップＳ２３で確率モデルが作成されていれば、ステップＳ１０に移り、その作成されたモデルに対し、ステップＳ１０で抽出された特徴パラメータ系列の類似尤度が計算される。
このようにして音声／雑音区間が精度よく検出され、かつ認識音声対象は低抑圧であって歪みが少なく、しかも平均推移量を求め、これと対応して音声モデルを推移させているため入力音声信号中の乗法性歪み成分を加味した、つまりその音声信号が受けた伝達特性に適応した音声モデルに対する類似尤度が計算され、認識率を向上させることができる。

更に第１実施形態と同様、低抑圧処理部３３で低抑圧処理したパワースペクトル中から雑音区間の時間情報に基づき低抑圧雑音パワースペクトル、つまり消し残し雑音パワースペクトルを抽出し、これより雑音モデルを学習作成し、この雑音モデルをモデル合成部３８でモデル推移部４６からの推移された音声モデルと合成して雑音重畳音声モデルとし、このモデルに対する類似尤度を計算するようにしてもよい。このようにすれば、更に認識率が向上することが理解できよう。

上述において低抑圧処理及び高抑圧処理を前記式（１）に基づいて行い、つまりα，βを異ならせて低雑音抑圧されたパワースペクトルと高雑音抑圧されたパワースペクトルとを求めた。これらに替えて低抑圧処理として時間的変動する抑圧処理、つまり背景雑音だけではなく各隣接音声区間の間の各雑音区間について平均雑音パワースペクトルを求め、Ｄ（Ｙ（ｔ，ｆ））＝Ｙ（ｔ，ｆ）−αＮ＾（ｆ）を雑音抑圧後のパワースペクトルとしてもよい。この場合はＮ＾（ｆ）が時間的に変化する。また高抑圧処理として時間的に一定な抑圧処理、つまり初めに求めた背景雑音を用いＤ（Ｙ（ｔ，ｆ））＝Ｙ（ｔ，ｆ）−Ｎ＾（ｆ）を雑音抑圧後のパワースペクトルとしてもよい。この場合はＮ＾（ｆ）は背景雑音のそれが常に用いられ、αＮ＾（ｆ）は認識終了まで一定である。

更に、図４及び図６中の低抑圧処理部３３，３９，４２、高抑圧処理部３４、図５及び図７中のステップＳ４，Ｓ９，Ｓ１０の低抑圧処理、ステップＳ５の高抑圧処理として、背景技術の項で図３を参照して説明した雑音抑圧処理を適用してもよい。例えば、図４中の音声用低抑圧処理部３９の機能構成は図８に示すようになる。端子２２ｂからの音声区間のパワースペクトルは平均雑音重畳音声パワースペクトル計算部２６ａにより平均雑音重畳音声パワースペクトルが計算され、この計算結果から平均雑音パワースペクトル計算部３２よりの平均雑音パワースペクトルが減算部２６ｂ１で引算され、その残りが平均雑音重畳音声パワースペクトルにより除残部２６ｂ２で割算されて、式（２）のゲイン関数Ｇが求められる。そのゲイン関数Ｇが端子２２ｂよりの雑音重畳音声信号Ｚに対してウィナーフィルタ処理部２６ｃで乗算されフィルタ処理結果Ｓ^が得られる。

原音付加部２６ｄにおいて、端子２２ｂからの雑音重畳音声信号Ｚに対し、原音付加率（１−δ）が乗算部２６ｄ１で乗算され、またウィナーフィルタ処理部２６ｃの出力Ｓ^に対しδが乗算部２６ｄ２で乗算され、両乗算部２６ｄ１及び２６ｄ２の各出力が加算部２６ｄ３で加算されて、抑圧処理された雑音重畳音声パワースペクトルが得られる。雑音区間における雑音用低抑圧処理部３３も同様に構成されるが、平均雑音パワースペクトルＥ［｜Ｎ^２｜］は例えば１秒間程度の雑音パワースペクトルの平均であり、Ｅ［｜Ｓ^２｜］＋Ｅ［｜Ｎ^２｜］に対応する値は、各フレーム、例えば３０ミリ秒間の雑音パワースペクトルの平均Ｅ［｜Ｏ^２｜］であり、式（２）のゲインＧは（Ｅ［｜Ｏ^２｜］−Ｅ［｜Ｎ^２｜］）／Ｅ［｜Ｏ^２｜］となり、小さな値となる。よって、雑音用抑圧処理部３３の出力は（１−δ）Ｚに近い値になる。

このような雑音抑圧処理を適用した場合は、低抑圧処理では原音付加率（１−δ）は例えば０．３〜０．２程度とされ、高抑圧処理では（１−δ）は０．１程度とされる。
図４及び図６に示した装置をコンピュータにより機能させてもよい。この場合は図５又は図７に示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにＣＤ−ＲＯＭ、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。

従来のＨＭＭを用いた音声認識装置の機能構成を示すブロック図。スペクトルサブトラクション法を用いた従来の音声認識装置の機能構成を示すブロック図。ウィナー・フィルタ法を用いた従来の雑音抑圧を示す機能構成図。この発明装置の第１実施形態の機能構成例を示すブロック図。この発明の方法の第１実施形態の処理手順の例を示すフローチャート。この発明装置の第２実施形態の機能構成例を示すブロック図。この発明方法の第２実施形態の処理手順の例を示すフローチャート。実施形態中の音声用低抑圧処理部３９にＷＦ法を適用した機能構成例を示すブロック図。

Claims

入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
前記入力音声信号に対して、高抑圧量または時間的に一定の抑圧量の高雑音抑圧処理を行い、
その高雑音抑圧処理された入力信号から音声区間／雑音区間の時間情報を抽出し、
入力音声信号に対し、低抑圧量または時間的に変化する低雑音抑圧処理を行い、
前記低雑音抑圧処理された信号中の前記音声区間の時間情報と対応する信号の特徴パラメータ系列を抽出し、
この抽出した特徴パラメータ系列を前記類似尤度の計算に用いる特徴パラメータ系列とすることを特徴とする音声認識方法。
請求項１記載の方法において、
前記低雑音抑圧処理された信号中の前記雑音区間の時間情報と対応する信号から雑音モデルを作成し、
雑音の無い音声データから予め作成したクリーン音声モデルと前記雑音モデルとの合成を行って雑音重畳音声モデルを作り、
前記雑音重畳音声モデルを前記確率モデルとすることを特徴とする音声認識方法。
請求項１記載の方法において、
前記高雑音抑圧処理された信号中の前記音声区間の時間情報と対応する信号から特徴パラメータ系列を求め、
雑音の無い音声信号から予め求めた特徴パラメータに対する前記求めた特徴パラメータの平均推移量を計算し、
その平均推移量と対応させて、前記予め求めた特徴パラメータから予め作成したクリーン音声モデルを推移させ、
この推移された音声モデルを前記確率モデルとすることを特徴とする音声認識方法。
請求項３記載の方法において、
前記入力音声信号に対し、低抑圧量または時間的に変化する低雑音抑圧処理を行い、
前記低雑音処理された信号中の前記雑音区間の時間情報と対応する信号から雑音モデルを作り、
前記雑音モデルと前記推移された音声モデルとを合成して雑音重畳音声モデルを作り、
この雑音重畳音声モデルを前記確率モデルとすることを特徴とする音声認識方法。
請求項３又は４記載の方法において、
前記平均推移量の計算は、
前記高雑音抑圧処理された信号中の前記音声区間の時間情報と対応する信号の対数スペクトル上の特徴パラメータの長時間平均を求め、
前記雑音の無い音声信号から予め求めた対数スペクトル上の特徴パラメータの長時間平均と前記長時間平均との差分を前記平均推移量として求めることを特徴とする音声認識方法。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
前記入力音声信号に対して、高抑圧量または抑圧量が時間的に一定の雑音抑圧処理を行う高抑圧処理部と、
前記高抑圧処理部の出力信号から音声区間／雑音区間の時間情報を抽出する区間時間情報抽出部と、
前記入力音声信号に対して低抑圧量、または抑圧量が時間的に変化する雑音抑圧処理を行う低抑圧処理部と、
前記雑音区間の時間情報と前記低抑圧処理部の出力信号が入力され、その出力信号中の雑音区間の信号から雑音モデルを作成する雑音モデル学習部と、
雑音の無い音声データから作成されたクリーン音声モデルが記憶されているクリーン音声モデルメモリと、
前記雑音モデルと前記クリーン音声モデルとを合成して雑音重畳音声モデルを作るモデル合成部と、
前記音声区間の時間情報と前記低抑圧処理部の出力信号が入力され、その出力信号中の音声区間の時間情報と対応する信号に対して、前記雑音重畳音声モデルを認識する認識部と
を備えることを特徴とする音声認識装置。
入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
前記入力音声信号に対して、高抑圧量または抑圧量が時間的に一定の雑音抑圧処理を行う高抑圧処理部と、
前記高抑圧処理部の出力信号から音声区間／雑音区間の時間情報を抽出する区間時間情報抽出部と、
前記高抑圧処理部の出力信号と前記音声区間の時間情報とが入力され、その出力信号中の前記音声区間の時間情報と対応する信号の特徴パラメータを求める特徴パラメータ抽出部と、
前記クリーン音声モデルの作成に用いた特徴パラメータに対する前記求めた特徴パラメータの平均推移量を求める平均推移量計算部と、
前記平均推移量と対応させて前記クリーン音声モデルを推移させて前記確率モデルとするモデル推移部と、
前記音声区間の時間情報と前記高抑圧処理部の出力信号が入力され、その出力信号中の前記音声区間の信号に対して、前記確率モデルを認識する認識処理部と
を備えることを特徴とする音声認識装置。
請求項７記載の装置において、
前記入力音声信号に対して低抑圧量、または抑圧量が時間的に変化する雑音抑圧処理を行う低抑圧処理部と、
前記雑音区間の時間情報と前記低抑圧処理部の出力信号が入力され、その出力信号中の雑音区間の信号から雑音モデルを作成する雑音モデル学習部と、
前記推移されたクリーン音声モデルと前記雑音モデルを合成して前記確率モデルとするモデル合成部と、
を備える音声認識装置。
請求項１〜５のいずれかに記載した音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
請求項９に記載した音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。