JP4705414B2

JP4705414B2 - 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体

Info

Publication number: JP4705414B2
Application number: JP2005172122A
Authority: JP
Inventors: 哲小橋川; 敏高橋; 義和山口; 明弘今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-13
Filing date: 2005-06-13
Publication date: 2011-06-22
Anticipated expiration: 2025-06-13
Also published as: JP2006349723A

Description

本発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声の認識を行う音声認識装置、音響モデル作成装置、この装置を実行するための方法、プログラムおよびその記録媒体に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に、隠れマルコフモデル（Hidden Markov Model、以下ではＨＭＭという。）を用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。図１に、従来のＨＭＭを用いた音声認識装置の構成例を示す。音声信号入力端子１１から入力された音声は、Ａ／Ｄ変換部１２でデジタル信号に変換される。特徴パラメータ抽出部１３では、そのデジタル信号から音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したＨＭＭをモデルパラメータメモリ１４から読み出し、モデル照合尤度計算部１５において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を、認識結果として認識結果出力部１６より出力する。

背景雑音などの加法性雑音が重畳した音声の認識方法として、最初に背景雑音が重畳した音声の確率モデルである雑音重畳音声モデルを作成し、作成した雑音重畳音声モデルを用いて認識する３つの雑音重畳モデル作成法について説明する。
雑音重畳モデル作成法の１つ目は、入力信号中の背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
雑音重畳モデル作成法の２つ目は、ＨＭＭの合成による雑音重畳音声の認識手法（例えば、非特許文献１）である。以下ＨＭＭ合成法について説明する。雑音重畳音声に対しては、前述のように、雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、ＨＭＭを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、雑音のない大量の音声データをもとに予めクリーン音声ＨＭＭを作成しておく。認識時には観測した背景雑音から作成した雑音ＨＭＭと、クリーン音声ＨＭＭとを合成する。合成した雑音重畳音声ＨＭＭは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。

３つ目は、Taylor展開による音響モデルの適応（ヤコビアン適応法）による雑音重畳音声の認識手法（例えば、非特許文献２）について説明する。前述のＨＭＭ合成法で行っているモデルパラメータの非線形変換を、Taylor展開の1次項を用いて線形近似することで、雑音適応が可能になる。ＨＭＭ合成法に比べ、音声モデルの処理時間も少なく、高速に雑音適応ができ、雑音の変化に追従できる。
背景雑音などの加法性雑音が重畳した音声の認識方法として、次に、入力信号に対して雑音成分を推定し、推定した雑音成分を除去する雑音抑圧処理後の信号を用いて認識する２つの雑音抑圧法について説明する。

雑音抑圧法の１つ目は、スペクトルサブトラクション法（以下、ＳＳ法という。）に基づく雑音抑圧法である（例えば、非特許文献３）。時間領域で加法性の２つの信号は、線形パワースペクトル上でも加法性であることから、ＳＳ法では、線形パワースペクトル上で雑音重畳音声から推定雑音成分を減算し、音声成分を抽出する。時刻ｔのパワースペクトルの周波数ｆの雑音抑圧後のパワースペクトルＹ^Ｄ（ｔ，ｆ）は、以下のように計算される。

ここで、Ｙ（ｔ，ｆ）は、入力雑音重畳音声の時刻ｔ、周波数ｆのパワースペクトル、Ｎ＾（ｆ）は、推定された周波数ｆの時間平均雑音パワースペクトル、αは、サブトラクション係数、βは、フロアリング係数である。この方法では、図１の構成のＡ／Ｄ変換部１２と特徴パラメータ抽出部１３の間に、スペクトルサブトラクション部を追加する。そのスペクトルサブトラクション部から出力されるパワースペクトルから、音声認識の特徴パラメータ（例えば、１２次元のメル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficient））を特徴パラメータ抽出部１３で計算する。その後の処理は、図１と同じである。

雑音抑圧法の２つ目は、ウィナー・フィルタ法（以下、ＷＦ法という。）に基づく雑音抑圧法である（例えば、非特許文献４）。ＷＦ法による雑音抑庄法は、フレーム毎のＳ／Ｎを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。すなわち,下記の式（３）は、音声パワーレベル／雑音重畳音声のパワーレベルを意味しており、式（２）において、Ｓ／Ｎの推定値に基づく雑音抑圧を行っている。次式は、雑音抑圧前の信号Ｚ、ＷＦ法による雑音抑圧処理後の信号Ｓ＾、元音付加による雑音抑圧処理後の信号Ｓ^〜、ＷＦ法のゲイン関数Ｇの関係を示す。

雑音抑圧量に関しては、原音付加率(1一δ)で制御する。原音付加率が高ければ、抑圧量は少なく音声の歪みも少ない。例えば、δの値は０．８などである。この原音付加に関しては、例えば、非特許文献５などで使われている。
マイクの特性や空間伝達特性などの乗法性歪みが重畳した音声の認識方法として、入力信号に対して長時問平均特徴パラメータを正規化する手法について説明する。乗法性歪みが重畳した音声の認識性能を改善する方法として、従来からケプストラム平均正規化法（ＣＭＮ：Cepstral Mean Normalization）が知られている（例えば、非特許文献6）。ＣＭＮ法は、音声の長時間平均スペクトルが同一であるという仮定から、乗法性歪みの影響が長時間ケプストラム平均の差に現れることを利用して、信号の各フレームから得られるケプストラムから長時間ケプストラム平均分を差し引いた成分を特徴量として用いることにより、認識対象の音声の特徴量から乗法性歪みの影響を取り除いている。また、ＣＭＮ法は加法性雑音に対しても効果があることが知られている。ＣＭＮ法では、通常、大量の音声データから抽出した特徴量に対してＣＭＮ処理を行った学習データを用いて音響モデルを作成しておく必要がある。例えば、図２で示すように、前述のＣＭＮ処理済みの学習データを用いて作成した音響モデルパラメータをケプストラム平均正規化済みモデルパラメータメモリ２３に保存しておく。特徴パラメータ抽出部１３で得られた特徴パラメータから、長時間平均ケプストラム平均計算部２１で長時間平均ケプストラムを計算する。ケプストラム平均正規化処理部２２で前記特徴パラメータから得られた長時間平均ケプストラムを除去し、ケプストラム平均正規化処理を行う。モデル照合尤度計算部１５で、得られたケプストラム平均正規化済みの特徴パラメータと、ケプストラム平均正規化済みモデルパラメータメモリ２３に記録されたケプストラム平均正規化済みモデルパラメータとの照合を行う。後の処理は図１と同様である。
F. Martin 他 "Recognition of Noisy Speech by Composition of Hidden Markov Models," 電子情報通信学会技術研究報告SP92-96, pp.9-16, 1992. 山口義和、高橋淳一、高橋敏、嵯峨山茂樹"Taylor展開による音響モデルの適応"電子情報通信学会技術研究報告SP96-78, pp.1-8, 1996. Steven F. Boll "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Transactions on Acoustics, Speech and Signal Processing, vol.ASSP-27, no.2, pp.113-120, Apri1 1979. J. S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech," Proc. IEEE, vo1.67, no.12, pp.1586-1604, Dec.1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp.191-194, Kyoto, Sep.2003. B, Atal, "Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification," Proc. J. Acoust. Soc. Am, vol.55, pp.1304-1312, 1974.

従来のＣＭＮ法は,話者の口からマイクまでの伝達特性やマイク特性等に基づく乗法性歪みへの対策法としてよく知られている。また、ＣＭＮ法は背景雑音の混入に基づく加法性雑音に対しても効果がある手法である。しかしながら、従来のＣＭＮ法は、大量の学習用音声データに対するＣＭＮ処理後の特徴量から学習したＣＭＮ音響モデルが必要であり、音響モデルを作成するために多くの時間が必要であった。

本発明では、ＣＭＮ処理を行わず作成した音響モデル内のモデルパラメータ、または音響モデル作成時に得られた統計情報を用いて、学習用音声データのケプストラム平均（ＣＭ：Cepstral Mean）を近似的に求め、音響モデル中のケプストラムに関する各分布の平均パラメータから得られたＣＭを減算することで、ＣＭＮ処理後の音響モデルを合成する。また、このＣＭＮ処理後の音響モデルと認識対象の音声信号にＣＭＮ処理を行って抽出した特徴量とを照合して尤度を求めることで、音声認識を行う。

本発明では、事前に得られた音響モデル内のモデルパラメータや統計情報を元に、音響モデルパラメータのＣＭＮ化を行うので、ＣＭＮ処理後の音響モデルの作成時間、計算量を大幅に短縮することが可能である。特に、特定の加法性雑音環境下では、雑音の無いクリーンな学習用音声データからＣＭＮ処理を行わない分析条件で抽出した音響モデルを事前に用意しておき、前述したＨＭＭ合成法等の雑音適応法などを用いて、雑音適応済みの音響モデルを用意しておく。さらに、雑音適応済みの音響モデルに対して、本発明のＣＭＮ化処理を行うことで、短時間で、加法性雑音にも乗法性歪みにも頑健な音響モデルを合成し、実環境で頑健な音声認識を行うことが可能となる。

以下、本発明の実施形態の図面を参照して説明する。この明細書及び図面において対応する部分には同一参照符号を付けて重複説明を省略する。本明細書中では、「ケプストラム」とは、現在の音声認識で一般的に使われているＭＦＣＣ（メル周波数ケプストラム係数）、ＬＰＣケプストラム、ＬＰＣメルケプストラムなども含む概念とする。また、「分布の平均」は、第１次元から第Ｎ次元までの要素から構成されるベクトルであるが、説明の簡略化のため、単に平均と表現する。

［第１実施形態］
従来のＣＭＮ（ケプストラム平均正規化）済みモデルの構築には、大量の音声データに対してケプストラム平均（ＣＭ）を正規化して分析処理した特徴パラメータを学習していた。本実施形態では、大量の音声データに対してＣＭＮ処理を行った学習データからケプストラム平均を求める代わりに、様々な音素の特徴を示すモデルパラメータを用いてケプストラム平均を正規化するためのケプストラム平均を近似的に求め、ケプストラム平均正規化済みモデルパラメータを求める。図３に、ケプストラム平均正規化済みモデルパラメータを求めるための、モデルパラメータＣＭＮ化部の機能構成例を示す。モデルパラメータＣＭＮ化部３３は、モデルパラメータケプストラム平均計算部３１とモデルパラメータケプストラム平均正規化処理部３２から構成され、モデルパラメータメモリ１４からモデルパラメータまたは学習時に得られた統計情報を入力とし、ケプストラム平均正規化済みモデルパラメータを出力とする。出力されたケプストラム平均正規化済みモデルパラメータは、ケプストラム平均正規化済みモデルパラメータメモリ２３に記録される。

本発明では、モデルパラメータメモリ１４内のモデルパラメータを用いて,モデルパラメータＣＭＮ（ケプストラム平均正規化）化部３３で高速かつ近似的にケプストラム平均正規化済みモデルパラメータを求め、ケプストラム平均正規化済みモデルパラメータメモリ２３に格納する。モデルパラメータＣＭＮ化部３３のモデルパラメータケプストラム平均計算部３１で、モデルパラメータメモリ１４内のモデルパラメータから、モデルパラメータケプストラム平均を求める。求めたモデルパラメータケプストラム平均とモデルパラメータメモリ１４内のモデルパラメータを用いて、モデルパラメータケプストラム平均正規化処理部３２で、ケプストラム平均正規化済みモデルパラメータを求める。

モデルパラメータケプストラム平均計算部３１では、元のモデルパラメータメモリ１４内に格納されるモデルパラメータのうち、正規分布に関連するパラメータから正規化に用いるケプストラム平均μ_avgを計算する。モデルパラメータケプストラム平均計算部３１では、まずケプストラム平均算出処理用平均化関数α[i]を求める。ケプストラム平均算出処理用平均化関数α[i]を求める方法として、モデルパラメータメモリ１４中のパラメータに応じて、以下の３つの方法が考えられる。

第１の方法（方法１）は、モデルパラメータメモリ１４中の各正規分布[i]の学習に使ったフレーム数（学習フレーム数Ｎ[i]）を用いる方法である。この方法の場合、α[i]は、次式で求められる。

方法１で用いた学習フレーム数Ｎ[i]は、音声認識処理に用いられないことが多いので、メモリ削減の観点から、モデルパラメータメモリ１４内に格納されてない場合もある。そこで、第２の方法（方法２）は、一般的に音声認識処理に用いられる各正規分布[i]の重みｗ[i]を用いる。この方法の場合、α[i]は、次式で求められる。

第３の方法（方法３）では、計算量削減のため、正規分布数に基づく単純平均を用いる。つまり、この方法では、モデルパラメータメモリ１４中の正規分布数Ｌ＋１を用いて、次式で求められる。

得られたモデルの近似精度では、方法１が最もよく、方法３が最も悪い。一方、計算量やメモリの使用量の観点では、方法３が最もよく、方法１が最も悪い。また、学習データ量が多い音素では、分布数が多く割り当てられることが多いので、単純平均でもある程度の高い精度が期待できる。

正規化に用いるケプストラム平均μ_avgの計算は、モデルパラメータメモリ１４中のモデルパラメータのうち、正規分布[i]を表現する分布の平均μ[i]と前述のケプストラム平均算出処理用平均化関数α[i]を用いて、次式で求められる。

モデルパラメータケプストラム平均正規化処理部３２では、モデルパラメータメモリ１４中のモデルパラメータのうち、正規分布[i]を表現する分布の平均μ[i]と、前述の正規化に用いるケプストラム平均μ_avgを用いて、正規化済みの正規分布の平均μ’[i]を、以下の式（９）を用いて計算する。

モデルパラメータケプストラム平均正規化処理部３２は、モデルパラメータメモリ１４中の各分布の平均値μ[i]を、得られた正規化済みの正規分布の平均μ’[i]に変更した上で、処理結果を出力する。出力された結果は、ケプストラム平均正規化済みモデルパラメータメモリ２３に記録される。
なお、図４にモデルパラメータＣＭＮ化部３３の処理フローを示す。
このように、モデルパラメータメモリ１４に記録されたモデルパラメータや学習時に得られた統計情報からケプストラム平均正規化済みモデルパラメータを求めるので、
大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータを学習する必要がない。

［第２実施形態］
本実施形態では、第１実施形態と同じように、モデルパラメータから学習データに対するケプストラム平均を推定し、推定したケプストラム平均をモデルパラメータのケプストラムの次元から減算することで、ケプストラム平均正規化済みモデルパラメータを得る。このケプストラム平均正規化済みモデルパラメータは、大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータから学習して得られたケプストラム平均正規化済みモデルパラメータに、近似している。

モデルパラメータからのケプストラム平均の推定の方法には、音響モデル中のケプストラムに相当する各分布の平均パラメータを集めて、各分布に相当する学習データ量に比例した係数をかけて平均化した分布加算平均パラメータを用いる方法がある（第１実施形態の方法１）。また、モデルパラメータからのケプストラム平均の推定に、音響モデル中のケプストラムに相当する各分布の平均パラメータを集めて、重み付き加算平均または単純加算平均して分布加算平均パラメータを用いる方法がある（第１実施形態の方法２または方法３）。学習データ量に比例して割り当てられる分布数が多いことや、学習データ量のためのメモリ量を削減できることを考えると、後者の方法は合理的な方法である。

モデルパラメータの平均パラメータを計算するためにモデルパラメータ中の全分布を用いる場合、正規化に用いるモデルパラメータケプストラム平均は、全学習データに対するケプストラム平均に近似的な値になる。実際の認識時の認識対象の音声信号から抽出した特徴量のケプストラム平均正規化処理には、過去の発話全体の平均、過去の一発話の平均、発話全体の平均、長時間（例えば１０秒程度）の移動平均，短時間（例えば１秒程度）の移動平均などが考えられる。平均幅の時間は長い方が、正規化済みのモデルパラメータとマッチするため認識精度は高くなる。一方、高速なオンライン処理が必要な場合は、平均幅は短め（例えば１秒程度）とする必要がある。また、モデルパラメータの平均パラメータを計算するための分布の選定方法には、後段の認識処理中のケプストラム平均正規化処理の平均幅に合わせて、いくつかの分布をランダムに選択し、平均パラメータを求めた後にさらに平均化する方法もある。

第２実施形態の音声認識装置の機能構成例を図５に、その処理フローを図６に示す。音声認識装置は、Ａ／Ｄ変換部１２、特徴パラメータ抽出部１３、長時間ケプストラム平均計算部２１、ケプストラム平均正規化処理部２２、モデルパラメータメモリ１４、モデルパラメータケプストラム平均計算部３１とモデルパラメータケプストラム平均正規化処理部３２を有するモデルパラメータＣＭＮ化部３３、ケプストラム平均正規化済みモデルパラメータメモリ２３、モデル照合尤度計算部１５、認識結果出力部１６から構成される。モデルパラメータが、ケプストラム平均正規化（ＣＭＮ）済みでなければ（ステップＳ１）、モデルパラメータケプストラム平均計算部３１で、モデルパラメータメモリ１４からモデルパラメータを読み出し、例えば第１実施形態で示した方法を用いてモデルパラメータケプストラム平均が計算され、モデルパラメータケプストラム平均が出力される（ステップＳ２）。次に、モデルパラメータケプストラム平均正規化部３２に、計算したモデルパラメータケプストラム平均とモデルパラメータメモリ１４のモデルパラメータが入力され、モデルパラメータをケプストラム平均で正規化する（ステップＳ３）。そして、この正規化されたモデルパラメータを、ケプストラム平均正規化済みモデルパラメータメモリ２３に保存する（ステップＳ４）。音声信号入力端子１１に入力した音声信号はＡ／Ｄ変換部１２でデジタル信号に変換される（ステップＳ５）。得られたデジタル信号は、特徴パラメータ抽出部１３で、ケプストラムをはじめとする特徴パラメータに変換される（ステップＳ６）。得られた特徴パラメータから、長時間ケプストラム平培計算部２１で、長時間ケプストラム平均が得られる（ステップＳ７）。ケプストラム平均正規化処理部２２で、特徴パラメータから得られた長時間ケプストラム平均を減算することで、ケプストラム平均正規化特徴パラメータを得る（ステップＳ８）。モデル照合尤度計算部１５で、ケプストラム平均正規化済みモデルパラメータメモリに記録されたケプストラム平均正規化済みモデルパラメータとステップ８で得られたケプストラム平均正規化パラメータとを照合し、音声認識候補の照合尤度を計算する（ステップＳ９）。認識結果出力部１６は、ステップ９で得られた照合尤度が最大の音声認識侯補を、認識結果として出力する（ステップＳ１０）。

このようにモデルパラメータメモリ１４に記録されたモデルパラメータや学習時に得られた統計情報からケプストラム平均正規化済みモデルパラメータを求め、音声認識を行うので、大量の音声データに対してケプストラム平均を正規化して分析処理した特徴パラメータを学習する必要がない。

［変形例１］
図６の処理フローに示した点線について説明する。本変形例では、モデルパラメータがＣＭＮ済みではないと判断された場合（ステップＳ１）、ステップＳ２からステップＳ４と平行してステップＳ５からステップＳ８を行う。そして、ステップ４とステップ８の両方が終了した場合に、ステップ９とステップ１０を行う。
このように処理することで、ステップ１でＮｏと判断された場合にも、音声認識処理を早期に開始することができる。

［変形例２］
第２実施形態では、音声認識装置がケプストラム平均正規化済みモデルパラメータを作成する機能を備えた場合を示した。しかし、第１実施形態に示した方法で作成したケプストラム平均正規化済みモデルパラメータをあらかじめケプストラム平均正規化済みモデルパラメータメモリに記録しておくことで、音声認識装置からケプストラム平均正規化済みモデルパラメータ作成機能を削除する方法もある。この場合には、音声認識装置は、Ａ／Ｄ変換部１２、特徴パラメータ抽出部１３、長時間ケプストラム平均計算部２１、ケプストラム平均正規化処理部２２、ケプストラム平均正規化済みモデルパラメータメモリ２３、モデル照合尤度計算部１５、認識結果出力部１６から構成される。また、図６の処理フローでは、ステップＳ１からステップＳ４が削除される。

［第３実施形態］
入力信号に対して、例えば前述のウィナー・フィルタ法あるいはスペクトルサブトラクション法を用いて雑音抑圧処理を施すことで耐雑音性を高めることができる。しかし、認識時の音声認識対象の音声信号から抽出した特徴量のケプストラム平均正規化処理の計算幅が短い場合は、正規化に用いるケプストラム平均の近似精度が悪いほど、また抑圧処理後の消し残り雑音レベルが高いほど、認識性能が劣化する。一般に雑音抑圧処理を施すと、音声信号に雑音抑圧処理に基づく歪みが生じる。ケプストラム平均正規化処理には、この歪みを抑える効果や少量の雑音の影響を抑える効果がある。そこで、雑音抑圧処理の抑圧レベルを高めに設定して消し残り雑音レベルを下げ、後段のケプストラム平均正規化処理で、雑音抑圧処理による歪みや少量の消し残り雑音を抑えるが期待できる。雑音抑圧処理の抑圧レベルの設定の方法としては、ウィナー・フィルタ法における原音付加率を高め（例えば０．３）、スペクトルサブトラクション法におけるサブトラクション係数を高め（例えば２．５）、フロアリング係数を低め（例えば０．３）に設定する。

第３実施形態の音声認識装置の機能構成例を図７に、その処理フローを図８に示す。図７と図４との違いは、図７には音声／雑音判定部４１、端子４３と端子４４を有する音声／雑音スイッチ４２、雑音成分推定部４５、雑音抑圧処理部４６が追加されている点である。また、本実施形態の処理フローでは、ステップＳ５とステップＳ６との間に、ステップＳ１２からステップＳ１４が追加された点が異なる。以下では、追加されたステップについて説明する。音声／雑音判定部４１は、ステップＳ５で得られたデジタル信号から、音声区間か雑音区間かを判断し、音声区間と判断したときは、端子４４側に音声/雑音スイッチ４２を動かし、雑音区間と判断したときは端子４３側に音声/雑音スイッチ４２を動かす。このように音声/雑音スイッチ４２を制御することで、雑音区間のときはステップＳ１３に進み、音声区間が開始するとステップＳ１４に進む（ステップＳ１２）。雑音データに対して雑音成分推定部４５で雑音成分が推定される（ステップＳ１３）。音声区間が開始すると、雑音抑圧処理部４６で、ステップＳ１３で推定した雑音成分を用いて、ステップＳ５で得たデジタル信号の雑音成分を抑圧する（ステップＳ１４）。なお、雑音成分の推定と抑圧の方法は従来の技術を用いればよい。特徴パラメータ抽出部１３は、ステップＳ１４で求めた雑音が抑圧された信号を入力として、第２実施形態と同じ処理を行う。その他の処理は第２実施形態と同様である。

［第４実施形態］
本実施形態では、雑音適応済みモデルパラメータに対してケプストラム平均正規化処理を行うことで、耐雑音性を高める。第４実施形態の音声認識装置の機能構成例を図９に、その処理フローを図１０に示す。図９と図４との違いは、図９には音声／雑音判定部４１、端子４３と端子４４を有する音声／雑音スイッチ４２、雑音成分推定部４５が追加されていること、モデルパラメータＣＭＮ化部３３の代わりにモデル適応部５６が備えられ、ケプストラム平均正規化済みモデルパラメータメモリ２３の代わりにケプストラム平均正規化済雑音重畳音声モデルパラメータメモリ５５が備えられている点である。また、モデル適応部５６は、モデルパラメータＣＭＮ化部３３に、モデルパラメータメモリ１４、雑音モデル作成部５１、雑音適応部５２、雑音重畳音声モデルパラメータメモリ５３が追加されている。本実施形態の処理フローでは、ステップＳ１が削除され、ケプストラム平均正規化済雑音重畳音声モデルパラメータの作成は、音声区間が開始する前の雑音区間で行われる。したがって、ステップＳ５とステップＳ６との間に、ステップＳ１２からステップＳ１６が追加されている。以下では、ステップＳ１２からステップＳ１６について説明する。音声／雑音判定部４１は、ステップＳ５で得られたデジタル信号から、音声区間か雑音区間かを判断し、音声区間と判断したときは、端子４４側に音声/雑音スイッチ４２を動かし、雑音区間と判断したときは端子４３側に音声/雑音スイッチ４２を動かす。このように音声/雑音スイッチ４２を制御することで、雑音区間のときはステップＳ１３に進み、音声区間が開始するとステップＳ６に進む（ステップＳ１２）。ステップ６に進んだ後は、第２実施形態と同じである。雑音成分推定部４５は、雑音データから雑音成分を推定する（ステップＳ１３）。雑音モデル作成部５１は、推定された雑音成分から、雑音モデルを作成する（ステップＳ１５）。雑音適応部５２は、ステップＳ１５で作成した雑音モデルを用いて、モデルパラメータメモリ１４に記録されたモデルパラメータを雑音適応し、雑音重畳音声モデルパラメータメモリに保存される（ステップＳ１６）。ステップＳ１３の雑音成分の推定方法、ステップＳ１５の雑音モデルの作成方法、ステップＳ１６の雑音適応方法は、従来の技術を用いればよい。このようにして作成された雑音重畳音声モデルパラメータに対して、第２実施形態と同様のモデルパラメータケプストラム平均正規化処理を行う（ステップＳ２〜Ｓ４）。ステップＳ６〜Ｓ１０の処理は、第２実施形態と同じである。また、認識結果を出力した後、最初の処理に戻って、上記の処理を繰り返す方法もある（ステップＳ２０）。繰り返す場合には、雑音区間では再度雑音モデルを作成し（ステップＳ１５）、雑音重畳音声モデルパラメータに対してモデルパラメータケプストラム平均正規化処理を行うことができる（ステップＳ２〜Ｓ４）。

加法性雑音環境下では、雑音の無いクリーンな学習用音声データからＣＭＮ処理を行わない分析条件で抽出した音響モデルを事前に用意しておき、前述したＨＭＭ合成法等の雑音適応法などを用いて、雑音適応済みの音響モデルを用意することは可能である。雑音適応済みの音響モデルに対して、本発明のＣＭＮ化処理を行うことで、短時間で加法性雑音にも乗法性歪みにも頑健な音響モデルを合成し、実環境で頑健な音声認識を行うことが可能となる。

［変形例］
話者とマイクとの位置関係や装置の周辺の温度等の環境によって、話者の口とマイクの間の空間伝達特性は簡単に変わってしまう。乗法性歪みは事前に想定することは難しいことが多く、乗法性歪みを反映した音響モデルをあらかじめ用意することは難しい。雑音があまり変化の無い定常的な環境では、直接あらかじめ想定した雑音が重畳した音声で学習した雑音重畳音響モデルを用意してもよい。そして、この雑音重畳音響モデルに対して本発明のＣＭＮ化処理を行うことで、加法性雑音にも乗法性歪みにも頑健な音響モデルを合成し、実環境で頑健な音声認識を行うことが可能となる。この場合、あらかじめ作成した雑音重畳音声モデルを雑音重畳音声モデルパラメータメモリに格納しておけば良い。
この場合の音声認識装置の機能構成では、図９中の音声／雑音判定部４１、音声／雑音スイッチ４２、雑音成分推定部４５、モデルパラメータメモリ１４、雑音モデル作成部５１、雑音適応部５２が不要である。また、図１０の処理フローでは、ステップＳ１２からステップＳ１６が不要である。

［第５実施形態］
本実施形態では、第４実施形態に加えて音声認識処理時に入力信号に対して、例えば前述のウィナー・フィルタ法あるいはスペクトルサブトラクション法を用いて雑音抑圧処理を施すことで、耐雑音性を高める。第５実施形態の音声認識装置の機能構成例を図１１に、その処理フローを図１２に示す。図１１と図９との違いは、図１１には第１の雑音抑圧処理部４６と第２の雑音抑圧処理部６１が追加されていることである。本実施形態の処理フローでは、第１の雑音抑圧処理（ステップＳ１４）と第２の雑音抑圧処理（ステップＳ１８）が追加されている。以下に、ステップＳ１４とステップＳ１８について説明する。

ステップＳ１８では、雑音抑圧処理部６１が、ステップＳ５でデジタル化された雑音信号に対して、ステップＳ１３で推定した雑音成分を用いて雑音を抑圧する。この雑音が抑圧された信号を用いてモデル適応部５６での処理が進められる。また、音声区間が開始した場合には、ステップＳ１４が行われる。ステップＳ１４では、雑音抑圧処理部４６で、ステップＳ１３で推定した雑音成分を用いて、ステップＳ５でデジタル化された音声信号の雑音を抑圧する。この後の処理フローは、第４実施形態と同じである。
本実施形態では、入力信号に雑音抑圧処理を加えることで、入力信号のＳ／Ｎが向上する。したがって、認識精度が高まる。また、雑音抑圧処理によって入力信号に重畳する雑音レベルを下げることで、本発明のＣＭＮ化処理の近似精度が高くなるので、さらに認識精度は高くなる。

［第６実施形態］
本実施形態では、第４実施形態または第５実施形態に加えて、モデル適応部５６の雑音適応部５２で、複数のＳ／Ｎ条件で雑音重畳音声モデルを合成する。生成された複数（ｉ＝０〜ｎ）のＳ／Ｎ条件のケプストラム平均正規化済雑音重畳音声モデルを用いて認識処理を行う。雑音があまり変化しないような環境であれば、第４実施形態と同様に、事前にその雑音が重畳した雑音重畳音声モデルを作成することができる。そこで、複数のＳ／Ｎ条件の雑音重畳音声モデルをＣＭＮ化処理の前に用いることも可能である。

第６実施形態の音声認識装置の機能構成例を図１３に、その処理フローを図１４に示す。図１３と図９との違いは、複数のＳ／Ｎ条件に対して雑音適応部５２で雑音適応を行い、複数の雑音重畳音声モデルを合成するので、雑音重畳音声モデルが複数存在する雑音重畳音声モデルパラメータメモリ５３となる。また、当該雑音重畳音声モデルごとにケプストラム平均正規化済雑音重畳モデルを作成するので、複数のケプストラム平均正規化済雑音重畳モデルが存在するケプストラム平均正規化済雑音重畳モデルパラメータメモリ５５となる。処理フローである図１４と図１０との違いは、雑音適応パラメータ更新ステップ（ステップＳ１６）〜モデルパラメータ更新（ステップＳ４）をＳ／Ｎ条件の数（ｉ＝０〜ｎ）だけ繰り返すことである。

なお、図１１の場合にも、モデル適応部５６を図１３のモデル適応部５６’とすることで、第５実施形態の音声認識装置に本実施形態の発明を適用できる。
本実施形態によれば、例えばオンラインで認識処理を行う場合のように、発話のＳ／Ｎが事前には分からないときでも、複数のＳ／Ｎ条件のモデルを用いることで、Ｓ／Ｎの変動にも追従が可能である。
また、上記の第１実施形態から第６実施形態は、コンピュータ本体とコンピュータプログラムとして実行することが可能であるし、デジタルシグナルプロセッサや専用LSIに実装して実現することも可能である。

従来のＨＭＭを用いた音声認識装置の構成例を示す図。従来のケプストラム平均正規化済みモデルパラメータを用いた音声認識装置の構成例を示す図。ケプストラム平均正規化済みモデルパラメータを求めるための、モデルパラメータＣＭＮ化部の機能構成例を示す図。モデルパラメータＣＭＮ化部３３の処理フローを示す図。第２実施形態の音声認識装置の機能構成例を示す図。第２実施形態の音声認識装置の処理フローを示す図。第３実施形態の音声認識装置の機能構成例を示す図。第３実施形態の音声認識装置の処理フローを示す図。第４実施形態の音声認識装置の機能構成例を示す図。第４実施形態の音声認識装置の処理フローを示す図。第５実施形態の音声認識装置の機能構成例を示す図。第５実施形態の音声認識装置の処理フローを示す図。第６実施形態の音声認識装置の機能構成例を示す図。第６実施形態の音声認識装置の処理フローを示す図。

Claims

デジタル変換された入力音声から音声区間が開始したかを判断する音声／雑音判定部と、
前記音声／雑音判定部において音声区間が開始する前の区間であると判定された場合に、前記デジタル変換された入力信号から雑音成分を推定する雑音成分推定部と、
推定された雑音成分から雑音モデルを作成する雑音モデル作成部と、
モデルパラメータを記録したモデルパラメータメモリと、
前記モデルパラメータメモリに記録されたモデルパラメータに、前記雑音モデルをHHM合成法により適応させる雑音適応部と、
前記雑音適応部で雑音適応された雑音重畳音声モデルパラメータを記録する雑音重畳音声モデルパラメータメモリと、
前記雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す前記雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求めるモデルパラメータケプストラム平均計算部と、
前記雑音重畳音声モデルパラメータのケプストラム平均を用いて前記雑音重畳音声モデルパラメータを正規化するモデルパラメータケプストラム平均正規化処理部と、
前記モデルパラメータケプストラム平均正規化処理部で求めたケプストラム平均正規化済み雑音重畳音声モデルパラメータを記録するケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリと、
前記音声／雑音判定部において音声区間が開始したと判定された場合に、前記デジタル変換された入力音声から特徴パラメータを抽出する特徴パラメータ抽出部と、
前記特徴量パラメータから長時間ケプストラム平均を求める長時間ケプストラム平均計算部と、
前記特徴量パラメータと前記長時間ケプストラム平均からケプストラム平均正規化特徴パラメータを得るケプストラム平均正規化処理部と、
前記ケプストラム平均正規化特徴パラメータと前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記憶された前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータとを照合し、尤度を計算するモデル照合尤度計算部と、
前記尤度が最大の候補を認識結果として出力する認識結果出力部と
を備える音声認識装置。
請求項１に記載の音声認識装置であって、
複数のＳ／Ｎ条件で前記雑音モデルを適応させる前記雑音適応部と、
複数のＳ／Ｎ条件で雑音適応された雑音重畳音声モデルパラメータを、Ｓ／Ｎ条件ごとに記録する前記雑音重畳音声モデルパラメータメモリと、
Ｓ／Ｎ条件ごとの雑音重畳音声モデルパラメータメモリに記録された雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部と、
Ｓ／Ｎ条件ごとの雑音重畳音声モデルパラメータのケプストラム平均を用いて、Ｓ／Ｎ
条件ごとの前記雑音重畳音声モデルパラメータを正規化する前記モデルパラメータケプストラム平均正規化処理部と、
前記モデルパラメータケプストラム平均正規化処理部で求めたＳ／Ｎ条件ごとのケプストラム平均正規化済みモデルパラメータを、Ｓ／Ｎ条件ごとに記録するケプストラム平均正規化済みモデルパラメータメモリと、
前記ケプストラム平均正規化特徴パラメータと複数のＳ／Ｎ条件の前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算する前記モデル照合尤度計算部と、
を備える音声認識装置。
請求項１または請求項２記載の音声認識装置であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の学習データ量で重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
を備える音声認識装置。
請求項１または請求項２記載の音声認識装置であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の重みで重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
を備える音声認識装置。
請求項１または請求項２記載の音声認識装置であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を単純平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算部
を備える音声認識装置。
請求項１乃至請求項５の何れかに記載の音声認識装置であって、
前記雑音成分推定部で推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理部と、
前記雑音抑圧処理部で雑音を抑圧した信号を入力とする前記特徴パラメータ抽出部と、
前記雑音成分推定部で推定した雑音成分を用いて、前記雑音モデル作成部の入力信号の雑音を抑圧する第２の雑音抑圧処理部と、
を備える音声認識装置。
請求項１乃至請求項５の何れかに記載の音声認識装置であって、
前記雑音成分推定部で推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理部と、
前記雑音抑圧処理部で雑音を抑圧した信号を入力とする前記特徴パラメータ抽出部と、
を備える音声認識装置。
デジタル変換された入力音声から音声区間が開始したかを判断する音声／雑音判定ステップと、
前記音声／雑音判定ステップにおいて音声区間が開始する前の区間であると判定された場合に、前記デジタル変換された入力信号から雑音成分を推定する雑音成分推定ステップと、
推定された雑音成分から雑音モデルを作成する雑音モデル作成ステップと、
モデルパラメータメモリに記録されたモデルパラメータに、前記雑音モデルをHHM法により適応させる雑音適応ステップと、
前記雑音適応ステップで雑音適応された雑音重畳音声モデルパラメータを、雑音重畳音声モデルパラメータメモリに記録する記録ステップと、
前記雑音重畳音声モデルパラメータメモリに記録された前記雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す前記雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求めるモデルパラメータケプストラム平均計算ステップと、
前記雑音重畳音声モデルパラメータのケプストラム平均を用いて前記雑音重畳音声モデルパラメータを正規化するモデルパラメータケプストラム平均正規化処理ステップと、
前記モデルパラメータケプストラム平均正規化処理ステップで求めたケプストラム平均正規化済み雑音重畳音声モデルパラメータを、ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記録するステップと、
前記音声／雑音判定部において音声区間が開始したと判定された場合に、前記デジタル変換された入力音声から特徴パラメータを抽出する特徴パラメータ抽出ステップと、
前記特徴量パラメータから長時間ケプストラム平均を求める長時間ケプストラム平均計算ステップと、
前記特徴量パラメータと前記長時間ケプストラム平均からケプストラム平均正規化特徴パラメータを得るケプストラム平均正規化処理ステップと、
前記ケプストラム平均正規化特徴パラメータと前記ケプストラム平均正規化済み雑音重畳音声モデルパラメータメモリに記憶された前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算するモデル照合尤度計算ステップと、
前記尤度が最大の候補を認識結果として出力する認識結果出力ステップと
を有する音声認識方法。
請求項８に記載の音声認識方法であって、
複数のＳ／Ｎ条件で前記雑音モデルを適応させる前記雑音適応ステップと、
複数のＳ／Ｎ条件で雑音適応された雑音重畳音声モデルパラメータを、Ｓ／Ｎ条件ごとの雑音重畳音声モデルパラメータメモリに記録する前記記録ステップと、
Ｓ／Ｎ条件ごとの雑音重畳音声モデルパラメータメモリに記録された雑音重畳音声モデルパラメータを受け取り、複数の音素の特徴を示す雑音重畳音声モデルパラメータのうちの正規分布の平均値を平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップと、
Ｓ／Ｎ条件ごとの雑音重畳音声モデルパラメータのケプストラム平均を用いてＳ／Ｎ条件ごとの前記雑音重畳音声モデルパラメータを正規化する前記モデルパラメータケプストラム平均正規化処理ステップと、
前記モデルパラメータケプストラム平均正規化処理ステップで求めたＳ／Ｎ条件ごとのケプストラム平均正規化済みモデルパラメータを、Ｓ／Ｎ条件ごとのケプストラム平均正規化済みモデルパラメータメモリに記録するステップと、
前記ケプストラム平均正規化特徴パラメータと複数のＳ／Ｎ条件の前記ケプストラム平均正規化済みモデルパラメータとを照合し、尤度を計算する前記モデル照合尤度計算ステップと、
を有する音声認識方法。
請求項８または９記載の音声認識方法であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の学習データ量で重み付け平均した値を前記雑音重畳音声モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
を有する音声認識方法。
請求項８または９記載の音声認識方法であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を各前記正規分布の重みで重み付け平均した値を前記モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
を有する音声認識方法。
請求項８または９記載の音声認識方法であって、
前記雑音重畳音声モデルパラメータメモリ中の各前記正規分布の平均値を単純平均した値を前記モデルパラメータのケプストラム平均として求める前記モデルパラメータケプストラム平均計算ステップ
を有する音声認識方法。
請求項８乃至請求項１２の何れかに記載の音声認識方法であって、
前記雑音成分推定ステップで推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理ステップと、
前記雑音抑圧処理ステップで雑音を抑圧した信号を入力とする前記特徴パラメータ抽出ステップと、
前記雑音成分推定ステップで推定した雑音成分を用いて、前記雑音モデル作成ステップの入力信号の雑音を抑圧する第２の雑音抑圧処理ステップと、
を有する音声認識方法。
請求項８乃至請求項１２の何れかに記載の音声認識方法であって、
前記雑音成分推定ステップで推定した雑音成分を用いて雑音を抑圧する雑音抑圧処理ステップと、
前記雑音抑圧処理ステップで雑音を抑圧した信号を入力とする前記特徴パラメータ抽出ステップと、
を有する音声認識方法。
請求項１から７のいずれかに記載の音声認識装置をコンピュータにより実現する音声認識プログラム。
請求項１５記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。