JP4843646B2

JP4843646B2 - 音声認識装置とその方法と、プログラムと記録媒体

Info

Publication number: JP4843646B2
Application number: JP2008156501A
Authority: JP
Inventors: 哲小橋川; 浩和政瀧; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-06-16
Filing date: 2008-06-16
Publication date: 2011-12-21
Anticipated expiration: 2028-06-16
Also published as: JP2009300837A

Description

この発明は、調整パラメータを用いて音響特徴量を求める音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体に関する。

近年、統計的手法に基づく音声認識技術は、色々な場面で使用されるようになって来た。よって、環境変動、特に雑音に対して頑健な音声認識技術の確立が重要な課題となっている。音声認識装置に雑音が重畳した音声信号が入力されると、その入力音声の音響特徴量の分布が変化し、音響モデルとのミスマッチが生じる。それが誤認識の原因となる。

従来の音声認識装置では、雑音抑圧を目的として調整パラメータを用いて音響分析特徴量の正規化を行う方法が用いられている。図７にその方法を用いた音声認識装置７００の機能構成を示して簡単に説明する。音声認識装置７００は、Ａ/Ｄ変換部７０、特徴量算出部７１、言語モデルパラメータメモリ７２、音響モデルパラメータメモリ７３、音声認識部７４、正解文メモリ７５、精度評価部７６、調整パラメータ管理部７７、調整パラメータ記録部７８を備える。

Ａ/Ｄ変換部７０は、入力されるアナログ信号の音声を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換する。特徴量算出部７１は、離散値化された音声信号を入力として、調整パラメータ記録部７８に記録された調整パラメータを用い、例えば３２０個の音声信号を１フレーム（２０ｍｓ）としたフレーム毎に、音響特徴量を算出する。音響特徴量は、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって算出される。

音声認識部７４は、音響特徴量と、言語モデルパラメータメモリ７２と音響モデルパラメータメモリ７３とからの言語モデルと音響モデルとを入力として、音響モデル内の状態尤度と、言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。精度評価部７６は、音声認識された単語列と、正解文メモリ７５に記録されたその単語列に対応する正解文とを比較して認識精度を評価する。

調整パラメータ管理部７７は、事前に用意された複数の調整パラメータの全てについての認識精度値の中から、最も認識精度値が高い調整パラメータを求めて調整パラメータ記録部７８に記録する。最も認識精度が高くなる調整パラメータに設定された後は、その調整パラメータを用いて音声認識が行われる。
このように調整パラメータを用いて音響モデルと音響特徴量とのミスマッチを減らす音響分析パラメータ生成方法を用いることで、雑音に対して頑健な音声認識装置とすることが出来る。この音響分析パラメータ生成方法は、例えば非特許文献１にスペクトルサブトラクション法として示されている。
松本弘「雑音環境下の音声認識手法」、平成１５年９月１０日、情報処理学会、インターネット＜URL:http://https//www.ipsj.or.jp/10jigyo/fit/fit2003/fit2003program/html/＞

従来の音響分析パラメータ生成方法は、認識精度値を求めるのに正解文を必要とするので正解文を作成するコストが必要であった。また、単語単位、文章単位で認識精度を求めるので調整パラメータを求めるのに多くの処理時間を要し、応答性が悪化する問題点があった。また、正解文を必要とするのでメモリを消費してしまう問題点もあった。
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体を提供することを目的とする。

この発明の音声認識装置は、出力確率計算部と、スコア計算部と、スコア評価部と、特徴量算出部と、音声認識部と、調整パラメータ管理部とを具備する。調整パラメータ管理部は、音響特徴量を正規化するための調整パラメータα_ｉを複数種類備え、各調整パラメータα_ｉを所定フレームに対して出力する。出力確率計算部は、離散化された音声信号を入力として算出され各調整パラメータα_ｉごとにその調整パラメータα_ｉを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力としてフレーム毎の各状態の出力確率を各調整パラメータα_ｉごとに計算する。スコア計算部は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアSCORE(α_ｉ)を各調整パラメータα_ｉごと求める。スコア評価部は、各調整パラメータα_ｉごとの出力確率スコアSCORE(α_ｉ)を評価して出力確率スコアSCORE(α_ｉ)が最大になる調整パラメータα_ｉを出力する。特徴量算出部は、離散化された音声信号を入力として、スコア評価部が出力する調整パラメータα _ｉを用いてフレーム単位で正規化した音響特徴量を算出する。音声認識部は、上記音響モデルと言語モデルとを入力として、特徴量算出部が出力する音響特徴量と音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和がもっとも高い音声認識結果を出力する。

この発明の音響分析パラメータ生成装置は、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを用いてフレーム毎の各状態の出力確率を計算する。そして、最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求め、出力確率スコアが最大になる調整パラメータを、それ以降に使用する最適調整パラメータとして出力する。したがって、従来法のように正解文を必要とせずに調整パラメータが生成できるので、正解文を用意するコストが発生しない。また、所定フレーム数単位で処理するので調整パラメータが短時間で求められ応答性が改善される。また、所定フレーム数単位の状態系列を保存するだけで良く、正解文も必要としないので装置のメモリ資源を消費しない効果を奏する。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の音響分析パラメータ生成装置１００を用いた音声認識装置２００の機能構成例を示す。音声認識装置２００は、音響分析パラメータ生成装置１００の生成する調整パラメータを、音響特徴量の算出に用いて雑音抑圧するものである。音声認識装置２００として特徴付けているＡ/Ｄ変換部７０、特徴量算出部７１、言語モデルパラメータメモリ７２、音響モデルパラメータメモリ７３、音声認識部７４は、従来の音声認識装置７００と同じものである。よって、その部分の説明は省略する。
音響分析パラメータ生成装置１００とそれを含んだ音声認識装置２００のそれぞれは、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

図２に音響分析パラメータ生成装置１００の動作フローを示し、図１と図２を参照して音響分析パラメータ生成装置１００の動作を説明する。音響分析パラメータ生成装置１００は、出力確率計算部１０と、スコア計算部１１と、スコア評価部１２と、最適調整パラメータ候補記録部１３と、調整パラメータ管理部１４とを備える。
出力確率計算部１０は、調整パラメータ管理部１４が出力する調整パラメータを用いて算出されたフレーム単位の音響特徴量と、音響モデルパラメータメモリ７３に記録された音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する（ステップＳ１０）。音響モデルと各状態については後述する。

スコア計算部１１は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める（ステップＳ１１）。スコア評価部１２は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する（ステップＳ１２）。最適調整パラメータ候補記録部１３は、その最適調整パラメータ候補を記録する（ステップＳ１３）。

調整パラメータ管理部１４は、複数の調整パラメータを備え、その複数の調整パラメータを、出力確率スコアを求めた所定フレーム数に対してそれぞれ出力した後に、最適調整パラメータ候補記録部１３に記録された最適調整パラメータ候補を調整パラメータとして出力する（ステップＳ１４）。つまり、全ての調整パラメータを、所定フレーム数に対して出力するまでの間、ステップＳ１０〜ステップＳ１４までの動作が繰り返される。

以上述べたように動作することで、所定フレーム数の単位で調整パラメータが更新されて音響特徴量が算出され、その音響特徴量に対応する最尤状態系列から出力確率スコアが求められる。そして、出力確率スコアが最大になる最適調整パラメータ候補が調整パラメータとして出力される。したがって、予め用意された調整パラメータの数にもよるが、所定フレーム数の整数倍の比較的短い時間で調整パラメータを最適化することが出来る。また、従来法のように正解文を必要とすることも無い。

ここで各状態と音素モデルについて図３と図４を用いて説明する。音響モデルを構成する音素モデルは、図３に示す状態によって構築される。各状態ｓは、混合正規分布Ｍ_sとして表現される。混合正規分布Ｍ_sは、例えば３つの正規分布、Ｎ（μ_ｓ１，Ｕ_ｓ１），Ｎ（μ_ｓ２，Ｕ_ｓ２），Ｎ（μ_ｓ３，Ｕ_ｓ３）で構成される。

音素モデルは、状態ｓの数個〜十数個程度の確率連鎖によって構築される。図４に３状態で構成される音素モデルの概念図を一例として示す。図４に示す例は、left−ｔｏ−ｒｉｇｈｔ型ＨＭＭ（Hidden Markov Model）と呼ばれるもので、３つの状態ｓ_１（第１状態）、ｓ_２（第２状態）、ｓ_３（第３状態）を並べたものであり、状態の確率連鎖（状態遷移）としては、自己遷移ａ_１１、ａ_２２、ａ_３３と、次状態へのａ_１２、ａ_２３、ａ_３４からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。
状態ｓから得られる出力確率Ｐ（ｓ，ｏ_ｔ（α_ｉ））は式（１）で求められる。

ここでｏ_ｔは調整パラメータα_iを用いて求めたフレームｔの音響特徴量、Ｎ（ｏ_ｔ（α_ｉ）；μ_ｍｓ，Ｕ_ｍｓ）は平均ベクトルμ_ｍｓ，共分散行列Ｕ_ｍｓから計算されるスコア、ｃ_ｍｓは重み係数、Ｍ_ｓは状態ｓに属する分布数である。
図５に、状態ｓとフレームｔとの時系列の関係を示す。横軸は時間経過でありフレーム
番号で表す。縦軸は、各フレームの状態ｓである。各状態ｓは図３に示したように混合正
規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態Ｐ（ｓ_ｂｅｓｔ，ｏ_ｔ（α_ｉ））である。各フレームの最尤状態Ｐ（ｓ_ｂｅｓｔ，ｏ_ｔ（α_ｉ））を時系列で見たのが、●を線で結んだ最尤状態系列である。

図６に、音響分析パラメータ生成装置１００のより具体的な動作フローを示して更に詳しく説明する。調整パラメータ管理部１４は、予め調整パラメータα_ｉを複数個備える。調整パラメータ管理部１４が、例えば、０.８〜１.２の範囲を０.１の分解能で５種類の調整パラメータα_ｉを持ち、例えば小さな値のパラメータから順に出力するものと仮定する。

音響分析パラメータ生成装置１００が動作を開始すると、調整パラメータ管理部１４は、調整パラメータα_ｉ＝０.８を出力する（ステップＳ１４０）。出力確率計算部１０は、調整パラメータα_ｉ＝０.８を用いて算出された音響特徴量ｏ_ｔ（α_ｉ）と音響モデルμ_ｍｓ，Ｕ_ｍｓとを入力として式（１）により出力確率を計算する（ステップＳ１０）。スコア計算部１１は、調整パラメータα_ｉに対する出力確率スコアＳＣＯＲＥ（α_ｉ）を式（２）で求める（ステップＳ１１０）。

ここでＴは認識対象データの時間長である所定フレーム数、ｓ_ｂｅｓｔ（ｔ）はフレームｔにおける最尤状態である（図５の●）。フレームｔが所定フレーム数Ｔになるまで、ステップＳ１０〜Ｓ１１が繰り返される（ステップＳ１１１のＮ）。ここで、所定フレーム数Ｔは、認識対象データの時間長に限らず、計算量削減のため、認識対象データ長よりも短い時間長としても構わない。

スコア評価部１２は、フレームｔが所定フレーム数に達すると前回の出力確率スコアＳＣＯＲＥ（α_ｉ-１）と、今回計算した出力確率スコアＳＣＯＲＥ（α_ｉ）とを比較する（ステップＳ１２）。最初の比較動作では、前回の出力確率スコアＳＣＯＲＥ（α_ｉ-１）が存在しない。よって、スコア評価部１２は最適調整パラメータとして今回の調整パラメータα_i（初回ｉ＝０なのでα_０と等価）を最適調整パラメータ候補として出力する（ステップＳ１２のＹ）。２回目以降の比較動作では、前回の出力確率スコアＳＣＯＲＥ（α_ｉ-１）と最新の出力確率スコアＳＣＯＲＥ（α_ｉ）とを比較して、出力確率スコアの大きい方の調整パラメータを最適調整パラメータ候補として出力する（ステップＳ１２のＹ又はＮ）。最適調整パラメータ候補記録部１３は、スコア評価部１２が出力する調整パラメータα_ｉを最適調整パラメータ候補として記録する（ステップＳ１３０又はＳ１３１）。

調整パラメータ管理部１４は、出力確率計算過程（ステップＳ１０）、スコア計算過程（ステップＳ１１）、スコア評価過程（ステップＳ１２）、最適調整パラメータ候補記録過程（ステップＳ１３）の動作を、調整パラメータα_ｉが最終値になるまで繰り返す（ステップＳ１４１のＮ）。調整パラメータα_ｉは、最終値になるまでステップＳ１４３で次の調整パラメータα_ｉ＋１に更新される。この例では、予め用意された調整パラメータα_ｉの種類が５種類であるので、ステップＳ１４３は４回繰り返される。調整パラメータ管理部１４は、全ての調整パラメータα_ｉを出力した後、最適調整パラメータ候補記録部１３に記録されている最適調整パラメータ候補を調整パラメータとして出力する。以上の動作により、調整パラメータ管理部１４は、所定フレーム数内で出力確率スコアＳＣＯＲＥ（α_ｉ）を最大にする調整パラメータα_ｉを出力する（ステップＳ１４２）。

実施例２の音響分析パラメータ生成装置１２０は、計算対象状態取得部２０を備える。実施例１を説明した図１中に計算対象状態取得部２０を破線で示す。その動作フローを図２に示す。計算対象状態取得部２０は、音響モデルパラメータメモリ７３に記録された音響モデルの内、環境独立音素モデル（モノフォン）に絞って、その音素モデルのみを出力確率計算部１０に出力する（ステップＳ２０、図２）。この場合、出力確率計算部１０と、スコア計算部１１とはモノフォンのみについて処理を行う。

モノフォンのみについて処理を行うことで、計算量を削減することができる。実施例１の場合では、前後の音素環境を考慮した環境独立音素（トライフォン）や片側依存音素（バイフォン）を用いるため、その状態数はおおよそ２０００状態である。音素数を３０とした場合のトライフォンの音素数は３０×３０×３０であり、バイフォンの音素数は２×３０×３０であるので最終的な音素数は計算上２８８００個になる。各音素の状態数を３とするとこの音素数に３を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ２０００状態に縮退させることができる。

この２０００状態をモノフォンのみに絞ることで、音素数３０×状態数３＝９０状態にすることが出来る。計算量は約９０/２０００×１００＝４．５％で済む。よって処理を高速化できる。
また、更に、計算量を削減する方法として、音声ＧＭＭと無音モデルに対応する状態尤度を用いて出力確率計算部１０が出力確率を計算するようにしても良い。通常、音声ＧＭＭは状態数１で表現されることが多く、また無音モデルを３状態とすると、合わせて４状態となり、モノフォンを用いた９０状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。

実施例３の音響分析パラメータ生成装置１３０は、計算対象状態取得部２０と最尤状態系列記録部３０とを備える。実施例１を説明した図１中に計算対象状態取得部２０と最尤状態系列記録部３０を破線で示す。その動作フローを図２に示す。最尤状態系列記録部３０は、最尤状態系列を記録する。そして、実施例３の出力確率計算部１０は、その最尤状態系列のみの各状態について出力確率を計算するようにしたものである。
この実施例３の最尤状態系列を求める計算も、図５に示す縦軸方向の全ての状態ｓについて行うが、一度、最尤状態系列を求めた後は、各フレーム毎に最尤状態系列の１状態のみの出力確率を計算するものである。つまり、最初に求めた最尤状態系列を２回目以降も用いることで計算量を削減する考えである。

音響分析パラメータ生成装置１３０が置かれた環境は、個々に異なることが予想されるが、最尤状態系列は、調整パラメータの値が変わっても大きく変化することは少ない。特に、初期の調整パラメータが最適調整パラメータに近い場合は、初期の調整パラメータの最尤状態系列を、２回目以降も用いることが可能になる。その点に注目してこの実施例では、最初に求めた最尤状態系列を最尤状態系列記録部３０に記録する（ステップＳ３０、図２）。そして、調整パラメータ管理部１４がステップＳ１４３で次の調整パラメータα_ｉ＋１に更新する。その後、計算対象状態取得部２０が、最尤状態系列記録部３０に所定フレーム数Ｔの時間幅で記録された最尤状態系列に対応する状態のみを出力確率計算部１０に入力する（ステップＳ２０）。よって、一度、最尤状態系列が求められると以降の出力確率は、フレーム毎に最尤状態の１状態のみが計算される。このように、求めた最尤状態系列を２回目以降も用いることで実施例１の計算量を削減することが出来る。また、この実施例３の考えを実施例２と組み合わせることで、更に実施例２の計算量も削減することが可能である。

なお、出力確率計算部１０が、最尤状態系列記録部３０に記録された最尤状態系列を参照して、最尤状態系列のみの出力確率を計算するように構成しても良い。
この発明の技術思想に基づく音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

なお、この発明の音響分析パラメータ生成装置を、音声認識装置の雑音抑圧を目的とした調整パラメータを生成するものとして説明を行った。しかし、この発明の音響分析パラメータ生成装置は、声道長正規化に関する調整パラメータ等、他の目的の音響特徴量に関する調整パラメータの最適化に関して利用することも可能である。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の音響分析パラメータ生成装置１００，１２０，１３０を用いた音声認識装置２００の機能構成例を示す図。音響分析パラメータ生成装置１００，１２０，１３０の動作フローを示す図。音素モデルを構成する１状態を模式的に示す図。音素モデルの一例を示す図。フレームと状態ｓとの関係を模式的に示す図。音響分析パラメータ生成装置１００，１２０のより具体的な動作フローを示す図。従来の音声認識装置７００の機能構成例を示す図。

Claims

音響特徴量を正規化するための調整パラメータαを複数種類備え、各調整パラメータα_ｉを所定フレームに対して出力する調整パラメータ管理部と、
離散化された音声信号を入力として算出され各調整パラメータα_ｉごとに上記調整パラメータα_ｉを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力として上記フレーム毎の各状態の出力確率を各調整パラメータα_ｉごとに計算する出力確率計算部と、
上記出力確率の最尤状態系列を上記所定フレーム数に渡って累積して出力確率スコアSCORE(α_ｉ)を各調整パラメータα_ｉごとに求めるスコア計算部と、
上記各調整パラメータα_ｉごとの出力確率スコアSCORE(α_ｉ)を評価して上記出力確率スコアSCORE(α_ｉ)が最大になる上記調整パラメータα_ｉを出力するスコア評価部と、
上記離散化された音声信号を入力として、上記スコア評価部が出力する調整パラメータα _ｉを用いてフレーム単位で正規化した音響特徴量を算出する特徴量算出部と、
上記音響モデルと言語モデルとを入力として、上記特徴量算出部が出力する上記音響特徴量と上記音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和が最も高い音声認識結果候補を出力する音声認識部と、
を具備する音声認識装置。
請求項１に記載した音声認識装置において、
上記調整パラメータα_ｉは、声道長正規化のパラメータであることを特徴とする音声認識装置。
請求項１又は２に記載した音声認識装置において、
上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得部を具備することを特徴とする音声認識装置。
請求項１乃至３の何れかに記載した音声認識装置において、
上記最尤状態系列を記録する最尤状態系列記録部を備え、
上記出力確率計算部は上記最尤状態系列のみの出力確率を計算することを特徴とする音声認識装置。
調整パラメータ管理部が、音響特徴量を正規化するための調整パラメータαを複数種類備え、各調整パラメータα_ｉを所定フレームに対して出力する調整パラメータ管理過程と、
出力確率計算部が、離散化された音声信号を入力として算出され各調整パラメータα_ｉごとに上記調整パラメータα_ｉを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を各調整パラメータα_ｉごとに計算する出力確率計算過程と、
スコア計算部が、上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアSCORE(α_ｉ)を各調整パラメータα_ｉごとに求めるスコア計算過程と、
スコア評価部が、上記各調整パラメータα_ｉごとの出力確率スコアSCORE(α_ｉ)を評価して上記出力確率スコアSCORE(α_ｉ)が最大になる上記調整パラメータα_ｉを出力するスコア評価過程と、
特徴量算出部が、上記離散化された音声信号を入力として、上記スコア評価部が出力する調整パラメータα _ｉを用いてフレーム単位で正規化した音響特徴量を算出する特徴量算過程と、
音声認識部が、上記音響モデルと言語モデルとを入力として、上記特徴量算出部が出力する上記音響特徴量と上記音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和が最も高い音声認識結果候補を出力する音声認識過程と、
を含む音声認識方法。
請求項５に記載した音声認識方法において、
上記調整パラメータα_ｉは、声道長正規化のパラメータであることを特徴とする音声認識方法。
請求項５又は６に記載した音声認識方法において、
計算対象状態取得部が、上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音声認識方法。
請求項５又は６に記載した音声認識において、
計算対象状態取得部が、上記音響モデルを音声ＧＭＭと無音モデルから生成して上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音声認識方法。
請求項５乃至８の何れかに記載した音声認識方法において、
最尤状態系列記録部が、上記最尤状態系列を記録する最尤状態系列記録過程を含み、
上記出力確率計算過程は、上記最尤状態系列のみの出力確率を計算する過程であることを特徴とする音声認識方法。
請求項５乃至９の何れかに記載した音声認識方法の各過程をコンピュータに実行させるためのプログラム。
請求項１０に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。