JP2009210976A

JP2009210976A - 音声認識装置、方法、プログラム及びその記録媒体

Info

Publication number: JP2009210976A
Application number: JP2008055978A
Authority: JP
Inventors: Atsunori Ogawa; 厚徳小川; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-03-06
Filing date: 2008-03-06
Publication date: 2009-09-17
Anticipated expiration: 2028-03-06
Also published as: JP4801108B2

Abstract

【課題】音声認識処理を高速化する。
【解決手段】フレーム数決定部９０が、フレーム数Ｋを状態ｊごとに適宜定める。例えば、尤度計算率ｑ_ｊが高いほど、状態ｊのフレーム数Ｋを大きくする。状態尤度計算部３１が、状態ｊのフレームｔについての状態状態尤度ｂ_ｊ（Ｘ_ｔ）を計算するときに、状態ｊのフレームｔ＋１，…，ｔ＋Ｋについての状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）をついでに計算して状態尤度記憶部８０に格納する。状態尤度参照部３２が、状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）の何れかが必要になったときに、状態尤度記憶部８０を参照して、その状態尤度を求める。
【選択図】図１

Description

この発明は、音声認識技術に関する。特に、音声認識処理の速度を向上させる技術に関する。

図７を参照して、従来技術の音声認識装置１００’について説明する。
入力音声が、音響分析部１０に入力される。音響分析部１０は、入力音声から、一定時間長のフレームごとに特徴量ベクトルを計算し、特徴量ベクトルの時系列を生成する。生成された特徴量ベクトルの時系列は、探索部３０’に送られる。
探索部３０’は、音響モデル記憶部４０から読み込んだ音響モデルを用いて、文法記憶部５０から読み出した文法で表現される単語又は単語列と特徴量ベクトルの時系列との照合を行い、すなわち探索処理を行い、最も尤度が高い単語又は単語列を認識結果として出力する。

音響分析部１０における音声分析方法としてよく用いられるのは、ケプストラム分析である。例えば、特徴量として、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、対数パワー、Δ対数パワー等があり、これらの特徴量が１０から１００次元程度の特徴量ベクトルを構成する。また、例えば、フレーム幅は３０ｍｓ程度、フレームシフト幅は１０ｍｓ程度で音声分析が行われる。

音響モデル記憶部４０に記憶された音響モデルは、ＭＦＣＣ等の音声の特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声のある区間の特徴量ベクトルに対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するのかを推定するために用いられる。

現在、音響モデルとしては、確率・統計理論に基づいてモデル化された隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，以下ＨＭＭと略する。）が汎用される。通常、ＨＭＭは音素カテゴリ単位で作成される。音素カテゴリ単位で作成された各ＨＭＭを音素ＨＭＭという。複数の音素ＨＭＭからなる音素ＨＭＭの集合が、１つの音響モデルを構築する。

音素ＨＭＭとしては、ｍｏｎｏｐｈｏｎｅ−ＨＭＭ，ｂｉｐｈｏｎｅ−ＨＭＭ及びｔｒｉｐｈｏｎｅ−ＨＭＭがよく用いられる。
ｍｏｎｏｐｈｏｎｅ−ＨＭＭは、中心音素に先行する音素と後続する音素の両方を音素環境として考慮しない音素環境非依存型の音素ＨＭＭである。例えば、音素ａのｍｏｎｏｐｈｏｎｅ−ＨＭＭは、＊を任意の音素として、＊−ａ−＊と表すことができる。

ｂｉｐｈｏｎｅ−ＨＭＭには、中心音素に先行する音素のみを音素環境として考慮する先行音素環境依存型の音素ＨＭＭ、中心音素に後続する音素のみを音素環境として考慮する後続音素環境依存型の音素ＨＭＭがある。例えば、先行音素がｐである音素ａの先行音素環境依存型ｂｉｐｈｏｎｅ−ＨＭＭは、ｐ−ａ−＊と表すことができる。また、後続音素がｔである音素ａの後続音素環境依存型ｂｉｐｈｏｎｅ−ＨＭＭは、＊−ａ−ｔと表すことができる。

ｔｒｉｐｈｏｎｅ−ＨＭＭは、中心音素に先行する音素及び後続する音素の両方を音素環境として考慮する音素ＨＭＭである。例えば、先行音素がｐ、後続音素がｔである音素ａのｔｒｉｐｈｏｎｅ−ＨＭＭは、ｐ−ａ−ｔと表すことができる。
ｍｏｎｏｐｈｏｎｅ−ＨＭＭよりもｂｉｐｈｏｎｅ−ＨＭＭの方が、また、ｂｉｐｈｏｎｅ−ＨＭＭよりもｔｒｉｐｈｏｎｅ−ＨＭＭの方が音素環境を詳細に表現したモデルである。
音素ＨＭＭで表現される音素カテゴリの種類の数は、音響モデルの学習データに依存するが、ｔ−ｔ−ｔ等の日本語の音素連鎖としてあり得ないものは除かれるため、一般的には数千から数万程度になる。

図８，図９を参照して、音響モデルに含まれる音素ＨＭＭの構造を説明する。音素ＨＭＭは、後述するように複数の状態Ｓから構成される。
状態Ｓは、図８に例示するように、混合確率分布として表現される。混合確率分布の各要素分布には、離散確率分布と連続確率分布があるが、現在最もよく用いられているのは、連続確率分布の１つである多次元正規分布（多次元ガウス分布ともいう。）である。その内でも次元間の相関がない、すなわち共分散行列の対角成分が０である多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、特徴量ベクトルの各次元に対応する。

図８では、状態Ｓは、４つの多次元正規分布を要素分布とする多次元混合正規分布Ｍとして表現されている。なお、図８では、多次元正規分布のある次元ｉについて示されているが、多次元正規分布の他の次元についても同様に表現される。
図８に例示するような状態Ｓの数個から十数個程度の確率連鎖によって、音素ＨＭＭが構成される。音素ＨＭＭが、いくつの状態のどのような確率連鎖によって構成されるかには、様々なバリエーションがある。また、音素ＨＭＭごとに異なる構造を取ることもある。

現在最も一般的に用いられている構造は、図９に例示するような３状態のｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭと呼ばれるものである。これは、第一状態Ｓ_１、第二状態Ｓ_２及び第三状態Ｓ_３からなる３つの状態を左から右に並べたものである。状態の確率連鎖、すなわち状態遷移は、自分自身への遷移（自己遷移）Ｓ_１→Ｓ_１、Ｓ_２→Ｓ_２、Ｓ_３→Ｓ_３と、次状態への遷移Ｓ_１→Ｓ_２、Ｓ_２→Ｓ_３とからなる。音響モデル中の全ての音素ＨＭＭがこの３状態のｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭの構造を取ることが多い。

音素ＨＭＭの音響尤度計算について説明する。具体的には、図９の音素ＨＭＭに、ある特徴量ベクトルの時系列が入力されたときの音響尤度計算について説明する。例えば、６フレーム分の特徴量ベクトルの時系列Ｘ＝Ｘ_１，Ｘ_２，Ｘ_３，Ｘ_４，Ｘ_５，Ｘ_６が、音素ＨＭＭのある１つの状態遷移系列Ｓ_ｅ＝Ｓ_１→Ｓ_１→Ｓ_２→Ｓ_２→Ｓ_３→Ｓ_３から出力される確率である音響尤度Ｐ（Ｘ｜Ｓ_ｅ，ＨＭＭ）は、以下のように計算される。

ここで、ａ_ｊｋは状態Ｓ_ｊから状態Ｓ_ｋへの遷移確率である。また、状態尤度ｂ_ｊ（Ｘ_ｔ）は、時刻ｔ、すなわちフレームｔにおける特徴量ベクトルＸ_ｔが状態Ｓ_ｊを表現する多次元混合正規分布Ｍ_ｊから出力される確率である。状態尤度ｂ_ｊ（Ｘ_ｔ）は、多次元混合正規分布Ｍ_ｊを構成するｍ番目の多次元正規分布の出力確率Ｐ_ｊｍ（Ｘ_ｔ）を用いて、以下のように計算される。

ここで、混合数ｍ_ｊは、多次元混合正規分布Ｍ_ｊを構成する正規分布の数であり、Ｗ_ｊｍは、多次元混合正規分布Ｍ_ｊを構成するｍ番目の正規分布の分布重みである。Ｗ_ｊｍについては、以下の式が満たされる。

多次元混合正規分布Ｍ_ｊを構成する正規分布が多次元無相関正規分布の場合、Ｐ_ｊｍ（Ｘ_ｔ）は以下のように計算される。

ここで、μ_ｊｍｉ，σ_ｊｍｉ ^２は、多次元混合正規分布Ｍ_ｊを構成するｍ番目の多次元無相関正規分布の次元ｉにおける平均値、分散。Ｘ_ｔｉは、特徴量ベクトルのＸ_ｔの次元ｉの値である。Ｉは、特徴量ベクトル及び多次元無相関正規分布の次元数である。

上記した音響尤度計算は、ある１つの状態遷移系列Ｓ_ｅに対するものである。このような状態遷移系列は他にもあげることができる。このような状態遷移系列の全てに対して特徴量ベクトルの時系列を出力する確率を計算し、これらの計算された確率を加算したものを音素ＨＭＭに特徴量ベクトルの時系列Ｘが入力されたときの音響尤度とする方法は、トレリス（ｔｒｅｌｌｉｓ）アルゴリズムと呼ばれる。

一方、全ての状態遷移系列の中で最も高い音響尤度を与える状態遷移系列を特徴量ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素ＨＭＭに特徴量ベクトルの時系列Ｘが入力されたときの音響尤度とする方法は、ビタービ（Ｖｉｔｅｒｂｉ）アルゴリズムと呼ばれる。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減できるビタービアルゴリズムが用いられることが多い。

また、上記した音響尤度計算は、ある１つの音素ＨＭＭに対するものであるが、実際には、探索部３０’において探索処理を行う前に、音素ＨＭＭを連結して文法記憶部５０に記憶された文法で表現される単語又は単語列のＨＭＭの探索ネットワークを作成し、入力音声の特徴量ベクトルの時系列と探索ネットワークで表現される単語又は単語列との照合、すなわち探索処理が行われる。そして、最も音響尤度が高い単語又は単語列が認識結果として出力される。

なお、連続音声認識の場合には、上記の音響尤度に加えて、単語のつながりやすさを統計的に表現する言語モデルによる言語尤度が考慮され、これらの統合尤度が最も高い単語又は単語列として出力される。また、上記した音響尤度計算では、確率値をそのまま扱ったが、実際にはアンダーフローを防ぐために、確率値の対数をとって計算を行う（以上の内容については、例えば、非特許文献１，２参照。）。

ところで、音声認識処理時間に占める状態尤度ｂ_ｊ（Ｘ_ｔ）を計算する時間の割合は４５％から６５％に上るため、音声認識処理を高速化するためには、状態尤度ｂ_ｊ（Ｘ_ｔ）を求める処理を高速化するとよい。状態尤度ｂ_ｊ（Ｘ_ｔ）を求める処理を高速化する数多くの手法が従来から提案されている（例えば、非特許文献３，４参照。）
以下、非特許文献４に記載された状態尤度ｂ_ｊ（Ｘ_ｔ）を求める処理の高速化の手法について説明する。非特許文献４の手法は、以下の２つの実験的事実に基づいて状態尤度ｂ_ｊ（Ｘ_ｔ）を求める処理の高速化を実現している。

１．状態尤度ｂ_ｊ（Ｘ_ｔ）の計算におけるＣＰＵの動きを調べた結果、最も消費時間が長いのは、上記式（２）で定義される状態尤度ｂ_ｊ（Ｘ_ｔ）の計算そのものではなく、状態尤度ｂ_ｊ（Ｘ_ｔ）を計算するために必要な、計算対象となっている状態ｊの状態パラメータを、メインメモリからＣＰＵのキャッシュにフェッチする処理である。

２．ある状態ｊのあるフレームｔについての状態尤度ｂ_ｊ（Ｘ_ｔ）の計算が行われた場合、その状態ｊの次のフレームｔ＋１についての状態尤度ｂ_ｊ（Ｘ_ｔ＋１）の計算が行われる可能性が高い。非特許文献４では、７５％以上の確率で、次のフレームｔ＋１についての状態尤度ｂ_ｊ（Ｘ_ｔ＋１）の計算が行われると記載されている。

図１０に例示した状態尤度テーブルを参照して、非特許文献４の手法を説明する。状態尤度テーブルとは、各状態ごとに、状態尤度ｂ_ｊ（Ｘ_ｔ）の計算を行うフレームを時系列で表したものである。

例えば、状態ｊのフレームｔについての状態尤度ｂ_ｊ（Ｘ_ｔ）を計算する必要が生じたとする。このとき、状態尤度ｂ_ｊ（Ｘ_ｔ）のみならず、ついでにＫフレーム先までの状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を合わせて計算して、それらの計算結果をテーブルに記憶しておく。このＫフレーム先までの状態尤度を計算する処理を「バッチ状態尤度計算処理」という。Ｋは、７程度の整数である。

その後、状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を計算する必要が出てきた場合には、そのテーブルを参照して、これらを実際に計算することなく求める。これにより、状態尤度ｂ_ｊ（Ｘ_ｔ）を求める処理を高速化することができる。

この非特許文献４の手法によれば、上記「１．」で述べた、消費時間が長い状態パラメータをＣＰＵのキャッシュにフェッチする回数を削減することができるため、音響尤度の計算を高速化することができ、音声認識処理を高速化することができる。
鹿野清宏，外４名，「ＩＴＴｅｘｔ音声認識システム」，オーム社，２００１年５月，ｐ．１−５１安藤彰男，「リアルタイム音声認識」，（社）電子情報通信学会，２００３年９月，ｐ．１−５８，ｐ．１２５−１７０嵯峨山茂樹，外４名，「音声認識における新しい高速化」，日本音響学会講演論文集，１−５−１２，平成８年３月，ｐ．２５−２８ M.Saraclar，外３名，「Towards automatic closed captioning: low latency real time broadcast news transcription」，Proc.ICSLP’02，２００２年９月，ｐ．１７４１−１７４４

ところで、ついでに計算したＫフレーム分の状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）は実際に使用されるかどうかが不明であり、これらが使用されなければ状態尤度の無駄な計算を行ったことになる。
非特許文献４の手法においては、Ｋの値は諸事情を考慮せずに固定されていたため、状態尤度の無駄な計算が行われていた可能性がある。このため、音声認識処理を十分に高速化できていない可能性があった。

この発明は、上記問題に鑑み、音声認識処理の速度をより向上させた音声認識装置、方法、プログラム及びその記録媒体を提供することを目的とする。

この発明の１つの観点によれば、音響モデル記憶部を、状態パラメータ、自己遷移確率を含む音響モデルを記憶する記憶部とし、状態パラメータ記憶部を、音響モデル記憶部よりも高速な記憶部とする。音響分析部が、入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を特徴量ベクトル記憶部に格納する。フェッチ部が、ｊ，ｔをそれぞれ任意の整数、ある状態ｊがフレームｔの特徴量ベクトルＸ_ｔを出力する確率を状態尤度ｂ_ｊ（Ｘ_ｔ）として、状態尤度ｂ_ｊ（Ｘ_ｔ）が計算される前に、状態ｊの状態パラメータを音響モデル記憶部から状態パラメータ記憶部に読み込む。尤度計算率計算部が、処理の対象となる目的音声と近い音響的な性質を有する音声に対して行った音声認識処理において、全フレームにおける状態尤度の計算が行われたフレームの割合（以下、尤度計算率ｑ_ｊとする。）を状態ごとに求める。尤度計算率フレーム数決定部が、求まった尤度計算率ｑ_ｊが高い状態ほど、大きい整数Ｋ_Ｂ（ｊ）をフレーム数Ｋとして決定する。状態尤度計算部が、状態パラメータ記憶部から読み込んだ状態ｊの状態パラメータと、特徴量ベクトル記憶部から読み込んだ特徴量ベクトルＸ_ｔとを用いて状態尤度ｂ_ｊ（Ｘ_ｔ）を計算すると共に、状態パラメータ記憶部から読み込んだ状態ｊの状態パラメータと、特徴量ベクトル記憶部から読み込んだ特徴量ベクトルＸ_ｔ＋１，…，Ｘ_ｔ＋Ｋとを用いて、状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を更に計算して、それらの更に計算された状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を状態尤度記憶部に格納する。状態尤度参照部が、状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）の何れかが必要になったときに、状態尤度記憶部を参照して、その状態尤度を求める。

フレーム数Ｋの値を状態に応じて適宜変えることにより、状態尤度の無駄な計算処理の量を少なくすることができる。これにより、従来よりも音声認識処理を高速化することができる。

この発明は、図６に記載した状態尤度テーブルに例示するように、ついでに状態尤度が計算されるフレーム数Ｋを状態ごとに適宜異ならせることを特徴とする。
以下、図面を参照してこの発明の実施形態の例を説明する。背景技術と同様な部分については、同じ符号をつけて重複説明を略する。

［第一実施形態］
第一実施形態は、音声認識処理の対象となる目的音声と音響的に近い性質を有する音声（以下、適応先データ、開発用データともいう。）が得られる場合の実施形態である。
開発用データに対して、バッチ状態尤度計算を行わない通常の状態尤度計算により音声認識処理を行い、例えば状態尤度テーブルを得ることにより、全フレームにおける状態尤度の計算が行われたフレームの割合（以下、尤度計算率ｑ_ｊという。）を状態ｊごとに求める。この尤度計算率ｑ_ｊが高い状態ｊほど、あるフレームｔについての状態尤度ｂ_ｊ（Ｘ_ｔ）が計算された場合に、次のフレームｔ＋１についての状態尤度ｂ_ｊ（Ｘ_ｔ＋１）が計算される可能性が高いと考えることができる。

この性質を利用して、尤度計算率ｑ_ｊが高い状態ｊに対しては大きなフレーム数Ｋを与え、逆に尤度計算率ｑ_ｊが低い状態ｊに対しては小さいフレーム数Ｋを与える。すなわち、尤度計算率ｑ_ｊが高い状態ｊほど、大きいフレーム数Ｋを与える。
このように、ついでに状態尤度が計算されるフレーム数Ｋを状態ごとに適宜異ならせることにより、状態尤度の無駄な計算処理の量を少なくすることができる。したがって、従来よりも音響尤度の計算を高速化することができ、音声認識処理を高速化することができる。

図１，図２を参照してこの発明の第一実施形態の例を説明する。図１は、音声認識装置の例の機能ブロック図である。図２は、音声認識方法の処理の流れを例示するフローチャートである。
第一実施形態の音声認識装置１００は、図１において実線で示す、音響分析部１０、特徴量ベクトル記憶部２０、探索部３０、音響モデル記憶部４０、文法記憶部５０、フェッチ部６０、状態パラメータ記憶部７０、状態尤度記憶部８０及びフレーム数決定部９０を例えば含む。探索部３０は、状態尤度計算部３１及び状態尤度参照部３２を例えば含む。フレーム数決定部９０は、尤度計算率計算部９２、尤度計算率フレーム数決定部９３を例えば含む。

＜ステップＳ１＞
入力音声が、音響分析部１０に入力される。音響分析部１０は、入力音声から、一定時間長のフレームごとに特徴量ベクトルＸ_ｔを計算し、特徴量ベクトルＸ_ｔの時系列を生成する。生成された特徴量ベクトルＸ_ｔの時系列は、特徴量ベクトル記憶部２０に送られる。
特徴量ベクトル記憶部２０は、例えば一時的に特徴量ベクトルＸ_ｔを記憶するバッファである。

＜ステップＳ２＞
フェッチ部６０は、状態尤度計算部３１が状態ｊのフレームｔについての状態尤度ｂ_ｊ（Ｘ_ｔ）を計算する前に、状態ｊの状態パラメータを、音響モデルが記憶された音響モデル記憶部４０から読み込み、状態パラメータ記憶部７０に格納する。
状態パラメータとは、状態尤度Ｂ_ｊ（Ｘ_ｔ）を計算するために必要な数値のことであり、例えば、背景技術の欄の式（２）で登場する分布重みＷ_ｊｍ（ｍ＝１，…，ｍ_ｊ）、式（４）で登場する平均μ_ｊｍｉ（ｍ＝１，…，ｍ_ｊ，ｉ＝１，…，Ｉ），分散σ_ｊｍｉ ^２（ｍ＝１，…，ｍ_ｊ，ｉ＝１，…，Ｉ）である。

状態パラメータ記憶部７０は、音響モデル記憶部４０よりも読み書きが高速な記憶媒体であり、例えばＣＰＵ１のキャッシュ１ａ（図５参照）である。

＜ステップＳ３１＞
尤度計算率計算部９２は、開発用データに対して、バッチ状態尤度計算を行わない通常の状態尤度計算により音声認識処理を行い、尤度計算率ｑ_ｊを状態ｊごとに求める。尤度計算率ｑ_ｊは、尤度計算率フレーム数決定部９３に送られる。

＜ステップＳ３２＞
尤度計算率フレーム数決定部９３は、尤度計算率ｑ_ｊが高い状態ｊほど大きい整数Ｋ_Ｂ（ｊ）を決定する。Ｋ_Ｂ（ｊ）は、状態尤度計算部３１に送られる。
例えば、ｑ_ｌを０以上１以下の数、ｑ_ｈをｑ_ｌ以上１以下の数、Ｋ_ｍｉｎを０以上の整数、Ｋ_ｍａｘをＫ_ｍｉｎ＋１以上の整数、ｆ（・）を・の小数点以下を切り捨てして整数を出力する関数として、Ｋ_Ｂ（ｊ）を以下の式により求めることができる。ｑ_ｌ，ｑ_ｈ，Ｋ_ｍｉｎ及びＫ_ｍａｘは、目的音声、ハードウェアの性能及び目標とする音声認識処理速度等に応じて適宜に予め定められた数である。例えば、ｑ_ｌは０．２から０．３、ｑ_ｈは０．７から０．８、Ｋ_ｍｉｎは３から４、Ｋ_ｍａｘは１０から１２に設定される。

すなわち、図３に例示するように、尤度計算率ｑ_ｊがｑ_ｌより下であればＫ_Ｂ（ｊ）＝Ｋ_ｍｉｎとし、尤度計算率ｑ_ｊがｑ_ｌ以上ｑ_ｈより下であればＫ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎｑ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））とし、尤度計算率ｑ_ｊがｑ_ｈ以上であればＫ_Ｂ＝Ｋ_ｍａｘとする。

このようにして、尤度計算率ｑ_ｊが高いほど、大きな整数を出力する関数Ｋ_Ｂ（ｊ）を定めて、この関数に従い、状態ごとに個別のフレーム数Ｋを決定する。

＜ステップＳ４＞
状態尤度計算部３１は、状態パラメータ記憶部７０から読み込んだ状態ｊのパラメータと、特徴量ベクトル記憶部２０から読み込んだフレームｔの特徴量ベクトルＸ_ｔとを用いて、状態ｊのフレームｔについての状態尤度ｂ_ｊ（Ｘ_ｔ）を計算する。また、これと共に、状態パラメータ記憶部７０から読み込んだ状態ｊのパラメータと、特徴量ベクトル記憶部２０から読み込んだフレームｔ＋１，…，ｔ＋Ｋの特徴量ベクトルＸ_ｔ＋１，…，Ｘ_ｔ＋Ｋとを用いて、状態ｊのフレームｔ＋１，…，ｔ＋Ｋについての状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を更に計算する。

計算された状態尤度ｂ_ｊ（Ｘ_ｔ）は、探索部３０による音響尤度の計算に用いられる。一方、計算された状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）は、状態尤度記憶部８０に格納される。

＜ステップＳ５＞
探索部３０が音響尤度を計算するために状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）の何れかが必要になったときに、状態尤度参照部３２は状態尤度記憶部８０を参照してその状態尤度を求める。
探索部３０は、状態尤度参照部３２が求めた状態尤度を用いて、背景技術と同様に、音響尤度を計算して、音声認識結果を出力する。

［第二実施形態］
第一実施形態は、尤度計算率ｑ_ｊと共に音素ＨＭＭの各状態の自己遷移確率ａ_ｊｊを用いる。／ａ／等の母音の継続長は、／ｐ／等の子音の継続長よりも通常長い。このため、中心音素が母音である音素ＨＭＭの各状態の自己遷移確率は、中心音素が子音である音素ＨＭＭの各状態の自己遷移確率よりも大きくなる。自己遷移確率が高い状態ｊほど、あるフレームｔについての状態尤度ｂ_ｊ（Ｘ_ｔ）の計算が行われた場合に、次のフレームｔ＋１についての状態尤度ｂ_ｊ（Ｘ_ｔ）の計算が行われる可能性が高いと考えることができる。

この性質を利用して、自己遷移確率が高い状態に対しては大きなフレーム数Ｋを与え、逆に自己遷移確率が低い状態に対しては小さいフレーム数Ｋを与える。すなわち、自己遷移確率が高い状態ほど、大きいフレーム数Ｋを与える。
すなわち、第二実施形態においては、自己遷移確率ａ_ｊｊと尤度計算率ｑ_ｊの両方を考慮して、フレーム数Ｋを決定する。

このように、自己遷移確率ａ_ｊｊと尤度計算率ｑ_ｊの両方を考慮して、ついでに状態尤度が計算されるフレーム数Ｋを状態ごとに適宜異ならせることにより、状態尤度の無駄な計算処理の量を更に少なくすることができる。したがって、音響尤度の計算を更に高速化することができ、音声認識処理を更に高速化することができる。

以下、図１，図４を参照して第二実施形態の例を説明するが、第一実施形態と異なる部分についてのみ説明し、第一実施形態と同様な部分については重複説明を省略する。図４は、第二実施形態の音声認識装置の処理の流れを例示するフローチャートである。
第二実施形態の音声認識装置のフレーム数決定部９０は、尤度計算率計算部９２、尤度計算率フレーム数決定部９３に加えて、図１において破線で示す、自己遷移確率フレーム数決定部９１及び統合フレーム数決定部９４を例えば含む。

＜ステップＳ３２’＞
尤度計算率フレーム数決定部９３は、第一実施形態と同様に尤度計算率ｑ_ｊが高いほど大きい整数Ｋ_Ｂ（ｊ）を決定する。Ｋ_Ｂ（ｊ）は、統合フレーム数決定部９４に送られる。第一実施形態とは異なり、Ｋ_Ｂ（ｊ）がＫとしてそのまま状態尤度計算部３１には送られない。すなわち、第二実施形態においては、一律にＫ＝Ｋ_Ｂ（ｊ）とはならず、後述するステップＳ７の処理によりＫは定められる。

＜ステップＳ６＞
フレーム数決定部９０の自己遷移確率フレーム数決定部９１は、音響モデル記憶部４０から読み込まれた状態ｊの自己遷移確率ａ_ｊｊを用いて、その自己遷移確率ａ_ｊｊが高いほど、大きい整数Ｋ_Ａ（ｊ）を決定する。Ｋ_Ａ（ｊ）についての情報は、統合フレーム数決定部９４に送られる。

例えば、ａ_ｌを０以上１以下の数、ａ_ｈをａ_ｌ以上１以下の数、Ｋ_ｍｉｎを０以上の整数、Ｋ_ｍａｘをＫ_ｍｉｎ＋１以上の整数、ｆ（・）を・の小数点以下を切り捨てして整数を出力する関数として、Ｋ_Ａ（ｊ）を以下の式により求めることができる。ａ_ｌ，ａ_ｈ，Ｋ_ｍｉｎ及びＫ_ｍａｘは、目的音声、ハードウェアの性能及び目標とする音声認識処理速度等に応じて適宜に予め定められた数である。例えば、ａ_ｌは０．２から０．３、ａ_ｈは０．７から０．８、Ｋ_ｍｉｎは３から４、Ｋ_ｍａｘは１０から１２に設定される。

すなわち、自己遷移確率ａ_ｊｊがａ_ｌより下であればＫ_Ａ（ｊ）＝Ｋ_ｍｉｎとし、自己遷移確率ａ_ｊｊがａ_ｌ以上ａ_ｈより下であればＫ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））とし、自己遷移確率ａ_ｊｊがａ_ｈ以上であればＫ_Ａ＝Ｋ_ｍａｘとする。

＜ステップＳ７＞
統合フレーム数決定部９４は、Ｋ_Ａ（ｊ）とＫ_Ｂ（ｊ）との両方を考慮して、フレーム数Ｋを決定する。決定されたフレーム数Ｋは、状態尤度計算部３１に送られる。例えば、ｆ（・）を・の小数点以下を切り捨てして整数を出力する関数、重み係数λを０以上１以下の予め定められた数として、下記の、Ｋ_Ａ（ｊ）とＫ_Ｂ（ｊ）の線形補間式に基づいて、Ｋを求めてもよい。
Ｋ＝ｆ（（１−λ）Ｋ_Ａ（ｊ）−λＫ_Ｂ（ｊ））
λは、Ｋ_Ｂ（ｊ）にどの程度信頼をおくかを調整する重み係数である。手に入る開発データの量が多い等の理由によりＫ_Ｂ（ｊ）に信頼がおけると考えられる場合には、重み係数λに１に近い値を与え、逆の場合には、重み係数λには０に近い値を与える。

［変形例等］
上記の例では、ｆ（・）を・の小数点以下を切り捨てして整数を出力する関数としたが、ｆ（・）を、・の小数点以下を切り上げして整数を出力する関数、又は、・の小数点以下を四捨五入して整数を出力する関数としてもよい。

上記式（５）において、ａ_ｊｊ＝ａ_ｌのときに、Ｋ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））としたが、ａ_ｊｊ＝ａ_ｌのときに、Ｋ_Ａ（ｊ）＝Ｋ_ｍｉｎとしてもよい。また、ａ_ｊｊ＝ａ_ｈのときに、Ｋ_Ａ＝Ｋ_ｍａｘとしたが、ａ_ｊｊ＝ａ_ｈのときに、Ｋ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））としてもよい。

同様に、上記式（６）において、ｑ_ｊ＝ｑ_ｌのときに、Ｋ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎｑ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））としたが、ｑ_ｊ＝ｑ_ｌのときに、Ｋ_Ｂ（ｊ）＝Ｋ_ｍｉｎとしてもよい。また、ｑ_ｊ＝ｑ_ｈのときに、Ｋ_Ｂ＝Ｋ_ｍａｘとしたが、ｑ_ｊ＝ｑ_ｈのときに、Ｋ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎｑ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））としてもよい。

自己遷移確率フレーム数決定部９１におけるＫ_ｍｉｎ，Ｋ_ｍａｘと、尤度計算率フレーム数決定部９３におけるＫ_ｍｉｎ，Ｋ_ｍａｘとは同じでも、異なっていてもよい。
上述の構成をコンピュータによって実現する場合、音声認識装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムを図５に例示するコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。

すなわち、ＣＰＵ１がプログラムを逐次読み込んで実行することにより、音響分析部１０、特徴量ベクトル記憶部２０、探索部３０、状態尤度計算部３１、状態尤度参照部３２、フェッチ部６０、フレーム数決定部９０、自己遷移確率フレーム数決定部９１、尤度計算率計算部９２、尤度計算率フレーム数決定部９３及び統合フレーム数決定部９４の機能がそれぞれ実現される。この場合、音声認識装置の各部として機能するＣＰＵ１は、メモリ２、ハードディスク等の補助記憶装置３から読み込み込んだデータに対して処理を行い、処理を行った後のデータを、メモリ２、補助記憶装置３に格納する。

図５に示した例だと、補助記憶装置３が、音響モデル記憶部４０、文法記憶部５０及び状態尤度記憶部８０に対応する。また、キャッシュ１ａが、状態パラメータ記憶部７０に対応する。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ
−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。例えば、図２において、ステップＳ２の処理とステップＳ３１，３２の処理とを並列に行ってもよい。また、図４において、ステップＳ２の処理とステップＳ３１，３２’の処理とを並列に行ってもよい。さらに、図４において、ステップＳ３１，３２’の処理とステップＳ６の処理とを並列に行ってもよい。

その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

この発明の音声認識装置の例の機能ブロック図。この発明の第一実施形態の音声認識装置の処理の流れを例示するフローチャート。フレーム数Ｋの決定の仕方の例を説明するための図。この発明の第二実施形態の音声認識装置の処理の流れを例示するフローチャート。この発明の音声認識装置をコンピュータで実現させる場合の機能ブロック図の例。この発明の状態尤度テーブルの例。従来技術の音声認識装置の例の機能ブロック図。状態Ｓの例を説明するための図。音素ＨＭＭの例を説明するための図。従来技術の状態尤度テーブルの例。

符号の説明

１０音響分析部
２０特徴量ベクトル記憶部
３０探索部
３１状態尤度計算部
３２状態尤度参照部
４０音響モデル記憶部
５０文法記憶部
６０フェッチ部
７０状態パラメータ記憶部
８０状態尤度記憶部
９０フレーム数決定部
９１自己遷移確率フレーム数決定部
９２尤度計算率計算部
９３尤度計算率フレーム数決定部
９４統合フレーム数決定部

Claims

状態パラメータ、自己遷移確率を含む音響モデルを記憶する音響モデル記憶部と、
上記音響モデル記憶部よりも高速な状態パラメータ記憶部と、
入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を求める音響分析部と、
上記求まった特徴量ベクトルの時系列を記憶する特徴量ベクトル記憶部と、
ｊ，ｔをそれぞれ任意の整数、ある状態ｊがフレームｔの特徴量ベクトルＸ_ｔを出力する確率を状態尤度ｂ_ｊ（Ｘ_ｔ）として、状態尤度ｂ_ｊ（Ｘ_ｔ）が計算される前に、状態ｊの状態パラメータを上記音響モデル記憶部から上記状態パラメータ記憶部に読み込むフェッチ部と、
処理の対象となる目的音声と近い音響的な性質を有する音声に対して行った音声認識処理において、全フレームにおける状態尤度の計算が行われたフレームの割合（以下、尤度計算率ｑ_ｊとする。）を状態ごとに求める尤度計算率計算部と、
上記求まった尤度計算率ｑ_ｊが高い状態ほど、大きい整数Ｋ_Ｂ（ｊ）をフレーム数Ｋとして決定する尤度計算率フレーム数決定部と、
上記状態パラメータ記憶部から読み込んだ状態ｊの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルＸ_ｔとを用いて状態尤度ｂ_ｊ（Ｘ_ｔ）を計算すると共に、上記状態パラメータ記憶部から読み込んだ状態ｊの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルＸ_ｔ＋１，…，Ｘ_ｔ＋Ｋとを用いて、状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を更に計算する状態尤度計算部と、
上記更に計算された状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を格納する状態尤度記憶部と、
状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）の何れかが必要になったときに、上記状態尤度記憶部を参照して、その状態尤度を求める状態尤度参照部と、
を有する音声認識装置。
請求項１に記載の音声認識装置において、
ｑ_ｌを予め定められた０以上１以下の数、ｑ_ｈを予め定められたｑ_ｌ以上１以下の数、Ｋ_ｍｉｎを予め定められた０以上の整数、Ｋ_ｍａｘをＫ_ｍｉｎ＋１以上の予め定められた整数として、
上記尤度計算率フレーム数決定部は、
尤度計算率ｑ_ｊがｑ_ｌより下であればＫ_Ｂ（ｊ）＝Ｋ_ｍｉｎとし、
尤度計算率ｑ_ｊがｑ_ｌより上ｑ_ｈより下であればＫ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））とし、
尤度計算率ｑ_ｊがｑ_ｈより上であればＫ_Ｂ＝Ｋ_ｍａｘとし、
尤度計算率ｑ_ｊ＝ｑ_ｌであればＫ_Ｂ（ｊ）＝Ｋ_ｍｉｎ又はＫ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎｑ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））とし、
自己遷移確率ｑ_ｊ＝ｑ_ｈであればＫ_Ｂ（ｊ）＝Ｋ_ｍａｘ又はＫ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎｑ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））
とする部である、
ことを特徴とする音声認識装置。
請求項１又は２に記載の音声認識装置において、
上記音響モデル記憶部から読み込んだ上記状態ｊの自己遷移確率ａ_ｊｊが高いほど、大きい整数Ｋ_Ａ（ｊ）を決定する自己遷移確率フレーム数決定部と、
ｆ（・）を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数、重み係数λを０以上１以下の予め定められた数として、Ｋ＝ｆ（（１−λ）Ｋ_Ａ（ｊ）−λＫ_Ｂ（ｊ））とする統合フレーム数決定部と、
を更に備える音声認識装置。
請求項３に記載の音声認識装置において、
ａ_ｌを予め定められた０以上１以下の数、ａ_ｈを予め定められたａ_ｌ以上１以下の数、Ｋ_ｍｉｎを予め定められた０以上の整数、Ｋ_ｍａｘをＫ_ｍｉｎ＋１以上の予め定められた整数、ｆ（・）を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数として、
上記自己遷移確率フレーム数決定部は、
自己遷移確率ａ_ｊｊがａ_ｌより下であれば、Ｋ_Ａ（ｊ）＝Ｋ_ｍｉｎとし、
自己遷移確率ａ_ｊｊがａ_ｌより上ａ_ｈより下であれば、Ｋ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））とし、
自己遷移確率ａ_ｊｊがａ_ｈより上であれば、Ｋ_Ａ＝Ｋ_ｍａｘとし、
自己遷移確率ａ_ｊｊ＝ａ_ｌであれば、Ｋ_Ａ（ｊ）＝Ｋ_ｍｉｎ又はＫ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））とし、
自己遷移確率ａ_ｊｊ＝ａ_ｈであれば、Ｋ_Ａ（ｊ）＝Ｋ_ｍａｘ又はＫ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））
とする部である、
ことを特徴とする音声認識装置。
音響モデル記憶部を、状態パラメータ、自己遷移確率を含む音響モデルを記憶する記憶部とし、
状態パラメータ記憶部を、上記音響モデル記憶部よりも高速な記憶部とし、
音響分析部が、入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を特徴量ベクトル記憶部に格納する音響分析ステップと、
フェッチ部が、ｊ，ｔをそれぞれ任意の整数、ある状態ｊがフレームｔの特徴量ベクトルＸ_ｔを出力する確率を状態尤度ｂ_ｊ（Ｘ_ｔ）として、状態尤度ｂ_ｊ（Ｘ_ｔ）が計算される前に、状態ｊの状態パラメータを上記音響モデル記憶部から上記状態パラメータ記憶部に読み込むフェッチステップと、
尤度計算率計算部が、処理の対象となる目的音声と近い音響的な性質を有する音声に対して行った音声認識処理において、全フレームにおける状態尤度の計算が行われたフレームの割合（以下、尤度計算率ｑ_ｊとする。）を状態ごとに求める尤度計算率計算ステップと、
尤度計算率フレーム数決定部が、上記求まった尤度計算率ｑ_ｊが高い状態ほど、大きい整数Ｋ_Ｂ（ｊ）をフレーム数Ｋとして決定する尤度計算率フレーム数決定ステップと、
状態尤度計算部が、上記状態パラメータ記憶部から読み込んだ状態ｊの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルＸ_ｔとを用いて状態尤度ｂ_ｊ（Ｘ_ｔ）を計算すると共に、上記状態パラメータ記憶部から読み込んだ状態ｊの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルＸ_ｔ＋１，…，Ｘ_ｔ＋Ｋとを用いて、状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を更に計算して、それらの更に計算された状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）を状態尤度記憶部に格納する状態尤度計算ステップと、
状態尤度参照部が、状態尤度ｂ_ｊ（Ｘ_ｔ＋１），…，ｂ_ｊ（Ｘ_ｔ＋Ｋ）の何れかが必要になったときに、上記状態尤度記憶部を参照して、その状態尤度を求める状態尤度参照ステップと、
を有する音声認識方法。
請求項５に記載の音声認識方法において、
ｑ_ｌを予め定められた０以上１以下の数、ｑ_ｈを予め定められたｑ_ｌ以上１以下の数、Ｋ_ｍｉｎを予め定められた０以上の整数、Ｋ_ｍａｘをＫ_ｍｉｎ＋１以上の予め定められた整数として、
上記尤度計算率フレーム数決定ステップは、
尤度計算率ｑ_ｊがｑ_ｌより下であればＫ_Ｂ（ｊ）＝Ｋ_ｍｉｎとし、
尤度計算率ｑ_ｊがｑ_ｌより上ｑ_ｈより下であればＫ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））とし、
尤度計算率ｑ_ｊがｑ_ｈより上であればＫ_Ｂ＝Ｋ_ｍａｘとし、
尤度計算率ｑ_ｊ＝ｑ_ｌであればＫ_Ｂ（ｊ）＝Ｋ_ｍｉｎ又はＫ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎｑ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））とし、
自己遷移確率ｑ_ｊ＝ｑ_ｈであればＫ_Ｂ（ｊ）＝Ｋ_ｍａｘ又はＫ_Ｂ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ｑ_ｊ／（ｑ_ｈ−ｑ_ｌ））＋（（Ｋ_ｍｉｎｑ_ｈ−Ｋ_ｍａｘｑ_ｌ）／（ｑ_ｈ−ｑ_ｌ）））
とするステップである、
ことを特徴とする音声認識方法。
請求項５又は６に記載の音声認識方法において、
自己遷移確率フレーム数決定部が、上記音響モデル記憶部から読み込んだ上記状態ｊの自己遷移確率ａ_ｊｊが高いほど、大きい整数Ｋ_Ａ（ｊ）を決定する自己遷移確率フレーム数決定ステップ、
を更に有することを特徴とする音声認識方法
請求項７に記載の音声認識方法において、
ａ_ｌを予め定められた０以上１以下の数、ａ_ｈを予め定められたａ_ｌ以上１以下の数、Ｋ_ｍｉｎを予め定められた０以上の整数、Ｋ_ｍａｘをＫ_ｍｉｎ＋１以上の予め定められた整数、ｆ（・）を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数として、
上記自己遷移確率フレーム数決定ステップは、
自己遷移確率ａ_ｊｊがａ_ｌより下であれば、Ｋ_Ａ（ｊ）＝Ｋ_ｍｉｎとし、
自己遷移確率ａ_ｊｊがａ_ｌより上ａ_ｈより下であれば、Ｋ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））とし、
自己遷移確率ａ_ｊｊがａ_ｈより上であれば、Ｋ_Ａ＝Ｋ_ｍａｘとし、
自己遷移確率ａ_ｊｊ＝ａ_ｌであれば、Ｋ_Ａ（ｊ）＝Ｋ_ｍｉｎ又はＫ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））とし、
自己遷移確率ａ_ｊｊ＝ａ_ｈであれば、Ｋ_Ａ（ｊ）＝Ｋ_ｍａｘ又はＫ_Ａ（ｊ）＝ｆ（（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）ａ_ｊｊ／（ａ_ｈ−ａ_ｌ））＋（（Ｋ_ｍｉｎａ_ｈ−Ｋ_ｍａｘａ_ｌ）／（ａ_ｈ−ａ_ｌ）））
とするステップである、
ことを特徴とする音声認識方法。
請求項１から４の何れかに記載の音声認識装置の各部としてコンピュータを機能させるための音声認識プログラム。
請求項９に記載の音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。