JP2007233308A

JP2007233308A - 音声認識装置

Info

Publication number: JP2007233308A
Application number: JP2006058374A
Authority: JP
Inventors: Yoshiharu Abe; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-03-03
Filing date: 2006-03-03
Publication date: 2007-09-13

Abstract

【課題】雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができるようにする。
【解決手段】状態ｊにおける特徴ベクトルｘ_tに対するＮ個の整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出して、Ｎ個の整合モデの中から尤度が最大の整合モデルを探索するモデル探索部１１と、モデル探索部１１により探索された整合モデルを用いて、状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）を算出する尤度算出部１２とを設け、その特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する。
【選択図】図１

Description

この発明は、雑音環境下で、入力音声の認識処理を実施する音声認識装置に関するものである。

雑音下の音声認識方式を大別すると、音響モデルとして、雑音がないクリーン音声を表現するクリーン音声モデルを用いる方式と、雑音が重畳されている雑音重畳音声を表現する雑音重畳音声モデルを用いる方式がある。
クリーン音声モデルを用いる方式は、音声認識時の入力音声に重畳されている雑音成分を推定して、その雑音成分を除去するものである。
一方、雑音重畳音声モデルを用いる方式は、雑音が重畳されている入力音声に適合するように、音響モデルを認識時に学習又は適応によって用意するものである。

雑音重畳音声モデルを用いる方式を採用している従来の音声認識装置は、予め複数種類の雑音データを用いてガウス混合分布モデル（以下、雑音ＧＭＭという）を学習し、この雑音ＧＭＭとクリーン音声の隠れマルコフモデル（以下、ＨＭＭという）から、複数のＳＮ比に対応する雑音重畳音声ＨＭＭを合成し、複数の雑音重畳音声ＨＭＭをマルチパス形式で並置して音声認識を行うようにしている（例えば、特許文献１参照）。
また、上記のような音声認識装置の他に、予め分類された雑音データを用いて雑音毎に学習された雑音ＨＭＭとクリーン音声ＨＭＭから雑音毎の雑音重畳音声ＨＭＭを合成し、入力音声のフレーム毎に、雑音毎の雑音重畳音声ＨＭＭから最適な雑音重畳音声ＨＭＭを選択する音声認識装置が開発されている（例えば、特許文献２参照）。

また、ＳＮ比と音質に応じて雑音重畳音声モデル空間を木構造的に作成して、その木構造を上から下まで辿ることにより最適な雑音重畳音声モデル空間を選択し、最適な雑音重畳音声モデル空間において、更に尤度が最大化するように線形変換している音声認識装置が開発されている（例えば、特許文献３参照）。
さらに、複数の雑音と複数のＳＮ比の雑音重畳音声モデルをＨＭＭの状態毎に混合分布として結合することにより、ＨＭＭを合成しているマルチミクスチャーモデルを使用する音声認識装置が開発されている（例えば、非特許文献１参照）。

特開２００３−１７７７８１号公報特開２００３−２８０６８６号公報特開２００５−９１４７６号公報日本音響学会講演論文集２００５年３月３−５−４「複数の雑音重畳モデルを合成した複数の雑音及びＳＮ比に頑健な音響モデルの検討」

従来の音声認識装置は以上のように構成されているので、雑音ＧＭＭとクリーン音声ＨＭＭから雑音重畳音声ＨＭＭを合成する場合、または、雑音ＨＭＭとクリーン音声ＨＭＭから雑音重畳音声ＨＭＭを合成する場合、合成後の雑音重畳音声ＨＭＭが雑音ＨＭＭ又は雑音ＧＭＭにより学習された平均パラメータに基づいて作成されるため、真の雑音重畳音声モデルの近似的なモデルになる。このため、雑音重畳音声を用いて直接学習された雑音重畳音声に適合する整合モデルと比べると、音声の認識性能が低くなるなどの課題があった。
また、雑音重畳音声モデル空間の木構造を上から下まで辿ることにより、最適な雑音重畳音声モデル空間を選択する場合、発話全体で尤度計算を実施しながら木構造中の位置を探索する際、膨大な量の尤度計算が必要になり、また、発話内の雑音種類の変化に対応することができないなどの課題があった
マルチミクスチャーモデルを使用する場合、複数の雑音と複数のＳＮ比の雑音重畳音声モデルを混合分布モデルとしてマージするため、特定の雑音重畳音声を用いて直接学習された整合モデルと比べると、カバーする特徴空間の範囲が広がるため、出現頻度が小さい雑音重畳音声に対する認識性能が低くなるなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、特徴ベクトル抽出手段により抽出された特徴ベクトルに対する複数の整合モデルの尤度を算出して、複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、その整合モデル探索手段により探索された整合モデルを用いて、特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段とを設け、その尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識するようにしたものである。

この発明によれば、特徴ベクトル抽出手段により抽出された特徴ベクトルに対する複数の整合モデルの尤度を算出して、複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、その整合モデル探索手段により探索された整合モデルを用いて、特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段とを設け、その尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識するように構成したので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声認識装置を示す構成図であり、図において、整合モデル記憶部１は各種の雑音重畳音声にそれぞれ適合するＮ個の隠れマルコフモデルを整合モデル１−１〜１−Ｎとして記憶しているメモリである。整合モデル記憶部１は整合モデル記憶手段を構成している。
特徴ベクトル抽出部２は入力音声をフレーム単位に分析して、各フレームから特徴ベクトルｘ_t（Ｃ₀を含む０次から１２次のメルケプストラム係数と、０次から１２次のメルケプストラム係数のΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む３９次元の特徴ベクトル）を抽出する処理を実施する。なお、特徴ベクトル抽出部２は特徴ベクトル抽出手段を構成している。

マッチング処理部３は特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの系列とＮ個の整合モデル１−１〜１−Ｎとの照合処理を実施して、入力音声に対応する語彙を認識する処理を実施する。
マッチング処理部３のモデル探索部１１は特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tに対するＮ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出して、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索する処理を実施する。なお、モデル探索部１１は整合モデル探索手段を構成している。

マッチング処理部３の尤度算出部１２はモデル探索部１１により探索された整合モデルを用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度（マルコフ過程の状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ））を算出する処理を実施する。なお、尤度算出部１２は尤度算出手段を構成している。
マッチング処理部３の語彙認識部１３は尤度算出部１２により算出された状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する処理を実施する。なお、語彙認識部１３は語彙認識手段を構成している。

図２はこの発明の実施の形態１による音声認識装置の整合モデル生成処理部を示す構成図であり、図において、雑音データメモリ３１は入力音声に重畳されることが予想される雑音環境下の雑音データを記憶しているメモリである。
雑音分類部３２は雑音データメモリ３１に記憶されている雑音環境下の雑音データを雑音の種類別に分類する処理を実施する。
例えば、雑音データメモリ３１に記憶されている雑音環境下の雑音データが車両のエンジン音であれば、その雑音データを雑音データベース３３の雑音データメモリ３３−１に分類し、その雑音データが車両のエアコン音であれば、その雑音データを雑音データベース３３の雑音データメモリ３３−２に分類し、その雑音データが車両のウインカー音であれば、その雑音データを雑音データベース３３の雑音データメモリ３３−Ｎに分類する。
なお、雑音データの分類処理は、雑音分類部３２が公知の分類アルゴリズムを使用して自動的に実施してもよいが、雑音分類部３２がユーザの分類指示を受け付けて手動で分類するようにしてもよい。

雑音データベース３３は雑音分類部３２により分類された雑音環境下の雑音データを記憶するＮ個の雑音データメモリ３３−１〜３３−Ｎから構成されている。
クリーン音声データメモリ３４は隠れマルコフモデルの学習用データとして、雑音がないクリーンな音声データを記憶しているメモリである。
雑音重畳部３５は雑音データベース３３の雑音データメモリ３３−１〜３３−Ｎに記憶されている雑音環境下の雑音データをクリーン音声データメモリ３４に記憶されているクリーン音声データにそれぞれ重畳して（音声認識時に想定されるＳＮ比（例えば、１５ｄＢ）、あるいは、想定される範囲の複数のＳＮ比（例えば、５，１０，１５，２０ｄＢの４通り）で、雑音環境下の雑音データをクリーン音声データに重畳する）、Ｎ個の雑音重畳音声データを生成する処理を実施する。なお、雑音重畳部３５は雑音重畳音声生成手段を構成している。

雑音重畳音声データベース３６は雑音重畳部３５により生成された雑音重畳音声データを記憶するＮ個の雑音重畳音声メモリ３６−１〜３６−Ｎから構成されている。
ＨＭＭ学習部３７は雑音重畳音声データベース３６の雑音重畳音声メモリ３６−１〜３６−Ｎに記憶されている雑音重畳音声データに適合する隠れマルコフモデルを学習してＮ個の整合モデル１−１〜１−Ｎを形成し、Ｎ個の整合モデル１−１〜１−Ｎを整合モデル記憶部１に格納する処理を実施する。なお、ＨＭＭ学習部３７は整合モデル形成手段を構成している。
図３はこの発明の実施の形態１による音声認識装置の処理内容を示すフローチャートである。

次に動作について説明する。
音声認識装置は、音声認識処理を実施するに先立ってＮ個の整合モデル１−１〜１−Ｎの形成処理を実施する。
即ち、音声認識装置の雑音分類部３２は、雑音データメモリ３１から入力音声に重畳されることが予想される雑音環境下の雑音データを収集し、その雑音環境下の雑音データを雑音の種類別に分類する。
例えば、雑音データメモリ３１に記憶されている雑音環境下の雑音データが車両のエンジン音であれば、その雑音データを雑音データベース３３の雑音データメモリ３３−１に分類し、その雑音データが車両のエアコン音であれば、その雑音データを雑音データベース３３の雑音データメモリ３３−２に分類し、その雑音データが車両のウインカー音であれば、その雑音データを雑音データベース３３の雑音データメモリ３３−Ｎに分類する。
なお、雑音データの分類処理は、雑音分類部３２が公知の分類アルゴリズムを使用して自動的に実施してもよいが、雑音分類部３２がユーザの分類指示を受け付けて手動で分類するようにしてもよい。

雑音重畳部３５は、雑音分類部３２が雑音環境下の雑音データを雑音の種類別に分類すると、雑音データベース３３の雑音データメモリ３３−１〜３３−Ｎに記憶されている雑音環境下の雑音データをクリーン音声データメモリ３４に記憶されているクリーン音声データにそれぞれ重畳して、Ｎ個の雑音重畳音声データを生成する。
即ち、雑音重畳部３５は、音声認識時に想定されるＳＮ比（例えば、１５ｄＢ）、あるいは、想定される範囲の複数のＳＮ比（例えば、５，１０，１５，２０ｄＢの４通り）で、雑音環境下の雑音データをクリーン音声データに重畳することにより、Ｎ個の雑音重畳音声データを生成し、Ｎ個の雑音重畳音声データを雑音重畳音声データベース３６の雑音重畳音声メモリ３６−１〜３６−Ｎにそれぞれ格納する。

ＨＭＭ学習部３７は、雑音重畳部３５がＮ個の雑音重畳音声データを生成すると、雑音重畳音声データベース３６の雑音重畳音声メモリ３６−１〜３６−Ｎに記憶されているＮ個の雑音重畳音声データに適合する隠れマルコフモデルを学習してＮ個の整合モデル１−１〜１−Ｎを形成する。
そして、ＨＭＭ学習部３７は、Ｎ個の整合モデル１−１〜１−Ｎを整合モデル記憶部１に格納する。

次に、音声認識装置の音声認識処理を説明する。
この実施の形態１では、Ｔ個のフレームからなる入力音声の認識処理を実施するものとする。
即ち、この実施の形態１では、入力音声のフレームを単位とする時刻をｔ＝１，２，・・・，Ｔとする。この場合、入力音声の発話開始フレームは時刻１、発話終了フレームは時刻Ｔになる。

マッチング処理部３の語彙認識部１３は、音声認識処理の前処理として、マルコフ過程の各状態ｊの前向き確率α（ｊ，ｔ）を下記のように初期化する（ステップＳＴ１）。

ただし、“Ｉｎｉｔｉａｌｓ”はＨＭＭの初期状態の集合である。

特徴ベクトル抽出部２は、雑音環境下で入力音声を取り込むと、その入力音声をフレーム単位に分析して、各フレームから特徴ベクトルｘ_tを抽出する（ステップＳＴ２）。
即ち、特徴ベクトル抽出部２は、入力音声の各フレームからＣ₀を含む０次から１２次のメルケプストラム係数と、０次から１２次のメルケプストラム係数のΔメルケプストラム係数及びΔΔメルケプストラム係数とを含む３９次元の特徴ベクトルを抽出する。

マッチング処理部３のモデル探索部１１は、特徴ベクトル抽出部２が特徴ベクトルｘ_tを抽出すると、整合モデル記憶部１からＮ個の整合モデル１−１〜１−Ｎを取得し、その特徴ベクトルｘ_tに対するＮ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出する（ステップＳＴ３）。
即ち、モデル探索部１１は、特徴ベクトル抽出部２が特徴ベクトルｘ_tを抽出すると、整合モデル記憶部１に記憶されているＮ個の整合モデル１−１〜１−Ｎの中から任意の整合モデル（以下、雑音ｎの整合モデルと称する）を一つ選択する。
そして、モデル探索部１１は、下記の式（２）に示すような、特徴ベクトルｘ_tに対するガウス混合密度関数の演算を実施することにより、雑音ｎの整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出する。

ここで、Ｐ（ｊ，ｍ）は雑音ｎの整合モデルの状態ｊにおける混合分布のｍ番目の分布の重みである。
μ_j,m,nは雑音ｎの整合モデルの状態ｊにおける混合分布のｍ番目の正規分布の平均であり、Σ_j,m,nは雑音ｎの整合モデルの状態ｊにおける混合分布のｍ番目の正規分布の分散である。
Ｎ（ｘ_t，μ_j,m,n，Σ_j,m,n）は平均μ_j,m,n、分散Σ_j,m,nの対角正規分布の密度関数である。

モデル探索部１１は、上記の演算を繰り返し実施して、状態ｊ毎に、Ｎ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出し、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索する。
モデル探索部１１は、尤度が最大の整合モデルを探索すると、下記の式（３）に示すように、尤度が最大の整合モデルに対応する雑音ｎ_maxを特定する（ステップＳＴ３）。

ここで、Ｎは整合モデルの個数である。

マッチング処理部３の尤度算出部１２は、モデル探索部１１が尤度が最大の整合モデルを探索すると、その整合モデルを用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度、即ち、状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ））を算出する（ステップＳＴ４）。
具体的には、下記の式（４）に示すように、雑音ｎ_maxの整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ_max）を状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）とみなすようにする。

マッチング処理部３の語彙認識部１３は、尤度算出部１２が状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）を算出すると、状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）を下記の漸化式に代入することにより、状態ｊの前向き確率α（ｊ，ｔ）を更新する（ステップＳＴ５）。
下記の漸化式は、ビタビアルゴリズムの漸化式であるが、ビタビアルゴリズムの漸化式に限るものではなく、例えば、最大値演算を総和演算で置き換えたトレリスアルゴリズムの漸化式を用いてもよい。

ここで、δ（ｉ，ｊ）は状態ｉから状態ｊの遷移が可能であることを示し、Ω（ｔ−１）は時刻ｔ−１で残った状態の集合を示している（後述するステップＳＴ８の枝刈処理で、前向き確率α（ｊ，ｔ−１）が閾値より小さい状態が破棄され、Ω（ｔ−１）は破棄されずに残った状態の集合を示している）。
また、ａ_i,jは状態ｉから状態ｊへの遷移確率である。

マッチング処理部３の処理は、状態ｊ毎に実施され、全ての状態で前向き確率を更新すると、ステップＳＴ８の処理に移行する（ステップＳＴ６，ＳＴ７）。
マッチング処理部３の語彙認識部１３は、次フレームの漸化式の計算量を減らすため、状態の枝刈処理を実施する（ステップＳＴ８）。
即ち、語彙認識部１３は、ステップＳＴ５の処理を繰り返し実施することにより、例えば、Ｍ個の状態の前向き確率αを更新すると、Ｍ個の状態の前向き確率αをそれぞれ所定の閾値と比較し、所定の閾値より前向き確率αが小さい状態を破棄する。
例えば、所定の閾値より前向き確率αが小さい状態が５個であれば、枝刈処理により破棄される状態の個数は５個であり、残る状態の個数はＭ−５個である。

マッチング処理部３の処理は、入力音声のフレームｔ毎に実施され、全てのフレームで前向き確率αを更新すると、ステップＳＴ１１の処理に移行する（ステップＳＴ９，ＳＴ１０）。
マッチング処理部３の語彙認識部１３は、全てのフレームで前向き確率αを更新すると、発話終了フレームにおいて、前向き確率α（ｊ，Ｔ）が最大の状態ｊを特定する。
そして、語彙認識部１３は、発話終了フレームにおいて、前向き確率α（ｊ，Ｔ）が最大の状態ｊを出発点にして、発話終了フレームから発話開始フレームまで後戻りしながら、各フレームの最適の状態（各フレームにおいて、前向き確率α（ｊ，ｔ）が最大の状態ｊ）を特定する。
語彙認識部１３は、各フレームの最適の状態を特定すると、それらの状態を繋ぎ合せて最適状態系列を復元し、その最適状態系列に対応する語彙（単語、または、単語列の候補）を認識結果として出力する（ステップＳＴ１１）。

以上で明らかなように、この実施の形態１によれば、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tに対するＮ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出して、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索するモデル探索部１１と、そのモデル探索部１１により探索された整合モデルを用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）を算出する尤度算出部１２とを設け、その尤度算出部１２により算出された特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識するように構成したので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる効果を奏する。

また、この実施の形態１によれば、雑音重畳部３５がＮ個の雑音環境下の雑音データをクリーン音声データにそれぞれ重畳してＮ個の雑音重畳音声データを生成し、ＨＭＭ学習部３７がＮ個の雑音重畳音声データに適合する隠れマルコフモデルを学習してＮ個の整合モデル１−１〜１−Ｎを形成するように構成したので、雑音重畳音声を用いて直接学習された整合モデルに近い性能の整合モデル１−１〜１−Ｎを形成することができる効果を奏する。

実施の形態２．
図４はこの発明の実施の形態２による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部３のモデル探索部１４は特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tに対するＮ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出し、状態ｉから状態ｊに至る前向き確率α（ｔ−１，ｉ）と遷移確率ａ_i,jの積確率からなる重みを用いて、Ｎ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）の重み付け平均（加重平均）を求め、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出部１５に出力する処理を実施する。なお、モデル探索部１４は整合モデル探索手段を構成している。

マッチング処理部３の尤度算出部１５はモデル探索部１４から出力された整合モデルの尤度ｐ（ｘ_t｜ｎ_max）を用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度を算出する処理を実施する。即ち、モデル探索部１４から出力された整合モデルの尤度ｐ（ｘ_t｜ｎ_max）を、全ての状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）とみなす処理を実施する。なお、尤度算出部１５は尤度算出手段を構成している。
マッチング処理部３の語彙認識部１６は尤度算出部１５により算出された特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ）からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する処理を実施する。なお、語彙認識部１６は語彙認識手段を構成している。
図５はこの発明の実施の形態２による音声認識装置の処理内容を示すフローチャートである。

次に動作について説明する。
上記実施の形態１では、入力音声のフレーム単位で、状態毎に尤度が最大の整合モデルを探索するものについて示したが、フレーム単位で共通の雑音の整合モデルを探索するようにしてもよい。
具体的には、以下の通りである。

マッチング処理部３のモデル探索部１４は、特徴ベクトル抽出部２が特徴ベクトルｘ_tを抽出すると、図１のモデル探索部１１と同様に、その特徴ベクトルｘ_tに対するＮ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出する（ステップＳＴ２１）。
ただし、モデル探索部１４は、フレームの時刻ｔにおいて、時刻ｔ−１の前フレームの枝刈処理で残った状態集合Ω（ｔ−１）に含まれている状態ｉから遷移可能な状態ｊのすべてについて、雑音ｎの整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出する。

モデル探索部１４は、雑音ｎの整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出すると、下記の式（６）に示すように、状態ｉから状態ｊに至る前向き確率α（ｔ−１，ｉ）と遷移確率ａ_i,jの積確率からなる重みを用いて、雑音ｎの整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ）の重み付け平均を実施して、雑音ｎの整合モデルの尤度の加重平均値ｐ（ｘ_t｜ｎ）を算出する。

モデル探索部１４は、上記のようにして、雑音ｎの整合モデルの尤度の加重平均値ｐ（ｘ_t｜ｎ）を算出すると、下記の式（７）に示すように、加重平均した尤度を有する整合モデルに対応する雑音ｎ_maxを特定する（ステップＳＴ２１）。

即ち、モデル探索部１４は、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルとみなして、雑音ｎの整合モデルの尤度の加重平均値ｐ（ｘ_t｜ｎ）をｐ（ｘ_t｜ｎ_max）として尤度算出部１５に出力する。

マッチング処理部３の尤度算出部１５は、モデル探索部１４から雑音ｎの整合モデルの尤度の加重平均値ｐ（ｘ_t｜ｎ_max）を受けると、その尤度の加重平均値ｐ（ｘ_t｜ｎ_max）を用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度を算出する処理を実施する（ステップＳＴ２２）。
即ち、尤度算出部１５は、モデル探索部１４から出力された尤度の加重平均値ｐ（ｘ_t｜ｎ_max）を、全ての状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ，ｎ_max）とみなして、その特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ，ｎ_max）を語彙認識部１６に出力する。

マッチング処理部３の語彙認識部１６は、モデル探索部１４により特定された雑音ｎ_maxは当該フレームｔの状態ｊと独立している雑音ｎとみなし、その雑音ｎ_maxに対応する整合モデルの尤度、即ち、尤度算出部１５から出力された全ての状態ｊにおける特徴ベクトルｘ_tの尤度ｐ（ｘ_t｜ｊ，ｎ_max）を下記の漸化式に代入することにより、状態ｊの前向き確率α（ｊ，ｔ）を更新する（ステップＳＴ２３）。

マッチング処理部３の処理は、状態ｊ毎に実施され、全ての状態で前向き確率αを更新すると、ステップＳＴ８の処理に移行する（ステップＳＴ６，ＳＴ７）。
ただし、この実施の形態２では、次の状態の前向き確率αを更新する場合、ステップＳＴ２２の処理に移行する。

以上で明らかなように、この実施の形態２によれば、遷移可能な全状態の前向き確率α（ｔ−１，ｉ）を用いて、Ｎ個の整合モデル１−１〜１−Ｎの尤度ｐ（ｘ_t｜ｊ，ｎ）を加重平均し、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出部１５に出力するように構成したので、上記実施の形態１のように、状態毎に整合モデルを探索する場合より、整合モデルの推定が頑健になる効果を奏する。

実施の形態３．
図６はこの発明の実施の形態３による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部３の初期雑音探索部１７は発話の所定区間のフレームにおいて、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルに対応する雑音を初期雑音ｎ₀として探索する処理を実施する。
マッチング処理部３の最良優先モデル探索部１８はフレーム単位の処理において、最初に初期雑音ｎ₀に対応する整合モデルの尤度を算出し、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索する処理を実施する。
なお、初期雑音探索部１７及び最良優先モデル探索部１８から整合モデル探索手段が構成されている。
図７はこの発明の実施の形態３による音声認識装置の処理内容を示すフローチャートである。

上記実施の形態１，２では、フレーム単位で、全ての整合モデルにおいて、全ての混合分布の尤度を計算し、全ての混合分布の尤度を比較することにより、尤度が最大の整合モデルを探索するものについて示したが、最初に初期雑音ｎ₀に対応する整合モデルの尤度を算出し、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索するようにしてもよい。
具体的には、以下の通りである。

マッチング処理部３の初期雑音探索部１７は、発話の所定区間のフレームにおいて、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルに対応する雑音を初期雑音ｎ₀として探索する（ステップＳＴ３１）。
即ち、初期雑音探索部１７は、特徴ベクトル抽出部２が入力音声の発話開始フレームから所定のフレーム数Ｌ（例えば、Ｌ＝１０）の区間の特徴ベクトルｘ₁，ｘ₂，・・・，ｘ_Lを抽出すると、例えば、上記の式（２）を使用して、その特徴ベクトルｘ₁，ｘ₂，・・・，ｘ_Lに対する状態ｊにおける雑音ｎの整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出する。

初期雑音探索部１７は、雑音ｎの整合モデルの尤度ｐ（ｘ_t｜ｊ，ｎ）を算出すると、例えば、上記実施の形態１におけるマッチング処理を実施することにより、前向き確率α（１，ｊ），α（２，ｊ），・・・，α（Ｌ，ｊ）を算出する。
初期雑音探索部１７は、前向き確率α（１，ｊ），α（２，ｊ），・・・，α（Ｌ，ｊ）を算出すると、下記の式（９）に示すように、時刻τ、状態ｊの前向き確率α（τ，ｊ）を重みとして、各時刻τのフレームの特徴ベクトルｘ_τに対する雑音ｎの尤度ｐ（ｘ_τ｜ｎ）を算出する。

初期雑音探索部１７は、各時刻τのフレームの特徴ベクトルｘ_τに対する雑音ｎの尤度ｐ（ｘ_τ｜ｎ）を算出すると、下記の式（１０）に示すように、雑音ｎの整合モデルの所定フレーム区間での尤度ｐ（ｘ₁，ｘ₂，・・・，ｘ_L｜ｎ）を算出する。

初期雑音探索部１７は、雑音ｎの整合モデルの所定フレーム区間での尤度ｐ（ｘ₁，ｘ₂，・・・，ｘ_L｜ｎ）を相互に比較し、下記の式（１１）に示すように、尤度が最大になる雑音ｎを特定し、その雑音ｎを初期雑音ｎ₀に決定する。

マッチング処理部３の最良優先モデル探索部１８は、前フレームの枝刈処理（ステップＳＴ８）で残った状態ｉ∈Ω（ｔ−１）から遷移可能な状態ｊにおけるフレーム時刻ｔの特徴ベクトルｘ_tに対する整合モデルｎ₀の尤度ｐ（ｘ_t｜ｊ，ｎ₀）を算出し、その整合モデルｎ₀の尤度ｐ（ｘ_t｜ｊ，ｎ₀）をヒューリスティックスとする（ステップＳＴ３２）。
次に、最良優先モデル探索部１８は、整合モデルｎ₀の尤度ｐ（ｘ_t｜ｊ，ｎ₀）をヒューリスティックスとする最良優先探索を実施して、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索する（ステップＳＴ３２）。
具体的には、以下の通りである。

ここでは、最良優先探索を混合分布の分布方向（分布数ｍの増加方向）に行うものとする。一般に最良優先探索は、スタックを用いて評価値が最大の仮説を優先的に展開する。
この実施の形態３では、下記の式（１２）に示すように、評価値ｆ（ｎ，ｍ）は、雑音ｎの整合モデルを用いて、ｍ混合まで展開したときのスコアｇ（ｎ，ｍ）とｍ＋１混合以降の展開で得られるスコアの推定値ｈ^（ｎ，ｍ）との和として与えるものとする。

ただし、ｇ（ｎ，０）＝０とし、推定値ｈ^（ｎ，ｍ）としては出来るだけ真のスコア以上であることが望ましい。即ち、推定値ｈ^（ｎ，ｍ）がＡ＊条件（ｈ^（ｎ，ｍ）≧ｈ（ｎ，ｍ））を満足することが望ましい。
ここでは、Ａ＊条件を近似的に満たすヒューリスティクスのスコアｈ^（ｎ，ｍ）として、初期雑音ｎ₀の整合モデルにおけるＭ個の混合分布からＭ−ｍ個の分布を抽出する仕方について、Ｍ−ｍ個の分布の重み付き尤度和の最大値を用いるものとする。

ただし、Ｃ（Ｍ−ｍ）はＭ個の混合分布から任意にＭ−ｍ個の分布を抽出する仕方（添え字ｍ'の集合）を意味する。また、ｈ^（ｎ，Ｍ）＝０とする。

この実施の形態３では、雑音ｎ、展開済み分布数ｍ、評価値ｆ（ｎ，ｍ）からなる三つ組み＜ｎ，ｍ，ｆ（ｎ，ｍ）＞を仮説として、次のようなアルゴリズムで最良優先探索を行う。
（Ｓ１）特徴ベクトルｘ_t、ＨＭＭの状態ｊ、初期雑音ｎ₀をアルゴリズムに入力する。
（Ｓ２）推定値ｈ^（ｎ，ｍ）を上記の式（１３）に基づいて計算する。
（Ｓ３）ｎ＝１，２，・・・，Ｎについて、初期仮説＜ｎ，０，ｆ（ｎ，０）＞をスタックにプッシュする。
（Ｓ４）評価値が最大の仮説＜ｎ，ｍ，ｆ（ｎ，ｍ）＞をスタックからポップする。
（Ｓ５）ｍ＝Ｍであれば、仮説を出力して停止する。ｍ＜Ｍであれば、ステップ（Ｓ６）に移行する。
（Ｓ６）分布方向に１だけ展開した仮説＜ｎ，ｍ＋１，ｆ（ｎ，ｍ＋１）＞をスタックにプッシュする。
（Ｓ７）ステップ（Ｓ４）に戻る。

なお、上記の最良優先探索のアルゴリズムは、非特許文献（日本音響学会講演論文集１９９９年３月３−Ｑ−７）に開示されているアルゴリズムを参考にしている。
最良優先探索のアルゴリズムのステップ（Ｓ５）でアルゴリズムが停止するときに得られる仮説＜ｎ^，Ｍ，ｆ（ｎ^，Ｍ）＞の雑音ｎ^を雑音の探索結果とする。
マッチング処理部３の尤度算出部１２は、最良優先モデル探索部１８により探索された雑音ｎ^の整合モデルを用いて、特徴ベクトルｘ_tの尤度ｆ（ｘ_t｜ｊ，ｎ^）を算出する（ステップＳＴ３３）。

以上で明らかなように、この実施の形態３によれば、最初に初期雑音ｎ₀に対応する整合モデルの尤度を算出し、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索するように構成したので、効率的に尤度が最大の整合モデルを探索することができる効果を奏する。

実施の形態４．
図８はこの発明の実施の形態４による音声認識装置を示す構成図であり、図において、図６と同一符号は同一または相当部分を示すので説明を省略する。
初期雑音モデル更新部１９は前フレームで探索した整合モデル（尤度が最大の整合モデル）を初期雑音ｎ₀に対応する整合モデルに置き換える処理を実施する。
なお、初期雑音モデル更新部１９は整合モデル探索手段を構成している。
図９はこの発明の実施の形態４による音声認識装置の処理内容を示すフローチャートである。

上記実施の形態３では、所定のフレーム区間で探索された初期雑音ｎ₀に対応する整合モデルの尤度をヒューリスティックスとする最良優先探索を実施するものについて示したが、フレーム処理の進行に伴って、前フレームで探索した整合モデル（尤度が最大の整合モデル）を初期雑音ｎ₀に対応する整合モデルに置き換えて、その整合モデルの尤度をヒューリスティックスとする最良優先探索を実施するようにしてもよい。
具体的には、以下の通りである。

入力音声の発話開始フレームでは、ステップＳＴ１の初期化処理において、ヒューリスティクスとする初期雑音ｎ₀に対応する整合モデルを適当な整合モデル（例えば、前発話で探索された雑音に対応する整合モデルや、事前に収集された雑音の中で出現確率が高い雑音に対応する整合モデル）に設定する。
しかし、発話開始フレーム以降のフレームにおいては、初期雑音モデル更新部１９が、最良優先モデル探索部１８により前フレームで探索された整合モデル（尤度が最大の整合モデル）を初期雑音ｎ₀に対応する整合モデルに置き換えるようにする（ステップＳＴ４１）。
これにより、発話開始フレーム以降のフレームにおいては、前フレームで探索した整合モデル（尤度が最大の整合モデル）の尤度をヒューリスティックスとする最良優先探索を実施することになる。

以上で明らかなように、この実施の形態４によれば、発話開始フレーム以降のフレームにおいては、初期雑音モデル更新部１９が、最良優先モデル探索部１８により前フレームで探索された整合モデル（尤度が最大の整合モデル）を初期雑音ｎ₀に対応する整合モデルに置き換えるように構成したので、初期雑音ｎ₀に対応する整合モデルが真の整合モデルである確率が増加し、更に、効率的に最良優先探索を実施することができる効果を奏する。

実施の形態５．
図１０はこの発明の実施の形態５による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
マッチング処理部３の初期モデル決定部２０は初期雑音ｎ₀に対応する整合モデルを決定する処理を実施する。
マッチング処理部３の前向き確率算出部２１は初期モデル決定部２０により決定された初期雑音ｎ₀に対応する整合モデルを用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度を算出し、その特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率α（ｊ，ｔ）を算出する処理を実施する。
なお、初期モデル決定部２０及び前向き確率算出部２１から前向き確率算出手段が構成されている。

マッチング処理部３のモデル探索部２２は前向き確率算出部２１により算出された前向き確率α（ｊ，ｔ）をヒューリスティックスとする最良優先探索を実施して、Ｎ個の整合モデル１−１〜１−Ｎの中から尤度が最大の整合モデルを探索する処理を実施する。なお、モデル探索部２２は整合モデル探索手段を構成している。
マッチング処理部３の尤度算出部２３はモデル探索部２２により探索された整合モデルを用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度を算出する処理を実施する。なお、尤度算出部２３は尤度算出手段を構成している。
図１１はこの発明の実施の形態５による音声認識装置の処理内容を示すフローチャートである。

次に動作について説明する。
マッチング処理部３の初期モデル決定部２０は、初期雑音ｎ₀に対応する整合モデルを決定する（ステップＳＴ５１）。
例えば、予め各種の雑音データを収集し、各種の雑音データにおいて、高頻度で出現する雑音を初期雑音ｎ₀に決定し、その初期雑音ｎ₀に対応する整合モデルを決定する。

マッチング処理部３の前向き確率算出部２１は、初期モデル決定部２０が初期雑音ｎ₀に対応する整合モデルを決定すると、その初期雑音ｎ₀に対応する整合モデルを用いて、上記実施の形態１と同様のマッチング処理を実施することにより、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度を算出し、その特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率α（ｊ，ｔ）を算出する（ステップＳＴ５２）。
なお、前向き確率算出部２１は、入力音声の発話開始フレームから発話終了フレームまでの各フレームにおいて、前向き確率α（ｊ，ｔ）を算出する（ステップＳＴ５３，ＳＴ５４）。

マッチング処理部３のモデル探索部２２は、前向き確率算出部２１が各フレームにおいて、前向き確率α（ｊ，ｔ）を算出すると、後ろ向き経路探索を行うために、発話終了フレームの時刻ｔ＝Ｔにおいて、後ろ向き経路探索の初期化を行う（ステップＳＴ５５）。
モデル探索部２２が行う後ろ向き経路探索は、前向き確率算出部２１により算出された前向き確率α（ｊ，ｔ）をヒューリスティックスとして最良優先探索を実施することにより行う。
最良優先探索における評価値ｆ（ｊ，ｔ）は、下記の式（１４）に示すように、後向き確率ｇ（ｊ，ｔ）＝β（ｊ，ｔ）と、後ろ向き探索で発話開始フレームまで遡ることで得られるスコアの予測値ｈ^（ｊ，ｔ）との和で与えられるものとする

ただし、推定値ｈ^（ｊ，ｔ）としては出来るだけ真のスコア以上であることが望ましい。即ち、推定値ｈ^（ｎ，ｍ）がＡ＊条件（ｈ^（ｊ，ｔ）≧ｈ（ｊ，ｔ））を満足することが望ましい。
ここでは、Ａ＊条件を近似的に満たすヒューリスティクスのスコアｈ^（ｊ，ｔ）として、前向き確率α（ｊ，ｔ）を用いるものとする。

この実施の形態５では、ｇ（ｊ，Ｔ）＝０とし、状態ｊ、フレームの時刻ｔ、評価値ｆ（ｊ，ｔ）からなる三つ組み＜ｊ，ｔ，ｆ（ｊ，ｔ）＞を仮説として、次のようなアルゴリズムで最良優先探索を行う。
（Ｓ１）前向き確率α（ｊ，ｔ）（ｊ＝１，・・・Ｊ；ｔ＝０，・・・Ｔ）を入力する（Ｊは状態数）。
（Ｓ２）推定値ｈ^（ｊ，ｔ）を上記の式（１５）に設定する。
（Ｓ３）ｊ∈Ω_final（Ｔ）（Ω_final（Ｔ）は時刻Ｔで残った最終状態の集合）について、初期仮説＜ｊ，Ｔ，ｆ（ｊ，Ｔ）＞をスタックにプッシュする。
（Ｓ４）評価値が最大の仮説＜ｊ，ｔ，ｆ（ｊ，ｔ）＞をスタックからポップする。
（Ｓ５）ｔ＝０であれば、仮説の出力を停止する。ｔ＞０であれば、ステップ（Ｓ６）に移行する。
（Ｓ６）フレーム方向に時刻を−１だけ展開した仮説＜ｉ，ｔ−１，ｆ（ｉ，ｔ−１）＞を下記の式（１６）より求め、スタックにプッシュする（状態ｊから遡れる状態ｉは複数通りあり得るので、複数の仮説が生成され得る）。

ここで、ｐ（ｘ_t｜ｊ，ｎ_max）は、状態ｊにおいて、Ｎ個の整合モデル１−１〜１−Ｎの中で、最大の尤度を与える雑音ｎ_maxに対応する整合モデルによる特徴ベクトルｘ_tに対する尤度である。
（Ｓ７）ステップ（Ｓ４）に戻る。

最良優先探索のアルゴリズムのステップ（Ｓ５）で、アルゴリズムが停止するときに得られる仮説＜ｊ^，０，ｆ（ｊ^，０）＞の経路を後ろ向き探索の結果とする（ステップＳＴ５６）。
マッチング処理部３の尤度算出部２３は、モデル探索部２２により探索された整合モデルを用いて、特徴ベクトル抽出部２により抽出された特徴ベクトルｘ_tの尤度を算出する（ステップＳＴ５７）。
マッチング処理部３の処理は、全ての仮説について探索処理が終了するまで、繰り返し処理を継続する（ステップＳＴ５８，ＳＴ５９）。

以上で明らかなように、この実施の形態５によれば、仮の雑音の整合モデルを用いて前向き確率を算出し、その前向き確率をヒューリスティクスとする最良優先探索によって経路を限定し、その限定した経路において重畳した雑音ｎ_maxに対応する整合モデルを探索するように構成したので、膨大な量の尤度計算を実施することなく、雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができる効果を奏する。また、最良優先探索により限定された経路で雑音ｎ_maxに対応する整合モデルを探索するので、整合モデルの探索を効率的に行える効果も奏する。

この発明の実施の形態１による音声認識装置を示す構成図である。この発明の実施の形態１による音声認識装置の整合モデル生成処理部を示す構成図である。この発明の実施の形態１による音声認識装置の処理内容を示すフローチャートである。この発明の実施の形態２による音声認識装置を示す構成図である。この発明の実施の形態２による音声認識装置の処理内容を示すフローチャートである。この発明の実施の形態３による音声認識装置を示す構成図である。この発明の実施の形態３による音声認識装置の処理内容を示すフローチャートである。この発明の実施の形態４による音声認識装置を示す構成図である。この発明の実施の形態４による音声認識装置の処理内容を示すフローチャートである。この発明の実施の形態５による音声認識装置を示す構成図である。この発明の実施の形態５による音声認識装置の処理内容を示すフローチャートである。

符号の説明

１整合モデル記憶部（整合モデル記憶手段）、１−１〜１−Ｎ整合モデル、２特徴ベクトル抽出部（特徴ベクトル抽出手段）、３マッチング処理部、１１モデル探索部（整合モデル探索手段）、１２尤度算出部（尤度算出手段）、１３語彙認識部（語彙認識手段）、１４モデル探索部（整合モデル探索手段）、１５尤度算出部（尤度算出手段）、１６語彙認識部（語彙認識手段）、１７初期雑音探索部（整合モデル探索手段）、１８最良優先モデル探索部（整合モデル探索手段）、１９初期雑音モデル更新部（整合モデル探索手段）、２０初期モデル決定部（前向き確率算出手段）、２１前向き確率算出部（前向き確率算出手段）、２２モデル探索部（整合モデル探索手段）、２３尤度算出部（尤度算出手段）、３１雑音データメモリ、３２雑音分類部、３３雑音データベース、３３−１〜３３−Ｎ雑音データメモリ、３４クリーン音声データメモリ、３５雑音重畳部（雑音重畳音声生成手段）、３６雑音重畳音声データベース、３６−１〜３６−Ｎ雑音重畳音声メモリ、３７ＨＭＭ学習部（整合モデル形成手段）。

Claims

各種の雑音重畳音声にそれぞれ適合する複数の隠れマルコフモデルを整合モデルとして記憶する整合モデル記憶手段と、入力音声をフレーム単位に分析して、各フレームから特徴ベクトルを抽出する特徴ベクトル抽出手段と、上記特徴ベクトル抽出手段により抽出された特徴ベクトルに対する上記複数の整合モデルの尤度を算出して、上記複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、上記整合モデル探索手段により探索された整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段と、上記尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する語彙認識手段とを備えた音声認識装置。
各種の雑音データを記憶する雑音データベースと、上記雑音データベースに記憶されている雑音データと雑音が重畳されていない学習用の音声データを合成して、複数の雑音重畳音声を生成する雑音重畳音声生成手段と、上記雑音重畳音声生成手段により生成された雑音重畳音声に適合する隠れマルコフモデルを学習して複数の整合モデルを形成し、複数の整合モデルを整合モデル記憶手段に出力する整合モデル形成手段とを設けたことを特徴とする請求項１記載の音声認識装置。
整合モデル探索手段は、遷移可能な全状態の前向き確率を用いて、複数の整合モデルの尤度を加重平均し、加重平均した尤度を有する整合モデルを尤度が最大の整合モデルであるとして尤度算出手段に出力することを特徴とする請求項１または請求項２記載の音声認識装置。
整合モデル探索手段は、初期雑音に対応する整合モデルの尤度を算出し、上記整合モデルの尤度をヒューリスティックスとする最良優先探索を実施して、尤度が最大の整合モデルを探索することを特徴とする請求項１または請求項２記載の音声認識装置。
整合モデル探索手段は、前フレームで探索した整合モデルを初期雑音に対応する整合モデルとして使用することを特徴とする請求項４記載の音声認識装置。
各種の雑音重畳音声にそれぞれ適合する複数の隠れマルコフモデルを整合モデルとして記憶する整合モデル記憶手段と、入力音声をフレーム単位に分析して、各フレームから特徴ベクトルを抽出する特徴ベクトル抽出手段と、初期雑音に対応する整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出し、上記特徴ベクトルの尤度からマルコフ過程における各状態の前向き確率を算出する前向き確率算出手段と、上記前向き確率算出手段により算出された前向き確率をヒューリスティックスとする最良優先探索を実施して、上記整合モデル記憶手段に記憶されている複数の整合モデルの中から尤度が最大の整合モデルを探索する整合モデル探索手段と、上記整合モデル探索手段により探索された整合モデルを用いて、上記特徴ベクトル抽出手段により抽出された特徴ベクトルの尤度を算出する尤度算出手段と、上記尤度算出手段により算出された特徴ベクトルの尤度からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する語彙認識手段とを備えた音声認識装置。