JP4241771B2

JP4241771B2 - 音声認識装置及びその方法

Info

Publication number: JP4241771B2
Application number: JP2006185002A
Authority: JP
Inventors: 優酒井; 信一田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-07-04
Filing date: 2006-07-04
Publication date: 2009-03-18
Anticipated expiration: 2026-07-04
Also published as: CN101101751A; US20080281595A1; JP2008015120A; US7895040B2

Description

本発明は、音響的特徴をＨＭＭ（隠れマルコフモデル）でモデル化し、音声特徴ベクトル列との照合を行う音声認識方法に関する。

従来の音声認識方法として、非特許文献１で挙げられているように、音響的特徴をＨＭＭでモデル化し、音声特徴を一定時間幅のフレーム毎に表現した音声特徴ベクトル列との照合を行う方法が広く使われている。この音声認識方法では、認識対象となる複数のカテゴリに対して、カテゴリ毎に当該カテゴリの音響的特徴をＨＭＭでモデル化し、音声特徴ベクトル列との照合を行い、最も高い音声特徴ベクトル列の出力確率を示すＨＭＭを求めて、そのＨＭＭに付与されたカテゴリを認識結果として出力する。

また、この出力確率計算の回数を効率的に削減する既存の方法としては、ビームサーチに基づく方法（例えば、非特許文献２参照）と、基準フレームに基づく方法（例えば、特許文献１参照）がある。
田窪行則・他（２００４）：言語の科学２音声、岩波書店伊田政樹・中川聖一（１９９６）：音声認識におけるビームサーチ法とＡ＊探索法の比較、電子情報通信学会、音声技報、ＳＰ９６−１２特許第３２５１４８０号公報

しかし、上記ビームサーチに基づく出力確率の回数削減方法と、上記基準フレームに基づく出力確率の回数削減方法とを単純に併用するだけでは、効率的に出力確率計算の回数を削減することができない。

そこで、本発明は上記問題点に鑑み、ビームサーチに基づく方法と基準フレームに基づく方法とを組み合わせて、音声認識性能に悪影響を与えず、効率的に出力確率計算の回数を削減する音声認識装置及びその方法を提供する。

本発明は、入力する音声信号をＨＭＭ（隠れマルコフモデル）を用いて音声認識する音声認識装置において、前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理部と、前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶部と、前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新部と、前記基準フレームにおいてビームサーチに基づき前記ＨＭＭの第１探索範囲を選択する第１探索範囲選択部と、前記第１探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第１出力確率を計算する第１出力確率計算部と、前記第１出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第１出力確率記憶部と、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第１出力確率の計算結果を全て消去する第１出力確率消去部と、前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記ＨＭＭの第２探索範囲をフレーム毎に選択する第２探索範囲選択部と、前記第２探索範囲が選択されたフレームである現フレームの前記第２探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定部と、前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第１出力確率の計算結果あるいは後述の第２出力確率の計算結果を、前記遷移パスの第２出力確率の近似値とする近似値設定部と、前記第１出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第２出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第２出力確率を計算する第２出力確率計算部と、前記第２出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第２出力確率記憶部と、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第２出力確率の計算結果を全て消去する第２出力確率消去部と、予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第２出力確率から前記現フレームの前向き確率を計算する前向き確率計算部と、前記最終フレームまで前記ＨＭＭ毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記ＨＭＭに付与されたカテゴリを、音声認識結果とする音声認識部と、を備えることを特徴とする音声認識装置である。

本発明によれば、ビームサーチに基づく方法と基準フレームに基づく方法とを併用し、音声認識性能に悪影響を与えず効率的に出力確率計算の回数を削減できる。

本発明の実施形態を説明する前に、実施形態の理解に必要な従来技術について説明する。

（従来技術）
以下、従来技術について図１から図１３に基づいて説明する。

（１）音声認識装置の構成
図１は、従来の音声認識装置の構成例を示すブロック図である。

図１の音声認識装置は、音響処理部００１、音声区間検出部００２、辞書部００３、照合部００４を備える。

（１−１）音響処理部００１
音響処理部００１は、一定時間幅のフレーム毎に、入力音声信号から音声特徴ベクトルの時系列Ｘ＝（ｘ（１），ｘ（２），・・・，ｘ（Ｔ））を生成する。ここでｘ（ｔ）はフレームｔにおける音声特徴ベクトルである。但し１＝＜ｔ＝＜Ｔであり、ｔ＝１は後述する音声区間検出部００２で検出した音声の始端に、ｔ＝Ｔは音声の終端に対応する。音声特徴ベクトルｘ（ｔ）は１次元以上の要素をもつベクトルであり、フレームｔにおける音声の特徴を表現する。なお、「フレームｔ」とは、フレーム番号ｔの意味である。

（１−２）音声区間検出部００２
音声区間検出部００２は、入力音声信号から音声区間（音声の始端と終端）を検出する。

（１−３）辞書部００３
辞書部００３は、異なるカテゴリを付与された複数のＨＭＭを格納する。ＨＭＭは、一つ以上の状態Ｓｉ（ｉ＝１，２，・・・，ＮＳ）と、初期状態の集合ＳＳ及び最終状態の集合ＳＦと、ある状態Ｓｊからある状態Ｓｉへの遷移確率Ａｊｉと、ある状態Ｓｊからある状態Ｓｉへの遷移パスにおける音声特徴ベクトルｘの出力確率Ｂｊｉ（ｘ）を与える確率密度関数Ｂｊｉ（）と、各状態Ｓｉの初期確率Ｐｉ（ｉ＝１、２，・・・，ＮＳ）で定義される。但し１＝＜ｉ，ｊ＝＜ＮＳであり、ＮＳはＨＭＭを構成する状態の総数である。

ＨＭＭの例を図２に示す。図２は状態数ＮＳ＝４のＨＭＭの例である。

遷移確率と出力確率が有意でない遷移パス、すなわちそれぞれの確率が常に０である遷移パスの記述は省略している。また、初期状態の集合ＳＳ＝｛Ｓ１｝であり、最終状態の集合ＳＦ＝｛Ｓ４｝である。図２のＨＭＭは、音声認識において典型的に用いられるＨＭＭの例であり、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型と呼ばれる構造をもち、初期状態の集合及び最終状態の集合の要素数がそれぞれ１であり、ｉ＝ｊないしｉ＝ｊ＋１である（ｊ，ｉ）に対してのみ有意な遷移確率Ａｊｉ及び出力確率Ｂｊｉ（ｘ）をもつ。以下では、この図２のＨＭＭを前提に説明を続ける。但し、辞書部００３は、図２の例を含むあらゆるＨＭＭを格納できる。例えば図３のような多数の遷移パスをもつＨＭＭも格納できる。

（１−４）照合部００４
照合部００４は、ＨＭＭと音声特徴ベクトル列との照合を行う。すなわち、音声区間の始端から終端までに生成された音声特徴ベクトル列Ｘ（ｘ（１），ｘ（２），・・・，ｘ（ｔ））について、あるカテゴリｃを付与されたＨＭＭからの出力確率Ｐ（Ｘ｜ｃ）を計算する。

照合部００４では、カテゴリ毎に、各カテゴリが付与されたＨＭＭからの出力確率Ｐ（Ｘ｜ｃ）、（１＝＜ｃ＝＜Ｃ）を計算し、最大の出力確率を与えるＨＭＭに付与されたカテゴリを認識結果として出力する。あるカテゴリｃを付与されたＨＭＭからの出力確率Ｐ（Ｘ｜ｃ）をＰ（Ｘ）と簡略表記したとき、Ｐ（Ｘ）を式（１）、式（２）、式（３）で求める。

ここでα（ｉ，ｔ）は、ＨＭＭにおいて初期状態から遷移し、フレームｔで状態Ｓｉに到る前向き確率である。ＨＭＭでは、初期状態から出発し、フレームｔにおいて状態Ｓｉに到る遷移パスは複数個存在するため、前向き確率は複数の遷移パス毎の前向き確率の総和となる。しかし、式（３）では、複数の遷移パスの中で最大の前向き確率を与えるただ一つの遷移パスを選択し、その前向き確率を用いる。これをビタビ法と呼ぶ。ビタビ法は、音声認識の分野において、複数の遷移パスの前向き確率の総和をとる方法のよい近似となることが知られている。

（２）照合部００４の処理
次に図４を用いて、照合部００４の処理を説明する。図４は、図１の音声認識装置における照合部００４の処理のフローチャートである。

ステップＰ０１１において、フレーム番号ｔを１で初期化する。すなわち、フレーム番号を音声区間の始端に設定し、音声区間の始端から処理を開始する。

ステップＰ０１２において、ステップＰ０２０の手順に従い、フレームｔにおけるＨＭＭの状態Ｓｉの前向き確率α（ｉ，ｔ）を計算する。ステップＰ０２０の詳細は後述する。

ステップＰ０１３において、フレーム番号ｔを１だけ増加させる。すなわち、ｔ＝ｔ＋１として、次のフレームの処理に進む。

ステップＰ０１４において、フレーム番号ｔを、音声区間の終端を示すフレーム番号Ｔと比較する。ｔ＞Ｔの場合、すなわち音声区間の全てのフレームに対する処理が終了した場合はステップＰ０１６に進む。ｔ＝＜Ｔの場合、すなわちフレームｔが音声区間内のフレームの場合はステップＰ０１５に進む。

ステップＰ０１５において、ステップＰ０２０の手順に従い、フレームｔにおけるＨＭＭの状態Ｓｉの前向き確率α（ｉ，ｔ）を計算する。ステップＰ０２０の詳細は後述する。ステップＰ０２０が終了したらステップＰ０１３に戻る。

ステップＰ０１６において、式（３）に基づき、Ｓｉ<IN<ＳＦである状態Ｓｉの前向き確率α（ｉ，ｔ）のうち最大の前向き確率を、このＨＭＭに対する音声特徴ベクトル列の出力確率Ｐ（Ｘ）として出力する。

（３）前向き確率の計算
次に、図４のステップＰ０１２及びステップＰ０１５において、前向き確率を計算するための手順であるステップＰ０２０を、図５のフローチャートを用いて説明する。

ステップＰ０２１において、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して、ステップＰ０２２をループ実行し、ループ実行が終了したらステップＰ０２３に進む。

ステップＰ０２２において、ある（ｊ，ｉ）に対して、フレームｔにおける出力確率Ｂｊｉ（ｘ（ｔ））を計算する。

ステップＰ０２３において、式（２）及び式（３）に基づき、１＝＜ｉ＝＜ＮＳである全ての状態Ｓｉについて、フレームｔにおける前向き確率α（ｉ，ｔ）を計算する。

図１の音声認識装置は、照合部００４において、複数のＨＭＭに対して図４のステップＰ０１１〜Ｐ０１６及び図５のステップＰ０２０を実行し、最大の出力確率を与えるＨＭＭに付与されたカテゴリを認識結果として出力する。以上が図１の音声認識装置の説明である。

（４）出力確率Ｂｊｉ（ｘ）の計算
照合部００４では、１＝＜ｔ＝＜Ｔである全てのフレームｔの、１＝＜ｊ，ｉ＝＜ＮＳである（ｊ，ｉ）に対応する全ての遷移パスにおいて、出力確率Ｂｊｉ（ｘ）を計算する必要がある。

この概要を図６に示す。図６の縦軸はＨＭＭの状態列であり、図２のＨＭＭと同じ遷移パスをもつものとする。但し遷移パスの描写は省略している。横軸はフレームである。図６では、ＨＭＭの状態列をフレーム毎に配置し、ＨＭＭの遷移パスを隣接するフレーム間での２つの状態を結ぶ矢印として描写する事で、フレーム毎のＨＭＭの状態遷移を表現している。さらに図６では、あるフレームにおいて出力確率を計算する遷移パスを太い矢印線で示している。図６で示すように、照合部００４は、全てのフレームの全ての遷移パスにおいて出力確率を計算する。

音声認識では、一般に、音声認識処理の計算コスト全体に占める出力確率計算の計算コストは非常に大きく、音声認識処理全体の計算コスト増大の原因となる。従って、出力確率計算の回数を効率的に削減することが、音声認識処理の計算コスト削減に非常に有効である。

出力確率計算の回数を効率的に削減する既存の方法として、非特許文献２にあるビームサーチに基づく方法と、特許文献１にある基準フレームに基づく方法がある。以下ではこれらの方法について説明する。

（５）ビームサーチに基づく方法
まず、ビームサーチに基づく出力確率計算の回数削減方法について説明する。

（５−１）音声認識装置の構成
図７は、この方法に好適な音声認識装置の構成例を示すブロック図である。

図７の音声認識装置は、図１の音声認識装置と同様に、音響処理部００１、音声区間検出部００２、辞書部００３、照合部００４を備え、さらに探索対象選択部００５を備える。

図７の音声認識装置は、照合部００４が探索対象選択部００５と連動して動作する以外は、図１の音声認識装置と同様の処理を行う。そこで以下では、照合部００４及び探索対象選択部００５について、図１の音声認識装置との動作の差分についてのみ説明する。

（５−２）探索対象選択部００５
探索対象選択部００５は、フレーム毎にビームサーチを実施し、ＨＭＭの状態集合ＳＡと、状態集合ＳＡから遷移可能なＨＭＭの状態集合ＳＢとを選択する。あるフレームｔにおける状態集合ＳＡは、フレームｔ−１において０でない有意な前向き確率α（ｊ，ｔ−１）が０でない状態Ｓｊのうち、他よりも大きな前向き確率をもつ上位ＮＡ個の状態の集合とする。但し１＝＜ＮＡ＜ＮＳとする。

また、α（ｊ，ｔ−１）が０でない全ての状態Ｓｊの総数がＮＡ個よりも小さい場合は、α（ｊ，ｔ−１）が０でない全ての状態Ｓｊを選択し状態集合ＳＡとする。あるフレームｔにおける状態集合ＳＢは、Ｓｊ＜ＩＮ＜ＳＡである全ての状態Ｓｊから遷移可能な全ての状態Ｓｉの集合とする。

（５−３）照合部００４
照合部００４は、式（３）で前向き確率を計算する際に、探索対象選択部００５で選択された状態集合ＳＡ及び状態集合ＳＢを参照し、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす全ての（ｊ，ｉ）の組み合わせに対してのみ出力確率の計算を行い、Ｓｉ＜ＩＮ＜ＳＢを満たす状態Ｓｉに対してのみ前向き確率α（ｉ，ｔ）を計算する。具体的には、式（３）に代えて以下の式（４）を用いる。

式（４）では、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす場合のみ出力確率Ｂｊｉ（ｘ（ｔ））を計算すれば良く、出力確率の計算回数を式（３）に比べて削減できる。

ここで、式（４）で参照する前フレームの前向き確率α（ｊ，ｔ−１）は、フレームｔ−１における上位ＮＡ個の前向き確率であり、この前向き確率をもつ状態Ｓｊから遷移可能な状態Ｓｉも、後続する当該フレームｔにおいて上位の前向き確率をもつことが期待できる。

従って、各フレームにおいて上位の前向き確率をもつ状態を経由する遷移パスは、式（１）で求めるフレームｔの前向き確率α（ｉ，ｔ）の最大値を与える遷移パスである可能性が高い。この可能性はＮＡを大きくするにつれて大きくなり、ＮＡ＝ＮＳのときは式（３）と式（４）に差はない。つまり、ＮＡを適切に設定する事で、図１の音声認識装置の照合部１０４に比べて出力確率の計算回数を削減し、かつ、式（１）において出力確率Ｐ（Ｘ）の良好な近似値を求めることができる。

（５−４）前向き確率の計算
図７の音声認識装置の照合部００４における前向き確率の計算の概要を図８に示す。

図８は図６と同様の図であり、式（４）により前向き確率の計算を行った結果である。なお、図８はフレームｔ−１において選択する状態の個数ＮＡ＝２の例である。図８では、フレームｔ−１で有意な前向き確率をもつ状態集合から、前向き確率の大きい上位２個の状態を選択し、これらを状態集合ＳＡとする。フレームｔにおいて、この状態集合ＳＡから遷移可能な状態集合ＳＢを選択し、ＳＡからＳＢへの遷移パスのみ出力確率を計算する。これをフレームｔ＋１、ｔ＋２、・・・で繰り返す。図８と図６を比較すると、図７の音声認識装置では、図１の音声認識装置に比べて、出力確率の計算回数を削減できていることが分かる。

このように、ビームサーチに基づく出力確率計算の削減を行う事で、性能に悪影響を及ぼすことなく、出力確率の計算回数を削減できる。

（６）基準フレームに基づく方法
次に、基準フレームに基づく出力確率計算の回数削減方法について説明する。

（６−１）音声認識装置の構成
図９は、この方法に好適な音声認識装置の構成例を示すブロック図である。

図９の音声認識装置は、図１の音声認識装置と同様に、音響処理部００１、音声区間検出部００２、辞書部００３、照合部００４を備え、さらに記憶部００６を備える。図９の音声認識装置は、照合部００４が記憶部００６と連動して動作する以外は、図１の音声認識装置と同様の処理を行う。

そこで以下では、照合部００４及び記憶部００６について、図１の音声認識装置との動作の差分についてのみ説明する。

（６−２）記憶部００６
記憶部００６は、基準フレームｑ（１＝＜ｑ＝＜Ｔ）と、出力確率バッファＲＳｊｉを格納する。

基準フレームｑは音声区間のいずれかのフレームの番号を記憶する。後述する照合部００４の処理において、ある基準フレームｑからフレーム毎に処理を進めて、当該フレームｔと基準フレームｑの差分（ｔ−ｑ）が閾値ＮＱを超えた場合には、当該フレームｔを新たな基準フレームｑとする。すなわち（ｔ−ｑ）＞＝ＮＱであれば基準フレームｑ＝ｔとして更新する。但し、基準フレームｑの初期値は１とする。

すなわち、音声区間の始端（フレーム１）を常に最初の基準フレームとする。出力確率バッファＲＳｊｉは、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して、基準フレームｑにおける出力確率Ｂｊｉ（ｘ（ｑ））を記憶する。すなわち、ＲＳｊｉ＝Ｂｊｉ（ｘ（ｑ））とする。

基準フレームｑが更新された場合には、出力確率バッファＲＳｊｉも更新する。すなわち更新された基準フレームｑに対して再びＲＳｊｉ＝Ｂｊｉ（ｘ（ｑ））とし、これを基準フレームの更新毎に繰り返す。

（６−３）照合部００４
照合部００４は、式（３）で前向き確率を計算する際に、記憶部００６に格納された基準フレームｑを参照し、当該フレームｔが基準フレームｑに一致するときは（すなわちｔ＝ｑ）、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して出力確率Ｂｊｉ（ｘ（ｑ））を計算し、計算した出力確率を記憶部００６のバッファＲＳｊｉに記憶した上で、前向き確率を計算する。

当該フレームｔがｑ＜ｔ＜ｑ＋ＮＱのときは、出力確率Ｂｊｉ（ｘ（ｔ））を計算せず、記憶部００６の出力確率バッファＲＳｊｉに記憶された出力確率をフレームｔにおける出力確率の近似値として前向き確率を計算する。具体的には、式（３）に代えて以下の式（５）、式（６）を用いる。

式（５）、式（６）ではｔ＝ｑの場合のみ出力確率Ｂｊｉ（ｘ（ｑ））を計算すれば良く、出力確率の計算回数を式（３）に比べて削減できる。

ここで、入力音声の時間変化に対するフレーム幅が十分に小さければ、時間的に近接する音声特徴ベクトルｘ（ｑ）とｘ（ｔ）（（ｔ−ｑ）＜ＮＱ）の差は十分に小さくなり、出力確率Ｂｊｉ（ｘ（ｑ））とＢｊｉ（ｘ（ｔ））の差も十分に小さくなるため、基準フレーム更新のための閾値ＮＱを適切に設定する事で、Ｂｊｉ（ｘ（ｑ））すなわちＲＳｊｉがＢｊｉ（ｘ（ｔ））の良好な近似値となると期待できる。

（６−４）前向き確率の計算
図９の音声認識装置における前向き確率の計算の概要を図１０に示す。

図１０は図６と同様の図であり、式（５）、式（６）により前向き確率の計算を行った結果である。なお、図１０は基準フレーム更新の閾値ＮＱ＝３の例であり、基準フレームｑ＝ｔをフレームｔ＋３においてｑ＝ｔ＋３と更新する。

図１０では、基準フレームにおいてのみ出力確率の計算を行い、基準フレーム以降のフレームでは基準フレームで計算した出力確率を近似値として用いる。これを基準フレームの更新のたびに繰り返す。図１０と図６を比較すると、図９の音声認識装置では、図１の音声認識装置に比べて、出力確率の計算回数を削減できていることが分かる。

このように、基準フレームに基づく出力確率計算の削減を行う事で、性能に悪影響を及ぼすことなく、出力確率の計算回数を削減できる。

（７）各方法の特徴と問題点
ビームサーチに基づく出力確率の回数削減方法と、基準フレームに基づく出力確率の回数削減方法は、それぞれ異なる特徴をもつ。

すなわち、前者はあるフレーム内での出力確率計算の回数を、後者は複数フレームにまたがる区間内での出力確率計算の回数を、それぞれ削減する。そのため、これらの方法を併用することで、個々の方式を単独で用いる場合よりもさらに効率的に出力確率計算の回数を削減できると予想される。しかし、これらの方法を併用する事には問題があり、これらを単純に組み合わせても、効率的に出力確率計算の回数を削減することはできない。以下ではこの問題について説明する。

前述の通り、ビームサーチに基づく方法では、フレーム毎に状態集合ＳＡ及び状態集合ＳＢを選択し、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす（ｊ，ｉ）の組み合わせに対してのみ出力確率Ｂｊｉ（ｘ（ｔ））を計算する。

一方で、基準フレームに基づく方法では、基準フレームｑにおいて、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）の組み合わせに対して出力確率Ｂｊｉ（ｘ（ｑ））を計算し、出力確率バッファＲＳｊｉに記憶し、これを基準フレーム以降のフレームにおける出力確率の近似値として用いる。

（８）併用する場合の計算方法
ここで、ビームサーチに基づく方法と基準フレームに基づく方法とを併用する場合には、基準フレームｑにおける出力確率Ｂｊｉ（ｘ（ｑ））の計算方法が問題となる。単純には以下の２通りが考えられる。

第１の方法は、基準フレームｑにおいて全ての（ｊ，ｉ）に対して出力確率Ｂｊｉ（ｘ（ｑ））を計算する。

第２の方法は、基準フレームｑでＳｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす（ｊ，ｉ）の組み合わせに対してのみ出力確率Ｂｊｉ（ｘ（ｑ））を計算する。

（９）併用する場合の計算方法の問題点
以下では、この各々の解決策について説明し、その問題点を明らかにする。

（９−１）第１の方法
第１の方法は、図９の音声認識装置の照合部００４に、図７の音声認識装置の探索対象選択部００５を組み合わせて、照合部００４の動作を一部変更することで実現できる。

すなわち、照合部００４において、基準フレームｑでは１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して出力確率Ｂｊｉ（ｘ（ｑ））を計算し、その結果を出力確率バッファＲＳｊｉに記憶する。基準フレーム以外のフレームｔ（ｑ＜ｔ＜ｑ＋ＮＱ）では、ビームサーチに基づき状態集合ＳＡ及び状態集合ＳＢを選択し、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす（ｊ，ｉ）の組み合わせに対して、出力確率Ｂｊｉ（ｘ（ｔ））を計算せず、出力確率の近似値ＲＳｊｉを用いる。

このように動作を一部変更した照合部００４における前向き確率の計算の概要を図１１に示す。図１１は図１０と同様の図であり、前述の動作変更により、ビームサーチに基づく状態集合の選択を行っている。しかしこの場合、基準フレームに基づく方法を単独で用いる場合（図１０）と、ビームサーチに基づく方法と併用する場合（図１１）とで、出力確率計算の回数は変わらない。なぜならば、どちらの場合でも、出力確率の計算は基準フレームｑにおいてのみ実行され、基準フレームｑにおいては１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して出力確率を計算するためである。従ってこの方法では、出力確率計算の回数をさらに効率的に削減することができない。

（９−２）第２の方法
第２の方法は、図７の音声認識装置の照合部００４に、図９の記憶部００６を組み合わせて、照合部００４の動作を一部変更することで実現できる。

すなわち、照合部００４において、基準フレームｑでは、ビームサーチに基づき状態集合ＳＡ及び状態集合ＳＢを選択し、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす（ｊ，ｉ）の組み合わせに対してのみ出力確率Ｂｊｉ（ｘ（ｑ））を計算し、その結果を出力確率バッファＲＳｊｉに記憶する。基準フレーム以外のフレームｔ（ｑ＜ｔ＜ｑ＋ＮＱ）においても、状態集合ＳＡ及び状態集合ＳＢを選択し、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす（ｊ，ｉ）に対しては、出力確率バッファＲＳｊｉに記憶された値を出力確率Ｂｊｉ（ｘ（ｔ））の近似値として利用する。しかしこのとき、状態集合ＳＡ及び状態集合ＳＢに含まれる状態はフレーム毎に異なるため、フレームｔで前向き確率の計算に利用される出力確率Ｂｊｉ（ｘ（ｔ））の近似値ＲＳｊｉ＝Ｂｊｉ（ｘ（ｑ））が、基準フレームｑで計算されていない場合がある。そのような場合、フレームｔにおける前向き確率の計算を継続することができない。そこで、出力確率の近似値ＲＳｊｉを利用できないような遷移パスを無視する事にすると、ビームサーチに基づき選択した状態集合ＳＡから状態集合ＳＢへの遷移パスの集合に比べて、前向き確率の計算に利用する遷移パスの数が少なくなる。

このように動作を一部変更した照合部００４における前向き確率の計算の概要を図１２に示す。図１２は図８と同様の図であり、前述の動作変更により、基準フレームに基づく出力確率計算と近似値の利用を行っている。図１２では基準フレームにおいてのみ出力確率を計算しているため、出力確率計算の回数は、図８に比べて削減できる。

しかし、フレーム毎に選択される状態集合は図１２と図８で大きく異なっている。図１２では、出力確率の近似値が利用できない遷移パスがあるため、あるフレームの前向き計算で有意な前向き確率をもつ状態の数が図８に比べて少なくなっている。このことは、式（１）による前向き確率α（１，Ｔ）の計算において、α（１，Ｔ）の最大値を与える遷移パスが利用できない可能性が高くなることを意味する。すなわち、式（３）において出力確率Ｐ（Ｘ）の良好な近似値を求めることができなくなり、音声認識装置の性能に悪影響を及ぼす可能性がある。従ってこの方法でも、出力確率計算の回数をさらに効率的に削減することができない。

（第１の実施形態）
本実施形態の音声認識装置は、音響処理部、音声区間検出部、辞書部、照合部、探索対象選択部、記憶部、判定部を備える。なお、各部の機能は、コンピュータに記憶されたプログラムによって実現できる。

上記従来技術の説明を前提として、本実施形態の音声認識装置における前向き確率の計算について説明する。

まず、基準フレームｑでは、探索範囲選択部において状態集合ＳＡと状態集合ＳＢを選択し、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす（ｊ，ｉ）の組み合わせに対してのみ出力確率Ｂｊｉ（ｘ（ｔ））を計算し、記憶部において出力確率バッファＲＳｊｉに記憶する。ここで、判定部において、基準フレームｑにおいて出力確率の近似値ＲＳｊｉが記憶されていない遷移パスの情報を記憶する。

基準フレーム以外のフレームｔ（ｑ＜ｔ＜ｑ＋ＮＱ）では、探索範囲選択部において状態集合ＳＡ及び状態集合ＳＢを選択する。このとき、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす（ｊ，ｉ）に対応する遷移パスに対して、利用可能な出力確率の近似値ＲＳｊｉの有無を判定部において判定する。

照合部では、この判定結果を参照し、近似値ＲＳｊｉをもつ遷移パスでは出力確率Ｂｊｉ（ｘ（ｔ））を計算せず、記憶部に記憶された近似値ＲＳｊｉを用いる。

近似値ＲＳｊｉをもたない遷移パスにおいては、当該フレームｔの出力確率Ｂｊｉ（ｘ（ｔ））を計算し、さらにその結果を出力確率バッファＲＳｊｉに追加で記憶し、以降のフレームにおける近似値として利用する。これにより以下を実現する。

まず、ビームサーチに基づき状態集合の選択を行うことで、各フレームにおいて、前向き確率の計算において参照する遷移パスの数を削減する。つまり、出力確率の参照が必要な遷移パスの数を削減する。

また、基準フレームで計算した出力確率を記憶し、それ以降のフレームにおいて基準フレームで計算した出力確率を近似値とすることで、出力確率計算の回数を削減する。

さらに、基準フレーム以降のフレームにおいて近似値が利用できない場合は、当該フレームにおける出力確率を計算し、それを記憶し、それ以降のフレームにおける出力確率の近似値として利用する。

つまり、ある基準フレームから基準フレームが更新されるまでのフレームにおいて、遷移パス毎に出力確率を計算する回数を１回のみにする。

この結果、照合部の前向き確率の計算において、出力確率の参照が必要な遷移パスの数が削減され、かつ、ある基準フレームから基準フレームが更新されるまでのフレームにおける遷移パス毎の出力確率計算の回数は１回となるため、出力確率計算の回数を大きく削減することができる。この前向き確率の計算の概要を図１３に示す。図１３は図８及び図１０と同様の図である。

図１３と図８を比べると、図１３では図８と同じく状態集合の選択を行い、さらに基準フレームｔから更新後の基準フレームｔ＋３より以前のフレームにおいて遷移パス毎に１回だけ出力確率を計算することで、出力確率計算の総数を図８に比べて削減できている。このとき、フレーム毎に有意な前向き確率をもつ状態の数は図８と同じであり、式（３）において出力確率Ｐ（Ｘ）の良好な近似値となることが期待できる。

図１３と図１０を比べると、図１３では図１０と同じく基準フレームの設定と更新を行い、さらに状態集合の選択及び基準フレームｔから更新後の基準フレームｔ＋３より以前のフレームにおいて出力確率の計算と記憶・近似値としての利用を行うことで、出力確率計算の総数を図１０に比べて削減できている。この出力確率の近似精度は、基準フレーム更新のための閾値ＮＱに依存し、図１０で良好な近似精度を与える閾値ＮＱは、図１３においても良好な近似値となることが期待できる。

（第１の実施形態の詳細）
次に、第１の実施形態の音声認識装置の詳細について図１４から図１８に基づいて説明する。

（１）音声認識装置の構成
図１４は、第１の実施形態の音声認識装置の構成例を示すブロック図である。

図１４に示す音声認識装置は、音響処理部１０１、音声区間検出部１０２、辞書部１０３、照合部１０４、探索対象選択部１０５、記憶部１０６、判定部１０７を備える。なお、各部１０１〜１０７の機能は、コンピュータに記憶されたプログラムによって実現できる。

（１−１）音響処理部１０１
音響処理部１０１は、一定時間幅のフレーム毎に、入力音声信号から音声特徴ベクトルの時系列Ｘ＝（ｘ（１），ｘ（２），・・・，ｘ（Ｔ））を生成する。

ここでｘ（ｔ）はフレームｔにおける音声特徴ベクトルである。但し１＝＜ｔ＝＜Ｔであり、ｔ＝１は後述する音声区間検出部１０２で検出した音声の始端に、ｔ＝Ｔは音声の終端に対応する。音声特徴ベクトルｘ（ｔ）は１次元以上の要素をもつベクトルであり、フレームｔにおける音声の特徴を表現する。そのような音声特徴ベクトルとしては、非特許文献１に挙げられるＭＦＣＣがある。ＭＦＣＣは、フレームｔにおける音声スペクトルに対して、メルフィルタバンク出力の対数値をとり、さらにＤＣＴを適用してその低次成分を抽出するケプストラム分析を行うことで、音声特徴ベクトルを得る方式である。

（１−２）音声区間検出部１０２
音声区間検出部１０２は、入力音声信号から音声区間（音声の始端と終端）を検出する。

音声区間検出の方法として、雑音区間で推定した推定雑音パワーに対する入力音声のパワーとの比率をフレーム毎に計算し、その比率がある閾値を超える時間的に連続した区間を音声区間として検出する方法がある。この場合、前述の比率が始めて閾値を超えたフレームを音声区間の始端として検出し、それから前述の比率が閾値を超える時間的に連続したフレームを音声区間とし、前述の比率が閾値を下回るフレームの直前のフレームを音声区間の終端として検出する。

（１−３）辞書部１０３
辞書部１０３は、異なるカテゴリを付与された複数のＨＭＭを格納する。

ＨＭＭは、一つ以上の状態Ｓｉ（ｉ＝１，２，・・・，ＮＳ）と、初期状態の集合ＳＳ及び最終状態の集合ＳＦと、ある状態Ｓｊからある状態Ｓｉへの遷移確率Ａｊｉと、ある状態Ｓｊからある状態Ｓｉへの遷移パスにおける音声特徴ベクトルｘの出力確率Ｂｊｉ（ｘ）を与える確率密度関数Ｂｊｉ（）と、各状態Ｓｉの初期確率Ｐｉ（ｉ＝１、２，・・・，ＮＳ）で定義される。但し１＝＜ｉ、ｊ＝＜ＮＳであり、ＮＳはＨＭＭを構成する状態の総数である。確率密度関数Ｂｊｉ（）として混合正規分布を用いた場合、出力確率Ｂｊｉ（ｘ）は式（７）で計算する。

但し、Ｗｊｉｍは確率密度関数Ｂｊｉ（）を構成するｍ番目の多次元正規分布への分岐確率、Ｇｊｉｍ（）は確率密度関数Ｂｊｉ（）を構成するｍ番目の多次元正規分布であり、Ｇｊｉｍ（）は式（８）で定義される多次元正規分布である。

但し、μｊｉｍは多次元正規分布Ｇｊｉｍ（）の平均ベクトルであり、Σｊｉｍは多次元正規分布Ｇｊｉｍ（）の共分散行列である。また、１＝＜ｍ＝＜Ｍであり、Ｍは確率密度関数Ｂｊｉ（）の混合数である。

ＨＭＭの例を図１７に示す。図１７は状態数ＮＳ＝４のＨＭＭの例である。

遷移確率と出力確率が有意でない遷移パス、すなわちそれぞれの確率が常に０である遷移パスの記述は省略している。また、初期状態の集合ＳＳ＝｛Ｓ１｝であり、最終状態の集合ＳＦ＝｛Ｓ４｝である。図１５のＨＭＭは、音声認識において典型的に用いられるＨＭＭの例であり、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型と呼ばれる構造をもち、初期状態の集合及び最終状態の集合の要素数がそれぞれ１であり、ｉ＝ｊないしｉ＝ｊ＋１である（ｊ，ｉ）に対してのみ有意な遷移確率Ａｊｉ及び出力確率Ｂｊｉ（ｘ）をもつ。以下では、この図１７のＨＭＭを前提に説明を続ける。但し、辞書部１０３は、図１７の例を含むあらゆるＨＭＭを格納できる。例えば図１８のような多数の遷移パスをもつＨＭＭも格納できる。

（１−４）照合部１０４
照合部１０４は、ＨＭＭと音声特徴ベクトル列との照合を行う。

すなわち、音声区間の始端から終端までに生成された音声特徴ベクトル列Ｘ＝（ｘ（１），ｘ（２），・・・，ｘ（Ｔ））について、あるカテゴリｃを付与されたＨＭＭからの出力確率Ｐ（Ｘ｜ｃ）を計算する。照合部１０４では、カテゴリ毎に、各カテゴリが付与されたＨＭＭからの出力確率Ｐ（Ｘ｜ｃ）、（１＝＜ｃ＝＜Ｃ）を計算し、最大の出力確率を与えるＨＭＭに付与されたカテゴリを認識結果として出力する。あるカテゴリｃを付与されたＨＭＭからの出力確率Ｐ（Ｘ｜ｃ）をＰ（Ｘ）と簡略表記したとき、Ｐ（Ｘ）は、通常は式（９）、式（１０）及び式（１１）で求める。

ここでα（ｉ，ｔ）は、ＨＭＭにおいて初期状態から遷移しフレームｔで状態Ｓｉに到る前向き確率である。

ＨＭＭでは、初期状態から出発しフレームｔにおいて状態Ｓｉに到る遷移パスは複数個存在するため、前向き確率は複数の遷移パス毎の前向き確率の総和となる。しかし、式（１１）では、複数の遷移パスの中で最大の前向き確率を与えるただ一つの遷移パスを選択し、その前向き確率を用いる。これを「ビタビ法」と呼ぶ。

ビタビ法は、音声認識の分野において、複数の遷移パスの前向き確率の総和をとる方法のよい近似となることが知られている。本実施形態における照合部１０４の前向き確率の計算では、後述する探索対象選択部１０５、記憶部１０６、判定部１０７の処理と連動することで、式（１１）における出力確率Ｂｊｉ（ｘ（ｔ））の計算回数を、音声認識性能に悪影響を与えることなく効率的に削減できる。これについては後述する。

（１−５）探索対象選択部１０５
探索対象選択部１０５は、フレーム毎にビームサーチを実施し、ＨＭＭの状態集合ＳＡと、状態集合ＳＡから遷移可能なＨＭＭの状態集合ＳＢとを選択する。

あるフレームｔにおける状態集合ＳＡは、フレームｔ−１において０でない有意な前向き確率α（ｊ，ｔ−１）が０でない状態Ｓｊのうち、他よりも大きな前向き確率をもつ上位ＮＡ個の状態の集合とする。但し１＝＜ＮＡ＜ＮＳとする。また、α（ｊ，ｔ−１）が０でないことを満たす状態Ｓｊの総数がＮＡ個よりも小さい場合は、α（ｊ，ｔ−１）が０でないことを満たす全ての状態Ｓｊを選択し状態集合ＳＡとする。あるフレームｔにおける状態集合ＳＢは、Ｓｊ＜ＩＮ＜ＳＡである全ての状態Ｓｊから遷移可能な全ての状態Ｓｉの集合とする。

（１−６）記憶部１０６
記憶部１０６は、基準フレームｑ（１＝＜ｑ＝＜Ｔ）と、出力確率バッファＲＳｊｉを格納する。

基準フレームｑは音声区間のいずれかのフレームの番号を記憶する。照合部１０４の処理において、ある基準フレームｑからフレーム毎に処理を進めて、当該フレームｔと基準フレームｑの差分（ｔ−ｑ）が閾値ＮＱを超えた場合には、当該フレームｔを新たな基準フレームｑとする。すなわち（ｔ−ｑ）＞＝ＮＱであれば基準フレームｑ＝ｔとして更新する。但し、基準フレームｑの初期値は１とする。すなわち、音声区間の始端（フレーム１）を常に最初の基準フレームとする。出力確率バッファＲＳｊｉは、あるフレームｔにおける出力確率Ｂｊｉ（ｘ（ｔ））の計算結果を記憶する。すなわちＲＳｊｉ＝Ｂｊｉ（ｘ（ｔ））とする。基準フレームｑが更新された場合には、出力確率バッファＲＳｊｉに記憶した出力確率の計算結果を忘却する。

（１−７）判定部１０７
判定部１０７は、フラグＦＳｊｉを格納する。フラグＦＳｊｉの各要素は［０，１］の二値のうちいずれかの値をとり、記憶部１０６において出力確率バッファＲＳｊｉに出力確率Ｂｊｉ（ｘ（ｔ））が記憶されている場合は１を、そうでない場合は０に設定する。

すなわち、フラグＦＳｊｉを参照することで、記憶部１０６の出力確率バッファＲＳｊｉに出力確率が記憶されているか否かを判定することができる。記憶部１０６に格納された基準フレームｑが初期値１をとるとき、または、基準フレームｑが更新された場合には、フラグＦＳｊｉの全ての要素を０に初期化する。

（２）出力確率Ｐ（Ｘ）の計算
次に、図１４の音声認識装置において、あるカテゴリが付与されたＨＭＭにおける音声特徴ベクトル列Ｘの出力確率Ｐ（Ｘ）を計算するための処理の流れを、図１５及び図１６のフローチャートを用いて説明する。

まず、図１５のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、各フレームで前向き確率α（ｉ，ｔ）を計算するまでの手順、及び、フレームｔにおける音声特徴ベクトル列Ｘの出力確率Ｐ（Ｘ）をもとめる手順を示す。

ステップＰ１０１においては、照合部１０４において、フレーム番号ｔを１に初期化する。

ステップＰ１０２においては、記憶部１０６において、基準フレーム番号ｑを１に初期化する。

ステップＰ１０３においては、判定部１０７において、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して、フラグＦＳｊｉを０で初期化する。

ステップＰ１０４においては、照合部１０４において、ステップＰ１２０）の手順で、当該フレームｔ＝１における前向き確率α（ｉ，ｔ）を計算する。つまり、フレーム１における前向き確率を求める。ステップＰ１２０の詳細については後述する。

ステップＰ１０５においては、照合部１０４において、フレーム番号ｔを１だけ増加させる。すなわち、ｔ＝ｔ＋１として、次のフレームの処理に進む。

ステップＰ１０６においては、照合部１０４において、当該フレームのフレーム番号ｔを、音声の終端を示すフレーム番号ｔと比較する。ｔ＝＜Ｔの場合、すなわちフレームｔが音声区間内のフレームの場合はステップＰ１０７〜ステップＰ１１１に進み、当該フレームｔの前向き確率を求める。ｔ＞Ｔの場合、すなわち音声区間の全てのフレームに対する処理が終了した場合はステップＰ１１２で、音声特徴ベクトル列Ｘの出力確率Ｐ（Ｘ）を求める。

ステップＰ１０７においては、記憶部１０６において、当該フレーム番号ｔと基準フレーム番号ｑの差分を閾値ＮＱと比較し、基準フレームｑを更新するか否かを判定する。基準フレームｑから当該フレームｔまでの経過フレーム数がＮＱ以上である、つまり（ｔ−ｑ）＞＝ＮＱの場合はステップＰ１０９〜ステップＰ１１１に進み、基準フレームｑを更新した上で当該フレームｔの前向き確率を求める。（ｔ−ｑ）＜ＮＱの場合はステップＰ１０８）に進み、基準フレームｑを更新せずに当該フレームｔの前向き確率を求める。

ステップＰ１０８においては、照合部１０４において、ステップＰ１２０の手順で、当該フレームｔにおける前向き確率α（ｉ，ｔ）を計算する。つまり、基準フレームｑを更新せずに、当該フレームｔの前向き確率を求める。ステップＰ１２０の詳細については後述する。

ステップＰ１０９においては、記憶部１０６において、基準フレームｑを当該フレームｔで更新する。すなわちｑ＝ｔとする。

ステップＰ１１０においては、判定部１０７において、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して、フラグＦＳｊｉを０で初期化する。

ステップＰ１１１においては、照合部１０４において、ステップＰ１２０の手順で、当該フレームｔにおける前向き確率α（ｉ，ｔ）を計算する。つまり、基準フレームｑを更新した上で、当該フレームｔの前向き確率を求める。ステップＰ１２０の詳細については後述する。

ステップＰ１１２においては、フレームＴにおける、Ｓｉ＜ＩＮ＜ＳＦである状態Ｓｉの最大の前向き確率を式（９）により求める。すなわち、ステップＰ８０において、あるカテゴリが付与されたＨＭＭにおける音声特徴ベクトル列Ｘの出力確率Ｐ（Ｘ）の計算を終了する。

（３）前向き確率α（ｉ，ｔ）の計算
次に、図１６のフローチャートにおける処理の詳細を以下で説明する。

このフローチャートは、各フレームにおける前向き確率α（ｉ，ｔ）の計算の詳細を示す。

ステップＰ１２１においては、探索対象選択部１０５において、フレームｔ−１で計算済みの前向き確率α（ｊ，ｔ−１）を参照し、α（ｊ，ｔ−１）＝０でない全ての状態Ｓｊから、前向き確率の大きい上位ＮＡ個の状態を状態集合ＳＡとして選択する。但し、α（ｊ，ｔ−１）＝０でない状態Ｓｊの個数がＮＡより少ない場合には、α（ｊ，ｔ−１）＝０でない全ての状態Ｓｊを状態集合ＳＡとして選択する。なお、ｔ＝１の場合の前向き確率α（ｊ，０）は式（１０）で与えられる。

ステップＰ１２２においては、探索対象選択部１０５において、Ｓｊ＜ＩＮ＜ＳＡである全ての状態Ｓｊから、Ａｊｉ＝０でない遷移パスによって遷移可能な全ての状態を状態集合ＳＢとして選択する。

ステップＰ１２３においては、Ｓｊ＜ＩＮ＜ＳＡかつＳｉ＜ＩＮ＜ＳＢを満たす全ての（ｊ，ｉ）の組み合わせに対して、以下に述べるステップＰ１２４〜ステップＰ１２８を実行する。全ての（ｊ，ｉ）に対する処理が終了した時点でステップＰ１２９に進む。

ステップＰ１２４においては、判定部１０７において、フラグＦＳｊｉを参照し、ＦＳｊｉ＝１であれば、すなわち記憶部１０６の出力確率バッファＲＳｊｉに出力確率が記憶されていれば、ステップＰ１２８に進む。ＦＳｊｉ＝１でなければ、すなわち出力確率バッファＲＳｊｉに計算済みの出力確率が記憶されていなければ、ステップＰ１２５〜ステップＰ１２７に進み、出力確率の計算とその記憶を行う。

ステップＰ１２５においては、照合部１０４において、当該フレームｔにおける音声特徴ベクトルｘ（ｔ）の出力確率Ｂｊｉ（ｘ（ｔ））を式（７）及び式（８）で計算する。

ステップＰ１２６においては、記憶部１０６において、ステップＰ１２５で計算した出力確率Ｂｊｉ（ｘ（ｔ））を、出力確率バッファＲＳｊｉに記憶する。すなわちＲＳｊｉ＝Ｂｊｉ（ｘ（ｔ））とする。

ステップＰ１２７においては、判定部１０７において、フラグＦＳｊｉに、記憶部１０６の出力確率バッファＲＳｊｉに出力確率の計算結果を記憶したことを示す数値１をセットする。すなわちＦＳｊｉ＝１とする。

ステップＰ１２８においては、照合部１０４において、当該フレームｔにおける音声特徴ベクトルｘ（ｔ）の出力確率Ｂｊｉ（ｘ（ｔ））を、記憶部１０６の出力確率バッファＲＳｊｉに記憶した出力確率で近似する。すなわちＢｊｉ（ｘ（ｔ））＝ＲＳｊｉとする。

ステップＰ１２９においては、前述のステップＰ１２５で計算した出力確率、及び、前述のステップＰ１２８で得た出力確率の近似値をもとに、当該フレームｔにおける前向き確率α（ｉ，ｔ）を計算する。ステップＰ１２４〜ステップＰ１２９を考慮すると、前向き確率α（ｉ，ｔ）の計算式は以下の式（１２）、式（１３）、式（１４）となる。これらの３つの式は、従来の音声認識方式における式（１１）を置き換える式である。

式（１２）、式（１３）、式（１４）では、ＦＳｊｉ＝０かつ｛ｊ：Ｓｊ＜ＩＮ＜ＳＡ｝かつ｛ｉ：Ｓｉ＜ＩＮ＜ＳＢ｝を満たす（ｊ，ｉ）に対してのみ出力確率Ｂｊｉ（ｘ（ｔ））の計算を行うため、式（１１）に比べて出力確率Ｂｊｉ（ｘ（ｔ））の計算回数を大きく削減できる。

このとき、当該フレームｔの前向き確率α（ｉ，ｔ）は、フレームｔ−１における前向き確率のうち上位ＮＡ個の前向き確率に対して計算するため、ＮＡを適切な値に設定すれば、α（ｉ，ｔ）もフレームｔにおいて上位の前向き確率をもつことが期待できる。

すなわち、フレームｔ−１における全ての前向き確率α（ｊ，ｔ−１）（１＝＜ｊ＝＜ＮＳ）に対して計算する場合の良好な近似値となることが期待できる。

また、入力音声の時間変化に対するフレーム幅が十分に小さければ、時間的に近接する音声特徴ベクトルの差も小さくなるため、（ｔ−ｑ）＜ＮＱかつｑ＝＜ｔ’＜ｔを満たすｑ、ｔ、ｔ’に対して、ＮＱを適切な値に設定すれば、出力確率Ｂｊｉ（ｘ（ｔ’））と出力確率Ｂｊｉ（ｘ（ｔ））の差も十分に小さくなると期待できる。すなわち、ＲＳｊｉ＝Ｂｊｉ（ｘ（ｔ’））がＢｊｉ（ｘ（ｔ））の良好な近似値となることが期待できる。

（４）効果
第１の実施形態で説明した音声認識装置では、式（１２）、式（１３）、式（１４）に基づき前向き確率を計算することで、式（１１）による従来の前向き確率の計算に比べて、出力確率計算の回数を大きく削減すると共に、式（１１）の良好な近似値を得ることができる。この結果、音声認識処理において、認識性能に悪影響を与えることなく、出力確率計算の回数を効率的に削減できる。これは音声認識処理の計算コストを効率よく削減する上で非常に有用である。

（５）変更例
本発明は上記実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。

（５−１）変更例１
本実施形態では、音響処理部１０１において、音声特徴ベクトルとしてＭＦＣＣを用いた。

しかし、本実施形態は特定の音声特徴ベクトルに限定されることなく、ＬＰＣやＰＬＰなど、任意の音声特徴ベクトルに対して実施可能である。

（５−２）変更例２
本実施形態では、音声区間検出部１０２において、音声区間を検出する方法として推定雑音パワーと入力音声パワーの比率に基づく方法を用いた。

しかし、本実施形態は特定の音声区間検出方法に限定されることなく、推定雑音区間と推定音声区間の尤度比に基づく方法など、任意の音声区間検出方法に対して実施可能である。

（５−３）変更例３
本実施形態では、辞書部１０３において、図１７及び図１８で例示した構造をもつＨＭＭを用いた。

しかし、本実施形態は特定の構造をもつＨＭＭに限定されることなく、エルゴディックな構造をもつＨＭＭなど、任意の構造をもつＨＭＭに対して実施可能である。

（５−４）変更例４
本実施形態では、辞書部１０３において、出力確率Ｂｊｉ（ｘ）として式（７）に示すように混合正規分布の出力確率の重み付け和を用いた。

しかし、複数の正規分布から最大の出力確率を選択し、それを出力確率Ｂｊｉ（ｘ）とする方法でも実施可能である。

（５−５）変更例５
本実施形態では、辞書部１０４において、ビタビ法に基づく前向き確率の計算式を用いた。

しかし、本実施形態は特定の前向き確率の計算式に限定されることなく、トレリス法など、任意の前向き確率の計算式に対して実施可能である。

（５−６）変更例６
本実施形態では、探索対象選択部１０５において、ビームサーチの方法として前向き確率の上位ＮＡ個をもつ状態を選択する方法を用いた。

しかし、本実施形態は特定の状態選択方法に限定されることなく、任意の状態選択方法に対して実施可能である。

（５−７）変更例７
本実施形態では、記憶部１０６において、基準フレームから当該フレームまでの経過フレーム数の閾値判定に固定の閾値ＮＱを用いた。

しかし、本実施形態は特定の基準フレーム更新方法に限定されることなく、任意の基準フレーム更新方法に対して実施可能である。

（第２の実施形態）
次に、第２の実施形態の音声認識装置について図１９から図２２に基づいて説明する。

（１）音声認識装置の構成
図１９は、第２の実施形態の音声認識装置の構成例を示すブロック図である。

図１９に示す音声認識装置は、音響処理部１０１、音声区間検出部１０２、辞書部２０３、照合部２０４、探索対象選択部１０５、記憶部２０６、判定部２０７、を備える。

ここで、第１の実施形態の図１４と同じ番号を有する音響処理部１０１、音声区間検出部１０２、探索対象選択部１０５は、第１の実施形態と同じ動作をするため、ここでは説明を省略する。

（１−１）辞書部２０３
辞書部２０３は、第１の実施形態における辞書部１０３と同じく、異なるカテゴリを付与された複数のＨＭＭを格納する。

辞書部１０３と異なるのは、確率密度関数Ｂｊｉ（）として混合正規分布を用いる際に、ある正規分布が複数の確率密度関数によって共有される構造をもつことである。

辞書部２０３は、辞書部１０３に加えて、さらに確率密度関数Ｂｊｉ（）のｍ番目の多次元正規分布Ｇｊｉｍ（）がＨＭＭを構成する正規分布へのインデックスを保持するテーブルＴＮｊｉｍをもち、かつ、多次元正規分布Ｇｊｉｍ（）を式（１５）で定義する。

但し、μｎはＨＭＭのｎ番目の多次元正規分布の平均ベクトルであり、ΣｎはＨＭＭのｎ番目の多次元正規分布の共分散行列である。

また、１＝＜ｎ＝＜ＮＮであり、ＮＮはＨＭＭがもつユニークな正規分布の数である。さらに、ｊ１はｊ２と等しくなく、かつ、ｉ１はｉ２と等しくないときは（ｊ１、ｉ１、ｍ１）と（ｊ２、ｉ２、ｍ２）に対して、ｎ＝ＴＮｊ１ｉ１ｍ１＝ＴＮｊ２ｉ２ｍ２である場合がある。この場合、正規分布Ｎ（μｎ、Σｎ）は、２つの確率密度関数Ｂｊ１ｉ１（）とＢｊ２ｉ２（）に共有されている。

（１−２）照合部２０４
照合部２０４は、第１の実施形態の照合部１０４と同じく、ＨＭＭと音声特徴ベクトル列との照合を行う。但し、前述の辞書部２０４及び後述する記憶部２０６、判定部２０７の動作に応じて、照合部１０４とは一部異なる動作を行う。これについては後述する。

（１−３）記憶部２０６
記憶部２０６は、第１の実施形態における記憶部１０６に加えて、正規分布の出力確率バッファＲＮｎ（１＝＜ｎ＝＜ＮＮ）を格納する。

照合部２０４の処理において、あるフレームｔにおける出力確率Ｂｊｉ（ｘ（ｔ））の計算において、式（７）及び式（１５）に基づきｎ番目の正規分布の出力確率Ｎ（μｎ，Σｎ）が計算された場合に、その計算結果を記憶する。すなわちＲＮｎ＝Ｎ（μｎ、Σｎ）とする。

（１−４）判定部２０７
判定部２０７は、第１の実施形態における判定部１０７に加えて、フラグＦＮｎを格納する。フラグＦＮｎの各要素は［０，１］の二値のうちいずれかの値をとり、記憶部２０６において正規分布の出力確率バッファＲＮｎに正規分布の出力確率Ｎ（μｎ，Σｎ）が記憶されている場合は１を、そうでない場合は０に設定する。

すなわち、フラグＦＮｎを参照することで、記憶部２０６の正規分布の出力確率バッファＲＮｎに正規分布の出力確率が記憶されているか否かを判定することができる。記憶部２０６に格納された基準フレームｑが初期値１をとるとき、または、基準フレームｑが更新された場合には、フラグＦＮｎの全ての要素を０に設定する。

（２）出力確率Ｐ（Ｘ）の計算
次に、図１９の音声認識装置において、あるカテゴリが付与されたＨＭＭにおける音声特徴ベクトル列Ｘの出力確率Ｐ（Ｘ）を計算するための処理の流れを、図２０、図２１及び図２２のフローチャートを用いて説明する。

但し、図２０及び図２１において、第１の実施形態の図１５及び図１６と同じ番号を有する処理ステップは、第１の実施形態から変更がないため、ここでは説明を省略する。

また、第１の実施形態における辞書部１０３、照合部１０４、記憶部１０６、判定部１０７に関連する処理ステップの説明は、第２の実施形態における辞書部２０３、照合部２０４、記憶部２０６、判定部２０７に関連する動作の説明として読みかえるものとする。

まず、図２０のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、各フレームで前向き確率α（ｉ，ｔ）を計算するまでの手順、及び、フレームｔにおける音声特徴ベクトル列Ｘの出力確率Ｐ（Ｘ）をもとめる手順を示す。

ステップＰ２０３においては、判定部２０７において、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して、フラグＦＳｊｉを０で初期化する。さらに、１＝＜ｎ＝＜ＮＮである全てのｎに対して、フラグＦＮｎを０で初期化する。

ステップＰ２０４においては、照合部２０４において、ステップＰ２００の手順で、当該フレームｔ＝１における前向き確率α（ｉ，ｔ）を計算する。つまり、フレーム１における前向き確率を求める。ステップＰ２００）の詳細については後述する。

ステップＰ２０８においては、照合部２０４において、ステップＰ２２０の手順で、当該フレームｔにおける前向き確率α（ｉ，ｔ）を計算する。つまり、基準フレームｑを更新せずに、当該フレームｔの前向き確率を求める。ステップＰ２２０の詳細については後述する。

ステップＰ２１０においては、判定部２０７において、１＝＜ｊ，ｉ＝＜ＮＳである全ての（ｊ，ｉ）に対して、フラグＦＳｊｉを０で初期化する。さらに、１＝＜ｎ＝＜ＮＮである全てのｎに対して、フラグＦＮｎを０で初期化する。

ステップＰ２１１においては、照合部２０４において、ステップＰ２２０の手順で、当該フレームｔにおける前向き確率α（ｉ，ｔ）を計算する。つまり、基準フレームｑを更新した上で、当該フレームｔの前向き確率を求める。ステップＰ２２０の詳細については後述する。

（３）前向き確率α（ｉ，ｔ）の計算
次に、図２１のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、各フレームにおける前向き確率α（ｉ，ｔ）の計算の概要を示す。

ステップＰ２２５においては、照合部２０４において、ステップＰ２２５の手順で、当該フレームｔにおける音声特徴ベクトルｘ（ｔ）の出力確率Ｂｊｉ（ｘ（ｔ））を計算する。ステップＰ２２５の詳細については後述する。

（４）出力確率Ｂｊｉ（ｘ（ｔ））の詳細
次に、図２２のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、出力確率Ｂｊｉ（ｘ（ｔ））の詳細を示す。

ステップＰ２３１においては、照合部２０４において、Ｂｊｉ（ｘ（ｔ））の計算で参照する正規分布Ｇｊｉｍの、全てのｍ（１＝＜ｍ＝＜Ｍ）に対して、以下に述べるステップＰ２３２〜ステップＰ２３７を実行する。

ステップＰ２３２においては、辞書部２０３において、正規分布へのインデックスを保持するテーブルＴＮｊｉｍを用いて、多次元正規分布のインデックスｎを得る。すなわちｎ＝ＴＮｊｉｍとする。

ステップＰ２３３においては、判定部２０７において、ステップＰ２３２でもとめたインデックスnに応じてフラグＦＮｎを参照し、ＦＮｎ＝１であれば、すなわち記憶部２０６の正規分布の出力確率バッファＲＮｎに出力確率が記憶されていれば、ステップＰ２３７に進む。ＦＮｎ＝１でなければ、すなわち正規分布の出力確率バッファＲＮｎに出力確率が記憶されていなければ、ステップＰ２３４〜ステップＰ２３６に進み、正規分布の出力確率の計算とその記憶を行う。

ステップＰ２３４においては、照合部２０４において、インデックスｎをもつ正規分布Ｇｊｉｍ（）＝Ｎ（μｎ、Σｎ）に対して、当該フレームｔにおける音声特徴ベクトルｘ（ｔ）の出力確率Ｇｊｉｍ（ｘ（ｔ））を計算する。

ステップＰ２３５においては、記憶部２０６において、ステップＰ１２５で計算した正規分布の出力確率Ｇｊｉｍ（ｘ（ｔ））を、正規分布の出力確率バッファＲＮｎに記憶する。すなわちＲＮｎ＝Ｇｊｉｍ（ｘ（ｔ））とする。

ステップＰ２３６においては、判定部２０７において、フラグＦＮｎに、記憶部２０６の正規分布の出力確率バッファＲＮｎに出力確率を記憶したことを示す数値１をセットする。すなわちＦＮｎ＝１とする。

ステップＰ２３７においては、照合部２０４において、正規分布の出力確率Ｇｊｉｍ（ｘ（ｔ））を、記憶部１０６の出力確率バッファＲＮｎに記憶した出力確率で近似する。すなわちＧｊｉｍ（ｘ（ｔ））＝ＲＮｎとする。

ステップＰ２３８においては、照合部２０４において、前述のステップＰ２３５で計算した正規分布の出力確率、及び、前述のステップＰ２２８で得た正規分布の近似値をもとに、当該フレームｔにおける出力確率Ｂｊｉ（ｘ（ｔ））を計算する。ステップＰ２３１〜ステップＰ２３７を考慮すると、出力確率Ｂｊｉ（ｘ（ｔ））の計算式は以下の式（１６）、式（１７）、式（１８）となる。これらの３つの式は、第１の実施形態における式（７）を置き換える式である。

式（１６）、式（１７）、式（１８）では、ｎ＝ＴＮｊｉｍかつＦＮｎ＝１を満たす（ｍ，ｎ）に対してのみ正規分布の出力確率Ｇｊｉｍ（ｘ（ｔ））の計算を行うため、第２の実施形態の式（７）に比べて正規分布の出力確率の計算回数を大きく削減できる。

このとき、入力音声の時間変化に対するフレーム幅が十分に小さければ、時間的に近接する音声特徴ベクトルの差も小さくなるため、（ｔ−ｑ）＜ＮＱかつｑ＝＜ｔ’＜ｔを満たすｑ、ｔ、ｔ’に対して、ＮＱを適切な値に設定すれば、正規分布の出力確率Ｇｊｉｍ（ｘ（ｔ’））とＧｊｉｍ（ｘ（ｔ））の差も十分に小さくなると期待できる。

すなわち、ＲＮｎ＝Ｇｊｉｍ（ｘ（ｔ’））がＧｊｉｍ（ｘ（ｔ））の良好な近似値となることが期待できる。但しこのときn＝ＴＮｊｉｍとする。

（５）効果
つまり、第２の実施形態で説明した音声認識装置では、式（１６）、式（１７）、式（１８）に基づき出力確率を計算することで、第１の実施形態の式（７）による出力確率の計算に比べて、正規分布の計算回数を大きく削減すると共に、式（７）の良好な近似値を得ることができる。

この結果、音声認識処理において、認識性能に悪影響を与えることなく、正規分布の計算回数を削減する、すなわち出力確率計算の計算コストを効率的に削減できる。これは音声認識処理の計算コストを効率よく削減する上で非常に有用である。

（第３の実施形態）
次に、第３の実施形態の音声認識装置について図２３から図２５に基づいて説明する。

（１）音声認識装置の構成
図２３は、第３の実施形態の音声認識装置の構成例を示すブロック図である。

図２３に示す音声認識装置は、音響処理部１０１、音声区間検出部１０２、辞書部１０３、照合部３０４、探索対象選択部１０５、記憶部１０６、判定部１０７、を備える。

ここで、第１の実施形態の図１４と同じ番号を有する音響処理部１０１、音声区間検出部１０２、辞書部１０３、探索対象選択部１０５、記憶部１０６、判定部１０７は、第１の実施形態と同じ動作をするため、ここでは説明を省略する。

照合部３０４は、第１の実施形態の照合部１０４と同じく、ＨＭＭと音声特徴ベクトル列との照合を行う。但し、照合部１０４とは一部異なる動作を行う。すなわち、あるフレームｔにおける前向き確率の計算において、音声特徴ベクトルの出力確率の計算が必要になった場合には、当該フレームｔの音声特徴ベクトルｘ（ｔ）の出力確率Ｂｊｉ（ｘ（ｔ））の近似値として、記憶部１０６で記憶された基準フレームｑの音声特徴ベクトルｘ（ｑ）の出力確率Ｂｊｉ（ｘ（ｑ））を用いる。

（２）出力確率Ｐ（Ｘ）の計算
次に、図２３の音声認識装置において、あるカテゴリが付与されたＨＭＭにおける音声特徴ベクトル列Ｘの出力確率Ｐ（Ｘ）を計算するための処理の流れを、図２４、図２５のフローチャートを用いて説明する。

但し、図２４及び図２５において、第１の実施形態の図１５及び図１６と同じ番号を有する処理ステップは、第１の実施形態から変更がないため、ここでは説明を省略する。

但し、第１の実施形態における照合部１０４に関連する処理ステップの説明は、第４の実施形態における照合部３０４に関連する動作の説明として読みかえるものとする。また、図２４のフローチャートにおける処理は、第１の実施形態における図１５のフローチャートと同一であるため、説明を省略する。

図２５のフローチャートにおける処理の詳細を以下で説明する。このフローチャートでは、第１の実施形態の図１６のフローチャートに対して、ステップＰ１２５及びステップＰ１２９がステップＰ３２５及びステップＰ２３９に変更されている。

ステップＰ３２５においては、照合部３０４において、記憶部１０６の基準フレーム番号ｑに対応する音声特徴ベクトルｘ（ｑ）の出力確率Ｂｊｉ（ｘ（ｑ））を式（７）及び式（８）で計算し、当該フレームｔにおける音声特徴ベクトルｘ（ｔ）の出力確率Ｂｊｉ（ｘ（ｔ））の代替値として用いる。

ステップＰ１２９においては、前述のステップＰ３２５で計算した出力確率の近似値、及び、ステップＰ１２８で得た出力確率の近似値をもとに、当該フレームｔにおける前向き確率α（ｉ，ｔ）を計算する。前向き確率α（ｉ，ｔ）の計算式は以下の式（１９）、式（２０）、式（２１）となる。これらの３つの式は、第２の実施形態における式（１２）、式（１３）、式（１４）を置き換える式である。

従来技術に好適な音声認識装置１のブロック図である。ＨＭＭの例１である。ＨＭＭの例２である。音声認識装置１のフローチャートである。音声認識装置１のフローチャートである。音声認識装置１における前向き確率の計算の概要図である。従来技術に好適な音声認識装置２のブロック図である。音声認識装置２における前向き確率の計算の概要図である。従来技術に好適な音声認識装置３のブロック図である。音声認識装置３における前向き確率の計算の概要図である。従来技術の問題点を解説するための前向き確率の計算の概要図である。従来技術の問題点を解説するための前向き確率の計算の概要図である。本発明の解決策を解説するための前向き確率の計算の概要図である。本発明の第１の実施形態の音声認識装置のブロック図である。第１の実施形態のフローチャートである。第１の実施形態のフローチャートである。本発明におけるＨＭＭの例である。ＨＭＭの例である。本発明の第２の実施形態の音声認識装置のブロック図である。第２の実施形態のフローチャートである。第２の実施形態のフローチャートである。第２の実施形態のフローチャートである。本発明の第３の実施形態の音声認識装置のブロック図である。第３の実施形態のフローチャートである。第３の実施形態のフローチャートである。

符号の説明

１０１音響処理部
１０２音声区間検出部
１０３辞書部
１０４照合部
１０５探索対象選択部
１０６記憶部
１０７判定部

Claims

入力する音声信号をＨＭＭ（隠れマルコフモデル）を用いて音声認識する音声認識装置において、
前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理部と、
前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶部と、
前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新部と、
前記基準フレームにおいてビームサーチに基づき前記ＨＭＭの第１探索範囲を選択する第１探索範囲選択部と、
前記第１探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第１出力確率を計算する第１出力確率計算部と、
前記第１出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第１出力確率記憶部と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第１出力確率の計算結果を全て消去する第１出力確率消去部と、
前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記ＨＭＭの第２探索範囲をフレーム毎に選択する第２探索範囲選択部と、
前記第２探索範囲が選択されたフレームである現フレームの前記第２探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定部と、
前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第１出力確率の計算結果あるいは後述の第２出力確率の計算結果を、前記遷移パスの第２出力確率の近似値とする近似値設定部と、
前記第１出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第２出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第２出力確率を計算する第２出力確率計算部と、
前記第２出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第２出力確率記憶部と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第２出力確率の計算結果を全て消去する第２出力確率消去部と、
予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第２出力確率から前記現フレームの前向き確率を計算する前向き確率計算部と、
前記最終フレームまで前記ＨＭＭ毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記ＨＭＭに付与されたカテゴリを、音声認識結果とする音声認識部と、
を備える
ことを特徴とする音声認識装置。
前記第１出力確率及び前記第２出力確率における確率密度関数が、混合正規分布であり、
前記ＨＭＭが、任意の正規分布を複数の確率密度関数が共有する構造であり、
前記第１出力確率計算部において、前記個々の遷移パスにおける前記第１出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
前記第１出力確率消去部において、前記第１出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
前記第２出力確率計算部において、前記第２出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
（１）前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
（２）前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
ことを特徴とする請求項１記載の音声認識装置。
前記基準フレーム記憶部において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
前記基準フレーム更新部において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
前記第２出力確率計算部において、前記基準フレームの音声特徴ベクトルの第２出力確率を計算する
ことを特徴とする請求項１記載の音声認識装置。
入力する音声信号をＨＭＭ（隠れマルコフモデル）を用いて音声認識する音声認識方法において、
音響処理部が、前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得し、
基準フレーム記憶部が、前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶し、
基準フレーム更新部が、前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行い、
第１探索範囲選択部が、前記基準フレームにおいてビームサーチに基づき前記ＨＭＭの第１探索範囲を選択し
第１出力確率計算部が、前記第１探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第１出力確率を計算し、
第１出力確率記憶部が、前記第１出力確率の計算結果を前記個々の遷移パスに結びつけて記憶し、
第１出力確率消去部が、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第１出力確率の計算結果を全て消去し、
第２探索範囲選択部が、前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記ＨＭＭの第２探索範囲をフレーム毎に選択し、
判定部が、前記第２探索範囲が選択されたフレームである現フレームの前記第２探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定し、
近似値設定部が、前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第１出力確率の計算結果あるいは後述の第２出力確率の計算結果を、前記遷移パスの第２出力確率の近似値とし、
第２出力確率計算部が、前記第１出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第２出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第２出力確率を計算し、
第２出力確率記憶部が、前記第２出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶し、
第２出力確率消去部が、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第２出力確率の計算結果を全て消去し、
前向き確率計算部が、予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第２出力確率から前記現フレームの前向き確率を計算し、
音声認識部が、前記最終フレームまで前記ＨＭＭ毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記ＨＭＭに付与されたカテゴリを、音声認識結果とする
ことを特徴とする音声認識方法。
前記第１出力確率及び前記第２出力確率における確率密度関数が、混合正規分布であり、
前記ＨＭＭが、任意の正規分布を複数の確率密度関数が共有する構造であり、
前記第１出力確率計算部が、前記個々の遷移パスにおける前記第１出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、
前記第１出力確率記憶部が、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
前記第１出力確率消去部が、前記第１出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
前記第２出力確率計算部が、前記第２出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
（１）前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
（２）前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
ことを特徴とする請求項４記載の音声認識方法。
前記基準フレーム記憶部が、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
前記基準フレーム更新部が、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
前記第２出力確率計算部が、前記基準フレームの音声特徴ベクトルの第２出力確率を計算する
ことを特徴とする請求項４記載の音声認識方法。
入力する音声信号をＨＭＭ（隠れマルコフモデル）を用いてコンピュータによって音声認識する音声認識プログラムにおいて、
前記コンピュータに、
前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理機能と、
前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶機能と、
前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新機能と、
前記基準フレームにおいてビームサーチに基づき前記ＨＭＭの第１探索範囲を選択する第１探索範囲選択機能と、
前記第１探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第１出力確率を計算する第１出力確率計算機能と、
前記第１出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第１出力確率記憶機能と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第１出力確率の計算結果を全て消去する第１出力確率消去機能と、
前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記ＨＭＭの第２探索範囲をフレーム毎に選択する第２探索範囲選択機能と、
前記第２探索範囲が選択されたフレームである現フレームの前記第２探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定機能と、
前記第１出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第２出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第１出力確率の計算結果あるいは後述の第２出力確率の計算結果を、前記遷移パスの第２出力確率の近似値とする近似値設定機能と、
前記第１出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第２出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第２出力確率を計算する第２出力確率計算機能と、
前記第２出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第２出力確率記憶機能と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第２出力確率の計算結果を全て消去する第２出力確率消去機能と、
予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第２出力確率から前記現フレームの前向き確率を計算する前向き確率計算機能と、
前記最終フレームまで前記ＨＭＭ毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記ＨＭＭに付与されたカテゴリを、音声認識結果とする音声認識機能と、
を実現させるための音声認識プログラム。
前記第１出力確率及び前記第２出力確率における確率密度関数が、混合正規分布であり、
前記ＨＭＭが、任意の正規分布を複数の確率密度関数が共有する構造であり、
前記コンピュータが、
前記第１出力確率計算機能において、前記個々の遷移パスにおける前記第１出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
前記第１出力確率消去機能において、前記第１出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
前記第２出力確率計算機能において、前記第２出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
（１）前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
（２）前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
ことを特徴とする請求項７記載の音声認識プログラム。
前記コンピュータが、
前記基準フレーム記憶機能において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
前記基準フレーム更新機能において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
前記第２出力確率計算機能において、前記基準フレームの音声特徴ベクトルの第２出力確率を計算する
ことを特徴とする請求項７記載の音声認識プログラム。