JP2008083367A

JP2008083367A - 音声認識装置、音声認識方法及びプログラム

Info

Publication number: JP2008083367A
Application number: JP2006263039A
Authority: JP
Inventors: Mitsuyoshi Tatemori; 三慶舘森
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-27
Filing date: 2006-09-27
Publication date: 2008-04-10

Abstract

【課題】音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することのできる音声認識装置を提供すること。
【解決手段】音響特徴生成部１０２は、入力信号に対し音響分析を行って、フレーム毎に、入力信号の音声パワーと特徴ベクトルを生成する。音声検出部１０３は、音声パワーをもとに、少なくとも音声の終端フレームを検出し、計算区間決定部１０７は、検出された終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する。照合部１０５は、モデル格納部１０４に格納された音響モデル及び言語モデルを利用して、特徴ベクトルの時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求める。認識結果計算部１０８は、処理対象範囲に含まれる各フレームを終端としたときの認識結果候補をもとにして、最終的な認識結果を求める。
【選択図】図１

Description

本発明は、音声認識装置、音声認識方法及びプログラムに関する。

従来の音声認識の基本的な方法について説明する。

従来の音声認識では、まず、入力信号から一定時間間隔（フレーム）ごとに音響特徴量（音声パワーなどの物理量や、一般にＭＦＣＣやΔＭＦＣＣなどを用いて生成される特徴ベクトルなど、音声の特徴を示す物理量）を生成すると同時に、入力信号から音声の開始時刻（始端フレーム）および音声終端時刻（終端フレーム）を検出するまで実行する。始端フレームから終端フレームまでの特徴ベクトルの時系列と、グラマーすなわち認識対象語彙を表現する音響モデルおよび認識対象文を表現する言語モデルとのマッチングを行い、各認識対象文（候補）の尤度を計算し、終端フレームにおいて、最も尤度の高い認識対象文（１位候補）を認識結果とする。

このように特徴ベクトルの時系列（始端フレームから終端フレームまでのフレーム区間の特徴ベクトル）とグラマーとのマッチングを行う音声認識技術では、通常、終端フレームの前後数フレームにおいて、入力音声が発した文が１位候補になることが多い。つまり、終端フレームの前後数フレームのどのフレームにおいても、そのフレームを終端フレームとした場合に、他のどの文よりも正解文の尤度が高いことが多い。なお、終端フレームより後のフレームにおける１位候補とは、仮に終端フレーム後もマッチングを継続した場合の、そのフレームにおける１位候補、という意味である。

しかし、音響モデルの不完全さや、音声と共に入力信号に混入する雑音などの影響により、終端フレーム付近において認識結果が揺らぐこと、すなわち、終端フレーム付近において、１位候補が正解文であったり不正解の文であったりして、正解文が安定して１位候補とならないことがある。極端な例としては、終端フレームのみにおいて非正解文が１位候補となり、その終端前後フレームにおいては全て正解文が１位候補である、という場合がある。このような認識結果の揺らぎにより、終端付近では正解文が１位候補であることが多いにもかかわらず、誤認識となることがある。
Lawrence R. Rabiner, "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition," Proceedings of the IEEE, vol. 77, no. 2, pp. 257-286, Feburuary 1989.

上述したように、従来の音声認識技術には、終端フレーム付近における認識結果の揺らぎにより誤認識が生じるという問題があった。

本発明は、上記事情を考慮してなされたもので、音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することのできる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。

本発明に係る音声認識装置は、入力音声から入力信号を生成する手段と、前記入力信号から、少なくとも音声の終端フレームを検出する検出手段と、前記入力信号から、マッチングに供するための音響特徴量を生成する生成手段と、検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する範囲決定手段と、予め用意された音響モデル及び言語モデルを利用して、前記第２の音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるマッチング手段と、前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求める処理手段とを備えたことを特徴とする。

なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための（あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための）プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。

本発明によれば、音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することが可能になる。

以下、図面を参照しながら本発明の実施形態について説明する。

（第１の実施形態）
図１に、本発明の第１の実施形態に係る音声認識装置の構成例を示す。

図１に示されるように、本実施形態の音声認識装置は、音声入力部１０１、音響特徴生成部１０２、音声検出部１０３、モデル格納部１０４、照合部１０５、候補格納部１０６、計算区間決定部１０７、認識結果計算部１０８を備えている。

まず、本音声認識装置の各部の機能の概要について説明する。

音声入力部１０１は、例えばマイクロフォンなどの外部装置からの入力音声を逐次取り込み、Ａ／Ｄ変換によりデジタル信号（入力信号）へ変換する。

音響特徴生成部１０２は、入力信号からフレーム単位で音響特徴量（例えば、特徴ベクトルや、入力信号のパワーなど）を生成し、格納する。

音声検出部１０３は、音響特徴生成部１０２において計算された音響特徴量から、音声の開始フレーム（始端フレーム）と終了フレーム（終端フレーム）を検出する。また、音声の始終端を照合部１０５に通知する。

モデル格納部１０４は、認識対象となる文の言語モデルおよび音響モデルを格納している。

照合部１０５は、音響特徴生成部１０２によって生成された特徴ベクトルの時系列について、音声の始端フレームから順に、モデル格納部１０４に格納された音響モデル、言語モデルとマッチングを行い、各認識対象文の尤度を計算する。すなわち、該時系列における音声の始端フレームに係る部分から終端フレームに係る部分までの範囲についてのみが認識対象とされるのではなく、フレームＴを順にシフトして得られる、該時系列における音声の始端フレームからフレームＴまでのフレーム区間のそれぞれが認識対象とされる（なお、少なくともフレームＴが下記の認識結果計算区間の最終フレームに達するまで、処理が繰り返される）。

候補格納部１０６は、各フレームについて、そのフレームを終端としたときの認識結果候補が存在すれば、それらを格納する。

計算区間決定部１０７は、終端フレームが検出されると、認識結果計算部１０８において計算対象の範囲とする「終端フレームを含むフレーム区間」（認識結果計算区間）を、当該終端フレームをもとにして算出する。また、フレーム区間を照合部１０５に通知する。

認識結果計算部１０８は、照合部１０５において、上記の認識結果計算区間の全フレームのマッチングが完了すると、計算区間決定部１０７により算出された認識結果計算区間の各フレームを終端フレームとする認識結果候補を取得し、それら認識結果候補をもとにして認識結果を求め、出力する。

図２に、本実施形態の音声認識装置の動作例を表すフローチャートを示す。

この動作例では、隠れマルコフモデル（ＨＭＭ）を用いた単語認識の場合を例にとって説明する。

ここでは、音響モデルとして音素単位のｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型の隠れマルコフモデル（音素ＨＭＭ）を使用する。図３に、３状態のｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭを示す。初期状態（４０１）と最終状態（４０２）と３個の出力状態（４０３）とが存在し、各出力状態には、自己ループ（４０４）と次の状態への遷移アーク（４０５）とが付随する。なお、以下では、Ｎ状態ＨＭＭといった場合、Ｎ個の出力状態を持つｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭを指すものとする。

認識対象語彙の各単語には音素列が対応しており、その音素列の順に左から音素ＨＭＭの連結することによって得られる単語モデル（単語ＨＭＭ）を作成する。図４に、その一例として、音素列／Ａ／Ｏ／からなる単語「青」の単語ＨＭＭを示す。単語ＨＭＭの初期状態（５０１）に続き、単語ＨＭＭを構成する音素／Ａ／に対応する音素ＨＭＭの出力状態列（５０２）、単語ＨＭＭを構成する音素／Ｏ／に対応する音素ＨＭＭの出力状態列（５０３）、単語ＨＭＭの最終状態（５０４）が続く。

単語ＨＭＭと特徴ベクトルとのマッチングアルゴリズムとしては、例えば、よく知られたＶｉｔｅｒｂｉアルゴリズムを使用することができる（単語ＨＭＭを用いたＶｉｔｅｒｂｉアルゴリズムによるマッチングについては、非特許文献１に詳細な記述がある）。

なお、単語認識の場合、言語モデルは単なる認識対象単語の集合である。

まず、当該音声認識装置に入力音が与えられると、音声検出の状態ＳをＳ＝音声前とし、ＰｓとＰｅを所定のレベルに設定する（ステップＳ２００）。

音声入力部１０１において入力音をＡ／Ｄ変換によってデジタル信号（入力信号）に変換し（ステップＳ２０１）、音響特徴生成部１０２において入力信号からフレーム単位で音響特徴量（ここでは、特徴ベクトルおよび入力信号のパワー）を計算する（ステップＳ２０２）。

音声検出部１０３においては、音響特徴生成部１０２で生成された入力信号のパワーを監視し、パワーが所定のレベルＰｓ以上になれば音声開始（始端フレーム）と判断し（ステップＳ２０３）、Ｓ＝音声中、かつ、所定のレベルＰｅ以下になれば、音声終了（終端フレーム）と判断する（ステップＳ２０４−１〜Ｓ２０４−３）。

音声開始を検出すると、Ｓ＝音声中、Ｐｓ＝∞とし（これにより、以降、ステップＳ２０３ではすべてＮｏになる）、音声の始端フレームをＴ＝１とし、終端フレームをＴｅ＝∞とするとともに、併せて後述する尤度計算の初期化を行う（ステップＳ２０５）。なお、実際には、上記の∞には、当該音声認識装置が表現可能な最大の若しくは十分大きい（符号付きの）数を用いればよい（後で用いる−∞についても、同様で、当該音声認識装置が表現可能な最小の若しくは十分小さい（符号付きの）数を用いればよい）。

続いて、ステップＳ２０６〜Ｓ２１１の一連の処理（特徴ベクトルと音響モデルとのマッチング）が、終端フレームが検出されるまで（ステップＳ２１１でＹｅｓとなるまで）、ステップＳ２０８でＴを１増加しながら、繰り返し行われる。

ここでは、単語ＨＭＭを用いたＶｉｔｅｒｂｉアルゴリズムによるマッチングを具体例にとって説明する。

この繰り返し処理では、まず、照合部１０５において、マッチングを開始する前に、各値を初期化する。

具体例としては、初期化を次のように行う。
Ｔ＝１のとき、尤度計算に先立って、認識対象語彙の各単語Ｗについて、
単語Ｗの初期状態Ｓ０について、
Ｌ（Ｗ，Ｓ０，０）＝０
とし、また、Ｓ≠Ｓ０，Ｔ≠０である状態、時刻を持つ全ての（Ｗ，Ｓ，Ｔ）について、
Ｌ（Ｗ，Ｓ，Ｔ）＝−∞
Ｂ（Ｗ，Ｓ０，Ｔ）＝φ
とする。

ここで、上記のＬ、Ｂは、それぞれ、非特許文献１などの一般の文献において、対数尤度、バックポインタと呼ばれている値である。以下では、対数尤度のみを扱うので、対数尤度を単に尤度と呼ぶものとする。

なお、本具体例において、バックポインタを計算、保持する方法を記述しているが、それは、後で説明する第１１の実施形態においてバックポインタが必要となることから、説明の便宜上、併せて記述したものであり、本実施形態では、実際には、バックポインタは使用しないので、バックポインタの計算、保持は省いて構わない（第２〜第１０の実施形態についても同様である）。

次に、Ｔ＝１から順にフレームが生成される毎に、そのフレームに対し、各状態遷移に伴う尤度計算を行い（ステップＳ２０６）、そのフレームを終端としたときの認識結果候補が存在すれば候補格納部１０６に格納する（ステップＳ２０７）。

具体例としては、尤度計算を次のように行う。
Ｌ（Ｗ，Ｓ，Ｔ）＝maxs_’｛Ｌ（Ｗ，Ｓ’，T-1）＋log（ｆ（Ｗ，Ｓ’，Ｓ，Ｔ））｝，
Ｂ（Ｗ，Ｓ，Ｔ）＝（Ｗ，Ｓ^＊，T-1），
Ｓ^＊＝argmaxs_’｛Ｌ（Ｗ，Ｓ’，T-1）＋log（ｆ（Ｗ，Ｓ’，Ｓ，Ｔ））｝
とする。ただし、ｆ（Ｗ，Ｓ’，Ｓ，Ｔ）は、状態Ｓ’から状態Ｓへ遷移するときの、フレームＴの特徴ベクトルに対する出力確率である。また、maxs_’とargmaxs_’は、単語Ｗの状態Ｓに遷移可能な全ての状態Ｓ’に関してとるものとする。また、ｌｏｇは自然対数である。

ここで、上記尤度計算の際、Ｓｗが単語Ｗの単語ＨＭＭの最終状態であり、フレームＴにおいてＬ（Ｗ，Ｓｗ，Ｔ）の値が初期値（−∞）でなければ、（Ｗ，Ｔ，Ｌ（Ｗ，Ｓｗ，Ｔ），Ｂ（Ｗ，Ｓｗ，Ｔ））の組を認識結果候補として候補格納部１０６に格納する（ステップＳ２０７）。

さて、ここで、本実施形態と従来法との違いを明確にするため、従来法での認識結果の求め方を示す。従来法では、上記の尤度計算をＴ＝１から各フレームについて繰り返し、音声検出部１０３において終端フレームＴｅを検出すると、次式によって与えられる単語Ｗ^＊を認識結果として出力し、入力音声に対する認識が終了する。
Ｗ^＊＝argmaxw Ｌ（Ｗ，Ｓｗ，Ｔｅ）、Ｓｗは単語Ｗの最終状態
ただし、ａｒｇｍａｘｗは、認識対象単語Ｗ全てに関するａｒｇｍａｘである。

これに対して本実施形態では、従来法と同様に尤度計算を繰り返すが、終端フレーム検出後の処理が異なっている点が従来法とは本質的に異なっている。

すなわち、本実施形態では、入力信号のパワーが所定のレベルＰｅ以下となり終端を検出すると（ステップＳ２０４−１〜Ｓ２０４−３）、まず、Ｐｅ＝∞、終端フレームＴｅをＴｅ＝Ｔ、Ｓ＝音声後とする（ステップＳ２０９）。次に、計算区間決定部１０７において、その終端フレームＴｅ＝Ｔを含む認識結果計算区間［Ｔａ，Ｔｂ］を計算する（ステップＳ２１０）。ここで、Ｔａは認識結果計算区間における最初のフレームであり、Ｔｂは最終のフレームである。

例えば、予め定められた整数Ｔ１、Ｔ２（Ｔ１≧０且つＴ２≧０。ただしＴ１＝Ｔ２＝０ではない。）によって、認識結果計算区間［Ｔａ，Ｔｂ］を、Ｔａ＝Ｔｅ−Ｔ１、Ｔｂ＝Ｔｅ＋Ｔ２と計算する。ただし、Ｔｅ−Ｔ１≦０の場合はＴａ＝１とする。

続いて、計算区間決定部１０７は、算出された認識結果計算区間［Ｔａ，Ｔｂ］の最終フレームＴｂまで（すなわち、ステップＳ２１１がＮｏの間）、上記の尤度計算のための一連の処理（ステップＳ２０６〜Ｓ２１１）を継続し、尤度計算が最終フレームＴｂまで完了すると（すなわち、ステップＳ２１１がＹｅｓになると）、認識結果計算部１０８では、候補格納部１０６に格納されている、認識結果計算区間［Ｔａ，Ｔｂ］に含まれる各フレームを終端としたときの認識結果候補をもとにして認識結果を算出する（ステップＳ２１２）。

ここで、認識結果の算出方法の一例を示す。なお、認識結果の算出方法はこれに限定されるものではなく、様々な方法がある。

図５及び図６に、認識結果の算出方法の一例を表すフローチャートを示す。

まず、認識結果計算区間［Ｔａ、Ｔｂ］の各フレームＴにおいて、そのフレームＴを終端フレームとする認識結果候補Ｃ＝（Ｗ，Ｔ，Ｌ（Ｗ，Ｓｗ，Ｔ），Ｂ（Ｗ，Ｓｗ，Ｔ））のうちで、Ｌ（Ｗ，ＳＷ，Ｔ）が最大である認識結果候補（１位候補）を、候補格納部１０６から抽出する（ステップＳ３０１〜Ｓ３０５）。このように、各フレームから抽出された認識結果候補の集合｛Ｃ_Ｔ｝（Ｔ＝Ｔａ，Ｔａ＋１，…，Ｔｂ）を認識結果候補群と呼ぶものとする。なお、認識結果候補が全く存在しないフレームがあれば、そのフレームは認識計算区間から除外し、認識結果候補が存在するフレームについて１位候補を求める。

次に、上記の認識結果候補群中の各認識結果候補が保持する単語について、相異なる単語をＷ^１，Ｗ^２，…，Ｗ^Ｎとし、各単語の認識結果候補群中の出現頻度（単語Ｗｋを持つ認識結果候補の個数）をｎ^ｋ，ｋ＝１，２，…，Ｎとする（ステップＳ３０６）。また、認識結果候補の総数をｎ（＝ｎ^１＋ｎ^２＋…＋ｎ^Ｎ）とする（ステップＳ３０７）。ここで、特に、終端フレームＴｅにおける１位候補Ｃ_Ｔｅが保持する単語をＷｅとし（ステップＳ３０８）、認識結果を次のように決定する。

（１）Ｎ＝１の場合（ステップＳ３０９でＮｏとなる場合）は、認識結果候補群に１種類の単語Ｗｅしか存在しないので、Ｗｅを認識結果とする（ステップＳ３１２）。

（２）Ｎ＞１であり、ｎ^ｍ／ｎ≧Ｒ_１（ここで、Ｒ_１は予め与えられたＲ_１≦１を満たす定数である。）となる単語Ｗ^ｍが存在する場合（ステップＳ３１０でＮｏとなる場合）には、その中でｎ^ｍ／ｎが最大のもの、つまり最も出現頻度の高い候補を認識結果とする。なお、Ｒ_１＝０と設定した場合、これは出現頻度のみによって認識結果を決定することを意味する。

（３）上記１、２を満たさず、かつ、ｎ^ｋ／ｎ≧Ｒ_２（ただし、Ｒ_２は、予め定められた、０＜Ｒ_２＜１、かつＲ_２≦Ｒ_１である定数である。なお、Ｒ_２＝Ｒ_１の場合には、単に（３）の場合が不要になるだけである。）となる単語Ｗ^ｋが１個以上存在する場合（ステップＳ３１１でＮｏとなる場合）は、条件ｎ^ｋ／ｎ≧Ｒ_２を満たす各単語Ｗ^ｋについて、単語スコアが最大のものを選択する（ステップＳ３１４）。

上記の単語スコアは、各単語の認識結果の優劣を定めるものであれば、いかなる値でもよいが、ここでは、最大平均尤度（ＭＡＬ）と呼ぶ値を採用し、ＭＡＬが最大となる単語を認識結果とする。

ここで、単語Ｗ^ｋの最大平均尤度ＭＡＬは、
単語Ｗ^ｋのＭＡＬ＝maxcｌ（Ｃ）
ｌ（Ｃ）＝Ｌ（Ｗ^ｋ，Ｓｗ^ｋ，Ｔ）／Ｔ
Ｃ＝（Ｗ^ｋ，Ｔ，Ｌ（Ｗ^ｋ，Ｓｗ^ｋ，Ｔ），Ｂ（Ｗ^ｋ，Ｓｗ^ｋ，Ｔ））
と定義する。ただし、ｍａｘｃは、単語Ｗ^ｋを保持する（がＴの異なる）、認識結果候補群の全ての候補Ｃについての最大値である。

なお、ｌ（Ｃ）を候補Ｃのフレーム平均尤度と呼び、上記ＭＡＬはｌ（Ｃ）の最大値であるので、特にフレーム平均尤度に基づく最大平均尤度という。

（４）上記の（１）〜（３）以外の場合（ステップＳ３１１でＹｅｓとなる場合）は、単語Ｗ^１，Ｗ^２，…，Ｗ^Ｎのうちから、そのＭＡＬが最大のものを認識結果とする（ステップＳ３１５）。

なお、上記（２）の場合は、Ｒ_１を例えば０．９〜０．８などの大きい値にしておけば、認識結果は揺らいでいるが、単語Ｗ^ｍが終端付近で頻繁に１位候補になっていることを意味するので、この場合にはＷｍを認識結果とする。なお、この場合、Ｗ^ｍ＝Ｗｅとは限らない。上記（３）の場合は、Ｒ_２を例えば０．２〜０．３の値にすることにより、ある程度出現する候補の中から、それらのＭＡＬによって認識結果を決定する。上記（４）の場合には、認識結果の揺らぎが激しくどの候補も信頼性が低いとみなし、認識結果候補群内の出現頻度によらず、ＭＡＬが最も高い候補を認識結果とする。上記（１）の場合は、認識結果が揺らいでいないので、特に何もする必要がない。

上記の認識結果計算部１０８では、必ずなんらかの認識結果を出力することを前提としているが、例えば、上記（４）の場合のように、どの候補の出現頻度も低く、認識結果の揺らぎが激しい場合には、認識結果としてはどの候補も選ばず、リジェクト（認識結果なし）としてもよい。

上記の計算方法では、認識結果候補群を認識結果計算区間の各フレームにおける１位候補の集合としたが、その代わりに、認識結果計算区間の各フレームにおいて、尤度の大きい上位Ｘ個（Ｘは、Ｘ≧１の整数であり、フレーム毎に異なる値であってもよい。）の候補の集合を認識結果候補群としてもよい。この場合、認識結果計算の手順上は、単に認識結果候補群内の候補単語が増えるだけであり、同じ計算手順によって認識結果を算出することが可能である。

このように、第１の実施形態に係る音声認識装置によれば、単純に終端フレームにおける１位候補を認識結果とするのではなく、終端フレームの前後のある幅を持ったフレーム区間における候補を利用し、認識結果の揺らぎを考慮して出力すべき認識結果を計算することにより、音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することが可能となる。

（第２の実施形態）
本発明の第２の実施形態について、第１の実施形態と相違する点を中心に説明する。

本実施形態は、認識結果計算部１０８における認識結果算出方法の他の例を示すものである。本実施形態において、認識結果計算部１０８以外の構成・動作は第１の実施形態と同様である。

第１の実施形態では認識結果の揺らぎがあるかないかを、認識結果候補群に含まれる各単語の個数、つまりその単語が１位候補となった頻度に基づいて判断したが、本実施形態では、認識結果の揺らぎの有無によらず一定の規則に従って計算するものである。

以下に、その一例を示す。
（ｉ）まず、第１の実施形態と同じ方法により認識結果候補群を作成する。
（ii）次に、認識結果候補群から互いに異なる単語を抽出し、各単語のＭＡＬを計算する。
（iii）最後に、ＭＡＬの最も高い単語を認識結果とする。

この方法は、第１の実施形態の認識結果計算部１０８において、無条件に（４）の場合を適用しているのと同じである。一見すると、これでは認識結果の揺らぎが考慮されていないように見える。しかし、認識結果が揺らいでいない場合には、認識結果候補群のどの候補も同一の単語を保持するため、認識結果は終端フレームの１位候補に帰着する。また、認識結果の揺らぎが少ない場合、つまり、ある１個の単語が終端フレーム付近において頻繁に１位候補となる場合には、出現頻度が高い分、あるフレームにおけるＭＡＬが最大とならなくても、他のフレームにおいて最大になるチャンスがあるため、認識結果となる可能性が高くなる。その意味で、本例は間接的に認識結果の揺らぎ（揺らぎの少なさ）を考慮した認識結果計算となっている。

（第３の実施形態）
本発明の第３の実施形態について、第１の実施形態と相違する点を中心に説明する。

第１、第２の実施形態においては、認識結果を計算する際の単語スコアとして、ＭＡＬを採用したが、単語スコアはこれに限定されるものではない。本実施形態では、単語スコアとして、順位重み付き平均尤度（ＲＷＡＬ）を用いる場合について示す。

認識結果候補群には、認識結果計算区間の各フレームにおいて、尤度の大きい上位Ｘ個（ただし、ＸはＸ≧１である予め定められた整数）の認識結果候補を登録する。ただし、各認識結果候補Ｃは、フレームＴにおける認識結果候補内での対数尤度による順位Ｒ（１≦Ｒ≦Ｘ）との対Ｄ＝（Ｒ，Ｃ）＝（Ｒ，Ｗ，Ｔ，Ｌ（Ｗ，Ｓｗ，Ｔ），Ｂ（Ｗ，Ｓｗ，Ｔ））として登録する。なお、この対Ｄのことも単に認識結果候補と呼ぶ。また、候補数がＸ個に満たないフレームにおいては、存在する認識結果候補だけでよい。

ここで、単語のＲＷＡＬを、順位Ｒに依存する順位重みα_Ｒ（Ｒ＝１〜Ｘ）を用いて、次のように定義する。
単語ＷのＲＷＡＬ＝Σ_Ｄ（Ｗ） α_Ｒｌ（Ｄ）
ｌ（Ｄ）＝Ｌ（Ｗ，Ｓｗ，Ｔ）／Ｔ
Ｄ＝（Ｒ，Ｗ，Ｔ，Ｌ（Ｗ，Ｓｗ，Ｔ），Ｂ（Ｗ，Ｓｗ，Ｔ））
ただし、Σ_Ｄ（Ｗ）は、認識結果候補群に登録された対Ｄのうち、単語Ｗを保持するものの和を表し、Ｒ、Ｔ、Ｌ（Ｗ，Ｓｗ，Ｔ）は、それぞれ対Ｄの保持する順位、フレーム、対数尤度である。また、α_Ｒは予め定められた定数であり、α_１≧α_２≧…≧α_Ｘを満たすものである。なお、ｌ（Ｄ）を候補Ｄの平均尤度と呼ぶ。

ＭＡＬは、一回だけ認識結果候補群内に出現した単語も、複数回出現した単語も、尤度の時間平均の最大値で評価されるため、１回しか出現しない単語が認識結果となる場合もある。しかし、ＲＷＡＬは認識結果候補群での出現回数が多いものほど値が大きくなり、また、各フレームにおける順位が高いものほど値が大きくなる。そのため、上位に頻繁に出現する単語と下位に稀にしか出現しない単語とでは、ＲＷＡＬの差が大きくなる。したがって、ＲＷＡＬは出現頻度と順位を考慮に入れた単語スコアとなっている。

（第４の実施形態）
本発明の第４の実施形態について、第３の実施形態と相違する点を中心に説明する。

本実施形態では、順位重みα_Ｒの他の例を示す。

認識結果計算区間内のあるフレームＴにおける認識結果候補をＣ_１、Ｃ_２、…、Ｃ_Ｘとするとき、順位重みα_Ｒを、
α_Ｒ＝ｌ（Ｃ_Ｒ）／Σ_Ｒｌ（Ｃ_Ｒ）
で定義する。ただし、ｌ（Ｃ_Ｒ）は候補Ｃ_Ｒのフレーム平均尤度であり、Σ_ＲはＲ＝１〜Ｘの和をとることを表す。

このような順位重みを用いると、重みがフレーム平均尤度に比例するので、例えば、１位候補Ｃ１の尤度が残りの認識結果候補よりも突出して大きければ、１位候補の重みα_１が他の認識結果候補の重みα_２〜α_Ｘよりも突出して大きくなる。逆に、どの認識結果候補の尤度もほぼ等しければ、重みα_１〜α_Ｘもほぼ等しくなる。順位重みが定数の場合と比べると、本例は各候補間の尤度差を考慮することが可能な単語スコアである。

なお、順位重みは以上で例示したものに限定されるものではなく、順位Ｒに応じた重みであり、α_１≧α_２≧…のように、順位が下がるに従って単調減少する、もしくは増加はしないような重みであれば、どのように決定されるものであってもよい。

（第５の実施形態）
本発明の第５の実施形態について、第１の実施形態と相違する点を中心に説明する。

本実施形態では、さらに他の単語スコアとして、フレーム重み付き平均尤度ＦＷＡＬを用いる場合について示す。

ＦＷＡＬでは、重みを次のように計算する。認識結果計算区間中の各フレームＴにおいて、フレームＴに依存する重みβ_Ｔ（フレーム重み）を用いて、次のように定義する。
単語ＷのＦＷＡＬ＝Σ_Ｃ（Ｗ） β_Ｔｌ（Ｃ）
βＴ＝１−｜Ｔ−Ｔｅ｜／（１＋ｍａｘ（Ｔ１，Ｔ２））
ただし、Σ_Ｃ（Ｗ）は、認識結果候補群に登録された認識結果候補のうち、単語Ｗを保持するものの和を表し、ｌ（Ｃ）は、単語Ｗを保持する認識結果候補Ｃのフレーム平均尤度であり、Ｔｅは終端フレームである。

上記のフレーム重みは、終端フレームに近い認識結果のスコアほど重視する、フレーム位置を考慮した単語スコアである。

（第６の実施形態）
本発明の第６の実施形態について、第１の実施形態と相違する点を中心に説明する。

本実施形態では、フレーム重みの他の例を示す。

認識結果計算区間内のあるフレームＴにおける認識結果候補をＣ_１、Ｃ_２、…、Ｃ_Ｘとするとき、まず、フレームＴにおける候補平均尤度ｌＴを次のように定義する。
ｌ_Ｔ＝Σ_Ｒｌ（Ｃ_Ｒ）／Ｘ_Ｔ
ただし、ｌ（Ｃ_Ｒ）は認識結果候補Ｃ_Ｒのフレーム平均尤度（Ｒ＝１、２、…、Ｘ_Ｔ）であり、Σ_ＲはＲ＝１〜Ｘ_Ｔの和をとることを表す。また、Ｘ_ＴはフレームＴに存在する候補数か予め定められた定数Ｘのうちの、大きくないほうの値である。なお、Ｘ_Ｔ＝０の場合は、そのフレームは認識結果計算区間から除外する。

候補平均尤度ｌ_Ｔを用いてフレーム重みβ_Ｔを次のように定義する。
β_Ｔ＝ｌ_Ｔ／Σ_Ｔｌ_Ｔ
ただし、Σ_Ｔは認識結果計算区間の全てのフレームについての和を表す。

本例のフレーム重みは、そのフレームにおいて抽出された認識結果候補の平均尤度の平均値であり、フレームの位置ではなく、そのフレームの認識結果候補のスコアを重視した単語スコアである。

（第７の実施形態）
本発明の第７の実施形態について、第１の実施形態と相違する点を中心に説明する。

本実施形態は、フレーム重みの他の例として、終端確信度によるフレーム重みを用いる場合について示す。

終端確信度は、各フレームがどの程度終端フレームとして確信できるかを示す値であればどのようなものであってもよいが、ここでは、次のような例を示す。

本実施形態においては、モデル格納部１０４には、音素ＨＭＭのほかに、人間の音声全体をモデル化した音声ＨＭＭと雑音・非音声をモデル化した雑音ＨＭＭを格納している。ただし、本実施形態において、音声ＨＭＭ、雑音ＨＭＭは、１状態のＨＭＭとする。第１の実施形態の記法に従えば、Ｍを音声または雑音ＨＭＭ、ＳをそのＨＭＭの状態とするとｆ（Ｍ，Ｓ，Ｓ，Ｔ）のみである。以下では、ｆ（Ｍ，Ｔ）＝ｌｏｇｆ（Ｍ，Ｓ，Ｓ，Ｔ）と省略する。

フレームＴの終端確信度Ｅ_Ｔを、シグモイド関数ｓｉｇｍｏｉｄ（ｘ）の微分ｓｉｇｍｏｉｄ’（ｘ）を用いて、次のように定義する。
Ｅ_Ｔ＝sigmoid’（ｆ（音声ＨＭＭ，Ｔ）−ｆ（雑音ＨＭＭ，Ｔ））
sigmoid’（ｘ）＝Ａ・sigmoid(x)・（１−sigmoid（ｘ））
sigmoid（ｘ）＝１／（１＋exp（Ａｘ＋Ｂ））
ただし、Ａ，Ｂは実験的に求められたパラメータである。

このＥ_Ｔを用いて、フレームＴのフレーム重みβ_Ｔをβ_Ｔ＝Ｅ_Ｔとする。あるフレームが音声であれば、ｆ（音声ＨＭＭ，Ｔ）とｆ（雑音ＨＭＭ，Ｔ）の差は大きくなる。音声終端付近では音声が次第に弱くなり、雑音の特徴が次第に強く現れるのでｆ（雑音ＨＭＭ，Ｔ）とｆ（音声ＨＭＭ，Ｔ）の値の差が小さくなる。そして、音声が終了し、雑音のフレームにおいて再びｆ（雑音ＨＭＭ，Ｔ）とｆ（音声ＨＭＭ，Ｔ）の差は大きくなる。ここで、音声がシグモイド関数はｘ＝−Ｂ／Ａに関して対称なグラフであり、かつ、ｘ＝−Ｂ／Ａにおいて最大値をとるので、学習データから音声終端におけるｆ（音声ＨＭＭ，Ｔ）−ｆ（雑音ＨＭＭ，Ｔ）の平均値を求め、−Ｂ／Ａがその平均値になるようにＡ，Ｂを設定しておけば、終端付近においてＥ_Ｔが大きくなり、逆に音声、雑音の場合には値が小さくなる。

以上のように、本例のフレーム重みは、そのフレームの終端として確信度が高いか否かを反映した重みとなっており、ひいては、このフレーム重みを用いたＦＷＡＬは、終端として確信度の高いフレームの認識結果候補ほど重きをおいた単語スコアとなる。

なお、フレーム重みは以上で例示したものに限定されるものではなく、フレームＴに応じて決定される値であれば、どのように決定されるものであってもよい。

（第８の実施形態）
本発明の第８の実施形態について、第１の実施形態と相違する点を中心に説明する。

単語スコアの例として、第３の実施形態では順位重み付き平均尤度（ＲＷＡＬ）を用いた場合を示し、第５の実施形態ではフレーム重み付き平均尤度ＦＷＡＬを用いた場合を示したが、本実施形態では、それらＲＷＡＬとＦＷＡＬを併用する場合について示す。なお、それらＲＷＡＬとＦＷＡＬを併用した平均尤度を、順位フレーム重み付き平均尤度（ＲＦＷＡＬ）と呼ぶ。
ＲＦＷＡＬは、次にように定義される。
単語ＷのＲＦＷＡＬ＝Σ_Ｄ（Ｗ） α_Ｒ・β_Ｔ・ｌ（Ｄ）
ただし、Σ_Ｄ（Ｗ）は、認識結果候補群に登録された認識結果候補のうち、単語Ｗを保持するものの和を表し、α_Ｒは順位重み、β_Ｔはフレーム重み、ｌ（Ｄ）は候補Ｄのフレーム平均尤度であり、認識結果候補Ｄ＝（Ｒ，Ｗ，Ｔ，Ｌ（Ｗ，Ｓｗ，Ｔ），Ｂ（Ｗ，Ｓｗ，Ｔ））である。

（第９の実施形態）
本発明の第９の実施形態について、第１〜８の実施形態と相違する点を中心に説明する。

第１〜８の実施形態では、ＭＡＬ、ＲＷＡＬ、ＦＷＡＬ、ＲＦＷＡＬは全て、認識結果候補のフレーム平均尤度に基づいて定義したが、本実施形態では、フレーム平均尤度以外の値に基づくＭＡＬ、ＲＷＡＬ、ＦＷＡＬ、ＲＦＷＡＬを用いる場合について示す。

本実施形態では、認識対象語彙として雑音も１個の単語として登録してあるものとする。この雑音モデルは、雑音を表現する１個の音素ＨＭＭ（雑音ＨＭＭ）からなる単語ＨＭＭである。したがって、尤度計算は他の単語と同じように実行できる。

ここで、認識結果候補Ｄ＝（Ｒ，Ｗ，Ｔ，Ｌ（Ｗ，Ｓｗ，Ｔ），Ｂ（Ｗ，Ｓｗ，Ｔ））に対し、その信頼度Ｓ（Ｄ）を
Ｓ（Ｄ）＝Ｌ（Ｗ，Ｓｗ，Ｔ）−Ｌ（ＮＺ，Ｓ_ＮＺ，Ｔ）
と定義する。ただし、ＮＺは雑音であり、Ｓ_ＮＺは雑音モデルの最終状態である。

単語Ｗの、信頼度に基づくＭＡＬ、ＲＷＡＬ、ＦＷＡＬ、ＲＦＷＡＬを以下のように定義する。
ＭＡＬ＝max_Ｄ（ｗ）・Ｓ（Ｄ）
ＲＷＡＬ＝Σ_Ｄ（ｗ） α_Ｒ・Ｓ（Ｄ）
ＦＷＡＬ＝Σ_Ｄ（ｗ） β_Ｔ・Ｓ（Ｄ）
ＲＦＷＡＬ＝Σ_Ｄ（ｗ） α_Ｒ・β_Ｔ・Ｓ（Ｄ）
また、Ｓ（Ｄ）の代わりにフレーム平均信頼度ＡＳ（Ｄ）＝Ｓ（Ｄ）／Ｔを用いてもよい。

なお、フレーム平均尤度ｌ（Ｄ）を用いた場合と区別する場合、特にＳ（Ｄ）に基づくＭＡＬを最大信頼度、ＲＷＡＬを順位重み付き信頼度、ＦＷＡＬをフレーム重み付き信頼度、ＲＦＷＡＬを順位フレーム重み付き信頼度と呼ぶ。また、ＡＳ（Ｄ）に基づく場合、ＭＡＬを最大平均信頼度、ＲＷＡＬを順位重み付き平均信頼度、ＦＷＡＬをフレーム重み付き平均信頼度、ＲＦＷＡＬを順位フレーム重み付き平均信頼度と呼ぶ。

なお、認識結果計算部１０８における単語スコアは、ＭＡＬ、ＲＷＡＬ、ＦＷＡＬ、ＲＦＷＡＬに限定されるものではない。認識結果計算区間から認識結果候補群として選出された候補の中から、認識結果として信頼性の高い１個を選出することができれば、具体的な計算式はどのようなものであっても構わない。

（第１０の実施形態）
本発明の第１０の実施形態について、これまでの実施形態と相違する点を中心に説明する。

これまでの実施形態では、始端フレームと終端フレームとをそれぞれ検出したが、終端フレームを確定することが重要であり、始端フレームは必ずしも確定しなくても構わない。そこで、本実施形態では、終端フレームのみを検出するようにしたものである。

本実施形態の音声認識装置の構成例は、基本的には、図１と同じであるが、音声検出部１０３は、終端フレームのみを検出し、照合部１０５は、音響特徴生成部１０２によって生成された特徴ベクトルの時系列について、音声の始端フレームからではなく、（該時系列における）最初のフレームから順に、モデル格納部１０４に格納された音響モデル、言語モデルとのマッチングを行い、各認識対象文の尤度を計算する。

図７に、本実施形態の音声認識装置の動作例を表すフローチャートを示す。

本実施形態においては、単語モデルとして、雑音ＨＭＭと単語ＨＭＭを結合したモデルを使用する。これを雑音付き単語モデルと呼ぶ。図８に、雑音ＨＭＭ、音素ＨＭＭとも、全て３状態ＨＭＭである、単語「青」を例とした雑音付き単語モデルを示す。また、雑音も認識対象語彙として登録する。ただし、雑音は雑音ＨＭＭ１個からなる単語ＨＭＭ（雑音モデル）である。

まず、入力音声を取り込む前に、Ｔ＝１とし、Ｔｅ＝∞とするとともに、尤度計算に必要な初期化を行っておく。

初期化後、音声の取り込みを開始し、音声入力部１０１において入力音を逐次取り込み、入力音をデジタル信号に変換し（ステップＳ６０１）、音響特徴生成部１０２では、入力信号からフレーム単位で音響特徴量（ここでは、特徴ベクトルおよび入力信号のパワー）を計算する（ステップＳ６０２）。

音声検出部１０３においては、終端フレームかどうか判断する（ステップＳ６０３）。ここでは、音声検出部１０３は、音響特徴生成部１０２において計算された入力信号のパワーを監視し、パワーが所定のレベルＰｓ以上となるフレームが、所定の長さＺフレーム以上連続し、かつ、その後に、再びパワーが所定のレベルＰｅ以下になったフレームを終端フレームとする。

続いて、ステップＳ６０４〜Ｓ６０９の一連の処理（特徴ベクトルと音響モデルとのマッチング）が、ステップＳ６０６でＴを１増加しながら、終端フレームが検出されるまで（ステップＳ６０３でＹｅｓとなるまで）、繰り返し行われる。

照合部１０５では、現在のフレームの特徴ベクトルに対し、雑音付き単語モデルおよび雑音モデルとの尤度計算を行う（ステップＳ６０４）。

候補格納部１０６には、認識結果候補として、（Ｗ，Ｔ，Ｌ（Ｗ，Ｓｗ，Ｔ）−Ｌ（ＮＺ，ＳＮＺ，Ｔ），Ｂ（Ｗ，ＳＷ，Ｔ））の組を登録する（ステップＳ６０５）。これは、認識結果候補は、尤度の代わりに第９の実施形態で示した信頼度を保持していることになる。

なお、ここでは単語モデルとして雑音付き単語モデルを用いているので、始端フレームを検出せずに、音声開始より前のフレーム（雑音区間）を含む特徴ベクトルの時系列とのマッチングを行っても、正しいマッチングが可能である。

さて、音声検出部１０３が終端を検出すると（ステップＳ６０３でＹｅｓ）、まず、終端フレームＴｅをＴｅ＝Ｔとし（ステップＳ６０７）、計算区間決定部１０７では、第１の実施形態と同様にして認識結果計算区間［Ｔａ，Ｔｂ］を算出する（ステップＳ６０８）。

なお、終端が検出された以降は、ステップＳ６０３ではすべてＮｏに進むものとする。

続いて、計算区間決定部１０７は、算出された認識結果計算区間［Ｔａ，Ｔｂ］の最終フレームＴｂまで（すなわち、ステップＳ６０９がＮｏの間）、上記の尤度計算のための一連の処理（Ｓ６０４〜Ｓ６０９）を継続し、尤度計算が最終フレームＴｂまで完了すると（すなわち、ステップＳ６０９がＹｅｓになると）、認識結果計算部１０８では、候補格納部１０６に格納されている、認識結果計算区間［Ｔａ，Ｔｂ］に含まれる各フレームを終端としたときの認識結果候補をもとにして認識結果を算出する（ステップＳ６１０）。

なお、計算区間決定部１０７および認識結果計算部１０８の動作は第１の実施形態と同じである。ただし、認識結果計算部１０８で使用する最大平均尤度ＭＡＬは、各認識結果候補が尤度の代わりに、第９の実施形態において定義した信頼度Ｌ（Ｗ，Ｓｗ，Ｔ）−Ｌ（ＮＺ，Ｓ_ＮＺ，Ｔ）を保持しているため、認識結果候補のフレーム平均尤度ではなく、第９の実施形態において定義したフレーム平均信頼度（Ｌ（Ｗ，Ｓｗ，Ｔ）−Ｌ（ＮＺ，Ｓ_ＮＺ，Ｔ））／Ｔに基づくＭＡＬとなる。

この例から分かるように、照合部１０５におけるマッチング方式によっては、音声検出部１０３では始端フレームを必ずしも検出する必要はなく、終端フレームのみを検出できればよい。

なお、上記では第９の実施形態において終端フレームのみ検出する場合を例にとって説明したが、第１〜８の実施形態において終端フレームのみ検出する構成も可能である。

（第１１の実施形態）
本発明の第１１の実施形態について、これまでの実施形態と相違する点を中心に説明する。

本実施形態は、計算区間決定部１０７において、認識結果候補の音素のセグメンテーション結果を用いて認識結果計算区間を決定する方法について示す。

認識結果候補の音素のセグメンテーション結果とは、ある認識結果候補が保持する単語の音素列を／Ａ／Ｂ／Ｃ／とするとき、各音素Ａ、Ｂ、Ｃとどのフレーム区間がマッチしたかの結果である。

図９に、本実施形態の音声認識装置の動作例を表すフローチャートを示す。

音声検出部１０３において、終端フレームＴｅが検出されると、フレームＴｅにおける認識結果候補を候補格納部１０６から尤度によって上位Ｘ個を選出し、それらをＤ_Ｒ＝（Ｒ，Ｗ_Ｒ，Ｔｅ，Ｌ（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ），Ｂ（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ））、Ｒ＝１，２，…，Ｘとする（ステップＳ８０１）。ただし、Ｘは、予め与えられた所定の個数と終端フレームＴｅにおける全認識結果候補のうち、大きくないほうの値とする。ここで、第１の実施形態において示したように、Ｂ（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ）は、時刻Ｔｅにおいて状態Ｓ_ＷＲに遷移する状態のうち尤度最大が最大となる状態をＳ^＊としたとき、Ｂ（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ）＝（Ｗ_Ｒ，Ｓ^＊，Ｔｅ−１）である。

各認識結果候補について、まず、それが保持する単語の語尾音素の音素ＨＭＭの出力状態数をｓとする。

次に、（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ）にＢを繰り返しｎ回施したものを
Ｂ^ｎ（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ）＝Ｂ（Ｂ（…Ｂ（Ｂ（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ）））
と表すとき、
Ｂ^ｎ（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ）＝（Ｗ_Ｒ，Ｓ^ｓ _ＷＲ，Ｔｅ−ｎ）、かつ、
Ｂ^ｎ＋１（Ｗ_Ｒ，Ｓ_ＷＲ，Ｔｅ）＝（Ｗ_Ｒ，Ｓ^ｓ＋１ _ＷＲ，Ｔｅ−ｎ−１）
となるとき、単語ＨＭＭの最終状態ＳＷＲからｓ個（最終状態は含まない）前の状態Ｓ^ｓ _ＷＲに遷移したフレームＴ_ＲをＴ_Ｒ＝Ｔｅ−ｎと定義し、これを求める（ステップＳ８０２）。なお、この記法ではＳ^０ _ＷＲ＝Ｓ_ＷＲである。

上記のように求めたフレームＴ_Ｒ、Ｒ＝１，２，…，Ｘのうち、最小のものをＴｒとし、さらにｄ＝ｐ（Ｔｅ−Ｔｒ）に最も近い正の整数とし、認識結果計算区間を［Ｔｅ−ｄ，Ｔｅ＋ｄ］と決定する（ステップＳ８０３）。ただし、ｐは予め定められた０＜ｐ＜１の定数である。

このように、ｓとして語尾音素の音韻ＨＭＭの出力状態数を取ると、認識結果計算区間が動的に計算でき、しかも、その区間を、語尾１音素程度という、音素を根拠とする区間に限定できるという利点がある。

なお、以上の各実施形態では、照合部１０５における単語ＨＭＭ、Ｖｉｔｅｒｂｉアルゴリズムを用いたマッチングに基づいた例を示したが、これに限定されるものではない。認識結果計算区間について、フレーム単位で認識結果候補が得られ、単語スコアのように、認識結果候補の優劣を定めるなんらかの評価尺度が定義できるような方法であれば、どのような方法でもよい（例えば、ニューラルネットワークを用いた方法でもよい）。

また、本音声認識装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声入力部１０１、音響特徴生成部１０２、音声検出部１０３、モデル格納部１０４、照合部１０５、候補格納部１０６、計算区間決定部１０７、認識結果計算部１０８は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声認識装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、上記各部は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

また、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る音声認識装置の構成例を示すブロック図同実施形態の動作例を示すフローチャート３状態ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型のＨＭＭについて説明するための図単語「青」（音素列／Ａ／Ｏ／）の単語ＨＭＭについて説明するための図同実施形態の認識結果計算部における認識結果計算方法例を示すフローチャート図５の続きの部分を示すフローチャート同実施形態の他の動作例を示すフローチャート単語「青」（音素列／Ａ／Ｏ／）の雑音付き単語ＨＭＭについて説明するための図同実施形態の更に他の動作例を示すフローチャート

符号の説明

１０１…音声入力部、１０２…音響特徴生成部、１０３…音声検出部、１０４…モデル格納部、１０５…照合部、１０６…候補格納部、１０７…計算区間決定部、１０８…認識結果計算部

Claims

入力音声から入力信号を生成する手段と、
前記入力信号から、少なくとも音声の終端フレームを検出する検出手段と、
前記入力信号から、マッチングに供するための音響特徴量を生成する生成手段と、
検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する範囲決定手段と、
予め用意された音響モデル及び言語モデルを利用して、前記音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるマッチング手段と、
前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求める処理手段とを備えたことを特徴とする音声認識装置。
前記検出手段は、音声の終端フレームに加えて音声の始端フレームをも検出するものであり、
前記マッチング手段は、前記音響特徴量の時系列に対するマッチングを、該時系列のうち前記始端フレームに係る部分から順に行うものであることを特徴とする請求項１に記載の音声認識装置。
前記検出手段は、音声の終端フレームのみを検出するものであり、
前記マッチング手段は、前記音響特徴量の時系列に対する前記マッチングを、該時系列の最初の部分から行うものであることを特徴とする請求項１に記載の音声認識装置。
前記マッチング手段は、前記音響特徴量の時系列に対する前記マッチングを、該時系列のうち前記処理対象範囲の最終のフレームに係る部分まで行うことを特徴とする請求項１ないし３のいずれか１項に記載の音声認識装置。
前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合における当該単語又は文を含む認識結果候補の出現頻度を求め、該出現頻度に基づいて選択した単語又は文を、前記認識結果とすることを特徴とする請求項１ないし４のいずれか１項に記載の音声認識装置。
前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合をもとに算出される単語又は文のスコアを求め、単語又は文のスコアに基づいて選択した単語を、前記認識結果とすることを特徴とする請求項１ないし４のいずれか１項に記載の音声認識装置。
前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合における当該単語又は文を含む認識結果候補の出現頻度を求め、出現頻度が基準値以上の単語又は文の中から、出現頻度が最も高いものを認識結果とし、また、抽出した全ての単語又は文について、求められた出現頻度が基準値より低い場合には、抽出した各単語又は文について、前記認識結果候補の集合をもとに算出される単語又は文のスコアを求め、単語又は文のスコアに基づいて選択した単語又は文を、前記認識結果とすることを特徴とする請求項１ないし４のいずれか１項に記載の音声認識装置。
前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合における当該単語又は文を含む認識結果候補の出現頻度を求め、求められた出現頻度が基準値より低い場合には、リジェクト（認識結果なし）とすることを特徴とする請求項１ないし４のいずれか１項に記載の音声認識装置。
前記処理手段は、前記単語又は文のスコアとして、最大平均尤度若しくは順位重み付き平均尤度、最大信頼度若しくは順位重み付き信頼度、又は最大平均信頼度若しくは順位重み付き平均信頼度を用いることを特徴とする請求項６ないし８のいずれか１項に記載の音声認識装置。
前記処理手段は、前記単語又は文のスコアとして、フレーム重み付き平均尤度若しくは順位フレーム重み付き平均尤度、フレーム重み付き信頼度若しくは順位フレーム重み付き信頼度、又はフレーム重み付き平均信頼度若しくは順位フレーム重み付き平均信頼度を用いることを特徴とする請求項６ないし８のいずれか１項に記載の音声認識装置。
前記処理手段は、前記単語又は文のスコアを算出するにあたって用いる重みとして、終端確信度から計算された重みを用いることを特徴とする請求項１０に記載の音声認識装置。
前記範囲決定手段は、前記処理対象範囲を決定するにあたって、検出された前記終端フレームより予め定められたフレーム幅だけ前のフレームを該処理対象範囲の最初のフレームと決定し、検出された前記終端フレームより予め定められたフレーム幅だけ後のフレームを該処理対象範囲の最終のフレームと決定することを特徴とする請求項１ないし１１のいずれか１項に記載の音声認識装置。
前記範囲決定手段は、前記処理対象範囲を決定するにあたって、検出された前記終端フレームにおける１個以上の前記認識結果候補について、それらのセグメンテーション結果を求め、求めたセグメンテーション結果に基づいて前記処理対象範囲を決定することを特徴とする請求項１ないし１１のいずれか１項に記載の音声認識装置。
入力音声から入力信号を生成するステップと、
前記入力信号から、少なくとも音声の終端フレームを検出するステップと、
前記入力信号から、マッチングに供するための音響特徴量を生成するステップと、
検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定するステップと、
予め用意された音響モデル及び言語モデルを利用して、前記第２の音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるステップと、
前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求めるステップとを有することを特徴とする音声認識方法。
音声認識装置としてコンピュータを機能させるためのプログラムであって、
入力音声から入力信号を生成するステップと、
前記入力信号から、少なくとも音声の終端フレームを検出するステップと、
前記入力信号から、マッチングに供するための音響特徴量を生成するステップと、
検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定するステップと、
予め用意された音響モデル及び言語モデルを利用して、前記第２の音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるステップと、
前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求めるステップとをコンピュータに実行させることを特徴とするプログラム。