JP4757936B2

JP4757936B2 - パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体

Info

Publication number: JP4757936B2
Application number: JP2009172170A
Authority: JP
Inventors: 恒夫加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-07-23
Filing date: 2009-07-23
Publication date: 2011-08-24
Anticipated expiration: 2029-07-23
Also published as: US20110022385A1; US8612227B2; JP2011027910A

Description

本発明は、入力信号の特徴パラメータを、認識パターンがルートからリーフノードに至る木構造状のパスで表現される状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識に係り、特に、音声認識に好適なパターン認識に関する。

音声認識は、時系列の音声データに対して、予め定義された連鎖可能な単語の繋がり（単語系列）の中から、もっとも確率の高い単語系列を求めるプロセスとして定式化されている。現在主流のHMM（Hidden Markov Model、隠れマルコフモデル）に基づく音声認識エンジンでは、(1)単語を単位として文を構成する単語系列を探索するステップ、および(2)音素を単位として様々な単語について尤もらしい開始時刻および終了時刻を探索するステップ、の２階層で探索が行われる。

上記(2)のステップにおいて、各単語はHMM系列として表現される。多くの場合、単語はその読みに従って音素系列に分解され、それぞれの音素について用意された音素HMMを連結することで単語のHMM系列が構成される。図７は、一直線状のHMM系列の一例を示した図である。

単語の探索は、HMM系列に対するビタービ（Viterbi）アルゴリズムによって実行される。認識結果の候補の１つである仮説は、開始時刻（１つ前の単語の終了時刻の次の時刻）にHMM系列の先頭の状態に入り、ある時刻（終了時刻）にHMM系列の末尾の状態から出てくる。ビタービアルゴリズムは、仮説がHMM系列に入った時刻から出てくる時刻までの時間の、音声データとHMM系列との音響的特徴との一致度を確率値として出力する。より正確には、この確率値は対数化された尤度（L = log P）で表現され、「音響尤度」と呼ばれる。

認識処理の途中では単語が確定していないので、様々な単語のHMM系列に対して同時並行してビタービアルゴリズムが実行される。すなわち、様々な単語のHMM系列の状態のそれぞれに、その時点までの音響尤度を保存した仮説が一時記憶される。この仮説は「状態仮説」と呼ばれる。

実際の音声認識では、膨大な種類に及ぶ単語系列を探索するために状態仮説の数は膨大になる。状態仮説の数を節約するために、異なる単語間で先頭から共通の部分HMM系列がマージされる。これは、異なる単語間でも同時刻に共通の部分HMM系列の探索を開始すれば、共通部分の各状態の「音響尤度」は同一だからである。このマージにより、図８に示したような「木構造辞書」が形成される。

しかしながら、このような認識対象語彙の「木構造辞書化」を行ってもなお、状態仮説数は爆発的に増大してしまう。そこで、通常は時刻ごとに全ての状態仮説の尤度を比較し、尤度の高い状態仮説だけを次の時刻の探索に残し、尤度の低い状態仮説は探索途中で破棄する「枝刈り」の処理が行われる。代表的な枝刈り手法としては、全状態仮説中の最大尤度から一定の尤度幅以内にある状態仮説を残す一定ビーム幅による枝刈りや、尤度の高い状態仮説から一定個数の状態仮説を残す最大状態仮説数による枝刈りがあり、両手法は併用されるのが一般的である。

一方、上記(1)のステップは、記述文法に基づく音声認識と、確率言語モデルに基づく音声認識とに大別される。

記述文法に基づく音声認識では、音声認識エンジンが受理する文のセットが単語のネットワークとして用意される。これは「文法」と呼ばれ、その一例を図３に示している。音声認識処理では、文法の文頭のノードから探索が開始され、まず先頭の単語が探索される。単語の探索は上記(2)のステップで行われる。(2)のステップで状態仮説の１つが単語末尾の状態から出てくると、(1)のステップでその単語を経由した遷移先のノードに「単語仮説」と呼ばれる文法レベルの仮説が記録される。単語仮説には、単語のID、開始時刻、終了時刻、遷移元ノードのID、遷移先ノードのID、音声始端からのその時点までの累積尤度が格納される。

単語仮説が生成された次の時刻には、そのノードから始まる全ての単語について、上記(2)のステップにより探索が開始される。こうして、時間の進行に沿って(1)のステップと(2)のステップとが繰り返されることで、文法で定義される探索空間の全体が探索される。最終的には、音声終端の時刻に文法の文末のノードに到達した単語仮説のうち、累積尤度がもっとも高い仮説に至った単語履歴が認識結果として出力される。

確率言語モデルに基づく音声認識では、上記の文法の代わりに「確率言語モデル」が用いられる。通常、数個（N個）の単語の連鎖の様々な組み合わせに対して、最後の単語を除くN-1単語を条件として最後の単語の条件付出現確率を定義する「N-gram」と呼ばれるモデルが用いられる。前後２単語の連鎖を単位とするものは「bigram」、３単語の連鎖を単位とするものは「trigram」と呼ばれる。図９はbigramの一例を示した図である。

確率言語モデルに基づく音声認識では、探索空間がネットワークとして用意されないが、記述文法に基づく音声認識の場合と同様に、仮説を用いて文頭の無音(sil)から探索が開始され、文末の無音(sil)の末尾の状態に到達した仮説は探索を終了する。最終的な認識結果の決定や枝刈りの基準となる尤度としては、確率言語モデルが有する言語尤度を音響尤度に加算した値が用いられる。

非特許文献１では、確率言語モデルに基づく音声認識における「言語尤度の先読み」が提案されている。N-gramで与えられる言語尤度は、探索中の単語が確定した時点で確定するが、言語尤度をできるだけ早い時点で探索処理に反映させるために、木構造辞書の分岐ノードに差し掛かったときに、その分岐ノードから到達しうる複数の単語のうち、最大の言語尤度が暫定的な言語尤度として累積尤度に加えられる。

例えば、図８の木構造辞書と図９の確率言語モデルとを用いた音声認識において、文頭の無音(sil)に続く単語の頭文字/k/を探索中の状態仮説には、「sil-九時」，「sil-会社」および「sil-買い物」の３つのうち、最大値となる「sil-九時」の言語確率0.050を対数化したlog0.050が加えられる。最初の分岐を越えて/k/の次の/a/を探索中の状態仮説には、分岐前のlog0.050は破棄して、「sil-会社」および「sil-買い物」の言語確率のうち最大値となる「sil-会社」の0.020を対数化したlog0.020が加えられる。「買い物」の/m/まで進んだ状態仮説には、log0.020は破棄してlog0.010が加えられる。こうして木構造辞書の探索が進み、状態仮説がリーフに近づくにつれて単語が限定されていき、より正確な言語確率が付与されるようになる。この「言語尤度の先読み」の効果は非常に強力であり、非特許文献１では、ディクテーションタスクの処理時間が１／３０に削減されたと報告している。

非特許文献２では、比較的新しい枝刈り手法としてEqual Depth Pruning（木構造辞書の深さに依存する枝刈り）が提案されている。このEqual Depth Pruningでは、尤度に基づく枝刈りにおいて、木構造辞書のルートに近い状態からリーフに近い状態まで様々な深さに存在する状態仮説を満遍なく残すために、全状態仮説のうちの最大尤度を基準とする代わりに、深さ（ルートからの状態数）ごとに基準となる最大尤度が求められ、深さごと個別に一定ビーム幅による枝刈りが行われる。

S. Ortmanns, H. Ney and A. Eiden, "Language-Model Look-Ahead for Large Vocabulary Speech Recognition" Proceedings of ICSLP 96 (1996) J Pylkkonen, "New Pruning Criteria for Efficient Decoding" Proceedings of ICSLP 2005 (2005)

非特許文献１の「言語確率の先読み」は、木構造辞書の効率的な探索に非常に強力な効果をもたらす。しかしながら、言語確率をもたない記述文法に基づく音声認識では同手法を利用できない。

非特許文献２の"Equal depth pruning"は、記述文法に基づく音声認識でも利用できる枝刈り手法である。しかしながら、木構造辞書において１から数十に及ぶ深さのそれぞれに対して、時刻ごとに枝刈りの基準となる尤度を、対象状態仮説の集合の中の最大尤度として求めるために性能が安定せず、状態仮説数を極限まで削減することは難しい。

本発明の目的は、上記した従来技術の課題を解決し、認識率を低下させることなく状態仮説を効率良く枝刈りできるパターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体を提供することにある。

上記の目的を達成するために、本発明は、入力信号の特徴パラメータを認識パターンがルートからリーフノードに至る木構造状のパスで表現された状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識装置において、以下のような手段を講じた点に特徴がある。

(1)入力信号の特徴パラメータを状態遷移モデルと照合し、状態遷移モデルの各状態に対する特徴パラメータの尤度を算出する手段と、各状態から到達可能なリーフノード数に応じた報酬値を算出する手段と、所定の時刻周期で、各状態にある状態仮説の累積尤度と報酬値との加算値同士を比較し、加算値の低い状態仮説を探索対象から除外する枝刈り手段とを具備したことを特徴とする。

(2)尤度を算出する手段は、状態遷移モデルの各状態にある状態仮説を自己遷移およびL-R遷移させながら遷移先の各状態において尤度を算出し、報酬値を算出する手段は、木構造のルートノードと分岐後のノードへのL-R遷移において報酬値を算出・更新することを特徴とする。

(3)報酬値を算出する手段は、到達可能なリーフノード数の増大に従い、一定値に漸近しながら報酬値が大きくなる単調増加関数を用いて報酬値を算出することを特徴とする。

(4)報酬値を算出する手段は、到達可能なリーフノード数が「１」のときに報酬値を「０」にすることを特徴とする。

(5)木構造の状態遷移モデルが単語の木構造辞書であることを特徴とする。

(6)単語の種別によっては、前述の単調増加関数に従わず、例外的に特殊な報酬値を設定できることを特徴とする。

本発明によれば、以下のような効果が達成される。

(1)状態遷移モデルの状態ごとに、当該状態から到達可能なリーフノード数が多くなるほど値が大きくなる報酬値が算出されて各状態の累積尤度に加算され、この加算値に基づいて枝刈りが実行されるので、到達可能なリーフノード数の多い状態の尤度が嵩上げされる。その結果、到達可能なリーフノード数の多い状態が早期に枝刈りされて探索空間が狭められてしまう事態を減少させることができるようになる。

(2)報酬値が分岐後のノードへのL-R遷移において算出、更新されるようにしたので、報酬値の更新回数が最小限に抑えられ、パターン認識の処理負荷を軽減できるようになる。

(3)報酬値が、少ないパラメータの単調増加関数を用いて算出されるので、到達可能なリーフノード数に対する報酬値の最適化が容易になる。

(4)到達可能なリーフノード数が「１」のときの報酬値を「０」にしたので、探索の確率的フレームワークを崩すことなく、これを維持することができる。

(5)木構造辞書に基づく音声認識処理の枝刈りを効率良く行えるようになる。

(6)単語の種別に応じて、到達可能なリーフノード数と報酬値との関係を異ならせることができるので、例外を考慮して報酬値を最適化できるようになる。

木構造辞書を用いたパターン認識において報酬値を加算する方法の一例を示した図である。到達可能なリーフノード数xに応じて報酬値R(x)が単調増加する一例を示した図である。記述文法の一例を示した図である。木構造辞書を用いたパターン認識において報酬値を加算する方法の他の一例を示した図である。本発明を適用した音声認識装置の主要部の構成を示した機能ブロック図である。本発明を適用した音声認識の手順を示したフローチャートである。一直線状のHMM系列の一例を示した図である。木構造辞書の一例を示した図である。確率言語モデル(bigram)の一例を示した図である。

以下、図面を参照して本発明の実施形態について詳細に説明する。ここでは始めに、本発明の基本的な考え方について説明し、次いで、ブロック図およびフローチャートを参照して一実施形態を詳細に説明する。

認識パターンがルートノードから複数のリーフノードに至るパスで表現された木構造は、多数のリーフに到達可能な少数のルートノードおよびルートに近いノードと、到達可能なリーフが確定もしくは数種類に限定される多数のリーフに近いノードから構成される。

枝刈りの対象となる状態仮説には、ルートに近いノードに存在する少数の状態仮説と、リーフに近いノードに存在する多数の状態仮説とが含まれる。枝刈りの影響を考えると、ルートに近いノードに存在する少数の状態仮説が大幅に枝刈りされると、多様なリーフに到達する可能性がいっぺんに消滅するので影響が大きい。一方、リーフに近いノードに存在する状態仮説が枝刈りされても、限定されたリーフへ到達する可能性が消滅するだけなので影響が小さい。

図１を参照してさらに具体的に説明すれば、音素列「k」で始まる４つの単語「帰り」，「会社」，「買い物」，「九時」の木構造辞書では、音素列「ku」で始まる単語は「九時(kuji)」に限定されるので、状態仮説が音素列「ku」の探索空間を過ぎれば単語が確定する。これに対して、音素列「ka」で始まる単語は「帰り」，「会社」，「買い物」の３つであるため、音素列「ka」の探索空間を過ぎても単語が確定しない。

ここで、ある時刻で自己遷移またはLR遷移した全ての状態仮説を対象に枝刈りを行うとき、従来技術であれば、ビーム幅や最大許容仮説数で決まる上位n個の状態仮説のみが残る。このとき、状態仮説が多くの単語に到達する可能性を残すためには、探索空間の広い範囲にわたって、その状態仮説が上位n個の中に漏れなく残るようにすることが望ましい。しかしながら、実際には単語が確定する状態仮説のみが上位を占めてしまうような場合があり、このような場合には、多くの単語に到達する可能性が一度に失われてしまう。

すなわち、図１において音素列「ka」の状態仮説が全て枝刈りされるようなことになると、その時点で３つの単語「帰り」，「会社」，「買い物」が探索空間から外れてしまい、必然的に単語「九時」が探索結果に確定してしまう。

本発明では、ルートに近いノードからは到達可能なリーフ個数が多く、リーフに近づくに従って到達可能なリーフ個数が減少し、リーフが確定した時点で到達可能なリーフ個数が「１」になることに着目し、到達可能なリーフ個数に応じた一時的な報酬値を尤度に加算して枝刈りを行うことを考える。

換言すれば、本発明では探索空間の広い状態仮説が早期に枝刈りされることを防止するために、探索空間のより広い状態仮説により多くの報酬値を与えて累積尤度に加算することで、探索空間の広い状態仮説ほど枝刈りされにくくすることを考える。

そして、本発明では各状態から到達可能なリーフノード数（ここでは、単語数）x、およびリーフノード数xに応じた報酬値をR(x)とし、リーフノード数xと報酬値R(x)との関係が、図２のように単調増加関数として定義される。さらに具体的に説明すれば、リーフノード数xと報酬値R(x)との関係が、本実施形態では、到達可能なリーフノード数xが「１」のときに報酬値R(x)を「０」とし、到達可能なリーフノード数が「１」よりも大きい範囲では単調増加かつ一定値に漸近する関数として定義される。

図１に示した例では、音素列[ka]の状態仮説については、到達可能なリーフノード数xが「帰り」，「会社」，「買い物」の３つなので報償値R(3)が付与される。音素列[ku]の状態仮説については、到達可能なリーフノード数xが「九時」の１つなので報償値R(1)が付与される。音素列[kai]の状態仮説については、到達可能なリーフノード数xが「会社」，「買い物」の２つなので報償値R(2)が付与される。

また、記述文法が図３のようであれば、図４に示したように、上記以外の単語「sil（無音）」，「して」，「ます」，「に」の木構造辞書についても状態仮説が並列に進むので、音素列[sil]，[sh]，[m]，[n]のように到達可能なリーフノード数xが「１」の各状態仮説には報償値R(1)が付与され、音素列「k」のように到達可能なリーフノード数xが「４」の状態仮説には報償値R(4)が付与されることになる。

本発明では、到達可能なリーフノード数が「１」において報酬値が「０」となるような関数を定義する。探索がリーフに近づいてリーフノードが確定すると、尤度に加算される報酬値が「０」になるので、探索の確率的フレームワークが崩されずに保たれる。なお、厳密には、音声認識における同音異義語や同音の接頭辞をもつ別の単語など、リーフノードにおいて到達可能なリーフノード数が１よりも大きい場合もあるが、このような場合でも「０」にならない報酬値は、単語仮説を出力する時点で「０」に補正することが可能である。

また、到達可能なリーフノード数xと報酬値R(x)との関係は一つに限定されるものではなく、音声モデルについては図２の関係を定義し、無音モデルや雑音モデルといった特殊な音響モデルについては例外的に他の関係を定義するようにしても良い。

すなわち、音声認識では「無音」や様々な「雑音」（例えば車が通り過ぎた音）も単語の１つとして認識され、音声モデルと共に無音モデルや雑音モデルも用意される。無音モデルや雑音モデルは、他のモデルと共有するノードがないので到達可能な単語数は最初から最後まで「１」となり、図２の関係では報酬値が常に「０」となってしまう。しかしながら、一般的には文頭や文中の無音／雑音の後は（単語を跨いで）多様な表現に発展する可能性があるので、無音／雑音を探索中の仮説に対する枝刈りは甘めにする方が性能が上がる。そこで、無音／雑音などの枝分かれのない特殊な単語に対してのみ、例外的に「０」でない報酬値を与える関係を別途に用意しても良い。

次いで、本発明の一実施形態について詳細に説明する。図５は、本発明のパターン認識を適用した音声認識装置の主要部の構成を示したブロック図である。

音声信号入力部１１は、入力された音声信号をデジタル信号に変換する。音響分析部１２は、音声デジタル信号を音響分析して音響特徴パラメータを抽出し、これをパラメータ記憶部１３に一時記憶する。音響特徴パラメータとは、入力音声を一定時間間隔（例えば１０ms：以下、フレームと表現する）毎に分析して得られる特徴ベクトルである。したがって、音声信号は特徴ベクトルの時系列X＝x1，x2…xtに変換される。第１探索部１４は、第１データベース１９に記憶されている記述文法／確率言語モデルに基づいて、単語を単位として文を構成する単語系列を探索する

第２探索部１５において、自己遷移部１５１は、探索過程で各状態仮説を自己遷移させる。LR遷移部１５２は、探索過程で各状態仮説をLR遷移させる。尤度計算部１５３は、前記自己遷移およびLR遷移において、音響特徴パラメータの時系列データを、第２データベース２０に記憶された木構造辞書および第３データベース２１に記憶された音響モデルと照合して音響的な尤度を算出し、この音響尤度を時間方向に累積して累積尤度を求める。本実施形態では、文法の制約から木構造辞書の状態系列が複数に枝分れする場合、第２探索部１５は枝の数だけ状態仮説を複製し、枝ごとに状態仮説を進行させて尤度を計算する。

報酬付与部１５４は、探索過程において各状態仮説に、到達可能な単語数（リーフノード数）xに応じた報酬値R(x)を付与して累積尤度を嵩上げする。枝刈り部１５５は、探索過程で各状態の累積尤度と報酬値R(x)との加算値を所定の時間周期で比較し、尤度の低い状態仮説を枝刈りして探索対象から除外する。

単語仮説出力部１６は、単語末尾まで進んだ状態仮説の単語仮説を出力する。単語仮説蓄積部１７は、単語末尾まで進んだ全ての状態仮説の単語仮説を蓄積する。前記第１および第２検索部１４，１５による検索および単語仮説の出力は、音響特徴パラメータの時系列データの入力が終了するまで繰り返される。認識結果判定部１８は、時系列データの入力が終了すると、単語仮説の集合のうち文法上の最後のHMM状態まで到達したものの中から累積尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。

図６は、本発明のパターン認識方法を適用した音声認識の手順を示したフローチャートであり、主に前記第２探索部１５の動作を示している。

ステップＳ１では、有効な状態仮説の一つが今回の計算対象として選択される。ステップＳ２では、今回の状態仮説に対して自己遷移が実施され、その音響尤度が算出される。ステップＳ３では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。ステップＳ４では、今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了したか否かが判定される。完了していなければステップＳ１へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。

今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了するとステップＳ５へ進み、改めて今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップＳ６では、今回の状態仮説に対してL-R遷移が実施され、その音響尤度が計算される。ステップＳ７では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。

ステップＳ８では、今回のL-R遷移により木構造が分岐したか否かが判定される。分岐していればステップＳ９へ進み、確率言語モデルに基づいて言語尤度の先読みが実施され、到達可能な全ての単語の言語尤度の最大値（先読み値）が累積尤度に加算される。ステップＳ１０では、遷移先から到達可能な単語数（リーフノード数）xが次式(1)に適用されて報酬値R(x)が算出され、今回の状態仮説に既登録の報酬値R(x)が更新される。次式(1)では、到達可能な単語数xが「１」のときに報酬値R(x)が「０」となるので、探索の確率的フレームワークが崩されることなく維持される。なお、符号a，bは正の定数である。

ステップＳ１１では、遷移先に自己遷移の状態仮説が存在する場合に、その累積尤度とL-R遷移後の状態仮説の累積尤度とが比較され、大きい方の状態仮説を残して小さい方が破棄される。ステップＳ１２では、今回のタイミングで遷移すべき全ての状態仮説に関して、上記のL-R遷移が完了したか否かが判定される。完了していなければステップＳ５へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。

その後、今回のタイミングで遷移すべき全ての状態仮説について上記の各処理が完了するとステップＳ１３へ進み、枝刈り処理が実行される。本実施形態では、時刻t、状態jの各尤度αj(t)として、累積尤度と報酬値R(x)との加算値が用いられ、時刻tにおける全状態仮説の中で最大の尤度αmax(t)と各尤度αj(t)とが比較される。そして、次式(2)を満足する状態仮説が次の時刻の探索空間に残され、次式(3)を満足する状態仮説は次の時刻の探索空間から除外される。θpruningはビーム幅である。

ステップＳ１４では、枝刈り後に残った状態仮説の一つが選択される。ステップＳ１５では、選択された状態仮説が単語末尾の状態仮説であるか否かが判定され、単語末尾の状態仮説であれば、ステップＳ１６へ進んで単語仮説が出力される。ステップＳ１７では、次の単語の先頭の状態に遷移する仮想的な状態仮説が設定される。ステップＳ１８では、枝刈り後に残った全ての状態仮説に関して上記の処理が完了したか否かが判定される。完了していなければ前記ステップＳ１４へ戻り、状態仮説を変更しながら各処理が繰り返される。ステップＳ１９では、次フレームの有無が判定され、次フレームが存在すればステップＳ１へ戻り、次フレームの音響特徴パラメータを対象に上記した各処理が繰り返される。

全てのフレームに関して上記の処理が終了して探索が文末フレームまで到達すると、ステップＳ２０では、これまでに文法上の最後のHMM状態まで到達した全ての状態仮説が、その累積尤度の順にソートされ、累積尤度が上位の複数または唯一の状態仮説にバックトレースが実施されて認識結果が出力される。

上記の検索手順を含む一連のパターン認識手順は、コンピュータにより実行可能なプログラム言語で記述することができ、当該プログラムをCD-ROMやDVDなどの記憶媒体に記録し、これをコンピュータに読み込ませて実行させることによりパターン認識装置を構成することができる。

なお、上記の実施形態では本発明を状態仮説がビーム幅に基づいて枝刈りされる場合を例にして説明したが、本発明はこれのみに限定されるものではなく、状態仮説の累積尤度をヒストグラム化し、最大許容仮説数に基づいて枝刈りする場合にも同様に適用できる。

また、上記した実施形態では、本発明を音声認識を例にして説明したが、他のパターン認識にも同様に適用できる。

１１…音声信号入力部，１２…音響分析部，１３…パラメータ記憶部，１４…第１探索部，１５…第２探索部，１６…単語仮説出力部，１７…単語仮説蓄積部，１８…認識結果判定部，１９…第１データベース，２０…第２データベース，２１…第３データベース，１５１…尤度計算部，１５２…自己遷移部，１５３…LR遷移部，１５４…報酬付与部，１５５…枝刈り部

Claims

入力信号から抽出された特徴パラメータを、認識パターンがルートから複数のリーフノードに至るパスで表現された木構造の状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識装置において、
入力信号の特徴パラメータを状態遷移モデルと照合し、状態遷移モデルの各状態に対する特徴パラメータの尤度を算出する手段と、
前記各状態から到達可能なリーフノード数に応じた報酬値を算出する手段と、
所定の時刻周期で、各状態にある状態仮説の累積尤度と報酬値との加算値同士を比較し、加算値の低い状態仮説を探索対象から除外する枝刈り手段とを具備したことを特徴とするパターン認識装置。
前記尤度を算出する手段は、状態遷移モデルの各状態にある状態仮説を自己遷移およびL-R遷移させながら遷移先の各状態において尤度を算出し、
前記報酬値を算出する手段は、L-R遷移先が分岐後の状態の場合に報酬値を更新することを特徴とする請求項１に記載のパターン認識装置。
前記報酬値を算出する手段は、到達可能なリーフノード数が多いほど報酬値が大きくなる単調増加関数を用いて報酬値を算出することを特徴とする請求項１または２に記載のパターン認識装置。
前記単調増加関数は、到達可能なリーフノード数が「１」のときに報酬値を「０」にすることを特徴とする請求項３に記載のパターン認識装置。
前記単調増加関数は、到達可能なリーフノード数が「１」よりも大きい範囲では報酬値を単調増加かつ一定値に漸近させることを特徴とする請求項３に記載のパターン認識装置。
前記到達可能なリーフノード数をx、報酬値をR(x)としたとき、前記単調増加関数が次式で与えられることを特徴とする請求項３ないし５のいずれかに記載のパターン認識装置。

ただし、a, bは定数。
前記木構造の状態遷移モデルが単語の木構造辞書であることを特徴とする請求項１ないし６のいずれかに記載のパターン認識装置。
前記単語の種別に応じて、到達可能なリーフノード数と報酬値との関係が異なることを特徴とする請求項７に記載のパターン認識装置。
入力信号から抽出された特徴パラメータを、認識パターンがルートから複数のリーフノードに至るパスで表現された木構造の状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識方法において、
入力信号の特徴パラメータを状態遷移モデルと照合し、状態遷移モデルの各状態に対する特徴パラメータの尤度を算出する手順と、
前記各状態から到達可能なリーフノード数に応じた報酬値を算出する手順と、
所定の時刻周期で、各状態にある状態仮説の累積尤度と報酬値との加算値同士を比較し、加算値の低い状態仮説を探索対象から除外する枝刈り手順とを含むことを特徴とするパターン認識方法。
前記請求項９に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。
前記請求項１０に記載したパターン認識プログラムをコンピュータが読み取り可能に記憶した記録媒体。