JP2014089246A

JP2014089246A - パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体

Info

Publication number: JP2014089246A
Application number: JP2012237805A
Authority: JP
Inventors: Tsuneo Kato; 恒夫加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2012-10-29
Filing date: 2012-10-29
Publication date: 2014-05-15
Anticipated expiration: 2032-10-29
Also published as: JP6026224B2

Abstract

【課題】入力信号から抽出された特徴パラメータと、認識パターンが木構造で表現された確率的な状態遷移モデルとを時系列で照合し、最尤な状態遷移パスを認識パターンとするパターン認識装置において、累積尤度の低いパスの計算を途中で中止する枝刈りの閾値を、その認識処理の時々の複雑さを表す瞬時パープレキシティに基づいて動的に決定する。
【解決手段】尤度計算部４０３は、入力信号の特徴パラメータに基づいて、状態遷移モデルの探索空間で各状態仮説の尤度計算を実行する。PP近似計算部４０４は、各時刻において、累積尤度が上位M個の状態仮説の言語確率に基づいて瞬時的なパープレキシティを近似算出する。枝刈り閾値設定部４０５は、パープレキシティの算出結果に基づいて枝刈り閾値を設定する。枝刈り部４０６は、枝刈り閾値に基づいて、尤度の低い状態仮説を探索対象から除外する。
【選択図】図１

Description

本発明は、パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体に係り、特に、累積尤度の低いパスの計算を途中で中止する枝刈りの閾値を、その認識処理の複雑さを表す指標となるパープレキシティに基づいて決定するパターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体に関する。

音声認識は、時系列の音声データに対して、予め定義された連鎖可能な単語の繋がり（単語系列）の中から、もっとも確率の高い単語系列を求めるプロセスとして定式化されている。図５は、現在主流のHMM（Hidden Markov Model、隠れマルコフモデル）に基づく音声認識エンジンのシステム構成を示したブロック図であり、入力音声取り込み部５０１、音声区間検出部５０２および音響分析部５０３を通して得られた音響特徴量に対して、

(1)単語を単位として文を構成する単語系列を探索する文法／言語モデル探索部５０６、および

(2)言語モデルの構成要素である単語を探索しながら、累積の尤もらしさ（確率）を算出する単語辞書探索部５０５、が連携することで、もっとも事後確率の高い単語系列が求められる。

さらに具体的に説明すれば、入力音声取込部５０１は、マイクから波形信号を取り出して出力する。音声区間検出部５０２は、時系列の波形信号を入力として、短時間のパワーや零交差数を逐次計算し、閾値処理などによって一発声の音声区間を切り出して、その波形信号を出力する。音響分析部５０３は、音声区間の波形信号を入力として音響分析を行い、MFCCなどの音響特徴量の時系列データを出力する。音響尤度計算部５０４は、音響特徴量を入力として、これを音響モデル５０８がHMM状態毎に定義する音響特徴量空間中の確率密度分布と照合することで音響尤度を出力する。

文法／言語モデル探索部５０６は、図６に示すような文法もしくは図７に示すような確率言語モデル上で、言語モデル５１０を参照しながら、文頭の無音部分から単語系列の探索を開始する。探索対象の単語を決定されると、単語辞書探索部５０５に対して探索対象の単語が指定され、単語辞書探索部５０５から指定単語の探索終了の通知を受けると、次の時刻に後続する単語の探索が単語辞書探索部５０５に対して指示される。

確率言語モデルに基づく音声認識では、次に述べる累積尤度に確率言語モデルの尤度が加算される。単語辞書探索部５０５は、文法／言語モデル探索部５０６から指定された単語について、木構造辞書５０９に基づいて、音響尤度計算部５０４が出力するHMM状態毎の音響尤度を累積しながら探索を行う。探索が単語終端のHMM状態まで進むと、単語の探索終了とその累積尤度とが文法／言語モデル探索部５０６に通知される。そして、与えられた音声特徴量系列に対して事後確率（尤度）の最も高い単語系列が最終的な認識結果として出力される。認識結果出力部５０７は、音声区間の探索処理が終わると、累積尤度がもっとも高い単語系列を認識結果として出力する。

前記単語辞書探索部５０５によって探索が行われる単語辞書で、各単語はHMM系列として表現される。多くの場合、単語はその読みに従って音素系列に分解され、それぞれの音素について用意された音素HMMを連結することで単語のHMM系列が構成される。こうすると、図８に示すような各単語について一直線状のHMM系列が得られる。

単語の探索は、HMM系列に対するビタービ（Viterbi）アルゴリズムによって実行される。認識結果の候補の1つである仮説は、開始時刻（1つ前の単語の終了時刻の次の時刻）にHMM系列の先頭の状態に入り、ある時刻（終了時刻）にHMM系列の末尾の状態から出る。ビタービアルゴリズムは、仮説がHMM系列に入った時刻から出た時刻までの、音声データの系列とHMM系列の音響的特徴との一致度を確率値として出力する。より正確には、この確率値は対数化した尤度（L = log P）で表現され、これが「音響尤度」と呼ばれる。

例えば、図７の確率言語モデルと図９の木構造辞書とを用いた音声認識において、文頭の無音(sil)に続く単語の頭文字/k/を探索中の状態仮説には、「sil-九時」，「sil-会社」および「sil-買い物」の３つのうち、最大値となる「sil-九時」の言語確率0.050を対数化したlog0.050が加えられる。最初の分岐を越えて/k/の次の/a/を探索中の状態仮説には、分岐前のlog0.050は破棄して、「sil-会社」および「sil-買い物」の言語確率のうち最大値となる「sil-会社」の0.020を対数化したlog0.020が加えられる。「買い物」の/m/まで進んだ状態仮説には、log0.020は破棄してlog0.010が加えられる。こうして木構造辞書の探索が進み、状態仮説がリーフに近づくにつれて単語が限定されていき、より正確な言語確率が付与されるようになる。

認識処理の途中では単語が確定していないので、様々な単語のHMM系列に対して同時並行してビタービアルゴリズムが実行される。すなわち、様々な単語のHMM系列の状態のそれぞれに、その時点までの音響尤度を保存した仮説が一時記憶される。この仮説は「状態仮説」と呼ばれる。

実際の音声認識では、膨大な種類に及ぶ単語系列を探索するために状態仮説の数は膨大になる。状態仮説の数を節約するために、異なる単語間で先頭から共通の部分HMM系列がマージされる。これは、異なる単語間でも同時刻に共通の部分HMM系列の探索を開始すれば、共通部分の各状態の音響尤度は等しいからである。このマージにより、図９に示すような「木構造辞書」が形成される。

しかしながら、このような認識対象語彙の木構造辞書化を行ってもなお、状態仮説数は爆発的に増大してしまう。そこで、通常は毎時刻全状態仮説の尤度を比較し、尤度の高い状態仮説だけを次の時刻の探索に残し、尤度の低い状態仮説は探索途中で破棄する「枝刈り」の処理が行われる。

代表的な枝刈り手法としては、非特許文献１には、全状態仮説中の最大尤度から一定の尤度幅以内にある状態仮説を残す尤度幅による枝刈り手法が開示されている。非特許文献２には、尤度の高い状態仮説から一定個数の状態仮説を残すために、全状態仮説を尤度に基づいてヒストグラムの階級に分類し、尤度の高い階級から累積個数が一定値を超えるまで残すヒストグラムによる枝刈り手法が開示されている。なお、両手法は併用されるのが一般的である。

さらに、尤度幅による枝刈り、ヒストグラムによる枝刈りの発展形として、これらの閾値を動的に変化させる手法も提案されている。

特許文献1には、探索範囲を適応的に制御する方式として、各時刻における累積尤度の分布、より具体的には現在時刻と一時刻前の最尤な仮説の尤度差、を変数として仮説枝刈りの閾値を制御する手法が開示されている。特許文献2には、尤度幅に基づく枝刈りの尤度幅を動的に制御する方式として、枝刈り後の仮説数が一定数以上にならないように制御する手法が開示されている。

H. Ney, D. Mergel, A. Noll and A. Paeseler, "Data-driven search organization for continuous speech recognition," IEEE Transactions on Signal Processing, vol.40, no.2, pp.272-281, (1992) V. Steinbiss, B.-H. Tran and H. Ney, "Improvements in beam search," Proceedings of ICSLP 94, pp.397-400 (1994)

特開平６−２８２２５５号公報特開２００３−１５６８３号公報

非特許文献1および非特許文献2は、時不変の枝刈り閾値により状態仮説の削減を図っている。特許文献1および特許文献2は、枝刈り閾値を時変に変化させるが、特許文献1は状態仮説数を一定値に保とうとする制御であり、本来あるべき認識の難しさに応じた枝刈り処理になっていない。本来は、認識が難しく多くの仮説を比較すべき時刻には枝刈り閾値を緩くし、認識が易しく少数の仮説の比較で済む時刻には枝刈り閾値を厳しくする処理が適切と考えられる。

本発明の目的は、従来技術の課題を解決し、累積尤度の低いパスの計算を途中で中止する枝刈りの閾値を、その認識処理の時々の複雑さを表す瞬時パープレキシティに基づいて動的に決定するパターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体を提供することにある。

上記の目的を達成するために、本発明は、入力信号から抽出された特徴パラメータと、認識パターンが木構造で表現された確率的な状態遷移モデルとを時系列で照合し、木構造の枝毎に特徴パラメータに対する確率モデルの各状態の尤度計算および枝刈りを繰り返しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パターンとするパターン認識において、以下のような構成を具備した。

(1)入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で各状態仮説の尤度計算を実行する探索手段と、各時刻において、累積尤度が上位M個の状態仮説の言語確率に基づいて瞬時的なパープレキシティを近似算出するPP算出手段と、パープレキシティの算出結果に基づいて枝刈り閾値を設定する枝刈り閾値設定手段と、枝刈り閾値に基づいて、尤度の低い状態仮説を探索対象から除外する枝刈り手段とを具備した。

(2)PP算出手段は、上位M個の状態仮説のそれぞれが木構造上で次に到達可能な複数の単語のうち、その言語確率が上位K個の単語の言語確率から求めた平均分岐数でパープレキシティを近似するようにした。
ことを特徴とする請求項１に記載のパターン認識装置。

(3)PP算出手段は、同タスクについて予め用意した評価文セットについて予め算出した文頭からの単語数を変数とするテストセットパープレキシティによって近似するようにした。

本発明によれば、以下のような効果が達成される。

(1)瞬時的なパープレキシティに基づいて仮説の枝刈りの閾値が設定されるので、音声認識の難しい時刻には仮説枝刈りの閾値を緩くする一方、認識の易しい時刻には仮説枝刈りの閾値を厳しくするといった枝刈り閾値の動的制御が可能となる。その結果、認識率の低下を抑えながら処理時間を効率的に削減し、認識処理を高速化できるようになる。

(2)累積尤度の高い上位M個の状態仮説について、それぞれ上位K個の言語確率をもとに瞬時的なPPが近似されるので、パープレキシティの算出負荷を軽減できる。

(3)評価文セットに基づいてパープレキシティを近似的に算出すれば、オンライン（音声認識処理中）の演算が無くなってオフラインの演算でパープレキシティを近似できるので処理速度が向上する。

本発明を適用した音声認識装置の第１実施形態の機能ブロック図である。音声認識の第１実施形態の手順を示したフローチャートである。本発明を適用した音声認識装置の第２実施形態の機能ブロック図である。音声認識の第２実施形態の手順を示したフローチャートである。従来の音声認識装置の機能ブロック図である。記述文法の一例を示した図である。確率言語モデル(bigram)の一例を示した図である。一直線状のHMM系列の一例を示した図である。木構造辞書の一例を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。ここでは、確率モデルに基づく木構造を利用したパターン認識装置の代表的な応用例として音声認識装置を取り上げる。図１は、本発明の一実施形態に係る音声認識装置のシステム構成図であり、本発明の説明に不要な構成は図示が省略されている。

音声信号入力部１は、入力された音声信号をデジタル信号に変換する。音響分析部２は、音声デジタル信号を音響分析して音響特徴パラメータを抽出し、これを一時記憶する。音響特徴パラメータとは、入力音声を一定時間間隔（例えば１０ms：以下、フレームと表現する）毎に分析して得られる特徴ベクトルである。したがって、音声信号は特徴ベクトルの時系列X＝x1，x2…xtに変換される。文法／確率言語モデル探索部（第１探索部）３は、記述文法／確率言語モデル８に基づいて、単語を単位として文を構成する単語系列を探索する。

木構造辞書探索部（第２探索部）４において、自己遷移部４０１は、探索過程で各状態仮説を自己遷移させる。LR遷移部４０２は、探索過程で各状態仮説をLR遷移させる。尤度計算部４０３は、前記自己遷移およびLR遷移において、音響特徴パラメータの時系列データを木構造辞書９と照合することで音響的な尤度を算出し、これを時間方向に累積して累積尤度を求める。本実施形態では、文法の制約から木構造辞書９の状態系列が複数に枝分れする場合、木構造辞書探索部４は、枝の数だけ状態仮説を複製し、枝ごとに状態仮説を進行させて尤度を計算する。

PP(パープレキシティ)近似計算部４０４は、確率言語モデルのパープレキシティを近似的に計算する。すなわち、音声認識では一般に、認識対象となる語彙が大きく、対立仮説が多くなるほど正解率が低下して認識が難しくなる。一方、確率言語モデルに基づく音声認識の場合、探索中の時刻によって認識の難しさが変化すると考えられる。例えば、音声認識装置が発声者の多様な質問を受け付ける場合、文頭は多様な単語で始まる可能性があるために認識が難しく、逆に文末は「ですか？」や「しますか？」などの定型的な疑問形で終わることが多いために認識が易しいと考えられる。こうした、時々刻々と変化する音声認識の難しさは、確率言語モデルが与える瞬時的なパープレキシティによって測ることができる。

例えば、語彙w₁,…,w_Nからなる確率言語モデルを用いて、文頭からk番目の単語s_kを探索中であり、その直前の単語がs_k-1、その前の単語がs_k-2で確定しているとすれば、瞬時的なパープレキシティPP(s_k)は、次式(1)の瞬時的なエントロピーH(s_k)を用いて、次式(2)で与えることができる。

H(sk) = -Σs_k P(s_k|s_k-1,s_k-2)log₂P(s_k|s_k-1,s_k-2) … (1)

PP(sk) = 2^H(sk) … (2)

しかしながら、音声認識処理中の単語s_kごとに全N個の単語の言語確率の総和を算出することは実際には困難である。また、先行単語s_k-1および先々行単語s_k-2も状態仮説により異なるので、その時刻で生存している全ての単語系列についてパープレキシティPP(s_k)を算出することは容易ではない。

そこで、本実施形態では全ての可能性を考慮する代わりに、累積尤度の高い上位M個の状態仮説について、探索中の各単語s_kから木構造辞書上で次に到達可能な複数のリーフに対応する単語を候補として持つものとする。そして、前記M個の状態仮説のそれぞれから木構造上で次に到達可能な単語のうち、その言語確率が上位K個の単語の言語確率から近似的なパープレキシティを算出する。本実施形態では、言語確率が上位K個の単語の当該言語確率の総和でパープレキシティが近似される。すなわち、エントロピーH(s_k)が次式(3)で代表される。

H(s_k) = -Σ_m [R(_m)Σ_{Sk,m {}P(s_k,m|s_k-1,m,s_k-2,m)log₂P(s_k,m|s_k-1,m,s_k-2,m)}] /Σ_mR(_m) … (3)

ここで、R(m)は上位M個のうちのm番目の状態仮説の累積尤度を表し、累積尤度により重み付き平均を取っている。上記の場合は、状態仮説それぞれについて、単語辞書中の存在位置に関係なく上位K個の言語確率の和をとっているが、単語辞書中の存在位置に依存して変化する言語確率の先読み値Q(m|s_k-1,m,s_k-2,m)を用いて近似することもできる。すなわち、エントロピーH(s_k)は次式(4)で代表しても良い。

H(s_k) = -Σ_m [R(_m)Q(m|s_k-1,m,s_k-2,m)log₂Q(m |s_k-1,m,s_k-2,m)] /Σ_mR(_m) … (4)

図１へ戻り、枝刈り閾値設定部４０５は、前記瞬時的なパープレキシティPP(s_k)に基づいて枝刈り閾値を設定する。すなわち、尤度幅による枝刈りであれば、尤度幅がPP(s_k)に基づいて設定され、ヒストグラムによる枝刈りであれば、保持可能な最大仮説数がPP(s_k)に基づいて設定される。なお、尤度幅による枝刈りの場合、尤度幅は瞬時的なパープレキシティPP(s_k)の単調増加関数で与えられ、ヒストグラムによる枝刈りの場合、最大仮説数が瞬時的なパープレキシティPP(s_k)の単調増加関数で与えられる。枝刈り部４０６は、前記枝刈り閾値に基づいて枝刈りを実施する。

単語仮説出力部５は、単語末尾まで進んだ状態仮説の単語仮説を出力する。前記第１および第２探索部３，４による探索および単語仮説の出力は、音響特徴パラメータの時系列データの入力が終了するまで繰り返される。バックトレース部６は、時系列データの入力が終了すると、単語仮説の集合７のうち文法上の最後のHMM状態まで到達したものの中から累積尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。

図２は、本発明のパターン認識方法を適用した音声認識の手順を示したフローチャートであり、主に前記木構造辞書探索部（第２探索部）４の動作を示している。

ステップＳ１では、有効な状態仮説の一つが今回の計算対象として選択される。ステップＳ２では、今回の状態仮説に対して、前記自己遷移部４０１により自己遷移が実施され、その音響尤度が算出される。ステップＳ３では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。ステップＳ４では、今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了したか否かが判定される。完了していなければステップＳ１へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。

今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了するとステップＳ５へ進み、改めて今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップＳ６では、今回の状態仮説に対して、前記LR遷移部４０２によりL-R遷移が実施され、その音響尤度が計算される。ステップＳ７では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。

ステップＳ８では、今回のL-R遷移により木構造が分岐したか否かが判定される。分岐していればステップＳ９へ進み、確率言語モデルに基づいて言語尤度の先読みが実施され、到達可能な全ての単語の言語尤度の最大値（先読み値）が累積尤度に加算される。

ステップＳ１０では、遷移先に自己遷移の状態仮説が存在する場合に、その累積尤度とL-R遷移後の状態仮説の累積尤度とが比較され、大きい方の状態仮説を残して小さい方が破棄される。ステップＳ１１では、今回のタイミングで遷移すべき全ての状態仮説に関して、上記のL-R遷移が完了したか否かが判定される。完了していなければステップＳ５へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。

その後、今回のタイミングで遷移すべき全ての状態仮説について上記の各処理が完了するとステップＳ１２へ進み、瞬時的なPPの近似計算が上式(2)，(3)に基づいて行われる。すなわち、本実施形態では全ての可能性を考慮する代わりに、累積尤度の高い上位M個の状態仮説について、それぞれ上位K個の言語確率の和で瞬時的なPPが近似される。

ステップＳ１３では、前記瞬時的なPPに応じた枝刈り閾値が設定される。本実施形態では、瞬時的なPPの単調増加関数で尤度幅および最大仮説数が設定される。ステップＳ１４では、前記尤度幅および最大仮説数を枝刈り条件として、累積尤度に基づく状態仮説の枝刈りが実施される。

ステップＳ１５では、枝刈り後に残った状態仮説の一つが選択される。ステップＳ１６では、選択された状態仮説が単語末尾の状態仮説であるか否かが判定され、単語末尾の状態仮説であれば、ステップＳ１７へ進んで単語仮説が出力される。ステップＳ１８では、次の単語の先頭の状態に遷移する仮想的な状態仮説が設定される。ステップＳ１９では、枝刈り後に残った全ての状態仮説に関して上記の処理が完了したか否かが判定される。完了していなければ前記ステップＳ１５へ戻り、状態仮説を変更しながら各処理が繰り返される。ステップＳ２０では、次フレームの有無が判定され、次フレームが存在すればステップＳ１へ戻り、次フレームの音響特徴パラメータを対象に上記した各処理が繰り返される。

全てのフレームに関して上記の処理が終了して探索が文末フレームまで到達すると、ステップＳ２１では、これまでに文法上の最後の状態まで到達した単語仮説が、その累積尤度の順にソートされ、累積尤度が上位の複数または唯一の単語仮説にバックトレースが実施されて認識結果が出力される。

なお、上記の第１実施形態では、オンラインで音声認識処理が実行されるため、語彙の大きなシステムあるいは処理能力の低いシステムでは、リアルタイムでの処理に遅延が生じる場合がある。これに対して、以下に説明する第２実施形態では、オンライン（音声認識処理中）の演算をなくし、オフラインの演算で近似することにより処理速度を向上させることができる。

図３は、本発明の第２実施形態に係る音声認識装置のシステム構成図、図４は、本実施形態の動作を示したフローチャートであり、前記と同一の符号は同一または同等部分を示している。

本発明の第２実施形態では、フレーズ（句読点によって句切られる単位）の先頭単語から末尾単語にかけてパープレキシティが減少する傾向を大まかに捉え、予め用意した複数の評価文（テストセット）について、フレーズ先頭からの単語の数をパラメータとしてオフラインで算出されたテストセットパープレキシティ１０を与えるようにしている。

ここでは、全L文の評価文のうち第l番目が単語s_1,l, …, s_{Kl, l}で構成されるとすると、先頭からk番目の単語に対する瞬時的なパープレキシティPP(sk)は、次式(6)の瞬時的なエントロピーH(sk)を用いて、次式(5)で与えることができる。

PP(s_k) = 2^H(k) … (5)

H(k) = -(1/L)Σl log₂P(s_k,l|s_k-1,_l,s_k-2,_l) … (6)

この場合、累積尤度の高い上位M個の状態仮説について、それぞれフレーズ先頭から何番目の単語を探索中であるかカウントし、それらの平均値を利用することができる。

図３において、PP参照部４０７は、図４のステップＳ１２ａにおいて、累積尤度の上位M個の状態仮説について、フレーズ先頭からの単語位置に応じたテストセットパープレキシティ１０を参照し、累積尤度を重み係数としてそれらの重み付き平均値を求めることで、パープレキシティを近似的に算出する。ステップＳ１３以降では、前記第１実施形態と同様に、前記PPに応じた枝刈り閾値が設定され、累積尤度に基づく状態仮説の枝刈りが実施される。

なお、上記の探索手順を含む一連のパターン認識手順は、コンピュータにより実行可能なプログラム言語で記述することができ、当該プログラムをCD-ROMやDVDなどの記憶媒体に記録し、これをコンピュータに読み込ませて実行させることによりパターン認識装置を構成することができる。

また、上記した実施形態では、本発明を音声認識を例にして説明したが、他のパターン認識にも同様に適用できる。

１…音声信号入力部，２…音響分析部，３…文法／確率言語モデル探索部（第１探索部），４…木構造辞書探索部（第２探索部），５…単語仮説出力部，６…バックトレース部，７…単語仮説集合，８…記述文法/確率言語モデル，９…木構造辞書，１０…テストセットPP，４０１…自己遷移部，４０２…LR遷移部，４０３…尤度計算部，４０４…PP近似計算部，４０５…枝刈り閾値設定部，４０６…枝刈り部

Claims

入力信号から抽出された特徴パラメータと、認識パターンが木構造で表現された確率的な状態遷移モデルとを時系列で照合し、木構造の枝毎に前記特徴パラメータに対する確率モデルの各状態の尤度計算および枝刈りを繰り返しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パターンとするパターン認識装置において、
入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で各状態仮説の尤度計算を実行する探索手段と、
各時刻において、累積尤度が上位M個の状態仮説の言語確率に基づいて瞬時的なパープレキシティを近似算出するPP算出手段と、
前記パープレキシティの算出結果に基づいて枝刈り閾値を設定する枝刈り閾値設定手段と、
前記枝刈り閾値に基づいて、尤度の低い状態仮説を探索対象から除外する枝刈り手段とを具備したことを特徴とするパターン認識装置。
前記PP算出手段は、前記上位M個の状態仮説のそれぞれが木構造上で次に到達可能な複数の単語のうち、その言語確率が上位K個の単語の当該言語確率から推定した平均分岐数で前記パープレキシティを近似することを特徴とする請求項１に記載のパターン認識装置。
前記枝刈り閾値設定手段は、各時刻における累積尤度の最大値からの尤度幅を、前記パープレキシティに対する単調増加関数により与えることを特徴とする請求項１または２に記載のパターン認識装置。
前記枝刈り閾値設定手段は、各時刻において保持可能な最大仮説数を、前記パープレキシティに対する単調増加関数により与えることを特徴とする請求項１または２に記載のパターン認識装置。
前記PP算出手段は、同タスクについて予め用意した評価文セットについて予め算出した文頭からの単語数を変数とするテストセットパープレキシティによって近似することを特徴とする請求項１に記載のパターン認識装置。
入力信号から抽出された特徴パラメータと、認識パターンが木構造で表現された確率的な状態遷移モデルとを時系列で照合し、木構造の枝毎に前記特徴パラメータに対する確率モデルの各状態の尤度計算および枝刈りを繰り返しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パターンとするパターン認識方法において、
入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で各状態仮説の尤度計算を実行する手順と、
各時刻において、累積尤度が上位M個の状態仮説の言語確率に基づいて瞬時的なパープレキシティを近似算出する手順と、
前記パープレキシティの算出結果に基づいて枝刈り閾値を設定する手順と、
前記枝刈り閾値に基づいて、尤度の低い状態仮説を探索対象から除外する手順とを含むことを特徴とするパターン認識方法。
前記パープレキシティを算出する手順では、前記上位M個の状態仮説のそれぞれが木構造上で次に到達可能な複数の単語のうち、その言語確率が上位K個の単語の言語確率から求めた平均分岐数で前記パープレキシティを近似することを特徴とする請求項６に記載のパターン認識方法。
前記請求項６または７に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。
前記請求項８に記載したパターン認識プログラムをコンピュータが読み取り可能に記憶したパターン認識プログラムの記録媒体。