JP4757936B2 - パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 - Google Patents

パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP4757936B2
JP4757936B2 JP2009172170A JP2009172170A JP4757936B2 JP 4757936 B2 JP4757936 B2 JP 4757936B2 JP 2009172170 A JP2009172170 A JP 2009172170A JP 2009172170 A JP2009172170 A JP 2009172170A JP 4757936 B2 JP4757936 B2 JP 4757936B2
Authority
JP
Japan
Prior art keywords
state
pattern recognition
reward value
likelihood
hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009172170A
Other languages
English (en)
Other versions
JP2011027910A (ja
Inventor
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009172170A priority Critical patent/JP4757936B2/ja
Priority to US12/841,416 priority patent/US8612227B2/en
Publication of JP2011027910A publication Critical patent/JP2011027910A/ja
Application granted granted Critical
Publication of JP4757936B2 publication Critical patent/JP4757936B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、入力信号の特徴パラメータを、認識パターンがルートからリーフノードに至る木構造状のパスで表現される状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識に係り、特に、音声認識に好適なパターン認識に関する。
音声認識は、時系列の音声データに対して、予め定義された連鎖可能な単語の繋がり(単語系列)の中から、もっとも確率の高い単語系列を求めるプロセスとして定式化されている。現在主流のHMM(Hidden Markov Model、隠れマルコフモデル)に基づく音声認識エンジンでは、(1)単語を単位として文を構成する単語系列を探索するステップ、および(2)音素を単位として様々な単語について尤もらしい開始時刻および終了時刻を探索するステップ、の2階層で探索が行われる。
上記(2)のステップにおいて、各単語はHMM系列として表現される。多くの場合、単語はその読みに従って音素系列に分解され、それぞれの音素について用意された音素HMMを連結することで単語のHMM系列が構成される。図7は、一直線状のHMM系列の一例を示した図である。
単語の探索は、HMM系列に対するビタービ(Viterbi)アルゴリズムによって実行される。認識結果の候補の1つである仮説は、開始時刻(1つ前の単語の終了時刻の次の時刻)にHMM系列の先頭の状態に入り、ある時刻(終了時刻)にHMM系列の末尾の状態から出てくる。ビタービアルゴリズムは、仮説がHMM系列に入った時刻から出てくる時刻までの時間の、音声データとHMM系列との音響的特徴との一致度を確率値として出力する。より正確には、この確率値は対数化された尤度(L = log P)で表現され、「音響尤度」と呼ばれる。
認識処理の途中では単語が確定していないので、様々な単語のHMM系列に対して同時並行してビタービアルゴリズムが実行される。すなわち、様々な単語のHMM系列の状態のそれぞれに、その時点までの音響尤度を保存した仮説が一時記憶される。この仮説は「状態仮説」と呼ばれる。
実際の音声認識では、膨大な種類に及ぶ単語系列を探索するために状態仮説の数は膨大になる。状態仮説の数を節約するために、異なる単語間で先頭から共通の部分HMM系列がマージされる。これは、異なる単語間でも同時刻に共通の部分HMM系列の探索を開始すれば、共通部分の各状態の「音響尤度」は同一だからである。このマージにより、図8に示したような「木構造辞書」が形成される。
しかしながら、このような認識対象語彙の「木構造辞書化」を行ってもなお、状態仮説数は爆発的に増大してしまう。そこで、通常は時刻ごとに全ての状態仮説の尤度を比較し、尤度の高い状態仮説だけを次の時刻の探索に残し、尤度の低い状態仮説は探索途中で破棄する「枝刈り」の処理が行われる。代表的な枝刈り手法としては、全状態仮説中の最大尤度から一定の尤度幅以内にある状態仮説を残す一定ビーム幅による枝刈りや、尤度の高い状態仮説から一定個数の状態仮説を残す最大状態仮説数による枝刈りがあり、両手法は併用されるのが一般的である。
一方、上記(1)のステップは、記述文法に基づく音声認識と、確率言語モデルに基づく音声認識とに大別される。
記述文法に基づく音声認識では、音声認識エンジンが受理する文のセットが単語のネットワークとして用意される。これは「文法」と呼ばれ、その一例を図3に示している。音声認識処理では、文法の文頭のノードから探索が開始され、まず先頭の単語が探索される。単語の探索は上記(2)のステップで行われる。(2)のステップで状態仮説の1つが単語末尾の状態から出てくると、(1)のステップでその単語を経由した遷移先のノードに「単語仮説」と呼ばれる文法レベルの仮説が記録される。単語仮説には、単語のID、開始時刻、終了時刻、遷移元ノードのID、遷移先ノードのID、音声始端からのその時点までの累積尤度が格納される。
単語仮説が生成された次の時刻には、そのノードから始まる全ての単語について、上記(2)のステップにより探索が開始される。こうして、時間の進行に沿って(1)のステップと(2)のステップとが繰り返されることで、文法で定義される探索空間の全体が探索される。最終的には、音声終端の時刻に文法の文末のノードに到達した単語仮説のうち、累積尤度がもっとも高い仮説に至った単語履歴が認識結果として出力される。
確率言語モデルに基づく音声認識では、上記の文法の代わりに「確率言語モデル」が用いられる。通常、数個(N個)の単語の連鎖の様々な組み合わせに対して、最後の単語を除くN-1単語を条件として最後の単語の条件付出現確率を定義する「N-gram」と呼ばれるモデルが用いられる。前後2単語の連鎖を単位とするものは「bigram」、3単語の連鎖を単位とするものは「trigram」と呼ばれる。図9はbigramの一例を示した図である。
確率言語モデルに基づく音声認識では、探索空間がネットワークとして用意されないが、記述文法に基づく音声認識の場合と同様に、仮説を用いて文頭の無音(sil)から探索が開始され、文末の無音(sil)の末尾の状態に到達した仮説は探索を終了する。最終的な認識結果の決定や枝刈りの基準となる尤度としては、確率言語モデルが有する言語尤度を音響尤度に加算した値が用いられる。
非特許文献1では、確率言語モデルに基づく音声認識における「言語尤度の先読み」が提案されている。N-gramで与えられる言語尤度は、探索中の単語が確定した時点で確定するが、言語尤度をできるだけ早い時点で探索処理に反映させるために、木構造辞書の分岐ノードに差し掛かったときに、その分岐ノードから到達しうる複数の単語のうち、最大の言語尤度が暫定的な言語尤度として累積尤度に加えられる。
例えば、図8の木構造辞書と図9の確率言語モデルとを用いた音声認識において、文頭の無音(sil)に続く単語の頭文字/k/を探索中の状態仮説には、「sil-九時」,「sil-会社」および「sil-買い物」の3つのうち、最大値となる「sil-九時」の言語確率0.050を対数化したlog0.050が加えられる。最初の分岐を越えて/k/の次の/a/を探索中の状態仮説には、分岐前のlog0.050は破棄して、「sil-会社」および「sil-買い物」の言語確率のうち最大値となる「sil-会社」の0.020を対数化したlog0.020が加えられる。「買い物」の/m/まで進んだ状態仮説には、log0.020は破棄してlog0.010が加えられる。こうして木構造辞書の探索が進み、状態仮説がリーフに近づくにつれて単語が限定されていき、より正確な言語確率が付与されるようになる。この「言語尤度の先読み」の効果は非常に強力であり、非特許文献1では、ディクテーションタスクの処理時間が1/30に削減されたと報告している。
非特許文献2では、比較的新しい枝刈り手法としてEqual Depth Pruning(木構造辞書の深さに依存する枝刈り)が提案されている。このEqual Depth Pruningでは、尤度に基づく枝刈りにおいて、木構造辞書のルートに近い状態からリーフに近い状態まで様々な深さに存在する状態仮説を満遍なく残すために、全状態仮説のうちの最大尤度を基準とする代わりに、深さ(ルートからの状態数)ごとに基準となる最大尤度が求められ、深さごと個別に一定ビーム幅による枝刈りが行われる。
S. Ortmanns, H. Ney and A. Eiden, "Language-Model Look-Ahead for Large Vocabulary Speech Recognition" Proceedings of ICSLP 96 (1996) J Pylkkonen, "New Pruning Criteria for Efficient Decoding" Proceedings of ICSLP 2005 (2005)
非特許文献1の「言語確率の先読み」は、木構造辞書の効率的な探索に非常に強力な効果をもたらす。しかしながら、言語確率をもたない記述文法に基づく音声認識では同手法を利用できない。
非特許文献2の"Equal depth pruning"は、記述文法に基づく音声認識でも利用できる枝刈り手法である。しかしながら、木構造辞書において1から数十に及ぶ深さのそれぞれに対して、時刻ごとに枝刈りの基準となる尤度を、対象状態仮説の集合の中の最大尤度として求めるために性能が安定せず、状態仮説数を極限まで削減することは難しい。
本発明の目的は、上記した従来技術の課題を解決し、認識率を低下させることなく状態仮説を効率良く枝刈りできるパターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体を提供することにある。
上記の目的を達成するために、本発明は、入力信号の特徴パラメータを認識パターンがルートからリーフノードに至る木構造状のパスで表現された状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識装置において、以下のような手段を講じた点に特徴がある。
(1)入力信号の特徴パラメータを状態遷移モデルと照合し、状態遷移モデルの各状態に対する特徴パラメータの尤度を算出する手段と、各状態から到達可能なリーフノード数に応じた報酬値を算出する手段と、所定の時刻周期で、各状態にある状態仮説の累積尤度と報酬値との加算値同士を比較し、加算値の低い状態仮説を探索対象から除外する枝刈り手段とを具備したことを特徴とする。
(2)尤度を算出する手段は、状態遷移モデルの各状態にある状態仮説を自己遷移およびL-R遷移させながら遷移先の各状態において尤度を算出し、報酬値を算出する手段は、木構造のルートノードと分岐後のノードへのL-R遷移において報酬値を算出・更新することを特徴とする。
(3)報酬値を算出する手段は、到達可能なリーフノード数の増大に従い、一定値に漸近しながら報酬値が大きくなる単調増加関数を用いて報酬値を算出することを特徴とする。
(4)報酬値を算出する手段は、到達可能なリーフノード数が「1」のときに報酬値を「0」にすることを特徴とする。
(5)木構造の状態遷移モデルが単語の木構造辞書であることを特徴とする。
(6)単語の種別によっては、前述の単調増加関数に従わず、例外的に特殊な報酬値を設定できることを特徴とする。
本発明によれば、以下のような効果が達成される。
(1)状態遷移モデルの状態ごとに、当該状態から到達可能なリーフノード数が多くなるほど値が大きくなる報酬値が算出されて各状態の累積尤度に加算され、この加算値に基づいて枝刈りが実行されるので、到達可能なリーフノード数の多い状態の尤度が嵩上げされる。その結果、到達可能なリーフノード数の多い状態が早期に枝刈りされて探索空間が狭められてしまう事態を減少させることができるようになる。
(2)報酬値が分岐後のノードへのL-R遷移において算出、更新されるようにしたので、報酬値の更新回数が最小限に抑えられ、パターン認識の処理負荷を軽減できるようになる。
(3)報酬値が、少ないパラメータの単調増加関数を用いて算出されるので、到達可能なリーフノード数に対する報酬値の最適化が容易になる。
(4)到達可能なリーフノード数が「1」のときの報酬値を「0」にしたので、探索の確率的フレームワークを崩すことなく、これを維持することができる。
(5)木構造辞書に基づく音声認識処理の枝刈りを効率良く行えるようになる。
(6)単語の種別に応じて、到達可能なリーフノード数と報酬値との関係を異ならせることができるので、例外を考慮して報酬値を最適化できるようになる。
木構造辞書を用いたパターン認識において報酬値を加算する方法の一例を示した図である。 到達可能なリーフノード数xに応じて報酬値R(x)が単調増加する一例を示した図である。 記述文法の一例を示した図である。 木構造辞書を用いたパターン認識において報酬値を加算する方法の他の一例を示した図である。 本発明を適用した音声認識装置の主要部の構成を示した機能ブロック図である。 本発明を適用した音声認識の手順を示したフローチャートである。 一直線状のHMM系列の一例を示した図である。 木構造辞書の一例を示した図である。 確率言語モデル(bigram)の一例を示した図である。
以下、図面を参照して本発明の実施形態について詳細に説明する。ここでは始めに、本発明の基本的な考え方について説明し、次いで、ブロック図およびフローチャートを参照して一実施形態を詳細に説明する。
認識パターンがルートノードから複数のリーフノードに至るパスで表現された木構造は、多数のリーフに到達可能な少数のルートノードおよびルートに近いノードと、到達可能なリーフが確定もしくは数種類に限定される多数のリーフに近いノードから構成される。
枝刈りの対象となる状態仮説には、ルートに近いノードに存在する少数の状態仮説と、リーフに近いノードに存在する多数の状態仮説とが含まれる。枝刈りの影響を考えると、ルートに近いノードに存在する少数の状態仮説が大幅に枝刈りされると、多様なリーフに到達する可能性がいっぺんに消滅するので影響が大きい。一方、リーフに近いノードに存在する状態仮説が枝刈りされても、限定されたリーフへ到達する可能性が消滅するだけなので影響が小さい。
図1を参照してさらに具体的に説明すれば、音素列「k」で始まる4つの単語「帰り」,「会社」,「買い物」,「九時」の木構造辞書では、音素列「ku」で始まる単語は「九時(kuji)」に限定されるので、状態仮説が音素列「ku」の探索空間を過ぎれば単語が確定する。これに対して、音素列「ka」で始まる単語は「帰り」,「会社」,「買い物」の3つであるため、音素列「ka」の探索空間を過ぎても単語が確定しない。
ここで、ある時刻で自己遷移またはLR遷移した全ての状態仮説を対象に枝刈りを行うとき、従来技術であれば、ビーム幅や最大許容仮説数で決まる上位n個の状態仮説のみが残る。このとき、状態仮説が多くの単語に到達する可能性を残すためには、探索空間の広い範囲にわたって、その状態仮説が上位n個の中に漏れなく残るようにすることが望ましい。しかしながら、実際には単語が確定する状態仮説のみが上位を占めてしまうような場合があり、このような場合には、多くの単語に到達する可能性が一度に失われてしまう。
すなわち、図1において音素列「ka」の状態仮説が全て枝刈りされるようなことになると、その時点で3つの単語「帰り」,「会社」,「買い物」が探索空間から外れてしまい、必然的に単語「九時」が探索結果に確定してしまう。
本発明では、ルートに近いノードからは到達可能なリーフ個数が多く、リーフに近づくに従って到達可能なリーフ個数が減少し、リーフが確定した時点で到達可能なリーフ個数が「1」になることに着目し、到達可能なリーフ個数に応じた一時的な報酬値を尤度に加算して枝刈りを行うことを考える。
換言すれば、本発明では探索空間の広い状態仮説が早期に枝刈りされることを防止するために、探索空間のより広い状態仮説により多くの報酬値を与えて累積尤度に加算することで、探索空間の広い状態仮説ほど枝刈りされにくくすることを考える。
そして、本発明では各状態から到達可能なリーフノード数(ここでは、単語数)x、およびリーフノード数xに応じた報酬値をR(x)とし、リーフノード数xと報酬値R(x)との関係が、図2のように単調増加関数として定義される。さらに具体的に説明すれば、リーフノード数xと報酬値R(x)との関係が、本実施形態では、到達可能なリーフノード数xが「1」のときに報酬値R(x)を「0」とし、到達可能なリーフノード数が「1」よりも大きい範囲では単調増加かつ一定値に漸近する関数として定義される。
図1に示した例では、音素列[ka]の状態仮説については、到達可能なリーフノード数xが「帰り」,「会社」,「買い物」の3つなので報償値R(3)が付与される。音素列[ku]の状態仮説については、到達可能なリーフノード数xが「九時」の1つなので報償値R(1)が付与される。音素列[kai]の状態仮説については、到達可能なリーフノード数xが「会社」,「買い物」の2つなので報償値R(2)が付与される。
また、記述文法が図3のようであれば、図4に示したように、上記以外の単語「sil(無音)」,「して」,「ます」,「に」の木構造辞書についても状態仮説が並列に進むので、音素列[sil],[sh],[m],[n]のように到達可能なリーフノード数xが「1」の各状態仮説には報償値R(1)が付与され、音素列「k」のように到達可能なリーフノード数xが「4」の状態仮説には報償値R(4)が付与されることになる。
本発明では、到達可能なリーフノード数が「1」において報酬値が「0」となるような関数を定義する。探索がリーフに近づいてリーフノードが確定すると、尤度に加算される報酬値が「0」になるので、探索の確率的フレームワークが崩されずに保たれる。なお、厳密には、音声認識における同音異義語や同音の接頭辞をもつ別の単語など、リーフノードにおいて到達可能なリーフノード数が1よりも大きい場合もあるが、このような場合でも「0」にならない報酬値は、単語仮説を出力する時点で「0」に補正することが可能である。
また、到達可能なリーフノード数xと報酬値R(x)との関係は一つに限定されるものではなく、音声モデルについては図2の関係を定義し、無音モデルや雑音モデルといった特殊な音響モデルについては例外的に他の関係を定義するようにしても良い。
すなわち、音声認識では「無音」や様々な「雑音」(例えば車が通り過ぎた音)も単語の1つとして認識され、音声モデルと共に無音モデルや雑音モデルも用意される。無音モデルや雑音モデルは、他のモデルと共有するノードがないので到達可能な単語数は最初から最後まで「1」となり、図2の関係では報酬値が常に「0」となってしまう。しかしながら、一般的には文頭や文中の無音/雑音の後は(単語を跨いで)多様な表現に発展する可能性があるので、無音/雑音を探索中の仮説に対する枝刈りは甘めにする方が性能が上がる。そこで、無音/雑音などの枝分かれのない特殊な単語に対してのみ、例外的に「0」でない報酬値を与える関係を別途に用意しても良い。
次いで、本発明の一実施形態について詳細に説明する。図5は、本発明のパターン認識を適用した音声認識装置の主要部の構成を示したブロック図である。
音声信号入力部11は、入力された音声信号をデジタル信号に変換する。音響分析部12は、音声デジタル信号を音響分析して音響特徴パラメータを抽出し、これをパラメータ記憶部13に一時記憶する。音響特徴パラメータとは、入力音声を一定時間間隔(例えば10ms:以下、フレームと表現する)毎に分析して得られる特徴ベクトルである。したがって、音声信号は特徴ベクトルの時系列X=x1,x2…xtに変換される。第1探索部14は、第1データベース19に記憶されている記述文法/確率言語モデルに基づいて、単語を単位として文を構成する単語系列を探索する
第2探索部15において、自己遷移部151は、探索過程で各状態仮説を自己遷移させる。LR遷移部152は、探索過程で各状態仮説をLR遷移させる。尤度計算部153は、前記自己遷移およびLR遷移において、音響特徴パラメータの時系列データを、第2データベース20に記憶された木構造辞書および第3データベース21に記憶された音響モデルと照合して音響的な尤度を算出し、この音響尤度を時間方向に累積して累積尤度を求める。本実施形態では、文法の制約から木構造辞書の状態系列が複数に枝分れする場合、第2探索部15は枝の数だけ状態仮説を複製し、枝ごとに状態仮説を進行させて尤度を計算する。
報酬付与部154は、探索過程において各状態仮説に、到達可能な単語数(リーフノード数)xに応じた報酬値R(x)を付与して累積尤度を嵩上げする。枝刈り部155は、探索過程で各状態の累積尤度と報酬値R(x)との加算値を所定の時間周期で比較し、尤度の低い状態仮説を枝刈りして探索対象から除外する。
単語仮説出力部16は、単語末尾まで進んだ状態仮説の単語仮説を出力する。単語仮説蓄積部17は、単語末尾まで進んだ全ての状態仮説の単語仮説を蓄積する。前記第1および第2検索部14,15による検索および単語仮説の出力は、音響特徴パラメータの時系列データの入力が終了するまで繰り返される。認識結果判定部18は、時系列データの入力が終了すると、単語仮説の集合のうち文法上の最後のHMM状態まで到達したものの中から累積尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。
図6は、本発明のパターン認識方法を適用した音声認識の手順を示したフローチャートであり、主に前記第2探索部15の動作を示している。
ステップS1では、有効な状態仮説の一つが今回の計算対象として選択される。ステップS2では、今回の状態仮説に対して自己遷移が実施され、その音響尤度が算出される。ステップS3では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。ステップS4では、今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了したか否かが判定される。完了していなければステップS1へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。
今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了するとステップS5へ進み、改めて今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップS6では、今回の状態仮説に対してL-R遷移が実施され、その音響尤度が計算される。ステップS7では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。
ステップS8では、今回のL-R遷移により木構造が分岐したか否かが判定される。分岐していればステップS9へ進み、確率言語モデルに基づいて言語尤度の先読みが実施され、到達可能な全ての単語の言語尤度の最大値(先読み値)が累積尤度に加算される。ステップS10では、遷移先から到達可能な単語数(リーフノード数)xが次式(1)に適用されて報酬値R(x)が算出され、今回の状態仮説に既登録の報酬値R(x)が更新される。次式(1)では、到達可能な単語数xが「1」のときに報酬値R(x)が「0」となるので、探索の確率的フレームワークが崩されることなく維持される。なお、符号a,bは正の定数である。
Figure 0004757936
ステップS11では、遷移先に自己遷移の状態仮説が存在する場合に、その累積尤度とL-R遷移後の状態仮説の累積尤度とが比較され、大きい方の状態仮説を残して小さい方が破棄される。ステップS12では、今回のタイミングで遷移すべき全ての状態仮説に関して、上記のL-R遷移が完了したか否かが判定される。完了していなければステップS5へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。
その後、今回のタイミングで遷移すべき全ての状態仮説について上記の各処理が完了するとステップS13へ進み、枝刈り処理が実行される。本実施形態では、時刻t、状態jの各尤度αj(t)として、累積尤度と報酬値R(x)との加算値が用いられ、時刻tにおける全状態仮説の中で最大の尤度αmax(t)と各尤度αj(t)とが比較される。そして、次式(2)を満足する状態仮説が次の時刻の探索空間に残され、次式(3)を満足する状態仮説は次の時刻の探索空間から除外される。θpruningはビーム幅である。
Figure 0004757936
Figure 0004757936
ステップS14では、枝刈り後に残った状態仮説の一つが選択される。ステップS15では、選択された状態仮説が単語末尾の状態仮説であるか否かが判定され、単語末尾の状態仮説であれば、ステップS16へ進んで単語仮説が出力される。ステップS17では、次の単語の先頭の状態に遷移する仮想的な状態仮説が設定される。ステップS18では、枝刈り後に残った全ての状態仮説に関して上記の処理が完了したか否かが判定される。完了していなければ前記ステップS14へ戻り、状態仮説を変更しながら各処理が繰り返される。ステップS19では、次フレームの有無が判定され、次フレームが存在すればステップS1へ戻り、次フレームの音響特徴パラメータを対象に上記した各処理が繰り返される。
全てのフレームに関して上記の処理が終了して探索が文末フレームまで到達すると、ステップS20では、これまでに文法上の最後のHMM状態まで到達した全ての状態仮説が、その累積尤度の順にソートされ、累積尤度が上位の複数または唯一の状態仮説にバックトレースが実施されて認識結果が出力される。
上記の検索手順を含む一連のパターン認識手順は、コンピュータにより実行可能なプログラム言語で記述することができ、当該プログラムをCD-ROMやDVDなどの記憶媒体に記録し、これをコンピュータに読み込ませて実行させることによりパターン認識装置を構成することができる。
なお、上記の実施形態では本発明を状態仮説がビーム幅に基づいて枝刈りされる場合を例にして説明したが、本発明はこれのみに限定されるものではなく、状態仮説の累積尤度をヒストグラム化し、最大許容仮説数に基づいて枝刈りする場合にも同様に適用できる。
また、上記した実施形態では、本発明を音声認識を例にして説明したが、他のパターン認識にも同様に適用できる。
11…音声信号入力部,12…音響分析部,13…パラメータ記憶部,14…第1探索部,15…第2探索部,16…単語仮説出力部,17…単語仮説蓄積部,18…認識結果判定部,19…第1データベース,20…第2データベース,21…第3データベース,151…尤度計算部,152…自己遷移部,153…LR遷移部,154…報酬付与部,155…枝刈り部

Claims (11)

  1. 入力信号から抽出された特徴パラメータを、認識パターンがルートから複数のリーフノードに至るパスで表現された木構造の状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識装置において、
    入力信号の特徴パラメータを状態遷移モデルと照合し、状態遷移モデルの各状態に対する特徴パラメータの尤度を算出する手段と、
    前記各状態から到達可能なリーフノード数に応じた報酬値を算出する手段と、
    所定の時刻周期で、各状態にある状態仮説の累積尤度と報酬値との加算値同士を比較し、加算値の低い状態仮説を探索対象から除外する枝刈り手段とを具備したことを特徴とするパターン認識装置。
  2. 前記尤度を算出する手段は、状態遷移モデルの各状態にある状態仮説を自己遷移およびL-R遷移させながら遷移先の各状態において尤度を算出し、
    前記報酬値を算出する手段は、L-R遷移先が分岐後の状態の場合に報酬値を更新することを特徴とする請求項1に記載のパターン認識装置。
  3. 前記報酬値を算出する手段は、到達可能なリーフノード数が多いほど報酬値が大きくなる単調増加関数を用いて報酬値を算出することを特徴とする請求項1または2に記載のパターン認識装置。
  4. 前記単調増加関数は、到達可能なリーフノード数が「1」のときに報酬値を「0」にすることを特徴とする請求項3に記載のパターン認識装置。
  5. 前記単調増加関数は、到達可能なリーフノード数が「1」よりも大きい範囲では報酬値を単調増加かつ一定値に漸近させることを特徴とする請求項3に記載のパターン認識装置。
  6. 前記到達可能なリーフノード数をx、報酬値をR(x)としたとき、前記単調増加関数が次式で与えられることを特徴とする請求項3ないし5のいずれかに記載のパターン認識装置。
    Figure 0004757936
    ただし、a, bは定数。
  7. 前記木構造の状態遷移モデルが単語の木構造辞書であることを特徴とする請求項1ないし6のいずれかに記載のパターン認識装置。
  8. 前記単語の種別に応じて、到達可能なリーフノード数と報酬値との関係が異なることを特徴とする請求項7に記載のパターン認識装置。
  9. 入力信号から抽出された特徴パラメータを、認識パターンがルートから複数のリーフノードに至るパスで表現された木構造の状態遷移モデルと照合し、リーフノードに到達した最尤な状態遷移パスを認識結果とするパターン認識方法において、
    入力信号の特徴パラメータを状態遷移モデルと照合し、状態遷移モデルの各状態に対する特徴パラメータの尤度を算出する手順と、
    前記各状態から到達可能なリーフノード数に応じた報酬値を算出する手順と、
    所定の時刻周期で、各状態にある状態仮説の累積尤度と報酬値との加算値同士を比較し、加算値の低い状態仮説を探索対象から除外する枝刈り手順とを含むことを特徴とするパターン認識方法。
  10. 前記請求項9に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。
  11. 前記請求項10に記載したパターン認識プログラムをコンピュータが読み取り可能に記憶した記録媒体。
JP2009172170A 2009-07-23 2009-07-23 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 Expired - Fee Related JP4757936B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009172170A JP4757936B2 (ja) 2009-07-23 2009-07-23 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US12/841,416 US8612227B2 (en) 2009-07-23 2010-07-22 Method and equipment of pattern recognition, its program and its recording medium for improving searching efficiency in speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009172170A JP4757936B2 (ja) 2009-07-23 2009-07-23 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2011027910A JP2011027910A (ja) 2011-02-10
JP4757936B2 true JP4757936B2 (ja) 2011-08-24

Family

ID=43498065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009172170A Expired - Fee Related JP4757936B2 (ja) 2009-07-23 2009-07-23 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体

Country Status (2)

Country Link
US (1) US8612227B2 (ja)
JP (1) JP4757936B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0420464D0 (en) 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
EP2893435B1 (en) * 2012-09-07 2019-05-08 Carnegie Mellon University Methods for hybrid gpu/cpu data processing
WO2014115232A1 (ja) * 2013-01-25 2014-07-31 日本電気株式会社 解探索装置、解探索方法および解探索プログラム
JP6014519B2 (ja) * 2013-03-06 2016-10-25 Kddi株式会社 確率的な有限状態遷移モデルにおける探索装置
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
US20160302115A1 (en) * 2013-12-04 2016-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Backhaul of Client Network Nodes
US10453445B2 (en) * 2016-02-16 2019-10-22 Carnegie Mellon University System and method for multi-user GPU-accelerated speech recognition engine for client-server architectures
US10199037B1 (en) * 2016-06-29 2019-02-05 Amazon Technologies, Inc. Adaptive beam pruning for automatic speech recognition
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization
US20240054400A1 (en) * 2020-12-24 2024-02-15 Nec Corporation Information processing system, information processing method, and computer program
CN112766350B (zh) * 2021-01-12 2024-02-02 深圳前海微众银行股份有限公司 二分类模型构建方法、装置、设备及计算机可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US5706397A (en) * 1995-10-05 1998-01-06 Apple Computer, Inc. Speech recognition system with multi-level pruning for acoustic matching
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6285981B1 (en) * 1998-06-30 2001-09-04 Texas Instruments Incorporated Speed up speech recognition search using macro evaluator
US6442520B1 (en) * 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
JP2003208195A (ja) * 2002-01-16 2003-07-25 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8392187B2 (en) * 2009-01-30 2013-03-05 Texas Instruments Incorporated Dynamic pruning for automatic speech recognition

Also Published As

Publication number Publication date
JP2011027910A (ja) 2011-02-10
US8612227B2 (en) 2013-12-17
US20110022385A1 (en) 2011-01-27

Similar Documents

Publication Publication Date Title
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7013277B2 (en) Speech recognition apparatus, speech recognition method, and storage medium
US7240002B2 (en) Speech recognition apparatus
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
Alleva et al. An improved search algorithm using incremental knowledge for continuous speech recognition
JP5447373B2 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
Karanasou et al. Discriminatively trained phoneme confusion model for keyword spotting.
US20040158468A1 (en) Speech recognition with soft pruning
JP5309343B2 (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP6026224B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
JP5008078B2 (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
JP2000075885A (ja) 音声認識装置
JP4883717B2 (ja) 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JP2999726B2 (ja) 連続音声認識装置
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
Trinh et al. An empirical study of multipass decoding for vietnamese LVCSR
KR100557650B1 (ko) 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
Raut Discriminative adaptive training and Bayesian inference for speech recognition
JP2005134442A (ja) 音声認識装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110601

R150 Certificate of patent or registration of utility model

Ref document number: 4757936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees