JP4215418B2 - 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム - Google Patents

単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム Download PDF

Info

Publication number
JP4215418B2
JP4215418B2 JP2001254502A JP2001254502A JP4215418B2 JP 4215418 B2 JP4215418 B2 JP 4215418B2 JP 2001254502 A JP2001254502 A JP 2001254502A JP 2001254502 A JP2001254502 A JP 2001254502A JP 4215418 B2 JP4215418 B2 JP 4215418B2
Authority
JP
Japan
Prior art keywords
tree
word
node
history
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001254502A
Other languages
English (en)
Other versions
JP2003076392A (ja
Inventor
信介 森
雅史 西村
伸泰 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001254502A priority Critical patent/JP4215418B2/ja
Priority to US10/226,564 priority patent/US7480612B2/en
Publication of JP2003076392A publication Critical patent/JP2003076392A/ja
Application granted granted Critical
Publication of JP4215418B2 publication Critical patent/JP4215418B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識及びそのための単語予測方法に関し、特に構造的言語モデルを用いて単語を予測し音声認識を行う方法に関する。
【0002】
【従来の技術】
音声認識では、単語予測等の処理を行うために言語的な情報を制御するための言語モデルが用いられる。今日一般的に利用されている統計的言語モデルとして代表的なものにn−gramモデルがある。n−gramモデルでは、文頭から文末に向かって順に単語を予測する。そして、n個の単語が連なる確率を予め計算(学習)しておくことによって、実際に発声された文章のスコア(もっともらしさ)を計算する。
したがって、n−gramモデルによれば、所定の単語を予測するために当該単語からn−1個前の単語まで遡って参照し、統計的に当該単語を予測するが、nの値すなわち参照する範囲は、参照する単語に関わらず固定的である。
【0003】
これに対し、線形の履歴に対して、参照する範囲を可変にするモデルとして、可変記憶長マルコフモデルがある。これは、参照範囲が固定されたn−gramモデルの拡張といえる。
この可変記憶長マルコフモデルでは、予測精度の改善が期待される場合にのみ参照する履歴を選択的に長くする。例えば、所定の可変記憶長マルコフモデルは、予測対象である単語の直前の単語が「これ」である場合には、単語2−gramモデルのように当該「これ」の前の単語を区別せず、また直前の単語が「の」である場合には、単語3−gramモデルのように当該「の」の前の単語をも区別する。さらに直前の2つの単語によっては、単語4−gramモデルのように直前の3つの単語も区別することも可能である。
【0004】
一般に、同じ大きさの記憶領域を要するn−gramモデルと可変記憶長マルコフモデルを比較した場合、可変記憶長マルコフモデルの方が、予測力が高い。また、同じ学習コーパスから推定したn−gramモデルと可変記憶長マルコフモデルを比較した場合、可変記憶長マルコフモデルの方が、予測力が高い。
【0005】
ところで、音声発話とその処理(音声言語理解)の技術では、音声認識において行われる単語予測に加えて、構文構造の推定が重要である。一方、上述したn−gramモデルや可変記憶長マルコフモデルは、文を、構造を持たない単語列とみなす言語モデルである。そこで、この構文構造の推定を目的として、いくつかの構造的言語モデルが提案されている。構造的言語モデルの例は、例えば次の文献に詳細に記されている。
文献1:Ciprian Chelba and Frederick Jelinek, Exploiting Syntactic Structure for Language Modeling, In Proceedings of the 17th International Conference on Computational Linguistics, pages 225-231, 1998
文献2:Shinsuke Mori, Masafumi Nishimura, Nobuyasu Itoh, Shiho Ogino, and Hideo Watanabe, A stochastic parser based on a structural word prediction model, In Proceedings of the 18th International Conference on Computational Linguistics, pages 558-564, 2000.
【0006】
これらの構造的言語モデルでも、n−gramモデル等と同様に、単語は文頭から文末に向かって順に予測される。しかしながら、文は単純な単語列ではなく、葉に単語を持つ木として表現される。したがって、各単語の予測に際して参照される履歴は、単語列ではなく、文頭から予測対象である単語の直前の単語までを覆う部分解析木である。
上述した文献1には、このような木構造の履歴から単語予測を行う方法として、履歴における最右の2つの主辞から次の単語を予測する方法が提案されている(Chelba & Jelinek のモデル)。また、文献2には、予測される単語に係る単語とさらにそれらの単語に係る単語とに基づいて予測する方法が提案されている。
【0007】
【発明が解決しようとする課題】
上述したように、音声発話とその処理(音声言語理解)の技術では、構文構造の推定が重要であるため、有効な構造的言語モデルが必要である。
上述した従来の構造的言語モデルは、いずれの場合も、各単語の予測に参照される部分解析木の形状が一定である。しかしながら、部分解析木のより大きい部分を参照することがより有効である場合もあれば、データスパースネスの問題からこれが逆効果となる場合もある。
したがって、n−gramモデルに対する可変記憶長マルコフモデルのように、構造的言語モデルに対しても、参照する部分解析木の形状(参照する範囲)を事例の数に応じて柔軟に選択する機構が必要である。
【0008】
以上、音声認識において用いられる言語モデルに関して論じたが、この課題は、音声認識における処理の履歴が木構造を持った配列として表現されることに起因する。したがって、言語以外のデータ列においても、一般に、木構造を持った履歴に基づいて次のデータ要素を予測するような処理に用いられる確率モデルに対して、予測に利用する履歴の範囲を柔軟に選択し得る機構が望まれることは言うまでもない。
【0009】
そこで本発明は、木構造を持つ履歴に基づいて次のデータ要素を予測する処理において予測に利用する履歴の範囲を選択可能な確率モデルを提供することを目的とする。
また、本発明は、上記の確率モデルを構造的言語モデルとして用いることにより、単語予測と構文構造の推定を同時に高い精度で実現できるようにすることを他の目的とする。
【0010】
【課題を解決するための手段】
上記の目的を達成する本発明は、コンピュータを用いて所定の文の単語を予測する単語予測方法において、単語予測の履歴が格納された履歴格納手段から単語の予測に用いる履歴を取得してこの履歴が持つ文構造を特定し、文が取り得る構造及びこの構造に対する単語の出現確率に関する情報をノードに持つ文脈木を格納した文脈木格納手段から単語予測用の文脈木を取得し、特定された履歴の文構造と取得された単語予測用の文脈木とに基づいて予測すべき単語を予測することを特徴とする。
【0011】
この単語予測方法において、より詳しくは、履歴は部分解析木の列であり、文脈木のノードが持つ文が取り得る構造が木構造であり、この部分解析木の列にこの部分解析木の列を直下の部分木として持つ仮想の根を付加して得られる木と、この文脈木のノードが持つ木構造とを比較して予測すべき単語を予測する。
【0012】
また、この単語予測方法は、文が取り得る構造及びこの構造に続く文構造の出現確率に関する情報をノードに持つ文脈木を格納した文脈木格納手段から文構造予測用の当該文脈木をさらに取得し、予測された単語とこの単語の予測に用いられた文構造と取得された文構造予測用の文脈木とに基づいて、この予測された単語を含む文構造を予測し、履歴格納手段に格納する構成とすることができる。
【0013】
さらに、本発明は、上記のような単語予測方法において、単語予測の履歴が格納された履歴格納手段から単語の予測に用いる履歴を取得してこの履歴が持つ文構造を特定し、特定された履歴の文構造に基づき、予測すべき単語を予測するためのこの文構造における参酌範囲を決定し、決定された参酌範囲における履歴の文構造に基づいてこの予測すべき単語を予測することを特徴とする。
【0014】
ここで、特定された履歴の文構造に基づいて、予測された単語を含む新たな文構造を予測するための文構造における参酌範囲をさらに決定し、決定された参酌範囲におけるこの履歴の文構造とこの予測された単語とに基づいてこの予測された単語を含む新たな文構造を予測し、履歴格納手段に格納する構成とすることができる。
【0015】
さらにまた、本発明は、コンピュータを用いて音声信号を単語列として認識する音声認識方法において、処理対象の音声信号に対して音響モデルを用いた計算を行い、計算結果である認識候補としての単語を選択するステップと、選択された単語を対象として、予測対象である単語の直前の単語までの履歴が持つ文構造を特定するステップと、文が取り得る構造及びこの構造に対する単語の出現確率に関する情報をノードに持つ文脈木とこの履歴が持つ文構造とに基づいて予測対象である単語を予測するステップとを含むことを特徴とする。
【0016】
また、本発明は、上記のような音声認識方法において、処理対象の音声信号に対して音響モデルを用いた計算を行い、計算結果である認識候補としての単語を選択するステップと、選択された単語を対象として、予測対象である単語の直前の単語までの履歴が持つ文構造を特定するステップと、特定された履歴の文構造に基づいて、予測すべき単語を予測するための文構造における参酌範囲を決定するステップと、決定された参酌範囲におけるこの履歴の文構造に基づいてこの予測すべき単語を予測するステップとを含むことを特徴とする。
【0017】
さらに、本発明は、配列に対する処理履歴を格納した履歴格納手段から所定の要素の予測に用いる木構造の処理履歴を取得し、所定の部分木及びこの部分木に対応づけられた確率分布をノードに持つ木構造の確率モデルを格納した確率モデル格納手段からこの確率モデルを取得し、取得した確率モデルに対して処理履歴の木構造に対応するノードを検索し、このノードに対応づけられた確率分布に基づいて予測対象である所定の要素の予測を行うことを特徴とする。
【0018】
また、本発明は、次のように構成されたことを特徴とする音声認識装置として実現することができる。すなわち、この音声認識装置は、アナログ音声信号をデジタル音声信号に変換する音響処理部と、音響モデルを格納した音響モデル格納部と、文が取り得る構造及びこの構造に対する単語の出現確率に関する情報をノードに持つ文脈木を格納した文脈木格納部と、この音響モデル及びこの文脈木を用いてデジタル音声信号を単語列として認識する復号処理部とを備え、この復号処理部は、単語予測の履歴が持つ文構造に基づいて文脈木を走査し、この履歴の文構造に対応するノードが持つ出現確率に基づいて予測すべき単語を予測する。
【0019】
さらに、本発明は、上記のような音声認識装置において、復号処理部は、単語予測の履歴が持つ文構造に基づいて、予測すべき単語を予測するためのこの文構造における参酌範囲を決定し、この参酌範囲におけるこの履歴の文構造に基づいて予測すべき単語を予測する構成とすることができる。
【0020】
また、本発明は、上述した単語予測方法や音声認識方法をコンピュータに実行させ、あるいは上記の音声認識装置としてコンピュータを動作させるプログラムとして実現することができる。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【0021】
さらにまた、本発明は、木構造を有する確率モデルであって、当該木の根は空の木をラベルとし、当該木の各ノードは親ノードのラベルである木を所定のノードで展開した部分木をラベルとし、かつ所定の部分解析木を条件としてこの確率モデルが走査された場合に返すべき確率分布が該当する部分木のラベルを持つノードに付与されていることを特徴とする確率モデルを構成するデータを格納した記録媒体として実現することができる。
ここで、この確率モデルにおける各ノードのラベルは、親ノードのラベルである木を展開させ得る全ての態様に関して、所定の評価関数を適用することによって決定された部分木である。あるいは、親ノードのラベルである木の各ノードに対して展開する場合としない場合とにおける評価関数を比較し、当該比較の結果に基づいて展開された部分木である。
【0022】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
本発明で提案する確率モデルは、所定のデータ列に関して先頭から順にデータ要素を予測していき、かつ所定のデータ要素を予測する際に木構造で表現されるそれまでの予測履歴に基づいて予測を行うような処理に対して一般的に利用できる。本実施の形態では、そのようなデータ列として言語に着目し、本発明で提案する確率モデルを構造的言語モデルに用いて音声認識における単語予測を行う場合を例として説明する。
【0023】
図1は、本実施の形態の音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図1に示すコンピュータ装置は、CPU(中央処理装置)101と、システムバスを介してCPU101に接続されたM/B(マザーボード)チップセット102及びメインメモリ103と、PCIバスなどの高速なバスを介してM/Bチップセット102に接続されたビデオカード104、サウンドカード105、ハードディスク106及びネットワークインターフェイス107と、さらにこの高速なバスからブリッジ回路110及びISAバスなどの低速なバスを介してM/Bチップセット102に接続されたフロッピーディスクドライブ108及びキーボード109とを備える。また、サウンドカード105には、音声入力を行うマイクロフォン111が接続されている。
なお、図1は本実施の形態を実現するコンピュータ装置の構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々のシステム構成を取ることが可能である。例えば、サウンドカード105を設ける代わりに、M/Bチップセット102の機能としてサウンド機構を設けることもできる。
【0024】
図2は、図1に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
図2を参照すると、本実施の形態の音声認識システムは、音声を入力して音響的な処理を行う音響処理部10と、音響処理部10による処理結果を用いて入力音声を単語列(文章)として認識するための復号処理部(デコーダ)20、復号処理部20の処理において参照される音響モデル及び樹状文脈木(Arbori-context Tree)を格納した音響モデル格納部30及び樹状文脈木格納部40とを備える。
【0025】
音響処理部10は、図1に示したコンピュータ装置のサウンドカード105にて実現され、マイクロフォン111から入力した音声、すなわちアナログ音声信号を音響的に解析し、デジタル音声信号に変換してメインメモリ103に格納する。以下、このデジタル音声信号を単に音声信号と称す。
【0026】
復号処理部20は、図1に示したメインメモリ103に展開されたプログラムに制御されたCPU101にて実現され、音響処理部10の解析により得られた音声信号に関して音響モデルを用いた計算を行い、計算結果である認識候補としての単語を選択する。音響モデルを用いた単語の選択については、従来から行われている一般的な手法を用いることができる。そして、復号処理部20は、選択された単語を対象として、後述する単語予測の方法により、処理結果を履歴としてフィードバックしながら順次単語予測を行い、最終的に音声認識の結果を得る。得られた音声認識の結果は、図1に示したビデオカード104を介してディスプレイ装置に表示される。また、プリンタにて印字出力しても良いし、ハードディスク106その他の記憶媒体に記憶させても良い。
なお、CPU101を制御して復号処理部20の機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。本実施の形態では、図1に示したネットワークインターフェイス107やフロッピーディスクドライブ108、図示しないCD−ROMドライブなどを介して当該プログラムを入力し、ハードディスク106に格納する。そして、ハードディスク106に格納されたプログラムをメインメモリ103に読み込んで展開し、CPU101にて実行することにより、復号処理部20の機能を実現する。
【0027】
音響モデル格納部30は、図1に示したハードディスク106やメインメモリ103にて実現され、音声における音の特徴を学習した音響モデルを格納している。この音響モデルは、上記のように復号処理部20により認識候補としての単語を選択する際に参照される。
【0028】
樹状文脈木格納部40は、図1に示したハードディスク106やメインメモリ103にて実現され、本発明で提案する構造的言語モデルである樹状文脈木を格納している。
本実施の形態では、構造的言語モデルとして用いる確率モデルのデータ構造として、木構造の履歴の部分解析木をラベルに持つ木を考える。そして、この木を根のみからなる状態から開始して、再帰的に成長させることによって、互いに独立な履歴の部分木を葉(ノード)のラベルに持つ文脈木(樹状文脈木)を構築する。葉には、履歴の部分解析木に加えて、その履歴を条件とする確率分布(出現確率)も付与しておく。
このようにして獲得された樹状文脈木を用いて単語や文構造の予測などを行う場合、まず履歴に対応するラベルを持った葉を求める。そして、特定された葉に付与されている確率分布に基づいて予測を行う。
【0029】
ここで、構造的言語モデルを係り受け文法に適用した例を挙げて、樹状文脈木について説明する。
この構造的言語モデルでは、先行する単語列を覆う部分解析木に基づいて単語や文構造が予測される。したがって、文W=w12 … wnとその構文構造を示す部分解析木Tとは、次の数1式にて計算される。
【数1】
Figure 0004215418
数1式において、tiは、文頭からi番目の単語までを覆う部分解析木を表す。
【0030】
図3は、9個以上の単語列に対する単語予測及び構造予測において、9番目の単語を予測する直前の状態を示す図である。これは、上の数1式においてi=9である場合に相当する。
図3において、まず、9番目の単語w9が、8番目の単語w8までを覆う部分解析木t8=t8,38,28,1に基づいて予測される。次に、9番目の単語w9までを覆う部分解析木t9が、8番目の単語w8までを覆う部分解析木t8と9番目の単語w9とに基づいて予測される。そして、10番目の単語を予測する直前の状態になる。かかる処理を繰り返すことにより、入力された音声を構成する単語列の単語とその構文構造とが決定されていく。
【0031】
ここで、問題となるのは、上記数1式中の2つの条件付確率における条件部分の分類方法である。分類が粗すぎれば、少ない条件で単語や文構造の出現確率を求めることとなり、所定の条件に多くの事例が含まれることとなるため、峻別能力が低くなる。一方、分類が細かすぎれば、単語や文構造を特定するために多くの条件に合致することが必要となり、所定の条件を判断するための事例の数が減るため、確率値の推定精度が下がる(データスパースネスによる問題)。上記文献1に記載されたChelba & Jelinek のモデルでは、図3の場合に最右の2つの主辞、すなわちw6とw8とを固定的に用いる。しかしながら、文によっては、w2が予測対象である単語w9に係る場合があり、またw6が単語w9に係らない場合もあるため、この2つの主辞を用いることが次の単語w9を予測するために常に適切とは言えないことは明白である。
【0032】
そこで、上述した条件付確率の条件部分を柔軟に選択可能とするため、本実施の形態では、構造的言語モデルにおける単語予測の履歴を、単語列ではなく部分解析木の列とする。当該部分解析木を直下の部分木として持つ仮想の根を付加することで1つの木とみなすことができる。この木構造の履歴を履歴木と呼ぶ。上述した数1式の条件付確率における条件部分の分類方法は、単語を予測するために履歴木をどの範囲まで参酌するかという問題に相当する。
図4は、図3の状態で9番目の単語w9を予測するときに用いられる履歴木である。
【0033】
この履歴木の柔軟な分類方法は、樹状文脈木と呼ぶデータ構造で表現される。樹状文脈木の各ノード(葉)のラベルは、履歴木の根を含む部分木である。根のラベルは空の木である。また、所定のノードに子ノードがある場合、当該子ノードのラベルは、親ノードのラベルである木を所定のノードで展開した木である。
図5は、樹状文脈木の例を示す図である。
図5に示す樹状文脈木において、根501の子ノード511〜513のラベルは、根のラベルである部分木(空の木)に対する子ノードのうち、最右の子ノードを付加、すなわち特殊化することで得られる木となっている。
【0034】
次に、復号処理部20による上記樹状文脈木を用いた単語予測の手法を説明する。
図5に示した樹状文脈木の各ノードには、確率分布P(x|t)が付与されている。ここで、xはアルファベット(一定の順序で並べられた記号列の総体。本実施の形態では配列される単語を特定する記号の列であるが、図5の例では簡単のため、英語のアルファベットを用いている)の記号であり、tはノードのラベルである。例えば、ラベルがa0の根とラベルがak,…,a2,a1のk個の子ノードとからなる木を<ak …a21 >a0と表記すると、図5に示した樹状文脈木のノード533には、履歴が部分木<<z?>a><b>にマッチする場合のアルファベットxの確率分布が付与されることとなる。換言すると、このノード533から単語を予測する場合において、部分木の最右の主辞がbであり、次に最右の主辞がaであり、当該主辞aに係る右から2番目の部分木の根がzである場合における単語の確率分布が付与されている。
具体例を挙げると、図3おいてa=w6かつb=w8かつz=w4の場合には、図4に示される履歴木におけるw4とw6とw8からなる部分解析木が、9番目の単語w9の予測に用いられる。
【0035】
復号処理部20は、認識対象である文の所定の単語を予測する場合、まず、当該単語の前の単語までを覆う単語予測の履歴木を取得する。この履歴木は、当該前の単語までの予測の結果であり、復号処理部20によって図1に示したCPU101のキャッシュメモリやメインメモリ103に保持されている。
次に、復号処理部20は、樹状文脈木格納部40から樹状文脈木を取得し、履歴木に基づいて当該樹状文脈木を走査し、当該履歴木にマッチする部分木をラベルに持つノードを検索する。そして、検出されたノードに付与されている確率分布に基づいて予測対象である当該単語を予測し、さらに後述のように当該単語を含む履歴木を予測して、新たな処理履歴としてCPU101のキャッシュメモリやメインメモリ103に格納する。
上述した具体例に則して説明すると、復号処理部20は、樹状文脈木格納部40に格納されている樹状文脈木を走査し、当該w4とw6とw8に相当するノードを持つ部分木をラベルに持つ樹状文脈木のノードを検出し、当該ノードに付与されている確率分布に基づいて9番目の単語w9を予測する。なお、この例は、最右の2つの主辞(w6とw8)からの予測の特殊化の事例になっている。より一般的には、樹状文脈木に基づくモデルは、最右の2つの主辞に基づくモデルをその特殊な事例として包含している。
【0036】
復号処理部20は、以上の処理を文頭の単語から文末の単語まで順次行い、文末に達した後、予測された単語の列を音声認識の結果として出力する。これにより、履歴木の構造に基づく確率分布によって出現確率が最も高い単語の列が音声認識の結果として得られることとなる。
【0037】
このように、樹状文脈木は、単語予測の履歴木に対応する部分木をノードのラベルに持つため、この樹状文脈木を走査することにより、当該樹状文脈木が生成されている範囲において、履歴木に対応する木構造をたどることができる。そして、該当する木構造をラベルに持つノードに付与された確率分布によって、当該木構造を履歴木として持つ次の単語の出現確率を得ることができる。
後述するように、樹状文脈木をどのように成長させるか、すなわちノードのラベルである部分木をどのように展開させたものについて確率分布を与えるかは、展開させ得る全ての態様について評価関数を適用することによって定めることができる。例えば、出現頻度が高く、評価関数による値が一定の閾値を越える場合、そのようなノードの展開について樹状文脈木を成長させて確率分布を与えることができる。
したがって、樹状文脈木によれば、単語予測における構造的言語モデルとして用いられる場合、履歴木の構造自体に基づいて、次の単語を予測するために当該履歴木をどれだけ深く(広い範囲で)参酌すれば良いかを特定することが可能となる。すなわち、樹状文脈木の構造に基づいて、単語を予測するために参酌すべき履歴木の範囲を柔軟に選択することが可能となる。
【0038】
ところで、上述したように、構造的言語モデルを用いた単語予測では、単語予測の履歴を部分解析木の列としている。そして、当該部分解析木にて構成される履歴木と樹状文脈木とを用いてi番目の単語を予測した後、i−1番目の単語までの履歴木と当該i番目の単語とを用いてi番目の単語までを含む履歴木を作成し、i+1番目の単語の予測に用いる。そこで、このi番目の単語までを含む履歴木を作成するために、この樹状文脈木を用いた予測を行うことができる。
すなわち、上述した単語予測用の(構造的言語モデルとしての)樹状文脈木とは別に、履歴木の構造に基づいて、次の単語を含む文構造である部分解析木の出現確率の確率分布をノードに与えられた樹状文脈木を用意する。そして、復号処理部20は、この構文予測用の樹状文脈木を用い、上記i番目の単語に基づいて、当該i番目の単語を含む履歴木を予測し、次のi+1番目の単語を予測するための履歴木として用いる。
これにより、履歴木を予測する際にも、当該予測のために参酌すべき履歴木の範囲を柔軟に選択することが可能となるため、従来よりも良好な予測結果を期待することができる。
【0039】
次に、本実施の形態で用いた構造的言語モデルである樹状文脈木の生成方法について説明する。
図6は、樹状文脈木を生成する手順を説明するフローチャートである。また、図7は、図6の手順を再起的に繰り返すことにより樹状文脈木が成長する様子を示す図である。
なお、樹状文脈木は、図2の音声認識システムを実現するコンピュータ装置(図1)において音声認識の前処理として生成しても良いし、他のコンピュータ装置を用いて生成し、音声認識システムを実現するコンピュータ装置に渡すようにしても良い。以下では、図1に示したコンピュータ装置にて樹状文脈木を生成するものとして説明する。
【0040】
初期状態では、樹状文脈木は、仮想のノードのみからなる履歴木をラベルとする根のみからなる。そこで、まず図7(A)に示すような根のみからなる樹状文脈木を用意し、図1に示したCPU101のキャッシュメモリなどにて実現されるスタック(stack)に入れる(ステップ601:stack=[root])。
【0041】
次に、図7に示されるように、この樹状文脈木に対して再帰的にノードを追加していく。
まず、スタックに格納されている最後の要素を取り出し、樹状文脈木のノードに代入する(ステップ602:node=pop(stack))。初期的にステップ601でスタックに入れた根のみからなる樹状文脈木を対象とする場合、図7(C)に示すように、当該根の子ノードが追加される。どのノードを追加するか、あるいはノードを追加するか否かの判断基準は、ヘルドアウトコーパスのパープレキシティを基にした評価関数である。
【0042】
次に、ノード(葉leaf)の最良の展開を選択し、これによって生成される子ノードをnode[0], node[1], ・・・, node[k]とする(ステップ603:select(leaf))。このノードの展開の選択は、与えられたノードを展開することによる評価関数の差を、全ての可能な展開に対して計算することによって行われる。例えば、引数が図7(D)に示す木における葉701の場合の可能な展開は、以下の5つである。
1)2番目の部分解析木の根の特殊化
2)3番目の部分解析木の根の特殊化
3)1番目の部分解析木の1番目の子ノードの特殊化
4)1番目の部分解析木の2番目の子ノードの特殊化
5)1番目の部分解析木の3番目の子ノードの特殊化
ここで、1つの単語に係る単語数の最大値は3であるとしている。図7(E)に示す例では、「1)2番目の部分解析木の根の特殊化」が選択されている。
なお、ノードの展開方法を選択するためにどのような評価関数を用いるかについては、予測対象(この場合は単語、あるいは音声から認識すべき自然言語)に応じて任意に定めることができる。
【0043】
次に、i=0とおいて(ステップ604)、node[i]を展開するかどうかを判断する(ステップ605)。この際、各アルファベット(配列対象である単語を特定する記号)に対して展開する場合としない場合の評価関数の差を計算し、展開することが有効かどうかを判断する。そして、展開することが有効と判断したアルファベットに対してのみノードを展開し、スタックにnode[i]を積む(ステップ606:push(stack, node[i]))。
このノードを展開する処理(expand(leaf, select(leaf)))は、i=0からi=kまで順次行われる(ステップ607、608)。
【0044】
以上の後、スタックが空でないならば、すなわちノードの展開により新たに生成されたノードがある場合は、ステップ602に戻って上記の処理を繰り返す。一方、スタックが空であれば、すなわちノードの展開により新たに生成された葉がない場合は、処理を終了する(ステップ609)。
以上のようにして生成された樹状文脈木は、ハードディスク106等で実現される樹状文脈木格納部40に格納され、上述した復号処理部20による音声認識処理に用いられる。
【0045】
以上、構造的言語モデルとして樹状文脈木を用いた場合を例として、当該モデルの構成及びこれを用いた単語予測の手法について説明したが、この樹状文脈木として表現される確率モデルの用途は、上述した構造的言語モデルとして単語予測に限られない。すなわち、所定のデータ列に関して先頭から順にデータ要素を予測していき、かつ所定のデータ要素を予測する際に木構造で表現されるそれまでの予測履歴をフィードバックして用いるような予測処理に対して、確率モデルとして汎用的に用いることができる。この場合、確率モデルである樹状文脈木の各ノードは、上記の予測処理における予測履歴が取り得る木構造をラベルとする。また、各ノードには、当該ノードのラベルである木構造に対応づけられた確率分布が付与される。そして、所定の木構造を条件としてこの確率モデルを走査することにより、当該木構造に該当するラベルを持ったノードに付与されている確率分布を得ることができる。
【0046】
<実行例>
係り受けが付与された日本語コーパスを用いて、上述した樹状文脈木に基づく構造的言語モデルを用いた単語予測と固定された履歴を参照する構造的言語モデルを用いた単語予測との精度を比較した。
実験に用いた日本語コーパスは、日本経済新聞の記事に含まれる文である。各文は、単語に分割され、係り受け構造が付与されている。日本語コーパスは10個に分割され、そのうちの9個から言語モデルのパラメータを推定し、残りの1個に対してテストする。言語モデルのパラメータにおいて、補間係数の推定のようにテストコーパスを模擬する必要がある場合には、9個の学習コーパスを使って削除補間に準じた方法でこれを行う。また、日本語コーパスの大きさは、図8に示す図表の通りである。
【0047】
樹状文脈木に基づく構造的言語モデルの予測力を最右の2つの主辞に基づく構造的言語モデルとの比較において評価するために、これらの言語モデルを同一の学習コーパスから作成し、同一のテストコーパスに対するパープレキシティを計算した。この計算において、テストコーパスに付与された構造を用いた。したがって、テストコーパスの各文の生成確率は、全ての可能な生成方法に渡る生成確率の和ではない。各言語モデルにおける構造予測の部分は共通なので、この部分のパープレキシティに対する寄与は一定である。また、未知語は品詞を表す記号に置き換えられており、未知語の文字列生成に起因するパープレキシティは除外されている。
【0048】
図9は、上記各言語モデルによるテストセットパープレキシティを示す図表である。パープレキシティは、一様分布を仮定したときの分岐数であり、これが低いことは、単語や構造の予測力がより正確であることを意味する。
樹状文脈木に基づく構造的言語モデルのテストセットパープレキシティは、最右の2つの主辞に基づく構造的言語モデルのテストセットパープレキシティよりもかなり低く、21.25%減となっている。
なお、文の構造予測にも樹状文脈木を利用することができるが、比較のため、いずれの構造的言語モデルにおいても固定の履歴からの予測としている。したがって、構造予測の部分は共通なので、全体のパープレキシティも21.25%減となる。この結果は、樹状文脈木を用いることにより、既存の技術である最右の2つの主辞に基づく構造的言語モデルを改善することに成功したことを意味する。
【0049】
また、樹状文脈木に基づく構造的言語モデルを用いた音声認識によれば、図9に示したように、従来の単語3−gramモデルに対しても、より優れた単語予測能力を発揮している。したがって、音声認識システムの言語モデルを、従来の単語列に基づくモデル(例えば単語3−gramモデル)から樹状文脈木に基づく構造的言語モデルに置き換えることで、認識精度を改善することが可能である。
【0050】
さらに、樹状文脈木に基づく構造的言語モデルを用いた音声認識では、単語を予測すると共に単語を予測する際に用いる文の構文構造も予測している。したがって、この構文構造が付与された認識結果を出力させることが可能になる。認識結果にその構文構造を付与しておけば、当該認識結果を用いた後処理(例えば文の検索)を行う場合に、当該構文構造を参酌して精度の高い処理を行うことが可能となる。
よって、樹状文脈木に基く構造的言語モデルは、音声言語理解という観点から、非常に有効な言語モデルとなり得ることがわかる。
【0051】
【発明の効果】
以上説明したように、本発明によれば、木構造を持つ履歴に基づいて次のデータ要素を予測する処理において予測に利用する履歴の範囲を選択して用い、予測能力を向上させることができる。
また、本発明によれば、上記の確率モデルを構造的言語モデルとして用いることにより、単語予測と構文構造の推定を同時に高い精度で実現できる。
【図面の簡単な説明】
【図1】 本実施の形態の音声認識システムを実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図2】 図1に示したコンピュータ装置にて実現される本実施の形態による音声認識システムの構成を示す図である。
【図3】 9個以上の単語列に対する単語予測において、9番目の単語を予測する直前の状態を示す図である。
【図4】 図3の状態で9番目の単語w9を予測するときに用いられる履歴木である。
【図5】 本実施の形態による樹状文脈木の例を示す図である。
【図6】 樹状文脈木を生成する手順を説明するフローチャートである。
【図7】 図6の手順を再起的に繰り返すことにより樹状文脈木が成長する様子を示す図である。
【図8】 単語予測の実行例に用いられた日本語コーパスの大きさを示す図表である。
【図9】 単語予測の実行例における各言語モデルによるテストセットパープレキシティを示す図表である。
【符号の説明】
10…音響処理部、20…復号処理部(デコーダ)、30…音響モデル格納部、40…樹状文脈木格納部、101…CPU(中央処理装置)、102…M/B(マザーボード)チップセット、103…メインメモリ、104…ビデオカード、105…サウンドカード、106…ハードディスク、111…マイクロフォン

Claims (7)

  1. コンピュータを用いて所定の文の単語を予測する単語予測方法において、
    予測すべき単語の前の単語までの予測の結果を木構造で表した履歴木が格納された履歴格納手段から、当該履歴木を取得するステップと、
    単語予測用の文脈木を格納した文脈木格納手段から、当該文脈木を取得するステップと、
    取得された前記履歴木と、取得された前記単語予測用の文脈木とに基づいて、前記予測すべき単語を予測するステップとを含み、
    前記単語予測用の文脈木の根は、空の木をラベルとし、
    前記単語予測用の文脈木の各ノードは、親ノードのラベルである木に葉を付加して当該葉の位置の単語を限定した木をラベルとし、
    前記単語予測用の文脈木の各ノードには、当該ノードのラベルである木が前記履歴木の部分木である場合の前記予測すべき単語の位置における単語の出現確率が付与され、
    前記予測するステップでは、前記単語予測用の文脈木をメモリ上で走査することにより、当該単語予測用の文脈木のノードのうちの前記履歴木の部分木をラベルとするノードを検索し、当該ノードに付与された出現確率に基づいて前記予測すべき単語を予測することを特徴とする単語予測方法。
  2. 前記履歴木は、仮想の根の直下に部分解析木の列を持つ木構造をなし、
    前記部分解析木は、文頭から前記予測すべき単語の直前の単語までの単語及び文構造の予測の結果を木構造で表した主辞を根とする解析木であることを特徴とする請求項1に記載の単語予測方法。
  3. 文構造予測用の文脈木を格納した文脈木格納手段から、当該文脈木を取得するステップと、
    取得された前記履歴木と、取得された前記文構造予測用の文脈木とに基づいて、前記予測された単語を含む文構造を予測し、前記履歴格納手段に格納するステップとをさらに含み、
    前記文構造予測用の文脈木の根は、空の木をラベルとし、
    前記文構造予測用の文脈木の各ノードは、親ノードのラベルである木に葉を付加して当該葉の位置の単語を限定した木をラベルとし、
    前記文構造予測用の文脈木の各ノードには、当該ノードのラベルである木が前記履歴木の部分木である場合の前記予測すべき単語までの文構造の出現確率が付与され、
    前記予測するステップでは、前記文構造予測用の文脈木をメモリ上で走査することにより、当該文構造予測用の文脈木のノードのうちの前記履歴木の部分木をラベルとするノードを検索し、当該ノードに付与された出現確率に基づいて前記予測された単語までの文構造を予測することを特徴とする請求項1に記載の単語予測方法。
  4. コンピュータを用いて音声信号を単語列として認識する音声認識方法において、
    処理対象の音声信号に対して音響モデルを用いた計算を行い、計算結果である認識候補としての単語を選択するステップと、
    選択された単語を対象として、予測対象である単語の直前の単語までの予測の結果を木構造で表した履歴木を取得するステップと、
    単語を予測するために用いられる文脈木と、取得された前記履歴木とに基づいて、前記予測対象である単語を予測するステップとを含み、
    前記文脈木の根は、空の木をラベルとし、
    前記文脈木の各ノードは、親ノードのラベルである木に葉を付加して当該葉の位置の単語を限定した木をラベルとし、
    前記文脈木の各ノードには、当該ノードのラベルである木が前記履歴木の部分木である場合の前記予測対象である単語の位置における単語の出現確率が付与され、
    前記予測するステップでは、前記文脈木をメモリ上で走査することにより、当該文脈木のノードのうちの前記履歴木の部分木をラベルとするノードを検索し、当該ノードに付与された出現確率に基づいて前記予測対象である単語を予測することを特徴とする音声認識方法。
  5. コンピュータを用いて所定のデータ列における要素を予測するデータ処理方法において、
    予測すべき要素の前の要素までの木構造で表現される処理履歴が格納された履歴格納手段から、当該処理履歴を取得するステップと、
    木構造の確率モデルを格納した確率モデル格納手段から、当該確率モデルを取得するステップと、
    取得された前記処理履歴と、取得された前記確率モデルとに基づいて、前記予測すべき要素を予測するステップとを含み、
    前記確率モデルの根は、空の木をラベルとし、
    前記確率モデルの各ノードは、親ノードのラベルである木に葉を付加して当該葉の位置の要素を限定した木をラベルとし、
    前記確率モデルの各ノードには、当該ノードのラベルである木が前記処理履歴の部分木である場合の前記予測すべき要素の位置における要素の出現確率が付与され、
    前記予測するステップでは、前記確率モデルをメモリ上で走査することにより、当該確率モデルのノードのうちの前記処理履歴の部分木をラベルとするノードを検索し、当該ノードに付与された出現確率に基づいて前記予測すべき要素を予測することを特徴とするデータ処理方法。
  6. アナログ音声信号をデジタル音声信号に変換する音響処理部と、
    音響モデルを格納した音響モデル格納部と、
    単語を予測するために用いられる文脈木を格納した文脈木格納部と、
    前記音響モデル及び前記文脈木を用いて前記音響処理部にて変換されたデジタル音声信号を単語列として認識する復号処理部とを備え、
    前記復号処理部は、予測すべき単語の前の単語までの予測の結果を木構造で表した履歴木を取得し、
    前記文脈木の根は、空の木をラベルとし、
    前記文脈木の各ノードは、親ノードのラベルである木に葉を付加して当該葉の位置の単語を限定した木をラベルとし、
    前記文脈木の各ノードには、当該ノードのラベルである木が前記履歴木の部分木である場合の前記予測すべき単語の位置における単語の出現確率が付与され、
    前記復号処理部は、前記文脈木をメモリ上で走査することにより、当該文脈木のノードのうちの前記履歴木の部分木をラベルとするノードを検索し、当該ノードに付与された出現確率に基づいて前記予測すべき単語を予測することを特徴とする音声認識装置。
  7. コンピュータを制御して、所定の文の単語を予測するプログラムであって、
    予測すべき単語の前の単語までの予測の結果を木構造で表した履歴木が格納された履歴格納手段から、当該履歴木を取得する処理と、
    単語予測用の文脈木を格納した文脈木格納手段から、当該文脈木を取得する処理と、
    取得された前記履歴木と、取得された前記単語予測用の文脈木とに基づいて、前記予測すべき単語を予測する処理とを前記コンピュータに実行させ、
    前記単語予測用の文脈木の根は、空の木をラベルとし、
    前記単語予測用の文脈木の各ノードは、親ノードのラベルである木に葉を付加して当該葉の位置の単語を限定した木をラベルとし、
    前記単語予測用の文脈木の各ノードには、当該ノードのラベルである木が前記履歴木の部分木である場合の前記予測すべき単語の位置における単語の出現確率が付与され、
    前記予測する処理では、前記単語予測用の文脈木をメモリ上で走査することにより、当該単語予測用の文脈木のノードのうちの前記履歴木の部分木をラベルとするノードを検索し、当該ノードに付与された出現確率に基づいて前記予測すべき単語を予測することを特徴とするプログラム。
JP2001254502A 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム Expired - Fee Related JP4215418B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001254502A JP4215418B2 (ja) 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US10/226,564 US7480612B2 (en) 2001-08-24 2002-08-22 Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001254502A JP4215418B2 (ja) 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2003076392A JP2003076392A (ja) 2003-03-14
JP4215418B2 true JP4215418B2 (ja) 2009-01-28

Family

ID=19082658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001254502A Expired - Fee Related JP4215418B2 (ja) 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム

Country Status (2)

Country Link
US (1) US7480612B2 (ja)
JP (1) JP4215418B2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4105841B2 (ja) 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
WO2002046886A2 (en) * 2000-11-07 2002-06-13 Antaeus Healthcom, Inc. D.B.A. Ascriptus, Inc. System for the creation of database and structured information from verbal input
US7219091B1 (en) * 2003-02-24 2007-05-15 At&T Corp. Method and system for pattern matching having holistic twig joins
US7349845B2 (en) * 2003-09-03 2008-03-25 International Business Machines Corporation Method and apparatus for dynamic modification of command weights in a natural language understanding system
US20050112536A1 (en) * 2003-11-21 2005-05-26 Felix Frayman Method and system for performing and delivering analysis of sports activities
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
CA2640882A1 (en) * 2005-02-02 2006-08-10 Verbal World, Inc. System for the management and use of information from voice input
GB2428508B (en) * 2005-07-15 2009-10-21 Toshiba Res Europ Ltd Parsing method
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US20090232032A1 (en) * 2007-01-17 2009-09-17 Verbal World, Inc. Methods and Apparatus for the Manipulation of Conferenced Data
EP2126707A2 (en) * 2007-01-17 2009-12-02 Verbal World, Inc. Methods and apparatus for manipulation of primary audio-optical data content and associated secondary data content
WO2009100444A1 (en) * 2008-02-08 2009-08-13 Verbal World, Inc. Methods and apparatus for exhange of electronic communications
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
US8639509B2 (en) * 2007-07-27 2014-01-28 Robert Bosch Gmbh Method and system for computing or determining confidence scores for parse trees at all levels
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US8914275B2 (en) 2011-04-06 2014-12-16 Microsoft Corporation Text prediction
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104123288B (zh) * 2013-04-24 2018-06-01 阿里巴巴集团控股有限公司 一种数据查询方法及装置
US9189708B2 (en) * 2013-12-31 2015-11-17 Google Inc. Pruning and label selection in hidden markov model-based OCR
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
KR102177741B1 (ko) * 2018-10-26 2020-11-11 아주대학교산학협력단 순환신경망 및 분기예측에 기반한 통신 메시지 해석 장치 및 그 방법
CN111783431B (zh) * 2019-04-02 2024-05-24 北京地平线机器人技术研发有限公司 利用语言模型预测词出现概率及语言模型训练方法和装置
CN111062199B (zh) * 2019-11-05 2023-12-22 北京中科微澜科技有限公司 一种不良信息识别方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475588A (en) * 1993-06-18 1995-12-12 Mitsubishi Electric Research Laboratories, Inc. System for decreasing the time required to parse a sentence
JP2886121B2 (ja) 1995-11-10 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
CN1143232C (zh) * 1998-11-30 2004-03-24 皇家菲利浦电子有限公司 正文的自动分割
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
AU2000276400A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
US7024351B2 (en) * 2001-08-21 2006-04-04 Microsoft Corporation Method and apparatus for robust efficient parsing

Also Published As

Publication number Publication date
JP2003076392A (ja) 2003-03-14
US7480612B2 (en) 2009-01-20
US20030046073A1 (en) 2003-03-06

Similar Documents

Publication Publication Date Title
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
Young et al. The HTK book
US6754626B2 (en) Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
US20030009335A1 (en) Speech recognition with dynamic grammars
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2006031228A (ja) 形態素解析装置、方法及びプログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP3950957B2 (ja) 言語処理装置および方法
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2938865B1 (ja) 音声認識装置
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP5120749B2 (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
WO2022074760A1 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP2001312294A (ja) 入力記号列を出力記号列に変換するトランスデューサの学習方法およびトランスデューサの学習プログラムを記憶したコンピュータ読み取り可能な記録媒体
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060317

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060512

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20081022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131114

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees