JP2003076392A - 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム - Google Patents

単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム

Info

Publication number
JP2003076392A
JP2003076392A JP2001254502A JP2001254502A JP2003076392A JP 2003076392 A JP2003076392 A JP 2003076392A JP 2001254502 A JP2001254502 A JP 2001254502A JP 2001254502 A JP2001254502 A JP 2001254502A JP 2003076392 A JP2003076392 A JP 2003076392A
Authority
JP
Japan
Prior art keywords
word
history
tree
sentence
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001254502A
Other languages
English (en)
Other versions
JP4215418B2 (ja
Inventor
Shinsuke Mori
信介 森
Masafumi Nishimura
雅史 西村
Nobuyasu Ito
伸泰 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001254502A priority Critical patent/JP4215418B2/ja
Priority to US10/226,564 priority patent/US7480612B2/en
Publication of JP2003076392A publication Critical patent/JP2003076392A/ja
Application granted granted Critical
Publication of JP4215418B2 publication Critical patent/JP4215418B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 木構造を持つ履歴に基づいて次のデータ要素
を予測する処理において予測に利用する履歴の範囲を選
択可能な確率モデルを提供し、この確率モデルを構造的
言語モデルとして用いることにより、単語予測と構文構
造の推定を同時に高い精度で実現できるようにする。 【解決手段】 コンピュータを用いた音声認識の単語予
測方法において、予測対象である単語の直前の単語まで
の履歴が持つ文構造を特定し、樹状文脈木格納部40に
格納された、文が取り得る構造及びこの構造に対する単
語の出現確率に関する情報をノードに持つ文脈木を参照
し、この文脈木と特定された履歴の文構造とに基づいて
単語を予測する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識及びその
ための単語予測方法に関し、特に構造的言語モデルを用
いて単語を予測し音声認識を行う方法に関する。
【0002】
【従来の技術】音声認識では、単語予測等の処理を行う
ために言語的な情報を制御するための言語モデルが用い
られる。今日一般的に利用されている統計的言語モデル
として代表的なものにn−gramモデルがある。n−
gramモデルでは、文頭から文末に向かって順に単語
を予測する。そして、n個の単語が連なる確率を予め計
算(学習)しておくことによって、実際に発声された文
章のスコア(もっともらしさ)を計算する。したがっ
て、n−gramモデルによれば、所定の単語を予測す
るために当該単語からn−1個前の単語まで遡って参照
し、統計的に当該単語を予測するが、nの値すなわち参
照する範囲は、参照する単語に関わらず固定的である。
【0003】これに対し、線形の履歴に対して、参照す
る範囲を可変にするモデルとして、可変記憶長マルコフ
モデルがある。これは、参照範囲が固定されたn−gr
amモデルの拡張といえる。この可変記憶長マルコフモ
デルでは、予測精度の改善が期待される場合にのみ参照
する履歴を選択的に長くする。例えば、所定の可変記憶
長マルコフモデルは、予測対象である単語の直前の単語
が「これ」である場合には、単語2−gramモデルの
ように当該「これ」の前の単語を区別せず、また直前の
単語が「の」である場合には、単語3−gramモデル
のように当該「の」の前の単語をも区別する。さらに直
前の2つの単語によっては、単語4−gramモデルの
ように直前の3つの単語も区別することも可能である。
【0004】一般に、同じ大きさの記憶領域を要するn
−gramモデルと可変記憶長マルコフモデルを比較し
た場合、可変記憶長マルコフモデルの方が、予測力が高
い。また、同じ学習コーパスから推定したn−gram
モデルと可変記憶長マルコフモデルを比較した場合、可
変記憶長マルコフモデルの方が、予測力が高い。
【0005】ところで、音声発話とその処理(音声言語
理解)の技術では、音声認識において行われる単語予測
に加えて、構文構造の推定が重要である。一方、上述し
たn−gramモデルや可変記憶長マルコフモデルは、
文を、構造を持たない単語列とみなす言語モデルであ
る。そこで、この構文構造の推定を目的として、いくつ
かの構造的言語モデルが提案されている。構造的言語モ
デルの例は、例えば次の文献に詳細に記されている。 文献1:Ciprian Chelba and Frederick Jelinek, Expl
oiting Syntactic Structure for Language Modeling,
In Proceedings of the 17th International Conferenc
e on Computational Linguistics, pages 225-231, 199
8 文献2:Shinsuke Mori, Masafumi Nishimura, Nobuyas
u Itoh, Shiho Ogino, and Hideo Watanabe, A stochas
tic parser based on a structural word prediction m
odel, In Proceedings of the 18th International Con
ference on Computational Linguistics, pages 558-56
4, 2000.
【0006】これらの構造的言語モデルでも、n−gr
amモデル等と同様に、単語は文頭から文末に向かって
順に予測される。しかしながら、文は単純な単語列では
なく、葉に単語を持つ木として表現される。したがっ
て、各単語の予測に際して参照される履歴は、単語列で
はなく、文頭から予測対象である単語の直前の単語まで
を覆う部分解析木である。上述した文献1には、このよ
うな木構造の履歴から単語予測を行う方法として、履歴
における最右の2つの主辞から次の単語を予測する方法
が提案されている(Chelba & Jelinek のモデル)。ま
た、文献2には、予測される単語に係る単語とさらにそ
れらの単語に係る単語とに基づいて予測する方法が提案
されている。
【0007】
【発明が解決しようとする課題】上述したように、音声
発話とその処理(音声言語理解)の技術では、構文構造
の推定が重要であるため、有効な構造的言語モデルが必
要である。上述した従来の構造的言語モデルは、いずれ
の場合も、各単語の予測に参照される部分解析木の形状
が一定である。しかしながら、部分解析木のより大きい
部分を参照することがより有効である場合もあれば、デ
ータスパースネスの問題からこれが逆効果となる場合も
ある。したがって、n−gramモデルに対する可変記
憶長マルコフモデルのように、構造的言語モデルに対し
ても、参照する部分解析木の形状(参照する範囲)を事
例の数に応じて柔軟に選択する機構が必要である。
【0008】以上、音声認識において用いられる言語モ
デルに関して論じたが、この課題は、音声認識における
処理の履歴が木構造を持った配列として表現されること
に起因する。したがって、言語以外のデータ列において
も、一般に、木構造を持った履歴に基づいて次のデータ
要素を予測するような処理に用いられる確率モデルに対
して、予測に利用する履歴の範囲を柔軟に選択し得る機
構が望まれることは言うまでもない。
【0009】そこで本発明は、木構造を持つ履歴に基づ
いて次のデータ要素を予測する処理において予測に利用
する履歴の範囲を選択可能な確率モデルを提供すること
を目的とする。また、本発明は、上記の確率モデルを構
造的言語モデルとして用いることにより、単語予測と構
文構造の推定を同時に高い精度で実現できるようにする
ことを他の目的とする。
【0010】
【課題を解決するための手段】上記の目的を達成する本
発明は、コンピュータを用いて所定の文の単語を予測す
る単語予測方法において、単語予測の履歴が格納された
履歴格納手段から単語の予測に用いる履歴を取得してこ
の履歴が持つ文構造を特定し、文が取り得る構造及びこ
の構造に対する単語の出現確率に関する情報をノードに
持つ文脈木を格納した文脈木格納手段から単語予測用の
文脈木を取得し、特定された履歴の文構造と取得された
単語予測用の文脈木とに基づいて予測すべき単語を予測
することを特徴とする。
【0011】この単語予測方法において、より詳しく
は、履歴は部分解析木の列であり、文脈木のノードが持
つ文が取り得る構造が木構造であり、この部分解析木の
列にこの部分解析木の列を直下の部分木として持つ仮想
の根を付加して得られる木と、この文脈木のノードが持
つ木構造とを比較して予測すべき単語を予測する。
【0012】また、この単語予測方法は、文が取り得る
構造及びこの構造に続く文構造の出現確率に関する情報
をノードに持つ文脈木を格納した文脈木格納手段から文
構造予測用の当該文脈木をさらに取得し、予測された単
語とこの単語の予測に用いられた文構造と取得された文
構造予測用の文脈木とに基づいて、この予測された単語
を含む文構造を予測し、履歴格納手段に格納する構成と
することができる。
【0013】さらに、本発明は、上記のような単語予測
方法において、単語予測の履歴が格納された履歴格納手
段から単語の予測に用いる履歴を取得してこの履歴が持
つ文構造を特定し、特定された履歴の文構造に基づき、
予測すべき単語を予測するためのこの文構造における参
酌範囲を決定し、決定された参酌範囲における履歴の文
構造に基づいてこの予測すべき単語を予測することを特
徴とする。
【0014】ここで、特定された履歴の文構造に基づい
て、予測された単語を含む新たな文構造を予測するため
の文構造における参酌範囲をさらに決定し、決定された
参酌範囲におけるこの履歴の文構造とこの予測された単
語とに基づいてこの予測された単語を含む新たな文構造
を予測し、履歴格納手段に格納する構成とすることがで
きる。
【0015】さらにまた、本発明は、コンピュータを用
いて音声信号を単語列として認識する音声認識方法にお
いて、処理対象の音声信号に対して音響モデルを用いた
計算を行い、計算結果である認識候補としての単語を選
択するステップと、選択された単語を対象として、予測
対象である単語の直前の単語までの履歴が持つ文構造を
特定するステップと、文が取り得る構造及びこの構造に
対する単語の出現確率に関する情報をノードに持つ文脈
木とこの履歴が持つ文構造とに基づいて予測対象である
単語を予測するステップとを含むことを特徴とする。
【0016】また、本発明は、上記のような音声認識方
法において、処理対象の音声信号に対して音響モデルを
用いた計算を行い、計算結果である認識候補としての単
語を選択するステップと、選択された単語を対象とし
て、予測対象である単語の直前の単語までの履歴が持つ
文構造を特定するステップと、特定された履歴の文構造
に基づいて、予測すべき単語を予測するための文構造に
おける参酌範囲を決定するステップと、決定された参酌
範囲におけるこの履歴の文構造に基づいてこの予測すべ
き単語を予測するステップとを含むことを特徴とする。
【0017】さらに、本発明は、配列に対する処理履歴
を格納した履歴格納手段から所定の要素の予測に用いる
木構造の処理履歴を取得し、所定の部分木及びこの部分
木に対応づけられた確率分布をノードに持つ木構造の確
率モデルを格納した確率モデル格納手段からこの確率モ
デルを取得し、取得した確率モデルに対して処理履歴の
木構造に対応するノードを検索し、このノードに対応づ
けられた確率分布に基づいて予測対象である所定の要素
の予測を行うことを特徴とする。
【0018】また、本発明は、次のように構成されたこ
とを特徴とする音声認識装置として実現することができ
る。すなわち、この音声認識装置は、アナログ音声信号
をデジタル音声信号に変換する音響処理部と、音響モデ
ルを格納した音響モデル格納部と、文が取り得る構造及
びこの構造に対する単語の出現確率に関する情報をノー
ドに持つ文脈木を格納した文脈木格納部と、この音響モ
デル及びこの文脈木を用いてデジタル音声信号を単語列
として認識する復号処理部とを備え、この復号処理部
は、単語予測の履歴が持つ文構造に基づいて文脈木を走
査し、この履歴の文構造に対応するノードが持つ出現確
率に基づいて予測すべき単語を予測する。
【0019】さらに、本発明は、上記のような音声認識
装置において、復号処理部は、単語予測の履歴が持つ文
構造に基づいて、予測すべき単語を予測するためのこの
文構造における参酌範囲を決定し、この参酌範囲におけ
るこの履歴の文構造に基づいて予測すべき単語を予測す
る構成とすることができる。
【0020】また、本発明は、上述した単語予測方法や
音声認識方法をコンピュータに実行させ、あるいは上記
の音声認識装置としてコンピュータを動作させるプログ
ラムとして実現することができる。このプログラムは、
磁気ディスクや光ディスク、半導体メモリ、その他の記
録媒体に格納して配布したり、ネットワークを介して配
信したりすることにより提供することができる。
【0021】さらにまた、本発明は、木構造を有する確
率モデルであって、当該木の根は空の木をラベルとし、
当該木の各ノードは親ノードのラベルである木を所定の
ノードで展開した部分木をラベルとし、かつ所定の部分
解析木を条件としてこの確率モデルが走査された場合に
返すべき確率分布が該当する部分木のラベルを持つノー
ドに付与されていることを特徴とする確率モデルを構成
するデータを格納した記録媒体として実現することがで
きる。ここで、この確率モデルにおける各ノードのラベ
ルは、親ノードのラベルである木を展開させ得る全ての
態様に関して、所定の評価関数を適用することによって
決定された部分木である。あるいは、親ノードのラベル
である木の各ノードに対して展開する場合としない場合
とにおける評価関数を比較し、当該比較の結果に基づい
て展開された部分木である。
【0022】
【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいて、この発明を詳細に説明する。本発明で提案
する確率モデルは、所定のデータ列に関して先頭から順
にデータ要素を予測していき、かつ所定のデータ要素を
予測する際に木構造で表現されるそれまでの予測履歴に
基づいて予測を行うような処理に対して一般的に利用で
きる。本実施の形態では、そのようなデータ列として言
語に着目し、本発明で提案する確率モデルを構造的言語
モデルに用いて音声認識における単語予測を行う場合を
例として説明する。
【0023】図1は、本実施の形態の音声認識システム
を実現するのに好適なコンピュータ装置のハードウェア
構成の例を模式的に示した図である。図1に示すコンピ
ュータ装置は、CPU(中央処理装置)101と、シス
テムバスを介してCPU101に接続されたM/B(マ
ザーボード)チップセット102及びメインメモリ10
3と、PCIバスなどの高速なバスを介してM/Bチッ
プセット102に接続されたビデオカード104、サウ
ンドカード105、ハードディスク106及びネットワ
ークインターフェイス107と、さらにこの高速なバス
からブリッジ回路110及びISAバスなどの低速なバ
スを介してM/Bチップセット102に接続されたフロ
ッピーディスクドライブ108及びキーボード109と
を備える。また、サウンドカード105には、音声入力
を行うマイクロフォン111が接続されている。なお、
図1は本実施の形態を実現するコンピュータ装置の構成
を例示するに過ぎず、本実施の形態を適用可能であれ
ば、他の種々のシステム構成を取ることが可能である。
例えば、サウンドカード105を設ける代わりに、M/
Bチップセット102の機能としてサウンド機構を設け
ることもできる。
【0024】図2は、図1に示したコンピュータ装置に
て実現される本実施の形態による音声認識システムの構
成を示す図である。図2を参照すると、本実施の形態の
音声認識システムは、音声を入力して音響的な処理を行
う音響処理部10と、音響処理部10による処理結果を
用いて入力音声を単語列(文章)として認識するための
復号処理部(デコーダ)20、復号処理部20の処理に
おいて参照される音響モデル及び樹状文脈木(Arbori-c
ontext Tree)を格納した音響モデル格納部30及び樹
状文脈木格納部40とを備える。
【0025】音響処理部10は、図1に示したコンピュ
ータ装置のサウンドカード105にて実現され、マイク
ロフォン111から入力した音声、すなわちアナログ音
声信号を音響的に解析し、デジタル音声信号に変換して
メインメモリ103に格納する。以下、このデジタル音
声信号を単に音声信号と称す。
【0026】復号処理部20は、図1に示したメインメ
モリ103に展開されたプログラムに制御されたCPU
101にて実現され、音響処理部10の解析により得ら
れた音声信号に関して音響モデルを用いた計算を行い、
計算結果である認識候補としての単語を選択する。音響
モデルを用いた単語の選択については、従来から行われ
ている一般的な手法を用いることができる。そして、復
号処理部20は、選択された単語を対象として、後述す
る単語予測の方法により、処理結果を履歴としてフィー
ドバックしながら順次単語予測を行い、最終的に音声認
識の結果を得る。得られた音声認識の結果は、図1に示
したビデオカード104を介してディスプレイ装置に表
示される。また、プリンタにて印字出力しても良いし、
ハードディスク106その他の記憶媒体に記憶させても
良い。なお、CPU101を制御して復号処理部20の
機能を実現させる当該プログラムは、磁気ディスクや光
ディスク、半導体メモリ、その他の記憶媒体に格納して
配布したり、ネットワークを介して配信したりすること
により提供することができる。本実施の形態では、図1
に示したネットワークインターフェイス107やフロッ
ピー(登録商標)ディスクドライブ108、図示しない
CD−ROMドライブなどを介して当該プログラムを入
力し、ハードディスク106に格納する。そして、ハー
ドディスク106に格納されたプログラムをメインメモ
リ103に読み込んで展開し、CPU101にて実行す
ることにより、復号処理部20の機能を実現する。
【0027】音響モデル格納部30は、図1に示したハ
ードディスク106やメインメモリ103にて実現さ
れ、音声における音の特徴を学習した音響モデルを格納
している。この音響モデルは、上記のように復号処理部
20により認識候補としての単語を選択する際に参照さ
れる。
【0028】樹状文脈木格納部40は、図1に示したハ
ードディスク106やメインメモリ103にて実現さ
れ、本発明で提案する構造的言語モデルである樹状文脈
木を格納している。本実施の形態では、構造的言語モデ
ルとして用いる確率モデルのデータ構造として、木構造
の履歴の部分解析木をラベルに持つ木を考える。そし
て、この木を根のみからなる状態から開始して、再帰的
に成長させることによって、互いに独立な履歴の部分木
を葉(ノード)のラベルに持つ文脈木(樹状文脈木)を
構築する。葉には、履歴の部分解析木に加えて、その履
歴を条件とする確率分布(出現確率)も付与しておく。
このようにして獲得された樹状文脈木を用いて単語や文
構造の予測などを行う場合、まず履歴に対応するラベル
を持った葉を求める。そして、特定された葉に付与され
ている確率分布に基づいて予測を行う。
【0029】ここで、構造的言語モデルを係り受け文法
に適用した例を挙げて、樹状文脈木について説明する。
この構造的言語モデルでは、先行する単語列を覆う部分
解析木に基づいて単語や文構造が予測される。したがっ
て、文W=w12 … wnとその構文構造を示す部分解
析木Tとは、次の数1式にて計算される。
【数1】 数1式において、tiは、文頭からi番目の単語までを
覆う部分解析木を表す。
【0030】図3は、9個以上の単語列に対する単語予
測及び構造予測において、9番目の単語を予測する直前
の状態を示す図である。これは、上の数1式においてi
=9である場合に相当する。図3において、まず、9番
目の単語w9が、8番目の単語w8までを覆う部分解析木
8=t8,38,28,1に基づいて予測される。次に、
9番目の単語w9までを覆う部分解析木t9が、8番目の
単語w8までを覆う部分解析木t8と9番目の単語w9
に基づいて予測される。そして、10番目の単語を予測
する直前の状態になる。かかる処理を繰り返すことによ
り、入力された音声を構成する単語列の単語とその構文
構造とが決定されていく。
【0031】ここで、問題となるのは、上記数1式中の
2つの条件付確率における条件部分の分類方法である。
分類が粗すぎれば、少ない条件で単語や文構造の出現確
率を求めることとなり、所定の条件に多くの事例が含ま
れることとなるため、峻別能力が低くなる。一方、分類
が細かすぎれば、単語や文構造を特定するために多くの
条件に合致することが必要となり、所定の条件を判断す
るための事例の数が減るため、確率値の推定精度が下が
る(データスパースネスによる問題)。上記文献1に記
載されたChelba & Jelinek のモデルでは、図3の場合
に最右の2つの主辞、すなわちw6とw8とを固定的に用
いる。しかしながら、文によっては、w 2が予測対象で
ある単語w9に係る場合があり、またw6が単語w9に係
らない場合もあるため、この2つの主辞を用いることが
次の単語w9を予測するために常に適切とは言えないこ
とは明白である。
【0032】そこで、上述した条件付確率の条件部分を
柔軟に選択可能とするため、本実施の形態では、構造的
言語モデルにおける単語予測の履歴を、単語列ではなく
部分解析木の列とする。当該部分解析木を直下の部分木
として持つ仮想の根を付加することで1つの木とみなす
ことができる。この木構造の履歴を履歴木と呼ぶ。上述
した数1式の条件付確率における条件部分の分類方法
は、単語を予測するために履歴木をどの範囲まで参酌す
るかという問題に相当する。図4は、図3の状態で9番
目の単語w9を予測するときに用いられる履歴木であ
る。
【0033】この履歴木の柔軟な分類方法は、樹状文脈
木と呼ぶデータ構造で表現される。樹状文脈木の各ノー
ド(葉)のラベルは、履歴木の根を含む部分木である。
根のラベルは空の木である。また、所定のノードに子ノ
ードがある場合、当該子ノードのラベルは、親ノードの
ラベルである木を所定のノードで展開した木である。図
5は、樹状文脈木の例を示す図である。図5に示す樹状
文脈木において、根501の子ノード511〜513の
ラベルは、根のラベルである部分木(空の木)に対する
子ノードのうち、最右の子ノードを付加、すなわち特殊
化することで得られる木となっている。
【0034】次に、復号処理部20による上記樹状文脈
木を用いた単語予測の手法を説明する。図5に示した樹
状文脈木の各ノードには、確率分布P(x|t)が付与
されている。ここで、xはアルファベット(一定の順序
で並べられた記号列の総体。本実施の形態では配列され
る単語を特定する記号の列であるが、図5の例では簡単
のため、英語のアルファベットを用いている)の記号で
あり、tはノードのラベルである。例えば、ラベルがa
0の根とラベルがak,…,a2,a1のk個の子ノードと
からなる木を<ak …a21 >a0と表記すると、図
5に示した樹状文脈木のノード533には、履歴が部分
木<<z?>a><b>にマッチする場合のアルファベ
ットxの確率分布が付与されることとなる。換言する
と、このノード533から単語を予測する場合におい
て、部分木の最右の主辞がbであり、次に最右の主辞が
aであり、当該主辞aに係る右から2番目の部分木の根
がzである場合における単語の確率分布が付与されてい
る。具体例を挙げると、図3おいてa=w6かつb=w8
かつz=w4の場合には、図4に示される履歴木におけ
るw4とw6とw8からなる部分解析木が、9番目の単語
9の予測に用いられる。
【0035】復号処理部20は、認識対象である文の所
定の単語を予測する場合、まず、当該単語の前の単語ま
でを覆う単語予測の履歴木を取得する。この履歴木は、
当該前の単語までの予測の結果であり、復号処理部20
によって図1に示したCPU101のキャッシュメモリ
やメインメモリ103に保持されている。次に、復号処
理部20は、樹状文脈木格納部40から樹状文脈木を取
得し、履歴木に基づいて当該樹状文脈木を走査し、当該
履歴木にマッチする部分木をラベルに持つノードを検索
する。そして、検出されたノードに付与されている確率
分布に基づいて予測対象である当該単語を予測し、さら
に後述のように当該単語を含む履歴木を予測して、新た
な処理履歴としてCPU101のキャッシュメモリやメ
インメモリ103に格納する。上述した具体例に則して
説明すると、復号処理部20は、樹状文脈木格納部40
に格納されている樹状文脈木を走査し、当該w4とw6
8に相当するノードを持つ部分木をラベルに持つ樹状
文脈木のノードを検出し、当該ノードに付与されている
確率分布に基づいて9番目の単語w9を予測する。な
お、この例は、最右の2つの主辞(w6とw8)からの予
測の特殊化の事例になっている。より一般的には、樹状
文脈木に基づくモデルは、最右の2つの主辞に基づくモ
デルをその特殊な事例として包含している。
【0036】復号処理部20は、以上の処理を文頭の単
語から文末の単語まで順次行い、文末に達した後、予測
された単語の列を音声認識の結果として出力する。これ
により、履歴木の構造に基づく確率分布によって出現確
率が最も高い単語の列が音声認識の結果として得られる
こととなる。
【0037】このように、樹状文脈木は、単語予測の履
歴木に対応する部分木をノードのラベルに持つため、こ
の樹状文脈木を走査することにより、当該樹状文脈木が
生成されている範囲において、履歴木に対応する木構造
をたどることができる。そして、該当する木構造をラベ
ルに持つノードに付与された確率分布によって、当該木
構造を履歴木として持つ次の単語の出現確率を得ること
ができる。後述するように、樹状文脈木をどのように成
長させるか、すなわちノードのラベルである部分木をど
のように展開させたものについて確率分布を与えるか
は、展開させ得る全ての態様について評価関数を適用す
ることによって定めることができる。例えば、出現頻度
が高く、評価関数による値が一定の閾値を越える場合、
そのようなノードの展開について樹状文脈木を成長させ
て確率分布を与えることができる。したがって、樹状文
脈木によれば、単語予測における構造的言語モデルとし
て用いられる場合、履歴木の構造自体に基づいて、次の
単語を予測するために当該履歴木をどれだけ深く(広い
範囲で)参酌すれば良いかを特定することが可能とな
る。すなわち、樹状文脈木の構造に基づいて、単語を予
測するために参酌すべき履歴木の範囲を柔軟に選択する
ことが可能となる。
【0038】ところで、上述したように、構造的言語モ
デルを用いた単語予測では、単語予測の履歴を部分解析
木の列としている。そして、当該部分解析木にて構成さ
れる履歴木と樹状文脈木とを用いてi番目の単語を予測
した後、i−1番目の単語までの履歴木と当該i番目の
単語とを用いてi番目の単語までを含む履歴木を作成
し、i+1番目の単語の予測に用いる。そこで、このi
番目の単語までを含む履歴木を作成するために、この樹
状文脈木を用いた予測を行うことができる。すなわち、
上述した単語予測用の(構造的言語モデルとしての)樹
状文脈木とは別に、履歴木の構造に基づいて、次の単語
を含む文構造である部分解析木の出現確率の確率分布を
ノードに与えられた樹状文脈木を用意する。そして、復
号処理部20は、この構文予測用の樹状文脈木を用い、
上記i番目の単語に基づいて、当該i番目の単語を含む
履歴木を予測し、次のi+1番目の単語を予測するため
の履歴木として用いる。これにより、履歴木を予測する
際にも、当該予測のために参酌すべき履歴木の範囲を柔
軟に選択することが可能となるため、従来よりも良好な
予測結果を期待することができる。
【0039】次に、本実施の形態で用いた構造的言語モ
デルである樹状文脈木の生成方法について説明する。図
6は、樹状文脈木を生成する手順を説明するフローチャ
ートである。また、図7は、図6の手順を再起的に繰り
返すことにより樹状文脈木が成長する様子を示す図であ
る。なお、樹状文脈木は、図2の音声認識システムを実
現するコンピュータ装置(図1)において音声認識の前
処理として生成しても良いし、他のコンピュータ装置を
用いて生成し、音声認識システムを実現するコンピュー
タ装置に渡すようにしても良い。以下では、図1に示し
たコンピュータ装置にて樹状文脈木を生成するものとし
て説明する。
【0040】初期状態では、樹状文脈木は、仮想のノー
ドのみからなる履歴木をラベルとする根のみからなる。
そこで、まず図7(A)に示すような根のみからなる樹
状文脈木を用意し、図1に示したCPU101のキャッ
シュメモリなどにて実現されるスタック(stack)に入
れる(ステップ601:stack=[root])。
【0041】次に、図7に示されるように、この樹状文
脈木に対して再帰的にノードを追加していく。まず、ス
タックに格納されている最後の要素を取り出し、樹状文
脈木のノードに代入する(ステップ602:node=pop(s
tack))。初期的にステップ601でスタックに入れた
根のみからなる樹状文脈木を対象とする場合、図7
(C)に示すように、当該根の子ノードが追加される。
どのノードを追加するか、あるいはノードを追加するか
否かの判断基準は、ヘルドアウトコーパスのパープレキ
シティを基にした評価関数である。
【0042】次に、ノード(葉leaf)の最良の展開
を選択し、これによって生成される子ノードをnode[0],
node[1], ・・・, node[k]とする(ステップ603:s
elect(leaf))。このノードの展開の選択は、与えられ
たノードを展開することによる評価関数の差を、全ての
可能な展開に対して計算することによって行われる。例
えば、引数が図7(D)に示す木における葉701の場
合の可能な展開は、以下の5つである。 1)2番目の部分解析木の根の特殊化 2)3番目の部分解析木の根の特殊化 3)1番目の部分解析木の1番目の子ノードの特殊化 4)1番目の部分解析木の2番目の子ノードの特殊化 5)1番目の部分解析木の3番目の子ノードの特殊化 ここで、1つの単語に係る単語数の最大値は3であると
している。図7(E)に示す例では、「1)2番目の部
分解析木の根の特殊化」が選択されている。なお、ノー
ドの展開方法を選択するためにどのような評価関数を用
いるかについては、予測対象(この場合は単語、あるい
は音声から認識すべき自然言語)に応じて任意に定める
ことができる。
【0043】次に、i=0とおいて(ステップ60
4)、node[i]を展開するかどうかを判断する(ステッ
プ605)。この際、各アルファベット(配列対象であ
る単語を特定する記号)に対して展開する場合としない
場合の評価関数の差を計算し、展開することが有効かど
うかを判断する。そして、展開することが有効と判断し
たアルファベットに対してのみノードを展開し、スタッ
クにnode[i]を積む(ステップ606:push(stack, nod
e[i]))。このノードを展開する処理(expand(leaf, se
lect(leaf)))は、i=0からi=kまで順次行われる
(ステップ607、608)。
【0044】以上の後、スタックが空でないならば、す
なわちノードの展開により新たに生成されたノードがあ
る場合は、ステップ602に戻って上記の処理を繰り返
す。一方、スタックが空であれば、すなわちノードの展
開により新たに生成された葉がない場合は、処理を終了
する(ステップ609)。以上のようにして生成された
樹状文脈木は、ハードディスク106等で実現される樹
状文脈木格納部40に格納され、上述した復号処理部2
0による音声認識処理に用いられる。
【0045】以上、構造的言語モデルとして樹状文脈木
を用いた場合を例として、当該モデルの構成及びこれを
用いた単語予測の手法について説明したが、この樹状文
脈木として表現される確率モデルの用途は、上述した構
造的言語モデルとして単語予測に限られない。すなわ
ち、所定のデータ列に関して先頭から順にデータ要素を
予測していき、かつ所定のデータ要素を予測する際に木
構造で表現されるそれまでの予測履歴をフィードバック
して用いるような予測処理に対して、確率モデルとして
汎用的に用いることができる。この場合、確率モデルで
ある樹状文脈木の各ノードは、上記の予測処理における
予測履歴が取り得る木構造をラベルとする。また、各ノ
ードには、当該ノードのラベルである木構造に対応づけ
られた確率分布が付与される。そして、所定の木構造を
条件としてこの確率モデルを走査することにより、当該
木構造に該当するラベルを持ったノードに付与されてい
る確率分布を得ることができる。
【0046】<実行例>係り受けが付与された日本語コ
ーパスを用いて、上述した樹状文脈木に基づく構造的言
語モデルを用いた単語予測と固定された履歴を参照する
構造的言語モデルを用いた単語予測との精度を比較し
た。実験に用いた日本語コーパスは、日本経済新聞の記
事に含まれる文である。各文は、単語に分割され、係り
受け構造が付与されている。日本語コーパスは10個に
分割され、そのうちの9個から言語モデルのパラメータ
を推定し、残りの1個に対してテストする。言語モデル
のパラメータにおいて、補間係数の推定のようにテスト
コーパスを模擬する必要がある場合には、9個の学習コ
ーパスを使って削除補間に準じた方法でこれを行う。ま
た、日本語コーパスの大きさは、図8に示す図表の通り
である。
【0047】樹状文脈木に基づく構造的言語モデルの予
測力を最右の2つの主辞に基づく構造的言語モデルとの
比較において評価するために、これらの言語モデルを同
一の学習コーパスから作成し、同一のテストコーパスに
対するパープレキシティを計算した。この計算におい
て、テストコーパスに付与された構造を用いた。したが
って、テストコーパスの各文の生成確率は、全ての可能
な生成方法に渡る生成確率の和ではない。各言語モデル
における構造予測の部分は共通なので、この部分のパー
プレキシティに対する寄与は一定である。また、未知語
は品詞を表す記号に置き換えられており、未知語の文字
列生成に起因するパープレキシティは除外されている。
【0048】図9は、上記各言語モデルによるテストセ
ットパープレキシティを示す図表である。パープレキシ
ティは、一様分布を仮定したときの分岐数であり、これ
が低いことは、単語や構造の予測力がより正確であるこ
とを意味する。樹状文脈木に基づく構造的言語モデルの
テストセットパープレキシティは、最右の2つの主辞に
基づく構造的言語モデルのテストセットパープレキシテ
ィよりもかなり低く、21.25%減となっている。な
お、文の構造予測にも樹状文脈木を利用することができ
るが、比較のため、いずれの構造的言語モデルにおいて
も固定の履歴からの予測としている。したがって、構造
予測の部分は共通なので、全体のパープレキシティも2
1.25%減となる。この結果は、樹状文脈木を用いる
ことにより、既存の技術である最右の2つの主辞に基づ
く構造的言語モデルを改善することに成功したことを意
味する。
【0049】また、樹状文脈木に基づく構造的言語モデ
ルを用いた音声認識によれば、図9に示したように、従
来の単語3−gramモデルに対しても、より優れた単
語予測能力を発揮している。したがって、音声認識シス
テムの言語モデルを、従来の単語列に基づくモデル(例
えば単語3−gramモデル)から樹状文脈木に基づく
構造的言語モデルに置き換えることで、認識精度を改善
することが可能である。
【0050】さらに、樹状文脈木に基づく構造的言語モ
デルを用いた音声認識では、単語を予測すると共に単語
を予測する際に用いる文の構文構造も予測している。し
たがって、この構文構造が付与された認識結果を出力さ
せることが可能になる。認識結果にその構文構造を付与
しておけば、当該認識結果を用いた後処理(例えば文の
検索)を行う場合に、当該構文構造を参酌して精度の高
い処理を行うことが可能となる。よって、樹状文脈木に
基く構造的言語モデルは、音声言語理解という観点か
ら、非常に有効な言語モデルとなり得ることがわかる。
【0051】
【発明の効果】以上説明したように、本発明によれば、
木構造を持つ履歴に基づいて次のデータ要素を予測する
処理において予測に利用する履歴の範囲を選択して用
い、予測能力を向上させることができる。また、本発明
によれば、上記の確率モデルを構造的言語モデルとして
用いることにより、単語予測と構文構造の推定を同時に
高い精度で実現できる。
【図面の簡単な説明】
【図1】 本実施の形態の音声認識システムを実現する
のに好適なコンピュータ装置のハードウェア構成の例を
模式的に示した図である。
【図2】 図1に示したコンピュータ装置にて実現され
る本実施の形態による音声認識システムの構成を示す図
である。
【図3】 9個以上の単語列に対する単語予測におい
て、9番目の単語を予測する直前の状態を示す図であ
る。
【図4】 図3の状態で9番目の単語w9を予測すると
きに用いられる履歴木である。
【図5】 本実施の形態による樹状文脈木の例を示す図
である。
【図6】 樹状文脈木を生成する手順を説明するフロー
チャートである。
【図7】 図6の手順を再起的に繰り返すことにより樹
状文脈木が成長する様子を示す図である。
【図8】 単語予測の実行例に用いられた日本語コーパ
スの大きさを示す図表である。
【図9】 単語予測の実行例における各言語モデルによ
るテストセットパープレキシティを示す図表である。
【符号の説明】
10…音響処理部、20…復号処理部(デコーダ)、3
0…音響モデル格納部、40…樹状文脈木格納部、10
1…CPU(中央処理装置)、102…M/B(マザー
ボード)チップセット、103…メインメモリ、104
…ビデオカード、105…サウンドカード、106…ハ
ードディスク、111…マイクロフォン
───────────────────────────────────────────────────── フロントページの続き (72)発明者 森 信介 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 西村 雅史 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 伊東 伸泰 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5D015 FF05 HH11

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータを用いて所定の文の単語を
    予測する単語予測方法において、 単語予測の履歴が格納された履歴格納手段から単語の予
    測に用いる履歴を取得して当該履歴が持つ文構造を特定
    し、 文が取り得る構造及び当該構造に対する単語の出現確率
    に関する情報をノードに持つ文脈木を格納した文脈木格
    納手段から単語予測用の当該文脈木を取得し、 特定された前記履歴の文構造と取得された単語予測用の
    前記文脈木とに基づいて予測すべき単語を予測すること
    を特徴とする単語予測方法。
  2. 【請求項2】 前記履歴は部分解析木の列であり、 前記文脈木のノードが持つ文が取り得る構造が木構造で
    あり、 前記部分解析木の列に当該部分解析木の列を直下の部分
    木として持つ仮想の根を付加して得られる木と、前記文
    脈木のノードが持つ木構造とを比較して前記予測すべき
    単語を予測することを特徴とする請求項1に記載の単語
    予測方法。
  3. 【請求項3】 文が取り得る構造及び当該構造に続く文
    構造の出現確率に関する情報をノードに持つ文脈木を格
    納した文脈木格納手段から文構造予測用の当該文脈木を
    さらに取得し、 前記予測された単語と当該単語の予測に用いられた前記
    文構造と取得された文構造予測用の前記文脈木とに基づ
    いて、前記予測された単語を含む文構造を予測し、前記
    履歴格納手段に格納することを特徴とする請求項1に記
    載の単語予測方法。
  4. 【請求項4】 コンピュータを用いて所定の文の単語を
    予測する単語予測方法において、 単語予測の履歴が格納された履歴格納手段から単語の予
    測に用いる履歴を取得して当該履歴が持つ文構造を特定
    し、 特定された前記履歴の文構造に基づき、予測すべき単語
    を予測するための当該文構造における参酌範囲を決定
    し、 決定された参酌範囲における前記履歴の文構造に基づい
    て前記予測すべき単語を予測することを特徴とする単語
    予測方法。
  5. 【請求項5】 前記履歴は部分解析木の列であることを
    特徴とする請求項4に記載の単語予測方法。
  6. 【請求項6】 特定された前記履歴の文構造に基づい
    て、前記予測された単語を含む新たな文構造を予測する
    ための当該文構造における参酌範囲をさらに決定し、 決定された参酌範囲における前記履歴の文構造と前記予
    測された単語とに基づいて当該予測された単語を含む新
    たな文構造を予測し、前記履歴格納手段に格納すること
    を特徴とする請求項4に記載の単語予測方法。
  7. 【請求項7】 コンピュータを用いて音声信号を単語列
    として認識する音声認識方法において、 処理対象の音声信号に対して音響モデルを用いた計算を
    行い、計算結果である認識候補としての単語を選択する
    ステップと、 選択された単語を対象として、予測対象である単語の直
    前の単語までの履歴が持つ文構造を特定するステップ
    と、 文が取り得る構造及び当該構造に対する単語の出現確率
    に関する情報をノードに持つ文脈木と前記履歴が持つ文
    構造とに基づいて前記予測対象である単語を予測するス
    テップとを含むことを特徴とする音声認識方法。
  8. 【請求項8】 コンピュータを用いて音声信号を単語列
    として認識する音声認識方法において、 処理対象の音声信号に対して音響モデルを用いた計算を
    行い、計算結果である認識候補としての単語を選択する
    ステップと、 選択された単語を対象として、予測対象である単語の直
    前の単語までの履歴が持つ文構造を特定するステップ
    と、 特定された前記履歴の文構造に基づいて、予測すべき単
    語を予測するための当該文構造における参酌範囲を決定
    するステップと、 決定された参酌範囲における前記履歴の文構造に基づい
    て前記予測すべき単語を予測するステップとを含むこと
    を特徴とする音声認識方法。
  9. 【請求項9】 配列に対する処理履歴を格納した履歴格
    納手段から所定の要素の予測に用いる木構造の処理履歴
    を取得し、 所定の部分木及び当該部分木に対応づけられた確率分布
    をノードに持つ木構造の確率モデルを格納した確率モデ
    ル格納手段から当該確率モデルを取得し、 前記確率モデルに対して前記処理履歴の木構造に対応す
    るノードを検索し、当該ノードに対応づけられた確率分
    布に基づいて前記所定の要素の予測を行うことを特徴と
    するデータ処理方法。
  10. 【請求項10】 アナログ音声信号をデジタル音声信号
    に変換する音響処理部と、 音響モデルを格納した音響モデル格納部と、 文が取り得る構造及び当該構造に対する単語の出現確率
    に関する情報をノードに持つ文脈木を格納した文脈木格
    納部と、 前記音響モデル及び前記文脈木を用いて前記音響処理部
    にて変換されたデジタル音声信号を単語列として認識す
    る復号処理部とを備え、 前記復号処理部は、単語予測の履歴が持つ文構造に基づ
    いて前記文脈木を走査し、当該履歴の文構造に対応する
    ノードが持つ出現確率に基づいて予測すべき単語を予測
    することを特徴とする音声認識装置。
  11. 【請求項11】 アナログ音声信号をデジタル音声信号
    に変換する音響処理部と、 音響モデルを格納した音響モデル格納部と、 文が取り得る構造及び当該構造に対する単語の出現確率
    に関する情報をノードに持つ文脈木を格納した文脈木格
    納部と、 前記音響モデル及び前記文脈木を用いて前記音響処理部
    にて変換されたデジタル音声信号を単語列として認識す
    る復号処理部とを備え、 前記復号処理部は、単語予測の履歴が持つ文構造に基づ
    いて、予測すべき単語を予測するための当該文構造にお
    ける参酌範囲を決定し、当該参酌範囲における前記履歴
    の文構造に基づいて前記予測すべき単語を予測すること
    を特徴とする音声認識装置。
  12. 【請求項12】 コンピュータを制御して、所定の文の
    単語を予測するプログラムであって、 単語予測の履歴が格納された履歴格納手段から単語の予
    測に用いる履歴を取得して当該履歴が持つ文構造を特定
    する処理と、 文が取り得る構造及び当該構造に対する単語の出現確率
    に関する情報をノードに持つ文脈木を格納した文脈木格
    納手段から単語予測用の当該文脈木を取得する処理と、 特定された前記履歴の文構造と取得された単語予測用の
    前記文脈木とに基づいて予測すべき単語を予測する処理
    とを前記コンピュータに実行させることを特徴とするプ
    ログラム。
  13. 【請求項13】 コンピュータを制御して、所定の文の
    単語を予測するプログラムであって、 単語予測の履歴が格納された履歴格納手段から単語の予
    測に用いる履歴を取得して当該履歴が持つ文構造を特定
    する処理と、 特定された前記履歴の文構造に基づき、予測すべき単語
    を予測するための当該文構造における参酌範囲を決定す
    る処理と、 決定された参酌範囲における前記履歴の文構造に基づい
    て前記予測すべき単語を予測する処理とを前記コンピュ
    ータに実行させることを特徴とするプログラム。
  14. 【請求項14】 確率モデルを構成するデータを格納し
    たコンピュータにて読み取り可能な記録媒体であって、 前記確率モデルは、木構造を有し、 前記確率モデルの根は、空の木をラベルとし、 前記確率モデルの各ノードは、親ノードのラベルである
    木を所定のノードで展開した部分木をラベルとし、かつ
    所定の部分解析木を条件として当該確率モデルが走査さ
    れた場合に返すべき確率分布が該当する部分木のラベル
    を持つノードに付与されていることを特徴とする確率モ
    デルを構成するデータを格納した記録媒体。
  15. 【請求項15】 前記確率モデルにおける各ノードのラ
    ベルは、親ノードのラベルである木を展開させ得る全て
    の態様に関して、所定の評価関数を適用することによっ
    て決定された部分木であることを特徴とする請求項14
    に記載の記録媒体。
  16. 【請求項16】 前記確率モデルにおける各ノードのラ
    ベルは、親ノードのラベルである木の各ノードに対して
    展開する場合としない場合とにおける評価関数を比較
    し、当該比較の結果に基づいて展開された部分木である
    ことを特徴とする請求項14に記載の記録媒体。
JP2001254502A 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム Expired - Fee Related JP4215418B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001254502A JP4215418B2 (ja) 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US10/226,564 US7480612B2 (en) 2001-08-24 2002-08-22 Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001254502A JP4215418B2 (ja) 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2003076392A true JP2003076392A (ja) 2003-03-14
JP4215418B2 JP4215418B2 (ja) 2009-01-28

Family

ID=19082658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001254502A Expired - Fee Related JP4215418B2 (ja) 2001-08-24 2001-08-24 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム

Country Status (2)

Country Link
US (1) US7480612B2 (ja)
JP (1) JP4215418B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020085567A1 (ko) * 2018-10-26 2020-04-30 아주대학교 산학협력단 순환신경망을 이용한 통신 메시지 해석 장치 및 그 방법

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US6766328B2 (en) * 2000-11-07 2004-07-20 Ascriptus, Inc. System for the creation of database and structured information from verbal input
US7219091B1 (en) * 2003-02-24 2007-05-15 At&T Corp. Method and system for pattern matching having holistic twig joins
US7349845B2 (en) * 2003-09-03 2008-03-25 International Business Machines Corporation Method and apparatus for dynamic modification of command weights in a natural language understanding system
US20050112536A1 (en) * 2003-11-21 2005-05-26 Felix Frayman Method and system for performing and delivering analysis of sports activities
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
CA2640882A1 (en) * 2005-02-02 2006-08-10 Verbal World, Inc. System for the management and use of information from voice input
GB2428508B (en) * 2005-07-15 2009-10-21 Toshiba Res Europ Ltd Parsing method
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US20090232032A1 (en) * 2007-01-17 2009-09-17 Verbal World, Inc. Methods and Apparatus for the Manipulation of Conferenced Data
EP2126707A2 (en) * 2007-01-17 2009-12-02 Verbal World, Inc. Methods and apparatus for manipulation of primary audio-optical data content and associated secondary data content
WO2009100444A1 (en) * 2008-02-08 2009-08-13 Verbal World, Inc. Methods and apparatus for exhange of electronic communications
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US8639509B2 (en) * 2007-07-27 2014-01-28 Robert Bosch Gmbh Method and system for computing or determining confidence scores for parse trees at all levels
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US8914275B2 (en) 2011-04-06 2014-12-16 Microsoft Corporation Text prediction
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104123288B (zh) * 2013-04-24 2018-06-01 阿里巴巴集团控股有限公司 一种数据查询方法及装置
US9189708B2 (en) * 2013-12-31 2015-11-17 Google Inc. Pruning and label selection in hidden markov model-based OCR
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
CN111783431B (zh) * 2019-04-02 2024-05-24 北京地平线机器人技术研发有限公司 利用语言模型预测词出现概率及语言模型训练方法和装置
CN111062199B (zh) * 2019-11-05 2023-12-22 北京中科微澜科技有限公司 一种不良信息识别方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475588A (en) * 1993-06-18 1995-12-12 Mitsubishi Electric Research Laboratories, Inc. System for decreasing the time required to parse a sentence
JP2886121B2 (ja) 1995-11-10 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
CN1143232C (zh) * 1998-11-30 2004-03-24 皇家菲利浦电子有限公司 正文的自动分割
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
AU2000276400A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
US7024351B2 (en) * 2001-08-21 2006-04-04 Microsoft Corporation Method and apparatus for robust efficient parsing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020085567A1 (ko) * 2018-10-26 2020-04-30 아주대학교 산학협력단 순환신경망을 이용한 통신 메시지 해석 장치 및 그 방법

Also Published As

Publication number Publication date
US20030046073A1 (en) 2003-03-06
JP4215418B2 (ja) 2009-01-28
US7480612B2 (en) 2009-01-20

Similar Documents

Publication Publication Date Title
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US6754626B2 (en) Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US5870706A (en) Method and apparatus for an improved language recognition system
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
He et al. Discriminative learning for speech recognition: theory and practice
JP4860265B2 (ja) テキスト処理方法/プログラム/プログラム記録媒体/装置
US20080059190A1 (en) Speech unit selection using HMM acoustic models
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2006031228A (ja) 形態素解析装置、方法及びプログラム
JP2004246368A (ja) テキストから単語誤り率を予測するための方法および装置
US20100094629A1 (en) Weight coefficient learning system and audio recognition system
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
US7328157B1 (en) Domain adaptation for TTS systems
KR20090063546A (ko) 음성인식 장치 및 방법
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP5067777B2 (ja) 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム
JP4067776B2 (ja) 言語モデル構成装置及び音声認識装置
JP4004376B2 (ja) 音声合成装置、音声合成プログラム
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP4405542B2 (ja) 音素モデルをクラスタリングする装置、方法およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060317

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060512

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20081022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131114

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees