JPH0320800A - 音声認識方法および装置 - Google Patents
音声認識方法および装置Info
- Publication number
- JPH0320800A JPH0320800A JP2040889A JP4088990A JPH0320800A JP H0320800 A JPH0320800 A JP H0320800A JP 2040889 A JP2040889 A JP 2040889A JP 4088990 A JP4088990 A JP 4088990A JP H0320800 A JPH0320800 A JP H0320800A
- Authority
- JP
- Japan
- Prior art keywords
- grammar
- probability
- state
- input
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000003111 delayed effect Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000284 resting effect Effects 0.000 description 4
- 235000006693 Cassia laevigata Nutrition 0.000 description 3
- 241000522641 Senna Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 229940124513 senna glycoside Drugs 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 241000288147 Meleagris gallopavo Species 0.000 description 1
- AQSMZTIEJMZQEC-DCAQKATOSA-N Pro-His-Ser Chemical compound C1C[C@H](NC1)C(=O)N[C@@H](CC2=CN=CN2)C(=O)N[C@@H](CO)C(=O)O AQSMZTIEJMZQEC-DCAQKATOSA-N 0.000 description 1
- 102100026827 Protein associated with UVRAG as autophagy enhancer Human genes 0.000 description 1
- 101710102978 Protein associated with UVRAG as autophagy enhancer Proteins 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000000881 depressing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
(産業1の利用分野)
本発明u.活しことばインタノエイスに関するものであ
り、特に確率的−・体化(ユニファイケーシコン)文法
を用いて規則確率と観測確率を貝休化するチャート構文
解析法を含む、話しことばプロセッサに関するものであ
る。 (従来の技術〉 話しことば系と自然古語系とをしっかり結びつけること
により、機械に話しことばを理解させることが最近の仙
究の11的であった。鉤者を結合することの困難性は統
計的な音声情報と自然言語文法とを統合しようとしたこ
とにある。更に、連続した音声を正確に認識ラ゛るため
に、rj声システムは文法に強く東縛されるようになっ
た。 言語をモデル化することは高性能で、話者非依存性の連
続的合声システムにおいて必須の要素になった。最近ま
で、肖角認識システムは言語モデルとして有限状態オー
トマトン(FSAs)を主に川いていた。これらのモデ
ルは処理効率が良くて、観測確率を調整するのが容易で
、かつ簡単な訓練技術で遷移確率をつくることができる
。 F S A Sを用いて話し言葉をモデル化しようと試
みた結果、パイグラムやトリグラムといった確率論的“
d語モデルが生まれた。これらのモデルによれば、単純
な場合には良い認識結果が1!1られるが、意味論を無
視しているから、話し,1葉系を素直に支持することを
阻むものである。 8語モデルが自然S語体系の中ぐ{曲値があることは伝
統的に証明されてきたが、過去10年間だけはコンピュ
ータ指向の断定的文法形式主義が広く利用されるように
なった。これらの形式主義は一・体化文法として一般に
知られてJ3り、構文解析と生成の両方を処lII T
lることに関してきわめて融通性にXJんでいる。一体
化文法によって、構文法と意味論と詔用論とをしっかり
と統合することが]可能となった。処理中に構文法と意
味論と語用論とに関する拘束を同時に適用しなければな
らないから、これらの文法は話し古莱にとって特に意義
深いものであった。話法と定翰域に関する拘束があるた
めに、侭いレベルで考慮すべき仮説の数を2iI1限す
ることができるから、性能が著しく改善される。 文脈自由文法(CFGs)と一体化文法(UGS)とを
統計的音声情報に結びつけようとする試みがいくつかな
されてきた。上界形システムや単語格子解析法のような
結合のゆるいシステムは、Eiに時間整合問題のために
、あまり有効でなかった。CFQsの中からF降形拘束
が」一ク◆ヤンガー●カサミ<CYK)アルゴリズムを
用いて音声と統合されたが、この/ルゴリズムは平均倍
率複雑性が悪い(3乗)。この複雑さは考慮すべき入力
仮説の数が大きい場合にノレーム同期構文解析法を用い
ると特に不利になる。例えば、1人の平均音声入力の良
さu4−5秒であり、こtLは400−500フレーム
に相当する。これを3乗つると、400−500フレー
ムの入力を認識するの1.:64,000.000−1
25.00o,oooステップの処理を必公と寸ること
になる。 CYKアルゴリズムはN3倍複雑性を有する第1のアル
ゴリズムであった。自然角語体系で11NU伝統的に単
語数゛Cある。しかし音声システムではNはフレーム数
であり、フレームは音声認識に川いられる基本的な時間
単位である。このアルゴリズムは音TA認識に時間同J
WJアルゴリズムを提供したという点で意義があった。 プロセッサは単語と単語との連結適合性ということに係
わる必公がなかったので、正確性が改善された.CYK
アルゴリズムはマトリックス乗法に似ているという点C
非常に単純である。正規文法を処理するときでさえ、N
倍ではなく常にN3倍の時間がかかるというのが欠点で
ある。史に、CYKアルゴリズムU浪費的である。この
アルゴリズムは必飲ぐあろうとなかろうとサベてをシス
デム的に拡張する。 したがって非常に良い処理時間と非常に多くのメヒリ空
間を使う。 アーりのアルゴリズム(J.Earley著、1″^n
EHicient Context−Free Pa
rsing^Igorism(効率的な文脈自由構文解
析アルゴリズム)”Comm.of the ACH
1Vol.13、NO.2、rebruary 19
70、Elf).94−102)は文書入ノノに対する
最も効率的な構文解析アルゴリズムのひとつであり、正
規文法をN倍で処理することができる。これはチャート
として知られる中央データ構造を使った最初の構文解析
方法のひとつであった。中央データ構造は文章を構文解
析している途中の結果をすべて記憶つるものである。そ
れからは文摺入力に対する自然言語系T−↓よチャート
構文解析法が広く用いられた。 音声入力信3は多様でかつあいまいさがあるので、アー
りのアルゴリズムを改良して話しことばの認識に使うた
めに、條正したアルゴリズムがつくられた。修正アルゴ
リズムの一例はベーセラによる次の文献に示されている
。^.Paeseler著、” Modificati
on or EarleV’s Algorithm
forSDe(!Ch Recognttton
(アーりのアルゴリズムの音声認識用修正) ” Pr
oc.of NATO^81, BadWindshc
ia+ . 1 9 8 7。ペーセラのアルゴリズム
はアーりのアルゴリズムに基づいて文脈白山文法に確立
を結合させているが、そのアルゴリズムにはある種の欠
陥があるためにそれほどうまくは働かない。ひとつの欠
陥は確率の計算に関することである。文脈自由文法の場
合、非終端記号が終端記号を経由することなく他の非終
端記号にぷき換えられる。したがって、確率は文法の多
くの方向から起こりつる。入力の構文解析を進めるため
に、続いて来るこれの記号も引き延ばさな◆ノればなら
ない。しかし、続いて来るこれらの記号を引ぎ延ば゜す
ためには、ベーセラのアルゴリズムによれば、最良の確
率を知らなければならない。さもないと、もしもっと良
い確率が現われたときに構文解析をやり直さなければな
らない。これは指数国数的な仕事損になるであろうから
、全然望ましくないことである。 (発明の要釣) 上述の問題に鑑み、本発明の目的は、確率論的一体化文
法を用いて規則確率と[1確率を具体化するチャート構
文分析法を提供し、それによって8狛ブ0セッサがすべ
ての知amを同時に利用して話し言葉をより正確に理解
できるようにし、表現できる右菓を改良して音ill識
プロセッサの表現力を高めることである。 本発明の他の目的は、記号を説明するための調査を下降
形と上胃形の両方から行うことによって、CGF,と確
率論的一休化文法に対して効率的な方法で、仮説の確率
をiL確に計算するチャート構文解析方法を提供するこ
と゛Cある。 本発明の更に他の目的は、CGF とUG,とS を効率的な方法で音声認識問題に正確に適用して、処理
時間とメモリ空間を節杓することのできるヂャート構文
解析法を提供することである。記号を1回だけ引き延ば
すことにより、時間とメモリ空間を節約する。したがっ
てプロセツリ・は入力を認F 識1るのにしばしば線型または2乗のステップ数で処理
し、最悪の場合のみN3の処理ステップを必要とする。 それに対してペーセラのアルゴリズムでの紅験によれば
、常時N3の処理ステップがあるいは指数閏数的な処理
ステッグが必要であった。これらはリアルタイムシステ
ムでは全く望ましくないことであった。 本発明はアーりの基本的なCFG構文解析アルゴリズム
を拡張して、規則確率と観測確率を一体化立法に結合さ
じるものである。これはアーりの結果を音声入力の認識
に拡張したものであったから、アーりのアルゴリズムの
複雑さを含んでいる。 1jなわちi[規文法には線型の、あいまいでないCF
G,ICは2乗の、一般的なcFG,k−Lt3乗の処
理ステップを必要とする。複雑な結果は特徴の任意の集
合を含まない一休化文法にも適用される。この効果があ
るために、このアルゴリズムは話しことば系の複数の文
法レベルに適用ざれる。 本発明によれば、一休化文法を規則確率と観測確率とに
結合させて、言語モデルのいくつかのレベルに対して音
声信号入力をプロセッψが認識できるようになる。本発
明では文法と参照データとをディスクまたは適用なメモ
リ空間から内部のデ−タ構造にロードし、構文解析時に
アクセスできるようにする。それから、チャートプロセ
ッサがすべての入力゛ノレームに対してすべての開始記
月を予測して構文解析づることか可能になる。構文解析
機能は、これ以上新しい状態を追加することができなく
なるまで、プロセッサが予測機能と完或機能とを交丸に
繰り返すことを要求する。もしプロセッサが最F層の文
法レベルにあれば、入力フレームにrM′1jるどんな
終端記号も計算にいれる。 もしIロセッサがfI1′F)l1以外の文法レベルに
いれば、次の低いレベルにある終端記号を予測して、構
文解析を進める。プロセッサは観測結果を低い文法レベ
ルから現行の文法レベルへと詳細に調査する。新しい完
成状態が利用呵能になると、進行中の状態を完威して次
の高い文法レベルに戻り、現行の文法レベルの記号から
つくられる状態を完成する。 本発明では次に開拓しようと思う仮説に確率を割り当て
る。また最も正しいと思われる回答(音声!i!識〉を
決めるために、得点の計算に周知のビ−ムブルーニング
技術と遅延コミットメントとを採川している。遅延コミ
ットメントは最良の確率を常にjl算し゜〔いるのでは
なく、代わりに特定の記¥−{を必装どする前の状態に
催促ポインタを設定する。それは、ブ口センナが確率を
知りたいときに、後戻りをして、すべ−(の情報が手許
にあれば、どちらが実際に高い確率!ごったかを決定で
ることができるようにするためである。 以1・図面と共に好ましい実施例を詳細に説明すること
により、本発明の特徴と利点を明らかにする。 (実施例) 本発明が開示するh法で使用されるアルゴリズム4、話
しことばプロセッサの中央データ構造に影響を及ぼす構
文解析サブアルゴリズムを含む。 第1図にホ寸ように、入力装置10(よ使用者からデー
タを受けて、入力を接続要素12を介してブロヒッサ1
4に送る。プロセッサ14uチV一ト24(図ホせず〉
として知られている中央データ構造を含み、その中にア
ルゴリズムが入っている。 そのアルゴリズムはグロセツサ14に文法、辞書、確率
およびその他の適当な演算用データをプロセッナメモリ
16から読込むように指示する。プロセッナ14とプロ
セッサメモリ16とは接続要素18を介して通信する。 プロセッサ14がアルゴリズムを実打し終えて、入力装
i!!10から送られた入力を!aし終えると、プロセ
ッサ14は接続要素20を経由して出力装−22に出ノ
ノを送る。 文法は、コンピュータ’ii iti学の分野で使われ
てよく知られている適当な文法を規定する規則を含む。 辞書は文法の終#ii記号の定義を含む。これらの終端
文法記勾は、好ましくは、例えば動詞、名詞、冠詞のよ
うな単語の種類を記述するものであり、構文と狛義に関
する情報が付随している。辞塵という術語には、時制、
複数または定冠詞のような選定された特徴が割り当てら
れている。辞書の要素のうちいくつかは、ある環境で有
効である単語の種類を詳細に記述したものである.原子
とも呼ばれる実際の単語は知識へ=スのような別の場所
で定IIきれる。 文法と辞書は共に、特定の領域を参照せずにコンパイル
することができる。その結果、話しことば基準がつくら
れるが、それはがなり複雑な言語サブセットとなろう。 文法と辞書に関する規則は単語の種類だけにおよぶので
、規則の数は実行時でさえ比較的少ない。したがって高
速で実行される。 「入力」には音声、手書き文用、タイプ文書などいろい
ろある。「入力j+A′nJは端末、マイクロフォン、
蓄音器などである。「出力」はスクリーンに描くための
プロセッサ応答、プロセッサにょる合声応答、7LIセ
ッサに上る動作指令などである。「出力装置」多よスク
リーン、他のプロセッサ、R II?スビ一カ、ロボッ
トの腕などである。本発明の好ましい実施例では、入力
は音′FNぐ、入力Vi置GよマイクDフォンであり、
出力と出力装買はスクリーンに書くだめのプロセッサ応
答に関するものである。しかしこのことが本発明を限定
するものではない。 本発明のアルゴリズムを説明する萌に、2個の定義をし
ておくことが必要である。まず第1に、確率論的一体化
文法を定義する。これは確率論的な文脈自由文法の定義
に基づいており、記号が原子記号に眼定されるのでな<
り、特に確率的−・体化(ユニファイケーシコン)文法
を用いて規則確率と観測確率を貝休化するチャート構文
解析法を含む、話しことばプロセッサに関するものであ
る。 (従来の技術〉 話しことば系と自然古語系とをしっかり結びつけること
により、機械に話しことばを理解させることが最近の仙
究の11的であった。鉤者を結合することの困難性は統
計的な音声情報と自然言語文法とを統合しようとしたこ
とにある。更に、連続した音声を正確に認識ラ゛るため
に、rj声システムは文法に強く東縛されるようになっ
た。 言語をモデル化することは高性能で、話者非依存性の連
続的合声システムにおいて必須の要素になった。最近ま
で、肖角認識システムは言語モデルとして有限状態オー
トマトン(FSAs)を主に川いていた。これらのモデ
ルは処理効率が良くて、観測確率を調整するのが容易で
、かつ簡単な訓練技術で遷移確率をつくることができる
。 F S A Sを用いて話し言葉をモデル化しようと試
みた結果、パイグラムやトリグラムといった確率論的“
d語モデルが生まれた。これらのモデルによれば、単純
な場合には良い認識結果が1!1られるが、意味論を無
視しているから、話し,1葉系を素直に支持することを
阻むものである。 8語モデルが自然S語体系の中ぐ{曲値があることは伝
統的に証明されてきたが、過去10年間だけはコンピュ
ータ指向の断定的文法形式主義が広く利用されるように
なった。これらの形式主義は一・体化文法として一般に
知られてJ3り、構文解析と生成の両方を処lII T
lることに関してきわめて融通性にXJんでいる。一体
化文法によって、構文法と意味論と詔用論とをしっかり
と統合することが]可能となった。処理中に構文法と意
味論と語用論とに関する拘束を同時に適用しなければな
らないから、これらの文法は話し古莱にとって特に意義
深いものであった。話法と定翰域に関する拘束があるた
めに、侭いレベルで考慮すべき仮説の数を2iI1限す
ることができるから、性能が著しく改善される。 文脈自由文法(CFGs)と一体化文法(UGS)とを
統計的音声情報に結びつけようとする試みがいくつかな
されてきた。上界形システムや単語格子解析法のような
結合のゆるいシステムは、Eiに時間整合問題のために
、あまり有効でなかった。CFQsの中からF降形拘束
が」一ク◆ヤンガー●カサミ<CYK)アルゴリズムを
用いて音声と統合されたが、この/ルゴリズムは平均倍
率複雑性が悪い(3乗)。この複雑さは考慮すべき入力
仮説の数が大きい場合にノレーム同期構文解析法を用い
ると特に不利になる。例えば、1人の平均音声入力の良
さu4−5秒であり、こtLは400−500フレーム
に相当する。これを3乗つると、400−500フレー
ムの入力を認識するの1.:64,000.000−1
25.00o,oooステップの処理を必公と寸ること
になる。 CYKアルゴリズムはN3倍複雑性を有する第1のアル
ゴリズムであった。自然角語体系で11NU伝統的に単
語数゛Cある。しかし音声システムではNはフレーム数
であり、フレームは音声認識に川いられる基本的な時間
単位である。このアルゴリズムは音TA認識に時間同J
WJアルゴリズムを提供したという点で意義があった。 プロセッサは単語と単語との連結適合性ということに係
わる必公がなかったので、正確性が改善された.CYK
アルゴリズムはマトリックス乗法に似ているという点C
非常に単純である。正規文法を処理するときでさえ、N
倍ではなく常にN3倍の時間がかかるというのが欠点で
ある。史に、CYKアルゴリズムU浪費的である。この
アルゴリズムは必飲ぐあろうとなかろうとサベてをシス
デム的に拡張する。 したがって非常に良い処理時間と非常に多くのメヒリ空
間を使う。 アーりのアルゴリズム(J.Earley著、1″^n
EHicient Context−Free Pa
rsing^Igorism(効率的な文脈自由構文解
析アルゴリズム)”Comm.of the ACH
1Vol.13、NO.2、rebruary 19
70、Elf).94−102)は文書入ノノに対する
最も効率的な構文解析アルゴリズムのひとつであり、正
規文法をN倍で処理することができる。これはチャート
として知られる中央データ構造を使った最初の構文解析
方法のひとつであった。中央データ構造は文章を構文解
析している途中の結果をすべて記憶つるものである。そ
れからは文摺入力に対する自然言語系T−↓よチャート
構文解析法が広く用いられた。 音声入力信3は多様でかつあいまいさがあるので、アー
りのアルゴリズムを改良して話しことばの認識に使うた
めに、條正したアルゴリズムがつくられた。修正アルゴ
リズムの一例はベーセラによる次の文献に示されている
。^.Paeseler著、” Modificati
on or EarleV’s Algorithm
forSDe(!Ch Recognttton
(アーりのアルゴリズムの音声認識用修正) ” Pr
oc.of NATO^81, BadWindshc
ia+ . 1 9 8 7。ペーセラのアルゴリズム
はアーりのアルゴリズムに基づいて文脈白山文法に確立
を結合させているが、そのアルゴリズムにはある種の欠
陥があるためにそれほどうまくは働かない。ひとつの欠
陥は確率の計算に関することである。文脈自由文法の場
合、非終端記号が終端記号を経由することなく他の非終
端記号にぷき換えられる。したがって、確率は文法の多
くの方向から起こりつる。入力の構文解析を進めるため
に、続いて来るこれの記号も引き延ばさな◆ノればなら
ない。しかし、続いて来るこれらの記号を引ぎ延ば゜す
ためには、ベーセラのアルゴリズムによれば、最良の確
率を知らなければならない。さもないと、もしもっと良
い確率が現われたときに構文解析をやり直さなければな
らない。これは指数国数的な仕事損になるであろうから
、全然望ましくないことである。 (発明の要釣) 上述の問題に鑑み、本発明の目的は、確率論的一体化文
法を用いて規則確率と[1確率を具体化するチャート構
文分析法を提供し、それによって8狛ブ0セッサがすべ
ての知amを同時に利用して話し言葉をより正確に理解
できるようにし、表現できる右菓を改良して音ill識
プロセッサの表現力を高めることである。 本発明の他の目的は、記号を説明するための調査を下降
形と上胃形の両方から行うことによって、CGF,と確
率論的一休化文法に対して効率的な方法で、仮説の確率
をiL確に計算するチャート構文解析方法を提供するこ
と゛Cある。 本発明の更に他の目的は、CGF とUG,とS を効率的な方法で音声認識問題に正確に適用して、処理
時間とメモリ空間を節杓することのできるヂャート構文
解析法を提供することである。記号を1回だけ引き延ば
すことにより、時間とメモリ空間を節約する。したがっ
てプロセツリ・は入力を認F 識1るのにしばしば線型または2乗のステップ数で処理
し、最悪の場合のみN3の処理ステップを必要とする。 それに対してペーセラのアルゴリズムでの紅験によれば
、常時N3の処理ステップがあるいは指数閏数的な処理
ステッグが必要であった。これらはリアルタイムシステ
ムでは全く望ましくないことであった。 本発明はアーりの基本的なCFG構文解析アルゴリズム
を拡張して、規則確率と観測確率を一体化立法に結合さ
じるものである。これはアーりの結果を音声入力の認識
に拡張したものであったから、アーりのアルゴリズムの
複雑さを含んでいる。 1jなわちi[規文法には線型の、あいまいでないCF
G,ICは2乗の、一般的なcFG,k−Lt3乗の処
理ステップを必要とする。複雑な結果は特徴の任意の集
合を含まない一休化文法にも適用される。この効果があ
るために、このアルゴリズムは話しことば系の複数の文
法レベルに適用ざれる。 本発明によれば、一休化文法を規則確率と観測確率とに
結合させて、言語モデルのいくつかのレベルに対して音
声信号入力をプロセッψが認識できるようになる。本発
明では文法と参照データとをディスクまたは適用なメモ
リ空間から内部のデ−タ構造にロードし、構文解析時に
アクセスできるようにする。それから、チャートプロセ
ッサがすべての入力゛ノレームに対してすべての開始記
月を予測して構文解析づることか可能になる。構文解析
機能は、これ以上新しい状態を追加することができなく
なるまで、プロセッサが予測機能と完或機能とを交丸に
繰り返すことを要求する。もしプロセッサが最F層の文
法レベルにあれば、入力フレームにrM′1jるどんな
終端記号も計算にいれる。 もしIロセッサがfI1′F)l1以外の文法レベルに
いれば、次の低いレベルにある終端記号を予測して、構
文解析を進める。プロセッサは観測結果を低い文法レベ
ルから現行の文法レベルへと詳細に調査する。新しい完
成状態が利用呵能になると、進行中の状態を完威して次
の高い文法レベルに戻り、現行の文法レベルの記号から
つくられる状態を完成する。 本発明では次に開拓しようと思う仮説に確率を割り当て
る。また最も正しいと思われる回答(音声!i!識〉を
決めるために、得点の計算に周知のビ−ムブルーニング
技術と遅延コミットメントとを採川している。遅延コミ
ットメントは最良の確率を常にjl算し゜〔いるのでは
なく、代わりに特定の記¥−{を必装どする前の状態に
催促ポインタを設定する。それは、ブ口センナが確率を
知りたいときに、後戻りをして、すべ−(の情報が手許
にあれば、どちらが実際に高い確率!ごったかを決定で
ることができるようにするためである。 以1・図面と共に好ましい実施例を詳細に説明すること
により、本発明の特徴と利点を明らかにする。 (実施例) 本発明が開示するh法で使用されるアルゴリズム4、話
しことばプロセッサの中央データ構造に影響を及ぼす構
文解析サブアルゴリズムを含む。 第1図にホ寸ように、入力装置10(よ使用者からデー
タを受けて、入力を接続要素12を介してブロヒッサ1
4に送る。プロセッサ14uチV一ト24(図ホせず〉
として知られている中央データ構造を含み、その中にア
ルゴリズムが入っている。 そのアルゴリズムはグロセツサ14に文法、辞書、確率
およびその他の適当な演算用データをプロセッナメモリ
16から読込むように指示する。プロセッナ14とプロ
セッサメモリ16とは接続要素18を介して通信する。 プロセッサ14がアルゴリズムを実打し終えて、入力装
i!!10から送られた入力を!aし終えると、プロセ
ッサ14は接続要素20を経由して出力装−22に出ノ
ノを送る。 文法は、コンピュータ’ii iti学の分野で使われ
てよく知られている適当な文法を規定する規則を含む。 辞書は文法の終#ii記号の定義を含む。これらの終端
文法記勾は、好ましくは、例えば動詞、名詞、冠詞のよ
うな単語の種類を記述するものであり、構文と狛義に関
する情報が付随している。辞塵という術語には、時制、
複数または定冠詞のような選定された特徴が割り当てら
れている。辞書の要素のうちいくつかは、ある環境で有
効である単語の種類を詳細に記述したものである.原子
とも呼ばれる実際の単語は知識へ=スのような別の場所
で定IIきれる。 文法と辞書は共に、特定の領域を参照せずにコンパイル
することができる。その結果、話しことば基準がつくら
れるが、それはがなり複雑な言語サブセットとなろう。 文法と辞書に関する規則は単語の種類だけにおよぶので
、規則の数は実行時でさえ比較的少ない。したがって高
速で実行される。 「入力」には音声、手書き文用、タイプ文書などいろい
ろある。「入力j+A′nJは端末、マイクロフォン、
蓄音器などである。「出力」はスクリーンに描くための
プロセッサ応答、プロセッサにょる合声応答、7LIセ
ッサに上る動作指令などである。「出力装置」多よスク
リーン、他のプロセッサ、R II?スビ一カ、ロボッ
トの腕などである。本発明の好ましい実施例では、入力
は音′FNぐ、入力Vi置GよマイクDフォンであり、
出力と出力装買はスクリーンに書くだめのプロセッサ応
答に関するものである。しかしこのことが本発明を限定
するものではない。 本発明のアルゴリズムを説明する萌に、2個の定義をし
ておくことが必要である。まず第1に、確率論的一体化
文法を定義する。これは確率論的な文脈自由文法の定義
に基づいており、記号が原子記号に眼定されるのでな<
【、特徴・値の対または特徴組のこともあると一般化す
ることにより記述される。具体的に言うと、「確率論的
一休化文法1は四つ組、G,=(N,r、Ps,S)で
ある。ここでNと「は有限であって、非終端記月と終端
記号の組である。SCNは開始記号の組である。P,は
確率論的積の有限な組であり、各々はA,D→αの形を
とる。ここでAεN1βc(Nu−r).★であり、p
は規も1を適用する確率である。左側のAと共にps!
P−おけるk個の確率論的積サベ1の確率の組を {DI A,Pi−◆βi,i−1、・・・ k}と
する。それからO<})i ≦1、かつΣ” p
=iである。非終端記号と終端記号は1−1 特徴・億の対“Cある。 次に、「特徴組」を形式F:vの「特徴・埴対」の組と
して定filる。ここでfば定数(Oに関する関数また
は原子記号)であり、■は定数、変数あるいは特徴組の
いずれかである。特徴組はx十「Sという表記を用いた
変数で索引を付けることができる。ここでXは変数であ
り、Fsは特徴組である。変数はjjlじ特徴組の発生
を示すために、他の場所で使うことができる。 本発明の好ましい実施例を示す。 入力 文法のベクトル、G,G 、・・・、G tt .O 終りのフレーム、n. 出力 l行n列の状態組Eのマトリックス GoのSに対づる最良の得点 方法 1.i−Q、1−0.σo=0.0 <対数確率)とす
る。 すべてのlに対しE を空にする。 ll0 2.各SεSに対して、 [1・一 S・一 − − − o oσ
.σ ] を予測する。 3、もしi=nかっ[o,p,s,α j,ε,1.σ
,σ]εεl.。 0 ここでSεSならば、Eとσに戻る。 4.(i,E.j!)を構文解析する。 5、(3)に行く。 構文解析 入力 状態組Fのマトリックス、レベルl1フレームインデッ
クスi. 出力 Eの特別な状態組、E1,I+1, 方法 1.新しい状態を加えることができなくなる迄、次の2
ステップを繰り返す。 (a)予測寸る (b)完成する 2,仮説を設ける 3.詳細に調べる 4.i=i+1とする 5.新しい状態を加えることができなくなる迄、次の2
ステップをくり2返す。 (a)予al1る (b)完成する このアルゴリズムの実行に際して、プロセッサは文法レ
ベルの数を表わす文法のべクトノレを読む。 第2図に文法レベルの例を,示す。最も高いレベノレは
文文法レベル0である。そのトに単語文法レベル1があ
り、その下にフオニーム文法レベル2がある。その下の
レベルは単音文法レベル3である。 レベルが下がるにしたがって、各レベルは入力されたデ
ータのうち次第に狭い部分を含むようになり、やがて最
下層レベル、すなわち基準文法レベルlに達する。 基準フレームは音声開発者により設定される基本的な時
間単位である。例えば、基本となる時1mlN1MLは
20ミリ秒である。このことは20秒毎にプロセッサが
音声信号の持つ各種特性のうt5艮さ18くらいの}j
1動小数点特性を持つベクトルでa声データを特徴づけ
て、これらの特性を1!語にit応する1llJ持デー
タまたは記号に合わせることを意味する。 アルゴリズムの説明に戻る。プロセッサが入力し終えな
いうちに、状態組Eのマトリックスの出力を生或する。 このマトリックスはレベル数に対応つるl行と、音声の
入力フレーム数に対応するN列から或る。更に、プロセ
ッサは文法レベルO(第2図)において最も良く文を説
明する得点を出力づる。文法レベルOは文文法レベルで
ある。 好ましい実施例では、文法のベクトルを読んだ後、プロ
ヒッサは最終フレーム指示子nを入力づる。このことは
必要ではないけれども、こうすることによりアルゴリズ
ムがより完璧になる。また、他の手段により終了時点を
プロセッサに知らせることもできる。 この時点で、ブ[1セッサはすべての状態組を前期化し
て第1フレームのすべてのレベルで空にし、初期確率を
0.0(対数確率〉に設定する。プ口セッサはレベルを
0に設定し(文文法レベルでスタートづる)、フレーム
をOに設定1る。これで前期化は完了する。各文法の開
始記号に対して、プロセッサは現行フレームの初期確率
と最終確率を0,Oと予測する。 この時点で1ロセッナが入力終了に至るということ番よ
、プロセッサがアルゴリズムを初めて実行するときには
ありそうもないことであるが、もしそうなったならば、
そしてもしブロヒッザが完成1ノだ開始記号に対応する
状態を見つけたならば、プロセッVは組入力全体を説明
して、その状態ど得点とを出力することができる。それ
から、開始フレームと、状態組と、レベルとが与えられ
れば、プロセッサは構文解析にかかる。 構文解析アルゴリズムでは、プL]セッナは状態組と、
レベルlと、インデックスフレームlとを入力し、次の
入力フレーム要求i+1のための特別状態を出力する。 この◆ナイクルは、新しいチ測状態と完成状態とが加え
られなくなるまで繰り返される。このサイクルにより次
の低い文法レベルで仮定されるいくつかの終端記号がつ
くられる。 ブロセッナは次の下層の文法レベルにおける開始記号と
して、このレベルから終端3a号を仮定する。 プロセッサは観測結果の組に戻り、それを待ち状態で詳
細に調べる。好ましい実施例では、完成した状態が次の
フレームではそうするから、それからフレームカウンタ
を進める。しかし、フレームカウンタを進めるのは、フ
レームをどのように追跡したいか次第で、アルゴリズム
を実行中の他の時間に行ってもよい。この時点では、状
態は完或しているか、または観測粘果として状態が次の
上の文法レベルに報告されるか、いずれかである。 状態は依然として進行中であって《完或してない)、次
のサイクルの間に始理するための未決リストに載ってい
るかもしれない。 再び第2図に戻る。ブ[1I?ツサは入力された文法を
見て、文に相当する記号、例えばSがあることを知る。 プロセッナは構文解析機能を進めて、予測と完戒とを行
い、文文法レベルで終端記月であるいくつかの単語を必
要とすることを発見する。 それからプOセッ1ノはその単語の組を用いて仮説を呼
び出す。そのIIRはこの場合次の低いレベル一レベル
1に13 GJる開始記号でもある。それからプロセッ
サはフォニームから成る単語に対する文法規則を予測し
て完成させ、終端記号であるフォニームの組を見つける
と、文法レベル2でそれを呼び出1.それは開始記号と
してフォニーム記号を有する。このことは隠れたマルコ
ノモデル( 1−I M M )文法を持つレベルまで
続く。H M M文法は終端記号として基準ベクトルに
相当する基準ベクトル記号を有する。それからプロセッ
サはこれらの基準ベクトルを計算して、そのフレームに
対する確率を得、これらを11A?l!l結果として次
の高いレベルに戻す。これらの観測結果U次の高いレベ
ルで詳細に調べられる。次の繰り返しを通じて、プロセ
ッサは進められたこれらの状態を予測して完成させる。 このことはづべての入カが文文法レベルOに進み、何倍
かのフレームにわたってSを進めて、寸べての入力デー
タを包含する迄続く。 この時点で、プロセッサは構文解析を完了して、音声入
力の仮説を出力する。 本発明の好ましい実施例では、構文解析と計算の他に4
M4の基本的な機能がある。そのうちの3個は加算と呼
ばれる他の機能を使う。以下これらの各機能を説明する
。[f,p,A,α.j,β.i.σ .σ]という形
式のチャート状態を想定O する。ここでfば開始フレームであり、pは生成数であ
り、Aは虜則の左手側( L H S ”)であ・り、
αは完成した一連の記号であり、jはαの長さであり、
βは右手側(R}−18)記号の剰余であり、iはこの
状態の終了フレームであり、σ0は初期確率であり、σ
は累積確率である。更に、すべての記号はもし他に指示
してなければレベル1にあると仮定する。 pretitct for all [f,p,A,α.j.B αsitσ .σ]10 and rules o’:B.η→γ 2 and unHy( B , B . B3 )12 add ti.p’.B2.εsowγ=ieσ.σ+η]一休
化文法を用いて記号を予測するには、プロセッサは記号
B1を捜している状態を少なくとも1111a有し、規
則p′で始まるかまたはその左手側に記号B を有す
る。ここで81と82は−・体と2 なって、新しく統一された記号B3となる。もしB と
B2が文脈自由文法用の原子記号であるな1 らば、不履行により一休化される。次に、記号の組が考
慮中の状態の組に加えられる。新しい状態が入力状態の
終了状態のときに始まる。このときフレームはiであり
、規Oll Tt 弓はp′であり、左手側に記号B3
を有づる。記号の数はOとして処理され、規則の右手側
に右手側に相当する空の記号列が処理される。このこと
はプロセッサが83を見たということを示すために、調
べる必要があることである。εは一連の終端tt!号と
非終端記号であり、Oまたはそれ以上である。この場合
、終了フレームもまた現行フレームである。なぜならば
プロセッサは何も処理してないからである。初期確率は
最終確率プラス記号82の規則確率である。このことは
特に左回帰的規則にとつ(@欝なことである。最終確率
から初則確率を引くとηになる。 COlpletf3 for all [k.o’.B.γIJ”Iilσ0.σ】1 and rules [f.D.A.α.j.8 βIklρ .ρ]20 and unify(B . B2 . B3 )1 add 記月を完威させるには、ある時間kに始まってあるBi
V間iに終る状態がある。その状態は最終確率がσで初
期確率がσ。である記号■を含む。それから各状1l!
毎に記号B2を捜し、それが記号B1と一体となって記
@B3をつくると、プL+ t7ツナは新しい状態をつ
くりだす。新しい状態はB3を調べ終っており、完成し
た状態と同じ規則il号を持ち、完成した状態と同じ間
始時間、すなわちfを持っている。完成した記号の数は
j+1に増える。終rフレームは現行ノレーム1であり
、初1111f率は完成した状態の初期確率ρ0であり
、最終確率は調べた記号B3の最終確率であり、各状態
毎の最終確率から初期確率を引いたσ−σ0で表わされ
る。 hypothestze for all If,D.A,α=,bβejeρ0.ρ]and terminal ( b . 11 ) , com
pute(ρ. D’ )predict at
1 −ト 1[i,b,,,,,ρ′.ρ゛
] finally, call l)arsQ at jl + 1仮説を設
&Jるために、ブOセッサは所定の状態もしくは状B組
を進めるのに必要な状態から、終端記号bを取る。所定
のレベルlにある寸べ゛(の終端ゝ% b IIに対し
て、プロセッサは状態の最終確率ρに基づいて新しい確
率ρ′を計算する。これは遅延コミットメント・アルゴ
リズムの一部である。プロセッサは終端記号の段階にい
るから、このアルゴリズムを実行することができる。な
ぜならば、すべての状態が予測されつくして完成してい
るので、これ以上の状態を予測もしくは完或づるために
利用できる情報がないからである。プロセッサは次の下
のレベルであるレベルl+1で予測するであろう。この
ことは初tIII確率と最終確率ρ′を川いて現行フレ
ームにおける記号bによりボされる。それからプロセッ
サは底部に達するまで順番に下のレベルに打って、可能
な限り多くの状態を進め、それから構文解析に戻る。こ
のことは仮説と構文解析間の相万回帰的関係を示すもの
である。 scan m a k e EJ , i , 1empty for all [f. p, A,α.j,b1β,k.ρ0,ρ]f
or all observations at 1
+1and unNy(b , b . b3 )r
a add 詳細な調査は本質的に完成と向じである。唯一の違いは
「完成」が非終端記号を扱うのに対して、「訂細なm査
」は終端記号を扱う点である.,最初にプロセッサqレ
ベルl1フレームi←1にある状態組を空にづる。次の
低いレベルにおける観測結果がある。あるレベルでは例
えば左手側に記号b1を有し、その終端記号を必要とす
る。この状態におけるある状態のある記号b2とその記
弓b1とがー・体化される。こうしたすべての観測結果
に対して、7Oセッナは一休化された記号b3を、この
状態における完成された記号リストにのせる。プOセッ
ナはこのことを完成しつつある状態の初期フレームで行
うことにより、状態を進める。その確率はρであり、こ
れはその状態の最終確率+完成した状態の最終確率一完
或した状態の初期確率である。 add given [f,p,A .α ,j,β .i,σ .σ]
1 1 1 0if t
here extsts [f,El.A ,α +−i+ β ,i,ρ
.ρ]2 a 2 0and subsugies (A1 . A2 >r
eplace ,o with wax(,o , a ) ,
symbolicallyotherwise append the oiven state to
E 1 , H加算するには、状態組の中に現行の状
態と異なる状慝が与えられなければならない。更に、新
しい左手側記号A1が現存する記号A2を包含すると仮
定する。これはプロセッサが最初の仮説よりも一般的な
仮説を持つことを意味する。プロセッサは状態組におけ
る現存状態の存在確率をρの最大値と記号的に置き換え
て、σを所定の状態の最終確率として設定する。このこ
とはρまたはσを評価ずるものではなく、現存状態組に
終了を記すことによって、ブ0セッナが後で確率を調べ
て最大値を見つけることができるまで加え続けたことを
記録しておくものである。さもなくば、プ[It?ツサ
はフレームiのレベルlにある状態に所定の状態を付す
にとどめるであろう。なぜならば、他に包含する状態が
ないからである。 アルゴリズムを効率的に実行するには、アーリ(Ear
lQV)の著述したものを利川しなければならない。披
は次のように述べている。ブロヒッサが予測スデップに
あるとき、各非終端記号に対する選択用の連結リストを
保有つれば、容易にそれらを見つけることができる。状
態組中の状態も連結リストに保存されていたら、それら
を順番に処理づることができる。状態が既に加えられた
否かを容易に判断できるように状態組の中の状態に指標
を付しておけば、プロセッサは同じことを二度はやらな
い。その記号は既に調べられたというしるしをつけるこ
とにより、無効な、すなわち空の結果を処理する。プロ
セッサが完全な記号を有するときそれらを効率的に見つ
(ノるこができるように、必要とする記号にしたがって
すべての状態を系統的に編制しておく。と、以上のよう
に記載されている。更に、プ口グラムの本来の仕事は計
′n機能である。終端記号の確率を克つ1ノるとき、計
算ステップ以前に、サイクルを攬留めて所定の状態の確
率を効率的に見つけるようにする。 第3図に確率を用いてフレーム同期構文解析を行う例を
示す。Aの印を付けた部分では1個の規則から成る簡単
な文法が与えられている。すなわち文は名詞と動詞に書
き直す。1個の名詞” boys’ (少年)と、2個
の動1 ’ sleep“(眠る)と″leap’ (
はねる)とが与えられている。 第3図の8の印を付けた部分はi語格子を表わしている
。これは(この例では)システムの入力であり、各単語
仮説の始めのフレームと終りのフレームとを示している
。格子は複数行から成り、各行は特定のデータ範囲中に
特定の単語を見つける対数確率を示しており、その確率
は負で与える。 B部の単語格子によれば、フレーム0からフレーム2の
間に゛ゝboys″を見つける確率は−0.04であり
、フレームOからフレーム3までに″’boys”を見
つける確率は−0.03であり、フレーム2からフレー
ム5までに゛’SIeeE)”を見つける確率は−0.
05であり、フレーム3からフレーム5までに’ le
ap“を見つける確率は−0.03である。 次に、第3図でCの印を付けた部分を説明する。 ノレームi−Qで予測が行われて、「文U名詞と動詞に
寵き直す」という規則に基づいて状態が確立され、時l
i10で開始される。このことはSの前の添字Oと矢印
の後の添字0で表わされている。 その上の点は規則中の場所を表わす。すなわち規則中の
どこまで進んだかを表わすものであり、この時点では何
もない。規則の後についている数字はそれぞれ初期確率
と最終確率を対数確率で表わしている。フレームi−0
では、構文解析はまだ同じ状態にあって何もしてないか
ら、確率はゼロである。開始記号Sを予測したため最初
の状態が生じた。フレームOには規則Sに相当する状態
があって、構文解析に上り’boys”という名詞に書
直すという名詞に関する規則が予測された。これは前の
状noと向じti始@間と終了時間を有し、前の状態と
同じ初期確率と最終確率0.0を有する。初期確率はこ
の仮説を開始するのに必要な確率を表わし、最終確率は
仮説を調べつくしたときの確率を表わ1。 構文解析によってできるだけ多く予測がなされて完成し
たとき、これ以上進む前に調べることが必要な1組の終
端記号を有している。この組は’ boys“という1
Ilの要素から成る。それからある入力に関するフレー
ム1を見るが、何も見つからない。それから次に進んで
、ある入力に対してフレーム2を見1、フレームOから
フレーム2までに“boys’があるを見つける。この
初期確率はO.Oであり、終了確率は一〇.04である
。それからその終端記号を前の名詞状態の中でよく調べ
て、” boys“を通り越して点を進める。これは”
boys“を見たという行為を表わし、その状態に終
了フレーム2を付して、状態の最終確率を=0.04に
:J11する。いったんフレームOからフレーム2まで
に完全な名詞を持ったならば、名詞を必要としてOで終
った記号があったか、それを完成することができるかど
うかをチェックする。 そして最初の状態にSで始まるものが11IQあうたこ
とを発見でる。それから新しい状態をつくる。 この状態はnの後に点をつけることにより名詞を見つけ
たことを表わし、その名詞が最終確率と同じ確率−0.
04を持ってフレーム2まで延びていることを表わす。 可能な限りの予測と完成をすませると、■で表わされた
動詞を必要とすることに気づく。e詞の規則は2I!あ
るから、それらを予測する。1似は’ sleep ”
であり、もう11&lは’ leap“である。共にフ
レーム2で始まり、初期確率と最終確率は共に−0.0
4である。 それから構文解析部は入力に関するフレーム=3を見る
。ここでは再び確率−0.03を持つ”boys”が見
つかる。入力”boys”をフレーム0からフレーム3
まで調べて第3図の状態7で示した新しい状態をつくる
。これはフレームOからフレーム3まで確率−0.03
を有する名詞n b o y s #である。それから
前と同様に名詞を必要として3で終った状態があったか
どうかをチェックする。ぞして同じ状態が名詞を必要と
1ることを発見するが、今回は名詞がフレーム3で終了
し、最終確率は−0.03である。2個の名詞仮説(フ
レームOからフレーム2までの゛’boys”と、フレ
ーム0からフレーム3までの’ boys” )は交わ
らない仮説である。なぜならば両者の停止時間が異なる
ので、離れたままだからである。 ここで構文解析部はフレーム3で状態8からはvJ詞が
必要であることに気付ぎ、動詞を予測して状態9と10
とをつくる。これらは共にフレーム3で始まり、フレー
ム3で終る。新しくつくられた状態の一方は終端記号ゝ
’ sleep“を必要とし、もう一方は終端記号゛ゞ
leap”を必要とする。共に同じ初期確率と最終確率
−0.03を有する。データのフレームl=4を見るが
何も見つからないので、フレームi−5を見る。ここで
’ sleep“と1ゝleap″の両者を見つけるが
、+1 sleep 11はフレーム2で始まり、“l
eap’はフレーム3で始まっている。ここで2個の新
しい状態をつくる。状!!11はフレーム2で始まった
“sleep ”に対して初lIWI率−0.04、最
終確率−0.09である。状態12はフレーム3で始ま
った’A l O a p /lに対して初期確率−0
.03、最終確率−0.06である。最終確率は初期確
率にその間始フレームから終了フレームまでに特定の単
語が見つかる確率を加えることにより計粋される。ここ
で構文解析部は2個の完全な動詞記号を有しているので
、フレーム2またはフレーム3のいずれかからスタート
し、動詞を必要とする状態をさがす。そして状態8と状
態4に戻ると共に、相当するSがあることを発見する。 今や構文解析部は状態13の中に開始記号Sに相当する
完全な状態を有し、かつ状態14の中にも開始記号Sに
相当する完全な状態を有する。両者の中間状態は異なっ
ているが、状態13で−0.09の確率を、状態14で
0.06の確率を有するから、最も良い確率である−0
.06を選んで、構文解析状態をさかのぼってゝ’ b
oys lf3al) #を見つける。それから、この
旬は音声入力を音声aXプロセッサが最も良く説明する
bのとして出力されるであろう。所望の確率は最も正で
あるもの、すなわちこの例では最も小さい負数、である
。 第4図は’aorbord“のような結合と分裂の処理
を用いて114則確率を示す典型的な左回帰的規則の例
である。第4図の八の部分に承りように、この例では4
個のl端記号、a,b,dと”or“を有する。入力は
フレームOでスタートし、a or b or dの各
単語毎に1フレームを有し、フレーム5で終ることとす
る。Bの部分に示す木はこの構文解析の所望の結果を表
わしている。この木が示づところによれば、この入力を
認識するために構文解析部は左DI %i的規則を2回
使わなければならず、かつ底で11!lilsがCに行
くという非左回婦的S遺択を行わなければならない。こ
の木はまた規則確率をも示している。この入力を構文解
析づる確率は第4図のCの部分に与えられたすべての規
則確率の積である。第4図のDの部分には、このアルゴ
リズムが入力に関してこれらの規則確率を用いてどのよ
うに解析するかを示す。入力はDの真中の部分(a o
r b or d)に示され、これらが入力された後に
起る種々の状態は左に示されている。チャート解析部は
記号を1目だシノ解析するから、特に左回帰的規則を扱
うことができる.,確率を正確に加算するために非常に
重公なことは、予測機能は規則嫂率を状態の騒終確率に
加えることであり、それを状態の初IIlliif率に
加えるのではないということである。したがって、状態
が使われる度に、前の状態を使って次の状態に規則確率
が加算ざれるであろう。図の最下部では1/3が正しい
回数(3)起り、0.4が2回起り、0.6が1回起き
ている。これらは左回帰的規則と非左回帰的規則が何回
適用されたかを正確に表わしている。 第5図は本発明によるチャート解析の効果をブルーして
示したグラフである。このグラフは時間対仮説の対数確
率を示している。各点は時間tiとtkにおける向じ仮
説記号を表わしている。一番上の線は解釈時の任意の記
号の最良の確率を表わしている。一番下の線は最良の確
率プラスあらかじめ定めたある対数確率、すなわちスレ
ッショルドを表わしている。他のアルゴリズムを用いで
もしも記号の確率が任意の点でスレッシ1ルドを下まわ
れば、それは捨てられる。本発明のチャート解析法を用
いると、所定のフレームで1[j1だけ記号を解析する
。例え何回必要であっても、どんなに確率が悪くともそ
うであるから、プルーニング・スレッショルドを超えて
いる限り、この解析法ではその記弓の最良の確率を使う
。更に、最良の確率記号が完成したとき、この解析法で
はもっと低い確率の記号にそれらの開始状態を付随させ
る。それからそれらの状態を完成して、第5図に交叉線
で示すように、実際にはこの確率の低い方の記号がデー
タを最も良く解釈するものとざれる。 そして他のアルゴリズムなら誤認識したかもしれない場
合でも、ブr1レッサは入力を正確に認識することがで
きるのである。 以上本発明を特定の実施例について説明したが、当業者
なら多くの変形や代替実施例を考えつるであろう。した
がって本発明の範囲には、特許請求の範囲に記載したも
のが含まれる。 以上の説明に関して更に以下の項を開示する。 (1)[1] 複数個の文法レベルから成る所望の音声
を入力するステップと、 ■ 許容できる文構造を規定するために終端記号と非終
端記号とを有する文法を入力するステップと、 ■ 言語学−E1構文法上、あるいは急味土の特徴によ
って文法の終端記号を規定するために、それらを登録し
た辞書を入力するステップと、■ 状態組のマトリック
スを生成するステップと、 ■ 前記状態組を前期化するステップと、■ 前記所望
の音声入力を読みとるステップと、 ■ 文法の各開始記号に対して現行フレームの初期確率
と最終確率を予測するステップと、■ 菌配合声入力と
文法とにしたがって#J記開始記3を構文解析して、前
記予測ステップにおける遅延コミットメント計算に基づ
く前記記号の観測結果をつくるステップと、 ■ 菌記構文解析ステップの観測結果に襲づいて前記音
′声入力を説明するステップと、から或ることを特徴と
する、複数個のll賭を表わす音声入力を認識する方法
。 (2) 第1項記載の方法において、更に、0 ステ
ップ■と■の間に終了フレーム指示子を読みとるステッ
プと、 ■ ステップ■の後に、フレームカウンタを進めるステ
ップと、 を含むことを特徴とする、音声文の認識方法。 (3) 第1項記載の方法において、ステップ■の構
文解析ステップは、 ■ 有効な次の非終端記号を予測し、それによって文法
にしたがって少くとも1個の対応する規則から少くとも
1個の状態をつくりだすステップと、 ■ 記号の説明が可能になったときに、萌記少くとも1
個の状態を完成するステップと、0 各勅記完成した状
態に対する確率得点を生成するステップと、 ■ 新しい状態をもはやつくりだすことができなくなる
まで、ステップOから[相]までを繰り起すステップと
、 [株] もし最下層の文法レベルでなければ、次の下層
の文法レベルの開始記号として、現行文法レベルから終
端記号を構文解析するステップと、 ■ もし最下層の文法レベルであれば、前記音声入力の
特徴と予測した次の辞癩登録の特徴とを比較するステッ
プと、 e 前記次の′FJilの文法レベルから得られた1
!J311結果を前記現行の文法レベルの持も状態の中
で詳しく調べるステップと、 0 これ以上新しい状態を完成することができなくなる
まで、■から■までのステップを繰り返すステップと、 @ 菊記現行レベルの開始記号に相当する完成状態を次
の上層の文法レベルに報告するステップと、 0 音声入力と文法とにしたがって前記開始記号を構文
解析し、前記記号の観測結果をつくるステップと、 0 前記構文解析ステップの結果に基づいて入力を説明
するステップと、 を含むことを特徴とする、音声文を認識つる方法.(4
) 第1項記載の方法において、前記状態組は文法レ
ベルの数に相当する1行と、音声の入力フレーム数に相
当するN列から成ることを特徴とずる、音声文の認識方
法。 (5) 第3項記載の方法において、前記完或状態に
対する前記確率得点は、状態組の中の既に完或した状態
を使って状態組中の状態を完成する確率であることを特
徴とする、音声文の認識方法。 (6) 第3項記載の方法において、進行中の状態の
最終確率に、完成状態の最終確率と初期確率との差を加
えることにより、前記得点が計棹され、進行中の状態は
完成状態が規定する&i号を必要とする状態であること
を特徴とする、音声文の認識方法。 (7) 第3項記載の方法において、完成状態は音声
入力の一区分を完全に説明する状態であることを特徴と
する、音声文の認識方法。 (8) 第3項記載の方法において、史に、■ ステ
ップ■と■との間で終了フレーム指示子を読みとるステ
ツ!と、 [相] ステップ■の後で、フレームカウンタを進める
ステップと、 を含むことを特徴とする、音声文の認識方法。 (9) 第1項記載の方法において、前記文法は確率
論灼−・体化文法であることを特徴とする、音声文の認
識方法。 (10)第1項記載の方法において、前記文法は文脈自
由文法または正規文法であることを特徴とする、音声文
の認識方法。 (11)処理手段と、 前記処理手段と結合して言語モデルの要素によって文を
規定する文法と、 記号によって文法の要素を規定する辞書と、前記文法と
結合して、単語をつなぎ合わせて部分的な文をつくり、
状態の組を生成し、完或状態を決定する構文解析手段と
、 前記文法および前記処理手段と結合して、前記構文解析
手段にまり生或された有効な次のMlkの記号を予測号
る予測手段と、 構文解析手段のつくった結果を説明する完成手段と、 前記処理手段と結合して、前記完成手段によりつくられ
た説明を表現する出力手段と、から成ることを特徴とタ
る、複数個の単語を表わタ音声文の認識システム。 (12)第11項記載のシステムにおいて、更にチャー
トを生成する手段を含み、チャートは前記構文分析手段
と、前記予測手段と前記完成手段とによりアクセスされ
、中間結果を記憶寸るためのものであることを特徴とす
る、音声文の認識シスアム。 (13)第12項記載のシステムにおいて、チ1 一ト
U状態と状態組とを含み、前記状R味前記構文解析手段
と前記予測手段とにより処理されることを特徴とする、
音声文の認識システム。 (14)第11項記載のシステムにおいて、史に、前記
構文分析手段と前記完了手段とに結合して、構文解析手
段から完或手段までの記号を読みとる調査手段を含むこ
とを特徴とする、合声文の認識システム。 (15)第11TI4記載のシステムにおいて、更に、
記シJを供給するための知識ベースを含み、rfX記予
測手段が知識ベースと結合していることを特徴とする、
音声文のi!i!識システム。 (16)第11項記載のシステムにおいて、前記言語モ
デルは確率論的一体化文法を含むことを特徴とする、音
声文の認識シスデム。 (17)第11項記載のシステムにおいて、前記言語モ
デルは文脈自由文法または正規文法を含むことを特徴と
する、音声文の認識システム。 (18)第11項記載のシステムにおいて、前記処理手
段は、音声詔を記録するための入力手段と、音声語を前
記処理手段が読める媒体に変換する音1M@とを含むこ
とを特徴とする、r『声文の認識システム。 (19)第11In記載のシステムにおいて、前記処理
手段は、音声入力を受けて前記入力を前記処理手段が読
める媒体に変換するようになっている変換手段と結合し
ていることを特徴とする、音声文の認識システム。 (20)確率論的一体化文法を用いて規則確率と観測I
l確率を具体化するチャート構文解析法が聞示される。 この構文分析法ではフレームを向m処理して下降形仮説
をたて、それらが利川可能になったとき観測確率を具体
化する。古語モデルはフレーム(仁1、tJ1tk)i
llの音声データに関して複数の説明を行うので、規則
の予測と組合せにより、最良の得点を表ねづグラフに周
期がつくられる。得点の31粋にはこれらの周期の検出
と、最良の得点が次のフレーム(t i,tj.tk)
へ伝達されたことの検出とが含まれる。このアルゴリズ
ムは非蓋然性チャート構文解析方がつくる以外の状態を
つくらないから、正規文法に対しては線型で、C F
G ,の最悪の場合は3乗のままである。 この構文解析法では統引的な音声情報と9n学的拘束を
同じ否語モデルの中に直接的に統合することができる。 −・方、言語モデルはH M M一型モデルの一般化を
可能にする。この構文解析法の効果はそれを話しことば
系の複数のレベル(たとえば、文、It!語、フォー−
ムおよび単音レベル〉に適用可能にしたことである。
ることにより記述される。具体的に言うと、「確率論的
一休化文法1は四つ組、G,=(N,r、Ps,S)で
ある。ここでNと「は有限であって、非終端記月と終端
記号の組である。SCNは開始記号の組である。P,は
確率論的積の有限な組であり、各々はA,D→αの形を
とる。ここでAεN1βc(Nu−r).★であり、p
は規も1を適用する確率である。左側のAと共にps!
P−おけるk個の確率論的積サベ1の確率の組を {DI A,Pi−◆βi,i−1、・・・ k}と
する。それからO<})i ≦1、かつΣ” p
=iである。非終端記号と終端記号は1−1 特徴・億の対“Cある。 次に、「特徴組」を形式F:vの「特徴・埴対」の組と
して定filる。ここでfば定数(Oに関する関数また
は原子記号)であり、■は定数、変数あるいは特徴組の
いずれかである。特徴組はx十「Sという表記を用いた
変数で索引を付けることができる。ここでXは変数であ
り、Fsは特徴組である。変数はjjlじ特徴組の発生
を示すために、他の場所で使うことができる。 本発明の好ましい実施例を示す。 入力 文法のベクトル、G,G 、・・・、G tt .O 終りのフレーム、n. 出力 l行n列の状態組Eのマトリックス GoのSに対づる最良の得点 方法 1.i−Q、1−0.σo=0.0 <対数確率)とす
る。 すべてのlに対しE を空にする。 ll0 2.各SεSに対して、 [1・一 S・一 − − − o oσ
.σ ] を予測する。 3、もしi=nかっ[o,p,s,α j,ε,1.σ
,σ]εεl.。 0 ここでSεSならば、Eとσに戻る。 4.(i,E.j!)を構文解析する。 5、(3)に行く。 構文解析 入力 状態組Fのマトリックス、レベルl1フレームインデッ
クスi. 出力 Eの特別な状態組、E1,I+1, 方法 1.新しい状態を加えることができなくなる迄、次の2
ステップを繰り返す。 (a)予測寸る (b)完成する 2,仮説を設ける 3.詳細に調べる 4.i=i+1とする 5.新しい状態を加えることができなくなる迄、次の2
ステップをくり2返す。 (a)予al1る (b)完成する このアルゴリズムの実行に際して、プロセッサは文法レ
ベルの数を表わす文法のべクトノレを読む。 第2図に文法レベルの例を,示す。最も高いレベノレは
文文法レベル0である。そのトに単語文法レベル1があ
り、その下にフオニーム文法レベル2がある。その下の
レベルは単音文法レベル3である。 レベルが下がるにしたがって、各レベルは入力されたデ
ータのうち次第に狭い部分を含むようになり、やがて最
下層レベル、すなわち基準文法レベルlに達する。 基準フレームは音声開発者により設定される基本的な時
間単位である。例えば、基本となる時1mlN1MLは
20ミリ秒である。このことは20秒毎にプロセッサが
音声信号の持つ各種特性のうt5艮さ18くらいの}j
1動小数点特性を持つベクトルでa声データを特徴づけ
て、これらの特性を1!語にit応する1llJ持デー
タまたは記号に合わせることを意味する。 アルゴリズムの説明に戻る。プロセッサが入力し終えな
いうちに、状態組Eのマトリックスの出力を生或する。 このマトリックスはレベル数に対応つるl行と、音声の
入力フレーム数に対応するN列から或る。更に、プロセ
ッサは文法レベルO(第2図)において最も良く文を説
明する得点を出力づる。文法レベルOは文文法レベルで
ある。 好ましい実施例では、文法のベクトルを読んだ後、プロ
ヒッサは最終フレーム指示子nを入力づる。このことは
必要ではないけれども、こうすることによりアルゴリズ
ムがより完璧になる。また、他の手段により終了時点を
プロセッサに知らせることもできる。 この時点で、ブ[1セッサはすべての状態組を前期化し
て第1フレームのすべてのレベルで空にし、初期確率を
0.0(対数確率〉に設定する。プ口セッサはレベルを
0に設定し(文文法レベルでスタートづる)、フレーム
をOに設定1る。これで前期化は完了する。各文法の開
始記号に対して、プロセッサは現行フレームの初期確率
と最終確率を0,Oと予測する。 この時点で1ロセッナが入力終了に至るということ番よ
、プロセッサがアルゴリズムを初めて実行するときには
ありそうもないことであるが、もしそうなったならば、
そしてもしブロヒッザが完成1ノだ開始記号に対応する
状態を見つけたならば、プロセッVは組入力全体を説明
して、その状態ど得点とを出力することができる。それ
から、開始フレームと、状態組と、レベルとが与えられ
れば、プロセッサは構文解析にかかる。 構文解析アルゴリズムでは、プL]セッナは状態組と、
レベルlと、インデックスフレームlとを入力し、次の
入力フレーム要求i+1のための特別状態を出力する。 この◆ナイクルは、新しいチ測状態と完成状態とが加え
られなくなるまで繰り返される。このサイクルにより次
の低い文法レベルで仮定されるいくつかの終端記号がつ
くられる。 ブロセッナは次の下層の文法レベルにおける開始記号と
して、このレベルから終端3a号を仮定する。 プロセッサは観測結果の組に戻り、それを待ち状態で詳
細に調べる。好ましい実施例では、完成した状態が次の
フレームではそうするから、それからフレームカウンタ
を進める。しかし、フレームカウンタを進めるのは、フ
レームをどのように追跡したいか次第で、アルゴリズム
を実行中の他の時間に行ってもよい。この時点では、状
態は完或しているか、または観測粘果として状態が次の
上の文法レベルに報告されるか、いずれかである。 状態は依然として進行中であって《完或してない)、次
のサイクルの間に始理するための未決リストに載ってい
るかもしれない。 再び第2図に戻る。ブ[1I?ツサは入力された文法を
見て、文に相当する記号、例えばSがあることを知る。 プロセッナは構文解析機能を進めて、予測と完戒とを行
い、文文法レベルで終端記月であるいくつかの単語を必
要とすることを発見する。 それからプOセッ1ノはその単語の組を用いて仮説を呼
び出す。そのIIRはこの場合次の低いレベル一レベル
1に13 GJる開始記号でもある。それからプロセッ
サはフォニームから成る単語に対する文法規則を予測し
て完成させ、終端記号であるフォニームの組を見つける
と、文法レベル2でそれを呼び出1.それは開始記号と
してフォニーム記号を有する。このことは隠れたマルコ
ノモデル( 1−I M M )文法を持つレベルまで
続く。H M M文法は終端記号として基準ベクトルに
相当する基準ベクトル記号を有する。それからプロセッ
サはこれらの基準ベクトルを計算して、そのフレームに
対する確率を得、これらを11A?l!l結果として次
の高いレベルに戻す。これらの観測結果U次の高いレベ
ルで詳細に調べられる。次の繰り返しを通じて、プロセ
ッサは進められたこれらの状態を予測して完成させる。 このことはづべての入カが文文法レベルOに進み、何倍
かのフレームにわたってSを進めて、寸べての入力デー
タを包含する迄続く。 この時点で、プロセッサは構文解析を完了して、音声入
力の仮説を出力する。 本発明の好ましい実施例では、構文解析と計算の他に4
M4の基本的な機能がある。そのうちの3個は加算と呼
ばれる他の機能を使う。以下これらの各機能を説明する
。[f,p,A,α.j,β.i.σ .σ]という形
式のチャート状態を想定O する。ここでfば開始フレームであり、pは生成数であ
り、Aは虜則の左手側( L H S ”)であ・り、
αは完成した一連の記号であり、jはαの長さであり、
βは右手側(R}−18)記号の剰余であり、iはこの
状態の終了フレームであり、σ0は初期確率であり、σ
は累積確率である。更に、すべての記号はもし他に指示
してなければレベル1にあると仮定する。 pretitct for all [f,p,A,α.j.B αsitσ .σ]10 and rules o’:B.η→γ 2 and unHy( B , B . B3 )12 add ti.p’.B2.εsowγ=ieσ.σ+η]一休
化文法を用いて記号を予測するには、プロセッサは記号
B1を捜している状態を少なくとも1111a有し、規
則p′で始まるかまたはその左手側に記号B を有す
る。ここで81と82は−・体と2 なって、新しく統一された記号B3となる。もしB と
B2が文脈自由文法用の原子記号であるな1 らば、不履行により一休化される。次に、記号の組が考
慮中の状態の組に加えられる。新しい状態が入力状態の
終了状態のときに始まる。このときフレームはiであり
、規Oll Tt 弓はp′であり、左手側に記号B3
を有づる。記号の数はOとして処理され、規則の右手側
に右手側に相当する空の記号列が処理される。このこと
はプロセッサが83を見たということを示すために、調
べる必要があることである。εは一連の終端tt!号と
非終端記号であり、Oまたはそれ以上である。この場合
、終了フレームもまた現行フレームである。なぜならば
プロセッサは何も処理してないからである。初期確率は
最終確率プラス記号82の規則確率である。このことは
特に左回帰的規則にとつ(@欝なことである。最終確率
から初則確率を引くとηになる。 COlpletf3 for all [k.o’.B.γIJ”Iilσ0.σ】1 and rules [f.D.A.α.j.8 βIklρ .ρ]20 and unify(B . B2 . B3 )1 add 記月を完威させるには、ある時間kに始まってあるBi
V間iに終る状態がある。その状態は最終確率がσで初
期確率がσ。である記号■を含む。それから各状1l!
毎に記号B2を捜し、それが記号B1と一体となって記
@B3をつくると、プL+ t7ツナは新しい状態をつ
くりだす。新しい状態はB3を調べ終っており、完成し
た状態と同じ規則il号を持ち、完成した状態と同じ間
始時間、すなわちfを持っている。完成した記号の数は
j+1に増える。終rフレームは現行ノレーム1であり
、初1111f率は完成した状態の初期確率ρ0であり
、最終確率は調べた記号B3の最終確率であり、各状態
毎の最終確率から初期確率を引いたσ−σ0で表わされ
る。 hypothestze for all If,D.A,α=,bβejeρ0.ρ]and terminal ( b . 11 ) , com
pute(ρ. D’ )predict at
1 −ト 1[i,b,,,,,ρ′.ρ゛
] finally, call l)arsQ at jl + 1仮説を設
&Jるために、ブOセッサは所定の状態もしくは状B組
を進めるのに必要な状態から、終端記号bを取る。所定
のレベルlにある寸べ゛(の終端ゝ% b IIに対し
て、プロセッサは状態の最終確率ρに基づいて新しい確
率ρ′を計算する。これは遅延コミットメント・アルゴ
リズムの一部である。プロセッサは終端記号の段階にい
るから、このアルゴリズムを実行することができる。な
ぜならば、すべての状態が予測されつくして完成してい
るので、これ以上の状態を予測もしくは完或づるために
利用できる情報がないからである。プロセッサは次の下
のレベルであるレベルl+1で予測するであろう。この
ことは初tIII確率と最終確率ρ′を川いて現行フレ
ームにおける記号bによりボされる。それからプロセッ
サは底部に達するまで順番に下のレベルに打って、可能
な限り多くの状態を進め、それから構文解析に戻る。こ
のことは仮説と構文解析間の相万回帰的関係を示すもの
である。 scan m a k e EJ , i , 1empty for all [f. p, A,α.j,b1β,k.ρ0,ρ]f
or all observations at 1
+1and unNy(b , b . b3 )r
a add 詳細な調査は本質的に完成と向じである。唯一の違いは
「完成」が非終端記号を扱うのに対して、「訂細なm査
」は終端記号を扱う点である.,最初にプロセッサqレ
ベルl1フレームi←1にある状態組を空にづる。次の
低いレベルにおける観測結果がある。あるレベルでは例
えば左手側に記号b1を有し、その終端記号を必要とす
る。この状態におけるある状態のある記号b2とその記
弓b1とがー・体化される。こうしたすべての観測結果
に対して、7Oセッナは一休化された記号b3を、この
状態における完成された記号リストにのせる。プOセッ
ナはこのことを完成しつつある状態の初期フレームで行
うことにより、状態を進める。その確率はρであり、こ
れはその状態の最終確率+完成した状態の最終確率一完
或した状態の初期確率である。 add given [f,p,A .α ,j,β .i,σ .σ]
1 1 1 0if t
here extsts [f,El.A ,α +−i+ β ,i,ρ
.ρ]2 a 2 0and subsugies (A1 . A2 >r
eplace ,o with wax(,o , a ) ,
symbolicallyotherwise append the oiven state to
E 1 , H加算するには、状態組の中に現行の状
態と異なる状慝が与えられなければならない。更に、新
しい左手側記号A1が現存する記号A2を包含すると仮
定する。これはプロセッサが最初の仮説よりも一般的な
仮説を持つことを意味する。プロセッサは状態組におけ
る現存状態の存在確率をρの最大値と記号的に置き換え
て、σを所定の状態の最終確率として設定する。このこ
とはρまたはσを評価ずるものではなく、現存状態組に
終了を記すことによって、ブ0セッナが後で確率を調べ
て最大値を見つけることができるまで加え続けたことを
記録しておくものである。さもなくば、プ[It?ツサ
はフレームiのレベルlにある状態に所定の状態を付す
にとどめるであろう。なぜならば、他に包含する状態が
ないからである。 アルゴリズムを効率的に実行するには、アーリ(Ear
lQV)の著述したものを利川しなければならない。披
は次のように述べている。ブロヒッサが予測スデップに
あるとき、各非終端記号に対する選択用の連結リストを
保有つれば、容易にそれらを見つけることができる。状
態組中の状態も連結リストに保存されていたら、それら
を順番に処理づることができる。状態が既に加えられた
否かを容易に判断できるように状態組の中の状態に指標
を付しておけば、プロセッサは同じことを二度はやらな
い。その記号は既に調べられたというしるしをつけるこ
とにより、無効な、すなわち空の結果を処理する。プロ
セッサが完全な記号を有するときそれらを効率的に見つ
(ノるこができるように、必要とする記号にしたがって
すべての状態を系統的に編制しておく。と、以上のよう
に記載されている。更に、プ口グラムの本来の仕事は計
′n機能である。終端記号の確率を克つ1ノるとき、計
算ステップ以前に、サイクルを攬留めて所定の状態の確
率を効率的に見つけるようにする。 第3図に確率を用いてフレーム同期構文解析を行う例を
示す。Aの印を付けた部分では1個の規則から成る簡単
な文法が与えられている。すなわち文は名詞と動詞に書
き直す。1個の名詞” boys’ (少年)と、2個
の動1 ’ sleep“(眠る)と″leap’ (
はねる)とが与えられている。 第3図の8の印を付けた部分はi語格子を表わしている
。これは(この例では)システムの入力であり、各単語
仮説の始めのフレームと終りのフレームとを示している
。格子は複数行から成り、各行は特定のデータ範囲中に
特定の単語を見つける対数確率を示しており、その確率
は負で与える。 B部の単語格子によれば、フレーム0からフレーム2の
間に゛ゝboys″を見つける確率は−0.04であり
、フレームOからフレーム3までに″’boys”を見
つける確率は−0.03であり、フレーム2からフレー
ム5までに゛’SIeeE)”を見つける確率は−0.
05であり、フレーム3からフレーム5までに’ le
ap“を見つける確率は−0.03である。 次に、第3図でCの印を付けた部分を説明する。 ノレームi−Qで予測が行われて、「文U名詞と動詞に
寵き直す」という規則に基づいて状態が確立され、時l
i10で開始される。このことはSの前の添字Oと矢印
の後の添字0で表わされている。 その上の点は規則中の場所を表わす。すなわち規則中の
どこまで進んだかを表わすものであり、この時点では何
もない。規則の後についている数字はそれぞれ初期確率
と最終確率を対数確率で表わしている。フレームi−0
では、構文解析はまだ同じ状態にあって何もしてないか
ら、確率はゼロである。開始記号Sを予測したため最初
の状態が生じた。フレームOには規則Sに相当する状態
があって、構文解析に上り’boys”という名詞に書
直すという名詞に関する規則が予測された。これは前の
状noと向じti始@間と終了時間を有し、前の状態と
同じ初期確率と最終確率0.0を有する。初期確率はこ
の仮説を開始するのに必要な確率を表わし、最終確率は
仮説を調べつくしたときの確率を表わ1。 構文解析によってできるだけ多く予測がなされて完成し
たとき、これ以上進む前に調べることが必要な1組の終
端記号を有している。この組は’ boys“という1
Ilの要素から成る。それからある入力に関するフレー
ム1を見るが、何も見つからない。それから次に進んで
、ある入力に対してフレーム2を見1、フレームOから
フレーム2までに“boys’があるを見つける。この
初期確率はO.Oであり、終了確率は一〇.04である
。それからその終端記号を前の名詞状態の中でよく調べ
て、” boys“を通り越して点を進める。これは”
boys“を見たという行為を表わし、その状態に終
了フレーム2を付して、状態の最終確率を=0.04に
:J11する。いったんフレームOからフレーム2まで
に完全な名詞を持ったならば、名詞を必要としてOで終
った記号があったか、それを完成することができるかど
うかをチェックする。 そして最初の状態にSで始まるものが11IQあうたこ
とを発見でる。それから新しい状態をつくる。 この状態はnの後に点をつけることにより名詞を見つけ
たことを表わし、その名詞が最終確率と同じ確率−0.
04を持ってフレーム2まで延びていることを表わす。 可能な限りの予測と完成をすませると、■で表わされた
動詞を必要とすることに気づく。e詞の規則は2I!あ
るから、それらを予測する。1似は’ sleep ”
であり、もう11&lは’ leap“である。共にフ
レーム2で始まり、初期確率と最終確率は共に−0.0
4である。 それから構文解析部は入力に関するフレーム=3を見る
。ここでは再び確率−0.03を持つ”boys”が見
つかる。入力”boys”をフレーム0からフレーム3
まで調べて第3図の状態7で示した新しい状態をつくる
。これはフレームOからフレーム3まで確率−0.03
を有する名詞n b o y s #である。それから
前と同様に名詞を必要として3で終った状態があったか
どうかをチェックする。ぞして同じ状態が名詞を必要と
1ることを発見するが、今回は名詞がフレーム3で終了
し、最終確率は−0.03である。2個の名詞仮説(フ
レームOからフレーム2までの゛’boys”と、フレ
ーム0からフレーム3までの’ boys” )は交わ
らない仮説である。なぜならば両者の停止時間が異なる
ので、離れたままだからである。 ここで構文解析部はフレーム3で状態8からはvJ詞が
必要であることに気付ぎ、動詞を予測して状態9と10
とをつくる。これらは共にフレーム3で始まり、フレー
ム3で終る。新しくつくられた状態の一方は終端記号ゝ
’ sleep“を必要とし、もう一方は終端記号゛ゞ
leap”を必要とする。共に同じ初期確率と最終確率
−0.03を有する。データのフレームl=4を見るが
何も見つからないので、フレームi−5を見る。ここで
’ sleep“と1ゝleap″の両者を見つけるが
、+1 sleep 11はフレーム2で始まり、“l
eap’はフレーム3で始まっている。ここで2個の新
しい状態をつくる。状!!11はフレーム2で始まった
“sleep ”に対して初lIWI率−0.04、最
終確率−0.09である。状態12はフレーム3で始ま
った’A l O a p /lに対して初期確率−0
.03、最終確率−0.06である。最終確率は初期確
率にその間始フレームから終了フレームまでに特定の単
語が見つかる確率を加えることにより計粋される。ここ
で構文解析部は2個の完全な動詞記号を有しているので
、フレーム2またはフレーム3のいずれかからスタート
し、動詞を必要とする状態をさがす。そして状態8と状
態4に戻ると共に、相当するSがあることを発見する。 今や構文解析部は状態13の中に開始記号Sに相当する
完全な状態を有し、かつ状態14の中にも開始記号Sに
相当する完全な状態を有する。両者の中間状態は異なっ
ているが、状態13で−0.09の確率を、状態14で
0.06の確率を有するから、最も良い確率である−0
.06を選んで、構文解析状態をさかのぼってゝ’ b
oys lf3al) #を見つける。それから、この
旬は音声入力を音声aXプロセッサが最も良く説明する
bのとして出力されるであろう。所望の確率は最も正で
あるもの、すなわちこの例では最も小さい負数、である
。 第4図は’aorbord“のような結合と分裂の処理
を用いて114則確率を示す典型的な左回帰的規則の例
である。第4図の八の部分に承りように、この例では4
個のl端記号、a,b,dと”or“を有する。入力は
フレームOでスタートし、a or b or dの各
単語毎に1フレームを有し、フレーム5で終ることとす
る。Bの部分に示す木はこの構文解析の所望の結果を表
わしている。この木が示づところによれば、この入力を
認識するために構文解析部は左DI %i的規則を2回
使わなければならず、かつ底で11!lilsがCに行
くという非左回婦的S遺択を行わなければならない。こ
の木はまた規則確率をも示している。この入力を構文解
析づる確率は第4図のCの部分に与えられたすべての規
則確率の積である。第4図のDの部分には、このアルゴ
リズムが入力に関してこれらの規則確率を用いてどのよ
うに解析するかを示す。入力はDの真中の部分(a o
r b or d)に示され、これらが入力された後に
起る種々の状態は左に示されている。チャート解析部は
記号を1目だシノ解析するから、特に左回帰的規則を扱
うことができる.,確率を正確に加算するために非常に
重公なことは、予測機能は規則嫂率を状態の騒終確率に
加えることであり、それを状態の初IIlliif率に
加えるのではないということである。したがって、状態
が使われる度に、前の状態を使って次の状態に規則確率
が加算ざれるであろう。図の最下部では1/3が正しい
回数(3)起り、0.4が2回起り、0.6が1回起き
ている。これらは左回帰的規則と非左回帰的規則が何回
適用されたかを正確に表わしている。 第5図は本発明によるチャート解析の効果をブルーして
示したグラフである。このグラフは時間対仮説の対数確
率を示している。各点は時間tiとtkにおける向じ仮
説記号を表わしている。一番上の線は解釈時の任意の記
号の最良の確率を表わしている。一番下の線は最良の確
率プラスあらかじめ定めたある対数確率、すなわちスレ
ッショルドを表わしている。他のアルゴリズムを用いで
もしも記号の確率が任意の点でスレッシ1ルドを下まわ
れば、それは捨てられる。本発明のチャート解析法を用
いると、所定のフレームで1[j1だけ記号を解析する
。例え何回必要であっても、どんなに確率が悪くともそ
うであるから、プルーニング・スレッショルドを超えて
いる限り、この解析法ではその記弓の最良の確率を使う
。更に、最良の確率記号が完成したとき、この解析法で
はもっと低い確率の記号にそれらの開始状態を付随させ
る。それからそれらの状態を完成して、第5図に交叉線
で示すように、実際にはこの確率の低い方の記号がデー
タを最も良く解釈するものとざれる。 そして他のアルゴリズムなら誤認識したかもしれない場
合でも、ブr1レッサは入力を正確に認識することがで
きるのである。 以上本発明を特定の実施例について説明したが、当業者
なら多くの変形や代替実施例を考えつるであろう。した
がって本発明の範囲には、特許請求の範囲に記載したも
のが含まれる。 以上の説明に関して更に以下の項を開示する。 (1)[1] 複数個の文法レベルから成る所望の音声
を入力するステップと、 ■ 許容できる文構造を規定するために終端記号と非終
端記号とを有する文法を入力するステップと、 ■ 言語学−E1構文法上、あるいは急味土の特徴によ
って文法の終端記号を規定するために、それらを登録し
た辞書を入力するステップと、■ 状態組のマトリック
スを生成するステップと、 ■ 前記状態組を前期化するステップと、■ 前記所望
の音声入力を読みとるステップと、 ■ 文法の各開始記号に対して現行フレームの初期確率
と最終確率を予測するステップと、■ 菌配合声入力と
文法とにしたがって#J記開始記3を構文解析して、前
記予測ステップにおける遅延コミットメント計算に基づ
く前記記号の観測結果をつくるステップと、 ■ 菌記構文解析ステップの観測結果に襲づいて前記音
′声入力を説明するステップと、から或ることを特徴と
する、複数個のll賭を表わす音声入力を認識する方法
。 (2) 第1項記載の方法において、更に、0 ステ
ップ■と■の間に終了フレーム指示子を読みとるステッ
プと、 ■ ステップ■の後に、フレームカウンタを進めるステ
ップと、 を含むことを特徴とする、音声文の認識方法。 (3) 第1項記載の方法において、ステップ■の構
文解析ステップは、 ■ 有効な次の非終端記号を予測し、それによって文法
にしたがって少くとも1個の対応する規則から少くとも
1個の状態をつくりだすステップと、 ■ 記号の説明が可能になったときに、萌記少くとも1
個の状態を完成するステップと、0 各勅記完成した状
態に対する確率得点を生成するステップと、 ■ 新しい状態をもはやつくりだすことができなくなる
まで、ステップOから[相]までを繰り起すステップと
、 [株] もし最下層の文法レベルでなければ、次の下層
の文法レベルの開始記号として、現行文法レベルから終
端記号を構文解析するステップと、 ■ もし最下層の文法レベルであれば、前記音声入力の
特徴と予測した次の辞癩登録の特徴とを比較するステッ
プと、 e 前記次の′FJilの文法レベルから得られた1
!J311結果を前記現行の文法レベルの持も状態の中
で詳しく調べるステップと、 0 これ以上新しい状態を完成することができなくなる
まで、■から■までのステップを繰り返すステップと、 @ 菊記現行レベルの開始記号に相当する完成状態を次
の上層の文法レベルに報告するステップと、 0 音声入力と文法とにしたがって前記開始記号を構文
解析し、前記記号の観測結果をつくるステップと、 0 前記構文解析ステップの結果に基づいて入力を説明
するステップと、 を含むことを特徴とする、音声文を認識つる方法.(4
) 第1項記載の方法において、前記状態組は文法レ
ベルの数に相当する1行と、音声の入力フレーム数に相
当するN列から成ることを特徴とずる、音声文の認識方
法。 (5) 第3項記載の方法において、前記完或状態に
対する前記確率得点は、状態組の中の既に完或した状態
を使って状態組中の状態を完成する確率であることを特
徴とする、音声文の認識方法。 (6) 第3項記載の方法において、進行中の状態の
最終確率に、完成状態の最終確率と初期確率との差を加
えることにより、前記得点が計棹され、進行中の状態は
完成状態が規定する&i号を必要とする状態であること
を特徴とする、音声文の認識方法。 (7) 第3項記載の方法において、完成状態は音声
入力の一区分を完全に説明する状態であることを特徴と
する、音声文の認識方法。 (8) 第3項記載の方法において、史に、■ ステ
ップ■と■との間で終了フレーム指示子を読みとるステ
ツ!と、 [相] ステップ■の後で、フレームカウンタを進める
ステップと、 を含むことを特徴とする、音声文の認識方法。 (9) 第1項記載の方法において、前記文法は確率
論灼−・体化文法であることを特徴とする、音声文の認
識方法。 (10)第1項記載の方法において、前記文法は文脈自
由文法または正規文法であることを特徴とする、音声文
の認識方法。 (11)処理手段と、 前記処理手段と結合して言語モデルの要素によって文を
規定する文法と、 記号によって文法の要素を規定する辞書と、前記文法と
結合して、単語をつなぎ合わせて部分的な文をつくり、
状態の組を生成し、完或状態を決定する構文解析手段と
、 前記文法および前記処理手段と結合して、前記構文解析
手段にまり生或された有効な次のMlkの記号を予測号
る予測手段と、 構文解析手段のつくった結果を説明する完成手段と、 前記処理手段と結合して、前記完成手段によりつくられ
た説明を表現する出力手段と、から成ることを特徴とタ
る、複数個の単語を表わタ音声文の認識システム。 (12)第11項記載のシステムにおいて、更にチャー
トを生成する手段を含み、チャートは前記構文分析手段
と、前記予測手段と前記完成手段とによりアクセスされ
、中間結果を記憶寸るためのものであることを特徴とす
る、音声文の認識シスアム。 (13)第12項記載のシステムにおいて、チ1 一ト
U状態と状態組とを含み、前記状R味前記構文解析手段
と前記予測手段とにより処理されることを特徴とする、
音声文の認識システム。 (14)第11項記載のシステムにおいて、史に、前記
構文分析手段と前記完了手段とに結合して、構文解析手
段から完或手段までの記号を読みとる調査手段を含むこ
とを特徴とする、合声文の認識システム。 (15)第11TI4記載のシステムにおいて、更に、
記シJを供給するための知識ベースを含み、rfX記予
測手段が知識ベースと結合していることを特徴とする、
音声文のi!i!識システム。 (16)第11項記載のシステムにおいて、前記言語モ
デルは確率論的一体化文法を含むことを特徴とする、音
声文の認識シスデム。 (17)第11項記載のシステムにおいて、前記言語モ
デルは文脈自由文法または正規文法を含むことを特徴と
する、音声文の認識システム。 (18)第11項記載のシステムにおいて、前記処理手
段は、音声詔を記録するための入力手段と、音声語を前
記処理手段が読める媒体に変換する音1M@とを含むこ
とを特徴とする、r『声文の認識システム。 (19)第11In記載のシステムにおいて、前記処理
手段は、音声入力を受けて前記入力を前記処理手段が読
める媒体に変換するようになっている変換手段と結合し
ていることを特徴とする、音声文の認識システム。 (20)確率論的一体化文法を用いて規則確率と観測I
l確率を具体化するチャート構文解析法が聞示される。 この構文分析法ではフレームを向m処理して下降形仮説
をたて、それらが利川可能になったとき観測確率を具体
化する。古語モデルはフレーム(仁1、tJ1tk)i
llの音声データに関して複数の説明を行うので、規則
の予測と組合せにより、最良の得点を表ねづグラフに周
期がつくられる。得点の31粋にはこれらの周期の検出
と、最良の得点が次のフレーム(t i,tj.tk)
へ伝達されたことの検出とが含まれる。このアルゴリズ
ムは非蓋然性チャート構文解析方がつくる以外の状態を
つくらないから、正規文法に対しては線型で、C F
G ,の最悪の場合は3乗のままである。 この構文解析法では統引的な音声情報と9n学的拘束を
同じ否語モデルの中に直接的に統合することができる。 −・方、言語モデルはH M M一型モデルの一般化を
可能にする。この構文解析法の効果はそれを話しことば
系の複数のレベル(たとえば、文、It!語、フォー−
ムおよび単音レベル〉に適用可能にしたことである。
第1vAは本発明を採用する音声認識プロセッサを示す
ブロック図である。第2lX!は本発明により使用する
ことが可能な文法レベル構造と位費とを示すスタック図
である。第3図は本発明により採用される確率を用いた
フレーム周期構文解析法を示す例の図面である。第4図
は本発明により正確に計算される規則確率を示す代表的
な左回帰的規則を表わす例を示す図である。第5図は本
発明により採用されるブルーニング時のチャート構文解
析法の効果を示すグラフ図である。 図面の浄書(内容に変更なし)
ブロック図である。第2lX!は本発明により使用する
ことが可能な文法レベル構造と位費とを示すスタック図
である。第3図は本発明により採用される確率を用いた
フレーム周期構文解析法を示す例の図面である。第4図
は本発明により正確に計算される規則確率を示す代表的
な左回帰的規則を表わす例を示す図である。第5図は本
発明により採用されるブルーニング時のチャート構文解
析法の効果を示すグラフ図である。 図面の浄書(内容に変更なし)
Claims (2)
- (1)[1]複数個の文法レベルから成る所望の音声を
入力するステップと、 [2]許容できる文構造を規定するために、終端記号と
非終端記号とを有する文法を入力するステップと、 [3]言語学上、構文法上、あるいは意味上の特徴によ
って文法の終端記号を規定するために、それらを登録し
た辞書を入力するステップと、[4]状態組のマトリッ
クスを生成するステップと、 [5]前記状態組を前期化するステップと、[6]前記
所望の音声入力を読みとるステップと、 [7]文法の各開始記号に対して現行フレームの初期確
率と最終確率を予測するステップと、[8]前記音声入
力と文法とにしたがって前記開始記号を構文解析して、
前記予測ステップにおける遅延コミットメント計算に基
づく前記記号の観測結果をつくるステップと、 [9]前記構文解析ステップの観測結果に基づいて前記
音声入力を説明するステップと、 から成ることを特徴とする、複数個の単語を表わす音声
入力を認識する方法。 - (2)処理手段と、 前記処理手段と結合して言語モデルの要素によって文を
規定する文法と、 記号によつて文法の要素を規定する辞書と、前記文法と
結合して、単語をつなぎ合わせて部分的な文をつくり、
状態の組を生成し、完成状態を決定する構文解析手段と
、 前記文法および前記処理手段と結合して、前記構文解析
手段により生成された有効な次の要素の記号を予測する
予測手段と、 構文解析手段のつくった結果を説明する完成手段と、 前記処理手段と結合して、前記完成手段によりつくられ
た説明を表現する出力手段と、 から成ることを特徴とする、複数個の単語を表わす音声
文の認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/312,835 US4984178A (en) | 1989-02-21 | 1989-02-21 | Chart parser for stochastic unification grammar |
US312835 | 1989-02-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0320800A true JPH0320800A (ja) | 1991-01-29 |
Family
ID=23213226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2040889A Pending JPH0320800A (ja) | 1989-02-21 | 1990-02-21 | 音声認識方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4984178A (ja) |
EP (1) | EP0384584B1 (ja) |
JP (1) | JPH0320800A (ja) |
DE (1) | DE69009522T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05289692A (ja) * | 1992-02-10 | 1993-11-05 | Internatl Business Mach Corp <Ibm> | ワードを予測する会話認識装置用言語生成装置及び方法 |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5222187A (en) * | 1989-12-29 | 1993-06-22 | Texas Instruments Incorporated | Grammar-based checksum constraints for high performance speech recognition circuit |
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
JPH04182000A (ja) * | 1990-11-16 | 1992-06-29 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 連続音声認識装置 |
US5365430A (en) * | 1991-06-25 | 1994-11-15 | At&T Bell Laboratories | Method for parsing images |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
WO1993018506A1 (en) * | 1992-03-06 | 1993-09-16 | Dragon Systems, Inc. | Speech recognition system for languages with compound words |
US5537586A (en) * | 1992-04-30 | 1996-07-16 | Individual, Inc. | Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures |
GB9217886D0 (en) * | 1992-08-21 | 1992-10-07 | Canon Res Ct Europe Ltd | Method and apparatus for parsing natural language |
US5528491A (en) * | 1992-08-31 | 1996-06-18 | Language Engineering Corporation | Apparatus and method for automated natural language translation |
US6278967B1 (en) | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
US6760695B1 (en) | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
JPH0756957A (ja) * | 1993-08-03 | 1995-03-03 | Xerox Corp | ユーザへの情報提供方法 |
JPH07210190A (ja) * | 1993-12-30 | 1995-08-11 | Internatl Business Mach Corp <Ibm> | 音声認識方法及びシステム |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
US5642519A (en) * | 1994-04-29 | 1997-06-24 | Sun Microsystems, Inc. | Speech interpreter with a unified grammer compiler |
JPH0869470A (ja) * | 1994-06-21 | 1996-03-12 | Canon Inc | 自然言語処理装置及びその方法 |
US5819221A (en) * | 1994-08-31 | 1998-10-06 | Texas Instruments Incorporated | Speech recognition using clustered between word and/or phrase coarticulation |
US5826241A (en) | 1994-09-16 | 1998-10-20 | First Virtual Holdings Incorporated | Computerized system for making payments and authenticating transactions over the internet |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US6470306B1 (en) | 1996-04-23 | 2002-10-22 | Logovista Corporation | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens |
US5878385A (en) * | 1996-09-16 | 1999-03-02 | Ergo Linguistic Technologies | Method and apparatus for universal parsing of language |
US5991712A (en) * | 1996-12-05 | 1999-11-23 | Sun Microsystems, Inc. | Method, apparatus, and product for automatic generation of lexical features for speech recognition systems |
US6415319B1 (en) | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6138098A (en) * | 1997-06-30 | 2000-10-24 | Lernout & Hauspie Speech Products N.V. | Command parsing and rewrite system |
US6128596A (en) * | 1998-04-03 | 2000-10-03 | Motorola, Inc. | Method, device and system for generalized bidirectional island-driven chart parsing |
US6282507B1 (en) | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
US6266642B1 (en) | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6442524B1 (en) | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6278968B1 (en) | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
US6449589B1 (en) * | 1999-11-16 | 2002-09-10 | Microsoft Corporation | Elimination of left recursion from context-free grammars |
US6999917B1 (en) * | 2000-02-22 | 2006-02-14 | Microsoft Corporation | Left-corner chart parsing system |
US7499875B1 (en) | 2000-03-17 | 2009-03-03 | Ebay Inc. | Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments |
US8706618B2 (en) | 2005-09-29 | 2014-04-22 | Ebay Inc. | Release of funds based on criteria |
AU2001245754A1 (en) * | 2000-03-17 | 2001-10-03 | Ebay, Inc. | Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments |
US6714905B1 (en) * | 2000-05-02 | 2004-03-30 | Iphrase.Com, Inc. | Parsing ambiguous grammar |
US6704728B1 (en) * | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
US6711561B1 (en) | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6675159B1 (en) | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
DE10051794C2 (de) * | 2000-10-18 | 2003-04-17 | Saymore Speech Operated System | Verfahren zur eindeutigen Zuweisung eines Befehls und Verfahren zur Sprachsteuerung |
US6983239B1 (en) * | 2000-10-25 | 2006-01-03 | International Business Machines Corporation | Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser |
US7027974B1 (en) | 2000-10-27 | 2006-04-11 | Science Applications International Corporation | Ontology-based parser for natural language processing |
US7644057B2 (en) * | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
US7225183B2 (en) * | 2002-01-28 | 2007-05-29 | Ipxl, Inc. | Ontology-based information management system and method |
US7343372B2 (en) * | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
US7529658B2 (en) * | 2002-07-26 | 2009-05-05 | Sankhya Technologies Private Limited | Method for specifying equivalence of language grammars and automatically translating sentences in one language to sentences in another language in a computer environment |
US7249019B2 (en) * | 2002-08-06 | 2007-07-24 | Sri International | Method and apparatus for providing an integrated speech recognition and natural language understanding for a dialog system |
US20050187913A1 (en) * | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US8495002B2 (en) * | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
WO2008024800A2 (en) * | 2006-08-21 | 2008-02-28 | Western Slope Utilities, Inc. | Systems and methods for swab transport in pipeline rehabilitation |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4852173A (en) * | 1987-10-29 | 1989-07-25 | International Business Machines Corporation | Design and construction of a binary-tree system for language modelling |
-
1989
- 1989-02-21 US US07/312,835 patent/US4984178A/en not_active Expired - Fee Related
-
1990
- 1990-01-29 EP EP90300879A patent/EP0384584B1/en not_active Expired - Lifetime
- 1990-01-29 DE DE69009522T patent/DE69009522T2/de not_active Expired - Fee Related
- 1990-02-21 JP JP2040889A patent/JPH0320800A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05289692A (ja) * | 1992-02-10 | 1993-11-05 | Internatl Business Mach Corp <Ibm> | ワードを予測する会話認識装置用言語生成装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
DE69009522T2 (de) | 1994-09-29 |
EP0384584B1 (en) | 1994-06-08 |
EP0384584A2 (en) | 1990-08-29 |
EP0384584A3 (en) | 1990-11-07 |
US4984178A (en) | 1991-01-08 |
DE69009522D1 (de) | 1994-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0320800A (ja) | 音声認識方法および装置 | |
US11776533B2 (en) | Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
US7072837B2 (en) | Method for processing initially recognized speech in a speech recognition session | |
CN111145718B (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
Moore | Using natural-language knowledge sources in speech recognition | |
EP1366490B1 (en) | Hierarchichal language models | |
JP5162697B2 (ja) | 情報検索手法による統一化されたタスク依存の言語モデルの生成 | |
US5870706A (en) | Method and apparatus for an improved language recognition system | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
Erdogan et al. | Using semantic analysis to improve speech recognition performance | |
KR100895940B1 (ko) | 문법 저작에서의 세그먼테이션 모호성의 자동 해결 | |
JP4653598B2 (ja) | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム | |
JP3628245B2 (ja) | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 | |
KR20050101694A (ko) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 | |
JP4649207B2 (ja) | 生成変形句構造文法に基づいて自然言語認識をする方法 | |
JP2000222406A (ja) | 音声認識翻訳装置及び方法 | |
JPH11143493A (ja) | 音声言語理解装置及び音声言語理解システム | |
KR100339668B1 (ko) | 음성 발생 원리를 이용한 음성 언어 파서 | |
Ruland | Probabilistic LR-parsing with symbolic postprocessing | |
Niyozmatova et al. | Language and acoustic modeling in Uzbek speech recognition | |
Uszkoreit | Mathematical methods | |
Saini et al. | Speech Articulating Software | |
Pawate et al. | Implementation of an HMM-based Speaker-independent Speech Recognition System on the TMS320C2x and TMS320C5x |