JP4360453B2 - 文法を使用する音声認識のための方法 - Google Patents
文法を使用する音声認識のための方法 Download PDFInfo
- Publication number
- JP4360453B2 JP4360453B2 JP2000524788A JP2000524788A JP4360453B2 JP 4360453 B2 JP4360453 B2 JP 4360453B2 JP 2000524788 A JP2000524788 A JP 2000524788A JP 2000524788 A JP2000524788 A JP 2000524788A JP 4360453 B2 JP4360453 B2 JP 4360453B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- word
- recognition method
- syntax
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 17
- 230000007704 transition Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 2
- 241000252794 Sphinx Species 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
Description
記述
本発明は、所与の語彙の複数の語からなる語列の音声認識のための方法に関する。
【0002】
あらゆる語の任意の組合せを許容する連結された発話音声の認識の場合には、誤り率は単一語認識に比べて大幅に上昇する。これを克服するために、いわゆる言語モデルにおいて許容される語列に関する知識を格納し、これを認識の際に語列の数を低減するために使用する。
【0003】
言語モデルは大抵の場合いわゆるNグラムモデルとして定義される。ここで、Nはモデルの深度を示す。すなわち、語列の中のN個の互いに連続した語が瞬時の評価において考慮される。Nが増大するにつれて迅速に上昇する認識プロセスコストのために、主にバイグラム(N=2)又はトライグラム(N=3)言語モデルが適用される。
【0004】
DE19501599C1には様々な周知の音声認識方法の他に、バイグラム言語モデルにおいて固定的なシンタクス及び任意の長さNを有する文を格納できる方法が記述されている。この方法は、許容可能な文(語列)のシンタクスに関する知識を言語モデルに統合し、従ってシンタクス的バイグラムとも呼ばれる。シンタクスを言語モデルに統合するための基本的要素は、様々なセンテンス・コンステレーションに何度も現れる語のインデクシングである。これによって、統合されたシンタクスがあろうとなかろうと音声認識器は同一である。
【0005】
シンタクス的バイグラム言語モデルにより作動する音声認識器は限定された個数の許容可能な文において許される語列を強く制限することによって高い認識率を達成するが、シンタクス的な制限が確実に行われ遵守されうる場合にのみ、例えば短いコマンド、日付又は時間表示などにおいてのみ使用可能である。しかし、多数の許容可能な語列においては、シンタクスの完全な予めの設定は非常にコスト高であり、シンタクス的な制限の遵守が保障されていない自然に表現された語列を認識しなくてはならない状況では、厳密にシンタクス的な言語モデルによる認識は厳しい条件下でのみ適当である。
Meteer et al.: "Statistical Language Modelling Combining N-Gram and Context-Free Grammars", Speech Processing, Minneapolis, Apr.27-30, 1993,Vol.2, p.II-37-40, XP000427719, IEEE の刊行物には句構造文法を有する言語学的認識モデルとNグラム認識モデルとを1つの言語モデルに結合することが記述されている。
Kenji kita; "Incorporating LR Rarsing into Sphinx", ICASSP91, Speech Processing 1, Toronto, May 14-18 1991,Vol.1. p.269-272, XP000245219, IEEE の刊行物は、文脈自由文法によって開始する音声認識方法が記述されている。パーザが文脈自由文法によって結果を見い出すことができれば、バイグラム文法は使用されない。シンタクス的に正確な結果が存在しない場合には、バイグラム文法に切り換えられる。
【0006】
本発明の課題は、これまでの方法に比べて良好な認識率で拡張された使用領域をもたらす、音声認識のための方法を提供することである。
【0007】
本発明は、請求項1に記述されている。従属請求項は本発明の有利な実施形態を含んでいる。
【0008】
シンタクス的制限の異なる範囲を有する2つの異なる認識方法を組み合わせて適用することは、有利には、一義的なシンタクスを有する言語モデルと統計的なNグラム言語モデルとによる認識方法を組み合わせて適用することは、驚くほど大幅に拡大された使用領域をもたらし、様々な組合せの可能性が生じる。この組み合わせにおいて重要なことは、まとまりのある語列の互いに連続する語列区間が異なる認識方法によって処理されることである。この場合、使用領域に応じて、語列全体を複数の区間に区別できるように分割して、異なる認識方法を適用することが有利である。この場合、語とは、ここでも以下においても、割り当て可能な概念内容を有する音系列として言語的な意味における語だけを意味するのではなく、むしろ音声認識器において一般的に単一に処理される音系列を意味し、例えば個々の文字の発音、所定の概念割り当てのない音節又は音節列をも意味する。
【0009】
語列を2つ又は複数の区間に分割する際には、とりわけ少なくとも1つの区間が位置及び/又は長さにおいて固定的に予め設定される。このような固定的に予め設定された区間はとりわけ語列の最初に位置決めされ、さらにこの場合この区間に含まれる語の個数において固定的な長さを有する。有利には、この場合、この区間に対して、統合された一義的なシンタクスを有する認識方法が割り当てられる。この区間の限定された長さによって、シンタクスの予めの設定の際のコスト及び統合された一義的なシンタクスを有する認識方法による処理の際のコストが受容可能な制限内にとどまる。同時に、シンタクスの予めの設定及びこのシンタクスの予めの設定を考慮することによって、有意味な語列の量が第1の区間において大いに制限される。これに対する有利な適用領域は一字ずつ区切って読むことによる概念の入力である。例えば、数万の異なる都市名の認識は、一字ずつ区切って読む音声入力の場合に、固定長の最初の区間及び統合された一義的なシンタクスを有する認識方法によるこの最初の区間の処理と、この区間に続く音声入力を統計的なNグラム認識方法、とりわけバイグラム又はトライグラム認識方法による後続処理との組み合わせによって、驚くほど高い認識率及び僅少なコストで実施される。統合された一義的なシンタクスを有する認識方法だけを適用する場合には、シンタクス統合及び処理のためのコストが容認できる枠を越えてしまうだろう。他方で、このようなケースにおいて統計的な言語モデルだけを使用することは不十分な認識率しか示さない。
【0010】
区間に使用される統合された一義的なシンタクスを有する認識方法の有利な使用のための他の適用事例は、日付又は時間表示を有する語列であり、これらの語列の語周囲環境(Wortumfeld)はこの場合有利には統計的な言語モデルによって処理される。
【0011】
反復される特徴的な概念又はフレーズが予想されうる語列の認識の際にも、統計的な言語モデルと統合されたシンタクス制限を有する言語モデルとを組み合わせることはとりわけ有利である。この場合、有利には統計的な認識方法を基準方法として使用し、さらに、所定の概念又はフレーズに対する語の流れ(ワードフロー)のそれ自体周知の監視(ワード・スポッティング又はフレーズ・スポッティング)によってこのような概念又はフレーズの検出の際に区間が導入され、この区間において統合された一義的なシンタクスを有する認識方法が行われる。この区間は、固定的な又は可変的な長さ、とりわけそれぞれの概念又はそれぞれのフレーズに適合された長さを有することもできる。この区間が終わった後で、語列が継続するならば、再び統計的な語列評価を有する基準認識方法に切り換えることができる。
【0012】
統合された一義的なシンタクスを有する認識方法に対しては、有利には冒頭に挙げた従来技術から周知のシンタクス的バイグラム認識方法が使用される。語列評価を有する統計的な音声認識方法に対しては、単一の音声認識器の適用のためにも同様にバイグラム認識方法が有利である。他方で、比較的大きいNを有する統計的認識方法は改善された認識率を示すが、また比較的高い処理コストも必要とする。有利な妥協案は、統計的認識方法に対してトライグラム認識方法を使用することであり、本発明の有利な実施形態では、バイグラム処理の形式においてこのトライグラム認識方法の情報量によって認識を実施する。
【0013】
本発明を以下において有利な実施例に基づいて図面を参照しつつ詳しく説明する。
【0014】
図に基づいて本発明を説明するための例として、都市名を一字ずつ区切って読む音声入力を選択することにする。このために使用されるスペリング認識器の辞書はほぼ30個の文字ならびにDoppel(double「二重の〜」)のようないくつかの付加語又はハイフンを含んでいる。都市名のリストは例えば数万のエントリを含み、このため、一義的なシンタクス的情報(このケースでは文字列)の完全な格納は、このシンタクス的情報を含む辞書のサイズならびに認識の際の所要計算時間を容認できないほどの大きさにしてしまうだろう。
【0015】
なんらかの予めの設定なしで一字ずつ区切って読む入力を認識する場合の図1に図示されたフローパターンは、記入された矢印によって次のことを示す。すなわち、スタートノードから出発して、語列(この選択された例では個別に発音された文字名)は、設けられた文字のうちの任意の文字によって開始することができ、さらに、この語列が既に終了するのでなければ、各文字には任意の他の文字が続くことができることを示す。この語列の終了は終了ノードによって示されている。
【0016】
一般に用いられているネットワークグラフ表示には、例えば都市名 Aachen 、Aalen 及び Amberg に対するネットワークパスが記入されている。冒頭に挙げた従来技術DE19501599C1に記載されているように、このようなネットワークグラフではネットワークの異なる位置で現れる同一のワードノード(文字)によって、このネットワークパスにより設けられる有意味な語列の他にも、多数の無意味な語例が現れる。しかし、これらの無意味な語列はこの言語モデルによれば許されるものと見なされる。
【0017】
DE19501599C1ではこの問題を解決するために、ネットワークにおいて複数回現れるワードノードをインデクシングによって区別することが提案されている。インデクシングによってネットワークの全てのワードノードは一義的になり、さらに、各ワードノードにおいて、全ての許容可能な語列の全体を記述するシンタクスとして完全に許容可能な後続のワードノードが示される。とりわけ概念の大きなリストから概念を一字ずつ区切って読む入力の場合には、このインデクシングがなければ、ネットワークグラフの多義性・曖昧性が非常に高くなってしまう。
【0018】
図4には、図3の例を基礎として本発明の方法が図示されている。わかりやすくするために、本発明の変形実施例が選択されている。この変形実施例では、語列の最初において、一定の予め設定された長さの区間が一義的なシンタクス統合を有する認識方法により処理され、その後で語列評価を有する統計的認識方法に切り換えられる。一義的なシンタクス的制限を有する認識方法としてシンタクス的バイグラム認識方法が基礎となる。語列の最初における開始区間の長さはk=3語と仮定する。長さにおいてア・プリオリに既知でない又は限定されていない後続の語列区間に対しては、トライグラム方法の情報深度を有する語列評価を有する統計的認識方法の投入が仮定されている。さらに本発明のとりわけ有利な実施形態を説明するために、次のようにしてバイグラム認識方法のやり方でトライグラム情報を処理することが記述される。すなわち、トライグラム窓の内側に存在する3語(ワードトリプル(wordtriple))の情報量が2つのオーバーラップする擬似語(ワードタプル(wordtuple))に分割され、これらの擬似語はそれぞれ基本となるトライグラム窓の2つの互いに連続する語の組み合わせから構成される。
【0019】
図4に図示された例では、語列の最初のスタートノードから出発して従来技術から公知のやり方でシンタクス的バイグラム認識方法が適用される。図2及び図3においてネットワークパスとして記入された都市名
AACHEN
AALEN
AMBERG
に対して、このことは次のことを意味する。すなわち、最初の3つの個別に発音された文字
AAC
AAL
AMB
がシンタクス的バイグラム認識方法によって処理されることを意味する。トライグラム認識方法による後続の語列区間の処理のために、有利には、この最初の区間からの情報が第2の区間の最初に対するヒストリとして一緒に評価される。トライグラムの情報深度による処理に対して、これは次のことを意味する。すなわち、文字列
ACHEN
ALEN
MBERG
が有利にはトライグラム情報サイズを有する情報にとって自由に使用されるべきであることを意味する。従って、一字ずつ区切って読んで入力された語列の第2の区間における処理は、有利には、最初の区間の最後の2つの文字も取り込んでいる。
【0020】
とりわけ有利には、互いに連続する全ての区間において同一の音声認識器が使用される。このために、第2の区間において、トライグラム情報深度により与えられる情報をバイグラム認識方法のやり方によって処理する。このために、この語列に亘って段階的にスライド式にシフトされるトリグラム窓のワードトリプルを次のようにして擬似ワードタプルに変形する。すなわち、トライグラム窓のワードトリプルのそれぞれ2つの隣接する語を1つの擬似語にまとめるのである。これによって、この選択された例では、次のような擬似語の系列が生じる。
【0021】
AC CH HE EN
AL LE EN
MB BE ER RG
ただしここで、それぞれ互いに連続する2つの擬似語(文字ペア)はトライグラム窓からのワードトリプルの言語情報を含んでいる。ワードトリプルを擬似ワードタプルに変形することによって、それぞれ2つの互いに連続する擬似語だけを考慮するバイグラム処理がトライグラム情報深度を維持したままで可能になる。第2の区間におけるこのバイグラム処理によって、音声認識器の構成は語列全体に亘って同じままである。
【0022】
シンタクス的バイグラム認識方法による処理を有する最初の区間からシンタクス的制限のない擬似語バイグラム認識方法による処理を有する第2の区間への移行においては、有利には、最初の区間において最後のワードノードにすぐ前のワードノードの情報を補足する。この結果、最初の区間において次のようなワードノード(文字)の系列が生じる。
【0023】
A A AC
A A AL
A M MB
、ただしこの場合、最後のワードノードは、すぐ前のノードの情報を有する擬似語でもある。
【0024】
図5にはこの原理によって構成された図2及び図3で選択された例に対するネットワークグラフの部分を示している。スタートノードから出発して、このネットワークは最初の区間において単一語ノード(単一文字)によって構成される。これらの単一語ノード(単一文字)は次いで第2の区間への移行において2つの互いに連続する文字の情報サイズをそれぞれ有する擬似語ノードに移行する。擬似語ノード間の移行はそれ自体周知のやり方で学習サンプリング(Lernstichproben)に基づいて評価される。こうして成立するネットワークグラフは2つの異なる認識方法の組み合わせを含んでいる。異なる文字の数に比べて区別可能な擬似語の方がはるかに多数あるにもかかわらず、ネットワーク全体に亘るシンタクス的制限を一貫して適用することを断念することは、高い認識率で処理コストの大幅な低減をもたらすのである。
【0025】
図5の例では、擬似語ノードの各々から終了ノードへの複数の矢印によって次のことが考慮されている。すなわち、音声入力が完全な語列のほんの一部分の後であってもすでに予め設定されたリストの中から概念を割り当てるには十分であることが考慮される。認識器においては、これを次のような形式で実装することができる。すなわち、この認識器は、この語列の一部分を入力した後で正しいと思われる複数の概念の個数を十分に制限することによって、例えばディスプレイ上でのこれらの複数の概念の選択を提供し、さらに、これによって入力が短縮される、というような形式で実装することができる。
【0026】
本発明は上述の実施例に限定されず、当業者の可能性の枠内で様々あなやり方で適用可能である。とりわけ第2の方法におけるシンタクス的情報を考慮する範囲は可変的である。
【図面の簡単な説明】
【図1】 一字ずつ区切って読む音声入力の例に対する処理の簡単なフローパターンを示す。
【図2】 従来技術のネットワークグラフを示す。
【図3】 付加的なシンタクス制限を有する図3のグラフを示す。
【図4】 図3のグラフの最初の部分及び本発明の適用を示す。
【図5】 図4の原理による拡張された実施例を示す。
Claims (6)
- 所与の語彙の複数の語から成る語列の音声認識のための方法であって、
第1の認識方法及び第2の認識方法が設けられている、所与の語彙の複数の語から成る語列の音声認識のための方法において、
認識すべき語列の別個の区間に対して適用するために、前記第1の認識方法及び前記第2の認識方法が設けられており、
前記第1の認識方法として、統合された一義的なシンタクスを有するバイグラム認識方法が適用され、
前記第2の認識方法として、統計的な語列評価を有する認識方法が適用され、
統合された一義的なシンタクスを有する前記第1のバイグラム認識方法から統計的語列評価を有する前記第2の認識方法への切り換えの際に、前記第1の認識方法によって処理された区間の最後の2つの語が1つの擬似語にまとめられ、該擬似語はバイグラム認識方法によって処理されることを特徴とする、所与の語彙の複数の語から成る語列の音声認識のための方法。 - 少なくとも1つの区間はその位置及び/又はその長さにおいて予め設定されており、さらに2つの認識方法のうちの1つに固定的に割り当てられていることを特徴とする請求項1記載の方法。
- 文頭における予め設定された長さの区間は、統合された一義的なシンタクスを有する前記第1の認識方法によって処理されることを特徴とする請求項2記載の方法。
- 前記第2の方法は統計的なトライグラム認識方法であることを特徴とする請求項1記載の方法。
- トライグラム窓のワードトリプルは擬似ワードタプルとして表され、
タプルの2つの擬似語はオーバーラップし、さらに相応するトリプルのそれぞれ2つの語を含んでいることを特徴とする請求項4記載の方法。 - 基準としては、統合されたシンタクスのない第2の認識方法が適用され、
統合された一義的なシンタクスを有する第1の認識方法への切り換えは、語検出又はフレーズ検出(ワード・スポッティング又はフレーズ・スポッティング)に基づいて行われることを特徴とする請求項1から5のうちの1項記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19754957A DE19754957A1 (de) | 1997-12-11 | 1997-12-11 | Verfahren zur Spracherkennung |
DE19754957.8 | 1997-12-11 | ||
PCT/DE1998/003536 WO1999030314A1 (de) | 1997-12-11 | 1998-12-02 | Verfahren zur spracherkennung unter verwendung von einer grammatik |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001526411A JP2001526411A (ja) | 2001-12-18 |
JP2001526411A5 JP2001526411A5 (ja) | 2009-07-23 |
JP4360453B2 true JP4360453B2 (ja) | 2009-11-11 |
Family
ID=7851483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000524788A Expired - Fee Related JP4360453B2 (ja) | 1997-12-11 | 1998-12-02 | 文法を使用する音声認識のための方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7020606B1 (ja) |
EP (1) | EP1038293B1 (ja) |
JP (1) | JP4360453B2 (ja) |
AT (1) | ATE211291T1 (ja) |
DE (2) | DE19754957A1 (ja) |
ES (1) | ES2169572T3 (ja) |
WO (1) | WO1999030314A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007042971A1 (de) * | 2007-09-10 | 2009-03-12 | Siemens Ag | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
US20090245646A1 (en) * | 2008-03-28 | 2009-10-01 | Microsoft Corporation | Online Handwriting Expression Recognition |
US20100166314A1 (en) * | 2008-12-30 | 2010-07-01 | Microsoft Corporation | Segment Sequence-Based Handwritten Expression Recognition |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
WO2014189399A1 (en) | 2013-05-22 | 2014-11-27 | Axon Doo | A mixed-structure n-gram language model |
LU101763B1 (en) * | 2020-05-04 | 2021-11-05 | Microsoft Technology Licensing Llc | Microsegment secure speech transcription |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
JPH01177600A (ja) * | 1988-01-06 | 1989-07-13 | Nec Corp | 音声認識誤り訂正装置 |
JP3004023B2 (ja) * | 1989-11-28 | 2000-01-31 | 株式会社東芝 | 音声認識装置 |
TW323364B (ja) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
DE19501599C1 (de) * | 1995-01-20 | 1996-05-02 | Daimler Benz Ag | Verfahren zur Spracherkennung |
JP3180655B2 (ja) * | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
US5899973A (en) * | 1995-11-04 | 1999-05-04 | International Business Machines Corporation | Method and apparatus for adapting the language model's size in a speech recognition system |
EP0849723A3 (en) * | 1996-12-20 | 1998-12-30 | ATR Interpreting Telecommunications Research Laboratories | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition |
ATE374421T1 (de) * | 1998-08-28 | 2007-10-15 | Ibm | Segmentierungsverfahren zur erweiterung des aktiven vokabulars von spracherkennern |
-
1997
- 1997-12-11 DE DE19754957A patent/DE19754957A1/de not_active Withdrawn
-
1998
- 1998-12-02 US US09/581,408 patent/US7020606B1/en not_active Expired - Lifetime
- 1998-12-02 JP JP2000524788A patent/JP4360453B2/ja not_active Expired - Fee Related
- 1998-12-02 AT AT98965097T patent/ATE211291T1/de not_active IP Right Cessation
- 1998-12-02 WO PCT/DE1998/003536 patent/WO1999030314A1/de active IP Right Grant
- 1998-12-02 ES ES98965097T patent/ES2169572T3/es not_active Expired - Lifetime
- 1998-12-02 DE DE59802584T patent/DE59802584D1/de not_active Expired - Lifetime
- 1998-12-02 EP EP98965097A patent/EP1038293B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE19754957A1 (de) | 1999-06-17 |
JP2001526411A (ja) | 2001-12-18 |
US7020606B1 (en) | 2006-03-28 |
WO1999030314A1 (de) | 1999-06-17 |
DE59802584D1 (de) | 2002-01-31 |
ATE211291T1 (de) | 2002-01-15 |
EP1038293A1 (de) | 2000-09-27 |
ES2169572T3 (es) | 2002-07-01 |
EP1038293B1 (de) | 2001-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5758024A (en) | Method and system for encoding pronunciation prefix trees | |
US6983239B1 (en) | Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser | |
US7072837B2 (en) | Method for processing initially recognized speech in a speech recognition session | |
US7120582B1 (en) | Expanding an effective vocabulary of a speech recognition system | |
Ward et al. | Recent improvements in the CMU spoken language understanding system | |
US6574597B1 (en) | Fully expanded context-dependent networks for speech recognition | |
US20040220809A1 (en) | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding | |
US5875426A (en) | Recognizing speech having word liaisons by adding a phoneme to reference word models | |
Meteer et al. | Statistical language modeling combining n-gram and context-free grammars | |
KR100726875B1 (ko) | 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스 | |
JP4360453B2 (ja) | 文法を使用する音声認識のための方法 | |
Seneff et al. | ANGIE: A new framework for speech analysis based on morpho-phonological modelling | |
EP1111587B1 (en) | Speech recognition device implementing a syntactic permutation rule | |
JP2001242885A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Vu et al. | Vietnamese automatic speech recognition: The flavor approach | |
Chung et al. | Integrating speech with keypad input for automatic entry of spelling and pronunciation of new words. | |
KR20040051350A (ko) | 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 | |
Hori et al. | Spoken interactive odqa system: Spiqa | |
Müller | Probabilistic context-free grammars for syllabification and grapheme-to-phoneme conversion | |
Rotovnik et al. | A comparison of HTK, ISIP and julius in slovenian large vocabulary continuous speech recognition | |
KR20010077042A (ko) | 트리 구조의 단어사전을 갖는 연속음성 인식 장치 | |
KR20010077041A (ko) | 트리구조의 언어모델을 갖는 연속 음성 인식 장치 | |
Wrigley | Parse tree n-grams for spoken language modelling | |
Novak et al. | Memory efficient decoding graph compilation with wide cross-word acoustic context. | |
Georgila et al. | Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090206 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090507 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090603 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20090603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090708 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090804 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130821 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |