JP4360453B2 - 文法を使用する音声認識のための方法 - Google Patents

文法を使用する音声認識のための方法 Download PDF

Info

Publication number
JP4360453B2
JP4360453B2 JP2000524788A JP2000524788A JP4360453B2 JP 4360453 B2 JP4360453 B2 JP 4360453B2 JP 2000524788 A JP2000524788 A JP 2000524788A JP 2000524788 A JP2000524788 A JP 2000524788A JP 4360453 B2 JP4360453 B2 JP 4360453B2
Authority
JP
Japan
Prior art keywords
recognition
word
recognition method
syntax
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000524788A
Other languages
English (en)
Other versions
JP2001526411A (ja
JP2001526411A5 (ja
Inventor
クラス フリッツ
キリアン ウテ
Original Assignee
ハーマン ベッカー オートモーティヴ システムズ ゲゼルシャフト ミット ベシュレンクテル ハフツング
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン ベッカー オートモーティヴ システムズ ゲゼルシャフト ミット ベシュレンクテル ハフツング filed Critical ハーマン ベッカー オートモーティヴ システムズ ゲゼルシャフト ミット ベシュレンクテル ハフツング
Publication of JP2001526411A publication Critical patent/JP2001526411A/ja
Publication of JP2001526411A5 publication Critical patent/JP2001526411A5/ja
Application granted granted Critical
Publication of JP4360453B2 publication Critical patent/JP4360453B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Description

【0001】
記述
本発明は、所与の語彙の複数の語からなる語列の音声認識のための方法に関する。
【0002】
あらゆる語の任意の組合せを許容する連結された発話音声の認識の場合には、誤り率は単一語認識に比べて大幅に上昇する。これを克服するために、いわゆる言語モデルにおいて許容される語列に関する知識を格納し、これを認識の際に語列の数を低減するために使用する。
【0003】
言語モデルは大抵の場合いわゆるNグラムモデルとして定義される。ここで、Nはモデルの深度を示す。すなわち、語列の中のN個の互いに連続した語が瞬時の評価において考慮される。Nが増大するにつれて迅速に上昇する認識プロセスコストのために、主にバイグラム(N=2)又はトライグラム(N=3)言語モデルが適用される。
【0004】
DE19501599C1には様々な周知の音声認識方法の他に、バイグラム言語モデルにおいて固定的なシンタクス及び任意の長さNを有する文を格納できる方法が記述されている。この方法は、許容可能な文(語列)のシンタクスに関する知識を言語モデルに統合し、従ってシンタクス的バイグラムとも呼ばれる。シンタクスを言語モデルに統合するための基本的要素は、様々なセンテンス・コンステレーションに何度も現れる語のインデクシングである。これによって、統合されたシンタクスがあろうとなかろうと音声認識器は同一である。
【0005】
シンタクス的バイグラム言語モデルにより作動する音声認識器は限定された個数の許容可能な文において許される語列を強く制限することによって高い認識率を達成するが、シンタクス的な制限が確実に行われ遵守されうる場合にのみ、例えば短いコマンド、日付又は時間表示などにおいてのみ使用可能である。しかし、多数の許容可能な語列においては、シンタクスの完全な予めの設定は非常にコスト高であり、シンタクス的な制限の遵守が保障されていない自然に表現された語列を認識しなくてはならない状況では、厳密にシンタクス的な言語モデルによる認識は厳しい条件下でのみ適当である。
Meteer et al.: "Statistical Language Modelling Combining N-Gram and Context-Free Grammars", Speech Processing, Minneapolis, Apr.27-30, 1993,Vol.2, p.II-37-40, XP000427719, IEEE の刊行物には句構造文法を有する言語学的認識モデルとNグラム認識モデルとを1つの言語モデルに結合することが記述されている。
Kenji kita; "Incorporating LR Rarsing into Sphinx", ICASSP91, Speech Processing 1, Toronto, May 14-18 1991,Vol.1. p.269-272, XP000245219, IEEE の刊行物は、文脈自由文法によって開始する音声認識方法が記述されている。パーザが文脈自由文法によって結果を見い出すことができれば、バイグラム文法は使用されない。シンタクス的に正確な結果が存在しない場合には、バイグラム文法に切り換えられる。
【0006】
本発明の課題は、これまでの方法に比べて良好な認識率で拡張された使用領域をもたらす、音声認識のための方法を提供することである。
【0007】
本発明は、請求項1に記述されている。従属請求項は本発明の有利な実施形態を含んでいる。
【0008】
シンタクス的制限の異なる範囲を有する2つの異なる認識方法を組み合わせて適用することは、有利には、一義的なシンタクスを有する言語モデルと統計的なNグラム言語モデルとによる認識方法を組み合わせて適用することは、驚くほど大幅に拡大された使用領域をもたらし、様々な組合せの可能性が生じる。この組み合わせにおいて重要なことは、まとまりのある語列の互いに連続する語列区間が異なる認識方法によって処理されることである。この場合、使用領域に応じて、語列全体を複数の区間に区別できるように分割して、異なる認識方法を適用することが有利である。この場合、語とは、ここでも以下においても、割り当て可能な概念内容を有する音系列として言語的な意味における語だけを意味するのではなく、むしろ音声認識器において一般的に単一に処理される音系列を意味し、例えば個々の文字の発音、所定の概念割り当てのない音節又は音節列をも意味する。
【0009】
語列を2つ又は複数の区間に分割する際には、とりわけ少なくとも1つの区間が位置及び/又は長さにおいて固定的に予め設定される。このような固定的に予め設定された区間はとりわけ語列の最初に位置決めされ、さらにこの場合この区間に含まれる語の個数において固定的な長さを有する。有利には、この場合、この区間に対して、統合された一義的なシンタクスを有する認識方法が割り当てられる。この区間の限定された長さによって、シンタクスの予めの設定の際のコスト及び統合された一義的なシンタクスを有する認識方法による処理の際のコストが受容可能な制限内にとどまる。同時に、シンタクスの予めの設定及びこのシンタクスの予めの設定を考慮することによって、有意味な語列の量が第1の区間において大いに制限される。これに対する有利な適用領域は一字ずつ区切って読むことによる概念の入力である。例えば、数万の異なる都市名の認識は、一字ずつ区切って読む音声入力の場合に、固定長の最初の区間及び統合された一義的なシンタクスを有する認識方法によるこの最初の区間の処理と、この区間に続く音声入力を統計的なNグラム認識方法、とりわけバイグラム又はトライグラム認識方法による後続処理との組み合わせによって、驚くほど高い認識率及び僅少なコストで実施される。統合された一義的なシンタクスを有する認識方法だけを適用する場合には、シンタクス統合及び処理のためのコストが容認できる枠を越えてしまうだろう。他方で、このようなケースにおいて統計的な言語モデルだけを使用することは不十分な認識率しか示さない。
【0010】
区間に使用される統合された一義的なシンタクスを有する認識方法の有利な使用のための他の適用事例は、日付又は時間表示を有する語列であり、これらの語列の語周囲環境(Wortumfeld)はこの場合有利には統計的な言語モデルによって処理される。
【0011】
反復される特徴的な概念又はフレーズが予想されうる語列の認識の際にも、統計的な言語モデルと統合されたシンタクス制限を有する言語モデルとを組み合わせることはとりわけ有利である。この場合、有利には統計的な認識方法を基準方法として使用し、さらに、所定の概念又はフレーズに対する語の流れ(ワードフロー)のそれ自体周知の監視(ワード・スポッティング又はフレーズ・スポッティング)によってこのような概念又はフレーズの検出の際に区間が導入され、この区間において統合された一義的なシンタクスを有する認識方法が行われる。この区間は、固定的な又は可変的な長さ、とりわけそれぞれの概念又はそれぞれのフレーズに適合された長さを有することもできる。この区間が終わった後で、語列が継続するならば、再び統計的な語列評価を有する基準認識方法に切り換えることができる。
【0012】
統合された一義的なシンタクスを有する認識方法に対しては、有利には冒頭に挙げた従来技術から周知のシンタクス的バイグラム認識方法が使用される。語列評価を有する統計的な音声認識方法に対しては、単一の音声認識器の適用のためにも同様にバイグラム認識方法が有利である。他方で、比較的大きいNを有する統計的認識方法は改善された認識率を示すが、また比較的高い処理コストも必要とする。有利な妥協案は、統計的認識方法に対してトライグラム認識方法を使用することであり、本発明の有利な実施形態では、バイグラム処理の形式においてこのトライグラム認識方法の情報量によって認識を実施する。
【0013】
本発明を以下において有利な実施例に基づいて図面を参照しつつ詳しく説明する。
【0014】
図に基づいて本発明を説明するための例として、都市名を一字ずつ区切って読む音声入力を選択することにする。このために使用されるスペリング認識器の辞書はほぼ30個の文字ならびにDoppel(double「二重の〜」)のようないくつかの付加語又はハイフンを含んでいる。都市名のリストは例えば数万のエントリを含み、このため、一義的なシンタクス的情報(このケースでは文字列)の完全な格納は、このシンタクス的情報を含む辞書のサイズならびに認識の際の所要計算時間を容認できないほどの大きさにしてしまうだろう。
【0015】
なんらかの予めの設定なしで一字ずつ区切って読む入力を認識する場合の図1に図示されたフローパターンは、記入された矢印によって次のことを示す。すなわち、スタートノードから出発して、語列(この選択された例では個別に発音された文字名)は、設けられた文字のうちの任意の文字によって開始することができ、さらに、この語列が既に終了するのでなければ、各文字には任意の他の文字が続くことができることを示す。この語列の終了は終了ノードによって示されている。
【0016】
一般に用いられているネットワークグラフ表示には、例えば都市名 Aachen 、Aalen 及び Amberg に対するネットワークパスが記入されている。冒頭に挙げた従来技術DE19501599C1に記載されているように、このようなネットワークグラフではネットワークの異なる位置で現れる同一のワードノード(文字)によって、このネットワークパスにより設けられる有意味な語列の他にも、多数の無意味な語例が現れる。しかし、これらの無意味な語列はこの言語モデルによれば許されるものと見なされる。
【0017】
DE19501599C1ではこの問題を解決するために、ネットワークにおいて複数回現れるワードノードをインデクシングによって区別することが提案されている。インデクシングによってネットワークの全てのワードノードは一義的になり、さらに、各ワードノードにおいて、全ての許容可能な語列の全体を記述するシンタクスとして完全に許容可能な後続のワードノードが示される。とりわけ概念の大きなリストから概念を一字ずつ区切って読む入力の場合には、このインデクシングがなければ、ネットワークグラフの多義性・曖昧性が非常に高くなってしまう。
【0018】
図4には、図3の例を基礎として本発明の方法が図示されている。わかりやすくするために、本発明の変形実施例が選択されている。この変形実施例では、語列の最初において、一定の予め設定された長さの区間が一義的なシンタクス統合を有する認識方法により処理され、その後で語列評価を有する統計的認識方法に切り換えられる。一義的なシンタクス的制限を有する認識方法としてシンタクス的バイグラム認識方法が基礎となる。語列の最初における開始区間の長さはk=3語と仮定する。長さにおいてア・プリオリに既知でない又は限定されていない後続の語列区間に対しては、トライグラム方法の情報深度を有する語列評価を有する統計的認識方法の投入が仮定されている。さらに本発明のとりわけ有利な実施形態を説明するために、次のようにしてバイグラム認識方法のやり方でトライグラム情報を処理することが記述される。すなわち、トライグラム窓の内側に存在する3語(ワードトリプル(wordtriple))の情報量が2つのオーバーラップする擬似語(ワードタプル(wordtuple))に分割され、これらの擬似語はそれぞれ基本となるトライグラム窓の2つの互いに連続する語の組み合わせから構成される。
【0019】
図4に図示された例では、語列の最初のスタートノードから出発して従来技術から公知のやり方でシンタクス的バイグラム認識方法が適用される。図2及び図3においてネットワークパスとして記入された都市名
AACHEN
AALEN
AMBERG
に対して、このことは次のことを意味する。すなわち、最初の3つの個別に発音された文字
AAC
AAL
AMB
がシンタクス的バイグラム認識方法によって処理されることを意味する。トライグラム認識方法による後続の語列区間の処理のために、有利には、この最初の区間からの情報が第2の区間の最初に対するヒストリとして一緒に評価される。トライグラムの情報深度による処理に対して、これは次のことを意味する。すなわち、文字列
ACHEN
ALEN
MBERG
が有利にはトライグラム情報サイズを有する情報にとって自由に使用されるべきであることを意味する。従って、一字ずつ区切って読んで入力された語列の第2の区間における処理は、有利には、最初の区間の最後の2つの文字も取り込んでいる。
【0020】
とりわけ有利には、互いに連続する全ての区間において同一の音声認識器が使用される。このために、第2の区間において、トライグラム情報深度により与えられる情報をバイグラム認識方法のやり方によって処理する。このために、この語列に亘って段階的にスライド式にシフトされるトリグラム窓のワードトリプルを次のようにして擬似ワードタプルに変形する。すなわち、トライグラム窓のワードトリプルのそれぞれ2つの隣接する語を1つの擬似語にまとめるのである。これによって、この選択された例では、次のような擬似語の系列が生じる。
【0021】
AC CH HE EN
AL LE EN
MB BE ER RG
ただしここで、それぞれ互いに連続する2つの擬似語(文字ペア)はトライグラム窓からのワードトリプルの言語情報を含んでいる。ワードトリプルを擬似ワードタプルに変形することによって、それぞれ2つの互いに連続する擬似語だけを考慮するバイグラム処理がトライグラム情報深度を維持したままで可能になる。第2の区間におけるこのバイグラム処理によって、音声認識器の構成は語列全体に亘って同じままである。
【0022】
シンタクス的バイグラム認識方法による処理を有する最初の区間からシンタクス的制限のない擬似語バイグラム認識方法による処理を有する第2の区間への移行においては、有利には、最初の区間において最後のワードノードすぐ前のワードノードの情報補足する。この結果、最初の区間において次のようなワードノード(文字)の系列が生じる。
【0023】
A A AC
A A AL
A M MB
、ただしこの場合、最後のワードノードは、すぐ前のノードの情報を有する擬似語でもある。
【0024】
図5にはこの原理によって構成された図2及び図3で選択された例に対するネットワークグラフの部分を示している。スタートノードから出発して、このネットワークは最初の区間において単一語ノード(単一文字)によって構成される。これらの単一語ノード(単一文字)は次いで第2の区間への移行において2つの互いに連続する文字の情報サイズをそれぞれ有する擬似語ノードに移行する。擬似語ノード間の移行はそれ自体周知のやり方で学習サンプリング(Lernstichproben)に基づいて評価される。こうして成立するネットワークグラフは2つの異なる認識方法の組み合わせを含んでいる。異なる文字の数に比べて区別可能な擬似語の方がはるかに多数あるにもかかわらず、ネットワーク全体に亘るシンタクス的制限を一貫して適用することを断念することは、高い認識率で処理コストの大幅な低減をもたらすのである。
【0025】
図5の例では、擬似語ノードの各々から終了ノードへの複数の矢印によって次のことが考慮されている。すなわち、音声入力が完全な語列のほんの一部分の後であってもすでに予め設定されたリストの中から概念を割り当てるには十分であることが考慮される。認識器においては、これを次のような形式で実装することができる。すなわち、この認識器は、この語列の一部分を入力した後で正しいと思われる複数の概念の個数を十分に制限することによって、例えばディスプレイ上でのこれらの複数の概念の選択を提供し、さらに、これによって入力が短縮される、というような形式で実装することができる。
【0026】
本発明は上述の実施例に限定されず、当業者の可能性の枠内で様々あなやり方で適用可能である。とりわけ第2の方法におけるシンタクス的情報を考慮する範囲は可変的である。
【図面の簡単な説明】
【図1】 一字ずつ区切って読む音声入力の例に対する処理の簡単なフローパターンを示す。
【図2】 従来技術のネットワークグラフを示す。
【図3】 付加的なシンタクス制限を有する図3のグラフを示す。
【図4】 図3のグラフの最初の部分及び本発明の適用を示す。
【図5】 図4の原理による拡張された実施例を示す。

Claims (6)

  1. 所与の語彙の複数の語から成る語列の音声認識のための方法であって、
    第1の認識方法及び第2の認識方法が設けられている、所与の語彙の複数の語から成る語列の音声認識のための方法において、
    認識すべき語列の別個の区間に対して適用するために、前記第1の認識方法及び前記第2の認識方法が設けられており、
    前記第1の認識方法として、統合された一義的なシンタクスを有するバイグラム認識方法が適用され、
    前記第2の認識方法として、統計的な語列評価を有する認識方法が適用され、
    統合された一義的なシンタクスを有する前記第1のバイグラム認識方法から統計的語列評価を有する前記第2の認識方法への切り換えの際に、前記第1の認識方法によって処理された区間の最後の2つの語が1つの擬似語にまとめられ、該擬似語はバイグラム認識方法によって処理されることを特徴とする、所与の語彙の複数の語から成る語列の音声認識のための方法。
  2. 少なくとも1つの区間はその位置及び/又はその長さにおいて予め設定されており、さらに2つの認識方法のうちの1つに固定的に割り当てられていることを特徴とする請求項1記載の方法。
  3. 文頭における予め設定された長さの区間は、統合された一義的なシンタクスを有する前記第1の認識方法によって処理されることを特徴とする請求項2記載の方法。
  4. 前記第2の方法は統計的なトライグラム認識方法であることを特徴とする請求項1記載の方法。
  5. トライグラム窓のワードトリプルは擬似ワードタプルとして表され、
    タプルの2つの擬似語はオーバーラップし、さらに相応するトリプルのそれぞれ2つの語を含んでいることを特徴とする請求項4記載の方法。
  6. 基準としては、統合されたシンタクスのない第2の認識方法が適用され、
    統合された一義的なシンタクスを有する第1の認識方法への切り換えは、語検出又はフレーズ検出(ワード・スポッティング又はフレーズ・スポッティング)に基づいて行われることを特徴とする請求項1から5のうちの1項記載の方法
JP2000524788A 1997-12-11 1998-12-02 文法を使用する音声認識のための方法 Expired - Fee Related JP4360453B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19754957A DE19754957A1 (de) 1997-12-11 1997-12-11 Verfahren zur Spracherkennung
DE19754957.8 1997-12-11
PCT/DE1998/003536 WO1999030314A1 (de) 1997-12-11 1998-12-02 Verfahren zur spracherkennung unter verwendung von einer grammatik

Publications (3)

Publication Number Publication Date
JP2001526411A JP2001526411A (ja) 2001-12-18
JP2001526411A5 JP2001526411A5 (ja) 2009-07-23
JP4360453B2 true JP4360453B2 (ja) 2009-11-11

Family

ID=7851483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000524788A Expired - Fee Related JP4360453B2 (ja) 1997-12-11 1998-12-02 文法を使用する音声認識のための方法

Country Status (7)

Country Link
US (1) US7020606B1 (ja)
EP (1) EP1038293B1 (ja)
JP (1) JP4360453B2 (ja)
AT (1) ATE211291T1 (ja)
DE (2) DE19754957A1 (ja)
ES (1) ES2169572T3 (ja)
WO (1) WO1999030314A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007042971A1 (de) * 2007-09-10 2009-03-12 Siemens Ag Spracherkennungsverfahren und Spracherkennungsvorrichtung
US20090245646A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Online Handwriting Expression Recognition
US20100166314A1 (en) * 2008-12-30 2010-07-01 Microsoft Corporation Segment Sequence-Based Handwritten Expression Recognition
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
WO2014189399A1 (en) 2013-05-22 2014-11-27 Axon Doo A mixed-structure n-gram language model
LU101763B1 (en) * 2020-05-04 2021-11-05 Microsoft Technology Licensing Llc Microsegment secure speech transcription

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
JPH01177600A (ja) * 1988-01-06 1989-07-13 Nec Corp 音声認識誤り訂正装置
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
TW323364B (ja) * 1993-11-24 1997-12-21 At & T Corp
DE19501599C1 (de) * 1995-01-20 1996-05-02 Daimler Benz Ag Verfahren zur Spracherkennung
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US5899973A (en) * 1995-11-04 1999-05-04 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
EP0849723A3 (en) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
ATE374421T1 (de) * 1998-08-28 2007-10-15 Ibm Segmentierungsverfahren zur erweiterung des aktiven vokabulars von spracherkennern

Also Published As

Publication number Publication date
DE19754957A1 (de) 1999-06-17
JP2001526411A (ja) 2001-12-18
US7020606B1 (en) 2006-03-28
WO1999030314A1 (de) 1999-06-17
DE59802584D1 (de) 2002-01-31
ATE211291T1 (de) 2002-01-15
EP1038293A1 (de) 2000-09-27
ES2169572T3 (es) 2002-07-01
EP1038293B1 (de) 2001-12-19

Similar Documents

Publication Publication Date Title
US5758024A (en) Method and system for encoding pronunciation prefix trees
US6983239B1 (en) Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser
US7072837B2 (en) Method for processing initially recognized speech in a speech recognition session
US7120582B1 (en) Expanding an effective vocabulary of a speech recognition system
Ward et al. Recent improvements in the CMU spoken language understanding system
US6574597B1 (en) Fully expanded context-dependent networks for speech recognition
US20040220809A1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
US5875426A (en) Recognizing speech having word liaisons by adding a phoneme to reference word models
Meteer et al. Statistical language modeling combining n-gram and context-free grammars
KR100726875B1 (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
JP4360453B2 (ja) 文法を使用する音声認識のための方法
Seneff et al. ANGIE: A new framework for speech analysis based on morpho-phonological modelling
EP1111587B1 (en) Speech recognition device implementing a syntactic permutation rule
JP2001242885A (ja) 音声認識装置および音声認識方法、並びに記録媒体
Vu et al. Vietnamese automatic speech recognition: The flavor approach
Chung et al. Integrating speech with keypad input for automatic entry of spelling and pronunciation of new words.
KR20040051350A (ko) 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
Hori et al. Spoken interactive odqa system: Spiqa
Müller Probabilistic context-free grammars for syllabification and grapheme-to-phoneme conversion
Rotovnik et al. A comparison of HTK, ISIP and julius in slovenian large vocabulary continuous speech recognition
KR20010077042A (ko) 트리 구조의 단어사전을 갖는 연속음성 인식 장치
KR20010077041A (ko) 트리구조의 언어모델을 갖는 연속 음성 인식 장치
Wrigley Parse tree n-grams for spoken language modelling
Novak et al. Memory efficient decoding graph compilation with wide cross-word acoustic context.
Georgila et al. Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090507

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090603

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20090603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130821

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees