JP4360453B2

JP4360453B2 - 文法を使用する音声認識のための方法

Info

Publication number: JP4360453B2
Application number: JP2000524788A
Authority: JP
Inventors: クラスフリッツ; キリアンウテ
Original assignee: ハーマンベッカーオートモーティヴシステムズゲゼルシャフトミットベシュレンクテルハフツング
Priority date: 1997-12-11
Filing date: 1998-12-02
Publication date: 2009-11-11
Anticipated expiration: 2018-12-02
Also published as: DE19754957A1; JP2001526411A; US7020606B1; WO1999030314A1; DE59802584D1; ATE211291T1; EP1038293A1; ES2169572T3; EP1038293B1

Description

【０００１】
記述
本発明は、所与の語彙の複数の語からなる語列の音声認識のための方法に関する。
【０００２】
あらゆる語の任意の組合せを許容する連結された発話音声の認識の場合には、誤り率は単一語認識に比べて大幅に上昇する。これを克服するために、いわゆる言語モデルにおいて許容される語列に関する知識を格納し、これを認識の際に語列の数を低減するために使用する。
【０００３】
言語モデルは大抵の場合いわゆるＮグラムモデルとして定義される。ここで、Ｎはモデルの深度を示す。すなわち、語列の中のＮ個の互いに連続した語が瞬時の評価において考慮される。Ｎが増大するにつれて迅速に上昇する認識プロセスコストのために、主にバイグラム（Ｎ＝２）又はトライグラム（Ｎ＝３）言語モデルが適用される。
【０００４】
ＤＥ１９５０１５９９Ｃ１には様々な周知の音声認識方法の他に、バイグラム言語モデルにおいて固定的なシンタクス及び任意の長さＮを有する文を格納できる方法が記述されている。この方法は、許容可能な文（語列）のシンタクスに関する知識を言語モデルに統合し、従ってシンタクス的バイグラムとも呼ばれる。シンタクスを言語モデルに統合するための基本的要素は、様々なセンテンス・コンステレーションに何度も現れる語のインデクシングである。これによって、統合されたシンタクスがあろうとなかろうと音声認識器は同一である。
【０００５】
シンタクス的バイグラム言語モデルにより作動する音声認識器は限定された個数の許容可能な文において許される語列を強く制限することによって高い認識率を達成するが、シンタクス的な制限が確実に行われ遵守されうる場合にのみ、例えば短いコマンド、日付又は時間表示などにおいてのみ使用可能である。しかし、多数の許容可能な語列においては、シンタクスの完全な予めの設定は非常にコスト高であり、シンタクス的な制限の遵守が保障されていない自然に表現された語列を認識しなくてはならない状況では、厳密にシンタクス的な言語モデルによる認識は厳しい条件下でのみ適当である。
Meteer et al.: "Statistical Language Modelling Combining N-Gram and Context-Free Grammars", Speech Processing, Minneapolis, Apr.27-30, 1993,Vol.2, p.II-37-40, XP000427719, IEEE の刊行物には句構造文法を有する言語学的認識モデルとＮグラム認識モデルとを１つの言語モデルに結合することが記述されている。
Kenji kita; "Incorporating LR Rarsing into Sphinx", ICASSP91, Speech Processing 1, Toronto, May 14-18 1991,Vol.1. p.269-272, XP000245219, IEEE の刊行物は、文脈自由文法によって開始する音声認識方法が記述されている。パーザが文脈自由文法によって結果を見い出すことができれば、バイグラム文法は使用されない。シンタクス的に正確な結果が存在しない場合には、バイグラム文法に切り換えられる。
【０００６】
本発明の課題は、これまでの方法に比べて良好な認識率で拡張された使用領域をもたらす、音声認識のための方法を提供することである。
【０００７】
本発明は、請求項１に記述されている。従属請求項は本発明の有利な実施形態を含んでいる。
【０００８】
シンタクス的制限の異なる範囲を有する２つの異なる認識方法を組み合わせて適用することは、有利には、一義的なシンタクスを有する言語モデルと統計的なＮグラム言語モデルとによる認識方法を組み合わせて適用することは、驚くほど大幅に拡大された使用領域をもたらし、様々な組合せの可能性が生じる。この組み合わせにおいて重要なことは、まとまりのある語列の互いに連続する語列区間が異なる認識方法によって処理されることである。この場合、使用領域に応じて、語列全体を複数の区間に区別できるように分割して、異なる認識方法を適用することが有利である。この場合、語とは、ここでも以下においても、割り当て可能な概念内容を有する音系列として言語的な意味における語だけを意味するのではなく、むしろ音声認識器において一般的に単一に処理される音系列を意味し、例えば個々の文字の発音、所定の概念割り当てのない音節又は音節列をも意味する。
【０００９】
語列を２つ又は複数の区間に分割する際には、とりわけ少なくとも１つの区間が位置及び/又は長さにおいて固定的に予め設定される。このような固定的に予め設定された区間はとりわけ語列の最初に位置決めされ、さらにこの場合この区間に含まれる語の個数において固定的な長さを有する。有利には、この場合、この区間に対して、統合された一義的なシンタクスを有する認識方法が割り当てられる。この区間の限定された長さによって、シンタクスの予めの設定の際のコスト及び統合された一義的なシンタクスを有する認識方法による処理の際のコストが受容可能な制限内にとどまる。同時に、シンタクスの予めの設定及びこのシンタクスの予めの設定を考慮することによって、有意味な語列の量が第１の区間において大いに制限される。これに対する有利な適用領域は一字ずつ区切って読むことによる概念の入力である。例えば、数万の異なる都市名の認識は、一字ずつ区切って読む音声入力の場合に、固定長の最初の区間及び統合された一義的なシンタクスを有する認識方法によるこの最初の区間の処理と、この区間に続く音声入力を統計的なＮグラム認識方法、とりわけバイグラム又はトライグラム認識方法による後続処理との組み合わせによって、驚くほど高い認識率及び僅少なコストで実施される。統合された一義的なシンタクスを有する認識方法だけを適用する場合には、シンタクス統合及び処理のためのコストが容認できる枠を越えてしまうだろう。他方で、このようなケースにおいて統計的な言語モデルだけを使用することは不十分な認識率しか示さない。
【００１０】
区間に使用される統合された一義的なシンタクスを有する認識方法の有利な使用のための他の適用事例は、日付又は時間表示を有する語列であり、これらの語列の語周囲環境（Wortumfeld）はこの場合有利には統計的な言語モデルによって処理される。
【００１１】
反復される特徴的な概念又はフレーズが予想されうる語列の認識の際にも、統計的な言語モデルと統合されたシンタクス制限を有する言語モデルとを組み合わせることはとりわけ有利である。この場合、有利には統計的な認識方法を基準方法として使用し、さらに、所定の概念又はフレーズに対する語の流れ（ワードフロー）のそれ自体周知の監視（ワード・スポッティング又はフレーズ・スポッティング）によってこのような概念又はフレーズの検出の際に区間が導入され、この区間において統合された一義的なシンタクスを有する認識方法が行われる。この区間は、固定的な又は可変的な長さ、とりわけそれぞれの概念又はそれぞれのフレーズに適合された長さを有することもできる。この区間が終わった後で、語列が継続するならば、再び統計的な語列評価を有する基準認識方法に切り換えることができる。
【００１２】
統合された一義的なシンタクスを有する認識方法に対しては、有利には冒頭に挙げた従来技術から周知のシンタクス的バイグラム認識方法が使用される。語列評価を有する統計的な音声認識方法に対しては、単一の音声認識器の適用のためにも同様にバイグラム認識方法が有利である。他方で、比較的大きいＮを有する統計的認識方法は改善された認識率を示すが、また比較的高い処理コストも必要とする。有利な妥協案は、統計的認識方法に対してトライグラム認識方法を使用することであり、本発明の有利な実施形態では、バイグラム処理の形式においてこのトライグラム認識方法の情報量によって認識を実施する。
【００１３】
本発明を以下において有利な実施例に基づいて図面を参照しつつ詳しく説明する。
【００１４】
図に基づいて本発明を説明するための例として、都市名を一字ずつ区切って読む音声入力を選択することにする。このために使用されるスペリング認識器の辞書はほぼ３０個の文字ならびにDoppel（double「二重の〜」）のようないくつかの付加語又はハイフンを含んでいる。都市名のリストは例えば数万のエントリを含み、このため、一義的なシンタクス的情報（このケースでは文字列）の完全な格納は、このシンタクス的情報を含む辞書のサイズならびに認識の際の所要計算時間を容認できないほどの大きさにしてしまうだろう。
【００１５】
なんらかの予めの設定なしで一字ずつ区切って読む入力を認識する場合の図１に図示されたフローパターンは、記入された矢印によって次のことを示す。すなわち、スタートノードから出発して、語列（この選択された例では個別に発音された文字名）は、設けられた文字のうちの任意の文字によって開始することができ、さらに、この語列が既に終了するのでなければ、各文字には任意の他の文字が続くことができることを示す。この語列の終了は終了ノードによって示されている。
【００１６】
一般に用いられているネットワークグラフ表示には、例えば都市名 Aachen 、Aalen 及び Amberg に対するネットワークパスが記入されている。冒頭に挙げた従来技術ＤＥ１９５０１５９９Ｃ１に記載されているように、このようなネットワークグラフではネットワークの異なる位置で現れる同一のワードノード（文字）によって、このネットワークパスにより設けられる有意味な語列の他にも、多数の無意味な語例が現れる。しかし、これらの無意味な語列はこの言語モデルによれば許されるものと見なされる。
【００１７】
ＤＥ１９５０１５９９Ｃ１ではこの問題を解決するために、ネットワークにおいて複数回現れるワードノードをインデクシングによって区別することが提案されている。インデクシングによってネットワークの全てのワードノードは一義的になり、さらに、各ワードノードにおいて、全ての許容可能な語列の全体を記述するシンタクスとして完全に許容可能な後続のワードノードが示される。とりわけ概念の大きなリストから概念を一字ずつ区切って読む入力の場合には、このインデクシングがなければ、ネットワークグラフの多義性・曖昧性が非常に高くなってしまう。
【００１８】
図４には、図３の例を基礎として本発明の方法が図示されている。わかりやすくするために、本発明の変形実施例が選択されている。この変形実施例では、語列の最初において、一定の予め設定された長さの区間が一義的なシンタクス統合を有する認識方法により処理され、その後で語列評価を有する統計的認識方法に切り換えられる。一義的なシンタクス的制限を有する認識方法としてシンタクス的バイグラム認識方法が基礎となる。語列の最初における開始区間の長さはｋ＝３語と仮定する。長さにおいてア・プリオリに既知でない又は限定されていない後続の語列区間に対しては、トライグラム方法の情報深度を有する語列評価を有する統計的認識方法の投入が仮定されている。さらに本発明のとりわけ有利な実施形態を説明するために、次のようにしてバイグラム認識方法のやり方でトライグラム情報を処理することが記述される。すなわち、トライグラム窓の内側に存在する３語（ワードトリプル(wordtriple)）の情報量が２つのオーバーラップする擬似語（ワードタプル（wordtuple））に分割され、これらの擬似語はそれぞれ基本となるトライグラム窓の２つの互いに連続する語の組み合わせから構成される。
【００１９】
図４に図示された例では、語列の最初のスタートノードから出発して従来技術から公知のやり方でシンタクス的バイグラム認識方法が適用される。図２及び図３においてネットワークパスとして記入された都市名
ＡＡＣＨＥＮ
ＡＡＬＥＮ
ＡＭＢＥＲＧ
に対して、このことは次のことを意味する。すなわち、最初の３つの個別に発音された文字
ＡＡＣ
ＡＡＬ
ＡＭＢ
がシンタクス的バイグラム認識方法によって処理されることを意味する。トライグラム認識方法による後続の語列区間の処理のために、有利には、この最初の区間からの情報が第２の区間の最初に対するヒストリとして一緒に評価される。トライグラムの情報深度による処理に対して、これは次のことを意味する。すなわち、文字列
ＡＣＨＥＮ
ＡＬＥＮ
ＭＢＥＲＧ
が有利にはトライグラム情報サイズを有する情報にとって自由に使用されるべきであることを意味する。従って、一字ずつ区切って読んで入力された語列の第２の区間における処理は、有利には、最初の区間の最後の２つの文字も取り込んでいる。
【００２０】
とりわけ有利には、互いに連続する全ての区間において同一の音声認識器が使用される。このために、第２の区間において、トライグラム情報深度により与えられる情報をバイグラム認識方法のやり方によって処理する。このために、この語列に亘って段階的にスライド式にシフトされるトリグラム窓のワードトリプルを次のようにして擬似ワードタプルに変形する。すなわち、トライグラム窓のワードトリプルのそれぞれ２つの隣接する語を１つの擬似語にまとめるのである。これによって、この選択された例では、次のような擬似語の系列が生じる。
【００２１】
ＡＣＣＨＨＥＥＮ
ＡＬＬＥＥＮ
ＭＢＢＥＥＲＲＧ
ただしここで、それぞれ互いに連続する２つの擬似語（文字ペア）はトライグラム窓からのワードトリプルの言語情報を含んでいる。ワードトリプルを擬似ワードタプルに変形することによって、それぞれ２つの互いに連続する擬似語だけを考慮するバイグラム処理がトライグラム情報深度を維持したままで可能になる。第２の区間におけるこのバイグラム処理によって、音声認識器の構成は語列全体に亘って同じままである。
【００２２】
シンタクス的バイグラム認識方法による処理を有する最初の区間からシンタクス的制限のない擬似語バイグラム認識方法による処理を有する第２の区間への移行においては、有利には、最初の区間において最後のワードノードにすぐ前のワードノードの情報を補足する。この結果、最初の区間において次のようなワードノード（文字）の系列が生じる。
【００２３】
ＡＡＡＣ
ＡＡＡＬ
ＡＭＭＢ
、ただしこの場合、最後のワードノードは、すぐ前のノードの情報を有する擬似語でもある。
【００２４】
図５にはこの原理によって構成された図２及び図３で選択された例に対するネットワークグラフの部分を示している。スタートノードから出発して、このネットワークは最初の区間において単一語ノード（単一文字）によって構成される。これらの単一語ノード（単一文字）は次いで第２の区間への移行において２つの互いに連続する文字の情報サイズをそれぞれ有する擬似語ノードに移行する。擬似語ノード間の移行はそれ自体周知のやり方で学習サンプリング（Lernstichproben）に基づいて評価される。こうして成立するネットワークグラフは２つの異なる認識方法の組み合わせを含んでいる。異なる文字の数に比べて区別可能な擬似語の方がはるかに多数あるにもかかわらず、ネットワーク全体に亘るシンタクス的制限を一貫して適用することを断念することは、高い認識率で処理コストの大幅な低減をもたらすのである。
【００２５】
図５の例では、擬似語ノードの各々から終了ノードへの複数の矢印によって次のことが考慮されている。すなわち、音声入力が完全な語列のほんの一部分の後であってもすでに予め設定されたリストの中から概念を割り当てるには十分であることが考慮される。認識器においては、これを次のような形式で実装することができる。すなわち、この認識器は、この語列の一部分を入力した後で正しいと思われる複数の概念の個数を十分に制限することによって、例えばディスプレイ上でのこれらの複数の概念の選択を提供し、さらに、これによって入力が短縮される、というような形式で実装することができる。
【００２６】
本発明は上述の実施例に限定されず、当業者の可能性の枠内で様々あなやり方で適用可能である。とりわけ第２の方法におけるシンタクス的情報を考慮する範囲は可変的である。
【図面の簡単な説明】
【図１】一字ずつ区切って読む音声入力の例に対する処理の簡単なフローパターンを示す。
【図２】従来技術のネットワークグラフを示す。
【図３】付加的なシンタクス制限を有する図３のグラフを示す。
【図４】図３のグラフの最初の部分及び本発明の適用を示す。
【図５】図４の原理による拡張された実施例を示す。

Claims

所与の語彙の複数の語から成る語列の音声認識のための方法であって、
第１の認識方法及び第２の認識方法が設けられている、所与の語彙の複数の語から成る語列の音声認識のための方法において、
認識すべき語列の別個の区間に対して適用するために、前記第１の認識方法及び前記第２の認識方法が設けられており、
前記第１の認識方法として、統合された一義的なシンタクスを有するバイグラム認識方法が適用され、
前記第２の認識方法として、統計的な語列評価を有する認識方法が適用され、
統合された一義的なシンタクスを有する前記第１のバイグラム認識方法から統計的語列評価を有する前記第２の認識方法への切り換えの際に、前記第１の認識方法によって処理された区間の最後の２つの語が１つの擬似語にまとめられ、該擬似語はバイグラム認識方法によって処理されることを特徴とする、所与の語彙の複数の語から成る語列の音声認識のための方法。
少なくとも１つの区間はその位置及び/又はその長さにおいて予め設定されており、さらに２つの認識方法のうちの１つに固定的に割り当てられていることを特徴とする請求項１記載の方法。
文頭における予め設定された長さの区間は、統合された一義的なシンタクスを有する前記第１の認識方法によって処理されることを特徴とする請求項２記載の方法。
前記第２の方法は統計的なトライグラム認識方法であることを特徴とする請求項１記載の方法。
トライグラム窓のワードトリプルは擬似ワードタプルとして表され、
タプルの２つの擬似語はオーバーラップし、さらに相応するトリプルのそれぞれ２つの語を含んでいることを特徴とする請求項４記載の方法。
基準としては、統合されたシンタクスのない第２の認識方法が適用され、
統合された一義的なシンタクスを有する第１の認識方法への切り換えは、語検出又はフレーズ検出（ワード・スポッティング又はフレーズ・スポッティング）に基づいて行われることを特徴とする請求項１から５のうちの１項記載の方法。