JP2008242462A

JP2008242462A - 多言語の非ネイティブ音声の認識

Info

Publication number: JP2008242462A
Application number: JP2008084074A
Authority: JP
Inventors: Guenther Wirsching; ワーシュインギュンター; Marcus Hennecke; ヘネクマルクス; Markus Schwarz; シュワルツマルクス; Daniel Willett; ウィレットダニエル
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2007-03-28
Filing date: 2008-03-27
Publication date: 2008-10-09
Anticipated expiration: 2028-03-27
Also published as: JP5189874B2; KR20080088490A; CA2626651A1; EP1975923A1; KR101526918B1; CN101276585A; CN101276585B; EP1975923B1

Abstract

【課題】音声認識システムが、訓練された言語とは別の自然言語から来るリスト要素の音声駆動の選択の機会を提供すること。
【解決手段】音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、該音声入力に対する一連のサブワード単位を認識するステップと、該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップとを包含する、方法。
【選択図】図１

Description

本発明は、音声入力を介して、要素のリストからリスト要素を選択する方法とそのシステムとに関する。

多くの電子用途が、ユーザによって音声誘導または音声制御される設計工程またはシーケンスを有する。電子用途は、車両のための目的地誘導システム、電話および／または住所のシステムなどを含む。車両は、オートバイ、トラック、ボート、航空機などを含む。

これらの工程またはシーケンスにおいて、ユーザは、音声認識ユニットに音声入力を提供する。音声入力は、ユーザがリストまたは一群のリスト要素から選択することを望むリスト要素に対応し得る。音声認識ユニットは、音声入力を処理し、処理された音声入力に応答して、所望のリスト要素を選択する。

特許文献１は、ユーザの音声入力によって実行される２つのステップの認識処理を使用する音声認識システムを開示する。１つの認識処理は、音声入力の単語全体を音声サブユニットの少なくとも１つのシーケンスに分割し、リスト要素の語彙を作成する。次の認識処理は、音声入力の単語全体をリスト要素の語彙と比較する。

現在の処理方法では、リスト要素の言語と認識システムの言語とが同じであることを必要とする。例えば、ナビゲーションの用途において、ドイツ語のナビゲーションシステムを有するユーザは、フランスで運転をするときに、目的地の音声駆動選択が困難であり得る。
国際公開第２００４／０７７４０５号パンフレット

従って、音声認識システムが、訓練された言語とは別の自然言語から来るリスト要素の音声駆動選択の機会を提供する必要性が存在する。

本発明は、独立クレームにおいて述べられたような方法および音声認識システムを提供することによって、この必要性を克服する。従属クレームにおいては、本発明の好適な実施形態が記述される。

本発明の第１の局面に従って、本発明は、音声入力を介して、要素のリストからリスト要素を選択するために提供される。該方法は、音声入力に対する一連のサブワード単位を認識するステップを備えている。さらなるステップにおいて、認識された一連のサブワード単位が該要素のリストと比較され、比較の結果に基づいて、最も良く調和する要素の候補リストが生成される。最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む、行列成分を含む混同行列が使用される。従来のシステムにおいて、音声認識システムにおいて使用される混同行列は、同じ言語のサブワード単位を比較する。ここで、本発明の一局面は、異なる言語を比較し得る混同行列を構築し、使用することである。混同行列はサブワード単位の所与の組に対してサブワード単位の組を定義し、このサブワード単位の組は、各サブワード単位に対して認識システムによって、誤って認識され得るものである。サブワード単位は、言語の音素もしくは音節、またはその他任意の単位、例えば、音素のより大きな群または部分音素のようなより小さな群に対応し得る。サブワード単位が音素であるときには、音素のシーケンスは、音声入力に最も良く調和する一連のサブワード単位として決定される。

好適には、混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第１の言語のサブワード単位、および第１の言語とは異なる第２の言語のサブワード単位を含む。行列の各成分は、特定のサブワード単位の対に対する混同の可能性を表す。各行列成分は、どの程度、サブワード単位の対のうちの第１のサブワード単位が、サブワード単位の対のうちの他のサブワード単位と混同しやすいかを数字で具体的に表す。好適には、混同行列は、第１の言語の可能なサブワード単位と、第１の言語のこれら可能なサブワード単位が、第２の言語の可能なサブワード単位と混同される可能性とを含む。２つの言語のサブワード単位は、一般的に、サブワード単位または音素の数が異なるので、混同行列はもはや正方ではない。１つの言語だけのサブワード単位を比較する混同行列は、正方である。なぜならば、このような行列は同じ数の列と行とを有するからである。

本発明の別の局面に従って、一連のサブワード単位は、第１の言語以外の音声入力を認識するために、第１の言語のサブワード単位を認識するように訓練されたサブワード単位の音声認識ユニットを使用して認識される。この局面の概念は、同じ識別器を使用するが、外国語による認識のために使用される混同行列を訓練することである。例えば、ドイツ語を理解するように訓練されたサブワード単位の音声認識ユニットが、混同行列の混同の可能性を評価するために、別の言語、例えば、フランス語または英語でサブワード単位のシーケンスを認識するために使用される。このアプローチの利点は、音声認識ユニットが、２つの異なる言語間の最も一般的なサブワード単位の混同を暗黙のうちに学ぶことである。

本発明の一局面において、異なる混同行列は、異なる言語の対に対する混同の可能性を提供され得る。この実装において、いくつかの混同行列が、異なる言語の対に対して利用可能である。これは異なる言語に対する調和を可能にする。異なる言語の対と異なる混同行列とが利用可能であるときには、混同行列は、最も良く調和する要素の候補リストを生成するために使用されるように選択されなければならない。

このために、音声入力の言語の対を決定することと、ユーザの言語を決定することによって、および要素のリストの言語を決定することによって対応するように混同行列を選択することとが好ましい。音声認識の用途の大部分において、音声認識システムのユーザの言語は既知である。要素のリストの言語を決定することが可能である場合には、言語の対が既知となる。

要素のリストが、リストの目的地のうちの１つにユーザを導くために、ナビゲーションシステムにおいて使用される目的地のリストを含むときには、次の方法で、言語の対のうちの言語の１つを決定することが可能である。最初に、例えば、車両の現在地を決定することによって、および車両の現在地を地図と比較することによって、どの国でナビゲーションシステムが使用されているかが決定されなければならない。車両の位置が既知であるときには、車両が移動している国が推定され得る。国が既知であるときには、その国の公用語が決定され得る。例えば、車両がドイツを移動しているときには、目的地のリストはドイツ語名を含むことが推定され得、車両がフランスを移動しているときには、リストは、都市の名前、または他の目的地などの、フランス語のリスト要素を含み得る。

本発明の別の局面において、ナビゲーションシステムのユーザの言語が決定され、この言語は、言語の対のうちのもう１つの言語として使用される。ナビゲーションシステムの使用者は、通常、ナビゲーションシステムに対するユーザの言語として所定の言語を選択する機会を有しており、他の言語が選択されない限り、この言語が、動作中、初期値として使用される。ユーザの言語および要素のリストの言語が既知であるときには、言語の対が既知となり、その結果、適切な混同行列を選択することが可能である。

ユーザの言語が既知であり、かつ、リスト要素の言語もまた既知であると、混同行列は決定され得る。

音声認識方法が、ナビゲーションシステムと共に使用されるときに、２つ以上の公用語を有する国、例えば、ドイツ語、イタリア語およびフランス語の公用語を有するスイス、または２つの公用語を有するベルギーを、車両が移動することもまたあり得る。この場合、異なる言語での要素の異なるリストが提供され得、最も良く調和する項目の候補リストが決定されなければならない。音声認識システムのユーザの言語は既知である。しかしながら、この場合、ドイツ語に対するユーザの言語の混同行列、フランス語に対するユーザの言語の混同行列、またはイタリア語に対するユーザの言語の混同行列が使用されるかどうかが決定されなければならない。３つの混同行列に加えて、要素の３つの異なるリスト、すなわち、ドイツ語での目的地のリスト、フランス語での目的地のリスト、およびイタリア語での目的地のリストが提供される。ここで、どのリストおよびどの混同行列が調和ステップに対して使用されるかに関して、問題が生じる。１つのアプローチは、３つの異なる混同行列をまた使用して、異なるリストを組み合わせ、３つ全てのリストから最も良く調和するエントリを編集することである。このアプローチの不利な点は、要素の２つ以上のリストがサーチされなければならず、サーチ時間を大幅に増加させる。さらに、言語のそれぞれにおいて、同じエントリが選択されやすく、最も良く調和する要素のリストにおける異なるエントリの数を減少させる。

別のアプローチに従って、異なる混同行列が異なる言語の対と共に提示され、複数のリストが提供されるとき、および混同行列のうちの１つが、最も良く調和する要素の候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択され得る。これは、ユーザの言語に最も良く調和する言語が選択されることを意味する。混同行列が一旦選択されると、異なるリストの要素のリストが、選択された混同行列に従って選択され得る。

各行列のスコアを計算することによって、最も少ない数の平均混同を決定することが可能であり、スコアは、ユーザの言語に対する適合度を示す。例えば、スコアは、優先順位によって利用可能な言語を分類するために使用され得る。ユーザが一部の言語の好みを示す場合、すなわち、ユーザが旅行している国の言語のうちの１つを、ユーザが話すことができる場合、これらの好みがまた、適切な混同行列および適切な対応する要素のリストを選択するために考慮され得る。

可能な言語の対は事前に知られる。従って、使用中にスコアを計算することは必ずしも必要ではない。前もってスコアを計算することと、異なる行列を有するそれぞれのスコアを格納することとが可能である。正方行列の場合、主対角のエントリは、自己混同の可能性に対応するが、一方、非対角要素は、不正確な認識、すなわち、認識の誤りに対応する。行列内の全ての誤りを数えることは、リストと認識システムとの間の適合度を決定する１つの方法である。残念ながら、このアプローチは、本事例においては困難をもたらし得る。なぜならば、行列は、異なる音素の組を用いて２つの異なる言語を比較するからである。

本発明の一実施形態に従って、各行列のエントロピーを決定することによってスコアを決定することが可能であり、エントロピーが低ければ低いほど、ユーザの言語に対するより良い適合となる。本明細書において使用される統計学的アプローチにおいて、エントロピーは微細な構成の数の基準である。本アプローチにおいて、エントロピーは行列の各行に対して決定され得る。エントロピーが大きい場合には、これは、この行の全ての異なる行列成分に対する混同の可能性がほぼ同じであることを意味する。本文脈において、これは、第１の音素、すなわちサブワード単位が、もう１つの言語の音素またはサブワード単位として理解される可能性が、もう１つの言語の全ての音素に対してほぼ同じであることを意味する。本文脈において、各列および異なる列を追加することによる完全な行列のエントロピーが、低くなれば低くなるほど、ユーザの言語に対するより良好な適合となり、かつ混同の可能性がより低くなる。

さらに、共通の情報を決定することによって、スコアを計算することが可能であり、共通の情報が多ければ多いほど、ユーザの言語に対するより良い適合となる。混同行列に対する混同の可能性を評価するために、認識の実行が行われなければならない。従って、訓練の組における各発話に対して、正しい音素シーケンスと認識された音素のシーケンスとの両方が利用可能である。これは、音素シーケンス間の共通の情報を計算することを可能にする。共通の情報が多ければ多いほど、認識された一連の音素の予示力がより良くなり、行列がより良くなる。

さらに別のアプローチは、現実のデータに関する実際の認識実験を行うことである。この実施形態において、スコアは、異なる行列を使用して、かつ、テストデータを使用して、認識実験を行うことによって決定され、行列は候補リストを生成するために使用される最も高い認識率を有する。このアプローチは、とりわけ最も費用のかかるものであるが、このアプローチはまた、最も正確なスコアを届ける。

本発明のさらなる局面に従って、本発明は、音声入力を使用して要素のリストからリスト要素を選択する音声認識システムに関する。該システムは、音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットを備えている。サブワード単位の比較ユニットは、認識された一連のサブワード単位を要素のリストと比較し、比較の結果に基づいて最も良く調和する要素の候補リストを生成する。さらに、混同行列はメモリ内に提供され、混同行列は、少なくとも１つの混同行列を格納するメモリであって、各行列は、第１の言語のサブワード単位が第２の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む。サブワード単位の比較ユニットは、該少なくとも１つの多言語の混同行列に基づいて、最も良く調和する要素のリストを生成する。上記の音声認識システムは、リスト要素の言語以外の言語でのリストからのエントリの音声による選択を可能にする。具体化されたデバイス上で働くように、音声認識システムがメモリおよびＣＰＵの両方を効率的にするという利点を、音声認識システムは有する。

混同行列の各行列成分が、特定のサブワード単位の対に対する混同の可能性を表すように、行列は設計され得、サブワード単位の対は、第１の言語のサブワード単位と第２の言語のサブワード単位とを含む。音声認識システムは、国際公開第２００４／０７７４０５号に記述されているような、２つのステップの音声認識システムであり得る。このような実施形態において、音声認識の第１のステップは、要素のより大きいリストから、最も良く調和する項目の候補リスト、すなわち、より小さいリストを生成する。第２の音声認識ステップは、音声入力に最も良く調和する候補リストから項目を認識し選択する。短い候補リストが生成されると、短い候補リストは、第２の認識ステップのために、認識システム内に登録されなければならない。これは上記のように行われるが、ここでは、認識システムは、異なる言語のエントリを扱う。例えば、ドイツ語の認識システムが英語の音素を受信し得る。当該分野において、外国語の音素の組から識別器の言語の音素の組へのマッピングを行う方法は、当業者にとって利用可能でありかつ公知である。あるいは、識別器は、外国語の音素を扱うために、異なる言語からの音響モデルを用いて使用され得る。短いリストは、全リストの成分のうちの一部分を含むだけであるので、両方のアプローチは実行可能である。

音声認識システムと多言語の混同行列を使用する第１の認識ステップとに戻って参照すると、サブワード単位の音声認識ユニットは、第１の言語のサブワード単位を認識するように訓練され得、第１の言語以外の言語の音声入力に対して一連のサブワード単位を生成し得る。上記のように、アプローチの利点は、システムが２つの異なる言語間の最も一般的な混同を暗黙のうちに学ぶことである。異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む格納ユニットが提供され得る。

どの行列とどの要素のリストとが使用されるべきかを決定するために、音声認識システムは、サブワード単位の１つの対または複数の対の２つの言語を決定する、言語の対の決定ユニットを備え得る。

ナビゲーションの用途において、異なる要素のリスト、またはユーザが誘導され得る異なる国に対する異なる目的地を含むデータベースが提供される。言語の対を決定するために、音声認識システムのユーザの言語を決定するユーザの言語決定ユニットが提供され得、このユーザの言語は、サブワード単位の対の言語のうちの１つを決定するために使用される。さらに、車両が移動する国の１つの公用語または複数の公用語を決定する国決定ユニットが提供され得、１つの言語または複数の言語は、言語の対のうちのもう１つの言語を決定するために使用される。

言語の対が既知であるときには、複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、混同行列選択ユニットは、言語の対の決定ユニットから受信された情報に依存して、混同行列を選択する。混同行列選択ユニットが、ユーザの言語と、車両が移動する国の公用語とを考慮に入れて、混同行列を選択し得ないとき（例えば、国が２つ以上の公用語を有するとき）には、各混同行列の混同の平均数を決定する混同決定ユニットが使用され得る。次に、混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する。このために、混同行列のそれぞれに対するスコアを決定するスコア決定ユニットが提供され得、スコアは、ユーザの言語に対する適合度を示す。スコア決定ユニットは、常時、音声認識システムの中に提供される必要ないことを理解されたい。スコア決定ユニットは、異なるスコアを決定するために一度だけ提供される必要がある。スコアが計算されてスコアが各混同行列に対して決定され、スコアが対応する行列に格納されたあと、スコア決定ユニットはこれ以上存在する必要はない。異なる行列のスコアに依存して、混同行列選択ユニットは、該複数の混同行列から混同行列を選択する。好適には、音声認識システムは、上記の方法に従って働く。

本発明はさらに以下の手段を提供する。

（項目１）
音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含する、方法。

（項目２）
上記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第１の言語のサブワード単位と第２の言語のサブワード単位とを含む、項目１に記載の方法。

（項目３）
上記混同行列は、第１の言語の可能なサブワード単位と、該第１の言語の該可能なサブワード単位が、別の言語のサブワード単位と混同される可能性とを含む、項目１または項目２に記載の方法。

（項目４）
上記一連のサブワード単位は、第１の言語以外の言語の上記音声入力を認識するために、該第１の言語のサブワード単位を認識するために訓練されたサブワード単位の音声認識ユニットを使用して認識される、項目１〜項目３のうちのいずれか１項に記載の方法。

（項目５）
異なる混同行列が提供され、異なる言語の対に対する混同の可能性を提供する、項目１〜項目４のうちのいずれか１項に記載の方法。

（項目６）
上記言語の対と上記対応する混同行列とは、ユーザの言語を決定することによって、および上記要素のリストを決定することによって決定される、項目１〜項目５のうちのいずれか１項に記載の方法。

（項目７）
上記要素のリストは、該リストの目的地のうちの１つに上記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地を含む、項目１〜項目６のうちのいずれか１項に記載の方法。

（項目８）
どの混同行列が使用されるべきかを決定するために、どの国で上記ナビゲーションシステムが使用されるかが決定され、上記情報は、上記異なる目的地を含む上記要素のリストの言語を決定するために、および／または上記言語の対のうちの１つの言語を決定するために使用される、項目５および項目７に記載の方法。

（項目９）
どの混同行列が使用されるべきかを決定するために、上記ナビゲーションシステムの上記ユーザの上記言語が決定され、該ユーザの該言語は、上記言語の対のもう１つの言語を決定するために使用される、項目６〜項目８のうちのいずれか１項に記載の方法。

（項目１０）
上記混同行列は、上記ナビゲーションシステムが使用される上記国の上記言語に依存して、かつ、上記ユーザの上記言語に依存して選択される、項目８および項目９に記載の方法。

（項目１１）
要素の異なるリストが異なる言語で提供され、上記最も良く調和する項目の候補リストが決定されるときには、該異なるリストは組み合わせられ、該最も良く調和する項目の候補リストは、該異なるリストからの該要素に基づいて生成される、項目１〜項目１０のうちのいずれか１項に記載の方法。

（項目１２）
異なる混同行列が異なる言語の対を提供され、複数のリスト要素が提供されるとき、および該混同行列のうちの１つが、上記候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択される、項目１〜項目１１のうちのいずれか１項に記載の方法。

（項目１３）
上記混同行列のうちの１つが既に選択されているときには、上記異なるリストのうちの上記要素のリストが、該選択された混同行列に従って選択される、項目１２に記載の方法。

（項目１４）
上記最も少ない数の平均混同を決定するために、スコアが各行列に対して計算され、該スコアは、上記ユーザの言語に対する適合度を示す、項目１２または項目１３に記載の方法。

（項目１５）
上記スコアは、各行列のエントロピーを決定することによって決定され、該エントロピーが低ければ低いほど、上記ユーザの言語に対する上記適合度はより良くなる、項目１４に記載の方法。

（項目１６）
上記スコアは、共通の情報を決定することによって決定され、該共通の情報が多ければ多いほど、上記ユーザの言語に対する上記適合度はより良くなる、項目１４または項目１５に記載の方法。

（項目１７）
上記スコアは、上記異なる行列を使用して、かつ、テストデータを使用して認識実験を行うことによって決定され、該行列は、上記候補リストを生成するために使用される最も高い認識率を有する、項目１４から項目１６のうちのいずれか１項に記載の方法。

（項目１８）
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するサブワード単位の比較ユニットと、
少なくとも１つの混同行列を格納するメモリであって、各行列は、第１の言語のサブワード単位が別の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む、メモリと
を備えており、
該サブワード単位の比較ユニットは、該少なくとも１つの混同行列に基づいて、該最も良く調和する要素のリストを生成する、音声認識システム。

（項目１９）
上記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第１の言語のサブワード単位と第２の言語のサブワード単位とを含む、項目１８に記載の音声認識システム。

（項目２０）
上記混同行列は、第２の言語のサブワード単位に対する第１の言語の可能なサブワード単位の混同の可能性を表す行列成分を含む、項目１８または項目１９に記載の音声認識システム。

（項目２１）
上記サブワード単位の音声認識ユニットは、第１の言語のサブワード単位を認識するように訓練され、該第１の言語以外の言語の音声入力に対する上記一連のサブワード単位を生成する、項目１８〜項目２０のうちのいずれか１項に記載の音声認識システム。

（項目２２）
上記メモリは、異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む、項目１８〜項目２０のうちのいずれか１項に記載の音声認識システム。

（項目２３）
上記システムは、上記サブワード単位の対の上記２つの言語を決定する言語の対の決定ユニットをさらに備えている、項目２２に記載の音声認識システム。

（項目２４）
上記要素のリストを含むデータベースが提供され、該要素のリストは、該リストの目的地のうちの１つに上記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地に対応する、項目１８〜項目２３のうちのいずれか１項に記載の音声認識システム。

（項目２５）
上記言語の対の決定ユニットは、上記音声認識システムのユーザの言語を決定するユーザの言語決定ユニットを備えており、該ユーザの言語は、該サブワード単位の対の言語のうちの１つを決定するために使用される、項目２３または項目２４に記載の音声認識システム。

（項目２６）
上記言語の対の決定ユニットは、車両が移動している国の公用語を決定する国決定ユニットをさらに備えており、該言語は、言語の対のもう１つの言語を決定するために使用される、項目１８〜項目２５のうちのいずれか１項に記載の音声認識システム。

（項目２７）
上記国決定ユニットは、実際の車両の位置を決定し、該車両が移動している国の１つの公用語また複数の公用語を推測する車両位置決定ユニットを備えている、項目２６に記載の音声認識システム。

（項目２８）
複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、該混同行列選択ユニットは、上記言語の対の決定ユニットから受信された情報に依存して該混同行列を選択する、項目１８〜項目２７のうちのいずれか１項に記載の音声認識システム。

（項目２９）
上記車両が移動している国の１つの公用語または複数の公用語を決定する公用語決定ユニットと、
一群の混同行列から混同行列を選択する混同行列選択ユニットであって、該群は、上記言語の対のうちの１つの言語はユーザの言語であり、該言語の対のうちのもう１つの言語は、該車両が移動している国の該公用語のうちの１つである混同行列を含む、混同行列選択ユニットと
をさらに備えている、項目１８〜項目２８のうちのいずれか１項に記載の音声認識システム。

（項目３０）
各混同行列の混同の平均数を決定する混同決定ユニットが提供される、項目１８〜項目２９のうちの任意の１項に記載の音声認識システム。

（項目３１）
上記言語のうちの１つはユーザの言語であり、上記もう１つの言語は、上記音声認識システムが使用される国の公用語である言語の対を有するいくつかの混同行列が提供される場合には、上記混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する、項目２９および項目３０に記載の音声認識システム。

（項目３２）
上記混同行列選択ユニットは、どの行列が最も少ない数の混同を有するかに関する情報を提供する混同決定ユニットの情報に従って、上記混同行列を選択する、項目２９から項目３１に記載の音声認識システム。

（項目３３）
各混同行列に対するスコアを決定するスコア決定ユニットが提供され、該スコアは、上記ユーザの言語に対する適合度を示す、項目１８〜項目３２のうちのいずれか１項に記載の音声認識システム。

（項目３４）
上記混同行列選択ユニットは、上記異なる行列の上記スコアに依存して、上記複数の混同行列から混同行列を選択する、項目２９〜項目３３のうちのいずれか１項に記載の音声認識システム。

（項目３５）
上記音声認識システムは、項目１〜項目１７のうちのいずれか１項において請求された方法に従って働いている、項目１８〜項目３４のうちのいずれか１項に記載の音声認識システム。

（項目３６）
要素のリストから最も良く調和する要素の候補リストを生成する方法であって、
音声入力から一連のサブワード単位を生成することと、
１つの言語のサブワード単位を別の言語のサブワード単位と関連付ける混同行列を使用して、該一連のサブワード単位を転記することと、
該転記されたストリングを上記要素のリストと比較することと、
該比較結果に基づいて、該最も良く調和する要素の候補リストを作成することと
を包含する、方法。

（項目３７）
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力から一連のサブワード単位を生成する手段と、
異なる言語のサブワード単位と関連する可能性を含む少なくとも１つの混同行列を格納する手段と、
該一連のサブワード単位を該要素のリストと比較する手段であって、該比較は、該少なくとも１つの混同行列を使用する、手段と、
該比較結果に基づいて、最も良く調和する要素の候補リストを生成する手段と
を備えている、システム。

（項目３８）
上記一連のサブワード単位の言語は、上記要素のリストの上記要素の言語とは異なり、上記混同行列は、該２つの言語のサブワード単位に対する混同の可能性を含む、項目３７に記載のシステム。

（項目３９）
上記候補リストから要素を選択する認識手段と、
該候補リストを該認識手段に登録する手段と
をさらに備えている、項目３８に記載のシステム。

（項目４０）
音声入力を介して要素のリストからリスト要素を選択するための、プロセッサで実行可能な命令を有する、プロセッサで読み取り可能なメディアであって、該メディアは、デバイスのプロセッサで実行されたときに、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含するステップを実行する、メディア。

（摘要）
本発明は、音声入力を介して、要素のリストからリスト要素を選択する方法に関し、該方法は、以下のステップ：該音声入力に対する一連のサブワード単位を認識するステップと、該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も調和する要素の該候補リストを生成するために、（異なる自然言語のサブワード単位を含む）異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップとを包含する。

本発明は、以下の図面と記述とを参照することにより、さらに良く理解され得る。図面内のコンポーネントは、必ずしもサイズを合わせて作られておらず、その代わりに本発明の原理を例示することに重点を置いている。

図１において、音声入力の多言語の認識を可能にする音声認識システムが示されている。図１に示されたシステムは、特に、ユーザの言語以外の言語でのリストからのエントリの音声による選択を可能にする。示された実施形態において、システムは、ユーザを所定の目的地に導くナビゲーションシステムと関連して示されている。しかしながら、本発明は、音声入力を介した目的地の選択に制限されない。本発明は、ユーザの言語以外の言語での音声入力が正確に識別されるべきあらゆる状況において使用され得る。多くの音声認識システムにおいては、認識出力としての音響信号の最も可能性の高い復号が、ユーザに出力されるか、または最も良く調和する結果がユーザに出力され、その結果、ユーザが、最も良く調和する結果のうちの１つを選択する。システムは、認識処理の間に考えられた複数の推測を維持しており、現在の文脈において最も良く調和する要素と呼ばれるこれら複数の推測は、検索システムによって探査されている追加の情報に対する根拠を提供する。音声認識システムにおける１つの課題は、既知および未知の語彙用語に関する概念であり、語彙とは、音声認識システムが音声を文章に翻訳するために使用する一組の単語である。復号化処理の一部分として、音声認識システムは、音声入力の音質を語彙内の単語に調和させる。従って、語彙内の単語だけが認識されることが可能である。語彙にない単語は、多くの場合に、音声認識システムにとって既知ではない別の単語に音声上似ている既知の語彙の単語として誤って認識される。語彙は、任意の語彙、例えば、名前、住所、または一言語における単語の完全な組のようなその他任意の語彙であり得る。従って、語彙は、目的地を記述するリスト要素には限定されず、語彙は、任意の種類のリスト要素を含み得る。

図１は、音声認識システムを概略的に示しており、該音声認識システムにおいて、音声入力が、サブワードの音声認識ユニット１０に入力される。サブワードの音声認識ユニット１０は、音声入力を処理し、一連のサブワード単位、示された実施形態においては音素ストリングを生成する。音素ストリングはマッチャ１１に供給され、該マッチャ１１において、音素ストリングは、データベース１２に格納された要素のリストと比較される。示された実施形態において、データベース１２は様々なリストに目的地を含む。例えば、リストＡにおける国Ａに対して、この国の中で到達され得る全ての可能な目的地が含まれる。このようなリストは、多数のエントリ、例えば、５０，０００または１５０，０００を上回るリスト要素を有し得る。示された実施形態において、リストはナビゲーションデータを含む。しかしながら、リストはまた、個人の名前、電話番号またはその他任意のデータを含み得る。データベース１２において、リストはそれぞれの国の公用語で提供される。示された実施形態において、国Ａおよび国Ｂが１つの公用語を有しており、その結果、１つのリストが各国に提供される。国Ｃは２つの公用語を有しており、その結果、第１および第２の公用語に対する異なる目的地のリストが存在する。ユーザがリストの要素のうちの１つを選択したいときには、音声入力がこのリスト要素を含む。マッチャは、サブワードの音声認識ユニットから受信された音素ストリングを比較して、最も良く調和する項目の候補リストを生成し、その結果、候補のリストが少数の要素を含む場合には、最も良く調和する項目の候補リストがユーザに直接的に提示され得る。しかしながら、候補リストはまた、非常により多くの数、例えば、５００または２，０００のリスト要素を含み得る。このような場合、最も良く調和する要素の候補リストは、第２の認識ステップの基礎を形成し、該第２の認識ステップにおいて、音声入力は、このより少数のリストと比較される。

ナビゲーションシステムのユーザは、現在、ユーザの言語とは別の言語が話されている国を旅行してもよい。例えば、英語のナビゲーションシステムを使用するイギリス人のドライバーは、ドイツまたはフランスを旅行してもよく、またはドイツ人のユーザは、フランスまたはイギリスを旅行してもよい。これらの例において、リスト内に格納された目的地は、ユーザの言語とは別の言語を有するリスト要素である。

ユーザが別の言語の都市名を発したときに、より高い認識率を可能にするために、様々な混同行列を含むメモリ１３が提供される。示された実施形態において、メモリ１３は、ドイツ語のサブワード単位とイタリア語のサブワード単位とを含む第１の混同行列を含む。さらに、ドイツ語および英語のサブワード単位を比較する混同行列が提供され、かつ、フランス語および英語の音素の組、すなわち、サブワード単位を含む混同行列が提供される。

図２にまた参照を行うと、混同行列２０をさらに詳細に示している。混同行列は複数の行列成分２１を含み、該行列成分は、音質が別のサブワード単位に属することを考慮して、１つのサブワード単位が認識される可能性を示す。各行列成分２１において、Ｃ_ｉｊは特定のサブワードの対に対する混同の可能性、すなわち、Ｃ_ｉｊ＝Ｐ（ｊ／ｉ）を表し、ここで、Ｃ_ｉｊは、どの程度、サブワード単位ｉがサブワード単位ｊと混同しやすかを数字で具体的に述べる。Ｐ（ｊ／ｉ）は、音質がサブワード単位ｉに属することを考慮して、ｊが認識される可能性である。示された実施形態において、上部左側の行列成分２１は、サブワード単位２２に対する混同の可能性を表す。図２に示された実施形態において、大文字は、１つの言語のサブワード単位、すなわち音素を表し、小文字は他の言語のサブワード単位、すなわち音素を表す。第１の言語は可能なサブワード単位ＡＡ−ＺＺを有し、第２の言語はサブワード単位ｂａ−ｚｚを有する。２つの異なる言語の音素の組は、通常、音素の数が異なるので、混同行列はもはや正方ではない。

ここで、図１に示されたシステムは、これらの混同行列のうちのいくつかを含み、各混同行列は、別の言語のサブワード単位との１つの言語のサブワード単位の混同の可能性を示す。

図３に関して、どの混同行列とどのリストとが使用されるかが決定され得る方法がさらに詳細に述べられる。最も良く調和する結果を決定するために、どの混同行列が使用されるべきかを決定するために、言語の対が決定されなければならない。ユーザの言語はシステムには既知である、例えば、ユーザはドイツ語を話すことをシステムは知っており、この言語が初期値として設定されるので、言語の対のうちの１つの言語が決定され得る。ここで、言語の対のうちのもう１つの言語は、以下の方法で決定され得る。このために、言語の対の決定ユニット３１が提供され、言語の対の決定ユニットは、ユーザの言語を１つの入力として受信する。言語の対の決定ユニットは、さらに、どの国で音声認識システムが使用されているかを決定する国決定ユニット３２を備えている。ナビゲーションの用途において、システムは、通常、（車両内で使用されるときには車両の）システムの現在の位置を決定する位置決定ユニット３３を備えている。車両またはシステムの位置が既知であるときには、国は車両の位置を地図データと比較することによって容易に決定され得る。ここで、言語の対の決定ユニットが、言語の対のうちの２つの言語を知っていると、次に、対応する混同行列を検索するために、メモリ１３にアクセスし得る。例えば、イギリス人のユーザがフランスを旅行する。結果として、言語の対の決定ユニットは、英語およびフランス語のサブワード単位に対する混同の可能性を含む混同行列を検索する。この混同行列はマッチャに送信され、該混同行列は、データベース１２のリストのうちの１つと関連して使用される。車両が動いている国が既知であるという事実によって、リストもまた既知となる。上で述べられた例において、これは、イギリス人のユーザが、フランス語の目的地のリストを使用して、フランス語名を有する、フランス内の目的地を選択することを意味する。このために、英語−フランス語の言語の対を含む混同行列が使用される。

通常、これらの混同行列は事前に決定され、システム内に格納される。混同の可能性を決定するために、システムは訓練されなければならない。本発明の別の局面に従って、混同行列の混同の可能性が、同じマッチャによって決定され得るが、外国語に関して決定され得る。例えば、英語のマッチャが、フランス語のデータに関する音素シーケンスを認識するために使用され、混同行列の混同の可能性を評価する。このアプローチの利点は、このアプローチが、フランス語と英語との間の最も一般的な音声上の混同を暗黙のうちに学び得るということである。異なる言語の対を有する様々な混同行列を提供することによって、システムは異なる言語に対する調和を可能にする。

しかしながら、状況もまたより複雑になり得る。例えば、ユーザが、２つ以上の言語を有する外国で音声認識システムを使用していることもあり得る。示された実施形態において、データベースは、３つの異なるリストＣ１、Ｃ２およびＣ３を有する国Ｃを含む。例えば、システムがスイスにおいて使用されるときには、スイスの要素のリスト（すなわち、目的地）が、ドイツ語、フランス語およびイタリア語で利用可能であり得る。しかしながら、スイス内のイギリス人の旅行者は、これらの言語のうちのいずれも話せないことがあり得る。しかしながら、言語の対、英語−イタリア語、英語−フランス語および英語−ドイツ語のうちの任意のものに対する混同行列が存在し得る。ここで、調和のためにどの言語のリストを使用するかに関して、問題が生じ得る。

１つのアプローチは、単に全てのリストを使用して、全てのリストから最も良く調和するエントリを編集することである。しかしながら、このアプローチの不利な点は、２つ以上のリストがサーチされなければならず、その結果、サーチ時間が大幅に増加させることである。各リストが５０，０００以上のエントリを有し得ることを考慮に入れると、このようなアプローチはあまりにも効率的ではない。このアプローチの別の不利な点は、同じエントリが言語のそれぞれにおいて選択され、その結果、最も良く調和する結果における明確なエントリの数を減少させ得る。ここで、ユーザが特定の言語の好み（例えば、イギリス人の旅行者が、スイスの公用語のうちの１つを話すことができる）を示すことが可能である。従って、この好みが適切な混同行列と対応するリストとを選択するために使用され得る。例えば、イギリス人の旅行者がドイツ語を話す場合に、英語−ドイツ語の混同行列とドイツ語のエントリのリストとが最も良く調和する結果を決定するために使用され得る。

しかしながら、好みが存在しないこともまた可能である。この状況において、処理は以下のとおりであり得る。最も少ない数の平均混同を有する言語の対を選択するような方法で、システムは構成され得る。上で述べられた例に対して、これは、言語の対は、英語−ドイツ語、英語−フランス語および英語−イタリア語の間で選択されることを意味する。言語の対、対応する混同行列、および関連のリストが決定されなければならない。ユーザの言語に最も良く調和する言語が、ユーザの言語に対する適合度を表すスコアを事前に決定することによって選択され得る。図３に示された実施形態において、スコアは混同行列と共に格納される。スコアを決定するために、スコア決定ユニットが提供され得る。スコアが行列と共に格納される場合には、スコアは使用中に計算される必要はない。しかしながら、音声認識システムの設計の間には、スコアは何らかの方法で決定されなければならない。スコアを計算するいくつかのアプローチが可能である。正方行列の場合、主対角のエントリは、自己混同の可能性に対応するが、一方、非対角要素は、不正確な認識に対応する。すなわち、認識の誤りがある。行列内の全ての誤りを数えることは、２つの言語間またはリストと識別器の間の適合度を決定する１つの方法である。残念ながら、このアプローチを実行することは困難であり得る。なぜならば、本事例の場合、行列は、異なるサブワード単位の組を用いて２つの異なる言語を比較するからである。行列は、通常、もはや正方ではなく、その結果、非対角の行列成分を決定することが困難であり得る。スコアを決定する別の可能性は、行列のエントロピーの測定を使用することである。行列のエントロピーは、行列の適用後に残っている不確実性の基準である。不確実性が少なければ少ないほど、より良い適合度が残る。別の可能なアプローチは、共通の情報を計算することである。混同行列の混同の可能性を評価するために、認識の実行が行われなければならない。訓練の組における各発言に対して、正しい音素シーケンスと認識された音素のシーケンスとの両方が利用可能である。これは、音素シーケンス間の共通の情報を計算することを可能にする。共通の情報が多ければ多いほど、認識された音素シーケンスと行列との予示力とがより良くなる。さらに別のアプローチは、現実のデータに関する実際の認識実験を行うことである。このアプローチは、とりわけ最も費用がかかるが、このアプローチはまた、最も正確なスコアを届ける。最も高い認識率を有する行列がこの場合勝利する。

正しい行列を選択するために、混同行列選択ユニット３４は、必要とされる行列および対応するリストを提供され、いくつかの混同行列およびいくつかのリストが可能である場合に決定を行う。混同行列選択ユニットは、最も少ない数の平均混同を有する混同行列を選択する。ユーザの言語は既知であり、言語の対の他の言語は、ここで、システムが使用される国の公用語からユーザの言語に最も良く適合する言語を選択することによって決定される。ここで、言語の対のうちの第２の言語が既知となり、対応するリストが、リストから最も良く調和する要素を決定するために使用される。最も良く調和する要素は、リスト要素のうちのより小さいリスト、例えば、１００および２，０００の要素のリストで構成され得る。（本図面には示されていない）第２の音声認識ステップは、エントリのより小さいリストに関する音声認識を適用する。第２のステップにおいて、同じ音声入力に対してリスト内の最も適切なエントリが、候補リスト内に列挙されたエントリの音声音響的表示を音響入力に調和させて、最も良く調和するエントリを決定することによって決定される。このアプローチは、計算のリソースを節約する。なぜならば、第１のステップにおいて行われる音素認識は、あまり労力を要さず、計算に費用のかかる第２のステップは、要素の大きなリストのうちの小さいサブセットでのみ実行されるからである。このような２つのステップの認識システムは、ＤＥ１０２０７８９５Ａ１から公知であり、該ＤＥ１０２０７８９５Ａ１に対して、２つのステップの認識アプローチのさらなる詳細に対して参照が行われる。

第２の認識ステップにおいて、やはり２つの異なる言語が比較される。例えば、ドイツ語の識別器は、英語の音素を受信し得る。外国語の音素の組から識別器の言語の音素の組へのマッピングを行う方法が、文献において利用可能である。あるいは、識別器は、外国語の音素を処理するために、異なる言語からの音響モデルを用いて使用され得る。短いリストは、リスト要素の大きいリストのうちのエントリの一部を含むだけなので、両方のアプローチが実行可能である。

図４において、このような２つのステップの認識アプローチが示されている。ステップ４１において処理が開始した後、話者は所望のリスト要素の全記述を話す。リスト要素は、例えば、電話のリストから選択するときには、都市名、通りの名前または個人名を含む。この音声入力は、第２の認識ステップにおける追加の使用のために、ステップ４１において記録される。第１の認識ステップにおいて、音素ストリングはステップ４２において生成される。通常、第１の音素ストリングは、データベース１２に格納されたリスト要素の語彙とは独立して生成される。連続する音素部分のシーケンス、音素のシーケンス、文字のシーケンス、音節のシーケンスなどを含む音声のサブワード単位のシーケンスが構成される。ステップ４３において、上で説明したように、多言語の混同行列を使用して、マッピング処理が行われる。サブワード単位の生成されたストリングが、要素のリストと比較され、最も良く調和する要素の候補リストがステップ４４において生成される。ステップ４５において、第２の認識ステップが行われ、この第２の認識ステップは最も良く調和する結果の候補リストに基づいているが、第１の調和ステップ４３において使用されるリスト全体には基づいていない。ステップ４５において、記録された音声入力が、最も良く調和する項目の候補リストで構成された認識ユニット（図示せず）に届けられる。ステップ４６において、次に、最も適切なリスト要素または複数のリストがユーザに提示されるか、または最も適切なリスト要素が使用され、さらに処理され得る。方法は、ステップ４７で終了する。

図５において、図３に述べられた、混同行列および対応する要素のリストの選択が流れ図に要約されている。ステップ５１において処理を開始したあと、および音素ストリングが、ステップ５２においてサブワードの音声認識ユニットから受信されたあとに、ユーザの言語が、言語の対のうちの１つの言語を決定するために決定される（ステップ５３）。言語の対の決定は、混同行列および要素のリストの選択のために必要である。次のステップにおいて、認識システムが使用される公用語がステップ５４において決定される。ステップ５５において、システムが使用される国に２つ以上の公用語が存在するかどうかが尋ねられる。そうでない場合には、公用語は既知であり、ステップ５６において言語の対を決定することが可能である。言語の対が既知であると、対応する混同行列がステップ５７において決定され得、最も良く調和する要素の候補リストがステップ５８において決定され得る。この候補リストは、図４に関して述べられたように、第２の認識ステップに出力され得る（ステップ５９）。１つのステップの認識処理の場合、最も良く調和する要素が、確認またはさらなる選択のために、ユーザに提示される。２つ以上の公用語が国に存在する場合、認識処理のために使用され得る可能な混同行列がステップ６０において決定されなければならない。上で述べられた例のスイスを旅行するイギリス人の旅行客において、決定されたグループは、英語−ドイツ語、英語−フランス語、および英語−イタリア語の行列成分を含む。どちらの混同行列が、調和処理として使用されるべきかを決定するために、ステップ６１において、どの行列が最も少ない数の混同であるかを決定し、これはどの言語がユーザの言語に最も調和する言語であるかを示している。これは行列のスコアを比較することによって行われ得る。ステップ６２において、行列はスコアに依存して選択される。最も良く調和する言語がスコアを計算することによって知られるときには、該言語のリスト要素のリストが選択され、最も良く調和するエントリの候補リストが、選択された行列および対応する要素のリストを使用して決定される（ステップ６３）。結果は、ステップ６５で処理が終了する前に、ステップ６４におけるさらなる処理のために出力され得る。

つまり、本発明は、異なる言語を比較する混合行列を使用することによって、ユーザの言語ではない言語でのリストからのエントリの音声によるメモリおよびＣＰＵの効率的な選択を可能にする。

図１は、本発明の言語認識システムの概略図を表す。図２は、図１のシステムにおいて使用される２つの異なる言語に対する混同の可能性を含む混同行列を示す。図３は、図１に示された言語認識システムのさらに詳細な図である。図４は、図２の行列を使用して要素のリストからリスト要素を選択するために、言語を認識する方法の流れ図を示す。図５は、要素のリストにおける、多言語の非ネイティブの認識に関する方法のステップをより詳細に示す別の流れ図を示す。

符号の説明

１１マッチャ
１２データベース
１３メモリ
３１言語の対の決定ユニット
３２国決定ユニット
３３位置決定ユニット
３４混同行列選択ユニット

Claims

音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含する、方法。
前記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第１の言語のサブワード単位と第２の言語のサブワード単位とを含む、請求項１に記載の方法。
前記混同行列は、第１の言語の可能なサブワード単位と、該第１の言語の該可能なサブワード単位が、別の言語のサブワード単位と混同される可能性とを含む、請求項１または請求項２に記載の方法。
前記一連のサブワード単位は、第１の言語以外の言語の前記音声入力を認識するために、該第１の言語のサブワード単位を認識するために訓練されたサブワード単位の音声認識ユニットを使用して認識される、請求項１〜請求項３のうちのいずれか１項に記載の方法。
異なる混同行列が提供され、異なる言語の対に対する混同の可能性を提供する、請求項１〜請求項４のうちのいずれか１項に記載の方法。
前記言語の対と前記対応する混同行列とは、ユーザの言語を決定することによって、および前記要素のリストを決定することによって決定される、請求項１〜請求項５のうちのいずれか１項に記載の方法。
前記要素のリストは、該リストの目的地のうちの１つに前記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地を含む、請求項１〜請求項６のうちのいずれか１項に記載の方法。
どの混同行列が使用されるべきかを決定するために、どの国で前記ナビゲーションシステムが使用されるかが決定され、前記情報は、前記異なる目的地を含む前記要素のリストの言語を決定するために、および／または前記言語の対のうちの１つの言語を決定するために使用される、請求項５および請求項７に記載の方法。
どの混同行列が使用されるべきかを決定するために、前記ナビゲーションシステムの前記ユーザの前記言語が決定され、該ユーザの該言語は、前記言語の対のもう１つの言語を決定するために使用される、請求項６〜請求項８のうちのいずれか１項に記載の方法。
前記混同行列は、前記ナビゲーションシステムが使用される前記国の前記言語に依存して、かつ、前記ユーザの前記言語に依存して選択される、請求項８および請求項９に記載の方法。
要素の異なるリストが異なる言語で提供され、前記最も良く調和する項目の候補リストが決定されるときには、該異なるリストは組み合わせられ、該最も良く調和する項目の候補リストは、該異なるリストからの該要素に基づいて生成される、請求項１〜請求項１０のうちのいずれか１項に記載の方法。
異なる混同行列が異なる言語の対を提供され、複数のリスト要素が提供されるとき、および該混同行列のうちの１つが、前記候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択される、請求項１〜請求項１１のうちのいずれか１項に記載の方法。
前記混同行列のうちの１つが既に選択されているときには、前記異なるリストのうちの前記要素のリストが、該選択された混同行列に従って選択される、請求項１２に記載の方法。
前記最も少ない数の平均混同を決定するために、スコアが各行列に対して計算され、該スコアは、前記ユーザの言語に対する適合度を示す、請求項１２または請求項１３に記載の方法。
前記スコアは、各行列のエントロピーを決定することによって決定され、該エントロピーが低ければ低いほど、前記ユーザの言語に対する前記適合度はより良くなる、請求項１４に記載の方法。
前記スコアは、共通の情報を決定することによって決定され、該共通の情報が多ければ多いほど、前記ユーザの言語に対する前記適合度はより良くなる、請求項１４または請求項１５に記載の方法。
前記スコアは、前記異なる行列を使用して、かつ、テストデータを使用して認識実験を行うことによって決定され、該行列は、前記候補リストを生成するために使用される最も高い認識率を有する、請求項１４から請求項１６のうちのいずれか１項に記載の方法。
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するサブワード単位の比較ユニットと、
少なくとも１つの混同行列を格納するメモリであって、各行列は、第１の言語のサブワード単位が別の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む、メモリと
を備えており、
該サブワード単位の比較ユニットは、該少なくとも１つの混同行列に基づいて、該最も良く調和する要素のリストを生成する、音声認識システム。
前記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第１の言語のサブワード単位と第２の言語のサブワード単位とを含む、請求項１８に記載の音声認識システム。
前記混同行列は、第２の言語のサブワード単位に対する第１の言語の可能なサブワード単位の混同の可能性を表す行列成分を含む、請求項１８または請求項１９に記載の音声認識システム。
前記サブワード単位の音声認識ユニットは、第１の言語のサブワード単位を認識するように訓練され、該第１の言語以外の言語の音声入力に対する前記一連のサブワード単位を生成する、請求項１８〜請求項２０のうちのいずれか１項に記載の音声認識システム。
前記メモリは、異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む、請求項１８〜請求項２１のうちのいずれか１項に記載の音声認識システム。
前記システムは、前記サブワード単位の対の前記２つの言語を決定する言語の対の決定ユニットをさらに備えている、請求項２２に記載の音声認識システム。
前記要素のリストを含むデータベースが提供され、該要素のリストは、該リストの目的地のうちの１つに前記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地に対応する、請求項１８〜請求項２３のうちのいずれか１項に記載の音声認識システム。
前記言語の対の決定ユニットは、前記音声認識システムのユーザの言語を決定するユーザの言語決定ユニットを備えており、該ユーザの言語は、該サブワード単位の対の言語のうちの１つを決定するために使用される、請求項２３または請求項２４に記載の音声認識システム。
前記言語の対の決定ユニットは、車両が移動している国の公用語を決定する国決定ユニットをさらに備えており、該言語は、言語の対のもう１つの言語を決定するために使用される、請求項１８〜請求項２５のうちのいずれか１項に記載の音声認識システム。
前記国決定ユニットは、実際の車両の位置を決定し、該車両が移動している国の１つの公用語また複数の公用語を推測する車両位置決定ユニットを備えている、請求項２６に記載の音声認識システム。
複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、該混同行列選択ユニットは、前記言語の対の決定ユニットから受信された情報に依存して該混同行列を選択する、請求項１８〜請求項２７のうちのいずれか１項に記載の音声認識システム。
前記車両が移動している国の１つの公用語または複数の公用語を決定する公用語決定ユニットと、
一群の混同行列から混同行列を選択する混同行列選択ユニットであって、該群は、前記言語の対のうちの１つの言語はユーザの言語であり、該言語の対のうちのもう１つの言語は、該車両が移動している国の該公用語のうちの１つである混同行列を含む、混同行列選択ユニットと
をさらに備えている、請求項１８〜請求項２８のうちのいずれか１項に記載の音声認識システム。
各混同行列の混同の平均数を決定する混同決定ユニットが提供される、請求項１８〜請求項２９のうちの任意の１項に記載の音声認識システム。
前記言語のうちの１つはユーザの言語であり、前記もう１つの言語は、前記音声認識システムが使用される国の公用語である言語の対を有するいくつかの混同行列が提供される場合には、前記混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する、請求項２９および請求項３０に記載の音声認識システム。
前記混同行列選択ユニットは、どの行列が最も少ない数の混同を有するかに関する情報を提供する混同決定ユニットの情報に従って、前記混同行列を選択する、請求項２９から請求項３１に記載の音声認識システム。
各混同行列に対するスコアを決定するスコア決定ユニットが提供され、該スコアは、前記ユーザの言語に対する適合度を示す、請求項１８〜請求項３２のうちのいずれか１項に記載の音声認識システム。
前記混同行列選択ユニットは、前記異なる行列の前記スコアに依存して、前記複数の混同行列から混同行列を選択する、請求項２９〜請求項３３のうちのいずれか１項に記載の音声認識システム。
前記音声認識システムは、請求項１〜請求項１７のうちのいずれか１項において請求された方法に従って働いている、請求項１８〜請求項３４のうちのいずれか１項に記載の音声認識システム。
要素のリストから最も良く調和する要素の候補リストを生成する方法であって、
音声入力から一連のサブワード単位を生成することと、
１つの言語のサブワード単位を別の言語のサブワード単位と関連付ける混同行列を使用して、該一連のサブワード単位を転記することと、
該転記されたストリングを前記要素のリストと比較することと、
該比較結果に基づいて、該最も良く調和する要素の候補リストを作成することと
を包含する、方法。
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力から一連のサブワード単位を生成する手段と、
異なる言語のサブワード単位と関連する可能性を含む少なくとも１つの混同行列を格納する手段と、
該一連のサブワード単位を該要素のリストと比較する手段であって、該比較は、該少なくとも１つの混同行列を使用する、手段と、
該比較結果に基づいて、最も良く調和する要素の候補リストを生成する手段と
を備えている、システム。
前記一連のサブワード単位の言語は、前記要素のリストの前記要素の言語とは異なり、前記混同行列は、該２つの言語のサブワード単位に対する混同の可能性を含む、請求項３７に記載のシステム。
前記候補リストから要素を選択する認識手段と、
該候補リストを該認識手段に登録する手段と
をさらに備えている、請求項３８に記載のシステム。
音声入力を介して要素のリストからリスト要素を選択するための、プロセッサで実行可能な命令を有する、プロセッサで読み取り可能なメディアであって、該メディアは、デバイスのプロセッサで実行されたときに、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含するステップを実行する、メディア。