JP2008242462A - 多言語の非ネイティブ音声の認識 - Google Patents

多言語の非ネイティブ音声の認識 Download PDF

Info

Publication number
JP2008242462A
JP2008242462A JP2008084074A JP2008084074A JP2008242462A JP 2008242462 A JP2008242462 A JP 2008242462A JP 2008084074 A JP2008084074 A JP 2008084074A JP 2008084074 A JP2008084074 A JP 2008084074A JP 2008242462 A JP2008242462 A JP 2008242462A
Authority
JP
Japan
Prior art keywords
language
confusion
list
matrix
subword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008084074A
Other languages
English (en)
Other versions
JP5189874B2 (ja
Inventor
Guenther Wirsching
ワーシュイン ギュンター
Marcus Hennecke
ヘネク マルクス
Markus Schwarz
シュワルツ マルクス
Daniel Willett
ウィレット ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems GmbH
Publication of JP2008242462A publication Critical patent/JP2008242462A/ja
Application granted granted Critical
Publication of JP5189874B2 publication Critical patent/JP5189874B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Abstract

【課題】音声認識システムが、訓練された言語とは別の自然言語から来るリスト要素の音声駆動の選択の機会を提供すること。
【解決手段】音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、該音声入力に対する一連のサブワード単位を認識するステップと、該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップとを包含する、方法。
【選択図】図1

Description

本発明は、音声入力を介して、要素のリストからリスト要素を選択する方法とそのシステムとに関する。
多くの電子用途が、ユーザによって音声誘導または音声制御される設計工程またはシーケンスを有する。電子用途は、車両のための目的地誘導システム、電話および/または住所のシステムなどを含む。車両は、オートバイ、トラック、ボート、航空機などを含む。
これらの工程またはシーケンスにおいて、ユーザは、音声認識ユニットに音声入力を提供する。音声入力は、ユーザがリストまたは一群のリスト要素から選択することを望むリスト要素に対応し得る。音声認識ユニットは、音声入力を処理し、処理された音声入力に応答して、所望のリスト要素を選択する。
特許文献1は、ユーザの音声入力によって実行される2つのステップの認識処理を使用する音声認識システムを開示する。1つの認識処理は、音声入力の単語全体を音声サブユニットの少なくとも1つのシーケンスに分割し、リスト要素の語彙を作成する。次の認識処理は、音声入力の単語全体をリスト要素の語彙と比較する。
現在の処理方法では、リスト要素の言語と認識システムの言語とが同じであることを必要とする。例えば、ナビゲーションの用途において、ドイツ語のナビゲーションシステムを有するユーザは、フランスで運転をするときに、目的地の音声駆動選択が困難であり得る。
国際公開第2004/077405号パンフレット
従って、音声認識システムが、訓練された言語とは別の自然言語から来るリスト要素の音声駆動選択の機会を提供する必要性が存在する。
本発明は、独立クレームにおいて述べられたような方法および音声認識システムを提供することによって、この必要性を克服する。従属クレームにおいては、本発明の好適な実施形態が記述される。
本発明の第1の局面に従って、本発明は、音声入力を介して、要素のリストからリスト要素を選択するために提供される。該方法は、音声入力に対する一連のサブワード単位を認識するステップを備えている。さらなるステップにおいて、認識された一連のサブワード単位が該要素のリストと比較され、比較の結果に基づいて、最も良く調和する要素の候補リストが生成される。最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む、行列成分を含む混同行列が使用される。従来のシステムにおいて、音声認識システムにおいて使用される混同行列は、同じ言語のサブワード単位を比較する。ここで、本発明の一局面は、異なる言語を比較し得る混同行列を構築し、使用することである。混同行列はサブワード単位の所与の組に対してサブワード単位の組を定義し、このサブワード単位の組は、各サブワード単位に対して認識システムによって、誤って認識され得るものである。サブワード単位は、言語の音素もしくは音節、またはその他任意の単位、例えば、音素のより大きな群または部分音素のようなより小さな群に対応し得る。サブワード単位が音素であるときには、音素のシーケンスは、音声入力に最も良く調和する一連のサブワード単位として決定される。
好適には、混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位、および第1の言語とは異なる第2の言語のサブワード単位を含む。行列の各成分は、特定のサブワード単位の対に対する混同の可能性を表す。各行列成分は、どの程度、サブワード単位の対のうちの第1のサブワード単位が、サブワード単位の対のうちの他のサブワード単位と混同しやすいかを数字で具体的に表す。好適には、混同行列は、第1の言語の可能なサブワード単位と、第1の言語のこれら可能なサブワード単位が、第2の言語の可能なサブワード単位と混同される可能性とを含む。2つの言語のサブワード単位は、一般的に、サブワード単位または音素の数が異なるので、混同行列はもはや正方ではない。1つの言語だけのサブワード単位を比較する混同行列は、正方である。なぜならば、このような行列は同じ数の列と行とを有するからである。
本発明の別の局面に従って、一連のサブワード単位は、第1の言語以外の音声入力を認識するために、第1の言語のサブワード単位を認識するように訓練されたサブワード単位の音声認識ユニットを使用して認識される。この局面の概念は、同じ識別器を使用するが、外国語による認識のために使用される混同行列を訓練することである。例えば、ドイツ語を理解するように訓練されたサブワード単位の音声認識ユニットが、混同行列の混同の可能性を評価するために、別の言語、例えば、フランス語または英語でサブワード単位のシーケンスを認識するために使用される。このアプローチの利点は、音声認識ユニットが、2つの異なる言語間の最も一般的なサブワード単位の混同を暗黙のうちに学ぶことである。
本発明の一局面において、異なる混同行列は、異なる言語の対に対する混同の可能性を提供され得る。この実装において、いくつかの混同行列が、異なる言語の対に対して利用可能である。これは異なる言語に対する調和を可能にする。異なる言語の対と異なる混同行列とが利用可能であるときには、混同行列は、最も良く調和する要素の候補リストを生成するために使用されるように選択されなければならない。
このために、音声入力の言語の対を決定することと、ユーザの言語を決定することによって、および要素のリストの言語を決定することによって対応するように混同行列を選択することとが好ましい。音声認識の用途の大部分において、音声認識システムのユーザの言語は既知である。要素のリストの言語を決定することが可能である場合には、言語の対が既知となる。
要素のリストが、リストの目的地のうちの1つにユーザを導くために、ナビゲーションシステムにおいて使用される目的地のリストを含むときには、次の方法で、言語の対のうちの言語の1つを決定することが可能である。最初に、例えば、車両の現在地を決定することによって、および車両の現在地を地図と比較することによって、どの国でナビゲーションシステムが使用されているかが決定されなければならない。車両の位置が既知であるときには、車両が移動している国が推定され得る。国が既知であるときには、その国の公用語が決定され得る。例えば、車両がドイツを移動しているときには、目的地のリストはドイツ語名を含むことが推定され得、車両がフランスを移動しているときには、リストは、都市の名前、または他の目的地などの、フランス語のリスト要素を含み得る。
本発明の別の局面において、ナビゲーションシステムのユーザの言語が決定され、この言語は、言語の対のうちのもう1つの言語として使用される。ナビゲーションシステムの使用者は、通常、ナビゲーションシステムに対するユーザの言語として所定の言語を選択する機会を有しており、他の言語が選択されない限り、この言語が、動作中、初期値として使用される。ユーザの言語および要素のリストの言語が既知であるときには、言語の対が既知となり、その結果、適切な混同行列を選択することが可能である。
ユーザの言語が既知であり、かつ、リスト要素の言語もまた既知であると、混同行列は決定され得る。
音声認識方法が、ナビゲーションシステムと共に使用されるときに、2つ以上の公用語を有する国、例えば、ドイツ語、イタリア語およびフランス語の公用語を有するスイス、または2つの公用語を有するベルギーを、車両が移動することもまたあり得る。この場合、異なる言語での要素の異なるリストが提供され得、最も良く調和する項目の候補リストが決定されなければならない。音声認識システムのユーザの言語は既知である。しかしながら、この場合、ドイツ語に対するユーザの言語の混同行列、フランス語に対するユーザの言語の混同行列、またはイタリア語に対するユーザの言語の混同行列が使用されるかどうかが決定されなければならない。3つの混同行列に加えて、要素の3つの異なるリスト、すなわち、ドイツ語での目的地のリスト、フランス語での目的地のリスト、およびイタリア語での目的地のリストが提供される。ここで、どのリストおよびどの混同行列が調和ステップに対して使用されるかに関して、問題が生じる。1つのアプローチは、3つの異なる混同行列をまた使用して、異なるリストを組み合わせ、3つ全てのリストから最も良く調和するエントリを編集することである。このアプローチの不利な点は、要素の2つ以上のリストがサーチされなければならず、サーチ時間を大幅に増加させる。さらに、言語のそれぞれにおいて、同じエントリが選択されやすく、最も良く調和する要素のリストにおける異なるエントリの数を減少させる。
別のアプローチに従って、異なる混同行列が異なる言語の対と共に提示され、複数のリストが提供されるとき、および混同行列のうちの1つが、最も良く調和する要素の候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択され得る。これは、ユーザの言語に最も良く調和する言語が選択されることを意味する。混同行列が一旦選択されると、異なるリストの要素のリストが、選択された混同行列に従って選択され得る。
各行列のスコアを計算することによって、最も少ない数の平均混同を決定することが可能であり、スコアは、ユーザの言語に対する適合度を示す。例えば、スコアは、優先順位によって利用可能な言語を分類するために使用され得る。ユーザが一部の言語の好みを示す場合、すなわち、ユーザが旅行している国の言語のうちの1つを、ユーザが話すことができる場合、これらの好みがまた、適切な混同行列および適切な対応する要素のリストを選択するために考慮され得る。
可能な言語の対は事前に知られる。従って、使用中にスコアを計算することは必ずしも必要ではない。前もってスコアを計算することと、異なる行列を有するそれぞれのスコアを格納することとが可能である。正方行列の場合、主対角のエントリは、自己混同の可能性に対応するが、一方、非対角要素は、不正確な認識、すなわち、認識の誤りに対応する。行列内の全ての誤りを数えることは、リストと認識システムとの間の適合度を決定する1つの方法である。残念ながら、このアプローチは、本事例においては困難をもたらし得る。なぜならば、行列は、異なる音素の組を用いて2つの異なる言語を比較するからである。
本発明の一実施形態に従って、各行列のエントロピーを決定することによってスコアを決定することが可能であり、エントロピーが低ければ低いほど、ユーザの言語に対するより良い適合となる。本明細書において使用される統計学的アプローチにおいて、エントロピーは微細な構成の数の基準である。本アプローチにおいて、エントロピーは行列の各行に対して決定され得る。エントロピーが大きい場合には、これは、この行の全ての異なる行列成分に対する混同の可能性がほぼ同じであることを意味する。本文脈において、これは、第1の音素、すなわちサブワード単位が、もう1つの言語の音素またはサブワード単位として理解される可能性が、もう1つの言語の全ての音素に対してほぼ同じであることを意味する。本文脈において、各列および異なる列を追加することによる完全な行列のエントロピーが、低くなれば低くなるほど、ユーザの言語に対するより良好な適合となり、かつ混同の可能性がより低くなる。
さらに、共通の情報を決定することによって、スコアを計算することが可能であり、共通の情報が多ければ多いほど、ユーザの言語に対するより良い適合となる。混同行列に対する混同の可能性を評価するために、認識の実行が行われなければならない。従って、訓練の組における各発話に対して、正しい音素シーケンスと認識された音素のシーケンスとの両方が利用可能である。これは、音素シーケンス間の共通の情報を計算することを可能にする。共通の情報が多ければ多いほど、認識された一連の音素の予示力がより良くなり、行列がより良くなる。
さらに別のアプローチは、現実のデータに関する実際の認識実験を行うことである。この実施形態において、スコアは、異なる行列を使用して、かつ、テストデータを使用して、認識実験を行うことによって決定され、行列は候補リストを生成するために使用される最も高い認識率を有する。このアプローチは、とりわけ最も費用のかかるものであるが、このアプローチはまた、最も正確なスコアを届ける。
本発明のさらなる局面に従って、本発明は、音声入力を使用して要素のリストからリスト要素を選択する音声認識システムに関する。該システムは、音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットを備えている。サブワード単位の比較ユニットは、認識された一連のサブワード単位を要素のリストと比較し、比較の結果に基づいて最も良く調和する要素の候補リストを生成する。さらに、混同行列はメモリ内に提供され、混同行列は、少なくとも1つの混同行列を格納するメモリであって、各行列は、第1の言語のサブワード単位が第2の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む。サブワード単位の比較ユニットは、該少なくとも1つの多言語の混同行列に基づいて、最も良く調和する要素のリストを生成する。上記の音声認識システムは、リスト要素の言語以外の言語でのリストからのエントリの音声による選択を可能にする。具体化されたデバイス上で働くように、音声認識システムがメモリおよびCPUの両方を効率的にするという利点を、音声認識システムは有する。
混同行列の各行列成分が、特定のサブワード単位の対に対する混同の可能性を表すように、行列は設計され得、サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む。音声認識システムは、国際公開第2004/077405号に記述されているような、2つのステップの音声認識システムであり得る。このような実施形態において、音声認識の第1のステップは、要素のより大きいリストから、最も良く調和する項目の候補リスト、すなわち、より小さいリストを生成する。第2の音声認識ステップは、音声入力に最も良く調和する候補リストから項目を認識し選択する。短い候補リストが生成されると、短い候補リストは、第2の認識ステップのために、認識システム内に登録されなければならない。これは上記のように行われるが、ここでは、認識システムは、異なる言語のエントリを扱う。例えば、ドイツ語の認識システムが英語の音素を受信し得る。当該分野において、外国語の音素の組から識別器の言語の音素の組へのマッピングを行う方法は、当業者にとって利用可能でありかつ公知である。あるいは、識別器は、外国語の音素を扱うために、異なる言語からの音響モデルを用いて使用され得る。短いリストは、全リストの成分のうちの一部分を含むだけであるので、両方のアプローチは実行可能である。
音声認識システムと多言語の混同行列を使用する第1の認識ステップとに戻って参照すると、サブワード単位の音声認識ユニットは、第1の言語のサブワード単位を認識するように訓練され得、第1の言語以外の言語の音声入力に対して一連のサブワード単位を生成し得る。上記のように、アプローチの利点は、システムが2つの異なる言語間の最も一般的な混同を暗黙のうちに学ぶことである。異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む格納ユニットが提供され得る。
どの行列とどの要素のリストとが使用されるべきかを決定するために、音声認識システムは、サブワード単位の1つの対または複数の対の2つの言語を決定する、言語の対の決定ユニットを備え得る。
ナビゲーションの用途において、異なる要素のリスト、またはユーザが誘導され得る異なる国に対する異なる目的地を含むデータベースが提供される。言語の対を決定するために、音声認識システムのユーザの言語を決定するユーザの言語決定ユニットが提供され得、このユーザの言語は、サブワード単位の対の言語のうちの1つを決定するために使用される。さらに、車両が移動する国の1つの公用語または複数の公用語を決定する国決定ユニットが提供され得、1つの言語または複数の言語は、言語の対のうちのもう1つの言語を決定するために使用される。
言語の対が既知であるときには、複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、混同行列選択ユニットは、言語の対の決定ユニットから受信された情報に依存して、混同行列を選択する。混同行列選択ユニットが、ユーザの言語と、車両が移動する国の公用語とを考慮に入れて、混同行列を選択し得ないとき(例えば、国が2つ以上の公用語を有するとき)には、各混同行列の混同の平均数を決定する混同決定ユニットが使用され得る。次に、混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する。このために、混同行列のそれぞれに対するスコアを決定するスコア決定ユニットが提供され得、スコアは、ユーザの言語に対する適合度を示す。スコア決定ユニットは、常時、音声認識システムの中に提供される必要ないことを理解されたい。スコア決定ユニットは、異なるスコアを決定するために一度だけ提供される必要がある。スコアが計算されてスコアが各混同行列に対して決定され、スコアが対応する行列に格納されたあと、スコア決定ユニットはこれ以上存在する必要はない。異なる行列のスコアに依存して、混同行列選択ユニットは、該複数の混同行列から混同行列を選択する。好適には、音声認識システムは、上記の方法に従って働く。
本発明はさらに以下の手段を提供する。
(項目1)
音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含する、方法。
(項目2)
上記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、項目1に記載の方法。
(項目3)
上記混同行列は、第1の言語の可能なサブワード単位と、該第1の言語の該可能なサブワード単位が、別の言語のサブワード単位と混同される可能性とを含む、項目1または項目2に記載の方法。
(項目4)
上記一連のサブワード単位は、第1の言語以外の言語の上記音声入力を認識するために、該第1の言語のサブワード単位を認識するために訓練されたサブワード単位の音声認識ユニットを使用して認識される、項目1〜項目3のうちのいずれか1項に記載の方法。
(項目5)
異なる混同行列が提供され、異なる言語の対に対する混同の可能性を提供する、項目1〜項目4のうちのいずれか1項に記載の方法。
(項目6)
上記言語の対と上記対応する混同行列とは、ユーザの言語を決定することによって、および上記要素のリストを決定することによって決定される、項目1〜項目5のうちのいずれか1項に記載の方法。
(項目7)
上記要素のリストは、該リストの目的地のうちの1つに上記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地を含む、項目1〜項目6のうちのいずれか1項に記載の方法。
(項目8)
どの混同行列が使用されるべきかを決定するために、どの国で上記ナビゲーションシステムが使用されるかが決定され、上記情報は、上記異なる目的地を含む上記要素のリストの言語を決定するために、および/または上記言語の対のうちの1つの言語を決定するために使用される、項目5および項目7に記載の方法。
(項目9)
どの混同行列が使用されるべきかを決定するために、上記ナビゲーションシステムの上記ユーザの上記言語が決定され、該ユーザの該言語は、上記言語の対のもう1つの言語を決定するために使用される、項目6〜項目8のうちのいずれか1項に記載の方法。
(項目10)
上記混同行列は、上記ナビゲーションシステムが使用される上記国の上記言語に依存して、かつ、上記ユーザの上記言語に依存して選択される、項目8および項目9に記載の方法。
(項目11)
要素の異なるリストが異なる言語で提供され、上記最も良く調和する項目の候補リストが決定されるときには、該異なるリストは組み合わせられ、該最も良く調和する項目の候補リストは、該異なるリストからの該要素に基づいて生成される、項目1〜項目10のうちのいずれか1項に記載の方法。
(項目12)
異なる混同行列が異なる言語の対を提供され、複数のリスト要素が提供されるとき、および該混同行列のうちの1つが、上記候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択される、項目1〜項目11のうちのいずれか1項に記載の方法。
(項目13)
上記混同行列のうちの1つが既に選択されているときには、上記異なるリストのうちの上記要素のリストが、該選択された混同行列に従って選択される、項目12に記載の方法。
(項目14)
上記最も少ない数の平均混同を決定するために、スコアが各行列に対して計算され、該スコアは、上記ユーザの言語に対する適合度を示す、項目12または項目13に記載の方法。
(項目15)
上記スコアは、各行列のエントロピーを決定することによって決定され、該エントロピーが低ければ低いほど、上記ユーザの言語に対する上記適合度はより良くなる、項目14に記載の方法。
(項目16)
上記スコアは、共通の情報を決定することによって決定され、該共通の情報が多ければ多いほど、上記ユーザの言語に対する上記適合度はより良くなる、項目14または項目15に記載の方法。
(項目17)
上記スコアは、上記異なる行列を使用して、かつ、テストデータを使用して認識実験を行うことによって決定され、該行列は、上記候補リストを生成するために使用される最も高い認識率を有する、項目14から項目16のうちのいずれか1項に記載の方法。
(項目18)
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するサブワード単位の比較ユニットと、
少なくとも1つの混同行列を格納するメモリであって、各行列は、第1の言語のサブワード単位が別の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む、メモリと
を備えており、
該サブワード単位の比較ユニットは、該少なくとも1つの混同行列に基づいて、該最も良く調和する要素のリストを生成する、音声認識システム。
(項目19)
上記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、項目18に記載の音声認識システム。
(項目20)
上記混同行列は、第2の言語のサブワード単位に対する第1の言語の可能なサブワード単位の混同の可能性を表す行列成分を含む、項目18または項目19に記載の音声認識システム。
(項目21)
上記サブワード単位の音声認識ユニットは、第1の言語のサブワード単位を認識するように訓練され、該第1の言語以外の言語の音声入力に対する上記一連のサブワード単位を生成する、項目18〜項目20のうちのいずれか1項に記載の音声認識システム。
(項目22)
上記メモリは、異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む、項目18〜項目20のうちのいずれか1項に記載の音声認識システム。
(項目23)
上記システムは、上記サブワード単位の対の上記2つの言語を決定する言語の対の決定ユニットをさらに備えている、項目22に記載の音声認識システム。
(項目24)
上記要素のリストを含むデータベースが提供され、該要素のリストは、該リストの目的地のうちの1つに上記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地に対応する、項目18〜項目23のうちのいずれか1項に記載の音声認識システム。
(項目25)
上記言語の対の決定ユニットは、上記音声認識システムのユーザの言語を決定するユーザの言語決定ユニットを備えており、該ユーザの言語は、該サブワード単位の対の言語のうちの1つを決定するために使用される、項目23または項目24に記載の音声認識システム。
(項目26)
上記言語の対の決定ユニットは、車両が移動している国の公用語を決定する国決定ユニットをさらに備えており、該言語は、言語の対のもう1つの言語を決定するために使用される、項目18〜項目25のうちのいずれか1項に記載の音声認識システム。
(項目27)
上記国決定ユニットは、実際の車両の位置を決定し、該車両が移動している国の1つの公用語また複数の公用語を推測する車両位置決定ユニットを備えている、項目26に記載の音声認識システム。
(項目28)
複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、該混同行列選択ユニットは、上記言語の対の決定ユニットから受信された情報に依存して該混同行列を選択する、項目18〜項目27のうちのいずれか1項に記載の音声認識システム。
(項目29)
上記車両が移動している国の1つの公用語または複数の公用語を決定する公用語決定ユニットと、
一群の混同行列から混同行列を選択する混同行列選択ユニットであって、該群は、上記言語の対のうちの1つの言語はユーザの言語であり、該言語の対のうちのもう1つの言語は、該車両が移動している国の該公用語のうちの1つである混同行列を含む、混同行列選択ユニットと
をさらに備えている、項目18〜項目28のうちのいずれか1項に記載の音声認識システム。
(項目30)
各混同行列の混同の平均数を決定する混同決定ユニットが提供される、項目18〜項目29のうちの任意の1項に記載の音声認識システム。
(項目31)
上記言語のうちの1つはユーザの言語であり、上記もう1つの言語は、上記音声認識システムが使用される国の公用語である言語の対を有するいくつかの混同行列が提供される場合には、上記混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する、項目29および項目30に記載の音声認識システム。
(項目32)
上記混同行列選択ユニットは、どの行列が最も少ない数の混同を有するかに関する情報を提供する混同決定ユニットの情報に従って、上記混同行列を選択する、項目29から項目31に記載の音声認識システム。
(項目33)
各混同行列に対するスコアを決定するスコア決定ユニットが提供され、該スコアは、上記ユーザの言語に対する適合度を示す、項目18〜項目32のうちのいずれか1項に記載の音声認識システム。
(項目34)
上記混同行列選択ユニットは、上記異なる行列の上記スコアに依存して、上記複数の混同行列から混同行列を選択する、項目29〜項目33のうちのいずれか1項に記載の音声認識システム。
(項目35)
上記音声認識システムは、項目1〜項目17のうちのいずれか1項において請求された方法に従って働いている、項目18〜項目34のうちのいずれか1項に記載の音声認識システム。
(項目36)
要素のリストから最も良く調和する要素の候補リストを生成する方法であって、
音声入力から一連のサブワード単位を生成することと、
1つの言語のサブワード単位を別の言語のサブワード単位と関連付ける混同行列を使用して、該一連のサブワード単位を転記することと、
該転記されたストリングを上記要素のリストと比較することと、
該比較結果に基づいて、該最も良く調和する要素の候補リストを作成することと
を包含する、方法。
(項目37)
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力から一連のサブワード単位を生成する手段と、
異なる言語のサブワード単位と関連する可能性を含む少なくとも1つの混同行列を格納する手段と、
該一連のサブワード単位を該要素のリストと比較する手段であって、該比較は、該少なくとも1つの混同行列を使用する、手段と、
該比較結果に基づいて、最も良く調和する要素の候補リストを生成する手段と
を備えている、システム。
(項目38)
上記一連のサブワード単位の言語は、上記要素のリストの上記要素の言語とは異なり、上記混同行列は、該2つの言語のサブワード単位に対する混同の可能性を含む、項目37に記載のシステム。
(項目39)
上記候補リストから要素を選択する認識手段と、
該候補リストを該認識手段に登録する手段と
をさらに備えている、項目38に記載のシステム。
(項目40)
音声入力を介して要素のリストからリスト要素を選択するための、プロセッサで実行可能な命令を有する、プロセッサで読み取り可能なメディアであって、該メディアは、デバイスのプロセッサで実行されたときに、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含するステップを実行する、メディア。
(摘要)
本発明は、音声入力を介して、要素のリストからリスト要素を選択する方法に関し、該方法は、以下のステップ:該音声入力に対する一連のサブワード単位を認識するステップと、該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も調和する要素の該候補リストを生成するために、(異なる自然言語のサブワード単位を含む)異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップとを包含する。
本発明は、以下の図面と記述とを参照することにより、さらに良く理解され得る。図面内のコンポーネントは、必ずしもサイズを合わせて作られておらず、その代わりに本発明の原理を例示することに重点を置いている。
図1において、音声入力の多言語の認識を可能にする音声認識システムが示されている。図1に示されたシステムは、特に、ユーザの言語以外の言語でのリストからのエントリの音声による選択を可能にする。示された実施形態において、システムは、ユーザを所定の目的地に導くナビゲーションシステムと関連して示されている。しかしながら、本発明は、音声入力を介した目的地の選択に制限されない。本発明は、ユーザの言語以外の言語での音声入力が正確に識別されるべきあらゆる状況において使用され得る。多くの音声認識システムにおいては、認識出力としての音響信号の最も可能性の高い復号が、ユーザに出力されるか、または最も良く調和する結果がユーザに出力され、その結果、ユーザが、最も良く調和する結果のうちの1つを選択する。システムは、認識処理の間に考えられた複数の推測を維持しており、現在の文脈において最も良く調和する要素と呼ばれるこれら複数の推測は、検索システムによって探査されている追加の情報に対する根拠を提供する。音声認識システムにおける1つの課題は、既知および未知の語彙用語に関する概念であり、語彙とは、音声認識システムが音声を文章に翻訳するために使用する一組の単語である。復号化処理の一部分として、音声認識システムは、音声入力の音質を語彙内の単語に調和させる。従って、語彙内の単語だけが認識されることが可能である。語彙にない単語は、多くの場合に、音声認識システムにとって既知ではない別の単語に音声上似ている既知の語彙の単語として誤って認識される。語彙は、任意の語彙、例えば、名前、住所、または一言語における単語の完全な組のようなその他任意の語彙であり得る。従って、語彙は、目的地を記述するリスト要素には限定されず、語彙は、任意の種類のリスト要素を含み得る。
図1は、音声認識システムを概略的に示しており、該音声認識システムにおいて、音声入力が、サブワードの音声認識ユニット10に入力される。サブワードの音声認識ユニット10は、音声入力を処理し、一連のサブワード単位、示された実施形態においては音素ストリングを生成する。音素ストリングはマッチャ11に供給され、該マッチャ11において、音素ストリングは、データベース12に格納された要素のリストと比較される。示された実施形態において、データベース12は様々なリストに目的地を含む。例えば、リストAにおける国Aに対して、この国の中で到達され得る全ての可能な目的地が含まれる。このようなリストは、多数のエントリ、例えば、50,000または150,000を上回るリスト要素を有し得る。示された実施形態において、リストはナビゲーションデータを含む。しかしながら、リストはまた、個人の名前、電話番号またはその他任意のデータを含み得る。データベース12において、リストはそれぞれの国の公用語で提供される。示された実施形態において、国Aおよび国Bが1つの公用語を有しており、その結果、1つのリストが各国に提供される。国Cは2つの公用語を有しており、その結果、第1および第2の公用語に対する異なる目的地のリストが存在する。ユーザがリストの要素のうちの1つを選択したいときには、音声入力がこのリスト要素を含む。マッチャは、サブワードの音声認識ユニットから受信された音素ストリングを比較して、最も良く調和する項目の候補リストを生成し、その結果、候補のリストが少数の要素を含む場合には、最も良く調和する項目の候補リストがユーザに直接的に提示され得る。しかしながら、候補リストはまた、非常により多くの数、例えば、500または2,000のリスト要素を含み得る。このような場合、最も良く調和する要素の候補リストは、第2の認識ステップの基礎を形成し、該第2の認識ステップにおいて、音声入力は、このより少数のリストと比較される。
ナビゲーションシステムのユーザは、現在、ユーザの言語とは別の言語が話されている国を旅行してもよい。例えば、英語のナビゲーションシステムを使用するイギリス人のドライバーは、ドイツまたはフランスを旅行してもよく、またはドイツ人のユーザは、フランスまたはイギリスを旅行してもよい。これらの例において、リスト内に格納された目的地は、ユーザの言語とは別の言語を有するリスト要素である。
ユーザが別の言語の都市名を発したときに、より高い認識率を可能にするために、様々な混同行列を含むメモリ13が提供される。示された実施形態において、メモリ13は、ドイツ語のサブワード単位とイタリア語のサブワード単位とを含む第1の混同行列を含む。さらに、ドイツ語および英語のサブワード単位を比較する混同行列が提供され、かつ、フランス語および英語の音素の組、すなわち、サブワード単位を含む混同行列が提供される。
図2にまた参照を行うと、混同行列20をさらに詳細に示している。混同行列は複数の行列成分21を含み、該行列成分は、音質が別のサブワード単位に属することを考慮して、1つのサブワード単位が認識される可能性を示す。各行列成分21において、Cijは特定のサブワードの対に対する混同の可能性、すなわち、Cij=P(j/i)を表し、ここで、Cijは、どの程度、サブワード単位iがサブワード単位jと混同しやすかを数字で具体的に述べる。P(j/i)は、音質がサブワード単位iに属することを考慮して、jが認識される可能性である。示された実施形態において、上部左側の行列成分21は、サブワード単位22に対する混同の可能性を表す。図2に示された実施形態において、大文字は、1つの言語のサブワード単位、すなわち音素を表し、小文字は他の言語のサブワード単位、すなわち音素を表す。第1の言語は可能なサブワード単位AA−ZZを有し、第2の言語はサブワード単位ba−zzを有する。2つの異なる言語の音素の組は、通常、音素の数が異なるので、混同行列はもはや正方ではない。
ここで、図1に示されたシステムは、これらの混同行列のうちのいくつかを含み、各混同行列は、別の言語のサブワード単位との1つの言語のサブワード単位の混同の可能性を示す。
図3に関して、どの混同行列とどのリストとが使用されるかが決定され得る方法がさらに詳細に述べられる。最も良く調和する結果を決定するために、どの混同行列が使用されるべきかを決定するために、言語の対が決定されなければならない。ユーザの言語はシステムには既知である、例えば、ユーザはドイツ語を話すことをシステムは知っており、この言語が初期値として設定されるので、言語の対のうちの1つの言語が決定され得る。ここで、言語の対のうちのもう1つの言語は、以下の方法で決定され得る。このために、言語の対の決定ユニット31が提供され、言語の対の決定ユニットは、ユーザの言語を1つの入力として受信する。言語の対の決定ユニットは、さらに、どの国で音声認識システムが使用されているかを決定する国決定ユニット32を備えている。ナビゲーションの用途において、システムは、通常、(車両内で使用されるときには車両の)システムの現在の位置を決定する位置決定ユニット33を備えている。車両またはシステムの位置が既知であるときには、国は車両の位置を地図データと比較することによって容易に決定され得る。ここで、言語の対の決定ユニットが、言語の対のうちの2つの言語を知っていると、次に、対応する混同行列を検索するために、メモリ13にアクセスし得る。例えば、イギリス人のユーザがフランスを旅行する。結果として、言語の対の決定ユニットは、英語およびフランス語のサブワード単位に対する混同の可能性を含む混同行列を検索する。この混同行列はマッチャに送信され、該混同行列は、データベース12のリストのうちの1つと関連して使用される。車両が動いている国が既知であるという事実によって、リストもまた既知となる。上で述べられた例において、これは、イギリス人のユーザが、フランス語の目的地のリストを使用して、フランス語名を有する、フランス内の目的地を選択することを意味する。このために、英語−フランス語の言語の対を含む混同行列が使用される。
通常、これらの混同行列は事前に決定され、システム内に格納される。混同の可能性を決定するために、システムは訓練されなければならない。本発明の別の局面に従って、混同行列の混同の可能性が、同じマッチャによって決定され得るが、外国語に関して決定され得る。例えば、英語のマッチャが、フランス語のデータに関する音素シーケンスを認識するために使用され、混同行列の混同の可能性を評価する。このアプローチの利点は、このアプローチが、フランス語と英語との間の最も一般的な音声上の混同を暗黙のうちに学び得るということである。異なる言語の対を有する様々な混同行列を提供することによって、システムは異なる言語に対する調和を可能にする。
しかしながら、状況もまたより複雑になり得る。例えば、ユーザが、2つ以上の言語を有する外国で音声認識システムを使用していることもあり得る。示された実施形態において、データベースは、3つの異なるリストC1、C2およびC3を有する国Cを含む。例えば、システムがスイスにおいて使用されるときには、スイスの要素のリスト(すなわち、目的地)が、ドイツ語、フランス語およびイタリア語で利用可能であり得る。しかしながら、スイス内のイギリス人の旅行者は、これらの言語のうちのいずれも話せないことがあり得る。しかしながら、言語の対、英語−イタリア語、英語−フランス語および英語−ドイツ語のうちの任意のものに対する混同行列が存在し得る。ここで、調和のためにどの言語のリストを使用するかに関して、問題が生じ得る。
1つのアプローチは、単に全てのリストを使用して、全てのリストから最も良く調和するエントリを編集することである。しかしながら、このアプローチの不利な点は、2つ以上のリストがサーチされなければならず、その結果、サーチ時間が大幅に増加させることである。各リストが50,000以上のエントリを有し得ることを考慮に入れると、このようなアプローチはあまりにも効率的ではない。このアプローチの別の不利な点は、同じエントリが言語のそれぞれにおいて選択され、その結果、最も良く調和する結果における明確なエントリの数を減少させ得る。ここで、ユーザが特定の言語の好み(例えば、イギリス人の旅行者が、スイスの公用語のうちの1つを話すことができる)を示すことが可能である。従って、この好みが適切な混同行列と対応するリストとを選択するために使用され得る。例えば、イギリス人の旅行者がドイツ語を話す場合に、英語−ドイツ語の混同行列とドイツ語のエントリのリストとが最も良く調和する結果を決定するために使用され得る。
しかしながら、好みが存在しないこともまた可能である。この状況において、処理は以下のとおりであり得る。最も少ない数の平均混同を有する言語の対を選択するような方法で、システムは構成され得る。上で述べられた例に対して、これは、言語の対は、英語−ドイツ語、英語−フランス語および英語−イタリア語の間で選択されることを意味する。言語の対、対応する混同行列、および関連のリストが決定されなければならない。ユーザの言語に最も良く調和する言語が、ユーザの言語に対する適合度を表すスコアを事前に決定することによって選択され得る。図3に示された実施形態において、スコアは混同行列と共に格納される。スコアを決定するために、スコア決定ユニットが提供され得る。スコアが行列と共に格納される場合には、スコアは使用中に計算される必要はない。しかしながら、音声認識システムの設計の間には、スコアは何らかの方法で決定されなければならない。スコアを計算するいくつかのアプローチが可能である。正方行列の場合、主対角のエントリは、自己混同の可能性に対応するが、一方、非対角要素は、不正確な認識に対応する。すなわち、認識の誤りがある。行列内の全ての誤りを数えることは、2つの言語間またはリストと識別器の間の適合度を決定する1つの方法である。残念ながら、このアプローチを実行することは困難であり得る。なぜならば、本事例の場合、行列は、異なるサブワード単位の組を用いて2つの異なる言語を比較するからである。行列は、通常、もはや正方ではなく、その結果、非対角の行列成分を決定することが困難であり得る。スコアを決定する別の可能性は、行列のエントロピーの測定を使用することである。行列のエントロピーは、行列の適用後に残っている不確実性の基準である。不確実性が少なければ少ないほど、より良い適合度が残る。別の可能なアプローチは、共通の情報を計算することである。混同行列の混同の可能性を評価するために、認識の実行が行われなければならない。訓練の組における各発言に対して、正しい音素シーケンスと認識された音素のシーケンスとの両方が利用可能である。これは、音素シーケンス間の共通の情報を計算することを可能にする。共通の情報が多ければ多いほど、認識された音素シーケンスと行列との予示力とがより良くなる。さらに別のアプローチは、現実のデータに関する実際の認識実験を行うことである。このアプローチは、とりわけ最も費用がかかるが、このアプローチはまた、最も正確なスコアを届ける。最も高い認識率を有する行列がこの場合勝利する。
正しい行列を選択するために、混同行列選択ユニット34は、必要とされる行列および対応するリストを提供され、いくつかの混同行列およびいくつかのリストが可能である場合に決定を行う。混同行列選択ユニットは、最も少ない数の平均混同を有する混同行列を選択する。ユーザの言語は既知であり、言語の対の他の言語は、ここで、システムが使用される国の公用語からユーザの言語に最も良く適合する言語を選択することによって決定される。ここで、言語の対のうちの第2の言語が既知となり、対応するリストが、リストから最も良く調和する要素を決定するために使用される。最も良く調和する要素は、リスト要素のうちのより小さいリスト、例えば、100および2,000の要素のリストで構成され得る。(本図面には示されていない)第2の音声認識ステップは、エントリのより小さいリストに関する音声認識を適用する。第2のステップにおいて、同じ音声入力に対してリスト内の最も適切なエントリが、候補リスト内に列挙されたエントリの音声音響的表示を音響入力に調和させて、最も良く調和するエントリを決定することによって決定される。このアプローチは、計算のリソースを節約する。なぜならば、第1のステップにおいて行われる音素認識は、あまり労力を要さず、計算に費用のかかる第2のステップは、要素の大きなリストのうちの小さいサブセットでのみ実行されるからである。このような2つのステップの認識システムは、DE 102 07 895 A1から公知であり、該DE 102 07 895 A1に対して、2つのステップの認識アプローチのさらなる詳細に対して参照が行われる。
第2の認識ステップにおいて、やはり2つの異なる言語が比較される。例えば、ドイツ語の識別器は、英語の音素を受信し得る。外国語の音素の組から識別器の言語の音素の組へのマッピングを行う方法が、文献において利用可能である。あるいは、識別器は、外国語の音素を処理するために、異なる言語からの音響モデルを用いて使用され得る。短いリストは、リスト要素の大きいリストのうちのエントリの一部を含むだけなので、両方のアプローチが実行可能である。
図4において、このような2つのステップの認識アプローチが示されている。ステップ41において処理が開始した後、話者は所望のリスト要素の全記述を話す。リスト要素は、例えば、電話のリストから選択するときには、都市名、通りの名前または個人名を含む。この音声入力は、第2の認識ステップにおける追加の使用のために、ステップ41において記録される。第1の認識ステップにおいて、音素ストリングはステップ42において生成される。通常、第1の音素ストリングは、データベース12に格納されたリスト要素の語彙とは独立して生成される。連続する音素部分のシーケンス、音素のシーケンス、文字のシーケンス、音節のシーケンスなどを含む音声のサブワード単位のシーケンスが構成される。ステップ43において、上で説明したように、多言語の混同行列を使用して、マッピング処理が行われる。サブワード単位の生成されたストリングが、要素のリストと比較され、最も良く調和する要素の候補リストがステップ44において生成される。ステップ45において、第2の認識ステップが行われ、この第2の認識ステップは最も良く調和する結果の候補リストに基づいているが、第1の調和ステップ43において使用されるリスト全体には基づいていない。ステップ45において、記録された音声入力が、最も良く調和する項目の候補リストで構成された認識ユニット(図示せず)に届けられる。ステップ46において、次に、最も適切なリスト要素または複数のリストがユーザに提示されるか、または最も適切なリスト要素が使用され、さらに処理され得る。方法は、ステップ47で終了する。
図5において、図3に述べられた、混同行列および対応する要素のリストの選択が流れ図に要約されている。ステップ51において処理を開始したあと、および音素ストリングが、ステップ52においてサブワードの音声認識ユニットから受信されたあとに、ユーザの言語が、言語の対のうちの1つの言語を決定するために決定される(ステップ53)。言語の対の決定は、混同行列および要素のリストの選択のために必要である。次のステップにおいて、認識システムが使用される公用語がステップ54において決定される。ステップ55において、システムが使用される国に2つ以上の公用語が存在するかどうかが尋ねられる。そうでない場合には、公用語は既知であり、ステップ56において言語の対を決定することが可能である。言語の対が既知であると、対応する混同行列がステップ57において決定され得、最も良く調和する要素の候補リストがステップ58において決定され得る。この候補リストは、図4に関して述べられたように、第2の認識ステップに出力され得る(ステップ59)。1つのステップの認識処理の場合、最も良く調和する要素が、確認またはさらなる選択のために、ユーザに提示される。2つ以上の公用語が国に存在する場合、認識処理のために使用され得る可能な混同行列がステップ60において決定されなければならない。上で述べられた例のスイスを旅行するイギリス人の旅行客において、決定されたグループは、英語−ドイツ語、英語−フランス語、および英語−イタリア語の行列成分を含む。どちらの混同行列が、調和処理として使用されるべきかを決定するために、ステップ61において、どの行列が最も少ない数の混同であるかを決定し、これはどの言語がユーザの言語に最も調和する言語であるかを示している。これは行列のスコアを比較することによって行われ得る。ステップ62において、行列はスコアに依存して選択される。最も良く調和する言語がスコアを計算することによって知られるときには、該言語のリスト要素のリストが選択され、最も良く調和するエントリの候補リストが、選択された行列および対応する要素のリストを使用して決定される(ステップ63)。結果は、ステップ65で処理が終了する前に、ステップ64におけるさらなる処理のために出力され得る。
つまり、本発明は、異なる言語を比較する混合行列を使用することによって、ユーザの言語ではない言語でのリストからのエントリの音声によるメモリおよびCPUの効率的な選択を可能にする。
図1は、本発明の言語認識システムの概略図を表す。 図2は、図1のシステムにおいて使用される2つの異なる言語に対する混同の可能性を含む混同行列を示す。 図3は、図1に示された言語認識システムのさらに詳細な図である。 図4は、図2の行列を使用して要素のリストからリスト要素を選択するために、言語を認識する方法の流れ図を示す。 図5は、要素のリストにおける、多言語の非ネイティブの認識に関する方法のステップをより詳細に示す別の流れ図を示す。
符号の説明
11 マッチャ
12 データベース
13 メモリ
31 言語の対の決定ユニット
32 国決定ユニット
33 位置決定ユニット
34 混同行列選択ユニット

Claims (40)

  1. 音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、
    該音声入力に対する一連のサブワード単位を認識するステップと、
    該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
    を包含する、方法。
  2. 前記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、請求項1に記載の方法。
  3. 前記混同行列は、第1の言語の可能なサブワード単位と、該第1の言語の該可能なサブワード単位が、別の言語のサブワード単位と混同される可能性とを含む、請求項1または請求項2に記載の方法。
  4. 前記一連のサブワード単位は、第1の言語以外の言語の前記音声入力を認識するために、該第1の言語のサブワード単位を認識するために訓練されたサブワード単位の音声認識ユニットを使用して認識される、請求項1〜請求項3のうちのいずれか1項に記載の方法。
  5. 異なる混同行列が提供され、異なる言語の対に対する混同の可能性を提供する、請求項1〜請求項4のうちのいずれか1項に記載の方法。
  6. 前記言語の対と前記対応する混同行列とは、ユーザの言語を決定することによって、および前記要素のリストを決定することによって決定される、請求項1〜請求項5のうちのいずれか1項に記載の方法。
  7. 前記要素のリストは、該リストの目的地のうちの1つに前記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地を含む、請求項1〜請求項6のうちのいずれか1項に記載の方法。
  8. どの混同行列が使用されるべきかを決定するために、どの国で前記ナビゲーションシステムが使用されるかが決定され、前記情報は、前記異なる目的地を含む前記要素のリストの言語を決定するために、および/または前記言語の対のうちの1つの言語を決定するために使用される、請求項5および請求項7に記載の方法。
  9. どの混同行列が使用されるべきかを決定するために、前記ナビゲーションシステムの前記ユーザの前記言語が決定され、該ユーザの該言語は、前記言語の対のもう1つの言語を決定するために使用される、請求項6〜請求項8のうちのいずれか1項に記載の方法。
  10. 前記混同行列は、前記ナビゲーションシステムが使用される前記国の前記言語に依存して、かつ、前記ユーザの前記言語に依存して選択される、請求項8および請求項9に記載の方法。
  11. 要素の異なるリストが異なる言語で提供され、前記最も良く調和する項目の候補リストが決定されるときには、該異なるリストは組み合わせられ、該最も良く調和する項目の候補リストは、該異なるリストからの該要素に基づいて生成される、請求項1〜請求項10のうちのいずれか1項に記載の方法。
  12. 異なる混同行列が異なる言語の対を提供され、複数のリスト要素が提供されるとき、および該混同行列のうちの1つが、前記候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択される、請求項1〜請求項11のうちのいずれか1項に記載の方法。
  13. 前記混同行列のうちの1つが既に選択されているときには、前記異なるリストのうちの前記要素のリストが、該選択された混同行列に従って選択される、請求項12に記載の方法。
  14. 前記最も少ない数の平均混同を決定するために、スコアが各行列に対して計算され、該スコアは、前記ユーザの言語に対する適合度を示す、請求項12または請求項13に記載の方法。
  15. 前記スコアは、各行列のエントロピーを決定することによって決定され、該エントロピーが低ければ低いほど、前記ユーザの言語に対する前記適合度はより良くなる、請求項14に記載の方法。
  16. 前記スコアは、共通の情報を決定することによって決定され、該共通の情報が多ければ多いほど、前記ユーザの言語に対する前記適合度はより良くなる、請求項14または請求項15に記載の方法。
  17. 前記スコアは、前記異なる行列を使用して、かつ、テストデータを使用して認識実験を行うことによって決定され、該行列は、前記候補リストを生成するために使用される最も高い認識率を有する、請求項14から請求項16のうちのいずれか1項に記載の方法。
  18. 音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
    該音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットと、
    該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するサブワード単位の比較ユニットと、
    少なくとも1つの混同行列を格納するメモリであって、各行列は、第1の言語のサブワード単位が別の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む、メモリと
    を備えており、
    該サブワード単位の比較ユニットは、該少なくとも1つの混同行列に基づいて、該最も良く調和する要素のリストを生成する、音声認識システム。
  19. 前記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、請求項18に記載の音声認識システム。
  20. 前記混同行列は、第2の言語のサブワード単位に対する第1の言語の可能なサブワード単位の混同の可能性を表す行列成分を含む、請求項18または請求項19に記載の音声認識システム。
  21. 前記サブワード単位の音声認識ユニットは、第1の言語のサブワード単位を認識するように訓練され、該第1の言語以外の言語の音声入力に対する前記一連のサブワード単位を生成する、請求項18〜請求項20のうちのいずれか1項に記載の音声認識システム。
  22. 前記メモリは、異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む、請求項18〜請求項21のうちのいずれか1項に記載の音声認識システム。
  23. 前記システムは、前記サブワード単位の対の前記2つの言語を決定する言語の対の決定ユニットをさらに備えている、請求項22に記載の音声認識システム。
  24. 前記要素のリストを含むデータベースが提供され、該要素のリストは、該リストの目的地のうちの1つに前記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地に対応する、請求項18〜請求項23のうちのいずれか1項に記載の音声認識システム。
  25. 前記言語の対の決定ユニットは、前記音声認識システムのユーザの言語を決定するユーザの言語決定ユニットを備えており、該ユーザの言語は、該サブワード単位の対の言語のうちの1つを決定するために使用される、請求項23または請求項24に記載の音声認識システム。
  26. 前記言語の対の決定ユニットは、車両が移動している国の公用語を決定する国決定ユニットをさらに備えており、該言語は、言語の対のもう1つの言語を決定するために使用される、請求項18〜請求項25のうちのいずれか1項に記載の音声認識システム。
  27. 前記国決定ユニットは、実際の車両の位置を決定し、該車両が移動している国の1つの公用語また複数の公用語を推測する車両位置決定ユニットを備えている、請求項26に記載の音声認識システム。
  28. 複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、該混同行列選択ユニットは、前記言語の対の決定ユニットから受信された情報に依存して該混同行列を選択する、請求項18〜請求項27のうちのいずれか1項に記載の音声認識システム。
  29. 前記車両が移動している国の1つの公用語または複数の公用語を決定する公用語決定ユニットと、
    一群の混同行列から混同行列を選択する混同行列選択ユニットであって、該群は、前記言語の対のうちの1つの言語はユーザの言語であり、該言語の対のうちのもう1つの言語は、該車両が移動している国の該公用語のうちの1つである混同行列を含む、混同行列選択ユニットと
    をさらに備えている、請求項18〜請求項28のうちのいずれか1項に記載の音声認識システム。
  30. 各混同行列の混同の平均数を決定する混同決定ユニットが提供される、請求項18〜請求項29のうちの任意の1項に記載の音声認識システム。
  31. 前記言語のうちの1つはユーザの言語であり、前記もう1つの言語は、前記音声認識システムが使用される国の公用語である言語の対を有するいくつかの混同行列が提供される場合には、前記混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する、請求項29および請求項30に記載の音声認識システム。
  32. 前記混同行列選択ユニットは、どの行列が最も少ない数の混同を有するかに関する情報を提供する混同決定ユニットの情報に従って、前記混同行列を選択する、請求項29から請求項31に記載の音声認識システム。
  33. 各混同行列に対するスコアを決定するスコア決定ユニットが提供され、該スコアは、前記ユーザの言語に対する適合度を示す、請求項18〜請求項32のうちのいずれか1項に記載の音声認識システム。
  34. 前記混同行列選択ユニットは、前記異なる行列の前記スコアに依存して、前記複数の混同行列から混同行列を選択する、請求項29〜請求項33のうちのいずれか1項に記載の音声認識システム。
  35. 前記音声認識システムは、請求項1〜請求項17のうちのいずれか1項において請求された方法に従って働いている、請求項18〜請求項34のうちのいずれか1項に記載の音声認識システム。
  36. 要素のリストから最も良く調和する要素の候補リストを生成する方法であって、
    音声入力から一連のサブワード単位を生成することと、
    1つの言語のサブワード単位を別の言語のサブワード単位と関連付ける混同行列を使用して、該一連のサブワード単位を転記することと、
    該転記されたストリングを前記要素のリストと比較することと、
    該比較結果に基づいて、該最も良く調和する要素の候補リストを作成することと
    を包含する、方法。
  37. 音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
    該音声入力から一連のサブワード単位を生成する手段と、
    異なる言語のサブワード単位と関連する可能性を含む少なくとも1つの混同行列を格納する手段と、
    該一連のサブワード単位を該要素のリストと比較する手段であって、該比較は、該少なくとも1つの混同行列を使用する、手段と、
    該比較結果に基づいて、最も良く調和する要素の候補リストを生成する手段と
    を備えている、システム。
  38. 前記一連のサブワード単位の言語は、前記要素のリストの前記要素の言語とは異なり、前記混同行列は、該2つの言語のサブワード単位に対する混同の可能性を含む、請求項37に記載のシステム。
  39. 前記候補リストから要素を選択する認識手段と、
    該候補リストを該認識手段に登録する手段と
    をさらに備えている、請求項38に記載のシステム。
  40. 音声入力を介して要素のリストからリスト要素を選択するための、プロセッサで実行可能な命令を有する、プロセッサで読み取り可能なメディアであって、該メディアは、デバイスのプロセッサで実行されたときに、
    該音声入力に対する一連のサブワード単位を認識するステップと、
    該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
    を包含するステップを実行する、メディア。
JP2008084074A 2007-03-28 2008-03-27 多言語の非ネイティブ音声の認識 Expired - Fee Related JP5189874B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP07105096.7A EP1975923B1 (en) 2007-03-28 2007-03-28 Multilingual non-native speech recognition
EP07105096.7 2007-03-28

Publications (2)

Publication Number Publication Date
JP2008242462A true JP2008242462A (ja) 2008-10-09
JP5189874B2 JP5189874B2 (ja) 2013-04-24

Family

ID=38008294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008084074A Expired - Fee Related JP5189874B2 (ja) 2007-03-28 2008-03-27 多言語の非ネイティブ音声の認識

Country Status (5)

Country Link
EP (1) EP1975923B1 (ja)
JP (1) JP5189874B2 (ja)
KR (1) KR101526918B1 (ja)
CN (1) CN101276585B (ja)
CA (1) CA2626651A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
KR102084646B1 (ko) 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
CN104021786B (zh) * 2014-05-15 2017-05-24 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
DE102014210716A1 (de) 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
CN107532914A (zh) * 2015-05-05 2018-01-02 纽昂斯通讯公司 车载语音目的地输入(vde)导航解决方案中的自动数据切换方法
DE102015014206B4 (de) 2015-11-04 2020-06-25 Audi Ag Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
US10249298B2 (en) 2017-01-11 2019-04-02 Here Global B.V. Method and apparatus for providing global voice-based entry of geographic information in a device
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
CN113692616B (zh) * 2019-05-03 2024-01-05 谷歌有限责任公司 用于在端到端模型中的跨语言语音识别的基于音素的场境化
CN115083437B (zh) * 2022-05-17 2023-04-07 北京语言大学 一种确定学习者发音的不确定性的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025024A (ja) * 2003-07-04 2005-01-27 Microjenics Inc 複数言語音声認識プログラム及び複数言語音声認識システム
JP2006084966A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 発話音声の自動評定装置およびコンピュータプログラム
EP1693828A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992020344A1 (en) * 1991-05-16 1992-11-26 Glaxo Group Limited Antiviral combinations containing nucleoside analogs
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
AU2003273357A1 (en) 2003-02-21 2004-09-17 Harman Becker Automotive Systems Gmbh Speech recognition system
CN100431003C (zh) * 2004-11-12 2008-11-05 中国科学院声学研究所 一种基于混淆网络的语音解码方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025024A (ja) * 2003-07-04 2005-01-27 Microjenics Inc 複数言語音声認識プログラム及び複数言語音声認識システム
JP2006084966A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 発話音声の自動評定装置およびコンピュータプログラム
EP1693828A1 (en) * 2005-02-21 2006-08-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
US20060206331A1 (en) * 2005-02-21 2006-09-14 Marcus Hennecke Multilingual speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6012046935; Viet Bac Le, et al.: '"First Steps in Fast Acoustic Modeling for a New Target Language: Application to Vietnamese"' Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2005 Vol.I(2005-03), pp.821-824 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
US10403265B2 (en) 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method

Also Published As

Publication number Publication date
JP5189874B2 (ja) 2013-04-24
KR20080088490A (ko) 2008-10-02
CA2626651A1 (en) 2008-09-28
EP1975923A1 (en) 2008-10-01
KR101526918B1 (ko) 2015-06-08
CN101276585A (zh) 2008-10-01
CN101276585B (zh) 2013-01-02
EP1975923B1 (en) 2016-04-27

Similar Documents

Publication Publication Date Title
JP5189874B2 (ja) 多言語の非ネイティブ音声の認識
US20210383805A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
US11170776B1 (en) Speech-processing system
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US8380505B2 (en) System for recognizing speech for searching a database
US20170133010A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US20060206331A1 (en) Multilingual speech recognition
AU2017326987B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
AU2023258338A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP4914632B2 (ja) ナビゲーション装置
WO2014194299A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP5004863B2 (ja) 音声検索装置および音声検索方法
JP4684583B2 (ja) 対話装置
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
KR20060098673A (ko) 음성 인식 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110302

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees