JP5189874B2 - 多言語の非ネイティブ音声の認識 - Google Patents
多言語の非ネイティブ音声の認識 Download PDFInfo
- Publication number
- JP5189874B2 JP5189874B2 JP2008084074A JP2008084074A JP5189874B2 JP 5189874 B2 JP5189874 B2 JP 5189874B2 JP 2008084074 A JP2008084074 A JP 2008084074A JP 2008084074 A JP2008084074 A JP 2008084074A JP 5189874 B2 JP5189874 B2 JP 5189874B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- confusion
- subword
- matrix
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000011159 matrix material Substances 0.000 claims description 219
- 238000000034 method Methods 0.000 claims description 65
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Description
音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含する、方法。
上記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、項目1に記載の方法。
上記混同行列は、第1の言語の可能なサブワード単位と、該第1の言語の該可能なサブワード単位が、別の言語のサブワード単位と混同される可能性とを含む、項目1または項目2に記載の方法。
上記一連のサブワード単位は、第1の言語以外の言語の上記音声入力を認識するために、該第1の言語のサブワード単位を認識するために訓練されたサブワード単位の音声認識ユニットを使用して認識される、項目1〜項目3のうちのいずれか1項に記載の方法。
異なる混同行列が提供され、異なる言語の対に対する混同の可能性を提供する、項目1〜項目4のうちのいずれか1項に記載の方法。
上記言語の対と上記対応する混同行列とは、ユーザの言語を決定することによって、および上記要素のリストを決定することによって決定される、項目1〜項目5のうちのいずれか1項に記載の方法。
上記要素のリストは、該リストの目的地のうちの1つに上記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地を含む、項目1〜項目6のうちのいずれか1項に記載の方法。
どの混同行列が使用されるべきかを決定するために、どの国で上記ナビゲーションシステムが使用されるかが決定され、上記情報は、上記異なる目的地を含む上記要素のリストの言語を決定するために、および/または上記言語の対のうちの1つの言語を決定するために使用される、項目5および項目7に記載の方法。
どの混同行列が使用されるべきかを決定するために、上記ナビゲーションシステムの上記ユーザの上記言語が決定され、該ユーザの該言語は、上記言語の対のもう1つの言語を決定するために使用される、項目6〜項目8のうちのいずれか1項に記載の方法。
上記混同行列は、上記ナビゲーションシステムが使用される上記国の上記言語に依存して、かつ、上記ユーザの上記言語に依存して選択される、項目8および項目9に記載の方法。
要素の異なるリストが異なる言語で提供され、上記最も良く調和する項目の候補リストが決定されるときには、該異なるリストは組み合わせられ、該最も良く調和する項目の候補リストは、該異なるリストからの該要素に基づいて生成される、項目1〜項目10のうちのいずれか1項に記載の方法。
異なる混同行列が異なる言語の対を提供され、複数のリスト要素が提供されるとき、および該混同行列のうちの1つが、上記候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択される、項目1〜項目11のうちのいずれか1項に記載の方法。
上記混同行列のうちの1つが既に選択されているときには、上記異なるリストのうちの上記要素のリストが、該選択された混同行列に従って選択される、項目12に記載の方法。
上記最も少ない数の平均混同を決定するために、スコアが各行列に対して計算され、該スコアは、上記ユーザの言語に対する適合度を示す、項目12または項目13に記載の方法。
上記スコアは、各行列のエントロピーを決定することによって決定され、該エントロピーが低ければ低いほど、上記ユーザの言語に対する上記適合度はより良くなる、項目14に記載の方法。
上記スコアは、共通の情報を決定することによって決定され、該共通の情報が多ければ多いほど、上記ユーザの言語に対する上記適合度はより良くなる、項目14または項目15に記載の方法。
上記スコアは、上記異なる行列を使用して、かつ、テストデータを使用して認識実験を行うことによって決定され、該行列は、上記候補リストを生成するために使用される最も高い認識率を有する、項目14から項目16のうちのいずれか1項に記載の方法。
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するサブワード単位の比較ユニットと、
少なくとも1つの混同行列を格納するメモリであって、各行列は、第1の言語のサブワード単位が別の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む、メモリと
を備えており、
該サブワード単位の比較ユニットは、該少なくとも1つの混同行列に基づいて、該最も良く調和する要素のリストを生成する、音声認識システム。
上記混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、項目18に記載の音声認識システム。
上記混同行列は、第2の言語のサブワード単位に対する第1の言語の可能なサブワード単位の混同の可能性を表す行列成分を含む、項目18または項目19に記載の音声認識システム。
上記サブワード単位の音声認識ユニットは、第1の言語のサブワード単位を認識するように訓練され、該第1の言語以外の言語の音声入力に対する上記一連のサブワード単位を生成する、項目18〜項目20のうちのいずれか1項に記載の音声認識システム。
上記メモリは、異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む、項目18〜項目20のうちのいずれか1項に記載の音声認識システム。
上記システムは、上記サブワード単位の対の上記2つの言語を決定する言語の対の決定ユニットをさらに備えている、項目22に記載の音声認識システム。
上記要素のリストを含むデータベースが提供され、該要素のリストは、該リストの目的地のうちの1つに上記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地に対応する、項目18〜項目23のうちのいずれか1項に記載の音声認識システム。
上記言語の対の決定ユニットは、上記音声認識システムのユーザの言語を決定するユーザの言語決定ユニットを備えており、該ユーザの言語は、該サブワード単位の対の言語のうちの1つを決定するために使用される、項目23または項目24に記載の音声認識システム。
上記言語の対の決定ユニットは、車両が移動している国の公用語を決定する国決定ユニットをさらに備えており、該言語は、言語の対のもう1つの言語を決定するために使用される、項目18〜項目25のうちのいずれか1項に記載の音声認識システム。
上記国決定ユニットは、実際の車両の位置を決定し、該車両が移動している国の1つの公用語また複数の公用語を推測する車両位置決定ユニットを備えている、項目26に記載の音声認識システム。
複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、該混同行列選択ユニットは、上記言語の対の決定ユニットから受信された情報に依存して該混同行列を選択する、項目18〜項目27のうちのいずれか1項に記載の音声認識システム。
上記車両が移動している国の1つの公用語または複数の公用語を決定する公用語決定ユニットと、
一群の混同行列から混同行列を選択する混同行列選択ユニットであって、該群は、上記言語の対のうちの1つの言語はユーザの言語であり、該言語の対のうちのもう1つの言語は、該車両が移動している国の該公用語のうちの1つである混同行列を含む、混同行列選択ユニットと
をさらに備えている、項目18〜項目28のうちのいずれか1項に記載の音声認識システム。
各混同行列の混同の平均数を決定する混同決定ユニットが提供される、項目18〜項目29のうちの任意の1項に記載の音声認識システム。
上記言語のうちの1つはユーザの言語であり、上記もう1つの言語は、上記音声認識システムが使用される国の公用語である言語の対を有するいくつかの混同行列が提供される場合には、上記混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する、項目29および項目30に記載の音声認識システム。
上記混同行列選択ユニットは、どの行列が最も少ない数の混同を有するかに関する情報を提供する混同決定ユニットの情報に従って、上記混同行列を選択する、項目29から項目31に記載の音声認識システム。
各混同行列に対するスコアを決定するスコア決定ユニットが提供され、該スコアは、上記ユーザの言語に対する適合度を示す、項目18〜項目32のうちのいずれか1項に記載の音声認識システム。
上記混同行列選択ユニットは、上記異なる行列の上記スコアに依存して、上記複数の混同行列から混同行列を選択する、項目29〜項目33のうちのいずれか1項に記載の音声認識システム。
上記音声認識システムは、項目1〜項目17のうちのいずれか1項において請求された方法に従って働いている、項目18〜項目34のうちのいずれか1項に記載の音声認識システム。
要素のリストから最も良く調和する要素の候補リストを生成する方法であって、
音声入力から一連のサブワード単位を生成することと、
1つの言語のサブワード単位を別の言語のサブワード単位と関連付ける混同行列を使用して、該一連のサブワード単位を転記することと、
該転記されたストリングを上記要素のリストと比較することと、
該比較結果に基づいて、該最も良く調和する要素の候補リストを作成することと
を包含する、方法。
音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力から一連のサブワード単位を生成する手段と、
異なる言語のサブワード単位と関連する可能性を含む少なくとも1つの混同行列を格納する手段と、
該一連のサブワード単位を該要素のリストと比較する手段であって、該比較は、該少なくとも1つの混同行列を使用する、手段と、
該比較結果に基づいて、最も良く調和する要素の候補リストを生成する手段と
を備えている、システム。
上記一連のサブワード単位の言語は、上記要素のリストの上記要素の言語とは異なり、上記混同行列は、該2つの言語のサブワード単位に対する混同の可能性を含む、項目37に記載のシステム。
上記候補リストから要素を選択する認識手段と、
該候補リストを該認識手段に登録する手段と
をさらに備えている、項目38に記載のシステム。
音声入力を介して要素のリストからリスト要素を選択するための、プロセッサで実行可能な命令を有する、プロセッサで読み取り可能なメディアであって、該メディアは、デバイスのプロセッサで実行されたときに、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含するステップを実行する、メディア。
本発明は、音声入力を介して、要素のリストからリスト要素を選択する方法に関し、該方法は、以下のステップ:該音声入力に対する一連のサブワード単位を認識するステップと、該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も調和する要素の該候補リストを生成するために、(異なる自然言語のサブワード単位を含む)異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップとを包含する。
12 データベース
13 メモリ
31 言語の対の決定ユニット
32 国決定ユニット
33 位置決定ユニット
34 混同行列選択ユニット
Claims (38)
- 音声入力を介して、要素のリストからリスト要素を選択する方法であって、該方法は、
該音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の該候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を包含し、該混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、方法。 - 前記混同行列は、第1の言語の可能なサブワード単位と、該第1の言語の該可能なサブワード単位が、別の言語のサブワード単位と混同される可能性とを含む、請求項1に記載の方法。
- 前記一連のサブワード単位は、第1の言語以外の言語の前記音声入力を認識するために、該第1の言語のサブワード単位を認識するために訓練されたサブワード単位の音声認識ユニットを使用して認識される、請求項1〜請求項2のうちのいずれか1項に記載の方法。
- 異なる混同行列が提供され、異なる言語の対に対する混同の可能性を提供する、請求項1〜請求項3のうちのいずれか1項に記載の方法。
- 前記言語の対と前記対応する混同行列とは、ユーザの言語を決定することによって、および前記要素のリストの言語を決定することによって決定される、請求項1〜請求項4のうちのいずれか1項に記載の方法。
- 前記要素のリストは、該リストの目的地のうちの1つに前記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地を含む、請求項1〜請求項5のうちのいずれか1項に記載の方法。
- どの混同行列が使用されるべきかを決定するために、どの国で前記ナビゲーションシステムが使用されるかが決定され、前記情報は、前記異なる目的地を含む前記要素のリストの言語を決定するために、および/または前記言語の対のうちの1つの言語を決定するために使用される、請求項4および請求項6に記載の方法。
- どの混同行列が使用されるべきかを決定するために、前記ナビゲーションシステムの前記ユーザの前記言語が決定され、該ユーザの該言語は、前記言語の対のもう1つの言語を決定するために使用される、請求項5〜請求項7のうちのいずれか1項に記載の方法。
- 前記混同行列は、前記ナビゲーションシステムが使用される前記国の前記言語に依存して、かつ、前記ユーザの前記言語に依存して選択される、請求項7および請求項8に記載の方法。
- 要素の異なるリストが異なる言語で提供され、前記最も良く調和する項目の候補リストが決定されるときには、該異なるリストは組み合わせられ、該最も良く調和する項目の候補リストは、該異なるリストからの該要素に基づいて生成される、請求項1〜請求項9のうちのいずれか1項に記載の方法。
- 異なる混同行列が異なる言語の対を提供され、複数のリスト要素が提供されるとき、および該混同行列のうちの1つが、前記候補リストを決定するために選択されなければならないときには、最も少ない数の平均混同を有する混同行列が選択される、請求項1〜請求項10のうちのいずれか1項に記載の方法。
- 前記混同行列のうちの1つが既に選択されているときには、前記異なるリストのうちの前記要素のリストが、該選択された混同行列に従って選択される、請求項11に記載の方法。
- 前記最も少ない数の平均混同を決定するために、スコアが各行列に対して計算され、該スコアは、前記ユーザの言語に対する適合度を示す、請求項11または請求項12に記載の方法。
- 前記スコアは、各行列のエントロピーを決定することによって決定され、該エントロピーが低ければ低いほど、前記ユーザの言語に対する前記適合度はより良くなる、請求項13に記載の方法。
- 前記スコアは、共通の情報を決定することによって決定され、該共通の情報が多ければ多いほど、前記ユーザの言語に対する前記適合度はより良くなる、請求項13または請求項14に記載の方法。
- 前記スコアは、前記異なる行列を使用して、かつ、テストデータを使用して認識実験を行うことによって決定され、該行列は、前記候補リストを生成するために使用される最も高い認識率を有する、請求項13から請求項15のうちのいずれか1項に記載の方法。
- 音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力に対する一連のサブワード単位を認識するサブワード単位の音声認識ユニットと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するサブワード単位の比較ユニットと、
少なくとも1つの混同行列を格納するメモリであって、各行列は、第1の言語のサブワード単位が別の言語のサブワード単位と混同される混同の可能性に関する情報を含む行列成分を含む、メモリと
を備えており、
該サブワード単位の比較ユニットは、該少なくとも1つの混同行列に基づいて、該最も良く調和する要素のリストを生成し、該混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、音声認識システム。 - 前記混同行列は、第2の言語のサブワード単位に対する第1の言語の可能なサブワード単位の混同の可能性を表す行列成分を含む、請求項17に記載の音声認識システム。
- 前記サブワード単位の音声認識ユニットは、第1の言語のサブワード単位を認識するように訓練され、該第1の言語以外の言語の音声入力に対する前記一連のサブワード単位を生成する、請求項17〜請求項18のうちのいずれか1項に記載の音声認識システム。
- 前記メモリは、異なる言語の異なるサブワード単位の対に対する混同の可能性を提供する異なる混同行列を含む、請求項17〜請求項19のうちのいずれか1項に記載の音声認識システム。
- 前記システムは、前記サブワード単位の対の前記2つの言語を決定する言語の対の決定ユニットをさらに備えている、請求項20に記載の音声認識システム。
- 前記要素のリストを含むデータベースが提供され、該要素のリストは、該リストの目的地のうちの1つに前記ユーザを導くために、ナビゲーションシステムにおいて使用される様々な目的地に対応する、請求項17〜請求項21のうちのいずれか1項に記載の音声認識システム。
- 前記言語の対の決定ユニットは、前記音声認識システムのユーザの言語を決定するユーザの言語決定ユニットを備えており、該ユーザの言語は、該サブワード単位の対の言語のうちの1つを決定するために使用される、請求項21または請求項22に記載の音声認識システム。
- 前記言語の対の決定ユニットは、車両が移動している国の公用語を決定する国決定ユニットをさらに備えており、該言語は、言語の対のもう1つの言語を決定するために使用される、請求項17〜請求項23のうちのいずれか1項に記載の音声認識システム。
- 前記国決定ユニットは、実際の車両の位置を決定し、該車両が移動している国の1つの公用語また複数の公用語を推測する車両位置決定ユニットを備えている、請求項24に記載の音声認識システム。
- 複数の混同行列から混同行列を選択する混同行列選択ユニットが提供され、該混同行列選択ユニットは、前記言語の対の決定ユニットから受信された情報に依存して該混同行列を選択する、請求項17〜請求項25のうちのいずれか1項に記載の音声認識システム。
- 前記車両が移動している国の1つの公用語または複数の公用語を決定する公用語決定ユニットと、
一群の混同行列から混同行列を選択する混同行列選択ユニットであって、該群は、前記言語の対のうちの1つの言語はユーザの言語であり、該言語の対のうちのもう1つの言語は、該車両が移動している国の該公用語のうちの1つである混同行列を含む、混同行列選択ユニットと
をさらに備えている、請求項17〜請求項26のうちのいずれか1項に記載の音声認識システム。 - 各混同行列の混同の平均数を決定する混同決定ユニットが提供される、請求項17〜請求項27のうちのいずれか1項に記載の音声認識システム。
- 前記言語のうちの1つはユーザの言語であり、前記もう1つの言語は、前記音声認識システムが使用される国の公用語である言語の対を有するいくつかの混同行列が提供される場合には、前記混同行列選択ユニットは、最も少ない数の混同を有する行列を選択する、請求項27および請求項28に記載の音声認識システム。
- 前記混同行列選択ユニットは、どの行列が最も少ない数の混同を有するかに関する情報を提供する混同決定ユニットの情報に従って、前記混同行列を選択する、請求項27から請求項29のうちのいずれか1項に記載の音声認識システム。
- 各混同行列に対するスコアを決定するスコア決定ユニットが提供され、該スコアは、前記ユーザの言語に対する適合度を示す、請求項17〜請求項30のうちのいずれか1項に記載の音声認識システム。
- 前記混同行列選択ユニットは、前記異なる行列の前記スコアに依存して、前記複数の混同行列から混同行列を選択する、請求項27〜請求項31のうちのいずれか1項に記載の音声認識システム。
- 前記音声認識システムは、請求項1〜請求項16のうちのいずれか1項において請求された方法に従って働いている、請求項17〜請求項32のうちのいずれか1項に記載の音声認識システム。
- 要素のリストから最も良く調和する要素の候補リストを生成する方法であって、
音声入力から一連のサブワード単位を生成することと、
1つの言語のサブワード単位を別の言語のサブワード単位と関連付ける混同行列を使用して、該一連のサブワード単位を、異なる言語の別の一連のサブワード単位にマッピングすることと、
該マッピングされた一連のサブワード単位を前記要素のリストと比較することと、
該比較結果に基づいて、該最も良く調和する要素の候補リストを作成することと
を包含し、該混同行列は行列成分を含み、該混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、方法。 - 音声入力を介して、要素のリストからリスト要素を選択する音声認識システムであって、該システムは、
該音声入力から一連のサブワード単位を生成する手段と、
異なる言語のサブワード単位と関連する可能性を含む少なくとも1つの混同行列を格納する手段と、
該一連のサブワード単位を該要素のリストと比較する手段であって、該比較は、該少なくとも1つの混同行列を使用する、手段と、
該比較結果に基づいて、最も良く調和する要素の候補リストを生成する手段と
を備えており、該混同行列は行列成分を含み、該混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、システム。 - 前記一連のサブワード単位の言語は、前記要素のリストの前記要素の言語とは異なり、前記混同行列は、該2つの言語のサブワード単位に対する混同の可能性を含む、請求項35に記載のシステム。
- 前記候補リストから要素を選択する認識手段と、
該候補リストを該認識手段に登録する手段と
をさらに備えている、請求項36に記載のシステム。 - コンピュータに、
音声入力に対する一連のサブワード単位を認識するステップと、
該認識された一連のサブワード単位を該要素のリストと比較し、該比較の結果に基づいて最も良く調和する要素の候補リストを生成するステップであって、該最も良く調和する要素の候補リストを生成するために、異なる言語のサブワード単位の混同の可能性に関する情報を含む行列成分を含む混同行列が使用される、ステップと
を実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体であって、該混同行列の各行列成分は、特定のサブワード単位の対に対する混同の可能性を表し、該サブワード単位の対は、第1の言語のサブワード単位と第2の言語のサブワード単位とを含む、コンピュータ読み取り可能な媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP07105096.7A EP1975923B1 (en) | 2007-03-28 | 2007-03-28 | Multilingual non-native speech recognition |
EP07105096.7 | 2007-03-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008242462A JP2008242462A (ja) | 2008-10-09 |
JP5189874B2 true JP5189874B2 (ja) | 2013-04-24 |
Family
ID=38008294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008084074A Expired - Fee Related JP5189874B2 (ja) | 2007-03-28 | 2008-03-27 | 多言語の非ネイティブ音声の認識 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1975923B1 (ja) |
JP (1) | JP5189874B2 (ja) |
KR (1) | KR101526918B1 (ja) |
CN (1) | CN101276585B (ja) |
CA (1) | CA2626651A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
CN104021786B (zh) * | 2014-05-15 | 2017-05-24 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
DE102014210716A1 (de) | 2014-06-05 | 2015-12-17 | Continental Automotive Gmbh | Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen |
DE112014007287B4 (de) * | 2014-12-24 | 2019-10-31 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
WO2016176820A1 (en) * | 2015-05-05 | 2016-11-10 | Nuance Communications, Inc. | Automatic data switching approach in onboard voice destination entry (vde) navigation solution |
DE102015014206B4 (de) | 2015-11-04 | 2020-06-25 | Audi Ag | Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe |
CN107195296B (zh) * | 2016-03-15 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
US10249298B2 (en) | 2017-01-11 | 2019-04-02 | Here Global B.V. | Method and apparatus for providing global voice-based entry of geographic information in a device |
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
CN117935785A (zh) * | 2019-05-03 | 2024-04-26 | 谷歌有限责任公司 | 用于在端到端模型中跨语言语音识别的基于音素的场境化 |
CN115083437B (zh) * | 2022-05-17 | 2023-04-07 | 北京语言大学 | 一种确定学习者发音的不确定性的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992020344A1 (en) * | 1991-05-16 | 1992-11-26 | Glaxo Group Limited | Antiviral combinations containing nucleoside analogs |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
AU2003273357A1 (en) | 2003-02-21 | 2004-09-17 | Harman Becker Automotive Systems Gmbh | Speech recognition system |
JP4333838B2 (ja) * | 2003-07-04 | 2009-09-16 | マイクロジェニックス株式会社 | 複数言語音声認識プログラム及び複数言語音声認識システム |
JP2006084966A (ja) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | 発話音声の自動評定装置およびコンピュータプログラム |
CN100431003C (zh) * | 2004-11-12 | 2008-11-05 | 中国科学院声学研究所 | 一种基于混淆网络的语音解码方法 |
ATE385024T1 (de) | 2005-02-21 | 2008-02-15 | Harman Becker Automotive Sys | Multilinguale spracherkennung |
-
2007
- 2007-03-28 EP EP07105096.7A patent/EP1975923B1/en not_active Not-in-force
-
2008
- 2008-03-20 CA CA002626651A patent/CA2626651A1/en not_active Abandoned
- 2008-03-27 JP JP2008084074A patent/JP5189874B2/ja not_active Expired - Fee Related
- 2008-03-28 CN CN200810086920.4A patent/CN101276585B/zh not_active Expired - Fee Related
- 2008-03-28 KR KR1020080028820A patent/KR101526918B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR101526918B1 (ko) | 2015-06-08 |
EP1975923A1 (en) | 2008-10-01 |
EP1975923B1 (en) | 2016-04-27 |
KR20080088490A (ko) | 2008-10-02 |
CN101276585A (zh) | 2008-10-01 |
CA2626651A1 (en) | 2008-09-28 |
JP2008242462A (ja) | 2008-10-09 |
CN101276585B (zh) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5189874B2 (ja) | 多言語の非ネイティブ音声の認識 | |
US20210383805A1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US9818401B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US11170776B1 (en) | Speech-processing system | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US8521539B1 (en) | Method for chinese point-of-interest search | |
US20080162137A1 (en) | Speech recognition apparatus and method | |
EP1693828A1 (en) | Multilingual speech recognition | |
AU2022263497A1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
AU2023258338A1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
JP5009037B2 (ja) | 音声認識装置、その音声認識方法 | |
EP3005152A1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
JP2007286358A (ja) | ナビゲーション装置及びその住所入力方法 | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
JP4684583B2 (ja) | 対話装置 | |
KR20060098673A (ko) | 음성 인식 방법 및 장치 | |
JP2001242887A (ja) | 音声認識装置および音声認識ナビゲーション装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110302 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20110819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120905 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121204 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160201 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |