JP5576113B2 - 音声認識システムにモデルを適合させるための方法およびシステム - Google Patents
音声認識システムにモデルを適合させるための方法およびシステム Download PDFInfo
- Publication number
- JP5576113B2 JP5576113B2 JP2009504393A JP2009504393A JP5576113B2 JP 5576113 B2 JP5576113 B2 JP 5576113B2 JP 2009504393 A JP2009504393 A JP 2009504393A JP 2009504393 A JP2009504393 A JP 2009504393A JP 5576113 B2 JP5576113 B2 JP 5576113B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- word
- utterance
- recognition system
- error rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 100
- 230000006978 adaptation Effects 0.000 claims description 56
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 description 38
- 238000012217 deletion Methods 0.000 description 14
- 230000037430 deletion Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000006467 substitution reaction Methods 0.000 description 12
- 238000012795 verification Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013518 transcription Methods 0.000 description 8
- 230000035897 transcription Effects 0.000 description 8
- 238000010845 search algorithm Methods 0.000 description 7
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013479 data entry Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 208000003580 polydactyly Diseases 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
図1Aは、本発明の例示的な実施形態による、携帯用端末10およびヘッドセット16を使用するユーザの透視図を例示する。携帯用端末10は、示されるようにベルト14上など、ユーザ11によって着用されうる装着可能なデバイスでありうる。本明細書における用語「携帯用端末」の使用は限定的ではなく、特定の任務を実行するために使用される任意のコンピュータ、デバイス、機械、またはシステムを含みうる。携帯用端末10は、携帯用端末およびその他の関連する処理回路の動作を制御するためのプロセッサを含む、処理回路を含みうる。(処理回路は、本明細書で開示される1つまたは複数の例示的な実施形態の音声認識方法を実施することができる。)ヘッドセット16は、コード18によってまたは無線接続(図1Aで図示せず)によって携帯用端末に結合されることが可能であり、ヘッドセットはユーザ11の頭上に着用される。(もう1つの例示的な実施形態では、音声認識システムはヘッドセット16内に配置され、携帯用端末10を除去する。)ユーザは、ヘッドセット16内のマイクロフォンを介して口語で話すことができ、音声情報は携帯用端末10内の音声認識システムによって処理される。参照により本明細書に組み込まれている、「Apparatus and Method for Detecting User Speech」という表題の米国特許出願第10/671,142号は、かかるシステムを実施するためのさらなる詳細を提供する。本発明の例示的な実施形態に関する適用業務は、図1Aに示される倉庫環境および携帯用端末10に厳密に限定されない。例示的な実施形態が実施されうるその他の適用業務および環境は、本出願の背景技術の項で説明される。
図2は、図1Bのモデル適合・制御モジュール117の例示的な実施形態実施である、モデル適合・制御モジュール200を例示する。(プロセッサ内で実施されうる)誤り率モジュール210は、音声認識システムの誤り率を決定または推定する。誤り率は、システムに入力された語数に対する音声認識誤りの割合すなわち率として定義されうる語の誤り率であってよく、誤り率は、時間(例えば、所定の時間の長さ)および/またはデータ(例えば、システムに入力された所定の数の発話)のウィンドウに対して決定または推定されうる。(発話は「1」または「1-2-3」など、少なくとも一語の口語句である。)さらに、誤り率は以下の方法で決定または推定することが可能である。すなわち、ユーザごとに; ユーザの数に対して; 語ごと; 1組の語に対して; 発話、句または文など、連続して話された語のグループごとである。さらに、モジュール210によって決定される誤り率は、本出願で後に議論されるように、システムの仮定を基準筆記録と比較することから決定される実際の誤りに基づくことが可能であり、またはシステム動作およびユーザ動作の評価後に発生したと判断される推定誤りに基づくことが可能である。したがって、誤り率の決定は誤り率の推定でもありうる。誤り率モジュール210への入力205は、特定の適用業務に関して使用される誤り率の決定または推定のために必要とされるそれらの入力である。この例示的な実施形態では、入力205は、その関連するタイミング情報を伴う(図1Bの111などの)仮定および信頼係数ならびに(図1Bの114などの)(1つまたは複数の)期待される応答である。誤り率モジュール210は、誤り率215を適合制御モジュール225に出力する。
図3は、本発明の例示的な実施形態による、モデル適合を制御または調整するための方法300を例示する流れ図である。この方法は、図1Bのモデル適合・制御モジュール117など、音声認識システムの構成要素によって実行される。305で、入力音声は、例えば、ユーザまたはユーザのセッションからの記録から音声認識システムによって受信される。310で、システムに入力された語に関して(図1Bの信号プロセッサ104、特徴生成器106および音声認識探索アルゴリズム108によって実行される入力音声の処理など)初期の音声処理が実行される。315で、1つの語の事例の認識または様々な語の事例の認識に対応する誤り率が決定または推定される。例えば、誤り率は、語「1」に関する認識誤り、語「1」、「2」および「3」に関する認識誤り、すべてのデジットに関する認識誤り、またはシステムの語彙内のすべての語に関する認識誤りに基づいてよい。誤り率は、システムに事前に入力された事例および現在入力された事例に基づいて更新された誤り率でありうる。320で、誤り率に基づいて、(図1Bのモデル適合・制御モジュール117の処理によってなど)1つの語に1つのモデルを適合させるかまたは様々な語に様々なモデルを適合させるかが決定される。例えば、語「1」に対する誤り率に基づいて語「1」にモデルを適合させることが決定されうる。もう1つの例では、デジットのすべてに対して組み合わされた誤り率に基づいて、デジットであるすべての語を適合させることが決定されうる。(1つまたは複数の)モデルが適合されるべきでないと決定された場合、次は305である。(1つまたは複数の)モデルが適合されるべきである場合、(1つまたは複数の)モデルが325で適合される。325が実行された後、制御は305に戻る。325でモデル適合は、制御を速やかに305に戻して、背景で実行されうる。すなわち、音声認識システムは、モデルが適合されている間に、引き続き音声を受信および処理することが可能である。
本出願の全体にわたって、音声認識システムによって発生する、考えられる(または潜在的なもしくは疑われる)誤りの発生および誤り率を決定または推定するための(図2の誤り率モジュール210および図3の315によって実行されうる)様々な例示的な実施形態が存在する。誤り率は、図2の適合・制御モジュール225および図3の320によって適合を制御または調整するために使用されうる。誤り率は、本出願の背景技術の項で議論されたそれらの音声認識誤りおよび下で議論されるそれらの音声認識誤りなど、本出願において議論される様々な音声認識誤りの任意の1つまたは組合せに基づいてよい。例えば、誤り率はシステムに入力された語に対する挿入誤りの率でありうる。または例えば、誤り率は、システムに入力された語に対する挿入誤り率、置換誤り率および削除誤り率でありうる。または例えば、誤り率は、下で議論される、低い信頼率と置換率の組合せでありうる。下で議論される例示的な実施形態の誤り率は、システム動作、期待される応答および/またはユーザ動作の評価に基づいて発生したと判定される推定誤りに基づく。したがって、これらの推定誤り率は、システムに入力された語の基準筆記録と、システムに入力された語に対応する、システムの仮定の比較とを要求しない利点を提供する。
本発明の例示的な実施形態では、音声認識システムによって発生する、考えられる誤りの発生の計数は、低い信頼率の推定または誤り率の推定を決定するために使用されうる。図4は、図2の誤り率モジュール210など、音声認識システムの構成要素によって実行されうる、誤りを識別するための方法400を例示する流れ図である。低い信頼率は、語が、システムがその語を正確に認識した低い信頼に対応する一定の範囲内の信頼係数を用いて認識される率である。すなわち、低い信頼率は、語が、音声認識システムが使用される適用業務に応じて、比較的低い信頼係数を用いて音声認識システムによって認識された頻度である。低い信頼率は、音声認識システムによる誤りを測定しないが、低い信頼率(またはその値の一部/倍数)は、誤り率(または誤り率の推定)が使用される場合、誤り率の推定に加えて、または誤り率の推定の代わりに使用されうる点に留意されたい。
本発明の例示的な実施形態では、音声認識システムによって発生する、考えられる置換誤りの発生の計数は、置換率の推定または誤り率の推定を決定するために使用されうる。置換率は、(本出願の背景技術の項で定義される置換誤りなどの)置換誤りがシステムによって発生する率である。例示的な実施形態では、音声認識システムによって生成された仮定は、期待される応答と比較され、置換誤りは、システムが期待される応答内の語を仮定内の間違った語に置き換える場合に発生する。例えば、システムが「1-5-3」を認識し、期待される応答が「1-2-3」である場合、システムは1つの置換(すなわち、「2」を「5」に置換)を行ったと判断されるため、置換誤りが計算される。すなわち、仮定および期待される応答は語対語で一致しないが、大部分が一致する場合(すなわち、所定の数の語を除いて、仮定および期待される応答が一致する場合)、語の置換誤りが発生したというのは合理的な仮定である。(所定の数の語は適用業務に応じる。例えば、3つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、1つの語を除いて語対語で一致すると定義することができる。5つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、2つの語を除いて語対語で一致すると定義することができる。)
さらにその他の例示的な実施形態では、誤り率は、少なくとも2つの連続する発話または近接する発話のその仮定に関するシステムの決定を比較した後で実施された、音声認識システムによって発生する認識誤りに基づく。この決定は、音声認識システムが(図1Bの112で受入れアルゴリズムが実行された後、図1Bの118でなど)着信発話を処理した後で発生しうる。認識誤りは、例えば、その後、システムの応答または応答の欠如に応答して、ユーザが発話を繰り返す、着信発話のシステムの仮定を拒否することでありうる。または例えば、認識誤りは、音声認識システムの出力の際に、音声認識システムが正しく認識できない語をもう1つの語または「不要部分」の語に置き換えることでありうる。図5〜6は、これらのタイプの誤り率を推定するための例示的な実施形態の方法を示す。
図5は、音声認識システムによって発生する、考えられる誤りの発生を識別するための例示的な実施形態の方法500を示す流れ図である。考えられる誤りの発生の計数は、誤り率の推定を決定するために使用されうる。方法500は、図2の誤り率モジュール210など、音声認識システムの構成要素によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信した場合に行われる。システム動作およびユーザ動作は以下の通りである。すなわち、システムは第1の発話のその仮定を拒否し、ユーザは第2の発話内で第1の発話を繰り返し、システムは第2の発話のその仮定を受け入れる。システムによって生成された第1および第2の仮定は実質的に一致する。すなわち、仮定は語対語で一致するが、仮定はこの特定の誤り決定に関して無視しうると見なされる認識されたモデルも含みうる。例えば、仮定は、ユーザの息またはため息を表示する認識されたモデルを含んでよく、これらの認識されたモデルはこの特定の誤り決定に関して無視しうると見なされうる。しかし、システムが、ユーザが何を話したかの識別に困難を有することを表示する、(例えば、沈黙、不要部分の語またはワイルドカードの語を表示する、認識されたモデルなど)仮定内の認識されたモデルは無視しうると見なされない可能性がある。(認識されたモデルが無視しうるかどうかの決定は、特定の音声認識システムおよびそのシステムが使用される適用業務に応じる。)例は以下の通りである。すなわち、ユーザは第1の発話「1-2-3」を話し、システムはそれを正確に認識する(すなわち、「1-2-3」の仮定を生成する)が、低い信頼係数のため、その仮定を拒否し、ユーザは第2の発話内で「1-2-3」を繰返し、システムはそれを正確に認識して(すなわち、「1-2-3」の仮定を生成して)その仮定を受け入れる。このタイプの誤り検出機構の論理的根拠は、2つの一致する発話が連続して話され、システムが第2の発話のその仮定を受け入れる場合、システムは第1の発話のその仮定を受入れるべきだったのであり、システムはそうしなかったことで誤ったと合理的に仮定することができるというものである。この経験則は、あるいは、2つの発話が互いに所定の期間内に話されること、またはやはりそれらの発話が連続して話されることを要求することによってさらに精緻化されることを要求する可能性がある。
図6は、音声認識システムによって発生する、考えられる誤りの発生を識別するための例示的な実施形態の方法600を示す流れ図である。考えられる誤りの発生の計数は、誤り率の推定を決定するために使用されうる。方法600は、図2の誤り率モジュール210など、音声認識システムの構成要素によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信して、システムが第1の発話のその仮定内の語を置き換えて、第2の発話のその仮定内の語のすべてを認識して、受け入れる場合に行われる。例は以下の通りである。ユーザは第1の発話「1-2-3」を話し、システムはそれを誤認識して(すなわち、仮定「1-5-3」を生成して)その仮定を受け入れ、ユーザは第1の発話の近接範囲内の第2の発話内で「1-2-3」を繰り返し、システムはそれを正確に認識して(すなわち、仮定「1-2-3」を生成して)、その仮定を受け入れる。誤りを検出するこの方法の論理的根拠は、2つの発話が互いに連続してまたは互いに近接範囲内で話された場合、かつシステムが第2の発話のその仮定を受け入れる場合、システムは第1の発話のその仮定内で置換を行った可能性があるというものである。システムが単一の語だけ異なる連続する認識または近接する認識が実際には置換誤りを含んでいない場合、置換誤りを含むと見なすのを防ぐために使用されうる経験則が存在する。この経験則は、以下の考えられる条件のうちの1つまたは複数に関して検査することを含む。すなわち、第1の発話がシステムによって正確に認識されたことを表示する介入発話は存在しなかったという条件、比較されている2つの発話はシステム内に入力されている同じ一片の情報を表す(例えば、比較されている2つの発話はユーザと認識システムの間の対話において同じ場所でまたは同じプロンプトに応答して発生した)という条件、2つの発話は所定の期間内に話された、すなわち、言い換えれば、比較されている2つの発話の間の時間は、ユーザが初期の発話を繰り返していたことを表示するのに十分短かったという条件である。
音声認識システムに関する例示的な実施形態では、ユーザがシステムにフィードバックを提供する場合の発生の計数は、誤り率の推定または誤り率の一部に関する推定として使用されうる。誤り率を推定するためまたは誤り率の一部を推定するためにかかる計数を使用する理由は、補正がシステムに命令される場合、システムは誤りが発生したことを表示する可能性があるからである。ユーザフィードバックの例は、本出願の背景技術の項で説明される。計数は、ユーザが、システムが誤ったことを表示する率を含みうる。さらに、ユーザは、システムによって生成された仮定を確認するようユーザに要求すること、または何の語がユーザによって話されたかを識別するようユーザに要求することなど、システムがフィードバックを要求することに応答してフィードバックを提供することが可能である。フィードバックはユーザによる立腹を表示する語を含んでよく、またはフィードバックは「バックアップ」もしくは「消去」など、システムに対する補正コマンドであってもよい。誤り率を決定または推定する際に、音声認識システムが使用される適用業務に関して有用な誤り率を決定または推定するために必要とされる期間およびデータが考慮されうる。1つの例示的な考慮事項は、誤り率は所定の期間に対して音声認識システムに入力された音声に関して決定または推定されるというものである。もう1つの例示的な考慮事項は、誤り率は所定の数の発話、語、または仮定に対して音声認識システムに入力された音声に関して決定または推定されるというものである。
もう1つの例示的な考慮事項は、謝り率は移動ウィンドウもしくはスライディングウィンドウまたは期間および/もしくはデータのサイズで動的である収集期間に対して収集された発話の仮定から決定または推定されるというものである。結果として、誤り率は、有用なデータが収集されている期間にわたって決定または推定される。例えば、移動ウィンドウまたはスライディングウィンドウは、騒々しい環境および静かな環境のうちの1つの環境における音声認識システムによる任意の優遇(favoring)をオフセットするために、これらの環境内の等しい期間から取られたデータの収集物をカバーすることができる。移動ウィンドウ、スライディングウィンドウのその他の例は、音声認識システムの最近の使用(例えば、最後の30分)中にデータを収集するウィンドウ、(例えば、ユーザがシステムを開始して以来)特定のユーザによって費やされた時間に対してデータを収集するウィンドウ、またはデータ(例えば、最後の100仮定)を収集するのに費やされた時間にかかわらず一定のデータ量を収集するウィンドウである。
図7は、本発明の例示的な実施形態による、モデル適合のための方法700を例示する流れ図である。この方法は、図2のモデル適合モジュール235など、音声認識システムの構成要素によって実行されうる。例示的な実施形態では、方法700は(図2の225など)制御モジュールの制御の下で実行される。すなわち、方法700は制御モジュールからの命令に基づいて実行される。命令は、(適合させる命令または適合を保留する命令を含めて)あるモデルまたは複数のモデルをいつ適合させるか、ならびに、発話のトランスクリプションおよび発話に対応して音声認識システムによって考察された1組の特徴など、適合されることになる(1つまたは複数の)モデルに対応する情報を含みうる。
11 ユーザ
14 ベルト
16 ヘッドセット
18 コード
100 システム
102 音声入力デバイス
103 アナログ電圧信号
104 信号プロセッサ
105 デジタル化データ流れ,フレーム
106 生成器
107 特徴
108 音声認識探索アルゴリズム機能
110 モデルのライブラリ
111 1つまたは複数の語彙項目からなる仮定および関連する信頼係数
112 受入れアルゴリズム
114 期待される応答
116 しきい値の調整
117 モデル適合・制御モジュール
118 決定
200 モデル適合・制御モジュール
205 入力
210 誤り率モジュール
215 誤り率
220 入力
225 適合制御モジュール
230 命令
235 モデル適合モジュール
240 適合されたモデル
300 方法
400 方法
500 方法
600 方法
700 方法
Claims (70)
- 音声認識システムに対するモデル適合のための方法であって、
1組の語のうちの1つの語の認識または様々な語の認識に対応する誤り率を決定する段階と、
ここに、前記誤り率は、前記音声認識システムが用いられているときの該音声認識システムを評価することにより、かつ互いに時間的に近接する前記音声認識システムに入力されるユーザからの話された発話に対応するユーザ動作を評価することにより、推定される推定誤りの計数に基づいており、評価された発話は、前記音声認識システムによって拒否される第1の話された発話および前記音声認識システムによって次に受け入れられる時間的に近接する第2の話された発話を含み、
決定された前記誤り率に基づいて、前記音声認識システムにおける前記1つの語に対する1つのモデルまたは前記様々な語に対する様々なモデルの適合を調整する段階と
を含む方法。 - 適合を前記調整する段階が、前記誤り率に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させる段階または前記1つのモデルもしくは前記様々なモデルを適合させることを保留する段階を含む、請求項1に記載の方法。
- 前記適合を前記調整する段階が、誤り率のしきい値に対して前記誤り率を比較する段階と、前記比較に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させる段階または前記1つのモデルもしくは前記様々なモデルを適合させることを保留する段階を含む、請求項1に記載の方法。
- 前記適合を前記調整する段階が、前記誤り率が誤り率のしきい値を満たすまで、前記1つのモデルまたは前記様々なモデルを適合させることを保留する段階を含む、請求項1に記載の方法。
- 前記誤り率のしきい値が所定の値である、請求項3に記載の方法。
- 前記誤り率のしきい値がユーザによって設定可能な値である、請求項3に記載の方法。
- 前記誤り率のしきい値が動的な値である、請求項3に記載の方法。
- 前記誤り率のしきい値がユーザによって前記システムに入力された話された発話の仮定内の語数に基づく、請求項3に記載の方法。
- 前記誤り率のしきい値が、前記音声認識システムの環境の環境係数に基づく、請求項3に記載の方法。
- 前記誤り率のしきい値が前記語の前記認識の困難さの測度に基づく、請求項3に記載の方法。
- 音声認識システムの適合のための、前記音声認識システムによって発生する、誤りを識別するための方法であって、
前記音声認識システムが、ユーザからの第1の話された発話のために前記音声認識システムによって生成された第1の仮定を拒否し、その後、前記システムが、前記第1の発話と時間的に近接して提供されるユーザからの第2の話された発話のために前記システムによって生成された第2の仮定を受け入れる事例を識別する段階であって、前記第1および第2の仮定が実質的に語対語で一致する段階と、
誤りの計数を提供するために前記識別された事例の発生を計数し、前記音声認識システムを適合させるために前記計数を使用する段階と
を含む方法。 - 前記第1および第2の仮定が、前記第1および第2の仮定のうちの1つが、前記誤りを識別する目的で無視しうる、少なくとも1つの追加の認識されたモデルを含むことを除いて語対語で一致することによって、実質的に語対語で一致する、請求項11に記載の方法。
- 前記誤りの発生の前記計数が、前記誤りに関連する1つの語に対する1つのモデルの適合を調整する際に使用される、請求項11に記載の方法。
- 前記第1の仮定の信頼係数が受入れしきい値を超えないことにより、前記システムが前記第1の仮定を拒否する、請求項11に記載の方法。
- 前記システムが前記第1の仮定内の少なくとも1つの語を拒否する、請求項11に記載の方法。
- 前記第1および第2の発話が連続して、近接して、または互いの所定の期間内に話される、請求項11に記載の方法。
- 音声認識システムの適合のための、前記音声認識システムによって発生する、誤りを識別するための方法であって、
前記音声認識システムがユーザからの2つの話された発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合を識別する段階を含み、前記2つの仮定は語対語で一致しないが、前記仮定が語対語で大部分一致し、
誤りの計数を提供するために前記識別された事例の発生を計数し、前記音声認識システムを適合させるための前記計数を使用する段階を含む方法。 - 前記仮定が、所定の数の語を除いて語対語で一致することによって、語対語で大部分一致する、請求項17に記載の方法。
- 前記誤りの発生の前記計数が、前記誤りに関連する1つの語に対する1つのモデルの適合を調整する際に使用される、請求項17に記載の方法。
- 前記2つの発話が、連続して、近接して、または互いの所定の期間内に話される、請求項17に記載の方法。
- 前記2つの発話のうちの前記第1の発話が前記システムによって正確に認識されたことを表示する話された介入発話が存在しない、請求項17に記載の方法。
- 前記2つの仮定が、前記第2の仮定内の語が前記第1の仮定内の語に前記音声認識システムによって置き換えられるという点で異なる、請求項17に記載の方法。
- 前記仮定が、前記第2の仮定内の語が前記第1の仮定内の不要部分に前記音声認識システムによって置き換えられるという点で異なる、請求項17に記載の方法。
- 音声認識システムに対するモデル適合のための装置であって、
1組の語のうちの1つの語の認識または様々な語の認識に対応する誤り率を決定するように適合されたプロセッサであって、前記誤り率を、前記音声認識システムが用いられているときの前記音声認識システムを評価することによって、かつ前記システムによって拒否される第1の発話および次に前記システムによって受け入れられる近接する第2の発話を含む前記システムに入力されたユーザからの話された発話に対応するユーザ動作を評価することによって、推定される推定誤りの計数に基づかせるよう適合された前記プロセッサと、
決定された前記誤り率に基づいて、前記音声認識システムにおける前記1つの語に対する1つのモデルまたは前記様々な語に対する様々なモデルの適合を調整するように適合されたコントローラと
を含む装置。 - 前記コントローラが、前記誤り率に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させるまたは前記1つのモデルもしくは前記様々なモデルを適合させることを保留することによって適合を調整する、請求項24に記載の装置。
- 前記コントローラが、
誤り率のしきい値に対して前記誤り率の比較を行うことと、
前記比較に基づいて、前記1つのモデルもしくは前記様々なモデルを適合させることまたは前記1つのモデルもしくは前記様々なモデルを適合させることを保留することと
によって前記適合を調整する、請求項24に記載の装置。 - 前記コントローラが、
前記誤り率が誤り率のしきい値を満たすまで、前記1つのモデルまたは前記様々なモデルを適合させることを保留することによって前記適合を調整する、請求項24に記載の装置。 - 前記誤り率のしきい値が所定の値である、請求項24に記載の装置。
- 前記誤り率のしきい値がユーザによって設定可能な値である、請求項24に記載の装置。
- 前記誤り率のしきい値が動的な値である、請求項24に記載の装置。
- 前記誤り率のしきい値が前記システムに入力された話された発話の仮定内の語数に基づく、請求項24に記載の装置。
- 前記誤り率のしきい値が、前記音声認識システムの環境の環境係数に基づく、請求項24に記載の装置。
- 前記誤り率のしきい値が前記語の前記認識の困難さの測度に基づく、請求項24に記載の装置。
- 音声認識システムの適合のための、前記音声認識システムによって発生する誤りを識別するための装置であって、
前記音声認識システムが、ユーザからの話された第1の発話のための前記音声認識システムによって生成される第1の仮定を拒否し、その後、前記システムが、前記第1の発話と時間的に近接して提供されるユーザからの第2の発話のための前記音声認識システムによって生成される第2の仮定を受け入れる事例を識別するように適合されたプロセッサであって、前記第1および第2の仮定が実質的に語対語で一致する、前記プロセッサを含み、
前記プロセッサは、さらに、誤りの計数を提供するために前記識別された事例の発生を計数し、かつ前記音声認識システムを適合させるための前記計数を使用するよう、適合されている装置。 - 前記第1および第2の仮定が、前記第1および第2の仮定のうちの1つが前記考えられる誤りを識別する目的で無視しうる、少なくとも1つの追加の認識されたモデルを含むことを除いて語対語に一致することによって、実質的に語対語で一致する、請求項34に記載の装置。
- 前記誤りの発生の計数が、前記誤りに関連する語に対するモデルの適合を調整する際に使用される、請求項34に記載の装置。
- 前記第1の仮定の信頼係数が受入れしきい値を超えないことにより、前記システムが前記第1の仮定を拒否する、請求項34に記載の装置。
- 前記システムが前記第1の仮定内の少なくとも1つの語を拒否する、請求項34に記載の装置。
- 前記第1および第2の発話が連続して、近接して、または互いに所定の期間内に話される、請求項34に記載の装置。
- 音声認識システムの適合のための、前記音声認識システムによって発生する誤りを識別するための装置であって、
前記音声認識システムが、ユーザからの話された2つの発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合を識別するように適合されたプロセッサを含み、前記2つの仮定は語対語で一致しないが、前記仮定が語対語で大部分一致し、
前記プロセッサは、さらに、誤りの計数を提供するために前記識別された事例の発生を計数し、かつ前記音声認識システムを適合させるための前記計数を使用するよう、適合されている装置。 - 前記仮定が、所定の数の語を除いて語対語で一致することによって、語対語で大部分一致する、請求項40に記載の装置。
- 前記考えられる誤りの発生の計数が、前記誤りに関連する語に対するモデルの適合を調整する際に使用される、請求項40に記載の装置。
- 前記2つの発話が、連続して、近接して、または互いに所定の期間内に話される、請求項40に記載の装置。
- 前記2つの発話のうちの前記第1の発話が前記システムによって正確に認識されたことを表示する話された介入発話が存在しない、請求項40に記載の装置。
- 前記2つの仮定が、前記第2の仮定内の語が前記第1の仮定内の語に前記音声認識システムによって置き換えられるという点で異なる、請求項40に記載の装置。
- 前記仮定が、前記第2の仮定内の語が前記第1の仮定内の不要部分に前記音声認識システムによって置き換えられるという点で異なる、請求項40に記載の装置。
- 音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための方法であって、
前記音声認識システムがユーザによる話される第1の発話を拒否し、その後、ユーザが話される第2の発話内で前記第1の発話を繰返し、その後、前記システムが前記第2の発話を受け入れる誤り率を推定する段階と、
前記誤り率を使用し、そして前記誤り率に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定する段階と、
を含む方法。 - 前記第1の発話に対して生成される前記音声認識システムの仮定の信頼係数が受入れしきい値を超えないことにより、前記システムが前記第1の発話を拒否する、請求項47に記載の方法。
- 前記システムが前記第1の発話内の少なくとも1つの語を拒否する、請求項47に記載の方法。
- 前記第1および第2の発話が互いに所定の期間内に話される、請求項47に記載の方法。
- 前記第1および第2の発話が連続してまたは近接して話される、請求項47に記載の方法。
- 音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための方法であって、
前記音声認識システムが、ユーザによる話された第1の発話を、生成された前記音声認識システムの仮定内の語に置き換え、その後、ユーザが話された第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を認識して、受け入れる誤り率を推定する段階と、
前記誤り率を使用し、そして前記語に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定する段階と、
を含む方法。 - 前記第1および第2の発話が連続してまたは近接して話される、請求項52に記載の方法。
- 前記第1の発話が前記システムによって正確に認識されたことを表示する介入発話が存在しない、請求項52に記載の方法。
- 前記第1および第2の発話が、前記システムに入力されている同じ一片の情報を表す、請求項52に記載の方法。
- 前記第1および第2の発話が互いに所定の期間内に話された、請求項52に記載の方法。
- 前記システムが前記第1の発話内の前記語をもう1つの語に置き換える、請求項52に記載の方法。
- 前記システムが前記第1の発話内の前記語を不要部分に置き換える、請求項52に記載の方法。
- 音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための装置であって、
前記音声認識システムが話された第1の発話を拒否し、その後、ユーザが話された第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を受け入れる誤り率を推定するように適合されたプロセッサを含み、前記プロセッサは、さらに、前記誤り率を使用し、そして前記誤り率に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定するよう適合されている装置。 - 前記システムが、前記第1の発話に対して生成される前記音声認識システムの仮定の信頼係数が受入れしきい値を超えないことにより、前記第1の発話を拒否する、請求項59に記載の装置。
- 前記システムが前記第1の発話内の少なくとも1つの語を拒否する、請求項59に記載の装置。
- 前記第1および第2の発話が互いに所定の期間内に話される、請求項59に記載の装置。
- 前記第1および第2の発話が連続してまたは近接して話される、請求項59に記載の装置。
- 音声認識システムの適合のための、前記音声認識システムに関する誤り率を推定するための装置であって、
前記音声認識システムが、ユーザによる話された第1の発話を、生成される前記音声認識システムの仮定内の語に置き換え、その後、ユーザが話された第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を認識して、受け入れる誤り率を推定するように適合されたプロセッサを含み、前記プロセッサは、さらに、前記誤り率を使用し、そして前記語に関連する前記音声認識システムにおけるモデルを適合させるかどうかを決定するよう適合されている装置。 - 前記第1および第2の発話が連続してまたは近接して話される、請求項64に記載の装置。
- 前記第1の発話が前記システムによって正確に認識されたことを表示する介入発話が存在しない、請求項64に記載の装置。
- 前記第1および第2の発話が、前記システムに入力されている同じ一片の情報を表す、請求項64に記載の装置。
- 前記第1および第2の発話が互いに所定の期間内に話された、請求項64に記載の装置。
- 前記システムが前記第1の発話内の前記語をもう1つの語に置き換える、請求項64に記載の装置。
- 前記システムが前記第1の発話内の前記語を不要部分に置き換える、請求項64に記載の装置。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US78860606P | 2006-04-03 | 2006-04-03 | |
US78862206P | 2006-04-03 | 2006-04-03 | |
US78862106P | 2006-04-03 | 2006-04-03 | |
US60/788,621 | 2006-04-03 | ||
US60/788,622 | 2006-04-03 | ||
US60/788,606 | 2006-04-03 | ||
US11/539,456 US7827032B2 (en) | 2005-02-04 | 2006-10-06 | Methods and systems for adapting a model for a speech recognition system |
US11/539,456 | 2006-10-06 | ||
US11/688,916 US7949533B2 (en) | 2005-02-04 | 2007-03-21 | Methods and systems for assessing and improving the performance of a speech recognition system |
US11/688,920 US7895039B2 (en) | 2005-02-04 | 2007-03-21 | Methods and systems for optimizing model adaptation for a speech recognition system |
US11/688,916 | 2007-03-21 | ||
US11/688,920 | 2007-03-21 | ||
PCT/US2007/065652 WO2007118032A2 (en) | 2006-04-03 | 2007-03-30 | Methods and systems for adapting a model for a speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009532744A JP2009532744A (ja) | 2009-09-10 |
JP5576113B2 true JP5576113B2 (ja) | 2014-08-20 |
Family
ID=38353024
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504393A Active JP5576113B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムにモデルを適合させるための方法およびシステム |
JP2009504389A Active JP5426363B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
JP2009504390A Active JP5270532B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムに対するモデル適合を最適化するための方法およびシステム |
JP2013166553A Active JP6121842B2 (ja) | 2006-04-03 | 2013-08-09 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504389A Active JP5426363B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
JP2009504390A Active JP5270532B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムに対するモデル適合を最適化するための方法およびシステム |
JP2013166553A Active JP6121842B2 (ja) | 2006-04-03 | 2013-08-09 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Country Status (3)
Country | Link |
---|---|
EP (7) | EP2005417A2 (ja) |
JP (4) | JP5576113B2 (ja) |
WO (3) | WO2007118032A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928829B2 (en) | 2005-02-04 | 2018-03-27 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8958848B2 (en) | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
JP2010128015A (ja) * | 2008-11-25 | 2010-06-10 | Toyota Central R&D Labs Inc | 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム |
EP2246729A1 (en) | 2009-04-30 | 2010-11-03 | Essilor International (Compagnie Générale D'Optique) | A method for assessing an optical feature of an ophthalmic lens design |
DE102010001788A1 (de) | 2010-02-10 | 2011-08-11 | Forschungsverbund Berlin e.V., 12489 | Skalierbarer Aufbau für laterale Halbleiterbauelemente mit hoher Stromtragfähigkeit |
US10269342B2 (en) * | 2014-10-29 | 2019-04-23 | Hand Held Products, Inc. | Method and system for recognizing speech using wildcards in an expected response |
US9984685B2 (en) | 2014-11-07 | 2018-05-29 | Hand Held Products, Inc. | Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries |
CN105336342B (zh) * | 2015-11-17 | 2019-05-28 | 科大讯飞股份有限公司 | 语音识别结果评价方法及系统 |
JP7131362B2 (ja) * | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
CN111754995B (zh) * | 2019-03-29 | 2024-06-04 | 株式会社东芝 | 阈值调整装置、阈值调整方法以及记录介质 |
KR102547001B1 (ko) * | 2022-06-28 | 2023-06-23 | 주식회사 액션파워 | 하향식 방식을 이용한 오류 검출 방법 |
CN117437913B (zh) * | 2023-12-18 | 2024-03-19 | 深圳昱拓智能有限公司 | 一种自适应近远场的离线语音命令词识别方法、系统及介质 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882757A (en) | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
JPS63179398A (ja) * | 1987-01-20 | 1988-07-23 | 三洋電機株式会社 | 音声認識方法 |
JPS644798A (en) * | 1987-06-29 | 1989-01-09 | Nec Corp | Voice recognition equipment |
JP2817429B2 (ja) * | 1991-03-27 | 1998-10-30 | 松下電器産業株式会社 | 音声認識装置 |
US5182502A (en) | 1991-05-06 | 1993-01-26 | Lectron Products, Inc. | Automatic headlamp dimmer |
US5182505A (en) | 1991-06-19 | 1993-01-26 | Honeywell Inc. | Aircraft control surface position transducer |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
JP3710493B2 (ja) * | 1992-09-14 | 2005-10-26 | 株式会社東芝 | 音声入力装置及び音声入力方法 |
JP3083660B2 (ja) * | 1992-10-19 | 2000-09-04 | 富士通株式会社 | 音声認識装置 |
JPH0713591A (ja) * | 1993-06-22 | 1995-01-17 | Hitachi Ltd | 音声認識装置および音声認識方法 |
TW323364B (ja) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
JP2886117B2 (ja) * | 1995-09-11 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
US6212498B1 (en) * | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
FR2769118B1 (fr) * | 1997-09-29 | 1999-12-03 | Matra Communication | Procede de reconnaissance de parole |
JPH11175096A (ja) * | 1997-12-10 | 1999-07-02 | Nec Corp | 音声信号処理装置 |
US6606598B1 (en) * | 1998-09-22 | 2003-08-12 | Speechworks International, Inc. | Statistical computing and reporting for interactive speech applications |
EP1426923B1 (en) * | 1998-12-17 | 2006-03-29 | Sony Deutschland GmbH | Semi-supervised speaker adaptation |
US6922669B2 (en) | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6507816B2 (en) * | 1999-05-04 | 2003-01-14 | International Business Machines Corporation | Method and apparatus for evaluating the accuracy of a speech recognition system |
JP2001042886A (ja) * | 1999-08-03 | 2001-02-16 | Nec Corp | 音声入出力システムおよび音声入出力方法 |
JP3908878B2 (ja) * | 1999-09-27 | 2007-04-25 | 日本放送協会 | 連続音声認識装置の音素認識性能測定装置 |
JP4004716B2 (ja) * | 2000-05-31 | 2007-11-07 | 三菱電機株式会社 | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001343994A (ja) * | 2000-06-01 | 2001-12-14 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り検出装置および記憶媒体 |
EP1199704A3 (de) * | 2000-10-17 | 2003-10-15 | Philips Intellectual Property & Standards GmbH | Auswahl der alternativen Wortfolgen für diskriminative Anpassung |
DE10119284A1 (de) * | 2001-04-20 | 2002-10-24 | Philips Corp Intellectual Pty | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems |
JP2002328696A (ja) * | 2001-04-26 | 2002-11-15 | Canon Inc | 音声認識装置および音声認識装置における処理条件設定方法 |
GB2375211A (en) * | 2001-05-02 | 2002-11-06 | Vox Generation Ltd | Adaptive learning in speech recognition |
US6941264B2 (en) * | 2001-08-16 | 2005-09-06 | Sony Electronics Inc. | Retraining and updating speech models for speech recognition |
JP3876703B2 (ja) * | 2001-12-12 | 2007-02-07 | 松下電器産業株式会社 | 音声認識のための話者学習装置及び方法 |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
JP4304952B2 (ja) * | 2002-10-07 | 2009-07-29 | 三菱電機株式会社 | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム |
JP2005017603A (ja) * | 2003-06-25 | 2005-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識率推定方法及び音声認識率推定プログラム |
JP3984207B2 (ja) * | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
TWI225638B (en) * | 2003-09-26 | 2004-12-21 | Delta Electronics Inc | Speech recognition method |
JP2005173157A (ja) * | 2003-12-10 | 2005-06-30 | Canon Inc | パラメータ設定装置、パラメータ設定方法、プログラムおよび記憶媒体 |
JP2005283646A (ja) * | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 音声認識率推定装置 |
JP2005331882A (ja) * | 2004-05-21 | 2005-12-02 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、および音声認識プログラム |
EP1756539A1 (en) * | 2004-06-04 | 2007-02-28 | Philips Intellectual Property & Standards GmbH | Performance prediction for an interactive speech recognition system |
JP4156563B2 (ja) * | 2004-06-07 | 2008-09-24 | 株式会社デンソー | 単語列認識装置 |
JP2006058390A (ja) * | 2004-08-17 | 2006-03-02 | Nissan Motor Co Ltd | 音声認識装置 |
US7243068B2 (en) * | 2004-09-10 | 2007-07-10 | Soliloquy Learning, Inc. | Microphone setup and testing in voice recognition software |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
-
2007
- 2007-03-30 EP EP07759818A patent/EP2005417A2/en not_active Ceased
- 2007-03-30 WO PCT/US2007/065652 patent/WO2007118032A2/en active Application Filing
- 2007-03-30 JP JP2009504393A patent/JP5576113B2/ja active Active
- 2007-03-30 EP EP12173408.1A patent/EP2541545B1/en active Active
- 2007-03-30 EP EP13187263.2A patent/EP2711923B1/en active Active
- 2007-03-30 EP EP07759840A patent/EP2005418B1/en active Active
- 2007-03-30 WO PCT/US2007/065615 patent/WO2007118029A2/en active Application Filing
- 2007-03-30 JP JP2009504389A patent/JP5426363B2/ja active Active
- 2007-03-30 EP EP19203259.7A patent/EP3627497A1/en active Pending
- 2007-03-30 WO PCT/US2007/065629 patent/WO2007118030A2/en active Application Filing
- 2007-03-30 JP JP2009504390A patent/JP5270532B2/ja active Active
- 2007-03-30 EP EP07759805A patent/EP2005416A2/en not_active Ceased
- 2007-03-30 EP EP20130187267 patent/EP2685451A3/en not_active Withdrawn
-
2013
- 2013-08-09 JP JP2013166553A patent/JP6121842B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928829B2 (en) | 2005-02-04 | 2018-03-27 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
Also Published As
Publication number | Publication date |
---|---|
EP2685451A2 (en) | 2014-01-15 |
EP2005418A2 (en) | 2008-12-24 |
EP2711923A3 (en) | 2014-04-09 |
JP5270532B2 (ja) | 2013-08-21 |
EP3627497A1 (en) | 2020-03-25 |
WO2007118032A3 (en) | 2008-02-07 |
EP2685451A3 (en) | 2014-03-19 |
JP5426363B2 (ja) | 2014-02-26 |
EP2711923A2 (en) | 2014-03-26 |
WO2007118030A2 (en) | 2007-10-18 |
WO2007118030A3 (en) | 2008-01-10 |
JP2013232017A (ja) | 2013-11-14 |
EP2711923B1 (en) | 2019-10-16 |
JP6121842B2 (ja) | 2017-04-26 |
JP2009532742A (ja) | 2009-09-10 |
JP2009532744A (ja) | 2009-09-10 |
EP2005417A2 (en) | 2008-12-24 |
EP2541545A3 (en) | 2013-09-04 |
EP2005418B1 (en) | 2012-06-27 |
WO2007118029A2 (en) | 2007-10-18 |
EP2541545A2 (en) | 2013-01-02 |
EP2541545B1 (en) | 2018-12-19 |
WO2007118032A2 (en) | 2007-10-18 |
WO2007118029A3 (en) | 2007-12-27 |
JP2009532743A (ja) | 2009-09-10 |
EP2005416A2 (en) | 2008-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5576113B2 (ja) | 音声認識システムにモデルを適合させるための方法およびシステム | |
US9928829B2 (en) | Methods and systems for identifying errors in a speech recognition system | |
US7895039B2 (en) | Methods and systems for optimizing model adaptation for a speech recognition system | |
US8255219B2 (en) | Method and apparatus for determining a corrective action for a speech recognition system based on the performance of the system | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US8200495B2 (en) | Methods and systems for considering information about an expected response when performing speech recognition | |
EP3486899A1 (en) | Concatenated expected responses for speech recognition | |
US20090119103A1 (en) | Speaker recognition system | |
US8886532B2 (en) | Leveraging interaction context to improve recognition confidence scores | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
CN111354358B (zh) | 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统 | |
JP2000089794A (ja) | 話者認識方法及び話者認識装置及び話者認識処理プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120806 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20131001 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140603 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5576113 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |