JP2009532743A - 音声認識システムに対するモデル適合を最適化するための方法およびシステム - Google Patents
音声認識システムに対するモデル適合を最適化するための方法およびシステム Download PDFInfo
- Publication number
- JP2009532743A JP2009532743A JP2009504390A JP2009504390A JP2009532743A JP 2009532743 A JP2009532743 A JP 2009532743A JP 2009504390 A JP2009504390 A JP 2009504390A JP 2009504390 A JP2009504390 A JP 2009504390A JP 2009532743 A JP2009532743 A JP 2009532743A
- Authority
- JP
- Japan
- Prior art keywords
- recognition rate
- recognition
- rate
- considerations
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 230000006978 adaptation Effects 0.000 claims description 56
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 description 30
- 238000013459 approach Methods 0.000 description 16
- 238000012217 deletion Methods 0.000 description 13
- 230000037430 deletion Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000006467 substitution reaction Methods 0.000 description 13
- 238000012795 verification Methods 0.000 description 12
- 230000006399 behavior Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000013518 transcription Methods 0.000 description 9
- 230000035897 transcription Effects 0.000 description 9
- 238000012937 correction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000010845 search algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013479 data entry Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 208000003580 polydactyly Diseases 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
Description
音声認識システムは、従来の周辺入出力デバイスを経由した通信の好都合な代替案として、ユーザがコンピュータとハンズフリー通信を実行することを可能にすることによって、特に職場でのユーザのために多くの任務を簡素化した。例えば、ユーザはユーザが中央コンピュータシステムから作業割当ておよび作業命令を受信することができるように、ユーザと中央コンピュータシステムの間の通信を可能にする音声認識システムを有する、装着可能な無線端末を身につけることができる。ユーザは、データ入力、質問、作業進歩状況報告書および作業状態報告書などの情報を中央コンピュータシステムに通信することもできる。倉庫または棚卸の環境で、ユーザは(中央コンピュータシステムからの命令を介して、またはディスプレイを用いて視覚的に)「1-2-3」などの複数のデジット数(チェックデジット(check-digit))でラベルづけされた特定の作業領域に導かれ、チェックデジットを話すよう要求されうる。次いで、ユーザは期待される応答「1-2-3」を用いて応答することになる。(「チェックデジット」は任意の語または一続きの語であってよく、デジットに限定されない点に留意されたい。) ユーザと音声認識システムの間の通信のその他のかかる例は、米国特許出願第2003/0154075号で説明され、自動車内または電話システム内など、装着可能な端末または携帯用端末が要求されない環境;薬局、小売店、および事務所など、倉庫でない環境;例えば、クレジットカード番号、銀行口座番号、社会保障番号および個人識別番号を処理する音声制御された情報処理システム;コマンドおよび制御、書取り、データ入力ならびに情報取出し適用業務など、その他の適用業務;ユーザ検証、パスワード検証、数量検証、および繰返し/確認メッセージなどの音声認識システム特徴を含む。本明細書で提示される発明は、それらの適用業務において使用されうる。音声認識システムを使用する際、手動のデータ入力は排除されるか、または少なくとも削減され、ユーザは自らの任務をより速く、より正確かつより生産的に実行することが可能である。
しかし、例えば、背景雑音またはユーザがシステムに不慣れであることまたはユーザによるシステムの誤用により、音声認識システムによって誤りが発生する可能性がある。システムによって発生する誤りは様々なタイプに分類されうる。測定基準である(システムの考察数に対する音声認識誤りを伴う考察の割合すなわち率と定義することが可能であり、時間および/またはデータのウィンドウ(window)に対してかつユーザごとに決定されうる)誤り率は、多くの場合、音声認識システムによって発生する誤りの数およびタイプを評価するために使用され、したがって、システムのパフォーマンスを評価する際に有用である。考察は、音声認識が測定されうる任意の音声単位と定義することが可能である。考察は、音節、音素、単一の語または(句、発話または文の形でなど)複数の語でありうる。システムの考察数を計算する場合、システムに入力された考察が計算されてよく、またはシステムによって出力された考察が計算されてもよい。当業者は、(システムの考察数に対するシステムの正確な考察の割合すなわち率と定義することが可能であり、時間および/またはデータのウィンドウに対してかつユーザごとに決定されうる)精度率は、システムのパフォーマンスを評価するために使用されうる点を熟知および理解されよう。したがって、(誤り率、精度率、またはその他のタイプの認識率でありうる)認識率は、システムのパフォーマンスを評価する際に有用である。一般に、認識率は、1組の語のうちの1つの語もしくは様々な語に関して、または1人のユーザもしくは複数のユーザに関して決定されうる。システムの誤りの識別は、ユーザの入力音声の基準トランスクリプション(reference transcription)をシステムによって生成された仮定(ユーザの入力音声のシステムによる解釈)と比較することによって行うことが可能である。さらに、当業者に知られているように、この比較は時間整合モードまたはテキスト整合することが可能である。
音声認識システムは、より多くの音声サンプルが音声認識システムによって受信および処理されると、トレーニングアルゴリズムもしくはその他の学習アルゴリズムまたは適合アルゴリズムを介してその音声モデルを改善することによって、経時的にそのパフォーマンスを改善することが可能である。同時に、システムが望まれない方法で適合し、それにより、結果として、システムが適合に先立って行ったのよりも不十分に実行するようになること、またはシステムが経時的に劣化するようになることを防ぐことが望ましい。音声モデルの適合に起因する、音声認識システムによる追加の処理を回避することは、電池動力を備えた移動体コンピュータ、無線ネットワーク、およびモデルを記憶するためのサーバを用いる適用業務において特に有用である。モデルを適合させることは、適合されたモデルを作り出すためにかなりの計算リソースと、新しいモデルをサーバに送信するためにかなりの無線伝送エネルギーとを使用する可能性がある。本明細書で開示される本発明の例示的な実施形態は、計算リソース、記憶リソースおよび/または電力リソースの非効率な使用を回避して、十分に実行するモデルからかけ離れた適合を回避するために、音声認識システムの適合を制御することが可能である。本発明の例示的な実施形態は、先行モデルを適合させるためまたは新しいモデルを作り出すために、認識率の決定または推定および認識率の決定または推定の精度に基づくトリガを使用して適合を制御する。
図1Aは、本発明の例示的な実施形態による、携帯用端末10およびヘッドセット16を使用するユーザの透視図を例示する。携帯用端末10は、示されるようにベルト14上など、ユーザ11によって着用されうる装着可能なデバイスでありうる。本明細書における用語「携帯用端末」の使用は限定的ではなく、特定の任務を実行するために使用される任意のコンピュータ、デバイス、機械、またはシステムを含みうる。携帯用端末10は、携帯用端末およびその他の関連する処理回路の動作を制御するためのプロセッサを含む、処理回路を含みうる。(処理回路は、本明細書で開示される1つまたは複数の例示的な実施形態の音声認識方法を実施することができる。)ヘッドセット16は、コード18によってまたは無線接続(図1Aで図示せず)によって携帯用端末に結合されることが可能であり、ヘッドセットはユーザ11の頭上に着用される。(もう1つの例示的な実施形態では、音声認識システムはヘッドセット16内に配置され、携帯用端末10を除去する。)ユーザは、ヘッドセット16内のマイクロフォンを介して口語で話すことができ、音声情報は携帯用端末10内の音声認識システムによって処理される。参照により本明細書に組み込まれている、「Apparatus and Method for Detecting User Speech」という表題の米国特許出願第10/671,142号は、かかるシステムを実施するためのさらなる詳細を提供する。本発明の例示的な実施形態に関する適用業務は、図1Aに示される倉庫環境および携帯用端末10に厳密に限定されない。例示的な実施形態が実施されうるその他の適用業務および環境は、本出願の背景技術の項で説明される。
図2は、図1Bのモデル適合・制御モジュール117の例示的な実施形態実施である、モデル適合・制御モジュール200を例示する。(プロセッサ内で実施されうる)認識率モジュール210は、音声認識システムの認識率を決定する。認識率は、システムの考察数に対して音声認識誤りを有する考察の割合すなわち率と定義されうる誤り率であってよく、誤り率は時間(例えば、所定の長さの時間)および/またはデータ(例えば、システムに入力された所定の数の発話)のウィンドウに対して決定されうる。考察は音声認識が測定されうる任意の音声単位と定義することができる。考察は、音節、音素、単一の語または(句、発話または文の形でなど)複数の語でありうる。システムの考察数を計算する場合、システムに入力された考察が計算されてよく、またはシステムによって出力された考察が計算されてもよい。例えば、認識率は語の誤り率、システムに入力された語数に対する音声認識誤りの割合すなわち率でありうる。認識率はまた、システムの考察数に対するシステムによる正確な考察(正確な認識)の割合すなわち率と定義することが可能であり、精度率は時間(例えば、所定の長さの時間)および/またはデータ(例えば、システムに入力された所定の数の発話)のウィンドウに対して決定されうる。(発話は「1」または「1-2-3」など、少なくとも一語の口語句である。)さらに、認識率は以下の方法で決定または推定することが可能である。すなわち、ユーザごとに; ユーザの数に対して; 語ごと; 1組の語に対して; 発話、句または文など、連続して話された語のグループごとである。さらに、モジュール210によって決定された認識率は、本出願で後に議論されるように、システムの仮定と基準筆記録(reference transcript)との比較から決定される実際の誤りと、正確な考察と考察とに基づいてよく、またはシステム動作およびユーザ動作の評価後に発生したと判断されるこれらの推定に基づいてもよい。したがって、認識率の決定は、認識率の推定でもありうる。
図3は、モデル適合を制御または調整するための方法300を例示する流れ図である。この方法は、図1Bのモデル適合・制御モジュール117など、音声認識システムの構成要素によって実行される。305で、入力音声は、例えば、ユーザまたはユーザのセッションからの記録から音声認識システムによって受信される。310で、システムに入力された語に関して(図1Bの信号プロセッサ104、特徴生成器106および音声認識探索アルゴリズム108によって実行される入力音声の処理など)初期の音声処理が実行される。315で、1つの語の事例の認識もしくは様々な語の事例の認識に対応する認識率が決定または推定される。例えば、認識率は、語「1」に関する認識誤り、語「1」、「2」および「3」に関する認識誤り、すべてのデジットに関する認識誤り、またはシステムの語彙内のすべての語に関する認識誤りに基づいてよい。認識率は、システムに事前に入力された事例および現在入力された事例に基づいて更新された認識率でありうる。320で、認識率の精度範囲は所望される信頼レベルに関して決定される。325で、認識率と認識率の精度範囲とに基づいて、(図1Bのモデル適合・制御モジュール(model adaptation control module)117の処理によってなど)1つの語に1つのモデルを適合させるかまたは様々な語に様々なモデルを適合させるかが決定される。例えば、語「1」に対する認識率に基づいて語「1」にモデルを適合させることが決定されうる。もう1つの例では、デジットのすべてに対して組み合わされた認識率に基づいて、デジットであるすべての語を適合させることが決定されうる。(1つまたは複数の)モデルが適合されるべきでないと決定された場合、次は305である。そうでない場合、次は、(1つまたは複数の)モデルが適合される330である。330が実行された後、制御は305に戻る。330でモデル適合は、制御を速やかに305に戻して、背景で実行される。すなわち、音声認識システムは、モデルが適合されている間に、引き続き音声を受信および処理することが可能である。さらに、認識率と認識率の精度範囲とは、所定の数の考察が発生した後に更新されうる。所定の数の考察は1つまたは複数でありうる。
図3の315の例示的な実施形態、すなわち、認識率の決定は以下の通りである。決定は、図1Bのモデル適合・制御モジュール117または図2の認識率決定モジュール210など、音声認識システムの構成要素によって実行されうる。例示的な実施形態では、認識率は、方程式
#errorは音声認識誤りを伴う考察の数であり、
nはシステムの考察数であり、
RATEerrorは誤り率の値である。
もう1つの例示的な実施形態では、認識率は、方程式
#CorrectObservationsはシステムの正確な考察数であり、
nはシステムの考察数であり、
RATEaccuracyは精度率の値である。
その他の例示的な実施形態では、認識率は以下の方法で決定または推定されうる。すなわち、時間のウィンドウに対して、システムによって考察されたデータのウィンドウに対して、ユーザごとに、ユーザ数に対して、語ごとに、1組の語に対してである。さらに、認識率は語の認識率でなくてよく、音節の認識率、音素の認識率、句の認識率、発話の認識率、および文の認識率など、別のタイプの認識率であってよい。したがって、nはこれらのパラメータのうちの任意の1つまたは複数に鑑みて計算されうる。しかし、本発明の様々な例示的な実施形態のこの議論では、nがシステムに入力された語数である、語の認識率が使用されることになる。
図3の320の例示的な実施形態、すなわち認識率の精度範囲の決定は以下の通りである。決定は、図1Bのモデル適合・制御モジュール117または図2の認識率モジュール210など、音声認識システムの構成要素によって実行されうる。認識率の精度は、システムによって考察される語数に基づく。さらに、精度は認識率の特定の信頼レベルに対応する値の範囲の形である。
詳細には、認識率の両側精度範囲は(多数の考察、すなわち、nが100を越えると仮定すると)以下のように決定されうる。
nはシステムの考察数であり、
RATEは認識率の値であり、
RATEaccuracyは認識率の両側精度範囲である。
いくつかの信頼レベルに関する例示的なz値は
95%の信頼レベルに関して、z=1.96であり、
90%の信頼レベルに関して、z=1.645であり、
80%の信頼レベルに関して、z=1.282である。
方程式(2)によって生成された2つの値は、いくつかの信頼レベルに関する、認識率の両側精度範囲のローエンド(low-end)値およびハイエンド(high-end)値である。(nが100を超えない場合、その他の方程式が使用されうる。)当業者は、信頼レベルに基づいて範囲を提供できるその他の方程式が存在し、方程式(2)は精度範囲を提供するための例示的な実施形態であり、本発明はそれを使用することだけに限定されない点を熟知および理解されよう。
認識率の片側精度範囲は(nが100を超えると仮定すると)以下のように決定されうる。
nはシステムの考察数であり、
RATEは認識率であり、
RATEaccuracyは認識率の片側精度範囲のハイエンド値である。
いくつかの信頼レベルに関する例示的なz値は、
95%の信頼レベルに関して、z=1.645であり、
90%の信頼レベルに関して、z=1.282であり、
80%の信頼レベルに関して、z=0.482である。
方程式(3)によって生成された値は、認識率の片側精度範囲のハイエンド値である。あるいは、正の符号「+」の代わりに、負の符号「-」を有するよう、方程式(3)を修正することによって認識率の片側精度範囲のローエンド値を生成することが可能である。すなわち、
図3の325の例示的な実施形態、すなわち、認識率の精度に基づいて、ある語に関連するあるモデルを適合させるかどうかの決定は以下の通りである。決定は、図1Bのモデル適合・制御モジュール117または図2の適合制御モジュール225など、音声認識システムの構成要素によって実行されうる。この決定を行うために、認識率の精度範囲内の値は、認識率のしきい値と比較され、この比較の結果はモデルを適合させるか(適合させるかまたは適合させることを保留するか)の決定325に影響を及ぼす。(認識率のしきい値は、例えば、ユーザまたはハードウェア内もしくはソフトウェア内で実施されるセレクタによって行われる比較の前に選択することが可能である。)例えば、認識率の両側精度範囲を使用する(かつ認識率が誤り率である)例示的な実施形態では、範囲のローエンド値が認識率のしきい値以上である場合、決定325はモデルを適合させることである。認識率の両側精度範囲を使用する(かつ認識率が精度率である)実施形態では、範囲のローエンド値が認識率のしきい値以下である場合、決定325はモデルを適合させることである。表1および2は、(両側精度範囲および片側精度範囲の)ローエンド値の認識率のしきい値との比較に基づく適合の決定を例示する。
発明者は、音声認識システムの考察数と認識率の精度の間に関係が存在することを認識した。考察数が増大すると、認識率の精度範囲は減少し、それにより、認識率のより確実な決定をもたらす。(すなわち、精度範囲は考察数に反比例する。)上の方程式(1)〜(4)はこの関係を例示する。また、認識率の精度に関して所望される信頼レベルが高いほど、所望される信頼レベルを達成するために要求される考察数は同じ精度範囲に関してより多くなる。例えば、認識率の所望される信頼レベルが95%に選択された場合、所望される信頼レベルが同じ精度範囲に関して85%に選択された場合よりも、95%の所望される信頼レベルを達成するためにより多い考察が必要とされる。この関係を使用して、所与の精度範囲に関する信頼レベルを達成するために要求される考察数に対して選択された所望される信頼レベルのバランスを保つことによってモデル適合は最適化されうる。
本出願の全体にわたって、音声認識システムによって発生する、考えられる(または潜在的なもしくは疑われる)誤りの発生および誤り率を決定または推定するための(図2の認識率モジュール210および図3の315によって実行されうる)様々な例示的な実施形態が存在する。誤り率は、図2の適合制御モジュール225および図3の325によって適合を制御または調整するために使用されうる。誤り率は、本出願の背景技術の項で議論されたそれらの音声認識誤りおよび下で議論されるそれらの音声認識誤りなど、本出願において議論される様々な音声認識誤りの任意の1つまたは組合せに基づいてよい。例えば、誤り率はシステムに入力された語に対する挿入誤りの率でありうる。または例えば、誤り率は、システムに入力された語に対する挿入誤り率、置換誤り率および削除誤り率でありうる。または例えば、誤り率は、下で議論される、低い信頼率と置換率の組合せでありうる。下で議論される例示的な実施形態の誤り率は、システム動作、期待される応答および/またはユーザ動作の評価に基づいて発生したと判定される推定誤りに基づく。したがって、これらの推定誤り率は、システムに入力された語の基準筆記録と、システムに入力された語に対応する、システムの仮定の比較とを要求しない利点を提供する。
本発明の例示的な実施形態では、低い信頼率と呼ばれる、音声認識システムによって発生する考えられる誤りの発生の計数は、低い信頼率の推定または誤り率の推定を決定するために使用されうる。図4は、図2の認識率モジュール210など、音声認識システムの構成要素によって実行されうる、誤りを識別するための方法400を例示する流れ図である。低い信頼率は、語が、システムがその語を正確に認識した低い信頼に対応する一定の範囲内の信頼係数を用いて認識される率である。すなわち、低い信頼率は、語が、音声認識システムが使用される適用業務に応じて、比較的低い信頼係数を用いて音声認識システムによって認識された頻度である。低い信頼率は、必ずしも音声認識システムによる誤りを測定しないが、低い信頼率(またはその値の一部)は、誤り率(または誤り率の推定)が使用される場合、誤り率の推定に加えて、または誤り率の推定の代わりに使用されうる点に留意されたい。
本発明の例示的な実施形態では、音声認識システムによって発生する、考えられる置換誤りの発生の計数は、置換誤り率の推定または誤り率の推定を決定するために使用されうる。置換率は、(本出願の背景技術の項で定義される置換誤りなどの)置換誤りがシステムによって発生する率である。例示的な実施形態では、音声認識システムによって生成された仮定は、期待される応答と比較され、置換誤りは、システムが期待される応答内の語を仮定内の間違った語に置き換える場合に発生する。例えば、システムが「1-5-3」を認識し、期待される応答が「1-2-3」である場合、システムは1つの置換(すなわち、「2」を「5」に置換)を行ったと判断されるため、置換誤りが計算される。すなわち、仮定および期待される応答は語対語で一致しないが、大部分が一致する場合(すなわち、所定の数の語を除いて、仮定および期待される応答が一致する場合)、語の置換誤りが発生したというのは合理的な仮定である。(所定の数の語は適用業務に応じる。例えば、3つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、1つの語を除いて語対語で一致すると定義することができる。5つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、2つの語を除いて語対語で一致すると定義することができる。)
さらにその他の例示的な実施形態では、誤り率は、少なくとも2つの連続する発話または近接する発話のその仮定に関する音声認識システムの決定を比較した後で実施された、音声認識システムによって発生する認識誤りに基づく。この決定は、音声認識システムが(図1Bの112で受入れアルゴリズムが実行された後、図1Bの118でなど)着信発話を処理した後で発生しうる。認識誤りは、例えば、その後、システムの応答または応答の欠如に応答して、ユーザが発話を繰り返す、着信発話のシステムの仮定を拒否することでありうる。または例えば、認識誤りは、音声認識システムの出力の際に、音声認識システムが認識できない語をもう1つの語または「不要部分」の語に置き換えることでありうる。図5〜6は、これらのタイプの誤り率を推定するための例示的な実施形態の方法を示す。
図5は、音声認識システムによって発生する、考えられる誤りの発生を識別するための誤り率の例示的な実施形態の方法500を示す流れ図である。考えられる誤りの発生の計数は、誤り率の推定を決定するために使用されうる。方法500は、図2の認識率モジュール210など、音声認識システムの構成要素によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信した場合に行われる。システム挙動およびユーザ動作は以下の通りである。すなわち、システムは第1の発話のその仮定を拒否し、ユーザは第2の発話内で第1の発話を繰り返し、システムは第2の発話のその仮定を受け入れる。システムによって生成された第1および第2の仮定は実質的に一致する。すなわち、仮定は語対語で一致するが、仮定はこの特定の誤り決定に関して無視しうると見なされる認識されたモデルも含むこともあり、含まないこともある。例えば、仮定は、ユーザの息またはため息を表示する認識されたモデルを含んでよく、これらの認識されたモデルはこの特定の誤り決定に関して無視しうると見なされることもあり、見なされないこともある。(認識されたモデルが無視しうるかどうかの決定は、特定の音声認識システムおよびそのシステムが使用される適用業務に応じる。)例は以下の通りである。すなわち、ユーザは第1の発話「1-2-3」を話し、システムはそれを正確に認識する(すなわち、「1-2-3」の仮定を生成する)が、低い信頼係数のため、その仮定を拒否し、ユーザは第2の発話内で「1-2-3」を繰り返し、システムはそれを正確に認識して(すなわち、「1-2-3」の仮定を生成して)その仮定を受け入れる。このタイプの誤り検出機構の論理的根拠は、システムが第1の発話を認識しなかったため、ユーザは同じことを繰り返すというものである。システムが第2の発話のその仮定を受け入れる場合、システムは第1の発話のその仮定を受け入れるべきだったのであり、システムはそうしなかったことで誤ったと合理的に仮定することができるというものである。この経験則は、あるいは、2つの発話が互いに所定の期間内に話されること、またはやはりそれらの発話が連続して話されることを要求することによってさらに精緻化されることを要求する可能性がある。
図6は、音声認識システムによって発生する、考えられる誤りの発生を識別するための例示的な実施形態の方法600を示す流れ図である。考えられる誤りの発生の計数は、誤り率の推定または誤り率の一部の推定を決定するために使用されうる。方法600は、図2の認識率モジュール210など、音声認識システムの構成要素によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信して、システムが第1の発話のその仮定内の語を置き換えて、第2の発話のその仮定内の語のすべてを認識して、受け入れる場合に行われる。例は以下の通りである。ユーザは第1の発話「1-2-3」を話し、システムはそれを誤認識して(すなわち、仮定「1-5-3」を生成して)その仮定を受け入れ、ユーザは第1の発話の近接範囲内の第2の発話内で「1-2-3」を繰り返し、システムはそれを正確に認識して(すなわち、仮定「1-2-3」を生成して)、その仮定を受け入れる。誤りを検出するこの方法の論理的根拠は、2つの発話が互いに連続してまたは互いに近接範囲内で話された場合、かつシステムが第2の発話のその仮定を受け入れる場合、システムは第1の発話のその仮定内で置換を行った可能性があるというものである。システムが単一の語だけ異なる連続する認識または近接する認識が実際には置換誤りを含んでいない場合、置換誤りを含むと見なすのを防ぐために使用されうる経験則が存在する。この経験則は、以下の考えられる条件のうちの1つまたは複数に関して検査することを含む。すなわち、第1の発話がシステムによって正確に認識されたことを表示する介入発話は存在しなかったという条件、比較されている2つの発話はシステム内に入力されている同じ一片の情報を表す(例えば、比較されている2つの発話はユーザと認識システムの間の対話において同じ場所でまたは同じプロンプトに応答して発生した)という条件、2つの発話は所定の期間内に話された、すなわち、言い換えれば、比較されている2つの発話の間の時間は、ユーザが初期の発話を繰り返していたことを示唆するのに十分短かったという条件である。
と定義することができる。)仮定が語対語で大部分一致する場合、次は、誤り計数が増分され、その後、制御が605に戻る630である。630の誤り計数は、次いで、誤り率全体を生成するためにその他の誤りタイプの計数と組み合わされてよい。
音声認識システムに関する例示的な実施形態では、ユーザがシステムにフィードバックを提供する補正率は、誤り率の推定または誤り率の一部の推定として使用されうる。誤り率を推定するためまたは誤り率の一部を推定するために補正率を使用する理由は、補正がシステムに命令される場合、システムは誤りが生じたことを表示することが可能であるからである。ユーザフィードバックの例は、本出願の背景技術で説明される。補正率は、ユーザが、システムが誤ったことを表示する率を含みうる。さらに、ユーザは、システムによって生成された仮定を確認するようユーザに要求すること、または何の語がユーザによって話されたかを識別するようユーザに要求することなど、システムがフィードバックを要求することに応答してフィードバックを提供することが可能である。フィードバックはユーザによる立腹を表示する語を含んでよく、またはフィードバックは「バックアップ」もしくは「消去」など、システムに対する補正コマンドであってもよい。
認識率(誤り率、精度率またはその他のタイプの認識率)を決定または推定する場合、音声認識システムが使用される適用業務に関して有用な認識率を決定または推定するために必要とされる期間およびデータが考慮されうる。1つの例示的な考慮事項は、認識率は所定の期間に対して音声認識システムに入力された音声に関して決定または推定されるというものである。もう1つの例示的な考慮事項は、認識率は所定の数の発話、語、または仮定に対して音声認識システムに入力された音声に関して決定または推定されるというものである。
図7は、本発明の例示的な実施形態による、モデル適合のための方法700を例示する流れ図である。この方法は、図2のモデル適合モジュール235など、音声認識システムの構成要素によって実行されうる。例示的な実施形態では、方法700は(図2の225など)制御モジュールの制御の下で実行される。すなわち、方法700は制御モジュールからの命令に基づいて実行される。命令は、(適合させる命令または適合を保留する命令を含めて)あるモデルまたは複数のモデルをいつ適合させるかの命令、ならびに、発話のトランスクリプション(transcription)および発話に対応して音声認識システムによって考察された1組の特徴など、適合を実行するために必要とされる情報を含む。705で、命令が受信される。
210 認識率モジュール
215 認識率
216 認識率
225 適合制御モジュール
235 モデル適合モジュール
325 決定
Claims (90)
- 音声認識システムのリソースの効率的な使用のための方法であって、
1組の語のうちの1つの語の事例の認識または様々な語の事例の認識に対応する認識率を決定する段階と、
所望される信頼レベルに対応する認識率の精度範囲を決定する段階と、
モデル適合を基づかせる認識率のしきい値と前記所望される信頼レベルとを使用する段階とを含み、前記精度範囲内の少なくとも1つの値と前記認識率のしきい値の比較に基づいて、前記1つの語に対して1つのモデルが適合されるかまたは前記様々な語に対して様々なモデルが適合される方法。 - 所定の数の考察が発生するまで、前記1つのモデルまたは前記様々なモデルを適合させる段階を保留する段階
をさらに含む、請求項1に記載の方法。 - 前記精度範囲が前記システムの考察数に基づく、請求項1に記載の方法。
- 前記モデルを適合させるかどうかを決定するために必要とされる前記考察数が、前記認識率と前記認識率のしきい値の間の差に反比例する、請求項2に記載の方法。
- 前記認識率を前記決定する段階が、前記システムによって発生する誤りの数を前記システムの考察数で除算する段階または前記システムの正確な考察数を前記システムの考察数で除算する段階を含む、請求項1に記載の方法。
- 前記誤りまたは前記正確な考察が、システム動作の評価から決定された推定誤りまたは正確な推定考察である、請求項5に記載の方法。
- 前記1つのモデルまたは前記様々なモデルを適合させる段階が、前記精度範囲内の前記少なくとも1つの値が前記認識値のしきい値と等しくなるまで、適合させる段階を保留する段階、もしくは前記認識率が誤り率である場合、前記精度範囲内の前記少なくとも1つの値が前記認識率のしきい値を超えるまで、適合させる段階を保留する段階、または前記認識率が精度率である場合、前記精度範囲内の前記少なくとも1つの値が前記認識率のしきい値未満になるまで、適合させる段階を保留する段階をさらに含む、請求項1に記載の方法。
- 前記認識率のしきい値が動的値である、請求項1に記載の方法。
- 前記認識率のしきい値が背景雑音レベルに基づく、請求項1に記載の方法。
- 前記認識率のしきい値が信号対雑音比に基づく、請求項1に記載の方法。
- 前記認識率のしきい値が前記システムの語彙内の語数に基づく、請求項1に記載の方法。
- 前記認識率のしきい値が前記システムの特定のユーザまたは複数のユーザに対応する認識率に基づく、請求項1に記載の方法。
- 音声認識システムのリソースの効率的な使用のための方法であって、
モデルの適合を基づかせる認識率のしきい値と認識率の所望される信頼レベルとを使用する段階と、
認識率を決定する段階と、
考察数に関係する、前記所望される信頼レベルに対応する前記認識率の精度範囲を決定する段階と、
モデル適合の決定を行う際に前記認識率の精度と好都合のバランスを取る、前記認識率のしきい値と、前記認識率と前記考察数の間の関係を使用する段階とを含む方法。 - 所定の数の前記考察が発生するまでモデル適合を保留する段階
をさらに含む、請求項13に記載の方法。 - 前記精度範囲が考察数に反比例する、請求項13に記載の方法。
- 適合させるかどうかを決定するために必要とされる前記考察数が、前記認識率と前記認識率のしきい値の差に反比例する、請求項13に記載の方法。
- 前記認識率を前記決定する段階が、前記システムによって発生する誤り数を前記システムの前記考察数で除算する段階、または前記システムの正確な考察数を前記システムの前記考察数で除算する段階を含む、請求項13に記載の方法。
- 前記システムの前記誤りまたは前記正確な考察が、システム動作の評価から決定される推定誤りまたは正確な推定考察である、請求項17に記載の方法。
- 前記モデルを適合させる前記決定が、前記モデル適合を実行するかまたは前記モデル適合を保留するかを決定する段階を含む、請求項13に記載の方法。
- 前記認識率のしきい値が動的値である、請求項13に記載の方法。
- 前記認識率のしきい値が背景雑音レベルに基づく、請求項13に記載の方法。
- 前記認識率のしきい値が信号対雑音比に基づく、請求項13に記載の方法。
- 前記認識率のしきい値が前記システムの語彙内の語の数に基づく、請求項13に記載の方法。
- 音声認識システムの認識率の決定を最適化するための方法であって、
前記認識率の所望される精度範囲をもたらすことになる前記考察数を決定する段階を含む方法。 - 前記所望される精度範囲が前記考察数に反比例する、請求項24に記載の方法。
- 前記決定が、前記システムによって発生する誤りの数を前記システムの前記考察数で除算する段階、または前記システムの正確な考察数を前記システムの前記考察数によって除算する段階を含む、請求項24に記載の方法。
- 音声認識システムのリソースの効率的な使用のための方法であって、
1組の語のうちの1つの語の事例の認識または様々な語の事例の認識に対応する認識率を決定する段階と、
前記認識率の精度範囲を決定する段階と、
認識率のしきい値に等しい、前記精度範囲内の少なくとも1つの語に基づいて、または前記認識率が誤り率である場合、認識率のしきい値を超える前記精度範囲内の少なくとも1つの値に基づいて、あるいは前記認識率が精度率である場合、前記認識率のしきい値未満である前記精度範囲内の少なくとも1つの値に基づいて、前記1つの語に対する1つのモデルもしくは前記様々な語に対する様々なモデルの適合を調整する段階とを含む方法。 - 所定の数の考察が発生するまで、前記適合を調整する段階を保留する段階
をさらに含む、請求項27に記載の方法。 - 前記所定の数の考察が発生した後で、前記認識率と前記認識率の前記精度範囲とを更新する段階をさらに含む、請求項27に記載の方法。
- 前記精度範囲が前記システムの考察数に基づく、請求項27に記載の方法。
- 前記認識率を前記決定する段階が、前記システムによって発生する誤りの数を前記システムの考察数で除算する段階または前記システムの正確な考察数を前記システムの考察数で除算する段階を含む、請求項27に記載の方法。
- 前記システムの前記誤りまたは前記正しい考察が、システムの評価から決定された推定誤りまたは正確な推定考察である、請求項31に記載の方法。
- 前記適合を前記調整する段階が、前記1つのモデルもしくは前記様々なモデルを適合させる段階または前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階を含む、請求項27に記載の方法。
- 前記モデルの前記適合を前記調整する段階が、前記精度範囲内の前記少なくとも1つの値が認識率のしきい値と等しくなるまで、前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階、または前記認識率が誤り率である場合、前記精度範囲内の前記少なくとも1つの値が認識率のしきい値を超えるまで、前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階、あるいは前記認識率が精度率である場合、前記精度範囲内の前記少なくとも1つの値が認識率未満になるまで、前記1つのモデルまたは前記様々なモデルを適合させる段階を保留する段階を含む、請求項27に記載の方法。
- 前記認識率のしきい値が動的値である、請求項27に記載の方法。
- 前記認識率のしきい値が背景雑音レベルに基づく、請求項27に記載の方法。
- 前記認識率のしきい値が信号対雑音比に基づく、請求項27に記載の方法。
- 前記認識率のしきい値が前記システムの語彙内の語数に基づく、請求項27に記載の方法。
- 音声認識システムのリソースの効率的な使用のための装置であって、
1組の語のうちの1つの語の事例の認識または様々な語の事例の認識に対応する認識率と、所望される信頼レベルに対応する前記認識率の精度範囲とを決定するように適合されたプロセッサと、
前記精度範囲内の少なくとも1つの値と前記認識率のしきい値の比較に基づいて、前記1つの語に対して1つのモデルを適合させることまたは前記様々な語に対して様々なモデルを適合させることによって、モデル適合を基づかせる認識率のしきい値と前記所望される信頼レベルとを使用するように適合されたコントローラとを含む装置。 - 前記プロセッサが、所定の数の考察が発生するまで、前記1つのモデルまたは前記様々なモデルを適合させる段階を保留する、請求項39に記載の装置。
- 前記精度範囲が前記システムの考察数に基づく、請求項39に記載の装置。
- 前記モデルを適合させるかどうかを決定するために必要とされる考察数が前記認識率と前記認識率のしきい値の差に反比例する、請求項39に記載の装置。
- 前記プロセッサが、前記システムによって発生した誤りの数を前記システムの考察数で除算する段階または前記システムの正確な考察数を前記システムの考察数で除算する段階によって前記認識率を決定する、請求項39に記載の装置。
- 前記システムの前記誤りまたは前記正確な考察が、システム動作の評価から決定される推定誤りまたは正確な推定考察である、請求項43に記載の装置。
- 前記コントローラが、前記精度範囲内の前記少なくとも1つの値が前記認識率のしきい値に等しくなるまで、前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階、または前記認識率が誤り率である場合、前記精度範囲内の前記少なくとも1つの値が前記認識率のしきい値を超えるまで、前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階、あるいは、前記認識率が精度率である場合、前記精度範囲内の前記少なくとも1つの値が前記認識値のしきい値未満になるまで、前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階によって、前記1つのモデルもしくは前記様々なモデルの適合を制御する、請求項39に記載の装置。
- 前記認識率のしきい値が動的値である、請求項39に記載の装置。
- 前記認識率のしきい値が背景雑音レベルに基づく、請求項39に記載の装置。
- 前記認識率のしきい値が信号対雑音比に基づく、請求項39に記載の装置。
- 前記認識率のしきい値が前記システムの語彙内の語数に基づく、請求項39に記載の装置。
- 前記認識率のしきい値が前記システムの特定のユーザまたは複数のユーザに対応する認識率に基づく、請求項39に記載の装置。
- 音声認識システムのリソースの効率的な使用のための装置であって、
モデルの適合を基づかせる、認識率のしきい値と認識率の所望される信頼レベルとを使用するように適合されたセレクタと、
前記所望される信頼レベルと考察数に関係する前記精度範囲とに対応する、前記認識率と前記認識率の精度範囲とを決定するように適合されたプロセッサと、
モデル適合の決定を行う際に前記認識率の前記精度と好都合のバランスを取る、前記認識率のしきい値と、前記認識率と前記考察数の間の関係を使用し、前記モデル適合の決定を、前記関係を使用する段階に基づかせるように適合されたコントローラとを含む装置。 - 所定の数の考察が発生するまで、モデル適合を保留する段階
をさらに含む、請求項51に記載の装置。 - 前記精度範囲が前記考察数に反比例する、請求項51に記載の装置。
- 適合させるかどうかを決定するために必要とされる前記考察数が、前記認識率と前記認識率のしきい値の差と反比例する、請求項51に記載の装置。
- 前記プロセッサが、前記システムによって発生する誤りの数を前記システムの前記考察数によって除算する段階または前記システムの正確な考察数を前記システムの前記考察数によって除算する段階によって前記認識率を決定する、請求項51に記載の装置。
- 前記システムの前記誤りまたは前記正確な考察が、システム動作の評価から決定される推定誤りまたは正確な推定考察である、請求項55に記載の装置。
- 前記モデルを適合させる前記決定が、前記モデル適合を実行するかまたは前記モデル適合を保留するかを決定する段階を含む、請求項51に記載の装置。
- 前記認識率のしきい値が動的値である、請求項51に記載の装置。
- 前記認識値のしきい値が背景雑音レベルに基づく、請求項51に記載の装置。
- 前記認識率のしきい値が信号対雑音比に基づく、請求項51に記載の装置。
- 前記認識率のしきい値が前記システムの語彙内の語数に基づく、請求項51に記載の装置。
- 音声認識システムの認識率の決定を最適化するための装置であって、
前記決定の所望される精度範囲をもたらすことになる考察数を決定するように適合されたプロセッサを含む装置。 - 前記所望される精度範囲が前記考察数と反比例する、請求項62に記載の装置。
- 前記決定が、前記システムによって発生する誤りの数を前記システムの前記考察数によって除算する段階または前記システムの正確な考察数を前記システムの前記考察数によって除算する段階を含む、請求項62に記載の装置。
- 音声認識システムのリソースの効率的な使用のための装置であって、
1組の語のうちの1つの語の事例の認識または様々な語の事例の認識に対応する認識率と前記認識率の精度範囲とを決定するように適合されたプロセッサと、
前記認識精度内の少なくとも1つの値と認識率のしきい値の比較に基づいて、前記1つの語に対する1つのモデルの適合または前記様々な語に対する様々なモデルの適合を調整するように適合されたコントローラとを含む装置。 - 所定の数の考察が発生するまで、前記適合を前記調整する段階を保留する段階
をさらに含む、請求項65に記載の装置。 - 前記プロセッサが、所定の数の考察が発生した後で、前記認識率と前記認識率の前記精度範囲とを更新する、請求項65に記載の装置。
- 前記精度範囲が前記システムの考察数に基づく、請求項65に記載の装置。
- 前記プロセッサが、前記システムによって発生する誤りの数を前記システムの考察数によって除算する段階または前記システムの正確な考察数を前記システムの考察数で除算する段階によって前記認識率を決定する、請求項65に記載の装置。
- 前記システムの前記誤りまたは前記正確な考察が、システム動作の評価から決定される推定誤りまたは正確な推定考察である、請求項69に記載の装置。
- 前記コントローラが、前記1つのモデルまたは前記様々なモデルを適合させる段階を許可する段階または前記1つのモデルまたは前記様々なモデルを適合させる段階を保留する段階によって前記適合を調整する、請求項65に記載の装置。
- 前記コントローラが、前記認識値が誤り率である場合、前記精度範囲内の前記少なくとも1つの値が認識率のしきい値以上になるまで、前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階、または前記認識値が精度率である場合、前記精度範囲内の前記少なくとも1つの値が認識値のしきい値以下になるまで、前記1つのモデルもしくは前記様々なモデルを適合させる段階を保留する段階によって前記モデルの前記適合を調整する、請求項65に記載の装置。
- 前記認識値のしきい値が動的値である、請求項65に記載の装置。
- 前記認識率のしきい値が背景雑音レベルに基づく、請求項65に記載の装置。
- 前記認識率のしきい値が信号対雑音比に基づく、請求項65に記載の装置。
- 前記認識率のしきい値が前記システムの語彙内の語数に基づく、請求項65に記載の装置。
- 前記認識率が誤り率である、請求項1に記載の方法。
- 前記認識率が精度率である、請求項1に記載の方法。
- 前記認識率が誤り率である、請求項13に記載の方法。
- 前記認識率が精度率である、請求項13に記載の方法。
- 前記認識率が誤り率である、請求項24に記載の方法。
- 前記認識率が精度率である、請求項24に記載の方法。
- 前記認識率が誤り率である、請求項39に記載の装置。
- 前記認識率が精度率である、請求項39に記載の装置。
- 前記認識率が誤り率である、請求項51に記載の装置。
- 前記認識率が精度率である、請求項51に記載の装置。
- 前記認識率が誤り率である、請求項62に記載の装置。
- 前記認識率が精度率である、請求項62に記載の装置。
- 前記認識率が誤り率である、請求項65に記載の装置。
- 前記認識率が精度率である、請求項65に記載の装置。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US78862106P | 2006-04-03 | 2006-04-03 | |
US78860606P | 2006-04-03 | 2006-04-03 | |
US78862206P | 2006-04-03 | 2006-04-03 | |
US60/788,622 | 2006-04-03 | ||
US60/788,621 | 2006-04-03 | ||
US60/788,606 | 2006-04-03 | ||
US11/539,456 US7827032B2 (en) | 2005-02-04 | 2006-10-06 | Methods and systems for adapting a model for a speech recognition system |
US11/539,456 | 2006-10-06 | ||
US11/688,920 US7895039B2 (en) | 2005-02-04 | 2007-03-21 | Methods and systems for optimizing model adaptation for a speech recognition system |
US11/688,916 US7949533B2 (en) | 2005-02-04 | 2007-03-21 | Methods and systems for assessing and improving the performance of a speech recognition system |
US11/688,916 | 2007-03-21 | ||
US11/688,920 | 2007-03-21 | ||
PCT/US2007/065629 WO2007118030A2 (en) | 2006-04-03 | 2007-03-30 | Methods and systems for optimizing model adaptation for a speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009532743A true JP2009532743A (ja) | 2009-09-10 |
JP5270532B2 JP5270532B2 (ja) | 2013-08-21 |
Family
ID=38353024
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504393A Active JP5576113B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムにモデルを適合させるための方法およびシステム |
JP2009504390A Active JP5270532B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムに対するモデル適合を最適化するための方法およびシステム |
JP2009504389A Active JP5426363B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
JP2013166553A Active JP6121842B2 (ja) | 2006-04-03 | 2013-08-09 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504393A Active JP5576113B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムにモデルを適合させるための方法およびシステム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504389A Active JP5426363B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
JP2013166553A Active JP6121842B2 (ja) | 2006-04-03 | 2013-08-09 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Country Status (3)
Country | Link |
---|---|
EP (7) | EP2711923B1 (ja) |
JP (4) | JP5576113B2 (ja) |
WO (3) | WO2007118029A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8958848B2 (en) * | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
JP2010128015A (ja) * | 2008-11-25 | 2010-06-10 | Toyota Central R&D Labs Inc | 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム |
EP2246729A1 (en) | 2009-04-30 | 2010-11-03 | Essilor International (Compagnie Générale D'Optique) | A method for assessing an optical feature of an ophthalmic lens design |
DE102010001788A1 (de) | 2010-02-10 | 2011-08-11 | Forschungsverbund Berlin e.V., 12489 | Skalierbarer Aufbau für laterale Halbleiterbauelemente mit hoher Stromtragfähigkeit |
US10269342B2 (en) * | 2014-10-29 | 2019-04-23 | Hand Held Products, Inc. | Method and system for recognizing speech using wildcards in an expected response |
US9984685B2 (en) | 2014-11-07 | 2018-05-29 | Hand Held Products, Inc. | Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries |
CN105336342B (zh) * | 2015-11-17 | 2019-05-28 | 科大讯飞股份有限公司 | 语音识别结果评价方法及系统 |
JP7131362B2 (ja) * | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
CN111754995B (zh) * | 2019-03-29 | 2024-06-04 | 株式会社东芝 | 阈值调整装置、阈值调整方法以及记录介质 |
KR102547001B1 (ko) | 2022-06-28 | 2023-06-23 | 주식회사 액션파워 | 하향식 방식을 이용한 오류 검출 방법 |
CN117437913B (zh) * | 2023-12-18 | 2024-03-19 | 深圳昱拓智能有限公司 | 一种自适应近远场的离线语音命令词识别方法、系统及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04296799A (ja) * | 1991-03-27 | 1992-10-21 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2001343992A (ja) * | 2000-05-31 | 2001-12-14 | Mitsubishi Electric Corp | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882757A (en) | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
JPS63179398A (ja) * | 1987-01-20 | 1988-07-23 | 三洋電機株式会社 | 音声認識方法 |
JPS644798A (en) * | 1987-06-29 | 1989-01-09 | Nec Corp | Voice recognition equipment |
US5182502A (en) | 1991-05-06 | 1993-01-26 | Lectron Products, Inc. | Automatic headlamp dimmer |
US5182505A (en) | 1991-06-19 | 1993-01-26 | Honeywell Inc. | Aircraft control surface position transducer |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
JP3710493B2 (ja) * | 1992-09-14 | 2005-10-26 | 株式会社東芝 | 音声入力装置及び音声入力方法 |
JP3083660B2 (ja) * | 1992-10-19 | 2000-09-04 | 富士通株式会社 | 音声認識装置 |
JPH0713591A (ja) * | 1993-06-22 | 1995-01-17 | Hitachi Ltd | 音声認識装置および音声認識方法 |
TW323364B (ja) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
JP2886117B2 (ja) * | 1995-09-11 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
US6212498B1 (en) * | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
FR2769118B1 (fr) * | 1997-09-29 | 1999-12-03 | Matra Communication | Procede de reconnaissance de parole |
JPH11175096A (ja) * | 1997-12-10 | 1999-07-02 | Nec Corp | 音声信号処理装置 |
US6606598B1 (en) * | 1998-09-22 | 2003-08-12 | Speechworks International, Inc. | Statistical computing and reporting for interactive speech applications |
DE69829187T2 (de) * | 1998-12-17 | 2005-12-29 | Sony International (Europe) Gmbh | Halbüberwachte Sprecheradaptation |
US6922669B2 (en) | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6507816B2 (en) * | 1999-05-04 | 2003-01-14 | International Business Machines Corporation | Method and apparatus for evaluating the accuracy of a speech recognition system |
JP2001042886A (ja) * | 1999-08-03 | 2001-02-16 | Nec Corp | 音声入出力システムおよび音声入出力方法 |
JP3908878B2 (ja) * | 1999-09-27 | 2007-04-25 | 日本放送協会 | 連続音声認識装置の音素認識性能測定装置 |
JP2001343994A (ja) * | 2000-06-01 | 2001-12-14 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り検出装置および記憶媒体 |
EP1199704A3 (de) * | 2000-10-17 | 2003-10-15 | Philips Intellectual Property & Standards GmbH | Auswahl der alternativen Wortfolgen für diskriminative Anpassung |
DE10119284A1 (de) * | 2001-04-20 | 2002-10-24 | Philips Corp Intellectual Pty | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems |
JP2002328696A (ja) * | 2001-04-26 | 2002-11-15 | Canon Inc | 音声認識装置および音声認識装置における処理条件設定方法 |
GB2375211A (en) * | 2001-05-02 | 2002-11-06 | Vox Generation Ltd | Adaptive learning in speech recognition |
US6941264B2 (en) * | 2001-08-16 | 2005-09-06 | Sony Electronics Inc. | Retraining and updating speech models for speech recognition |
JP3876703B2 (ja) * | 2001-12-12 | 2007-02-07 | 松下電器産業株式会社 | 音声認識のための話者学習装置及び方法 |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
JP4304952B2 (ja) * | 2002-10-07 | 2009-07-29 | 三菱電機株式会社 | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム |
JP2005017603A (ja) * | 2003-06-25 | 2005-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識率推定方法及び音声認識率推定プログラム |
JP3984207B2 (ja) * | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
TWI225638B (en) * | 2003-09-26 | 2004-12-21 | Delta Electronics Inc | Speech recognition method |
JP2005173157A (ja) * | 2003-12-10 | 2005-06-30 | Canon Inc | パラメータ設定装置、パラメータ設定方法、プログラムおよび記憶媒体 |
JP2005283646A (ja) * | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 音声認識率推定装置 |
JP2005331882A (ja) * | 2004-05-21 | 2005-12-02 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2008501991A (ja) * | 2004-06-04 | 2008-01-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 対話的音声認識システムのためのパフォーマンス予測 |
JP4156563B2 (ja) * | 2004-06-07 | 2008-09-24 | 株式会社デンソー | 単語列認識装置 |
JP2006058390A (ja) * | 2004-08-17 | 2006-03-02 | Nissan Motor Co Ltd | 音声認識装置 |
US7243068B2 (en) * | 2004-09-10 | 2007-07-10 | Soliloquy Learning, Inc. | Microphone setup and testing in voice recognition software |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
-
2007
- 2007-03-30 JP JP2009504393A patent/JP5576113B2/ja active Active
- 2007-03-30 WO PCT/US2007/065615 patent/WO2007118029A2/en active Application Filing
- 2007-03-30 WO PCT/US2007/065652 patent/WO2007118032A2/en active Application Filing
- 2007-03-30 EP EP13187263.2A patent/EP2711923B1/en active Active
- 2007-03-30 EP EP07759818A patent/EP2005417A2/en not_active Ceased
- 2007-03-30 EP EP19203259.7A patent/EP3627497B1/en active Active
- 2007-03-30 JP JP2009504390A patent/JP5270532B2/ja active Active
- 2007-03-30 EP EP12173408.1A patent/EP2541545B1/en active Active
- 2007-03-30 JP JP2009504389A patent/JP5426363B2/ja active Active
- 2007-03-30 EP EP07759840A patent/EP2005418B1/en active Active
- 2007-03-30 WO PCT/US2007/065629 patent/WO2007118030A2/en active Application Filing
- 2007-03-30 EP EP07759805A patent/EP2005416A2/en not_active Ceased
- 2007-03-30 EP EP20130187267 patent/EP2685451A3/en not_active Withdrawn
-
2013
- 2013-08-09 JP JP2013166553A patent/JP6121842B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04296799A (ja) * | 1991-03-27 | 1992-10-21 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2001343992A (ja) * | 2000-05-31 | 2001-12-14 | Mitsubishi Electric Corp | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
WO2007118032A2 (en) | 2007-10-18 |
EP3627497A1 (en) | 2020-03-25 |
EP3627497C0 (en) | 2024-07-24 |
WO2007118029A3 (en) | 2007-12-27 |
EP2005418B1 (en) | 2012-06-27 |
WO2007118029A2 (en) | 2007-10-18 |
EP2541545A3 (en) | 2013-09-04 |
EP2711923B1 (en) | 2019-10-16 |
JP2009532742A (ja) | 2009-09-10 |
JP2009532744A (ja) | 2009-09-10 |
EP2541545B1 (en) | 2018-12-19 |
EP2685451A3 (en) | 2014-03-19 |
EP2005417A2 (en) | 2008-12-24 |
JP6121842B2 (ja) | 2017-04-26 |
JP2013232017A (ja) | 2013-11-14 |
EP2685451A2 (en) | 2014-01-15 |
JP5270532B2 (ja) | 2013-08-21 |
WO2007118030A2 (en) | 2007-10-18 |
EP3627497B1 (en) | 2024-07-24 |
EP2005416A2 (en) | 2008-12-24 |
WO2007118030A3 (en) | 2008-01-10 |
EP2005418A2 (en) | 2008-12-24 |
JP5576113B2 (ja) | 2014-08-20 |
EP2541545A2 (en) | 2013-01-02 |
JP5426363B2 (ja) | 2014-02-26 |
EP2711923A3 (en) | 2014-04-09 |
EP2711923A2 (en) | 2014-03-26 |
WO2007118032A3 (en) | 2008-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5270532B2 (ja) | 音声認識システムに対するモデル適合を最適化するための方法およびシステム | |
US7895039B2 (en) | Methods and systems for optimizing model adaptation for a speech recognition system | |
US9928829B2 (en) | Methods and systems for identifying errors in a speech recognition system | |
US8255219B2 (en) | Method and apparatus for determining a corrective action for a speech recognition system based on the performance of the system | |
EP2309489B1 (en) | Methods and systems for considering information about an expected response when performing speech recognition | |
US10068566B2 (en) | Method and system for considering information about an expected response when performing speech recognition | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
US20090119103A1 (en) | Speaker recognition system | |
JPH0756592A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120910 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120918 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130509 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5270532 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |