JP6121842B2 - 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム - Google Patents
音声認識システムのパフォーマンスを評価および改善するための方法およびシステム Download PDFInfo
- Publication number
- JP6121842B2 JP6121842B2 JP2013166553A JP2013166553A JP6121842B2 JP 6121842 B2 JP6121842 B2 JP 6121842B2 JP 2013166553 A JP2013166553 A JP 2013166553A JP 2013166553 A JP2013166553 A JP 2013166553A JP 6121842 B2 JP6121842 B2 JP 6121842B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- user
- utterance
- performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 101
- 238000011156 evaluation Methods 0.000 claims description 63
- 230000009471 action Effects 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 36
- 230000006978 adaptation Effects 0.000 claims description 22
- 238000006467 substitution reaction Methods 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 5
- 230000001149 cognitive effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 16
- 238000012217 deletion Methods 0.000 description 13
- 230000037430 deletion Effects 0.000 description 13
- 238000012795 verification Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000006399 behavior Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 8
- 238000013518 transcription Methods 0.000 description 8
- 230000035897 transcription Effects 0.000 description 8
- 238000010845 search algorithm Methods 0.000 description 7
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013479 data entry Methods 0.000 description 3
- 231100000870 cognitive problem Toxicity 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 208000003580 polydactyly Diseases 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
しかし、例えば、背景雑音またはユーザがシステムに不慣れであることまたはユーザによるシステムの誤用などにより、音声認識システムによって誤りが発生する可能性がある。システムによって発生する誤りは様々なタイプに分類されうる。測定基準である(システムの考察数に対する音声認識誤りを伴う考察の割合すなわち率と定義することが可能であり、時間および/またはデータのウィンドウ(window)に対してかつユーザごとに決定されうる)誤り率は、多くの場合、音声認識システムによって発生する誤りの数およびタイプを評価するために使用され、したがって、システムのパフォーマンスを評価する際に有用である。考察は、それによって音声認識が測定されうる任意の音声単位として定義できる。考察は、音節、音素、単一の語または(句、発話または文の形でなど)複数の語であってよい。システムの考察数を計算する場合、システムに入力された考察が計算されてよく、またはシステムによって出力された考察が計算されてもよい。当業者は、(システムの考察数に対するシステムの正確な考察の割合すなわち率として定義することが可能であり、時間および/またはデータのウィンドウに対してかつユーザごとに決定されうる)精度率は、システムのパフォーマンスを評価するために使用されうる点を熟知および理解されよう。認識率は、いくつかを挙げると、誤りを伴う考察の計数をある時間の長さで除算したもの、正確な考察の計数をある期間で除算したもの、誤りを伴う考察の計数をトランザクション数で除算したもの、(装置の電源がオンにされているもしくはユーザが任務を開始するなどの)事象が発生した後の誤りを伴う考察の計数、または事象が発生した後の正確な考察の計数など、様々なその他の方法で定義することが可能である。したがって、(誤り率、精度率、誤りを伴う考察もしくは正確な考察の識別または計数に基づく率、あるいは当業者に知られているその他のタイプの認識率でありうる)認識率は、システムのパフォーマンスを評価する際に有用である。一般に、認識率は、1組の語のうちの1つの語に関してもしくは様々な語に関して、または1人のユーザもしくは複数のユーザに関して決定することが可能である。システムの誤りの識別は、ユーザの入力音声の基準トランスクリプション(reference transcription)をシステムによって生成された仮定(ユーザの入力音声のシステムによる解釈)と比較することによって行うことが可能である。さらに、当業者に知られているように、この比較は時間整合またはテキスト整合することが可能である。
同じ環境において特定のユーザまたは複数のユーザに関して音声認識システムによって発生する誤りは、様々な理由で生じる。背景雑音などの環境要因は、音声認識システムのパフォーマンスに影響を与える。さらに、様々な理由で、同じ環境でその他のユーザが同じ問題を報告書しない場合、特定のユーザがシステムの質の悪い認識精度を報告する場合がある。1つの理由は、音声認識システムによって使用されるモデルがユーザの音声パターンに十分一致しないことでありうる。考えられるもう1つの理由は、システムに対するそのユーザの期待がその他のユーザより高く、非現実的であることでありうる。考えられるもう1つの理由は、そのユーザが非協力的であること、または仕事に疲れており、「問題解決休憩」を得るために、ユーザの悪いパフォーマンスをシステムの責任にすることである。
パフォーマンス評価によって提供された情報は、ユーザまたは監督官にとって役立つ情報を提供するだけでなく、パフォーマンス評価は音声認識システムの適合を改善するために使用可能である。音声認識システムは、より多くの音声サンプルがシステムによって処理されると、トレーニングアルゴリズムもしくはその他の学習アルゴリズムまたは適合アルゴリズムを介してその音声モデルを改善することによって、経時的にそのパフォーマンスを改善することが可能である。同時に、システムが所望されない方法で適合し、それにより、結果として、システムが適合に先立って行ったのよりも不十分に実行するようになること、またはシステムが経時的に劣化するようになることを防ぐことが有用である。モデルを適合させることは、適合されたモデルを作成するためにかなりの計算リソース、記憶リソース、および/または電力リソースと、新しいモデルをサーバに送信するためにかなりの無線伝送エネルギーとを使用する可能性がある。本明細書で開示される本発明の例示的な実施形態は、システムのパフォーマンス評価に基づいて、適合を制御または調整することによって、リソースの非効率な使用を回避して、十分に実行するモデルからかけ離れた適合を回避するために、音声認識システムの適合を制御することが可能である。
図1は、ヘッドセット120を有するユーザ105によって使用される(それぞれが本明細書で開示される1つまたは複数の音声認識方法を実施するための処理回路および/またはソフトウェアを有する)複数の携帯用端末115を含む、棚卸環境または倉庫環境向けの本発明の例示的な実施形態を示す。(もう1つの例示的な実施形態では、音声認識システムは、端末115の必要性を削除して、ヘッドセット120内に配置される。) ユーザはヘッドセット120内のマイクロフォンを介して口語で話すことができ、音声情報は端末115によって、管理制御卓125に転送し戻されることになる使用可能なデジタルフォーマットに変換される。RF通信カードを使用して、端末115は、例えば、IEEE802.11標準を用いた無線接続130を介して制御卓125と通信することが可能である。制御卓125は、監督官または専門のサービスサポート員など、誰かによって携帯用端末115の音声認識システムを監視するためのディスプレイを有する。参照により本明細書に組み込まれている、「Apparatus and Method for Detecting User Speech」という表題の、米国特許出願第10/671,142号は、かかるシステムを実施するためのさらなる詳細を提供する。
本発明は、本明細書で説明される音声認識システムのパフォーマンスを評価および改善するためのいくつかの手法を提示する。この説明において、「一実施形態」または「実施形態」の参照は、参照されている特徴が本発明の少なくとも1つの実施形態の中に含まれることを意味する点に留意されたい。さらに、この説明における「一実施形態」の個々の参照は同じ実施形態を指すとは限らないが、そのように指定されない限り、かつ当業者に容易に明らかになる場合を除いて、かかる実施形態は相互に排他的ではない。したがって、本発明は、本明細書で説明される実施形態の任意の様々な組合せおよび/または統合を含みうる。
図2は、本発明の例示的な実施形態による音声認識システムの概略図を示す。当業者は、本発明の特徴を含めて、音声認識システムの様々な機能ブロックは様々な技術を使用して、様々なハードウェアおよびソフトウェアの構成を介して実施することが可能である点を認識されよう。したがって、図2に示されるブロックは、別々の回路を表示すること、またはその他の点で限定的であることが意味されず、むしろシステムの機能的特徴および構成要素を示す。
(プロセッサ内で実施されうる)パフォーマンス評価モジュール224は、パフォーマンス評価を決定または推定する。パフォーマンス評価は、認識率、等級、または音声認識システムの任意のその他のタイプのパフォーマンス評価でありうる。
パフォーマンス評価モジュール224は、パフォーマンス評価223をパフォーマンス報告書生成器225に出力する。パフォーマンス報告書生成器225は、パフォーマンス評価の報告書および音声認識システムのパフォーマンスを改善するためのユーザへの示唆を出力する。
例示的な実施形態では、パフォーマンス評価モジュール224はまた、パフォーマンス評価223をモデル適合・制御モジュール(model adaptation and control module)217に出力する。(ハードウェアコントローラもしくはソフトウェアコントローラまたは制御機構として実施されうる)モデル適合・制御モジュール217は、モデルの適合を制御または調整する。モジュール217への入力は、特定の適用業務に関して所望されるモデル適合の特定の制御のために必要なそれらの入力である。例示的な実施形態では、入力は仮定211および特徴207である。モジュール217は、(適合をいつ適合または保留するかを含めて)1つのモデルまたは複数のモデルをいつ適合させるか、およびモデルを適合させるためにどの発話を使用するかを決定する。さらに、モジュール217は、発話の(音声認識システムによって生成された)トランスクリプションと、認識システムによって考察された発話に対応する特徴207とを使用してモデルを適合させる。適合を制御または調整する際、モジュール217は、適合が命令される前に満たされるべき基準を決定する。さらに、適合を続けるとすると、モジュール217は、既存のモデルを新しい特徴だけを用いて作り出された新しいモデルに置き換えるかどうか、または既存のモデルは新しい特徴および既存のモデルの既存の特徴の両方からの情報を使用して正に適合されるかを決定することができる。モジュール217は、適合されたモデル221をモデルのライブラリ210に出力する。
図3は、本発明の例示的な実施形態による、語の認識に関して音声認識システムのパフォーマンスを評価および改善するための方法を例示する流れ図である。この方法は、複数のシステムのパフォーマンスを評価するためおよび/または(語彙内のデジットの認識など)システムの語彙内の語の少なくともサブセットの認識のために使用されることも可能である点が理解されよう。方法は(図2の224などの)パフォーマンス評価モジュールおよび(図2の225などの)パフォーマンス報告書生成器によって実行することが可能である。
得点=(100-500*誤り率)+5*(2-uttlen)+(25-SNR) (1)
式中、
uttlenは複数の語の発話内の語の平均数であり、SNRは(例示的な実施形態では、21〜28dBの範囲に限定される)複数の語の発話中の平均音声対雑音比である。
得点=(100-500*(1-精度率))+5*(2-uttlen)+(25-SNR) (2)
式中、
uttlenは複数の語の発話内の語の平均数であり、SNRは(例示的な実施形態では、21〜28dBの範囲に限定される)複数の語の発話中の平均音声対雑音比である。
320で、等級は以下のように得点に割り当てられる。
A 90<=得点 (3)
B 80<=得点<90
C 70<=得点<80
D 得点<70
式中、
等級は音声認識システムのパフォーマンス測定と関連づけられる。
この例では、等級はユーザ「ユーザ1」に関して語「0」、「1」、「2」、「3」、「4」、「5」、「6」、「7」、「8」、および「9」のそれぞれについて計算および報告された。また、このユーザに対して「語5を再教育する」ように自動的に生成された補正処置の示唆も報告される。
図6は、本発明の例示的な実施形態による、モデル適合を制御または調整するための方法600を例示する流れ図である。この方法は、図2に例示されたモジュールなど、音声認識システムの構成要素によって実行されうる。605で、入力音声は音声認識システムによって受信される。610で、少なくとも1つの語に関して、(図2の信号プロセッサ204、特徴生成器206および音声認識探索アルゴリズム208によって実行される入力音声の処理など)初期の音声処理が実行される。615で、(例えば、図2のパフォーマンス評価モジュール224によって)1つの語の事例の認識または様々な語の事例の認識のいずれかに対応するパフォーマンス評価が決定される。例えば、パフォーマンス評価は、語「1」に関する認識誤り、語「1」、「2」および「3」に関する認識誤り、すべてのデジットに関する認識誤り、またはシステムの語彙内のすべての語に関する認識誤りに基づくことが可能である。さらに、パフォーマンス評価は、システムに事前に入力された事例および現在入力された事例に基づいて更新されうる。620で、パフォーマンス評価に基づいて、(例えば、図2のモデル適合・制御モデル217によって)1つの語に1つのモデルを適合させるかまたは様々な語に様々なモデルを適合させるかが決定される。例えば、語「1」に関するパフォーマンス評価に基づいて、語「1」にモデルを適合させることが決定されうる。もう1つの例では、デジットのすべてに関して組み合わされたパフォーマンス評価に基づいて、デジットであるすべての語を適合させることが決定されうる。(1つまたは複数の)モデルが適合されるべきではないと決定された場合、次は605である。(1つまたは複数の)モデルが適合されるべきである場合、モデルは625で適合される。625が実行された後で、制御は605に戻る。625のモデル適合は、制御を速やかに605に戻して、背景で実行されうる。すなわち、音声認識システムは、モデルが適合されている間に、引き続き音声を受信および処理することが可能である。
図7は、本発明の例示的な実施形態による、モデル適合のための方法700を例示する流れ図である。この方法は、適合させる決定が行われた後で、図2のモデル適合・制御モジュール217など、音声認識システムの構成要素によって実行されうる。710で、入力発話に対応する、音声認識システムによって考察された特徴は、(例えば、Baum-Welch再推定アルゴリズムを使用して)発話の語に関するモデル内の状態と整合される。715で、特徴の値を使用して、状態の統計値(例えば、平均および分散)が更新される。720で、これらの値は、これまでのトレーニングデータと新しい特徴の間で適切なバランスを保つために、適切な重みづけを用いてモデルに混合される。したがって、例示的な実施形態では、新しいモデルは入力発話の考察された特徴および原モデルの既存の特徴を使用することによって作り出され、それぞれに関連する統計値は新しいモデルを作り出すために使用される。加えて、新しい統計値は、モデル内の原統計値に対するその影響を調整するために、様々な形で重みづけされうる。代替の例示的な実施形態では、新しく考察された特徴、およびそこからの情報だけが、新しいモデルを作り出すために利用される。さらに、適合は、単一のユーザまたは複数のユーザからのデータを使用して実行されうる。例えば、個々のユーザからの音声データだけが、そのユーザのために適合され、かつ十分に実行するモデルを生成する適合を実行するために使用されうる。
音声認識システムによって発生する、考えられる(または潜在的なもしくは疑われる)誤りの発生および誤り率を決定または推定するために(図2のパフォーマンス評価モジュール224によってかつ図3の310で実行されうる)様々な例示的な実施形態が存在する。誤り率は、本出願の背景技術の項の音声認識誤りおよび下で議論される音声認識誤りなど、本出願において議論される任意の1つの音声認識誤りまたは様々な音声認識誤りの組合せに基づいてよい。例えば、誤り率は、システムに入力された語に対する挿入誤り率でありうる。または例えば、誤り率は、システムに入力された語に対する挿入誤り率、置換誤り率および削除誤り率でありうる。または例えば、誤り率は、下で議論される、低い信頼率および置換率の組合せでありうる。下で議論される例示的な実施形態の誤り率は、システム動作、期待される応答および/またはユーザ動作の評価に基づいて発生したと判定される推定誤りに基づく。したがって、これらの推定誤り率は、システムに入力された語の基準筆記録およびシステムに入力された語に対応する、システムの仮定の比較を要求しない利点を提供する。
本発明の例示的な実施形態では、低い信頼認識と呼ばれる、音声認識システムによって発生する、考えられる誤りの発生の識別または計数は、低い信頼率の推定または誤り率の推定を決定するために使用されうる。図8は、図2のパフォーマンス評価モジュール224など、音声認識システムの構成要素によって実行されうる、誤りを識別するための方法800を例示する流れ図である。低い信頼率は、語が、システムがその語を正確に認識した、低い信頼に対応する一定の範囲内の信頼係数を用いて認識される率である。すなわち、低い信頼率は、語が、認識器(recognizer)および音声認識システムが使用される適用業務に応じて、比較的低い信頼係数を用いて音声認識システムによって認識された頻度である。低い信頼率は音声認識システムによって誤りを測定するとは限らず、低い信頼率(もしくはその値の一部)は、誤り率(もしくは誤り率の推定)が使用される場合、誤り率の推定に加えて、または誤り率推定の代わりに使用されうる点に留意されたい。
本発明の例示的な実施形態では、音声認識システムによって発生する、考えられる置換誤りの発生の識別または計数は、置換誤り率の推定または誤り率の推定を決定するために使用されうる。置換率は、(本出願の背景技術の項で定義される置換誤りなどの)置換誤りがシステムによって発生する率である。例示的な実施形態では、音声認識システムによって生成された仮定は、期待される応答と比較され、置換誤りは、システムが期待される応答内の語を仮定内の間違った語と置き換える場合に発生する。例えば、システムが「1-5-3」を認識し、期待される応答が「1-2-3」である場合、システムは1つの置換(すなわち、「2」を「5」に置換)を行ったと判断されるため、置換誤りが計算される。すなわち、仮定および期待される応答は語対語(word-for-word)で一致しないが、大部分が一致する場合(すなわち、所定の数の語を除いて、仮定および期待される応答が一致する場合)、語の置換誤りが発生したというのは合理的な結論である。(所定の数の語は適用業務に応じる。例えば、3つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、1つの語を除いて語対語で一致すると定義することができる。5つの語の仮定または発話を使用する適用業務は、「大部分が一致する」を、2つの語を除いて語対語で一致すると定義することができる。)
さらにその他の例示的な実施形態では、誤り率は、少なくとも2つの連続する発話または近接する発話のその仮定に関する音声認識システムの決定を比較した後で識別された、音声認識システムによって発生する認識誤りに基づく。この決定は、音声認識システムが(図2の212で受入れアルゴリズムが実行された後、図2の218でなど)着信発話を処理した後で発生しうる。認識誤りは、例えば、その後、システムの応答または応答の欠如に応答して、ユーザが発話を繰り返す、着信発話のシステムの仮定を拒否することでありうる。または例えば、認識誤りは、音声認識システムの出力の際に、音声認識システムが認識できない語をもう1つの語または「不要部分」の語と置き換えることでありうる。図9〜10は、これらのタイプの誤り率を推定するための例示的な実施形態の方法を示す。
図9は、音声認識システムによって発生する、考えられる誤りの発生を識別するための例示的な実施形態の方法900を示す流れ図である。考えられる誤りの発生の計数は、誤り率の推定を決定するために使用されうる。方法900は、図2の誤り率計算モジュール210など、音声認識システムの構成成分によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信した場合に行われる。システム動作およびユーザ動作は以下の通りである。すなわち、システムは第1の発話のその仮定を拒否し、ユーザは第2の発話で第1の発話を繰り返し、システムは第2の発話のその仮定を受け入れる。システムによって生成された第1および第2の仮定は実質的に一致する。すなわち、仮定は語対語で一致するが、仮定はこの特定の誤り決定に関して無視しうると見なされる認識されたモデルを含んでよく、または含まなくてもよい。例えば、仮定は、ユーザの息またはため息を表示する認識されたモデルを含んでよく、これらの認識されたモデルはこの特定の誤り決定に関して無視しうると見なされてもよく、または見なされなくてもよい。(認識されたモデルが無視しうるかどうかの決定は、特定の音声認識システムおよびそのシステムが使用される適用業務に応じる。) 例は以下の通りである。すなわち、ユーザは第1の発話「1-2-3」を話し、システムはそれを正確に認識する(すなわち、「1-2-3」の仮定を生成する)が、低い信頼係数のため、その仮定を拒否し、ユーザは第2の発話内で「1-2-3」を繰り返し、システムはそれを正確に認識して(すなわち、「1-2-3」の仮定を生成して)その仮定を受け入れる。このタイプの誤り検出機構の論理的根拠は、システムが第1の発話を認識しなかったため、ユーザは同じことを繰り返すことである。システムは第2の発話のその仮定を受け入れるため、システムは第1の発話のその仮定を受入れるべきだったのであり、システムはその際に誤ったと合理的に仮定することができる。この経験則は、代替的に、2つの発話が互いに所定の期間内に話されること、またはやはりそれらの発話が連続して話されることを要求することによってさらに精緻化されることを要求する可能性がある。
図10は、音声認識システムによって発生する、考えられる誤り発生を識別するための例示的な実施形態の方法1000を示す流れ図である。考えられる誤り発生の計数は、誤り率の推定または誤り率の一部の推定を決定するために使用されうる。方法1000は、図2の誤り率モジュール210など、音声認識システムの構成要素によって実行されうる。この実施形態では、音声認識システムが誤ったかどうかの決定は、音声認識システムが少なくとも2つの連続する発話または近接する発話を受信して、システムが第1の発話のその仮定内の語を置き換えて、第2の発話のその仮定内の語のすべてを認識して、受け入れる場合に行われる。例は以下の通りである。ユーザは第1の発話「1-2-3」を話し、システムはそれを認識して(すなわち、仮定「1-5-3」を生成して)その仮定を受け入れ、ユーザは第1の発話の近接範囲内で第2の発話内で「1-2-3」を繰り返し、システムはそれを正確に認識して(すなわち、仮定「1-2-3」を生成して)、その仮定を受け入れる。誤りを検出するこの方法の論理的根拠は、2つの発話が互いに連続してまたは互いに近接範囲内で話された場合、かつシステムが第2の発話のその仮定を受け入れる場合、システムは第1の発話のその仮説内で置換を行う可能性があることである。システムが単一の語だけ異なる連続する認識または近接する認識が実際には置換誤りを含んでいない場合、置換誤りを含むと見なすのを防ぐために使用されうる経験則が存在する。この経験則は、以下の考えられる条件のうちの1つまたは複数に関して検査することを含む。すなわち、第1の発話がシステムによって正確に認識されたことを表示する介入発話は存在しなかったという条件、比較されている2つの発話はシステム内に入力されている同じ一片の情報を表す(例えば、比較されている2つの発話はユーザと認識システムの間の対話において同じ場所でまたは同じプロンプトに応答して発生した)という条件、2つの発話は所定の期間内に話された、すなわち、言い換えれば、比較されている2つの発話の間の時間は、ユーザが初期の発話を繰り返していたことを示唆するのに十分短かったという条件である。
音声認識システムに関する例示的な実施形態では、ユーザがシステムにフィードバックを提供する補正率は、誤り率の推定または誤り率の一部に関する推定として使用されうる。誤り率を推定するためまたは誤り率の一部を推定するために補正率を使用する理由は、補正がシステムに命令される場合、システムは誤りが発生したことを表示する可能性があるからである。ユーザフィードバックの例は、本出願の背景技術の項で説明される。補正率は、ユーザが、システムが誤ったことを表示する率を含みうる。さらに、ユーザは、システムによって生成された仮定を確認するようユーザに要求すること、または何の語がユーザによって話されたかを識別するようユーザに要求することなど、システムがフィードバックを要求することに応答してフィードバックを提供することが可能である。フィードバックはユーザによる立腹を表示する語を含んでよく、またはフィードバックは「バックアップ」もしくは「消去」など、システムへの補正コマンドであってもよい。
認識率(誤り率、精度率またはその他のタイプの認識率)を決定または推定する際に、音声認識システムが使用される適用業務に関して有用な認識率を決定または推定するために必要とされる期間およびデータが考慮されうる。1つの例示的な考慮事項は、認識率は所定の期間に対して音声認識システムに入力された音声に関して決定または推定されるというものである。もう1つの例示的な考慮事項は、認識率は所定の数の発話、語、または仮定に対して音声認識システムに入力された音声に関して決定または推定されるというものである。
115 携帯用端末
120 ヘッドセット
125 管理制御卓
130 無線接続
200 システム
202 音声入力デバイス
203 アナログ音声入力
203 アナログ電圧信号
204 信号プロセッサ
205 デジタル化データ流れ
205 フレーム
206 特徴生成器
207 特徴
208 音声認識探索アルゴリズム機能
210 適切なモデルのライブラリ
210 誤り率計算モジュール
210 誤り率モジュール
211 1つまたは複数の語彙項目からなる仮定および関連する信頼係数
212 受入れアルゴリズム
214 タイミング情報および期待される応答
217 モデル適合・制御モジュール
218 決定
219 音声対雑音比
221 適合されたモデル
223 パフォーマンス評価
224 パフォーマンス評価モジュール
225 パフォーマンス報告書生成器
400 携帯用端末
410 ディスプレイ
500 管理制御卓
510 ディスプレイ
600 方法
700 方法
800 方法
900 方法
1000 方法
Claims (48)
- 音声認識システムのパフォーマンスの改善を助けるための修正措置を開始するための方法であって、
認識考察を得る段階であって、該認識考察が少なくとも一人のユーザによって発話された音声からなることを特徴とする、認識考察を得る段階と、
前記システムが2つの発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合の発生を識別する段階を使用し、前記2つの仮定が語対語で一致しないが、前記仮定が語対語で大部分一致する場合の発生を識別することにより前記認識考察の誤りを評価する段階と、
前記認識考察に対応する少なくとも1つの認識係数を決定する段階と、
(i)評価された誤り及び(ii)少なくとも1つの認識係数の少なくとも一部に基づいて音声認識システムのパフォーマンスを評価する段階と、
評価されたパフォーマンスに基づいて等級を割り当てる段階と、
前記等級をパフォーマンス評価しきい値と比較する段階と、
等級とパフォーマンス評価しきい値との比較に基づいて修正措置を開始する段階と
を含む方法。 - ユーザに前記修正措置を通知する段階をさらに含む、請求項1に記載の方法。
- 前記修正措置を自動的に開始する段階をさらに含む、請求項1に記載の方法。
- 請求項1に記載の方法の各段階が、前記システムがユーザによって使用されていると実行される、請求項1に記載の方法。
- 請求項1に記載の方法の各段階が、前記システムが所定の期間にわたってユーザによって使用された後に、システム活動のログからの情報を使用して実行される、請求項1に記載の方法。
- 前記修正措置が、1つの語または1組の語をユーザに対して再教育させることを特徴とする、請求項1に記載の方法。
- 前記修正措置が、1つのモデルまたは1組のモデルをユーザに対して修正させる処置を実行する段階である、請求項1に記載の方法。
- 前記修正措置が、ユーザにより大きな声で話すようにさせ、またはマイクロフォンを移動させ、またはマイクロフォンを交換させることである、請求項1に記載の方法。
- 前記認識考察の誤りを評価する段階が、ユーザによって前記システムに入力された近接する発話を評価することを有することを特徴とする、請求項1に記載の方法。
- 前記認識考察の誤りを評価する段階が、前記1つの語または前記様々な語がある信頼係数範囲内で認識される場合の発生を識別することを有することを特徴とする、請求項1に記載の方法。
- 前記認識考察の誤りを評価する段階が、前記システムが第1の発話の第1の仮定を拒否し、その後、前記システムが第2の発話の第2の仮定を受け入れる場合の発生を識別することを有することを特徴とし、前記第1および第2の仮定が実質的に語対語で一致することを特徴とする、請求項1に記載の方法。
- 前記認識考察の誤りを評価する段階が、
前記システムによって生成された仮定が期待される応答に語対語で一致しないが、前記仮定が前記期待される応答に語対語で大部分一致する場合の発生を識別する段階を有することを特徴とする、請求項1に記載の方法。 - 前記認識考察の誤りを評価する段階が、
前記システムにフィードバックを提供する場合の発生を識別する段階を有することを特徴とする、請求項1に記載の方法。 - 前記少なくとも1つの認識係数が環境係数からなることを特徴とする、請求項1に記載の方法。
- 前記音声認識システムのパフォーマンスを評価するために用いられる評価された誤りが、
前記システムが第1の発話を拒否し、その後、ユーザが第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を受け入れる率を含む誤り率を包含することを特徴とする、請求項1に記載の方法。 - 前記音声認識システムのパフォーマンスを評価するために用いられる評価された誤りが、
前記システムが第1の発話に関する前記システムの仮定内で前記1つの語または前記様々な語のうちの1つを置き換え、その後、ユーザが第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を認識して受け入れる率を含む誤り率を包含することを特徴とする、請求項1に記載の方法。 - 前記音声認識システムのパフォーマンスを評価するために用いられる評価された誤りが、
前記システムによって生成された仮定を期待される応答と比較する場合、前記1つの語または前記様々な語のうちの1つがもう1つの語として間違って認識される置換率を含む誤り率を包含することを特徴とする、請求項1に記載の方法。 - 音声認識システムのパフォーマンスの改善を助けるために修正措置を開始するための装置であって、
少なくとも一人のユーザによって発話された音声からなる認識考察を得て、
前記システムが2つの発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合の発生を識別し、前記2つの仮定が語対語で一致しないが、前記仮定が語対語に大部分一致する場合の発生を識別することにより前記認識考察の誤りを評価し、
前記認識考察に対応する少なくとも1つの認識係数を決定し、
(i)評価された誤り及び(ii)少なくとも1つの認識係数の少なくとも一部に基づいて音声認識システムのパフォーマンスを評価し、
評価されたパフォーマンスに基づいて等級を割り当て、
前記等級をパフォーマンス評価しきい値と比較し、
等級とパフォーマンス評価しきい値との比較に基づいて修正措置を開始する
ように適合されたプロセッサを含む装置。 - 前記プロセッサがユーザに前記修正措置を通知するように適合された、請求項18に記載の装置。
- 前記プロセッサは、修正措置を自動的に開始するように適合されている、請求項18に記載の装置。
- 前記装置が、音声認識システムがユーザによって使用されていると、修正措置を開始する、請求項18に記載の装置。
- 前記装置が、前記パフォーマンスを決定し、前記システムが所定の期間にわたってユーザによって使用された後に、システム活動のログからの情報を使用して前記修正措置を決定する、請求項18に記載の装置。
- 前記修正措置が、1つの語または1組の語をユーザに対して再教育させることを特徴とする、請求項18に記載の装置。
- 前記修正措置が、1つのモデルまたは1組のモデルをユーザに対して修正させる処置を実行する段階である、請求項18に記載の装置。
- 前記修正措置が、ユーザにより大きな声で話すようにさせ、またはマイクロフォンを移動させ、またはマイクロフォンを交換させることである、請求項18に記載の装置。
- 前記認識考察の誤りを評価することが、ユーザによって前記システムに入力された近接する発話を評価することからなることを特徴とする請求項18に記載の装置。
- 前記評価された誤りが、前記1つの語または前記様々な語がある信頼係数範囲内で認識される場合の発生を含む、請求項18に記載の装置。
- 前記評価された誤りが、前記システムが第1の発話の第1の仮定を拒否し、その後、前記システムが第2の発話の第2の仮定を受け入れる場合の発生を含み、前記第1および第2の仮定が実質的に語対語で一致する、請求項18に記載の装置。
- 前記評価された誤りが、前記システムによって生成された仮定が期待される応答に語対語で一致しないが、前記仮定が前記期待される応答に語対語で大部分一致する場合の発生を含む、請求項18に記載の装置。
- 前記評価された誤りが、ユーザが前記システムにフィードバックを提供する場合の発生を含む、請求項18に記載の装置。
- 前記少なくとも1つの認識係数が環境係数からなることを特徴とする、請求項18に記載の装置。
- 前記音声認識システムのパフォーマンスを評価するために用いられる前記評価された誤りが、
前記システムが第1の発話を拒否し、その後、ユーザが第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を受け入れる率を含む誤り率を包含することを特徴とする、請求項18に記載の装置。 - 前記音声認識システムのパフォーマンスを評価するために用いられる前記評価された誤りが、
前記システムが、第1の発話に関する前記システムの仮定内で前記1つの語または前記様々な語のうちの1つを置き換え、その後、ユーザが第2の発話内で前記第1の発話を繰り返し、その後、前記システムが前記第2の発話を認識して受け入れる率を含む誤り率を包含することを特徴とする、請求項18に記載の装置。 - 前記音声認識システムのパフォーマンスを評価するために用いられる前記評価された誤りが、
前記システムによって生成された仮定を期待される応答と比較する場合、前記1つの語または前記様々な語のうちの1つがもう1つの語と間違って認識される置換率を含む誤り率を包含することを特徴とする請求項18に記載の装置。 - 音声認識システムに関するモデルを適合するための方法であって、
認識考察を得る段階であって、該認識考察が1つの語又は語のグループの発話からなることを特徴とする、認識考察を得る段階と、
前記システムが2つの発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合の発生を識別する段階を使用し、前記2つの仮定が語対語で一致しないが、前記仮定が語対語で大部分一致する場合の発生を識別することにより前記認識考察の誤りを評価し、1つの語又は語のグループに対応する誤り率を更新する段階と、
前記認識考察に対応する少なくとも1つの認識係数を決定する段階と、
(i)更新された誤り率及び(ii)少なくとも1つの認識係数の少なくとも一部に基づいて1つの語又は語のグループに関する音声認識システムのパフォーマンスを評価する段階と、
評価されたパフォーマンスに基づいて等級を割り当てる段階と、
前記等級をパフォーマンス評価しきい値と比較する段階と、
前記比較に基づいて、
(i)1つの語又は語のグループに対応する1つのモデル又はモデルのグループを適応する段階、または、
(ii)1つの語又は語のグループに対応する1つのモデル又はモデルのグループに関する適応を保留する段階と
を含む方法。 - 1つの語又は語のグループの発話が、類似のシステムの1組のユーザからのものであることを特徴とする、請求項35に記載の方法。
- 前記パフォーマンス評価しきい値は、予め決められた値またはユーザによって設定可能な値のうちの少なくとも1つである、請求項35に記載の方法。
- 前記パフォーマンス評価しきい値は、音声認識システムに入力される発話の中の語の数に基づく、請求項35に記載の方法。
- 前記パフォーマンス評価しきい値は、環境係数に基づく、請求項35に記載の方法。
- 前記等級は、数字得点に基づく、請求項35に記載の方法。
- 前記等級は、認識率および少なくとも1つの認識係数に基づく、請求項35に記載の方法。
- 音声認識システムに対するモデル適合のための装置であって、
(i)1つの語又は語のグループの発話からなることを特徴とする認識考察を得て、
(ii)前記システムが2つの発話の第1および第2の仮定を生成し、前記システムが前記第2の仮定を受け入れる場合の発生を識別する段階を使用し、前記2つの仮定が語対語で一致しないが、前記仮定が語対語で大部分一致する場合の発生を識別することにより前記認識考察の誤りを評価し、1つの語又は語のグループに対応する誤り率を更新し、
(iii)前記認識考察に対応する少なくとも1つの認識係数を決定し、
(iv)更新された誤り率及び少なくとも1つの認識係数の少なくとも一部に基づいて1つの語又は語のグループに関する音声認識システムのパフォーマンスを評価し、
(v)評価されたパフォーマンスに基づいて等級を割り当てる
ように適合されたプロセッサと、
前記プロセッサと通信に結合されたコントローラと、
を有し、
前記コントローラが、割り当てられた等級に基づいて1つの語又は語のグループに対応する1つのモデル又はモデルのグループを適合させるように構成されたことを特徴とする装置。 - 前記プロセッサは、パフォーマンス評価しきい値に対する等級の比較を行うように適合されていて、前記コントローラは、(i)1つの語又は語のグループに対応する1つのモデル又はモデルのグループを適合させるか、または、(ii)1つの語又は語のグループに対応する1つのモデル又はモデルのグループに関する適合を留保することによって、前記適合を調整する、請求項42に記載の装置。
- 1つの語又は語のグループの発話が、類似のシステムの1組のユーザからのものであることを特徴とする、請求項42に記載の装置。
- 前記パフォーマンス評価しきい値は、予め決められた値またはユーザによって設定可能な値のうちの少なくとも1つである、請求項43に記載の装置。
- 前記パフォーマンス評価しきい値は、音声認識システムに入力される発話の中の語の数に基づく、請求項43に記載の方法。
- 前記パフォーマンス評価しきい値は、環境係数に基づく、請求項43に記載の方法。
- 前記等級は、数字得点に基づく、請求項42に記載の方法。
Applications Claiming Priority (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US78862206P | 2006-04-03 | 2006-04-03 | |
US78860606P | 2006-04-03 | 2006-04-03 | |
US78862106P | 2006-04-03 | 2006-04-03 | |
US60/788,606 | 2006-04-03 | ||
US60/788,621 | 2006-04-03 | ||
US60/788,622 | 2006-04-03 | ||
US11/539,456 US7827032B2 (en) | 2005-02-04 | 2006-10-06 | Methods and systems for adapting a model for a speech recognition system |
US11/539,456 | 2006-10-06 | ||
US11/688,916 US7949533B2 (en) | 2005-02-04 | 2007-03-21 | Methods and systems for assessing and improving the performance of a speech recognition system |
US11/688,916 | 2007-03-21 | ||
US11/688,920 | 2007-03-21 | ||
US11/688,920 US7895039B2 (en) | 2005-02-04 | 2007-03-21 | Methods and systems for optimizing model adaptation for a speech recognition system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504389A Division JP5426363B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013232017A JP2013232017A (ja) | 2013-11-14 |
JP6121842B2 true JP6121842B2 (ja) | 2017-04-26 |
Family
ID=38353024
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504393A Active JP5576113B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムにモデルを適合させるための方法およびシステム |
JP2009504390A Active JP5270532B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムに対するモデル適合を最適化するための方法およびシステム |
JP2009504389A Active JP5426363B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
JP2013166553A Active JP6121842B2 (ja) | 2006-04-03 | 2013-08-09 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009504393A Active JP5576113B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムにモデルを適合させるための方法およびシステム |
JP2009504390A Active JP5270532B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムに対するモデル適合を最適化するための方法およびシステム |
JP2009504389A Active JP5426363B2 (ja) | 2006-04-03 | 2007-03-30 | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Country Status (3)
Country | Link |
---|---|
EP (7) | EP2711923B1 (ja) |
JP (4) | JP5576113B2 (ja) |
WO (3) | WO2007118032A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8958848B2 (en) | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
JP2010128015A (ja) * | 2008-11-25 | 2010-06-10 | Toyota Central R&D Labs Inc | 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム |
EP2246729A1 (en) | 2009-04-30 | 2010-11-03 | Essilor International (Compagnie Générale D'Optique) | A method for assessing an optical feature of an ophthalmic lens design |
DE102010001788A1 (de) | 2010-02-10 | 2011-08-11 | Forschungsverbund Berlin e.V., 12489 | Skalierbarer Aufbau für laterale Halbleiterbauelemente mit hoher Stromtragfähigkeit |
US10269342B2 (en) * | 2014-10-29 | 2019-04-23 | Hand Held Products, Inc. | Method and system for recognizing speech using wildcards in an expected response |
US9984685B2 (en) | 2014-11-07 | 2018-05-29 | Hand Held Products, Inc. | Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries |
CN105336342B (zh) * | 2015-11-17 | 2019-05-28 | 科大讯飞股份有限公司 | 语音识别结果评价方法及系统 |
JP7131362B2 (ja) * | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
CN111754995B (zh) * | 2019-03-29 | 2024-06-04 | 株式会社东芝 | 阈值调整装置、阈值调整方法以及记录介质 |
KR102547001B1 (ko) | 2022-06-28 | 2023-06-23 | 주식회사 액션파워 | 하향식 방식을 이용한 오류 검출 방법 |
CN117437913B (zh) * | 2023-12-18 | 2024-03-19 | 深圳昱拓智能有限公司 | 一种自适应近远场的离线语音命令词识别方法、系统及介质 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882757A (en) | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
JPS63179398A (ja) * | 1987-01-20 | 1988-07-23 | 三洋電機株式会社 | 音声認識方法 |
JPS644798A (en) * | 1987-06-29 | 1989-01-09 | Nec Corp | Voice recognition equipment |
JP2817429B2 (ja) * | 1991-03-27 | 1998-10-30 | 松下電器産業株式会社 | 音声認識装置 |
US5182502A (en) | 1991-05-06 | 1993-01-26 | Lectron Products, Inc. | Automatic headlamp dimmer |
US5182505A (en) | 1991-06-19 | 1993-01-26 | Honeywell Inc. | Aircraft control surface position transducer |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
JP3710493B2 (ja) * | 1992-09-14 | 2005-10-26 | 株式会社東芝 | 音声入力装置及び音声入力方法 |
JP3083660B2 (ja) * | 1992-10-19 | 2000-09-04 | 富士通株式会社 | 音声認識装置 |
JPH0713591A (ja) * | 1993-06-22 | 1995-01-17 | Hitachi Ltd | 音声認識装置および音声認識方法 |
TW323364B (ja) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
JP2886117B2 (ja) * | 1995-09-11 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
US6212498B1 (en) * | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
FR2769118B1 (fr) * | 1997-09-29 | 1999-12-03 | Matra Communication | Procede de reconnaissance de parole |
JPH11175096A (ja) * | 1997-12-10 | 1999-07-02 | Nec Corp | 音声信号処理装置 |
US6606598B1 (en) * | 1998-09-22 | 2003-08-12 | Speechworks International, Inc. | Statistical computing and reporting for interactive speech applications |
DE69833987T2 (de) * | 1998-12-17 | 2006-11-16 | Sony Corp. | Halbüberwachte Sprecheradaptation |
US6922669B2 (en) | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6507816B2 (en) * | 1999-05-04 | 2003-01-14 | International Business Machines Corporation | Method and apparatus for evaluating the accuracy of a speech recognition system |
JP2001042886A (ja) * | 1999-08-03 | 2001-02-16 | Nec Corp | 音声入出力システムおよび音声入出力方法 |
JP3908878B2 (ja) * | 1999-09-27 | 2007-04-25 | 日本放送協会 | 連続音声認識装置の音素認識性能測定装置 |
JP4004716B2 (ja) * | 2000-05-31 | 2007-11-07 | 三菱電機株式会社 | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001343994A (ja) * | 2000-06-01 | 2001-12-14 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り検出装置および記憶媒体 |
EP1199704A3 (de) * | 2000-10-17 | 2003-10-15 | Philips Intellectual Property & Standards GmbH | Auswahl der alternativen Wortfolgen für diskriminative Anpassung |
DE10119284A1 (de) * | 2001-04-20 | 2002-10-24 | Philips Corp Intellectual Pty | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems |
JP2002328696A (ja) * | 2001-04-26 | 2002-11-15 | Canon Inc | 音声認識装置および音声認識装置における処理条件設定方法 |
GB2375211A (en) * | 2001-05-02 | 2002-11-06 | Vox Generation Ltd | Adaptive learning in speech recognition |
US6941264B2 (en) * | 2001-08-16 | 2005-09-06 | Sony Electronics Inc. | Retraining and updating speech models for speech recognition |
JP3876703B2 (ja) * | 2001-12-12 | 2007-02-07 | 松下電器産業株式会社 | 音声認識のための話者学習装置及び方法 |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
JP4304952B2 (ja) * | 2002-10-07 | 2009-07-29 | 三菱電機株式会社 | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム |
JP2005017603A (ja) * | 2003-06-25 | 2005-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識率推定方法及び音声認識率推定プログラム |
JP3984207B2 (ja) | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
TWI225638B (en) * | 2003-09-26 | 2004-12-21 | Delta Electronics Inc | Speech recognition method |
JP2005173157A (ja) * | 2003-12-10 | 2005-06-30 | Canon Inc | パラメータ設定装置、パラメータ設定方法、プログラムおよび記憶媒体 |
JP2005283646A (ja) * | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 音声認識率推定装置 |
JP2005331882A (ja) * | 2004-05-21 | 2005-12-02 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、および音声認識プログラム |
EP1756539A1 (en) * | 2004-06-04 | 2007-02-28 | Philips Intellectual Property & Standards GmbH | Performance prediction for an interactive speech recognition system |
JP4156563B2 (ja) * | 2004-06-07 | 2008-09-24 | 株式会社デンソー | 単語列認識装置 |
JP2006058390A (ja) * | 2004-08-17 | 2006-03-02 | Nissan Motor Co Ltd | 音声認識装置 |
US7243068B2 (en) * | 2004-09-10 | 2007-07-10 | Soliloquy Learning, Inc. | Microphone setup and testing in voice recognition software |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
-
2007
- 2007-03-30 JP JP2009504393A patent/JP5576113B2/ja active Active
- 2007-03-30 EP EP13187263.2A patent/EP2711923B1/en active Active
- 2007-03-30 EP EP07759805A patent/EP2005416A2/en not_active Ceased
- 2007-03-30 EP EP07759818A patent/EP2005417A2/en not_active Ceased
- 2007-03-30 JP JP2009504390A patent/JP5270532B2/ja active Active
- 2007-03-30 EP EP19203259.7A patent/EP3627497A1/en active Pending
- 2007-03-30 EP EP12173408.1A patent/EP2541545B1/en active Active
- 2007-03-30 EP EP07759840A patent/EP2005418B1/en active Active
- 2007-03-30 WO PCT/US2007/065652 patent/WO2007118032A2/en active Application Filing
- 2007-03-30 JP JP2009504389A patent/JP5426363B2/ja active Active
- 2007-03-30 WO PCT/US2007/065629 patent/WO2007118030A2/en active Application Filing
- 2007-03-30 EP EP20130187267 patent/EP2685451A3/en not_active Withdrawn
- 2007-03-30 WO PCT/US2007/065615 patent/WO2007118029A2/en active Application Filing
-
2013
- 2013-08-09 JP JP2013166553A patent/JP6121842B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2007118029A3 (en) | 2007-12-27 |
EP2711923A3 (en) | 2014-04-09 |
EP2005417A2 (en) | 2008-12-24 |
EP2541545A2 (en) | 2013-01-02 |
EP3627497A1 (en) | 2020-03-25 |
EP2685451A2 (en) | 2014-01-15 |
JP2009532743A (ja) | 2009-09-10 |
JP5426363B2 (ja) | 2014-02-26 |
EP2005418B1 (en) | 2012-06-27 |
WO2007118030A3 (en) | 2008-01-10 |
EP2685451A3 (en) | 2014-03-19 |
WO2007118032A3 (en) | 2008-02-07 |
WO2007118029A2 (en) | 2007-10-18 |
JP2009532744A (ja) | 2009-09-10 |
JP5270532B2 (ja) | 2013-08-21 |
EP2005416A2 (en) | 2008-12-24 |
WO2007118030A2 (en) | 2007-10-18 |
EP2541545B1 (en) | 2018-12-19 |
EP2711923A2 (en) | 2014-03-26 |
JP2013232017A (ja) | 2013-11-14 |
EP2005418A2 (en) | 2008-12-24 |
WO2007118032A2 (en) | 2007-10-18 |
JP5576113B2 (ja) | 2014-08-20 |
JP2009532742A (ja) | 2009-09-10 |
EP2541545A3 (en) | 2013-09-04 |
EP2711923B1 (en) | 2019-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6121842B2 (ja) | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム | |
US8255219B2 (en) | Method and apparatus for determining a corrective action for a speech recognition system based on the performance of the system | |
US9928829B2 (en) | Methods and systems for identifying errors in a speech recognition system | |
US7895039B2 (en) | Methods and systems for optimizing model adaptation for a speech recognition system | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
CN101547261B (zh) | 关联赋予装置、关联赋予方法 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
US8886532B2 (en) | Leveraging interaction context to improve recognition confidence scores | |
CN110021295B (zh) | 用于识别由语音识别系统生成的错误转录的方法和系统 | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
Crook et al. | Accurate probability estimation of hypothesised user acts for POMDP approaches to dialogue management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20140929 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141219 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20150319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160113 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160413 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160713 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161205 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20170116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6121842 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |