JPH07181994A - 信頼性評価を用いた自動音声言語認識処理 - Google Patents

信頼性評価を用いた自動音声言語認識処理

Info

Publication number
JPH07181994A
JPH07181994A JP6284571A JP28457194A JPH07181994A JP H07181994 A JPH07181994 A JP H07181994A JP 6284571 A JP6284571 A JP 6284571A JP 28457194 A JP28457194 A JP 28457194A JP H07181994 A JPH07181994 A JP H07181994A
Authority
JP
Japan
Prior art keywords
user
translation
spoken
success
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6284571A
Other languages
English (en)
Inventor
Douglas J Brems
ジェイ.ブレムズ ダグラス
Max S Schoeffler
エス. ショエフラー マックス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc, AT&T Corp filed Critical American Telephone and Telegraph Co Inc
Publication of JPH07181994A publication Critical patent/JPH07181994A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

(57)【要約】 【構成】 自動音声言語認識(ASR)技術を用いたシ
ステムのユーザインタフェースにおいて、ASR処理の
結果における信頼度レベルに基づいてユーザごとに異な
る取扱いを行う。さらに、そのユーザについての履歴の
みならず、翻訳(解釈)ミスの場合の「影響度(結
果)」にも基づいて、異なった取扱いをすることができ
る。 【効果】 ユーザは、真に必要なときだけ、音声入力の
再入力または検証を要求され、システムに対するユーザ
インタフェースが改善される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、自動音声言語認識
(ASR)に関する。特に、一人の個人の音声入力のA
SR翻訳の信頼性評価が計算され、その個人に適した処
理に選択的に変換するためにその信頼性評価が使用され
るような、ASRを使用するシステムにおいて提供され
るユーザインタフェース処理に関する。
【0002】
【従来の技術】ASRシステムは、種々の応用分野に受
け入れられ始めている。1989年5月2日にビンカード(Bin
kerd)らに対して発行された米国特許4,827,500号には、
ASR能力を持つ音声応答ユニットにより呼出側が応答
を行う「呼の到達先を選択するための自動音声言語認
識」の技術が開示されている。このようなシステムは、
音声入力を要求するか、またはユーザに対して選択メニ
ューを提示して音声による応答を待ち、その応答をAS
Rを用いて解釈(翻訳)し、その要求された動作を実行
する。これらはすべて人間に干渉されずに行われる。
【0003】ASRを用いたシステムへのユーザインタ
フェースを設計するに当たっては、認識誤りの可能性の
扱いが重要になる。ASRシステムが、話されたことば
を解釈する場合は常に、その話されたことばと解釈との
対応関係に幾分かの不確実性が残るということがわかっ
ているからである。この問題は、数字列の入力の場合、
たとえば、呼出側から電話番号またはクレジットカード
番号が話されるシステムなどの場合に、特に重要であ
る。一つの数字列(場合によっては数字列の一部分)に
ついての全体精度がわずか85ないし90%であること
も珍しくないからである。
【0004】潜在的誤りを取り扱うために、今日のシス
テムは、不正確な数字列を処理する可能性を避けるため
に、誤り率が問題になるような場合には、すべての処理
について何らかの明示的な確認手段を講ずる。たとえ
ば、各連続数字列の入力の後に、ASRシステムは、最
善の数字列候補を読み返し、このシステムのユーザ自身
に対して、肯定または否定の回答を要求する。たとえ
ば、「あなたのクレジットカード番号がXXX−YYY
Yでしたら『はい』と、そうでなかったら『いいえ』と
言ってください。」のように言う。このような明示的な
確認は、必要でありかつ有用である場合も多い。
【0005】
【発明が解決しようとする課題】特に、ASRシステム
を頻繁に使うユーザにとって、またはそのユーザに対し
てはASRシステムの信頼度が高いようなユーザにとっ
て、厄介で時間の浪費であり、めんどうである。他のシ
ステムでは、前の要求を認識することができなかった場
合、ユーザに、音声による要求を再度入力するように求
めるものもあった。しかし、認識することができた場合
は、固定的検証が行われる。本発明は、かかる課題を解
決することを目的としている。
【0006】
【課題を解決するための手段】本発明によれば、自動音
声言語認識(ASR)技術を用いたシステムのユーザイ
ンタフェースにおいて、ASR処理の結果における信頼
度レベルに基づいてユーザごとに異なる取扱い(動的処
理)を行う。
【0007】発明の一態様では、ASRシステムの出力
の信頼度レベルを用いて、話されたことばのASR翻訳
について、正確度の高いものと誤りが多いものとを識別
する。信頼度は、ASRシステムにより選択された第1
および第2の選択についての近似度得点(後述)の差の
関数として定義できる。この態様のユーザインタフェー
スでは、信頼度が低いときと信頼度が高いときとで、明
示的検証ステップの取り方が相違する。さらに、そのユ
ーザについてのそのシステムに関する過去の履歴のみな
らず、翻訳(解釈)ミスの場合の「影響度(結果)」に
も基づいて、異なった取扱いをすることができる。
【0008】本発明の他の態様によれば、ASRシステ
ムが一つのことばを翻訳した後、その翻訳の信頼度を評
価し、そのユーザについて3種類の対応がありうる。
【0009】たとえばASRシステムを数字の認識に用
いた場合、言われた各数字と、そのASRシステムがト
レーニングされた各数字モデルとの間の、近似度の得点
を割り当てることにより、翻訳の信頼度を判定すること
ができる。ここに、大きな得点はよい相関を表す。この
ようにして、言われた各ことばについて、そのことばの
各モデルとの近似度を表すベクトルが作成される。最も
近いモデルについての近似度得点が2番目に近いモデル
の近似度得点よりもはるかに高い場合、高い信頼度があ
ると言われる。これは、その翻訳が他の翻訳よりもはる
かに良いということを意味する。
【0010】
【作用】本発明によれば、ASRシステムの動作の結果
の信頼度すなわち「確かさレベル」に応じて、また、誤
りを犯した結果と、ユーザが検証要求に応答および/ま
たはその情報を再入力することとの困難性を詳しく解析
して、種類の異なる動作を決定することにした。これに
より、システムに対するユーザインタフェースが改善さ
れ、ユーザは、真に必要なときだけ、音声入力の再入力
または検証を要求される。
【0011】
【実施例】図1は、従来の自動音声言語認識(ASR)
システムによる処理のフローチャートを示す。この例に
おいて、人間が音声入力により電話番号をダイヤルする
と、ASRシステムが、その人の音声を翻訳(解釈)
し、そのASRシステムから得られた翻訳に応じて電話
の呼がなされるようにする。具体的には、10桁の電話
番号(3桁の市外局番とそれに続く7桁の個別電話番
号)をダイヤルする場合の処理が記載されている。
【0012】図1の処理は、一つの呼が、図4に関連し
て後に述べる音声言語処理プラットフォームに接続され
たときに、ステップ101で始まる。このプラットフォ
ームは、音声プロンプトを提供し、音声言語入力を受け
取り、ASR技術を用いて音声言語を解釈することがで
きるように構成されている。ステップ103で、ユーザ
は、電話の呼出しを行うための市外局番を入力するよう
にと、音声アナウンスで促される(プロンプトを受け
る)。これに対してユーザはステップ105で、3桁の
数字を音声で入力する。
【0013】ステップ106では、周知のASR処理が
行われ、呼側から言われた数字を決定する。一般に、A
SR処理によってなされる翻訳は、たとえば、ユーザに
より音声入力されたことばと蓄積されたことばのサンプ
ルとの比較によるものでよい。しかし、ASRシステム
は、数種類の周知の言語認識プロセスのうちのどれを用
いるものでもよい。
【0014】ステップ106で3桁の市外局番が認識さ
れた後、ステップ107で、認識された数字がステップ
105でユーザが言った数字と同じであることを明示的
に検証(確認)するように、システムから呼側に要求す
る。ステップ108で、ユーザは「はい」または「いい
え」で回答し、システム側は、その回答に応じて、分岐
ステップ111で異なる動作をとる。ステップ108で
「はい」の回答を得た場合は、初めの3桁の数字が正し
く認識されたことを意味し、次のステップ113へ進
み、ユーザは電話番号の残りの7桁の数字を言うよう促
される。
【0015】ステップ115でユーザはこの7桁の数を
言い、ステップ116で、再びASR処理を用いてステ
ップ106と同様に、呼側が言った数字の決定がなされ
る。次に、ステップ117で、呼側は、認識された数字
が、ステップ115で言われた数字と同じであることを
明示的に確認することを要求される。ステップ119で
「はい」と言われた場合、分岐ステップ121で肯定的
応答が認識され、ステップ123で、認識された10個
の数字全部を用いて、すべての処理が完結される。
【0016】ステップ108またはステップ119で呼
側から否定的な応答があった場合は、分岐ステップ11
1または121で、それぞれステップ125または12
7へ制御が移る。ステップ125および127では、す
でにあまりに多くの回数の失敗を犯したかどうかを判定
する。これは、たとえば、処理が始まるときにカウンタ
をゼロにし、ステップ111または121で「いいえ」
の回答があるごとにそのカウンタに1を加え、このカウ
ンタのカウントをあらかじめ定めたしきい値と比較する
ことによって達成できる。
【0017】ステップ125または127で否定的回答
が示され、しかもしきい値をまだ越えていない場合、追
加の認識試行として、ステップ103〜111または1
13〜121の処理が繰り返される。ステップ125ま
たは127で肯定的回答が示された場合、自動音声言語
認識が失敗したものであり、ステップ126または12
8で、呼は、操作員に接続される。
【0018】図1に示す処理は、どのユーザに対しても
同じ扱いをする。すなわち、ステップ106および11
6で達成される音声言語認識の信頼性に関係なく、また
同じユーザによるこれまでの確認(検証)の試行につい
ての詳しい履歴にも関係なく、ユーザとシステムとの間
で同じ会話がなされる。本発明によれば、この厄介な固
定的アプローチが取り除かれる。ここでは、ステップ1
06および116においてなされる音声言語認識に関し
て、信頼度レベルを用いた動的アプローチを行い、ユー
ザごとに取扱いを変える。
【0019】図2および図3は、音声入力によって電話
番号をダイヤルしている人と応答する場合の、本発明に
係るASRシステムを用いる場合のフローチャートを示
す。この例では、前述の例と同じ発呼をなすものとす
る。すなわち、3桁の市外局番とその次の7桁の個人番
号からなる10桁の電話番号をダイヤルする発呼をなす
ものとする。
【0020】処理はステップ201で始まり、このとき
呼側は、上述の認識機能と同じ機能を持ち、その認識機
能についての信頼度レベルを表す指標を提供する音声言
語処理プラットフォームに接続される。信頼度レベルを
判定する方法の詳細は以下に述べる。自動音声言語認識
システムに関する信頼度評価値の作成の一つの例は、
K.P.アビラ(Avila)ら著「認識指標:単語診断への
統計的アプローチ」と題する記事(言語工学(Speech Te
chnology,Oct-Nov 1987,Vol.4,No.1,第62頁〜第67
頁)に開示されている。
【0021】ステップ203では、ユーザは、その電話
の呼のために市外局番を入力するようにと、音声アナウ
ンスにより促される。これに応じてユーザは、ステップ
205で、3桁の市外局番を音声で入力する。ステップ
206では、自動音声言語認識(ASR)処理が実行さ
れ、呼側が言った数字について判断される。前述の場合
と同様に、ASR処理による翻訳は、通常、入力された
ことば(音声言語)と蓄積されたサンプルとの比較によ
り行う。ただし、このASRシステムにはさらに、この
認識に関する信頼度レベルを表す信頼度値を提供する機
能が追加されている。
【0022】図2に示すように、ステップ231でなさ
れる信頼度解析の結果として、「高信頼度」と「中信頼
度」の結果がありうる。図5に関連して後述するよう
に、3種類以上の信頼度レベルを用いることも可能であ
り、また種々の信頼度レベルの定義も変わりうる。
【0023】ステップ231で判定された信頼度レベル
が「中信頼度」である場合は、前述の場合とほとんど同
様に処理が続けられる。ステップ207で、システム
は、呼側に対して、認識された数字が、ステップ205
でユーザが言った数字と同じであることを、明示的に検
証するように求める。その後、ステップ208でユーザ
は「はい」または「いいえ」で回答し、そして、その回
答に応じて、分岐ステップ211では異なった動作には
いる。
【0024】ステップ208で「はい」という答が得ら
れた場合、初めの3桁の数字は正しく認識されたことに
なり、ステップ213の処理が続けられる。ステップ2
13では、ユーザは、電話番号の残りの7桁について入
力を促される。ステップ215で、ユーザはこの7桁の
数字を言い、ステップ216では、ステップ206と同
様にASRを用いて、呼側が言ったこの数字について判
断がなされる。しかしステップ231と同様に、このA
SRシステムは、この認識に関して信頼度レベルの指標
を出すように設計されている。
【0025】図3に示すように、ステップ233でなさ
れる信頼性解析の結果として、「高信頼度」と「中信頼
度」の2種類の結果がありうる。ステップ233で判定
された信頼度レベルが「中信頼度」である場合は、ステ
ップ217で、システムは呼側に対して、認識された数
字が、ステップ215でユーザが言った数字と同じであ
ることを、明示的に検証するように求める。ステップ2
18で「はい」と言われた場合、分岐ステップ221で
肯定的応答が認識され、ステップ223で、認識された
10桁の数字すべてを用いて処理が完結される。
【0026】図1の場合とほぼ同様に、ステップ208
または218で呼側から受け取った応答が否定的である
場合は、分岐ステップ211または221で、それぞ
れ、ステップ225または227へ制御が移り、そこ
で、すでに失敗の回数が多すぎるかどうか判断される。
ステップ225または227で否定的答が示された場合
は、しきい値をまだ越えていないことを意味し、さらに
認識を試行するべく、ステップ203〜211またはス
テップ213〜221を実行することにより、処理を繰
り返すことができる。ステップ225または227で肯
定的答が示された場合、ASRは失敗したことになり、
この呼はステップ226または228で操作員に接続さ
れる。
【0027】ステップ231または233でなされた信
頼度解析が、「高信頼度」の認識であることを示した場
合は、ユーザに対して異なる扱いがなされる。たとえば
初めの3桁の数字が高信頼度をもって認識された場合、
ステップ207、208および211は省略され、初め
の3桁の数字についての音声言語の認識において到達し
た判断は明示的に検証はしない。そして、次の7桁の数
字も高信頼度をもって認識された場合、ステップ21
7、218および221は省略され、次の7桁の数字に
ついての音声言語の認識において到達した判断は明示的
に検証はしない。
【0028】したがって、図2および図3に示す処理
は、ユーザとシステムとの間の対話を固定のものにしな
いという意味で、適応性に富むといえる。この対話は、
ステップ206と216において達成される言語認識の
信頼度レベルに依存する。
【0029】図4に示すように、典型的な音声言語処理
ユニット301は、通信網との関連で使用されるように
配設される。これについては、たとえば、1991年5月1日
にA.N.ドーデリン(Daudelin)に対して発行された米
国特許4,922,519号の図1にも開示されている。音声言
語処理ユニット301には通信インタフェース311が
含まれ、通信インタフェース311はトランク(外線)
315を介して、この音声言語処理ユニットを301を
他のシステムの機器と接続する。
【0030】通信インタフェース311およびトランク
315は複数同時双方向対話を支援することができ、し
たがって、いつでも、複数の呼を取り扱うことができ
る。音声言語処理ユニット301で実行される処理は中
央処理ユニット(CPU)303によって制御され、C
PU303はたとえばデータベース309などのメモリ
に収容されたプログラムの制御のもとで作動する。音声
言語処理ユニット301の機能としては、(a)音声言
語発生器307を用いてユーザに音声アナウンスをする
機能、(b)ユーザから受け取った音声を、自動音声言
語認識(ASR)モジュール305を用いて翻訳(解
釈)する機能、を含む。
【0031】音声言語発生器307からのアナウンスと
ASRモジュール305における認識動作とを連続して
行うことにより、本発明により動的に制御されるユーザ
インタフェースをなす。音声言語処理ユニットの各要素
は、コモンバス313を介して、通信インタフェース3
11と、そしてまた互いに、接続されている。
【0032】上述のように、ASRモジュール305か
らの出力は、ユーザから受け取った音声の翻訳みなら
ず、その翻訳の信頼度の指標をも含んでいる。後者の情
報はCPU303に与えられ、その信頼度レベルに基づ
いてユーザインタフェース処理は動的に適応可能であ
る。
【0033】音声言語処理ユニット301は、AT&T
社から言語認識パッケージ付きで市販されている「コン
ヴァーサント(Conversant)MAP100音声応答ユニッ
ト(Voice Response Unit)」を使用して実現できる。ま
た、データベース309に蓄積される制御ソフトウェア
は、「スクリプトビルダ」として知られている対話型ツ
ールを用いて生成することができる。しかし、図4に示
す音声言語処理ユニット301は単なる一例であって、
たとえば前述のドーデリン特許で引用されている文献に
記載されたものなど他の構成をとることもできる。
【0034】また、図1、図2および図3で説明した処
理は電話の発呼に関して音声言語認識を使用するもので
あるが、音声言語認識は、たとえばユーザがコンピュー
タその他の機器と応対するときなどの「ローカルな」処
理にも使用できる。皿洗い機またはパーソナルコンピュ
ータは、装置内に自動音声言語認識ユニットを組み込む
ことにより、音声によるコマンド(命令)に応答させる
ことができる。
【0035】本発明によれば、コンピュータは、たとえ
ば、音声による「フォーマット」というコマンドを認識
し、それに応じてディスクのフォーマッティングをする
ようにできる。フォーマッティングは、データの損失を
招く可能性もある重要な操作であるから、このコマンド
は、高信頼度をもって認識されたときにのみ実行され
る。
【0036】信頼度レベルが中程度の場合は、ユーザ
は、「はい」というかまたはコマンドを繰り返すかによ
りそのコマンドを明示的に確認するように求められる。
信頼度レベルが低い場合は、ユーザは、そのコマンドを
キーボードにタイプすることを求められることもありう
る。そのようなローカルな装置においては、通信インタ
フェース311は、マイクロホンなどの音声入力機器
と、スピーカまたは表示パネルなどの出力機器とに接続
されることもある。
【0037】図5は、異なるユーザインタフェース処理
による、本発明の他の実施例を示す。この実施例ではス
テップ400で、ユーザは音声入力を促される。そし
て、ステップ401で、ASRモジュール305がユー
ザの言ったことばを翻訳する。その後ステップ403
で、その翻訳の信頼性が判断され、3段階のレベルに分
けられる。ユーザとの対応は各レベルに応じて相違して
くる。
【0038】第1に、翻訳が正しいという可能性が非常
に高い場合は、ステップ405で肯定的結果に到達し、
誤りの可能性がわずかにはあるものの、ステップ407
で、明示的な確認無しにそのASRの翻訳を容認する。
そして、ステップ409で処理が完了する。
【0039】第2に、不確実性が中程度のレベルの場
合、ステップ411で肯定的な結果になり、ステップ4
13でユーザは、結果を明示的に確認(または否認)す
るように求められる。なぜなら、これによりユーザに情
報を(音声その他により)再入力させることができるか
らである。この結果が検証(確認)された場合は、ステ
ップ415で肯定的結果になり、ステップ409で処理
は完了する。結果が確認されない場合、ステップ415
で否定的な結果になり、ユーザは、ステップ417で判
断したときと同様に、これまでの失敗の回数が多すぎな
い場合は、ステップ400から始まる処理を繰り返すこ
とを求められる。
【0040】第3に、不確実性が大きく、かつ/または
翻訳ミスの結果が重大である場合は、ステップ405お
よび411の双方の結果は否定的になる。この場合は、
「翻訳失敗」として取り扱われ、その(恐らくは)まち
がった結果の明示的な確認を試行せずに、ユーザは「も
う一度やってください」という要求を受ける。これは、
ステップ417に示すように、すでにユーザが失敗した
回数が多すぎでない限り、ステップ400で始まる処理
を繰り返すことで達成される。すでに失敗した回数が多
すぎとなっている場合は、図5の処理はステップ419
で終了し、そこで、電話をかけようとしている場合に
は、ユーザは、操作員に接続される。
【0041】図2および図3のステップ231および2
33でなされる信頼性解析並びに図5のステップ405
および411でなされる信頼性解析は、言われた各数字
に、トレーニングした話し手による各数字のモデルへの
類似度の得点を割り当てることにより、達成される。こ
こに、大きな得点はよい相関を示し、小さな得点は悪い
相関を示す。このアプローチは、その言われた音声の各
モデルとの類似度を表す、それぞれの言われた数字につ
いての信頼度値ベクトルを生成する。
【0042】発明者らの知見によれば、2番目に近い近
似の信頼度値の大きさの方がはるかに小さい場合は、も
っとも近い近似値の信頼度値についてのオプションが正
しい選択である可能性が最も高い。したがって、これら
二つの近似値の得点の差の関数が、話したことの翻訳の
「最善の」選択が実際に「正しい」選択であるかどうか
を判断する上で使用される。信頼度レベルの判定は、他
の種々の方法によってもできる。それらの方法はいずれ
も、正しそうなことばをより正しくなさそうなことばか
ら識別するために、ASRシステムから特定のデータを
使用する。
【0043】このような観点から、一つの誤り率を、a
%よりも少ない誤りを含むものの数をx%(あまり誤り
が多くないと見られる一群)、b%よりも多くc%より
も少ない誤りを含むものの数をy%(もっと誤りが多い
と見られる一群)、c%よりも多い誤りを含むものの数
がz%(正しくなさそうであると見られる一群)をそれ
ぞれ含むことから見ることができる。ASRシステムお
よび既知のことばのサンプルを用いた実験により、x,
y,z,a,b,cの値を具体的に決定することができ
る。
【0044】音声言語認識作業の結果として二つの可能
性のある相対的近似値は別の方法により区別することが
できる。得点の比または直線的の差が使用できるかもし
れないし、また、より複雑な関数が使えるかもしれな
い。最適な「近似値」の具体的な決定は、その使われて
いるモデルおよびその近似度を計算するアルゴリズムに
依存する。他の変数が含まれることもありうる。
【0045】本発明によれば、同じユーザの前回の検証
の試行において成功した確率などの詳しい履歴を用い
て、ASR処理を、そしてASRシステムがユーザと対
応する方法を、動的に変化させ適合させることができ
る。なぜなら、ASRシステムのすべてのユーザが同じ
成功率レベルを経験するわけでもなく、また同じ信頼度
レベルを生成するわけでもないからである。
【0046】このシステムを記述するのに、「羊」と
「やぎ」のラベルを用いることができる。すなわち、こ
の処理がうまく働く一部の人々(すなわち「羊」)に使
用されるASR処理と、この処理がうまく働かない他の
一部の人々(すなわち「やぎ」)に使用されるASR処
理とは相違する。明らかに、ASRシステムが、ユーザ
インタフェースで、明示的な検証ステップを導入すると
き、やぎたちにとって、より少ない誤りの発生が許容さ
れるという点で、システムの特性が改善される。それと
同時に、余分な対応が導入されることにより、すべての
ユーザにとってインタフェースの質が低下し、しかも、
羊たち(彼らのことばは一般にそのシステムに理解され
る。)はそのステップをさほど必要としない。
【0047】履歴上の「成功度合い」を用いることによ
り、両方のタイプのユーザを受け入れることができる。
なぜならば、「成功度合い」により、羊になりそうなユ
ーザとやぎになりそうなユーザとを区別することができ
るからである。どの個人が「ASR羊」になりそうかの
判定または予測は、加入者ごとのサービスに関するAS
R処理が用いられるときに、一定期間に同じユーザが関
与する場合に可能である。そのようなサービスでは、一
人のユーザについて、そのASRシステムが高信頼度得
点をどれくらいの頻度でとるか、および/または特定の
ユーザがどれくらいの頻度で成功するかを、明示的な検
証をして、またはしないで、簡単に把握することができ
る。
【0048】継続的に高信頼度得点を受けるユーザ、お
よび/または継続的に成功するユーザは、「羊であると
みなされる」。このようなユーザに対しては、たとえ信
頼度レベルが「非常に高い」でないことがまれにあると
しても、検証ステップを省略することができる。実際、
ASRシステムが履歴上うまく働く人にとっては、中信
頼度レベルは、明示的な検証を飛ばし、図2および図3
のステップ207、208および211並びに/または
ステップ217、218および221を省略し、さら
に、図5のステップ413および415を省略できる。
【0049】成功度合いが高いユーザにとって、それら
のステップは、ステップ231または233が「低い」
信頼度レベルを生成したかまたはステップ405および
411の結果がともに否定的であったときにだけ実行さ
れる。履歴情報が得られない場合は、ユーザの過去の言
い方をASRと比較したり、認識がどの程度の頻度で成
功したかを把握することはできない。このような場合
は、たとえば、新しいユーザが、音声コマンドを用いて
コンピュータを操作する場合が該当する。
【0050】種々のクラスのユーザを区別するのに必要
な履歴情報は、図4のデータベース309に蓄積され、
一人の個人が音声言語処理ユニット301にアクセスす
ると、これに応じて取り出される。たとえば、ユーザ
は、自動番号識別(ANI)情報によって識別すること
ができる。このANI情報は、一つの電話機から呼を起
こすときに、起動スイッチに対して提示される。また、
他の実施例としては、ユーザを個人識別番号(PIN)
で識別することもできる。このPIN番号は、ASR処
理の一部としてユーザから提供される。
【0051】どちらの場合も、ANIまたはPINは、
特定のユーザが、処理を変更すべき相手であるか、また
もしそうであるならどのように変更すべきであるかを示
す情報を、データベースから取り出すためのキーとして
使用される。簡単に言うと、このようにしてシステム
は、そのユーザが羊であるかやぎであるかを判定する。
【0052】この発明について、3桁の市街局番と7桁
の個人番号の二つの部分からなる10桁の電話番号を指
定する模擬試験を行った。AT&Tコンヴァーサントシ
ステム上でASRを使用した。この実験で、ユーザイン
タフェースを改善するために数字列候補の信頼度を使っ
た。そのため、第1の数字列候補が、第2の数字列候補
よりもはるかに高い信頼度得点を得たときに、明示的検
証ステップは行わなかった。具体的には、あるAT&T
コンヴァーサントシステムでは、最大4個の数字列候補
の各々について1ないし1,000,000の信頼度値を割り当て
た。最も信頼度値の高い候補は「第1候補」と呼び、2
番目に信頼度値の高い候補は「第2候補」と呼んだ。以
下同様である。
【0053】このシステムは、ASR結果における信頼
度レベルを判定するために、第1候補と第2候補の信頼
度レベルの差を計算し、この得られた差を全体処理を調
整するために使用した。すなわちこの差の値に基づい
て、どの明示的検証の要求を出し、またその処理のうち
のどのステップを省略するかを判定した。第1候補と第
2候補との差が6000よりも大きい場合、信頼度は、
その処理を変えて明示的検証ステップを省略してもよい
ほど十分に高いとみなした。信頼度得点の差が6000
よりも小さい処理では、次のような対話がなされた。こ
こに、Sはシステムプロンプト(システムからのユーザ
入力の催促)を表し、Uはユーザ入力を表す。
【0054】S:あなたが電話したい相手の市外局番だ
けを言ってください。 U:9、0、8。 S:あなたは、9、0、8と言いましたか? U:はい。 S:今度は、あなたが電話したい相手の7桁の電話番号
を言ってください。 U:9、4、9、6、5、1、0 S:あなたは、9、4、9、6、5、1、0と言いまし
たか? U:はい。 S:ありがとうございました…。
【0055】一方、信頼度得点の差が6000よりも大
きい場合は、次のような対話が行われた。 S:あなたが電話したい相手の市外局番だけを言ってく
ださい。 U:9、0、8。 S:今度は、あなたが電話したい相手の7桁の電話番号
を言ってください。 U:9、4、9、6、5、1、0 S:ありがとうございました…。
【0056】収集されたASR動作と選択のデータによ
れば、信頼度得点を検証処理に適用するために動的に使
用するユーザインタフェースの方が従来のユーザインタ
フェースよりもよいということが示された。電話番号処
理を完結する平均時間は、25%短縮された。ユーザ
は、信頼度得点を利用するシステムの方を好んだ。そし
て、「間違い番号」電話の比率は増大しなかった。信頼
度得点に基づいて、他の処理の調整についても同様のこ
とがわかった。
【0057】ASRサンプルの処理におけるユーザイン
タフェースを決定する場合の成功度合いとして履歴デー
タを使用することについては、二つのユーザグループに
分けた。羊とみなされる第1のグループは、(32回の
ASR試行を行ったうちで)少なくとも60%の高い信
頼度で認識装置が認識可能なユーザとして定義した。ま
た、やぎとみなされる他のグループは、残りのユーザと
した。それぞれのユーザグループについて、全体ASR
正確度を、ASRシステムが「高信頼度」(信頼度得点
差>6000として定義される。)を示したそれらの処
理の正確度と比較した。
【0058】全体ASR動作の成功率は83.8%であ
った。しかし、ASR信頼度が高い処理だけを考える
と、成功率は97.5%だった。すなわち、これらの場
合は、前述のように、ユーザに結果を確認させる必要が
ほとんどなかったということがわかる。しかし、認識正
確度は、「高信頼度処理」中の、ASRが羊とみなされ
るユーザについてだけ、考慮されうる。データによれ
ば、これらのユーザについては、ASRシステムは、4
07回の試行に対して406回の成功となり、99.8
%というきわめて高い性能を示した。
【0059】簡単にいうと、これらの実験は、一部のユ
ーザに対して、ASRシステムは高い信頼度となること
が多いということを示した。そのようなユーザ個人にと
っては、信頼度が高いとき、そのASRシステムはほと
んどいつも正しい。これらの羊とみなされるユーザを特
定できる場合は、最適ASRユーザインタフェースは、
速い、すなわち操作員と話すよりも速い処理の完結を許
容するユーザインタフェースとして定義される。このた
めには、ASRシステム信頼度得点に基づいて、および
/または加入者の述べたASR動作またはシステム使用
歴に基づいて、実時間電話呼出フローの決定をすること
が求められる。
【0060】しかし、一般的に、ユーザインタフェース
は、やぎと羊の必要事項の相違を認識しなければならな
い。従来のほとんどのシステムはやぎに対してだけ最適
化されているが、一方、羊とやぎ双方に対して呼出の流
れを最適化することが可能である。
【0061】
【発明の効果】本発明によれば、ASRシステムの動作
の結果の信頼度すなわち「確かさレベル」に応じて、ま
た、誤りを犯した結果と、ユーザが検証要求に応答およ
び/またはその情報を再入力することとの困難性を詳し
く解析して、種類の異なる動作を決定することにした。
これにより、システムに対するユーザインタフェースが
改善され、ユーザは、真に必要なときだけ、音声入力の
再入力または検証を要求される。
【図面の簡単な説明】
【図1】従来の自動音声言語認識(ASR)システムに
おいて、人が音声入力による電話番号ダイヤルを行うと
きの手順を示すフローチャート。
【図2】音声入力により電話番号をダイヤルする人に対
して応答するための、本発明による自動音声言語認識シ
ステムにおける手順を示すフローチャートの上半部分。
【図3】音声入力により電話番号をダイヤルする人に対
して応答するための、本発明による自動音声言語認識シ
ステムにおける手順を示すフローチャートの下半部
分。。
【図4】図2および図3に示す処理に代表される動的ユ
ーザインタフェース処理を実行するための音声処理ユニ
ットのためのブロック図。
【図5】本発明に係る自動音声言語認識システムにおい
て3種類の信頼性レベルの3種類の出力結果を出す手順
を示すフローチャート。
【符号の説明】
301 音声言語処理ユニット 303 中央処理ユニット(CPU) 305 自動音声言語認識(ASR)モジュール 307 音声言語発生器 309 データベース 311 通信インタフェース 313 コモンバス 315 トランク(外線)
フロントページの続き (72)発明者 マックス エス. ショエフラー アメリカ合衆国、07747 ニュージャージ ー、マタワン、ケンウッド レイン 17

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 音声入力を受け取り自動音声言語認識を
    行うシステムのユーザインタフェースに適応するシステ
    ムにおいて、 音声を受け取る手段と、 前記音声の翻訳を作成しその翻訳の信頼度レベルを判定
    するべく、自動音声言語認識を用いて前記音声を処理す
    る手段と、 ユーザから要求された、前記信頼度レベルの関数として
    の、前記翻訳の検証を選択的に適応させる手段と、 を具備することを特徴とするシステム。
  2. 【請求項2】 前記処理する手段は、それぞれに第1お
    よび第2の信頼度値を有する、前記音声についての少な
    くとも第1および第2の翻訳を決定するものであり、 前記信頼度レベルは、前記第1および第2の信頼度値の
    相対的大きさの関数として決定されること、 を特徴とする請求項1のシステム。
  3. 【請求項3】 そのシステムのそれぞれのユーザに対し
    て、そのシステムの過去の使用の関数として、成功度合
    いを表す情報を蓄積する手段と、 その蓄積する手段から情報を取り出し、前記成功度合い
    の値の関数として前記ユーザインタフェースを適用する
    手段と、 をさらに具備することを特徴とする請求項1のシステ
    ム。
  4. 【請求項4】 前記成功度合いは、そのシステムの前記
    それぞれのユーザについての過去の成功率を含むこと、 を特徴とする請求項3のシステム。
  5. 【請求項5】 前記成功度合いは、前記それぞれのユー
    ザについての、自動音声言語認識翻訳に関する過去の信
    頼度値を含むこと、 を特徴とする請求項3のシステム。
  6. 【請求項6】 前記システムは、前記成功度合いを、ユ
    ーザに依存するしきい値と比較すること、 を特徴とする請求項3のシステム。
  7. 【請求項7】 前記適応する手段は、前記翻訳における
    誤りの結果の関数として前記検証を適応すること、 を特徴とする請求項1のシステム。
  8. 【請求項8】 ユーザの話したことばの少なくとも第1
    および第2の翻訳と、それらの翻訳それぞれの第1およ
    び第2の信頼度値とを作成する手段と、 前記話したことばの正確な表示として前記第1の翻訳を
    受け入れる前に、前記ユーザに、前記第1および第2の
    信頼度値の相対的大きさに応じて、その第1の翻訳の検
    証を促す手段と、 を具備することを特徴とする自動音声言語認識システ
    ム。
  9. 【請求項9】 前記第1の翻訳を含む情報をもって前記
    ユーザを促す手段をさらに具備することを特徴とする請
    求項8のシステム。
  10. 【請求項10】 ユーザの話したことばの翻訳およびそ
    の翻訳の信頼度値を作成する手段と、 前記信頼度値の相対的大きさに応じて、(a)前記話し
    たことばの正確な表示として前記翻訳を受け入れる前
    に、前記ユーザに、その翻訳の検証を要求するか、また
    は、(b)前記話したことばの正確な表示として、前記
    翻訳を検証することなく受け入れる、インタフェース手
    段と、 を具備することを特徴とする自動音声言語認識システ
    ム。
  11. 【請求項11】 前記ユーザの話したことばを翻訳する
    に当たってのそのシステムの過去の成功を表す情報を蓄
    積する手段と、 前記蓄積された情報に応じて、前記ユーザインタフェー
    ス手段を制御する手段と、 をさらに具備すること特徴とする請求項10のシステ
    ム。
  12. 【請求項12】 音声言語を受け入れ、自動音声言語認
    識を行うシステムのユーザインタフェースを適用する方
    法において、 話したことばを受け取るステップと、 その話したことばの翻訳を作成し、その翻訳の信頼度レ
    ベルを決定するように、自動音声言語認識を用いてその
    話したことばを処理するステップと、 ユーザから要求される、前記信頼度レベルの関数として
    の、前記翻訳の検証を、選択的に適用するステップと、 を具備することを特徴とする方法。
  13. 【請求項13】 前記処理するステップは、 それぞれ、第1と第2の信頼度値をもつ前記話したこと
    ばについての少なくとも第1と第2の翻訳を決定するス
    テップと、 前記第1および第2の信頼度値の関数として信頼度レベ
    ルを決定するステップと、 を具備することを特徴とする請求項12の方法。
  14. 【請求項14】 前記システムの各ユーザについての、
    そのシステムの過去の使用の関数として計算された成功
    度合いを表す情報を蓄積するステップと、 情報を取り出し、ユーザインタフェースを前記成功度合
    いの値の関数に変えるステップと、 をさらに具備することを特徴とする請求項12の方法。
  15. 【請求項15】 前記成功度合いは、その方法の各ユー
    ザについての過去の成功率を含むことを特徴とする請求
    項14の方法。
  16. 【請求項16】 前記成功度合いは、各ユーザについて
    の自動音声言語認識の翻訳に関する過去の信頼度値を含
    むことを特徴とする請求項14の方法。
  17. 【請求項17】 前記成功度合いをユーザに依存するし
    きい値と比較するステップを含むことを特徴とする請求
    項14の方法。
  18. 【請求項18】 ユーザの話したことばの少なくとも第
    1および第2の翻訳と、それら翻訳それぞれの第1およ
    び第2の信頼度値とを作成するステップと、 前記第1および第2の信頼度値の相対値に応じて、前記
    第1の翻訳を前記話したことばの正確な表示として受け
    入れる前に、前記第1の翻訳を前記ユーザに検証するよ
    うに促すステップと、 を具備することを特徴とする自動音声言語認識方法。
  19. 【請求項19】 前記第1の翻訳を含む情報で前記ユー
    ザに促すステップをさらに含むことを特徴とする請求項
    18の方法。
  20. 【請求項20】 ユーザの話したことばの翻訳とその翻
    訳の信頼度値とを作成するステップと、 その信頼度値の大きさに応じて、(a)前記話したこと
    ばの正確な表示として前記翻訳を受け入れる前にその翻
    訳をユーザに検証するよう要求するか、(b)検証無し
    に、前記話したことばの正確な表示として前記翻訳を受
    け入れるか、または、(c)前記翻訳を拒否し、ユーザ
    に新しい話ことばを要求するか、をすることにより、ユ
    ーザインタフェースの動作を適応するステップと、 を具備することを特徴とする、自動音声言語認識システ
    ムの運用方法。
  21. 【請求項21】 前記ユーザの話したことばを翻訳する
    場合の前記システムの過去の成功を表す情報を蓄積する
    ステップと、 その蓄積された情報に応じて前記ユーザインタフェース
    を適応するステップとを具備することを特徴とする請求
    項20の方法。
JP6284571A 1993-10-27 1994-10-26 信頼性評価を用いた自動音声言語認識処理 Pending JPH07181994A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US144065 1993-10-27
US08/144,065 US5566272A (en) 1993-10-27 1993-10-27 Automatic speech recognition (ASR) processing using confidence measures

Publications (1)

Publication Number Publication Date
JPH07181994A true JPH07181994A (ja) 1995-07-21

Family

ID=22506897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6284571A Pending JPH07181994A (ja) 1993-10-27 1994-10-26 信頼性評価を用いた自動音声言語認識処理

Country Status (5)

Country Link
US (1) US5566272A (ja)
EP (1) EP0651372A3 (ja)
JP (1) JPH07181994A (ja)
CN (1) CN1115902A (ja)
CA (1) CA2131600C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1175044A (ja) * 1997-08-27 1999-03-16 Casio Comput Co Ltd 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5828997A (en) * 1995-06-07 1998-10-27 Sensimetrics Corporation Content analyzer mixing inverse-direction-probability-weighted noise to input signal
US6911916B1 (en) 1996-06-24 2005-06-28 The Cleveland Clinic Foundation Method and apparatus for accessing medical data over a network
US6496099B2 (en) * 1996-06-24 2002-12-17 Computer Motion, Inc. General purpose distributed operating room control system
US6642836B1 (en) 1996-08-06 2003-11-04 Computer Motion, Inc. General purpose distributed operating room control system
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6094476A (en) 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method
EP1021804A4 (en) 1997-05-06 2002-03-20 Speechworks Int Inc SYSTEM AND METHOD FOR DEVELOPING INTERACTIVE LANGUAGE APPLICATIONS
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
FR2769118B1 (fr) * 1997-09-29 1999-12-03 Matra Communication Procede de reconnaissance de parole
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
DE69923429D1 (de) * 1998-09-11 2005-03-03 Philips Intellectual Property Verfahren zur fehlerkorrektur zur erkennung einer benutzereingabe durch bestimmung der zuverlässigkeit einer begrenzten zahl von hypothesen
DE19842405A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Spracherkennungsverfahren mit Konfidenzmaßbewertung
WO2000018100A2 (en) * 1998-09-24 2000-03-30 Crossmedia Networks Corporation Interactive voice dialog application platform and methods for using the same
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
US6224383B1 (en) 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US6584439B1 (en) 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
EP1058236B1 (en) * 1999-05-31 2007-03-07 Nippon Telegraph and Telephone Corporation Speech recognition based database query system
JP3990075B2 (ja) * 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
US6667860B1 (en) 1999-10-05 2003-12-23 Seagate Technology Llc Integrated, on-board device and method for the protection of magnetoresistive heads from electrostatic discharge
US6539353B1 (en) 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US6807574B1 (en) 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US7941481B1 (en) 1999-10-22 2011-05-10 Tellme Networks, Inc. Updating an electronic phonebook over electronic communication networks
EP1100242A3 (de) * 1999-11-12 2004-10-13 Siemens AG Österreich Verfahren zur dialoggesteuerten Bedienung elektronischer Geräte
US6591239B1 (en) 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
WO2002009093A1 (en) * 2000-07-20 2002-01-31 Koninklijke Philips Electronics N.V. Feedback of recognized command confidence level
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
JP3567864B2 (ja) * 2000-07-21 2004-09-22 株式会社デンソー 音声認識装置及び記録媒体
US7308408B1 (en) 2000-07-24 2007-12-11 Microsoft Corporation Providing services for an information processing system using an audio interface
US7143039B1 (en) * 2000-08-11 2006-11-28 Tellme Networks, Inc. Providing menu and other services for an information processing system using a telephone or other audio interface
JP4486235B2 (ja) * 2000-08-31 2010-06-23 パイオニア株式会社 音声認識装置
EP1332605A4 (en) * 2000-10-16 2004-10-06 Eliza Corp METHOD AND SYSTEM FOR PROVIDING ADAPTIVE RESPONDENT TRAINING IN A VOICE RECOGNITION APPLICATION
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
EP1207517B1 (en) * 2000-11-16 2007-01-03 Sony Deutschland GmbH Method for recognizing speech
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
AUPR578801A0 (en) * 2001-06-19 2001-07-12 Syrinx Speech Systems Pty Limited Language assisted recognition module
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
JP4145796B2 (ja) * 2001-10-31 2008-09-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム
US6791529B2 (en) * 2001-12-13 2004-09-14 Koninklijke Philips Electronics N.V. UI with graphics-assisted voice control system
US6772118B2 (en) * 2002-01-04 2004-08-03 General Motors Corporation Automated speech recognition filter
US7003458B2 (en) * 2002-01-15 2006-02-21 General Motors Corporation Automated voice pattern filter
US7218839B2 (en) * 2002-02-11 2007-05-15 Scientific-Atlanta, Inc. Management of television presentation recordings
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
EP1377000B1 (en) * 2002-06-11 2009-04-22 Swisscom (Schweiz) AG Method used in a speech-enabled automatic directory system
JP3726783B2 (ja) * 2002-07-16 2005-12-14 株式会社デンソー 音声認識装置
US7243071B1 (en) 2003-01-16 2007-07-10 Comverse, Inc. Speech-recognition grammar analysis
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
US6983244B2 (en) * 2003-08-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for improved speech recognition with supplementary information
DE10341305A1 (de) * 2003-09-05 2005-03-31 Daimlerchrysler Ag Intelligente Nutzeradaption bei Dialogsystemen
US20050109052A1 (en) * 2003-09-30 2005-05-26 Albers Walter F. Systems and methods for conditioning air and transferring heat and mass between airflows
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) * 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
GB0426347D0 (en) 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
EP1734509A1 (en) * 2005-06-17 2006-12-20 Harman Becker Automotive Systems GmbH Method and system for speech recognition
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
JP4887911B2 (ja) * 2006-05-31 2012-02-29 船井電機株式会社 電子機器
CN101118745B (zh) * 2006-08-04 2011-01-19 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition
US8599704B2 (en) 2007-01-23 2013-12-03 Microsoft Corporation Assessing gateway quality using audio systems
US8090077B2 (en) * 2007-04-02 2012-01-03 Microsoft Corporation Testing acoustic echo cancellation and interference in VoIP telephones
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
US20090098920A1 (en) * 2007-10-10 2009-04-16 Waterleaf Limited Method and System for Auditing and Verifying User Spoken Instructions for an Electronic Casino Game
EP2081185B1 (en) 2008-01-16 2014-11-26 Nuance Communications, Inc. Speech recognition on large lists using fragments
US8868424B1 (en) * 2008-02-08 2014-10-21 West Corporation Interactive voice response data collection object framework, vertical benchmarking, and bootstrapping engine
EP2221806B1 (en) 2009-02-19 2013-07-17 Nuance Communications, Inc. Speech recognition of a list entry
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US20120123807A1 (en) * 2010-10-25 2012-05-17 The Travelers Companies, Inc. Systems, methods, and apparatus for enterprise billing and accounts receivable
US8738375B2 (en) 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US9396725B2 (en) 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
TWI466101B (zh) * 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
US9269349B2 (en) * 2012-05-24 2016-02-23 Nuance Communications, Inc. Automatic methods to predict error rates and detect performance degradation
IN2013DE00428A (ja) * 2013-02-14 2015-06-19 Alcatel Lucent
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
DE102014109122A1 (de) * 2013-07-12 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10147414B1 (en) * 2014-05-15 2018-12-04 Namecoach, Inc Link-based audio-recording, collection, collaboration, embedding and delivery system
US9418679B2 (en) 2014-08-12 2016-08-16 Honeywell International Inc. Methods and apparatus for interpreting received speech data using speech recognition
CN105551485B (zh) * 2015-11-30 2020-04-21 讯飞智元信息科技有限公司 语音文件检索方法及系统
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN109643544A (zh) * 2016-08-26 2019-04-16 索尼公司 信息处理装置和信息处理方法
EP3596727B1 (en) * 2017-05-15 2022-04-13 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
KR102338618B1 (ko) * 2017-07-25 2021-12-10 삼성에스디에스 주식회사 휴먼 에이전트에 의하여 보조 되는 무인 대화 서비스 제공 방법
US20190172453A1 (en) * 2017-12-06 2019-06-06 GM Global Technology Operations LLC Seamless advisor engagement
US11138334B1 (en) 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
CN109817210B (zh) * 2019-02-12 2021-08-17 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11107475B2 (en) 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
CN112003991A (zh) * 2020-09-02 2020-11-27 深圳壹账通智能科技有限公司 一种外呼方法及相关设备
US11587568B2 (en) * 2020-12-08 2023-02-21 Google Llc Streaming action fulfillment based on partial hypotheses
KR102487323B1 (ko) * 2021-01-14 2023-01-11 가톨릭대학교 산학협력단 하이브리드 기법을 적용한 소음하 숫자 기반 청력 검사 방법 및 청력 검사 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4922519A (en) * 1986-05-07 1990-05-01 American Telephone And Telegraph Company Automated operator assistance calls with voice processing
US4827500A (en) * 1987-01-30 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Automatic speech recognition to select among call destinations
US5033088A (en) * 1988-06-06 1991-07-16 Voice Processing Corp. Method and apparatus for effectively receiving voice input to a voice recognition system
JP2964518B2 (ja) * 1990-01-30 1999-10-18 日本電気株式会社 音声制御方式
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5305244B2 (en) * 1992-04-06 1997-09-23 Computer Products & Services I Hands-free user-supported portable computer
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1175044A (ja) * 1997-08-27 1999-03-16 Casio Comput Co Ltd 画像中継伝送方法、音声中継伝送方法、画像中継伝送装置及び音声中継伝送装置

Also Published As

Publication number Publication date
EP0651372A3 (en) 1997-06-04
US5566272A (en) 1996-10-15
CN1115902A (zh) 1996-01-31
EP0651372A2 (en) 1995-05-03
CA2131600A1 (en) 1995-04-28
CA2131600C (en) 1998-04-28

Similar Documents

Publication Publication Date Title
JPH07181994A (ja) 信頼性評価を用いた自動音声言語認識処理
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
EP0953972B1 (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
US7440893B1 (en) Automated dialog method with first and second thresholds for adapted dialog strategy
EP0890249B1 (en) Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US6081782A (en) Voice command control and verification system
US5917890A (en) Disambiguation of alphabetic characters in an automated call processing environment
US6012027A (en) Criteria for usable repetitions of an utterance during speech reference enrollment
US6671672B1 (en) Voice authentication system having cognitive recall mechanism for password verification
US5297194A (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
EP0746846B1 (en) Voice-controlled account access over a telephone network
US5752231A (en) Method and system for performing speaker verification on a spoken utterance
US7630895B2 (en) Speaker verification method
EP0762709A2 (en) Method and system for enrolling addresses in a speech recognition database
EP1164576A1 (en) Speaker authentication method and system from speech models
JPH10207486A (ja) 対話型音声認識方法およびこの方法を実施する装置
JPS6338996A (ja) 音声認識制御方式
KR100230972B1 (ko) 전전자교환기의 화자종속 음성인식서비스 장치 및 방법
CA2365302A1 (en) Method of recognizing alphanumeric strings spoken over a telephone network
MXPA97003425A (en) System and automated method of calling telephone