JPH07181994A

JPH07181994A - 信頼性評価を用いた自動音声言語認識処理

Info

Publication number: JPH07181994A
Application number: JP6284571A
Authority: JP
Inventors: Douglas J Brems; ジェイ．ブレムズダグラス; Max S Schoeffler; エス．ショエフラーマックス
Original assignee: American Telephone and Telegraph Co Inc; AT&T Corp
Current assignee: AT&T Corp
Priority date: 1993-10-27
Filing date: 1994-10-26
Publication date: 1995-07-21
Also published as: EP0651372A3; CA2131600A1; CN1115902A; EP0651372A2; CA2131600C; US5566272A

Abstract

(57)【要約】【構成】自動音声言語認識（ＡＳＲ）技術を用いたシ
ステムのユーザインタフェースにおいて、ＡＳＲ処理の
結果における信頼度レベルに基づいてユーザごとに異な
る取扱いを行う。さらに、そのユーザについての履歴の
みならず、翻訳（解釈）ミスの場合の「影響度（結
果）」にも基づいて、異なった取扱いをすることができ
る。【効果】ユーザは、真に必要なときだけ、音声入力の
再入力または検証を要求され、システムに対するユーザ
インタフェースが改善される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、自動音声言語認識
（ＡＳＲ）に関する。特に、一人の個人の音声入力のＡ
ＳＲ翻訳の信頼性評価が計算され、その個人に適した処
理に選択的に変換するためにその信頼性評価が使用され
るような、ＡＳＲを使用するシステムにおいて提供され
るユーザインタフェース処理に関する。

【０００２】

【従来の技術】ＡＳＲシステムは、種々の応用分野に受
け入れられ始めている。1989年5月2日にビンカード(Bin
kerd)らに対して発行された米国特許4,827,500号には、
ＡＳＲ能力を持つ音声応答ユニットにより呼出側が応答
を行う「呼の到達先を選択するための自動音声言語認
識」の技術が開示されている。このようなシステムは、
音声入力を要求するか、またはユーザに対して選択メニ
ューを提示して音声による応答を待ち、その応答をＡＳ
Ｒを用いて解釈（翻訳）し、その要求された動作を実行
する。これらはすべて人間に干渉されずに行われる。

【０００３】ＡＳＲを用いたシステムへのユーザインタ
フェースを設計するに当たっては、認識誤りの可能性の
扱いが重要になる。ＡＳＲシステムが、話されたことば
を解釈する場合は常に、その話されたことばと解釈との
対応関係に幾分かの不確実性が残るということがわかっ
ているからである。この問題は、数字列の入力の場合、
たとえば、呼出側から電話番号またはクレジットカード
番号が話されるシステムなどの場合に、特に重要であ
る。一つの数字列（場合によっては数字列の一部分）に
ついての全体精度がわずか８５ないし９０％であること
も珍しくないからである。

【０００４】潜在的誤りを取り扱うために、今日のシス
テムは、不正確な数字列を処理する可能性を避けるため
に、誤り率が問題になるような場合には、すべての処理
について何らかの明示的な確認手段を講ずる。たとえ
ば、各連続数字列の入力の後に、ＡＳＲシステムは、最
善の数字列候補を読み返し、このシステムのユーザ自身
に対して、肯定または否定の回答を要求する。たとえ
ば、「あなたのクレジットカード番号がＸＸＸ−ＹＹＹ
Ｙでしたら『はい』と、そうでなかったら『いいえ』と
言ってください。」のように言う。このような明示的な
確認は、必要でありかつ有用である場合も多い。

【０００５】

【発明が解決しようとする課題】特に、ＡＳＲシステム
を頻繁に使うユーザにとって、またはそのユーザに対し
てはＡＳＲシステムの信頼度が高いようなユーザにとっ
て、厄介で時間の浪費であり、めんどうである。他のシ
ステムでは、前の要求を認識することができなかった場
合、ユーザに、音声による要求を再度入力するように求
めるものもあった。しかし、認識することができた場合
は、固定的検証が行われる。本発明は、かかる課題を解
決することを目的としている。

【０００６】

【課題を解決するための手段】本発明によれば、自動音
声言語認識（ＡＳＲ）技術を用いたシステムのユーザイ
ンタフェースにおいて、ＡＳＲ処理の結果における信頼
度レベルに基づいてユーザごとに異なる取扱い（動的処
理）を行う。

【０００７】発明の一態様では、ＡＳＲシステムの出力
の信頼度レベルを用いて、話されたことばのＡＳＲ翻訳
について、正確度の高いものと誤りが多いものとを識別
する。信頼度は、ＡＳＲシステムにより選択された第１
および第２の選択についての近似度得点（後述）の差の
関数として定義できる。この態様のユーザインタフェー
スでは、信頼度が低いときと信頼度が高いときとで、明
示的検証ステップの取り方が相違する。さらに、そのユ
ーザについてのそのシステムに関する過去の履歴のみな
らず、翻訳（解釈）ミスの場合の「影響度（結果）」に
も基づいて、異なった取扱いをすることができる。

【０００８】本発明の他の態様によれば、ＡＳＲシステ
ムが一つのことばを翻訳した後、その翻訳の信頼度を評
価し、そのユーザについて３種類の対応がありうる。

【０００９】たとえばＡＳＲシステムを数字の認識に用
いた場合、言われた各数字と、そのＡＳＲシステムがト
レーニングされた各数字モデルとの間の、近似度の得点
を割り当てることにより、翻訳の信頼度を判定すること
ができる。ここに、大きな得点はよい相関を表す。この
ようにして、言われた各ことばについて、そのことばの
各モデルとの近似度を表すベクトルが作成される。最も
近いモデルについての近似度得点が２番目に近いモデル
の近似度得点よりもはるかに高い場合、高い信頼度があ
ると言われる。これは、その翻訳が他の翻訳よりもはる
かに良いということを意味する。

【００１０】

【作用】本発明によれば、ＡＳＲシステムの動作の結果
の信頼度すなわち「確かさレベル」に応じて、また、誤
りを犯した結果と、ユーザが検証要求に応答および／ま
たはその情報を再入力することとの困難性を詳しく解析
して、種類の異なる動作を決定することにした。これに
より、システムに対するユーザインタフェースが改善さ
れ、ユーザは、真に必要なときだけ、音声入力の再入力
または検証を要求される。

【００１１】

【実施例】図１は、従来の自動音声言語認識（ＡＳＲ）
システムによる処理のフローチャートを示す。この例に
おいて、人間が音声入力により電話番号をダイヤルする
と、ＡＳＲシステムが、その人の音声を翻訳（解釈）
し、そのＡＳＲシステムから得られた翻訳に応じて電話
の呼がなされるようにする。具体的には、１０桁の電話
番号（３桁の市外局番とそれに続く７桁の個別電話番
号）をダイヤルする場合の処理が記載されている。

【００１２】図１の処理は、一つの呼が、図４に関連し
て後に述べる音声言語処理プラットフォームに接続され
たときに、ステップ１０１で始まる。このプラットフォ
ームは、音声プロンプトを提供し、音声言語入力を受け
取り、ＡＳＲ技術を用いて音声言語を解釈することがで
きるように構成されている。ステップ１０３で、ユーザ
は、電話の呼出しを行うための市外局番を入力するよう
にと、音声アナウンスで促される（プロンプトを受け
る）。これに対してユーザはステップ１０５で、３桁の
数字を音声で入力する。

【００１３】ステップ１０６では、周知のＡＳＲ処理が
行われ、呼側から言われた数字を決定する。一般に、Ａ
ＳＲ処理によってなされる翻訳は、たとえば、ユーザに
より音声入力されたことばと蓄積されたことばのサンプ
ルとの比較によるものでよい。しかし、ＡＳＲシステム
は、数種類の周知の言語認識プロセスのうちのどれを用
いるものでもよい。

【００１４】ステップ１０６で３桁の市外局番が認識さ
れた後、ステップ１０７で、認識された数字がステップ
１０５でユーザが言った数字と同じであることを明示的
に検証（確認）するように、システムから呼側に要求す
る。ステップ１０８で、ユーザは「はい」または「いい
え」で回答し、システム側は、その回答に応じて、分岐
ステップ１１１で異なる動作をとる。ステップ１０８で
「はい」の回答を得た場合は、初めの３桁の数字が正し
く認識されたことを意味し、次のステップ１１３へ進
み、ユーザは電話番号の残りの７桁の数字を言うよう促
される。

【００１５】ステップ１１５でユーザはこの７桁の数を
言い、ステップ１１６で、再びＡＳＲ処理を用いてステ
ップ１０６と同様に、呼側が言った数字の決定がなされ
る。次に、ステップ１１７で、呼側は、認識された数字
が、ステップ１１５で言われた数字と同じであることを
明示的に確認することを要求される。ステップ１１９で
「はい」と言われた場合、分岐ステップ１２１で肯定的
応答が認識され、ステップ１２３で、認識された１０個
の数字全部を用いて、すべての処理が完結される。

【００１６】ステップ１０８またはステップ１１９で呼
側から否定的な応答があった場合は、分岐ステップ１１
１または１２１で、それぞれステップ１２５または１２
７へ制御が移る。ステップ１２５および１２７では、す
でにあまりに多くの回数の失敗を犯したかどうかを判定
する。これは、たとえば、処理が始まるときにカウンタ
をゼロにし、ステップ１１１または１２１で「いいえ」
の回答があるごとにそのカウンタに１を加え、このカウ
ンタのカウントをあらかじめ定めたしきい値と比較する
ことによって達成できる。

【００１７】ステップ１２５または１２７で否定的回答
が示され、しかもしきい値をまだ越えていない場合、追
加の認識試行として、ステップ１０３〜１１１または１
１３〜１２１の処理が繰り返される。ステップ１２５ま
たは１２７で肯定的回答が示された場合、自動音声言語
認識が失敗したものであり、ステップ１２６または１２
８で、呼は、操作員に接続される。

【００１８】図１に示す処理は、どのユーザに対しても
同じ扱いをする。すなわち、ステップ１０６および１１
６で達成される音声言語認識の信頼性に関係なく、また
同じユーザによるこれまでの確認（検証）の試行につい
ての詳しい履歴にも関係なく、ユーザとシステムとの間
で同じ会話がなされる。本発明によれば、この厄介な固
定的アプローチが取り除かれる。ここでは、ステップ１
０６および１１６においてなされる音声言語認識に関し
て、信頼度レベルを用いた動的アプローチを行い、ユー
ザごとに取扱いを変える。

【００１９】図２および図３は、音声入力によって電話
番号をダイヤルしている人と応答する場合の、本発明に
係るＡＳＲシステムを用いる場合のフローチャートを示
す。この例では、前述の例と同じ発呼をなすものとす
る。すなわち、３桁の市外局番とその次の７桁の個人番
号からなる１０桁の電話番号をダイヤルする発呼をなす
ものとする。

【００２０】処理はステップ２０１で始まり、このとき
呼側は、上述の認識機能と同じ機能を持ち、その認識機
能についての信頼度レベルを表す指標を提供する音声言
語処理プラットフォームに接続される。信頼度レベルを
判定する方法の詳細は以下に述べる。自動音声言語認識
システムに関する信頼度評価値の作成の一つの例は、
Ｋ．Ｐ．アビラ(Avila)ら著「認識指標：単語診断への
統計的アプローチ」と題する記事（言語工学(Speech Te
chnology,Oct-Nov 1987,Vol.4,No.1,第６２頁〜第６７
頁）に開示されている。

【００２１】ステップ２０３では、ユーザは、その電話
の呼のために市外局番を入力するようにと、音声アナウ
ンスにより促される。これに応じてユーザは、ステップ
２０５で、３桁の市外局番を音声で入力する。ステップ
２０６では、自動音声言語認識（ＡＳＲ）処理が実行さ
れ、呼側が言った数字について判断される。前述の場合
と同様に、ＡＳＲ処理による翻訳は、通常、入力された
ことば（音声言語）と蓄積されたサンプルとの比較によ
り行う。ただし、このＡＳＲシステムにはさらに、この
認識に関する信頼度レベルを表す信頼度値を提供する機
能が追加されている。

【００２２】図２に示すように、ステップ２３１でなさ
れる信頼度解析の結果として、「高信頼度」と「中信頼
度」の結果がありうる。図５に関連して後述するよう
に、３種類以上の信頼度レベルを用いることも可能であ
り、また種々の信頼度レベルの定義も変わりうる。

【００２３】ステップ２３１で判定された信頼度レベル
が「中信頼度」である場合は、前述の場合とほとんど同
様に処理が続けられる。ステップ２０７で、システム
は、呼側に対して、認識された数字が、ステップ２０５
でユーザが言った数字と同じであることを、明示的に検
証するように求める。その後、ステップ２０８でユーザ
は「はい」または「いいえ」で回答し、そして、その回
答に応じて、分岐ステップ２１１では異なった動作には
いる。

【００２４】ステップ２０８で「はい」という答が得ら
れた場合、初めの３桁の数字は正しく認識されたことに
なり、ステップ２１３の処理が続けられる。ステップ２
１３では、ユーザは、電話番号の残りの７桁について入
力を促される。ステップ２１５で、ユーザはこの７桁の
数字を言い、ステップ２１６では、ステップ２０６と同
様にＡＳＲを用いて、呼側が言ったこの数字について判
断がなされる。しかしステップ２３１と同様に、このＡ
ＳＲシステムは、この認識に関して信頼度レベルの指標
を出すように設計されている。

【００２５】図３に示すように、ステップ２３３でなさ
れる信頼性解析の結果として、「高信頼度」と「中信頼
度」の２種類の結果がありうる。ステップ２３３で判定
された信頼度レベルが「中信頼度」である場合は、ステ
ップ２１７で、システムは呼側に対して、認識された数
字が、ステップ２１５でユーザが言った数字と同じであ
ることを、明示的に検証するように求める。ステップ２
１８で「はい」と言われた場合、分岐ステップ２２１で
肯定的応答が認識され、ステップ２２３で、認識された
１０桁の数字すべてを用いて処理が完結される。

【００２６】図１の場合とほぼ同様に、ステップ２０８
または２１８で呼側から受け取った応答が否定的である
場合は、分岐ステップ２１１または２２１で、それぞ
れ、ステップ２２５または２２７へ制御が移り、そこ
で、すでに失敗の回数が多すぎるかどうか判断される。
ステップ２２５または２２７で否定的答が示された場合
は、しきい値をまだ越えていないことを意味し、さらに
認識を試行するべく、ステップ２０３〜２１１またはス
テップ２１３〜２２１を実行することにより、処理を繰
り返すことができる。ステップ２２５または２２７で肯
定的答が示された場合、ＡＳＲは失敗したことになり、
この呼はステップ２２６または２２８で操作員に接続さ
れる。

【００２７】ステップ２３１または２３３でなされた信
頼度解析が、「高信頼度」の認識であることを示した場
合は、ユーザに対して異なる扱いがなされる。たとえば
初めの３桁の数字が高信頼度をもって認識された場合、
ステップ２０７、２０８および２１１は省略され、初め
の３桁の数字についての音声言語の認識において到達し
た判断は明示的に検証はしない。そして、次の７桁の数
字も高信頼度をもって認識された場合、ステップ２１
７、２１８および２２１は省略され、次の７桁の数字に
ついての音声言語の認識において到達した判断は明示的
に検証はしない。

【００２８】したがって、図２および図３に示す処理
は、ユーザとシステムとの間の対話を固定のものにしな
いという意味で、適応性に富むといえる。この対話は、
ステップ２０６と２１６において達成される言語認識の
信頼度レベルに依存する。

【００２９】図４に示すように、典型的な音声言語処理
ユニット３０１は、通信網との関連で使用されるように
配設される。これについては、たとえば、1991年5月1日
にＡ．Ｎ．ドーデリン(Daudelin)に対して発行された米
国特許4,922,519号の図１にも開示されている。音声言
語処理ユニット３０１には通信インタフェース３１１が
含まれ、通信インタフェース３１１はトランク（外線）
３１５を介して、この音声言語処理ユニットを３０１を
他のシステムの機器と接続する。

【００３０】通信インタフェース３１１およびトランク
３１５は複数同時双方向対話を支援することができ、し
たがって、いつでも、複数の呼を取り扱うことができ
る。音声言語処理ユニット３０１で実行される処理は中
央処理ユニット（ＣＰＵ）３０３によって制御され、Ｃ
ＰＵ３０３はたとえばデータベース３０９などのメモリ
に収容されたプログラムの制御のもとで作動する。音声
言語処理ユニット３０１の機能としては、（ａ）音声言
語発生器３０７を用いてユーザに音声アナウンスをする
機能、（ｂ）ユーザから受け取った音声を、自動音声言
語認識（ＡＳＲ）モジュール３０５を用いて翻訳（解
釈）する機能、を含む。

【００３１】音声言語発生器３０７からのアナウンスと
ＡＳＲモジュール３０５における認識動作とを連続して
行うことにより、本発明により動的に制御されるユーザ
インタフェースをなす。音声言語処理ユニットの各要素
は、コモンバス３１３を介して、通信インタフェース３
１１と、そしてまた互いに、接続されている。

【００３２】上述のように、ＡＳＲモジュール３０５か
らの出力は、ユーザから受け取った音声の翻訳みなら
ず、その翻訳の信頼度の指標をも含んでいる。後者の情
報はＣＰＵ３０３に与えられ、その信頼度レベルに基づ
いてユーザインタフェース処理は動的に適応可能であ
る。

【００３３】音声言語処理ユニット３０１は、ＡＴ＆Ｔ
社から言語認識パッケージ付きで市販されている「コン
ヴァーサント(Conversant)ＭＡＰ１００音声応答ユニッ
ト(Voice Response Unit)」を使用して実現できる。ま
た、データベース３０９に蓄積される制御ソフトウェア
は、「スクリプトビルダ」として知られている対話型ツ
ールを用いて生成することができる。しかし、図４に示
す音声言語処理ユニット３０１は単なる一例であって、
たとえば前述のドーデリン特許で引用されている文献に
記載されたものなど他の構成をとることもできる。

【００３４】また、図１、図２および図３で説明した処
理は電話の発呼に関して音声言語認識を使用するもので
あるが、音声言語認識は、たとえばユーザがコンピュー
タその他の機器と応対するときなどの「ローカルな」処
理にも使用できる。皿洗い機またはパーソナルコンピュ
ータは、装置内に自動音声言語認識ユニットを組み込む
ことにより、音声によるコマンド（命令）に応答させる
ことができる。

【００３５】本発明によれば、コンピュータは、たとえ
ば、音声による「フォーマット」というコマンドを認識
し、それに応じてディスクのフォーマッティングをする
ようにできる。フォーマッティングは、データの損失を
招く可能性もある重要な操作であるから、このコマンド
は、高信頼度をもって認識されたときにのみ実行され
る。

【００３６】信頼度レベルが中程度の場合は、ユーザ
は、「はい」というかまたはコマンドを繰り返すかによ
りそのコマンドを明示的に確認するように求められる。
信頼度レベルが低い場合は、ユーザは、そのコマンドを
キーボードにタイプすることを求められることもありう
る。そのようなローカルな装置においては、通信インタ
フェース３１１は、マイクロホンなどの音声入力機器
と、スピーカまたは表示パネルなどの出力機器とに接続
されることもある。

【００３７】図５は、異なるユーザインタフェース処理
による、本発明の他の実施例を示す。この実施例ではス
テップ４００で、ユーザは音声入力を促される。そし
て、ステップ４０１で、ＡＳＲモジュール３０５がユー
ザの言ったことばを翻訳する。その後ステップ４０３
で、その翻訳の信頼性が判断され、３段階のレベルに分
けられる。ユーザとの対応は各レベルに応じて相違して
くる。

【００３８】第１に、翻訳が正しいという可能性が非常
に高い場合は、ステップ４０５で肯定的結果に到達し、
誤りの可能性がわずかにはあるものの、ステップ４０７
で、明示的な確認無しにそのＡＳＲの翻訳を容認する。
そして、ステップ４０９で処理が完了する。

【００３９】第２に、不確実性が中程度のレベルの場
合、ステップ４１１で肯定的な結果になり、ステップ４
１３でユーザは、結果を明示的に確認（または否認）す
るように求められる。なぜなら、これによりユーザに情
報を（音声その他により）再入力させることができるか
らである。この結果が検証（確認）された場合は、ステ
ップ４１５で肯定的結果になり、ステップ４０９で処理
は完了する。結果が確認されない場合、ステップ４１５
で否定的な結果になり、ユーザは、ステップ４１７で判
断したときと同様に、これまでの失敗の回数が多すぎな
い場合は、ステップ４００から始まる処理を繰り返すこ
とを求められる。

【００４０】第３に、不確実性が大きく、かつ／または
翻訳ミスの結果が重大である場合は、ステップ４０５お
よび４１１の双方の結果は否定的になる。この場合は、
「翻訳失敗」として取り扱われ、その（恐らくは）まち
がった結果の明示的な確認を試行せずに、ユーザは「も
う一度やってください」という要求を受ける。これは、
ステップ４１７に示すように、すでにユーザが失敗した
回数が多すぎでない限り、ステップ４００で始まる処理
を繰り返すことで達成される。すでに失敗した回数が多
すぎとなっている場合は、図５の処理はステップ４１９
で終了し、そこで、電話をかけようとしている場合に
は、ユーザは、操作員に接続される。

【００４１】図２および図３のステップ２３１および２
３３でなされる信頼性解析並びに図５のステップ４０５
および４１１でなされる信頼性解析は、言われた各数字
に、トレーニングした話し手による各数字のモデルへの
類似度の得点を割り当てることにより、達成される。こ
こに、大きな得点はよい相関を示し、小さな得点は悪い
相関を示す。このアプローチは、その言われた音声の各
モデルとの類似度を表す、それぞれの言われた数字につ
いての信頼度値ベクトルを生成する。

【００４２】発明者らの知見によれば、２番目に近い近
似の信頼度値の大きさの方がはるかに小さい場合は、も
っとも近い近似値の信頼度値についてのオプションが正
しい選択である可能性が最も高い。したがって、これら
二つの近似値の得点の差の関数が、話したことの翻訳の
「最善の」選択が実際に「正しい」選択であるかどうか
を判断する上で使用される。信頼度レベルの判定は、他
の種々の方法によってもできる。それらの方法はいずれ
も、正しそうなことばをより正しくなさそうなことばか
ら識別するために、ＡＳＲシステムから特定のデータを
使用する。

【００４３】このような観点から、一つの誤り率を、ａ
％よりも少ない誤りを含むものの数をｘ％（あまり誤り
が多くないと見られる一群）、ｂ％よりも多くｃ％より
も少ない誤りを含むものの数をｙ％（もっと誤りが多い
と見られる一群）、ｃ％よりも多い誤りを含むものの数
がｚ％（正しくなさそうであると見られる一群）をそれ
ぞれ含むことから見ることができる。ＡＳＲシステムお
よび既知のことばのサンプルを用いた実験により、ｘ，
ｙ，ｚ，ａ，ｂ，ｃの値を具体的に決定することができ
る。

【００４４】音声言語認識作業の結果として二つの可能
性のある相対的近似値は別の方法により区別することが
できる。得点の比または直線的の差が使用できるかもし
れないし、また、より複雑な関数が使えるかもしれな
い。最適な「近似値」の具体的な決定は、その使われて
いるモデルおよびその近似度を計算するアルゴリズムに
依存する。他の変数が含まれることもありうる。

【００４５】本発明によれば、同じユーザの前回の検証
の試行において成功した確率などの詳しい履歴を用い
て、ＡＳＲ処理を、そしてＡＳＲシステムがユーザと対
応する方法を、動的に変化させ適合させることができ
る。なぜなら、ＡＳＲシステムのすべてのユーザが同じ
成功率レベルを経験するわけでもなく、また同じ信頼度
レベルを生成するわけでもないからである。

【００４６】このシステムを記述するのに、「羊」と
「やぎ」のラベルを用いることができる。すなわち、こ
の処理がうまく働く一部の人々（すなわち「羊」）に使
用されるＡＳＲ処理と、この処理がうまく働かない他の
一部の人々（すなわち「やぎ」）に使用されるＡＳＲ処
理とは相違する。明らかに、ＡＳＲシステムが、ユーザ
インタフェースで、明示的な検証ステップを導入すると
き、やぎたちにとって、より少ない誤りの発生が許容さ
れるという点で、システムの特性が改善される。それと
同時に、余分な対応が導入されることにより、すべての
ユーザにとってインタフェースの質が低下し、しかも、
羊たち（彼らのことばは一般にそのシステムに理解され
る。）はそのステップをさほど必要としない。

【００４７】履歴上の「成功度合い」を用いることによ
り、両方のタイプのユーザを受け入れることができる。
なぜならば、「成功度合い」により、羊になりそうなユ
ーザとやぎになりそうなユーザとを区別することができ
るからである。どの個人が「ＡＳＲ羊」になりそうかの
判定または予測は、加入者ごとのサービスに関するＡＳ
Ｒ処理が用いられるときに、一定期間に同じユーザが関
与する場合に可能である。そのようなサービスでは、一
人のユーザについて、そのＡＳＲシステムが高信頼度得
点をどれくらいの頻度でとるか、および／または特定の
ユーザがどれくらいの頻度で成功するかを、明示的な検
証をして、またはしないで、簡単に把握することができ
る。

【００４８】継続的に高信頼度得点を受けるユーザ、お
よび／または継続的に成功するユーザは、「羊であると
みなされる」。このようなユーザに対しては、たとえ信
頼度レベルが「非常に高い」でないことがまれにあると
しても、検証ステップを省略することができる。実際、
ＡＳＲシステムが履歴上うまく働く人にとっては、中信
頼度レベルは、明示的な検証を飛ばし、図２および図３
のステップ２０７、２０８および２１１並びに／または
ステップ２１７、２１８および２２１を省略し、さら
に、図５のステップ４１３および４１５を省略できる。

【００４９】成功度合いが高いユーザにとって、それら
のステップは、ステップ２３１または２３３が「低い」
信頼度レベルを生成したかまたはステップ４０５および
４１１の結果がともに否定的であったときにだけ実行さ
れる。履歴情報が得られない場合は、ユーザの過去の言
い方をＡＳＲと比較したり、認識がどの程度の頻度で成
功したかを把握することはできない。このような場合
は、たとえば、新しいユーザが、音声コマンドを用いて
コンピュータを操作する場合が該当する。

【００５０】種々のクラスのユーザを区別するのに必要
な履歴情報は、図４のデータベース３０９に蓄積され、
一人の個人が音声言語処理ユニット３０１にアクセスす
ると、これに応じて取り出される。たとえば、ユーザ
は、自動番号識別（ＡＮＩ）情報によって識別すること
ができる。このＡＮＩ情報は、一つの電話機から呼を起
こすときに、起動スイッチに対して提示される。また、
他の実施例としては、ユーザを個人識別番号（ＰＩＮ）
で識別することもできる。このＰＩＮ番号は、ＡＳＲ処
理の一部としてユーザから提供される。

【００５１】どちらの場合も、ＡＮＩまたはＰＩＮは、
特定のユーザが、処理を変更すべき相手であるか、また
もしそうであるならどのように変更すべきであるかを示
す情報を、データベースから取り出すためのキーとして
使用される。簡単に言うと、このようにしてシステム
は、そのユーザが羊であるかやぎであるかを判定する。

【００５２】この発明について、３桁の市街局番と７桁
の個人番号の二つの部分からなる１０桁の電話番号を指
定する模擬試験を行った。ＡＴ＆Ｔコンヴァーサントシ
ステム上でＡＳＲを使用した。この実験で、ユーザイン
タフェースを改善するために数字列候補の信頼度を使っ
た。そのため、第１の数字列候補が、第２の数字列候補
よりもはるかに高い信頼度得点を得たときに、明示的検
証ステップは行わなかった。具体的には、あるＡＴ＆Ｔ
コンヴァーサントシステムでは、最大４個の数字列候補
の各々について1ないし1,000,000の信頼度値を割り当て
た。最も信頼度値の高い候補は「第１候補」と呼び、２
番目に信頼度値の高い候補は「第２候補」と呼んだ。以
下同様である。

【００５３】このシステムは、ＡＳＲ結果における信頼
度レベルを判定するために、第１候補と第２候補の信頼
度レベルの差を計算し、この得られた差を全体処理を調
整するために使用した。すなわちこの差の値に基づい
て、どの明示的検証の要求を出し、またその処理のうち
のどのステップを省略するかを判定した。第１候補と第
２候補との差が６０００よりも大きい場合、信頼度は、
その処理を変えて明示的検証ステップを省略してもよい
ほど十分に高いとみなした。信頼度得点の差が６０００
よりも小さい処理では、次のような対話がなされた。こ
こに、Ｓはシステムプロンプト（システムからのユーザ
入力の催促）を表し、Ｕはユーザ入力を表す。

【００５４】Ｓ：あなたが電話したい相手の市外局番だ
けを言ってください。Ｕ：９、０、８。Ｓ：あなたは、９、０、８と言いましたか？Ｕ：はい。Ｓ：今度は、あなたが電話したい相手の７桁の電話番号
を言ってください。Ｕ：９、４、９、６、５、１、０Ｓ：あなたは、９、４、９、６、５、１、０と言いまし
たか？Ｕ：はい。Ｓ：ありがとうございました…。

【００５５】一方、信頼度得点の差が６０００よりも大
きい場合は、次のような対話が行われた。Ｓ：あなたが電話したい相手の市外局番だけを言ってく
ださい。Ｕ：９、０、８。Ｓ：今度は、あなたが電話したい相手の７桁の電話番号
を言ってください。Ｕ：９、４、９、６、５、１、０Ｓ：ありがとうございました…。

【００５６】収集されたＡＳＲ動作と選択のデータによ
れば、信頼度得点を検証処理に適用するために動的に使
用するユーザインタフェースの方が従来のユーザインタ
フェースよりもよいということが示された。電話番号処
理を完結する平均時間は、２５％短縮された。ユーザ
は、信頼度得点を利用するシステムの方を好んだ。そし
て、「間違い番号」電話の比率は増大しなかった。信頼
度得点に基づいて、他の処理の調整についても同様のこ
とがわかった。

【００５７】ＡＳＲサンプルの処理におけるユーザイン
タフェースを決定する場合の成功度合いとして履歴デー
タを使用することについては、二つのユーザグループに
分けた。羊とみなされる第１のグループは、（３２回の
ＡＳＲ試行を行ったうちで）少なくとも６０％の高い信
頼度で認識装置が認識可能なユーザとして定義した。ま
た、やぎとみなされる他のグループは、残りのユーザと
した。それぞれのユーザグループについて、全体ＡＳＲ
正確度を、ＡＳＲシステムが「高信頼度」（信頼度得点
差＞６０００として定義される。）を示したそれらの処
理の正確度と比較した。

【００５８】全体ＡＳＲ動作の成功率は８３．８％であ
った。しかし、ＡＳＲ信頼度が高い処理だけを考える
と、成功率は９７．５％だった。すなわち、これらの場
合は、前述のように、ユーザに結果を確認させる必要が
ほとんどなかったということがわかる。しかし、認識正
確度は、「高信頼度処理」中の、ＡＳＲが羊とみなされ
るユーザについてだけ、考慮されうる。データによれ
ば、これらのユーザについては、ＡＳＲシステムは、４
０７回の試行に対して４０６回の成功となり、９９．８
％というきわめて高い性能を示した。

【００５９】簡単にいうと、これらの実験は、一部のユ
ーザに対して、ＡＳＲシステムは高い信頼度となること
が多いということを示した。そのようなユーザ個人にと
っては、信頼度が高いとき、そのＡＳＲシステムはほと
んどいつも正しい。これらの羊とみなされるユーザを特
定できる場合は、最適ＡＳＲユーザインタフェースは、
速い、すなわち操作員と話すよりも速い処理の完結を許
容するユーザインタフェースとして定義される。このた
めには、ＡＳＲシステム信頼度得点に基づいて、および
／または加入者の述べたＡＳＲ動作またはシステム使用
歴に基づいて、実時間電話呼出フローの決定をすること
が求められる。

【００６０】しかし、一般的に、ユーザインタフェース
は、やぎと羊の必要事項の相違を認識しなければならな
い。従来のほとんどのシステムはやぎに対してだけ最適
化されているが、一方、羊とやぎ双方に対して呼出の流
れを最適化することが可能である。

【００６１】

【発明の効果】本発明によれば、ＡＳＲシステムの動作
の結果の信頼度すなわち「確かさレベル」に応じて、ま
た、誤りを犯した結果と、ユーザが検証要求に応答およ
び／またはその情報を再入力することとの困難性を詳し
く解析して、種類の異なる動作を決定することにした。
これにより、システムに対するユーザインタフェースが
改善され、ユーザは、真に必要なときだけ、音声入力の
再入力または検証を要求される。

【図面の簡単な説明】

【図１】従来の自動音声言語認識（ＡＳＲ）システムに
おいて、人が音声入力による電話番号ダイヤルを行うと
きの手順を示すフローチャート。

【図２】音声入力により電話番号をダイヤルする人に対
して応答するための、本発明による自動音声言語認識シ
ステムにおける手順を示すフローチャートの上半部分。

【図３】音声入力により電話番号をダイヤルする人に対
して応答するための、本発明による自動音声言語認識シ
ステムにおける手順を示すフローチャートの下半部
分。。

【図４】図２および図３に示す処理に代表される動的ユ
ーザインタフェース処理を実行するための音声処理ユニ
ットのためのブロック図。

【図５】本発明に係る自動音声言語認識システムにおい
て３種類の信頼性レベルの３種類の出力結果を出す手順
を示すフローチャート。

【符号の説明】

３０１音声言語処理ユニット３０３中央処理ユニット（ＣＰＵ）３０５自動音声言語認識（ＡＳＲ）モジュール３０７音声言語発生器３０９データベース３１１通信インタフェース３１３コモンバス３１５トランク（外線）

フロントページの続き (72)発明者マックスエス．ショエフラーアメリカ合衆国、07747 ニュージャージー、マタワン、ケンウッドレイン 17

Claims

【特許請求の範囲】

【請求項１】音声入力を受け取り自動音声言語認識を
行うシステムのユーザインタフェースに適応するシステ
ムにおいて、音声を受け取る手段と、前記音声の翻訳を作成しその翻訳の信頼度レベルを判定
するべく、自動音声言語認識を用いて前記音声を処理す
る手段と、ユーザから要求された、前記信頼度レベルの関数として
の、前記翻訳の検証を選択的に適応させる手段と、を具備することを特徴とするシステム。
【請求項２】前記処理する手段は、それぞれに第１お
よび第２の信頼度値を有する、前記音声についての少な
くとも第１および第２の翻訳を決定するものであり、前記信頼度レベルは、前記第１および第２の信頼度値の
相対的大きさの関数として決定されること、を特徴とする請求項１のシステム。
【請求項３】そのシステムのそれぞれのユーザに対し
て、そのシステムの過去の使用の関数として、成功度合
いを表す情報を蓄積する手段と、その蓄積する手段から情報を取り出し、前記成功度合い
の値の関数として前記ユーザインタフェースを適用する
手段と、をさらに具備することを特徴とする請求項１のシステ
ム。
【請求項４】前記成功度合いは、そのシステムの前記
それぞれのユーザについての過去の成功率を含むこと、を特徴とする請求項３のシステム。
【請求項５】前記成功度合いは、前記それぞれのユー
ザについての、自動音声言語認識翻訳に関する過去の信
頼度値を含むこと、を特徴とする請求項３のシステム。
【請求項６】前記システムは、前記成功度合いを、ユ
ーザに依存するしきい値と比較すること、を特徴とする請求項３のシステム。
【請求項７】前記適応する手段は、前記翻訳における
誤りの結果の関数として前記検証を適応すること、を特徴とする請求項１のシステム。
【請求項８】ユーザの話したことばの少なくとも第１
および第２の翻訳と、それらの翻訳それぞれの第１およ
び第２の信頼度値とを作成する手段と、前記話したことばの正確な表示として前記第１の翻訳を
受け入れる前に、前記ユーザに、前記第１および第２の
信頼度値の相対的大きさに応じて、その第１の翻訳の検
証を促す手段と、を具備することを特徴とする自動音声言語認識システ
ム。
【請求項９】前記第１の翻訳を含む情報をもって前記
ユーザを促す手段をさらに具備することを特徴とする請
求項８のシステム。
【請求項１０】ユーザの話したことばの翻訳およびそ
の翻訳の信頼度値を作成する手段と、前記信頼度値の相対的大きさに応じて、（ａ）前記話し
たことばの正確な表示として前記翻訳を受け入れる前
に、前記ユーザに、その翻訳の検証を要求するか、また
は、（ｂ）前記話したことばの正確な表示として、前記
翻訳を検証することなく受け入れる、インタフェース手
段と、を具備することを特徴とする自動音声言語認識システ
ム。
【請求項１１】前記ユーザの話したことばを翻訳する
に当たってのそのシステムの過去の成功を表す情報を蓄
積する手段と、前記蓄積された情報に応じて、前記ユーザインタフェー
ス手段を制御する手段と、をさらに具備すること特徴とする請求項１０のシステ
ム。
【請求項１２】音声言語を受け入れ、自動音声言語認
識を行うシステムのユーザインタフェースを適用する方
法において、話したことばを受け取るステップと、その話したことばの翻訳を作成し、その翻訳の信頼度レ
ベルを決定するように、自動音声言語認識を用いてその
話したことばを処理するステップと、ユーザから要求される、前記信頼度レベルの関数として
の、前記翻訳の検証を、選択的に適用するステップと、を具備することを特徴とする方法。
【請求項１３】前記処理するステップは、それぞれ、第１と第２の信頼度値をもつ前記話したこと
ばについての少なくとも第１と第２の翻訳を決定するス
テップと、前記第１および第２の信頼度値の関数として信頼度レベ
ルを決定するステップと、を具備することを特徴とする請求項１２の方法。
【請求項１４】前記システムの各ユーザについての、
そのシステムの過去の使用の関数として計算された成功
度合いを表す情報を蓄積するステップと、情報を取り出し、ユーザインタフェースを前記成功度合
いの値の関数に変えるステップと、をさらに具備することを特徴とする請求項１２の方法。
【請求項１５】前記成功度合いは、その方法の各ユー
ザについての過去の成功率を含むことを特徴とする請求
項１４の方法。
【請求項１６】前記成功度合いは、各ユーザについて
の自動音声言語認識の翻訳に関する過去の信頼度値を含
むことを特徴とする請求項１４の方法。
【請求項１７】前記成功度合いをユーザに依存するし
きい値と比較するステップを含むことを特徴とする請求
項１４の方法。
【請求項１８】ユーザの話したことばの少なくとも第
１および第２の翻訳と、それら翻訳それぞれの第１およ
び第２の信頼度値とを作成するステップと、前記第１および第２の信頼度値の相対値に応じて、前記
第１の翻訳を前記話したことばの正確な表示として受け
入れる前に、前記第１の翻訳を前記ユーザに検証するよ
うに促すステップと、を具備することを特徴とする自動音声言語認識方法。
【請求項１９】前記第１の翻訳を含む情報で前記ユー
ザに促すステップをさらに含むことを特徴とする請求項
１８の方法。
【請求項２０】ユーザの話したことばの翻訳とその翻
訳の信頼度値とを作成するステップと、その信頼度値の大きさに応じて、（ａ）前記話したこと
ばの正確な表示として前記翻訳を受け入れる前にその翻
訳をユーザに検証するよう要求するか、（ｂ）検証無し
に、前記話したことばの正確な表示として前記翻訳を受
け入れるか、または、（ｃ）前記翻訳を拒否し、ユーザ
に新しい話ことばを要求するか、をすることにより、ユ
ーザインタフェースの動作を適応するステップと、を具備することを特徴とする、自動音声言語認識システ
ムの運用方法。
【請求項２１】前記ユーザの話したことばを翻訳する
場合の前記システムの過去の成功を表す情報を蓄積する
ステップと、その蓄積された情報に応じて前記ユーザインタフェース
を適応するステップとを具備することを特徴とする請求
項２０の方法。