JPH08320696A

JPH08320696A - 任意に話された単語の自動通話認識方法

Info

Publication number: JPH08320696A
Application number: JP8078564A
Authority: JP
Inventors: Roger Borgan Garberg; ボアガンガーバーロジャー; Michael Allen Yudkowsky; アレンユドコウスキーマイケル
Original assignee: A T and T I P M CORP; AT&T Corp; AT&T IPM Corp
Current assignee: A T and T I P M CORP; AT&T Corp
Priority date: 1995-03-30
Filing date: 1996-04-01
Publication date: 1996-12-03
Anticipated expiration: 2016-04-01
Also published as: DE69633883T2; EP0735736A3; EP0735736A2; DE69633883D1; JP3561076B2; EP0735736B1; ES2233954T3; US5724481A

Abstract

(57)【要約】【課題】本発明は、自動通話認識（ＡＳＲ）装置が補
助データベースの情報をアクセスすることにより任意の
単語を認識することができる方法及び装置に関する。【解決手段】補助データベースは、固有名詞等の補助
文書情報を読み出すためにアクセスされる。文書／通話
手段は補助データベースから読み出された文書の音素表
現を生成するために用いられ、この音素表現は、話され
た単語を認識するためのＡＳＲ装置で話者非依存テンプ
レートとして用いることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は自動通話認識に関す
る。特に、本発明は、電話網に関してデータベースから
読み出された補助情報を用いて、ユーザーが話した単語
を認識する際に自動通話認識装置（ＡＳＲ）を支援する
方法に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】多数の
アプリケーションについて、繰り返される仕事を自動化
してより早く効率的に実行できるようにするためにコン
ピュータを用いるのが効果的である。音声技術の一形式
である通話認識により、人々は話し単語を用いてコンピ
ュータと対話することができる。しかしながら、さまざ
ま人の通話には固有の違いがあるため、通話認識はなか
なか難しいものである。

【０００３】通話認識の１つの応用は電話網である。自
動通話認識（ＡＳＲ）装置を用いて、人々は電話を介し
てやり取りし、オペレータを介在することなく簡単な仕
事を実行することができる。例えば、通話認識は、電話
のユーザーが電話番号を覚えたり見たり尋ねたりする必
要がないようにダイヤリングに用いることができる。ユ
ーザーインターフェースの物理的操作の代わりに通話を
使用できるということは、遠隔通信が進歩しても引き続
きＡＳＲ技術の需要を高く保っている。一般に、遠隔通
信に用いられるＡＳＲ装置には、話者依存式及び話者非
依存式という２つのタイプがある。

【０００４】話者依存式自動通話認識装置の一般的な実
行は、特定の話者により訓練されてこの話者の通話パタ
ーンに応答するコンピュータを使用する。この訓練工程
は、アナログ通話入力を発生するための音声（すなわち
単語）の発声と、この通話入力の信号データへの変換
と、この音声を表わす１つのテンプレートの発生と、作
動させるためのコンピュータ命令等の適切な特定応答デ
ータの記憶からなる。

【０００５】実時間動作の間、訓練話者が話した単語
は、デジタル化されてＡＳＲ装置の話者依存テンプレー
ト群と比較され、それにより、話した単語とテンプレー
トとの整合がコンピュータによる特定の応答をトリガす
ることができる。話者依存式ＡＳＲ装置は、主に、訓練
工程を正当化することができる場合、例えば同一個人が
多くの機会に装置をアクセスする場合に用いられる。

【０００６】個人的な訓練を正当化できないアプリケー
ションについては、話者非依存式ＡＳＲを用いなければ
ならない。話者非依存式ＡＳＲ装置の一般的な実行は、
多数の異なる人達が話した単語を表わす複合テンプレー
トまたはテンプレート群を記憶するためにコンピュータ
を用いる。テンプレートは、広範囲の発音と通話特性の
変化とを表わす多数のデータサンプル（すなわち、複数
の話者が話した単語）から引き出される。話者非依存式
通話認識装置は、話者を特定する訓練をすることなく非
常にさまざまな人達と対話することができる。

【０００７】話された番号を認識するために話者非依存
式ＡＳＲを用いる電話アプリケーションは技術上知られ
ている。これらのアプリケーションは、話者の語彙がわ
ずかなメニュー命令及び／または番号（例えば０〜９）
に限られる場合に特に有効である。しかしながら、電話
網を介して話された字句を認識するのは非常に難しい。
実際には、個々の話者の非常にさまざまな通話パターン
があることや、いろいろなタイプの雑音と帯域幅制限に
起因して、電話環境はあらゆるＡＳＲアプリケーション
（話者依存式及び話者非依存式）をエラーしやすくす
る。

【０００８】それにもかかわらず、ＡＳＲの探究後の商
業的アプリケーションは、電話網を介して行なわれる商
業的取り引き、例えばクレジットカード取り引きと関連
する仕事を自動化する。例えば、顧客が電話を介して商
品やサービスを買おうとする場合、関連情報を集めて、
最小限度のオペレータ介在を伴う早くかつ効率的な処理
を確立するために、ＡＳＲを用いることができる。

【０００９】電話による商品やサービスの購入は、ＡＳ
Ｒ装置に、任意に話された単語（例えば固有名詞）の認
識ばかりでなくいたるところでアクセスできることも要
求する。例えば、従来のＡＳＲ装置を用いて全国を横断
する潜在的な顧客との大規模なビジネスの要求に役立つ
ように、上記に説明した手法を用いて全国のあらゆる人
の名前に対応する話者非依存テンプレートを作り出して
記憶する必要がある。しかしながら、現在の技術による
ＡＳＲ装置は、記憶したテンプレートに対応する数千の
あり得る名前のうちの１つと話された名前を整合させる
ことができない。したがって、ＡＳＲ装置において、増
加した能力で話された単語を自動的に認識させることが
できる改善が技術上要求されている。

【００１０】

【課題を解決するための手段】この要求に取り組み、当
該技術分野において、固有名詞等の任意に話された単語
を早く正確に認識することができるようにＡＳＲ装置の
能力を増大させるために補助データを用いる方法及び装
置によって技術的進歩が達成される。ＡＳＲ装置の電話
アプリケーションでは、発呼者から電話番号を求めるの
が普通である。発呼者の電話番号は、発呼者ＩＤやタッ
チトーン入力等の通話または他の既知の方法で得ること
ができる。したがって、本発明の方法及び装置の模範的
な一実施例によれば、発呼者の電話番号は、データベー
スから文書（すなわち発呼者名）を読み出すための索引
として役立つ。次いで、この文書は、ＡＳＲ装置に利用
可能な選択を制限または規定するために用いられる。

【００１１】より詳細には、発呼者の電話番号は、この
電話番号と関連する文書を読み出すために補助データベ
ースをアクセスするのに用いられる。上述の模範的な実
施例では、発呼者名を含む文書は補助データベースから
読み出される。発呼者名の文書は、発呼者の固有名詞の
デジタル化英数字表現からなる。文書／通話装置は、技
術上知られているように、発呼者名の文書を音素表現に
変換するのに用いられる。名前の音素表現は話者非依存
テンプレートとしてＡＳＲ装置に記憶され、この表現に
従う通話はＡＳＲ装置で認識することができる。補助的
な文書データの音素表現への読み出し及び変換により、
ＡＳＲ装置は、特定の話者による訓練なしで読み出され
たデータの音素表現に対応する話された単語にただちに
応答することができる。

【００１２】上記の模範的な実施例の実時間アプリケー
ションの間、電話は、本発明によるＡＳＲ装置を保有す
るサービスプロバイダーにより受信される。商品やサー
ビスをクレジットカードで買おうとする発呼者は、電話
番号及び名前を促される。発呼者より与えられる電話番
号に基づき、補助データベース（例えば電子的電話番号
簿）がアクセスされ、この電話番号と関連する名前の文
書が読み出される。データベースから読み出された名前
の文書の音素表現は、文書／通話装置で作り出される。
次いで、この音素表現はＡＳＲ装置で話者非依存テンプ
レートとして記憶されて用いられ、発呼者が話した通り
に名前が認識される。

【００１３】発呼者が話した名前が、名前の普通でない
発音や、劣悪な電話伝送品質や、認識するのが難しい声
を持つ発呼者などのためにＡＳＲ装置で認識されない場
合は、発呼者は名前のつづりを１文字ずつ与えるよう促
される。データベースから読み出された通りに、書かれ
た名前のつづりの音素表現を作り出すために、文書／通
話装置を用いることができる。また、データベースから
読み出された名前のつづりは話者非依存テンプレートと
してＡＳＲ装置に記憶され、それにより、ＡＳＲ装置
は、発呼者の名前のつづりを（発呼者が話した通りに）
認識することを試みることができる。発呼者の名前の話
された発音と（確立された通話認識アルゴリズムに基づ
く）音素表現が整合しない場合は、発呼は人間の案内人
に送られる。

【００１４】

【発明の実施の形態】図１は、本発明の模範的な実施例
による２つの装置１００Ａ及び１００Ｂを示す。音声電
話装置１００Ａには、電話端末１０２と、通信線１０３
Ａ及び１０３Ｂと、公衆交換電話網１０７に配置される
交換サービスポイント（ＳＳＰ）１０５が含まれる。明
快にするため、１つの交換サービスポイントが示されて
いるが、運転公衆交換電話網は相互接続されたＳＳＰ網
からなる。電話線インタ−フェース装置１０８は、電源
変動等の網機能不良からＡＳＲ装置１１０の機器を保護
すると共に、原通話が装置に届く前にまだデジタル化さ
れていなければ電話端末１０２から到来する通話をデジ
タル化する。

【００１５】ＳＳＰ１０５は分散制御型構内デジタル交
換機であり、例えば、ＡＴ＆Ｔテクニカルジャーナル，
第６４巻，第６号，１９８５年７月〜８月，第１３０３
〜１５６４ページや、１９８１年１１月，ベルラボラト
リーレコード，第２５８ページや、１９８１年１２月，
ベルラボラトリーレコード，第２９０ページに開示さ
れ、ＡＴ＆Ｔで製造された５ＥＳＳ（登録商標）交換機
である。かけがえとして、ＳＳＰ１０５は、１９８６年
５月２７日にエム・ダブリュ・ベックナー(M.W.Beckne
r) に発行された米国特許第4,592,048 号に開示されて
いるＩＳＤＮ交換装置のような分散制御型アナログまた
はデジタル交換機でも良い。図１では、ＳＳＰ１０５
は、顧客識別線１０３を介して電話端末１０２に接続さ
れると共に、以下に説明されるように線１２１Ｂを介し
てホストコンピュータ１２４と交信する。

【００１６】また、図１には、マイクロフォン１０４及
びマイクロフォンインターフェース装置１０９を含むユ
ーザー対話装置１００Ｂが示されている。マイクロフォ
ン１０４は、技術上知られているように、ＡＳＲ装置と
顧客間のリンクとしてサービスプロバイダーにより保有
されるキオスクすなわち自動化金銭出納機に配置するこ
とができる。

【００１７】到来する通話は、マイクロフォン１０４で
電気信号に変換され、通信リンク１０６Ａを介してマイ
クロフォンインターフェース装置１０９に送られる。マ
イクロフォンインターフェース装置１０９は、通信リン
ク１０６Ｂを介するＡＳＲ装置１１０への送信前に到来
通話信号をデジタルデータに変換する。

【００１８】ＡＳＲ装置１１０（図２において以下に詳
細に説明される）はデータバス１２５を介してホストコ
ンピュータ１２４と交信する。ホストコンピュータ１２
４には、コンピュータの動作全体を制御する中央処理装
置（ＣＰＵ）１２６と、データを一時的に記憶するラン
ダムアクセスメモリ（ＲＡＭ）１２８と、データを永久
記憶するリードオンリーメモリ（ＲＯＭ）１３０と、ホ
ストコンピュータ１２４と関連する制御プログラムを記
憶する不揮発性データベース１３４が含まれる。ＣＰＵ
１２６はデータバス１３２を介してＲＡＭ１２８及びＲ
ＯＭ１３０と交信する。同様に、ＣＰＵ１２６はデータ
バス１３３を介して不揮発性データベース１３４と交信
する。入力／出力（Ｉ／Ｏ）インターフェース１３６は
データバス１３５を介してホストコンピュータ１２４に
接続され、データリンク１３９を介してＩ／Ｏインター
フェース１３６と交信する構内情報通信網（ＬＡＮ）１
３８と、データリンク１４１を介してＩ／Ｏインターフ
ェース１３６と交信する補助データベース１４０と、通
信線１２１Ａ、ＳＳＰ１０５及びデータリンク１２１Ｂ
を介してホストコンピュータ１２４にデジタルデータを
送信するデータサービス網１４２とからのデータフロー
を促進する。

【００１９】図２は、図１に示されるようなＡＳＲ装置
１１０の模範的な実施例の簡略ブロック図を示す。ＡＳ
Ｒ装置１１０は話者非依存または話者依存のどちらかの
通話認識を行なうことができ、装置の動作全体を制御す
るＣＰＵ２０２を含む。ＣＰＵ２０２は一般的に参照数
字２０３で表わされた複数のデータバスを有する。ま
た、図には、技術上知られているように、ランダムアク
セスメモリ（ＲＡＭ）２０４と、リードオンリーメモリ
（ＲＯＭ）２０６と、発呼者にあいさつと助言を発する
通話発生装置２１８と、書き込み文書を音素表現に変換
する文書／通話（ＴＴＳ）装置２１９（ＣＰＵ２０２及
びＲＡＭ２０４と交信する）も示されている。

【００２０】ＲＡＭ２０４はバス２０３でＣＰＵ２０２
に接続され、発呼者が電話端末１０２またはマイクロフ
ォン端末１０４で話した単語、話者依存テンプレート２
１４、話者非依存テンプレート２１６などの通話データ
を一時的に記憶する。ＲＯＭ２０６は同様にデータバス
２０３でＣＰＵ２０２に接続され、通話認識アルゴリズ
ム２０８及び音素モデル２１０を含む通話認識及び検定
データを永久記憶する。多くの他の有効な通話認識方法
が技術上知られているが、この模範的実施例では、音素
に基づいた通話認識アルゴリズム２０８が用いられる。

【００２１】音素は通話の最小単位群の１つを指す技術
用語であり、より大きな通話セグメント、例えば形態素
を構成するために他の前記単位と結合することができ
る。例えば、話された単語“オペレータ（ｏｐｅｒａｔ
ｏｒ）”の音声を表わすセグメントは“ａａ”，
“ｐ”，“ａｘｒ”，“ｅｙ”，“ｄｘ”及び“ａｘ
ｒ”等の発音の組み合わせで表わすことができる。発音
モデル２１０は、従来のオフライン処理で話者のサンプ
ルの発音から引き出された通話認識分類データを用いて
コンパイルされる。この処理の間、言語の全ての発音を
表わすように選択された単語が多数の訓練話者（例えば
１０００人）により話される。発音は、発音の内容の書
き込み文書を発生させる訓練された個人により処理され
る。

【００２２】次いで、この単語の書き込み文書は、ＴＴ
Ｓ装置２１９等の文書／通話装置で受信され、技術上知
られているように、文書／通話変換のルールを用いて書
き込み文書の音素表現を作り出すことができる。次い
で、書き込み文書の音素表現は、発音を音素モデル２１
０と比較する通話認識アルゴリズム２０８の動作から引
き出された音素と比較される。音素モデル２１０は、発
音の文書／通話変換空引き出された音素と通話認識アル
ゴリズム２０８で認識された音素間で十分な整合が得ら
れるまで、技術上知られているような調整方法を用いて
この“モデル訓練”処理の間調整される。

【００２３】音素モデル２１０は、認識処理の間通話認
識アルゴリズム２０８と共に用いられる。より詳細に
は、通話認識アルゴリズム２０８は、話された単語を確
定した音素モデルと整合させる。通話認識アルゴリズム
が整合ありと決定すれば（すなわち、話された発音が予
め定められたパラメータにしたがって音素モデルを統計
的に整合すれば）、音素のリストが生成される。

【００２４】音素モデル２１０は、多数の話者にわたる
話された単語の特性の分布を表わすので、訓練話者によ
り代表される同一話者集団（すなわち、生粋のアメリカ
人、スペイン語を話す人々等）に役立つＡＳＲ装置への
いたるところでのアクセスに用いることができる。

【００２５】話者非依存テンプレート２１６は、予想さ
れる発音または成句を表わす音素のリストである。話者
非依存テンプレート２１６はＴＴＳ装置２１９を介して
書き込み文書を処理することにより作り出され、書き込
み単語または成句の予想される発音を例示する音素のリ
ストが生成される。一般に、多数のテンプレートがＲＡ
Ｍメモリ２０４に記憶され、通話認識アルゴリズム２０
８に利用可能になる。ある五図無２０８の仕事は、話さ
れた発音における音素とどのテンプレートが最も良く整
合するかを選ぶことである。

【００２６】話者依存テンプレート２１４は、単語また
は成句の発音を与える話者を持ち、通話認識アルゴリズ
ム２０８及び音素モデル２１０を用いて発音を処理して
アルゴリズムで認識された音素からなる音素のリストを
作ることにより、生成される。この音素のリストは、そ
の特定の発音のための話者依存テンプレート２１４にな
る。

【００２７】実時間通話認識動作の間、発音は、音素の
リストが生成されるように音素モデル２１０を用いて通
話認識アルゴリズム２０８で処理される。この音素のリ
ストは、技術上知られている方法を用いて、話者非依存
テンプレート２１６及び話者依存テンプレート２１４で
処理されたリストと整合される。通話認識アルゴリズム
２０８は整合結果を報告する。

【００２８】図３は、ＡＳＲ装置が本発明の方法の模範
的な実施例の話者非依存モードで動作している場合に、
ＡＳＲ装置で行なわれる作用を説明するフロー図であ
る。本発明の商業的アプリケーションの一例として、顧
客はホームテレホン（電話端末１０２）から電話をか
け、ＡＳＲ装置１１０及びホストコンピュータ１２４を
用いるサービスプロバイダーより提供されるサービスの
クレジットカードによる購入を希望していると仮定す
る。この例では、顧客はこのサービスを以前に購入して
いなかったので、ＡＳＲ装置１１０はこの顧客の特定の
通話パターンを認識するように訓練されていない（すな
わち、この顧客用に確定された話者依存テンプレート２
１４が存在しない。）。しかしながら、クレジットカー
ド取り引きが認められるようにするために、ＡＳＲ装置
１１０はこの顧客の名前を受信して認識しなければなら
ない。

【００２９】この例は、ステップ３００において、ＡＳ
Ｒ装置１１０が公衆交換電話網１０７の通信線１０３
Ａ，１０３Ｂ及びＳＳＰ１０５を介して送られた顧客が
発した到来電話を受信する。かけがえとして、顧客は、
マイクロフォン端末１０４を含むユーザー対話装置を内
蔵するキオスクからサービスの注文を出すことができ
る。もしそうならば、到来する“電話”は、顧客入力
（例えば会話）がマイクロフォン端末１０４で検出され
て通信リンク１０６Ｂを介して装置に送られる時に、Ａ
ＳＲ装置１１０で受信される。

【００３０】電話装置及びユーザー対話装置の両方にお
いて、到来する電話はインターフェース装置（すなわ
ち、それぞれ電話線インターフェース装置１０８及びマ
イクロフォンインターフェース装置１０９）で処理さ
れ、ＡＳＲ装置１１０において受信された全入力が通常
のデジタルフォーマットになることが保証される。ステ
ップ３０２に示されるように、ＡＳＲ装置１１０の通話
発生装置２１８は、予め決められた索引（例えば、ホー
ムテレホンナンバー）、この索引と関連する名前及びた
ぶんこの名前のつづり等の入力を顧客に促す。かけがえ
として、本装置は、以下に説明されるように、処理に必
要になるまで名前のつづりを顧客に促すのを引き延ばす
ことができる。

【００３１】次いで、処理は決定ステップ３０４に進
み、要求された入力が受信されたか否かを決定する。ス
テップ３０４の結果が“ＮＯ”決定ならば、処理はステ
ップ３０６に進み、電話は人間の案内人に送られ、次い
で、処理は終了ステップ３０８で終わる。ステップ３０
４の結果が“ＹＥＳ”決定ならば、処理はステップ３１
８に進み、索引、名前及び名前のつづりの顧客の発音は
ＡＳＲ装置１１０のＲＡＭ２０４に記憶される。上記の
例では、顧客は話すことにより索引を与えた。索引が顧
客のホームテレホンナンバーの場合は、発呼者ＩＤまた
はタッチトーン入力等の他の既知の方法で取り出すこと
ができる。

【００３２】次いで、処理はステップ３１０に進み、通
話認識アルゴリズム２０８及びモデル音素（アラビア数
字に関するもの）２１０を用いて発呼者の索引の認識を
試みる。この索引は、以下に説明されるように、補助デ
ータベースから情報を読み出すために用いられる。索引
のいくつかのアラビア数字が不確かな場合は、本装置は
多数の可能性を認識するようにプログラムすることがで
きる。決定ステップ３１４では、顧客の索引が前のステ
ップで認識されていたか否かが決定される。この決定ス
テップの結果が“ＮＯ”決定ならば、処理はステップ３
０６に進み、電話は人間の案内人に送られ、次いで、処
理は終了ステップ３０８で終わる。

【００３３】決定ステップ３１４の結果が“ＹＥＳ”決
定ならば、処理はステップ３１６に進み、ＡＳＲ装置１
１０のＣＰＵ２０２はホストコンピュータ１２４に補助
データを要求する。上記の例では、望ましい補助データ
は、ＡＳＣＩＩ文書フォーマットにおけるような顧客名
のデジタル的に記憶された表現（例えば、顧客より受信
されたホームテレホンナンバーと関連する名前）であ
る。

【００３４】補助データの要求がホストコンピュータ１
２４のＣＰＵ１２６で受信された時、ＣＰＵ１２６は、
索引（例えば、顧客より与えられたテレホンナンバー）
を用いて、顧客の名前のデジタル表現（例えば、ＡＳＣ
ＩＩ文書フォーマット）を読み出すために、どの補助デ
ータをアクセスしなければならないかを決定する。ＣＰ
Ｕ１２６は、不揮発性データベース１３４から受信した
命令に基づいて決定を行なう。

【００３５】例えば、サービスプロバイダーは大規模エ
ンティティならばＣＤ−ＲＯＭデータベース等の補助デ
ータベース１４０を保有することができ、これはデータ
リンク１４１及びＩ／Ｏインターフェース１３６を介し
てホストコンピュータ１２４と通信する。データベース
１４０は、顧客の住所及び名前、クレジットカード口座
番号、及びテレホンナンバーで検索される購入歴等の広
範囲にわたる顧客情報を含むことができる。しかしなが
ら、サービスプロバイダーが早く変化する顧客ベースを
有する小規模エンティティならばホストコンピュータ１
２４内に（あっ問えばＲＡＭ１２８内に）制限された補
助データベースを記憶することができる。

【００３６】かけがえとして、サービスプロバイダーの
なかには、補助データをデータリンク１３９及びＩ／Ｏ
インターフェース１３６を介してホストコンピュータ１
２４にダウンロードすることができるコンピュータ網
（すなわちＬＡＮ１３８）を保有することができるもの
もある。

【００３７】上記の例において、サービスプロバイダー
は、公衆交換電話網１０７を保有する通信網より提供さ
れるデータサービスに加入していると仮定する。データ
サービス１４２は、合衆国における全住宅電話のテレホ
ンナンバーと対応する顧客名を含む電子的電話帳を記憶
しているデータベースを含む。上記の例では、データサ
ービス１４２は、情報（例えば顧客名の文書）のデジタ
ルデータパケットを通信線１２１Ａを介してＳＳＰ１０
５に送信する。ＳＳＰ１０５は、このデジタル情報を通
信線１２１Ｂ乃至Ｉ／Ｏインターフェース１３６を介し
てホストコンピュータ１２４に送り、その結果、顧客名
の文書は、ホストコンピュータ１２４で受信されてＲＡ
Ｍ１２８に記憶される。多数の名前が（ホームテレホン
ナンバーまたはテレホンナンバーと関連する多数の名前
の多数の可能性により）読み出される場合、全ての可能
性のある名前がホストコンピュータに与えられる。

【００３８】次いで、処理はステップ３１８に進み、Ｃ
ＰＵ２０２から受信された要求に応じて、補助データベ
ースから読み出された名前の文書がＲＡＭ１２８から読
み出されてＴＴＳ装置１２９で処理され、その結果文書
の音素表現が生成されて、話者非依存テンプレートとし
てＲＡＭ２０４に記憶される。ステップ３２０に示され
るように、発呼者が話した（及びＲＡＭ２０４に記憶さ
れた）通りの発呼者の名前の認識が、通話アルゴリズム
２０８と音素モデル２１０とステップ３１８で作り出さ
れた話者非依存テンプレートとを用いて試みられる。

【００３９】決定ステップ３２２では、ステップ３２０
で認識が生じたか否かに関する決定が行なわれる。ステ
ップ３２２の結果が“ＹＥＳ”決定ならば、処理はステ
ップ３２４に進み、取り引きが承認され、次いで、処理
はステップ３２６で終る。ステップ３２２の結果が“Ｎ
Ｏ”ならば、処理はステップ３２８に進み、（データベ
ースから読み出された通り）読み出された顧客名のつづ
りの音素表現がＴＴＳ装置１２９で作り出され、第２の
話者非依存テンプレートとして記憶される。ステップ３
３０では、顧客が話した通りの顧客名のつづりの認識
が、通話認識アルゴリズム２０８と音素モデル２１０と
ステップ３２８で作り出された話者非依存テンプレート
を用いて試みられる。次いで、処理はステップ３３２に
進み、発呼者名のつづりが認識されたか否かが決定され
る。ステップ３３２で“ＮＯ”決定ならば、処理はステ
ップ３０６に進み、発呼は人間の案内人に送られ、次い
で処理はステップ３０８で終る。ステップ３３２で“Ｙ
ＥＳ”決定ならば、処理はステップ３２４に進み、取り
引きが承認され、次いで処理はステップ３２６で終わ
る。

【００４０】上記の例は、電話機またはユーザー対話装
置を用いた顧客と、ＡＳＲ装置１１０と、ホストコンピ
ュータ１２４と、補助データベースとの間の実時間対話
を示す。しかしながら、ＡＳＲ装置１１０がＬＡＮ１３
８でアクセスされる実施例や、顧客名がある期間にわた
ってデータベースに登録、記憶され、かつデータベース
１４２で与えられるデータサービスが定期的にＡＳＲ装
置１１０及びホストコンピュータ１２４でアクセスされ
る実施例等の他の実施例でも良い。

【００４１】本発明の方法及び装置は、ＡＳＲ装置が話
者特定訓練をすることなく任意に話された単語を認識す
ることができるという点で、先行技術に勝る効果が得ら
れる。上記に説明した実施例は例示のためのものにすぎ
ず、本発明の多くの他の改作が、特許請求の範囲で定義
されるように本発明の範囲から逸脱することなく当業者
により引き出され得ることが理解されるべきである。

【図面の簡単な説明】

【図１】本発明の模範的な実施例によるＡＳＲ装置と関
連する電話とユーザーの対話装置の簡略ブロック図であ
る。

【図２】本発明の模範的な実施例による通話認識及び検
定を提供するために用いられる図１のＡＳＲ装置の簡略
ブロック図である。

【図３】本発明による模範的な方法のフロー図である。

【符号の説明】

１０２電話端末１０３Ａ、１０３Ｂ通信線１０４マイクロフォン装置１０７公衆交換電話網１０８電話線インターフェース装置１１０ＡＳＲ装置１２４ホストコンピュータ１３５データバス１４１データリンク

Claims

【特許請求の範囲】

【請求項１】単語モデルと少なくとも部分的に認識決
定の基になる相関データとを記憶する第１のデータベー
スを備えた自動通話認識（ＡＳＲ）装置において、補助
的な第２のデータベースに記憶された情報を用いて前記
ＡＳＲ装置の能力を高める方法であって、第１及び第２の部分を有する入力をユーザーから受信す
る工程と、前記ユーザーから得られた入力を前記ＡＳＲ装置に記憶
する工程と、前記ＡＳＲ装置が前記ユーザーから回収された前記入力
の第１の部分を認識する工程と、前記入力の第１の部分に関連した、前記補助データベー
スに記憶された補助データを識別して読み出す工程と、前記補助データベースから読み出された前記情報から引
き出されたテンプレートを作り出す工程と、前記テンプレートを用いて、前記ユーザーが話した通り
に前記入力の第２の部分を認識する工程とからなること
を特徴とする方法。
【請求項２】請求項１記載の方法において、ユーザー
からの入力を受信する工程は、それぞれ前記入力の前記
第１及び第２の部分に対応する、話された電話番号及び
話された名前を受信する工程からなる方法。
【請求項３】請求項２記載の方法において、テンプレ
ートを用いて第２の部分を認識する工程は、通話認識ア
ルゴリズムを用いて、話された名前を認識する工程から
なる方法。
【請求項４】請求項１記載の方法において、テンプレ
ートを作り出す工程は、文書／通話装置を用いて前記入
力の第２の部分の音素表現を発生させる工程からなる方
法。
【請求項５】請求項１記載の方法において、ユーザー
からの入力を受信する工程は、それぞれ前記入力の前記
第１及び第２の部分に対応する、索引と話された発音と
を受信する工程からなる方法。
【請求項６】電話網において、自動通話認識（ＡＳ
Ｒ）装置と関連する補助データベースを用いてＡＳＲ装
置の能力を高める方法であって、発呼者から到来する発呼を受信する工程と、前記発呼者に第１及び第２の発音を促す工程と、発呼者が話した第１の発音を認識する工程と、前記第１の発音を索引として用いて補助データベースに
記憶された、書き込み文書である補助情報を読み出す工
程と、前記補助データベースから読み出された通りに前記書き
込み文書の話者非依存テンプレートを作り出す工程と、前記話者非依存テンプレートを用いて、前記補助データ
ベースから読み出された書き込み文書に対応する第２の
発音を認識する工程とからなることを特徴とする方法。
【請求項７】請求項６記載の方法において、テンプレ
ートを作り出す工程は、文書／通話装置を用いて、前記
補助情報の音素表現を発生させる工程を含む方法。
【請求項８】請求項６記載の方法において、第２の発
音を認識する工程は、通話認識アルゴリズム及び音素の
モデルとを用いる工程を含む方法。
【請求項９】電話網と共に用いられる自動通話認識
（ＡＳＲ）装置であって、交換サービスポイントにより役立てられる電話端末と、入力を受信する手段と、前記電話端末から受信した前記入力をホストコンピュー
タのランダムアクセスメモリに送る電話線インターフェ
ース装置と、補助データベースから補助情報を読み出す、前記ホスト
コンピュータ内の中央処理装置と、前記補助データベースから読み出された前記補助情報の
音素表現を作り出す文書／通話手段と、前記補助情報と関連する発音を認識する通話認識手段と
からなることを特徴とするＡＳＲ装置。
【請求項１０】請求項９記載のＡＳＲ装置において、
補助データベースはデータサービスプロバイダーにより
保有されるＡＳＲ装置。
【請求項１１】請求項９記載のＡＳＲ装置において、
補助データベースはＣＤ−ＲＯＭに記憶されるＡＳＲ装
置。
【請求項１２】請求項９記載のＡＳＲ装置において、
補助情報は構内情報通信網空読み出されるＡＳＲ装置。
【請求項１３】請求項９記載のＡＳＲ装置において、
音素表現は話者非依存テンプレートとして用いられるＡ
ＳＲ装置。
【請求項１４】請求項９記載のＡＳＲ装置において、
入力を受信する手段は発呼者ＩＤサービスであるＡＳＲ
装置。
【請求項１５】請求項９記載のＡＳＲ装置において、
入力を受信する手段はタッチトーン入力手段であるＡＳ
Ｒ装置。
【請求項１６】請求項９記載のＡＳＲ装置において、
通話認識手段は、モデル発音を話された発音と比較する
アルゴリズムを含むＡＳＲ装置。