JPH08320696A - 任意に話された単語の自動通話認識方法 - Google Patents
任意に話された単語の自動通話認識方法Info
- Publication number
- JPH08320696A JPH08320696A JP8078564A JP7856496A JPH08320696A JP H08320696 A JPH08320696 A JP H08320696A JP 8078564 A JP8078564 A JP 8078564A JP 7856496 A JP7856496 A JP 7856496A JP H08320696 A JPH08320696 A JP H08320696A
- Authority
- JP
- Japan
- Prior art keywords
- asr
- input
- auxiliary
- template
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000012545 processing Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 2
- 230000001419 dependent effect Effects 0.000 abstract description 14
- 238000004891 communication Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000003993 interaction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100257812 Caenorhabditis elegans ssp-10 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/38—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
- H04M3/382—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42204—Arrangements at the exchange for service or number selection by voice
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
- H04Q3/42—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2242/00—Special services or facilities
- H04M2242/22—Automatic class or number identification arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/38—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
- H04M3/382—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
- H04M3/385—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42025—Calling or Called party identification service
- H04M3/42034—Calling party identification service
- H04M3/42059—Making use of the calling party identifier
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
- H04Q3/72—Finding out and indicating number of calling subscriber
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
助データベースの情報をアクセスすることにより任意の
単語を認識することができる方法及び装置に関する。 【解決手段】 補助データベースは、固有名詞等の補助
文書情報を読み出すためにアクセスされる。文書/通話
手段は補助データベースから読み出された文書の音素表
現を生成するために用いられ、この音素表現は、話され
た単語を認識するためのASR装置で話者非依存テンプ
レートとして用いることができる。
Description
る。特に、本発明は、電話網に関してデータベースから
読み出された補助情報を用いて、ユーザーが話した単語
を認識する際に自動通話認識装置(ASR)を支援する
方法に関する。
アプリケーションについて、繰り返される仕事を自動化
してより早く効率的に実行できるようにするためにコン
ピュータを用いるのが効果的である。音声技術の一形式
である通話認識により、人々は話し単語を用いてコンピ
ュータと対話することができる。しかしながら、さまざ
ま人の通話には固有の違いがあるため、通話認識はなか
なか難しいものである。
動通話認識(ASR)装置を用いて、人々は電話を介し
てやり取りし、オペレータを介在することなく簡単な仕
事を実行することができる。例えば、通話認識は、電話
のユーザーが電話番号を覚えたり見たり尋ねたりする必
要がないようにダイヤリングに用いることができる。ユ
ーザーインターフェースの物理的操作の代わりに通話を
使用できるということは、遠隔通信が進歩しても引き続
きASR技術の需要を高く保っている。一般に、遠隔通
信に用いられるASR装置には、話者依存式及び話者非
依存式という2つのタイプがある。
行は、特定の話者により訓練されてこの話者の通話パタ
ーンに応答するコンピュータを使用する。この訓練工程
は、アナログ通話入力を発生するための音声(すなわち
単語)の発声と、この通話入力の信号データへの変換
と、この音声を表わす1つのテンプレートの発生と、作
動させるためのコンピュータ命令等の適切な特定応答デ
ータの記憶からなる。
は、デジタル化されてASR装置の話者依存テンプレー
ト群と比較され、それにより、話した単語とテンプレー
トとの整合がコンピュータによる特定の応答をトリガす
ることができる。話者依存式ASR装置は、主に、訓練
工程を正当化することができる場合、例えば同一個人が
多くの機会に装置をアクセスする場合に用いられる。
ションについては、話者非依存式ASRを用いなければ
ならない。話者非依存式ASR装置の一般的な実行は、
多数の異なる人達が話した単語を表わす複合テンプレー
トまたはテンプレート群を記憶するためにコンピュータ
を用いる。テンプレートは、広範囲の発音と通話特性の
変化とを表わす多数のデータサンプル(すなわち、複数
の話者が話した単語)から引き出される。話者非依存式
通話認識装置は、話者を特定する訓練をすることなく非
常にさまざまな人達と対話することができる。
式ASRを用いる電話アプリケーションは技術上知られ
ている。これらのアプリケーションは、話者の語彙がわ
ずかなメニュー命令及び/または番号(例えば0〜9)
に限られる場合に特に有効である。しかしながら、電話
網を介して話された字句を認識するのは非常に難しい。
実際には、個々の話者の非常にさまざまな通話パターン
があることや、いろいろなタイプの雑音と帯域幅制限に
起因して、電話環境はあらゆるASRアプリケーション
(話者依存式及び話者非依存式)をエラーしやすくす
る。
業的アプリケーションは、電話網を介して行なわれる商
業的取り引き、例えばクレジットカード取り引きと関連
する仕事を自動化する。例えば、顧客が電話を介して商
品やサービスを買おうとする場合、関連情報を集めて、
最小限度のオペレータ介在を伴う早くかつ効率的な処理
を確立するために、ASRを用いることができる。
R装置に、任意に話された単語(例えば固有名詞)の認
識ばかりでなくいたるところでアクセスできることも要
求する。例えば、従来のASR装置を用いて全国を横断
する潜在的な顧客との大規模なビジネスの要求に役立つ
ように、上記に説明した手法を用いて全国のあらゆる人
の名前に対応する話者非依存テンプレートを作り出して
記憶する必要がある。しかしながら、現在の技術による
ASR装置は、記憶したテンプレートに対応する数千の
あり得る名前のうちの1つと話された名前を整合させる
ことができない。したがって、ASR装置において、増
加した能力で話された単語を自動的に認識させることが
できる改善が技術上要求されている。
該技術分野において、固有名詞等の任意に話された単語
を早く正確に認識することができるようにASR装置の
能力を増大させるために補助データを用いる方法及び装
置によって技術的進歩が達成される。ASR装置の電話
アプリケーションでは、発呼者から電話番号を求めるの
が普通である。発呼者の電話番号は、発呼者IDやタッ
チトーン入力等の通話または他の既知の方法で得ること
ができる。したがって、本発明の方法及び装置の模範的
な一実施例によれば、発呼者の電話番号は、データベー
スから文書(すなわち発呼者名)を読み出すための索引
として役立つ。次いで、この文書は、ASR装置に利用
可能な選択を制限または規定するために用いられる。
電話番号と関連する文書を読み出すために補助データベ
ースをアクセスするのに用いられる。上述の模範的な実
施例では、発呼者名を含む文書は補助データベースから
読み出される。発呼者名の文書は、発呼者の固有名詞の
デジタル化英数字表現からなる。文書/通話装置は、技
術上知られているように、発呼者名の文書を音素表現に
変換するのに用いられる。名前の音素表現は話者非依存
テンプレートとしてASR装置に記憶され、この表現に
従う通話はASR装置で認識することができる。補助的
な文書データの音素表現への読み出し及び変換により、
ASR装置は、特定の話者による訓練なしで読み出され
たデータの音素表現に対応する話された単語にただちに
応答することができる。
ションの間、電話は、本発明によるASR装置を保有す
るサービスプロバイダーにより受信される。商品やサー
ビスをクレジットカードで買おうとする発呼者は、電話
番号及び名前を促される。発呼者より与えられる電話番
号に基づき、補助データベース(例えば電子的電話番号
簿)がアクセスされ、この電話番号と関連する名前の文
書が読み出される。データベースから読み出された名前
の文書の音素表現は、文書/通話装置で作り出される。
次いで、この音素表現はASR装置で話者非依存テンプ
レートとして記憶されて用いられ、発呼者が話した通り
に名前が認識される。
発音や、劣悪な電話伝送品質や、認識するのが難しい声
を持つ発呼者などのためにASR装置で認識されない場
合は、発呼者は名前のつづりを1文字ずつ与えるよう促
される。データベースから読み出された通りに、書かれ
た名前のつづりの音素表現を作り出すために、文書/通
話装置を用いることができる。また、データベースから
読み出された名前のつづりは話者非依存テンプレートと
してASR装置に記憶され、それにより、ASR装置
は、発呼者の名前のつづりを(発呼者が話した通りに)
認識することを試みることができる。発呼者の名前の話
された発音と(確立された通話認識アルゴリズムに基づ
く)音素表現が整合しない場合は、発呼は人間の案内人
に送られる。
による2つの装置100A及び100Bを示す。音声電
話装置100Aには、電話端末102と、通信線103
A及び103Bと、公衆交換電話網107に配置される
交換サービスポイント(SSP)105が含まれる。明
快にするため、1つの交換サービスポイントが示されて
いるが、運転公衆交換電話網は相互接続されたSSP網
からなる。電話線インタ−フェース装置108は、電源
変動等の網機能不良からASR装置110の機器を保護
すると共に、原通話が装置に届く前にまだデジタル化さ
れていなければ電話端末102から到来する通話をデジ
タル化する。
換機であり、例えば、AT&Tテクニカルジャーナル,
第64巻,第6号,1985年7月〜8月,第1303
〜1564ページや、1981年11月,ベルラボラト
リーレコード,第258ページや、1981年12月,
ベルラボラトリーレコード,第290ページに開示さ
れ、AT&Tで製造された5ESS(登録商標)交換機
である。かけがえとして、SSP105は、1986年
5月27日にエム・ダブリュ・ベックナー(M.W.Beckne
r) に発行された米国特許第4,592,048 号に開示されて
いるISDN交換装置のような分散制御型アナログまた
はデジタル交換機でも良い。図1では、SSP105
は、顧客識別線103を介して電話端末102に接続さ
れると共に、以下に説明されるように線121Bを介し
てホストコンピュータ124と交信する。
びマイクロフォンインターフェース装置109を含むユ
ーザー対話装置100Bが示されている。マイクロフォ
ン104は、技術上知られているように、ASR装置と
顧客間のリンクとしてサービスプロバイダーにより保有
されるキオスクすなわち自動化金銭出納機に配置するこ
とができる。
電気信号に変換され、通信リンク106Aを介してマイ
クロフォンインターフェース装置109に送られる。マ
イクロフォンインターフェース装置109は、通信リン
ク106Bを介するASR装置110への送信前に到来
通話信号をデジタルデータに変換する。
細に説明される)はデータバス125を介してホストコ
ンピュータ124と交信する。ホストコンピュータ12
4には、コンピュータの動作全体を制御する中央処理装
置(CPU)126と、データを一時的に記憶するラン
ダムアクセスメモリ(RAM)128と、データを永久
記憶するリードオンリーメモリ(ROM)130と、ホ
ストコンピュータ124と関連する制御プログラムを記
憶する不揮発性データベース134が含まれる。CPU
126はデータバス132を介してRAM128及びR
OM130と交信する。同様に、CPU126はデータ
バス133を介して不揮発性データベース134と交信
する。入力/出力(I/O)インターフェース136は
データバス135を介してホストコンピュータ124に
接続され、データリンク139を介してI/Oインター
フェース136と交信する構内情報通信網(LAN)1
38と、データリンク141を介してI/Oインターフ
ェース136と交信する補助データベース140と、通
信線121A、SSP105及びデータリンク121B
を介してホストコンピュータ124にデジタルデータを
送信するデータサービス網142とからのデータフロー
を促進する。
110の模範的な実施例の簡略ブロック図を示す。AS
R装置110は話者非依存または話者依存のどちらかの
通話認識を行なうことができ、装置の動作全体を制御す
るCPU202を含む。CPU202は一般的に参照数
字203で表わされた複数のデータバスを有する。ま
た、図には、技術上知られているように、ランダムアク
セスメモリ(RAM)204と、リードオンリーメモリ
(ROM)206と、発呼者にあいさつと助言を発する
通話発生装置218と、書き込み文書を音素表現に変換
する文書/通話(TTS)装置219(CPU202及
びRAM204と交信する)も示されている。
に接続され、発呼者が電話端末102またはマイクロフ
ォン端末104で話した単語、話者依存テンプレート2
14、話者非依存テンプレート216などの通話データ
を一時的に記憶する。ROM206は同様にデータバス
203でCPU202に接続され、通話認識アルゴリズ
ム208及び音素モデル210を含む通話認識及び検定
データを永久記憶する。多くの他の有効な通話認識方法
が技術上知られているが、この模範的実施例では、音素
に基づいた通話認識アルゴリズム208が用いられる。
用語であり、より大きな通話セグメント、例えば形態素
を構成するために他の前記単位と結合することができ
る。例えば、話された単語“オペレータ(operat
or)”の音声を表わすセグメントは“aa”,
“p”,“axr”,“ey”,“dx”及び“ax
r”等の発音の組み合わせで表わすことができる。発音
モデル210は、従来のオフライン処理で話者のサンプ
ルの発音から引き出された通話認識分類データを用いて
コンパイルされる。この処理の間、言語の全ての発音を
表わすように選択された単語が多数の訓練話者(例えば
1000人)により話される。発音は、発音の内容の書
き込み文書を発生させる訓練された個人により処理され
る。
S装置219等の文書/通話装置で受信され、技術上知
られているように、文書/通話変換のルールを用いて書
き込み文書の音素表現を作り出すことができる。次い
で、書き込み文書の音素表現は、発音を音素モデル21
0と比較する通話認識アルゴリズム208の動作から引
き出された音素と比較される。音素モデル210は、発
音の文書/通話変換空引き出された音素と通話認識アル
ゴリズム208で認識された音素間で十分な整合が得ら
れるまで、技術上知られているような調整方法を用いて
この“モデル訓練”処理の間調整される。
識アルゴリズム208と共に用いられる。より詳細に
は、通話認識アルゴリズム208は、話された単語を確
定した音素モデルと整合させる。通話認識アルゴリズム
が整合ありと決定すれば(すなわち、話された発音が予
め定められたパラメータにしたがって音素モデルを統計
的に整合すれば)、音素のリストが生成される。
話された単語の特性の分布を表わすので、訓練話者によ
り代表される同一話者集団(すなわち、生粋のアメリカ
人、スペイン語を話す人々等)に役立つASR装置への
いたるところでのアクセスに用いることができる。
れる発音または成句を表わす音素のリストである。話者
非依存テンプレート216はTTS装置219を介して
書き込み文書を処理することにより作り出され、書き込
み単語または成句の予想される発音を例示する音素のリ
ストが生成される。一般に、多数のテンプレートがRA
Mメモリ204に記憶され、通話認識アルゴリズム20
8に利用可能になる。ある五図無208の仕事は、話さ
れた発音における音素とどのテンプレートが最も良く整
合するかを選ぶことである。
は成句の発音を与える話者を持ち、通話認識アルゴリズ
ム208及び音素モデル210を用いて発音を処理して
アルゴリズムで認識された音素からなる音素のリストを
作ることにより、生成される。この音素のリストは、そ
の特定の発音のための話者依存テンプレート214にな
る。
リストが生成されるように音素モデル210を用いて通
話認識アルゴリズム208で処理される。この音素のリ
ストは、技術上知られている方法を用いて、話者非依存
テンプレート216及び話者依存テンプレート214で
処理されたリストと整合される。通話認識アルゴリズム
208は整合結果を報告する。
的な実施例の話者非依存モードで動作している場合に、
ASR装置で行なわれる作用を説明するフロー図であ
る。本発明の商業的アプリケーションの一例として、顧
客はホームテレホン(電話端末102)から電話をか
け、ASR装置110及びホストコンピュータ124を
用いるサービスプロバイダーより提供されるサービスの
クレジットカードによる購入を希望していると仮定す
る。この例では、顧客はこのサービスを以前に購入して
いなかったので、ASR装置110はこの顧客の特定の
通話パターンを認識するように訓練されていない(すな
わち、この顧客用に確定された話者依存テンプレート2
14が存在しない。)。しかしながら、クレジットカー
ド取り引きが認められるようにするために、ASR装置
110はこの顧客の名前を受信して認識しなければなら
ない。
R装置110が公衆交換電話網107の通信線103
A,103B及びSSP105を介して送られた顧客が
発した到来電話を受信する。かけがえとして、顧客は、
マイクロフォン端末104を含むユーザー対話装置を内
蔵するキオスクからサービスの注文を出すことができ
る。もしそうならば、到来する“電話”は、顧客入力
(例えば会話)がマイクロフォン端末104で検出され
て通信リンク106Bを介して装置に送られる時に、A
SR装置110で受信される。
いて、到来する電話はインターフェース装置(すなわ
ち、それぞれ電話線インターフェース装置108及びマ
イクロフォンインターフェース装置109)で処理さ
れ、ASR装置110において受信された全入力が通常
のデジタルフォーマットになることが保証される。ステ
ップ302に示されるように、ASR装置110の通話
発生装置218は、予め決められた索引(例えば、ホー
ムテレホンナンバー)、この索引と関連する名前及びた
ぶんこの名前のつづり等の入力を顧客に促す。かけがえ
として、本装置は、以下に説明されるように、処理に必
要になるまで名前のつづりを顧客に促すのを引き延ばす
ことができる。
み、要求された入力が受信されたか否かを決定する。ス
テップ304の結果が“NO”決定ならば、処理はステ
ップ306に進み、電話は人間の案内人に送られ、次い
で、処理は終了ステップ308で終わる。ステップ30
4の結果が“YES”決定ならば、処理はステップ31
8に進み、索引、名前及び名前のつづりの顧客の発音は
ASR装置110のRAM204に記憶される。上記の
例では、顧客は話すことにより索引を与えた。索引が顧
客のホームテレホンナンバーの場合は、発呼者IDまた
はタッチトーン入力等の他の既知の方法で取り出すこと
ができる。
話認識アルゴリズム208及びモデル音素(アラビア数
字に関するもの)210を用いて発呼者の索引の認識を
試みる。この索引は、以下に説明されるように、補助デ
ータベースから情報を読み出すために用いられる。索引
のいくつかのアラビア数字が不確かな場合は、本装置は
多数の可能性を認識するようにプログラムすることがで
きる。決定ステップ314では、顧客の索引が前のステ
ップで認識されていたか否かが決定される。この決定ス
テップの結果が“NO”決定ならば、処理はステップ3
06に進み、電話は人間の案内人に送られ、次いで、処
理は終了ステップ308で終わる。
定ならば、処理はステップ316に進み、ASR装置1
10のCPU202はホストコンピュータ124に補助
データを要求する。上記の例では、望ましい補助データ
は、ASCII文書フォーマットにおけるような顧客名
のデジタル的に記憶された表現(例えば、顧客より受信
されたホームテレホンナンバーと関連する名前)であ
る。
24のCPU126で受信された時、CPU126は、
索引(例えば、顧客より与えられたテレホンナンバー)
を用いて、顧客の名前のデジタル表現(例えば、ASC
II文書フォーマット)を読み出すために、どの補助デ
ータをアクセスしなければならないかを決定する。CP
U126は、不揮発性データベース134から受信した
命令に基づいて決定を行なう。
ンティティならばCD−ROMデータベース等の補助デ
ータベース140を保有することができ、これはデータ
リンク141及びI/Oインターフェース136を介し
てホストコンピュータ124と通信する。データベース
140は、顧客の住所及び名前、クレジットカード口座
番号、及びテレホンナンバーで検索される購入歴等の広
範囲にわたる顧客情報を含むことができる。しかしなが
ら、サービスプロバイダーが早く変化する顧客ベースを
有する小規模エンティティならばホストコンピュータ1
24内に(あっ問えばRAM128内に)制限された補
助データベースを記憶することができる。
なかには、補助データをデータリンク139及びI/O
インターフェース136を介してホストコンピュータ1
24にダウンロードすることができるコンピュータ網
(すなわちLAN138)を保有することができるもの
もある。
は、公衆交換電話網107を保有する通信網より提供さ
れるデータサービスに加入していると仮定する。データ
サービス142は、合衆国における全住宅電話のテレホ
ンナンバーと対応する顧客名を含む電子的電話帳を記憶
しているデータベースを含む。上記の例では、データサ
ービス142は、情報(例えば顧客名の文書)のデジタ
ルデータパケットを通信線121Aを介してSSP10
5に送信する。SSP105は、このデジタル情報を通
信線121B乃至I/Oインターフェース136を介し
てホストコンピュータ124に送り、その結果、顧客名
の文書は、ホストコンピュータ124で受信されてRA
M128に記憶される。多数の名前が(ホームテレホン
ナンバーまたはテレホンナンバーと関連する多数の名前
の多数の可能性により)読み出される場合、全ての可能
性のある名前がホストコンピュータに与えられる。
PU202から受信された要求に応じて、補助データベ
ースから読み出された名前の文書がRAM128から読
み出されてTTS装置129で処理され、その結果文書
の音素表現が生成されて、話者非依存テンプレートとし
てRAM204に記憶される。ステップ320に示され
るように、発呼者が話した(及びRAM204に記憶さ
れた)通りの発呼者の名前の認識が、通話アルゴリズム
208と音素モデル210とステップ318で作り出さ
れた話者非依存テンプレートとを用いて試みられる。
で認識が生じたか否かに関する決定が行なわれる。ステ
ップ322の結果が“YES”決定ならば、処理はステ
ップ324に進み、取り引きが承認され、次いで、処理
はステップ326で終る。ステップ322の結果が“N
O”ならば、処理はステップ328に進み、(データベ
ースから読み出された通り)読み出された顧客名のつづ
りの音素表現がTTS装置129で作り出され、第2の
話者非依存テンプレートとして記憶される。ステップ3
30では、顧客が話した通りの顧客名のつづりの認識
が、通話認識アルゴリズム208と音素モデル210と
ステップ328で作り出された話者非依存テンプレート
を用いて試みられる。次いで、処理はステップ332に
進み、発呼者名のつづりが認識されたか否かが決定され
る。ステップ332で“NO”決定ならば、処理はステ
ップ306に進み、発呼は人間の案内人に送られ、次い
で処理はステップ308で終る。ステップ332で“Y
ES”決定ならば、処理はステップ324に進み、取り
引きが承認され、次いで処理はステップ326で終わ
る。
置を用いた顧客と、ASR装置110と、ホストコンピ
ュータ124と、補助データベースとの間の実時間対話
を示す。しかしながら、ASR装置110がLAN13
8でアクセスされる実施例や、顧客名がある期間にわた
ってデータベースに登録、記憶され、かつデータベース
142で与えられるデータサービスが定期的にASR装
置110及びホストコンピュータ124でアクセスされ
る実施例等の他の実施例でも良い。
者特定訓練をすることなく任意に話された単語を認識す
ることができるという点で、先行技術に勝る効果が得ら
れる。上記に説明した実施例は例示のためのものにすぎ
ず、本発明の多くの他の改作が、特許請求の範囲で定義
されるように本発明の範囲から逸脱することなく当業者
により引き出され得ることが理解されるべきである。
連する電話とユーザーの対話装置の簡略ブロック図であ
る。
定を提供するために用いられる図1のASR装置の簡略
ブロック図である。
Claims (16)
- 【請求項1】 単語モデルと少なくとも部分的に認識決
定の基になる相関データとを記憶する第1のデータベー
スを備えた自動通話認識(ASR)装置において、補助
的な第2のデータベースに記憶された情報を用いて前記
ASR装置の能力を高める方法であって、 第1及び第2の部分を有する入力をユーザーから受信す
る工程と、 前記ユーザーから得られた入力を前記ASR装置に記憶
する工程と、 前記ASR装置が前記ユーザーから回収された前記入力
の第1の部分を認識する工程と、 前記入力の第1の部分に関連した、前記補助データベー
スに記憶された補助データを識別して読み出す工程と、 前記補助データベースから読み出された前記情報から引
き出されたテンプレートを作り出す工程と、 前記テンプレートを用いて、前記ユーザーが話した通り
に前記入力の第2の部分を認識する工程とからなること
を特徴とする方法。 - 【請求項2】 請求項1記載の方法において、ユーザー
からの入力を受信する工程は、それぞれ前記入力の前記
第1及び第2の部分に対応する、話された電話番号及び
話された名前を受信する工程からなる方法。 - 【請求項3】 請求項2記載の方法において、テンプレ
ートを用いて第2の部分を認識する工程は、通話認識ア
ルゴリズムを用いて、話された名前を認識する工程から
なる方法。 - 【請求項4】 請求項1記載の方法において、テンプレ
ートを作り出す工程は、文書/通話装置を用いて前記入
力の第2の部分の音素表現を発生させる工程からなる方
法。 - 【請求項5】 請求項1記載の方法において、ユーザー
からの入力を受信する工程は、それぞれ前記入力の前記
第1及び第2の部分に対応する、索引と話された発音と
を受信する工程からなる方法。 - 【請求項6】 電話網において、自動通話認識(AS
R)装置と関連する補助データベースを用いてASR装
置の能力を高める方法であって、 発呼者から到来する発呼を受信する工程と、 前記発呼者に第1及び第2の発音を促す工程と、 発呼者が話した第1の発音を認識する工程と、 前記第1の発音を索引として用いて補助データベースに
記憶された、書き込み文書である補助情報を読み出す工
程と、 前記補助データベースから読み出された通りに前記書き
込み文書の話者非依存テンプレートを作り出す工程と、 前記話者非依存テンプレートを用いて、前記補助データ
ベースから読み出された書き込み文書に対応する第2の
発音を認識する工程とからなることを特徴とする方法。 - 【請求項7】 請求項6記載の方法において、テンプレ
ートを作り出す工程は、文書/通話装置を用いて、前記
補助情報の音素表現を発生させる工程を含む方法。 - 【請求項8】 請求項6記載の方法において、第2の発
音を認識する工程は、通話認識アルゴリズム及び音素の
モデルとを用いる工程を含む方法。 - 【請求項9】 電話網と共に用いられる自動通話認識
(ASR)装置であって、 交換サービスポイントにより役立てられる電話端末と、 入力を受信する手段と、 前記電話端末から受信した前記入力をホストコンピュー
タのランダムアクセスメモリに送る電話線インターフェ
ース装置と、 補助データベースから補助情報を読み出す、前記ホスト
コンピュータ内の中央処理装置と、 前記補助データベースから読み出された前記補助情報の
音素表現を作り出す文書/通話手段と、 前記補助情報と関連する発音を認識する通話認識手段と
からなることを特徴とするASR装置。 - 【請求項10】 請求項9記載のASR装置において、
補助データベースはデータサービスプロバイダーにより
保有されるASR装置。 - 【請求項11】 請求項9記載のASR装置において、
補助データベースはCD−ROMに記憶されるASR装
置。 - 【請求項12】 請求項9記載のASR装置において、
補助情報は構内情報通信網空読み出されるASR装置。 - 【請求項13】 請求項9記載のASR装置において、
音素表現は話者非依存テンプレートとして用いられるA
SR装置。 - 【請求項14】 請求項9記載のASR装置において、
入力を受信する手段は発呼者IDサービスであるASR
装置。 - 【請求項15】 請求項9記載のASR装置において、
入力を受信する手段はタッチトーン入力手段であるAS
R装置。 - 【請求項16】 請求項9記載のASR装置において、
通話認識手段は、モデル発音を話された発音と比較する
アルゴリズムを含むASR装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/413330 | 1995-03-30 | ||
US08/413,330 US5724481A (en) | 1995-03-30 | 1995-03-30 | Method for automatic speech recognition of arbitrary spoken words |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08320696A true JPH08320696A (ja) | 1996-12-03 |
JP3561076B2 JP3561076B2 (ja) | 2004-09-02 |
Family
ID=23636825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07856496A Expired - Lifetime JP3561076B2 (ja) | 1995-03-30 | 1996-04-01 | 任意に話された単語の自動通話認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5724481A (ja) |
EP (1) | EP0735736B1 (ja) |
JP (1) | JP3561076B2 (ja) |
DE (1) | DE69633883T2 (ja) |
ES (1) | ES2233954T3 (ja) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822727A (en) | 1995-03-30 | 1998-10-13 | At&T Corp | Method for automatic speech recognition in telephony |
JPH10105368A (ja) * | 1996-07-12 | 1998-04-24 | Senshu Ginkou:Kk | 音声による処理依頼受付装置及び方法 |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
GR1003372B (el) * | 1997-09-23 | 2000-05-04 | Συσκευη καταχωρησης ψηφιοποιημενων φωνητικων πληροφοριων και ανακτησης τους μεσω τηλεφωνου με αναγνωριση φωνης | |
US6404876B1 (en) * | 1997-09-25 | 2002-06-11 | Gte Intelligent Network Services Incorporated | System and method for voice activated dialing and routing under open access network control |
DE69820222T2 (de) * | 1997-10-07 | 2004-09-30 | Koninklijke Philips Electronics N.V. | Verfahren und vorrichtung zur aktivierung einer sprachgesteuerten funktion in einem mehrplatznetzwerk mittels sowohl sprecherabhängiger als auch sprecherunabhängiger spracherkennung |
US6058364A (en) * | 1997-11-20 | 2000-05-02 | At&T Corp. | Speech recognition of customer identifiers using adjusted probabilities based on customer attribute parameters |
EP0942575A3 (en) * | 1998-03-12 | 2001-11-14 | Novcom N.V. | Adaptive telephone answering system |
US6278771B1 (en) * | 1998-03-19 | 2001-08-21 | Ameritech Corporation | Method and system for providing enhanced call waiting with verification and name change service |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6798868B1 (en) * | 1998-11-02 | 2004-09-28 | Verizon Services Corp. | Call notification service for use with call waiting |
FR2786600B1 (fr) * | 1998-11-16 | 2001-04-20 | France Telecom | Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
US6691089B1 (en) * | 1999-09-30 | 2004-02-10 | Mindspeed Technologies Inc. | User configurable levels of security for a speaker verification system |
US8392188B1 (en) | 1999-11-05 | 2013-03-05 | At&T Intellectual Property Ii, L.P. | Method and system for building a phonotactic model for domain independent speech recognition |
US7286984B1 (en) * | 1999-11-05 | 2007-10-23 | At&T Corp. | Method and system for automatically detecting morphemes in a task classification system using lattices |
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
US6513003B1 (en) | 2000-02-03 | 2003-01-28 | Fair Disclosure Financial Network, Inc. | System and method for integrated delivery of media and synchronized transcription |
US6690772B1 (en) * | 2000-02-07 | 2004-02-10 | Verizon Services Corp. | Voice dialing using speech models generated from text and/or speech |
US6473734B1 (en) * | 2000-03-27 | 2002-10-29 | Motorola, Inc. | Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US6826529B1 (en) | 2000-08-09 | 2004-11-30 | Bellsouth Intellectual Property Corporation | Network and method for providing a call screening telecommunications service with automatic speech recognition capability |
US6907111B1 (en) | 2000-08-09 | 2005-06-14 | Bellsouth Intellectual Property Corporation | Network and method for providing a name and number delivery telecommunications services with automatic speech recognition capability |
US6778640B1 (en) * | 2000-08-09 | 2004-08-17 | Bellsouth Intellectual Property Corporation | Network and method for providing a user interface for a simultaneous ring telecommunications service with automatic speech recognition capability |
US6873686B1 (en) | 2000-08-09 | 2005-03-29 | Bellsouth Intellectual Property Corporation | Network and method for providing a calling name telecommunications service with automatic speech recognition capability |
US6505163B1 (en) * | 2000-08-09 | 2003-01-07 | Bellsouth Intellectual Property Corporation | Network and method for providing an automatic recall telecommunications service with automatic speech recognition capability |
US8041023B1 (en) | 2000-09-29 | 2011-10-18 | Aspect Software, Inc. | System and method of using a phone to access information in a call center |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US7127397B2 (en) * | 2001-05-31 | 2006-10-24 | Qwest Communications International Inc. | Method of training a computer system via human voice input |
US20040002850A1 (en) * | 2002-03-14 | 2004-01-01 | Shaefer Leonard Arthur | System and method for formulating reasonable spelling variations of a proper name |
US7389230B1 (en) | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US8495002B2 (en) * | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US7073203B2 (en) * | 2003-08-08 | 2006-07-11 | Simms Fishing Products Corporation | Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US7440895B1 (en) * | 2003-12-01 | 2008-10-21 | Lumenvox, Llc. | System and method for tuning and testing in a speech recognition system |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
DE602004024172D1 (de) * | 2004-05-21 | 2009-12-31 | Harman Becker Automotive Sys | Automatische Erzeugung einer Wortaussprache für die Spracherkennung |
US7099445B2 (en) * | 2004-06-22 | 2006-08-29 | International Business Machines Corporation | Name-alias based delivery of subscriber services |
US8923838B1 (en) | 2004-08-19 | 2014-12-30 | Nuance Communications, Inc. | System, method and computer program product for activating a cellular phone account |
US7533018B2 (en) * | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
US20080178403A1 (en) * | 2006-08-21 | 2008-07-31 | Bryant Corwin J | Systems and methods for swab transport in pipeline rehabilitation |
EP1895748B1 (en) | 2006-08-30 | 2008-08-13 | Research In Motion Limited | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance |
US9386154B2 (en) * | 2007-12-21 | 2016-07-05 | Nuance Communications, Inc. | System, method and software program for enabling communications between customer service agents and users of communication devices |
US8484034B2 (en) * | 2008-03-31 | 2013-07-09 | Avaya Inc. | Arrangement for creating and using a phonetic-alphabet representation of a name of a party to a call |
US8391464B1 (en) | 2010-06-24 | 2013-03-05 | Nuance Communications, Inc. | Customer service system, method, and software program product for responding to queries using natural language understanding |
US9118669B2 (en) | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
CN102479508B (zh) * | 2010-11-30 | 2015-02-11 | 国际商业机器公司 | 用于将文本转换成语音的方法和系统 |
US9058586B2 (en) | 2011-07-29 | 2015-06-16 | International Business Machines Corporation | Identification of a person located proximite to a contact identified in an electronic communication client |
JP5818271B2 (ja) * | 2013-03-14 | 2015-11-18 | Necフィールディング株式会社 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8809898D0 (en) * | 1988-04-27 | 1988-06-02 | British Telecomm | Voice-operated service |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
US5165095A (en) * | 1990-09-28 | 1992-11-17 | Texas Instruments Incorporated | Voice telephone dialing |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
US5479489A (en) * | 1994-11-28 | 1995-12-26 | At&T Corp. | Voice telephone dialing architecture |
-
1995
- 1995-03-30 US US08/413,330 patent/US5724481A/en not_active Expired - Lifetime
-
1996
- 1996-03-20 DE DE69633883T patent/DE69633883T2/de not_active Expired - Lifetime
- 1996-03-20 EP EP96301905A patent/EP0735736B1/en not_active Expired - Lifetime
- 1996-03-20 ES ES96301905T patent/ES2233954T3/es not_active Expired - Lifetime
- 1996-04-01 JP JP07856496A patent/JP3561076B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69633883T2 (de) | 2005-11-17 |
EP0735736A3 (en) | 1998-10-07 |
EP0735736A2 (en) | 1996-10-02 |
DE69633883D1 (de) | 2004-12-30 |
JP3561076B2 (ja) | 2004-09-02 |
EP0735736B1 (en) | 2004-11-24 |
ES2233954T3 (es) | 2005-06-16 |
US5724481A (en) | 1998-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3561076B2 (ja) | 任意に話された単語の自動通話認識方法 | |
EP0780829B1 (en) | Method for automatic speech recognition in telephony | |
US6327343B1 (en) | System and methods for automatic call and data transfer processing | |
CA2209948C (en) | Automatic vocabulary generation for telecommunications network-based voice-dialing | |
JP3479304B2 (ja) | 音声コマンド制御及び検証システム | |
US5832063A (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
US6462616B1 (en) | Embedded phonetic support and TTS play button in a contacts database | |
JP3168033B2 (ja) | 音声テレフォン・ダイヤリング | |
CA2189011C (en) | Method for reducing database requirements for speech recognition systems | |
US8964949B2 (en) | Voice response apparatus and method of providing automated voice responses with silent prompting | |
US5930336A (en) | Voice dialing server for branch exchange telephone systems | |
US20050049868A1 (en) | Speech recognition error identification method and system | |
JPH10215319A (ja) | 音声によるダイヤル方法および装置 | |
JPH06242793A (ja) | 仲間正規化スコアリングを使用する話者検証法 | |
US20180255180A1 (en) | Bridge for Non-Voice Communications User Interface to Voice-Enabled Interactive Voice Response System | |
US20020076009A1 (en) | International dialing using spoken commands | |
CA2149012C (en) | Voice activated telephone set | |
JPH04167749A (ja) | 音声応答装置 | |
Wilpon | Applications of voice-processing technology in telecommunications | |
Wilpon | Voice-processing technologies--their application in telecommunications. | |
Copperi | Speech technology applications to telephone services | |
Tschirgi et al. | Speech technology and applications in the intelligent network | |
JPH06208390A (ja) | 音声認識装置および音声認識方法 | |
Park et al. | Membering TM: A Conference Call Service with Speaker-Independent Name Dialing on AIN | |
MXPA97005352A (en) | Automatic generation of vocabulary for dialing via voice based on telecommunication network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20021106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040527 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090604 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100604 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100604 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110604 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120604 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120604 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |