JP4247929B2 - 電話における自動音声認識のための方法 - Google Patents
電話における自動音声認識のための方法 Download PDFInfo
- Publication number
- JP4247929B2 JP4247929B2 JP34141796A JP34141796A JP4247929B2 JP 4247929 B2 JP4247929 B2 JP 4247929B2 JP 34141796 A JP34141796 A JP 34141796A JP 34141796 A JP34141796 A JP 34141796A JP 4247929 B2 JP4247929 B2 JP 4247929B2
- Authority
- JP
- Japan
- Prior art keywords
- service system
- voice activated
- voice
- cpu
- activated service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 59
- 238000004891 communication Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 21
- 238000013518 transcription Methods 0.000 claims description 20
- 230000035897 transcription Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- DLVXCEBZMMWMQK-UHFFFAOYSA-N n-(4-methoxyphenyl)-5-methyl-[1,2,4]triazolo[1,5-a]pyrimidin-7-amine Chemical compound C1=CC(OC)=CC=C1NC1=CC(C)=NC2=NC=NN12 DLVXCEBZMMWMQK-UHFFFAOYSA-N 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/38—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
- H04M3/382—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42204—Arrangements at the exchange for service or number selection by voice
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
- H04Q3/42—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2242/00—Special services or facilities
- H04M2242/22—Automatic class or number identification arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/38—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
- H04M3/382—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
- H04M3/385—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42025—Calling or Called party identification service
- H04M3/42034—Calling party identification service
- H04M3/42059—Making use of the calling party identifier
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
- H04Q3/72—Finding out and indicating number of calling subscriber
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Telephonic Communication Services (AREA)
Description
【発明の属する技術分野】
本発明は、自動音声認識に関するものである。より詳しくは、本発明は自動音声認識(ASR)システムに関連した拡張電気通信サービス設備に関するものである。
【0002】
【従来の技術】
多くの用途において、繰り返しのタスクを自動化するためにコンピュータを使用することは、タスクがより迅速に効率的に行うことができるので、有利なことである。音声認識は、音声技術の1つであり、人々が発語を使用してコンピュータと対話できるものである。音声認識は、しかしながら、異なる人々の間で音声特性とパターンの固有の変化があるために、開発中の技術である。
【0003】
音声認識の1つの用途として電話ネットワークにおけるものがある。自動音声認識(ASR)システムを使用することで、人々は、押しボタンコードを押したりオペレータの仲介なしに、種々の電話サービスあるいは機能を利用することができる。例えば、音声認識は、ダイヤル処理に使用することができて、電話のユーザは電話番号を思い出したり、見たり、あるいは尋ねたりする必要がなくなる。ユーザインターフェースの物理的な操作の代わりに音声を使用できる機能に故に、電気通信が進歩する際にASR技術に対する要求が高まっている。一般的に、通信において使用されるASRシステムには2種類のもの、つまり、話者に依存するものと話者依存しないものがある。
【0004】
話者に依存する自動音声認識システムの1つの典型例においては、話者の音声パターンに応答するために、特定の話者により「訓練された」コンピュータを使用している。この場合、訓練のプロセスは、アナログの音声入力を発生するために音(例えば、単語)を発語すること、音声入力を信号データに変換すること、音を表すテンプレートを発生すること、およびコンピュータに動作を教唆する指示のような適当な特定の応答データにインデックス付けしたテンプレートを蓄積すること、を含んでいる。
【0005】
リアルタイムでの動作の間において、話者により話された単語はASRシステム内でデジタル化されるとともに話者の従属した音声認識テンプレートのセットと比較され、話された単語とテンプレートとの間で合致があった場合には、コンピュータにより特定の応答がなされる。話者に依存するASRシステムは、訓練プロセスを調整することができる場合、つまり、同じ個人が多くの機会にシステムにアクセスする初期段階で使用される。
【0006】
個々の訓練が調整されない用途に対しては、一般的は話者に依存しないASRシステムが使用されている。話者に依存しないASRシステムの典型的な例では、コンピュータを、多くの異なる人々により話された単語の一部を表す、複合のテンプレートつまりクラスタを蓄積するために使用している。単語の一部であるこれらのテンプレートは同様にサブワードと称される。テンプレートは、音声特定における多くの発音と変形の広い範囲を表す、多くのデータサンプル(例えば、複数の話者により話された単語)から派生される。話者に依存しない音声認識システムは話者による特別な訓練なしに、広い範囲の人々と対話できる。
【0007】
音声認識が採用されている1つの一般的な領域として、音声作動式の(voice-driven)電気通信サービスがある。音声作動式の電気通信サービスの1例として、上記で簡単に説明した音声ダイアル機能がある。音声ダイヤルにおいては、加入者は他の相手に対する出接続呼を、呼び出される相手を識別するキーワードを単に話すだけで開始する。例えば、加入者がJohnsonの名前の相手を呼び出したい場合、加入者は単に「Johnson」の単語を電話に向かって話すだけで良い。このようなケースでは、音声作動式のサービス装置は、一般的には、加入者の電話内あるいはネットワークのサービスプロバイダの場所にあり、Johnsonの電話番号のために適切なダイヤル信号を発生するため、キーワードを認識するために音声認識を行う。音声ダイヤルは、ダイヤル操作を手動でする必要および電話番号を思い出す必要をなくすことができる。
【0008】
音声ダイヤルに加えて、他の音声作動式の電気通信サービスでは、コマンドとキーワードが提案されている。コマンドは実行されるべき動作を識別し、またキーワードは実行されるコマンドに関連する相手を識別するためのものである。例えば、会議呼は、加入者が現在の電話会話に別の相手を加えあるいは会議する方法である。音声作動式の会議呼は、加入者が会議コマンドおよび加えるべき相手の名前だけを唱える必要がある。例えば、加入者が現在Johnsonとの呼を維持しており、また電話呼に他の相手Perezを加えあるいは会議したい場合を考える。音声作動式の会議呼を使用して、加入者は「会議」の口頭のコマンドを発行する。音声作動サービスは次いで、可聴のプロンプト「誰との会議」で応答し、加入者は「Perez」と答える。通信サービスシステムは次いで、Perezの電話番号にダイヤルし、Perezが応答した場合、Perezを呼に加える。上記したようなビデオ作動式の通信サービスは市場で利用可能である。例えば、Massachusetts、LexingtonのWildfireAssociatesのWildfire(登録商標)Systemは、このような音声作動式のサービスをいくつか提供している。
【0009】
【発明が解決しようとする課題】
このようなシステムに関連した欠点は、このようなサービスを行うために必要な音声識別テンプレートを求めるための方法である。音声作動式のサービスは、加入者が通信する相手に対応する音声認識テンプレートの集合体へのアクセスを必要とする。このテンプレートの集合体は典型的には、各相手の名前の音声認識テンプレートを相手の電話番号に関連させたデータベースにより具体化される。よって、例えば、音声ダイヤル装置が「Perez」の名前を認識することにより「Perez」のような音声コマンドを処理し、またPerezの名前を表す音声認識テンプレートに関連した電話番号を調べる。したがって、音声作動システムは、加入者によりしばしば呼される番号のリストおよび各番号に関連したいーアートあるいは名前の音声識別テンプレートを含むデータベースを維持しなければならない。
【0010】
典型的な従来技術では、このようなデータベース情報は複雑な話者に依存する訓練工程によって加入者により提供される。特定の相手に対応するデータベースのエントリ、レコード、を確立するために、加入者は一般的には、例えば「Johnson」や「Perez」のようなキーワードないし名前を、ASRシステムが音声認識テンプレート、あるいはキーワードあるいは名前に関連したサブワード転写を確立するまで発音しなければならない。このような工程は時間がかかるだけでなく、音声作動サービスが制限され、加入者がすでにデータベース内に「入力」した人だけに関してしか使用できなくなる。さらに、得られたテンプレートは話者に依存するテンプレートであり、換言すれば、加入者の音声特性に依存したテンプレートである。この結果、他の話者からの音声を認識させる場合にはエラーが起こってしまう。
【0011】
したがって、サブワード転写および関連する電話番号のデータベースを確立するためのより便利なプロセス、より詳しくは、話者に依存しないテンプレートを使用したデータベースを確立するプロセスの必要性がある。
【0012】
【課題を解決するための手段】
上記の課題は、音声作動サービスシステムが迅速且つ容易に音声認識テンプレートのデータベースを確立することができるために付加データを利用する、本発明の方法とシステムにより解決される。このような付加データは、多くのあるいはすべての加入者の入接続呼および出接続呼に関連した本文(テキストの)名前データ(textual name data )を含んでいる。本文名前データは、テキスト−音声(text-to-speech)変換方法を使用して音声認識テンプレートを発生するために使用される。数字および音声認識テンプレートは次いで、相手に関するビデオ作動サービスを容易化するためにデータベース内に記録される。
【0013】
特に、本発明の方法は、第1の入力を求めることを含んでおり、第1の入力は電気通信ネットワークのユーザのアスペクトを識別するものである。次いで、付加データベース内の第1の入力に関連した付加情報が識別され、また付加データベースから検索される。この付加情報は次いで、音声認識テンプレートを生成するために利用される。音声認識テンプレートは、その後、第2の入力を認識するために使用される。第2の入力は、話された発語を含み、また付加情報を表す情報を含んでいる。
【0014】
例示的な実施の形態では、加入者の電話呼は、本発明の拡張された音声作動式のサービスシステムを通って経路指定される。発呼者あるいは自動ライン識別機能により提供された電話番号に基づいて、電話番号に関連した本文名前データを検索するために、システムは付加データベースにアクセスする(例えば、逆ディレクトリ検索)。本文名前データは次いで、音声認識テンプレートを発生するために、テキスト−音声システムにより処理される。音声認識テンプレートは次いで加入者の特定のデータベース内に蓄積される。加入者はその後、呼をするために音声作動コマンドを呼び出し、あるいは相手の名前に関連してコマンドを話すことで相手に関する音声作動サービスを呼び出す。サービスシステムは、加入者により話された相手の名前をデータベース情報を使用して認識するために、音声認識機を採用している。
【0015】
上記の特徴および利点は、その特徴および利点とともに、添付図面を参照した以下の説明から当業者により明らかなものとなる。
【0016】
【発明の実施の形態】
図1は、ネットワークサービスシステム10、外部交換機20、および公衆電話ネットワーク(PSTN)30を含む、通信ネットワークを示したものである。PSTN30は、複数の加入者セット、例えば加入者セット32および34にに接続されている。本発明による、拡張された音声作動サービスは、サービスプロバイダにより維持され、以下に説明する、ネットワークサービス10を通して一般的に提供される。
【0017】
一般的に、外部交換機20は、1985年7月−8月のAT&T Technical JournalのVol.64の第1303−1564頁、1981年11月のBell Laboratories Recordの第258頁、および1981年12月のBell Laboratories Recordの第290頁に記載され、ATT&Tにより製造される、E5ESS(登録商標)Switchのような、分散制御、自局側デジタル交換機である。あるいは、外部交換機は、Nothern Telecomから入手可能なモデルDSM−100のような他のデジタル交換機の製品であっても良い。ネットワークサービスシステム10は、データトランク22およびアナログないし音声トランク24を経て、外部交換機20に接続された交換構造体11を含んでいる。音声トランク24は、複数のアナログ音声チャネル、例えば250チャネルを供給するために動作可能である。データトランク22は外部交換機20のデータ制御インターフェース、例えば5ESS(登録商標)交換システムのPROXYインタフェースに接続されている。同様なインターフェースは、Northern TelecomのDMS−100上にも存在している。
【0018】
交換構造体11は、音声トランク24上の複数の音声チャネルに接続され、またデータトランク22にさらに接続された、デジタル交換構造体である。交換構造体11に加えて、ネットワークサービスシステム10はさらに、複数、つまりN個のサービス回路121 …12N および制御器13を含んでいる。サービス回路121 …12N は、図1の通信システムの加入者に1つまたはそれより多くの拡張サービスを提供するために動作する回路であり、また図2にさらに詳細に説明されている。制御器13は、本実施の形態では、コンピュータを含んでおり、またネットワークサービスシステム10の動作の全体の制御を行う。
【0019】
交換構造体11は、N個のサービス回路121 …12N に対応する複数の音声ライン141 …14N を通して接続されている。交換構造体11、サービス回路121 …12N のそれぞれ、および制御器13は、データ通信の目的で、ローカルエリアネットワーク(LAN)15を介して接続されている。
【0020】
図2は、図1のネットワークサービス10において使用されるサービス回路121 の一例を示したものである。サービス回路121 だけを詳細に示したが、他のサービス回路122 …12N も好ましくは同じあるいは同様な構造であり、同様に動作する。サービス回路121 は、アナログラインインターフェース51、ASR回路52、再生/記録回路53、CPU回路54、およびLANインターフェース55を含んでおり、これらは全てデータバス56上でデータ通信するために相互接続されている。アナログラインインターフェース51、ASR回路52および再生/記録回路53はさらに、音声バス57を経て、音声信号と通信するために接続されている。
【0021】
アナログラインインターフェース51は音声ライン141 と音声バス57との間のインターフェースとして機能する。サービス回路121 内で行われる全ての音声通信動作は、アナログラインインターフェース51を通って外部回路と音声信号を交換する。アナログラインインターフェース51は例えば、Dialogicから入手可能なモデルLSI120カードである。ASR回路52は、以下に説明する、音声作動通信サービスを実行するために必要な、音声認識機能を行う、自動音声認識回路である。ASR回路52の構造と動作は図3に関連して以下にさらに詳しく説明する。再生/記録回路53は、予め記録されあるいは自動的に記録されたメッセージの両方を再生し、また入接続されたメッセージを記録する。再生/記録回路53は好ましくは,Dialogicから入手可能なモデルD/8xカードである。LANインターフェース55は、図1のLAN15とサービス回路121 のデータバス56との間のデータインターフェースを提供するべく動作する。LANインターフェース55は好ましくは、市場で入手可能なイーサネットインターフェースである。
【0022】
CPU回路54はCPU、ランダムアクセスメモリのような揮発性メモリ、および1つまたはそれより多くのディスクドライブないし他の同様な記憶装置を含んでいる。CPUは好ましくはIntel 80486マイクロプロセッサを含むが、他のプロセッサでも使用可能である。一般的に、CPU回路54内のCPUは、ディスクドライブ、あるいは図1の制御コンピュータ13のいずれから揮発性メモリ内にロードされたプログラムを実行する。CPUは、本発明の拡張された、音声作動の通信サービスを提供するべく、サービス回路121 を制御するために、例えば、図3A、図4、および図6に関連して以下に説明された動作を含むプログラムを実行する。CPU回路54は、好ましくは、Dialogicから入手可能なモデルCAT 1010 CPUである。
【0023】
図3は、図1に示した、ASR回路52の例示的な実施の形態の簡略化されたブロックダイヤグラムを示したものである。話者に依存しないか話者に依存する音声認識のいずれかの機能を有する、ASRシステム110は、システムの全体の制御をするためのCPU202を含んでいる。CPU202は参照番号203により全体を示された複数のデータバスを有している。また、ランダムアクセスメモリ(RAM)204、リードオンリーメモリ(ROM9206、再生/記録回路53により提供されないグリーティングやプロンプトを発行する音声発生ユニット218も含まれている。最後に、公知のように、書かれたテキストをサブワード転写に転写するためにテキスト−音声(TTS)システム219が設けられている(CPU202とRAM204と通信する)。
【0024】
RAM204はバス203によりCPU202に接続されており、図2の音声バス57により提供された音声信号のような音声データを一時的に蓄積する。RAM204はさらに、音声認識テンプレート、および特に、話者に依存するテンプレート214および話者に依存しないテンプレート216を一時的に記憶する。ROM206は、内部データバス203によりCPU202に同様に接続され、音声認識アルゴリズム208およびサブワードのモデル210を含む、音声認識および検証データを永久的に記憶する。この例示的な実施の形態では、サブワードを基盤として音声認識アルゴリズム208が利用されているが、他のてきとうな音声認識の技術を用いることも可能である。
【0025】
サブワードは、例えば単語のような、より大きい音声のセグメントを形成するために、他のユニットに結合することができる、音声の小さいユニットのセットの1つを参照する用語である。例えば、発音された「operator」の音声上のセグメントは、「aa」、「p」、「axr」、「ey」、「dx」、および「axr」である。サブワードのモデル210は、従来のオフラインのプロセスにおいて話者の発語のサンプルから派生された、音声認識分類データを使用してコンパイルされる。オフラインのプロセスの間は、言語の全てのサブワードを示すように選択された単語は、多数の訓練された話者(例えば、1000人)により話される。発語は、発語の内容の書かれたテキストを発生する訓練された個々の人間により処理される。
【0026】
サブワードのモデル210は、多数の話者により話された単語の特性の分布を表している。モデル210は、訓練された話者(つまり、生粋のアメリカ人、カスチール人のスペイン語会話母集団)により表される同じ話者の母集団として機能し、ASRシステムへの広範囲のアクセスのために使用することができる。
話者に依存したないテンプレート216は、サブワード、あるいは予期する発語あるいは熟語を示すサブワード転記のリストである。話者に依存しないテンプレート216は、書かれた単語または熟語の予期された発音を例証するサブワード転記を発生するため、TTSシステム219により書かれたテキストを処理することで生成される。一般的には、音声認識アルゴリズム208に利用可能な多数のテンプレートがRAMメモリ204内に蓄積される。アルゴリズム208のタスクは、話された発語内のサブワードにどのテンプレートが最も近似して合致するかを選択することである。話者に依存するテンプレート214は、話者が、話者に依存する訓練として知られているプロセス内で単語または熟語を発語することで発生される。
【0027】
リアルタイムでの音声認識動作の間において、発語は、サブワードのモデル210を使用して、音声認識アルゴリズム208により処理される。発語は、サブワードのリストが発生されるように、サブワードのモデル210と比較される。このサブワードのリストは、話者に依存しないテンプレート216および話者に依存するテンプレート214により提供されたリストと、公知の技術を使用して、合致される。音声認識アルゴリズム208はこの合致の結果を報告する。複雑さが変化するいくつかの公知の音声認識アルゴリズムは、サブワードのモデル210、話者に依存するテンプレート214、話者に依存しないテンプレート216を使用して、発語を認識するために使用される。
【0028】
音声発生ユニット218は、音声を合成するために音声出力信号を発生するべく動作する。特に、音声発生ユニット218は、話者に依存しないテンプレート216の1つのようなサブワード転記を受領し、また公知の方法でこれから音声出力信号を発生するために動作する。音声出力信号は、増幅されて音声受信器に提供されたときには、サブワード転記に対応する可聴信号を生成する信号である。音声発生器ユニットは、例えば、話者に依存しないテンプレート216がそのために存在する相手の名前の可聴の発音を容易化するために使用される。
【0029】
図1、図2および図3に示されたネットワークサービスシステム10は、多くのことのなかでも特に、拡張された音声作動サービスを提供するために動作する。このようなサービスは、改良された音声ダイヤル、音声作動式の会議呼、音声作動式のメッセージ通信および他のサービスを含むものである。このようなサービスの基本的なバリエーションは、Wildfire(登録商標)システムのような、従来技術のシステムにおいて公知であり、採用されている。本発明は、このようなサービスを、音声認識テンプレートを入力するプロセスを簡略化することで、著しく高めるようにしたものである。本発明は、ASRシステムを訓練するための時間がかかるプロセスに加入者が係る必要をなくすものである。
【0030】
図1、図2および図3の種々の構成要素は、大体、次のような態様で動作する。まず、加入者セット34に関連した加入者が図1のシステム10によって提供される音声作動式の通信サービスに加入したとする。動作の一例として、電話加入者セット32を使用する電気通信ネットワークのユーザは電話加入者セット34またはこの近くに位置する加入者に電話呼を発生する。加入者への呼をここで、入接続呼と称する。入接続呼はPSTN30を経て外部交換機20に経路指定される。外部交換機20は次いで、この呼をネットワークサービスシステム10を通り、アナログライン24を通って経路指定する。交換構造体11は、制御コンピュータ13の監視下、入接続呼を予め選択されたサービス回路12X にライン14X 上で切換え経路指定する。この呼は、次いで、公知のように、ライン14X 、交換構造体11、音声トランク24、交換機20およびPSTN30を経て加入者セット34に戻される。この実施の形態では、加入者からの全ての呼および加入者への全ての呼は同じサービス回路12X を通って経路指定される。
【0031】
呼の工程の間、サービスユニット12X は、図のCPU54の監視下で、音声ダイヤル、音声作動式の会議呼、あるいは音声作動式のメッセージ検討を含む、本発明による音声作動式の電気通信サービスを提供する。このようなサービスを容易化するために、サービス回路12X は外部交換機20からの呼に関連するデータを同様に受領する。特に、交換構造体11はこのようなデータをデータトランク22上で交換機20から受領する。制御コンピュータ13の指示の下で、交換構造体11はデータを対応するサービス回路12X にLAN15を経由して経路指定する。サービス回路12X 内では、データはデータバス56上でLANインターフェース55を通って提供される。同様に、音声認識のために必要とされる音声信号および音声作動サービスを提供するために必要とされるメッセージ通信は、音声ライン14X からアナログラインインターフェース51を通って、音声バス57上で提供される。
【0032】
CPU回路54のCPUは図4および図5に例示されたフローダイヤグラムにしたがって動作し、拡張された音声作動サービスを提供する。特に、図4と図5は入接続呼を取り扱う際のCPUの一例の動作を、また図6は加入者開始のサービスを取り扱う際のCPUの一例の動作を、それぞれ示したものである。加入者開始のサービスは、電話のオフフックを行うような、加入者の動作により起動される、音声作動式のサービスである。図4、図5および図6については以下に説明する。このような動作は一例であり、当業者は本発明の原理を実行する、他の工程および動作を容易に案出できる。
【0033】
いずれの場合でも、本発明の重要な特徴には、加入者の音声認識テンプレートのデータベースが発生され維持されることが含まれる。加入者のデータベースは、1つまたはそれより多くのレコードを含んでおり、各レコードは、図1の電話加入者セット32に対応するユーザのような、他の電気通信ネットワークのユーザに関連している。データベースの各レコードは、特定のユーザの電話番号およびユーザの名前に対応する音声認識テンプレートを含んでいる。このようなレコードは、電話番号に名前を関連付けさせる音声作動サービスにおいて使用される。
【0034】
本発明によれば、CPU回路54のCPUは、このようなデータベースのレコードを、複雑な訓練工程なしに、自動的に発生する。好ましくは、CPUは、呼に関連した相手に対する従来のレコードが存在しない場合には、各入接続される電話呼あるいは出接続される電話呼に対してデータベースのレコードを自動的に発生する。図3Aの下側は、各入接続呼および出接続呼に対応するデータベースのレコードを発生するために、上記のシステムにより実行される操作のフローダイヤグラムを示したものである。
【0035】
まず、ステップ350において、CPU回路54のCPUは接続アドレスを求める。この接続アドレス、この実施の形態においては、入接続呼あるいは出接続呼に対する電話番号である。呼が出接続の場合には、CPUは好ましくは呼ばれた相手の番号を加入者によりダイヤルあるいは話された数字から求める。上記したように、全ての加入者の入接続呼および出接続呼はサービス回路12X を通って経路指定される。この結果、ダイヤルされた数字は、外部交換機20から、図1のデータトランク22、交換構造体11、LAN15、図2のLANインターフェース55を経由して求められる。呼が入接続の場合、CPUは、好ましくは、発呼者IDのようなサービスを可能とする、入接続する発呼者のライン識別(「ICLID」)として知られている交換機20より入手可能な情報から発呼者の番号を求める。ICLID情報はまた、同じ経路で交換機20から入手可能である。発呼者の番号がICLIDから求めることができない場合、発呼者はその電話番号を話すように促される。このような場合は以下に図4に関連して説明する。
【0036】
次に、ステップ351において、CPU351は、相手に関する情報を求めるために付加のデータベースを利用する。この実施の形態においては、CPUは、入接続する発呼者の名前、あるいは少なくとも電話番号に通常関連した人の名前に対応するテキストデータを求めるために、電話番号を使用して逆のデータベース探索を行う。このような場合、付加データベースは、PSTNサービスプロバイダにより維持されるカスタマデータベース、あるいはPhoneDisk(登録商標)のような、複数の電話リストを含むCO−ROMデータベースである。付加データベースがPSTNカスタマデータベースの場合、CPUはデータライン22および交換機20を通ってデータベースと通信する。
【0037】
他の実施の形態として、交換機20は発呼者に対応する本文名前データを直接提供する。この場合、ステップ350と351は、CPU回路54のCPUではなくて、交換機20あるいはPSTN30のいずれかの内部に位置されたCPUにより実行される。
【0038】
いずれの場合でも、ステップ352において、CPUはASR回路523に、発呼者の名前の音声認識テンプレートを発生するように指示する。この実施の形態によれば、音声認識テンプレートは、入接続される発呼者の最初と最後の名前のサブワード転記から構成される。特に、CPUは、発呼者の名前に対応するテキストデータを図3に例示した、ASR52のテキスト−音声(TTS)システム219に提供する。TTS219は次いで、本文名前のサブワード転記を発生する。ASR52は、得られたサブワード転記をCPUに提供する。その後、ステップ354において、CPUは、電話番号、名前テキストデータ、および名前サブワード転記を使用して、加入者のデータベース内にレコードを生成する。加入者データベースは次いで、CPUが例えば音声ダイヤルのようなビデオ作動サービスを行うのを補助するために使用される。
【0039】
上記したステップは、本発明による音声作動式の電気通信サービスシステム内でのCPUの一般的な動作を述べたものである。明らかなように、図3Aに関連して上記で説明した操作は、図4、図5および図6に関して以下に説明する特別の音声作動サービスに組み込まれる。
【0040】
図4、図5および図6は、加入者のデータベースを発生して本発明による拡張された音声作動サービスを提供する際の、CPU回路54のCPUの動作を流れを示したものである。これらの動作は、CPUにより、図1、図2および図3に示されたネットワークサービスの他の構成要素に関連して実行される。なお、図1に関連して上記で説明されたのと同様な機能を有する拡張されたビデオ作動サービスの他の構成によって、図4、図5および図6に例示された動作を容易に実行することができる。
【0041】
図4は、入接続呼、つまり、加入者により受領された呼に関連してCPUにより行われる動作の流れを例示したものである。一般的には、各入接続呼に対して、CPUは、当該発呼者に対応するデータレコードが既に存在する場合を除き、発呼者に対応するデータレコードを生成する。このデータレコードは、テキストデータでの発呼者の名前、発呼者の名前のサブワード転記、および発呼者の電話番号を含んでいる。加えて、図2のサービス回路121 の再生/記録回路53は、後述するいつくかの状況において、発呼者からのメッセージを記録する。いずれの場合でも、CPUはレコードを加入者のデータベースの一部として生成し維持する。このようにして、拡張された音声作動サービスシステムは、従来技術いおいて必要とされた、広範囲にわたる訓練工程なしに、他の相手の名前を認識するために、「訓練される」。
【0042】
ステップ302において、CPUは、入接続呼の存在を示す信号を受領する。次いで、ステップ304において、CPUは加入者ラインが使用中かどうか、つまり、加入者がすでに呼に関係しているかどうかを判定する。全ての加入者の呼が通常はCPUにより監視されているので、CPUは加入者ラインが使用中かどうかを容易に判定できる。加入者ラインが使用中の場合、CPUはステップ306において、図5に関連して以下に説明する、呼待ち工程を実行する。しかしながら、加入者ラインが使用中でないと判定された場合、CPUはステップ308に進む。ステップ308では、CPUは入接続呼が加入者により応答されたかどうかを判定する。ステップ308において、加入者が予め判定された数の呼出信号内で呼に応答しない場合、CPUは、ステップ310において開始される、Take_Messageルーチンの実行に進む。一方、加入者が予め判定された数の呼出信号内で呼に応答した場合、CPUは、呼を処理するためにステップ332に進む。
【0043】
ステップ310でのTake_Messageルーチンでは、CPUは発呼者の電話番号がICLIDあるいは他から入手可能かどうかを判定する。現在の時点では、このようなサービスは、入接続呼の電話番号を識別するために、特に、長距離電話呼あるいはインターラータ電話呼(interlata telephone call)に対しては必ずしも必要でない。ステップ310において、発呼者の電話番号が入手可能である場合、CPUはステップ316に直接進む。しかしながら、電話番号が入手できない場合、CPUはまず、ステップ314を実行し、発呼者にはその電話番号が求められる。このため、ステップ314において、CPUは再生/記録回路53に、記録されたアナウンスを再生するように指示し、発呼者に電話キー、あるいは数字を話すこと電話番号を入力するように促す。発呼者が数字を話すことで番号を通知した場合、CPUは、ASR回路52に、番号を判定するために音声認識を行うことを指示する。いずれの場合でも、発呼者の電話番号が検索された場合には、CPUは、次いでステップ316に進む。
【0044】
ステップ316では、CPUは、加入者が発呼者に関連した現存のデータベースを有しているかどうかを判定する。所定の時間経過後、加入者のデータは、加入者に呼を行った相手、あるいは加入者からの呼を受けた相手のような、いくつかの相手に関連するレコードを含むようになる。この結果、他の人の中で、いずれかの特定の入接続呼びに関連した番号がすでにある場合がある。したがって、ステップ316において、CPUは発呼者の電話暗号を現存する加入者のデータベース記録と合致させるための努力をする。
【0045】
ステップ316においてCPUが加入者データベースが発呼者に関連したレコードを含んでいると判定した場合、後述するようにCPUはステップ324に直接進む。しかしながら、CPUが加入者のデータベースが入接続呼に対応する電話番号に関連したレコードを含んでいないと判定した場合、CPUはステップ318を実行する。ステップ318において、CPUは、入接続する発呼者の電話番号を使用して、発呼者に対応するデータベースレコードを自動的に発生する。好ましくは、各レコードは、次のフィールド、つまり、テキストデータでの発呼者の名前、発呼者の最初と最後の名前のサブワード転記、および発呼者の電話番号を含んでいる。ステップ318においてレコードが生成された場合、CPUはステップ324を実行する。
【0046】
ステップ324において、CPUは図2の再生/記録回路53に、発呼者からのメッセージを促し、記録するように命令する。メッセージが完了すると、CPUは次いで、ステップ326を実行し、記録されたメッセージが発呼者に関連したデータベース入力に論理的に関連付けされる。CPUは次いで、その呼に対する動作を終了する。
【0047】
上記したステップの一例の手順において、Johnsonが加入者に呼びを行い、その加入者が予め判定された数、例えば5回の呼出しに電話に応答しない場合を仮定として考える。CPUはJohnsonの番号をICLID技術により求め、また加入者がJohnsonに対するデータベース入力を既に有していると判定する。CPUは次いで、Johnsonにメッセージを残すことを指示する。メッセージが一旦記録された場合、CPUはこのメッセージをJohnsonに対するメッセージにタグを付ける、つまり論理的に関連付けさせる。記録されたメッセージをデータベース入力に関連付けさせる理由は、以下に説明するように、音声コマンドを使用してメッセージを検索できるようにするためである。
【0048】
図4の説明に戻り、ステップ332で始まるステップの手順、加入者が入接続呼に加入者が応答したとき、つまりステップ308における応答が「yes」である場合に行われるものである。次のステップは、呼が継続中において入接続する発呼者に関連したデータベースのレコードを移すために必要なデータを求めるためのものである。このため、ステップ332において、CPUはまず、ステップ310において説明したのと同じ方法を採用して、発呼者の電話番号が入手可能かどうかを判定する。発呼者の電話番号が入手可能である場合には、次いで、ステップ334において、CPUは加入者のデータベースが発呼者に関連したレコードを含んでいるかどうかを判定する。含んでいる場合、CPUは、ステップ344に示し、以下に図6に関連して詳細に説明する、通常の呼処理を進める。
【0049】
しかしながら、ステップ334において、加入者のデータベースが発呼者に関連したレコードを含んでいないことが判定され、次いで、CPUはステップ336を実行する。ステップ336において、CPUは、新しいデータベースのレコードを発生する。このため、CPUはステップ351、352および354に示された方法を使用してレコードを発生する。ステップ336の後、CPUは通常の呼処理を進めるためにステップ344に進む。
【0050】
ステップ332を再度参照して、入接続される発呼者の電話番号がICLIDあるいは同様なサービスから容易に入手できないと判定された場合、CPUは、CPUが加入者から発呼者の名前と番号を呼が終了した後に引き出すことを示す、フラグGet_Infoをセットする。このようにして、CPUは、入接続する発呼者から電話番号が入手できない場合でも、入接続呼に対応するデータベースのレコードを発生する。フラグがセットされた後、CPUは、通常の呼処理を進めるために、ステップ344を実行する。呼が終了したときには、加入者に対して名前と発呼者の番号が促され、また対応するデータベースのレコードが生成される。呼が終了した後にこのような情報を加入者に促すことを避けるために、データベースのレコードを生成することが好ましくない場合がある。このような場合には、CPUはGet_Infoのフラグをセットせず、またデータベースのレコードを生成しない。
【0051】
いずれの場合でも、本発明の1つの特徴にしたがって、呼が応答されたかどうかに拘らず、全部ないしほとんどの入接続呼に対する音声認識テンプレートを含むデータベースのレコードが、図4の方法によって発生される。加えて、図4の方法は、本発明の他の特徴にしたがって、応答されない呼に対するメッセージを記録する。
【0052】
図5は、本発明による、呼待ち工程においてCPUが行う動作のシーケンスを例示したものである。ステップ402において、CPUは入接続ラインとの通信を直接セットアップする。この時点において、入接続する発呼者は加入者のラインに接続されていない。ここで、このような動作は、サービス回路12X が少なくとも2つの音声ラインにアクセスすることを必要とする。入接続する発呼者と通信しながら、加入者の通常のラインを使用中とするために、1つの音声ラインは通常の加入者電話呼を受けながら、他の音声ラインはサービス回路12X により使用される。
【0053】
ステップ402において入接続する発呼者との通信がセットアップされたならば、CPUはステップ404を実行する。ステップ404において、CPUは発呼者の番号が入手可能かどうかを判定する。ステップ310に関連して説明したように、CPUはICLIDあるいは同様なサービスを発呼者の電話番号を識別するために利用する。電話番号が入手可能な場合、CPUはステップ410に直接進む。しかしながら、電話番号が入手可能でない場合、CPUはまずステップ408を実行して、発呼者にその電話番号を求める。特に、CPUは、図4のステップ314に関連して上記で説明した各方法のいずれかにより番号を求める。ステップ408の後、CPUはステップ410に進む。
ステップ410において、CPUは加入者のデータベースが発呼者に関連したレコードを含むかどうかを判定する。含む場合には、ステップ414において、CPUは加入者のラインに接続し、加入者に発呼者の名前が通知される。発呼者の名前を通知するために、CPUはASR回路52の音声発生ユニット218に、発呼者に関連したデータベースのレコードからのサブワード転写を使用して音声出力信号を発生するように命令する。音声出力信号は、次いで、加入者ライン上で加入者に提供される。
【0054】
しかしながら、ステップ410において、CPUが加入者のデータベースが入接続する発呼者に対応するレコードを含んでいないと判定した場合には、CPUはステップ412を実行する。ステップ412において、CPUは、入接続する発呼者の電話番号を使用して発呼者に関連したデータベースのレコードを自動的に発生する。ステップ412において利用されるデータベースのレコード発生方法を図8にさらに詳しく示した。レコードが一旦発生されると、CPUはステップ414に進み、また上記したように、加入者に入接続呼を通知し、また発呼者から検索した名前を告げる。
【0055】
ステップ414において発呼者が通知された後、ステップ416においてCPUは加入者が入接続呼に応答するかどうかを判定するために待機する。加入者は、フックスイッチを叩くか、あるいは口頭ないしキーパッドのコマンドのいずれかにより、その希望の信号をCPUに送る。加入者が入接続呼に応答しないことを示した場合には、CPUは図4のステップ324に戻ることで発呼者からのメッセージ受けるなどの処理を進める。一方、加入者が入接続呼に応答することを選択した場合、CPUはステップ418において外部交換機20に所望の接続を行うコマンドを供給する。その後、CPUは通常の呼処理機能を実行する。
【0056】
本発明の他の長所および特徴は、加入者に著しく拡張された応答サービスを提供する機能である。上記したように、CPUにより行われるTake_Messageルーチンは、加入者のデータベースのレコードの1つに各記録メッセージを関連付けする。入接続する発呼者が現存するデータベースレコードを有していない場合には、発呼者に対して1つが生成される。いずれの場合でも、本発明の方法は、メッセージを残す人のサブワード転記および電話番号を識別するデータに直接関連したメッセージを提供する。この結果、メッセージを聞いたならば、ユーザは、以下に図6に関連して説明するように、メッセージを残す人の番号をダイヤルすることをCPUに指示する音声コマンドを容易に使用することができる。
【0057】
図6は、加入者セットのオフフックを行うことで加入者がサービスを使用することを開始した時に、CPUにより実行される動作の一例のシーケンスを例示したものである。特に、加入者は一般的に、出接続電話呼を行うか、あるいはメッセージを検索することで、サービスを開始する。したがって、図6は、本発明によるメッセージ検索方法およびダイアル方法の両方を例示したものである。メッセージ通信システムに関連する図6における動作は、図4の関連して上記で説明したTake_Messageに関連して動作することが望まれる。したがって、記録されたメッセージの全部ではないがほとんどが、メッセージを残した発呼者に対応する加入者データベース内のレコードに関連している。
【0058】
ステップ502において、加入者がオフフックし、これによりCPUを含むネットワークサービスシステム10が起動する。次いで、ステップ504において、加入者が蓄積されたメッセージの検討を要求したかどうかが、CPUにより判定される。このため、CPUは、図2のASR回路52に、「messages」あるいは「review messages」のようなコマンドに対する加入者ライン上での監視をするように命令する。加入者がメッセージを検討することを要求した場合、システムは、公知の可聴通知方法を使用して、加入者になんらなのメッセージを通知する。ユーザがメッセージの検討を要求しない場合、あるいはメッセージがない場合、CPUはステップ506に進む。ステップ506から開始し、CPUはダイヤル方法の性能を監視する。
【0059】
ステップ506において、CPUは加入者が音声ダイヤル機能を有しているかどうかを判定する。加入者は典型的には、単に被呼者の名前を大声で話すことで音声ダイヤル動作を呼び出す。このため、CPUおよびASR回路52は公知の方法で、呼ばれる相手の名前の発語の表示を検出するために動作する。加入者のデータベース内の現存するサブワード転記に対応するものとして、発語が認識された場合、CPUは音声ダイヤルを行うためにステップ518を実行する。音声ダイヤル動作において、CPUは、認識されたサブワード転記を含むデータベースのレコードと関連した電話番号を検索する。電話番号が検索された場合、この番号がダイヤルされ、またCPUは通常のセル処理をステップ520において実行する。このような音声ダイヤル動作は公知である。例えば、米国特許第5、301、227号の第6欄から第8欄の第50行には、蓄積されたサブワード転記を採用して音声認識を行い、また電話番号のダイヤルを行う適当な音声ダイヤル動作が記載されている。当業者であれば、適当な音声ダイヤル動作を本発明に容易に組み込むことができる。
【0060】
ステップ506において、CPUが加入者が音声ダイヤル機能を有していないと判定した場合、加入者は、通常の状況下で、他の音声コマンドを発行するか、あるいは出接続呼のために電話番号を手動でダイヤルする。したがって、ステップ506における回答がnoである場合、CPUはステップ522に進む。
【0061】
ステップ522において、CPUは、加入者が手動で出接続呼をダイヤルしたことを判定し、次いでCPUはステップ524に進む。ここで、加入者が音声コマンドを発行した場合、CPUはコマンドに含まれるサービスを行うためにステップ526に進む。例えば、加入者は「conference」のコマンドを話し、これにより音声作動の会議呼サービスが開始される。当業者には、このようなサービスを容易に実施することができる。
【0062】
ステップ524を再度参照して、手動でのダイヤル操作が完了したならば、CPUは、ダイヤルされた番号と関連したデータベースのレコードが存在するかどうかを判定する。存在する場合、CPUはステップ520に進んで通常の呼処理動作を行う。存在しない場合、CPUはステップ528に進む。ステップ528において、CPUは、手動でダイヤルされた電話番号に対応する新しいベースレコードを発生する。このため、CPUは上記したように、図8のステップ351、352および354を実行する。新しいデータベースのレコードが生成されたならば、CPUはステップ520において通常の呼処理ルーチンを実行する。
【0063】
上記した方法により、加入者は、すべての手動でダイヤルされた出接続呼に対する電話番号、本文名前データ、および音声認識テンプレートを自動的に発生することができる。つまり、加入者は電話番号を単にダイヤルするだけで、システムを「訓練する」ことができる。このような簡単化された訓練方法により従来のシステムに比べて大幅は改良が図られる。
【0064】
ステップ504を再度参照して、ユーザがそのメッセージを要求したとCPUが判定した場合、CPUはステップ508を実行する。ステップ508において、CPUはASR回路52に対して、再生/記録回路53に関連してメッセージの要約を再生するように指示する。このメッセージの要約は、最後にメッセージを検討してからの、メッセージを残した相手の名前の順次的なリストを含んでいる。メッセージの要約は、例えば、「Johnsonからのメッセージ、Perezからのメッセージ、メッセージ終り」のように構成される。再生/記録回路52はこのようなメッセージを、JohnsonやPerezのような名前を除いて、予め記録されたシーケンスとして提供する。名前を挿入するため、ASR回路52は、各記録されたメッセージに論理的に関連付けされたデータベース入力に対するサブワード転記を使用して音声を発生する。
【0065】
メッセージの要約が提供されたならば、ステップ510において、1つまたはそれより多くのメッセージに関して加入者からの口頭の指示が受領されたかどうかをCPUは判定する。このため、CPUはASR回路52と関連して動作し、加入者の発語を蓄積されたコマンドあるいは名前に一致するために音声認識技術を使用して、有効な口頭のコメントが与えられたかどうかを判定する。有効な口頭のコマンドの一例として、「Perez」あるいは「Johnson」のようなメッセージのヘッダにおいて識別されたいずれかの発呼者の名前、あるいは「消去」ないし「セーブ」のような他のコマンドを暗唱することが挙げられる。したがって、ステップ510において、「Perez」や「Johnson」のような名前を識別する口頭のコマンドを受領したことをCPUが判定した場合には、CPUはステップ512に進む。あるいは、ステップ510において、CPUは、メッセージサービスを維持する他のコマンドを受領したと判定した場合には、ステップ514に進む。最後に、ステップ510において、CPUは、「呼」コマンドを受領したと判定した場合、加入者に「誰からの呼?」の促し、音声ダイヤルを実行するためにステップ506に進む。
【0066】
ステップ510において加入者の相手の名前の発語によりメッセージ検索が要求された場合、CPUはステップ512において加入者の発語内で認識されたサブワード転記に関連したメッセージにアクセスする。例えば、加入者が「Johnson」と発語し、またステップ510で「Johnson」が認識された場合には、CPUはJohnsonに対するサブワード転記に関連したメッセージにアクセスする。したがって、CPUはJohnsonからのメッセージにアクセスし再生するように再生/記録回路53に命令する。ステップ512の後、CPUはステップ516においてユーザに次のコマンドを促す。CPUは次いで、ステップ510に戻り、以下の処理を行う。
【0067】
ステップ510において他のコマンドが要求された場合、ステップ514においてCPUは加入者の発語内で識別される要求されたコマンドを遂行する。このため、CPUは、与えられたコマンドに関連するより多くの情報を要求する。例えば、コマンドが「セーブ」である場合、CPUは再生/記録回路53に対して、ユーザに「誰からのメッセージをセーブ?」を質問するように促す。このような場合、CPUは次いで、名前を認識し、また認識された名前に対応するメッセージについて要求されたコマンドを実行する。ステップ514の後、CPUはユーザに対して、ステップ516において次のコマンドを促す。CPUは次いで、ステップ510に戻り、その後の処理を行う。
【0068】
ここで、上記に代えて、加入者は、ステップ510、512、514および516の間のいずれかの時点で、「呼」のような音声コマンドを発行することで音声ダイアラーを呼出すようにしても良い。この場合、CPUは次いで、音声ダイアルを行うために直ちにステップ506に戻る。
【0069】
図4、図5および図6に記載した、一例の拡張された音声作動式の電気通信サービスシステムは、現存のシステムに対していくつかの改良点がある。被呼者あるいは発呼者の名前の本文データを検索し、またこれから音声認識データを発生することで、音声認識プレートの加入者のデータベースは迅速および容易に移植される。一般的には、従来技術では、このようなデータを得るために広範囲の訓練工程に依存している。各データベースのレコードが繰り返しの加入者の発語および関連した電話番号の加入者の知識を必要とすることから、これらの工程における加入者の手間が多大である。対照的に、本発明の方法と装置では、入接続呼と出接続呼の間に自動的にデータベースレコードを移植している。さらに、本発明では、上記した拡張されたメッセージ機能および呼待ち機能が提供される。
【0070】
本発明の別の実施の形態において、サービスユニットは、加入者の呼履歴を使用して加入者のデータベースを自動的に移植するように動作する。例えば、CPUは、図1のPSTN30から、加入者により多く呼ばれるN個の電話番号を求める。CPUは次いで、音声認識テンプレートおよびN個の最も多く呼ばれた番号のそれぞれの電話番号を含むデータベースレコードを発生する。この別の実施の形態は、図3のステップ350を、加入者により最も多く呼ばれたN個の電話番号に対する図1のPSTN30への問い合わせを含むステップに置き換えることで達成される。次いで、ステップ351から354がN個の電話番号のそれぞれに対して繰り返される。このような実施の形態は、加入者に、音声作動サービスにより使用される即席のデータベースを提供することができる。もちろん、この実施の形態と図4、図5および図6の実施の形態を一緒に組み合わせても良い。
【0071】
他の実施の形態では、図1と図2のサービス回路121 …12N により実行されるサービスおよび機能が、加入者セット32内ないしこれに近接した加入者装置により実行される。このような実施の形態は図7に関連して以下に簡単に説明する。
【0072】
図7は、本発明による、拡張された音声作動の通信サービスを提供するように動作する、加入者セット700を示したものである。加入者セット700は、統合サービスデジタル通信網(「ISDN」)ライン701、ISDNラインインターフェース702、ASR回路703、CPU回路704、音声バス705およびデータバス706を含んでいる。ISDNラインはISDNインターフェース702を、図1の外部交換機20のような外部交換機(図示せず)に接続する。ISDNラインは、少なくとも2つのデジタル音声信号チャネルおよびデータチャネルを提供するように動作する。音声チャネルは音声信号を通信するために好ましくは使用され、またデータチャネルは、ICLID情報および外部交換機から入手可能な他のデータのような、呼情報データを通信するために好ましくは使用される。
【0073】
データバス716はISDNインターフェース702、ASR回路703およびCPU回路704の間のデータ接続を提供する。音声バス705は、ASR回路703への音声信号通信を提供する。CPU回路704は図2に関連して上記で説明したCPU回路54と同様な回路である。同様に、ASR回路703は、図2に関連して上記で説明したASR回路52と同様なものである。
【0074】
動作中は、CPU回路704のCPUおよびASR703は、図2、図3、図4、図5、図6および図8に関連して上記で説明したのと実質的に同じ態様でで動作する。この実施の形態においては、しかしながら、入接続呼および出接続呼は、本発明の目的のために図1および図2のサービス回路12X を通って経路指定されない。その代わりに、入接続呼はデジタルISDNの音声チャネル上で直接加入者に供給される。また、本発明を実施するのに必要なデータ通信は、ISDNのデータチャネル上で伝送される。例えば、図3に例示したフローダイヤグラムを実行する。ステップ350において、回路704のCPUは好ましくはデータチャネル上で発呼者識別情報を受領する。ステップ351において、CPU回路704は、外部交換機およびISDNデータチャネルを経てPSTNから付加データベースからの情報を要求し受領する。ここで、ISDN音声チャネルは、本発明により容易化される上記した拡張された音声作動のサービスの一部としての、呼会議および呼待ちをサポートする。
【0075】
このような実施の形態は、ISDNラインを含む高性能の消費者側の設備が必要であるので、現在の時点では、あまり好ましいものではない。しかしながら、このような実施の形態が技術進歩によりコスト効率の良いものとなった場合、サービスプロバイダの宅内装置上での拡張された音声作動の通信サービスを提供することができる。
【0076】
以上、本発明の実施の形態を説明したが、これらの実施の形態は例示的なものである。当業者であれば、本発明の原理および範囲内で他の実施の形態を容易に案出できる。例えば、上記実施の形態はPSTNを基礎とする電話システムについてのものであるが、本発明は、インターネットのような、音声(およびデータ)通信をサポートする他の通信ネットワークにも容易に適用できる。このような他のネットワークでは、電話番号の代わりに電気通信ネットワークのユーザ(あるいは入接続する発呼者)を識別するためにネットワークアドレスのような他の種類の接続アドレスが使用される。さらに、上記した方法により発生された音声認識テンプレートも同様に加入者の発語により変更され補足される。例えば、図6のステップ506において、加入者が相手の名前を音声ダイヤルのために話した場合、ASR回路52はこの発語を音声認識テンプレートを変更するために使用し、あるいは、その相手に関連する加入者のデータベースレコード内の、話者に依存する音声認識テンプレートに単に追加する。このような点は当業者には容易に実施できる。
【0077】
さらに、電気通信ネットワークのユーザを識別するために接続アドレスを使用することは、一例にすぎない。他の実施の形態においては、ユーザのクレジットカード番号、あるいは自宅の住所を電気通信ネットワークのユーザを識別するために使用することもできる。このようなシステムでは、本発明によるシステムに音声認識テンプレートを改良させるために、付加のデータベースがクレジットカード番号あるいは自宅の住所をネットワークのユーザに関連する本文情報に相互関連付けする。実際には、ユーザの名前を表す本文を結合するデータベースがある限り、電気通信ネットワークのユーザを識別するあらゆる入力を使用することができる。
【図面の簡単な説明】
【図1】ネットワークサービスシステム、外部交換器、公衆電話交換ネットワークを含む、通信ネットワークを例示した説明図。
【図2】本発明によるビデオ作動式の電気通信サービスを提供する例示的なサービス回路を例示した説明図。
【図3】図2のサービス回路の一部を構成するASR回路の例示的な実施の形態のダイヤグラムである。
【図4】入接続呼に関連して本発明においてCPUの動作により実行される動作の不ローの説明図である。
【図5】呼待の場合で、本発明において動作するCPUの動作の例示的な手順を例示した説明図。
【図6】本発明において加入者により生じたサービス回路の軌道によりCPUによって行われる動作の例示的なシーケンスの説明図。
【図7】本発明により、拡張された音声作動通信サービスを提供するために動作可能な加入者のセットを例示した説明図。
【図8】本発明により各入接続あるいは出接続に対応するデータベースレコードを発生するために、図2のサービス回路のCPUにより実行される機能のフローダイヤグラムである。
【符号の説明】
10 ネットワークサービスシステム
20 外部交換機
22 データトランク
24 音声トランク
30 公衆電話ネットワーク(PSTN)
Claims (32)
- 自動音声認識(ASR)システムを含むシステムにおいて、ASRシステムの能力を拡張するために付加データベースに記憶された情報を利用する方法であって、
(a)電気通信ネットワークのユーザに関する接続アドレスからなる第1の入力を取得するステップ、
(b)付加データベース内に蓄積された、第1の入力に関連したテキストの情報からなる付加情報を識別し検索するステップ、
(c)該付加データベースから検索された追加情報から導出された音声認識テンプレートを作成し記憶するステップ、および
(d)第2の入力を認識するために、該記憶された音声認識テンプレートを使用するステップであって、該第2の入力は発語を構成するとともに該付加情報に含まれる情報を含んでいるステップ
からなる方法。 - 請求項1記載の方法において、ステップ(a)が更に、該電気通信ネットワークのユーザからの入接続呼に対応する公衆電話交換ネットワーク設備からの入接続呼の発呼者のライン識別情報を取得することからなる方法。
- 請求項1記載の方法において、ステップ(a)が更に、該電気通信ネットワークのユーザへの出接続呼におけるダイヤルされた電話番号を取得することからなる方法。
- 請求項1記載の方法において、ステップ(a)が更に、該第1の入力を生成するために発語を取得するとともに該発語を認識することからなる方法。
- 請求項1記載の方法において、該付加情報がテキストの情報からなり、更に、ステップ(c)が該付加情報のサブワード転写を生成するためにテキスト−音声変換システムを使用するステップからなり、該サブワード転写は単語の一部のテンプレートである方法。
- 請求項1記載の方法であって、さらに、加入者のデータベースのための記録を生成するステップからなり、該記録は該第1の入力及び該音声認識テンプレートを含む方法。
- 請求項1記載の方法であって、さらに、(e)該第2の入力を認識した後に該電気通信ネットワークのユーザを含めた通信サービスを行うステップからなる方法。
- 請求項7記載の方法において、ステップ(e)が更に、該電気通信ネットワークのユーザにより生成された記録メッセージを検索することからなる方法。
- 請求項7記載の方法において、ステップ(e)が更に、該電気通信ネットワークのユーザに関連した電話番号に自動的にダイヤルすることからなる方法。
- 電話ネットワークにおいて、ASRシステムの能力を拡張するために付加(追加)データベースに記憶された情報を利用する方法であって、
(a)発呼者からの入接続呼を受信するステップ、
(b)該発呼者から電話番号を取得するステップ、
(c)該電話番号をインデックスとして使用して付加データ内に蓄積された付加情報を検索するステップであって、該付加情報はテキストのデータであるステップ、
(d)該付加データベースから検索された該テキストのデータに対応する音声認識テンプレートを生成するステップ、および
(e)該音声認識テンプレートおよび該取得された電話番号を蓄積するステップ、及び
(f)音声認識アルゴリズムおよび該音声認識テンプレートを使用して、前記テキストのデータ内にある情報に対応する第2の発語を認識するステップ
からなる方法。 - 請求項10記載の方法において、ステップ(d)が更に、該付加情報のサブワード転写を生成するためにテキスト−音声変換システムを使用するステップからなり、前記サブワード転写は単語の一部である該音声認識テンプレートからなる方法。
- 電気通信ネットワークに関して使用される音声作動サービスシステムであって、
(a)発語を1つ以上の音声認識テンプレートと比較することにより発語を認識するように動作する自動音声認識回路であって、テキスト−音声変換システムを含む自動音声認識回路、
(b)該自動音声認識回路に接続され、被呼者の接続アドレスを識別する第1の入力を取得するように動作するコンピュータ処理ユニットであって、さらに該第1の入力に関連した第1のデータベースからのテキストの情報を検索するように動作可能であるコンピュータ処理ユニット
からなり、
該テキスト−音声変換システムが該テキストの情報から音声認識テンプレートを生成するように動作する音声作動サービスシステム。 - 請求項12記載の音声作動サービスシステムにおいて、該自動音声認識回路が更に第2の入力を認識するように動作可能であり、前記第2の入力が該テキストの情報を表す情報を含む発語からなる音声作動サービスシステム。
- 請求項12記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に該第1の入力を検索するように動作可能であり、該第1の入力が該電気通信ネットワークのユーザに関連した接続アドレスからなる音声作動サービスシステム。
- 請求項14記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に該第1の入力を検索するように動作可能であり、該第1の入力が該電気通信ネットワークのユーザに関連した電話番号を含む接続アドレスからなる音声作動サービスシステム。
- 請求項15記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に該第1のデータベースから該テキストの情報を検索するように動作可能であり、該第1のデータベースがテキストの名前情報を複数の該電気通信ネットワークのユーザに対する電話番号情報と関連させる情報を含んでいる音声作動サービスシステム。
- 請求項12記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に、該テキストの情報および該音声認識テンプレートからなる加入者データベースレコードを生成するように動作可能である音声作動サービスシステム。
- 請求項17記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に、該加入者データベースレコードを使用した音声ダイヤルを含む複数の音声作動サービスを行うように動作可能である音声作動サービスシステム。
- 請求項12記載の音声作動サービスシステムにおいて、前記自動音声認識回路が更に音声発生器からなり、前記音声発生器は該テキストの情報を表す音声出力信号を生成するように動作可能である音声作動サービスシステム。
- 請求項19記載の音声作動サービスシステムにおいて、該コンピュータ処理ユニットが更に、加入者ラインが電話呼を維持しているときに該音声発生器が該テキストの情報を表す音声出力信号を加入者に提供させるように動作可能である音声作動サービスシステム。
- 電気通信ネットワークに関して使用される音声作動サービスシステムであって、
(a)コンピュータ処理ユニットにより実行されるプログラムを含むメモリ、並びに
(b)該メモリにその内部のプログラムを実行するように動作可能に接続され、該メモリ内のプログラムを、
電気通信ネットワークのユーザの接続アドレスを識別する第1の入力を取得し、
該第1の入力に関連したテキストの情報からなる付加データを検索し、
自動音声認識回路に該付加データから音声認識テンプレートを生成することを命令し、および
該自動音声認識回路に該音声認識テンプレートを使用して発語からなる第2の入力を認識することを命令する
ために実行する中央処理ユニット(CPU)
からなる音声作動サービスシステム。 - 請求項21記載の音声作動サービスシステムであって、さらに、該付加データから音声認識テンプレートを生成し、該音声認識テンプレートを使用して該第2の入力を認識するように動作可能な自動音声認識システムからなる音声作動サービスシステム。
- 請求項21記載の音声作動サービスシステムにおいて、該CPUがさらに、該電気通信ネットワークのユーザの接続アドレスの形態で該第1の入力を取得するために該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
- 請求項23記載の音声作動サービスシステムにおいて、該CPUがさらに、該認識された第2の入力を使用して音声ダイヤルサービスを行うために該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
- 請求項23記載の音声作動サービスシステムにおいて、該CPUがさらに、該電気通信ネットワークのユーザの接続アドレスをおよび該生成された音声認識テンプレート含むデータベースレコードを生成するために該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
- 請求項25記載の音声作動サービスシステムにおいて、該CPUがさらに、複数のレコードを含むデータベースを生成し維持するように動作可能であり、各レコードは、電気通信ネットワークのユーザに対応するともに、該電気通信ネットワークのユーザに関連した接続アドレスおよび該電気通信ネットワークのユーザに関連した音声認識テンプレートを含む音声作動サービスシステム。
- 請求項21記載の音声作動サービスシステムであって、さらに、電気通信ネットワークおよび該CPUに動作可能に接続された再生/記録回路からなり、前記再生/記録回路は該電気通信ネットワークのユーザに記録された通知を再生するとともに該電気通信ネットワークのユーザにより話された発語を記録するように動作可能である音声作動サービスシステム。
- 請求項27記載の音声作動サービスシステムにおいて、該CPUがさらに、
該電気通信ネットワークのユーザがメッセージを残しておくために指示し記録された通知を再生するように該再生/記録回路に命令し、
該電気通信ネットワークのユーザからの発語を記録するように該再生/記録回路に命令し、および
該記録された発語を該音声認識テンプレートに関連付ける
ように動作可能である音声作動サービスシステム。 - 請求項28記載の音声作動サービスシステムにおいて、該CPUがさらに、
該自動音声認識回路に、加入者により提供された第2の発語を該音声認識テンプレートを使用して認識させるように動作可能であり、および
該認識された第2の発語が該音声認識テンプレートに対応する場合には該電気通信ネットワークのユーザからの記録された発語を再生するように該再生/記録回路に命令するように動作可能である音声作動サービスシステム。 - 請求項21記載の音声作動サービスシステムにおいて、該CPUがさらに、該電気通信ネットワークのユーザから加入者への入接続呼の間において、該第1の入力を取得するために、該メモリ内のプログラムを実行するように動作可能である音声作動サービスシステム。
- 請求項30記載の音声作動サービスシステムにおいて、該CPUがさらに、該第1の入力を取得するために該メモリ内のプログラムを実行するよう動作可能であり、該第1の入力は該電気通信ネットワークのユーザの電話番号である音声作動サービスシステム。
- 請求項31記載の音声作動サービスシステムにおいて、該CPUがさらに、外部交換器から提供されるデータを使用して該電気通信ネットワークのユーザの電話番号を取得するために、該メモリ内のプログラムを実行するよう動作可能である音声作動サービスシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/576740 | 1995-12-21 | ||
US08/576,740 US5822727A (en) | 1995-03-30 | 1995-12-21 | Method for automatic speech recognition in telephony |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09186770A JPH09186770A (ja) | 1997-07-15 |
JP4247929B2 true JP4247929B2 (ja) | 2009-04-02 |
Family
ID=24305793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34141796A Expired - Lifetime JP4247929B2 (ja) | 1995-12-21 | 1996-12-20 | 電話における自動音声認識のための方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5822727A (ja) |
EP (1) | EP0780829B1 (ja) |
JP (1) | JP4247929B2 (ja) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6041109A (en) * | 1995-12-29 | 2000-03-21 | Mci Communications Corporation | Telecommunications system having separate switch intelligence and switch fabric |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5943648A (en) * | 1996-04-25 | 1999-08-24 | Lernout & Hauspie Speech Products N.V. | Speech signal distribution system providing supplemental parameter associated data |
WO1998000958A1 (en) | 1996-06-28 | 1998-01-08 | Advanced Micro Devices, Inc. | Telephone calling party announcement system and method |
US6018568A (en) * | 1996-09-25 | 2000-01-25 | At&T Corp. | Voice dialing system |
GB9620082D0 (en) | 1996-09-26 | 1996-11-13 | Eyretel Ltd | Signal monitoring apparatus |
US6108630A (en) * | 1997-12-23 | 2000-08-22 | Nortel Networks Corporation | Text-to-speech driven annunciation of caller identification |
US6775264B1 (en) * | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US8209184B1 (en) * | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6418461B1 (en) | 1997-10-06 | 2002-07-09 | Mci Communications Corporation | Intelligent call switching node in an intelligent distributed network architecture |
US6094574A (en) * | 1997-10-31 | 2000-07-25 | Vance; Kenneth Ronald | Alpha enhanced paging and voice mail system and method |
US6173041B1 (en) | 1997-11-13 | 2001-01-09 | Advanced Micro Devices, Inc. | System and method for reducing call interruptions on a telephone |
US6178230B1 (en) | 1997-11-13 | 2001-01-23 | Advanced Micro Devices, Inc. | System and method for identifying a callee of an incoming telephone call |
GB9800590D0 (en) * | 1998-01-13 | 1998-03-11 | Bae Sema Ltd | Intelligent human computer interface system |
EP0942575A3 (en) * | 1998-03-12 | 2001-11-14 | Novcom N.V. | Adaptive telephone answering system |
US6332023B1 (en) * | 1998-06-04 | 2001-12-18 | Mci Communications Corporation | Method of and system for providing services in a communications network |
CA2362195A1 (en) * | 1999-02-01 | 2000-08-24 | Webley Systems, Inc. | Speech-recognition-based phone numbering plan |
US7203296B2 (en) * | 1999-04-16 | 2007-04-10 | Sbc Properties, L.P. | Method, system, and article for placing a telephone call to a previously-called party |
US7689416B1 (en) | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
US6510414B1 (en) | 1999-10-05 | 2003-01-21 | Cisco Technology, Inc. | Speech recognition assisted data entry system and method |
US6526377B1 (en) * | 1999-11-02 | 2003-02-25 | Intel Corporation | Virtual presence |
US6721705B2 (en) | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
WO2001063942A2 (en) | 2000-02-25 | 2001-08-30 | Pulsar Communications, Inc. | Enhanced telecommunications services |
US6829344B1 (en) | 2000-03-17 | 2004-12-07 | Lucent Technologies Inc | Methods and devices for forwarding identification data |
US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
FR2810185A1 (fr) * | 2000-06-09 | 2001-12-14 | France Telecom | Procede et dispositif de gestion de mise en relation telephonique sans divulgation de numero de telephone |
US6907111B1 (en) | 2000-08-09 | 2005-06-14 | Bellsouth Intellectual Property Corporation | Network and method for providing a name and number delivery telecommunications services with automatic speech recognition capability |
US6826529B1 (en) | 2000-08-09 | 2004-11-30 | Bellsouth Intellectual Property Corporation | Network and method for providing a call screening telecommunications service with automatic speech recognition capability |
US6873686B1 (en) | 2000-08-09 | 2005-03-29 | Bellsouth Intellectual Property Corporation | Network and method for providing a calling name telecommunications service with automatic speech recognition capability |
US6505163B1 (en) * | 2000-08-09 | 2003-01-07 | Bellsouth Intellectual Property Corporation | Network and method for providing an automatic recall telecommunications service with automatic speech recognition capability |
US6778640B1 (en) * | 2000-08-09 | 2004-08-17 | Bellsouth Intellectual Property Corporation | Network and method for providing a user interface for a simultaneous ring telecommunications service with automatic speech recognition capability |
US8041023B1 (en) * | 2000-09-29 | 2011-10-18 | Aspect Software, Inc. | System and method of using a phone to access information in a call center |
US20020069057A1 (en) * | 2000-12-05 | 2002-06-06 | Kapust Gregory J. | Methods for peer to peer sharing of voice enabled document templates |
US6788767B2 (en) * | 2000-12-28 | 2004-09-07 | Gateway, Inc. | Apparatus and method for providing call return service |
US7305345B2 (en) * | 2001-02-15 | 2007-12-04 | Livewire Acquisition, Inc. | Methods, systems, and computer program products for providing automated customer service via an intelligent virtual agent that is trained using customer-agent conversations |
US8095370B2 (en) | 2001-02-16 | 2012-01-10 | Agiletv Corporation | Dual compression voice recordation non-repudiation system |
US7139704B2 (en) * | 2001-11-30 | 2006-11-21 | Intel Corporation | Method and apparatus to perform speech recognition over a voice channel |
US20030108046A1 (en) * | 2001-12-06 | 2003-06-12 | Simeone John B. | Interface device |
US7162414B2 (en) * | 2001-12-07 | 2007-01-09 | Intel Corporation | Method and apparatus to perform speech recognition over a data channel |
US7197132B2 (en) | 2002-03-21 | 2007-03-27 | Rockwell Electronic Commerce Technologies, Llc | Adaptive transaction guidance |
US7103168B2 (en) * | 2002-04-16 | 2006-09-05 | Bellsouth Intellectual Property Corporation | Methods and systems for implementing personal dialing plans |
DE10238285A1 (de) * | 2002-08-21 | 2004-03-04 | Siemens Ag | Verfahren und Vorrichtung zum Bereitstellen von Konferenzen |
US7606718B2 (en) * | 2003-05-05 | 2009-10-20 | Interactions, Llc | Apparatus and method for processing service interactions |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
US8223944B2 (en) * | 2003-05-05 | 2012-07-17 | Interactions Corporation | Conference call management system |
US7765153B2 (en) * | 2003-06-10 | 2010-07-27 | Kagi, Inc. | Method and apparatus for verifying financial account information |
US7243072B2 (en) * | 2003-06-27 | 2007-07-10 | Motorola, Inc. | Providing assistance to a subscriber device over a network |
US20050149327A1 (en) * | 2003-09-11 | 2005-07-07 | Voice Signal Technologies, Inc. | Text messaging via phrase recognition |
US20060026097A1 (en) * | 2004-07-30 | 2006-02-02 | Kagi, Inc. | Method and apparatus for verifying a financial instrument |
US7636426B2 (en) * | 2005-08-10 | 2009-12-22 | Siemens Communications, Inc. | Method and apparatus for automated voice dialing setup |
US7588181B2 (en) | 2005-09-07 | 2009-09-15 | Ty Shipman | Method and apparatus for verifying the legitamacy of a financial instrument |
US20070217396A1 (en) * | 2006-03-14 | 2007-09-20 | Aibelive Co., Ltd. | Method and apparatus for making VoIP connection through network |
US20100164914A1 (en) * | 2007-02-13 | 2010-07-01 | Ntera Limited | Voltage feedback circuit for active matrix reflective display devices |
US8060366B1 (en) | 2007-07-17 | 2011-11-15 | West Corporation | System, method, and computer-readable medium for verbal control of a conference call |
US8489398B1 (en) | 2011-01-14 | 2013-07-16 | Google Inc. | Disambiguation of spoken proper names |
US9286894B1 (en) | 2012-01-31 | 2016-03-15 | Google Inc. | Parallel recognition |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5301227A (en) * | 1989-04-17 | 1994-04-05 | Sanyo Electic Co., Ltd. | Automatic dial telephone |
US5181238A (en) * | 1989-05-31 | 1993-01-19 | At&T Bell Laboratories | Authenticated communications access service |
US5058152A (en) * | 1989-12-12 | 1991-10-15 | The Telephone Connection | Anonymous interactive telephone system having direct connect feature |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US5517558A (en) * | 1990-05-15 | 1996-05-14 | Voice Control Systems, Inc. | Voice-controlled account access over a telephone network |
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
US5282243A (en) * | 1990-07-03 | 1994-01-25 | At&T Bell Laboratories | Recording of automatic number identification to identify lost customers |
US5165095A (en) * | 1990-09-28 | 1992-11-17 | Texas Instruments Incorporated | Voice telephone dialing |
JP2880592B2 (ja) * | 1990-10-30 | 1999-04-12 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 複合音声情報の編集装置および方法 |
US5276731A (en) * | 1991-04-26 | 1994-01-04 | Rolm Company | Method and apparatus for handling incoming telephone calls |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5333173A (en) * | 1991-10-15 | 1994-07-26 | Bell Atlantic Network Services, Inc. | Personal checkup service and equipment |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
JP3144595B2 (ja) * | 1992-05-08 | 2001-03-12 | ソニー株式会社 | 音声アダプタ |
US5287403A (en) * | 1992-07-22 | 1994-02-15 | At&T Bell Laboratories | Method and apparatus for processing telephone calls charged to credit cards |
US5325421A (en) * | 1992-08-24 | 1994-06-28 | At&T Bell Laboratories | Voice directed communications system platform |
US5436957A (en) * | 1992-12-24 | 1995-07-25 | Bell Atlantic Network Services, Inc. | Subscriber control of access restrictions on a plurality of the subscriber's telephone lines |
US5311594A (en) * | 1993-03-26 | 1994-05-10 | At&T Bell Laboratories | Fraud protection for card transactions |
US5479489A (en) * | 1994-11-28 | 1995-12-26 | At&T Corp. | Voice telephone dialing architecture |
US5724481A (en) * | 1995-03-30 | 1998-03-03 | Lucent Technologies Inc. | Method for automatic speech recognition of arbitrary spoken words |
-
1995
- 1995-12-21 US US08/576,740 patent/US5822727A/en not_active Expired - Lifetime
-
1996
- 1996-12-17 EP EP96120277A patent/EP0780829B1/en not_active Expired - Lifetime
- 1996-12-20 JP JP34141796A patent/JP4247929B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09186770A (ja) | 1997-07-15 |
EP0780829A3 (en) | 1998-10-07 |
US5822727A (en) | 1998-10-13 |
EP0780829B1 (en) | 2011-09-28 |
EP0780829A2 (en) | 1997-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4247929B2 (ja) | 電話における自動音声認識のための方法 | |
US5797124A (en) | Voice-controlled voice mail having random-order message retrieval based on played spoken identifier list | |
US7599474B2 (en) | Voice recognition for filtering and announcing message | |
US5651055A (en) | Digital secretary | |
US6049594A (en) | Automatic vocabulary generation for telecommunications network-based voice-dialing | |
KR100369696B1 (ko) | 자동 호출 및 데이터 전송 프로세싱 시스템 및 방법 | |
US5594784A (en) | Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls | |
US8964949B2 (en) | Voice response apparatus and method of providing automated voice responses with silent prompting | |
US7127400B2 (en) | Methods and systems for personal interactive voice response | |
US7167547B2 (en) | Personal calendaring, schedules, and notification using directory data | |
US5479489A (en) | Voice telephone dialing architecture | |
US5799066A (en) | Automated message system for a calling party | |
US5930336A (en) | Voice dialing server for branch exchange telephone systems | |
US6690772B1 (en) | Voice dialing using speech models generated from text and/or speech | |
JPH08320696A (ja) | 任意に話された単語の自動通話認識方法 | |
GB2364850A (en) | Automatic voice message processing | |
US8145495B2 (en) | Integrated voice navigation system and method | |
US20150142436A1 (en) | Speech recognition in automated information services systems | |
Tschirgi et al. | Speech technology and applications in the intelligent network | |
MXPA97005352A (en) | Automatic generation of vocabulary for dialing via voice based on telecommunication network | |
Park et al. | Membering TM: A Conference Call Service with Speaker-Independent Name Dialing on AIN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050216 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20050516 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20050519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050905 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051205 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060320 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060619 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060818 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060929 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080826 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080829 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120123 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130123 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |