JP2010526349A - 自動案内システムの文法調整 - Google Patents
自動案内システムの文法調整 Download PDFInfo
- Publication number
- JP2010526349A JP2010526349A JP2010507518A JP2010507518A JP2010526349A JP 2010526349 A JP2010526349 A JP 2010526349A JP 2010507518 A JP2010507518 A JP 2010507518A JP 2010507518 A JP2010507518 A JP 2010507518A JP 2010526349 A JP2010526349 A JP 2010526349A
- Authority
- JP
- Japan
- Prior art keywords
- database
- input
- word
- speech input
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 64
- 230000009471 action Effects 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 39
- 230000008520 organization Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5166—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
システムは、自動案内呼処理を提供する。データベースは、音声入力において受信されることが予測される単語を含む。特定の単語を含む呼を受信した際に行うべき動作が、単語に関連して記憶される。サーバは呼を受信し、指示を再生した後、音声入力を受信する。サーバは、音声入力内の単語がデータベース内の単語に対応するかどうかを識別する。対応する場合、サーバは、音声入力内の単語に関連してデータベースに記憶した動作を行う。音声入力内の単語がデータベース内の単語に対応しない場合は、サーバは当該音声入力を分析するために待ち行列に入れる。入力に応答して、サーバは単語を音声入力からデータベースに追加する。
Description
本発明は、自動案内機能を提供するシステムおよび方法に関する。
自動案内システムは、しばしばコール・センターやヘルプ・デスク・サービスに関連して使用される。通常、自動案内システムは、ユーザが接続したい特定のエンティティ、例えば、人、部署、サービス等を発信者が特定できるようにする自動音声指示型のインタフェースを提供する。例えば、自動案内システムは、「営業部は1を押してください」、「サービス・コールは2を押してください」、「既存のサービス・コールに関する情報は3を押してください」のような音声指示を提供することができる。ユーザからの入力に応じて、自動案内システムは、ユーザが特定した特定の人または部署に発信者を接続することができる。
いくつかの自動案内システムは、音声認識技術を使用する。音声認識を使用するシステムにおいて、ユーザの入力は、電話のキーパッドを使用して生成されたDTMF(dual tone multi−frequency)信号を介してではなく音声入力として受信される。例えば、自動案内システムはユーザに、「販売員におつなぎする場合は「営業部」とおっしゃってください」、「サービス・コールをお求めの場合は「サービス」とおっしゃってください」、または「既存のサービス要求のステータスをチェックする場合は「ステータス」とおっしゃってください」のように指示することができる。自動案内システムは、当該指示に応答して行われたユーザの音声入力を受信し、当該ユーザを、特定された人または組織に接続することができる。
本明細書で記載される主題において、システムは自動案内システムの呼処理を提供する。
例示的なシステムは、音声入力において予期される単語および/または句のデータベースを含むことができる。当該データベースはさらに、当該データベースに記憶された単語および/または句に対して、音声入力に応答して行われるべき動作を含むことができる。例えば、データベースは、音声入力内の特定の単語および/または句に対して、通話を特定の電話番号で特定の個人または部署に接続されるよう定義することができる。
例示的なシステムはさらに、呼を受信し、音声指示をアナウンスするように適合されるサーバを含むことができる。サーバはさらに、発信者の音声入力を受信し記録して、当該音声入力が、音声入力内で予期される単語のデータベース内の単語および/または句に対応するかどうかを判定するように適合される。音声入力がデータベース内の単語および/または句に対応するとサーバが判定する場合、サーバは、音声入力内の特定の単語に対応して、データベース内で指定された動作を行う。例えば、データベース内の情報が、呼が特定の人または組織部署に接続されるべきであると識別する場合、サーバは当該呼を適切な電話番号に接続する。
音声入力がデータベース内の単語に対応しないとサーバが判定する場合、サーバは当該音声入力を分析するために待ち行列に入れる。サーバは最終的に、特定の音声入力に応答して行われた動作を識別する入力を受信し、その入力を当該音声入力に関連させて記憶する。例えば、サーバは、呼が最終的に特定の組織部署に接続されたことを識別する入力を受信することができる。
サーバは音声入力を、同様にデータベース内の単語に対応しないことが分かり同様に最終的に同じ動作を要求していると判定された以前に受信された音声入力と比較することができる。サーバは、当該音声入力および以前に受信された音声入力の双方に存在する単語を、音声入力内で予期される単語のデータベースに追加する候補であるとして識別することができる。識別された音声入力の単語がデータベースに追加されるべきであることを示す入力を受信すると、サーバは当該単語を当該データベースに追加する。
本概要は、選択した概念を簡潔な形で導入するために提供され、その概念は、例示的な実施形態の詳細な説明で後にさらに記載される。本概要は、請求される主題の主要な特徴または本質的な特徴を特定しようとするものではなく、請求される主題の範囲を限定するために使用するものでもない。他の特徴は以下に記載される。
例示的な実施形態の前述の概要および以下の追加の説明は、添付の図面と併せて読むとより良く理解される。当然のことながら、開示されたシステムおよび方法の潜在的な実施形態は、図示したものに限定されない。
概要
本明細書で開示される主題は、自動案内機能を提供するためのシステムおよび方法に関する。例示的なシステムは、音声の指示に応答して受信されることが予期される単語および/または句を含むデータベースを含むことができ、当該データベースは、文法と称されることもある。当該データベースはまた、受信されることが予期される各単語または単語のセットに関連して、特定の単語または単語のセットを識別する音声入力を受信した際に行われるべき動作を記憶している。識別された動作とは、例えば、呼を特定の電話番号に接続すること等とすることができる。例示的なシステムはさらに、ユーザに入力を促し、ユーザから音声入力を受信して処理し、ユーザの音声入力において受信される予期せぬ単語および/または句を考慮するために、単語および/または句のデータベースを更新することを容易にするように適合される自動案内サーバを含むことができる。
本明細書で開示される主題は、自動案内機能を提供するためのシステムおよび方法に関する。例示的なシステムは、音声の指示に応答して受信されることが予期される単語および/または句を含むデータベースを含むことができ、当該データベースは、文法と称されることもある。当該データベースはまた、受信されることが予期される各単語または単語のセットに関連して、特定の単語または単語のセットを識別する音声入力を受信した際に行われるべき動作を記憶している。識別された動作とは、例えば、呼を特定の電話番号に接続すること等とすることができる。例示的なシステムはさらに、ユーザに入力を促し、ユーザから音声入力を受信して処理し、ユーザの音声入力において受信される予期せぬ単語および/または句を考慮するために、単語および/または句のデータベースを更新することを容易にするように適合される自動案内サーバを含むことができる。
開示された実施形態において、単語および句のデータベースは、予期されるユーザの音声入力に調整される。換言すれば、単語および句のデータベースは、ユーザが使用する意向を示した新しい単語および句を取り込むために更新される。文法データベースの調整は、比較的短く制約のない指示を提供している際にも、ユーザの自然な音声入力を理解できるサービスを提供することに寄与する。
開示されたシステムおよび方法は、市販のソフトウェアおよび標準的なハードウェアに実装されることができる。例えば、開示されたシステムおよび方法の実施形態において、自動案内システムをユニファイド・メッセージング・サーバで実装することができる。さらに、ユニファイド・メッセージング・サーバを標準的なコンピューティング・ハードウェア上に実装することができ、当該ユニファイド・メッセージング・サーバは、確立されたネットワーキングの技術およびプロトコルを使用して通信することができる。
例示的なコンピューティング構成
図1は、自動案内サービスの提供に適した例示的なコンピューティング構成100を示す。図示したように、コンピューティング構成100はネットワーク108と通信するように結合される。ネットワーク108は音声呼を伝達するように適合され、音声信号および/またはデータの移動に適した任意の種類のネットワークであることができる。例えば、ネットワーク108は、公衆交換電話網、インターネット、または音声情報を伝達するのに適した他の任意のネットワークであるか、またはその全てもしくは一部を含むことができる。ネットワーク108は、異なる技術を使用できる離散的なネットワークの組合せを含むことができる。例えば、ネットワーク108はLAN(local area network)、WAN(wide area network)、またはそれらの組合せを含むことができる。ネットワーク108は無線、有線、またはそれらの組合せを含むことができる。
図1は、自動案内サービスの提供に適した例示的なコンピューティング構成100を示す。図示したように、コンピューティング構成100はネットワーク108と通信するように結合される。ネットワーク108は音声呼を伝達するように適合され、音声信号および/またはデータの移動に適した任意の種類のネットワークであることができる。例えば、ネットワーク108は、公衆交換電話網、インターネット、または音声情報を伝達するのに適した他の任意のネットワークであるか、またはその全てもしくは一部を含むことができる。ネットワーク108は、異なる技術を使用できる離散的なネットワークの組合せを含むことができる。例えば、ネットワーク108はLAN(local area network)、WAN(wide area network)、またはそれらの組合せを含むことができる。ネットワーク108は無線、有線、またはそれらの組合せを含むことができる。
ネットワーク108は通信リンク106を介してスイッチ110とインタフェースして、音声呼をコンピューティング構成100に伝達する。スイッチ110は、呼をネットワーク108からコンピューティング構成100へ切り替えるように動作可能な任意の種類の装置であることができる。一例示的実施形態において、スイッチ110は例えば、PBX(public branch exchange)スイッチであってもよい。スイッチ110はゲートウェイ120と通信リンク130を介して情報を伝達し、通信リンク130は、例えば、呼情報の伝達に適した任意の適切なネットワーク・トポロジを使用することができる。
コンピューティング構成100は、ゲートウェイ120、ならびにサーバ140、142、および144を含む。ゲートウェイ120は、コンピューティング構成100内のサーバ140、142、および144を含む複数のマシンにアクセス・ポイントを提供するように適合される。ゲートウェイ120は、呼情報をサーバ140、142、および144に経路指定するのに適した任意のコンピューティング装置を含むことができる。一例示的実施形態において、ゲートウェイ120は、呼情報を第1のプロトコルでスイッチ110から受信し、それを別のプロトコルでサーバ140、142、および/または144に伝達するように適合される。例えば、ゲートウェイ120は、音声呼をスイッチ110から例えばTDM(time division multiplexed)プロトコルのような回線交換プロトコルで受信して、呼を例えばインターネット・プロトコルのようなパケット交換プロトコルを使用してサーバ140、142、および/または144に伝達するように適合されたVoIP(voice−over−internet−protocol)ゲートウェイであってもよい。一例示的実施形態において、ゲートウェイ120およびスイッチ110の機能を共通の装置内で組み合わせることができる。
ネットワーク150は、ゲートウェイ120とサーバ140、142、および144との二者間および複数との間で通信リンクを提供する。ネットワーク150は、ゲートウェイ120とサーバ140、142、および/または144との間の通信を提供するのに適した通信リンクであればどのようなものでもよい。ネットワーク150は、例えば、データをインターネット・プロトコル形式で伝達するのに適した光ファイバ・ネットワークを含むことができる。さらに、ネットワーク150は、例えば、WAN、LAN、および/またはインターネットのようなネットワークの構成要素を含むことができる。
サーバ140、142、および144は、他のサービスの中でもとりわけ、自動案内システムの呼処理を提供するよう適合されたコンピューティング装置である。サーバ140、142、および144の各々は、本明細書で記載されたように自動案内システムの呼処理を提供するように動作するためのコンピュータ可読命令でプログラムされた任意の適切なコンピューティング装置であることができる。一例示的実施形態において、サーバ140、142、および144を、異なるメッセージ・ストリームを単一の受信箱に統合するよう適合されるUM(unified messaging)サーバとして動作するようにプログラムされることができる。図1には3台のサーバ140、142、および144を図示してあるが、任意数の複数のサーバを構成100に含めてもよいことに留意されたい。
一例示的実施形態において、呼をゲートウェイ120で受信すると、サーバ140、142、および/または144のうち少なくとも1つを、その要求をサービスするものとして識別される。当該呼は、当該呼をサービスする責任を有する識別された1つまたは複数のサーバに転送される。当該1つまたは複数のサーバ140、142、144が自動案内インタフェース・システム、即ち、呼に応答して行うべき動作を識別するための音声指示型のインタフェースを提供する。発信者は、所望の動作を指定することができ、その動作には、通常、発信者が話したい人または部署を識別することを含む。
図2は、サーバ140、142、および144に含まれる自動案内システム208の機能要素のブロック図である。自動案内システム208を、例えば、ユニファイド・メッセージング・サーバにより提供される機能に含むことができる。
自動案内システム208は、例えば、音声認識/生成コンポーネント210、ディレクトリ212、呼処理文法214、呼分析文法216、音声入力待ち行列218、および自動案内サーバ220を含むことができる。音声認識/生成コンポーネント210は、音声入力を自動案内システム208がさらに処理できる形式へと解釈するように動作する。また、音声認識/生成コンポーネント210は、発信者に対して再生される音声信号を生成するように動作する。音声認識/生成コンポーネント210は、受信された音声入力を解釈するように動作可能な任意の適切なソフトウェアおよび/またはハードウェアを含むことができる。
ディレクトリ212は、存在が知られており且つ自動案内システム208による呼の転送先でありうる人、組織、および/または位置のデータベースである。ディレクトリ212は、例えば、特定の組織の従業員および/または部署を含むことができる。ディレクトリ212に記憶されたエンティティごと、例えば、人または部署ごとに、ディレクトリ212は、特定のエンティティに向けられた呼の転送先である電話番号を識別する少なくとも1つの電話番号を含むことができる。ディレクトリ212は、例えば、リレーショナル・データベースまたはオブジェクト・データベースのような、情報の記憶と編成に適した任意のデータ記憶構造体に記憶されうる。
呼処理文法214は、音声入力で受信されることが予期される単語および単語のグループ、即ち句を含む。また、呼処理文法214は、特定の単語または句を含む音声入力を受信した際に行うべき動作を指定することができる。例えば、呼処理文法214は、単語「受付係」を含むことができ、受付係宛ての呼が接続される電話番号へのリンクを指定するか含むことができる。単語「受付係」を識別する音声入力を受信すると、システム208は文法214を参照することにより当該音声入力を有効な入力として識別することができ、当該呼を受付係に対応する電話番号に転送することができる。当該電話番号を呼処理文法214に記憶することができ、および/またはディレクトリ212に記憶することができる。
呼処理文法214はまた、ユーザが行いたい動作を示す句を含むこともできる。例えば、呼処理文法214は句「サービス・コール」を含むことができる。句「サービス・コール」を識別する音声入力を受信すると、システム208は当該呼を、サービス要求を処理するように指定された部署に対応する電話番号に転送することができる。幾つかの事例では、特定の音声入力を受信した際に行うべきと識別された動作とは、追加の情報を得るために更なる指示を与えることである。例えば、「払い戻し要求」を識別した音声入力の場合、呼処理文法214により、製品情報を要求する追加の指示をユーザに与えるよう規定することができる。
同義語を識別するように呼処理文法214を構成することができる。例えば、呼処理文法214が単語「受付係」を含むだけでなく、「オペレータ」および「フロント・デスク」のような単語および句も含むかもしれない。これらの単語および句の全ては、同じ動作を参照するように呼処理文法214内で指定され、その動作は呼を特定の電話番号に接続することであるかもしれない。同様に、句「サービス・コール」の参照に加えて、呼処理文法214はまた、句「支援求む」および「故障した機器の修理を手伝ってください」を含むことができる。呼処理文法214において、これらの句の各々を、同じ電話番号にかける動作に対応するように指定することができる。従って、音声入力がこれらの何れかを識別する場合には、同じ動作が行われるはずである。
一例示的実施形態において、呼処理文法214は、相対的に少数の単語および句を保持することができる。換言すれば、文法214は比較的「平坦」であることができる。単語または句の数を制限することにより、音声入力内の単語が文法214に存在するかどうかを迅速に識別することができる。「平坦」な文法により、より自然なユーザ・エクスペリエンスがもたらされる。
呼分析文法216は、受信された音声入力に含まれることが予期されないものを含む、単語および句を含む。呼分析文法216を、例えば、呼処理文法214に含まれない単語および/または句を音声入力が含むときに使用することができる。係る事例では、音声入力内の単語および句を、呼分析文法216を使用して識別することができる。呼分析文法216を呼処理文法214から分離した構成要素として使用することにより、呼処理文法214は音声入力内で受信されることが予期される比較的少数の単語および/または句を含むことができ、一方文法214外の単語を含むユーザ入力を処理することもできる。さらに、少数の単語を呼処理文法214内で保持することにより、消費されるコンピューティング・リソースを抑えることができ、正確性を向上させることができる。
呼処理文法214および呼分析文法216を、例えばリレーショナル・データベースまたはオブジェクト・データベースのような、情報の記憶および編成に適した任意のデータ記憶構造体に記憶することができる。
待ち行列218は、受信したがマッチする単語または句が呼処理文法214内に見つからない音声入力のレコードを含む。音声入力を受信し、文法214内の単語または句に対応しないと判定された後、当該音声入力は後の分析のために待ち行列218に置かれる。待ち行列はまた、特定の呼の各々に応答して最終的に行った動作表示を有することができる。
自動案内サーバ220は、本明細書で記載されるようにユーザの音声入力を受信し処理するために、音声認識コンポーネント210、ディレクトリ212、呼処理文法214、呼分析文法216、および待ち行列218とインタフェースする。自動案内サーバ220は、ユーザに入力を促し、音声入力をユーザから受信し、音声入力に応答して呼処理文法214に含まれる単語および句を利用した動作を開始し、ユーザの音声入力において受信された予期せぬ単語および/または句を考慮して呼処理文法214を更新することを容易にする。自動案内サーバ220は、呼処理文法214の更新を、例えば、予期せぬ単語および/または句を含む音声入力を分析するために待ち行列218に入れ、続いて単語および/または句を呼処理文法214に追加することにより、容易にすることができる。自動案内サーバ220は、最終的に特定の電話番号に向けられた呼に対する予期せぬ単語および/または句を、最終的に同じ電話番号に向けられた以前に受信された音声入力内の予期せぬ単語および/または句と比較することができる。比較の結果、自動案内サーバ220は、呼処理文法214に追加するための単語および/または句を識別することができる。
自動案内文法の調整方法
図3は、自動案内サービスの提供対象である呼を受信するための例示的なプロセスのフローチャートである。ステップ310で、サーバ140、142、および144のうち1つまたは複数のサーバ上で動作していることが可能な自動案内システム208で、呼を受信する。呼はゲートウェイ120を介して経路指定されているかもしれず、例えばネットワーク108が発信元であるかもしれない。
図3は、自動案内サービスの提供対象である呼を受信するための例示的なプロセスのフローチャートである。ステップ310で、サーバ140、142、および144のうち1つまたは複数のサーバ上で動作していることが可能な自動案内システム208で、呼を受信する。呼はゲートウェイ120を介して経路指定されているかもしれず、例えばネットワーク108が発信元であるかもしれない。
ステップ312で、自動案内サーバ220は音声認識および生成コンポーネント210とインタフェースして、発信者に対してアナウンスを再生する。当該アナウンスにより、行いたい動作を特定する入力を行うようにユーザに促すことができる。例えば、アナウンスにより、例えば、「お話しになりたい方のお名前をおっしゃってください」のように、話したい人を特定するようにユーザに促すことができる。アナウンスにより、例えば、「おつなぎする部署の名前をおっしゃってください」のように、話したい特定の部署または職位を特定するようにユーザに促すことができる。より一般には、アナウンスにより、例えば、「ご用件を承ります」のように、ユーザが自身の呼の理由を特定するよう要求することができる。
ステップ314で、自動案内サーバ220は発信者の音声入力を記録する。音声入力を、例えば、ランダム・アクセス・メモリおよび/またはデータベースに記憶することができる。
ステップ316で、自動案内サーバ220は音声入力を処理して、当該音声入力が呼処理文法214内の予期される単語および/または句に対応するかどうかを識別する。自動案内サーバ220は、音声入力において使用される単語が、呼処理文法214において指定された行うべき動作を示すかどうかを判定する。例えば、音声入力により、発信者が特定の人と話したいということを指定することができる。自動案内サーバ220は、指定された人が呼処理文法214内で識別されるかどうかを判定する。別の例では、音声入力により、発信者が特定の部署と話したいということを指定することができる。自動案内サーバ220は、入力において当該部署を指定するために使用される単語が呼処理文法214に含まれるかどうかを判定する。さらに別の例では、音声入力により、その呼が特定の問題の解決支援を要求しているということを指定することができる。自動案内サーバ220は、当該音声入力において特定の問題を識別するために使用された単語が呼処理文法214に含まれるかどうかを判定する。
音声入力内の単語および/または句が呼処理文法214内の予期される単語および/または句に対応しない場合、ステップ318で、自動アシスタントが音声入力をさらに検討するために待ち行列に入れる。例えば、音声入力を待ち行列218に記憶することができる。音声入力を後で検討することには、図4および5に示すように特定の音声入力に含まれる単語および/または句を含むよう呼処理文法214を更新すべきかどうかを識別することを含むことができる。
音声入力をさらに検討するために待ち行列に入れた後、および呼の目的を識別する最初の試みに失敗したので、ステップ320で、自動案内220は呼の目的を識別するためにユーザにさらなる入力を促す。例えば、自動案内220は発信者に、最初の要求が認識されなかったことをアナウンスし、ユーザに要求を再度言うように求めることができる。あるいは、自動案内220は入力を促すために、呼をライブ・オペレータに転送することができる。最終的に、ステップ322で、発信者により要求された所望の動作を識別し、要求された動作をさらに処理するために、待ち行列218内の最初の音声入力と共に記憶する。ステップ328で、自動案内220は要求された動作を行う。この動作は例えば、特定の人または組織の内線に当該呼を接続することであってもよい。
ステップ316で自動案内220が音声入力内の単語および/または句が呼処理文法214内のエントリに対応すると識別すると、ステップ324で自動案内220は、発信者が要求したと自動案内が理解した動作の確認をアナウンスする。例えば、自動案内220は、例えば「John Smithとお話しになりたいのですね?」のように、特定の人または特定の部署と話したいことを発信者が確認するよう要求することができる。
ステップ326で、自動案内220は発信者が、自動案内220が理解したように所望の動作を確認したかどうかを判定する。確認が受信されなかった場合、自動案内システムはステップ318に進み、音声入力をさらに検討するために待ち行列218に追加する。その後、自動案内220は上述のようにステップ320および322へ進む。
ステップ326で要求された動作の確認が受信された場合、ステップ328で自動案内220は要求された動作を行う。この動作は例えば、呼を特定の人または組織の内線に接続することであってもよい。
図4は、例示的な自動案内システム208により受信された音声入力を分析するための例示的なプロセスのフローチャートである。ステップ410で、自動案内220は、受信されたが呼処理文法214内に対応する単語および/または句が識別されなかった音声入力の待ち行列218を保持する。
ステップ412で、自動案内220は特定の音声入力を待ち行列218から取り出すことができる。ステップ414で、自動案内220は、特定の音声入力に対して最終的に行った動作を識別する。例えば、最終的に行った動作は、呼を特定の番号に接続することまたは特定の指示を再生することであったかもしれない。行った動作を待ち行列218から取り出すことができる。
ステップ416で、自動案内220は特定の音声入力を、以前に受信されたが呼処理文法214内の単語および/または句に対応しないことが分かり、最終的に当該特定の音声入力と同じ動作を要求したと判定された音声入力と比較する。例えば、発信者の音声入力「サービス要求」が呼処理文法214内のエントリに対応しないことが分かり、当該呼に対して最終的に行った動作が当該呼をカスタマー・サービス部門に接続することであった場合、ステップ416で、自動案内220は音声入力「サービス要求」を、同様に処理文法214内に対応するエントリを有しないことが分かり最終的にカスタマー・サービス部門に接続された以前に受信された音声入力と比較する。
ステップ418で、自動案内220は、音声入力が呼処理文法214に追加または昇格すべき候補である単語および/または句を含むかどうかを識別する。例えば、音声入力が、最終的に同一の動作をもたらす1つまたは複数の以前の音声呼におけるものと同じ単語または句を含むと判定された場合、ステップ418で、自動案内220は当該特定の単語または句を呼処理文法214へ追加すると識別することができる。特定の例として、発信者の音声入力が「サービス要求」で当該呼が最終的にカスタマー・サービス部門へ経路指定され、以前の音声入力が同様に句「サービス要求」を含みカスタマー・サービス部門へ同様に経路指定された場合、ステップ418で、自動案内220は句「サービス要求」を呼処理文法214に追加すべきであると識別することができる。
ステップ420で、自動案内220は、識別された単語または句を、受信されることが予期される呼処理文法214内の単語および句に追加すべきことを指定する入力を受信することができる。例えば、識別された単語または句を呼処理文法214に追加すべきという入力を自動案内システムの管理者、または恐らくユーザからさえ受信することができる。特定の単語または句が文法214に追加されると、当該特定の単語または句を含む後続の音声入力が自動案内220により自動的に処理されることができる。
図5は、例示的な自動案内サービスにより受信された音声入力を分析するための別の例示的なプロセスのフローチャートである。ステップ510で、自動案内220は、受信されたが呼処理文法214内に対応する単語および/または句が識別されなかった音声入力の待ち行列218を保持する。自動案内220は、分析のためにユーザが特定の音声入力を選択できるように、待ち行列218内の項目をユーザに提示することができる。
ステップ512で、自動案内220は、ユーザの要求に応答して音声入力を待ち行列218から取り出して提示することができる。特定の例として、自動案内220は、ユーザの要求に応答して、「サービス要求」を指定する音声入力を取り出して提示することができる。
ステップ514で、自動案内220は、特定の音声入力に対して最終的に行った動作を識別し、当該動作をユーザに提示する。例えば、自動案内220は待ち行列218に当該特定の音声入力と共に記憶された情報から、関連する呼が特定の人または組織に最終的に経路指定されたかどうか、または特定のサービスが音声入力に応答して提供されたかどうかを識別する。特定の例として、自動案内220は、特定の音声入力、即ち、「サービス要求」の結果、最終的に当該呼がカスタマー・サービス部門に接続されていることを識別し、ユーザに提示することができる。
ステップ516で、自動案内220は、特定の単語または句を呼処理文法214に追加すべきことを示すユーザ入力を受信したかどうかを判定する。ユーザは、例えば特定の音声入力で使用された単語または句が文法214内に既に存在する単語と同義である場合に、当該特定の単語または句を呼処理文法214に追加すべきと判定することができる。あるいは、ユーザは、特定の単語または句が実用的なユーザ入力であって他の発信者により使用される可能性が高いと判定することができる。
ステップ516で、特定の単語または句を呼処理文法214に追加すべきことを示す入力を受信しなかった場合、処理はステップ512で継続する。
ステップ516で、特定の単語または句を呼処理文法214に追加すべきことを示すユーザ入力を受信した場合、ステップ518で、当該特定の単語または句を呼処理文法214に追加する。当該特定の単語または句が文法214に追加されると、当該特定の単語または句を含む後続の音声入力を自動案内220により自動的に処理されることができる。
例示的なコンピューティング環境
図6は、例示的なコンピューティング構成100で使用される例示的なコンピューティング環境720を示す。例示的なコンピューティング環境720は、本明細書で記載された自動案内サービスに対して開示した方法を実装するための多くの方法で使用される。例えば、コンピューティング環境720は、自動案内サービスを提供するためにコンピュータ・サーバ140、142、144として動作してもよい。一例示的実施形態において、コンピューティング環境720はゲートウェイ120として動作することができる。
図6は、例示的なコンピューティング構成100で使用される例示的なコンピューティング環境720を示す。例示的なコンピューティング環境720は、本明細書で記載された自動案内サービスに対して開示した方法を実装するための多くの方法で使用される。例えば、コンピューティング環境720は、自動案内サービスを提供するためにコンピュータ・サーバ140、142、144として動作してもよい。一例示的実施形態において、コンピューティング環境720はゲートウェイ120として動作することができる。
コンピューティング環境720は、適切なコンピューティング環境の一例に過ぎず、本明細書で開示された主題の使用範囲または機能範囲についていかなる限定をも示唆しようとするものではない。また、コンピューティング環境720が、例示的なコンピューティング環境720で示された構成要素のいかなる1つまたは組合せに関してもいかなる依存性または要件を有するとも解釈すべきではい。
本明細書で記載された主題の態様は、多数の他の汎用目的または特殊目的のコンピューティング・システム環境または構成を使用して動作させることができる。本明細書で記載された主題と共に使用するのに適切でありうる既知のコンピューティング・システム、環境、および/または構成の例には、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、ポータブル・メディア・デバイス、マルチプロセッサ・システム、マイクロプロセッサベースのシステム、セット・トップ・ボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、上記システムまたは装置の何れかを含む分散型コンピューティング環境、等が含まれるがこれらに限定されない。
本明細書で記載された主題の態様を実装するための例示的なシステムは、汎用目的のコンピューティング装置をコンピュータ741の形で含む。コンピュータ741の構成要素は、処理ユニット759、システム・メモリ722、システム・メモリを含む様々なシステム構成要素を処理ユニット759に結合するシステム・バス721を含むことができるがこれらに限定されない。システム・バス721は、メモリ・バスまたはメモリ・コントローラ、周辺バス、および様々なバス・アーキテクチャの何れかを使用したローカル・バスを含む数種のバス構造のうちの何れかであることができる。限定ではなく例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカル・バス、およびメザニン・バスとしても知られるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ741は、通常、様々な種類のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ741によりアクセス可能な任意の利用可能な媒体であることができ、揮発性および不揮発性媒体、取外し可能および取外し不能媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報を記憶するための任意の方法または技術で実装された揮発性および不揮発性媒体、取外し可能および取外し不能媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュ・メモリもしくは他のメモリ技術、CD−ROM、DVD(digital versatile disk)もしくは他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶装置、または所望の情報を記憶するために使用されるコンピュータ741がアクセスされる他の任意の媒体を含むがこれらに限定されない。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを搬送波または他のトランスポート機構のような変調データ信号で具現化し、任意の情報配信媒体を含む。「変調データ信号」という用語は、1つまたは複数のその特性集合を有するか信号内の情報をエンコードするような方法で変化した信号を含む。限定ではなく例として、通信媒体には有線ネットワークまたは直接有線接続のような有線媒体および、音響、RF、赤外線および他の無線媒体のような無線媒体が含まれる。上記の何れかから成る組合せもコンピュータ可読媒体の範囲に含まれるべきである。
システム・メモリ722は、コンピュータ記憶媒体をROM(read only memory)723およびRAM(random access memory)760のような揮発性および/または不揮発性メモリの形で含む。BIOS(basic input/output system)724は、例えば起動中にコンピュータ741内部の要素間での情報転送を支援する基本的なルーチンを含み、通常、ROM723に記憶される。RAM760は、通常、処理ユニット759により即座にアクセス可能および/または現在稼働中のデータおよび/またはプログラム・モジュールを含む。限定ではなく例として、図6は、オペレーティング・システム725、アプリケーション・プログラム726、他のプログラム・モジュール727、およびプログラム・データ728を示す。
コンピュータ741はまた、他の取外し可能/取外し不能のコンピュータ記憶媒体、揮発性/不揮発性のコンピュータ記憶媒体を含むことができる。例としてのみ、図6は取外し不能で不揮発性の磁気媒体を読み書きするハード・ディスク・ドライブ738、取外し可能で不揮発性の磁気ディスク754を読み書きする磁気ディスク・ドライブ739、およびCD ROMまたは他の光媒体のような取外し可能で不揮発性の光ディスク753を読み書きする光ディスク・ドライブ740を示す。例示的な動作環境で使用される他の取外し可能/取外し不能のコンピュータ記憶媒体、揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープ・カセット、フラッシュ・メモリ・カード、デジタル多用途ディスク、デジタル・ビデオ・テープ、固体RAM、固体ROM、等が含まれるがこれらに限定されない。ハード・ディスク・ドライブ738は、通常、インタフェース734のような取外し不能メモリ・インタフェースを介してシステム・バス721に接続され、磁気ディスク・ドライブ739および光ディスク・ドライブ740は、通常、インタフェース735のような取外し可能メモリ・インタフェースによりシステム・バス721に接続される。
上で論じ、図6で示されたドライブおよびその関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、および他のデータをコンピュータ741のために記憶する。図6において、例えば、ハード・ディスク・ドライブ738がオペレーティング・システム758、アプリケーション・プログラム757、他のプログラム・モジュール756、およびプログラム・データ755を記憶するものとして示される。これらの構成要素はオペレーティング・システム725、アプリケーション・プログラム726、他のプログラム・モジュール727、およびプログラム・データ728と同一であるかまたは異なることができることに留意されたい。オペレーティング・システム758、アプリケーション・プログラム757、他のプログラム・モジュール756、およびプログラム・データ755にはここでは異なる番号を与え、最低限それらが異なるコピーであることを示す。ユーザは、キーボード751および一般にはマウス、トラックボールまたはタッチ・パッドと呼ばれるポインティング・デバイス752のような入力装置を介してコンピュータ741にコマンドおよび情報を入力することができる。他の入力装置(図示せず)には、マイクロフォン、ジョイスティック、ゲーム・パッド、パラボラ・アンテナ、スキャナ、等を含むことができる。これらおよび他の入力装置は、しばしば、システム・バスに結合されたユーザ入力インタフェース736を介して処理ユニット759に接続されるが、パラレル・ポート、ゲーム・ポートまたはUSB(universal serial bus)のような他のインタフェースおよびバス構造により接続されてもよい。モニタ742または他種の表示装置も、ビデオ・インタフェース732のようなインタフェースを介してシステム・バス721に接続される。モニタに加えて、コンピュータは、スピーカ744およびプリンタ743のような他の周辺出力装置も含むことができ、これらを出力周辺インタフェース733を介して接続することができる。
以上、自動案内サービスを提供するためのシステムを開示した。当該システムは、単語および句を単語および句のセットに追加するためのフィードバック・ループを提供し、当該単語および句のセットに対してユーザ入力が分析される。
当然のことながら、本明細書で記載された様々な技術は、ハードウェアもしくはソフトウェアに関連させて、または必要ならばその両方の組み合わせに関連させて実装されうる。従って、本明細書で記載された主題の方法および装置、またはその幾つかの態様もしくは一部は、フロッピー・ディスク、CD−ROM、ハード・ドライブ、または他の任意の機械可読記憶媒体のような有形媒体で具現化されるプログラム・コード(即ち、命令)の形態をとることができる。この場合、プログラム・コードをコンピュータのようなマシンにロードして当該マシンにより実行すると、当該マシンは本明細書で記載された主題を実施する装置となる。プログラム・コードを媒体に記憶する場合、問題のプログラム・コードを、問題の動作を集合的に実施する1つまたは複数の媒体上に格納してもよい。即ち、1つまたは複数の媒体が一緒になって当該動作を実施するためのコードを含んでもよいが、複数の媒体が存在する場合は、コードの任意の特定の部分を任意の特定の媒体に格納するという要件はなくともよい。プログラム可能コンピュータ上でプログラム・コードを実行する場合、コンピューティング装置は一般にプロセッサ、プロセッサにより読取可能な記憶媒体(揮発性および不揮発性のメモリおよび/または記憶要素を含む)、少なくとも1つの入力装置、および少なくとも1つの出力装置を含む。1つまたは複数のプログラムは、本明細書で記載された主題に関連して記載された処理を、例えば、API、再利用可能コントロール、等の使用を介して実装または利用することができる。このようなプログラムは、コンピュータ・システムと通信するために、高レベルの手続き型プログラミング言語またはオブジェクト指向プログラミング言語で実装されることが好ましい。しかし、必要ならばプログラム(複数可)をアセンブリ言語または機械語で実装することができる。何れにせよ、言語はコンパイル型またはインタプリタ型言語であることができ、ハードウェア実装と組み合わせることができる。
例示的な実施形態は、本明細書で記載された主題の態様を1つまたは複数のスタンド・アロン・コンピュータ・システムのコンテキストにおいて利用することに言及されたが、本明細書で記載された主題はそのようには限定されず、ネットワークまたは分散型のコンピューティング環境のような任意のコンピューティング環境に関連させて実装されてもよい。さらに、本明細書で記載された主題の態様は、複数の処理チップまたは処理装置で、またはそれらを跨って実装されてもよく、記憶域を同様に複数の装置に跨って実現されてもよい。このような装置は、パーソナル・コンピュータ、ネットワーク・サーバ、ハンドヘルド装置、スーパーコンピュータ、または自動車および航空機のような他のシステムに統合されたコンピュータを含むこともある。
本発明の主題は、構造的特徴および/または方法論的動作に固有な言葉で記載されたが、当然のことながら、添付の特許請求の範囲で定義された本主題は必ずしも上述の特定の特徴または動作に限定される必要はない。むしろ、上述した特定の特徴および動作は請求項を実装する例示的な形態として開示される。
Claims (20)
- 音声呼を処理する方法であって、
呼を受信するステップと、
前記呼に応答してアナウンスを伝達するステップと、
音声入力を記録するステップと、
前記音声入力がデータベース(214)内の予期される音声入力の単語に対応するかどうかを判定するステップと、
前記音声入力がデータベース(214)内の予期される音声入力の単語に対応する場合、それに応答して行うべき動作を識別するステップと、
前記音声入力がデータベース(214)内の予期される入力の単語に対応しない場合、前記記録した音声入力を分析のために入力の待ち行列(218)に追加するステップと
を含むことを特徴とする方法。 - 応答して行うべき動作を識別する前記ステップは、前記呼が接続される電話番号を識別するステップを含むことを特徴とする請求項1に記載の方法。
- 前記音声入力がデータベース内の予期される入力の単語に対応しない場合、追加の入力を求める指示を伝達するステップ
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記音声入力がデータベース(214)内の予期される入力の単語に対応しない場合、単語を前記音声入力から前記データベース(214)に追加するステップ
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記音声入力がデータベース(214)内の予期される入力の単語に対応しない場合、
前記音声入力に対して前記呼が最終的に向けられたエンティティを識別するステップと、
前記エンティティに向けられた以前に受信された音声入力を識別するステップと、
前記音声入力および前記以前に受信された音声入力の双方に存在する単語を識別するステップと、
前記音声入力および前記以前に受信された音声入力の双方に存在する前記単語を、前記データベース(214)に追加すると識別するステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記音声入力および前記以前に受信された音声入力の双方に存在する前記単語を、前記データベース(214)に追加すると識別する前記ステップは、前記単語、および前記単語に関連して記憶する電話番号、人、および組織のうち少なくとも1つを識別するステップを含むことを特徴とする請求項5に記載の方法。
- 前記音声入力および前記以前に受信された音声入力の双方に存在する前記単語を前記データベース(214)に追加する命令を提供する入力を受信するステップをさらに含むことを特徴とする請求項5に記載の方法。
- 前記音声入力がデータベース(214)内の予期される入力の単語に対応しない場合、
前記音声入力に対して前記呼が最終的に向けられた内線番号を識別するステップと、
前記音声入力を提供するステップと、
前記音声入力内に存在する単語を前記データベース(214)に追加すると識別する入力を受信するステップと
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記音声入力内に存在する単語を前記データベース(214)に追加すると識別するステップは、前記単語、および前記単語に関連して記憶する電話番号、人、および組織のうち少なくとも1つを前記データベース(214)に追加すると識別するステップを含むことを特徴とする請求項8に記載の方法。
- 音声入力を記録する前記ステップは、句を含む音声入力を記録するステップを含み、
前記音声入力が前記データベース(214)内の予期される音声入力の単語に対応するかどうかを判定する前記ステップは、前記音声入力が前記データベース内の予期される音声入力の句に対応するかどうかを判定するステップを含み、
前記音声入力内に存在する単語を前記データベース(214)に追加すると識別する入力を受信する前記ステップは、前記音声入力内に存在する句を前記データベース(214)に追加すると識別する入力を受信するステップを含むことを特徴とする請求項8に記載の方法。 - 音声呼を処理する方法であって、
音声入力内で予期される単語のデータベース(214)を保持するステップであって、前記データベース(214)は、特定の単語に対して、前記特定の単語を含む音声入力に応答して呼を接続するための電話番号を備えるステップと、
呼を受信するステップと、
前記呼に関連して、単語を含む音声入力を受信するステップと、
前記受信された単語が音声入力内で予期される単語の前記データベースにないことを識別するステップと、
前記受信された単語を前記データベース(214)に追加するステップと
を含むことを特徴とする方法。 - 前記呼が接続される電話番号を識別するステップをさらに含み、
前記受信された単語を前記データベース(214)に追加する前記ステップは、前記受信された単語に関連して記憶された前記電話番号を前記データベースに追加するステップを含むことを特徴とする請求項11に記載の方法。 - 音声入力内で予期される単語の前記データベース(214)を保持する前記ステップは、音声入力内で予期される句の前記データベース(214)を保持するステップを含み、
前記呼に関連して単語を含む音声入力を受信する前記ステップは、句を含む入力を受信するステップを含み、
前記受信された単語が音声入力内で予期される単語の前記データベース(214)にないことを識別する前記ステップは、前記受信された句が前記データベース(214)にないことを識別するステップを含み、
前記受信された単語を前記データベース(214)に追加する前記ステップは、前記受信された句を前記データベース(214)に追加するステップを含むことを特徴とする請求項11に記載の方法。 - 前記電話番号に向けられた、前記受信された単語を含む以前に受信された音声入力を識別するステップと、
前記電話番号に向けられた、前記受信された単語を含む以前に受信された音声入力を識別した際に、前記受信された単語を前記データベース(214)に追加すると識別するステップと
をさらに含むことを特徴とする請求項11に記載の方法。 - 前記受信された単語が前記データベース(214)に追加すべきであることを示す入力を受信するステップをさらに含むことを特徴とする請求項11に記載の方法。
- 音声入力において受信されることが予期される単語のデータベース(214)と、
呼を受信し、音声入力を受信し、前記音声入力が前記データベース内の音声入力において受信されることが予期される単語に対応するかどうかを判定し、音声入力において受信することが予期される単語の前記データベースを更新するためのコンピュータ可読命令を備えるサーバ(220)と
を備えることを特徴とする音声自動案内システム(208)。 - 音声認識を前記音声入力に対して実施するためのコンピュータ可読命令をさらに備えることを特徴とする請求項16に記載の音声自動案内システム(208)。
- 前記データベース(214)は、前記データベース内のエントリに対して、前記データベース(214)内にエントリを有する単語を含む音声入力の受信に応答して行うべき動作を備えることを特徴とする請求項16に記載の音声自動案内システム(208)。
- 前記サーバはさらに、前記呼が転送された先の内線番号を識別し、前記内線番号に対して以前に受信された音声入力を識別し、前記以前に受信された音声入力内の単語に対応する前記音声入力内の単語を識別するための命令を備えることを特徴とする請求項16に記載の音声自動案内システム(208)。
- 音声入力において受信されることが予期される単語の前記データベース(214)を更新するための前記コンピュータ可読命令は、単語の前記データベース(214)を前記単語および前記対応する内線番号で更新するための命令を備えることを特徴とする請求項16に記載の音声自動案内システム(208)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/800,112 US20080273672A1 (en) | 2007-05-03 | 2007-05-03 | Automated attendant grammar tuning |
PCT/US2008/061284 WO2008137327A1 (en) | 2007-05-03 | 2008-04-23 | Automated attendant grammar tuning |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010526349A true JP2010526349A (ja) | 2010-07-29 |
Family
ID=39939530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010507518A Pending JP2010526349A (ja) | 2007-05-03 | 2008-04-23 | 自動案内システムの文法調整 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080273672A1 (ja) |
EP (1) | EP2153638A4 (ja) |
JP (1) | JP2010526349A (ja) |
KR (1) | KR20100016138A (ja) |
CN (1) | CN101682673A (ja) |
WO (1) | WO2008137327A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014178839A (ja) * | 2013-03-14 | 2014-09-25 | Nec Fielding Ltd | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Families Citing this family (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9183834B2 (en) * | 2009-07-22 | 2015-11-10 | Cisco Technology, Inc. | Speech recognition tuning tool |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR101021216B1 (ko) * | 2010-04-05 | 2011-03-11 | 주식회사 예스피치 | 음성인식 그래마 자동 튜닝 장치, 방법 및 이를 적용한 자동응답시스템 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9721563B2 (en) * | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10140986B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
EP3588994B1 (de) * | 2018-06-29 | 2023-08-02 | Andreas Stihl AG & Co. KG | Verfahren zum begriffsabhängigen ausgeben einer auf einer spracheingabe basierenden information und system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09212186A (ja) * | 1996-01-31 | 1997-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法およびこの方法を実施する装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3614328A (en) * | 1969-06-24 | 1971-10-19 | Kenneth Eugene Mcnaughton | Automatic subscriber answering service |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
JP3397372B2 (ja) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US5835570A (en) * | 1996-06-26 | 1998-11-10 | At&T Corp | Voice-directed telephone directory with voice access to directory assistance |
US6058363A (en) * | 1997-01-02 | 2000-05-02 | Texas Instruments Incorporated | Method and system for speaker-independent recognition of user-defined phrases |
US6219643B1 (en) * | 1998-06-26 | 2001-04-17 | Nuance Communications, Inc. | Method of analyzing dialogs in a natural language speech recognition system |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6178404B1 (en) * | 1999-07-23 | 2001-01-23 | Intervoice Limited Partnership | System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases |
US6615172B1 (en) * | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
GB9930720D0 (en) * | 1999-12-29 | 2000-02-16 | Ibm | Call centre agent automated assistance |
US6658389B1 (en) * | 2000-03-24 | 2003-12-02 | Ahmet Alpdemir | System, method, and business model for speech-interactive information system having business self-promotion, audio coupon and rating features |
US7305345B2 (en) * | 2001-02-15 | 2007-12-04 | Livewire Acquisition, Inc. | Methods, systems, and computer program products for providing automated customer service via an intelligent virtual agent that is trained using customer-agent conversations |
US7092888B1 (en) * | 2001-10-26 | 2006-08-15 | Verizon Corporate Services Group Inc. | Unsupervised training in natural language call routing |
US7058565B2 (en) * | 2001-12-17 | 2006-06-06 | International Business Machines Corporation | Employing speech recognition and key words to improve customer service |
US20050004799A1 (en) * | 2002-12-31 | 2005-01-06 | Yevgenly Lyudovyk | System and method for a spoken language interface to a large database of changing records |
US20040190687A1 (en) * | 2003-03-26 | 2004-09-30 | Aurilab, Llc | Speech recognition assistant for human call center operator |
US7529678B2 (en) * | 2005-03-30 | 2009-05-05 | International Business Machines Corporation | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system |
US8077835B2 (en) * | 2007-03-30 | 2011-12-13 | Verizon Patent And Licensing Inc. | Method and system of providing interactive speech recognition based on call routing |
-
2007
- 2007-05-03 US US11/800,112 patent/US20080273672A1/en not_active Abandoned
-
2008
- 2008-04-23 JP JP2010507518A patent/JP2010526349A/ja active Pending
- 2008-04-23 KR KR1020097022894A patent/KR20100016138A/ko not_active Application Discontinuation
- 2008-04-23 CN CN200880014355A patent/CN101682673A/zh active Pending
- 2008-04-23 EP EP08746666A patent/EP2153638A4/en not_active Withdrawn
- 2008-04-23 WO PCT/US2008/061284 patent/WO2008137327A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09212186A (ja) * | 1996-01-31 | 1997-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法およびこの方法を実施する装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014178839A (ja) * | 2013-03-14 | 2014-09-25 | Nec Fielding Ltd | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20100016138A (ko) | 2010-02-12 |
US20080273672A1 (en) | 2008-11-06 |
WO2008137327A1 (en) | 2008-11-13 |
EP2153638A4 (en) | 2012-02-01 |
EP2153638A1 (en) | 2010-02-17 |
CN101682673A (zh) | 2010-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010526349A (ja) | 自動案内システムの文法調整 | |
KR102223017B1 (ko) | 공유된 음성 작동 디바이스상의 호출 핸들링 | |
CN107580149B (zh) | 外呼失败原因的识别方法、装置、电子设备、存储介质 | |
US10121475B2 (en) | Computer-implemented system and method for performing distributed speech recognition | |
US7995732B2 (en) | Managing audio in a multi-source audio environment | |
US10110741B1 (en) | Determining and denying call completion based on detection of robocall or telemarketing call | |
US9386154B2 (en) | System, method and software program for enabling communications between customer service agents and users of communication devices | |
US7260530B2 (en) | Enhanced go-back feature system and method for use in a voice portal | |
TW200540649A (en) | Method and apparatus for automatic telephone menu navigation | |
US20090232284A1 (en) | Method and system for transcribing audio messages | |
JP2010102254A (ja) | 話者テンプレートを更新する装置及び方法 | |
EP2124427B1 (en) | Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto | |
US20230353671A1 (en) | Indicating callers for incoming voice calls on a shared speech-enabled device | |
US20090234643A1 (en) | Transcription system and method | |
EP2124425B1 (en) | System for handling a plurality of streaming voice signals for determination of responsive action thereto | |
US20080082963A1 (en) | Voicexml language extension for natively supporting voice enrolled grammars | |
US20040240633A1 (en) | Voice operated directory dialler | |
JP2016225740A (ja) | 通話振り分けシステム、呼制御装置およびプログラム | |
US9042523B2 (en) | Modifying voice messages stored in a voicemail system | |
EP2124426B1 (en) | Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto | |
US8111821B2 (en) | Automated follow-up call in a telephone interaction system | |
US7327832B1 (en) | Adjunct processing of multi-media functions in a messaging system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120601 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121102 |