JP2010526349A

JP2010526349A - 自動案内システムの文法調整

Info

Publication number: JP2010526349A
Application number: JP2010507518A
Authority: JP
Inventors: エヌ．ディドコッククリフォード; ジェフリーアンドリューウィルソンマイケル
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2007-05-03
Filing date: 2008-04-23
Publication date: 2010-07-29
Also published as: KR20100016138A; US20080273672A1; WO2008137327A1; EP2153638A4; EP2153638A1; CN101682673A

Abstract

システムは、自動案内呼処理を提供する。データベースは、音声入力において受信されることが予測される単語を含む。特定の単語を含む呼を受信した際に行うべき動作が、単語に関連して記憶される。サーバは呼を受信し、指示を再生した後、音声入力を受信する。サーバは、音声入力内の単語がデータベース内の単語に対応するかどうかを識別する。対応する場合、サーバは、音声入力内の単語に関連してデータベースに記憶した動作を行う。音声入力内の単語がデータベース内の単語に対応しない場合は、サーバは当該音声入力を分析するために待ち行列に入れる。入力に応答して、サーバは単語を音声入力からデータベースに追加する。

Description

本発明は、自動案内機能を提供するシステムおよび方法に関する。

自動案内システムは、しばしばコール・センターやヘルプ・デスク・サービスに関連して使用される。通常、自動案内システムは、ユーザが接続したい特定のエンティティ、例えば、人、部署、サービス等を発信者が特定できるようにする自動音声指示型のインタフェースを提供する。例えば、自動案内システムは、「営業部は１を押してください」、「サービス・コールは２を押してください」、「既存のサービス・コールに関する情報は３を押してください」のような音声指示を提供することができる。ユーザからの入力に応じて、自動案内システムは、ユーザが特定した特定の人または部署に発信者を接続することができる。

いくつかの自動案内システムは、音声認識技術を使用する。音声認識を使用するシステムにおいて、ユーザの入力は、電話のキーパッドを使用して生成されたＤＴＭＦ（ｄｕａｌｔｏｎｅｍｕｌｔｉ−ｆｒｅｑｕｅｎｃｙ）信号を介してではなく音声入力として受信される。例えば、自動案内システムはユーザに、「販売員におつなぎする場合は「営業部」とおっしゃってください」、「サービス・コールをお求めの場合は「サービス」とおっしゃってください」、または「既存のサービス要求のステータスをチェックする場合は「ステータス」とおっしゃってください」のように指示することができる。自動案内システムは、当該指示に応答して行われたユーザの音声入力を受信し、当該ユーザを、特定された人または組織に接続することができる。

本明細書で記載される主題において、システムは自動案内システムの呼処理を提供する。

例示的なシステムは、音声入力において予期される単語および／または句のデータベースを含むことができる。当該データベースはさらに、当該データベースに記憶された単語および／または句に対して、音声入力に応答して行われるべき動作を含むことができる。例えば、データベースは、音声入力内の特定の単語および／または句に対して、通話を特定の電話番号で特定の個人または部署に接続されるよう定義することができる。

例示的なシステムはさらに、呼を受信し、音声指示をアナウンスするように適合されるサーバを含むことができる。サーバはさらに、発信者の音声入力を受信し記録して、当該音声入力が、音声入力内で予期される単語のデータベース内の単語および／または句に対応するかどうかを判定するように適合される。音声入力がデータベース内の単語および／または句に対応するとサーバが判定する場合、サーバは、音声入力内の特定の単語に対応して、データベース内で指定された動作を行う。例えば、データベース内の情報が、呼が特定の人または組織部署に接続されるべきであると識別する場合、サーバは当該呼を適切な電話番号に接続する。

音声入力がデータベース内の単語に対応しないとサーバが判定する場合、サーバは当該音声入力を分析するために待ち行列に入れる。サーバは最終的に、特定の音声入力に応答して行われた動作を識別する入力を受信し、その入力を当該音声入力に関連させて記憶する。例えば、サーバは、呼が最終的に特定の組織部署に接続されたことを識別する入力を受信することができる。

サーバは音声入力を、同様にデータベース内の単語に対応しないことが分かり同様に最終的に同じ動作を要求していると判定された以前に受信された音声入力と比較することができる。サーバは、当該音声入力および以前に受信された音声入力の双方に存在する単語を、音声入力内で予期される単語のデータベースに追加する候補であるとして識別することができる。識別された音声入力の単語がデータベースに追加されるべきであることを示す入力を受信すると、サーバは当該単語を当該データベースに追加する。

本概要は、選択した概念を簡潔な形で導入するために提供され、その概念は、例示的な実施形態の詳細な説明で後にさらに記載される。本概要は、請求される主題の主要な特徴または本質的な特徴を特定しようとするものではなく、請求される主題の範囲を限定するために使用するものでもない。他の特徴は以下に記載される。

例示的な実施形態の前述の概要および以下の追加の説明は、添付の図面と併せて読むとより良く理解される。当然のことながら、開示されたシステムおよび方法の潜在的な実施形態は、図示したものに限定されない。

本明細書で記載される主題の態様が実装される例示的なコンピューティング構成のネットワーク図である。例示的な自動案内システムに含まれる機能構成のブロック図である。自動案内サービスの提供対象である呼を受信するための例示的なプロセスのフローチャートである。例示的な自動案内システムにより受信される音声入力を分析するための例示的な処理のフローチャートである。例示的な自動案内システムにより受信される音声入力を分析するための例示的な処理のフローチャートである。本明細書で記載される主題の態様が展開される例示的なコンピューティング環境のブロック図である。

概要
本明細書で開示される主題は、自動案内機能を提供するためのシステムおよび方法に関する。例示的なシステムは、音声の指示に応答して受信されることが予期される単語および／または句を含むデータベースを含むことができ、当該データベースは、文法と称されることもある。当該データベースはまた、受信されることが予期される各単語または単語のセットに関連して、特定の単語または単語のセットを識別する音声入力を受信した際に行われるべき動作を記憶している。識別された動作とは、例えば、呼を特定の電話番号に接続すること等とすることができる。例示的なシステムはさらに、ユーザに入力を促し、ユーザから音声入力を受信して処理し、ユーザの音声入力において受信される予期せぬ単語および／または句を考慮するために、単語および／または句のデータベースを更新することを容易にするように適合される自動案内サーバを含むことができる。

開示された実施形態において、単語および句のデータベースは、予期されるユーザの音声入力に調整される。換言すれば、単語および句のデータベースは、ユーザが使用する意向を示した新しい単語および句を取り込むために更新される。文法データベースの調整は、比較的短く制約のない指示を提供している際にも、ユーザの自然な音声入力を理解できるサービスを提供することに寄与する。

開示されたシステムおよび方法は、市販のソフトウェアおよび標準的なハードウェアに実装されることができる。例えば、開示されたシステムおよび方法の実施形態において、自動案内システムをユニファイド・メッセージング・サーバで実装することができる。さらに、ユニファイド・メッセージング・サーバを標準的なコンピューティング・ハードウェア上に実装することができ、当該ユニファイド・メッセージング・サーバは、確立されたネットワーキングの技術およびプロトコルを使用して通信することができる。

例示的なコンピューティング構成
図１は、自動案内サービスの提供に適した例示的なコンピューティング構成１００を示す。図示したように、コンピューティング構成１００はネットワーク１０８と通信するように結合される。ネットワーク１０８は音声呼を伝達するように適合され、音声信号および／またはデータの移動に適した任意の種類のネットワークであることができる。例えば、ネットワーク１０８は、公衆交換電話網、インターネット、または音声情報を伝達するのに適した他の任意のネットワークであるか、またはその全てもしくは一部を含むことができる。ネットワーク１０８は、異なる技術を使用できる離散的なネットワークの組合せを含むことができる。例えば、ネットワーク１０８はＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、またはそれらの組合せを含むことができる。ネットワーク１０８は無線、有線、またはそれらの組合せを含むことができる。

ネットワーク１０８は通信リンク１０６を介してスイッチ１１０とインタフェースして、音声呼をコンピューティング構成１００に伝達する。スイッチ１１０は、呼をネットワーク１０８からコンピューティング構成１００へ切り替えるように動作可能な任意の種類の装置であることができる。一例示的実施形態において、スイッチ１１０は例えば、ＰＢＸ（ｐｕｂｌｉｃｂｒａｎｃｈｅｘｃｈａｎｇｅ）スイッチであってもよい。スイッチ１１０はゲートウェイ１２０と通信リンク１３０を介して情報を伝達し、通信リンク１３０は、例えば、呼情報の伝達に適した任意の適切なネットワーク・トポロジを使用することができる。

コンピューティング構成１００は、ゲートウェイ１２０、ならびにサーバ１４０、１４２、および１４４を含む。ゲートウェイ１２０は、コンピューティング構成１００内のサーバ１４０、１４２、および１４４を含む複数のマシンにアクセス・ポイントを提供するように適合される。ゲートウェイ１２０は、呼情報をサーバ１４０、１４２、および１４４に経路指定するのに適した任意のコンピューティング装置を含むことができる。一例示的実施形態において、ゲートウェイ１２０は、呼情報を第１のプロトコルでスイッチ１１０から受信し、それを別のプロトコルでサーバ１４０、１４２、および／または１４４に伝達するように適合される。例えば、ゲートウェイ１２０は、音声呼をスイッチ１１０から例えばＴＤＭ（ｔｉｍｅｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅｘｅｄ）プロトコルのような回線交換プロトコルで受信して、呼を例えばインターネット・プロトコルのようなパケット交換プロトコルを使用してサーバ１４０、１４２、および／または１４４に伝達するように適合されたＶｏＩＰ（ｖｏｉｃｅ−ｏｖｅｒ−ｉｎｔｅｒｎｅｔ−ｐｒｏｔｏｃｏｌ）ゲートウェイであってもよい。一例示的実施形態において、ゲートウェイ１２０およびスイッチ１１０の機能を共通の装置内で組み合わせることができる。

ネットワーク１５０は、ゲートウェイ１２０とサーバ１４０、１４２、および１４４との二者間および複数との間で通信リンクを提供する。ネットワーク１５０は、ゲートウェイ１２０とサーバ１４０、１４２、および／または１４４との間の通信を提供するのに適した通信リンクであればどのようなものでもよい。ネットワーク１５０は、例えば、データをインターネット・プロトコル形式で伝達するのに適した光ファイバ・ネットワークを含むことができる。さらに、ネットワーク１５０は、例えば、ＷＡＮ、ＬＡＮ、および／またはインターネットのようなネットワークの構成要素を含むことができる。

サーバ１４０、１４２、および１４４は、他のサービスの中でもとりわけ、自動案内システムの呼処理を提供するよう適合されたコンピューティング装置である。サーバ１４０、１４２、および１４４の各々は、本明細書で記載されたように自動案内システムの呼処理を提供するように動作するためのコンピュータ可読命令でプログラムされた任意の適切なコンピューティング装置であることができる。一例示的実施形態において、サーバ１４０、１４２、および１４４を、異なるメッセージ・ストリームを単一の受信箱に統合するよう適合されるＵＭ（ｕｎｉｆｉｅｄｍｅｓｓａｇｉｎｇ）サーバとして動作するようにプログラムされることができる。図１には３台のサーバ１４０、１４２、および１４４を図示してあるが、任意数の複数のサーバを構成１００に含めてもよいことに留意されたい。

一例示的実施形態において、呼をゲートウェイ１２０で受信すると、サーバ１４０、１４２、および／または１４４のうち少なくとも１つを、その要求をサービスするものとして識別される。当該呼は、当該呼をサービスする責任を有する識別された１つまたは複数のサーバに転送される。当該１つまたは複数のサーバ１４０、１４２、１４４が自動案内インタフェース・システム、即ち、呼に応答して行うべき動作を識別するための音声指示型のインタフェースを提供する。発信者は、所望の動作を指定することができ、その動作には、通常、発信者が話したい人または部署を識別することを含む。

図２は、サーバ１４０、１４２、および１４４に含まれる自動案内システム２０８の機能要素のブロック図である。自動案内システム２０８を、例えば、ユニファイド・メッセージング・サーバにより提供される機能に含むことができる。

自動案内システム２０８は、例えば、音声認識／生成コンポーネント２１０、ディレクトリ２１２、呼処理文法２１４、呼分析文法２１６、音声入力待ち行列２１８、および自動案内サーバ２２０を含むことができる。音声認識／生成コンポーネント２１０は、音声入力を自動案内システム２０８がさらに処理できる形式へと解釈するように動作する。また、音声認識／生成コンポーネント２１０は、発信者に対して再生される音声信号を生成するように動作する。音声認識／生成コンポーネント２１０は、受信された音声入力を解釈するように動作可能な任意の適切なソフトウェアおよび／またはハードウェアを含むことができる。

ディレクトリ２１２は、存在が知られており且つ自動案内システム２０８による呼の転送先でありうる人、組織、および／または位置のデータベースである。ディレクトリ２１２は、例えば、特定の組織の従業員および／または部署を含むことができる。ディレクトリ２１２に記憶されたエンティティごと、例えば、人または部署ごとに、ディレクトリ２１２は、特定のエンティティに向けられた呼の転送先である電話番号を識別する少なくとも１つの電話番号を含むことができる。ディレクトリ２１２は、例えば、リレーショナル・データベースまたはオブジェクト・データベースのような、情報の記憶と編成に適した任意のデータ記憶構造体に記憶されうる。

呼処理文法２１４は、音声入力で受信されることが予期される単語および単語のグループ、即ち句を含む。また、呼処理文法２１４は、特定の単語または句を含む音声入力を受信した際に行うべき動作を指定することができる。例えば、呼処理文法２１４は、単語「受付係」を含むことができ、受付係宛ての呼が接続される電話番号へのリンクを指定するか含むことができる。単語「受付係」を識別する音声入力を受信すると、システム２０８は文法２１４を参照することにより当該音声入力を有効な入力として識別することができ、当該呼を受付係に対応する電話番号に転送することができる。当該電話番号を呼処理文法２１４に記憶することができ、および／またはディレクトリ２１２に記憶することができる。

呼処理文法２１４はまた、ユーザが行いたい動作を示す句を含むこともできる。例えば、呼処理文法２１４は句「サービス・コール」を含むことができる。句「サービス・コール」を識別する音声入力を受信すると、システム２０８は当該呼を、サービス要求を処理するように指定された部署に対応する電話番号に転送することができる。幾つかの事例では、特定の音声入力を受信した際に行うべきと識別された動作とは、追加の情報を得るために更なる指示を与えることである。例えば、「払い戻し要求」を識別した音声入力の場合、呼処理文法２１４により、製品情報を要求する追加の指示をユーザに与えるよう規定することができる。

同義語を識別するように呼処理文法２１４を構成することができる。例えば、呼処理文法２１４が単語「受付係」を含むだけでなく、「オペレータ」および「フロント・デスク」のような単語および句も含むかもしれない。これらの単語および句の全ては、同じ動作を参照するように呼処理文法２１４内で指定され、その動作は呼を特定の電話番号に接続することであるかもしれない。同様に、句「サービス・コール」の参照に加えて、呼処理文法２１４はまた、句「支援求む」および「故障した機器の修理を手伝ってください」を含むことができる。呼処理文法２１４において、これらの句の各々を、同じ電話番号にかける動作に対応するように指定することができる。従って、音声入力がこれらの何れかを識別する場合には、同じ動作が行われるはずである。

一例示的実施形態において、呼処理文法２１４は、相対的に少数の単語および句を保持することができる。換言すれば、文法２１４は比較的「平坦」であることができる。単語または句の数を制限することにより、音声入力内の単語が文法２１４に存在するかどうかを迅速に識別することができる。「平坦」な文法により、より自然なユーザ・エクスペリエンスがもたらされる。

呼分析文法２１６は、受信された音声入力に含まれることが予期されないものを含む、単語および句を含む。呼分析文法２１６を、例えば、呼処理文法２１４に含まれない単語および／または句を音声入力が含むときに使用することができる。係る事例では、音声入力内の単語および句を、呼分析文法２１６を使用して識別することができる。呼分析文法２１６を呼処理文法２１４から分離した構成要素として使用することにより、呼処理文法２１４は音声入力内で受信されることが予期される比較的少数の単語および／または句を含むことができ、一方文法２１４外の単語を含むユーザ入力を処理することもできる。さらに、少数の単語を呼処理文法２１４内で保持することにより、消費されるコンピューティング・リソースを抑えることができ、正確性を向上させることができる。

呼処理文法２１４および呼分析文法２１６を、例えばリレーショナル・データベースまたはオブジェクト・データベースのような、情報の記憶および編成に適した任意のデータ記憶構造体に記憶することができる。

待ち行列２１８は、受信したがマッチする単語または句が呼処理文法２１４内に見つからない音声入力のレコードを含む。音声入力を受信し、文法２１４内の単語または句に対応しないと判定された後、当該音声入力は後の分析のために待ち行列２１８に置かれる。待ち行列はまた、特定の呼の各々に応答して最終的に行った動作表示を有することができる。

自動案内サーバ２２０は、本明細書で記載されるようにユーザの音声入力を受信し処理するために、音声認識コンポーネント２１０、ディレクトリ２１２、呼処理文法２１４、呼分析文法２１６、および待ち行列２１８とインタフェースする。自動案内サーバ２２０は、ユーザに入力を促し、音声入力をユーザから受信し、音声入力に応答して呼処理文法２１４に含まれる単語および句を利用した動作を開始し、ユーザの音声入力において受信された予期せぬ単語および／または句を考慮して呼処理文法２１４を更新することを容易にする。自動案内サーバ２２０は、呼処理文法２１４の更新を、例えば、予期せぬ単語および／または句を含む音声入力を分析するために待ち行列２１８に入れ、続いて単語および／または句を呼処理文法２１４に追加することにより、容易にすることができる。自動案内サーバ２２０は、最終的に特定の電話番号に向けられた呼に対する予期せぬ単語および／または句を、最終的に同じ電話番号に向けられた以前に受信された音声入力内の予期せぬ単語および／または句と比較することができる。比較の結果、自動案内サーバ２２０は、呼処理文法２１４に追加するための単語および／または句を識別することができる。

自動案内文法の調整方法
図３は、自動案内サービスの提供対象である呼を受信するための例示的なプロセスのフローチャートである。ステップ３１０で、サーバ１４０、１４２、および１４４のうち１つまたは複数のサーバ上で動作していることが可能な自動案内システム２０８で、呼を受信する。呼はゲートウェイ１２０を介して経路指定されているかもしれず、例えばネットワーク１０８が発信元であるかもしれない。

ステップ３１２で、自動案内サーバ２２０は音声認識および生成コンポーネント２１０とインタフェースして、発信者に対してアナウンスを再生する。当該アナウンスにより、行いたい動作を特定する入力を行うようにユーザに促すことができる。例えば、アナウンスにより、例えば、「お話しになりたい方のお名前をおっしゃってください」のように、話したい人を特定するようにユーザに促すことができる。アナウンスにより、例えば、「おつなぎする部署の名前をおっしゃってください」のように、話したい特定の部署または職位を特定するようにユーザに促すことができる。より一般には、アナウンスにより、例えば、「ご用件を承ります」のように、ユーザが自身の呼の理由を特定するよう要求することができる。

ステップ３１４で、自動案内サーバ２２０は発信者の音声入力を記録する。音声入力を、例えば、ランダム・アクセス・メモリおよび／またはデータベースに記憶することができる。

ステップ３１６で、自動案内サーバ２２０は音声入力を処理して、当該音声入力が呼処理文法２１４内の予期される単語および／または句に対応するかどうかを識別する。自動案内サーバ２２０は、音声入力において使用される単語が、呼処理文法２１４において指定された行うべき動作を示すかどうかを判定する。例えば、音声入力により、発信者が特定の人と話したいということを指定することができる。自動案内サーバ２２０は、指定された人が呼処理文法２１４内で識別されるかどうかを判定する。別の例では、音声入力により、発信者が特定の部署と話したいということを指定することができる。自動案内サーバ２２０は、入力において当該部署を指定するために使用される単語が呼処理文法２１４に含まれるかどうかを判定する。さらに別の例では、音声入力により、その呼が特定の問題の解決支援を要求しているということを指定することができる。自動案内サーバ２２０は、当該音声入力において特定の問題を識別するために使用された単語が呼処理文法２１４に含まれるかどうかを判定する。

音声入力内の単語および／または句が呼処理文法２１４内の予期される単語および／または句に対応しない場合、ステップ３１８で、自動アシスタントが音声入力をさらに検討するために待ち行列に入れる。例えば、音声入力を待ち行列２１８に記憶することができる。音声入力を後で検討することには、図４および５に示すように特定の音声入力に含まれる単語および／または句を含むよう呼処理文法２１４を更新すべきかどうかを識別することを含むことができる。

音声入力をさらに検討するために待ち行列に入れた後、および呼の目的を識別する最初の試みに失敗したので、ステップ３２０で、自動案内２２０は呼の目的を識別するためにユーザにさらなる入力を促す。例えば、自動案内２２０は発信者に、最初の要求が認識されなかったことをアナウンスし、ユーザに要求を再度言うように求めることができる。あるいは、自動案内２２０は入力を促すために、呼をライブ・オペレータに転送することができる。最終的に、ステップ３２２で、発信者により要求された所望の動作を識別し、要求された動作をさらに処理するために、待ち行列２１８内の最初の音声入力と共に記憶する。ステップ３２８で、自動案内２２０は要求された動作を行う。この動作は例えば、特定の人または組織の内線に当該呼を接続することであってもよい。

ステップ３１６で自動案内２２０が音声入力内の単語および／または句が呼処理文法２１４内のエントリに対応すると識別すると、ステップ３２４で自動案内２２０は、発信者が要求したと自動案内が理解した動作の確認をアナウンスする。例えば、自動案内２２０は、例えば「ＪｏｈｎＳｍｉｔｈとお話しになりたいのですね？」のように、特定の人または特定の部署と話したいことを発信者が確認するよう要求することができる。

ステップ３２６で、自動案内２２０は発信者が、自動案内２２０が理解したように所望の動作を確認したかどうかを判定する。確認が受信されなかった場合、自動案内システムはステップ３１８に進み、音声入力をさらに検討するために待ち行列２１８に追加する。その後、自動案内２２０は上述のようにステップ３２０および３２２へ進む。

ステップ３２６で要求された動作の確認が受信された場合、ステップ３２８で自動案内２２０は要求された動作を行う。この動作は例えば、呼を特定の人または組織の内線に接続することであってもよい。

図４は、例示的な自動案内システム２０８により受信された音声入力を分析するための例示的なプロセスのフローチャートである。ステップ４１０で、自動案内２２０は、受信されたが呼処理文法２１４内に対応する単語および／または句が識別されなかった音声入力の待ち行列２１８を保持する。

ステップ４１２で、自動案内２２０は特定の音声入力を待ち行列２１８から取り出すことができる。ステップ４１４で、自動案内２２０は、特定の音声入力に対して最終的に行った動作を識別する。例えば、最終的に行った動作は、呼を特定の番号に接続することまたは特定の指示を再生することであったかもしれない。行った動作を待ち行列２１８から取り出すことができる。

ステップ４１６で、自動案内２２０は特定の音声入力を、以前に受信されたが呼処理文法２１４内の単語および／または句に対応しないことが分かり、最終的に当該特定の音声入力と同じ動作を要求したと判定された音声入力と比較する。例えば、発信者の音声入力「サービス要求」が呼処理文法２１４内のエントリに対応しないことが分かり、当該呼に対して最終的に行った動作が当該呼をカスタマー・サービス部門に接続することであった場合、ステップ４１６で、自動案内２２０は音声入力「サービス要求」を、同様に処理文法２１４内に対応するエントリを有しないことが分かり最終的にカスタマー・サービス部門に接続された以前に受信された音声入力と比較する。

ステップ４１８で、自動案内２２０は、音声入力が呼処理文法２１４に追加または昇格すべき候補である単語および／または句を含むかどうかを識別する。例えば、音声入力が、最終的に同一の動作をもたらす１つまたは複数の以前の音声呼におけるものと同じ単語または句を含むと判定された場合、ステップ４１８で、自動案内２２０は当該特定の単語または句を呼処理文法２１４へ追加すると識別することができる。特定の例として、発信者の音声入力が「サービス要求」で当該呼が最終的にカスタマー・サービス部門へ経路指定され、以前の音声入力が同様に句「サービス要求」を含みカスタマー・サービス部門へ同様に経路指定された場合、ステップ４１８で、自動案内２２０は句「サービス要求」を呼処理文法２１４に追加すべきであると識別することができる。

ステップ４２０で、自動案内２２０は、識別された単語または句を、受信されることが予期される呼処理文法２１４内の単語および句に追加すべきことを指定する入力を受信することができる。例えば、識別された単語または句を呼処理文法２１４に追加すべきという入力を自動案内システムの管理者、または恐らくユーザからさえ受信することができる。特定の単語または句が文法２１４に追加されると、当該特定の単語または句を含む後続の音声入力が自動案内２２０により自動的に処理されることができる。

図５は、例示的な自動案内サービスにより受信された音声入力を分析するための別の例示的なプロセスのフローチャートである。ステップ５１０で、自動案内２２０は、受信されたが呼処理文法２１４内に対応する単語および／または句が識別されなかった音声入力の待ち行列２１８を保持する。自動案内２２０は、分析のためにユーザが特定の音声入力を選択できるように、待ち行列２１８内の項目をユーザに提示することができる。

ステップ５１２で、自動案内２２０は、ユーザの要求に応答して音声入力を待ち行列２１８から取り出して提示することができる。特定の例として、自動案内２２０は、ユーザの要求に応答して、「サービス要求」を指定する音声入力を取り出して提示することができる。

ステップ５１４で、自動案内２２０は、特定の音声入力に対して最終的に行った動作を識別し、当該動作をユーザに提示する。例えば、自動案内２２０は待ち行列２１８に当該特定の音声入力と共に記憶された情報から、関連する呼が特定の人または組織に最終的に経路指定されたかどうか、または特定のサービスが音声入力に応答して提供されたかどうかを識別する。特定の例として、自動案内２２０は、特定の音声入力、即ち、「サービス要求」の結果、最終的に当該呼がカスタマー・サービス部門に接続されていることを識別し、ユーザに提示することができる。

ステップ５１６で、自動案内２２０は、特定の単語または句を呼処理文法２１４に追加すべきことを示すユーザ入力を受信したかどうかを判定する。ユーザは、例えば特定の音声入力で使用された単語または句が文法２１４内に既に存在する単語と同義である場合に、当該特定の単語または句を呼処理文法２１４に追加すべきと判定することができる。あるいは、ユーザは、特定の単語または句が実用的なユーザ入力であって他の発信者により使用される可能性が高いと判定することができる。

ステップ５１６で、特定の単語または句を呼処理文法２１４に追加すべきことを示す入力を受信しなかった場合、処理はステップ５１２で継続する。

ステップ５１６で、特定の単語または句を呼処理文法２１４に追加すべきことを示すユーザ入力を受信した場合、ステップ５１８で、当該特定の単語または句を呼処理文法２１４に追加する。当該特定の単語または句が文法２１４に追加されると、当該特定の単語または句を含む後続の音声入力を自動案内２２０により自動的に処理されることができる。

例示的なコンピューティング環境
図６は、例示的なコンピューティング構成１００で使用される例示的なコンピューティング環境７２０を示す。例示的なコンピューティング環境７２０は、本明細書で記載された自動案内サービスに対して開示した方法を実装するための多くの方法で使用される。例えば、コンピューティング環境７２０は、自動案内サービスを提供するためにコンピュータ・サーバ１４０、１４２、１４４として動作してもよい。一例示的実施形態において、コンピューティング環境７２０はゲートウェイ１２０として動作することができる。

コンピューティング環境７２０は、適切なコンピューティング環境の一例に過ぎず、本明細書で開示された主題の使用範囲または機能範囲についていかなる限定をも示唆しようとするものではない。また、コンピューティング環境７２０が、例示的なコンピューティング環境７２０で示された構成要素のいかなる１つまたは組合せに関してもいかなる依存性または要件を有するとも解釈すべきではい。

本明細書で記載された主題の態様は、多数の他の汎用目的または特殊目的のコンピューティング・システム環境または構成を使用して動作させることができる。本明細書で記載された主題と共に使用するのに適切でありうる既知のコンピューティング・システム、環境、および／または構成の例には、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、ポータブル・メディア・デバイス、マルチプロセッサ・システム、マイクロプロセッサベースのシステム、セット・トップ・ボックス、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュータ、上記システムまたは装置の何れかを含む分散型コンピューティング環境、等が含まれるがこれらに限定されない。

本明細書で記載された主題の態様を実装するための例示的なシステムは、汎用目的のコンピューティング装置をコンピュータ７４１の形で含む。コンピュータ７４１の構成要素は、処理ユニット７５９、システム・メモリ７２２、システム・メモリを含む様々なシステム構成要素を処理ユニット７５９に結合するシステム・バス７２１を含むことができるがこれらに限定されない。システム・バス７２１は、メモリ・バスまたはメモリ・コントローラ、周辺バス、および様々なバス・アーキテクチャの何れかを使用したローカル・バスを含む数種のバス構造のうちの何れかであることができる。限定ではなく例として、このようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカル・バス、およびメザニン・バスとしても知られるＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バスが含まれる。

コンピュータ７４１は、通常、様々な種類のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ７４１によりアクセス可能な任意の利用可能な媒体であることができ、揮発性および不揮発性媒体、取外し可能および取外し不能媒体の両方を含む。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報を記憶するための任意の方法または技術で実装された揮発性および不揮発性媒体、取外し可能および取外し不能媒体の両方を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）もしくは他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶装置、または所望の情報を記憶するために使用されるコンピュータ７４１がアクセスされる他の任意の媒体を含むがこれらに限定されない。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを搬送波または他のトランスポート機構のような変調データ信号で具現化し、任意の情報配信媒体を含む。「変調データ信号」という用語は、１つまたは複数のその特性集合を有するか信号内の情報をエンコードするような方法で変化した信号を含む。限定ではなく例として、通信媒体には有線ネットワークまたは直接有線接続のような有線媒体および、音響、ＲＦ、赤外線および他の無線媒体のような無線媒体が含まれる。上記の何れかから成る組合せもコンピュータ可読媒体の範囲に含まれるべきである。

システム・メモリ７２２は、コンピュータ記憶媒体をＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）７２３およびＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）７６０のような揮発性および／または不揮発性メモリの形で含む。ＢＩＯＳ（ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ）７２４は、例えば起動中にコンピュータ７４１内部の要素間での情報転送を支援する基本的なルーチンを含み、通常、ＲＯＭ７２３に記憶される。ＲＡＭ７６０は、通常、処理ユニット７５９により即座にアクセス可能および／または現在稼働中のデータおよび／またはプログラム・モジュールを含む。限定ではなく例として、図６は、オペレーティング・システム７２５、アプリケーション・プログラム７２６、他のプログラム・モジュール７２７、およびプログラム・データ７２８を示す。

コンピュータ７４１はまた、他の取外し可能／取外し不能のコンピュータ記憶媒体、揮発性／不揮発性のコンピュータ記憶媒体を含むことができる。例としてのみ、図６は取外し不能で不揮発性の磁気媒体を読み書きするハード・ディスク・ドライブ７３８、取外し可能で不揮発性の磁気ディスク７５４を読み書きする磁気ディスク・ドライブ７３９、およびＣＤＲＯＭまたは他の光媒体のような取外し可能で不揮発性の光ディスク７５３を読み書きする光ディスク・ドライブ７４０を示す。例示的な動作環境で使用される他の取外し可能／取外し不能のコンピュータ記憶媒体、揮発性／不揮発性のコンピュータ記憶媒体には、磁気テープ・カセット、フラッシュ・メモリ・カード、デジタル多用途ディスク、デジタル・ビデオ・テープ、固体ＲＡＭ、固体ＲＯＭ、等が含まれるがこれらに限定されない。ハード・ディスク・ドライブ７３８は、通常、インタフェース７３４のような取外し不能メモリ・インタフェースを介してシステム・バス７２１に接続され、磁気ディスク・ドライブ７３９および光ディスク・ドライブ７４０は、通常、インタフェース７３５のような取外し可能メモリ・インタフェースによりシステム・バス７２１に接続される。

上で論じ、図６で示されたドライブおよびその関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、および他のデータをコンピュータ７４１のために記憶する。図６において、例えば、ハード・ディスク・ドライブ７３８がオペレーティング・システム７５８、アプリケーション・プログラム７５７、他のプログラム・モジュール７５６、およびプログラム・データ７５５を記憶するものとして示される。これらの構成要素はオペレーティング・システム７２５、アプリケーション・プログラム７２６、他のプログラム・モジュール７２７、およびプログラム・データ７２８と同一であるかまたは異なることができることに留意されたい。オペレーティング・システム７５８、アプリケーション・プログラム７５７、他のプログラム・モジュール７５６、およびプログラム・データ７５５にはここでは異なる番号を与え、最低限それらが異なるコピーであることを示す。ユーザは、キーボード７５１および一般にはマウス、トラックボールまたはタッチ・パッドと呼ばれるポインティング・デバイス７５２のような入力装置を介してコンピュータ７４１にコマンドおよび情報を入力することができる。他の入力装置（図示せず）には、マイクロフォン、ジョイスティック、ゲーム・パッド、パラボラ・アンテナ、スキャナ、等を含むことができる。これらおよび他の入力装置は、しばしば、システム・バスに結合されたユーザ入力インタフェース７３６を介して処理ユニット７５９に接続されるが、パラレル・ポート、ゲーム・ポートまたはＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）のような他のインタフェースおよびバス構造により接続されてもよい。モニタ７４２または他種の表示装置も、ビデオ・インタフェース７３２のようなインタフェースを介してシステム・バス７２１に接続される。モニタに加えて、コンピュータは、スピーカ７４４およびプリンタ７４３のような他の周辺出力装置も含むことができ、これらを出力周辺インタフェース７３３を介して接続することができる。

以上、自動案内サービスを提供するためのシステムを開示した。当該システムは、単語および句を単語および句のセットに追加するためのフィードバック・ループを提供し、当該単語および句のセットに対してユーザ入力が分析される。

当然のことながら、本明細書で記載された様々な技術は、ハードウェアもしくはソフトウェアに関連させて、または必要ならばその両方の組み合わせに関連させて実装されうる。従って、本明細書で記載された主題の方法および装置、またはその幾つかの態様もしくは一部は、フロッピー・ディスク、ＣＤ−ＲＯＭ、ハード・ドライブ、または他の任意の機械可読記憶媒体のような有形媒体で具現化されるプログラム・コード（即ち、命令）の形態をとることができる。この場合、プログラム・コードをコンピュータのようなマシンにロードして当該マシンにより実行すると、当該マシンは本明細書で記載された主題を実施する装置となる。プログラム・コードを媒体に記憶する場合、問題のプログラム・コードを、問題の動作を集合的に実施する１つまたは複数の媒体上に格納してもよい。即ち、１つまたは複数の媒体が一緒になって当該動作を実施するためのコードを含んでもよいが、複数の媒体が存在する場合は、コードの任意の特定の部分を任意の特定の媒体に格納するという要件はなくともよい。プログラム可能コンピュータ上でプログラム・コードを実行する場合、コンピューティング装置は一般にプロセッサ、プロセッサにより読取可能な記憶媒体（揮発性および不揮発性のメモリおよび／または記憶要素を含む）、少なくとも１つの入力装置、および少なくとも１つの出力装置を含む。１つまたは複数のプログラムは、本明細書で記載された主題に関連して記載された処理を、例えば、ＡＰＩ、再利用可能コントロール、等の使用を介して実装または利用することができる。このようなプログラムは、コンピュータ・システムと通信するために、高レベルの手続き型プログラミング言語またはオブジェクト指向プログラミング言語で実装されることが好ましい。しかし、必要ならばプログラム（複数可）をアセンブリ言語または機械語で実装することができる。何れにせよ、言語はコンパイル型またはインタプリタ型言語であることができ、ハードウェア実装と組み合わせることができる。

例示的な実施形態は、本明細書で記載された主題の態様を１つまたは複数のスタンド・アロン・コンピュータ・システムのコンテキストにおいて利用することに言及されたが、本明細書で記載された主題はそのようには限定されず、ネットワークまたは分散型のコンピューティング環境のような任意のコンピューティング環境に関連させて実装されてもよい。さらに、本明細書で記載された主題の態様は、複数の処理チップまたは処理装置で、またはそれらを跨って実装されてもよく、記憶域を同様に複数の装置に跨って実現されてもよい。このような装置は、パーソナル・コンピュータ、ネットワーク・サーバ、ハンドヘルド装置、スーパーコンピュータ、または自動車および航空機のような他のシステムに統合されたコンピュータを含むこともある。

本発明の主題は、構造的特徴および／または方法論的動作に固有な言葉で記載されたが、当然のことながら、添付の特許請求の範囲で定義された本主題は必ずしも上述の特定の特徴または動作に限定される必要はない。むしろ、上述した特定の特徴および動作は請求項を実装する例示的な形態として開示される。

Claims

音声呼を処理する方法であって、
呼を受信するステップと、
前記呼に応答してアナウンスを伝達するステップと、
音声入力を記録するステップと、
前記音声入力がデータベース（２１４）内の予期される音声入力の単語に対応するかどうかを判定するステップと、
前記音声入力がデータベース（２１４）内の予期される音声入力の単語に対応する場合、それに応答して行うべき動作を識別するステップと、
前記音声入力がデータベース（２１４）内の予期される入力の単語に対応しない場合、前記記録した音声入力を分析のために入力の待ち行列（２１８）に追加するステップと
を含むことを特徴とする方法。
応答して行うべき動作を識別する前記ステップは、前記呼が接続される電話番号を識別するステップを含むことを特徴とする請求項１に記載の方法。
前記音声入力がデータベース内の予期される入力の単語に対応しない場合、追加の入力を求める指示を伝達するステップ
をさらに含むことを特徴とする請求項１に記載の方法。
前記音声入力がデータベース（２１４）内の予期される入力の単語に対応しない場合、単語を前記音声入力から前記データベース（２１４）に追加するステップ
をさらに含むことを特徴とする請求項１に記載の方法。
前記音声入力がデータベース（２１４）内の予期される入力の単語に対応しない場合、
前記音声入力に対して前記呼が最終的に向けられたエンティティを識別するステップと、
前記エンティティに向けられた以前に受信された音声入力を識別するステップと、
前記音声入力および前記以前に受信された音声入力の双方に存在する単語を識別するステップと、
前記音声入力および前記以前に受信された音声入力の双方に存在する前記単語を、前記データベース（２１４）に追加すると識別するステップと
をさらに含むことを特徴とする請求項１に記載の方法。
前記音声入力および前記以前に受信された音声入力の双方に存在する前記単語を、前記データベース（２１４）に追加すると識別する前記ステップは、前記単語、および前記単語に関連して記憶する電話番号、人、および組織のうち少なくとも１つを識別するステップを含むことを特徴とする請求項５に記載の方法。
前記音声入力および前記以前に受信された音声入力の双方に存在する前記単語を前記データベース（２１４）に追加する命令を提供する入力を受信するステップをさらに含むことを特徴とする請求項５に記載の方法。
前記音声入力がデータベース（２１４）内の予期される入力の単語に対応しない場合、
前記音声入力に対して前記呼が最終的に向けられた内線番号を識別するステップと、
前記音声入力を提供するステップと、
前記音声入力内に存在する単語を前記データベース（２１４）に追加すると識別する入力を受信するステップと
をさらに含むことを特徴とする請求項１に記載の方法。
前記音声入力内に存在する単語を前記データベース（２１４）に追加すると識別するステップは、前記単語、および前記単語に関連して記憶する電話番号、人、および組織のうち少なくとも１つを前記データベース（２１４）に追加すると識別するステップを含むことを特徴とする請求項８に記載の方法。
音声入力を記録する前記ステップは、句を含む音声入力を記録するステップを含み、
前記音声入力が前記データベース（２１４）内の予期される音声入力の単語に対応するかどうかを判定する前記ステップは、前記音声入力が前記データベース内の予期される音声入力の句に対応するかどうかを判定するステップを含み、
前記音声入力内に存在する単語を前記データベース（２１４）に追加すると識別する入力を受信する前記ステップは、前記音声入力内に存在する句を前記データベース（２１４）に追加すると識別する入力を受信するステップを含むことを特徴とする請求項８に記載の方法。
音声呼を処理する方法であって、
音声入力内で予期される単語のデータベース（２１４）を保持するステップであって、前記データベース（２１４）は、特定の単語に対して、前記特定の単語を含む音声入力に応答して呼を接続するための電話番号を備えるステップと、
呼を受信するステップと、
前記呼に関連して、単語を含む音声入力を受信するステップと、
前記受信された単語が音声入力内で予期される単語の前記データベースにないことを識別するステップと、
前記受信された単語を前記データベース（２１４）に追加するステップと
を含むことを特徴とする方法。
前記呼が接続される電話番号を識別するステップをさらに含み、
前記受信された単語を前記データベース（２１４）に追加する前記ステップは、前記受信された単語に関連して記憶された前記電話番号を前記データベースに追加するステップを含むことを特徴とする請求項１１に記載の方法。
音声入力内で予期される単語の前記データベース（２１４）を保持する前記ステップは、音声入力内で予期される句の前記データベース（２１４）を保持するステップを含み、
前記呼に関連して単語を含む音声入力を受信する前記ステップは、句を含む入力を受信するステップを含み、
前記受信された単語が音声入力内で予期される単語の前記データベース（２１４）にないことを識別する前記ステップは、前記受信された句が前記データベース（２１４）にないことを識別するステップを含み、
前記受信された単語を前記データベース（２１４）に追加する前記ステップは、前記受信された句を前記データベース（２１４）に追加するステップを含むことを特徴とする請求項１１に記載の方法。
前記電話番号に向けられた、前記受信された単語を含む以前に受信された音声入力を識別するステップと、
前記電話番号に向けられた、前記受信された単語を含む以前に受信された音声入力を識別した際に、前記受信された単語を前記データベース（２１４）に追加すると識別するステップと
をさらに含むことを特徴とする請求項１１に記載の方法。
前記受信された単語が前記データベース（２１４）に追加すべきであることを示す入力を受信するステップをさらに含むことを特徴とする請求項１１に記載の方法。
音声入力において受信されることが予期される単語のデータベース（２１４）と、
呼を受信し、音声入力を受信し、前記音声入力が前記データベース内の音声入力において受信されることが予期される単語に対応するかどうかを判定し、音声入力において受信することが予期される単語の前記データベースを更新するためのコンピュータ可読命令を備えるサーバ（２２０）と
を備えることを特徴とする音声自動案内システム（２０８）。
音声認識を前記音声入力に対して実施するためのコンピュータ可読命令をさらに備えることを特徴とする請求項１６に記載の音声自動案内システム（２０８）。
前記データベース（２１４）は、前記データベース内のエントリに対して、前記データベース（２１４）内にエントリを有する単語を含む音声入力の受信に応答して行うべき動作を備えることを特徴とする請求項１６に記載の音声自動案内システム（２０８）。
前記サーバはさらに、前記呼が転送された先の内線番号を識別し、前記内線番号に対して以前に受信された音声入力を識別し、前記以前に受信された音声入力内の単語に対応する前記音声入力内の単語を識別するための命令を備えることを特徴とする請求項１６に記載の音声自動案内システム（２０８）。
音声入力において受信されることが予期される単語の前記データベース（２１４）を更新するための前記コンピュータ可読命令は、単語の前記データベース（２１４）を前記単語および前記対応する内線番号で更新するための命令を備えることを特徴とする請求項１６に記載の音声自動案内システム（２０８）。