JP2003505938A - 音声イネーブル式情報処理 - Google Patents

音声イネーブル式情報処理

Info

Publication number
JP2003505938A
JP2003505938A JP2001511062A JP2001511062A JP2003505938A JP 2003505938 A JP2003505938 A JP 2003505938A JP 2001511062 A JP2001511062 A JP 2001511062A JP 2001511062 A JP2001511062 A JP 2001511062A JP 2003505938 A JP2003505938 A JP 2003505938A
Authority
JP
Japan
Prior art keywords
voice
information
user
computer
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001511062A
Other languages
English (en)
Inventor
エバーマン,ブライアン・エス
ハンプリーズ,ジェイスン・ジェイ
バン・デニュート,エリック
パターソン,ステュアート・アール
スプリンガー,ステファン・アール
コテリー,クリストファー
Original Assignee
スピーチワークス・インターナショナル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by スピーチワークス・インターナショナル・インコーポレーテッド filed Critical スピーチワークス・インターナショナル・インコーポレーテッド
Publication of JP2003505938A publication Critical patent/JP2003505938A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Abstract

(57)【要約】 対話型音声システムであって、ユーザからのコールを受け取りこのシステムと前記ユーザとの間の通信リンクを提供するように構成されたポートと、個人ディレクトリ情報が記憶されているメモリであって、前記個人ディレクトリ情報は、複数の人間の標識と、それぞれの人間と関連付けられており前記コールを前記複数の人間の中の選択された1人にルーティングするのに用いられるルーティング情報とを含み、更に、この対話型音声システムと関連付けられた会社と関連付けられた会社情報が記憶されているメモリと、前記ポートと前記メモリとに結合されており、第1のオーディオ情報を前記ポートまで搬送して前記ユーザにこのシステムに向けて話しかけるように促し、前記ユーザからの音声を前記ポートを介して受け取り、前記ユーザからの音声を認識し、認識されたユーザの音声に基づいてアクションを実行し、第2のオーディオ情報を前記メモリに記録されている前記会社情報に従って前記ポートまで搬送するように構成された音声要素と、を備えている対話型音声システムである。

Description

【発明の詳細な説明】 【発明の属する技術範囲】
本発明は、通信に関し、更に詳しくは、対話型の(インタラクティブな)音声
アプリケーションに関する。
【従来の技術】
コンピュータ・ベースの音声処理システムは、様々な目的のために広く用いら
れるようになっている。音声処理システムの中には、システムと発呼者/ユーザ
との間の対話型音声応答(Interactive Voice Respon
se = IVR)を提供するものがある。IVRシステムによって実行される
アプリケーションの例には、個人ディレクトリのための自動アテンダント(au
tomated attendants)や、顧客サービス・アプリケーション
などがある。顧客サービス・アプリケーションには、発呼者が航空機のフライト
情報取得やフライト予約を行う又は株式相場を知る際の補助を行うシステムが含
まれる。 更に、顧客サービスの中には、インターネットと称されるコンピュータ・ベー
スの全世界的なパケット交換式ネットワークを介して、特に、ウェブサイトを形
成するワールド・ワイド・ウェブ・ページ(「ウェブ・ページ」)を用いるワー
ルド・ワイド・ウェブ(「ウェブ」)を介して入手可能であるものがある。これ
らのウェブサイトは、通常、いくらかの情報と、より多くの情報及び/又はサー
ビスを提供する他のウェブサイトのウェブ・ページへのリンクとを含む「ホーム
ページ」を含む。様々な会社のウェブ・ページのおかげで、ユーザは、会社情報
を取得する、個人ディレクトリにアクセスする、株式相場やフライト情報のよう
なそれ以外の情報を取得する、商品(例えば、コンパクト・ディスク)やサービ
ス(例えば、航空券)を購入するというサービスを取得する、などのことが可能
になる。多くのウェブサイトには、会社情報、会社ディレクトリ、当該会社に関
する最新ニュース、ユーザが入手可能な製品やサービスなど、ユーザ・オプショ
ンに関する類似のカテゴリのウェブ・ページが含まれている。ウェブ・ブラウザ
を用いれば、複数のウェブ・ページの間を行き来する(ナビゲートする)ことが
できる。ウェブ・ブラウザには、通常、「戻る(back)」、「進む(for
ward)」、「ホーム(home)」などのナビゲーション・ツールが備わっ
ている。
【発明の概要】
一般に、ある側面では、本発明は、対話型音声システムであって、ユーザから
のコールを受け取りこのシステムと前記ユーザとの間の通信リンクを提供するよ
うに構成されたポートと、個人ディレクトリ情報が記憶されているメモリであっ
て、前記個人ディレクトリ情報は、複数の人間の標識と、それぞれの人間と関連
付けられており前記コールを前記複数の人間の中の選択された1人にルーティン
グするのに用いられるルーティング情報とを含み、更に、この対話型音声システ
ムと関連付けられた会社と関連付けられた会社情報が記憶されているメモリと、
前記ポートと前記メモリとに結合されており、第1のオーディオ情報を前記ポー
トまで搬送して前記ユーザにこのシステムに向けて話しかけるように促し、前記
ユーザからの音声を前記ポートを介して受け取り、前記ユーザからの音声を認識
し、認識されたユーザの音声に基づいてアクションを実行し、第2のオーディオ
情報を前記メモリに記録されている前記会社情報に従って前記ポートまで搬送す
るように構成された音声要素と、を備えている対話型音声システムを提供する。 本発明の実現例は、次に掲げる特徴の中の1又は複数を含むことがあり得る。 前記音声要素は、音声を少なくとも部分的にウェブ類似のフォーマットで搬送
するように構成されている。前記音声要素は、前記音声要素によって認識された
ユーザからのリクエストに応答して前記メモリに記憶されている情報を前記リク
エストに従って提供し、前記コールを前記ユーザのリクエストによって指示され
る人間に前記人間と関連付けられたルーティング情報に従ってルーティングする
ように構成されている。前記メモリに記憶されている会社情報の一部は、前記会
社にどのようにコンタクトすべきかを含む複数のカテゴリの情報に従って、情報
のページにおいて相互に関連付けられている。前記音声要素は、前記ユーザの音
声が前記音声要素によって最も近い時点でアクセスされたページの情報に基づく
語彙の範囲にある場合には、前記ユーザの音声に対して作用するように構成され
ている。前記複数のカテゴリの情報は、前記会社の位置と、もしある場合には前
記会社によって提供される製品と、もしある場合には前記会社によって提供され
るサービスとに関する情報を含む。前記メモリに記憶されている会社情報は、前
記会社のウェブサイト上で入手可能な情報を含む。前記メモリと前記音声要素と
は、前記会社のウェブサイト上に提供されている会社情報の組織とは異なる組織
と共に、前記ユーザまで搬送されるように構成されている。前記音声要素は、ウ
ェブ・ブラウザによって一般的に提供される機能と関連付けられた前記ユーザか
らの口頭のコマンドに応答して情報のページにアクセスするように構成されてい
る。前記コマンドは、「戻る」と「進む」と「ホーム」とを含む。 前記音声要素は、前記ユーザの音声によって指示されたトランザクションを実
行するように構成されている。 このシステムは、前記音声要素の活動と前記ユーザからの対応する入来音声と
をモニタするように構成されている音声アプリケーション・モニタを更に備えて
いる。前記音声要素は、ユーザの音声と、前記ユーザの音声が認識されたものと
して承認されたかどうかと、もしある場合には前記音声要素が行ったアクション
と、ユーザの音声が所定のスレショルドよりも低い信頼を有するかどうかとの中
の少なくとも1つを示す会話データを前記メモリに記憶するように構成されてお
り、前記音声アプリケーション・モニタは、前記音声要素によって記憶された会
話データの標識を報告するように構成されている。前記音声アプリケーション・
モニタは、インターネットを介して前記メモリと結合されている。 前記音声要素は、前記ユーザの音声のあいまいさ除去と前記ユーザの音声の確
認との少なくとも一方を実行するように構成されている。 このシステムは、前記メモリに結合された制御ユニットを更に備えており、こ
のシステムの外部から制御信号を受け取り前記制御信号に応答して前記メモリの
情報コンテンツを修正するように構成されている。前記制御ユニットは、情報を
前記メモリに追加し、情報を前記メモリから削除し、前記メモリの情報を変更す
るように構成されている。 前記音声要素は、更に、情報を前記ユーザまで搬送して前記ユーザにある人間
に関するあいまいさを除去する情報を提供するように促し、前記あいまいさを除
去する情報を用いて複数の人間の中の誰と前記ユーザがコンタクトを希望するの
かに関するあいまいさを除去するように構成されている。 一般に、別の側面では、本発明は、コンピュータ可読な命令を含むコンピュー
タ・プログラム製品であって、前記命令は、コンピュータに、ユーザからのコー
ルの受信に応答して前記ユーザとの通信リンクを確立するステップと、個人ディ
レクトリ情報が記憶されているメモリから情報を検索するステップであって、前
記個人ディレクトリ情報は、複数の人間の標識と、それぞれの人間と関連付けら
れており前記コールを前記複数の人間の中の選択された1人にルーティングする
のに用いられるルーティング情報とを含み、前記メモリには、更に、対話型音声
システムと関連付けられた会社と関連付けられた会社情報が記憶されている、ス
テップと、第1のオーディオ情報を前記ユーザまで搬送し、前記ユーザに音声を
発するように促すステップと、前記ユーザからの音声を受け取るステップと、 前記ユーザからの音声を認識するステップと、認識されたユーザの音声に基づ
いてアクションを実行するステップと、第2のオーディオ情報を前記メモリに記
録されている前記会社情報に従って前記ユーザまで搬送するステップと、を実行
させる、コンピュータ・プログラム製品を提供する。 本発明の実現例には、いかに掲げる特徴の中の1又は複数を含み得る。 前記コンピュータに前記第2のオーディオ情報を搬送させる前記命令は、前記
コンピュータに前記第2のオーディオ情報を少なくとも部分的にウェブ類似のフ
ォーマットで搬送させる。前記コンピュータに前記第2のオーディオ情報を搬送
させる前記命令は、前記コンピュータに、前記コンピュータによって認識された
前記ユーザからのリクエストに応答して前記メモリに記憶されている情報を前記
リクエストに従って提供し、このコンピュータ・プログラム製品は、更に、前記
コンピュータに、前記コールを前記リクエストによって指示される人間に前記人
間と関連付けられたルーティング情報に従ってルーティングさせる命令を含む。
前記メモリは情報の複数の所定のカテゴリに従って複数のページにおいて情報を
記憶し、前記コンピュータに前記ユーザの音声を認識させる前記命令は前記コン
ピュータに音声の現在のページと関連付けられた語彙を用いて前記ユーザの音声
を認識させる。前記メモリに記憶されている会社情報は前記会社のウェブサイト
上で入手可能な情報を含み、前記コンピュータに前記第2のオーディオ情報を前
記ユーザまで搬送させる前記命令は、前記コンピュータに、前記会社のウェブサ
イト上に提供されている会社情報の組織とは異なる組織と共に、前記第2のオー
ディオ情報を搬送させる。前記コンピュータに情報を検索させる前記命令は、前
記コンピュータに、ウェブ・ブラウザによって一般的に提供される機能と関連付
けられた前記ユーザからの口頭のコマンドに応答して情報を検索させる。前記コ
マンドは、「戻る」と「進む」と「ホーム」とを含む。 このコンピュータ・プログラム製品は、前記ユーザの音声によって指示された
トランザクションを前記コンピュータに実行させる命令を更に含む。 このコンピュータ・プログラム製品は、前記コンピュータに、ユーザの音声と
、前記ユーザの音声が認識されたものとして承認されたかどうかと、もしある場
合には前記音声要素が行ったアクションと、ユーザの音声が所定のスレショルド
よりも低い信頼を有するかどうかとの中の少なくとも1つを示す会話データを前
記メモリに記憶するステップと、記憶された会話データの標識を報告するステッ
プと、を実行させる命令を更に含む。 このコンピュータ・プログラム製品は、前記ユーザの音声を認識しようとする
試みに基づくアクションを前記コンピュータに実行させる命令を更に含む。 このコンピュータ・プログラム製品は、前記コンピュータに制御信号を受け取
らせ前記制御信号に応答して前記メモリの情報コンテンツを修正させる命令を更
に含む。前記コンピュータに前記メモリの情報コンテンツを修正させる前記命令
は、コンピュータに情報を前記メモリに追加させ、情報を前記メモリから削除さ
せ、前記メモリの情報を変更させる命令を含む。 このコンピュータ・プログラム命令は、コンピュータに、情報を前記ユーザま
で搬送して前記ユーザにある人間に関するあいまいさを除去する情報を提供する
ように促させ、前記あいまいさを除去する情報を用いて複数の人間の中の誰と前
記ユーザがコンタクトを希望するのかに関するあいまいさを除去させる命令を更
に含む。 一般に、別の側面では、本発明は、対話型音声アプリケーションを介してユー
ザとインターフェースする方法であって、前記ユーザからの入来コールを受け取
るステップと、前記ユーザとの通信リンクを確立するステップと、前記ユーザに
提供される音声を示す記憶されているデータの一部を検索するステップと、音声
として記憶されているデータの前記一部をウェブ類似の形式で前記ユーザに提供
するステップと、を含む方法を提供する。 本発明の実現例は、いかに掲げる特徴の中の1又は複数を含み得る。 前記記憶されているデータは、それぞれの対応するグループにおけるデータの
コンテンツを示す関連付けられたタイトルに従って複数のグループとして記憶さ
れており、前記提供するステップは、記憶されているデータの前記一部のタイト
ルを音声として前記ユーザまで搬送するステップを含む。この方法は、音声を前
記ユーザから受け取るステップと、前記ユーザの音声を前記ユーザの音声の電気
的標識に変換するステップと、記憶されているデータの別の部分を前記電気的標
識に従って検索するステップと、記憶されているデータの前記別の部分を、記憶
されているデータの前記別の部分を前記ユーザに音声として搬送することを含め
て前記ユーザに提供するステップと、を更に含む。前記ユーザの音声は記憶され
ているデータの前記別の部分のタイトルである。前記ユーザの音声の標識は記憶
されているデータの前記別の部分のタイトルを示す。前記音声の標識は記憶され
ているデータの前記別の部分のタイトルの類義語を示す。前記ユーザの音声はウ
ェブ類似のナビゲーション・コマンドを含む。前記ウェブ類似のナビゲーション
・コマンドは、「戻る」と「進む」と「ホーム」と「行け(go to)」と「
ヘルプ」とで構成されるグループから選択される。 前記記憶されているデータは前記データのコンテンツに従ってグループ分けさ
れており、前記提供するステップは「ページ」という語を含む音声指示を記憶さ
れているデータの前記一部のデータ・コンテンツのユーザに搬送するステップを
含む。 一般に、別の側面では、本発明は、少なくとも1つの音声アプリケーション・
システムをモニタするモニタリング・システムであって、コンピュータ・ネット
ワーク接続と、前記音声アプリケーション・システムと前記コンピュータ・ネッ
トワーク接続とに結合されており、前記少なくとも1つの音声アプリケーション
・システムから前記コンピュータ・ネットワーク接続を介してデータを受け取り
、前記音声アプリケーション・システムと関連付けられたコールに関係する標識
のコール・レコードを処理し、前記コールに関係する標識を示すレポートを作成
するように構成されているモニタリング・ユニットと、を備えているモニタリン
グ・システムを提供する。 本発明の実現例には、次に掲げる特徴の中の1又は複数が含まれ得る。 前記モニタリング・ユニットは前記コンピュータ・ネットワーク接続を介して
前記音声アプリケーション・システムに結合されており、前記モニタリング・ユ
ニットは前記少なくとも1つの音声アプリケーション・システムから遠隔的に配
置されている。前記コンピュータ・ネットワーク接続はインターネットを介して
前記少なくとも1つの音声アプリケーション・システムに結合されている。前記
モニタリング・ユニットは、前記少なくとも1つの音声アプリケーション・シス
テムに記憶されているコール・レコードのログにアクセスするように構成されて
いる。前記モニタリング・ユニットは、前記コンピュータ・ネットワーク接続と
インターネットとを介して複数の分散された音声アプリケーション・システムに
結合されており、前記音声アプリケーション・システムのそれぞれから前記ネッ
トワーク接続を介してデータを受け取り、前記音声アプリケーション・システム
のそれぞれと関連付けられたコール・イベントのレコードを処理し、それぞれの
音声アプリケーション・システムに対して前記コールに関係する標識を示すレポ
ートを作成するように構成されている。 前記モニタリング・ユニットは、前記少なくとも1つの音声アプリケーション
・システムに信号を伝送して前記少なくとも1つの音声アプリケーション・シス
テムの動作を変更するように構成されている。前記信号は、前記少なくとも1つ
の音声アプリケーション・システムの誤動作している通信回線を有効にビジーと
するように構成されている。前記信号は、前記少なくとも1つの音声アプリケー
ション・システムのサービスを再開させるように構成されている。前記信号は、
コンフィギュレーション・ファイル・パッチを前記少なくとも1つの音声アプリ
ケーション・システムにおけるコンフィギュレーション・ファイルに挿入させる
ように構成されている。 前記モニタリング・ユニットは、選択されたコール・イベントの頻度の指示を
作成するように構成されている。 前記モニタリング・ユニットは、選択されたコール・イベントに関する警告を
作成するように構成されている。前記警告は、選択されたコール・イベントの特
性が当該特性に対する所定の基準値から所定の量よりも多く逸脱していることの
指示である。前記モニタリング・ユニットと前記音声アプリケーション・システ
ムとは相互に隣接して配置されている。 本発明の様々な側面により、以下に掲げる効果の中の1又は複数が達成され得
る。人々は、電話又はそれと類似の装置を用いて、会社に関する情報にアクセス
することができ、会社からサービスを得ることができる。情報及び/又はサービ
スは、オーディオ形式で、そして、ウェブサイトに類似のフォーマットで、提供
されアクセスすることができ、また、コンピュータがなくともアクセスが可能で
ある。発呼者は、情報及びサービスに、自然言語の音声を介してアクセスするこ
とができる。会社は、ウェブサイトやそれ以外の情報拡散手段において投資を促
し、類似の情報及び/又はサービスを、オーディオの対話型音声フォーマットで
提供することができる。発呼者は、ウェブ・ブラウザによって一般的に用いられ
るコマンドを用いて、会社情報及び/又はサービスの間を行き来(ナビゲート)
することができる。対話型の音声パフォーマンスは、モニタすることができる。
このモニタリングは、インターネットを介して行うなど、遠隔的に実行すること
ができる。複数の対話型音声応答システムを、遠隔的にモニタすることが可能で
ある。1又は複数の対話型音声応答システムを、遠隔的に制御することが可能で
ある。遠隔制御は、コンフィギュレーション・パラメータなどのデータや、音声
を認識する及び/又は言語又はそれ以外の音声に応答してアクションを実行する
際に用いられるデータを確立する及び/又は変更することを含み得る。 本発明のこれらの及びそれ以外の効果は、本発明それ自体と共に、以下の詳細
な説明、冒頭の特許請求の範囲及び添付の図面を検討することによって、より完
全に理解することができる。
【発明の実施の形態】概観 本発明の実施例は、既存のワールド・ワイド・ウェブのウェブサイト及びシス
テムと補完的な、音声ベースの情報処理システムを提供する。例えば、ウェブ・
ベースの証券取引システムを有する企業(enterprise)又は会社(c
ompany)は、音声ベースの情報処理システムを構築することができる。そ
して、ユーザは、電話によってアクセス可能であってその企業のウェブサイトと
整合的なユーザ・インターフェースを有するこの音声ベースの情報処理システム
を用いれば、ブローカに接続したり、ウェブを介して行った取引の状態を質問し
たりすることができる。この明細書で用いている「会社」(company)と
いう用語は、ここで説明される技術を用いることができる任意の組織(enti
ty)を含むものとする。この組織は、職業的である場合も非職業的な場合もあ
り、営利的である場合も非営利的である場合もある。従って、「会社」という用
語は、限定的ではないが、会社、法人(corporation)、パートナー
シップ、私的な当事者、個人などを意味する。ここで「会社」が用いられている
のは、必ずそうでなければならないというのではなく、ウェブサイトにおいてこ
の用語が通常用いられているという理由による。 本発明の実施例は、通信アプリケーション、情報検索、トランザクション処理
などを含むウェブ技術を用いて現時点で利用可能な様々なアプリケーションをサ
ポートしている。そのようなアプリケーションすべてが、ウェブサイトに類似し
ハイパーリンクを含む単一の一貫したユーザ・インターフェースを介して利用可
能であるのが好ましい。また、ユーザは、1又は複数のサーバ又はシステムが実
際にそれら複数のアプリケーションを走らせるかどうかとは関係なく、複数のア
プリケーションの中の任意のものに対して、口頭でコマンドを発することができ
る。 ユーザは、方向付けられた対話フォーマットで与えられている情報の中を行き
来することができる。対話的な(双方向的な)会話の間、ユーザは、ユーザが口
頭で与える対応するコマンドを備えた複数のオプションの組が提供される。例え
ば、ユーザは、「あなたは、『コンタクトしてください』、『会社情報』又は『
製品』ということができます」というのを聞くことがある。ユーザは、また、コ
マンドの機能に関する短い説明を与えられることもある。例えば、「あなたは、
今ちょうどお聞きになった情報に関するファクシミリを受け取るためには、『フ
ァックスしてください』ということができます」などである。方向付けられた対
話を用いることにより、認識可能な語彙を制限し、音声認識を高速化することが
容易になる。 通信アプリケーションにはコール・ルーティングが含まれるが、その場合、発
呼者は、コールがルーティングされるべき人の名前をいったり、部署を指定した
りする。 トランザクション処理アプリケーションには、非収入(non−revenu
e)サポート処理が含まれることがある。例えば、資金をある銀行口座から別の
銀行口座に移動させる場合などである。企業は、このタイプのサポート機能に対
して収入を発生させないのが通常であるから、この明細書に開示されている音声
インターフェース及び音声ベースのシステムは、処理コストの大きな潜在的な節
約を表している。 トランザクション処理アプリケーションは、また、eコマース又は購入トラン
ザクションを含む場合がある。その結果、本発明の実施例は、オンライン・コマ
ース・システム又は従来型のバックオフィス・コマース・システムを介して商業
的なトランザクションを実行する汎用トランザクション処理システムへの音声ベ
ースのゲートウェイを提供することができる。 トランザクション処理は、また、発呼者がイベントに対する登録をすることを
可能にする双方向的な対話を含むことがある。この対話は、個人を、氏名、住所
、ファックス番号などによって識別することを含む。また、この対話は、クレジ
ットカードなどによる支払情報の取得を含む。 アプリケーションは、また、1又は複数のサービスや複数の情報への優先的な
アクセスが得られるようにユーザを登録したり、個別化されたメニュやアフィニ
ティ購入や「クッキー」を用いることを可能にするようにユーザを登録したりす
ることを含む場合がある。また、アプリケーションは、音声処理システムを、1
又は複数の回路交換式キャリアやインターネット・テレフォニ(ボイス・オーバ
・インターネット・プロトコル)接続によって、他の音声処理システムにリンク
することを含む場合もある。また、アプリケーションは、ウェブサイト上で1又
は複数の音声処理システムへのポインタを提供することにより、ユーザがどのよ
うなサービスが音声付勢式であるのかを知ることができ、そのウェブサイトから
音声処理システムによって提供されるサービスに迅速に移動することができるよ
うにすることを含む場合がある。 本発明の実施例は、また、レガシ・サーバへのアクセスを改善する。本発明の
実施例は、ウェブ・サーバがレガシ・データの前に存在しているのと同じように
、バックオフィス・データ・サーバへのフロントエンド又はゲートウェイとして
機能する。 本発明の実施例は、ある1つのウェブ・サーバと関連するように構築して、そ
のウェブ・サーバによって実行される同じ情報検索機能やトランザクションに対
して、便利なインターフェース及びプレゼンテーション層を提供するようにする
ことができる。従って、企業は、そのウェブ投資を促すことができる。ウェブサ
イト上で一般的に見られる機能には、自然言語による音声インターフェースを用
いてアクセスすることが可能であり、ユーザは、例えば、コンタクトしてくださ
い、雇用情報、企業情報など、希望する機能の名称を口頭で指定する。特定の企
業が、その企業独自の音声イネーブル機能を有していることもある。例えば、ク
ーリエ・サービスが、ドロップオフ・ロケータ(Drop−off Locat
or)サービスや、レート・ファインダ(Rate−Finder)をそのウェ
ブサイトを介して提供することがある。これと同じサービスは、本発明の実施例
を用いれば、そのようなサービスがウェブサイト上に提供されているかどうかと
は関係なく、電話によってアクセスすることができる。発呼者は、単に、システ
ムからの挨拶に応答して、希望するサービス名を口頭でいえばよいのである。こ
れらのサービスにおいて提供される情報は、それよりも複雑なアクションと同様
に、リアルタイムのリンクによって、外部のコンテンツ・プロバイダによって提
供されることもあり得る。 情報検索アプリケーションは、それよりも複雑なアクションと同様に、クーリ
エ・サービスを用いて送られたパッケージをトラッキングしたり、航空会社によ
って運ばれたカバンをトラッキングしたり、銀行口座の残高を確認したりという
ような非常に単純な情報更新を含む。 それ以外の情報検索アプリケーションには、企業の所在地に向かっている発呼
者に運転方向を提供するというものがある。発呼者は、本発明の実施例による音
声ベースのシステムに電話をかけ、挨拶に応答して、「会社情報、方向」などと
いう。そうすると、発呼者は、「どちらの方向から来ているのですか」などとい
う質問を受ける。発呼者は、主な道路など、方向や識別点などで回答する。する
と、発呼者は、「ご案内します」などといわれることになる。こうして、発呼者
に方向が示される。結果として、有益な情報検索機能の音声による提供がなされ
る。 また、情報検索機能は、プレス・リリース、データ・シート及びそれ以外の電
子文書の検索や、テキストによる電子文書の音声、ファックス又はそれ以外の媒
体への伝送を含む。 アプリケーションは、様々な方法で構築することができる。例えば、実施例に
は、異なる情報検索及びトランザクション処理機能を提供する新たなアプリケー
ションをオペレータがセットアップすることを可能にするツール、パッケージ及
びコンフィギュレーション・ツールが含まれることがある。 従って、電話での回答を改善し、ワールド・ワイド・ウェブにおける会社の投
資を促進させ、様々な情報検索及びトランザクション処理機能へのコーナースト
ーン又はゲートウェイを提供する実施例が開示される。本発明の実施例は、組織
、情報コンテンツ及びサービスに対するウェブ・ベースのモデルに続く、対話型
の音声システムを提供する。ユーザは、電話を用いて、対話型音声応答(IVR
)システムと自然に話すことによって、情報及び/又はサービスにアクセスする
ことができる。本発明の実施例により、発呼者は、氏名及び/又は部署によって
、選択された会社の従業員にルーティングされることが可能になり、また、本発
明の実施例は、ウェブサイト・ライクな組織、用語及びコマンドを用いて会社情
報及びトランザクションへのアクセスを提供する。本発明の実施例は、コンピュ
ータ・プロセッサを制御するソフトウェアを用いて実現される。 本発明の実施例には、ベース・プラットフォーム及びツールのセットと、構成
可能で予めパッケージングのなされたアプリケーション・モジュールの集合とが
含まれる。ベース・プラットフォーム及びツールのセットに関しては、このツー
ル・セットは、システムをカスタマイズして個別的に作成された対話型音声アプ
リケーションを提供するのに用いることができる。構成可能で予めパッケージン
グされたアプリケーション・モジュールの集合に関しては、顧客は、ターンキー
(turn−key)製品を購入し、ほんの僅かな修正により、その製品を顧客
の必要性に合致するように構成することができる。本発明の実施例は、IVRシ
ステムにおけるウェブサイト・ライクな機能を提供するので、Speechsi
teTMIVRインターフェースを含むSpeechsiteTMIVRシステ
ムと称することができる。SpeechsiteTMIVRシステムの中では、
ウェブ・ページに類似するスピーチ・ページが、情報及び/又はサービスを提供
し、スピーチ・ページが異なると、ウェブサイトによって及びウェブサイトに典
型的な組織において一般に提供される情報及び/又はサービスの場合と同じよう
に、異なるグループ又はカテゴリの情報及び/又はサービスが提供される。 以下の説明では、ある会社がここで説明されている実施例を購入し使用すると
仮定する。従って、実施例は購入した会社に関する情報とその製品/サービスと
を提供すると仮定する。もちろん、当事者が会社ではなくてもかまわない。構造上のコンフィギュレーション システム全体 図1を参照すると、対話型音声システム10は、ユーザ/発呼者12と、公衆
交換式電話ネットワーク(PSTN)14と、IVRシステム16と、シンプル
・メール・トランスファ・プロトコル(SMTP)サーバ18と、ファイアウォ
ール20と、ここではインターネット22であるネットワークと、解析/報告(
A/R)サービス24とを含む。示されているように、システム10の各構成要
素の間の通信は、双方向的である。発呼者12は、電話26とファックス・マシ
ン28とへのアクセスを有する。発呼者12は、電話26又はファックス28の
いずれかを介してPSTN14と通信することができる。発呼者12は、PST
N14を介して、IVRシステム16と通信する。IVRシステム16は、方向
付けられた対話フォーマットで発呼者12に対してプロンプトを再生し、発呼者
12からの音声を認識する(又は、少なくとも、認識しようとする)ことによっ
て、発呼者12と相互作用をする。また、IVRシステム16は、インターネッ
ト22を介してA/Rサービス24と通信する。SMTPサーバ18は、IVR
システムとインターネット22との間のインターフェースを提供する。ファイア
ウォール20は、既知の技術を用いて、インターネット22を介するIVRシス
テム16からの通信を、又は、その逆方向の通信を保護する。IVRシステム1
6は、エンジン・システム30と、管理システム32と、コンフィギュレーショ
ン及びログ・システム34とを含む。 システム30、32、34は、以下で詳細に説明するように、IVRシステム
16と発呼者12との間の相互作用を処理し、エンジン・システム30を構成し
、コンフィギュレーション・パラメータ、プロンプト及びそれ以外のデータ、発
呼者12との相互作用のレコードなどを記憶する。対話型音声応答システム 導入 IVRシステム16は、パーソナル・コンピュータを用いて実現することがで
きる。例えば、以下の構成要素及び/又は特徴をコンピュータの一部として用い
て、IVRシステム16を実現することができる。すなわち、インテル社の製造
によるクロック速度が450MHz以上であるペンティアム(登録商標)3(N
Tワークステーション確認済)プロセッサを用いたシングル・プロセッサ・ワー
クステーションと、384Mb以上のRAMと、9GBのディスク・スペース及
び高速DLTバックアップ・システムと、10/100イーサネット(登録商標
)接続及び接続のための56Kモデムと、データを表示、入力及び操作のための
モニタ、マウス及びキーボードと、D41ESC及びD240SC−T1テレフ
ォニ・インターフェース・カードと、アンタレス(Antares)6000/
50デジタル信号プロセッサと、NT4.0ワークステーション・サービスパッ
ク5のオペレーティング・システムと、アーティソフト(Artisoft(登
録商標))5.0エンタープライズの環境と、アクセス又はSQLサーバと、I
IS又はピュア情報サービスHTTPサーバ及びFTPサービス用のウィンドウ
ズNT(登録商標)サーバのためのマイクロソフト(登録商標)FTPサービス 又はアパッチ・ソフトウェア・ファウンデーションHTTPサーバと、テキスト から音声へ(TTS)の変換のためのルーセント社からのワンライン・ライセン スと、遠隔(例えば、デスクトップ)管理のためのPolyPM又はPCAny whereプログラムと、である。 図2を参照すると、IVRシステム16を実現するためのコンピュータ・シス
テム50は、情報を伝送するためのバス52又はそれ以外の通信機構と、バス5
2に結合されており情報を処理するプロセッサ54とを含む。コンピュータ・シ
ステム50は、更に、バス52に結合されており情報とプロセッサ54によって
実行される命令とを記憶するRAM又はそれ以外のダイナミック記憶装置である
メイン・メモリ56を含む。メイン・メモリ56は、また、プロセッサ54によ
って実行される命令の実行の間、一時的な変数やそれ以外の中間的な情報を記憶
するのにも用いることができる。コンピュータ・システム50は、更に、バス5
2に結合されており、静的な情報やプロセッサ54への命令を記憶するROM5
8を含む。記憶装置60は、磁気ディスク又は光ディスクであり、情報及び命令
を記憶するように構成され、バス52に結合されている。 コンピュータ・システム50は、CRTなどでありコンピュータ・ユーザに情
報を表示するディスプレイ62にバス52を介して結合されている。英数字及び
それ以外のキーを含むキーボードなどの入力装置64が、バス52に結合されて
おり、情報及びコマンドの選択をプロセッサ54に伝える。システム50に含ま
れているそれ以外のタイプのユーザ入力装置には、マウス、トラックボール又は
カーソル方向キーなどの方向情報及びコマンド選択をプロセッサ54に伝えディ
スプレイ62上でのカーソル移動を制御するカーソル・コントロール66がある
。入力装置は、通常、第1軸(例えば、x)及び第2軸(例えば、y)という2
つの軸に関するカーソルの制御を有し、それによって、この入力装置が平面上で
位置を特定することが可能になる。 本発明の実施例によると、コンピュータ・システム50は、プロセッサ54が
メイン・メモリ56に含まれる1又は複数の命令の1又は複数のシーケンスを実
行するのに応答して、音声認識アプリケーションを発生することができる。これ
らの命令は、記憶装置60などのそれ以外のコンピュータ可読媒体からメイン・
メモリ56に読み出される。メイン・メモリ56に含まれている命令のシーケン
スの実行により、プロセッサ54は、その中に記述されているプロセスを実行す
る。別の実施例では、ハードワイヤード回路、ファームウェア、これらの任意の
組合せであるハードウェア、及び/又はソフトウェアを用いて、本発明の実施例
を実現することができる。 ここで用いている「コンピュータ可読媒体」という用語は、実行のためにプロ
セッサ54に命令を提供することができる任意の媒体を含む。このような媒体は
、任意の形式であり得る。例えば、限定を意味するものではないが、不揮発性媒
体、揮発性媒体及び伝送媒体を含む。不揮発性媒体には、例えば、記憶装置60
のような光ディスクや磁気ディスクが含まれる。揮発性媒体には、メイン・メモ
リ56などのダイナミック・メモリが含まれる。伝送媒体には、バス52を構成
するワイヤを含めて、同軸ケーブル、銅ワイヤ、光ファイバなどが含まれる。伝
送媒体は、更に、ラジオ波及び赤外線データ通信の間に発生されるような、音響
又は電磁的(例えば、光波)な形態をとることもあり得る。 コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー・ディス
ク(登録商標)、ハード・ディスク、磁気テープ又はそれ以外の任意の磁気媒体
、CD−ROM又はそれ以外の任意の光媒体、パンチカード、紙テープ又はホー
ルのパターンを備えた他の任意の物理的媒体、RAM、PROM、EPROM、
FLASH−EPROM、他の任意のメモリ・チップ又はカートリッジ(例えば
、電気的及び/又は光を含む電磁気的)、後述する搬送波、コンピュータが読み
出すことができる任意のそれ以外の媒体を含む。 様々な形態のコンピュータ可読媒体が、1又は複数の命令の1又は複数のシー
ケンスを実行のためにプロセッサ54まで運ぶのに関係する。例えば、命令をリ
モート・コンピュータの磁気ディスク上で運ぶことができる。リモート・コンピ
ュータは、命令をそのダイナミック・メモリにロードして、命令をモデムを用い
て電話回線を介して送ることができる。コンピュータ・システム50にローカル
なモデムは、電話回線を介してデータを受け取り、赤外線送信機を用いてデータ
を赤外線信号に変換することができる。赤外線検出器が赤外線信号において運ば
れたデータを受け取り、適切な回路がそのデータをバス52上に配置することが
できる。バス52は、メイン・メモリ56までデータを運ぶことができ、プロセ
ッサ54はメイン・メモリ56から命令を検索して実行することができる。メイ
ン・メモリ56によって受け取られた命令は、オプションであるが、プロセッサ
54によって実行される前又は後に、記憶装置60上に記憶されうる。 コンピュータ・システム50は、また、バス52に結合された通信インターフ
ェース68を含む。通信インターフェース68は、SMTPサーバ18に結合さ
れたネットワーク・リンク70への双方向データ通信カップリングを提供する。
例えば、通信インターフェース68は、対応するタイプの電話回線へのデータ通
信接続を提供するISDNカード又はモデムでありうる。他の例としては、通信
インターフェース68は、互換性のあるLANへのデータ通信接続を提供するL
ANカードの場合もある。無線リンクを実現することもできる。通信インターフ
ェース68は、様々なタイプの情報を表すデジタル・データ・ストリームを搬送
する電気的及び/又は電磁気的(光学的なものを含む)な信号を送受信すること
ができる。 コンピュータ・システム50は、SMTPサーバ18とネットワーク・リンク
70と通信インターフェース68とを介して、プログラム・コードを含め、メッ
セージを送り、データを受け取ることができる。例えば、ここで説明されている
音声認識アプリケーションを発生するコードを、インターネット22(図1)か
らダウンロードすることができる。受け取られたコードは、受信時にプロセッサ
54によって実行されることがあるし、及び/又は、後の実行のために、記憶装
置60又はそれ以外の不揮発性記憶装置に記憶されることもある。このようにし
て、コンピュータ・システム50は、搬送波の形式でアプリケーション・コード
を取得することができる。 図3を参照すると、IVRシステム16は、エンジン・システム30と、管理
システム32と、コンフィギュレーション及びログ・システム34と、リモート
・コントロール(リモコン)システム(RCS)36と、サポート・システム3
8と、モニタリング・インターフェース・システム40とを含む。これらのシス
テムは、図3において両方向の矢印によって示されているように双方向的に通信
することができる。更に、リモコン・システム36は、システム30、32、3
4、38、40のそれぞれと双方向的に通信することができる。管理システム3
2は、IVRシステム16のコンフィギュレーション、報告及びモニタリングを
担当している。管理システム32は、ウェブ・アプリケーション・サーバ42と
アプリケーション・サーバ・ロジック44とを含む。管理システム32へのアク
セスは、ウェブ・アプリケーション・サーバ42を介して提供される。このウェ
ブ・アプリケーション・サーバ42は、他のタイプのサーバでもかまわないが、
例えば、HTTPサーバである。アプリケーション・サーバ42は、ソフトウェ
アを用いて実現されているアプリケーション・サーバ・ロジックによって制御さ
れる。管理システム 管理システム32は、IVRシステム16のそれ以外の構成要素を構成するこ
とを担当する。管理システム32は、コンフィギュレーション及びログ・システ
ム34に記憶されている上複数応答レゾルバにアクセスし、この情報をコンフィ
ギュレーション情報としてIVRシステム16の他の構成要素に提供するように
構成されている。例えば、管理システム32は、コンフィギュレーション・デー
タをコンフィギュレーション及びログ・システム34から読み出し、この情報を
エンジン・システム30に提供するように構成されている。エンジン・システム
30に送られるコンフィギュレーション・データには、どのスピーチ・ページが
アクティブであるかを判断し、プロンプトの位置とどの文法を用いるべきかとど
の語彙を用いるべきかを含むページのコンテンツとを判断するデータが含まれて
いる。 スピーチ・ページは、管理システム32から音声モジュールへのコンフィギュ
レーション情報に従ってグループ分けされる。異なる複数の音声モジュールが、
モジュールの中のページによって提供される異なる複数のカテゴリの情報及びサ
ービスを提供する。それぞれのモジュールが、複数のスピーチ・ページを含む。
モジュールの例としては、スピーチ・アテンダント(SpeechAttend
ant)、コンタクト・アス(連絡を下さい、Contact Us)、会社情
報などがある。スピーチ・アテンダント・モジュールは、会社のための個人ディ
レクトリに対するページを含む。コンタクト・アス・モジュールは、電子メール
・アドレス、郵便アドレス、通りの名称及び方向、ファックス番号、電話番号な
ど、会社にコンタクトするための情報を含む。会社情報モジュールは、営業のタ
イプ及び/又は営業によって提供されるサービス、ニュース・リリース、サービ
スを行っている地域など、一般的な会社情報を記述するページを含む。 管理システム32は、また、コンフィギュレーション及びログ・システム34
に含まれる情報を更新/編集するようにも構成されている。エンジン・システム エンジン・システム30は、IVRシステム16と発呼者12(図1)との間
の音声インターフェースを実行しテレフォニ・システムと接続することを担当し
そのための構成を備えている。従って、エンジン・システム30は、双方向通信
のためにPSTN14に接続され、音声を認識し、プロンプトを再生し、データ
を受信し、コールをルーティングし、応答のあいまいさを除去し、応答を確認し
、リンクするページを選択し、サポート装置(例えば、TTSやファックス)へ
接続することを含む発呼者とのコール・フローを実行するように構成されている
。エンジン・システム30は、ここでは音声をセグメントにパージングし音響モ
デルを適用するなど既知の技術を用いて、音声を認識するように構成されている
。エンジン・システム30の機能は、米国マサチューセッツ州所在のスピーチワ
ークス(SpeechWorks、登録商標)インターナショナル社から市販さ
れているダイアログモジュール(DialogModule、登録商標)音声処
理ソフトウェア・ユニットを用いて実現される。コール・ルーティング、情報検
索及びトランザクション処理という機能の少なくともそれぞれに対して、音声エ
ンジン30は、発呼者の音声を認識しそれに従って行動することを試みるように
構成されている。 エンジン・システム30は、また、エンジン・システム30の処理を制御する
ように構成されている実行エンジン80を含む。この処理には、プロンプトの検
索及び再生と、音声認識と、エンジン・システム30と発呼者12との間の相互
作用のモニタリング及び報告とが含まれる。エンジン・システム30は、エンジ
ン・システム30又はコンフィギュレーション及びログ・システム34に記憶さ
れている、又は、発呼者12によって提供される命令及び/又はデータによって
制御される。 また、図10を参照すると、エンジン・システム30は、実行エンジン80と
、ダイアログモジュール(登録商標)音声処理ユニット300と、スマート・レ
コグナイザ(登録商標)音声認識器302(スピーチワークス(登録商標)イン
ターナショナル社から入手可能)と、レコード・ユニット306とを含み、これ
らはすべて、オペレーティング・システム(OS)を含みハードウェア310上
で動作するサービス・ロジック実行環境(SLEE)308において動作する。
SLEEは、コール・ロジックがその中で実行する計算環境である。この環境は
、コール及びイベント処理のためのアーティソフト(登録商標)ビジュアル・ボ
イス・サービス・プラットフォームによって提供される任意のツールを含む。実
行エンジン80は、エンジン・システム30の動作を制御するように構成されて
いる。 エンジン・システム30は、音声を認識し新たな音声に適応するように構成さ
れている。音声処理ユニット300は、発呼者12による受け取られた発話の波
形とSLEEログ(後述する)とを処理して、処理済みのデータを認識器302
に提供するように構成されている。認識器302は、音響モデルと、意味論モデ
ル(語句の確率)と、発音グラフと、IVRシステム16に記憶されている辞書
とを用いて、発呼者の発話に含まれる1又は複数の語を認識しようとする。音響
モデルは、与えられた波形が音声の関連付けられた部分と関係する統計的確率を
表す。N個の最良のリストの中のそれぞれのアイテムが、識別された語又はフレ
ーズが発呼者12が実際に話したものである蓋然性を表す対応する信頼性スコア
を有する。エンジン・システム30は、このモデルとエンジン・システム30が
動作する度にエンジン・システム30を制御するパラメータとをロードするよう
に構成されている。これらのデータは、コンフィギュレーション及びログ・シス
テム34に記憶されており、これらは、オフラインのバッチ処理モードで再生可
能となっている。 認識器302は、辞書を構築する又は辞書に追加することができ、音響モデル
と意味論モデルと発音グラフとを、確率リンク発話波形を音声に調整するように
、適応させる。音響モデルの再訓練は、IVRシステム16が動作しない間に実
行することができる。認識器302は、パージングされた及び生のテキストを用
いて意味論モデルを構築して評価し、SLEEログを用いて意味論モデルを自動
的に構築するように構成されている。 自動アテンダント機能を実現するために、音声エンジン30は、コール・ルー
ティング機能を実行するように構成される。これらの機能は、従業員の氏名及び
/又は部署及び/又は地位をそれらの類義語を含めて認識し、プロンプトを発呼
者に提供することを含む。コール・ルーティング機能を実行するために、実行エ
ンジン80は、コンフィギュレーション及びログ・システム34から情報を検索
し、これを発呼者の音声と比較して、話された氏名、部署又は地位がIVRシス
テム16と関連付けられた会社又はビジネスの個人又は部署と対応するかどうか
を判断するように構成されている。エンジン・システム30は、例えば、発呼者
12に従業員の氏名に加えてその部署を識別するように促すことによって、応答
のあいまいさを除去することができる。コール・ルーティング機能は、また、実
行エンジン80が発呼者をリクエストされている個人/部署に接続することを含
む。特に、実行エンジン80は、コンフィギュレーション及びログ・システム3
4に記憶されているデータに従って、機械的(ブラインド)なフラッシュ・フッ
ク転送を用いてコールを転送するように構成されている。エンジン・システム3
0は、監督下での転送など、他のタイプの転送を実行するように構成することも
できる。 情報検索機能のためには、エンジン・システム30は、発呼者12によってリ
クエストされた特定のスピーチ・ページを識別する、又は、どのページがリクエ
ストされた情報を含むかを判断することができる。エンジン・システム30は、
どの情報を発呼者12がリクエストしているのかを判断するために、発呼者12
からの音声を認識するように構成されている。発呼者12からの音声を認識する
と、エンジン・システム30は、特定の/判断されたページにアクセスし、リク
エストされた情報に関するプロンプトを発呼者12に向けて再生するように構成
されている。従って、例えば、エンジン・システム30は、ユーザ/発呼者12
が適切なページ(コンタクトして下さいのページへのリンクを提供するページ)
にいるときに「コンタクトして下さい」というと、「コンタクトして下さい」の
ページにリンクすることができる。更に、エンジン・システム30は、ユーザが
適切なページ(コンタクトして下さいのページへのリンクを提供するページ)に
いてコンタクトして下さいのページからの情報をリクエストしている場合には、
コンタクトして下さいのページにリンクすることができる。例えば、発呼者12
が「ボストンの方向」というと、エンジン・システム30は、発呼者12をコン
タクトして下さいのページにリンクする。 エンジン・システム30は、また、特定のIVRシステム16に関して発呼者
12に利用可能なトランザクションを実行するように構成されている。トランザ
クションを実行するために、エンジン・システム30は、特定のページを識別す
る、又は、発呼者12によってリクエストされた情報又はサービス(証券取引な
ど)を含むページを判断し、そのような特定された/判断されたページにアクセ
スし、発呼者12によって特定された機能を実行/開始するように構成されてい
る。エンジン・システム30は、発呼者12の音声(スピーチ、言語)を認識し
、認識された音声をコンフィギュレーション及びログ・システム34に記憶され
ているデータと関連付ける。エンジン・システム30に記憶されている命令、及
び/又は、適切な場合の命令を含みコンフィギュレーション及びログ・システム
34に記憶されているデータに従って、エンジン・システム30は、発呼者12
によって提供されたデータに従って指示されたトランザクションを実行する。 発呼者12との双方向的な会話を制御するために、エンジン・システム30は
、PSTN14とコンフィギュレーション及びログ・システム34とを介して発
呼者12と相互作用する。エンジン・システム30は、PSTN14を介して発
呼者12からの音声を受け取ることができる。エンジン・システム30は、実行
エンジン80の制御の下で、発呼者12からの音声を認識することを試みるよう
に構成されている。音声を認識するために、エンジン・システム30は、どの音
声がIVRシステム16によって認識可能であるかを指示する情報を求めて、コ
ンフィギュレーション及びログ・システム34にアクセスする。エンジン・シス
テム30は、実行エンジン80の制御の下で、IVRシステム16と発呼者12
との間の会話を管理するように構成されている。実行エンジンは、エンジン・シ
ステム30に、コンフィギュレーション及びログ・システム34に記憶されてい
るプロンプトを、エンジン・システム30が発呼者12からの音声を認識したか
どかに応じて発呼者12に出力するように命令することができる。これらのプロ
ンプトには、例えば、先に認識された音声に従って発呼者12からの情報をリク
エストする、認識できなかった音声又は認識の信頼度が低い音声に関しては発呼
者12にその音声をもう一度発するように依頼する、エンジン・システム30が
受け取った非音声的な情報に対するそれ以外の適切なエラー・メッセージなどが
含まれる。 エンジン・システム30は、限定された語彙の範囲で話すように発呼者12を
導き発呼者12の希望する結果を達成する方向付けられた対話の態様で、発呼者
12と通信するように構成されている。エンジン・システム30は、発呼者12
に、発せられる可能性があるコマンドを提供し、可能性のある語彙(例えば、コ
ンタクトして下さい)を含む認識語彙を、類似する意図を有する類義語やそれ以
外の言葉(例えば、方向)に加えて、用いる。認識語彙は、発呼者12との双方
向的な対話の異なる段階と共に変化する。発呼者12は、また、「ヘルプ」、「
戻る」又は「進む」など任意の音声において使用可能ないくつかの「全世界的」
又は「普遍的」なコマンドの中の任意のものを発することができる。「戻る」及
び「進む」コマンドは、発呼者12が訪れたスピーチ・ページの履歴において、
現在のページの前後にスピーチ・ページが存在する場合にだけ、うまく機能する
。これらの許容されているもの以外の発話は、結果的に、発呼者12へのエラー
・メッセージを生じさせる。使用可能な認識可能音声を限定することによって、
認識精度及び速度と、IVRシステム16の全体的な堅固度(ローバストネス)
を向上させることができる。 エンジン・システム30は、既知の技術を用いて発呼者12からのリクエスト
を認識しそれに応答するように構成されている。例えば、発呼者12からの音声
は、音声の単位にパージングし、デジタル信号プロセッサによって音声単位ベク
トルを生じるように変換することができる。これらのベクトルは、長さが異なり
うる音声セグメントにグループ分けされる。これらのセグメントは、言語学的な
制約(例えば、認識語彙)に関して解析される特徴ベクトルに変換され、最も高
い信頼性スコアを有するN個の語ストリングのN個の最良のリストを生じる。 エンジン・システム30は、典型的なブラウザによって提供される機能も含め
て典型的なウェブ・サイトにおいて提供されているビジュアルなフォーマットを
オーディオ・フォーマットに変換するユーザ・インターフェースを提供すること
によって、発呼者12と相互作用する。このユーザ・インターフェースは、エン
ジン・システム30によってアクセスされ発呼者12に提供されるプロンプトに
よって達成される。ウェブ・サイトとブラウズしている人間に提供される情報と
類似して、コンフィギュレーション及びログ・システム34に記憶されておりエ
ンジン・システム30によって再生されるプロンプトは、例えば、発呼者に現在
の位置(例えば、「ホームページ」)や現に転送されつつある位置(例えば、「
コンタクト・アスのページに転送中」)を告知することができる。発呼者12に
対して再生されるこれらのプロンプトは、「ページ」、「コンタクト・アス」、
「会社情報」、「…のページに戻る」、「…のページに移動中」など、ウェブ・
サイトに関連する用語(例えば、リンクのための)を用いる。別の例としては、
発呼者12には、「あなたは、[ページ1]、[ページ2]、…ということがで
きます」という情報のためのプロンプトを再生することができる。これらの[ペ
ージ1]、[ページ2]、…というプロンプトは、例えば、カスタム・テキスト
30をコンフィギュレーション及びログ・システム34に記憶することにより構
成可能なテキスト・プロンプトであり、このプロンプトを発呼者12に向けて再
生するように検索される。このテキストは、例えば、リアルタイムで、挨拶部分
において、エンジン・システム30によって代替され、コンフィギュレーション
及びログ・システム34に記憶されている情報に基づいてカスタマイズされたテ
キストが発呼者12に提供される。カスタマイズされたページの例としては、例
えば、会社の特定の製品、会社の特定の部署、及び/又は、会社の特定のサービ
プに向けたものがある。更に別のプロンプトが、はい/いいえ形式などの質問を
発呼者12に与えることもありうる。エンジン・システム30が発呼者12に与
える情報は、発呼者12に提供されたものとほぼ同じ情報を含む対応のウェブ・
サイトとは異なった構成になっていることもありうる。 ウェブ類似のユーザ・インターフェースの一部として、エンジン・システム3
0は、ウェブ・サイト・ライクなコマンドに応答して、IVRシステム16にお
ける情報の中を行き来するように構成されている。発呼者は、「ホーム」、「戻
る」、「進む」、「ヘルプ」、「行け」など、ウェブ・ブラウザによって通常提
供されるコマンドを口頭でいうことができ、エンジン・システム30は、それら
のコマンドを認識し、それに従って行動するように構成されている。エンジン・
システム30は、このようにして、発呼者12を、訪問したページ履歴における
情報の前のページに戻したり次のページに進めたりすることができる。また、発
呼者12が上に掲げた例示的なコマンドをいうことにより、ホームページに戻す
こともできる。 それぞれのスピーチ・ページに対しては、エンジン・システム30がそれに対
して発呼者12を促すページに特定のリンクがありうる。例えば、ホームページ
は、会社情報ページ、コンタクト・アス・ページ、製品/サービスのページなど
への特定のリンクを有することがあり、プロンプトが、発呼者12にこれらのリ
ンクを告知する。例えば、発呼者12は、「あなたは、「会社情報」、「コンタ
クト・アス(コンタクトして下さい)」又は「製品及びサービス」ということが
できます」と告げられることがありうる。エンジン・システム30は、発呼者1
2にリクエストされたこれらの特定のページの任意のページに移動することがで
きる。 エンジン・システム30は、また、発呼者12へのサーチ・サービスと自動フ
ァックス・サービスとを提供するように構成されている。IVRシステム16と
の対話における適切な時点から、発呼者12は、「見つけて下さい」ということ
ができる。このリクエスト/発話に応答して、エンジン・システム30は、指示
されたテキスト及び/又は情報を求めて記憶されているスピーチ・ページをサー
チすることができる。発呼者12は、いつでも、「それをファックスして下さい
」ということもでき、エンジン・システム30は、現在のページ(現在のスピー
チ・ページと関連している)のコンテンツを発呼者12によって特定されたファ
ックス番号にファックスすることによって、このリクエストに応答するように構
成されている。このファックス番号は、前もって記憶されおそらくは確認される
ことも可能であるし、又は、エンジン・システム30によってそれが命じている
ファックスに応答してリクエストされることもありうる。 エンジン・システム30は、コンフィギュレーション及びログ・システム34
におけるコール・イベントとそれ以外のトランザクションとを記録するように構
成されている。コール・イベントは、IVR16と発呼者12との間の双方向的
な会話の様々な段階である。これらのイベントには、発呼者12によるリクエス
トと、エンジン・システム30によって試みられた認識と、発呼者の音声が認識
されたかどうかの指示と、音声が信頼性が低い認識として拒絶されたのか又は認
識されなかったのかと、エンジン・システム30によって開始されたアクション
と、発呼者12に向かって再生されたプロンプトと、が含まれる。このイベント
は、発呼者12はどのページに向かって方向付けられているのかと、発呼者12
はどのコマンドをどのシーケンスでリクエストしているのかと、エンジン・シス
テム30はどのアクションを実行したのかも含むことがある。エンジン・システ
ム30は、コール・イベントの標識を後で参照のために記憶するためにコンフィ
ギュレーション及びログ・システム34に送るように構成されている。エンジン
・システム30は、コール・イベントが生じる度にいくつかのコール・イベント
の標識を送し、他方で、ある条件が生じたときにだけ、他のコール・イベントの
標識を転送するように構成されている。そして、他のコール・イベントの標識を
全く送らないように構成することも可能である。例えば、エンジン・システム3
0は、信頼度が低いという拒絶が生じる度に、又は、信頼度が高いという承認が
生じる(例えば、自動アテンダント機能を用いてある人間に接続できる)度に、
標識を送るように構成することができる。エンジン・システム30は、また、コ
ンフィギュレーション及びログ・システム34に記憶するために、及び/又は、
モニタリング・インターフェース・システム40によって検索するように、コー
ル・イベントのコール統計に基づいて、レポートを作成するようにも構成されて
いる。コンフィギュレーション及びログ・システム コンフィギュレーション及びログ・システム34は、ログ記憶領域86と、デ
ータベース記憶領域88と、一般記憶領域90とを含む。コンフィギュレーショ
ン及びログ・システム34は、管理システム32とエンジン・システム30とサ
ポート・システム38とモニタリング・インターフェース・システム40とによ
って用いられる情報を記憶し、これらのシステムそれぞれと双方向的に相互作用
するように構成されている。従って、これらのシステム30、32、38、40
は、それぞれが、コンフィギュレーション及びログ・システム34から情報を検
索することができ、また、コンフィギュレーション及びログ・システム34に情
報を記憶することができる。 データベース88は、コンフィギュレーション・ファイルとスピーチ・ページ
のコンテンツとを記憶する。スピーチ・ページのコンテンツは、ウェブ・サイト
上で一般に入手可能なコンテンツ及びフォーマットに類似している。コンフィギ
ュレーション・ファイルは、システム30、32、36、38、40を構成する
のに用いられる。これらのファイルは、これらのシステム30、32、36、3
8、40のそれぞれを、コンフィギュレーション及びセットアップの間に、後述
するように構成するのに必要な情報を記憶する。これらのファイルは、IVRシ
ステム16の製造者及び/又は購入者によって確立する及び/又は修正し、カス
タム・コンフィギュレーションを提供及び/又は変更することができる。データ
ベース88は、また、スピーチ・ページに関係する様々な情報を記憶するように
構成されている。例えば、データベース88は、プロンプトに関係する情報を記
憶するように構成されている。プロンプト・データは、ID、記録日、プロンプ
トを記録する人の氏名、ソース、プロンプトのタイプなどを含む。更に、そのプ
ロンプトが公開されているか、そのプロンプトに対する一意的なユーザ・インタ
ーフェース名、プロンプトのテキストなどが、データベース88に記憶される。
また、データベース88におけるプロンプトの位置と、そのプロンプトが作成さ
れた日付もデータベース88に記憶される。また、複数のプロンプトを相互にリ
ンクしてプロンプトのフレーズやそれ以外のセグメントを形成するための情報も
、データベースに記憶される。 データベース88は、また、音声モジュールに関する情報も記憶する。この情
報は、音声モジュール及びスピーチ・ページのための識別用情報を含み、更に、
モジュール及びページそれぞれのコンテンツも含む。この識別用情報は、音声エ
ンジン30によって用いられ、様々な音声モジュールやスピーチ・ページを、そ
の中に含まれているプロンプトも含めて、見つけ、検索し、処理するように構成
されている。 データベース88は、また、スピーチ・ページに関係するデータも記憶する。
ページとページの構成要素との間のリンクは、データベースに含まれており、音
声エンジン30が他のページ及び/又はモジュールにリンクし、更に容易に情報
を検索しそれ以外のアクションを実行する。データベース88はまた、ダイアロ
グ・モジュール(登録商標)音声処理ユニット300(図10)を特定のスピー
チ・ページ及び/又は音声モジュールにリンクする情報も記憶する。ダイアログ
・モジュール(登録商標)音声処理ユニット300(図10)のためのリンク情
報は、どのダイアログ・モジュール(登録商標)音声処理ユニット300(図1
0)がいつスピーチ・ページを実行するのかを決定するマッピングを提供する。 データベース88に記憶されているデータは、また、相互に類義語として機能
するデータの間のリンクも提供する。これによって、あるアイテムに対する認識
精度を、当該アイテムに対して類義語が入手可能であるときには、向上させるの
に役立つ。 データベース88は、また、いくつかの他のタイプの情報を記憶する。この情
報には、ナビゲーション用語とナビゲーション機能へのリンクとを含めてスピー
チ・ページのナビゲーションのサポートを助ける情報と、実行エンジン80がエ
ンジン・システム30において「見つけろ」機能を実行しているときにあるスピ
ーチ・ページを見つけるのに用いられるキーワードとが含まれる。ユーザ辞書も
また、データベース88に記憶されている。データベース88は、また、会社の
営業に関係する情報も含む。例えば、会社の営業日及び/又は営業時間は、デー
タベース88に記憶されている。データベースは、また、次度アテンダント機能
のための個人ディレクトリのための情報を記憶している。個人ディレクトリのた
めにデータベース88に記憶されている情報は、データの複数のフィールドに記
憶される。フィールドの例としては、個人名、ニックネーム、地位、部署、これ
らのフィールドの任意のものにおけるエントリの類義語、個人、部屋及び部署の
内線番号、発呼者をそれらの人間及び/又は部署に転送する/ルーティングする
ためのそれ以外の情報などがある。これらのフィールドは、更新して新たなスタ
ッフ、部署の変更、部署名の変更、氏名の変更、人間及び追加的なニックネーム
、それ以外の類義語などを反映させることができる。 記憶されているスピーチ・ページのコンテンツは、IVRシステム16の各ペ
ージに対するプロンプト(例えば、質問及び情報)、レイアウト、リンクなどの
すべての情報を含む。スピーチ・ページのコンテンツは、購入者/顧客に転送す
る前に、IVRシステム16の顧客によってページ・コンテンツのコンフィギュ
レーションをカスタマイズするように選択し修正することができるデータの複数
のフィールドに分割される。スピーチ・ページのコンテンツは、必要に応じて、
データ・フィールドを修正することによって更新することができる。例えば、株
式価格を更新し、最新のニュースを提供し、会社の中で生じたあらゆる変化を示
すなどである。 記憶領域90は、すべてのプロンプト、ファックス・ページ、GIF、音声モ
デルなどを記憶する。プロンプトは、発呼者12に与えられるオーディオ情報の
すべてである。例えば、プロンプトは、発呼者12への質問と発呼者12への情
報ステートメントとを含む。ファックス・ページは、発呼者が情報がファックス
されることをリクエストすることによって、例えば、発呼者12が「それをファ
ックスして下さい」などということによって、発呼者12のファックス28(図
1)に伝送されるデータである。GIFフォーマット・ファイルの形式を有する
グラフィカルな情報をファックス・ページに含めることも可能である。音声モデ
ルは、エンジン・システム30によって用いられ、音声の一部が認識され、発呼
者12が話した語及び/又はフレーズが認識される。 ログ記憶領域86は、コール・イベントのログとシステムが必要とするそり害
の情報、例えば、SLEEログにおいて必要とされる情報とを記憶するように構
成されている。コール・イベントのログには、例えば、コール時間、コールの長
さ、リクエストされたスピーチ・ページ、認識の成功率、語以外の認識、うまく
いかなかった認識、用いられたコマンドなどに関する統計が含まれる。サポート・システム サポート・システム38は、管理システム32及び/又はエンジン・システム
30に依拠され、これらのシステム30及び32に対するサポート機能を提供す
るように構成されている。サポート・システム38は、テキストから音声への(
TTS)機能92、ログ・コンバータ94、ファックス機能96、レポート発生
器98、音声アダプタ100などを含む。 TTS92により、エンジン・システム30が、音声又はそれ以外の適切なオ
ーディオを、IVR16に記憶されているテキストに基づいて、発呼者12に出
力することが可能になる。TTS92は、ルーセント社によるTTSエンジンな
ど、既知の技術を用いて実現することができる。TTS92によって、IVR1
6を迅速に更新することが可能になる。例えば、ニュース・リリースは、テキス
トとしてコンフィギュレーション及びログ・システム34に中に迅速に記憶する
ことができ、TTS92及びエンジン・システム30を用いて発呼者12に向け
た音声として直ちに出力することができる。そのニュース・リリースの有名人に
よるレコーディングを後で行い、TTS92がそのニュース・リリースのテキス
トをエンジン・システム30を用いて適切な音声に変換する代わりに用いること
ができる。例えば、個人ディレクトリの中の従業員リストなど、IVR16のそ
れ以外の部分も、このようにして更新することができる。 ログ・コンバータ94は、記憶領域86に記憶されているログの中の情報をレ
ポート発生器98によって処理するために、適切なフォーマットに変換するよう
に構成されている。ここでは、ログ・コンバータ94は、記憶領域86に記憶さ
れているSLEEファイルにアクセスして、これらのファイルをNCSA(国立
スーパーコンピューティング・アプリケーション・センタ)標準のログに変換す
るように構成されている。ログ・コンバータ94は、発呼者12によるIVR1
6へのアクセスの標識をウェブ・サイト・ページの「ヒット」の同等物に有効に
変換し、これらのヒットをあるファイルに記憶することができる。従って、ログ
・コンバータ94は、発呼者12のID(例えば、電話番号)と発呼者12によ
るリクエストの日付及び時間と、発呼者12からの情報又はアクションのリクエ
ストの標識とを含むファイルを記憶するように構成されている。ログ・コンバー
タ94によって記憶されているログは、コンフィギュレーション及びログ・シス
テム34に記憶される。 ファックス機能96は、発呼者12からのファックスのリクエストを処理し、
リクエストされた情報を発呼者12によってアクセス可能なファックス28(図
1)にファックスするように構成されている。例えば、ファックス機能96は、
ウィン・ファックス・プロ9.0を用いて実現することができる。ファックス機
能96のこのような実現は、ライト・ファックス(RightFax)サーバと
インターネット・サーバとをサポートしている。ファックス機能96は、情報を
ファックス28と関連付けられ発呼者12によって提供されるファックス番号に
、ファックス・サーバ97を介してファックスすることができる。 レポート発生器98は、コンフィギュレーション及びログ・システム34に記
憶されているログやそれ以外の情報にアクセスし、これらのデータを操作して様
々なレポートを作成するように構成されている。例えば、レポート発生器98は
、ログ・コンバータ94によって記憶されたログを操作して、スピーチ・ページ
・ヒットに関係するレポートを作成することができる。レポート発生器98は、
1時間当たりのコール数と、すべての音声モジュールにおける1時間当たりのコ
ール数と、1時間当たりのオペレータ転送数とを示すレポートを作成するように
構成されている。レポート発生器98は、また、選択された日/週/月における
自動番号識別子(ANI)によって識別される与えられた装置からのコールの数
を示すレポートを作成することもできる。これらのレポートは、書かれた及びグ
ラフィカルなフォーマットで作成され、ダウンロード可能であり、データベース
にインポートすることも可能である。 音声アダプタ100は、エンジン・システム30によって用いられるツールを
、エンジン・システム30による音声認識の向上を助けるように適応させるよう
に構成されている。音声アダプタ100は、米国マサチューセッツ州ボストン所
在のスピーチワークス(登録商標)インターナショナル社から入手可能なラーン
(LEARN)6.0のソフトウェアを用いて実現可能である。音声アダプタ1
00は、コンフィギュレーション及びログ・システム34に記憶されている情報
にアクセスし、この情報を解析し、コンフィギュレーション及びログ・システム
34に記憶されている音響モデル、発音グラフ及び/又は意味論モデルをどのよ
うにしてエンジン・システム30による音声認識を向上させるように適応させる
ことができるかを判断する。音声アダプタ100は、また、音響モデル、発音グ
ラフ及び/又は意味論モデルをこれらの判断に従って更新/変更するように構成
されている。新たなモデル及びグラフは、コンフィギュレーション及びログ・シ
ステム34に再び記憶され、発呼者12からの音声を認識する際に、エンジン・
システム30によって用いられる。リモコン・システム リモート・コントロール(リモコン)システム(RCS)36は、アナログ通
信回線104を介して、IVR16の遠隔的な制御を提供するように構成されて
いる。リモコン・システム36は、リモート・アクセス・システム(RAS)1
06を含み、RAS106は、この場合にはPCAnywhere108などの
適切なソフトウェアによって制御されている。RAS106は、モデム110を
介してアナログ回線104と通信する。 リモコン・システム36により、NTウィンドウを介するIVR16の任意の
制御が可能となる。例えば、リモコン・システム36は、開始/停止処理が、記
憶されているデータを含んでシステム30、32、34、38、40のコンフィ
ギュレーションを修正し、管理システム32にアクセスしてIVR16に接続さ
れた通信回線をイネーブル/ディセーブルすることを可能にする。モニタリング・インターフェース・システム モニタリング・インターフェース・システム40は、IVR16に対するモニ
タリング機能を提供し、システム・モニタ112と、プロンプト・モニタ114
と、チューニング・モニタ116とを含む。これらのモニタ112、114、1
16は、ユーロー(ulaw)ファイルの形式(μ−lawファイル、語波形)
で、コンフィギュレーション及びログ・システム34から情報を検索しコンフィ
ギュレーション及びログ・システム34に情報を記憶し、更に、SMTPサーバ
18と双方向の通信を行う。プロンプト・モニタ114は、プロンプトの変化を
モニタし、変化に関する警告を提供するように構成されている。 システム・モニタ112は、IVR16のコンピュータ機能をモニタし、モニ
タされた機能に応答して適切なアクションを行い、「ベース・ハートビート」を
A/Rサービス24(図1)に提供するように構成されている。ベース・ハート
ビートとは、A/Rサービス24に送られ、IVR16が通常の動作パラメータ
と共に動作し機能していることをA/Rサービス24に告知するメッセージであ
る。警報(アラーム)及び警告(アラート)が、ハードウェア及びテレフォニ・
エラー、リソースの制約、ランタイム・エラー、及び/又はトランザクション・
エラーに関して、システム・モニタ112によって提供される。リソースの制約
によるエラーは、IVR16におけるアプリケーション・ソフトウェア・コード
に関するものである。ランタイム・エラーは、SLEE、音声認識器、ダイアロ
グ・モジュール(登録商標)音声処理ユニット・ライブラリに対して提供される
。SLEEライブラリは、発呼者12からのコールを受け、その音声認識器を含
めてエンジン・システム30を促すように構成されている。IVR16ソフトウ
ェア・コードにおけるランタイム及びトランザクション・エラーは、発呼者12
からのコールを処理する際に遭遇するあらゆる種類のエラーを含む。システム・
モニタ112は、これらのトランザクション・エラーの指示をコンフィギュレー
ション及びログ・システム34に記憶することによって、トランザクション・エ
ラーを報告することができる。システム・モニタ112は、また、IVR16の
選択された重要でないサービスを再開するような、いくつかの救済的なアクショ
ンを実行するように構成されている。アラーム及びアラートは、システム・モニ
タ112によって、インターネット(図1)を介して、A/Rサービス24(図
1)まで送ることができる。 チューニング・モニタ116は、発呼者12とIVR16との間の相互作用に
関する音声パフォーマンスをモニタし解析するように構成されている。チューニ
ング・モニタ116は、コンフィギュレーション及びログ・システム34に記憶
されているSLEEログからのパフォーマンス統計を計算し、そのパフォーマン
ス統計をトラッキングするように構成されている。パフォーマンス統計から、チ
ューニング・モニタ116は、これらのパフォーマンス統計に関するアラートを
送ることができる。チューニング・モニタ116は、外部モニタリングのため、
SLEEログと、潜在的に問題のある波形であるとのフラグが立っている発呼者
12からの音声の一部の波形とを送ることができる。チューニング・モニタ11
6は、また、会話統計に関する状態メッセージを出力することもできる。これら
のアラート、ログ、波形及びメッセージは、チューニング・モニタ116によっ
て、インターネット22(図1)を介してA/Rサービス24(図1)まで送る
ことができる。 チューニング・モニタ116は、発呼者12とIVR16との間の会話のパフ
ォーマンス統計に関する多くの報告を提供するように構成されている。チューニ
ング・モニタ116は、重要なトランザクションの場合のトランザクション完了
比率、ダイアログ・モジュール(登録商標)音声処理ユニットの完了比率、失敗
したコール、発呼者が知覚した応答時間、所定の時間内にアクセスされなかった
個人名、平均コール時間、短いコールのパーセンテージ、転送されたコールに対
する切断されたコールの数、オペレータに転送されたコールの数、コールの総量
など、複数の基準に従って、パフォーマンス統計を解析することができる。どの
トランザクションが重要なトランザクションとして指定されるかは、システム・
セットアップの際に決定されるか、又は、後で修正することもできる。ダイアロ
グ・モジュール(登録商標)音声処理ユニットの終了レート情報は、どの位多く
の確認が生じているか、どの位多くの及びどの位頻繁に故障が生じているかを含
む。ダイアログ・モジュール(登録商標)音声処理ユニットの終了レートに関す
る情報は、ダイアログ・モジュール(登録商標)音声処理ユニット300(図1
0)と関連するスピーチ・ページに従ってフォーマットされる。発呼者が知覚し
た応答時間を、IVR16がオーバーロード状態にあるかどうかを判断するのに
用いることができる。用いられていない個人名のための決定された時間は、例え
ば、希望する1週間、6週間、及び/又は、12週間として、選択することがで
きる。転送されたコールに対する切断されたコールの数と、オペレータに転送さ
れたコールの数とは、自動アテンダントのパフォーマンスを解析するのに有用で
ありうる。 チューニング・モニタ116は、また、複数の営業報告を作成することができ
る。例えば、1時間当たりのコールの数、重要な対話ログにおける1時間当たり
のコールの数、1時間当たりのオペレータ転送の数、所定の時間期間における与
えられたANIからのコールの数などに関する報告が提供される。1時間当たり
のコールの数は、テキスト及びグラフの両方でダウンロード可能なフォーマット
で提供される。重要な対話ログとは、コンフィギュレーション及びログ・システ
ム34に記憶されているコンフィギュレーション・ファイルによって定義するこ
とが可能である。ANI報告に対する所定の量の時間は、例えば、1日、1週間
、及び/又は、1月などである。これらの報告は、営業データ・マイニングやそ
れ以外の報告機能のためのデータベースへのローディングのために、テキスト・
ファイルを介して、エクスポート可能なフォーマットで提供される。 アラームは、広範囲の故障及び/又はパフォーマンス条件に対して、チューニ
ング・モニタ116によってトリガされうる。これらのアラームは、構造化され
たメッセージとして、例えば、SNMP又は電子メールを用いて、1又は複数の
目的地に向けて送られる。アラームは、顧客オペレーション・センタ、オフサイ
トでのアウトソーシング・モニタリング会社、及び/又は、IVR16を販売及
び/又はそのコンフィギュレーションを決定している主体などによるシステム・
パフォーマンスのオフサイトでのモニタリングに役立つ。解析/報告サービス チューニング・モニタ116は、インターネット22(図1)を介して、A/
Rサービス24(図1)に報告を送ることができる。図1を再度参照すると、A
/Rサービス24は、IVR16のパフォーマンスをモニタして、IVRのパフ
ォーマンスに関する診断的なアクションを開始させるアラームを提供するように
構成されている。この診断的なアクションは、例えば、スピーチワークス(登録
商標)インターナショナルなどのIVR16のベンダによって行われることがで
きる。A/Rサービス24は、コンフィギュレーション及びログ・システム34
におけるデータにアクセスし、そこからデータを検索し、これらのデータを解析
して、適切なアクションを決定し、適切なアラームを作成し、及び/又は、適切
な報告を作成するように構成されている。A/Rサービス24は、記録された発
話のファイルやコンフィギュレーション及びログ・システム34に記憶されてい
るSLEEログなどのデータに周期的にアクセスし、及び/又は、そのデータを
検索して、認識、チューニング、モニタリング及び報告の作成に用いる。 A/Rサービス24によって作成可能なアラームの1つとして、潜在的に高い
OOVレートに対するものがある。高いOOVレートは、例えば、コンフィギュ
レーション及びログ・システム34に記憶されている個人ディレクトリにおける
氏名のリストのメンテナンスがなされていない場合に生じることがある。従って
、発呼者12が特定の氏名へのルーティングを依頼する場合に、IVR16は、
そのリクエストされた氏名を、そのリクエストされた人間がIVR16によるサ
ービスを受けている会社の従業員であるという事実があるにもかかわらず、拒絶
してしまうと言うことが起こりうる。 アラーム及び/又は報告は、類義語/ニックネームの識別のための可能性のあ
る候補に対して、A/Rサービス24によって作成されうる。認識されていない
フレーズ又は信頼性の低いフレーズが、再試行の際に、(高い信頼性を有すると
して)認識されたものとして承認されると(例えば、発呼者が「御社のCEO」
と言ったのに対して、IVRが「分かりません。ファースト・ネームとラスト・
ネームをお願いします」と答え、それに対して、発呼者が「スチュアート・パタ
ーソンさんです」と言うような場合)、発呼者12によって最初の試行で用いら
れたフレーズは、第2の試行において認識された人間に対する追加的な類義語と
して適切な候補である。A/Rサービス24は、潜在的な類義語(例えば、CE
O)と認識された音声(例えば、スチュアート・パターソン)とを示す報告を作
成することができる。 アラームは、反復された悪い発音に対して、A/Rサービス24によって作成
されることがある。発呼者12によって発せられた与えられたフレーズに対する
高いパーセンテージの確認は、IVR16がそのフレーズに関して優れていない
発音を用いてプログラムされていることを示す。識別された語/フレーズの反復
された確認を示すアラームは、IVR16によって認識された発音を調整し特定
の語/フレーズに対して要求される確認の数を縮小させるアクションを開始させ
るのに用いることができる。 A/Rサービス24は、また、IVR16によってもはや認識されない氏名に
対するアラート、アラーム、及び/又は、レポートを生じるように構成されてい
る。以前は高い信頼性スコアを有していた信頼性の低いスコアを有する氏名の高
い比率は、発音認識が劣っている、及び/又は、ノイズ・レベルが高い、及び/
又は、その人間は以前の従業員であってその会社を退社した者としてデータベー
ス88にリスト化されていなければならないなど、複数の問題の中の任意のもの
を示すことがありうる。 A/Rサービス24は、信頼性の分布をモニタして、信頼性スコアのための認
識スレショルドを管理することを助けるように構成されている。IVR16は、
発呼者の音声の認識を向上させて、認識精度を上昇させるように構成することが
できる。その際に、すべての発話にわたる信頼性スコア分布は、シフトする可能
性がある。しかし、拒絶された発話のパーセンテージが低下すると、それは、承
認スレショルドが低すぎることによる誤った承認(すなわち、有効であると承認
された誤った認識)が上昇していることを示す場合がある。逆に、拒絶スレショ
ルドが高すぎると、拒絶の比率が不自然なほどに高くなり、正しい認識精度が実
現することが妨げられる。A/Rサービス24は、信頼性分布をモニタし、適切
なスレショルドを実現させて正しい認識の精度が実現されるのに役立つように、
スレショルドを設定することができる。A/Rは、また、スタッフ(perso
nnel)に対する信頼性スコアと拒絶比率とを示すアラーム、又は、それに関
するそれ以外の標識を生じることができる。 A/Rサービス24は、また、あいまいさ除去のコンフィギュレーション問題
の標識を提供することができる。アラームは、発呼者12へのあいまいさ除去プ
ロンプトが発呼者12が探している情報を区別する際に役立たない場合に、発生
される。例えば、あいまいさ除去プロンプトが発呼者12に探している人間の部
署を示すように求めているが、発呼者12は探している人間がどの部署ではたら
いているのかを決定できない場合には、この失敗に関する指示(応答期間の満了
など)が記録される。また、あいまいさ除去の結果誤った人間が識別されてしま
った場合にも、その指示が記憶され報告される。反復的な失敗の報告は、適切で
ないあいまいさ除去情報が人間に提供されていることを検出するのに役立つ。 A/Rサービス24は、セキュリティが維持されているHTTP転送やSMT
Pメールなどのような安全な通信を介して、発呼者による記録された発話、イベ
ント・ログ、それ以外のログ、統計などを表すデータを受け取ることができる。
記憶された発話とSLEEログとは、A/Rサービス24が認識、チューニング
、モニタリングの際に用いることができる。IVR16は、記録された発話を表
すデータとSLEEログとを周期的にA/Rサービス24に送るように構成され
ている。 A/Rサービス24は、また、エンジン・システム30に含まれている認識器
302のパフォーマンスをモニタすることができる。例えば、A/Rサービス2
4は、オフラインでの、既知のテスト・シーケンスを用いた認識テストを実行す
ることができる。 A/Rサービス24は、また、管理システム32において情報を更新するよう
に構成されている。A/Rサービス24は、語の発音を追加及び削除の両方が可
能であり、氏名又は語を語彙に追加することができる。また、A/Rサービス2
4は、IVR16において用いられるBackus−Naur形式(BNF)の
文法を修正することができる。これは、「マイク・フィリップス、お願いします
」のような発話の処理に役立つ。サービス24は、また、音響モデル、認識器パ
ラメータ、意味論的モデル(例えば、氏名の前の確率)を追加又は更新すること
もできる。ランタイム・システムのアップグレード及び更新は、サービス24に
よる実行が可能である。また、A/Rサービス24は、インターフェース40を
介しての波形及びコンフィギュレーション・ロギングの量を制御するように構成
されている。この制御には、波形ロギングをオン及びオフに切り換えること、波
形のサンプリングのロギングからすべての波形のロギングへ、更には、エラー波
形だけのロギングへのスイッチングが含まれる。 A/Rサービス24は、IVRシステム16のモニタリングから生じる様々な
アラーム及びアラートに基づく適切なサポート・アクションを行うように構成さ
れている。A/Rサービス24は、悪い通信回線を一定のビジー状態とするよう
に構成されている。A/Rサービス24は、また、IVRシステム16の一部を
再開し、デバッギングのために長いファイルを収集し、コンフィギュレーション
・ファイル・パッチを損傷を受けたコンフィギュレーション・ファイルの中に挿
入することができる。 図4を参照すると、A/Rサービス24は、複数の分散型のIVRシステムに
サービスを与えるように構成されている。示されているように、A/Rサービス
24は、IVRシステム120、122、124だけではなく、インターネット
22を介して、SMTPサーバ18とファイアウォール20とを通じて、IVR
システム16にサービスを与えることができる。システム120、122、12
4は、個別の会社において異なったコンフィギュレーションを有することが可能
である。A/Rサービス24は、インターネット22とファイアウォール126
とSMTPサーバ128とを介してIVRシステム120、122、124にサ
ービスを与える。従って、示されているように、A/Rサービス24は、複数の
SMTPサーバ18、128を介して複数のIVRシステム16、120、12
2、124にサービスを与えることができ、また、1つのSMTPサーバ128
を介して、複数のIVRシステム120,122、124にサービスを与えるこ
ともできる。IVRシステム16、120、122、124は、相互に地理的に
離れて分散させることが可能である。 電子メールやSNMPトラップなどのアラームを、A/Rサービス24によっ
て、SWIや、IVR16の別のベンダや、それ以外の主体などの主体(ent
ity)に送って、潜在的な呈のためのアクションのための解析に用いることが
できる。A/Rサービス24は、パフォーマンスがモニタされている統計の予測
される行動から所定の量よりも多く(例えば、頻度又は量などの予測値)逸脱す
るときに、アラームを送ることができる。A/Rサービス24には、アラーム及
びアラート又はA/Rサービス24によるそれ以外の告知に従って、記憶されて
いる発呼者の発話を筆記する筆記者を含む、コンフィギュレーションを決定する
主体が含まれる。コンフィギュレーションを決定する主体における人間は、筆記
された発話を検討し、これらの発話を語彙と比較し、又は、そうでない場合には
、筆記された発話を解析してもし存在するのであれば適切な訂正のためのアクシ
ョンを決定するために、提供されている。そのようなアクションには、RCS3
6を用いてIVR16を適応/再構成し、例えば、OOVを低下させ、発音又は
それ以外の情報を更新し、及び/又は、IVR16に記憶されている情報を訂正
することが含まれる。コンフィギュレーション及びセットアップ システムがどのように構成され設定されるかは、顧客によって選択されるシス
テムのタイプに依存する。顧客は、ベース・プラットフォーム及びコンフィギュ
レーション・ツール、又は、構成可能なモデルの集合を選択することができる。
顧客は、ベース・プラットフォームとツールとを選択する場合には、コンフィギ
ュレーション/カスタマイゼーション・データを、例えば、スピーチワークス(
登録商標)インターナショナルのようなベンダ及び/又はコンフィギュレーショ
ンの主体に提供することができ、それによって、コンフィギュレーションの主体
は、システム10を構築することができる。 顧客は、ベース・プラットフォームとツールとを選択する場合には、希望する
機能に対するデータと任意のカスタマイゼーション・パラメータとを入力する。
顧客は、データベースのダウンロード又は個別のエントリのいずれかを介して、
個人名、ニックネーム、部署、内線番号などの自動アテンダントのための関連情
報を、職務上のタイトル/地位などの適切な類義語に加えて、入力することが必
要となる。更に、顧客は、スピーチ・ページのコンテンツのための情報と、他の
ページへの任意のリンクのための命令と、スピーチ・ページによってサポートさ
れるべきトランザクションのための命令とを提供する。コンテンツと機能との多
くは、トランザクションのためのものを含めて、ベース・プラットフォームにお
いて提供されるが、顧客は、カスタマイズされたデータ及び命令を供給すること
が必要となるうる。顧客は、コンフィギュレーション・パラメータを選択して、
システムのパフォーマンスをカスタマイズする。これは、例えば、時度アテンダ
ントに対してあいまいさの除去が可能かどうかなどである。別の例としては、イ
ベント登録ツールのために、顧客は、日付、イベント・タイトル、近づいてきた
イベントの登録をするために発呼者から必要とされる情報に対するプロンプトな
どを記録することになる。顧客は、同様にして、必要に応じて、当初のコンフィ
ギュレーション/セットアップを修正/更新して、最新のイベント、スタッフの
増減、氏名の変更、イベントの遅延又はそれ以外の変更などの情報の変化に対応
することができる。 顧客は、ベンダ又はそれ以外の主体によるコンフィギュレーションのためにコ
ンフィギュレーションを決定することができるモデルの集合を選択する場合には
、関連の情報を、スピーチワークス(登録商標)インターナショナルなど、コン
フィギュレーションを決定する主体に提供する。顧客は、スピーチ・ページのた
めのコンテンツ情報と、上述した自動アテンダントのための関連する個人ディレ
クトリ情報と、コンフィギュレーション・パラメータのための希望するオプショ
ンとを提供する。コンフィギュレーションを決定する主体は、この情報とその専
門知識とを用いて、当該顧客のために、システムのコンフィギュレーションを決
定する。更に、コンフィギュレーション決定主体(configuring e
ntity)は、顧客の必要に応じて、当初のコンフィギュレーション/セット
アップの後で、コンフィギュレーション/セットアップを更新する。 顧客又はそれ以外の主体がコンフィギュレーションを実行するかどうかとは関
係なく、コンフィギュレーション・ファイルは、管理システム32によって書き
込まれ、及び/又は、修正され、実行のためにエンジン・システム30によって
読み出される。動作 動作においては、IVR16は、発呼者12によって指示される動作を実行す
ることを含むウェブ・モデルの音声認識プロセスを介して発呼者12を導くユー
ザ・インターフェースに従って、発呼者12と相互作用する。このウェブ・モデ
ルによると、発呼者12は、通常、まず、(発呼者12が別のスピーチ・ページ
に直接アクセスしない限り)ホーム・スピーチ・ページが提供される。このホー
ム・スピーチ・ページは、発呼者12に様々なオプションを与える。発呼者12
は、特定された語/フレーズの任意のものを話すことにより、又は、発呼者12
がどのような情報及び/又はサービスを希望するかを自然言語の態様で話すこと
によって、与えられているオプションの中から選択することができる。典型的な
ウェブ・サイトに類似する用語が用いられて、発呼者12が、適切な発話を生じ
させることにより様々なスピーチ・ページの中を行き来(ナビゲート)すること
が、助けられる。発呼者12によるそれぞれの発話に対して、システムがそのよ
うに構成されている場合には、認識のあいまいさ除去及び/又は再試行を実行す
ることができる。IVRシステム16と発呼者12との間の会話のそれぞれの段
階において、発呼者12は、どのページがロードされているのかを告知され(例
えば、コンタクト・アスのページがロードされている)、そのスピーチ・ページ
のロードが終了すると、発呼者12に提供される情報に対するタイトル・ページ
は何であるか(例えば、コンタクト・アスのページです。トール・フリーの電話
をかけるには…、など)が告知される。A/Rサービス24は、IVRシステム
16と発呼者12との間の会話に関する情報を解析しモニタして、顧客及び/又
はコンフィギュレーションを与えている法人(例えば、スピーチワークス(登録
商標)インターナショナル)によってシステム10への更新が保証されているの
かどうかを判断するのに用いられる適切なレポート、アラート及び/又はアラー
ムが提供される。 図1、2及び5を参照すると、双方向的な会話システム200は、発呼者12
がIVRシステム16と関連付けられた電話番号をダイアルするステージ202
で開始する。発呼者12は、PSTN14を介して発呼者の電話26からIVR
システム16に接続される。接続は、IVRシステム16と発呼者12との間に
、PSTN14を介して、発呼者12とIVRシステム16との間の双方向通信
のために確立される。 ステージ204では、IVRシステム16は、ユーザ12に向かってプロンプ
トを再生し、ユーザ12がスピーチサイト(SpeechSite、登録商標)
IVRシステム16のホームページに到達したことを示す。例えば、「ホームペ
ージ」とか「あなたは、x社のスピーチサイト(登録商標)音声認識システムの
ホームページに到着しました」などというプロンプトが、発呼者12に向かって
再生される。あるいは、ユーザ12がホームページではない特定のスピーチ・ペ
ージと関連する番号をダイアルした場合には、そのダイアルされたページの情報
が発呼者12に向かって促される/再生されるようにすることもできる。発呼者
12に与えられる情報は、ユーザ12が他のどのページアクセスできるのかに関
する様々な情報、及び/又は、そのホームページに含まれる一般的な情報を含む
。プロンプトは、発呼者12に、スピーチサイト(登録商標)IVRシステムの
音声モジュールに関して告知することができる。この例では、プロンプトには、
「あなたは、『会社ディレクトリ』ということによって個人ディレクトリにリン
クすることができる、『コンタクト・アス』ということによって私たちへのコン
タクトの仕方を見つけることができる、『会社情報』ということによってこの会
社に関して知ることができる、『トランザクションx』を実行するには、『トラ
ンザクションx』といってください」などが含まれる。トランザクションは、例
えば、株式やそれ以外の商品を購入することでありうる。このように、『トラン
ザクションxを実行』と『トランザクションx』とは、共に、この例では、「株
式の購入」を意味しうる。従って、プロンプトは、発呼者12に、会社ディレク
トリ(自動アテンダント)と情報検索(コンタクト・アス及び会社情報)とトラ
ンザクション処理とを通じてのコール・ルーティングをどのように開始するかに
関する指示を与える。この情報には、また、発呼者12に与えられた様々なスピ
ーチ・ページを介してどのようにナビゲートするかに関する命令を含む。また、
これには、「見つけてください」、「ファックスして下さい」、「ここはどこで
すか」など他の機能に加えて、「戻る」、「進む」、「ホーム」などウェブ・サ
イトと類似の機能と関連する用語を話すことによって、発呼者12がスピーチサ
イト(登録商標)IVRシステムをナビゲートできることが含まれる。 ステージ206では、発呼者12は、電話26に話しかけ、音声208を提供
してスピーチ・ページの中をナビゲートする。音声208は、特定の音声ページ
をリクエストするなどIVRシステム16によって再生されたプロンプトに応答
するものであるか、又は、情報又はそれ以外のアクションに対する自然言語での
リクエストでもありうる。音声208は、音声に関係する情報を表すが、必ずし
も、アナログ又はデジタル音声発話とは限らない。例えば、音声208は、認識
器302によって出力として発生されたN個の最良の語ストリングの組を表す場
合もある。 ステージ210では、エンジン・システム30は、入手可能なサブプロセスを
区別することにより、どのサブプロセスが音声208によって示されるリクエス
トを処理するのに適切なものであるかを判断する。サブプロセス(それぞれは、
1又は複数の音声モジュールを含みうる)を区別するために、エンジン・システ
ム30は、音声208を発呼者12に与えられたサブプロセスのタイトル、及び
/又は、それぞれが少なくとも1つの入手可能なサブプロセスと関連している複
数の語彙とを比較する。後者の場合には、語彙は、発呼者12に提供されたタイ
トルの類義語を含む。例えば、発呼者12が「ボストンへの方向」という場合に
は、プロセス200は、コンタクト・アス・ページからのコール情報の検索のた
めに、ステージ214へ進む。音声208がサブプロセスのタイトルと一致する
場合(例えば、音声208が「会社情報」である場合)には、エンジン・システ
ム30は、適切な対応するサブプロセスに、ステージ212ではコール・ルーテ
ィングのために、ステージ214では情報検索のために、及び/又は、ステージ
216ではトランザクション処理のために、音声208を処理するように命令す
る。 これら様々なサブプロセス212、214、216は、以下でより詳細に説明
されるように、音声208を処理する。適切なプロンプトが発呼者12に向かっ
て再生され、発呼者12がどのサブプロセスに向かって方向付けられているかを
示す。例えば、エンジン・システム30は、発呼者12がコール・ルーティング
のサブプロセス212にルーティングされている場合には、「会社ディレクトリ
・ページに転送中」(又は、「個人ディレクトリ・ページに転送中」又は「コー
ル・ルーティング・ページに転送中」)というプロンプトを再生する。発呼者1
2がこれらのサブプロセス214又は216にそれぞれ転送されている場合には
、「情報検索ページに転送中」及び「トランザクション処理ページに転送中」と
いうプロンプトが発呼者12に向かって再生される。この例では、「コンタクト
・アス」又は「会社情報」が「情報検索」に代わり、「株式購入」が「トランザ
クション処理」に代わる。あるいは、又は、以上に加えて、プロンプトが発呼者
12に向かって再生され、適切なページがロードされている、例えば、「会社デ
ィレクトリ・ページがロードされている」ことを示す。 サブプロセス212、214、216は、発呼者12と相互作用して、情報を
提供する、音声208に適切なアクションを実行する、発呼者12からの更なる
音声など、特定の応答又はアクションが決定される。 ステージ218では、エンジン・システム30は、サブプロセス212、21
4、216によって決定されるように、適切な応答を提供する、又は、適切なア
クションを実行する。 図1、3、5及び6を参照すると、コール・ルーティング・プロセス212の
ステージ220では、発呼者12に、コール・ルーティング・ページが提供され
る。エンジン・システム30は、発呼者12に向けてプロンプトを再生し、その
コール・ルーティング・ページと関連する情報とそのコール・ルーティング・ペ
ージ220から他のページへのリンクとを指示する。エンジン・システム30は
、個人ディレクトリ・プロンプトを再生して、発呼者12に、発呼者12が話す
ことを希望している人間の部署の名称をいわせる。IVRシステム16は、発呼
者12の音声を、プロンプトに応答して受け取る。 ステージ222では、エンジン・システム30は、コール・ルーティング語彙
をコンフィギュレーション及びログ・システム34から受け取る。この情報は、
ステージ220の前、後又はその最中に得ることができる。この例でのコール・
ルーティング語彙は、個人ディレクトリに関係するデータを含む。しかし、航空
機フライト・スケジューリング・システムに関係する情報など、他の例に対して
は、他の情報も可能である。 ステージ224では、エンジン・システム30は、発呼者12からの意図され
た語/フレーズにおそらく対応するN個の語ストリングを決定する。これらのN
個の最良の語ストリング(N個の最良のリスト)は、エンジン・システム30に
よって、ステージ222で得られたコール・ルーティング語彙と比較される。例
えば、N個の最良のリストにおける最高の信頼性の語ストリングの信頼性スコア
が上側のスレショルドを超える場合には、その語は、認識され承認されたと考え
られる。信頼性スコアが下側のスレショルドよりも低く、信頼性が低い語ストリ
ングは、拒絶される。信頼性スコアが上側のスレショルドと下側のスレショルド
との間にあるような語ストリングは、複数の語ストリングに対する信頼性スコア
が上側のスレショルドを超える場合と同じように、あいまいさ除去のための待ち
行列に加わる。 発呼者12によって話された語ストリングを一意的に識別することを助けるた
めに、ステージ225において、必要な場合には、あいまいさ除去がエンジン・
システム30によって実行される。例えば、発呼者12によって発せられた氏名
を有する従業員が2人いる場合には、エンジン・システム30は、発呼者12に
希望する従業員の部署を識別させることによって、その2人の間の区別をしよう
とする。エンジン・システム30は、このようにして、発呼者12に、「あなた
がコンタクトしようとしている人の部署の名称を言って下さい」と促す。あいま
いさを除去するためのプロンプトに対する発呼者12の応答に応じて、エンジン
・システム30は、発呼者12によって発せられた語ストリングとして、N個の
最良の語ストリングの中から1つを選択する。 ステージ226では、エンジン・システム30は、ステージ224における音
声とコール・ルーティング語彙との比較に従って、適切なアクションを決定する
。この区別の結果として、コールが、識別された人間へのにルーティングや、リ
クエストされたアクションの実行が生じることが可能になる。 ステージ228では、発呼者12のコールが、発呼者12の音声によって識別
される人間にルーティングされる。エンジン・システム30は、ステージ226
で発呼者12がコンタクトを希望している人間として及び希望の人間として識別
された人間と関連する内線番号などのコール・ルーティング情報を用いる。例え
ば、音声が「ジョン・ドウ」であった場合には、発呼者12はジョン・ドウの内
線番号にルーティングされるか、又は、別のスピーチ・ページやオペレータにル
ーティングされる。また、例えば、音声が「フライト・スケジュール」であった
場合には、発呼者12は、フライト・スケジューリングのオペレータにルーティ
ングされる。 ステージ230では、エンジン・システム30は、情報を再生又はファックス
するなどの音声によって指示されるように、コール・ルーティング以外のアクシ
ョンを実行する。以下の説明では、会社情報ページから情報を取得する例につい
て述べる。これは、限定を意味する例ではなく、情報をそこから検索する他のペ
ージを含め、検索される情報に関する他の可能な場合も、本発明の範囲に含まれ
る。ステージ232では、情報検索ページが発呼者12に提供される。エンジン
・システム30は、「会社情報ページをロード中」を再生し、このページのロー
ドが完了したときには、追加的なプロンプトである「会社情報ページ」が再生さ
れる。これらのプロンプトの後には、エンジン・システム30は、他の音声ペー
ジへのリンクや、一般的な会社情報など、会社情報ページに関する情報を示すプ
ロンプトが再生される。この一般的な情報は、会社の技術や会社の製品及び/又
はサービスを含む、会社の一般的な性質を含み得る。 ステージ234では、エンジン・システム30は、発呼者の音声を認識する際
に用いるための情報検索語彙を取得する。エンジン・システム30は、この情報
をコンフィギュレーション及びログ・システム34から取得する。この情報は、
会社情報ページと会社情報ページからのリンクとして識別されるページとの上に
含まれる情報に基づいている。エンジン・システム30は、「あなたは、ページ
の名称を言うことによって、以下の「社史」、「ニュース及びプレス・リリース
」又は「最新のイベント」の情報を有するページにリンクすることができる」と
いうようなプロンプトを再生する。 ステージ236では、エンジン・システム30は、発呼者が発した応答に対す
るN個の最良の語ストリングを、情報検索語彙に一致させる。エンジン・システ
ム30は、発呼者12が言ったことを表す可能性がある複数の語ストリングを生
じさせる。これらの語ストリングの中からN個の最良のものが、情報検索語彙と
エンジン・システム30によって比較され語ストリングの中のどれを発呼者12
が言ったのかを判断するために、選択される。 発呼者12が言った語ストリングを一意的に識別するのを助けるために、ステ
ージ238では、あいまいさ除去が、エンジン・システム30によって実行され
る。エンジン・システム30は、「あなたは、「社史」と言ったのであって「最
新イベント」と言ったのではないと思いますが、正しいですか」などの適切なプ
ロンプトを、発呼者12に対して再生することができる。発呼者の応答に応じて
、エンジン・システム30は、N個の最良の語ストリングの中から、発呼者12
によって発せられた語ストリングとして、1つを選択する。 ステージ240では、エンジン・システム30は、発呼者12によってリクエ
ストされたリソースを検索する。ステージ236又は238で決定された一意的
に識別された語ストリングに応答して、エンジン・システム30は、識別された
語ストリングからの情報を用いて、コンフィギュレーション及びログ・システム
34にアクセスし、発呼者のリクエストと関連する情報を検索する。例えば、発
呼者12が上のあいまいさ除去のための質問に「はい」と答えた場合には、エン
ジン・システム30は、コンフィギュレーション及びログ・システム34に記憶
されている社史スピーチ・ページなど、社史に関係する情報を検索するであろう
。音声エンジン30は、「社史のページをロード中」というプロンプトを再生す
る。 ステージ242では、エンジン・システム30は、リクエストされたリソース
を発呼者12に配送する。この例では、エンジン・システム30は、発呼者12
に、社史のページの関連する情報を与える。例えば、プロンプトは、「社史のペ
ージです。あなたは、以下のスピーチ・ページにアクセスすることができます」
のようなものとなるであろう。 図1、3、5及び8を参照すると、トランザクション処理プロセス316が、
図8に示されている。以下の説明では、航空機フライトの予約の例を用いること
にする。これは限定を意図するものではなく、製品や商品を購入することを含む
ありうる処理すべきトランザクションも、本発明の範囲に含まれる。ステージ2
44では、フライト予約ページが発呼者12に提示されている。エンジン・シス
テム30は、「フライト予約ページをロード中」というプロンプトを再生し、こ
のページのロードが終了すると、追加的なプロンプトである「フライト予約ペー
ジ」が再生される。これらのプロンプトの後では、エンジン・システム30は、
他のスピーチ・ページへのリンクや、含まれている一般的なフライト予約情報な
ふぉ、フライト予約ページに関する情報を示すプロンプトを再生する。この一般
的な情報は、運賃、飛行中でのサービス、及び/又は、チェックイン時間や荷物
制限などの旅行手順に関する情報を含みうる。ステージ246では、エンジン・
システム30は、発呼者の音声を認識する際に用いられるフライト予約語彙を取
得する。エンジン・システム30は、この情報を、コンフィギュレーション及び
ログ・システム34から取得する。この情報は、会社のフライト予約ページや会
社情報ページからのリンクとして識別されるページの上に含まれる情報に基づい
ている。エンジン・システム30は、「あなたは、ページ名を言うことによって
、「国内線」又は「国際線」などの情報を有するページにリンクすることができ
ます」というようなプロンプトを再生する。 ステージ248では、エンジン・システム30は、N個の最良の語ストリング
を、フライト予約語彙に一致させる。エンジン・システム30は、発呼者12が
言ったことを表す可能性がある複数の語ストリングを生じさせる。これらの語ス
トリングの中からN個の最良のものが、フライト予約語彙と比較され、語ストリ
ングの中のどれを発呼者12が言ったのかを判断するために、選択される。 発呼者12が言った語ストリングを一意的に識別するのを助けるために、ステ
ージ250では、あいまいさ除去が、エンジン・システム30によって実行され
る。エンジン・システム30は、「もしあなたが「ノースウェスト」と言った場
合には「1」と言って下さい。もしあなたが「サウスウェスト」と言った場合に
は「2」と言って下さい。それ以外の場合には、「どちらでもない」と言って下
さい」というような適切なプロンプトを、発呼者12に対して再生することがで
きる。発呼者の応答に応じて、エンジン・システム30は、N個の最良の語スト
リングの中から、発呼者12によって発せられた語ストリングとして、1つを選
択する。 ステージ252では、エンジン・システム30は、発呼者12によるリクエス
トが識別されたことに応答して、1又は複数のトランザクション・リクエストを
作成する。ステージ248及びおそらくは250で決定された一意的に識別され
た語ストリングに応答して、エンジン・システム30は、識別された語ストリン
グからの情報を用いてコンフィギュレーション及びログ・システム34にアクセ
スし、発呼者のリクエストと関連するトランザクションに対する情報を検索する
。トランザクション・リクエストは、リクエストされたトランザクションを開始
するか、又は、適切なハードウェア及び/又はソフトウェアに、リクエストされ
たトランザクションを実行するように命令する。トランザクション・リクエスト
は、コンフィギュレーション及びログ・システム34における記憶装置から検索
することができ、及び/又は、変数に対する値をコンフィギュレーション及びロ
グ・システム34から検索された情報に挿入することによって、あるいは、カス
タムで作られたリクエストを完全に作成することによって、カスタマイズするこ
とができる。例えば、発呼者12が上述のあいまいさ除去のための質問に「1」
と答えた場合には、エンジン・システム30は、「ワシントンDCからデトロイ
ト行きの、3月1日午前8次出発し、帰りは3月2日午後10時に出発のラウン
ド・トリップ・フライトを予約して下さい」というような、ノースウェスト航空
に関するトランザクション・リクエストを作成することになる。 ステージ254では、エンジン・システム30は、トランザクション・リクエ
ストをエンジン・システム30の適切な部分か、又は、ノースウェスト航空のウ
ェブ・サイト・サーバなどの他の適切な場所に、送る。この例では、エンジン・
システム30は、トランザクション・リクエストに従って、トランザクションを
実行する。あるいは、この実行は、株式の注文を送信するとか、ファックス・サ
ーバを介して情報を発呼者のファックス・マシン28にファックスするようにと
のリクエストを送信するとかのアクションを、発呼者のリクエストに応じて、含
みうる。 ステージ258では、エンジン・システム30は、実行されたトランザクショ
ンへの応答を作成する。ここでは、応答は、リクエストされたフライトの予約又
は航空券購入が成功したのか失敗だったのかを示し、成功であれば、フライト番
号、時刻、座席、運賃などの関係情報を示す。あるいは、応答は、株式の売買又
は購入価格や、発呼者12へ情報をファックスすることの成功又は失敗を、その
ようなトランザクションがリクエストされた場合には、示しうる。 ステージ260では、エンジン・システム30は、「あなたは、ワシントンD
Cを3月1日の午前8時12分に出発し、午前10時48分にデトロイトに到着
する123便と、3月3日に、デトロイトを午後9次47分に出発し、ワシント
ンDCに午前12時13分に到着する456便との予約をなさいました」とか、
例えば、「リクエストされた情報は、617−555−1212にファックスさ
れました」というようなプロンプトを再生することができる。 発呼者12は、トランザクション処理ページ244に戻り、それによって、発
呼者12は、希望するのであれば、別のトランザクションを開始することができ
る。ステージ272では、発呼者12は、システム10の他の部分と双方向的な
会話を行う。この会話からのデータは、発呼者12による発話及び/又はシステ
ムが行ったアクションは、記憶される/ログが取られる。この記憶/ロギングは
、会話の最中又はその後で生じうる。 ステージ274では、双方向的な会話からの記憶されているデータが、モニタ
され、及び/又は、報告される。この報告は、アラーム又はアラートの形式をと
ることができ、あるいは、データを解析のために組織化する正式の報告の形式で
ある場合もある。アラームは、システムにおけるエラーの潜在的な原因を強調す
ることができるし、又は、少なくとも、システム10の改善の余地を強調するこ
とができる。報告は、システム10のパフォーマンスを示すことができる。報告
されたパフォーマンスの特性は、特に、システム10の訂正可能な機能の解析を
容易にするのに役立つように構成される。パフォーマンス特性は、また、IVR
顧客へのパフォーマンス報告を容易にし、顧客の購入がどのようにうまくいって
いるかを示すように構成されている。 ステージ276では、モニタされた/報告されたデータが解析される。コンフ
ィギュレーションを行う側の組織における人間や、それ以外の解析主体が、関心
対象であるパフォーマンス特性/統計に関する報告及び/又はアラームを検討す
る。例えば、人々は、この特性を解析して、あまりに多くのコールが誤って従業
員にルーティングされているかどうかや、あるいは、あまりに多くのコールがオ
ペレータにルーティングされている又は切断されていることを判断することがで
きる。人々は、また、誤って結果的に発呼者12がOOV発話を決定する認識語
彙を有する従業員に接続される転写された発話を比較することができる。ステー
ジ276では、広範囲の解析を実行することができ、上述したのは、その中のい
くつかの例である。 ステージ276での解析から、人々は、もしあれば、どのような訂正のための
アクションを行うことができるのか、及び/又は、行わなければならないのかを
判断することができる。例えば、認識語彙に別の発音を追加すべきであるとか、
人の氏名又はトランザクションのタイトルが誤って適切な認識語彙に追加されず
、OOVを低下させたなどと、判断することができる。また、例えば誤って方向
が決定されるコールの頻度を低下させるためには、あいまいさ除去機能を双方向
的な会話プロセス200の1又は複数の部分に追加すべきであると、判断するこ
とができる。訂正のためのアクションとは、RCS36を用いて、IVR16の
情報、プロンプト、リンク、コンフィギュレーション・パラメータなどを追加、
削除又は変更し、システム10の動作の向上に役立てることである。ステージ2
76で決定された訂正のためのアクションは、ステージ278で行われる。 これ以外の実施例も、冒頭の特許請求の範囲の範囲及び精神に含まれる。例え
ば、A/Rサービス24や、又は、その1又は複数の部分は、IVRシステム1
6の位置に、又は、その中に提供することができる。また、システム10の一部
が、上述したものとは異なるコンフィギュレーションを有することも可能である
。例えば、アーティソフト(登録商標)5.0のビジュアル・ボイス・エンター
プライズ以外の環境を用いることもできる。 また、パフォーマンス・データを解析する異なるプロセスも可能である。例え
ば、同じ発話のOOVを生じさせる頻度を解析するのと同時に、それよりも一般
的でないOOV発話を無視することもできる。類似の機能を有するOOV発話は
、1人の人間だけがグループからの十分な発話を聴いてOOV発話を識別するよ
うに、グループ分けすることができる。これは、すべての認識機能から、すなわ
ち、信頼性の低い認識から発話波形(ユーロー(ulaw)の形式で)を収集す
ることによって、達成することができる。それぞれのユーローは、標準的な認識
器のフロントエンドを用いて、一連の特徴ベクトル(例えば、MeI周波数サー
スマル(cersmal)係数(MFCC))に変換することができる。MFC
Cベクトルは、音声の各フレーム(1ms)ごとに作成される。類似の発話は、
特徴ベクトルの動的なアライメント又はk手段などのクラスタリング技術を用い
て、クラスタとしてまとめることができる。各クラスタは、OOVの例示的な発
話の集合にいくらかのノイズを加えたものを表している。人間である筆記者は、
クラスタからの数個の発話を聴いて、そのクラスタからの基本的なOOVを決定
することができる。クラスタリングによって、筆記者はOOVを識別するために
すべての発話を聴くことを回避することができる。 更に、発話を筆記する自動的な技術を用いることができる。人間によって筆記
を行う代わりに、例えば、音声的な表現を生じる電話ループ認識器によって、筆
記を行うことができる。発話の各クラスタからの数個の発話を、このようにして
筆記することができる。音声的な表現は、音声的な辞書の中に相互参照すること
ができるし、又は、人間に送りOOV発話を確認することもできる。OOV発話
は、訂正のためのアクションを考慮するためにフラグを立てておくことができる
。あるいは、発話を、大きな辞書(例えば、名前の)と比較することもできる。
【図面の簡単な説明】
【図1】 本発明による音声システムの簡略化されたブロック図である。
【図2】 ネットワーク・リンクを介してサーバに接続されているコンピュータ・システ
ムの簡略化されたブロック図である。
【図3】 図1に示されているIVRシステム、アナログ回線、SMTPサーバ及びファ
ックス・サーバの簡略化されたブロック図である。
【図4】 複数のIVRシステムに接続された解析/報告サービスの簡略化されたブロッ
ク図である。
【図5】 本発明による対話型音声プロセスの簡略化されたブロック流れ図である。
【図6】 図5に示されているコール・ルーティング・プロセスの流れ図である。
【図7】 図5に示されている情報検索プロセスの流れ図である。
【図8】 図5に示されているトランザクション処理プロセスの流れ図である。
【図9】 対話型の会話を報告し解析するプロセスの流れ図である。
【図10】 図3に示されているエンジン・システムの簡略化されたブロック図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 3/50 G10L 3/00 571U 561D (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,UZ,VN,YU, ZA,ZW (72)発明者 バン・デニュート,エリック アメリカ合衆国マサチューセッツ州02114 −3508,ボストン,グロウブ・ストリート 32 (72)発明者 パターソン,ステュアート・アール アメリカ合衆国マサチューセッツ州02043, ヒンガム,バーディット・アベニュー 66 (72)発明者 スプリンガー,ステファン・アール アメリカ合衆国マサチューセッツ州02492, ニーダム,ウェブスター・ストリート 820 (72)発明者 コテリー,クリストファー アメリカ合衆国マサチューセッツ州02174, アーリントン,グレイ・ストリート 235 Fターム(参考) 5D015 KK02 LL02 LL05 LL06 5K015 AA06 AA07 AB02 AF09 GA07 5K024 AA74 AA75 AA76 BB01 BB02 CC01 DD01 EE09 FF06 GG01 GG03 5K051 BB01 CC01 CC02 DD01 EE01 EE02 GG03 HH27 JJ07

Claims (53)

    【特許請求の範囲】
  1. 【請求項1】 対話型音声システムであって、 ユーザからのコールを受け取りこのシステムと前記ユーザとの間の通信リンク
    を提供するように構成されたポートと、 個人ディレクトリ情報が記憶されているメモリであって、前記個人ディレクト
    リ情報は、複数の人間の標識と、それぞれの人間と関連付けられており前記コー
    ルを前記複数の人間の中の選択された1人にルーティングするのに用いられるル
    ーティング情報とを含み、更に、この対話型音声システムと関連付けられた会社
    と関連付けられた会社情報が記憶されているメモリと、 前記ポートと前記メモリとに結合されており、第1のオーディオ情報を前記ポ
    ートまで搬送して前記ユーザにこのシステムに向けて話しかけるように促し、前
    記ユーザからの音声を前記ポートを介して受け取り、前記ユーザからの音声を認
    識し、認識されたユーザの音声に基づいてアクションを実行し、第2のオーディ
    オ情報を前記メモリに記録されている前記会社情報に従って前記ポートまで搬送
    するように構成された音声要素と、 を備えていることを特徴とする対話型音声システム。
  2. 【請求項2】 請求項1記載のシステムにおいて、前記音声要素は、音声を
    少なくとも部分的にウェブ類似のフォーマットで搬送するように構成されている
    ことを特徴とするシステム。
  3. 【請求項3】 請求項2記載のシステムにおいて、前記音声要素は、前記音
    声要素によって認識されたユーザからのリクエストに応答して前記メモリに記憶
    されている情報を前記リクエストに従って提供し、前記コールを前記ユーザのリ
    クエストによって指示される人間に前記人間と関連付けられたルーティング情報
    に従ってルーティングするように構成されていることを特徴とするシステム。
  4. 【請求項4】 請求項3記載のシステムにおいて、前記メモリに記憶されて
    いる会社情報の一部は、前記会社にどのようにコンタクトすべきかを含む複数の
    カテゴリの情報に従って、情報のページにおいて相互に関連付けられていること
    を特徴とするシステム。
  5. 【請求項5】 請求項4記載のシステムにおいて、前記音声要素は、前記ユ
    ーザの音声が前記音声要素によって最も近い時点でアクセスされたページの情報
    に基づく語彙の範囲にある場合には、前記ユーザの音声に対して作用するように
    構成されていることを特徴とするシステム。
  6. 【請求項6】 請求項4記載のシステムにおいて、前記複数のカテゴリの情
    報は、前記会社の位置と、もしある場合には前記会社によって提供される製品と
    、もしある場合には前記会社によって提供されるサービスとに関する情報を含む
    ことを特徴とするシステム。
  7. 【請求項7】 請求項4記載のシステムにおいて、前記メモリに記憶されて
    いる会社情報は、前記会社のウェブサイト上で入手可能な情報を含むことを特徴
    とするシステム。
  8. 【請求項8】 請求項7記載のシステムにおいて、前記メモリと前記音声要
    素とは、前記会社のウェブサイト上に提供されている会社情報の組織とは異なる
    組織と共に、前記ユーザまで搬送されるように構成されていることを特徴とする
    システム。
  9. 【請求項9】 請求項4記載のシステムにおいて、前記音声要素は、ウェブ
    ・ブラウザによって一般的に提供される機能と関連付けられた前記ユーザからの
    口頭のコマンドに応答して情報のページにアクセスするように構成されているこ
    とを特徴とするシステム。
  10. 【請求項10】 請求項9記載のシステムにおいて、前記コマンドは、「戻
    る」と「進む」と「ホーム」とを含むことを特徴とするシステム。
  11. 【請求項11】 請求項1記載のシステムにおいて、前記音声要素は、前記
    ユーザの音声によって指示されたトランザクションを実行するように構成されて
    いることを特徴とするシステム。
  12. 【請求項12】 請求項1記載のシステムにおいて、前記音声要素の活動と
    前記ユーザからの対応する入来音声とをモニタするように構成されている音声ア
    プリケーション・モニタを更に備えていることを特徴とするシステム。
  13. 【請求項13】 請求項12記載のシステムにおいて、前記音声要素は、ユ
    ーザの音声と、前記ユーザの音声が認識されたものとして承認されたかどうかと
    、もしある場合には前記音声要素が行ったアクションと、ユーザの音声が所定の
    スレショルドよりも低い信頼を有するかどうかとの中の少なくとも1つを示す会
    話データを前記メモリに記憶するように構成されており、前記音声アプリケーシ
    ョン・モニタは、前記音声要素によって記憶された会話データの標識を報告する
    ように構成されていることを特徴とするシステム。
  14. 【請求項14】 請求項12記載のシステムにおいて、前記音声アプリケー
    ション・モニタは、インターネットを介して前記メモリと結合されていることを
    特徴とするシステム。
  15. 【請求項15】 請求項1記載のシステムにおいて、前記音声要素は、前記
    ユーザの音声のあいまいさ除去と前記ユーザの音声の確認との少なくとも一方を
    実行するように構成されていることを特徴とするシステム。
  16. 【請求項16】 請求項1記載のシステムにおいて、前記メモリに結合され
    た制御ユニットを更に備えており、このシステムの外部から制御信号を受け取り
    前記制御信号に応答して前記メモリの情報コンテンツを修正するように構成され
    ていることを特徴とするシステム。
  17. 【請求項17】 請求項16記載のシステムにおいて、前記制御ユニットは
    、情報を前記メモリに追加し、情報を前記メモリから削除し、前記メモリの情報
    を変更するように構成されていることを特徴とするシステム。
  18. 【請求項18】 請求項1記載のシステムにおいて、前記音声要素は、更に
    、情報を前記ユーザまで搬送して前記ユーザにある人間に関するあいまいさを除
    去する情報を提供するように促し、前記あいまいさを除去する情報を用いて複数
    の人間の中の誰と前記ユーザがコンタクトを希望するのかに関するあいまいさを
    除去するように構成されていることを特徴とするシステム。
  19. 【請求項19】 コンピュータ可読な命令を含むコンピュータ・プログラム
    製品であって、前記命令は、コンピュータに、 ユーザからのコールの受信に応答して前記ユーザとの通信リンクを確立するス
    テップと、 個人ディレクトリ情報が記憶されているメモリから情報を検索するステップで
    あって、前記個人ディレクトリ情報は、複数の人間の標識と、それぞれの人間と
    関連付けられており前記コールを前記複数の人間の中の選択された1人にルーテ
    ィングするのに用いられるルーティング情報とを含み、前記メモリには、更に、
    対話型音声システムと関連付けられた会社と関連付けられた会社情報が記憶され
    ている、ステップと、 第1のオーディオ情報を前記ユーザまで搬送し、前記ユーザに音声を発するよ
    うに促すステップと、 前記ユーザからの音声を受け取るステップと、 前記ユーザからの音声を認識するステップと、 認識されたユーザの音声に基づいてアクションを実行するステップと、 第2のオーディオ情報を前記メモリに記録されている前記会社情報に従って前
    記ユーザまで搬送するステップと、 を実行させることを特徴とするコンピュータ可読なコンピュータ・プログラム
    製品。
  20. 【請求項20】 請求項19記載のコンピュータ・プログラム製品において
    、前記コンピュータに前記第2のオーディオ情報を搬送させる前記命令は、前記
    コンピュータに前記第2のオーディオ情報を少なくとも部分的にウェブ類似のフ
    ォーマットで搬送させることを特徴とするコンピュータ・プログラム製品。
  21. 【請求項21】 請求項20記載のコンピュータ・プログラム製品において
    、前記コンピュータに前記第2のオーディオ情報を搬送させる前記命令は、前記
    コンピュータに、前記コンピュータによって認識された前記ユーザからのリクエ
    ストに応答して前記メモリに記憶されている情報を前記リクエストに従って提供
    し、このコンピュータ・プログラム製品は、更に、前記コンピュータに、前記コ
    ールを前記リクエストによって指示される人間に前記人間と関連付けられたルー
    ティング情報に従ってルーティングさせる命令を含むことを特徴とするコンピュ
    ータ・プログラム製品。
  22. 【請求項22】 請求項21記載のコンピュータ・プログラム製品において
    、前記メモリは情報の複数の所定のカテゴリに従って複数のページにおいて情報
    を記憶し、前記コンピュータに前記ユーザの音声を認識させる前記命令は前記コ
    ンピュータに音声の現在のページと関連付けられた語彙を用いて前記ユーザの音
    声を認識させることを特徴とするコンピュータ・プログラム製品。
  23. 【請求項23】 請求項22記載のコンピュータ・プログラム製品において
    、前記メモリに記憶されている会社情報は前記会社のウェブサイト上で入手可能
    な情報を含み、前記コンピュータに前記第2のオーディオ情報を前記ユーザまで
    搬送させる前記命令は、前記コンピュータに、前記会社のウェブサイト上に提供
    されている会社情報の組織とは異なる組織と共に、前記第2のオーディオ情報を
    搬送させることを特徴とするコンピュータ・プログラム製品。
  24. 【請求項24】 請求項22記載のコンピュータ・プログラム製品において
    、前記コンピュータに情報を検索させる前記命令は、前記コンピュータに、ウェ
    ブ・ブラウザによって一般的に提供される機能と関連付けられた前記ユーザから
    の口頭のコマンドに応答して情報を検索させることを特徴とするコンピュータ・
    プログラム製品。
  25. 【請求項25】 請求項24記載のコンピュータ・プログラム製品において
    、前記コマンドは、「戻る」と「進む」と「ホーム」とを含むことを特徴とする
    コンピュータ・プログラム製品。
  26. 【請求項26】 請求項19記載のコンピュータ・プログラム製品において
    、前記ユーザの音声によって指示されたトランザクションを前記コンピュータに
    実行させる命令を更に含むことを特徴とするコンピュータ・プログラム製品。
  27. 【請求項27】 請求項19記載のコンピュータ・プログラム製品において
    、前記コンピュータに、 ユーザの音声と、前記ユーザの音声が認識されたものとして承認されたかどう
    かと、もしある場合には前記音声要素が行ったアクションと、ユーザの音声が所
    定のスレショルドよりも低い信頼を有するかどうかとの中の少なくとも1つを示
    す会話データを前記メモリに記憶するステップと、 記憶された会話データの標識を報告するステップと、 を実行させる命令を更に含むことを特徴とするコンピュータ・プログラム製品
  28. 【請求項28】 請求項19記載のコンピュータ・プログラム製品において
    、前記ユーザの音声を認識しようとする試みに基づくアクションを前記コンピュ
    ータに実行させる命令を更に含むことを特徴とするコンピュータ・プログラム製
    品。
  29. 【請求項29】 請求項19記載のコンピュータ・プログラム製品において
    、前記コンピュータに制御信号を受け取らせ前記制御信号に応答して前記メモリ
    の情報コンテンツを修正させる命令を更に含むことを特徴とするコンピュータ・
    プログラム製品。
  30. 【請求項30】 請求項29記載のコンピュータ・プログラム製品において
    、前記コンピュータに前記メモリの情報コンテンツを修正させる前記命令は、コ
    ンピュータに情報を前記メモリに追加させ、情報を前記メモリから削除させ、前
    記メモリの情報を変更させる命令を含むことを特徴とするコンピュータ・プログ
    ラム製品。
  31. 【請求項31】 請求項19記載のコンピュータ・プログラム製品において
    、コンピュータに、情報を前記ユーザまで搬送して前記ユーザにある人間に関す
    るあいまいさを除去する情報を提供するように促させ、前記あいまいさを除去す
    る情報を用いて複数の人間の中の誰と前記ユーザがコンタクトを希望するのかに
    関するあいまいさを除去させる命令を更に含むことを特徴とするコンピュータ・
    プログラム製品。
  32. 【請求項32】 対話型音声アプリケーションを介してユーザとインターフ
    ェースする方法であって、 前記ユーザからの入来コールを受け取るステップと、 前記ユーザとの通信リンクを確立するステップと、 前記ユーザに提供される音声を示す記憶されているデータの一部を検索するス
    テップと、 音声として記憶されているデータの前記一部をウェブ類似の形式で前記ユーザ
    に提供するステップと、 を含むことを特徴とする方法。
  33. 【請求項33】 請求項32記載の方法において、前記記憶されているデー
    タは、それぞれの対応するグループにおけるデータのコンテンツを示す関連付け
    られたタイトルに従って複数のグループとして記憶されており、前記提供するス
    テップは、記憶されているデータの前記一部のタイトルを音声として前記ユーザ
    まで搬送するステップを含むことを特徴とする方法。
  34. 【請求項34】 請求項33記載の方法において、 音声を前記ユーザから受け取るステップと、 前記ユーザの音声を前記ユーザの音声の電気的標識に変換するステップと、 記憶されているデータの別の部分を前記電気的標識に従って検索するステップ
    と、 記憶されているデータの前記別の部分を、記憶されているデータの前記別の部
    分を前記ユーザに音声として搬送することを含めて前記ユーザに提供するステッ
    プと、 を更に含むことを特徴とする方法。
  35. 【請求項35】 請求項34記載の方法において、前記ユーザの音声は記憶
    されているデータの前記別の部分のタイトルであることを特徴とする方法。
  36. 【請求項36】 請求項34記載の方法において、前記ユーザの音声の標識
    は記憶されているデータの前記別の部分のタイトルを示すことを特徴とする方法
  37. 【請求項37】 請求項36記載の方法において、前記音声の標識は記憶さ
    れているデータの前記別の部分のタイトルの類義語を示すことを特徴とする方法
  38. 【請求項38】 請求項34記載の方法において、前記ユーザの音声はウェ
    ブ類似のナビゲーション・コマンドを含むことを特徴とする方法。
  39. 【請求項39】 請求項38記載の方法において、前記ウェブ類似のナビゲ
    ーション・コマンドは、「戻る」と「進む」と「ホーム」と「行け(go to
    )」と「ヘルプ」とで構成されるグループから選択されることを特徴とする方法
  40. 【請求項40】 請求項32記載の方法において、前記記憶されているデー
    タは前記データのコンテンツに従ってグループ分けされており、前記提供するス
    テップは「ページ」という語を含む音声指示を記憶されているデータの前記一部
    のデータ・コンテンツのユーザに搬送するステップを含むことを特徴とする方法
  41. 【請求項41】 少なくとも1つの音声アプリケーション・システムをモニ
    タするモニタリング・システムであって、 コンピュータ・ネットワーク接続と、 前記音声アプリケーション・システムと前記コンピュータ・ネットワーク接続
    とに結合されており、前記少なくとも1つの音声アプリケーション・システムか
    ら前記コンピュータ・ネットワーク接続を介してデータを受け取り、前記音声ア
    プリケーション・システムと関連付けられたコールに関係する標識のコール・レ
    コードを処理し、前記コールに関係する標識を示すレポートを作成するように構
    成されているモニタリング・ユニットと、 を備えていることを特徴とするシステム。
  42. 【請求項42】 請求項41記載のシステムにおいて、前記モニタリング・
    ユニットは前記コンピュータ・ネットワーク接続を介して前記音声アプリケーシ
    ョン・システムに結合されており、前記モニタリング・ユニットは前記少なくと
    も1つの音声アプリケーション・システムから遠隔的に配置されていることを特
    徴とするシステム。
  43. 【請求項43】 請求項42記載のシステムにおいて、前記コンピュータ・
    ネットワーク接続はインターネットを介して前記少なくとも1つの音声アプリケ
    ーション・システムに結合されていることを特徴とするシステム。
  44. 【請求項44】 請求項43記載のシステムにおいて、前記モニタリング・
    ユニットは、前記少なくとも1つの音声アプリケーション・システムに記憶され
    ているコール・レコードのログにアクセスするように構成されていることを特徴
    とするシステム。
  45. 【請求項45】 請求項43記載のシステムにおいて、前記モニタリング・
    ユニットは、前記コンピュータ・ネットワーク接続とインターネットとを介して
    複数の分散された音声アプリケーション・システムに結合されており、前記音声
    アプリケーション・システムのそれぞれから前記ネットワーク接続を介してデー
    タを受け取り、前記音声アプリケーション・システムのそれぞれと関連付けられ
    たコール・イベントのレコードを処理し、それぞれの音声アプリケーション・シ
    ステムに対して前記コールに関係する標識を示すレポートを作成するように構成
    されていることを特徴とするシステム。
  46. 【請求項46】 請求項41記載のシステムにおいて、前記モニタリング・
    ユニットは、前記少なくとも1つの音声アプリケーション・システムに信号を伝
    送して前記少なくとも1つの音声アプリケーション・システムの動作を変更する
    ように構成されていることを特徴とするシステム。
  47. 【請求項47】 請求項46記載のシステムにおいて、前記信号は、前記少
    なくとも1つの音声アプリケーション・システムの誤動作している通信回線を有
    効にビジーとするように構成されていることを特徴とするシステム。
  48. 【請求項48】 請求項46記載のシステムにおいて、前記信号は、前記少
    なくとも1つの音声アプリケーション・システムのサービスを再開させるように
    構成されていることを特徴とするシステム。
  49. 【請求項49】 請求項46記載のシステムにおいて、前記信号は、コンフ
    ィギュレーション・ファイル・パッチを前記少なくとも1つの音声アプリケーシ
    ョン・システムにおけるコンフィギュレーション・ファイルに挿入させるように
    構成されていることを特徴とするシステム。
  50. 【請求項50】 請求項41記載のシステムにおいて、前記モニタリング・
    ユニットは、選択されたコール・イベントの頻度の指示を作成するように構成さ
    れていることを特徴とするシステム。
  51. 【請求項51】 請求項41記載のシステムにおいて、前記モニタリング・
    ユニットは、選択されたコール・イベントに関する警告を作成するように構成さ
    れていることを特徴とするシステム。
  52. 【請求項52】 請求項51記載のシステムにおいて、前記警告は、選択さ
    れたコール・イベントの特性が当該特性に対する所定の基準値から所定の量より
    も多く逸脱していることの指示であることを特徴とするシステム。
  53. 【請求項53】 請求項41記載のシステムにおいて、前記モニタリング・
    ユニットと前記音声アプリケーション・システムとは相互に隣接して配置されて
    いることを特徴とするシステム。
JP2001511062A 1999-07-20 2000-07-20 音声イネーブル式情報処理 Pending JP2003505938A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US14460999P 1999-07-20 1999-07-20
US60/144,609 1999-07-20
US54950900A 2000-04-14 2000-04-14
US09/549,509 2000-04-14
PCT/US2000/019755 WO2001006741A1 (en) 1999-07-20 2000-07-20 Speech-enabled information processing

Publications (1)

Publication Number Publication Date
JP2003505938A true JP2003505938A (ja) 2003-02-12

Family

ID=26842161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001511062A Pending JP2003505938A (ja) 1999-07-20 2000-07-20 音声イネーブル式情報処理

Country Status (5)

Country Link
EP (1) EP1195042A1 (ja)
JP (1) JP2003505938A (ja)
AU (1) AU6114500A (ja)
CA (1) CA2379853A1 (ja)
WO (1) WO2001006741A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001239880A1 (en) 2000-02-25 2001-09-03 Pulsar Communications, Inc. Apparatus and method for providing enhanced telecommunications services
US20020138656A1 (en) * 2001-03-23 2002-09-26 Neil Hickey System for and method of providing interfaces to existing computer applications
CN1283065C (zh) * 2003-09-12 2006-11-01 华为技术有限公司 智能业务逻辑的处理方法
CN100463473C (zh) * 2004-08-04 2009-02-18 中兴通讯股份有限公司 交互式语音应答系统中业务切换的方法
US7580837B2 (en) * 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6065016A (en) * 1996-08-06 2000-05-16 At&T Corporation Universal directory service
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6195417B1 (en) * 1997-11-18 2001-02-27 Telecheck International, Inc. Automated system for accessing speech-based information
US7082397B2 (en) * 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web

Also Published As

Publication number Publication date
EP1195042A1 (en) 2002-04-10
AU6114500A (en) 2001-02-05
WO2001006741A1 (en) 2001-01-25
CA2379853A1 (en) 2001-01-25

Similar Documents

Publication Publication Date Title
US9202247B2 (en) System and method utilizing voice search to locate a product in stores from a phone
US9626959B2 (en) System and method of supporting adaptive misrecognition in conversational speech
US7242752B2 (en) Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
US9263039B2 (en) Systems and methods for responding to natural language speech utterance
US9495957B2 (en) Mobile systems and methods of supporting natural language human-machine interactions
US8762155B2 (en) Voice integration platform
US8086454B2 (en) Message transcription, voice query and query delivery system
US20090304161A1 (en) system and method utilizing voice search to locate a product in stores from a phone
US20020032591A1 (en) Service request processing performed by artificial intelligence systems in conjunctiion with human intervention
US20110106527A1 (en) Method and Apparatus for Adapting a Voice Extensible Markup Language-enabled Voice System for Natural Speech Recognition and System Response
US20050091057A1 (en) Voice application development methodology
US20060069570A1 (en) System and method for defining and executing distributed multi-channel self-service applications
CN1351745A (zh) 客户一服务器语音识别
KR20060041889A (ko) 애플리케이션들을 네비게이팅하기 위한 방법 및 시스템
JP2003505938A (ja) 音声イネーブル式情報処理
US20020099545A1 (en) System, method and computer program product for damage control during large-scale address speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090428

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090723