JP2002527919A

JP2002527919A - ネットワーク調整された会話型サービスを提供するためのシステムおよび方法

Info

Publication number: JP2002527919A
Application number: JP2000575119A
Authority: JP
Inventors: マエス、ステファニ、エイチ; ゴパラクリシュナン、ポナニ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-10-02
Filing date: 1999-10-01
Publication date: 2002-08-27
Anticipated expiration: 2019-10-01
Also published as: EP1163576A2; IL142366A0; EP1125279A4; EP1125277A1; WO2000021075A1; CN1171200C; US7137126B1; CA2345660A1; JP4171585B2; CA2345661A1; WO2000021232A2; DE69937962T2; EP1133734A2; IL142364A0; CN1342290A; KR20010075552A; KR20010085878A; CA2345665A1; KR100430953B1; CA2345662A1

Abstract

(57)【要約】【課題】ネットワーク接続されたサーバおよび装置（およびそれらに対応するアプリケーション）の間で会話型リソース（例えば関数および引き数）を自動的かつ調整的に共用することを実現するためのシステムおよび方法を提供すること。【解決手段】一態様では、会話型リソースを自動的かつ調整的に共用することを実現するためのシステムは、少なくとも第１および第２のネットワーク装置を含むネットワークを含み、第１および第２のネットワーク装置はそれぞれ、会話型リソースのセットと、会話を管理し、会話型サービスを要求する呼出しを実行するためのダイアログ・マネージャと、ネットワークを介し会話型プロトコルを使用してメッセージを通信するための通信スタックとを備え、会話型プロトコルは、第１および第２のネットワーク装置それぞれに要求された会話型サービスを行うのに必要なとき、それらのダイアログ・マネージャ間で調整的なネットワーク通信を確立して、第１および第２の装置の会話型リソースのセットを自動的に共用する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は一般に会話型システムに関し、より詳細には、ネットワーク接続され
た装置、サーバ、およびアプリケーションの間で会話型関数／リソースを自動的
かつ調整的に共用するためのシステムおよび方法に関する。

【０００２】

【従来の技術】

従来の会話型システム（すなわち、純粋にボイスのＩ／Ｏを備えたシステム、
またはボイスＩ／Ｏを備えたマルチモーダル・システム）は、通常、適したアー
キテクチャおよび十分な処理力を有するパーソナル・コンピュータ（ＰＣ）およ
びローカル・マシンに限られている。一方、テレフォニー・アプリケーションで
は、会話型システムは通常、サーバ（例えばＩＶＲサーバ）上にあり、従来型の
セルラーホンを介してアクセス可能である。このような会話型システムがますま
す一般的になりつつあるものの、通常、クライアント側とサーバ側のいずれかで
、すべての会話型処理が行われる（例えば、すべての構成は完全にローカルであ
るか、または完全にクライアント／サーバである）。

【０００３】パーベイシブ・コンピューティングの出現に伴い、莫大な数の低リソース・ク
ライアント装置（例えばＰＤＡ、スマートホンなど）が相互にネットワーク化さ
れることが予想される。これらのクライアント装置のサイズが小さくなり、ユー
ザがこのような装置に行わせようと思うタスクが複雑になってきているせいで、
ユーザ・インタフェース（ＵＩ）がクリティカルな問題となってきている。とい
うのは、このような小さいクライアント装置上の会話型グラフィカル・ユーザ・
インタフェース（ＧＵＩ）は、実用的ではないからである。この理由で、純粋に
音声／オーディオのＩ／Ｏ、または音声／オーディオＩ／Ｏを備えたマルチモー
ダルＩ／Ｏを提供するには、会話型システムがユーザ・インタフェースの鍵の要
素となることが予想される。

【０００４】したがって、携帯クライアント装置における音声組込み会話型アプリケーショ
ンが開発されており、成熟しつつある。残念ながらリソースが限られているせい
で、このようなクライアント装置は、複雑な会話型サービス、例えば、音声認識
（特に語彙サイズが大きいかまたは専門化されているとき、あるいはドメイン特
有／アプリケーション特有の言語モデルまたは文法が必要とされるとき）、ＮＬ
Ｕ（自然言語理解）、ＮＬＧ（自然言語生成）、ＴＴＳ（テキスト音声合成）、
オーディオ取込みおよび圧縮／解凍、再生、ダイアログ生成、ダイアログ管理、
話者認識、トピック認識、およびオーディオ／マルチメディア索引付けおよび探
索などを行えない場合があることが予想される。例えば、装置のメモリおよびＣ
ＰＵ（ならびに他のリソース）の制限により、そのような装置が提供できる会話
型能力が制限される可能性がある。

【０００５】さらに、ネットワーク化された装置にこれらの会話型タスクすべてを実行する
のに十分な「力」が（ＣＰＵおよびメモリの点で）あったとしても、その装置は
、適切なタスクを行うための適切な会話型リソース（例えばエンジン）または会
話型引き数（すなわちエンジンによって使用されるデータ・ファイル）（文法、
言語モデル、語彙ファイル、構文解析、タグ、声紋、ＴＴＳ規則など）を有しな
い場合がある。実際、いくつかの会話型関数は、所与のサービスについてあまり
に特有かつ固有で、そのためネットワーク上の他の装置またはマシンからしか入
手可能でないバックエンド情報を必要とするものもある。例えば、クライアント
装置上でのＮＬＵサービスおよびＮＬＧサービスは通常、サーバ側の補助を必要
とする。というのは、ダイアログを生成するのに必要な会話型引き数または会話
型関数の完全なセット（例えばパーサ、タガー、変換機構など）が、格納用メモ
リ（クライアント装置中で利用可能でない）を大量に必要とするか、またはクラ
イアント側に転送するには大きすぎる（通信帯域幅の点で）からである。この問
題は、クライアント装置またはローカル・アプリケーションの有するメモリまた
は処理力が、複数言語で音声を処理し会話型関数を実施するのに必要な引き数を
格納および処理するには不十分なとき、マルチリンガル・アプリケーションによ
ってさらに悪化する。この代わりにユーザは、このようなタスクを行うためにリ
モート・サーバに手動で接続しなければならない。

【０００６】クライアントとサーバの間の分散アーキテクチャおよび分散処理に関連する問
題はまた、会話型ネットワーキングの新しい方法も必要とする。このような方法
は、ネットワークにわたって分散したトラフィックおよびリソースを管理して、
ネットワークにわたる会話型対話において各ユーザに対して適切なダイアログ・
フローを保証することを含む。

【０００７】

【発明が解決しようとする課題】

したがって、ネットワーク化されたリソースを自動的に、かつユーザにトラン
スペアレントな形で使用して、限られたリソースを有するネットワーク装置が複
雑かつ特有な会話型タスクを自動的に行えるようにするシステムおよび方法が非
常に望ましい。

【０００８】

【課題を解決するための手段】

本発明は、ネットワーク接続されたサーバおよび装置（およびそれらに対応す
るアプリケーション）の間で会話型リソースを自動的かつ調整的に共用すること
を実現するためのシステムおよび方法を対象としたものである。本発明の一実施
形態によるシステムは、会話型ネットワーク・プロトコル（またはメソッド）を
使用してメッセージを通信することによって相互を「会話型に認識している」よ
うになる、ネットワーク化された複数のサーバ、装置、またはアプリケーション
、あるいはそれらすべてを含む。会話型ネットワーク・プロトコル（またはメソ
ッド）は、会話型に認識している各ネットワーク装置が会話型リソースを自動的
に共用することを自動的に、かつ調整され同期がとれた形で可能にし、したがっ
て、ネットワーク装置のうちの１つのインタフェースを介してシームレスな会話
型インタフェースを提供する。

【０００９】本発明の一態様によれば、会話型リソースを自動的かつ調整的に共用すること
を実現するためのシステムは、少なくとも第１および第２のネットワーク装置を含むネットワークを含み、第１および第２のネットワーク装置はそれぞれ、会話型リソースのセットと、会話を管理し、会話型サービスを要求する呼出しを実行するためのダイアログ
・マネージャと、ネットワークを介し会話型プロトコルを使用してメッセージを通信するための
通信スタックとを備え、会話型プロトコルによって通信されるメッセージは、第
１および第２の装置それぞれに要求された会話型サービスを実施するのに必要な
とき、それらのダイアログ・マネージャ間で調整的なネットワーク通信を確立し
て、第１および第２のネットワーク装置の会話型リソースのセットを自動的に共
用する。

【００１０】本発明によれば、低リソースのクライアント装置がトランスペアレントに、単
純なタスクをローカルで行い、かつ、複雑なタスクを、より複雑な会話型能力を
有するサーバ（または他の装置）とのバイナリ接続またはアナログ接続で行うこ
とができる。サーバ側の関数（音声認識など）は、通常のＩＰネットワークまた
はＬＡＮネットワークを介して実施することができ、かつ、従来型の電話回線、
またはパケット交換ネットワークを介したディジタル伝送を介して実施すること
ができ、あるいは、無線ネットワークを介した従来型の無線データ・プロトコル
のいずれかを介して実施することもできる。

【００１１】本発明は有利にも、限られたＣＰＵ、メモリ、および電力の能力（ならびに限
られた会話型リソース）で、成熟した会話型ユーザ・インタフェースまたは任意
の装置（パーベイシブ組込み装置など）を提供する。これは、例えば必要な会話
型引き数をネットワーク・サーバからダウンロードする必要なしに、低リソース
のクライアント装置を使用して複雑な会話型サービスを提供する。ローカル能力
により、ユーザは、例えば無線電話プロバイダの受信可能範囲外で、接続を必要
とせずにローカル装置を利用することができる。継続接続のコストもまた削減さ
れ、そのような継続接続が失われたときの復旧の難しさも軽減することができる
。

【００１２】

【発明の実施の形態】

本発明が様々な形のハードウェア、ソフトウェア、ファームウェア、特殊目的
プロセッサ、またはこれらの組合せにおいて実装できることを理解されたい。好
ましくは、本発明はプログラム命令を含むアプリケーションとしてソフトウェア
中に実装され、このプログラム命令は、プログラム記憶装置（例えば磁気フロッ
ピー（登録商標）・ディスク、ＲＡＭ、ＣＤ−ＲＯＭ、ＲＯＭ、およびフラッシュ・メモリ）上に実体として組み込まれ、１つまたは複数の中央演算処理装置（ＣＰＵ）、ランダム・アクセス・メモリ（ＲＡＭ）、およびオーディオ入出力（Ｉ／Ｏ）インタフェースなどの適したアーキテクチャを備えた任意の装置やマシンで実行することができる。

【００１３】添付の図面に示す要素システム・コンポーネントおよび方法ステップのいくつ
かはソフトウェア中に実装することが好ましいため、システム・コンポーネント
（またはプロセス・ステップ）間のつながりは、本発明をプログラミングする仕
方に応じて実際のつながりとは異なる場合があることもさらに理解されたい。当
業者なら、本明細書の教示があれば、本発明のこれらおよび類似の実施態様また
は構成を企図することができるであろう。

【００１４】ここで図１を参照すると、本発明の例示的な実施形態による、ネットワーク化
された装置間で会話型リソースおよび会話型引き数（データ・ファイル）を自動
的かつ調整的に共用することによって会話型サービスを提供するためのシステム
がブロック図に示されている。このシステムは、オーディオ／音声入力を処理す
るため、およびクライアント装置１００によって生成されたオーディオ／音声を
出力するための音響フロントエンド１０１を備えたローカル・クライアント装置
１００を備える。クライアント装置１００は、例えばスマートホンまたは任意の
音声使用可能ＰＤＡ（personal digital assistant）とすることができる。クラ
イアント装置１００はさらに、音響フロントエンド１０１によって生成されたか
または取り込まれた、あるいはその両方がなされた音響特徴または波形あるいは
その両方を処理するため、およびユーザに出力するダイアログを生成するための
、１つまたは複数のローカル会話型エンジン１０２も含む。ローカル会話型エン
ジン１０２は、例えば、組込み音声認識、話者認識エンジン、ＴＴＳエンジン、
ＮＬＵおよびＮＬＧエンジン、オーディオ取込みおよび圧縮／解凍エンジン、な
らびにその他任意のタイプの会話型エンジンを含むことができる。

【００１５】クライアント装置１００はさらに、ローカル・ダイアログ・マネージャ１０３
も備え、このローカル・ダイアログ・マネージャ１０３はタスク管理を行い、シ
ステム呼出し（ＡＰＩまたはプロトコル呼出し）を介して要求された会話型サー
ビスを（ローカルで、またはネットワーク装置を介して）実行すること、ならび
にローカルで、かつネットワーク化された装置によってダイアログを管理するこ
との制御および調整をする。より具体的には、以下により詳細に説明するように
ダイアログ・マネージャ１０３は、所与の会話型サービスをクライアント１００
上でローカルに処理および実行すべきか、あるいはネットワーク接続されたリモ
ート・サーバ（または装置）上で処理および実行すべきかを決定する。この決定
は、他のネットワーク化された装置の能力と比較したクライアント１００の会話
型能力、ならびに要求された会話型サービスを処理するのに必要な可能性のある
利用可能なリソースおよび会話型引き数などのファクタに基づく。その他のファ
クタには、ネットワーク化された装置から結果を受信する際のネットワーク・ト
ラフィックおよび予期される遅延が含まれる。ダイアログ・マネージャ１０３は
、負荷管理やリソース割振りなどのタスク管理およびリソース管理のタスク、な
らびにローカル会話型エンジン１０２と音声使用可能ローカル・アプリケーショ
ン１０４との間のダイアログ管理を行う。

【００１６】一例として図１に示すように、クライアント装置１００は、ネットワーク１０
５を介してサーバ１０６にネットワーク接続され、このサーバ１０６は、必要に
応じてクライアント装置１００（あるいはいずれか他のネットワーク装置または
アプリケーション）に会話型サービスを提供するためのサーバ・アプリケーショ
ン１０９ならびにサーバ会話型エンジン１０７を含む。ローカル・エンジン１０
２と同様、サーバ・エンジン１０７は、例えば組込み音声認識、ＴＴＳエンジン
、ＮＬＵおよびＮＬＧエンジン、オーディオ取込みおよび圧縮／解凍エンジン、
ならびにその他任意のタイプの会話型エンジンを含むことができる。サーバ１０
６は、前述のローカル・ダイアログ・マネージャ１０３と同様の仕方で動作する
サーバ・ダイアログ・マネージャ１０８を備える。例えば、サーバ・ダイアログ
・マネージャ１０８は、会話型サービスを求めるローカル・ダイアログ・マネー
ジャ１０３からの要求がサーバ１０６によって処理および実行されるべきか、あ
るいはネットワーク接続された別のリモート・サーバまたは装置上で処理および
実行されるべきかを決定する。さらに、サーバ・ダイアログ・マネージャ１０８
は、サーバ会話型エンジン１０７と音声使用可能サーバ・アプリケーション１０
９との間のダイアログを管理する。

【００１７】図１のシステムにはさらに、クライアント装置１００およびリモート・サーバ
１０６がサーバ１１０にネットワーク接続されているのが示されており、このサ
ーバ１１０は、クライアント１００およびサーバ１０６から必要に応じてアクセ
ス可能な会話型エンジンまたは会話型引き数、あるいはその両方を有する。ネッ
トワーク１０５は、例えばインターネット、ＬＡＮ（ローカル・エリア・ネット
ワーク）、団体イントラネット、ＰＳＴＮ（公衆交換電話網）、または無線ネッ
トワーク（ＲＦ（無線周波）を介した無線通信の場合）、またはＩＲ（赤外線）
とすることができる。図１にはクライアント／サーバ・システムを示してあり、
この用語は当業者には理解されているが、図１のシステムは、会話型関数、引き
数、およびリソースを自動的かつ調整的に共用することを実現するように、相互
を「会話型に認識している」ネットワーク化された複数のサーバ、装置、および
アプリケーションを含むことができることを理解されたい。以下により詳細に説
明するが、このような「会話型の認識」は、会話型ネットワーク・プロトコル（
またはメソッド）を使用して、メッセージを送信し、それらのメッセージをそれ
ぞれのダイアログ・マネージャによって処理して、ネットワーク化された装置が
会話型リソースおよび関数を自動的にかつ同期して共用できるようにすることに
よって達成される。このような会話型調整は、１つのネットワーク装置のインタ
フェースを介してリモートのサーバ、装置、およびアプリケーションにアクセス
するためのシームレスな会話型インタフェースを提供する。

【００１８】具体的には、ネットワーク化された装置間で会話型調整を実現してそれらの会
話型関数、リソース、および引き数を共用するために、ネットワーク化された各
装置は、会話型プロトコル（またはメソッド）を使用してメッセージを通信し、
それらの会話型能力および要件に関する情報を交換する。例えば図１に示すよう
に、クライアント装置１００は、会話型プロトコル１１２、会話型発見／登録／
折衝プロトコル１１３、および音声伝送プロトコル１１４（または会話型コーデ
ィング・プロトコル）を使用してメッセージを送受信するための通信スタック１
１１を備える。同様に、サーバ１０６も、会話型プロトコル１１６、会話型発見
／登録／折衝プロトコル１１７、および音声伝送プロトコル１１８を有するサー
バ通信スタック１１５を備える。これらのプロトコル（メソッド）を、本願の譲
受人に譲渡され、参照により本明細書に組み込む特許出願ＩＢＭ整理番号ＹＯ９
９９−１１１Ｐに記載のＣＶＭ（会話型仮想マシン）に関して詳細に考察する。

【００１９】簡潔に言うと、会話型プロトコル１１２、１１６（またはＹＯ９９９−１１１
Ｐで「分散会話型プロトコル」と呼んでいるもの）は、ネットワーク化された装
置（例えばクライアント１００およびサーバ１０６）またはアプリケーションが
、それらの会話型状態、引き数、およびコンテキストを他のネットワーク装置の
ダイアログ・マネージャに登録するためのメッセージを送信できるようにするプ
ロトコル（またはメソッド）である。会話型プロトコル１１２、１１６はまた、
アプレットや、ＡｃｔｉｖｅＸコンポーネントや、装置または関連アプリケーシ
ョンがマスタ／スレーブまたはピア・ツー・ピアの会話型ネットワーク構成にお
いてそのような装置間の会話を調整できるようにするその他の実行可能コードな
ど、他の情報も装置が交換できるようにする。分散会話型プロトコル１１２、１
１６は、マスタ／スレーブ会話型ネットワーク、ピア会話型ネットワーク、サイ
レント・パートナーを含めた、複数の装置またはアプリケーションに関係する会
話を調整するための情報の交換を可能にする。ネットワーク化された装置間で分
散会話型プロトコルを使用して交換できる情報には、データ・ファイル（引き数
）へのポインタ、データ・ファイルおよびその他の会話型引き数の転送（必要な
ら）、入力に関する通知、出力イベントおよび認識結果、会話型エンジンＡＰＩ
呼出しおよび結果、状態およびコンテキストの変化とその他のシステム・イベン
トの通知、登録更新、登録のためのハンドシェーク、折衝更新、折衝のためのハ
ンドシェーク、および要求されたリソースが紛失したときの発見更新が含まれる
。

【００２０】（分散）会話型プロトコルはまた、ダイアログ・マネージャがサービス、挙動
および会話型アプリケーション、Ｉ／ＯおよびエンジンＡＰＩを分散できるよう
にする、ＩＢＭ整理番号ＹＯ９９９−１１１Ｐに記載のようなダイアログ・マネ
ージャ（ＤＭ）プロトコルも含む。例えば、ＤＭプロトコルは以下の情報を交換
できるようにする。すなわち、（１）ＤＭアーキテクチャ登録（例えば各ＤＭは
ローカルＤＭの集合とすることができる）、（２）関連メタ情報（ユーザ、装置
能力、アプリケーション・ニーズなど）へのポインタ、（３）ＤＭネットワーク
・トポロジ（例えばマスタ／スレーブ、ピア・ツー・ピア）の折衝、（４）適用
可能ならば、すなわちマスタＤＭによって制御されるエンジンが使用されている
なら、データ・ファイル（会話型引き数）、（５）エンジンへの転送またはコン
テキストへの追加あるいはその両方のためのユーザ入力やユーザへの出力などの
Ｉ／Ｏイベントの通知、（６）認識イベントの通知、（７）エンジンからマスタ
ＤＭへの処理済み入力の転送、（８）登録済みＤＭへの、マスタＤＭの責任の転
送、（９）ＤＭ処理結果イベント、（１０）ＤＭ例外、（１１）信頼度および不
明瞭さの結果、提案されたフィードバックおよび出力、提案された例外状態、提
案されたアクション、提案されたコンテキスト変更、および提案された新しいダ
イアログ状態の転送、（１２）決定通知、コンテキスト更新、アクション更新、
状態更新など、（１３）完了した、失敗した、または中断されたアクションの通
知、（１４）コンテキスト変更の通知、または（１５）アクションによる、デー
タ・ファイル、コンテキスト、および状態の更新であり、あるいはこれらすべて
である。

【００２１】例えば、マスタ・スレーブ・ネットワーク構成では、ネットワーク化された装
置のうち１つだけが、いずれか所与の時に会話を駆動する。具体的には、マスタ
装置（すなわちマスタ装置のダイアログ・マネージャ）が、ネットワーク装置間
の会話を管理および調整し、どの装置が所与の会話型サービスまたは会話型関数
を実施することになるかを決定する。この決定は、各装置または各アプリケーシ
ョンから提供されたそれらの会話型能力に関する情報に基づくことができる。こ
の決定はまた、どのスレーブ装置（必要な会話型能力を有する）が最適に所与の
会話型関数を実施できるかをマスタが決定することに基づくこともできる。例え
ばマスタは、音声認識を行ってその結果をマスタに提供するよう複数のスレーブ
に要求することができる。次いでマスタは、最適な結果を選択することができる
。本明細書において音声認識のレベルで述べるものは、（ＹＯ９９９−１１１Ｐ
に記載のような）分散ダイアログ・マネージャ間のＤＭ（ダイアログ・マネージ
ャ）プロトコルのレベルの機構であることを理解されたい。実際、複数のダイア
ログ・マネージャ間でダイアログが発生するとき、マスタは、各ダイアログ・マ
ネージャの結果スコアの測定値を得ることになり、それに応じ、音声認識の正確
度だけでなくダイアログ（意味）、コンテキスト、および履歴（ならびにユーザ
の選好、履歴、およびアプリケーションの選好など、検討中の他のアイテム）に
も基づいて、どのダイアログ・マネージャが入力を続行するかを知るために決定
を行うことになる。

【００２２】ピア・ツー・ピア接続では、各装置が、実施できる関数を決定し、そのように
する要求をログしようとすることになる。このタスクを受け入れた装置は、この
ようなタスクを行い、次いでその性能のスコアを得る。次いで装置は、それらの
スコアに基づいて、どの装置がそのタスクを行うかを折衝する。

【００２３】一実施形態では、分散会話型プロトコル１１２、１１６は、ＲＭＩ（リモート
・メソッド呼出し）またはＲＰＣ（リモート・プロシージャ呼出し）システム呼
出しを介して実施されて、アプリケーションおよび様々な会話型エンジンの間で
ネットワークを介して呼出しを実施する。当技術分野で周知のように、ＲＰＣは
、あるアプリケーションがネットワークを横断して別のアプリケーションにサー
ビスを要求できるようにするプロトコルである。同様に、ＲＭＩは、分散ネット
ワーク中でオブジェクトがそれによって対話できるメソッドである。ＲＭＩによ
り、１つまたは複数のオブジェクトを要求と共に渡すことができる。さらに、情
報は、ＣＯＲＢＡまたはＤＣＯＭを介して交換されるオブジェクトに格納するか
、または宣言型で（ＸＭＬを介するなどによって）呈示することができる。上に
組み込んだ特許出願ＩＢＭ整理番号ＹＯ９９９−１１１Ｐで考察されているが、
ＣＶＭ（会話型仮想マシン）シェルによってサポートされる会話型関数を、会話
型ＡＰＩを介して会話型アプリケーションとＣＶＭシェルとの間で分散実装する
こと、または会話型エンジンＡＰＩを介してＣＶＭと会話型エンジンとの間で分
散実装することを達成するために、会話型プロトコル（メソッド）（または分散
プロトコル）を使用することができる。会話型エンジンＡＰＩは、コア・エンジ
ンおよびそれらを使用するアプリケーションと、コア・エンジン（ローカルのま
たはネットワーク化された、あるいはその両方の）と通信するためのプロトコル
との間のインタフェースである。会話型ＡＰＩは、会話型に認識しているアプリ
ケーションをフック（hook）するかまたは開発するためのＡＰＩレイヤを提供し
、このＡＰＩレイヤは、会話型ユーザ・インタフェースを構築するための土台の
クラスおよびコンポーネントを含む。

【００２４】同様に、本発明によるダイアログ・マネージャは、ＡＰＩを介してアプリケー
ションおよびエンジン（ローカルのまたはネットワーク化された、あるいはその
両方の）と通信することができる。このようにしてダイアログ・マネージャは、
あたかもローカル・アプリケーションであるかのようにすべてのリモート・プロ
シージャ（リモート・エンジンおよびリモート・アプリケーションへの手続き型
呼出し）からの結果およびコール・バックに作用し、それにより、例えばアプリ
ケーションおよびリソース（ローカルのまたはネットワーク化された、あるいは
その両方の）の間を調停して、アクティブなアプリケーションを優先順位付け、
決定し、どの結果をアクティブとみなすかを決定することができる。

【００２５】会話型発見／登録／折衝プロトコル１１３、１１７は、ローカル・システムま
たは会話型に認識しているネットワーク・システム（すなわち会話型プロトコル
を「話す」アプリケーションまたは装置）を「発見」するのに使用されるネット
ワーク・プロトコル（またはメソッド）である。登録プロトコルは、装置または
アプリケーションがそれらの会話型能力、状態、および引き数を登録できるよう
にする。折衝プロトコルは、装置がマスタ・スレーブ、ピア・ツー・ピア、また
はサイレント・パートナーのネットワークを折衝できるようにする。

【００２６】一実施形態では、発見プロトコルは、「ブロードキャストおよびリッスン」手
法を実装して、他の「ブロードキャストおよびリッスン」装置からのリアクショ
ンをトリガする。これにより、例えば、動的かつ自発的なネットワーク（以下に
考察するBluetoothネットワークおよびホッピング・ネットワークなど）を生み
出すことができる。別の実施形態では、異なるネットワーク装置の「アドレス」
を登録するデフォルト・サーバ（おそらくはマスタ）設定を使用することができ
る。この実施形態では、発見は、ネットワーク中の各装置がサーバと通信して、
そのような装置にどの装置が接続するかを決定するために登録済み装置のリスト
をチェックすることである。発見プロトコルを介して交換される情報は、以下の
通りである。すなわち、（１）ハンドシェークまたは要求のリッスンに対するブ
ロードキャスト要求、（２）装置識別子の交換、（３）最初の登録に対するハン
ドル／ポインタの交換、および（４）最初の折衝に対するハンドルの交換である
。

【００２７】登録プロトコルを実施する場合の一実施形態では、接続時、装置は、フラグの
セットまたは装置特性オブジェクトを交換することにより、それらの会話型能力
に関する情報を、事前構成済みのプロトコル（例えばＴＴＳ英語、任意のテキス
ト、音声認識、５００ワード＋ＦＳＧ文法、話者なし認識など）で交換すること
ができる。同様に、アプリケーションもエンジン要件リストを交換することがで
きる。マスタ／スレーブのネットワーク構成では、マスタ・ダイアログ・マネー
ジャが、すべてのリストを編集し、関数およびニーズを会話型能力とマッチさせ
ることができる。マスタ装置（ダイアログ・マネージャ）がない場合は、共通サ
ーバを使用して、ネットワーク中の各マシンまたは装置に会話型情報を送信する
ことができる。登録プロトコルによれば、以下の情報を交換することができる。
すなわち、（１）定義および更新イベントを含めた、能力および負荷メッセージ
、（２）エンジン・リソース（所与の装置がＮＬＵ、ＤＭ、ＮＬＧ、ＴＴＳ、話
者認識、音声認識、圧縮、コーディング、記憶などを含むかどうか）、（３）Ｉ
／Ｏ能力、（４）ＣＰＵ、メモリ、および負荷能力、（５）データ・ファイルの
タイプ（ドメイン特有、辞書、言語モデル、言語など）、（６）ネットワーク・
アドレスおよび機能、（７）ユーザに関する情報（定義および更新イベント）、
（８）装置、アプリケーション、またはダイアログに対するユーザ選好、（９）
カストマイズ、（１０）ユーザ経験、（１１）ヘルプ、（１２）アプリケーショ
ン（およびアプリケーション状態）ごとの能力要件（定義および更新イベント）
、（１３）ＣＵＩサービスおよび挙動（ヘルプ・ファイル、範疇、会話型優先度
など）に関するメタ情報（定義および更新イベント、通常はテーブルへのポイン
タを介する）、（１４）プロトコル・ハンドシェーク、または（１５）トポロジ
折衝、あるいはこれらすべてである。

【００２８】登録は、ＴＣＰ／ＩＰ、ＴＣＰ／ＩＰ２９、Ｘ−１０またはＣＥＢｕｓなどの
従来の通信プロトコル、および装置間のソケット通信を使用して行うことができ
る。装置は、分散会話型アーキテクチャを使用して、それらに関連する会話型エ
ンジンおよびダイアログ・マネージャに、それらの会話型引き数（例えばアクテ
ィブな語彙、文法および言語モデル、構文解析および変換／タグ付けモデル、声
紋、合成規則、ベースフォーム（発音規則）、ボイス・フォント）を通信する。
この情報は、ダイアログ・マネージャおよび会話型エンジンへのファイルまたは
ストリームとして、あるいはＵＲＬとして渡される。さらに、装置またはアプリ
ケーションのコンテキスト・スタック／履歴を示すか渡すか指すことによってコ
ンテキスト情報を送信することもでき、コントローラはそれにアクセスしてその
コンテキスト・スタックに追加することができる。装置はまた、それらのマルチ
モーダルＩ／ＯおよびＵＩの能力（画面／画面なし、オーディオ・イン／アウト
機能、キーボードなど）に関する情報も渡す。会話型引き数により、ダイアログ
・エンジンは、現在の状態およびコンテキストに基づいてＮＬＵエンジンによる
新しい照会の関連性を推定することができる。

【００２９】折衝プロトコルに関しては、ネットワーク装置およびアプリケーションは、各
ネットワーク装置のニーズおよび能力の登録時に、折衝中の所与の一時構成を主
張することができる。アプリケーションによって構成（すなわちトポロジ）が強
いられる場合は、この決定が自動的に強いられる。そうでない場合は、マスタま
たはスレーブまたはピアになることを要求することができる。要求の計数に基づ
いて、好ましい構成が決定され、（各装置／アプリケーションが保持する利用可
能なリソースのテーブル中にある）すべての装置およびアプリケーションに通信
される。システムは、その状態及び要件を変更するときは常に、ネットワーク化
された他のダイアログ・マネージャ／リソースに通信して、新しい折衝を開始し
、新しい状態およびコンテキスト情報を通信する。

【００３０】音声伝送プロトコル１１４、１１８は、装置が圧縮音声またはローカル処理結
果をネットワーク上の他の装置およびアプリケーションとの間で送受信できるよ
うにする。会話型エンジン１０２、１０７は、音声（または結果）を送信用に圧
縮するため、および、ネットワークを介して別の装置またはアプリケーションか
ら得られた圧縮音声（または結果）をローカル処理用に解凍するための圧縮／解
凍エンジンを含むことが好ましい。音声伝送プロトコルは、処理に向けてネット
ワーク化された他の装置、システム、またはアプリケーションとの間で圧縮音声
を送受信するために、装置中で実行される音声伝送クライアントによって利用さ
れる。装置の音声伝送クライアントは、ネットワークを介して伝送される音声を
処理するのに適した圧縮ハードウェアを使用して、圧縮、解凍、および再構築の
エンジンと共に動作する。音声コーダが、圧縮音声を知覚的に許容できるかまた
は理解できるように再構築すること、および会話型性能（例えば単語エラー率）
を最適化することを可能にする。音声は、ネットワーク化されたそれぞれの装置
上で、音響信号処理エンジン（オーディオ・サブシステム）および適したオーデ
ィオ・ハードウェアを使用して取り込まれる（かつ、特徴に変形される）。さら
に、音声を処理するために、圧縮音声ファイル・フォーマットを装置間で送受信
することもできる。より具体的には、音声伝送プロトコルは、装置が圧縮音声ま
たはローカル処理結果をネットワーク上の他の装置およびアプリケーションとの
間で送受信できるようにする。一実施形態では、送信装置と受信装置との間のハ
ンドシェーク・プロセスの後、データ・ストリーム(パケット・ベース)が受信側
に送信される。パケット・ヘッダが、音声（または結果）をエンコードするため
のコーディング方式およびコーディング引き数（すなわちサンプリング周波数、
特徴特性、次元、フロントエンドに加えられる変形、フロントエンドの性質など
）を指定することが好ましい。さらに、誤り訂正情報（例えば、直前のパケット
が紛失したか遅延した場合に差動デコーダを訂正するための、直前パケットの最
後の特徴ベクトル）、または紛失したパケットを回復（再送）するための適切な
メッセージングを導入することもできる。

【００３１】また、ダイアログ・マネージャは、（上に組み込んだＩＢＭ整理番号ＹＯ９９
９−１１１Ｐで考察されているように）ダイアログ・マネージャ・プロトコルす
なわちＤＭプロトコルを介して通信することができる。ＤＭプロトコルを使用し
て、どのダイアログ・マネージャがアクティブか、またはどのダイアログ・マネ
ージャが入力を受け取るべきかを複数のダイアログ・マネージャ間で折衝する。
ここでの場合、サーバ・リソースは本当に必要なときだけ「ポーリング」される
ので、ＤＭプロトコルは変形形態を形成する。すなわち、ローカル・ダイアログ
・マネージャはアプリオリに、その関数をリモートで実施すべきかどうかを決定
しようとする。間違いや疑問がある状況で、ダイアログ・マネージャはローカル
・エンジンからの推測を待機し、疑問が残る場合に比較するためにサーバをポー
リングすることを決定することができる。

【００３２】したがって上の考察に基づけば、ネットワーク・プロトコルが、会話型サービ
スおよび会話型関数を共用するために調整（または調整されたインタフェース）
をネットワーク化された装置間で可能にすることが明らかになるはずである。調
整されたインタフェースという用語は、異なるアクター（装置／アプリケーショ
ン）すべてが、あたかも会話全体を理解しており、いずれか所与の時間にどれが
対象とされているかが適切に分かっているかのように、それらの間で単一の会話
を保持できることを意味する。各会話型システムまたはアプリケーションの挙動
は、ダイアログ・マネージャ（例えばマスタ・スレーブ・モードでのマスタ）、
アプリケーション（どれがマスタ、スレーブ、またはピアかを確定できるもの）
、システム・ダイアログ・マネージャ（もしあれば）、アーキテクチャおよび折
衝（ピア・ツー・ピア・モードで）によって制御／管理して、各会話型関数を適
切なシステム上で、ユーザにはトランスペアレントに実行することができる。い
くつかの会話型関数、システム、およびリソースがいくつかのネットワーク化装
置（例えばセルラーホン、ページャ、ＰＤＡ）に備わっている可能性があるにも
かかわらず、クライアント装置のユーザにはシームレスな会話型インタフェース
が提供される（すなわち、すべての会話型対話が単一の会話型システムを介して
いるように見える）。

【００３３】調整された会話型システム（前述のものは上に組み込んだＩＢＭ整理番号ＹＯ
９９９−１１１Ｐに開示されている）の一例は、ＵＣＡ（汎用会話型アプライア
ンス）と呼ばれるリモート制御装置である。ＵＣＡは、会話型に認識しているア
プライアンスを発見する。会話型に接続された各アプライアンスは、その会話型
引き数（語彙および文法）をＵＣＡに送信することになる。ＵＣＡは、このよう
なアプライアンスに対するマスタとして働き、ユーザによる会話型対話がそのア
プライアンスへのコマンドとなったときに適切なアプライアンスを更新する。反
対に、コマンドの実行時、またはアプライアンスが状態を変更した時ごとに、ア
プライアンスはリモート制御装置に更新を送信する。他の会話型能力を（対応す
る引き数以外に）有しない会話型アプライアンスは、いわゆる「サイレント・パ
ートナー」である。

【００３４】別の実施形態では、サーバまたは基地局が、リモート制御装置（すなわちＵＣ
Ａ）によって実施されるオーディオ取込み／圧縮／シッピングを除いたすべての
会話型関数を実施することができる。リモート制御装置はまた、いくつかのＵＩ
をユーザに提供して、異なるアプライアンスの状態をユーザに知らせることもで
きる。これは、音声、ＧＵＩ、あるいはこれらのモーダル性（またはその他）の
会話型組合せのいずれかを介して行うことができる。

【００３５】会話型ネットワーク・トポロジは図１のシステムに関して採用することもでき
るが、好ましいネットワーク・トポロジは、自発的な動的ネットワーキング（す
なわち、ある通信範囲内の装置間で自発的に構築されるネットワーク）を実現す
るものである。このような自発的ネットワーキングは、現在登場しつつある「Bl
uetooth」ネットワーキング・プロトコルを使用して実施することができ、Bluet
oothについては、例えばhttp://www.bluetooth.comに記述されている。簡潔に言
えば、Bluetoothとは、その場限りの無線ネットワーク接続性を実現するネット
ワーク・プロトコルに対するコードネームである。より具体的には、Bluetooth
は、特定の範囲内にある装置（スマートホン、セルラーホン、ページャ、ＰＤＡ
、ラップトップ・コンピュータ、モバイル・ユニットなど）の間で短距離無線リ
ンクを実現して、そのような装置間で動的かつ自発的にネットワーク（またはい
わゆる「ピコネット」）を確立するプロトコルである。ピコネットとは、ネット
ワーク接続の残りの間でマスタとして働く各ピコネット中の１つのノードとその
場限りの形で接続されたBluetooth使用可能装置（ノード）の集合を言う。２つ
以上のピコネットをネットワーク接続すると、いわゆるスキャタネット（scatte
rnet）を形成することができる。

【００３６】本発明によれば、自発的な動的ネットワーキング・プロトコルならどれでも実
装できることを理解されたい。例えば、図１のネットワーク・トポロジを、本願
の譲受人に譲渡され、参照により本明細書に組み込む米国特許出願第０９／１９
８３７８号に記載の「ホッピング」通信ネットワークに従って実装することがで
きる。

【００３７】次に図２を参照すると、本発明の一態様による、ネットワーク化された装置間
で会話型関数を自動的かつ調整的に共用することを実現する方法を流れ図に示し
てある。具体的には、図２には、図１のシステムの動作方法の１つをより詳細に
示してある。最初に、例えばディジタル化音声信号の関連特徴をディジタル化し
抽出することによって事前処理されたローカル・クライアント装置に、ユーザが
音声コマンドを言う（または他の方法で照会を発行する）（ステップ２００）。
あるいは、ローカル・ダイアログ・マネージャが、ユーザに出力するための合成
音声（ＴＴＳ）を生成する要求をローカル・アプリケーション１０４から受け取
ることもできる（ステップ２００）。

【００３８】ローカル処理が利用可能かどうか、例えば音声認識または音声合成がローカル
で行えるかどうかについての判定が（ローカル・ダイアログ・マネージャ１０３
を介して）なされる（ステップ２０１）。この判定のために、ローカル・ダイア
ログ・マネージャ１０３は、認識／合成を行わなければならないリモート・サー
バを明示的に事前定義できることを理解されたい（例えば、ソケット接続用のＩ
Ｐアドレス、サーブレットを介したサーバ・ベースの記録用のＵＲＬアドレス、
あるいは直接接続用またはＩＶＲへの接続用の電話番号）。さらに、タスクを行
う（または効率的に行う）ための利用可能なリソースまたは引き数をローカル装
置が有しないという判定を、アプリケーションによってヘッダ・ファイル中に示
されるリソース要件に基づいて、ローカル・アプリケーション１０４の実行時に
ダイアログ・マネージャ１０３によって行うこともできる。さらに、あるコマン
ドまたは要求された関数で、ダイアログ・マネージャをリモート・サーバに自動
的に接続させることもできる。例えば、セキュリティ・アプリケーション（例え
ば話者検証）を自動的にサーバ側処理に切り替え、声紋がクライアントに配信さ
れないようにすることができる。さらに、ローカルのカー・ナビゲーション・シ
ステムを、電話またはソケット・ベースのサーバを使用してリモート・サーバ側
に自動的に切り替え、ローカル装置が大量のナビゲーション情報を記憶しなくて
もよいようにすることもできる。

【００３９】ローカル処理が利用可能だと判定された場合（ステップ２０１で肯定判定）、
処理は、ローカル・エンジン１０２を介してローカルで行われる（ステップ２０
２）。一方、ローカル処理が利用可能でないと判定された場合（ステップ２０１
で否定判定）、関連する特徴／波形／情報が、ネットワーク接続されたリモート
・サーバに自動的に（ＩＰ、ＬＡＮ、Bluetooth、ＩＲ、ＲＦを介して、あるい
は電話またはＩＰ電話を介して）送信され（ステップ２０４）、そこで、（おそ
らくはいくつかのユーザ／サーバ対話によって）リモート処理（例えば音声認識
／合成）が行われる（ステップ２０５）。

【００４０】ローカル・クライアントからネットワーク接続されたリモート・サーバへの音
声の送信（またはその逆）は、様々な技術を使用して行えることを理解されたい
。例えば、波形をファイル、ストリーム、またはパケットのストリームとして直
接送信することができる。また、ＡＤＰＣＭやＡＰＣなどの従来の方法を使用し
て圧縮波形を送信することもできる。さらに、参照により本明細書に組み込むG.
Ramaswamy他の「Compression Of Acoustic Features For Speech Recognition
In Network Environments」Vol. 2、pp.977〜980、Proc. ICASSP、1998に開示さ
れている方法に従って特徴のストリームを送信することもできる。この方法では
、受信側での認識（音声認識、話者認識、またはＮＬＵ）はできるが、信号の再
構築はできない。また、音声の送信は、圧縮した特徴およびピッチ推定に基づく
コーディング方法または方式であって、理解できる再生、さらには快適な再生（
再生、訂正、人間による次の処理、またはアーカイブ）に十分な質で音声信号を
再構築できるようなコーディング方法または方式なら、どれを使用しても行うこ
とができる。このようなコーディング方式は、認識性能を劣化させずに４ｋｂｉ
ｔｓ／秒と５ｋｂｉｔｓ／秒の間の低さのデータ転送率を実現すべきである。そ
の結果、無線モデムまたは無線データ・リンクを介してでも、バックエンド（サ
ーバ）リソースと対話式の交換をリアルタイムで行うことができる。非常に高品
質な再生を実現する同様のコーディング方式を使用した他の方式を採用すること
もできることを理解されたい。また、受信側での劣化を伴わないサーバ側での認
識（音声、話者、ＮＬＵ）と、信号の再構築とを可能にするケプストラ（cepstr
a）特徴の圧縮およびピッチを可能にする方法ならどれでも本発明に関して利用
することができる。この再構築は、後で録音を校正し、誤りを訂正し、あるいは
プロセスを人間が監視するために、後でサーバまたはクライアント（ローカルに
格納されている場合）から再生するのに有用である。適した圧縮方式（コーディ
ング・プロトコル）ならどれでも使用できることを理解されたい。

【００４１】圧縮またはコーディングの方式（伝送プロトコルまたはコーディング・プロト
コル）は、装置間で異なる可能性があることを理解されたい。例えば、入力音声
を（クライアントの）オーディオ取込みシステムからネットワーク化されたリソ
ースに送るためのコーディングは、出力音声（例えばプロンプト、再生、または
ＴＴＳ）をネットワーク化されたリソース（サーバ）からオーディオ出力（クラ
イアント）に送るのに使用されるコーディング・プロトコルとは異なる場合があ
る。実際、前者の場合では、コーディングはサーバ側で良い認識性能を実現する
ように最適化されるべきであり、再生のための再構築は重要だが劇的に重要では
ない。当然、ビット伝送速度（圧縮率）が重要である。ターゲット・ビット伝送
速度に達してそれを維持するために、圧縮率におけるトレードオフを堅固さ（エ
ラー率／特徴歪曲）と知覚品質の間で適合させることができる。また、いくつか
の方式を選択して、いくつかのチャネル歪曲またはバックグラウンド歪曲に堅固
さを加えることもできる。一方、後者のタスク（出力信号）では、理解できるこ
とすなわち知覚品質と快適さとのために、あるいはボイスまたはオーディオのい
くつかの特別な特徴を保存するためにコーディングを最適化すべきである。

【００４２】ローカル処理（ステップ２０２）またはリモート処理（ステップ２０５）の後
、処理の結果が許容できるかどうかについて（ローカル・ダイアログ・マネージ
ャ１０３またはサーバ・ダイアログ・マネージャ１０８を介して）判定がなされ
る（ステップ２０３および２０６）。処理結果が許容できないと判定された場合
（ステップ２０３またはステップ２０６で否定判定）、ローカル・クライアント
またはリモート・サーバは、このような処理を行うことのできるサーバに特徴ま
たは波形を自動的に（ＩＰ、ＬＡＮ、Bluetooth、ＩＲ、ＲＦを介して、あるい
は電話またはＩＰ電話を介した接続を介して）転送する（ステップ２０４または
ステップ２０７）。例えば、このような結果が未知であるか誤って認識されたか
不明瞭である場合（または各リソース（ローカルまたはサーバ）のダイアログ・
マネージャに関連付けられた信頼度基準に基づいて）、音声認識およびＮＬＵの
結果の拒否が行われる場合がある。ローカル・システムまたはリモート・システ
ムからサーバ・システムへの自動接続は、例えば本願の譲受人に譲渡され、参照
により本明細書に組み込む米国特許出願第５９３７３８３号に教示されている技
術を使用して、ローカル音声デコーダから返された音響およびＬＭ（言語モデル
）のスコアのレベルに基づくことができることが好ましい（例えば、これらのス
コアが所与のしきい値に満たないと判定されたときにリモート・サーバが接触を
受ける）。会話型システムから得られた結果が許容できるか否かを判定する（許
容できない場合は別のシステムを考慮する）には、信頼度を、あるいは認識され
た発話または照会を（ダイアログ中またはダイアログ後に）推定するのに適した
基準またはアプローチならどれでも使用できることを理解されたい。

【００４３】ＴＴＳの場合も同様に、ローカル・ダイアログ・マネージャおよびリモート・
ダイアログ・マネージャ１０３、１０８は、テキストの複雑さを調べて、ＴＴＳ
がローカルで行われるかリモートで行われるかを決定することができる。例えば
、語に対する発音規則が未知のとき、またはテキストが複雑な構文解析を必要と
するときは、ＴＴＳはリモートで行われる。別の例は、ＴＴＳが異なるアクセン
ト、方言または異なる言語で発音されなければならない場合、あるいは誰かの特
定の文を模倣することになっている場合である。

【００４４】処理がリモートで行われた後、結果がローカル・クライアントに（電話、ＩＰ
アドレス、ＭＡＣ（メディア・アクセス制御）アドレスなどを介して）送り返さ
れる（ステップ２０８）。出力（すなわちユーザへの音声出力）は、ローカルで
もサーバ上でも合成できることを理解されたい。サーバ上で合成が行われる場合
、合成音声は、ローカルで解凍されるように圧縮形式で（前述の音声伝送プロト
コルを使用して）クライアントに送信することができる。コーディング方式は、
音声特徴をクライアントからサーバに送信するのに使用された方式と同じでも、
異なってもよいことを理解されたい。別法として音声は、クライアントからサー
バへの電話呼出し（コールバック）を介して確立できる接続を使用し、例えば別
のアナログＰＳＴＮ回線を介してサーバから直接に「ブロードキャスト」するこ
ともできる。

【００４５】最近になり、認識された音声に対する適切な信頼度基準を確立する取組みが始
められている。例えば、ＮＩＳＴおよびＤＡＲＰＡによって組織された米国メリ
ーランド州ＭＩＴＡＧＳでの「LVCSR Hub5 Workshop」、１９９６年４月２９日
〜５月１日では、各語に信頼度レベルを付けるための様々なアプローチが提案さ
れた。ある方法は決定ツリーを使用するもので、この決定ツリーは、語依存特徴
（訓練発話の量、最小および平均トライフォン（triphone）発生、言語モデル訓
練中の発生、音素／レフィーム（lefeme）の数、継続時間、音響スコア（ファス
ト・マッチまたは詳細マッチ）、音声非音声）、文依存特徴（信号対雑音比、話
す速度の推定すなわち１秒間の語数またはレフィーム数または母音数、言語モデ
ルから提供される文可能性、可能性比率、フレームごとの正規化された平均可能
性、言語モデル中のトライグラム（trigram）発生）、コンテキスト特徴におけ
る語（言語モデル中のトライグラム発生）、ならびに話者プロファイル特徴（ア
クセント、方言、性別、年齢、話す速度、識別、音響品質、ＳＮＲなど）につい
て訓練されている。訓練データに対し、ツリーの葉ごとにエラーの確率が計算さ
れる。このようなツリーを構築するためのアルゴリズムは、「Classification a
nd Regression Trees」、Chapman & Hal、1993でBreiman他によって考察されて
いる。認識時、これらの特徴のすべてまたはいくつかを認識中に測定し、各語に
ついて決定ツリーを葉の方に進み、そこで信頼度レベルが提供される。また、Ne
ti他の引例「Word Based Confidence Measures As A Guide For Stack Search I
n Speech Recognition」、ＩＣＡＳＳＰ９７、ドイツ、ミュンヘン、１９９７年
４月には、ＩＢＭスタック・デコーダから返されるスコアに完全に依拠する方法
（ログ可能性、実際には平均増分ログ可能性と、詳細マッチ、ファスト・マッチ
を使用する）が記載されている。

【００４６】ＬＶＣＳＲ議事録では、線形回帰を介した予測子を使用する、別の信頼度レベ
ル推定方法も行われている。使用される予測子は、語の継続時間、言語モデル・
スコア、フレームごとの平均音響スコア（最良スコア）、および、トップ選択と
同じ語を有するＮＢＥＳＴリストの小部分である。本発明の一実施形態によれば
、これら２つのアプローチ（決定ツリーを介して測定される信頼度レベルと、線
形予測子を介して測定される信頼度レベル）が組み合わさって、音声認識に限ら
ずどんな変換プロセスにおいても信頼度レベルが系統的に抽出されることを理解
されたい。

【００４７】この領域における過去の進歩および発達スピードに基づき、ここで、いくつか
の種類の変換で、変換されるコンポーネントに信頼度の値（例えば０から１まで
の値であって、０は変換が行われず１は確実を意味する）を関連付けることがで
きると言うことができる。コンポーネントは、テキスト、句、語とすることがで
き、より一般的には、変換する材料のどんな論理ブロックとすることもできる。
前述の線形予測子と決定ツリーの結合が、本発明に採用するのが好ましい一方法
である。実際、例としては、話者認識エンジンから返されるスコア（ファスト・
マッチ・スコアおよび詳細マッチ・スコア、ならびに背景モデルおよびコホート
のスコア）の蓄積を使用して、話者が真に正しく認証される信頼度レベルの決定
ツリーまたは線形予測子、あるいはその両方を構築することができる。実際のと
ころ、話者識別の場合、これは識別段階で得られた識別に対する検証を行うこと
になる。

【００４８】リモート・サーバは、ＴＴＳ規則やベースフォーム、文法などの情報をローカ
ル・クライアントに送信してキャッシュに格納させることができ、したがってロ
ーカル装置は、後でこうした情報を使用して同様の要求をローカルで処理できる
ことを理解されたい。ローカル装置は必要なリソースの不足のせいであるタスク
を行えない場合があるため、サーバ・ダイアログ・マネージャ１０８は、ローカ
ル装置がリモート・サーバに接続したときにその会話型能力をリモート・サーバ
に（前述の登録プロトコルを介して）登録するのに基づいて、こうした処理情報
をローカル・クライアントに送信する決定を行うことができる。

【００４９】本発明は、装置が（そのダイアログ・マネージャを介して）実行する会話型関
数の量が、それらの関数を適時に実行するのに必要なリソースを装置が提供でき
ないほどの量である状況（例えばシステムによって使用される同時ポートが多す
ぎるＩＶＲ）で実施できることを理解されたい。したがってダイアログ・マネー
ジャは、会話型システム管理および負荷管理を実現するように実施することがで
き、それによりダイアログ・マネージャは、特定の関数の実行中に別の会話型シ
ステムを利用して、要求された関数の処理を継続することを決定することができ
る。具体的には図３を参照すると、最初にユーザは、例えばディジタル化音声信
号の関連特徴をディジタル化および抽出することによって事前処理されたローカ
ル・クライアント装置に音声コマンドを言うことになる（ステップ３００）。あ
るいは、ローカル・ダイアログ・マネージャは、ローカル・アプリケーション１
０４から要求を受け取って、ユーザに出力するための合成音声（ＴＴＳ）を生成
することもできる（ステップ３００）。ダイアログ・マネージャは、ローカル処
理が行われるべきかどうかを判定する（例えば音声認識の場合でも、ダイアログ
管理の場合でも、音声合成の場合でも）（ステップ３０１）。この判定は、（前
述のように）ローカルの会話型能力、引き数、およびリソースだけに依拠するの
ではなく、利用可能だが制約のあるローカル・リソースを使用して会話型関数を
実施する際に導入される可能性のある遅延と比較した場合（ローカル装置とリモ
ート装置が同じ関数を実施できると仮定して）の、ネットワーク・トラフィック
輻輳のせいでネットワークが導入するであろう遅延の推定に基づくこともできる
。したがって、例えばコマンドおよび制御関数がローカルで／ネットワークを介
して遅延される危険にさらされる場合、遅延を最小限に抑えるためにリモートで
／ローカルで実行することができる。実際、より長い遅延を扱う可能性のある（
例えば、インターネットやオーディオ・ビジュアル探索などの遅延に対応できる
バックエンド機能に関連することによる）照会を、リソースまたはコストを最適
化する（ローカルのまたはネットワーク化された）システム上で実行することが
できる。

【００５０】また、ネットワーク化された接続が一時的に利用不可能になった場合、あるい
はネットワーク化されたリソースがない場合は、ローカルで実施できるすべての
関数が実施されることになる。その他の関数は、延期モードで（後で接続が再確
立されたときに）実行できる関数と、不適合な関数とに細分することができる。
代表的な例は、口述を介したアドレス帳の更新、電子メールまたはメッセージへ
の返事、あるいは口述一般である。この場合もアプリケーションは、コマンドが
ローカルか、あるいは延期されるかを決定できることが好ましい。延期モードを
有するピア・ツー・ピアを考慮することも可能であり、この場合、延期モード・
マネージャおよびローカル・エンジンが、関数がローカルか延期されるかを決定
する。

【００５１】再び図３を参照すると、ローカル処理が適切であるとダイアログ・マネージャ
が判定した場合（ステップ３０１で肯定判定）、ダイアログ・マネージャは、必
要な会話型エンジンをポートに割り振ることになる（ステップ３０２）。会話型
エンジンをポートに割り振った後で、ダイアログ・マネージャは、元々割り振っ
たポートによって会話型エンジンが現在使用されていない場合に（例えば話者が
現在、聞いているだけで話していないとき）そのエンジンを他のポートに割り振
ることができる（ステップ３０３）。そのローカル・エンジンが再び元々割り振
ったポートに必要になったときは、そのローカル・エンジンが利用可能でなけれ
ば利用可能な別のエンジンを（ローカルでまたはリモート装置上で）利用するこ
とができる（ステップ３０４）。この動的割当て処理は、ダイアログ・マネージ
ャが関数呼出しの継続時間全体にわたり会話型エンジンを決定して各ポートに割
り振る従来の負荷管理とは対照的である。

【００５２】例えば音声をネットワーク・サーバまたはネットワーク装置に送信するための
管理および決定は、システム管理／負荷平衡（クライアント上またはサーバ上の
ダイアログ・マネージャによる）のレベルだけでなく、ネットワークのトラフィ
ックに基づくこともできることを理解されたい。例えば、接続（特にインターネ
ットを介したＴＣＰ／ＩＰベースのネットワーク接続）が過負荷であると見なさ
れた場合（ステップ３０５）、トラフィックに基づいて新しいサーバまたは装置
を選択することができる（ステップ３０６）。この判定は、ＲＳＶＰ（resource
reservation protocol）のような、ＶｏＩＰ（Voice Over Internet Protocol
）プロトコルなどの会話型プロトコルの最上部で行うことができ、これにより、
チャネルが必要なときに関連するサービス品質を適切に予約して接続することが
できる。そうでない場合は、前述のようにリモート処理が行われ（ステップ３０
７）、その結果が返される。

【００５３】本明細書に述べるシステムおよび方法を、音声使用可能かつ会話型の様々なア
プリケーションで実施できることを理解されたい。本発明は、組込み型でパーベ
イシブなコンピューティングの世界ならびにＮＬＵ／ＮＬＧダイアログ・システ
ムにおいて増大する要求を満たすのに特に有用である。しかし、本発明が、組込
みシステムに限らず様々なアプリケーションに向けて展開できることを理解され
たい。以下の例示的な実施形態に、本発明の利点を示す。

【００５４】例えば、スマートホン（例えばＰＤＡ（personal digital assistant）機能付
きの無線電話）で使用するための市販の組込みネーム・ダイヤラが、代表的なア
プリケーションである。例えば、クライアント装置１００がネーム・ダイヤラ・
ローカル・アプリケーション付きのスマートホンであると仮定する。ユーザは、
所望の名前および住所のリストをスマートホンの電子アドレス帳にローカルに格
納することになる。次いでユーザは、「．．．（あり得る修飾子（家、職場、セ
ルラーホン））のだれだれ（氏名）に電話する」などのコマンドを言うことがで
きる。コマンドが（ローカル会話型エンジン１０２を介して）認識／理解される
と、スマートホンは、アドレス帳の中にある人物に関連付けられた電話番号に（
ローカル・アプリケーション１０４を介して）自動的に電話をかける。一方、ア
ドレス帳にはないが（したがって認識／理解されないが）より大きな団体（また
は公衆）の電話帳（リモート・サーバ１０６中に含まれる）の中にはある名前が
発せられたときは、その要求を（特徴または波形で）保管して、リモート・サー
バ１０６に送信し認識させることができる。次いで、リモート・サーバによって
直接に、または適切な情報がリモート・サーバから受信されたときにスマートホ
ンによって、電話がかけられる。別法としてユーザは、最初の段階でリモート・
サーバに接続され、電話すべき名前を再要求するかまたはさらに情報を要求する
ためにダイアログを確立することもできる（ホワイト・ページまたはイエロー・
ページのサービス・タイプの場合）。

【００５５】本発明の別の有用な適用例は、市販のPointCast（http://www.pointcast.com
参照）などの個人情報システムであり、これは、所定のユーザ選好に基づいて、
ユーザが例えば株相場、ある主題の特定ニュース、およびその主題に関する最新
発表情報を得られるようにするものである。本発明によって構築された個人情報
システムでは、ユーザが株（例えばＩＢＭ）または主題（例えばケントのグリン
ピースの生産予想）の情報を得たいと思う場合、ユーザはクライアント装置１０
０に音声要求を言うことになる。「ＩＢＭ」がローカル語彙（ユーザ・プロファ
イル）中にある場合は即座にデコードされ、ユーザは、例えば最後の更新（Poin
tCast）で得られた最新の照会を得る。一方、「グリンピース」に関するユーザ
要求がローカル・クライアント装置１００によって理解されなかった場合は、こ
の要求は（コンテンツ・プロバイダの）リモート・サーバ１０６に特徴ストリー
ムとして自動的に転送され、サーバは、そのような要求をデコードする際により
多くのリソースをつぎ込んで関連情報を検索し（これはいずれにしても行われて
いなければならない）、次いで、そのような情報をローカル・システムに送信す
ることができる。リモート・サーバ・システムが「プッシュ・アプローチ」に従
う場合、これは次の更新（例えばPointCast）時に行うことができる。

【００５６】クライアント装置１００はまた、例えば会話型カー・ナビゲーションを実現す
るための音声使用可能ＰＶＡ（personal vehicle assistant）とすることもでき
る。例えば、ユーザがＣＤ−ＲＯＭをシステムと共に使用したくない場合（スペ
ース不足、電力要件、重量、コスト、衝撃への耐性などの理由で）、ユーザは、
ユーザが現在いる地域／場所、最近いた地域／場所、およびユーザが移動したい
地域／場所に関連する語彙および地図など、限られた情報を格納することを決定
することができる。この例では、ユーザ要求がローカルの語彙と地図のセットに
マッチしないときは、その要求をリモート・サーバ１０６に自動的に送信しデコ
ードして（さらには探索を絞り込むためにユーザにプロンプトを返して）、道程
および地図（または地図の更新）を自動車にダウンロードすることができる。こ
の場合も、最初はローカルの道しか必要とされないため、このようなアクション
は実質上、ユーザにはトランスペアレントとなる（ダウンロードに費用がかかる
場合でも）。

【００５７】さらに、本発明によってＮＬＵ／ＦＳＧシステムを設計することもでき、した
がって、ユーザの要求がＦＳＧ（有現状態文法）を必要とする場合に、その要求
がより複雑かつ自然であるためにリモート・サーバに転送して認識させる必要が
あるのではない限り、その要求をローカルで処理することができる。

【００５８】団体のネーム・ダイヤラ・サービスは、別の興味深い特徴ももたらす。団体は
、その従業員の電話番号のアクティブなデータベースを維持することになる。こ
れらのデータベースは常に最新である。ユーザは、そのローカル情報を団体デー
タベースに同期させることを定期的に選択することができる。これは従来の概念
である。しかし、ユーザがネーム・ダイヤラを利用しているときでＴＣＰ／ＩＰ
を介してサーバに接続する必要があるときに同期を（音声認識段階の間に）とり
、それによりローカル・ダイヤル情報が常に更新されているようにするができる
。同様に、ユーザがユーザのローカル地図に含まれない新しい場所へのナビゲー
ションに対する情報を要求したとき、システムは、ユーザが移動したい地域に関
する音響情報ならびにナビゲーション情報のセットをローカルＰＶＡ上にダウン
ロードすることができる。

【００５９】図１のシステムはまた、本願の譲受人に譲渡され、参照により本明細書に組み
込む、本願と同時出願のＩＢＭ整理番号ＹＯ９９８−３９２Ｐに記載の会話型ブ
ラウザ・システムと共に実施することもできる。この場合、コンテンツ・プロバ
イダ（サーバ）から送信される（かつ会話型ブラウザによって処理される）、視
覚表示用のＨＴＭＬ（ハイパーテキスト・マークアップ言語）ページに類似した
概念のＣＭＬ（会話型マークアップ言語）ページを使用して、ユーザに呈示すべ
き会話型ＵＩを記述する。この例では、クライアント装置１００のローカル・ア
プリケーション１０４またはリモート（ＩＶＲ）サーバ１０６のサーバ・アプリ
ケーション１０９、あるいはその両方を会話型ブラウザとすることができる。コ
ンテンツ・プロバイダまたはアプリケーション開発者（またはプロキシ／トラン
スコーダ）は、すべてのデータをクライアント装置１００に与えてローカルに認
識させるのではなく、ユーザが提供すべき所与の項目（例えば、口述を介して埋
める、あるフォームまたは自由フォームのＮＬＵまたはＦＳＧ入力）がサーバ１
０６上で認識されなければならないと決定することができる（タスクがローカル
・リソースには複雑すぎるか、あるいはネットワークを介して非常に多くの情報
を送信しなければならなくなるため）。これは例えば、処理を行うことになるサ
ーバを識別するためのＵＲＬ（uniform resource locator）およびタグをＣＭＬ
ファイル中に設けるか、あるいはアプレット、ＡｃｔｉｖｅＸコンポーネント、
またはプラグイン（あるいはその変形なら何でも）をＣＭＬページ中にロードす
ることによってなされる（これは通常、ページの作成者による決定である）。こ
れらのアプレット、ＡｃｔｉｖｅＸコンポーネント、またはプラグインは、オー
ディオを取り込み、おそらくはいくつかの会話型関数を実施し、それを他の関数
のための他の装置に送る。この決定は、ＩＢＭ整理番号ＹＯ９９８−３９２Ｐに
記載のトランスコーダおよび登録機構によって自動的に行うことができ、それに
よりブラウザは、ＣＭＬページのフェッチ先であるサーバに対してその能力を明
示的に記述する。トランスコーダを使用してブラウザの能力を追加で考慮し、そ
のような能力にコンテンツを適合させるとき（この能力は会話型プロキシと呼ば
れる）、トランスコーダは、この場合にブラウザの能力に基づいてサーバに宛先
変更するためのサーバＵＲＬを追加することができる。このような場合、クライ
アント装置１００によって収集された音声は、波形（圧縮済または未圧縮）とし
て、または特徴のストリームとしてリモート・サーバ１０６またはネットワーク
化されたサーバ１１０に送信することができ、そこで認識（またはＮＬＵ／ＮＬ
Ｇ）が行われる。次いで、認識結果をクライアント装置１００またはＣＭＬプロ
バイダ・サーバ（リモート・サーバ１０６）に送り返し、次のアクション・コー
スまたは次の処理を決定することができる。この場合も前述のように、所与の入
力、メニュー・フォーム、またはダイアログを認識するのに使用されるリソース
／エンジン／サーバまたはローカル装置のＵＲＬを直接組み込むことのできるア
プリケーションによって決定することができる。また本発明は、ＣＭＬページが
ローカル装置１００のローカル会話型エンジン１０２には複雑すぎるサウンドま
たはテキストを再生／合成しなければならない状況でも有用である。複雑すぎる
部分は、特徴のストリームまたは圧縮波形として、いずれかの特定サーバ（ＣＭ
Ｌページを提供したサーバでも、そうでなくてもよい）から得ることができる。
さらに、マルチリンガル・システムに関し、ＣＭＬページが異なる言語に関係す
る場合、適切な能力を有しないローカル・クライアント装置１００は、会話型関
数をその言語で実施するようリモート・サーバに要求することができる。

【００６０】会話型調整は、会話型ブラウザを有する分散アプリケーションにおいて採用で
きることを理解されたい。例えば図４を参照すると、分散システムは、（前述の
ＹＯ９９８−３９２Ｐで考察されているように）プレゼンテーション・サーバ４
００と、エンジン・サーバ４０１と、会話型ブラウザ４０３を有するクライアン
ト４０２とを有する。ブラウザ４０３は、ＣＭＬフォームのページをプレゼンテ
ーション・サーバ４００から受け取り、ＣＭＬページを処理する。ＣＭＬページ
には、どれに音声を送って処理させるかをブラウザ４０３が決定できるようにす
る情報を含めることができる。エンジン・サーバ４０１上には音声サーバが位置
する。ＣＭＬページがエンジン・サーバ４０１による音声処理を必要とすると仮
定した場合、ブラウザ４０３は、ＨＴＴＰ（あるいはソケットまたはＲＭＩ）を
介して音声サーバに通信して（呼出しを送信して）、音声サーバにオーディオを
送り、適切なデータ・ファイル命令およびエンジン呼出しを送ることができる。
クライアントのブラウザ４０３は、音声処理を（音声ＡＰＩおよび音声認識エン
ジン４０５を介して）行うためのいくつかのローカル処理能力を有するものと仮
定する。前述のように、ローカル音声処理とサーバ側の音声処理との間の移行は
、プレゼンテーション・サーバ４００から受け取ったＣＭＬページによって決定
される。この決定は、コンテンツ・プロバイダによって、または装置への適合に
よってコーディングすることができる（クライアント４０２がそのタスクを行え
ないと判定し、それを既知のまたは発見したサーバまたはトランスコーダに送信
する）。

【００６１】図５では、ブラウザ４０３は、クライアント４０２からアクセスされるブラウ
ザ・サーバ４０４上に位置する（ブラウザ・サーバ４０４は、クライアント４０
２とプレゼンテーション・サーバ４００との間の媒介として働く）。この場合も
ブラウザ４０３は、ローカル側処理とサーバ側処理のどちらを行うかを決定する
。本明細書に述べる会話型コーディングを使用して、オーディオを送ることがで
きる。

【００６２】本発明によれば、低リソースのクライアント装置がトランスペアレントに、単
純なタスクをローカルで行い、かつ、複雑なタスクを、より複雑な会話型能力を
有するサーバ（または他の装置）とのバイナリ接続またはアナログ接続で行うこ
とができる。サーバ側の関数（音声認識など）は、通常のＩＰネットワークまた
はＬＡＮネットワークを介して実施することができ、かつ、従来型の電話回線、
またはパケット交換ネットワークを介したディジタル伝送を介して実施すること
ができ、あるいは、無線ネットワークを介した従来型の無線データ・プロトコル
のいずれかを介して実施することもできる。アナログ／ディジタル接続の実施形
態は、少なくとも２つのシナリオを記述する。第１には、モデムの等価物を実装
したバイナリ接続であり、すべての関数はデータ転送関数である。また、サーバ
／分散リソースが関係するとき、システムはテレフォニー・サーバをリソースと
して呼び出すことができ、音声がネットワークを介して送信される（波形のデー
タ、またはその変形であるケプストラなどの代わりに）。このようなシナリオの
一例は、ローカル音声認識機能（ネーム・ダイヤラおよびディジット・ダイヤラ
）との無線接続であり、これは、ボイスによるインターネット閲覧、株／ミュー
チュアル・ファンド相場の入手、およびボイスによる銀行取引の実施のような他
の機能のためのＩＶＲを備えたテレフォニー・サーバに通常の無線接続を介して
接続するものである。この機構は、今日、いくつかの音声認識能力を装置上に搭
載した既存のセルラーホンで使用することができる。

【００６３】さらに、ネットワークを横断する会話型対話の適切なダイアログ・フローを保
証するために、様々な機構を使用して、ネットワークにわたって分散したトラフ
ィックおよびリソースを管理することもできる。このような機構には、会話型プ
ロトコル（前述の）、オーディオ：ＲｅｃｏＶＣ（Recognition Compatible VoC
oder）（再生のための再構築を可能にするピッチを伴うコーディング・プロトコ
ル）、アプリケーションおよびメタ情報：分散アプリケーション・プロトコル、
発見、登録、折衝、ダイアログ・フローを維持するためのサーバ負荷管理、ダイ
アログ・フローを維持するためのトラフィック平衡およびルーティング、タスク
特徴および能力の要件と会話型引き数使用可能性（データ・ファイル）とに基づ
くエンジン・サーバ選択、会話型引き数配信：記憶、トラフィック／ルーティン
グおよびキャッシングが含まれる。

【００６４】例証的な実施形態を添付の図面に関して本明細書に述べたが、本システムおよ
び方法がこれらの厳密な実施形態に限定されず、当業者なら本発明の範囲または
主旨を逸脱することなく他の様々な変形や修正を加えることができることを理解
されたい。このような変形および修正はすべて、添付の特許請求の範囲に定義す
るように本発明の範囲に含めるものとする。

【図面の簡単な説明】

【図１】本発明の一実施形態による、ネットワーク化された装置間で会話型リソースを
自動的かつ調整的に共用することによって会話型サービスを提供するためのシス
テムのブロック図である。

【図２】本発明の一態様による、ネットワーク化された装置間で会話型リソースを自動
的かつ調整的に共用することによって会話型サービスを提供するための方法の流
れ図である。

【図３】本発明の別の態様による、ネットワーク化された装置間で会話型リソースを自
動的かつ調整的に共用することによって会話型サービスを提供するための方法の
流れ図である。

【図４】会話型ブラウザを採用する本発明の別の実施形態による、会話型サービスを提
供するための分散システムのブロック図である。

【図５】会話型ブラウザを採用する本発明の別の実施形態による、会話型サービスを提
供するための分散システムのブロック図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＣＡ，ＣＮ，ＩＬ，ＩＮ，ＪＰ，ＫＲ，ＵＳ (72)発明者ゴパラクリシュナン、ポナニアメリカ合衆国10598 ニューヨーク州ヨークタウン・ハイツラドクリフ・ドライブ 3073 Ｆターム(参考） 5K101 KK20 LL01 MM07 NN01 NN15 NN21

Claims

【特許請求の範囲】

【請求項１】会話型リソースを自動的かつ調整的に共用することを実現するためのシステム
であって、少なくとも第１および第２のネットワーク装置を含むネットワークを含み、前記第１および第２のネットワーク装置がそれぞれ、会話型リソースのセットと、会話を管理し、会話型サービスを要求する呼出しを実行するためのダイアログ
・マネージャと、前記ネットワークを介し会話型プロトコルを使用してメッセージを通信するた
めの通信スタックとを備え、前記会話型プロトコルを使用して通信される前記メ
ッセージが、前記第１および第２のネットワーク装置それぞれに要求された会話
型サービスを実施するのに必要なとき、前記第１および第２のネットワーク装置
の前記ダイアログ・マネージャ間に調整的なネットワーク通信を確立して、前記
第１および第２のネットワーク装置の前記会話型リソースのセットを自動的に共
用するシステム。
【請求項２】前記第１および第２の装置の前記会話型リソースのセットが、音声認識エンジ
ン、話者認識エンジン、ＴＴＳ（テキスト音声合成）エンジン、ＮＬＵ（自然言
語理解）エンジン、ＮＬＧ（自然言語生成）エンジン、オーディオ取込みおよび
圧縮／解凍エンジン、トピック認識エンジン、オーディオ／マルチメディア索引
付けおよび探索エンジン、ならびにこれらの組合せのうち、少なくとも１つを含
む、請求項１に記載のシステム。
【請求項３】前記会話型プロトコルが調整プロトコルを含み、前記調整プロトコルは、前記
第１および第２の装置の前記ダイアログ・マネージャがそれぞれの会話型状態、
引き数、およびコンテキストを含む情報を交換し、ダイアログ・コンポーネント
を交換することができるようにする、請求項１に記載のシステム。
【請求項４】前記調整プロトコルが、前記第１および第２の装置の前記ダイア
ログ・マネージャ間でマスタ／スレーブ・ネットワーク通信とピア・ツー・ピア
・ネットワーク通信のうちの一方を調整する、請求項３に記載のシステム。
【請求項５】前記会話型プロトコルが発見プロトコルを含み、前記発見プロトコルは、前記
第１および第２の装置が、ネットワーク上で会話型に認識している装置およびア
プリケーションを発見できるようにする、請求項１に記載のシステム。
【請求項６】前記発見プロトコルが「ブロードキャストおよびリッスン」方法を実施する、
請求項５に記載のシステム。
【請求項７】前記発見プロトコルが、少なくとも前記第１のネットワーク装置と前記第２の
ネットワーク装置の間に動的かつ自発的なネットワークを確立するように実施さ
れる、請求項６に記載のシステム。
【請求項８】前記会話型プロトコルが、会話型リソース、能力、および要件に関する情報を
交換するための登録プロトコルを含む、請求項１に記載のシステム。
【請求項９】前記会話型プロトコルが、前記第１のネットワーク装置と前記第２のネットワ
ーク装置の間でそれぞれの会話型リソースおよび能力に基づいてネットワーク構
成を確立するために情報を交換するための折衝プロトコルを含む、請求項８に記
載のシステム。
【請求項１０】前記ネットワーク構成は、前記第１の装置と前記第２の装置のうちの一方の前
記ダイアログ・マネージャが前記第１の装置と前記第２の装置の両方の前記会話
型リソースを制御するマスタ／スレーブ・ネットワークと、前記第１および第２
の装置の前記ダイアログ・マネージャが会話型リソースを制御するために折衝す
るピア・ツー・ピア・ネットワークのうちの一方を含む、請求項９に記載のシス
テム。
【請求項１１】前記会話型プロトコルが、圧縮音声波形、圧縮音声特徴、および圧縮結果のう
ちの１つを前記第１の装置と前記第２の装置の間で伝送するための音声伝送プロ
トコルを含む、請求項１に記載のシステム。
【請求項１２】会話型リソースを自動的かつ調整的に共用することを実現するためのシステム
において、ローカル会話型リソースを備えるクライアントであって、前記ローカル会話型
リソースを管理し、会話型サービスを求める要求を処理し、会話型サービスを求
める要求が前記ローカル会話型リソースを使用して行えるかどうかを判定するた
めのダイアログ・マネージャを備えるクライアントと、サーバ会話型リソースを備えるサーバとを含むシステムであって、前記クライ
アントの前記ダイアログ・マネージャが、前記ローカル会話型リソースを使用し
て前記要求された会話型サービスを実施できない場合に、前記サーバ会話型リソ
ースを使用して前記要求を処理するために前記サーバに自動的にアクセスするシ
ステム。
【請求項１３】会話型リソースをネットワーク装置間で自動的かつ調整的に共用することを実
現する方法であって、会話型サービスを求める要求を第１のネットワーク装置によって受け取るステ
ップと、前記要求された会話型サービスを、前記第１のネットワーク装置の会話型リソ
ースを使用してローカルで処理するか、少なくとも第２のネットワーク装置の会
話型リソースを使用してリモートで処理するか、あるいは前記ローカルの会話型
リソースと前記リモートの会話型リソースを両方とも使用してローカルかつリモ
ートで処理するかを、前記第１のネットワーク装置によって決定するステップと
、前記会話型サービスが少なくとも部分的に、前記少なくとも第２のネットワー
ク装置の前記会話型リソースを使用してリモートで処理されると決定された場合
に、前記少なくとも第２のネットワーク装置と自動的に通信するステップとを含
む方法。
【請求項１４】前記会話型リソースを共用するために、会話型プロトコルを使用してメッセー
ジを送信して、前記第１のネットワーク装置と前記少なくとも第２のネットワー
ク装置との間に調整されたネットワーク通信を確立するステップをさらに含む、
請求項１３に記載の方法。
【請求項１５】前記決定するステップが、前記要求された会話型サービスを処理するのにロー
カル会話型リソースが利用可能かどうかを判定するステップを含み、前記方法は
さらに、前記要求された会話型サービスを処理するのにローカル会話型リソースが利用
可能であると判定された場合に、前記ローカル会話型リソースを使用して前記要
求された会話型サービスを実行するステップと、前記ローカル処理の結果が許容できるかどうかを判定するステップと、前記ローカル処理の結果が許容できないと判定された場合に、前記少なくとも
第２のネットワーク装置に自動的にアクセスして、前記要求された会話型サービ
スをリモートで処理するステップとを含む、請求項１３に記載の方法。
【請求項１６】前記決定するステップが、前記少なくとも第２のネットワーク装置が前記会話
型サービスを処理するよう前記第１のネットワーク装置によって事前指定されて
いるかどうかを判定するステップを含む、請求項１３に記載の方法。
【請求項１７】前記決定するステップが、前記第１のネットワーク装置と前記少なくとも第２
のネットワーク装置との間のネットワーク接続使用可能度とネットワーク・トラ
フィックのうちの一方に基づく、請求項１３に記載の方法。
【請求項１８】前記自動的にアクセスするステップが、前記会話型プロトコルを使用してメッセージを送信することにより、前記少な
くとも第２のネットワーク装置とのネットワーク接続を自動的に確立するステッ
プと、前記少なくとも第２のネットワーク装置に圧縮音声特徴と圧縮波形のうちの一
方を送信するステップとを含む、請求項１４に記載の方法。
【請求項１９】マシンによって読取り可能なプログラム記憶装置において、ネットワーク装置
間で会話型リソースを自動的かつ調整的に共用することを実現する方法ステップ
を実施するために、前記マシンによって実行可能な命令のプログラムを実体とし
て組み入れたプログラム記憶装置であって、前記方法ステップは、会話型サービスを求める要求を第１のネットワーク装置によって受け取るステ
ップと、前記要求された会話型サービスを、前記第１のネットワーク装置の会話型リソ
ースを使用してローカルで処理するか、少なくとも第２のネットワーク装置の会
話型リソースを使用してリモートで処理するか、あるいは前記ローカルの会話型
リソースと前記リモートの会話型リソースを両方とも使用してローカルかつリモ
ートで処理するかを、前記第１のネットワーク装置によって決定するステップと
、前記会話型サービスが少なくとも部分的に、前記少なくとも第２のネットワー
ク装置の前記会話型リソースを使用してリモートで処理されると決定された場合
に、前記少なくとも第２のネットワーク装置に自動的に通信するステップとを含
むプログラム記憶装置。
【請求項２０】前記会話型リソースを共用するために、会話型プロトコルに従ってメッセージ
を送信して、前記第１のネットワーク装置と前記少なくとも第２のネットワーク
装置との間に調整されたネットワーク通信を確立する前記ステップを実施する命
令をさらに含む、請求項１９に記載のプログラム記憶装置。
【請求項２１】前記決定ステップを実施する命令が、前記要求された会話型サービスを処理す
るのにローカル会話型リソースが利用可能かどうかを判定するステップを実施す
る命令を含み、前記プログラム記憶装置はさらに、前記要求された会話型サービスを処理するのに前記ローカル会話型リソースが利
用可能であると判定された場合に、前記ローカル会話型リソースを使用して前記
要求された会話型サービスを実行するステップと、前記ローカル処理の結果が許容できるかどうかを判定するステップと、前記ローカル処理の結果が許容できないと判定された場合に、前記少なくとも
第２のネットワーク装置に自動的にアクセスして、前記要求された会話型サービ
スをリモートで処理するステップとを実施する命令を含む、請求項１９に記載の
プログラム記憶装置。
【請求項２２】前記決定するステップを実施する命令が、前記少なくとも第２のネットワーク
装置が前記会話型サービスを処理するよう前記第１のネットワーク装置によって
事前指定されているかどうかを判定するステップを実施する命令を含む、請求項
１９に記載の方法。
【請求項２３】前記決定するステップが、前記第１のネットワーク装置と前記少なくとも第２
のネットワーク装置との間のネットワーク接続使用可能度とネットワーク・トラ
フィックのうちの一方に基づく、請求項１９に記載のプログラム記憶装置。
【請求項２４】前記自動的にアクセスするステップを実施する命令が、前記会話型プロトコルを使用して、前記少なくとも第２のネットワーク装置と
のネットワーク接続を自動的に確立するステップと、前記少なくとも第２のネットワーク装置に圧縮音声特徴と圧縮波形のうちの一
方を送信するステップとを実施する命令を含む、請求項２０に記載の方法。