JP2002526855A

JP2002526855A - 会話型バーチャル・マシンによる会話型コンピューティング

Info

Publication number: JP2002526855A
Application number: JP2000575021A
Authority: JP
Inventors: コフマン、ダニエル; カマーフォード、ライアム、ディー; デジェナロ、スティーブン、ブイ; エプスタイン、エドワード、エー; ゴパルクリシュナン、ポナニ; マース、ステファン、エイチ; ナハムー、デビッド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-10-02
Filing date: 1999-10-01
Publication date: 2002-08-20
Anticipated expiration: 2019-10-01
Also published as: IL142363A0; JP2002527919A; KR100431972B1; CN1321296A; CA2345665A1; EP1133734A2; EP1163576A4; US20070043574A1; CN1160700C; CA2345661A1; IL142366A; US7729916B2; EP1125279A4; US8082153B2; US7137126B1; US7418382B1; JP2002527800A; EP1125279B1; WO2000020962A3; CN1151488C

Abstract

(57)【要約】【課題】複数の会話認識アプリケーション（１１）（すなわち会話型プロトコルを「話す」アプリケーション）および従来型アプリケーション（１２）にわたる汎用調整マルチモーダル会話型ユーザ・インターフェース（ＣＵＩ）（１０）を提要する会話型コンピューティング・システム。【解決手段】会話認識アプリケーション（１１）は、会話型アプリケーションＡＰＩ（１３）を介して会話型カーネル（１４）と通信する。会話型カーネル（１４）は、登録された会話型機能および要件に基づいて（ローカルおよびネットワークの）アプリケーションおよび装置にわたる対話を制御し、統一された会話型ユーザ・インターフェースと会話型サービスおよび動作を提供する。会話型コンピューティング・システムは、従来のオペレーティング・システム、ＡＰＩ（１５）、および従来の装置ハードウェア（１６）の上に構築することができる。会話型カーネル（１４）は、入出力処理を扱い、会話型エンジン（１８）を制御する。会話型カーネル（１４）は、会話型エンジン（１８）と会話型引数（１７）を使用して、音声要求を照会に変換し、出力および結果を発話メッセージに変換する。会話型アプリケーションＡＰＩ（１３）は、会話型カーネル（１４）が照会をアプリケーション呼出しに変換し、逆に出力を発話に変換してユーザに提供する前に適切に記憶するすべての情報を伝える。

Description

【発明の詳細な説明】

【０００１】本出願は、１９９８年１０月２日出願の米国仮特許出願第６０／１０２９５７
号および１９９９年１月２７日出願の米国仮特許出願第６０／１１７５９５号に
基づく。

【０００２】

【発明の属する技術分野】

本特許出願は、一般には会話型コンピューティングのシステムおよび方法に関
する。より詳細には、本発明は、スタンドアロンＯＳ（オペレーティング・シス
テム）として、または従来のＯＳまたはＲＴＯＳ（リアルタイム・オペレーティ
ング・システム）上で稼動するプラットフォームまたはカーネルとして実施可能
で、従来のプラットフォームおよびアプリケーションとの下位互換性を備えるこ
とも可能なＣＶＭ（会話型仮想計算機）を対象とする。本明細書に記載のＣＶＭ
は、会話型ＡＰＩ（アプリケーション・プログラム・インターフェース）、会話
型プロトコル、および会話型ファウンデーション・クラスをアプリケーション開
発者に開示し、対話およびコンテキスト、会話型エンジンおよびリソース、およ
び異なる会話機能を有するプラットフォームおよび装置間の会話型プロトコル／
通信の管理による会話型コンピューティングを実現するカーネル層を備え、汎用
ＣＵＩ（会話型ユーザ・インターフェース）を提供する。

【０００３】

【従来の技術】

現在、最先端のアーキテクチャ、プラットフォーム、およびＯＳ（オペレーテ
ィング・システム）は基本的にＧＵＩ（グラフィカル・ユーザ・インターフェー
ス）ベースであるかまたはＧＵＩカーネルを中核として構築されているため、Ｐ
Ｃ（パーソナル・コンピュータ）およびワークステーションの分野では、ＧＵＩ
ベースのＯＳが主流になっている。実際、ＵＩが主として音声とＤＴＭＦ（dual
tone multifrequency）Ｉ／Ｏ（入出力）であるＩＶＲ（対話式音声応答）など
の電話アプリケーションを除き、ほとんどの一般的な情報アクセスおよび管理ア
プリケーションは、ＧＵＩパラダイムを中心に構築されている。さらに、他の非
ＧＵＩベースのＵＩは、メインフレームやきわめて専門的なシステムなどのより
古いアーキテクチャと共に使用されている。一般に、ＧＵＩパラダイムでは、ユ
ーザと機械との間のＵＩはグラフィックであり（たとえばマイクロソフトWindow
sやUnix（登録商標）-X Windows）、各プロセスを別個のウィンドウとして表示することによってマルチタスク機能を実現し、それによって、各ウィンドウへの入力がキーボード、マウス、またはペンなどの他のポインティング・デバイスを介して行うことができる（ただし、プロセスによっては、ユーザと直接「対話／インターフェース」していないときには隠すこともできる）。

【０００４】ＧＵＩは、時分割式メインフレームから個別計算機、およびサーバやバックエ
ンド・サービスおよびアーキテクチャなどの他の階層へのパラダイム・シフトを
喚起し、促した。ＧＵＩベースのＯＳは、情報へのアクセスと情報の管理のため
に従来のＰＣクライアント／サーバ・モデルで広く実施されてきた。アクセスさ
れる情報は、装置上でローカルに、インターネットや専用イントラネットを介し
てリモートに、複数のパーソナル・コンピュータ、装置、およびサーバ上に置か
れる場合がある。このような情報には、コンテンツ素材、トランザクション管理
、および生産性向上ツールが含まれる。しかし、情報にアクセスし、管理するの
に、従来のＰＣクライアント／サーバ・モデルから離れて、相互に接続され、ユ
ーザがどこでも、いつでも、どの装置を介してでも情報にアクセスし、管理する
ことができる、数十億のパーベイシブ・コンピューティング・クライアント（Ｐ
ｖＣクライアント）に向かう新しい傾向がある。しかも、この情報へのアクセス
は、使用する装置やアプリケーションとは関係なく、情報とのインターフェース
が同じである。この傾向は、装置の小型化やその機能と複雑さの飛躍的増大と同
調している。それと同時に、電話が依然として情報にアクセスするための最も普
及した通信装置であるため、電話を介した情報へのアクセスと管理の普及への同
様の期待もさらに強くなっている。

【０００５】しかし残念ながら、このような情報へのアクセスは、使用可能な装置やインタ
ーフェースによって制約されており、基礎となる論理は装置によって全く異なる
。実際、この組込み分野における多様性と制約は、他の階層、すなわちデスクト
ップ、ワークステーション、バックエンド・サーバとは比較にならず、したがっ
て、組込み分野はＵＩに重要な課題を提起している。さらに、ＰｖＣクライアン
トの複雑さの増大は、ますます制約が増えている入出力インターフェースと重な
って、ＧＵＩの有効性を大幅に低下させる。実際、ＰｖＣクライアントは、ユー
ザが手や目を使わない対話を望むモバイル環境ではより頻繁に使用されている。
いくつかの制約された機能を備えた組込み装置であっても、ＧＵＩは、超小型の
表示装置には負担がかかりすぎ、乏しい電力とＣＰＵリソースを消費する。さら
に、このようなＧＵＩは、制約のあるインターフェースと取り組むユーザをひる
ませ、使う気を失わせる。さらに、任意の装置を経由して任意の場所からいつで
も情報にアクセスし情報を管理する遍在インターフェースについて最近明確化さ
れたニーズはＧＵＩの限界を示している。

【０００６】最近、コンピュータが使われるところでは至る所で、ボイス・コマンド・アン
ド・コントロール（ボイスＣ＆Ｃ）ＵＩが使われ始めている。実際、シュリンク
ラップ小売製品としての音声認識の最近の成功や、電話ＩＶＲ（対話型音声応答
）インターフェースの一部としての導入の進行により、音声認識は今後重要なユ
ーザ・インターフェース要素となることが明らかになっている。たとえば、電話
会社、コール・センター、やＩＶＲは、音声インターフェースを実現して特定の
作業を自動化し、オペレータの要件や運営コストを減らし、通話処理の迅速化を
図っている。しかし現段階では、ＩＶＲアプリケーション開発者は、それぞれ独
自のプロピライエタリ音声エンジンおよびＡＰＩ（アプリケーション・プログラ
ム・インターフェース）を提供している。対話の開発は複雑なスクリプト記述と
熟練したプログラマを必要とし、これらのプロピライエタリ・アプリケーション
は、一般に、ベンダからベンダへと移植されない（すなわち、各アプリケーショ
ンは特定業務論理向けに丹念に作られ、設計される）。

【０００７】さらに、ＧＵＩベースのＯＳ用の音声インターフェースは、口述筆記やコマン
ド・アンド・コントロール用の市販の連続音声認識アプリケーションを使用して
実施されてきた。しかし、このような音声アプリケーションは、キーボードやマ
ウスの代替となり、ユーザが対象を変えて新しいタスクを開始できるようにし、
対象としているタスクに音声コマンドを与えることができるようにするという意
味で、基本的にＧＵＩベースのＯＳの付加機能である。実際、このような音声イ
ンターフェースを提供している現在のベンダおよび技術開発業者はすべて、ＧＵ
Ｉメニューに焦点を合わせ、選択するためのキーボードまたはポインティング・
デバイスを直接置き換えるために、音声またはＮＬＵ（自然言語理解）をコマン
ド行入力として組み込むことに依存している。このようなアプリケーションでは
、音声は、ヒューマン／マシン対話の根本的変化の方向ではなく、新しい追加の
Ｉ／Ｏモダリティとみなされている。

【０００８】会話システムとしての音声、ＮＬＵ、またはその他の入出力インターフェース
の実現は、オペレーティング・システムへの表面的な組込みに限られるべきでは
ない。また、組込み装置間での遍在的ルック・アンド・フィールに限られるべき
でもない。基礎となるオペレーティング・システムとコンピューティング機能の
設計を根本的に変えるべきである。さらに、入出力媒体での柔軟性により、オペ
レーティング・システムの最も根本的変革には音声入出力を必要とせず、より一
般的なキーボード、マウス、またはペン入力およびディスプレイ出力でも実現可
能である。

【０００９】

【発明が解決しようとする課題】

したがって、既存のアプリケーションへの音声入出力または会話機能の付加、
会話型アプリケーションの構築、従来のオペレーティング・システムへの「音声
」の表面的な組込みをはるかに超える、汎用会話型ユーザ・インターフェースを
介した複数のプラットフォーム、装置、およびアプリケーションにわたる会話型
コンピューティングを提供するシステムがきわめて望ましい。

【００１０】

【課題を解決するための手段】

本発明は、汎用会話型ユーザ・インターフェース（ＣＵＩ）を介した会話型コ
ンピューティングを提供する会話型コンピューティング・パラダイムに基づくシ
ステムおよび方法を対象とする。この会話型コンピュータ・パラダイムは、シス
テムがユーザ対話して、照会とその実行結果の遂行、一義化、または修正を行う
ことを規定する。これらは、コンテキスト、アプリケーション、履歴、およびユ
ーザの選好とバイオメトリックに基づいて、照会、コンテキスト、および操作情
報を抽出し、扱う。これらの中核原理は、音声使用可能入出力インターフェース
を必要とせず、基礎となるコンピューティング・コアに深く浸透する。実際、本
発明による会話型コンピューティング・パラダイムは、音声のない場合にも適用
され、対話がたとえばキーボードを介して行われる場合であっても、対話および
会話を中心に構築されたコンピューティングの本質を表す。ＶＴ１００やPalm P
ilot画面などのダミー端末ディスプレイを介する場合でも、ユーザが、たとえば
並列して稼動している複数のWindowsアプリケーションをシームレスに制御する
ことができるようにするのが、会話型コンピューティング・パラダイムである。

【００１１】本発明の一態様では、会話型パラダイムに基づく会話型コンピューティングを
提供するシステムは、スタンドアロンＯＳ（オペレーティング・システム）とし
て、または、従来のＯＳまたはＲＴＯＳ（リアルタイム・オペレーティング・シ
ステム）上で稼動するプラットフォームまたはカーネルとして実施され、従来の
プラットフォームおよびアプリケーションとの下位互換性を備えることも可能な
ＣＶＭ（会話型仮想計算機）である。このＣＶＭは、会話型ＡＰＩ（アプリケー
ション・プログラム・インターフェース）、会話型プロトコル、および会話型フ
ァウンデーション・クラスをアプリケーション開発者に開示し、対話およびコン
テキスト、会話型エンジンおよびリソース、および異なる会話機能を有するプラ
ットフォームおよび装置間での会話型プロトコル／通信を管理することにより、
会話型コンピューティングを実施するカーネルを提供して、汎用ＣＵＩ（会話型
ユーザ・インターフェース）を提供する。このＣＶＭカーネルは、登録された会
話機能および要件に基づいてアプリケーションおよび装置間の対話を制御する中
核層である。また、入出力モダリティとして音声を付加して会話型システム動作
を実現するにとどまらない統一会話型ユーザ・インターフェースも提供する。Ｃ
ＶＭは、ディスコース、コンテキスト、混在主導権（mixed initiative request
s）、抽象化の能力による会話に類似した方式でタスクを管理することができる
。

【００１２】本発明の一態様では、ＣＶＭは、音声認識、話者認識、テキスト−音声、自然
言語理解、および自然対話生成エンジンを含む会話型サブシステム（ローカルと
分散型のいずれともすることができる）を使用して、ユーザと機械との対話の理
解と生成を行う。これらのサブシステムには、ＣＶＭを介してアクセスする。こ
れらのエンジンは、会話型アプリケーションＡＰＩを介してアプリケーションに
対して隠蔽される。ＣＶＭは、このようなエンジンを会話型エンジンＡＰＩを介
して制御することができる。さらに、会話型ＡＰＩは会話型エンジンＡＰＩを含
むことができる。典型的には、ＣＶＭはこれらのエンジンＡＰＩをアプリケーシ
ョン開発者に直接開示する機能を含む。これは、会話アプリケーションＡＰＩに
含まれた会話エンジンＡＰＩを有することによって、または会話アプリケーショ
ンＡＰＩのレベルでの類似の呼出しおよび機能をエミュレートすることによって
行うことができる。

【００１３】他の態様では、ＣＶＭカーネル層（またはＣＶＭコントローラ）が、対話を管
理し、アクティブな対話、コンテキスト、およびアプリケーションを選択する、
メタ情報マネージャと、リソース・マネージャと、コンテキストスタックと、グ
ローバル履歴と、対話マネージャと、タスク・ディスパッチャとを含む。コンテ
キストスタックは、アクティブ化されたディスコースを使用する各アクティブ・
プロセスのコンテキスト（完全照会引数および状態／モード、すなわちすでに導
入済みの照会引数、任意の入出力イベント、およびアプリケーションによって生
成されたイベント）を、入力理解に必要なデータ（たとえば、音声入力のための
アクティブＦＳＧ、トピック、語彙、または可能な照会）と共に蓄積する。ＣＶ
Ｍカーネルは、ローカルおよびネットワーク化された従来型および会話型のリソ
ース上で生成される異なるタスクおよびプロセス間の調整を行う。ＣＶＭカーネ
ル層は、これらのリソースを追跡し、入力を適切な会話サブシステムに送り、装
置、状態、アプリケーション間の調停を行う。ＣＶＭカーネル層は、アクティブ
会話および会話履歴に従った出力生成および優先順位付け、遅延戻り、ネットワ
ーク・リソース間の委任、およびタスク委任および記憶の調整も行う。

【００１４】本発明の他の態様では、ＣＶＭシステムは、オブジェクト、データ・ストリー
ム・ハンドル、ネットワーク、周辺装置、ハードウェア、ローカルおよびネット
ワーク化ファイル・システムなどの要素に関連付けられたメタ情報を介して高水
準の抽象化および抽象カテゴリも備える。本発明の一態様による抽象メタ情報シ
ステムは、リソースの所有者／開発者またはリソースの過去の使用者／アプリケ
ーションによって定義された複数のカテゴリを含む。このような要素には、抽象
ショートカットおよび混在主導権要求を介してアクセスすることができる。接続
時、またはオブジェクトまたはそのコンテキストに関連付けられた抽象カテゴリ
のリストを更新し、各リソースがその機能を登録する抽象化のテーブルのように
機能する（ＤＮＳサーバまたはネーム空間マネージャと類似した）メタ情報サー
バを介して、新規オブジェクトに関連付けられた新規カテゴリを自動的に作成す
るための登録プロトコルを備える。ダウンロードまたは転送されたオブジェクト
は、同じプロトコルを使用してローカルで登録することができる。抽象メタ情報
を使用して、ネットワークの要素のショートカット、自動抽出、または処理を行
うことができる。

【００１５】他の態様では、ＣＶＭは、（複数のドメインによる）複数のタスク、プロセス
、およびディスコースにわたって記憶されたＮＬＵ、ＮＬＧ、コンテキスト、お
よび混在主導権を有する機能を備える。会話型入力インターフェースを備え、そ
れによって、マルチモード入力ストリームのセットがそれぞれＡＳＣＩＩコマン
ドまたは照会（すなわち、属性値ペアまたはｎタプルのリスト）に書き換えられ
る。各入力エンティティ（コマンド、ＮＬＵ照会フィールドまたは引数ユニット
（分離された文字、語など）にタイム・マークが関連付けられ、複合入力ストリ
ームに付加される。同じタイム・マークを持つ２つ以上のストリームは、各入力
ストリームが前に寄与した時点に基づいて、または各アプリケーション／入力ス
トリームがコンテキスト履歴に基づいて受け取った優先順位に基づいて、優先順
位付けされる。複合入力は、可能なＦＳＧおよび辞書と対照され、任意選択によ
り、ユーザにフィードバックされる。各リソースは、それぞれの会話型機能を交
換し、入力ストリームは該当する情報のみを交換するように調整される。

【００１６】他の態様では、会話型出力ディスパッチおよびインターネット・プロトコルを
備え、それによって複数のタスクの出力が、コンテキスト・スタックおよびタス
ク・ディスパッチャに基づいて単一チャネル出力に待ち行列化される。多重化さ
れている場合であっても、各入力ストリームに割り当てられたリソースをリダイ
レクトまたは修正する機構を設ける。各リソースはその会話型機能を交換し、出
力ストリームは、出力Voiceフォントの選択と会話プレゼンテーションの形式設
定を含めて、該当する情報のみを交換するように調整される。

【００１７】他の態様では、任意の使用可能なリソースを入力ストリームまたは出力ストリ
ームとして使用できるようにするプログラミング／スクリプト言語を使用する。
会話サブシステムを使用して、各入力はバイナリまたはＡＳＣＩＩ入力（属性値
ペアまたはｎタプルのリスト）に変換され、これは組込みオブジェクトとしてプ
ログラミング言語が直接することができる。呼出し、フラグ、およびタグが自動
的に組み込まれ、オブジェクトとプロセスの間で、異なるオブジェクトと正しく
インターフェースするのに必要な会話メタ情報を伝達する。実際、任意のモダリ
ティの任意の入力が、関連付けられたコンテキストまたはコンテキスト・スタッ
クに追加されるイベントとして対話マネージャによってＣＶＭカーネル層によっ
て取り込まれる。たとえば、マウスのクリックまたはポインタ／スタイラスの指
示アクションの後に、「I would like to open this（これを開きたい）」とい
うコマンドが続くと、それは属性値ペアのセットCommand: Open, Object:Window
s、または最後のマウス・クリックで選択されたタスクに一義化される。出力は
アプリケーションまたはユーザの必要に応じて特に形式設定することができる。
新しいプログラミング・ツールを使用してマルチモーダルディスコース処理を容
易に構築することができるようになっている。さらに、このようなプログラミン
グ言語およびスクリプトは、会話使用可能アプリケーションとＣＶＭ、およびＣ
ＭＬ（会話マークアップ言語）の間での会話型ＡＰＩを含む。

【００１８】他の態様では、それぞれのＡＳＣＩＩ／バイナリ・コンテンツに基づいて、ま
たはそれぞれのＮＬＵ変換照会／属性値ｎタプルのリストに基づいて比較可能な
、豊富な会話型照会を扱うように、会話論理ステートメント・ステータスおよび
演算子を拡張する。このようなシステムをテストまたは修正する論理演算子を実
現する。

【００１９】他の態様では、複数の会話型装置またはアプリケーションが、会話認識のみす
るサイレント・パートナを含めて、それぞれの会話型機能を登録することができ
る会話型ネットワーク接続プロトコルを備える。

【００２０】会話型プロトコルを備えて、複数のＣＶＭおよびサイレント・パートナとの会
話を調整し、複数のＣＶＭ装置が会話型接続され、調整されると、単一のインタ
ーフェースを介して（たとえば単一のマイクロフォンを介して）それらを同時に
制御することができるようになるようにする。互いを検出し、それぞれの識別情
報を登録した後、各システムまたは装置はそれぞれの会話型機能に関する情報を
交換し、データ転送を関連する情報のみに限定する。サイレント会話パートナも
同様に振舞い、会話プロキシ・サーバを介して、またはＣＶＭの会話型クライア
ントとして対話することができる。複数のＣＶＭ間の調整には、複数の会話接続
された装置／オブジェクトによって提示される調整された一様な会話型インター
フェースを提供するために動的マスタ−スレーブ対話およびピア・ツー・ピア対
話を行うこともできる。さらに、互いにピア・ツー・ピア式に対話する（全体的
なネットワーク・トラフィックおよび対話フロー遅延を減らすように最適化また
は決定された）複数のローカル・マスタ他のトポロジも考慮することができる。
オブジェクトの集合が、集中または分散コンテキスト・スタックを介してユーザ
に単一の調整されたインターフェースを提示することができる。

【００２１】他の態様では、開発者がＣＶＭ用の会話認識アプリケーションの作成、シミュ
レート、デバッグを行うための開発ツールも設ける。この開発ツールは、ＡＰＩ
呼出し、プロトコル・呼出し、これらのＡＰＩおよびプロトコルを使用したアプ
リケーションの直接実施、関連付けられたライブラリ、ＣＶＭが提供するサービ
スおよび動作を利用するアプリケーションのリンク機能を提供する。これらの開
発ツールによって、Voiceフォントなど、複数のパーソナリティによる会話型イ
ンターフェースの構築が可能になり、それによってユーザは出力データを提供す
る音声のタイプを選択することができる。PostscriptやＡＦＬ（オーディオ・フ
ォーマッティング言語）などの会話プレゼンテーションを構築する会話型形式設
定言語を備える。これらのアプリケーションを実施するコードは、宣言型または
手続き型とすることができる。これは、インタプリタ型またはコンパイラ型スク
リプトおよびプログラムを、ライブラリ・リンク、会話型論理、エンジン呼出し
、および会話型ファウンデーション・クラスと共に含む。会話型ファウンデーシ
ョン・クラスは、モダリティまたはモダリティの組合せとは関係なく、どのよう
な対話でも特徴付ける基本構成要素または会話ジェスチャである。

【００２２】他の態様では、ローカルまたはリモート・ファイル、特に実行可能ファイルの
作成者または変更者あるいはその両方に関するメタ情報を使用して会話型セキュ
リティを設け、無許可のアクセスを防止する。ＣＶＭは、制限されたリソースへ
の照会が行われるたびに、そのリソースに関連付けられたセキュリティ・メタ情
報に基づいて、ユーザの自動認証を行う。この認証は、要求に対して直接または
、照会の前に取得した有効期限切れになっていない情報に対して行われる。

【００２３】他の態様では、ＣＶＭは、会話カスタマイズ機能を備える。リソースへの照会
が行われると自動的にユーザが識別される。この認証は、要求に対して直接また
は、照会の前に取得した有効期限切れになっていない情報に対して行われる。各
タスクまたはリソース・アクセスを、要求者の選好に合わせて個別にカスタマイ
ズすることができる。タスクおよびコンテキストは、アクティブ・ユーザの順序
に従って優先順位付けされ、ユーザ変更のたびに優先順位付けし直される。ユー
ザ識別の変更に基づいて、環境変数をオンザフライで修正することができ、環境
全体をリセットする必要がない。曖昧性は、ユーザ識別を使用して各コンテキス
トまたはコンテキスト・スタックのレベルで解決される。

【００２４】他の態様では、ファイルの名前、修正、またはＡＳＣＩＩコンテンツだけでな
く、オペレーティング・システム、アプリケーション、またはユーザによって定
義された抽象カテゴリや、オペレーティング・システムによってオンラインまた
はオフラインで抽出されたトピック、またはオブジェクトにアクセスしたときに
会話プロトコルを介して入手したトピックにも基づく、会話型探索機能を備える
。さらに、アクティブ照会を完成させたり、または類似の照会／コンテキストを
抽出するコンテキスト探索機能を備える。

【００２５】他の態様では、リソース・マネージャ・レベルで、またはメタ情報、抽象化、
会話型照会／混在主導権／修正に依存するアプリケーション会話型選択機能を備
える。このような会話型選択機能により、基本選択の長いシーケンスが回避され
、選択の自然なショートカットおよび修正が実現される。さらに、階層構造を備
えたオブジェクトのスケルトンに直ちにアクセスし、提示する機構を備える。

【００２６】他の態様では、ローカルおよびリモート・リソース、エージェントおよびユー
ザの利用履歴を使用して、要求の完成、手続きのガイド、情報の探索、および新
規アプリケーションのアップグレード／インストールを行う、汎用調整会話型イ
ンターフェースを介した会話型ヘルプ、マニュアル、およびサポートを備える。
さらに、ヘルプ情報にアクセスするＮＬＵ照会を使用して、または現行ユーザ（
履歴）に関連付けられたメタ情報に基づいて、または欠落したり混在主導権を使
用して修正されたりした引数に基づいて、ヘルプ情報にアクセスすることができ
る。各アプリケーションが備えるダイアログは、ユーザの選好または専門知識の
レベルに合わせて調整される。

【００２７】本発明によるＣＶＭが備えるその他の特徴としては、最小の学習曲線で済む単
純で直観的で自然なインターフェース、音声の使用により生産性が大幅に向上す
る魅力的な会話型アプリケーション、新機能または使用法、自然照会を理解する
ことができる高機能な機械／装置、ハンドフリーまたはアイフリー・モードで作
業を効率的に行うことができる機能、会話型ユーザ入出力を捕捉し、必要に応じ
て置き換える魅力的なマルチモード高生産性ユーザ・インターフェース（ディス
プレイなしかまたは小型ディスプレイ、キーボード、ペン、ポインティング・デ
バイスなし、リモート・コンピューティングなど）、アクセスのために使用する
装置（ＰＣ、ＰＤＡ、電話など）とは独立し、トランザクション／サービス／ア
プリケーションとも独立した汎用ユーザ・インターフェース、１つの装置が複数
の他の装置を制御することができるようにする複数の会話型装置間で調整された
インターフェース、既存のＯＳ、アプリケーション、装置、およびサービスとの
下位互換性がある。

【００２８】

【発明の実施の形態】

本発明は、会話型システムおよびマルチ・モーダル・インターフェースのすべ
ての態様を組み込む会話型コンピューティングのためのシステムおよび方法を対
照とする。本明細書に記載の会話型コンピューティング・パラダイムによる会話
型コンピューティングを実現する重要な構成要素は、ＣＶＭ（会話型仮想計算機
）である。一実施形態では、このＣＶＭは、従来のＯＳまたはＲＴＯＳ上で稼動
する会話型プラットフォームまたはカーネルである。ＣＶＭプラットフォームは
、ＰｖＣ（パーベイシブ・コンピューティング）クライアントおよびサーバによ
って実施することもできる。一般に、ＣＶＭは、会話サブシステム（たとえば音
声認識エンジン、テキスト−音声合成など）と会話型または従来型あるいはその
両方のアプリケーションとの間での会話型ＡＰＩおよびプロトコルを実現する。
また、ＣＶＭは、より限定されたインターフェースを備えた既存のアプリケーシ
ョンとの下位互換性も備えることができる。後述するように、ＣＶＭは、会話型
サービスおよび動作だけでなく、ＣＶＭ層または少なくとも会話認識機能を備え
た複数のアプリケーションおよび装置との対話のための会話型プロトコルも提供
する。

【００２９】本明細書に記載の様々な要素およびプロトコル／ＡＰＩは、それぞれが実行す
る機能またはそれぞれが交換する情報に基づいて定義されることを理解されたい
。それらの実際の編成または実施態様は様々とすることができ、たとえば同一ま
たは異なるエンティティによって実施され、より大きな構成要素の構成要素とし
て、または独立してインスタンス化されたオブジェクト、またはそのようなオブ
ジェクトまたはクラスのファミリとして実施することができる。

【００３０】本発明による本明細書に記載の会話型コンピューティング・パラダイムに基づ
くＣＶＭ（またはオペレーティング・システム）により、コンピュータまたはそ
の他の任意の対話型装置はユーザと会話することができる。さらにＣＶＭにより
、ユーザは、機械にディスプレイやＧＵＩ機能がなく、キーボード、ペン、また
はポインティング・デバイスがない場合でも関係なく、その機械上で複数のタス
クを実行することができる。実際に、ユーザはこれらのタスクを会話と同様に管
理することができ、１つのタスクまたは複数の同時タスクを終了させることがで
きる。タスクを会話のように管理するために、本発明によるＣＶＭは、混在主導
権、コンテキスト、および高レベルの抽象化に依存して様々な機能を実行する機
能を備える。混在主導権により、ユーザはシステムとの対話を通して要求を自然
に完成、変更または修正することができる。また混在主導権とは、ＣＶＭが、タ
スク全体を通じて、特に音声使用可能アプリケーションにおいて、ユーザを積極
的に支援し（主導して支援し）、指示することを意味し、この場合、混在主導権
機能はディスプレイのないシステムや限られたディスプレイ機能しかないシステ
ムを補う自然な方法である。一般には、ＣＶＭは従来のインターフェースおよび
入出力を置き換えるのではなく、それらを補うものである。これは、音声をマウ
ス、キーボード、およびペンなどの他の入出力装置と併用する「マルチモダリテ
ィ」という概念である。装置の限界に特定のインターフェースの実現が含まれる
場合、従来のインターフェースを置き換えることができる。さらに、その結果の
インターフェースの装置、層、およびサービス間での遍在性と一様性も不可欠の
特性である。ＣＶＭシステムは、大体において従来の入力媒体または出力媒体あ
るいはその両方と共に機能することができることを理解されたい。実際に、従来
のキーボード入力および従来のモニタ・ディスプレイに接続されたポインティン
グ・デバイスを備えたコンピュータは、本発明によるＣＶＭを利用することによ
り大きな利益を得ることができる。一例は、米国仮特許出願第６０／１２８０８
１号に記載されている（これには、ＧＵＩモダリティと音声モダリティとが緊密
に同期した真のマルチモーダル・アプリケーションを作成する方法が記載されれ
ている）。言い換えると、コンピュータに話しかけなくないユーザでも、ＣＶＭ
使用可能機械との対話へのダイナミックで積極的な移行を認識することができる
。

【００３１】次に図１を参照すると、クライアント装置またはサーバで実施可能な本発明の
一実施形態による会話型コンピューティング・システム（またはＣＶＭシステム
）がブロック図に示されている。一般に、ＣＶＭは汎用調整マルチモーダル会話
型ユーザ・インターフェース（ＣＵＩ）１０を備える。ＣＵＩの「マルチモーダ
リティ」態様とは、音声、キーボード、ペン、ポインティング・デバイス（マウ
ス）、キーパッド、タッチ・スクリーンなどの様々な入出力リソースを、ＣＶＭ
プラットフォームと共に使用することができることを意味する。ＣＵＩ１０の「
一様性」態様とは、ＣＶＭがデスクトップ・コンピュータ、ディスプレイ機能が
制限されたＰＤＡ、ディスプレイを備えない電話と共に実施されているか否かを
問わず、ＣＶＭシステムが同じＵＩをユーザに提供することを意味する。言い換
えると、一様性とはＣＶＭシステムが、音声のみのものから、音声、マルチモー
ダルすなわち音声＋ＧＵＩ、さらにＧＵＩのみのものまでの範囲の機能を持つ装
置のＵＩを適切に扱うことができることを意味する。したがって、汎用ＣＵＩは
、アクセス・モーダリティに関係なく、すべてのユーザ対話に同じＵＩを提供す
る。

【００３２】さらに、汎用ＣＵＩの概念は、調整ＣＵＩの概念にまで拡大する。具体的には
、（コンピュータ層内または複数のコンピュータ層にわたる）複数の装置が同じ
ＣＵＩを提供すると仮定すると、それらの装置を単一のディスコースすなわち調
整インターフェースを介して管理することができる。すなわち、複数の装置が会
話接続されている（すなわち互いに認識している）場合、それらを１つの装置の
１つのインターフェース（たとえば単一のマイクロフォン）を介して同時に制御
することができる。たとえば、汎用調整ＣＵＩを介して、会話接続された高度自
動機能電話、ページャ、ＰＤＡ、ネットワーク・コンピュータ、およびＩＶＲ、
車載コンピュータを音声による自動的に制御することができる。これらのＣＵＩ
概念については、後で詳述する。

【００３３】さらにＣＶＭシステムは、会話認識アプリケーション１１（すなわち会話プロ
トコルを「話す」アプリケーション）と従来型アプリケーション１２を含む複数
のアプリケーションを含む。会話認識アプリケーション１１は、会話型アプリケ
ーションＡＰＩ１３を介してＣＶＭコア層（またはカーネル）１４と共に動作す
るように特にプログラムされたアプリケーションである。一般に、ＣＶＭカーネ
ル１４は、アプリケーションと装置間の対話をそれらの登録された会話型機能お
よび要件に基づいて制御し、入出力モーダリティとして音声を追加して会話型シ
ステム動作を実現するだけにとどまらない統一された会話型ユーザ・インターフ
ェースを提供する。ＣＶＭシステムは、従来のＯＳとＡＰＩ１５、および従来の
装置ハードウェア１６上に構築することができ、サーバまたは任意のクライアン
ト装置（ＰＣ、ＰＤＡ、ＰｖＣ）上に置くことができる。従来型アプリケーショ
ン１２は、ＣＶＭカーネル層１４によって管理される。ＣＶＭカーネル層１４は
ＯＳＡＰＩを介して従来型アプリケーションのＧＵＩメニューおよびコマンド
と、基礎ＯＳコマンドとにアクセスする。ＣＶＭは、会話サブシステム１８（す
なわち会話エンジン）および従来のＯＳ１５の従来型サブシステム（たとえばフ
ァイル・システムや従来のドライバ）を含む、すべての入出力発行を自動的に扱
う。一般に、会話サブシステム１８は、適切なデータ・ファイル１７（たとえば
、コンテキスト、有限状態文法、語彙、言語モデル、記号照会マップなど）を使
用して、音声要求を照会に変換し、出力をおよび結果を発話メッセージに変換す
る機能を果たす。会話型アプリケーションＡＰＩ１３は、ＣＶＭ１４が照会をア
プリケーション呼出しに変換し、逆に出力を音声に変換して、ユーザに提供する
前に適切に記憶されるすべての情報を伝達する。

【００３４】次に図２を参照すると、本発明の一実施形態による会話型コンピューティング
・システム（またはＣＶＭ）の抽象プログラミング層が図示されている。ＣＶＭ
の抽象層は、会話認識アプリケーション２００と従来型アプリケーション２０１
とを含む。上述のように、会話認識アプリケーション２００は、会話型アプリケ
ーションＡＰＩ層２０３を介してＣＶＭカーネル層２０２と対話する。会話型ア
プリケーションＡＰＩ層２０３は、ＣＶＭカーネル２０２が備える様々な機能（
後述する）を提供するための会話型プログラミング言語／スクリプトおよびライ
ブラリ（会話型ファウンデーション・クラス）を含む。たとえば、会話型プログ
ラミング言語／スクリプトは、アプリケーション開発者が会話認識アプリケーシ
ョン２００をフック（または開発）することができるようにする会話型ＡＰＩを
備える。また、会話型ＡＰＩ層２０３、会話型プロトコル２０４、および、開発
者が会話機能をアプリケーションに組み込んで「会話認識型」にすることができ
るようにするシステム呼出しも備える。アプリケーション、ＡＰＩ呼出し、およ
びプロトコル呼出しを実現するコードには、ライブラリ・リンク、（後述する）
会話型論理エンジン呼出し、および会話型ファウンデーション・クラスを備える
インタプリタ型およびコンパイラ型のスクリプトおよびプログラムが含まれる。

【００３５】具体的には、会話型アプリケーションＡＰＩ層２０３は、複数の会話型ファウ
ンデーション・クラス２０５（または基本対話構成要素）を含み、これは、本発
明によるＣＵＩまたは会話認識アプリケーション２００を構築するために使用す
ることができるライブラリ関数を介してアプリケーション開発者に提供される。
会話型ファウンデーション・クラス２０５は、基本高栄養素または会話ジェスチ
ャ（T.V.Raman（ラーマン）が「Auditory User Interfaces, Toward The Speaki
ng Computer」Kluwer Academic Publishers, Boston 1997で記載している）であ
り、任意の対話を、モダーリティまたはモダーリティの組合せ（手続き式または
宣言式に実施可能である）とは独立して特徴づける。会話型ファウンデーション
・クラス２０５は、ＣＵＩビルディング・ブロック、会話型プラットフォーム・
ライブラリ、対話モジュールおよび構成要素、および対話スクリプトおよびビー
ンを含む。会話型ファウンデーション・クラス２０５は、ローカルで会話型オブ
ジェクト２０６にコンパイルすることができる。具体的には、会話型ファウンデ
ーション・オブジェクト２０６（または対話構成要素）は、JavaやＣ＋＋などの
プログラミング言語によって、これらのライブラリを呼び出すコード中の異なる
個別のクラスを組み合わせることによって、会話型ファウンデーション・クラス
２０５（ファウンデーション対話構成要素）からコンパイルされる。上述のよう
に、コーディングはそのような基本対話構成要素を宣言型コードに組み込むこと
、またはそれらを手続き型コードにリンクすることを含む。会話型ファウンデー
ション・クラス２０５をネストし、埋め込むことによって、特定の対話タスクま
たはアプリケーションを実行する（再使用可能または再使用不能）会話型オブジ
ェクト２０６を（宣言式またはコンパイル／インタプリテーションを介して）作
成することができる。たとえば、会話型オブジェクト２０６は、ＣＭＬ（会話型
マークアップ言語）のページなど（ネストしているか否かを問わず）、宣言式に
実現することができ、会話型ブラウザ（またはビューワ）（２００ａ）によって
処理またはロードされる。対話オブジェクトは、（会話型ブラウザを介して）Ｃ
ＭＬ（会話型マークアップ言語）ページによりロード可能なアプレットまたはオ
ブジェクトと、ＣＶＭ上の手続き型オブジェクト（ＣＶＭ上で分散可能）、ＣＭ
Ｌ内のスクリプト・タグ、およびサーブレット構成要素を含む。

【００３６】本発明により実施可能な会話型ジェスチャのいくつかの例は以下の通りである
。会話型ジェスチャ・メッセージは、機械が情報メッセージをユーザに伝達する
ために使用する。ジェスチャ・メッセージは、一般には、表示文字列または音声
プロンプトとして表される。メッセージのうちの発話される部分は、ＣＶＭ上で
稼動する様々なアプリケーション／対話の現行状態に応じて変わることができる
。「select from set（セットから選択）」という会話ジェスチャを使用して、
個別の選択肢のセットから選択することをユーザに求める対話をカプセル化する
。これは、プロンプト、デフォルト選択、および妥当な選択肢のセットをカプセ
ル化する。「select from range」という会話型ジェスチャ・メッセージは、ユ
ーザが連続した値の範囲から値を選択することができる対話をカプセル化する。
このジェスチャは、有効な範囲、現行選択、および情報プロンプトをカプセル化
する。さらに、入力制約がより複雑な場合（または場合によっては存在しない場
合）に、会話ジェスチャ入力を使用してユーザ入力を入手する。このジェスチャ
は、ユーザ・プロンプト、要求されている情報項目（未定）に関するアプリケー
ション・レベルのセマンティクス、および場合によっては入力の有効性を検査す
るための述語をカプセル化する。上述のように、会話型ファウンデーション・ク
ラスは、会話型ジェスチャの概念を含むが、これだけには限定されない（すなわ
ち、基本動作およびサービスのレベルや、会話型タスクを実行するための規則に
も及ぶ）。

【００３７】後述するように、プログラミング・モデルは、会話型ＡＰＩを介したマスタ対
話マネージャとエンジンとの接続を可能にする。ファウンデーション・クラスの
データ・ファイルはＣＶＭ上に存在する（組込みプラットフォームのためにロー
ド可能）。オブジェクトのデータ・ファイルは、展開およびロード可能である。
異なるオブジェクトが同時に対話マネージャとして機能する。いくつかの会話型
ファウンデーション・クラスの例を以下に示す。

【００３８】低水準対話の会話型ファウンデーション・クラス：（該当する場合に使用可能なマルチモーダル機能）（分散の場合ＣＶＭハンドルを含む） 1. Select_an_item_from_list（リストから項目を入手） 2. Field_filling_with_grammar（フィールドに文法を記入） 3. Acoustic_Enroll_speaker_（話者を音響登録） 4. Acoustic_Identify_speaker（話者を音響識別） 5. Acoustic_Verify_speaker（話者を音響識別） 6. Verify_utterance（発言を検証） 7. Add_to_list（リストに追加） 8. Enroll_utterance（発言を登録） 9. Get_input_from_NL（ＮＬから入力を入手） 10. Disambiguate（一義化）など

【００３９】低水準特殊化対話の会話型ファウンデーション・クラス（該当する場合に使用可能なマルチモーダル機能）（分散の場合ＣＶＭハンドルを含む） 1. Get_Yes/No（Yes/Noを入手） 2. Get_a_date（日付を入手） 3. Get_a_time（時刻を入手） 4. Get_a_natural_number（自然数を入手） 5. Get_a_currency（通貨を入手） 6. Get_a_telephone_number（米国または国際電話番号を入手。規則などを指定
可能。） 7. Get_digitstring（数字ストリングを入手） 8. Get_alphanumeric（英数字を入手） 9. Get_spelling（スペルを入手） 10. Speech_biometrics_identify（発話バイオメトリックの識別） 11. Open_NL（ＮＬを開く） 12. Close_NL（ＮＬを閉じる） 13. Delete_NL（ＮＬを削除） 14. Save_NL（ＮＬを保存） 15. Select_NL（ＮＬを選択） 16. Mark_NL（ＮＬをマーク）など

【００４０】中水準対話の会話型ファウンデーション・クラス（該当する場合に使用可能なマルチモーダル機能）（分散の場合ＣＶＭハンドルを含む） 1. Form_filling（書式記入） 2. Request_confirmation（要求確認） 3. Identify_user by dialog（対話によりユーザを識別） 4. Enrol_user by dialog（対話によりユーザを登録） 5. Speech_biometorics_identify（音声バイオメトリクスを識別） 6. Verify_user by dialog（対話によるユーザの検証） 7. Correct_input（入力を修正） 8. Speech_biometrics_identify（音声バイオメトリクスを識別） 9. Speech_biometrics_verify（音声バイオメトリクスを検証） 10. Speech_biometrics_enrol（音声バイオメトリクスを登録） 11. Manage_table（テーブルの管理） 12. Fill_free_field（フリー・フィールドへの記入） 13. Listen_to TTS（ＴＴＳを聞く） 14. Listen_to_playback（再生を聞く） 15. Simulltaneous_form_filling（同時書式入力） 16. Simultaneous_classes_dialog（同時クラス対話） 17. Summarize_dialog（対話を要約）など

【００４１】高水準アプリケーション固有ファウンデーション・クラス（該当する場合に使用可能なマルチモーダル機能）（分散の場合ＣＶＭハンドルを含む） 1. Manage_bank_account（銀行口座の管理） 2. Manage_portfolio（有価証券の管理） 3. Request_travel_reservation（旅行予約の要求） 4. Manage_e-mail（電子メールの管理） 5. Manage_calender（カレンダーの管理） 6. Manage_addressbook/director（アドレス帳／電話帳の管理）など

【００４２】通信会話クラス 1. Get_list_of CVM_devices（ＣＶＭ装置のリストを入手） 2. Get_capability_of_CVM_device（ＣＶＭ装置の機能を入手） 3. Send_capability_to_CVM_device（ＣＶＭ装置に機能を送る） 4. Request_device_with_given_capability（所定の機能付き装置を要求） 5. Get_handle_from_CVM_device（ＣＶＭ装置からハンドルを入手） 6. Mark_as_Master_CVM（マスタＣＶＭとしてマーク） 7. Mark_as_active_CVM（アクティブＣＶＭとしてマーク） 8. Get_context（コンテキストを入手） 9. Send_context（コンテキストを送る） 10. Get_result（結果を入手） 11. Send_result（結果を送る） 12. Save_on_context（コンテキストを保存）など

【００４３】サービスおよび動作会話型ファウンデーション・クラス（この場合も分散の場合はＣＶＭハンドル付きとすることができる） 1. Get_meta-information（メタ情報を入手） 2. Set_meta-information（メタ情報の設定） 3. Register_category（カテゴリを登録） 4. Get_list_of_categories（カテゴリのリストを入手） 5. Conversational_search（dialog or abstraction-based）（会話探索（対話
ベースまたは抽象化ベース）） 6. Conversational_selection（dialog or abstraction-based）（会話選択（
対話ベースまたは抽象化ベース）） 7. Accept_result（結果を受諾） 8. Reject_result（結果を拒否） 9. Arbitrate_result（結果を調停）など

【００４４】その他のサービス（複数のクラスによる）会話型セキュリティ会話のカスタマイズ会話型ヘルプ会話優先順位付けリソース管理出力形式設定および提示入出力抽象化エンジン抽象化など

【００４５】規則ファースト・ネームから名前を完全に入手する方法電話番号の入手方法住所の入手方法照会のやり直し方法照会の訂正方法など

【００４６】本明細書では、ＣＶＭが提供する開発環境をSPOKEN AGE（商標）と呼ぶ。Spok
en Ageを使用して、開発者はＣＶＭ用の会話認識アプリケーションの作成、シミ
ュレート、およびデバッグを行うことができる。ＡＰＩ呼出しの直接実施を提供
するほか、複数のパーソナリテイによる高機能会話型インターフェース、ユーザ
が出力の音声のタイプを選択することができるVoiceフォント、およびPostcript
やＡＦＬ（オーディオ・フォーマッティング言語）のような会話型プレゼンテー
ションを作成する会話形式設定言語も提供する。

【００４７】前述のように、会話型アプリケーションＡＰＩ層２０３は、汎用会話型入出力
、会話型論理、および会話型メタ情報交換プロトコルを実現する会話型プログラ
ミング言語およびスクリプトを含む。会話型プログラミング言語／スクリプトに
よって、任意の使用可能なリソースを入力ストリームまたは出力ストリームとし
て使用することができるようになる。以下で詳述するように、（ＣＶＭ２０２が
会話エンジンＡＰＩ２０７を介してアクセスする）会話型エンジン２０８および
会話型データ・ファイル２０９を使用して、各入力はバイナリまたはＡＳＣＩＩ
入力に変換され、それをプログラミング言語によって組込みオブジェクトとして
直接処理することができる。呼出し、フラグ、およびタグを自動的に組み込むこ
とができ、異なるオブジェクトと正しくインターフェースするのに必要な会話型
メタ情報をオブジェクトとプロセス間で送ることができる。さらに、アプリケー
ションまたはユーザの必要に応じて出力ストリームを特別に形式設定することが
できる。これらのプログラミング・ツールにより、マルチモーダル・ディスコー
ス処理を容易に構築することができる。さらに、論理ストリーム状況および演算
子を拡張して、ＡＳＣＩＩ／バイナリのコンテンツに基づき、またはそれらのＮ
ＬＵ変換照会（従来型および会話型のサブシステムの入出力）またはＦＳＧベー
スの要求（この場合システムは限定されたコマンドを使用）に基づき比較可能な
豊富な会話型照会を扱う。このようなシステムをテストまたは修正するための論
理演算子が実現可能である。会話型論理値／演算子は拡張されて、真、偽、不完
全、曖昧、ＡＳＣＩＩの視点での異／同、ＮＬＵの視点からの異／同、アクティ
ブ照会フィールドの視点からの異／同、不明、非互換、および比較不能を含む。

【００４８】さらに、会話型アプリケーションＡＰＩ層２０３は、基礎ＯＳの機能および動
作の拡張機能を実現するコードも含む。このような拡張機能としては、たとえば
、任意のオブジェクトに関連付けられた高水準の抽象化および抽象カテゴリ、抽
象カテゴリの自己登録機構、記憶、要約、会話型探索、選択、リダイレクト、ユ
ーザ・カスタマイズ、学習機能、ヘルプ、マルチユーザおよびセキュリティ機能
、ファウンデーション・クラス・ライブラリなどがあり、それぞれについては後
で詳述する。

【００４９】図２に示す会話型コンピューティング・システムは、コア・エンジンである会
話型エンジン２０８（たとえば音声認識、ＮＬ解析、ＮＬＵ、ＴＴＳ、および音
声圧縮／圧縮解除の各エンジン）とそれらを使用するアプリケーションとの間の
インターフェースをとる会話型エンジンＡＰＩ層２０７をさらに含む。エンジン
ＡＰＩ層２０７は、ローカルかリモートかを問わずコア・エンジンと通信するた
めのプロトコルも備える。入出力ＡＰＩ層２１０が、キーボード、マウス、タッ
チ・スクリーン、キーパッド（マルチモーダル会話型ＵＩを実現する）および音
声入出力を取り込む音声サブシステム（音声入力／音声出力）などの従来の入出
力リソース２１１とのインターフェースをとる。入出力ＡＰＩ層２１０は、装置
抽象化、入出力抽象化、およびＵＩ抽象化を備える。入出力リソース２１１は、
入出力ＡＰＩ層２１０を介してＣＶＭカーネル層２０２に登録される。

【００５０】コアＣＶＭカーネル層２０２は、会話型アプリケーションおよび動作／サービ
スマネージャ層２１５、会話型対話マネージャ（アービトレータ）層２１９、会
話型リソース・マネージャ層２２０、タスク／ディスパッチャ・マネージャ２２
１，おおよびメタ情報マネージャ２２０など、ＣＶＭ層２０２の中核機能を実現
するプログラミング層を含む。会話型アプリケーションおよび動作／サービスマ
ネージャ層２１５は、従来型アプリケーション２０１および会話認識アプリケー
ション２００を管理する機能を含む。このような管理機能としては、たとえば、
（ローカルおよびネットワーク分散の両方で）どのアプリケーションが登録され
たか、アプリケーションの対話インターフェース（ある場合）は何か、各アプリ
ケーションの状態の追跡などがある。さらに、会話型アプリケーションおよびサ
ービス／動作マネージャ２１５は、ＣＶＭシステムが提供する特定のサービスま
たは動作に関連付けられたすべてのタスクを開始する。会話型サービスおよび動
作は、ユーザがアプリケーションおよび対話内に存在すると予想できる会話型Ｕ
Ｉのすべての動作および機能と、アプリケーション開発者が（アプリケーション
の開発によって実現しなくても）ＡＰＩを介してアクセス可能であると予想でき
る機能である。ＣＶＭカーネル２０２が提供する会話型サービスおよび動作の例
としては、会話型カテゴリ化およびメタ情報、会話型オブジェクト、リソースお
よびファイル管理、会話型探索、会話型選択、会話型カスタマイズ、会話型セキ
ュリティ、会話型ヘルプ、会話型優先順位付け、会話型遅延処置／エージェント
／記憶、会話型論理、会話型インターフェースおよび装置（それぞれについては
本明細書で詳述する）。このようなサービスは、会話型アプリケーション層２０
３を介してＡＰＩ呼出しにより提供される。会話型アプリケーションおよび動作
／サービス・マネージャ２１５は、装置、アプリケーション、またはユーザ選好
の機能と制約に合わせてＵＩを適合化するのに必要な様々な機能をすべて実行す
る役割を果たす。

【００５１】会話型対話マネージャ２１９は、登録されているすべてのアプリケーションに
わたって対話（ＧＵＩキーボード、ポインタ、マウス、ビデオ入力などの音声お
よびマルチモーダル入出力を含む会話型対話）を管理する機能を含む。具体的に
は、会話型対話マネージャ２１９は、ユーザがもっている情報、ユーザが提示す
る入力、ユーザ入力を扱うべきアプリケーションを判断する。

【００５２】会話型リソース・マネージャ２２０は、登録されている会話型エンジン２０８
（ローカルの会話型エンジン２０８またはネットワーク分散リソース）、各登録
リソースの機能、および各登録リソースの状態を判断する。さらに、会話型リソ
ース・マネージャ２２０は、ＣＰＵサイクルの割振りの優先順位または入出力の
優先順位を付けて、それに続くアクティブ・アプリケーションとの対話を維持す
る（たとえば現行の入力または出力の認識または処理に従事しているエンジンが
優先権を持つ）。同様に、分散アプリケーションの場合、アクティブな前景プロ
セスのためにネットワーク遅延を最小限にするように、使用するエンジンおよび
ネットワーク経路の経路指定と選択を行う。

【００５３】タスク・ディスパッチ／マネージャ２２１は、ローカルおよびネットワーク化
従来型および会話型リソース（後で詳述）上で（ユーザまたは計算機によって）
生成された様々なタスクおよびプロセスのディスパッチと調整を行う。メタ情報
マネージャ２２２は、メタ情報リポジトリ２１８を介して、システムに関連付け
られたメタ情報を管理する。メタ情報マネージャ２２２およびリポジトリ２１８
は、一般に会話型対話では既知であるものとみなされるが現行会話のレベルでは
入手できないすべての情報を収集する。例としては、先験的知識、文化的、教育
的前提事項および不変の情報、過去の要求、参照、ユーザに関する情報、アプリ
ケーション、ニュースなどがある。これは、一般に、会話型履歴／コンテキスト
の長さ／存続期間を超えて保持され、存続する必要がある情報であり、会話にと
って共通の知識であると予想され、したがって現在および過去の会話型対話中に
は決して定義されていないと情報である。また、後述するように、コマンド、リ
ソース、マクロなどへのショートカットも、メタ情報マネージャ２２２によって
管理され、メタ情報リポジトリ２１８に格納される。さらに、メタ情報リポジト
リ２１８は、ユーザ識別に基づくユーザ利用記録を含む。ＣＶＭシステムが提供
する会話型ヘルプや支援などのサービスと、いくつかの対話プロンプト（概説、
質問、フィードバックなど）は、メタ情報リポジトリ２１８に格納され、アプリ
ケーションに関連付けられている、ユーザの利用履歴に基づいて調整することが
できる。ユーザが所与のアプリケーションと以前に対話したことがある場合、ユ
ーザがそれについて熟知していると見なして説明を少なくすることができる。同
様に、ユーザが多くの誤りを犯した場合、多数のエラーは、ユーザがアプリケー
ションまたは機能について不確かであるか、熟知していないか、理解していない
か、または誤って理解しているためであると解釈されるため、説明をより詳しく
することができる。

【００５４】対話マネージャ２１９によってコンテキスト・スタック２１７が管理される。
コンテキスト・スタック２１７は、アプリケーションに関連付けられたすべての
情報を含む。このような情報には、すべての変数、状態、入力、出力、および対
話のコンテキストで行われたバックエンドに対する照会と、対話中に発生した外
部イベントが含まれる。後で詳述するように、コンテキスト・スタックには、各
アクティブ対話（または据置き対話−エージェント／記憶）に対応する編成／ソ
ートされたコンテキストが関連付けられる。ＣＶＭシステムにはグローバル履歴
２１６が含まれ、各アプリケーションのコンテキストを超えて記憶される情報を
含む。グローバル履歴には、たとえば、すべてのアプリケーションに関連付けら
れた情報や会話型セッション中に行われた処置（すなわち現行セッション（また
は機械が起動されてからの）のユーザと機械との間の対話の履歴）が記憶される
。

【００５５】ＣＶＭカーネル層２０２は、（対話マネージャ２１９を迂回せずに）対話マネ
ージャ２１９を介したバックエンド業務論理２１３へのアクセスを可能にするバ
ックエンド抽象化層２２３をさらに含む。これにより、このようなアクセスをコ
ンテキスト・スタック２１７およびグローバル履歴２１６に加えることができる
。たとえば、バックエンド抽象化層２２３は、対話マネージャ２１９との間の入
出力をデータベース照会に変換する。この層２２３は、標準化属性値ｎタプルを
データベース照会に変換し、そのような照会の結果をテーブルまたは属性値ｎタ
プルのセットに変換し戻して対話マネージャ２１９に返す。さらに、ユーザに提
示される動作、ＵＩ、および対話を、ＣＶＭシステムを実行する装置の入出力機
能およびエンジンの機能に基づいて適合化する会話トランスコード層２２４を備
える。

【００５６】ＣＶＭシステムは、ＯＳ２１２が提供する基礎システムサービスの一部として
、通信スタック２１４（または通信エンジン）をさらに含む。ＣＶＭシステムは
、通信スタックを使用して、会話型通信を行うように会話型通信サービスを拡張
する会話型プロトコル２０４を介して情報を送る。通信スタック２１４は、会話
型装置感の会話型通信交換を行うために、本発明の一実施形態により周知のＯＳ
Ｉ（開放型システム相互接続）プロトコル層と共に実現可能であることを理解さ
れたい。当技術分野で周知のように、ＯＳＩは７層を含み、各層は、ネットワー
ク接続された装置のネットワーク分散会話型アプリケーション感の通信を行うた
めにそれぞれの機能を実行する。これらの層（その機能は周知である）は、アプ
リケーション層、プレゼンテーション層、セッション層、トランスポート層、ネ
ットワーク層、データリンク層、および物理層である。アプリケーション層は、
会話型プロトコル２０４を介した会話型通信を可能にするように拡張される。

【００５７】会話型プロトコル２０４によって、一般に、リモート・アプリおよびリソース
は、それらの会話型機能およびプロキシを登録することができる。具体的には、
さらに図３を参照すると、会話型プロトコル２０４（またはメソッド）は、分散
会話型プロトコル３００と、ディスカバリ、登録、および折衝プロトコル３０１
と、音声送信プロトコル３０２とを含む。分散会話型プロトコル３００により、
ネットワーク会話型アプリケーション２００、２００ａ、およびネットワーク接
続装置（ローカル・クライアントおよびサーバなどのその他のネットワーク化装
置）は、情報を交換してそれぞれの現行の会話状態、引数（データ・ファイル２
０９）、およびコンテキストを互いに登録することができる。分散会話型プロト
コル３００は、ネットワーク接続装置（たとえばクライアント／サーバ）間でロ
ーカルおよびネットワークの会話型エンジン２０８、２０８ａを共用することを
可能にする。分散会話型プロトコル３００は、対話マネージャ（ＤＭ）プロトコ
ル（後述）も含む。分散会話型プロトコルは、マスタ／スレーブ会話型ネットワ
ーク、ピア会話型ネットワーク、サイレント・パートナを含む複数の装置および
アプリケーションが関与する会話を調整するための情報の交換を可能にする。分
散会話型プロトコルを使用してネットワーク装置間で交換可能な情報には、デー
タ・ファイル（引数）を指すポインタ、データ・ファイルおよびその他の会話型
引数の転送（必要な場合）、入力イベント、出力イベント、および認識結果の通
知、会話型エンジンＡＰＩ呼出しおよび結果、状態、コンテキスト変更、および
その他のシステム・イベントの通知、登録更新、登録のためのハンドシェーク、
折衝更新、折衝のためのハンドシェーク、要求リソースが失われた場合のディス
カバリ更新が含まれる。

【００５８】さらに、分散会話型プロトコル３００によって、アプリケーションおよび装置
は、アプレット、ActiveX構成要素、およびその他の実行可能コードなどの他の
情報を交換することができるようにし、それによって、装置または関連付けられ
たアプリケーションが、たとえばマスタ／スレーブやピア・ツー・ピア会話型ネ
ットワーク構成およびサイレント・パートナを含むネットワーク内の装置間での
会話と調整することができるようにする。言い換えると、複数のＣＶＭまたは会
話認識装置が会話接続され、調整される場合、単に津のインターフェースを介し
て（すなわち単一のマイクロフォンを介して）それらを同時に制御することが可
能になる。たとえば、音声によって、高度自動機能電話、ページャ、ＰＤＡ、ネ
ットワーク・コンピュータ、ＩＶＲ、車載コンピュータを、固有の調整会話型イ
ンターフェースを介して自動的に制御することができる。サイレント・パートナ
を、他の会話型装置から会話型インターフェースを介して制御することができる
。サイレント・パートナは、ＡＰＩ／プロトコルを介してネットワーク接続ＣＶ
Ｍと対話することができるような会話認識システムである。しかし、サイレント
・パートナは、指定されている機能以外には、ユーザに対して入出力を提示しな
い。たとえば、室内のランプは、ＣＶＭによって検出可能であり、その会話状態
（たとえばそのコマンドが何であるか、すなわち、ランプの点灯、消灯）を登録
することができ、ＣＶＭから送られたコマンドを実行することができることによ
って、会話認識可能であると言える。この形態では、本明細書でＵＣＲＣ（汎用
会話型リモート・コントロール）と呼ぶＣＶＭリモート・コントロールは、検出
されたすべての会話認識器具によってサポートされているコマンドをダウンロー
ドすることができる。その場合、ユーザはこれらのアプリケーションをＣＶＭリ
モート・コントロールと対話するだけで音声により制御することができる。

【００５９】一実施形態では、分散会話型プロトコル３００は、ネットワークを介したアプ
リケーションおよび異なる会話型エンジン間での呼出しを実施するように、ＲＭ
Ｉ（リモート・メソッド呼出）またはＲＰＣ（リモート・プロシージャ呼出し）
システム呼出しを介して実施される。当技術分野で周知のように、ＲＰＣは、１
つのアプリケーションがネットワークを介して別のアプリケーションにサービス
を要求することを可能にするプロトコルである。同様に、ＲＭＩは、分散ネット
ワーク内でオブジェクトどうしが対話することを可能にする方法である。ＲＭＩ
によって、要求と共に１つまたは複数のオブジェクトを受け渡しすることができ
る。

【００６０】会話型プロトコル２０４は、会話型ディスカバリ（検出）、登録、および折衝
の各プロトコル３０１（またはメソッド）をさらに含む。登録プロトコルは、装
置間のデータ転送を該当情報に限定し、マスタ／スレーブまたはピア・ネットワ
ークの折衝を行うように、各ネットワーク装置またはアプリケーションがそれぞ
れの会話型機能、状態／コンテキストに関する情報の交換と登録を行えるように
する。（会話認識のみの）サイレント会話型パートナも同様に動作し（すなわち
それぞれの機能などを登録し）、会話型プロキシ・サーバを介して、またはＣＶ
Ｍの会話型クライアントとして対話することができる（すなわち、サイレント・
パートナはＣＶＭ装置への会話型登録を使用する）。

【００６１】登録プロトコルにより交換可能な情報は、（１）機能と、定義および更新イベ
ントを含むロード・メッセージ、（２）エンジン・リソース（所与の装置がＮＬ
Ｕ、ＤＭ、ＮＬＧ、ＴＴＳ、話者認識、音声認識圧縮、コーディング、記憶など
を含むか否か）、（３）入出力機能、（４）ＣＰＵ、メモリ、およびロード機能
、（５）データ・ファイル・タイプ（ドメイン固有、辞書、言語モデル、言語な
ど）、（６）ネットワーク・アドレスおよび機能、（７）ユーザに関する情報（
定義および更新イベント）、（８）装置、アプリケーション、または対話のため
のユーザ選好、（９）カスタマイズ、（１０）ユーザの経験、（１１）ヘルプ、
（１２）アプリケーション（およびアプリケーション状態）ごとの機能要件（定
義および更新イベント）、（１３）ＣＵＩサービスおよび動作（ヘルプ・ファイ
ル、カテゴリ、会話優先順位など）のためのメタ情報（典型的にはテーブルを指
すポインタを介した定義および更新イベント）、（１４）プロトコル・ハンドシ
ェーク、（１５）トポロジ折衝である。

【００６２】登録は、ＴＣＰ／ＩＰ、ＴＣＰ／ＩＰ２９、Ｘ−１０、ＣＥＢｕｓなどの従来
の通信プロトコルや装置間のソケット通信を使用して行うこともできる。装置は
、分散会話型アーキテクチャを使用してそれに関連付けられた会話型エンジンお
よびＣＶＭコントローラに、それぞれの会話型引数（たとえばアクティブ語彙、
文法、言語モデル、解析および翻訳／タグ付けモデル、声紋、合成規則、ベース
フォーム（句読規則）および音声フォント）を伝達する。この情報は、ファイル
またはストリームとしてＣＶＭコントローラおよび会話型エンジンに渡されるか
、またはＵＲＬ（または前述のように装置間の情報交換レベルでの宣言または手
続き、オブジェクトおよびＸＭＬ構造）により渡される。登録プロトコルを実施
する一実施形態では、装置は、接続時に、フラグのセットまたは装置特性オブジ
ェクトを交換することによって、事前準備されたプロトコルを使用して会話型機
能に関する情報（たとえばＴＴＳ英語、任意のテキスト、音声認識、５００ワー
ドおよびＦＳＧ文法、話者認識なしなど）を交換することができる。同様にアプ
リケーションはエンジン要件リストを交換できる。マスタ／スレーブ・ネットワ
ーク構成では、マスタ対話マネージャはすべてのリストをコンパイルし、機能お
よび必要なものを会話型機能と突き合わせる。さらに、装置またはアプリケーシ
ョンのコンテキスト・スタック／履歴を指示、受け渡し、または指すことによっ
て、コントローラがそのコンテキスト・スタックにアクセスし、追加することが
できるコンテキスト情報を送ることができる。装置は、そのマルチモーダル入出
力およびＵＩ機能（画面あり／画面なし、音声入出力機能、キーボードなど）に
関する情報も渡す。会話型引数によって、対話エンジンは、現在の状況およびコ
ンテキストに基づいてＮＬＵエンジンによる新規照会の関連性を推定することが
できる。

【００６３】会話型ディスカバリ・プロトコル３０１は、装置の自発的ネットワーク化会話
型クライアント２３０、２３０ａが、ローカルまたはネットワークの会話認識シ
ステムを自動的に検出し、そのような会話認識システムを動的かつ自発的にネッ
トワーク接続するために使用する。ディスカバリ・プロトコルを介して交換され
る情報には、（１）ハンドシェークのブロードキャスト要求または要求の聴取、
（２）装置識別子の交換、（３）最初の登録のためのハンドル／ポインタの交換
、（４）最初の折衝のためのハンドルの交換が含まれる。

【００６４】さらに、折衝プロトコル３０１は、動的マスタ／スレーブおよびピア・ツー・
ピア対話において複数のＣＶＭシステム間の適切な調整を実現するように、マス
タ／スレーブまたはピア・ネットワーキング間の折衝を可能にする。具体的には
、複数のＣＶＭ装置が登録時に、会話型登録機能に、たとえば、制御機能、それ
らの装置がアクセス可能な会話エンジン、それらの装置に登録済みでそれらの装
置が制御するアプリケーションおよび装置に関する情報を加える。ＵＩ、入出力
機能、およびアクティブ入出力に基づいて、１つのＣＶＭコントローラがマスタ
になり、他のＣＶＭコントローラがスレーブとして機能するが、これは新しい折
衝が行われるまで登録アプリケーションであるという点でマスタと相対的には同
等である。マスタとスレーブの役割は、アクティブ入出力モーダリティに基づい
て、またはアクティブ・アプリケーションに基づいて動的に交換可能である。

【００６５】音声送信プロトコル３０２（または会話型コーディング・プロトコル）は、
音声送信クライアント３８、３８ａが他のネットワーク装置、システム、または
アプリケーションとの間で圧縮音声を処理のために送受信するために使用する。
音声送信クライアント３８、３８ａは、ネットワークを介して送信された音声を
処理するために、適合する圧縮ハードウェア２３５、２３５ａを使用して、圧縮
、圧縮解除、再構築エンジン２３４、２３４ａと共に動作する。音声コーダ２３
４、２３４ａは、圧縮音声の知覚的に受容可能または理解可能な再構築と、最適
化された会話パフォーマンス（たとえば語誤り率）を実現する。音声は、それぞ
れのネットワーク装置上で、音響信号処理エンジン（音声サブシステム）２３２
、２３２ａと適合する音声ハードウェア２３３，２３３ａを使用して取り込まれ
る（さらにフィーチャに変換される）。さらに、音声処理のために装置間で圧縮
音声ファイル形式３０３を送受信することができる。具体的には、音声送信プロ
トコル３０３によって、装置は圧縮音声またはローカルの処理結果をネットワー
ク上の他の装置およびアプリケーションとの間で送受信することができる。前述
のように、会話型エンジン２０８（図２）は、送信のために音声（または結果）
を圧縮し、ローカル処理のためにネットワークを介して他の装置またはアプリケ
ーションから入手した圧縮音声（または結果）を圧縮解除する、圧縮／圧縮解除
エンジン２３４を含むことが好ましい。一実施形態では、送信側装置と受信側装
置戸の間のハンドシェーク・プロセスの後に、（パケット方式の）データ・スト
リームを受信側に送る。パケット・ヘッダによって、音声（結果）を符号化する
ために使用するコーディング方式とコーディング引数（サンプリング周波数、フ
ィーチャ特性、ベクトル次元、フィーチャ変換／ファミリなど）を指定すること
が好ましい。さらに、誤り訂正情報（たとえば、直前のパケットが失われたり遅
延した場合に差分デコーダを修正するための直前のパケットの最後のフィーチャ
・ベクトル、または失われたパケットを復元（再送信）するための適切なメッセ
ージング）も組み込むことができる。

【００６６】図９、図１０、および図１１に示すように、会話型プロトコル２０４は、ネッ
トワーク装置の対話マネージャ（ＤＭ）（ＤＭについては後述）間での情報交換
のためのプロトコルをさらに含む。たとえば図９に示すように、分散アプリケー
ション（分散アプリケーション２００ａ）では、所与の機能をどの対話マネージ
ャ（２１９または２１９ａ）が実行するかを判断するための情報を交換するため
に対話管理プロトコルを使用する。典型的には、異なる装置、ＣＶＭ、または異
なるアプリケーションがそれ独自の対話マネージャ、コンテキスト・スタック２
１７、２１７ａ、およびグローバル履歴２１８、２１８ａを有する。それらの異
なる対話マネージャは、（分散プロトコル３００（図３）の一部である）対話マ
ネージャＤＭプロトコルを介して、マスタ対話マネージャおよびスレーブまたは
対等対話マネージャと、トポロジを折衝する。アクティブ・マスタ対話マネージ
ャ（図９で対話マネージャ２１９として図示されている）は、それらの異なるマ
ネージャへの入出力の流れを管理してアクティブ対話を決定し、照会を適切に実
行し、コンテキストと履歴を更新する役割を果たす。たとえば、交換可能な情報
は、（１）ＤＭアーキテクチャ登録（たとえば各ＤＭはローカルＤＭの集合とす
ることができる）、（２）関連付けられたメタ情報（ユーザ、装置、機能、アプ
リケーションの必要事項など）を指すポインタ、（３）ＤＭネットワーク・トポ
ロジ（たとえばマスタ／スレーブ、ピア・ツー・ピア）の折衝、（４）該当する
場合、すなわちマスタＤＭによって制御されるエンジンを使用する場合、データ
・ファイル（会話型引数）、（５）エンジンへの転送やコンテキストへの追加の
ためのユーザ入力、ユーザへの出力など、入出力イベントの通知、（６）認識イ
ベントの通知、（７）エンジンからマスタＤＭへの処理済み入力の転送、（８）
マスタＤＭの責任の登録ＤＭへの転送、（９）ＤＭ処理結果イベント、（１０）
ＤＭ例外、（１１）信頼結果および曖昧結果、提案フィードバックおよび出力、
提案実行状態、提案アクション、提案コンテキスト変更、提案新規対話状態の転
送、（１２）決定通知、コンテキスト更新、アクション更新、状態更新など、（
１３）完了、失敗、または割り込まれたアクションの通知、（１４）コンテキス
ト変更の通知、（１５）アクションによるデータ・ファイル、コンテキスト、お
よび状態の更新である。さらに、アクション、入出力イベント、バックエンド・
アクセスは、従来のリソース・マネージャおよびタスク・ディスパッチャ・マネ
ージャと共用される情報である。

【００６７】図１０および図１１に、本発明による対話管理のシステムおよび方法を示す。
具体的には、図１０には、様々な装置／アプリケーション（ｌ、ｋ、およびＮ）
の複数の対話マネージャ（すなわち、マスタ・アービトレータと、スレーブ・対
話マネージャｌ、ｋ、およびＮ）間の階層的対話を図示する。図１０には、点滴
的なマスタ／スレーブ・トポロジが示されている。前述のように、このトポロジ
は、ＤＭプロトコルを介して関連する情報を交換することによって形成される。
一方、図１１には、主ルート（アービトレータ）対話マネージャのみが、１つま
たは複数のアプリケーションまたは装置（ｌ、ｋ、Ｎ）のために対話マネージャ
・タスクを行う他のマスタ／スレーブ構成が図示されている。この場合、マスタ
対話マネージャ・アービトレータは、存在する唯一の対話マネージャであり、グ
ローバル・コンテキストおよび履歴（場合によってはアプリケーション固有のコ
ンテキストおよび履歴の分類を有する）を維持する。ＤＭプロトコルでは、各ア
プリケーションおよび装置と中核ルート対話マネージャとの間で属性値ｎタプル
を交換する必要がある。

【００６８】複数の装置／アプリケーションが関与する場合であっても、図１０に示すよう
に実際の対話管理プロセスは単一の装置上の単一の対話マネージャによって逐次
実行することができることを理解されたい。この２つの状況の相違は、ユーザが
、所定のタスクのために特化されたエンティティごとに１つの会話をもって複数
の会話を行う感じを持つのに対し、複数のタスクを行う１つのエンティティとの
会話を行っている感じを持つことである。これらのトポロジのそれぞれは、ＤＭ
プロトコルを介して折衝するか、またはユーザ選好、アプリケーションによる選
定、またはＣＶＭデフォルト設定値によって設定することができる。

【００６９】次に図４を参照すると、本発明の一実施形態によるＣＶＭシステムの会話型カ
ーネルの会話型システムおよびコア機能モジュールの詳細なアーキテクチャが図
示されている。図４のシステムおよびそれに付随する説明は、実施例を示す例示
のためのものであり、当業者なら本発明の主旨によるＣＶＭを実施する他の構成
要素またはシステム・アーキテクチャを考えることができることを理解されたい
。さらに、これらの要素のそれぞれをアプリケーション内または既存のオペレー
ティング・システム下のプラットフォームとしてスタンドアロン・モードで導入
するか、またはこれらの異なる新規要素を中心に構築されたコア・カーネルを持
つ真のＣＶＭで導入することができることを理解されたい。基礎オペレーティン
グ・システムに対する会話型呼出しは、ＣＶＭによって取り込み、実施すること
ができ、それによって移植性が可能になる。その場合、ＣＶＭは既存のプラット
フォームのためのスタンドアロン・プラットフォームとして構成される。

【００７０】図４を参照すると、本発明の一実施形態による会話型システム４００は、相対
的に、会話型サブシステムの組合せと、ＣＶＭ４０１によって実行され、管理さ
れる会話型サブシステムとを含む。ＣＶＭ４０１は、タスク・ディスパッチャ／
コントローラ４０２と、メタ情報マネージャ４０３と、対話コントローラ４０４
（または上述の対話マネージャ）と、コンテキスト・スタック４０５と、会話型
サブシステム・サービス・マネージャ４０６とを含む。本明細書では、「ＣＶＭ
コントローラ」という用語はタスク・ディスパッチャ／コントローラ４０２と対
話コントローラ４０４とを集合的に指すものと理解されたい。一般に、ＣＶＭ４
０１は会話型および会話型の入力ストリームを複数のアクションに伝え、格納さ
れた出力を会話型または従来型あるいはその両方の出力ストリームを介してユー
ザに対して出力する。

【００７１】会話型システム４００は、たとえば音声認識システム４０８、話者認識システ
ム４０９、リソース言語理解および自然言語解析システム４１０、テキスト−音
声合成（ＴＴＳ）システム４１１などを含む複数の会話型リソース・サブシステ
ム（エンジン）４０７をさらに含む。会話型リソース４０７はＮＬＧ（自然言語
生成）エンジンや音声サブシステムなどの他のシステムを含むこともできること
を理解されたい。前述のように、これらの会話型サブシステム４０７のそれぞれ
には、ＣＶＭ４０１に対するＡＰＩ呼出しを介してアクセスすることができる。
ＣＶＭ４０１は、（会話型サブシステム・サービス・マネージャ４０６を介して
）要求先の会話型サブシステム４０７を探し出し、その実行を促し、しかるべく
結果を返す。これらの会話型サブシステム４０７は、ローカル、またはネットワ
ークを介して分散させることができることと、（開発者がエンジン４０７の特定
の動作を実施したい場合、エンジンＡＰＩは常にアプリケーションにとって使用
可能であるが）すべての会話型サブシステム呼出しは、アプリケーションに対し
て隠蔽されることを理解されたい。

【００７２】会話型サブシステム・サービス・マネージャ４０６は、ＣＶＭ４０１によって
提供される（本明細書に記載の）すべてのサービス、ＵＩおよび動作を管理する
。会話型サブシステム・サービス・マネージャ４１２は、基礎オペレーティング
・システム（または、基礎ＯＳがない場合でも従来の入出力システム）によって
提供されるすべてのサービスおよびＵＩを管理する。

【００７３】ＣＶＭ４０１の中核は、対話コントローラ４０４の制御下で動作し、管理され
るコンテキスト・スタック４０５である（コンテキスト・スタック４０５は前述
のグローバル履歴及びメタ情報リポジトリに直接関係することを理解されたい）
。一般に、コンテキスト・スタック４０５は、アクティブ化されたディスコース
（すなわち所与のタスク／プロトコル／スレッドに関連付けられた会話型対話）
を持つ各アクティブ・プロセスのコンテキスト（すなわち属性値ｎタプルの完全
照会引数リスト、および状態／モード）を、入力の理解に必要と考えられる異な
るエンジンのためのデータ・ファイル４１３（または少なくともそのような会話
引数の識別子）（たとえば、エンジンがＦＳＧ、トピック、語彙、ＨＭＭ（隠れ
マルコフ・モデル）、声紋、言語モデル、音声入力のための考えられる照会など
のそれぞれのタスクを実行するのに使用するファイルまたは引数）と共に蓄積す
る。言い換えると、「コンテキスト」という用語は、（アクティブと非アクティ
ブとを問わず）各ディスコースの状態を指し、ディスコースの過去の履歴、その
現行状態、特定の特性、および対応するタスクの照会引数（たとえば各アクティ
ブ・タスク／プロセスの語彙ファイル、言語モデル、解析、タグ、声紋、ＴＴＳ
規則、文法、ＮＬＵなど）を、入力理解に必要なデータと共に追跡する。分散Ｃ
ＶＭ（後述）では、（コンテキストおよびグローバル履歴に関して前述したよう
に）コンテキスト・スタック（およびその他のＣＶＭ構成要素）はネットワーク
・サービスに直接関連付けることができる（すなわちネットワークを介して分散
される）ことを理解されたい。

【００７４】具体的には、各新規タスク、プロセス、またはスレッドは、新しいスタック項
目を作成し、ディスコースに関連付けられる。各アプリケーションは、複数のデ
ィスコース（たとえばアプリケーション管理ディスコースとアプリケーション・
コンテンツ・ナビゲーション・ディスコース）と関連付けることができる。所与
のディスコースに関連付けられた各コンテキストは、対応するプロセス／タスク
／スレッドに対して行われた最新の要求および最新の出力を含む。所与のディス
コースのコンテキストには、たとえば実際の照会をマップするアクティブな文法
、語彙、および記号言語も関連付けられる。この場合も、最新の情報が履歴およ
びコンテキスト・スタックに格納される。過去の履歴、コンテキストおよびその
他の情報は、メタ情報マネージャ４０３によって管理され、メタ情報の一部とし
て記憶される。

【００７５】対話コントローラ４０４は、（後述するようにタスク管理がタスク・ディスパ
ッチャ／コントローラ４０２によって制御されて）ネットワーク装置からローカ
ルまたはリモートで生成される各新規タスク／プロセス／スレッドのためにコン
テキスト・スタック４０５内に新しいスタック項目を作成することによって、コ
ンテキスト・スタック４０５を管理する。各アクティブ・アプリケーションに複
数のディスコース（たとえばアプリケーション管理ディスコースとアプリケーシ
ョン・コンテンツ・ナビゲーション・ディスコース）を関連付けることができる
。前述のように、所与のディスコースに関連付けられた各コンテキストは、対応
するプロセス／タスク／スレッドに対して行われた最新の要求と最新の出力とを
含む。さらに、所与のディスコースのコンテキストには、たとえば実際の照会を
マップするアクティブな文法、語彙、および記号言語（属性値ｎタプル）も関連
付けられる。コンテキスト・スタック４０５は、機械状態スタックに関連付けら
れ、それによって、ユーザからの新規入力があると、対話コントローラ４０４は
入力コンテキストが適切に設定されるまでコンテキスト・スタック４０５を走査
する。これは、基本的に最新および過去のディスコースのうちからユーザと機械
とのアクティブ・ディスコースを見つけて選択することになる。

【００７６】タスク・ディスパッチャ／コントローラ４０２は、ローカルおよびネットワー
クかされた従来型および会話型のリソース上で（ユーザおよび機械によって）生
成された異なるタスクおよびプロセスのディスパッチと調整を行う。タスク・デ
ィスパッチャ／コントローラ４０２は、基本的にリソース割り振り機構であり、
一般に（従来型タスクと会話型タスクとを問わず）タスクをディスパッチし、ア
クティブ化し、すべてのリソースの負荷と可用性を監視することによって各タス
ク、リソースなどの状況を制御し、様々なタスクを様々なリソースに適切に割当
て、シフトさせる。このリソース割り振り機能では、各リソースの現行負荷と、
各サービスおよびアプリケーションに必要なものとを判断し、それらを扱うこと
ができるリソースにタスクをディスパッチすることによってシステム全体の負荷
分散／管理を行い、全体的なシステム負荷および会話フローを最適化する。タス
ク・ディスパッチャ／コントローラ４０２は、（会話型タスク・マネージャ４１
７を介して）会話型システム管理手続きと、（前述のディスカバリ、登録、折衝
、および分散会話型プロトコルを介して）異なるリソースによって交換される情
報とに依存する。タスク・ディスパッチャ／コントローラ４０２は、これらのリ
ソースを追跡し、従来のサブシステム（たとえばＧＵＩ入出力およびシステム、
ビデオ認識エンジンなど）および会話型サブシステム４０７を、コンテキスト・
スタック４０５上の異なるタスク間で分配する。さらに、タスク・ディスパッチ
ャ／コントローラ４０２は、基礎オペレーティング・システムのサービスを使用
して、従来型タスク・マネージャ４１７のレベルでオペレーティング・システム
によって制御可能な従来型タスクを制御する。この場合も、前述のように、従来
のオペレーティング・システムは会話型タスク・ディスパッチャ／コントローラ
４０２の指示によりタスク管理を行うことができる。

【００７７】タスク・ディスパッチャ／コントローラ４０２は、従来型および会話型のサブ
システム・サービス４１２、４０６から（アクティブ・コンテキストを選択する
対話コントローラ４０４を介して）コンテキスト・スタック４０５に入力を供給
し、異なるタスクの出力を異なるサブシステムに供給し、それらに優先順位を付
ける。また、タスク・ディスパッチャ／コントローラ４０２は、コンテキスト・
スタック４０５によりエージェント／デーモンの形の会話型支援および記憶タス
クの挿入と管理も行う。タスク・ディスパッチャ／コントローラ４０２は、アク
ティブ会話および会話履歴、遅延戻り、ネットワーク・リソース間の委任、タス
ク委任、要約、および記憶（これらの機能については後述する）に従って、出力
の生成と順位付けを調整する。

【００７８】対話コントローラ４０４は、（タスク・ディスパッチャ・コントローラ４０２
に登録されている）すべての従来型および会話型アプリケーションにわたって対
話（対話型＝音声およびマルチモーダルすなわちＧＵＩ、キーボード、ポインタ
、マウス、ビデオ入力など）を管理する。前述のように、アプリケーションは（
ＡＰＩ呼出しまたは折衝プロトコルを介して）アプリケーションの状態、最新の
入力をどのように解釈するか、およびそのような解釈の信頼度に関する情報を交
換する。対話コントローラ４０４は、アクティブなコンテキストおよびアプリケ
ーションの管理と判断を行う。また、対話コントローラ４０４は、対話コントロ
ーラ４０４がアクティブなアプリケーションを判断するのを支援するためにアプ
リケーションが情報を交換するための会話型プロトコルを管理したり、そのよう
な判断ができない場合に曖昧性を解決するための小規模な対話をアクティブ化し
たりする。

【００７９】図５に、対話マネージャ４０４の機能を図示する。図のように、異なるたすく
（タスク１、タスクＮ）およびリソース（会話型サブシステムＡ〜Ｚ）がＣＶＭ
４０１によって管理される。ＣＶＭ４０１は、（対話マネージャおよび会話型プ
ロトコルに関して前述したように）どのアプリケーションがアクティブであるか
、コンテキストをどのように変更すべきかを決定する。分散アプリケーションで
は、この機能は前述の対話マネージャ・プロトコルによりメッセージを送ること
によって実行される。対話マネージャ・プロトコルを使用してローカル並列アプ
リケーション間で情報を交換することを理解されたい。設計時に対話マネージャ
およびエンジンにとって未知の複数の（ローカルまたはネットワーク化）対話／
アプリケーションにわたる対話とコンテキストを管理する機能は、ジェネリック
ＮＬ処理と呼ばれるものであり、プラグ可能対話マネージャおよびＮＬアプリケ
ーションである。

【００８０】アプリケーションはＣＶＭ４０１に対して（前述のようにＣＶＭＡＰＩによ
って）直接、オペレーティング・システム（またはＪＶＭ（Java仮想計算機）な
どの基礎システム）に対して直接、またはMicrosoft Windowsなどのオペレーテ
ィング・システムに対して呼出しを行うことができることを理解されたい。ＣＶ
Ｍ４０１を介して呼出しが行われると、タスク・ディスパッチャ／コントローラ
４０２を介して登録され、対話（マルチモーダルとすることができ、音声入力ま
たは出力がなくてもよい）は対話コントローラ４０４によって管理される。呼出
しが完全に基礎オペレーティング・システムに対して行われる場合、対話コント
ローラ４０４はアプリケーションと間接的にのみ対話する。すなわち、従来の呼
出しは従来型タスク・マネージャ４１７によって管理され、したがってタスク・
ディスパッチャ／コントローラ４０２に渡されると、タスク・ディスパッチャは
従来型タスク・マネージャ４１７と協調し、命令するため、タスク・ディスパッ
チャ／コントローラ４０２によって考慮される。タスク・マネージャ４１７は、
そのアプリケーションを対話コントローラ４０４に登録し、タスク・ディスパッ
チャ／コントローラ４０２が認識している状況変更を更新する。従来型アプリケ
ーションがＣ＆Ｃ（コマンド・アンド・コントロール）インターフェース（また
はその他のタイプの音声インターフェース）によって管理される場合、アプリケ
ーション対話は対話コントローラ４０４への登録により対話コントローラ４０４
によって登録され、制御される。これらは特別な場合であることを理解されたい
。しかし、一般に、下位互換性または非互換アプリケーションが問題ではない場
合、対話コントローラ４０４は、コンテキスト・スタック４０５を介してすべて
のアプリケーションの対話を制御し、コンテキストを管理する。ＣＶＭ４０１は
、すべての従来型機能、サービス、および動作を再実施することができることを
理解されたい。その場合、ＣＶＭ４０１は、従来型オペレーティング・システム
上のプラットフォームとしては実行せず、それ自体でオペレーティング・システ
ムとして機能し、すべての従来型呼出しを取り込む。

【００８１】ＣＶＭ４０１は、ＣＶＭ４０１に関連付けられたファイル（またはレコードや
名前空間などの装置に合わせて適合化されたその他の同様のエンティティ）、デ
ィレクトリ、オブジェクト、およびアプリケーションなどの要素、その他のリソ
ースまたはオブジェクト（ローカル、ネットワークなど）、およびユーザに関す
る情報（選好、セキュリティ上の習慣、バイオメトリクス、振舞いなど）を管理
するメタ情報マネージャ４０３をさらに含む。メタ情報マネージャ４０３は、こ
のような要素およびシステム・リソースを抽象糧トリおよびメタ情報を介して高
水準の従来型抽象化と関連付けることによって、これらの要素を管理する。たと
えばオブジェクト表現は、各オブジェクトに関連付けられた内容主導のメタ情報
（たとえばセキュリティ・フィーチャ（ユーザおよび作成者）、写真、描画、画
像のような抽象概念とファイルとの関連付け）のように、高度な知識表現を含む
ように拡張される。これらの各要素は１つまたは複数のメタ情報カテゴリに関連
付けられる。これらのカテゴリは、オペレーティング・システム、アプリケーシ
ョン、またはユーザによって定義される。各ファイル、ディレクトリ・オブジェ
クト、およびアプリケーションは、カテゴリ定義および関連付けられた関数を指
すことによって、またはこれらのクラスに登録することによって、定義されたカ
テゴリのうちの１つまたは複数のカテゴリに関連付けることができる。以下で詳
述するように、抽象メタ情報を使用して、ファイル・システムまたはその他のオ
ブジェクト、リソースまたはユーザの要素へのショートカットを設けたり、自動
的に抽出し、処理することができる。

【００８２】具体的には、メタ情報マネージャ４０３は、複数のカテゴリと共に抽象メタ情
報およびプロトコルを使用してファイル・システムを管理する。これらのカテゴ
リは、リソースの所有者／開発者、またはリソースの過去の使用者／アプリケー
ションが定義することができる。ＣＶＭ４０１は、従来のファイル管理システム
とは異なりアソシアティブ・メモリに依存し、ファイルに関する情報がオペレー
ティング・システムによって次の３つの主な形態で取り込まれるので有利である
。すなわち、（１）ファイル名の拡張子、（２）ファイル名のヘッダ、および（
３）ファイル内容のタイプ（バイナリかＡＳＣＩＩか）（ただし、本明細書に記
載の抽象カテゴリ概念はこのような従来のファイルシステムを大幅に改良するこ
とができる）である。会話型システムでは、追加のレベルの抽象化を加えて、フ
ァイルの内容または役割を特徴付けることができる。たとえば、各ファイルにフ
ァイルを特徴づける抽象クラスのセットを関連付けることができる（それに対し
て従来は、たとえばＧＩＦファイルにはデフォルトによりそのファイルを開いた
り編集したりするソフトウェア・アプリケーションが関連付けられる）。さらに
、複数のディレクトリ／ファイル・システム表示が、デフォルトによりこれらの
拡張を表示情報に含めたり除外したりする。他のイメージ・タイプのファイルは
、自動プロセスを利用するために、アプリケーションのレベルで、または好まし
くはオペレーティング・システムのレベルで登録する必要がある。逆に、不正ま
たは曖昧なファイル拡張子によって、不正な自動化タスクが発生することが多い
。一方、ヘッダによって、所与のファイルの内容および処理要件に関するより詳
細な情報が伝えられる。しかし、現在、ＭＩＭＥヘッダのようなヘッダは、通常
、アプリケーション、たとえば電子メール、またはプロトコルおよび言語、たと
えばＨＴＴＰおよびＨＴＭＬのクラスのためにのみ作成される。

【００８３】本発明によると、ファイルは抽象メタ情報と関連付けられる。これは、トピッ
クまたはイメージ分類子などによって自動的に、またはアプリケーション、ユー
ザ、プラットフォームなどによって明示的に行うことができる。たとえば、イメ
ージ、写真、映画、描画の概念によって、多様な抽象カテゴリを定義することが
できる。したがって、ファイルはこれらの異なる用語によって、ファイルの形式
、拡張子、または用法とは独立して特徴付けることができる。さらに、ＣＶＭは
、アプリケーション開発者（登録される）またはユーザ（カスタマイズまたは用
法）が、複数のアプリケーションにわたるカテゴリを追加する機能も備える。

【００８４】この抽象化は、ファイルだけでなくディレクトリ、オブジェクト、およびアプ
リケーションにも拡張可能であることを理解されたい。たとえば、リンク、マク
ロ、ショートカット、さらにはブックマークのような概念を特定の概念カテゴリ
と関連付けることができる。これらのカテゴリによって、たとえばすべての財務
アプリケーションまたはすべての財務ファイルか、すべての描画アプリケーショ
ンまたはすべての画像ファイルかを表示することができる。

【００８５】メタ情報マネージャ４０３は、ＣＶＭプラットフォーム上に設けられたオブジ
ェクトまたは構築されたオブジェクトをカテゴリの二重リンクリストに関連付け
る。同じ機能を実現する他の実施態様を使用することもできることを理解された
い。ＣＶＭプロットフォームは、定義されているすべてのカテゴリのリポジトリ
・テーブルを含み、これはメタ情報マネージャ４０３によって管理される。カテ
ゴリによってはユーザまたはアプリケーションに依存する場合がある。ＣＶＭプ
ラットフォーム・システム呼出しを使用して、ユーザまたはアプリケーションは
新規カテゴリを作成し、それらのカテゴリに新規オブジェクトを関連付けること
ができる。これは、特にファイル・システムの場合に言えることである。さらに
、ＣＶＭプラットフォームによって、またはユーザ／アプリケーションによって
システム呼出しを介して動的に提供される情報、すなわち、作成日付、使用日付
、使用者、時間、回数、オブジェクト作成者、オブジェクトのコンパイル者を、
各オブジェクトに付加することができる。

【００８６】オブジェクト、アプリケーション、ユーザ、またはプラットフォームによって
提供される情報に基づいて、オブジェクトの内容に索引付けすることができる。
これらの索引は、オブジェクトに関連付けられた動的情報の一部である。索引付
けまたはトピック検出あるいはその両方は、可能なときにオンザフライで、また
はバッチ・モードで行うことができる。

【００８７】さらに、メタ情報を使用可能なリソースに関連付けることができるのと同様に
、メタ情報、抽象化、および抽象カテゴリをディスパッチされた各タスクおよび
プロセスに関連付けることができることを理解されたい。プロセスおよび負荷管
理に加えて、これはきわめて明細なタスク選択を提供する。たとえば、１つの会
話型要求で、ユーザは、タスクの出力を聴取するか、またはコンテキスト・スタ
ックを探索してタスクのための入力（たとえばマイクロフォン）を再要求し、ウ
ェーブ・ファイルまたはＡＳＣＩＩファイルに対して入力ストリームを付加する
ように指示することができる。同様に、たとえば、ユーザは、単一のリダイレク
ト要求を与えることによってファイル送信先のプリンタをリダイレクトすること
ができる。

【００８８】ファイル・システムのレベルの抽象カテゴリの使用の概念は、好ましくは、Ｃ
ＶＭオペレーティング・システムによって使用可能またはアクセス可能などのよ
うなオブジェクトまたはリソースあるいはその両方にも拡張されることを理解さ
れたい。したがって、ネットワーク化アプリケーションおよび分散アプリケーシ
ョンの場合、メタ情報マネージャ４０３は、リソースの所有者／開発者またはリ
ソースの過去の使用者／アプリケーションによって定義された、非ローカルのオ
ブジェクトまたはリソース（たとえばファイル・ディレクトリ、ディスク、オブ
ジェクト、周辺装置、アプリケーションなど）に関連付けられた複数のメタ情報
カテゴリを管理することができることを理解されたい。実際に、抽象カテゴリは
、特定のリソースがローカル・リソースであるかネットワーク・リソースである
かに関係ないことと、リソースへのアクセスまたは接続を介してリソースを抽象
カテゴリに登録したり、新しい抽象カテゴリを作成することもできることを理解
されたい。具体的には、アクセス可能でまだアクセスされていない新規オブジェ
クトは、そのメタ情報を登録しなければならず、この登録プロセスは機械が接続
するときにローカルで行うか、またはそれ自体、その内容、またはそのカテゴリ
を登録するＤＮＳ手法または名前空間マネージャに類似したサーバに対して行う
ことができる。このプロトコルは、（たとえばActiveX（登録商標）、Java（登録商標）script、Javeアプレット、Vbscriptを介して）アプリケーションまたはオブジェクトを機械にダウンロードまたは転送する場合、ローカルでも使用され、それによってアプリケーションはその抽象カテゴリを自動的に登録アクティブ化することができる。リモート・システムとの接続時に、またはオブジェクトまたはその内容に関連付けられた抽象カテゴリのリストを更新する（ＤＮＳサーバまたは名前空間サーバに類似した）メタ情報サーバを介して、（上述のように）登録プロトコルを使用して、新しい非ローカルオブジェクトに関連付けられた新規カテゴリが自動的に作成される。この自己登録機構により、ネットワークからダウンロードされる新規オブジェクトまたはネットワークに転送されるオブジェクトは、同じプロトコルを使用してそのオブジェクトに関連付けられたメタ情報を伝達し、ローカルで登録することができる。二重リンクリストおよびリポジトリをプラットフォーム・リストに付加することができる。リソースが新規カテゴリを登録すると、新規カテゴリはそのリソースに関連付けられたものとして指される。リソースが破棄されると、対応するカテゴリは削除される。

【００８９】ローカル・オブジェクトに関連付けられたメタ情報と同様に、抽象メタ情報を
使用して、ネットワークの非ローカル要素へのショートカット、自動抽出または
処理を行うことができる。これらのリソースは、アクティブ抽象カテゴリまたは
登録リソース内に少なくともしばらくは記憶する必要がある。カテゴリ定義およ
び関連付けられた関数を指すことによって、または適切なクラスに登録すること
によって、リモート・アクセス可能な各非ローカル・オブジェクトまたはリソー
スをこれらの異なるカテゴリに関連付けることができる。

【００９０】たとえば、watson.ibm.comイントラネットに属するすべてのリソースとして「
watson」リソース、または閲覧したすべての財務ホーム・ページを参照すること
が可能になる。現在、従来のブラウザ（またはビューワ）では、ページまたはフ
ァイルのＵＲＬを記憶し、その後、ユーザが手動で分類することはできる。本発
明の手法の結果、ヘッダ形式またはＨＴＭＬ内（たとえば現行ＨＴＭＬ仕様で指
定されているコメント・フィールド内または適切なメタ・タグ内、または追加の
会話型プロトコル・ハンドシェークのため）に当初から含まれているその他のメ
タ情報に基づいて、抽象カテゴリが自動的に作成または登録されることになる。
したがって、ブックマークは、アクセスまたは追加時に自動的にカテゴリ化され
る。

【００９１】メタ情報マネージャ４０３およびリポジトリは、一般に、会話型対話では既知
であるとみなされるが現行の会話のレベルでは入手できないすべての情報を収集
する。例としては、先験的知識、文化的、教育的前提事項および不変の情報、過
去の要求、参照、ユーザ、アプリに関する情報、ニュースなどがある。一般には
、これは、会話履歴／コンテキストの長さ／存続期間を超えて保持され持続する
必要がある情報であり、その会話にとって共通の知識であると予想され、したが
って現在および過去の会話型対話中に定義されていない情報である。

【００９２】データ・ストリーム処理の一様性は、メタ情報を介した抽象カテゴリ化を簡略
にし、類似した抽象カテゴリ、ファイル、オブジェクト、アプリケーション、お
よびローカル・リソースまたはネットワーク・リソースとしてカテゴライズでき
るようにする重要な方法である。

【００９３】入出力データ・ストリームを処理する際のＣＶＭ４０１のタスク・ディスパッ
チャ／コントローラ４０２、対話コントローラ４０４、およびコンテキスト・ス
タック４０５間の対話について、以下に詳述する。本発明は、（複数のドメイン
を持つ）複数のタスクにわたって記憶されたコンテキストおよび混在主導権によ
るＮＬＵインターフェースを提供することを理解されたい。具体的には、本発明
は、複数のドメインを有する複数のアプリケーションにわたるＮＬＵ、ＮＬＧ、
および混在主導権による自然な対話を設ける機能を提供する。なお、各アプリケ
ーションはＣＶＭ４０１にアプリケーション自体の解析および変換引数を提供す
る。以下で詳述するように、ＮＬＵエンジン４１０は、照会に順次に（書式記入
）または並列して（たとえば手続きスレッド、並列会話型オブジェクト／手続き
、または並列書式）タグ付けすることができる。曖昧でない照会を生成して対話
を完了した最初のタスクが実行され、他のアプリケーションによって解釈された
対応する照会が記憶されて、認識された照会がユーザによって拒否された場合に
アクティブ化する。

【００９４】会話バイオメトリクスを使用してユーザに関するコンテキストおよびメタ情報
を収集することができ、照会をユーザ選好のためにカスタマイズまたは適合化し
たり認証したりすることができるだけでなく、その情報を使用してより堅固な認
識を行うことができることを理解されたい。したがって、ユーザを認識するため
にどのような情報でも蓄積することができる。すなわち、照会の通常の言い表し
方、言い表された照会のタイプ、コマンド頻度（頻繁に使用されたか頻繁には使
用されていないか）、好まれたアプリケーション、時刻、または用法などである
。会話バイオメトリクスは、米国特許第５８９７６１６号で開示されている方法
を使用して構築することができる。

【００９５】次に図６を参照すると、本発明の一実施形態による会話型入出力インターフェ
ースが図示されている。図のように、本発明の一実施形態による会話型入力イン
ターフェースは、自然インターフェースを含む、電話６００、キーボード６０１
、ポインティング・デバイス６０２、手書き装置６０３を介したマルチモーダル
入力、すなわちファイル／ストリーム／リソース、音声を処理することができる
。これは、あらゆるモーダリティにわたるすべての入出力イベントを捉え、（コ
ンテキスト・スタックに適切に記憶する）対話マネージャに転送することを意味
する。音声クライアント（たとえば電話６００）からの発話入力は、音声認識プ
ロセス６０４を受け、その他の入力（たとえばキーボード、マウス・クリックな
ど）はＮＬＵ処理６０５される。各入力は、属性獲得（４０１ａ）を受け、それ
によって入力から属性値ｎタプルが獲得される。要約プロセス４０１ｂを行い、
それによって属性値ｎタプルがコンテキストに加えられる。次に、バックエンド
・アプリケーション６０８の構文によって照会が完全、不完全、曖昧のいずれあ
るかを検証する。また、バックエンド・アクセスは、対話マネージャおよびコン
テキスト・マネージャによって追跡される。場合によっては、いくつかの一義化
機能（対話マネージャの機能）をバックエンドにロードすることによって、「イ
ンテリジェンス」の一部をバックエンドに分散することもできる。個別には、各
入力ストリームは従来のように動作する。重要な会話型態様は、（入力照会の自
然言語理解を実現するために）コマンドをＮＬＵで、または（自由な自然入力で
はなく、文法および語彙の規則に従って制約された入力の場合）ＦＳＧモードで
入力することができる入力手続きである。コマンドまたは照会は、欠落フィール
ドを満たすことによって、またはアクティブ・タスクのための不正なフィールド
を訂正することによって、完全なものにしたり訂正することができる。したがっ
て、ＣＶＭは、従来のＯＳでは満たされなかった、入力の曖昧性を生じさせる同
時入力ストリームをマージする問題を導入する。たとえば、リダイレクトされた
入力ストリームは言うまでもなく、入力はキーボード入力、手書き入力、音声入
力を結合することができる。したがって、本発明は、曖昧性を解決する機構を備
える。これは、前記で引用した米国特許出願第６０／１２８０８１号に記載され
ているようにして行うことができる。

【００９６】本発明によると、この入力の問題は、複数のデコーダ、ＡＳＣＩＩ転記、また
は属性値ｎタプルの出力のマージとして扱われる。各入力ストリームを、ＡＳＣ
ＩＩ転記に変換し、音声認識処理６０４を通した入力タイム・マークと合致させ
る。異なる入力ストリームが同じタスクに関連付けられている場合、それらの転
記を以下のようにマージする。まず、コマンドと照会をタイム・マークに基づい
てソートし、単一のデータ・ストリームに付加する。コマンド形式をＦＳＧ規則
と照合し、文法規則を満たすように再ソートする。ＮＬＵ照会は必ずしも再ソー
トを必要としない。ＮＬＵの場合、ストリームごとに記号フィールドを満たし、
次に最終入力ストリームのレベルで結合する。スペリングや英数字コードなどの
引数は、順序付けの曖昧性を解決するのに文法規則やＮＬＵを利用しない。固有
ストリームの作成にも同様にタイム・マークを使用する。しかし、入力は確認の
ためにユーザにフィードバックされ、場合によってはアプリケーションに依存す
る辞書またはＦＳＧ規則書を使用して事前フィルタリングされる。

【００９７】ネットワーク・ベースの対話の場合、前述のように、各機械がネットワーク内
の他の装置のタスク・ディスパッチャ／コントローラに登録し、その会話機能に
関する情報を提供する。言い換えると、通常のデスクトップ機は、完全会話機能
を登録するのに対し、電話は登録するか（高度自動機能電話）またはそのサーバ
にに画面、キーボード、ポインタのない装置として登録させ（通常電話）、ＰＤ
Ａは、単一ウィンドウ装置などとして登録する。システム間では関連のある入力
のみが交換される。

【００９８】要約すると、この入力手続きは、マルチモード入力ストリームのセットを形成
し、それぞれがＡＳＣＩＩコマンドまたは属性値ｎタプルのリストに転記される
。各入力エンティティ（コマンド、ＮＬＵ照会フィールド、または引数ユニット
（分離文字、語など））がタイム・マークに関連付けられ、結合された入力スト
リームにそれに応じて付加される。２つ以上のストリームが全く同じタイム・マ
ークを有する場合、それらは各入力ストリームが前に寄与した時間に基づいて優
先順位が付けられる。結合された入力はＦＳＧおよび辞書と照合され、任意選択
によりユーザにフィードバックされる。各リソースがそれぞれの会話機能を交換
し、入力ストリームは関係のある情報のみを交換するように調整される。

【００９９】会話出力のディスパッチおよびインターフェースについては、ＣＶＭ４０１は
、ファイル／ストリーム／リソース、ディスプレイ（単一またはマルチウィンド
ウ、ＧＵＩ、カラー、画像、動画）、音声への出力を生成する。個別には、各出
力ストリームは従来のように動作する。しかし、コンテキスト・スタック４０５
およびタスク・ディスパッチャ／コントローラ４０２により、複数のプロセスの
出力が同時に同じ出力ストリーム（たとえば同じテキスト・モード・ディスプレ
イまたは音声合成装置）上でぶつかる場合がある。また、１つのタスクの出力が
いくつかの出力ストリーム間で多重化される場合がある。

【０１００】各出力ストリームは従来のように動作する。あるいは、出力はタスクの出力と
対話プロセス（たとえば指示された対話または混在主導権）の生成出力のいずれ
かの場合がある。異なるカテゴリの出力ストリームが存在する。たとえば、単一
チャネル出力（たとえばダミー端末（ＶＴ１００またはPalm Pilotスクリーン）
や音声のみの出力）では、当該リソースを使用するすべての出力メッセージが同
じチャネルを使用する（または場合によっては同じチャネルを共用する））（た
とえば、音声出力、固有ウィンドウ／画面、またはテキスト出力）。多重チャネ
ル出力では、各タスクの出力ごとに別々のチャネルが存在する（たとえばWindow
s ＧＵＩ）。単一チャネルへの複数のタスクの出力ストリームは、コンテンツ・
スタック４０５と、タスク・ディスパッチャ４０２によって割り当てられた優先
順位とに基づいて待ち行列化される。単一チャネル出力がユーザに提供されると
、イベントはアクティブになり、コンテキスト・スタックの最上位に置かれる。
多重チャネル出力には優先順位は付けられず、非同期的に更新され、タスクを最
上位には上げない。

【０１０１】また、タスクによって割り当てられ、ユーザが修正可能な出力ハンドルに基づ
いて、各タスクからの出力を多重化し、複数の出力ストリームにすることもでき
ることを理解されたい。ネットワーク・ベースの対話の場合、各機械は、ネット
ワーク内の他の接続装置のタスク・ディスパッチャ／コントローラに登録して会
話機能に関する情報を提供する。たとえば、前述のように、通常のデスクトップ
機は、完全会話機能を登録する。電話は登録するか（高度自動機能電話）、また
はそのサーバが画面、キーボード、ペン、ポインタのない装置として登録し（通
常電話）、ＰＤＡは、単一ウィンドウ装置（たとえばPlam Pilot）などとして登
録する。システムの間では該当する出力だけが交換される。

【０１０２】すべての出力、特に音声出力は、ユーザがカスタマイズし、プログラムするこ
とができることを理解されたい。テキスト表示のためのフォントを選択すること
ができるように、出力を発話する音声の選択を行うことができる。この場合は、
Voiceフォントのことである。会話形式設定言語を使用して複雑な会話提示を作
成することができる。要約すると、ＣＶＭ４０１は、多重化されている場合であ
っても、単一チャネル出力への複数タスクの出力をコンテキスト・スタック４０
５とタスク・ディスパッチャ４０２に基づいて待ち行列化する機構と、各入力ス
トリームに割り当てられたリソースのリダイレクトまたは変更を行う機構とを備
える。各リソースは、それぞれの会話機能を交換し、出力ストリームは、出力Vo
iceフォントの選択、ＧＵＩイベントを含む会話提示の形式設定、およびその他
の音声コンテンツを含めて、関係する情報のみを交換するように調整される。

【０１０３】次に、ＣＶＭ４０１による入出力処理について説明する。前述のように、ＣＶ
Ｍ４０１は様々な活動を整理しなければならない。たとえば、基本システム呼出
しは、異なるサブシステムに関与する複数のアクションを生成する必要がある。
このようなアクションには、タスクの実行、新規入力の聴取、出力／フィードバ
ックの生成が含まれる。たとえば、タスク・ディスパッチャ／コントローラ４０
２は、コンテキスト・スタック４０５に基づいて、対話コントローラ４０４に対
する照会を操作しなければならない異なる統計的パーサを決定して、アクティブ
・コンテキストを特定し、照会を完全なものにする。これらのアクションは、た
とえば完成された照会を実行し、コンテキスト・スタック４０５を更新し、不完
全または曖昧な照会／コマンドについてユーザにフィードバックを提供し、新規
入力のデコードを可能にし、コンテキスト・スタック４０５を探索し、実行され
たプロセスまたは実行されているプロセスの出力を返すように、適切に優先順位
付けされなければならない。

【０１０４】タスク・ディスパッチャ／コントローラ４０２は、各タスクまたは装置に、会
話型引数を有する会話型エンジンを関連付ける。１つのアプリケーションまたは
装置について１つのエンジンがある場合、各アプリケーションまたは装置のＮＬ
Ｕエンジンは、（前述のように）並列（手続きスレッド）または順次（書式記入
）とすることができる。複数の装置／アプリケーションが同じエンジンを共用す
る場合、ＮＬＵエンジンは、手続きスレッドと並列である必要がある。新規照会
の拒否または尤度は、会話型引数に基づいてアクティブ化されたタスクによって
管理される。拒否された照会または可能性の低い照会があると、対話コントロー
ラ４０４はコンテキスト・スタック４０５を調べて使用可能な次のコンテキスト
を探す。各アクション、完成した照会、会話型引数と、各戻り値／結果は、コン
テキスト・スタック４０５に格納される。さらに、適切な場合、戻り値および結
果によって過去のコンテキストがアクティブ化される。

【０１０５】タスク・ディスパッチャ／コントローラ４０２は、各コマンド／プロセスを複
数のアクションに分け、適切な優先順位で関連付けられたスレッド／プロセスを
開始し、それらをコンテキスト・スタック４０５に関係づけ／挿入する。タスク
・ディスパッチャ４０２は、各リソースを割り振り、生成された異なるアクショ
ンにそれらを分配し、リソースとの間でのハンドルおよびストリームを制御する
。タスク・ディスパッチャ４０２は、モーダリティ（ポインタ、キーボード、フ
ァイル、音声）に基づいて、ストリームを適切な会話型サブシステムまたは、転
記／把握された音声入力を有する会話型サブシステムにリダイレクトする。これ
らのサブシステムの出力は、コンテキスト・スタック４０５を探索してアクティ
ブ照会を取り出し、それを完成させる。他方、出力は各タスクの優先順位に基づ
いて待ち行列化され、出力リソースに順次ディスパッチされる。

【０１０６】アクティブ化されたディスコースがあるか否かを問わず、各新規（アクティブ
）タスク／プロセス／スレッドによって、コンテキスト・スタック４０５内に新
規タスク項目が作成される。コンテキスト・スタックには機械状態スタックが関
連付けられ、ユーザからの新規入力があった場合に、入力コンテキストを適切に
確立することができるまでコンテキスト・スタック４０５を走査することができ
るようにする。この結果、基本的に、最新および過去のディスコースのうちから
ユーザと機械との間のアクティブ・ディスコースを見つけて選択し、場合によっ
ては履歴に戻る。この選択プロセスについて、以下に詳述する。さらに、各タス
クには混在主導権層が関連付けられる。この層は、従来のオペレーティング・シ
ステムにおけるコマンド行の用法情報の会話版と同等の単純なものにすることが
できる。対話コントローラ４０４は、まず、ユーザ・コマンド照会がコマンド照
会の構文レベルで完全か曖昧かを調べる。不完全または曖昧と見なされるコマン
ドは、同様に優先度（注目しているアプリケーションが最上位）によって適切な
会話型エンジン４０７に返され、会話型エンジン４０７は欠落情報または曖昧な
情報の要求（プロンプト）を生成し、コンテキスト（要求した欠落フィールド）
を更新する。また、単純に、要求はプロンプトをより良く定式化することができ
ない場合（たとえばレガシー・アプリケーション）、不完全で曖昧である言うこ
ともできる。

【０１０７】一方、完全で曖昧さのないコマンドの場合は、特定の結果（出力またはアクシ
ョン）が得られる。会話型システムのようにユーザによってリダイレクトされな
い場合は、これらの結果も同様に優先度によって適切な会話型エンジン４０７に
返され、コンテキストが更新される。しかし、リダイレクトは、結果をリダイレ
クトするときに部分混在主導権通知を行うため、より高度になり得る。後で詳述
するように、これはたとえば会話型アシスタントによって実施することができる
。これは、従来のシステムで実現するときわめて複雑になり、恐らく特別に作成
されたスクリプトに出力をリダイレクトすることが必要になるであろう。コマン
ドは、ＣＶＭプラットフォーム、アプリケーション、またはユーザ選好から供給
される選好／設定値に基づいて、実行の前にユーザによる確認も必要とする場合
がある。

【０１０８】アクティブ・コンテキストの完了／探索は、コンテキストごとにスタックを走
査して行われる。すなわち、新規照会または引数は、対話エンジンが需要可能な
一致を入手するまでスタックを下方に走査することによって比較され、任意選択
によりユーザから確認を得る。ＮＬＵ記号言語のレベルで発話と合致するコンテ
キストが見つかると直ちにそのコンテキストがアクティブになり、それに対応す
るプロセスがアクティブになる。アクティブ・コマンドが完了するまで、または
新しいコマンドが与えられるまで、この選択されたコンテキストがアクティブと
してマークされ、コンテキスト・スタック４０５の最上位に置かれる。ユーザに
メッセージが返されると、コンテキストは更新されて、アクティブ・コンテキス
トの下に、コンテキスト・スタック４０５の最上位に押し上げられる。アクティ
ブ・コンテキストは更新されて、戻り値があることが通知される。これは、ＣＶ
Ｍセッション・ディスコースのレベルでも行うことができる。ＣＶＭセッション
・ディスコースはスタック内に、または常にスタック以外にも置くことができ、
アクティブ・コンテキストの直後に、スタックを走査する前に探索される。同時
に完了したタスクは、ＣＶＭの優先順位（たとえばＦＩＦＯまたはＦＩＬＯ）に
従ってアクティブ・コンテキストの下に配置されるコンテキストとなる。タスク
を生成するのに十分に完成されたアクティブ・コンテキストは、スタック内で次
のコンテキストまたは返されたすべてのコンテキストの下に押し下げられること
になる。あるいは、アクティブ・ディスコースになることもある。これは、自動
的に、またはユーザがコマンドを出したときに行うことができる。このスタック
構造によって、複数のタスク、スレッド、またはプロセスとの曖昧性のない会話
型対話を維持することができる。

【０１０９】要求が完全な場合はそれが実行されるが、たとえば取消しができない場合には
、ユーザによる確認を要求することがある。要求が不完全な場合、混在主導権を
使用して、照会／コマンドの完成または修正を続ける。コマンド／要求が続けら
れる場合、ユーザがディスコースを拒否する自由をコンテキストに残しておく。
これは、直前のスタック状況（およびプログラム状況）を復元し、スタックを下
方に走査することになる。ユーザは、スタックの上方に戻って明示的に要求する
必要がある。実行の前またはユーザへの実行の通知の前にユーザが入力を拒否す
る場合、またはただちに完了する場合、新規入力はアクティブ発話に付加され、
スタックの最上位から探索を再開する。アクティブ・コンテキストが確立される
前にユーザから提供されるその他の発話は、バッファに格納され、アクティブ発
話（音声発話またはその他の入力モード）に付加されるものと見なされる。コン
テキスト・スタックは、音声、キーボード、マウス、またはその他の入力または
コマンドおよびアプリケーション出力に応じて更新される。

【０１１０】本発明によるＣＶＭ４０１が備える特に有用な機能は、「会話記憶」である。
会話記憶は、遅延してユーザ、プラットフォーム、または特定のアプリケーショ
ンによって割り当てられたタスクおよびコンテキストに戻る機能である。一般に
、ユーザによって出された命令／コマンドは、システムのバックグラウンドに明
示的に送られる。このようなコマンドは、いくつかの特定のタスクまたは機能が
割り当てられたデーモンまたはエージェントを開始する場合がある。これらは記
憶を行うことができ、それによって、コマンドまたはイベントのＣＶＭ「タスク
・ノート」が得られ、それを報告または実行し、ユーザが選択した特定の時点ま
たはデフォルトによる特定の時点（たとえばセッションの終わり）にユーザに返
される。したがって、出力またはバックグラウンド・タスクをリダイレクトして
、その結果を後の時点で提示することができる。会話型エージェントが起動され
る。従来のバックグラウンド・タスクおよびエージェントとは異なり、リマイン
ダ（覚え書き）または結果がユーザに返されると、記憶要求時点の会話コンテキ
ストが復元される。記憶が行われた時点で、コンテキスト・スタック４０５のス
ナップショットがとられ、記憶されたタスクに関連付けられたメタ情報として記
憶される。コンテキスト・スタック４０５は、記憶されたタスクがユーザと対話
する時点で配列し直される。現行コンテキスト・スタックが記憶され、古いコン
テキスト・スタックはスタックの上部に加えられ、その際、タスクの開始とその
完了の間のコンテキストとダイアログの展開による中間変更に基づいて、ユーザ
またはアプリケーション・プログラマによってプログラムされた更新、またはＣ
ＶＭによって加えられる更新が行われる。前のコンテキストに戻ることによって
ユーザと記憶されたタスクとの対話が完了すると、前のコンテキスト・スタック
がスタックの最上部に追加される。コンテキスト・スタックが追加されると、重
複するものは、スタックの最下部で除去することができる。ユーザ、プラットフ
ォーム、またはアプリケーションは、スタックの保管部分のみを保持するように
することもできる。会話型アシスタントがこのようなタスクを行う。これらは、
エージェントまたはデーモンが単独で実行するだけで実施することができ、出力
を生成するときにのみユーザの再対話することができる。その出力は、タスクの
優先度に従ってユーザに送られる。アクティブになると、ユーザはエージェント
に関連付けられたタスクを容易に更新することができる。会話記憶は、言わばス
タックの最下部に挿入されたタスクであり、セッションの終わりにスタックが空
にされたときにのみ実行される。場合によっては、これらは所定の時点にスタッ
ク内のより高い位置に挿入したり、スタックの最上部に押し上げたりすることも
できる。記憶機能は、過去のアクション、選好、および命令を記憶する機能を提
供する。

【０１１１】前述のように、記憶は、アクティブ・コンテキストのスナップショットを保管
し、リマインダに関連付けられた会話を復元する。しかし、その時点でのユーザ
に対する会話とコンテキストを要約することができることも重要である。これを
行うには、アプリケーションの開発者（またはユーザ選好、またはＣＶＭプラッ
トフォームによる何らかの決定）は、記入されている場合に、要約してユーザに
提示されるフィールド（すなわち属性項目）を提供することができる。これは、
システムの各変数／属性に関連付けられたメタ情報に特別なフィールドとして格
納される。アプリケーション開発者は一般には、実際の変数名や属性指定ではな
く、（使用可能な抽象名によって）各フィールドをアドレスする方法を記述する
ことができる。要約は、アプリケーション決定（アプリケーションの再アクティ
ブ化）、またはユーザの照会、またはＣＶＭによる決定時にアクティブ化するこ
とができる。これは、アクティブ・プロセスを探索し、コンテキストを回復し、
「照会に関連付けられた属性ｎタプルの埋込み状況」を要約する。要約タスクは
、他のアプリケーションに類似したＣＶＭのサービスであり、それによってユー
ザは要約アプリケーションと対話してより詳細な情報を得たり、要約のために時
間を遡ったりすることができる。これは、「go back to application X（アプリ
ケーションＸに戻る）」または「you were telling me to do Y（あなたはＹを
行うように指示しています）」と言う単純なものや、対話の履歴をより詳細に遡
るきわめて複雑なものにすることができる。

【０１１２】ＣＶＭ４０１が備える他の機能は、会話型リダイレクトである。たとえばＵｎ
ｉｘプロセスの入出力をリダイレクトするのは容易なため、会話型リダイレクト
も同じ機能を実行する。しかし、リダイレクトは、ストリームをリダイレクトし
ているときに部分混在主導権通知を行うことができるため、より高度なものとす
ることができる。会話型呼出しを使用すると、優先度によってプロセス結果とユ
ーザへの通知との出力を区別することができる。

【０１１３】この場合も、前述のように、メタ情報、抽象化、および抽象カテゴリをディス
パッチされる各タスクおよびプロセスに関連付けることができ、これによってタ
スクの特定の選択を行う。たとえば、１つの会話型要求によって（またはキーボ
ードのボタンの押下げ、マウスのクリック、キーを設けることによって）、ユー
ザは、タスクの出力を聴取したり、コンテキスト・スタックの下方のタスクのた
めに入力（たとえばマイクロフォン）を再要求し、ウェーブ・ファイルまたはＡ
ＳＣＩＩファイルに対して入力ストリームに付加するように指示することができ
る。同様に、ユーザは、単一のリダイレクト要求を出すことにより、ファイルの
送信先のプリンタをリダイレクトすることができる。

【０１１４】オプション／選好の設定、システムの負荷、またはシステムの機能に基づいて
、タスク・ディスパッチャ／コントローラ４０２は、ネットワーク・プロセッサ
上でタスクを実行したり、または、別のプロセッサが入力の理解のために使用可
能になり、アクティブになって入力を理解することができるようになるまで、ま
たはそのようなタスクを実行することができる装置がネットワーク上で使用可能
になるまで、ある種のタスクを据置きにすることを決定することができる。典型
的には、ローエンドのハンドヘルド装置上で据置きされた口述は、このモデルに
従う。この場合も、サーバ側がアクティブになって転記を行うことが可能になる
まで、タスクはタスク上で記憶され、セッションごとに記憶される。同様に、ロ
ーカル機とサーバ機との共用インターフェースを、タスク・ディスパッチャ／コ
ントローラ４０２によって管理することができる。たとえば、会話型ネーム・ダ
イヤラー・アプリケーションを高度自動機能電話に付加することができる。頻繁
に使用する名前をローカルで記憶し、認識する。他方、未知の名前や、一度も使
ったことのない名前は、認識のためにより強力なネットワーク機に送り、更新さ
れた情報（ダイヤルする電話番号など）をダウンロードする。同様に、ローカル
で記憶されているすべての情報は、定期的に同期化して電話番号情報を更新する
ことができる。このローカルのプロセス対サーバ・ベースの認識は、タスク・デ
ィスパッチャ４０２によって隠蔽される。ネットワーク共用タスクは、タスクが
実行される機械とは関係なく、いくつかのディスコースとしてユーザによって管
理される。これは、すべてのトランザクションのためのすべてのプラットフォー
ムにわたるＣＶＭＡＰＩの有用性の一例である。これは、会話型プロトコルを
使用したネットワーク装置間の会話型サービスの調整を行う方法およびシステム
に類似している。さらに、クライアントとサーバの間の分散アーキテクチャおよ
び分散処理によって、会話型ネットワーキングの新たな要件が生じる。このよう
な要件には、ネットワーク全体の会話型対話に関与する各ユーザの割当て対話を
保証するための、トラフィック・フローと、ネットワーク全体に分散されたリソ
ースの管理が含まれる。ここで要素を、ネットワークでの会話型対話のために使
用することができる（たとえば対話フローを維持するためのサーバ負荷管理、タ
スク、特徴要件および機能要件、会話型引数の可用性（データ・ファイル）に基
づくエンジン・サーバ選択、会話型プロトコル、再生のための再構築を可能にす
るピッチによるコーディング・プロトコルを提供する音声ＲｅｃｏＶＣ（認識互
換ＶｏＣｏｄｅｒ））。

【０１１５】タスク・ディスパッチャ／コントローラ４０２は、本明細書に記載の方式でＣ
ＶＭが行う従来型および会話型サブシステムの共用を行わない従来のＯＳと比較
して、画期的なディスパッチ動作を示すことを理解されたい。実際に、従来のシ
ステムでは、テキスト入力は常にウィンドウ内で順次に行われ、ただ１つのタス
クにしか関連付けられない。キーボードと固有ウィンドウ内に表示されるテキス
トによって複数の同時タスクを扱う機能は、本明細書に記載のような会話型ディ
スパッチの原理のほとんどを使用する必要がある。タスク・ディスパッチャは、
対話フローを維持する問題に対処し、したがってネットワークおよびＣＰＵの負
荷による遅延を最小限にする。タスク・ディスパッチャは、ＣＰＵサイクルと使
用可能なネットワーク経路およびリソースに優先順位を付けて、対話の遅延が受
容可能な程度まで最小化されるように保証する。エンジンがボトルネックになる
場合、そのエンジンはより多くのＣＰＵサイクルを受け取る（その遅れが再吸収
されるまで高い優先順位を受け取る）。この場合も、これは、従来のコンピュー
ティングに関係することである。ネットワーク経路が低速になり過ぎた場合、別
の経路または別のリソースを見つけて遅延を最小限にする。そうでない場合、応
答に遅延が生じる可能性があることをユーザに警告する。アクティブ対話の対話
フローはＣＶＭの優先事項である。接続されているすべてのユーザのアクティブ
対話の対話フローおよび最小化された遅延は、ＣＶＭがネットワーク内のルータ
・ゲートウェイおよびサーバ上で最適化する機能である。

【０１１６】会話型ＣＶＭシステムが備える他の機能は、「会話型セキュリティ」であり、
これによって、ローカルまたはリモートのファイル、特に実行可能ファイルの作
成者／変更者に関するメタ情報を、セキュリティの目的に使用することができる
。具体的には、音声ベースの会話システムでは、各コマンドが照会の定式化だけ
でなく、ユーザの認証のための十分な情報も伝えるため、テキスト独立話者検証
を使用してユーザの識別と検証を行うことができる。このようにして、制限され
たリソースに対する照会が行われるときには常に、そのリソースに関連付けられ
たセキュリティ・メタ情報に戸津射て自動（および透過な）ユーザ認証を行うこ
とができる。前述のように、ユーザ照会および履歴に関して収集されたすべての
情報を使用して、ユーザの認識（ＩＤまたは検証）に寄与することができる。

【０１１７】認証は、要求に対して直接、または照会の少し前に獲得した期限切れになって
いない情報を使用して行うことができる。具体的には、ファイルまたはアプリケ
ーションへのアクセスの認証を照会ごとに行うことができる。たとえば、ユーザ
が制限されたサービスを要求した場合、その特定のサービスにアクセスすること
を事前に認証されているユーザのセットを基準にして要求を検証することができ
る。認証は、要求（たとえばファイル・アクセス、ディレクトリ・アクセス、ア
プリケーションのオープン、実行可能プログラム、接続、暗号化／暗号解除、デ
ジタル認証／署名）に対して行われるオープン・セット話者識別によって行うこ
とができる。類似のユーザに割り当てられた異なるパスワードまたはユーザＩＤ
を有するリソースに、明示的ログインやパスワード認証なしにシームレスにアク
セスすることができる。いずれにしても、ユーザ対話によって、目立たないユー
ザ認証を連続的、透過的に行うことができる。

【０１１８】音声入力がない場合でも会話型ＶＭが実施可能な概念によると、コンテキスト
のスタックは、ユーザの識別が最も最近に認証された識別として含む必要がある
。さらに、各リソースは、認証されたユーザのリストと、いくつかのセキュリテ
ィ要件（たとえば非音声の場合は、最新の認証の有効期限）を含む必要がある。
当然ながら、キーストリークまたはペン方式の認証も考えられるが、まったく必
須ではない。

【０１１９】各リソースは、それにアクセスを試みる各ユーザの識別をログ／キャッシング
することもできる。これらのログを暗号化し、後で、前にアクセスしたリソース
へのアクセス要求を認証するのに使用することもできる。具体的には、オペレー
ティング・システムは、外部からのパスワード要求をインタセプトし、ユーザに
とって透過なログを使用して要求を完全なものにすることができる。新しいリソ
ースは、メタ情報を登録しているときにログイン要求を転送することができ、そ
れによってログイン・プロセスさえもユーザに対してまったく透過になるように
することができる。これは、単一サインオンまたはパスワード飛越しの概念の拡
張である。

【０１２０】ＣＶＭが備える他の機能は、「会話型カスタマイズ」であり、これによって各
タスクまたはリソースへのアクセスを、ユーザ要求者の選好に合わせて個別にカ
スタマイズすることができる。たとえば、ＣＶＭのパーソナリティ／振舞い（た
とえば合成音声−Voiceフォント）を、識別されたユーザの選好に合わせて自動
的にカスタマ渦することができる。ユーザがＣＶＭ対話から明示的にログアウト
（すなわちセッションを終了する）するまで、そのカスタマイズと選好が固定さ
れる。このようなシステムまたはアプリケーションはマルチユーザ式であるが、
次のログインまで一度に一人のユーザに一回のみ適用される。

【０１２１】会話型セキュリティに関して前述したように、リソースに対して照会が行われ
るときには常にユーザの自動識別を行うことができる。認証は、要求に対して直
接、または照会の少し前に獲得した期限切れになっていない情報に対して行うこ
とができる。タスクおよびコンテキストは、アクティブ・ユーザの順序に従って
優先順位付けされ、ユーザ変更のたびに優先順位付けし直される。環境変数およ
び選好は、環境全体をリセットする必要なしに、ユーザ敷居別の変更に基づいて
「オンザフライ」で変更を加えることができる。曖昧性は、ユーザ識別を使用し
て各コンテキストまたはコンテキスト・スタックのレベルで解決することができ
る。分散型の場合、ユーザまたはサーバ変更に伴い、クライアントからサーバへ
のコンテキストのロードであるか、サーバ上で維持されているコンテキストの回
復であるか、またはサーバ間でのコンテキストの転送であるかを問わずコンテキ
ストを更新する必要がある。

【０１２２】会話型ＶＭは、複数のユーザの選好およびアクティブ・コンテキストに合わせ
て動的に適応することができる。これによって、アクティブに稼動中に複数のユ
ーザが可能になる。音声ベースのシステムでは、各コマンドを使用してテキスト
とは独立した話者識別を行うことができる。ユーザの変更は、新しいアクティブ
・コンテキストの作成を自動的に暗黙に示し、新しいアクティブ・コンテキスト
が新しいユーザまたはアクティブ・アプリケーションによって明示的に破棄され
ない限りはそれによって直前のコンテキストはコンテキスト・スタックの下位に
押し下げられる。ユーザ変更によって、アクティブ・ユーザに関連付けられたタ
スクが先に処理されるようにコンテキスト・スタックと共に優先順位が自動的に
変更される。

【０１２３】ユーザ識別は各ディスコースのコンテキスト内で関連付けることができるため
、コマンドの曖昧性を直ちに透過的に解決することができる（母親からの電子メ
ールは、ユーザとは関係なく正しく理解される）。コンテキスト・スタック４０
５を走査するプロセスは、ディスコースの所有者、関連付けられたアプリケーシ
ョン、または何らかのオプションによって破棄されない限り、同じユーザに対す
る関連付けられたディスコースによって強化されるので有利である。コンテキス
ト・スタックを走査する際のこの規則の例外は自動的に、ディスコースに複数ユ
ーザのフラグが付けられることを意味する。会話型セキュリティについて前述し
たように、ユーザ識別は、ユーザによるユーザ識別の手動選択または入力などの
代替手続きによって入手することができる。アクティブ・ユーザ識別の変更も、
会話型セキュリティ・サブシステムに影響を与える。各リソースは、そのリソー
スにアクセスするユーザの識別を記録することができる。

【０１２４】要約すると、会話型複数ユーザおよび会話型セキュリティに関しては、対話、
カテゴリ、メタ情報、およびリソース・アクセスは、ユーザの識別とそれに関連
付けられたメタ情報履歴に応じて変化することができることを理解されたい。逆
に、照会について収集された会話型情報を使用してユーザを認識することができ
る。各オブジェクトに関連付けられたメタ情報は、各アクションまたはアクセス
の前または後に参照および更新することができる。オブジェクトが作成、修正、
または参照されると、ユーザに関する情報がそのメタ情報に加えられ、それによ
ってメタ情報は各オブジェクトに関連付けられたセキュリティ・フィールドと選
好フィールドを含むようになる。オブジェクトへのアクセスは、その内容、作成
日付、アクセスおよび変更の履歴、およびその他のメタ情報に基づく。アクセス
は、ユーザの識別だけでなく、日付、使用履歴、開かれたアプリケーションなど
のような追加のメタ情報にも基づいて制御または構成される。言い換えると、画
面表示、再生、または実行のためにファイルが開かれるということを条件として
、ユーザにファイルへのアクセスを許可することができる。しかし、その人は、
ファイルの内容を別のオブジェクトにコピーするためにファイルを開くアクセス
は拒否される。さらに、メタ情報を消去不能な方式でオブジェクトにタグ付けす
ることができる。

【０１２５】ＣＶＭが提供する他の機能は、「会話型探索」であり、これによって探索機能
は、ファイルの名前、変更、またはＡＳＣＩＩコンテンツだけでなく、オペレー
ティング・システム、アプリケーション、またはユーザによって定義された抽象
カテゴリや、オペレーティング・システムによってオンラインまたはオフライン
で取り出し可能なトピック、オブジェクトにアクセスしたときにまたはプロトコ
ルを介して入手したトピックに基づくことができる。さらに、コンテキスト探索
機能を使用して、アクティブ照会を完成したり、類似した照会／コンテキストを
取り出したりすることができる。

【０１２６】具体的には、各リソースに関連付けられた抽象カテゴリに基づいてリソースを
探索することができる。これらのカテゴリは、前述のようにメタ情報概念のコン
テキストで定義するか、またはコンテキスト・アソシエーションに基づくことが
できる。前述のようにディレクトリ内のすべてのイメージの探索は比較的単純で
あるが、「類似イメージ」の探索は、コンテキスト・アソシエーション、すなわ
ち、ディレクトリ内のすべてのイメージのうち、どのイメージが類似のコンテキ
ストで使用されたか（たとえば現在のイメージの編集に使用されているアプリケ
ーションと同様にカテゴライズされたリソースによるオープン、編集または組込
み）に依存する。これは、各リソース／オブジェクト・アクセスのコンテキスト
・ロギング／キャッシングによって行うことができる。カテゴリは、それ自体に
関するメタ情報も含む。さらに、カテゴリまたはコンテキスト・カテゴリによる
探索だけでなく、ユーザ・アクセスによる探索（従来のオペレーティング・シス
テムのように、それを修正するユーザの識別のみによらない）も可能である。

【０１２７】最終的に、語の部分、語、語トピック、またはコンテキストに基づいてＡＳＣ
ＩＩ、音声、およびその他の転記可能媒体のセットを探索することができる。ト
ピックは、トピック・テキストを識別する機能を含む。コンテキスト探索は、現
行のアクティブ照会／コンテキストを完成させるアクティブ・コンテキストまた
は候補として、テキスト中で類似のコンテキストを探索する機能を含む。たとえ
ば、「火曜日」というキーワードまたは実際の日付を探索することによって、所
定の火曜日を参照するファイルをすべて取り出すことができる。「明日」に言及
している月曜日のカレンダ項目もこれらの項目を返すことになる。

【０１２８】ファイルのトピック判断は、コンピュータを集中的に使用していないときにオ
フラインで行うことができる。新規ファイルまたは最近変更されたファイルのみ
を調べる必要がある。トピックは、各リソースに関連付けられたメタ情報に自動
的に加えられる。コンテキスト情報は明らかに、常にきわめてＣＰＵを多用する
タスクであり、ユーザの明示的な要求でのみ行われる。外部オブジェクトの場合
、リソースにアクセスするとトピックを（前述のように）自動的に登録すること
ができる。これは、ローカル機がオブジェクトでそれ自体の（それ自体に関する
メタ情報によって定義された）内部抽象化を探索するのを妨げない。

【０１２９】「会話型選択」の機能も備える。会話型選択機能は、基本選択の長いシーケン
スを回避し、選択の自然ショートカットを設け、訂正を行うメタ情報、抽象化、
会話型照会／混在主導権／訂正に依存することによって、リソース・マネージャ
・レベルで、または任意のアプリケーション内で提供される。階層構造によって
オブジェクトの骨組みに直ちにアクセスし、提示する様々な機構を備える。

【０１３０】具体的には、会話型選択は本発明により、階層的探索（抽象化ベースの選択）
と、複合照会機能（対話ベースの検索）との組み合わせを使用して、アクティブ
・タスクまたはアプリケーション内から行うことができることを理解されたい。
会話型選択は、従来の選択方法の大幅な改良を実現する。実際に、ＧＵＩ環境で
も、メタ情報と抽象カテゴリの使用により、所与のアプリケーションまたは照会
のための使用可能なリソースの表示が大幅に改良される。具体的には、（抽象化
とショートカットを使用する）抽象化ベースの会話型選択では、個人は、（ＩＶ
Ｒにおける）音声照会がＤＴＭＦインターフェースを介したメニュー・ページを
迂回するのと同様の方式で、メニューや階層選択を迂回することができる。これ
は、生産性向上の点で会話型インターフェースが備える大きな利点の１つである
。また、（たとえばデスクトップ、ＰＤＡ、電話を介した）サービスへのアクセ
スに使用されるモーダリティとは関係なく、同じインターフェースを使用すると
いう点で、インターフェースの一様性も示している。

【０１３１】たとえば、ウェブ・ブラウシングのためにデータベースから情報を取り出し、
ＨＴＭＬ形式の情報を、ＪＳＡＰＩおよび会話型拡張機能を使用して作成した会
話型ヘッダと共に提供するバックエンド・サーバを考えてみる。会話型ブラウザ
・モーダリティを介してサーバにアクセスする場合、ユーザは、ポイント指示ま
たは発話によって、情報を表示し、所望の情報を選択することができる。そのユ
ーザが電話モーダリティを介してサーバにアクセスする場合、ユーザはＵＲＬと
アンカーを含むナビゲーション・メニューを介して選択を行うことができる。こ
れらのナビゲーション・メニューは、ウェブ・ページが会話型ＨＴＭＬを介して
ブラウザに送信するメタ情報から生成される。

【０１３２】これらのいずれの場合も、ウェブ・ページまたはファイル・システム、あるい
はその他のオブジェクトおよびリソースの階層構造を介した選択によってナビゲ
ーションに使用されるメニューは、様々な補完的方式の１つで適切に提示するこ
とができる。たとえば、ネットワーク・オブジェクトの登録時に、メニューによ
ってその構造に関するメタ情報を伝えることができる。さらに、システムは、構
造体の構造（スケルトン）の各オブジェクトに関連付けるメタ情報をローカルで
追跡することができる。さらに、システムは、ＣＰＵのオフピーク使用中にその
スケルトン情報を定期的に更新することができる。

【０１３３】システムは、ローカルまたは外部リソースおよび階層オブジェクトを定期的に
スパイダーすることができる。あるいは、特に対話構造では、各システムはアク
セス可能なリソースに登録し、定期的に、またはアクセス時に、スケルトンメタ
情報を更新することができる。さらに、メタ情報サーバは、スパイダリングを行
って、メタ情報と共にスケルトン情報を提供することもできる。

【０１３４】このメタ情報は、メニュー（ＴＴＳ）の提示方法、どのような語彙、ＦＳＧ、
およびＮＬＵを使用する必要があるかなどを記述する。さらに、混在主導権およ
びＮＬＵを使用して選択を訂正することができ、従来のＯＳやＧＵＩベースの選
択のように後戻りしたりまったく新しい選択を必要としない。

【０１３５】したがって、会話型探索および選択に関しては、（ディレクトリを備えたファ
イル・システムのような）会話型構造だけでなく、プラットフォーム・アプリケ
ーションまたはユーザによってオブジェクトに関連付けられたメタ情報、抽象カ
テゴリに基づき、関連付けられた動的情報にも基づいて、オブジェクトを探索し
、選択することができる。さらに、探索照会は、自然な仕方で行うことができ、
混在主導権を使用して絞ることができる。照会は、デコードされ、解析された後
、ＮＬＵ技法を使用して照会の論理組合せ（記号照会）に変換される。会話型構
造と、カテゴリおよび動的情報を探索し、記号照会と突き合わせることができる
。混在主導権を使用して、探索結果に基づく昇華いの絞り込みと修正を行うこと
ができる。合致するオブジェクトを１つ選び出したり受け入れたりすることがで
きる。

【０１３６】ＣＶＭによって提供されるその他の機能は、ヘルプ、マニュアル、およびサポ
ートである。会話型インターフェースの最も魅力的な点の１つは、そのようなシ
ステムを使用する際の学習曲線を平坦にすることができることである。実際、Ｎ
ＬＵおよび混在主導権は、ユーザに各アプリケーションの使用とシステムの制御
を指導するのを支援する。しかし、さらに重要なのは、ユーザがタスクを行って
いる間にユーザにサポートを提供することができることである。

【０１３７】会話型サポートは、ユーザからの要求時にヘルプとマニュアルを提供する。こ
れは、アプリケーションのユーザ使用履歴と、同様にカテゴライズされた（メタ
情報）カテゴリのユーザ使用履歴に依存する。ユーザの以前のアクションに基づ
いて、本発明のヘルプ機能について詳細に説明される（たとえば、ユーザがまだ
タスクを行っていない、ユーザが最近タスクを行っていない、またはユーザが当
該タスクを行う際に常に失敗する場合）か、または単純なリマインダが示される
（ユーザがそれに習熟している場合）。ユーザがタスクを行っている間、サポー
ト・アしスタントが同時にアプリケーション・マニュアルを追跡する。脱落フィ
ールド、曖昧な要求、一連の訂正および拒否されたコマンドが、アシスタントに
よって追跡され、混在主導権をヘルプ対話によって強化するために使用される。
会話型ヘルプや支援などのサービスと、ＣＶＭシステムによって示されるいくつ
かの対話プロンプト（概説、質問、フィードバックなど）は、メタ情報リポジト
リに格納されているユーザの使用履歴に基づいて調整され、アプリケーションに
関連付けることができることを理解されたい。ユーザが前に所与のアプリケーシ
ョンと対話していた場合、ユーザはそれに習熟しているとみなして説明を短くす
ることができる。同様に、ユーザが多くの誤りを犯す場合、繰り返される誤りは
ユーザがそのアプリケーションまたは機能について不確かであるか、習熟してい
ないか、または理解していない／誤解していると解釈されるため、説明をより複
雑にすることができる。

【０１３８】混在主導権／使用サポートから、ＮＬＵ要求および混在主導権、トピック・ベ
ースの探索、マルチモーダル・チュートリアルを介したマニュアルへの会話型ア
クセスまでにわたる、程度やモーダリティの異なるヘルプが提供される。これは
、（たとえば、バックグラウンドでのアプリケーションの更新や再インストール
のための）ローカルまたはリモート・エージェントを含む会話型技術サポートの
形態を採ることができる。この場合も、ヘルプ・インターフェースの一様性と調
整がきわめて重要である。

【０１３９】ヘルプ情報には、ヘルプ情報にアクセスするためのＮＬＵ照会を使用して、ま
たは現行ユーザに関連付けられたメタ情報（履歴）に基づいて、および脱落引数
または混在主導権を使用して変更された引数に基づいて、アクセスすることがで
きることを理解されたい。各アプリケーションによって提供される対話は、ユー
ザの選好または専門知識のレベルに合わせて調整される。

【０１４０】要約すると、ヘルプおよびサポートは、ローカルおよびリモートのリソース、
ユーザの使用履歴、およびエージェントを使用して、要求を完成させ、手続きを
手引きし、情報を探索し、新規アプリケーションのアップグレード／インストー
ルを行う、汎用調整会話インターフェースを介して提供される。

【０１４１】次に、上述のようなＣＶＭを実施するために使用するプログラミング言語／ス
クリプトについて、詳述する。このようなプログラミング／スクリプト言語によ
り、使用可能な任意のリソースを入力または出力ストリームとして使用すること
ができる。ＣＶＭプラットフォームの会話型サブシステムを使用して、各入力を
、プログラミング言語が組込みオブジェクトとして直接処理することができるバ
イナリまたはＡＳＣＩＩ入力または属性値ｎタプル（または宣言型の同等バイト
またはＸＭＬ）に変換する。呼出し、フラグ、およびタグは自動的に組み込まれ
、オブジェクトおよびプロセス間で、異なるオブジェクトと正しくインターフェ
ースするのに必要な会話型メタ情報を伝達する。出力は、アプリケーションまた
はユーザの必要に従って特別に形式設定することができる。これらの新しいプロ
グラミング・ツールを使用して、マルチモーダル・ディスコース処理を容易に構
築することができる。プログラミング／スクリプト言語は、ファイル・ハンドル
やストリーム・ハンドルに類似したハンドルを、会話型システム・アーキテクチ
ャ、すなわち、音声認識／話者認識／会話型システムにおいて提示される会話型
サブシステムの入力または出力に与える。これらの入力ストリームは、実際には
システム呼出しによって実施される、ライブラリ呼出しとして扱われる。ＣＶＭ
の観点からは、会話型ブラウザを、会話型アプリケーションとみなすか、または
その構成要素（たとえばＸＭＬパーサ）およびプラグインを会話型アプリケーシ
ョンを含む会話型エンジンの一部と見なすことができることを理解されたい。

【０１４２】マイクロフォンからの音声入力（たとえば標準音声入力）は、語、音のシーケ
ンス、またはユーザ識別または照会（ＮＬＵが提供する記号言語表現）による関
数呼出しの引数とすることができる。入力は、手書きによって、またはファイル
などからも供給することができる。各結果ストリームは、オブジェクト指向コン
テキストにおける導出クラスと見なすことができる。

【０１４３】プラットフォーム・スクリプトの場合、発話は、会話型サブシステム・サービ
スの１つによって処理され、スクリプトによって処理されてから、アクションを
引き起こす。会話型コマンド・アンド・コントロール環境（たとえばViaVoiceの
Voice Center）は、会話型スクリプトによって作成された比較的単純な会話型プ
ラットフォームと見なすことができる。スクリプトを修正することによって、プ
ラットフォームが修正される。実際には、Voice Centerは、従来のＣ／Ｃ＋＋コ
ードによって作成され、これは入力ハンドと、コマンドの認識および実行をコー
ド内に深く隠蔽する。コンテキスト、音声状況などをプラットフォーム内に設定
して、環境変数や大域変数を更新することができる。この場合も、前述のように
会話型オブジェクト／構成要素およびファウンデーション・クラスを手続き型ま
たは宣言型とすることができる。

【０１４４】本発明の一態様による前述の入力プロセスは、音声またはその他の入力ストリ
ームが、一般に文字入力または記号入力のために確保されたあらゆる種類の処理
形態を採ることができる従来の入出力ストリームとして組み込まれるとみなす。
ユーザ入力は、解析およびＮＬＵの後に、それぞれの転記、または記号言語への
マッピングによって表現することができる。さらに、出力もスクリプト／プログ
ラミング言語によって完全に制御することができる。Voiceフォントを、メッセ
ージに応じて選択、または設計、修正することができる。このような会話型プロ
グラミング言語およびスクリプトの使用により、複合リダイレクトおよび会話プ
ロセッサまたはマルチモーダル・ディスコース・プロセッサを構築することがで
きる。これらは、たとえば従来のワード・プロセッサおよび描画／写真／ビデオ
・エディタの自然マルチモーダル拡張版である。ＣＶＭを含むファウンデーショ
ン・クラスについては前述した。

【０１４５】さらに、他のオブジェクトとストリームを交換する場合、ストリームのナビゲ
ート、制御または合成のために、データ・ストリームを会話型メタ情報をシーム
レスに追加することが重要である。他のオブジェクトまたはサブシステムと通信
する場合、これはシステム関数呼出しによりローカルで行われる。ネットワーク
・オブジェクトは、ＨＴＴＰ／ＨＴＭＬ、ＴＣＰ／ＩＰのような他のリモート・
プロトコルを介して、または多様な形態のソケット対話を介して通信する。これ
らのプロトコルは、この会話型メタ情報を交換することができるタグ、フラグ、
およびセマフォによって補完される。

【０１４６】このようなプログラミング言語は、新しいスクリプト言語の形態とすることが
できるまったく新しい会話型ツールであり、ＰＥＲＬおよびＫｓｈｅｌｌ、Ｃお
よびＣ＋＋、ＨＴＭＬ、Javascript、Basic、Javaなどの拡張版であり、Spoken
ＰＥＲＬなどと呼ぶことができる。解釈（スクリプト／宣言型）またはコンパイ
ル（手続き型）される会話型ファウンデーション・クラスおよび対話構成要素（
手続き型または宣言型）のライブラリによってＣＶＭ上での実行を最適化するよ
うに、言語を最初から新たに構築することもできる。

【０１４７】前述のように、プログラミング言語／スクリプトは、会話型アプリケーション
とＣＶＭとの間の会話型ＡＰＩを含む。また、ＣＭＬ（会話型マークアップ言語
）も含む。ここで、手続き型ＡＰＩおよびプロトコルとＣＭＬ（ＸＭＬおよびＨ
ＴＴＰ）との区別、およびトランスポート・プロトコルの変形プロトコルについ
て述べておく必要がある。手続き型ＡＰＩは、ＣＶＭを会話認識アプリケーショ
ンに露出させる。手続き型ＡＰＩおよびプロトコルによって、ＣＶＭ、アプリケ
ーション、および装置間での会話型情報の高速な交換を可能にし、コントローラ
による各アプリケーションおよびコンテキスト切換必要手続き型インターフェー
スのの状態の高速な判断を可能にする。一方、ＣＭＬは、提示素材／内容を会話
型ブラウザに伝達する理想的な方法であり、ＸＭＬの目的と合致し、対話の開発
に必要なプログラミング専門知識を少なくするという利点を有する。

【０１４８】前掲の特許出願に記載されている会話型ブラウザタイプのインターフェースで
は、ページ間でＸＭＬが交換されるが、ページ間および複数の同時タスク間での
コンテキストは、ＡＰＩ／プロトコルを介してブラウザによって管理される。こ
の実施態様は、たとえば、純粋にソケット・ベース（ＴＣＰ／ＩＰ）、ＨＴＴＰ
Ｃｏｒｂａ／Java ＲＭＩベース、または（ＸＭＬを使用した）順次化オブジェ
クトの交換によるＨＴＴＰベースとすることができる。プロトコルは、ＸＭＬ（
宣言型）と手続き型の通信がサポートされるように設計することが好ましい。

【０１４９】会話型スクリプトによって開かれる可能性の中でも、会話型論理は恐らく最も
めざましいものであろう。新しい会話型プログラミング言語のレベルでは、従来
型および会話型のサブシステムに発行され、供給されるストリームに対する直接
処理は、新しい論理ストリームおよび演算子を暗黙に示す。

【０１５０】論理ストリームは、（１）真、（２）偽、（３）不完全、（４）曖昧、（５）
ＡＳＣＩＩの視点での異／同、（６）ＮＬＵの視点からの異／同、（７）アクテ
ィブ照会フィールドの視点からの異／同、（８）不明、（９）非互換、（１０）
比較不能を含む。会話型論理演算子を導入して、このようなステートメントのテ
ストまたは修正を行うことができる。要約すると、ＡＳＣＩＩ／バイナリ内容に
基づいて、またはＮＬＵ変換された照会（従来型および会話型サブシステムの入
出力）に基づいて比較することができる豊富な会話型照会を扱うように、論理ス
テートメント状況および演算子を会拡張する。このようなシステムのテストまた
は修正を行うように論理演算子を実現することができる。

【０１５１】次に図７を参照すると、本発明の一態様による分散ＣＶＭのアーキテクチャが
図示されている。この分散型システムの中核はＣＶＭ７０４（サーバ、ＰＣなど
に置くことができる）であり、複数のアプリケーション７０６、装置７０８〜７
１３、その他のＣＶＭアプリケーションまたは装置７０７、および会話型リソー
ス７０５間の会話型アービトレータとして機能する。ＣＶＭ７０４は、このよう
な装置およびアプリケーションにわたって調整された一様な会話型インターフェ
ースを備え、それによって異なる会話型装置７０８〜７１３、リソース７０５、
アプリケーション７０６が本発明の会話型プロトコルを介して接続することがで
きる。複数の会話接続された装置／オブジェクトによって、調整インターフェー
スが提示される。オブジェクトの集合が、ＣＶＭ７０４の集中または分散コンテ
キスト・スタックを介してユーザに対して単一の調整インターフェースを提供す
る。会話型装置は、他の会話型装置から会話型インターフェースを介して制御可
能なサイレント・パートナを含むことができる。登録段階で、これらは要求時に
サポートされているコンテキストのリストを交換する。接続時に、これらのコン
テキストが更新される。接続に応じて、コンテキストは集中化または装置間で分
散される（すなわちネットワークが折衝される）。

【０１５２】ユーザが装置の集合と対話するとき、対話は常に車内のＰＶＡ（パーソナル・
ビークル・アシスタント）７１０、または音声ブラウザ７１３などの中央ユニッ
トを介して行うことができる。タスク・ディスパッチャおよびコンテキスト・ス
タックは、すべての装置に関連付けられたコンテキストを蓄積し、各装置に対す
るコマンドを解析し、適切にディスパッチする。ユーザが装置の集合全体と対話
する場合、装置は常にアクティブである（最後にアクティブにされたコンテキス
ト）。当該装置は、新規コマンドがそのコンテキスト・スタックに適合するか否
かを調べる。適合しない場合は、アクティブになる隣の装置に渡す。このプロセ
スは、一致が見つかるまで繰り返され、場合によってはユーザによって確認され
、または要求は最初の装置に戻される。その場合、ユーザにエラー・メッセージ
または混乱メッセージが返される。

【０１５３】前述のように、ＣＶＭは、複数のディスコースを管理し、コンテキストを使用
し、抽象化およびメタ情報を介してオブジェクトを参照し、タスク、抽象化、コ
ンテキストの割当てと記憶を行い、ユーザの認識と認証を行い、ディスプレイ、
ＧＵＩ、キーボード、またはポインティング・デバイスを使用するか否かを問わ
ず、すべての対話を通して同じインターフェースを提示する機能を備えることに
よって、ユーザがシステムと対話できるようにする。同じ対話は、チャネルに無
関係の機能を付加または省いて、電話、ウェブ、ＰＤＡ、デスクトップを介して
も行われる。

【０１５４】たとえば、ユーザはスプレッドシートの要素に関する情報にリモートからアク
セスし、必要であれば修正すると同時に、自分のメールをチェックする。ユーザ
は、これらのすべてのタスクを（デスクトップの前にいるときに）従来の方式で
行うことにするか、または、電子メールをタイプで仕上げながら、スプレッドシ
ートの情報を目で見ないで音声で調べることができる。いずれの場合も、ユーザ
にとってインターフェースはシームレスに同じである。

【０１５５】複数の装置が会話接続されている場合、それらの装置は、すべての装置を汎用
ＣＵＩを介して制御することができるようにそれぞれのインターフェースを調整
する。この概念を以下の例で示す。夜、自動車で帰宅途中であり、配偶者から新
しい食料品店で何かを買ってくるように頼まれたのを思い出したとする。留守番
電話でメッセージを見つけた後、音声認識ソフトウェアを使用してそれを急いで
デスクトップのメモ帳に転記した。しかし、それをプリントするのもＰＤＡに転
送するのも忘れた。しかし、デスクトップＰＣがＣＶＭを稼動させてれば問題は
ない。なぜなら、問題車内にＰＤＡ、会話型車載ＰＣ（ＰＶＡ、パーソナル・ビ
ークル・アシスタント）と会話型高度自動機能電話を備えているためである。さ
らに、ＰＶＡが組込みＣＶＭを稼動させていると同時に、他の２つのアプリケー
ションが会話認識であるものとする。すなわち、ＰＶＡで稼動しているＣＶＭを
介してそれらのアプリケーションを制御できるものとする。

【０１５６】ＰＶＡに、電話を使用してＰＣにダイヤル接続するように指示することができ
る。接続が確立された後は、音声により認証され、前に作成した「食料品リスト
」を音声により要求するだけでそのメモを見つけることができ、ファイル名やデ
ィレクトリを思い出したり、ディレクトリを閲覧してやっと適切なファイルを選
択したりしなくても済む。ＰＣＣＶＭが要求する場合には、その選択を確認す
る必要がある。「これをＰＤＡと同期させなさい」という別の照会を出すことが
できる。すると、そのファイルが次の同期でＰＤＡに転送されるようにリンクさ
れる。最後のコマンド「実行！」を出すと、ＰＣは手に負えず、ＰＶＡにその曖
昧な照会を処理させる。ＰＶＡは、その希望を理解して、直前に会話に基づいて
ＰＤＡとＰＡＣを同期させる。確認後、同期化が行われ、食料品リストがＰＤＡ
に格納されて、後で使用できるようになる。

【０１５７】次に、ＰＶＡにその店まで曲がり角ごとに案内するように指示する。現在位置
が計算され、店の場所がローカルで、またはサーバから取り出され、最新の更新
情報を考慮に入れて道程が計算される。随時、現在位置に関するナビゲーション
情報、次にすべき事、目的地までの距離を要求することができ、異なる道程も要
求することができる。

【０１５８】時間に追われて、ＰＶＡに、店のドライブ・スルー・サーバにダイヤルするよ
うに指示する。これには、電話番号案内サービスＩＶＲとの中間会話が必要にな
る。現在のホーム・ページと同様に構築されたスモール・ビジネスまたは個人消
費者ＩＶＲのの概念の一例である、店のＩＶＲと、会話型インターフェースとの
対話を介して接続した後、注文を出す。そのために、ＰＶＡに対して、食料品リ
ストをゆっくりとブラウズして項目ごとに読み上げるように指示する。次に、Ｉ
ＶＲに対してその要求を言い直し、各注文が適切に取られるまで対話を続ける。

【０１５９】店に到着すまでに、注文はできている。これで、家まで車を運転しながら静か
に電子メールや、ニュース、株式市況を聞くことができる。必要であれば、自分
のＰＣにダイヤルし、スプレッドシート情報を調べたり、修正したりすることが
できる。これは、デスクトップ機でメールを処理しながら音声で調べるのと同じ
方法である。また、ＰＶＡまたはデスクトップ機でエージェントにタスクを割り
当て、更新または後で思い出させるように要求することもできる。

【０１６０】デスクトップ機、ＰＶＡ、ＣＶＭ認識高度自動機能電話、およびＰＤＡでＣＶ
Ｍを稼動させる場合、アプリケーション開発者はＣＶＭＡＰＩに接続するだけ
で済む。これには、以下のような、そのすべての会話機能と要件を登録すること
が含まれる。１．アプリケーションを制御するためのアクティブ語彙、有限状態文法、言語
モデル２．ＮＬＵまたは少なくともコンテキスト状態リストがサポートされている場
合、記号マッピング３．特に出力のカテゴライズを可能にする関連付けられた該当メタ情報／カテ
ゴリ４．会話型入出力情報。入出力を直接制御するか、サイレント・パートナであ
るか、または会話型入出力プロバイダのクライアントであるか、および５．ＣＶＭ機能／状態。ＣＶＭを稼動させているか、ＣＶＭクライアントであ
るか、マスタ、スレーブ、またはパートナＣＶＭであるか

【０１６１】上述の例では、ＰＶＡはマスタＣＶＭであった。ＣＶＭを装備している場合、
ＰＤＡおよび高度自動機能電話はスレーブＣＶＭ、または単にＣＶＭ認識機であ
る。ＰＶＡがＰＣに会話接続する場合、ＰＶＡがマスタ、スレーブ、パートナの
いずれとして機能するかを決定するのは、アプリケーション開発者である。ロー
カルで、または電話を介して接続する場合、装置はＡＰＩで伝えられた必要な情
報を交換し、それによって装置間の調整を完全に定義する。この場合も、ＣＶＭ
は、会話型および従来型サブシステムを含めて、すべての入出力問題を自動的に
処理する。またこの場合も、ＡＰＩはＣＶＭのためのすべての情報を伝え、照会
をアプリケーション呼出しに変換し、逆に出力を音声に変換し、適切にソートし
てからユーザに提供する。

【０１６２】開発者は、開発ツールを使用して、会話型ＡＰＩおよびＣＶＭを中心にしたア
プリケーションを容易に作成することができる。この開発環境（本明細書ではSp
oken Age（スポークン・エイジ）と呼ぶ）によって、プログラマは、ＣＶＭのエ
ミュレート、アプリケーションまたはネットワーク・プロトコルのデバッグ、お
よび会話型ユーザ・インターフェースの迅速な開発を行うことができる。Spoken
Ageは、ＣＵＩおよびＣＶＭ用アプリケーション開発機能を含む。また、所与の
アプリケーションのためにエンジンのデータ・ファイル（会話型引数）を修正す
る環境も備える。具体的には、これは、ツールのレベルでSpoken Ageが、ＩＢＭ
のViaVoiceツールキットなどのＳＤＫツールキットのような、会話型エンジンの
フロントエンドも含むことを意味する。これは、Spoken Ageが備えるツールキッ
トとアルゴリズムによって、ユーザが所与のタスクのためにデータ・ファイルの
再作成、適応化、または拡張を行うことができることを意味する。これには、デ
ータ収集規則に従ってアプリケーションのためにデータを収集することと、適切
なスクリプトを実行してデータ・ファイルを生成し、パフォーマンスをテストす
ることが含まれる。これは、タスク、ドメイン、または音響環境専用のデータ・
ファイルまたはデータ・ファイルの一部を（ＣＤＲＯＭまたはウェブ・サイト
から）ダウンロードすることも含まれる。また、書式に記入し、新規アプリケー
ションの記述／データ例の提示を行うことによって、データ・ファイル・サービ
ス・オフィスに行った照会にも続いて、データを更新することも含まれる。

【０１６３】プラットフォーム上および特定のチャネル用にアプリケーションを開発した後
は、プログラマはSpoken Ageによって、ＣＶＭをサポートする他のどのようなプ
ラットフォームにでも移植することができる。プログラマは、ＣＶＭによって、
その会話型機能を、新しいプラットフォームまたは装置による通信チャネルまた
はＵＩの制約に合わせて自動的に適応させることもできる。また、Spoken Ageを
使って書かれたJava、ＣＧＩ、およびＸＭＬ／ＨＴＭＬベースのウェブ・サイト
を、電話または小型の組込み会話型ブラウザによってアクセスする限定された音
声マークアップ言語を介してサービスを提供するＩＶＲに直ちに変換することが
できる。

【０１６４】分散システムは、ＣＶＭと共に動作可能な魅力的な音声使用可能アプリケーシ
ョンである会話型ブラウザ７１３をさらに含む。会話型ブラウザは、ＣＶＭ上で
稼動することができ、ＣＭＬを解釈して会話型対話を作成すると同時に、ＣＭＬ
ページを提示することができる。図７に示し、前掲のＩＢＭ整理番号ＹＯ９９８
−３９２Ｐ特許出願で詳述しているように、会話型トランスコーダ・プロキシ・
コードを介してレガシー・アプリケーション７００にアクセスし、ＨＴＭＬやＤ
Ｂ２のような従来の形式をＸＭＬにトランスコードすることができる。会話型ブ
ラウザは、ＸＭＬ仕様に基づく音声マークアップ言語であるＣＭＬ（会話型マー
クアップ言語）を解釈する。これは、ＣＶＭ上で稼動する最も魅力的なアプリケ
ーションの１とみなすことができる。会話型ブラウザは、それ自体のＣＶＭを持
つスタンドアロン・アプリケーションとすることができる。ＣＭＬによって、初
心アプリケーション開発者でも、会話型対話を迅速に開発することができる。Ｈ
ＴＭＬおよびワールド・ワイド・ウェブとの類似点をさらに続けて挙げると、Ｃ
ＭＬおよび会話型ブラウザは、レガシー企業アプリケーションおよびレガシー・
データベースの周囲に会話型ユーザ・インターフェースを構築する簡素でシステ
マティックな方法を提供する。さらに、この機構をＣＶＭの上に構築した後は、
これらのアプリケーション、サービス、およびトランザクションを会話に組み込
むことができ、ユーザはそれを複数の（ローカルおよびネットワーク）アプリケ
ーションおよび（ローカルおよびネットワーク）装置にわたって伝えることがで
きる。また、ユーザが、会話型ブラウザを稼動させているＰＣまたはＩＶＲでレ
ガシー・アプリケーション、会話型アプリケーションにアクセスするとき、また
はサーバ側にある会話型アプリケーションにアクセスするときに、ユーザに同じ
ユーザ・インターフェースも提供する。ＨＴＭＬ対話をＣＭＬに変換する会話型
プロキシの使用により、同じページでＰＣまたは組込み装置上の従来型またはマ
ルチモーダルのブラウザ、会話型ブラウザ、およびＩＶＲアプリケーションを駆
動することができる。電話カードを備えたサーバ上の適切に設計されたホーム・
ページは、パーソナルＩＶＲにもなる。特に、会話型プロキシを導入してＨＴＭ
ＬページをＣＭＬページにトランスコードした場合にそうである。

【０１６５】ＣＶＭはＡＰＩおよびＣＶＭを介して露出され、分散リソースはＡＰＩおよび
手続き型プロトコルを介して最も効率的に対話するが、対話プロトコルをＨＴＴ
ＰおよびＸＭＬ／ＨＴＭＬ交換を含めるように拡張することが重要である。実際
、単一、または順次の会話型トランザクションには、ＨＴＴＰおよびＸＭＬ交換
、または場合によっては順次化オブジェクトで十分な場合もある。最適プロトコ
ルを選択し、ＸＭＬ交換を可能にするオプションによって、ごくわずかなプログ
ラミング知識で対話の設計を簡略化することができる。一方、手続き呼出しによ
り、複数の同時会話アプリケーションを備えたきわめて効率的なローカルまたは
分散実施態様を設けることができる。効率的な会話プラットフォーム機能は、Ａ
ＰＩインターフェースを必要とする。複数の会話型アプリケーションにわたって
効率的な対話マネージャは、異なるサブシステム、アプリケーション、および関
係ＣＶＭエンティティ間での手続きオブジェクトの交換を必要とする。

【０１６６】ＵＣＲＣ（Universal Conversational Remote Control（汎用会話リモート・
コントロール））とも呼ぶ、図８に示すようなＵＣＡ（Universal Conversation
al Appliance（汎用会話機器））を使用する本発明のアプリケーションの例を以
下に示す。このＵＣＡまたはＵＣＲＣは、会話型プロトコルの複数の態様を含む
ＣＶＭ装置の一例である。ＵＣＲＣは、自発ネットワーク機能を有する音声使用
可能携帯型ＰＤＡである。このネットワーク機能は、ＲＦ、特別機能（たとえば
ブルートゥース、ホッピング・ネットワーク）またはＩＲとすることができる。
家庭環境では、機器は会話認識となる（ただし一般にはサイレント・パートナで
ある）。これは、異なる機器を検出し、必要な情報を交換して会話制御すること
を意味する。異なる機器が同様のネットワーク機能を有する。簡略化された場合
には、これらは、Ｘ１０のような永続ネットワークを使用する「ホーム・ディレ
クタ」タイプのインターフェースによって直接制御される。この場合、ＵＣＡは
ホーム・ディレクタと直接対話する。

【０１６７】ＵＣＲＣは、（前述のように）会話型プロトコル８０１を介してハンドシェー
ク（検出）要求を周期的に（きわめて頻繁に）ブロードキャストする。各機器（
またはホーム・ディレクタ）は、このような要求を検出すると応答する。新たに
検出された機器はそれ自体の識別情報を示す。ＵＣＲＣもそれ自体の識別情報を
示す。その結果のハンドシェークによって、登録が行われる。登録には、機器の
性質と名前の識別（およびその他のメタ情報）およびそれがサイレント・パート
ナであることが含まれ、次にこれによって折衝が行われる。

【０１６８】この場合、折衝ではＵＣＲＣが会話を駆動することで直ちに合意する。新たに
検出された機器は、その現在の状態と、その状態でサポートするコマンドとを交
換する。限られた数のコマンドをサポートする場合、サポートする他の状態と、
それらの他の状態に関連付けられたコマンドも送る。これは、前述の構造スケル
トンの送信に相当する。状態の構造が複雑すぎる場合、この情報通知は状態が変
わるたびに状態ごとに行われる。

【０１６９】交換プロセスでは、アクティブ化時に戻りハンドル／イベントによるコマンド
のリストを機器に返し、さらに、場合によっては必要なすべてのデータ・ファイ
ル、すなわち語彙、基本フォーム、対話のためのプロンプト／音声フォント、文
法、場合により解析、変換、タグ付け、記号言語、およびＮＬインターフェース
用の言語生成規則も返す。あるいは、この情報は、会話型エンジン・タスクを実
行する他のエンジン（たとえば音声認識タスクなどを実行するサーバなど）のア
ドレスを含むことができる。アクティブ化時およびユーザからの入力時に、ＵＣ
ＲＣＣＶＭは関連付けられた機器を判断する。これは、異なる機器によって（
ローカルまたはリモートで）サポートされるコマンドに従い、認識結果に基づい
て行われる。

【０１７０】決定すると、イベント／戻りハンドルがアクティブ化され、その関連付けられ
た機器でコマンドが実行される。その結果、状態が変化する。この新たな状態は
ＵＣＲＣに伝達される。ＵＣＲＣ上のコンテキストも更新される。コマンドは、
スケルトンに基づいて、またはサポートされているコマンドの新たな交換に基づ
いて更新される。機器が一時的にネットワークから消える場合、この情報はコン
テキストに格納される（機器が依然としてＵＣＲＣによって制御されている場合
）。これは、時間（最後に検出されてからの経過時間）または場所（メタ情報）
または（非アクティブ化される場合）メタ情報に基づいて行うことができる。再
アクティブ化されると、情報のほとんどばコンテキストまたはメタ情報から再ロ
ードされ、プロトコルは更新がないかのみ調べる。

【０１７１】機器が制御リストから明示的に除去される場合、その装置から、またはＵＣＲ
Ｃからサインオフ要求が明示的に送られる。機器が従来方式で制御される場合（
テレビジョンの従来のリモート・コントロール、または照明器具のスイッチなど
）、ＵＣＲＣにイベントが返され、コンテキスト、データ・ファイル、および機
器の状態の登録／折衝、あるいは単なる更新が行われる。

【０１７２】ホーム・ディレクタを使用する場合、以下の２つのモデルを採ることができる
点を除き、プロトコルはまったく同じであることに留意されたい。１）１つアプリケーション、すなわちホーム・ディレクタのみが登録される。機
器変更またはコマンドの結果、ホーム・ディレクタ全体の状態が変更される。２）個々の機器すべてがＵＣＲＣに登録される。ホーム・ディレクタは、機器と
ＵＣＲＣとの間でプロトコルの送信とトランスコードを行うゲートウェイとして
のみ機能する。

【０１７３】ホーム・ディレクタ・モデルについて考えてみると、ＵＣＲＣによって提供さ
れる機能を拡張することができる。自発的ネットワーキングではなく、通常のワ
イヤレスＬＡＮ（ホーム・ディレクタに接続されたベース局とのイーサネット（登録商標）、ＲＦ）とすることもできる。範囲外の場合には、ホーム・ディレクタ・ソリューションは、通常の電話（たとえばモデム・タイプの接続）によって呼出し可能であるという利点がある。そのような場合、すべてのプロトコルは、電話を介して交換することができる。したがって、新ＵＣＲＣ技法は、範囲内にあるときにローカルまたは自発ネットワーク機能を備え、範囲外にあるときにはベース局へのバイナリ接続機能を備えて常に勝ち得から制御されるセルラーホン／ＵＣＲＣである。

【０１７４】あるいは、ＵＣＲＣ機能を重複させたり、ホーム・ディレクタ機に限定したり
することもできる。重複させる場合、機械が電話カードを介した音声ブラウズ機
能またはローカル・ホームＩＶＲ機能を備える場合には、家庭用機器は、電話に
よって（Ｃおよびサーバ交換会話プロトコルを介したバイナリ接続の必要なしに
）どこからでも制御することができる。ＵＣＲＣおよび会話プロトコルは、ホー
ム・ディレクタと機器との間にある。任意の通常電話を使用することができる。
第２の事例では、家庭にあるときには機器の制御には通常、サーバも使用される
。ＵＣＲＣは、携帯型入出力システムになる。すなわち、音声を取り込み、圧縮
してホーム・ディレクタに送る（会話型コーディング）。出力も同様に、再生の
ためにＵＣＲＣに送られる。実際のＣＶＭ処理はすべて、ホーム・ディレクタ・
サーバ上で行われることになる。

【０１７５】次に図１２を参照すると、本明細書に記載の構成要素および機能を使用して構
成可能な会話型ネットワーク・システムが図示されている。本発明による会話型
コンピューティングは、異なる装置のネットワーク化という点で新しい要件を意
味することを理解されたい。これは、すべてのプロトコル、負荷およびトラフィ
ックの管理、ネットワーク・キャッシングおよび記憶における主要な考慮事項が
、負荷またはトラフィックのバランスを保証することだけではなく、さらに、ネ
ットワーク上で現在会話をしているユーザまたはネットワーク・リソースを使っ
ているユーザのすべてのアクティブ対話の対話フローを最適化することであると
いうことを意味する。言い換えると、会話型分散アーキテクチャによって、対話
の遅延およびフロー、音声送信（会話型コーディング）の遅延、音声とＧＵＩ構
成要素との同期化（実際、ＧＵＩ入力の結果として、イベントおよび、ＵＩの音
声構成要素とＧＵＩ構成要素との同期化／協調動作が行われなければならない）
、および基礎会話型プロトコル（折衝、対話マネージャ・プロトコルなど）の更
新と交換を最適化するために、新たな追加の制約または考慮事項をが加えられる
。このような面は、ローカルまたはネットワークあるいはその両方でのシームレ
スで透過的な処理が望まれる場合に重要な役割を演じる。サービス品質、帯域幅
、最小遅延、最小パケット損失などは、依然としてＶｏＩＰの場合と同様に重要
である。

【０１７６】さらに、特定のタスクおよびドメインに必要なデータ・ファイルを適切なエン
ジンに適切に転送する問題がある。この場合も、ネットワーク上でのキャッシュ
または記憶と、特に精細なトラフィック管理および負荷管理を必要とする。やは
り、送信側と受信側との間のトラフィックのフローのみが問題であるＶｏＩＰの
場合でさえも存在しない概念である。さらに、スケルトン情報（すなわち対話論
理）でさえも、ネットワーク内で適切に事前記憶、キャッシュ、または重複させ
ることができ、効率が向上する。

【０１７７】図１２に示すシステムでは、本発明によるクライアント装置１０００（ＣＶＭ
システムまたは対話マネージャ機能を備える）は、ＰＳＴＮ１００２を介して接
続することによってサービス・ネットワーク・プロバイダ・ネットワーク１００
１と、ルータ１００４を介してインターネット／イントラネット１００３ネット
ワークの所望の情報にアクセスすることができる。ルータ１００４とインターネ
ット／イントラネット・ネットワーク１００３は、会話型ネットワーク・サービ
ス拡張機能および機構を提供する。これには、（前述の）分散会話プロトコル、
ＲｅｃｏＶＣ（認識互換ＶｏＣｏｄｅｒ）による音声コーディング、アプリケー
ションおよびメタ情報（分散アプリケーション・プロトコル）、ディスカバリ、
登録、折衝プロトコル、対話フローとトラフィック・バランスを維持するための
サーバ負荷管理、対話フローを維持するルーティング、タスク機能および能力要
件と会話引数可用性（データ・ファイル）とに基づくエンジン・サーバ選択、会
話引数（分散：記憶）、トラフィック／ルーティングおよびキャッシングが含ま
れる。

【０１７８】図１２に示すような任意のネットワーク（インターネット、ブルートゥース、
ワイヤレス・ネットワークなど）および会話型アプリケーション・サービスまた
はコンテンツまたはトランザクション・プロバイダのイントラネットでは、ネッ
トワークはコンテンツ・サーバとバックエンド・論理または業務論理サーバ、会
話型エンジン・サーバ、ゲートウェイ、ルータ、プロキシ、およびＩＶＲ（たと
えばサウンド・カードのような）およびサーバ・ブラウザを有し、これらのリソ
ースの間で音声ファイルおよびデータ・ファイルが会話型ネットワーキング原理
による最適化に従って、絶えず交換される。

【０１７９】したがって、ＣＶＭ構成要素または会話型サービスは、これらすべてのエンテ
ィティ（サーバ、クライアント、ゲートウェイ、ルータなど）上に存在して、会
話型ネットワーキング測定、送信、管理、および様々な機能の実行のためにメッ
セージを交換する必要がある。一般に、これらの機能は、ネットワーク内の負荷
分散、トラフィック分散、記憶およびキャッシングなどを行うために、既存のプ
ロトコルおよびシステム上で実行される。

【０１８０】本明細書では例示の実施形態について添付図面を参照しながら説明したが、本
システムおよび方法はこれらの厳密な実施形態には限定されず、当業者なら本発
明の範囲および主旨から逸脱することなく、他の様々な変更および修正を加える
ことができることを理解されたい。このような変更および修正はすべて、特許請
求の範囲に定義されている本発明の範囲内に含まれるものと意図される。

【図面の簡単な説明】

【図１】本発明の一実施形態による会話型コンピューティング・システムを示すブロッ
ク図である。

【図２】本発明の一実施形態による対話型コンピューティング・システムの抽象層を示
す図である。

【図３】本発明の一態様による会話型コンピューティング・システムで実施される会話
型プロトコルを示すブロック図である。

【図４】本発明の一実施形態による会話型コンピューティング・システムの構成要素を
示すブロック図である。

【図５】本発明の一態様によるタスク・ディスパッチ・プロセスを示す図である。

【図６】本発明の一態様による会話型ユーザ・インターフェースおよび入出力プロセス
の概要を示す図である。

【図７】本発明の一態様による分散会話型コンピューティング・システムを示す図であ
る。

【図８】本発明の一実施形態による汎用会話型装置を示す図である。

【図９】本発明の一態様による対話管理プロセスを示す図である。

【図１０】本発明の他の態様による対話管理プロセスを示す図である。

【図１１】本発明の他の態様による対話管理プロセスを示す図である。

【図１２】本発明の対話型ネットワーキングを示す図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＣＡ，ＣＮ，ＩＬ，ＩＮ，ＪＰ，ＫＲ，ＵＳ (72)発明者カマーフォード、ライアム、ディーアメリカ合衆国10512 ニューヨーク州カーメルバレー・ロード54 (72)発明者デジェナロ、スティーブン、ブイアメリカ合衆国10512 ニューヨーク州カーメルコールター・アベニュー38 (72)発明者エプスタイン、エドワード、エーアメリカ合衆国10579 ニューヨーク州パトナム・バレーカノープス・ホロー・ロード219 (72)発明者ゴパルクリシュナン、ポナニアメリカ合衆国10598 ニューヨーク州ヨークタウンハイツラドクリフ・ドライブ 3073 (72)発明者マース、ステファン、エイチアメリカ合衆国06811 コネティカット州ダンベリーウィンターグリーン・ヒル１ (72)発明者ナハムー、デビッドアメリカ合衆国10605 ニューヨーク州ホワイト・プレインズエルムウッド・ロード12 Ｆターム(参考） 5B076 DB01 DB04 DB10 DC00 DD04 5B098 GA02 GA04 GA07 GC01 HH04 HH08 【要約の続き】７）を使用して、音声要求を照会に変換し、出力および結果を発話メッセージに変換する。会話型アプリケーションＡＰＩ（１３）は、会話型カーネル（１４）が照会をアプリケーション呼出しに変換し、逆に出力を発話に変換してユーザに提供する前に適切に記憶するすべての情報を伝える。

Claims

【特許請求の範囲】

【請求項１】入力照会を受け取るマルチモーダル会話型ユーザ・インターフェース（ＣＵＩ
）と、前記入力照会を処理し、前記入力照会に応答して対話を生成する会話型エンジ
ンと、前記入力照会に基づいて前記対話とアプリケーションに関連付けられたコンテ
キストとを管理し、前記会話型エンジンを管理する会話型カーネルと、前記アプリケーションと前記会話型カーネルとのインターフェースをとる会話
型アプリケーション・プログラム・インターフェース（ＡＰＩ）とを含む会話型
コンピューティング・システム。
【請求項２】前記会話型ＡＰＩが、会話型手続きの実行と会話型アプリケーションの構築と
のうちのいずれか１つのための会話型オブジェクトを作成するためにアクセス可
能な会話型ファウンデーション・クラスおよび基本対話構成要素のライブラリ関
数を含む、請求項１に記載のシステム。
【請求項３】前記会話型ファウンデーション・クラスおよび基本対話構成要素が、ＣＵＩビ
ルディング・ブロックと会話型プラットフォーム・ライブラリと対話モジュール
と対話スクリプトとビーンと会話型ジェスチャとこれらの組合せとのうちのいず
れか１つを含む、請求項２に記載のシステム。
【請求項４】前記会話型オブジェクトが宣言型と手続き型のいずれか一方で実施される、請
求項２に記載のシステム。
【請求項５】前記会話型カーネルが、オペレーティング・システムとリアルタイム・オペレ
ーティング・システムとのうちのいずれか一方で実行される、請求項１に記載の
システム。
【請求項６】前記システムがパーソナル・コンピュータ・プラットフォームとサーバ・プラ
ットフォームと組込み装置プラットフォームとのうちのいずれか１つで実行され
る、請求項１に記載のシステム。
【請求項７】前記マルチモーダルＣＵＩが、複数の入力／出力（Ｉ／Ｏ）リソースと、前記
複数のＩ／Ｏリソースとインターフェースし、前記複数のリソースを前記会話型
カーネルに登録するＩ／ＯＡＰＩとを含む、請求項１に記載のシステム。
【請求項８】前記Ｉ／ＯＡＰＩ層が、Ｉ／Ｏ抽象化とユーザ・インターフェース抽象化と
装置抽象化とこれらの組合せとのうちのいずれか１つを含む、請求項７に記載の
システム。
【請求項９】前記マルチモーダルＣＵＩが、汎用自然言語理解（ＮＬＵ）インターフェース
と自然言語生成（ＮＬＧ）インターフェースのうちのいずれか一方を含む、請求
項１に記載のシステム。
【請求項１０】前記ＮＬＵインターフェースおよびＮＬＧインターフェースがコンテキストと
混在主導権とを提供する、請求項９に記載のシステム。
【請求項１１】前記会話型カーネルが、前記アプリケーションにわたる対話を管理し、入力照会に基づいてアクティブ
対話とコンテキストとアプリケーションとを選択する対話マネージャと、会話型タスクのために前記会話型エンジンの管理と割振りとを行うリソース・
マネージャと、会話型タスク間を調整し、ディスパッチする会話型タスク・ディスパッチャと
、会話タスクのアクティブ・ディスコースのコンテキストと照会引数を含むコン
テキストと属性値ｎタプルのリストと会話型状態とを蓄積するコンテキスト・ス
タックとを含む、請求項１に記載のシステム。
【請求項１２】前記コンテキスト・スタックが、コンテキストのグローバル履歴を含む、請求
項１１に記載のシステム。
【請求項１３】メタ情報のリポジトリを管理するメタ情報マネージャをさらに含み、前記メタ
情報が、ファイルとディスコースとオブジェクトとデータ・ストリーム・ハンド
ルと、ネットワークと周辺機器とハードウェアとアプリケーションとネットワー
ク・ファイル・システムとこれらの組合せとのうちのいずれか１つを含む要素に
関連付けられた複数の抽象カテゴリ請求項１１に記載のシステム。
【請求項１４】前記メタ情報を使用して前記要素へのショートカットを設ける、請求項１３に
記載のシステム。
【請求項１５】前記メタ情報が、選好とセキュリティと習慣とバイオメトリクスと振舞いとこ
れらの組合せのうちのいずれか１つに関するユーザ情報を提供する、請求項１３
に記載のシステム。
【請求項１６】前記会話型カーネルが会話型エンジンＡＰＩを介して前記会話型エンジンを制
御し、アクセスする、請求項１に記載のシステム。
【請求項１７】前記会話型カーネルが、前記対話マネージャを介してバックエンド論理にアク
セスするバックエンド抽象化層をさらに含む、請求項１１に記載のシステム。
【請求項１８】前記会話型カーネルが、前記Ｉ／Ｏリソースおよび会話型エンジンの機能に基
づいて前記振舞い、ユーザに提示するＣＵＩ、および対話の適応化を行う会話型
トランスコーダを含む、請求項７に記載のシステム。
【請求項１９】リモート・アプリケーションとリモート装置と、リモート会話型コンピューテ
ィング・システムとこれらの組合せとのうちのいずれか１つを含む会話認識シス
テムと情報を交換する会話型プロトコルをさらに含む、請求項１１に記載のシス
テム。
【請求項２０】前記会話型プロトコルが、会話型状態と会話型引数とコンテキストと会話型エ
ンジンＡＰＩ呼出しと結果とこれらの組合せとのうちのいずれか１つを含む情報
を交換する分散会話型プロトコルを含む、請求項１９に記載のシステム。
【請求項２１】前記会話型プロトコルが、前記会話認識システムを自動的に検出する会話型デ
ィスカバリ・プロトコルを含み、前記会話型ディスカバリ・プロトコルが、ハン
ドシェーク、識別子の交換、第１の折衝のためのハンドルの交換、および第１の
折衝のためのハンドルの交換のブロードキャスト要求を含む、請求項１９に記載
のシステム。
【請求項２２】前記会話型プロトコルが、前記システムと前記会話認識システムの間で情報を
交換してネットワーク・トポロジを折衝する会話型折衝プロトコルを含む、請求
項２１に記載のシステム。
【請求項２３】前記会話型プロトコルが、データ転送を該当情報に制限し、ネットワーク・ト
ポロジを折衝するように会話型機能と会話型状態とコンテキストとに関する情報
の交換と登録とを行う会話型登録プロトコルを含む、請求項２２に記載のシステ
ム。
【請求項２４】前記会話型カーネル層が、前記会話型アプリケーションＡＰＩを介したシステ
ム呼出しによってアクセス可能な会話型サービスおよび振舞いを提供する、請求
項１１に記載のシステム。