JP2006146881A

JP2006146881A - 会話用合理的エージェント、このエージェントを用いるインテリジェント会話システム、インテリジェント会話を制御する方法、及びそれを用いるプログラム

Info

Publication number: JP2006146881A
Application number: JP2005278625A
Authority: JP
Inventors: Vincent Louis; ヴァンセント・ルイ; Franck Panaget; フランク・パナジェ; Philippe Bretier; フィリペ・ブレティエール
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2004-09-27
Filing date: 2005-09-26
Publication date: 2006-06-08
Also published as: EP1669846A1; FR2875919A1; US20060072738A1

Abstract

【課題】会話用合理的エージェントが、人間のユーザ又は他のソフトウェアエージェントである接続相手とのマルチモード対話を包括的に管理できるようにする。
【解決手段】合理的エージェントには、イベントを変換し、外部エージェントの通信活動を着信形式レコードに翻訳する解釈手段と、着信形式レコードの機能として、発信形式レコード及び合理的エージェントの行動モデルを生成する合理的ユニットと、発信形式レコードを発信イベントに変換して、外部エージェントとの合理的エージェントの通信活動を具現化する発信イベント生成手段と、が含まれる。解釈手段には、幾つかの解釈モジュールが含まれ、合理的エージェントには、入出力管理層が含まれる。入出力管理層は、着信形式レコードを互いに関係付け、このようにして互いに関係付けられた着信形式通信レコードを合理的ユニットに送出する。
【選択図】図１

Description

本発明は、一般的に、通信方法の自動化に関する。

特に、その第１の側面によれば、本発明は、ソフトウェア・アーキテクチャが含まれる会話用合理的エージェントに関する。ソフトウェア・アーキテクチャには、少なくとも着信イベントを解釈する手段と、合理的ユニットと、発信イベントを生成する手段とが含まれる。解釈手段は、動作時、着信イベントを変換し、外部エージェントの通信活動を着信形式通信レコードに翻訳するように設計されており、合理的ユニットは、動作時、着信形式通信レコードの機能としての発信形式通信レコードと、合理的ユニットによって管理される合理的エージェントの行動モデルとを生成し、更に、動作時、生成手段は、発信形式通信レコードを発信イベントに変換し、外部エージェントとの合理的エージェントの通信活動を具現化する。

このタイプの合理的エージェントは、当業者には公知であり、本出願人による基本特許ER2787902に記載されている。

この基本特許に提示す手法は、インテリジェント会話システムとユーザとの間の対話文脈において、又は、インテリジェント会話システムと幾つかのエージェントを備えたインテリジェント会話システムにおける他のソフトウェアエージェントとの間の対話文脈の双方において、合理的エージェントによって自然言語で用いられるインテリジェント会話システムに関する。

第１の場合、会話は、自然言語で行われ、他方、第２の場合、上記特許において開示された頭字語“ArCOL”で知られている言語やエージェントの国際標準化団体FIPA(Foundation_for_Intelligent_Physical_Agents)コンソーシアムによって開発された頭字語“FIPA-ACL”で知られる言語等の形式論理言語で直接行い得る。このコンソーシアムに関する情報は、インターネットサイト“http://www.fipa.org”にある。

しかしながら、上述した基本特許は、幾つかのやり方で、例えば、彼又は彼女の自然言語で及びボタンを押すこと及び／又は具体的な手話を行うことの双方によって、少なくとも外部エージェントがそれ自体を表現し得る会話を行う具体的な手段を規定していない。

しかしながら、自動合理的エージェントと外部エージェント、例えば、人間のユーザとの間における会話を可能にし、非言語的なモードを用いて(言い換えると、自然言語を用いないで、例えば、手話又は触覚型のインターフェイスを介して)、あるいは、幾つかの異なるモードを同時に及び／又は連続的に用いて彼自身を表現し、各通信モードが、書面によるメッセージ、口頭メッセージ、イントネーション、図、手話、タッチ感知情報等の場合のように、特定の情報チャネルに関連付けられるように、マルチモード会話の様式化が試みられて来た。

ユーザは、従って、適切なインターフェイスを用いて、音声及び手話によって、彼自身を同時に表現し得るが、合理的エージェントもまた、それ自体を表現する幾つかの異なるモードを用いて、その応答をユーザに行い得ることを理解されたい。

このようなマルチモード対話には、２つの動作、即ち、マルチモード融合及びマルチモード分裂を用いることが必要である。

マルチモード融合は、これによって、インテリジェント会話システムへの入力における１つ又は複数のマルチモードイベント解釈構成要素が、感知されたメッセージの意味規則の統一表現を生成する動作である。

マルチモード分裂は、外部エージェントが彼自身を表現するやり方とは独立に幾つかの異なるモードで合理的エージェントがそれ自体を表現する必要がある場合だけ要求され、二重マルチモード融合動作であり、また、１つ又は複数のマルチモードイベント生成構成要素の場合、前記イベントを生成し、合理的エージェントの合理的ユニットによって生成されたメッセージの意味論的表現を表す段階を含む。

マルチモード会話を様式化する試みには、機能的なアーキテクチャが欠如した状態で、EMMA(拡張可能なマルチモード注釈マークアップ言語)と称され、また、XML言語に関連付けられたマークアップ言語に基づき、対話システムのマルチモード入出力を表現するためのツールを提示したW3C標準化機関のMMIグループによって行われた仕事が含まれるが、例外は、既存のツールが入力だけを表現し得ることである。

更に、言及に値するのは、MMIグループと連携したW3C機関における音声XMLグループによって行われた仕事、記述的な要素をマルチモードコンテンツに追加するためのメカニズムを提供するMPEG-7プロジェクトやマルチモード対話用の標準フレームワークを提示する目的を備えたMPEG-21プロジェクトを立ち上げたMPEGコンソーシアムによって行われた仕事である。

しかしながら、多くのシステムがマルチモード融合及び／又は分裂構成要素を用いるにも関わらず、これらの構成要素は、通常、幾つかの媒体処理能力の実験的集大成の結果であり、所定のソフトウェア・アーキテクチャを用いた結果ではない。

特に、MMIグループによって行われた仕事は、マルチモード入出力流れを表すためのツールを記述するが、構成要素を系統立てるための抽象的アーキテクチャ（参考：W3Cマルチモード対話フレームワーク、W3Cメモ、2003年５月6日、http://www.w3.org/TR/2003/NOTE-mmi-framework-20030506/）を伴う。しかしながら、この仕事は、マルチモード入力の解釈用の、あるいは、合理的インテリジェント会話エージェントによるマルチモード出力の生成用の何らかの具体的なメカニズムにはまだ至っていない。

この文脈において、また、上記特許FR2787902が、ユーザとインテリジェント会話システムとの間おける自然言語の使用(理解及び生成)や、ソフトウェアエージェント間（それらの１つは、インテリジェント会話システムであってよい）におけるArCOL又はFIPA-ACL等の形式通信言語の使用に基づき、対話だけを考慮する一方で、本発明の主な目的は、会話用合理的エージェントが、人間のユーザ又は他のソフトウェアエージェントであり得るその接続相手とのマルチモード対話を包括的に管理できるようにするソフトウェア・アーキテクチャを提示することである。

この目的を達成するために、本発明による会話用合理的エージェントは、上記序文において与えられた包括的な定義に適合する。本会話用合理的エージェントは、そのソフトウェア・アーキテクチャに、更に、少なくとも１つのマルチモード融合モジュールが備えられている入出力管理層が含まれることを本質的に特徴とする。また、解釈手段には、複数の着信イベント解釈モジュールであって、各モジュールが特定の通信モードに専用化されている着信イベント解釈モジュールが含まれることを特徴とする。また、動作時、マルチモード融合モジュールは、全ての着信イベントを処理し、これら着信イベントの解釈を様々な解釈モジュールに各モードの機能として転送することを特徴とする。マルチモード融合モジュールは、同じ融合相の間、これらの解釈モジュールから収集された着信形式通信レコードを互いに関係付け、そして、このようにして互いに関係付けられた着信形式通信レコードを融合相の終了時に合理的ユニットに送出することを特徴とする。

好適には、融合モジュールは、もしあれば、同じ融合相で前の着信イベントにおいて以前起動されたオブジェクトのリスト、及び同じ融合相の間に前の解釈モジュールからの呼出しによって返された形式通信レコードのリストと共に、この解釈モジュールに特有なモードで表現された任意の着信イベントを関係する解釈モジュールに送信することによって着信イベントの解釈を転送する。

これを達成するために、融合モジュールによって呼び出された各解釈モジュールは、任意の新しい起動されたオブジェクトを含むように、又は最新の着信イベントにおいて起動された任意のオブジェクトを修正するように、完成されまた更新されたオブジェクトのリストと、形式通信レコードのリストと、を返し、同じ融合相の開始時点以来受信された全ての着信イベントによって表現された通信活動を翻訳する。

利点として、融合モジュールには、全ての解釈モジュール及び融合モジュールに対する読出し及び書き込みにおいてアクセス可能な融合相管理スタックが含まれる。

対称的に、本発明は、更に、ソフトウェア・アーキテクチャを含む会話用合理的エージェントに関する。会話用合理的エージェントには、少なくとも着信イベントを解釈する手段と、合理的ユニットと、発信イベントを生成する手段と、が含まれる。動作時、解釈手段は、着信イベントを変換して、外部エージェントの通信活動を着信形式通信レコードに翻訳するように設計されている。動作時、合理的ユニットは、着信形式通信レコードの機能として、発信形式通信レコードを生成し、また、合理的ユニットによって管理される合理的エージェントの行動モデルを生成し、更に、生成手段は、発信形式通信レコードを発信イベントに変換し、外部エージェントに関する合理的エージェントの通信活動を具現化する。このエージェントの特徴は次の通りである。即ち、入出力管理層には、マルチモード分裂モジュールが備えられ、生成手段には、発信イベントを生成する複数のモジュールであって、各々それに特有の通信モードに対して専用化されているモジュールが含まれる。また、マルチモード分裂モジュールは、対応するモードで発信イベントとして合理的ユニットによって生成された発信形式通信レコードの変換を異なる生成モジュールに転送し、マルチモード分裂モジュールは、これらの発信イベントの流れを管理する。

例えば、分裂モジュールは、異なる生成モジュールに対して、合理的ユニットによって生成された発信形式通信レコードを順次アドレス指定することによって発信イベントへの発信形式レコードの変換と、各々発信イベントの１つを表す枝に構成された完成されるツリー構造と、を転送する。各生成モジュールは、次に、この生成モジュールに特有なモードで表現された発信イベント(１つ又は複数)と共に、ツリー構造を、それが完成した後、分裂モジュールに返す。

好適には、ツリー構造は、マークアップ構造であり、各生成モジュールは、全ての生成モジュールに共通なタグを用いて、発信イベントにおいて起動された同じオブジェクトを識別する。

更に、有用なことは、生成モジュールの少なくとも１つが、新しい処理用に分裂モジュールによって以前呼び出された生成モジュールを選択的に呼び出して、新しい部分的構造をそれに送信し、呼出し生成モジュールによって生成された発信イベントを含み、また、呼び出された生成モジュールによって以前生成された発信イベントをもはや含まないように設計されていることである。

合理的エージェントが、マルチモード融合モジュール及び分裂モジュールを含む場合、特別なモード用のマルチモード解釈及び生成モジュールは、好適には、このモード用の同じ処理モジュールに属する。

本発明は、更に、マルチモード通信インターフェイスと関連付けられた、上記規定されたもののような少なくとも１つの会話用合理的エージェントが含まれるインテリジェント会話システムに関する。

本発明は、更に、制御される合理的エージェントと外部エージェントとの間におけるインテリジェント会話を制御するための方法に関する。この方法には、制御される合理的エージェントに供給される着信イベントを、それらを着信形式通信レコードに変換することによって、解釈する段階を含む少なくとも解釈動作と、発信形式通信レコードの形態で着信形式通信レコードに対する適切な応答を生成する段階を含む決定動作と、発信形式通信レコードを変換して、外部エージェントに宛てられた発信イベントを生成する段階を含む表現動作と、が含まれる。この方法には、更に、切替え動作、相関動作及び相管理動作が含まれることを特徴とし、少なくとも１つの切替え動作が、この着信イベントの表現モードの機能として少なくとも１つの着信イベントを考慮する段階を含む。また、対応する異なるモードで表現された着信イベントを解釈する動作は、別々に用いられる。更に、少なくとも１つの相関動作は、同じ融合相の間、異なるモードの着信イベントに対応する着信形式通信レコードを収集して、同じ決定動作によってこれらの着信形式通信レコードを合同処理する段階を含む。また、相管理動作が、少なくとも１つの融合相を少なくとも決定する段階を含む。

例えば、相管理動作には、スタック又はオブジェクトのリストを更新して、融合相の閉処理を管理する少なくとも１つの動作であって、解釈動作の間、１つ又は複数の新しいオブジェクトを選択的にスタックに記憶し、融合相の終了前に、１つ又は複数の新しいイベントの予想された出現を示す段階と、対応する予想されるイベントが、融合相の終了前にもはや予想されない場合、解釈動作の間、スタックから１つ又は複数のオブジェクトを選択的に除去する段階と、を含む動作が含まれる。

更に、相管理動作には、解釈動作の間、スタックの全てのオブジェクトを選択的に閲覧する段階を含むスタック閲覧動作が含まれる。

相管理動作には、更に、スタックから遅延タイプオブジェクトを選択的に除去し、この遅延の期間に対するタイムアウトを設定し、この遅延が経過した時、スタックを閲覧する段階を含むタイミング動作を含み得る。

相管理動作には、スタックが空である場合、解釈動作の後、融合相を終了する段階を含む融合相を閉じる動作が含まれる。

本発明は、更に、制御される合理的エージェントと外部エージェントとの間におけるインテリジェント会話を制御するための方法に関する。本方法には、制御される合理的エージェントに出力される着信イベントを、それらを着信形式通信レコードに変換することによって、解釈する段階を含む少なくとも解釈動作と、発信形式通信レコードの形態で着信形式通信レコードに対する適切な応答を生成する段階を含む決定動作と、発信形式通信レコードを変換して、外部エージェントに宛てられた発信イベントを生成する段階を含む表現動作と、が含まれる。本方法には、更に、対応する異なる出力モードに関連する表現動作を少なくとも発信形式通信レコードに順次適用する段階と、各々発信イベントの１つを表現する枝で構成されたツリー構造を生成し、各表現動作が、この表現動作に特有なモード情報を備えたこのツリー構造を完成する前記段階と、を含む連接動作が含まれることを特徴とする。

好適には、連接動作は、タグを備えたツリー構造を生成し、異なる対応する出力モードに関連する少なくとも幾つかの表現動作が、共通タグを用いて、発信イベントにおいて起動された同じオブジェクトを起動する。

各表現動作は、更に、同じ連接動作の間に既に呼び出された他の表現動作を呼び出すように設計されており、また、構築されるツリー構造において、この他の表現動作によって以前生成された発信イベントをこの他の表現動作によって修正させるように設計し得る。

最後に、本発明は、コンピュータプログラムに関し、このコンピュータプログラムには、このプログラムがそれを対象にしたコンピュータ設備にインストールされた場合、上記規定された方法を実現するためのプログラム命令が含まれる。

本発明の他の特徴及び利点は、制限するためではなく手引のために与えられた次の説明を添付図を参照して解読すると明らかになるであろう。

前述したように、本発明は、マルチモード対話システムの分野に存し、特に、システム入力におけるマルチモードイベントの解釈のための構成要素(融合構成要素)及び出力におけるマルチモードイベントの生成のための構成要素(分裂構成要素)に存する。

この文脈において、本発明は、マルチモード対話のための上述した基本特許において述べた形式アーキテクチャを用いるソフトウェア・アーキテクチャを提示する。

図1に示すように、このアーキテクチャには、以下が含まれる。
・会話用合理的エージェント内において、着信イベントの処理及び発信イベントの生成を統率する入出力管理層(以下参照)。
・多数の処理モジュールであって、各々それに特有の対話モードに関連付けられ、また、このモードにおいて表現されるイベントを処理する処理モジュール。用いられるこのタイプのモジュールの選択は、合理的エージェントが対話する必要のあるユーザ又はソフトウェアエージェントインターフェイスにおいて利用可能な異なる通信モードに直接依存する。
・上述した基本特許において述べたもののような合理的ユニットであって、このエージェントの形式モデル公理による論理的推測によって、合理的エージェントの反応を計算する機能を有する合理的ユニット。
・上記基本特許において述べた知識ベース及び対話履歴であって、上述した入出力管理層、合理的ユニット及び処理モジュールによってアクセスし得る知識ベース及び対話履歴。
・上記基本特許において述べたものなどのような理解及び生成モジュールであって、必要ならば、言語モードに関連付けられている(例えば、音声認識又はキーボード上でのユーザによるメッセージ入力から生じる)イベントを処理するためのモジュールによって用いられる理解及び生成モジュール。

この新しいアーキテクチャの中心的な要素は、合理的エージェントの外部におけるイベントの繰り返し及び送信、並びにエージェント内におけるこれらのイベントの処理及び異なるモジュール間におけるそれらの配信を統率する入出力管理層である。

この処理は、３つのステップ即ち相で構成され、マルチモード融合相、推論相及びマルチモード分裂相が含まれる。

マルチモード分裂相の間、全ての着信イベントは、解釈され、これらのイベントを送信した外部エージェント、即ち、人間のユーザ又は他のソフトウェアエージェントによって実現された通信レコードを形式的に表す形式通信レコードのリストを形成する。これらのレコードは、上記基本特許において用いられるもののような(アーティミス（Artimis）通信言語の場合、ArCoLと称される)形式論理言語により、あるいは、ArCoL言語に基づきFIPAコンソーシアムによって規格化された言語であるFIPA-ACL言語のような形式論理言語で表現される。

推論相の間、形式通信レコードは、形式通信レコードの新しいリストの形態で、会話用合理的エージェントの適切な反応を計算する合理的ユニットに送信される。この計算は、当業者に公知の上記特許における情報を用いて行われる。言い換えると、合理的エージェントの形式行動モデルの公理に基づき、論理的推測によって行われる。

最後に、マルチモード分裂相の間、合理的ユニットによって以前生成された形式通信レコードは、外部エージェント(ユーザ又はソフトウェアエージェント)とのマルチモード通信インターフェイスにおいて利用可能な異なるモード用のイベントに変換される。

合理的エージェントと他のソフトウェアエージェントとの間における対話だけを想定する特別な場合(従って、他のソフトウェアエージェントが人間のユーザではない場合)、FIPA-ACL等の形式エージェント間通信言語で表現されるメッセージの解釈及び生成に関連するイベントを処理するためのモジュールが、このソフトウェア・アーキテクチャに移植される。インテリジェント会話システムを用いる合理的エージェントの観点から見れば、このような言語を用いて他のエンティティと通信を行うことは、この場合、特別なモード上での対話であると理解される。

入出力管理層によって用いられるマルチモード融合メカニズムについては、特に、図2を参照して説明する。

合理的エージェントに宛てられた着信イベントは、合理的エージェントが外部エージェント(ユーザ又は他のソフトウェアエージェント)と会話を行う際に介するマルチモードインターフェイスを介して、モード毎に、別々に送信される。例えば、ユーザがフレーズを発声しながらクリックする場合、２つのソースが、合理的エージェントに送信されるイベントを生成する。即ち、最初に、クリックを感知するユーザインターフェイスのタッチモード、そして、次に、音声検出及び認識を実現する音声モードを生成する。

入出力管理層によって受信される各着信イベントは、対応するモードに関連する処理モジュールに送信される。前述の例において、合理的エージェントは、一方はタッチモードに関連するイベント用に、他方は、音声モードに関連するイベント用に、２つの処理モジュールを有さねばならない。

一般的に、モードに関連する各処理モジュールは、“モジュール”とも称する２つの機能から構成されている。即ち、後で説明するように、マルチモード融合相の間に呼び出される着信イベントを解釈する機能と、マルチモード分裂相の間に呼び出される発信イベントを生成する機能とから構成されている。

従って、着信イベントは、このイベントが生成するモードに関連する処理モジュールの解釈機能によって処理される。

この解釈機能は、３つの引数を受信する。即ち、
・着信イベントEVTそれ自体。
・同じ融合相の間に前の着信イベントにおいて既に述べられたオブジェクトのリストLIST_OBJS(これらのオブジェクトは、前の着信イベントを繰り返す間に呼び出された解釈機能によって識別される)。このリストは、現マルチモード融合相に対する最初の呼出しの時点では空である。
・同じ融合相の間に最新の解釈機能に対する呼出しによって返された形式通信レコードのリストLIST_ACTS。このリストは、現マルチモード融合相に対する最初の呼出しの時点で空である。

呼び出された解釈機能は、これら２つの要素を用いて、２つの結果を返さなければならない。即ち、
・着信イベントEVTのコンテンツ中で起動されたオブジェクトによって完成されまた更新し得る既に述べたオブジェクトの前のリストLIST_OBJS。リストに付加された新しい各オブジェクトに対して、このオブジェクトの内部表現が、提示されたソフトウェア・アーキテクチャにおける全てのモジュールによって共有される対話の履歴に生成される(特に、これらの表現は、形式通信レコードにおいて用い得ると共に他のモード及び合理的ユニットに関連する処理モジュールにアクセス可能にし得る)。
・融合相の始まり以来受信された全てのイベント(現在処理中のイベントEVTを含む)の通信又は発話内の力を表す形式通信レコードのリストLIST_ACTS。このリストは空である可能性もあるが、このことは、全ての受信イベントが、通信インターフェイス上における外部エージェントのアクションの満足な解釈を与えられないことを示す。このリストの構造は、解釈機能によってなされる評価に全体的に依存し、特に、最新の解釈機能に対する呼出しによって返されたリストを必ずしも含まない。本解釈方法は、現融合相の異なる解釈機能にこれまで送信された全ての情報を表すリストを構築しなければならない。これは、前の対話の文脈に敏感であり、また、対話履歴に記憶された情報を用いなければならない。

従って、入出力管理層は、現融合相を終了するか否か判断するために(用いられる会話アプリケーションに依存し得る)特別なアルゴリズムを有さねばならない。言い換えると、このアルゴリズムは、合理的ユニットが反応計算にトリガをかける前に着信イベントを待つことが必要か否かを知る質問に答えなければならない。

このアルゴリズムが、他の着信イベントが到着することを示す場合、入出力管理層は、次の着信イベントを待ち、そして、上述したように、このイベントに関連する解釈機能を呼び出す。

一方、アルゴリズムが、待つべき着信イベントがもはやないことを示す場合、融合相が終了し、最新の解釈機能に対する呼出しによって返された形式通信レコードのリストは、合理的ユニットに送信される。

本発明において提示された基本アルゴリズムは、用いられる会話アプリケーションの機能として調整し得るが、スタックの維持に基づき、入出力管理層のマルチモード融合メカニズムによる融合相の停止を管理する。このスタックは、融合相の開始時点で空にされ、そして、最初の着信受信イベントに対応する解釈機能が呼び出される。融合は、解釈機能に対する呼出しから戻った際、スタックが空になり次第終了する。

このスタックは、融合相を終了する前に予想される異なるイベントを表すオブジェクトのリストを実際に含む。これらのオブジェクトは、予想されるイベントをある程度の精度で記述し得る。最も一般的なオブジェクトは、如何なるイベントも明示する。更に特殊なオブジェクトは、特別なモード用の処理モジュールによって処理される予定の如何なるイベントも明示する。他の更に特殊なオブジェクトは、特別なモード等の処理モジュールによって処理されるイベント中の特別なイベントを明示する。

例えば、任意のイベントを明示するオブジェクトは、スタックに記憶し得る。タッチモードに適用可能な任意のイベントを明示するオブジェクト、“クリック”タイプタッチモードに適用可能なイベントを明示するオブジェクト、“クリック/ボタン押下”タイプタッチモードに適用可能なイベント、また、この場合、“クリック/ボタン解除”タイプタッチモードに適用可能なイベントは、最初の３つのオブジェクトに対応するが、第４番目には対応しない。特別な“遅延”タイプオブジェクトは、更に、イベントが、示された遅延内において可能であることを示す。この遅延によって、合理的エージェントは、可能な追加のイベントを待ち、この相が完全に閉じられる前に現融合相において考慮し得る。

スタックは、次のように、読出し及び書き込み時、全ての解釈機能にアクセス可能にし得る。
・解釈機能（又はモジュール）は、新しいオブジェクトをスタックに記憶して、融合を閉じる前に或るイベントを待つことが必要なことを示し得る。
・解釈機能（又はモジュール）は、スタックから１つ又は複数のオブジェクトを除去して、対応する予想イベントがもはや融合を終了する必要がないことを示し得る。
・解釈機能（又はモジュール）は、スタックにある全てのオブジェクトを閲覧して、融合を終了し得る前に、将来のどのイベントが予想されるか決定し得る。

着信イベントEVTが受信されると、入出力管理層は、上述したように、適切な解釈機能を呼び出す前に、このイベントを満足する記述を備えた最初のオブジェクトをスタックから除去する。

この機能が実行された後、
・スタックが空である場合、閉処理アルゴリズムは、融合が終了されることを示す。
・スタックが“遅延”オブジェクトを含む場合、入出力管理層は、このオブジェクトをスタックから除去し、このオブジェクトによって示された時間によりタイムアウトを設定し、こうして、この遅延が一旦経過すると、入出力管理層は、スタックをもう一度調べて、融合が終了されるか否か決定する。タイムアウトが設定された後、また、対応する遅延の終了前に受信されたいずれかの着信イベントが、このタイムアウトをキャンセルする。
・そうでない場合、閉処理アルゴリズムは、融合が終了していないこと、及び、他の着信イベントを待つべきであることを示す。

一旦融合相が終了されると、次に、合理的ユニットは、上記基本特許において述べた当業者に公知の原理に基づき、合理的エージェントの反応を計算する。

「例」
レストラン検索アプリケーションにおいて、この場合人間のユーザである外部エージェントには、インテリジェント会話システムを照会するためのタッチ及び音声インターフェイスが提供される。ユーザが、文“私は、この地域のイタリアン・レストランを探しているところです”と発声し、また、同時に、彼又は彼女が、例えば、マウスクリックによって、又は彼又は彼女の指でタッチすることのいずれかによって、エッフェル塔を表す画面上でその地域を明示するものとする。

ユーザインターフェイスの音声モードは、イベントを合理的エージェントに送り、音声検出(“ユーザが話し始めていること”)を示すことによって始まる。そして、入出力管理層は、次の引数で音声モード解釈機能を呼び出す。
・“ユーザが話し始めている”着信イベントEVT。
・既に起動されたオブジェクトのリストLIST_OBJS(融合相が始まったばかりであるため、しばらくの間は空）。
・解釈機能に対する最新の呼出しによって返された形式通信レコードのリストLIST_ACTS(融合相が始まったばかりであるため、しばらくの間は空）。

この段階において、音声モード解釈機能は、如何なる意味論的解釈もこのイベントに関連付けることはできないが、音声モードに適用可能な“音声認識結果”タイプイベントが後で到着することが分っている。従って、この機能は、オブジェクトを融合相閉処理管理スタックに記憶して、このタイプのイベントを待つ必要があることを示し、そして、以前起動されたオブジェクトリスト及び空の形式通信レコードリストを返す。

入出力管理層は、スタックのコンテンツを調べることによって、その融合相閉処理アルゴリズムを適用する。スタックがイベントタイプオブジェクトを含むことから、融合は、完全ではなく、それ自体を新しい着信イベントの待機処理に投入する。

そして、インターフェイスのタッチモードは、着信イベントを合理的エージェントに送り、“エッフェル塔をクリックせよ”を示す。このイベントタイプは、融合相の閉処理管理スタックに含まれないことから、入出力管理層は、スタックを修正せず、次の引数でタッチモード解釈機能を呼び出す。
・“エッフェル塔をクリックせよ”着信イベント。
・以前起動されたオブジェクトの空のリスト。
・音声モード解釈機能に対する最新の呼出しによって返された形式通信レコードの空のリスト。

そして、タッチモード解釈機能は、“エッフェル塔”オブジェクトに対する位置タイプ参照を認識し、対話履歴の適切な構造でこのオブジェクトを生成し、そして、“エッフェル塔”オブジェクトだけを含むオブジェクトのリストLIST_OBJSと、形式通信レコードのリストLIST_ACTSとを返す。このレコードリストは、現会話の文脈におけるユーザメッセージの解釈に対応しなければならないが、更なる着信イベントは存在しないと仮定する。例えば、会話がちょうど始まった場合、このリストは、識別された“エッフェル塔”オブジェクト付近に位置するレストランに適用可能な“問合せ・照会”タイプレコードに縮小し得るが、ここで、合理的エージェントは、更に情報が入力されない場合、クリックをクリックによって明示されたその地域のレストラン検索要求であると解釈する。他の文脈において、例えば、インテリジェント会話システムが、ユーザに彼がたった今どこにいるかちょうど尋ねた場合、このリストは、“通知”タイプレコードに縮小して、ユーザが、識別された“エッフェル塔”オブジェクトの近くにいることを示し得る。融合相閉処理管理スタックは、他のイベントが予想されることを既に示していることから、タッチモード解釈機能は、それを修正しない。

そして、ユーザインターフェイス音声モードは、“音声認識結果”タイプの“私は、この地域のイタリアン・レストランを探しているところです”着信イベントを合理的エージェントに送る。このイベントタイプは、融合相閉処理管理スタックに含まれることから、入出力管理層は、それを除去し(従って、スタックは空である)、そして、次の引数で音声モード解釈機能を呼び出す。
・“私は、この地域のイタリアン・レストランを探しているところです”着信イベント。
・“エッフェル塔”オブジェクトを含む以前起動されたオブジェクトのリスト。
・タッチモード解釈機能に対する最新の呼出しによって返された形式通信レコードのリスト、例えば、“問い合わせ・照会”又は“通知”タイプレコード。

そして、音声モード解釈機能は、“特殊分野”タイプの“イタリアン”オブジェクトにリンクされたレストランタイプオブジェクト及び“位置”タイプの(不明)オブジェクトに関する質問を認識する。音声モード解釈機能は、以前起動されたオブジェクトのリストを調べ、そして、リストに与えられた“位置”タイプの“エッフェル塔”タイプオブジェクトに対して、それが識別した“位置”タイプの不明オブジェクトを認識する。新しいオブジェクトを生成し、また、対話履歴の適切な構造で既に起動されたオブジェクトを修正した後、音声モード解釈機能は、“位置”タイプの“エッフェル塔”オブジェクトと、“レストラン”タイプの(不明)オブジェクトと、“特殊分野”タイプの“イタリアン”オブジェクトとから構成されるオブジェクトが配列されたリストと、例えば、“イタリアン”特殊分野を有する“エッフェル塔”タイプオブジェクトの近くに位置するレストランに適用可能な“問い合わせ・照会”タイプの単一のレコードから構成される形式通信レコードのリストと、を返す。この解釈機能は、いずれか他の着信イベントを待ってはいないことから、融合相閉処理管理スタックを修正しない。

この機能の実行後、入出力管理層は、スタックを調べ、スタックがその時点で空であることから、マルチモード相が終了されていると結論付けて、最新の解釈機能に対する呼出しによって返された解釈済形式通信レコード(この場合、単一の“問い合わせ・照会”タイプレコード)のリストを合理的ユニットに送信する。

当業者が認識されるように、最新の２つの着信イベント(即ち、クリック及び音声認識結果)が、逆の順番で合理的エージェントによって受信されていたとすれば、この方法もまた、それらを処理できたであろう。最初のステップにおいて、音声モード解釈機能は、“レストラン”タイプの(不明)オブジェクトと、特殊分野”タイプの“イタリアン”オブジェクトと、“位置”タイプの“不明”オブジェクトと、から構成される起動されたオブジェクトのリストと、“上記と同じ“問い合わせ・照会”タイプレコードから構成される形式通信レコードのリストと、を送信したであろう。照会内容“この地域の”により他のアクションがユーザによって指定されたと判断した後、この解釈機能は、融合相閉処理管理スタックにおいて、(任意のタイプの)他の着信イベントが予想されることを示したであろう。第２のイベントにおいて、タッチモード解釈機能は、以前起動されたオブジェクトのリストに存在する(不明)“位置”タイプオブジェクトに対して、それが特定した“位置”タイプの“エッフェル塔”オブジェクトを識別したであろう。従って、融合相の最終的な結果は、同じだったであろう。

入出力管理層によって用いられるマルチモード分裂メカニズムについて、特に、図3を参照して記述する。

上述したように、マルチモード分裂メカニズムは、合理的ユニットによって生成された形式通信レコードから始まって、異なるユーザインターフェイスモード、又は合理的エージェントと接続している外部ソフトウェアエージェントに宛てられた発信イベントの流れの構築に対して責任を負う。この構築は、各枝が、生成された発信イベントの１つを均一に表現するツリー構造に基づく。

便宜的に、各第１レベルタグがモードの情報を表し、これらの各情報項目が、対応するモードに特有な(必要に応じた数の深さレベルを備えた)下位レベルタグにそれ自体組み入れられるXMLタイプのマークアップ構造を選択するのは良いと思われる。

幾つかの点では、XML構造の選択は、W3C規格化機関のMMXグループによって標準化されたEMMA(拡張可能なマルチモード注釈)マークアップ言語等のマルチモードイベントを処理するための言語の使用に類似し得るが、公知のアーキテクチャの現バージョンは、マルチモード入力だけを表し得ることを想起することが重要であり、また、本発明の主たる顕著な特徴は、異なるモードに関連するイベント処理のための別々のモジュールにおけるその構成であり、また、その最も完全な形態において、それらの生成機能の編成によることを強調することが重要である。

マルチモード分裂相の開始時点において、入出力管理層は、空の部分的構造STRUCTを初期化するが、この構造は、マルチモード分裂相の間にその時点まで積み上げられた発信イベントの流れのコンテンツを表す。

この原理は、次に、合理的ユニットによって生成された形式通信レコードのLIST_ACTSリスト及び現部分的構造STRUCTを、出力に利用可能な各モードに関連する処理モジュールの各発信イベント生成機能、即ち、モジュールに送信することである。

これらの各生成機能即ちモジュールは、次に、対応するモード用の発信イベントの記述が完成した新しい部分的構造STRCTを返す。マルチモード分裂相の終了時点において、入出力管理層が全ての利用可能な出力モード処理モジュールを呼び出した場合、最新の返された部分的構造は、合理的エージェントによって、通信インターフェイスを介して、その接続先(ユーザ又は他のソフトウェアエージェント)に効果的に送信される発信イベントの完全な流れを表す。

マークアップ構造STRUCTの形態での発信イベント流れの構築全体において、対応する可能な異なる出力モードに関連する生成機能は、出力イベントにおいて、参照されたオブジェクトを識別する。

結果的に、生成機能が、既に他のモードで起動されたオブジェクトを起動する出力イベントを構築する必要がある場合、時系列的に２番目の生成機能は、このイベントの生成形態に適合して、この状況を考慮し得る。例えば、２番目の生成機能が、自然言語を用いる表現モードに関連付けられている場合、２番目に起動されたオブジェクトは、単に、完全な表現によってではなく代名詞によって指定し得る。

この分裂手法は、極めて簡単であるという利点を有するという事実とは別に、異なるモードに送信される表現が同期化される可能性がある極めて多くの事例を処理し得るという利点を有する。

一方、これは、入出力管理層が各出力モード用の生成機能を呼び出す順番に完全に依存する。この不利な点の発生を防止するために、各生成機能は、入出力管理層によって既に呼び出された、従って、部分的構造STRUCTに痕跡を残した生成機能をそれ自体呼び出し得るようにすべきであり、新しい部分的構造が、呼出し生成機能によって生成されたイベントを含み、また、呼び出された生成機能によって以前生成されたイベントをもはや含まないようにすべきである。

この説明において提示されたマルチモード分裂メカニズムは、発話内の力及び／又は比例するコンテンツに関するモード表示を関連付けることも可能なよりリッチな言語を用いる場合のように、発話内の力(非言語的な通信活動)と各レコードに比例するコンテンツを関連付ける、合理的ユニットによって受信された又は生成された通信レコードの表現用の形式内部言語の用途にも適し、こうして、合理的ユニットは、合理的エージェントの観察において用いられるモードに関して、また、合理的エージェントのリアクションのために用いられるモードに関して明示的に推論し得る。

このタイプの起動された内部言語は、特別なモード上で実現された“通知”タイプレコード又は提案内容の一部が１つのモードで表現され、また、他の一部が他のモードで表現された“通知”タイプレコードを表し得る。

ArCoL言語をマルチモードに拡張するこのような言語の用途において、各モード用の生成機能は、部分的構造STRUCTでは、これらのイベントに対応するモード用に意図された合理的ユニットによって生成された一部の通信レコードを翻訳するイベントの生成だけに限定される。

「例」
レストラン検索のための本発明の応用例である上記例において、ユーザは、地図を表示しアニメ化し得る音声インターフェイス及びグラフィックインターフェイスを有し、合理的エージェントから応答を受信する。合理的エージェントは、エッフェル塔近くにイタリアン・レストランはないが、付近の地域に１つあることを示し、この表示が、例えば、グラフィックインターフェイスによって、点滅により、表示された地図上でこの地域をハイライト表示して与えることによって、ユーザの前の質問に答えると仮定する。

入出力管理層は、(合理的ユニットによって生成された)この応答に対応する形式通信レコードLIST_ACTSのリストをグラフィックモード生成機能に送信することによって始まる。発信イベント流れを表す部分的構造STRUCTは、その際、空である。

次に、グラフィックモード生成モジュールは、タグを構造STRUCTに付加して、ユーザのグラフィックインターフェイス用の発信イベント、例えば、エッフェル塔に隣接する地域を点滅させる命令を表現する。上述したように、このモジュールは、このイベントが、“位置”タイプの“他の識別位置”オブジェクトに、例えば、次の形態でXML構造を生成することによって、関連付けられていることを記述する。即ち、

同じ形式通信レコード及びこの新しい部分的構造STRUCTは、次に、音声モード生成モジュールに送信される。現部分的構造に以前積み上げられたイベントを調べる際、音声モード生成モジュールは、“位置”タイプの“他の識別位置”オブジェクトが、他のモードで既に起動されたことを観察し、次に、シフタ表現、例えば、“エッフェル塔の近くにイタリアン・レストランはないが、この地域でちょっと遠いが１つ見つけた”を選択して用い、それを指定する。従って、入出力管理層に返されたこれにより得られた構造は、次の形態を有し得る。即ち、

次に、入出力管理層は、マルチモード分裂相を終了し、得られた流れをインターフェイスに送り、次に、各メッセージを適切なチャネル上に表示する。“オブジェクト”タグによってここに示すオブジェクトを起動する表示は、ユーザインターフェイスによって同期化しなければならない。例えば、エッフェル塔に隣接する地域は、音声合成システムが、言葉“この地域でちょっと遠い”を発声する間、点滅されなければならない。

本発明による会話用合理的エージェントのアーキテクチャを示す図である。マルチモード融合相中、関係する動作の論理的及び時系列的構成を示すフローチャートである。マルチモード分裂相中、関係する動作の論理的及び時系列的構成を表すフローチャートである。

Claims

ソフトウェア・アーキテクチャを含む会話用合理的エージェントにおいて、少なくとも着信イベントを解釈する手段と、合理的ユニットと、発信イベントを生成する手段と、が含まれ、動作時、前記解釈手段は、着信イベントを変換して、外部エージェントの通信活動を着信形式通信レコードに翻訳するように設計されており、動作時、前記合理的ユニットは、前記着信形式通信レコードの機能として、発信形式通信レコードを生成し、また、前記合理的ユニットによって管理される前記合理的エージェントの行動モデルを生成し、更に、動作時、前記生成手段は、発信形式通信レコードを発信イベントに変換し、前記外部エージェントとの前記合理的エージェントの通信活動を具現化する前記会話用合理的エージェントであって、
前記ソフトウェア・アーキテクチャには、更に、少なくとも１つのマルチモード融合モジュールが備えられた入出力管理層が含まれ、
前記解釈手段には、複数の着信イベント解釈モジュールであって、各モジュールが特定の通信モードに専用化されている前記着信イベント解釈モジュールが含まれ、
動作時、前記マルチモード融合モジュールは、全ての着信イベントを処理し、これら着信イベントの解釈を前記様々な解釈モジュールに前記各モードの機能として転送し、
前記マルチモード融合モジュールは、同じ融合相の間、これらの解釈モジュールから収集された着信形式通信レコードを互いに関係付け、そして、このようにして互いに関係付けられた前記着信形式通信レコードを前記融合相の終了時に前記合理的ユニットに送出する、ことを特徴とする会話用合理的エージェント。
請求項1に記載の会話用合理的エージェントであって、
前記融合モジュールは、もしあれば、同じ融合相で前の着信イベントにおいて以前起動されたオブジェクトのリスト、及び同じ融合相の間に前記前の解釈モジュールからの前記呼出しによって返された形式通信レコードのリストと共に、この解釈モジュールに特有な前記モードで表現された任意の着信イベントを関係する前記解釈モジュールに送信することによって着信イベントの解釈を転送することを特徴とする会話用合理的エージェント。
請求項2に記載の会話用合理的エージェントであって、
前記融合モジュールによって呼び出された各解釈モジュールは、任意の新しい起動されたオブジェクトを含むように、又は前記最新の着信イベントにおいて起動された任意のオブジェクトを修正するように、完成されまた更新されたオブジェクトのリストと、形式通信レコードのリストと、を返し、同じ融合相の開始時点以来受信された全ての着信イベントによって表現された前記通信活動を翻訳することを特徴とする会話用合理的エージェント。
前述の請求項のいずれか１つに記載の会話用合理的エージェントであって、前記融合モジュールには、全ての解釈モジュール及び前記融合モジュール用の読出し及び書き込みにおいてアクセス可能な融合相管理スタックが含まれることを特徴とする会話用合理的エージェント。
ソフトウェア・アーキテクチャを含む会話用合理的エージェントであって、少なくとも着信イベントを解釈する手段と、合理的ユニットと、発信イベントを生成する手段と、が含まれ、動作時、前記解釈手段は、着信イベントを変換して、外部エージェントの通信活動を着信形式通信レコードに翻訳するように設計されており、動作時、前記合理的ユニットは、前記着信形式通信レコードの機能として、発信形式通信レコードを生成し、また、前記合理的ユニットによって管理される前記合理的エージェントの行動モデルを生成し、更に、動作時、前記生成手段は、発信形式通信レコードを発信イベントに変換し、前記外部エージェントとの前記合理的エージェントの通信活動を具現化する前記会話用合理的エージェントであって、
前記入出力管理層には、マルチモード分裂モジュールが備えられ、
前記生成手段には、発信イベントを生成する複数のモジュールであって、各々それに特有の通信モードに対して専用化されている前記モジュールが含まれ、
前記マルチモード分裂モジュールは、対応するモードで発信イベントとして前記合理的ユニットによって生成された発信形式通信レコードの変換を前記異なる生成モジュールに転送し、
前記マルチモード分裂モジュールは、これらの発信イベントの流れを管理することを特徴とする会話用合理的エージェント。
請求項5に記載の会話用合理的エージェントであって、請求項1乃至4のいずれか１つと組み合わせられた会話用合理的エージェント。
請求項6に記載の会話用合理的エージェントであって、
特定モード用の前記マルチモード解釈及び生成モジュールは、このモード用の同じ処理モジュールに属することを特徴とする会話用合理的エージェント。
請求項5乃至7のいずれか１つに記載の会話用合理的エージェントであって、
前記分裂モジュールは、前記合理的ユニットによって生成された前記発信形式通信レコードを順次アドレス指定することによって発信イベントへの発信形式レコードの変換と、各々前記発信イベントの１つを表す枝に構成された完成されるツリー構造と、を前記異なる生成モジュールに転送し、
各生成モジュールは、この生成モジュールに特有な前記モードで表現された前記発信イベント(１つ又は複数)と共に、前記ツリー構造を、それが完成した後、前記分裂モジュールに返すことを特徴とする会話用合理的エージェント。
請求項8に記載の会話用合理的エージェントであって、
前記ツリー構造は、マークアップ構造であり、
各生成モジュールは、全ての生成モジュールに共通なタグを用いて、発信イベントにおいて起動された同じオブジェクトを識別することを特徴とする会話用合理的エージェント。
請求項9に記載の会話用合理的エージェントであって、
前記生成モジュールの少なくとも１つは、新しい処理用に前記分裂モジュールによって以前呼び出された生成モジュールを選択的に呼び出して、新しい部分的構造をそれに送信し、前記呼出し生成モジュールによって生成された前記発信イベントを含み、また、前記呼び出された生成モジュールによって以前生成された前記発信イベントをもはや含まないように設計されていることを特徴とする会話用合理的エージェント。
マルチモード通信インターフェイスと関連付けられた、前述の請求項のいずれか１つに記載の少なくとも１つの会話用合理的エージェントが含まれるインテリジェント会話システム。
制御される合理的エージェントと外部エージェントとの間におけるインテリジェント会話を制御するための方法において、前記制御される合理的エージェントに供給される着信イベントを、それらを着信形式通信レコードに変換することによって、解釈する段階を含む少なくとも解釈動作と、発信形式通信レコードの形態で前記着信形式通信レコードに対する適切な応答を生成する段階を含む決定動作と、発信形式通信レコードを変換して、前記外部エージェントに宛てられた発信イベントを生成する段階を含む表現動作と、が含まれる前記方法であって、更に、
切替え動作、相関動作及び相管理動作が含まれ、
少なくとも１つの切替え動作が、この着信イベントの表現モードの機能として少なくとも１つの着信イベントを考慮する段階を含み、
前記対応する異なるモードで表現された着信イベントを解釈する前記動作は、別々に用いられ、
少なくとも１つの相関動作は、同じ融合相の間、異なるモードの着信イベントに対応する前記着信形式通信レコードを収集して、同じ決定動作によってこれらの着信形式通信レコードを合同処理する段階を含み、
相管理動作が、少なくとも１つの融合相を少なくとも決定する段階を含むことを特徴とする方法。
請求項12に記載の制御方法であって、
前記相管理動作には、スタック又はオブジェクトのリストを更新して、前記融合相の閉処理を管理する少なくとも１つの動作であって、解釈動作の間、少なくとも１つの新しいオブジェクトを選択的に前記スタックに記憶し、前記融合相の終了前に、少なくとも１つの新しいイベントの前記予想された出現を示す段階と、前記対応する予想されるイベントが、前記融合相の終了前にもはや予想されない場合、解釈動作の間、前記スタックから１つ又は複数のオブジェクトを選択的に除去する段階と、を含む前記動作が含まれることを特徴とする方法。
請求項1に記載の制御方法であって、
前記相管理動作には、更に、解釈動作の間、前記スタックの全てのオブジェクトを選択的に閲覧する段階を含むスタック閲覧動作が含まれることを特徴とする方法。
請求項14に記載の制御方法であって、
前記相管理動作には、更に、前記スタックから遅延タイプオブジェクトを選択的に除去し、この遅延の期間に対するタイムアウトを設定し、この遅延が経過した時、前記スタックを閲覧する段階を含むタイミング動作が含まれることを特徴とする方法。
請求項15に記載の制御方法であって、
前記相管理動作には、更に、前記スタックが空である場合、前記解釈動作の後、前記融合相を終了する段階を含む前記融合相を閉じる動作が含まれることを特徴とする方法。
制御される合理的エージェントと外部エージェントとの間におけるインテリジェント会話を制御するための方法において、前記制御される合理的エージェントに供給される着信イベントを、それらを着信形式通信レコードに変換することによって、解釈する段階を含む少なくとも解釈動作と、発信形式通信レコードの形態で前記着信形式通信レコードに対する適切な応答を生成する段階を含む決定動作と、発信形式通信レコードを変換して、前記外部エージェントに宛てられた発信イベントを生成する段階を含む表現動作と、が含まれる前記方法であって、更に、
対応する異なる出力モードに関連する表現動作を少なくとも前記発信形式通信レコードに順次適用する段階と、各々前記発信イベントの１つを表現する枝で構成されたツリー構造を生成し、各表現動作が、この表現動作に特有なモード情報を備えたこのツリー構造を完成する段階と、を含む連接動作が含まれることを特徴とする方法。
請求項17に記載の制御方法であって、
前記連接動作は、タグを備えたツリー構造を生成し、
異なる対応する出力モードに関連する少なくとも幾つかの前記表現動作が、共通タグを用いて、発信イベントにおいて起動された同じオブジェクトを起動することを特徴とする方法。
請求項17及び18のいずれかに記載の制御方法であって、
各表現動作は、同じ連接動作の間に既に呼び出された他の表現動作を呼び出すように設計されており、また、構築される前記ツリー構造において、この他の表現動作によって以前生成された発信イベントをこの他の表現動作によって修正させるように設計されていることを特徴とする方法。
コンピュータプログラムであって、
このプログラムがそれを対象にしたコンピュータ設備にインストールされた場合、請求項12乃至19のいずれか１つに基づく前述の方法を実現するためのプログラム命令を含むコンピュータプログラム。