JP2021514514A

JP2021514514A - 感情コンピューティングユーザインターフェースに基づく感性的インタラクションシステム、装置及び方法

Info

Publication number: JP2021514514A
Application number: JP2020562804A
Authority: JP
Inventors: ホンガンワン; ホイワン; ホイチン; ユニンワン; ズイハオリ; ピンピンジュー; ナイミンヤオ; ジアキージュー
Original assignee: Institute of Software of CAS; Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Institute of Software of CAS; Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2018-01-26
Filing date: 2018-05-25
Publication date: 2021-06-10
Anticipated expiration: 2038-05-25
Also published as: JP7199451B2; WO2019144542A1; US20210191506A1; US11226673B2

Abstract

本発明は感性的インタラクション装置を開示する。当該感性的インタラクション装置は感性的インタラクション計算モジュールを備え、当該感性的インタラクション計算モジュールはユーザ意図計算ユニットを備える。当該ユーザ意図計算ユニットは、感情関連データ及びユーザの感情状態を受信し、感情関連データ及び感情状態に基づいてユーザ意図を認識する。ユーザ意図は感情意図及び／又はインタラクション意図を含み、感情意図は感情状態に対応し且つ感情状態の感情ニーズを含み、インタラクション意図は１つ又は複数のトランザクション意図を含む。

Description

本願は、２０１８年１月２６日に出願された３つの中国特許出願「Ｎｏ．２０１８１００７７１７５．０」（発明名称が「感性的インタラクション方法及び装置、コンピュータ読取可能な記憶媒体及び計算装置」である）、「Ｎｏ．２０１８１００７９４３２．４」（発明名称が「インタラクション意図の確定方法、装置、計算装置及び記憶媒体」である）及び「Ｎｏ．２０１８１００７８１３２．４」（発明名称が「ヒューマンマシンインタラクション方法及び装置」である）の優先権を主張し、それらのすべての内容を参照より本明細書に組み込む。

本発明は、感性的インタラクションコンピューティング技術分野に関し、特に感情コンピューティングユーザインターフェース（ＡｆｆｅｃｔｉｖｅｃｏｍｐｕｔｉｎｇＵｓｅｒＩｎｔｅｒｆａｃｅ，ＡＵＩ）に基づいてユーザと感性的インタラクションを行うためのシステム、装置及び方法に関する。

ヒューマンマシンインタラクションは、人（ユーザ）とコンピュータとの間のインターフェースに関わる。従来のヒューマンマシンインタラクションは、命令、対話、ナビゲーション、閲覧、検索などのような情報コミュニケーションを重要視する。感情は、我々の日常コミュニケーションにおいては基本的な構成部分であるにもかかわらず、ヒューマンマシンインタラクション技術においては長い間無視されてきた。感性的なコミュニケーションの欠落は、様々な面において、技術を利用するユーザに失望感を与えている。人間がインタラクション会話を通じて情報コミュニケーションを行うとき、感情と感性的情報は同時に存在する。ユーザを満足させるインタラクションを提供することができるスマートマシンを構築するためには、正確な情報交換及び感性的インタラクションを行う機能をマシンに具備させることが大切である。

以上に鑑みて、人間の感情を収集して認識し、感情に含まれるインタラクション及び感情意図を認識して戦略を形成し、さらにヒューマンとマシンの感性的インタラクションにおける回答として、様々なモダリティを有する感情表出を生成することができる、一般的且つ標準化した感性的インタラクションシステム、装置及び方法が必要とされている。

本発明は、例示的な感性的インタラクション装置を提供する。本発明によると、例示的な感性的インタラクション装置は感性的インタラクション計算モジュールを備える。当該感性的インタラクション計算モジュールはユーザ意図計算ユニットを備え、当該ユーザ意図計算ユニットは、感情関連データ及びユーザの感情状態を受信し、感情関連データ及び感情状態に基づいてユーザ意図を認識する。ここで、ユーザ意図は感情意図及び／又はインタラクション意図を含み、感情意図は感情状態に対応し且つ感情状態の感情ニーズを含み、インタラクション意図は１つ又は複数のトランザクション意図を含む。

一部の実施例において、例示的な装置は、感性的インタラクション計算モジュールに接続されるマルチチャンネルフロントエンド端末を更に備える。当該マルチチャンネルフロントエンド端末は、ユーザから感情関連データを取得するデータ収集部を備える。例示的な装置は、感性的インタラクション計算モジュールの中にある感情認識部を更に備える。当該感情認識部は、データ収集部とユーザ意図計算ユニットとのそれぞれに接続されて、感情関連データを受信し、感情関連データに基づいて感情状態を認識する。

一部の実施例において、例示的な装置は、感性的インタラクション計算モジュールの中にある感情戦略形成ユニットを更に備える。当該感情戦略形成ユニットは、ユーザ意図計算ユニットに接続されて、感情状態及びユーザ意図に基づいて感性的命令を生成する。感性的命令は実行可能な指令を含み、実行可能な指令は、ユーザ意図に対応する１つ又は複数のモダリティによって感情表出を生成するために用いられる。

本発明は、例示的な感性的インタラクション方法を更に提供する。本発明に係る例示的な方法は、ユーザ意図計算ユニットによってユーザからの感情関連データ及び感情状態を受信するステップと、感情関連データ及び感情状態に基づいてユーザ意図を認識するステップと、を含む。ここで、ユーザ意図は感情意図及び／又はインタラクション意図を含み、感情意図は感情状態に対応し且つ感情状態の感情ニーズを含み、インタラクション意図は１つ又は複数のトランザクション意図を含む。

本発明は、ＡＵＩに基づく例示的な感性的インタラクションシステムを更に提供する。本発明に係る例示的なシステムは、感情関連データ及びユーザの感情状態を受信し且つ感情関連データ及び感情状態に基づいてユーザ意図を認識するユーザ意図計算ユニットを備えた感性的インタラクション計算モジュールと、感性的インタラクション計算モジュールの中にあり、ユーザ意図計算ユニットに接続されて感情状態及びユーザ意図に基づいて感性的命令を生成する感情戦略形成ユニットと、を備える。ここで、ユーザ意図は感情意図及び／又はインタラクション意図を含み、感情意図は感情状態に対応し且つ感情状態の感情ニーズを含み、インタラクション意図は１つ又は複数のトランザクション意図を含み、感性的命令は実行可能な指令を含み、前記実行可能な指令は、ユーザ意図に対応する１つ又は複数のモダリティによって感情表出を生成するために用いられる。

一部の実施例において、例示的な感性的インタラクションシステムは、データ収集部を備えたマルチチャンネルフロントエンド端末を更に備える。当該データ収集部は、ユーザから１つ又は複数のモダリティを有する感情関連データを取得する。例示的なシステムは、感性的インタラクション計算モジュールの中にある感情認識部を更に備える。感情認識部は、データ収集部に接続されて感情関連データを受信し、感情関連データに基づいて感情状態を認識する。ここで、感情状態は離散的な感情分類及び／又は次元における感情数値を含む。一部の実施例において、例示的なシステムは、感情戦略形成ユニットに接続される感情計算表出生成部を更に備える。当該感情計算表出生成部は、感性的命令に基づいて感情表出を生成し、さらに生成した感情表出をユーザに表現する。

なお、本発明の請求範囲は請求項の通りであり、以上の一般的な説明及び以下の詳しい説明はすべて例示的又は説明的なものに過ぎず、本発明を制限するものではない。

本発明の一実施例に係る例示的な感性的インタラクションシステムのブロック図である。本発明の一実施例によるマルチチャンネルフロントエンド端末及び感性的インタラクション計算モジュールを備えた、図１に係る例示的な感性的インタラクションシステムのブロック図である。本発明の一実施例に係る例示的な感性的インタラクションシステムの機能図である。本発明の一実施例に係る例示的なマルチチャンネルフロントエンド端末の機能図である。本発明の一実施例に係る例示的な感性的インタラクション計算モジュールの機能図である。本発明の一実施例に係る例示的な感性的インタラクションシステムをユーザ視点で示す機能図である。本発明の一実施例に係る例示的な感性的インタラクションシステムを感性的インタラクションシステム視点で示す機能図である。本発明の一実施例に係る例示的なデータ収集部のブロック図である。本発明の一実施例に係る例示的な感情認識部のブロック図である。本発明の一実施例に係る例示的なユーザ意図計算ユニットのブロック図である。本発明の一実施例に係る例示的な感情戦略形成ユニットのブロック図である。本発明の一実施例に係る感性的インタラクションシステムにおいて行われる例示的な感性的インタラクションのプロセスを示すフローチャートである。本発明の一実施例に係るユーザ意図計算ユニットにおいて行われる例示的な意図認識のプロセスを示すフローチャートである。本発明の一実施例に係るベイジアンネットワークに基づくユーザ意図計算ユニットの機能図である。本発明の一実施例に係るベイジアンネットワークに基づく例示的なユーザ意図認識のプロセスを示すフローチャートである。本発明の一実施例に係るベイジアンネットワークに基づく例示的なユーザ意図認識のプロセスを示すフローチャートである。本発明の一実施例に係るベイジアンネットワークに基づく例示的なユーザ意図認識のプロセスを示すフローチャートである。本発明の一実施例に係る感情戦略形成ユニットにおいて行われる戦略形成のプロセスを示すフローチャートである。本発明の一実施例に係る３Ｄモーフィングモデルに基づいて顔面表情を認識する例示的なプロセスである。本発明の一実施例に係る畳み込みニューラルネットワークに基づいて視聴データに対して感情認識を行う例示的なプロセスである。本発明の一実施例に係る変分オートエンコーダーを用いて顔ランドマーク処理に基づいて顔面表情を生成することの例示的な機械学習プロセスである。

以下、図面に示された例としての具体的な実施例を説明する。図面全体においては、可能な限り、同一の符号によって同一又は類似のパーツを表示する。

感情コンピューティングユーザインターフェース（「ＡＵＩ」）に基づく感性的インタラクションシステムは、感情関連データ収集、感情認識、ユーザ意図計算、感情戦略形成及び感情計算表出生成などのプロセスを実行することによって、ユーザが１つ又は複数のモダリティによって当該システムと感性的インタラクションを行い且つ当該システムから感情フィードバックを受信することができるようにする。

感性的インタラクションシステムは、調和したヒューマンマシンインタラクション環境を構築するために、システム及びマシンが人間の感情を認識、解釈及び模擬することができるようにするシステムである。従来のユーザインタラクションシステムと異なり、感性的インタラクションシステムは共感を模擬することができる。感性的インタラクションシステムは、感情関連データ収集、感情認識、意図認識計算、戦略形成及び感情計算表出を含む感性的インタラクションのフィードバック回路を構築することによって、人間の感情状態を解釈することができるとともに、人間に適応する行為を取ることができるため、それらの感情に適切な応答を行うことができる。

ＡＵＩは、ユーザが感性的インタラクションシステムと感性的インタラクションを行うために用いるユーザインターフェースである。ユーザは、任意の可能な操作及び制御手段によってＡＵＩに対して自分の感情を表して、感性的インタラクションを起動することができる。ＡＵＩは、任意の関連する命令、感情、情報、データ、ユーザ入力、リクエストなどの情報を感性的インタラクションシステムにおける計算モジュールへ送信するとともに、感性的インタラクションシステムにより生成された結果及び出力フィードバックをユーザに伝えることができる。例えば、ＡＵＩはインスタントメッセージＡＰＰ（アプリケーション）のチャット窓、ウェブページ、操作パネル、介護ロボットの通信チャンネル、スマートウェアラブル装置のタッチパネルなどであってもよい。

本発明の実施例によると、感性的インタラクションシステムは様々なモダリティによって感性的インタラクションを系統的に処理することができる。当該システムは１つの完全な感性的インタラクションプロセスを実行し、当該プロセスは意図理解／計算及び戦略形成を含むが、それらに限られない。以下において説明される一部の実施例において、感情情報はインタラクション回路全体に関連される。一部の実施例において、システムは一部の感性的インタラクションプロセスのみにおいて感情関連データを使用してもよい。例えば、システムはユーザの感情関連データを分析することによってユーザの好みを確定するか又はサービス品質の指標を取得することができるが、必ずしも感情戦略を形成すること又はフィードバックとして感情表出を生成することを実行するわけではない。

図１は、例示的な感性的インタラクションシステム１００を示すブロック図である。例示的なシステム１００は、ＡＵＩに基づいてユーザに感性的インタラクションを提供する任意タイプのシステム、例えば、サービスロボット、介護ロボット、スマートウェアラブル装置、スマート家具、スマート家庭用デバイスなどであってもよい。システム１００は、マルチチャンネルフロントエンド端末１１６、ネットワーク１１８及び感性的インタラクション計算モジュール１２０を備えることができる。一部の実施例において、マルチチャンネルフロントエンド端末１１６はネットワーク１１８を介して感性的インタラクション計算モジュール１２０に接続される。モジュール１２０は、端末１１６と同じハードウェア装置に配置されてもよく、他の実施例においては異なるデザインを有する独立したハードウェア装置に配置されてもよい。例えば、端末１１６は感情コミュニケーション１０２を収集してから、受信したデータ及び処理リクエストを、ネットワーク１１８を介してモジュール１２０に送信するか又は割り当てることができる。以下において説明される通り、モジュール１２０は、データに含まれている感情を認識し、ユーザの意図を認識し、さらに当該意図に基づいて戦略を形成することができる。端末１１６は、モジュール１２０からの命令を受信して、感情表出を生成してユーザにフィードバックすることができる。

マルチチャンネルフロントエンド端末１１６はハードウェアデバイスであってもよく、例えば、ロボット、スマート端末、スマートフォン、インスタントメッセージ（「ＩＭ」）のプラットフォーム、又は、人間ユーザとシステム１００とが感性的インタラクションを行うためのインターフェースを提供することができる任意の電子デバイスであってもよい。端末１１６の感情インターフェースを介して、ユーザは１つ又は複数のモダリティを有する感情コミュニケーション１０２（例えば、テキスト１０４、音声１０６、顔面表情１０８、ジェスチャ１１０、生理信号１１２、マルチモダリティ１１４などのうちの少なくとも１つ）を入力することができるとともに、１つ又は複数のモダリティを有する感性的フィードバックを受信することができる。テキスト１０４は、人間又はコンピュータの読取可能な言語で作成された任意の書面情報又は表現であってもよく、例えば、単語、テキストメッセージ、絵文字などであってもよい。音声１０６は、人間が声帯を使って話すこと、歌うこと、泣くこと、又は叫ぶことによって出す任意の声であってもよい。顔面表情１０８は、ユーザの顔面皮膚に覆われる筋肉の１つ又は複数の運動又は位置を反映した、観察可能な顔面の動きであってもよく、例えば、悲しい表情、大笑い、眉毛上げ、アイコンタクトなどであってもよい。ジェスチャ１１０は、非言語的且つ目に見える任意の身体動作であってもよく、例えば、ハンドジェスチャ、頭を振ること、頷き、肩をすくめること、歩き回ることなどであってもよい。生理信号１１２は、人の中枢神経系システム及び／又は自律神経系において生成された検出可能な生理信号であってもよく、心拍、血圧、心電図、脳波、筋電図、体温、容積脈波率、ガルバニック皮膚反応などを含む。

端末１１６は、感情コンピューティングユーザインターフェースを提供する。当該ユーザインターフェースは、ユーザの感情コミュニケーションを収集し、後続のプロセスにおける処理において用いられる感情関連データを取得することができる。感性的インタラクション会話の後の段階において、端末１１６は他の装置（例えば、モジュール１２０）からの命令を受信し、それらの命令を実行して感情表出を生成してユーザにフィードバックすることができる。例えば、図１による実施例において、端末１１６はユーザからの感情コミュニケーション１０２を収集することができる。次に、後続の処理のために、端末１１６は受信した感情コミュニケーション１０２を、ネットワーク１１８を介してモジュール１２０に送信することができる。モジュール１２０は当該処理を遂行して結果を端末１１６に返送し、それを受けて端末１１６は対応する感情表出を生成してフィードバックとしてユーザに提供する。

ネットワーク１１８は、ノード間のリソースシェアを可能にするデジタル電信ネットワークであってもよく、データ及び情報の共有に適する広域ネットワーク（ＷＡＮｓ）、ローカルエリアネットワーク（ＬＡＮｓ）、ワイヤレスネットワーク、パーソナルエリアネットワーク（ＰＡＮｓ）、メトロポリタンエリアネットワーク（ＭＡＮｓ）、エンタープライズプライベートネットワーク（ＥＰＮｓ）、バーチャルプライベートネットワーク（ＶＰＮｓ）などの任意の組合せを含むことができる。

感性的インタラクション計算モジュール１２０はユーザとＡＵＩシステムとの間の感性的インタラクション会話において必要とされる任意の計算を処理するための１つ又は複数のコンピューティング装置を備えた計算モジュールであってもよい。モジュール１２０は１つ又は複数のハードウェア装置に配分されることができる。図１による例示的な実施例において、モジュール１２０は端末１１６に接続され、ネットワーク１１８を介して端末１１６からデータ又はリクエストを受信することができる。例えば、端末１１６は、感情コミュニケーション１０２を受信したあと、受信したデータ及び処理リクエストを、ネットワーク１１８を介してモジュール１２０に送信することができる。モジュール１２０は、認識データに含まれている感情を認識し、ユーザの意図を確認し、当該意図に基づいて戦略を形成し、さらに当該戦略から取得する感性的命令を端末１１６に返送することができる。なお、以下において説明されるよう、当該感性的命令は感情表出の生成に用いられる。

図２は、例示的な感性的インタラクションシステム１００を示すブロック図である。例示的な感性的インタラクションシステム１００は、本発明の実施例の通り、マルチチャンネルフロントエンド端末１１６及び感性的インタラクション計算モジュール１２０を備える。端末１１６はデータ収集部２０２及び感情計算表出生成部２１０などを備えてもよく、モジュール１２２は感情認識部２０４、ユーザ意図計算ユニット２０６及び感情戦略形成ユニット２０８などを備えてもよい。なお、これらの構成部分は任意の順によって配列されることができる。

データ収集部２０２は、ハードウェア装置として配置されて、１つ又は複数の計算プログラムを実行することによってユーザからの感情コミュニケーションを捕獲し、捕獲した感情コミュニケーションデータを分析して感情関連データを取得することができる。一部の実施例において、収集部２０２は複数のモダリティを有する感情表現を捕獲することができる。このようなマルチモーダルな感情表現に基づいて、収集部２０２は、捕獲した感情コミュニケーションを分析して、異なる形式を有する感情関連データを生成することができる。収集部２０２は、マルチチャンネルフロントエンド端末１１６におけるデータ収集及び分析の道具として、感性的インタラクションシステム１００において行われるデータ入力プロセスを促進することができる。

感情認識部２０４は、ハードウェア装置として配置されて、１つ又は複数の計算プログラムを実行することによって感情関連データを受信し、異なる形式を有する感情関連データに基づいて感情特徴を認識することができる。さらに、感情認識部２０４は、認識できた感情特徴を融合してマルチモーダルな感情特徴を生成することができる。次に、感情認識部２０４はマルチモーダルな感情を分類し、及び／又は、復帰させることができる。最終的に、感情認識部２０４は１つの感情状態を取得することができる。感情状態とは、ユーザにより表出されて感性的インタラクションシステムにより感知及び認識される感情の状態に対する定義である。感情状態３０４は複数の形式によって表現されることができる。一部の実施例において、感情状態は感情分類によって表現されることができる。例えば、感情状態は６つの基本的な分類（例えば、嬉しい、悲しい、怒り、驚き、恐怖、嫌悪）によって表わされてもよい。これらの分類は互いに独立しており、人間の感情の異なる種類及び側面を記述する。さらに、感情は２２個の感情分類のうちの１つに分類されてもよい。これらの感情分類は、それぞれが代表している重要な心理状況によって区別される。当該２２個の分類は、事件、行動及び事物への各分類の集中程度を評価することによって構築されるものである。一部の他の実施例において、感情状態は、次元における感情モデルによって表されることができる。感情理論における次元モデルにおいて、感情は複数の次元によって定義される。例えば、「快と不快」、「覚醒と非覚醒」及び「支配と服従」は感情の３つの次元になることができ、「快と不快」及び「覚醒と非覚醒」は感情の２つの次元になることができる。感情状態は、各次元におけるそれらの座標値によって記述されることができ、当該座標値は次元における対応する感情状態の位置を指す。

ユーザ意図計算ユニット２０６は、ハードウェア装置として配置されて、１つ又は複数の計算プログラムを実行することによって１つ又は複数の入力パラメータに基づいてインタラクション意図及び／又は感情意図を含んだユーザ意図を認識することができる。一部の実施例において、インタラクション意図は１つ又は複数のトランザクション意図を含んでもよい。トランザクションとは、ヒューマンマシンインタラクションにおいて完成又は実行される必要がある任意の事項、行動又はミッションである。入力パラメータは、感情関連データ、感情状態、場面内容、インタラクティブ文脈、個人化情報、語義データ、一般知識データ、分野知識データなどを含むことができる。

感情戦略形成ユニット２０８は、ハードウェア装置として配置されて、１つ又は複数の計算プログラムを実行することによってインタラクション意図及び感情意図に対する戦略を形成し、複数の入力パラメータに基づいて感性的命令を生成することができる。以下において説明されるよう、入力パラメータは、ユーザ意図、場面内容、インタラクティブ文脈、分野知識データ及び一般知識データなどを含むことができる。

感情計算表出生成部２１０は、モニター、スピーカー、携帯電話のスクリーン及びスピーカー、ロボットなどのハードウェア装置として配置されて、１つ又は複数のコンピュータプログラムを実行することによって、感性的命令に基づいて感情表出を生成して感情表出をユーザに伝えることができる。生成部２１０は、１つ又は複数のモダリティを有する感情表出（例えば、感性的命令における特定の指令に基づいて生成されるテキスト、音声、符号、顔面表情、ジェスチャ、マルチモダリティなどのうちの少なくとも１つ）を生成することができる。例えば、生成部２１０は感情情報を含んだ自然言語テキストをスクリーンにおいて生成することができる。一部の実施例において、生成部２１０は、感情表出語彙データベース及び／又は語義データベースに基づいて、生成するテキストと感性的命令に含まれている要求との一貫性を確保することができる。他の一部の実施例において、生成部２１０はディープラーニングによって、生成するテキストと感性的命令に含まれている要求との一貫性を確保することができる。マシンはディープラーニングを受けることによって、ある１つの感性的命令を実行するときにどの特定のテキストを生成すればよいか、が分かるようになる。さらに、生成部２１０は、言葉がスピーカーから流される方式に対応する感情情報を含んだ合成音声スピーチを生成することができる。生成部２１０は、まず、感性的命令に基づいて音声スピーチのテキスト内容を確定し、テキスト生成のプロセスと類似するプロセスによって感性的命令との一貫性を確保することができる。次に、生成部２１０は、感性的命令により要求された適切な音声特徴パラメータに基づいて音声スピーチを合成することができる。ここで、音声スピーチは音素、リズム、音声の平滑度などを含む。さらに、生成部２１０は、顔面表情を生成して、合成した画像又はビデオの形、例えば人間を模擬した表情又は漫画の表情によってスクリーン又はモニターで表示することができる。感性的命令に含まれている要求に従って人間の顔面筋肉の運動を模擬することによって、生成された顔面表情は、一定の強度を有する一定の感情を含むことができる。例えば、感性的命令により指示されて「楽しい」の感情をユーザにフィードバックする必要がある場合、生成部２１０は合成した笑顔を画像又はビデオにおいて生成することができる。一部の実施例において、生成部２１０はマルチモーダルな感情表出を生成してもよく、当該マルチモーダルな感情表出はテキスト、音声、符号、顔面表情及び他の任意の関連するモダリティから構成される組合せであってもよい。生成した感情表出を複数のモダリティによって表すために、生成部２１０はすべてのモダリティにおいてハイレベルな共同動作を維持しなければならない。生成部２１０は、各モダリティの内容及び強度の正確度と、指令が正確に実行されることと、を確保することによって、生成した影響２１０が感性的命令に一致するように確保することができる。

一部の実施例において、システム１００はデータ収集部２０２、感情認識部２０４、ユーザ意図計算ユニット２０６、感情戦略形成ユニット２０８及び計算表出生成部２１０を備えることができる。これらの実施例において、ユーザと感性的インタラクションシステムとの間には、データ収集、感情認識、意図認識、戦略形成及び感情表出の生成を含んだ完全な感性的インタラクション回路が存在する。例えば、このようなシステムを具備した家庭ロボットは、マイクロフォン及びタッチパネルを入力装置として提供し、スピーカー及びモニターを出力装置として提供することができる。例えば、ユーザが家庭ロボットに対して「一日中ずっと会議だった。頭が痛い。音楽を再生してください。」と話すとき、家庭ロボットのデータ収集部はマイクロフォンによってユーザの音声を捕獲し、処理を行うために音声をオーディオファイルに変換することができる。データ収集部はオーディオファイルを家庭ロボットの感情認識部に送信することができる。感情認識部は、オーディオをテキストファイルに変換し、テキストファイルの言語特徴とオーディオファイルの音響特徴とを分析することによって、オーディオファイルに含まれている感情特徴を認識することができる。そのあと、感情認識部は認識した感情特徴に基づいてユーザの感情状態「疲れ」を取得することができる。感情状態、ユーザの音声スピーチの語義及び分野知識データに基づいて、家庭ロボットのユーザ意図計算ユニットは、ユーザのインタラクション意図が「音楽再生」であり、感情意図が「慰められることを望む」であると、認識することができる。感情意図とインタラクション意図を合わせると、ユーザ意図計算ユニットは、１つのユーザ意図「音楽再生によって慰められることを望む」を取得して、当該ユーザ意図を家庭ロボットの感情戦略形成ユニットに送信することができる。ユーザ意図及び感情状態に基づいて、戦略形成ユニットは、強度レベルが「中レベル」である「慰める曲を再生する」を、感情戦略及びインタラクション戦略として形成することができる。感情戦略、インタラクション戦略、場面内容及び出力装置の使用可能性に基づいて、戦略形成ユニットは、「中レベルの強度を有する慰める曲を再生するとともに、慰めるトーンで曲の名称をユーザに放送する」というような感性的命令を生成して、当該感性的命令を家庭ロボットの感情計算表出生成部に送信することができる。そのあと、生成部は感性的命令を実行して、感性的命令による基準に基づいて曲を選択して感情表出を生成することができる。さらに、生成部は音声アナウンスの内容、トーン及びスピードを調整することによって、慰める効果を向上させることができる。そのあと、生成部は、穏やかなトーンと遅いスピードで音声アナウンス「これから、あなたをリラックスさせる曲を再生させていただきます」をスピーカーによってユーザに放送してから、慰める曲を再生して、感情表出をユーザに伝えることができる。普通の曲を再生して普通のトーンでユーザにアナウンスする一般的な家庭ロボット（感性的インタラクションシステムを備えない）とは異なり、本実施例による家庭ロボットは、感性的インタラクションシステムに基づいてユーザの感情意図を理解して満足させることができる。

他の一部の実施例において、システム１００はユーザ意図計算ユニット２０６を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザの感情意図及びインタラクション意図を認識することができる。例えば、ショッピングセンターにあるサービスロボットはこのような感性的インタラクションシステムを具備してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、近づいているユーザをサービスロボットがセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。

他の一部の実施例において、システム１００はユーザ意図計算ユニット２０６及び感情戦略形成ユニット２０８を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザの感情意図及びインタラクション意図を認識するとともに、感性的命令を形成することができる。例えば、ショッピングセンターのサービスロボットはこのような感性的インタラクションシステムを採用してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、近づいているユーザをサービスロボットがセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。サービスロボットの感情戦略形成ユニットは、インタラクション意図及び感情意図に基づいて感性的命令（例えば、「ユーザに歓迎挨拶をする」、「ユーザに笑顔を見せる」など）を形成することができる。

他の一部の実施例において、システム１００は、ユーザ意図計算ユニット２０６、感情戦略形成ユニット２０８及び感情計算表出生成部２１０を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザの感情意図及びインタラクション意図を認識するとともに、感性的命令を形成し、感情表出を生成することができる。例えば、ショッピングセンターのサービスロボットはこのような感性的インタラクションシステムを採用してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、サービスロボットが近づいているユーザをセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。サービスロボットの感情戦略形成ユニットは、インタラクション意図及び感情意図に基づいて感性的命令（例えば、「ユーザに歓迎挨拶をアナウンスする」、「ユーザに笑顔を見せる」など）を形成することができる。サービスロボットの感情計算表出生成部は感性的命令を受信、実行して、感情表出（例えば、スピーカーによって歓迎挨拶をアナウンスすること、スクリーンにおいて笑顔を表示することなど）を生成することができる。

他の一部の実施例において、システム１００はユーザ意図計算ユニット２０６及び感情計算表出生成部２１０を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザのインタラクション及び感情の意図を認識するとともに、戦略形成を行わずに感情表出を生成することができる。例えば、ショッピングセンターのサービスロボットはこのような感性的インタラクションシステムを採用してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、近づいているユーザをサービスロボットがセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。そのあと、サービスロボットの感情計算表出生成部は、感情意図及びインタラクション意図に基づいて、歓迎を表す感情表出（例えば、「ユーザに歓迎挨拶をアナウンスする」）を直接生成することができる。

他の一部の実施例において、システム１００は、データ収集部２０２、感情認識部２０４及びユーザ意図計算ユニット２０６を備えることができる。このような実施例において、感性的インタラクションシステムは、戦略形成と感情表出の生成より、意図認識に重点を置く。これらの実施例において、感情意図は、感情戦略や感情表出の生成において用いられなくてもよいが、インタラクション意図の認識プロセスの改善、付加サービスの提供、及び／又はユーザ感情意図に対する学習のみにおいて用いられることができる。例えば、学校の学生監視システムはこのような感性的インタラクションシステムを備えることができる。データ収集部のカメラによって学生の顔面表情を収集し且つ感情認識部によって「嬉しい」、「焦り」、「緊張」などのユーザ感情状態を認識することによって、監視システムのユーザ意図計算ユニットは学生の感情意図、例えば、「励まされたい」、「慰められたい」、「交流したい」などを認識することができる。このような感情意図は、感性的命令を形成するか又は感情表出を生成するために感性的インタラクションシステムにより使用されないかもしれないが、インタラクション意図の認識プロセスを促進し、及び／又は、学校が学生の現在の感情意図を把握するように支援することができる。

図３Ａは、本発明の実施例に一致する例示的な感性的インタラクションシステム１００の機能図である。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。

図３Ａによる例示的な実施例において、感性的インタラクションシステムは、マルチチャンネルフロントエンド端末１１６により提供される感情コンピューティングユーザインターフェースを介してユーザと感性的インタラクション会話を行うとともに、感性的インタラクション計算モジュール１２２によって感性的インタラクションを処理することができる。例えば、ユーザは、端末１１６に配置された感情コンピューティングユーザインターフェースに対して動作表出１０２を入力することができる。データ収集部２０２は端末１１６からの指示を受けて、感情コミュニケーション１０２を捕獲、処理して、感情関連データ３０２を取得することができる。図３Ｂに示すよう、端末１１６はデータ収集部２０２及び感情計算表出生成部２１０を備えて、感性的インタラクション会話を支えるための感情コンピューティングユーザインターフェースを提供することができる。収集部２０２は、１つ又は複数のモダリティによって感性的インタラクション１０２を捕獲する。例えば、テキスト１０４と、音声１０６と、顔面表情１０８と、ジェスチャ１１０と、生理信号１１２と、マルチモダリティ１１４とのうちの少なくとも１つを含んでもよい。収集部２０２は、感性的インタラクション会話の開始段階において、ユーザにとってはインターフェースとして用いられ、感性的インタラクションシステムにとってはユーザからデータ及び感情を収集するための通信チャンネルとして用いられる。収集部２０２の出力は、１つ又は複数のモダリティを有する感情関連データ３０２、例えば、テキスト感情関連データ３１２と、音声感情関連データ３１４と、顔面表情感情関連データ３１６と、ジェスチャ感情関連データ３１８と、生理感情関連データ３２０と、マルチモダリティ感情関連データ３２２とのうちの少なくとも１つを含むことができる。そのあと、感情関連データ３０２が処理されるよう、収集部２０２は感情関連データ３０２を感性的インタラクション計算モジュール１２０などに送信することができる。テキスト感情関連データ３１２は感情認識部２０４及びユーザ意図計算ユニット２０６により使用されることができる。テキスト感情関連データ３１２は、将来の感性的インタラクション会話の履歴データとして用いられてインタラクティブ文脈を取得するか、又は現在の場面情報に基づいて場面内容を取得するために用いられることができる。さらに、感情認識部２０４は音声感情関連データ３１４によって、ユーザの身分を確認するとともに、ユーザの個人情報及び習慣データを収集してシステムがより正確的にユーザの音声を認識してユーザの音声に含まれている感情を理解するように支援を提供することができる。音声感情関連データ３１４から変換されたテキストは、履歴データとして記憶されて、ユーザ意図計算ユニット２０６が将来のインタラクションからインタラクティブ文脈を取得するときに用いられることができる。また、音声感情関連データ３１４から変換されたテキストは、場面内容を取得するために用いられることができる。さらに、顔面表情感情関連データ３１６及びジェスチャ感情関連データ３１８を含んだ画像やビデオなどの視覚データは、感情認識部２０４がユーザの身分を記録と確認する（例えば、顔ＩＤによるロック解除）ために用いられることができる。一部の実施例において、このような視覚データは、場面内容を取得するために用いられることができる。さらに、感情認識部２０４及びユーザ意図計算ユニット２０６は、生理感情関連データ３２０を使ってユーザの個人情報を蓄積することによって、システムがより正確的にユーザの感情を理解できるように支援することができる。生理感情関連データ３２０は履歴データとして記憶されて、インタラクションにおけるインタラクティブ文脈を取得するために用いられることができる。

図６に示すよう、一部の実施例において、データ収集部２０２はデータ捕獲部６０２及びデータ分析部６１８などを備えることができる。データ捕獲部６０２は、１つ又は複数のモダリティ、例えば、テキスト１０４と、音声１０６と、顔面表情１０８と、ジェスチャ１１０と、生理信号１１２と、マルチモダリティ１１４とのうちの少なくとも１つによって感情コミュニケーション１０２を捕獲することができる。データ捕獲部６０２は、感情コミュニケーション１０２のモダリティによって、異なる機能を具備することができる。例えば、テキスト１０４を捕獲するために、データ捕獲部６０２はキーボード、タッチパネルなどのテキスト捕獲部６０４として配置されてもよい。さらに、音声１０６を捕獲するために、データ捕獲部６０２はマイクロフォンなどの音声捕獲部６０６として配置されてもよい。さらに、顔面表情１０８を捕獲するために、データ捕獲部６０２はカメラ、センサー、赤外線ＬＥＤなどのうちの少なくとも１つの顔面表情捕獲部６０８として配置されてもよい。さらに、ジェスチャ１１０を捕獲するために、データ捕獲部６０２はカメラ、センサー、赤外線ＬＥＤなどのうちの少なくとも１つのジェスチャ捕獲部６１０として配置されてもよい。さらに、生理信号１１２を捕獲するために、データ捕獲部６０２は生理信号捕獲部６１２として配置されてもよく、例えば、心拍データを採集する心拍計と、血圧データを採集する血圧計と、心電図データを採集する心電計と、脳波データを採集する脳波計と、筋電図データを採集する筋電計と、体温データを採集する温度計と、容積脈波データを採集する容積脈波計測器と、ガルバニック皮膚反応データを採集するガルバニック皮膚反応計測器とのうちの少なくとも１つとして配置されてもよい。さらに、マルチモダリティ１１４を捕獲するために、データ捕獲部６０２はマルチモダリティ捕獲部６１４として配置されてもよく、例えば、当該システムは複数のデータ捕獲部によって複数のモダリティを有する感情コミュニケーションを同時に捕獲することができる。

図６に示すよう、一部の実施例において、感情関連データ３０２を取得するために、データ収集部２０２は、捕獲した感情コミュニケーションデータ６１６を分析するデータ分析部６１８を更に備えることができる。データ分析部６１８は、感情のモダリティ、場面及び更なる処理の必要性に従って、捕獲した感情コミュニケーションデータ６１６をコンパイルして、所望の構造、フォーマット、注釈、記憶方式及び問合せモードを有する感情関連データ３０２を取得することができる。例えば、感情関連データ３０２はテキスト感情関連データ３１２、音声感情関連データ３１４、顔面表情感情関連データ３１６、ジェスチャ感情関連データ３１８、生理感情関連データ３２０又はマルチモダリティ感情関連データ３２２であってもよい。感情関連データ３０２は静的データ又は動的データであってもよい。静的な感情関連データは、特定の時刻に発生したユーザと感性的インタラクションシステム間の感性的インタラクションを記録した特定タイプのデータ、例えば、写真、テキスト、心電図及び絵文字などであってもよい。動的な感情関連データは、１つの時間帯に渡って発生したユーザと感性的インタラクションシステム間の感性的インタラクションを記録した特定タイプのストリーミングデータ、例えば、ビデオセグメント、超音波ビデオ及びオーディオセグメントなどであってもよい。動的データは、１つの時間帯中に発生する感性的インタラクションの動的な変化を反映することができる。静的又は動的データを取得／使用するか否かは、感情コミュニケーション１０２のモダリティ及び／又は更なる処理の必要性によって決められる。感情関連データ３０２のフォーマットは、構造化によって得られたデータレコードなどであってもよく、又は構造化されていないビデオ、オーディオ、信号、テキストなどであってもよい。

図３Ａを再び参照すると、データ収集部２０２は次に、感情関連データ３０２を感性的インタラクション計算モジュール１２０における感情認識部２０４に送信することができる。図７に示すよう、感情認識部２０４は、それぞれ異なる形式を有する認識部と、マルチモーダル融合プロセッサー５１２と、感情分類部７１２と、回帰計算機７１４とを備えることができる。

図７に示すよう、感情認識部２０４は、感情関連データ３０２の形式によって異なる機能を具備することができ、例えば、テキスト感情関連データ３１２を認識するテキスト感情認識部７０２、音声感情関連データ３１４を認識する音声感情認識部７０４、顔面表情データ３１６を認識する顔面表情感情認識部７０６、ジェスチャ感情関連データ３１８を認識するジェスチャ感情認識部７０８、生理感情関連データ３２０を認識する生理感情認識部７１０などとして配置されることができる。

一部の実施例において、テキスト感情認識部７０２は機械学習に基づいて実現されることができる。特定タイプのテキスト感情関連データとそれにマッチする感情状態とを含むデータベースに基づいて、テキスト感情認識部７０２は認識及び出力のパターンを学習することができる。そのため、テキスト感情認識部７０２は、入力された特定のテキスト感情関連データに基づいて、期待される感情状態を取得することができる。他の一部の実施例において、テキスト感情認識部７０２は自然言語処理の方法に基づいて実現されることができる。このようなテキスト感情認識部は、感情語義データベース及び感情表出語彙データベースに依拠してキーワードを抽出し、特定の単語の属性を確定し、文の構造を分析することによって、テキストに含まれている感情を認識することができる。ここで、感情語義データベースは特定の多義語の語義情報及び当該多義語の各意味の使い方を含むことができ、したがってテキスト感情認識部は曖昧さを回避してそれらの単語に含まれている本当の感情表出を確定することができる。感情表出語彙データベースは、様々な感情表出語彙のマッチング規則を含むことができ、したがってテキスト感情認識部はマッチングを行うときに異なる言葉により表現された感情を認識することができる。感情表出語彙データベースの例示的な一実施例は以下の構造を有することができる。

図７に示すよう、音声感情認識部７０４は、音声感情関連データ３１４に含まれている音響特徴及び／又は言語特徴を個別に又は総合的に分析することによって、音声感情関連データ３１４の感情を認識することができる。ここで、音響特徴はエネルギー、フレーム数、基本周波数、フォルマント、高調波ノイズ比などの特徴を含む。これらの特徴は、例示的な値、平均値、最大値、中央値、標準偏差などの形式によって表されることができる。音声感情関連データの言語特徴は、音声感情関連データにおいて採用された言葉及び言語の特徴であってもよい。一部の実施例において、音声感情認識部７０４は、言語特徴に対する分析に基づいて実現されることができる。音声感情認識部７０４は、音声感情関連データをテキストに変換して、テキスト感情関連データ３１２と同様な方式によって処理を行う。ただし、可能な例外として、話し言葉における表現と書き言葉における表現が相違する場合は除外される。一部の他の実施例において、音声感情認識部７０４は、音響特徴を機械学習によって分析することに基づいて実現されることができる。学習を行うとき、音声感情認識部は、トレーニングデータベースから特定の音声感情関連データの音響特徴を抽出し、これらの音響特徴とこれらの音響特徴にマッチする感情との間のマッチング規則を理解することができる。よって、後続のプロセスにおいて、音声感情認識部は学習段階において学習したマッチング規則に基づいて、１つの特定タイプの音響特徴と１つの特定の感情とに対してマッチングを行うことができる。さらに、一部の実施例において、音声感情認識部７０４は、音声感情関連データ３１４の音響特徴及び言語特徴の両方に対する分析に基づいて実現されることができる。なお、複数の出力が存在する場合、以上の実施例による音声感情認識部は、各出力の確信度及び偏向する度合いを分析することによって選択を行って、最終的な出力を確定することができる。

図６に示すよう、顔面表情感情関連データ３１６とジェスチャ感情関連データ３１８とは、同様のツールにより捕獲され、同様なデータフォーマットによってコンパイルされることができる。そこで、図７に示すよう、顔面表情感情関連データ３１６とジェスチャ感情関連データ３１８とが類似するため、顔面表情感情認識部７０６とジェスチャ感情認識部７０８とは、類似した方式によって、画像及びビデオに対する処理に基づいて実現されることができる。例えば、一部の実施例において、顔面表情感情認識部７０６は顔面特徴に対する認識に基づいて実現されることができる。これらの実施例において、顔面表情感情認識部は、画像やビデオなどの顔面表情感情関連データを取得してから、画像から静的な顔面特徴を抽出し、ビデオから一連の静的な顔面特徴及び／又は顔面運動特徴を抽出することができる。抽出した特徴に基づいて、顔面表情感情認識部７０６はマッチングモデルと、確率モデルと、サポートベクターマシンとのうちの少なくとも１つを用いて、顔面表情感情関連データに含まれている感情特徴を認識することができる。また、他の一部の実施例において、顔面表情感情認識部７０６は、図１４に示すような３Ｄモーフィングモデル（３ＤＭＭ）によって行われる人間の顔面表情に対する機械学習に基づいて実現されることができる。３ＤＭＭは３次元の顔形状及びテクスチャーの統計モデルであり、モデル係数によって１つの新しい顔を画像において再現することができ、並びに、レンダリング又はシーンパラメータに基づいて独立した画像を用いて１つの３Ｄ顔（顔形状及び画像テクスチャーを含む）を再構築することができる。

一部の実施例において、図１４に示すよう、事前訓練された３ＤＭＭ１４０４は、前処理された画像１４０２を受信し、画像１４０２に含まれている顔の３Ｄモデルを含む画像を再構築するとともに、３Ｄモデルと画像１４０２に含まれている顔との対応関係を維持する。事前訓練された３ＤＭＭ１４０４は係数によってパラメータ化されることができる。ここで、当該３Ｄモデルは、深度情報（例えば、深度図１４０６）、テクスチャー情報及びランドマーク情報などを含んでもよい。次に、畳み込み層１４０８は画像１４０２を受信して処理することによって画像特徴を取得することができる。このような画像特徴と、３Ｄモデルに含まれているテクスチャー情報とを結合（「ｃａｔ」）させることによって、新しいテクスチャー１４１０を取得することができる。テクスチャー１４１０と、ランドマーク点に隣接する周辺領域の幾何学的情報（例えば、深度パッチ１４１２）とを結合（「ｃａｔ」）させることによって、新しい特徴を取得することができる。ここで、３Ｄモデルにおける深度情報及び／又はランドマーク情報から深度パッチ１４１２を取得することができる。次に、結合されたデータ（すなわち、新しい特徴）は、インセプション残差ネットワークｖ４（ｒｅｓｎｅｔ−ｉｎｃｅｐｔｉｏｎ−ｖ４）１４１４及びインセプション残差ネットワークｖ４１４１６に送入されることができる。インセプション残差ネットワークｖ４１４１４は、結合されたデータから表出情報１４１８を抽出することができ、インセプション残差ネットワークｖ４１４１６は結合されたデータから識別情報１４２０を抽出することができる。このような３次元モーフィングモデルは以下の特性を有する。

（１）パラメータ化された３ＤＭＭを用いて、３次元モデルと元の画像に含まれている顔との対応関係を構築する。
（２）画像、テクスチャー及び深度情報を用いて顔の全体的な特徴を表現する。
（３）ランドマーク点に隣接する周辺領域の幾何学的情報（例えば、深度パッチ１４１２）を用いる。
（４）身分識別と顔面表情認識との間においてマルチタスキング対抗関係を構築することによって表情特徴を洗練する。

図７に示すよう、生理信号感情認識部７１０は、フーリエ変換のパワースペクトル、特徴選択、遺伝的アルゴリズム、ウェーブレット変換、独立成分分析、公共空間パターン（ｃｏｍｍｏｎｓｐａｔｉａｌｐａｔｔｅｒｎ）、順序的フローティングフォワード選択（ｓｅｑｕｅｎｔｉａｌｆｌｏａｔｉｎｇｆｏｒｗａｒｄｓｅｌｅｃｔｉｏｎ）、分散の分析などを行うことによって、生理信号感情関連データ３２０から統計データを抽出することができる。当該統計データは生理信号感情関連データ３２０の特徴に対応しており、更なる処理において用いられることができる。

複数のタイプの感情関連データを同時に受信する場合、感情認識部２０４は、前述した様々な形式を有する感情認識部として配置されて、これらの感情関連データを同時にそれぞれ認識することができる。また、認識した感情特徴を融合してマルチモーダルな感情特徴を取得するために、感情認識部２０４はマルチモーダル融合プロセッサー５１２を更に備えてもよい。一部の実施例において、感情特徴データが同一の構造及びフォーマットを有する場合、マルチモーダル融合プロセッサー５１２は感情特徴データを直接融合すればよい。しかしながら、一部の他の実施例において、マルチモーダル融合プロセッサー５１２は、異なるモダリティを有する感情関連データから取得された感情特徴を整列し、整列された特徴のベクトル量を構築することができる。例えば、ビデオ及びオーディオから感情特徴を抽出する場合、マルチモーダル融合プロセッサーは時間軸に基づいてこれらの特徴を同期することができる。そのあと、マルチモーダル融合プロセッサーは、２つの感情特徴が後続のプロセスにおいて１つの全体として処理されることができるよう、２つの感情特徴のためにベクトル量を形成することができる。例えば、図１５に示すよう、マルチモーダル融合プロセッサー５１２は、オーディオ及びビデオから抽出された感情特徴を畳み込みニューラルネットワークに基づいて融合するよう、配置されることができる。

一部の実施例において、図１５に示すよう、ビデオは複数の短いセグメントに分けられることができる。例えば、ビデオセグメント１からビデオセグメントＮまであってもよい。ビデオセグメントのいずれのフレームも、１枚の画像として抽出されることができる。各ビデオセグメントから抽出された単独の画像から画素レベルの平均値（例えば、画素レベルの平均値１５０２ないし画素レベルの平均値１５１２）を取得することができる。さらに、抽出された画像の画素レベルの平均値に基づいて、各ビデオセグメントから抽出した画像から構成されたアレイを１枚の画像にマージすることができる。そのあと、マージした各画像を畳み込みニューラルネットワーク（例えば、ＶＧＧ１６１５０４ないしＶＧＧ１６１５１４）に送って処理を行うことができる。ＶＧＧ１６（ＯｘｆｏｒｄＮｅｔとも称される）は、１６層の畳み込みニューラルネットワーク構造であり、オックスフォード大学の視覚幾何学グループ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）で命名されている。ＶＧＧ１６は、数百万枚の画像によってトレーニングされることができるとともに、大規模の画像に対する認識することができる。例えば、画像を数百ないし数千のカテゴリに分類することができる。

図１５において、ＶＧＧ１６１５０４の５つ目のプーリング層は、マージした各画像の視覚特徴を出力することができる。それとともに、各ビデオセグメントのオーディオはダブル層の畳み込みニューラルネットワーク（例えば、ネットワーク１５０６ないし１５１６）に送られて、１回目の畳み込み、１回目のマックスプーリング、２回目の畳み込み及び２回目のマックスプーリングが施されて処理されることができる。そのあと、ネットワーク１５０６はオーディオのオーディオ特徴を取得することができる。さらに、オーディオ特徴とビデオ特徴はリンクされて、１つのビデオセグメントの１つの視聴特徴ベクトル（例えば、視聴特徴１５０８ないし視聴特徴１５１８）となる。視聴特徴は、双方向の長短期記憶（ＬＳＴＭ）ネットワーク１５１０に送信されて、フォワード処理及びバックワード処理が施される。各ビデオセグメントの視聴特徴を受信したあと、平均プーリング１５２０は視聴特徴を平均化して１つのベクトルを取得することができる。取得されたベクトルは、ｓｏｆｔｍａｘ関数（例えば、ｓｏｆｔｍａｘ１５２２）に送られて分類されることができる。ｓｏｆｔｍａｘ関数は各クラスラベルの確率を提供し、一般的にはニューラルネットワークの分類部の最後の層において用いられる。そこで、オーディオ特徴と視覚特徴とは１つのマルチモーダル特徴になるように融合される。

図７を再び参照すると、他の一部の実施例において、マルチモーダル融合プロセッサー５１２は、互いに連結されている各モダリティの感情特徴モデルに基づいて実現されることができる。例えば、処理上の必要に応じて２つのモダリティの感情特徴の間の連結関係及び相補関係を構築するためには、隠れマルコフモデルによってビデオとオーディオに対して処理を行うことができる。また、他の一部の実施例において、マルチモーダル融合プロセッサー５１２は、各モダリティの独立した感情特徴モデルに基づいて実現されてもよい。このような実施例において、各モデルは単独で感情特徴を認識して、認識した感情特徴をすべて最終的に出力する。例えば、音声感情関連データ、顔面表情感情関連データ及び生理信号感情関連データから認識された感情特徴は、加重加算（線形）、畳み込みニューラルネットワークにおける多層パーセプトロン（非線形）などの方式によって一緒に出力されてもよい。

図７に示すよう、感情認識部２０４は、マルチモーダルな感情特徴を分類して離散的な感情分類７１６を取得する感情分類部７１２を更に備えることができる。離散的な感情分類７１６は、異なるカテゴリに属する感情を表現することができる。これらのカテゴリは人間の核心的又は基本的な感情であるため、その表現と認知は根本的に、民族や文化の差異に関わらず、すべての個体にとっても同じである。例えば、感情認識部２０４は、次元における感情数値７１８などを取得する回帰計算機７１４を更に備えることができる。その結果、感情認識部２０４は離散的な感情分類７１６及び／又は次元における感情数値７１８を含んだ感情状態３０４を生成することができる。

図３Ａを再び参照すると、感情認識部２０４は、感情関連データ３０２に基づいて感情状態３０４を取得してから、感情状態３０４をモジュール１２０におけるユーザ意図計算ユニット２０６に送信することができる。図８に示すよう、プロセッサー２０６は、入力データ８０２に基づいてインタラクション意図８０８を認識／確定するインタラクション意図計算プロセッサー８０２と、入力データ８０２に基づいて感情意図８１０を認識／確定する感情意図計算プロセッサー８０６と、を備えることができる。インタラクション意図８０８は、ユーザの明確な行動リクエストであってもよく、例えば、「ユーザは特定の質問を聞いている」、「ユーザは特定のサービスを要求している」又は「ユーザは気楽なチャットのセッションを始める」などであってもよい。感情意図８１０は、ユーザが感性的応答又は感情管理を求めるための感情的なリクエストであってもよい。例えば、ユーザが特定の質問を心配そうに聞いているとき、彼／彼女の感情は不安であり且つ彼／彼女の感情意図は「慰め」の応答に対する期待である可能性がある。一部の実施例において、インタラクション意図８０８及び感情意図８１０は、同時のものであってもよく、任意の順によってシーケンスを構成してもよい。そのあと、プロセッサー２０６は、インタラクション意図８０８及び感情意図８１０を含んだユーザ意図３０６を取得することができる。

図３Ａを再び参照すると、ユーザ意図計算ユニット２０６は、感情状態３０４に基づいてユーザ意図３０６を認識し、ユーザ意図３０６をモジュール１２０における感情戦略形成ユニット２０８に送信することができる。感情戦略形成ユニット２０８は、ユーザ意図３０６に基づいて感性的命令３０８を取得することができる。図９に示すよう、感情戦略形成ユニット２０８は、インタラクション意図戦略８０８を形成するインタラクション意図戦略形成ユニット９０４と、データ入力９０２に基づいて感情意図戦略８１０を形成する感情意図戦略形成ユニット９０６と、インタラクション戦略及び感情戦略に基づいて入力許可及び優先度についての規則を調節する動的命令調節部９１０と、を備えることができる。したがって、感情戦略形成ユニット２０８は、形成された戦略に基づいて感性的命令３０８を取得することができる。さらに、一部の実施例において、感情意図とインタラクション意図とは互いに、相手の戦略形成プロセスに影響を与えるかもしれない。例えば、ユーザがスマートウェアラブル装置に対して「３０分のトレーニング時間を予め設定する」という指令を出した場合、当該指令は非常に明確である。感性的インタラクションシステムを具備しないスマートウェアラブル装置であれば、要求された時間を指令に従って設定するかもしれないが、感性的インタラクションシステムを具備したスマートウェアラブル装置であれば、例えば、過度の事前トレーニングによってユーザの血圧及び心拍が既に高いレベルになっているため、ユーザの感情状態が「過度に興奮している」と検出することができる。このとき、トレーニング時間を予め設定するというユーザのインタラクション意図に対してスマートウェアラブル装置が行う応答は、ユーザの感情状態により影響される可能性がある。したがって、スマートウェアラブル装置は指令を実行する前、時間の長さを変更するか又は警告を出すことができる。同じく、インタラクション意図も感情意図の戦略形成に影響を与えることができる。例えば、ユーザが悲しい感情を込めて感性的インタラクションシステムに対して、ビデオゲームを止めてユーザの勉強スケジュールに従って毎日のオンライン勉強ソフトウェアを実行する、という命令を出した場合、ユーザのインタラクション意図は明確になっており、すなわちビデオゲームをシャットダウンして毎日のオンライン勉強ソフトウェアを実行することである。正常の場合であれば、システムは「ユーザの悲しい感情を慰める」というようなユーザの感情意図を検出して、対応する「慰める」という戦略を形成するが、ここでは、ユーザのインタラクション意図から明らかにわかるよう、ユーザが勉強ソフトウェアに切り替えるという指令を出したのは自分の利益のためであるため、感性的インタラクションシステムはユーザを「慰める」の代わりに、ユーザを「励ます」ことができる。

図９に示すよう、感性的命令３０８は、ユーザのインタラクション意図９０６に対する応答と、ユーザ感情意図９０８に対応する感情表出と、を含むことができる。ここで、ユーザ感情意図９０８は、モダリティ、内容、感情表出及び実行命令の強度（選択的）などの情報を含むが、それらに限られない。感情表出のモダリティは、テキスト、音声、顔面表情、ジェスチャ及びマルチモーダルなどうちの１つ又は複数のモダリティを含んでもよい。それは、採用可能な感情表出の装置及びチャンネル（表示可能なモダリティがどれか？）、場面内容（例えば、日常会話、ビジネス問合せなど）、感性的インタラクションの性質（例えば、テキストはユーザの質問に答えるために用いられ、音声は地図のナビゲーションに用いられることができる）及び他の任意の関連要素を考慮することによって確定される。一般的には、ユーザの感性的インタラクションシステムへの感情コミュニケーションのモダリティが優先的に考慮されてもよい。実行命令は、感性的命令３０８が実行されるように指導する命令を含むことができ、特にユーザのインタラクション意図８１０に応答すること、例えば、ユーザの問合せに応答すること、ユーザによる特定の命令を実行することなど、を指導する命令を含むことができる。感情表出の内容は、ユーザ意図に対する応答として表出される明確な感情に対する記述（感情のカテゴリ及び／又は感情の数値などを含むがそれらに限られない）であってもよい。感情表出の強度は感情表出の内容の強度レベルであってもよい。

感性的命令３０８は、期待される感情表出の操作指令及びインターフェースの実行方法として考えられることができ、必要とされる感情表出の詳しい情報を含む。動的な感情関連データの場合、感情状態３０４は所定の時間帯中に時々変化する。それを受けて、感情戦略形成ユニット２０８は、変化する感情状態３０４に対応する所定の時間間隔に従って断続的な感性的命令を生成するか、又は、感情状態３０４の変化が閾値に達して新しい感性的インタラクション計算会話をトリガーするまで、現段階の感性的インタラクション会話のみのために１つの感性的命令を生成することができる。

図９に示すように、一部の実施例において、感情戦略形成ユニット２０８は語義データベースに基づいて実現されることができる。感情戦略形成ユニット２０８は、特定の戦略とマッチングするために、ユーザ意図を含んだ語義情報を参考として用いることができる。したがって、感情戦略形成ユニット２０８は当該戦略に基づいて感性的命令を形成することができる。一部の他の実施例において、感情戦略形成ユニット２０８は、状態データ（感情関連データ、感情状態及び／又は語義データ）の集合、アクション（一般的には指令を指す）の集合、状態変換分布関数（特定のアクションが行われたあとにユーザの感情状態が変化する確率）、報酬関数（感性的インタラクション会話の最終的目的を確定し、例えば、ロボットとチャットするとき、対話の時間が長ければ長いほど、報酬関数が高くなる）に基づく強化学習によって、マルコフ決定プロセス（ＭＤＰ）モデルを構築する。このような実施例において、よく訓練されたモデルは、感情及びインタラクションの戦略を策定することができるとともに、ユーザの様々な入力から感性的命令を直接取得することができる。これらの実施例において、ユーザ意図計算ユニット２０６は、状態変換分布関数における潜在的な部分として配置されることができる。

図３Ａを再び参照すると、形成ユニット２０８は、感性的命令２０８をマルチチャンネルフロントエンド端末１１６における感情計算表出生成部２１０に送信することができる。生成部２１０は感性的命令２０８に基づいて感情表出３１０を生成し、さらに感情表出３１０をユーザに返送することができる。生成部２１０は感性的インタラクション会話の後期において用いられて、ユーザと直接にインタラクションを行いながら、生成した感情表出３１０を、その先の感情コミュニケーション１０２に対する応答としてユーザに伝えることができる。感情表出３１０は、ユーザからのより多くの感情表出を誘い出すことができ、したがってもう１つの感性的インタラクション会話が開始する可能性がある。

一部の実施例において、感情計算表出生成部２１０は図１６に示すよう、可変オートエンコーダー（ＶＡＥ）ネットワークを用いて、顔ランドマークを処理することによって顔面表情を生成することができる。一部の実施例において、図１６に示すよう、生成部２１０は、ターゲット顔面表情の画像におけるターゲットランドマーク１６０２を、事前訓練されたＶＡＥネットワーク１６０４への入力として用いることができる。ここで、エンコーダー１６０６はターゲットランドマーク１６０２を処理することによって特徴表現式、すなわちボトルネック１６０８を取得することができる。ボトルネック１６０８の次元数はターゲットランドマーク１６０２の次元数より遥かに低いため、ターゲットランドマーク１６０２と顔画像１６１４とは特徴空間において簡単に結合されることができる。一部の実施例において、ネットワーク１６０４におけるデコーダー１６１０は、このような特徴表現式に基づいて、再構築されたランドマーク１６１２を取得することができる。このような再構築によって、ボトルネック１６０８は、ターゲットランドマーク１６０２を再構築するための十分な情報を有するようになる。さらに、生成部２１０は顔画像１６１４を入力として、もう１つのＶＡＥネットワーク１６１６に与えることができる。ネットワーク１６１６におけるエンコーダー１６１８は画像１６１４を処理することによって他の特徴表現式、すなわちボトルネック１６２０を取得することができる。生成部２１０は、ボトルネック１６０８とボトルネック１６２０とをカスケード接続するか又は結合させるとともに、それらをネットワーク１６１６におけるデコーダー１６２２に送入して顔画像１６２４を生成することができる。また、生成するターゲット顔画像１６２４の信頼性を向上させるために、生成部２１０は弁別部１６２８を用いて、生成したターゲット顔画像１６２４と本当のターゲット顔画像１６２６とを比較して、生成したターゲット顔画像１６２４の真偽を確認することができる。

図３Ｃは、本発明の実施例による例示的な感性的インタラクション計算モジュール１２０の機能図である。例示的な実施例から逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。

モジュール１２０は、感性的インタラクションの計算プロセスを実行するよう、感情認識部２０４、感性的インタラクション計算プロセッサー２０６及び感情戦略形成ユニット２０８を備えることができる。ここで、感情認識部２０４は、入力として感情関連データ３０２を受信し、出力として感情状態３０４を生成することができる。そのあと、感情認識部２０４は感情状態３０４をプロセッサー２０６に送信することができる。プロセッサー２０６は、感情状態３０４、個人化情報３３６、場面内容３４２、インタラクティブ文脈３４４、語義データ３４８、一般知識データ３５６及び分野知識データ３５２などの入力を受信することができる。

個人化モデル構築部３３４は、ユーザの身分を認識するハードウェア装置として配置されて、履歴データ、ユーザの好み及びユーザのフィードバックに基づいてユーザの個人化モデルを構築することができる。個人化情報３３６はユーザのデータ入力及び履歴データに基づいてもよい。個人化モデル構築部３３４はまず、パスワード、音声認識に基づく音声ロック、顔面認識に基づく顔ＩＤロック、指紋ロックや目スキャンロックなどの生体認証ロックなどに基づいて、ユーザの身分を認証することができる。ユーザの身分に基づいて、個人化モデル構築部３３４は、最初の感性的インタラクションが始まったあとにユーザのために個人化モデルを構築することができる。さらに、継続的な機械学習及び集積されたユーザの履歴データ、好み及び／又はサービスに対するフィードバックに基づいて、当該モデルは改善されて調整されることができる。個人化モデル構築部３３４は、個人化モデルに基づいて、個人化情報３３６を取得することができる。個人化情報３３６は、個人情報と、感性的インタラクションに関するユーザの好みと、個人的な感情特徴とを含んだパラメータから構成されるアレイであってもよい。個人化情報３３６に基づいて、感性的インタラクションシステムはユーザの習慣を学習し、ユーザの好みを把握することができる。そこで、システムは、コンピューティング処理を行うときに感情情報、意図及び命令オプションに対して優先順位をつけて、意図認識プロセスに対して調整と改善を行うことができる。ユーザの感情意図が不明確又は複数の可能な感情意図／感情戦略が存在するとき、システムは個人化情報により指導されて、重複した回数が最も多い又は最も好まれるオプションを選択することができる。個人化情報３３６は、継続的な機械学習と、集積されたユーザの履歴データ、好み及び／又はサービスに対するフィードバックと、に基づいて形成されることができる。

場面内容分析部３３８は、場面内容３４２を取得することができる。一部の実施例において、分析部３３８は、ユーザが予め設定された場面オプションを選択することを許可するように配置されることができる。選定された場面内容は比較的に長い時間にわたって存在する可能性があり、感性的インタラクションの計算プロセスに影響を与えるかもしれない。一部の他の実施例において、分析部３３８は、採用可能なデータ入力から場面情報を抽出して分析することによって、場面内容３４４を取得することができる。例えば、ユーザの１つのビデオセグメントを捕獲した場合、システムは、ユーザのジェスチャ及び顔面表情を処理するだけではなく、ユーザが位置している環境を分析して、感性的インタラクションの場面内容を確定することもできる。場面内容３４２は、感性的インタラクションが発生する場面における任意の関連する情報又はデータであってもよく、予め設定された場面情報と、インタラクションのシーンと、予め設定されたロジックと、環境と、環境及び装置の動的変化と、を含むことができる。場面内容によって、同一の意図に対する感情戦略が変わる可能性があるため、場面内容３４２は、戦略形成プロセスに緊密に関連することができる。例えば、病院環境において「悲しい」感情を表すユーザと、ビジネス場所環境において「悲しい」感情を表すユーザとに対して、感性的インタラクションシステムはそれぞれの環境によって異なる感情戦略をフィードバックとして策定することができる。当該システムは、ビジネス場所においてユーザに「励まし」感情を表し、病院においてユーザに「慰め」感情を表すことができる。

インタラクティブ文脈分析部３４０は、インタラクティブ文脈３４４を取得することができる。インタラクティブ文脈３４４はインタラクティブ文脈情報であってもよく、インタラクティブ文脈情報に対応するインタラクティブ文脈に含まれている感情状態及び感情意図を含む。一部の実施例において、インタラクティブ文脈３４４は、感性的インタラクション会話における過去の感性的インタラクション及び感情状態の、任意の履歴データであってもよく、インタラクションの履歴データに対する記録及び検索に関わることができる。なお、履歴データに対して検索及び分析を行うことによってインタラクティブ文脈３４２を取得することができる。

語義データベース２４６は語義データ３４８を提供することができる。語義データ３４８は構文を理解するための規則を提供するデータであり、それによって、モジュール１２０におけるいずれの装置も任意の情報の意味を理解することができる。

一般知識データベース３５４は一般知識データ３５６を提供することができる。一般知識データベース３５４は、語義ネットワーク、オントロジー言語構造及び／又はベイジアンネットワークによって実現されて、一般知識データ３５６を提供することができる。さらに、それは事件進化グラフ、機械学習などによって実現されてもよい。一般知識データ３５６は一般人が通常把握している知識の集合である。ユーザとインタラクション会話を行うとき、感性的インタラクションシステムは一般知識データ３５６によりサポートされて、基本的な事実情報を理解することができる。このようなデータ（例えば、常識）は、分野や場面によって変化するか又は影響を受けることがない。

分野知識データベース３５０は、分野知識データ３５２を提供することができる。分野知識データベース３５０は、検索並びに推理すること又はクエリ方法によって分野知識データ３５０を記述する知識モデルに基づいて実現されることができる。分野知識データ３５０は、特定のビジネス分野（例えば、通信分野、金融分野、電子政務分野、電子コマース分野、日常生活分野、スマートホーム分野、スマート交通分野など）におけるビジネスロジックのような、専門領域における有効知識の集合を指すことができる。分野知識データは、１つの標準問と、表現方式が異なるが語義が同一である１つ又は複数の拡張問を含むことができるとともに、標準問及び１つ又は複数の拡張問に対応する回答を更に含むことができる。そこで、分野知識データは、分野知識データにおける質問又は情報を検索することによって、任意の具体的な質問の答え又は専門領域における不確定の情報を見つけることができる。つまり、感性的インタラクションシステムは分野知識データによりサポートされて、専門分野における用語や論点をよりうまく理解することができる。

図３Ｃに示すよう、感性的インタラクション計算プロセッサー２０６は、ユーザ意図３０６を出力し、さらにユーザ意図３０６を場面内容３４２及びインタラクティブ文脈３４４と一緒に感情戦略形成ユニット２０８に送信することができる。感情戦略形成ユニット２０８により受信されることができる入力は、ユーザ意図３０６、場面内容３４２、インタラクティブ文脈３４４、一般知識データ３５６及び分野知識データ３５２を含む。感情戦略形成ユニット２０８は感性的命令３０８を生成して、当該命令を感情表出の実行命令としてＡＵＩなどに送信することができる。

図４は、本発明の実施例に係る例示的な感性的インタラクションシステムをユーザ視点から説明するための機能図である。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は新規追加されてもよい。

当該プロセスは、ユーザがＡＵＩを通じて感性的インタラクションシステムとの感性的インタラクション会話を如何に見るかを示す。ユーザは、１つ又は複数のモダリティ（例えば、音声１０４、テキスト１０６、顔面表情１０８など）を有する感情をマルチチャンネルフロントエンド端末１１６に提供することによって、感情コミュニケーション１０２を開始することができる。ユーザの視点からみると、端末１１６はユーザがインタラクションを直接行うことができるユーザインターフェースである。前述した通り、端末１１６はユーザにＡＵＩを提供して、ユーザの感情コミュニケーション１０２を収集することができる。例えば、端末１１６はロボット４０４、スマート端末４０６、スマートフォン４０８、インスタントメッセージ（ＩＭ）プラットフォーム４１０などであってもよい。端末１１６は感性的インタラクション計算モジュール１２０に接続される。モジュール１２０は、感情認識部２０４、ユーザ意図計算ユニット２０６及び感情戦略形成ユニット２０８を備えて、感情表現に基づいてユーザの感情状態を取得し、感情状態及びデータ４１０（構造化されたもの又はされていないもの）などの他の入力に基づいてインタラクション意図及び感情意図を認識し、インタラクション意図及び感情意図に対する戦略を策定し、感性的命令を生成することができる。そのあと、モジュール１２０は感性的命令を端末１１６に送信し、端末１１６は最初の感情コミュニケーション１０２に対する応答として、１つ又は複数のモダリティを有する感情表出３１０を生成してユーザに提供することができる。ユーザからみると、モジュール１２０の動作はすべてバックステージにおいて発生するため、ユーザにとっては不可視である。端末１１６及びモジュール１２０を備えた全体的な感性的インタラクションシステムは、システム訓練及び学習プロセス４１２によって改善されることができる。

図５は、本発明の実施例に係る例示的な感性的インタラクションシステムを感性的インタラクションシステム視点で示す機能図である。このプロセスは、１つの感性的インタラクションシステムがＡＵＩを通じて感性的インタラクション会話を如何に見るかを示す。システムは、ユーザ入力５０２（例えば、視覚データ５０６、聴覚データ５０８、触覚データ５１０など）からマルチモーダルデータ５０４を捕獲することができる。システムは、様々な装置及び方法を用いてマルチモーダルデータ５０４を収集し認識することができ、さらに、更なる処理のために、マルチモーダル融合プロセッサー５１２によってデータ５０４を融合することができる。意図理解プロセッサー４１４は、融合されたデータに基づいてユーザの感情状態を取得し、感情状態と、知識データベース５１４からの他の入力とに基づいてインタラクション意図及び感情意図を認識することができる。感情戦略形成ユニット２０８は、インタラクション意図及び感情意図のために戦略を策定し、インタラクティブ命令５１６を生成することができるとともに、アプリケーションロジック５１８を呼び出すことによって、感情表出などのフィードバック出力５２０をユーザに提供することができる。感性的インタラクションシステムの視点から見ると、ユーザのデータ入力のモダリティを認識して、対応する装置及び方法を用いて当該データを処理することは非常に重要なことである。さらに、感性的インタラクションの一致性を維持し且つユーザのコミュニケーション習慣に適応するために、システムは複数のモダリティを有するフィードバックを生成することができる。

図１０は、本発明の実施例に係る感性的インタラクションシステムにおいて行われる例示的な感性的インタラクションのフローチャートである。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。

感性的インタラクションシステム（例えば、図３Ａによる感性的インタラクションシステム１００）は、感性的インタラクション会話を開始するステップ（１０００）のあと、ユーザからの感情コミュニケーションを受信するステップ（１００２）と、収集した感情コミュニケーションに基づいてデータ収集部（例えば、図３Ａ及び３Ｂによるデータ収集部２０２）を用いて感情関連データを取得するステップ（１００４）と、を行うことができる。

システムは、例えば、ユーザパスワード又は命令、ユーザ音声パスワード、ユーザ顔面、ユーザ指紋、ユーザ虹彩などによって、感情関連データに基づいてユーザの身分を認証するステップ（１００６）と、個人化モデル構築部（例えば、図３Ｃによる個人化モデル構築部３３４）を用いてユーザの身分データを取得するステップ（１００６）と、を行うことができる。ユーザの身分データに基づいて、システムはユーザの履歴データ、ユーザの好み及びユーザのフィードバックに基づいて、個人化情報を取得する（１００８）ことによって、ユーザの好みを指示するとともに意図認識のプロセスを調整と修正することができる。ステップ１０１０において、システムは、更なる処理のために、インタラクティブ文脈分析部（例えば、図３Ｃによるインタラクティブ文脈分析部３４０）を用いてインタラクティブ文脈を取得する（１０１０）ことができる。ステップ１０１２において、システムはさらに、更なる処理のために、場面内容分析部（例えば、図３Ｃによる場面内容分析部３３８）を用いて場面内容を取得する（１０１２）ことができる。

ステップ１０１４において、システムは感情認識部（例えば、図３Ａ及び３Ｃによる感情認識部２０４）を用いて、感情関連データに基づいて感情特徴を認識する（１０１４）ことができる。そのあと、システムは感情認識部を用いて、認識された感情特徴に基づいて感情状態を取得する（１０１６）ことができる。さらに、システムは複数の入力パラメータを受信することができ、語義データベース（例えば、図３Ｃによる語義データベース３４６）から語義データを受信するステップ（１０１８）と、分野知識データベース（例えば、図３Ｃによる分野知識データベース３５０）から分野知識データを受信するステップ（１０２０）と、一般知識データベース（例えば、図３Ｃによる一般知識データベース３５４）から一般知識データを受信するステップ（１０２２）と、を行うとともに、個人化情報、感情状態、インタラクティブ文脈及び場面内容を受信することができる。以上の受信した入力パラメータに基づいて、システムは、ユーザ意図計算ユニット（例えば、図３Ａ及び３Ｃによるユーザ意図計算ユニット２０６）を用いて感情意図及びインタラクション意図を認識する（１０２４）ことができる。

その後のステップ１０２６において、システムは、感情意図及びインタラクション意図を含むユーザ意図を取得して送信する（１０２６）ことができる。システムは、分野知識データ、一般知識データ及びユーザ意図に基づいて、感情戦略形成ユニット（例えば、図３Ａ及び３Ｃによる感情戦略形成ユニット２０８）を用いて、感情意図のための感情戦略と、インタラクション意図のためのインタラクション戦略と、を形成する（１０２８）ことができる。次に、感情戦略形成ユニットは感情戦略及びインタラクション戦略に基づいて感性的命令を生成する（１０３０）ことができる。感性的命令に基づいて、システムは感情計算表出生成部２１０（例えば、図３Ａ及び３Ｂによる感情計算表出生成部２１０）を用いて、感情表出を提供する（１０３２）とともに、感情表出をユーザに伝える（１０３４）ことができる。そのあと、システムは、最初に戻って他の１つの感性的インタラクション会話を開始する（１０００）か、又は会話を続けることができる。なお、システムは、任意の順番で以上のプロセスの全体又は一部を実行することができ、ステップが追加されてもよく、追加されなくてもよい。

図１１は、本発明の実施例に係るユーザ意図計算ユニットにおいて行われる例示的な意図認識プロセスのフローチャートである。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。

インタラクティブ文脈を受信するステップ（１１０２）と、感情関連データを受信するステップ（１１０４）と、場面内容を受信するステップ（１１０６）と、を含むプロセスによって複数の入力パラメータを受信したあと、ユーザ意図計算ユニット（例えば、図３Ａ及び３Ｃによるユーザ意図計算ユニット２０６）は、インタラクションシーケンスを分析するステップ（１１０８）と、焦点を抽出するステップ（１１１０）と、語義情報を抽出するステップ（１１１２）と、を行うことができる。ここで、複数の可能な感情が存在する場合、インタラクションシーケンスを分析する（１１１８）ためには、プロセッサーはユーザの感情関連データのシーケンスを分析する。現在のインタラクション会話において、複数の操作又は意図が表現されることができる可能性がある。各意図の意味は、意図の並び順番によって異なるように理解される可能性がある。ここで、プロセッサーは、現在のインタラクション会話に含まれている感情関連データに基づいて、当該会話における後期の意図トレンドを予測することができる。同様に、プロセッサーは、過去のインタラクション会話の履歴データに基づいて、新しいインタラクション会話における意図トレンドを予測することができる。こうすることによって、可能な正しい意図の範囲が局限され、したがってプロセッサーがより早く意図を認識することができる。

プロセッサーが感情関連データから焦点（例えば、ユーザが注目すること又は興味を持つ焦点）を抽出する（１１１０）ステップを行うのは、意図認識プロセスにおける特定の情報の重みを確定することによって、ユーザ意図を認識するために行われる選択プロセスをより容易にするためである。テキスト感情関連データについて、一部の実施例において、プロセッサーは用語重み付け技術を用いて、単語（特別注目の単語など）の１つ又は複数の属性に基づいて焦点を有するテキスト又は特定の単語を抽出する。一部の実施例において、焦点抽出は、単語の出現頻度−逆文書頻度（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ，ＴＦＩＤＦ）技術に基づいた独立したモジュールとして構築されることができる。他に、テキスト感情関連データについて、他の一部の実施例において、焦点抽出は、エンコーダー−デコーダーモデルにおいて行われる語義データ又は意図認識に対する処理と結合されて、注目モデルを構築することができる。このような実施例において、処理される語義データ又は認識される意図は、様々な重みを有する単語を含むことができる。なお、焦点の抽出は、他の２つの処理プロセスから分割できない部分になることができる。

前述した通り、オーディオ感情関連データはテキストに変換されることができる。また、変換されたテキストにおける焦点も、上述したテキスト感情関連データと同様な方式によって抽出されることができる。さらに、一部の他の実施例において、プロセッサーは、オーディオの音響学リズム特性（トーン、ストレス、休止、イントネーションなどを含む）からも焦点を抽出することができる。これらの特性は、曖昧さを避けることと、キーワードへの注目度及び意図認識の正確度を向上させることをサポートすることができる。

画像やビデオなどの視覚感情関連データについては、コンピュータ視覚方法によって焦点を抽出することができる。データに対して前処理（例えば、二値化処理）を行って画素分布情報を取得したあと、プロセッサーは、画素分布情報を確認することによって視覚データにおける対象を認識することができる。視覚データにおいて人間の存在を含んだエリアが存在する場合、プロセッサーは、人間の注目するポイント、手足の動き方向又はジェスチャの方向に基づいて視覚データの焦点位置を取得することができる。焦点部分を取得したあと、プロセッサーは語義変換によって画像又はビデオの実質をテキスト又は符号に変換して、焦点部分として後続の処理において用いる。

一部の実施例において、語義情報を抽出する（１１１２）とき、プロセッサーは、履歴データや文脈情報より、現在の感情関連データにもっと高い優先度を付与する。現在の感情関連データが漏れた場合、又はユーザの意図を認識することが失敗した場合、履歴情報又は文脈情報を参考することができる。語義情報の抽出は、自然言語の処理と、場面内容に基づく語義分析と、を含むことができる。一部の実施例において、語義ライブラリは語義情報の抽出において用いられることができる。一部の実施例において、特定の語義操作は、マルチ意図の認識、文脈意図の充填などの、特定の語義についての分析課題を解決するために行われる。なお、語義抽出のプロセスと意図認識のプロセスとは分割されることができない。一部の実施例においては、語義ライブラリに基づいて特定の意図を認識することができる。プロセッサーは、他の任意のモダリティ（例えば、ビデオ、画像（どのようなテキストも含まない画像）など）の感情関連データに関するテキスト記述を取得し、テキスト記述から語義情報を抽出することができる。認識を行うプロセッサーにとって、感情関連データの語義を理解すれば、ユーザの意図もより理解しやすくなる。ゆえに、語義情報の抽出は意図認識プロセスにおける大切な一環である。１つのインタラクション意図と１つの感性的意図とは、同時に、又は任意の順番、又は任意の順序で認識されることができる。

図１１を再び参照すると、プロセッサーは、個人化情報を受信するステップ（１１１４）と、感情状態を受信するステップ（１１１６）と、一般知識データを受信するステップ（１１１８）と、分野知識データを受信するステップ（１１２０）と、を行うことができる。一部の実施例において、プロセッサーは分析されたインタラクションシーケンスと、抽出された焦点と、抽出された語義情報と、個人化情報と、感情状態と、一般知識データと、場面内容と、分野知識データとのうちの少なくとも１つに基づいて、ユーザの感情意図及びインタラクション意図を認識する（１１２２）ことができる。

一部の実施例において、ユーザ意図計算ユニット（例えば、図２、３Ａ、３Ｃ及び８によるユーザ意図計算ユニット２０６）は図１２Ａに示すよう、ベイジアンネットワークに基づいて実現されて、ユーザのユーザ意図を認識することができる。ベイジアンネットワーク（ビリーフネットワーク、因果ネットワーク、又は確率的非循環有向グラフィカルモデルとも称される）は確率的グラフィカルモデルであり、非循環有向グラフによって１セットの変数及び各変数の間の条件付き依存関係を表す。例えば、ベイジアンネットワークは、感情意図と、焦点感情タイプ及び感情状態シーケンスと、の間の確率的関係を表すことができる。焦点感情タイプ及び感情状態シーケンスが与えられた場合、当該ネットワークは各種の感情意図の存在確率を計算することができる。非循環有向グラフのノードは変数を表し、グラフの辺は条件付き依頼関係を表す。連結されていないノードは、条件付きで互いに独立する変数を表す。いずれのノードも１つの確率関数と関連し、当該確率関数の入力は当該ノードの親変数の特定の１セットの数値であり、出力は当該ノードにより表される変数の確率又は確率分布である。ジョイント確率分布マトリックスは条件付きの確率テーブルであり、確率上のノードの数値的特性に相関する。

図１２Ａに示すよう、感情意図計算プロセッサー８０６は、ベイジアンネットワークを用いて、感情意図規則データベースから取得された感情状態シーケンス１２０２、焦点感情タイプ１２０４及び感情意図規則１２０６に基づいて、ジョイント確率分布マトリックスで表される感情意図確率組合せ１２０８を取得することができる。ジョイント確率分布マトリックスは感情意図規則によって初期化されることができる。当該マトリックスは、意思決定フィードバック又はヒューマンマシン協調の調整に基づいて、自主的な機械学習によって更なる更新と最適化を実現することができる。組合せ１２０８は一連の既に認識された感情意図を含み、これらの感情意図はそれらが本当のユーザ意図になる確率に基づいてまとめられたものである。

感情意図規則データベースは、感情意図変数とその他の関連変数との間のジョイント確率分布を提供する。一部の実施例において、データベースは、ジョイント確率分布を推定するために用いられる基本的規則を提供する。焦点感情タイプは、焦点内容に対応する感情タイプ（例えば、ユーザが注目する画像、テキスト段落など）である。焦点感情タイプは、異なる次元における感情状態シーケンスによって定義されることができ、感情共通知識データベースに基づいて焦点内容とのマッピングによって直接得られることができる。感情状態シーケンスは、ユーザインタラクションの間に発生する感情変化のシーケンスである。各感情状態は、異なる次元における感情数値の組合せであってもよく、又は１種の感情確率であってもよい。

意思決定フィードバックは、意思決定結果に対するユーザのフィードバックであり、黙示的なフィードバック（又は受動的なフィードバック）及び明示的なフィードバックを含む。黙示的なフィードバックは、意思決定結果（例えば、音声、感情、動作など）に対するユーザの応答（システムにより自動的に取得される）である。一方、明示的なフィードバックは、意思決定結果に対するユーザの自発的な評価意見であり、例えば評価点数であってもよく、評価コメントであってもよい。決定フィードバックモジュールは、意図に対する推理又は計算を更新するメカニズムである。つまり、意図の推理又は計算メカニズムは、システム管理人によるヒューマンマシン協調によって実現されることができるとともに、その推理又は計算の精度は意思決定フィードバックに基づく機械学習によって向上されることができる。

図１２Ａに示すよう、インタラクション意図計算プロセッサー８０４は、分野知識データベース又は写像から得られる入力パラメータに基づいて、インタラクション意図確率組合せ１２１２を取得することができる。ここで、入力パラメータは、語義データ３４８、焦点１２１０、インタラクティブ文脈３４４、場面内容３４２及び分野知識データ３５２を含む。分野知識データベース又は写像は、１つの分野における概念及び例と、概念と例との関連又は関係と、を提供する。プロセッサー８０４は、入力パラメータに対応する分野知識データベース又は写像をクエリし、インタラクション意図確率組合せ１２１２を取得することができる。

ユーザ意図規則データベースから取得したユーザ意図規則１２１４、感情意図確率組合せ１２０８、インタラクション意図確率組合せ１２１２及び個人化情報３３６に基づいて、感性的インタラクション意図フィルタ１２１６は、ジョイント確率分布マトリックスによって表されるユーザ意図確率組合せを取得することができる。ジョイント確率分布マトリックスは、ユーザ意図規則によって初期化されることができる。当該マトリックスは、意思決定フィードバック、又はユーザのフィードバックに従うヒューマンマシン協調の調整に基づいて、自主的な機械学習によって更なる更新と最適化を実現することができる。

例えば、図１２Ｂ乃至１２Ｄはいずれも、ベイジアンネットワークに基づいた例示的なユーザ意図認識プロセスのフローチャートである。それらは、例示的な３つの連続する感性的インタラクション会話を示す。各会話において、ユーザ意図計算ユニット（例えば、図２、３Ａ、３Ｃ及び８によるユーザ意図計算ユニット２０６）はベイジアンネットワークによってユーザ意図を認識することができる。例示的な感性的インタラクション会話は以下のように記述されることができる。

例示的な感性的インタラクション会話Ａにおいて、ユーザは例示的な感性的インタラクションシステムに「長い会議のせいで頭が痛い。音楽を再生してください。」と伝えると、感性的インタラクションシステムはユーザからの情報を処理したあと、ユーザのために穏やかな音楽を再生することができる。

例示的な感性的インタラクション会話Ａの次に行われる例示的な感性的インタラクション会話Ｂにおいて、ユーザは例示的な感性的インタラクションシステムに「この音楽を聴くと眠くなる。ダメだよ。他の音楽に変えてください。後で残業しなければならないから。」と伝えると、感性的インタラクションシステムはユーザからの情報を処理したあと、ユーザのために明るい音楽を再生することができる。

例示的な感性的インタラクション会話Ｂの次に行われる例示的な感性的インタラクション会話Ｃにおいて、ユーザは例示的な感性的インタラクションシステムに「音楽は素敵だが、出かけることを３０分後にリマインドしてください」と伝えることができる。感性的インタラクションシステムは明るい音楽を続いて再生しながら、ユーザからの情報を処理してから、３０分後に出かけるアラームをユーザのために設定することができる。

会話Ａは、図１２Ｂに示されるベイジアンネットワークにより処理されることができる。前処理されたデータに基づいて、ユーザ意図計算ユニット２０６は以下通りの変数又はパラメータの確率組合せを取得することができる。
・感情状態１２１８Ａ：中立（０．１）、疲労（０．５）、悲しい（０．４）
・焦点１２２０Ａ：会議（０．１）、音楽再生（０．５）、頭痛（０．４）
・感情意図のインタラティブ文脈１２２２Ａ：（ｎｕｌｌ）
・語義データ１２２４Ａ：今日、会議、頭痛及び音楽再生
・場面内容１２２６Ａ：時間（６：５０）及び場所（事務室）
・インタラクション意図のインタラクティブ文脈１２２８Ａ：（ｎｕｌｌ）。

感情意図のインタラクティブ文脈１２２２Ａ及びインタラクション意図のインタラクティブ文脈１２２８Ａは、感性的インタラクション会話の開始であり、且つインタラクティブ文脈を生成するための使用可能な履歴データがないため、（ｎｕｌｌ）として記述されることができる。これらの実施例において、感情状態１２１８Ａは離散的な感情分類によって表現される。場面内容１２２６Ａは、現在の場面が発生する場所が「事務室」であると確定するとともに、分野知識データベースが現在の場面に適するように調整することができる。焦点１２２０Ａは、ユーザの言葉の単純な意味に基づいて抽出された焦点であってもよい。プロセッサー２０６は、焦点１２２０Ａに基づいて、焦点１２２０Ａを感情共通知識データベースにおける焦点感情タイプにマッピングすることによって、焦点感情タイプ１２３０Ａが（具合が悪い）（１）になる確率組合せを取得することができる。ここで、マッピング規則は、開始のときに予め設定されかつ／又は初期化され、さらに機械学習によって調整されることができる。プロセッサー２０６は、感情状態１２１８Ａと、感情意図のインタラクティブ文脈１２２２Ａと、焦点感情タイプ１２３０Ａとの確率組合せに基づいて、入力確率組合せを感情意図の確率分布マトリックス１２３２にマッチングし、感性的インタラクション組合せ１２３４Ａを取得することができる。この実施例において、マトリックス１２３２は予め設定された確率分布マトリックスのほんの一部であってもよく、特定の条件における潜在的な感情意図の確率数値を含み、疲労、不具合／慰め（０．８）、疲労、疲れ切り／慰め（０．３）、退屈、怒り／慰め（０．４）、疲労、不具合／励まし（０．２）、疲労、疲れ切り／励まし（０．７）及び退屈、怒り／励まし（０．６）と記述されることができる。焦点感情タイプ１２３０Ａが「具合が悪い」（１）であるため、プロセッサー２０６はマトリックス１２３２において「具合が悪い」を見つけて、「慰め」の確率数値０．８及び「励まし」の確率数値０．２を含む感情意図１２３４Ａの確率組合せを取得することができる。

また、プロセッサー２０６は、インタラクション意図に対応する焦点１２２０Ａ、語義データ１２２４Ａ、場面内容１２２６Ａ及びインタラクティブ文脈１２２８Ａに基づいて、入力データと、分野知識データベースから形成された分野知識写像とに対して確率マッチングを行うことによって、インタラクション意図１２３６Ａの確率組合せとして音楽再生（０．８）及び休憩（０．２）を取得することができる。プロセッサー２０６は個人化情報１２３８Ａを更に受信することができる。個人化情報１２３８Ａは、ユーザの好みが「システムがフィードバックを提供しないことが嫌い」であることを示すことができる。プロセッサー２０６は、インタラクション意図１２３６Ａと、感情意図１２３４Ａと、個人化情報１２３８Ａに基づいて、入力確率組合せと、ユーザ意図１２４０の確率分布マトリックスとに対してマッチングを行うことによって、ヒューマンマシン協調による調整を通じて、ユーザ意図１２４２Ａを取得することができる。本実施例において、マトリックス１２４０は、特定の条件にマッチする潜在的なユーザ意図の確率数値を含んだ予め設定された確率分布マトリックスの一部であってもよく、慰め、音楽再生／穏やかな音楽を再生（０．９）、励まし、音楽再生／穏やかな音楽を再生（０．１）、Ｎ／Ａ、アラーム設定／穏やかな音楽を再生（０）、慰め、音楽再生／明るい音楽を再生（０．１）、励まし、音楽再生／明るい音楽を再生（０．９）、Ｎ／Ａ、アラーム設定／明るい音楽を再生（０）、慰め、音楽再生／アラーム設定（０）、励まし、音楽再生／アラーム設定（０）、Ｎ／Ａ、アラーム設定／アラーム設定（１）と記述されることができる。感性的インタラクション会話において個人化情報が存在しない場合、プロセッサー２０６は以下の計算によって入力確率組合せとマトリックス１２４０とに対してマッチングすることができる。

Ｐ（穏やかな音楽を再生）（「穏やかな音楽を再生」の確率数値）＝（Ｐ（慰め、音楽再生／穏やかな音楽を再生）×Ｐ（慰め）＋Ｐ（励まし、音楽再生／穏やかな音楽を再生）×Ｐ（励まし）×Ｐ（音楽再生）＝（０．９×０．８＋０．１×０．２）×０．８＝０．５９２、及び、
Ｐ（明るい音楽を再生）＝（Ｐ（慰め、音楽再生／明るい音楽を再生）×Ｐ（慰め）＋Ｐ（励まし、音楽再生／明るい音楽を再生）×Ｐ（励まし））×Ｐ（音楽再生）＝（０．１×０．８＋０．９×０．２）×０．８＝０．２０８。

よって、「穏やかな音楽を再生」の確率が０．５９２となり、「明るい音楽を再生」の確率が０．２０８となる。しかしながら、本実施例において、個人化情報１２３８Ａは計算プロセスに影響を与えるかもしれない。例えば個人化情報１２３８Ａで前述した通り、システムが応答しないと、ユーザはシステムが嫌いかもしれない。そこで、プロセッサー２０６は、インタラクション意図１２３６Ａの確率組合せから「休止」の確率を除去して「音楽再生」の確率を（１）にすることができる。そこで、入力確率組合せとマトリックス１２４０とをマッチングすることによって感性的インタラクション１２４２Ａを取得するための計算は、個人化情報１２３８Ａの影響を受けて、以下の通りになることができる。

Ｐ（穏やかな音楽を再生）＝（Ｐ（慰め、音楽再生／穏やかな音楽を再生）×Ｐ（慰め）＋Ｐ（励まし、音楽再生／穏やかな音楽を再生）×Ｐ（励まし）×Ｐ（音楽再生）＝（０．９×０．８＋０．１×０．２）×１＝０．７４、及び、
Ｐ（明るい音楽を再生）＝（Ｐ（慰め、音楽再生／明るい音楽を再生）×Ｐ（慰め）＋Ｐ（励まし、音楽再生／明るい音楽を再生）×Ｐ（励まし）×Ｐ（音楽再生）＝（０．１×０．８＋０．９×０．２）×１＝０．２６。

次に、プロセッサー２０６は、穏やかな音楽を再生し（０．７４）、明るい音楽を再生すること（０．２６）をユーザ意図１２４２Ａとして取得することができる。認識された複数のユーザ意図が互いに排他的になっている場合、最も高い確率を有するユーザ意図（例えば、穏やかな音楽を再生）は現在の感性的インタラクション会話に含まれているユーザ意図１２４２Ａとして選定されることができる。取得された感情意図１２３４Ａ、インタラクション意図１２３６Ａ及びユーザ意図１２４２Ａは、感性的インタラクションシステムにおいて記憶されて、システムの計算プロセスのアップデート及び最適化のために行われる機械学習及び／又はヒューマンマシン協調による調整において用いられることができる。

さらに、会話Ｂは図１２Ｃに示されるベイジアンネットワークに基づいて処理されることができる。前処理されたデータに基づいて、ユーザ意図計算ユニット２０６は以下の変数又はパラメータの確率組合せを取得することができる。
・感情状態１２１８Ｂ：中立（０．１）、疲労（０．５）、悲しい（０．４）
・焦点１２２０Ｂ：睡眠（０．２）、音楽変更（０．６）、残業（０．２）
・感情意図のインタラクティブ文脈１２２２Ｂ：慰め（０．８）及び励まし（０．２）
・語義データ１２２４Ｂ：睡眠、ダメ、音楽変更、残業
・場面内容１２２６Ｂ：時間（６：５０）、場所（事務室）
・インタラクション意図のインタラクティブ文脈１２２８Ｂ：音楽再生（０．８）及び休憩（０．２）。

プロセッサー２０６は、図１２Ｂによる感性的インタラクション１２３４Ａから感情意図のインタラクティブ文脈１２２２Ｂの確率組合せを取得するとともに、図１２Ｂによるインタラクション意図１２３６Ａからインタラクション意図のインタラクティブ文脈１２２８Ｂの確率組合せを取得する。プロセッサー２０６は、焦点１２２０Ｂに基づいて、焦点１２２０Ｂを感情共通知識データベースにおける焦点感情タイプにマッピングすることによって、焦点感情タイプ１２３０Ｂの確率組合せとして疲労（０．７）及び怒り（０．３）を取得することができる。プロセッサー２０６は図１２Ｂに示すよう、感情状態１２１８Ｂと、感情意図に対応するインタラクティブ文脈１２２２Ｂと、焦点感情タイプ１２３０Ｂとの確率組合せに基づいて、入力確率組合せと感情意図１２３２に対応する確率分布マトリックスとに対してマッチングを行い、感性的インタラクション１２３４Ｂとして慰め（０．３）及び励まし（０．７）を取得することができる。

また、プロセッサー２０６は、焦点１２２０Ｂと、語義データ１２２４Ｂと、インタラクション意図に対応するインタラクティブ文脈１２２８Ｂと、場面内容１２２６Ｂとに基づいて、入力データと、分野知識データベースから取得された分野知識写像とに対して確率マッチングを行うことによって、インタラクション意図１２３６Ｂの確率組合せとして音楽再生（０．９）及び休止（０．１）を取得することができる。プロセッサー２０６は図１２Ｂに示すように、インタラクション意図１２３６Ｂ、感情意図１２３４Ｂ及び個人化情報１２３８Ｂに基づいて、入力確率組合せと、ユーザ意図１２４０に対応する確率分布マトリックスとに対してマッチングを行い、ユーザ意図組合せ１２４２Ｂとして（穏やかな音楽を再生）（０．３４）及び（明るい音楽を再生）（０．６６）を取得することができる。図１２Ｂに示すよう、個人化情報１２３８Ｂによって、インタラクション意図１２３６Ｂにおける休止（０．１）の確率が削除されることができる。最も高い確率を有するユーザ意図（例えば、明るい音楽を再生）は、現在のユーザ意図であるユーザ意図１２４２Ｂとして確定されることができる。

さらに、会話Ｃは図１２Ｃに示されるベイジアンネットワークによって処理されることができる。前処理されたデータに基づいて、ユーザ意図計算ユニット２０６は以下の変数又はパラメータの確率組合せを取得することができる。
・感情状態１２１８Ｃ：中立（０．２）、楽しい（０．７）、退屈（０．１）
・焦点１２２０Ｃ：素敵（０．２）、３０分（０．６）、出かける（０．２）
・感情意図に対応するインタラクティブ文脈１２２２Ｃ：慰め（０．３）、励まし（０．７）
・語義データ１２２４Ｃ：この、素敵、３０分、出かけるリマインド
・場面内容１２２６Ｃ：時間（７：００）、場所（事務室）
・インタラクション意図に対応するインタラクティブ文脈１２２８Ｃ：音楽再生（０．９）、休憩（０．１）。

プロセッサー２０６は、図１２Ｃによる感性的インタラクション１２３４Ｂから感情意図に対応するインタラクティブ文脈１２２２Ｃの確率組合せを取得するとともに、図１２Ｃによるインタラクション意図１２３６Ｂからインタラクション意図に対応するインタラクティブ文脈１２２８Ｃの確率組合せを取得する。プロセッサー２０６は焦点１２２０Ｃに基づいて、焦点１２２０Ｃを感情共通知識データベースにおける焦点感情タイプにマッピングすることによって、焦点感情タイプ１２３０Ｃの確率組合せとして疲労（ｎｕｌｌ）を取得することができる。ただし、感性的インタラクションＣにおいてマッチする項目が存在しないため、焦点感情タイプ１２３０Ｃは（ｎｕｌｌ）と示されることができる。プロセッサー２０６は、感情状態１２１８Ｃ、インタラクティブ文脈１２２２Ｃ及び焦点感情タイプ１２３０Ｃの確率組合せに基づいて、図１２Ｃに示すよう、入力確率組合せと感情意図に対応する確率分布マトリックス１２３２とに対してマッチングを行い、感性的インタラクション組合せ１２３４Ｃとして慰め（０．３）及び励まし（０．７）を取得することができる。

また、プロセッサー２０６は、焦点１２２０Ｃ、語義データ１２２４Ｃ、インタラクション意図に対応するインタラクティブ文脈１２２８Ｃ、場面内容１２２６Ｃ及びそれらの確率組合せに基づいて、入力データと、分野知識データベースから取得された分野知識写像とに対して確率マッピングを行うことによって、インタラクション意図組合せ１２３６Ｃの確率組合せとして（音楽再生）（０．４）及び（アラーム設定）（０．６）を取得することができる。インタラクション意図１２３６Ｃと感情意図１２３４Ｃ、及びそれらの確率組合せ、加えて個人化情報１２３８Ｃに基づいて、プロセッサー２０６は図１２Ｃに示すよう、入力確率組合せと、ユーザ意図に対応する確率分布マトリックス１２４０とに対してマッチングを行い、ユーザ意図１２４２Ｃとして（穏やかな音楽を再生）（０．１２）、（明るい音楽を再生）（０．２６）及び（アラーム設定）（０．６）を取得することができる。最も高い確率を有するユーザ意図（例えば、アラーム設定と明るい音楽を再生（この両者は互いに排他的ではないため））は、現在のユーザ意図であるユーザ意図１２４２Ｃとして形成されることができる。

図１２Ａを再び参照すると、プロセッサーは語義データベースに基づいて実現されて、ユーザ意図を認証することができる。このような語義データベースによって、プロセッサーは、特定の語義情報をデータベースにおける具体的にリンクされた意図にマッチングすることができる。インタラクション意図の場合、特定の語義情報は通常、特有のインタラクション意図にマッチする。プロセッサーは、マッチングモデルにおいてキーアクションワードを見つけてから、対応するインタラクション意図を見つけることができる。キーアクションワードがモデルにおける複数の語義情報オプションにマッチする場合、プロセッサーは、近似度に従って選定し、近似度が最も高いオプションを参照としてインタラクション意図にマッチさせることができる。当該マッチングモデルは、機械学習によって予め設定されるか又は累積されることができる。感情意図の場合、プロセッサーは、特定の場面内容における感情状態と感情意図との間で関係を構築する感情語義データベースを利用することができる。プロセッサーは、マトリックスにおける感情状態と認識されたインタラクション意図との間の関係を分析することによって、インタラクション意図及び感情状態を参考として、マトリックスにおいて正確な感情意図を見つけることができる。

以下の感情語義データベースにおけるマトリックス（表）を例とすると、ユーザ意図計算ユニット２０６は、感情状態を受信し且つインタラクション意図を認識したあと、受信した感情状態をマトリックスの最初の行に入れ、認識したインタラクション意図をマトリックスの最初の列に入れることによって、感情状態と認識したインタラクション意図との間の関係を取得することができる。プロセッサー２０６はこのような関係に従って、現在の感性的インタラクションに対応する感情意図を見つけることができる。例えば、プロセッサー２０６が「焦り」の感情状態を受信し且つ「クレジットカードの限度額をチェック」というインタラクション意図を認識した場合、感情状態と認識したインタラクション意図との間の関係が「残りの限度額が足りない」であると推定することができ、さらにそれによって感情意図が「慰められたい」であると認識することができる。当該マトリックスは、感情状態及びインタラクション意図に基づいて感情意図を取得する他の例を更に提供する。

一部の実施例において、プロセッサーは機械学習に基づいて実現されて、ユーザ意図を認証することができる。インタラクション意図の場合、プロセッサーは、過去の感情関連データ及びそれにマッチするインタラクション意図を学習することによって、対応するマッチング規則の学習モデルを取得することができる。したがって将来の認識プロセスにおいて、プロセッサーは学習モデルにおけるマッチング規則に基づいて、ユーザデータを用いて関連するインタラクション意図を見つけることができる。感情意図の場合、プロセッサーは過去の感情状態及びそれにマッチする感情意図を学習することによって、対応するマッチング規則の他の１つの学習モデルを取得することができる。したがって将来の認識プロセスにおいて、プロセッサーは学習モデルにおけるマッチング規則に基づいて、感情状態を用いて関連する感情意図を見つけることができる。

一部の実施例において、プロセッサーは検索アルゴリズムに基づいて実現されて、ユーザ意図を認証することができる。プロセッサーは、意図辞書を備えることができ、当該意図辞書はインタラクション意図及び感情意図の目録を含む。このような辞書は、予め設定されるか又は開発されることができ、さらにオンライン機械学習（例えば、Ｑ＆Ａデータを学習する）によって継続的に補足されることができる。プロセッサーは、マッチする意図を見つけるために、検索アルゴリズムを用いて、任意の入力されたデータをキーワードとして辞書において検索を行うことができる。

図１３は、本発明の一実施例に係る感情戦略形成ユニットにおいて行われる戦略形成のプロセスのフローチャートである。図１３に示すよう、感情意図戦略形成ユニット（例えば、図９による感情意図戦略形成ユニット９０６）は、入力パラメータを受信することに基づいて、感情意図戦略を形成する（１３１４）ことができる。入力パラメータを受信することは、場面内容を受信するステップ（１３０２）と、個人化情報を受信するステップ（１３０４）と、規則及びロジックデータを受信するステップ（１３０６）と、ユーザ意図を受信するステップ（１３０８）と、一般知識を受信するステップ（１３１０）と、分野知識を受信するステップ（１３１２）と、を含む。インタラクション意図戦略形成ユニット（例えば、図９によるインタラクション意図戦略形成ユニット９０４）は、前記１つ又は複数の入力パラメータに基づいて、インタラクション意図戦略を形成する（１３１６）ことができる。感情戦略形成ユニット（例えば、図２、３Ａ、３Ｃ及び９による形成ユニット２０８）は、形成された戦略に基づいて、アクション命令を生成する（１３１８）ことができる。入力許可規則を受信した（１３２０）あと、感情戦略形成ユニットはアクション命令における動的命令を調整する（１３２２）ことによって、感性的命令を生成する（１３２４）ことができる。

当業者であれば理解できる通り、説明された方法は、ステップの削除、ステップ順番の変更又は新規のステップの追加などによって変更されることができる。また、説明されたシステム又は装置は、構成部分の削除、シーケンス又は順番の変更、又は新規の構成部分の追加などによって変更されることができる。本発明により開示されるシステム、装置及び方法は、コンピュータプログラム製品として実現されてもよく、すなわち情報メディア（例えば、マシン読取可能な記憶装置）において実現される実体を有するコンピュータプログラムとして実現されて、データ処理装置（例えば、プログラマブルプロセッサー、コンピュータ又はマルチコンピュータ）により実行されるか、又はそれらの操作を制御する。コンピュータプログラムは、任意の形式を有するプログラミング言語（コンパイルされた言語又は解釈された言語を含む）によって編集されてもよく、任意の形式（独立したプログラム、モジュール、コンポーネント、サブルーチン、又は他のコンピューティング環境において使用可能なユニット）によって配置されてもよい。コンピュータプログラムは、１台のコンピュータ又は１つのサイトにおける複数台のコンピュータにより実行されてもよく、又は、複数のサイトに配置されて通信ネットワークを介して互いに接続してもよい。

本発明により開示される一部又はすべての方法は、特定用途向け集積回路（ＡＳＩＣ）、現場で構成可能な回路アレイ（ＦＰＧＡ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、プリント基板（ＰＣＢ）、デジタル信号プロセッサー（ＤＳＰ）、プログラマブルロジックデバイス及びプログラマブルインターコネクトの組合せ、単独セントラルプロセッサーユニット（ＣＰＵ）チップ、マザーボードにおけるＣＰＵチップの組合せ、汎用コンピュータ、又はインテリジェント知識ベースを構築可能な装置やモジュールの任意の他の組合せ（例えば、語義近似度計算及び／又は本発明により開示された抽象的語義推薦に基づくＱ＆Ａ知識ベース）によって実現されることができる。

以上の明細書においては既に具体的な例示的な実施例によって本発明について説明を行ったが、明らかに、以下の請求範囲で示す通り、本発明のより広い精神および範囲から逸脱しなくても、本発明に対して様々な変動や変更を行うことができる。つまり、明細書及び図面は説明的なものであり、制限的なものではない。本発明による明細書及び実際の実現からみると、本発明の他の実施例は当業者にとっては明らかなものである可能性がある。

図３Ａによる例示的な実施例において、感性的インタラクションシステムは、マルチチャンネルフロントエンド端末１１６により提供される感情コンピューティングユーザインターフェースを介してユーザと感性的インタラクション会話を行うとともに、感性的インタラクション計算モジュール１２２によって感性的インタラクションを処理することができる。例えば、ユーザは、端末１１６に配置された感情コンピューティングユーザインターフェースに対して感情コミュニケーション１０２を入力することができる。データ収集部２０２は端末１１６からの指示を受けて、感情コミュニケーション１０２を捕獲、処理して、感情関連データ３０２を取得することができる。図３Ｂに示すよう、端末１１６はデータ収集部２０２及び感情計算表出生成部２１０を備えて、感性的インタラクション会話を支えるための感情コンピューティングユーザインターフェースを提供することができる。収集部２０２は、１つ又は複数のモダリティによって感性的インタラクション１０２を捕獲する。例えば、テキスト１０４と、音声１０６と、顔面表情１０８と、ジェスチャ１１０と、生理信号１１２と、マルチモダリティ１１４とのうちの少なくとも１つを含んでもよい。収集部２０２は、感性的インタラクション会話の開始段階において、ユーザにとってはインターフェースとして用いられ、感性的インタラクションシステムにとってはユーザからデータ及び感情を収集するための通信チャンネルとして用いられる。収集部２０２の出力は、１つ又は複数のモダリティを有する感情関連データ３０２、例えば、テキスト感情関連データ３１２と、音声感情関連データ３１４と、顔面表情感情関連データ３１６と、ジェスチャ感情関連データ３１８と、生理感情関連データ３２０と、マルチモダリティ感情関連データ３２２とのうちの少なくとも１つを含むことができる。そのあと、感情関連データ３０２が処理されるよう、収集部２０２は感情関連データ３０２を感性的インタラクション計算モジュール１２０などに送信することができる。テキスト感情関連データ３１２は感情認識部２０４及びユーザ意図計算ユニット２０６により使用されることができる。テキスト感情関連データ３１２は、将来の感性的インタラクション会話の履歴データとして用いられてインタラクティブ文脈を取得するか、又は現在の場面情報に基づいて場面内容を取得するために用いられることができる。さらに、感情認識部２０４は音声感情関連データ３１４によって、ユーザの身分を確認するとともに、ユーザの個人情報及び習慣データを収集してシステムがより正確的にユーザの音声を認識してユーザの音声に含まれている感情を理解するように支援を提供することができる。音声感情関連データ３１４から変換されたテキストは、履歴データとして記憶されて、ユーザ意図計算ユニット２０６が将来のインタラクションからインタラクティブ文脈を取得するときに用いられることができる。また、音声感情関連データ３１４から変換されたテキストは、場面内容を取得するために用いられることができる。さらに、顔面表情感情関連データ３１６及びジェスチャ感情関連データ３１８を含んだ画像やビデオなどの視覚データは、感情認識部２０４がユーザの身分を記録と確認する（例えば、顔ＩＤによるロック解除）ために用いられることができる。一部の実施例において、このような視覚データは、場面内容を取得するために用いられることができる。さらに、感情認識部２０４及びユーザ意図計算ユニット２０６は、生理感情関連データ３２０を使ってユーザの個人情報を蓄積することによって、システムがより正確的にユーザの感情を理解できるように支援することができる。生理感情関連データ３２０は履歴データとして記憶されて、インタラクションにおけるインタラクティブ文脈を取得するために用いられることができる。

図７に示すよう、生理信号感情認識部７１０は、フーリエ変換のパワースペクトル、特徴選択、遺伝的アルゴリズム、ウェーブレット変換、独立成分分析、公共空間パターン（ｃｏｍｍｏｎｓｐａｔｉａｌｐａｔｔｅｒｎ）、順序的フローティングフォワード選択（ｓｅｑｕｅｎｔｉａｌｆｌｏａｔｉｎｇｆｏｒｗａｒｄｓｅｌｅｃｔｉｏｎ）、分散の分析などを行うことによって、生理感情関連データ３２０から統計データを抽出することができる。当該統計データは生理感情関連データ３２０の特徴に対応しており、更なる処理において用いられることができる。

図３Ａを再び参照すると、感情認識部２０４は、感情関連データ３０２に基づいて感情状態３０４を取得してから、感情状態３０４をモジュール１２０におけるユーザ意図計算ユニット２０６に送信することができる。図８に示すよう、プロセッサー２０６は、入力データ８０２に基づいてインタラクション意図８０８を認識／確定するインタラクション意図計算プロセッサー８０４と、入力データ８０２に基づいて感情意図８１０を認識／確定する感情意図計算プロセッサー８０６と、を備えることができる。インタラクション意図８０８は、ユーザの明確な行動リクエストであってもよく、例えば、「ユーザは特定の質問を聞いている」、「ユーザは特定のサービスを要求している」又は「ユーザは気楽なチャットのセッションを始める」などであってもよい。感情意図８１０は、ユーザが感性的応答又は感情管理を求めるための感情的なリクエストであってもよい。例えば、ユーザが特定の質問を心配そうに聞いているとき、彼／彼女の感情は不安であり且つ彼／彼女の感情意図は「慰め」の応答に対する期待である可能性がある。一部の実施例において、インタラクション意図８０８及び感情意図８１０は、同時のものであってもよく、任意の順によってシーケンスを構成してもよい。そのあと、プロセッサー２０６は、インタラクション意図８０８及び感情意図８１０を含んだユーザ意図３０６を取得することができる。

図３Ａを再び参照すると、形成ユニット２０８は、感性的命令３０８をマルチチャンネルフロントエンド端末１１６における感情計算表出生成部２１０に送信することができる。生成部２１０は感性的命令３０８に基づいて感情表出３１０を生成し、さらに感情表出３１０をユーザに返送することができる。生成部２１０は感性的インタラクション会話の後期において用いられて、ユーザと直接にインタラクションを行いながら、生成した感情表出３１０を、その先の感情コミュニケーション１０２に対する応答としてユーザに伝えることができる。感情表出３１０は、ユーザからのより多くの感情表出を誘い出すことができ、したがってもう１つの感性的インタラクション会話が開始する可能性がある。

インタラクティブ文脈分析部３４０は、インタラクティブ文脈３４４を取得することができる。インタラクティブ文脈３４４はインタラクティブ文脈情報であってもよく、インタラクティブ文脈情報に対応するインタラクティブ文脈に含まれている感情状態及び感情意図を含む。一部の実施例において、インタラクティブ文脈３４４は、感性的インタラクション会話における過去の感性的インタラクション及び感情状態の、任意の履歴データであってもよく、インタラクションの履歴データに対する記録及び検索に関わることができる。なお、履歴データに対して検索及び分析を行うことによってインタラクティブ文脈３４４を取得することができる。

分野知識データベース３５０は、分野知識データ３５２を提供することができる。分野知識データベース３５０は、検索並びに推理すること又はクエリ方法によって分野知識データ３５２を記述する知識モデルに基づいて実現されることができる。分野知識データ３５２は、特定のビジネス分野（例えば、通信分野、金融分野、電子政務分野、電子コマース分野、日常生活分野、スマートホーム分野、スマート交通分野など）におけるビジネスロジックのような、専門領域における有効知識の集合を指すことができる。分野知識データは、１つの標準問と、表現方式が異なるが語義が同一である１つ又は複数の拡張問を含むことができるとともに、標準問及び１つ又は複数の拡張問に対応する回答を更に含むことができる。そこで、分野知識データは、分野知識データにおける質問又は情報を検索することによって、任意の具体的な質問の答え又は専門領域における不確定の情報を見つけることができる。つまり、感性的インタラクションシステムは分野知識データによりサポートされて、専門分野における用語や論点をよりうまく理解することができる。

インタラクティブ文脈を受信するステップ（１１０２）と、感情関連データを受信するステップ（１１０４）と、場面内容を受信するステップ（１１０６）と、を含むプロセスによって複数の入力パラメータを受信したあと、ユーザ意図計算ユニット（例えば、図３Ａ及び３Ｃによるユーザ意図計算ユニット２０６）は、インタラクションシーケンスを分析するステップ（１１０８）と、焦点を抽出するステップ（１１１０）と、語義情報を抽出するステップ（１１１２）と、を行うことができる。ここで、複数の可能な感情が存在する場合、インタラクションシーケンスを分析する（１１０８）ためには、プロセッサーはユーザの感情関連データのシーケンスを分析する。現在のインタラクション会話において、複数の操作又は意図が表現されることができる可能性がある。各意図の意味は、意図の並び順番によって異なるように理解される可能性がある。ここで、プロセッサーは、現在のインタラクション会話に含まれている感情関連データに基づいて、当該会話における後期の意図トレンドを予測することができる。同様に、プロセッサーは、過去のインタラクション会話の履歴データに基づいて、新しいインタラクション会話における意図トレンドを予測することができる。こうすることによって、可能な正しい意図の範囲が局限され、したがってプロセッサーがより早く意図を認識することができる。

Claims

ユーザ意図計算ユニットを備える感性的インタラクション計算モジュールを備え、
前記ユーザ意図計算ユニットは、感情関連データ及びユーザの感情状態を受信し、前記感情関連データ及び前記感情状態に基づいてユーザ意図を認識し、
前記ユーザ意図は感情意図及び／又はインタラクション意図を含み、前記感情意図は前記感情状態に対応し且つ前記感情状態の感情ニーズを含み、前記インタラクション意図は１つ又は複数のトランザクション意図を含む
ことを特徴とする感性的インタラクション装置。
前記感情意図は、
前記感情状態の感情ニーズと、
前記インタラクション意図と前記感情ニーズとの関係と、を更に含む
ことを特徴とする請求項１に記載の感性的インタラクション装置。
前記ユーザ意図計算ユニットは、
インタラクティブ文脈情報を受信し、
前記感情関連データの時間シーケンスを取得し、
前記時間シーケンス、前記感情状態及び前記インタラクティブ文脈情報に基づいて、前記ユーザ意図を認識し、
前記インタラクティブ文脈情報は、前記インタラクティブ文脈情報に対応するインタラクティブ文脈における感情状態及びユーザ意図を含む
ことを特徴とする請求項１に記載の感性的インタラクション装置。
ユーザ意図計算ユニットは、
前記感情関連データ、前記感情状態及びインタラクティブ文脈情報に基づいて、ベイジアンネットワークを用いて前記ユーザ意図を認識するか、又は、
前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報を、感情語義データベースにおける予め設定されたユーザ意図にマッチングすることによって、前記ユーザ意図を認識するか、又は、
前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報に基づいて、１つ又は複数のユーザ意図を含んでいる意図ライブラリにおいて検索することによって、前記ユーザ意図を認識し、
前記インタラクティブ文脈情報は、前記インタラクティブ文脈情報に対応するインタラクティブ文脈における感情状態及びユーザ意図を含む
ことを特徴とする請求項１に記載の感性的インタラクション装置。
前記感性的インタラクション計算モジュールは、前記ユーザ意図計算ユニットに接続される感情戦略形成ユニットを更に備え、
前記感情戦略形成ユニットは、前記感情状態及び前記ユーザ意図に基づいて感性的命令を生成し、
前記感性的命令は実行可能な指令を含み、
前記実行可能な指令は、前記ユーザ意図に対応する１つ又は複数のモダリティによって感情表出を生成するために用いられる
ことを特徴とする請求項１に記載の感性的インタラクション装置。
前記感情戦略形成ユニットは、
以前の感性的インタラクション会話において生成された他の１つの感性的命令が既に遂行された場合、前記感情状態及び前記ユーザ意図に基づいて前記感性的命令を生成するか、又は、
前記感情状態の変化が予め設定された閾値を超えた場合、動的に変化した前記感情状態に対応する前記ユーザ意図に基づいて前記感性的命令を生成するか、又は、
前記感情状態が動的に変化している場合、予め設定された時間間隔内の前記感情状態に基づいて前記感性的命令を生成する
ことを特徴とする請求項５に記載の感性的インタラクション装置。
前記感性的命令は、
前記ユーザに対して表される前記感情表出の感情モダリティと、前記ユーザに対して表される前記感情表出の出力感情状態と、前記ユーザに対して表される前記感情表出の感情強度と、のうちの少なくとも１つを更に含み、
前記感情モダリティは、前記ユーザのデータの１つ又は複数のモダリティによって決められる
ことを特徴とする請求項５に記載の感性的インタラクション装置。
感性的インタラクション計算モジュールに接続されるマルチチャンネルフロントエンド端末と、前記感性的インタラクション計算モジュールにおける感情認識部と、を更に備え、
前記マルチチャンネルフロントエンド端末はデータ収集部を備え、前記データ収集部は前記ユーザから前記感情関連データを受信し、
前記感情認識部は前記データ収集部と前記ユーザ意図計算ユニットとのそれぞれに接続されて、前記感情関連データを受信し、前記感情関連データに基づいて前記感情状態を認識する
ことを特徴とする請求項１に記載の感性的インタラクション装置。
ユーザからの感情関連データ及び感情状態をユーザ意図計算ユニットによって受信するステップと、
前記感情関連データ及び前記感情状態に基づいてユーザ意図を認識するステップと、を含み、
前記ユーザ意図は感情意図及び／又はインタラクション意図を含み、
前記感情意図は前記感情状態に対応し且つ前記感情状態に対応する感情ニーズを含み、
前記インタラクション意図は１つ又は複数のトランザクション意図を含む
ことを特徴とする感性的インタラクション方法。
前記感情意図は、
前記感情状態の前記感情ニーズと、
前記インタラクション意図と前記感情ニーズとの関係と、を更に含む
ことを特徴とする請求項９に記載の方法。
インタラクティブ文脈情報を受信するステップと、
前記感情関連データの時間シーケンスを取得するステップと、
前記時間シーケンス、前記感情状態及び前記インタラクティブ文脈情報に基づいて前記ユーザ意図を認識するステップと、を更に含み、
前記インタラクティブ文脈情報は、前記インタラクティブ文脈情報に対応するインタラクティブ文脈における感情状態及びユーザ意図を含む
ことを特徴とする請求項９に記載の方法。
前記感情関連データ、前記感情状態及びインタラクティブ文脈情報に基づいて、ベイジアンネットワークを用いて前記ユーザ意図を認識するステップ、又は
前記感情関連データ、前記感情状態及び前記インタラクティブ文脈を、感情語義データベースにおける予め設定されたユーザ意図にマッチングすることによって、前記ユーザ意図を認識するステップ、又は
前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報に基づいて、１つ又は複数のユーザ意図を含んでいる意図ライブラリにおいて検索することによって前記ユーザ意図を認識するステップ、を更に含み、
前記インタラクティブ文脈情報は、前記インタラクティブ文脈情報に対応するインタラクティブ文脈における感情状態及びユーザ意図を含む
ことを特徴とする請求項９に記載の方法。
前記感情状態及び前記ユーザ意図に基づいて、前記ユーザ意図計算ユニットに接続される感情戦略形成ユニットによって、感性的命令を生成するステップ、を更に含み、
前記感性的命令は実行可能な指令を含み、
前記実行可能な指令は、前記ユーザ意図に対応する１つ又は複数のモダリティによって感情表出を生成することを指示する
ことを特徴とする請求項９に記載の方法。
前記感性的命令を生成する前記ステップは、
以前の感性的インタラクション会話において生成された他の１つの感性的命令が既に遂行された場合、前記感情状態及び前記ユーザ意図に基づいて前記感性的命令を生成するステップ、又は、
前記感情状態の変化が予め設定された閾値を超えた場合、動的に変化した前記感情状態に対応する前記ユーザ意図に基づいて前記感性的命令を生成するステップ、又は、
前記感情状態が動的に変化している場合、予め設定された時間間隔内の前記感情状態に基づいて前記感性的命令を生成するステップ、を含む
ことを特徴とする請求項１３に記載の方法。
前記感性的命令は、
前記ユーザに対して表される前記感情表出の感情モダリティと、前記ユーザに対して表される前記感情表出の出力感情状態と、前記ユーザに対して表される前記感情表出の感情強度と、のうちの少なくとも１つを更に含み、
前記感情モダリティは、前記ユーザのデータの１つ又は複数のモダリティによって決められる
ことを特徴とする請求項１３に記載の方法。
前記ユーザ意図を認識する前記ステップは、
１つの感性的インタラクション会話において先に認識された意図に基づいて将来のインタラクション意図及び／又は将来の感情意図のトレンドを予測するか、又は過去の感性的インタラクション会話の履歴データに基づいて感性的インタラクション会話におけるインタラクション意図及び／又は感情意図のトレンドを予測するために、インタラクションシーケンスを分析するステップと、
前記感情関連データにおける情報の重みを確定して最大重みを有する情報を抽出するために、前記感情関連データから注目される焦点を抽出するステップと、
語義規則に基づいて語義情報を抽出して感情関連データの語義を取得するステップと、を含む
ことを特徴とする請求項９に記載の方法。
感性的インタラクション計算モジュールを備え、
前記感性的インタラクション計算モジュールは、ユーザ意図計算ユニットと、前記ユーザ意図計算ユニットに接続される感情戦略形成ユニットと、を備え、
前記ユーザ意図計算ユニットは、感情関連データ及びユーザの感情状態を受信し、前記感情関連データ及び前記感情状態に基づいてユーザ意図を認識し、
前記ユーザ意図は感情意図及び／又はインタラクション意図を含み、前記感情意図は前記感情状態に対応し且つ前記感情状態の感情ニーズを含み、前記インタラクション意図は１つ又は複数のトランザクション意図を含み、
前記感情戦略形成ユニットは、前記感情状態及び前記ユーザ意図に基づいて感性的命令を生成し、
前記感性的命令は実行可能な指令を含み、前記実行可能な指令は、前記ユーザ意図に対応する１つ又は複数のモダリティによって感情表出を生成するために用いられる
ことを特徴とする感性的インタラクションシステム。
データ収集部を備えるマルチチャンネルフロントエンド端末と、前記感性的インタラクション計算モジュールにおける感情認識部と、を更に備え、
前記データ収集部は、前記ユーザから１つ又は複数のモダリティを有する前記感情関連データを捕獲し、
前記感情認識部は前記データ収集部に接続され、前記感情関連データを受信し、さらに前記感情関連データに基づいて感情状態を認識し、
感情状態は離散的な感情分類及び／又は次元における感情数値を含む
ことを特徴とする請求項１７に記載の感性的インタラクションシステム。
前記マルチチャンネルフロントエンド端末は、前記感情戦略形成ユニットに接続される感情計算表出生成部を更に備え、
前記感情計算表出生成部は、前記感性的命令に基づいて前記感情表出を生成し、さらに生成した前記感情表出を前記ユーザに伝える
ことを特徴とする請求項１８に記載の感性的インタラクションシステム。
前記ユーザ意図計算ユニットに接続されて場面内容を提供する場面内容分析部と、
前記ユーザ意図計算ユニットに接続されてインタラクティブ文脈情報を提供するインタラクティブ文脈分析部と、
前記ユーザ意図計算ユニットに接続され、前記ユーザ意図計算ユニットが前記ユーザからの入力の意味を理解するよう、語義データを提供する語義データベースと、
前記ユーザ意図計算ユニットに接続され、前記ユーザとインタラクション会話を行うときに前記ユーザ意図計算ユニットが基本的な事実情報を理解するよう、一般知識データを提供する一般知識データベースと、
前記ユーザ意図計算ユニットに接続され、特定のビジネス分野のビジネスロジックを含んだ分野知識データを提供する分野知識データベースと、を更に備え、
前記場面内容は、感性的インタラクションが発生する場面に関する情報を含み、
前記インタラクティブ文脈情報は、前記インタラクティブ文脈情報に対応するインタラクティブ文脈における感情状態及びユーザ意図を含み、
前記ユーザ意図計算ユニットは、前記場面内容と、前記インタラクティブ文脈情報と、前記語義データと、前記一般知識データと、前記分野知識データとのうちの少なくとも１つに基づいて、ユーザ意図を認識する
ことを特徴とする請求項１７に記載の感性的インタラクションシステム。