JP2018014094A

JP2018014094A - 仮想ロボットのインタラクション方法、システム及びロボット

Info

Publication number: JP2018014094A
Application number: JP2017133166A
Authority: JP
Inventors: ナンチユウ; Nan Qiu; ハオフエンワン; Haofen Wang
Original assignee: Shenzhen Gowild Robotics Co Ltd
Current assignee: Shenzhen Gowild Robotics Co Ltd
Priority date: 2016-07-07
Filing date: 2017-07-06
Publication date: 2018-01-25
Also published as: CN106663127A; WO2018006375A1

Abstract

【課題】ロボットインタラクション内容の擬人性、インテリジェント性を高めることができ、娯楽性の向上を可能とする仮想ロボットのインスタラクション方法を提供する。【解決手段】ユーザのマルチモード情報を取得し、マルチモード情報の前処理及びユーザ意図を識別し、マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートを選択し、デフォルトルールによって内容情報と生成テンプレートを組み合わせた後にインタラクション内容を生成し、インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想３Ｄ映像を生成し、ロボットからのインタラクション内容に基づいて評価情報を生成する。【選択図】図１

Description

本発明はロボットインタラクション技術分野に関し、特には仮想ロボットのインタラクション方法、システム及びロボット本体に関する。

チップ計算能力の上昇、センサー技術の発展及アルゴリズム分野に遂げた新たな業績に伴い、人類が生活の質に対する要求も次第に高くなってきた。人類の生産活動のアシスタント、それに日常生活の使用人として、ロボットを使用する場面はますます広まっており、例えば老人、子供が孤独を感じる場合には、ロボットとの対話、娯楽などのインタラクションが可能になり、ロボットが人類の生活にどんな役割を果たしているかにかかわらず、マンマシンインタラクションの順調な進行もロボットが仕事を完成する基礎となっている。

マンマシンインタラクションプロセスにおいて、人類がディスプレイによる入力を用いてもよく、音声、手振りなどの形式でインタラクション内容を入力してもよいが、ロボットがユーザのマルチモードな入力に対する完全な収集及び人類意図に対する理解はロボットが後で返信する基礎となるものである。その次、ロボットはユーザの意図を理解する上に、ユーザへの返信及び実行すべき命令を「決定する」必要がある。

ユーザがマンマシンインタラクション体験を向上させるために、ロボットは簡単な対話機能を備える必要があるだけではなく、なお詩作、作曲、物語を作る、挨拶を率先するなどの高級な機能を備えることも必要となってきた。従来のロボットはマンマシンインタラクションプロセスにおいて、ユーザの深いレベルの需要を感知できないため、機械的にユーザを返事することは多い、例えば、ロボットが一対一の「質問−回答ライブラリ」を検索してユーザの質問を答える形式においては、ロボットが例えばユーザがへこんでいる時に慰める言葉をすることのように、ユーザの表情に基づいてユーザの気持ちを判断する上に相応の回答で返事できなく、ただユーザの単一な入力を受信できるが、ほかのタイプの入力に対して反応できない。

本発明の目的は、仮想ロボットのインタラクション方法、システム及びロボット本体を提供することであって、ロボットはもっと多く、より擬人化のインタラクションを提供できるようになり、ユーザの体験を向上させることも可能となった。

本発明の目的は下記技術様態で実現される：
仮想ロボットのインタラクション方法は、
ユーザのマルチモード情報の取得、
マルチモード情報の前処理とユーザ意図の識別、
前記マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートの選択、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容の生成、
インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想３Ｄ映像の生成、
ロボットの前記インタラクション内容に基づく評価内容の生成を含む、ことを特徴とする。

本発明は、
ユーザのマルチモード情報を取得する取得モジュール、
前記マルチモード情報を前処理し、ユーザ意図を識別する意図識別モジュール、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択する処理モジュール、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成する生成モジュール、
インタラクション内容をイメージングシステムに送信し、イメージングシステムはそれに基づいて仮想３Ｄ映像を生成する送信モジュール、
ロボットは前記インタラクション内容に基づいて評価情報を生成する評価モジュールを含む、ことを特徴とする仮想ロボットのインタラクションシステムを開示する。

本発明は、上記のいずれかの仮想ロボットのインタラクションシステムを含むことを特徴とするロボット本体を開示する。

本発明は、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、意図識別プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ、メモリを含み、
前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記意図識別プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記意図識別プロセッサは順次に接続され、前記意図識別プロセッサは前記インタラクション内容プロセッサと接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記音声合成装置、前記パワーアンプと前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
前記マイクはユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータは前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサへの入力に用い、
前記画像取得装置はユーザを含む画像の取得に用い、前記顔認識プロセッサはユーザを含む画像からユーザの表情情報を識別し取得して前記意図識別プロセッサへの入力に用い、
前記意図識別プロセッサは前記文字情報と表情情報に基づくユーザ意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報と前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成し、前記インタラクション内容と評価情報をメモリに記憶することに用い、
前記イメージングシステムは前記インタラクション内容に基づいて仮想３Ｄ映像を生成し、スピーカーがインタラクション内容に基づいて音声信号を再生する、ことを特徴とする仮想ロボットのインタラクションシステム。

好ましくは、前記センサーがユーザの複数の生理信号を取得し、信号プリプロセッサによって前記生理信号を前処理した後に生理パラメータを得、且つ前記生理パラメータを意図識別プロセッサに送信することに用いる複数のセンサーを含み、
前記意図識別プロセッサは前記文字情報、前記表情情報と前記生理パラメータに基づくユーザ意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報、前記生理パラメータ及び前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶することに用いる、ことを特徴する請求項１２に記載のインタラクションシステム。

好ましくは、前記インタラクション内容プロセッサと接続される無線通信装置を含み、前記インタラクション内容プロセッサはまたインタラクション内容を移動端末に送信し、前記移動端末がインタラクション内容によって画像、音声、文字の一種や多種類を生成し、且つ表示することに用いる。

好ましくは、前記システムはまたユーザの前記移動端末によって返事するインタラクション内容に対する評価を受信し、且つユーザの評価を前記メモリに対応するインタラクション内容カタログに記録する。

好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して作画する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記作画意図に基づいて画像情報を生成して画像スタイルテンプレートを選択し、選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と前記評価情報を前記メモリに記憶する。

好ましくは、前記画像情報はロボットデータベースやユーザギャラリーで取得される。

好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して作曲する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記作曲意図に基づいて作曲スタイルテンプレートと作曲内容を選択し、前記作曲スタイルテンプレートと前記作曲内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する。

好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して詩作する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記詩作意図に基づいて詩作スタイルテンプレートと詩作内容を選択し、前記詩作スタイルテンプレートと前記詩作内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する。

好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して朗読する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記朗読意図に基づいて朗読内容と朗読背景を選択し、前記朗読内容と前記朗読背景に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する。

従来のマンマシンインタラクション技術がマシン顧客サービスシステムに用いられることは多いが、そういう顧客サービスシステムは特定の場面しか働きなく、且つ特定の範囲内の質問だけについて解答する原因で、広い適応性はない、その他、今まで人類の日常生活を補助するためのロボットが、ユーザの意図を考えないことは多く、例えば、ユーザから「天気が熱くて、手で扇風する動作をする」という内容を入力すると、市販のロボットはユーザの意図を識別する上に、ユーザにエアコンをつけるアドバイスを出す、またはユーザのために、直接エアコンをつけることはできない。

従来技術と比べると、本発明は、提供する仮想ロボットのインタラクション方法がユーザのマルチモード情報の取得、前記マルチモード情報の前処理及びユーザ意図の識別、前記マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートの選択、デフォルトルールによって前記内容情報と生成テンプレートを組み合わせた後にインタラクション内容の生成、インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想３Ｄ映像の生成、ロボットからの前記インタラクション内容に基づく評価情報の生成を含むという利点を有する。そうすることでは、ユーザがマルチモードの情報によってユーザのどんな返事がほしいかという意図を確定でき、その後マルチモード情報とユーザ意図に基づいて内容情報と生成テンプレートを含む返事内容の細目を査問し、収集終了後に、前記内容情報と生成テンプレートを組み合わせてインタラクション内容を生成し、その後イメージングシステムに送信し、イメージングシステムはインタラクション内容に基づいて仮想３Ｄ映像を生成することで表示し、ユーザに答え、それによりロボットはより擬人化に人類と対話することができ、該方法は生成したロボットインタラクション内容の擬人性、及びマンマシンインタラクション体験を向上させ、インテリジェント性を高めることが可能であり、且つロボットが生成したインタラクション内容について、採点などの評価をすることで、娯楽性とユーザの体験を向上させることが期待される。

本発明はロボットがユーザと対話するプロセスにおいて、ユーザのマルチモードの入力を完全に収集でき、それを分析してユーザの意図を取得し、次にユーザのマルチモード入力とユーザ意図を結合して返事する内容情報と生成テンプレートを確定し、それによりロボットの返事を生成することができ、本発明の前記ロボットは文字、音声、表情、動作などのさまざまな手段でユーザに返事することができるため、マンマシンインタラクションの手段とチャンネルを完備させ、ロボットがより擬人化に人類と対話できるようになった。異なる場面、時間またはユーザの気持ちが異なる際には、ユーザが話した同じ言葉でも違っている意味をもち、まったく反対となる二種類の意図を表す可能性もあるとしても、従来のマンマシンインタラクション技術はユーザの意図を識別できない故で、同じ言葉に含まれる異なる意図を区別することができなく、字義通りに事前に設定した「質問−回答ライブラリ」に回答を探してから、機械的に返事することしかできない状況と比べ、本発明のロボットはユーザの音声、表情、動作などの情報に対する総合的分析によって、ロボットがユーザの意図に対する理解と把握を深め、ロボットは異なる場面やユーザの異なる気持ちなどに基づいて最もユーザの意図と一致する回答と動作を返事できるようになり、ロボットのユーザに対する回答の正確性を向上させ、それでユーザのマンマシンインタラクション体験を改善し、ユーザはロボットの実用性と擬人性をもっと認可できるようになった。

図１は本発明実施例１の仮想ロボットのインタラクション方法の流れを示すフロー図である。図２は本発明実施例２の仮想ロボットのインタラクションシステムを示す図である。図３は本発明実施例３の仮想ロボットのインタラクションシステムの回路を示すブロック図である。図４は本発明実施例３の仮想ロボットのインタラクションシステムの好ましい回路を示すブロック図である。図５は本発明実施例３で仮想ロボットのインタラクションシステムをウェアラブルデバイスと結合することを示す図である。図６は本発明の実施例３で仮想ロボットのインタラクションシステムを移動端末と結合することを示す図である。図７は本発明の実施例３の仮想ロボットのインタラクションを応用する場面を示す図である。

フロー図で各操作を順序に処理するように説明したが、その中に多くの操作は並列、合併又は同時に実行できるものである。各操作の順序を改めて配置してもよい。操作を完成した時には処理を中止できるが、図面に含まず追加ステップを有してもよい。該処理は方法、関数、規則、サブルーチン、サブプログラムなどに対応可能である。

コンピュータデバイスはユーザデバイスとネットワークデバイスを含む。ここにおいて、ユーザデバイスやクライアントはコンピュータ、スマートフォン、PDAなどを含むがそれらには限定されなく、ネットワークデバイスはシングルネットワークサーバー、マルチネットワークサーバーからなるサーバーグループ又はクラウドコンピューティングに基づいて数多いコンピュータやネットワークサーバーで構成されるクラウドを含むがそれらには限定されない。コンピュータデバイスは独立運行で本発明を実現してもよく、ネットワークにアクセスし且つそこにおける他のコンピュータデバイスとのインタラクション操作で本発明を実現してもよい。コンピュータデバイスが位置するネットワークはインターネット、広域ネットワーク、メトロポリタンエリアネットワーク、ローカルエリアネットワーク、VPNネットワークなどを含むがそれらには限定されない。

ここで、「第一」、「第二」などの専門用語で各ユニットを説明したかもしれないが、これらのユニットは当該専門用語に限られなく、これらの専門用語の使用はただ一つのユニットを別のユニットと区別するためだけである。ここで用いる専門用語「及び／又は」は列挙した一つや複数の関連プロジェクトの任意と全部の組み合わせを含む。一つのユニットがもう一つのユニットに「接続」や「結合」と定義された時には、それが前記もう一つのユニットに直接的接続や結合されてもよいが、中間ユニットに存在してもよい。

ここで使用する専門用語はただ具体的な実施例を説明するためだけであるが例示的実施例を限定しない。テクストで別に明示されたもの以外に、ここで使用した単数形「一つ」、「一項」はまた複数を含むことを図っている。なお理解すべきなのは、ここで使用した「含む」及び／又は「含有する」という専門用語が説明する特徴、整数、ステップ、操作、ユニット及び／又はモジュールの存在を規定するが、一つや更に多い他の特徴、整数、ステップ、操作、ユニット、モジュール及び／又は組み合わせの存在や追加を排除するわけではない。

下記、図面と優れた実施例を結合して本発明についてもっと詳細に説明する。

実施例１
図１に示すように、本実施例は仮想ロボットのインタラクション方法を開示し、それは、
ユーザのマルチモード情報を取得するステップS101、
前記マルチモード情報を前処理し、ユーザ意図を識別するステップS102、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップS103、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップS104、
インタラクション内容をイメージングシステムに送信し、イメージングシステムはそれに基づいて仮想３Ｄ映像を生成するステップS105、
ロボットは前記インタラクション内容に基づいて評価情報を生成するステップS106を含む。

そうすることでは、ユーザのマルチモード情報（画像、音声、文字、スマートフォン端末など）によってユーザのどんな返事がほしいかという意図を確定し、その後マルチモード情報とユーザ意図に基づいて内容情報と生成テンプレートを含む返事内容の細目を査問でき、収集終了後に、前記内容情報と生成テンプレートを組み合わせてインタラクション内容を生成し、その後イメージングシステムに送信し、イメージングシステムはインタラクション内容に基づいて仮想３Ｄ映像を生成することで表示し、ユーザに答え、それによりロボットがより擬人化に人類と対話でき、該方法は生成したロボットインタラクション内容の擬人性、及びマンマシンインタラクション体験を向上させ、インテリジェント性を高めることが可能であり、且つロボットが生成したインタラクション内容について、採点などの評価をすることで、娯楽性とユーザの体験を向上させることが期待される。

本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。ユーザの音声情報は音声取得装置によって取得できる。ビデオカメラによってユーザがいる場面の画像を取得し、それを分析してユーザの表情情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報などを取得できる。光センサーによって場面にある光感知情報を取得できる。虹彩認識装置によってユーザの虹彩情報を取得、指紋取得装置によってユーザの指紋情報を取得できる。

本実施例における方法は作画、作曲、詩作、物語の朗読、小説の朗読などの異なる機能に応用できる。

その中の一つの実施例によっては、インタラクション内容を生成するステップに続いてまた、インタラクション内容を移動端末に送信し、移動端末がそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することを含む。

そうすることでは、ユーザが移動端末でもインタラクション内容をチェックでき、ユーザがさらに多い手段でロボットのフィードバックと返事を受信できるようになった。その中の一つの実施例によっては、インタラクション内容をイメージングシステムと移動端末に送信するステップに続いてまた、ユーザがインタラクション内容に対する評価を取得し、且つユーザの評価を相応のインタラクション内容カタログに記憶することを含む。

そうすることではユーザが、使用体験、点数などの該機能に対する評価をチェックしやすくなり、それでユーザが自分自身に適する機能を選択して使用する便利性も向上した。

本実施例においては、マンマシンインタラクションをもっと詳細に説明するために、前記マルチモード情報を前処理し、ユーザ意図を識別するステップは具体的に、マルチモード情報を前処理し、ユーザがロボットを制御して作画する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップはマルチモード情報とユーザ意図に基づいて画像情報を生成して画像スタイルテンプレートを選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション情報を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３Ｄ映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作画動作の３Ｄ映像を生成し、対応の音声を追加することを含む。

そうすることでは、ロボットが作画、それに動作と画像を表示することが可能になり、ユーザの体験を高めた。

ここにおいて、前記画像情報はロボットのデータベースやユーザギャラリーで取得される。そうすることでは、ユーザが撮る写真や自撮りした写真をロボットに送信し、それが写真に従って作画させることが可能になった。

本実施例でより詳細に説明したロボットのインタラクション方法においては、前記マルチモード情報を前処理し、ユーザ意図を識別するステップはまたマルチモード情報を前処理し、ユーザがロボットを制御して作曲する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップはマルチモード情報とユーザ意図に基づいて作曲スタイルテンプレートと作曲内容を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは前記作曲スタイルテンプレートと作曲内容に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３Ｄ映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作曲動作の３Ｄ映像を生成し、対応の音声を追加することを含む。

そうすることでは、ロボットが作曲できるようになった、例えば、ユーザがいくつかの小唄を歌った後、ロボットはこの小唄と作曲スタイルテンプレートを組み合わせるなどをして、新たな小唄を生成することで、ユーザが歌ったものを継続することが可能となった。

本実施例でより詳細に説明したロボットのインタラクション方法においては、前記マルチモード情報を前処理し、ユーザ意図を識別するステップはまた、前記マルチモード情報を前処理し、ユーザがロボットを制御して詩作する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップはマルチモード情報とユーザ意図に基づいて詩作スタイルテンプレートと詩作内容を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは前記詩作スタイルテンプレートと詩作内容に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて詩作音声を生成した後、詩作動作の３Ｄ映像を追加することを含む。

そうすることでは、ロボットが詩作できるようになった、例えば、ユーザが一句の詩を読んだ後、ロボットはこの詩によって、詩作テンプレートを結合して、もう一句の詩を作り、ユーザに返事でき、また詩を読む動作を追加可能で、もっと擬人化で生き生きとなった。

本実施例でより詳細に説明したロボットのインタラクション方法においては、前記マルチモード情報を前処理し、ユーザ意図を識別するステップはまた、前記マルチモード情報を前処理し、ユーザがロボットを制御して朗読する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて朗読内容と朗読背景を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後インタラクション内容を生成するステップは、朗読内容と朗読背景に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３Ｄ映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて朗読音声を生成し、且つ朗読動作の３Ｄ映像を追加することを含む。

そうすることでは、ロボットがユーザの意図に基づいて一冊の小説や物語を選択して朗読でき、それでロボットがもっとインテリジェント化にユーザと対話できるなっており、ユーザの体験度を向上させた。

実施形態２
図２に示すように、本実施例は、
ユーザのマルチモード情報を取得する取得モジュール２０１、
前記マルチモード情報を前処理し、ユーザ意図を識別する意図識別モジュール２０２、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択する処理モジュール２０３、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成する生成モジュール２０４、
インタラクション内容をイメージングシステムに送信し、イメージングシステムはそれに基づいて仮想３Ｄ映像を生成する送信モジュール２０５、
ロボットは前記インタラクション内容に基づいて評価情報を生成するための評価モジュール２０６を含む。

そうすることでは、ユーザのマルチモード情報によってユーザのどんな返事がほしいかという意図を確定し、その後マルチモード情報とユーザ意図に基づいて内容情報と生成テンプレートを含む返事内容の細目を査問でき、収集し終わった後、前記内容情報と生成テンプレートを組み合わせてインタラクション内容を生成し、その後イメージングシステムに送信し、イメージングシステムがインタラクション内容に基づいて仮想３Ｄ映像を生成することで表示し、ユーザに答え、それによりロボットはより擬人化に人類と対話でき、該方法は生成したロボットインタラクション内容の擬人性、及びマンマシンインタラクション体験を向上させ、インテリジェント性を高めることが可能になり、且つロボットが生成したインタラクション内容について、採点などの評価をすることで、娯楽性とユーザの体験を向上させることは期待される。

本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。

本実施例における方法は作画、作曲、詩作、物語の朗読、小説の朗読など異なる機能に応用できる。

その中における一つの実施例によっては、前記送信モジュールはまたインタラクション内容を移動端末に送信し、前記移動端末はそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することに用いる。

そうすることでは、ユーザが移動端末でもインタラクション内容をチェックでき、ユーザがさらに多い手段でロボットのフィードバックと返事を受信できるようになった。
その中における一つの実施例によっては、前記評価モジュールはまたユーザがインタラクション内容に対する評価を取得し、且つユーザの評価を相応のインタラクション内容カタログに記憶することに用いる。

本実施例において、ロボットのインタラクションをより詳細に説明するために、意図識別モジュールはまたマルチモード情報を前処理し、ユーザがロボットを制御して作画する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて画像情報を生成して画像スタイルテンプレートを選択することに用い、
前記生成モジュールが選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて作画動作の３Ｄ映像を生成し、且つ対応の音声の追加に用いる。

本実施例でより詳細に説明したロボットのインタラクション方法においては、意図識別モジュールはマルチモード情報を前処理し、ユーザがロボットを制御して作曲する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて作曲スタイルテンプレートと作曲内容を選択することに用い、
前記生成モジュールが選択した作曲スタイルテンプレートと作曲内容によってインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて作曲動作の３Ｄ映像を生成し、且つ対応の音声を追加することに用いる。

そうすることでは、ロボットが作曲できるようになった、例えば、ユーザがいくつかの小唄を歌った後、ロボットはこの小唄と作曲スタイルテンプレートを組み合わせるなどをして新たな小唄を生成することで、ユーザが歌ったものを継続する。

本実施例でより詳細に説明したロボットのインタラクション方法においては、前記意図識別モジュールは、前記マルチモード情報を前処理し、ユーザがロボットを制御して詩作する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて詩作スタイルテンプレートと詩作内容を選択することに用い、
前記生成モジュールは選択された詩作スタイルテンプレートと詩作内容によってインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて詩作音声を生成し、且つ詩作動作の３Ｄ映像を追加することに用いる。

本実施例でより詳細に説明したロボットのインタラクション方法においては、前記意図識別モジュールは、前記マルチモード情報を前処理し、ユーザがロボットを制御して朗読する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて朗読内容と朗読背景を選択することに用い、
前記生成モジュールは朗読内容と朗読背景によってインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて朗読音声を生成し、且つ朗読動作の３Ｄ映像を追加することに用いる。

本発明は、上記のいずれかに記載の仮想ロボットのインタラクションシステムを含むことを特徴とするロボット本体を開示する。

実施形態３
図３に示すように、本実施例はマイク３０１、アナログデジタルコンバータ３０２、音声識別プロセッサ３０３、画像取得装置３０４、顔認識プロセッサ３０５、意図識別プロセッサ３０６、音声合成装置３０７、パワーアンプ３０８、スピーカー３０９、イメージングシステム３１０、インタラクション内容プロセッサ３１１、メモリ３１２を含む仮想ロボットのインタラクションシステム３００を開示する。

前記マイク３０１、アナログデジタルコンバータ３０２、音声識別プロセッサ３０３と意図識別プロセッサ３０６は順次に接続され、前記画像取得装置３０４、顔認識プロセッサ３０５と意図識別プロセッサ３０６は順次に接続され、前記意図識別プロセッサ３０６はインタラクション内容プロセッサ３１１と接続され、前記インタラクション内容プロセッサ３１１はメモリ３１２と接続され、前記音声合成装置３０７、パワーアンプ３０８とスピーカー３０９は順次に接続され、前記イメージングシステム３１０はインタラクション内容プロセッサ３１１と接続される。

前記マイク３０１はユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータ３０２は前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサ３０３は前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサ３０６への入力に用いる。

前記画像取得装置３０４はユーザがいる画像の取得に用い、前記顔認識プロセッサ３０５はユーザを含む画像からユーザの表情情報を識別し取得して前記意図識別プロセッサ３０６への入力に用いる。画像取得装置３０４はビデオカメラ、カメラなどであってもよく、ユーザの表情情報のみならず、またユーザがいる環境、ユーザの動作情報なども識別でき、これらの情報は意図識別プロセッサ３０６への入力としてもよく、それによりユーザ意図の識別の正確性を向上させることが図られる。

前記意図識別プロセッサ３０６は前記文字情報と表情情報に基づいてユーザ意図の識別に用いる。ユーザ意図を識別するステップは具体的に下記方法を含むがそれには限定されない：

（１）文字情報について単語を分割し、その結果によって各単語の品詞をマークし、それに基づいて前記文字情報におけるキーワードを抽出でき、該キーワードによってユーザ意図を識別すること。例えば：ユーザが入力した動詞（XXを開く、XXを再生するなど）を抽出し、ユーザがロボットに動作命令を出しているかどうかを確認する；ユーザが入力した名詞を抽出する、例えば「ヤオ・メイは身長がいくつか」という句に、「ヤオ・メイ」と「身長」からユーザがヤオ・メイの身長を聞いていることは分かられる；なお、文字情報には「作画」というキーワードが含まれる場合、ユーザが作画する意図を持つと判断できる。

（２）前記文字情報の疑問文、平叙文などの文型を分析し、それによってユーザの意図を識別すること。例えば：ユーザが入力した句読点や話しぶりに基づいて、ユーザがロボットに質問を出しているかどうかを分析する；またテンプレート技術を用い、文字情報を各種類の文型テンプレートと比較してどの文型に属するかを確定してもよい。

（３）ユーザの表情情報を結合し、心理学と表情学の研究成果によって人類の「表情−気持ち」対応関係を予めに形成してメモリに記憶し、取得したユーザの表情情報に基づき、「表情−気持ち」対応関係を結合してユーザの現時点における気持ちを得、後でユーザの現時点の気持ち情報によって適切な返事テンプレートを選択できること。

（４）また画像取得装置３０４でユーザの動作情報を取得し、ユーザの操作を追跡して、且つクラウドサーバーにおける動作分類装置を経由してユーザの動作が対応するユーザ動作意図を確定でき、後でユーザ動作意図に基づいて返事する内容情報を生成し、且つ適切な返事テンプレートを選択できること。

インタラクション内容プロセッサ３１１は前記文字情報、表情情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステム３１０とスピーカー３０９に送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリ３１２に記憶することに用いる。

前記イメージングシステム３１０は前記インタラクション内容に基づいて仮想３Ｄ映像を生成し、スピーカー３０９はインタラクション内容に基づいて音声信号を同期に再生する。

メモリ３１２はインタラクション内容プロセッサ３１１が操作する時に用いるデータの記憶に応用可能である。選択できるのは、インタラクション内容プロセッサ３１１はCPU（中央処理装置）、ASIC（Application Specific Integrated Circuit、特定用途向け集積回路）、FPGA（Field Programmable Gate Array、フィールドプログラマブルゲートアレイ）やCPLD（Complex Programmable Logic Device、コンプレックスプログラマブルロジックデバイス）としてもよい。

図４に示すように、意図識別プロセッサ３０６がユーザ意図を予測する正確性を向上させるためには、本実施例に開示したインタラクションシステム３００はまたユーザのいくつかの生理信号を取得し、信号プリプロセッサ３１４で前記生理信号を前処理した後に生理パラメータを得、且つ前記生理パラメータを意図識別プロセッサ３０６に送信することに用いる複数のセンサー３１３を含む。相応的には、意図識別プロセッサ３０６は前記文字情報、表情情報と生理パラメータに基づいてユーザ意図を識別することに用いる。インタラクション内容プロセッサ３１１は前記文字情報、表情情報、生理パラメータ及びユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステム３１０とスピーカー３０９に送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリ３１２に記憶することに用いる。

インタラクションシステム３００におけるセンサー３１３は、光センサー、虹彩認識センサー、指紋取得センサー、温度センサー、心拍数センサーなどを含むが、それには限定されなく、それにより、光感知情報、虹彩情報、指紋情報、体温情報、心拍数情報などにおける一種や多種類の生理情報を含むユーザのマルチモード情報を豊富にする。

下記はマイク３０１、画像取得装置３０４、センサー３１３が取得や出力する情報をマルチモード情報と総称する。

図５に示すように、一部のセンサー３１３は前記インタラクションシステム３００と一体に集積され、一部のセンサー３１３はウェアラブルデバイス４００に集積されてもよい。例えば、温度センサー、心拍数センサーがスマートリストバンドに集積でき、無線通信装置によって採集した情報を前記インタラクションシステム３００における前記意図識別プロセッサ３０６まで送信できる。図５はただインタラクションシステム３００における前記無線通信装置と意図識別プロセッサ３０６との接続関係だけを示すが、インタラクションシステム３００における他の接続関係は図３と図４に参照すればよい。

本実施例に開示したインタラクションシステムはまた無線通信装置３１４を含み、図６に示すように、無線通信装置３１４はインタラクション内容プロセッサ３１１と接続され、インタラクション内容プロセッサ３１１はまたインタラクション内容を移動端末５００に送信し、移動端末５００は該インタラクション内容によって画像、音声、文字の一種や多種類を生成し、且つ表示する。図６はただインタラクションシステム３００における前記無線通信装置とインタラクション内容プロセッサ３１１との接続関係だけを示すが、インタラクションシステム３００における他の接続関係は図３と図４に参照すればよい。

本実施例に開示したインタラクションシステム３００はまた移動端末５００で返事されたインタラクション内容に対するユーザ評価を受信し、且つユーザの評価をメモリ３１２に対応のインタラクション内容カタログに記憶することに用いる。

本実施例に開示した仮想ロボットのインタラクションシステム３００は、複数の面でロボットとユーザとの対話様態を豊富にさせ、ロボットはもっと擬人化に人類と対話できるようになり、該システムは生成したロボットインタラクション内容の擬人性及びマンマシンインタラクション体験を向上させ、それにインテリジェント性を高めることは可能になった。

例えば、本実施例のインタラクションシステム３００でロボットの作画意図を識別でき、それにより仮想ロボットは特定のスタイルを持つ絵を生成し、相応の作画動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。具体的な実現様態は、意図識別プロセッサー３０６がフロントエンドに取得された文字情報と表情情報に基づいてユーザがロボットを制御して作画する意図を識別し、インタラクション内容プロセッサ３１１が前記文字情報、表情情報及び作画意図によって画像情報を生成して画像スタイルテンプレートを選択し、且つ選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成し、それをイメージングシステム３１０とスピーカー３０９に送信し、前記インタラクション内容によって評価情報を生成し、且つ前記インタラクション内容と評価情報をメモリ３１２に記憶することとなる。

ここにおいて、画像情報はロボットのデータベースやユーザギャラリーで取得される。

例えば、本実施例のインタラクションシステム３００によってロボットの作曲意図を識別でき、それにより仮想ロボットはユーザの好みに従って曲を生成し、且つ作曲動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。具体的な実現様態は、意図識別プロセッサー３０６がフロントエンドに取得された文字情報と表情情報に基づいてユーザがロボットを制御して作曲する意図を識別し、インタラクション内容プロセッサ３１１が前記文字情報、表情情報及び作曲意図によって作曲スタイルテンプレートと作曲内容を選択し、且つ作曲スタイルテンプレートと作曲内容によってインタラクション内容を生成し、それをイメージングシステム３１０とスピーカー３０９に送信し、前記インタラクション内容によって評価情報を生成し、且つ前記インタラクション内容と評価情報をメモリ３１２に記憶することとなる。

例えば、本実施例のインタラクションシステム３００によってロボットの詩作意図を識別でき、それにより仮想ロボットはユーザの好みに従って詩を生成し、それを朗読し且つ相応の動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。具体的な実現様態は、意図識別プロセッサー３０６が文字情報と表情情報に基づいてユーザがロボットを制御して詩作する意図を識別し、インタラクション内容プロセッサ３１１が前記文字情報、表情情報及び詩作意図によって詩作スタイルテンプレートと詩作内容を選択し、且つ前記詩作スタイルテンプレートと詩作内容によってインタラクション内容を生成し、それをイメージングシステム３１０とスピーカー３０９に送信し、前記インタラクション内容によって評価情報を生成し、且つ前記インタラクション内容と評価情報をメモリ３１２に記憶する。

例えば、本実施例のインタラクションシステム３００によってロボットの朗読意図を識別でき、それにより仮想ロボットはユーザの好みに従って朗読内容と朗読背景を選択し、その内容を朗読し、且つ相応の動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。意図識別プロセッサー３０６は文字情報と表情情報に基づいてユーザがロボットを制御して朗読する意図を識別し、インタラクション内容プロセッサ３１１は前記文字情報、表情情報及び朗読意図によって朗読内容と朗読背景を選択し、且つ前記朗読内容と朗読背景によってインタラクション内容を生成し、それをイメージングシステム３１０とスピーカー３０９に送信し、前記インタラクション内容によって評価情報を生成し、且つインタラクション内容と評価情報をメモリ３１２に記憶する。

図４は本実施例の仮想ロボットのインタラクションシステムの応用場面を示す図である。ロボットは取得モジュールによってユーザのマルチモード情報を取得し、例えば、取得モジュールにおけるマイク３０４でユーザが歌った小唄を取得し、取得モジュールにおけるビデオカメラ３０１でユーザの表情情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報などのマルチモード情報を取得する。次に、インタラクションシステム３００は取得したマルチモード情報を前処理し、ユーザ意図を作曲意図として識別し、この小唄とユーザの作曲意図に基づいて作曲スタイルテンプレートと作曲内容を選択し、それによって新たな小唄を生成しながらロボットに相応の作曲動作を生成する。最後に、作曲動作をイメージングシステム３１０に送信し、イメージングシステム３１０は作曲動作の３Ｄ映像を生成してユーザに表示し、且つスピーカー３０９で生成した新たな小唄を同期に再生する。

本実施例が提供する仮想ロボットのインタラクションシステムは取得したユーザのマルチモード情報によって、作画意図、作曲意図、詩作意図、朗読意図などのユーザ意図を識別でき、且つ仮想ロボットを制御して、作画、作曲、詩作、物語の朗読、小説の朗読などのユーザ意図と対応する動作を完成させ、且つイメージングシステムによって３D映像を生成して表示し、ユーザに返事し、そうするとロボットはより擬人化に人類と対話できるようになり、該システムは生成したロボットインタラクション内容の擬人性及びマンマシンインタラクション体験を向上させ、且つインテリジェント性を高めることができ、その他ロボットは生成したインタラクション内容について、採点などの評価を行うことができ、それで娯楽性とユーザの体験を高めた。

上記内容は具体的な好ましい実施様態を結合した上で本発明に関する更に詳細な説明であるが、本発明の具体的な実施例はこれらの説明に限定されるわけではない。当業者にとっては、本発明の精神から脱逸しない前提で、上記実施様態にさまざまな変更・改良を加えることが可能であって、本発明の保護範囲に属するべきである。

Claims

仮想ロボットのインタラクション方法であって、
ユーザのマルチモード情報の取得、
マルチモード情報の前処理とユーザ意図の識別、
前記マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートの選択、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容の生成、
インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想３Ｄ映像の生成、
ロボットからの前記インタラクション内容に基づく評価内容の生成を含む、
ことを特徴とする仮想ロボットのインタラクション方法。
インタラクション内容を生成するステップに続いて、また、前記インタラクション内容を移動端末に送信し、前記移動端末がそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することを含む、
ことを特徴とする請求項１に記載のインタラクション方法。
インタラクション内容をイメージングシステムと移動端末に送信するステップに続いて、また、ユーザのインタラクションに対する評価を取得し、且つユーザの評価を相応のインタラクション内容カタログに記憶することを含む、
ことを特徴とする請求項２に記載のインタラクション方法。
前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、具体的に、マルチモード情報を前処理し、ユーザがロボットを制御して作画する意図を識別することを含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて画像情報を生成して画像スタイルテンプレートを選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション情報を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３Ｄ映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作画動作の３Ｄ映像を生成し、且つ対応する音声の追加を含む、
ことを特徴とする請求項１に記載のインタラクション方法。
前記画像情報は、ロボットデータベースやユーザギャラリーから取得される、
ことを特徴とする請求項４に記載のインタラクション方法。
前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、マルチモード情報を前処理し、ユーザがロボットを制御して作曲する意図を識別することを含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて作曲スタイルテンプレートと作曲内容を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、選択された作曲スタイルテンプレートと作曲内容に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３Ｄ映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作曲動作の３Ｄ映像を生成し、且つ対応する音声の追加を含む、
ことを特徴とする請求項１に記載のインタラクション方法。
前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、マルチモード情報を前処理し、ユーザがロボットを制御して詩作する意図を識別することを含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて詩作スタイルテンプレートと詩作内容を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、選択された詩作スタイルテンプレートと詩作内容に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３Ｄ映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて詩作音声を生成し、且つ詩作動作の３Ｄ映像の追加を含む、
ことを特徴とする請求項１に記載のインタラクション方法。
前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、マルチモード情報を前処理し、ユーザがロボットを制御して朗読する意図を識別することを含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて朗読内容と朗読背景を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、朗読内容と朗読背景に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想３Ｄ映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて朗読する音声を生成し、且つ朗読動作の３Ｄ映像の追加を含む、
ことを特徴とする請求項１に記載のインタラクション方法。
仮想ロボットのインタラクションシステムであって、
ユーザのマルチモード情報を取得する取得モジュール、
前記マルチモード情報を前処理し、ユーザ意図を識別する意図識別モジュール、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択する処理モジュール、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成する生成モジュール、
インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想３Ｄ映像を生成する送信モジュール、
ロボットが前記インタラクション内容に基づいて評価情報を生成する評価モジュールを備える、
ことを特徴とするインタラクションシステム。
前記送信モジュールはまた、インタラクション内容を移動端末に送信し、移動端末がそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することに用いられる、
ことを特徴とする請求項９に記載のインタラクションシステム。
ロボットであって、請求項９から１０までのいずれかに記載の仮想ロボットのインタラクションシステムを含む
ことを特徴とするロボット。
仮想ロボットのインタラクションシステムであって、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、意図識別プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ、メモリを含み、
前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記意図識別プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記意図識別プロセッサは順次に接続され、前記意図識別プロセッサは前記インタラクション内容プロセッサと接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記音声合成装置、前記パワーアンプと前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
前記マイクは、ユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータは前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサへの入力に用い、
前記画像取得装置は、ユーザがいる画像の取得に用い、前記顔認識プロセッサはユーザがいる画像からユーザの表情情報を識別し取得して前記意図識別プロセッサへの入力に用い、
前記意図識別プロセッサは、前記文字情報と表情情報に基づくユーザ意図の識別に用い、
前記インタラクション内容プロセッサは、前記文字情報、前記表情情報と前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成し、前記インタラクション内容と評価情報をメモリに記憶することに用い、
前記イメージングシステムは、前記インタラクション内容に基づいて仮想３Ｄ映像を生成し、スピーカーはインタラクション内容に基づいて音声信号を同時に再生する、
ことを特徴とする仮想ロボットのインタラクションシステム。
またユーザの複数の生理信号を取得し、信号プリプロセッサによって前記生理信号を前処理した後に生理パラメータを得、且つ前記生理パラメータを意図識別プロセッサに送信することに用いる複数のセンサーを含み、
前記意図識別プロセッサは前記文字情報、前記表情情報と前記生理パラメータに基づくユーザ意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報、前記生理パラメータ及び前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶することに用いる、
ことを特徴する請求項１２に記載のインタラクションシステム。
また前記インタラクションプロセッサと接続される無線通信装置を含み、前記インタラクション内容プロセッサはまたインタラクション内容を移動端末に送信し、前記移動端末はそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示する、
ことを特徴とする請求項１２に記載のインタラクションシステム。
前記システムはまたユーザが前記移動端末によって返事するインタラクション内容に対する評価を受信し、且つユーザの評価を前記メモリに対応するインタラクション内容カタログに記憶する、
ことを特徴とする請求項１４に記載のインタラクションシステム。
前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御して作画する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記作画意図に基づいて画像情報を生成して画像スタイルテンプレートを選択し、選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報を前記メモリに記憶することに用いる、
ことを特徴とする請求項１２に記載のインタラクションシステム。
前記画像情報はロボットデータベースやユーザギャラリーから取得される、
ことを特徴とする請求項１６に記載のインタラクションシステム。
前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御して作曲する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記ユーザの作曲意図に基づいて作曲スタイルテンプレートと作曲内容を選択し、作曲スタイルテンプレートと作曲内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する、
ことを特徴とする請求項１２に記載のインタラクションシステム。
前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御し詩作する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記詩作意図に基づいて詩作スタイルテンプレートと詩作内容を選択し、詩作スタイルテンプレートと詩作内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する、
ことを特徴とする請求項１２に記載のインタラクションシステム。
前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御して朗読する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記朗読意図に基づいて朗読内容と朗読背景を選択し、朗読内容と朗読背景に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する、
ことを特徴とする請求項１２に記載のインタラクションシステム。