JP2018014094A - 仮想ロボットのインタラクション方法、システム及びロボット - Google Patents

仮想ロボットのインタラクション方法、システム及びロボット Download PDF

Info

Publication number
JP2018014094A
JP2018014094A JP2017133166A JP2017133166A JP2018014094A JP 2018014094 A JP2018014094 A JP 2018014094A JP 2017133166 A JP2017133166 A JP 2017133166A JP 2017133166 A JP2017133166 A JP 2017133166A JP 2018014094 A JP2018014094 A JP 2018014094A
Authority
JP
Japan
Prior art keywords
information
interaction
content
user
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017133166A
Other languages
English (en)
Inventor
ナン チユウ
Nan Qiu
ナン チユウ
ハオフエン ワン
Haofen Wang
ハオフエン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Gowild Robotics Co Ltd
Original Assignee
Shenzhen Gowild Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Gowild Robotics Co Ltd filed Critical Shenzhen Gowild Robotics Co Ltd
Publication of JP2018014094A publication Critical patent/JP2018014094A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data

Abstract

【課題】ロボットインタラクション内容の擬人性、インテリジェント性を高めることができ、娯楽性の向上を可能とする仮想ロボットのインスタラクション方法を提供する。【解決手段】ユーザのマルチモード情報を取得し、マルチモード情報の前処理及びユーザ意図を識別し、マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートを選択し、デフォルトルールによって内容情報と生成テンプレートを組み合わせた後にインタラクション内容を生成し、インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想3D映像を生成し、ロボットからのインタラクション内容に基づいて評価情報を生成する。【選択図】図1

Description

本発明はロボットインタラクション技術分野に関し、特には仮想ロボットのインタラクション方法、システム及びロボット本体に関する。
チップ計算能力の上昇、センサー技術の発展及アルゴリズム分野に遂げた新たな業績に伴い、人類が生活の質に対する要求も次第に高くなってきた。人類の生産活動のアシスタント、それに日常生活の使用人として、ロボットを使用する場面はますます広まっており、例えば老人、子供が孤独を感じる場合には、ロボットとの対話、娯楽などのインタラクションが可能になり、ロボットが人類の生活にどんな役割を果たしているかにかかわらず、マンマシンインタラクションの順調な進行もロボットが仕事を完成する基礎となっている。
マンマシンインタラクションプロセスにおいて、人類がディスプレイによる入力を用いてもよく、音声、手振りなどの形式でインタラクション内容を入力してもよいが、ロボットがユーザのマルチモードな入力に対する完全な収集及び人類意図に対する理解はロボットが後で返信する基礎となるものである。その次、ロボットはユーザの意図を理解する上に、ユーザへの返信及び実行すべき命令を「決定する」必要がある。
ユーザがマンマシンインタラクション体験を向上させるために、ロボットは簡単な対話機能を備える必要があるだけではなく、なお詩作、作曲、物語を作る、挨拶を率先するなどの高級な機能を備えることも必要となってきた。従来のロボットはマンマシンインタラクションプロセスにおいて、ユーザの深いレベルの需要を感知できないため、機械的にユーザを返事することは多い、例えば、ロボットが一対一の「質問−回答ライブラリ」を検索してユーザの質問を答える形式においては、ロボットが例えばユーザがへこんでいる時に慰める言葉をすることのように、ユーザの表情に基づいてユーザの気持ちを判断する上に相応の回答で返事できなく、ただユーザの単一な入力を受信できるが、ほかのタイプの入力に対して反応できない。
本発明の目的は、仮想ロボットのインタラクション方法、システム及びロボット本体を提供することであって、ロボットはもっと多く、より擬人化のインタラクションを提供できるようになり、ユーザの体験を向上させることも可能となった。
本発明の目的は下記技術様態で実現される:
仮想ロボットのインタラクション方法は、
ユーザのマルチモード情報の取得、
マルチモード情報の前処理とユーザ意図の識別、
前記マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートの選択、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容の生成、
インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想3D映像の生成、
ロボットの前記インタラクション内容に基づく評価内容の生成を含む、ことを特徴とする。
本発明は、
ユーザのマルチモード情報を取得する取得モジュール、
前記マルチモード情報を前処理し、ユーザ意図を識別する意図識別モジュール、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択する処理モジュール、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成する生成モジュール、
インタラクション内容をイメージングシステムに送信し、イメージングシステムはそれに基づいて仮想3D映像を生成する送信モジュール、
ロボットは前記インタラクション内容に基づいて評価情報を生成する評価モジュールを含む、ことを特徴とする仮想ロボットのインタラクションシステムを開示する。
本発明は、上記のいずれかの仮想ロボットのインタラクションシステムを含むことを特徴とするロボット本体を開示する。
本発明は、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、意図識別プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ、メモリを含み、
前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記意図識別プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記意図識別プロセッサは順次に接続され、前記意図識別プロセッサは前記インタラクション内容プロセッサと接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記音声合成装置、前記パワーアンプと前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
前記マイクはユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータは前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサへの入力に用い、
前記画像取得装置はユーザを含む画像の取得に用い、前記顔認識プロセッサはユーザを含む画像からユーザの表情情報を識別し取得して前記意図識別プロセッサへの入力に用い、
前記意図識別プロセッサは前記文字情報と表情情報に基づくユーザ意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報と前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成し、前記インタラクション内容と評価情報をメモリに記憶することに用い、
前記イメージングシステムは前記インタラクション内容に基づいて仮想3D映像を生成し、スピーカーがインタラクション内容に基づいて音声信号を再生する、ことを特徴とする仮想ロボットのインタラクションシステム。
好ましくは、前記センサーがユーザの複数の生理信号を取得し、信号プリプロセッサによって前記生理信号を前処理した後に生理パラメータを得、且つ前記生理パラメータを意図識別プロセッサに送信することに用いる複数のセンサーを含み、
前記意図識別プロセッサは前記文字情報、前記表情情報と前記生理パラメータに基づくユーザ意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報、前記生理パラメータ及び前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶することに用いる、ことを特徴する請求項12に記載のインタラクションシステム。
好ましくは、前記インタラクション内容プロセッサと接続される無線通信装置を含み、前記インタラクション内容プロセッサはまたインタラクション内容を移動端末に送信し、前記移動端末がインタラクション内容によって画像、音声、文字の一種や多種類を生成し、且つ表示することに用いる。
好ましくは、前記システムはまたユーザの前記移動端末によって返事するインタラクション内容に対する評価を受信し、且つユーザの評価を前記メモリに対応するインタラクション内容カタログに記録する。
好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して作画する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記作画意図に基づいて画像情報を生成して画像スタイルテンプレートを選択し、選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と前記評価情報を前記メモリに記憶する。
好ましくは、前記画像情報はロボットデータベースやユーザギャラリーで取得される。
好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して作曲する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記作曲意図に基づいて作曲スタイルテンプレートと作曲内容を選択し、前記作曲スタイルテンプレートと前記作曲内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する。
好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して詩作する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記詩作意図に基づいて詩作スタイルテンプレートと詩作内容を選択し、前記詩作スタイルテンプレートと前記詩作内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する。
好ましくは、前記意図識別プロセッサは前記文字情報と前記表情情報に基づいてユーザがロボットを制御して朗読する意図の識別に用い、
前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記朗読意図に基づいて朗読内容と朗読背景を選択し、前記朗読内容と前記朗読背景に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する。
従来のマンマシンインタラクション技術がマシン顧客サービスシステムに用いられることは多いが、そういう顧客サービスシステムは特定の場面しか働きなく、且つ特定の範囲内の質問だけについて解答する原因で、広い適応性はない、その他、今まで人類の日常生活を補助するためのロボットが、ユーザの意図を考えないことは多く、例えば、ユーザから「天気が熱くて、手で扇風する動作をする」という内容を入力すると、市販のロボットはユーザの意図を識別する上に、ユーザにエアコンをつけるアドバイスを出す、またはユーザのために、直接エアコンをつけることはできない。
従来技術と比べると、本発明は、提供する仮想ロボットのインタラクション方法がユーザのマルチモード情報の取得、前記マルチモード情報の前処理及びユーザ意図の識別、前記マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートの選択、デフォルトルールによって前記内容情報と生成テンプレートを組み合わせた後にインタラクション内容の生成、インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想3D映像の生成、ロボットからの前記インタラクション内容に基づく評価情報の生成を含むという利点を有する。そうすることでは、ユーザがマルチモードの情報によってユーザのどんな返事がほしいかという意図を確定でき、その後マルチモード情報とユーザ意図に基づいて内容情報と生成テンプレートを含む返事内容の細目を査問し、収集終了後に、前記内容情報と生成テンプレートを組み合わせてインタラクション内容を生成し、その後イメージングシステムに送信し、イメージングシステムはインタラクション内容に基づいて仮想3D映像を生成することで表示し、ユーザに答え、それによりロボットはより擬人化に人類と対話することができ、該方法は生成したロボットインタラクション内容の擬人性、及びマンマシンインタラクション体験を向上させ、インテリジェント性を高めることが可能であり、且つロボットが生成したインタラクション内容について、採点などの評価をすることで、娯楽性とユーザの体験を向上させることが期待される。
本発明はロボットがユーザと対話するプロセスにおいて、ユーザのマルチモードの入力を完全に収集でき、それを分析してユーザの意図を取得し、次にユーザのマルチモード入力とユーザ意図を結合して返事する内容情報と生成テンプレートを確定し、それによりロボットの返事を生成することができ、本発明の前記ロボットは文字、音声、表情、動作などのさまざまな手段でユーザに返事することができるため、マンマシンインタラクションの手段とチャンネルを完備させ、ロボットがより擬人化に人類と対話できるようになった。異なる場面、時間またはユーザの気持ちが異なる際には、ユーザが話した同じ言葉でも違っている意味をもち、まったく反対となる二種類の意図を表す可能性もあるとしても、従来のマンマシンインタラクション技術はユーザの意図を識別できない故で、同じ言葉に含まれる異なる意図を区別することができなく、字義通りに事前に設定した「質問−回答ライブラリ」に回答を探してから、機械的に返事することしかできない状況と比べ、本発明のロボットはユーザの音声、表情、動作などの情報に対する総合的分析によって、ロボットがユーザの意図に対する理解と把握を深め、ロボットは異なる場面やユーザの異なる気持ちなどに基づいて最もユーザの意図と一致する回答と動作を返事できるようになり、ロボットのユーザに対する回答の正確性を向上させ、それでユーザのマンマシンインタラクション体験を改善し、ユーザはロボットの実用性と擬人性をもっと認可できるようになった。
図1は本発明実施例1の仮想ロボットのインタラクション方法の流れを示すフロー図である。 図2は本発明実施例2の仮想ロボットのインタラクションシステムを示す図である。 図3は本発明実施例3の仮想ロボットのインタラクションシステムの回路を示すブロック図である。 図4は本発明実施例3の仮想ロボットのインタラクションシステムの好ましい回路を示すブロック図である。 図5は本発明実施例3で仮想ロボットのインタラクションシステムをウェアラブルデバイスと結合することを示す図である。 図6は本発明の実施例3で仮想ロボットのインタラクションシステムを移動端末と結合することを示す図である。 図7は本発明の実施例3の仮想ロボットのインタラクションを応用する場面を示す図である。
フロー図で各操作を順序に処理するように説明したが、その中に多くの操作は並列、合併又は同時に実行できるものである。各操作の順序を改めて配置してもよい。操作を完成した時には処理を中止できるが、図面に含まず追加ステップを有してもよい。該処理は方法、関数、規則、サブルーチン、サブプログラムなどに対応可能である。
コンピュータデバイスはユーザデバイスとネットワークデバイスを含む。ここにおいて、ユーザデバイスやクライアントはコンピュータ、スマートフォン、PDAなどを含むがそれらには限定されなく、ネットワークデバイスはシングルネットワークサーバー、マルチネットワークサーバーからなるサーバーグループ又はクラウドコンピューティングに基づいて数多いコンピュータやネットワークサーバーで構成されるクラウドを含むがそれらには限定されない。コンピュータデバイスは独立運行で本発明を実現してもよく、ネットワークにアクセスし且つそこにおける他のコンピュータデバイスとのインタラクション操作で本発明を実現してもよい。コンピュータデバイスが位置するネットワークはインターネット、広域ネットワーク、メトロポリタンエリアネットワーク、ローカルエリアネットワーク、VPNネットワークなどを含むがそれらには限定されない。
ここで、「第一」、「第二」などの専門用語で各ユニットを説明したかもしれないが、これらのユニットは当該専門用語に限られなく、これらの専門用語の使用はただ一つのユニットを別のユニットと区別するためだけである。ここで用いる専門用語「及び/又は」は列挙した一つや複数の関連プロジェクトの任意と全部の組み合わせを含む。一つのユニットがもう一つのユニットに「接続」や「結合」と定義された時には、それが前記もう一つのユニットに直接的接続や結合されてもよいが、中間ユニットに存在してもよい。
ここで使用する専門用語はただ具体的な実施例を説明するためだけであるが例示的実施例を限定しない。テクストで別に明示されたもの以外に、ここで使用した単数形「一つ」、「一項」はまた複数を含むことを図っている。なお理解すべきなのは、ここで使用した「含む」及び/又は「含有する」という専門用語が説明する特徴、整数、ステップ、操作、ユニット及び/又はモジュールの存在を規定するが、一つや更に多い他の特徴、整数、ステップ、操作、ユニット、モジュール及び/又は組み合わせの存在や追加を排除するわけではない。
下記、図面と優れた実施例を結合して本発明についてもっと詳細に説明する。
実施例1
図1に示すように、本実施例は仮想ロボットのインタラクション方法を開示し、それは、
ユーザのマルチモード情報を取得するステップS101、
前記マルチモード情報を前処理し、ユーザ意図を識別するステップS102、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップS103、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップS104、
インタラクション内容をイメージングシステムに送信し、イメージングシステムはそれに基づいて仮想3D映像を生成するステップS105、
ロボットは前記インタラクション内容に基づいて評価情報を生成するステップS106を含む。
そうすることでは、ユーザのマルチモード情報(画像、音声、文字、スマートフォン端末など)によってユーザのどんな返事がほしいかという意図を確定し、その後マルチモード情報とユーザ意図に基づいて内容情報と生成テンプレートを含む返事内容の細目を査問でき、収集終了後に、前記内容情報と生成テンプレートを組み合わせてインタラクション内容を生成し、その後イメージングシステムに送信し、イメージングシステムはインタラクション内容に基づいて仮想3D映像を生成することで表示し、ユーザに答え、それによりロボットがより擬人化に人類と対話でき、該方法は生成したロボットインタラクション内容の擬人性、及びマンマシンインタラクション体験を向上させ、インテリジェント性を高めることが可能であり、且つロボットが生成したインタラクション内容について、採点などの評価をすることで、娯楽性とユーザの体験を向上させることが期待される。
本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。ユーザの音声情報は音声取得装置によって取得できる。ビデオカメラによってユーザがいる場面の画像を取得し、それを分析してユーザの表情情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報などを取得できる。光センサーによって場面にある光感知情報を取得できる。虹彩認識装置によってユーザの虹彩情報を取得、指紋取得装置によってユーザの指紋情報を取得できる。
本実施例における方法は作画、作曲、詩作、物語の朗読、小説の朗読などの異なる機能に応用できる。
その中の一つの実施例によっては、インタラクション内容を生成するステップに続いてまた、インタラクション内容を移動端末に送信し、移動端末がそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することを含む。
そうすることでは、ユーザが移動端末でもインタラクション内容をチェックでき、ユーザがさらに多い手段でロボットのフィードバックと返事を受信できるようになった。その中の一つの実施例によっては、インタラクション内容をイメージングシステムと移動端末に送信するステップに続いてまた、ユーザがインタラクション内容に対する評価を取得し、且つユーザの評価を相応のインタラクション内容カタログに記憶することを含む。
そうすることではユーザが、使用体験、点数などの該機能に対する評価をチェックしやすくなり、それでユーザが自分自身に適する機能を選択して使用する便利性も向上した。
本実施例においては、マンマシンインタラクションをもっと詳細に説明するために、前記マルチモード情報を前処理し、ユーザ意図を識別するステップは具体的に、マルチモード情報を前処理し、ユーザがロボットを制御して作画する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップはマルチモード情報とユーザ意図に基づいて画像情報を生成して画像スタイルテンプレートを選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション情報を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作画動作の3D映像を生成し、対応の音声を追加することを含む。
そうすることでは、ロボットが作画、それに動作と画像を表示することが可能になり、ユーザの体験を高めた。
ここにおいて、前記画像情報はロボットのデータベースやユーザギャラリーで取得される。そうすることでは、ユーザが撮る写真や自撮りした写真をロボットに送信し、それが写真に従って作画させることが可能になった。
本実施例でより詳細に説明したロボットのインタラクション方法においては、前記マルチモード情報を前処理し、ユーザ意図を識別するステップはまたマルチモード情報を前処理し、ユーザがロボットを制御して作曲する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップはマルチモード情報とユーザ意図に基づいて作曲スタイルテンプレートと作曲内容を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは前記作曲スタイルテンプレートと作曲内容に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作曲動作の3D映像を生成し、対応の音声を追加することを含む。
そうすることでは、ロボットが作曲できるようになった、例えば、ユーザがいくつかの小唄を歌った後、ロボットはこの小唄と作曲スタイルテンプレートを組み合わせるなどをして、新たな小唄を生成することで、ユーザが歌ったものを継続することが可能となった。
本実施例でより詳細に説明したロボットのインタラクション方法においては、前記マルチモード情報を前処理し、ユーザ意図を識別するステップはまた、前記マルチモード情報を前処理し、ユーザがロボットを制御して詩作する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップはマルチモード情報とユーザ意図に基づいて詩作スタイルテンプレートと詩作内容を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは前記詩作スタイルテンプレートと詩作内容に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて詩作音声を生成した後、詩作動作の3D映像を追加することを含む。
そうすることでは、ロボットが詩作できるようになった、例えば、ユーザが一句の詩を読んだ後、ロボットはこの詩によって、詩作テンプレートを結合して、もう一句の詩を作り、ユーザに返事でき、また詩を読む動作を追加可能で、もっと擬人化で生き生きとなった。
本実施例でより詳細に説明したロボットのインタラクション方法においては、前記マルチモード情報を前処理し、ユーザ意図を識別するステップはまた、前記マルチモード情報を前処理し、ユーザがロボットを制御して朗読する意図の識別を含み、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて朗読内容と朗読背景を選択することを含み、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後インタラクション内容を生成するステップは、朗読内容と朗読背景に基づいてインタラクション内容を生成することを含み、
前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて朗読音声を生成し、且つ朗読動作の3D映像を追加することを含む。
そうすることでは、ロボットがユーザの意図に基づいて一冊の小説や物語を選択して朗読でき、それでロボットがもっとインテリジェント化にユーザと対話できるなっており、ユーザの体験度を向上させた。
実施形態2
図2に示すように、本実施例は、
ユーザのマルチモード情報を取得する取得モジュール201、
前記マルチモード情報を前処理し、ユーザ意図を識別する意図識別モジュール202、
前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択する処理モジュール203、
前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成する生成モジュール204、
インタラクション内容をイメージングシステムに送信し、イメージングシステムはそれに基づいて仮想3D映像を生成する送信モジュール205、
ロボットは前記インタラクション内容に基づいて評価情報を生成するための評価モジュール206を含む。
そうすることでは、ユーザのマルチモード情報によってユーザのどんな返事がほしいかという意図を確定し、その後マルチモード情報とユーザ意図に基づいて内容情報と生成テンプレートを含む返事内容の細目を査問でき、収集し終わった後、前記内容情報と生成テンプレートを組み合わせてインタラクション内容を生成し、その後イメージングシステムに送信し、イメージングシステムがインタラクション内容に基づいて仮想3D映像を生成することで表示し、ユーザに答え、それによりロボットはより擬人化に人類と対話でき、該方法は生成したロボットインタラクション内容の擬人性、及びマンマシンインタラクション体験を向上させ、インテリジェント性を高めることが可能になり、且つロボットが生成したインタラクション内容について、採点などの評価をすることで、娯楽性とユーザの体験を向上させることは期待される。
本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。
本実施例における方法は作画、作曲、詩作、物語の朗読、小説の朗読など異なる機能に応用できる。
その中における一つの実施例によっては、前記送信モジュールはまたインタラクション内容を移動端末に送信し、前記移動端末はそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することに用いる。
そうすることでは、ユーザが移動端末でもインタラクション内容をチェックでき、ユーザがさらに多い手段でロボットのフィードバックと返事を受信できるようになった。
その中における一つの実施例によっては、前記評価モジュールはまたユーザがインタラクション内容に対する評価を取得し、且つユーザの評価を相応のインタラクション内容カタログに記憶することに用いる。
そうすることではユーザが、使用体験、点数などの該機能に対する評価をチェックしやすくなり、それでユーザが自分自身に適する機能を選択して使用する便利性も向上した。
本実施例において、ロボットのインタラクションをより詳細に説明するために、意図識別モジュールはまたマルチモード情報を前処理し、ユーザがロボットを制御して作画する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて画像情報を生成して画像スタイルテンプレートを選択することに用い、
前記生成モジュールが選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて作画動作の3D映像を生成し、且つ対応の音声の追加に用いる。
そうすることでは、ロボットが作画、それに動作と画像を表示することが可能になり、ユーザの体験を高めた。
ここにおいて、前記画像情報はロボットのデータベースやユーザギャラリーで取得される。そうすることでは、ユーザが撮る写真や自撮りした写真をロボットに送信し、それが写真に従って作画させることが可能になった。
本実施例でより詳細に説明したロボットのインタラクション方法においては、意図識別モジュールはマルチモード情報を前処理し、ユーザがロボットを制御して作曲する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて作曲スタイルテンプレートと作曲内容を選択することに用い、
前記生成モジュールが選択した作曲スタイルテンプレートと作曲内容によってインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて作曲動作の3D映像を生成し、且つ対応の音声を追加することに用いる。
そうすることでは、ロボットが作曲できるようになった、例えば、ユーザがいくつかの小唄を歌った後、ロボットはこの小唄と作曲スタイルテンプレートを組み合わせるなどをして新たな小唄を生成することで、ユーザが歌ったものを継続する。
本実施例でより詳細に説明したロボットのインタラクション方法においては、前記意図識別モジュールは、前記マルチモード情報を前処理し、ユーザがロボットを制御して詩作する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて詩作スタイルテンプレートと詩作内容を選択することに用い、
前記生成モジュールは選択された詩作スタイルテンプレートと詩作内容によってインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて詩作音声を生成し、且つ詩作動作の3D映像を追加することに用いる。
そうすることでは、ロボットが詩作できるようになった、例えば、ユーザが一句の詩を読んだ後、ロボットはこの詩によって、詩作テンプレートを結合して、もう一句の詩を作り、ユーザに返事でき、また詩を読む動作を追加可能で、もっと擬人化で生き生きとなった。
本実施例でより詳細に説明したロボットのインタラクション方法においては、前記意図識別モジュールは、前記マルチモード情報を前処理し、ユーザがロボットを制御して朗読する意図の識別に用い、
前記処理モジュールはマルチモード情報とユーザ意図に基づいて朗読内容と朗読背景を選択することに用い、
前記生成モジュールは朗読内容と朗読背景によってインタラクション内容を生成することに用い、
前記送信モジュールはイメージングシステムがインタラクション内容に基づいて朗読音声を生成し、且つ朗読動作の3D映像を追加することに用いる。
そうすることでは、ロボットがユーザの意図に基づいて一冊の小説や物語を選択して朗読でき、それでロボットがもっとインテリジェント化にユーザと対話できるなっており、ユーザの体験度を向上させた。
本発明は、上記のいずれかに記載の仮想ロボットのインタラクションシステムを含むことを特徴とするロボット本体を開示する。
実施形態3
図3に示すように、本実施例はマイク301、アナログデジタルコンバータ302、音声識別プロセッサ303、画像取得装置304、顔認識プロセッサ305、意図識別プロセッサ306、音声合成装置307、パワーアンプ308、スピーカー309、イメージングシステム310、インタラクション内容プロセッサ311、メモリ312を含む仮想ロボットのインタラクションシステム300を開示する。
前記マイク301、アナログデジタルコンバータ302、音声識別プロセッサ303と意図識別プロセッサ306は順次に接続され、前記画像取得装置304、顔認識プロセッサ305と意図識別プロセッサ306は順次に接続され、前記意図識別プロセッサ306はインタラクション内容プロセッサ311と接続され、前記インタラクション内容プロセッサ311はメモリ312と接続され、前記音声合成装置307、パワーアンプ308とスピーカー309は順次に接続され、前記イメージングシステム310はインタラクション内容プロセッサ311と接続される。
前記マイク301はユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータ302は前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサ303は前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサ306への入力に用いる。
前記画像取得装置304はユーザがいる画像の取得に用い、前記顔認識プロセッサ305はユーザを含む画像からユーザの表情情報を識別し取得して前記意図識別プロセッサ306への入力に用いる。画像取得装置304はビデオカメラ、カメラなどであってもよく、ユーザの表情情報のみならず、またユーザがいる環境、ユーザの動作情報なども識別でき、これらの情報は意図識別プロセッサ306への入力としてもよく、それによりユーザ意図の識別の正確性を向上させることが図られる。
前記意図識別プロセッサ306は前記文字情報と表情情報に基づいてユーザ意図の識別に用いる。ユーザ意図を識別するステップは具体的に下記方法を含むがそれには限定されない:
(1)文字情報について単語を分割し、その結果によって各単語の品詞をマークし、それに基づいて前記文字情報におけるキーワードを抽出でき、該キーワードによってユーザ意図を識別すること。例えば:ユーザが入力した動詞(XXを開く、XXを再生するなど)を抽出し、ユーザがロボットに動作命令を出しているかどうかを確認する;ユーザが入力した名詞を抽出する、例えば「ヤオ・メイは身長がいくつか」という句に、「ヤオ・メイ」と「身長」からユーザがヤオ・メイの身長を聞いていることは分かられる;なお、文字情報には「作画」というキーワードが含まれる場合、ユーザが作画する意図を持つと判断できる。
(2)前記文字情報の疑問文、平叙文などの文型を分析し、それによってユーザの意図を識別すること。例えば:ユーザが入力した句読点や話しぶりに基づいて、ユーザがロボットに質問を出しているかどうかを分析する;またテンプレート技術を用い、文字情報を各種類の文型テンプレートと比較してどの文型に属するかを確定してもよい。
(3)ユーザの表情情報を結合し、心理学と表情学の研究成果によって人類の「表情−気持ち」対応関係を予めに形成してメモリに記憶し、取得したユーザの表情情報に基づき、「表情−気持ち」対応関係を結合してユーザの現時点における気持ちを得、後でユーザの現時点の気持ち情報によって適切な返事テンプレートを選択できること。
(4)また画像取得装置304でユーザの動作情報を取得し、ユーザの操作を追跡して、且つクラウドサーバーにおける動作分類装置を経由してユーザの動作が対応するユーザ動作意図を確定でき、後でユーザ動作意図に基づいて返事する内容情報を生成し、且つ適切な返事テンプレートを選択できること。
インタラクション内容プロセッサ311は前記文字情報、表情情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステム310とスピーカー309に送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリ312に記憶することに用いる。
前記イメージングシステム310は前記インタラクション内容に基づいて仮想3D映像を生成し、スピーカー309はインタラクション内容に基づいて音声信号を同期に再生する。
メモリ312はインタラクション内容プロセッサ311が操作する時に用いるデータの記憶に応用可能である。選択できるのは、インタラクション内容プロセッサ311はCPU(中央処理装置)、ASIC(Application Specific Integrated Circuit、特定用途向け集積回路)、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)やCPLD(Complex Programmable Logic Device、コンプレックスプログラマブルロジックデバイス)としてもよい。
図4に示すように、意図識別プロセッサ306がユーザ意図を予測する正確性を向上させるためには、本実施例に開示したインタラクションシステム300はまたユーザのいくつかの生理信号を取得し、信号プリプロセッサ314で前記生理信号を前処理した後に生理パラメータを得、且つ前記生理パラメータを意図識別プロセッサ306に送信することに用いる複数のセンサー313を含む。相応的には、意図識別プロセッサ306は前記文字情報、表情情報と生理パラメータに基づいてユーザ意図を識別することに用いる。インタラクション内容プロセッサ311は前記文字情報、表情情報、生理パラメータ及びユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステム310とスピーカー309に送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリ312に記憶することに用いる。
インタラクションシステム300におけるセンサー313は、光センサー、虹彩認識センサー、指紋取得センサー、温度センサー、心拍数センサーなどを含むが、それには限定されなく、それにより、光感知情報、虹彩情報、指紋情報、体温情報、心拍数情報などにおける一種や多種類の生理情報を含むユーザのマルチモード情報を豊富にする。
下記はマイク301、画像取得装置304、センサー313が取得や出力する情報をマルチモード情報と総称する。
図5に示すように、一部のセンサー313は前記インタラクションシステム300と一体に集積され、一部のセンサー313はウェアラブルデバイス400に集積されてもよい。例えば、温度センサー、心拍数センサーがスマートリストバンドに集積でき、無線通信装置によって採集した情報を前記インタラクションシステム300における前記意図識別プロセッサ306まで送信できる。図5はただインタラクションシステム300における前記無線通信装置と意図識別プロセッサ306との接続関係だけを示すが、インタラクションシステム300における他の接続関係は図3と図4に参照すればよい。
本実施例に開示したインタラクションシステムはまた無線通信装置314を含み、図6に示すように、無線通信装置314はインタラクション内容プロセッサ311と接続され、インタラクション内容プロセッサ311はまたインタラクション内容を移動端末500に送信し、移動端末500は該インタラクション内容によって画像、音声、文字の一種や多種類を生成し、且つ表示する。図6はただインタラクションシステム300における前記無線通信装置とインタラクション内容プロセッサ311との接続関係だけを示すが、インタラクションシステム300における他の接続関係は図3と図4に参照すればよい。
本実施例に開示したインタラクションシステム300はまた移動端末500で返事されたインタラクション内容に対するユーザ評価を受信し、且つユーザの評価をメモリ312に対応のインタラクション内容カタログに記憶することに用いる。
本実施例に開示した仮想ロボットのインタラクションシステム300は、複数の面でロボットとユーザとの対話様態を豊富にさせ、ロボットはもっと擬人化に人類と対話できるようになり、該システムは生成したロボットインタラクション内容の擬人性及びマンマシンインタラクション体験を向上させ、それにインテリジェント性を高めることは可能になった。
例えば、本実施例のインタラクションシステム300でロボットの作画意図を識別でき、それにより仮想ロボットは特定のスタイルを持つ絵を生成し、相応の作画動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。具体的な実現様態は、意図識別プロセッサー306がフロントエンドに取得された文字情報と表情情報に基づいてユーザがロボットを制御して作画する意図を識別し、インタラクション内容プロセッサ311が前記文字情報、表情情報及び作画意図によって画像情報を生成して画像スタイルテンプレートを選択し、且つ選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成し、それをイメージングシステム310とスピーカー309に送信し、前記インタラクション内容によって評価情報を生成し、且つ前記インタラクション内容と評価情報をメモリ312に記憶することとなる。
ここにおいて、画像情報はロボットのデータベースやユーザギャラリーで取得される。
例えば、本実施例のインタラクションシステム300によってロボットの作曲意図を識別でき、それにより仮想ロボットはユーザの好みに従って曲を生成し、且つ作曲動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。具体的な実現様態は、意図識別プロセッサー306がフロントエンドに取得された文字情報と表情情報に基づいてユーザがロボットを制御して作曲する意図を識別し、インタラクション内容プロセッサ311が前記文字情報、表情情報及び作曲意図によって作曲スタイルテンプレートと作曲内容を選択し、且つ作曲スタイルテンプレートと作曲内容によってインタラクション内容を生成し、それをイメージングシステム310とスピーカー309に送信し、前記インタラクション内容によって評価情報を生成し、且つ前記インタラクション内容と評価情報をメモリ312に記憶することとなる。
例えば、本実施例のインタラクションシステム300によってロボットの詩作意図を識別でき、それにより仮想ロボットはユーザの好みに従って詩を生成し、それを朗読し且つ相応の動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。具体的な実現様態は、意図識別プロセッサー306が文字情報と表情情報に基づいてユーザがロボットを制御して詩作する意図を識別し、インタラクション内容プロセッサ311が前記文字情報、表情情報及び詩作意図によって詩作スタイルテンプレートと詩作内容を選択し、且つ前記詩作スタイルテンプレートと詩作内容によってインタラクション内容を生成し、それをイメージングシステム310とスピーカー309に送信し、前記インタラクション内容によって評価情報を生成し、且つ前記インタラクション内容と評価情報をメモリ312に記憶する。
例えば、本実施例のインタラクションシステム300によってロボットの朗読意図を識別でき、それにより仮想ロボットはユーザの好みに従って朗読内容と朗読背景を選択し、その内容を朗読し、且つ相応の動作を追加することで、ロボットと人類との対話プロセスをもっと面白くなるようにする。意図識別プロセッサー306は文字情報と表情情報に基づいてユーザがロボットを制御して朗読する意図を識別し、インタラクション内容プロセッサ311は前記文字情報、表情情報及び朗読意図によって朗読内容と朗読背景を選択し、且つ前記朗読内容と朗読背景によってインタラクション内容を生成し、それをイメージングシステム310とスピーカー309に送信し、前記インタラクション内容によって評価情報を生成し、且つインタラクション内容と評価情報をメモリ312に記憶する。
図4は本実施例の仮想ロボットのインタラクションシステムの応用場面を示す図である。ロボットは取得モジュールによってユーザのマルチモード情報を取得し、例えば、取得モジュールにおけるマイク304でユーザが歌った小唄を取得し、取得モジュールにおけるビデオカメラ301でユーザの表情情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報などのマルチモード情報を取得する。次に、インタラクションシステム300は取得したマルチモード情報を前処理し、ユーザ意図を作曲意図として識別し、この小唄とユーザの作曲意図に基づいて作曲スタイルテンプレートと作曲内容を選択し、それによって新たな小唄を生成しながらロボットに相応の作曲動作を生成する。最後に、作曲動作をイメージングシステム310に送信し、イメージングシステム310は作曲動作の3D映像を生成してユーザに表示し、且つスピーカー309で生成した新たな小唄を同期に再生する。
本実施例が提供する仮想ロボットのインタラクションシステムは取得したユーザのマルチモード情報によって、作画意図、作曲意図、詩作意図、朗読意図などのユーザ意図を識別でき、且つ仮想ロボットを制御して、作画、作曲、詩作、物語の朗読、小説の朗読などのユーザ意図と対応する動作を完成させ、且つイメージングシステムによって3D映像を生成して表示し、ユーザに返事し、そうするとロボットはより擬人化に人類と対話できるようになり、該システムは生成したロボットインタラクション内容の擬人性及びマンマシンインタラクション体験を向上させ、且つインテリジェント性を高めることができ、その他ロボットは生成したインタラクション内容について、採点などの評価を行うことができ、それで娯楽性とユーザの体験を高めた。
上記内容は具体的な好ましい実施様態を結合した上で本発明に関する更に詳細な説明であるが、本発明の具体的な実施例はこれらの説明に限定されるわけではない。当業者にとっては、本発明の精神から脱逸しない前提で、上記実施様態にさまざまな変更・改良を加えることが可能であって、本発明の保護範囲に属するべきである。

Claims (20)

  1. 仮想ロボットのインタラクション方法であって、
    ユーザのマルチモード情報の取得、
    マルチモード情報の前処理とユーザ意図の識別、
    前記マルチモード情報とユーザ意図に基づく内容情報の生成と生成テンプレートの選択、
    前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容の生成、
    インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想3D映像の生成、
    ロボットからの前記インタラクション内容に基づく評価内容の生成を含む、
    ことを特徴とする仮想ロボットのインタラクション方法。
  2. インタラクション内容を生成するステップに続いて、また、前記インタラクション内容を移動端末に送信し、前記移動端末がそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することを含む、
    ことを特徴とする請求項1に記載のインタラクション方法。
  3. インタラクション内容をイメージングシステムと移動端末に送信するステップに続いて、また、ユーザのインタラクションに対する評価を取得し、且つユーザの評価を相応のインタラクション内容カタログに記憶することを含む、
    ことを特徴とする請求項2に記載のインタラクション方法。
  4. 前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、具体的に、マルチモード情報を前処理し、ユーザがロボットを制御して作画する意図を識別することを含み、
    前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて画像情報を生成して画像スタイルテンプレートを選択することを含み、
    前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション情報を生成することを含み、
    前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作画動作の3D映像を生成し、且つ対応する音声の追加を含む、
    ことを特徴とする請求項1に記載のインタラクション方法。
  5. 前記画像情報は、ロボットデータベースやユーザギャラリーから取得される、
    ことを特徴とする請求項4に記載のインタラクション方法。
  6. 前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、マルチモード情報を前処理し、ユーザがロボットを制御して作曲する意図を識別することを含み、
    前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて作曲スタイルテンプレートと作曲内容を選択することを含み、
    前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、選択された作曲スタイルテンプレートと作曲内容に基づいてインタラクション内容を生成することを含み、
    前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて作曲動作の3D映像を生成し、且つ対応する音声の追加を含む、
    ことを特徴とする請求項1に記載のインタラクション方法。
  7. 前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、マルチモード情報を前処理し、ユーザがロボットを制御して詩作する意図を識別することを含み、
    前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて詩作スタイルテンプレートと詩作内容を選択することを含み、
    前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、選択された詩作スタイルテンプレートと詩作内容に基づいてインタラクション内容を生成することを含み、
    前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて詩作音声を生成し、且つ詩作動作の3D映像の追加を含む、
    ことを特徴とする請求項1に記載のインタラクション方法。
  8. 前記マルチモード情報を前処理し、ユーザ意図を識別するステップは、マルチモード情報を前処理し、ユーザがロボットを制御して朗読する意図を識別することを含み、
    前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択するステップは、マルチモード情報とユーザ意図に基づいて朗読内容と朗読背景を選択することを含み、
    前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成するステップは、朗読内容と朗読背景に基づいてインタラクション内容を生成することを含み、
    前記イメージングシステムがインタラクション情報に基づいて仮想3D映像を生成するステップは、イメージングシステムがインタラクション内容に基づいて朗読する音声を生成し、且つ朗読動作の3D映像の追加を含む、
    ことを特徴とする請求項1に記載のインタラクション方法。
  9. 仮想ロボットのインタラクションシステムであって、
    ユーザのマルチモード情報を取得する取得モジュール、
    前記マルチモード情報を前処理し、ユーザ意図を識別する意図識別モジュール、
    前記マルチモード情報とユーザ意図に基づいて内容情報を生成して生成テンプレートを選択する処理モジュール、
    前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成する生成モジュール、
    インタラクション内容をイメージングシステムに送信し、イメージングシステムがそれに基づいて仮想3D映像を生成する送信モジュール、
    ロボットが前記インタラクション内容に基づいて評価情報を生成する評価モジュールを備える、
    ことを特徴とするインタラクションシステム。
  10. 前記送信モジュールはまた、インタラクション内容を移動端末に送信し、移動端末がそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示することに用いられる、
    ことを特徴とする請求項9に記載のインタラクションシステム。
  11. ロボットであって、請求項9から10までのいずれかに記載の仮想ロボットのインタラクションシステムを含む
    ことを特徴とするロボット。
  12. 仮想ロボットのインタラクションシステムであって、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、意図識別プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ、メモリを含み、
    前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記意図識別プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記意図識別プロセッサは順次に接続され、前記意図識別プロセッサは前記インタラクション内容プロセッサと接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記音声合成装置、前記パワーアンプと前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
    前記マイクは、ユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータは前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサへの入力に用い、
    前記画像取得装置は、ユーザがいる画像の取得に用い、前記顔認識プロセッサはユーザがいる画像からユーザの表情情報を識別し取得して前記意図識別プロセッサへの入力に用い、
    前記意図識別プロセッサは、前記文字情報と表情情報に基づくユーザ意図の識別に用い、
    前記インタラクション内容プロセッサは、前記文字情報、前記表情情報と前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成し、前記インタラクション内容と評価情報をメモリに記憶することに用い、
    前記イメージングシステムは、前記インタラクション内容に基づいて仮想3D映像を生成し、スピーカーはインタラクション内容に基づいて音声信号を同時に再生する、
    ことを特徴とする仮想ロボットのインタラクションシステム。
  13. またユーザの複数の生理信号を取得し、信号プリプロセッサによって前記生理信号を前処理した後に生理パラメータを得、且つ前記生理パラメータを意図識別プロセッサに送信することに用いる複数のセンサーを含み、
    前記意図識別プロセッサは前記文字情報、前記表情情報と前記生理パラメータに基づくユーザ意図の識別に用い、
    前記インタラクション内容プロセッサは前記文字情報、前記表情情報、前記生理パラメータ及び前記ユーザ意図に基づいて内容情報を生成して生成テンプレートを選択し、前記内容情報と生成テンプレートをデフォルトルールによって組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶することに用いる、
    ことを特徴する請求項12に記載のインタラクションシステム。
  14. また前記インタラクションプロセッサと接続される無線通信装置を含み、前記インタラクション内容プロセッサはまたインタラクション内容を移動端末に送信し、前記移動端末はそれに基づいて画像、音声、文字の一種や多種類を生成し、且つ表示する、
    ことを特徴とする請求項12に記載のインタラクションシステム。
  15. 前記システムはまたユーザが前記移動端末によって返事するインタラクション内容に対する評価を受信し、且つユーザの評価を前記メモリに対応するインタラクション内容カタログに記憶する、
    ことを特徴とする請求項14に記載のインタラクションシステム。
  16. 前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御して作画する意図の識別に用い、
    前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記作画意図に基づいて画像情報を生成して画像スタイルテンプレートを選択し、選択した画像スタイルテンプレートと画像情報を組み合わせた後にインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報を前記メモリに記憶することに用いる、
    ことを特徴とする請求項12に記載のインタラクションシステム。
  17. 前記画像情報はロボットデータベースやユーザギャラリーから取得される、
    ことを特徴とする請求項16に記載のインタラクションシステム。
  18. 前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御して作曲する意図の識別に用い、
    前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記ユーザの作曲意図に基づいて作曲スタイルテンプレートと作曲内容を選択し、作曲スタイルテンプレートと作曲内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する、
    ことを特徴とする請求項12に記載のインタラクションシステム。
  19. 前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御し詩作する意図の識別に用い、
    前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記詩作意図に基づいて詩作スタイルテンプレートと詩作内容を選択し、詩作スタイルテンプレートと詩作内容に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する、
    ことを特徴とする請求項12に記載のインタラクションシステム。
  20. 前記意図識別プロセッサは前記文字情報と表情情報に基づいてユーザがロボットを制御して朗読する意図の識別に用い、
    前記インタラクション内容プロセッサは前記文字情報、前記表情情報及び前記朗読意図に基づいて朗読内容と朗読背景を選択し、朗読内容と朗読背景に基づいてインタラクション内容を生成し、前記インタラクション内容を前記イメージングシステムとスピーカーに送信し、且つ前記インタラクション内容に基づいて評価情報を生成した後、前記インタラクション内容と評価情報をメモリに記憶する、
    ことを特徴とする請求項12に記載のインタラクションシステム。
JP2017133166A 2016-07-07 2017-07-06 仮想ロボットのインタラクション方法、システム及びロボット Pending JP2018014094A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNPCT/CN2016/089219 2016-07-07
PCT/CN2016/089219 WO2018006375A1 (zh) 2016-07-07 2016-07-07 一种虚拟机器人的交互方法、系统及机器人

Publications (1)

Publication Number Publication Date
JP2018014094A true JP2018014094A (ja) 2018-01-25

Family

ID=58838971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017133166A Pending JP2018014094A (ja) 2016-07-07 2017-07-06 仮想ロボットのインタラクション方法、システム及びロボット

Country Status (3)

Country Link
JP (1) JP2018014094A (ja)
CN (1) CN106663127A (ja)
WO (1) WO2018006375A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7469211B2 (ja) 2020-10-21 2024-04-16 東京瓦斯株式会社 対話型コミュニケーション装置、コミュニケーションシステム及びプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678617A (zh) * 2017-09-14 2018-02-09 北京光年无限科技有限公司 面向虚拟机器人的数据交互方法和系统
CN107728780B (zh) * 2017-09-18 2021-04-27 北京光年无限科技有限公司 一种基于虚拟机器人的人机交互方法及装置
CN107748621A (zh) * 2017-11-06 2018-03-02 潘柏霖 一种智能交互机器人
CN108133259A (zh) * 2017-12-14 2018-06-08 深圳狗尾草智能科技有限公司 人工虚拟生命与外界交互的系统及方法
CN108043025A (zh) * 2017-12-29 2018-05-18 江苏名通信息科技有限公司 一种用于网络游戏的人机交互方法
CN108356832B (zh) * 2018-03-07 2021-04-20 佛山融芯智感科技有限公司 一种室内机器人人机互动系统
CN110576433B (zh) * 2018-06-08 2021-05-18 香港商女娲创造股份有限公司 机器人动作生成方法
CN108958050A (zh) * 2018-07-12 2018-12-07 李星仪 用于智能生活应用的展示平台系统
CN109379350A (zh) * 2018-09-30 2019-02-22 北京猎户星空科技有限公司 日程表生成方法、装置、设备及计算机可读存储介质
CN112529992B (zh) * 2019-08-30 2022-08-19 阿里巴巴集团控股有限公司 虚拟形象的对话处理方法、装置、设备及存储介质
CN110868635B (zh) * 2019-12-04 2021-01-12 深圳追一科技有限公司 视频处理方法、装置、电子设备及存储介质
CN111327772B (zh) * 2020-02-25 2021-09-17 广州腾讯科技有限公司 进行自动语音应答处理的方法、装置、设备及存储介质
CN113012300A (zh) * 2021-04-02 2021-06-22 北京隐虚等贤科技有限公司 沉浸式互动内容的创建方法、装置以及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219195A (ja) * 1998-02-04 1999-08-10 Atr Chino Eizo Tsushin Kenkyusho:Kk 対話型詩朗読システム
JP2003296604A (ja) * 2002-04-03 2003-10-17 Yozo Watanabe 曲提供装置、方法及びコンピュータプログラム
JP2006123136A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP2007219393A (ja) * 2006-02-20 2007-08-30 Doshisha 画像から音楽を生成する音楽生成装置
JP2007241764A (ja) * 2006-03-09 2007-09-20 Fujitsu Ltd 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2015138147A (ja) * 2014-01-22 2015-07-30 シャープ株式会社 サーバ、対話装置、対話システム、対話方法および対話プログラム
JP2015206878A (ja) * 2014-04-18 2015-11-19 ソニー株式会社 情報処理装置および情報処理方法
JP2015211403A (ja) * 2014-04-28 2015-11-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 応答システム、応答方法及びコンピュータプログラム
JP2016510452A (ja) * 2013-01-09 2016-04-07 マイクロソフト テクノロジー ライセンシング,エルエルシー アクションを決定する際の非言語コミュニケーションの使用
JP2016099444A (ja) * 2014-11-20 2016-05-30 カシオ計算機株式会社 自動作曲装置、方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2530515A (en) * 2014-09-24 2016-03-30 Sony Comp Entertainment Europe Apparatus and method of user interaction
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219195A (ja) * 1998-02-04 1999-08-10 Atr Chino Eizo Tsushin Kenkyusho:Kk 対話型詩朗読システム
JP2003296604A (ja) * 2002-04-03 2003-10-17 Yozo Watanabe 曲提供装置、方法及びコンピュータプログラム
JP2006123136A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP2007219393A (ja) * 2006-02-20 2007-08-30 Doshisha 画像から音楽を生成する音楽生成装置
JP2007241764A (ja) * 2006-03-09 2007-09-20 Fujitsu Ltd 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2016510452A (ja) * 2013-01-09 2016-04-07 マイクロソフト テクノロジー ライセンシング,エルエルシー アクションを決定する際の非言語コミュニケーションの使用
JP2015138147A (ja) * 2014-01-22 2015-07-30 シャープ株式会社 サーバ、対話装置、対話システム、対話方法および対話プログラム
JP2015206878A (ja) * 2014-04-18 2015-11-19 ソニー株式会社 情報処理装置および情報処理方法
JP2015211403A (ja) * 2014-04-28 2015-11-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 応答システム、応答方法及びコンピュータプログラム
JP2016099444A (ja) * 2014-11-20 2016-05-30 カシオ計算機株式会社 自動作曲装置、方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山本 大介 外: "スマートフォン単体で動作する音声対話3Dエージェント「スマートメイちゃん」の開発", インタラクション2013 情報処理学会 シンポジウムシリーズ VOL.2013 NO.1 [CD−R, JPN6020003740, 21 February 2013 (2013-02-21), JP, pages 675 - 680, ISSN: 0004206459 *
山本 大介: "スマートフォン単体で動作する音声対話3Dエージェント「スマートメイちゃん」の開発", インタラクション2013 情報処理学会 シンポジウムシリーズ VOL.2013 NO.1 [CD−R, JPN6018031098, 21 February 2013 (2013-02-21), JP, pages 675 - 680, ISSN: 0004206460 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7469211B2 (ja) 2020-10-21 2024-04-16 東京瓦斯株式会社 対話型コミュニケーション装置、コミュニケーションシステム及びプログラム

Also Published As

Publication number Publication date
CN106663127A (zh) 2017-05-10
WO2018006375A1 (zh) 2018-01-11

Similar Documents

Publication Publication Date Title
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
US11226673B2 (en) Affective interaction systems, devices, and methods based on affective computing user interface
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
US11423909B2 (en) Word flow annotation
US11511436B2 (en) Robot control method and companion robot
TWI430189B (zh) 訊息擬真處理系統、裝置及方法
CN112162628A (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
CN108326855A (zh) 一种机器人的交互方法、装置、设备以及存储介质
TWI486904B (zh) 律動影像化方法、系統以及電腦可讀取記錄媒體
Scherer et al. A generic framework for the inference of user states in human computer interaction: How patterns of low level behavioral cues support complex user states in HCI
CN111414506B (zh) 基于人工智能情绪处理方法、装置、电子设备及存储介质
CN110598576A (zh) 一种手语交互方法、装置及计算机介质
Oliveira et al. Automatic sign language translation to improve communication
Kabani et al. Emotion based music player
KR20190089451A (ko) 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법
CN110825164A (zh) 基于儿童专用穿戴智能设备的交互方法及系统
KR20200059112A (ko) 로봇 상호작용 시스템 및 그를 위한 프로그램
Liu Analysis of gender differences in speech and hand gesture coordination for the design of multimodal interface systems
CN113205569A (zh) 图像绘制方法及装置、计算机可读介质和电子设备
WO2023246163A1 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
CN111949773A (zh) 一种阅读设备、服务器以及数据处理的方法
JP7130290B2 (ja) 情報抽出装置
Feldman et al. Engagement with artificial intelligence through natural interaction models
JP7096626B2 (ja) 情報抽出装置
Park et al. Music-aided affective interaction between human and service robot

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190809

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200204