JP2018001403A - 音声と仮想動作を同期させる方法、システムとロボット本体 - Google Patents

音声と仮想動作を同期させる方法、システムとロボット本体 Download PDF

Info

Publication number
JP2018001403A
JP2018001403A JP2017133167A JP2017133167A JP2018001403A JP 2018001403 A JP2018001403 A JP 2018001403A JP 2017133167 A JP2017133167 A JP 2017133167A JP 2017133167 A JP2017133167 A JP 2017133167A JP 2018001403 A JP2018001403 A JP 2018001403A
Authority
JP
Japan
Prior art keywords
information
time length
voice
robot
motion information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017133167A
Other languages
English (en)
Other versions
JP6567609B2 (ja
Inventor
ナン チユウ
Nan Qiu
ナン チユウ
ハオフエン ワン
Haofen Wang
ハオフエン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Gowild Robotics Co Ltd
Original Assignee
Shenzhen Gowild Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Gowild Robotics Co Ltd filed Critical Shenzhen Gowild Robotics Co Ltd
Publication of JP2018001403A publication Critical patent/JP2018001403A/ja
Application granted granted Critical
Publication of JP6567609B2 publication Critical patent/JP6567609B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Manipulator (AREA)

Abstract

【課題】音声と仮想動作を同期させる方法、システム及びロボットを提供することで、マンマシンインタラクション体験を向上させる。【解決手段】ユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータに基づき、音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間長と動作情報の時間長に対する同期調整を含む音声と仮想動作を同期させる。ユーザの音声、表情、動作などのマルチモード情報によって、インタラクション内容を生成し、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長に等しいに調整し、ロボットは音声と動作の再生時に同期的マッチさせ、ロボットは音声表現や動作などの多種類の表現方法でインタラクションをすることができ、ロボットの表現方法を多様化にし、それにより、ロボットはもっと擬人化され、ユーザがロボットとのインタラクション体験も向上した。【選択図】図1

Description

本発明はロボットインタラクション技術分野に関し、特には音声と仮想動作を同期させる方法、システム及びロボット本体に関するものである。
ロボットは人類と対話するツールとして、使用する場合が次第に多くなっており、例えばある老人、子供は孤独を感じる時に、ロボットと対話、娯楽などのインタラクションができるようになった。従来のマンマシンインタラクション技術は一般的に、一種類のマンマシンインタラクションモードしか支持できない、例えばユーザに機械的な返事だけができ、せいぜい返事によって限りのある表情をすることにすぎない。市販の児童コンパニオンロボットは、設定された四、五種類しかできなく、こられの簡単な表情は出力された音声と同期させる必要はない。
然も、ユーザがロボットの使用体験に対する要求の向上に伴い、ロボットには、音声で返事すると同時に、もっと擬人化に相応する表情と動作ができることなど、マルチモードで人類と対話する能力の具備は必要となってきた。同時に二種類やその以上の出力方法で人類と対話するために、ロボットは何種類の出力方法を同期させる必要がある。「はい」と言う同時に「うなずく」、「いえ」と言う同時に「首を振る」、怒っている時に目を大きく見開き口を尖らせることなど。そうしてこそ、人類はロボットとのインタラクションから夢中になれるインタラクション体験を得、向かい合う対象が対話可能であるように感じることができる。
ところが、音声と動作がマッチできないと、ユーザのインタラクション体験に甚大な影響を及ぼしてしまう。然しながら、仮想ロボットが返事する内容に含まれる音声と表情などの仮想動作を如何なる同期させるかはかなり複雑な課題であって、ロボット工学、心理学、社会科学など複数の学科に関するものである。それではこの課題の解決が目前に迫っている厄介なものであり、今まで上記課題を比較的よく解決したシステムはまだない。
本発明は音声と仮想動作を同期させる方法、システム及びロボットを提供することで、マンマシンインタラクション体験を向上させることを目的とする。
本発明の目的は下記技術様態で実現される:
音声と仮想動作を同期させる方法であって、
ユーザのマルチモード情報の取得と、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容の生成と、
音声情報の時間長と動作情報の時間長に対する同期調整を含むことを特徴とする音声と仮想動作を同期させる方法。
好ましくは、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
好ましくは、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする。
好ましくは、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
好ましくは、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間と同じようにする。
好ましくは、前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータを整合し、それにより、ロボット可変パラメータを生成することを含む。
好ましくは、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。
好ましくは、マルチモード情報と可変パラメータによってインタラクション内容を生成する前記ステップは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成することを含む。
好ましくは、前記パラメータ変更確率整合曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸になるロボットの各パラメータが変化する確率を計算して、前記パラメータ変化確率の整合曲線を形成することを含む。
音声と仮想動作を同期させるシステムは、
ユーザのマルチモード情報を取得するための取得モジュール、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するための人工知能モジュール、
音声情報の時間と動作情報の時間を同じように調節するための制御モジュールを含む。
好ましくは、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合には、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速め、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。
好ましくは、音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。
好ましくは、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせ、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。
好ましくは、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報における一部の動作を選択して、これらの動作の時間長を前記音声情報の時間長と同じようにする。
好ましくは、前記システムはまた、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合し、それにより、ロボット可変パラメータを生成する処理モジュールを含む。
好ましくは、前記可変パラメータは少なくともユーザの本来の行為と変更後の行為、及びユーザの本来の行為と変更後の行為を表すパラメータの値を含む。
好ましくは、前記人工知能モジュールは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成する。
好ましくは、前記システムは、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成する整合曲線生成モジュールを含む。
本発明は上記のいずれかに記載の音声と仮想動作を同期させるシステムを含むロボットを開示する。
本発明は音声と仮想動作を同期させるシステムを開示し、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ及びメモリを含む。
前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記インタラクション内容プロセッサ、前記音声合成装置、前記パワーアンプ及び前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
前記マイクはユーザとロボットが対話する際に、ユーザの音声信号の取得に用い、前記アナログデジタルコンバータは、前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは、前記音声デジタル情報を文字情報に転化する上で、前記意図識別プロセッサへの入力に用い、
前記画像取得装置はユーザがいる画像の取得に用い、前記顔認識プロセッサはユーザがいる画像からユーザの表情情報を識別し取得して、前記意図識別プロセッサへの入力に用い、
前記インタラクション内容プロセッサは、少なくとも前記文字情報と表情情報を含むユーザのマルチモード情報、及び前記メモリに記憶されている可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調整することに用い、
前記イメージングシステムは前記動作情報によって仮想3D映像を生成し、前記スピーカーは前記音声情報を同時に再生することを特徴する音声と仮想動作を同期させる方法。
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする。
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間長と同じようにする。
好ましくは、ロボット可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合することを介して、ロボット可変パラメータを生成することを含む。
好ましくは、前記可変パラメータは少なくともユーザの本来行為と変更後の行為、及びユーザの本来行為と変更後の行為を表すパラメータの値を含む。
好ましくは、前記マルチモード情報と可変パラメータによってインタラクション内容を生成するステップは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成することを含む。
好ましくは、前記パラメータ変更確率整合曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成することを含む。
従来のマンマシンインタラクション技術は一般に、一種類のマンマシンインタラクションモードだけを支持でき、或いは種類に限りのある表情を出すしかない、例えば、市販の児童コンパニオンロボットは、設定された四、五種類の表情しかできない。
従来技術と比べると、本発明は、音声と仮想動作を同期させる方法を提供し、それがユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間長と動作情報の時間長に対する同期調節を含むという利点を有する。そうすればユーザの音声、表情、動作などのマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間と動作情報の時間長を同じように調節し、それによりロボットが音声と動作を再生する時に同期マッチすることが可能になり、ロボットが音声表現のみならず、また動作などさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、且つ生成したロボットの動作、表情は数種や十数種に限られなく、その代わり、動作ライブラリにおける動作グリップによって任意に組み合わせることが可能で、ロボットはもっと擬人化になるだけでなく、ユーザがロボットとのインタラクションの体験も向上した。
図1は本発明実施例1の音声と仮想動作を同期させる方法の流れを示すフロー図である。 図2は本発明実施例2の音声と仮想動作を同期させるシステムを示す図である。 図3は本発明実施例3の音声と仮想動作を同期させるシステムの回路フレーム図である。 図4は本発明実施例3の音声と仮想動作を同期させるシステムの好ましい回路フレーム図である。 図5は本発明実施例3の音声と仮想動作を同期させるシステムをウェアラブルデバイスと結合することを示す図である。 図6は本発明実施例3の本発明実施例3の音声と仮想動作を同期させるシステムを移動端末と結合することを示す図である。 図7は本発明実施例3の音声と仮想動作を同期させるシステムをロボットと結合する応用場面を示す図である。
フロー図で各操作が順序に処理されるように説明したが、その中に多くの操作は並列、合併又は同時に実行できる。各操作の順序を改めて配置することもできる。操作を完成した時には処理を中止できるが、図面に含まず追加ステップを含有してもよい。該処理は方法、関数、規則、サブルーチン、サブプログラムなどに対応することができる。
コンピュータデバイスはユーザデバイスとネットワークデバイスを含む。ここにおいて、ユーザデバイスやクライアントはコンピュータ、スマートフォン、PDAなどを含むがそれらには限定されなく、ネットワークデバイスはシングルネットワークサーバー、マルチネットワークサーバーからなるサーバーグループ又はクラウドコンピューティングに基づいて数多いコンピュータやネットワークサーバーで構成されるクラウドを含むがそれらには限定されない。コンピュータデバイスは独立運行で本発明を実現してもよく、ネットワークにアクセスして且つそこにおける他のコンピュータデバイスとのインタラクション操作を介して、本発明を実現してもよい。コンピュータデバイスがあるネットワークはインターネット、広域ネットワーク、メトロポリタンエリアネットワーク、ローカルエリアネットワーク、VPNネットワークなどを含むが、それらには限定されない。
ここで、「第一」、「第二」などの専門用語で各ユニットを説明したかもしれないが、これらのユニットはこれらの専門用語に限られなく、これらの専門用語の使用はただ一つのユニットを別のユニットと区別するためだけである。ここで用いる専門用語「及び/又は」は一つや複数の列挙した関連プロジェクトの任意と全部の組み合わせを含む。一つのユニットがもう一つのユニットに「接続」や「結合」された時には、それが前記もう一つのユニットに直接的接続や結合されてもよいが、中間ユニットに存在してもよい。
ここで使用する専門用語はただ具体的な実施例を説明するだけで、例示的実施例を限定することはしない。テキストで別に明示されたもの以外は、使用した単数形「一つ」、「一項」はまた複数を含むことを図っている。なお、理解すべきなのは、ここで使用する「含む」及び/又は「含有する」という専門用語が説明した特徴、整数、ステップ、操作、ユニット及び/又はモジュールの存在を規定するが、一つや更に多い他の特徴、整数、ステップ、操作、ユニット、モジュール及び/又は組み合わせの存在や追加を取り除くわけではない。
下記、図面と優れた実施例を結合して本発明をもっと詳細に説明する。
実施形態1
図1に示すように、本実施例は音声と仮想動作を同期させる方法を開示し、それは、
ユーザのマルチモード情報を取得するステップS101、
ユーザのマルチモード情報と可変パラメータ300に基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するステップS102、
音声情報の時間と動作情報の時間を同じように調節するステップS103を含むことを特徴とする。
本発明の音声と仮想動作を同期させる方法は、ユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間と動作情報の時間に対する同期調節を含む。それにより、ユーザの音声、表情、動作などのマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調節し、それによりロボットは音声と動作を再生する時に同期マッチすることが可能になり、ロボットは音声表現のみならず、また動作などさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっと擬人化になる他、ユーザがロボットとのインタラクションの体験も向上した。
本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。
本実施例において、可変パラメータは具体的に、例えば、時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯に海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加することできる、例えば、ここまで怒り値がないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。
例えば、生活時間軸に従って、午前12時は食事すべき時間であるが、もしこの場面を変えると、例えば午前12時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前12時に食事することのではなく、午前12時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。
本実施例においては、前記音声情報の時間と動作情報の時間長を同じように調節するステップが具体的に、
音声情報の時間と動作情報の時間長との差が閾値以下にある場合に、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速めることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とすことで、動作情報の時間長を前記音声情報の時間長と同じようにする。
そのために、音声情報と動作情報との時間差が閾値より大きいである場合、調節の具体的な意味は音声情報の時間又は/及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことを指してもよい。例えば音声情報の再生速度を2にかけ、それとも動作情報の再生時間を0.8にかけるなど。
例えば、音声情報の時間長と動作情報の時間長との閾値は1分である場合、ロボットはユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間が1分で、動作情報の時間が2分である場合、動作情報の再生速度を元の二倍に速め、それで動作情報が調節された後の再生時間は1分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の0.5倍に調節してもよく、それにより音声情報の調節された後の再生時間は2分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも1分30秒まで調節することも、音声と動作を同期させることが可能となる。
その他、本実施例において、前記音声情報の時間長と動作情報の時間長を同じように調節する具体的なステップは、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
音声情報の時間長が動作情報の時間長より小さいである場合、動作情報における一部の動作を選択することで、それらの動作の時間長を前記音声情報の時間長と同様にする。
そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節は一部の動作情報を追加や削除することを指し、それにより、動作情報の時間長を音声情報の時間長と同様にする。
例えば、音声情報の時間長と動作情報の時間長との閾値が30秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が3分で、動作情報の時間が1分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が2分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間長と同様にマッチできる。勿論、もし時間が2分である動作情報の代わりに、2分半である動作情報を見つけた場合は、この2分半の動作情報から、選択された動作情報の時間が2分であるように一部の動作(一部のフレーム)を選択し、そうすると音声情報の時間長を同様にマッチできる。
本実施例においては、音声情報の時間長によって、音声情報の時間長と最も近い動作情報の選択、更に動作情報の時間長によって最も近い音声情報の選択も可能である。
そうすると、音声情報の時間長による選択を介して、制御モジュールは音声情報と動作情報の時間長を調節しやすくなり、もっと容易に一致まで調節でき、且つ調節された再生もより自然で、平滑になった。
その中の一つの実施例によって、音声情報の時間長と動作情報の時間長を同じように調節するステップに続いて、調節された後の音声情報と動作情報を仮想映像に出力して表示することを含む。
そうすると一致するまで調節した後に出力でき、仮想映像での出力が可能であるため、それにより、仮想ロボットはもっと擬人化になり、ユーザ体験は向上した。
そのうちの一つの実施例によって、前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータを整合して、ロボット可変パラメータを生成することを含む。そうすると可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータを整合し、擬人化の影響をもたらす。
そのうちの一つの実施例によって、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。
可変パラメータは即ち、本来の計画にそっては特定の状態にあるべきが、突発した変化でユーザが別の状態に入り、可変パラメータはこの行為や状態の変化、及び変化後ユーザの状態や行為を表す。例えば、午後5時に走るべきであるが、突然ボールゲームをするなどの他の用事があって、走ることからボールゲームをすることへの変更は可変パラメータになり、それにこの変更が発生する確率を研究すべきである。
そのうちの一つの実施例によって、前記マルチモード情報と可変パラメータに基づいてインタラクション内容を生成するステップは具体的に、マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む。
そうすると可変パラメータの確率訓練を経由して整合曲線を生成でき、それによりロボットインタラクション内容を生成できる。
そのうちの一つの実施例によって、前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、整合曲線を形成することを含む。ここにおいて、確率アルゴリズムはベイズ確率アルゴリズムを使用してもよい。
可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータと整合して、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。
実施形態2
図2に示すように、本発明に開示した音声と仮想動作を同期させるシステムは、
ユーザのマルチモード情報を取得するための取得モジュール201と、
ユーザのマルチモード情報、及び可変パラメータモジュール205で生成された可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するための人工知能モジュール202と、
音声情報の時間長と動作情報の時間長を同じように調節する制御モジュール203を含む。
そうすると、ユーザの音声、表情、動作などの一種や多種類を含むユーザのマルチモード情報に基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調節し、それによりロボットが音声と動作を再生する時に同時にマッチできるようになり、ロボットが音声表現のみならず、また動作などのさまざまな表現形式で対話できるようになり、ロボットの表現方法を多様化し、ロボットはもっと擬人化になり、ユーザのインタラクション体験を向上させた。
本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。
本実施例において、可変パラメータは具体的に、例えば時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯にロボットを海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加することができる、例えば、ここまで怒り値はないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。
例えば、生活時間軸に従って、午前12時は食事すべき時間であるが、もしこの場面を変えると、例えば午前12時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前12時に食事することのではなく、午前12時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。
本実施例において、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合に、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速めることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とすことで、動作情報の時間長を前記音声情報の時間長と同じようにする。
そのため、音声情報と動作情報との時間差が閾値より大きいである場合に、調節の具体的な意味は音声情報の時間長又は/及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことをさしてもよい。例えば音声情報の再生速度を2にかけ、それとも動作情報の再生時間を0.8にかけるなど。
例えば、音声情報の時間長と動作情報の時間長との閾値は1分で、ロボットがユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間長が1分で、動作情報の時間長が2分である場合、動作情報の再生速度を元の二倍に速めてもよく、それで動作情報の調節後の再生時間は1分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の0.5倍に調節してもよく、それにより音声情報の調節後の再生時間は2分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも1分30秒まで調節することも、音声と動作を同期させることが可能となる。
その他、本実施例において、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせることで、動作情報の時間長を前記音声情報の時間長と同じようにする。
音声情報の時間長が動作情報の時間長より小さいである場合、動作情報における一部の動作を選択することで、それらの動作の時間長を前記音声情報の時間と同様にする。
そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節する意味は一部の動作情報を追加や削除することで、動作情報の時間長を音声情報の時間長と同様にする。
例えば、音声情報の時間長と動作情報の時間長との閾値が30秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が3分で、動作情報の時間が1分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が2分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間長と同様にマッチできる。勿論、もし時間が2分である動作情報の代わりに、2分半である動作情報を見つけた場合は、この2分半の動作情報から、選択された動作情報の時間が2分であるように一部の動作(一部のフレーム)を選択し、そうすると音声情報の時間長を同様にマッチできる。
本実施例において、人工知能モジュールは具体的に、音声情報の時間長によって、音声情報の時間長と最も近い動作情報の選択、更に動作情報の時間長によって最も近い音声情報の選択に使用しても可能である。
そうすると、音声情報の時間長による選択を介して、制御モジュールは音声情報と動作情報の時間長を調節しやすくなり、もっと容易に一致するまで調節でき、且つ調節された再生もより自然で、平滑になった。
その中の一つの実施例によって、前記システムはまた、調節後の音声情報と動作情報を仮想映像に出力して表示するための出力モジュール204を含む。
そうすると一致するまで調節した後出力することは、仮想映像による出力としてよく、それにより、仮想ロボットを擬人化し、ユーザ体験を向上した。
そのうちの一つの実施例によって、前記システムはまた、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合して、可変パラメータを生成するための処理モジュールを含む。
そうすると、可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。
そのうちの一つの実施例によって、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。
可変パラメータは即ち、本来の計画にそっては特定の状態にあるべきが、突発した変化でユーザが別の状態に入り、可変パラメータはこの行為や状態の変化、及び変化後ユーザの状態や行為を表す。例えば、午後5時に走るべきであるが、突然ボールゲームをするなどの他の用事があって、走ることからボールゲームをすることへの変更は可変パラメータになり、それにこの変更が発生する確率を研究すべきである。
そのうちの一つの実施例によって、前記人工知能モジュールは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成する。
そうすると、可変パラメータの確率訓練を経由して制御曲線を生成でき、それによりロボットインタラクション内容を生成できる。
そのうちの一つの実施例によって、前記システムは確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、前記パラメータ変化確率の整合曲線を形成するための整合曲線生成モジュールを含む。ここにおいて確率アルゴリズムはベイズ確率アルゴリズムであってもよい。
可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。
本発明はロボット本体を開示し、上記のいずれかに記載の音声と仮想動作を同期させるシステムを含む。
実施形態3
図3に示すように、本実施例は音声と仮想動作を同期させるシステム300を開示し、マイク301、アナログデジタルコンバータ302、音声識別プロセッサ303、画像取得装置304、顔認識プロセッサ305、インタラクション内容プロセッサ306、音声合成装置307、パワーアンプ308、スピーカー309、イメージングシステム310及びメモリ311を含む。
前記マイク310、前記アナログデジタルコンバータ302、前記音声識別プロセッサ303と前記インタラクション内容プロセッサ306は順次に接続され、前記画像取得装置304、前記顔認識プロセッサ305と前記インタラクション内容プロセッサ306は順次に接続され、前記インタラクション内容プロセッサ306はメモリ311と接続され、前記インタラクション内容プロセッサ306、音声合成装置307、前記パワーアンプ308及び前記スピーカー309は順次に接続され、前記イメージングシステム310はインタラクション内容プロセッサ306と接続される。
前記マイク310はユーザとロボットが対話する際に、ユーザの音声信号を取得することに用い、前記アナログデジタルコンバータ302は前記音声信号を音声デジタル情報に転換することに用い、前記音声識別プロセッサ303は前記音声デジタル情報を文字情報に転化する上で、前記インタラクション内容プロセッサ306に入力することに用いる。
前記画像取得装置304はユーザがいる画像の取得に用い、前記顔認識プロセッサ405はユーザがいる画像から、ユーザの表情情報を識別し取得して前記インタラクション内容プロセッサ306に入力することに用いる。画像取得装置304はビデオカメラ、カメラなどとしてもよいが、ユーザの表情情報を識別する他、またユーザのいる環境、ユーザの手振り情報なども識別し、これらの情報をインタラクション内容プロセッサ306への入力としてもよく、それにより、生成したインタラクション内容はユーザの現在の需要によりよく合う。
前記インタラクション内容プロセッサ306は、少なくとも前記文字情報と前記表情情報を含むユーザのマルチモード情報と、前記メモリ311に記憶した可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節することに用いる。ここにおいて、まずはユーザのマルチモード情報と可変パラメータに基づいてインタラクション内容の音声情報を生成し、それによってメモリ311の動作ライブラリから適切な動作グリップを選択し、適切な遷移動作を追加して完全の動作情報を完成する。
ここにおいて、可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。可変パラメータは具体的に、例えば時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯にロボットを海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加できる、例えば、ここまで怒り値はないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。例えば、生活時間軸に従って、午前12時は食事すべき時間であるが、もしこの場面を変えると、例えば午前12時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前12時に食事することのではなく、午前12時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。
インタラクション内容プロセッサ306には、音声情報の時間長と動作情報の時間長を同じように調節する具体的なステップが、音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより、動作情報の時間長を前記音声情報の時間長に等しいにし、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長に等しいにする。
そのために、音声情報と動作情報との時間差が閾値より大きいである場合、調節の具体的な意味は音声情報の時間又は/及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことを指してもよい。例えば音声情報の再生速度を2にかけ、それとも動作情報の再生時間を0.8にかけるなど。
例えば、音声情報の時間長と動作情報の時間長との閾値は1分である場合、ロボットはユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間が1分で、動作情報の時間が2分である場合、動作情報の再生速度を元の二倍に速め、それで動作情報の調節された後の再生時間は1分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の0.5倍まで落としてもよく、それにより音声情報が調節された後の再生時間は2分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも1分30秒まで調節することも、音声と動作を同期させることが可能となる。
ここにおいて、インタラクション内容プロセッサ306には、音声情報の時間と動作情報の時間と同じように調節する具体的なステップが、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長に等しいにし、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長を前記音声情報の時間長に等しいにすることを含む。
そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節は一部の動作情報を追加や削除することを指し、それにより、動作情報の時間長を音声情報の時間長と同様にする。
例えば、音声情報の時間長と動作情報の時間長との閾値が30秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が3分で、動作情報の時間が1分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が2分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間と同様にマッチできる。勿論、もし時間が2分である動作情報の代わりに、2分半である動作情報を見つけた場合は、この2分半の動作情報から、選択された動作情報の時間が2分であるように一部の動作(一部のフレーム)を選択し、そうすると音声情報の時間長を同様にマッチできる。
イメージングシステム310は前記インタラクション内容に基づいて仮想3D映像を生成し、スピーカー309はインタラクション内容に基づいて音声信号を同期に放送する。ここで、イメージングシステム310は普通のディスプレイとしてもよく、ホログラフィック投影装置としてもよく、それにより表示したロボットの立体感と真実性を増加し、ユーザの体験を高める。
メモリ311はインタラクション内容プロセッサ306が操作する時に用いるデータの記憶に用いられることが可能である。選択できるのは、インタラクション内容プロセッサ311はCPU(中央処理装置)、ASIC(Application Specific Integrated Circuit、特定用途向け集積回路)、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)やCPLD(Complex Programmable Logic Device、コンプレックスプログラマブルロジックデバイス)としてもよい。
図4に示すように、本実施例に開示された音声と動作を同期させるシステム300はまた複数のセンター313を含み、該センサー313はユーザのいくつかの生理信号を取得し、信号プリプロセッサ314によって生理信号を前処理した後生理パラメータを得、且つ生理パラメータをインタラクション内容プロセッサー306に送信する。相応的に、インタラクション内容プロセッサ311は文字情報、表情情報、生理パラメータによってインタラクション内容を生成し、インタラクション内容にある動作情報をイメージングシステム310に送信し、インタラクション内容にある音声情報をスピーカー309に送信する。
音声と仮想動作を同期させるシステム300におけるセンサー313は光センサー、虹彩認識センサー、指紋取得センサー、温度センサー、心拍数センサーなどを含むがそれらには限定されなく、それにより、ユーザの光感知情報、虹彩情報、指紋情報、体温情報、心拍数情報などにおける一種や多種類の生理信号を含むマルチモード情報を豊富にする。
本実施例にはマイク301、画像取得装置304、センサー313が取得し出力する情報をマルチモード情報と総称する。
本実施例の音声と仮想動作を同期させるシステム300によっては、ユーザのマルチモード情報を取得でき、前記マルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節できる。それにより、ユーザの音声、表情、動作などを含むマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調整し、それによりロボットは音声と動作を再生する時に同期マッチできるようになり、ロボットは音声表現のみならず、また動作などのさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっと擬人化になる他、ユーザのインタラクション体験も向上した。
図5に示すように、一部のセンサー313は音声と仮想動作を同期させるシステム300と一体に集積され、一部のセンサー313はウェアラブルデバイス400に集積されることが可能である、例えば温度センサー、心拍数センサーをスマートリストバンドに集積し、無線通信装置によって取得した情報を音声と仮想動作を同期させるシステム300におけるインタラクション内容プロセッサ306に送信する。図5はただ音声と仮想動作を同期させるシステム300における無線通信装置とインタラクション内容プロセッサ306との接続関係を表示するだけで、音声と仮想動作を同期させるシステム300における他の接続関係は図3と図4に例示された。
システム300はまた、ロボットの可変パラメータを生成するための可変パラメータプロセッサを含み、具体的には、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータに整合して、ロボット可変パラメータを生成することを含む。そうすると可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。
ここにおいて、前記マルチモード情報と可変パラメータに基づいて、インタラクション内容を生成するステップは具体的に、マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む。そうすると可変パラメータの確率訓練を経由して整合曲線を生成でき、それによりロボットインタラクション内容を生成できる。
ここにおいて、前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、整合曲線を形成することを含む。ここにおいて、確率アルゴリズムはベイズ確率アルゴリズムを使用してもよい。
可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータと整合して、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。
本実施例に開示されたシステム300はまた無線通信装置314を含み、図6に示すように、無線通信装置314はインタラクション内容プロセッサ306と接続され、インタラクション内容プロセッサ306はインタラクション内容を移動端末500まで送信し、移動端末500は動作情報によって仮想3D映像を生成し、且つ移動端末500のスピーカーによって音声情報同時に再生する。図6はただ音声と仮想動作を同期させるシステム300における無線通信装置とインタラクション内容プロセッサ311との接続関係を表示するだけで、音声と仮想動作を同期させるシステム300における他の接続関係は図3と図4に例示された。
本実施例に開示された仮想ロボットの音声と仮想動作を同期させるシステム300は、多方面でロボットの人類と対話する形式を豊富にし、ロボットがもっと擬人化に人類と対話でき、該システムはロボットが生成したインタラクション内容の擬人性、及び人類のインタラクション体験を向上させ、且つインテリジェント性を高めることができる。
図7に示すように、音声と仮想動作を同期させるシステム300はまたロボット600の内部に集積されてもよく、ロボット600に備えられた音声取得装置612、ビデオカメラ611、各種類のセンサー(図4に表示されない)、GPSナビゲーション装置(図4に表示されない)などによってユーザのマルチモード情報を取得して、インタラクション内容プロセッサ306に送信でき、例えば、ユーザがロボットをある場所に連れる時に、GPSナビゲーション装置を介してユーザがいる位置情報が得られ、そうして生活時間軸と結合することで可変パラメータを得、且つロボット本体の自己認識を拡大し、自己認識パラメータと可変パラメータにおける応用場面パラメータを整合して、擬人化の影響をもたらす。
インタラクション内容プロセッサ306はメモリ311に記憶されたプログラムの読み取り、下記プロセスを実行することに用いる:ユーザのマルチモード情報を取得し、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を等しいにしh、音声情報と動作情報が同様になるように、出力時間長を調節する。インタラクション内容プロセッサ306から出力された音声情報はロボット600の音声システム613で再生され、ロボット600のホストコントローラによって、インタラクション内容プロセッサ306から出力された動作情報をロボットのそれぞれの関節の制御信号まで転化し、ロボットのそれぞれの関節614の運動を制御し、それにより、ロボット600を音声と同期する動作をさせ、例えば、ロボット600のヘッドの内側における関節によってヘッドの横向け揺れ、前後の振り、及びうなずく動作を制御し、ロボットの運動を制御する具体的な方法は従来技術であるため、本文で詳細に説明しない。インタラクション内容プロセッサ306で処理されたデータを、無線通信装置314を経由して、無線媒質で伝送し、更に、無線通信装置314はまた、データを受信してからそれをインタラクション内容プロセッサ306に転送し、ロボット600は無線通信装置314によってインターネットにアクセスできる他、またインターネットによってユーザのさまざまなデータを取得やアップロードすることができ、また無線通信装置314を介してユーザの移動端末にアクセスし、ロボットと対話するやロボットに対して、各種類の設定をすることができる。
音声と仮想動作を同期させるシステムも電子デバイス端末をキャリアとして、ソフトウェアを経由して実現でき、スマートフォンによるキャリアで例示すると、情報取得装置はスマートフォンに既存している音声取得装置、ビデオカメラ、各種類のセンサー、GPSナビゲーション装置などを再利用して、ユーザのマルチモード情報を取得し、且つスマートフォンに内蔵したプロセッサに送信した後、プロセッサはメモリーに記憶されたプログラムを読み取り、下記プロセスを実行する:ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節し、音声情報と動作情報が同様になるように、出力時間長を調節する。スマートフォンのスクリーンで仮想ロボットの動作を表示し、スピーカーで音声を同時に再生する。スマートフォンの無線通信モジュールによって外部のデバイスやネットワークと接続され、データインタラクションを完成する。
本実施例の音声と仮想動作を同期させるシステムは、ユーザの音声、表情、動作などを含むマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調整し、それにより、ロボットは音声と動作を再生する時に同期マッチすることが可能になり、ロボットは音声表現のみならず、また動作などの多種類の表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっとり擬人化になる他、ユーザがロボットとのインタラクション体験も向上した。
上記内容は具体的な好ましい実施様態を結合した上で、本発明に対する更に詳細な説明であるが、本発明の具体的な実施例がこれらの説明に限定されるわけではない。当業者にとっては、本発明の精神から脱逸しない前提で、上記実施様態にさまざまな変更・改良を加えることが可能であって、本発明の保護範囲に属するべきである。

Claims (20)

  1. 音声と仮想動作を同期させる方法であって、
    ユーザのマルチモード情報の取得、
    ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容の生成、
    音声情報の時間長と動作情報の時間長に対する同期調整を含む
    ことを特徴とする音声と仮想動作を同期させる方法。
  2. 音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
    音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長に等しいにすることを含む
    ことを特徴とする請求項1に記載の方法。
  3. 音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長に等しいにする
    ことを特徴とする請求項2に記載の方法。
  4. 音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
    音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長に等しいにすることを含む
    ことを特徴とする請求項1に記載の方法。
  5. 音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間に等しいにする
    ことを特徴とする請求項4に記載の方法。
  6. 前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータに整合することで、ロボット可変パラメータを生成することを含む
    ことを特徴とする請求項1に記載の方法。
  7. 前記可変パラメータは少なくともユーザの本来の行為と変更した後の行為、及びユーザの本来の行為と変更した後の行為を表すパラメータを含む
    ことを特徴とする請求項6に記載の方法。
  8. マルチモード情報と可変パラメータに基づいてインタラクション内容を生成する前記ステップは、具体的に、
    マルチモード情報と可変パラメータ及びパラメータの変更確率を表す整合曲線によってインタラクション内容を生成することを含む
    ことを特徴とする請求項1に記載の方法。
  9. パラメータ変更確率の整合曲線を生成する前記方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成することを含む
    ことを特徴とする請求項8に記載の方法。
  10. 音声と仮想動作を同期させるシステムであって、
    ユーザのマルチモード情報を取得する取得モジュールと、
    ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成する人工知能モジュールと、
    前記音声情報の時間長と動作情報の時間長を同じように調整する制御モジュールとを含む
    ことを特徴とするシステム。
  11. ロボットであって、請求項10に記載の音声と仮想動作を同期させるシステムを含むことを特徴とするロボット。
  12. 音声と仮想動作を同期させるシステムであって、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ及びメモリを含み、
    前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記インタラクション内容プロセッサ、前記音声合成装置、前記パワーアンプ及び前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
    前記マイクはユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータは前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサへの入力に用い、
    前記画像取得装置はユーザがいる画像の取得に用い、前記顔認識プロセッサはユーザがいる画像からユーザの表情情報を識別し取得して前記意図識別プロセッサへの入力に用い、
    前記インタラクション内容プロセッサは、少なくとも前記文字情報と表情情報を含むユーザのマルチモード情報、及び前記メモリに記憶されている可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調整することに用い、
    前記イメージングシステムは前記動作情報によって仮想3D映像を生成し、前記スピーカーは前記音声情報を同時に再生する、
    ことを特徴する音声と仮想動作を同期させる方法。
  13. 前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
    音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにする
    ことを含む、ことを特徴とする請求項1に記載の方法。
  14. 前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする
    ことを特徴とする請求項13に記載の方法。
  15. 前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
    音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む
    ことを特徴とする請求項1に記載の方法。
  16. 前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間と同じようにする
    ことを特徴とする請求項15に記載の方法システム。
  17. ロボット可変パラメータを生成する方法は、ロボットの自己認識パラメータと可変パラメータにおける場面パラメータを整合し、ロボット可変パラメータを生成することを含む、ことを特徴とする請求項12に記載のシステム。
  18. 前記可変パラメータは少なくともユーザ本来の行為の変更と変えられた後の行為、及びユーザ本来の行為の変更と変えられた後の行為を表すパラメータの値を含む
    ことを特徴とする請求項17に記載のシステム。
  19. マルチモード情報と可変パラメータに基づいてインタラクション内容を生成する前記ステップは、具体的に、
    マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む
    ことを特徴とする請求項12に記載のシステム。
  20. 前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算してから、整合曲線を形成する
    ことを含むことを特徴とする請求項19に記載のシステム。
JP2017133167A 2016-07-07 2017-07-06 音声と仮想動作を同期させる方法、システムとロボット本体 Expired - Fee Related JP6567609B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/CN2016/089213 WO2018006369A1 (zh) 2016-07-07 2016-07-07 一种同步语音及虚拟动作的方法、系统及机器人
WOPCT/CN2016/089213 2016-07-07

Publications (2)

Publication Number Publication Date
JP2018001403A true JP2018001403A (ja) 2018-01-11
JP6567609B2 JP6567609B2 (ja) 2019-08-28

Family

ID=58230946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017133167A Expired - Fee Related JP6567609B2 (ja) 2016-07-07 2017-07-06 音声と仮想動作を同期させる方法、システムとロボット本体

Country Status (3)

Country Link
JP (1) JP6567609B2 (ja)
CN (1) CN106471572B (ja)
WO (1) WO2018006369A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109822587A (zh) * 2019-03-05 2019-05-31 哈尔滨理工大学 一种用于厂矿医院的语音导诊机器人头颈部装置及控制
JP7510042B2 (ja) 2020-01-27 2024-07-03 株式会社Mixi 情報処理システム、端末装置、端末装置の制御方法、及びプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107457787B (zh) * 2017-06-29 2020-12-08 杭州仁盈科技股份有限公司 一种服务机器人交互决策方法和装置
CN107577661B (zh) * 2017-08-07 2020-12-11 北京光年无限科技有限公司 一种针对虚拟机器人的交互输出方法以及系统
CN107784355A (zh) * 2017-10-26 2018-03-09 北京光年无限科技有限公司 虚拟人多模态交互数据处理方法和系统
CN110610703A (zh) * 2019-07-26 2019-12-24 深圳壹账通智能科技有限公司 基于机器人识别的语音输出方法、装置、机器人及介质
WO2021085193A1 (ja) * 2019-10-30 2021-05-06 ソニー株式会社 情報処理装置、及びコマンド処理方法
CN115497499A (zh) * 2022-08-30 2022-12-20 阿里巴巴(中国)有限公司 语音和动作时间同步的方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143351A (ja) * 1996-11-13 1998-05-29 Sharp Corp インタフェース装置
JPH11265239A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 感情生成装置及び感情生成方法
JP2001179667A (ja) * 1999-12-28 2001-07-03 Sony Corp 同期制御装置および方法、並びに記録媒体
JP2004034273A (ja) * 2002-07-08 2004-02-05 Mitsubishi Heavy Ind Ltd ロボット発話中の動作プログラム生成装置及びロボット
JP2005003926A (ja) * 2003-06-11 2005-01-06 Sony Corp 情報処理装置および方法、並びにプログラム
WO2006082787A1 (ja) * 2005-02-03 2006-08-10 Matsushita Electric Industrial Co., Ltd. 記録再生装置および記録再生方法および記録再生プログラムを格納した記録媒体および記録再生装置において用いられる集積回路
JP2008040726A (ja) * 2006-08-04 2008-02-21 Univ Of Electro-Communications ユーザ支援システム及びユーザ支援方法
JP2009233764A (ja) * 2008-03-26 2009-10-15 Toyota Motor Corp 動作生成装置、ロボット及び動作生成方法
JP2011054088A (ja) * 2009-09-04 2011-03-17 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、プログラム及び対話システム
JP2011166827A (ja) * 1996-12-04 2011-08-25 Panasonic Corp 高解像度および立体映像記録用光ディスク、光ディスク再生装置、および光ディスク記録装置
JP2012504810A (ja) * 2008-10-03 2012-02-23 ビ−エイイ− システムズ パブリック リミテッド カンパニ− システムにおける故障を診断するモデルの更新の支援
JP2012215645A (ja) * 2011-03-31 2012-11-08 Speakglobal Ltd コンピュータを利用した外国語会話練習システム
CN103596051A (zh) * 2012-08-14 2014-02-19 金运科技股份有限公司 电视装置及其虚拟主持人显示方法
CN105598972A (zh) * 2016-02-04 2016-05-25 北京光年无限科技有限公司 一种机器人系统及交互方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
JP4670136B2 (ja) * 2000-10-11 2011-04-13 ソニー株式会社 オーサリング・システム及びオーサリング方法、並びに記憶媒体
US20090044112A1 (en) * 2007-08-09 2009-02-12 H-Care Srl Animated Digital Assistant
CN101364309B (zh) * 2008-10-09 2011-05-04 中国科学院计算技术研究所 一种源虚拟角色上的口形动画生成方法
CN101604204B (zh) * 2009-07-09 2011-01-05 北京科技大学 智能情感机器人分布式认知系统
CN101968894A (zh) * 2009-07-28 2011-02-09 上海冰动信息技术有限公司 根据汉字自动实现音唇同步的方法
CN104574478A (zh) * 2014-12-30 2015-04-29 北京像素软件科技股份有限公司 一种编辑动画人物口型的方法及装置
CN104866101B (zh) * 2015-05-27 2018-04-27 世优(北京)科技有限公司 虚拟对象的实时互动控制方法及装置
CN104883557A (zh) * 2015-05-27 2015-09-02 世优(北京)科技有限公司 实时全息投影方法、装置及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143351A (ja) * 1996-11-13 1998-05-29 Sharp Corp インタフェース装置
JP2011166827A (ja) * 1996-12-04 2011-08-25 Panasonic Corp 高解像度および立体映像記録用光ディスク、光ディスク再生装置、および光ディスク記録装置
JPH11265239A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 感情生成装置及び感情生成方法
JP2001179667A (ja) * 1999-12-28 2001-07-03 Sony Corp 同期制御装置および方法、並びに記録媒体
JP2004034273A (ja) * 2002-07-08 2004-02-05 Mitsubishi Heavy Ind Ltd ロボット発話中の動作プログラム生成装置及びロボット
JP2005003926A (ja) * 2003-06-11 2005-01-06 Sony Corp 情報処理装置および方法、並びにプログラム
WO2006082787A1 (ja) * 2005-02-03 2006-08-10 Matsushita Electric Industrial Co., Ltd. 記録再生装置および記録再生方法および記録再生プログラムを格納した記録媒体および記録再生装置において用いられる集積回路
JP2008040726A (ja) * 2006-08-04 2008-02-21 Univ Of Electro-Communications ユーザ支援システム及びユーザ支援方法
JP2009233764A (ja) * 2008-03-26 2009-10-15 Toyota Motor Corp 動作生成装置、ロボット及び動作生成方法
JP2012504810A (ja) * 2008-10-03 2012-02-23 ビ−エイイ− システムズ パブリック リミテッド カンパニ− システムにおける故障を診断するモデルの更新の支援
JP2011054088A (ja) * 2009-09-04 2011-03-17 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、プログラム及び対話システム
JP2012215645A (ja) * 2011-03-31 2012-11-08 Speakglobal Ltd コンピュータを利用した外国語会話練習システム
CN103596051A (zh) * 2012-08-14 2014-02-19 金运科技股份有限公司 电视装置及其虚拟主持人显示方法
CN105598972A (zh) * 2016-02-04 2016-05-25 北京光年无限科技有限公司 一种机器人系统及交互方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109822587A (zh) * 2019-03-05 2019-05-31 哈尔滨理工大学 一种用于厂矿医院的语音导诊机器人头颈部装置及控制
CN109822587B (zh) * 2019-03-05 2022-05-31 哈尔滨理工大学 一种用于厂矿医院的语音导诊机器人头颈部装置控制方法
JP7510042B2 (ja) 2020-01-27 2024-07-03 株式会社Mixi 情報処理システム、端末装置、端末装置の制御方法、及びプログラム

Also Published As

Publication number Publication date
CN106471572B (zh) 2019-09-03
JP6567609B2 (ja) 2019-08-28
WO2018006369A1 (zh) 2018-01-11
CN106471572A (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
JP6567609B2 (ja) 音声と仮想動作を同期させる方法、システムとロボット本体
JP6888096B2 (ja) ロボット、サーバおよびヒューマン・マシン・インタラクション方法
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
JP6567610B2 (ja) 音声と仮想動作を同期させる方法、システムとロボット本体
TWI766499B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
KR101306221B1 (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
US20160134840A1 (en) Avatar-Mediated Telepresence Systems with Enhanced Filtering
KR102491140B1 (ko) 가상 아바타 생성 방법 및 장치
WO2019041902A1 (zh) 表情动画生成方法和装置、存储介质及电子装置
WO2022105846A1 (zh) 虚拟对象显示方法及装置、电子设备、介质
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
WO2022170958A1 (zh) 基于增强现实的显示方法、设备、存储介质及程序产品
WO2018006370A1 (zh) 一种虚拟3d机器人的交互方法、系统及机器人
US11908056B2 (en) Sentiment-based interactive avatar system for sign language
WO2022252866A1 (zh) 一种互动处理方法、装置、终端及介质
WO2022079933A1 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
CN115049016B (zh) 基于情绪识别的模型驱动方法及设备
WO2010063217A1 (zh) 一种生成视频动画的方法及装置
US20230130535A1 (en) User Representations in Artificial Reality
KR101913811B1 (ko) 얼굴 표현 및 심리 상태 파악과 보상을 위한 얼굴 정보 분석 방법 및 얼굴 정보 분석 장치
CN114049871A (zh) 基于虚拟空间的音频处理方法、装置和计算机设备
KR101996973B1 (ko) 비디오 생성 시스템 및 방법
CN114170648A (zh) 视频生成方法、装置、电子设备及存储介质
US20230063681A1 (en) Dynamic augmentation of stimuli based on profile of user
WO2022249604A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190731

R150 Certificate of patent or registration of utility model

Ref document number: 6567609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees