JP2020064616A - 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器 - Google Patents

仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器 Download PDF

Info

Publication number
JP2020064616A
JP2020064616A JP2019163325A JP2019163325A JP2020064616A JP 2020064616 A JP2020064616 A JP 2020064616A JP 2019163325 A JP2019163325 A JP 2019163325A JP 2019163325 A JP2019163325 A JP 2019163325A JP 2020064616 A JP2020064616 A JP 2020064616A
Authority
JP
Japan
Prior art keywords
information
streamer
virtual robot
user
interactive information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019163325A
Other languages
English (en)
Other versions
JP6902683B2 (ja
Inventor
兆祥 劉
Zhao Xiang Liu
兆祥 劉
士國 廉
Shi Guo Lian
士國 廉
寧 王
Yasushi O
寧 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shenzhen Robotics Systems Co Ltd
Original Assignee
Cloudminds Shenzhen Robotics Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Shenzhen Robotics Systems Co Ltd filed Critical Cloudminds Shenzhen Robotics Systems Co Ltd
Publication of JP2020064616A publication Critical patent/JP2020064616A/ja
Application granted granted Critical
Publication of JP6902683B2 publication Critical patent/JP6902683B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Robotics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】仮想ロボットとユーザとの間のインタラクションを実現し、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズに応えることができる仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器を提供する。【解決手段】インタラクション方法は、ユーザより入力された仮想ロボットとインタラクションするインタラクティブ情報を取得するステップと、インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た仮想ロボットの制御モデルに入力するステップと、制御モデルがインタラクティブ情報に基づいて出力した行動制御情報に基づいて、仮想ロボットに対して行動制御を行うステップとを含む。【選択図】図1

Description

本開示は、ヒューマンコンピュータインタラクションの分野に関し、具体的には、仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器に関する。
現在、仮想アイドルは、エンターテインメント分野において新たなスポットライトとなり、人々の中で人気を集めてきた。しかしながら、伝統的な仮想アイドルは、主にシステムにより事前設定され、キャラクター、プロットの発展、インタラクション方式などの要素に基づいて事前に実装されており、視聴者とリアルタイムで対話することはできず、柔軟性および適用性は低い。
ネットワークのライブストリーミング業界の発展に伴い、ユーザは、ネットワークのライブストリーミングプラットフォームにおいてライブストリーミングを視聴し、文字を通じてストリーマーと対話したり、さらにはストリーマーへ仮想賞品を贈ったりすることができ、従来の仮想アイドル技術は、ライブストリーミングプラットフォームに適用してライブストリーミングを達成することはできず、ライブルームの従来の補助ロボットの機能も比較的単純で、主に音声に基づいており、人々の感情的なコミュニケーションやアクションのコミュニケーションのエクスペリエンスを満たすことができない。
本開示の主な目的は、上記関連技術に存在する問題を解決するために、仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器を提供することである。
上記目的を達成させるために、本開示の実施例の第1態様は、仮想ロボットのインタラクション方法を提供し、該方法は、
ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得するステップと、
前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するステップと、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップとを含む。
前記制御モデルを訓練する方法をさらに含み、該方法は、
ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得するステップと、
ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップとを含むようにしてもよい。
前記ビデオライブストリーミングプラットフォームから、ユーザが入力したインタラクティブ情報に対するストリーマーの行動応答情報を取得するステップは、
人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出するステップ、及び/又は
顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出するステップ、及び/又は
音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出するステップを含むようにしてもよい。
前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
前記ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップは、
前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するステップを含むようにしてもよい。
前記ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する前に、前記方法は、
ユーザが入力した好み情報を取得するステップと、
前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定するステップとをさらに含み、
前記インタラクティブ情報を前記仮想ロボットの制御モデルに入力する前記ステップは、
前記インタラクティブ情報を前記目的制御モデルに入力するステップを含み、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う前記ステップは、
前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップを含むようにしてもよい。
本開示の実施例の第2態様は、仮想ロボットのインタラクション装置を提供し、該装置は、
ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する第1取得モジュールと、
前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するモデル入力モジュールと、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う制御モジュールとを備える。
ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する第2取得モジュールと、
ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するモデル訓練モジュールとをさらに備えるようにしてもよい。
前記第2取得モジュールは、
人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する第1取得サブモジュール、及び/又は
顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する第2取得サブモジュール、及び/又は
音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する第3取得サブモジュールを備えるようにしてもよい。
前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
前記モデル訓練モジュールは、
前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するようにしてもよい。
前記装置は、
ユーザが入力した好み情報を取得する第3取得モジュールと、
前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定する決定モジュールとをさらに備え、
前記モデル入力モジュールは、前記インタラクティブ情報を前記目的制御モデルに入力し、
前記制御モジュールは、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うようにしてもよい。
本開示の実施例の第3態様は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、第1態様の前記方法のステップを実現するコンピュータ可読記憶媒体を提供する。
本開示の実施例の第4態様は、電子機器を提供し、該電子機器は、
コンピュータプログラムが記憶されたメモリと、
前記メモリにおける前記コンピュータプログラムを実行して、第1態様の前記方法のステップを実現するプロセッサとを備える。
上記技術案によれば、少なくとも下記技術的効果を奏する。ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を含むビデオライブストリーミングプラットフォームの履歴データを、モデル訓練サンプルとして訓練して、出力が仮想ロボットの行動を制御する制御情報となる制御モデルを得る。このようにして、該制御モデルに基づいて、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報をリアルタイムで収集することにより、ユーザに対する仮想ロボットのリアルタイムなインタラクション応答を制御することができ、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズに応える。
本開示のほかの特徴及び利点については、後述する発明を実施する形態の部分において詳細に説明する。
図面は、本開示をより理解しやすくするために提供されるものであり、明細書の一部を構成し、下記特定の実施形態とともに本開示を解釈するが、本開示を制限するものではない。
本開示の実施例による仮想ロボットのインタラクション方法の模式的フローチャートである。 本開示の実施例による仮想ロボットの制御モデルの訓練方法の模式的フローチャートである。 本開示の実施例による制御モデルの訓練過程の模式図である。 本開示の実施例による別の制御モデルの訓練過程の模式図である。 本開示の実施例による仮想ロボットのインタラクション装置の構造模式図である。 本開示の実施例による仮想ロボットのインタラクション装置の構造模式図である。 本開示の実施例による別の仮想ロボットの訓練装置の構造模式図である。 本開示の実施例によるさらなる電子機器の構造模式図である。
以下、図面を参照しながら本開示の特定の実施形態を詳細に説明する。なお、ここで説明する特定の実施形態は、本開示を説明して解釈するものに過ぎず、本開示を制限するものではない。
本開示の実施例は、図1に示すように、S11〜S13を含む仮想ロボットのインタラクション方法を提供し、
S11において、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報を取得する。
1つの可能な実施形態では、本開示の実施例は、動画技術とネットワークのライブストリーミング技術を組み合わせて、バーチャルキャラクターのアバターをネットワークのライブストリーミングルームで表示させ、ユーザが入力した前記インタラクティブ情報は、ユーザが仮想ロボットのライブストリーミングルームにおいて入力するテキスト情報及び/又はユーザが贈るギフトの画像情報などであってもよい。
上記は、本開示の実施例の可能な適用シナリオの一例を挙げて説明したが、別の可能な実施形態においては、該仮想ロボットは、ネットワークのライブストリーミングに適用するのではなく、単独した最終製品に内蔵されて、チャットロボット又は情感的なインタラクションをするロボットとして販売してもよい。本開示では、それについて限定しない。
S12において、前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力する。
具体的には、ビデオライブストリーミングプラットフォームの履歴放送情報に基づいて、大量のサンプルを取得することができ、各ストリーマーライブストリーミングルームのチャットルームにいる視聴者が入力するテキスト情報、贈るバーチャルギフトの画像情報を上記インタラクティブ情報とするとともに、ストリーマービデオ及びオーディオからストリーマーの行動応答情報を抽出し、それにより大量のモデル訓練サンプルを取得し、このようにして、訓練して得た制御モデルの仮想ロボットに対する制御は、ストリーマーの本格的な応答により近くなる。
S13において、前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う。
具体的には、仮想ロボットに対する行動制御は、アバターとして表示させる仮想ロボットの体の動き、顔表情及び音声出力の制御を含み得る。
上記方法によれば、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を含むビデオライブストリーミングプラットフォームの履歴放送データをモデル訓練サンプルとして訓練して、出力が仮想ロボットの行動を制御する制御情報となる制御モデルを得る。このように、該制御モデルに基づいて、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報をリアルタイムで収集することにより、ユーザに対する仮想ロボットのリアルタイムなインタラクション応答を制御することができ、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズに応える。
当業者が本開示の実施例による技術案をさらに理解できるように、以下、本開示の実施例による仮想ロボットのインタラクション方法について詳細に説明する。
まず、ステップS12における前記制御モデルに関しては、本開示の実施例は、該制御モデルの訓練方法をさらに含み、なお、制御モデルに対する訓練は、ビデオライブストリーミングプラットフォームから収集したサンプルに基づいて事前に行われ、後で仮想ロボットとユーザとのインタラクション過程において、インタラクションするごとに制御モデルを訓練せずに済み、もしくは、ビデオライブストリーミングプラットフォームから新しく収集するサンプルに基づいて該制御モデルを周期的に更新してもよい。
具体的には、仮想ロボットに対する制御モデルの訓練方法は、図2に示すように、S21とS22を含む。
S21において、ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する。
一例として、ユーザがビデオライブストリーミングプラットフォームにおいて入力するインタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及び/又はユーザがストリーマーに贈るバーチャルギフトの画像情報を含む。
S22において、ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練する。
以下、ストリーマーの行動応答情報を取得する方式について説明する。
方式1は、人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する。
その中でも、前記体の動き情報は、主に四肢の関節の位置情報をいう。人体姿勢解析モジュールにより連続画像フレームを入力し、畳み込みニューラルネットワークを通じて学習して姿勢の確率マップを取得した後、オプティカルフロー情報と組み合わせて中間混合概率分布マップを生成し、最後に、関節位置情報は得られる。
方式2は、顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する。
具体的には、まず、顔検出モジュールによってストリーマービデオから顔領域を抽出し、次にディープニューラルネットワークを通じて学習し、表情の分類結果を生成する。
方式3は、音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する。
まず、1つの音声を1枚の図像に変換して入力とし、すなわち、まず1フレームごとの音声についてフーリエ変換を行い、次に時間と周波数を図像の2つの次元とし、その後、畳み込みネットワークを通じて音声全体に対してモデリングし、出力ユニットを最後の認識結果たとえば音節又は漢字に直接対応させる。
なお、上記3種類の実施形態は、実際の必要(たとえば製品機能設計)に応じて選択的に実施してもよく、つまり、ステップS21では、ビデオライブストリーミングプラットフォームから、ユーザが入力したインタラクティブ情報に対するストリーマーの行動応答情報を取得するステップは、人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出するステップ、及び/又は顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出するステップ、及び/又は音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出するステップを含む。
以下、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含む場合を例にして、制御モデルの訓練を説明する。
具体的には、前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、前記ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップは、前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するステップを含む。
一例として、図3及び図4は、それぞれ制御モデルの訓練の模式図を示している。図3には、訓練データの由来が示されており、図4には、ディープラーニングネットワークに基づく制御モデルの訓練過程が示されている。図3に示すように、テキスト情報及びギフト画像をディープラーニングネットワークの入力サンプルとし、人体姿勢解析モジュール及び顔表情分析モジュールによってストリーマービデオから抽出された体の動き情報及び顔表情情報、及び音声分析モジュールによってストリーマーオーディオから抽出された音声情報をディープラーニングネットワークにより標識された出力サンプルとする。図4に示すように、ディープニューラルネットワークは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられ、仮想ロボットに対して体の動き、顔表情及び音声ごとに訓練する。
なお、人体姿勢解析、顔表情分析及び音声分析は、いずれもニューラルネットワークによる深度学習の方式で実現できる。
本開示の実施例の1つの可能な実施形態において、ユーザが仮想ロボットとインタラクションする前に、ユーザが自身の好みに応じて仮想ロボットを選択するようにしてもよい。一例として、ステップS11の前、ユーザが入力した好み情報を取得し、前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定し、ただし、該複数のタイプの制御モデルは、異なる性格のタイプのストリーマーについてデータを収集して訓練して得た制御モデルであってもよく、それに対応して、ステップS12は、前記インタラクティブ情報を前記目的制御モデルに入力するステップを含み、ステップS13では、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う。
該好み情報は、ユーザがユーザ選択用のラベル情報から選択する目的ラベル情報であってもよく、該ラベル情報は、たとえば、ストリーマーの性格ラベル、ストリーマーのパフォーマンススタイルラベルなどとしてもよい。
一例として、本開示の実施例は、ビデオライブストリーミングプラットフォームにおいてストリーマーごとに表示させる性格ラベル、パフォーマンスタイプラベルなどに基づいてストリーマーを分類し、ユーザが好み情報を入力して選択するように、各クラスのストリーマーの履歴放送情報に基づいて訓練制御モデルをそれぞれ予め訓練しておく。それにより、ユーザの好みに応じてユーザに対する仮想ロボットのインタラクションを制御することができ、ユーザによる仮想ロボット性格のカスタマイズを実現することに相当し、このため、ユーザーエクスペリエンスを向上させる。特定の実施では、仮想ロボットの外形もユーザの好みに応じてカスタマイズをすることができ、本開示では、それについて限定しない。
同様な発明の構想に基づいて、本開示の実施例は、上記方法の実施例による仮想ロボットのインタラクション方法を実施するための仮想ロボットのインタラクション装置をさらに提供し、図5に示すように、該装置は、
ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する第1取得モジュール51と、
前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するモデル入力モジュール52と、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う制御モジュール53とを備える。
上記装置によれば、該装置は、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を含むビデオライブストリーミングプラットフォームの履歴放送データを、モデル訓練サンプルとして訓練して、出力が仮想ロボットの行動を制御する制御情報となる制御モデルを得る。このようにして、該制御モデルに基づいて、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報をリアルタイムで収集することにより、ユーザに対する仮想ロボットのリアルタイムなインタラクション応答を制御することができ、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズに応える。
図6に示すように、前記装置は、
ユーザが入力した好み情報を取得する第3取得モジュール54と、
前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定する決定モジュール55とをさらに備え、
前記モデル入力モジュール52は、前記インタラクティブ情報を前記目的制御モデルに入力し、
前記制御モジュール53は、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うようにしてもよい。
本開示の実施例は、図2による仮想ロボットの訓練方法を実施するための仮想ロボットの訓練装置をさらに提供し、図7に示すように、該装置は、
ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する第2取得モジュール56と、ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するモデル訓練モジュール57とを備える。一例として、ユーザがビデオライブストリーミングプラットフォームにおいて入力するインタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及び/又はユーザがストリーマーに贈るバーチャルギフトの画像情報を含む。
前記第2取得モジュール56は、
人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する第1取得サブモジュール、及び/又は
顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する第2取得サブモジュール、及び/又は
音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する第3取得サブモジュールを備えるようにしてもよい。
前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
前記モデル訓練モジュール57は、
前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するようにしてもよい。
なお、以上提供する仮想ロボットのインタラクション装置及び訓練装置は、個別に設置してもよく、同じサーバーに集積させてもよく、たとえば、該インタラクション装置及び該訓練装置は、ソフトウェア、ハードウェア又は両方を組み合わせた形態でサーバーの一部または全部を実現し、本開示では、それについて限定しない。
上記実施例における装置に関しては、その各モジュールが操作を実行する具体的な方式について、該方法に関連する実施例において詳細に説明したため、ここで詳細に説明しない。
本開示の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、上記仮想ロボットのインタラクション方法のステップを実現するコンピュータ可読記憶媒体をさらに提供する。
本開示の実施例は、さらに電子機器を提供し、該電子機器は、
コンピュータプログラムが記憶されたメモリと、
前記メモリにおける前記コンピュータプログラムを実行して、上記仮想ロボットのインタラクション方法のステップを実現するプロセッサとを備える。
なお、該電子機器は、仮想ロボットの制御装置としてもよく、又は、仮想ロボットは、該電子機器において運行してもよく、本開示では、それについて限定しない。
図8は、本開示の実施例による上記電子機器のブロック図である。図8に示すように、該電子機器800は、プロセッサ801、メモリ802を備えてもよい。該電子機器800は、マルチメディアコンポーネント803、入力/出力(I/O)インターフェース804、及び通信コンポーネント805のうちの1つ又は複数を備えてもよい。
プロセッサ801は、上記仮想ロボットのインタラクション方法における全部又は一部のステップを実行するように該電子機器800全体の操作を制御する。メモリ802は、該電子機器800の操作をサポートするように各種タイプのデータを記憶しており、これらデータは、たとえば、該電子機器800において操作するいずれかのアプリケーションプログラム又は方法の命令、及びアプリケーションプログラムに関連するデータ、たとえば連絡先データ、送受信するメッセージ、画像、オーディオ、ビデオなどを含む。該メモリ802は、任意のタイプの揮発性又は不揮発性の記憶装置又はこれらの組み合わせにより実現でき、たとえば、スタティックランダムアクセスメモリ(Static Random Access Memory(SRAM))、電気的消去可能プログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read−Only Memory(EEPROM))、消去可能プログラマブル読み出し専用メモリ(Erasable Programmable Read−Only Memory(EPROM))、プログラマブル読み出し専用メモリ(Programmable Read−Only Memory(PROM))、読み取り専用メモリ(Read−Only Memory(ROM))、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクである。マルチメディアコンポーネント803は、画面及びオーディオコンポーネントを備えてもよい。画面は、たとえば、タッチスクリーンであってもよく、オーディオコンポーネントは、オーディオ信号を出力及び/又は入力することに用いられる。たとえば、オーディオコンポーネントは、外部からのオーディオ信号を受信可能なマイクロフォンを含み得る。受信するオーディオは、さらにメモリ802に記憶され又は通信コンポーネント805により送信される。オーディオコンポーネントは、オーディオ信号を出力するための少なくとも1つのスピーカーを備える。I/Oインターフェース804は、プロセッサ801とほかのインターフェースモジュールとの間のインターフェースとなり、上記ほかのインターフェースモジュールは、キーボード、マウス、ボタンなどであってもよい。これらボタンは、仮想ボタン又は物理ボタンである。通信コンポーネント805は、該電子機器800とほかの機械との間の有線又は無線通信に用いられる。無線通信は、たとえばWi−Fi、ブルートゥース、近距離無線通信(Near Field Communication(NFC))、2G、3G又は4G、又はこれらの1種又は複数種の組み合わせであり、このため、対応した該通信コンポーネント805は、Wi−Fiモジュール、ブルートゥースモジュール、NFCモジュールを備えてもよい。
例示的な一実施例では、電子機器800は、1つ又は複数の特定用途向け集積回路(Application Specific Integrated Circuit(ASIC))、ジブラルタルシグナルプロセッサ(Digital Signal Processor(DSP))、デジタル信号処理機器(Digital Signal Processing Device(DSPD))、プログラマブルロジックデバイス(Programmable Logic Device(PLD))、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array(FPGA))、コントローラ、マイクロコントローラ、マイクロプロセッサ又はほかの電子素子により実現されて、上記仮想ロボットのインタラクション方法を実行するようにしてもよい。
本開示の実施例による上記コンピュータ可読記憶媒体は、プログラム命令を含む上記メモリ802であってもよく、上記プログラム命令は、電子機器800のプロセッサ801により実行されて、上記仮想ロボットのインタラクション方法を完成できる。
以上、図面を参照しながら、本開示の好適実施形態を詳細に説明したが、本開示は、上記実施形態の詳細に制限されず、本開示の技術的構想から逸脱せずに、本開示の技術案について様々な簡単な変形をすることができ、これら簡単な変形は、いずれも本開示の保護範囲に属する。
なお、上記特定の実施形態において説明した各特定の技術的特徴は、矛盾しない限り、任意の適切な方式で組み合わせることができ、重複しないように、本開示では、各種可能な組み合わせ方式について説明しない。
また、本開示の様々な実施形態も、互いに任意に組み合わせることができ、本開示の主旨に違反しない限り、本開示において開示されている内容とみなされるべきである。

Claims (12)

  1. 仮想ロボットのインタラクション方法であって、
    ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得するステップと、
    前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するステップと、
    前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップとを含むことを特徴とする仮想ロボットのインタラクション方法。
  2. 前記制御モデルを訓練する方法をさらに含み、前記方法は、
    ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得するステップと、
    ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップとを含むことを特徴とする請求項1に記載の方法。
  3. ビデオライブストリーミングプラットフォームから、ユーザが入力したインタラクティブ情報に対するストリーマーの行動応答情報を取得する前記ステップは、
    人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出するステップ、及び/又は
    顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出するステップ、及び/又は
    音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出するステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
    前記ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練する前記ステップは、
    前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するステップを含むことを特徴とする請求項2に記載の方法。
  5. 前記ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する前に、前記方法は、
    ユーザが入力した好み情報を取得するステップと、
    前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定するステップとをさらに含み、
    前記インタラクティブ情報を前記仮想ロボットの制御モデルに入力する前記ステップは、
    前記インタラクティブ情報を前記目的制御モデルに入力するステップを含み、
    前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う前記ステップは、
    前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップを含むことを特徴とする請求項2〜4のいずれか1項に記載の方法。
  6. 仮想ロボットのインタラクション装置であって、
    ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する第1取得モジュールと、
    前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するモデル入力モジュールと、
    前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う制御モジュールとを備えることを特徴とする仮想ロボットのインタラクション装置。
  7. ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する第2取得モジュールと、
    ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するモデル訓練モジュールとをさらに備えることを特徴とする請求項6に記載の装置。
  8. 前記第2取得モジュールは、
    人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する第1取得サブモジュール、及び/又は
    顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する第2取得サブモジュール、及び/又は
    音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する第3取得サブモジュールを備えることを特徴とする請求項7に記載の装置。
  9. 前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
    前記モデル訓練モジュールは、
    前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練することを特徴とする請求項7に記載の装置。
  10. 前記装置は、
    ユーザが入力した好み情報を取得する第3取得モジュールと、
    前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定する決定モジュールとをさらに備え、
    前記モデル入力モジュールは、前記インタラクティブ情報を前記目的制御モデルに入力し、
    前記制御モジュールは、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うことを特徴とする請求項7〜9のいずれか1項に記載の装置。
  11. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、請求項1〜5のいずれか1項に記載の前記方法のステップを実現することを特徴とするコンピュータ可読記憶媒体。
  12. 電子機器であって、
    コンピュータプログラムが記憶されたメモリと、
    前記メモリにおける前記コンピュータプログラムを実行して、請求項1〜5のいずれか1項に記載の方法のステップを実現するプロセッサとを備えることを特徴とする電子機器。
JP2019163325A 2018-10-18 2019-09-06 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器 Active JP6902683B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811217722.7A CN109491564A (zh) 2018-10-18 2018-10-18 虚拟机器人的互动方法,装置,存储介质及电子设备
CN201811217722.7 2018-10-18

Publications (2)

Publication Number Publication Date
JP2020064616A true JP2020064616A (ja) 2020-04-23
JP6902683B2 JP6902683B2 (ja) 2021-07-14

Family

ID=65691988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019163325A Active JP6902683B2 (ja) 2018-10-18 2019-09-06 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器

Country Status (3)

Country Link
US (1) US20200125920A1 (ja)
JP (1) JP6902683B2 (ja)
CN (1) CN109491564A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506360A (zh) * 2021-07-12 2021-10-15 北京顺天立安科技有限公司 一种虚拟人物表情驱动方法和系统
CN114793286A (zh) * 2021-01-25 2022-07-26 上海哔哩哔哩科技有限公司 基于虚拟形象的视频编辑方法和系统
JP7445938B1 (ja) 2023-08-10 2024-03-08 17Live株式会社 サーバ、方法及びコンピュータプログラム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147454A (zh) * 2019-04-30 2019-08-20 东华大学 一种基于虚拟机器人的情感交流匹配系统
CN110647636B (zh) * 2019-09-05 2021-03-19 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN111063339A (zh) * 2019-11-11 2020-04-24 珠海格力电器股份有限公司 智能交互方法、装置、设备及计算机可读介质
CN111314719A (zh) * 2020-01-22 2020-06-19 北京达佳互联信息技术有限公司 直播辅助方法、装置、电子设备及存储介质
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质
CN111369967B (zh) * 2020-03-11 2021-03-05 北京字节跳动网络技术有限公司 基于虚拟人物的语音合成方法、装置、介质及设备
CN111309153B (zh) * 2020-03-25 2024-04-09 北京百度网讯科技有限公司 人机交互的控制方法和装置、电子设备和存储介质
JP2021182696A (ja) * 2020-05-19 2021-11-25 憲保 池田 双方向放送方法及びシステム
CN114630135A (zh) * 2020-12-11 2022-06-14 北京字跳网络技术有限公司 一种直播互动方法及装置
CN113766253A (zh) * 2021-01-04 2021-12-07 北京沃东天骏信息技术有限公司 基于虚拟主播的直播方法、装置、设备及存储介质
CN112396182B (zh) * 2021-01-19 2021-04-16 腾讯科技(深圳)有限公司 脸部驱动模型的训练和脸部口型动画的生成方法
CN113206781B (zh) * 2021-04-14 2023-03-10 北京达佳互联信息技术有限公司 客户端控制方法、装置、设备及存储介质
CN115379265B (zh) * 2021-05-18 2023-12-01 阿里巴巴新加坡控股有限公司 虚拟主播的直播行为控制方法及装置
CN113183157A (zh) * 2021-07-01 2021-07-30 德鲁动力科技(成都)有限公司 控制机器人的方法及柔性屏交互四足机器人
CN113518023B (zh) * 2021-09-13 2021-11-30 深圳小小小科技有限公司 家用电器的控制方法和装置
CN114401434A (zh) * 2021-11-23 2022-04-26 广州繁星互娱信息科技有限公司 对象显示方法和装置、存储介质及电子设备
WO2023212260A1 (en) * 2022-04-28 2023-11-02 Theai, Inc. Agent-based training of artificial intelligence character models
CN116996630A (zh) * 2023-08-02 2023-11-03 北京中科闻歌科技股份有限公司 实时问答虚拟人视频生成方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015186534A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN107894831A (zh) * 2017-10-17 2018-04-10 北京光年无限科技有限公司 一种用于智能机器人的交互输出方法以及系统
CN108363706A (zh) * 2017-01-25 2018-08-03 北京搜狗科技发展有限公司 人机对话交互的方法和装置、用于人机对话交互的装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130257877A1 (en) * 2012-03-30 2013-10-03 Videx, Inc. Systems and Methods for Generating an Interactive Avatar Model
US10898999B1 (en) * 2017-09-18 2021-01-26 X Development Llc Selective human-robot interaction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015186534A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN108363706A (zh) * 2017-01-25 2018-08-03 北京搜狗科技发展有限公司 人机对话交互的方法和装置、用于人机对话交互的装置
CN107894831A (zh) * 2017-10-17 2018-04-10 北京光年无限科技有限公司 一种用于智能机器人的交互输出方法以及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KTSUJINO, ディープラーニング(SEQ2SEQ)でTWITTER CHATBOTを作ってみた, JPN6020025690, 6 January 2017 (2017-01-06), ISSN: 0004307384 *
稲葉通将 他2名: "Twitterを用いた非タスク指向型対話システムのための発話候補文獲得", 人工知能学会論文誌, vol. 第29巻第1号, JPN6020025692, 5 January 2014 (2014-01-05), JP, pages 21 - 31, ISSN: 0004307386 *
稲邑哲也 他2名: "大規模なマルチモーダル対話経験からの概念獲得を支援するクラウド型VRアーキテクチャ", 人工知能学会 第30回全国大会論文集 CD−ROM, JPN6020025691, 9 June 2016 (2016-06-09), JP, pages 1 - 4, ISSN: 0004307385 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114793286A (zh) * 2021-01-25 2022-07-26 上海哔哩哔哩科技有限公司 基于虚拟形象的视频编辑方法和系统
CN113506360A (zh) * 2021-07-12 2021-10-15 北京顺天立安科技有限公司 一种虚拟人物表情驱动方法和系统
JP7445938B1 (ja) 2023-08-10 2024-03-08 17Live株式会社 サーバ、方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JP6902683B2 (ja) 2021-07-14
US20200125920A1 (en) 2020-04-23
CN109491564A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
JP6902683B2 (ja) 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
CN104049721B (zh) 信息处理方法及电子设备
CN110085244B (zh) 直播互动方法、装置、电子设备及可读存储介质
CN110400251A (zh) 视频处理方法、装置、终端设备及存储介质
US20140038489A1 (en) Interactive plush toy
KR101894573B1 (ko) 3d 디지털 액터형 스마트폰 인터페이스 운용시스템
CN111124123A (zh) 基于虚拟机器人形象的语音交互方法及装置、车载设备智能控制系统
CN109086860B (zh) 一种基于虚拟人的交互方法及系统
KR20170085422A (ko) 가상 에이전트 동작 방법 및 장치
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
CN105843381A (zh) 用于实现多模态交互的数据处理方法及多模态交互系统
JP2018525691A (ja) 知識マップに基づくヒューマンコンピュータインタラクション方法及びシステム
DE112021001301T5 (de) Dialogorientierte-ki-plattform mit gerenderter graphischer ausgabe
CN106502382B (zh) 用于智能机器人的主动交互方法和系统
KR20210124182A (ko) 인터렉티브 대상 구동 방법, 장치, 디바이스 및 기록 매체
CN112204565A (zh) 用于基于视觉背景无关语法模型推断场景的系统和方法
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
KR20220129989A (ko) 아바타에 기초한 인터랙션 서비스 방법 및 장치
WO2020129959A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び表示方法
CN111862280A (zh) 虚拟角色控制方法、系统、介质及电子设备
KR20230075998A (ko) 텍스트 기반 아바타 생성 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190909

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191007

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210305

R150 Certificate of patent or registration of utility model

Ref document number: 6902683

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250