JP2021192222A - 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム - Google Patents

動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム Download PDF

Info

Publication number
JP2021192222A
JP2021192222A JP2021043207A JP2021043207A JP2021192222A JP 2021192222 A JP2021192222 A JP 2021192222A JP 2021043207 A JP2021043207 A JP 2021043207A JP 2021043207 A JP2021043207 A JP 2021043207A JP 2021192222 A JP2021192222 A JP 2021192222A
Authority
JP
Japan
Prior art keywords
interactive
image
character
user
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021043207A
Other languages
English (en)
Other versions
JP2021192222A5 (ja
Inventor
ルイチー チェン、
Ruizhi Chen
ハオティエン ペン、
Haotian Peng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021192222A publication Critical patent/JP2021192222A/ja
Publication of JP2021192222A5 publication Critical patent/JP2021192222A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hospice & Palliative Care (AREA)
  • Computing Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる方法及び装置を提供する。【解決手段】方法は、端末デバイスから送信されたキャラクター画像を受信ステップと、キャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成するステップと、インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するステップと、3次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信するステップと、を含む。【選択図】図2

Description

本願の実施例は、コンピュータ技術分野に関し、具体的には、画像処理、三次元モデリング、拡張現実技術分野に関し、特に動画インタラクティブ方法、装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラムに関する。
人工知能(Artificial Intelligence,AI)は、人間の知能をシミュレート、発展、拡張するための理論、方法、技術、およびアプリケーションシステムを研究および開発する新な科学技術である。人工知能はコンピュータサイエンスの一つの分野であり、これは、知能の本質を理解し、人間の知能と同じように反応できる新しいインテリジェントマシンを生み出すことをしようとする。この分野の研究には、ロボット工学、言語認識、画像認識、自然言語処理やエキスパートシステムなどを含む。人工知能の誕生以来、理論と技術はますます成熟し、応用分野も拡大し続けている。
仮想コンパニオンは人工知能の重要な応用技術として、ますます多くのインターネットシーンにおいて深く応用されている。しかし、従来の仮想コンパニオンは音声形式を主とし、現れる形式は単調である。
本願の実施例は、動画インタラクティブ方法、装置、デバイス及び記憶媒体を提案する。
第1の態様では、本願の実施例は、端末デバイスから送信されたキャラクター画像を受信ステップと、
キャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成するステップと、
インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するステップと、
3次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信するステップと、を含む動画インタラクティブ方法を提案する。
第2の態様では、本願の実施例は、キャラクター画像をサーバーに送信し、サーバーから帰還された3次元仮想イメージと動画インタラクティブ情報を受信するステップと、
インタラクティブ表情シーケンスフレームに基づいて3次元仮想イメージをレンダリングし、3次元仮想イメージのインタラクティブ動画を生成するステップと、
インタラクティブ動画をキャラクター画像に統合して表示するステップと、を含み、
ここでは、3次元仮想イメージはキャラクター画像におけるキャラクターと類似し、動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む動画インタラクティブ方法を提案する。
第3の態様では、本願の実施例は、
端末デバイスから送信されたキャラクター画像を受信するように構成される受信モジュールと、
キャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成するように構成される第1の生成モジュールと、
インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するように構成される第2の生成モジュールと、
3次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信するように構成される送信モジュールと、を備える動画インタラクティブ装置を提案する。
第4の態様では、本願の実施例は、
キャラクター画像をサーバーに送信し、サーバーから帰還された3次元仮想イメージと動画インタラクティブ情報を受信するように構成される送受信モジュールと、
インタラクティブ表情シーケンスフレームに基づいて3次元仮想イメージをレンダリングし、3次元仮想イメージのインタラクティブ動画を生成するように構成されるレンダリング生成モジュールと、
インタラクティブ動画をキャラクター画像に統合して表示するように構成される表示モジュールと、を備え、
3次元仮想イメージはキャラクター画像におけるキャラクターと類似し、動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む動画インタラクティブ装置を提案する。
第5の態様では、本願の実施例は、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されるメモリと、を備え、
メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、少なくとも1つのプロセッサが第1の態様のいずれかの実施形態または第2の態様のいずれかの実施形態に記載の動画インタラクティブ方法を実行できるように、命令が少なくとも1つのプロセッサに実行される電子デバイスを提案する。
第6の態様では、本願の実施例は、
コンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体をさらに提案しており、コンピュータ命令は、コンピュータに、第1の態様のいずれかの実施形態または第2の態様のいずれかの実施形態に記載の方法を実行させる。
第7の態様では、本願の実施例は、
コンピュータプログラムをさらに提案しており、コンピュータプログラムは、プロセッサにより実行されると、コンピュータに、第1の態様のいずれかの実施形態または第2の態様のいずれかの実施形態に記載の方法を実行させる。
本願の実施例による動画インタラクティブ方法、装置、デバイス及び記憶媒体は、まず端末デバイスから送信されたキャラクター画像を受信し、次にキャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成し、且つ動画インタラクティブ情報を生成し、最後に3次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。キャラクター画像におけるキャラクターをそれと類似している3次元仮想イメージに置き換え、動画インタラクティブ情報を用いて3次元仮想イメージを駆動しユーザーと付き合うことで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザーの参与度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。
なお、本部分に記載される内容は、本開示の実施例の核心又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定するためものではない。本開示の他の特徴は、以下の説明により容易に理解される。
以下の図面を参照して行われた非限定的な実施例に対する詳細な説明を読むことにより,本願の他の特徴、目的及び利点がより明らかになる。図面は本発明をよりよく理解するためのものであり、本願を限定するものではない。
本願の適用可能なシステムアーキテクチャの一例を示す図である。 本願の動画インタラクティブ方法による一実施例のフローチャートである。 本願の動画インタラクティブ方法の更なる実施例のフローチャートである。 本願の動画インタラクティブ方法の別の実施例を示すフローチャートである。 本願の実施例による動画インタラクティブ方法を実現可能なシーン図である。 本願による動画インタラクティブ装置の一実施例の構成を示す図である。 本願による動画インタラクティブ装置のさらに他の実施例の構成を示す図である。 本願の実施例の動画インタラクティブ方法を実施するための電子機器のブロック図である。
以下、理解を容易にするために、図面を参照しながら本願の様々な詳細を含む例示的な実施例を説明するが、それらは例示的なものだけだと見られるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここでは記載された実施例に様々な変更及び修正できると認識するべきである。同様に、簡潔明瞭のために、以下の説明では、公知の機能及び構造の説明を省略する。
なお、矛盾しない限り、本願における実施例及び実施例における特徴は、互いに組み合わせることが可能である。以下に図面及び実施例を参照して本願を詳細に説明する。
図1は本願の動画インタラクティブ方法又は動画インタラクティブ装置の適用可能な実施例のシステムアーキテクチャ100の一例を示す。
図1に示すように、システムアーキテクチャ100は、端末デバイス101、ネットワーク102、サーバー103を含んでもよい。ネットワーク102は、端末デバイス101とサーバー103との間に通信リンクの媒体を提供するためのものである。ネットワーク102は、有線、無線、通信リンク、光ファイバケーブル等の様々な接続タイプを含んでもよい。
ユーザーは、メッセージ等を送受信するように、端末デバイス101を用いてネットワーク102を介してサーバー103とインタラクションすることができる。端末デバイス101には、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェア等の様々なクライアントアプリケーションがインストールされてもよい。端末デバイス101は、サーバー101から受信した3次元仮想イメージや動画インタラクティブ情報等のデータをレンダリング等の処理を行い、処理結果を示すことができる(例えば、インタラクティブ動画と統合して表示し、インタラクティブ音声を同期して再生する)。
端末デバイス101は、ハードウェアまたはソフトウェアであってもよい。端末デバイス101がハードウェアである場合、それは電子フォトフレーム、スマートフォン、タブレットコンピュータなどを含むがこれらに限定されない様々な電子デバイスであってもよい。端末デバイス101がソフトウェアである場合、それは上記の電子デバイスに設置することができる。複数のソフトウェアまたはソフトウェアモジュールとして、あるいは単一のソフトウェアまたはソフトウェアモジュールとして実装できる。ここでは、具体的に限定しない。
サーバー103は、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアのバックエンドサーバーなどの様々なサービスを提供するサーバーであってもよい。バックグラウンドサーバーは、端末デバイス101から受信したキャラクター画像などのデータを分析および処理し、処理結果(例えば、3次元仮想イメージおよび動画インタラクティブ情報)を端末デバイス101にフィードバックすることができる。
なお、サーバー103は、ハードウェアまたはソフトウェアであってもよい。サーバー103がハードウェアである場合、それは、複数のサーバーから構成される分散サーバークラスターとして、または単一のサーバーとして実装することができる。サーバー103がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュールとして(例えば、分散サービスを提供するため)実装することができ、または単一のソフトウェアまたはソフトウェアモジュールとして実装することができる。ここでは、具体的に限定しない。
なお、本願の実施例による動画インタラクティブ方法は、サーバー103により実行可能であり、それに対応して、動画インタラクティブ装置は、サーバー103に設定され、本願の実施例による動画インタラクティブ方法は、端末デバイス101によっても実行可能である。それに対応して、動画インタラクティブ装置は、端末デバイス101に設置される。
なお、図1の端末デバイス、ネットワーク、およびサーバーの数は、単なる例示であることを理解されるべきである。実装のニーズに応じて、任意の数の端末デバイス、ネットワーク、およびサーバーを備えてもよい。
図2を参照しながら、本願による動画インタラクティブ方法の実施例のプロセス200を示す。動画のインタラクティブ方法は、次のステップを含む。
ステップ201、端末デバイスから送信されたキャラクター画像を受信する。
本実施例では、動画インタラクション法(例えば、図1に示すサーバー103)の実行主体は、端末デバイス(例えば、図1に示す端末デバイス101)から送信されたキャラクター画像を受信することができる。
実際には、端末デバイスは、電子フォトフレーム、スマートフォン、タブレットコンピュータなどを含むが、これらに限定されない。端末デバイスに3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアをインストールできる。ユーザーは、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアを使用して、キャラクターの画像をサーバーにアップロードできる。ここでは、キャラクター画像は通常、現実世界のキャラクターの2次元画像である。いくつかの実施例では、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスのカメラ許可を予め取得し、端末デバイスのカメラを介して人々の写真を撮ることができる。いくつかの実施例では、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスのアルバム読み取り許可を予め取得し、端末デバイスのアルバムに格納されているキャラクター画像を読み取ることができる。
ステップ202、キャラクター画像に基づいて、3次元仮想イメージを生成する。
本実施例では、上記の実行主体は、キャラクター画像に基づいて3次元仮想イメージを生成するようにしてもよい。ここでは、3次元仮想イメージは、キャラクター画像におけるキャラクターに似ており、キャラクター画像におけるキャラクターを様式化してその個人的な特徴を強調する3次元動画キャラクターにするようにしてもよい。
いくつかの実施例では、上記の実行主体は、大量の3次元仮想イメージを予め記憶するようにしてもよく、上記の実行主体は、キャラクター画像におけるキャラクターの特徴を抽出し、それらを予め記憶された各3次元仮想イメージと整合して、整合性が高い特徴を有する3次元仮想イメージを、キャラクター画像におけるキャラクターの3次元仮想イメージとする。
いくつかの実施例では、上記の実行主体は、PTA(photo to avatar、仮想イメージ自動生成)技術を使用して、キャラクター画像におけるキャラクターの3Dピンチを行い、対応する3次元仮想イメージを生成するようにしてもよい。具体的には、上記の実行主体は、まずキャラクター画像におけるキャラクターの顔の器官を分類し、複数種のプリセット仮想顔の器官タイプに属する顔の器官タイプの重みを取得し、次に、重みに基づいて、複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、キャラクター画像におけるキャラクターの仮想顔の器官を生成する。最後に、キャラクター画像におけるキャラクターの仮想顔の器官に基づいて、3次元仮想イメージを生成する。予め記憶された複数種のタイプの仮想顔の器官を統合することにより、任意のタイプの仮想顔の器官を形成ことができる。さらに、類似度の重みに基づいて、予め記憶された複数種のタイプの仮想顔の器官を統合し、キャラクター画像におけるキャラクターの顔の器官に非常に類似している仮想顔の器官を形成することができる。ここでは、プリセット仮想顔の器官は、目、鼻、口、眉毛、耳などを含んでもよいが、これらに限定されない。たとえば、目の場合は、複数種のタイプの仮想の目(桃花眼、瑞鳳眼、睡鳳眼、柳葉眼及び杏眼などを含むがこれらに限定されない)を予め記憶し、キャラクターの目とこれらの仮想目のタイプ類似度の重みを計算できる。類似度の重みに基づいて、これらの仮想目のタイプを統合し、キャラクターの画像におけるキャラクターの仮想目を取得する。
ステップ203、動画インタラクティブ情報を生成する。
本実施例では、上記の実行主体は、動画インタラクティブ情報を生成することができる。一般には、上記の実行主体は、さまざまな表情フレームを含む1セットの常用の表情ベースのを予め格納できる。上記の実行主体は、表情フレームの少なくとも一部を組み合わせて、インタラクティブ表情シーケンスフレームを生成することができる。このとき、動画のインタラクション情報には、インタラクティブ表情シーケンスフレームが含まれてもよい。任意選択には、上記の実行主体は、表情シーケンスフレームに整合するインタラクティブ音声を設計することもできる。このとき、動画のインタラクション情報はインタラクティブ音声も含んでもよい。
ステップ204、3次元の仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。
本実施例では、上記の実行主体は、3次元仮想イメージと動画インタラクティブ情報を端末装置に送信することができる。このように、端末デバイスは、インタラクティブ表情シーケンスフレームに基づいて3次元仮想イメージをレンダリングし、インタラクティブ動画を生成し、それをキャラクター画像に統合して表示し、仮想世界の3次元仮想イメージを現実世界のキャラクター画像に重ね合わせてインタラクションさせることができ、キャラクター画像の拡張現実を実現する。任意選択には、動画インタラクション情報はインタラクティブ音声も含む場合、インタラクティブ動画をキャラクター画像に統合して表示するとともに、上記の実行主体もインタラクティブ音声を同期して再生し、複数種の現れる形式の仮想コンパニオンを実現できる。ここでは、インタラクティブ動画の3次元仮想イメージは、インタラクティブ表情シーケンスフレーム内の表情を順次作成する。
本願の実施例による動画インタラクティブ方法では、まず端末デバイスから送信されたキャラクター画像を受信し、次にキャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成し、且つ動画インタラクティブ情報を生成し、最後に3次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。キャラクター画像におけるキャラクターをそれと類似している3次元仮想イメージに置き換え、動画インタラクティブ情報を用いて3次元仮想イメージがユーザに同伴するようにすることで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザの参加度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。
図3をさらに参照しながら、本願による動画インタラクティブ方法の別の実施例のプロセス300を示す。該動画のインタラクティブ方法は、次のステップを含む。
ステップ301、端末デバイスから送信されたキャラクター画像を受信する。
ステップ302、キャラクター画像に基づいて3次元仮想イメージを生成する。
本実施例では、ステップ301〜202の具体的な操作は、図2に示される実施例のステップ201〜202に詳細に説明されており、ここでは繰り返し説明しない。
ステップ303、キャラクター画像におけるキャラクターの数と環境情報を認識する。
本実施例では、動画インタラクティブ方法の実行主体(例えば、図1に示されるサーバー103)は、デフォルトの動画インタラクティブ情報を生成することができる。
いくつかの実施例では、ユーザーが音声を入力するかどうかに関係なく、上記の実行主体は、いずれも生成されたデフォルトの動画インタラクティブ情報を将来の使用のために記憶することができる。
いくつかの実施例では、ユーザーが音声を入力しない場合にのみ、上記の実行主体は、デフォルトの動画インタラクティブ情報を生成する。
通常、デフォルトの動画インタラクション情報は、キャラクター画像のあるところのシーンと整合する。具体的には、上記の実行主体は、キャラクター画像のあるところのシーンの情報を取得するように、キャラクター画像におけるキャラクターの数を認識することができる。例えば、上記の実行主体は、目標検出モデルを使用して、キャラクター画像における人体フレームを検出し、検出された人体フレームの数に基づいてキャラクター画像におけるキャラクターの数を決定することができる。上記の実行主体は、目標認識モデルを使用して、キャラクター画像の背景にある物体を認識し、認識された物体に基づいてキャラクター画像における環境情報を決定することができる。ここでは、目標検出モデルおよび目標認識モデルは、深層学習によって得られたニューロンネットワークモデルを予め訓練できる。
ステップ304、キャラクター画像におけるキャラクターの数および環境情報に基づいて、キャラクター画像におけるキャラクター間のインタラクションを示す動画インタラクティブ情報を生成する。
本実施例では、上記の実行主体は、キャラクター画像におけるキャラクターの数と環境情報に基づいて、キャラクター画像におけるキャラクター間のインタラクションを示す動画インタラクティブ情報を生成することができる。ここでは、キャラクター画像のキャラクターの数に基づいてインタラクティブ参加者の数を決定し、キャラクター画像の環境情報に基づいてそれに整合するインタラクティブ内容を生成することができる。ここでは、インタラクティブ参加者の数は、キャラクター画像におけるキャラクターの数以下であり、通常、キャラクター画像のキャラクターの数に等しい。たとえば、キャラクター画像が3人いて、ショッピングモールにいる場合、動画インタラクティブ情報は、ショッピングモールでのショッピングについて話し合っている3人のインタラクティブ情報であってもよい。
ステップ305、端末デバイスから送信されたユーザー音声を受信する。
本実施例では、ユーザーが音声を入力する場合、上記の実行主体は、ユーザーとインタラクトする動画インタラクティブ情報を生成することができる。具体的には、端末装置(図1に示される端末装置101)から送信されたユーザー音声を受信し、ユーザー音声に整合する動画インタラクション情報を生成する。
実際には、端末デバイスは、電子フォトフレーム、スマートフォン、タブレットコンピュータなどを備えてもよいが、これらに限定されない。端末デバイスには、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアがインストールされてもよい。3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスの録音許可を予め取得し、端末デバイスのマイクを介してユーザーが入力したユーザー音声を収集することができる。
ステップ306、ユーザー音声の内容および/またはユーザー気分を認識する。
本実施例では、上記の実行主体は、ユーザー音声の内容および/またはユーザー気分を認識することができる。ここでは、ユーザー音声の内容は、ユーザー音声に対して音声からテキストへの変換を実行することによって取得することができる。ユーザー気分は、ユーザー音声および/またはユーザー音声の内容から感情的な特徴情報を抽出することによって決定することができる。
ユーザー音声の内容のみを認識する案では、上記の実行主体は、ユーザー音声に対して音声からテキストへの変換を実行することによってユーザー音声の内容を取得することができる。
ユーザー気分のみを認識する案では、上記の実行主体は、ユーザー音声からユーザーの発音の特徴を直接抽出し、対応する感情的な特徴情報を分析することができる。ここでは、発音の特徴は、調子、リズム、発話速度、イントネーション、レトリック、音の強さなどを含んでもよいが、これらに限定されない。たとえば、ユーザー音声のイントネーションがより陽気である場合、ユーザーはより幸せな気分にあると決定する。
ユーザー音声の内容とユーザー気分を同時に認識する案では、上記の実行主体は、ユーザー音声に対して音声からテキストへの変換を実行して、ユーザー音声の内容を取得することができる。さらに、上記の実行主体は、ユーザー音声からユーザーの発音の特徴を抽出し、対応する感情的な特徴情報を分析するだけでなく、ユーザー音声の内容から感情的な特徴情報を含む単語を抽出し、対応する感情的な特徴情報を分析することもできる。
ステップ307、ユーザー音声の内容および/またはユーザー気分に基づいて、ユーザーとインタラクションするための動画インタラクティブ情報を生成する。
本実施例では、上記の実行主体は、ユーザー音声の内容および/またはユーザー気分に基づいて、ユーザーとインタラクションするための動画インタラクティブ情報を生成することができる。ここでは、ユーザー気分に基づいてそれに整合する表情を決定することができる。ユーザー音声の内容に基づいて、それに整合するインタラクションの内容を生成できる。ユーザー気分に整合する表情および/またはユーザー気分に整合するインタラクティブ内容に基づいて、ユーザーとインタラクションするための動画インタラクティブ情報を生成することができる。
ユーザー気分に整合する表情のみに基づいて動画インタラクション情報を生成する案では、動画インタラクション情報は、キャラクターがしたユーザー気分に整合する一連の表情の顔の動きを説明する情報であってもよい。
ユーザー気分に整合するインタラクティブ内容のみに基づいて動画インタラクティブ情報を生成する案では、動画インタラクティブ情報は、キャラクターが言ったユーザー気分に整合する一連のインタラクティブ内容の口の動きを説明する情報であってもよい。
ユーザー気分に整合する表情とユーザー気分に整合するインタラクションの内容との両方に基づいて動画インタラクティブ情報を生成する案では、動画インタラクティブ情報は、キャラクターがしたユーザー気分に整合する一連の表情の顔の動きを説明する情報を含んでもよいだけでなく、ユーザー気分に整合する一連の口の動きを説明する情報を含んでもよい。
ステップ308、3次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。
本実施例では、ステップ308の具体的な操作は、図2に示される実施例のステップ204に詳細に説明されており、繰り返し説明しない。
図3から分かるように、図2に対応する実施例と比較して、本実施例における動画インタラクティブ方法のプロセス300は、動画インタラクティブ情報を生成するステップを強調している。したがって、本実施例に説明される解決手段では、ユーザーが音声を入力しない場合、キャラクター画像におけるキャラクター間のインタラクションの動画インタラクティブ情報を生成し、端末デバイスに送信し、キャラクター画像における異なるキャラクター間のインタラクティブを駆動する。また、インタラクティブ内容はキャラクター画像のあるところのシーンと整合する。ユーザーが音声を入力した場合、ユーザーとインタラクトする動画インタラクティブ情報を生成して端末デバイスに送信し、キャラクター画像におけるキャラクターをユーザーとインタラクトさせ、インタラクティブ内容がユーザー音声と整合する。さまざまな状況に応じて、さまざまな動画インタラクション情報を生成し、それにより、インタラクションがより適正になる。
図4をさらに参照しながら、本願による動画インタラクティブ方法の別の実施例のプロセス400を示す。該動画のインタラクティブ方法は、次のステップを含む。
ステップ401、キャラクター画像をサーバーに送信し、サーバーから帰還された3次元の仮想イメージと動画インタラクティブ情報を受信する。
本実施例では、動画インタラクション方法の実行主体(図1に示される端末装置101)は、キャラクター画像をサーバー(図1に示されるサーバー103)に送信し、サーバーから帰還された3次元仮想イメージおよび動画インタラクティブ情報を受信することができる。
実際には、端末デバイスは、電子フォトフレーム、スマートフォン、タブレットコンピュータなどを備えてもよいが、これらに限定されない。3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアを端末デバイスにインストールできる。ユーザーは、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアを使用して、キャラクターの画像をサーバーにアップロードできる。ここでは、キャラクター画像は通常、現実世界のキャラクターの2次元画像である。いくつかの実施例では、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末装置のカメラ許可を予め取得し、端末装置のカメラを介して人々の写真を撮ることができる。いくつかの実施例では、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末装置のアルバム読み取り許可を予め取得し、端末装置のアルバムに格納されているキャラクター画像を読み取ることができる。
サーバーは、キャラクター画像に基づいて3次元の仮想イメージと動画インタラクティブ情報を生成できる。ここでは、3次元仮想イメージはキャラクター画像におけるキャラクターに似ており、キャラクター画像におけるキャラクターを様式化してその個人的な特徴を強調する3次元動画キャラクターにすることができる。動画インタラクティブ情報は、インタラクティブ表情シーケンスフレームを含んでもよい。任意選択には、動画のインタラクション情報にインタラクティブ音声を含んでもよい。
いくつかの実施例では、動画インタラクティブ情報は、キャラクター画像のあるところのシーンと整合することができる。具体的には、サーバーは、最初にキャラクター画像のキャラクターの数と環境情報を識別し、次にキャラクター画像のキャラクターの数と環境情報に基づいて、キャラクター画像のキャラクター間のインタラクションの動画インタラクティブ情報を生成することができる。ユーザーが音声を入力しない場合、キャラクター画像におけるキャラクター間のインタラクションの動画インタラクティブ情報を生成し、端末デバイスに送信し、キャラクター画像における異なるキャラクター間でインタラクションさせ、インタラクションの内容はキャラクター画像のあるところのシーンと整合する。
いくつかの実施例では、動画インタラクティブ情報は、ユーザー音声と整合することができる。具体的には、3Dピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスの録音許可を予め取得し、端末デバイスのマイクを介してユーザーが入力したユーザー音声を収集し、サーバーにユーザー音声を送信することもできる。サーバーは、最初にユーザー音声の内容および/またはユーザー気分を認識し、次に、ユーザー音声の内容および/またはユーザー気分に基づいて、ユーザーとインタラクションする動画インタラクティブ情報を生成する。ユーザーが音声を入力した場合、ユーザーとインタラクションする動画インタラクション情報を生成し端末デバイスに送信し、キャラクター画像におけるキャラクターにユーザーとインタラクションさせ、インタラクティブ内容がユーザー音声と整合する。さまざまな状況に応じて、さまざまな動画インタラクション情報が生成され、それにより、インタラクションがより適正になる。
ステップ402、インタラクティブ表情シーケンスフレームに基づいて3次元の仮想イメージをレンダリングし、3次元の仮想イメージのインタラクティブ動画を生成する。
本実施例では、上記の実行主体は、インタラクティブ表情シーケンスフレームに基づいて3次元の仮想イメージをレンダリングして、3次元の仮想イメージのインタラクティブ動画を生成することができる。ここでは、インタラクティブ動画における3次元仮想イメージは、インタラクティブ表情シーケンスフレームにおける表情を順次作成する。
ステップ403、インタラクティブ動画をキャラクター画像に統合して表示する。
本実施例では、上記の実行主体は、インタラクティブ動画をキャラクター画像に統合して表示し、仮想世界の3次元仮想イメージを現実世界のキャラクター画像に重ね合わせてインタラクションさせることにより、キャラクター画像の拡張現実を実現することができる。任意選択には、動画インタラクション情報にインタラクティブ音声も含まれている場合、インタラクティブ動画をキャラクター画像に統合して表示するとともに、上記の実行主体がインタラクティブ音声を同期して再生し、複数種の現れる形式との仮想コンパニオンを実現できる。
本願の実施例による動画インタラクティブ方法では、まずキャラクター画像をサーバーに送信し、サーバーから帰還されたキャラクター画像におけるキャラクターと類似している3次元仮想イメージと動画インタラクティブ情報を受信し、次にインタラクティブ表情シーケンスフレームに基づいて3次元仮想イメージをレンダリングし、3次元仮想イメージのインタラクティブ動画を生成し、最後にインタラクティブ動画をキャラクター画像に統合して表示し、インタラクティブ音声を同期して再生する。キャラクター画像におけるキャラクターをそれと類似している3次元仮想イメージに置き換え、動画インタラクティブ情報を用いて3次元仮想イメージを駆動しユーザーと付き合うことで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザーの参与度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。
理解を容易にするために、図5は、本願の実施例の動画インタラクティブ方法を実施できるシーン図を示す。図5に示すように、電子フォトフレーム501は、マイク5011、ディスプレイ5012、スピーカー5013、画像メモリ5014、3次元仮想イメージメモリ5015、動画インタラクティブ情報メモリ5016、3次元仮想イメージドライブ5017、および画像合成器5018を備える。ユーザーがキャラクター画像を画像メモリ5014に格納した後、キャラクター画像をサーバー502にアップロードする操作がトリガーされる。キャラクター画像が初めてサーバー502にアップロードされた後、サーバー502は、PTA技術を使用して、キャラクター画像におけるすべてのキャラクターに基づいて、それに対応する3次元仮想イメージを生成し、3次元仮想イメージメモリ5015にダウンロードすることができる。続いて、サーバー502は、キャラクター画像におけるキャラクターの数および環境情報に応じてキャラクター画像のあるところのシーンに整合する動画インタラクティブ情報(表情シーケンスフレームおよびインタラクティブ音声を含む)を生成し、それをデフォルトの動画インタラクティブ情報として動画インタラクティブ情報メモリ5016にダウンロードすることができる。実行中に、マイク5011がユーザーによって入力されたユーザー音声を収集しない場合、デフォルトの動画インタラクティブ情報に従って、後続の駆動および合成操作を直接完了する。実行中に、マイク5011がユーザーによって入力されたユーザー音声を収集する場合、マイク5011は、収集されたユーザー音声をサーバー502にアップロードすることができる。サーバー502は、ユーザー音声の内容およびユーザー気分に従ってユーザーとインタラクションする一時的な動画インタラクティブ情報を生成し、それを動画インタラクティブ情報メモリ5016にダウンロードすることができる。この時、その後の駆動および合成操作は、一時的な動画インタラクティブ情報に従って完了する。具体的には、3次元仮想イメージドライブ5017に動画インタラクティブ情報に従って3次元仮想イメージを駆動して、インタラクティブ動画を生成する。画像合成器5018では、インタラクティブ動画をキャラクターイメージに統合し、ディスプレイ5012を使用して表示する。同時に、スピーカー5013を使用してインタラクティブ音声を同期して再生する。
図6をさらに参照しながら、上記の図に示される方法の実施として、本願は、動画インタラクティブ装置の実施例を提供する。該装置の実施例は、図2に示される方法の実施例に対応する。該装置は、具体的には、さまざまな電子機器に適用される。
図6に示すように、本実施例の動画インタラクティブ装置600は、受信モジュール601、第1の生成モジュール602、第2の生成モジュール603、および送信モジュール604を備えてもよい。ここでは、受信モジュール601は、端末装置によって送信されたキャラクター画像を受信するように構成され、第1の生成モジュール602は、キャラクター画像に基づいてキャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成するように構成される。生成モジュール603は、インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するように構成される。送信モジュール604は、3次元仮想イメージおよび動画インタラクティブ情報を端末装置に送信するように構成される。
本実施例では、動画インタラクティブ装置600において、受信モジュール601、第1の生成モジュール602、第2の生成モジュール603、および送信モジュール604の具体的な処理、ならびにそれらによって得られた技術効果は、それぞれ、図2の対応する実施例のステップ201〜204の関連説明を参照してもよく、ここでは、繰り返し説明しない。
本実施例のいくつかの任意選択の実施形態では、動画インタラクティブ情報は、インタラクティブ音声をさらに含む。
本実施例のいくつかの任意選択の実施形態では、第1の生成モジュール602は、更に、キャラクター画像におけるキャラクターの顔の器官を分類し、複数種のプリセット仮想顔の器官タイプに属する顔の器官タイプの重みを得、重みに基づいて、複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、キャラクター画像におけるキャラクターの仮想顔の器官を生成し、キャラクター画像におけるキャラクターの仮想顔の器官に基づいて前記3次元仮想イメージを生成するように構成される。
本実施例のいくつかの任意選択の実施形態では、第2の生成モジュール603は、更に、キャラクター画像におけるキャラクターの数と環境情報を認識し、キャラクター画像におけるキャラクターの数と環境情報に基づいて、キャラクター画像におけるキャラクター間でインタラクションする動画インタラクティブ情報を生成するように構成される。
本実施例のいくつかの任意選択の実施形態では、第2の生成モジュール603は、更に、端末デバイスから送信されたユーザー音声を受信し、ユーザー音声の内容および/またはユーザー気分を認識し、ユーザー音声の内容および/またはユーザー気分に基づいて、ユーザーとインタラクションする動画インタラクティブ情報を生成するように構成される。
図7をさらに参照しながら、上記の図に示される方法の実施として、本願は、動画インタラクティブ装置の実施例を提供する。該装置の実施例は、図4に示される方法の実施例に対応し、該装置は、具体的には、さまざまな電子機器に適用される。
図7に示すように、本実施例の動画インタラクティブ装置700は、キャラクター画像をサーバーに送信し、及びサーバーから帰還された3次元仮想イメージと動画インタラクティブ情報を受信するように構成される送受信モジュール701と、インタラクティブ表情シーケンスフレームに基づいて3次元仮想イメージをレンダリングし、3次元仮想イメージのインタラクティブ動画を生成するように構成されるレンダリング生成モジュール702と、インタラクティブ動画をキャラクター画像に統合して表示するように構成される表示モジュール703と、を備える。
ここでは、3次元仮想イメージはキャラクター画像におけるキャラクターと類似し、動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む。
本実施例では、動画インタラクティブ装置700において、送受信モジュール701、レンダリング生成モジュール702、および表示モジュール703の具体的な処理および技術効果、ならびにそれらによって得られた技術効果は、それぞれ、図4の対応する実施例のステップ401〜403の関連説明を参照してもよく、ここでは、繰り返し説明しない。
本実施例のいくつかの任意選択の実施形態では、動画インタラクティブ情報は、インタラクティブ型音声をさらに含み、動画インタラクティブ装置700は、インタラクティブ型音声を同期的に再生するように構成される再生モジュール(図示せず)をさらに備える。
本実施例のいくつかの任意選択の実施形態では、動画インタラクティブ装置700は、ユーザーから入力される音声を収集し、サーバーにユーザー音声を送信するように構成される収集送信モジュール(図示せず)を更に含み。送信受信モジュール701は、更に、サーバーから帰還されたユーザー音声に基づいて生成されたユーザーとインタラクションする動画インタラクティブ情報を受信するように構成される。
本願の実施例によれば、本願は電子デバイスと読み取り可能な記憶媒体をさらに提供する。
図8に示すのは、本願の実施例による動画インタラクティブ方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレーム、その他の適切なコンピュータなどのさまざまな態様のデジタルコンピュータを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび/または主張される本願の実現を限定することを意図しない。
図8に示すように、該電子デバイスは、1つまたは複数のプロセッサ801、メモリ802、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、GUIのグラフィック情報を外部入/出力装置(インターフェースに結合されたディスプレイデバイスなど)に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび/または複数のバスを、複数のメモリ及び複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要なオペレーティングを提供する(例えば、サーバーアレイ、ブレードサーバーグループ、またはマルチプロセッサシステムとする)。図8では、1つのプロセッサ801を例にする。
メモリ802は、即ち、本願による非一時的なコンピュータ可読記憶媒体である。ただし、前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも1つのプロセッサに本願による動画インタラクティブ方法を実行させる。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータに本願による動画インタラクティブ方法を実行させるためのコンピュータ命令を記憶する。
メモリ802は非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば、本願の実施例の動画インタラクティブ方法の方法に対応するプログラム命令/モジュール(例えば、図6に示される受信モジュール601、第1の生成モジュール602、第2の生成モジュール603及び送信モジュール604、あるいは図7に示される送受信モジュール701、レンダリング生成モジュール702及び表示モジュール703)。プロセッサ801は、メモリ802に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバーの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例の動画インタラクティブ方法の方法を実施する。
メモリ802は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、動画インタラクティブ方法の電子デバイスの使用のため、作成されたデータなどを記憶することができ、また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートメモリデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ802は、プロセッサ801に対してリモートで設定されたメモリを選択してもよく、これらのリモートメモリは、ネットワークを介して動画インタラクティブ方法の電子デバイスに接続されてもよい。上記のネットワークの例としては、インターネット、ブロックチェーンネットワーク、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。
動画インタラクティブ方法の電子デバイスは、入力装置803及び出力装置804をさらに備えてよい。プロセッサ801、メモリ802、入力装置803、出力装置804は、バスなどで接続されてもよいが、図8にバスによる接続を例にする。
入力装置803は、入力デジタルまたは文字情報を受信し、動画インタラクティブ方法の電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック、などの入力装置。出力装置804は、ディスプレイデバイス、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えてもよいがそれに限定されない。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい
ここで説明されるシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現できる。これらの様々な実施例は、以下を含んでもよく、1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行および/または解釈されてもよく、該プログラマブルプロセッサは、メモリシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータと命令を受信し、そのデータと命令をメモリシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語を利用してこれらのコンピュータプログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意の信号を指す。
ユーザーとのインタラクティブを提供するために、コンピュータにここで説明されるシステム及び技術を実施させてもよく、該コンピュータは、ユーザーに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)、及びキーボードとポインティング装置(マウスやトラックボールなど)を備え、ユーザーが該キーボードとポインティング装置を介してコンピュータに入力を提供することができる。他のタイプの装置もユーザーとのインタラクティブを提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音入力、音声入力、または触覚入力を含み)でユーザーからの入力を受信することができる。
ここで説明されるシステムと技術は、バックエンドコンポーネント(例えば、データサーバー)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバー)を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム(例えば、グラフィカルユーザーインターフェイスまたはWebブラウザーを備え、ユーザーが該グラフィカルユーザーインターフェイスまたはWebブラウザーでシステムと技術の実施例とインタラクティブできるユーザーのコンピュータ)、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信(通信ネットワークなど)を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、ブロックチェーンネットワークが挙げられる。
コンピュータシステムは、クライアント及びサーバーを含んでもよい。クライアントとサーバーは、一般的に互いに離れており、通常は通信ネットワークを介してインタラクションする。対応するコンピュータ上で、互いにクライアント/サーバー関係を持つコンピュータプログラムを実行することによりクライアントとサーバーの関係を生成する。
本願の実施例による技術的解決手段によれば、まず端末デバイスから送信されたキャラクター画像を受信し、次にキャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成し、且つ動画インタラクティブ情報を生成し、最後に3次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。キャラクター画像におけるキャラクターをそれと類似している3次元仮想イメージに置き換え、動画インタラクティブ情報を用いて3次元仮想イメージコンパニオンユーザを駆動することで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザの参加度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。
なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並列、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。
上記の具体的な実施例は、本願の特許請求の範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、同等などな置換、改良などはすべて本願の特許請求の範囲に含まれるべきである。


Claims (19)

  1. 動画インタラクティブ方法であって、
    端末デバイスから送信されたキャラクター画像を受信ステップと、
    前記キャラクター画像に基づいて、前記キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成するステップと、
    インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するステップと、
    前記3次元仮想イメージと前記動画インタラクティブ情報を前記端末デバイスに送信するステップと、を含む方法。
  2. 前記動画インタラクティブ情報はインタラクティブ音声を更に含む請求項1に記載の方法。
  3. 前記キャラクター画像に基づいて、3次元仮想イメージを生成するステップは、
    前記キャラクター画像におけるキャラクターの顔の器官を分類し、複数種のプリセット仮想顔の器官タイプに属する前記顔の器官タイプの重みを得ることと、
    前記重みに基づいて、前記複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、前記キャラクター画像におけるキャラクターの仮想顔の器官を生成することと、
    前記キャラクター画像におけるキャラクターの仮想顔の器官に基づいて、前記3次元仮想イメージを生成することと、を含む、
    請求項1に記載の方法。
  4. 前記動画インタラクティブ情報を生成するステップは、
    前記キャラクター画像におけるキャラクターの数と環境情報を認識することと、
    前記キャラクター画像におけるキャラクターの数と環境情報に基づいて、前記キャラクター画像におけるキャラクター間にインタラクティブする動画インタラクティブ情報を生成することと、を含む、
    請求項1または2に記載の方法。
  5. 前記動画インタラクティブ情報を生成するステップは、
    前記端末デバイスから送信されたユーザー音声を受信することと、
    前記ユーザー音声の内容および/またはユーザー気分を認識することと、
    前記ユーザー音声の内容および/またはユーザー気分に基づいて、前記ユーザーとインタラクティブする動画インタラクティブ情報を生成することと、を含む、
    請求項1または2に記載の方法。
  6. 動画インタラクティブ方法であって、
    キャラクター画像をサーバーに送信し、前記サーバーから戻された3次元仮想イメージと動画インタラクティブ情報を受信するステップと、
    前記インタラクティブ表情シーケンスフレームに基づいて前記3次元仮想イメージをレンダリングし、前記3次元仮想イメージのインタラクティブ動画を生成するステップと、
    前記インタラクティブ動画を前記キャラクター画像に統合して表示するステップと、を含み、
    前記3次元仮想イメージは前記キャラクター画像におけるキャラクターと類似し、前記動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む、方法。
  7. 前記動画インタラクティブ情報は、インタラクティブ音声を更に含み、
    前記インタラクティブ動画を前記キャラクター画像に統合して表示するとともに、前記インタラクティブ音声を同期して再生することを更に含む、
    請求項6に記載の方法。
  8. 前記方法は、
    ユーザーから入力される音声を収集して前記サーバーに前記ユーザー音声を送信することを含み、
    前記サーバーから帰還された動画インタラクティブ情報を受信することは、前記サーバーから帰還された前記ユーザー音声に基づいて生成された前記ユーザーとインタラクティブする動画インタラクティブ情報を受信するを更に含む、
    請求項6または7に記載の方法。
  9. 動画インタラクティブ装置であって、
    端末デバイスから送信されたキャラクター画像を受信するように構成される受信モジュールと、
    前記キャラクター画像に基づいて、前記キャラクター画像におけるキャラクターと類似している3次元仮想イメージを生成するように構成される第1の生成モジュールと、
    インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するように構成される第2の生成モジュールと、
    前記3次元仮想イメージと前記動画インタラクティブ情報を前記端末デバイスに送信するように構成される送信モジュールと、を備える装置。
  10. 前記動画インタラクティブ情報はインタラクティブ音声を更に含む、
    請求項9に記載の装置。
  11. 前記第1の生成モジュールは、更に、
    前記キャラクター画像におけるキャラクターの顔の器官を分類し、前記複数種のプリセット仮想顔の器官タイプに属する顔の器官タイプの重みを取得し、
    前記重みに基づいて、前記複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、前記キャラクター画像におけるキャラクターの仮想顔の器官を生成し、
    前記キャラクター画像におけるキャラクターの仮想顔の器官に基づいて前記3次元仮想イメージを生成するように構成される、
    請求項9に記載の装置。
  12. 前記第2の生成モジュールは、更に、
    前記キャラクター画像におけるキャラクターの数と環境情報を認識し、
    前記キャラクター画像におけるキャラクターの数と環境情報に基づいて、前記キャラクター画像におけるキャラクター間でインタラクションする動画インタラクティブ情報を生成するように構成される、
    請求項9にまたは10記載の装置。
  13. 前記第2の生成モジュールは、更に、
    前記端末デバイスから送信されたユーザー音声を受信し、
    前記ユーザー音声の内容および/またはユーザー気分を認識し、
    前記ユーザー音声の内容および/またはユーザー気分に基づいて、前記ユーザーとインタラクティブする動画インタラクティブ情報を生成するように構成される、
    請求項9にまたは10記載の装置。
  14. 動画インタラクティブ装置であって、
    キャラクター画像をサーバーに送信し、及び前記サーバーから戻された3次元仮想イメージと動画インタラクティブ情報を受信するように構成される送受信モジュールと、
    前記インタラクティブ表情シーケンスフレームに基づいて前記3次元仮想イメージをレンダリングし、前記3次元仮想イメージのインタラクティブ動画を生成するように構成されるレンダリング生成モジュールと、
    前記インタラクティブ動画を前記キャラクター画像に統合して表示するように構成される表示モジュールと、を備える装置。
  15. 前記動画インタラクティブ情報はインタラクティブ音声を更に含み、
    前記装置は、前記インタラクティブ音声同期して再生するように構成される再生モジュールを更に備える、
    14に記載の装置。
  16. 前記装置は、
    ユーザーから入力される音声を収集し、前記サーバーに前記ユーザー音声を送信するように構成される収集送信モジュールを更に備え、
    前記送受信モジュールは、更に、
    前記サーバーから帰還された前記ユーザー音声に基づいて生成された前記ユーザーとインタラクションする動画インタラクティブ情報を受信するように構成される、
    請求項14または15に記載の装置。
  17. 電子デバイスであって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのコンピュータプログラムが記憶されたメモリと、を備え、
    前記少なくとも1つのコンピュータプログラム、前記少なくとも1つのプロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法または請求項6〜8のいずれか1項に記載の動画インタラクティブ方法を実行させる、電子デバイス。
  18. コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法または請求項6〜8のいずれか1項に記載の方法を実施するコンピュータ可読記憶媒体。
  19. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法または請求項6〜8のいずれか1項に記載の方法を実施するコンピュータプログラム。

JP2021043207A 2020-07-14 2021-03-17 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム Pending JP2021192222A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010676929.1 2020-07-14
CN202010676929.1A CN111833418B (zh) 2020-07-14 2020-07-14 动画交互方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2021192222A true JP2021192222A (ja) 2021-12-16
JP2021192222A5 JP2021192222A5 (ja) 2023-03-17

Family

ID=72923241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021043207A Pending JP2021192222A (ja) 2020-07-14 2021-03-17 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム

Country Status (5)

Country Link
US (1) US20210201550A1 (ja)
EP (1) EP3882860A3 (ja)
JP (1) JP2021192222A (ja)
KR (1) KR102503413B1 (ja)
CN (1) CN111833418B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435313A (zh) * 2020-11-10 2021-03-02 北京百度网讯科技有限公司 播放帧动画的方法、装置、电子设备及可读存储介质
CN112328088B (zh) * 2020-11-23 2023-08-04 北京百度网讯科技有限公司 图像的呈现方法和装置
CN112508161A (zh) * 2020-11-26 2021-03-16 珠海格力电器股份有限公司 陪伴数字替身的控制方法、系统和存储介质
CN112527105B (zh) * 2020-11-27 2023-07-21 北京百度网讯科技有限公司 人机互动方法、装置、电子设备及存储介质
CN112527115B (zh) * 2020-12-15 2023-08-04 北京百度网讯科技有限公司 用户形象生成方法、相关装置及计算机程序产品
CN113014471B (zh) * 2021-01-18 2022-08-19 腾讯科技(深圳)有限公司 会话处理方法,装置、终端和存储介质
CN112799575A (zh) * 2021-01-20 2021-05-14 深圳市金大智能创新科技有限公司 一种基于智能音箱的语音交互方法、智能音箱及智能终端
CN113050794A (zh) * 2021-03-24 2021-06-29 北京百度网讯科技有限公司 用于虚拟形象的滑块处理方法及装置
CN113240781A (zh) * 2021-05-20 2021-08-10 东营友帮建安有限公司 基于语音驱动及图像识别的影视动画制作方法、系统
CN113593013A (zh) * 2021-07-21 2021-11-02 吴浩诚 基于vr逝者仿真的交互方法、系统、终端及vr设备
CN113744374B (zh) * 2021-09-03 2023-09-22 浙江大学 一种基于表情驱动的3d虚拟形象生成方法
CN114201043A (zh) * 2021-12-09 2022-03-18 北京百度网讯科技有限公司 内容交互的方法、装置、设备和介质
CN114445528B (zh) * 2021-12-15 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成方法、装置、电子设备及存储介质
CN114422740A (zh) * 2021-12-25 2022-04-29 在秀网络科技(深圳)有限公司 一种用于即时通讯及视频的虚似场景互动方法与系统
CN114972589A (zh) * 2022-05-31 2022-08-30 北京百度网讯科技有限公司 虚拟数字形象的驱动方法及其装置
CN115116468A (zh) * 2022-06-16 2022-09-27 虹软科技股份有限公司 一种视频生成方法、装置、存储介质及电子设备
CN115601485B (zh) * 2022-12-15 2023-04-07 阿里巴巴(中国)有限公司 任务处理模型的数据处理方法及虚拟人物动画生成方法
CN116708905A (zh) * 2023-08-07 2023-09-05 海马云(天津)信息技术有限公司 在电视盒子上实现数字人交互的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム
JP2011070623A (ja) * 2009-08-31 2011-04-07 Sony Corp 画像処理装置および画像処理方法、並びにプログラム
JP6683864B1 (ja) * 2019-06-28 2020-04-22 株式会社ドワンゴ コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
JP6887102B2 (ja) * 2016-02-29 2021-06-16 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
US10249089B2 (en) * 2016-08-01 2019-04-02 Dell Products, Lp System and method for representing remote participants to a meeting
CN108573527B (zh) * 2018-04-18 2020-02-18 腾讯科技(深圳)有限公司 一种表情图片生成方法及其设备、存储介质
CN111383642B (zh) * 2018-12-27 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的语音应答方法、存储介质以终端设备
CN110189754A (zh) * 2019-05-29 2019-08-30 腾讯科技(深圳)有限公司 语音交互方法、装置、电子设备及存储介质
CN110262665A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110362666A (zh) * 2019-07-09 2019-10-22 邬欣霖 应用虚拟人物的交互处理方法、装置、存储介质和设备
CN110674398A (zh) * 2019-09-05 2020-01-10 深圳追一科技有限公司 虚拟人物形象交互方法、装置、终端设备及存储介质
CN111028330B (zh) * 2019-11-15 2023-04-07 腾讯科技(深圳)有限公司 三维表情基的生成方法、装置、设备及存储介质
CN111145322B (zh) * 2019-12-26 2024-01-19 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム
JP2011070623A (ja) * 2009-08-31 2011-04-07 Sony Corp 画像処理装置および画像処理方法、並びにプログラム
JP6683864B1 (ja) * 2019-06-28 2020-04-22 株式会社ドワンゴ コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム

Also Published As

Publication number Publication date
CN111833418A (zh) 2020-10-27
EP3882860A3 (en) 2021-10-20
US20210201550A1 (en) 2021-07-01
CN111833418B (zh) 2024-03-29
EP3882860A2 (en) 2021-09-22
KR20220008735A (ko) 2022-01-21
KR102503413B1 (ko) 2023-02-23

Similar Documents

Publication Publication Date Title
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
CN112131988B (zh) 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
WO2022001593A1 (zh) 视频生成方法、装置、存储介质及计算机设备
EP3889912B1 (en) Method and apparatus for generating video
US11494612B2 (en) Systems and methods for domain adaptation in neural networks using domain classifier
US11640519B2 (en) Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
WO2020091853A1 (en) Systems and methods for domain adaptation in neural networks
KR20130032620A (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
WO2022106654A2 (en) Methods and systems for video translation
CN113362263B (zh) 变换虚拟偶像的形象的方法、设备、介质及程序产品
US20230368461A1 (en) Method and apparatus for processing action of virtual object, and storage medium
CN111414506A (zh) 基于人工智能情绪处理方法、装置、电子设备及存储介质
CN114219892A (zh) 三维模型的智能驱动方法
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN112634413B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN113673277B (zh) 线上绘本内容的获取方法、装置以及智能屏设备
WO2024066549A1 (zh) 一种数据处理方法及相关设备
WO2024128517A1 (en) Machine learning-based approach for audio-driven avatar animation or other functions
US20240096033A1 (en) Technology for creating, replicating and/or controlling avatars in extended reality
CN118250523A (zh) 数字人视频生成方法、装置、存储介质及电子设备
CN118052912A (zh) 视频生成方法、装置、计算机设备及存储介质
CN116775179A (zh) 虚拟对象配置方法、电子设备及计算机可读存储介质
CN117437335A (zh) 表情转移到风格化化身

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20230309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230620