JP2021192222A

JP2021192222A - 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム

Info

Publication number: JP2021192222A
Application number: JP2021043207A
Authority: JP
Inventors: ルイチーチェン、; Ruizhi Chen; ハオティエンペン、; Haotian Peng
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-14
Filing date: 2021-03-17
Publication date: 2021-12-16
Also published as: CN111833418A; EP3882860A3; US20210201550A1; CN111833418B; EP3882860A2; KR20220008735A; KR102503413B1

Abstract

【課題】仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる方法及び装置を提供する。【解決手段】方法は、端末デバイスから送信されたキャラクター画像を受信ステップと、キャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成するステップと、インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するステップと、３次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信するステップと、を含む。【選択図】図２

Description

本願の実施例は、コンピュータ技術分野に関し、具体的には、画像処理、三次元モデリング、拡張現実技術分野に関し、特に動画インタラクティブ方法、装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラムに関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＡＩ）は、人間の知能をシミュレート、発展、拡張するための理論、方法、技術、およびアプリケーションシステムを研究および開発する新な科学技術である。人工知能はコンピュータサイエンスの一つの分野であり、これは、知能の本質を理解し、人間の知能と同じように反応できる新しいインテリジェントマシンを生み出すことをしようとする。この分野の研究には、ロボット工学、言語認識、画像認識、自然言語処理やエキスパートシステムなどを含む。人工知能の誕生以来、理論と技術はますます成熟し、応用分野も拡大し続けている。

仮想コンパニオンは人工知能の重要な応用技術として、ますます多くのインターネットシーンにおいて深く応用されている。しかし、従来の仮想コンパニオンは音声形式を主とし、現れる形式は単調である。

本願の実施例は、動画インタラクティブ方法、装置、デバイス及び記憶媒体を提案する。

第１の態様では、本願の実施例は、端末デバイスから送信されたキャラクター画像を受信ステップと、
キャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成するステップと、
インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するステップと、
３次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信するステップと、を含む動画インタラクティブ方法を提案する。

第２の態様では、本願の実施例は、キャラクター画像をサーバーに送信し、サーバーから帰還された３次元仮想イメージと動画インタラクティブ情報を受信するステップと、
インタラクティブ表情シーケンスフレームに基づいて３次元仮想イメージをレンダリングし、３次元仮想イメージのインタラクティブ動画を生成するステップと、
インタラクティブ動画をキャラクター画像に統合して表示するステップと、を含み、
ここでは、３次元仮想イメージはキャラクター画像におけるキャラクターと類似し、動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む動画インタラクティブ方法を提案する。

第３の態様では、本願の実施例は、
端末デバイスから送信されたキャラクター画像を受信するように構成される受信モジュールと、
キャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成するように構成される第１の生成モジュールと、
インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するように構成される第２の生成モジュールと、
３次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信するように構成される送信モジュールと、を備える動画インタラクティブ装置を提案する。

第４の態様では、本願の実施例は、
キャラクター画像をサーバーに送信し、サーバーから帰還された３次元仮想イメージと動画インタラクティブ情報を受信するように構成される送受信モジュールと、
インタラクティブ表情シーケンスフレームに基づいて３次元仮想イメージをレンダリングし、３次元仮想イメージのインタラクティブ動画を生成するように構成されるレンダリング生成モジュールと、
インタラクティブ動画をキャラクター画像に統合して表示するように構成される表示モジュールと、を備え、
３次元仮想イメージはキャラクター画像におけるキャラクターと類似し、動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む動画インタラクティブ装置を提案する。

第５の態様では、本願の実施例は、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサと通信接続されるメモリと、を備え、
メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶し、少なくとも１つのプロセッサが第１の態様のいずれかの実施形態または第２の態様のいずれかの実施形態に記載の動画インタラクティブ方法を実行できるように、命令が少なくとも１つのプロセッサに実行される電子デバイスを提案する。

第６の態様では、本願の実施例は、
コンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体をさらに提案しており、コンピュータ命令は、コンピュータに、第１の態様のいずれかの実施形態または第２の態様のいずれかの実施形態に記載の方法を実行させる。

第７の態様では、本願の実施例は、
コンピュータプログラムをさらに提案しており、コンピュータプログラムは、プロセッサにより実行されると、コンピュータに、第１の態様のいずれかの実施形態または第２の態様のいずれかの実施形態に記載の方法を実行させる。

本願の実施例による動画インタラクティブ方法、装置、デバイス及び記憶媒体は、まず端末デバイスから送信されたキャラクター画像を受信し、次にキャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成し、且つ動画インタラクティブ情報を生成し、最後に３次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。キャラクター画像におけるキャラクターをそれと類似している３次元仮想イメージに置き換え、動画インタラクティブ情報を用いて３次元仮想イメージを駆動しユーザーと付き合うことで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザーの参与度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。

なお、本部分に記載される内容は、本開示の実施例の核心又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定するためものではない。本開示の他の特徴は、以下の説明により容易に理解される。

以下の図面を参照して行われた非限定的な実施例に対する詳細な説明を読むことにより，本願の他の特徴、目的及び利点がより明らかになる。図面は本発明をよりよく理解するためのものであり、本願を限定するものではない。
本願の適用可能なシステムアーキテクチャの一例を示す図である。本願の動画インタラクティブ方法による一実施例のフローチャートである。本願の動画インタラクティブ方法の更なる実施例のフローチャートである。本願の動画インタラクティブ方法の別の実施例を示すフローチャートである。本願の実施例による動画インタラクティブ方法を実現可能なシーン図である。本願による動画インタラクティブ装置の一実施例の構成を示す図である。本願による動画インタラクティブ装置のさらに他の実施例の構成を示す図である。本願の実施例の動画インタラクティブ方法を実施するための電子機器のブロック図である。

以下、理解を容易にするために、図面を参照しながら本願の様々な詳細を含む例示的な実施例を説明するが、それらは例示的なものだけだと見られるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここでは記載された実施例に様々な変更及び修正できると認識するべきである。同様に、簡潔明瞭のために、以下の説明では、公知の機能及び構造の説明を省略する。

なお、矛盾しない限り、本願における実施例及び実施例における特徴は、互いに組み合わせることが可能である。以下に図面及び実施例を参照して本願を詳細に説明する。

図１は本願の動画インタラクティブ方法又は動画インタラクティブ装置の適用可能な実施例のシステムアーキテクチャ１００の一例を示す。

図１に示すように、システムアーキテクチャ１００は、端末デバイス１０１、ネットワーク１０２、サーバー１０３を含んでもよい。ネットワーク１０２は、端末デバイス１０１とサーバー１０３との間に通信リンクの媒体を提供するためのものである。ネットワーク１０２は、有線、無線、通信リンク、光ファイバケーブル等の様々な接続タイプを含んでもよい。

ユーザーは、メッセージ等を送受信するように、端末デバイス１０１を用いてネットワーク１０２を介してサーバー１０３とインタラクションすることができる。端末デバイス１０１には、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェア等の様々なクライアントアプリケーションがインストールされてもよい。端末デバイス１０１は、サーバー１０１から受信した３次元仮想イメージや動画インタラクティブ情報等のデータをレンダリング等の処理を行い、処理結果を示すことができる（例えば、インタラクティブ動画と統合して表示し、インタラクティブ音声を同期して再生する）。

端末デバイス１０１は、ハードウェアまたはソフトウェアであってもよい。端末デバイス１０１がハードウェアである場合、それは電子フォトフレーム、スマートフォン、タブレットコンピュータなどを含むがこれらに限定されない様々な電子デバイスであってもよい。端末デバイス１０１がソフトウェアである場合、それは上記の電子デバイスに設置することができる。複数のソフトウェアまたはソフトウェアモジュールとして、あるいは単一のソフトウェアまたはソフトウェアモジュールとして実装できる。ここでは、具体的に限定しない。

サーバー１０３は、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアのバックエンドサーバーなどの様々なサービスを提供するサーバーであってもよい。バックグラウンドサーバーは、端末デバイス１０１から受信したキャラクター画像などのデータを分析および処理し、処理結果（例えば、３次元仮想イメージおよび動画インタラクティブ情報）を端末デバイス１０１にフィードバックすることができる。

なお、サーバー１０３は、ハードウェアまたはソフトウェアであってもよい。サーバー１０３がハードウェアである場合、それは、複数のサーバーから構成される分散サーバークラスターとして、または単一のサーバーとして実装することができる。サーバー１０３がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュールとして（例えば、分散サービスを提供するため）実装することができ、または単一のソフトウェアまたはソフトウェアモジュールとして実装することができる。ここでは、具体的に限定しない。

なお、本願の実施例による動画インタラクティブ方法は、サーバー１０３により実行可能であり、それに対応して、動画インタラクティブ装置は、サーバー１０３に設定され、本願の実施例による動画インタラクティブ方法は、端末デバイス１０１によっても実行可能である。それに対応して、動画インタラクティブ装置は、端末デバイス１０１に設置される。

なお、図１の端末デバイス、ネットワーク、およびサーバーの数は、単なる例示であることを理解されるべきである。実装のニーズに応じて、任意の数の端末デバイス、ネットワーク、およびサーバーを備えてもよい。

図２を参照しながら、本願による動画インタラクティブ方法の実施例のプロセス２００を示す。動画のインタラクティブ方法は、次のステップを含む。

ステップ２０１、端末デバイスから送信されたキャラクター画像を受信する。

本実施例では、動画インタラクション法（例えば、図１に示すサーバー１０３）の実行主体は、端末デバイス（例えば、図１に示す端末デバイス１０１）から送信されたキャラクター画像を受信することができる。

実際には、端末デバイスは、電子フォトフレーム、スマートフォン、タブレットコンピュータなどを含むが、これらに限定されない。端末デバイスに３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアをインストールできる。ユーザーは、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアを使用して、キャラクターの画像をサーバーにアップロードできる。ここでは、キャラクター画像は通常、現実世界のキャラクターの２次元画像である。いくつかの実施例では、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスのカメラ許可を予め取得し、端末デバイスのカメラを介して人々の写真を撮ることができる。いくつかの実施例では、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスのアルバム読み取り許可を予め取得し、端末デバイスのアルバムに格納されているキャラクター画像を読み取ることができる。

ステップ２０２、キャラクター画像に基づいて、３次元仮想イメージを生成する。

本実施例では、上記の実行主体は、キャラクター画像に基づいて３次元仮想イメージを生成するようにしてもよい。ここでは、３次元仮想イメージは、キャラクター画像におけるキャラクターに似ており、キャラクター画像におけるキャラクターを様式化してその個人的な特徴を強調する３次元動画キャラクターにするようにしてもよい。

いくつかの実施例では、上記の実行主体は、大量の３次元仮想イメージを予め記憶するようにしてもよく、上記の実行主体は、キャラクター画像におけるキャラクターの特徴を抽出し、それらを予め記憶された各３次元仮想イメージと整合して、整合性が高い特徴を有する３次元仮想イメージを、キャラクター画像におけるキャラクターの３次元仮想イメージとする。

いくつかの実施例では、上記の実行主体は、ＰＴＡ（ｐｈｏｔｏｔｏａｖａｔａｒ、仮想イメージ自動生成）技術を使用して、キャラクター画像におけるキャラクターの３Ｄピンチを行い、対応する３次元仮想イメージを生成するようにしてもよい。具体的には、上記の実行主体は、まずキャラクター画像におけるキャラクターの顔の器官を分類し、複数種のプリセット仮想顔の器官タイプに属する顔の器官タイプの重みを取得し、次に、重みに基づいて、複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、キャラクター画像におけるキャラクターの仮想顔の器官を生成する。最後に、キャラクター画像におけるキャラクターの仮想顔の器官に基づいて、３次元仮想イメージを生成する。予め記憶された複数種のタイプの仮想顔の器官を統合することにより、任意のタイプの仮想顔の器官を形成ことができる。さらに、類似度の重みに基づいて、予め記憶された複数種のタイプの仮想顔の器官を統合し、キャラクター画像におけるキャラクターの顔の器官に非常に類似している仮想顔の器官を形成することができる。ここでは、プリセット仮想顔の器官は、目、鼻、口、眉毛、耳などを含んでもよいが、これらに限定されない。たとえば、目の場合は、複数種のタイプの仮想の目（桃花眼、瑞鳳眼、睡鳳眼、柳葉眼及び杏眼などを含むがこれらに限定されない）を予め記憶し、キャラクターの目とこれらの仮想目のタイプ類似度の重みを計算できる。類似度の重みに基づいて、これらの仮想目のタイプを統合し、キャラクターの画像におけるキャラクターの仮想目を取得する。

ステップ２０３、動画インタラクティブ情報を生成する。

本実施例では、上記の実行主体は、動画インタラクティブ情報を生成することができる。一般には、上記の実行主体は、さまざまな表情フレームを含む１セットの常用の表情ベースのを予め格納できる。上記の実行主体は、表情フレームの少なくとも一部を組み合わせて、インタラクティブ表情シーケンスフレームを生成することができる。このとき、動画のインタラクション情報には、インタラクティブ表情シーケンスフレームが含まれてもよい。任意選択には、上記の実行主体は、表情シーケンスフレームに整合するインタラクティブ音声を設計することもできる。このとき、動画のインタラクション情報はインタラクティブ音声も含んでもよい。

ステップ２０４、３次元の仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。

本実施例では、上記の実行主体は、３次元仮想イメージと動画インタラクティブ情報を端末装置に送信することができる。このように、端末デバイスは、インタラクティブ表情シーケンスフレームに基づいて３次元仮想イメージをレンダリングし、インタラクティブ動画を生成し、それをキャラクター画像に統合して表示し、仮想世界の３次元仮想イメージを現実世界のキャラクター画像に重ね合わせてインタラクションさせることができ、キャラクター画像の拡張現実を実現する。任意選択には、動画インタラクション情報はインタラクティブ音声も含む場合、インタラクティブ動画をキャラクター画像に統合して表示するとともに、上記の実行主体もインタラクティブ音声を同期して再生し、複数種の現れる形式の仮想コンパニオンを実現できる。ここでは、インタラクティブ動画の３次元仮想イメージは、インタラクティブ表情シーケンスフレーム内の表情を順次作成する。

本願の実施例による動画インタラクティブ方法では、まず端末デバイスから送信されたキャラクター画像を受信し、次にキャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成し、且つ動画インタラクティブ情報を生成し、最後に３次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。キャラクター画像におけるキャラクターをそれと類似している３次元仮想イメージに置き換え、動画インタラクティブ情報を用いて３次元仮想イメージがユーザに同伴するようにすることで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザの参加度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。

図３をさらに参照しながら、本願による動画インタラクティブ方法の別の実施例のプロセス３００を示す。該動画のインタラクティブ方法は、次のステップを含む。

ステップ３０１、端末デバイスから送信されたキャラクター画像を受信する。

ステップ３０２、キャラクター画像に基づいて３次元仮想イメージを生成する。

本実施例では、ステップ３０１〜２０２の具体的な操作は、図２に示される実施例のステップ２０１〜２０２に詳細に説明されており、ここでは繰り返し説明しない。

ステップ３０３、キャラクター画像におけるキャラクターの数と環境情報を認識する。

本実施例では、動画インタラクティブ方法の実行主体（例えば、図１に示されるサーバー１０３）は、デフォルトの動画インタラクティブ情報を生成することができる。

いくつかの実施例では、ユーザーが音声を入力するかどうかに関係なく、上記の実行主体は、いずれも生成されたデフォルトの動画インタラクティブ情報を将来の使用のために記憶することができる。

いくつかの実施例では、ユーザーが音声を入力しない場合にのみ、上記の実行主体は、デフォルトの動画インタラクティブ情報を生成する。

通常、デフォルトの動画インタラクション情報は、キャラクター画像のあるところのシーンと整合する。具体的には、上記の実行主体は、キャラクター画像のあるところのシーンの情報を取得するように、キャラクター画像におけるキャラクターの数を認識することができる。例えば、上記の実行主体は、目標検出モデルを使用して、キャラクター画像における人体フレームを検出し、検出された人体フレームの数に基づいてキャラクター画像におけるキャラクターの数を決定することができる。上記の実行主体は、目標認識モデルを使用して、キャラクター画像の背景にある物体を認識し、認識された物体に基づいてキャラクター画像における環境情報を決定することができる。ここでは、目標検出モデルおよび目標認識モデルは、深層学習によって得られたニューロンネットワークモデルを予め訓練できる。

ステップ３０４、キャラクター画像におけるキャラクターの数および環境情報に基づいて、キャラクター画像におけるキャラクター間のインタラクションを示す動画インタラクティブ情報を生成する。

本実施例では、上記の実行主体は、キャラクター画像におけるキャラクターの数と環境情報に基づいて、キャラクター画像におけるキャラクター間のインタラクションを示す動画インタラクティブ情報を生成することができる。ここでは、キャラクター画像のキャラクターの数に基づいてインタラクティブ参加者の数を決定し、キャラクター画像の環境情報に基づいてそれに整合するインタラクティブ内容を生成することができる。ここでは、インタラクティブ参加者の数は、キャラクター画像におけるキャラクターの数以下であり、通常、キャラクター画像のキャラクターの数に等しい。たとえば、キャラクター画像が３人いて、ショッピングモールにいる場合、動画インタラクティブ情報は、ショッピングモールでのショッピングについて話し合っている３人のインタラクティブ情報であってもよい。

ステップ３０５、端末デバイスから送信されたユーザー音声を受信する。

本実施例では、ユーザーが音声を入力する場合、上記の実行主体は、ユーザーとインタラクトする動画インタラクティブ情報を生成することができる。具体的には、端末装置（図１に示される端末装置１０１）から送信されたユーザー音声を受信し、ユーザー音声に整合する動画インタラクション情報を生成する。

実際には、端末デバイスは、電子フォトフレーム、スマートフォン、タブレットコンピュータなどを備えてもよいが、これらに限定されない。端末デバイスには、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアがインストールされてもよい。３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスの録音許可を予め取得し、端末デバイスのマイクを介してユーザーが入力したユーザー音声を収集することができる。

ステップ３０６、ユーザー音声の内容および/またはユーザー気分を認識する。

本実施例では、上記の実行主体は、ユーザー音声の内容および／またはユーザー気分を認識することができる。ここでは、ユーザー音声の内容は、ユーザー音声に対して音声からテキストへの変換を実行することによって取得することができる。ユーザー気分は、ユーザー音声および/またはユーザー音声の内容から感情的な特徴情報を抽出することによって決定することができる。

ユーザー音声の内容のみを認識する案では、上記の実行主体は、ユーザー音声に対して音声からテキストへの変換を実行することによってユーザー音声の内容を取得することができる。

ユーザー気分のみを認識する案では、上記の実行主体は、ユーザー音声からユーザーの発音の特徴を直接抽出し、対応する感情的な特徴情報を分析することができる。ここでは、発音の特徴は、調子、リズム、発話速度、イントネーション、レトリック、音の強さなどを含んでもよいが、これらに限定されない。たとえば、ユーザー音声のイントネーションがより陽気である場合、ユーザーはより幸せな気分にあると決定する。

ユーザー音声の内容とユーザー気分を同時に認識する案では、上記の実行主体は、ユーザー音声に対して音声からテキストへの変換を実行して、ユーザー音声の内容を取得することができる。さらに、上記の実行主体は、ユーザー音声からユーザーの発音の特徴を抽出し、対応する感情的な特徴情報を分析するだけでなく、ユーザー音声の内容から感情的な特徴情報を含む単語を抽出し、対応する感情的な特徴情報を分析することもできる。

ステップ３０７、ユーザー音声の内容および/またはユーザー気分に基づいて、ユーザーとインタラクションするための動画インタラクティブ情報を生成する。

本実施例では、上記の実行主体は、ユーザー音声の内容および／またはユーザー気分に基づいて、ユーザーとインタラクションするための動画インタラクティブ情報を生成することができる。ここでは、ユーザー気分に基づいてそれに整合する表情を決定することができる。ユーザー音声の内容に基づいて、それに整合するインタラクションの内容を生成できる。ユーザー気分に整合する表情および／またはユーザー気分に整合するインタラクティブ内容に基づいて、ユーザーとインタラクションするための動画インタラクティブ情報を生成することができる。

ユーザー気分に整合する表情のみに基づいて動画インタラクション情報を生成する案では、動画インタラクション情報は、キャラクターがしたユーザー気分に整合する一連の表情の顔の動きを説明する情報であってもよい。

ユーザー気分に整合するインタラクティブ内容のみに基づいて動画インタラクティブ情報を生成する案では、動画インタラクティブ情報は、キャラクターが言ったユーザー気分に整合する一連のインタラクティブ内容の口の動きを説明する情報であってもよい。

ユーザー気分に整合する表情とユーザー気分に整合するインタラクションの内容との両方に基づいて動画インタラクティブ情報を生成する案では、動画インタラクティブ情報は、キャラクターがしたユーザー気分に整合する一連の表情の顔の動きを説明する情報を含んでもよいだけでなく、ユーザー気分に整合する一連の口の動きを説明する情報を含んでもよい。

ステップ３０８、３次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。

本実施例では、ステップ３０８の具体的な操作は、図２に示される実施例のステップ２０４に詳細に説明されており、繰り返し説明しない。

図３から分かるように、図２に対応する実施例と比較して、本実施例における動画インタラクティブ方法のプロセス３００は、動画インタラクティブ情報を生成するステップを強調している。したがって、本実施例に説明される解決手段では、ユーザーが音声を入力しない場合、キャラクター画像におけるキャラクター間のインタラクションの動画インタラクティブ情報を生成し、端末デバイスに送信し、キャラクター画像における異なるキャラクター間のインタラクティブを駆動する。また、インタラクティブ内容はキャラクター画像のあるところのシーンと整合する。ユーザーが音声を入力した場合、ユーザーとインタラクトする動画インタラクティブ情報を生成して端末デバイスに送信し、キャラクター画像におけるキャラクターをユーザーとインタラクトさせ、インタラクティブ内容がユーザー音声と整合する。さまざまな状況に応じて、さまざまな動画インタラクション情報を生成し、それにより、インタラクションがより適正になる。

図４をさらに参照しながら、本願による動画インタラクティブ方法の別の実施例のプロセス４００を示す。該動画のインタラクティブ方法は、次のステップを含む。

ステップ４０１、キャラクター画像をサーバーに送信し、サーバーから帰還された３次元の仮想イメージと動画インタラクティブ情報を受信する。

本実施例では、動画インタラクション方法の実行主体（図１に示される端末装置１０１）は、キャラクター画像をサーバー（図１に示されるサーバー１０３）に送信し、サーバーから帰還された３次元仮想イメージおよび動画インタラクティブ情報を受信することができる。

実際には、端末デバイスは、電子フォトフレーム、スマートフォン、タブレットコンピュータなどを備えてもよいが、これらに限定されない。３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアを端末デバイスにインストールできる。ユーザーは、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアを使用して、キャラクターの画像をサーバーにアップロードできる。ここでは、キャラクター画像は通常、現実世界のキャラクターの２次元画像である。いくつかの実施例では、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末装置のカメラ許可を予め取得し、端末装置のカメラを介して人々の写真を撮ることができる。いくつかの実施例では、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末装置のアルバム読み取り許可を予め取得し、端末装置のアルバムに格納されているキャラクター画像を読み取ることができる。

サーバーは、キャラクター画像に基づいて３次元の仮想イメージと動画インタラクティブ情報を生成できる。ここでは、３次元仮想イメージはキャラクター画像におけるキャラクターに似ており、キャラクター画像におけるキャラクターを様式化してその個人的な特徴を強調する３次元動画キャラクターにすることができる。動画インタラクティブ情報は、インタラクティブ表情シーケンスフレームを含んでもよい。任意選択には、動画のインタラクション情報にインタラクティブ音声を含んでもよい。

いくつかの実施例では、動画インタラクティブ情報は、キャラクター画像のあるところのシーンと整合することができる。具体的には、サーバーは、最初にキャラクター画像のキャラクターの数と環境情報を識別し、次にキャラクター画像のキャラクターの数と環境情報に基づいて、キャラクター画像のキャラクター間のインタラクションの動画インタラクティブ情報を生成することができる。ユーザーが音声を入力しない場合、キャラクター画像におけるキャラクター間のインタラクションの動画インタラクティブ情報を生成し、端末デバイスに送信し、キャラクター画像における異なるキャラクター間でインタラクションさせ、インタラクションの内容はキャラクター画像のあるところのシーンと整合する。

いくつかの実施例では、動画インタラクティブ情報は、ユーザー音声と整合することができる。具体的には、３Ｄピンチソフトウェアまたはスマートフォトフレームソフトウェアは、端末デバイスの録音許可を予め取得し、端末デバイスのマイクを介してユーザーが入力したユーザー音声を収集し、サーバーにユーザー音声を送信することもできる。サーバーは、最初にユーザー音声の内容および/またはユーザー気分を認識し、次に、ユーザー音声の内容および/またはユーザー気分に基づいて、ユーザーとインタラクションする動画インタラクティブ情報を生成する。ユーザーが音声を入力した場合、ユーザーとインタラクションする動画インタラクション情報を生成し端末デバイスに送信し、キャラクター画像におけるキャラクターにユーザーとインタラクションさせ、インタラクティブ内容がユーザー音声と整合する。さまざまな状況に応じて、さまざまな動画インタラクション情報が生成され、それにより、インタラクションがより適正になる。

ステップ４０２、インタラクティブ表情シーケンスフレームに基づいて３次元の仮想イメージをレンダリングし、３次元の仮想イメージのインタラクティブ動画を生成する。

本実施例では、上記の実行主体は、インタラクティブ表情シーケンスフレームに基づいて３次元の仮想イメージをレンダリングして、３次元の仮想イメージのインタラクティブ動画を生成することができる。ここでは、インタラクティブ動画における３次元仮想イメージは、インタラクティブ表情シーケンスフレームにおける表情を順次作成する。

ステップ４０３、インタラクティブ動画をキャラクター画像に統合して表示する。

本実施例では、上記の実行主体は、インタラクティブ動画をキャラクター画像に統合して表示し、仮想世界の３次元仮想イメージを現実世界のキャラクター画像に重ね合わせてインタラクションさせることにより、キャラクター画像の拡張現実を実現することができる。任意選択には、動画インタラクション情報にインタラクティブ音声も含まれている場合、インタラクティブ動画をキャラクター画像に統合して表示するとともに、上記の実行主体がインタラクティブ音声を同期して再生し、複数種の現れる形式との仮想コンパニオンを実現できる。

本願の実施例による動画インタラクティブ方法では、まずキャラクター画像をサーバーに送信し、サーバーから帰還されたキャラクター画像におけるキャラクターと類似している３次元仮想イメージと動画インタラクティブ情報を受信し、次にインタラクティブ表情シーケンスフレームに基づいて３次元仮想イメージをレンダリングし、３次元仮想イメージのインタラクティブ動画を生成し、最後にインタラクティブ動画をキャラクター画像に統合して表示し、インタラクティブ音声を同期して再生する。キャラクター画像におけるキャラクターをそれと類似している３次元仮想イメージに置き換え、動画インタラクティブ情報を用いて３次元仮想イメージを駆動しユーザーと付き合うことで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザーの参与度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。

理解を容易にするために、図５は、本願の実施例の動画インタラクティブ方法を実施できるシーン図を示す。図５に示すように、電子フォトフレーム５０１は、マイク５０１１、ディスプレイ５０１２、スピーカー５０１３、画像メモリ５０１４、３次元仮想イメージメモリ５０１５、動画インタラクティブ情報メモリ５０１６、３次元仮想イメージドライブ５０１７、および画像合成器５０１８を備える。ユーザーがキャラクター画像を画像メモリ５０１４に格納した後、キャラクター画像をサーバー５０２にアップロードする操作がトリガーされる。キャラクター画像が初めてサーバー５０２にアップロードされた後、サーバー５０２は、ＰＴＡ技術を使用して、キャラクター画像におけるすべてのキャラクターに基づいて、それに対応する３次元仮想イメージを生成し、３次元仮想イメージメモリ５０１５にダウンロードすることができる。続いて、サーバー５０２は、キャラクター画像におけるキャラクターの数および環境情報に応じてキャラクター画像のあるところのシーンに整合する動画インタラクティブ情報（表情シーケンスフレームおよびインタラクティブ音声を含む）を生成し、それをデフォルトの動画インタラクティブ情報として動画インタラクティブ情報メモリ５０１６にダウンロードすることができる。実行中に、マイク５０１１がユーザーによって入力されたユーザー音声を収集しない場合、デフォルトの動画インタラクティブ情報に従って、後続の駆動および合成操作を直接完了する。実行中に、マイク５０１１がユーザーによって入力されたユーザー音声を収集する場合、マイク５０１１は、収集されたユーザー音声をサーバー５０２にアップロードすることができる。サーバー５０２は、ユーザー音声の内容およびユーザー気分に従ってユーザーとインタラクションする一時的な動画インタラクティブ情報を生成し、それを動画インタラクティブ情報メモリ５０１６にダウンロードすることができる。この時、その後の駆動および合成操作は、一時的な動画インタラクティブ情報に従って完了する。具体的には、３次元仮想イメージドライブ５０１７に動画インタラクティブ情報に従って３次元仮想イメージを駆動して、インタラクティブ動画を生成する。画像合成器５０１８では、インタラクティブ動画をキャラクターイメージに統合し、ディスプレイ５０１２を使用して表示する。同時に、スピーカー５０１３を使用してインタラクティブ音声を同期して再生する。

図６をさらに参照しながら、上記の図に示される方法の実施として、本願は、動画インタラクティブ装置の実施例を提供する。該装置の実施例は、図２に示される方法の実施例に対応する。該装置は、具体的には、さまざまな電子機器に適用される。

図６に示すように、本実施例の動画インタラクティブ装置６００は、受信モジュール６０１、第１の生成モジュール６０２、第２の生成モジュール６０３、および送信モジュール６０４を備えてもよい。ここでは、受信モジュール６０１は、端末装置によって送信されたキャラクター画像を受信するように構成され、第１の生成モジュール６０２は、キャラクター画像に基づいてキャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成するように構成される。生成モジュール６０３は、インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するように構成される。送信モジュール６０４は、３次元仮想イメージおよび動画インタラクティブ情報を端末装置に送信するように構成される。

本実施例では、動画インタラクティブ装置６００において、受信モジュール６０１、第１の生成モジュール６０２、第２の生成モジュール６０３、および送信モジュール６０４の具体的な処理、ならびにそれらによって得られた技術効果は、それぞれ、図２の対応する実施例のステップ２０１〜２０４の関連説明を参照してもよく、ここでは、繰り返し説明しない。

本実施例のいくつかの任意選択の実施形態では、動画インタラクティブ情報は、インタラクティブ音声をさらに含む。

本実施例のいくつかの任意選択の実施形態では、第１の生成モジュール６０２は、更に、キャラクター画像におけるキャラクターの顔の器官を分類し、複数種のプリセット仮想顔の器官タイプに属する顔の器官タイプの重みを得、重みに基づいて、複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、キャラクター画像におけるキャラクターの仮想顔の器官を生成し、キャラクター画像におけるキャラクターの仮想顔の器官に基づいて前記３次元仮想イメージを生成するように構成される。

本実施例のいくつかの任意選択の実施形態では、第２の生成モジュール６０３は、更に、キャラクター画像におけるキャラクターの数と環境情報を認識し、キャラクター画像におけるキャラクターの数と環境情報に基づいて、キャラクター画像におけるキャラクター間でインタラクションする動画インタラクティブ情報を生成するように構成される。

本実施例のいくつかの任意選択の実施形態では、第２の生成モジュール６０３は、更に、端末デバイスから送信されたユーザー音声を受信し、ユーザー音声の内容および／またはユーザー気分を認識し、ユーザー音声の内容および／またはユーザー気分に基づいて、ユーザーとインタラクションする動画インタラクティブ情報を生成するように構成される。

図７をさらに参照しながら、上記の図に示される方法の実施として、本願は、動画インタラクティブ装置の実施例を提供する。該装置の実施例は、図４に示される方法の実施例に対応し、該装置は、具体的には、さまざまな電子機器に適用される。

図７に示すように、本実施例の動画インタラクティブ装置７００は、キャラクター画像をサーバーに送信し、及びサーバーから帰還された３次元仮想イメージと動画インタラクティブ情報を受信するように構成される送受信モジュール７０１と、インタラクティブ表情シーケンスフレームに基づいて３次元仮想イメージをレンダリングし、３次元仮想イメージのインタラクティブ動画を生成するように構成されるレンダリング生成モジュール７０２と、インタラクティブ動画をキャラクター画像に統合して表示するように構成される表示モジュール７０３と、を備える。
ここでは、３次元仮想イメージはキャラクター画像におけるキャラクターと類似し、動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む。

本実施例では、動画インタラクティブ装置７００において、送受信モジュール７０１、レンダリング生成モジュール７０２、および表示モジュール７０３の具体的な処理および技術効果、ならびにそれらによって得られた技術効果は、それぞれ、図４の対応する実施例のステップ４０１〜４０３の関連説明を参照してもよく、ここでは、繰り返し説明しない。

本実施例のいくつかの任意選択の実施形態では、動画インタラクティブ情報は、インタラクティブ型音声をさらに含み、動画インタラクティブ装置７００は、インタラクティブ型音声を同期的に再生するように構成される再生モジュール（図示せず）をさらに備える。

本実施例のいくつかの任意選択の実施形態では、動画インタラクティブ装置７００は、ユーザーから入力される音声を収集し、サーバーにユーザー音声を送信するように構成される収集送信モジュール（図示せず）を更に含み。送信受信モジュール７０１は、更に、サーバーから帰還されたユーザー音声に基づいて生成されたユーザーとインタラクションする動画インタラクティブ情報を受信するように構成される。

本願の実施例によれば、本願は電子デバイスと読み取り可能な記憶媒体をさらに提供する。

図８に示すのは、本願の実施例による動画インタラクティブ方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレーム、その他の適切なコンピュータなどのさまざまな態様のデジタルコンピュータを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび／または主張される本願の実現を限定することを意図しない。

図８に示すように、該電子デバイスは、１つまたは複数のプロセッサ８０１、メモリ８０２、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、ＧＵＩのグラフィック情報を外部入／出力装置（インターフェースに結合されたディスプレイデバイスなど）に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび／または複数のバスを、複数のメモリ及び複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要なオペレーティングを提供する（例えば、サーバーアレイ、ブレードサーバーグループ、またはマルチプロセッサシステムとする）。図８では、１つのプロセッサ８０１を例にする。

メモリ８０２は、即ち、本願による非一時的なコンピュータ可読記憶媒体である。ただし、前記メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも１つのプロセッサに本願による動画インタラクティブ方法を実行させる。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータに本願による動画インタラクティブ方法を実行させるためのコンピュータ命令を記憶する。

メモリ８０２は非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば、本願の実施例の動画インタラクティブ方法の方法に対応するプログラム命令／モジュール（例えば、図６に示される受信モジュール６０１、第１の生成モジュール６０２、第２の生成モジュール６０３及び送信モジュール６０４、あるいは図７に示される送受信モジュール７０１、レンダリング生成モジュール７０２及び表示モジュール７０３）。プロセッサ８０１は、メモリ８０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバーの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例の動画インタラクティブ方法の方法を実施する。

メモリ８０２は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、動画インタラクティブ方法の電子デバイスの使用のため、作成されたデータなどを記憶することができ、また、メモリ８０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートメモリデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ８０２は、プロセッサ８０１に対してリモートで設定されたメモリを選択してもよく、これらのリモートメモリは、ネットワークを介して動画インタラクティブ方法の電子デバイスに接続されてもよい。上記のネットワークの例としては、インターネット、ブロックチェーンネットワーク、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。

動画インタラクティブ方法の電子デバイスは、入力装置８０３及び出力装置８０４をさらに備えてよい。プロセッサ８０１、メモリ８０２、入力装置８０３、出力装置８０４は、バスなどで接続されてもよいが、図８にバスによる接続を例にする。

入力装置８０３は、入力デジタルまたは文字情報を受信し、動画インタラクティブ方法の電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック、などの入力装置。出力装置８０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えてもよいがそれに限定されない。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい

ここで説明されるシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現できる。これらの様々な実施例は、以下を含んでもよく、１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行および／または解釈されてもよく、該プログラマブルプロセッサは、メモリシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータと命令を受信し、そのデータと命令をメモリシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語を利用してこれらのコンピュータプログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ））を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意の信号を指す。

ユーザーとのインタラクティブを提供するために、コンピュータにここで説明されるシステム及び技術を実施させてもよく、該コンピュータは、ユーザーに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードとポインティング装置（マウスやトラックボールなど）を備え、ユーザーが該キーボードとポインティング装置を介してコンピュータに入力を提供することができる。他のタイプの装置もユーザーとのインタラクティブを提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音入力、音声入力、または触覚入力を含み）でユーザーからの入力を受信することができる。

ここで説明されるシステムと技術は、バックエンドコンポーネント（例えば、データサーバー）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバー）を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム（例えば、グラフィカルユーザーインターフェイスまたはＷｅｂブラウザーを備え、ユーザーが該グラフィカルユーザーインターフェイスまたはＷｅｂブラウザーでシステムと技術の実施例とインタラクティブできるユーザーのコンピュータ）、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信（通信ネットワークなど）を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、ブロックチェーンネットワークが挙げられる。

コンピュータシステムは、クライアント及びサーバーを含んでもよい。クライアントとサーバーは、一般的に互いに離れており、通常は通信ネットワークを介してインタラクションする。対応するコンピュータ上で、互いにクライアント／サーバー関係を持つコンピュータプログラムを実行することによりクライアントとサーバーの関係を生成する。

本願の実施例による技術的解決手段によれば、まず端末デバイスから送信されたキャラクター画像を受信し、次にキャラクター画像に基づいて、キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成し、且つ動画インタラクティブ情報を生成し、最後に３次元仮想イメージと動画インタラクティブ情報を端末デバイスに送信する。キャラクター画像におけるキャラクターをそれと類似している３次元仮想イメージに置き換え、動画インタラクティブ情報を用いて３次元仮想イメージコンパニオンユーザを駆動することで、仮想コンパニオンの現れる形態をより多様化し、仮想コンパニオンの現れる効果の品質と全体の双方向の品質を向上させる。更には、ユーザの参加度と共感を大幅に向上し、動画インタラクティブ方法を適用する製品の競争力と影響力を高める。

なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並列、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。

上記の具体的な実施例は、本願の特許請求の範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、同等などな置換、改良などはすべて本願の特許請求の範囲に含まれるべきである。

Claims

動画インタラクティブ方法であって、
端末デバイスから送信されたキャラクター画像を受信ステップと、
前記キャラクター画像に基づいて、前記キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成するステップと、
インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するステップと、
前記３次元仮想イメージと前記動画インタラクティブ情報を前記端末デバイスに送信するステップと、を含む方法。
前記動画インタラクティブ情報はインタラクティブ音声を更に含む請求項１に記載の方法。
前記キャラクター画像に基づいて、３次元仮想イメージを生成するステップは、
前記キャラクター画像におけるキャラクターの顔の器官を分類し、複数種のプリセット仮想顔の器官タイプに属する前記顔の器官タイプの重みを得ることと、
前記重みに基づいて、前記複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、前記キャラクター画像におけるキャラクターの仮想顔の器官を生成することと、
前記キャラクター画像におけるキャラクターの仮想顔の器官に基づいて、前記３次元仮想イメージを生成することと、を含む、
請求項１に記載の方法。
前記動画インタラクティブ情報を生成するステップは、
前記キャラクター画像におけるキャラクターの数と環境情報を認識することと、
前記キャラクター画像におけるキャラクターの数と環境情報に基づいて、前記キャラクター画像におけるキャラクター間にインタラクティブする動画インタラクティブ情報を生成することと、を含む、
請求項１または２に記載の方法。
前記動画インタラクティブ情報を生成するステップは、
前記端末デバイスから送信されたユーザー音声を受信することと、
前記ユーザー音声の内容および／またはユーザー気分を認識することと、
前記ユーザー音声の内容および／またはユーザー気分に基づいて、前記ユーザーとインタラクティブする動画インタラクティブ情報を生成することと、を含む、
請求項１または２に記載の方法。
動画インタラクティブ方法であって、
キャラクター画像をサーバーに送信し、前記サーバーから戻された３次元仮想イメージと動画インタラクティブ情報を受信するステップと、
前記インタラクティブ表情シーケンスフレームに基づいて前記３次元仮想イメージをレンダリングし、前記３次元仮想イメージのインタラクティブ動画を生成するステップと、
前記インタラクティブ動画を前記キャラクター画像に統合して表示するステップと、を含み、
前記３次元仮想イメージは前記キャラクター画像におけるキャラクターと類似し、前記動画インタラクティブ情報はインタラクティブ表情シーケンスフレームを含む、方法。
前記動画インタラクティブ情報は、インタラクティブ音声を更に含み、
前記インタラクティブ動画を前記キャラクター画像に統合して表示するとともに、前記インタラクティブ音声を同期して再生することを更に含む、
請求項６に記載の方法。
前記方法は、
ユーザーから入力される音声を収集して前記サーバーに前記ユーザー音声を送信することを含み、
前記サーバーから帰還された動画インタラクティブ情報を受信することは、前記サーバーから帰還された前記ユーザー音声に基づいて生成された前記ユーザーとインタラクティブする動画インタラクティブ情報を受信するを更に含む、
請求項６または７に記載の方法。
動画インタラクティブ装置であって、
端末デバイスから送信されたキャラクター画像を受信するように構成される受信モジュールと、
前記キャラクター画像に基づいて、前記キャラクター画像におけるキャラクターと類似している３次元仮想イメージを生成するように構成される第１の生成モジュールと、
インタラクティブ表情シーケンスフレームを含む動画インタラクティブ情報を生成するように構成される第２の生成モジュールと、
前記３次元仮想イメージと前記動画インタラクティブ情報を前記端末デバイスに送信するように構成される送信モジュールと、を備える装置。
前記動画インタラクティブ情報はインタラクティブ音声を更に含む、
請求項９に記載の装置。
前記第１の生成モジュールは、更に、
前記キャラクター画像におけるキャラクターの顔の器官を分類し、前記複数種のプリセット仮想顔の器官タイプに属する顔の器官タイプの重みを取得し、
前記重みに基づいて、前記複数種のプリセット仮想顔の器官タイプに対応する仮想顔の器官に対して重み付けを行って、前記キャラクター画像におけるキャラクターの仮想顔の器官を生成し、
前記キャラクター画像におけるキャラクターの仮想顔の器官に基づいて前記３次元仮想イメージを生成するように構成される、
請求項９に記載の装置。
前記第２の生成モジュールは、更に、
前記キャラクター画像におけるキャラクターの数と環境情報を認識し、
前記キャラクター画像におけるキャラクターの数と環境情報に基づいて、前記キャラクター画像におけるキャラクター間でインタラクションする動画インタラクティブ情報を生成するように構成される、
請求項９にまたは１０記載の装置。
前記第２の生成モジュールは、更に、
前記端末デバイスから送信されたユーザー音声を受信し、
前記ユーザー音声の内容および／またはユーザー気分を認識し、
前記ユーザー音声の内容および／またはユーザー気分に基づいて、前記ユーザーとインタラクティブする動画インタラクティブ情報を生成するように構成される、
請求項９にまたは１０記載の装置。
動画インタラクティブ装置であって、
キャラクター画像をサーバーに送信し、及び前記サーバーから戻された３次元仮想イメージと動画インタラクティブ情報を受信するように構成される送受信モジュールと、
前記インタラクティブ表情シーケンスフレームに基づいて前記３次元仮想イメージをレンダリングし、前記３次元仮想イメージのインタラクティブ動画を生成するように構成されるレンダリング生成モジュールと、
前記インタラクティブ動画を前記キャラクター画像に統合して表示するように構成される表示モジュールと、を備える装置。
前記動画インタラクティブ情報はインタラクティブ音声を更に含み、
前記装置は、前記インタラクティブ音声同期して再生するように構成される再生モジュールを更に備える、
１４に記載の装置。
前記装置は、
ユーザーから入力される音声を収集し、前記サーバーに前記ユーザー音声を送信するように構成される収集送信モジュールを更に備え、
前記送受信モジュールは、更に、
前記サーバーから帰還された前記ユーザー音声に基づいて生成された前記ユーザーとインタラクションする動画インタラクティブ情報を受信するように構成される、
請求項１４または１５に記載の装置。
電子デバイスであって、
少なくとも１つのプロセッサと、
前記少なくとも１つのコンピュータプログラムが記憶されたメモリと、を備え、
前記少なくとも１つのコンピュータプログラム、前記少なくとも１つのプロセッサによって実行されると、請求項１〜５のいずれか１項に記載の方法または請求項６〜８のいずれか１項に記載の動画インタラクティブ方法を実行させる、電子デバイス。
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１〜５のいずれか１項に記載の方法または請求項６〜８のいずれか１項に記載の方法を実施するコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１〜５のいずれか１項に記載の方法または請求項６〜８のいずれか１項に記載の方法を実施するコンピュータプログラム。