JP2024513640A

JP2024513640A - 仮想対象のアクション処理方法およびその装置、コンピュータプログラム

Info

Publication number: JP2024513640A
Application number: JP2023549586A
Authority: JP
Inventors: ティアン，カイ; チェン，ウェイ; ス，シュエフェン
Original assignee: 北京捜狗科技▲発▼展有限公司
Priority date: 2021-07-07
Filing date: 2022-06-22
Publication date: 2024-03-27
Also published as: US20230368461A1; CN113642394A; EP4300431A1; WO2023279960A1; CN113642394B

Abstract

仮想対象のアクション処理方法およびその装置、記憶媒体を提供し、前記方法は、具体的には、アクション命令を受信するステップであって、当該アクション命令は、アクション識別子と時間関連情報とを含み得るステップ（１０１）と、上記のアクション識別子に対応するアクションビデオフレームシーケンスを決定するステップ（１０２）と、ターゲット時間における仮想対象の所定状態画像に基づいて、上記のアクションビデオフレームシーケンスから、上記の所定状態画像に対応するアクション状態画像を決定するステップであって、上記のターゲット時間は、上記の時間関連情報に基づいて決定されることができる、ステップ（１０３）と、上記の所定状態画像および上記のアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、上記の接続ビデオフレームシーケンスは、上記の所定状態画像と上記のアクションビデオフレームシーケンスを接続するために使用される、ステップ（１０４）と、上記の接続ビデオフレームシーケンスと上記のアクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップ（１０５）と、を含む。本願実施例は、仮想対象のアクション処理の効率を向上させることができる。

Description

［関連出願への相互参照］
本願は、２０２１年０７月０７日に提出された、出願番号が２０２１１０７７０５４８．４であり、発明の名称が「仮想対象のアクション処理方法およびその装置、記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。

本願は、通信技術分野に関し、特に、仮想対象のアクション処理方法およびその装置、コンピュータプログラムに関するものである。

通信技術の発展に伴い、仮想対象は、放送現場、教育現場、医療現場、接客現場などの現場で幅広く活用できるようになった。放送現場を例にとると、仮想対象は、ニュース放送やゲーム解説を実行するメディアワーカーに取って代わることができる。

実際の適用において、仮想対象は通常、何らかのアクションを実行する必要がある。現在、関連技術における仮想対象のアクション処理プロセスによれば、通常、まず、ユーザが時系列で人体のキーポイント情報を提供し、そして、上記のキーポイント情報を敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）に入力して、アクションビデオ内のアクションビデオフレームを生成し、次に、時系列に従って、アクションビデオ内のアクションビデオフレームを繋ぎ合わせて、対応するアクションビデオを取得する。

関連技術におけるアクションビデオの生成には、かなり時間がかかり、アクション処理の効率が低下する。

本願実施例は、仮想対象のアクション処理の効率を向上させることができる、仮想対象のアクション処理方法およびその装置、記憶媒体を提案する。

本願は、コンピュータ機器が実行する、仮想対象のアクション処理方法を提供し、前記方法は、
アクション命令を受信するステップであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、ステップと、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、ステップと、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、ステップと、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、を含む。

別の態様では、本願は、仮想対象のアクション処理装置を提供し、前記装置は、
アクション命令を受信するように構成される命令受信モジュールであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、命令受信モジュールと、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するように構成される、アクションビデオフレームシーケンス決定モジュールと、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するように構成される画像ペア決定モジュールであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、画像ペア決定モジュールと、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される生成モジュールであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、生成モジュールと、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するように構成される、繋ぎ合わせモジュールと、を備える。

別の態様では、本願は、仮想対象のアクション処理のための装置（またはコンピュータ機器）を提供し、前記装置は、メモリと、前記メモリに記憶された１つまたは複数のプログラムと、を備え、前記プログラムは、１つまたは複数のプロセッサに前述の方法を実行させる。

別の態様では、本願は、命令（またはプログラム）が記憶されたコンピュータ可読記憶媒体を開示し、前記命令（またはプログラム）は、１つまたは複数のプロセッサに前述の方法を実行させる。

別の態様では、本願は、プログラムを含むコンピュータプログラム製品を提供し、前記プログラムは、コンピュータ可読記憶媒体に記憶されており、プロセッサは、前記コンピュータ可読記憶媒体から前記プログラムを読み取って実行することによって、前述の方法を実現する。

本願実施例は、次の利点を含む。

本願実施例によれば、ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定し、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。さらに、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせることにより、対応するアクションビデオを取得することができる。

本願実施例の技術的解決策を適用することにより、ユーザは、アクション識別子と時間関連情報を入力するだけで、対応するアクション命令をトリガすることができる。アクション識別子と時間関連情報の入力により、ユーザの時間コストと操作難易度を軽減することができ、仮想対象のアクション処理の効率を向上させることができる。

さらに、本願実施例では、所定状態画像およびアクションビデオフレームシーケンスを決定するとき、接続の役割を果たし且つ過渡的なものとして機能する接続ビデオフレームシーケンスを生成する。当該アクションビデオフレームシーケンスは、事前に收集され、事前に保存されたアクションビデオから導出できるため、生成されるビデオの範囲は、具体的には、接続ビデオフレームシーケンスであり、したがって、本願実施例は、ビデオの生成にかかる時間を短縮することができ、仮想対象のアクション処理の効率をさらに向上させることができる。

本願実施例による、仮想対象のアクション処理方法のステップのフローチャートである。本願実施例による、アクションビデオの前処理の例示的なフローチャートである。本願実施例による、所定状態画像とアクション状態画像とを照合する例示的なフローチャートである。本願実施例による、接続ビデオフレームシーケンスを生成する例示的なフローチャートである。本願実施例による、仮想対象のアクション処理装置の構造のブロック図である。本願実施例による、仮想対象のアクション処理のための装置の構造のブロック図である。本願のいくつかの実施例におけるサーバ側の構造のブロック図である。

本願の上記の目的、特徴および利点をより明確かつ理解し易くするために、以下では、図面と具体的な実施形態を参照して、本願についてより詳細に説明する。

本願実施例において、仮想対象は、対象モデリング、アクションキャプチャなどの技術を用いて得られる、現実の対象に近い鮮やかで自然な対象であり、音声識別や自然言語理解などの人工知能技術を用いて、仮想対象に、認識、理解、または表現などの能力を持たせることができる。仮想対象は、具体的には、仮想人物、仮想動物、三次元アニメキャラクターなどを含む。

例えば、放送現場において、仮想対象は、ニュース放送やゲーム解説を実行するメディアワーカーに取って代わることができる。特定の実現において、仮想対象は、テキストを表現することができるが、本願実施例は、テキストおよび仮想対象に対応するビデオを生成することができる。当該ビデオは、具体的には、テキストに対応する音声シーケンスと、音声シーケンスに対応するビデオフレームシーケンスとを含み得る。

仮想対象に対応する状態に従って、音声シーケンスに対応するビデオフレームシーケンスを、所定状態画像またはアクション状態画像に分割することができる。

ここで、所定状態画像は、アクションが実行されていないときの仮想対象の所定状態に対応することができる。特定の実現において、所定の時間長の所定状態画像シーケンスを予め設定し、所定状態画像シーケンスは、アクションが実行されてないときに循環的に再生されることができる。例えば、アクションが実行されていないときの仮想アンカーの所定状態は、腕を下ろした状態、唇を閉じた状態、目が無表情である状態などを含む。

アクション状態画像は、アクションを実行するときの仮想対象のアクション状態に対応することができる。例えば、挨拶アクションを行うときの仮想アンカーの所定状態は、腕を左右に振る状態、唇を所定の角度で開く状態、目が笑顔を浮かべる状態などを含む。

関連技術において、アクションビデオを生成するプロセスでは、ユーザが人体のキーポイント情報を提供する必要があるため、ユーザの時間コストや操作難易度が増大するだけでなく、アクション処理の効率も低下する。さらに、関連技術において、アクションビデオに含まれるアクションビデオフレームはすべて敵対的生成ネットワークによって生成されるため、アクションビデオの生成にも多くの時間がかかり、アクション処理の効率が低くなる。

仮想対象のアクション処理の効率を如何に向上させるかという技術的課題に対して、本願実施例は、仮想対象のアクション処理の解決策を提供し、当該技術案は、具体的には、アクション命令を受信するステップであって、当該アクション命令は具体的に、アクション識別子と時間関連情報とを含むステップと、当該アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、ターゲット時間における仮想対象の所定状態画像に基づいて、当該アクションビデオフレームシーケンスから、所定状態画像に対応するアクション状態画像を決定するステップであって、当該ターゲット時間は、当該時間関連情報に基づいて決定されることができる、ステップと、当該所定状態画像および当該アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するために使用される、ステップと、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、を含む。

本願実施例において、ユーザは、アクション識別子と時間関連情報をアクション命令に含める。ここで、アクション識別子は、対応するアクションビデオフレームシーケンスを決定するために使用される。当該アクションビデオフレームシーケンスは、事前に收集され、事前に保存されたアクションビデオから導出されることができる。時間関連情報は、所定状態画像に対応するターゲット時間を決定するために使用される。

本願実施例は、ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定し、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。さらに、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせることにより、対応するアクションビデオを取得することができる。

例えば、ユーザがテキスト内容Ａでアクション識別子Ｘを選択した場合、アクション命令Ｉには、アクション識別子Ｘと時間関連情報（テキスト内容Ａの位置）が含まれると考えることができる。アクション命令Ｉの処理プロセスは、ビデオ検索などの方式を用いて、アクション識別子Ｃに対応するアクションビデオフレームシーケンスを検索するステップと、テキスト内容Ａの位置に基づいて、ターゲット時間、およびターゲット時間における仮想対象の所定状態画像を決定するステップと、当該アクションビデオフレームシーケンスから、当該所定状態画像に対応するアクション状態画像を決定するステップと、当該所定状態画像および当該アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップと、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせるステップと、を含み得る。本願実施例で得られる繋ぎ合わせビデオフレームシーケンスは、テキスト内容Ａに対応する音声シーケンスに対応することができ、例えば、繋ぎ合わせビデオフレームシーケンスと、テキスト内容Ａに対応する音声シーケンスとを時間軸上で位置合わせして、両者の同期再生を実現することができる。

実際の適用において、音声合成（ＴＴＳ：ＴｅｘｔＴｏＳｐｅｅｃｈ）技術を用いて、テキストを音声シーケンスに変換することができる。音声シーケンスは、波形の形式で表現できる。理解できるように、音声合成パラメータに従って、要件を満たす音声シーケンスを取得することができる。

任意選択的に、音声合成パラメータは、音色パラメータ、ピッチパラメータおよびラウドネスパラメータのうちの少なくとも１つを含み得る。

ここで、音色パラメータは、波形における異なる音の周波数の特有の特性を指すことができ、通常、異なる発音体は異なる音色に対応するため、音色パラメータに基づいて、ターゲット発音体の音色にマッチングする音声シーケンスを取得することができ、ターゲット発音体は、ユーザによって指定することができ、例えば、ターゲット発音体は、指定されたメディアワーカーなどであってもよい。実際の適用において、ターゲット発音体の所定の長さのオーディオに基づいて、ターゲット発音体の音色パラメータを取得することができる。

ピッチパラメータは、声のトーンを表すことができ、周波数を単位とする。ラウドネスパラメータは、音の強さまたは音量とも呼ばれ、音の大きさを指すことができ、デシベル（ｄＢ）を単位とする。

本願実施例による仮想対象のアクション処理方法は、クライアントとサーバ側を含むアプリケーション環境に適用することができ、クライアントとサーバ側は、有線または無線ネットワークに配置されており、当該有線または無線ネットワークによって、クライアントとサーバ側はデータを交換する。

任意選択的に、クライアントは、端末機器上で実行されることができ、上記の端末機器は、具体的には、スマートフォン、タブレットコンピュータ、電子書籍リーダー、動画エキスパートグループオーディオレイヤ３（ＭＰ３：ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）プレーヤ、動画エキスパートグループオーディオレイヤ４（ＭＰ４：ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤ、ラップトップコンピュータ、車載コンピュータ、デスクトップコンピュータ、セットトップボックス、スマートテレビ、ウェアラブル機器などを含むが、これらに限定されない。

クライアントとは、サーバ側に対応し、ユーザにローカルサービスを提供するプログラムを指す。本願実施例におけるクライアントは、アクション命令を受信し、当該アクション命令に対応する繋ぎ合わせビデオフレームシーケンスを提供することができる。当該繋ぎ合わせビデオフレームシーケンスは、クライアントまたはサーバ側によって生成されることができ、本願実施例は、繋ぎ合わせビデオフレームシーケンスの具体的な生成主体に対して限定しない。

本願の１つの実施例において、クライアントは、ユーザのテキスト、およびアクション命令を受信し、テキスト、ターゲット発音体情報およびアクション命令をサーバ側にアップロードして、サーバ側に、テキスト、ターゲット発音体およびアクション命令に対応するターゲットビデオを生成させることができ、さらに、クライアントは、当該ターゲットビデオをユーザに出力することができる。当該ターゲットビデオは、前述の繋ぎ合わせビデオフレームシーケンスを含み得る。

サーバ側は、サーバとも呼ばれ、１つのサーバであってもよいし、複数のサーバによって構成されたサーバクラスタであってもよいし、クラウドコンピューティングサービスであってもよい。サーバ側は、クライアントにバックグラウンドサービスを提供するために使用される。

図１は、本願実施例による仮想対象のアクション処理方法のステップのフローチャートを示し、前記方法は、具体的には、次のステップを含み得る。

ステップ１０１において、アクション命令を受信し、当該アクション命令は、アクション識別子と時間関連情報とを含み得る。

ステップ１０２において、上記のアクション識別子に対応するアクションビデオフレームシーケンスを決定する。

ステップ１０３において、ターゲット時間における仮想対象の所定状態画像に基づいて、上記のアクションビデオフレームシーケンスから、上記の所定状態画像に対応するアクション状態画像を決定し、上記のターゲット時間は、上記の時間関連情報に基づいて決定される。

ステップ１０４において、上記の所定状態画像および上記のアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成し、上記の接続ビデオフレームシーケンスは、上記の所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される。

ステップ１０５において、上記の接続ビデオフレームシーケンスと上記のアクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得する。

図１に示す実施例の少なくとも１つのステップは、サーバ側で実行されることができ、もちろん、本願実施例は、各ステップの具体的な実行主体に対して限定しない。

ステップ１０１において、クライアントは、ユーザによって入力されたアクション命令を受信し、サーバ側に当該アクション命令を送信することができる。

実際の適用において、クライアントは、ユーザがアクション命令を入力するためのユーザインタフェース（ＵＩ：ＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供することができる。例えば、ユーザインタフェースは、テキスト内容を含み得、ユーザがあるテキスト内容Ａを選択し、アクション識別子Ｘを選択した場合、アクション命令Ｉには、アクション識別子Ｘと時間関連情報（テキスト内容Ａの位置）が含まれると考えることができる。アクション命令Ｉは、仮想対象がテキスト内容Ａを表現するプロセスにおいて、アクション識別子Ｘに対応するアクションを実行することを表すことができる。例えば、テキスト内容Ａは、「初めまして」であり、アクション識別子Ｘは、「挨拶」などである。

アクション識別子は、アクションを識別するために使用されることができる。例えば、アクション識別子は、アクションの名称などであってもよい。アクション識別子の例としては、挨拶、お辞儀、笑顔、物を見せる、署名などを含み得る。

時間関連情報は、ビデオにおけるアクションの時間に関連することができる。任意選択的に、当該時間関連情報は、アクション識別子に対応するテキスト情報を含む。例えば、アクションに対応するテキスト内容を指定することができ、テキスト内容の位置を時間関連情報として使用することができる。

もちろん、テキスト内容の位置は、時間関連情報の一例に過ぎず、実際には、当業者は、実際の応用要件に応じて、他の時間関連情報を採用することができる。例えば、時間関連情報は、ビデオにおけるアクションの時間情報などであってもよく、当該時間情報は、特定の期間内に特定のアクションを実行することを表すことができる。当該時間情報は、開始時間情報、終了時間情報などを含み得る。

ステップ１０２において、アクション識別子に基づいて、アクションビデオを事前に收集し、收集されたアクションビデオおよび対応するアクション識別子をアクションビデオライブラリに格納することができる。アクションビデオの收集方式は、ウェブクローリング、ビデオオペレータとの協力、録画などを含み得るが、これらに限定されない。例えば、仮想対象とアクション識別子に対応するアクションビデオを録画することができる。

実際の適用において、ビデオ検索などの方式を用いて、アクション識別子に対応するアクションビデオフレームシーケンスを検索することができる。具体的には、アクション識別子に基づいて、アクションビデオライブラリで検索して、アクション識別子に対応するアクションビデオフレームシーケンスを取得することができる。

ステップ１０３において、ターゲット時間は、アクションの前であってもよい。さらに、ターゲット時間は、アクションに隣接していてもよい。上記のターゲット時間は、上記の時間関連情報に基づいて決定されてもよい。上記の時間関連情報がテキスト内容の位置であると仮定すると、テキスト内容の位置に基づいて、アクションの開始時間情報Ｔ_ｉを決定し、開始時間情報Ｔ_ｉに隣接し且つ開始時間情報Ｔ_ｉの前の時間情報Ｔ_{（ｉ－１）}をターゲット時間として決定することができる。もちろん、時間情報Ｔ_{（ｉ－２）}をターゲット時間として決定することもできる。本願実施例は、ターゲット時間がアクションに隣接するか否かに対して限定しない。

特定の実現において、ターゲット時間に基づいて、所定状態画像シーケンスにおける時間情報と照合して、ターゲット時間における仮想対象の所定状態画像を取得することができる。理解できるように、本願実施例は、ターゲット時間における仮想対象の所定状態画像の具体的な決定方式に対して限定しない。

ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定することができる。アクションビデオフレームシーケンスは通常、複数のアクション状態画像を含み、本願実施例では、複数のアクション状態画像から、所定状態画像にマッチングする１つのアクション状態画像を決定することができる。

１つの実施形態によれば、所定状態画像と、アクションビデオフレームシーケンス内の各アクション状態画像との間の類似度値を決定し、最大の類似度値を有するアクション状態画像を、所定状態画像に対応するアクション状態画像として使用することができる。

実際の適用において、所定状態画像と、前記アクションビデオフレームシーケンス内のアクション状態画像に対応する第１画像特徴と第２画像特徴をそれぞれ抽出し、第１画像特徴および第２画像特徴に基づいて、上記の類似度値を決定することができる。

上記の第１画像特徴と第２画像特徴のカテゴリは、色特徴、テクスチャ特徴、形状特徴、空間関係特徴および視覚特徴のうちの少なくとも１つを含み得る。

ここで、視覚特徴は、仮想対象に対応する所定部位の特徴であってもよい。仮想対象に対応する所定部位の特徴に基づいて、所定状態画像にマッチングするアクション状態画像を決定することで、所定部位における所定状態画像とアクション状態画像とのマッチングを実現することができる。

実際の適用において、所定部位は、アクションに関連する部位であってもよい。例えば、所定部位は、具体的には、顔、首、肢体などを含み得る。ここで、顔は、唇、鼻、目などを含み得る。肢体はさらに、腕部位などの四肢を含み得る。

１つの実施形態において、視覚特徴の決定方式は、所定状態画像またはアクション状態画像から、仮想対象に対応する領域画像を決定するステップと、当該領域画像から所定部位の視覚特徴を抽出して、所定状態画像またはアクション状態画像に対応する視覚特徴として使用するステップとを含み得る。つまり、所定状態画像から、仮想対象に対応する領域画像を決定し、当該領域画像から所定部位の視覚特徴を抽出して、所定状態画像に対応する視覚特徴として使用する。または、アクション状態画像から、仮想対象に対応する領域画像を決定し、当該領域画像から所定部位の視覚特徴を抽出して、アクション状態画像に対応する視覚特徴として使用する。

実際の適用において、まず、切り抜き技術を用いて、所定状態画像またはアクション状態画像から、仮想対象に対応する領域画像を抽出することができる。例えば、領域画像は、顔領域画像と肢体領域画像を含む。そして、顔領域画像と肢体領域画像から所定部位の視覚特徴をそれぞれ抽出することができる。任意選択的に、顔処理モジュールを用いて、顔領域画像から、唇、鼻、目などの所定部位の視覚特徴を抽出することができる。または、肢体処理モジュールを用いて、体領域画像から、四肢などの所定部位の視覚特徴を抽出することができる。

ここで、顔処理モジュールおよび肢体処理モジュールは、ニューラルネットワークを用いて実現することができる。ニューラルネットワークの例としては、畳み込みニューラルネットワーク、または深層残差ネットワークなどを含み得る。畳み込みニューラルネットワークは、畳み込みカーネルを利用して視覚特徴を抽出し、逆伝播段階では、設定されたターゲットに基づいて、畳み込みカーネルのパラメータを更新することができるため、畳み込みカーネルによる特徴抽出の精度とロバスト性を向上させることができる。深層残差ネットワークの１つの特徴は、最適化が容易であり、かなりの深度を増加することで精度を向上させることができることであり、その内部残差ブロックは、スキップ接続を使用しており、ニューラルネットワークの深度の増加によって引き起こされる勾配消失の問題を緩和する。理解できるように、本願実施例は、顔処理モジュールおよび肢体処理モジュールに対応する特定のニューラルネットワークに対して限定しない。

本願実施例では、当該領域画像から抽出される所定部位の視覚特徴は、第１視覚特徴とも呼ばれ、第１視覚特徴は、スパース性（ｓｐａｒｓｉｔｙ）を有してもよい。

視覚特徴の密度を改善するために、本願の１つの代替実施例において、第１視覚特徴（即ち、上記の領域画像から抽出された所定部位の視覚特徴）に基づいて、所定部位の画像に対して三次元再構成を実行して、所定部位の高密度視覚特徴を取得することができる。当該高密度視覚特徴は、第２視覚特徴とも呼ばれる。実際の適用において、第１視覚特徴は、複数の所定部位に対応し、複数の所定部位の一部または全てに対して三次元再構成を実行することができる。例えば、腕部位に対して三次元再構成を実行してもよい。第１視覚特徴と比較して、三次元再構成に基づいて得られた第２視覚特徴は、より多い高密度情報を含むため、より高い密度を有することができる。

視覚特徴を用いて画像ペアを決定する場合、アクションビデオフレームシーケンスから対応するアクション状態画像を決定することは、具体的には、所定状態画像に対応する視覚特徴を、前記アクションビデオフレームシーケンス内のアクション状態画像に対応する視覚特徴と照合して、所定状態画像に対応するアクション状態画像を取得することを含み得る。具体的には、視覚特徴間の照合値を決定し、照合値が最大のアクション状態画像を、所定状態画像に対応するアクション状態画像として使用することができる。

特定の実現において、複数のタイプの視覚特徴を融合して、融合視覚特徴を取得することができる。さらに、所定状態画像に対応する融合視覚特徴を、アクションビデオフレームシーケンス内の各アクション状態画像に対応する融合視覚特徴と照合して、所定状態画像に対応するアクション状態画像を取得することができる。

視覚特徴の融合方式としては、接続、または接続＋再結合などを含み得る。ここで、接続という方式では、複数の所定部位の視覚特徴を一緒に接続することができる。接続＋再結合という方式では、接続された視覚特徴を再配列して組み合わせて、新たな融合視覚特徴を取得することができる。

特定の実現において、視覚特徴の融合は、融合モジュールによって実現することができる。損失関数の制約により、融合モジュールのパラメータを継続的に更新することにより、より要件を満たす融合視覚特徴を取得することができる。理解できるように、本願実施例は、視覚特徴の具体的な融合方式に対して限定しない。

ステップ１０４において、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。

本願実施例は、接続ビデオフレームシーケンスを生成する次の技術的解決策を提供することができる。

技術的解決策１において、上記の接続ビデオフレームシーケンスを生成することは、具体的には、所定状態画像とアクション状態画像の位置姿勢情報を位置合わせして、位置合わせされた所定状態画像とアクション状態画像を取得することと、上記の位置合わせされた所定状態画像およびアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成することと、を含み得る。

位置姿勢情報は、仮想対象の位置情報または姿勢情報を表すことができる。画像ペア内の２つの画像に対して位置姿勢情報の位置合わせを実行することで、当該２つの画像の仮想対象間のマッチング度合いを向上させることができ、その上、所定状態画像とアクションビデオフレームシーケンスとの間の連続性を向上させることができる。

技術的解決策２において、上記の接続ビデオフレームシーケンスを生成することは、具体的には、所定状態画像およびアクション状態画像に対応するオプティカルフロー特徴をそれぞれ決定することと、当該オプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成することと、を含み得る。

オプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）は、動き画像間の変化を示すために使用されることができ、時間とともに変化する画像におけるパターンの動き速度を表すことができる。仮想対象が動くと、画像における対応する点の輝度パターンも動くため、オプティカルフローは、画像間の変化を示すために使用でき、オプティカルフローは、仮想対象の動き情報を含むため、仮想対象の動きを決定するために使用されることができる。

本願実施例において、所定状態画像に対応する第１オプティカルフロー特徴は、仮想対象の初期状態の動き情報を含んでもよく、アクション状態画像に対応する第２オプティカルフロー特徴は、終了状態の動き情報を含んでもよい。したがって、接続ビデオフレームシーケンスの生成プロセスにおいて、第１オプティカルフロー特徴および第２オプティカルフロー特徴に基づいて、中間状態の動き情報を決定することができ、これにより、接続ビデオフレームシーケンス内の接続ビデオフレームを取得することができる。

したがって、本願実施例では、所定状態画像とアクション状態画像にそれぞれ対応するオプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成することで、接続ビデオフレームシーケンスと所定状態画像との間の連続性、および接続ビデオフレームシーケンスとアクション状態画像との間の連続性を向上させることができ、さらに、所定状態画像とアクションビデオフレームシーケンスとの間の連続性と安定性を高めることができる。

特定の実現において、接続ビデオフレームの数Ｎに基づいて、接続ビデオフレームに対応する中間状態の動き情報を決定することができる。Ｎは、０より大きい自然数であってもよい。Ｎの数値に基づいて、所定状態画像に対応する動き情報とアクション状態画像に対応する動き情報との間の差値を取得し、当該差値を対応する接続ビデオフレームに割り当てることができ、これにより、接続ビデオフレームの動き情報を決定することができる。

１つの実施形態において、畳み込みニューラルネットワークまたは深層ニューラルネットワークなどのオプティカルフロー処理モジュールを用いて、所定状態画像とアクション状態画像との間のターゲットオプティカルフロー特徴を決定することができ、当該ターゲットオプティカルフロー特徴は、所定状態画像に対応する動き情報とアクション状態画像に対応する動き情報との間の差値を表すことができる。例えば、所定状態画像とアクション状態画像にそれぞれ対応する視覚特徴をオプティカルフロー処理モジュールに入力して、オプティカルフロー処理モジュールによって出力されるターゲットオプティカルフロー特徴を取得することができる。

別の実施形態において、時間関連情報に基づいて、アクションに対応する音声時間長を決定し、アクションに対応する音声時間長、およびアクションビデオフレームシーケンスのビデオ時間長に基づいて、接続ビデオフレームシーケンスの接続時間長を決定することができ、さらに、当該接続時間長に基づいて、接続ビデオフレームの数Ｎを決定することができる。例えば、当該接続時間長および接続ビデオフレームの単位時間長に基づいて、接続ビデオフレームの数Ｎを決定することができる。

実際の適用において、視覚特徴に基づいて、時間の順方向に従って、所定状態画像とアクション状態画像との間の正方向オプティカルフロー特徴を取得し、視覚特徴に基づいて、時間の逆方向に従って、所定状態画像とアクション状態画像との間の逆方向オプティカルフロー特徴を取得することができ、さらに、正方向オプティカルフロー特徴および逆方向オプティカルフロー特徴に基づいて、ターゲットオプティカルフロー特徴を取得し、当該ターゲットオプティカルフロー特徴は、正方向オプティカルフロー特徴と逆方向オプティカルフロー特徴との融合であってもよく、さらに、ターゲットオプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成する。正方向オプティカルフロー特徴と逆方向オプティカルフロー特徴は、双方向の動き情報を含むため、動き情報の精度を向上させることができ、その上、所定状態画像とアクションビデオフレームシーケンスとの間の連続性と安定性をさらに向上させることができる。

特定の実現において、複数の接続ビデオフレームにそれぞれ対応する特徴ベクトルを敵対的生成ネットワークに入力することができる。当該特徴ベクトルは、オプティカルフロー特徴を含んでもよい。オプティカルフロー特徴は、中間状態における仮想対象の動き情報を反映することができる。異なる接続ビデオフレームは、異なるオプティカルフロー特徴に対応することができ、これにより、異なる接続ビデオフレームが異なる動き情報を表すようにすることができる。

理解できるように、当該特徴ベクトルはさらに、所定状態画像とアクション状態画像に対応する視覚特徴の融合結果などの他の特徴を含んでもよい。

技術的解決策３において、上記の接続ビデオフレームシーケンスを生成することは、具体的には、所定状態画像とアクション状態画像にそれぞれ対応するオプティカルフロー特徴、テクスチャ特徴および／または深度特徴を決定することと、オプティカルフロー特徴、テクスチャ特徴および／または深度特徴に基づいて、接続ビデオフレームシーケンスを生成することと、を含み得る。

技術的解決策３は、技術的解決策２の上で、テクスチャ特徴および／または深度特徴を追加する。言い換えれば、接続ビデオフレームシーケンスを生成するための特徴は、具体的には、オプティカルフロー特徴およびテクスチャ特徴、またはオプティカルフロー特徴および深度特徴、またはオプティカルフロー特徴、テクスチャ特徴および深度特徴を含む。

ここで、テクスチャ特徴は、髪や指などの所定部位のテクスチャ詳細を反映することができ、テクスチャ特徴を接続ビデオフレームシーケンスの生成に適用することで、接続ビデオフレームシーケンスの迫真性を向上させることができる。

深度特徴は、深層ニューラルネットワークによって抽出されることができる。浅いニューラルネットワークと比較して、深層ニューラルネットワークは、より優れた学習能力と汎化能力を有するため、接続ビデオフレームシーケンスを生成するロバスト性を向上させることができる。

なお、前述の視覚特徴（第１視覚特徴または第２視覚特徴）に基づいて、特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの生成特徴のいずれかまたはそれらの任意の組み合わせを取得することができる。

なお、第２視覚特徴に基づいて特徴抽出を実行し、第２視覚特徴には、所定部位のより多い高密度情報が含まれるため、この場合に生成される接続ビデオフレームシーケンスも、所定部位のより多い高密度情報を含むことができ、これにより、接続ビデオフレームシーケンス内の所定部位の迫真性を向上させることができる。例えば、第２視覚特徴には、腕部位のより多い高密度情報が含まれ、その場合、接続ビデオフレームシーケンス内の腕部位の迫真性を向上させることができる。

オプティカルフロー特徴、テクスチャ特徴および深度特徴のうちの複数のタイプの生成特徴を採用する場合、画像ペアの複数のタイプの生成特徴を融合し、得られた融合特徴に基づいて、接続ビデオフレームシーケンスを生成することができる。複数のタイプの生成特徴の融合方式は、視覚特徴の融合方式と類似するため、ここでは繰り返して説明せず、視覚特徴の融合方式を参照すればよい。

実際の適用において、少なくとも１つの生成特徴を敵対的生成ネットワークに入力して、接続ビデオフレームを生成し、次に、複数の接続ビデオフレームを時系列で繋ぎ合わせて、対応する接続ビデオフレームシーケンスを取得することができる。

本願実施例における生成されるビデオの範囲は、具体的には、接続ビデオフレームシーケンスであり、接続ビデオフレームシーケンスは、接続のためのもの、および過渡的なものとして機能し、特定のアクション実行效果は、アクションビデオフレームシーケンスによって表現されるため、本願実施例の接続ビデオフレームシーケンスは、通常、比較的短い時間長に対応し、したがって、本願実施例は、ビデオを生成する時間長を短縮することができ、仮想対象のアクション処理の効率をさらに向上させることができる。

技術的解決策４において、上記の所定状態画像および上記のアクション状態画像に基づいて、グローバル接続ビデオフレームシーケンスを生成できるだけでなく、局所の接続ビデオフレームシーケンスを生成することもでき、局所の接続ビデオフレームシーケンスは、部位接続ビデオフレームシーケンスとも呼ばれ、部位接続ビデオフレームシーケンスは、所定部位の高密度情報を含むことができ、したがって、部位接続ビデオフレームシーケンスを対応する接続ビデオフレームシーケンスに追加することにより、接続ビデオフレームシーケンス内の所定部位の迫真性を向上させることができる。

部位接続ビデオフレームシーケンスの生成プロセスは、具体的には、所定状態画像から部位の所定状態画像を抽出し、三次元再構成に基づいて、当該部位の所定状態画像に対応する第３視覚特徴を決定することと、アクション状態画像から部位アクション状態画像を抽出し、三次元再構成に基づいて、当該部位アクション状態画像に対応する第４視覚特徴を決定することと、第３視覚特徴および第４視覚特徴に基づいて、部位接続ビデオフレームシーケンスを生成することと、を含む。

部位の所定状態画像または部位アクション状態画像はいずれも、所定部位に対応する。例えば、所定部位が腕部位である場合、腕部位に対応する部位の所定状態画像または部位アクション状態画像をそれぞれ抽出することができる。

第３視覚特徴または第４視覚特徴は、三次元再構成技術に基づいて得られるため、所定部位のより多い高密度情報を含み得る。

部位接続ビデオフレームシーケンスの生成プロセスは、接続ビデオフレームシーケンスの生成プロセスと類似し、具体的には、技術的解決策１～３のいずれか１つまたはそれらの組み合わせを参照することができる。

例えば、部位接続ビデオフレームシーケンスの生成プロセスは、まず、部位の所定状態画像と部位アクション状態画像に対して位置情報の位置合わせを実行し、次に、第３視覚特徴に基づいて特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの第３生成特徴のいずれか１つまたはそれらの組み合わせを取得し、そして、第４視覚特徴に基づいて特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの第４生成特徴のいずれかまたは組み合わせを取得し、第３生成特徴および第４生成特徴に基づいて、部位接続ビデオフレームシーケンスを生成することを含むことができる。

部位接続ビデオフレームシーケンスを、対応する接続ビデオフレームシーケンスに追加する対応する追加方式は、部位接続ビデオフレームを対応する接続ビデオフレームに添付することを含むことができる。理解できるように、本願実施例は、具体的な追加方式に対して限定しない。

以上では、技術的解決策１～４により、接続ビデオフレームシーケンスを生成するプロセスについて詳細に説明したが、理解できるように、当業者は、実際の応用要件に応じて、技術的解決策１～４のいずれか１つまたはそれらの組み合わせを採用することができ、本願実施例は、接続ビデオフレームシーケンスを生成する具体的なのプロセスを限定しない。

ステップ１０５において、時系列に従って、上記の接続ビデオフレームシーケンスと上記のアクションビデオフレームシーケンスを繋ぎ合わせることができ、得られた繋ぎ合わせビデオフレームシーケンスは、テキスト内容に対応する音声シーケンスに対応することができる。例えば、繋ぎ合わせビデオフレームシーケンスと、テキスト内容に対応する音声シーケンスとを時間軸上で位置合わせして、両者の同期再生を実現することができる。

まとめると、本願実施例の仮想対象のアクション処理方法では、ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定し、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。さらに、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせることにより、対応するアクションビデオを取得することができる。

本願の別の実施例による仮想対象のアクション処理方法は、具体的には、前処理段階、照合段階および生成段階を含み得る。

１）前処理段階
前処理段階は、アクションビデオ内のアクション状態画像に対して前処理を実行して、対応するアクション状態視覚特徴を取得するために使用される。

特定の実現において、アクション識別子に基づいて、アクションビデオを事前に收集し、收集されたアクションビデオおよび対応するアクション識別子をアクションビデオライブラリに格納することができる。

図２は、本願実施例のアクションビデオに対して前処理を実行する例示的なフローチャートを示す。図２において、アクションビデオから、アクション状態画像１、アクション状態画像２……アクション状態画像ＭなどのＭ個のアクション状態画像を抽出し、Ｍ個のアクション状態画像を対応する前処理システムにそれぞれ入力し、当該前処理システムによって対応するアクション状態視覚特徴を出力することができ、図２では、アクション状態視覚特徴１、アクション状態視覚特徴２……アクション状態視覚特徴Ｍと表される。

前処理システムは、具体的には、切り抜きモジュール、顔処理モジュールおよび肢体処理モジュールを備える。

ここで、切り抜きモジュールは、切り抜き技術を用いて、アクション状態画像から仮想対象に対応する領域画像を抽出するように構成される。例えば、領域画像は、顔領域画像と肢体領域画像とを含む。

顔処理モジュールは、顔領域画像から唇、鼻、目などの所定部位のアクション状態視覚特徴を抽出するように構成される。

肢体処理モジュールは、肢体領域画像から四肢などの所定部位のアクション状態視覚特徴を抽出するように構成される。

顔処理モジュールまたは肢体処理モジュールはさらに、抽出された所定部位のアクション状態視覚特徴に基づいて、所定部位の画像に対して三次元再構成を実行して、所定部位の密なアクション状態視覚特徴を取得することができる。

２）照合段階
照合段階は、所定状態画像とアクション状態画像とを照合して、対応する画像ペアを取得するために使用される。

図３は、本願実施例による、所定状態画像とアクション状態画像とを照合する例示的なフローチャートを示す。

図３において、第１融合モジュールを用いて、単一のアクション状態画像に対応する複数のタイプのアクション状態視覚特徴を融合して、第１融合視覚特徴を取得し、単一のアクション状態画像に対応する第１融合視覚特徴を検索ライブラリに格納することができる。

アクション命令を受信した場合、当該アクション命令内のアクション識別子に対応するアクションビデオフレームシーケンスを決定することができる。例えば、アクション識別子に基づいて、アクションビデオライブラリで検索して、ターゲットアクションビデオ識別子を取得し、ターゲットアクションビデオ識別子に対応する複数のアクション状態画像を、アクションビデオフレームシーケンスとして使用することができる。

実際の適用において、当該アクション命令内の時間関連情報に基づいて、ターゲット時間における仮想対象の所定状態画像を決定することもできる。さらに、所定状態画像に対応する所定状態視覚特徴を決定することができる。所定状態視覚特徴の決定プロセスは、アクション状態視覚特徴の決定プロセスと類似するため、ここでは繰り返して説明せず、アクション状態視覚特徴の決定プロセスを参照すればよい。例えば、所定状態視覚特徴の決定プロセスは、具体的には、所定状態画像を対応する前処理システムに入力し、当該前処理システムによって対応する所定状態視覚特徴を出力することを含み得る。

図３において、第２融合モジュールを用いて、所定状態画像に対応する複数のタイプの所定状態視覚特徴を融合して、第２融合視覚特徴を取得することができる。

図３において、所定状態画像に対応する第１融合視覚特徴に基づいて、検索ライブラリで検索して、所定状態画像にマッチングするアクション状態画像を取得することができる。具体的には、第１融合視覚特徴を、ターゲットアクションビデオ識別子に対応する複数のアクション状態画像の第２融合視覚特徴と照合し、照合値が最大のアクション状態画像を、所定状態画像に対応するアクション状態画像として使用することができる。所定状態画像と、所定状態画像に対応するアクション状態画像を、画像ペアとすることができる。

３）生成段階
生成段階は、画像ペアに基づいて、接続ビデオフレームシーケンスを生成するために使用される。

図４は、本願実施例による、接続ビデオフレームシーケンスを生成する例示的なフローチャートを示す。

図４において、画像ペアに対して位置姿勢情報の位置合わせを実行して、位置合わせされた第１入力画像と第２入力画像を取得することができる。

第１入力画像と第２入力画像は、処理システムにそれぞれ入力される。処理システムは、前述の視覚特徴（所定状態視覚特徴およびアクション状態視覚特徴）に基づいて、特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの生成特徴を取得するように構成されることができる。

処理システムは、具体的には、オプティカルフロー処理モジュール、テクスチャ処理モジュールおよび深度処理モジュールを備えることができる。

オプティカルフロー処理モジュールは、視覚特徴に基づいて、所定状態画像とアクション状態画像との間のオプティカルフロー特徴を取得するように構成される。具体的には、視覚特徴に基づいて、時間の順方向に従って、所定状態画像とアクション状態画像との間の正方向オプティカルフロー特徴を取得し、視覚特徴に基づいて、時間の逆方向に従って、所定状態画像とアクション状態画像との間の逆方向オプティカルフロー特徴を取得することができる。

テクスチャ処理モジュールは、視覚特徴に基づいて、所定状態画像およびアクション状態画像に対応するテクスチャ特徴をそれぞれ取得するように構成され、当該テクスチャ特徴は、髪や指などの所定部位のテクスチャの詳細を反映することができる。

深度処理モジュールは、視覚特徴に基づいて、所定状態画像およびアクション状態画像に対応する深度特徴をそれぞれ取得するように構成される。深層ニューラルネットワークは、より優れた学習能力と汎化能力を有するため、接続ビデオフレームシーケンスを生成するロバスト性を向上させることができる。

さらに、処理システムによって出力されたオプティカルフロー特徴、テクスチャ特徴および深度特徴などの複数のタイプの生成特徴を、第３融合モジュールに入力し、第３融合モジュールによって、複数のタイプの生成特徴を融合して、対応する融合特徴を取得することができる。第３融合モジュールの入力はさらに、第１入力画像と第２入力画像とを含んでもよく、第１入力画像と第２入力画像は、第３融合モジュールに対する監視の役割を果たすことができる。

本願実施例の第１融合モジュール、第２融合モジュールまたは第３融合モジュールは、融合モジュールの具体例であり得る。特定の実現において、融合モジュールは、ニューラルネットワークであってもよく、理解できるように、本願実施例は、融合モジュールの具体的な構造を限定しない。

さらに、第３融合モジュールによって出力される融合特徴は、敵対的生成ネットワークに入力されることができ、敵対的生成ネットワークは、融合特徴に基づいて、対応する接続ビデオフレームを生成することができる。

融合特徴は、所定状態画像とアクション状態画像との融合情報を含み得る。任意選択的に、当該融合特徴は、複数の接続ビデオフレームにそれぞれ対応する特徴ベクトルを含み得る。当該特徴ベクトルは、オプティカルフロー特徴、テクスチャ特徴および深度特徴を含んでもよい。オプティカルフロー特徴は、中間状態における仮想対象の動き情報を反映することができる。異なる接続ビデオフレームは、異なるオプティカルフロー特徴に対応し、これにより、異なる接続ビデオフレームが異なる動き情報を表すようにすることができる。当該特徴ベクトル内のテクスチャ特徴は、所定状態画像およびアクション状態画像に対応するテクスチャ特徴の融合であってもよい。当該特徴ベクトル内の深度特徴は、所定状態画像およびアクション状態画像に対応する深度特徴の融合であってもよい。

特定の実現において、時系列に従って、敵対的生成ネットワークによって出力された複数の接続ビデオフレームを繋ぎ合わせて、対応する接続ビデオフレームシーケンスを取得することができる。さらに、前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせることもでき、得られた繋ぎ合わせビデオフレームシーケンスは、テキスト内容に対応する音声シーケンスに対応することができる。例えば、繋ぎ合わせビデオフレームシーケンスと、テキスト内容に対応する音声シーケンスとを時間軸上で位置合わせして、両者の同期再生を実現することができる。

なお、説明の便宜上、上記の方法の実施例は、一連の動作の組み合わせとして表現されているが、当業者であれば、本願実施例のいくつかのステップが他の順序でまたは同時に実行できるため、本願実施例は、記載された動作順序に限定されないことを理解すべきである。さらに、当業者であれば、本明細書に記載の実施例はすべて好ましい実施例であり、実施例における動作は、本願実施例によって必ずしも必要とされるわけではないことを理解すべきである。

図５は、本願実施例による仮想対象のアクション処理装置の構造のブロック図を示し、当該装置は、具体的には、
アクション命令を受信するように構成される命令受信モジュール５０１であって、前記アクション命令は、アクション識別子と時間関連情報とを含む、命令受信モジュール５０１と、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するように構成される、アクションビデオフレームシーケンス決定モジュール５０２と、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するように構成される画像ペア決定モジュール５０３であって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、画像ペア決定モジュール５０３と、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される生成モジュール５０４であって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、生成モジュール５０４と、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するように構成される、繋ぎ合わせモジュール５０５と、を備えることができる。

任意選択的に、生成モジュール５０４は、
前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴を決定するように構成される、第１特徴決定モジュールと、
前記オプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成するように構成される、第１生成モジュールと、を備えることができる。

任意選択的に、生成モジュール５０４は、
前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴、テクスチャ特徴および／または深度特徴を決定するように構成される、第２特徴決定モジュールと、
前記オプティカルフロー特徴、テクスチャ特徴および／または深度特徴に基づいて、接続ビデオフレームシーケンスを生成するように構成される、第２生成モジュールと、を備えることができる。

任意選択的に、画像ペア決定モジュール５０３は、
所定状態画像に対応する視覚特徴を、前記アクションビデオフレームシーケンス内のアクション状態画像に対応する視覚特徴と照合して、前記所定状態画像に対応するアクション状態画像を取得するように構成される、照合モジュールを備えることができる。

任意選択的に、上記の装置はさらに、
所定状態画像またはアクション状態画像から、前記仮想対象に対応する領域画像を決定するように構成される、領域画像決定モジュールと、
前記領域画像から所定部位の視覚特徴を抽出して、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用するように構成される、抽出モジュールと、を備えることができる。

任意選択的に、上記の装置はさらに、
抽出された所定部位の視覚特徴に基づいて、所定部位の画像に対して三次元再構成を実行することにより、所定部位の高密度視覚特徴を取得するように構成される、三次元再構成モジュールを備えることができ、ここで、前記所定部位の高密度視覚特徴は、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用される。

任意選択的に、生成モジュール５０４は、
前記所定状態画像と前記アクション状態画像の位置姿勢情報を位置合わせして、位置合わせされた所定状態画像とアクション状態画像を取得するように構成される、位置合わせモジュールと、
位置合わせされた所定状態画像とアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される、第３生成モジュールと、を備えることができる。

任意選択的に、上記の装置はさらに、
前記所定状態画像から、部位の所定状態画像を抽出し、三次元再構成に基づいて、前記部位の所定状態画像に対応する第３視覚特徴を決定するように構成される、第３視覚特徴決定モジュールと、
前記アクション状態画像から、部位アクション状態画像を抽出し、三次元再構成に基づいて、前記部位アクション状態画像に対応する第４視覚特徴を決定するように構成される、第４視覚特徴決定モジュールと、
前記第３視覚特徴および前記第４視覚特徴に基づいて、部位接続ビデオフレームシーケンスを生成するように構成される、第４生成モジュールと、
部位接続ビデオフレームシーケンスを対応する接続ビデオフレームシーケンスに追加するように構成される、追加モジュールと、を備えることができる。

任意選択的に、上記の時間関連情報は、アクション識別子に対応するテキスト情報を含み得る。

装置の実施例は、方法の実施例とほとんど類似するため、比較的簡単に説明しており、関連する部分は、方法の実施例の対応する部分の説明を参照するとよい。

本明細書における各実施例はすべて、漸進的な方式で説明されており、各実施例は、他の実施例との相違点に焦点を当てて説明されており、各実施例間の同じまたは類似の部分は、互いに参照するとよい。

上記の実施例の装置に関して、その各モジュールが動作を実行する具体的な方法は、上記の方法に関する実施例で既に詳細に説明されており、ここでは詳細に説明しない。

図６は、１つの例示的な実施例による、仮想対象のアクション処理の装置の構造のブロック図である。当該装置は、コンピュータ機器と呼ばれることもできる。例えば、装置９００は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末機器であってもよいし、サーバであってもよい。

図６を参照すると、装置９００は、処理コンポーネント９０２、メモリ９０４、電力コンポーネント９０６、マルチメディアコンポーネント９０８、オーディオコンポーネント９１０、入力／出力（Ｉ／Ｏ）インターフェース９１２、センサコンポーネント９１４、および通信コンポーネント９１６のうちの１つまたは複数のコンポーネットを含み得る。

処理コンポーネント９０２は、一般的に、表示、電話の呼び出し、データ通信、カメラ操作および記録操作に関連する操作など、装置９００の全般的な操作を制御する。処理コンポーネント９０２は、命令を実行して上記の方法のステップのすべてまたは一部を完了するための１つまたは複数のプロセッサ９２０を含み得る。加えて、処理コンポーネント９０２は、処理コンポーネント９０２と他のコンポーネントとの間の相互作用を容易にするための、１つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント９０２は、マルチメディアコンポーネント９０８と、処理コンポーネント９０２との間の相互作用を容易にするための、マルチメディアモジュールを備えることができる。

メモリ９０４は、装置９００での操作をサポートするための、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置９００で動作する、任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ９０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性記憶装置、またはそれらの組み合わせで実装することができる。

電力コンポーネント９０６は、装置９００の各コンポーネントに電力を提供する。電力コンポーネント９０６は、電力管理システム、１つまたは複数の電源、および装置９００の電力の生成、管理および割り当てに関する他のコンポーネントを含むことができる。

マルチメディアコンポーネント９０８は、装置９００とユーザとの間の出力インターフェースを提供するスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプおよびタッチパネルにおけるジェスチャを検知するための１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関する持続時間および圧力も検知することができる。いくつかの実施例において、マルチメディアコンポーネント９０８は、１つのフロントカメラおよび／またはリアカメラを備える。装置９００が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび／またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラおよびリアカメラは、固定光学レンズシステムであり、または焦点距離および光学ズーム機能を有することであり得る。

オーディオコンポーネント９１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント９１０は、１つのマイクロフォン（ＭＩＣ）を含み、装置９００が通話モード、録音モードおよび音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ９０４に記憶されることができ、または通信コンポーネント９１６を介して、送信されることができる。いくつかの実施例において、オーディオコンポーネント９１０はさらに、オーディオ信号を出力するためのスピーカを備える。

Ｉ／Ｏインターフェース９１２は、処理コンポーネント９０２と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームページボタン、音量ボタン、スタートアップボタン、ロックボタンを含み得るが、これらに限定されない。

センサコンポーネント９１４は、装置９００に各態様の状態評価を提供するための１つまたは複数のセンサを備える。例えば、センサコンポーネント９１４は、装置９００のオン／オフ状態と、装置９００のディスプレイやキーパッドなどのコンポーネントの相対位置を検出することができ、センサコンポーネント９１４はさらに、装置９００または装置９００のコンポーネントの位置変化、ユーザと装置９００との接触の有無、装置９００の方位角または加速度／減速度、および装置９００の温度変化も検出することができる。センサコンポーネット９１４は、物理的接触なしに近くの物体の存在を検知するように構成される近接センサを備えることができる。センサコンポーネント９１４はさらに、撮像用途で使用されるＣＭＯＳまたはＣＣＤ画像センサなどの光学センサを備えることもできる。いくつかの実施例において、当該センサコンポーネント９１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含み得る。

通信コンポーネント９１６は、装置９００と他の装置の間の有線または無線通信を容易にするように構成される。装置９００は、ＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント９１６は、放送チャンネルを介して、外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント９１６は、さらに、短距離通信を促進するために、近距離通信（ＮＦＣ）モジュールを備える。例えば、ＮＦＣモジュールは、無線周波数認識（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術および他の技術に基づいて実現されることができる。

例示的な実施例において、装置９００は、上記の方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって実現されることができる。

例示的な実施例において、命令を含むメモリ９０４など、命令を含む非一時的なコンピュータ可読記憶媒体をさらに提供し、前記命令は、装置９００のプロセッサ９２０に上記の方法を実行させることができる。例えば、前記非一時的なコンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、および光学データ記憶装置などであり得る。

図７は、本願のいくつかの実施例におけるサーバ側の構造のブロック図である。当該サーバ側１９００は、構成または性能の違いにより比較的に大きな差異があり得、１つまたは複数の中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）１９２２（例えば、１つまたは複数のプロセッサ）およびメモリ１９３２、１つまたは複数のアプリケーション１９４２またはデータ１９４４が記憶された記憶媒体１９３０（例えば、１つまたは複数の大容量記憶装置）を備えることができる。ここで、メモリ１９３２および記憶媒体１９３０は、一時的または永久的な記憶装置であり得る。記憶媒体１９３０に記憶されたプログラムは、１つまたは複数のモジュール（未図示）を含み得、各モジュールは、サーバ側での一連の命令動作を含み得る。さらに、中央処理装置１９２２は、記憶媒体１９３０と通信し、サーバ側１９００で記憶媒体１９３０内の一連の命令動作を実行するように構成されることができる。

サーバ側１９００は、１つまたは複数の電源１９２６、１つまたは複数の有線または無線ネットワークインターフェース１９５０、１つまたは複数の入力／出力インターフェース１９５８、１つまたは複数のキーボード１９５６、および／または、１つまたは複数のオペレーティングシステム１９４１（例えば、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭなど）をさらに含んでもよい。

非一時的なコンピュータ可読記憶媒体を提供し、前記記憶媒体における命令が装置（機器またはサーバ側）のプロセッサによって実行されるとき、装置に、仮想対象のアクション処理方法を実行させ、前記方法は、アクション命令を受信するステップであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、ステップと、前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、ステップと、前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、ステップと、前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、を含む。

当業者は、本明細書を検討し、本明細書に開示された発明を実施した後、本願の他の実施形態を容易に想到し得るであろう。本願は、本願のあらゆる変形、応用または適応的変更を網羅することを意図しており、これらの変形、応用または適応的変更は、本願の一般原理に準拠し、本願で開示されていない当技術分野における公知常識または従来の技術手段を含む。本明細書および実施例は、単なる例示的なものであり、本願の真の範囲および趣旨は、添付の特許請求の範囲で指摘される。

本願は、上記で説明し且つ図面に示された正確な構造に限定されるものではなく本出願の範囲から逸脱することなく、様々な修正および変更を行うことができることを理解されたい。本願の範囲は、添付の特許請求の範囲に従うべきである。

上記の説明は、本願の好ましい実施例に過ぎず、本願を限定することを意図するものではなく、本願の趣旨および原則内で行われるあらゆる修正、同等置換、改善などは、すべて本願の保護範囲に含まれるべきである。

以上では、本願による仮想対象のアクション処理方法、仮想対象のアクション処理装置、および仮想対象のアクション処理のための装置について詳細に説明しており、本明細書では、具体的な例を挙げて本願の原理および実施形態について説明したが、上記した実施例の説明は、単に本願の方法およびその本旨を理解を支援するためのものである。また、当業者にとっては、本願の趣旨に基づいて、具体的な実施形態および適用範囲に変更が生じるであろう。まとめると、本明細書の内容は、本願に対する限定として理解されるべきではない。

Claims

コンピュータ機器が実行する、仮想対象のアクション処理方法であって、
アクション命令を受信するステップであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、ステップと、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、ステップと、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、ステップと、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、
を含む、仮想対象のアクション処理方法。
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップは、
前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴を決定するステップと、
前記オプティカルフロー特徴に基づいて、前記接続ビデオフレームシーケンスを生成するステップと、
を含む、請求項１に記載の仮想対象のアクション処理方法。
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップは、
前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴、テクスチャ特徴および／または深度特徴を決定するステップと、
前記オプティカルフロー特徴、前記テクスチャ特徴および／または前記深度特徴に基づいて、前記接続ビデオフレームシーケンスを生成するステップと、
を含む、請求項１に記載の仮想対象のアクション処理方法。
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップは、
前記所定状態画像に対応する視覚特徴を、前記アクションビデオフレームシーケンス内の各アクション状態画像に対応する視覚特徴と照合して、前記所定状態画像に対応するアクション状態画像を取得するステップ
を含む、請求項１に記載の仮想対象のアクション処理方法。
前記仮想対象のアクション処理方法は、
前記所定状態画像または前記アクション状態画像から、前記仮想対象に対応する領域画像を決定するステップと、
前記領域画像から所定部位の視覚特徴を抽出して、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用するステップと、
をさらに含む、請求項４に記載の仮想対象のアクション処理方法。
前記仮想対象のアクション処理方法は、
抽出された前記所定部位の視覚特徴に基づいて、前記所定部位の画像に対して三次元再構成を実行することにより、前記所定部位の高密度視覚特徴を取得するステップをさらに含み、
前記所定部位の高密度視覚特徴は、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用される、
請求項５に記載の仮想対象のアクション処理方法。
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップは、
前記所定状態画像と前記アクション状態画像の位置姿勢情報を位置合わせして、位置合わせされた所定状態画像とアクション状態画像を取得するステップと、
前記位置合わせされた所定状態画像とアクション状態画像に基づいて、前記接続ビデオフレームシーケンスを生成するステップと、
を含む、請求項１に記載の仮想対象のアクション処理方法。
前記仮想対象のアクション処理方法は、
前記所定状態画像から、部位の所定状態画像を抽出し、三次元再構成に基づいて、前記部位の所定状態画像に対応する第３視覚特徴を決定するステップと、
前記アクション状態画像から、部位アクション状態画像を抽出し、三次元再構成に基づいて、前記部位アクション状態画像に対応する第４視覚特徴を決定するステップと、
前記第３視覚特徴および前記第４視覚特徴に基づいて、部位接続ビデオフレームシーケンスを生成するステップと、
前記部位接続ビデオフレームシーケンスを前記接続ビデオフレームシーケンスに追加するステップと、
をさらに含む、請求項１に記載の仮想対象のアクション処理方法。
前記時間関連情報は、前記アクション識別子に対応するテキスト情報を含む、
請求項１ないし８のいずれか一項に記載の仮想対象のアクション処理方法。
仮想対象のアクション処理装置であって、
アクション命令を受信するように構成される命令受信モジュールであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、命令受信モジュールと、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するように構成される、アクションビデオフレームシーケンス決定モジュールと、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するように構成される画像ペア決定モジュールであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、画像ペア決定モジュールと、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される生成モジュールであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、生成モジュールと、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するように構成される、繋ぎ合わせモジュールと、
を備える、前記仮想対象のアクション処理装置。
プログラムが記憶されたメモリと、前記プログラムを実行することによって請求項１ないし８のいずれか一項に記載の仮想対象のアクション処理方法を実現するように構成されるプロセッサと、を備える、コンピュータ機器。
コンピュータに、請求項１ないし８のいずれか一項に記載の仮想対象のアクション処理方法を実行させるためのプログラム。