JP2022526148A

JP2022526148A - ビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体

Info

Publication number: JP2022526148A
Application number: JP2021556974A
Authority: JP
Inventors: リンセンソン; ウェンイエンウー; チェンチエン; ランホー
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-09-18
Filing date: 2020-09-08
Publication date: 2022-05-23
Also published as: US20210357625A1; SG11202108498RA; KR20210140762A; CN110677598A; WO2021052224A1; CN110677598B

Abstract

本願実施例は、ビデオ生成方法、装置、電子機器、コンピュータ記憶媒体を提供し、当該方法は、各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出することと、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得することと、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、各フレームの生成画像に従って、目標ビデオを生成することと、を含む。【選択図】図１

Description

［関連出願への相互参照］
本願は、２０１９年０９月１８日に中国特許局に提出された、出願番号が２０１９１０８８３６０５．２である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。

［技術分野］
本願は、画像処理技術に関し、特に、ビデオ生成方法、装置、電子機器、コンピュータ記憶媒体及びコンピュータプログラムに関する。

関連技術において、話者の顔の生成は、音声駆動の人物やビデオ生成タスクの研究の重要な部分であるが、関連する話者の顔の生成方法は、頭の姿勢に関連する実際のニーズを満たすことができない。

本願実施例は、ビデオ生成の技術的解決策を提供する。

本願実施例は、ビデオ生成方法を提供し、前記方法は、
複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得することと、
前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、
前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、
各フレームの生成画像に従って、目標ビデオを生成することと、を含む。

本願実施例は、ビデオ生成装置を提供し、前記装置は、第１処理モジュール、第２処理モジュール、第３処理モジュール及び生成モジュールを備え、
前記第１処理モジュールは、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得するように構成され、
前記第２処理モジュールは、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成され、
前記生成モジュールは、各フレームの生成画像に従って、目標ビデオを生成するように構成される。

本願実施例は、電子機器を更に提供し、前記電子機器は、プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリとを備え、ここで、
前記プロセッサは、前記コンピュータプログラムを実行するときに、上記の任意のビデオ生成方法を実行するように構成される。

本願実施例は、コンピュータプログラムが記憶されているコンピュータ記憶媒体を提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の任意のビデオ生成方法を実現する。

本願実施例によるビデオ生成方法、装置、電子機器及びコンピュータ記憶媒体において、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得し、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得し、各フレームの生成画像に従って、目標ビデオを生成する。このようにして、本願実施例において、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、顔キーポイント情報に従って生成された各フレームの生成画像は、頭部姿勢情報を反映することができ、これにより、目標ビデオは頭部姿勢情報を反映することができる。頭部姿勢情報は、各フレームの顔画像に従って取得されたものであり、各フレームの顔画像は、頭の姿勢に関連する実際のニーズに応じて取得できるため、本願実施例では、頭の姿勢に関連する実際のニーズを満たす各フレームの顔画像に従って、対応する目標ビデオを生成することにより、生成された目標ビデオが頭の姿勢に関連する実際のニーズを満たすようにすることができる。

上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本願を限定するものではないことを理解されたい。

ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本願と一致する実施例を示し、明細書とともに本願の技術的解決策を説明するために使用される。
本願実施例に係るビデオ生成方法のフローチャートである。本願実施例に係る第１ニューラルネットワークのアーキテクチャの概略図である。本願実施例に係る、各フレームの顔画像の顔キーポイント情報を取得する実施プロセスを示す概略図である。本願実施例に係る第２ニューラルネットワークのアーキテクチャの概略図である。本願実施例に係る第１ニューラルネットワークのトレーニング方法のフローチャートである。本願実施例に係る第２ニューラルネットワークのトレーニング方法のフローチャートである。本願実施例に係るビデオ生成装置の構成の概略構造図である。本願実施例に係る電子機器の概略構造図である。

以下、添付の図面および実施例を参照して、本願についてさらに詳細に説明する。ここで提供する実施例は、本願を説明するものに過ぎず、本願を限定しないことを理解されたい。さらに、以下で提供する実施例は、本願を実施するための実施例のすべてではなく、本願を実施するための実施例の一部であり、競合しない場合、本願実施例に記載の技術案を任意に組み合わせることにより実施してもよい。

本明細書では、「含む」、「備える」又はそれらの他の変形という用語は、非排他的な包含をカバーすることを意図しているため、一連の要素を含むプロセス、方法、物品又は装置はそれらの要素を含むだけでなく、明示的にリストされていない他の要素も含み、又はこれらのプロセス、方法、物品又は装置に固有の要素も含むことに留意されたい。特に限定しない限り、「～を含む」という用語で限定された要素は、その要素を含むプロセス、方法、物品又は装置に他の同じ要素が存在することを除外できない（例えば、方法のステップ又は装置のユニット，ユニットは、部分回路、部分プロセッサ、部分プロセッサ又はソフトウェアなどであってもよい）。

例えば、本願実施例に係るビデオ生成方法は、一連のステップを含むが、本願実施例に係るビデオ生成方法は、上記のステップに限定されず、同様に、本願実施例に係るビデオ生成装置は、一連のモジュールを備えるが、本願実施例に係る装置は、明確に記載されたモジュールに限定されず、関連情報を取得し、又は情報に基づいて処理するときに設定する必要があるモジュールをさらに備えることができる。

本明細書における「および／または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、３種類の関係が存在することができることを示し、例えば、Ａおよび／またはＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合など３つの場合を表す。さらに、本明細書における「少なくとも１つ」という用語は、複数のうちの１つまたは複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、ＢおよびＣで構成されたセットから選択された任意の１つまたは複数の要素を含むことを示す。

本願実施例は、端末及び／又はサーバで構成されたコンピュータシステムに適用でき、他の多くの汎用または専用のコンピューティングシステム環境または構成で動作させることができる。ここで、端末は、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ機器、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子製品、ネットワークパーソナルコンピュータ、小型コンピュータシステムなどであってもよく、サーバは、サーバコンピュータシステム、小型コンピュータシステム、大型コンピュータシステム、および上記のシステムのいずれかを含む分散型クラウドコンピューティング技術環境であってもよい。

端末、サーバなどの電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能な命令（プログラムモジュールなど）の一般的な文脈で説明することができる。一般的に、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、コンポーネント、ロジックおよびデータ構造などを含むことができ、これらは特定のタスクを実行するか、または特定の抽象データタイプを実行する。コンピュータシステム／サーバは、分散型クラウドコンピューティング環境で実施することができ、分散型クラウドコンピューティング環境では、タスクは、通信ネットワークを介してリンクされたリモート処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、ストレージ機器を含むローカルまたはリモートコンピューティングシステムの記憶媒体に配置できる。

在本願のいくつかの実施例において、ビデオ生成方法を提案し、本願実施例は、人工知能、インターネット、画像及びビデオ認識などの分野に適用することができ、例示的に、本願実施例は、人とコンピュータのインタラクション、仮想対話、仮想顧客サービスなどのアプリケーションで実施することができる。

図１は、本願実施例に係るビデオ生成方法のフローチャートであり、図１に示されたように、当該方法は、次のステップを含み得る。

ステップ１０１において、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得する。

実際の応用では、ソースビデオデータを取得し、前記ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離することができ、各フレームの顔画像に対応する音声セグメントを決定し、各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である。

ここで、ソースビデオデータの各フレームの画像は顔画像を含み、ソースビデオデータの音声データは、話者の音声を含み、本願実施例では、ソースビデオデータのソース及びフォーマットを限定しない。

本願実施例では、各フレームの顔画像に対応する音声セグメントの時間帯は、前記各フレームの顔画像の時点を含み、実際の実施では、ソースビデオデータから、話者の音声を含む音声データを分離した後、音声を含む音声データを複数の音声セグメントに分割することができ、各音声セグメントは、１つのフレームの顔画像に対応する。

例示的に、事前に取得されたソースビデオデータから、最初のフレームからｎ番目のフレームの顔画像及び音声を含む音声データを分離し、音声を含む音声データを第１音声セグメント～第ｎ音声セグメントに分割することができ、ｎは１より大きい整数であり、ｉが順次に１～ｎを取る場合、第ｉ音声セグメントの時間帯は、ｉ番目のフレームの顔画像が現れる時点を含む。

ステップ１０２において、各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得する。

実際の応用では、複数のフレームの顔画像及び各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第１ニューラルネットワークに入力し、第１ニューラルネットワークにより、各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得する。

本願実施例では、顔形状情報は、顔の各部位の形状及びサイズ情報を表すことができ、例えば、顔形状情報は、口の形、唇の厚さ、目の大きさなどを示すことができ、顔形状情報は、個人の身元に関連付けられ、理解できることとして、個人の身元に関連する顔形状情報は、顔を含む画像に従って取得できる。実際の応用では、顔形状情報は、顔形状に関連するパラメータであってもよい。

頭部姿勢情報は、顔の向きなどの情報を表すことができ、例えば、頭の姿勢は、頭を上げる、頭を下げる、顔を左側に向ける、顔を右側に向けるなどを表すことができ、理解できることとして、頭部姿勢情報は、顔を含む画像に従って取得することができる。実際の応用では、頭部姿勢情報は、頭の姿勢に関連するパラメータであってもよい。

例示的に、顔表情情報は、喜び、悲しみ、痛みなどの表情を表すことができ、これは、顔表情情報の例示的説明に過ぎず、本願実施例において、顔表情情報は、上記の表情に限定されない。顔表情情報は、顔面の動きに関連するため、人が話す場合、音声を含む音声情報に従って、顔面動き情報を取得し、これにより、顔表情情報を取得することができる。実際の応用では、顔表情情報は、顔表情に関連するパラメータであってもよい。

各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出する実施形態の場合、例示的に、各フレームの顔画像を３次元顔変形可能モデル（３ＤＭＭ：３ＤＦａｃｅＭｏｒｐｈａｂｌｅＭｏｄｅｌ）に入力し、３ＤＭＭを用いて各フレームの顔画像の顔形状情報及び頭部姿勢情報を抽出することができる。

各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得する実施形態の場合、例示的に、上記の音声セグメントの音声特徴を抽出し、その後、上記の音声セグメントの音声特徴に従って、顔表情情報を取得することができる。

本願実施例では、音声セグメントの音声特徴のタイプを限定せず、例えば、音声セグメントの音声特徴は、メル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）又は他の周波数領域特徴であってもよい。

以下、図２を参照して、本願実施例に係る第１ニューラルネットワークのアーキテクチャについて説明する。図２に示されたように、第１ニューラルネットワークを応用する段階では、ソースビデオデータから、複数のフレームの顔画像及び音声を含む音声データを分離し、音声を含む音声データを複数の音声セグメントに分割し、各音声セグメントは、１つのフレームの顔画像に対応し、各フレームの顔画像の場合、各フレームの顔画像を３ＤＭＭに入力し、３ＤＭＭを用いて各フレームの顔画像の顔形状情報及び頭部姿勢情報を抽出することができる。各フレームの顔画像に対応する音声セグメントの音声特徴を抽出し、その後、音声正規化ネットワークを介して、抽出された音声特徴を処理して、音声特徴の音色情報を除去し、マッピングネットワークを介して、音色情報が除去された後の音声特徴を処理して、顔表情情報を取得することができる。図２では、マッピングネットワークによって処理された後の顔表情情報を顔表情情報１として記録し、３ＤＭＭを用いて顔表情情報１、顔形状情報及び頭部姿勢情報を処理して、顔キーポイント情報を取得し、図２では、３ＤＭＭを用いて取得された顔キーポイント情報を顔キーポイント情報１として記録する。

各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得する実施形態の場合、例示的に、音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、音色情報が消去された後の音声特徴に従って、顔表情情報を取得することができる。

本願実施例では、音色情報は、話者の身元に関連する情報であり、顔表情は、話者の身元とは関係ないため、音声特徴から話者の身元に関連する音色情報を消去した後、音色情報が消去された音声特徴に従って、顔表情情報をより正確に取得することができる。

音声特徴の音色情報を消去する実施形態の場合、例示的に、音声特徴に対して正規化処理を実行して、音声特徴の音色情報を消去することができ、具体的な例において、特徴空間の特徴ベースの最尤線形回帰（ｆＭＬＬＲ：ｆｅａｔｕｒｅ－ｂａｓｅｄＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）法に基づいて、音声特徴に対して正規化処理を実行して、音声特徴の音色情報を消去することができる。

本願実施例では、ｆＭＬＬＲ法に基づいて、音声特徴に対して正規化処理を実行するプロセスは、式（１）を用いて説明することができる。

（１）

ここで、ｘは、正規化処理前の音声特徴を表し、

は、正規化処理後の音色情報を除去した音声特徴を表し、

及び

は、それぞれ話者の異なる特定の正規化パラメータを表し、

は、重み値を表し、

はオフセットを表し、

、

である。

音声セグメントの音声特徴が複数の話者の音声の音声特徴を表す場合、式（２）に従って、

をいくつかのサブ行列及び単位行列の加重和に分解することができる。

（２）

ここで、Ｉは単位行列を表し、

はｉ番目のサブ行列を表し、

はｉ番目のサブ行列に対応する重み係数を表し、ｋは話者の数を表し、ｋは、事前に設定されたパラメータであってもよい。

実際の応用では、第１ニューラルネットワークは、音声正規化ネットワークを含み得、音声正規化ネットワークにおいて、ｆＭＬＬＲ法に基づいて、音声特徴に対して正規化処理を実行する。

例示的に、音声正規化ネットワークは、浅層ニューラルネットワークであり、一具体的な例において、図２を参照すると、音声正規化ネットワークは、少なくとも、長短期記憶（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）層及び全結合（ＦＣ：ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）層を含み得、音声特徴をＬＳＴＭ層に入力し、ＬＳＴＭ層及びＦＣ層によって順次に処理した後、オフセット

、各サブ行列及び各サブ行列に対応する重み係数を取得することができ、さらに、式（１）及び式（２）に従って、音色情報が除去された正規化処理後の音声特徴

を取得することができる。

音色情報を除去した後の音声特徴に従って、顔表情情報を取得する実施形態の場合、例示的に、図２を参照すると、ＦＣ１及びＦＣ２は、２つのＦＣ層を表し、ＬＳＴＭは、１つの多層ＬＳＴＭ層を表し、ここから分かるように、ＦＣ１、多層のＬＳＴＭ層及びＦＣ２を介して、音色情報が除去された後の音声特徴を順次に処理した後に、顔表情情報を取得することができる。

図２に示されたように、第１ニューラルネットワークのトレーニング段階では、サンプルビデオデータから複数のフレームの顔サンプル画像及び音声を含む音声データを分離し、音声を含む音声データを複数の音声サンプルセグメントに分割し、各音声サンプルセグメントは、１つのフレームの顔サンプル画像に対応する。各フレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントに対して、第１ニューラルネットワークの応用段階のデータ処理プロセスを実行することにより、予測顔表情情報及び予測顔キーポイント情報を取得でき、ここで、予測顔表情情報を顔表情情報１として記録し、予測顔キーポイント情報を顔キーポイント情報１として記録する。一方、第１ニューラルネットワークのトレーニング段階では、各フレームの顔サンプル画像を３ＤＭＭに入力し、３ＤＭＭを用いて各フレームの顔サンプル画像の顔表情情報を抽出し、各フレームの顔サンプル画像に従って、顔キーポイント情報を直接に取得することができる。図２では、３ＤＭＭを用いて抽出された各フレームの顔サンプル画像の顔表情情報（即ち、顔表情表記結果）を顔表情情報２として記録し、各フレームの顔サンプル画像に従って直接取得された顔キーポイント情報（即ち、顔キーポイント表記結果）を顔キーポイント情報２として記録する。第１ニューラルネットワークのトレーニング段階では、キーポイント情報１と顔キーポイント情報２との間の差、及び／又は、顔表情情報１と顔表情情報２との間の差に従って、第１ニューラルネットワークの損失を計算することができ、トレーニング済みの第１ニューラルネットワークを取得するまで、第１ニューラルネットワークの損失に従って、第１ニューラルネットワークをトレーニングすることができる。

顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得する実施形態の場合、例示的に、顔表情情報及び顔形状情報に従って、顔ポイントクラウドデータを取得し、頭部姿勢情報に従って、顔ポイントクラウドデータを２次元画像に投影して、各フレームの顔画像の顔キーポイント情報を取得することができる。

図３は、本願実施例に係る、各フレームの顔画像の顔キーポイント情報を取得する実施プロセスを示す概略図であり、図３において、顔表情情報１、顔表情情報２、顔形状情報及び頭部姿勢情報の意味は、図２と一致する。ここから分かるように、上記の内容を参照すると、第１ニューラルネットワークのトレーニング段階及び応用段階のいずれも、顔表情情報１、顔形状情報及び頭部姿勢情報を取得する必要があり、顔表情情報２は、第１ニューラルネットワークのトレーニング段階でのみ取得する必要があり、第１ニューラルネットワークの応用段階で取得する必要がない。

図３を参照すると、実際の実施では、１つのフレームの顔画像を３ＤＭＭに入力した後、３ＤＭＭを用いて各フレームの顔画像の顔形状情報、頭部姿勢情報及び顔表情情報２を抽出でき、音声特徴に従って顔表情情報１を取得した後、顔表情情報２を顔表情情報１に置き換えることができ、顔表情情報１及び顔形状情報を３ＤＭＭに入力し、３ＤＭＭに基づいて顔表情情報１及び顔形状情報を処理して、顔ポイントクラウドデータを取得する。ここで取得された顔ポイントクラウドデータは、ポイントクラウドデータのセットを表し、本願のいくつかの実施例において、図３を参照すると、顔ポイントクラウドデータは、３次元顔メッシュ（３Ｄｆａｃｅｍｅｓｈ）の形式で表示できる。

本願実施例では、上記の顔表情情報１を

に記録し、上記の顔表情情報２をｅに記録し、上記の頭部姿勢情報をｐに記録し、上記の顔形状情報をｓに記録し、この場合、各フレームの顔画像の顔キーポイント情報を取得するプロセスは、式（３）で説明することができる。

（３）

ここで、

は、顔表情情報１及び顔形状情報を処理して、上記の３次元顔メッシュを取得する関数を表し、Ｍは、上記の３次元顔メッシュを表し、

は、頭部姿勢情報に従って、３次元顔メッシュを２次元画像に投影する関数を表し、

は、顔画像の顔キーポイント情報を表す。

本願実施例では、顔キーポイントは、画像内の顔の五官及び輪郭ポジショニングに対する注釈であり、主に、顔の輪郭、眉毛、目、口などの顔の重要な位置を特定するために使用される。ここで、各フレームの顔画像の顔キーポイント情報は、少なくとも、発話関連部位の顔キーポイント情報を含み、例示的に、発話関連部位は、少なくとも、嘴部及び顎を含み得る。

ここから分かるように、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、顔キーポイント情報は、頭部姿勢情報を表し、さらに、顔キーポイント情報によって取得された顔画像は、頭部姿勢情報を反映することができる。

さらに、図３を参照すると、各フレームの顔画像の顔キーポイント情報をヒートマップにコード化することもでき、このようにして、ヒートマップを用いて各フレームの顔画像の顔キーポイント情報を表すことができる。

ステップ１０３において、各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得する。

実際の応用では、各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を事前にトレーニングされた第２ニューラルネットワークに入力し、第２ニューラルネットワークにより、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することができる。

一例において、各フレームの顔画像について、マスク部分のない顔画像を事前に取得することができる。例えば、事前に取得されたソースビデオデータから分離された最初のフレームからｎ番目のフレームまでの顔画像について、マスク部分のない最初のフレームの顔画像からｎ番目のフレームまでの顔画像を事前に取得することができ、ｉが１～ｎを順次に取る場合、事前に取得されたソースビデオデータから分離されたｉ番目のフレームの顔画像は、事前に取得されたマスク部分のないｉ番目のフレームの顔画像に対応する。具体的な実施形態では、各フレームの顔画像の顔キーポイント情報に従って、事前に取得されたマスク部分のない顔画像に対して顔キーポイント部分のカバー処理を実行して、各フレームの生成画像を取得することができる。

別の例において、各フレームの顔画像について、マスク部分のある顔画像を事前に取得することができる。例えば、事前に取得されたソースビデオデータから分離された最初のフレームからｎ番目のフレームまでの顔画像ついて、マスク部分のある最初のフレームの顔画像からｎ番目のフレームまでの顔画像を事前に取得することができ、ｉが１～ｎを順次に取る場合、事前に取得されたソースビデオデータから分離されたｉ番目のフレームの顔画像は、事前に取得されたマスク部分のあるｉ番目のフレームの顔画像に対応する。マスク部分のある顔画像は、発話関連部位がマスクされた顔画像を表す。

本願実施例では、各フレームの顔画像の顔キーポイント情報及び事前に取得されたマスク部分のある顔画像を事前にトレーニングされた第２ニューラルネットワークに入力する実施形態の場合、例示的に、事前に取得されたソースビデオデータから最初のフレームからｎ番目のフレームまでの顔画像を分離する場合、ｉが１～ｎを順次に取ることにより、ｉ番目のフレームの顔画像の顔キーポイント情報及びマスク部分のあるｉ番目のフレームの顔画像を事前にトレーニングされた第２ニューラルネットワークに入力することができる。

以下、図４を参照して、本願実施例に係る第２ニューラルネットワークのアーキテクチャについて説明し、図４に示されたように、第２ニューラルネットワークの応用段階では、少なくとも１つのフレームのマスク部分のない処理待ち顔画像を事前に取得し、その後、各フレームのマスク部分のない処理される顔画像にマスクを追加して、マスク部分のある顔画像を取得することができる。例示的に、処理される顔画像は、真の顔画像、アニメ化された顔画像又は他のタイプの顔画像であってもよい。

各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得されたマスク部分のある１つのフレームの顔画像に対してマスク部分の補完処理を実行する実施形態の場合、例示的に、第２ニューラルネットワークは、画像合成用の補完ネットワーク（ＩｎｐａｉｎｔｉｎｇＮｅｔｗｏｒｋ）を含み得、第２ニューラルネットワークの応用段階では、各フレームの顔画像の顔キーポイント情報及び事前に取得されたマスク部分のある顔画像を補完ネットワークに入力し、補完ネットワークにおいて、各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、各フレームの生成画像を取得することができる。

実際の応用では、図４を参照すると、各フレームの顔画像の顔キーポイント情報をヒートマップにコード化する場合、ヒートマップ及び事前に取得されたマスク部分のある顔画像を補完ネットワークに入力し、補完ネットワークを用いて、ヒートマップに基づき、事前に取得されたマスク部分のある顔画像を補完処理して、生成画像を取得することができる。例えば、補完ネットワークは、スキップ接続を備えたニューラルネットワークであってもよい。

本願実施例では、補完ネットワークを用いて画像補完処理を実行するプロセスは、式（４）で説明することができる。

（４）

ここで、Ｎは、事前に取得されたマスク部分のある顔画像を表し、Ｈは、表示顔キーポイント情報のヒートマップを表し、

は、ヒートマップ及び事前に取得されたマスク部分のある顔画像を補完処理する関数を表し、

は、生成画像を表す。

図４を参照すると、第２ニューラルネットワークのトレーニング段階では、マスク部分のないサンプル顔画像を取得することができ、処理待ち顔画像に対する第２ニューラルネットワークの上記の処理方式に従って、サンプル顔画像を処理して、対応する生成画像を取得することができる。

さらに、図４を参照すると、第２ニューラルネットワークのトレーニング段階では、サンプル顔画像及び生成画像を鑑別器に入力する必要もあり、鑑別器は、サンプル顔画像が真の画像である確率、及び生成画像が真の画像である確率を決定するために使用され、鑑別器の鑑別により、第１鑑別結果及び第２鑑別結果を取得することができ、第１鑑別結果は、サンプル顔画像が真の画像である確率を表し、第２鑑別結果は、生成画像が真の画像である確率を表し、その後、トレーニング済みの第２ニューラルネットワークを取得するまで、第２ニューラルネットワークの損失に従って、第２ニューラルネットワークをトレーニングすることができる。ここで、第２ニューラルネットワークの損失は敵対的損失を含み、敵対的損失は、前記第１鑑別結果及び前記第２鑑別結果に従って取得されたものである。

ステップ１０４において、各フレームの生成画像に従って、目標ビデオを生成する。

ステップ１０４の実施形態の場合、一例において、各フレームの生成画像について、事前に取得された顔画像に従って、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成することができる。このように、本願実施例では、調整後の各フレームの生成画像における顔キーポイント以外の他の領域の画像を、事前に取得された処理待ち顔画像とよりよく一致させ、調整後の各フレームの生成画像を実際のニーズによりよく一致させる。

実際の応用では、第２ニューラルネットワークにおいて、各フレームの生成画像について、前記事前に取得された処理待ち顔画像に従って顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得することができる。

例示的に、図４を参照すると、第２ニューラルネットワークの応用段階では、ラプラシアン・ピラミッド・ブレンディング（ＬａｐｌａｃｉａｎＰｙｒａｍｉｄＢｌｅｎｄｉｎｇ）を用いて、事前に取得されたマスク部分のない処理待ち顔画像及び生成画像に対して画像融合を実行し、調整後の生成画像を取得することができる。

もちろん、別の例において、各フレームの生成画像を用いて目標ビデオを直接に構成することができ、このようにして、実現を容易にする。

実際の応用では、ステップ１０１～ステップ１０４は、電子機器のプロセッサを用いて実現でき、上記のプロセッサは、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、デジタル信号処理装置（ＤＳＰＤ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ）、プログラマブル論理装置（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであってもよい。

ここから分かるように、本願実施例において、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、顔キーポイント情報に従って生成された各フレームの生成画像に従って、頭部姿勢情報を反映することができ、これにより、目標ビデオは頭部姿勢情報を反映することができる。頭部姿勢情報は、各フレームの顔画像に従って取得されたものであり、各フレームの顔画像は、頭の姿勢に関連する実際のニーズに応じて取得できるため、本願実施例では、頭の姿勢に関連する実際のニーズを満たす各フレームの顔画像に従って、対応する目標ビデオを生成することにより、生成された目標ビデオが頭の姿勢に関連する実際のニーズを満たすようにすることができる。

さらに、図４を参照すると、第２ニューラルネットワークの応用段階では、目標ビデオについて、目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行することができ、及び／又は、目標ビデオにおける画像に対して揺れ補正処理を実行することができる。ここで、前記発話関連部位は、少なくとも口及び顎を含む。

理解できることとして、目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行することにより、目標ビデオ内の発話関連部位の揺れを低減し、目標ビデオの表示効果を向上させることができ、目標ビデオにおける画像に対して揺れ補正処理を実行することにより、目標ビデオ内の画像をちらつき、目標ビデオの表示効果を向上させることができる。

前記目標ビデオの画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行する実施形態の場合、例示的に、ｔが２より大きいか等しく、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得することができる。

ｔが２より大きいか等しく、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より大きい場合、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の顔キーポイント情報を、目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の動き平滑化処理後の顔キーポイント情報として使用し、つまり、目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の顔キーポイント情報に対して動き平滑化処理を実行することに留意されたい。

１つの特定の例において、

は目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位の顔キーポイント情報を表し、

は目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の顔キーポイント情報を表し、

は設定された距離閾値を表し、ｓは設定された動き平滑化処理の強度を表し、

は目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の動き平滑化処理後の顔キーポイント情報を表し、

は目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位の中心位置を表し、

は目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の中心位置を表す。

である場合、

である。

である場合、

であり、ここで、

である。

目標ビデオの画像に対して揺れ補正処理を実行する実施形態の場合、例示的に、ｔが２より大きいか等しい場合、目標ビデオにおけるｔ－１番目のフレームの画像からｔ番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の目標ビデオにおけるｔ－１番目のフレームの画像、及び目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置とｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離に従って、目標ビデオにおけるｔ番目のフレームの画像に対して揺れ補正処理を実行することができる。

一特定の例において、目標ビデオにおけるｔ番目のフレームの画像に対して揺れ補正処理を実行するプロセスは、式（５）で説明することができる。

（５）

ここで、

は、目標ビデオの揺れ補正処理が実行されてないｔ番目のフレームの画像を表し、

は、揺れ補正処理後の目標ビデオにおけるｔ番目のフレームの画像を表し、

は、揺れ補正処理後の目標ビデオにおけるｔ－１番目のフレームの画像を表し、

はフーリエ変換を表し、ｆは目標ビデオのビデオフレームレートを表し、

は、目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置とｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離を表し、

は、目標ビデオにおけるｔ－１番目のフレームの画像からｔ番目のフレームの画像までのオプティカルフローを

に適用することによって取得された画像を表す。

本願実施例に係るビデオ生成方法は、複数のシナリオに適用されることができ、一例示的な適用シナリオでは、カスタマーサービススタッフの顔画像を含むビデオ情報を端末に表示する必要があり、入力情報又は特定のサービスの要求を受信するたびに、カスタマーサービススタッフのプレゼンテーションビデオを再生する。この場合、本願実施例に係るビデオ生成方法により、事前に取得された複数のフレームの顔画像及び各フレームの顔画像に対応する音声セグメントを処理して、各フレームの顔画像の顔キーポイント情報を取得し、その後、各フレームの顔画像の顔キーポイント情報に従って、各フレームのカスタマーサービススタッフの顔画像に対して補完処理を実行して、各フレームの生成画像を取得することにより、バックグラウンドでカスタマーサービススタッフが話すプレゼンテーションビデオを合成することができる。

上記は、本願実施例に係る適用シナリオの単なる例に過ぎず、本願実施例に係る適用シナリオはこれらに限定されたいことに留意されたい。

図５は、本願実施例に係る第１ニューラルネットワークのトレーニング方法のフローチャートであり、図５に示されたように、当該プロセスは、次のステップを含み得る。

ステップＡ１において、複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得する。

実際の応用では、サンプルビデオデータから複数のフレームの顔サンプル画像及び音声を含む音声サンプルデータを分離し、各フレームの顔サンプル画像に対応する音声サンプルセグメントを決定することができ、前記各フレームの顔サンプル画像に対応する音声サンプルセグメントは、前記音声サンプルデータの一部であり、
ここで、サンプルビデオデータの各フレームの画像は顔サンプル画像を含み、サンプルビデオデータの音声データは話者の音声を含み、本願実施例では、サンプルビデオデータのソース及びフォーマットを限定しない。

本願実施例では、サンプルビデオデータから複数のフレームの顔サンプル画像及び音声を含む音声サンプルデータを分離する実施形態は、事前に取得されたソースビデオデータから複数のフレームの顔画像及び音声を含む音声データを分離する実施形態と類似し、ここでは繰り返して説明しない。

ステップＡ２において、各フレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第１ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得する。

本願実施例では、このステップの実施形態についてはステップ１０２で既に説明されており、ここでは繰り返して説明しない。

Ａ３において、第１ニューラルネットワークの損失に従って、第１ニューラルネットワークのネットワークパラメータを調整する。

ここで、第１ニューラルネットワークの損失は、表情損失及び／又は顔キーポイント損失を含み得、表情損失は、予測顔表情情報と顔表情表記結果との間の差を表すために使用され、顔キーポイント損失は、予測顔キーポイント情報と顔キーポイント表記結果との間の差を示すために使用される。

実際の実施では、各フレームの顔サンプル画像から顔キーポイント表記結果を抽出してもよく、各フレームの顔画像を３ＤＭＭに入力し、３ＤＭＭを用いて抽出した顔表情情報を顔表情表記結果として使用してもよい。

ここで、表情損失及び顔キーポイント損失は、式（６）に従って計算できる。

（６）

ここで、ｅは、顔表情表記結果を表し、

は、第１ニューラルネットワークに基づいて取得された予測顔表情情報を表し、

は表情損失を表し、

は顔キーポイント表記結果を表し、

は、第１ニューラルネットワークに基づいて取得された予測顔キーポイント情報を表し、

は顔キーポイント損失を表し、

は１ノルムを取ることを表す。

図２を参照すると、顔キーポイント情報２は顔キーポイント表記結果を表し、顔表情情報２は顔表情表記結果を表し、このようにして、顔キーポイント情報１及び顔キーポイント情報２に従って顔キーポイント損失を取得することができ、顔表情情報１及び顔表情情報２に従って表情損失を取得することができる。

ステップＡ４において、ネットワークパラメータ調整後の第１ニューラルネットワークの損失が第１所定条件を満たすかどうかを判断し、条件を満たさない場合、ステップＡ１～ステップＡ４を繰り返し実行し、条件を満たす場合、ステップＡ５を実行する。

本願のいくつかの実施例において、第１所定条件は、表情損失が第１の設定された損失値より小さく、顔キーポイント損失が第２の設定された損失値より小さいこと、又は表情損失及び顔キーポイント損失の加重和が第の３設定された損失値より小さいことであり得る。本願実施例では、第１の設定された損失値、第２の設定された損失値及び第３の設定された損失値のいずれも、実際の必要に応じて事前に設定できる。

ここで、表情損失と顔キーポイント損失の加重和

は、式（７）で表すことができる。

（７）

ここで、

は、表情損失の重み係数を表し、

は、顔キーポイント損失の重み係数を表し、

及び

のいずれも、実際の必要に応じて経験的に設定できる。

ステップＡ５において、ネットワークパラメータ調整後の第１ニューラルネットワークを、トレーニング済みの第１ニューラルネットワークとして使用する。

実際の応用では、ステップＡ１～ステップＡ５は、電子機器のプロセッサで実現でき、上記のプロセッサは、ＡＳＩＣ、ＤＳＰ、ＤＳＰＤ、ＰＬＤ、ＦＰＧＡ、ＣＰＵ、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであってもよい。

ここから分かるように、第１ニューラルネットワークのトレーニングプロセスにおいて、予測顔キーポイント情報は頭部姿勢情報を考慮することによって取得されたものであり、頭部姿勢情報はソースビデオデータの顔画像に従って取得されたものであり、ソースビデオデータは、頭の姿勢に関連する実際のニーズに従って取得したものであり得るため、トレーニング済みの第１ニューラルネットワークは、頭の姿勢に関連する実際のニーズを満たすソースビデオデータに従って、対応する顔キーポイント情報をより適切に生成することができる。

図６は、本願実施例に係る第２ニューラルネットワークのトレーニング方法のフローチャートであり、図６に示されたように、当該プロセスは、次のステップを含み得る。

ステップＢ１において、事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第２ニューラルネットワークに入力し、前記第２ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得し、
このステップの実施形態についてはステップ１０２で既に説明されており、ここでは繰り返して説明しない。

ステップＢ２において、サンプル顔画像を鑑別して、第１鑑別結果を取得し、生成画像を鑑別して、第２鑑別結果を取得する。

ステップＢ３において、第２ニューラルネットワークの損失に従って、第２ニューラルネットワークのネットワークパラメータを調整する。

ここで、第２ニューラルネットワークの損失は敵対的損失を含み、敵対的損失は、前記第１鑑別結果及び前記第２鑑別結果に従って取得されたものである。

ここで、敵対的損失は、式（８）に従って計算できる。

（８）

ここで、

は敵対的損失を表し、

は第２鑑別結果を表し、Ｆはサンプル顔画像を表し、

は第１鑑別結果を表す。

本願のいくつかの実施例において、第２ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失を更に含み、ここで、画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、アーティファクト損失は、生成画像のスパイクアーティファクトを表し、勾配ペナルティ損失は、第２ニューラルネットワークの更新勾配を制限するために使用される。

本願実施例では、画素再構築損失は、式（９）に従って計算できる。

（９）

ここで、

は画素再構築損失を表し、

は、１ノルムを取ることを表す。

実際の応用では、異なるスケールでの画像特徴を抽出するためのニューラルネットワークにサンプル顔画像を入力して、異なるスケールでのサンプル顔画像の特徴を抽出し、異なるスケールでの画像特徴を抽出するためのニューラルネットワークに生成画像を入力して、異なるスケールでの生成画像の特徴を抽出することができ、ここで、

はｉ番目のスケールの生成画像の特徴を表し、

はｉ番目のスケールのサンプル顔画像の特徴を表し、感知損失は

として表すことができる。

一例において、異なるスケールでの画像特徴を抽出するためのニューラルネットワークはＶＧＧ１６ネットワークであり、サンプル顔画像又は生成画像をＶＧＧ１６ネットワークに入力して、第１のスケールから第４のスケールでのサンプル顔画像又は生成画像の特徴を抽出することができ、ここで、ｒｅｌｕ１＿２層、ｒｅｌｕ２＿２層、ｒｅｌｕ３＿３層及びｒｅｌｕ３＿４層を用いて取得された特徴は、それぞれ、第１のスケールから第４のスケールでのサンプル顔画像又は生成画像の特徴として使用することができる。この場合、感知損失は、式（１０）に従って計算できる。

（１０）

ステップＢ４において、ネットワークパラメータ調整後の第２ニューラルネットワークの損失が第２所定条件を満たすかどうかを判断し、条件を満たさない場合、ステップＢ１～ステップＢ４を繰り返し実行し、条件を満たす場合、ステップＢ５を実行する。

本願のいくつかの実施例において、第２所定条件は、敵対的損失が第４設定された損失値より小さいことであってもよい。本願実施例では、第４の設定された損失値は、実際の必要に応じて事前に設定できる。

本願のいくつかの実施例において、第２所定条件はまた、敵対的損失と、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失のうちの少なくとも１つの損失の加重和が第５設定された損失値より小さいことであってもよく、本願実施例では、第５設定された損失値は、実際の必要に応じて事前に設定できる。

一特定の例において、敵対的損失、画素再構築損失、感知損失、アーティファクト損失及び勾配ペナルティ損失の加重和Ｌ２は、式（１１）で説明できる。

（１１）

ここで、

はアーティファクト損失を表し、

は勾配ペナルティ損失を表し、

は画素再構築損失の重み係数を表し、

は敵対的損失の重み係数を表し、

は感知損失の重み係数を表し、

はアーティファクト損失の重み係数を表し、

は勾配ペナルティ損失の重み係数を表し、

、

及び

のいずれも、実際の必要に応じて経験的に設定できる。

ステップＢ５において、ネットワークパラメータ調整後の第２ニューラルネットワークを、トレーニング済みの第２ニューラルネットワークとして使用する。

実際の応用では、ステップＢ１～ステップＢ５は、電子機器のプロセッサで実現でき、上記のプロセッサは、ＡＳＩＣ、ＤＳＰ、ＤＳＰＤ、ＰＬＤ、ＦＰＧＡ、ＣＰＵ、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであってもよい。

ここから分かるように、第２ニューラルネットワークのトレーニングプロセスでは、鑑別器の鑑別結果に従ってニューラルネットワークのパラメータを調整することができ、リアルな生成画像を取得するのに有益であり、即ち、トレーニング済みの第２ニューラルネットワークがよりリアルな生成画像を取得することができるようにする。

当業者なら自明であるが、上記の具体的な実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定する厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定する必要がある。

上記の実施例に係るビデオ生成方法に基づき、本願実施例は、ビデオ生成装置を提案する。

図７は、本願実施例に係るビデオ生成装置の構成の概略構造図であり、図７に示されたように、前記装置は、第１処理モジュール７０１、第２処理モジュール７０２及び生成モジュール７０３を備え、ここで、
第１処理モジュール７０１は、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得するように構成され、
第２処理モジュール７０２は、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補充処理を実行して、各フレームの生成画像を取得するように構成され、
生成モジュールは７０３は、各フレームの生成画像に従って、目標ビデオを生成するように構成される。

本願のいくつかの実施例において、前記第２処理モジュール７０２は、前記顔表情情報及び前記顔形状情報に従って、顔ポイントクラウドデータを取得し、前記頭部姿勢情報に従って、前記顔ポイントクラウドデータを２次元画像に投影して、前記各フレームの顔画像の顔キーポイント情報を取得するように構成される。

本願のいくつかの実施例において、前記第２処理モジュール７０２は、前記音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、前記音色情報を消去した後の音声特徴に従って、前記顔表情情報を取得するように構成される。

本願のいくつかの実施例において、前記第２処理モジュール７０２は、前記音声特徴に対して正規化処理を実行することにより、音声特徴の音色情報を消去するように構成される。

本願のいくつかの実施例において、前記生成モジュール７０３は、各フレームの生成画像に対して、前記事前に取得された対応する１つのフレームの顔画像に従って、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成するように構成される。

本願のいくつかの実施例において、図７を参照すると、前記装置は、揺れ補正モジュール７０４を更に備え、ここで、揺れ補正モジュール７０４は、前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行し、及び／又は、前記目標ビデオにおける画像に対して揺れ補正処理を実行するように構成され、ここで、前記発話関連部位は、少なくとも口及び顎を含む。

本願のいくつかの実施例において、前記揺れ補正モジュール７０４は、ｔが２より大きいか等しく、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得するように構成される。

本願のいくつかの実施例において、前記揺れ補正モジュール７０４は、ｔが２より大きいか等しい場合、前記目標ビデオにおけるｔ－１番目のフレームの画像からｔ番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の前記目標ビデオにおけるｔ－１番目のフレームの画像、及び前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置とｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離に従って、前記目標ビデオにおけるｔ番目のフレームの画像に対して揺れ補正処理を実行するように構成される。

本願のいくつかの実施例において、前記第１処理モジュール７０１は、ソースビデオデータを取得し、ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離し、各フレームの顔画像に対応する音声セグメントを決定するように構成され、前記各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である。

本願のいくつかの実施例において、前記第２処理モジュール７０２は、前記複数のフレームの顔画像及び前記各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第１ニューラルネットワークに入力し、前記第１ニューラルネットワークを介して、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得するように構成される。

本願のいくつかの実施例において、前記第１ニューラルネットワークをトレーニングすることは。

複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得することと、
前記各フレームの顔サンプル画像及び前記各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第１ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得することと、
前記第１ニューラルネットワークの損失に従って、前記第１ニューラルネットワークのネットワークパラメータを調整することであって、前記第１ニューラルネットワークの損失は、表情損失及び／又は顔キーポイント損失を含み、前記表情損失は、前記予測顔表情情報と顔表情表記結果との間の差を示すために使用され、前記顔キーポイント損失は、前記予測顔キーポイント情報と顔キーポイント表記結果との間の差を示すために使用される、ことと、
第１ニューラルネットワークの損失が第１所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第１ニューラルネットワークを取得することとを含む。

本願のいくつかの実施例において、前記第２処理モジュール７０２は、前記各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を、事前にトレーニングされた第２ニューラルネットワークに入力し、前記第２ニューラルネットワークを介して、前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成される。

本願のいくつかの実施例において、前記第２ニューラルネットワークをトレーニングすることは、
事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第２ニューラルネットワークに入力し、前記第２ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得することと、
前記サンプル顔画像を鑑別して、第１鑑別結果を取得し、前記生成画像を鑑別して、第２鑑別結果を取得することと、
前記第２ニューラルネットワークの損失に従って、前記第２ニューラルネットワークのネットワークパラメータを調整することであって、ニューラルネットワークの損失は敵対的損失を含み、前記敵対的損失は、前記第１鑑別結果及び前記第２鑑別結果に従って取得されたものである、ことと、
第２ニューラルネットワークの損失が第２所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第２ニューラルネットワークを取得することとを含む。

本願のいくつかの実施例において、前記第２ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失を更に含み、前記画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、前記感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、前記アーティファクト損失は、生成画像のスパイクアーティファクトを表し、前記勾配ペナルティ損失は、第２ニューラルネットワークの更新勾配を制限するために使用される。

実際の応用では、第１処理モジュール７０１、第２処理モジュール７０２、生成モジュール７０３及び揺れ補正モジュール７０４のいずれも、電子機器のプロセッサで実現でき、上記のプロセッサは、ＡＳＩＣ、ＤＳＰ、ＤＳＰＤ、ＰＬＤ、ＦＰＧＡ、ＣＰＵ、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであってもよい。

さらに、本実施例の各機能モジュールを１つの処理ユニットに統合してもよいし、各ユニットを別々に１つのユニットとして使用してもよく、あるいは、２つ以上のユニットを１つのユニットに統合してもよい。前記統合されたユニットは、ハードウェアの形で実装されてもよく、ソフトウェア機能モジュールの形で実装されてもよい。

前記統合されたユニットが、ソフトウェア機能ユニットの形で実現され、独立した製品として販売又は使用されない場合、１つのコンピュータ可読記憶媒体に記憶され、このような理解に基づいて、本実施例の技術的解決策の本質的なすべて又は一部、すなわち、先行技術に貢献のある部分、又は前記技術的解決策の一部は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る）又はｐｒｏｃｅｓｓｏｒ（プロセッサ）に、本実施例に記載の方法のステップの全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスク等のプログラムコードを記憶することができる様々な媒体を含む。

具体的には、本願実施例におけるビデオ生成方法に対応するコンピュータプログラム命令は、光ディスク、ハードディスク、Ｕディスクなどの記憶媒体に記憶されることができ、記憶媒体に記憶されたビデオ生成方法に対応するコンピュータプログラム命令が電子機器によって読み取られて実行されるときに、上記の実施例におけるビデオ生成方法のいずれか１つを実現する。

これに対応して、本願実施例は、コンピュータ可読コードを含むコンピュータプログラムをさらに提案し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の任意のビデオ生成方法を実行させる。

上記の実施例と同じ技術構想に基き、図８を参照すると、本願実施例に係る電子機器８０を示し、前記電子機器８０は、メモリ８１及びプロセッサ８２を備えることができる。

前記メモリ８１は、コンピュータプログラム及びデータを記憶するように構成され、
前記プロセッサ８２は、前記メモリに記憶されているコンピュータプログラムを実行することにより、上記の実施例におけるビデオ生成方法のいずれか１つを実現するように構成される。

実際の適用では、上記のメモリ８１は、ＲＡＭなどの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であり得、又はＲＯＭ、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはソリッドステートハードディスク（ＳＳＤ：Ｓｏｌｉｄ－ＳｔａｔｅＤｒｉｖｅ）などの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であり得、または上記のメモリの組み合わせであり得、プロセッサ８２に命令やデータを提供する。

上記のプロセッサ８２は、ＡＳＩＣ、ＤＳＰ、ＤＳＰＤ、ＰＬＤ、ＦＰＧＡ、ＣＰＵ、コントローラ、マイクロコントローラ、マイクロプロセッサのうちの少なくとも１つであり得る。異なる機器について、上記のプロセッサ機能を実装するために使用される電子デバイスはまた、他のものであり得ることが理解できるが、本願実施例はこれらに対して特に限定しない。

いくつかの実施例において、本願実施例で提供される装置の機能又は当該装置に含まれるモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実装については、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。

各実施例の上記の説明は、各実施例間の違いを強調する傾向があり、それらの同じまたは類似なところについては互いに参照することができ、簡潔にするために、ここでは繰り返して説明しない。

本願で提供される方法の実施例に開示された方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。

本願で提供される製品の実施例に開示された技術的特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。

本願で提供される方法又は機器の実施例に開示された特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。

以上の実施形態の説明を通じて、当業者は、上記の実施例に係る方法が、ソフトウェアと必要な汎用ハードウェアプラットフォームの組み合わせで実現でき、もちろん、ハードウェアによっても実現できることを明確に理解できるが、多くの場合、前者の方がより好ましい実施形態である。このような理解に基づいて、本発明の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスクなど）に記憶され、端末（携帯電話、コンピュータ、サーバ、コントローラ又はネットワーク機器等であり得る）に本発明の各実施例に記載の方法を実行させるためのいくつかの命令を含む。

以上では、図面を参照して本発明の実施例を説明したが、本発明は、上記の特定の実施形態に限定されず、上記の特定の実施形態は、単なる例示に過ぎず、本願を限定するものではない。当業者は、本発明の示唆下で、本開示の目的および請求項の保護範囲から逸脱することなく、多くの形態をさらに実施することもでき、これらの形態はすべて、本発明の保護範囲に含まれるべきである。

本願実施例は、ビデオ生成方法、装置、電子機器、コンピュータ記憶媒体及びコンピュータプログラムを提供し、当該方法は、各フレームの顔画像から顔画像から顔形状情報及び頭部姿勢情報を抽出し、各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、顔表情情報、顔形状情報及び頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、各フレームの生成画像に従って、目標ビデオを生成することと、を含む。本願実施例において、顔キーポイント情報は、頭部姿勢情報を考慮することによって取得されたものであるため、目標ビデオは頭部姿勢情報を反映することができる。頭部姿勢情報は、各フレームの顔画像に従って取得されたものであるため、本願実施例では、生成された目標ビデオが、頭の姿勢に関連する実際のニーズを満たすようにすることができる。

Claims

ビデオ生成方法であって、
複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得することと、
前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することと、
前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することと、
各フレームの生成画像に従って、目標ビデオを生成することと、を含む、前記ビデオ生成方法。
前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することは、
前記顔表情情報及び前記顔形状情報に従って、顔ポイントクラウドデータを取得し、前記頭部姿勢情報に従って、前記顔ポイントクラウドデータを２次元画像に投影して、前記各フレームの顔画像の顔キーポイント情報を取得することを含む、
請求項１に記載のビデオ生成方法。
前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得することは、
前記音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、前記音色情報を消去した後の音声特徴に従って、前記顔表情情報を取得することを含む、
請求項１又は２に記載のビデオ生成方法。
前記音声特徴の音色情報を消去することは、
前記音声特徴に対して正規化処理を実行することにより、音声特徴の音色情報を消去することを含む、
請求項３に記載のビデオ生成方法。
前記各フレームの生成画像に従って、目標ビデオを生成することは、
各フレームの生成画像に対して、前記事前に取得された顔画像に基づき、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成することを含む、
請求項１又は２に記載のビデオ生成方法。
前記ビデオ生成方法は、
前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行すること、及び／又は、前記目標ビデオにおける画像に対して揺れ補正処理を実行することを更に含み、前記発話関連部位は、少なくとも口及び顎を含む、
請求項１又は２に記載のビデオ生成方法。
前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行することは、
ｔが２より大きいか等しく、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得することを含む、
請求項６に記載のビデオ生成方法。
前記目標ビデオにおける画像に対して揺れ補正処理を実行することは、
ｔが２より大きいか等しい場合、前記目標ビデオにおけるｔ－１番目のフレームの画像からｔ番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の前記目標ビデオにおけるｔ－１番目のフレームの画像、及び前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置とｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離に従って、前記目標ビデオにおけるｔ番目のフレームの画像に対して揺れ補正処理を実行することを含む、
請求項６に記載のビデオ生成方法。
前記複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得することは、
ソースビデオデータを取得し、前記ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離し、各フレームの顔画像に対応する音声セグメントを決定することを含み、前記各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である、
請求項１又は２に記載のビデオ生成方法。
前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することは、
前記複数のフレームの顔画像及び前記各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第１ニューラルネットワークに入力し、前記第１ニューラルネットワークにより、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得することを含む、
請求項１又は２に記載のビデオ生成方法。
前記第１ニューラルネットワークをトレーニングすることは、
複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得することと、
前記各フレームの顔サンプル画像及び前記各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第１ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得することと、
前記第１ニューラルネットワークの損失に従って、前記第１ニューラルネットワークのネットワークパラメータを調整することであって、前記第１ニューラルネットワークの損失は、表情損失及び／又は顔キーポイント損失を含み、前記表情損失は、前記予測顔表情情報と顔表情表記結果との間の差を表すために使用され、前記顔キーポイント損失は、前記予測顔キーポイント情報と顔キーポイント表記結果との間の差を表すために使用される、ことと、
第１ニューラルネットワークの損失が第１所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第１ニューラルネットワークを取得することと、含む、
請求項１０に記載のビデオ生成方法。
前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することは、
前記各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を、事前にトレーニングされた第２ニューラルネットワークに入力し、前記第２ニューラルネットワークにより、前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得することを含む、
請求項１又は２に記載のビデオ生成方法。
前記第２ニューラルネットワークをトレーニングすることは、
事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第２ニューラルネットワークに入力し、前記第２ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得することと、
前記サンプル顔画像を鑑別して、第１鑑別結果を取得し、前記生成画像を鑑別して、第２鑑別結果を取得することと、
前記第２ニューラルネットワークの損失に従って、前記第２ニューラルネットワークのネットワークパラメータを調整することであって、前記第２ニューラルネットワークの損失は敵対的損失を含み、前記敵対的損失は、前記第１鑑別結果及び前記第２鑑別結果に従って取得されたものである、ことと、
第２ニューラルネットワークの損失が第２所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第２ニューラルネットワークを取得することと、を含む、
請求項１２に記載のビデオ生成方法。
前記第２ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失を更に含み、前記画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、前記感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、前記アーティファクト損失は、生成画像のスパイクアーティファクトを表し、前記勾配ペナルティ損失は、第２ニューラルネットワークの更新勾配を制限するために使用される、
請求項１３に記載のビデオ生成方法。
ビデオ生成装置であって、
第１処理モジュール、第２処理モジュール、第３処理モジュール及び生成モジュールを備え、
前記第１処理モジュールは、複数のフレームの顔画像及び前記複数のフレームの顔画像の各フレームの顔画像に対応する音声セグメントを取得するように構成され、
前記第２処理モジュールは、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得し、前記各フレームの顔画像の顔キーポイント情報に従って、事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成され、
前記生成モジュールは、各フレームの生成画像に従って、目標ビデオを生成するように構成される、前記ビデオ生成装置。
前記第２処理モジュールは、前記顔表情情報及び前記顔形状情報に従って、顔ポイントクラウドデータを取得し、前記頭部姿勢情報に従って、前記顔ポイントクラウドデータを２次元画像に投影して、前記各フレームの顔画像の顔キーポイント情報を取得するように構成される、
請求項１５に記載のビデオ生成装置。
前記第２処理モジュールは、前記音声セグメントの音声特徴を抽出し、音声特徴の音色情報を消去し、前記音色情報を消去した後の音声特徴に従って、前記顔表情情報を取得するように構成される、
請求項１５又は１６に記載のビデオ生成装置。
前記第２処理モジュールは、前記音声特徴に対して正規化処理を実行することにより、音声特徴の音色情報を消去するように構成される、
請求項１７に記載のビデオ生成装置。
前記生成モジュールは、各フレームの生成画像に対して、前記事前に取得された顔画像に基づき、顔キーポイント以外の他の領域の画像を調整し、調整後の各フレームの生成画像を取得し、調整後の各フレームの生成画像を用いて目標ビデオを構成するように構成される、
請求項１５又は１６に記載のビデオ生成装置。
前記ビデオ生成装置は、揺れ補正モジュールを更に備え、
揺れ補正モジュールは、前記目標ビデオにおける画像の発話関連部位の顔キーポイントに対して動き平滑化処理を実行し、及び／又は、前記目標ビデオにおける画像に対して揺れ補正処理を実行するように構成され、前記発話関連部位は、少なくとも口及び顎を含む、
請求項１５又は１６に記載のビデオ生成装置。
前記揺れ補正モジュールは、ｔが２より大きいか等しく、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置と前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離が設定された距離閾値より小さいか等しい場合、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の顔キーポイント情報及び前記目標ビデオにおけるｔ－１番目のフレームの画像の発話関連部位の顔キーポイント情報に従って、前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位の、動き平滑化処理された後の顔キーポイント情報を取得するように構成される、
請求項２０に記載のビデオ生成装置。
前記揺れ補正モジュールは、ｔが２より大きいか等しい場合、前記目標ビデオにおけるｔ－１番目のフレームの画像からｔ番目のフレームの画像までのオプティカルフロー、揺れ補正処理後の前記目標ビデオにおけるｔ－１番目のフレームの画像、及び前記目標ビデオにおけるｔ番目のフレームの画像の発話関連部位中心位置とｔ－１番目のフレームの画像の発話関連部位中心位置との間の距離に従って、前記目標ビデオにおけるｔ番目のフレームの画像に対して揺れ補正処理を実行するように構成される、
請求項２０に記載のビデオ生成装置。
前記第１処理モジュールは、ソースビデオデータを取得し、ソースビデオデータから、前記複数のフレームの顔画像及び音声を含む音声データを分離し、各フレームの顔画像に対応する音声セグメントを決定するように構成され、前記各フレームの顔画像に対応する音声セグメントは、前記音声データの一部である、
請求項１５又は１６に記載のビデオ生成装置。
前記第２処理モジュールは、前記複数のフレームの顔画像及び前記各フレームの顔画像に対応する音声セグメントを、事前にトレーニングされた第１ニューラルネットワークに入力し、前記第１ニューラルネットワークを介して、前記各フレームの顔画像から顔形状情報及び頭部姿勢情報を抽出し、前記各フレームの顔画像に対応する音声セグメントに従って、顔表情情報を取得し、前記顔表情情報、前記顔形状情報及び前記頭部姿勢情報に従って、各フレームの顔画像の顔キーポイント情報を取得するように構成される、
請求項１５又は１６に記載のビデオ生成装置。
前記第１ニューラルネットワークをトレーニングすることは、
複数のフレームの顔サンプル画像及び各フレームの顔サンプル画像に対応する音声サンプルセグメントを取得することと、
前記各フレームの顔サンプル画像及び前記各フレームの顔サンプル画像に対応する音声サンプルセグメントを、トレーニングされていない第１ニューラルネットワークに入力して、各フレームの顔サンプル画像の予測顔表情情報及び予測顔キーポイント情報を取得することと、
前記第１ニューラルネットワークの損失に従って、前記第１ニューラルネットワークのネットワークパラメータを調整することであって、前記第１ニューラルネットワークの損失は、表情損失及び／又は顔キーポイント損失を含み、前記表情損失は、前記予測顔表情情報と顔表情表記結果との間の差を表すために使用され、前記顔キーポイント損失は、前記予測顔キーポイント情報と顔キーポイント表記結果との間の差を表示すために使用される、ことと、
第１ニューラルネットワークの損失が第１所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第１ニューラルネットワークを取得することと、を含む、
請求項２４に記載のビデオ生成装置。
前記第２処理モジュールは、前記各フレームの顔画像の顔キーポイント情報及び事前に取得された顔画像を、事前にトレーニングされた第２ニューラルネットワークに入力し、前記第２ニューラルネットワークを介して、前記各フレームの顔画像の顔キーポイント情報に従って、前記事前に取得された顔画像に対して補完処理を実行して、各フレームの生成画像を取得するように構成される、
請求項１５又は１６に記載のビデオ生成装置。
前記第２ニューラルネットワークをトレーニングすることは、
事前に取得されたマスク部分のないサンプル顔画像にマスクを追加して、マスク部分のある顔画像を取得し、事前に取得されたサンプル顔キーポイント情報及び前記マスク部分のある顔画像をトレーニングされていない第２ニューラルネットワークに入力し、前記第２ニューラルネットワークにより、前記サンプル顔キーポイント情報に従って、前記事前に取得されたマスク部分のある顔画像に対してマスク部分の補完処理を実行して、生成画像を取得することと、
前記サンプル顔画像を鑑別して、第１鑑別結果を取得し、前記生成画像を鑑別して、第２鑑別結果を取得することと、
前記第２ニューラルネットワークの損失に従って、前記第２ニューラルネットワークのネットワークパラメータを調整することであって、前記第２ニューラルネットワークの損失は敵対的損失を含み、前記敵対的損失は、前記第１鑑別結果及び前記第２鑑別結果に従って取得されたものである、ことと、、
第２ニューラルネットワークの損失が第２所定条件を満たすまで、上記のステップを繰り返し実行して、トレーニング済みの第２ニューラルネットワークを取得することと、を含む、
請求項２６に記載のビデオ生成装置。
前記第２ニューラルネットワークの損失は、画素再構築損失、感知損失、アーティファクト損失、勾配ペナルティ損失のうちの少なくとも１つを更に含み、前記画素再構築損失は、サンプル顔画像と生成画像との間の差を表し、前記感知損失は、異なるスケールでのサンプル顔画像と生成画像との間の差の合計を表し、前記アーティファクト損失は、生成画像のスパイクアーティファクトを表し、前記勾配ペナルティ損失は、第２ニューラルネットワークの更新勾配を制限するために使用される、
請求項２７に記載のビデオ生成装置。
電子機器であって、
プロセッサと、プロセッサで実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムを実行するときに、請求項１ないし１４のいずれか一項に記載のビデオ生成方法を実行するように構成される、前記電子機器。
コンピュータプログラムが記憶されているコンピュータ記憶媒体であって、
当該コンピュータプログラムがプロセッサによって実行されるときに、請求項１ないし１４のいずれか一項に記載のビデオ生成方法を実現する、前記コンピュータ記憶媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項１ないし１４のいずれか一項に記載のビデオ生成方法を実行させる、前記コンピュータプログラム。