JP7106687B2

JP7106687B2 - 画像生成方法および装置、電子機器、並びに記憶媒体

Info

Publication number: JP7106687B2
Application number: JP2020569988A
Authority: JP
Inventors: イーニンリー; チェンホアン; チェンチャンロイ
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2019-03-22
Filing date: 2020-01-14
Publication date: 2022-07-26
Anticipated expiration: 2040-01-14
Also published as: WO2020192252A1; US20210097715A1; CN109977847B; SG11202012469TA; CN109977847A; JP2021526698A

Description

本願は、２０１９年０３月２２日に中国特許局に提出された、出願番号が２０１９１０２２２０５４．５であり、発明の名称が「画像生成方法および装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に組み込まれている。

本開示は、コンピュータ技術分野に関し、特に、画像生成方法および装置、電子機器、並びに記憶媒体に関する。

関連技術では、通常、オプティカルフローなどの方法で、画像内のオブジェクトの姿勢を変化させ、姿勢変化後のオブジェクトの画像を生成する。

本開示は、画像生成方法および装置、電子機器、並びに記憶媒体を提案する。

本開示の一態様によれば、画像生成方法を提供し、前記方法は、
処理される画像、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報、および生成される目標姿勢に対応する第２姿勢情報を取得することと、
前記第１姿勢情報および前記第２姿勢情報に従って、姿勢変換情報を取得することであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび／または前記目標姿勢の可視性マップを含むことと、
前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成することであって、前記第１画像内の第１オブジェクトの姿勢は、前記目標姿勢であることと、を含む。

本開示の実施例の画像生成方法によれば、第１姿勢情報および第２姿勢情報に従って可視性マップを取得でき、第１オブジェクトの各部分の可視性を取得でき、生成された第１画像に目標姿勢の第１オブジェクトの可視部分を表示でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。

一可能な実施形態において、前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成することは、
前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得することと、
前記外観特徴マップおよび前記第２姿勢情報に従って、前記第１画像を生成することと、を含む。

一可能な実施形態において、前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得することは、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第１特徴マップを取得することと、
前記姿勢変換情報に従って、前記第１特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することと、を含む。

このようにして、オプティカルフローマップに従って第１特徴マップに対して変位処理を実行し、可視性マップに従って可視部分および不可視部分を決定でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。

一可能な実施形態において、前記外観特徴マップおよび前記第２姿勢情報に従って、第１画像を生成することは、
前記第２姿勢情報に対して姿勢符号化処理を実行して、前記第１オブジェクトの姿勢特徴マップを取得することと、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第１画像を生成することと、を含む。

このようにして、第２姿勢情報の姿勢特徴符号化処理により取得された姿勢特徴マップ、および可視部分と不可視部分を区別した外観特徴マップを復号化して、第１画像を取得でき、これにより、第１画像内の第１オブジェクトの姿勢を目標姿勢に変更させ、画像の歪みを改善し、アーチファクトを低減することができる。

一可能な実施形態において、前記画像生成方法は、
前記姿勢変換情報および前記処理される画像に従って、前記第１画像に対して特徴強調処理を実行して、第２画像を取得することをさらに含む。

一可能な実施形態において、前記姿勢変換情報および前記処理される画像に従って、前記第１画像に対して特徴強調処理を実行して、第２画像を取得することは、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第３画像を取得することと、
前記第３画像、前記第１画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、
前記重み係数マップに従って、前記第３画像および前記第１画像に対して加重平均処理を実行して、前記第２画像を取得することと、を含む。

このようにして、加重平均の方式で、検出される画像内の高周波詳細を第１画像に追加して、第２画像を取得でき、生成された画像の品質を向上させることができる。

一可能な実施形態において、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得することは、
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得することを含む。

一可能な実施形態において、前記画像生成方法は、ニューラルネットワークによって実現され、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用される。

一可能な実施形態において、前記画像生成方法は、
プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることをさらに含み、前記第１トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることは、
前記第１トレーニングセット内の第１サンプル画像および第２サンプル画像に対して３次元モデリングを実行して、それぞれ第１の３次元モデルおよび第２の３次元モデルを取得することと、
前記第１の３次元モデルおよび前記第２の３次元モデルに従って、前記第１サンプル画像と前記第２サンプル画像との間の第１オプティカルフローマップおよび前記第２サンプル画像の第１可視性マップを取得することと、
前記第１サンプル画像および前記第２サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第１サンプル画像内のオブジェクトの第３姿勢情報および前記第２サンプル画像内のオブジェクトの第４姿勢情報を取得することと、
前記第３姿勢情報および前記第４姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、
前記第１オプティカルフローマップと予測されたオプティカルフローマップ、および第１可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定することと、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含む。

このようにして、任意の姿勢情報に従ってオプティカルフローマップおよび可視性マップを生成するようにオプティカルフローネットワークをトレーニングすることができ、任意の姿勢の第１オブジェクトの第１画像を生成するための基礎を提供でき、３次元モデルによってトレーニングされたオプティカルフローネットワークは、より高い精度を有し、トレーニングされたオプティカルフローネットワークを使用して可視性マップとオプティカルフローマップを生成することにより、処理リソースを節約できる。

一可能な実施形態において、前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用される。

一可能な実施形態において、前記画像生成方法は、
プリセットされた第２トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することをさらに含み、前記第２トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、プリセットされた第２トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することは、
前記第２トレーニングセット内の第３サンプル画像および第４サンプル画像に対して姿勢特徴抽出を実行して、前記第３サンプル画像内のオブジェクトの第５姿勢情報および前記第４サンプル画像内のオブジェクトの第６姿勢情報を取得することと、
前記第５姿勢情報および前記第６姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第２オプティカルフローマップおよび第２可視性マップを取得することと、
第３サンプル画像、前記第２オプティカルフローマップ、前記第２可視性マップ、および前記第６姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、
前記判別ネットワークによって前記サンプル生成画像または第４サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、
前記第４サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することと、を含む。

本開示の別の態様によれば、画像生成装置を提供し、前記装置は、
処理される画像、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報、および生成される目標姿勢に対応する第２姿勢情報を取得するように構成される情報取得モジュールと、
前記第１姿勢情報および前記第２姿勢情報に従って、姿勢変換情報を取得するように構成される第１取得モジュールであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび／または前記目標姿勢の可視性マップを含む第１取得モジュールと、
前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成するように構成される生成モジュールであって、前記第１画像内の第１オブジェクトの姿勢は、前記目標姿勢である生成モジュールと、を備える。

一可能な実施形態において、前記生成モジュールは、さらに、
前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得し、
前記外観特徴マップおよび前記第２姿勢情報に従って、前記第１画像を生成するように構成される。

一可能な実施形態において、前記生成モジュールは、さらに、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第１特徴マップを取得し、
前記姿勢変換情報に従って、前記第１特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得するように構成される。

一可能な実施形態において、前記生成モジュールは、さらに、
前記第２姿勢情報に対して姿勢符号化処理を実行して、前記第１オブジェクトの姿勢特徴マップを取得し、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第１画像を生成するように構成される。

一可能な実施形態において、前記画像生成装置は、
前記姿勢変換情報および前記処理される画像に従って、前記第１画像に対して特徴強調処理を実行して、第２画像を取得するように構成される第２取得モジュールをさらに備える。

一可能な実施形態において、前記第２取得モジュールは、さらに、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第３画像を取得し、
前記第３画像、前記第１画像、および前記姿勢変換情報に従って、重み係数マップを取得し、
前記重み係数マップに従って、前記第３画像および前記第１画像に対して加重平均処理を実行して、前記第２画像を取得するように構成される。

一可能な実施形態において、前記情報取得モジュールは、さらに、
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得するように構成される。

一可能な実施形態において、前記画像生成装置は、ニューラルネットワークを備え、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用される。

一可能な実施形態において、前記画像生成装置は、
プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第１トレーニングモジュールをさらに備え、前記第１トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、前記第１トレーニングモジュールは、さらに、
前記第１トレーニングセット内の第１サンプル画像および第２サンプル画像に対して３次元モデリングを実行して、それぞれ第１の３次元モデルおよび第２の３次元モデルを取得し、
前記第１の３次元モデルおよび前記第２の３次元モデルに従って、前記第１サンプル画像と前記第２サンプル画像との間の第１オプティカルフローマップおよび前記第２サンプル画像の第１可視性マップを取得し、
前記第１サンプル画像および前記第２サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第１サンプル画像内のオブジェクトの第３姿勢情報および前記第２サンプル画像内のオブジェクトの第４姿勢情報を取得し、
前記第３姿勢情報および前記第４姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第１オプティカルフローマップと予測されたオプティカルフローマップ、および第１可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成される。

一可能な実施形態において、前記画像生成装置は、
プリセットされた第２トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行するように構成される第２トレーニングモジュールをさらに備え、前記第２トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、前記第２トレーニングモジュールは、さらに、
前記第２トレーニングセット内の第３サンプル画像および第４サンプル画像に対して姿勢特徴抽出を実行して、前記第３サンプル画像内のオブジェクトの第５姿勢情報および前記第４サンプル画像内のオブジェクトの第６姿勢情報を取得し、
前記第５姿勢情報および前記第６姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第２オプティカルフローマップおよび第２可視性マップを取得し、
第３サンプル画像、前記第２オプティカルフローマップ、前記第２可視性マップ、および前記第６姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得し、
前記判別ネットワークによって前記サンプル生成画像または第４サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得し、
前記第４サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行するように構成される。

本開示の一態様によれば、電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記の画像生成方法を実行するように構成される。

本開示の一態様によれば、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、プロセッサによって実行されるときに、上記の画像生成方法を実現するように構成される。

本開示の一態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、当前記コンピュータ可読コードが、電子機器で実行されるときに、前記電子機器のプロセッサは、上記の画像生成方法を実行する。

上記の一般的な説明と以下の詳細な説明は、解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。

以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
本開示の実施例による画像生成方法のフローチャートである。本開示の実施例による第１姿勢情報の概略図である。本開示の実施例による画像生成方法のフローチャートである。本開示の実施例によるオプティカルフローネットワークトレーニングの概略図である。本開示の実施例による特徴変換サブネットワークの概略図である。本開示の実施例による画像生成方法のフローチャートである。本開示の実施例による画像生成方法のフローチャートである。本開示の実施例による画像生成ネットワークのトレーニングの概略図である。本開示の実施例による画像生成方法の応用の概略図である。本開示の実施例による画像生成装置のブロック図である。本開示の実施例による画像生成装置のブロック図である。本開示の実施例による画像生成装置のブロック図である。本開示の実施例による画像生成装置のブロック図である。本開示の実施例による電子装置のブロック図である。本開示の実施例による電子装置のブロック図である。

以下、図面を参照しながら本開示の様々な例示的な実施例、特徴、および態様を詳細に説明する。図面における同じ参照符号は、同じまたは類似の機能を有する要素を表す。実施例の様々な態様が図面に示されるが、特に明記しない限り、必ずしも縮尺通りに図面を作る必要はない。

本明細書で使用される「例示的」という用語は、「例、実施例として用いられることまたは説明的なもの」を意味する。本明細書で「例示的」として説明される任意の実施例は、他の実施例より優れるまたは良好なものと解釈すべきではない。

本明細書における「および／または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、３種類の関係が存在することができることを示し、例えば、Ａおよび／またはＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合の３つの場合を表す。また、本明細書における「少なくとも１つ」という用語は、複数のうちのいずれか１つまたは複数のうちの少なくとも２つの任意の組み合わせを意味し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、ＢおよびＣからなるセットから選択されるいずれか１つまたは複数の要素を含むことを意味することができる。

また、本開示をより効果的に説明するために、以下の特定の実施形態において、多くの特定の詳細が与えられる。当業者であれば、本開示は、いくつかの特定の詳細なしに実施することもできることを理解すべきである。いくつかの実施例において、本開示の要旨を強調するために、当業者に既知の方法、手段、要素、および回路に対する詳細な説明を省略する。

図１は、本開示の実施例による画像生成方法のフローチャートであり、図１に示されるように、前記画像生成方法は、以下のステップを含む。

ステップＳ１１において、処理される画像、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報、および生成される目標姿勢に対応する第２姿勢情報を取得する。

ステップＳ１２において、前記第１姿勢情報および前記第２姿勢情報に従って、姿勢変換情報を取得し、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび／または前記目標姿勢の可視性マップを含む。

ステップＳ１３において、前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成し、前記第１画像内の第１オブジェクトの姿勢は、前記目標姿勢である。

一可能な実施形態において、前記第１姿勢情報は、処理される画像内の第１オブジェクトの姿勢、すなわち、初期姿勢を表す。

一可能な実施形態において、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得することは、処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得することを含み得る。

一可能な実施形態において、畳み込みニューラルネットワークなどによって、処理される画像に対して姿勢特徴抽出を実行でき、例えば、前記第１オブジェクトが人物の場合、処理される画像内の第１オブジェクトの人体キーポイントを抽出でき、前記人体キーポイントで第１オブジェクトの初期姿勢を表すことができ、前記人体キーポイントの位置情報を前記第１姿勢情報として決定することができる。本開示は、第１姿勢情報の抽出方法を限定しない。

一例では、畳み込みニューラルネットワークによって、処理される画像内の第１オブジェクトの複数のキーポイントを抽出でき、例えば、１８個のキーポイントを抽出でき、前記１８個のキーポイントの位置を第１姿勢情報として決定でき、前記第１姿勢情報は、キーポイントを含む特徴マップとして表すことができる。

図２は、本開示の実施例による第１姿勢情報の概略図であり、図２に示されるように、特徴マップ（即ち、第１姿勢情報）内の前記キーポイントの位置座標は、処理される画像内の位置座標と一致することができる。

一可能な実施形態において、第２姿勢情報は、生成される目標姿勢を表し、キーポイントで構成される特徴マップとして表すことができ、前記第２姿勢情報は、任意の姿勢を表すことができる。例えば、第１姿勢情報の特徴マップ内のキーポイントの位置を調整して、第２姿勢情報を取得してもよく、任意のオブジェクトの任意の姿勢の画像に対してキーポイント抽出を実行して、第２姿勢情報取得してもよい。第２姿勢情報は、キーポイントを含む特徴マップとして表すこともできる。

一可能な実施形態において、ステップＳ１２では、第１オブジェクトの第１姿勢情報および第２姿勢情報に従って姿勢変換情報を取得することができ、前記姿勢変換情報は、初期姿勢と目標姿勢との間のオプティカルフローマップおよび／または目標姿勢の可視性マップを含む。ここで、前記オプティカルフローマップは、初期姿勢から目標姿勢に調整された第１オブジェクトの各画素の変位ベクトルで構成される画像であり、前記可視性マップは、画像で表示できる目標姿勢の第１オブジェクトの画像点を表し、例えば、初期姿勢が正面に向かって立っており、目標姿勢が横に向かって立っている場合、目標姿勢の第１オブジェクトの一部が画像に表示できず（例えば、オクルードされる）、つまり、一部の画素点は不可視であり、画像に表示できない。

一可能な実施形態において、前記第２姿勢情報が、任意のオブジェクトの任意の姿勢の画像から抽出されたものである場合、処理される画像および前記任意のオブジェクトの任意姿勢の画像に対してそれぞれ３次元モデリングを実行して、それぞれ２つの３次元モデルを取得でき、前記３次元モデルの表面は、複数の頂点で構成され、例えば、６８９０個の頂点で構成される。対応する３次元モデルにおける処理される画像の特定の画素点の頂点を決定でき、前記任意のオブジェクトの任意の姿勢の画像に対応する３次元モデルにおける前記頂点の位置を決定でき、前記位置に従って、前記任意のオブジェクトの任意の姿勢の画像内の前記頂点に対応する画素点を決定でき、前記画素点は、前記特定の画素点に対応する画素点であり、さらに、前記特定の画素点およびそれに対応する画素点の位置に従って、２つの画素点間のオプティカルフローを決定でき、このようにして、第１オブジェクトの各画素点のオプティカルフローを決定して、前記オプティカルフローマップを取得することができる。

一可能な実施形態において、前記任意のオブジェクトの任意の姿勢の画像に対応する３次元モデルの各頂点の可視性を決定でき、例えば、目標姿勢の特定の頂点がオクルードされているか否かを決定でき、これにより、前記任意のオブジェクトの任意の姿勢の画像内の前記頂点に対応する画素点の可視性を決定できる。一例では、各画素点の可視性を離散数で表すことができ、例えば、１は、前記画素点が目標姿勢で可視であることを意味し、２は、前記画素点が目標姿勢で不可視であることを意味し、０は、前記画素点が背景領域の画素点であること、即ち、第１オブジェクトの画素点ではないことを意味し、さらに、このようにして、第１オブジェクトの各画素点の可視性を決定して、可視性マップを取得することができる。本開示は、可視性の表示方法を限定しない。

一可能な実施形態において、前記画像生成方法は、ニューラルネットワークによって実現され、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用される。前記第１姿勢情報および第２姿勢情報を前記オプティカルフローネットワークに入力して、前記姿勢変換情報を生成することができる。

一可能な実施形態において、オプティカルフローネットワークを使用して前記姿勢変換情報を取得する前に、前記オプティカルフローネットワークをトレーニングすることができる。

図３は、本開示の実施例による画像生成方法のフローチャートであり、図３に示されるように、前記方法は以下のステップを含む。

ステップＳ１４において、プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングし、前記第１トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、ステップＳ１４は、前記第１トレーニングセット内の第１サンプル画像および第２サンプル画像に対して３次元モデリングを実行して、それぞれ第１の３次元モデルおよび第２の３次元モデルを取得することと、前記第１の３次元モデルおよび前記第２の３次元モデルに従って、前記第１サンプル画像と前記第２サンプル画像との間の第１オプティカルフローマップおよび前記第２サンプル画像の第１可視性マップを取得することと、前記第１サンプル画像および前記第２サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第１サンプル画像内のオブジェクトの第３姿勢情報および前記第２サンプル画像内のオブジェクトの第４姿勢情報を取得することと、前記第３姿勢情報および前記第４姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、前記第１オプティカルフローマップと予測されたオプティカルフローマップ、および第１可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含む。

図４は、本開示の実施例によるオプティカルフローネットワークトレーニングの概略図であり、図４に示されるように、前記第１トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み得る。第１サンプル画像および第２サンプル画像に対してそれぞれ３次元モデリングを実行して、第１の３次元モデルおよび第２の３次元モデルを取得することができる。第１サンプル画像および第２サンプル画像に対して３次元モデリングを実行することにより、第１サンプル画像と第２サンプル画像との間の正確なオプティカルフローマップを取得できるだけでなく、３次元モデルの各頂点間の位置関係に従って、第２サンプル画像で表示できる頂点（即ち、可視頂点）およびオクルードされた頂点（即ち、不可視頂点）を決定でき、これにより、第２サンプル画像の可視性マップを決定する。

一可能な実施形態において、第１の３次元モデルにおける第１サンプル画像の特定の画素点の頂点を決定でき、第２の３次元モデルにおける前記頂点の位置を決定でき、前記位置に従って、第２サンプル画像内の前記頂点に対応する画素点を決定でき、第２サンプル画像内の前記頂点に対応する画素点は、前記第１サンプル画像の特定の画素点に対応する画素点であり、さらに、前記特定の画素点およびそれに対応する画素点の位置に従って、２つの画素点間のオプティカルフローを決定でき、このようにして、各画素点のオプティカルフローを決定して、前記第１オプティカルフローマップを取得でき、前記第１オプティカルフローマップは、第１サンプル画像と第２サンプル画像との間の正確なオプティカルフローマップである。

一可能な実施形態において、第１の３次元モデルと第２の３次元モデルの各頂点間の位置関係に従って、第２の３次元モデルの各頂点に対応する画素点が第２サンプル画像に表示されるか否かを決定し、さらに、第２サンプル画像の第１可視性マップを決定できる。一例では、各画素点の可視性を離散数で表すことができ、例えば、１は、前記画素点が第２サンプル画像で可視であることを意味し、２は、前記画素点が第２サンプル画像で不可視であることを意味し、０は、前記画素点が背景領域の画素点であること、即ち、第２サンプル画像内のオブジェクトが位置する領域の画素点ではないことを意味する。さらに、このようにして各画素点の可視性を決定して、第２サンプル画像の第１可視性マップを取得することができ、第１可視性マップは、第２サンプル画像の正確な可視性マップである。本開示は、可視性の表示方法を限定しない。

一可能な実施形態において、第１サンプル画像および第２サンプル画像に対してそれぞれ姿勢特徴抽出を実行することができ、一例では、第１サンプル画像内のオブジェクトの１８個のキーポイントおよび第２サンプル画像内のオブジェクトの１８個のキーポイントをそれぞれ抽出して、それぞれ第３姿勢情報および第４姿勢情報を取得することができる。

一可能な実施形態において、第３姿勢情報および第４姿勢情報をオプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することができ、前記予測されたオプティカルフローマップおよび予測された可視性マップは、オプティカルフローネットワークの出力結果であり、偏差を含む可能性がある。

一可能な実施形態において、第１オプティカルフローマップは、第１サンプル画像と第２サンプル画像との間の正確なオプティカルフローマップであり、第１可視性マップは、第２サンプル画像の正確な可視性マップであるが、予測されたオプティカルフローマップは、オプティカルフローネットワークによって生成されたオプティカルフローマップであるため、予測されたオプティカルフローマップが不正確である可能性があり、予測されたオプティカルフローマップと第１オプティカルフローマップとの間には差異があり得、同様に、予測された可視性マップと第１可視性マップとの間にも差異があり得る。第１オプティカルフローマップと予測されたオプティカルフローマップとの間の差異、および第１可視性マップと予測された可視性マップとの間の差異に従って、オプティカルフローネットワークのネットワーク損失を決定することができる。一例では、第１オプティカルフローマップと予測されたオプティカルフローマップとの間の差異に従って、予測されたオプティカルフローマップの損失を決定し、第１可視性マップと予測された可視性マップとの間の差異に従って、予測された可視性マップのクロスエントロピー損失を決定でき、前記オプティカルフローネットワークのネットワーク損失は、予測されたオプティカルフローマップの損失と予測された可視性マップのクロスエントロピー損失の加重和の結果であり得る。

一可能な実施形態において、ネットワーク損失を最小限に抑えるようにオプティカルフローネットワークのネットワークパラメータを調整することができ、例えば、勾配降下法でオプティカルフローネットワークのネットワークパラメータを調整することができる。そして、トレーニング条件を満たすときに、トレーニングされたオプティカルフローネットワークを取得する。例えば、トレーニング回数が所定の回数に達すると、トレーニング条件を満たし、つまり、オプティカルフローネットワークのネットワークパラメータが所定の回数調整されると、トレーニングされたオプティカルフローネットワークを取得でき、または、ネットワーク損失がプリセットされた閾値以下であるか，特定の間隔内に収束すると、トレーニングされたオプティカルフローネットワークを取得できる。トレーニングされたオプティカルフローネットワークは、前記姿勢変換情報を取得するために使用できる。

一可能な実施形態において、ステップＳ１３では、前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１オブジェクトの姿勢が前記目標姿勢である第１画像を生成する。ここで、ステップＳ１３は、前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得することと、前記外観特徴マップおよび前記第２姿勢情報に従って、前記第１画像を生成することとを含み得る。

一可能な実施形態において、前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得することは、前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第１特徴マップを取得することと、前記姿勢変換情報に従って、前記第１特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することとを含み得る。

一可能な実施形態において、外観特徴マップを取得するステップは、ニューラルネットワークによって実現でき、前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用される。前記画像生成ネットワークは、外観特徴符号化サブネットワークを含むことができ、前記処理される画像に対して外観特徴符号化処理を実行して、処理される画像的第１特徴マップを取得することができる。前記外観特徴符号化サブネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであり得、前記外観特徴符号化サブネットワークは、複数レベルの畳み込み層を有することができ、異なる解像度を有する複数の第１特徴マップ（例えば、異なる解像度を有する複数の第１特徴マップで構成される特徴ピラミッドなど）を取得することができ、本開示は、外観特徴符号化サブネットワークのタイプを限定しない。

一可能な実施形態において、前記画像生成ネットワークは、特徴変換サブネットワークを含むことができ、前記特徴変換サブネットワークは、前記姿勢変換情報に従って第１特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得する。前記特徴変換サブネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであり得、本開示は、畳み込みニューラルネットワークのタイプを限定しない。

図５は、本開示の実施例による特徴変換サブネットワークの概略図であり、前記特徴変換サブネットワークは、前記オプティカルフローマップに従って、前記第１特徴マップの各画素点に対して変位処理を実行し、前記可視性マップに従って変位処理された可視部分（即ち、画像に表示できる複数の画素点）および不可視部分（即ち、画像に表示されない複数の画素点）を決定でき、さらに、畳み込み処理などの処理を実行して、前記外観特徴マップを取得することができる。本開示は、特徴変換サブネットワークの構造を限定しない。

一可能な実施形態において、前記外観特徴マップおよび前記第２姿勢情報に従って、前記第１画像を生成することは、前記第２姿勢情報に対して姿勢特徴符号化処理を実行して、前記第１オブジェクトの姿勢特徴マップを取得することと、前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第１画像を生成することとを含み得る。

一可能な実施形態において、第１画像を生成するステップは、画像生成ネットワークによって実現できる。前記画像生成ネットワークは、姿勢特徴符号化サブネットワークを含むことができ、前記第２姿勢情報に対して姿勢特徴符号化処理を実行して、前記第１オブジェクトの姿勢特徴マップを取得することができる。前記姿勢特徴符号化サブネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであり得、前記姿勢特徴符号化サブネットワークは、複数レベルの畳み込み層を有することができ、異なる解像度を有する複数の姿勢特徴マップ（例えば、異なる解像度を有する複数の姿勢特徴マップで構成される特徴ピラミッドなど）を取得することができ、本開示は、姿勢特徴符号化サブネットワークのタイプを限定しない。

一可能な実施形態において、前記画像生成ネットワークは、復号化サブネットワークを含むことができ、前記復号化サブネットワークは、前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第１画像を取得することができ、前記第１画像において、第１オブジェクトの姿勢は、前記第２姿勢情報に対応する目標姿勢である。前記復号化サブネットワークは、畳み込みニューラルネットワークネットワークなどのニューラルネットワークであり得、本開示は、復号化サブネットワークのタイプを限定しない。

一可能な実施形態において、前記第１画像内の第１オブジェクトの姿勢が目標姿勢であり、第１画像の高周波詳細（折り目やテクスチャなど）を強調することもできる。

図６は、本開示の実施例による画像生成方法のフローチャートであり、図６に示されるように、前記方法は以下のステップを含む。

ステップＳ１５において、前記姿勢変換情報および前記処理される画像に従って、前記第１画像に対して特徴強調処理を実行して、第２画像を取得する。

一可能な実施形態において、ステップＳ１５は、前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第３画像を取得することと、前記第３画像、前記第１画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、前記重み係数マップに従って、前記第３画像および前記第１画像に対して加重平均処理を実行して、前記第２画像を取得することとを含み得る。

一可能な実施形態において、前記オプティカルフローマップの各画素点のオプティカルフロー情報に従って、処理される画像に対して画素変換処理を実行でき、つまり、処理される画像の各画素に対して、対応するオプティカルフロー情報に従って変位処理を実行して、前記第３画像を取得することができる。

一可能な実施形態において、画像生成ネットワークによって前記重み係数マップを取得でき、前記画像生成ネットワークは、特徴強調サブネットワークを含むことができ、前記特徴強調サブネットワークは、前記第３画像、前記第１画像、および前記姿勢変換情報を処理して、前記重み係数マップを取得でき、例えば、姿勢変換情報に従って、前記第３画像および前記第１画像の各画素点の重みをそれぞれ決定して、前記重み係数マップを取得することができる。前記重み係数マップの各画素点の値は、第３画像および第１画像の対応する画素点の重みであり、例えば、重み係数マップの座標（１００，１００）の画素点の値が０．３である場合、第３画像の座標（１００，１００）の画素点の重みは０．３であり、第１画像の座標（１００，１００）の画素点の重みは０．７である。

一可能な実施形態において、重み係数マップの各画素点の値（即ち、重み）に従って、第３画像および第１画像の対応する画素点のＲＧＢ値などのパラメータに対して加重平均処理を実行して、前記第２画像を取得することができる。一例では、第２画像の画素点のＲＧＢ値は、以下の式（１）によって表すことができる。

（１）
ここで、

は、第２画像の特定の画素点のＲＧＢ値であり、

は、重み係数マップの対応する画素点の値（即ち、重み）であり、

は、第３画像の対応する画素点のＲＧＢ値であり、

は、第１画像の対応する画素点のＲＧＢ値である。

例えば、重み係数マップの座標（１００，１００）の画素点の値が０．３であり、第３画像の座標（１００，１００）の画素点の重みは０．３であり、第１画像の座標（１００，１００）の画素点の重みは０．７であり、かつ、第３画像の座標（１００，１００）の画素点のＲＧＢ値は２００であり、第１画像の座標（１００，１００）の画素点のＲＧＢ値は５０である場合、第２画像の座標（１００，１００）の画素点のＲＧＢ値は９５である。

一可能な実施形態において、画像生成ネットワークを使用して第１画像を生成する前に、前記画像生成ネットワークをトレーニングすることができる。

図７は、本開示の実施例による画像生成方法のフローチャートであり、図７に示されるように、前記方法は以下のステップを含む。

ステップＳ１６において、プリセットされた第２トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークを敵対的トレーニングし、前記第２トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、ステップＳ１６は、前記第２トレーニングセット内の第３サンプル画像および第４サンプル画像に対して姿勢特徴抽出を実行して、前記第３サンプル画像内のオブジェクトの第５姿勢情報および前記第４サンプル画像内のオブジェクトの第６姿勢情報を取得することと、前記第５姿勢情報および前記第６姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第２オプティカルフローマップおよび第２可視性マップを取得することと、第３サンプル画像、前記第２オプティカルフローマップ、前記第２可視性マップ、および前記第６姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、前記判別ネットワークによって前記サンプル生成画像または第４サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、前記第４サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することとを含み得る。

図８は、本開示の実施例による画像生成ネットワークのトレーニングの概略図であり、前記第２トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み得る。前記第３サンプル画像および第４サンプル画像は、前記第２トレーニングセット内の任意のサンプル画像であり、第３サンプル画像および第４サンプル画像に対してそれぞれ姿勢特徴抽出を実行でき、例えば、第３サンプル画像および第４サンプル画像内のオブジェクトの１８個のキーポイントをそれぞれ抽出して、第３サンプル画像内のオブジェクトの第５姿勢情報および第４サンプル画像内のオブジェクトの第６姿勢情報を取得することができる。

一可能な実施形態において、トレーニングされたオプティカルフローネットワークを使用して第５姿勢情報および第６姿勢情報を処理して、第２オプティカルフローマップおよび第２可視性マップを取得することができる。

一可能な実施形態において、第２オプティカルフローマップおよび第２可視性マップはまた、３次元モデリングの方式で取得でき、本開示は、第２オプティカルフローマップおよび第２可視性マップの取得方式を限定しない。

一可能な実施形態において、第３サンプル画像、第２オプティカルフローマップ、第２可視性マップ、および第６姿勢情報を使用して前記画像生成ネットワークをトレーニングすることができる。一例では、前記画像生成ネットワークは、外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、および復号化サブネットワークを含むことができ、別の例では、前記画像生成ネットワークは、外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、復号化サブネットワーク、および特徴強調サブネットワークを含むことができる。

一可能な実施形態において、第３サンプル画像を外観特徴符号化サブネットワークに入力して処理し、外観特徴符号化サブネットワークの出力結果、および前記第２オプティカルフローマップおよび第２可視性マップを特徴変換サブネットワークに入力して、前記第３サンプル画像のサンプル外観特徴マップを取得することができる。

一可能な実施形態において、第６姿勢情報を姿勢特徴符号化サブネットワークに入力して処理して、第６姿勢情報のサンプル姿勢特徴マップを取得することができる。さらに、前記サンプル姿勢特徴マップおよびサンプル外観特徴マップを復号化サブネットワークに入力して処理して、第１生成画像を取得することができる。画像生成ネットワークが外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、および復号化サブネットワークを含む場合、第１生成画像および第４生成画像を使用して、判別ネットワークおよび画像生成サブネットワークに対して敵対的トレーニングを実行することができる。

一可能な実施形態において、画像生成ネットワークが外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、復号化サブネットワーク、および特徴強調サブネットワークを含む場合、第２オプティカルフローマップに従って第３サンプル画像に対して画素変換処理を実行でき、つまり、オプティカルフローマップの各画素点のオプティカルフロー情報に従って、第３サンプル画像の各画素点に対して変位処理を実行して、第２生成画像を取得し、第２生成画像、第４サンプル画像、第２オプティカルフローマップ、および第２可視性マップを特徴強調サブネットワークに入力して、重み係数マップを取得でき、さらに、重み係数マップに従って、第２生成画像および第１生成画像に対して加重平均処理を実行して、サンプル生成画像を取得することができる。サンプル生成画像および第４サンプル画像を使用して、判別ネットワークおよび画像生成サブネットワークに対して敵対的トレーニングを実行することができる。

一可能な実施形態において、第４サンプル画像またはサンプル生成画像を判別ネットワークに入力して判別処理を実行して、真正性判別結果を取得でき、つまり、サンプル生成画像が実画像であるか非実画像（人工的に生成された画像など）であるかを判別することができる。一例では、前記真正性判別結果は、例えば、サンプル生成画像が実画像である確率が８０％であるなど、確率の形であり得る。

一可能な実施形態において、第４サンプル画像、サンプル生成画像、および真正性判別結果に従って、画像生成ネットワークおよび判別ネットワークのネットワーク損失を取得でき、さらに、前記ネットワーク損失に従って、画像生成ネットワークおよび前記判別ネットワークを敵対的トレーニングし、つまり、ネットワーク損失の最小化、および判別ネットワークによって出力された真正性判別結果が実画像である確率の最大化の２つのトレーニング条件がバランス状態になるまで、前記ネットワーク損失に従って、画像生成ネットワークおよび判別ネットワークのネットワークパラメータを調整する。前記バランス状態では、判別ネットワークの判別性能が高く、人工的に生成された画像（低品質の生成された画像）と実画像を区別することができる。画像生成ネットワークによって生成された画像の品質が高く、生成された画像の品質が実画像に近いため、判別ネットワークは、前記画像が生成された画像であるか実画像であるかを区別することが困難であり、つまり、より高い比率の生成された画像が、より強い判別性能を持つ判別ネットワークによって実画像として判別される。前記バランス状態では、画像生成ネットワークによって生成された画像の品質が高く、画像生成ネットワークの性能が良好であるため、トレーニングを完了でき、第２画像を生成するプロセスで画像生成ネットワークを使用する。

一可能な実施形態において、画像生成ネットワークおよび判別ネットワークのネットワーク損失は、以下の式（２）で表すことができる。

（２）
ここで、

、

、および

はそれぞれ重みであり、前記重みは、任意のプリセットされた値であり得、本開示は、重みの値を限定しない。

は、敵対的トレーニングによって引き起こされるネットワーク損失であり、

は、第４サンプル画像とサンプル生成画像との間の差異によって引き起こされるネットワーク損失であり、

は、マルチレベル特徴マップのネットワーク損失である。ここで、

は、以下の式（３）で表すことができる。

（３）
ここで、

は、第４サンプル画像ｘが実画像であると判別ネットワークによって判別される確率であり、

は、画像生成ネットワークによって生成されたサンプル生成画像

が判別ネットワークによって判別される確率であり、

は期待値である。

は、以下の式（４）で表すことができる。

（４）
ここで、

は、第４サンプル画像

とサンプル生成画像

の対応する画素点間の差の１ノルムを表す。

は、以下の式（５）で表すことができる。

（５）
前記判別ネットワークは、複数のレベルの畳み込み層を有することができ、各レベルの畳み込み層は、異なる解像度の特徴マップを抽出でき、前記判別ネットワークは、第４サンプル画像

およびサンプル生成画像

をそれぞれ処理し、各レベルの畳み込み層によって抽出された特徴マップに従って、マルチレベル特徴マップのネットワーク損失

を決定し、

は、ｊ番目の畳み込み層によって抽出されたサンプル生成画像

の特徴マップであり、

は、ｊ番目の畳み込み層によって抽出された第４サンプル画像

の特徴マップであり、

は、

と

の対応する画素点間の差の２ノルムの２乗である。

上記の式（２）で決定されたネットワーク損失を使用して、ネットワーク損失の最小化、および判別ネットワークによって出力された真正性判別結果が実画像である確率の最大化の２つのトレーニング条件がバランス状態になるまで、判別ネットワークおよび画像生成ネットワークに対して敵対的トレーニングを実行することにより、トレーニングを完了して、トレーニングされた画像生成ネットワークを取得でき、前記画像生成ネットワークは、第１画像または第２画像を生成するために使用することができる。

本開示の実施例の画像生成方法によれば、任意の姿勢情報に従ってオプティカルフローマップおよび可視性マップを生成するようにオプティカルフローネットワークをトレーニングでき、任意の姿勢の第１オブジェクトの第１画像を生成するための基礎を提供でき、かつ３次元モデルによってトレーニングされたオプティカルフローネットワークは、より高い精度を有する。さらに、第１姿勢情報および第２姿勢情報に従って、可視性マップおよびオプティカルフローマップを取得し、第１オブジェクトの各部分の可視性を取得でき、オプティカルフローマップに従って第１特徴マップに対して変位処理を実行し、可視性マップに従って可視部分および不可視部分を決定でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。さらに、第２姿勢情報の姿勢特徴符号化処理により取得された姿勢特徴マップ、および可視部分と不可視部分を区別した外観特徴マップを復号化して、目標姿勢の第１オブジェクトの第１画像を取得でき、画像の歪みを改善し、アーチファクトを低減することができ、加重平均の方式で、検出される画像内の高周波詳細を第１画像に追加して、第２画像を取得でき、生成された画像の品質を向上させることができる。

図９は、本開示の実施例による画像生成方法の応用の概略図であり、図９に示されるように、処理される画像は、初期姿勢の第１オブジェクトを含み、処理される画像に対して姿勢特徴抽出を実行することができ、例えば、第１オブジェクトの１８個のキーポイントを抽出して、第１姿勢情報を取得することができる。第２姿勢情報は、生成される任意の目標姿勢に対応する姿勢情報である。

一可能な実施形態において、第１姿勢情報および第２姿勢情報をオプティカルフローネットワークに入力して、前記オプティカルフローマップおよび可視性マップを取得することができる。

一可能な実施形態において、処理される画像を画像生成ネットワークの外観特徴符号化サブネットワークに入力して外観特徴符号化処理を実行して、第１特徴マップを取得でき、さらに、画像生成ネットワークの特徴変換サブネットワークは、前記オプティカルフローマップおよび可視性マップに従って、第１特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することができる。

一可能な実施形態において、第２姿勢情報を画像生成ネットワークの姿勢特徴符号化サブネットワークに入力して、第２姿勢情報に対して姿勢符号化処理を実行して、前記第１オブジェクトの姿勢特徴マップを取得することができる。

一可能な実施形態において、画像生成ネットワークの復号化サブネットワークによって、姿勢特徴マップおよび外観特徴マップに対して復号化処理を実行して、第１画像を取得でき、前記第１画像において、第１オブジェクトの姿勢は、前記第２姿勢情報に対応する目標姿勢である。

一可能な実施形態において、オプティカルフローマップによって、処理される画像に対して画素変換処理を実行することができ、つまり、処理される画像の各画素点を、対応するオプティカルフロー情報に従って変位処理を実行して、前記第３画像を取得する。さらに、第３画像、第１画像、オプティカルフローマップ、および可視性マップを画像生成ネットワークの特徴強調サブネットワークに入力して処理して、重み係数マップを取得することができる。前記重み係数マップに従って、前記第１画像および前記第３画像に対して加重平均処理を実行して、高周波詳細（折り目やテクスチャなど）を有する第２画像を取得することができる。

一可能な実施形態において、前記画像生成方法は、ビデオまたは動的画像の生成に使用でき、例えば、特定のオブジェクトの連続したアクションの複数の画像を生成して、ビデオまたは動的画像を構成する。あるいは、前記画像生成方法は、仮想フィッティングなどのシーンで使用でき、フィッティングオブジェクトの複数の視野角または複数の姿勢の画像を生成することができる。

図１０は、本開示の実施例による画像生成装置のブロック図であり、図１０に示されるように、前記装置は、
処理される画像、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報、および生成される目標姿勢に対応する第２姿勢情報を取得するように構成される情報取得モジュール１１と、
前記第１姿勢情報および前記第２姿勢情報に従って、姿勢変換情報を取得するように構成される第１取得モジュール１２であって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび／または前記目標姿勢の可視性マップを含む第１取得モジュール１２と、
前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成するように構成される生成モジュール１３であって、前記第１画像内の第１オブジェクトの姿勢は、前記目標姿勢である生成モジュール１３と、を備える。

一可能な実施形態において、前記生成モジュール１３は、さらに、
前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得し、
前記外観特徴マップおよび前記第２姿勢情報に従って、前記第１画像を生成するように構成される。

一可能な実施形態において、前記生成モジュール１３は、さらに、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第１特徴マップを取得し、
前記姿勢変換情報に従って、前記第１特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得するように構成される。

一可能な実施形態において、前記生成モジュール１３は、さらに、
前記第２姿勢情報に対して姿勢符号化処理を実行して、前記第１オブジェクトの姿勢特徴マップを取得し、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第１画像を生成するように構成される。

一可能な実施形態において、前記情報取得モジュール１１は、さらに、
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得するように構成される。

図１１は、本開示の実施例による画像生成装置のブロック図であり、図１１に示されるように、前記装置は、
プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第１トレーニングモジュール１４をさらに備え、前記第１トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、前記第１トレーニングモジュール１４は、さらに、
前記第１トレーニングセット内の第１サンプル画像および第２サンプル画像に対して３次元モデリングを実行して、それぞれ第１の３次元モデルおよび第２の３次元モデルを取得し、
前記第１の３次元モデルおよび前記第２の３次元モデルに従って、前記第１サンプル画像と前記第２サンプル画像との間の第１オプティカルフローマップおよび前記第２サンプル画像の第１可視性マップを取得し、
前記第１サンプル画像および前記第２サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第１サンプル画像内のオブジェクトの第３姿勢情報および前記第２サンプル画像内のオブジェクトの第４姿勢情報を取得し、
前記第３姿勢情報および前記第４姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第１オプティカルフローマップと予測されたオプティカルフローマップ、および第１可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成される。

図１２は、本開示の実施例による画像生成装置のブロック図であり、図１２に示されるように、前記装置は、
前記姿勢変換情報および前記処理される画像に従って、前記第１画像に対して特徴強調処理を実行して、第２画像を取得するように構成される第２取得モジュール１５をさらに備える。

一可能な実施形態において、前記第２取得モジュール１５は、さらに、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第３画像を取得し、
前記第３画像、前記第１画像、および前記姿勢変換情報に従って、重み係数マップを取得し、
前記重み係数マップに従って、前記第３画像および前記第１画像に対して加重平均処理を実行して、前記第２画像を取得するように構成される。

図１３は、本開示の実施例による画像生成装置のブロック図であり、図１３に示されるように、前記装置は、
プリセットされた第２トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行するように構成される第２トレーニングモジュール１６をさらに備え、前記第２トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。

一可能な実施形態において、前記第２トレーニングモジュール１６は、さらに、
前記第２トレーニングセット内の第３サンプル画像および第４サンプル画像に対して姿勢特徴抽出を実行して、前記第３サンプル画像内のオブジェクトの第５姿勢情報および前記第４サンプル画像内のオブジェクトの第６姿勢情報を取得し、
前記第５姿勢情報および前記第６姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第２オプティカルフローマップおよび第２可視性マップを取得し、
第３サンプル画像、前記第２オプティカルフローマップ、前記第２可視性マップ、および前記第６姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得し、
前記判別ネットワークによって前記サンプル生成画像または第４サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得し、
前記第４サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行するように構成される。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。

本開示はまた、画像生成装置、電子機器、コンピュータ可読記憶媒体、およびプログラムを提供し、これらはすべて、本開示で提供される方法のいずれかを実現するために使用されることができ、対応する技術的解決策と説明は、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。

当業者なら自明であるが、上記の特定の実施形態における方法において、各ステップの記述順序は、厳しい実行順序により実施プロセスを制限するものではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定される必要がある。

いくつかの実施例では、本開示の実施例に係る装置に備えられる機能またはモジュールは、上記の方法の実施例で説明された方法を実行するために使用されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするため、ここでは繰り返さない。

本開示の実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体をさらに提案し、前記コンピュータプログラム命令は、プロセッサによって実行されるときに、上記の方法を実現するように構成される。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体または揮発性コンピュータ可読記憶媒体であり得る。

本開示の実施例は、上記の方法を実行するように構成されるプロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリと、備える電子機器をさらに提案する。

本開示の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提案し、前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器のプロセッサに上記の方法を実行させるように構成される。

電子機器は、端末、サーバ、または他の形の機器として提供することができる。

図１４は、一例示的実施例による電子機器８００のブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。

図１４を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの１つまたは複数を含むことができる。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば、表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための１つまたは複数のプロセッサ８２０を備えることができる。また、処理コンポーネント８０２は、処理コンポーネント８０２と他のコンポーネントとの間の対話を容易にするための１つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８と処理コンポーネント８０２との間の対話を容易にするためのマルチメディアモジュールを備えることができる。

メモリ８０４は、電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器８００で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどが含まれる。メモリ８０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。

電源コンポーネント８０６は、電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は、電源管理システム、１つまたは複数の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント８０８は、前記電子機器８００とユーザとの間で出力インターフェースを提供する画面を含む。いくつかの実施例では、画面は、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、画面は、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間と圧力も検出する。いくつかの実施例では、マルチメディアコンポーネント８０８は、フロンドカメラおよび／またはリアカメラを備える。電子機器８００が、撮影モードまたは撮像モードなどの動作モードにある場合、フロンドカメラおよび／またはリアカメラは、外部マルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラはそれぞれ、固定光学レンズシステムであってもよく、焦点距離および光学ズーム機能を有するものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が、呼び出しモード、記録モード、および音声認識モードなどの動作モードにある場合、外部オーディオ信号を受信するように構成されるマイクロフォン（ＭＩＣ）を備える。受信されたオーディオ信号は、メモリ８０４にさらに記憶されるか、または通信コンポーネント８１６によって送信されることができる。いくつかの実施例では、オーディオコンポーネント８１０は、オーディオ信号を出力するためのスピーカをさらに備える。

Ｉ／Ｏインターフェース８１２は、処理コンポーネント８０２と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、およびロックボタンなどを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は、電子機器８００に各態様の状態評価を提供するための１つまたは複数のセンサを含む。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態およびコンポーネントの相対的な位置を検出でき、例えば、前記コンポーネントが電子機器８００のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント８１４はまた、電子機器８００または電子機器８００のコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速、および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、物理的接触なしに近くの物体の存在を検出するように構成される近接センサを含み得る。センサコンポーネント８１４はまた、撮像用途で使用するための、ＣＭＯＳまたはＣＣＤ画像センサなどの光センサを含み得る。いくつかの実施例では、前記センサコンポーネント８１４はまた、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサを含み得る。

通信コンポーネント８１６は、電子機器８００と他の機器との間の有線または無線通信を実現するように構成される。電子機器８００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的な実施例では、通信コンポーネント８１６は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例では、前記通信コンポーネント８１６は、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術に基づいて実現できる。

例示的な実施例では、電子機器８００は、上記の方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現されることができる。

例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行されて上記方法を完了することができる。

図１５は、一例示的実施例による電子機器１９００のブロック図である。例えば、電子機器１９００はサーバとして提供できる。図１５を参照すると、電子機器１９００は、１つまたは複数のプロセッサを備える処理コンポーネント１９２２と、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムなどを記憶するためのメモリリソースを代表するメモリ１９３２と、を備える。メモリ１９３２に記憶されたアプリケーションプログラムは、それぞれが一命令セットに対応する１つまたは複数のモジュールを含み得る。また、処理コンポーネント１９２２は、命令を実行して、上記の方法を実行するように構成される。

電子機器１９００は、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６と、電子機器１９００をネットワークにアクセスするように構成される有線または無線ネットワークインターフェイス１９５０と、入出力（Ｉ／Ｏ）インターフェイス１９５８と、をさらに備えることができる。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は電子機器１９００の処理コンポーネント１９２２によって実行して上記方法を完了することができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は、命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（網羅的ではない例）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ可読プログラム命令はコンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含み得る。各計算／処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶する。

本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズすることで、該電子回路はコンピュータ可読プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

ここで、本開示の実施例による方法、装置（システム）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

コンピュータ可読プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作を実現する。

図面のフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは１つのモジュール、プログラムセグメントまたは命令の一部を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部は指定された論理機能を実現するための１つまたは複数の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

論理に違反しない限り、本開示の異なる実施例を互いに組み合わせることができ、異なる実施例の説明に焦点が当てられ、説明に焦点が当てられた部分については、他の実施例の説明を参照することができる。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ開示された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims

画像生成方法であって、
処理される画像、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報、および生成される目標姿勢に対応する第２姿勢情報を取得することと、
前記第１姿勢情報および前記第２姿勢情報に従って、姿勢変換情報を取得することであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび／または前記目標姿勢の可視性マップを含むことと、
前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成することであって、前記第１画像内の第１オブジェクトの姿勢は、前記目標姿勢であることと、を含み、
前記画像生成方法は、ニューラルネットワークによって実現され、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用され、
前記画像生成方法は、
プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることをさらに含み、前記第１トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み、
前記プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることは、
前記第１トレーニングセット内の第１サンプル画像および第２サンプル画像に対して３次元モデリングを実行して、それぞれ第１の３次元モデルおよび第２の３次元モデルを取得することと、
前記第１の３次元モデルおよび前記第２の３次元モデルに従って、前記第１サンプル画像と前記第２サンプル画像との間の第１オプティカルフローマップおよび前記第２サンプル画像の第１可視性マップを取得することと、
前記第１サンプル画像および前記第２サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第１サンプル画像内のオブジェクトの第３姿勢情報および前記第２サンプル画像内のオブジェクトの第４姿勢情報を取得することと、
前記第３姿勢情報および前記第４姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、
前記第１オプティカルフローマップと予測されたオプティカルフローマップ、および第１可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定することと、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含むことを特徴とする、前記画像生成方法。
前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成することは、
前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得することと、
前記外観特徴マップおよび前記第２姿勢情報に従って、前記第１画像を生成することと、を含み、および／または
前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得することは、
前記処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報を取得することを含むことを特徴とする、
請求項１に記載の画像生成方法。
前記処理される画像および前記姿勢変換情報に従って、前記第１オブジェクトの外観特徴マップを取得することは、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第１特徴マップを取得することと、
前記姿勢変換情報に従って、前記第１特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することと、を含み、および／または
前記外観特徴マップおよび前記第２姿勢情報に従って、第１画像を生成することは、
前記第２姿勢情報に対して姿勢符号化処理を実行して、前記第１オブジェクトの姿勢特徴マップを取得することと、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第１画像を生成することと、を含むことを特徴とする、
請求項２に記載の画像生成方法。
前記画像生成方法は、
前記姿勢変換情報および前記処理される画像に従って、前記第１画像に対して特徴強調処理を実行して、第２画像を取得することをさらに含むことを特徴とする、
請求項１ないし３のいずれか一項に記載の画像生成方法。
前記姿勢変換情報および前記処理される画像に従って、前記第１画像に対して特徴強調処理を実行して、第２画像を取得することは、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第３画像を取得することと、
前記第３画像、前記第１画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、
前記重み係数マップに従って、前記第３画像および前記第１画像に対して加重平均処理を実行して、前記第２画像を取得することと、を含むことを特徴とする、
請求項４に記載の画像生成方法。
前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用されることを特徴とする、
請求項１ないし５のいずれか一項に記載の画像生成方法。
前記画像生成方法は、
プリセットされた第２トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することをさらに含み、前記第２トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含むことを特徴とする、
請求項６に記載の画像生成方法。
プリセットされた第２トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することは、
前記第２トレーニングセット内の第３サンプル画像および第４サンプル画像に対して姿勢特徴抽出を実行して、前記第３サンプル画像内のオブジェクトの第５姿勢情報および前記第４サンプル画像内のオブジェクトの第６姿勢情報を取得することと、
前記第５姿勢情報および前記第６姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第２オプティカルフローマップおよび第２可視性マップを取得することと、
前記第３サンプル画像、前記第２オプティカルフローマップ、前記第２可視性マップ、および前記第６姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、
前記判別ネットワークによって、前記サンプル生成画像または前記第４サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、
前記第４サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することと、を含むことを特徴とする、
請求項７に記載の画像生成方法。
画像生成装置であって、
処理される画像、前記処理される画像内の第１オブジェクトの初期姿勢に対応する第１姿勢情報、および生成される目標姿勢に対応する第２姿勢情報を取得するように構成される情報取得モジュールと、
前記第１姿勢情報および前記第２姿勢情報に従って、姿勢変換情報を取得するように構成される第１取得モジュールであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび／または前記目標姿勢の可視性マップを含む第１取得モジュールと、
前記処理される画像、前記第２姿勢情報、および前記姿勢変換情報に従って、第１画像を生成するように構成される生成モジュールであって、前記第１画像内の第１オブジェクトの姿勢は、前記目標姿勢である生成モジュールと、を備え、
前記画像生成装置は、ニューラルネットワークを備え、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用され、
前記画像生成装置は、
プリセットされた第１トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第１トレーニングモジュールをさらに備え、前記第１トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み、
前記第１トレーニングモジュールは、さらに、
前記第１トレーニングセット内の第１サンプル画像および第２サンプル画像に対して３次元モデリングを実行して、それぞれ第１の３次元モデルおよび第２の３次元モデルを取得し、
前記第１の３次元モデルおよび前記第２の３次元モデルに従って、前記第１サンプル画像と前記第２サンプル画像との間の第１オプティカルフローマップおよび前記第２サンプル画像の第１可視性マップを取得し、
前記第１サンプル画像および前記第２サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第１サンプル画像内のオブジェクトの第３姿勢情報および前記第２サンプル画像内のオブジェクトの第４姿勢情報を取得し、
前記第３姿勢情報および前記第４姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第１オプティカルフローマップと予測されたオプティカルフローマップ、および第１可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成されることを特徴とする、前記画像生成装置。
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、請求項１ないし８のいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令は、プロセッサによって実行されるときに、請求項１ないし８のいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記コンピュータ可読記憶媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器のプロセッサが、請求項１ないし８のいずれか一項に記載の方法を実現するための命令を実行するように構成されることを特徴とする、前記コンピュータプログラム。