JP7026222B2

JP7026222B2 - 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体

Info

Publication number: JP7026222B2
Application number: JP2020524341A
Authority: JP
Inventors: ▲張▼宇; ▲鄒▼冬青; 任思捷; 姜哲; ▲陳▼▲曉▼濠
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-08-19
Publication date: 2022-02-25
Anticipated expiration: 2039-08-19
Also published as: JP2021525401A; TWI739151B; TW202042176A; CN110322002B; WO2020220516A1; CN110322002A; KR20200128378A; SG11202004325RA

Description

（関連出願の相互参照）
本願は、２０１９年０４月３０日に出願された、出願番号が２０１９１０３６３９５７．５である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願は画像処理技術に関し、特に画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに記憶媒体に関する。

二次元（２Ｄ、２Ｄｉｍｅｎｓｉｏｎｓ）から三次元（３Ｄ、３Ｄｉｍｅｎｓｉｏｎｓ）立体効果への変換は、入力される単眼画像に応じて、そのもう一つの視点で撮影されるシーンの内容を復元する必要がある。３Ｄのグラデーション感覚を作成するために、このプロセスでは、入力シーンの深度情報を理解する必要があり、両眼視差の関係に基づき、左眼に入る画素を視差で平行移動させ、右眼の内容を生成する。従来の手動作成プロセスは、通常、深度再構成、グラデーション分割、および空領域補填などのフローに関わり、工数や手間がかかる。人工知能分野の台頭に伴い、畳み込みニューラルネットワークを用いてモデリングして、両眼視差に基づく画像合成プロセスが提案されており、大量の立体画像データで訓練することで正確な視差の関係を自動的に学習する。訓練プロセスでは、該視差によって、左画像を平行移動させて生成した右画像を、実の右画像の色値に一致させるように求められる。しかし、実際応用では、該方法によって生成される右画像の内容は構造の欠落や対象の歪みが多発しており、生成画像の品質に大きく影響する。

本願の実施例は画像生成ネットワークの訓練および画像処理の技術的解決手段を提供する。

本願の実施例の第一態様によれば、第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得ることと、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することと、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を含む画像生成ネットワークの訓練方法が提供される。

本願の上記いずれかの方法の実施例では、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することを含み、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップは、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得ることを含む。

本願の実施例では、訓練段階で、構造分析ネットワークおよび画像生成ネットワークにより敵対的訓練を行い、敵対的訓練によって画像生成ネットワークの性能を向上させる。

本願の上記いずれかの方法の実施例では、前記差異損失は第一構造差異損失および特徴損失を含み、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む。

本願の実施例では、構造分析ネットワークによって目標画像および第二サンプル画像を処理することで、複数のスケールにおける特徴マップをそれぞれ得て、各スケールにおける特徴マップにおける各位置の構造特徴に対して、目標画像が対応する複数の特徴マップにおける各位置の構造特徴、および第二サンプル画像が対応する複数の特徴マップにおける各位置の構造特徴に基づき、第一構造差異損失を特定することができ、特徴損失は予測目標画像が対応する複数の特徴マップにおける各位置および第二サンプル画像が対応する複数の特徴マップにおける各位置に基づいて特定される。

本願の上記いずれかの方法の実施例では、構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む。

本願の実施例は構造分析ネットワークによって予測目標画像および第二サンプル画像をそれぞれ処理し、予測目標画像に対してい少なくとも一つの特徴マップを得て、各特徴マップにおける各位置に対してそれぞれ一つの第一構造特徴を得て、つまり、少なくとも一つの第一構造特徴を得る。第二サンプル画像に対しても同様に少なくとも一つの第二構造特徴を得る。本願の実施例における第一構造差異損失は各スケールにおける各位置が対応する目標画像の第一構造特徴と第二サンプル画像の第二構造特徴との間の差異を統計することで得られ、つまり、二つの画像間の構造差異損失を特定するよう、各スケールにおける同じ位置が対応する第一構造特徴と第二構造特徴との間の構造差異がそれぞれ計算される。

本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する前記ステップは、構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得ることと、各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得ることと、を含み、ここで、前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。

本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する前記ステップは、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得ることと、を含み、ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する。

本願の上記いずれかの方法の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算することと、前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算することと、前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、前記差異損失はさらに色損失を含み、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前に、前記方法はさらに、前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定することを含み、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である。

本願の実施例では、敵対的訓練は画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を小さくすることを目標とする。敵対的訓練は通常、交互訓練の方法で実現し、本願の実施例は画像生成ネットワークおよび構造分析ネットワークを交互に訓練することで、要件を満たす画像生成ネットワークを得る。

本願の上記いずれかの方法の実施例では、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前に、さらに、前記第二サンプル画像にノイズを注入し、ノイズ画像を得ることと、前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定する前記ステップは、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定することと、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する前記ステップは、前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得ることと、各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得ることと、を含み、ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。

本願の上記いずれかの方法の実施例では、前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する前記ステップは、対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算することと、前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である。

本願の実施例では、ノイズ画像が対応する第二構造差異損失を得た後、構造分析ネットワークの性能を向上させるために、構造分析ネットワークのネットワークパラメータ調整時に、第二構造差異損失を追加する。

本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得ることと、前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得ることと、前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定することと、を含む。

本願の上記いずれかの方法の実施例では、前記差異損失に基づいて前記画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である。

本願の実施例では、画像生成ネットワークのパラメータを調整する損失が変わることがなく、構造分析ネットワークの性能のみを向上させ、構造分析ネットワークと画像生成ネットワークとは敵対的に訓練されるため、構造分析ネットワークの性能を向上させることで、画像生成ネットワークの訓練を加速することができる。

本願の上記いずれかの方法の実施例では、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップの後に、さらに、前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得ることを含む。

本願の上記いずれかの方法の実施例では、前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む。

本願の実施例の別の一態様によれば、三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得ることと、前記左眼画像および前記右眼画像に基づいて三次元画像を生成することと、を含む画像処理方法が提供され、ここで、前記画像生成ネットワークは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法によって訓練して得られる。

本願の実施例が提供する画像処理方法は、画像生成ネットワークによって左眼画像を処理して対応する右眼画像を得ており、照明、遮蔽物、ノイズなどの環境要因からの影響が小さく、視覚面積が小さな対象の合成正確度を維持でき、得られた右眼画像および左眼画像によって歪みが小さく、細部が比較的完全に保持された三次元画像を生成できる。

本願の実施例の第二態様によれば、第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されたサンプル取得ユニットと、画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得るように構成された目標予測ユニットと、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成された差異損失特定ユニットと、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得るように構成されたネットワーク訓練ユニットと、を含む画像生成ネットワークの訓練装置が提供される。

本願の上記いずれかの装置の実施例では、前記差異損失特定ユニットは、具体的に、構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成され、前記ネットワーク訓練ユニットは、具体的に、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得るように構成される。

本願の上記いずれかの装置の実施例では、前記差異損失は第一構造差異損失および特徴損失を含み、前記差異損失特定ユニットは、構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成された第一構造差異特定モジュールと、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成された特徴損失特定モジュールと、を含む。

本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定し、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する時に、構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得て、各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得るように構成され、ここで、前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。

本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する時に、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得るように構成され、ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する。

本願の上記いずれかの装置の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記第一構造差異特定モジュールは、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する時に、対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算し、前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記特徴損失特定モジュールは、具体的に、前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記特徴損失特定モジュールは、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する時に、対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算し、前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記差異損失はさらに色損失を含み、前記差異損失特定ユニットはさらに、前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定するように構成された色損失特定モジュールを含み、前記ネットワーク訓練ユニットは、具体的に、第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である。

本願の上記いずれかの装置の実施例では、前記装置はさらに、前記第二サンプル画像にノイズを注入し、ノイズ画像を得るように構成されたノイズ注入ユニットと、前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定するように構成された第二構造差異損失ユニットと、を含む。

本願の上記いずれかの装置の実施例では、前記第二構造差異損失ユニットは、具体的に、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定し、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記第二構造差異損失ユニットは、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する時に、前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得て、各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得るように構成され、ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。

本願の上記いずれかの装置の実施例では、前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記第二構造差異損失ユニットは、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する時に、対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算し、前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記ネットワーク訓練ユニットは、具体的に、第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である。

本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得て、前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得て、前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定するように構成される。

本願の上記いずれかの装置の実施例では、前記ネットワーク訓練ユニットは、具体的に、第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である。

本願の上記いずれかの装置の実施例では、前記装置はさらに、前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得るように構成される画像処理ユニットを含む。

本願の上記いずれかの装置の実施例では、前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む。

本願の実施例のさらに別の態様によれば、三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るように構成された右眼画像取得ユニットと、前記左眼画像および前記右眼画像に基づいて三次元画像を生成するように構成された三次元画像生成ユニットと、を含む画像処理装置が提供され、ここで、前記画像生成ネットワークは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法によって訓練して得られる。

本願の実施例の第三態様によれば、上記いずれかの実施例に記載の画像生成ネットワークの訓練装置または上記実施例に記載の画像処理装置を含むプロセッサを含む電子機器が提供される。

本願の実施例の第四態様によれば、プロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器が提供され、ここで、前記プロセッサは前記実行可能命令を実行することで、前記いずれかの実施例に記載の画像生成ネットワークの訓練方法、および／または画像処理方法を実現するように構成される。

本願の実施例の第五態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、前記可読命令は実行される時に上記いずれかの実施例に記載の画像生成ネットワークの訓練方法の動作、および／または上記実施例に記載の画像処理方法の動作を実行するコンピュータ記憶媒体が提供される。

本願の実施例の第六態様によれば、コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において運用される時、前記機器内のプロセッサは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法を実現するための命令、および／または上記実施例に記載の画像処理方法を実現するための命令を実行するコンピュータプログラム製品が提供される。

本願の上記実施例が提供する画像生成ネットワークの訓練および画像処理方法、装置、ならびに電子機器に基づき、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。

なお、以上の一般的な説明および以下の詳細な説明は例示的および説明的なものにすぎず、本開示を限定するものではないことを理解すべきである。
例えば、本願は以下の項目を提供する。
（項目１）
第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、
画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得ることと、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することと、
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を含む画像生成ネットワークの訓練方法。
（項目２）
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、
構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することを含み、
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップは、
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得ることを含む、項目１に記載の方法。
（項目３）
前記差異損失は第一構造差異損失および特徴損失を含み、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む、項目２に記載の方法。
（項目４）
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、
前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、
前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む、項目３に記載の方法。
（項目５）
前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する前記ステップは、
構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得ることと、
各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得ることと、を含み、
前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目４に記載の方法。
（項目６）
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する前記ステップは、
構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得ることと、を含み、
ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する、項目４または５に記載の方法。
（項目７）
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、
対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算することと、
前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む、項目６に記載の方法。
（項目８）
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、
前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む、項目３から７のいずれか一項に記載の方法。
（項目９）
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、
対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算することと、
前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む、項目８に記載の方法。
（項目１０）
前記差異損失はさらに色損失を含み、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前に、前記方法はさらに、
前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定することを含み、
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、
第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、
ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である、項目３から９のいずれか一項に記載の方法。
（項目１１）
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前に、さらに、
前記第二サンプル画像にノイズを注入し、ノイズ画像を得ることと、
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定することと、を含む、項目１から１０のいずれか一項に記載の方法。
（項目１２）
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定する前記ステップは、
構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、
構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定することと、
前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む、項目１１に記載の方法。
（項目１３）
構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する前記ステップは、
前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得ることと、
各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得ることと、を含み、
ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目１２に記載の方法。
（項目１４）
前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する前記ステップは、
対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算することと、
前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む、項目１２または１３に記載の方法。
（項目１５）
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、
第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、
ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である、項目１１から１４のいずれか一項に記載の方法。
（項目１６）
前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に、さらに、
画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得ることと、
前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定することと、を含む、項目４から１５のいずれか一項に記載の方法。
（項目１７）
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に、さらに、
画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得ることと、
前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定することと、を含む、項目１６に記載の方法。
（項目１８）
前記差異損失に基づいて前記画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、
第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、
ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である、項目１７に記載の方法。
（項目１９）
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップの後に、さらに、
前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得ることを含む、項目１から１８のいずれか一項に記載の方法。
（項目２０）
前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む、項目１９に記載の方法。
（項目２１）
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得ることと、
前記左眼画像および前記右眼画像に基づいて三次元画像を生成することと、を含み、
ここで、前記画像生成ネットワークは上記項目１から２０のいずれか一項に記載の画像生成ネットワークの訓練方法によって訓練して得られる、画像処理方法。
（項目２２）
第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されたサンプル取得ユニットと、
画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得るように構成された目標予測ユニットと、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成された差異損失特定ユニットと、
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得るように構成されたネットワーク訓練ユニットと、を含む、画像生成ネットワークの訓練装置。
（項目２３）
前記差異損失特定ユニットは、具体的に、構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成され、
前記ネットワーク訓練ユニットは、具体的に、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得るように構成される、項目２２に記載の装置。
（項目２４）
前記差異損失は第一構造差異損失および特徴損失を含み、
前記差異損失特定ユニットは、
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成された第一構造差異特定モジュールと、
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成された特徴損失特定モジュールと、を含む、項目２３に記載の装置。
（項目２５）
前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定し、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される、項目２４に記載の装置。
（項目２６）
前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する時に、構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得て、各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得るように構成され、ここで、前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目２５に記載の装置。
（項目２７）
前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する時に、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得るように構成され、ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する、項目２５または２６に記載の装置。
（項目２８）
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記第一構造差異特定モジュールは、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する時に、対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算し、前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される、項目２７に記載の装置。
（項目２９）
前記特徴損失特定モジュールは、具体的に、前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される、項目２４から２８のいずれか一項に記載の装置。
（項目３０）
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記特徴損失特定モジュールは、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する時に、対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算し、前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される、項目２９に記載の装置。
（項目３１）
前記差異損失はさらに色損失を含み、
前記差異損失特定ユニットは、さらに
前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定するように構成された色損失特定モジュールを含み、
前記ネットワーク訓練ユニットは、具体的に、第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である、項目２４から３０のいずれか一項に記載の装置。
（項目３２）
さらに、
前記第二サンプル画像にノイズを注入し、ノイズ画像を得るように構成されたノイズ注入ユニットと、
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定するように構成された第二構造差異損失ユニットと、を含む、項目２２から３１のいずれか一項に記載の装置。
（項目３３）
前記第二構造差異損失ユニットは、具体的に、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定し、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される、項目３２に記載の装置。
（項目３４）
前記第二構造差異損失ユニットは、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する時に、前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得て、各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得るように構成され、ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目３３に記載の装置。
（項目３５）
前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記第二構造差異損失ユニットは、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する時に、対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算し、前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される、項目３３または３４に記載の装置。
（項目３６）
前記ネットワーク訓練ユニットは、具体的に、第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である、項目３２から３５のいずれか一項に記載の装置。
（項目３７）
前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得て、前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定するように構成される、項目２５から３６のいずれか一項に記載の装置。
（項目３８）
前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得て、前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定するように構成される、項目３７に記載の装置。
（項目３９）
前記ネットワーク訓練ユニットは、具体的に、第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である、項目３８に記載の装置。
（項目４０）
さらに、
前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得るように構成された画像処理ユニットを含む、項目２２から３９のいずれか一項に記載の装置。
（項目４１）
前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む、項目４０に記載の装置。
（項目４２）
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るように構成された右眼画像取得ユニットと、
前記左眼画像および前記右眼画像に基づいて三次元画像を生成するように構成された三次元画像生成ユニットと、を含み、
ここで、前記画像生成ネットワークは上記項目１から２０のいずれか一項に記載の画像生成ネットワークの訓練方法によって訓練して得られる、画像処理装置。
（項目４３）
項目２２から４１のいずれか一項に記載の画像生成ネットワークの訓練装置または項目４２に記載の画像処理装置を含むプロセッサを含む、電子機器。
（項目４４）
プロセッサと、
プロセッサ実行可能命令を記憶するためのメモリと、を含み、
ここで、前記プロセッサは、前記実行可能命令を実行する時に項目１から２０のいずれか一項に記載の画像生成ネットワークの訓練方法、および／または項目２１に記載の画像処理方法を実現するように構成される、電子機器。
（項目４５）
コンピュータ可読命令が記憶されているコンピュータ記憶媒体であって、前記命令は実行される時に項目１から２０のいずれか一項に記載の画像生成ネットワークの訓練方法の動作、および／または項目２１に記載の画像処理方法の動作を実行する、コンピュータ記憶媒体。
（項目４６）
コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において運用される時、前記機器内のプロセッサは項目１から２０のいずれか一項に記載の画像生成ネットワークの訓練方法を実現するための命令、および／または項目２１に記載の画像処理方法を実現するための命令を実行する、コンピュータプログラム製品。

以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴および態様は明瞭になる。

本願の実施例が提供する画像生成ネットワークの訓練方法のフローチャートである。本願の実施例が提供する画像生成ネットワークの訓練方法の別のフローチャートである。本願の実施例が提供する画像生成ネットワークの訓練方法のさらに別の部分のフローチャートである。本願の実施例が提供する画像生成ネットワークの訓練方法に係るネットワーク構造の模式図である。本願の実施例が提供する画像処理方法のフローチャートである。本願の実施例が提供する画像生成ネットワークの訓練装置の構成模式図である。本願の実施例が提供する画像処理装置の構成模式図である。本願の実施例に係る端末機器またはサーバの実現に適する電子機器の構成模式図である。

明細書の一部となる図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈するために用いられる。

図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似の機能を有する要素を表す。図面に実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を描く必要がない。

ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材およびステップの相対的配置、数式および値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法および機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。

なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

近年、３Ｄ立体映画、広告、ライブ配信プラットフォームなどのメディアが盛んになることによって人々の日常生活がかなり充実するようになり、その産業規模の拡張もまた続いている。しかし、市場での３Ｄ表示ハードウェアの高い普及率および高いシェアに対し、立体動画コンテンツの制作は費用が高額で、制作期間が長く、労働コストが高いため、その数量が足りていない。それに比べて、２Ｄ動画素材は既にかなりの規模を持っており、かつテレビエンターテイメント、文化芸術、科学研究などの分野において豊富で、価値のある情報を蓄積していた。もし、これらの２Ｄ動画を自動的でコストの低い方法によって高品質の立体動画に変換できれば、全く新しいユーザ体験がもたらされ、その市場での応用の将来性が高い。

２Ｄから３Ｄ立体効果への変換には、入力される単眼画像に応じて、そのもう一つの視点で撮影されたシーンの内容を復元する必要がある。３Ｄのグラデーション感覚を作成するために、このプロセスでは、入力シーンの深度情報を理解する必要があり、両眼視差の関係に基づき、左眼に入る画素を視差で平行移動させ、右眼の内容を生成する。一般的な２Ｄから３Ｄへの変換方法は、比較によって右画像と実の右画像との平均色差を訓練信号として生成するだけであり、照明、遮蔽物、ノイズなどの環境要因からの影響を受けやすく、しかも、視覚面積が小さな対象の合成正確度を維持しにくく、その合成結果に大きな歪みが発生し、細部が失われる。従来の画像形状保持生成方法は、主に三次元世界の教師信号を導入することで、ネットワークに正確な視角間変換を学習させ、それにより異なる視角での形状の一貫性を維持する。しかし、導入される三次元情報は適用条件が特殊であるため、モデルの汎用化能力が制限され、実際の産業分野において役割を果たすことが困難である。

上記２Ｄから３Ｄ立体効果への変換プロセスで現れた問題に対して、本願の実施例は以下の画像生成ネットワークの訓練方法を提供し、本願の実施例の訓練方法によって得られた画像生成ネットワークは、該画像生成ネットワークに入力される単眼画像に基づき、そのもう一つの視点で撮影したシーンの内容を出力し、２Ｄから３Ｄ立体効果への変換を実現することができる。

図１は本願の実施例が提供する画像生成ネットワークの訓練方法のフローチャートである。図１に示すように、該実施例の方法は以下を含む。

ステップ１１０において、サンプル画像を取得する。

ここで、サンプル画像は第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含む。

本願の実施例における画像生成ネットワークの訓練方法の動作主体は端末機器またはサーバまたは他の処理機器としてもよく、そのうち、端末機器はユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器などであってもよい。いくつかの可能な実施形態では、該画像生成ネットワークの訓練方法はプロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すように実現できる。

そのうち、上記画像フレームは単一フレーム画像であってもよく、画像収集機器が収集した画像、例えば端末機器のカメラが撮影した写真、または映像収集機器が収集した映像データにおける単一フレーム画像などであってもよく、本願の実施例はその具体的な実施形態を限定しない。

一実施形態として、第二サンプル画像は実の画像であってもよく、本願の実施例において画像生成ネットワーク性能を測定するための参照情報とすることができ、画像生成ネットワークは、得られた予測目標画像と第二サンプル画像との差異がより少ないことを目標としている。サンプル画像は対応関係が既知の画像ライブラリから選択されるかまたは実際の必要に応じて撮影して得られる。

ステップ１２０において、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得する。

一実施形態として、本願の実施例が提供する画像生成ネットワークは、例えば３Ｄ画像合成などの機能に用いることができ、画像生成ネットワークは任意の立体画像生成ネットワーク、例えば、ワシントン大学のＸｉｅらが２０１６年に提案したディープ（Ｄｅｅｐ）３Ｄネットワークなどを用いてもよく、他の画像生成用途では、該画像生成ネットワークが入力されるサンプル画像によってエンドツーエンドで目標画像を合成できることを保証するだけでよいように、画像生成ネットワークを対応して取り替えてもよい。

ステップ１３０において、予測目標画像と第二サンプル画像との間の差異損失を特定する。

本願の実施例は差異損失で画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を記述することを提案し、したがって、差異損失で訓練した画像生成ネットワークは、生成した予測目標画像と第二サンプル画像との間の類似性が向上し、画像生成ネットワークの性能が向上する。

ステップ１４０において、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る。

本願の上記実施例が提供する画像生成ネットワークの訓練方法に基づき、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。

図２は本願の実施例が提供する画像生成ネットワークの訓練方法の別のフローチャートである。図２に示すように、本願の実施例は以下を含む。

ステップ２１０において、サンプル画像を取得する。

ステップ２２０において、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得する。

ステップ２３０において、構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の差異損失を特定する。

一実施例では、構造分析ネットワークは三層までの特徴を抽出することができればよく、つまり、数層の畳み込みニューラルネットワーク（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）からなるエンコーダを含めればよい。任意選択的に、本願の実施例における構造分析ネットワークはエンコーダおよびデコーダからなる。そのうち、エンコーダは、一つの画像（本願の実施例における予測目標画像および第二サンプル画像）を入力とし、一連の異なるスケールにおける特徴マップを得、例えば、数層のＣＮＮネットワークを含む。デコーダは、これらの特徴マップを入力とし、入力画像そのものを再構成する。上記要件を満たすネットワーク構造であれば、構造分析ネットワークとすることができる。

敵対的訓練の参照情報として、該差異損失は、例えば予測目標画像の構造特徴と第二サンプル画像の構造特徴との間の差異によって差異損失を特定するように、構造特徴に基づいて特定され、本願の実施例が提供する構造特徴は一つの位置を中心とした局所領域とその周囲領域との正規化関連性と認められてもよい。

任意選択的な一実施形態として、本願の実施例はＵＮｅｔ構造を採用してもよい。該構造のエンコーダは３つの畳み込みモジュールを含み、各モジュールは二つの畳み込み層および一つの平均プーリング層を含む。したがって、畳み込みモジュールを一つ経由する度に、解像度が半分になり、最終的に得られた特徴マップのサイズが元画像のサイズの１／２、１／４および１／８となる。デコーダは３つの同様なアップサンプリング層を含み、各層が上の層の出力をアップサンプリングしてから二つの畳み込み層に通過させ、最後の層の出力が元の解像度となる。

ステップ２４０において、差異損失に基づいて画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る。

任意選択的な一実施形態として、訓練段階で、画像生成ネットワークおよび構造分析ネットワークにより敵対的訓練を行い、入力画像が画像生成ネットワークを経由する場合、例えば３Ｄ画像生成に用いられる場合、一つの視点での画像を画像生成ネットワークに入力し、該画像のもう一つの視点での生成画像を得る。生成画像および該視点での実の画像を同一の構造分析ネットワークに入力し、それぞれのマルチスケール特徴マップを得る。各スケールで、それぞれの特徴関連性表現を、該スケールにおける構造表示として計算する。訓練プロセスは敵対的な方法で行われ、構造分析ネットワークに求められるのは、生成画像と実の画像との構造表示における距離をどんどん拡大することであり、同時に画像生成ネットワークに求められるのは、得る生成画像が該距離を最大限で縮小できることである。

図３は本願の実施例が提供する画像生成ネットワークの訓練方法のさらに別の部分のフローチャートである。該実施例では、差異損失は第一構造差異損失および特徴損失を含み、
上記図１および／または図２に示す実施例におけるステップ１３０および／またはステップ２３０は、
構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するステップ３０２と、
構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の特徴損失を特定するステップ３０４と、を含む。

本願の実施例では、構造分析ネットワークによって目標画像および第二サンプル画像（例えば、第一サンプル画像に対応する実の画像）を処理し、複数のスケールにおける特徴マップをそれぞれ得ることができ、各スケールにおける特徴マップにおける各位置の構造特徴に対して、目標画像が対応する複数の特徴マップにおける各位置の構造特徴、および第二サンプル画像が対応する複数の特徴マップにおける各位置の構造特徴に基づき、第一構造差異損失を特定し、特徴損失は予測目標画像が対応する複数の特徴マップにおける各位置および第二サンプル画像が対応する複数の特徴マップにおける各位置に基づいて特定される。

一実施形態として、ステップ３０２は、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定することと、を含む。

本願の実施例は構造分析ネットワークによって予測目標画像および第二サンプル画像をそれぞれ処理し、予測目標画像に対して少なくとも一つの特徴マップを得て、各特徴マップにおける各位置に対してそれぞれ一つの第一構造特徴を得て、つまり、少なくとも一つの第一構造特徴を得る。第二サンプル画像に対しても同様に少なくとも一つの第二構造特徴を得る。本願の実施例における第一構造差異損失は各スケールにおける各位置が対応する目標画像の第一構造特徴と第二サンプル画像の第二構造特徴との間の差異を統計することで得られ、つまり、二つの画像間の構造差異損失を特定するよう、各スケールにおける同じ位置が対応する第一構造特徴と第二構造特徴との間の構造差異がそれぞれ計算される。

例えば、一例では、本願の実施例は３Ｄ画像生成ネットワークの訓練に用いられ、つまり、画像生成ネットワークは左眼画像（サンプル画像に対応する）に基づいて右眼画像（目標画像に対応する）を生成することを完了しており、入力される左眼画像はｘ、生成される右眼画像はｙ、実の右眼画像は

とする。下式（１）で計算することができる。

式中、

は第一構造差異損失を表し、

は一つのスケールにおける生成される右眼画像ｙの特徴マップにおける位置ｐの第一構造特徴を表し、

は、一つのスケールにおける実の右眼画像

の特徴マップにおける位置ｐの第二構造特徴を表し、Ｐは全てのスケールにおける特徴マップにおける全ての位置を表し、

距離を表す。

訓練段階で、構造分析ネットワークは、上式で表される構造距離を最大化できるように、一つの特徴空間を探す。同時に、画像生成ネットワークは実の右画像の構造にできる限り類似する右画像を生成することで、構造分析ネットワークが両者の差異性を区別しかねるようにする。敵対的訓練によって、異なるグラデーションの構造差異を見出し、画像生成ネットワークの修正に持続的に使用することができる。

一実施形態として、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定するステップは、構造分析ネットワークに基づいて予測目標画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップを得ることと、各第一特徴マップに対して、第一特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、予測目標画像の少なくとも一つの第一構造特徴を得ることと、を含む。

ここで、第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、隣接領域特徴が、該位置を中心として少なくとも二つの位置を含む領域内の各特徴である。

一実施形態として、本願の実施例における隣接領域特徴は各位置特徴を中心とした、サイズがＫ＊Ｋの領域内の各特徴として表すことができる。

任意選択的な一例では、本願の実施例は３Ｄ画像生成ネットワークの訓練に用いられ、つまり、画像生成ネットワークは左眼画像（サンプル画像に対応する）に基づいて右眼画像（目標画像に対応する）を生成することを完了しており、入力される左眼画像はｘ、生成される右眼画像はｙ、実の右眼画像は

とする。ｙおよび

を構造分析ネットワークにそれぞれ入力した後、マルチスケール特徴を得る。以下、あるスケールのみを例にし、他のスケールの処理方法は同様とする。該スケールで、生成される右画像および実の右画像の特徴マップをそれぞれｆおよび

とする。生成される右画像の特徴マップにおけるある画素位置ｐに対して、ｆ（ｐ）は該位置の特徴を表す。すると、該スケールで、位置ｐでの第一構造特徴は下式（２）に基づいて得ることができる。

式中、

は位置ｐを中心とした、サイズがｋ×ｋの領域内の位置の集合を表し、ｑは位置集合内の一つの位置を表し、

は位置ｑの特徴であり、

はベクトルのノルムであり、ｖｅｃはベクトル化を表す。上式は特徴マップにおける位置ｐとその周囲の近隣位置とのコサイン距離を計算する。任意選択的に、本願の実施例はウィンドウのサイズｋを３とすることができる。

一実施形態として、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定するステップは、構造分析ネットワークに基づいて第二サンプル画像を処理し、少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得ることと、各第二特徴マップに対して、第二特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、第二サンプル画像の少なくとも一つの第二構造特徴を得ることと、を含む。

ここで、第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する。

任意選択的な一例では、本願の実施例は３Ｄ画像生成ネットワークの訓練に用いられ、つまり、画像生成ネットワークは左眼画像（第一サンプル画像に対応する）に基づいて右眼画像（予測目標画像に対応する）を生成することを完了しており、入力される左眼画像はｘ、生成される右眼画像はｙ、実の右眼画像は

とする。ｙおよび

とする。実の右画像の特徴マップにおけるある画素位置ｐに対して、

は該位置の特徴を表す。すると、該スケールで、位置ｐの第二構造特徴は下式（３）に基づいて得ることができる。

式中、

は位置ｑの特徴であり、

一実施形態として、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するステップは、対応関係を有する位置が対応する第一構造特徴と第二構造特徴との間の距離を計算することと、予測目標画像が対応する全ての第一構造特徴と第二構造特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定することと、を含む。

本願の実施例において第一構造差異損失を計算して得るプロセスは上記実施例における式（１）を参照すればよく、上記実施例における式（２）および式（３）に基づいて目標画像ｙの一つのスケールにおける特徴マップにおける位置ｐの第一構造特徴ｃ（ｐ）、および実の画像

の一つのスケールにおける特徴マップにおける位置ｐの第二構造特徴

をそれぞれ得ることができ、第一構造特徴と第二構造特徴との間の距離はＬ_１距離であってもよい。

任意選択的な一つ以上の実施例では、ステップ３０４は、構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得ることと、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定することと、を含む。

本願の実施例における特徴損失は、上記実施例において第一構造差異損失が構造特徴に基づいて得られることとは異なり、予測目標画像および第二サンプル画像によって得られた対応する特徴マップ間の差異で特定される。任意選択的に、ここで、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定するステップは、対応関係を有する位置が対応する第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離を計算することと、第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定することと、を含む。

任意選択的な一実施例では、各位置が対応する第一特徴マップにおける特徴と第二特徴マップにおける特徴との間のＬ_１距離を計算し、Ｌ_１距離によって特徴損失を特定する。任意選択的に、予測目標画像をｙ、第二サンプル画像を

と仮定する。Ｙおよび

を構造分析ネットワークにそれぞれ入力した後、マルチスケール特徴マップを得る。以下、あるスケールのみを例にし、他のスケールの処理方法は同様とする。該スケールで、予測目標画像および第二サンプル画像の特徴マップをそれぞれｆおよび

とする。第二サンプル画像の特徴マップにおけるある画素位置ｐに対して、

は該位置の特徴を表す。このとき、下式（４）に基づいて特徴損失を得ることができる。

式中、

は予測目標画像と第二サンプル画像との特徴損失を表し、

は第一特徴マップにおけるｐ位置の特徴であり、

は第二特徴マップにおけるｐ位置の特徴を表す。

一実施形態として、差異損失はさらに色損失を含んでもよく、ステップ２４０を実行する前に、さらに、予測目標画像と第二サンプル画像との間の色差に基づき、画像生成ネットワークの色損失を特定することを含む。

本願の実施例は色損失で予測目標画像と第二サンプル画像との間の色差を示し、予測目標画像と第二サンプル画像とをできる限り色が近いようにし、任意選択的に、予測目標画像をｙ、第二サンプル画像を

と仮定すれば、色損失は下式（５）に基づいて得ることができる。

式中、

は予測目標画像と第二サンプル画像との色損失を表し、

は予測目標画像ｙと第二サンプル画像

との間のＬ_１距離を表す。

本実施例では、ステップ２４０は、第一反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整することと、第二反復処理において、第一構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含む。

ここで、第一反復処理と第二反復処理は連続的に実行される二回の反復処理である。任意選択的に、訓練停止条件は、予め設定された反復処理回数に達すること、または画像生成ネットワークによって生成される予測目標画像と第二サンプル画像との間の差異が設定値よりも小さくなることなどとしてもよく、本願の実施例は具体的にどの訓練停止条件を採用するかを限定しない。

敵対的訓練は画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を小さくすることを目標とする。敵対的訓練は通常、交互訓練の方法で実現し、本願の実施例は画像生成ネットワークおよび構造分析ネットワークを交互に訓練することで、要件を満たす画像生成ネットワークを得ており、任意選択的に、画像生成ネットワークのネットワークパラメータは下式（６）によって調整できる。

式中、

は画像生成ネットワーク内の最適化しようとするパラメータを表し、

は画像生成ネットワークが対応する総損失を表し、

は画像生成ネットワークのパラメータを調整することで画像生成ネットワークの総損失を縮小することを表し、

は画像生成ネットワークによって生成される予測目標画像と第二サンプル画像との間の色損失、第一構造差異損失および特徴損失をそれぞれ表し、任意選択的に、これらの損失は上記式（５）、（１）および（４）で特定するか、または他の方法でこの三種類の損失を得ることができ、本願の実施例は色損失、第一構造差異損失および特徴損失を得る具体的な方法を限定しない。

一実施形態として、構造分析ネットワークのネットワークパラメータは下式（７）によって調整できる。

式中、

は構造分析ネットワーク内の最適化しようとするパラメータを表し、

は構造分析ネットワークが対応する総損失を表し、

は構造分析ネットワークのパラメータを調整することで構造分析ネットワークの総損失を増大することを表し、

は構造分析ネットワークの第一構造差異損失を表し、任意選択的に、第一構造差異損失は上記式（１）を参照して特定するか、または他の方法で得ることができ、本願の実施例は第一構造差異損失を得る具体的な方法を限定しない。

任意選択的な一つ以上の実施例では、目標画像と実の画像との間の構造差異損失を特定する前に、さらに、第二サンプル画像にノイズを注入し、ノイズ画像を得ることと、ノイズ画像および第二サンプル画像に基づいて第二構造差異損失を特定することと、を含む。

予測目標画像はサンプル画像によって生成され、第二サンプル画像は通常、照明差異を有しかつノイズによる影響を受けるため、生成される予測目標画像と第二サンプル画像とは一定の分布差異を有する。構造分析ネットワークが、シーン構造情報ではないこれらの差異に注目することを回避するために、本願の実施例は訓練プロセスにノイズに対する抵抗メカニズムを追加する。

一実施形態として、ノイズ画像および第二サンプル画像に基づいて第二構造差異損失を特定するステップは、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定することと、を含む。

一実施形態として、ノイズ画像は、例えば、第二サンプル画像に人工ノイズを注入し、ノイズ画像を生成するように、第二サンプル画像に基づいて処理して得られ、ノイズの注入方法は様々あり、例えば、ランダムガウスノイズを注入したり、実の画像（第二サンプル画像）にガウシアンぼかしをかけたり、コントラストを変更したりすることなどである。本願の実施例は、ノイズ注入後に得られたノイズ画像が、第二サンプル画像における形状構造が変化せず、第二サンプル画像における構造に影響しない属性（例えば、色、テクスチャなど）のみが変化することを要求しており、本願の実施例はノイズ画像を得る具体的な方法を限定しない。

本願の実施例における構造分析ネットワークはカラー画像を入力としており、それに対して従来の構造分析ネットワークは主にマスク画像またはグレースケール画像を入力とする。カラー画像のような高次元信号を処理する時、環境ノイズからの妨害を受けやすい。そのため、本願の実施例は第二構造差異損失を導入して構造特徴のノイズロバスト性を増強することを提案する。従来の構造の敵対的訓練方法にこのようなノイズ抵抗メカニズムがないという欠点を補う。

一実施形態として、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定するステップは、構造分析ネットワークに基づいてノイズ画像を処理し、少なくとも一つのスケールにおけるノイズ画像の第三特徴マップを得ることと、各第三特徴マップに対して、第三特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、ノイズ画像の少なくとも一つの第三構造特徴を得ることと、を含む。

ここで、第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、隣接領域特徴が、該位置を中心として少なくとも二つの位置を含む領域内の各特徴である。

本願の実施例において第三構造特徴を特定する方法は第一構造特徴を特定する方法に類似し、任意選択的に、一例では、入力される第一サンプル画像をｘ、第二サンプル画像を

ノイズ画像を

と仮定する。

を構造分析ネットワークにそれぞれ入力した後、マルチスケール特徴を得る。以下、あるスケールのみを例にし、他のスケールの処理方法は同様とする。該スケールで、ノイズ画像および第二サンプル画像の特徴マップをそれぞれ

とする。ノイズ画像の特徴マップにおけるある画素位置ｐに対して、

は該位置の特徴を表す。すると、該スケールで、位置ｐの第三構造特徴は下式（８）に基づいて得ることができる。

式中、

は位置ｐを中心とした、サイズがｋ×ｋの領域内の位置の集合を表し、ｑは位置集合内の一つの位置であり、

は位置ｑの特徴であり、

一実施形態として、第三特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定するステップは、対応関係を有する位置が対応する第三構造特徴と第二構造特徴との間の距離を計算することと、ノイズ画像が対応する全ての第三構造特徴と第二構造特徴との間の距離に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定することと、を含む。

本願の実施例では、第一構造差異損失を得るプロセスでの予測目標画像の第一構造特徴に代えて本願の実施例におけるノイズ画像の第三構造特徴を使用すること以外は、第二構造差異損失を得るプロセスが第一構造差異損失を得るプロセスと同様である。任意選択的に、下式（９）に基づいて第二構造差異損失を得ることができる。

式中、

は第二構造差異損失を表し、

は位置ｐの第三構造特徴を表し、Ｐは全てのスケールにおける特徴マップにおける全ての位置を表し、

は位置ｐの第二構造特徴（上式（３）に基づいて得ることができる）を表し、

との間のＬ_１距離を表す。

任意選択的な一つ以上の実施例では、ステップ２４０は、第三反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整することと、第四反復処理において、第一構造差異損失および第二構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含む。

ここで、第三反復処理と第四反復処理は連続的に実行される二回の反復処理である。ノイズ画像が対応する第二構造差異損失を得た後、構造分析ネットワークの性能を向上させるために、構造分析ネットワークのネットワークパラメータを調整する時、第二構造差異損失を追加し、このとき、構造分析ネットワークのネットワークパラメータは下式（１０）によって調整できる。

式中、

は構造分析ネットワークが対応する総損失を表し、

は構造分析ネットワークの第一構造差異損失を表し、

は構造分析ネットワークの第二構造差異損失を表し、

は第二構造差異損失の構造分析ネットワークのパラメータ調整における割合を調整するために設定された定数を表し、任意選択的に、第一構造差異損失および第二構造差異損失はそれぞれ上記式（１）および式（９）を参照して特定するか、または他の方法で得ることができ、本願の実施例は第一構造差異損失を得る具体的な方法を限定しない。

任意選択的な一つ以上の実施例では、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得ることと、第一再構成画像および予測目標画像に基づいて第一再構成損失を特定することと、を含む。

本実施例では、構造分析ネットワークの性能を向上させるために、構造分析ネットワークの後に画像再構成ネットワークを追加し、任意選択的に、図４を参照して構造分析ネットワークの出力端に画像再構成ネットワークを接続することができ、該画像再構成ネットワークは構造分析ネットワークの出力を入力し、例えば、図４に示す３Ｄ画像適用シーンで、画像生成ネットワークによって生成される右眼画像（上記実施例における予測目標画像に対応する）および実の右眼画像（上記実施例における第二サンプル画像に対応する）を再構成するように、構造分析ネットワークに入力される画像を再構成し、再構成した生成右眼画像と画像生成ネットワークによって生成される右眼画像との間の差異、および再構成した実の右眼画像と入力左眼画像が対応する実の右眼画像との間の差異で構造分析ネットワークの性能を測定し、つまり、第一再構成損失および第二再構成損失を増大することで構造分析ネットワークの性能を向上させ、構造分析ネットワークの訓練速度を向上させる。

任意選択的な一つ以上の実施例では、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得ることと、第二再構成画像および第二サンプル画像に基づいて第二再構成損失を特定することと、を含む。

前の実施例を参照すると、本実施例における画像再構成ネットワークは構造分析ネットワークが第二サンプル画像に基づいて得る第二構造特徴を再構成し、得られた第二再構成画像と第二サンプル画像との間の差異で画像再構成ネットワークおよび構造分析ネットワークの性能を測定しており、第二再構成損失によって構造分析ネットワークの性能を向上させることできる。

一実施形態として、ステップ２４０は、第五反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整することと、第六反復処理において、第一構造差異損失、第二構造差異損失、第一再構成損失および第二再構成損失に基づいて構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含む。

ここで、第五反復処理と第六反復処理は連続的に実行される二回の反復処理である。本願の実施例では、画像生成ネットワークのパラメータを調整する損失が変わることがなく、構造分析ネットワークの性能のみを向上させ、構造分析ネットワークと画像生成ネットワークとは敵対的に訓練されるため、構造分析ネットワークの性能を向上させることで、画像生成ネットワークの訓練を加速することができる。任意選択的な一例では、下式（１１）により第一再構成損失および第二再構成損失を得ることができる。

式中、

は第一再構成損失と第二再構成損失の和を表し、ｙは画像生成ネットワークが出力する予測目標画像を表し、

は第二サンプル画像を表し、

は画像再構成ネットワークが出力する第一再構成画像を表し、

は画像再構成ネットワークが出力する第二再構成画像を表し、

は予測目標画像ｙと第一再構成画像との間のＬ_１距離を表し、第一再構成損失に対応し、

は第二サンプル画像と第二再構成画像との間のＬ_１距離を表し、第二再構成損失に対応する。

図４は本願の実施例が提供する画像生成ネットワークの訓練方法に係るネットワーク構造の模式図である。図４に示すように、本実施例において画像生成ネットワークの入力は左眼画像であり、画像生成ネットワークは左眼画像に基づき、生成される右眼画像（上記実施例における予測目標画像に対応する）を得て、生成される右眼画像、実の右眼画像、および実の右眼画像（上記実施例の第二サンプル画像に対応する）に基づいて追加されるノイズ画像を同一の構造分析ネットワークにそれぞれ入力し、構造分析ネットワークによって、生成される右眼画像および実の右眼画像を処理し、特徴損失（図中の特徴マッチング損失に対応する）、第一構造差異損失（図中の構造損失に対応する）、第二構造差異損失（図中の別の構造損失に対応する）を得ており、構造分析ネットワークの後にさらに画像再構成ネットワークが含まれ、画像再構成ネットワークは生成右眼画像によって生成される特徴を新たな生成右眼画像として再構成し、実の右眼画像によって生成される特徴を新たな実の右眼画像として再構成する。

任意選択的な一つ以上の実施例では、ステップ１４０の後に、さらに、
訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得ることを含む。

本願の実施例が提供する訓練方法は、具体的な応用において、訓練後の画像生成ネットワークに基づき、入力される処理待ち画像を処理し、所望の目標画像を得ており、該画像生成ネットワークは２Ｄ動画から３Ｄ立体画像への変換、高フレームレートの映像の生成などに用いることができ、前記方法はさらに、一つの視角が既知の画像を画像生成ネットワークによって処理し、もう一つの視角での画像を得ることを含む。生成される高品質の右眼画像は他の視覚タスク、例えば、両眼画像（左眼画像および右眼画像を含む）に基づく深度推定の実現にも寄与する。任意選択的に、画像生成ネットワークが２Ｄ動画から３Ｄ立体画像への変換に用いられる場合、処理待ち画像は左眼画像を含み、目標画像は左眼画像に対応する右眼画像を含む。立体画像生成以外、該方法は他の画像／映像の生成タスク、例えば、画像の任意の新たな視点内容の生成、キーフレームに基づく映像補間などに用いることもできる。これらの場合には、画像生成ネットワークを目標タスクに必要なネットワーク構造に取り替えるだけでよい。

本願の実施例が提供する訓練方法を三次元画像生成シーンに用いる場合、画像生成ネットワークおよび構造分析ネットワークの一回の敵対的訓練は以下のステップを含んでもよい。

１）訓練集合（複数のサンプル画像を含む）から、ｍ個のサンプル画像を含む左画像

およびその対応する実の右画像

をサンプリングする。

２）左画像を画像生成ネットワークに入力し、生成される右画像

を得て、各実の右画像に対して、ノイズを注入してノイズ右画像

を得る。

３）生成右画像

、
実の右画像

およびノイズの右画像

を構造分析ネットワークにそれぞれ入力し、構造発現特徴

を計算する。

４）構造分析ネットワークに対して、勾配上昇を実行する。

５）画像生成ネットワークに対して、勾配降下を実行する。

ここで、減衰学習率γは反復処理回数の増加に伴って漸次減衰可能であり、ネットワークパラメータ調整におけるネットワーク損失の割合は学習率によって制御され、ノイズ右画像を得る時に、注入されるノイズの振幅は毎回の反復処理において同じであってもよく、または反復処理回数の増加に伴って漸次減衰してもよい。

図５は本願の実施例が提供する画像処理方法のフローチャートである。該実施例の方法は、
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るステップ５１０と、
左眼画像および右眼画像に基づいて三次元画像を生成するステップ５２０と、を含む。

ここで、画像生成ネットワークは上記いずれかの実施例が提供する画像生成ネットワークの訓練方法によって訓練して得られる。

本願の実施例が提供する画像処理方法は、画像生成ネットワークによって左眼画像を処理して対応する右眼画像を得ており、照明、遮蔽物、ノイズなどの環境要因からの影響が小さく、視覚面積が小さな対象の合成正確度を維持でき、得られた右眼画像および左眼画像によって歪みが小さく、細部が比較的完全に保持された三次元画像を生成できる。本願の実施例が提供する画像処理方法は映画の２Ｄから３Ｄへの自動変換に用いることができる。３Ｄ映画の手動変換制作には高い費用、長い制作期間および大量の労働コストが必要である。例えば、『タイタニック』の３Ｄバージョン変換の制作費用が１８００万ドルまで高く、後期制作の特殊効果エンジニアが３００余りの人数に達し、７５万時間がかかった。２Ｄから３Ｄへの自動変換アルゴリズムによってこのコストを大幅に削減し、３Ｄ映画の制作フローを加速することができる。高品質の３Ｄ映画を生成するには、構造に歪みが発生せず、歪曲がない立体画像を生成し、正確な３Ｄのグラデーション感覚を作り、局所歪みによる視覚的な違和感を回避することが重要な要因の一つである。そのため、形状が維持される立体画像の生成は重要な意義を有する。

本願の実施例が提供する画像処理方法は３Ｄ広告業界に用いることもできる。現在、複数の都市では繁華街、映画館、遊園地などの施設に３Ｄ広告ディスプレイスクリーンが設置されている。高品質の３Ｄ広告を生成すれば、ブランドのプロモーション効果を向上させ、顧客により良好な現場体験を提供することができる。

本願の実施例が提供する画像処理方法は３Ｄライブ配信業界に用いることもできる。従来の３Ｄライブ配信には配信者が専門の両眼カメラを購入する必要があり、それはこの業界に従事するコストや障害を増加する。高品質の２Ｄから３Ｄへの自動変換によって、この業界に従事するコストを削減し、ライブ配信のライブ感やインタラクティブ性を増強することができる。

本願の実施例が提供する画像処理方法は将来、スマートフォン業界に用いることもできる。現在、裸眼３Ｄ表示機能を有するスマートフォンはホットなコンセプトとなっており、いくつかのメーカーはコンセプト試作機を設計していた。撮影した２Ｄ画像を３Ｄへ自動的に変換し、ソーシャルＡＰＰによってユーザ間の伝播、共有を実現することで、移動端末に基づく対話に関する新鮮なユーザ体験をもたらすことができる。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、読み取り専用メモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。

図６は本願の実施例が提供する画像生成ネットワークの訓練装置の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図６に示すように、該実施例の装置は、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されたサンプル取得ユニット６１と、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得するように構成された目標予測ユニット６２と、予測目標画像と第二サンプル画像との間の差異損失を特定するように構成された差異損失特定ユニット６３と、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得るように構成されたネットワーク訓練ユニット６４と、を含む。

本願の上記実施例が提供する画像生成ネットワークの訓練装置に基づき、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。

任意選択的な一つ以上の実施例では、差異損失特定ユニット６３は、具体的に、構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の差異損失を特定するように構成され、ネットワーク訓練ユニット６４は、具体的に、差異損失に基づいて画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得るように構成される。

一実施形態として、訓練段階で、画像生成ネットワークおよび構造分析ネットワークにより敵対的訓練を行い、入力画像が画像生成ネットワークを経由する場合、例えば３Ｄ画像生成に用いられる場合、一つの視点での画像を画像生成ネットワークに入力し、該画像のもう一つの視点での生成画像を得る。生成画像および該視点での実の画像を同一の構造分析ネットワークに入力し、それぞれのマルチスケール特徴マップを得る。各スケールで、それぞれの特徴関連性表現を、該スケールにおける構造表示として計算する。訓練プロセスは敵対的な方法で行われ、構造分析ネットワークが生成画像と実の画像との構造表示における距離を常に拡大すること、および画像生成ネットワークによって得られた生成画像が該距離を最大限で縮小できることが求められる。

一実施形態として、差異損失は第一構造差異損失および特徴損失を含み、
差異損失特定ユニット６３は、構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するように構成された第一構造差異特定モジュールと、構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の特徴損失を特定するように構成された特徴損失特定モジュールと、を含む。

一実施形態として、第一構造差異特定モジュールは、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定し、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するように構成される。

一実施形態として、第一構造差異特定モジュールは、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する時に、構造分析ネットワークに基づいて予測目標画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップを得て、各第一特徴マップに対して、第一特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、予測目標画像の少なくとも一つの第一構造特徴を得るように構成される。

一実施形態として、第一構造差異特定モジュールは、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する時に、構造分析ネットワークに基づいて第二サンプル画像を処理し、少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得て、各第二特徴マップに対して、第二特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、第二サンプル画像の少なくとも一つの第二構造特徴を得るように構成される。

一実施形態として、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、
第一構造差異特定モジュールは、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定する場合に、対応関係を有する位置が対応する第一構造特徴と第二構造特徴との間の距離を計算し、予測目標画像が対応する全ての第一構造特徴と第二構造特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するように構成される。

一実施形態として、特徴損失特定モジュールは、具体的に、構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得て、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定するように構成される。

一実施形態として、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、
特徴損失特定モジュールは、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定する場合に、対応関係を有する位置が対応する第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離を計算し、第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定するように構成される。

一実施形態として、差異損失はさらに色損失を含み、
差異損失特定ユニット６３はさらに、予測目標画像と第二サンプル画像との間の色差に基づき、画像生成ネットワークの色損失を特定するように構成された色損失特定モジュールを含み、ネットワーク訓練ユニット６４は、具体的に、第一反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整し、第二反復処理において、第一構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得るように構成される。

ここで、第一反復処理と第二反復処理は連続的に実行される二回の反復処理である。敵対的訓練は画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を小さくすることを目標とする。敵対的訓練は通常、交互訓練の方法で実現し、本願の実施例は画像生成ネットワークおよび構造分析ネットワークを交互に訓練することで、要件を満たす画像生成ネットワークを得る。

任意選択的な一つ以上の実施例では、本願の実施例が提供する装置はさらに、第二サンプル画像にノイズを注入し、ノイズ画像を得るように構成されたノイズ注入ユニットと、ノイズ画像および第二サンプル画像に基づいて第二構造差異損失を特定するように構成された第二構造差異損失ユニットと、を含む。

予測目標画像はサンプル画像によって生成され、第二サンプル画像は通常、照明差異を有しかつノイズによる影響を受けるため、生成される予測目標画像と第二サンプル画像とは一定の分布差異を有する。構造分析ネットワークが、シーン構造情報ではなくこれらの差異に注目することを回避するために、本願の実施例は訓練プロセスにノイズに対する抵抗メカニズムを追加する。

一実施形態として、第二構造差異損失ユニットは、具体的に、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定し、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定するように構成される。

一実施形態として、第二構造差異損失ユニットは、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する時に、構造分析ネットワークに基づいてノイズ画像を処理し、少なくとも一つのスケールにおけるノイズ画像の第三特徴マップを得て、各第三特徴マップに対して、第三特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、ノイズ画像の少なくとも一つの第三構造特徴を得るように構成され、ここで、第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、隣接領域特徴が、該位置を中心として少なくとも二つの位置を含む領域内の各特徴である。

一実施形態として、第三特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、
第二構造差異損失ユニットは、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定する場合に、対応関係を有する位置が対応する第三構造特徴と第二構造特徴との間の距離を計算し、ノイズ画像が対応する全ての第三構造特徴と第二構造特徴との間の距離に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定するように構成される。

一実施形態として、ネットワーク訓練ユニットは、具体的に、第三反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整し、第四反復処理において、第一構造差異損失および第二構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得るように構成される。ここで、第三反復処理と第四反復処理は連続的に実行される二回の反復処理である。

一実施形態として、第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得て、第一再構成画像および予測目標画像に基づいて第一再構成損失を特定するように構成される。

一実施形態として、第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得て、第二再構成画像および第二サンプル画像に基づいて第二再構成損失を特定するように構成される。

一実施形態として、ネットワーク訓練ユニットは、具体的に、第五反復処理において、第一構造差異損失、特徴損失および前記色損失に基づいて画像生成ネットワークのネットワークパラメータを調整し、第六反復処理において、第一構造差異損失、第二構造差異損失、第一再構成損失および第二再構成損失に基づいて構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得るように構成される。ここで、第五反復処理と第六反復処理は連続的に実行される二回の反復処理である。

任意選択的な一つ以上の実施例では、本願の実施例が提供する装置はさらに、訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得るように構成された画像処理ユニットを含む。

本願の実施例が提供する訓練装置は、具体的な応用において、訓練後の画像生成ネットワークに基づいて、入力される処理待ち画像を処理し、所望の目標画像を得ており、該画像生成ネットワークは２Ｄ動画から３Ｄ立体画像への変換、高フレームレートの映像の生成などに用いることができる。

一実施形態として、処理待ち画像は左眼画像を含み、目標画像は左眼画像に対応する右眼画像を含む。

図７は本願の実施例が提供する画像処理装置の構成模式図である。該実施例の装置は、三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るように構成された右眼画像取得ユニット７１と、左眼画像および右眼画像に基づいて三次元画像を生成するように構成された三次元画像生成ユニット７２と、を含む。

本願の実施例が提供する画像処理装置は、画像生成ネットワークによって左眼画像を処理して対応する右眼画像を得ており、照明、遮蔽物、ノイズなどの環境要因からの影響が小さく、視覚面積が小さな対象の合成正確度を維持でき、得られた右眼画像および左眼画像によって歪みが小さく、細部が比較的完全に保持された三次元画像を生成できる。

本願の実施例は、上記いずれかの実施例に記載の画像生成ネットワークの訓練装置または上記実施例に記載の画像処理装置を含むプロセッサを含む電子機器を提供する。

本願の実施例は、プロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器を提供し、ここで、前記プロセッサは前記実行可能命令を実行することで、前記いずれかの実施例に記載の画像生成ネットワークの訓練方法または画像処理方法を実現するように構成される。

本願の実施例はコンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、前記可読命令は実行される時に上記いずれかの実施例に記載の画像生成ネットワークの訓練方法の動作、または上記実施例に記載の画像処理方法の動作を実行するコンピュータ記憶媒体を提供する。

本願の実施例はコンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において運用される時、前記機器内のプロセッサは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法を実現するための命令、または上記実施例に記載の画像処理方法を実現するための命令を実行するコンピュータプログラム製品を提供する。

本願の実施例は電子機器をさらに提供し、例えば移動端末、パーソナルコンピュータ（ＰＣ、ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット、サーバなどであってもよい。以下に図８を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器８００の構成模式図が示される。図８に示すように、電子機器８００は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８０１、および／または一つ以上の専用プロセッサであり、専用プロセッサは加速ユニット８１３とすることができ、画像処理装置（ＧＰＵ、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、デジタル信号プロセッサ（ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）および他の特定用途向け集積回路（ＡＳＩＣ、Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップなどのような専用プロセッサなどを含むことができるが、これらに限定されず、プロセッサは読み取り専用メモリ（ＲＯＭ）８０２に記憶されている実行可能命令または記憶部分８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部８１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されない。

プロセッサは読み取り専用メモリ８０２および／またはランダムアクセスメモリ８０３と通信して実行可能命令を実行し、バス８０４を介して通信部８１２と接続し、通信部８１２によって他の目標機器と通信し、それにより本願の実施例が提供するいずれかの方法の対応する動作、例えば、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得することと、予測目標画像と第二サンプル画像との間の差異損失を特定することと、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を完了することができる。

また、ＲＡＭ８０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ８０１、ＲＯＭ８０２およびＲＡＭ８０３はバス８０４を介して互いに接続される。ＲＡＭ８０３が存在する場合、ＲＯＭ８０２は任意選択的なモジュールとなる。ＲＡＭ８０３は実行可能命令を記憶するか、または動作時にＲＯＭ８０２へ実行可能命令を書き込み、実行可能命令によって中央処理装置８０１は上記通信方法の対応する動作を実行する。入力／出力（Ｉ／Ｏ、Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース８０５もバス８０４に接続される。通信部８１２は統合設置してもよいし、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスなどを含む入力部分８０６、陰極線管（ＣＲＴ、ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶ディスプレイ（ＬＣＤ、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などおよびスピーカーなどを含む出力部分８０７、ハードディスクなどを含む記憶部分８０８、およびローカルエリアネットワーク（ＬＡＮ、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード、モデムのネットワークインタフェースカードなどを含む通信部分８０９などはＩ／Ｏインタフェース８０５に接続される。通信部分８０９はインターネットのようなネットワークを介して通信処理を行う。ドライバ８１０も必要に応じてＩ／Ｏインタフェース８０５に接続される。取り外し可能な媒体８１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ８１０取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分８０８にインストールされる。

なお、図８に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図８の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えば加速ユニット８１３とＣＰＵ８０１は分離設置するかまたは加速ユニット８１３をＣＰＵ８０１に統合するようにしてもよく、通信部は分離設置するか、またＣＰＵ８０１または加速ユニット８１３に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例が提供する方法のステップを対応して実行する対応の命令、例えば、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得することと、予測目標画像と第二サンプル画像との間の差異損失を特定することと、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分８０９によってネットワークからダウンロードおよびインストールされ、および／または取り外し可能な媒体８１１からインストールされ得る。該コンピュータプログラムは中央処理装置（ＣＰＵ）８０１により実行される時、本願の実施例の方法で限定された上記機能の動作を実行する。

本願の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読命令を含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本願の原理および実際の適用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。

本開示の実施例の技術的解決手段は、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、このように、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。

Claims

画像生成ネットワークを訓練する方法であって、前記方法は、
第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、
画像生成ネットワークに基づいて前記第一サンプル画像を処理することにより、予測目標画像を得ることと、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することと、
前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得ることと
を含み、
前記差異損失は、第一構造差異損失および特徴損失を含み、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することは、
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと
を含む、方法。
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することは、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することを含み、
前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得ることは、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることを含む、請求項１に記載の方法。
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することは、
前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、
前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと
を含む、請求項１に記載の方法。
前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することは、
前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得ることと、
各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得ることと
を含み、
前記第一特徴マップにおける各位置は、それぞれ一つの第一構造特徴に対応し、前記隣接領域特徴は、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、請求項３に記載の方法。
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することは、
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得ることと
を含み、
前記第二特徴マップにおける各位置は、それぞれ一つの第二構造特徴に対応する、請求項４に記載の方法。
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは、対応関係を有し、
前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することは、
対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算することと、
前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと
を含む、請求項５に記載の方法。
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することは、
前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと
を含む、請求項１から６のいずれか一項に記載の方法。
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは、対応関係を有し、
前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することは、
対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算することと、
前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと
を含む、請求項７に記載の方法。
前記差異損失は、色損失をさらに含み、前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得る前に、前記方法は、
前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定することをさらに含み、
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることは、
第一反復処理において、前記第一構造差異損失および前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第一反復処理および前記第二反復処理を行うことにより、訓練後の画像生成ネットワークを得ることと
を含み、
前記第一反復処理および前記第二反復処理は、連続的に実行される二回の反復処理である、請求項５から８のいずれか一項に記載の方法。
前記方法は、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前に、
前記第二サンプル画像にノイズを注入することにより、ノイズ画像を得ることと、
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定することと
をさらに含む、請求項９に記載の方法。
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定することは、
前記構造分析ネットワークに基づいて前記ノイズ画像を処理することにより、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定することと、
前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと
を含む、請求項１０に記載の方法。
前記構造分析ネットワークに基づいて前記ノイズ画像を処理することにより、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することは、
前記構造分析ネットワークに基づいて前記ノイズ画像を処理することにより、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得ることと、
各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得ることと
を含み、
前記第三特徴マップにおける各位置は、それぞれ一つの第三構造特徴に対応し、前記隣接領域特徴は、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、請求項１１に記載の方法。
前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは、対応関係を有し、
前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することは、
対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算することと、
前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと
を含む、請求項１２に記載の方法。
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることは、
第三反復処理において、前記第一構造差異損失および前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第三反復処理および前記第四反復処理を行うことにより、訓練後の画像生成ネットワークを得ることと
を含み、
前記第三反復処理および前記第四反復処理は、連続的に実行される二回の反復処理である、請求項１０から１３のいずれか一項に記載の方法。
前記方法は、
前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に、
画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行うことにより、第一再構成画像を得ることと、
前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定することと
をさらに含む、請求項１０から１４のいずれか一項に記載の方法。
前記方法は、
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に、
画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行うことにより、第二再構成画像を得ることと、
前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定することと
をさらに含む、請求項１５に記載の方法。
前記差異損失に基づいて前記画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることは、
第五反復処理において、前記第一構造差異損失および前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第六反復処理において、前記第一構造差異損失および前記第二構造差異損失および前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第五反復処理および前記第六反復処理を行うことにより、訓練後の画像生成ネットワークを得ることと
を含み、
前記第五反復処理および前記第六反復処理は、連続的に実行される二回の反復処理である、請求項１６に記載の方法。
前記構造分析ネットワークは、カラー画像を入力とする、請求項１に記載の方法。
画像を処理する方法であって、前記方法は、
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力することにより、右眼画像を得ることと、
前記左眼画像および前記右眼画像に基づいて三次元画像を生成することと
を含み、
前記画像生成ネットワークは、請求項１から１８のいずれか一項に記載の画像生成ネットワークを訓練する方法によって訓練することによって得られる、方法。
画像生成ネットワークの訓練装置であって、前記画像生成ネットワークの訓練装置は、
第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されているサンプル取得ユニットと、
画像生成ネットワークに基づいて前記第一サンプル画像を処理することにより、予測目標画像を得るように構成されている目標予測ユニットと、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成されている差異損失特定ユニットと、
前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得るように構成されているネットワーク訓練ユニットと
を含み、
前記差異損失は第一構造差異損失および特徴損失を含み、
前記差異損失特定ユニットは、
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと
を実行するように構成されている、画像生成ネットワークの訓練装置。
画像処理装置であって、前記画像処理装置は、
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力することにより、右眼画像を得るように構成されている右眼画像取得ユニットと、
前記左眼画像および前記右眼画像に基づいて三次元画像を生成するように構成されている三次元画像生成ユニットと
を含み、
前記画像生成ネットワークは、請求項１から１８のいずれか一項に記載の画像生成ネットワークを訓練する方法によって訓練して得られる、画像処理装置。
電子機器であって、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するためのメモリと
を含み、
前記プロセッサは、前記実行可能な命令を実行する時に請求項１から１８のいずれか一項に記載の画像生成ネットワークを訓練する方法、および／または、請求項１９に記載の画像を処理する方法を実現するように構成されている、電子機器。
コンピュータ読み取り可能な命令が記憶されているコンピュータ記憶媒体であって、前記命令は実行される時に請求項１から１８のいずれか一項に記載の画像生成ネットワークを訓練する方法の動作、および／または、請求項１９に記載の画像を処理する方法の動作を実行する、コンピュータ記憶媒体。
コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが機器において運用される時、前記機器内のプロセッサは、請求項１から１８のいずれか一項に記載の画像生成ネットワークを訓練する方法を実現するための命令、および／または、請求項１９に記載の画像を処理する方法を実現するための命令を実行する、コンピュータプログラム。