JP7026222B2 - 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体 - Google Patents

画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体 Download PDF

Info

Publication number
JP7026222B2
JP7026222B2 JP2020524341A JP2020524341A JP7026222B2 JP 7026222 B2 JP7026222 B2 JP 7026222B2 JP 2020524341 A JP2020524341 A JP 2020524341A JP 2020524341 A JP2020524341 A JP 2020524341A JP 7026222 B2 JP7026222 B2 JP 7026222B2
Authority
JP
Japan
Prior art keywords
image
structural
feature
network
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020524341A
Other languages
English (en)
Other versions
JP2021525401A (ja
Inventor
▲張▼宇
▲鄒▼冬青
任思捷
姜哲
▲陳▼▲曉▼濠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021525401A publication Critical patent/JP2021525401A/ja
Application granted granted Critical
Publication of JP7026222B2 publication Critical patent/JP7026222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

(関連出願の相互参照)
本願は、2019年04月30日に出願された、出願番号が201910363957.5である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願は画像処理技術に関し、特に画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに記憶媒体に関する。
二次元(2D、2 Dimensions)から三次元(3D、3 Dimensions)立体効果への変換は、入力される単眼画像に応じて、そのもう一つの視点で撮影されるシーンの内容を復元する必要がある。3Dのグラデーション感覚を作成するために、このプロセスでは、入力シーンの深度情報を理解する必要があり、両眼視差の関係に基づき、左眼に入る画素を視差で平行移動させ、右眼の内容を生成する。従来の手動作成プロセスは、通常、深度再構成、グラデーション分割、および空領域補填などのフローに関わり、工数や手間がかかる。人工知能分野の台頭に伴い、畳み込みニューラルネットワークを用いてモデリングして、両眼視差に基づく画像合成プロセスが提案されており、大量の立体画像データで訓練することで正確な視差の関係を自動的に学習する。訓練プロセスでは、該視差によって、左画像を平行移動させて生成した右画像を、実の右画像の色値に一致させるように求められる。しかし、実際応用では、該方法によって生成される右画像の内容は構造の欠落や対象の歪みが多発しており、生成画像の品質に大きく影響する。
本願の実施例は画像生成ネットワークの訓練および画像処理の技術的解決手段を提供する。
本願の実施例の第一態様によれば、第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得ることと、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することと、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を含む画像生成ネットワークの訓練方法が提供される。
本願の上記いずれかの方法の実施例では、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することを含み、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップは、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得ることを含む。
本願の実施例では、訓練段階で、構造分析ネットワークおよび画像生成ネットワークにより敵対的訓練を行い、敵対的訓練によって画像生成ネットワークの性能を向上させる。
本願の上記いずれかの方法の実施例では、前記差異損失は第一構造差異損失および特徴損失を含み、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む。
本願の実施例では、構造分析ネットワークによって目標画像および第二サンプル画像を処理することで、複数のスケールにおける特徴マップをそれぞれ得て、各スケールにおける特徴マップにおける各位置の構造特徴に対して、目標画像が対応する複数の特徴マップにおける各位置の構造特徴、および第二サンプル画像が対応する複数の特徴マップにおける各位置の構造特徴に基づき、第一構造差異損失を特定することができ、特徴損失は予測目標画像が対応する複数の特徴マップにおける各位置および第二サンプル画像が対応する複数の特徴マップにおける各位置に基づいて特定される。
本願の上記いずれかの方法の実施例では、構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む。
本願の実施例は構造分析ネットワークによって予測目標画像および第二サンプル画像をそれぞれ処理し、予測目標画像に対してい少なくとも一つの特徴マップを得て、各特徴マップにおける各位置に対してそれぞれ一つの第一構造特徴を得て、つまり、少なくとも一つの第一構造特徴を得る。第二サンプル画像に対しても同様に少なくとも一つの第二構造特徴を得る。本願の実施例における第一構造差異損失は各スケールにおける各位置が対応する目標画像の第一構造特徴と第二サンプル画像の第二構造特徴との間の差異を統計することで得られ、つまり、二つの画像間の構造差異損失を特定するよう、各スケールにおける同じ位置が対応する第一構造特徴と第二構造特徴との間の構造差異がそれぞれ計算される。
本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する前記ステップは、構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得ることと、各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得ることと、を含み、ここで、前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する前記ステップは、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得ることと、を含み、ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する。
本願の上記いずれかの方法の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算することと、前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算することと、前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、前記差異損失はさらに色損失を含み、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前に、前記方法はさらに、前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定することを含み、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である。
本願の実施例では、敵対的訓練は画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を小さくすることを目標とする。敵対的訓練は通常、交互訓練の方法で実現し、本願の実施例は画像生成ネットワークおよび構造分析ネットワークを交互に訓練することで、要件を満たす画像生成ネットワークを得る。
本願の上記いずれかの方法の実施例では、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前に、さらに、前記第二サンプル画像にノイズを注入し、ノイズ画像を得ることと、前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定する前記ステップは、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定することと、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する前記ステップは、前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得ることと、各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得ることと、を含み、ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
本願の上記いずれかの方法の実施例では、前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する前記ステップは、対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算することと、前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である。
本願の実施例では、ノイズ画像が対応する第二構造差異損失を得た後、構造分析ネットワークの性能を向上させるために、構造分析ネットワークのネットワークパラメータ調整時に、第二構造差異損失を追加する。
本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得ることと、前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得ることと、前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定することと、を含む。
本願の上記いずれかの方法の実施例では、前記差異損失に基づいて前記画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である。
本願の実施例では、画像生成ネットワークのパラメータを調整する損失が変わることがなく、構造分析ネットワークの性能のみを向上させ、構造分析ネットワークと画像生成ネットワークとは敵対的に訓練されるため、構造分析ネットワークの性能を向上させることで、画像生成ネットワークの訓練を加速することができる。
本願の上記いずれかの方法の実施例では、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップの後に、さらに、前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得ることを含む。
本願の上記いずれかの方法の実施例では、前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む。
本願の実施例の別の一態様によれば、三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得ることと、前記左眼画像および前記右眼画像に基づいて三次元画像を生成することと、を含む画像処理方法が提供され、ここで、前記画像生成ネットワークは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法によって訓練して得られる。
本願の実施例が提供する画像処理方法は、画像生成ネットワークによって左眼画像を処理して対応する右眼画像を得ており、照明、遮蔽物、ノイズなどの環境要因からの影響が小さく、視覚面積が小さな対象の合成正確度を維持でき、得られた右眼画像および左眼画像によって歪みが小さく、細部が比較的完全に保持された三次元画像を生成できる。
本願の実施例の第二態様によれば、第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されたサンプル取得ユニットと、画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得るように構成された目標予測ユニットと、前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成された差異損失特定ユニットと、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得るように構成されたネットワーク訓練ユニットと、を含む画像生成ネットワークの訓練装置が提供される。
本願の上記いずれかの装置の実施例では、前記差異損失特定ユニットは、具体的に、構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成され、前記ネットワーク訓練ユニットは、具体的に、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得るように構成される。
本願の上記いずれかの装置の実施例では、前記差異損失は第一構造差異損失および特徴損失を含み、前記差異損失特定ユニットは、構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成された第一構造差異特定モジュールと、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成された特徴損失特定モジュールと、を含む。
本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定し、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する時に、構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得て、各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得るように構成され、ここで、前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する時に、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得るように構成され、ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する。
本願の上記いずれかの装置の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記第一構造差異特定モジュールは、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する時に、対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算し、前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記特徴損失特定モジュールは、具体的に、前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記特徴損失特定モジュールは、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する時に、対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算し、前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記差異損失はさらに色損失を含み、前記差異損失特定ユニットはさらに、前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定するように構成された色損失特定モジュールを含み、前記ネットワーク訓練ユニットは、具体的に、第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である。
本願の上記いずれかの装置の実施例では、前記装置はさらに、前記第二サンプル画像にノイズを注入し、ノイズ画像を得るように構成されたノイズ注入ユニットと、前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定するように構成された第二構造差異損失ユニットと、を含む。
本願の上記いずれかの装置の実施例では、前記第二構造差異損失ユニットは、具体的に、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定し、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記第二構造差異損失ユニットは、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する時に、前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得て、各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得るように構成され、ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
本願の上記いずれかの装置の実施例では、前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、前記第二構造差異損失ユニットは、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する時に、対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算し、前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記ネットワーク訓練ユニットは、具体的に、第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である。
本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得て、前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得て、前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定するように構成される。
本願の上記いずれかの装置の実施例では、前記ネットワーク訓練ユニットは、具体的に、第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である。
本願の上記いずれかの装置の実施例では、前記装置はさらに、前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得るように構成される画像処理ユニットを含む。
本願の上記いずれかの装置の実施例では、前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む。
本願の実施例のさらに別の態様によれば、三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るように構成された右眼画像取得ユニットと、前記左眼画像および前記右眼画像に基づいて三次元画像を生成するように構成された三次元画像生成ユニットと、を含む画像処理装置が提供され、ここで、前記画像生成ネットワークは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法によって訓練して得られる。
本願の実施例の第三態様によれば、上記いずれかの実施例に記載の画像生成ネットワークの訓練装置または上記実施例に記載の画像処理装置を含むプロセッサを含む電子機器が提供される。
本願の実施例の第四態様によれば、プロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器が提供され、ここで、前記プロセッサは前記実行可能命令を実行することで、前記いずれかの実施例に記載の画像生成ネットワークの訓練方法、および/または画像処理方法を実現するように構成される。
本願の実施例の第五態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、前記可読命令は実行される時に上記いずれかの実施例に記載の画像生成ネットワークの訓練方法の動作、および/または上記実施例に記載の画像処理方法の動作を実行するコンピュータ記憶媒体が提供される。
本願の実施例の第六態様によれば、コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において運用される時、前記機器内のプロセッサは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法を実現するための命令、および/または上記実施例に記載の画像処理方法を実現するための命令を実行するコンピュータプログラム製品が提供される。
本願の上記実施例が提供する画像生成ネットワークの訓練および画像処理方法、装置、ならびに電子機器に基づき、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。
なお、以上の一般的な説明および以下の詳細な説明は例示的および説明的なものにすぎず、本開示を限定するものではないことを理解すべきである。
例えば、本願は以下の項目を提供する。
(項目1)
第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、
画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得ることと、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することと、
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を含む画像生成ネットワークの訓練方法。
(項目2)
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、
構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することを含み、
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップは、
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得ることを含む、項目1に記載の方法。
(項目3)
前記差異損失は第一構造差異損失および特徴損失を含み、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前記ステップは、
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む、項目2に記載の方法。
(項目4)
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、
前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、
前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む、項目3に記載の方法。
(項目5)
前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する前記ステップは、
構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得ることと、
各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得ることと、を含み、
前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目4に記載の方法。
(項目6)
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する前記ステップは、
構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得ることと、を含み、
ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する、項目4または5に記載の方法。
(項目7)
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する前記ステップは、
対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算することと、
前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、を含む、項目6に記載の方法。
(項目8)
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、
前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む、項目3から7のいずれか一項に記載の方法。
(項目9)
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する前記ステップは、
対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算することと、
前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと、を含む、項目8に記載の方法。
(項目10)
前記差異損失はさらに色損失を含み、前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前に、前記方法はさらに、
前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定することを含み、
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、
第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、
ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である、項目3から9のいずれか一項に記載の方法。
(項目11)
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前に、さらに、
前記第二サンプル画像にノイズを注入し、ノイズ画像を得ることと、
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定することと、を含む、項目1から10のいずれか一項に記載の方法。
(項目12)
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定する前記ステップは、
構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、
構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定することと、
前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む、項目11に記載の方法。
(項目13)
構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する前記ステップは、
前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得ることと、
各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得ることと、を含み、
ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目12に記載の方法。
(項目14)
前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する前記ステップは、
対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算することと、
前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することと、を含む、項目12または13に記載の方法。
(項目15)
前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、
第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、
ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である、項目11から14のいずれか一項に記載の方法。
(項目16)
前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に、さらに、
画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得ることと、
前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定することと、を含む、項目4から15のいずれか一項に記載の方法。
(項目17)
前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に、さらに、
画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得ることと、
前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定することと、を含む、項目16に記載の方法。
(項目18)
前記差異損失に基づいて前記画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る前記ステップは、
第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含み、
ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である、項目17に記載の方法。
(項目19)
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る前記ステップの後に、さらに、
前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得ることを含む、項目1から18のいずれか一項に記載の方法。
(項目20)
前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む、項目19に記載の方法。
(項目21)
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得ることと、
前記左眼画像および前記右眼画像に基づいて三次元画像を生成することと、を含み、
ここで、前記画像生成ネットワークは上記項目1から20のいずれか一項に記載の画像生成ネットワークの訓練方法によって訓練して得られる、画像処理方法。
(項目22)
第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されたサンプル取得ユニットと、
画像生成ネットワークに基づいて前記第一サンプル画像を処理し、予測目標画像を得るように構成された目標予測ユニットと、
前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成された差異損失特定ユニットと、
前記差異損失に基づいて前記画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得るように構成されたネットワーク訓練ユニットと、を含む、画像生成ネットワークの訓練装置。
(項目23)
前記差異損失特定ユニットは、具体的に、構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成され、
前記ネットワーク訓練ユニットは、具体的に、前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得るように構成される、項目22に記載の装置。
(項目24)
前記差異損失は第一構造差異損失および特徴損失を含み、
前記差異損失特定ユニットは、
構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成された第一構造差異特定モジュールと、
前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成された特徴損失特定モジュールと、を含む、項目23に記載の装置。
(項目25)
前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定し、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される、項目24に記載の装置。
(項目26)
前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記予測目標画像を処理し、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する時に、構造分析ネットワークに基づいて前記予測目標画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得て、各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得るように構成され、ここで、前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目25に記載の装置。
(項目27)
前記第一構造差異特定モジュールは、前記構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する時に、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得るように構成され、ここで、前記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する、項目25または26に記載の装置。
(項目28)
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記第一構造差異特定モジュールは、前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定する時に、対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算し、前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定するように構成される、項目27に記載の装置。
(項目29)
前記特徴損失特定モジュールは、具体的に、前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理し、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得て、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される、項目24から28のいずれか一項に記載の装置。
(項目30)
前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記特徴損失特定モジュールは、前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定する時に、対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算し、前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定するように構成される、項目29に記載の装置。
(項目31)
前記差異損失はさらに色損失を含み、
前記差異損失特定ユニットは、さらに
前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定するように構成された色損失特定モジュールを含み、
前記ネットワーク訓練ユニットは、具体的に、第一反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第一反復処理と前記第二反復処理は連続的に実行される二回の反復処理である、項目24から30のいずれか一項に記載の装置。
(項目32)
さらに、
前記第二サンプル画像にノイズを注入し、ノイズ画像を得るように構成されたノイズ注入ユニットと、
前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定するように構成された第二構造差異損失ユニットと、を含む、項目22から31のいずれか一項に記載の装置。
(項目33)
前記第二構造差異損失ユニットは、具体的に、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定し、構造分析ネットワークに基づいて前記第二サンプル画像を処理し、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定し、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される、項目32に記載の装置。
(項目34)
前記第二構造差異損失ユニットは、構造分析ネットワークに基づいて前記ノイズ画像を処理し、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する時に、前記構造分析ネットワークに基づいて前記ノイズ画像を処理し、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得て、各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得るように構成され、ここで、前記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴が、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、項目33に記載の装置。
(項目35)
前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
前記第二構造差異損失ユニットは、前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定する時に、対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算し、前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定するように構成される、項目33または34に記載の装置。
(項目36)
前記ネットワーク訓練ユニットは、具体的に、第三反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第三反復処理と前記第四反復処理は連続的に実行される二回の反復処理である、項目32から35のいずれか一項に記載の装置。
(項目37)
前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得て、前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定するように構成される、項目25から36のいずれか一項に記載の装置。
(項目38)
前記第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得て、前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定するように構成される、項目37に記載の装置。
(項目39)
前記ネットワーク訓練ユニットは、具体的に、第五反復処理において、前記第一構造差異損失、前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整し、第六反復処理において、前記第一構造差異損失、前記第二構造差異損失、前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得るように構成され、ここで、前記第五反復処理と前記第六反復処理は連続的に実行される二回の反復処理である、項目38に記載の装置。
(項目40)
さらに、
前記訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得るように構成された画像処理ユニットを含む、項目22から39のいずれか一項に記載の装置。
(項目41)
前記処理待ち画像は左眼画像を含み、前記目標画像は前記左眼画像に対応する右眼画像を含む、項目40に記載の装置。
(項目42)
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るように構成された右眼画像取得ユニットと、
前記左眼画像および前記右眼画像に基づいて三次元画像を生成するように構成された三次元画像生成ユニットと、を含み、
ここで、前記画像生成ネットワークは上記項目1から20のいずれか一項に記載の画像生成ネットワークの訓練方法によって訓練して得られる、画像処理装置。
(項目43)
項目22から41のいずれか一項に記載の画像生成ネットワークの訓練装置または項目42に記載の画像処理装置を含むプロセッサを含む、電子機器。
(項目44)
プロセッサと、
プロセッサ実行可能命令を記憶するためのメモリと、を含み、
ここで、前記プロセッサは、前記実行可能命令を実行する時に項目1から20のいずれか一項に記載の画像生成ネットワークの訓練方法、および/または項目21に記載の画像処理方法を実現するように構成される、電子機器。
(項目45)
コンピュータ可読命令が記憶されているコンピュータ記憶媒体であって、前記命令は実行される時に項目1から20のいずれか一項に記載の画像生成ネットワークの訓練方法の動作、および/または項目21に記載の画像処理方法の動作を実行する、コンピュータ記憶媒体。
(項目46)
コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において運用される時、前記機器内のプロセッサは項目1から20のいずれか一項に記載の画像生成ネットワークの訓練方法を実現するための命令、および/または項目21に記載の画像処理方法を実現するための命令を実行する、コンピュータプログラム製品。
以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴および態様は明瞭になる。
本願の実施例が提供する画像生成ネットワークの訓練方法のフローチャートである。 本願の実施例が提供する画像生成ネットワークの訓練方法の別のフローチャートである。 本願の実施例が提供する画像生成ネットワークの訓練方法のさらに別の部分のフローチャートである。 本願の実施例が提供する画像生成ネットワークの訓練方法に係るネットワーク構造の模式図である。 本願の実施例が提供する画像処理方法のフローチャートである。 本願の実施例が提供する画像生成ネットワークの訓練装置の構成模式図である。 本願の実施例が提供する画像処理装置の構成模式図である。 本願の実施例に係る端末機器またはサーバの実現に適する電子機器の構成模式図である。
明細書の一部となる図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈するために用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似の機能を有する要素を表す。図面に実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材およびステップの相対的配置、数式および値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
近年、3D立体映画、広告、ライブ配信プラットフォームなどのメディアが盛んになることによって人々の日常生活がかなり充実するようになり、その産業規模の拡張もまた続いている。しかし、市場での3D表示ハードウェアの高い普及率および高いシェアに対し、立体動画コンテンツの制作は費用が高額で、制作期間が長く、労働コストが高いため、その数量が足りていない。それに比べて、2D動画素材は既にかなりの規模を持っており、かつテレビエンターテイメント、文化芸術、科学研究などの分野において豊富で、価値のある情報を蓄積していた。もし、これらの2D動画を自動的でコストの低い方法によって高品質の立体動画に変換できれば、全く新しいユーザ体験がもたらされ、その市場での応用の将来性が高い。
2Dから3D立体効果への変換には、入力される単眼画像に応じて、そのもう一つの視点で撮影されたシーンの内容を復元する必要がある。3Dのグラデーション感覚を作成するために、このプロセスでは、入力シーンの深度情報を理解する必要があり、両眼視差の関係に基づき、左眼に入る画素を視差で平行移動させ、右眼の内容を生成する。一般的な2Dから3Dへの変換方法は、比較によって右画像と実の右画像との平均色差を訓練信号として生成するだけであり、照明、遮蔽物、ノイズなどの環境要因からの影響を受けやすく、しかも、視覚面積が小さな対象の合成正確度を維持しにくく、その合成結果に大きな歪みが発生し、細部が失われる。従来の画像形状保持生成方法は、主に三次元世界の教師信号を導入することで、ネットワークに正確な視角間変換を学習させ、それにより異なる視角での形状の一貫性を維持する。しかし、導入される三次元情報は適用条件が特殊であるため、モデルの汎用化能力が制限され、実際の産業分野において役割を果たすことが困難である。
上記2Dから3D立体効果への変換プロセスで現れた問題に対して、本願の実施例は以下の画像生成ネットワークの訓練方法を提供し、本願の実施例の訓練方法によって得られた画像生成ネットワークは、該画像生成ネットワークに入力される単眼画像に基づき、そのもう一つの視点で撮影したシーンの内容を出力し、2Dから3D立体効果への変換を実現することができる。
図1は本願の実施例が提供する画像生成ネットワークの訓練方法のフローチャートである。図1に示すように、該実施例の方法は以下を含む。
ステップ110において、サンプル画像を取得する。
ここで、サンプル画像は第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含む。
本願の実施例における画像生成ネットワークの訓練方法の動作主体は端末機器またはサーバまたは他の処理機器としてもよく、そのうち、端末機器はユーザ機器(User Equipment、UE)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(Personal Digital Assistant、PDA)、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器などであってもよい。いくつかの可能な実施形態では、該画像生成ネットワークの訓練方法はプロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すように実現できる。
そのうち、上記画像フレームは単一フレーム画像であってもよく、画像収集機器が収集した画像、例えば端末機器のカメラが撮影した写真、または映像収集機器が収集した映像データにおける単一フレーム画像などであってもよく、本願の実施例はその具体的な実施形態を限定しない。
一実施形態として、第二サンプル画像は実の画像であってもよく、本願の実施例において画像生成ネットワーク性能を測定するための参照情報とすることができ、画像生成ネットワークは、得られた予測目標画像と第二サンプル画像との差異がより少ないことを目標としている。サンプル画像は対応関係が既知の画像ライブラリから選択されるかまたは実際の必要に応じて撮影して得られる。
ステップ120において、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得する。
一実施形態として、本願の実施例が提供する画像生成ネットワークは、例えば3D画像合成などの機能に用いることができ、画像生成ネットワークは任意の立体画像生成ネットワーク、例えば、ワシントン大学のXieらが2016年に提案したディープ(Deep)3Dネットワークなどを用いてもよく、他の画像生成用途では、該画像生成ネットワークが入力されるサンプル画像によってエンドツーエンドで目標画像を合成できることを保証するだけでよいように、画像生成ネットワークを対応して取り替えてもよい。
ステップ130において、予測目標画像と第二サンプル画像との間の差異損失を特定する。
本願の実施例は差異損失で画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を記述することを提案し、したがって、差異損失で訓練した画像生成ネットワークは、生成した予測目標画像と第二サンプル画像との間の類似性が向上し、画像生成ネットワークの性能が向上する。
ステップ140において、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得る。
本願の上記実施例が提供する画像生成ネットワークの訓練方法に基づき、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。
図2は本願の実施例が提供する画像生成ネットワークの訓練方法の別のフローチャートである。図2に示すように、本願の実施例は以下を含む。
ステップ210において、サンプル画像を取得する。
ここで、サンプル画像は第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含む。
ステップ220において、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得する。
ステップ230において、構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の差異損失を特定する。
一実施例では、構造分析ネットワークは三層までの特徴を抽出することができればよく、つまり、数層の畳み込みニューラルネットワーク(CNN、Convolutional Neural Networks)からなるエンコーダを含めればよい。任意選択的に、本願の実施例における構造分析ネットワークはエンコーダおよびデコーダからなる。そのうち、エンコーダは、一つの画像(本願の実施例における予測目標画像および第二サンプル画像)を入力とし、一連の異なるスケールにおける特徴マップを得、例えば、数層のCNNネットワークを含む。デコーダは、これらの特徴マップを入力とし、入力画像そのものを再構成する。上記要件を満たすネットワーク構造であれば、構造分析ネットワークとすることができる。
敵対的訓練の参照情報として、該差異損失は、例えば予測目標画像の構造特徴と第二サンプル画像の構造特徴との間の差異によって差異損失を特定するように、構造特徴に基づいて特定され、本願の実施例が提供する構造特徴は一つの位置を中心とした局所領域とその周囲領域との正規化関連性と認められてもよい。
任意選択的な一実施形態として、本願の実施例はUNet構造を採用してもよい。該構造のエンコーダは3つの畳み込みモジュールを含み、各モジュールは二つの畳み込み層および一つの平均プーリング層を含む。したがって、畳み込みモジュールを一つ経由する度に、解像度が半分になり、最終的に得られた特徴マップのサイズが元画像のサイズの1/2、1/4および1/8となる。デコーダは3つの同様なアップサンプリング層を含み、各層が上の層の出力をアップサンプリングしてから二つの畳み込み層に通過させ、最後の層の出力が元の解像度となる。
ステップ240において、差異損失に基づいて画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得る。
任意選択的な一実施形態として、訓練段階で、画像生成ネットワークおよび構造分析ネットワークにより敵対的訓練を行い、入力画像が画像生成ネットワークを経由する場合、例えば3D画像生成に用いられる場合、一つの視点での画像を画像生成ネットワークに入力し、該画像のもう一つの視点での生成画像を得る。生成画像および該視点での実の画像を同一の構造分析ネットワークに入力し、それぞれのマルチスケール特徴マップを得る。各スケールで、それぞれの特徴関連性表現を、該スケールにおける構造表示として計算する。訓練プロセスは敵対的な方法で行われ、構造分析ネットワークに求められるのは、生成画像と実の画像との構造表示における距離をどんどん拡大することであり、同時に画像生成ネットワークに求められるのは、得る生成画像が該距離を最大限で縮小できることである。
図3は本願の実施例が提供する画像生成ネットワークの訓練方法のさらに別の部分のフローチャートである。該実施例では、差異損失は第一構造差異損失および特徴損失を含み、
上記図1および/または図2に示す実施例におけるステップ130および/またはステップ230は、
構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するステップ302と、
構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の特徴損失を特定するステップ304と、を含む。
本願の実施例では、構造分析ネットワークによって目標画像および第二サンプル画像(例えば、第一サンプル画像に対応する実の画像)を処理し、複数のスケールにおける特徴マップをそれぞれ得ることができ、各スケールにおける特徴マップにおける各位置の構造特徴に対して、目標画像が対応する複数の特徴マップにおける各位置の構造特徴、および第二サンプル画像が対応する複数の特徴マップにおける各位置の構造特徴に基づき、第一構造差異損失を特定し、特徴損失は予測目標画像が対応する複数の特徴マップにおける各位置および第二サンプル画像が対応する複数の特徴マップにおける各位置に基づいて特定される。
一実施形態として、ステップ302は、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定することと、を含む。
本願の実施例は構造分析ネットワークによって予測目標画像および第二サンプル画像をそれぞれ処理し、予測目標画像に対して少なくとも一つの特徴マップを得て、各特徴マップにおける各位置に対してそれぞれ一つの第一構造特徴を得て、つまり、少なくとも一つの第一構造特徴を得る。第二サンプル画像に対しても同様に少なくとも一つの第二構造特徴を得る。本願の実施例における第一構造差異損失は各スケールにおける各位置が対応する目標画像の第一構造特徴と第二サンプル画像の第二構造特徴との間の差異を統計することで得られ、つまり、二つの画像間の構造差異損失を特定するよう、各スケールにおける同じ位置が対応する第一構造特徴と第二構造特徴との間の構造差異がそれぞれ計算される。
例えば、一例では、本願の実施例は3D画像生成ネットワークの訓練に用いられ、つまり、画像生成ネットワークは左眼画像(サンプル画像に対応する)に基づいて右眼画像(目標画像に対応する)を生成することを完了しており、入力される左眼画像はx、生成される右眼画像はy、実の右眼画像は
Figure 0007026222000001
とする。下式(1)で計算することができる。
Figure 0007026222000002
式中、
Figure 0007026222000003
は第一構造差異損失を表し、
Figure 0007026222000004
は一つのスケールにおける生成される右眼画像yの特徴マップにおける位置pの第一構造特徴を表し、
Figure 0007026222000005
は、一つのスケールにおける実の右眼画像
Figure 0007026222000006
の特徴マップにおける位置pの第二構造特徴を表し、Pは全てのスケールにおける特徴マップにおける全ての位置を表し、
Figure 0007026222000007
距離を表す。
訓練段階で、構造分析ネットワークは、上式で表される構造距離を最大化できるように、一つの特徴空間を探す。同時に、画像生成ネットワークは実の右画像の構造にできる限り類似する右画像を生成することで、構造分析ネットワークが両者の差異性を区別しかねるようにする。敵対的訓練によって、異なるグラデーションの構造差異を見出し、画像生成ネットワークの修正に持続的に使用することができる。
一実施形態として、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定するステップは、構造分析ネットワークに基づいて予測目標画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップを得ることと、各第一特徴マップに対して、第一特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、予測目標画像の少なくとも一つの第一構造特徴を得ることと、を含む。
ここで、第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、隣接領域特徴が、該位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
一実施形態として、本願の実施例における隣接領域特徴は各位置特徴を中心とした、サイズがK*Kの領域内の各特徴として表すことができる。
任意選択的な一例では、本願の実施例は3D画像生成ネットワークの訓練に用いられ、つまり、画像生成ネットワークは左眼画像(サンプル画像に対応する)に基づいて右眼画像(目標画像に対応する)を生成することを完了しており、入力される左眼画像はx、生成される右眼画像はy、実の右眼画像は
Figure 0007026222000008
とする。yおよび
Figure 0007026222000009
を構造分析ネットワークにそれぞれ入力した後、マルチスケール特徴を得る。以下、あるスケールのみを例にし、他のスケールの処理方法は同様とする。該スケールで、生成される右画像および実の右画像の特徴マップをそれぞれfおよび
Figure 0007026222000010
とする。生成される右画像の特徴マップにおけるある画素位置pに対して、f(p)は該位置の特徴を表す。すると、該スケールで、位置pでの第一構造特徴は下式(2)に基づいて得ることができる。
Figure 0007026222000011
式中、
Figure 0007026222000012
は位置pを中心とした、サイズがk×kの領域内の位置の集合を表し、qは位置集合内の一つの位置を表し、
Figure 0007026222000013
は位置qの特徴であり、
Figure 0007026222000014
はベクトルのノルムであり、vecはベクトル化を表す。上式は特徴マップにおける位置pとその周囲の近隣位置とのコサイン距離を計算する。任意選択的に、本願の実施例はウィンドウのサイズkを3とすることができる。
一実施形態として、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定するステップは、構造分析ネットワークに基づいて第二サンプル画像を処理し、少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得ることと、各第二特徴マップに対して、第二特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、第二サンプル画像の少なくとも一つの第二構造特徴を得ることと、を含む。
ここで、第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する。
任意選択的な一例では、本願の実施例は3D画像生成ネットワークの訓練に用いられ、つまり、画像生成ネットワークは左眼画像(第一サンプル画像に対応する)に基づいて右眼画像(予測目標画像に対応する)を生成することを完了しており、入力される左眼画像はx、生成される右眼画像はy、実の右眼画像は
Figure 0007026222000015
とする。yおよび
Figure 0007026222000016
を構造分析ネットワークにそれぞれ入力した後、マルチスケール特徴を得る。以下、あるスケールのみを例にし、他のスケールの処理方法は同様とする。該スケールで、生成される右画像および実の右画像の特徴マップをそれぞれfおよび
Figure 0007026222000017
とする。実の右画像の特徴マップにおけるある画素位置pに対して、
Figure 0007026222000018
は該位置の特徴を表す。すると、該スケールで、位置pの第二構造特徴は下式(3)に基づいて得ることができる。
Figure 0007026222000019
式中、
Figure 0007026222000020
は位置pを中心とした、サイズがk×kの領域内の位置の集合を表し、qは位置集合内の一つの位置を表し、
Figure 0007026222000021
は位置qの特徴であり、
Figure 0007026222000022
はベクトルのノルムであり、vecはベクトル化を表す。上式は特徴マップにおける位置pとその周囲の近隣位置とのコサイン距離を計算する。任意選択的に、本願の実施例はウィンドウのサイズkを3とすることができる。
一実施形態として、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するステップは、対応関係を有する位置が対応する第一構造特徴と第二構造特徴との間の距離を計算することと、予測目標画像が対応する全ての第一構造特徴と第二構造特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定することと、を含む。
本願の実施例において第一構造差異損失を計算して得るプロセスは上記実施例における式(1)を参照すればよく、上記実施例における式(2)および式(3)に基づいて目標画像yの一つのスケールにおける特徴マップにおける位置pの第一構造特徴c(p)、および実の画像
Figure 0007026222000023
の一つのスケールにおける特徴マップにおける位置pの第二構造特徴
Figure 0007026222000024
をそれぞれ得ることができ、第一構造特徴と第二構造特徴との間の距離はL距離であってもよい。
任意選択的な一つ以上の実施例では、ステップ304は、構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得ることと、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定することと、を含む。
本願の実施例における特徴損失は、上記実施例において第一構造差異損失が構造特徴に基づいて得られることとは異なり、予測目標画像および第二サンプル画像によって得られた対応する特徴マップ間の差異で特定される。任意選択的に、ここで、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定するステップは、対応関係を有する位置が対応する第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離を計算することと、第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定することと、を含む。
任意選択的な一実施例では、各位置が対応する第一特徴マップにおける特徴と第二特徴マップにおける特徴との間のL距離を計算し、L距離によって特徴損失を特定する。任意選択的に、予測目標画像をy、第二サンプル画像を
Figure 0007026222000025
と仮定する。Yおよび
Figure 0007026222000026
を構造分析ネットワークにそれぞれ入力した後、マルチスケール特徴マップを得る。以下、あるスケールのみを例にし、他のスケールの処理方法は同様とする。該スケールで、予測目標画像および第二サンプル画像の特徴マップをそれぞれfおよび
Figure 0007026222000027
とする。第二サンプル画像の特徴マップにおけるある画素位置pに対して、
Figure 0007026222000028
は該位置の特徴を表す。このとき、下式(4)に基づいて特徴損失を得ることができる。
Figure 0007026222000029
式中、
Figure 0007026222000030
は予測目標画像と第二サンプル画像との特徴損失を表し、
Figure 0007026222000031
は第一特徴マップにおけるp位置の特徴であり、
Figure 0007026222000032
は第二特徴マップにおけるp位置の特徴を表す。
一実施形態として、差異損失はさらに色損失を含んでもよく、ステップ240を実行する前に、さらに、予測目標画像と第二サンプル画像との間の色差に基づき、画像生成ネットワークの色損失を特定することを含む。
本願の実施例は色損失で予測目標画像と第二サンプル画像との間の色差を示し、予測目標画像と第二サンプル画像とをできる限り色が近いようにし、任意選択的に、予測目標画像をy、第二サンプル画像を
Figure 0007026222000033
と仮定すれば、色損失は下式(5)に基づいて得ることができる。
Figure 0007026222000034
式中、
Figure 0007026222000035
は予測目標画像と第二サンプル画像との色損失を表し、
Figure 0007026222000036
は予測目標画像yと第二サンプル画像
Figure 0007026222000037
との間のL距離を表す。
本実施例では、ステップ240は、第一反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整することと、第二反復処理において、第一構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含む。
ここで、第一反復処理と第二反復処理は連続的に実行される二回の反復処理である。任意選択的に、訓練停止条件は、予め設定された反復処理回数に達すること、または画像生成ネットワークによって生成される予測目標画像と第二サンプル画像との間の差異が設定値よりも小さくなることなどとしてもよく、本願の実施例は具体的にどの訓練停止条件を採用するかを限定しない。
敵対的訓練は画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を小さくすることを目標とする。敵対的訓練は通常、交互訓練の方法で実現し、本願の実施例は画像生成ネットワークおよび構造分析ネットワークを交互に訓練することで、要件を満たす画像生成ネットワークを得ており、任意選択的に、画像生成ネットワークのネットワークパラメータは下式(6)によって調整できる。
Figure 0007026222000038
式中、
Figure 0007026222000039
は画像生成ネットワーク内の最適化しようとするパラメータを表し、
Figure 0007026222000040
は画像生成ネットワークが対応する総損失を表し、
Figure 0007026222000041
は画像生成ネットワークのパラメータを調整することで画像生成ネットワークの総損失を縮小することを表し、
Figure 0007026222000042
は画像生成ネットワークによって生成される予測目標画像と第二サンプル画像との間の色損失、第一構造差異損失および特徴損失をそれぞれ表し、任意選択的に、これらの損失は上記式(5)、(1)および(4)で特定するか、または他の方法でこの三種類の損失を得ることができ、本願の実施例は色損失、第一構造差異損失および特徴損失を得る具体的な方法を限定しない。
一実施形態として、構造分析ネットワークのネットワークパラメータは下式(7)によって調整できる。
Figure 0007026222000043
式中、
Figure 0007026222000044
は構造分析ネットワーク内の最適化しようとするパラメータを表し、
Figure 0007026222000045
は構造分析ネットワークが対応する総損失を表し、
Figure 0007026222000046
は構造分析ネットワークのパラメータを調整することで構造分析ネットワークの総損失を増大することを表し、
Figure 0007026222000047
は構造分析ネットワークの第一構造差異損失を表し、任意選択的に、第一構造差異損失は上記式(1)を参照して特定するか、または他の方法で得ることができ、本願の実施例は第一構造差異損失を得る具体的な方法を限定しない。
任意選択的な一つ以上の実施例では、目標画像と実の画像との間の構造差異損失を特定する前に、さらに、第二サンプル画像にノイズを注入し、ノイズ画像を得ることと、ノイズ画像および第二サンプル画像に基づいて第二構造差異損失を特定することと、を含む。
予測目標画像はサンプル画像によって生成され、第二サンプル画像は通常、照明差異を有しかつノイズによる影響を受けるため、生成される予測目標画像と第二サンプル画像とは一定の分布差異を有する。構造分析ネットワークが、シーン構造情報ではないこれらの差異に注目することを回避するために、本願の実施例は訓練プロセスにノイズに対する抵抗メカニズムを追加する。
一実施形態として、ノイズ画像および第二サンプル画像に基づいて第二構造差異損失を特定するステップは、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定することと、を含む。
一実施形態として、ノイズ画像は、例えば、第二サンプル画像に人工ノイズを注入し、ノイズ画像を生成するように、第二サンプル画像に基づいて処理して得られ、ノイズの注入方法は様々あり、例えば、ランダムガウスノイズを注入したり、実の画像(第二サンプル画像)にガウシアンぼかしをかけたり、コントラストを変更したりすることなどである。本願の実施例は、ノイズ注入後に得られたノイズ画像が、第二サンプル画像における形状構造が変化せず、第二サンプル画像における構造に影響しない属性(例えば、色、テクスチャなど)のみが変化することを要求しており、本願の実施例はノイズ画像を得る具体的な方法を限定しない。
本願の実施例における構造分析ネットワークはカラー画像を入力としており、それに対して従来の構造分析ネットワークは主にマスク画像またはグレースケール画像を入力とする。カラー画像のような高次元信号を処理する時、環境ノイズからの妨害を受けやすい。そのため、本願の実施例は第二構造差異損失を導入して構造特徴のノイズロバスト性を増強することを提案する。従来の構造の敵対的訓練方法にこのようなノイズ抵抗メカニズムがないという欠点を補う。
一実施形態として、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定するステップは、構造分析ネットワークに基づいてノイズ画像を処理し、少なくとも一つのスケールにおけるノイズ画像の第三特徴マップを得ることと、各第三特徴マップに対して、第三特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、ノイズ画像の少なくとも一つの第三構造特徴を得ることと、を含む。
ここで、第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、隣接領域特徴が、該位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
本願の実施例において第三構造特徴を特定する方法は第一構造特徴を特定する方法に類似し、任意選択的に、一例では、入力される第一サンプル画像をx、第二サンプル画像を
Figure 0007026222000048
ノイズ画像を
Figure 0007026222000049
と仮定する。
Figure 0007026222000050
を構造分析ネットワークにそれぞれ入力した後、マルチスケール特徴を得る。以下、あるスケールのみを例にし、他のスケールの処理方法は同様とする。該スケールで、ノイズ画像および第二サンプル画像の特徴マップをそれぞれ
Figure 0007026222000051
とする。ノイズ画像の特徴マップにおけるある画素位置pに対して、
Figure 0007026222000052
は該位置の特徴を表す。すると、該スケールで、位置pの第三構造特徴は下式(8)に基づいて得ることができる。
Figure 0007026222000053
式中、
Figure 0007026222000054
は位置pを中心とした、サイズがk×kの領域内の位置の集合を表し、qは位置集合内の一つの位置であり、
Figure 0007026222000055
は位置qの特徴であり、
Figure 0007026222000056
はベクトルのノルムであり、vecはベクトル化を表す。上式は特徴マップにおける位置pとその周囲の近隣位置とのコサイン距離を計算する。任意選択的に、本願の実施例はウィンドウのサイズkを3とすることができる。
一実施形態として、第三特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定するステップは、対応関係を有する位置が対応する第三構造特徴と第二構造特徴との間の距離を計算することと、ノイズ画像が対応する全ての第三構造特徴と第二構造特徴との間の距離に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定することと、を含む。
本願の実施例では、第一構造差異損失を得るプロセスでの予測目標画像の第一構造特徴に代えて本願の実施例におけるノイズ画像の第三構造特徴を使用すること以外は、第二構造差異損失を得るプロセスが第一構造差異損失を得るプロセスと同様である。任意選択的に、下式(9)に基づいて第二構造差異損失を得ることができる。
Figure 0007026222000057
式中、
Figure 0007026222000058
は第二構造差異損失を表し、
Figure 0007026222000059
は位置pの第三構造特徴を表し、Pは全てのスケールにおける特徴マップにおける全ての位置を表し、
Figure 0007026222000060
は位置pの第二構造特徴(上式(3)に基づいて得ることができる)を表し、
Figure 0007026222000061
との間のL距離を表す。
任意選択的な一つ以上の実施例では、ステップ240は、第三反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整することと、第四反復処理において、第一構造差異損失および第二構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含む。
ここで、第三反復処理と第四反復処理は連続的に実行される二回の反復処理である。ノイズ画像が対応する第二構造差異損失を得た後、構造分析ネットワークの性能を向上させるために、構造分析ネットワークのネットワークパラメータを調整する時、第二構造差異損失を追加し、このとき、構造分析ネットワークのネットワークパラメータは下式(10)によって調整できる。
Figure 0007026222000062
式中、
Figure 0007026222000063
は構造分析ネットワーク内の最適化しようとするパラメータを表し、
Figure 0007026222000064
は構造分析ネットワークが対応する総損失を表し、
Figure 0007026222000065
は構造分析ネットワークのパラメータを調整することで構造分析ネットワークの総損失を増大することを表し、
Figure 0007026222000066
は構造分析ネットワークの第一構造差異損失を表し、
Figure 0007026222000067
は構造分析ネットワークの第二構造差異損失を表し、
Figure 0007026222000068
は第二構造差異損失の構造分析ネットワークのパラメータ調整における割合を調整するために設定された定数を表し、任意選択的に、第一構造差異損失および第二構造差異損失はそれぞれ上記式(1)および式(9)を参照して特定するか、または他の方法で得ることができ、本願の実施例は第一構造差異損失を得る具体的な方法を限定しない。
任意選択的な一つ以上の実施例では、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得ることと、第一再構成画像および予測目標画像に基づいて第一再構成損失を特定することと、を含む。
本実施例では、構造分析ネットワークの性能を向上させるために、構造分析ネットワークの後に画像再構成ネットワークを追加し、任意選択的に、図4を参照して構造分析ネットワークの出力端に画像再構成ネットワークを接続することができ、該画像再構成ネットワークは構造分析ネットワークの出力を入力し、例えば、図4に示す3D画像適用シーンで、画像生成ネットワークによって生成される右眼画像(上記実施例における予測目標画像に対応する)および実の右眼画像(上記実施例における第二サンプル画像に対応する)を再構成するように、構造分析ネットワークに入力される画像を再構成し、再構成した生成右眼画像と画像生成ネットワークによって生成される右眼画像との間の差異、および再構成した実の右眼画像と入力左眼画像が対応する実の右眼画像との間の差異で構造分析ネットワークの性能を測定し、つまり、第一再構成損失および第二再構成損失を増大することで構造分析ネットワークの性能を向上させ、構造分析ネットワークの訓練速度を向上させる。
任意選択的な一つ以上の実施例では、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に、さらに、画像再構成ネットワークに基づいて少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得ることと、第二再構成画像および第二サンプル画像に基づいて第二再構成損失を特定することと、を含む。
前の実施例を参照すると、本実施例における画像再構成ネットワークは構造分析ネットワークが第二サンプル画像に基づいて得る第二構造特徴を再構成し、得られた第二再構成画像と第二サンプル画像との間の差異で画像再構成ネットワークおよび構造分析ネットワークの性能を測定しており、第二再構成損失によって構造分析ネットワークの性能を向上させることできる。
一実施形態として、ステップ240は、第五反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整することと、第六反復処理において、第一構造差異損失、第二構造差異損失、第一再構成損失および第二再構成損失に基づいて構造分析ネットワークのネットワークパラメータを調整することと、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得ることと、を含む。
ここで、第五反復処理と第六反復処理は連続的に実行される二回の反復処理である。本願の実施例では、画像生成ネットワークのパラメータを調整する損失が変わることがなく、構造分析ネットワークの性能のみを向上させ、構造分析ネットワークと画像生成ネットワークとは敵対的に訓練されるため、構造分析ネットワークの性能を向上させることで、画像生成ネットワークの訓練を加速することができる。任意選択的な一例では、下式(11)により第一再構成損失および第二再構成損失を得ることができる。
Figure 0007026222000069
式中、
Figure 0007026222000070
は第一再構成損失と第二再構成損失の和を表し、yは画像生成ネットワークが出力する予測目標画像を表し、
Figure 0007026222000071
は第二サンプル画像を表し、
Figure 0007026222000072
は画像再構成ネットワークが出力する第一再構成画像を表し、
Figure 0007026222000073
は画像再構成ネットワークが出力する第二再構成画像を表し、
Figure 0007026222000074
は予測目標画像yと第一再構成画像との間のL距離を表し、第一再構成損失に対応し、
Figure 0007026222000075
は第二サンプル画像と第二再構成画像との間のL距離を表し、第二再構成損失に対応する。
図4は本願の実施例が提供する画像生成ネットワークの訓練方法に係るネットワーク構造の模式図である。図4に示すように、本実施例において画像生成ネットワークの入力は左眼画像であり、画像生成ネットワークは左眼画像に基づき、生成される右眼画像(上記実施例における予測目標画像に対応する)を得て、生成される右眼画像、実の右眼画像、および実の右眼画像(上記実施例の第二サンプル画像に対応する)に基づいて追加されるノイズ画像を同一の構造分析ネットワークにそれぞれ入力し、構造分析ネットワークによって、生成される右眼画像および実の右眼画像を処理し、特徴損失(図中の特徴マッチング損失に対応する)、第一構造差異損失(図中の構造損失に対応する)、第二構造差異損失(図中の別の構造損失に対応する)を得ており、構造分析ネットワークの後にさらに画像再構成ネットワークが含まれ、画像再構成ネットワークは生成右眼画像によって生成される特徴を新たな生成右眼画像として再構成し、実の右眼画像によって生成される特徴を新たな実の右眼画像として再構成する。
任意選択的な一つ以上の実施例では、ステップ140の後に、さらに、
訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得ることを含む。
本願の実施例が提供する訓練方法は、具体的な応用において、訓練後の画像生成ネットワークに基づき、入力される処理待ち画像を処理し、所望の目標画像を得ており、該画像生成ネットワークは2D動画から3D立体画像への変換、高フレームレートの映像の生成などに用いることができ、前記方法はさらに、一つの視角が既知の画像を画像生成ネットワークによって処理し、もう一つの視角での画像を得ることを含む。生成される高品質の右眼画像は他の視覚タスク、例えば、両眼画像(左眼画像および右眼画像を含む)に基づく深度推定の実現にも寄与する。任意選択的に、画像生成ネットワークが2D動画から3D立体画像への変換に用いられる場合、処理待ち画像は左眼画像を含み、目標画像は左眼画像に対応する右眼画像を含む。立体画像生成以外、該方法は他の画像/映像の生成タスク、例えば、画像の任意の新たな視点内容の生成、キーフレームに基づく映像補間などに用いることもできる。これらの場合には、画像生成ネットワークを目標タスクに必要なネットワーク構造に取り替えるだけでよい。
本願の実施例が提供する訓練方法を三次元画像生成シーンに用いる場合、画像生成ネットワークおよび構造分析ネットワークの一回の敵対的訓練は以下のステップを含んでもよい。
1)訓練集合(複数のサンプル画像を含む)から、m個のサンプル画像を含む左画像
Figure 0007026222000076
およびその対応する実の右画像
Figure 0007026222000077
をサンプリングする。
2)左画像を画像生成ネットワークに入力し、生成される右画像
Figure 0007026222000078
を得て、各実の右画像に対して、ノイズを注入してノイズ右画像
Figure 0007026222000079
を得る。
3)生成右画像
Figure 0007026222000080

実の右画像
Figure 0007026222000081
およびノイズの右画像
Figure 0007026222000082
を構造分析ネットワークにそれぞれ入力し、構造発現特徴
Figure 0007026222000083
を計算する。
4)構造分析ネットワークに対して、勾配上昇を実行する。
Figure 0007026222000084
5)画像生成ネットワークに対して、勾配降下を実行する。
Figure 0007026222000085
ここで、減衰学習率γは反復処理回数の増加に伴って漸次減衰可能であり、ネットワークパラメータ調整におけるネットワーク損失の割合は学習率によって制御され、ノイズ右画像を得る時に、注入されるノイズの振幅は毎回の反復処理において同じであってもよく、または反復処理回数の増加に伴って漸次減衰してもよい。
図5は本願の実施例が提供する画像処理方法のフローチャートである。該実施例の方法は、
三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るステップ510と、
左眼画像および右眼画像に基づいて三次元画像を生成するステップ520と、を含む。
ここで、画像生成ネットワークは上記いずれかの実施例が提供する画像生成ネットワークの訓練方法によって訓練して得られる。
本願の実施例が提供する画像処理方法は、画像生成ネットワークによって左眼画像を処理して対応する右眼画像を得ており、照明、遮蔽物、ノイズなどの環境要因からの影響が小さく、視覚面積が小さな対象の合成正確度を維持でき、得られた右眼画像および左眼画像によって歪みが小さく、細部が比較的完全に保持された三次元画像を生成できる。本願の実施例が提供する画像処理方法は映画の2Dから3Dへの自動変換に用いることができる。3D映画の手動変換制作には高い費用、長い制作期間および大量の労働コストが必要である。例えば、『タイタニック』の3Dバージョン変換の制作費用が1800万ドルまで高く、後期制作の特殊効果エンジニアが300余りの人数に達し、75万時間がかかった。2Dから3Dへの自動変換アルゴリズムによってこのコストを大幅に削減し、3D映画の制作フローを加速することができる。高品質の3D映画を生成するには、構造に歪みが発生せず、歪曲がない立体画像を生成し、正確な3Dのグラデーション感覚を作り、局所歪みによる視覚的な違和感を回避することが重要な要因の一つである。そのため、形状が維持される立体画像の生成は重要な意義を有する。
本願の実施例が提供する画像処理方法は3D広告業界に用いることもできる。現在、複数の都市では繁華街、映画館、遊園地などの施設に3D広告ディスプレイスクリーンが設置されている。高品質の3D広告を生成すれば、ブランドのプロモーション効果を向上させ、顧客により良好な現場体験を提供することができる。
本願の実施例が提供する画像処理方法は3Dライブ配信業界に用いることもできる。従来の3Dライブ配信には配信者が専門の両眼カメラを購入する必要があり、それはこの業界に従事するコストや障害を増加する。高品質の2Dから3Dへの自動変換によって、この業界に従事するコストを削減し、ライブ配信のライブ感やインタラクティブ性を増強することができる。
本願の実施例が提供する画像処理方法は将来、スマートフォン業界に用いることもできる。現在、裸眼3D表示機能を有するスマートフォンはホットなコンセプトとなっており、いくつかのメーカーはコンセプト試作機を設計していた。撮影した2D画像を3Dへ自動的に変換し、ソーシャルAPPによってユーザ間の伝播、共有を実現することで、移動端末に基づく対話に関する新鮮なユーザ体験をもたらすことができる。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。
図6は本願の実施例が提供する画像生成ネットワークの訓練装置の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図6に示すように、該実施例の装置は、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されたサンプル取得ユニット61と、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得するように構成された目標予測ユニット62と、予測目標画像と第二サンプル画像との間の差異損失を特定するように構成された差異損失特定ユニット63と、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得るように構成されたネットワーク訓練ユニット64と、を含む。
本願の上記実施例が提供する画像生成ネットワークの訓練装置に基づき、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。
任意選択的な一つ以上の実施例では、差異損失特定ユニット63は、具体的に、構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の差異損失を特定するように構成され、ネットワーク訓練ユニット64は、具体的に、差異損失に基づいて画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行い、訓練後の画像生成ネットワークを得るように構成される。
一実施形態として、訓練段階で、画像生成ネットワークおよび構造分析ネットワークにより敵対的訓練を行い、入力画像が画像生成ネットワークを経由する場合、例えば3D画像生成に用いられる場合、一つの視点での画像を画像生成ネットワークに入力し、該画像のもう一つの視点での生成画像を得る。生成画像および該視点での実の画像を同一の構造分析ネットワークに入力し、それぞれのマルチスケール特徴マップを得る。各スケールで、それぞれの特徴関連性表現を、該スケールにおける構造表示として計算する。訓練プロセスは敵対的な方法で行われ、構造分析ネットワークが生成画像と実の画像との構造表示における距離を常に拡大すること、および画像生成ネットワークによって得られた生成画像が該距離を最大限で縮小できることが求められる。
一実施形態として、差異損失は第一構造差異損失および特徴損失を含み、
差異損失特定ユニット63は、構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するように構成された第一構造差異特定モジュールと、構造分析ネットワークに基づいて予測目標画像と第二サンプル画像との間の特徴損失を特定するように構成された特徴損失特定モジュールと、を含む。
一実施形態として、第一構造差異特定モジュールは、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定し、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するように構成される。
一実施形態として、第一構造差異特定モジュールは、構造分析ネットワークに基づいて予測目標画像を処理し、予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定する時に、構造分析ネットワークに基づいて予測目標画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップを得て、各第一特徴マップに対して、第一特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、予測目標画像の少なくとも一つの第一構造特徴を得るように構成される。
ここで、第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、隣接領域特徴が、該位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
一実施形態として、第一構造差異特定モジュールは、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定する時に、構造分析ネットワークに基づいて第二サンプル画像を処理し、少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得て、各第二特徴マップに対して、第二特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、第二サンプル画像の少なくとも一つの第二構造特徴を得るように構成される。
ここで、第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する。
一実施形態として、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、
第一構造差異特定モジュールは、少なくとも一つの第一構造特徴および少なくとも一つの第二構造特徴に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定する場合に、対応関係を有する位置が対応する第一構造特徴と第二構造特徴との間の距離を計算し、予測目標画像が対応する全ての第一構造特徴と第二構造特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の第一構造差異損失を特定するように構成される。
一実施形態として、特徴損失特定モジュールは、具体的に、構造分析ネットワークに基づいて予測目標画像および第二サンプル画像を処理し、少なくとも一つのスケールにおける予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける第二サンプル画像の第二特徴マップを得て、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定するように構成される。
一実施形態として、第一特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、
特徴損失特定モジュールは、少なくとも一つの第一特徴マップおよび少なくとも一つの第二特徴マップに基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定する場合に、対応関係を有する位置が対応する第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離を計算し、第一特徴マップにおける特徴と第二特徴マップにおける特徴との間の距離に基づき、予測目標画像と第二サンプル画像との間の特徴損失を特定するように構成される。
一実施形態として、差異損失はさらに色損失を含み、
差異損失特定ユニット63はさらに、予測目標画像と第二サンプル画像との間の色差に基づき、画像生成ネットワークの色損失を特定するように構成された色損失特定モジュールを含み、ネットワーク訓練ユニット64は、具体的に、第一反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整し、第二反復処理において、第一構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第一反復処理及び前記第二反復処理を行い、訓練後の画像生成ネットワークを得るように構成される。
ここで、第一反復処理と第二反復処理は連続的に実行される二回の反復処理である。敵対的訓練は画像生成ネットワークが得る予測目標画像と第二サンプル画像との間の差異を小さくすることを目標とする。敵対的訓練は通常、交互訓練の方法で実現し、本願の実施例は画像生成ネットワークおよび構造分析ネットワークを交互に訓練することで、要件を満たす画像生成ネットワークを得る。
任意選択的な一つ以上の実施例では、本願の実施例が提供する装置はさらに、第二サンプル画像にノイズを注入し、ノイズ画像を得るように構成されたノイズ注入ユニットと、ノイズ画像および第二サンプル画像に基づいて第二構造差異損失を特定するように構成された第二構造差異損失ユニットと、を含む。
予測目標画像はサンプル画像によって生成され、第二サンプル画像は通常、照明差異を有しかつノイズによる影響を受けるため、生成される予測目標画像と第二サンプル画像とは一定の分布差異を有する。構造分析ネットワークが、シーン構造情報ではなくこれらの差異に注目することを回避するために、本願の実施例は訓練プロセスにノイズに対する抵抗メカニズムを追加する。
一実施形態として、第二構造差異損失ユニットは、具体的に、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定し、構造分析ネットワークに基づいて第二サンプル画像を処理し、第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定し、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定するように構成される。
一実施形態として、第二構造差異損失ユニットは、構造分析ネットワークに基づいてノイズ画像を処理し、ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定する時に、構造分析ネットワークに基づいてノイズ画像を処理し、少なくとも一つのスケールにおけるノイズ画像の第三特徴マップを得て、各第三特徴マップに対して、第三特徴マップにおける少なくとも一つの位置の各々の特徴と該位置の隣接領域特徴とのコサイン距離に基づき、ノイズ画像の少なくとも一つの第三構造特徴を得るように構成され、ここで、第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、隣接領域特徴が、該位置を中心として少なくとも二つの位置を含む領域内の各特徴である。
一実施形態として、第三特徴マップにおける各位置と第二特徴マップにおける各位置とは対応関係を有し、
第二構造差異損失ユニットは、少なくとも一つの第三構造特徴および少なくとも一つの第二構造特徴に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定する場合に、対応関係を有する位置が対応する第三構造特徴と第二構造特徴との間の距離を計算し、ノイズ画像が対応する全ての第三構造特徴と第二構造特徴との間の距離に基づき、ノイズ画像と第二サンプル画像との間の第二構造差異損失を特定するように構成される。
一実施形態として、ネットワーク訓練ユニットは、具体的に、第三反復処理において、第一構造差異損失、特徴損失および色損失に基づいて画像生成ネットワークのネットワークパラメータを調整し、第四反復処理において、第一構造差異損失および第二構造差異損失に基づいて構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第三反復処理及び前記第四反復処理を行い、訓練後の画像生成ネットワークを得るように構成される。ここで、第三反復処理と第四反復処理は連続的に実行される二回の反復処理である。
一実施形態として、第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて少なくとも一つの第一構造特徴に対して画像再構成処理を行い、第一再構成画像を得て、第一再構成画像および予測目標画像に基づいて第一再構成損失を特定するように構成される。
一実施形態として、第一構造差異特定モジュールはさらに、画像再構成ネットワークに基づいて少なくとも一つの第二構造特徴に対して画像再構成処理を行い、第二再構成画像を得て、第二再構成画像および第二サンプル画像に基づいて第二再構成損失を特定するように構成される。
一実施形態として、ネットワーク訓練ユニットは、具体的に、第五反復処理において、第一構造差異損失、特徴損失および前記色損失に基づいて画像生成ネットワークのネットワークパラメータを調整し、第六反復処理において、第一構造差異損失、第二構造差異損失、第一再構成損失および第二再構成損失に基づいて構造分析ネットワークのネットワークパラメータを調整し、訓練停止条件が満たされるようになるまで前記第五反復処理及び前記第六反復処理を行い、訓練後の画像生成ネットワークを得るように構成される。ここで、第五反復処理と第六反復処理は連続的に実行される二回の反復処理である。
任意選択的な一つ以上の実施例では、本願の実施例が提供する装置はさらに、訓練後の画像生成ネットワークに基づいて処理待ち画像を処理し、目標画像を得るように構成された画像処理ユニットを含む。
本願の実施例が提供する訓練装置は、具体的な応用において、訓練後の画像生成ネットワークに基づいて、入力される処理待ち画像を処理し、所望の目標画像を得ており、該画像生成ネットワークは2D動画から3D立体画像への変換、高フレームレートの映像の生成などに用いることができる。
一実施形態として、処理待ち画像は左眼画像を含み、目標画像は左眼画像に対応する右眼画像を含む。
図7は本願の実施例が提供する画像処理装置の構成模式図である。該実施例の装置は、三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力し、右眼画像を得るように構成された右眼画像取得ユニット71と、左眼画像および右眼画像に基づいて三次元画像を生成するように構成された三次元画像生成ユニット72と、を含む。
ここで、画像生成ネットワークは上記いずれかの実施例が提供する画像生成ネットワークの訓練方法によって訓練して得られる。
本願の実施例が提供する画像処理装置は、画像生成ネットワークによって左眼画像を処理して対応する右眼画像を得ており、照明、遮蔽物、ノイズなどの環境要因からの影響が小さく、視覚面積が小さな対象の合成正確度を維持でき、得られた右眼画像および左眼画像によって歪みが小さく、細部が比較的完全に保持された三次元画像を生成できる。
本願の実施例は、上記いずれかの実施例に記載の画像生成ネットワークの訓練装置または上記実施例に記載の画像処理装置を含むプロセッサを含む電子機器を提供する。
本願の実施例は、プロセッサと、プロセッサ実行可能命令を記憶するためのメモリとを含む電子機器を提供し、ここで、前記プロセッサは前記実行可能命令を実行することで、前記いずれかの実施例に記載の画像生成ネットワークの訓練方法または画像処理方法を実現するように構成される。
本願の実施例はコンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、前記可読命令は実行される時に上記いずれかの実施例に記載の画像生成ネットワークの訓練方法の動作、または上記実施例に記載の画像処理方法の動作を実行するコンピュータ記憶媒体を提供する。
本願の実施例はコンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において運用される時、前記機器内のプロセッサは上記いずれかの実施例に記載の画像生成ネットワークの訓練方法を実現するための命令、または上記実施例に記載の画像処理方法を実現するための命令を実行するコンピュータプログラム製品を提供する。
本願の実施例は電子機器をさらに提供し、例えば移動端末、パーソナルコンピュータ(PC、Personal Computer)、タブレット、サーバなどであってもよい。以下に図8を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器800の構成模式図が示される。図8に示すように、電子機器800は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU、Central Processing Unit)801、および/または一つ以上の専用プロセッサであり、専用プロセッサは加速ユニット813とすることができ、画像処理装置(GPU、Graphics Processing Unit)、フィールドプログラマブルゲートアレイ(FPGA、Field-Programmable Gate Array)、デジタル信号プロセッサ(DSP、Digital Signal Processing)および他の特定用途向け集積回路(ASIC、Application-Specific Integrated Circuit)チップなどのような専用プロセッサなどを含むことができるが、これらに限定されず、プロセッサは読み取り専用メモリ(ROM)802に記憶されている実行可能命令または記憶部分808からランダムアクセスメモリ(RAM)803にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部812はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されない。
プロセッサは読み取り専用メモリ802および/またはランダムアクセスメモリ803と通信して実行可能命令を実行し、バス804を介して通信部812と接続し、通信部812によって他の目標機器と通信し、それにより本願の実施例が提供するいずれかの方法の対応する動作、例えば、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得することと、予測目標画像と第二サンプル画像との間の差異損失を特定することと、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を完了することができる。
また、RAM803には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU801、ROM802およびRAM803はバス804を介して互いに接続される。RAM803が存在する場合、ROM802は任意選択的なモジュールとなる。RAM803は実行可能命令を記憶するか、または動作時にROM802へ実行可能命令を書き込み、実行可能命令によって中央処理装置801は上記通信方法の対応する動作を実行する。入力/出力(I/O、Input/Output)インタフェース805もバス804に接続される。通信部812は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部分806、陰極線管(CRT、Cathode Ray Tube)、液晶ディスプレイ(LCD、Liquid Crystal Display)などおよびスピーカーなどを含む出力部分807、ハードディスクなどを含む記憶部分808、およびローカルエリアネットワーク(LAN、 Local Area Network)カード、モデムのネットワークインタフェースカードなどを含む通信部分809などはI/Oインタフェース805に接続される。通信部分809はインターネットのようなネットワークを介して通信処理を行う。ドライバ810も必要に応じてI/Oインタフェース805に接続される。取り外し可能な媒体811、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ810取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分808にインストールされる。
なお、図8に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図8の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えば加速ユニット813とCPU801は分離設置するかまたは加速ユニット813をCPU801に統合するようにしてもよく、通信部は分離設置するか、またCPU801または加速ユニット813に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例が提供する方法のステップを対応して実行する対応の命令、例えば、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得することと、予測目標画像と第二サンプル画像との間の差異損失を特定することと、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得ることと、を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分809によってネットワークからダウンロードおよびインストールされ、および/または取り外し可能な媒体811からインストールされ得る。該コンピュータプログラムは中央処理装置(CPU)801により実行される時、本願の実施例の方法で限定された上記機能の動作を実行する。
本願の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読命令を含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本願の原理および実際の適用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。
本開示の実施例の技術的解決手段は、第一サンプル画像と第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得し、画像生成ネットワークに基づいて第一サンプル画像を処理し、予測目標画像を取得し、予測目標画像と第二サンプル画像との間の差異損失を特定し、差異損失に基づいて画像生成ネットワークを訓練し、訓練後の画像生成ネットワークを得て、このように、差異損失によって予測目標画像と第二サンプル画像との間の構造差異を記述し、差異損失で画像生成ネットワークを訓練し、画像生成ネットワークに基づいて生成される画像の構造に歪みが発生しないように保証する。

Claims (24)

  1. 画像生成ネットワークを訓練する方法であって、前記方法は、
    第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得することと、
    画像生成ネットワークに基づいて前記第一サンプル画像を処理することにより、予測目標画像を得ることと、
    前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することと、
    前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得ること
    を含み、
    前記差異損失は、第一構造差異損失および特徴損失を含み、
    前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することは、
    構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、
    前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと
    を含む、方法。
  2. 前記予測目標画像と前記第二サンプル画像との間の差異損失を特定すること、前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の差異損失を特定することを含み、
    前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得ること前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることを含む、請求項1に記載の方法。
  3. 構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することは、
    前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することと、
    前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することと、
    前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定すること
    を含む、請求項に記載の方法。
  4. 前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定することは、
    前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップを得ることと、
    各前記第一特徴マップに対して、前記第一特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記予測目標画像の少なくとも一つの第一構造特徴を得ること
    を含み、
    前記第一特徴マップにおける各位置はそれぞれ一つの第一構造特徴に対応し、前記隣接領域特徴は、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、請求項に記載の方法。
  5. 前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定することは、
    前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
    各前記第二特徴マップに対して、前記第二特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記第二サンプル画像の少なくとも一つの第二構造特徴を得ること
    を含み、
    記第二特徴マップにおける各位置はそれぞれ一つの第二構造特徴に対応する、請求項に記載の方法。
  6. 前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
    前記少なくとも一つの第一構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することは、
    対応関係を有する位置が対応する前記第一構造特徴と前記第二構造特徴との間の距離を計算することと、
    前記予測目標画像が対応する全ての前記第一構造特徴と前記第二構造特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定すること
    を含む、請求項に記載の方法。
  7. 前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することは、
    前記構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、少なくとも一つのスケールにおける前記予測目標画像の第一特徴マップおよび少なくとも一つのスケールにおける前記第二サンプル画像の第二特徴マップを得ることと、
    前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定すること
    を含む、請求項からのいずれか一項に記載の方法。
  8. 前記第一特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
    前記少なくとも一つの第一特徴マップおよび前記少なくとも一つの第二特徴マップに基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することは、
    対応関係を有する位置が対応する前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離を計算することと、
    前記第一特徴マップにおける特徴と前記第二特徴マップにおける特徴との間の距離に基づき、前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定すること
    を含む、請求項に記載の方法。
  9. 前記差異損失は色損失をさらに含み、前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得る前に、前記方法は
    前記予測目標画像と前記第二サンプル画像との間の色差に基づき、前記画像生成ネットワークの色損失を特定することをさらに含み、
    前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることは、
    第一反復処理において、前記第一構造差異損失および前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
    第二反復処理において、前記第一構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
    訓練停止条件が満たされるようになるまで前記第一反復処理および前記第二反復処理を行うことにより、訓練後の画像生成ネットワークを得ること
    を含み、
    記第一反復処理および前記第二反復処理は連続的に実行される二回の反復処理である、請求項からのいずれか一項に記載の方法。
  10. 前記方法は、
    前記予測目標画像と前記第二サンプル画像との間の差異損失を特定する前に
    前記第二サンプル画像にノイズを注入することにより、ノイズ画像を得ることと、
    前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定すること
    さらに含む、請求項に記載の方法。
  11. 前記ノイズ画像および前記第二サンプル画像に基づいて第二構造差異損失を特定することは、
    前記構造分析ネットワークに基づいて前記ノイズ画像を処理することにより、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することと、
    前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の前記少なくとも一つの第二構造特徴を特定することと、
    前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定すること
    を含む、請求項10に記載の方法。
  12. 前記構造分析ネットワークに基づいて前記ノイズ画像を処理することにより、前記ノイズ画像における少なくとも一つの位置の少なくとも一つの第三構造特徴を特定することは、
    前記構造分析ネットワークに基づいて前記ノイズ画像を処理することにより、少なくとも一つのスケールにおける前記ノイズ画像の第三特徴マップを得ることと、
    各前記第三特徴マップに対して、前記第三特徴マップにおける少なくとも一つの位置の各々の特徴と前記位置の隣接領域特徴とのコサイン距離に基づき、前記ノイズ画像の少なくとも一つの第三構造特徴を得ること
    を含み、
    記第三特徴マップにおける各位置はそれぞれ一つの第三構造特徴に対応し、前記隣接領域特徴は、前記位置を中心として少なくとも二つの位置を含む領域内の各特徴である、請求項11に記載の方法。
  13. 前記第三特徴マップにおける各位置と前記第二特徴マップにおける各位置とは対応関係を有し、
    前記少なくとも一つの第三構造特徴および前記少なくとも一つの第二構造特徴に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定することは、
    対応関係を有する位置が対応する前記第三構造特徴と前記第二構造特徴との間の距離を計算することと、
    前記ノイズ画像が対応する全ての前記第三構造特徴と前記第二構造特徴との間の距離に基づき、前記ノイズ画像と前記第二サンプル画像との間の第二構造差異損失を特定すること
    を含む、請求項12に記載の方法。
  14. 前記差異損失に基づいて前記画像生成ネットワークと前記構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることは、
    第三反復処理において、前記第一構造差異損失および前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
    第四反復処理において、前記第一構造差異損失および前記第二構造差異損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
    訓練停止条件が満たされるようになるまで前記第三反復処理および前記第四反復処理を行うことにより、訓練後の画像生成ネットワークを得ること
    を含み、
    記第三反復処理および前記第四反復処理は連続的に実行される二回の反復処理である、請求項10から13のいずれか一項に記載の方法。
  15. 前記方法は、
    前記構造分析ネットワークに基づいて前記予測目標画像を処理することにより、前記予測目標画像における少なくとも一つの位置の少なくとも一つの第一構造特徴を特定した後に
    画像再構成ネットワークに基づいて前記少なくとも一つの第一構造特徴に対して画像再構成処理を行うことにより、第一再構成画像を得ることと、
    前記第一再構成画像および前記予測目標画像に基づいて第一再構成損失を特定すること
    さらに含む、請求項10から14のいずれか一項に記載の方法。
  16. 前記方法は、
    前記構造分析ネットワークに基づいて前記第二サンプル画像を処理することにより、前記第二サンプル画像における少なくとも一つの位置の少なくとも一つの第二構造特徴を特定した後に
    画像再構成ネットワークに基づいて前記少なくとも一つの第二構造特徴に対して画像再構成処理を行うことにより、第二再構成画像を得ることと、
    前記第二再構成画像および前記第二サンプル画像に基づいて第二再構成損失を特定すること
    さらに含む、請求項15に記載の方法。
  17. 前記差異損失に基づいて前記画像生成ネットワークと構造分析ネットワークとに対して敵対的訓練を行うことにより、訓練後の画像生成ネットワークを得ることは、
    第五反復処理において、前記第一構造差異損失および前記特徴損失および前記色損失に基づいて、前記画像生成ネットワークのネットワークパラメータを調整することと、
    第六反復処理において、前記第一構造差異損失および前記第二構造差異損失および前記第一再構成損失および前記第二再構成損失に基づいて前記構造分析ネットワークのネットワークパラメータを調整することと、
    訓練停止条件が満たされるようになるまで前記第五反復処理および前記第六反復処理を行うことにより、訓練後の画像生成ネットワークを得ること
    を含み、
    記第五反復処理および前記第六反復処理は連続的に実行される二回の反復処理である、請求項16に記載の方法。
  18. 前記構造分析ネットワークは、カラー画像を入力とする、請求項1に記載の方法。
  19. 画像を処理する方法であって、前記方法は、
    三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力することにより、右眼画像を得ることと、
    前記左眼画像および前記右眼画像に基づいて三次元画像を生成すること
    を含み、
    記画像生成ネットワークは請求項1から18のいずれか一項に記載の画像生成ネットワーク訓練する方法によって訓練することによって得られる方法。
  20. 画像生成ネットワークの訓練装置であって、前記画像生成ネットワークの訓練装置は、
    第一サンプル画像と前記第一サンプル画像に対応する第二サンプル画像とを含むサンプル画像を取得するように構成されているサンプル取得ユニットと、
    画像生成ネットワークに基づいて前記第一サンプル画像を処理することにより、予測目標画像を得るように構成されている目標予測ユニットと、
    前記予測目標画像と前記第二サンプル画像との間の差異損失を特定するように構成されている差異損失特定ユニットと、
    前記差異損失に基づいて前記画像生成ネットワークを訓練することにより、訓練後の画像生成ネットワークを得るように構成されているネットワーク訓練ユニット
    を含み、
    前記差異損失は第一構造差異損失および特徴損失を含み、
    前記差異損失特定ユニットは、
    構造分析ネットワークに基づいて前記予測目標画像および前記第二サンプル画像を処理することにより、前記予測目標画像と前記第二サンプル画像との間の第一構造差異損失を特定することと、
    前記構造分析ネットワークに基づいて前記予測目標画像と前記第二サンプル画像との間の特徴損失を特定することと
    を実行するように構成されている、画像生成ネットワークの訓練装置。
  21. 画像処理装置であって、前記画像処理装置は、
    三次元画像生成シーンで、左眼画像を画像生成ネットワークに入力することにより、右眼画像を得るように構成されている右眼画像取得ユニットと、
    前記左眼画像および前記右眼画像に基づいて三次元画像を生成するように構成されている三次元画像生成ユニット
    を含み、
    記画像生成ネットワークは請求項1から18のいずれか一項に記載の画像生成ネットワーク訓練する方法によって訓練して得られる画像処理装置。
  22. 電子機器であって、前記電子機器は、
    プロセッサと、
    プロセッサ実行可能命令を記憶するためのメモリ
    を含み、
    記プロセッサは、前記実行可能命令を実行する時に請求項1から18のいずれか一項に記載の画像生成ネットワーク訓練する方法、および/または請求項19に記載の画像処理する方法を実現するように構成されている、電子機器。
  23. コンピュータ読み取り可能な命令が記憶されているコンピュータ記憶媒体であって、前記命令は実行される時に請求項1から18のいずれか一項に記載の画像生成ネットワーク訓練する方法の動作、および/または請求項19に記載の画像処理する方法の動作を実行する、コンピュータ記憶媒体。
  24. コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが機器において運用される時、前記機器内のプロセッサは請求項1から18のいずれか一項に記載の画像生成ネットワーク訓練する方法を実現するための命令、および/または請求項19に記載の画像処理する方法を実現するための命令を実行する、コンピュータプログラム。
JP2020524341A 2019-04-30 2019-08-19 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体 Active JP7026222B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910363957.5A CN110322002B (zh) 2019-04-30 2019-04-30 图像生成网络的训练及图像处理方法和装置、电子设备
CN201910363957.5 2019-04-30
PCT/CN2019/101457 WO2020220516A1 (zh) 2019-04-30 2019-08-19 图像生成网络的训练及图像处理方法、装置、电子设备、介质

Publications (2)

Publication Number Publication Date
JP2021525401A JP2021525401A (ja) 2021-09-24
JP7026222B2 true JP7026222B2 (ja) 2022-02-25

Family

ID=68113358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524341A Active JP7026222B2 (ja) 2019-04-30 2019-08-19 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体

Country Status (6)

Country Link
JP (1) JP7026222B2 (ja)
KR (1) KR20200128378A (ja)
CN (1) CN110322002B (ja)
SG (1) SG11202004325RA (ja)
TW (1) TWI739151B (ja)
WO (1) WO2020220516A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242844B (zh) * 2020-01-19 2023-09-22 腾讯科技(深圳)有限公司 图像处理方法、装置、服务器和存储介质
CN113139893B (zh) * 2020-01-20 2023-10-03 北京达佳互联信息技术有限公司 图像翻译模型的构建方法和装置、图像翻译方法和装置
CN111325693B (zh) * 2020-02-24 2022-07-12 西安交通大学 一种基于单视点rgb-d图像的大尺度全景视点合成方法
CN111475618B (zh) * 2020-03-31 2023-06-13 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
WO2022099613A1 (zh) * 2020-11-13 2022-05-19 华为技术有限公司 图像生成模型的训练方法、新视角图像生成方法及装置
CN112884124A (zh) * 2021-02-24 2021-06-01 中国工商银行股份有限公司 神经网络的训练方法及设备、图像处理方法及设备
TWI790560B (zh) * 2021-03-03 2023-01-21 宏碁股份有限公司 並排影像偵測方法與使用該方法的電子裝置
CN112927172B (zh) * 2021-05-10 2021-08-24 北京市商汤科技开发有限公司 图像处理网络的训练方法和装置、电子设备和存储介质
CN113311397B (zh) * 2021-05-25 2023-03-10 西安电子科技大学 基于卷积神经网络的大型阵列快速自适应抗干扰方法
CN113900608B (zh) * 2021-09-07 2024-03-15 北京邮电大学 立体三维光场的显示方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108495110A (zh) 2018-01-19 2018-09-04 天津大学 一种基于生成式对抗网络的虚拟视点图像生成方法
CN109166144A (zh) 2018-07-20 2019-01-08 中国海洋大学 一种基于生成对抗网络的图像深度估计方法
CN109191409A (zh) 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 图像处理、网络训练方法、装置、电子设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI612433B (zh) * 2016-11-17 2018-01-21 財團法人工業技術研究院 整體式學習預測裝置與方法、以及非暫存電腦可讀的儲存媒介
US10474929B2 (en) * 2017-04-25 2019-11-12 Nec Corporation Cyclic generative adversarial network for unsupervised cross-domain image generation
CN108229494B (zh) * 2017-06-16 2020-10-16 北京市商汤科技开发有限公司 网络训练方法、处理方法、装置、存储介质和电子设备
CN108229526B (zh) * 2017-06-16 2020-09-29 北京市商汤科技开发有限公司 网络训练、图像处理方法、装置、存储介质和电子设备
US10578869B2 (en) * 2017-07-24 2020-03-03 Mentor Acquisition One, Llc See-through computer display systems with adjustable zoom cameras
CN109191402B (zh) * 2018-09-03 2020-11-03 武汉大学 基于对抗生成神经网络的图像修复方法和系统
CN109635745A (zh) * 2018-12-13 2019-04-16 广东工业大学 一种基于生成对抗网络模型生成多角度人脸图像的方法
CN110163193B (zh) * 2019-03-25 2021-08-06 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108495110A (zh) 2018-01-19 2018-09-04 天津大学 一种基于生成式对抗网络的虚拟视点图像生成方法
CN109166144A (zh) 2018-07-20 2019-01-08 中国海洋大学 一种基于生成对抗网络的图像深度估计方法
CN109191409A (zh) 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 图像处理、网络训练方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jyh-Jing Hwang et al.,Adversarial Structure Matching for Structured Prediction Tasks,[online],2018年05月18日,[2021.08.24検索], インターネット, <URL:https://arxiv.org/pdf/1805.07457.pdf>
Yuan Xue et al.,SegAN: Adversarial Network with Multi-scale L1 Loss for Medical Image Segmentation,[online],2017年07月16日, [2021.08.24検索], インターネット, <URL:https://arxiv.org/pdf/1706.01805.pdf>

Also Published As

Publication number Publication date
JP2021525401A (ja) 2021-09-24
TWI739151B (zh) 2021-09-11
TW202042176A (zh) 2020-11-16
CN110322002B (zh) 2022-01-04
WO2020220516A1 (zh) 2020-11-05
CN110322002A (zh) 2019-10-11
KR20200128378A (ko) 2020-11-12
SG11202004325RA (en) 2020-12-30

Similar Documents

Publication Publication Date Title
JP7026222B2 (ja) 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体
CN111275518B (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN105654492B (zh) 基于消费级摄像头的鲁棒实时三维重建方法
KR20190100320A (ko) 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체
US20190287283A1 (en) User-guided image completion with image completion neural networks
JP5645842B2 (ja) スケールスペースを使用した画像処理装置及び方法
US20200349391A1 (en) Method for training image generation network, electronic device, and storage medium
WO2022188282A1 (zh) 基于物理感知的三维流体逆向建模方法
CN110796593A (zh) 基于人工智能的图像处理方法、装置、介质及电子设备
CN102136156B (zh) 用于介观几何结构调制的系统和方法
JP7432005B2 (ja) 二次元画像の三次元化方法、装置、機器及びコンピュータプログラム
JP2022525552A (ja) 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン
CN107018400B (zh) 一种将2d视频转换成3d视频的方法
Wu et al. [Retracted] 3D Film Animation Image Acquisition and Feature Processing Based on the Latest Virtual Reconstruction Technology
US20230290132A1 (en) Object recognition neural network training using multiple data sources
Nie et al. Physics-preserving fluid reconstruction from monocular video coupling with SFS and SPH
CN108769644B (zh) 一种基于深度学习的双目动画风格化渲染方法
Li et al. DGNR: Density-Guided Neural Point Rendering of Large Driving Scenes
Tsai et al. A novel method for 2D-to-3D video conversion based on boundary information
CN114255328A (zh) 一种基于单视图与深度学习的古文物三维重建方法
Liu Light image enhancement based on embedded image system application in animated character images
Lei et al. [Retracted] Design of 3D Modeling Face Image Library in Multimedia Film and Television
Larey et al. Facial Expression Retargeting from a Single Character
CN117241065B (zh) 视频插帧图像生成方法、装置、计算机设备和存储介质
CN115243025B (zh) 三维渲染方法、装置、终端设备以及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200430

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R150 Certificate of patent or registration of utility model

Ref document number: 7026222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150