JP7106687B2 - 画像生成方法および装置、電子機器、並びに記憶媒体 - Google Patents

画像生成方法および装置、電子機器、並びに記憶媒体 Download PDF

Info

Publication number
JP7106687B2
JP7106687B2 JP2020569988A JP2020569988A JP7106687B2 JP 7106687 B2 JP7106687 B2 JP 7106687B2 JP 2020569988 A JP2020569988 A JP 2020569988A JP 2020569988 A JP2020569988 A JP 2020569988A JP 7106687 B2 JP7106687 B2 JP 7106687B2
Authority
JP
Japan
Prior art keywords
image
pose
network
map
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020569988A
Other languages
English (en)
Other versions
JP2021526698A (ja
Inventor
イーニン リー
チェン ホアン
チェンチャン ロイ
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2021526698A publication Critical patent/JP2021526698A/ja
Application granted granted Critical
Publication of JP7106687B2 publication Critical patent/JP7106687B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本願は、2019年03月22日に中国特許局に提出された、出願番号が201910222054.5であり、発明の名称が「画像生成方法および装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に組み込まれている。
本開示は、コンピュータ技術分野に関し、特に、画像生成方法および装置、電子機器、並びに記憶媒体に関する。
関連技術では、通常、オプティカルフローなどの方法で、画像内のオブジェクトの姿勢を変化させ、姿勢変化後のオブジェクトの画像を生成する。
本開示は、画像生成方法および装置、電子機器、並びに記憶媒体を提案する。
本開示の一態様によれば、画像生成方法を提供し、前記方法は、
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得することと、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得することであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含むことと、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成することであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢であることと、を含む。
本開示の実施例の画像生成方法によれば、第1姿勢情報および第2姿勢情報に従って可視性マップを取得でき、第1オブジェクトの各部分の可視性を取得でき、生成された第1画像に目標姿勢の第1オブジェクトの可視部分を表示でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。
一可能な実施形態において、前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成することは、
前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することと、
前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成することと、を含む。
一可能な実施形態において、前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することは、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得することと、
前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することと、を含む。
このようにして、オプティカルフローマップに従って第1特徴マップに対して変位処理を実行し、可視性マップに従って可視部分および不可視部分を決定でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。
一可能な実施形態において、前記外観特徴マップおよび前記第2姿勢情報に従って、第1画像を生成することは、
前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得することと、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成することと、を含む。
このようにして、第2姿勢情報の姿勢特徴符号化処理により取得された姿勢特徴マップ、および可視部分と不可視部分を区別した外観特徴マップを復号化して、第1画像を取得でき、これにより、第1画像内の第1オブジェクトの姿勢を目標姿勢に変更させ、画像の歪みを改善し、アーチファクトを低減することができる。
一可能な実施形態において、前記画像生成方法は、
前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得することをさらに含む。
一可能な実施形態において、前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得することは、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得することと、
前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、
前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得することと、を含む。
このようにして、加重平均の方式で、検出される画像内の高周波詳細を第1画像に追加して、第2画像を取得でき、生成された画像の品質を向上させることができる。
一可能な実施形態において、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することは、
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することを含む。
一可能な実施形態において、前記画像生成方法は、ニューラルネットワークによって実現され、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用される。
一可能な実施形態において、前記画像生成方法は、
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることをさらに含み、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることは、
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得することと、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得することと、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得することと、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定することと、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含む。
このようにして、任意の姿勢情報に従ってオプティカルフローマップおよび可視性マップを生成するようにオプティカルフローネットワークをトレーニングすることができ、任意の姿勢の第1オブジェクトの第1画像を生成するための基礎を提供でき、3次元モデルによってトレーニングされたオプティカルフローネットワークは、より高い精度を有し、トレーニングされたオプティカルフローネットワークを使用して可視性マップとオプティカルフローマップを生成することにより、処理リソースを節約できる。
一可能な実施形態において、前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用される。
一可能な実施形態において、前記画像生成方法は、
プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することをさらに含み、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することは、
前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得することと、
前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得することと、
第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、
前記判別ネットワークによって前記サンプル生成画像または第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、
前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することと、を含む。
本開示の別の態様によれば、画像生成装置を提供し、前記装置は、
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得するように構成される情報取得モジュールと、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得するように構成される第1取得モジュールであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含む第1取得モジュールと、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成するように構成される生成モジュールであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢である生成モジュールと、を備える。
一可能な実施形態において、前記生成モジュールは、さらに、
前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得し、
前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成するように構成される。
一可能な実施形態において、前記生成モジュールは、さらに、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得し、
前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得するように構成される。
一可能な実施形態において、前記生成モジュールは、さらに、
前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得し、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成するように構成される。
一可能な実施形態において、前記画像生成装置は、
前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得するように構成される第2取得モジュールをさらに備える。
一可能な実施形態において、前記第2取得モジュールは、さらに、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得し、
前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得し、
前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得するように構成される。
一可能な実施形態において、前記情報取得モジュールは、さらに、
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得するように構成される。
一可能な実施形態において、前記画像生成装置は、ニューラルネットワークを備え、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用される。
一可能な実施形態において、前記画像生成装置は、
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第1トレーニングモジュールをさらに備え、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、前記第1トレーニングモジュールは、さらに、
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得し、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得し、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得し、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成される。
一可能な実施形態において、前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用される。
一可能な実施形態において、前記画像生成装置は、
プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行するように構成される第2トレーニングモジュールをさらに備え、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、前記第2トレーニングモジュールは、さらに、
前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得し、
前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得し、
第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得し、
前記判別ネットワークによって前記サンプル生成画像または第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得し、
前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行するように構成される。
本開示の一態様によれば、電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記の画像生成方法を実行するように構成される。
本開示の一態様によれば、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、プロセッサによって実行されるときに、上記の画像生成方法を実現するように構成される。
本開示の一態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、当前記コンピュータ可読コードが、電子機器で実行されるときに、前記電子機器のプロセッサは、上記の画像生成方法を実行する。
上記の一般的な説明と以下の詳細な説明は、解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。
以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
本開示の実施例による画像生成方法のフローチャートである。 本開示の実施例による第1姿勢情報の概略図である。 本開示の実施例による画像生成方法のフローチャートである。 本開示の実施例によるオプティカルフローネットワークトレーニングの概略図である。 本開示の実施例による特徴変換サブネットワークの概略図である。 本開示の実施例による画像生成方法のフローチャートである。 本開示の実施例による画像生成方法のフローチャートである。 本開示の実施例による画像生成ネットワークのトレーニングの概略図である。 本開示の実施例による画像生成方法の応用の概略図である。 本開示の実施例による画像生成装置のブロック図である。 本開示の実施例による画像生成装置のブロック図である。 本開示の実施例による画像生成装置のブロック図である。 本開示の実施例による画像生成装置のブロック図である。 本開示の実施例による電子装置のブロック図である。 本開示の実施例による電子装置のブロック図である。
以下、図面を参照しながら本開示の様々な例示的な実施例、特徴、および態様を詳細に説明する。図面における同じ参照符号は、同じまたは類似の機能を有する要素を表す。実施例の様々な態様が図面に示されるが、特に明記しない限り、必ずしも縮尺通りに図面を作る必要はない。
本明細書で使用される「例示的」という用語は、「例、実施例として用いられることまたは説明的なもの」を意味する。本明細書で「例示的」として説明される任意の実施例は、他の実施例より優れるまたは良好なものと解釈すべきではない。
本明細書における「および/または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合の3つの場合を表す。また、本明細書における「少なくとも1つ」という用語は、複数のうちのいずれか1つまたは複数のうちの少なくとも2つの任意の組み合わせを意味し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCからなるセットから選択されるいずれか1つまたは複数の要素を含むことを意味することができる。
また、本開示をより効果的に説明するために、以下の特定の実施形態において、多くの特定の詳細が与えられる。当業者であれば、本開示は、いくつかの特定の詳細なしに実施することもできることを理解すべきである。いくつかの実施例において、本開示の要旨を強調するために、当業者に既知の方法、手段、要素、および回路に対する詳細な説明を省略する。
図1は、本開示の実施例による画像生成方法のフローチャートであり、図1に示されるように、前記画像生成方法は、以下のステップを含む。
ステップS11において、処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得する。
ステップS12において、前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得し、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含む。
ステップS13において、前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成し、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢である。
本開示の実施例の画像生成方法によれば、第1姿勢情報および第2姿勢情報に従って可視性マップを取得でき、第1オブジェクトの各部分の可視性を取得でき、生成された第1画像に目標姿勢の第1オブジェクトの可視部分を表示でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。
一可能な実施形態において、前記第1姿勢情報は、処理される画像内の第1オブジェクトの姿勢、すなわち、初期姿勢を表す。
一可能な実施形態において、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することは、処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することを含み得る。
一可能な実施形態において、畳み込みニューラルネットワークなどによって、処理される画像に対して姿勢特徴抽出を実行でき、例えば、前記第1オブジェクトが人物の場合、処理される画像内の第1オブジェクトの人体キーポイントを抽出でき、前記人体キーポイントで第1オブジェクトの初期姿勢を表すことができ、前記人体キーポイントの位置情報を前記第1姿勢情報として決定することができる。本開示は、第1姿勢情報の抽出方法を限定しない。
一例では、畳み込みニューラルネットワークによって、処理される画像内の第1オブジェクトの複数のキーポイントを抽出でき、例えば、18個のキーポイントを抽出でき、前記18個のキーポイントの位置を第1姿勢情報として決定でき、前記第1姿勢情報は、キーポイントを含む特徴マップとして表すことができる。
図2は、本開示の実施例による第1姿勢情報の概略図であり、図2に示されるように、特徴マップ(即ち、第1姿勢情報)内の前記キーポイントの位置座標は、処理される画像内の位置座標と一致することができる。
一可能な実施形態において、第2姿勢情報は、生成される目標姿勢を表し、キーポイントで構成される特徴マップとして表すことができ、前記第2姿勢情報は、任意の姿勢を表すことができる。例えば、第1姿勢情報の特徴マップ内のキーポイントの位置を調整して、第2姿勢情報を取得してもよく、任意のオブジェクトの任意の姿勢の画像に対してキーポイント抽出を実行して、第2姿勢情報取得してもよい。第2姿勢情報は、キーポイントを含む特徴マップとして表すこともできる。
一可能な実施形態において、ステップS12では、第1オブジェクトの第1姿勢情報および第2姿勢情報に従って姿勢変換情報を取得することができ、前記姿勢変換情報は、初期姿勢と目標姿勢との間のオプティカルフローマップおよび/または目標姿勢の可視性マップを含む。ここで、前記オプティカルフローマップは、初期姿勢から目標姿勢に調整された第1オブジェクトの各画素の変位ベクトルで構成される画像であり、前記可視性マップは、画像で表示できる目標姿勢の第1オブジェクトの画像点を表し、例えば、初期姿勢が正面に向かって立っており、目標姿勢が横に向かって立っている場合、目標姿勢の第1オブジェクトの一部が画像に表示できず(例えば、オクルードされる)、つまり、一部の画素点は不可視であり、画像に表示できない。
一可能な実施形態において、前記第2姿勢情報が、任意のオブジェクトの任意の姿勢の画像から抽出されたものである場合、処理される画像および前記任意のオブジェクトの任意姿勢の画像に対してそれぞれ3次元モデリングを実行して、それぞれ2つの3次元モデルを取得でき、前記3次元モデルの表面は、複数の頂点で構成され、例えば、6890個の頂点で構成される。対応する3次元モデルにおける処理される画像の特定の画素点の頂点を決定でき、前記任意のオブジェクトの任意の姿勢の画像に対応する3次元モデルにおける前記頂点の位置を決定でき、前記位置に従って、前記任意のオブジェクトの任意の姿勢の画像内の前記頂点に対応する画素点を決定でき、前記画素点は、前記特定の画素点に対応する画素点であり、さらに、前記特定の画素点およびそれに対応する画素点の位置に従って、2つの画素点間のオプティカルフローを決定でき、このようにして、第1オブジェクトの各画素点のオプティカルフローを決定して、前記オプティカルフローマップを取得することができる。
一可能な実施形態において、前記任意のオブジェクトの任意の姿勢の画像に対応する3次元モデルの各頂点の可視性を決定でき、例えば、目標姿勢の特定の頂点がオクルードされているか否かを決定でき、これにより、前記任意のオブジェクトの任意の姿勢の画像内の前記頂点に対応する画素点の可視性を決定できる。一例では、各画素点の可視性を離散数で表すことができ、例えば、1は、前記画素点が目標姿勢で可視であることを意味し、2は、前記画素点が目標姿勢で不可視であることを意味し、0は、前記画素点が背景領域の画素点であること、即ち、第1オブジェクトの画素点ではないことを意味し、さらに、このようにして、第1オブジェクトの各画素点の可視性を決定して、可視性マップを取得することができる。本開示は、可視性の表示方法を限定しない。
一可能な実施形態において、前記画像生成方法は、ニューラルネットワークによって実現され、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用される。前記第1姿勢情報および第2姿勢情報を前記オプティカルフローネットワークに入力して、前記姿勢変換情報を生成することができる。
一可能な実施形態において、オプティカルフローネットワークを使用して前記姿勢変換情報を取得する前に、前記オプティカルフローネットワークをトレーニングすることができる。
図3は、本開示の実施例による画像生成方法のフローチャートであり、図3に示されるように、前記方法は以下のステップを含む。
ステップS14において、プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングし、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、ステップS14は、前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得することと、前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得することと、前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得することと、前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含む。
図4は、本開示の実施例によるオプティカルフローネットワークトレーニングの概略図であり、図4に示されるように、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み得る。第1サンプル画像および第2サンプル画像に対してそれぞれ3次元モデリングを実行して、第1の3次元モデルおよび第2の3次元モデルを取得することができる。第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行することにより、第1サンプル画像と第2サンプル画像との間の正確なオプティカルフローマップを取得できるだけでなく、3次元モデルの各頂点間の位置関係に従って、第2サンプル画像で表示できる頂点(即ち、可視頂点)およびオクルードされた頂点(即ち、不可視頂点)を決定でき、これにより、第2サンプル画像の可視性マップを決定する。
一可能な実施形態において、第1の3次元モデルにおける第1サンプル画像の特定の画素点の頂点を決定でき、第2の3次元モデルにおける前記頂点の位置を決定でき、前記位置に従って、第2サンプル画像内の前記頂点に対応する画素点を決定でき、第2サンプル画像内の前記頂点に対応する画素点は、前記第1サンプル画像の特定の画素点に対応する画素点であり、さらに、前記特定の画素点およびそれに対応する画素点の位置に従って、2つの画素点間のオプティカルフローを決定でき、このようにして、各画素点のオプティカルフローを決定して、前記第1オプティカルフローマップを取得でき、前記第1オプティカルフローマップは、第1サンプル画像と第2サンプル画像との間の正確なオプティカルフローマップである。
一可能な実施形態において、第1の3次元モデルと第2の3次元モデルの各頂点間の位置関係に従って、第2の3次元モデルの各頂点に対応する画素点が第2サンプル画像に表示されるか否かを決定し、さらに、第2サンプル画像の第1可視性マップを決定できる。一例では、各画素点の可視性を離散数で表すことができ、例えば、1は、前記画素点が第2サンプル画像で可視であることを意味し、2は、前記画素点が第2サンプル画像で不可視であることを意味し、0は、前記画素点が背景領域の画素点であること、即ち、第2サンプル画像内のオブジェクトが位置する領域の画素点ではないことを意味する。さらに、このようにして各画素点の可視性を決定して、第2サンプル画像の第1可視性マップを取得することができ、第1可視性マップは、第2サンプル画像の正確な可視性マップである。本開示は、可視性の表示方法を限定しない。
一可能な実施形態において、第1サンプル画像および第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行することができ、一例では、第1サンプル画像内のオブジェクトの18個のキーポイントおよび第2サンプル画像内のオブジェクトの18個のキーポイントをそれぞれ抽出して、それぞれ第3姿勢情報および第4姿勢情報を取得することができる。
一可能な実施形態において、第3姿勢情報および第4姿勢情報をオプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することができ、前記予測されたオプティカルフローマップおよび予測された可視性マップは、オプティカルフローネットワークの出力結果であり、偏差を含む可能性がある。
一可能な実施形態において、第1オプティカルフローマップは、第1サンプル画像と第2サンプル画像との間の正確なオプティカルフローマップであり、第1可視性マップは、第2サンプル画像の正確な可視性マップであるが、予測されたオプティカルフローマップは、オプティカルフローネットワークによって生成されたオプティカルフローマップであるため、予測されたオプティカルフローマップが不正確である可能性があり、予測されたオプティカルフローマップと第1オプティカルフローマップとの間には差異があり得、同様に、予測された可視性マップと第1可視性マップとの間にも差異があり得る。第1オプティカルフローマップと予測されたオプティカルフローマップとの間の差異、および第1可視性マップと予測された可視性マップとの間の差異に従って、オプティカルフローネットワークのネットワーク損失を決定することができる。一例では、第1オプティカルフローマップと予測されたオプティカルフローマップとの間の差異に従って、予測されたオプティカルフローマップの損失を決定し、第1可視性マップと予測された可視性マップとの間の差異に従って、予測された可視性マップのクロスエントロピー損失を決定でき、前記オプティカルフローネットワークのネットワーク損失は、予測されたオプティカルフローマップの損失と予測された可視性マップのクロスエントロピー損失の加重和の結果であり得る。
一可能な実施形態において、ネットワーク損失を最小限に抑えるようにオプティカルフローネットワークのネットワークパラメータを調整することができ、例えば、勾配降下法でオプティカルフローネットワークのネットワークパラメータを調整することができる。そして、トレーニング条件を満たすときに、トレーニングされたオプティカルフローネットワークを取得する。例えば、トレーニング回数が所定の回数に達すると、トレーニング条件を満たし、つまり、オプティカルフローネットワークのネットワークパラメータが所定の回数調整されると、トレーニングされたオプティカルフローネットワークを取得でき、または、ネットワーク損失がプリセットされた閾値以下であるか,特定の間隔内に収束すると、トレーニングされたオプティカルフローネットワークを取得できる。トレーニングされたオプティカルフローネットワークは、前記姿勢変換情報を取得するために使用できる。
このようにして、任意の姿勢情報に従ってオプティカルフローマップおよび可視性マップを生成するようにオプティカルフローネットワークをトレーニングすることができ、任意の姿勢の第1オブジェクトの第1画像を生成するための基礎を提供でき、3次元モデルによってトレーニングされたオプティカルフローネットワークは、より高い精度を有し、トレーニングされたオプティカルフローネットワークを使用して可視性マップとオプティカルフローマップを生成することにより、処理リソースを節約できる。
一可能な実施形態において、ステップS13では、前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1オブジェクトの姿勢が前記目標姿勢である第1画像を生成する。ここで、ステップS13は、前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することと、前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成することとを含み得る。
一可能な実施形態において、前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することは、前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得することと、前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することとを含み得る。
一可能な実施形態において、外観特徴マップを取得するステップは、ニューラルネットワークによって実現でき、前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用される。前記画像生成ネットワークは、外観特徴符号化サブネットワークを含むことができ、前記処理される画像に対して外観特徴符号化処理を実行して、処理される画像的第1特徴マップを取得することができる。前記外観特徴符号化サブネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであり得、前記外観特徴符号化サブネットワークは、複数レベルの畳み込み層を有することができ、異なる解像度を有する複数の第1特徴マップ(例えば、異なる解像度を有する複数の第1特徴マップで構成される特徴ピラミッドなど)を取得することができ、本開示は、外観特徴符号化サブネットワークのタイプを限定しない。
一可能な実施形態において、前記画像生成ネットワークは、特徴変換サブネットワークを含むことができ、前記特徴変換サブネットワークは、前記姿勢変換情報に従って第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得する。前記特徴変換サブネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであり得、本開示は、畳み込みニューラルネットワークのタイプを限定しない。
図5は、本開示の実施例による特徴変換サブネットワークの概略図であり、前記特徴変換サブネットワークは、前記オプティカルフローマップに従って、前記第1特徴マップの各画素点に対して変位処理を実行し、前記可視性マップに従って変位処理された可視部分(即ち、画像に表示できる複数の画素点)および不可視部分(即ち、画像に表示されない複数の画素点)を決定でき、さらに、畳み込み処理などの処理を実行して、前記外観特徴マップを取得することができる。本開示は、特徴変換サブネットワークの構造を限定しない。
このようにして、オプティカルフローマップに従って第1特徴マップに対して変位処理を実行し、可視性マップに従って可視部分および不可視部分を決定でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。
一可能な実施形態において、前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成することは、前記第2姿勢情報に対して姿勢特徴符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得することと、前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成することとを含み得る。
一可能な実施形態において、第1画像を生成するステップは、画像生成ネットワークによって実現できる。前記画像生成ネットワークは、姿勢特徴符号化サブネットワークを含むことができ、前記第2姿勢情報に対して姿勢特徴符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得することができる。前記姿勢特徴符号化サブネットワークは、畳み込みニューラルネットワークなどのニューラルネットワークであり得、前記姿勢特徴符号化サブネットワークは、複数レベルの畳み込み層を有することができ、異なる解像度を有する複数の姿勢特徴マップ(例えば、異なる解像度を有する複数の姿勢特徴マップで構成される特徴ピラミッドなど)を取得することができ、本開示は、姿勢特徴符号化サブネットワークのタイプを限定しない。
一可能な実施形態において、前記画像生成ネットワークは、復号化サブネットワークを含むことができ、前記復号化サブネットワークは、前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を取得することができ、前記第1画像において、第1オブジェクトの姿勢は、前記第2姿勢情報に対応する目標姿勢である。前記復号化サブネットワークは、畳み込みニューラルネットワークネットワークなどのニューラルネットワークであり得、本開示は、復号化サブネットワークのタイプを限定しない。
このようにして、第2姿勢情報の姿勢特徴符号化処理により取得された姿勢特徴マップ、および可視部分と不可視部分を区別した外観特徴マップを復号化して、第1画像を取得でき、これにより、第1画像内の第1オブジェクトの姿勢を目標姿勢に変更させ、画像の歪みを改善し、アーチファクトを低減することができる。
一可能な実施形態において、前記第1画像内の第1オブジェクトの姿勢が目標姿勢であり、第1画像の高周波詳細(折り目やテクスチャなど)を強調することもできる。
図6は、本開示の実施例による画像生成方法のフローチャートであり、図6に示されるように、前記方法は以下のステップを含む。
ステップS15において、前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得する。
一可能な実施形態において、ステップS15は、前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得することと、前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得することとを含み得る。
一可能な実施形態において、前記オプティカルフローマップの各画素点のオプティカルフロー情報に従って、処理される画像に対して画素変換処理を実行でき、つまり、処理される画像の各画素に対して、対応するオプティカルフロー情報に従って変位処理を実行して、前記第3画像を取得することができる。
一可能な実施形態において、画像生成ネットワークによって前記重み係数マップを取得でき、前記画像生成ネットワークは、特徴強調サブネットワークを含むことができ、前記特徴強調サブネットワークは、前記第3画像、前記第1画像、および前記姿勢変換情報を処理して、前記重み係数マップを取得でき、例えば、姿勢変換情報に従って、前記第3画像および前記第1画像の各画素点の重みをそれぞれ決定して、前記重み係数マップを取得することができる。前記重み係数マップの各画素点の値は、第3画像および第1画像の対応する画素点の重みであり、例えば、重み係数マップの座標(100,100)の画素点の値が0.3である場合、第3画像の座標(100,100)の画素点の重みは0.3であり、第1画像の座標(100,100)の画素点の重みは0.7である。
一可能な実施形態において、重み係数マップの各画素点の値(即ち、重み)に従って、第3画像および第1画像の対応する画素点のRGB値などのパラメータに対して加重平均処理を実行して、前記第2画像を取得することができる。一例では、第2画像の画素点のRGB値は、以下の式(1)によって表すことができる。
Figure 0007106687000001
(1)
ここで、
Figure 0007106687000002
は、第2画像の特定の画素点のRGB値であり、
Figure 0007106687000003
は、重み係数マップの対応する画素点の値(即ち、重み)であり、
Figure 0007106687000004
は、第3画像の対応する画素点のRGB値であり、
Figure 0007106687000005
は、第1画像の対応する画素点のRGB値である。
例えば、重み係数マップの座標(100,100)の画素点の値が0.3であり、第3画像の座標(100,100)の画素点の重みは0.3であり、第1画像の座標(100,100)の画素点の重みは0.7であり、かつ、第3画像の座標(100,100)の画素点のRGB値は200であり、第1画像の座標(100,100)の画素点のRGB値は50である場合、第2画像の座標(100,100)の画素点のRGB値は95である。
このようにして、加重平均の方式で、検出される画像内の高周波詳細を第1画像に追加して、第2画像を取得でき、生成された画像の品質を向上させることができる。
一可能な実施形態において、画像生成ネットワークを使用して第1画像を生成する前に、前記画像生成ネットワークをトレーニングすることができる。
図7は、本開示の実施例による画像生成方法のフローチャートであり、図7に示されるように、前記方法は以下のステップを含む。
ステップS16において、プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークを敵対的トレーニングし、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、ステップS16は、前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得することと、前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得することと、第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、前記判別ネットワークによって前記サンプル生成画像または第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することとを含み得る。
図8は、本開示の実施例による画像生成ネットワークのトレーニングの概略図であり、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み得る。前記第3サンプル画像および第4サンプル画像は、前記第2トレーニングセット内の任意のサンプル画像であり、第3サンプル画像および第4サンプル画像に対してそれぞれ姿勢特徴抽出を実行でき、例えば、第3サンプル画像および第4サンプル画像内のオブジェクトの18個のキーポイントをそれぞれ抽出して、第3サンプル画像内のオブジェクトの第5姿勢情報および第4サンプル画像内のオブジェクトの第6姿勢情報を取得することができる。
一可能な実施形態において、トレーニングされたオプティカルフローネットワークを使用して第5姿勢情報および第6姿勢情報を処理して、第2オプティカルフローマップおよび第2可視性マップを取得することができる。
一可能な実施形態において、第2オプティカルフローマップおよび第2可視性マップはまた、3次元モデリングの方式で取得でき、本開示は、第2オプティカルフローマップおよび第2可視性マップの取得方式を限定しない。
一可能な実施形態において、第3サンプル画像、第2オプティカルフローマップ、第2可視性マップ、および第6姿勢情報を使用して前記画像生成ネットワークをトレーニングすることができる。一例では、前記画像生成ネットワークは、外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、および復号化サブネットワークを含むことができ、別の例では、前記画像生成ネットワークは、外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、復号化サブネットワーク、および特徴強調サブネットワークを含むことができる。
一可能な実施形態において、第3サンプル画像を外観特徴符号化サブネットワークに入力して処理し、外観特徴符号化サブネットワークの出力結果、および前記第2オプティカルフローマップおよび第2可視性マップを特徴変換サブネットワークに入力して、前記第3サンプル画像のサンプル外観特徴マップを取得することができる。
一可能な実施形態において、第6姿勢情報を姿勢特徴符号化サブネットワークに入力して処理して、第6姿勢情報のサンプル姿勢特徴マップを取得することができる。さらに、前記サンプル姿勢特徴マップおよびサンプル外観特徴マップを復号化サブネットワークに入力して処理して、第1生成画像を取得することができる。画像生成ネットワークが外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、および復号化サブネットワークを含む場合、第1生成画像および第4生成画像を使用して、判別ネットワークおよび画像生成サブネットワークに対して敵対的トレーニングを実行することができる。
一可能な実施形態において、画像生成ネットワークが外観特徴符号化サブネットワーク、特徴変換サブネットワーク、姿勢特徴符号化サブネットワーク、復号化サブネットワーク、および特徴強調サブネットワークを含む場合、第2オプティカルフローマップに従って第3サンプル画像に対して画素変換処理を実行でき、つまり、オプティカルフローマップの各画素点のオプティカルフロー情報に従って、第3サンプル画像の各画素点に対して変位処理を実行して、第2生成画像を取得し、第2生成画像、第4サンプル画像、第2オプティカルフローマップ、および第2可視性マップを特徴強調サブネットワークに入力して、重み係数マップを取得でき、さらに、重み係数マップに従って、第2生成画像および第1生成画像に対して加重平均処理を実行して、サンプル生成画像を取得することができる。サンプル生成画像および第4サンプル画像を使用して、判別ネットワークおよび画像生成サブネットワークに対して敵対的トレーニングを実行することができる。
一可能な実施形態において、第4サンプル画像またはサンプル生成画像を判別ネットワークに入力して判別処理を実行して、真正性判別結果を取得でき、つまり、サンプル生成画像が実画像であるか非実画像(人工的に生成された画像など)であるかを判別することができる。一例では、前記真正性判別結果は、例えば、サンプル生成画像が実画像である確率が80%であるなど、確率の形であり得る。
一可能な実施形態において、第4サンプル画像、サンプル生成画像、および真正性判別結果に従って、画像生成ネットワークおよび判別ネットワークのネットワーク損失を取得でき、さらに、前記ネットワーク損失に従って、画像生成ネットワークおよび前記判別ネットワークを敵対的トレーニングし、つまり、ネットワーク損失の最小化、および判別ネットワークによって出力された真正性判別結果が実画像である確率の最大化の2つのトレーニング条件がバランス状態になるまで、前記ネットワーク損失に従って、画像生成ネットワークおよび判別ネットワークのネットワークパラメータを調整する。前記バランス状態では、判別ネットワークの判別性能が高く、人工的に生成された画像(低品質の生成された画像)と実画像を区別することができる。画像生成ネットワークによって生成された画像の品質が高く、生成された画像の品質が実画像に近いため、判別ネットワークは、前記画像が生成された画像であるか実画像であるかを区別することが困難であり、つまり、より高い比率の生成された画像が、より強い判別性能を持つ判別ネットワークによって実画像として判別される。前記バランス状態では、画像生成ネットワークによって生成された画像の品質が高く、画像生成ネットワークの性能が良好であるため、トレーニングを完了でき、第2画像を生成するプロセスで画像生成ネットワークを使用する。
一可能な実施形態において、画像生成ネットワークおよび判別ネットワークのネットワーク損失は、以下の式(2)で表すことができる。
Figure 0007106687000006
(2)
ここで、
Figure 0007106687000007

Figure 0007106687000008
、および
Figure 0007106687000009
はそれぞれ重みであり、前記重みは、任意のプリセットされた値であり得、本開示は、重みの値を限定しない。
Figure 0007106687000010
は、敵対的トレーニングによって引き起こされるネットワーク損失であり、
Figure 0007106687000011
は、第4サンプル画像とサンプル生成画像との間の差異によって引き起こされるネットワーク損失であり、
Figure 0007106687000012
は、マルチレベル特徴マップのネットワーク損失である。ここで、
Figure 0007106687000013
は、以下の式(3)で表すことができる。
Figure 0007106687000014
(3)
ここで、
Figure 0007106687000015
は、第4サンプル画像xが実画像であると判別ネットワークによって判別される確率であり、
Figure 0007106687000016
は、画像生成ネットワークによって生成されたサンプル生成画像
Figure 0007106687000017
が判別ネットワークによって判別される確率であり、
Figure 0007106687000018
は期待値である。
Figure 0007106687000019
は、以下の式(4)で表すことができる。
Figure 0007106687000020
(4)
ここで、
Figure 0007106687000021
は、第4サンプル画像
Figure 0007106687000022
とサンプル生成画像
Figure 0007106687000023
の対応する画素点間の差の1ノルムを表す。
Figure 0007106687000024
は、以下の式(5)で表すことができる。
Figure 0007106687000025
(5)
前記判別ネットワークは、複数のレベルの畳み込み層を有することができ、各レベルの畳み込み層は、異なる解像度の特徴マップを抽出でき、前記判別ネットワークは、第4サンプル画像
Figure 0007106687000026
およびサンプル生成画像
Figure 0007106687000027
をそれぞれ処理し、各レベルの畳み込み層によって抽出された特徴マップに従って、マルチレベル特徴マップのネットワーク損失
Figure 0007106687000028
を決定し、
Figure 0007106687000029
は、j番目の畳み込み層によって抽出されたサンプル生成画像
Figure 0007106687000030
の特徴マップであり、
Figure 0007106687000031
は、j番目の畳み込み層によって抽出された第4サンプル画像
Figure 0007106687000032
の特徴マップであり、
Figure 0007106687000033
は、
Figure 0007106687000034

Figure 0007106687000035
の対応する画素点間の差の2ノルムの2乗である。
上記の式(2)で決定されたネットワーク損失を使用して、ネットワーク損失の最小化、および判別ネットワークによって出力された真正性判別結果が実画像である確率の最大化の2つのトレーニング条件がバランス状態になるまで、判別ネットワークおよび画像生成ネットワークに対して敵対的トレーニングを実行することにより、トレーニングを完了して、トレーニングされた画像生成ネットワークを取得でき、前記画像生成ネットワークは、第1画像または第2画像を生成するために使用することができる。
本開示の実施例の画像生成方法によれば、任意の姿勢情報に従ってオプティカルフローマップおよび可視性マップを生成するようにオプティカルフローネットワークをトレーニングでき、任意の姿勢の第1オブジェクトの第1画像を生成するための基礎を提供でき、かつ3次元モデルによってトレーニングされたオプティカルフローネットワークは、より高い精度を有する。さらに、第1姿勢情報および第2姿勢情報に従って、可視性マップおよびオプティカルフローマップを取得し、第1オブジェクトの各部分の可視性を取得でき、オプティカルフローマップに従って第1特徴マップに対して変位処理を実行し、可視性マップに従って可視部分および不可視部分を決定でき、これにより、画像の歪みを改善し、アーチファクトを低減することができる。さらに、第2姿勢情報の姿勢特徴符号化処理により取得された姿勢特徴マップ、および可視部分と不可視部分を区別した外観特徴マップを復号化して、目標姿勢の第1オブジェクトの第1画像を取得でき、画像の歪みを改善し、アーチファクトを低減することができ、加重平均の方式で、検出される画像内の高周波詳細を第1画像に追加して、第2画像を取得でき、生成された画像の品質を向上させることができる。
図9は、本開示の実施例による画像生成方法の応用の概略図であり、図9に示されるように、処理される画像は、初期姿勢の第1オブジェクトを含み、処理される画像に対して姿勢特徴抽出を実行することができ、例えば、第1オブジェクトの18個のキーポイントを抽出して、第1姿勢情報を取得することができる。第2姿勢情報は、生成される任意の目標姿勢に対応する姿勢情報である。
一可能な実施形態において、第1姿勢情報および第2姿勢情報をオプティカルフローネットワークに入力して、前記オプティカルフローマップおよび可視性マップを取得することができる。
一可能な実施形態において、処理される画像を画像生成ネットワークの外観特徴符号化サブネットワークに入力して外観特徴符号化処理を実行して、第1特徴マップを取得でき、さらに、画像生成ネットワークの特徴変換サブネットワークは、前記オプティカルフローマップおよび可視性マップに従って、第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することができる。
一可能な実施形態において、第2姿勢情報を画像生成ネットワークの姿勢特徴符号化サブネットワークに入力して、第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得することができる。
一可能な実施形態において、画像生成ネットワークの復号化サブネットワークによって、姿勢特徴マップおよび外観特徴マップに対して復号化処理を実行して、第1画像を取得でき、前記第1画像において、第1オブジェクトの姿勢は、前記第2姿勢情報に対応する目標姿勢である。
一可能な実施形態において、オプティカルフローマップによって、処理される画像に対して画素変換処理を実行することができ、つまり、処理される画像の各画素点を、対応するオプティカルフロー情報に従って変位処理を実行して、前記第3画像を取得する。さらに、第3画像、第1画像、オプティカルフローマップ、および可視性マップを画像生成ネットワークの特徴強調サブネットワークに入力して処理して、重み係数マップを取得することができる。前記重み係数マップに従って、前記第1画像および前記第3画像に対して加重平均処理を実行して、高周波詳細(折り目やテクスチャなど)を有する第2画像を取得することができる。
一可能な実施形態において、前記画像生成方法は、ビデオまたは動的画像の生成に使用でき、例えば、特定のオブジェクトの連続したアクションの複数の画像を生成して、ビデオまたは動的画像を構成する。あるいは、前記画像生成方法は、仮想フィッティングなどのシーンで使用でき、フィッティングオブジェクトの複数の視野角または複数の姿勢の画像を生成することができる。
図10は、本開示の実施例による画像生成装置のブロック図であり、図10に示されるように、前記装置は、
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得するように構成される情報取得モジュール11と、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得するように構成される第1取得モジュール12であって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含む第1取得モジュール12と、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成するように構成される生成モジュール13であって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢である生成モジュール13と、を備える。
一可能な実施形態において、前記生成モジュール13は、さらに、
前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得し、
前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成するように構成される。
一可能な実施形態において、前記生成モジュール13は、さらに、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得し、
前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得するように構成される。
一可能な実施形態において、前記生成モジュール13は、さらに、
前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得し、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成するように構成される。
一可能な実施形態において、前記情報取得モジュール11は、さらに、
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得するように構成される。
一可能な実施形態において、前記画像生成装置は、ニューラルネットワークを備え、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用される。
図11は、本開示の実施例による画像生成装置のブロック図であり、図11に示されるように、前記装置は、
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第1トレーニングモジュール14をさらに備え、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、前記第1トレーニングモジュール14は、さらに、
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得し、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得し、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得し、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成される。
図12は、本開示の実施例による画像生成装置のブロック図であり、図12に示されるように、前記装置は、
前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得するように構成される第2取得モジュール15をさらに備える。
一可能な実施形態において、前記第2取得モジュール15は、さらに、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得し、
前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得し、
前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得するように構成される。
一可能な実施形態において、前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用される。
図13は、本開示の実施例による画像生成装置のブロック図であり、図13に示されるように、前記装置は、
プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行するように構成される第2トレーニングモジュール16をさらに備え、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
一可能な実施形態において、前記第2トレーニングモジュール16は、さらに、
前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得し、
前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得し、
第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得し、
前記判別ネットワークによって前記サンプル生成画像または第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得し、
前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行するように構成される。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
本開示はまた、画像生成装置、電子機器、コンピュータ可読記憶媒体、およびプログラムを提供し、これらはすべて、本開示で提供される方法のいずれかを実現するために使用されることができ、対応する技術的解決策と説明は、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。
当業者なら自明であるが、上記の特定の実施形態における方法において、各ステップの記述順序は、厳しい実行順序により実施プロセスを制限するものではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定される必要がある。
いくつかの実施例では、本開示の実施例に係る装置に備えられる機能またはモジュールは、上記の方法の実施例で説明された方法を実行するために使用されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするため、ここでは繰り返さない。
本開示の実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体をさらに提案し、前記コンピュータプログラム命令は、プロセッサによって実行されるときに、上記の方法を実現するように構成される。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体または揮発性コンピュータ可読記憶媒体であり得る。
本開示の実施例は、上記の方法を実行するように構成されるプロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリと、備える電子機器をさらに提案する。
本開示の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提案し、前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器のプロセッサに上記の方法を実行させるように構成される。
電子機器は、端末、サーバ、または他の形の機器として提供することができる。
図14は、一例示的実施例による電子機器800のブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
図14を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、および通信コンポーネント816のうちの1つまたは複数を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば、表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための1つまたは複数のプロセッサ820を備えることができる。また、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントとの間の対話を容易にするための1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間の対話を容易にするためのマルチメディアモジュールを備えることができる。
メモリ804は、電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどが含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
電源コンポーネント806は、電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は、電源管理システム、1つまたは複数の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間で出力インターフェースを提供する画面を含む。いくつかの実施例では、画面は、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、画面は、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間と圧力も検出する。いくつかの実施例では、マルチメディアコンポーネント808は、フロンドカメラおよび/またはリアカメラを備える。電子機器800が、撮影モードまたは撮像モードなどの動作モードにある場合、フロンドカメラおよび/またはリアカメラは、外部マルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラはそれぞれ、固定光学レンズシステムであってもよく、焦点距離および光学ズーム機能を有するものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が、呼び出しモード、記録モード、および音声認識モードなどの動作モードにある場合、外部オーディオ信号を受信するように構成されるマイクロフォン(MIC)を備える。受信されたオーディオ信号は、メモリ804にさらに記憶されるか、または通信コンポーネント816によって送信されることができる。いくつかの実施例では、オーディオコンポーネント810は、オーディオ信号を出力するためのスピーカをさらに備える。
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、およびロックボタンなどを含んでもよいが、これらに限定されない。
センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態およびコンポーネントの相対的な位置を検出でき、例えば、前記コンポーネントが電子機器800のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント814はまた、電子機器800または電子機器800のコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速、および電子機器800の温度変化を検出できる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成される近接センサを含み得る。センサコンポーネント814はまた、撮像用途で使用するための、CMOSまたはCCD画像センサなどの光センサを含み得る。いくつかの実施例では、前記センサコンポーネント814はまた、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサを含み得る。
通信コンポーネント816は、電子機器800と他の機器との間の有線または無線通信を実現するように構成される。電子機器800は、通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的な実施例では、通信コンポーネント816は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例では、前記通信コンポーネント816は、近距離通信を促進させるために、近距離無線通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現できる。
例示的な実施例では、電子機器800は、上記の方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現されることができる。
例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行されて上記方法を完了することができる。
図15は、一例示的実施例による電子機器1900のブロック図である。例えば、電子機器1900はサーバとして提供できる。図15を参照すると、電子機器1900は、1つまたは複数のプロセッサを備える処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムなどを記憶するためのメモリリソースを代表するメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションプログラムは、それぞれが一命令セットに対応する1つまたは複数のモジュールを含み得る。また、処理コンポーネント1922は、命令を実行して、上記の方法を実行するように構成される。
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926と、電子機器1900をネットワークにアクセスするように構成される有線または無線ネットワークインターフェイス1950と、入出力(I/O)インターフェイス1958と、をさらに備えることができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行して上記方法を完了することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(網羅的ではない例)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令はコンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含み得る。各計算/処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ可読プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
ここで、本開示の実施例による方法、装置(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
コンピュータ可読プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現する。
図面のフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは1つのモジュール、プログラムセグメントまたは命令の一部を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部は指定された論理機能を実現するための1つまたは複数の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
論理に違反しない限り、本開示の異なる実施例を互いに組み合わせることができ、異なる実施例の説明に焦点が当てられ、説明に焦点が当てられた部分については、他の実施例の説明を参照することができる。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ開示された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims (12)

  1. 画像生成方法であって、
    処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得することと、
    前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得することであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含むことと、
    前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成することであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢であることと、を含み、
    前記画像生成方法は、ニューラルネットワークによって実現され、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用され、
    前記画像生成方法は、
    プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることをさらに含み、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み、
    前記プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることは、
    前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得することと、
    前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得することと、
    前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得することと、
    前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、
    前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定することと、
    前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含むことを特徴とする、前記画像生成方法。
  2. 前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成することは、
    前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することと、
    前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成することと、を含み、および/または
    前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することは、
    前記処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することを含むことを特徴とする、
    請求項1に記載の画像生成方法。
  3. 前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することは、
    前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得することと、
    前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することと、を含み、および/または
    前記外観特徴マップおよび前記第2姿勢情報に従って、第1画像を生成することは、
    前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得することと、
    前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成することと、を含むことを特徴とする、
    請求項2に記載の画像生成方法。
  4. 前記画像生成方法は、
    前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得することをさらに含むことを特徴とする、
    請求項1ないし3のいずれか一項に記載の画像生成方法。
  5. 前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得することは、
    前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得することと、
    前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、
    前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得することと、を含むことを特徴とする、
    請求項4に記載の画像生成方法。
  6. 前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用されることを特徴とする、
    請求項ないしのいずれか一項に記載の画像生成方法。
  7. 前記画像生成方法は、
    プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することをさらに含み、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含むことを特徴とする、
    請求項に記載の画像生成方法。
  8. プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することは、
    前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得することと、
    前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得することと、
    前記第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、
    前記判別ネットワークによって、前記サンプル生成画像または前記第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、
    前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することと、を含むことを特徴とする、
    請求項に記載の画像生成方法。
  9. 画像生成装置であって、
    処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得するように構成される情報取得モジュールと、
    前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得するように構成される第1取得モジュールであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含む第1取得モジュールと、
    前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成するように構成される生成モジュールであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢である生成モジュールと、を備え
    前記画像生成装置は、ニューラルネットワークを備え、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用され、
    前記画像生成装置は、
    プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第1トレーニングモジュールをさらに備え、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み、
    前記第1トレーニングモジュールは、さらに、
    前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得し、
    前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得し、
    前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得し、
    前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
    前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
    前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成されることを特徴とする、前記画像生成装置。
  10. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、請求項1ないしのいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
  11. コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令は、プロセッサによって実行されるときに、請求項1ないしのいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記コンピュータ可読記憶媒体。
  12. コンピュータ可読コードを含むコンピュータプログラムであって、
    前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器のプロセッサが、請求項1ないしのいずれか一項に記載の方法を実現するための命令を実行するように構成されることを特徴とする、前記コンピュータプログラム。
JP2020569988A 2019-03-22 2020-01-14 画像生成方法および装置、電子機器、並びに記憶媒体 Active JP7106687B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910222054.5A CN109977847B (zh) 2019-03-22 2019-03-22 图像生成方法及装置、电子设备和存储介质
CN201910222054.5 2019-03-22
PCT/CN2020/071966 WO2020192252A1 (zh) 2019-03-22 2020-01-14 图像生成方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021526698A JP2021526698A (ja) 2021-10-07
JP7106687B2 true JP7106687B2 (ja) 2022-07-26

Family

ID=67080086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020569988A Active JP7106687B2 (ja) 2019-03-22 2020-01-14 画像生成方法および装置、電子機器、並びに記憶媒体

Country Status (5)

Country Link
US (1) US20210097715A1 (ja)
JP (1) JP7106687B2 (ja)
CN (1) CN109977847B (ja)
SG (1) SG11202012469TA (ja)
WO (1) WO2020192252A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977847B (zh) * 2019-03-22 2021-07-16 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质
JP7455542B2 (ja) * 2019-09-27 2024-03-26 キヤノン株式会社 画像処理方法、プログラム、画像処理装置、学習済みモデルの製造方法、および、画像処理システム
US11250572B2 (en) * 2019-10-21 2022-02-15 Salesforce.Com, Inc. Systems and methods of generating photorealistic garment transference in images
CN110930298A (zh) * 2019-11-29 2020-03-27 北京市商汤科技开发有限公司 图像处理方法及装置、图像处理设备及存储介质
CN111783582A (zh) * 2020-06-22 2020-10-16 东南大学 一种基于深度学习的无监督单目深度估计算法
US11638025B2 (en) * 2021-03-19 2023-04-25 Qualcomm Incorporated Multi-scale optical flow for learned video compression
CN113506323B (zh) * 2021-07-15 2024-04-12 清华大学 图像处理方法及装置、电子设备和存储介质
CN114581288A (zh) * 2022-02-28 2022-06-03 北京大甜绵白糖科技有限公司 一种图像生成方法、装置、电子设备以及存储介质
CN115061770B (zh) * 2022-08-10 2023-01-13 荣耀终端有限公司 显示动态壁纸的方法和电子设备
CN117132423B (zh) * 2023-08-22 2024-04-12 深圳云创友翼科技有限公司 园区管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338365A (ja) 2005-06-02 2006-12-14 Ntt Communications Kk 動画生成装置、動画生成方法、動画生成プログラム
JP2016194779A (ja) 2015-03-31 2016-11-17 セコム株式会社 物体検出装置
JP2018061130A (ja) 2016-10-05 2018-04-12 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140369557A1 (en) * 2013-06-14 2014-12-18 Qualcomm Incorporated Systems and Methods for Feature-Based Tracking
EP3323109B1 (en) * 2015-07-16 2022-03-23 Google LLC Camera pose estimation for mobile devices
US10755145B2 (en) * 2017-07-07 2020-08-25 Carnegie Mellon University 3D spatial transformer network
US10262224B1 (en) * 2017-07-19 2019-04-16 The United States Of America As Represented By Secretary Of The Navy Optical flow estimation using a neural network and egomotion optimization
US10497257B2 (en) * 2017-08-31 2019-12-03 Nec Corporation Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation
CN109918975B (zh) * 2017-12-13 2022-10-21 腾讯科技(深圳)有限公司 一种增强现实的处理方法、对象识别的方法及终端
CN108876814B (zh) * 2018-01-11 2021-05-28 南京大学 一种生成姿态流图像的方法
CN108491763B (zh) * 2018-03-01 2021-02-02 北京市商汤科技开发有限公司 三维场景识别网络的无监督训练方法、装置及存储介质
CN108416751A (zh) * 2018-03-08 2018-08-17 深圳市唯特视科技有限公司 一种基于深度辅助全分辨率网络的新视点图像合成方法
CN108564119B (zh) * 2018-04-04 2020-06-05 华中科技大学 一种任意姿态行人图片生成方法
CN108776983A (zh) * 2018-05-31 2018-11-09 北京市商汤科技开发有限公司 基于重建网络的人脸重建方法和装置、设备、介质、产品
CN109191366B (zh) * 2018-07-12 2020-12-01 中国科学院自动化研究所 基于人体姿态的多视角人体图像合成方法及装置
CN109215080B (zh) * 2018-09-25 2020-08-11 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN109829863B (zh) * 2019-01-22 2021-06-25 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN109840917B (zh) * 2019-01-29 2021-01-26 北京市商汤科技开发有限公司 图像处理方法及装置、网络训练方法及装置
CN109816764B (zh) * 2019-02-02 2021-06-25 深圳市商汤科技有限公司 图像生成方法及装置、电子设备和存储介质
CN109961507B (zh) * 2019-03-22 2020-12-18 腾讯科技(深圳)有限公司 一种人脸图像生成方法、装置、设备及存储介质
CN109977847B (zh) * 2019-03-22 2021-07-16 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质
US11615527B2 (en) * 2019-05-16 2023-03-28 The Regents Of The University Of Michigan Automated anatomic and regional location of disease features in colonoscopy videos
CN110599395B (zh) * 2019-09-17 2023-05-12 腾讯科技(深圳)有限公司 目标图像生成方法、装置、服务器及存储介质
US11321859B2 (en) * 2020-06-22 2022-05-03 Toyota Research Institute, Inc. Pixel-wise residual pose estimation for monocular depth estimation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338365A (ja) 2005-06-02 2006-12-14 Ntt Communications Kk 動画生成装置、動画生成方法、動画生成プログラム
JP2016194779A (ja) 2015-03-31 2016-11-17 セコム株式会社 物体検出装置
JP2018061130A (ja) 2016-10-05 2018-04-12 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
WO2020192252A1 (zh) 2020-10-01
US20210097715A1 (en) 2021-04-01
CN109977847B (zh) 2021-07-16
SG11202012469TA (en) 2021-02-25
CN109977847A (zh) 2019-07-05
JP2021526698A (ja) 2021-10-07

Similar Documents

Publication Publication Date Title
JP7106687B2 (ja) 画像生成方法および装置、電子機器、並びに記憶媒体
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
JP7089106B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ読取可能記憶媒体及びコンピュータプログラム
CN108197586B (zh) 脸部识别方法和装置
TWI771645B (zh) 文本識別方法及裝置、電子設備、儲存介質
JP7110412B2 (ja) 生体検出方法及び装置、電子機器並びに記憶媒体
CN105654039B (zh) 图像处理的方法和装置
TW202139140A (zh) 圖像重建方法及圖像重建裝置、電子設備和電腦可讀儲存媒體
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
TWI757668B (zh) 網路優化方法及裝置、圖像處理方法及裝置、儲存媒體
WO2021169136A1 (zh) 图像处理方法及装置、电子设备和存储介质
WO2022188305A1 (zh) 信息展示方法及装置、电子设备、存储介质及计算机程序
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN110634167A (zh) 神经网络训练方法及装置和图像生成方法及装置
CN107977636B (zh) 人脸检测方法及装置、终端、存储介质
WO2023168957A1 (zh) 姿态确定方法、装置、电子设备、存储介质及程序
CN114445562A (zh) 三维重建方法及装置、电子设备和存储介质
CN110807769B (zh) 图像显示控制方法及装置
CN113822798B (zh) 生成对抗网络训练方法及装置、电子设备和存储介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
TWI770531B (zh) 人臉識別方法、電子設備和儲存介質
CN111507131B (zh) 活体检测方法及装置、电子设备和存储介质
WO2023155393A1 (zh) 特征点匹配方法、装置、电子设备、存储介质和计算机程序产品
WO2023142419A1 (zh) 人脸跟踪识别方法、装置、电子设备、介质及程序产品
WO2023123840A1 (zh) 支付方法及装置、电子设备、存储介质和计算机程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220713

R150 Certificate of patent or registration of utility model

Ref document number: 7106687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150