JP7106687B2 - 画像生成方法および装置、電子機器、並びに記憶媒体 - Google Patents
画像生成方法および装置、電子機器、並びに記憶媒体 Download PDFInfo
- Publication number
- JP7106687B2 JP7106687B2 JP2020569988A JP2020569988A JP7106687B2 JP 7106687 B2 JP7106687 B2 JP 7106687B2 JP 2020569988 A JP2020569988 A JP 2020569988A JP 2020569988 A JP2020569988 A JP 2020569988A JP 7106687 B2 JP7106687 B2 JP 7106687B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- pose
- network
- map
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得することと、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得することであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含むことと、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成することであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢であることと、を含む。
前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することと、
前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成することと、を含む。
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得することと、
前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することと、を含む。
前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得することと、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成することと、を含む。
前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得することをさらに含む。
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得することと、
前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、
前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得することと、を含む。
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することを含む。
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることをさらに含み、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得することと、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得することと、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得することと、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定することと、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含む。
プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することをさらに含み、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得することと、
前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得することと、
第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、
前記判別ネットワークによって前記サンプル生成画像または第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、
前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することと、を含む。
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得するように構成される情報取得モジュールと、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得するように構成される第1取得モジュールであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含む第1取得モジュールと、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成するように構成される生成モジュールであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢である生成モジュールと、を備える。
前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得し、
前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成するように構成される。
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得し、
前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得するように構成される。
前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得し、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成するように構成される。
前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得するように構成される第2取得モジュールをさらに備える。
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得し、
前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得し、
前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得するように構成される。
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得するように構成される。
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第1トレーニングモジュールをさらに備え、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得し、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得し、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得し、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成される。
プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行するように構成される第2トレーニングモジュールをさらに備え、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得し、
前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得し、
第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得し、
前記判別ネットワークによって前記サンプル生成画像または第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得し、
前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行するように構成される。
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記の画像生成方法を実行するように構成される。
ここで、
は、第2画像の特定の画素点のRGB値であり、
は、重み係数マップの対応する画素点の値(即ち、重み)であり、
は、第3画像の対応する画素点のRGB値であり、
は、第1画像の対応する画素点のRGB値である。
ここで、
、
、および
はそれぞれ重みであり、前記重みは、任意のプリセットされた値であり得、本開示は、重みの値を限定しない。
は、敵対的トレーニングによって引き起こされるネットワーク損失であり、
は、第4サンプル画像とサンプル生成画像との間の差異によって引き起こされるネットワーク損失であり、
は、マルチレベル特徴マップのネットワーク損失である。ここで、
は、以下の式(3)で表すことができる。
(3)
ここで、
は、第4サンプル画像xが実画像であると判別ネットワークによって判別される確率であり、
は、画像生成ネットワークによって生成されたサンプル生成画像
が判別ネットワークによって判別される確率であり、
は期待値である。
(5)
前記判別ネットワークは、複数のレベルの畳み込み層を有することができ、各レベルの畳み込み層は、異なる解像度の特徴マップを抽出でき、前記判別ネットワークは、第4サンプル画像
およびサンプル生成画像
をそれぞれ処理し、各レベルの畳み込み層によって抽出された特徴マップに従って、マルチレベル特徴マップのネットワーク損失
を決定し、
は、j番目の畳み込み層によって抽出されたサンプル生成画像
の特徴マップであり、
は、j番目の畳み込み層によって抽出された第4サンプル画像
の特徴マップであり、
は、
と
の対応する画素点間の差の2ノルムの2乗である。
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得するように構成される情報取得モジュール11と、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得するように構成される第1取得モジュール12であって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含む第1取得モジュール12と、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成するように構成される生成モジュール13であって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢である生成モジュール13と、を備える。
前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得し、
前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成するように構成される。
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得し、
前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得するように構成される。
前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得し、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成するように構成される。
処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得するように構成される。
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第1トレーニングモジュール14をさらに備え、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得し、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得し、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得し、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成される。
前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得するように構成される第2取得モジュール15をさらに備える。
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得し、
前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得し、
前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得するように構成される。
プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行するように構成される第2トレーニングモジュール16をさらに備え、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含む。
前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得し、
前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得し、
第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得し、
前記判別ネットワークによって前記サンプル生成画像または第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得し、
前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行するように構成される。
Claims (12)
- 画像生成方法であって、
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得することと、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得することであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含むことと、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成することであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢であることと、を含み、
前記画像生成方法は、ニューラルネットワークによって実現され、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用され、
前記画像生成方法は、
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることをさらに含み、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み、
前記プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングすることは、
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得することと、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得することと、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得することと、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得することと、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定することと、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングすることと、を含むことを特徴とする、前記画像生成方法。 - 前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成することは、
前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することと、
前記外観特徴マップおよび前記第2姿勢情報に従って、前記第1画像を生成することと、を含み、および/または
前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することは、
前記処理される画像に対して姿勢特徴抽出を実行して、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報を取得することを含むことを特徴とする、
請求項1に記載の画像生成方法。 - 前記処理される画像および前記姿勢変換情報に従って、前記第1オブジェクトの外観特徴マップを取得することは、
前記処理される画像に対して外観特徴符号化処理を実行して、前記処理される画像の第1特徴マップを取得することと、
前記姿勢変換情報に従って、前記第1特徴マップに対して特徴変換処理を実行して、前記外観特徴マップを取得することと、を含み、および/または
前記外観特徴マップおよび前記第2姿勢情報に従って、第1画像を生成することは、
前記第2姿勢情報に対して姿勢符号化処理を実行して、前記第1オブジェクトの姿勢特徴マップを取得することと、
前記姿勢特徴マップおよび前記外観特徴マップに対して復号化処理を実行して、前記第1画像を生成することと、を含むことを特徴とする、
請求項2に記載の画像生成方法。 - 前記画像生成方法は、
前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得することをさらに含むことを特徴とする、
請求項1ないし3のいずれか一項に記載の画像生成方法。 - 前記姿勢変換情報および前記処理される画像に従って、前記第1画像に対して特徴強調処理を実行して、第2画像を取得することは、
前記オプティカルフローマップに従って、前記処理される画像に対して画素変換処理を実行して、第3画像を取得することと、
前記第3画像、前記第1画像、および前記姿勢変換情報に従って、重み係数マップを取得することと、
前記重み係数マップに従って、前記第3画像および前記第1画像に対して加重平均処理を実行して、前記第2画像を取得することと、を含むことを特徴とする、
請求項4に記載の画像生成方法。 - 前記ニューラルネットワークは、画像生成ネットワークをさらに含み、前記画像生成ネットワークは、画像を生成するために使用されることを特徴とする、
請求項1ないし5のいずれか一項に記載の画像生成方法。 - 前記画像生成方法は、
プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することをさらに含み、前記第2トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含むことを特徴とする、
請求項6に記載の画像生成方法。 - プリセットされた第2トレーニングセットおよびトレーニングされたオプティカルフローネットワークに従って、前記画像生成ネットワークおよび対応する判別ネットワークに対して敵対的トレーニングを実行することは、
前記第2トレーニングセット内の第3サンプル画像および第4サンプル画像に対して姿勢特徴抽出を実行して、前記第3サンプル画像内のオブジェクトの第5姿勢情報および前記第4サンプル画像内のオブジェクトの第6姿勢情報を取得することと、
前記第5姿勢情報および前記第6姿勢情報を前記トレーニングされたオプティカルフローネットワークに入力して、第2オプティカルフローマップおよび第2可視性マップを取得することと、
前記第3サンプル画像、前記第2オプティカルフローマップ、前記第2可視性マップ、および前記第6姿勢情報を前記画像生成ネットワークに入力して処理して、サンプル生成画像を取得することと、
前記判別ネットワークによって、前記サンプル生成画像または前記第4サンプル画像に対して判別処理を実行して、前記サンプル生成画像の真正性判別結果を取得することと、
前記第4サンプル画像、前記サンプル生成画像、および前記真正性判別結果に従って、判別ネットワークおよび前記画像生成ネットワークに対して敵対的トレーニングを実行することと、を含むことを特徴とする、
請求項7に記載の画像生成方法。 - 画像生成装置であって、
処理される画像、前記処理される画像内の第1オブジェクトの初期姿勢に対応する第1姿勢情報、および生成される目標姿勢に対応する第2姿勢情報を取得するように構成される情報取得モジュールと、
前記第1姿勢情報および前記第2姿勢情報に従って、姿勢変換情報を取得するように構成される第1取得モジュールであって、前記姿勢変換情報は、前記初期姿勢と前記目標姿勢との間のオプティカルフローマップおよび/または前記目標姿勢の可視性マップを含む第1取得モジュールと、
前記処理される画像、前記第2姿勢情報、および前記姿勢変換情報に従って、第1画像を生成するように構成される生成モジュールであって、前記第1画像内の第1オブジェクトの姿勢は、前記目標姿勢である生成モジュールと、を備え、
前記画像生成装置は、ニューラルネットワークを備え、前記ニューラルネットワークは、オプティカルフローネットワークを含み、前記オプティカルフローネットワークは、前記姿勢変換情報を取得するために使用され、
前記画像生成装置は、
プリセットされた第1トレーニングセットに従って、前記オプティカルフローネットワークをトレーニングするように構成される第1トレーニングモジュールをさらに備え、前記第1トレーニングセットは、異なる姿勢のオブジェクトのサンプル画像を含み、
前記第1トレーニングモジュールは、さらに、
前記第1トレーニングセット内の第1サンプル画像および第2サンプル画像に対して3次元モデリングを実行して、それぞれ第1の3次元モデルおよび第2の3次元モデルを取得し、
前記第1の3次元モデルおよび前記第2の3次元モデルに従って、前記第1サンプル画像と前記第2サンプル画像との間の第1オプティカルフローマップおよび前記第2サンプル画像の第1可視性マップを取得し、
前記第1サンプル画像および前記第2サンプル画像に対してそれぞれ姿勢特徴抽出を実行して、前記第1サンプル画像内のオブジェクトの第3姿勢情報および前記第2サンプル画像内のオブジェクトの第4姿勢情報を取得し、
前記第3姿勢情報および前記第4姿勢情報を前記オプティカルフローネットワークに入力して、予測されたオプティカルフローマップおよび予測された可視性マップを取得し、
前記第1オプティカルフローマップと予測されたオプティカルフローマップ、および第1可視性マップと予測された可視性マップに従って、前記オプティカルフローネットワークのネットワーク損失を決定し、
前記オプティカルフローネットワークのネットワーク損失に従って、前記オプティカルフローネットワークをトレーニングするように構成されることを特徴とする、前記画像生成装置。 - 電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、請求項1ないし8のいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。 - コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令は、プロセッサによって実行されるときに、請求項1ないし8のいずれか一項に記載の方法を実現するように構成されることを特徴とする、前記コンピュータ可読記憶媒体。 - コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器のプロセッサが、請求項1ないし8のいずれか一項に記載の方法を実現するための命令を実行するように構成されることを特徴とする、前記コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910222054.5A CN109977847B (zh) | 2019-03-22 | 2019-03-22 | 图像生成方法及装置、电子设备和存储介质 |
CN201910222054.5 | 2019-03-22 | ||
PCT/CN2020/071966 WO2020192252A1 (zh) | 2019-03-22 | 2020-01-14 | 图像生成方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021526698A JP2021526698A (ja) | 2021-10-07 |
JP7106687B2 true JP7106687B2 (ja) | 2022-07-26 |
Family
ID=67080086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020569988A Active JP7106687B2 (ja) | 2019-03-22 | 2020-01-14 | 画像生成方法および装置、電子機器、並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210097715A1 (ja) |
JP (1) | JP7106687B2 (ja) |
CN (1) | CN109977847B (ja) |
SG (1) | SG11202012469TA (ja) |
WO (1) | WO2020192252A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977847B (zh) * | 2019-03-22 | 2021-07-16 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
JP7455542B2 (ja) * | 2019-09-27 | 2024-03-26 | キヤノン株式会社 | 画像処理方法、プログラム、画像処理装置、学習済みモデルの製造方法、および、画像処理システム |
US11250572B2 (en) * | 2019-10-21 | 2022-02-15 | Salesforce.Com, Inc. | Systems and methods of generating photorealistic garment transference in images |
CN110930298A (zh) * | 2019-11-29 | 2020-03-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、图像处理设备及存储介质 |
CN111783582A (zh) * | 2020-06-22 | 2020-10-16 | 东南大学 | 一种基于深度学习的无监督单目深度估计算法 |
US11638025B2 (en) * | 2021-03-19 | 2023-04-25 | Qualcomm Incorporated | Multi-scale optical flow for learned video compression |
CN113506323B (zh) * | 2021-07-15 | 2024-04-12 | 清华大学 | 图像处理方法及装置、电子设备和存储介质 |
CN114581288A (zh) * | 2022-02-28 | 2022-06-03 | 北京大甜绵白糖科技有限公司 | 一种图像生成方法、装置、电子设备以及存储介质 |
CN115061770B (zh) * | 2022-08-10 | 2023-01-13 | 荣耀终端有限公司 | 显示动态壁纸的方法和电子设备 |
CN117132423B (zh) * | 2023-08-22 | 2024-04-12 | 深圳云创友翼科技有限公司 | 园区管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338365A (ja) | 2005-06-02 | 2006-12-14 | Ntt Communications Kk | 動画生成装置、動画生成方法、動画生成プログラム |
JP2016194779A (ja) | 2015-03-31 | 2016-11-17 | セコム株式会社 | 物体検出装置 |
JP2018061130A (ja) | 2016-10-05 | 2018-04-12 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140369557A1 (en) * | 2013-06-14 | 2014-12-18 | Qualcomm Incorporated | Systems and Methods for Feature-Based Tracking |
EP3323109B1 (en) * | 2015-07-16 | 2022-03-23 | Google LLC | Camera pose estimation for mobile devices |
US10755145B2 (en) * | 2017-07-07 | 2020-08-25 | Carnegie Mellon University | 3D spatial transformer network |
US10262224B1 (en) * | 2017-07-19 | 2019-04-16 | The United States Of America As Represented By Secretary Of The Navy | Optical flow estimation using a neural network and egomotion optimization |
US10497257B2 (en) * | 2017-08-31 | 2019-12-03 | Nec Corporation | Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation |
CN109918975B (zh) * | 2017-12-13 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 一种增强现实的处理方法、对象识别的方法及终端 |
CN108876814B (zh) * | 2018-01-11 | 2021-05-28 | 南京大学 | 一种生成姿态流图像的方法 |
CN108491763B (zh) * | 2018-03-01 | 2021-02-02 | 北京市商汤科技开发有限公司 | 三维场景识别网络的无监督训练方法、装置及存储介质 |
CN108416751A (zh) * | 2018-03-08 | 2018-08-17 | 深圳市唯特视科技有限公司 | 一种基于深度辅助全分辨率网络的新视点图像合成方法 |
CN108564119B (zh) * | 2018-04-04 | 2020-06-05 | 华中科技大学 | 一种任意姿态行人图片生成方法 |
CN108776983A (zh) * | 2018-05-31 | 2018-11-09 | 北京市商汤科技开发有限公司 | 基于重建网络的人脸重建方法和装置、设备、介质、产品 |
CN109191366B (zh) * | 2018-07-12 | 2020-12-01 | 中国科学院自动化研究所 | 基于人体姿态的多视角人体图像合成方法及装置 |
CN109215080B (zh) * | 2018-09-25 | 2020-08-11 | 清华大学 | 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置 |
CN109829863B (zh) * | 2019-01-22 | 2021-06-25 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN109840917B (zh) * | 2019-01-29 | 2021-01-26 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、网络训练方法及装置 |
CN109816764B (zh) * | 2019-02-02 | 2021-06-25 | 深圳市商汤科技有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN109961507B (zh) * | 2019-03-22 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
CN109977847B (zh) * | 2019-03-22 | 2021-07-16 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
US11615527B2 (en) * | 2019-05-16 | 2023-03-28 | The Regents Of The University Of Michigan | Automated anatomic and regional location of disease features in colonoscopy videos |
CN110599395B (zh) * | 2019-09-17 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
US11321859B2 (en) * | 2020-06-22 | 2022-05-03 | Toyota Research Institute, Inc. | Pixel-wise residual pose estimation for monocular depth estimation |
-
2019
- 2019-03-22 CN CN201910222054.5A patent/CN109977847B/zh active Active
-
2020
- 2020-01-14 JP JP2020569988A patent/JP7106687B2/ja active Active
- 2020-01-14 WO PCT/CN2020/071966 patent/WO2020192252A1/zh active Application Filing
- 2020-01-14 SG SG11202012469TA patent/SG11202012469TA/en unknown
- 2020-12-10 US US17/117,749 patent/US20210097715A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338365A (ja) | 2005-06-02 | 2006-12-14 | Ntt Communications Kk | 動画生成装置、動画生成方法、動画生成プログラム |
JP2016194779A (ja) | 2015-03-31 | 2016-11-17 | セコム株式会社 | 物体検出装置 |
JP2018061130A (ja) | 2016-10-05 | 2018-04-12 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020192252A1 (zh) | 2020-10-01 |
US20210097715A1 (en) | 2021-04-01 |
CN109977847B (zh) | 2021-07-16 |
SG11202012469TA (en) | 2021-02-25 |
CN109977847A (zh) | 2019-07-05 |
JP2021526698A (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106687B2 (ja) | 画像生成方法および装置、電子機器、並びに記憶媒体 | |
JP7262659B2 (ja) | 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体 | |
JP7089106B2 (ja) | 画像処理方法及び装置、電子機器、コンピュータ読取可能記憶媒体及びコンピュータプログラム | |
CN108197586B (zh) | 脸部识别方法和装置 | |
TWI771645B (zh) | 文本識別方法及裝置、電子設備、儲存介質 | |
JP7110412B2 (ja) | 生体検出方法及び装置、電子機器並びに記憶媒体 | |
CN105654039B (zh) | 图像处理的方法和装置 | |
TW202139140A (zh) | 圖像重建方法及圖像重建裝置、電子設備和電腦可讀儲存媒體 | |
CN110458218B (zh) | 图像分类方法及装置、分类网络训练方法及装置 | |
TWI757668B (zh) | 網路優化方法及裝置、圖像處理方法及裝置、儲存媒體 | |
WO2021169136A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
WO2022188305A1 (zh) | 信息展示方法及装置、电子设备、存储介质及计算机程序 | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
CN110634167A (zh) | 神经网络训练方法及装置和图像生成方法及装置 | |
CN107977636B (zh) | 人脸检测方法及装置、终端、存储介质 | |
WO2023168957A1 (zh) | 姿态确定方法、装置、电子设备、存储介质及程序 | |
CN114445562A (zh) | 三维重建方法及装置、电子设备和存储介质 | |
CN110807769B (zh) | 图像显示控制方法及装置 | |
CN113822798B (zh) | 生成对抗网络训练方法及装置、电子设备和存储介质 | |
CN109447258B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
TWI770531B (zh) | 人臉識別方法、電子設備和儲存介質 | |
CN111507131B (zh) | 活体检测方法及装置、电子设备和存储介质 | |
WO2023155393A1 (zh) | 特征点匹配方法、装置、电子设备、存储介质和计算机程序产品 | |
WO2023142419A1 (zh) | 人脸跟踪识别方法、装置、电子设备、介质及程序产品 | |
WO2023123840A1 (zh) | 支付方法及装置、电子设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7106687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |