JP2023027782A - 画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents
画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023027782A JP2023027782A JP2022174100A JP2022174100A JP2023027782A JP 2023027782 A JP2023027782 A JP 2023027782A JP 2022174100 A JP2022174100 A JP 2022174100A JP 2022174100 A JP2022174100 A JP 2022174100A JP 2023027782 A JP2023027782 A JP 2023027782A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature
- module
- transition
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007704 transition Effects 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000012549 training Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000004590 computer program Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims description 74
- 230000008921 facial expression Effects 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 27
- 238000005520 cutting process Methods 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 11
- 230000001815 facial effect Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 18
- 239000000284 extract Substances 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/22—Cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】本開示は画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供し、人工知能分野に関し、特にディープラーニング及びコンピュータ視覚技術分野に関し、顔画像処理、顔識別等のシーンに適用することができる。【解決手段】画像遷移方法は、第1の対象の目標部位の第1の画像における第1の位置情報と、第1の画像とに基づいて、第1の対象の第1の属性特徴と、目標部位の第1の形状特徴のそれぞれを抽出することと、第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出することと、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成することと、を含み、該第1の遷移画像は、第1の属性特徴及び第1の形状特徴を有する第2の対象を含む。【選択図】図2
Description
本開示は人工知能分野に関し、特にディープラーニング及びコンピュータ視覚技術分野に関し、顔画像処理、顔識別等のシーンに適用することができる。
ディープラーニング及び画像処理技術の発展に伴い、画像遷移技術は、例えば、顔識別、ビデオ制作及び仮想現実等の複数の分野に適用することができる。
関連技術においては、三次元再構成技術を用いて画像遷移を実現する。当該方法は、ステップが複雑であり、計算量が大きい。
計算量を低減し、かつ、遷移の精度を向上させる画像遷移方法、画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
本開示の一態様は、第1の対象の目標部位の第1の画像における第1の位置情報と、第1の画像とに基づいて、第1の対象の第1の属性特徴と、目標部位の第1の形状特徴のそれぞれを抽出することと、第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出することと、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成することと、を含み、第1の遷移画像は、第1の属性特徴及び第1の形状特徴を有する第2の対象を含む、画像遷移方法を提供する。
本開示の他の態様は、第1の符号化ネットワーク、第2の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練方法であって、第3の対象の目標部位の第3の画像における第5の位置情報と、第3の画像とに基づいて、第1の符号化ネットワークを用いて、第3の対象の第2の属性特徴と、目標部位の第2の形状特徴を抽出することと、第2の符号化ネットワークを用いて、第4の画像に含まれる第3の対象の第2のアイデンティティ特徴を抽出することと、第2の属性特徴、第2の形状特徴及び第2のアイデンティティ特徴に基づいて、生成ネットワークを用いて、第2の属性特徴及び第2の形状特徴を有する第3の対象を含む第2の遷移画像を生成することと、第2の遷移画像と第3の画像との差異に基づいて、画像遷移モデルを訓練することと、を含む、画像遷移モデルの訓練方法を提供する。
本開示の他の態様は、第1の対象の目標部位の第1の画像における第1の位置情報と、第1の画像とに基づいて、第1の対象の第1の属性特徴と、目標部位の第1の形状特徴のそれぞれを抽出するための第1の特徴抽出モジュールと、第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出するための第1のアイデンティティ抽出モジュールと、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成するための第1の画像生成モジュールと、を含み、第1の遷移画像は、第1の属性特徴及び第1の形状特徴を有する第2の対象を含む、画像遷移装置を提供する。
本開示の他の態様は、第1の符号化ネットワーク、第2の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練装置であって、第3の対象の目標部位の第3の画像における第5の位置情報と、第3の画像とに基づいて、第1の符号化ネットワークを用いて、第3の対象の第2の属性特徴と、目標部位の第2の形状特徴を抽出するための第2の特徴抽出モジュールと、第2の符号化ネットワークを用いて、第4の画像に含まれる第3の対象の第2のアイデンティティ特徴を抽出するための第2のアイデンティティ抽出モジュールと、第2の属性特徴、第2の形状特徴及び第2のアイデンティティ特徴に基づいて、生成ネットワークを用いて、第2の属性特徴及び第2の形状特徴を有する第3の対象を含む第2の遷移画像を生成するための第2の画像生成モジュールと、第2の遷移画像と第3の画像との差異に基づいて、画像遷移モデルを訓練するためのモデル訓練モジュールと、を含む、画像遷移モデルの訓練装置を提供する。
本開示の他の態様は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されるメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行され得る命令が記憶されており、命令が少なくとも1つのプロセッサによって実行されることで、少なくとも1つのプロセッサが本開示に提供された画像遷移方法及び/又は画像遷移モデルの訓練方法を実行することができる、電子機器を提供する。
本開示の他の態様は、コンピュータに本開示に提供された画像遷移方法及び/又は画像遷移モデルの訓練方法を実行させるためのコンピュータ命令を記憶している、非一時的なコンピュータ可読記憶媒体を提供する。
本開示の他の態様は、プロセッサにより実行される場合に、本開示に提供された画像遷移方法及び/又は画像遷移モデルの訓練方法を実現するコンピュータプログラムを提供する。
本部分に記載された内容は、本開示の実施例のキーポイントまたは重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもないと理解されるべきである。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本開示の発明をよく理解するために用いられ、本開示を限定するものではない。
本開示の実施例に係る画像遷移方法及び画像遷移モデルの訓練方法、装置の適用シーンの概略図である。
本開示の実施例に係る画像遷移方法のフローチャート概略図である。
本開示の実施例に係る属性特徴及び形状特徴を抽出する原理概略図である。
本開示の実施例に係る第1の画像を取得する原理概略図である。
本開示の実施例に係る画像遷移方法の原理概略図である。
本開示の実施例に係る画像遷移モデルの訓練方法のフローチャート概略図である。
本開示の実施例に係る画像遷移モデルの訓練方法の原理概略図である。
本開示の実施例に係る画像遷移装置の構造ブロック図である。
本開示の実施例に係る画像遷移モデルの訓練装置の構造ブロック図である。
本開示の実施例に係る画像遷移方法及び/又は画像遷移モデルの訓練方法を実施するための電子機器の構成ブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更や補正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
本開示は、特徴抽出段階と、アイデンティティ抽出段階と、画像生成段階とを含む画像遷移方法を提供する。特徴抽出段階においては、第1の対象の目標部位の第1の画像における第1の位置情報と、第1の画像とに基づいて、第1の対象の第1の属性特徴と、目標部位の第1の形状特徴のそれぞれを抽出する。アイデンティティ抽出段階においては、第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出する。画像生成段階においては、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成し、第1の遷移画像は、第1の属性特徴及び第1の形状特徴を有する第2の対象を含む。
以下に図1を参照して本開示の提供される方法及び装置の適用シーンを説明する。
図1は、本開示の実施例に係る画像遷移方法及び画像遷移モデルの訓練方法、装置の適用シーンの図である。
図1に示すように、該実施例の適用シーン100は電子機器110を含むことができ、該電子機器110は処理機能を有する任意の電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、デスクトップコンピュータ及びサーバ等を含むが、それらに限定されない。
該電子機器110は、例えば、入力された第1の顔の画像120及び第2の顔の画像130に対して表情遷移を行うことにより、画像140を生成することができる。該画像140における顔は第1の顔であるが、該第1の顔は第2の顔の表情及び姿勢を有する。例えば、第1の顔の画像120からアイデンティティ特徴を抽出し、第2の顔の画像130から属性特徴を抽出し、該アイデンティティ特徴と属性特徴を融合した後、生成ネットワークを経由して画像140を生成することができる。ここで、生成ネットワークは、例えば、生成式対抗ネットワーク(Generative Adversarial Networks、GAN)における生成ネットワークGeneratorであってもよい。属性特徴は、例えば、表情特徴や姿勢特徴等を含んでもよい。
一実施例においては、画像遷移モデルを用いて第2の顔の表情及び姿勢を第1の顔に遷移することによって、画像140を生成することができる。
本開示の実施例によれば、図1に示すように、該適用シーン100はさらにサーバ150を含むことができる。電子機器110はネットワークを介してサーバ150と通信接続されてもよく、該ネットワークは無線又は有線通信リンクを含むことができる。
例示的には、電子機器110は顔の表情及び姿勢を遷移するように、サーバ150は画像遷移モデルを訓練し、電子機器110から送信されたモデル取得要求に応答し、訓練して得られた画像遷移モデル160を電子機器110に送信する。一実施例において、電子機器110は、ネットワークを介して第1の顔の画像120及び第2の顔の画像130をサーバ150に送信し、サーバ150により訓練して得られた画像遷移モデルに基づいて画像140を生成してもよい。
本開示の実施例によれば、図1に示すように、該適用シーン100はさらにデータベース170を含むことができ、該データベース170は大量の画像又はビデオをメンテナンスすることができる。サーバ150は該データベース170にアクセスし、データベース170から同じ顔を有する一部の画像を抽出してサンプル画像とし、画像遷移モデルを訓練することができる。
なお、本開示に係る画像遷移方法は、電子機器110又はサーバ150により実行されることができる。それに応じて、本開示が提供される画像移動装置は、電子機器110又はサーバ150に設置されることができる。本開示が提供される画像遷移モデルの訓練方法は、サーバ150により実行されることができる。それに応じて、本開示が提供される画像遷移モデルの訓練装置は、サーバ150に設置されることができる。
図1における電子機器、サーバ、データベースの数やタイプはただ模式的であると理解すべきである。実現の必要に応じて、任意の数やタイプの端末装置、サーバ及びデータベースを有することができる。
以下に図1を参照し、図2~図5により本開示が提供される画像遷移方法を詳細に説明する。
図2は本開示の実施例に係る画像遷移方法のフローチャート概略図である。
図2に示すように、該実施例の画像遷移方法200は、操作S210~操作S230を含むことができる。
操作S210において、第1の対象の目標部位の第1の画像における第1の位置情報及び第1の画像に基づいて、第1の対象の第1の属性特徴と目標部位の第1の形状特徴のそれぞれを抽出する。
本開示の実施例によれば、第1の対象は例えば顔であってもよく、又は建物等であってもよい。第1の画像は第1の対象を撮像して得られた画像であってもよく、又は撮像された画像を処理した後の画像であってもよく、又はビデオに第1の対象を含むビデオフレームであってもよい。該第1の画像はリアルタイムに撮像して得られたものであってもよく、予め撮像して得られたものであってもよい。
該実施例は、まず、第1の画像に対してキーポイントを検出し、第1の対象を表す複数のキーポイントを取得することができる。そして、該複数のキーポイントから目標部位を表すキーポイントを選別する。その後、該目標部位を表すキーポイントを接続して囲まれた領域に対して、ある程度の拡大を行い、拡大された領域を取得する。該拡大された領域の第1画像における位置を目標部位の第1位置情報とする。
該実施例は、まず、第1の画像に対して目標検出を行い、第1の対象の目標部位を囲む検出枠の第1の画像における位置情報を検出し、該位置情報を第1の位置情報とすることができる。ここで、検出枠の位置情報は、検出枠の中心点の第1の画像に基づいて構築された座標系における座標値と、該検出枠の高さ及び幅とを含むことができる。
本開示の実施例によれば、第1の属性特徴は、例えば、第1の対象の姿勢、表情、視線、皮膚状態などの特徴を表すために用いられる。第1の対象が顔である場合、目標部位は、例えば、口であってもよく、口の形状特徴を単独に抽出することにより、第1の対象の状態をよりよく表現することができ、より写実的な遷移画像を生成することに役立つ。理解されるように、該目標部位は、第1の対象における対象状態の変化に伴って形状変化が最も顕著な部位であってもよい。
一実施例においては、第1の符号化ネットワークを用いて第1の画像から第1の属性特徴を抽出することができる。ここで、第1の符号化ネットワークは、例えば、予め訓練して取得することができる。該第1の符号化ネットワークは、軽量レベルのネットワークであってもよく、例えばMobileNetシリーズネットワーク、ShuffleNetネットワーク又はSqueezeNet等である。ここで、MobileNetネットワークは、深さ方向に分離可能な畳み込み(Depthwise Separable Convolution)を用いて構築された軽量レベルのディープニューラルネットワークである。例えば、該第1の符号化ネットワークは、畳み込み層及びプーリング層を含むことができる。
一実施例においては、ローカルバイナリパターンと局所スパース表現を融合する表情識別アルゴリズムを用いて第1の属性特徴を抽出してもよい。キーポイント検出アルゴリズムによって検出された第1の対象に含まれる各部位の比率関係等を第1の属性特徴として採用してもよい。
一実施例において、該実施例は、第1の対象の表情特徴と姿勢特徴のそれぞれを抽出し、該表情特徴及び姿勢特徴をスティッチング(stitching)した後に第1の属性特徴としてもよい。第1の画像を第1の符号化ネットワークに入力し、第1の符号化ネットワークにより表情と姿勢特徴を同時に抽出することにより、第1の属性特徴を出力してもよい。
一実施例においては、第1の符号化ネットワークと類似する符号化ネットワークを用いて、第1の位置情報で囲まれた領域から第1の形状特徴を抽出してもよい。又は、境界特徴法、幾何学的パラメータ法等を用いて第1の形状特徴を抽出してもよい。ここで、第1の形状特徴を抽出する符号化ネットワークは、例えば、残差ネットワーク(Residual Network、ResNet)、特徴ピラミッドネットワーク(Feature Pyramid Network、FPN)又はU-Netなどの非軽量レベルのネットワークを用いてもよく、これは、形状特徴の精度に対する要求が一般的により高いため、これにより写実的な遷移画像を生成しやすい。該第1の形状特徴を抽出する符号化ネットワークは、畳み込み層及びプーリング層を含むことができ、かつスキップ層接続構造を有する。
操作S220においては、第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出する。
本開示の実施例によれば、第2の画像に含まれる第2の対象は、前述の第1の対象と同じタイプの対象であってもよい。例えば、第1の対象及び第2の対象はいずれも顔であってもよく、又は第1の対象及び第2の対象はいずれも建物等であってもよい。該第1の対象と第2の対象は同じ対象であってもよく、異なる対象であってもよく、本開示は単語を限定しない。
本開示の実施例によれば、例えば、第2の符号化ネットワークを用いて第2の画像から第1のアイデンティティ特徴を抽出してもよい。該第2の符号化ネットワークは、例えば、残差ネットワーク(Residual Network、ResNet)、特徴ピラミッドネットワーク(Feature Pyramid Network、FPN)又はU-Netなどのネットワークを用いてもよい。該第2の符号化ネットワークは、畳み込み層及びプーリング層を含んでもよく、かつスキップ層接続構造を有し、それにより属性特徴よりも複雑なアイデンティティ特徴を抽出するために用いられる。
操作S230においては、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成する。
本開示の実施例によれば、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴をスティッチングした後に生成ネットワークGeneratorに入力し、該生成ネットワークGeneratorにより、スティッチングした後の特徴に基づいて第1の遷移画像を生成してもよい。この生成された第1遷移画像には、第1属性特徴と第1形状特徴とを有する第2対象が含まれる。
本開示の実施例は、第1の画像から対象の属性特徴及び目標部位の形状特徴を抽出し、第2の画像から対象のアイデンティティ特徴を抽出し、かつアイデンティティ特徴、属性特徴及び形状特徴に基づいて遷移画像を生成することにより、関連技術に比べて、対象の三次元再構成を行う必要がないため、ある程度で画像遷移の計算量及び複雑度を低減することができる。さらに、目標部位の形状特徴を単独で抽出することにより、抽出された対象状態を表現する特徴をより豊かにすることができ、得られた遷移画像の精度及び真実性を向上させ、かつユーザー体験を向上させることができる。
本開示の実施例によれば、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴に基づいて第1の遷移画像を生成する場合、融合特徴を取得するように、第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴に対してスティッチング以外の他の融合を行うことができる。その後、該融合特徴を生成ネットワークに入力し、生成ネットワークにより第1の遷移画像を出力する。ここで、例えば、融合特徴を取得するように、add操作により第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴を融合してもよく、まず第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴をスティッチングした後、畳み込み層を経由して畳み込み演算を行ってもよい。理解できるように、上記第1の属性特徴、第1の形状特徴及び第1のアイデンティティ特徴を融合する方法は単に例示として本開示を理解することに役立ち、本開示はこれを限定しない。特徴の融合により、生成ネットワークがより写実的な遷移画像を生成しやすくさせることができる。
図3は本開示の実施例に係る属性特徴及び形状特徴を抽出する原理概略図である。
本開示の実施例によれば、前述の抽出された第1の属性特徴は、例えば、姿勢特徴及び表情特徴を表現することができる。一実施例においては、姿勢特徴及び表情特徴を単独で抽出することができ、それにより抽出された対象状態を表現する特徴はより正確である。
本開示の実施例によれば、目標部位の位置する領域を除く他の領域の画像に基づいて表情特徴を抽出することができる。これは、目標部位が一般的にある程度で表情に対する正確な識別に影響を与え、該実施例の方法により、表情特徴の抽出精度を向上させることができるからである。
具体的には、図3に示すように、該実施例300においては、第1の対象が顔で、目標部位が口であることを例として、第1の属性特徴及び第1の形状特徴を抽出する場合、まず目標部位の第1の画像301における第1の位置情報に基づいて、第1の画像301において目標部位に対する目標領域の画像を決定し、目標画像302としてもよい。例えば、第1の位置情報に基づいて、目標部位を囲む検出枠が第1の画像301に囲む領域を確定してもよい。その後、該囲む領域を、中心点を不変に保持し、所定の寸法に拡大し、拡大された検出枠を取得してもよい。この拡大された検出枠が第1の画像301に囲む領域を目標領域とする。
該目標画像を取得すると同時に、例えば、第1の画像に基づいて第1の姿勢特徴を抽出してもよい。具体的には、前述の第1の符号化ネットワークは、3つの符号化サブネットワークを含むことができる。該実施例は、3つの符号化サブネットワークにおける第1の符号化サブネットワーク310を用いて、第1の画像301から第1の姿勢特徴303を抽出してもよい。例えば、第1の画像301を第1の符号化サブネットワーク310に入力することにより、第1の姿勢特徴を取得することができる。ここで、第1の符号化サブネットワーク310は、例えば、前述の軽量レベルのネットワークであってもよい。
目標画像302を取得した後、目標領域の画像に基づいて、第1の形状特徴を抽出することができる。同時に、第1の画像中の目標領域を除く他の領域の画像に基づいて、第1の表情特徴を抽出する。具体的には、該目標画像に基づいて、3つの符号化サブネットワークにおける第2の符号化サブネットワークを用いて第1の形状特徴を抽出することができる。第1の画像中の目標領域を除く他の領域の画像に基づいて、前記第1の表情特徴を抽出する。ここで、第2の符号化サブネットワークは、前述のResNetネットワーク等であってもよい。第3の符号化サブネットワークは、第1の符号化サブネットワークの構造と類似し、訓練時に使用されるサンプルデータが異なる点が区別である。
一実施例においては、目標画像302を取得した後、目標領域に対するマスクを用いて第1の画像301を処理することにより、画像304を取得することができる。該画像304において、目標領域を除く他の領域における各画素の画素値はいずれも0であり、目標領域における画素は第1の画像301における画素値を保留する。同時に、他の領域に対するマスクを用いて第1の画像301を処理することにより、画像305を取得することができる。該画像305において、目標領域における各画素の画素値はいずれも0であり、他の領域における画素は第1の画像301における画素値を保留する。その後、画像304を第2の符号化サブネットワーク320の入力とし、第2の符号化サブネットワーク320により第1の形状特徴306を抽出し取得することができる。画像305を第3の符号化サブネットワーク330の入力とし、第3の符号化サブネットワーク330により第1の表情特徴307を抽出し取得する。
画像305及び画像304を生成する方式で特徴を抽出することにより、各符号化サブネットワークの入力画像のサイズが同じであることを保証することができ、それにより各符号化サブネットワークの設計が同じになりやすく、ネットワークの構築コストを低減する。
図4は本開示の実施例に係る第1の画像を取得する原理概略図である。
本開示の実施例によれば、前述の第1の画像は、例えば、第1の対象の位置に基づいて裁断された画像であってもよく、これにより画像中の第1の対象を除く他の対象が第1の属性特徴の抽出への干渉を回避しやすく、同時に属性特徴の抽出の計算量を減少させることができる。
例えば、リアルタイムに収集するか又は予め収集された画像を対象属性のテンプレート画像とすることができる。テンプレート画像を取得した後、該実施例は、まず第1の対象を含むテンプレート画像を検出し、第1の対象のテンプレート画像における第2の位置情報を取得することができる。その後、該第2の位置情報に基づいてテンプレート画像を裁断し、第1の画像を取得する。
例えば、テンプレート画像に対して目標検出を行い、第1の対象を囲む検出枠のテンプレート画像における位置情報を検出し取得することができる。ここで、該検出された位置情報は、例えば、検出枠の中心点がテンプレート画像に基づいて構築された座標系における座標値、及び検出枠の高さ及び幅を含むことができる。該位置情報を取得した後、検出枠の中心点を中心点として、所定の高さ及び所定の幅に基づいて該テンプレート画像を裁断することができる。ここで、所定の高さは検出枠の高さよりも大きく、所定の幅は検出枠の幅よりも大きいべきである。例えば、裁断して得られた画像のサイズは、例えば、256画素×256画素であってもよい。この実施例では、裁断して得られた画像を第1画像とすることができる。
一実施例においては、テンプレート画像を裁断した後に、例えば、裁断して得られた画像の背景画像を除去してもよく、これにより、該背景画像の第1の属性特徴及び第1の形状特徴の抽出への干渉を低減することができ、それにより、抽出された第1の属性特徴及び第1の形状特徴の精度をさらに向上させ、属性特徴及び形状特徴を抽出する計算量を減少させ、より写実的な遷移画像を生成することに役立つ。
図4に示すように、該実施例400においては、第1の画像を取得する場合、まず、取得されたテンプレート画像401に対して目標検出を行うことができる。例えば、テンプレート画像401を目標検出モデル410に入力し、目標検出モデル410を経由して第2の位置情報402を取得し、かつ該第2の位置情報に基づいてテンプレート画像401を裁断し、該裁断して得られた画像403を中間画像とすることができる。ここで、目標検出モデルは、例えば、Faster R-CNNモデル、シングルショットマルチボックス検出(Single Shot Multibox Detector、SSD)モデル及びシングルチェック(You Only Look Once、YOLO)検出モデルなどの様々なモデルのうちのいずれか1つを含んでもよく、本開示はこれを限定しない。
中間画像403を取得した後、該実施例は、さらに該中間画像に分割処理を行うことにより、中間画像における目標対象の第3の位置情報を取得してもよい。ここで、該目標対象は、前述の第1の対象を含む。例えば、第1の対象が顔であれば、目標対象は人体であってもよい。
例えば、図4に示すように、該中間画像403を画像分割モデル420の入力とし、該画像分割モデル420を経由して処理して第3の位置情報404を取得することができる。ここで、該第3の位置情報404は、目標対象の境界線の中間画像403における位置を含むべきである。画像分割モデルは、例えば、全畳み込みネットワーク(Fully Convolutional Networks,FCN)モデル、ディープマスク(Deep Mask)モデル、Snakeモデル又はBodyPixモデル等を含んでもよく、本開示はこれを限定しない。
第3の位置情報を取得すると、該第3の位置情報404に基づいて、目標対象に対するマスク画像405を生成することができる。具体的には、中間画像403における第3の位置情報404で囲まれた領域を除く他の領域の画素値をいずれも0に調整し、第3の位置情報404で囲まれた領域内の画素値を255に設定することによって、マスク画像405を取得することができる。
マスク画像405を取得した後、該マスク画像405に基づいて中間画像403の背景画像を除去することによって第1の画像を取得することができる。具体的には、該中間画像403とマスク画像405を画素レベルの内積演算を行い、内積演算して得られた画像における各画素点の画素値を255で割り、それにより第1の画像406を取得することができる。
図4に示すように、上記処理により得られた第1の画像406は、前景画像である目標対象の画像のみを含み、該目標対象の背景はいずれも黒色背景であり、背景の除去を実現することができる。したがって、背景の属性特徴及び形状特徴の抽出への影響を回避することができる。
本開示の実施例によれば、第1の画像が背景を除去した画像である場合、前述の第1の符号化サブネットワークに入力された画像は、第1の画像406であり、前述の第3の符号化サブネットワークに入力された画像は、背景における画素と目標領域における画素との画素値がいずれも0である画像である。
本開示の実施例によれば、前述の第2の画像は、例えば、第2の対象の位置に基づいて裁断された画像であってもよく、これにより画像中の第2の対象を除く他の対象の第1のアイデンティティ特徴の抽出への干渉を回避しやすく、同時にアイデンティティ特徴の抽出の計算量を減少させることができる。
例えば、リアルタイムに収集するか又は予め収集された画像を対象アイデンティティのソース画像とすることができる。ソース画像を取得した後、該実施例は、まず、第2の対象を含むソース画像を検出し、第2の対象のソース画像における第4の位置情報を取得することができる。次に、該第4の位置情報に基づいてソース画像を裁断し、第2の画像を取得する。理解できるように、ソース画像を裁断して第2の画像を取得する原理は、前述のテンプレート画像を裁断して第1の画像を取得する原理と類似することができ、該第2の画像のサイズは、例えば、256×256であってもよく、ここで説明を省略する。
なお、第2の画像を取得する場合、例えば、背景画像を除去する必要がなくてもよく、これは、アイデンティティ特徴を抽出するネットワークが一般的に複雑であり、アイデンティティ特徴をより正確に学習することができ、該学習過程は背景画像の影響が小さい。これにより、ソース画像に対する前処理フローを減少させることができる。
本開示の実施例によれば、第1のアイデンティティ特徴を抽出する場合、例えば、第2の対象を含む複数の画像から抽出されたアイデンティティ特徴を統合することができ、これにより単一画像におけるアイデンティティ特徴が不完全であるか又は不明瞭であることによる抽出されたアイデンティティ特徴が正確ではないという問題を回避することができる。このようにして、得られた第1のアイデンティティ特徴の精度を向上させ、取得された遷移画像をより写実的にさせることができる。
例えば、ビデオから第2の対象を含む複数のフレームビデオを抽出し、該複数のフレームビデオに基づいて第2の画像に含まれる複数の画像を取得することができる。例えば、複数のフレームビデオにおける各フレームビデオに対していずれも前述の裁断操作を実行することにより、第2の対象を含む、大きさが256×256である複数の画像を取得することができる。ここで、該複数の画像の数は、例えば3、5、8などの任意の1より大きい整数であってもよく、具体的には実際の必要に応じて該数を設定することができ、本開示はこれを限定しない。
該実施例は、複数の画像における各画像に含まれる第2の対象のアイデンティティ特徴をそれぞれ抽出することによって、複数の初期アイデンティティ特徴を取得することができる。例えば、m個の画像のそれぞれに対応して、いずれも前述の第2の符号化ネットワークにより1つのアイデンティティ特徴を取得し、1つの初期アイデンティティ特徴とし、これによりm個の初期アイデンティティ特徴を取得することができる。次に、該複数の初期アイデンティティ特徴の平均値特徴を計算すること、すなわちm個の初期アイデンティティ特徴を積算した後にmで割ることによって、該特徴平均値を取得することができる。最後に、該複数の初期アイデンティティ特徴の平均値特徴を第2の対象の第1のアイデンティティ特徴として確定する。
図5は本開示の実施例に係る画像遷移方法の原理概略図である。
本開示の実施例によれば、第1の属性特徴及び第1の形状特徴を抽出する場合、例えば、まず第1の画像に対してデータ強化処理を行い、強化後画像を取得することができる。その後、該強化後画像及び第1の位置情報に基づいて、それぞれ第1の属性特徴及び第1の形状特徴を抽出する。該方式により、第1の画像における第1の対象のアイデンティティ特徴を弱め、さらに除去することができ、このように第1の属性特徴及び第1の形状特徴の抽出精度を向上させ、得られた遷移画像の精度及び真実性を向上させることができ、それによってユーザー体験を向上させることができる。
例えば、データ強化処理は、例えば画像に対する伸縮処理、平行移動処理及び/又は画素レベルの強化などを含むことができる。ここで、画素レベルの強化は、例えば、画素のコントラスト、輝度、ぼけの程度を調整するか又は画素にモザイク処理を行うことを含むことができる。ここで、モザイク処理は、画素の階調の詳細を劣化させ、色ブロックの乱れを起こす効果がある。
該実施例は、データ強化ツールを設置することができ、第1の画像を該データ強化ツールに入力した後、データ強化ツールは、前述の様々なデータ強化処理方式のうちの1つ又は複数の方式をランダムに採用し、第1の画像に対するデータ強化処理を実現し、強化後画像を出力することができる。
本開示の実施例によれば、属性特徴を抽出する場合、例えば、まず第1の画像に対して正規化処理を行うことができ、それにより属性特徴及び形状特徴を抽出する時の計算量を低減し、画像遷移の効率を向上させる。正規化処理を行った後、例えば第1の正規化画像を取得し、次に第1の正規化画像及び第1の位置情報に基づいて第1の属性特徴及び第1の形状特徴を抽出することができる。
例えば、第1の画像に対して行う正規化処理は、第1の画像における各画素の画素値を255で割ることにより、得られた各画素の画素値が値の区間[0、1]に属し、それにより第1の正規化画像を取得することであってもよい。
同様に、第1のアイデンティティ特徴を抽出する場合、例えば、第2の画像に対して正規化処理を行うことにより、アイデンティティ特徴を抽出する時の計算量を低減し、画像遷移の効率を向上させる。正規化処理を行った後、例えば第2の正規化画像を取得し、次に符号化ネットワークを用いて該第2の正規化画像を符号化し、第1のアイデンティティ特徴を取得することができる。具体的には、第2の正規化画像を第2の符号化ネットワークに入力し、第2の符号化ネットワークを経由して処理した後に第1のアイデンティティ特徴を出力することができる。該第2の画像に対する正規化処理の方法は、前述の第1の画像に対して正規化処理を行う方法と類似することができ、ここでは説明を省略する。
一実施例において、第1の属性特徴及び第1の形状特徴を抽出する場合、まず第1の画像に対してデータ強化処理を行い、その後に強化後の画像に対して正規化処理を行うことができる。
例えば、図5に示すように、該実施例500の画像遷移方法において、第1の画像は、前述の中間画像の背景画像を除去した後に得られた画像を用いることができる。第1の符号化ネットワークは、例えば、姿勢符号化ネットワーク(Pose Encoder)511(前述の第1の符号化サブネットワーク)と、内容符号化ネットワーク(Content Encoder)512(前述の第2の符号化サブネットワーク)と、表情符号化ネットワーク(Emotion Encoder)513(前述の第1の符号化サブネットワーク)とを含んでもよい。第2の符号化ネットワークは、例えば、アイデンティティ符号化ネットワーク(ID Encoder)520であってもよく、該アイデンティティ符号化ネットワーク520は、前述のResNetネットワークを用いることができる。姿勢符号化ネットワークは第1の姿勢特徴を抽出するために用いられ、内容符号化ネットワークは第1の形状特徴を抽出するために用いられ、該第1の形状特徴は、ある程度で発話内容を表現することができ、表情符号化ネットワークは第1の表情特徴を抽出するために用いられる。
該実施例500においては、まず第1の画像501に対して前述のデータ強化処理及び正規化処理などの前処理を行い、次に前処理により得られた画像を姿勢符号化ネットワーク511に入力し、姿勢符号化ネットワーク511を経由して処理した後に第1の姿勢特徴503を出力することができる。同時に、前処理により取得された画像に基づいて、前述の目標領域に基づく処理を行い、画像501’及び画像501’’を取得することができる。その後に、画像501’を内容符号化ネットワーク512に入力し、内容符号化ネットワーク512を経由して処理した後に第1の形状特徴504を出力する。画像501’’を表情符号化ネットワーク513に入力し、表情符号化ネットワーク513を経由して処理した後に第1の表情特徴505を出力する。同時に、第2の画像502に対して正規化処理などの前処理を行うことができ、前処理により得られた画像をアイデンティティ符号化ネットワーク520に入力し、アイデンティティ符号化ネットワーク520を経由して処理した後に第1のアイデンティティ特徴506を出力する。
第1のアイデンティティ特徴506、第1の姿勢特徴503、第1の形状特徴504及び第1の表情特徴505を取得した後、該4つの特徴をconcat()関数を経由してスティッチングして、スティッチング特徴507を取得することができる。次に、該スティッチング特徴507を多層パーセプトロン(Multilayer Perceptron、MLP)530に入力することにより、第1のアイデンティティ特徴506、第1の姿勢特徴503、第1の形状特徴504及び第1の表情特徴505に対する融合を実現する。その後に、該多層パーセプトロン530の出力を生成ネットワークGenerator540の入力とし、該Generator540から遷移画像508を出力し、該遷移画像508における対象は第2の画像502における第2の対象であるが、該第2の対象は第1の画像501における第1の対象の表情、姿勢及び口の形状を有する。
一実施例において、抽出された第1の姿勢特徴は、例えば、12次元のベクトルであってもよく、抽出された第1の形状特徴は512次元のベクトルであってもよく、抽出された第1の表情特徴は256次元のベクトルであってもよく、抽出された第1のアイデンティティ特徴は512次元のベクトルであってもよく、スティッチング特徴507は1292次元のベクトルである。ここで、該多層パーセプトロン530から出力された特徴は、例えば同様に1292次元のベクトルである。生成された遷移画像508のサイズは、例えば第1の画像及び第2の画像のサイズといずれも等しくてもよく、例えばサイズが256×256の画像であってもよい。
本開示に提供された画像遷移方法に基づいて、本開示は、さらに画像遷移モデルの訓練方法を提供し、以下に、図6~図7を参照して該訓練方法を詳細に説明する。
図6は開示の実施例に係る画像遷移モデルの訓練方法のフローチャート概略図である。
本開示の実施例によれば、図6に示すように、該実施例の画像遷移モデルの訓練方法600は、操作S610~操作S640を含んでもよく、ここで、画像遷移モデルは、第1の符号化ネットワーク、第2の符号化ネットワーク及び生成ネットワークを含んでもよい。
操作S610においては、第3の対象の目標部位の第3の画像における第5の位置情報及び第3の画像に基づいて、第1の符号化ネットワークを用いて第3の対象の第2の属性特徴及び目標部位の第2の形状特徴を抽出する。理解できるように、該操作S610の実現方式は、前述の第1の属性特徴及び第1の形状特徴を取得する実現方式と類似し、ここでは説明を省略する。
操作S620においては、第2の符号化ネットワークを用いて第4の画像に含まれる第3の対象の第2のアイデンティティ特徴を抽出する。ここで、第2の符号化ネットワークは前述の第2の符号化ネットワークと類似し、該操作S620の実現方式は前述の第2の符号化ネットワークを用いて第1のアイデンティティ特徴を取得する実現方式と類似し、ここで説明を省略する。なお、第3の画像及び第4の画像にはいずれも顔が含まれる場合、第3の画像における顔と第4の画像における顔は同じ人の顔である。
操作S630においては、第2の属性特徴、第2の形状特徴及び第2のアイデンティティ特徴に基づいて、生成ネットワークを用いて第2の遷移画像を生成する。この第2の遷移画像は、第2の属性特徴と第2の形状特徴とを有する第3の対象を含む。該操作S630の実現方式は、前述の第1の遷移画像を取得する実現方式と類似し、ここでは説明を省略する。
操作S640においては、第2の遷移画像と第3の画像との差異に基づいて、画像遷移モデルを訓練する。
本開示の実施例によれば、第3の画像が背景を除去した画像である場合、該第2の遷移画像に背景があるため、まず第3の画像に基づいて得られた第3の対象に対するマスク画像を用いて、第3の遷移画像における背景画像を除去することができる。次に、背景を除去した第2の遷移画像と第3の画像との差異に基づいて、画像遷移モデルを訓練する。
例えば、画像の間の差異は、例えば、2つの画像を画素ごとに比較することにより取得することができる。例えば、第2の遷移画像と第3の画像との間のL1損失、L2損失又は平滑化L1損失などを用いて差異を表すことができる。その後、逆方向伝播アルゴリズムを用いて画像遷移モデルを訓練する。
本開示の実施例によれば、該第2の属性特徴は、例えば第1の属性特徴と類似し、第2の姿勢特徴及び第2の表情特徴を含むことができる。第1の符号化ネットワークは第1の符号化サブネットワーク、第2の符号化サブネットワーク及び第3の符号化サブネットワークを含むことができる。第2の属性特徴及び第2の形状特徴を抽出する上記操作は、まず第5の位置情報に基づいて、第3の画像における目標部位に対する目標領域の画像を決定することができる。次に第3の画像に基づいて、第1の符号化サブネットワークを用いて第2の姿勢特徴を抽出し、目標領域の画像に基づいて、第2の符号化サブネットワークを用いて第2の形状特徴を抽出し、かつ第3の画像中の目標領域を除く他の領域の画像に基づいて、第3の符号化サブネットワークを用いて第2の表情特徴を抽出する。
図7は本開示の実施例に係る画像遷移モデルの訓練方法の原理概略図である。
本開示の実施例によれば、画像遷移モデルを訓練する場合、例えば、前述の画素ごとに比較して得られた損失に加えて、生成ネットワークによる画像生成の損失も考えられる。同時に、生成ネットワークに対応して判別ネットワークを設置することができ、このようにして、生成ネットワーク及び判別ネットワークにより生成式対抗ネットワークを構成し、かつ生成式対抗損失を計算することにより生成ネットワークを訓練する。該方式により、訓練により取得された画像遷移モデルにおける生成ネットワークの精度を向上させ、生成ネットワークにより生成された遷移画像をより写実的にさせることができる。
図7に示すように、該実施例700は、画像遷移モデルを訓練する時に、前述と類似に、第3の画像701に対してデータ強化処理を行い、その後に正規化処理を行い、正規化処理により得られた画像を第1の符号化サブネットワーク711に入力し、第2の姿勢特徴703を取得することができる。同時に、データ強化処理後の画像又は正規化処理後の画像に基づいて画像701’及び画像701’’を生成する。画像701’は第2の符号化サブネットワーク712を経由して処理されて第2の形状特徴704を取得する。画像701’’は第3の符号化サブネットワーク713を経由して処理されて第2の表情特徴705を取得する。同時に、第4の画像702に正規化処理を行い、正規化処理により得られた画像を第2の符号化ネットワーク720に入力し、第2のアイデンティティ特徴706を取得することができる。次に該第2の姿勢特徴703、第2の形状特徴704、第2の表情特徴705及び第2のアイデンティティ特徴706をスティッチングして得られたスティッチング特徴707を多層パーセプトロン730に入力し、多層パーセプトロン730の出力を生成ネットワーク740の入力とし、生成ネットワーク740を経由して第2の遷移画像708を出力する。なお、第3の画像が背景を除去した画像である場合、生成ネットワーク740から出力された画像に対して背景を除去した後、第2の遷移画像708を取得することもできる。
その後、第2の遷移画像708と第3の画像701との間の画素レベルの差異に基づいて、画像遷移モデルの第1の損失709を確定することができる。この第1損失は、前述したL 1損失等を採用することができる。同時に、第2の遷移画像708及び第3の画像701をそれぞれ判別ネットワーク750に入力し、該判別ネットワーク750により第2の遷移画像を実画像とする第1の真値確率と、第3の画像を実画像とする第2の真値確率とを出力することができる。さらに、第2の遷移画像、第3の画像、第1の真値確率及び第2の真値確率に基づいて、生成対抗損失709’を確定する。
第1の損失709と生成対抗損失709’を取得した後、例えば、まず第1の損失709と生成対抗損失709’における生成ネットワーク部分の損失に基づき、画像遷移モデルを訓練する。その後に、生成対抗損失709’における判別ネットワーク部分の損失に基づき、判別ネットワークを訓練し、それにより一回の反復訓練(iterative training)を完了する。
一実施例において、図7に示すように、前述の第1の損失709と生成対抗損失709’に加えて、例えば第3の画像701と第2の遷移画像708に対して特徴レベルの比較を行い、比較結果に基づいて第2の損失709’’を生成することができる。
例えば、第3の画像701及び第2の遷移画像606をそれぞれ特徴抽出ネットワーク760に入力することができ、該特徴抽出ネットワーク760は例えばVGGネットワーク、ResNetネットワーク等であってもよく、本開示はこれを限定しない。2つの特徴を抽出した後、該2つの特徴の間の差異に基づいて第2の損失709’’を計算することができる。該実施例において、第2の損失709’’は、例えば、感知損失関数で計算して取得してもよく、又は前述のL1損失、L2損失などを用いてもよい。
第1の損失、生成対抗損失及び第2の損失を取得した後、該第1の損失と、生成対抗損失における生成ネットワーク部分の損失と、第2の損失との加重和を計算することができる。該加重和に基づいて画像遷移モデルを訓練する。その後、生成対抗損失における判別ネットワーク部分の損失に基づいて、判別ネットワークを訓練し、一回の反復訓練を完了する。
複数回の反復訓練を行うことにより、画像遷移モデルの損失を損失閾値に達させることができ、それにより画像遷移モデルに対する訓練を完了する。該実施例は第2の遷移画像と第3の画像の特徴の差異を同時に考慮して画像遷移モデルを訓練することにより、訓練して得られた画像遷移モデルの精度をさらに向上させることができる。これにより、訓練して得られた画像遷移モデルに、より写実的な遷移画像を生成させることができる。
本開示の提供する画像遷移方法に基づいて、本開示は、さらに画像遷移装置を提供し、以下に図8を参照して該装置を詳細に説明する。
図8は本開示の実施例に係る画像遷移装置の構造ブロック図である。
図8に示すように、該実施例の画像遷移装置800は、例えば、第1の特徴抽出モジュール810と、第1のアイデンティティ抽出モジュール820と、第1の画像生成モジュール830とを含んでもよい。
第1の特徴抽出モジュール810は、第1の対象の目標部位の第1の画像における第1の位置情報及び前記第1の画像に基づいて、前記第1の対象の第1の属性特徴と前記目標部位の第1の形状特徴のそれぞれを抽出するために用いられる。一実施例において、第1の特徴抽出モジュール810は、前述の操作S210を実行するために用いられ、ここで説明を省略する。
第1のアイデンティティ抽出モジュール820は、第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出するために用いられる。一実施例において、第1のアイデンティティ抽出モジュール820は、前述の操作S220を実行するために用いられ、ここで説明を省略する。
第1の画像生成モジュール830は、前記第1の属性特徴、前記第1の形状特徴及び前記第1のアイデンティティ特徴に基づいて第1の遷移画像を生成するために用いられ、前記第1の遷移画像は、前記第1の属性特徴及び前記第1の形状特徴を有する第2の対象を含む。一実施例において、第1の画像生成モジュール830は、前述の操作S230を実行するために用いられ、ここで説明を省略する。
本開示の実施例によれば、上記第1の属性特徴は、第1の姿勢特徴及び第1の表情特徴を含む。上記第1の特徴抽出モジュール810は、第1の画像確定サブモジュールと、第1の姿勢抽出サブモジュールと、第1の形状抽出サブモジュールと、第1の表情抽出サブモジュールとを含むことができる。第1の画像確定サブモジュールは、前記第1の位置情報に基づいて、前記第1の画像における前記目標部位に対する目標領域の画像を確定するために用いられる。第1の姿勢抽出サブモジュールは、前記第1の画像に基づいて、前記第1の姿勢特徴を抽出するために用いられる。第1の形状抽出サブモジュールは、前記目標領域の画像に基づいて、前記第1の形状特徴を抽出するために用いられる。第1の表情抽出サブモジュールは、前記第1の画像中の前記目標領域を除く他の領域の画像に基づいて、前記第1の表情特徴を抽出するために用いられる。
本開示の実施例によれば、上記画像遷移装置800は、第1の画像検出モジュールと第1の画像裁断モジュールとをさらに含むことができる。第1の画像検出モジュールは、第1の対象を含むテンプレート画像を検出し、第1の対象のテンプレート画像における第2の位置情報を取得するために用いられる。第1の画像裁断モジュールは、第2の位置情報に基づいてテンプレート画像を裁断し、第1の画像を取得することに用いられる。
本開示の実施例によれば、上記画像裁断モジュールは、裁断サブモジュールと、分割サブモジュールと、マスク生成サブモジュールと、背景除去サブモジュールとを含むことができる。裁断サブモジュールは、第1の位置情報に基づいてテンプレート画像を裁断し、中間画像を取得するために用いられる。分割サブモジュールは、中間画像に対して画像分割処理を行い、中間画像における目標対象の第3の位置情報を取得するために用いられ、目標対象は第1の対象を含む。マスク生成サブモジュールは、第3の位置情報に基づいて、目標対象に対するマスク画像を生成するために用いられる。背景除去サブモジュールは、マスク画像に基づいて中間画像の背景画像を除去し、第1の画像を取得するために用いられる。
本開示の実施例によれば、上記第1の特徴抽出モジュール810は、画像強化サブモジュールと特徴抽出サブモジュールとを含むことができる。画像強化サブモジュールは、前記第1の画像に対してデータ強化処理を行い、強化後画像を取得するために用いられる。特徴抽出サブモジュールは、前記第1の位置情報及び前記強化後画像に基づいて、前記第1の属性特徴と前記第1の形状特徴のそれぞれを抽出するために用いられる。
本開示の実施例によれば、上記第1の特徴抽出モジュール810は、第1の正規化サブモジュールと特徴抽出サブモジュールとを含むことができる。第1の正規化サブモジュールは、第1の画像に対して正規化処理を行い、第1の正規化画像を取得するために用いられる。特徴抽出サブモジュールは、前記第1の位置情報及び前記第1の正規化画像に基づいて、前記第1の属性特徴と前記第1の形状特徴のそれぞれを抽出するために用いられる。
本開示の実施例によれば、上記画像遷移装置800は、第2の画像検出モジュールと第2の画像裁断モジュールとをさらに含むことができる。第2の画像検出モジュールは、第2の対象を含むソース画像を検出し、第2の対象のソース画像における第4の位置情報を取得するために用いられる。第2の画像裁断モジュールは、第4の位置情報に基づいてソース画像を裁断し、第2の画像を取得するために用いられる。
本開示の実施例によれば、上記第1のアイデンティティ抽出モジュール820は、第2の正規化サブモジュールと、アイデンティティ抽出サブモジュールとを含むことができる。第2の正規化サブモジュールは、第2の画像に対して正規化処理を行い、第2の正規化画像を取得するために用いられる。アイデンティティ抽出サブモジュールは、第2の符号化ネットワークを用いて第2の正規化画像を符号化し、第2の対象の第1のアイデンティティ特徴を取得するために用いられる。
本開示の実施例によれば、上記第2の画像は、複数の画像を含み、上記第1のアイデンティティ抽出モジュール820は、複数の画像における各画像に含まれる第2の対象のアイデンティティ特徴をそれぞれ抽出し、複数の初期アイデンティティ特徴を取得するために用いられ、さらに、複数の初期アイデンティティ特徴の平均値特徴を第2の対象の第1のアイデンティティ特徴に確定するために用いられる。
本開示の実施例によれば、上記第1の画像生成モジュール830は、特徴融合サブモジュールと画像生成サブモジュールとを含むことができる。特徴融合サブモジュールは、第1の属性特徴と第1のアイデンティティ特徴を融合し、融合特徴を取得するために用いられる。画像生成サブモジュールは、融合特徴を生成ネットワークの入力とし、第1の遷移画像を取得するために用いられる。
本開示の提供する画像遷移モデルの訓練方法に基づいて、本開示は、さらに画像遷移モデルの訓練装置を提供し、以下に図9を参照して該装置を説明する。
図9は本開示の実施例に係る画像遷移モデルの訓練装置の構造ブロック図である。
図9に示すように、該実施例の画像遷移モデルの訓練装置900は、第2の特徴抽出モジュール910と、第2のアイデンティティ抽出モジュール920と、第2の画像生成モジュール930と、モデル訓練モジュール940とを含むことができる。ここで、画像遷移モデルは、第1の符号化ネットワークと、第2の符号化ネットワークと、生成ネットワークとを含む。
第2の特徴抽出モジュール910は、第3の対象の目標部位の第3の画像における第5の位置情報及び前記第3の画像に基づいて、前記第1の符号化ネットワークを用いて前記第3の対象の第2の属性特徴及び前記目標部位の第2の形状特徴を抽出するために用いられる。一実施例において、第2の特徴抽出モジュール910は、前述の操作S610を実行するために用いられ、ここで説明を省略する。
第2のアイデンティティ抽出モジュール920は、第2の符号化ネットワークを用いて第4の画像に含まれる第3の対象の第2のアイデンティティ特徴を抽出するために用いられる。一実施例において、第2のアイデンティティ抽出モジュール920は、前述の操作S620を実行するために用いられ、ここで説明を省略する。
第2の画像生成モジュール930は、前記第2の属性特徴、前記第2の形状特徴及び前記第2のアイデンティティ特徴に基づいて、前記生成ネットワークを用いて、前記第2の属性特徴及び前記第2の形状特徴を有する第3の対象を含む第2の遷移画像を生成するために用いられる。一実施例において、第2の画像生成モジュール930は、前述の操作S630を実行するために用いられ、ここで説明を省略する。
モデル訓練モジュール940は、第2の遷移画像と第3の画像との差異に基づいて、画像遷移モデルを訓練するために用いられる。一実施例において、モデル訓練モジュール940は、前述の操作S640を実行するために用いられ、ここで説明を省略する。
本開示の実施例によれば、第2の属性特徴は、第2の姿勢特徴と第2の表情特徴を含む。上記第2の特徴抽出モジュール910は、第2の画像確定サブモジュールと、第2の姿勢抽出サブモジュールと、第2の形状抽出サブモジュールと、第2の表情抽出サブモジュールとを含むことができる。第2の画像確定サブモジュールは、前記第5の位置情報に基づいて、前記第3の画像における前記目標部位に対する目標領域の画像を確定するために用いられる。第2の姿勢抽出サブモジュールは、前記第3の画像に基づいて、前記第1の符号化サブネットワークを用いて前記第2の姿勢特徴を抽出するために用いられる。第2の形状抽出サブモジュールは、前記目標領域の画像に基づいて、前記第2の符号化サブネットワークを用いて前記第2の形状特徴を抽出するために用いられる。第2の表情抽出サブモジュールは、前記第3の画像中の前記目標領域を除く他の領域の画像に基づいて、前記第3の符号化サブネットワークを用いて前記第2の表情特徴を抽出するために用いられる。
本開示の実施例によれば、上記モデル訓練モジュール940は、第1の損失確定サブモジュールと、真値確率確定サブモジュールと、第2の損失確定サブモジュールと、モデル訓練サブモジュールとを含む。第1の損失確定サブモジュールは、第2の遷移画像と第3の画像との間の画素レベルの差異に基づいて、画像遷移モデルの第1の損失を確定するために用いられる。真値確率確定サブモジュールは、第2の遷移画像と第3の画像をそれぞれ判別ネットワークに入力し、第2の遷移画像に対する第1の真値確率と第3の画像に対する第2の真値確率を取得するために用いられる。第2の損失確定サブモジュールは、第2の遷移画像、第3の画像、第1の真値確率及び第2の真値確率に基づいて、画像遷移モデルの生成対抗損失を確定するために用いられる。モデル訓練サブモジュールは、第1の損失と生成対抗損失に基づいて、画像遷移モデルを訓練するために用いられる。
本開示の実施例によれば、上記モデル訓練モジュール940は、第2の遷移画像及び第3の画像に基づいて特徴抽出ネットワークを経由して抽出された2つの特徴の差異に基づいて、画像遷移モデルの第2の損失を確定するために用いられる第3の損失確定サブモジュールをさらに含んでもよい。上記モデル訓練サブモジュールは、具体的には、第1の損失、生成対抗損失及び第2の損失に基づいて、画像遷移モデルを訓練するために用いられる。
なお、本開示の技術案において、係るユーザ個人情報の取得、収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、且つ公序良俗に反するものではない。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。
図10には、本開示の実施例に係る画像遷移方法及び/又は画像遷移モデルの訓練方法を実施するために用いられる電子機器1000の模式的ブロック図を示している。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータ等の、様々な形式のデジタルコンピュータを示すことを目的とする。電子機器は、さらに例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置等の、様々な形式の移動装置を示してもよい。本明細書に示された部品、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び/または要求された本開示の実現を限定すると意味しない。
図10に示すように、電子機器1000は、演算ユニット1001を含み、演算ユニット1001は、リードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラムまたは記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM1003には、電子機器1000の操作に必要な様々なプログラム及びデータをさらに記憶してもよい。演算ユニット1001と、ROM1002と、RAM1003とは、バス1004を介して相互に接続される。入出力(I/O)インタフェース1005も、バス1004に接続される。
電子機器1000における、例えばキーボード、マウス等の入力ユニット1006と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット1007と、例えば磁気ディスク、光ディスク等の記憶ユニット1008と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット1009とを含む複数の部品は、I/Oインタフェース1005に接続される。通信ユニット1009は、電子機器1000がインターネット等のコンピュータネットワーク及び/または各種の電気通信ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
演算ユニット1001は、処理及び演算能力を有する各種の汎用及び/または専用の処理モジュールであってもよい。演算ユニット1001の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムをランニングする各種演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。演算ユニット1001は、例えば画像遷移方法及び/又は画像遷移モデルの訓練方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施例において、画像遷移方法及び/又は画像遷移モデルの訓練方法は、例えば記憶ユニット1008のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部または全部は、ROM1002及び/又は通信ユニット1009を介して電子機器1000にロード及び/またはインストールされてもよい。コンピュータプログラムがRAM1003にロードされて演算ユニット1001により実行される場合、上記に記載の画像遷移方法及び/又は画像遷移モデルの訓練方法の1つまたは複数のステップを実行してもよい。代替的に、他の実施例において、演算ユニット1001は、他の任意の適切な方式(例えば、ファームウェアを介する)により画像遷移方法及び/又は画像遷移モデルの訓練方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラムマブルロジックデバイス (CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実施され、当該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び/または解釈されることが可能であり、当該プログラムマブルプロセッサは、専用または汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、且つデータ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよく、それによって、プログラムコードがプロセッサまたはコントローラにより実行される時に、フローチャート及び/またはブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるかまたは完全に遠隔機器またはサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置または機器に使用され、または命令実行システム、装置または機器と組み合わせて使用されるプログラムを含んでまたは記憶してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、または半導体システム、装置または機器、または上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記内容の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且ついかなる形式(音声入力、語音入力、または、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、またはミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェースまたは該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、またはこのようなバックグラウンド部品、ミドルウェア部品、またはフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント?サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、それによって、従来の物理ホストとVPSサービス(“Virtual Private Server”、または“VPS”と略称する)に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決している。サーバは、分散型システムのサーバであってもよく、またはブロックチェーンを組み合わせしたサーバであってもよい。
以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したりまたは削除してもよいと理解されるべきである。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、または異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
Claims (31)
- 第1の対象の目標部位の第1の画像における第1の位置情報と、前記第1の画像とに基づいて、前記第1の対象の第1の属性特徴と、前記目標部位の第1の形状特徴のそれぞれを抽出することと、
第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出することと、
前記第1の属性特徴、前記第1の形状特徴及び前記第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成することと、を含み、
前記第1の遷移画像は、前記第1の属性特徴及び前記第1の形状特徴を有する第2の対象を含む、
画像遷移方法。 - 前記第1の属性特徴は、第1の姿勢特徴と、第1の表情特徴とを含み、
第1の対象の目標部位の第1の画像における第1の位置情報と、前記第1の画像とに基づいて、前記第1の対象の第1の属性特徴と、前記目標部位の第1の形状特徴のそれぞれを抽出することは、
前記第1の位置情報に基づいて、前記第1の画像における前記目標部位に対する目標領域の画像を確定することと、
前記第1の画像に基づいて、前記第1の姿勢特徴を抽出することと、
前記目標領域の画像に基づいて、前記第1の形状特徴を抽出することと、
前記第1の画像において前記目標領域を除く他の領域の画像に基づいて、前記第1の表情特徴を抽出することと、を含む、
請求項1に記載の方法。 - 前記第1の対象を含むテンプレート画像を検出し、前記第1の対象の前記テンプレート画像における第2の位置情報を取得することと、
前記第2の位置情報に基づいて前記テンプレート画像を裁断し、前記第1の画像を取得することと、をさらに含む、
請求項1に記載の方法。 - 前記第2の位置情報に基づいて前記テンプレート画像を裁断し、前記第1の画像を取得することは、
前記第2の位置情報に基づいて前記テンプレート画像を裁断し、中間画像を取得することと、
前記中間画像に対して画像分割処理を行い、前記中間画像における目標対象の第3の位置情報を取得し、前記目標対象は前記第1の対象を含むことと、
前記第3の位置情報に基づいて、前記目標対象に対するマスク画像を生成することと、
前記マスク画像に基づいて前記中間画像における背景画像を除去し、前記第1の画像を取得することと、を含む、
請求項3に記載の方法。 - 第1の対象の目標部位の第1の画像における第1の位置情報と、前記第1の画像とに基づいて、前記第1の対象の第1の属性特徴と、前記目標部位の第1の形状特徴のそれぞれを抽出することは、
前記第1の画像に対してデータ強化処理を行い、強化後画像を取得することと、
前記第1の位置情報及び前記強化後画像に基づいて、前記第1の属性特徴と前記第1の形状特徴のそれぞれを抽出することと、を含む、
請求項1又は2に記載の方法。 - 第1の対象の目標部位の第1の画像における第1の位置情報と、前記第1の画像とに基づいて、前記第1の対象の第1の属性特徴と、前記目標部位の第1の形状特徴のそれぞれを抽出することは、
前記第1の画像に対して正規化処理を行い、第1の正規化画像を取得することと、
前記第1の位置情報及び前記第1の正規化画像に基づいて、前記第1の属性特徴と前記第1の形状特徴のそれぞれを抽出することと、を含む、
請求項1又は2に記載の方法。 - 前記第2の対象を含むソース画像を検出し、前記第2の対象の前記ソース画像における第4の位置情報を取得することと、
前記第4の位置情報に基づいて前記ソース画像を裁断し、前記第2の画像を取得することと、を更に含む、
請求項1に記載の方法。 - 第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出することは、
前記第2の画像に対して正規化処理を行い、第2の正規化画像を取得することと、
符号化ネットワークを用いて前記第2の正規化画像を符号化し、前記第2の対象の第1のアイデンティティ特徴を取得することと、を含む、
請求項1に記載の方法。 - 前記第2の画像は、複数の画像を含み、
第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出することは、
前記複数の画像のそれぞれに含まれる第2の対象のアイデンティティ特徴をそれぞれ抽出し、複数の初期アイデンティティ特徴を取得することと、
前記複数の初期アイデンティティ特徴の平均値特徴を前記第2の対象の第1のアイデンティティ特徴に確定することと、を含む、
請求項1又は8に記載の方法。 - 前記第1の属性特徴、前記第1の形状特徴及び前記第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成することは、
前記第1の属性特徴、前記第1の形状特徴及び前記第1のアイデンティティ特徴を融合し、融合特徴を取得することと、
前記融合特徴を生成ネットワークの入力とし、前記第1の遷移画像を取得することと、を含む、
請求項1に記載の方法。 - 第1の符号化ネットワーク、第2の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練方法であって、
第3の対象の目標部位の第3の画像における第5の位置情報と、前記第3の画像とに基づいて、前記第1の符号化ネットワークを用いて、前記第3の対象の第2の属性特徴と、前記目標部位の第2の形状特徴を抽出することと、
前記第2の符号化ネットワークを用いて、第4の画像に含まれる第3の対象の第2のアイデンティティ特徴を抽出することと、
前記第2の属性特徴、前記第2の形状特徴及び前記第2のアイデンティティ特徴に基づいて、前記生成ネットワークを用いて、前記第2の属性特徴及び前記第2の形状特徴を有する第3の対象を含む第2の遷移画像を生成することと、
前記第2の遷移画像と前記第3の画像との差異に基づいて、前記画像遷移モデルを訓練することと、を含む、
画像遷移モデルの訓練方法。 - 前記第2の属性特徴は、第2の姿勢特徴と、第2の表情特徴とを含み、
前記第1の符号化ネットワークは、第1の符号化サブネットワークと、第2の符号化サブネットワークと、第3の符号化サブネットワークとを含み、
第3の対象の目標部位の第3の画像における第5の位置情報と、前記第3の画像とに基づいて、前記第1の符号化ネットワークを用いて、前記第3の対象の第2の属性特徴と、前記目標部位の第2の形状特徴を抽出することは、
前記第5の位置情報に基づいて、前記第3の画像における前記目標部位に対する目標領域の画像を確定することと、
前記第3の画像に基づいて、前記第1の符号化サブネットワークを用いて前記第2の姿勢特徴を抽出することと、
前記目標領域の画像に基づいて、前記第2の符号化サブネットワークを用いて前記第2の形状特徴を抽出することと、
前記第3の画像において前記目標領域を除く他の領域の画像に基づいて、前記第3の符号化サブネットワークを用いて前記第2の表情特徴を抽出することと、を含む、
請求項11に記載の方法。 - 前記第2の遷移画像と前記第3の画像との差異に基づいて、前記画像遷移モデルを訓練することは、
前記第2の遷移画像と前記第3の画像との間の画素差異に基づいて、前記画像遷移モデルの第1の損失を確定することと、
前記第2の遷移画像と前記第3の画像をそれぞれ判別ネットワークに入力し、前記第2の遷移画像に対する第1の真値確率と前記第3の画像に対する第2の真値確率を取得することと、
前記第2の遷移画像と、前記第3の画像と、前記第1の真値確率と、前記第2の真値確率に基づいて、前記画像遷移モデルの生成対抗損失を確定することと、
前記第1の損失と前記生成対抗損失に基づいて、前記画像遷移モデルを訓練することと、を含む、
請求項11に記載の方法。 - 前記第2の遷移画像と前記第3の画像との差異に基づいて、前記画像遷移モデルを訓練することは、
前記第2の遷移画像と前記第3の画像との特徴抽出ネットワークを経由して抽出された2つの特徴の差異に基づいて、前記画像遷移モデルの第2の損失を確定することと、
前記第1の損失と、前記生成対抗損失と、前記第2の損失とに基づいて、前記画像遷移モデルを訓練することと、を更に含む、
請求項13に記載の方法。 - 第1の対象の目標部位の第1の画像における第1の位置情報と、前記第1の画像とに基づいて、前記第1の対象の第1の属性特徴と、前記目標部位の第1の形状特徴のそれぞれを抽出するための第1の特徴抽出モジュールと、
第2の画像に含まれる第2の対象の第1のアイデンティティ特徴を抽出するための第1のアイデンティティ抽出モジュールと、
前記第1の属性特徴、前記第1の形状特徴及び前記第1のアイデンティティ特徴に基づいて、第1の遷移画像を生成するための第1の画像生成モジュールと、を含み、
前記第1の遷移画像は、前記第1の属性特徴及び前記第1の形状特徴を有する第2の対象を含む、
画像遷移装置。 - 前記第1の属性特徴は、第1の姿勢特徴と、第1の表情特徴とを含み、
前記第1の特徴抽出モジュールは、
前記第1の位置情報に基づいて、前記第1の画像における前記目標部位に対する目標領域の画像を確定するための第1の画像確定サブモジュールと、
前記第1の画像に基づいて、前記第1の姿勢特徴を抽出するための第1の姿勢抽出サブモジュールと、
前記目標領域の画像に基づいて、前記第1の形状特徴を抽出するための第1の形状抽出サブモジュールと、
前記第1の画像において前記目標領域を除く他の領域の画像に基づいて、前記第1の表情特徴を抽出するための第1の表情抽出サブモジュールと、を含む、
請求項15に記載の装置。 - 前記第1の対象を含むテンプレート画像を検出し、前記第1の対象の前記テンプレート画像における第2の位置情報を取得するための第1の画像検出モジュールと、
前記第2の位置情報に基づいて前記テンプレート画像を裁断し、前記第1の画像を取得するための第1の画像裁断モジュールと、をさらに含む、
請求項15に記載の装置。 - 前記画像裁断モジュールは、
前記第2の位置情報に基づいて前記テンプレート画像を裁断し、中間画像を取得するための裁断サブモジュールと、
前記中間画像に対して画像分割処理を行い、前記中間画像における前記第1の対象が含まれる目標対象の第3の位置情報を取得するための分割サブモジュールと、
前記第3の位置情報に基づいて、前記目標対象に対するマスク画像を生成するためのマスク生成サブモジュールと、
前記マスク画像に基づいて前記中間画像における背景画像を除去し、前記第1の画像を取得するための背景除去サブモジュールと、を含む、
請求項17に記載の装置。 - 前記第1の特徴抽出モジュールは、
前記第1の画像に対してデータ強化処理を行い、強化後画像を取得するための画像強化サブモジュールと、
前記第1の位置情報及び前記強化後画像に基づいて、前記第1の属性特徴と前記第1の形状特徴のそれぞれを抽出するための特徴抽出サブモジュールと、を含む、
請求項15又は16に記載の装置。 - 前記第1の特徴抽出モジュールは、
前記第1の画像に対して正規化処理を行い、第1の正規化画像を取得するための第1の正規化サブモジュールと、
前記第1の位置情報及び前記第1の正規化画像に基づいて、前記第1の属性特徴と前記第1の形状特徴のそれぞれを抽出するための特徴抽出サブモジュールと、を含む、
請求項15又は16に記載の装置。 - 前記第2の対象を含むソース画像を検出し、前記第2の対象の前記ソース画像における第4の位置情報を取得するための第2の画像検出モジュールと、
前記第4の位置情報に基づいて前記ソース画像を裁断し、前記第2の画像を取得するための第2の画像裁断モジュールと、を更に含む、
請求項15に記載の装置。 - 前記第1のアイデンティティ抽出モジュールは、
前記第2の画像に対して正規化処理を行い、第2の正規化画像を取得するための第2の正規化サブモジュールと、
符号化ネットワークを用いて前記第2の正規化画像を符号化し、前記第2の対象の第1のアイデンティティ特徴を取得するためのアイデンティティ抽出サブモジュールと、を含む、
請求項15に記載の装置。 - 前記第1のアイデンティティ抽出モジュールは、
前記複数の画像のそれぞれに含まれる第2の対象のアイデンティティ特徴をそれぞれ抽出し、複数の初期アイデンティティ特徴を取得し、および、
前記複数の初期アイデンティティ特徴の平均値特徴を前記第2の対象の第1のアイデンティティ特徴に確定するために用いられる、
請求項15又は22に記載の装置。 - 前記第1の画像生成モジュールは、
前記第1の属性特徴、前記第1の形状特徴及び前記第1のアイデンティティ特徴を融合し、融合特徴を取得するための特徴融合サブモジュールと、
前記融合特徴を生成ネットワークの入力とし、前記第1の遷移画像を取得するための画像生成サブモジュールと、を含む、
請求項15に記載の装置。 - 第1の符号化ネットワーク、第2の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練装置であって、
第3の対象の目標部位の第3の画像における第5の位置情報と、前記第3の画像とに基づいて、前記第1の符号化ネットワークを用いて、前記第3の対象の第2の属性特徴と、前記目標部位の第2の形状特徴を抽出するための第2の特徴抽出モジュールと、
前記第2の符号化ネットワークを用いて、第4の画像に含まれる第3の対象の第2のアイデンティティ特徴を抽出するための第2のアイデンティティ抽出モジュールと、
前記第2の属性特徴、前記第2の形状特徴及び前記第2のアイデンティティ特徴に基づいて、前記生成ネットワークを用いて、前記第2の属性特徴及び前記第2の形状特徴を有する第3の対象を含む第2の遷移画像を生成するための第2の画像生成モジュールと、
前記第2の遷移画像と前記第3の画像との差異に基づいて、前記画像遷移モデルを訓練するためのモデル訓練モジュールと、を含む、
画像遷移モデルの訓練装置。 - 前記第2の属性特徴は、第2の姿勢特徴と、第2の表情特徴とを含み、
前記第2の特徴抽出モジュールは、
前記第5の位置情報に基づいて、前記第3の画像における前記目標部位に対する目標領域の画像を確定するための第2の画像確定サブモジュールと、
前記第3の画像に基づいて、前記第1の符号化サブネットワークを用いて前記第2の姿勢特徴を抽出するための第2の姿勢抽出サブモジュールと、
前記目標領域の画像に基づいて、前記第2の符号化サブネットワークを用いて前記第2の形状特徴を抽出するための第2の形状抽出サブモジュールと、
前記第3の画像において前記目標領域を除く他の領域の画像に基づいて、前記第3の符号化サブネットワークを用いて前記第2の表情特徴を抽出するための第2の表情抽出サブモジュールと、を含む、
請求項25に記載の装置。 - 前記モデル訓練モジュールは、
前記第2の遷移画像と前記第3の画像との間の画素レベルの差異に基づいて、前記画像遷移モデルの第1の損失を確定するための第1の損失確定サブモジュールと、
前記第2の遷移画像と前記第3の画像をそれぞれ判別ネットワークに入力し、前記第2の遷移画像に対する第1の真値確率と前記第3の画像に対する第2の真値確率を取得するための真値確率確定サブモジュールと、
前記第2の遷移画像と、前記第3の画像と、前記第1の真値確率と、前記第2の真値確率に基づいて、前記画像遷移モデルの生成対抗損失を確定するための第2の損失確定サブモジュールと、
前記第1の損失と前記生成対抗損失に基づいて、前記画像遷移モデルを訓練するためのモデル訓練サブモジュールと、を含む、
請求項25に記載の装置。 - 前記モデル訓練モジュールは、
前記第2の遷移画像と前記第3の画像との特徴抽出ネットワークを経由して抽出された2つの特徴の差異に基づいて、前記画像遷移モデルの第2の損失を確定するための第3の損失確定サブモジュールと、
前記第1の損失と、前記生成対抗損失と、前記第2の損失とに基づいて、前記画像遷移モデルを訓練するための前記モデル訓練サブモジュールと、を更に含む、
請求項27に記載の装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記少なくとも1つのプロセッサが請求項1~14のいずれか一項に記載の方法を実行するように前記命令が前記少なくとも1つのプロセッサによって実行される、
電子機器。 - コンピュータに請求項1~14のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶している、
非一時的なコンピュータ可読記憶媒体。 - プロセッサにより実行される場合に、請求項1~14のいずれか一項に記載の方法を実現するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111502659.3 | 2021-12-09 | ||
CN202111502659.3A CN114140320B (zh) | 2021-12-09 | 2021-12-09 | 图像迁移方法和图像迁移模型的训练方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023027782A true JP2023027782A (ja) | 2023-03-02 |
Family
ID=80385497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022174100A Pending JP2023027782A (ja) | 2021-12-09 | 2022-10-31 | 画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230115765A1 (ja) |
EP (1) | EP4123605A3 (ja) |
JP (1) | JP2023027782A (ja) |
CN (1) | CN114140320B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229379B (zh) * | 2023-05-06 | 2024-02-02 | 浙江大华技术股份有限公司 | 一种道路属性识别方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084121A (zh) * | 2019-03-27 | 2019-08-02 | 南京邮电大学 | 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法 |
RU2755396C1 (ru) * | 2020-06-09 | 2021-09-15 | Самсунг Электроникс Ко., Лтд. | Нейросетевой перенос выражения лица и позы головы с использованием скрытых дескрипторов позы |
CN111598977B (zh) * | 2020-05-21 | 2021-01-29 | 北京中科深智科技有限公司 | 一种表情迁移并动画化的方法及系统 |
CN111783603A (zh) * | 2020-06-24 | 2020-10-16 | 有半岛(北京)信息科技有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
CN113361387A (zh) * | 2021-06-03 | 2021-09-07 | 湖南快乐阳光互动娱乐传媒有限公司 | 人脸图像融合方法及装置、存储介质及电子设备 |
CN113344777B (zh) * | 2021-08-02 | 2021-10-15 | 中国科学院自动化研究所 | 基于三维人脸分解的换脸与重演方法及装置 |
-
2021
- 2021-12-09 CN CN202111502659.3A patent/CN114140320B/zh active Active
-
2022
- 2022-10-31 JP JP2022174100A patent/JP2023027782A/ja active Pending
- 2022-11-30 US US18/072,295 patent/US20230115765A1/en not_active Abandoned
- 2022-12-07 EP EP22211921.6A patent/EP4123605A3/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN114140320B (zh) | 2023-09-01 |
EP4123605A3 (en) | 2023-07-12 |
US20230115765A1 (en) | 2023-04-13 |
CN114140320A (zh) | 2022-03-04 |
EP4123605A2 (en) | 2023-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4002198A1 (en) | Posture acquisition method and device, and key point coordinate positioning model training method and device | |
CN112017189A (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
Jiang et al. | Dual attention mobdensenet (damdnet) for robust 3d face alignment | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
US20220358675A1 (en) | Method for training model, method for processing video, device and storage medium | |
WO2022227765A1 (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
WO2023050868A1 (zh) | 融合模型的训练方法、图像融合方法、装置、设备及介质 | |
CN113591566A (zh) | 图像识别模型的训练方法、装置、电子设备和存储介质 | |
CN113221771B (zh) | 活体人脸识别方法、装置、设备、存储介质及程序产品 | |
US20220130139A1 (en) | Image processing method and apparatus, electronic device and storage medium | |
JP2023530796A (ja) | 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN113962845B (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
JP2023027782A (ja) | 画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN115222895B (zh) | 图像生成方法、装置、设备以及存储介质 | |
US20220392251A1 (en) | Method and apparatus for generating object model, electronic device and storage medium | |
CN116994319A (zh) | 训练模型的方法和人脸识别方法、设备、介质 | |
Sun et al. | Silp-autoencoder for face de-occlusion | |
Wang et al. | Convolution-Based Design for Real-Time Pose Recognition and Character Animation Generation | |
CN114862716A (zh) | 人脸图像的图像增强方法、装置、设备及存储介质 | |
CN114187318A (zh) | 图像分割的方法、装置、电子设备以及存储介质 | |
Nguyen et al. | Facial Landmark Detection with Learnable Connectivity Graph Convolutional Network | |
CN115147526B (zh) | 服饰生成模型的训练、生成服饰图像的方法和装置 | |
Deng et al. | Deformable feature interaction network and graph structure reasoning for 3D dense alignment and face reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221031 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |