JP2024004444A - 3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置 - Google Patents
3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置 Download PDFInfo
- Publication number
- JP2024004444A JP2024004444A JP2023029589A JP2023029589A JP2024004444A JP 2024004444 A JP2024004444 A JP 2024004444A JP 2023029589 A JP2023029589 A JP 2023029589A JP 2023029589 A JP2023029589 A JP 2023029589A JP 2024004444 A JP2024004444 A JP 2024004444A
- Authority
- JP
- Japan
- Prior art keywords
- face
- image
- stylized
- dimensional
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000010586 diagram Methods 0.000 claims abstract description 209
- 230000009466 transformation Effects 0.000 claims abstract description 71
- 238000009877 rendering Methods 0.000 claims abstract description 25
- 230000001815 facial effect Effects 0.000 claims description 357
- 238000012545 processing Methods 0.000 claims description 87
- 238000013519 translation Methods 0.000 claims description 14
- 238000011161 development Methods 0.000 claims description 13
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000018109 developmental process Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000008921 facial expression Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010004950 Birth mark Diseases 0.000 description 2
- 208000032544 Cicatrix Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 231100000241 scar Toxicity 0.000 description 2
- 230000037387 scars Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/02—Non-photorealistic rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/40—Hidden part removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2004—Aligning objects, relative positioning of parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2012—Colour editing, changing, or manipulating; Use of colour codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
- Image Generation (AREA)
Abstract
【課題】本開示は、3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置を提供する。【解決手段】具体的な実現態様は、取得したサンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、取得したサンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定し、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。【選択図】図1
Description
本開示は、人工知能の技術分野に関し、特に、拡張現実、仮想現実、コンピュータビジョン及びディープラーニングなどの技術分野に関し、メタバースなどのシーンに応用可能であり、具体的には、3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置に関する。
人工知能技術の持続的な発展に伴い、3次元顔再構成技術が台頭してきている。2次元顔画像に比べて、3次元顔イメージは、より豊かな個性化特徴を持ち、重要な研究意義及び応用見通しがある。多様化する人々のニーズを満たすために、異スタイルの3次元顔再構成が提案されている。異スタイルのシーンにおいて、如何に3次元顔再構成を低コストで精確に実現するかは、極めて重要になっている。
本開示は、3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置を提供する。
本開示の一側面によれば、
サンプル顔画像、及び前記サンプル顔画像のスタイル化顔図を取得することと、
前記サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得ることと、
前記サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の3次元スタイル化顔イメージを決定することと、
前記座標変換パラメータに基づいて、前記サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることと、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデルに対してトレーニングを行うことと、を含む3次元顔再構成モデルトレーニング方法を提供する。
サンプル顔画像、及び前記サンプル顔画像のスタイル化顔図を取得することと、
前記サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得ることと、
前記サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の3次元スタイル化顔イメージを決定することと、
前記座標変換パラメータに基づいて、前記サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることと、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデルに対してトレーニングを行うことと、を含む3次元顔再構成モデルトレーニング方法を提供する。
本開示の他の側面によれば、
目標顔画像、及び前記目標顔画像のスタイル化顔図を取得することと、
前記目標顔画像を3次元顔再構成モデルに入力し、前記目標顔画像における顔パラメータを得て、ここで、前記3次元顔再構成モデルは本開示の実施例のいずれかに記載の3次元顔再構成モデルトレーニング方法に基づいてトレーニングして得られることと、
前記目標顔画像における顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の3次元スタイル化顔イメージを決定することと、含む3次元顔イメージ生成方法を提供する。
目標顔画像、及び前記目標顔画像のスタイル化顔図を取得することと、
前記目標顔画像を3次元顔再構成モデルに入力し、前記目標顔画像における顔パラメータを得て、ここで、前記3次元顔再構成モデルは本開示の実施例のいずれかに記載の3次元顔再構成モデルトレーニング方法に基づいてトレーニングして得られることと、
前記目標顔画像における顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の3次元スタイル化顔イメージを決定することと、含む3次元顔イメージ生成方法を提供する。
本開示の他の側面によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示のいずれかの実施例に記載の3次元顔再構成モデルトレーニング方法、もしくは3次元顔イメージ生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、電子機器を提供する。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本開示のいずれかの実施例に記載の3次元顔再構成モデルトレーニング方法、もしくは3次元顔イメージ生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、電子機器を提供する。
本開示の他の側面によれば、コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供し、ここで、前記コンピュータ命令は、コンピュータに本開示のいずれかの実施例に記載の3次元顔再構成モデルトレーニング方法、もしくは3次元顔イメージ生成方法を実行させることに用いられる。
本開示の技術によれば、3次元スタイル化顔イメージを精確に構築することができる。
本部分で説明された内容は、本開示の実施例の核心的又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することに用いられるものでもないことを理解すべきである。本開示の他の特徴は、以下の明細書によって理解しやすくなる。
図面は、本態様をよりよく理解するために使用され、本開示を限定するものではない。
以下、図面を参照しながら、本開示の例示的な実施例について説明する。理解を容易にするために、ここには本開示の実施例の様々な詳細が含まれるが、これらは例示的なものに過ぎないとみなされるべきである。したがって、当業者であれば、本明細書に説明される実施例は、本開示の範囲及び精神から逸脱することなく、様々な変更及び修正が可能であることを認識すべきである。同様に、明確化及び簡潔化のために、以下の説明では公知の機能及び構造に対する説明は省略する。
なお、本開示の技術態様において、関連するサンプル顔画像、目標顔画像及びスタイル化顔図などの収集、記憶、使用、加工、伝送、提供及び開示などの処理は、いずれも関連する法律及び法規の規定に合致し、且つ公序良俗に反しない。
図1は、本開示の実施例に係る1つの3次元顔再構成モデルトレーニング方法のフローチャートである。本実施例は、如何に3次元顔再構成モデルに対してトレーニングを行うかという場合に適用される。該方法は、3次元顔再構成モデルトレーニング装置により実行可能であり、該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現可能であり、且つ3次元顔再構成モデルのトレーニング機能を担う電子機器、例えばサーバに集積可能である。図1に示すように、本実施例の3次元顔再構成モデルトレーニング方法は、以下を含んでもよい。
S101において、サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得する。
本実施例において、サンプル顔画像とは、顔を含む画像である。スタイル化顔図とは、サンプル顔図に対応する異スタイルの顔画像、例えばアニメスタイルの顔図などである。
具体的には、サンプル顔画像のスタイル化顔図を取得するために、インターネットなどからサンプル顔画像を取得し、サンプル顔画像に対して異スタイル化処理を行うことができる。好ましくは、異スタイル化生成モデルに基づいて、サンプル顔画像に対して異スタイル化処理を行ってもよい。
S102において、サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る。
本実施例において、3次元顔再構成モデルは即ち、3次元顔イメージに必要なパラメータを回帰再構成するなどのタスクを実行するためのモデルであり、好ましくは、本実施例における3次元顔再構成モデルは好適に、残差ネットワークresnetであってもよい。
座標変換パラメータとは、3次元顔イメージをカメラ座標系に変換する変換パラメータであり、平行移動変換パラメータ及び拡縮変換パラメータを含んでもよいし、さらに、回転変換パラメータを含んでもよい。サンプル顔画像における顔パラメータとは即ち、3次元顔イメージの幾何パラメータであり、顔形状パラメータを含んでもよく、さらに、サンプル顔画像における顔パラメータは、顔表情パラメータも含んでもよい。
好ましくは、サンプル顔画像を3次元顔再構成モデルに入力し、モデル処理を経て、座標変換パラメータ及びサンプル顔画像の顔パラメータを得てもよい。
S103において、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定する。
本実施例において、3次元スタイル化顔イメージとは、3次元の異スタイルの顔アバターである。
好ましくは、3次元スタイル化顔イメージの生成論理に基づいて、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを生成する。例えば、サンプル顔画像の顔パラメータ及びスタイル化顔図を、予めトレーニング済みの3次元スタイル化モデルに入力し、該3次元スタイル化モデルによりサンプル顔画像の3次元スタイル化顔イメージを出力することができる。
S104において、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。
本実施例において、カメラ座標系は、3次元スタイル化顔イメージが所在する座標系と異なり、微分可能レンダラーが所在する座標系である。レンダリング図とは、3次元スタイル化顔イメージがカメラ座標系内に投影された2次元画像である。
好ましくは、平行移動変換パラメータ、拡縮変換パラメータ及び回転変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、予め設定済みのカメラ視野角を採用し、微分可能レンダラーにおけるパラメータに対して調整を行って、変換後の3次元スタイル化顔イメージを微分可能レンダラーに入力し、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得てもよい。
S105において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。
好ましくは、予め設定された損失関数に基づいて、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、トレーニング損失を決定し、その後、トレーニング損失に応じて3次元顔再構成モデルに対してトレーニングを行い、絶えず3次元顔再構成モデルにおけるネットワークパラメータを最適化してもよい。具体的には、本実施例は、上記方法に基づいて3次元顔再構成モデルに対して複数回の反復トレーニングを、予め設定されたトレーニング停止条件に達するまで行い、そして、3次元顔再構成モデルのネットワークパラメータの調整を停止し、トレーニングを経た3次元顔再構成モデルを得ることができる。トレーニング停止条件は、トレーニング回数が予め設定された回数に達すること、もしくはトレーニング損失が収束することなどを含んでもよい。
本開示の実施例に係る技術態様は、取得したサンプル顔画像を3次元顔再構成モデルに入力することで、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像の顔パラメータ及び取得したサンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定し、その後、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、さらに、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、異スタイルの3次元顔再構成のシーンにおいて、顔キーポイントのマーキングを行う必要がなく、サンプル顔画像及びスタイル化顔図によれば、3次元顔再構成モデルをトレーニングすることができ、サンプルのマーキングコストを低減する。さらに、異スタイルのシーンにおいて、本態様によってトレーニングされた3次元顔再構成モデルに基づいて、3次元顔の構築に必要なデータを精確に取得することができ、これにより、3次元スタイル化顔イメージを精確に構築することができる。
上記実施例を基に、本開示の1つの好ましい形態として、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行うことはさらに、サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出し、レンダリング図の背景色に応じて、スタイル化顔領域の背景色に対して調整を行い、レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、画像対照損失に応じて、3次元顔再構成モデルに対してトレーニングを行うものであってもよい。
具体的には、画像分割アルゴリズムに基づいて、スタイル化顔領域が抽出されるようにサンプル顔画像のスタイル化顔図に対して分割処理を行い、その後、スタイル化顔領域の背景色をレンダリング図の背景色に調整することができる。さらに、予め設定済みの損失関数に基づいて、レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、もしくは、レンダリング図と調整後のスタイル化顔領域との間の類似度を決定し、類似度を画像対照損失とすることができる。最後に、画像対照損失に応じて、3次元顔再構成モデルに対してトレーニングを行う。
スタイル化顔領域の背景色を、レンダリング図の背景色と一致するように調整することで、背景の干渉を解消し、決定した画像対照損失をより精確にし、これにより、3次元顔再構成モデルがより精確且つ有効的にトレーニングされることを可能にすることを理解できる。
図2Aは、本開示の実施例に係る他の3次元顔再構成モデルトレーニング方法のフローチャートである。図2Bは、本開示の実施例に係る1つのスタイル化顔図を取得する過程の模式図である。本実施例は上記実施例を基に、「サンプル顔画像のスタイル化顔図を取得する」ことに対してさらに最適化し、1つの好ましい実施態様を提供する。図2A及び2Bに示すものを参照し、本実施例の3次元顔再構成モデルトレーニング方法は、以下を含んでもよい。
S201において、サンプル顔画像を取得する。
S202において、スタイル化エンコーダネットワークからスタイル化特徴を抽出する。
本実施例において、スタイル化エンコーダネットワークは、スタイル化モデルにおけるエンコーダネットワークであってもよく、好ましくは、スタイル化モデルは、スタイル化エンコーダネットワークとスタイル化デコーダネットワークとで構築され、スタイル化モデルに対するトレーニング段階において、1枚の顔画像を入力し、該スタイル化モデルが該1枚の顔画像に対応するスタイル化顔図を出力し、さらに、スタイル化モデルのトレーニングが済んだ後に、スタイル化エンコーダネットワークは、固定のスタイル化特徴を出力することができる。スタイル化特徴とは、特定のスタイルを有する特徴である。
さらに、スタイル化エンコーダネットワーク及びスタイル化デコーダネットワークは、畳み込みニューラルネットワークであってもよく、またさらに、本実施例におけるスタイル化エンコーダネットワークは、18個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、各畳み込み層は1つの1*512の特徴ベクトルを出力することができ、つまり、スタイル化エンコーダネットワークから抽出したスタイル化特徴は1つの18*(1*512)の特徴ベクトルであってもよい。
S203において、サンプル顔画像を顔復元エンコーダネットワークに入力し、サンプル顔画像の顔特徴を得る。
本実施例において、顔復元エンコーダネットワークは、顔復元モデルにおけるエンコーダネットワークであってもよく、好ましくは、顔復元モデルは、顔復元エンコーダネットワークと顔復元デコーダネットワークとで構成され、1枚の顔画像を顔復元モデルに入力し、該顔復元モデルが入力された顔画像に極めて類似する顔画像を出力する。
さらに、顔復元エンコーダネットワークとは、顔画像の顔特徴を抽出するためのエンコーダネットワークである。顔特徴とは、リアルな顔における固有の特徴であり、顔形状、五官、肌色、あざ及び瘢痕などの特徴を含んでもよいが、これらに限定されない。
さらに、顔復元エンコーダネットワーク及び顔復元デコーダネットワークは、畳み込みニューラルネットワークであってもよく、またさらに、本実施例における顔復元エンコーダネットワークは、18個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、各畳み込み層は1つの1*512の特徴ベクトルを出力することができ、つまり、顔復元エンコーダネットワークから抽出した顔特徴は1つの18*(1*512)の特徴ベクトルであってもよい。
具体的には、サンプル顔画像を復元エンコーダネットワークに入力し、ネットワークの処理を経て、サンプル顔画像の顔特徴を得ることができる。
S204において、スタイル図生成ネットワークに基づいて、スタイル化特徴及びサンプル顔画像の顔特徴に応じて、サンプル顔画像のスタイル化顔図を生成する。
本実施例において、スタイル図生成ネットワークとは、スタイル化顔図を生成するデコーダネットワークであり、好ましくは、スタイル図生成ネットワークの初期入力は、1つのランダム値であってもよく、スタイル化特徴及びサンプル顔画像の顔特徴は、スタイル図生成ネットワークにおける各層に作用することができ、具体的には、スタイル化特徴及び顔特徴を同じ層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける対応する層に共同で作用させ、例えばスタイル化特徴を3番目の層が出力した特徴ベクトルに位置させて顔特徴を3番目の層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける3番目の層に共同で作用させる。
さらに、スタイル化特徴及び顔特徴のスタイル図生成ネットワークにおける各層での重み付けを調整することで、スタイル化顔図のスタイル化程度を制御することができる。
例示的に、本実施例におけるスタイル図生成ネットワークは、18個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、1~7層はスタイル化特徴に注目し、8~18層はサンプル顔画像のリアルな顔の情報により注目している。つまり、1~7層で、スタイル化特徴の重み付け比率が顔特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔図と大きく異なり、8~18層で、顔特徴の重み付け比率がスタイル化特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔画像により似ていることになる。
具体的には、スタイル化特徴及びサンプル顔画像の顔特徴をスタイル図生成ネットワークに入力し、ネットワークの処理を経て、サンプル顔画像のスタイル化顔図を得ることができる。
S205において、サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る。
ここで、サンプル顔画像における顔パラメータは少なくとも、顔形状パラメータを含む。
S206において、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定する。
S207において、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。
S208において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。
本開示の実施例に係る技術態様は、スタイル化エンコーダネットワークからスタイル化特徴を抽出するとともに、取得したサンプル顔画像を顔復元エンコーダネットワークに入力することで、サンプル顔画像の顔特徴を得て、スタイル図生成ネットワークに基づいて、スタイル化特徴及びサンプル顔画像の顔特徴に応じて、サンプル顔画像のスタイル化顔図を生成し、その後、サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定し、さらに、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、最後に、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、スタイル図生成ネットワークによりサンプル顔画像のスタイル化顔図を決定することで、サンプル顔画像のスタイル化顔図のスタイル化程度を制御可能にすることができる。
例示的に、上記実施例を基に、サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを得る1つの好ましい形態は、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築し、サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得るものである。
本実施例において、3次元顔イメージとは、顔の3次元アバターである。
好ましくは、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築する1つの好ましい形態は、サンプル顔画像における顔パラメータの顔形状パラメータを、予め定義された形状ベース(即ち、3次元特徴ベクトル)に線形加算して、サンプル顔画像の3次元顔イメージを得るものである。
サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築する別の好ましい形態は、サンプル顔画像における顔パラメータの顔形状パラメータ及び顔表情パラメータを、予め定義済みの形状表情ベースに線形加算して、サンプル顔画像の3次元顔イメージを得るものである。
サンプル顔画像の3次元顔イメージが取得された後に、サンプル顔画像の3次元顔イメージにサンプル顔画像のスタイル化顔図を表示させることができ、即ち、サンプル顔画像の3次元スタイル化顔イメージを得ることができる。
本態様は、3次元スタイル化顔イメージを構築する好ましい形態を提供し、後続のモデルのトレーニングのためにデータのサポートを提供することを理解できる。
図3は、本開示の実施例に係る更なる3次元顔再構成モデルトレーニング方法のフローチャートである。本実施例は上記実施例を基に、「サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得る」ことに対してさらに最適化し、1つの好ましい実施態様を提供する。図3に示すように、本実施例の3次元顔再構成モデルトレーニング方法は、以下を含んでもよい。
S301において、サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得する。
S302において、サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る。
ここで、サンプル顔画像における顔パラメータは少なくとも、顔形状パラメータを含む。
S303において、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築する。
S304において、サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得る。
本実施例において、テクスチャマップとは、2次元座標系における画像であり、具体的にテクスチャ座標(即ち、UV)における画像であってもよい。初期テクスチャマップとは、初期に得られた後処理を経ていないテクスチャマップである。
具体的には、設定されたテクスチャ展開論理に基づいて、サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得ることができる。
S305において、マップ回帰ネットワークに基づいて、初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、目標テクスチャマップを得る。
本実施例において、マップ回帰ネットワークは予めトレーニング済みの、初期テクスチャマップに対して処理を行うための畳み込みニューラルネットワークであってもよい。目標テクスチャマップとは、処理を経た後のテクスチャマップである。
具体的には、初期テクスチャマップをマップ回帰ネットワークに入力し、初期テクスチャマップに対して処理、例えば遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、目標テクスチャマップを得ることができる。
S306において、目標テクスチャマップに応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得る。
具体的には、3次元顔イメージとテクスチャ座標マップ(即ち、UVマップ)との間のマッピング関係に基づいて、目標テクスチャマップにおける画素点の色値(例えばRGB値)を、サンプル顔画像の3次元顔イメージにおける対応する頂点に与えて、サンプル顔画像の3次元スタイル化顔イメージを得ることができる。目標テクスチャマップをサンプル顔画像の3次元顔イメージに被覆し、サンプル顔画像の3次元スタイル化顔イメージを得ると理解されてもよい。
S307において、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。
S308において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。
本開示の実施例に係る技術態様は、取得したサンプル顔画像を3次元顔再構成モデルに入力することで、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築し、その後、取得したサンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得て、マップ回帰ネットワークに基づいて、初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、目標テクスチャマップを得て、目標テクスチャマップに応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得て、さらに、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、最後に、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、マップ回帰ネットワークにより初期テクスチャマップに対して処理を行うことで、遮蔽、ハイライトもしくは顔位置姿勢ずれによる3次元スタイル化顔イメージを決定する時への干渉を避け、決定された3次元スタイル化顔イメージをより精確にする。
上記実施例を基に、本開示の1つの好ましい形態として、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行うことはさらに、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行うものであってもよい。
具体的には、設定された損失関数に基づいて、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、トレーニング損失を決定し、その後、トレーニング損失に基づいて3次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行い、絶えず3次元顔再構成モデルのパラメータ、及びマップ回帰ネットワークのパラメータを最適化することができる。
3次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行い、絶えずマップ回帰ネットワーク及び3次元顔再構成モデルを最適化することで、3次元顔再構成モデルの精度をより高くすることを理解できる。
図4Aは、本開示の実施例に係るさらに他の3次元顔再構成モデルトレーニング方法のフローチャートである。図4Bは、本開示の実施例に係る1つの3次元顔再構成モデルのトレーニング過程の模式図である。本実施例は上記実施例を基に、それぞれ「サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得る」ことと「座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る」ことに対してさらに最適化し、1つの好ましい実施態様を提供する。図4A及び4Bに示すものを参照し、本実施例の3次元顔再構成モデルトレーニング方法は、以下を含んでもよい。
S401において、サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得する。
S402において、サンプル顔画像を3次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得る。
本実施例において、オイラー角は即ち、人の頭の向き角度である。
具体的には、座標変換パラメータが回転パラメータを含まない場合に、サンプル顔画像を3次元顔再構成モデルに入力し、モデル処理を経て、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得ることができる。
S403において、サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定する。
S404において、平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系にアフィン変換する。
具体的には、平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系にアフィン変換することができる。
S405において、カメラ視野角及びオイラー角に基づいて、アフィン変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得る。
具体的には、カメラ視野角及びオイラー角を採用して微分可能レンダラーにおけるパラメータに対して調整を行い、その後、アフィン変換後の3次元スタイル化顔イメージを微分可能レンダラーに入力してレンダリングを行い、レンダリング図を得てもよい。
S406において、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。
具体的には、予め設定された損失関数に基づいて、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、トレーニング損失を決定し、その後、トレーニング損失に応じて3次元顔再構成モデルに対してトレーニングを行い、絶えず3次元顔再構成モデルにおけるネットワークパラメータを最適化してもよい。
本開示の実施例に係る技術態様は、取得したサンプル顔画像を3次元顔再構成モデルに入力することで、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得て、サンプル顔画像における顔パラメータ及び取得したサンプル顔画像のスタイル化顔図に基づいて、サンプル顔画像の3次元スタイル化顔イメージを決定し、さらに、平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系にアフィン変換し、カメラ視野角及びオイラー角に基づいて、アフィン変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、最後に、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、カメラ変換パラメータが回転パラメータを含まない場合に、さらに、3次元顔再構成モデルにより、オイラー角を得ることができ、これにより、レンダリング図をより精確に決定することができる。
図5は、本開示の実施例に係る1つの3次元顔イメージ生成方法のフローチャートである。本実施例は、如何に3次元顔イメージを生成するかという場合に適用される。該方法は、3次元顔イメージ生成装置により実行可能であり、該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現可能であり、且つ3次元顔イメージ生成機能を担う電子機器、例えばサーバに集積可能である。図5に示すように、本実施例の3次元顔イメージ生成方法は、以下を含んでもよい。
S501において、目標顔画像、及び目標顔画像のスタイル化顔図を取得する。
本実施例において、目標顔画像とは、3次元スタイル化を行う必要がある顔画像である。
具体的には、ヒューマンコンピュータインタラクションインターフェイス、特定のアプリ、もしくはアプレットにより、目標顔画像を取得し、目標顔画像に対して異スタイル化処理を行って、目標顔画像のスタイル化顔図を取得することができる。好ましくは、異スタイル生成モデルに基づいて、目標顔画像に対して異スタイル化処理を行ってもよい。
S502において、目標顔画像を3次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得る。
本実施例において、3次元顔再構成モデルは、上記のいずれかの実施例に係る3次元顔再構成モデルトレーニング方法に基づいてレーニングして得られる。目標顔画像における顔パラメータとは即ち、目標顔画像における顔の3次元顔イメージの再構成に必要な幾何パラメータであり、顔形状パラメータを含んでもよく、さらに、目標顔画像における顔パラメータは、顔表情パラメータも含む。
好ましくは、目標顔画像を3次元顔再構成モデルに入力し、モデル処理を経て、目標顔画像における顔パラメータを得てもよい。
S503において、目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを決定する。
本実施例において、3次元スタイル化顔イメージとは、3次元の異スタイルの顔アバターである。
好ましくは、3次元スタイル化顔イメージの生成論理に基づいて、目標顔画像の顔パラメータ及びスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを生成する。例えば、目標顔画像の顔パラメータ及びスタイル化顔図を、予めトレーニング済みの3次元スタイル化モデルに入力し、該3次元スタイル化モデルにより目標顔画像の3次元スタイル化顔イメージを出力することができる。
本開示の実施例に係る技術態様は、取得した目標顔画像を3次元顔再構成モデルに入力することで、目標顔画像における顔パラメータを得て、その後、目標顔画像における顔パラメータ及び取得した目標顔画像のスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを決定する。上記技術態様は、異スタイルのシーンにおいて、3次元顔再構成モデルにより、3次元スタイル化顔イメージを精確に構築することができる。
図6は、本開示の実施例に係る他の3次元顔イメージ生成方法のフローチャートである。本実施例は上記実施例を基に、「目標顔画像のスタイル化顔図を取得する」ことに対してさらに最適化し、1つの好ましい実施態様を提供する。図6に示すように、本実施例の3次元顔イメージ生成方法は、以下を含んでもよい。
S601において、目標顔画像を取得する。
S602において、スタイル化エンコーダネットワークからスタイル化特徴を抽出する。
本実施例において、スタイル化エンコーダネットワークは、スタイル化モデルにおけるエンコーダネットワークであってもよく、好ましくは、スタイル化モデルは、スタイル化エンコーダネットワークとスタイル化デコーダネットワークとで構築され、スタイル化モデルに対するトレーニング段階において、1枚の顔画像を入力し、該スタイル化モデルが該1枚の顔画像に対応するスタイル化顔図を出力し、さらに、スタイル化モデルのトレーニングが済んだ後に、スタイル化エンコーダネットワークが、固定のスタイル化特徴を出力することができる。スタイル化特徴とは、特定のスタイルを有する特徴である。
さらに、スタイル化エンコーダネットワーク及びスタイル化デコーダネットワークは、畳み込みニューラルネットワークであってもよく、またさらに、本実施例におけるスタイル化エンコーダネットワークは、18個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、各畳み込み層は1つの1*512の特徴ベクトルを出力することができ、つまり、スタイル化エンコーダネットワークから抽出したスタイル化特徴は1つの18*(1*512)の特徴ベクトルであってもよい。
S603において、目標顔画像を顔復元エンコーダネットワークに入力し、目標顔画像の顔特徴を得る。
本実施例において、顔復元エンコーダネットワークは、顔復元モデルにおけるエンコーダネットワークであってもよく、好ましくは、顔復元モデルは、顔復元エンコーダネットワークと顔復元デコーダネットワークとで構成され、1枚の顔画像を顔復元モデルに入力し、該顔復元モデルが入力された顔画像に極めて類似する顔画像を出力する。
さらに、顔復元エンコーダネットワークとは、顔画像の顔特徴を抽出するためのエンコーダネットワークである。顔特徴とは、リアルな顔における固有の特徴であり、顔形状、五官、肌色、あざ及び瘢痕などの特徴を含んでもよいが、これらに限定されない。
さらに、顔復元エンコーダネットワーク及び顔復元デコーダネットワークは、畳み込みニューラルネットワークであってもよく、またさらに、本実施例における顔復元エンコーダネットワークは、18個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、各畳み込み層は1つの1*512の特徴ベクトルを出力することができ、つまり、顔復元エンコーダネットワークから抽出した顔特徴は1つの18*(1*512)の特徴ベクトルであってもよい。
具体的には、目標顔画像を復元エンコーダネットワークに入力し、ネットワークの処理を経て、目標顔画像の顔特徴を得ることができる。
S604において、スタイル図生成ネットワークに基づいて、スタイル化特徴及び目標顔画像の顔特徴に応じて、目標顔画像のスタイル化顔図を生成する。
本実施例において、スタイル図生成ネットワークとは、スタイル化顔図を生成するデコーダネットワークであり、好ましくは、スタイル図生成ネットワークの初期入力は、1つのランダム値であってもよく、スタイル化特徴及び目標顔画像の顔特徴は、スタイル図生成ネットワークにおける各層に作用することができ、具体的には、スタイル化特徴及び顔特徴を同じ層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける対応する層に共同で作用させ、例えばスタイル化特徴を3番目の層が出力した特徴ベクトルに位置させて顔特徴を3番目の層が出力した特徴ベクトルに位置させ、スタイル図生成ネットワークにおける3番目の層に共同で作用させる。
さらに、スタイル化特徴及び顔特徴のスタイル図生成ネットワークにおける各層での重み付けを調整することで、スタイル化顔図のスタイル化程度を制御することができる。
例示的に、スタイル図生成ネットワークは、18個の畳み込み層を含む畳み込みニューラルネットワークであってもよく、ここで、1~7層はスタイル化特徴に注目しており、8~18層は目標顔画像のリアルな顔の情報により注目している。つまり、1~7層で、スタイル化特徴の重み付け比率が顔特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔図と大きく異なり、8~18層で、顔特徴の重み付け比率がスタイル化特徴よりも高く構成されれば、最終的に取得するスタイル化顔図は、入力された顔画像により似ていることになる。
具体的には、スタイル化特徴及び目標顔画像の顔特徴をスタイル図生成ネットワークに入力し、ネットワークの処理を経て、目標顔画像のスタイル化顔図を得ることができる。
S605において、目標顔画像を3次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得る。
S606において、目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを決定する。
本開示の実施例に係る技術態様は、スタイル化エンコーダネットワークからスタイル化特徴を抽出し、目標顔画像を顔復元エンコーダネットワークに入力することで、目標顔画像の顔特徴を得て、スタイル図生成ネットワークに基づいて、スタイル化特徴及び目標顔画像の顔特徴に応じて、目標顔画像のスタイル化顔図を生成し、その後、目標顔画像を3次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得て、さらに、目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを決定する。上記技術態様は、スタイル図生成ネットワークにより目標顔画像のスタイル化顔図を決定することで、目標顔画像のスタイル化顔図のスタイル化程度を制御可能にすることができる。
例示的に、上記実施例を基に、目標顔画像の顔パラメータ及びスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを得る1つの好ましい形態は、目標顔画像における顔パラメータに基づいて、目標顔画像の3次元顔イメージを構築し、目標顔画像のスタイル化顔図に応じて、目標顔画像の3次元顔イメージに対して処理を行い、目標顔画像の3次元スタイル化顔イメージを得るものである。
本実施例において、3次元顔イメージとは、顔の3次元アバターである。
好ましくは、目標顔画像における顔パラメータに基づいて、目標顔画像の3次元顔イメージを構築する1つの好ましい形態は、目標顔画像における顔パラメータの顔形状パラメータを、予め定義された形状ベース(即ち、3次元特徴ベクトル)に線形加算して、目標顔画像の3次元顔イメージを得るものである。
目標顔画像における顔パラメータに基づいて、目標顔画像の3次元顔イメージを構築する別の好ましい形態は、目標顔画像における顔パラメータの顔形状パラメータ及び顔表情パラメータを、予め定義済みの形状表情ベースに線形加算して、目標顔画像の3次元顔イメージを得るものである。
目標顔画像の3次元顔イメージが取得された後に、目標顔画像の3次元顔イメージに目標顔画像のスタイル化顔図を表示させることができ、そうすれば、目標顔画像の3次元スタイル化顔イメージを得ることができる。
本態様は、3次元スタイル化顔イメージを構築する好ましい形態を提供し、後続の3次元顔イメージの生成のためにデータのサポートを提供するということを理解できる。
図7は、本開示の実施例に係る更なる3次元顔イメージ生成方法のフローチャートである。本実施例は上記実施例を基に、「目標顔画像のスタイル化顔図に応じて、目標顔画像の3次元顔イメージに対して処理を行い、目標顔画像の3次元スタイル化顔イメージを得る」ことに対してさらに最適化し、1つの好ましい実施態様を提供する。図7に示すように、本実施例の3次元顔イメージ生成方法は、以下を含んでもよい。
S701において、目標顔画像、及び目標顔画像のスタイル化顔図を取得する。
S702において、目標顔画像を3次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得る。
S703において、目標顔画像における顔パラメータに基づいて、目標顔画像の3次元顔イメージを構築する。
S704において、目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得る。
本実施例において、テクスチャマップとは、2次元座標系における画像であり、具体的にテクスチャ座標(即ち、UV)における画像であってもよい。
具体的には、設定されたテクスチャ展開論理に基づいて、目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得ることができる。
S705において、マップ回帰ネットワークに基づいて、処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、処理を経たテクスチャマップを得る。
本実施例において、マップ回帰ネットワークとは予めトレーニング済みの、処理待ちのテクスチャマップに対して処理を行うことに使用可能な畳み込みニューラルネットワークであってもよい。
具体的には、処理待ちのテクスチャマップをマップ回帰ネットワークに入力し、ネットワークの処理、例えば遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を経て、処理を経たテクスチャマップを得る。
S706において、処理を経たテクスチャマップに応じて、目標顔画像の3次元顔イメージに対して処理を行い、目標顔画像の3次元スタイル化顔イメージを得る。
具体的には、3次元顔イメージとUVマップとの間のマッピング関係に基づいて、処理を経たテクスチャマップにおける画素点のRGB値を、目標顔画像の3次元顔イメージにおける対応する頂点に与えて、目標顔画像の3次元スタイル化顔イメージを得る。処理を経たテクスチャマップを目標顔画像の3次元顔イメージに被覆し、目標顔画像の3次元スタイル化顔イメージを得ると理解されてもよい。
本開示の実施例に係る技術態様は、取得した目標顔画像を3次元顔再構成モデルに入力することで、目標顔画像における顔パラメータを得て、その後、目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得て、マップ回帰ネットワークに基づいて、処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、処理を経たテクスチャマップを得て、さらに、処理を経たテクスチャマップに応じて、目標顔画像の3次元顔イメージに対して処理を行い、目標顔画像の3次元スタイル化顔イメージを得る。上記技術態様は、テクスチャマップを導入して目標顔画像の3次元スタイル化顔イメージを得ることで、3次元スタイル化顔イメージをより正確にすることができ、さらに、マップ回帰ネットワークにより初期テクスチャマップに対して処理を行うことで、遮蔽、ハイライトもしくは顔位置姿勢ずれによる3次元スタイル化顔イメージを決定する時への干渉を避ける。
図8は、本開示の実施例に係る1つの3次元顔再構成モデルトレーニング装置の構造模式図である。本実施例は、如何に3次元顔再構成モデルに対してトレーニングを行うかという場合に適用される。該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現可能であり、且つ3次元顔再構成モデルのトレーニング機能を担う電子機器、例えばサーバに集積可能である。図8に示すように、本実施例の3次元顔再構成モデルトレーニング装置800は、
サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得するためのサンプル画像取得モジュール801と、
サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得るためのサンプル顔パラメータ決定モジュール802と、
サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定するためのサンプルスタイル化顔イメージ決定モジュール803と、
座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得るためのレンダリング図決定モジュール804と、
レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行うための顔再構成モデルトレーニングモジュール805と、を含んでもよい。
サンプル顔画像、及びサンプル顔画像のスタイル化顔図を取得するためのサンプル画像取得モジュール801と、
サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及びサンプル顔画像における顔パラメータを得るためのサンプル顔パラメータ決定モジュール802と、
サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定するためのサンプルスタイル化顔イメージ決定モジュール803と、
座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得るためのレンダリング図決定モジュール804と、
レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行うための顔再構成モデルトレーニングモジュール805と、を含んでもよい。
本開示の実施例に係る技術態様は、取得したサンプル顔画像を3次元顔再構成モデルに入力することで、座標変換パラメータ及びサンプル顔画像における顔パラメータを得て、サンプル顔画像における顔パラメータ及び取得したサンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元スタイル化顔イメージを決定し、その後、座標変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得て、さらに、レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデルに対してトレーニングを行う。上記技術態様は、異スタイルの3次元顔再構成のシーンにおいて、顔キーポイントのマーキングを行う必要がなく、サンプル顔画像及びスタイル化顔図によれば、3次元顔再構成モデルをトレーニングすることができ、サンプルのマーキングコストを低減する。さらに、異スタイルのシーンにおいて、本態様によってトレーニングされた3次元顔再構成モデルに基づいて、3次元顔の構築に必要なデータを精確に取得することができ、これにより、3次元スタイル化顔イメージを精確に構築することができる。
さらに、サンプル画像取得モジュール801は具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
サンプル顔画像を顔復元エンコーダネットワークに入力し、サンプル顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、スタイル化特徴及びサンプル顔画像の顔特徴に応じて、サンプル顔画像のスタイル化顔図を生成することに用いられる。
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
サンプル顔画像を顔復元エンコーダネットワークに入力し、サンプル顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、スタイル化特徴及びサンプル顔画像の顔特徴に応じて、サンプル顔画像のスタイル化顔図を生成することに用いられる。
さらに、サンプルスタイル化顔イメージ決定モジュール803は、
サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築するためのサンプル3次元顔イメージ決定ユニットと、
サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得るためのサンプルスタイル化顔イメージ決定ユニットと、を含む。
サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築するためのサンプル3次元顔イメージ決定ユニットと、
サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得るためのサンプルスタイル化顔イメージ決定ユニットと、を含む。
さらに、サンプルスタイル化顔イメージ決定ユニットは具体的に、
サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得て、
マップ回帰ネットワークに基づいて、初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、目標テクスチャマップを得て、
目標テクスチャマップに応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得ることに用いられる。
サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得て、
マップ回帰ネットワークに基づいて、初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、目標テクスチャマップを得て、
目標テクスチャマップに応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得ることに用いられる。
さらに、顔再構成モデルトレーニングモジュール805は具体的に、
レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行うことに用いられる。
レンダリング図及びサンプル顔画像のスタイル化顔図に応じて、3次元顔再構成モデル及びマップ回帰ネットワークに対して合同トレーニングを行うことに用いられる。
さらに、顔再構成モデルトレーニングモジュール805は具体的に、
サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出し、
レンダリング図の背景色に応じて、スタイル化顔領域の背景色に対して調整を行い、
レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、
画像対照損失に応じて、3次元顔再構成モデルに対してトレーニングを行うことにさらに用いられる。
サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出し、
レンダリング図の背景色に応じて、スタイル化顔領域の背景色に対して調整を行い、
レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、
画像対照損失に応じて、3次元顔再構成モデルに対してトレーニングを行うことにさらに用いられる。
さらに、サンプル顔パラメータ決定モジュール802は具体的に、
サンプル顔画像を3次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得ることに用いられ、
対応して、レンダリング図決定モジュール804は具体的に、
平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系にアフィン変換し、
カメラ視野角及びオイラー角に基づいて、アフィン変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることに用いられる。
サンプル顔画像を3次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及びサンプル顔画像における顔パラメータを得ることに用いられ、
対応して、レンダリング図決定モジュール804は具体的に、
平行移動変換パラメータ及び拡縮変換パラメータに基づいて、サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系にアフィン変換し、
カメラ視野角及びオイラー角に基づいて、アフィン変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることに用いられる。
さらに、サンプル顔画像における顔パラメータは、顔形状パラメータを含む。
図9は、本開示の実施例に係る1つの3次元顔イメージ生成装置の構造模式図である。本実施例は、如何に3次元顔イメージを生成するかという場合に適用される。該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現可能であり、且つ3次元顔イメージ生成機能を担う電子機器、例えばサーバに集積可能である。図9に示すように、本実施例の3次元顔イメージ生成装置900は、
目標顔画像、及び目標顔画像のスタイル化顔図を取得するための目標画像取得モジュール901と、
目標顔画像を3次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得て、ここで、3次元顔再構成モデルは、上記のいずれかの実施例に係る3次元顔再構成モデルトレーニング方法に基づいてレーニングして得られるための目標顔パラメータ決定モジュール902と、
目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを決定するための目標スタイル化顔イメージ決定モジュール903と、を含んでもよい。
目標顔画像、及び目標顔画像のスタイル化顔図を取得するための目標画像取得モジュール901と、
目標顔画像を3次元顔再構成モデルに入力し、目標顔画像における顔パラメータを得て、ここで、3次元顔再構成モデルは、上記のいずれかの実施例に係る3次元顔再構成モデルトレーニング方法に基づいてレーニングして得られるための目標顔パラメータ決定モジュール902と、
目標顔画像における顔パラメータ及びスタイル化顔図に応じて、目標顔画像の3次元スタイル化顔イメージを決定するための目標スタイル化顔イメージ決定モジュール903と、を含んでもよい。
本開示の実施例に係る技術態様は、取得した目標顔画像を3次元顔再構成モデルに入力することで、目標顔画像における顔パラメータを得て、その後、目標顔画像における顔パラメータ及び取得した目標顔画像のスタイル化顔図に基づいて、目標顔画像の3次元スタイル化顔イメージを決定する。上記技術態様は、異スタイルのシーンにおいて、3次元顔再構成モデルにより、3次元スタイル化顔イメージを精確に構築することができる。
さらに、目標画像取得モジュール901は具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
目標顔画像を顔復元エンコーダネットワークに入力し、目標顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、スタイル化特徴及び目標顔画像の顔特徴に応じて、目標顔画像のスタイル化顔図を生成することに用いられる。
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
目標顔画像を顔復元エンコーダネットワークに入力し、目標顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、スタイル化特徴及び目標顔画像の顔特徴に応じて、目標顔画像のスタイル化顔図を生成することに用いられる。
さらに、目標スタイル化顔イメージ決定モジュール903は、
サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築するための目標3次元顔イメージ決定ユニットと、
サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得るための目標スタイル化顔イメージ決定ユニットと、を含む。
サンプル顔画像における顔パラメータに基づいて、サンプル顔画像の3次元顔イメージを構築するための目標3次元顔イメージ決定ユニットと、
サンプル顔画像のスタイル化顔図に応じて、サンプル顔画像の3次元顔イメージに対して処理を行い、サンプル顔画像の3次元スタイル化顔イメージを得るための目標スタイル化顔イメージ決定ユニットと、を含む。
さらに、目標スタイル化顔イメージ決定ユニットは具体的に、
目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得て、
マップ回帰ネットワークに基づいて、処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、処理を経たテクスチャマップを得て、
処理を経たテクスチャマップに応じて、目標顔画像の3次元顔イメージに対して処理を行い、目標顔画像の3次元スタイル化顔イメージを得ることに用いられる。
目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得て、
マップ回帰ネットワークに基づいて、処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、処理を経たテクスチャマップを得て、
処理を経たテクスチャマップに応じて、目標顔画像の3次元顔イメージに対して処理を行い、目標顔画像の3次元スタイル化顔イメージを得ることに用いられる。
さらに、目標顔画像における顔パラメータは、顔形状パラメータを含む。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。
図10は、本開示の実施例の3次元顔再構成モデルトレーニング又は3次元顔イメージ生成方法を実現するための電子機器のブロック図である。図10には、本開示の実施例を実施するために使用可能で例示的な電子機器1000の模式的なブロック図が示されている。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータを表すように意図される。電子機器は、様々な形式の移動装置、例えば、パーソナルデジタル処理、セルラーフォン、スマートフォン、ウェアラブルデバイス及び他の類似的なコンピューティング装置をさらに表すことができる。本明細書に示す部品、これらの接続と関係、及びこれらの機能は例示的なものに過ぎず、本明細書における説明及び/又は要求された本開示の実現を限定することは意図されない。
図10に示すように、電子機器1000は、リードオンリーメモリ(ROM:Read Only Memory)1002に記憶されたコンピュータプログラム又は記憶ユニット1008からランダムアクセスメモリ(RAM:Random Access Memory)1003にロードされたコンピュータプログラムによって、様々な適切な動作及び処理を実行可能な計算ユニット1001を備える。RAM1003には、電子機器1000の操作に必要となる様々なプログラム及びデータも記憶可能である。計算ユニット1001、ROM1002及びRAM1003はバス1004によって互いに接続される。入出力(I/O:input/output)インターフェース1005もバス1004に接続される。
I/Oインターフェース1005には、例えばキーボード、マウス等の入力ユニット1006と、例えば様々なタイプのディスプレイ、スピーカ等の出力ユニット1007と、例えば磁気ディスク、光ディスク等の記憶ユニット1008と、例えばネットワークカード、モデム、無線通信送受信機等の通信ユニット1009と、を備える電子機器1000における複数の部品が接続される。通信ユニット1009は、電子機器1000が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して、他のデバイスと情報/データを交換することを可能にする。
計算ユニット1001は、様々な、処理及び計算能力を有する汎用及び/又は専用処理構成要素であってもよい。計算ユニット1001のいくつかの例には、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な、機械学習モデルのアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が含まれるが、これらに限定されない。計算ユニット1001は、上記に説明された各方法及び処理、例えば3次元顔再構成モデルトレーニング又は3次元顔イメージ生成方法を実行する。例えば、いくつかの実施例において、3次元顔再構成モデルトレーニング又は3次元顔イメージ生成方法は、コンピュータソフトウェアプログラムとして実現可能であり、これは機械可読媒体、例えば記憶ユニット1008に有形的に含まれる。いくつかの実施例において、コンピュータプログラムは、一部又は全部がROM1002及び/又は通信ユニット1009を介して電子機器1000にロード及び/又はインストールされることができる。コンピュータプログラムがRAM1003にロードされて計算ユニット1001によって実行されると、上記した3次元顔再構成モデルトレーニング又は3次元顔イメージ生成方法の1つ又は複数のステップを実行可能である。或いは、他の実施例において、計算ユニット1001は、他の任意の適切な方式によって(例えば、ファームウェアによって)、3次元顔再構成モデルトレーニング又は3次元顔イメージ生成方法を実行するように構成される。
本明細書において、上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特殊用途向け汎用品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組合せで実現可能である。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んでもよく、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができ、該プログラマブルプロセッサは、メモリシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信して、データ及び命令を該メモリシステム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができる専用又は汎用プログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せを採用して書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供可能であり、これにより、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で規定された機能/操作が実施される。プログラムコードは、完全に機器で実行されても、部分的に機器で実行されてもよく、独立ソフトウェアパッケージとして、部分的に機器で実行され且つ部分的にリモート機器で実行され、又は、完全にリモート機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる有形的な媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体には、電子的なもの、磁気的なもの、光学的なもの、電磁的なもの、赤外線的なもの、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組合せが含まれてもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例示は、1つ又は複数のラインによる電気的な接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、可搬型コンパクトディスクリードオンリーメモリ(CD-ROM)、光メモリデバイス、磁気メモリデバイス、又は上記の内容の任意の適切な組合せを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術はコンピュータで実施されることができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、及びキーボードやポインティング装置(例えば、マウス又はトラックボール)を有し、ユーザは、該キーボードや該ポインティング装置によって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することに使用可能であり、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、且つ、ユーザからの入力を任意の形式(音入力、音声入力又は触感入力を含む)で受信することができる。
ここで説明されるシステム及び技術は、バックグランドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又は、ミドルウェアコンポーネントを含むコンピューティングシステム(アプリケーションサーバなど)、または、フロントエンドコンポーネントを含むコンピューティングシステム(図形式のユーザインターフェースやネットワークブラウザを有するユーザコンピュータであり、ユーザは、該図形式のユーザインターフェースや該ネットワークブラウザを通じてここで説明されるシステム及び技術の実施形態とイントラクションをすることができる)、又はこのようなバックグランドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムにおいて実施されてもよい。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって互いに接続されてもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント端末及びサーバを含んでもよい。クライアント端末及びサーバは一般的に、互いに離れており、且つ通常、通信ネットワークを介してイントラクションをしている。相応するコンピュータでの実行、及び、互いにクライアント端末・サーバという関係を有するコンピュータプログラムにより、クライアント端末とサーバとの関係を築き上げる。サーバは、クラウドサーバであってもよいし、分散型システムのサーバ、又はブロックチェーンと組み合わせられたサーバであってもよい。
人工知能は、コンピュータに人間のある思考過程及びインテリジェント行為(例えば、学習、推論、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
クラウドコンピューティング(cloud computing)とは、ネットワークを介して弾性的で拡張可能な共用する物理又は仮想的なリソースプールにアクセスして、ニーズに応じて、セルフサービスの方式でリソースに対して配備及び管理を行うことができる技術体系であり、リソースはサーバ、オペレーティングシステム、ネットワーク、ソフトウェア、アプリケーション及びストレージデバイスなどを含んでもよい。クラウドコンピューティング技術により、人工知能、ブロックチェーンなどの技術の応用、モデルのトレーニングのために効率がよい強いデータ処理能力を提供することができる。
上記に示した様々な形式のフローを使用し、ステップを並べ替えたり、追加したり、削除したりすることができることを理解すべきである。例えば、本開示に記載の各ステップは、本開示に開示された技術案の所望の結果が実現できれば、並行して実行されてよいし、順次実行されてもよいし、異なる順序で実行されてもよく、本明細書において、ここでは限定されない。
上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要求や他の要素に基づいて様々な修正、組み合わせ、サブ組み合わせ及び置換が可能であることを理解すべきである。任意の、本開示の精神及び原則内で行われる修正、均等な置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。
Claims (29)
- サンプル顔画像、及び前記サンプル顔画像のスタイル化顔図を取得することと、
前記サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得ることと、
前記サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の3次元スタイル化顔イメージを決定することと、
前記座標変換パラメータに基づいて、前記サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることと、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデルに対してトレーニングを行うことと、を含む、
ことを特徴とする3次元顔再構成モデルトレーニング方法。 - 前記サンプル顔画像のスタイル化顔図を取得することは、
スタイル化エンコーダネットワークからスタイル化特徴を抽出することと、
前記サンプル顔画像を顔復元エンコーダネットワークに入力し、前記サンプル顔画像の顔特徴を得ることと、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記サンプル顔画像の顔特徴に応じて、前記サンプル顔画像のスタイル化顔図を生成することと、を含む、
ことを特徴とする請求項1に記載の3次元顔再構成モデルトレーニング方法。 - 前記した、前記サンプル顔画像の顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の3次元スタイル化顔イメージを決定することは、
前記サンプル顔画像における顔パラメータに基づいて、前記サンプル顔画像の3次元顔イメージを構築することと、
前記サンプル顔画像のスタイル化顔図に応じて、前記サンプル顔画像の3次元顔イメージに対して処理を行い、前記サンプル顔画像の3次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項1に記載の3次元顔再構成モデルトレーニング方法。 - 前記した、前記サンプル顔画像のスタイル化顔図に応じて、前記サンプル顔画像の3次元顔イメージに対して処理を行い、前記サンプル顔画像の3次元スタイル化顔イメージを得ることは、
前記サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得ることと、
マップ回帰ネットワークに基づいて、前記初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、目標テクスチャマップを得ることと、
前記目標テクスチャマップに応じて、前記サンプル顔画像の3次元顔イメージに対して処理を行い、前記サンプル顔画像の3次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項3に記載の3次元顔再構成モデルトレーニング方法。 - 前記した、前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデルに対してトレーニングを行うことは、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデル及び前記マップ回帰ネットワークに対して合同トレーニングを行うこと、を含む、
ことを特徴とする請求項4に記載の3次元顔再構成モデルトレーニング方法。 - 前記した、前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデルに対してトレーニングを行うことは、
前記サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出することと、
前記レンダリング図の背景色に応じて、前記スタイル化顔領域の背景色に対して調整を行うことと、
前記レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定することと、
前記画像対照損失に応じて、前記3次元顔再構成モデルに対してトレーニングを行うことと、を含む、
ことを特徴とする請求項1に記載の3次元顔再構成モデルトレーニング方法。 - 前記した、前記サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得ることは、
前記サンプル顔画像を3次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及び前記サンプル顔画像における顔パラメータを得ること、を含み、
対応して、前記した、前記座標変換パラメータに基づいて、前記サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることは、
前記平行移動変換パラメータ及び拡縮変換パラメータに基づいて、前記サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系にアフィン変換することと、
カメラ視野角及び前記オイラー角に基づいて、アフィン変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることと、を含む、
ことを特徴とする請求項1に記載の3次元顔再構成モデルトレーニング方法。 - 前記サンプル顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項1~7のいずれか1項に記載の3次元顔再構成モデルトレーニング方法。 - 目標顔画像、及び前記目標顔画像のスタイル化顔図を取得することと、
前記目標顔画像を3次元顔再構成モデルに入力し、前記目標顔画像における顔パラメータを得て、前記3次元顔再構成モデルが請求項1~8のいずれか1項に記載の3次元顔再構成モデルトレーニング方法に基づいてトレーニングして得られることと、
前記目標顔画像の顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の3次元スタイル化顔イメージを決定することと、を含む、
ことを特徴とする3次元顔イメージ生成方法。 - 前記目標顔画像のスタイル化顔図を取得することは、
スタイル化エンコーダネットワークからスタイル化特徴を抽出することと、
前記目標顔画像を顔復元エンコーダネットワークに入力し、前記目標顔画像の顔特徴を得ることと、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記目標顔画像の顔特徴に応じて、前記目標顔画像のスタイル化顔図を生成することと、を含む、
ことを特徴とする請求項9に記載の3次元顔イメージ生成方法。 - 前記した、前記目標顔画像の顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の3次元スタイル化顔イメージを決定することは、
前記目標顔画像における顔パラメータに基づいて、前記目標顔画像の3次元顔イメージを構築することと、
前記目標顔画像のスタイル化顔図に応じて、前記目標顔画像の3次元顔イメージに対して処理を行い、前記目標顔画像の3次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項9に記載の3次元顔イメージ生成方法。 - 前記した、前記目標顔画像のスタイル化顔図に応じて、前記目標顔画像の3次元顔イメージに対して処理を行い、前記目標顔画像の3次元スタイル化顔イメージを得ることは、
前記目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得ることと、
マップ回帰ネットワークに基づいて、前記処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、処理を経たテクスチャマップを得ることと、
処理を経た前記テクスチャマップに応じて、前記目標顔画像の3次元顔イメージに対して処理を行い、前記目標顔画像の3次元スタイル化顔イメージを得ることと、を含む、
ことを特徴とする請求項11に記載の3次元顔イメージ生成方法。 - 前記目標顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項9~12のいずれか1項に記載の3次元顔イメージ生成方法。 - サンプル顔画像、及び前記サンプル顔画像のスタイル化顔図を取得するためのサンプル画像取得モジュールと、
前記サンプル顔画像を3次元顔再構成モデルに入力し、座標変換パラメータ及び前記サンプル顔画像における顔パラメータを得るためのサンプル顔パラメータ決定モジュールと、
前記サンプル顔画像における顔パラメータ及びスタイル化顔図に応じて、前記サンプル顔画像の3次元スタイル化顔イメージを決定するためのサンプルスタイル化顔イメージ決定モジュールと、
前記座標変換パラメータに基づいて、前記サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系に変換して、変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得るためのレンダリング図決定モジュールと、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデルに対してトレーニングを行うための顔再構成モデルトレーニングモジュールと、を含む、
ことを特徴とする3次元顔再構成モデルトレーニング装置。 - 前記サンプル画像取得モジュールは具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
前記サンプル顔画像を顔復元エンコーダネットワークに入力し、前記サンプル顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記サンプル顔画像の顔特徴に応じて、前記サンプル顔画像のスタイル化顔図を生成することに用いられる、
ことを特徴とする請求項14に記載の3次元顔再構成モデルトレーニング装置。 - 前記サンプルスタイル化顔イメージ決定モジュールは、
前記サンプル顔画像における顔パラメータに基づいて、前記サンプル顔画像の3次元顔イメージを構築するためのサンプル3次元顔イメージ決定ユニットと、
前記サンプル顔画像のスタイル化顔図に応じて、前記サンプル顔画像の3次元顔イメージに対して処理を行い、前記サンプル顔画像の3次元スタイル化顔イメージを得るためのサンプルスタイル化顔イメージ決定ユニットと、を含む、
ことを特徴とする請求項14に記載の3次元顔再構成モデルトレーニング装置。 - 前記サンプルスタイル化顔イメージ決定ユニットは具体的に、
前記サンプル顔画像のスタイル化顔図に対してテクスチャ展開を行い、初期テクスチャマップを得て、
マップ回帰ネットワークに基づいて、前記初期テクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、目標テクスチャマップを得て、
前記目標テクスチャマップに応じて、前記サンプル顔画像の3次元顔イメージに対して処理を行い、前記サンプル顔画像の3次元スタイル化顔イメージを得ることに用いられる、
ことを特徴とする請求項16に記載の3次元顔再構成モデルトレーニング装置。 - 前記顔再構成モデルトレーニングモジュールは具体的に、
前記レンダリング図及び前記サンプル顔画像のスタイル化顔図に応じて、前記3次元顔再構成モデル及び前記マップ回帰ネットワークに対して合同トレーニングを行うことに用いられる、
ことを特徴とする請求項17に記載の3次元顔再構成モデルトレーニング装置。 - 前記顔再構成モデルトレーニングモジュールは具体的に、
前記サンプル顔画像のスタイル化顔図からスタイル化顔領域を抽出し、
前記レンダリング図の背景色に応じて、前記スタイル化顔領域の背景色に対して調整を行い、
前記レンダリング図及び調整後のスタイル化顔領域に応じて、画像対照損失を決定し、
前記画像対照損失に応じて、前記3次元顔再構成モデルに対してトレーニングを行うことにさらに用いられる、
ことを特徴とする請求項14に記載の3次元顔再構成モデルトレーニング装置。 - 前記サンプル顔パラメータ決定モジュールは具体的に、
前記サンプル顔画像を3次元顔再構成モデルに入力し、オイラー角、座標変換パラメータのうちの平行移動変換パラメータ、拡縮変換パラメータ、及び前記サンプル顔画像における顔パラメータを得ることに用いられ、
対応して、前記レンダリング図決定モジュールは具体的に、
前記平行移動変換パラメータ及び拡縮変換パラメータに基づいて、前記サンプル顔画像の3次元スタイル化顔イメージをカメラ座標系にアフィン変換し、
カメラ視野角及び前記オイラー角に基づいて、アフィン変換後の3次元スタイル化顔イメージに対してレンダリングを行い、レンダリング図を得ることに用いられる、
ことを特徴とする請求項14に記載の3次元顔再構成モデルトレーニング装置。 - 前記サンプル顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項14~20のいずれか1項に記載の3次元顔再構成モデルトレーニング装置。 - 目標顔画像、及び前記目標顔画像のスタイル化顔図を取得するための目標画像取得モジュールと、
前記目標顔画像を3次元顔再構成モデルに入力し、前記目標顔画像における顔パラメータを得て、前記3次元顔再構成モデルが請求項1~8のいずれか1項に記載の3次元顔再構成モデルトレーニング方法に基づいてトレーニングして得られるための目標顔パラメータ決定モジュールと、
前記目標顔画像における顔パラメータ及びスタイル化顔図に応じて、前記目標顔画像の3次元スタイル化顔イメージを決定するための目標スタイル化顔イメージ決定モジュールと、を含む、
ことを特徴とする3次元顔イメージ生成装置。 - 前記目標画像取得モジュールは具体的に、
スタイル化エンコーダネットワークからスタイル化特徴を抽出し、
前記目標顔画像を顔復元エンコーダネットワークに入力し、前記目標顔画像の顔特徴を得て、
スタイル図生成ネットワークに基づいて、前記スタイル化特徴及び前記目標顔画像の顔特徴に応じて、前記目標顔画像のスタイル化顔図を生成することに用いられる、
ことを特徴とする請求項22に記載の3次元顔イメージ生成装置。 - 前記目標スタイル化顔イメージ決定モジュールは、
前記目標顔画像における顔パラメータに基づいて、前記目標顔画像の3次元顔イメージを構築するための目標3次元顔イメージ決定ユニットと、
前記目標顔画像のスタイル化顔図に応じて、前記目標顔画像の3次元顔イメージに対して処理を行い、前記目標顔画像の3次元スタイル化顔イメージを得るための目標スタイル化顔イメージ決定ユニットと、を含む、
ことを特徴とする請求項22に記載の3次元顔イメージ生成装置。 - 前記目標スタイル化顔イメージ決定ユニットは具体的に、
前記目標顔画像のスタイル化顔図に対してテクスチャ展開を行い、処理待ちのテクスチャマップを得て、
マップ回帰ネットワークに基づいて、前記処理待ちのテクスチャマップに対して遮蔽除去処理、ハイライト除去処理又は顔位置姿勢調整処理のうちの少なくとも1項を行い、処理を経たテクスチャマップを得て、
処理を経た前記テクスチャマップに応じて、前記目標顔画像の3次元顔イメージに対して処理を行い、前記目標顔画像の3次元スタイル化顔イメージを得ることに用いられる、
ことを特徴とする請求項24に記載の3次元顔イメージ生成装置。 - 前記目標顔画像における顔パラメータは、顔形状パラメータを含む、
ことを特徴とする請求項22~25のいずれか1項に記載の3次元顔イメージ生成装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~8のいずれか1項に記載の3次元顔再構成モデルトレーニング方法、もしくは請求項9~13のいずれか1項に記載の3次元顔イメージ生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~8のいずれか1項に記載の3次元顔再構成モデルトレーニング方法、もしくは請求項9~13のいずれか1項に記載の3次元顔イメージ生成方法を実行させることに用いられる、
ことを特徴とする非一時的コンピュータ可読記憶媒体。 - プロセッサにより実行されると、請求項1~8のいずれか1項に記載の3次元顔再構成モデルトレーニング方法、もしくは請求項9~13のいずれか1項に記載の3次元顔イメージ生成方法を実現する、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210738050.4 | 2022-06-28 | ||
CN202210738050.4A CN114842123B (zh) | 2022-06-28 | 2022-06-28 | 三维人脸重建模型训练和三维人脸形象生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024004444A true JP2024004444A (ja) | 2024-01-16 |
Family
ID=82574846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023029589A Pending JP2024004444A (ja) | 2022-06-28 | 2023-02-28 | 3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230419592A1 (ja) |
JP (1) | JP2024004444A (ja) |
KR (1) | KR20240002898A (ja) |
CN (1) | CN114842123B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345980B (zh) * | 2022-10-18 | 2023-03-24 | 北京百度网讯科技有限公司 | 个性化纹理贴图的生成方法及装置 |
CN115409933B (zh) * | 2022-10-28 | 2023-02-03 | 北京百度网讯科技有限公司 | 多风格纹理贴图生成方法及其装置 |
CN116051729B (zh) * | 2022-12-15 | 2024-02-13 | 北京百度网讯科技有限公司 | 三维内容生成方法、装置和电子设备 |
CN116229008B (zh) * | 2023-03-06 | 2023-12-12 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
CN116310008B (zh) * | 2023-05-11 | 2023-09-19 | 深圳大学 | 一种基于少样本学习的图像处理方法及相关设备 |
CN116958451B (zh) * | 2023-09-15 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 模型处理、图像生成方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10796480B2 (en) * | 2015-08-14 | 2020-10-06 | Metail Limited | Methods of generating personalized 3D head models or 3D body models |
CN108399649B (zh) * | 2018-03-05 | 2021-07-20 | 中科视拓(北京)科技有限公司 | 一种基于级联回归网络的单张图片三维人脸重建方法 |
CN109255830B (zh) * | 2018-08-31 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 三维人脸重建方法和装置 |
US10991154B1 (en) * | 2019-12-27 | 2021-04-27 | Ping An Technology (Shenzhen) Co., Ltd. | Method for generating model of sculpture of face with high meticulous, computing device, and non-transitory storage medium |
CN111951372B (zh) * | 2020-06-30 | 2024-01-05 | 重庆灵翎互娱科技有限公司 | 一种三维人脸模型的生成方法和设备 |
CN113506367B (zh) * | 2021-08-24 | 2024-02-27 | 广州虎牙科技有限公司 | 一种三维人脸模型训练方法、三维人脸重建方法及相关装置 |
-
2022
- 2022-06-28 CN CN202210738050.4A patent/CN114842123B/zh active Active
-
2023
- 2023-01-20 US US18/099,602 patent/US20230419592A1/en active Pending
- 2023-02-28 JP JP2023029589A patent/JP2024004444A/ja active Pending
- 2023-03-14 KR KR1020230033387A patent/KR20240002898A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
CN114842123B (zh) | 2022-09-09 |
US20230419592A1 (en) | 2023-12-28 |
CN114842123A (zh) | 2022-08-02 |
KR20240002898A (ko) | 2024-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2024004444A (ja) | 3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置 | |
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
JP7373554B2 (ja) | クロスドメイン画像変換 | |
CN112614213B (zh) | 人脸表情确定方法、表情参数确定模型、介质及设备 | |
CN115345980B (zh) | 个性化纹理贴图的生成方法及装置 | |
CN113327278B (zh) | 三维人脸重建方法、装置、设备以及存储介质 | |
KR20230173217A (ko) | 포토리얼리스틱 실시간 인물 애니메이션을 위한 시스템 및 방법 | |
CN114820905B (zh) | 虚拟形象生成方法、装置、电子设备及可读存储介质 | |
WO2020263541A1 (en) | Portrait editing and synthesis | |
JP7443647B2 (ja) | キーポイント検出及びモデル訓練方法、装置、デバイス、記憶媒体、並びにコンピュータプログラム | |
CN110458924B (zh) | 一种三维脸部模型建立方法、装置和电子设备 | |
JP2022172173A (ja) | 画像編集モデルのトレーニング方法および装置、画像編集方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN116309983B (zh) | 虚拟人物模型的训练方法、生成方法、装置和电子设备 | |
CN111754431B (zh) | 一种图像区域替换方法、装置、设备及存储介质 | |
CN114202615A (zh) | 人脸表情的重建方法、装置、设备和存储介质 | |
CN113822965A (zh) | 图像渲染处理方法、装置和设备及计算机存储介质 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
EP4086853A2 (en) | Method and apparatus for generating object model, electronic device and storage medium | |
US20230115765A1 (en) | Method and apparatus of transferring image, and method and apparatus of training image transfer model | |
CN115359166B (zh) | 一种图像生成方法、装置、电子设备和介质 | |
CN116524162A (zh) | 三维虚拟形象迁移方法、模型更新方法及相关设备 | |
CN115775300A (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
Lee et al. | Holistic 3D face and head reconstruction with geometric details from a single image | |
CN113570634A (zh) | 对象三维重建方法、装置、电子设备及存储介质 | |
CN114820908B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231121 |