CN112529999A - 一种参数估算模型的训练方法、装置、设备和存储介质 - Google Patents
一种参数估算模型的训练方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112529999A CN112529999A CN202011211255.4A CN202011211255A CN112529999A CN 112529999 A CN112529999 A CN 112529999A CN 202011211255 A CN202011211255 A CN 202011211255A CN 112529999 A CN112529999 A CN 112529999A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- face
- reconstruction
- dimensional face
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 214
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000006870 function Effects 0.000 claims abstract description 167
- 238000003062 neural network model Methods 0.000 claims abstract description 49
- 238000012937 correction Methods 0.000 claims abstract description 16
- 230000008859 change Effects 0.000 claims description 40
- 238000000513 principal component analysis Methods 0.000 claims description 40
- 238000005286 illumination Methods 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000008921 facial expression Effects 0.000 claims description 10
- 230000009977 dual effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 36
- 210000003128 head Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012544 monitoring process Methods 0.000 description 10
- 230000036544 posture Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/653—Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种参数估算模型的训练方法、装置、设备和存储介质。其中,该方法包括:将人脸图像训练集输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将重建参数输入到预先构建的三维形变模型中,重建出训练样本对应的三维人脸;计算三维人脸与训练样本之间在多项二维监督信息下的损失函数,并调整每一损失函数对应的权重;基于每一损失函数以及对应的权重生成对应的拟合损失函数,并利用拟合损失函数对神经网络模型进行反向修正,得到训练后的参数估算模型。本发明提供的技术方案,通过多项二维监督信息下的损失函数来训练参数估算模型,使得训练过程中参考信息更加全面,提高三维人脸重建时采用的重建参数的估算准确性。
Description
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种参数估算模型的训练方法、装置、设备和存储介质。
背景技术
随着视频技术的发展,有人脸画面显示需求的人脸动画、人脸识别和增强现实(Augmented Reality,AR)等娱乐应用中对于逼真的人脸模型的创建需求也越来越大。目前创建一个逼真的三维人脸模型是一个非常困难的工作,需要针对一张或者多张二维人脸图像或者深度图像来重建出对应的三维人脸,使其包含人脸形状、颜色、光照和头部旋转角度等各类三维信息。
现有的三维人脸重建方式中,通常会先采集出大量人脸的三维扫描数据,然后采用该三维扫描数据来构建对应的三维形变模型(3D morphable model,3DMM),此时该三维形变模型中会包含一个标准人脸的平均人脸形状、表示人脸身份变化的主成分基、以及表示人脸表情变化的主成分基,然后基于当前待重建的二维人脸图像估算出两组主成分基对应的重建参数,以通过该重建参数对应调整两组主成分基来对该平均人脸形状进行相应形变,从而重建出对应的三维人脸。
目前,各项主成分基对应的重建参数的估算通常是直接将二维人脸图像中各特征点的像素值作为三维人脸形变的监督信息,来估算各类主成分基对应的重建参数,但是由于从二维图片到三维重建是一个病变问题,仅有特征点的像素值作为监督信息,无法保证重建参数的估算准确性;或者,利用当前待重建的多视角的二维人脸图像或者深度信息作为输入来估算各类主成分基对应的重建参数,但是需要采集多张人脸图像甚至需要特殊传感器采集深度图像,导致重建场景受限,且重建参数的采集要求过多,使得三维人脸重建的操作较为繁琐复杂。
发明内容
本发明实施例提供了一种参数估算模型的训练方法、装置、设备和存储介质,优化三维人脸重建时估算相应重建参数所采用参数估算模型的训练方式,提高三维人脸重建时采用的重建参数的估算准确性,并在保证三维人脸重建准确性的基础上,降低三维人脸重建的操作复杂性。
第一方面,本发明实施例提供了一种参数估算模型的训练方法,该方法包括:
将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸;
计算所述三维人脸与所述训练样本之间在多项二维监督信息下的损失函数,并调整每一所述损失函数对应的权重;
基于每一所述损失函数以及对应的权重生成对应的拟合损失函数,并利用所述拟合损失函数对所述神经网络模型进行反向修正,得到训练后的参数估算模型。
第二方面,本发明实施例提供了一种参数估算模型的训练装置,该装置包括:
三维重建模块,用于将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸;
损失函数计算模块,用于计算所述三维人脸与所述训练样本之间在多项二维监督信息下的损失函数,并调整每一所述损失函数对应的权重;
模型训练模块,用于基于每一所述损失函数以及对应的权重生成对应的拟合损失函数,并利用所述拟合损失函数对所述神经网络模型进行反向修正,得到训练后的参数估算模型。
第三方面,本发明实施例提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的参数估算模型的训练方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的参数估算模型的训练方法。
本发明实施例提供的一种参数估算模型的训练方法、装置、设备和存储介质,针对三维人脸重建时指定需要采用的各个重建参数,会预先构建出对应的神经网络模型,通过将人脸图像训练集中的每一训练样本分别输入到该神经网络模型中,来估算出该训练样本在三维人脸重建时所需要的重建参数,并将该重建参数输入到预先构建的三维形变模型中,重建出该训练样本对应的三维人脸,此时通过计算三维人脸与训练样本之间在多项二维监督信息下的损失函数,以及调整每一损失函数对应的权重,可以生成该神经网络模型训练时的拟合损失函数,该拟合损失函数仅需要利用多个监督信息下的二维人脸信息,而无需在重建三维人脸前参考额外的三维人脸信息,即可不断对该神经网络模型进行反向修正,得到训练后的参数估算模型,从而优化三维人脸重建中估算相应重建参数所采用的参数估算模型的训练方式,通过多项二维监督信息下的损失函数来训练参数估算模型,使得训练过程中参考信息更加全面,提高三维人脸重建时采用的重建参数的估算准确性;同时,后续采用训练后的参数估算模型来估算三维人脸重建时的重建参数,使得待重建的人脸图像在三维形变模型中的形变过程更为准确,保证三维人脸重建的准确性,无需在三维人脸重建过程中部署额外的信息设备,降低三维人脸重建的操作复杂性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1A为本发明实施例一提供的一种参数估算模型的训练方法的流程图;
图1B为本发明实施例一提供的参数估算模型的训练过程的原理示意图;
图1C为本发明实施例一提供的方法中三维人脸重建过程的原理示意图;
图2A为本发明实施例二提供的一种参数估算模型的训练方法的流程图;
图2B为本发明实施例二提供的方法中用于三维人脸重建的三维形变模型的结构示意图;
图3A为本发明实施例三提供的一种参数估算模型的训练方法的流程图;
图3B为本发明实施例三提供的参数估算模型的训练过程的原理示意图;
图3C为本发明实施例三提供的方法中动态选择关键特征点的示意图;
图3D为本发明实施例三提供的方法中关键特征点的分布示意图;
图4为本发明实施例四提供的一种参数估算模型的训练装置的结构示意图;
图5为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1A为本发明实施例一提供的一种参数估算模型的训练方法的流程图,本实施例可适用于任一种需要估算相应重建参数的三维人脸重建的情况中。本实施例提供的参数估算模型的训练方法可以由本发明实施例提供的参数估算模型的训练装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的计算机设备中。
具体的,参考图1A,该方法可以包括如下步骤:
S110,将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将重建参数输入到预先构建的三维形变模型中,重建出训练样本对应的三维人脸。
可选的,目前人脸动画、人脸识别、增强现实以及人脸美颜等场景下均需要应用到三维人脸重建技术,三维人脸重建是指重建出二维人脸图像的三维几何形状(shape)、反照率(albedo)、光照信息和头部旋转角度等各项三维信息,其中三维几何形状可以由一组三维空间中的顶点构成,每个顶点都可以由对应的三维坐标(x,y,z)唯一确定。此时,针对现有的三维人脸重建,主要是预先构建出对应的三维形变模型,采用该三维形变模型来对任一二维人脸图像进行三维人脸形状和外表的建模,并提出任意的人脸形状都可以表示成一个标准人脸以及一组表示人脸形状变化和表情变化的主成分向量的线性组合的和,以通过主成分向量的不同线性组合形式来对该平均人脸形状进行对应形变,以及人脸表情的调整,从而重建出相应的三维人脸。
其中,本实施例中三维人脸重建指定的重建参数是指该三维形变模型对平均人脸形状进行形变以及人脸表情调整时,能够表示所参照的主成分向量的线性组合形式的各项参数,以及影响三维人脸逼真效果的参数,例如光照参数和人脸位置、姿态等;此时通过该重建参数能够控制平均人脸形状进行对应的形变和人脸表情变化,从而产生对应的三维人脸,并完善三维人脸中光照情况和姿态角度等细节展示。由此可知,对待重建的二维人脸图像估算该重建参数的准确性能够直接影响到对该二维人脸图像重建对应的三维人脸的逼真程度,因此为了使重建出的三维人脸更加逼真,要求从待重建的二维人脸图像中能够准确的估算出三维人脸重建所指定的各个重建参数。具体的,本实施例中的重建参数可以包括表示人脸形状变化的形变参数、表示人脸表情变化的表情参数、表示人脸反照率变化的反照率参数、表示人脸光照变化的光照参数、表示人脸平移的位置参数以及表示人脸头部姿态的旋转参数等;其中,该反照率参数中包含有待重建的二维人脸图像的RGB颜色信息。
可选的,为了对任一待重建的二维人脸图像均可以准确估算出三维人脸重建指定的各项重建参数,本实施例会初步构建一个神经网络模型,后续通过大量的人脸图像样本来对该神经网络模型进行参数估算训练,以训练出能够准确估算三维人脸重建指定的重建参数的参数估算模型,其中该神经网络模型采用卷积神经网络。在对该神经网络模型进行参数估算训练时,首先会构建对应的人脸图像训练集,该人脸图像训练集中包含大量不同来源和不同类型的人脸图像,作为该神经网络模型的训练样本;如图1B所示,将人脸图像训练集中的每一训练样本不断输入到预先构建的神经网络模型中,然后通过该神经网络模型对所输入的训练样本中的人脸特征与标准人脸的人脸特征进行比对分析,判断由标准人脸变换到该训练样本中的人脸时所需要采用的各项操作参数,从而估算出该训练样本进行三维人脸重建时所需要采用的重建参数的值。此时,本实施例中可以通过分析三维形变模型采用该重建参数对该训练样本进行三维人脸重建后,所重建出的三维人脸的逼真程度,来判断所估算出的重建参数的准确性。
因此,在通过神经网络模型估算出该训练样本进行三维人脸重建时所采用的重建参数后,还会将该重建参数对应输入到预先构建的三维形变模型中,通过该三维形变模型采用该重建参数对其内定义的标准人脸进行对应的形变、表情变化和反照率变化,并对应调整相应的三维细节展示信息,从而重建出该训练样本对应的三维人脸,后续通过比对该训练样本与重建出的三维人脸之间的相似性,即可分析出所重建出的三维人脸的逼真程度。
S120,计算三维人脸与训练样本之间在多项二维监督信息下的损失函数,并调整每一损失函数对应的权重。
可选的,为了分析所重建出的三维人脸相对于训练样本中人脸的逼真程度,本实施例会预先设置对应的损失函数,通过该损失函数来比对重建的三维人脸与训练样本之间的相似程度;本实施例中的多项二维监督信息表示可以通过不同数量下的多个二维监督信息较为全面的判断重建的三维人脸与训练样本之间在各个监督维度下的相似性,此时设置多项二维监督信息下的损失函数能够尽可能全面避免三维人脸的重建误差;示例性的,本实施例中多项二维监督信息下的损失函数可以包括:图像像素损失函数、关键点损失函数、身份特征损失函数、反照率惩罚函数以及所述三维人脸重建指定的重建参数中目标重建参数对应的正则项。
具体的,在重建出训练样本对应的三维人脸后,通过当前所设置的在多项二维监督信息下的损失函数,可以计算出重建出的三维人脸与该训练样本之间在每一监督信息所在维度下的重建误差,也就是损失函数的具体值,进而按照各个损失函数的具体值来分析重建的三维人脸在每一项监督信息下的逼真程度,以此判断训练后的神经网络模型在每一项监督信息下的估算准确性,进而对应调整每一损失函数对应的权重,以提高下一次训练时的估算能力。
示例性的,本实施例通过分别计算三维人脸与训练样本之间的图像像素损失函数、关键点损失函数、身份特征损失函数、反照率惩罚函数以及三维人脸重建指定的重建参数中目标重建参数对应的正则项,能够明确判断出当前训练过程对于三维人脸重建时的图像像素、关键点、身份特征、反照率以及各个重建参数的重建准确能力,并根据具体的重建能力对应调整各个损失函数的权重,继续进行训练,从而不断提升三维人脸重建时重建参数的估算能力。
此外,由于重建出的三维人脸可能仅包含三维人脸画面,而训练样本中除了显示人脸画面外,还会显示非人脸画面的背景画面,因此为了保证三维人脸与训练样本之间的损失计算准确性,如图1B所示,本实施例在计算三维人脸与训练样本之间在多项二维监督信息下的损失函数之前,还可以包括:利用可微分渲染器渲染三维人脸,以采用渲染后的三维人脸训练参数估算模型。
具体的,采用可微分渲染器渲染三维人脸,使得渲染后的三维人脸的纹理和画面能够更加相近于训练样本,以便后续采用渲染后的三维人脸更加准确地训练参数估算模型。
S130,基于每一损失函数以及对应的权重生成对应的拟合损失函数,并利用拟合损失函数对神经网络模型进行反向修正,得到训练后的参数估算模型。
具体的,在计算出三维人脸与训练样本之间在多项二维监督信息下的损失函数,并调整每一损失函数对应的权重后,利用每一损失函数对应的权重对多项二维监督信息下的各个损失函数进行整合,生成对应的拟合损失函数,并将该拟合损失函数作为神经网络模型整个训练过程的损失函数,然后利用该拟合损失函数按照整个训练过程进行反向传播,从而对该神经网络模型中的网络参数进行修正,然后按照上述步骤采用修正后的神经网络模型继续估算下一训练样本进行三维人脸重建时的重建参数,从而继续执行该训练过程,不断对该神经网络模型进行反向修正,进而将最终完成训练的神经网络模型作为训练后的参数估算模型,此时本实施例中的拟合损失函数仅需要利用多个监督信息下的二维人脸信息,而无需在重建三维人脸前参考额外的三维人脸信息,即可不断对该神经网络模型进行反向修正,得到训练后的参数估算模型,从而优化三维人脸重建中估算相应重建参数所采用的参数估算模型的训练方式,通过多项二维监督信息下的损失函数来训练参数估算模型,使得训练过程中参考信息更加全面,提高三维人脸重建时采用的重建参数的估算准确性。
例如,如果多项二维监督信息下的损失函数分别为:图像像素损失函数Lphotometric、关键点损失函数Llandmark、身份特征损失函数Lperception、反照率惩罚函数Lbox以及三维人脸重建指定的重建参数中目标重建参数(表示人脸形状变化的主成分向量的调整参数α、表示人脸表情变化的主成分向量的调整参数δ、表示人脸反照率变化的主成分向量的调整参数β和光照参数γ)对应的正则项,那么本实施例中的拟合损失函数可以为:
L=λpLphotometric+λlLlandmark+λidLperception+λbLbox+λα||α||2+λβ||β||2+λδ||δ||2+λγ||γ||2;其中,λp为图像像素损失函数对应的权重,λl为关键点损失函数对应的权重,λid为身份特征损失函数对应的权重,λb为反照率惩罚函数对应的权重,λα、λβ、λδ和λγ分别为三维人脸重建指定的各个重建参数中目标重建参数对应的正则项对应的权重。
进一步的,在得到训练后的参数估算模型时,通过该参数估算模型能够准确估算出任一个待重建的二维人脸图像进行三维人脸重建时的重建参数,因此本实施例在利用拟合损失函数对神经网络模型进行反向修正,得到训练后的参数估算模型之后,还可以包括:将待重建的二维人脸图像输入到参数估算模型中,估算出三维人脸重建指定的重建参数,并将重建参数输入到预先构建的三维形变模型中,重建出二维人脸图像对应的三维人脸。
具体的,由于待重建的二维人脸图像的拍摄尺寸各不相同,因此为了保证三维人脸重建的准确性,如图1C所示,本实施例首先会对待重建的二维人脸图像进行人脸检测,从而裁剪出包含人脸区域在内的二维人脸图像,并将裁剪后的二维人脸图像进行相应的缩放操作到对应尺寸(如224*224像素),以符合参数估算模型对于三维人脸重建时估算重建参数的图像要求,进而预处理后的二维人脸图像输入到该参数估算模型中,通过该参数估算模型准确估算出该二维人脸图像进行三维人脸重建时所需要采用的各项重建参数,进而将该重建参数输入到预先构建的三维形变模型中,由该三维形变模型利用该重建参数对其内定义的标准人脸进行对应的形变和表情变化等,并调整对应的三维细节展示信息,从而重建出该二维人脸图像对应的三维人脸,使得待重建的人脸图像在三维形变模型中的形变过程更为准确,保证三维人脸重建的准确性,无需在三维人脸重建过程中部署额外的信息设备,降低三维人脸重建的操作复杂性。
本实施例提供的技术方案,针对三维人脸重建时指定需要采用的各个重建参数,会预先构建出对应的神经网络模型,通过将人脸图像训练集中的每一训练样本分别输入到该神经网络模型中,来估算出该训练样本在三维人脸重建时所需要的重建参数,并将该重建参数输入到预先构建的三维形变模型中,重建出该训练样本对应的三维人脸,此时通过计算三维人脸与训练样本之间在多项二维监督信息下的损失函数,以及调整每一损失函数对应的权重,可以生成该神经网络模型训练时的拟合损失函数,该拟合损失函数仅需要利用多个监督信息下的二维人脸信息,而无需在重建三维人脸前参考额外的三维人脸信息,即可不断对该神经网络模型进行反向修正,得到训练后的参数估算模型,从而优化三维人脸重建中估算相应重建参数所采用的参数估算模型的训练方式,通过多项二维监督信息下的损失函数来训练参数估算模型,使得训练过程中参考信息更加全面,提高三维人脸重建时采用的重建参数的估算准确性;同时,后续采用训练后的参数估算模型来估算三维人脸重建时的重建参数,使得待重建的人脸图像在三维形变模型中的形变过程更为准确,保证三维人脸重建的准确性,无需在三维人脸重建过程中部署额外的信息设备,降低三维人脸重建的操作复杂性。
实施例二
图2A为本发明实施例二提供的一种参数估算模型的训练方法的流程图,图2B为本发明实施例二提供的方法中用于三维人脸重建的三维形变模型的结构示意图。本实施例是在上述实施例的基础上进行优化。
需要说明的是,本实施例中的三维形变模型由双主成分分析(PrincipalComponent Analysis,PCA)模型和单PCA模型共同构成,如图2B所示,该双PCA模型主要用于对三维人脸重建过程中人脸外形和表情的变化进行建模,而该单PCA模型主要用于对三维人脸重建过程中人脸反照率的变化进行建模。
其中,本实施例中的双PCA模型中可以定义有三维平均人脸、表示人脸外形变化的第一主成分基以及表示人脸表情变化的第二主成分基,可以表示为: 为双PCA模型中定义的三维平均人脸,Ibase为表示人脸外形变化的第一主成分基,Ebase为表示人脸表情变化的第二主成分基,α为待重建的人脸图像进行三维人脸重建时需要估算的用于指示第一主成分基变化的人脸身份参数,δ为待重建的人脸图像进行三维人脸重建时需要估算的用于指示第二主成分基变化的人脸表情参数。
同时,本实施例中的单PCA模型中可以定义有人脸平均反照率以及表示人脸反照率变化的第三主成分基,可以表示为: 为单PCA模型中定义的人脸平均反照率,Tbase为单PCA模型中表示人脸反照率变化的第三主成分基,β为待重建的人脸图像进行三维人脸重建时需要估算的用于指示第三主成分基变化的反照率参数,此时该反照率参数中包含人脸图像中各个顶点的RGB颜色信息,以实现三维人脸重建时的颜色重建。
此外,为了保证三维人脸重建时的三维细节特征,本实施例的三维形变模型中还可以定义有表示人脸光照变化的光照参数γ、表示人脸平移的位置参数t以及表示人脸头部姿态的旋转参数p。其中,本实施例可以采用球谐光照来近似三维场景下的光照,以估算对应的光照参数γ。
因此,为了准确重建出三维人脸,本实施例中三维人脸重建指定的重建参数可以为(α,δ,β,γ,t,p)。
可选的,为了保证三维人脸重建的准确性,可以设定本实施例中双PCA模型中表示人脸外形变化的第一主成分基的数量为80,表示人脸表情变化的第二主成分基的数量为30,单PCA模型中表示人脸反照率变化的第三主成分基的数量为79,光照参数的数量为27,其中包含有R、G、B三个颜色通道的各自9个颜色参数,位置参数和旋转参数的数量分别为3,本实施例中所提供的各个主成分基和光照参数的数量仅是一种示例情况,具体可以根据相应的重建要求来设置,本实施例对此不作限定。
具体的,如图2A所示,本实施例主要对于利用由双PCA模型和单PCA模型共同构成的三维形变模型进行三维人脸重建的具体重建过程进行详细的解释说明。
可选的,如图2A所示,本实施例中可以包括如下步骤:
S210,采集多维度数据源下光照均匀的三维人脸扫描数据,并对三维人脸扫描数据分别进行形变分析、表情变化分析和反照率分析,得到对应的三维平均人脸、人脸平均反照率、第一主成分基、第二主成分基和第三主成分基。
可选的,为了准确判断出能够影响到三维人脸重建逼真性的各项主成分基,本实施例首先会采用3D扫描技术扫描大量不同种族、年龄、性别、肤色和表情等多维度数据源下光照均匀的人脸信息,从而采集到多维度数据源下光照均匀的三维人脸扫描数据,后续通过对大量三维人脸扫描数据分别进行对应的形变分析、表情变化分析和反照率分析,从而得到对应的三维平均人脸和人脸平均反照率,以及表示人脸外形变化的第一主成分基、表示人脸表情变化的第二主成分基和表示人脸反照率变化的第三主成分基,以便后续构建对应的三维形变模型,来对人脸图像进行准确的三维重建。
S220,将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数。
S230,将与第一主成分基和第二主成分基分别匹配的重建参数输入到双PCA模型中,对三维平均人脸进行形变,得到对应的三维形变人脸。
可选的,在估算出训练样本进行三维人脸重建时的各项重建参数后,会将该重建参数输入到三维形变模型中,对三维平均人脸进行形变,此时该三维形变模型由双PCA模型和单PCA模型共同构成,不同的PCA模型具有不同的重建功能,而双PCA模型中主要用于对三维人脸重建过程中人脸外形和表情的变化进行建模,单PCA模型主要用于对三维人脸重建过程中人脸反照率的变化进行建模,因此依次经过双PCA模型和单PCA模型来训练样本进行三维人脸重建。
具体的,首先从估算出的重建参数中筛选出与双PCA模型中定义的第一主成分基和第二主成分基分别匹配的重建参数,进而将所筛选出的重建参数输入到该双PCA模型中,通过上述双PCA模型的模型表示函数对其内定义的三维平均人脸进行对应的外形变化和表情变化,从而得到对应的三维形变人脸,后续采用单PCA模型继续对该三维形变人脸进行反照率的改变,以重建出对应的三维人脸。
S240,将三维形变人脸以及与第三主成分基匹配的重建参数输入到单PCA模型中,基于人脸平均反照率对三维形变人脸进行反照率修正,得到重建后的三维人脸。
可选的,通过双PCA模型得到对应的三维形变人脸后,从估算出的重建参数中再次筛选出与单PCA模型中定义的第三主成分基匹配的重建参数,然后将该三维形变人脸以及与第三主成分基匹配的重建参数均输入到单PCA模型中,利用上述单PCA模型的模型表示函数,在人脸标准反照率的基础上,对该三维形变人脸进行反照率修正,从而得到重建后的三维人脸。
此外,为了保证三维人脸的三维细节特征,还可以采用三维形变模型中定义的光照参数、位置参数以及旋转参数对该三维人脸进行进一步优化。
S250,计算三维人脸与训练样本之间在多项二维监督信息下的损失函数,并调整每一损失函数对应的权重。
S260,基于每一损失函数以及对应的权重生成对应的拟合损失函数,并利用拟合损失函数对神经网络模型进行反向修正,得到训练后的参数估算模型。
本实施例提供的技术方案,在参数估算模型的训练过程中,采用双PCA模型来构建三维形变模型,以保证三维人脸重建的准确性,进而使重建后的三维人脸与训练样本之间在多项二维监督信息上的具体损失,尽可能体现在重建参数的估算失误上,此时通过多项二维监督信息下的损失函数来训练参数估算模型,使得训练过程中参考信息更加全面和准确,提高三维人脸重建时采用的重建参数的估算准确性。
实施例三
图3A为本发明实施例三提供的一种参数估算模型的训练方法的流程图,图3B为本发明实施例三提供的参数估算模型的训练过程的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的,如图3A所示,本实施例中多项二维监督信息下的损失函数可以包括:图像像素损失函数、关键点损失函数、身份特征损失函数、反照率惩罚函数以及三维人脸重建指定的重建参数中目标重建参数对应的正则项,此时主要对于参数估算模型在训练过程中参考的在多项二维监督信息下的损失函数的具体设置方式进行详细的解释说明。
可选的,如图3A所示,本实施例中可以包括如下步骤:
S301,将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将重建参数输入到预先构建的三维形变模型中,重建出训练样本对应的三维人脸。
S302,从训练样本中分割出对应的皮肤掩膜。
可选的,掩模是由像素值0和1组成的一个二进制图像,本实施例在设置图像像素损失函数时,为了保证训练过程中图像像素损失的准确性,通过在训练样本中应用皮肤掩模,可以使训练样本中的人脸皮肤区域的像素值均设置为1,而非人脸皮肤区域的像素值均设置为0,从而采用皮肤分割算法从训练样本中准确分割出对应的人脸皮肤区域,以便避免非人脸皮肤区域内的像素特征对于三维人脸重建造成的干扰。
S303,基于皮肤掩膜,计算三维人脸与训练样本中处于人脸皮肤区域内的同一像素点的像素误差,得到对应的图像像素损失函数。
可选的,从训练样本中分割出对应的皮肤掩膜后,可以从重建出的三维人脸与训练样本中查找出同一像素位置下的像素点,然后基于所分割出的皮肤掩膜可以准确判断出各个同一像素点是否处于人脸皮肤区域内,通过计算三维人脸与训练样本中处于人脸皮肤区域内的各个像素点的像素误差,来分析三维人脸和训练样本在人脸皮肤区域内的整体像素误差,从而得到对应的图像像素损失函数,此该图像像素损失函数只比对重建前后在人脸皮肤区域内的像素误差,而屏蔽非人脸皮肤区域的像素影响,使得估算出的重建参数中的人脸身份特征和反照率信息更加准确。
示例性的,本实施例中的图像像素损失函数可以为:
其中,为第i个训练样本中像素点(j,k)的像素值,为对第i张训练样本重建出的三维人脸中像素点(j,k)的像素值,Mjk为皮肤掩膜中像素点(j,k)的像素值,此时皮肤掩膜中处于人脸皮肤区域内像素点的Mjk为1,否则为0。
S304,从训练样本中提取预设位置下的关键特征点,并确定每一关键特征点的可见性。
可选的,为了保证关键特征点在重建出的三维人脸和训练样本中的一一匹配性,本实施例在设置训练过程中的关键点损失函数时,可以采用Landmark算法可以从训练样本中提取出各个面部区域内预设位置下的关键特征点,例如人脸轮廓上17个关键特征点,左右眉毛上各5个关键特征点,左右眼睛上各6个关键特征点,鼻子上9个关键特征点和嘴巴上20个关键特征点等;示例性的,本实施例中可以共采用68个关键特征点,如图3D所示。此时,由于不同训练样本中人脸头部姿态各不相同,可能会导致某些预设位置下的关键特征点并不可见,因此在从训练样本中提取出各个预设位置下的关键特征点后,还需要进一步判断各个关键特征点是否可见,后续仅需要对可见的关键特征点的重建情况进行损失判断,以实现各种头部姿态下训练样本的重建。
S305,计算每一可见的关键特征点在三维人脸与训练样本之间的位置重建误差,得到对应的关键点损失函数。
可选的,在确定出各个可见的关键特征点后,通过分析每一可见的关键特征点在重建出的三维人脸和训练样本上的像素位置是否一致,计算出每一可见的关键特征点在重建前后的位置重建误差,进而得到对应的关键点损失函数。此时,对于训练样本中头部旋转角度较大的人脸,只需要选择可见的半边关键特征点来计算对应的关键点重建损失,不可见的关键特征点不参与关键点重建的损失计算。
此外,由于训练过程中,重建后的三维人脸与训练样本中头部姿态可能会存在不同,而为了保证同一像素点在三维人脸与训练样本中的匹配性,本实施例会在重建后的三维人脸中采用动态选择关键特征点的方式,来确定与训练样本中各个可见的关键特征点相匹配的顶点;示例性的,根据三维人脸中的头部姿态,从三维人脸中动态选取出与每一可见的关键特征点匹配的三维网格顶点,并将该三维网格顶点在三维人脸中的位置信息作为该可见的关键特征点的重建位置,以计算该可见的关键特征点在三维人脸与训练样本之间的位置重建误差。
具体的,首先分析重建出的三维人脸中头部平移位置和旋转角度等头部姿态,然后根据该三维人脸中的头部姿态,以及每一可见的关键特征点所代表的人脸部位,从而在该三维人脸中动态选择出与每一可见的关键特征点匹配的三维网格顶点,如图3C所示,将该三维网格顶点在三维人脸中的位置信息作为该可见的关键特征点的重建位置,按照上述方式计算出每一可见的关键特征点在三维人脸中的重建位置,以便后续计算每一可见的关键特征点在三维人脸与训练样本之间的位置重建误差。
示例性的,本实施例中的关键点损失函数可以为:
其中,为第i个训练样本中第j个关键特征点的位置坐标,为对第i个训练样本重建出的三维人脸中第j个关键特征点的位置坐标,vij表示第j个关键特征点的可见性,可见关键特征点的置位1,不可见关键特征点的值为0,wj为第j个关键特征点在损失函数中的权重,在不同人脸部位(如眼睛、嘴巴、轮廓点等)分别采用不同的权重,这些权重通过调整wj的大小来控制。
S306,将训练样本和重建后的三维人脸分别输入到预先构建的人脸识别模型中,得到训练样本对应的第一身份特征,以及三维人脸对应的第二身份特征。
可选的,对于身份特征损失函数,实质是分析重建前后的身份特征是否发生变化,因此本实施例针对身份特征识别,可以预先构建出一个相应的人脸识别模型,通过该人脸识别模型来提取重建前后的身份特征;具体的,如图3B所示,首先将训练样本和重建后的三维人脸分别输入到该人脸识别模型中,通过该人脸识别模型分别对训练样本和三维人脸中的人脸特征进行分析,从而分别确定出训练样本对应的第一身份特征,以及三维人脸对应的第二身份特征,以便后续判断重建前后的身份特征是否存在误差。
此外,由于训练样本中的人脸头部姿态可能会存在一定的旋转角度,使得训练样本中的部分人脸区域不可见,此时单一角度下提取出的身份特征可能会存在一定的失误,因此为了保证第一身份特征的准确性,本实施例中训练样本对应的第一身份特征,还可以采用如下步骤计算:采集从多角度下拍摄的与训练样本具有相同人脸的各人脸图像,并将各人脸图像分别输入到预先构建的三维形变模型中,提取出每一人脸图像对应的身份子特征;整合各身份子特征,得到训练样本对应的第一身份特征。
具体的,通过分析训练样本中的人脸,额外从多角度下拍摄多个与该训练样本具有相同人脸的人脸图像,然后将各个多角度下拍摄的人脸图像分别输入到该三维形变模型中,通过该三维形变模型中表示人脸外形变化的第一主成分基可以对各个人脸图像进行身份特征提取,从而得到每一人脸图像对应的身份子特征,此时对于各个身份子特征进行特征整合,得到该训练样本对应的第一身份特征,从而保证该第一身份特征的全面性和准确性。
S307,根据第一身份特征和第二身份特征之间的相似度,计算对应的身份特征损失函数。
可选的,在得到训练样本对应的第一身份特征,以及三维人脸对应的第二身份特征后,为了分析重建前后的身份特征是否存在误差,则首先需要判断第一身份特征与第二身份特征之间的相似性,进而依据该相似性,计算出对应的身份特征损失函数。
示例性的,本实施例中的身份特征损失函数可以为:
S308,计算三维人脸中每一顶点的反照率。
可选的,本实施例通过检测训练样本中各个像素点的颜色和反射光强度等信息,可以计算出各个像素点的反照率,然后根据重建后的三维人脸中的每一顶点与训练样本中各个像素点的位置匹配情况,可以设置重建出的三维人脸上每一顶点的反照率,以保证重建前后人脸反照率的一致性。
S309,基于三维人脸中各顶点的反照率和预设反照率区间,计算对应的反照率惩罚函数。
可选的,为了保证重建后三维人脸中各顶点的反照率不会过暗,也不会过亮,本实施例会对三维人脸中各顶点上的反照率进行相应调整,此时本实施例会预先设置一个合理的预设反照率区间,本实施例中的预设反照率区间可以为[0.05,0.95],以使重建后的三维人脸中各顶点的反照率能够全部处于该预设反照率区间内,因此通过分析三维人脸中各顶点的反照率是否处于该预设反照率区间内,可以计算出对应的反照率惩罚函数,以在训练过程中不断优化重建后三维人脸上的反照率。
需要说明的是,本实施例中的S302和S303为图像像素损失函数的计算步骤,S304和S305为关键点损失函数的计算步骤,S306和S307为身份特征损失函数的计算步骤,S308和S309为反照率惩罚函数的计算步骤,此时本实施例中图像像素损失函数、关键点损失函数、身份特征损失函数和反照率惩罚函数对应的计算步骤可以同时执行,也可以依次执行,对此不作限定。
S310,调整每一损失函数对应的权重。
S311,基于每一损失函数以及对应的权重生成对应的拟合损失函数,并利用拟合损失函数对神经网络模型进行反向修正,得到训练后的参数估算模型。
本实施例提供的技术方案,通过在训练样本中采用皮肤掩膜和动态选择关键特征点的方式,对多项二维监督信息下的损失函数中的个别损失函数进行优化,从而保证参数估算模型的训练准确性,通过多项二维监督信息下的损失函数来训练参数估算模型,使得训练过程中参考信息更加全面,提高三维人脸重建时采用的重建参数的估算准确性。
实施例四
图4为本发明实施例四提供的一种参数估算模型的训练装置的结构示意图,具体的,如图4所示,该装置可以包括:
三维重建模块410,用于将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸;
损失函数计算模块420,用于计算所述三维人脸与所述训练样本之间在多项二维监督信息下的损失函数,并调整每一所述损失函数对应的权重;
模型训练模块430,用于基于每一所述损失函数以及对应的权重生成对应的拟合损失函数,并利用所述拟合损失函数对所述神经网络模型进行反向修正,得到训练后的参数估算模型。
本实施例提供的技术方案,针对三维人脸重建时指定需要采用的各个重建参数,会预先构建出对应的神经网络模型,通过将人脸图像训练集中的每一训练样本分别输入到该神经网络模型中,来估算出该训练样本在三维人脸重建时所需要的重建参数,并将该重建参数输入到预先构建的三维形变模型中,重建出该训练样本对应的三维人脸,此时通过计算三维人脸与训练样本之间在多项二维监督信息下的损失函数,以及调整每一损失函数对应的权重,可以生成该神经网络模型训练时的拟合损失函数,该拟合损失函数仅需要利用多个监督信息下的二维人脸信息,而无需在重建三维人脸前参考额外的三维人脸信息,即可不断对该神经网络模型进行反向修正,得到训练后的参数估算模型,从而优化三维人脸重建中估算相应重建参数所采用的参数估算模型的训练方式,通过多项二维监督信息下的损失函数来训练参数估算模型,使得训练过程中参考信息更加全面,提高三维人脸重建时采用的重建参数的估算准确性;同时,后续采用训练后的参数估算模型来估算三维人脸重建时的重建参数,使得待重建的人脸图像在三维形变模型中的形变过程更为准确,保证三维人脸重建的准确性,无需在三维人脸重建过程中部署额外的信息设备,降低三维人脸重建的操作复杂性。
本实施例提供的参数估算模型的训练装置可适用于上述任意实施例提供的参数估算模型的训练方法,具备相应的功能和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该设备包括处理器50、存储装置51和通信装置52;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备中的处理器50、存储装置51和通信装置52可以通过总线或其他方式连接,图5中以通过总线连接为例。
本实施例提供的一种计算机设备可用于执行上述任意实施例提供的参数估算模型的训练方法,具备相应的功能和有益效果。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述任意实施例中的参数估算模型的训练方法。该方法具体可以包括:
将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸;
计算所述三维人脸与所述训练样本之间在多项二维监督信息下的损失函数,并调整每一所述损失函数对应的权重;
基于每一所述损失函数以及对应的权重生成对应的拟合损失函数,并利用所述拟合损失函数对所述神经网络模型进行反向修正,得到训练后的参数估算模型。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的参数估算模型的训练方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述参数估算模型的训练装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种参数估算模型的训练方法,其特征在于,包括:
将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸;
计算所述三维人脸与所述训练样本之间在多项二维监督信息下的损失函数,并调整每一所述损失函数对应的权重;
基于每一所述损失函数以及对应的权重生成对应的拟合损失函数,并利用所述拟合损失函数对所述神经网络模型进行反向修正,得到训练后的参数估算模型。
2.根据权利要求1所述的方法,其特征在于,所述多项二维监督信息下的损失函数包括:图像像素损失函数、关键点损失函数、身份特征损失函数、反照率惩罚函数以及所述三维人脸重建指定的重建参数中目标重建参数对应的正则项。
3.根据权利要求2所述的方法,其特征在于,如果计算所述三维人脸与所述训练样本之间的图像像素损失函数,则所述方法还包括:
从所述训练样本中分割出对应的皮肤掩膜;
相应的,所述计算所述三维人脸与所述训练样本之间的图像像素损失函数,包括:
基于所述皮肤掩膜,计算所述三维人脸与所述训练样本中处于人脸皮肤区域内的同一像素点的像素误差,得到对应的图像像素损失函数。
4.根据权利要求2所述的方法,其特征在于,如果计算所述三维人脸与所述训练样本之间的关键点损失函数,则所述方法还包括:
从所述训练样本中提取预设位置下的关键特征点,并确定每一所述关键特征点的可见性;
相应的,所述计算所述三维人脸与所述训练样本之间的关键点损失函数,包括:
计算每一可见的关键特征点在所述三维人脸与所述训练样本之间的位置重建误差,得到对应的关键点损失函数。
5.根据权利要求4所述的方法,其特征在于,在计算每一可见的关键特征点在所述三维人脸与所述训练样本之间的位置重建误差之前,还包括:
根据所述三维人脸中的头部姿态,从所述三维人脸中动态选取出与每一所述可见的关键特征点匹配的三维网格顶点,并将该三维网格顶点在所述三维人脸中的位置信息作为该可见的关键特征点的重建位置,以计算该可见的关键特征点在所述三维人脸与所述训练样本之间的位置重建误差。
6.根据权利要求2所述的方法,其特征在于,如果计算所述三维人脸与所述训练样本之间的身份特征损失函数,则所述方法还包括:
将所述训练样本和重建后的三维人脸分别输入到预先构建的人脸识别模型中,得到所述训练样本对应的第一身份特征,以及所述三维人脸对应的第二身份特征;
相应的,所述计算所述三维人脸与所述训练样本之间的身份特征损失函数,包括:
根据所述第一身份特征和所述第二身份特征之间的相似度,计算对应的身份特征损失函数。
7.根据权利要求6所述的方法,其特征在于,所述训练样本对应的第一身份特征,还采用如下步骤计算:
采集从多角度下拍摄的与所述训练样本具有相同人脸的各人脸图像,并将各所述人脸图像分别输入到预先构建的三维形变模型中,提取出每一所述人脸图像对应的身份子特征;
整合各所述身份子特征,得到所述训练样本对应的第一身份特征。
8.根据权利要求2所述的方法,其特征在于,如果计算所述三维人脸的反照率惩罚函数,则所述方法还包括:
计算所述三维人脸中每一顶点的反照率;
相应的,所述计算所述三维人脸的反照率惩罚函数,包括:
基于所述三维人脸中各顶点的反照率和预设反照率区间,计算对应的反照率惩罚函数。
9.根据权利要求1所述的方法,其特征在于,所述三维形变模型由双主成分分析PCA模型和单PCA模型共同构成,所述双PCA模型中定义有三维平均人脸、表示人脸外形变化的第一主成分基以及表示人脸表情变化的第二主成分基;
所述单PCA模型中定义有人脸平均反照率以及表示人脸反照率变化的第三主成分基;
相应的,将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸,包括:
将与所述第一主成分基和所述第二主成分基分别匹配的重建参数输入到所述双PCA模型中,对所述三维平均人脸进行形变,得到对应的三维形变人脸;
将所述三维形变人脸以及与所述第三主成分基匹配的重建参数输入到所述单PCA模型中,基于所述人脸平均反照率对所述三维形变人脸进行反照率修正,得到重建后的三维人脸。
10.根据权利要求9所述的方法,其特征在于,在将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸之前,还包括:
采集多维度数据源下光照均匀的三维人脸扫描数据,并对所述三维人脸扫描数据分别进行形变分析、表情变化分析和反照率分析,得到对应的三维平均人脸、人脸平均反照率、第一主成分基、第二主成分基和第三主成分基。
11.根据权利要求9所述的方法,其特征在于,所述三维形变模型中还定义有表示人脸光照变化的光照参数、表示人脸平移的位置参数以及表示人脸头部姿态的旋转参数。
12.根据权利要求1-11任一项所述的方法,其特征在于,在计算所述三维人脸与所述训练样本之间在多项二维监督信息下的损失函数之前,还包括:
利用可微分渲染器渲染所述三维人脸,以采用渲染后的三维人脸训练所述参数估算模型。
13.根据权利要求1-11任一项所述的方法,其特征在于,在利用所述拟合损失函数对所述神经网络模型进行反向修正,得到训练后的参数估算模型之后,还包括:
将待重建的二维人脸图像输入到所述参数估算模型中,估算出三维人脸重建指定的重建参数,并将所述重建参数输入到预先构建的三维形变模型中,重建出所述二维人脸图像对应的三维人脸。
14.一种参数估算模型的训练装置,其特征在于,包括:
三维重建模块,用于将人脸图像训练集中的每一训练样本分别输入到预先构建的神经网络模型中,估算出三维人脸重建指定的重建参数,并将所述重建参数输入到预先构建的三维形变模型中,重建出所述训练样本对应的三维人脸;
损失函数计算模块,用于计算所述三维人脸与所述训练样本之间在多项二维监督信息下的损失函数,并调整每一所述损失函数对应的权重;
模型训练模块,用于基于每一所述损失函数以及对应的权重生成对应的拟合损失函数,并利用所述拟合损失函数对所述神经网络模型进行反向修正,得到训练后的参数估算模型。
15.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-13中任一所述的参数估算模型的训练方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-13中任一所述的参数估算模型的训练方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011211255.4A CN112529999A (zh) | 2020-11-03 | 2020-11-03 | 一种参数估算模型的训练方法、装置、设备和存储介质 |
EP21888418.7A EP4207079A4 (en) | 2020-11-03 | 2021-10-22 | METHOD AND DEVICE FOR TRAINING A PARAMETER ESTIMATION MODEL AS WELL AS DEVICE AND STORAGE MEDIUM |
JP2023523272A JP7526412B2 (ja) | 2020-11-03 | 2021-10-22 | パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体 |
PCT/CN2021/125575 WO2022095721A1 (zh) | 2020-11-03 | 2021-10-22 | 参数估算模型的训练方法、装置、设备和存储介质 |
US18/248,315 US20240296624A1 (en) | 2020-11-03 | 2021-10-22 | Method and apparatus for training parameter estimation models, device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011211255.4A CN112529999A (zh) | 2020-11-03 | 2020-11-03 | 一种参数估算模型的训练方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529999A true CN112529999A (zh) | 2021-03-19 |
Family
ID=74979505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011211255.4A Pending CN112529999A (zh) | 2020-11-03 | 2020-11-03 | 一种参数估算模型的训练方法、装置、设备和存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240296624A1 (zh) |
EP (1) | EP4207079A4 (zh) |
JP (1) | JP7526412B2 (zh) |
CN (1) | CN112529999A (zh) |
WO (1) | WO2022095721A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256799A (zh) * | 2021-06-07 | 2021-08-13 | 广州虎牙科技有限公司 | 一种三维人脸模型训练方法和装置 |
CN113506367A (zh) * | 2021-08-24 | 2021-10-15 | 广州虎牙科技有限公司 | 一种三维人脸模型训练方法、三维人脸重建方法及相关装置 |
CN113538682A (zh) * | 2021-07-19 | 2021-10-22 | 北京的卢深视科技有限公司 | 模型训练、头部重建方法、电子设备及存储介质 |
CN114266860A (zh) * | 2021-12-22 | 2022-04-01 | 西交利物浦大学 | 三维人脸模型建立方法、装置、电子设备及存储介质 |
CN114373034A (zh) * | 2022-01-10 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序 |
CN114399424A (zh) * | 2021-12-23 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 模型训练方法及相关设备 |
WO2022095721A1 (zh) * | 2020-11-03 | 2022-05-12 | 百果园技术(新加坡)有限公司 | 参数估算模型的训练方法、装置、设备和存储介质 |
CN115439610A (zh) * | 2022-09-14 | 2022-12-06 | 中国电信股份有限公司 | 模型的训练方法、训练装置、电子设备和可读存储介质 |
WO2023050992A1 (zh) * | 2021-09-30 | 2023-04-06 | 广州视源电子科技股份有限公司 | 用于人脸重建的网络训练方法、装置、设备及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648613B (zh) * | 2022-05-18 | 2022-08-23 | 杭州像衍科技有限公司 | 基于可变形神经辐射场的三维头部模型重建方法及装置 |
CN115761116B (zh) * | 2022-11-03 | 2023-08-18 | 云南大学 | 一种基于单目相机的透视投影下三维人脸重建方法 |
CN117152231B (zh) * | 2023-10-31 | 2024-01-26 | 中国农业大学 | 预设类别目标的三维形状估计方法、装置及电子设备 |
CN118262097A (zh) * | 2024-04-10 | 2024-06-28 | 北京透彻未来科技有限公司 | 一种基于病理大模型的目标检测模型构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191507A (zh) * | 2018-08-24 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 三维人脸图像重建方法、装置和计算机可读存储介质 |
CN110619676A (zh) * | 2019-09-18 | 2019-12-27 | 东北大学 | 一种基于神经网络的端到端的三维人脸重建方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9679192B2 (en) * | 2015-04-24 | 2017-06-13 | Adobe Systems Incorporated | 3-dimensional portrait reconstruction from a single photo |
CN109978989B (zh) | 2019-02-26 | 2023-08-01 | 腾讯科技(深圳)有限公司 | 三维人脸模型生成方法、装置、计算机设备及存储介质 |
CN109934300B (zh) | 2019-03-21 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 模型压缩方法、装置、计算机设备及存储介质 |
CN110414370B (zh) * | 2019-07-05 | 2021-09-14 | 深圳云天励飞技术有限公司 | 人脸脸型识别方法、装置、电子设备及存储介质 |
CN111428667A (zh) | 2020-03-31 | 2020-07-17 | 天津中科智能识别产业技术研究院有限公司 | 一种基于解耦表达学习生成对抗网络的人脸图像转正方法 |
CN112529999A (zh) * | 2020-11-03 | 2021-03-19 | 百果园技术(新加坡)有限公司 | 一种参数估算模型的训练方法、装置、设备和存储介质 |
-
2020
- 2020-11-03 CN CN202011211255.4A patent/CN112529999A/zh active Pending
-
2021
- 2021-10-22 EP EP21888418.7A patent/EP4207079A4/en active Pending
- 2021-10-22 WO PCT/CN2021/125575 patent/WO2022095721A1/zh active Application Filing
- 2021-10-22 JP JP2023523272A patent/JP7526412B2/ja active Active
- 2021-10-22 US US18/248,315 patent/US20240296624A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191507A (zh) * | 2018-08-24 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 三维人脸图像重建方法、装置和计算机可读存储介质 |
CN110619676A (zh) * | 2019-09-18 | 2019-12-27 | 东北大学 | 一种基于神经网络的端到端的三维人脸重建方法 |
Non-Patent Citations (3)
Title |
---|
L TRAN等: "Towards high-fidelity nonlinear 3D face morphable model", 《CVPR 2019》, 30 April 2019 (2019-04-30), pages 1 - 10 * |
周健等: "基于改进三维形变模型的三维人脸重建和密集人脸对齐方法", 《计算机应用》, vol. 40, no. 11, 2 June 2020 (2020-06-02), pages 3306 - 3313 * |
罗尧: "基于单幅图片的三维人脸重建算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 07, 15 July 2020 (2020-07-15), pages 138 - 758 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022095721A1 (zh) * | 2020-11-03 | 2022-05-12 | 百果园技术(新加坡)有限公司 | 参数估算模型的训练方法、装置、设备和存储介质 |
CN113256799A (zh) * | 2021-06-07 | 2021-08-13 | 广州虎牙科技有限公司 | 一种三维人脸模型训练方法和装置 |
CN113538682A (zh) * | 2021-07-19 | 2021-10-22 | 北京的卢深视科技有限公司 | 模型训练、头部重建方法、电子设备及存储介质 |
CN113538682B (zh) * | 2021-07-19 | 2022-05-31 | 合肥的卢深视科技有限公司 | 模型训练、头部重建方法、电子设备及存储介质 |
CN113506367A (zh) * | 2021-08-24 | 2021-10-15 | 广州虎牙科技有限公司 | 一种三维人脸模型训练方法、三维人脸重建方法及相关装置 |
CN113506367B (zh) * | 2021-08-24 | 2024-02-27 | 广州虎牙科技有限公司 | 一种三维人脸模型训练方法、三维人脸重建方法及相关装置 |
WO2023050992A1 (zh) * | 2021-09-30 | 2023-04-06 | 广州视源电子科技股份有限公司 | 用于人脸重建的网络训练方法、装置、设备及存储介质 |
CN114266860A (zh) * | 2021-12-22 | 2022-04-01 | 西交利物浦大学 | 三维人脸模型建立方法、装置、电子设备及存储介质 |
CN114266860B (zh) * | 2021-12-22 | 2024-08-13 | 西交利物浦大学 | 三维人脸模型建立方法、装置、电子设备及存储介质 |
CN114399424A (zh) * | 2021-12-23 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 模型训练方法及相关设备 |
CN114373034A (zh) * | 2022-01-10 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序 |
CN115439610A (zh) * | 2022-09-14 | 2022-12-06 | 中国电信股份有限公司 | 模型的训练方法、训练装置、电子设备和可读存储介质 |
CN115439610B (zh) * | 2022-09-14 | 2024-04-26 | 中国电信股份有限公司 | 模型的训练方法、训练装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022095721A1 (zh) | 2022-05-12 |
EP4207079A4 (en) | 2024-10-16 |
JP7526412B2 (ja) | 2024-08-01 |
JP2023545200A (ja) | 2023-10-26 |
US20240296624A1 (en) | 2024-09-05 |
EP4207079A1 (en) | 2023-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022095721A1 (zh) | 参数估算模型的训练方法、装置、设备和存储介质 | |
CN109859296B (zh) | Smpl参数预测模型的训练方法、服务器及存储介质 | |
JP7200139B2 (ja) | 仮想顔化粧の除去、高速顔検出およびランドマーク追跡 | |
EP4293567A1 (en) | Three-dimensional face reconstruction method and apparatus, device, and storage medium | |
Aldrian et al. | Inverse rendering of faces with a 3D morphable model | |
US7426292B2 (en) | Method for determining optimal viewpoints for 3D face modeling and face recognition | |
CN109299643B (zh) | 一种基于大姿态对准的人脸识别方法及系统 | |
JP6685827B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
US20080309662A1 (en) | Example Based 3D Reconstruction | |
KR20170008638A (ko) | 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법 | |
CN104123749A (zh) | 一种图像处理方法及系统 | |
WO2019050808A1 (en) | SCANNING AVATAR FROM A SINGLE IMAGE FOR REAL TIME REALIZATION | |
WO2004081854A1 (en) | Viewpoint-invariant detection and identification of a three-dimensional object from two-dimensional imagery | |
CN112862807B (zh) | 基于头发图像的数据处理方法及装置 | |
CN113628327A (zh) | 一种头部三维重建方法及设备 | |
CN112419144B (zh) | 人脸图像的处理方法、装置、电子设备及存储介质 | |
CN115131492A (zh) | 目标对象的重光照方法、装置及存储介质和背景替换方法 | |
CN112613460B (zh) | 人脸生成模型的建立方法和人脸生成方法 | |
KR20230085931A (ko) | 얼굴 이미지에서 색상을 추출하기 위한 방법 및 시스템 | |
Wang et al. | Digital twin: Acquiring high-fidelity 3D avatar from a single image | |
CN114373043A (zh) | 一种头部三维重建方法及设备 | |
JP2005317000A (ja) | 最適な視点のセットで得られた2d画像からの顔の3d形状構築に最適な視点のセットを求める方法 | |
Chen et al. | Ultraman: Single Image 3D Human Reconstruction with Ultra Speed and Detail | |
CN115936796A (zh) | 一种虚拟换妆方法、系统、设备和存储介质 | |
Kendrick et al. | An online tool for the annotation of 3d models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |