CN117975525A - 一种基于无监督的三维人脸模型的重建系统与方法 - Google Patents
一种基于无监督的三维人脸模型的重建系统与方法 Download PDFInfo
- Publication number
- CN117975525A CN117975525A CN202311847024.6A CN202311847024A CN117975525A CN 117975525 A CN117975525 A CN 117975525A CN 202311847024 A CN202311847024 A CN 202311847024A CN 117975525 A CN117975525 A CN 117975525A
- Authority
- CN
- China
- Prior art keywords
- face
- dimensional
- image
- module
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000006073 displacement reaction Methods 0.000 claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000005286 illumination Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 16
- 238000002156 mixing Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 8
- 230000000750 progressive effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 3
- 238000003909 pattern recognition Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 208000032538 Depersonalisation Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010146 3D printing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computer Graphics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于无监督的三维人脸模型的重建系统与方法,涉及计算机模式识别领域,所述系统包括:人脸及其关键点检测模块、粗人脸特征提取模块、粗人脸重建模块、正映射模块、UV位移图生成模块、UV可见掩膜预测模块、反映射模块和精细人脸模型重建模块。所述方法包括:步骤1、检测输入的真实人物照片,获取原始人脸图像I以及人脸关键点坐标;步骤2、采用VGG网络提取239维特征向量;步骤3、重建出粗糙的3D人脸模型;步骤4、生成UV位移图;步骤5、生成UV可见掩模,并将UV可见掩模与UV位移图的对应位置数字相乘,得到鲁棒的UV位移图,并重新映射回粗糙的3D人脸模型上,获得精细的3D人脸模型;实现自监督训练,并出最终的3D人脸模型。
Description
技术领域
本发明涉及计算机模式识别领域,尤其涉及一种基于无监督的三维人脸模型的重建系统与方法。
背景技术
人的面部往往是人体上最具表现力和差异性的部分,其在身份识别、情绪表达等方面起着至关重要的作用,因此在计算机视觉领域,围绕人脸的研究一直占据着非常重要的地位。随着算力的提升和算法的进步,二维人脸特征日渐无法满足诸多应用的要求。对于有些应用,例如用于娱乐或医疗的人脸个性化虚拟化身或三维打印,一个特定人脸的准确的三维重建模至关重要。为获取高精度的真实三维人脸模型,传统方法非常依赖于复杂系统的采集,如使用高成本、高精度的大型数字扫描设备,或需进行精准相机矫正和同步的多相机光学系统。虽然这些系统可以采集满足工业界要求的高精度人脸模型,但搭建这些系统需要高昂的成本和控制苛刻的采集环境,因此这些技术难以推广到面向广大消费者的日常应用场景。
以人脸二维图像为基础进行三维人脸的建模具备使用简单、数据易获取等特点,是目前三维建模的研究热点。基于单张二维图像的三维人脸建模不需要特殊昂贵的设备,只需要通过计算机视觉算法即可生成具备一定辨识度和应用效果的能力。
张元等人在中国发明专利申请“一种基于单张图像的三维人脸重建方法”(申请号为CN202010060376.7)中通过将选择的三维人脸数据对齐构建出三维人脸的通用模型,再根据二维关键点将通用人脸模型个性化,采用形变模型与单张图像结合的方法来解决通用模型灵活性较弱的缺点,但手动标记人脸关键点较为复杂并耗费大量人力,而且此类形变模型重建出的三维人脸往往存在表面光滑性较弱、无法重建人脸细节、无法对部分遮挡具有鲁棒性等缺点。
施柏鑫等人在中国发明专利申请“基于单帧图像的三维人脸重建方法、装置、设备及介质”(申请号为CN201910550324.5)中将二维人脸图像输入预设三维人脸模型中进行正映射,得到与所述二维人脸图像对应的人脸法向量映射图和人脸纹理映射图,再通过人脸表观属性分解网络输入所述预设三维人脸模型进行反映射,得到重建出的三维人脸模型,该方法需要大量带标记的三维人脸数据,获取途径较为昂贵,适用场景有限。
因此,本领域的技术人员致力于开发一种新的三维人脸模型的重建系统与方法,解决现有技术中存在的上述问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何克服现有技术中单张图片重建人脸模型时存在的在大多数情况下无法捕捉到人脸的详细纹理信息的问题。
为实现上述目的,本发明提供了一种基于无监督的三维人脸模型的重建系统与方法,是一种端到端的三维人脸重建框架,以便从单个人脸图像中恢复详细的三维人脸,具体是采用粗糙重建与精细重建结合的办法,利用输入图像的面部细节来细化基于三维可变人脸模型(3D Morphable Model,3DMM),重建出带有细节的三维人脸模型。该方法全程采用无监督的训练方法,无需额外获取大量的三维人脸数据来保证模型的可用性,技术成熟且价格低,利于大批量使用。
本发明提供的一种基于无监督的三维人脸模型的重建系统包括:
人脸及其关键点检测模块,所述人脸及其关键点检测模块包括人脸检测模块和人脸关键点检测模块,先通过所述人脸检测模块来检测输入的真实人物照片,获取原始人脸图像I,再用所述人脸关键点检测模块从获取的所述原始人脸图像I上检测获得人脸关键点坐标;
粗人脸特征提取模块,所述粗人脸特征提取模块连接所述人脸及其关键点检测模块,从所述人脸关键点坐标中获取重建人脸的形状信息与纹理信息,并采用VGG网络提取239维特征向量,所述239维特征向量包括3DMM的形状和纹理参数的前80维参数以及光照和投影矩阵参数;重建人脸的形状信息与纹理信息具体为:
其中,Smodel和Tmodel分别代表重建人脸的形状信息与纹理信息,与/>为平均人脸的形状及纹理,si、ei和ti分别为第i个人脸正交基的形状、表情与纹理信息,m为人脸正交基的个数,αi、βi和δi为3DMM的形状、表情与纹理参数;
粗人脸重建模块,所述粗人脸重建模块连接所述粗人脸特征提取模块,将所述239维特征向量输入3DMM线性模型,重建出粗糙的3D人脸模型,得到第一新人脸图像I′,并在训练所述3DMM线性模型的过程中,使用所述原始人脸图像I和所述第一新人脸图像I′计算第一混合水平损失;
正映射模块,所述正映射模块连接所述粗人脸重建模块,将重建出的所述粗糙的3D人脸模型通过三维坐标变换及变换矩阵重新映射回二维图像;
UV位移图生成模块,所述UV位移图生成模块连接所述正映射模块,使用PSENet将低级纹理特征与高级语义特征进行从低到高的融合,得到2048通道的特征图,并将所述2048通道的特征图经过卷积层及sigmoid层产生UV结果图U1和辅助图像U2,再使用渐进比例展开算法将所述辅助图像U2与所述UV结果图U1融合生成最终的UV位移图;
UV可见掩膜预测模块,所述UV可见掩膜预测模块连接所述正映射模块,使用Unet来生成UV可见掩模,并将所述UV可见掩模与所述UV位移图相融合,得到鲁棒的UV位移图;
反映射模块,所述反映射模块连接所述UV位移图生成模块和所述UV可见掩膜预测模块,将所述鲁棒的UV位移图重新映射回所述粗糙的3D人脸模型上,以获得带有纹理的精细的3D人脸模型;
精细人脸模型重建模块,所述精细人脸模型重建模块连接所述反映射模块,将带有纹理的所述精细的3D人脸模型通过所述正映射模块重新映射回二维图像,以获得第二新人脸图像I″,并通过计算第二混合水平损失来实现自监督训练,并输出最终的3D人脸模型。
进一步地,所述粗人脸重建模块中的所述第一混合水平损失是通过将光照一致性损失L2、关键点损失L1和身份一致性损失L3进行加权相加后得到。
进一步地,所述光照一致性损失L2是通过逐像素计算差异来将所述第一新人脸图像I′与所述原始人脸图像I对齐,通过惩罚光照差异来减少两张图像在像素RGB值上的差异,具体定义为:
其中,Np为图中像素点总数,I(p)和I′(p)分别为I和I′中对应像素点的RGB值。
进一步地,所述关键点损失L1是采用3D人脸对齐方法MTCNN来计算所述第一新人脸图像I′与所述原始人脸图像I中相应关键点的距离,具体定义为:
其中,N为关键点个数,Li和L′i分别为I和I′中对应的第i个关键点的坐标信息。
进一步地,所述身份一致性损失L3是将所述第一新人脸图像I′与所述原始人脸图像I输入Facenet人脸提取网络,并对输出的身份编码计算余弦相似度,确保所述第一新人脸图像I′的身份信息的一致性,具体定义为:
其中,f和f′分别为将I和I′输入Facenet人脸提取网络得到的特征向量。
进一步地,在所述UV可见掩膜预测模块中:
F=A*B
其中,F为所述鲁棒的UV位移图的矩阵,A为所述UV位移图的矩阵,B为所述UV可见掩模的矩阵,将矩阵A和B的对应位置的数字相乘。
进一步地,所述精细人脸模型重建模块中的所述第二混合水平损失是通过将光照一致性损失、身份一致性损失、平滑度损失和规则化损失进行加权相加后得到。
进一步地,所述光照一致性损失L4和所述身份一致性损失L5的定义分别为:
其中,Np为图中像素点总数,I(p)和I″(p)分别为I和I″中对应像素点的RGB值,f和f″分别为将I和I″输入Facenet人脸提取网络得到的特征向量;
所述平滑度损失L6定义为:
其中,和/>表示I的梯度,P(I″)表示I″的像素矩阵,I0表示单位矩阵;
所述规则化损失L7定义为:
其中,ΔC(i)计算所述UV位移图的RGB图像和所述鲁棒的UV位移图的RGB图像之间的距离,ΔD(i)计算I的深度图像的像素与融合位移图像的人脸之间的距离。
本发明还提供一种基于无监督的三维人脸模型的重建方法,包括以下步骤:
步骤1、检测输入的真实人物照片,获取原始人脸图像I以及人脸关键点坐标;
步骤2、采用VGG网络提取239维特征向量,所述239维特征向量包括3DMM的形状和纹理参数的前80维参数以及光照和投影矩阵参数;
步骤3、将所述239维特征向量输入3DMM线性模型,重建出粗糙的3D人脸模型,得到第一新人脸图像I′,并在训练所述3DMM线性模型的过程中,使用所述原始人脸图像I和所述第一新人脸图像I′计算第一混合水平损失,并将重建出的所述粗糙的3D人脸模型通过三维坐标变换及变换矩阵重新映射回二维图像,达到自监督训练的效果;
步骤4、使用PSENet将低级纹理特征与高级语义特征进行从低到高的融合,得到2048通道的特征图,并将所述2048通道的特征图经过卷积层及sigmoid层产生UV结果图U1和辅助图像U2,再使用渐进比例展开算法将所述辅助图像U2与所述UV结果图U1融合生成最终的UV位移图;
步骤5、使用Unet来生成UV可见掩模,并将所述UV可见掩模与所述UV位移图的对应位置数字相乘,得到鲁棒的UV位移图,并将所述鲁棒的UV位移图重新映射回所述粗糙的3D人脸模型上,以获得带有纹理的精细的3D人脸模型;
步骤6、将带有纹理的所述精细的3D人脸模型通过正映射模块重新映射回二维图像,以获得第二新人脸图像I″,并通过计算第二混合水平损失来实现自监督训练,并输出最终的3D人脸模型。
进一步地,所述第二混合水平损失包括光照一致性损失、平滑度损失、身份一致性损失和规则化损失。
本发明提供的一种基于无监督的三维人脸模型的重建系统与方法至少具有以下技术效果:
1、本发明所提供的技术方案提出一种新的由粗到细的重建框架,并将精细的重建与UV可见掩模相结合,以实现准确性和鲁棒性;
2、本发明所提供的技术方案使用PSENet预测UV位移图,从多个核中恢复密集的人脸细节,可以精细化3DMM模型重建的3D形状。Unet预测的UV可见掩膜也有助于模型恢复面部遮挡的细节,如胡子和太阳镜;
3、本发明所提供的技术方案能够降低三维人脸模型获取的成本、提高三维人脸重建细节纹理重建的精细程度、提高单目重建算法对遮挡的鲁棒性。在各种数据集上的实验表明,与最先进的3D人脸建模方法相比,本发明所提供的技术方案表现良好。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的三维人脸模型的重建系统示意图;
图2是本发明的一个较佳实施例的三维人脸模型的重建方法示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
本发明实施例通过人脸识别网络检测到的人脸作为3DMM参数生成网络的输入,以生成形状、表情、纹理、姿态和照明系数。随后利用3DMM渲染的RGB图像I′和原始输入图像I之间的差异,生成位移UV图,并最终通过将位移图渲染到3DMM生成的粗糙模型来获得精细模型。同时,将原始输入图像的UV RGB图像输入图像分割网络来预测UV可见掩膜。最后,将UV掩模矩阵和位移映射矩阵的相应像素相乘,得到具有鲁棒性和细节的重建。本发明实施例使用渐进尺度扩展网络(PSENet)和Unet分别预测UV位移图和UV可见掩模,其中,PSENet为每个纹理生成不同比例的内核,并将最小比例的纹理内核逐渐扩展到具有完整形状的纹理UV图,而Unet是经典的图像分割网络,结构简单且效果较好。另一方面,为了实现有效的自监督学习,本发明实施例通过姿态和反照率将精细的3D模型渲染回2D图像,以计算混合水平损失,包括像素水平损失、平滑度损失、感知水平损失和关键点损失等多层损失函数。
具体地,本发明实施例提供一种基于无监督的三维人脸模型的重建系统,包括:
人脸及其关键点检测模块,包括人脸检测模块和人脸关键点检测模块,先通过人脸检测模块来检测输入的真实人物照片,获取原始人脸图像I,再用人脸关键点检测模块从获取的原始人脸图像I上检测获得人脸关键点坐标。近年来,多种基于神经网络的人脸及关键点检测被提出,为了检测照片中的人脸以便于后期的重建操作,选取多任务卷积神经网络(MTCNN)作为检测人脸及其86个关键点的方法。该方法采用级联结构,分三个阶段设计的深度卷积神经网络以有粗到细地预测人脸区域和对应的86个关键点的人脸坐标。将带有关键的二维人脸照片作为模块的输入。
粗人脸特征提取模块主要基于三维可变人脸模型(3D Morphable Model,3DMM)。3DMM提出并构建基于主成分分析(Principal Components Analysis,PCA)的统计人脸模型,将其用作估计深度信息的先验知识。粗人脸特征提取模块连接人脸及其关键点检测模块,从人脸关键点坐标中获取重建人脸的形状信息与纹理信息,并采用VGG网络提取239维特征向量,239维特征向量包括3DMM的形状和纹理参数的前80维参数以及光照和投影矩阵参数;重建人脸的形状信息与纹理信息具体为:
其中,Smodel和Tmodel分别代表重建人脸的形状信息与纹理信息,与/>为平均人脸的形状及纹理,si、ei和ti分别为第i个人脸正交基的形状、表情与纹理信息,m为人脸正交基的个数,αi、βi和δi为3DMM的形状、表情与纹理参数。为了简化模型的复杂度从而提高训练及预测速度,本发明实施例选择3DMM形状和纹理参数的前80维参数和PCA正交基作为3DMM模型参数。
自监督模块,本发明实施例创新性地采用自监督的方式来进行3DMM参数的训练。为了实现自监督训练,姿态和照明参数是必要的,通过这些参数可以借助正交投影将三维人脸模型投影到二维图像平面上,投影公式如下:
I2d=Pr*R*S+T
其中,I2d是投影后的二维图像,Pr和R分别为投影和旋转矩阵,T为平移矢量,本发明实施例通过采用神经网络回归参数矩阵p=[RT]来简化相机模型,随后通过将重建出的三维模型的二维投影与原图计算损失函数来达到无监督的目的。
粗人脸重建模块,连接粗人脸特征提取模块,将239维特征向量输入3DMM线性模型,通过该向量可以用PCA基的组合重建出粗糙的3D人脸模型,得到第一新人脸图像I′。本发明实施例使用可微分算法将3D模型渲染回2D平面,以获得新的人脸图像。在训练过程中,使用原始人脸图像I和第一新人脸图像I′计算第一混合水平损失。第一混合水平损失为本发明实施例实现自监督的关键,包含光照一致性损失、关键点损失和身份一致性损失。粗人脸重建模块中的第一混合水平损失是通过将光照一致性损失L2、关键点损失L1和身份一致性损失L3进行加权相加后得到粗糙人脸重建网络最终的损失函数,并以此为基础进行人脸形状网络的自监督训练,实现三维人脸形状的粗重建。
特别地,光照一致性损失L2是通过逐像素计算差异来将第一新人脸图像I′与原始人脸图像I对齐,通过惩罚光照差异来减少两张图像在像素RGB值上的差异,具体定义为:
其中,Np为图中像素点总数,I(p)和I′(p)分别为I和I′中对应像素点的RGB值。
特别地,关键点损失L1是采用3D人脸对齐方法MTCNN来计算第一新人脸图像I′与原始人脸图像I中相应86个关键点的距离,具体定义为:
其中,N为关键点个数,Li和L′i分别为I和I′中对应的第i个关键点的坐标信息。
特别地,身份一致性损失L3的目的是为防止重建结果陷入局部极小问题,将第一新人脸图像I′与原始人脸图像I输入二维人脸识别网络,即Facenet人脸提取网络,并对输出的身份编码计算余弦相似度,确保第一新人脸图像I′的身份信息的一致性,具体定义为:
其中,f和f′分别为将I和I′输入Facenet人脸提取网络得到的特征向量。
正映射模块,连接粗人脸重建模块,将重建出的粗糙的3D人脸模型通过三维坐标变换及变换矩阵p=[RT]重新映射回二维图像,并对原图和重新映射的二维图像进行UV展开。
UV位移图生成模块,UV位移图生成模块连接正映射模块。为了使重建的人脸形状具有更多的纹理特征,本发明实施例通过PSENet重建带有详细纹理信息的人脸。PSENet为每个纹理生成不同比例的内核,并将最小比例的纹理内核逐渐扩展到具有完整形状的纹理UV位移贴图。多个核用于重建彼此相邻的密集纹理细节,通过多个语义分割图将检测到的区域从小内核逐渐扩展到大而完整的实例,这使得PSENet对形状更具鲁棒性,可以在人脸上提取不同的纹理信息。本发明实施例使用ResNet作为PSENet的主干,将低级纹理特征与高级语义特征连接起来,使得特征从低到高进行融合,得到2048通道的特征图,随后特征图经过卷积层及sigmoid层产UV结果图U1和辅助图像U2,最后通过使用渐进比例展开算法将U2与U1融合来生成最终的UV位移图。将原始图像I和3DMM输出图像I′的差异设置为细节的重建输入,并将输出的鲁棒位移图与UV可见掩膜融合,仅恢复可见面部的纹理。为了实现无监督训练,最终的3D人脸模型也像也采用正映射模块投影到2D平面上。
UV可见掩膜预测模块,连接正映射模块,使用图像分割网络Unet来生成UV可见掩模,以提示图片中人脸存在被遮挡的区域,如胡子、佩戴太阳镜等,并将UV可见掩模与UV位移图相融合,得到鲁棒的UV位移图,用它可以在未遮挡的人脸区域重新覆盖详细的人脸。具体地说,F=A*B意味着将矩阵A和B的对应位置的数字相乘,其中,F为最终的鲁棒的UV位移图,A为下述预测出的UV位移图,B为当前模块预测出的UV可见掩膜。通过本模块使得被遮挡的人脸区域对重建的影响减小,从而使模型对少部分遮挡具有一定的鲁棒性。
反映射模块,连接UV位移图生成模块和UV可见掩膜预测模块,将鲁棒的UV位移图重新映射回粗糙的3D人脸模型上,以获得带有纹理的精细的3D人脸模型。
精细人脸模型重建模块,连接反映射模块,将带有纹理的精细的3D人脸模型通过正映射模块重新映射回二维图像,以获得第二新人脸图像I″,并通过计算第二混合水平损失来实现自监督训练,并输出最终的3D人脸模型。精细人脸模型重建模块中的第二混合水平损失是通过将光照一致性损失、身份一致性损失、平滑度损失和规则化损失进行加权相加后得到。
特别地,光照一致性损失L4和身份一致性损失L5的定义分别为:
其中,Np为图中像素点总数,I(p)和I″(p)分别为I和I″中对应像素点的RGB值,f和f″分别为将I和I″输入Facenet人脸提取网络得到的特征向量;
平滑度损失L6定义为:
其中,和/>表示I的梯度,P(I″)表示I″的像素矩阵,I0表示单位矩阵;
规则化损失L7定义为:
其中,ΔC(i)计算UV位移图的RGB图像和鲁棒的UV位移图的RGB图像之间的距离,ΔD(i)计算I的深度图像的像素与融合位移图像的人脸之间的距离。
本发明实施例还提供一种基于无监督的三维人脸模型的重建方法,包括两个框架,分别是3DMM回归框架和细节建模框架。3DMM回归模块通过可训练的VGG网络和不可训练的可微分渲染器从输入图像中学习预测3DMM参数。细节建模模块采用图像到图像的平移网络来从展开的输入图像和回归的3DMM纹理UV图预测UV空间中的位移图。然后将位移深度图添加回基于3DMM的粗略模型,以获得最终的详细3D模型。最后,可微分UV渲染器通过比较最终渲染输出和输入图像之间的差异,使整个学习过程能够自我监督。
具体地,本发明实施例提供的一种基于无监督的三维人脸模型的重建方法,包括以下步骤:
步骤1、检测输入的真实人物照片,获取原始人脸图像I以及人脸的86个关键点坐标;
步骤2、采用VGG网络提取239维特征向量,239维特征向量包括3DMM的形状和纹理参数的前80维参数以及光照和投影矩阵参数;
步骤3、将239维特征向量输入3DMM线性模型,重建出粗糙的3D人脸模型,得到第一新人脸图像I′,并在训练3DMM线性模型的过程中,使用原始人脸图像I和第一新人脸图像I′计算第一混合水平损失,并将重建出的粗糙的3D人脸模型通过三维坐标变换及变换矩阵重新映射回二维图像,达到自监督训练的效果;
步骤4、使用PSENet将低级纹理特征与高级语义特征进行从低到高的融合,得到2048通道的特征图,并将2048通道的特征图经过卷积层及sigmoid层产生UV结果图U1和辅助图像U2,再使用渐进比例展开算法将辅助图像U2与UV结果图U1融合生成最终的UV位移图;
步骤5、使用Unet来生成UV可见掩模,并将UV可见掩模与UV位移图的对应位置数字相乘,得到鲁棒的UV位移图,并将鲁棒的UV位移图重新映射回粗糙的3D人脸模型上,以获得带有纹理的精细的3D人脸模型;
步骤6、将带有纹理的精细的3D人脸模型通过正映射模块重新映射回二维图像,以获得第二新人脸图像I″,并通过计算第二混合水平损失来实现自监督训练,并输出最终的3D人脸模型。
特别地,第二混合水平损失包括光照一致性损失、平滑度损失、身份一致性损失和规则化损失。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于无监督的三维人脸模型的重建系统,其特征在于,所述系统包括:
人脸及其关键点检测模块,所述人脸及其关键点检测模块包括人脸检测模块和人脸关键点检测模块,先通过所述人脸检测模块来检测输入的真实人物照片,获取原始人脸图像I,再用所述人脸关键点检测模块从获取的所述原始人脸图像I上检测获得人脸关键点坐标;
粗人脸特征提取模块,所述粗人脸特征提取模块连接所述人脸及其关键点检测模块,从所述人脸关键点坐标中获取重建人脸的形状信息与纹理信息,并采用VGG网络提取239维特征向量,所述239维特征向量包括3DMM的形状和纹理参数的前80维参数以及光照和投影矩阵参数;重建人脸的形状信息与纹理信息具体为:
其中,Smodel和Tmodel分别代表重建人脸的形状信息与纹理信息,与/>为平均人脸的形状及纹理,si、ei和ti分别为第i个人脸正交基的形状、表情与纹理信息,m为人脸正交基的个数,αi、βi和δi为3DMM的形状、表情与纹理参数;
粗人脸重建模块,所述粗人脸重建模块连接所述粗人脸特征提取模块,将所述239维特征向量输入3DMM线性模型,重建出粗糙的3D人脸模型,得到第一新人脸图像I′,并在训练所述3DMM线性模型的过程中,使用所述原始人脸图像I和所述第一新人脸图像I′计算第一混合水平损失;
正映射模块,所述正映射模块连接所述粗人脸重建模块,将重建出的所述粗糙的3D人脸模型通过三维坐标变换及变换矩阵重新映射回二维图像;
UV位移图生成模块,所述UV位移图生成模块连接所述正映射模块,使用PSENet将低级纹理特征与高级语义特征进行从低到高的融合,得到2048通道的特征图,并将所述2048通道的特征图经过卷积层及sigmoid层产生UV结果图U1和辅助图像U2,再使用渐进比例展开算法将所述辅助图像U2与所述UV结果图U1融合生成最终的UV位移图;
UV可见掩膜预测模块,所述UV可见掩膜预测模块连接所述正映射模块,使用Unet来生成UV可见掩模,并将所述UV可见掩模与所述UV位移图相融合,得到鲁棒的UV位移图;
反映射模块,所述反映射模块连接所述UV位移图生成模块和所述UV可见掩膜预测模块,将所述鲁棒的UV位移图重新映射回所述粗糙的3D人脸模型上,以获得带有纹理的精细的3D人脸模型;
精细人脸模型重建模块,所述精细人脸模型重建模块连接所述反映射模块,将带有纹理的所述精细的3D人脸模型通过所述正映射模块重新映射回二维图像,以获得第二新人脸图像I′′,并通过计算第二混合水平损失来实现自监督训练,并输出最终的3D人脸模型。
2.如权利要求1所述的基于无监督的三维人脸模型的重建系统,其特征在于,所述粗人脸重建模块中的所述第一混合水平损失是通过将光照一致性损失L2、关键点损失L1和身份一致性损失L3进行加权相加后得到。
3.如权利要求2所述的基于无监督的三维人脸模型的重建系统,其特征在于,所述光照一致性损失L2是通过逐像素计算差异来将所述第一新人脸图像I′与所述原始人脸图像I对齐,通过惩罚光照差异来减少两张图像在像素RGB值上的差异,具体定义为:
其中,Np为图中像素点总数,I(p)和I′(p)分别为I和I′中对应像素点的RGB值。
4.如权利要求2所述的基于无监督的三维人脸模型的重建系统,其特征在于,所述关键点损失L1是采用3D人脸对齐方法MTCNN来计算所述第一新人脸图像I′与所述原始人脸图像I中相应关键点的距离,具体定义为:
其中,N为关键点个数,Li和L′ i分别为I和I′中对应的第i个关键点的坐标信息。
5.如权利要求2所述的基于无监督的三维人脸模型的重建系统,其特征在于,所述身份一致性损失L3是将所述第一新人脸图像I′与所述原始人脸图像I输入Facenet人脸提取网络,并对输出的身份编码计算余弦相似度,确保所述第一新人脸图像I′的身份信息的一致性,具体定义为:
其中,f和f′分别为将I和I′输入Facenet人脸提取网络得到的特征向量。
6.如权利要求1所述的基于无监督的三维人脸模型的重建系统,其特征在于,在所述UV可见掩膜预测模块中:
F=A*B
其中,F为所述鲁棒的UV位移图的矩阵,A为所述UV位移图的矩阵,B为所述UV可见掩模的矩阵,将矩阵A和B的对应位置的数字相乘。
7.如权利要求1所述的基于无监督的三维人脸模型的重建系统,其特征在于,所述精细人脸模型重建模块中的所述第二混合水平损失是通过将光照一致性损失、身份一致性损失、平滑度损失和规则化损失进行加权相加后得到。
8.如权利要求7所述的基于无监督的三维人脸模型的重建系统,其特征在于,所述光照一致性损失L4和所述身份一致性损失L5的定义分别为:
其中,Np为图中像素点总数,I(p)和I″(p)分别为I和I″中对应像素点的RGB值,f和f″分别为将I和I″输入Facenet人脸提取网络得到的特征向量;
所述平滑度损失L6定义为:
其中,和/>表示I的梯度,P(I″)表示I″的像素矩阵,I0表示单位矩阵;
所述规则化损失L7定义为:
其中,ΔC(i)计算所述UV位移图的RGB图像和所述鲁棒的UV位移图的RGB图像之间的距离,ΔD(i)计算I的深度图像的像素与融合位移图像的人脸之间的距离。
9.一种基于无监督的三维人脸模型的重建方法,其特征在于,所述方法包括以下步骤:
步骤1、检测输入的真实人物照片,获取原始人脸图像I以及人脸关键点坐标;
步骤2、采用VGG网络提取239维特征向量,所述239维特征向量包括3DMM的形状和纹理参数的前80维参数以及光照和投影矩阵参数;
步骤3、将所述239维特征向量输入3DMM线性模型,重建出粗糙的3D人脸模型,得到第一新人脸图像I′,并在训练所述3DMM线性模型的过程中,使用所述原始人脸图像I和所述第一新人脸图像I′计算第一混合水平损失,并将重建出的所述粗糙的3D人脸模型通过三维坐标变换及变换矩阵重新映射回二维图像,达到自监督训练的效果;
步骤4、使用PSENet将低级纹理特征与高级语义特征进行从低到高的融合,得到2048通道的特征图,并将所述2048通道的特征图经过卷积层及sigmoid层产生UV结果图U1和辅助图像U2,再使用渐进比例展开算法将所述辅助图像U2与所述UV结果图U1融合生成最终的UV位移图;
步骤5、使用Unet来生成UV可见掩模,并将所述UV可见掩模与所述UV位移图的对应位置数字相乘,得到鲁棒的UV位移图,并将所述鲁棒的UV位移图重新映射回所述粗糙的3D人脸模型上,以获得带有纹理的精细的3D人脸模型;
步骤6、将带有纹理的所述精细的3D人脸模型通过正映射模块重新映射回二维图像,以获得第二新人脸图像I″,并通过计算第二混合水平损失来实现自监督训练,并输出最终的3D人脸模型。
10.如权利要求1所述的基于无监督的三维人脸模型的重建方法,其特征在于,所述第二混合水平损失包括光照一致性损失、平滑度损失、身份一致性损失和规则化损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311847024.6A CN117975525A (zh) | 2023-12-28 | 2023-12-28 | 一种基于无监督的三维人脸模型的重建系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311847024.6A CN117975525A (zh) | 2023-12-28 | 2023-12-28 | 一种基于无监督的三维人脸模型的重建系统与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117975525A true CN117975525A (zh) | 2024-05-03 |
Family
ID=90852283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311847024.6A Pending CN117975525A (zh) | 2023-12-28 | 2023-12-28 | 一种基于无监督的三维人脸模型的重建系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975525A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118429869A (zh) * | 2024-07-05 | 2024-08-02 | 山东浪潮超高清智能科技有限公司 | 一种数字人稳定头部姿势生成的方法、装置及介质 |
-
2023
- 2023-12-28 CN CN202311847024.6A patent/CN117975525A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118429869A (zh) * | 2024-07-05 | 2024-08-02 | 山东浪潮超高清智能科技有限公司 | 一种数字人稳定头部姿势生成的方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | From big to small: Multi-scale local planar guidance for monocular depth estimation | |
Niklaus et al. | 3d ken burns effect from a single image | |
Hu et al. | Avatar digitization from a single image for real-time rendering | |
Chen et al. | Tom-net: Learning transparent object matting from a single image | |
Zhang et al. | Text-guided neural image inpainting | |
Rematas et al. | Novel views of objects from a single image | |
Tewari et al. | Learning complete 3d morphable face models from images and videos | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
CN112950775A (zh) | 一种基于自监督学习的三维人脸模型重建方法及系统 | |
Tu et al. | Consistent 3d hand reconstruction in video via self-supervised learning | |
Liu et al. | A general differentiable mesh renderer for image-based 3D reasoning | |
CN117975525A (zh) | 一种基于无监督的三维人脸模型的重建系统与方法 | |
Li et al. | Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation | |
CN113593001A (zh) | 目标对象三维重建方法、装置、计算机设备和存储介质 | |
Kang et al. | Competitive learning of facial fitting and synthesis using uv energy | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN111402403B (zh) | 高精度三维人脸重建方法 | |
CN115830241A (zh) | 一种基于神经网络的真实感三维人脸纹理重建方法 | |
CN110717978B (zh) | 基于单张图像的三维头部重建方法 | |
CN117011493B (zh) | 基于符号距离函数表示的三维人脸重建方法、装置及设备 | |
Luo et al. | Facial metamorphosis using geometrical methods for biometric applications | |
Yin et al. | Segmentation-reconstruction-guided facial image de-occlusion | |
Ma et al. | VommaNet: An End-to-End network for disparity estimation from reflective and texture-less light field images | |
Yin et al. | Weakly-supervised photo-realistic texture generation for 3d face reconstruction | |
Zhao et al. | Generative landmarks guided eyeglasses removal 3D face reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |