CN112734911A - 基于卷积神经网络的单幅图像三维人脸重建方法及系统 - Google Patents
基于卷积神经网络的单幅图像三维人脸重建方法及系统 Download PDFInfo
- Publication number
- CN112734911A CN112734911A CN202110015804.9A CN202110015804A CN112734911A CN 112734911 A CN112734911 A CN 112734911A CN 202110015804 A CN202110015804 A CN 202110015804A CN 112734911 A CN112734911 A CN 112734911A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- face
- neural network
- convolutional neural
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000010606 normalization Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 32
- 238000011176 pooling Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 10
- 238000013526 transfer learning Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000002474 experimental method Methods 0.000 abstract description 6
- 230000008859 change Effects 0.000 abstract description 5
- 230000014509 gene expression Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于卷积神经网络的单幅图像三维人脸重建方法及系统,包括通过训练样本集对改进的卷积神经网络模型进行训练;获取拟重建三维人脸的二维单幅图像,将其输入到训练好的改进的卷积神经网络模型预测得到人脸三维形变参数;根据三维形变参数以及给定的二维图像中人脸的形状向量和纹理向量,基于三维形变模型得到重建的三维人脸。通过对VGG‑16网络模型进行改进,在每一个卷积层和全连接层输出后加入批归一化层,使整个神经网络在各层的中间输出的值更加稳定,最后使得整个网络的输出更加稳定,避免了在训练过程中模型参数的更新造成靠近输出层输出的剧烈变化。通过实验验证了本发明方法进行三维人脸重建的稳定性和逼真性。
Description
技术领域
本发明属于图像处理领域,尤其是涉及一种基于卷积神经网络的单幅图像三维人脸重建方法及系统。
背景技术
近年来,三维人脸重建成为计算机视觉、图像识别等研究领域中的热点问题。三维人脸重建技术可以分为基于不同视角的多幅图像的重建和基于单幅图像的三维人脸重建。现实生活中很多场合下,往往只有一张人脸图片可用,因此,基于单幅图像的三维人脸重建受到了国内学者的重点关注。
目前,针对单幅图像的三维人脸重建国内外学者已经给出了多种方法,例如传统方法有基于模型的方法、基于明暗形状恢复的方法等。随着深度学习的兴起,基于深度学习的方法也被引入到三维人脸重建领域,并且取得了比传统方法更优异的效果,逐渐成为主流的重建方法。Aaron S.Jackson等提出使用Volumetric Regression Networks(VRN)从单个二维图像直接进行三维面部重建的方法。该方法提高了面部大姿势和面部表情变化的重建质量。Yao Feng等设计了一个名为UV位置图的二维表示方法,记录UV空间中完整面部的三维形状,然后训练一个简单的卷积神经网络,从单个二维图像中回归。该方法不依赖于任何先前的面部模型,并且可以重建完整的面部几何以及语义。Feng-Ju Chang等提出了直接应用于人脸图像强度,回归3D表情系数的29D向量的ExpNet CNN模型。该模型不需要使用面部特征检测器作为模型训练的先验步骤,对人脸表情重建有较好的鲁棒性。Xiaoguang Tu等针对3D标注训练数据短缺问题,提出一种2D辅助自监督学习方法。该方法利用带嘈杂地标信息的无约束二维人脸图像改善三维人脸模型的学习,在密集人脸对齐和三维人脸重建方面取得了突出的效果。刘成攀等提出一种基于自监督深度学习的人脸表征及三维重建方法,将二维人脸的特征点信息映射到三维空间实现三维人脸重建,增强了三维人脸重构的准确性。
在无约束条件下,人脸的表情、姿势、纹理和内在几何存在很大差异,以上三维人脸重建方法仍然不够稳定,重建的结果出现脸部不完整、重建脸型偏向平均脸型、表情不够逼真等问题。
发明内容
本发明要解决的技术问题是怎样基于单幅图像重建完整、逼真且稳定的三维人脸,提出了一种基于卷积神经网络的单幅图像三维人脸重建方法及系统。
为解决该问题,本发明所采用的技术方案是:
一种基于卷积神经网络的单幅图像三维人脸重建方法,包括以下步骤:
步骤1:通过训练样本集对改进的卷积神经网络模型进行训练,所述训练样本集中的样本为二维单幅图像以及与该二维单幅图像对应的人脸三维形变参数;
步骤2:获取拟重建三维人脸的二维单幅图像,将其输入到训练好的所述改进的卷积神经网络模型预测得到人脸三维形变参数;
步骤3:根据所述三维形变参数以及所述给定的二维图像中人脸的形状向量和纹理向量,基于三维形变模型得到重建的三维人脸。
进一步地,所述改进的卷积神经网络模型为:以VGG-16网络为骨架,网络模型包含13个卷积层、5个最大池化层、3个全连接层,在每个卷积层之后紧跟一个批归一化层,在批归一化层之后紧跟一个激活函数ReLU,在前两个所述全连接层之后紧跟ReLU激活函数和Dropout函数,在卷积层中,每个卷积核的大小为3x3,步长为1,填充为1,在池化层中,每个卷积核的大小为2x2,所述批归一化层是指将前一个卷积层输出的数据进行批量标准化处理。
进一步地,所述改进的卷积神经网络模型在训练过程中,采用迁移学习方法,引入预训练好的VGG-16模型参数,在此基础上对所述改进的卷积神经网络模型使用训练样本进行训练,所述预训练好的VGG-16模型是通过ImageNet数据库中的100万幅图像训练而成。
进一步地,所述改进的卷积神经网络模型使用300W-LP数据集上的样本数据作为训练集和验证集对所述改进的卷积神经网络模型进行训练,所述300W-LP数据集上的样本数据包括二维人脸图像和对应的人脸三维形变参数。
进一步地,所述训练集和验证集中的样本数据,根据样本中图像对应的三维信息文件中人脸区域的二维坐标,将图像中人脸区域裁剪并调整大小为150*150像素,然后将训练集和测试集中的样本数据进行均值方差归一化后输入到所述改进的卷积神经网络模型,对所述训练集和测试集中的目标参数进行均值方差归一化。
进一步地,所述改进的卷积神经网络模型损失函数为
进一步地,所述池化层为最大值池化层。
进一步地,所述第三个全连接层的通道数与预测的人脸三维形变参数数量一致。
进一步地,根据步骤2中所述给定的二维单幅图像中对应的三维信息文件中人脸区域的二维坐标,将所述给定的二维单幅图像中人脸区域裁剪并调整大小为150*150像素,然后将调整大小后的图像数据进行均值方差归一化后输入到所述改进的卷积神经网络模型中。
本发明还提供了一种基于卷积神经网络的单幅图像三维人脸重建系统,包括以下模块:
模型训练模块:用于通过训练样本集对改进的卷积神经网络模型进行训练,所述训练样本集中的样本为二维单幅图像以及与该二维单幅图像对应的人脸三维形变参数;
图像获取及参数预测单元:获取拟重建三维人脸的二维单幅图像,将其输入到训练好的所述改进的卷积神经网络模型预测得到人脸三维形变参数;
三维人脸重建单元:根据所述三维形变参数以及所述给定的二维图像中人脸的形状向量和纹理向量,基于三维形变模型得到重建的三维人脸。
采用上述技术方案,本发明具有如下有益效果:
本发明提供的一种基于卷积神经网络的单幅图像三维人脸重建方法及系统,通过对VGG-16网络模型进行改进,在每一个卷积层和全连接层输出后加入批归一化层,批归一化层利用小批量上的均值和标准差,不断调整神经网络的输出,从而使整个神经网络在各层的中间输出的值更加稳定,最后使得整个网络的输出更加稳定,避免了在训练过程中模型参数的更新造成靠近输出层输出的剧烈变化。在卷积神经网络模型的训练过程中,通过采用迁移学习方法,引入预训练好的VGG-16网络模型,由于该训练好的VGG-16网络模型,其拥有大量已经完成的参数和权重,在此基础上进行改进的卷积神经网络模型的训练,减少了网络训练时间和提高了网络训练效率。通过在AFLW2000-3D数据集上进行实验和比较,验证了本发明方法进行三维人脸重建的稳定性和逼真性。
附图说明
图1为本发明卷积神经网络结构示意图;
图2为最大值池化示意图;
图3为改进的卷积神经网络训练过程中在验证集上的损失对比示意图;
图4为本发明方法与其他方法对比结果示意图;
图5为在AFLW2000-3D上的累积误差分布(CED)曲线;
图6为本发明系统流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
三维形变模型(3D Morphable Model,3DMM)是Volker Blanz等提出的一种人脸线性表示模型。该模型使用形状向量S表示人脸的几何形状,S=(X1,Y1,Z1,X2,……,Yn,Zn)T∈R3n,其中n是人脸面部的顶点个数,Xi,Yi,Zi是第i个顶点的三维坐标。该模型假设进行纹理映射时,有效纹理值的数量等于顶点的数量,人脸的纹理可通过纹理向量T表示,T=(R1,G1,B1,R2,……,Gn,Bn)T∈R3n,其中Ri,Gi,Bi是第i个顶点对应的纹理值。利用m个人脸样本数据构建一个可形变的人脸模型,每个人脸样本由形状向量Sj和纹理向量Tj表示(0≤j≤m)。
最后,分别计算协方差矩阵的特征值和特征向量,按特征值降序选取前m个最大的特征值γ=(γ1,γ2,…,γm)和δ=(δ1,δ2,…,δm),以及对应特征值顺序的特征向量和使用主成分分析(Principal ComponentAnalysis,PCA)对特征向量和构成的正交坐标系进行基础变换。模型公式如下:
当模型具有纹理部分时,上述三维形变模型往往拟合效果不够好。因此,重建人脸时通常只考虑人脸的形状部分,当需要纹理时,一般直接从照片中提取纹理进行贴合。针对3DMM对人脸表情处理的不足,Chen Cao等提出了FaceWarehouse人脸表情数据库,并将其引入到3DMM中。人脸线性模型可以扩充为:
在获得三维面部形状Snew之后,可以使用弱透视投影将三维面部投影到二维图像平面上:
V=f*Pr*R*(Snew)+t (10)
其中,V存储投影到二维平面上的三维顶点的二维坐标,f是比例因子,Pr是正交投影矩阵R是由9个参数组成的投影矩阵,t是平移向量。改进模型中,s采用BFM的40个基,e采用FaceWarehouse的10个基,将这些参数放在一起形成具有62个参数的向量研究的主要目标就是使用深度卷积神经网络从单幅图像中预测对应的三维人脸的参数P,以重建带有表情的三维人脸形状。因此为了进行三维人脸重建,需要对三维人脸形变参数进行预测,然后根据拟重建的二维图片,提取出该二维图像中的形状向量和纹理向量,代入式10中,得到三维人脸顶点d坐标,既可以进行三维人脸重建。
图1至图6示出了本发明一种基于卷积神经网络的单幅图像三维人脸重建方法的具体实施例,包括以下步骤,如图6所示:
步骤1:通过训练样本集对改进的卷积神经网络模型进行训练,所述训练样本集中的样本为二维单幅图像以及与该二维单幅图像对应的人脸三维形变参数;
本实施例中,所述改进的卷积神经网络模型为:以VGG-16网络为骨架,网络模型包含13个卷积层、5个最大池化层、3个全连接层,在每个卷积层之后紧跟一个批归一化层,在批归一化层之后紧跟一个激活函数ReLU,在前两个所述全连接层之后紧跟ReLU激活函数和Dropout函数,在卷积层中,每个卷积核的大小为3x3,步长为1,填充为1,在池化层中,每个卷积核的大小为2x2,所述批归一化层是指将前一个卷积层输出的数据进行批量标准化处理。本实施例中池化层为最大值池化层,如图2所示。网络结构如图1所示,网络结构参数如表1所示。
表1卷积层网络参数
在VGG-16网络结构中,每个卷积层之后紧跟一个激活函数ReLU,其计算公式为
R=max(0,y) (11)
式中,R为激活函数的输出值,y为卷积层的输出值。ReLU函数的优点在于:当输入值y大于0时,它的导数恒为1,保持梯度不衰减,有效缓解了梯度消失问题,加快了网路收敛速度。
本实施例中,对于VGG-16网络结构的改进在于,在激活函数ReLU之前加入批归一化BN层,优化了网络结构模型。即对输入激活函数的数据进行批量标准化处理,使输入数据的均值为0,方差为1。假设批归一化BN层输入数据为β={x1,x2,…,xm},其中m是单批次输入数据个数,那么
式中,ε是为避免分母为0,设置的极小正数,取值为1e-5,γ是尺度因子,是平移因子。引入γ,的原因是xi经过式(14)归一化后被限制在正态分布下,使得网络表达能力下降。γ,可通过梯度下降法求得。批归一化层利用小批量上的均值和标准差,不断调整神经网络的输出,从而使整个神经网络在各层的中间输出的值更加稳定,最后使得整个网络的输出更加稳定,避免了在训练过程中模型参数的更新造成靠近输出层输出的剧烈变化。
本实施例中,在池化层中,每个卷积核的大小为2x2。池化层的作用是从小区域的特征中剔除不重要的特征,提取新的特征信息。池化方式常用的有最大值池化和平均值池化,本发明方法结构采用的是最大值池化方式。最大值池化的实现过程见图2所示。
原VGG-16网络模型包含3个全连接层,前两个全连接层都是4096个通道,第三个全连接层通道原本是1000,代表1000个类别。本实施例中,因为本文预测目标是62个参数,此处将其改为62。因此所述第三个全连接层的通道数与预测的人脸三维形变参数数量一致。前两个全连接层之后都紧跟ReLU激活函数和Dropout函数。Dropout函数的作用是在网络训练过程中,按照一定的概率p将神经元从网络中丢去,这样使网络模型的泛化能力更强,让网络不会太依赖于某些局部特征。改进模型Dropout函数的失活概率p=0.5。
本实施例中,所述改进的卷积神经网络模型在训练过程中,采用迁移学习方法,引入预训练好的VGG-16模型参数,在此基础上对所述改进的卷积神经网络模型使用训练样本进行训练,所述预训练好的VGG-16模型是通过ImageNet数据库中的100万幅图像训练而成,具有较强的深度特征学习能力,其拥有大量已经训练完成的参数和权重,特别是卷积层关于图像的曲线、边缘、轮廓的特征提取具备较强的能力。
本实施例中,所述改进的卷积神经网络模型使用300W-LP数据集上的样本数据作为训练集对所述改进的卷积神经网络模型进行训练,所述300W-LP数据集上的样本数据包括二维人脸图像和对应的人脸三维形变参数,使用AFLW2000-3D数据集上的样本数据作为测试集对所述改进的卷积神经网络模型进行测试。目前300W-LP和AFLW2000-3D数据集被广泛用于人脸对齐和人脸重建领域。300W-LP是由Zhu Xiangyu等采用其提出的方法生成61,225个大型样品,其进一步通过翻转将其扩展到122,450个样品。每个样品包括二维人脸图像和对应3DMM系数。采用其中636252张图片和对应的3DMM系数作为训练集,51602张图片和对应的3DMM系数作为训练时的验证集。
本实施例中,所述训练集和测试集中的样本数据,根据样本中图像对应的三维信息文件中人脸区域的二维坐标,将图像中人脸区域裁剪并调整大小为150*150像素,然后将训练集和测试集中的样本数据进行均值方差归一化后输入到所述改进的卷积神经网络模型,对所述训练集和测试集中的目标参数进行均值方差归一化。本实施例中,对训练数据和验证数据集进行归一化,归一化是指将所有数据都映射成均值为0,方差为1的数据的过程,这样可以避免异常值的影响,有助于加速网络收敛并达到更高性能。这里使用均值方差归一化方法,即
其中,xmean是均值,xstd是方差,xscale是归一化后的数据,即送入卷积神经网络的数据。对于训练数据和验证数据中的目标参数P也进行均值方差归一化,即
并将均值Pmean和方差Pstd保存。因此,对于网络预测输出的参数需要进行反归一化,即
损失函数是神经网络学习的动力,即使是相同的网络模型和网络超参数,不同的损失函数有可能导致截然不同的结果,选对正确的损失函数对网络的性能至关重要。对于网络回归问题,常用的损失函数是回归参数之间的欧式距离(Parameter Distance Cost,PDC),即
式中,为卷积网络的预测结果,Pi为输入图像对应的标签参数。但在实验中发现,通过直接使用式(21)作为损失函数,重建效果并不好,主要由于三维人脸的重建是将预测参数代入式(10)中,计算出顶点之后,进行重建,直接预测出的参数对于计算顶点的影响程度不同,导致某些参数稍微预测不准确就会产生很大的误差。因此,为了使拟合出的3DMM参数重建出更接近于真实的三维人脸形状,选择拟合预测的顶点和真实的三维人脸顶点的距离(Vertex Distance Cost,VDC)作为损失函数,即
步骤2:获取拟重建三维人脸的二维单幅图像,将其输入到训练好的所述改进的卷积神经网络模型预测得到人脸三维形变参数;
本实施例中,将所获取的拟重建三维人脸的二维图像,根据所述拟重建三维人脸的二维单幅图像中对应的三维信息文件中人脸区域的二维坐标,将所述给定的二维单幅图像中人脸区域裁剪并调整大小为150*150像素,然后将调整大小后的图像数据进行均值方差归一化后输入到所述改进的卷积神经网络模型中。
步骤3:根据所述三维形变参数以及所述给定的二维图像中人脸的形状向量和纹理向量,基于三维形变模型得到重建的三维人脸。
为了评价所重建的三维人脸形状和表情,本发明采用定性评价和定量评价两种评价指标,其中定性评价是对重建的三维人脸形状和表情的直观观察,定量评价是参考文献1“Chang F J,Tran A T,Hassner T,et al.ExpNet:Landmark-free,deep,3D facialexpressions[C]//2018 13th IEEE International Conference on Automatic Face&Gesture Recognition(FG 2018).IEEE,2018:122-129.”中评价方法,首先使用迭代最近点(Iterative Closest Points,ICP)算法来找到重建的3D人脸顶点和真实3D人脸顶点之间相应最近点,然后计算相应最近点之间的归一化均值误差(Normalized Mean Error,NME),人脸区域的边界框大小用作归一化因子,NME值越小,说明重建效果越精确。
ICP算法步骤:
(2)在真实顶点集Vg计算对应顶点vgi∈Vg,使||vi-vgi||值最小,求得旋转矩阵R和平移矩阵t。
(3)对vi进行平移和旋转得到新的对应点vi′=Rvi+t。
(4)求距离
式中,n为顶点集中顶点个数。若d小于给定阈值,则停止迭代,否则返回第(2)步,直到满足收敛条件。
下面通过实验来说明评价本发明方法的有效性,将改进的VGG-16网络以及使用迁移学习和使用式(22)作为损失函数的模型集记为VGG-BN,将未改进的VGG-16网络以及使用迁移学习和使用式(22)作为损失函数的模型集记为VGG-preVDC,将未改进的VGG-16网络以及使用迁移学习和使用式(21)作为损失函数的模型集记为VGG-prePDC,将未改进的VGG-16网络以及未使用迁移学习和使用式(21)作为损失函数的模型记为VGG-PDC。
首先对比VGG-BN和未改进网络结构的模型在训练过程中在验证集上的损失。验证集上损失对比如图3所示。可以很明显地看出改进后的网络VGG-BN在验证集上的损失比未改进网络结构的VGG-preVDC低的多,验证了改进方法的可行性。
为了进一步验证本发明方法的有效性,将本发明的方法VGG-BN和文献1、文献2“Zhu X,Lei Z,Liu X,et al.Face alignment across large poses:A 3d solution[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2016:146-155.”在测试集AFLW2000-3D上的三维人脸重建结果进行了定性比较。首先给出这几种方法的可视化重建结果,如图4所示。图4中第一列为从测试集AFLW2000-3D抽取的二维图像,第二列、第三列为本发明的重建方法VGG-BN重建三维人脸的正面图和侧面图,第三列、第四列为文献2中的方法重建三维人脸的正面图和侧面图,第五列、第六列为文献1方法重建三维人脸的正面图和侧面图。为保证对比的公平性,文献2和文献2的重建结果均由对应文献公布的测试程序生成。由图4中可以看出,改进方法重建的人脸形状比文献1的重建结果更加平滑,重建的人耳部分更加完整,同时文献1重建的人脸具有明显条纹;对比文献2,本发明的重建方法VGG-BN和文献2的部分重建结果相差不够明显,但图4第一行中本发明的重建方法重建的人脸的嘴张开的大小更加合理,同时改进方法重建结果的面部细节相对更加丰富,尤其在眼部位置。
为了准确分析重建结果的差异,将本发明重建方法和文献2方法在测试集AFLW2000-3D数据集上使用评价标准NME进行了定量对比。对比结果如图5所示。
由于本发明的重建方法和文献2方法在测试时均使用dlib人脸检测器进行人脸特征检测,同时AFLW2000-3D数据集中存在人脸角度偏转较大的图片,该部分图片无法检测到人脸,除去无法检测到人脸的图片,共使用AFLW2000-3D数据集中的1496张图片进行测试评估。从图5中可以看出:在使用同样数量单幅图像进行重建时,VGG-prePDC的NME值远低于VGG-PDC的NME值,这说明本发明的重建方法使用迁移学习提高了模型训练效率;VGG-preVDC的NME值远低于VGG-prePDC,这说明本发明的重建方法提出的损失函数促进了模型的学习效率;同时VGG-BN、VGG-preVDC的NME值都低于文献2的NME值,并且本发明的重建方法VGG-BN的NME是最低的,表明对模型的改进是可行的。图5中每种方法的平均NME值在表2中列出。
表2在AFLW2000-3D上的平均NME
模型 | VGG-BN | VGG-preVDC | 文献2 | VGG-prePDC | VGG-PDC |
NME% | 2.08 | 2.20 | 2.23 | 3.67 | 6.84 |
从表2中可以看出,在测试数据集上,本发明重建方法的改进模型VGG-BN的平均NME值最低,比VGG-preVDC的平均NME值低0.12,比文献2的平均NME值低0.15,重建的效果明显改善。通过实验和比较分析,可以看出,相对于原来的VGG-16网络,改进后的VGG-BN网络对单幅图像的图像特征学习能力更强,泛化能力更好。
通过对VGG-16网络模型进行改进,在每一个卷积层和全连接层输出后加入批归一化层,批归一化层利用小批量上的均值和标准差,不断调整神经网络的输出,从而使整个神经网络在各层的中间输出的值更加稳定,最后使得整个网络的输出更加稳定,避免了在训练过程中模型参数的更新造成靠近输出层输出的剧烈变化。在卷积神经网络模型的训练过程中,通过采用迁移学习方法,引入预训练好的VGG-16网络模型,由于该训练好的VGG-16网络模型,其拥有大量已经完成的参数和权重,在此基础上进行改进的卷积神经网络模型的训练,减少了网络训练时间和提高了网络训练效率。通过在AFLW2000-3D数据集上进行实验和比较,验证了本发明方法进行三维人脸重建的稳定性和逼真性。
本发明还提供了一种基于卷积神经网络的单幅图像三维人脸重建系统,包括以下模块:
模型训练模块:用于通过训练样本集对改进的卷积神经网络模型进行训练,所述训练样本集中的样本为二维单幅图像以及与该二维单幅图像对应的人脸三维形变参数;
图像获取及参数预测单元:获取拟重建三维人脸的二维单幅图像,将其输入到训练好的所述改进的卷积神经网络模型预测得到人脸三维形变参数;
三维人脸重建单元:根据所述三维形变参数以及所述给定的二维图像中人脸的形状向量和纹理向量,基于三维形变模型得到重建的三维人脸。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于卷积神经网络的单幅图像三维人脸重建方法,其特征在于,包括以下步骤:
步骤1:通过训练样本集对改进的卷积神经网络模型进行训练,所述训练样本集中的样本为二维单幅图像以及与该二维单幅图像对应的人脸三维形变参数;
步骤2:获取拟重建三维人脸的二维单幅图像,将其输入到训练好的所述改进的卷积神经网络模型预测得到人脸三维形变参数;
步骤3:根据所述三维形变参数以及所述给定的二维图像中人脸的形状向量和纹理向量,基于三维形变模型得到重建的三维人脸。
2.根据权利要求1所述的重建方法,其特征在于,所述改进的卷积神经网络模型为:以VGG-16网络为骨架,网络模型包含13个卷积层、5个最大池化层、3个全连接层,在每个卷积层之后紧跟一个批归一化层,在批归一化层之后紧跟一个激活函数ReLU,在前两个所述全连接层之后紧跟ReLU激活函数和Dropout函数,在卷积层中,每个卷积核的大小为3x3,步长为1,填充为1,在池化层中,每个卷积核的大小为2x2,所述批归一化层是指将前一个卷积层输出的数据进行批量标准化处理。
3.根据权利要求1所述的重建方法,其特征在于,所述改进的卷积神经网络模型在训练过程中,采用迁移学习方法,引入预训练好的VGG-16模型参数,在此基础上对所述改进的卷积神经网络模型使用训练样本进行训练,所述预训练好的VGG-16模型是通过ImageNet数据库中的100万幅图像训练而成。
4.根据权利要求3所述的重建方法,其特征在于,所述改进的卷积神经网络模型使用300W-LP数据集上的样本数据作为训练集和验证集对所述改进的卷积神经网络模型进行训练和验证,所述300W-LP数据集上的样本数据包括二维人脸图像和对应的人脸三维形变参数。
5.根据权利要求4所述的重建方法,其特征在于,所述训练集中的样本数据,根据样本中图像对应的三维信息文件中人脸区域的二维坐标,将图像中人脸区域裁剪并调整大小为150*150像素,然后将训练集和测试集中的样本数据进行均值方差归一化后输入到所述改进的卷积神经网络模型,对所述训练集和测试集中的目标参数进行均值方差归一化。
7.根据权利要求2所述的重建方法,其特征在于,所述池化层为最大值池化层。
8.根据权利要求2所述的重建方法,其特征在于,所述第三个全连接层的通道数与预测的人脸三维形变参数数量一致。
9.根据权利要求1所述的重建方法,其特征在于,根据步骤2中所述给定的二维单幅图像中对应的三维信息文件中人脸区域的二维坐标,将所述给定的二维单幅图像中人脸区域裁剪并调整大小为150*150像素,然后将调整大小后的图像数据进行均值方差归一化后输入到所述改进的卷积神经网络模型中。
10.一种基于卷积神经网络的单幅图像三维人脸重建系统,其特征在于,包括以下模块:
模型训练模块:用于通过训练样本集对改进的卷积神经网络模型进行训练,所述训练样本集中的样本为二维单幅图像以及与该二维单幅图像对应的人脸三维形变参数;
图像获取及参数预测单元:获取拟重建三维人脸的二维单幅图像,将其输入到训练好的所述改进的卷积神经网络模型预测得到人脸三维形变参数;
三维人脸重建单元:根据所述三维形变参数以及所述给定的二维图像中人脸的形状向量和纹理向量,基于三维形变模型得到重建的三维人脸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015804.9A CN112734911A (zh) | 2021-01-07 | 2021-01-07 | 基于卷积神经网络的单幅图像三维人脸重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110015804.9A CN112734911A (zh) | 2021-01-07 | 2021-01-07 | 基于卷积神经网络的单幅图像三维人脸重建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112734911A true CN112734911A (zh) | 2021-04-30 |
Family
ID=75590854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110015804.9A Pending CN112734911A (zh) | 2021-01-07 | 2021-01-07 | 基于卷积神经网络的单幅图像三维人脸重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734911A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327278A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 三维人脸重建方法、装置、设备以及存储介质 |
CN113393582A (zh) * | 2021-05-24 | 2021-09-14 | 电子科技大学 | 一种基于深度学习的三维物体重建算法 |
CN113436061A (zh) * | 2021-07-01 | 2021-09-24 | 中科人工智能创新技术研究院(青岛)有限公司 | 人脸图像重构方法及系统 |
CN113628322A (zh) * | 2021-07-26 | 2021-11-09 | 阿里巴巴(中国)有限公司 | 图像处理、ar显示与直播方法、设备及存储介质 |
CN114092649A (zh) * | 2021-11-25 | 2022-02-25 | 马上消费金融股份有限公司 | 基于神经网络的图片生成方法及装置 |
CN114494601A (zh) * | 2022-02-09 | 2022-05-13 | 南京医科大学附属口腔医院 | 基于人脸图像的三维人脸检索正畸矫正和疗效模拟系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491765A (zh) * | 2018-03-05 | 2018-09-04 | 中国农业大学 | 一种蔬菜图像的分类识别方法及系统 |
CN110163175A (zh) * | 2019-05-28 | 2019-08-23 | 杭州电子科技大学 | 一种基于改进vgg-16网络的步态识别方法及系统 |
CN110619676A (zh) * | 2019-09-18 | 2019-12-27 | 东北大学 | 一种基于神经网络的端到端的三维人脸重建方法 |
CN111127390A (zh) * | 2019-10-21 | 2020-05-08 | 哈尔滨医科大学 | 基于迁移学习的x射线影像处理方法及系统 |
CN111160569A (zh) * | 2019-12-30 | 2020-05-15 | 第四范式(北京)技术有限公司 | 基于机器学习模型的应用开发方法、装置及电子设备 |
CN111291694A (zh) * | 2020-02-18 | 2020-06-16 | 苏州大学 | 菜肴图像识别方法及装置 |
CN111523461A (zh) * | 2020-04-22 | 2020-08-11 | 南京工程学院 | 基于增强cnn和跨层lstm的表情识别系统与方法 |
CN111951384A (zh) * | 2020-08-13 | 2020-11-17 | 科大乾延科技有限公司 | 一种基于单张人脸图片的三维人脸重建方法和系统 |
-
2021
- 2021-01-07 CN CN202110015804.9A patent/CN112734911A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491765A (zh) * | 2018-03-05 | 2018-09-04 | 中国农业大学 | 一种蔬菜图像的分类识别方法及系统 |
CN110163175A (zh) * | 2019-05-28 | 2019-08-23 | 杭州电子科技大学 | 一种基于改进vgg-16网络的步态识别方法及系统 |
CN110619676A (zh) * | 2019-09-18 | 2019-12-27 | 东北大学 | 一种基于神经网络的端到端的三维人脸重建方法 |
CN111127390A (zh) * | 2019-10-21 | 2020-05-08 | 哈尔滨医科大学 | 基于迁移学习的x射线影像处理方法及系统 |
CN111160569A (zh) * | 2019-12-30 | 2020-05-15 | 第四范式(北京)技术有限公司 | 基于机器学习模型的应用开发方法、装置及电子设备 |
CN111291694A (zh) * | 2020-02-18 | 2020-06-16 | 苏州大学 | 菜肴图像识别方法及装置 |
CN111523461A (zh) * | 2020-04-22 | 2020-08-11 | 南京工程学院 | 基于增强cnn和跨层lstm的表情识别系统与方法 |
CN111951384A (zh) * | 2020-08-13 | 2020-11-17 | 科大乾延科技有限公司 | 一种基于单张人脸图片的三维人脸重建方法和系统 |
Non-Patent Citations (3)
Title |
---|
刘成攀: "基于自监督深度学习的人脸表征及三维重建" * |
王亮: "基于3D人脸重建的大姿态人脸样本扩充与识别研究" * |
许景辉等: "基于迁移学习的卷积神经网络玉米病害图像识别" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393582A (zh) * | 2021-05-24 | 2021-09-14 | 电子科技大学 | 一种基于深度学习的三维物体重建算法 |
CN113327278A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 三维人脸重建方法、装置、设备以及存储介质 |
CN113327278B (zh) * | 2021-06-17 | 2024-01-09 | 北京百度网讯科技有限公司 | 三维人脸重建方法、装置、设备以及存储介质 |
CN113436061A (zh) * | 2021-07-01 | 2021-09-24 | 中科人工智能创新技术研究院(青岛)有限公司 | 人脸图像重构方法及系统 |
CN113436061B (zh) * | 2021-07-01 | 2022-08-09 | 中科人工智能创新技术研究院(青岛)有限公司 | 人脸图像重构方法及系统 |
CN113628322A (zh) * | 2021-07-26 | 2021-11-09 | 阿里巴巴(中国)有限公司 | 图像处理、ar显示与直播方法、设备及存储介质 |
CN113628322B (zh) * | 2021-07-26 | 2023-12-05 | 阿里巴巴(中国)有限公司 | 图像处理、ar显示与直播方法、设备及存储介质 |
CN114092649A (zh) * | 2021-11-25 | 2022-02-25 | 马上消费金融股份有限公司 | 基于神经网络的图片生成方法及装置 |
CN114494601A (zh) * | 2022-02-09 | 2022-05-13 | 南京医科大学附属口腔医院 | 基于人脸图像的三维人脸检索正畸矫正和疗效模拟系统 |
CN114494601B (zh) * | 2022-02-09 | 2024-03-08 | 南京医科大学附属口腔医院 | 基于人脸图像的三维人脸检索正畸矫正和疗效模拟系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112734911A (zh) | 基于卷积神经网络的单幅图像三维人脸重建方法及系统 | |
JP4234381B2 (ja) | 顔の特徴を位置確認するための方法及びコンピュータープログラム製品 | |
CN105956582B (zh) | 一种基于三维数据的人脸识别系统 | |
CN101561874B (zh) | 一种人脸虚拟图像生成的方法 | |
CN101320484B (zh) | 一种人脸虚图像生成的方法及一种三维人脸识别方法 | |
CN101159015B (zh) | 一种二维人脸图像的识别方法 | |
CN100375108C (zh) | 一种人脸特征点自动定位方法 | |
US7711156B2 (en) | Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same | |
Lozes et al. | Partial difference operators on weighted graphs for image processing on surfaces and point clouds | |
CN112418074A (zh) | 一种基于自注意力的耦合姿态人脸识别方法 | |
EP1496466B1 (en) | Face shape recognition from stereo images | |
CN106980848A (zh) | 基于曲波变换和稀疏学习的人脸表情识别方法 | |
CN111652317A (zh) | 基于贝叶斯深度学习的超参数图像分割方法 | |
CN114332136B (zh) | 人脸属性数据标注方法、计算机设备及存储介质 | |
CN111310688A (zh) | 一种基于多角度成像的手指静脉识别方法 | |
CN111353987A (zh) | 一种细胞核分割方法及装置 | |
CN113298742A (zh) | 基于图像配准的多模态视网膜图像融合方法及系统 | |
CN111368829B (zh) | 一种基于rgb-d图像的视觉语义关系检测方法 | |
Kumar et al. | High-throughput 3D modelling of plants for phenotypic analysis | |
CN116843679B (zh) | 基于深度图像先验框架的pet图像部分容积校正方法 | |
CN111553250B (zh) | 一种基于人脸特征点的精准面瘫程度评测方法及装置 | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 | |
CN111553249B (zh) | 一种cv下基于h-b分级的精准面瘫程度评测方法及装置 | |
CN114387308A (zh) | 一种机器视觉特征跟踪系统 | |
CN114155573B (zh) | 基于SE-ResNet网络的人种识别方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |