CN108510573B

CN108510573B - 一种基于深度学习的多视点人脸三维模型重建的方法

Info

Publication number: CN108510573B
Application number: CN201810297845.XA
Authority: CN
Inventors: 曹汛; 汪晏如; 朱昊; 张艺迪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2021-07-30
Anticipated expiration: 2038-04-03
Also published as: CN108510573A

Abstract

本发明公开了一种基于深度学习的多视点人脸三维模型重建的方法，属于计算机视觉领域。该方法包括：多光照多视点虚拟人脸图像生成；人脸正视图的深度图生成；多个独立并行的卷积神经网络训练；各视角权重分布的神经网络训练；将网络输出的深度图恢复出人脸三维网格模型并进行顶点着色。本发明的方法通过将多视点图像分别进行独立训练恢复出深度图，再训练出各视角权重分布图继而进行深度融合，在保证效率的前提下提高了人脸三维重建模型的精度。

Description

一种基于深度学习的多视点人脸三维模型重建的方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于深度学习的多视点人脸三维模型重建的方法。

背景技术

人脸三维模型在安全认证、影视动漫、医学科学等领域的应用非常广泛。然而获取真实详细的脸部信息成本非常昂贵,例如利用三维激光扫描仪。而利用多视图基于深度学习进行人脸三维模型重建则有速度快、成本低等优势。已提出的基于图像的人脸三维重建算法大体可以分为两大类：

第一类方法是基于多视点的人脸三维重建。通常是采用传统的方法，先获取人脸多视角图片，然后使用运动恢复结构算法(Structure From Motion)进行相机参数标定，再进行立体匹配(Stereo Matching)，输出目标物的深度图，或是粗糙的点云信息，将这些不同图像对所对应的点云信息整合到一起，提纯得到一个精度较高的目标物的立体点云信息，之后，通过泊松表面重建(Poisson Surface Reconstruction)获得人脸三角网格模型。最近，Pengfei Dou和Ioannis A.Kakadiaris(Dou P,Kakadiaris I A.Multi-view 3Dface reconstruction with deep recurrent neural networks[C]//Biometrics(IJCB),2017IEEE International Joint Conference on.IEEE,2017:483-492)提出了新的基于神经网络的多视点人脸三维重建方法，针对多视点数据，先由深度卷积神经网络分别基于单张人脸图片提取人脸本征参数及表情参数，再使用循环神经网络聚合分析一系列经过上一步得到的信息，得到最终的人脸3DMM(3D Morphable Model)参数，再恢复出人脸三维模型。

第二类方法是基于单视点的人脸三维重建。传统方法通常有(1)采用阴影恢复形状(Sh ape-from-Shading，SFS)方法或光度立体(Photometric stereo)方法根据单个视图的彩色图像重建三维模型。由不同光照下的相同视角人脸图像信息计算出由表面法向量，再恢复出三维表面信息。该方法依赖于光照条件和光照模型的先验知识，而且它更适合重建人脸表面细节，对人头部整体的三维重建精度不高；(2)Feng Liu、Dan Zeng和QijunZhao(Liu F,Zeng D,Zhao Q,et al.Joint face alignment and 3d facereconstruction[C]//European Conference on Computer Vision.Springer,Cham,2016:545-560)提出了在回归框架下的人脸对齐和三维重建，该方法在给定输入二维人脸图像上的特征点的条件下，实时重建其三维模型的方法。利用两组级联的线性回归，一组用来更新2D特征点，另一组用来更新3D人脸形状。在每一次迭代中，先用SDM(SupervisedDescentMethod)方法得到特征点更新量，再用特征点的更新量去估计出3D人脸形状的更新量。新的3D人脸一旦更新就可以粗略地计算出3D-to-2D投影矩阵，同时再利用3D人脸对特征点进行修正，最终得到经过不断修正后的人脸三维模型。

近年也涌现了大量基于深度学习的单视图人脸三维重建的方法，其中EladRichardson、M atan Sela和Roy Or-El等人(Richardson E,Sela M,Or-El R,etal.Learning detailed face r econstruction from a single image[C]//2017IEEEConference on Computer Vision and Patter n Recognition(CVPR).IEEE,2017:5553-5562)设计了由粗略到精细(coarse-to-fine)的深度神经网络结构，输入人脸单张图片，输出人脸3DMM参数的中间结果，再通过渲染层由3DM M人脸参数恢复出三维模型再渲染出人脸图像，再次作为网络的输入，如此迭代循环得到最终的人脸3DMM人脸参数。最后再根据图像信息对人脸模型进行优化调整，增加了皱纹等面部细节。

上述现有技术至少具有以下缺点：几乎所有的基于深度学习的方法所选用的训练数据都基于Blanz和Vetter提出的三维形变模型，通常都是将3DMM人脸参数作为神经网络的输入进行网络训练，预测出输入图像对应的3DMM人脸参数再恢复出人脸三维模型。由于3DMM采用主成分分析(PCA)方法构建统计模型，而PCA本质上是一种低通滤波，所以这类方法在恢复人脸的细节特征方面效果仍然不理想。而传统方法往往处理速度比较慢，或者是需要输入额外的信息。

发明内容

针对上述现有技术中存在的缺陷，为了提高三维重建模型的质量，本发明的目的是提供一种精确高效地重建人脸三维模型的方法，基于深度学习实现多视点深度预测的融合，再进行模型重建。

为了实现上述发明目的，本发明采用的技术方案如下：

一种基于深度学习的多视点人脸三维模型重建的方法，包括如下步骤：

S1，将大批量的人脸三维模型通过设定多个虚拟视点和多种光照条件，分别渲染得到不同视点和不同光照下的具有真实感的人体面部图片；

S2，选取合适的人脸正视图的相机内外参数，计算人脸深度数据，并存为与人脸虚拟图片相同尺寸的深度图，深度图上每一个像素对应人脸正视图中的像素，作为深度学习训练的真值；

S3，将人脸虚拟图片进行数据增强预处理后作为深度神经网络的输入，不同视点的数据使用独立并行的网络进行训练，分别得到不同视角预测得到的人脸深度图；

S4，将步骤S3获得的不同视角的数据进行拼接后作为预测各视角权重分布模块网络的输入，输出各视角权重分布图，将不同视角预测得到的深度图数据按照权重进行融合，得到最终预测的深度图；

S5，根据设定的相机内参，由深度图恢复到人脸三维模型，再由人脸虚拟图片给模型进行顶点着色。

进一步地，所述步骤S1中，对于同一视点下的模型，通过旋转矩阵实现虚拟视点的变化，通过改变光源位置实现光照的变化。

进一步地，所述步骤S2中，计算人脸深度数据的具体方法为：首先选取合适的人脸正视图的相机内外参数，从而计算出人脸三维模型在该视角下的成像平面；然后从相机位置分别与成像平面的每个像素位置连成射线，射线与人脸三维模型的相交点且是距离相机中心最近的交点到相机中心位置的距离，即为模型交点处在该视角下的深度值；最后将得到的深度值存为深度图，深度图和人脸的彩色图像在像素坐标上是对齐的。

进一步地，所述步骤S3中，将多个视点的数据分别输入多个独立并行的网络，对深度图数据和虚拟人脸图片进行金字塔采样操作，产生四对不同尺寸的虚拟人脸图像及相应的深度图，以便从不同尺度上来对预测结果进行约束；每个独立并行的网络整体上均采用超参数相同的沙漏型“编码-解码”卷积神经网络结构，该网络结构将输入的单视图图像进行逐层特征提取，再根据这些特征进行反卷积生成预测的深度图，在反卷积层与具有相同特征图尺寸的卷积层之间建立联系，即对数据进行某一维度上的拼接，保留输入图像各个空间尺度上的的信息。

本发明提出了一种基于深度学习的多视点人脸三维重建的方法，基于深度学习的单视图人脸三维重建具有速度快、输入数据形式简单并且容易获取等特点。本发明首次提出一种针对多视点面部深度重建的重建结构，提出的基于深度神经网络的多视点加权融合弥补了单视点人脸三维重建在深度的精度上的缺失，这是由于单张视图无法完全表示出人脸的所有深度特征，直接预测难免会有很大偏差，而本发明多视图的加权融合可以将不同视点预测最准确的区域融合起来，结合多个视点图像的有效深度信息。

附图说明

图1为本发明基于深度学习的多视点人脸三维模型重建方法的流程图；

图2中(a)为本发明实施例中每个独立的卷积神经网络的结构，(b)为本发明实施例中训练各视角权重分布图网络的结构；

图3为本发明实施例中的测试图像的结果；(a)输入图像，(b)输出深度图，(c)由深度图恢复的人脸模型。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种基于深度学习的多视点重建人脸三维模型的方法，通过将多视点图像分别进行独立训练恢复出深度图，再训练出各视角权重分布图继而进行深度融合，在保证效率的前提下提高了人脸三维重建模型的精度。具体包括如下步骤：

(1)使用Basel Face Model的3DMM人脸数据库，在渲染阶段设置9种不同的虚拟光照，假设以人脸正视图作为0°视角，最后生成0°以及水平旋转±15°，±30°，±45°，±60°视角下的大量人脸虚拟照片。

(2)选取合适的相机内外参数，基于CGAL库计算出人脸正视图的深度信息，并存为与人脸虚拟图片相同尺寸的深度图，深度图上每一个像素对应人脸正视图中的像素相对应，这将作为深度学习训练的真值。此处，本发明是将人脸三维模型的深度数据信息作为神经网络训练的真值，而不是传统方法中采用的面部融合参数。

(3)将步骤(1)中得到的人脸虚拟图片进行数据增强，后作为深度神经网络的输入，不同视点的数据使用独立的网络进行训练，分别得到不同视角预测得到的人脸深度图。

(4)在这5个网络进行独立训练的同时，对五个视角的输入图像I₀,I₁,I₂,I₃,I₄进行维度拼接作为预测各视角权重分布模块的输入，输出各视角权重分布图，将不同视角预测得到的深度图数据，逐一像素地按照权重进行融合，得到最终预测的人脸深度图。

(5)根据设定的相机内参，由深度图恢复到人脸三维模型，再由虚拟人脸图片给模型进行顶点着色。

所述步骤(1)中，在OpenGL中设置9种不同的虚拟光照，即先设置了环境光、漫反射光、镜面光三个光照成分的基本参数，再设定光源位置，在人脸正前方设定为光源位置1，以垂直人脸的方向为轴，以合适的半径旋转8次，每次旋转45°得到8个不同的光源位置，变换不同的光源位置最终得到9种不同的光照条件。

对于获取不同视角下的虚拟人脸图像，在已知模型和相机内外参数的条件下，可以基于OpenGL渲染得到。先设定合适的相机内外参数来渲染出人脸正视图，即0°视角的虚拟人脸图片。其中设定的内参矩阵为：

其中，u₀,v₀是图像平面中心，dx和dy表示一个像素的大小，即每一个像素在u轴和v轴方向上的物理尺寸。f为摄像机镜头的焦距。

相机的外参数矩阵为：

其中，R为旋转矩阵，为平移矩阵。

通过变换旋转矩阵来实现视点的变化，比如在三维空间中，要将其绕z轴旋转θ角度可以用旋转矩阵R_z(θ)表示。其中

最终视角j下的相机的投影矩阵为P_j：

通过投影矩阵即可得到三维模型在特定虚拟视点下的二维图片。

所述步骤(2)中，在已知模型和相机内外参数的条件下，从相机位置分别与成像平面的每个像素位置连成射线，射线与三维模型的相交点(距离相机中心最近的交点)到相机中心位置的距离，即为模型交点处在该视角下的深度值。将得到的深度值存为深度图，深度图和人脸的彩色图像在像素坐标上是对齐的。

所述步骤(3)中，将5个视点的数据分别输入5个独立并行的网络，每个独立的网络均采用超参数相同的沙漏型“编码-解码”卷积神经网络结构，“编码-解码”结构就是指将输入的单视图图像进行逐层特征提取，再根据这些特征进行反卷积生成预测的深度图，以真实的深度数据作为对照计算损失函数。相比于Elad Richardson等人的工作(RichardsonE,Sela M,Or-El R,et al.Learning detailed face reconstruction from a singleimage[C]//2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2017:5553-5562)，本发明所使用的方法运用了图像金字塔结构网络，对深度图数据和虚拟人脸图片进行金字塔采样(pyramid scale)操作，产生了4对不同尺寸的虚拟人脸图像及相应的深度图，以便从不同尺度上来对预测结果进行约束，由于目标物体的表面纹理、光照等属性的不确定性，深度估计在部分区域会出现严重偏差，在后续处理中产生离群点，这种金字塔采样处理的方法对深度值预测区间进行约束，有效抑制了离群点的产生；并且在网络结构上，在反卷积层与具有相同特征图尺寸的卷积层之间建立了联系，即对数据进行某一维度上的拼接，利于保留输入图像各个空间尺度上的的信息。

所述步骤(4)中，是本发明首次提出的用卷积神经网络解决多视点面部重建和融合优化的方法中的融合优化部分，和其他工作不同的是，本发明在分别进行各视点单视图后进行了深度融合优化。相比于Pengfei Dou等人的工作(Dou P,Kakadiaris I A.Multi-view 3D face reconstruction with deep recurrent neural networks[C]//Biometrics(IJCB),2017IEEE International Joint Conference on.IEEE,2017:483-492)，本发明的方法使用了基于置信度的深度融合方法。具体实施方法如下：将各视角人脸图像进行第三维度上的拼接，作为网络的输入；针对每一个像素，将各视角预测得到的深度误差进行排序，选取误差最小的视角作为预测该像素值深度的视角真值，最后得到整张人脸深度图的视角真值分布图；在网络最后一层使用softmax函数针对预测深度图的每个像素进行分类，得到整张人脸深度图的视角预测分布图，将该分布图与之前得到的视角真值分布图采用L1范数进行约束，最终训练得到各视角分别作为最优预测视角的区域。最终融合的预测深度图，就是各视点预测的深度值的加权和，权重也是由网络训练得到的。最终融合的预测深度图每个像素上的深度值计算方式如下：

其中D(X)是像素X上代表的最终深度值，d_i为视角i下预测的深度值，δ_i为视角i预测的深度数据所占权值。整个网络的总损失函数表达式为：

其中||·||₁表示l₁范数，λ₁、λ₂、λ₃是各损失项的权重系数。P_i是网络实际输出的第i个尺度的深度图，G_i是训练数据中的第i个尺度的真值深度图。P_f是将各视角预测得到的深度图按照训练得到的权重分布图进行融合后得到的结果，G是训练数据中的原始尺度的真值深度图。V_p是预测各视角的人脸权重分布图这一模块中的输入数据，V_g是人脸深度图的视角真值分布图。

损失函数的组成：(1)4个图像金字塔尺度下的预测深度与真值深度的L1范数，(2)各视角预测的深度信息根据训练得到的权重分布图重新融合得到的最终深度图，与真值深度的L1范数，(3)人脸深度图的视角预测分布图与视角真值分布图的L1范数。

所述步骤(5)中，由深度数据恢复出网格模型，网格的组成方式就是把深度图中邻近的四个构成方形的像素点按照相同的连接顺序(比如顺时针)组成两个直角三角形，再由逆投影矩阵进行逆投影，转换为三维空间中的相邻两个三角形面片。根据虚拟人脸图片中的像素与深度图像素一一对应的关系，将虚拟人脸图片中的像素的RGB颜色信息赋予三维模型的相应顶点，最终得到上色的人脸三维模型。

实施例

本实施例提供了一种基于深度学习的多视点人脸三维模型重建方法，参见图1，具体包括：

(1)使用Basel Face Model的3DMM人脸数据库随机生成2300个中性表情的人脸模型，其中1800个模型作为训练集，500个模型作为测试集。虚拟光照9种，相机视角(旋转矩阵)5个。建立虚拟视点投影得到相应的二维图片。则由2300个人脸模型可以得到2300×9×5张不同人脸在不同光照、不同视角下的图片。在输入网络前对数据进行了数据增强处理，包括在一定范围内随机调整对比度等等，使训练的的样本更加丰富，使结果更具有鲁棒性。

(2)选取正视图视角(0°视角)的相机内外参数，从相机位置分别与成像平面的每个像素位置连成射线，射线与三维模型的相交点(距离相机中心最近的交点)到相机中心位置的距离，即为模型交点处在该视角下的深度值。将得到的深度值存为深度图，其像素与虚拟人脸图片上的像素一一对应，得到的深度图将作为深度学习训练的真值。

(3)将各视角下的虚拟人脸图片和对应的深度图作为一组训练数据，各视角的虚拟人脸图片在进行数据增强的预处理后分别进入5个独立并行的网络，以相应的深度图为真值与神经网络的输出计算损失，作为损失函数的一部分。实施例中输入图片的分辨率为224×224，网络训练的目的是通过调整卷积神经网络的参数以拟合输出的224×224深度图与224×224虚拟人脸图片之间的函数关系。所述卷积神经网络包括5层卷积层进行特征提取，得到多张尺寸相同的由不同卷积核得到的特征图。

该深度神经网络采用Adam的优化算法进行训练，设置训练周期数(number ofepoch)为50，学习率设置为0.0001。

前向传播阶段的步骤如下：

首先从训练集中取一个样本(I₀,I₁,I₂,I₃,I₄,G)，I_i表示在视角i下得到的虚拟人脸图片，G是卷积神经网络的理想输出。对I_i进行金字塔采样操作后，每组I_i中包含4个尺寸不同的虚拟人脸图片，包括224×224、112×112、56×56、28×28。将I₀,I₁,I₂,I₃,I₄分别输入独立并行的深度神经网络，输入数据从输入层经过隐藏层的逐级变换，传送到输出层，最终得到实际输出向量P_i(包括P_i0、P_i1、P_i2、P_i3四个尺度)。在这个过程中，网络逐层执行输入图片与神经网络中的权值矩阵的点乘运算。最后计算各独立网络的误差向量：

其中||·||₁表示l₁范数，E_i是视角i对应的网络的损失函数组成成分之一，P_ij是视角i对应的网络实际输出的第j个尺度的深度图，G_ij是训练数据中视角i的第j个尺度的真值深度图。

后向传播阶段的步骤如下：

误差反传，调整各层权值参数；检查训练集的所有样本是否都参与了训练；检查网络总误差是否到达精度E_i，误差小于精度结束训练，误差大于精度继续训练工作，按极小化误差的方法反向传播调整权矩阵。

(4)在这5个网络进行独立训练的同时，也在进行各视角权重分布的神经网络训练。

前向传播阶段的步骤如下：

对I₀,I₁,I₂,I₃,I₄进行维度拼接作为预测各视角权重分布模块的输入，在网络的最后一层使用softmax函数针对每个像素分类，最终得到整张人脸深度图的视角预测分布图。在网络中训练各视角相应的最优区域时，针对每一个像素，将各视角预测得到的深度误差进行排序，选取误差最小的视角作为预测该像素值深度的视角真值，最后得到整张人脸深度图的视角真值分布图。将该分布图与得到的视角真值分布图采用L1范数进行约束，最终训练得到各视角分别作为最优预测视角的区域。将不同视角预测得到的深度图数据，逐一像素地按照权重进行融合，得到最终预测的人脸深度图。最终融合的预测深度，就是各视点预测的深度值的加权和，其中权重分布也是由训练得到的。

后向传播阶段的步骤如下：

误差反传，调整各层权值参数；检查网络总误差是否到达精度E_i，误差小于精度结束训练，误差大于精度继续训练工作，按极小化误差的方法反向传播调整权矩阵。

表1为各视角单独预测的结果以及本发明实施例1中融合多视点的结果与真实值的均方误差MSE(Mean Squared Error)、结构相似度SSIM(Structural Similarity Indexfor Measuring)的统计数据。

表1实验结果统计数据表

量化实验(表1)表明本发明可以有效提高人脸三维重建的精度，本发明方法所预测的深度精度(包括均方误差MSE和结构相似度SSIM)优于所有单视点图像预测深度。因此，本发明提出的基于深度学习的多视点人脸三维重建的方法将有助于提升针对人脸的三维重建精度和鲁棒性，生成的人脸三维模型可以应用于安全认证、影视动漫、医学科学等领域等。

Claims

1.一种基于深度学习的多视点人脸三维模型重建的方法，其特征在于，包括如下步骤：

S2，选取合适的人脸正视图的相机内外参数，计算人脸深度数据，并存为与人脸虚拟图片相同尺寸的深度图，作为深度学习训练的真值；其中，深度图上每一个像素对应人脸正视图中的像素；

S4，将经过步骤S3数据增强预处理后获得的不同视角的人脸虚拟图片进行拼接后作为预测各视角权重分布模块网络的输入，输出各视角权重分布图，将不同视角预测得到的深度图数据按照权重进行融合，得到最终预测的深度图；其中，预测各视角权重分布模块网络的结构中：

(1)将各视角人脸图像进行图像通道维度上的拼接，作为网络的输入；

(2)针对每一个像素，将各视角预测得到的深度误差进行排序，选取误差最小的视角作为预测该像素值深度的视角真值，最后得到整张人脸深度图的视角真值分布图；

(3)在网络最后一层使用softmax函数针对预测深度图的每个像素进行分类，得到整张人脸深度图的视角预测分布图，将该分布图与之前得到的视角真值分布图采用L1范数进行约束，最终训练得到各视角分别作为最优预测视角的区域；最终融合的预测深度图，就是各视点预测的深度值的加权和，权重也是由网络训练得到的，最终融合的预测深度图每个像素上的深度值计算方式如下：

其中D(X)是像素X上代表的最终深度值，n为视角个数，d_i为视角i下预测的深度值，δ_i为视角i预测的深度数据所占权值；整个网络的总损失函数表达式为：

其中||.||₁表示l₁范数，λ₁、λ₂、λ₃是各损失项的权重系数；m是网络中所使用的深度图真值图片的尺度的种类个数，P_i是网络实际输出的视角i的尺度的深度图，G_i是训练数据中的视角i的尺度的真值深度图；P_f是将各视角预测得到的深度图按照训练得到的权重分布图进行融合后得到的结果，G是训练数据中的原始尺度的真值深度图；V_p是预测各视角的人脸权重分布图这一模块中的输入数据，V_g是人脸深度图的视角真值分布图；

2.根据权利要求1所述的一种基于深度学习的多视点人脸三维模型重建的方法，其特征在于，所述步骤S1中，对于同一视点下的模型，通过旋转矩阵实现虚拟视点的变化，通过改变光源位置实现光照的变化。

3.根据权利要求1所述的一种基于深度学习的多视点人脸三维模型重建的方法，其特征在于，所述步骤S2中，计算人脸深度数据的具体方法为：

首先选取合适的人脸正视图的相机内外参数，从而计算出人脸三维模型在该视角下的成像平面；然后从相机位置分别与成像平面的每个像素位置连成射线，射线与人脸三维模型的相交点且是距离相机中心最近的交点到相机中心位置的距离，即为模型交点处在该视角下的深度值；最后将得到的深度值存为深度图，深度图和人脸的彩色图像在像素坐标上是对齐的。

4.根据权利要求1所述的一种基于深度学习的多视点人脸三维模型重建的方法，其特征在于，所述步骤S3中，将多个视点的数据分别输入多个独立并行的网络，对深度图数据和虚拟人脸图片进行金字塔采样操作，产生四对不同尺寸的虚拟人脸图像及相应的深度图，以便从不同尺度上来对预测结果进行约束；每个独立并行的网络整体上均采用超参数相同的沙漏型“编码-解码”卷积神经网络结构，该网络结构将输入的单视图图像进行逐层特征提取，再根据这些特征进行反卷积生成预测的深度图，在反卷积层与具有相同特征图尺寸的卷积层之间建立联系，即对数据进行某一维度上的拼接，保留输入图像各个空间尺度上的信息。

5.根据权利要求1所述的一种基于深度学习的多视点人脸三维模型重建的方法，其特征在于，所述步骤S5的具体过程为：把深度图中邻近的四个构成方形的像素点按照相同的连接顺序组成直角三角形，然后进行逆投影转换为空间中的三角形面片；再根据人脸图片中的像素与深度图中的像素一一对应的关系，将人脸图片中像素的RGB颜色信息赋予人脸三维模型的相应顶点，最终得到上色的人脸三维模型。