CN108805977A

CN108805977A - 一种基于端到端卷积神经网络的人脸三维重建方法

Info

Publication number: CN108805977A
Application number: CN201810576253.1A
Authority: CN
Inventors: 任重; 俞云康; 周昆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2018-11-13

Abstract

本发明公开了一种基于单张人脸图片的人脸三维重建方法，该方法基于端到端卷积神经网络，为了充分发挥深度卷积神经网络的能力，将人脸三维模型编码到二维点坐标图，并且提出了一种新的更适合人脸重建的损失函数，可以直接使用一个轻量级的端到端网络来学习和预测。同时，该算法还能进行人脸对齐，得到准确的三维人脸关键点坐标。在多个公开的人脸数据集上的对比实验表明，本发明仅使用单张人脸图片就可以重建出准确的人脸三维模型。相比于已有的人脸重建方法，本发明提出的方法在精度和速度上都有较大的提升。

Description

一种基于端到端卷积神经网络的人脸三维重建方法

技术领域

本发明涉及三维重建领域，尤其涉及一种针对基于单张图片的三维人脸重建方法。

背景技术

人脸是人最具辨别度的部位，每个人的人脸都不尽相同。我们可以通过人脸的外形特征，如鼻梁的高低、眼窝的深浅、眼睛的大小和嘴唇的厚薄快速判断一个人的身份、地域和种族。这些外形特征也是人脸识别发挥作用的前提条件之一。日常生活中，除了语言之外，人们还会使用大量的面部表情来交流和传递信息。人脸是了解一个人最重要的窗口之一，人的喜怒哀乐都反映在面部表情上。人脸相关的应用是计算机视觉中最重要的领域之一，如人脸检测、人脸识别、人脸定位、人脸对齐和人脸重建等。

三维重建是计算机图形学和视觉领域中的基础性工作，人脸三维重建是三维重建领域中最重要也是历史最为悠久的分支，在影视动画和游戏娱乐等领域中的应用非常广泛，是真实感渲染、人脸表情捕捉和表情动画重定向等应用的基石。

人脸重建被在很多领域被广泛使用。游戏行业中，从游戏三维化开始，就有大量的人类角色和拟人化的角色被创建出来。随着硬件水平的提升，这些角色越来越生动、写实，这就需要高精度三维人脸模型。影视动画行业中，随着影视特效和计算机动画的普及，越来越多的通过计算机创建、编辑的角色出现在荧幕和屏幕上，这背后离不开表情捕捉和三维重建技术的发展。

传统影视动画行业和游戏娱乐领域需要用到大量的人物角色模型，其中很大一部分需要专业的三维建模师手工建模，这个过程非常耗费时间和精力。而自动化人脸三维重建方法能极大减少这部分的重复工作，从而节约人力资源，提高生产效率。

近年来，随着手机硬件水平的提高，出现了大量虚拟现实和增强现实的游戏及应用。许多与人脸相关的新需求不断涌现，例如实时换脸、虚拟化身、虚拟化妆和虚拟试戴等，而人脸三维重建是这些应用最重要的基石之一。手机等移动平台受限于硬件水平和电池容量，对于人脸三维重建算法的效率提出了更高的要求。

发明内容

本发明的目的在于针对普通的单张人脸图片快速重建出对齐的人脸的三维模型这个问题，提供了一种基于端到端卷积神经网络的三维人脸重建方法。

本发明的目的是通过以下技术方案来实现的：一种基于端到端卷积神经网络的人脸三维重建方法，包括如下步骤：

(1)获取模板人脸:基于公开的Basel人脸数据库中的平均人脸三维模型，去除每个顶点的三维坐标值，只保留顶点之间的连接关系和每个顶点的二维UV坐标，将第i个顶点的二维 UV坐标记做uv_i；

(2)处理训练数据集：基于公开的AFLW2000人脸数据集，处理成本发明需要的格式，包含如下几个子步骤：

(2.1)扩充训练数据：对于AFLW2000人脸数据集中的每张人脸图片，使用水平翻转、绕图片中心旋转随机角度、在水平方向上平移随机距离、在垂直方向上平移随机距离和用用随机图片遮挡等方式扩展生成多张新的人脸；

(2.2)编码人脸三维模型：对于训练数据集中的每个人脸模型，将其中的每个顶点按如下方式变换以和人脸图片对齐：

v′_i＝T_i·R_i·S_i·v_i

其中下标i表示第i个人脸模型，v_i表示变换前的顶点坐标，v′_i表示变换后的坐标，T表示平移矩阵，R表示旋转矩阵，S表示缩放矩阵；

接下来对每个人脸模型生成一张256x256的三通道、浮点格式的图片I_i，称之为二维点坐标图；每个顶点根据其二维UV坐标(x_i,y_i)，将变换后的三维坐标v_i写入I_i对应的像素点，即：

I_i[x_i,y_i]＝v′_i

对于I_i中未被UV坐标覆盖的像素点(x,y)，找到距离其最近的三个UV坐标(uv_a,uv_b,uv_c)，这三个UV坐标构成一个三角形，计算该点在这个三角形中的重心坐标(w_a,w_b,w_c)，按如下方式得到像素点(x,y)的值：

I_i[x,y]＝w_a·v′_a+w_b·v′_b+w_c·v′_c

其中v′_a，v′_b，v′_c为三个UV坐标对应的变换后的顶点三维坐标；

(3)训练神经网络：这一步使用深度学习工具TensorFlow构建卷积神经网络，并在训练集上训练，包括如下几个子步骤：

(3.1)定义网络的输入层和输出层：网络的输入是人脸图片，大小为256×256×3；网络的输出层是二维点坐标图，大小为256×256×3；

(3.2)构建基础网络结构：在输入层之后添加网络的主体结构；首先是一个卷积层，随后是 10个残差模块，将大小为256×256×3的输入图像缩减为8×8×512特征映射；之后再添加17个转置卷积层用来从上一步的特征映射预测得到大小为256×256×3的二维点坐标图；

(3.3)设置损失函数：最后加入损失函数层，误差函数使用加权的均方误差，将人脸的表面区域分为三个区域，每个区域依据重要程度赋予不同的权重，制作权重遮罩图；

基于权重遮罩，损失函数可以表示成加权的L₂距离：

其中x和y是UV坐标，I(x,y)表示训练数据的真实值，即步骤(2.2)中得到的二维点坐标图在(x,y)的值，表示网络预测的结果，W(x,y)表示对应的权重遮罩中的值；

(3.4)初始化网络参数：初始化每一层卷积网络的参数，使用He正态分布，网络的参数由均值为0，标准差为的正态分布产出，其中fan_in为该卷积层的输入单元数(扇入) 大小；

(3.5)添加权重衰减，在每个卷积层中加入L₂正则化项作为惩罚项：

其中的参数λ被称为权重衰减系数；本发明中λ的取值为0.0001；

(3.6)设置训练时批量大小为32；

(3.7)使用Adam学习率算法训练神经网络，该算法更新一阶矩和二阶矩的公式如下：

m_t＝η[β₁m_t-1+(1-β₁)g_t]

其中，初值如下：

m₀＝0，v₀＝0

还要对一阶和二阶动量做偏置校正：

再进行学习率更新：

其中θ_t为旧的学习率，θ_t+1为新的学习率；

(3.8)训练神经网络模型：在一台配备了显卡(GPU)的计算机上训练，使用深度学习工具 TensorFlow和步骤(2)中得到的训练集，训练得到神经网络模型；

(4)重建三维人脸：对于需要重建的人脸图片，使用上一步得到神经网络模型，重建得到三维人脸模型，这一步包含如下几个子步骤：

(4.1)裁剪人脸图片：对于需要重建的人脸图片，使用开源工具dlib得到包含人脸所在的最小包围盒，裁剪这部分并缩放到256×256×3大小；

(4.2)获取二维点坐标图：以上一步裁剪后的人脸图片作为输入，运行步骤(3)得到的神经网络模型，得到二维点坐标图；

(4.3)解码二维点坐标图：基于步骤(1)得到的模板人脸模型和(4.2)得到二维点坐标图，模板人脸模型中的每个顶点根据UV坐标(x_i,y_i)在二维点坐标图中采样得到该点的三维坐标，即第i个顶点的预测的三维坐标可以由下式得到：

v′_i＝I[x_i,y_i]

(4.4)保存重建的三维人脸模型：上一步解码得到的每个顶点的三维坐标，再加上步骤(1) 中的模板人脸模型中的顶点之间的连接关系，就构成了完整三维人脸模型，保存成通用的三维文件格式，如obj和stl等。

本发明的有益效果是：本发明使用轻量级的端到端卷积神经网络，在计算资源有限的情况下也能快速得到高精度的人脸重建结果；相对于已有的其他应用了卷积神经网络的算法，本发明使用的网络结构更轻量，体积更小，速度更快；本发明的重建过程不需要依赖参数化的人脸模型，而是基于二维点坐标图这种用二维图片表达人脸三维结构的编码方式，不受模型表达能力的制约，能直接学习得到对齐的人脸的几何结构；在公开数据集上的测试结果表明该算法重建的人脸模型的准确度比已有的同类算法高，尤其是在大角度人脸姿态的情况下。

附图说明

图1是本发明的方法流程图；

图2是使用本发明的方法从一张男性的侧脸图片的重建结果图，其中，(a)为原始人脸图片，(b)为重建得到人脸三维模型渲染到原图上的结果图，(c)为对齐得到的68个关键点及其轮廓线；

图3是使用本发明的方法从一张具有较大遮挡的女性的重建结果图，其中，(a)为原始人脸图片，(b)为重建得到人脸三维模型渲染到原图上的结果，(c)为对齐得到的68个关键点及其轮廓线。

具体实施方式

人脸重建的目的在于根据照片重建对应人脸的三维网格。目前基于深度学习的主流做法都是使用参数化人脸模型。这些方法使用卷积神经网络预测参数化人脸模型的参数，因此重建的结果受限于参数化人脸模型的表达能力。这些算法使用参数化人脸模型的一个重要原因是三维网格无法作为神经网络的输出(即学习和预测的目标)，因此我们需要寻找一种适合神经网络的表示方式。本发明提出了二维点坐标图编码三维网格，并作为神经网络的学习目标。

本发明整体框架如图1所示，输入的人脸图片经过端到端的卷积神经网络输出一张 256X256X3的图片，即本发明提出二维点坐标图，编码了人脸的三维信息。之后二维点坐标图经过简单解码生成了最终的人脸三维模型，该模型与原图片中的人脸对齐。除了人脸重建之外，人脸的三维关键点也能从二维点坐标图中直接得到。

具体阐述如下：

(1)获取模板人脸

基于公开的Basel人脸数据库中的平均人脸三维模型，顶点数为53215，面数为105842。我们不关心模板人脸中每个顶点的三维坐标值具体是多少，只关心顶点之间的连接关系。因此去除每个顶点的三维坐标值，只保留顶点之间的连接关系和每个顶点的二维UV坐标。基于固定拓扑的模板人脸三维网格模型，顶点和顶点间的连接关系是固定的，因此只要知道每个顶点的三维坐标，就能重建出人脸三维模型。

(2)处理训练数据集

基于公开的AFLW2000人脸数据集，处理成本发明需要的格式，包含如下几个子步骤：

(2.1)扩充训练数据

深度学习需要大量训练数据，常用的人脸数据集的的容量不够，所以还需要数据增强来产生新的数据。对于AFLW2000人脸数据集中的每张人脸图片，首先将图像水平翻转，将训练集扩充一倍。然后对于每张人脸图片按如下四种方式生成新的图片，每种方式各生成5张：

a.绕图片中心旋转随机角度，旋转的最大角度为45°，最小角度为-45°；

b.在水平方向上平移随机距离，图像随机平移的最大距离为图片尺寸的20％；

c.在垂直方向上平移随机距离，图像随机平移的最大距离为图片尺寸的20％；

d.用随机图片遮挡，遮挡图片中包括各种形式的手、眼镜、纸袋、杯子等生活中常见的物体。

以上数据扩充方式极大扩展了训练集的数量，并提高了在不同情况下的覆盖率。

(2.2)用二维点坐标图来编码人脸三维模型：

算法的目标是基于单张人脸图片回归得到对齐后的三维人脸的面部几何网格。因此卷积神经网络的学习目标是三维网格，但是通常来说，卷积神经网络的输出是单个值、一维向量或者二维图片。

为了解决这个问题，本发明提出了二维点坐标图，类似常用的UV纹理贴图，都是三维模型的二维展开，每个像素点和三维模型表面的点一一对应。纹理贴图中每个像素表示对应点的颜色值，而二维点坐标图中的每个像素表示对应点的坐标。

二维点坐标图借鉴了UV纹理贴图，先来回忆一下UV纹理贴图的原理。三维网格上的每个顶点除了本身的三维坐标外，还对应一个二维坐标(通常在(0,1)区间内)。这个二维坐标被称为UV坐标，对应于UV纹理贴图中的位置，实质上是一种三维空间到二维空间的映射关系。

二维点坐标图使用了和UV纹理贴图中一样UV坐标，区别在于后者存储颜色值，而前者存储三维坐标值。本发明中使用的UV坐标是使用专业三维软件手工展开得到的(只需对模板人脸模型展开)，展开的UV形式如图2。由于顶点数过多，图中显示的UV图经过简化处理。

编码的过程发生在训练数据生成的时候。原始训练数据中的每个样本包含一张人脸图片、三维人脸网格模型和用于人脸对齐的信息(平移和旋转系数等)，神经网络期望的训练数据是人脸图片和二维点坐标图。编码过程是一个渲染的过程。首先，位于局部坐标系下的三维网格经过平移和旋转被变换到世界坐标系下，与图片中的人脸对齐。之后，经过简单的光栅化渲染器，每个点的坐标值依据模板UV坐标被写入(渲染)到二维图片中，利用光栅化渲染器的自动插值特性，人脸表面非顶点部分的坐标值由插值得到。整个流程见图3，图中的二维点坐标图加上了UV信息，实际不包含UV。此外，值得注意的是，虽然使用了固定拓扑的人脸网格模型，但本发明的算法不是一个拟合的过程，而是使用卷积神经网络来直接回归得到该三维网格每个顶点的三维坐标。

首先将人脸数据集中三维人脸模型与人脸图片对齐，对于数据集中的每个人脸模型，将其中的每个顶点按如下方式变换：

v′_i＝T_i·R_i·S_i·v_i

其中下标i表示第i个人脸模型，v_i表示变换前的顶点坐标，v′_i表示变换后的坐标，T表示平移矩阵，R表示旋转矩阵，S表示缩放矩阵。

接下来对每个人脸模型生成一张256x256的三通道、浮点格式的图片I_i，称之为二维点坐标图。每个顶点根据其二维UV坐标，将变换后的三维坐标v_i写入I_i对应的像素点，即：

I_i[uv_i]＝v′_i

I_i[x,y]＝w_a·v′_a+w_b·v′_b+w_c·v′_c

其中v′_a，v′_b，v′_c为三个UV坐标对应的变换后的顶点三维坐标。

使用二维点坐标图有一个额外的好处，可以很容易得到人脸关键点三维坐标。因为使用二维点坐标图之后，学习到的人脸模型的拓扑相同，三维人脸网格上的关键点对应到二维点坐标图上的位置是固定的。也就是说，网络预测得到二维点坐标图之后，只需要一个简单的图像采样操作就可以得到三维关键的坐标。因此本发明提出的算法也可以用来人脸对齐，这个对齐的过程不付出需要额外成本。

(3)训练神经网络

这一步使用深度学习工具TensorFlow构建卷积神经网络，并在训练集上训练，包括如下几个子步骤：

(3.1)定义网络的输入层和输出层

网络的输入是人脸图片，大小为256×256×3；网络的输出层是二维点坐标图，大小为 256×256×3。

(3.2)构建基础网络结构

由于我们的网络是将输入的RGB图像转换为二维点坐标图，这有点像从图片生成新图片的任务，因此我们采用常用的编码器-解码器结构。网络的编码器部分从一个卷积层开始，随后是10个残差模块，将256×256×3输入图像缩减为8×8×512特征映射。解码器部分包含17个转置卷积层用来从上一步的特征映射预测256×256×3的二维点坐标图。

(3.3)设置损失函数

损失函数也是网络结构中重要的一环。针对人脸三维重建这个特定任务，本发明设计了一个新的损失函数，专门用来衡量训练数据中标注的面部关键点的坐标和网络输出之间的差异。均方误差(MSE)是这种学习任务的常用损失函数。然而，MSE中所有点的权重都是一样的，但是在人脸表面上有些点比其他点更重要。比如人脸中心区域(眼部、鼻子和嘴巴)比其他区域具有更多的特征，这些点的权重就应该比脖子等部位的点要大，因此本发明使用的损失函数中加入了权重遮罩。

权重遮罩图将三维网格上的点分为三类，根据重要程度赋予不同的权重，在权重遮罩图中使用不同颜色表示。最重要的点是68个面部关键点，是计算机视觉任务中人脸最重要的特征，因此权重最高，图中为A区域。B区域表示眼睛、鼻子和嘴部，是人脸上重要的视觉特征，每个人的个体差异很大，因此这三个部分为次一级的特征。C区域为面部其他部分，相对来说，我们不太关心这部分，因此赋予最低的权重。

实际实验中使用的权重如下：

1.A区域，68个面部关键点及其周围点的权重为1。

2.B区域，眼睛、鼻子和嘴巴等中心区域的权重为0.5。

3.C区域，其他面部区域的权重为0.25。

本发明算法要同时解决人脸重建和人脸对齐两个任务，因此对于人脸关键点赋予了最高权重。除此之外，根据面向任务的不同，可以灵活调整权重遮罩，提高部分权重值以提高感兴趣的区域的重建精度。例如，对于人说话时嘴部动画的重建任务，可以提高嘴部的权重以得到更高精度的嘴部模型。而对于眼镜虚拟试戴任务，只需关注佩戴眼镜的区域，因此只需要提高眼睛和耳上点等区域的权重。

基于权重遮罩，损失函数可以表示成加权的L₂距离：

其中x和y是UV坐标，I(x,y)表示训练数据的真实值，即步骤(2.2)中得到的二维点坐标图在(x,y)的值，表示网络预测的结果，W(x,y)表示对应的权重遮罩中的值。

(3.4)初始化网络参数

在卷积神经网络中，参数的初始化方式往往会影响网络的收敛速度和结果的精度。本发明使用He正态分布，网络的参数由均值为0，标准差为的正态分布产出，其中fan_in 与该卷积层的输入单元数(扇入)大小有关。

(3.5)设置权重衰减

在卷积神经网络的训练中，未来防止过拟合、提高泛化能力，通常需要在卷积层中加入L₂正则化项作为惩罚项：

其中的参数λ被称为权重衰减系数(weight decay)。综合他人的做法和作者的实验，本发明中λ的取值设为0.0001。

(3.6)设置批量大小

在机器学习优化算法中，梯度下降(Gradient Descent，GD)是最常用的方法之一，简单来说就是在整个训练集上计算当前的梯度，选定一个步长进行更新，这个步长被称为学习率。梯度下降的优点是，梯度由整个数据集得到，梯度估计相对较准，更新过程也更准确。但也有几个缺点，一个是当训练集较大时，梯度计算较为耗时，二是现代深度学习网络的损失函数往往是非凸的，基于凸优化理论的优化算法只能收敛到局部最小值，因此使用梯度下降训练深度神经网络时，最终收敛点很容易落在初始点附近的一个局部最小值(在高维情况下往往是鞍点)，不太容易达到较好的收敛性能。

另一个极端是随机梯度下降(Stochastic Gradient Descent，SGD)，每次计算梯度只用一个样本，这样做的好处是计算快，而且很适合在线学习(数据流式到达)的场景，但缺点是单个样本产生的梯度估计往往很不准确，所以必须使用很小的学习率，而且由于现代计算体系结构决定了CPU/GPU是多线程工作的，每次学习一个样本很难使CPU/GPU全速工作，导致计算资源严重浪费。

一个常用的折中方案就是使用小批量(minibatch)更新梯度，一个minibatch包含了若干样本来估计梯度，这样梯度估计相对于随机梯度下降更加准确，同时选择batch大小能占满CPU/GPU的计算资源，又不像梯度下降法那样需要计算整个训练集。同时也由于使用多个样本能引入适当的梯度噪声，一定程度上缓解梯度下降法容易陷入局部最小值点或者鞍点。目前的深度学习框架中的随机梯度下降都是使用了minibatch的。minibatch的使用又引入了一个新的超参数：批量大小(batch size)。目前对批量的讨论中指出每个minibatch必须是随机抽取的。实践上的常用做法是将批量大小设为计算资源所允许的最大值，这样在速度和准确性之间取得一个平衡点。本发明中的批量大小选择32。

(3.7)使用Adam学习率算法

上一节提到过，梯度更新时的步长即为学习率(Learning Rate)。学习率是神经网络中最难设置的超参数，对学习的结果有着显著影响。一般来说，训练的前期学习率取值可以稍大一些，这样可以加快收敛速度。随着训练的进行，学习率也应该随之减小以便得到更好的结果。本发明中使用学习率自适应的优化算法Adam(Adaptive Moment Estimation)，该算法本质上是带有动量项的RMSprop算法变种，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam算法的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。该算法更新一阶矩和二阶矩的公式如下：

m_t＝η[β₁m_t-1+(1-β₁)g_t]

其中，初值如下：

m₀＝0

v₀＝0

还要对一阶和二阶动量做偏置校正：

再进行学习率更新：

其中，θ_t为旧的学习率，θ_t+1为新的学习率。

(3.8)训练神经网络模型

在一台配备了显卡(GPU)的计算机上训练，使用深度学习工具TensorFlow和步骤(2) 中得到的训练集，训练得到神经网络模型，模型大小为53.5MB。

(4)重建三维人脸

对于需要重建的人脸图片，使用上一步得到神经网络模型，重建得到三维人脸模型，这一步包含如下几个子步骤：

(4.1)裁剪人脸图片

对于需要重建的人脸图片，使用开源工具dlib得到包含人脸所在的最小包围盒，裁剪这部分并缩放到256×256×3大小。

(4.2)获取二维点坐标图

以上一步裁剪后的人脸图片作为输入，运行步骤(3)得到的神经网络模型，得到二维点坐标图。单次运行的时间在10ms左右。

(4.3)解码二维点坐标图

使用UV纹理贴图时，每个顶点根据UV坐标在UV纹理贴图中采样得到该点的颜色值。解码二维点坐标图也是一个类似的过程，每个顶点根据UV坐标在二维点坐标图中采样就能得到该点的三维坐标。此外，因为神经网络学习的目标是对齐的人脸网格，因此网络预测得到的二维点坐标图中的坐标值也是对齐的坐标值。基于步骤(1)得到的模板人脸模型和(4.2) 得到二维点坐标图，模板人脸模型中的每个顶点根据UV坐标(x_i,y_i)在二维点坐标图中采样得到该点的三维坐标，即第i个顶点的预测的三维坐标可以由下式得到：

v″_i＝I[x_i,y_i]

同时，因为人脸网格的拓扑是固定的，人脸关键点的UV坐标也是固定的，对应到二维点坐标图中位置也是固定的。换句话说，在二维点坐标图中的固定位置采样就可以得到人脸关键点的三维坐标，即实现了人脸对齐的目标。

(4.4)保存重建的三维人脸模型

上一步解码得到的每个顶点的三维坐标，再加上步骤(1)中的模板人脸模型中的顶点之间的连接关系，就构成了完整三维人脸模型，保存成通用的三维文件格式，如obj和stl等。

下面根据实施例详细描述本发明。发明人在一台配备了一个2.10GHz的IntelXeon CPU E5-2620，Nvidia GeForce GTX 1080Ti显卡，64G内存的计算机上实现了本发明的若干实施实例。

实施例一、发明人使用本方法从一张男性的侧脸图片重建了三维人脸模型，如图2所示。第一张图片为原始人脸图片，第二张为人脸重建得到人脸三维模型渲染到原图上的结果，第三张图片为对齐得到的68个关键点及其轮廓线，这些关键点包括眼鼻嘴和下部轮廓。图片中的人脸偏转角度较大，而且场景光照不足，人脸很大区域处于阴影中，这种情况下重建的难度很高。从重建结果中可以看出本方法面对大角度旋转和复杂光照时仍能得到较好的结果，同时高精度的人脸对齐的结果也从侧面证明了重建结果的准确性。

实施例二、发明人使用本方法从一张具有较大遮挡的女性的重建结果。图片含义与实施例一相同。图中的人脸部分区域被头发遮挡，且遮挡区域比较复杂。可以看到，在面对复杂遮挡的挑战下，本发明仍旧能准确得到重建结果。其中人脸的主要区域，耳鼻嘴部分定位准确，重建误差小，表明基于权重遮罩的损失函数设计是有效的。

实施例三、发明人测试了本发明的算法流程在两个公开的人脸数据集上总计3300张人脸图片的效果。实验结果表明，在面对大角度旋转、复杂光照、遮挡、模糊和化妆等高难度的挑战下，本发明的算法仍旧可以准确高效地重建得到对齐的人脸三维模型。传统方法面对这些挑战时往往不具有较强的鲁棒性，而本方法基于卷积神经网络，模型具有极强的表达能力和。

实施例四、测试平均每张图片的运行时间为10.2ms，比目前的最快的主流方法快70％以上。主要原因有两点，一是本方法使用了二维点坐标图这一简洁高效的形式来编码三维人脸，没有复杂的预处理和后处理步骤；二是基于卷积神经网络的方法能充分利用图像显卡的计算能力，而且本方法使用了轻量化的端到端卷积神经网络结构，网络模型较小。

Claims

1.一种基于端到端卷积神经网络的人脸三维重建方法，其特征在于，该方法包括如下步骤：

(1)获取模板人脸:基于Basel人脸数据库中的平均人脸三维模型，去除每个顶点的三维坐标值，只保留顶点之间的连接关系和每个顶点的二维UV坐标。

(2)处理训练数据集：基于AFLW2000人脸数据集，首先扩充训练数据，然后编码人脸三维模型。

(3)训练神经网络：使用深度学习工具TensorFlow构建卷积神经网络，并在训练集上训练。

(4)重建三维人脸：对于需要重建的人脸图片，使用步骤3得到神经网络模型，重建得到三维人脸模型。

2.根据权利要求1所述基于端到端卷积神经网络的人脸三维重建方法，其特征在于，所述步骤2包括以下子步骤：

(2.1)扩充训练数据：对于AFLW2000人脸数据集中的每张人脸图片，使用水平翻转、绕图片中心旋转随机角度、在水平方向上平移随机距离、在垂直方向上平移随机距离或用随机图片遮挡方式扩展生成多张新的人脸。

v_i′＝T_i·R_i·S_i·v_i

其中，下标i表示第i个人脸模型，v_i表示变换前的顶点坐标，v_i′表示变换后的坐标，T表示平移矩阵，R表示旋转矩阵，S表示缩放矩阵。

接下来对每个人脸模型生成一张256x256的三通道、浮点格式的图片I_i，称之为二维点坐标图。每个顶点根据其二维UV坐标(x_i,y_i)，将变换后的三维坐标v_i写入I_i对应的像素点，即：

I_i[x_i,y_i]＝v_i′

I_i[x,y]＝w_a·v′_a+w_b·v_b′+w_c·v_c′

其中v′_a，v_b′，v_c′为三个UV坐标对应的变换后的顶点三维坐标。

3.根据权利要求1所述基于端到端卷积神经网络的人脸三维重建方法，其特征在于，所述步骤3包括以下子步骤：

(3.1)定义网络的输入层和输出层：网络的输入是人脸图片，大小为256×256×3；网络的输出层是二维点坐标图，大小为256×256×3。

(3.2)构建基础网络结构：在输入层之后添加网络的主体结构。首先是一个卷积层，随后是10个残差模块，将大小为256×256×3的输入图像缩减为8×8×512特征映射。之后再添加17个转置卷积层用来从上一步的特征映射预测得到大小为256×256×3的二维点坐标图。

(3.3)设置损失函数：最后加入损失函数层，误差函数使用加权的均方误差，将人脸的表面区域分为三个区域，每个区域依据重要程度赋予不同的权重，制作权重遮罩图。

基于权重遮罩，损失函数可以表示成加权的L₂距离：

其中，x和y是UV坐标，I(x,y)表示训练数据的真实值，即步骤(2.2)中得到的二维点坐标图在(x,y)的值，表示网络预测的结果，W(x,y)表示对应的权重遮罩中的值。

(3.4)初始化网络参数：初始化每一层卷积网络的参数，使用He正态分布，网络的参数由均值为0，标准差为的正态分布产出，其中fan_in为该卷积层的输入单元数(扇入)大小。

其中的参数λ被称为权重衰减系数。本发明中λ的取值为0.0001。

(3.6)设置训练时批量大小为32。

m_t＝η[β₁m_t-1+(1-β₁)g_t]

v_t＝β₂v_t-1+(1-β₂)·diag(g_t ²)

其中，初值如下：

m₀＝0，v₀＝0

还要对一阶和二阶动量做偏置校正：

再进行学习率更新：

其中θ_t为旧的学习率，θ_t+1为新的学习率。

(3.8)训练神经网络模型：在一台配备了显卡(GPU)的计算机上训练，使用深度学习工具TensorFlow和步骤(2)中得到的训练集，训练得到神经网络模型。

4.根据权利要求1所述基于端到端卷积神经网络的人脸三维重建方法，其特征在于，所述步骤4包括以下子步骤：

(4.1)裁剪人脸图片：对于需要重建的人脸图片，使用开源工具dlib得到包含人脸所在的最小包围盒，裁剪这部分并缩放到256×256×3大小。

(4.2)获取二维点坐标图：以上一步裁剪后的人脸图片作为输入，运行步骤(3)得到的神经网络模型，得到二维点坐标图。

v_i″＝I[x_i,y_i]

(4.4)保存重建的三维人脸模型：上一步解码得到的每个顶点的三维坐标，再加上步骤(1)中的模板人脸模型中的顶点之间的连接关系，就构成了完整三维人脸模型，保存成通用的三维文件格式。

5.根据权利要求4所述基于端到端卷积神经网络的人脸三维重建方法，其特征在于，所述步骤4.4中，所述通用的三维文件格式可为obj或stl。