CN110619676A

CN110619676A - 一种基于神经网络的端到端的三维人脸重建方法

Info

Publication number: CN110619676A
Application number: CN201910881246.7A
Authority: CN
Inventors: 高天寒; 安慧
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-27
Anticipated expiration: 2039-09-18
Also published as: CN110619676B

Abstract

本发明公开一种基于神经网络的端到端的三维人脸重建方法，属于三维人脸重建技术领域。该方法将多任务损失函数和融合神经网络应用到卷积神经网络中，提升人脸表情的重建效果，同时考虑了整个重建过程的语义信息，不只是单纯的回归人脸参数，同时也考虑到了相机姿态以及重建模型对整个重建误差的影响，使整个神经网络的准确率提升。本发明公开的三维人脸重建方法不仅能从图片中重建出三维人脸形状，还能在变化的光照情况下或者带有极端表情的人脸照片都可以进行三维恢复。

Description

一种基于神经网络的端到端的三维人脸重建方法

技术领域

本发明涉及三维人脸重建技术领域，尤其涉及一种基于神经网络的端到端的三维人脸重建方法。

背景技术

由于三维信息是一个对视角的强不变量，所以把其应用到计算机视觉中是非常有益的。可以解决人脸图像的姿态、表情和光照变化问题。但是在这些方法中，理想情况下是用三维相机系统捕捉到三维信息，然而三维相机的高成本和有限的有效的传感范围限制了它们在实践中的适用性。所以在工业上，通过在任意光照下和任意相机参数下拍摄的照片进行人脸重建，具有普遍的意义。而且现在网络上有几乎百分之六十的图片都带有人脸图像，所以利用二维人脸图像重建出三维人脸形状的研究是非常具有广泛性的。

随着深度学习的发展，许多计算机视觉的问题，如物体检测和识别，图像分割，图像描述等问题都被卷积神经网络很好的解决了。神经网络可以学习到图像深层次的特征，所以图片中大姿态和遮挡等问题都可以通过学习得到很好的改善，因此，一些工作开始使用CNNs来估计三维形变模型(3DMM)系数或三维模型的包装函数来从单一的二维人脸图像中恢复相应的三维信息，重建出三维人脸模型。

但是现在的利用CNNs重建三维人脸的技术要么只关注参数本身的回归，没有考虑到整个参数的语义的信息，要么就是没有考虑到相机姿态以及重建模型对重建精度的影响，还有的方法需要大量的辅助工作，提升了方法的复杂程度。所以需要一种重建方法在考虑回归人脸参数的同时考虑语义信息、相机姿态以及重建模型对整个重建误差的影响，使重建的准确率提升。

发明内容

针对上述现有技术的不足，本发明提供一种基于神经网络的端到端的三维人脸重建方法。

为解决上述技术问题，本发明所采取的技术方案是：一种基于神经网络的端到端的三维人脸重建方法，其流程如图1所示，包括如下步骤：

步骤1：采集带有人脸的图片数据集，并获得该图片数据集对应的参数真值；

步骤2：处理获得的图片数据集，对带有人脸的区域进行旋转或缩放等操作对其进行数据增强，直至每个人包含大约90张不同姿态的图片，并将图片统一裁剪与缩放为120×120像素大小，将处理后的图片数据集按一定比例分成训练集和验证集；

步骤3：建立一种基于VGG-Face的带有融合神经网络的多任务回归网络模型；

步骤3.1：根据三维形变模型3DMM来确定重建模型和卷积神经网络需要回归的参数；

步骤3.1.1：采用经典的三维形变模型3DMM来表示三维人脸，其渲染的3D人脸形状它在一组PCA基上以线性组合的方式存储N个网格顶点的三维坐标，因此，3D人脸形状可以被表示为：

其中，S代表三维人脸，代表平均人脸，是3d人脸扫描与中性表情人脸偏差的形状主成分，是形状参数，是由扫描表情和中性表情之间的偏差训练的表情主成分，是表情参数，根据公开的人脸3DMM模型数据库Basel Face Model，可以得到公开的A_id，A_exp的参数值，所以重建三维面部点云的未知参数只有α_id，α_exp；

步骤3.1.2：用弱透视投影的方法将三维模型投影到二维图像平面上，从指定的视点生成二维人脸：

V(p)＝J×Pr×R×S+t_2d

其中，V是模型构造和投影函数，得到模型二维顶点的位置，J为缩放系数，Pr为正交投影矩阵R为旋转角度构成的旋转矩阵包括pitch，yaw，roll三个角度，t_2d为平移向量，弱透视投影中的未知参数为J，R(pitch，yaw，roll)包含三种角度和t_2d；

步骤3.1.3：确定模型需要收集的所有参数p＝[J，pitch，yaw，roll，t_2d，α_id，α_exp]^T，一共有234个系数需要回归。

步骤3.2：考虑权重距离损失与顶点距离损失，根据估计的3DMM中各参数的重要性，确定神经网络的损失函数；

步骤3.2.1：权重距离损失函数：

根据估计的3DMM参数中各参数的重要性，推导出如下公式：

Q＝diag(q₁，q₂，...，q₆₂)

其中，Q为重要性矩阵，其对角元素表示每个参数的重要性，pi为系数向量，第i个元素是预测出的参数，其余元素来自真实值V(·)为渲染后的三维形状稀疏特征点投影；在训练过程中，CNN首先着重学习缩放、旋转、平移等权重较大的系数，当误差减小后，CNN模型转向优化不太重要的参数，如形状和表达式参数，同时也保证了高优先级的系数满足要求；

步骤3.2.2：顶点距离损失函数：

通过优化拟合的和真实的3D人脸之间的顶点距离来优化损失函数：

E＝||V(p)-V(p^g)||²

其中，V(·)是人脸重建和弱透视投影，此损失函数相比较于只计算顶点的距离损失，考虑到了每个顶点的语义信息。

步骤3.3：对VGG-Face模型进行改进，确定神经网络结构，如图2所示。

步骤3.3.1：基于经典的VGG-Face网络模型，搭建神经网络架构，该架构包含13个卷积层和5个池化层；

同时添加了两个关键组件：

组件1、子卷积神经网络fusion-CNN，它是第4池化层pool4和第5池化层pool5共同融合的VGG-Face的中间层的特征；

组件2、多任务学习损失函数，用于身份参数预测、相机姿态参数预测以及表情参数预测；

步骤3.3.2：在单个DNN架构中训练三种类型的神经层：

第一类神经层包括池化层4(Pool4)之前的所有神经层，其学习得是低级面部结构的通用特征，例如边缘和角落，这些层被两个任务共享；

第二类神经层包括融合CNN中的三个卷积层conv_b5和其下面的全连接层conv6、conv7、conv8，融合CNN融合了池化层4(pool4)经过步长为2的池化后的特征和池化层5(pool5)的特征，融合后的特征再输入三个全连接层，第二类神经网络被用来回归表情以及相机姿态表达式系数，最后得到表情向量以及相机姿态表达式系数总22维向量；

第三类神经层包括池化层4(Pool4)之后的所有原有的神经层，它更适合于预测身份参数这种特定特征的预测，最后的到身份参数向量40维；

其中，为了融合Pool4层和Pool5层的中间特征，将Conv6和Conv7的卷积核大小和步长分别设置为{5×5，2}和{1×1，1}，层Conv8用来减少特征的维度，从而降低了神经网络的复杂程度，最后的输出拼接为[f，R，t_2d，α_id，α_exp]^T是总数为62维的表达式系数向量，其中R的三个角度pitch，yaw，roll分别以3×3矩阵的方式回归，构成9维数据，只回归α_id199维的前40维，和α_exp的29维的前10维，其他需要回归的参数维度保持不变；

为了让矩阵相乘维度对应，我们把A_id，A_exp的第二维截取成和α_id，α_exp第一维相同的维度数量，同样也是从前面开始截取。

步骤4：将步骤2所述的训练集输入到建立的卷积神经网络中，对神经网络进行训练，得到神经网络的所有权值；

步骤4.1：以经典的VGG-Face16模型的参数初始化该网络的参数；

步骤4.2：采用Adam优化器设置初始学习率1e-3；

步骤4.3：应用权利要求4所述权重距离损失函数回归网络，把神经网络的两部分输出拼接到一起输入到权重距离损失函数进行反向传播，每一次输入到神经网络的图片数量大小设置为64；

步骤4.4：采用SGD优化器设置初始学习率1e-5；

步骤4.5：采用权利要求4所述顶点距离损失函数对整个网络进行微调，把神经网络的两部分输出拼接到一起输入到顶点距离损失函数进行反向传播，每一次输入到神经网络的图片数量大小设置为128；

步骤4.6：经过训练之后，得到神经网络的所有权值。

步骤5：将步骤4得到的权值代入训练好的多任务回归网络模型中，并输入验证集，得到验证集对应的特征参数的回归值，并对重建精确度进行评估；

步骤6：将人脸图片输入到步骤4得到神经网络中得到特征参数，把其输入到3DMM三维形变模型中，得到最终的三维人脸。

将人脸图片输入到步骤4得到神经网络中得到特征参数，带入3DMM公式后重建出有53215个点的三维点云，这样也保持了输出的三维点云与不减少回归参数时点云数量是一致的。

采用上述技术方案所产生的有益效果在于：

多任务损失函数和融合神经网络被应用到卷积神经网络中，用来提升人脸表情的重建效果，同时考虑了整个重建过程的语义信息，不只是单纯的回归人脸参数，同时也考虑到了相机姿态以及重建模型对整个重建误差的影响，使整个神经网络的准确率提升。此网络可以从二维图片中重建出三维人脸形状，甚至在变化的光照情况下或者带有极端表情的人脸照片都可以进行三维恢复。

附图说明

图1为本发明一种基于神经网络的端到端的三维人脸重建方法的流程图；

图2为本发明搭建的神经网络架构图；

图3为本发明实施例中输入的二维人脸图片以及其对应生成的三维人脸模型。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

本实施例采用的是300W-LP人脸数据集，其中包含7674个不同身份的61225张带有3DMM参数真实值的人脸图片。

步骤2：处理获得的300W-LP人脸图片数据集，对带有人脸的区域进行旋转或缩放等操作对其进行数据增强，直至每个人包含大约90张不同姿态的图片，并将图片统一裁剪与缩放为120×120像素大小，将处理后的图片数据集的百分之八十的636252张有7098个不同身份的图片作为训练集，百分之二十的51602张有576个不同身份的人做验证集；

步骤3.1.1：采用经典的三维形变模型3DMM来表示三维人脸，其渲染的3D人脸形状它在一组PCA基上以线性组合的方式存储N个网格顶点的三维坐标，在本实施例中采用53215个网格顶点，因此，3D人脸形状可以被表示为：

V(p)＝J×Pr×R×S+t_2d

步骤3.2.1：权重距离损失函数：

根据估计的3DMM参数中各参数的重要性，推导出如下公式：

Q＝diag(q₁，q₂，...，q₆₂)

其中，Q为重要性矩阵，其对角元素表示每个参数的重要性，p_i为系数向量，第i个元素是预测出的参数，其余元素来自真实值V(·)为渲染后的三维形状稀疏特征点投影；在训练过程中，CNN首先着重学习缩放、旋转、平移等权重较大的系数，当误差减小后，CNN模型转向优化不太重要的参数，如形状和表达式参数，同时也保证了高优先级的系数满足要求；

步骤3.2.2：顶点距离损失函数：

E＝||V(p)-V(p^g)||²

同时添加了两个关键组件：

步骤3.3.2：在单个DNN架构中训练三种类型的神经层：

其中，为了融合Pool4层和Pool5层的中间特征，将Conv6和Conv7的卷积核大小和步长分别设置为{5×5，2}和{1×1，1}，层Conv8用来减少特征的维度，从而降低了神经网络的复杂程度，最后的输出拼接为[f，R，t_2d，α_id，α_exp]^T是总数为62维的表达式系数向量，其中R的三个角度pitchyaw，roll分别以3×3矩阵的方式回归，构成9维数据，只回归α_id199维的前40维，和α_exp的29维的前10维，其他需要回归的参数维度保持不变；

本实施例中，神经网络架构中不同层的具体参数如表1所示；

表1神经网络架构中不同层的具体参数

步骤4.1：以经典的VGG-Face16模型的参数初始化该网络的参数；

步骤4.2：采用Adam优化器设置初始学习率1e-3＝0.001；

步骤4.4：采用SGD优化器设置初始学习率1e-5；

步骤4.6：如图2所示有两部分全连接层作为输出，把两部分输出拼接到一起输入损失函数中反向传播给神经网络经过训练之后，得到神经网络的所有权值。

本实施例中，输入的二维人脸图片以及其对应输出的三维人脸模型如图3所示。

Claims

1.一种基于神经网络的端到端的三维人脸重建方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种基于神经网络的端到端的三维人脸重建方法，其特征在于所述步骤3的过程如下：

步骤3.3：对VGG-Face模型进行改进，确定神经网络结构。

3.根据权利要求2所述的一种基于神经网络的端到端的三维人脸重建方法，其特征在于所述步骤3.1的过程如下：

V(p)＝∫×Pr×R×S+t_2d

其中，V是模型构造和投影函数，得到模型二维顶点的位置，∫为缩放系数，Pr为正交投影矩阵R为旋转角度构成的旋转矩阵包括pitch，yaw，roll三个角度，t_2d为平移向量，弱透视投影中的未知参数为∫，R(pitch，yaw，roll)包含三种角度，S和t_2d；

步骤3.1.3：确定模型需要收集的所有参数p＝[∫，pitch，yaw，roll，t_2d，α_id，α_exp]^T，一共有234个系数需要回归。

4.根据权利要求2所述的一种基于神经网络的端到端的三维人脸重建方法，其特征在于所述步骤3.2的过程如下：

步骤3.2.1：权重距离损失函数：

根据估计的3DMM参数中各参数的重要性，推导出如下公式：

Q＝diag(q₁，q₂，…，q₆₂)

步骤3.2.2：顶点距离损失函数：

E＝||V(p)-V(p^g)||²

5.根据权利要求2所述的一种基于神经网络的端到端的三维人脸重建方法，其特征在于所述步骤3.3的过程如下：

同时添加了两个关键组件：

步骤3.3.2：在单个DNN架构中训练三种类型的神经层：

其中，为了融合Pool4层和Pool5层的中间特征，将Conv6和Conv7的卷积核大小和步长分别设置为{5×5,2}和{1×1,1}，层Conv8用来减少特征的维度，从而降低了神经网络的复杂程度，最后的输出拼接为[f，R，t_2d，α_id，α_exp]^T是总数为62维的表达式系数向量，其中R的三个角度pitch，yaw，roll分别以3×3矩阵的方式回归，构成9维数据，只回归α_id199维的前40维，和α_exp的29维的前10维，其他需要回归的参数维度保持不变；

6.根据权利要求1所述的一种基于神经网络的端到端的三维人脸重建方法，其特征在于所述步骤4的过程如下：

步骤4.1：以经典的VGG-Face16模型的参数初始化该网络的参数；

步骤4.2：采用Adam优化器设置初始学习率1e-3；

步骤4.4：采用SGD优化器设置初始学习率1e-5；

步骤4.6：经过训练之后，得到神经网络的所有权值。

7.根据权利要求1所述的一种基于神经网络的端到端的三维人脸重建方法，其特征在于所述步骤6的过程为：

将人脸图片输入到权利要求1所述步骤4得到神经网络中得到特征参数，带入3DMM公式后重建出有53215个点的三维点云，这样也保持了输出的三维点云与不减少回归参数时点云数量是一致的。