CN108629291B

CN108629291B - 一种抗网格效应的人脸深度预测方法

Info

Publication number: CN108629291B
Application number: CN201810333873.2A
Authority: CN
Inventors: 王兴政; 章书豪; 王好谦; 方璐; 戴琼海
Original assignee: Shenzhen Weilai Media Technology Research Institute; Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Weilai Media Technology Research Institute; Shenzhen Graduate School Tsinghua University
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2020-10-20
Anticipated expiration: 2038-04-13
Also published as: CN108629291A

Abstract

提供一种抗网格效应的人脸深度预测方法，包括步骤：S1：搭建抗网格效应的卷积神经网络，包括多个空洞卷积，每个空洞卷积串联连接的规范化操作和激励操作，以及多个像素反卷积；S2：建立人脸数据集，其包括训练集和测试集，并设置卷积神经网络的训练参数；S3：对卷积神经网络进行权重初始化，将训练集输入卷积神经网络中，以最小化代价函数为目标来训练神经网络形成人脸图像深度预测神经网络模型；S4：将测试集输入人脸图像深度预测神经网络模型，输出能够反映人脸图像深度信息的图像。本发明的人脸深度预测方法，能够解决传统卷积神经网络的网格效应，拥有较大的感受域，能够极大地提升人脸深度预测的准确性，有利于进行人脸的三维重建研究。

Description

一种抗网格效应的人脸深度预测方法

技术领域

本发明涉及计算机视觉与数字图像处理领域，特别涉及一种抗网格效应的人脸深度预测方法

背景技术

人脸深度预测，是计算机视觉领域一个新颖且富有挑战性的问题。对人脸进行深度预测是理解整个人脸几何关系的重要组成部分。相应的，这样的关系能够很好地反映人脸上的器官以及整个人面部的环境，如果能得到较好的人脸面部深度信息，将会对人脸识别问题提供非常大的帮助，同样地，也有助于构建人脸的3D模型，有利于解决有关人脸的三维重建问题。但是从一张人脸的RGB图片中预测出整个人脸的深度信息本身是一个具有病态性质的问题，因为在将RGB图像的颜色信息映射成深度值的过程中面临诸多的不确定性。为了解决这一问题，一些方法是通过马尔科夫随场来获得深度信息，通过条件随机场来正则化深度图，但是这些方法依赖于图像的水平校准，因而对训练环境比较敏感。

近年来，随着卷积神经网络(Convolutional Neural Networks,CNN)的提出，许多计算机视觉与数字图像处理领域的问题通过使用CNN都取得了非常好的效果。目前，一些基于卷积神经网络进行深度预测的方法被提出，取得了一些较好的结果，但是也存在着一些问题。比如，随着卷积层的不断增加会面临梯度消失从而训练不下去的问题；深层网络的感受野比较小，训练出的深度图精度不是很高，图像较为粗糙。针对深层网络感受野比较小的问题，最近空洞卷积的提出证明了在卷积神经网络训练中加入空洞卷积可以扩大卷积神经网络的感受野从而提升精度。但是空洞卷积存在普遍的网格问题，因为空洞卷积虽然能够扩大感受域，但是其是在卷积核中填充0，形成网格效应，对于空洞率为2的空洞卷积而言，大约会损失75％的信息，随着空洞率的不断增大，局部信息会损失。同样的情况也存在于进行上采样操作的反卷积当中，在进行上采样的过程中由于临近像素之间没有直接联系，产生网格效应，从而影响生成的深度图精度。

发明内容

为解决上述技术问题，本发明提供一种抗网格效应的人脸深度预测方法。

本发明的技术问题通过以下的技术方案予以解决：

一种抗网格效应的人脸深度预测方法，包括如下步骤：

S1：搭建抗网格效应的卷积神经网络，所述卷积神经网络包括编码网络和解码网络，其中编码网络包括多个空洞卷积，以及每个空洞卷积串联连接的规范化操作和激励操作，所述解码网络包括多个像素反卷积；

S2：建立所需的人脸数据集，所述人脸数据集包括训练集和测试集，并且设置所述卷积神经网络的训练参数；

S3：对所述卷积神经网络进行权重初始化，将所述训练集输入初始化后的卷积神经网络中，根据所述卷积神经网络及其初始化的权重值，以最小化代价函数为目标来训练所述神经网络形成人脸图像深度预测神经网络模型；

S4：将所述测试集输入到所述人脸图像深度预测神经网络模型，输出能够反映人脸图像深度信息的图像。

优选地，所述编码网络中的数个空洞卷积依次串联连接，每个空洞卷积的输出端依次串联所述规范化操作和所述激励操作，在最后一个空洞卷积后依次串联多个像素反卷积；所述规范化操作采用Batch Normalization，所述激励操作采用Leaky Relu函数。

优选地，所述空洞卷积的数量至少为4个，空洞卷积的空洞率服从锯齿波分布，并逐渐增大。

优选地，所述空洞卷积为四个，其空洞率分别为1，2，5，9。

优选地，所述步骤S3中的代价函数由正则项和损失项组成，如下：

其中，

为正则项，

为损失项，yi，yi^*分别表示所述训练集中的第i张人脸图像经过所述卷积神经网络训练后所得到的像素的深度值，像素的ground truth值，n表示所述训练集的图像中有深度信息的像素点的个数，λ表示损失项的正则系数。

优选地，所述步骤S2中还包括：对人脸数据集中的各RGB图像，生成其的深度信息ground truth图。

优选地，所述卷积神经网络的输入为RGBD四通道的数据；其中D通道的数据的获取方式为：对深度信息ground truth图进行关键点检测，将这些关键点处的深度保留，其余舍去，所述关键点为人脸的眼睛、嘴巴和鼻子。

优选地，所述正则系数λ在(0,1]范围内。

优选地，所述步骤S3中对卷积神经网络进行权重初始化采用一维高斯分布，并利用AdamOptimizer方法来最小化所述代价函数。

优选地，所述步骤S3中通过不断地最小化代价函数来更新卷积神经网络的权重值，直到代价函数的值不再减小，就停止更新，训练结束。

本发明与现有技术对比的有益效果包括：本发明的抗网格效应的人脸深度预测方法，能够解决卷积神经网络所产生的网格效应，拥有较大的感受域，能够极大地提升人脸深度预测的准确性，有利于进行人脸的三维重建研究。

附图说明

图1是本发明优选实施例的抗网格效应的人脸深度预测方法的流程图；

图2是本发明优选实施例的抗网格效应的卷积神经网络的内部构造示意图；

图3是本发明优选实施例的第四通道D数据的生成图；

图4是本发明优选实施例的像素反卷积的构造流程图；

图5是本发明优选实施例的实例图结果。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，本发明的优选实施例的抗网格效应的人脸深度预测方法，包括以下步骤：

S1：搭建卷积神经网络，所述卷积神经网络包括编码网络和解码网络，其中编码网络包括多个空洞卷积，以及每个空洞卷积串联连接的规范化操作和激励操作，所述解码网络包括多个像素反卷积；

其中，较优的是编码网络中的数个空洞卷积依次串联，每个空洞卷积的输出端依次串联规范化操作和激励操作(规范化操作和激励操作未图示)，在最后一个空洞卷积后依次串联多个像素反卷积；具体的，前一个空洞卷积的输出端串联连接规范化操作，规范化操作的输出端串联连接激励操作，激励操作的输出端连接后一个空洞卷积的输入端，如此连接，在最后一个空洞卷积的激励操作的输出端之后再依次串联连接多个像素反卷积。其中，规范化操作采用Batch Normalization，激励操作采用Leaky Relu函数。较优的是，所述空洞卷积的数量至少为4个，针对空洞卷积所产生的网格效应，对于不同的空洞卷积，采用不同的空洞率，空洞卷积的空洞率服从锯齿波分布，并逐渐增大，并采用像素反卷积来消除原始反卷积上采样过程中的网格效应。

本发明优选实施例的卷积神经网络如图2所示，包括四个3x3的空洞卷积，空洞率如图所示分别为1，2，5，9，每个空洞卷积后都连接有Batch Normalization操作、LeakyRelu激励操作(未图示)，还包括四个4x4的像素反卷积。3x3空洞卷积用于提取人脸图像特征，对3x3空洞卷积进行Batch Normalizaion操作可以解决卷积神经网络随着空洞卷积数增多而导致的内部变量偏移问题，从而使得卷积神经网络能够更容易优化，避免陷入局部最优。具体做法可以是：把每一空洞卷积的输入正则化为标准高斯分布，使用Leaky Relu激励函数可以克服普通Relu激励函数在梯度较大情况下产生的神经元死亡现象；使用空洞卷积可以增加卷积神经网络的感受野，为了解决空洞卷积所造成的网格现象，本发明的空洞卷积率服从锯齿波分布，空洞率逐渐上升，这样可以获得更多的像素信息。

本发明优选实施例的像素反卷积的构造方式如图4所示，例如，对于一个4x4的特征图，要上采样得到8x8的特征图，步骤如下：首先经过3x3的空洞卷积操作生成4x4的中间特征图1，然后中间特征图1再经过3x3的空洞卷积操作生成4x4的中间特征图2，中间特征图1与中间特征图2经过空洞率为2的空洞卷积操作然后拼接成8x8的卷积特征图3，卷积特征图3经过3x3的空洞卷积操作生成8x8的卷积特征图4，卷积特征图3与卷积特征图4拼接成最后的8x8的特征图，像素反卷积充分考虑了上采样时像素之间的关系，有助于消除网格效应。

S2：建立所需的人脸数据集，人脸数据集包括训练集和测试集，并且设置卷积神经网络的训练参数；

举例来说，可以选取30000张人脸的RGB图作为人脸数据集，男女各15000张，每张图片尺寸为640x640，均为正面人脸图，每张图像都有自己的深度信息ground truth图，进一步地，出于对硬件的考虑，还可以先将RGB图像裁剪成384x384的图像块，并生成(例如用OpenGL生成，用双目视差原理)各所述RGB图像的深度信息ground truth图。人脸数据集包括训练集和测试集，其中训练集设25000张，测试集设5000张，训练集和测试集均为RGBD四通道的数据(即在RGBD四个通道，都要分别输入训练集和测试集)。为了使关键点区域(眼睛、鼻子、嘴巴)的预测结果更精确，如图3所示，可以提取关键点区域特征点的深度值作为数据通道D数据(例如，对深度信息ground truth图进行关键点(眼睛、嘴巴和鼻子)检测，将这些关键点处的深度保留，其余舍去)，采用RGBD数据作为卷积神经网络的输入进行训练。

卷积神经网络的训练参数，包括每层的输入图像大小inputsize(如本例中为384x384)、卷积核的kernelsize(卷积核尺寸，如本例中为3x3)、卷积核的stride(步长)等。每层卷积的输出大小为：outputsize＝(inputsize-kernelsize)/stride+1。在本实施例中每次输入到所述卷积神经网络的图像数为50，学习率为0.0001。

S3：对卷积神经网络进行权重初始化，将训练集输入初始化后的卷积神经网络中，根据卷积神经网络及其初始化的权重值，以最小化代价函数为目标来训练神经网络形成人脸图像深度预测神经网络模型；

其中，步骤S3对所有训练集中的RGBD图像分别训练卷积神经网络形成人脸深度预测神经网络模型，代价函数如下，由正则项和损失项组成：

其中，其中，

为正则项，

为损失项，yi，yi^*分别表示所述训练集中的第i张人脸图像经过所述卷积神经网络训练后所得到的像素的深度值，像素的ground truth值，n表示所述训练集的图像中有深度信息的像素点的个数，λ表示损失项的正则系数，在(0,1]范围内取值，本实例中的λ为0.5。由于在训练的过程中，图片上物体边界周围的深度信息经常会存在缺失现象，本实施例采取的做法是将这些缺失深度信息的点去除掉，只在有深度信息的点上来最小化代价函数。通过不断地最小化代价函数来更新卷积神经网络的权重值，直到代价函数的值不再减小，就停止更新，训练结束。

在本实施例中对卷积神经网络进行权重初始化采用一维高斯分布，采用AdamOptimizer的方法来最小化代价函数，AdamOptimizer算法相比于传统的SGD(随机梯度下降)更加适用于数据量大、层数深的网络。AdamOptimizer算法是根据代价函数对每个参数的梯度进行一阶距估计和二阶距估计从而动态调整每个参数的学习率。AdamOptimizer算法的优点在于每一次迭代过程中的参数更加平稳，不容易陷入到局部最优。

S4：将测试集输入到已训练好的人脸图像深度预测神经网络模型，输出能够反映人脸图像深度信息的图像。

在步骤S2中的数据集选取5000张的测试集，步骤S3对所有训练集RGBD图像分别训练所述的卷积神经网络形成所述人脸深度预测神经网络模型，所述步骤S4中将待处理的测试集图像输入到相应的人脸深度预测神经网络模型，输出能够反映人脸图像深度信息的图像。

在一个实例中，待处理的测试集中的人脸RGB图像的大小为384x384，向所述卷积神经网络输入人脸RGB图像后，输出的深度预测图像的大小为384x384，图5是本发明优选实施例的实例图结果。

其中平均绝对相关误差的计算方式如下：

在本实例中rel在测试集中的值为0.221。

均方根误差的计算方式如下：

在本实例中rms在测试集中的值为0.203。

log10误差的计算方式如下：

在本实例中log10误差在测试集中的值为0.152。

以上公式中的yi，yi^*分别表示训练集中的第i张人脸图像经过卷积神经网络训练后所得到的像素的深度值，像素的ground truth值，n表示训练集的图像有深度信息的像素点的个数。rel、rms、log10的结果越小证明卷积神经网络的预测能力越准确。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种人脸深度预测方法，其特征在于，所述人脸深度预测方法用于抗网格效应，包括如下步骤：

S1：搭建抗网格效应的卷积神经网络，所述卷积神经网络包括编码网络和解码网络，其中编码网络包括多个空洞卷积，以及每个空洞卷积串联连接的规范化操作和激励操作，所述解码网络包括多个像素反卷积，像素反卷积的数量与空洞卷积的数量相等，每个像素反卷积输出的特征图的大小是输入的特征图大小的两倍，所述像素反卷积充分考虑了上采样时像素之间的关系以用于消除网格效应；

2.如权利要求1所述的人脸深度预测方法，其特征在于：所述编码网络中的数个空洞卷积依次串联连接，每个空洞卷积的输出端依次串联规范化操作和激励操作，激励操作的输出端连接后一个空洞卷积的输入端，如此连接，在最后一个空洞卷积后依次串联多个像素反卷积；所述规范化操作采用Batch Normalization，所述激励操作采用Leaky Relu函数。

3.如权利要求1所述的人脸深度预测方法，其特征在于：所述空洞卷积的数量至少为4个，空洞卷积的空洞率服从锯齿波分布，并逐渐增大。

4.如权利要求3所述的人脸深度预测方法，其特征在于：所述空洞卷积为四个，其空洞率分别为1，2，5，9。

5.如权利要求1所述的人脸深度预测方法，其特征在于：所述步骤S3中的代价函数由正则项和损失项组成，如下：

其中，

为正则项，

为损失项，yi，yi*分别表示所述训练集中的第i张人脸图像经过所述卷积神经网络训练后所得到的像素的深度值，像素的ground truth值，n表示所述训练集的图像中有深度信息的像素点的个数，λ表示损失项的正则系数。

6.如权利要求1所述的人脸深度预测方法，其特征在于：所述步骤S2中还包括：对人脸数据集中的各RGB图像，生成其的深度信息ground truth图。

7.如权利要求1所述的人脸深度预测方法，其特征在于：所述卷积神经网络的输入为RGBD四通道的数据；其中D通道的数据的获取方式为：对深度信息ground truth图进行关键点检测，将这些关键点处的深度保留，其余舍去，所述关键点为人脸的眼睛、嘴巴和鼻子。

8.如权利要求5所述的人脸深度预测方法，其特征在于：所述正则系数λ在(0,1]范围内。

9.如权利要求1所述的人脸深度预测方法，其特征在于：所述步骤S3中对卷积神经网络进行权重初始化采用一维高斯分布，并利用AdamOptimizer方法来最小化所述代价函数。

10.如权利要求1所述的人脸深度预测方法，其特征在于：所述步骤S3中通过不断地最小化代价函数来更新卷积神经网络的权重值，直到代价函数的值不再减小，就停止更新，训练结束。