CN109993137A

CN109993137A - 一种基于卷积神经网络的快速人脸矫正方法

Info

Publication number: CN109993137A
Application number: CN201910279481.7A
Authority: CN
Inventors: 王华彬; 刘欣; 闫祥; 王祺; 秦愿; 王智君; 宋金洁; 施飞宇; 陶亮
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-07-09

Abstract

本发明公开一种基于卷积神经网络的快速人脸矫正算法，包括如下步骤：读取图像和图像中人脸位置信息；通过图像中人脸的位置信息裁剪出人脸区域，并对裁剪的图像进行预处理；将预处理好的人脸区域图像输入给卷积神经网络进行训练，得到最优的仿射变换参数预测模型；将待测试人脸图像输入仿射变换参数预测模型中，获得对应的预测仿射变换参数；利用预测的仿射变换参数对待测试人脸图像进行仿射变换，返回矫正后的人脸图像。本发明通过新的损失函数让卷积神经网络自动对仿射变换每一个系数的重要性进行建模。本发明公开的方法有效地提升了人脸矫正的速度，对遮挡等难题更加鲁棒。

Description

一种基于卷积神经网络的快速人脸矫正方法

技术领域

本发明属于计算机视觉技术，具体涉及一种基于卷积神经网络的快速人脸矫正方法。

背景技术

人脸矫正是人脸识别、表情识别、人脸分析等更高级别的任务关键的中至关重要的一步，其意义是更好的裁剪出人脸。在面对现实世界的复杂场景时，由于遮挡、模糊、角度、光照、表情的影响，使得人脸矫正仍是一个具有挑战性的研究领域。

卷积神经网络在人脸矫正的任务上取得了很好的性能，主要是因为其强大的非线性拟合能力和端对端学习。常见的人脸矫正方法先利用卷积神经网络预测人脸的关键点，然后通过普氏分析来获取人脸关键点与平均形状的仿射变换参数。基于此类的人脸矫正方法不仅速度慢，而且在处理遮挡、角度等因素时鲁棒性差。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于卷积神经网络的快速人脸矫正方法。

技术方案：本发明的一种基于卷积神经网络的快速人脸矫正方法，依次包括以下步骤：

步骤1：获取图像以及图像中人脸区域的位置信息；

步骤2：利用步骤1获得的人脸区域的位置信息，裁剪出图像中人脸区域，并对裁剪的图像进行预处理；

步骤3：将步骤2中处理后的图像输入给卷积神经网络进行训练，获取最优的人脸矫正网络模型；

步骤4：将待预测的人脸图像输入至步骤3获取到的最优人脸矫正网络模型中，获取相应的预测的仿射变换参数；

步骤5：通过步骤4获取的仿射变换参数对相应的人脸图片进行仿射变换，获得矫正的人脸图像。

进一步的，所述步骤2中对裁剪的图像进行预处理的具体内容为：

步骤2.1：读取包含人脸的图片和图片中人脸框的左上角和右下角两个坐标值；

步骤2.2：通过已知的两个坐标点裁剪出人脸区域图像；

步骤2.3：通过仿射变换将裁剪后的图片缩放到有利于训练的尺度。

进一步的，所述步骤2.3中有利于训练的尺度具体为长128像素，宽128像素，如果长宽大于128像素，则增加GPU的负担，速度变慢；如果长宽小于128像素，则会影响最终矫正精度。

进一步的，所述步骤3的详细内容为：

步骤3.1：搭建好卷积神经网络框架；该卷积神经网络的输入层至输出层之间依次为卷积层、第一残差块、第二残差块、第三残差块、第四残差块、卷积层、线性激活层、卷积层；所述残差块是由基础卷积神经网络结构构建得到，从输入层至输出层之间依次为第一卷积层；第一批量正则化层；第一线性激活层；第二卷积层；第二批量正则化层；第二线性激活层；数值单元融合层，残差块输入和第二线性激活层的输出相加；

步骤3.2：将步骤2处理后的图像数据输入给卷积神经网络，即：将图像数据转化为张量输入给上述卷积神经网络；

步骤3.3：通过改进的均方根误差最小化预测仿射变换参数和真值之间的误差，训练得到最优的人脸矫正网络模型，具体内容为：

其中，δ为预测的仿射变换系数，l_p为输入图像中的人脸关键点的真值，l_g为目标图像的人脸关键点的真值，⊙(δ,l_p)的目的是利用预测的仿射变换系数将目标图像中的人脸关键点真值转到目标图像中的人脸关键点真值。该损失函数通过利用输入图像和目标图像的关键点真值作为辅助，让卷积神经网络自动对仿射变换每一个系数的重要性进行建模。

进一步的，所述步骤3.3中仿射变换参数的具体内容为：

其中，θ为旋转角度，α为缩放参数，t_x和t_y分别为平移。

进一步的，所述步骤5的具体内容为：根据步骤4所获得的仿射变换参数对图像进行仿射变换，所述仿射变换包括平移变换、旋转变换和缩放变换，按照如下公式进行转换：

其中x，y是变换前坐标，u，v是变换后坐标，δ是仿射变换参数。

有益效果：本发明利用这种直接通过卷积神经网络预测从输入图像到目标图像的仿射变换参数的方式具有两个优点，首先是因为不需要预测人脸的关键点，可以避免因遮挡、表情等因素导致人脸关键点预测不精确的问题，其次是直接预测仿射变换的参数，不会因人脸形状和平均人脸形状差异大导致矫正效果差。此外，考虑到每一个仿射变换参数对最终的结果具有不同的影响，本发明使用改进的均方根误差作为损失函数，对仿射变换参数中的每个参数的权重进行学习，从而训练出更鲁棒的人脸矫正模型。

附图说明

图1是本发明的总流程图；

图2是实施例中仿射变换参数预测网络结构图；

图3是实施例中残差块结构图；

图4是实施例中待矫正人脸的图；

图5是实施例中矫正人脸的效果图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本发明的一种基于卷积神经网络的快速人脸矫正方法，包括以下步骤：

步骤1：获取图像以及图像中人脸区域的位置信息；

步骤2.2：通过已知的两个坐标点裁剪出人脸区域图像；

步骤2.3：通过仿射变换，将图片缩放到有利于训练的尺度(例如长为128像素，宽为128像素)；

步骤3：将步骤2中处理利好的图像输入给卷积神经网络进行训练，获取最优的人脸矫正网络模型；

步骤3.1：搭建好卷积神经网络框架；

步骤3.2：将步骤2处理后的图像数据输入给卷积神经网络；

步骤3.3：通过改进的均方根误差最小化预测仿射变换参数和真值之间的误差，训练得到最优的人脸矫正网络模型；

步骤4：将待预测的人脸图像输入至步骤3获取到的最优人脸矫正网络模型中,获取相应的预测的仿射变换参数；

步骤5：通过步骤4获取的仿射变换参数对相应的人脸图片进行仿射变换，获得矫正的人脸图像；所述仿射变换为平移变换、旋转变换、缩放变换，按照如下公式进行转换：

如图2所示，步骤3.1中所述卷积神经网络的输入层至输出层之间依次为卷积层，参数包括通道数为8，卷积核尺寸为3和3,步长为2，补零项尺寸为1和1；第一残差块；第二残差块；第三残差块；第四残差块；卷积层，参数包括通道数为32,卷积核尺寸为3和3；线性激活层；卷积层，参数包括通道数为6,卷积核尺寸为1和1；

如图3所示，第一残差块从输入层至输出层之间依次为第一卷积层，参数包括通道数为16,卷积核尺寸为3和3,步长为2,补零项尺寸为1和1；第一批量正则化层；第一线性激活层；第二卷积层，参数包括通道数为16,卷积核尺寸为3和3,步长为1,补零项尺寸为1和1；第二批量正则化层；第二线性激活层；数值单元融合层，通过以下方式：

out＝ρ(inp)+out_bn

其中，ρ为卷积操作，inp为残差块的输入，该卷积层的参数包括通道数为16,卷积核尺寸为1和1,步长为2；out_bn为第二线性激活层的输出；+表示element-wise相加操作；out为残差块的输出。

如图3所示，第二残差块从输入层至输出层之间依次为第一卷积层，参数包括通道数为32,卷积核尺寸为3和3,步长为2,补零项尺寸为1和1；第一批量正则化层；第一线性激活层；第二卷积层，参数包括通道数为32,卷积核尺寸为3和3,步长为1,补零项尺寸为1和1；第二批量正则化层；第二线性激活层；数值单元融合层，通过以下方式：

out＝ρ(inp)+out_bn

其中，ρ为卷积操作，inp为残差块的输入，该卷积层的参数包括通道数为32,卷积核尺寸为1和1,步长为2；out_bn为第二线性激活层的输出；+表示element-wise相加操作；out为残差块的输出。

如图3所示，第三残差块从输入层至输出层之间依次为第一卷积层，参数包括通道数为64,卷积核尺寸为3和3,步长为2,补零项尺寸为1和1；第一批量正则化层；第一线性激活层；第二卷积层，参数包括通道数为64,卷积核尺寸为3和3,步长为1,补零项尺寸为1和1；第二批量正则化层；第二线性激活层；数值单元融合层，通过以下方式：

out＝ρ(inp)+out_bn

其中，ρ为卷积操作，inp为残差块的输入，该卷积层的参数包括通道数为64,卷积核尺寸为1和1,步长为2；out_bn为第二线性激活层的输出；+表示element-wise相加操作；out为残差块的输出。；

如图3所示，第四残差块从输入层至输出层之间依次为第一卷积层，参数包括通道数为128,卷积核尺寸为3和3,步长为2,补零项尺寸为1和1；第一批量正则化层；第一线性激活层；第二卷积层，参数包括通道数为128,卷积核尺寸为3和3,步长为1,补零项尺寸为1和1；第二批量正则化层；第二线性激活层；数值单元融合层，通过以下方式：

out＝ρ(inp)+out_bn

其中，ρ为卷积操作，inp为残差块的输入，该卷积层的参数包括通道数为128,卷积核尺寸为1和1,步长为2；out_bn为第二线性激活层的输出；+表示element-wise相加操作；out为残差块的输出；

更进一步的,步骤3.2中将步骤2处理后的图像数据转化为张量输入给网络；

更进一步的,步骤3.3中改进的均方根误差的具体内容为：

更进一步的，上述仿射变换参数的具体内容为：

其中，θ为旋转角度，α为缩放参数，t_x，t_y为平移。

实施例：

本实施的一种基于卷积神经网络的快速人脸矫正方法具体内容为：将图4输入给训练好的人脸矫正模型，输出仿射变换参数；通过获得的仿射变换参数对图4进行人脸矫正，最终即可获得的人脸矫正图像，如图5所示。

通过上述实施例的过程和结果可知，因不需要预测人脸的关键点，本发明可避免因遮挡、表情等因素导致人脸关键点预测不精确的问题。此外，考虑到每一个仿射变换参数对最终的结果具有不同的影响，本发明使用改进的均方根误差作为损失函数，通过卷积神经网络对仿射变换参数中的每个参数的权重进行学习。本发明相对于其他常用的人脸矫正方法,具有速度快、准确性高的特点。

Claims

1.一种基于卷积神经网络的快速人脸矫正方法，其特征在于：依次包括以下步骤：

步骤1：获取图像以及图像中人脸区域的位置信息；

2.根据权利要求1所述的基于卷积神经网络的快速人脸矫正方法，其特征在于：所述步骤2中对裁剪的图像进行预处理的具体内容为：

步骤2.2：通过已知的两个坐标点裁剪出人脸区域图像；

3.根据权利要求2所述的基于卷积神经网络的快速人脸矫正方法，其特征在于：所述步骤2.3中有利于训练的尺度为长128像素且宽128像素。

4.根据权利要求1所述的基于卷积神经网络的快速人脸矫正方法，其特征在于：所述步骤3的详细内容为：

其中，δ为预测的仿射变换系数，l_p为输入图像中的人脸关键点的真值，l_g为目标图像的人脸关键点的真值，通过⊙(δ,l_p)利用预测的仿射变换系数将目标图像中的人脸关键点真值转到目标图像中的人脸关键点真值。

5.根据权利要求4所述的基于卷积神经网络的快速人脸矫正方法，其特征在于：所述步骤3.3中仿射变换参数的具体内容为：

其中，θ为旋转角度，α为缩放参数，t_x和t_y分别为平移。

6.根据权利要求1所述的基于卷积神经网络的快速人脸矫正方法，其特征在于：所述步骤5的具体内容为：根据步骤4所获得的仿射变换参数对图像进行仿射变换，所述仿射变换包括平移变换、旋转变换和缩放变换，按照如下公式进行转换：