CN107977618B

CN107977618B - 一种基于双层级联神经网络的人脸对齐方法

Info

Publication number: CN107977618B
Application number: CN201711215320.9A
Authority: CN
Inventors: 张雨; 姜飞; 申瑞民
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2021-05-11
Anticipated expiration: 2037-11-28
Also published as: CN107977618A

Abstract

本发明涉及一种基于双层级联神经网络的人脸对齐方法，包括以下步骤：1)训练一两级神经网络模型，该两级神经网络模型包括用于检测人脸轮廓特征点和五官区域的第一级网络和用于检测五官区域特征点的第二级网络，所述五官区域包括眉眼区域、鼻子区域和嘴巴区域；2)通过所述两级神经网络模型对待测图片进行68特征点检测，实现人脸对齐。与现有技术相比，本发明具有检测精度高、能很好地适应较复杂背景等优点。

Description

一种基于双层级联神经网络的人脸对齐方法

技术领域

本发明涉及人脸识别技术领域，尤其是涉及一种基于双层级联神经网络的人脸对齐方法。

背景技术

人脸对齐是计算机视觉以及图像领域的热门研究课题之一。人脸对齐又称为人脸特征点定位，它是由算法自动标注人脸图像的特征点。所谓特征点是人为定义的围绕在五官以及下巴的点，经过人脸对齐后能够定位出人脸的五官区域，如图1所示。人脸对齐得到科研人员广泛关注的原因在于它对其他相关技术例如人脸匹配、人脸识别、情感识别等的辅助性。近年来有许多优秀的算法被用以解决人脸特征点定位问题，但是由于人脸表情的多样性、部分遮挡以及头部姿态的差异性人脸对齐仍是计算机图像领域的研究难题。

文献“One millisecond face alignment with an ensemble of regressiontrees”(V.Kazemi,S.Josephine,in:Computer Vision and Pattern Recognition(CVPR),2014IEEE Conference on,IEEE,2014)公开一种基于梯度自助随机森林的人脸对齐技术，利用服从指数先验分布的形状指数特征作为随机森林训练特征训练回归树，训练过程具体为：初始化弱分类器，不断输入新样本，对每个新图像及形状运用弱分分类器计算公式，将回归器按弱分类器输出值降低的方向调整，重复K次，每次以学习率v更新回归器，得到最终的回归器r_t。该方法虽然能实现人脸对齐，但该方法对所有的图片来说，回归器的初始化由同样的先验弱回归器得到，若某个初始形状与真正的形状相差太远，那很容易陷入局部最优解而无法回归到全局最优，影响人脸对齐精度。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双层级联神经网络的人脸对齐方法。

本发明的目的可以通过以下技术方案来实现：

一种基于双层级联神经网络的人脸对齐方法，包括以下步骤：

1)训练一两级神经网络模型，该两级神经网络模型包括用于检测人脸轮廓特征点和五官区域的第一级网络和用于检测五官区域特征点的第二级网络，所述五官区域包括眉眼区域、鼻子区域和嘴巴区域；

2)通过所述两级神经网络模型对待测图片进行68特征点检测，实现人脸对齐。

进一步地，所述第一级网络包括依次连接的四层卷积层和两层全联接层，且第一层卷积层的特征输出和第四层卷积层的特征输出融合后作为第一层全联接层的输入。

进一步地，所述四层卷积层的特征维度不同。

进一步地，所述第一级网络训练时，训练集的输出部分通过以下方式获得：

在标注有68特征点的样本图片中，以各五官区域的特征点为边界确定的区域按比例放大成矩形区域，以标记有人脸轮廓特征点和所述矩形区域的样本图片作为输出。

进一步地，所述第一级网络通过一损失函数判定性能，所述损失函数为：

其中，P_i、L_j、R_j为样本的标准坐标值，p_i、l_j、r_j为第一级网络输出的对应样本的检测坐标值，ω为权值，p为检测的特征点总数，i表示人脸轮廓特征点的标号，j表示五官区域的标号。

进一步地，所述第二级网络包括三个结构相同输出不同的子网络，各子网络包括依次连接的四层卷积层和两层全联接层。

进一步地，所述四层卷积层的特征维度不同。

进一步地，所述第二级网络训练时，对第一级网络获得的五官区域结果进行截取分割，并旋转设定角度扩充样本空间。

进一步地，所述步骤2)具体为：

201)获取待测图片，提取所述待测图片的人脸部分，进行归一化；

202)将归一化后的人脸部分输入第一级网络，获得人脸部分的人脸轮廓特征点和三个五官区域；

203)截取分割所述三个五官区域，扩充样本空间后分别输入第二层网络，获得对应的五官区域特征点；

204)结合步骤202)和203)获得人脸部分的68特征点。

与现有技术相比，本发明具有以下有益效果：

1、本发明基于公共数据集设计并训练一两级神经网络模型对人脸的68特征点进行检测，可以解决自然环境下的人脸对齐问题，能很好地适应较复杂的背景。

2、本发明基于两级神经网络模型将68特征点检测问题简化为先检测区域后精确定位人脸内部特征点两个问题，降低检测复杂度。

3、本发明设计的第一级网络中采用特征融合方式，更好地利用全局限制且不丢失低层信息，提高了检测精度。

4、本发明通过设计的权值损失函数保证第一级网络的性能。

附图说明

图1为人脸对齐示意图，其中，(1a)-(1c)分别为三种表情下的人脸对齐示意图；

图2为本发明的整体流程示意图；

图3为本发明第一级网络的训练集数据示意图，其中，(3a)为人脸特征点标定顺序图，(3b)为训练集输bounding box定界示例；

图4为本发明第一级网络的结构示意图；

图5为本发明第一级网络的输出结果示例；

图6为本发明测试流程示意图；

图7为本发明的检测结果示例。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于双层级联神经网络的人脸对齐方法，基于深度学习算法，使用卷积神经网络对待检测人脸进行特征提取，基于样本训练了一个两级的深度学习模型，并对自然环境下的人脸对齐问题做了优化。如图2所示，该方法包括以下步骤：

1)训练一两级神经网络模型，该两级神经网络模型包括用于检测人脸轮廓特征点和五官区域的第一级网络和用于检测五官区域特征点的第二级网络，五官区域包括眉眼区域、鼻子区域和嘴巴区域；

2)通过两级神经网络模型对待测图片进行68特征点检测，实现人脸对齐。

本实施例中，训练集采用公共数据库300w，通过第一级网络的前传，能得到人脸轮廓的17个特征点以及人脸五官的三个区域；然后将三个区域分别送到第二级网络中分开训练，得到51个内部特征点后与上级网络的输出结合就能最终得到68个特征点。

第一步：第一级网络的数据准备

本实施例数据集来自300W，由多个公开的自然环境下的人脸图片组成，并标有人脸位置的bounding box以及人脸对齐所需的68个特征点坐标。数据集一共包含3837张图片，其中，3283张作为训练集，554张作为测试集。

第一级网络的损失函数表达如下：

其中，损失函数是卷积神经网络优化的目标函数，整个神经网络的参数更新朝着是损失函数减小的方向更新。P_i、L_j、R_j为样本的标准坐标值，p_i、l_j、r_j为第一级网络输出的对应样本的检测坐标值，ω为权值，i表示人脸轮廓特征点的标号，i＝1,2,…,17，j表示五官区域的标号，j＝1,2,3，p代表检测的特征点总数，在第一级p为17+6＝23。

由于第一层的目标是输出17个特征点以及三个bounding box的坐标故我们将训练集的68个体征点中的前17个坐标作为第一层特征点输出的标准值也即上式中的P_i，p_i、l_j、r_j对应模型输出的17个脸部轮廓的坐标以及bounding box区域坐标值。区域boundingbox以人脸区域的左上角点L_j以及右下角点R_j确定，所以在输入训练集数据时，以各个区域的内部特征点为边界确定区域并按比例放大，在此三个区域的x、y方向放大比例向量为(1.4,1.2；1.05,1.2；1.2,1.2)，特征点顺序如图3的(3a)所示，bounding box放大示例如图3的(3b)所示，图(3b)中矩形框内部线条为区域特征点坐标边界值确定的区域，矩形框为扩大后的区域示例。考虑到第一层需输出的17个脸部轮廓的与6个bounding box坐标的均衡性，在损失函数中引入权值ω以达到更好的目标输出。

第二步：第一层网络结构设计

第一级网络包括依次连接的四层卷积层和两层全联接层，且第一层卷积层的特征输出和第四层卷积层的特征输出融合后作为第一层全联接层的输入。四层卷积层的特征维度不同。

如图4所示为本实施例的第一级网络结构及参数，图中，Conv代表卷积层，3*3含义为卷积核的大小；MP(Max pooling)代表最大池化层，参数表示的感受域大小；FC是全联接层；立方体上的参数代表输出特征的维度(W*H*C)，C表示通道数。

将训练集按所给定bounding box裁剪为只含人脸的图像，训练时将图片归一化到60*60输入神经网络中训练。考虑到人脸特征具有不均衡性，比如眉毛具有更多底层信息(边角)而眼睛的特征更加复杂，在设计第一级网络结构时，为了利用全局限制且不丢失低层信息，在第一层卷积处理后将其输出的特征图与第四层卷积层输出的特征图相结合，按深度方向合并作为全联接层的输入。第一级网络输出示例如图5所示。

第三步：第二级网络训练

第二级网络包括三个结构相同输出不同的子网络，各子网络包括依次连接的四层卷积层和两层全联接层。四层卷积层的特征维度不同。

对于眉眼模型，输出为22个坐标也即44个输出单元；对于鼻子模型，输出单元有18个，嘴部模型有40个输出单元。

在训练第二级的三个子网络模型时，首先将训练集得到的三个bounding box(图(3b)所示)区域截取出的图片以等概率旋转±30°、±15°，并随机做水平翻转以扩大训练集的样本空间，图片将归一化到39*39大小。本实施例实现时采用开源库opencv进行图片预处理。

训练过程的网络参数设置如表1所示。

表1

第四步：输出测试

如图6所示，对训练后的两级神经网络进行测试的流程具体为：首先将测试图片的人脸部分提取出来，这里采用300W提供的人脸bounding box提取。然后将人脸图片缩放到60*60输入到第一级网络进行测试，第一级网络将得到17个人脸轮廓特征点坐标以及三个区域的左上角坐标和右下角坐标。然后将得到的三个区域的位置下的图片分别送到相应的网络模型中，经过网络前传就能得到人脸内部特征点51个。最后结合第一级输出的17个点就能得到最终的68个特征点的坐标。最终得到的部分测试集效果图如图7所示。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于双层级联神经网络的人脸对齐方法，其特征在于，包括以下步骤：

2)通过所述两级神经网络模型对待测图片进行68特征点检测，实现人脸对齐；

所述第一级网络通过一损失函数判定性能，所述损失函数为：

2.根据权利要求1所述的基于双层级联神经网络的人脸对齐方法，其特征在于，所述第一级网络包括依次连接的四层卷积层和两层全联接层，且第一层卷积层的特征输出和第四层卷积层的特征输出融合后作为第一层全联接层的输入。

3.根据权利要求2所述的基于双层级联神经网络的人脸对齐方法，其特征在于，所述四层卷积层的特征维度不同。

4.根据权利要求1所述的基于双层级联神经网络的人脸对齐方法，其特征在于，所述第一级网络训练时，训练集的输出部分通过以下方式获得：

5.根据权利要求1所述的基于双层级联神经网络的人脸对齐方法，其特征在于，所述第二级网络包括三个结构相同输出不同的子网络，各子网络包括依次连接的四层卷积层和两层全联接层。

6.根据权利要求5所述的基于双层级联神经网络的人脸对齐方法，其特征在于，所述四层卷积层的特征维度不同。

7.根据权利要求1所述的基于双层级联神经网络的人脸对齐方法，其特征在于，所述第二级网络训练时，对第一级网络获得的五官区域结果进行截取分割，并旋转设定角度扩充样本空间。

8.根据权利要求1所述的基于双层级联神经网络的人脸对齐方法，其特征在于，所述步骤2)具体为：

204)结合步骤202)和203)获得人脸部分的68特征点。