CN109657595A

CN109657595A - 基于堆叠沙漏网络的关键特征区域匹配人脸识别方法

Info

Publication number: CN109657595A
Application number: CN201811520482.8A
Authority: CN
Inventors: 胡海峰; 冯燊明
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-19
Anticipated expiration: 2038-12-12
Also published as: CN109657595B

Abstract

本发明涉及计算机视觉识别技术领域，提出一种基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，包括以下步骤：采集训练集，并进行预处理；对输入人脸图片进行预处理；将图片输入堆叠沙漏网络中进行特征提取，输出人脸关键点热图和关键点位置信息；对原图片进行关键区域裁剪，并从训练集中选取三元组；将关键区域进行特征提取，得到特征图F；将特征图F输入嵌入层中得到标签E；根据特征图的L2范数计算三元损失函数，重复上述步骤至三元损失函数收敛；将待识别的人脸图片输入完成训练的堆叠沙漏网络和人脸识别模块中，输出识别的标签E。本发明引入堆叠沙漏网络进行人脸识别，排除非关键区域的影响，有效提高人脸识别效果，具有较强的鲁棒性。

Description

基于堆叠沙漏网络的关键特征区域匹配人脸识别方法

技术领域

本发明涉及计算机视觉识别技术领域，更具体地，涉及一种基于堆叠沙漏网络的关键特征区域匹配人脸识别方法。

背景技术

近年随着深度卷积神经网络的提出，人们将其运用到人脸识别任务上，并取得良好效果，这很大一部分归功于深度卷积神经网络能够提取到具有鲁棒性的特征。

在人脸关键点检测领域，有相关科研人员提出利用堆叠沙漏网络进行人脸关键点定位，该方法首先对输入的人脸图片进行校正，然后经过堆叠沙漏网络提取多尺度且具有辨别力的特征，最后对关键点进行回归定位。现有技术中，有大量算法都是基于上述堆叠沙漏网络进行改进，但目前仍存在的一个具有挑战性问题是对于不同光照、不同姿态、不同表情下，现有技术中已有的算法对人脸图片输入均不具有很强的鲁棒性。

发明内容

本发明为克服上述现有技术所述的对输入的人脸图片不具备很强鲁棒性等至少一种缺陷，提供一种基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，该方法对输入的人脸图片具有更强的鲁棒性，能更精确地提取人脸关键点信息。

为解决上述技术问题，本发明的技术方案如下：

S1：采集人脸图片作为训练集，并对训练集的图片进行预处理；

S2：将训练集的任意一张人脸图片输入堆叠沙漏网络中进行特征提取，输出人脸关键点热图和关键点位置信息；

S3：根据所述关键点位置信息对原输入人脸图片进行区域裁剪得到关键区域，并从训练集中随机选出一张图片作为A组，再分别随机选出与A组图片属同一标签的样本图片作为P组，与A组图片不同标签的样本图片作为N组，组成三元组；

S4：将关键区域和三元组输入人脸识别模块中的卷积神经网络进行特征提取，得到特征图F；

S5：对特征图F求取L2范数，然后通过人脸识别模块中的嵌入层，输出完成识别的人脸图片的标签E；

S6：根据L2范数计算三元损失函数，通过梯度下降法对三元损失函数进行优化；

S7：重复S2～S6至三元损失函数收敛，完成堆叠沙漏网络和人脸识别模块的训练；

S8：将待识别的人脸图片输入堆叠沙漏网络中进行特征提取，裁剪图片的关键区域，然后输入卷积神经网络中进行特征提取，最后通过嵌入层输出识别的人脸图片标签。

本技术方案中，采用堆叠沙漏网络输入人脸图片进行人脸关键点定位，精确地提取关键点信息，再输入人脸识别模块中生成更具身份信息的特征，从而进行人脸识别。使用堆叠沙漏网络与单独使用一个沙漏结构网络相比，堆叠沙漏网络能够复用脸部信息来提高各个关键点的精度，在人脸识别过程中，可根据关键点的位置预测其他关键点的位置。如确认了人脸图片中的人脸位置信息后，可预测鼻子等其他五官的位置，因此可通过堆叠沙漏网络利用关键点之间的相互关系，能够进一步提升人脸识别的精度。同时，在对关键区域的特征提取之前，对关键区域进行裁剪，能够进一步对关键区域进行限制，去除非关键区域的信息干扰，有效提高鲁棒性。

优选地，S1步骤中对训练集图片的预处理包括人脸检测、裁剪、人脸矫正以及人工标记，对图片进行预处理可以去除大部分的非关键区域的干扰因素，并把图片进行矫正，避免人脸图片的模糊或畸变影响后续的人脸识别，以及人工对训练集图片进行标记可以对后续识别结果进行验证对比，从而优化网络参数。

优选地，堆叠沙漏网络包括4个密集连接的沙漏结构网络。

优选地，S2步骤的具体步骤如下：

S2.1：将人脸图片输入第一个沙漏结构网络中进行四次下采样，保留每次下采样的图片，记为d₁,d₂,d₃,d₄；

S2.2：将d₄输入到残差模块中，再进行四次上采样，同时每次上采样时和下采样对应尺寸的特征图进行连接，输出特征图y₁，同时保留每次上采样的图片；

S2.3：将特征图y₁输入第二个沙漏结构网络中进行四次下采样，每次下采样时和上一个沙漏结构网络上采样中对应尺寸的特征图进行连接，再输入残差模块中进行四次上采样，每次上采样时和该沙漏结构网络中下采样对应尺寸的特征图进行连接，输出特征图y₂，保留每次采样时的图片；

S2.4：重复S2.3步骤，至输入第4个沙漏结构网络，输出带有关键点位置信息的特征图y₄。

本技术方案中，对于同一个沙漏结构网络，每一次下采样所输出的特征图与上采样时对应尺寸大小的特征图进行连接，而在堆叠沙漏网络中，已通过的沙漏结构网络会传递其上采样和下采样的多个特征图到后方沙漏网络对应的位置进行特征图连接，有助于准确地得到人脸关键点位置信息。

优选地，S3步骤的具体步骤如下：

S3.1：根据关键点位置信息对原输入人脸图片进行关键区域裁剪，得到若干个关键区域；

S3.2：从训练集中随机选出一张图片作为A(Anchor)组，从与A(Anchor)组图片属于同一类的图片中随机选取一张图片作为P(Positive)组，从与A(Anchor)组图片不属于同一类的图片中随机选取一张图片作为N(Negative)组，组成三元组。

本技术方案中，由于非关键区域包含大量除身份信息以外的特征，如光照、姿态等，因此通过根据关键点位置信息对人脸图片进行关键区域裁剪，能够有效提高人脸识别的效果以及提高堆叠沙漏网络的鲁棒性。

优选地，关键区域裁剪的裁剪尺寸为p，其中p为人为设置的阈值。

优选地，S4步骤中的具体步骤如下：将裁剪得到的关键区域及三元组输入人脸识别模块中的卷积神经网络进行特征提取并进行串接，得到特征图F。

优选地，卷积神经网络包括Inception模块。

优选地，S5步骤的具体步骤如下：

S5.1：对特征图F求取L2范数，其计算公式如下：

其中，||x||₂表示特征图F的L2范数，x_i表示特征图F的权重值组成的向量中的第i个元素；

S5.2：将求取的L2范数输入到人脸识别模块的嵌入层中，使特征映射到超球面上，输出完成识别的人脸图片的标签E。本技术方案中通过对特征图F求取L2范数，可以有效防止模型过拟合。

优选地，S6步骤的三元损失函数的计算公式如下：

其中，表示A组图片，表示P组图片，表示N组图片，f(*)表示对应图片的特征图，α为A、P的类内距离与A、N的类间距离的间隔大小，+表示当括号内数值大于0时，取该值为损失，当括号内数值小于或等于0时，取0位损失。本技术方案通过三元损失函数对堆叠沙漏网络代替二元损失函数，如Softmax函数，能使A、P的类内距离尽可能小的同时，对A、N的类间距离进行约束，使A、N的类间距离尽可能拉大，并通过梯度下降法对损失函数不断进行优化，使人脸识别模块能更好地区分不同类别的人脸，提高识别能力。

与现有技术相比，本发明技术方案的有益效果是：通过堆叠沙漏网络对人脸图片获取关键点信息，使人脸关键点信息的提取更加精确，且能够有效提高人脸识别模型的识别能力及鲁棒性，能够更精确地对人脸图片进行识别。

附图说明

图1为本实施例的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，为本实施例的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法的流程图。

本实施例的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法包括以下步骤：

步骤一：采集人脸图片作为训练集，并对训练集的图片进行预处理。

本步骤中，对训练集的图片进行预处理，主要是通过对输入的人脸图片进行人脸检测和裁剪，简单地去除非关键区域，减少干扰因素，然后对完成裁剪的人脸图片进行图片矫正，避免人脸图片的模糊或畸变影响后续的人脸识别，以及对训练集的图片进行人工标记，以便与识别结果进行对比验证。

步骤二：将训练集的任意一张人脸图片输入堆叠沙漏网络中进行特征提取，输出人脸关键点热图和关键点位置信息。

本步骤中的堆叠沙漏网络包括4个密集连接的沙漏结构网络，其具体步骤如下：

步骤三：根据所述关键点位置信息对原输入人脸图片进行区域裁剪得到关键区域，并从训练集中随机选出一张图片作为A组，再分别随机选出与A组图片属同一标签的样本图片作为P组，与A组图片不同标签的样本图片作为N组，组成三元组。

其具体步骤如下：

S3.1：根据关键点位置信息对原输入人脸图片进行关键区域裁剪，得到若干个关键区域，其中，对原输入人脸图片进行关键区域裁剪时，其裁剪尺寸为人为设置的阈值p；

步骤四：将关键区域和三元组输入人脸识别模块中的卷积神经网络进行特征提取，得到特征图F。

本步骤中的人脸识别模块包括含Inception模块的卷积神经网络以及嵌入层，具体地，将裁剪得到的关键区域及三元组输入人脸识别模块中的卷积神经网络进行特征提取并进行串接，得到特征图F。

步骤五：对特征图F求取L2范数，然后通过人脸识别模块中的嵌入层，输出完成识别的人脸图片的标签E。

其具体步骤如下：

S5.1：对特征图F求取L2范数，其计算公式如下：

S5.2：将求取的L2范数输入到人脸识别模块的嵌入层中，使特征映射到超球面上，输出完成识别的人脸图片的标签E。

步骤六：根据L2范数计算三元损失函数，通过梯度下降法对三元损失函数进行优化。

本步骤中的三元损失函数的计算公式如下：

其中，表示A组图片，表示P组图片，表示N组图片，f(*)表示对应图片的特征图，α为A、P的类内距离与A、N的类间距离的间隔大小，+表示当括号内数值大于0时，取该值为损失，当括号内数值小于或等于0时，取0位损失。本步骤主要通过优化三元损失函数，使使A、P的类内距离尽可能小的同时，对A、N的类间距离进行约束，使A、N的类间距离尽可能拉大。

步骤七：重复步骤二至六，直到三元损失函数收敛，即完成堆叠沙漏网络和人脸识别模块的训练。

步骤八：将待识别的人脸图片输入堆叠沙漏网络中进行特征提取，裁剪图片的关键区域，然后输入卷积神经网络中进行特征提取，最后通过嵌入层输出识别的人脸图片标签。

本实施例中，通过采用密集连接的堆叠沙漏网络对人脸图片的关键点进行定位，获取关键点的位置信息，然后通过人脸识别模块根据人脸图片的关键点位置信息进行识别分类。

在密集连接的堆叠沙漏网络中，对于同一个沙漏结构网络内，每一次进行上采样时的特征图会和相同尺寸的完成下采样输出的特征图进行连接，保留各层特征图的特征。而在堆叠的沙漏结构网络间，前方沙漏结构网络会传递其下采样和上采样的多个特征图到后方沙漏结构网络对应的位置进行特征图连接，通过复用脸部信息提高各个关键点的精度，有助于提高后续人脸识别的识别效果。

而在人脸识别模块中，首先需要对特征图进行关键区域裁剪。因为人脸的关键点主要位于眼睛、鼻子等器官以及人脸的轮廓上，这些特征通常区别性较大，即这些关键区域中包含了大量的身份信息，因此通过这些人脸的关键区域的关键点进行人脸识别能够有效提高人脸识别的效果。此外，由于特征图中仍包含其他除身份信息外的特征信息，如光照、姿态等，例如微笑和皱眉等两种表情变化，人脸的形变主要发生在非关键区域，因此忽略这些非关键区域能够在一定程度上提高人脸识别模块的鲁棒性。然后再将完成关键区域裁剪的图片输入人脸识别模块中，经过卷积神经网络提取特征后将多个关键区域的特征图进行串接，求取其L2范数，再经过嵌入层选取适当的三元组进行人脸识别。

本实施例的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，具有较强的鲁棒性，能够有效对人脸图片进行特征提取、获取关键点位置信息以及人脸识别。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于，包括以下步骤：

S3：根据所述关键点位置信息对原输入人脸图片进行区域裁剪得到关键区域，并从训练集中选取三元组；

S4：将关键区域输入人脸识别模块中的卷积神经网络进行特征提取，得到特征图F；

2.根据权利要求1所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述S1步骤中对训练集图片的预处理包括人脸检测、裁剪、人脸矫正以及人工标记。

3.根据权利要求2所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述堆叠沙漏网络包括4个密集连接的沙漏结构网络。

4.根据权利要求3所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述S2步骤的具体步骤如下：

5.根据权利要求4所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述S3步骤的具体步骤如下：

S3.2：从训练集中随机选出一张图片作为A组，从与A组图片属于同一类的图片中随机选取一张图片作为P组，从与A组图片不属于同一类的图片中随机选取一张图片作为N组，组成三元组。

6.根据权利要求5所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述关键区域裁剪的裁剪尺寸为p，其中p为人为设置的阈值。

7.根据权利要求6所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述S4步骤中的具体步骤如下：将关键区域输入人脸识别模块中的卷积神经网络进行特征提取并进行串接，得到特征图F。

8.根据权利要求7所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述卷积神经网络包括Inception模块。

9.根据权利要求8所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述S5步骤的具体步骤如下：

S5.1：对特征图F求取L2范数，其计算公式如下：

10.根据权利要求9所述的基于堆叠沙漏网络的关键特征区域匹配人脸识别方法，其特征在于：所述S6步骤的三元损失函数的计算公式如下：

其中，表示A组图片，表示P组图片，表示N组图片，f(*)表示对应图片的特征图，α为A、P类内的距离与A、N的类间距离的间隔大小，+表示当括号内数值大于0时，取该值为损失，当括号内数值小于或等于0时，取0位损失。