CN111325161B

CN111325161B - 一种基于注意力机制的人脸检测神经网络的构建方法

Info

Publication number: CN111325161B
Application number: CN202010115987.7A
Authority: CN
Inventors: 韩强; 闫超
Original assignee: Sichuan Yifei Technology Co ltd
Current assignee: Sichuan Yifei Technology Co ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2023-04-18
Anticipated expiration: 2040-02-25
Also published as: CN111325161A

Abstract

本发明公开了一种基于注意力机制的人脸检测神经网络的构建方法，包括以下步骤：采用卷积层和激活层组成注意力模块；从前至后按卷积层、批归一化层、激活层和注意力模块的顺序封装得到网络单块；利用并行的卷积层和与其中之一的卷积层连接的激活层组成回归模块；将数个网络单块依次连接，并将最后一层的网络单块和倒数第二层的网络单块的输出一一对应介入两个并行的回归模块；将所述两个并行的回归模块的输出与坐标换算和非极大抑制模块连接，得到人脸检测神经网络。

Description

一种基于注意力机制的人脸检测神经网络的构建方法

技术领域

本发明涉及人脸检测技术领域，尤其是一种基于注意力机制的人脸检测神经网络的构建方法。

背景技术

人脸检测主要应用于通行确权、考勤、安防等等领域。人脸检测技术要求能够从各种复杂的背景场景中，准确的识别出人脸出现的区域，以便后续进行处理。目前，现有技术中主流的人脸检测方法有基于人工构造的特征提取方法和基于深度学习的检测算法。其中，基于深度学习的算法由于检测的准确度和召回率都更为优异，使用越来越广泛。

深度学习的人脸检测方法，首先，需要有大量的训练图片样本，这些图片中所有人脸出现的位置，都需要进行标注。然后，搭建神经网络，对这些图片样本进行学习。训练结束后，网络能够对图片提取特征，根据提取的特征判断图片中是否包含有人脸，以及人脸的坐标位置。目前，很多基于深度学习的人脸检测方法，有很好的特征提取能力(其前提条件是无遮挡的人脸)，因此能很好的进行检测。然而，而对于部分遮挡的人脸(如佩戴有口罩，眼镜，帽子等)，由于图片中人脸特征信息变少，并且干扰信息增多，检测能力会有明显的下降。人类在观察图片时，会有一个注意力的策略，即首先找出图中可能出现人脸的区域，然后聚集在这些区域上做进一步的观测判断，无关的背景信息则被忽略。如果能够将人类观察图片时所采用的这一策略应用到神经网络上，特别时对部分遮挡人脸，将关注的重点放在未被遮挡的人脸部分，获取有效的人脸特征信息，忽略掉无关的背景和干扰，就可能提升神经网络的性能。

在图像分类邻域中，有一些基于注意力机制的方法，用以改善图像分类算法的精度。但这些方法很多都会引入大量的计算量，很多也不适于在人脸检测邻域。

因此，急需要提出一种结构简单、构建便捷、节省计算资源的神经网络的构建方法，改善对部分遮挡的人脸检测性能，同时保持高水平的正常人脸检测性能。

发明内容

针对上述问题，本发明的目的在于提供一种基于注意力机制的人脸检测神经网络的构建方法，本发明采用的技术方案如下：

一种基于注意力机制的人脸检测神经网络的构建方法，包括以下步骤：

采用卷积层和激活层组成注意力模块，利用注意力模块计算求得attention map注意力图；

从前至后按卷积层、批归一化层、激活层和注意力模块的顺序封装得到网络单块；

利用并行的卷积层和与其中之一的卷积层连接的激活层组成回归模块；

将数个网络单块依次连接，并将最后一层的网络单块和倒数第二层的网络单块的输出一一对应介入两个并行的回归模块；

将所述两个并行的回归模块的输出与坐标换算和非极大抑制模块连接，得到人脸检测神经网络。

进一步地，所述注意力模块的输出结果计算如下：

利用注意力模块的特征输入张量，计算获得一个与特征输入张量大小相同、且通道为1的一个attentionmap注意力图；

利用attention map注意力图的结果与特征输入张量的相乘，得到注意力模块的输出结果；

所述注意力模块的输出结果的表达式为：

其中，X为注意力模块的输入，X′为注意力模块的输出，

为元素乘操作，F_at为注意力映射函数，其函数输出为一个与输入张量大小相同、通道为1的一个attention map注意力图。

优选地，所述注意力模块中attention map注意力图的生成方式为，采用两个连续的卷积层，并且在第二个卷积层后封装采用sigmoid函数的激活层；即公式1中的F_at函数由以下公式给出：

F_at(X)＝sigmoid(Conv₁(Conv₂(X)))................................(2)

其中，sigmoid为sigmoid激活函数，Conv₁和Conv₂分别为两个卷积操作函数。

优选地，所述两个连续的卷积层的第一个卷积层，即Conv₁函数，其卷积核大小为1x1，卷积核数为1；所述两个连续的卷积层的第二卷积层，即Conv₂函数，其卷积核大小为3x3、5x5、7x7其中之一，卷积核数为1。

优选地，所述回归模块包括分类结果的卷积层和坐标结果的卷积层，以及与分类结果的卷积层连接的激活层；所述激活层采用sigmoid函数。

优选地，所述网络单块的激活层采用Leaky-Relu激活函数，且Leaky-Relu激活函数的阿尔法值为0.2。

优选地，所述网络单块的数量为8。

优选地，所述依次连接8层网络单块的前5层和最后一层网络单块的卷积层的卷积步长为2；且依次连接8层网络单块的第六层网络单块和第七层网络单块的卷积层的卷积步长为1。

与现有技术相比，本发明具有以下有益效果：

(1)本发明提出了一种简洁而高效的注意力机制的实现方式，其对于一个输入特征张量，使用两个运算量很小的卷积层即可得到注意力图(attention map)，在与输入张量进行元素乘操作，即可以得到叠加了注意力图谱的特征张量。这种方式实现起来简洁高效，部署后消耗的计算资源小，使得整个网络效率很高。

(2)本发明的特征提取网络采用多个网络单块，其均包含有注意力模块，将网络单块的输出作为提取的特征层组，再传给回归模块；在特征层组中，每一个特征层的每一个特征点，都包含有一个或数个预定义的锚框。对特征层组中的每一个特征层输入；而且回归模块都包含两个卷积层，分别回归出分类结果和坐标结果。分类结果用于判断特征层中每一个锚框是否有人脸存在，而坐标结果用于计算如果有人脸，其对应的人脸矩形位置框相对锚框的坐标；并且在分类结果的卷积层，还需要在后面接一个sigmoid函数作为激活层，将分类结果映射到0～1之间，用于预测是否有人脸的概率。而用于坐标结果的卷积层，则直接输出结果。

(3)本发明提出了一种使用注意力机制来改善人脸检测的准确率和召回率。特别的，对于部分遮挡人脸，模型可以更注重于图像中未被遮挡的人脸部分的特征提取，而抑制非人脸区域的特征。从而提高模型对部分遮挡人脸的检测准确率和召回率。

(4)本发明巧妙地提出了一种简便的注意力机制，既可以帮助神经网络更关注图像中有可能出现人脸的区域，对于部分遮挡的人脸，也可以使网络更关注人脸中未被遮挡部分的有效信息，抑制非人脸部分带来的噪音，从而提高检测的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需使用的附图作简单介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对保护范围的限定，对于本领域技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的网络单块的结构示意图。

图2为本发明的注意力模块一种结构示意图。

图3为本发明的回归模块的结构示意图。

图4为本发明基于注意力机制的人脸检测网络整体结构图。

图5为本发明的模型输出的不同遮挡人脸的注意力图(attention map)。

具体实施方式

为使本申请的目的、技术方案和优点更为清楚，下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1至图4所示，本实施例提供了一种基于注意力机制的人脸检测神经网络的构建方法，可以提升人脸检测，特别时部分遮挡人脸的检测精度。注意力机制，可以帮助神经网络更关注图像中有可能出现人脸的区域，对于部分遮挡的人脸，也可以使网络更关注人脸中未被遮挡部分的有效信息，抑制非人脸部分带来的噪音，从而提高检测的性能。本发明的主要包括以下步骤：

(1)采用由卷积层和激活层组成的注意力模块。注意力模块通过计算注意力图(attention map)，帮助网络更关注于可能存在人脸的区域，而忽略不存在人脸的区域；

(2)从前至后按卷积层、批归一化层、激活层和注意力模块的顺序封装得到网络单块；

(3)利用并行的卷积层和与其中之一的卷积层连接的激活层组成回归模块；

(4)将数个网络单块依次连接，并将最后一层的网络单块和倒数第二层的网络单块的输出一一对应介入两个并行的回归模块；

(5)将所述两个并行的回归模块的输出与坐标换算和非极大抑制模块连接，得到人脸检测神经网络。

具体来说，如图1所示，人脸检测神经网络所使用的网络单块由卷积层、批归一化层、激活层和注意力模块顺序组成。卷积层中，卷积步长可以选择为1，也可以选择为2，4等其他值。该激活层采用leaky-relu激活函数，其中阿尔法值设置为0.2。

如图2所示，本实施例给出了一种有限的实施方案，首先需要计算注意力图(attention map)，由注意力图的计算实现方式为采用两个连续的卷积层，其中第一个卷积层的卷积核大小为1x1，卷积核数为1，第二个卷积核大小可在3x3，5x5，7x7中选择，卷积核数也为1。在第二个卷积层后，再接一个sigmoid函数层作为激活层，将注意力图的结果映射到0～1之间。在注意力图计算完成后，需要将注意力图和输入特征张量进行融合。融合的方式为元素乘。在应用元素相乘时，在通道这一维度进行广播扩展。

如图3所示，本实施例的回归模块需要从网络中提取到的特征张量，计算出两个输出：(a)图像中各锚框是否包含人脸；(b)如果包含人脸；其对应的人脸矩形位置框相对锚框的坐标是多少。其中计算各锚框是否包含人脸的分支，采用一个卷积层，加上一个激活层，激活层所使用的激活函数为sigmoid函数，保证最终结果在0～1的区间范围内，结果数值为该锚框包含人脸的置信度。计算人脸坐标的分支，采用一个卷积层，不使用任何激活层，保证相对相对坐标的取值区间足够大。在本实施例中人脸检测神经网络一共使用了两个回归模块。其中，第一个回归模块每个特征点包含有7个锚框，第二个回归模块，每个特征点包含有1个锚框。

如图4所示，本实施例的人脸检测神经网络一共使用8个图1所示的网络单块，最后2个网络单块的输出，作为回归模块的输入，一共使用2个回归模块。最后将两个回归模块的输出，一起输入到坐标换算、非极大抑制结果处理模块，最终获得检测结果。

其中，8个网络单块中，每个网络单块的通道数分别为：32，64，128，128，256，128，64，128。每个网络单块中，卷积层的卷积核大小分别为7，5，3，3，3，3，3，3。卷积步长分别为2，2，2，2，2，1，1，2。另外，8个网络单块中，第一个单块中注意力模块的第二个卷积核大小为7x7，第二个单块中注意力模块的第二个卷积核大小为5x5，其余单块中注意力模块的第二个卷积核大小为3x3。

如图5所示，为了验证本方法的可行性和良好的性能，本实施例通过采用Wider人脸检测数据集进行实验，同时对比未采用注意力机制的网络，在Wider人脸检测数据集和私有部分遮挡人脸检测数据集上进行测试。Wider数据为一个公开的人脸检测数据集。本次实验对Wider数据集的测试集图片进行随机裁剪，得到了10000张测试图片。测试图片包含有各种场景，各个种族，各图片中人脸目标数量和大小也差异较大，具有丰富的样本多样性。私有部分遮挡人脸检测数据集，包含有200张测试图片，每张测试图片均包含有1张或多张部分遮挡人脸，如带有口罩、帽子、墨镜等，场景更有针对性。

在实验中，实验组为引入注意力机制的网络，而对照组为移除注意力机制的网络。两组网络除了是否添加注意力模块之外，其余结构完全一致。

表1Wider数据集上不同网络结构的结果对比

表2私有部分遮挡人脸检测数据集不同网络结构的结果对比

根据实验结果，可以看出，引入注意力机制之后，人脸检测网络的性能有了明显的提升。在所有的指标上，注意力机制均提升了网络的性能。对于部分遮挡人脸，网络的提升更为明显。

综上所述，本发明的注意力模块可以正确的使网络更关注输入图像中存在人脸部分的特征，抑制非人脸部分的特征；与现有技术相比，具有突出的实质性特点和显著的进步，在人脸检测技术领域具有很高的实用价值和推广价值。

上述实施例仅为本发明的优选实施例，并非对本发明保护范围的限制，但凡采用本发明的设计原理，以及在此基础上进行非创造性劳动而作出的变化，均应属于本发明的保护范围之内。

Claims

1.一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，所述注意力模块的输出结果计算如下：

所述注意力模块的输出结果的表达式为：

其中，X为注意力模块的输入，X′为注意力模块的输出，

3.根据权利要求2所述的一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，所述注意力模块中attention map注意力图的生成方式为，采用两个连续的卷积层，并且在第二个卷积层后封装采用sigmoid函数的激活层；即公式1中的F_at函数由以下公式给出：

F_at(X)＝sigmoid(Conv₁(Conv₂(X))).................................(2)

4.根据权利要求3所述的一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，所述两个连续的卷积层的第一个卷积层，即Conv₁函数，其卷积核大小为1x1，卷积核数为1；所述两个连续的卷积层的第二卷积层，即Conv₂函数，其卷积核大小为3x3、5x5、7x7其中之一，卷积核数为1。

5.根据权利要求1所述的一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，所述回归模块包括分类结果的卷积层和坐标结果的卷积层，以及与分类结果的卷积层连接的激活层；所述激活层采用sigmoid函数。

6.根据权利要求1所述的一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，所述网络单块的激活层采用Leaky-Relu激活函数，且Leaky-Relu激活函数的阿尔法值为0.2。

7.根据权利要求1所述的一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，所述网络单块的数量为8。

8.根据权利要求7所述的一种基于注意力机制的人脸检测神经网络的构建方法，其特征在于，所述依次连接8层网络单块的前5层和最后一层网络单块的卷积层的卷积步长为2；且依次连接8层网络单块的第六层网络单块和第七层网络单块的卷积层的卷积步长为1。