CN111695430B

CN111695430B - 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法

Info

Publication number: CN111695430B
Application number: CN202010418338.4A
Authority: CN
Inventors: 刘欣刚; 王文涵; 钟鲁豪; 李辰琦; 汪卫彬; 朱超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-06-30
Anticipated expiration: 2040-05-18
Also published as: CN111695430A

Abstract

本发明提出一种基于特征融合和视觉感受野网络的多尺度人脸检测方法，以VGG‑16为基础网络，由视觉感受野网络、空洞卷积网络共同组成本发明的网络结构，同时增加了网络的宽度和深度。在不同的卷积层提取不同分辨率的特征，根据不同层的分辨率采用不同方法提取候选框。在较低层的特征上，采用随机密集采样获取大量小尺度候选框，尽可能地匹配到更多真实样本。又通过对不同层的特征进行融合，使得融合特征同时包含了高低层的信息。高层特征适用于大尺度人脸的检测，低层特征适用于小尺度人脸的检测。本发明对于多尺度人脸尤其是小尺度人脸具有较好的检测效果。

Description

一种基于特征融合和视觉感受野网络的多尺度人脸检测方法

技术领域

本发明涉及人脸检测技术，具体涉及一种基于特征融合和视觉感受野网络的多尺度人脸检测技术。

背景技术

人脸特征作为生物特征中的一种，相对于指纹、虹膜、语音等特征，更为直接方便，易于用户接受，有着广泛的应用领域。人脸识别技术可以便捷、安全地识别身份。表情识别有助于研究人物情绪和心理状态，被应用于交通管理如疲劳驾驶领域。而人脸检测作为人脸特征提取的第一步，直接关系到后续人脸处理技术的精度，具有重要的研究意义。

人脸检测主要是从视频或者图像中标记出人脸的位置，涉及到分类和边框回归两种技术。现实情况下，由于拍摄环境的复杂性，使得人脸图像中存在着多种尺度的人脸，又因为伴随着遮挡、旋转等一系列因素，多尺度尤其是小尺度人脸检测存在着漏检、精度低等各种问题。因此，如何处理多尺度问题，是人脸检测技术的重要研究内容。

发明内容

本发明所要解决的技术问题是，针对多尺度尤其是小尺度人脸检测效果不佳的情况，提出了多尺度人脸检测方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于特征融合和视觉感受野网络的多尺度人脸检测方法，由训练步骤与测试步骤组成，其中训练步骤包括：

S1构建检测网络结构：检测网络包括特征提取网络、特征融合网络、候选框生成模块以及输出层；特征提取网络以VGG-16为基础网络连接视觉感受野网络；

S2特征提取：特征提取网络接收输入有标签的人脸图像，在网络的不同层提取特征，获取多尺度的特征图；

S3特征融合：特征融合网络自上而下将来自特征提取网络高层的特征上采样后与低层特征结合形成融合特征输出至候选框生成模块；

S4生成候选框：候选框生成模块根据不同层融合特征提取不同尺度候选框；针对低层融合特征图，采用随机密集采样生成更多小尺度候选框，以匹配更多小尺度人脸样本；

S5生成训练样本：计算各候选框的交并比IoU，根据IoU值与预设值的比较将候选框分成人脸或非人脸样本；

S6将人脸和非人脸样本输入至检测网络中进行训练，检测网络中输出层输出候选框位置与候选框的人脸/非人脸二分类结果并计算损失后反馈至检测网络直至完成训练。

本发明的有益效果是：以VGG-16为基础网络，由视觉感受野网络、空洞卷积网络共同组成本发明的网络结构，同时增加了网络的宽度和深度。在不同的卷积层提取不同分辨率的特征，根据不同层的分辨率采用不同方法提取anchor。在较低层的特征上，采用随机密集采样获取大量小尺度anchor，尽可能地匹配到更多真实样本。又通过对不同层的特征进行融合，使得融合特征同时包含了高低层的信息。高层特征适用于大尺度人脸的检测，低层特征适用于小尺度人脸的检测。本发明对于多尺度人脸尤其是小尺度人脸具有较好的检测效果。

附图说明

图1：本发明的总体框架和网络结构。

图2：视觉感受野网络结构图。

图3：随机密集采样anchor示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明做进一步地详细描述。

本发明提出基于特征融合和视觉感受野网络的多尺度人脸检测方法总体框架示意图参照图1所示。

将去除VGG-16的最后3个全连接层，只保留前13个卷积层作为VGG-16 基础网络；在VGG-16基础网络后，连接2个视觉感受野网络Inception1、Inception2，再在视觉感受野网络后再连接1个空洞卷积层Conv6和2个普通卷积层Conv7_1、 Conv7_2；卷积层Conv7_2的特征上采样后与空洞卷积层Conv6的特征进行融合；空洞卷积层Conv6的特征上采样后与第2个视觉感受野网络Inception2输出的特征进行融合；Inception2输出的特征上采样后与卷积层Conv5_5的特征进行融合；卷积层Conv5_5的特征上采样后与卷积层Conv4_3的特征进行融合。从上而下进行特征融合，使得融合后的特征具有丰富的多尺度信息。融合可以采用拼接 Concat或逐像素相乘的方式。

视觉感受野网络由Inception网络改进而成。在Inception网络的基础上，添加不同的空洞卷积核，使得到的特征图具有进一步不同的感受野，输出不同尺度的特征。

空洞卷积可以在不增加计算参数的情况下，增大感受野。以dilation rate＝2 为例，假设普通卷积核的大小为k，则空洞卷积核的大小n为：

n＝k+(k-1)×(d-1)

假设卷积前原始图像大小为s，则卷积后的特征图大小s^*为：

其中stride为卷积核的滑动步长，p为填充像素。

如图2所示，每个视觉感受野网络由4个并行的子网络组成。第1个子网络首先经过1×1的卷积操作，使其通道数变为原特征的1/4，进行通道压缩，降低网络的参数量。然后经过3×3的卷积操作，提取语义信息更为丰富的特征。后接2个堆叠的空洞卷积层，空洞卷积可以在不增加参数的情况下扩大感受野，而将2个卷积核为3×3、扩张率为2的空洞卷积核堆叠，代替了较大扩张率的空洞卷积核，降低了计算量，同时增加了网络深度，使得提取到的特征包含更多语义信息。第2个子网络首先经过3×3的池化操作，然后采用1×1的卷积核进行通道压缩，最后经过卷积核为3×3且扩张率为1的空洞卷积。第3个子网络首先采用1×1的卷积核对输入特征进行通道压缩，然后进行卷积核为3×3的卷积操作，之后继续进行空洞卷积，其卷积核为3×3、扩张率为2。最后1个子网络通道压缩后，经过两个3×3的卷积层，然后接1个卷积核为3×3、扩张率为3的空洞卷积。将4个并行网络输出的特征进行通道拼接，形成拼接特征，然后再经过卷积核1×1的卷积操作，提取更为抽象的特征。视觉感受野网络通过4个并行的扩张率不同的空洞卷积层，使得融合特征中包含了多种感受野，且模拟了人类的视觉感知模式，更利于小尺度人脸的检测。

具体训练步骤如下：

S1构建检测网络结构：检测网络包括特征提取网络、特征融合网络、候选框生成模块以及输出层；特征提取网络以VGG-16为基础网络连接视觉感受野网络。

S2特征提取：特征提取网络接收输入有标签的人脸图像，在网络的不同层提取特征，获取多尺度的特征图。

S3特征融合：特征融合网络自上而下将来自特征提取网络高层的特征上采样后与低层特征结合形成融合特征输出至候选框生成模块。

本发明将不同卷积层的特征进行拼接、逐像素相乘，得到融合特征，以适应不同尺度的人脸检测。在特征融合的过程中，应用了空洞卷积。随着网络深度的增加，特征图尺寸逐渐减小，在特征融合过程中，必须先进行上采样，然后与前一层网络输出的特征图进行融合，这一过程中损失了很多空间信息。而空洞卷积既可以增大感受野，又不改变特征图的尺寸，将其引入到网络中，既可以获得丰富的语义信息，又不损失空间信息。

采用自顶而下的方式进行特征融合，其中关键的步骤是特征拼接，这种方式可以拼接具有不同感受野的特征图，使得单层特征可以检测不同尺度的人脸。对于分辨率相同的特征图，可以采用逐像素相乘的方式进行融合。

S4生成候选框：候选框生成模块根据不同层提取不同尺度的候选框anchor，高层特征图上提取尺度较大的anchor，低层特征图上提取尺度较小的anchor，针对低层特征图，采用随机密集采样方法，获得更多数量的小尺度anchor。

为了提升小尺度人脸的检测效果，提出了随机密集采样方法。当前的人脸检测算法中，获取到的小尺度anchor数量较少，分布较为分散，在匹配小尺度真实人脸样本的时候，往往漏掉许多真实人脸，使得小尺度人脸的训练样本不足。在本发明中，采用密集采样，获得更多小尺度anchor，能够更好地匹配小尺度人脸样本。同时，在密集采样过程中，首先对每个像素点附近进行均匀分割，后又在每个区域进行随机采样，既模拟了真实人脸样本在图像中随机分布的规则，又将该随机性固定到某个区域内，使得anchor的分布很好地兼顾了均匀和随机的特点。密集采样示意图如图3所示。

步骤S4包括如下步骤：

S41：采用3×3×c的滑动窗口遍历特征图，得到w×h×c的特征图，其中w 和h分别为特征图的宽、高，c为特征图的通道数。

S42：在不同特征图上，设置不同尺度的候选区域。设置Conv4_3层的anchor 尺度为16×16，Conv5_5层的anchor尺度为32×32，视觉感受野层的anchor尺度为64×64，剩下两层卷积层的anchor尺度分别为128×128、256×256。

S43：在Conv4_3层特征图每个位置上，通过随机密集采样获得16个16×16 的anchor。该过程中，在特征图每个像素点附近，均匀提取16个区域，在每个区域的范围内，随机获取一个位置作为anchor中心，获取anchor。共得到16个 anchor。

S44：在Conv5_5层特征图每个位置上，通过随机密集采样获得4个16×16 的anchor。该过程中，在特征图每个像素点附近，均匀提取4个区域，在每个区域的范围内，随机获取一个位置作为anchor中心，获取anchor共得到4个anchor。

S45：对于其他层的特征图，则在每个位置上，获取一个anchor。

S5生成训练样本：计算各候选框的交并比IoU，根据IoU值与预设值的比较将候选框分成人脸或非人脸样本。

如果某个anchor的位置超出了输入图像的边界，则将其舍弃；某个 ground-truthbox具有最大IoU的anchor标记为正样本(人脸)；如果某个anchor 与任意ground-truthbox的IoU大于0.5，则将其标记为正样本；如果某个anchor 任意ground-truth box的IoU均小于0.3，则将其标记为负样本(非人脸)；其余 anchor不作为训练样本。

实施例采用Focal Loss对输出层的二分类网络进行训练。

步骤S6包括如下步骤：

S61：采用1×1×2×2的卷积层遍历融合特征，输出w×h×2×2的特征向量，其中前一个2为每个像素点对应的预测类别，后一个2代表每个像素点对应的2 个anchor；

S62：采用1×1×4×2的卷积层遍历融合特征，输出w×h×4×2的特征向量，其中2为每个像素点对应的2个anchor，4为其预测边框；

S63：采用损失函数Focal Loss对分类网络进行训练；

S64：回归损失使用smooth L1 loss函数；

S65：进行边框回归，使得预测到的边框位置更接近真实值。

实施例采用的测试数据集为Wider Face数据集。其包含3个子数据集：easy 数据集、medium数据集、hard数据集。3个数据集包含的人脸尺度逐渐减小、检测难度逐渐增大。本算法在3个数据集的mp分别达到了0.942、0.921、0.838，高于当前平均水平，尤其是hard数据集，当前平均水平为0.75左右，提高了近0.09，说明本发明对于多尺度人脸尤其是小尺度人脸具有较好的检测效果。

Claims

1.一种基于特征融合和视觉感受野网络的多尺度人脸检测方法，包括训练步骤与测试步骤，其特征在于，训练步骤包括：

S4生成候选框：候选框生成模块根据不同层融合特征提取不同尺度候选框；针对低层融合特征图，采用随机密集采样生成更多小尺度候选框；

S6将人脸和非人脸样本输入至检测网络中进行训练，检测网络中输出层输出候选框位置与候选框的人脸/非人脸二分类结果并计算损失后反馈至检测网络直至完成训练；

其中，特征提取网络以VGG-16为基础网络连接视觉感受野网络的具体方法是：

S11：去除VGG-16的最后3个全连接层，只保留前13个卷积层作为VGG-16基础网络；

S12：在VGG-16基础网络后，连接2个视觉感受野网络；在视觉感受野网络后再连接1个空洞卷积层和2个普通卷积层；

所述视觉感受野网络由4个并行的子网络组成；第1个子网络分别进行卷积核为1×1、3×3的卷积操作和2个卷积核为3×3、扩张率为2的空洞卷积操作；

第2个子网络分别进行3×3的最大池化、卷积核1×1的卷积和卷积核为3×3、扩张率为1的空洞卷积操作；第3个子网络分别进行卷积核为1×1、3×3的卷积操作和卷积核为3×3、扩张率为2的空洞卷积操作；第4个子网络分别进行卷积核为1×1、3×3、3×3的卷积操作和卷积核为3×3、扩张率为3的空洞卷积层；4个子网络进行特征拼接，然后经过1×1的卷积操作，输出结果。