CN108764164A

CN108764164A - 一种基于可变形卷积网络的人脸检测方法及系统

Info

Publication number: CN108764164A
Application number: CN201810542168.3A
Authority: CN
Inventors: 邹腊梅; 李晓光; 熊紫华; 陈婷; 杨卫东; 李长峰; 张松伟; 黎云
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-06
Anticipated expiration: 2038-05-30
Also published as: CN108764164B

Abstract

本发明公开一种基于可变形卷积网络的人脸检测方法及系统，包括：接收输入的图像，所述图像中包括待检测的人脸信息；通过主干网络提取图像的特征，所述特征包括语义特征和偏移量特征；通过可变形卷积分别输出图像的语义特征和偏移量特征；根据图像的语义特征，通过分类子网络输出锚点框包含人脸的概率；根据图像的语义特征，通过IOU预测分支输出各个预测框与人脸的重叠程度IOU；根据图像的偏移量特征，通过位置回归子网络输出各个预测框对应的人脸大小和位置。本发明可以准确预测图像中的人脸。

Description

一种基于可变形卷积网络的人脸检测方法及系统

技术领域

本发明涉及图像处理、计算机视觉技术交叉领域，更具体地，涉及一种基于可变形卷积网络的人脸检测方法及系统。

背景技术

人脸检测是计算机视觉领域的热门研究方向，是许多与人脸相关的任务基础，如人脸识别，人脸属性识别，人脸关键点定位等。人脸检测在计算机视觉领域的应用十分广泛，包括视频安防、商场监控、门禁系统和通讯娱乐等。传统的人脸检测主要关注于设计复杂的图像特征并训练分类器，从而实现人脸检测。但是，人工设计特征的方法需要专家知识，检测效果也有待提高。深度学习通过多层卷积计算，将原始图像数据逐层抽象成自身任务所需的特征表示，实现端到端的学习。人脸检测的精度也随着深度学习的发展得到大幅的提高。

基于卷积神经网络(Convolutional Neural Network，CNN)的人脸检测通常包含人脸背景分类任务和人脸位置回归任务，两个任务共用卷积网络提取的语义特征。共用特征的形式存在缺陷，没有考虑到位置回归任务所需特征的特殊性，位置回归需要含有偏移信息的特征，导致人脸检测框的不准确。同时，普通卷积的采样方法固定，同一层感受野范围相同，对人脸的形变建模不足，仅仅输出人脸预测框概率会将一些背景分类为人脸，导致错误的检测。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有基于卷积神经网络的人脸检测没有考虑到位置回归任务所需特征的特殊性，位置回归需要含有偏移信息的特征，导致人脸检测框不准确，且对人脸的形变建模不足，仅仅输出人脸预测框概率会将一些背景分类为人脸，导致错误检测的技术问题。

为实现上述目的，第一方面，本发明提供一种基于可变形卷积网络的人脸检测方法，包括：

接收输入的图像，所述图像中包括待检测的人脸信息；

通过主干网络提取图像的特征，所述特征包括语义特征和偏移量特征；

通过可变形卷积分别输出图像的语义特征和偏移量特征；

根据图像的语义特征，通过分类子网络输出锚点框包含人脸的概率，所述锚点框为预设位置和预设大小的框，所述锚点框可以为多个；

根据图像的语义特征，通过IOU(intersection over union)预测分支输出各个预测框与人脸的重叠程度IOU，所述预测框为预测包含人脸信息的框；

根据图像的偏移量特征，通过位置回归子网络输出各个预测框对应的人脸大小和位置。

可选地，该方法还包括：根据人脸置信度对各个预测框排序，通过非极大值抑制NMS去除重复的预测框，所述人脸置信度为锚点框包含人脸的概率和各个预测框与人脸的重叠程度IOU的乘积。

可选地，设predbox为预测框面积，truthbox为真实框面积，IOU的计算公式为：

其中，真实框为真实包含人脸的框，是在制作数据集时，人工在图像上标注的人脸框。

可选地，可变形卷积网络用来输出人脸概率和人脸位置，其第一层为可变形卷积，可变形卷积的偏移特征图作为位置回归子网络的输入特征，位置回归子网络由一个3×3大小的卷积层负责，可变形卷积的语义特征后面接三个3×3大小的卷积，用于对人脸和背景分类。

可选地，IOU预测分支网络由三个3×3大小的卷积组成，连接在可变形卷积输出的语义特征后，通过监督学习输出各个预测框与人脸的重叠程度IOU，从而评价各个预测框的位置准确性。

可选地，可变形卷积将运算分为两个步骤，第一步是对特征图进行采样，第二步是对采样的特征进行卷积，可变形卷积通过不规则采样，以根据当前的卷积特征适应的调整自身采样的位置偏移，从而适应性的调整感受野，使分类子网络的分类结果更加准确。

可选地，分类子网络采用的损失函数是focal loss，假设分类子网络的预测输出为p，定义p_t如下：

那么focal loss的定义式为：

FL(p_t)＝-(1-p_t)^γlog(p_t)

其中，y对应预测值p的标签，表示是否为人脸，当y＝1时，表示为人脸，γ为调节损失权重的超参数。

可选地，所述锚点框的高度与宽度的比例设置为{1:1,1.5:1}。

第二方面，本发明提供一种基于可变形卷积网络的人脸检测系统，包括：主干网络模块、可变形卷积模块、分类子网络模块、IOU预测分支模块以及位置回归子网络模块；

所述主干网络模块提取图像的特征，所述特征包括语义特征和偏移量特征；

所述可变形卷积模块分别输出图像的语义特征和偏移量特征；

所述分类子网络模块根据图像的语义特征，输出锚点框包含人脸的概率，所述锚点框为预设位置和预设大小的框，所述锚点框可以为多个；

所述IOU预测分支模块根据图像的语义特征，输出各个预测框与人脸的重叠程度IOU，所述预测框为预测包含人脸信息的框；

所述位置回归子网络模块根据图像的偏移量特征，输出各个预测框对应的人脸大小和位置。

可选地，所述位置回归子网络模块根据人脸置信度对各个预测框排序，通过非极大值抑制NMS去除重复的预测框，所述人脸置信度为锚点框包含人脸的概率和各个预测框与人脸的重叠程度IOU的乘积。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明通过将人脸预测概率与人脸重叠程度IOU的乘积作为锚点框的人脸置信度，可以有效提高人脸的召回率，同时降低误检的概率。

本发明使用偏移量特征图作为位置回归子网络的输入能够使人脸的预测位置及大小更加准确。

附图说明

图1为本发明提供的基于可变形卷积网络的人脸检测方法流程示意图；

图2为本发明提供的可变形卷积网络原理图；

图3为本发明提供的可变形卷积网络模块图；

图4为本发明提供的预测框与人脸框IOU示意图；

图5为本发明提供的DfFaceNet人脸检测网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明要解决的问题是克服现有深度学习人脸检测方法的缺陷。本发明结合具有位置偏移特性的可变形卷积，将人脸背景分类任务和人脸位置回归任务的特征分离，提出了可变形卷积网络模块，然后结合人脸概率与IOU，训练多尺度可变形卷积人脸DfFaceNet进行人脸检测。

图1为本发明提供的基于可变形卷积网络的人脸检测方法流程图，如图1所示，包括：

接收输入的图像，图像中包括待检测的人脸信息；

通过主干网络提取图像的特征，该特征包括语义特征和偏移量特征；

通过可变形卷积分别输出图像的语义特征和偏移量特征；

根据图像的语义特征，通过IOU预测分支输出各个预测框与人脸的重叠程度IOU，所述预测框为预测包含人脸信息的框；

其中，可变形卷积、分类子网络、IOU预测分支以及位置回归子网络构成多尺度可变形卷积DfFaceNet网络。

相应地，该方法对应的系统主要包括：主干网络模块、可变形卷积模块、分类子网络模块、IOU预测分支模块以及位置回归子网络模块；

主干网络模块提取图像的特征，所述特征包括语义特征和偏移量特征；

可变形卷积模块分别输出图像的语义特征和偏移量特征；

分类子网络模块根据图像的语义特征，输出锚点框包含人脸的概率，所述锚点框为预设位置和预设大小的框，所述锚点框可以为多个；

IOU预测分支模块根据图像的语义特征，输出各个预测框与人脸的重叠程度IOU，所述预测框为预测包含人脸信息的框；

位置回归子网络模块根据图像的偏移量特征，输出各个预测框对应的人脸大小和位置。

在一个具体示例中，还可将该系统划分为以下几个部分：

(一)可变形卷积网络模块；

(二)IOU预测分支网络模块；

(三)主干网络提取图像特征。

图2、图3分别为本发明提供的可变形卷积网络原理图和模块图；由图2、图3可知，可变形卷积网络模块用来输出人脸概率和人脸位置，其第一层为可变形卷积，可变形卷积的偏移特征图作为位置回归任务的输入特征，位置回归由一个3×3大小的卷积层负责。可变形卷积的语义特征后面接三个3×3大小的卷积，用于对人脸与背景分类。可变形卷积模块在不同尺度的特征层上是参数共享的。

IOU预测分支网络模块由三个3×3大小的卷积组成，连接在可变形卷积输出的语义特征后，通过监督学习输出预测框与人脸框的IOU，从而评价预测框的位置准确性。IOU预测分支网络模块在不同尺度特征层上是共享参数的。

图4为本发明提供的预测框与人脸框IOU示意图，IOU预测分支是3层普通卷积结构。人脸检测中，通常输出概率反映预测框是人脸的置信度，置信度高表明预测框内是人脸的概率高，反之预测框内是人脸的概率低。但仅仅使用概率输出存在以下两个问题，一是有少量背景被检测为人脸而产生错误检测，二是一些预测框的位置并不准确但输出概率却很高，因此导致检测的偏差。IOU是一种衡量两个矩形框的重叠程度的指标，因而可以衡量预测框的准确程度，也可以理解为预测框的质量。本发明提出将输出概率和预测框与真实框IOU相结合(取两者的乘积)作为人脸检测置信度的输出，从实验结果看该方法有利于提高人脸检测精度。网络训练时，采用均方根误差作为损失函数，预测IOU的真实值是预测框与真实框的IOU。网络测试时，预测IOU与预测概率的乘积作为预测框的最终置信度。

设predbox为预测框面积，truthbox为真实框面积，IOU的计算公式为

图5为本发明提供的DfFaceNet人脸检测网络结构图，如图5所示，多尺度DfFaceNet网络进行人脸检测，网络的特征提取模块采用ResNet50，去除了全连接层，并融合深层特征与浅层特征，构建特征金字塔。DfFaceNet在预测时，输出人脸相对预设锚点框的位置、人脸概率和IOU，人脸的置信度为人脸概率与IOU的乘积，最后对人脸置信度排序，并通过非极大值抑制(Non-maximum suppression，NMS)去除重复的预测框。

其中预设锚点框根据人脸大小比例的特点，其高度与宽度的比例设置为{1:1,1.5:1}，加强了预设锚点框与人脸的匹配程度。

本发明将卷积神经网络分为两个部分，第一个部分是用于提取图像特征的主干网络，第二个部分是对位于输出图像特征层的锚点框进行处理的网络，具体包括人脸背景分类子网络、人脸位置回归子网络以及IOU预测分支，这里为了降低模型的大小，三个子网络在不同输出层采用相同的结构并共享参数。

其中主干网络是使用‘skip’结构的ResNet50，通过使用残差网络可以有效解决梯度消散的问题，同时‘skip’结构可以将神经网络的低层网络特征与高层网络特征融合，使输出特征图既包含高级语义特征又包含低级语义特征，从而保留更丰富的有用信息输入到第二部分的网络。这就要求高层语义特征图与低层语义特征图大小相一致，这可以通过对低层特征图上采样实现。用于输出的特征图构成5层结构的特征金字塔，各层分别适合于不同大小的人脸进行检测。

分类子网络共有4层网络，其中第一层是可变形卷积层，其余三层是普通卷积。可变形卷积将运算分为两个步骤，第一步是对特征图进行采样，第二步是对采样的特征进行卷积。可变形卷积与普通卷积的不同点在于其是不规则采样，通过不规则采样，可变形卷积可以根据当前的卷积特征适应的调整自身采样的位置偏移，从而适应性的调整感受野，使分类子网络的分类结果更加准确。分类子网络采用的损失函数是focal loss，该损失函数可以减轻样本不均衡造成的优化困难，假设分类子网络的预测输出为p，定义p_t如下：

那么focal loss的定义式为：

FL(p_t)＝-(1-p_t)^γlog(p_t)

位置回归子网络是1层结构，只包含一层普通卷积，其输入是分类子网络中可变形卷积输出的偏移量特征图。这里在以往的做法中，位置回归子网络通常与分类子网络共享输入特征图，然而考虑到位置回归子网络是用于回归人脸位置偏移量，需要的是几何位置信息，而主干网络提供的是语义信息的特征，所以本申请创新性的做了上述改变，通过直接向位置回归子网络输入偏移量特征图，可以使位置回归子网络的预测更加准确。

位置回归子网络采用的损失函数是Smooth L1函数，

其中，x表示位置回归网络的预测值与标签值之间的误差。

在一个具体的实施例中，本发明提供的深度模型的训练过程如下：

本发明使用ResNet-50作为主干网络，模型使用batch-size为8，momentum值(冲量值)为0.9，权重衰减为1e-4的SGD训练。分类子网络与位置回归子网络的权重使用服从均值为0方差为0.01的高斯分布随机数初始化，偏置初始化为0，特别地，可变形卷积的权重初始化为0，分类子网络的最后一层CNN的偏置b初始化为b＝-log((1-pi)/pi)，pi＝0.01。初始学习率设为3e-3，训练到80epoch时，学习率降为3e-4，接着训练到100epoch。训练时，与人脸标签框的IOU大于0.5的锚点框看作正样本，与人脸标签框的IOU小于0.4的锚点框看作负样本，其它锚点框不计入损失。所有的实验在显存为11GB的GTX1080Ti显卡上进行，使用修改过的Pytorch开源平台。

训练模型时采用的数据集为widerFace，其包含32,303幅图像，共有393,703个标注人脸。训练时，采用的图像数据增强的方法有，随机水平翻转，随机从原图中裁剪出一个占原图面积0.3～1的矩形，长宽比为3./4～4./3，对图像做亮度、对比度、饱和度的随机调整，之后将图像统一缩放到600×600大小。

本发明提出了一种基于可变形卷积网络的人脸检测方法及系统，输入图像通过主干网络提取特征，然后将特征分别输入到分类子网络、位置回归子网络和IOU预测分支。其中，分类子网络第一层使用可变形卷积来增强网络对人脸几何形变的建模能力，位置回归子网络使用分类子网络中可变形卷积层输出的偏移量特征图作为输入，IOU预测分支的输出是人脸标签框与预测框的IOU大小，添加的IOU预测分支能够辅助主干网络的参数学习，最后使用IOU预测分支预测值与分类子网络预测概率的乘积作为该锚点框(anchor box)包含人脸的置信度。本发明具有易推广的特点，并且在检测精度和检测速度上取得了良好的效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于可变形卷积网络的人脸检测方法，其特征在于，包括：

接收输入的图像，所述图像中包括待检测的人脸信息；

通过可变形卷积分别输出图像的语义特征和偏移量特征；

2.根据权利要求1所述的基于可变形卷积网络的人脸检测方法，其特征在于，还包括：根据人脸置信度对各个预测框排序，通过非极大值抑制NMS去除重复的预测框，所述人脸置信度为锚点框包含人脸的概率和各个预测框与人脸的重叠程度IOU的乘积。

3.根据权利要求1所述的基于可变形卷积网络的人脸检测方法，其特征在于，设predbox为预测框面积，truthbox为真实框面积，IOU的计算公式为：

4.根据权利要求1所述的基于可变形卷积网络的人脸检测方法，其特征在于，可变形卷积网络用来输出人脸概率和人脸位置，其第一层为可变形卷积，可变形卷积的偏移特征图作为位置回归子网络的输入特征，位置回归子网络由一个3×3大小的卷积层负责，可变形卷积的语义特征后面接三个3×3大小的卷积，用于对人脸和背景分类。

5.根据权利要求1所述的基于可变形卷积网络的人脸检测方法，其特征在于，IOU预测分支网络由三个3×3大小的卷积组成，连接在可变形卷积输出的语义特征后，通过监督学习输出各个预测框与人脸的重叠程度IOU，从而评价各个预测框的位置准确性。

6.根据权利要求1所述的基于可变形卷积网络的人脸检测方法，其特征在于，可变形卷积将运算分为两个步骤，第一步是对特征图进行采样，第二步是对采样的特征进行卷积，可变形卷积通过不规则采样，以根据当前的卷积特征适应的调整自身采样的位置偏移，从而适应性的调整感受野，使分类子网络的分类结果更加准确。

7.根据权利要求1所述的基于可变形卷积网络的人脸检测方法，其特征在于，分类子网络采用的损失函数是focal loss，假设分类子网络的预测输出为p，定义p_t如下：

那么focal loss的定义式为：

FL(p_t)＝-(1-p_t)^γlog(p_t)

8.根据权利要求1所述的基于可变形卷积网络的人脸检测方法，其特征在于，所述锚点框的高度与宽度的比例设置为{1:1,1.5:1}。

9.一种基于可变形卷积网络的人脸检测系统，其特征在于，包括：主干网络模块、可变形卷积模块、分类子网络模块、IOU预测分支模块以及位置回归子网络模块；