CN111368634B

CN111368634B - 基于神经网络的人头检测方法、系统及存储介质

Info

Publication number: CN111368634B
Application number: CN202010080821.6A
Authority: CN
Inventors: 李荣春; 张俊杰; 窦勇; 姜晶菲; 牛新; 苏华友; 乔鹏; 潘衡岳
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2023-06-20
Anticipated expiration: 2040-02-05
Also published as: CN111368634A

Abstract

本申请实施例中提供了一种基于神经网络的人头检测方法、系统及存储介质。采用本申请基于神经网络的人头检测方法，通过输入被测图像至深度残差网络提取得到特征响应图；然后，输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；其次，输入增强特征响应图至区域生成网络RPN得到候选框；最后根据候选框的特征得到人头检测结果。通过空间注意力网络获得增强的特征，并提高了分类能力，从而提高了头部和相对区域的特征的质量，有效的提高人头检测的准确程度。通过特征模拟方法进一步提高了分类能力。解决了现有技术的现有的人头检测方法无法很好的解决复杂场景中的漏检和虚警的问题。

Description

基于神经网络的人头检测方法、系统及存储介质

技术领域

本申请属于图像识别及检测技术领域，具体地，涉及一种基于神经网络的人头检测方法、系统及存储介质。

背景技术

人头检测是许多与人头相关的应用程序任务的基本任务，例如：人物识别，视觉跟踪和动作识别等任务。在安全和紧急管理中，也需要检测每个人的位置并通过人头数量计算总人数。特别是在某些无人监管并且拥挤的环境中，事故发生的可能性增加，需要对人数做出限制或者利用检测出来的人头的结果做后续的任务，人头检测是一项广泛使用的任务，需要再复杂场景下通过人的头部检测来识别人的存在，头部检测属于目标检测中的子类，需要找到图片中人头的所在位置。这就对检测器的性能提出来更高的要求。

人头检测可以视为目标检测的一种特定形式。许多基于卷积神经网络CNN(Convolutional Neural Networks)的目标检测方法已经在头部检测任务中进行了优化，并获得了显著的性能提升。但是，人头检测仍然是一个十分具有挑战性的问题。在复杂的场景下，由于照片中人头的遮挡，场景的照明和模糊的干扰，存在许多人头检测误报和漏检的现象。大大降低了检测任务的准确性，并使检测器无法满足实际应用的要求。因此，有必要对人头检测做进一步的研究。

发明内容

本发明提出了一种基于神经网络的人头检测方法、系统及存储介质，旨在解决现有技术的现有的人头检测方法无法很好的解决复杂场景中的漏检和虚警的问题。

根据本申请实施例的第一个方面，提供了一种基于神经网络的人头检测方法，包括以下步骤：

输入被测图像至深度残差网络提取得到特征响应图；

输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；

输入增强特征响应图至区域生成网络RPN得到候选框；

根据候选框的特征得到人头检测结果。

可选地，还包括：

根据损失函数对之前步骤进行训练，损失函数包括特征模拟损失函数L_m，特征模拟损失函数L_m公式为：

其中i表示候选框，u⁽ⁱ⁾表示输入候选框i至深层级联分类网络后得到的分类特征，v⁽ⁱ⁾表示输入候选框i至感兴趣区域池化得到的候选框特征，L_cls(.)表示级联分类损失函数，Φ表示抽样的候选框，p表示候选框为人头的预测概率，p^*表示候选框的标签属性，p^*＝1时为正样本，p^*＝0时为正样本。

可选地，还包括：

根据损失函数对之前步骤进行训练，损失函数包括分类网络检测损失函数以及空间注意力网络的交叉熵函数。

可选地，损失函数L公式具体为：

L＝L_det+λ₁L_a+λ₂L_m；

其中，L_a表示空间注意力网络的交叉熵函数，L_det表示分类网络检测损失函数，L_m表示特征模拟损失函数，λ₁和λ₂表示损失权重平衡参数；

交叉熵函数L_a的公式为：

其中，x_j是注意力图中生成的像素，

表示x_j的标签，当/>

时，意味着x_j被包含在人的头部区域中，当/>

时，意味着x_j不被包含在人的头部区域中。可选地，所述特征模拟损失函数的计算步骤包括：

输入所述候选框的特征以及特征响应图至另一区域生成网络RPN得到进一步分类候选框特征；

将深层级联分类网络嵌入在分类网络中，对所述进一步分类候选框特征做重分类得到级联分类网络特征；

计算所述级联分类网络特征与所述候选框的特征之间余弦距离；

根据所述余弦距离以及级联分类损失函数得到特征模拟损失函数。

可选地，空间注意力网络结构具体为：

特征响应图通过三个3×3的卷积层进行分层提取特征，每个3×3的卷积层带有256个内核；特征响应图通过一个带有256个内核的1×1卷积层保持初始的特征；连接分层提取的特征与初始的特征；最后，通过一个1×1的卷积层，1×1的卷积层的输入通道大小等于所述分类网络提取的特征的通道大小。

可选地，空间注意力网络的训练集通过填充候选框得到的热力图构成，所述热力图尺寸与所述特征响应图尺寸相同。

可选地，输入特征响应图至空间注意力网络得到注意力图还包括：

输入利用边界框生成的训练样本至空间注意力网络，注意力图的尺寸与特征响应图的尺寸相同。

根据本申请实施例的第二个方面，提供了一种基于神经网络的人头检测系统，具体包括：

分类网络模块：用于输入被测图像至深度残差网络提取得到特征响应图；

空间注意力网络模块：用于输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；

区域生成网络RPN模块：用于输入增强特征响应图至区域生成网络RPN得到候选框；

人头检测模块：用于根据候选框的特征得到人头检测结果。

根据本申请实施例的第三个方面，提供了一种计算机可读存储介质，其上存储有计算机程序；计算机程序被处理器执行以实现基于神经网络的人头检测方法。

采用本申请实施例中的基于神经网络的人头检测方法及系统，通过输入被测图像至深度残差网络提取得到特征响应图；然后，输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；其次，输入增强特征响应图至区域生成网络RPN得到候选框；最后根据候选框的特征得到人头检测结果。通过空间注意力网络获得增强的特征，并提高了分类能力，从而提高了头部和相对区域的特征的质量，有效的提高人头检测的准确程度。通过特征模拟方法进一步提高了分类能力。解决了现有技术的现有的人头检测方法无法很好的解决复杂场景中的漏检和虚警的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1中示出了根据本申请实施例的一种基于神经网络的人头检测方法的步骤流程图；

图2中示出了根据本申请实施例的分类网络中的空间注意力网络的结构示意图；

图3中示出了根据本申请实施例的基于神经网络的人头检测方法的分类网络结构示意图；

图4中示出了根据本申请实施例的一种基于神经网络的人头检测系统的结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现人头检测是一项广泛使用的任务，需要再复杂场景下通过人的头部检测来识别人的存在。但是，人头检测仍然是一个十分具有挑战性的问题。在复杂的场景下，由于照片中人头的遮挡，场景的照明和模糊的干扰，存在许多人头检测误报和漏检的现象。大大降低了检测任务的准确性，并使检测器无法满足实际应用的要求。

针对上述问题，本申请实施例中提供了一种基于神经网络的人头检测方法、系统及存储介质，通过输入被测图像至分类网络提取得到特征响应图；然后，输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；其次，输入增强特征响应图至区域生成网络RPN得到候选框；最后根据候选框的特征得到人头检测结果。通过空间注意力网络获得增强的特征，并提高了分类能力，从而提高了头部和相对区域的特征的质量，有效的提高人头检测的准确程度。解决了现有技术的现有的人头检测方法无法很好的解决复杂场景中的漏检和虚警的问题。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1

图1中示出了根据本申请实施例的一种基于神经网络的人头检测方法的步骤流程图。

如图1所示，本实施例的基于神经网络的人头检测方法，具体包括以下步骤：

S101：输入被测图像至深度残差网络提取得到特征响应图；

S102：输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；

S103：输入增强特征响应图至区域生成网络RPN得到候选框；

S104：根据候选框的特征得到人头检测结果。

本实施例中的人头检测方法基于采用Faster R-CNN分类网络结构。利用FasterRCNN作为整个网路的基本骨架，在该骨架的基础上构建人头检测的方法。

具体的，S102中，根据S101中提取的特征响应图，输入至空间注意力网络，然后将多个级别的特征提取并连接生成调整特征响应的注意力图，再将注意力图用来调整输入的特征响应并送入到后续的网络中去。

进一步的，输入特征响应图至空间注意力网络得到注意力图还包括：

S104中，通过生成的候选框，然后使用分类器和回归器做进一步的调整候选框的位置以及尺寸，并判断候选框内是否为人头得到人头检测结果。这部分技术内容属于现有技术，本申请将不再赘述。

优选地，本实施例中的基于神经网络的人头检测方法还包括以下步骤：

根据损失函数对步骤S101-S104进行训练，其中，损失函数包括特征模拟损失函数L_m。

具体的，特征模拟损失函数L_m公式为：

进一步的，本实施例中的基于神经网络的人头检测方法的损失函数还包括：分类网络检测损失函数以及空间注意力网络的交叉熵函数。

进一步的，训练分类网络的损失函数L公式具体为：

L＝L_det+λ₁L_a+λ₂L_m 公式(2)

具体的，交叉熵函数L_a的公式为：

其中，x_j是注意力图中生成的像素，

表示x_j的标签，当/>

时，意味着x_j被包含在人的头部区域中，当/>

时，意味着x_j不被包含在人的头部区域中。

进一步的，特征模拟损失函数L_m的计算步骤包括：

图2中示出了根据本申请实施例的分类网络中的空间注意力网络的结构示意图。

进一步的，如图2所示，空间注意力网络结构具体为：

特征响应图通过三个3×3的卷积层进行分层提取特征，每个3×3的卷积层带有256个内核；特征响应图通过一个带有256个内核的1×1卷积层保持初始的特征；连接分层提取的特征与初始的特征；最后，通过一个1×1的卷积层，1×1的卷积层的输入通道大小等于级联特征的通道大小，以确定我们如何生成一个注意力图Y来调整输入特征响应。

同时，为了生成注意力分支的监督样本，我们用经过变换的框的区域来填充得到与注意力分支的输入层相同的大小的热力图。该过程基于卷积层的平移不变性和人头以相对规则的形状标记的属性。

注意力网络将传递给RPN的特征响应和利用边界框生成的训练样本作为输入，并生成具有相同尺寸的注意力图。然后，该注意力图通过逐元素计算来激活输入特征响应。

进一步解释的，为了解决现有技术的现有的人头检测方法无法很好的解决复杂场景中的漏检和虚警的问题，本申请实施例通过空间注意力网络增加带有显著信息的特征响应图。在区域生成网络RPN处理特征之前的层中添加空间注意力网络。

在人的头部一般填满整个候选框的先验前提下，输出一个监督信号执行对注意力任务的监督，监督信号包含信息为；边界框的矩形内部区域为正样本，其余部分为负样本.以执行对注意力任务的监督。

图3中示出了根据本申请另一实施例的基于神经网络的人头检测方法的分类网络结构示意图。

如图3所示，将包括有多个人头人物的被测图像输入分类网络提取得到包括图像特征(CNN layers)的特征响应图，然后通过RPN网络得到候选框，然后进行感兴趣区域池化(roi-pooling)进行候选框特征提取，然后进行分类、回归后续操作，这一部分为检测分支(Detection Branch)。

在检测分支(Detection Branch)基础上嵌入注意力分支(Attention Branch)，即通过空间注意力网络(Attention Module)将特征响应图生成注意力图，并将注意力图添加到原始特征响应图上，然后将更新后的增强特征响应图送到RPN。注意力图可以显示、调整被分类网络忽略的头部区域，因为每个头部区域都为正样本以进行监督训练。

通过空间注意力网络调整分类网络提取得到特征响应图后，本实施例可以更加准确地区分头部和背景，获得更好的分类结果。

关于空间注意力网络模型，具体结构如下：

注意力网络将传递给RPN的特征响应和利用边界框生成的训练样本作为输入，并生成具有相同尺寸的注意力图。然后，该注意力图通过逐元素计算来激活输入特征响应。通过填充有边界框的热图来有监督的学习调整响应的注意力图。

表示注意力网络得到的像素级别的预测结果，注意力网络计算公式为：

其中

是分类网络得到的特征响应，然后，将注意力网络预测的结果Y通过指数运算和逐元素乘法来激活输入的特征响应X，公式为：

X'＝X⊙exp(Y) 公式(5)

其中，X'表示被调整之后的特征响应。X'作为新的特征响应输入至区域生成网络RPN，进一步得到候选框。

通过注意力网络使头部区域的特征响应被增强，并减弱了图像剩余部分的响应。

关于特征模拟损失函数L_m，进一步解释如下：

在现有的可形变卷积的研究中，指出，额外的网络分支的上下文信息可能会影响提取的图像特征并导致检测错误。因此提出了一种模拟特征响应的损失函数，以驱动可形变的R-CNN学习由额外分支提取的更加集中的特征，从而一定程度避免了额外的网络分支的上下文信息导致的检测不准确问题。但是，这种方法的训练过程很慢，并且特征模拟仅对可形变模型有用。

基于此，本申请实施例提出了一种新的特征响应模拟方法来学习R-CNN的分类能力，而不是仅仅学习更集中的特征。经过一个级联的网络来做进一步的重分类直接的提高分类效果，为避免计算上的额外消耗，利用知识蒸馏驱动主干网去学习重分类网络得到的特征响应，来间接的得到被提高的效果。从而进一步增强了R-CNN的分类能力并获得更快的Faster R-CNN的训练过程。

为了实现该方法，使用深层级联分类网络嵌入在Faster R-CNN中，对候选框结果做重分类。如图3所示的深层级联特征模拟分支(Cascading Branch)，我们在Faster R-CNN中将特征模拟损失函数纳入从候选框提取的特征和于候选框中提取并由深度级联分类器处理的特征中，以迫使它们尽可能的类似。在对候选框做采样的时候，我们不仅对图像前景和背景进行采样，而且还包括对被检测分支误分类的样本采样，这些样本一般具有较高的置信度，可以进一步提高深度级联分类器的分类能力。

通过特征模拟损失函数，减轻了本申请实施例网络在训练中的计算开销。通过感兴趣区域池化(roi-pooling)来替换裁剪和调整建议框的步骤，并将Faster R-CNN和深层级联分支之间部分计算过程共享。

如图2所示，使用特征模拟损失函数进行训练的网络体系结构中，通过共享的Faster R-CNN骨干网提取图像的低级特征，并在共享特征提取器的顶部建立分类检测网络和深层级联网络。

给定一个用于特征模仿的候选框i，与候选框i相对应的特征由感兴趣区域池化生成并送到深层级联网络。u⁽ⁱ⁾表示输入所述候选框i至深层级联分类网络后得到的分类特征，随后使用Softmax分类器进行分类，其中一个表示头部，一个表示背景。v⁽ⁱ⁾表示输入所述候选框i至感兴趣区域池化得到的候选框特征，特征模拟损失函数包括级联分类器特征u⁽ⁱ⁾与分类检测网对应的特征v⁽ⁱ⁾之间的余弦距离，以及级联分类损失。

之后，在网络测试时只采用了学习了深层级联网络功能的分类网络，没有使用深层级联网络，因此本实施例在推理的时候几乎没有增加计算量而达到了进一步增强R-CNN的分类能力的目的。

在训练阶段，除了使用特征模拟损失函数L_m进行训练监督，还包括了使用FasterR-CNN中的原始检测损失函数L_det，以及空间注意力网络的交叉熵函数函数L_a共同进行训练监督。

其中，基本检测器L_det的训练损失与Faster R-CNN网络相同，检测损失函数L_det包含RPN和Fast R-CNN的回归损失和分类损失。

实施例2

图4示出了根据本申请实施例的一种基于神经网络的人头检测系统的结构示意图。

如图4所示，一种基于神经网络的人头检测系统，具体包括：

分类网络模块10：用于输入被测图像至深度残差网络提取得到特征响应图；

空间注意力网络模块20：用于输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；

区域生成网络RPN模块30：用于输入增强特征响应图至区域生成网络RPN得到候选框；

人头检测模块40：用于根据候选框的特征得到人头检测结果。

采用本申请实施例中的基于神经网络的人头检测方法、系统及存储介质，通过输入被测图像至深度残差网络提取得到特征响应图；然后，输入特征响应图至空间注意力网络得到注意力图，注意力图用于增强特征响应图得到增强特征响应图；其次，输入增强特征响应图至区域生成网络RPN得到候选框；最后根据候选框的特征得到人头检测结果。通过空间注意力网络获得增强的特征，并提高了分类能力，从而提高了头部和相对区域的特征的质量，有效的提高人头检测的准确程度。解决了现有技术的现有的人头检测方法无法很好的解决复杂场景中的漏检和虚警的问题。

本申请实施例提出了一种有效的端到端头部检测方法，通过注意力机制和特征模仿方法获得更好的特征并增强分类能力。首先从多个级别的特征中提取空间的注意力，并利用边界框注释的热图进行监督，从而提高了头部和相对区域的特征的质量。

为了进一步提高分类能力，本申请还利用特征模仿方法来驱动主干网络学习由深度级联分类器提取的特征。本发明与基线模型相比，可以获得更好的性能，并于头部检测基准上得到领先的结果。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行以实现如上任一内容所提供的基于神经网络的人头检测方法。

基于同一发明构思，本申请实施例中还提供了一种计算机程序产品，由于该计算机程序产品解决问题的原理与本申请实施例一所提供的方法相似，因此该计算机程序产品的实施可以参见方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于神经网络的人头检测方法，其特征在于，包括以下步骤：

输入被测图像至深度残差网络提取得到特征响应图；

输入所述特征响应图至空间注意力网络得到注意力图，所述注意力图用于增强所述特征响应图得到增强特征响应图；

输入所述增强特征响应图至区域生成网络RPN得到候选框；

根据所述候选框的特征得到人头检测结果；根据损失函数对之前的步骤进行训练，所述损失函数包括特征模拟损失函数；

其中，所述特征模拟损失函数的计算步骤包括：

2.根据权利要求1所述的基于神经网络的人头检测方法，其特征在于，所述空间注意力网络结构具体为：

所述特征响应图通过三个3×3的卷积层进行分层提取特征，所述每个3×3的卷积层带有256个内核；所述特征响应图通过一个带有256个内核的1×1卷积层保持初始的特征；连接所述分层提取的特征与所述初始的特征；最后，通过一个1×1的卷积层，所述1×1的卷积层的输入通道大小等于所述分类网络提取的特征的通道大小。

3.根据权利要求1所述的基于神经网络的人头检测方法，其特征在于，所述根据所述候选框的特征得到人头检测结果后，还包括：

根据损失函数对之前步骤进行训练，所述损失函数包括特征模拟损失函数L_m，所述特征模拟损失函数L_m公式为：

其中i表示候选框，u⁽ⁱ⁾表示输入所述候选框i至深层级联分类网络后得到的分类特征，v⁽ⁱ⁾表示输入所述候选框i至感兴趣区域池化得到的候选框特征，L_cls(.)表示级联分类损失函数，Φ表示抽样的候选框，p表示候选框为人头的预测概率，p^*表示候选框的标签属性，p^*＝1时为正样本，p^*＝0时为正样本。

4.根据权利要求1所述的基于神经网络的人头检测方法，其特征在于，所述根据所述候选框的特征得到人头检测结果后，还包括：

根据损失函数对之前步骤进行训练，所述损失函数包括分类网络检测损失函数以及空间注意力网络的交叉熵函数。

5.根据权利要求1或4任一项所述的基于神经网络的人头检测方法，其特征在于，所述损失函数L公式具体为：

L＝L_det+λ₁L_a+λ₂L_m；

交叉熵函数L_a的公式为：