CN110084173A

CN110084173A - 人头检测方法及装置

Info

Publication number: CN110084173A
Application number: CN201910328940.6A
Authority: CN
Inventors: 张学阳; 李学军; 郑辉; 王雅
Original assignee: ROUTON ELECTRONIC CO Ltd
Current assignee: ROUTON ELECTRONIC CO Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-02
Anticipated expiration: 2039-04-23
Also published as: CN110084173B

Abstract

本发明实施例提供一种人头检测方法及装置，所述方法包括：将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度；基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU‑NMS算法对所述边界框集合进行后端处理，获得人头检测结果；其中，所述人头检测模型是根据图像样本以及所述图像样本对应的人头目标真值框进行训练后获得的。本发明实施例利用卷积神经网络和特定循环神经网络模型组成的人头检测模型对输入图像进行特征提取和解码回归，然后利用IOU‑NMS算法对边界框进行后端处理，可有效地提升复杂场景下人头检测的准确率。

Description

人头检测方法及装置

技术领域

本发明涉及目标检测技术领域，尤其涉及一种人头检测方法及装置。

背景技术

目标检测是要在图像中定位出目标物体出现的位置区域并判别出目标物体的分类。随着计算机视觉和模式识别技术的快速发展，以及硬件性能的不断提高，目标检测技术得到了广泛地应用。在学校、商场、医院等大型公共场所，人群的活动频繁而密集，在这些复杂场景下检测人物特征以获取信息对公共安全防控、公共设施合理调配、商业信息采集等都有重要的作用。

人体检测选定的目标可以是完整的人体，也可以是完整的头部、人脸、四肢等局部人体特征，而检测目标的选择是影响检测结果的重要因素。因为人体在复杂场景下，很容易受到视角、光照、背景等因素的影响，并经常存在着不同程度的遮挡、形变、旋转、尺度变化等问题，这给人体检测与定位的准确性带来了很大的挑战。因此，选择人头这一遮挡可能性相对较小的人体特征作为检测目标，一定程度上降低了问题的复杂度。人头检测可应用于商场、学校等公共场所用于统计人数、分析人群密度以及后续的行人目标跟踪等等。如何提高复杂场景下人头检测的准确率是目前亟待解决的问题。

现有基于深度卷积神经网络的目标检测方法按其算法核心思想可分为两类：基于Region Proposal的R-CNN、SPPNet、Fast R-CNN、Faster R-CNN等方法，基于回归思想的YOLO系列、SSD等方法。基于回归思想的检测方法对于给定的输入图像，可直接在输入图像的多个位置上回归出目标边框以及目标类别，大大地加快了检测的速度；同时整个训练过程作为一个整体完成，相对于R-CNN分为几个阶段训练，基于回归思想方法的训练过程要简单得多。但是目前基于回归思想的方法对于存在不同程度的遮挡、形变、旋转、尺度变化等复杂场景下的人头检测的准确率不够高，不能满足应用要求。

发明内容

本发明实施例提供一种人头检测方法及装置，用以提高复杂场景下人头检测的准确率。

第一方面，本发明实施例提供一种人头检测方法，包括：

将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度；

基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果；

其中，所述人头检测模型包括卷积神经网络模型和特定循环神经网络模型OFLSTM；

所述人头检测模型是根据图像样本以及所述图像样本对应的人头目标真值框进行训练后获得的。

第二方面，本发明实施例提供一种人头检测装置，包括：

检测模块，用于将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度；

处理模块，用于基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的人头检测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的人头检测方法的步骤。

本发明实施例提供的人头检测方法及装置，利用卷积神经网络和特定循环神经网络模型OFLSTM组成的人头检测模型对输入图像进行特征提取和解码回归，获得输入图像的边界框集合以及每个边界框的分类置信度和IOU定位置信度，然后利用IOU-NMS算法对边界框进行后端处理，获得人头检测结果，检测方法简单有效，定位准确率高，可有效地提升复杂场景下人头检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人头检测方法的流程示意图；

图2为本发明实施例提供的将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度的步骤的流程示意图；

图3为本发明实施例提供的OFLSTM单元的结构示意图；

图4为本发明实施例提供的循环步数设置为3时所述特定循环神经网络模型OFLSTM的数据流图；

图5为本发明实施例提供的训练人头检测模型的步骤的流程示意图；

图6为本发明实施例提供的人头检测装置的结构示意图；

图7为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的人头检测方法的流程示意图，包括：

步骤100、将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度；

其中，所述人头检测模型是根据图像样本以及所述图像样本对应的人头目标真值框进行训练后获得的。

具体地，人头检测模型是以人头作为目标的一种目标检测模型，将待测图像输入到人头检测模型中，可以获得所述待测图像所对应的边界框(bounding box)集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU(Intersection-over-Union，交并比)定位置信度。

可以理解的是，将图像样本作为输入，将所述图像样本对应的人头目标真值框(ground-truth bounding boxes，预先在训练集图像样本中标出的人头大概范围)作为期望的输出，对所构建的人头检测模型进行训练。

在本发明实施例中，人头检测模型包括卷积神经网络模型和特定循环神经网络模型OFLSTM。

其中，所述卷积神经网络用于对待测图像进行特征提取，获得高层语义特征，所述特定循环神经网络模型OFLSTM用于对所述待测图像的高层语义特征进行解码回归。

步骤101、基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果；

在目标检测中，通常利用非极大值抑制算法(NMS，non maximum suppression)对生成的大量候选边界框进行后处理，去除冗余的候选边界框，得到最佳的人头检测框，作为人头检测结果，其本质思想是搜索局部最大值，抑制非极大值。传统的NMS算法在抑制重复检测时，分类分数通常被用作给候选边界框排名的指标，却缺失定位置信度，但是仅用分类得分作为依据判断一个边界框是否准确是不合理的，所以本发明实施例人头检测模型还预测了每个边界框的IOU定位置信度。在给边界框进行排序的同时考虑分类置信度和IOU定位置信度，即将这两个置信度值的乘积作为最终的排序指标，这样的处理使得检测性能更佳。

所述基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果的步骤，具体为：

将所述边界框集合中每个边界框对应的分类置信度与IOU定位置信度相乘，获得所述边界框集合中每个边界框对应的置信度乘积；

根据所述边界框集合中每个边界框对应的置信度乘积，对所述边界框集合中的所有边界框进行排序，对置信度大于预设阈值的边界框集合采用非极大值抑制算法去除冗余框，将最终获得的边界框集合作为人头检测结果进行输出。

本发明实施例提供的人头检测方法，利用由卷积神经网络和特定循环神经网络模型OFLSTM组成的人头检测模型对输入图像进行特征提取和解码回归，获得输入图像的边界框集合以及每个边界框的分类置信度和IOU定位置信度，然后利用IOU-NMS算法对边界框进行后端处理，获得人头检测结果，检测方法简单有效，定位准确率高，可有效地提升复杂场景下人头检测的准确率。

基于上述实施例的内容，如图2所示，所述将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度的步骤，具体为：

步骤200、将待测图像输入至所述卷积神经网络模型中进行特征提取，获得所述待测图像对应的高层语义特征图；

具体地，本发明实施例中卷积神经网络模型包括Darknet19模型的前二十三层，所述前二十三层包括十八个卷积层和五个最大池化层，并且在每个卷积层之后连接有群组归一化层和Leaky ReLU激活层。

基于Imagenet分类任务训练的原始Darknet19模型有19个卷积层、5个最大池化层和1个均匀池化层，最后一个卷积层和均匀池化层用于分类任务，而本发明实施例要进行人头检测，因此，在本发明实施例中使用原始Darknet19模型的前二十三层，包括18个卷积层和5个最大池化层，如表1所示，为本发明实施例中使用的原始Darknet19模型的前二十三层网络结构。在原始Darknet19模型中，每个卷积层之后均连接有批量归一化层(用于进行Batch Normalization操作，简称BN操作)和Leaky ReLU激活层(用于进行基于Leaky ReLU激活函数的激活操作)。

考虑到人头检测算法是检测人头这种较小的目标，所以在具体实施时设置的网络输入图片较大，例如，若网络输入图片为640x480，那么在有限的硬件环境下训练时batchsize(批尺寸)只能设置1-8这样较小的值，而BN操作在batch size较小时其效果会大打折扣，所以本发明实施例中将Darknet19网络中的BN操作替换为不受batch size影响的GN操作(Group Normalization，群组归一化)。也即在本发明实施例所提供的卷积神经网络中，每个卷积层之后连接有群归一化层和Leaky ReLU激活层。

将待测图像输入至卷积神经网络模型中进行特征提取，可获得所述待测图像对应的高层语义特征图，若设定输入图像大小为640x480，从表1可以看出经过每层操作计算后获得的特征图(feature map)的大小，最终获得1024维、20x15的高层语义特征图，即高层语义特征图上具有300个网格，每个网格具有32*32的感受野，即每个网格对应输入图像上32*32区域大小。

表1原始Darknet19模型的前二十三层网络结构

Type	Filters	Size/Stride/Pad	Output
				Convolution	32	3x3/1/1	640x480
MaxPooling		2x2/2	320x240
				Convolution	64	3x3/1/1	320x240
MaxPooling		2x2/2	160x120
				Convolution	128	3x3/1/1	160x120
Convolution	64	1x1/1/0	160x120
				Convolution	128	3x3/1/1	160x120
MaxPooling		2x2/2	80x60
				Convolution	256	3x3/1/1	80x60
Convolution	128	1x1/1/0	80x60
				Convolution	256	3x3/1/1	80x60
MaxPooling		2x2/2	40x30
				Convolution	512	3x3/1/1	40x30
Convolution	256	1x1/1/0	40x30
				Convolution	512	3x3/1/1	40x30
Convolution	256	1x1/1/0	40x30
				Convolution	512	3x3/1/1	40x30
MaxPooling		2x2/2	20x15
				Convolution	1024	3x3/1/1	20x15
Convolution	512	1x1/1/0	20x15
				Convolution	1024	3x3/1/1	20x15
Convolution	512	1x1/1/0	20x15
				Convolution	1024	3x3/1/1	20x15

步骤201、利用所述特定循环神经网络模型OFLSTM对所述待测图像的高层语义特征图进行解码回归，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度。

具体地，特定循环神经网络模型OFLSTM是指训练完成的具有OFLSTM单元的循环神经网络模型，其中，OFLSTM单元是一种变体的LSTM单元，只有遗忘门，没有偏置项和非线性输出。在每一步，将卷积神经网络模型所输出的高层语义特征图与前一步OFLSTM单元的输出连接，并将结果输入下一步OFLSTM单元。在OFLSTM层后面设置全连接层对每个网格回归出一个边界框、边界框对应的分类置信度以及IOU定位置信度。在每一次循环过程中，并行地产生了输入图像的每个网格上的边界框、边界框的分类置信度和IOU定位置信度，所有网格上的边界框组成边界框集合。这样每一步循环可以在每个网格上回归得到一个边界框，通过设定循环步数，我们可以在每个网格上得到可变数量的边界框，循环N次，每个网格上就可以得到N个边界框。

将所述待测图像的高层语义特征图输入至所述特定循环神经网络模型中进行解码回归，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度。

本发明实施例提供的人头检测方法，通过利用改进Darknet19模型有效地提取输入图像的高层特征，并利用LSTM记忆功能，将一种LSTM变体结构OFLSTM单元引入了检测过程中，可有效地处理目标密集、遮挡、形变、旋转、尺度变化等复杂场景下的人头检测问题。

基于上述实施例的内容，所述利用特定循环神经网络模型OFLSTM对所述待测图像的高层语义特征图进行解码回归，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度的步骤，具体为：

对所述待测图像的高层语义特征图进行维度调整，以使得经过维度调整后的高层语义特征图符合OFLSTM单元的输入格式；

根据预先设定的循环步数将所述经过维度调整后的高层语义特征图输入至OFLSTM单元中进行处理，对于OFLSTM单元的任一次循环：

将所述经过维度调整后的高层语义特征图、OFLSTM单元上一次循环的输出以及OFLSTM单元的当前状态输入至OFLSTM单元，获取当前循环OFLSTM单元的输出；

将所述当前循环OFLSTM单元的输出分别输入至三个不同的全连接层，获得所述待测图像在当前循环的边界框集合、所述当前循环的边界框集合中每个边界框的分类置信度和所述当前循环的边界框集合中每个边界框的IOU定位置信度；

在达到预先设定的循环步数后，对多次循环得到的边界框集合进行维度调整后合并，对多次循环得到的边界框集合中每个边界框的分类置信度进行维度调整后合并，对多次循环得到的边界框集合中每个边界框的IOU定位置信度进行维度调整后合并；

其中，所述OFLSTM单元为只有遗忘门且无偏置项的LSTM单元。

具体地，如图3所示，为本发明实施例提供的OFLSTM单元的结构示意图。与LSTM结构有输入门、遗忘门、输出门不同，OFLSTM结构只保留了遗忘门的计算f_t，遗忘门相关计算(1-f_t)代替了输入门的作用，并将单元状态直接赋值给输出。研究表明遗忘门是LSTM中最重要的门之一，一个只有遗忘门且无偏置项的OFLSTM版本在保持标准LSTM的性能的前提下能大量节省计算成本，提高模型计算速度。

本发明实施例提供的OFLSTM单元的计算过程如下：

f_t＝σ(W_f·[h_t-1,x_t])

h_t＝c_t

为了适应所述特定循环神经网络模型OFLSTM的输入形式要求，需要对所述待测图像的高层语义特征图进行维度调整，以使得经过维度调整后的高层语义特征图符合OFLSTM单元的输入格式；

然后，根据预先设定的循环步数将所述经过维度调整后的高层语义特征图输入至OFLSTM单元中进行处理：

对于OFLSTM单元的任一次循环，将所述经过维度调整后的高层语义特征图、上一次循环OFLSTM单元的输出以及OFLSTM单元的当前状态输入至OFLSTM单元，获取当前循环OFLSTM单元的输出；

可以理解的是，在每一步循环过程中，OFLSTM单元的输入为所述经过维度调整后的高层语义特征图、上一次循环OFLSTM单元的输出以及OFLSTM单元的当前状态。

将所述当前循环OFLSTM单元的输出分别输入至三个不同的全连接层，分别获得所述待测图像在当前循环的边界框集合、所述当前循环的边界框集合中每个边界框的分类置信度和所述当前循环的边界框集合中每个边界框的IOU定位置信度；

可以理解的是，三个不同的全连接层所起的作用均不同，一个全连接层用于根据当前循环OFLSTM单元的输出获得当前循环待测图像每个网格上的边界框所组成的边界框集合，另一个全连接层用于根据当前循环OFLSTM单元的输出获得对应的分类置信度，第三个全连接层用于根据当前循环OFLSTM单元的输出获得对应的IOU定位置信度；

完成预先设定的循环步数后，对所有循环得到的边界框集合进行维度调整后合并，对所有循环得到的边界框集合中每个边界框的分类置信度进行维度调整后合并，对所有循环得到的边界框集合中每个边界框的IOU定位置信度进行维度调整后合并。

如图4所示，为循环步数设置为3时的所述特定循环神经网络模型OFLSTM的数据流图。将一个尺寸为640x480的待测图像输入至卷积神经网络中，最终提取到的高层语义特征图维度为(1,1024,15,20)，这四个数分别代表batch、channel、height、width。为了适应所述特定循环神经网络模型OFLSTM的输入形式要求，对所述待测图像的高层语义特征图进行维度调整，将高层语义特征图转换为(300,1024)，其中，300就代表着640x480的原始图像按32x32划分成的300个网格，1024代表着每个网格上提取到的高维特征。在一个实施例中，设定OFLSTM单元的状态数为250，考虑到一个32x32区域可以堆叠的人头目标数，设定OFLSTM单元循环次数为3，即每个网格上回归得到3个目标边界框。OFLSTM单元在每一步循环的输入为所述经过维度调整后的高层语义特征图、OFLSTM单元上一次循环的输出以及OFLSTM单元的当前状态，每一步循环，OFLSTM单元后通过连接3个全连接层，在300个单元格内各产生一个预测边界框和对应的置信度(分类置信度和IOU定位置信度)，即在该位置处将发现先前未检测到的人头目标。OFLSTM循环3次最终会在300个单元格各产生3个预测边界框，产生的所有边界框集合维度为(1,300,3,4)。

这样预测的过完备集的基数是固定的(300x3)，而不考虑标准人头目标真值框的数量，这样可以使得OFLSTM对那些和标准真值接近的框输出高置信度分数和正确定位。

基于上述实施例的内容，所述将待测图像输入至人头检测模型的步骤之前，还需要训练所述人头检测模型，如图5所示，训练人头检测模型的步骤，具体为：

步骤500、初始化卷积神经网络模型和特定循环神经网络模型OFLSTM，其中，所述卷积神经网络模型部分参数的初始化采用在ImageNet数据集上预训练的Darknet19模型的前二十三层权重参数，所述特定循环神经网络模型的OFLSTM单元及全连接层的初始化采用均匀分布初始化；

具体地，本发明实施例所构建的卷积神经网络模型包括Darknet19模型的前二十三层，采用在ImageNet数据集上预训练的Darknet19模型的前二十三层权重参数初始化所述卷积神经网络模型部分参数。

采用均匀分布初始化所述特定循环神经网络模型的OFLSTM单元及全连接层。

步骤501、将图像样本输入至所述初始化后的卷积神经网络模型中，获得所述图像样本对应的高层语义特征图；

利用所述初始化后的卷积神经网络模型对图像样本进行特征提取，获得图像样本对应的高层语义特征图。

步骤502、将所述图像样本对应的高层语义特征图输入至特定循环神经网络模型OFLSTM中进行解码回归，获得所述图像样本对应的预测框集合、所述预测框集合中每个预测框的分类置信度和每个预测框的IOU定位置信度；

具体地，首先对所述图像样本的高层语义特征图进行维度调整，以使得经过维度调整后的高层语义特征图符合OFLSTM单元的输入格式。

然后根据预先设定的循环步数将所述经过维度调整后的高层语义特征图输入至OFLSTM单元中进行处理：

将所述当前循环OFLSTM单元的输出分别输入至三个不同的全连接层，获得所述图像样本在当前循环的预测框集合、所述当前循环的预测框集合中每个预测框的分类置信度和所述当前循环的预测框集合中每个预测框的IOU定位置信度。

完成预先设定的循环步数后，对多次循环得到的预测框集合进行维度调整后合并，对多次循环得到的预测框集合中每个预测框的分类置信度进行维度调整后合并，对多次循环得到的预测框集合中每个边界框的IOU定位置信度进行维度调整后合并，最终获得所述图像样本对应的预测框集合、所述预测框集合中每个预测框的分类置信度和每个预测框的IOU定位置信度。

步骤503、基于所述预测框集合中每个预测框的分类置信度和每个预测框的IOU定位置信度，采用IOU-NMS算法对所述预测框集合进行后端处理，获得人头预测框、所述人头预测框的分类置信度和所述人头预测框的IOU定位置信度；

基于所述预测框集合中每个预测框的分类置信度和每个预测框的IOU定位置信度，采用IOU-NMS算法对所述预测框集合进行后端处理，删除冗余的预测框，保留置信度高于预设阈值的预测框作为人头预测框。

步骤504、根据所述人头预测框、所述人头预测框的分类置信度、所述人头预测框的IOU定位置信度以及所述图像样本对应的人头目标真值框计算损失函数值，并根据所述损失函数值更新所述卷积神经网络模型的参数和所述特定循环神经网络模型OFLSTM的参数。

其中，根据所述人头预测框、所述人头预测框的分类置信度、所述人头预测框的IOU定位置信度以及所述图像样本对应的人头目标真值框，利用如下公式计算损失函数值：

其中，x表示带有人头目标真值框的图像样本，c表示所述人头预测框的分类置信度，d表示人头预测框，d_xc为人头预测框的中心点横坐标，d_yc为人头预测框的中心点纵坐标，d_w为人头预测框的宽度，d_h为人头预测框的高度，g表示人头目标真值框，g_xc为人头目标真值框的中心点横坐标，g_yc为人头目标真值框的中心点纵坐标，g_w为人头目标真值框的宽度，g_h为人头目标真值框的高度，N表示批尺寸batch size，L_loc表示定位误差，L_iou表示IOU定位置信误差，L_class表示分类误差，G表示人头目标真值框集合，C表示类别数，D表示人头预测框集合，c_i表示第i个人头预测框对应的真实类别的置信度，c_j表示人头预测框为第j个类别的置信度。

计算获得损失函数值后，可以基于反向传播算法，同时更新所述卷积神经网络模型的参数和所述特定循环神经网络模型OFLSTM的参数。

参数更新后，判断是否达到训练结束条件，若是，则保存当前迭代卷积神经网络模型的参数和所述特定循环神经网络模型OFLSTM的参数，获得训练完成的人头检测模型，否则选取下一图像样本继续进行训练。

本发明实施例提供的人头检测方法，通过采用在ImageNet数据集上预训练的Darknet19模型的前二十三层作为卷积神经网络模型，并基于OFLSTM单元构建了特定循环神经网络模型，能够有效地提取输入图像的高层特征并进行解码回归，可提升人头检测的效果。

如图6所示，为本发明实施例提供的人头检测装置的结构示意图，包括：检测模块610和处理模块620，其中，

检测模块610，用于将待测图像输入至人头检测模型中，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度；

处理模块620，用于基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果；

在目标检测中，通常利用非极大值抑制算法(NMS，non maximum suppression)对生成的大量候选边界框进行后处理，去除冗余的候选边界框，得到最佳的人头检测框，作为人头检测结果，其本质思想是搜索局部最大值，抑制非极大值。传统的NMS算法在抑制重复检测时，分类分数通常被用作给候选边界框排名的指标，却缺失定位置信度，但是仅用分类得分作为依据判断一个边界框是否准确对ground truth预测是不合理的，所以本发明实施例人头检测模型还预测了每个边界框的IOU定位置信度。在给边界框进行排序的同时考虑分类置信度和IOU定位置信度，即将这两个置信度值的乘积作为最终的排序指标，这样的处理使得检测性能更佳。

所述处理模块620具体用于：

本发明实施例提供的人头检测装置，利用由卷积神经网络和特定循环神经网络模型OFLSTM组成的人头检测模型对输入图像进行特征提取和解码回归，获得输入图像的边界框集合以及每个边界框的分类置信度和IOU定位置信度，然后利用IOU-NMS算法对边界框进行后端处理，获得人头检测结果，检测方法简单有效，定位准确率高，可有效地提升复杂场景下人头检测的准确率。

图7为本发明实施例提供的电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储在存储器730上并可在处理器710上运行的计算机程序，以执行上述各方法实施例的人头检测方法，例如包括：将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度；基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果；其中，所述人头检测模型是根据图像样本以及所述图像样本对应的人头目标真值框进行训练后获得的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例提供的人头检测方法，例如包括：将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度；基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果；其中，所述人头检测模型是根据图像样本以及所述图像样本对应的人头目标真值框进行训练后获得的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人头检测方法，其特征在于，包括：

2.根据权利要求1所述的人头检测方法，其特征在于，所述将待测图像输入至人头检测模型，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度的步骤，具体为：

将待测图像输入至所述卷积神经网络模型中进行特征提取，获得所述待测图像对应的高层语义特征图；

利用所述特定循环神经网络模型OFLSTM对所述待测图像的高层语义特征图进行解码回归，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度。

3.根据权利要求2所述的人头检测方法，其特征在于，所述卷积神经网络模型包括Darknet19模型的前二十三层，所述前二十三层包括十八个卷积层和五个最大池化层，并且在每个卷积层之后连接有群组归一化层和Leaky ReLU激活层。

4.根据权利要求2所述的人头检测方法，其特征在于，利用所述特定循环神经网络模型OFLSTM对所述待测图像的高层语义特征图进行解码回归，获得边界框集合、所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度的步骤，具体为：

对所述待测图像的高层语义特征图进行维度调整，使得经过维度调整后的高层语义特征图符合OFLSTM单元的输入格式；

其中，所述OFLSTM单元为只有遗忘门且无偏置项的变体LSTM单元。

5.根据权利要求1所述的人头检测方法，其特征在于，所述基于所述边界框集合中每个边界框的分类置信度和每个边界框的IOU定位置信度，采用IOU-NMS算法对所述边界框集合进行后端处理，获得人头检测结果的步骤，具体为：

6.根据权利要求1所述的人头检测方法，其特征在于，所述将待测图像输入至人头检测模型的步骤之前，还包括：

初始化卷积神经网络模型和特定循环神经网络模型OFLSTM，其中，所述卷积神经网络模型部分参数的初始化采用在ImageNet数据集上预训练的Darknet19模型的前二十三层权重参数，所述特定循环神经网络模型的OFLSTM单元及全连接层的初始化采用均匀分布初始化；

将图像样本输入至所述初始化后的卷积神经网络模型中，获得所述图像样本对应的高层语义特征图；

将所述图像样本对应的高层语义特征图输入至特定循环神经网络模型OFLSTM中进行解码回归，获得所述图像样本对应的预测框集合、所述预测框集合中每个预测框的分类置信度和每个预测框的IOU定位置信度；

基于所述预测框集合中每个预测框的分类置信度和每个预测框的IOU定位置信度，采用IOU-NMS算法对所述预测框集合进行后端处理，获得人头预测框、所述人头预测框的分类置信度和所述人头预测框的IOU定位置信度；

根据所述人头预测框、所述人头预测框的分类置信度、所述人头预测框的IOU定位置信度以及所述图像样本对应的人头目标真值框计算损失函数值，并根据所述损失函数值更新所述卷积神经网络模型的参数和所述特定循环神经网络模型OFLSTM的参数。

7.根据权利要求6所述的人头检测方法，其特征在于，所述根据所述人头预测框、所述人头预测框的分类置信度、所述人头预测框的IOU定位置信度以及所述图像样本对应的人头目标真值框计算损失函数值的步骤，具体为：

根据所述人头预测框、所述人头预测框的分类置信度、所述人头预测框的IOU定位置信度以及所述图像样本对应的人头目标真值框，利用如下公式计算损失函数值：

8.一种人头检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述人头检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述人头检测方法的步骤。