CN113591667B

CN113591667B - 一种基于人头检测的密集人群检测方法

Info

Publication number: CN113591667B
Application number: CN202110844259.4A
Authority: CN
Inventors: 郭淑涛; 王悦宸; 徐贵森
Original assignee: First Research Institute of Ministry of Public Security
Current assignee: First Research Institute of Ministry of Public Security
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2024-03-26
Anticipated expiration: 2041-07-26
Also published as: CN113591667A

Abstract

本发明公开了一种基于人头检测的密集人群检测方法，首先使用一个强化神经网络模型将原始图片中密集人群的人头信息转化为在热力图下表示的密集人群的人头信息，然后提取热力图中的人头信息，最后将热力图中所得到的人头信息拼接到目标检测的神经网络模型所得到的人头信息，因为输入了更多的人头信息，使最终的神经网络模型在每一个候选区域生成有区别性的预测。

Description

一种基于人头检测的密集人群检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于人头检测的密集人群检测方法。

背景技术

密集人群场景中，高度重叠的人员信息具有相似特征，神经网络模型容易产生重叠的错误信息的表达，因此神经网络模型很难在每一个候选区域中生成有区别性的预测。针对这一问题，现有技术的解决方案是，对目标检测的神经网络模型改造升级,提高模型的泛化能力,使模型能更好提取图片中的密集人群的人头信息。目标检测的神经网络模型的更新迭代有：两阶段神经网络模型的发展：fast r-cnn、faster r-cnn、fpn、r-fcn、mask r-cnn、cascade r-cnn。一阶段神经网络模型的发展：ssd、yolov3、yolov3-tiny、dssd。但是现有的方案依然未能很好解决问题。

发明内容

针对现有技术的不足，本发明旨在提供一种基于人头检测的密集人群检测方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于人头检测的密集人群检测方法，具体过程为：

S1、使用一个强化神经网络模块，将原始图片中的人头信息转化为在热力图下表示的人头信息，并提取热力图中的人头信息；同时使用目标检测的神经网络模型提取得到原始图片中的人头信息；

S2、将强化神经网络模块提取到的热力图表示下的人头信息和目标检测的神经网络模型提取到的人头信息拼接在一起，利用目标检测的神经网络模型对拼接后的人头信息进行最终处理，得到图片中的所有人头检测框；

S3、计算图片中所有人头数记为M，结合实际应用场景，设置一个人头数阈值，如果M大于或等于该阈值，确定该场景下为密集人群。

进一步地，目标检测的神经网络模型为yolov3-tiny、一阶段的目标检测的神经网络模型、两阶段的目标检测的神经网络模型中的任意一种。

本发明的有益效果在于：本发明中，先利用目标检测的神经网络模型获得原始图片的人头信息，再利用一个强化神经网络模块获得热力图表示下的人头信息，将两者的人头信息拼接后再进行最终的人头检测，此时因为输入更多的人头信息，所以目标检测的神经网络模型可以更准确地在每一个候选区域生成有区别性的预测，从而可以使得人员密集图片中的人员检测结果更准确，减少了图片中的漏报、误报。

附图说明

图1为本发明实施例中的方法流程示意图；

图2为本发明实施例中的强化神经网络模块结构示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本实施例提供一种基于人头检测的密集人群检测方法，如图1所示，具体过程为：

S1、使用一个强化神经网络模块(strengthen module)，将原始图片中的人头信息转化为在热力图下表示的人头信息，并提取热力图中的人头信息；同时使用目标检测的神经网络模型(base network)的前半段模型提取得到原始图片中的人头信息。

本实施例中，所述强化神经网络模块的结构如图2所示，以3X3conv,64,/2为例，3X3 conv表示卷积层的滤波器采用3X3的尺寸，64表示池化通道，/2表示滤波器中的步长为2，以此类推其他卷积层参数。对于3x3 max pooling，/2表示池化层参数，3x3max pooling表示最大池化层的滤波器采用3X3的尺寸，/2表示滤波器中的步长为2。运行环境：Ubuntu18.04,pytorch深度学习库。服务器部署的GPU是4块nvidia 1080tai。数据集可以采用brain wash数据集。

需要说明的是，base network前半段模型包括4个卷积层和3个池化层，经过4个卷积层和3个池化层处理后得到的图片信息是40X30X256(即图片长40，宽30，池化通道数为256)。强化神经网络模块输出的图片信息和base network前半段模型输出的40X30X256的图片信息拼接。

S2、将强化神经网络模块提取到的热力图表示下的人头信息和目标检测的神经网络模型前半段模型提取到的人头信息拼接在一起，利用目标检测的神经网络模型的后半段模型对拼接后的人头信息进行最终处理，得到图片中的所有人头检测框；

需要说明的是，base network后半段模型中，首先经过3个卷积层和2个池化层处理得到20X15X256的图片信息。其次对20X15X256的图片信息分叉处理,上叉部分经过2个卷积层处理后得到20X15X18的图片信息。下叉部分经过1个卷积层的“降采样”处理，得到40X30X128的图片信息，40X30X128的图片信息拼接到base network前半段模型得到的图片信息40X30X256，通过拼接操作，最后得到40X30X384的图片信息，再经过2个卷积层的处理后得到80X60X18的图片信息，即最终的图片信息，其中包含所有人头检测框。

如图1所示，以brain wash数据集为例，输入一张图片，图片尺寸为640X480，池化通道为3，图片表示为640X480X3。目标检测的神经网络模型采用yolov3-tiny神经网络模型，最终可以得到图片中一个个的人头检测框。计算所有的人头数记为M，结合实际应用场景，设置一个人头数阈值，如果M大于等于该阈值，确定该场景下为密集人群。brain wash数据集是在咖啡馆场景下的密集人群检测，除了brain wash数据集，还可以采用crowd human数据集，crowd human数据集是行人场景下的密集人群检测。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于人头检测的密集人群检测方法，其特征在于，具体过程为：

S3、计算图片中所有人头数记为M，结合实际应用场景，设置一个人头数阈值，如果M大于或等于该阈值，确定该场景下为密集人群；

所述强化神经网络模块包括四个卷积层和一个最大池化层，第一个卷积层的滤波器尺寸为3X3、池化通道数为64、滤波器步长为2，第二个卷积层的滤波器的尺寸为3X3、池化通道数为64，第三个卷积层的滤波器尺寸为3X3、池化通道数为128、滤波器步长为2，第四个卷积层的滤波器尺寸为3X3、池化通道数为128、滤波器步长为2；最大池化层的滤波器尺寸为3X3、滤波器步长为2；

目标检测的神经网络模型的前半段模型包括4个卷积层和3个池化层，经过4个卷积层和3个池化层处理后得到的图片长40、宽30、池化通道数为256；强化神经网络模块输出的图片信息和base network的前半段模型输出的40X30X256的图片信息拼接；

目标检测的神经网络模型的后半段模型中，首先经过3个卷积层和2个池化层处理得到20X15X256的图片信息，其次对20X15X256的图片信息分叉处理,上叉部分经过2个卷积层处理后得到20X15X18的图片信息，下叉部分经过1个卷积层的降采样处理，得到40X30X128的图片信息，40X30X128的图片信息拼接到base network前半段模型得到的40X30X256的图片信息，通过拼接操作，最后得到40X30X384的图片信息，再经过2个卷积层的处理后得到80X60X18的图片信息，即最终的图片信息，其中包含所有人头检测框。

2.根据权利要求1所述的方法，其特征在于，目标检测的神经网络模型为yolov3-tiny、一阶段的目标检测的神经网络模型、两阶段的目标检测的神经网络模型中的任意一种。