CN110991225A

CN110991225A - 基于多列卷积神经网络的人群计数与密度估计方法及装置

Info

Publication number: CN110991225A
Application number: CN201911005595.9A
Authority: CN
Inventors: 赵荣泳; 董大亨; 刘琼; 王妍; 李翠玲; 马云龙
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-04-10

Abstract

本发明涉及一种基于多列卷积神经网络的人群计数与密度估计方法及装置，所述方法包括以下步骤：将输入图像转换为像素矩阵；以所述像素矩阵作为多列卷积神经网络模型的输入，获得二维密度图矩阵；对所述二维密度图矩阵进行求和操作，获得输入图像的人群数量，并生成密度图图像；其中，所述多列卷积神经网络模型包括多个并行的、结构相同的卷积神经网络，各卷积神经网络的卷积核大小各不相同，各卷积神经网络的输出通过1×1的滤波器映射生成所述二维密度图矩阵。与现有技术相比，本发明具有精度高、方便实现人群计数定量分析等优点。

Description

基于多列卷积神经网络的人群计数与密度估计方法及装置

技术领域

本发明涉及一种人群计数方法及装置，尤其是涉及一种基于多列卷积神经网络的人群计数与密度估计方法及装置。

背景技术

人群密度是人群稳定性判定的一个重要指标，在一定程度上反映了人群稳定与否。因此，公共场所视频监控系统中人群密度的准确估计有着重要的现实意义，能够为预防人群过度拥挤和踩踏提供重要的技术支持。目前使用计算机视觉技术进行人群密度估计的方法主要分为三类，分别为像素估计法、检测估计法和纹理估计法。近年来，机器深度学习体系中的卷积神经网络更多地用于图像处理，采用多列卷积神经网络，引入空间金字塔池化，设置回归的学习目标，可明显改进人群密度估计的准确度。

到目前为止，基于卷积神经网络的人群密度估计，尚存在若干不足：1)现有的基于卷积神经网络的人群计数方法，在识别精度如绝对误差(MAE)和均方误差(MSE)上还有待提升。2)现有基于深度学习的方法仅生成图像的密度分布图，仅实现了人群密度的定性估计，尚未实现静态人群场景的定量估计。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种精度高的基于多列卷积神经网络的人群计数与密度估计方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种基于多列卷积神经网络的人群计数与密度估计方法，该方法包括以下步骤：

将输入图像转换为像素矩阵；

以所述像素矩阵作为多列卷积神经网络模型的输入，获得二维密度图矩阵；

对所述二维密度图矩阵进行求和操作，获得输入图像的人群数量，并生成密度图图像；

其中，所述多列卷积神经网络模型包括多个并行的、结构相同的卷积神经网络，各卷积神经网络的卷积核大小各不相同，各卷积神经网络的输出通过1×1的滤波器映射生成所述二维密度图矩阵。

进一步地，所述多列卷积神经网络模型中，对像素矩阵中的每个2×2区域采用步幅为2的最大池化层。

进一步地，所述多列卷积神经网络模型为四列卷积神经网络模型。

进一步地，所述卷积神经网络采用自调整线性单元作为激活函数。

进一步地，所述像素矩阵包括三个RGB通道。

进一步地，所述二维密度图矩阵中，每个人头部的位置用n×n的小数组表示。

进一步地，优化所述多列卷积神经网络模型时，采用的损失函数为：

其中，中F(X_i；ω)代表由多列卷积神经网络模型生成的估计密度图，F_i代表输入图像X_i的地面实况密度图，ω是模型参数，N是训练图像的数量。

本发明还提供一种基于多列卷积神经网络的人群计数与密度估计装置，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序执行如上述所述方法的步骤。

与现有技术相比，本发明具有如下有益效果：

1、对传统卷积神经网络模型进行了架构及参数的改进。

现有的卷积神经网络在解决图像处理问题时存在精度的限制，对于人群密度估计的研究最多采用三列CNN架构且在网络训练过程中有较大损失函数。本发明采用改进方法，增加列数调整参数，实现了精度的进一步提高。

2、采用人群密度图对人群数量和密度进行定量分析。

现有的人群密度估算技术不能获得图像中每个小网格区域的精确密度值，从而无法得知给定区域的确切人群数量，难以对人群进行有效的定量分析。本发明在卷积神经网络中输出密度图矩阵，通过求和积分的数学方法处理图像并获取有效数据。本专利对于精确计算人群拥挤程度，识别人群高风险区域边界，以及基于密度的稳定性预判的有一定的技术支持。

附图说明

图1为本发明实施例四列卷积神经网络架构图；

图2为人群计数和密度估计工作流程图；

图3为地面实况密度图和估计密度图的示例。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图2所示，本实施例提供一种基于多列卷积神经网络的人群计数与密度估计方法，该方法包括以下：

步骤S101，获取输入图像。

步骤S102，将输入图像转换为像素矩阵。

像素矩阵包括三个RGB通道(红色，绿色和蓝色)，数组中的数值范围为0到255，通过叠加不相等的RGB值来呈现不同的颜色。

步骤S103，以所述像素矩阵作为多列卷积神经网络模型的输入，获得二维密度图矩阵。

本实施例采用四列卷积神经网络模型，其结构如图1所示，包括四个并行的、结构相同的卷积神经网络，各卷积神经网络的卷积核大小各不相同，分别为7×7、5×5、3×3和1×1，各卷积神经网络的输出通过1×1的滤波器映射生成所述二维密度图矩阵，其中每个人头部的位置用n×n的小数组表示(n可定义为15)，其值满足高斯分布。在进行人群图片中人的标定时，得到的只是人的头部的位置坐标。想要进一步在人群密度图中以一个亮点代表一个人，需要将这个坐标进行高斯分布处理，这样坐标就变成了二维密度图矩阵中的一个小矩阵，在图形化展示时就是一个亮点，在本实施例中这个亮点用15×15的像素数组来表示。用高斯分布进行处理后的15×15矩阵的数值之和为1，这样在最后计算人群密度图中人数时可以直接进行求和运算。一个亮点代表一个人，而一个亮点所对应的数组数值之和为1，这样求和运算的结果正好是人群密度图中的人数。

为简化起见，除了滤波器的数量和大小，对所有列使用相同的网络结构，且将自调整线性单元(Rectified Linear Unit,ReLU)用作激活函数。为防止模型训练过程的过度拟合，对于图片所对应的像素矩阵中的每个2×2区域采用步幅为2的最大池化层(SpatialPyramid Pooling，SPP)。

多列卷积神经网络模型的优化是调整参数以最小化损失函数的过程。本实施例使用欧氏距离来定义估计密度图和地面实况密度图之间的差异，损失函数定义为等式(1)：

本实施例中，四列卷积神经网络模型通过已有的训练集Shanghaitech优化训练获得，该训练集Shanghaitech中包含了神经网络的输入和输出，分别为人群的图片以及图片所对应的二维密度图矩阵。

步骤S104，对所述二维密度图矩阵进行求和操作，即将矩阵中的所有数值进行相加求和，获得输入图像的人群数量，并使用python库matplotlib.pyplot中的imshow函数基于密度图矩阵生成密度图的图像。

本实施例四列卷积神经网络模型输出的人群密度图能够直观地反映人群的空间分布，也可以通过积分法计算给定网格区域中的人群数量，再结合实际区域大小以获得人群密度值。

用于高密度人群计数的常用数据集有Shanghaitech数据集和UCF_CC_50数据集。本实施例采用绝对误差(MAE)和均方误差(MSE)来评估本发明改进后的MCNN模型，它们被定义为等式(2)。

Shanghaitech数据集包含1198个带标注的图像，其中包括330,165个人。到目前为止，就标注人数而言，此数据集是最大的数据集。该数据集由两部分组成。Part_A包括从互联网上随机选取的482张图像，Part_B包括从上海大都市繁华街道拍摄的716张图像。Part_A和Part_B分为训练集和测试集：Part_A的300个图像用于训练，剩余的182个图像用于测试，Part_B的400个图像用于训练，316个用于测试。表1比较了不同人群计数方法的性能表现。以Part_A来看，现有方法的绝对误差平均值为198.4，均方误差平均值为273.9。而改进后的4C-CNN模型绝对误差降至107.4，均方误差降至166.3。以Part_B来看，现有方法的绝对误差在26.4到59.1之间，均方误差在41.3到81.7之间。而改进后的模型两个指标分别为22.5和36.5。表明改进后的四列卷积神经网络能够应用于人群计数和密度估计的研究，且在一定程度上实现了提高准确性的目标。图3是Shanghaitech数据集中实际密度图和估计密度图的两个示例。

表1 Shanghaitech数据集的结果比较

UCF_CC_50数据集包含从因特网获得的50个图像。人数从94到4543不等，每张图像平均有1280个人。表2比较了不同人群计数方法在UCF_CC_50数据集上的性能表现。现有方法的绝对误差平均值为429.2，均方误差平均值为516.4。而改进后的4C-CNN模型绝对误差降至359.5，均方误差降至482.3。

表2 UCF_CC_50数据集的结果比较

序号	方法	MAE	MSE
				1	Idrees et al.	419.5	541.6
2	DCNN	467.0	498.5
				3	Boominathan et al.	452.5	—
4	Zhang et al.	377.6	509.1
				5	4C-CNN	359.5	482.3

实施例2

本实施例提供一种基于多列卷积神经网络的人群计数与密度估计装置，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序执行如实施例1所述方法的步骤。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于多列卷积神经网络的人群计数与密度估计方法，其特征在于，该方法包括以下步骤：

将输入图像转换为像素矩阵；

2.根据权利要求1所述的基于多列卷积神经网络的人群计数与密度估计方法，其特征在于，所述多列卷积神经网络模型中，对像素矩阵中的每个2×2区域采用步幅为2的最大池化层。

3.根据权利要求1所述的基于多列卷积神经网络的人群计数与密度估计方法，其特征在于，所述多列卷积神经网络模型为四列卷积神经网络模型。

4.根据权利要求1所述的基于多列卷积神经网络的人群计数与密度估计方法，其特征在于，所述卷积神经网络采用自调整线性单元作为激活函数。

5.根据权利要求1所述的基于多列卷积神经网络的人群计数与密度估计方法，其特征在于，所述像素矩阵包括三个RGB通道。

6.根据权利要求1所述的基于多列卷积神经网络的人群计数与密度估计方法，其特征在于，所述二维密度图矩阵中，每个人头部的位置用n×n的小数组表示。

7.根据权利要求1所述的基于多列卷积神经网络的人群计数与密度估计方法，其特征在于，优化所述多列卷积神经网络模型时，采用的损失函数为：

8.一种基于多列卷积神经网络的人群计数与密度估计装置，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器调用所述计算机程序执行如权利要求1-7任一所述方法的步骤。