CN115830537A

CN115830537A - 一种人群计数方法

Info

Publication number: CN115830537A
Application number: CN202211513518.6A
Authority: CN
Inventors: 陈江川; 吴云韬; 陈希彤; 刘雨虹
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-21

Abstract

本发明公开了一种人群计数方法，方法包括以下步骤：获取人群计数数据集，对数据集中的人群图像进行预处理，得到预处理结果；构建基于CBAM‑Res2Net的人群计数网络，该网络分为前端网络、CBAM‑Res2Net模块以及后端网络3个部分；初始化人群计数网络的权重；使用预处理结果对构建的网络进行训练；对训练后的网络模型进行测试，将网络模型的输出结果与标签密度图进行对比，并根据评价指标对模型性能进行评估，得到训练完成的人群计数网络；利用训练完成的人群计数网络进行人群计数。本发明有益效果是：人群计数网络结构简单，训练方便，且提高了人群计数的精度与速度。

Description

一种人群计数方法

技术领域

本发明涉及图像计数领域，尤其涉及一种人群计数方法。

背景技术

人群计数是近年来计算机视觉领域中的一个热门研究领域，其目的是通过计算机对输入图像的处理来估计图像中的人数。随着城市化的进程以及世界人口的不断增长，在火车站、体育场、音乐会和游行等许多场景中，可能会出现大量人群快速聚集的情况。而人群计数能够针对这些特定场景下的人群目标数量进行估计，做到对重大事件的事先警告以及在事后复盘中发挥积极作用。此外，人群计数方法也能够辅助实现实时估计场景人数，进而对各个场景中人数进行有效的管控，减少人群的聚集。

在早期的人群计数中，大多使用基于检测的方法，这些方法通常通过一个滑动窗口在图像上对人或头部进行检测。然而其准确性和模型性能却极容易受到目标尺度大小不一、目标间重叠、背景干扰、图像分辨率低等因素的影响。为了改善这些问题，Chen等提出了基于回归的方法。该方法直接学习从图像到计数的映射，虽然从整体上来说提升了计数的性能，然而回归的计数方法依旧忽视了图像中的空间信息，仅仅只得到一个最终的计数结果，因此缺乏可靠性和解释性。

近年来，卷积神经网络(convolutional neural networks,CNN)发展迅速，相较于传统技术来说，使用深度学习技术的算法往往能够获得更好的性能，并且具有更强的泛化能力。因此，越来越多的基于CNN的方法被应用于人群计数领域。不同于传统方法需要手工制作特征，基于CNN的方法对于输入的人群图像自动的提取特征，并在末端通过一个卷积核大小为1×1的输出层生成包含人群数量信息和位置信息的密度图。

针对人群计数中的尺度变化问题，Zhang等提出了一种多列卷积神经网络(multi-column CNN,MCNN)，每一列使用不同大小的卷积核，这种结构在一定程度上缓解了计数目标尺寸大小不一致的问题。Cao等提出了一种尺度聚合网络(scale aggregation network,SANet)，不同于MCNN，该网络采用分层的方式提取多尺度特征，以进行后续处理。虽然多列卷积神经网络相较于传统算法拥有了更好的性能和泛化能力，但由于其多列的特性导致网络结构冗余，模型参数繁多、训练困难，因此为了克服这些问题，越来越多新型的CNN结构被引入到人群计数领域。Li等提出了一种空洞卷积神经网络模型(network for congestedscene recognition,CSRNet)，采用空洞卷积神经网络，在保持分辨率的同时扩大感受野，保留了更多的图像细节信息。Liu等提出了一种融合注意力机制的可形变卷积网络(attention-injective deformable convolutional network for crowdunderstanding,ADCrowdNet)，该网络的注意力生成器(attention map generator,AMG)可以过滤掉复杂背景等无关信息，使得后续模型只关注人群区域。

发明内容

为了针对现有人群计数网络模型结构冗余、参数繁多，训练困难的问题，本发明提供一种人群计数方法，方法包括以下步骤：

S1、获取人群计数数据集，对数据集中的人群图像进行预处理，根据人群标注生成对应的标签密度图；

S2、构建基于CBAM-Res2Net的人群计数网络，该网络分为前端网络、CBAM-Res2Net模块以及后端网络3个部分，整个网络的输入为一幅人群图像，输出为对应的人群密度图；

S3、初始化人群计数网络的权重；

S4、使用S1预处理过的人群图像以及标签密度图对步骤S2构建的网络进行训练；

S5、对步骤S4训练后的网络模型进行测试，将网络模型的输出结果与标签密度图进行对比，并根据评价指标对模型性能进行评估，得到训练完成的人群计数网络；

S6、利用训练完成的人群计数网络进行人群计数。

本发明提供的有益效果是：人群计数网络结构简单，训练方便，且提高了人群计数的精度与速度。

附图说明

图1是本发明基于CBAM-Res2Net的人群计数方法的流程图；

图2是本发明基于CBAM-Res2Net的人群计数方法的网络结构图；

图3是卷积注意力模块CBAM的结构图；

图4是多尺度特征提取模块Res2Net的结构图；

图5是本发明提出的CBAM-Res2Net模块的结构图；

图6是本发明根据输入图片生成的人群估计密度图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明方法流程图。本发明提供了一种人群计数方法，包括以下步骤：

作为一种实施例，本发明使用了ShanghaiTech数据集和UCF_CC_50数据集，ShanghaiTech数据集中共有1198张图片并根据人群密度等级分为了A、B两个部分。其中Part A包含482张人数从33到3193人不等的图像，平均人数为501人，训练集和测试集分别包含了300和182张图像。Part B中包含了716张人数范围为9到578人的图片，平均人数为124人，训练集和测试集分别包含了400和316张图像。数据集的总共标记人数达到了330165人。UCF_CC_50数据集中共有50张图片，其中场景包括火车站、大型游行、演唱会等大量人群聚集的场合。每张图片包含的人数从94到4543人不等，数据集的总共标记人数达到了63974人，平均每张图片标记的人数为1280人。

根据各数据集中的人群标注生成标签密度图，具体生成方式如下：

其中，N为整幅图像的总人数，x表示整幅图像的像素点坐标，x_i表示图像中第i个人头的坐标，δ(x-x_i)表示冲激函数。将高斯核函数G(x)与其进行卷积可得密度图函数F(x)，

为每个人的头部与其相邻的k个人之间的平均距离，β设置为0.3。

对数据集中的人群图像与标签密度图进行数据增强工作，即在不同的位置将图像随机裁剪为原始大小的四分之一，并对裁剪后的图片进行镜像翻转，以达到扩充数据集的目的。

S2、构建基于CBAM-Res2Net的人群计数网络，该网络整体架构如图2所示，分为前端网络、CBAM-Res2Net模块以及后端网络3个部分，整个网络的输入为一幅人群图像，输出为对应的人群密度图；

需要说明的是，步骤S2中，所述人群计数网络的具体结构如下：

所述前端网络由VGG16网络的前n层组成，n为预设值；作为一种实施例，本发明中，n取值为10；前端网络用于对输入图像的初步特征提取；

所述CBAM-Res2Net模块由注意力模块和多尺度特征提取模块组成；其中注意力模块添加在多尺度特征模块的残差连接之前；

需要说明的是，本发明引入卷积注意力模块CBAM以解决背景噪声干扰等问题，如图3所示，该模块分为通道注意力模块和空间注意力模块两个部分,通道注意力模块通过学习特征间的通道关系生成通道注意图，空间注意力模块通过学习特征间的空间关系生成空间注意力图，根据通道和空间注意力图对特征进行调整，以达到提高特征图中人群区域权重的目的。

需要说明的是，本发明采用多尺度特征提取模块Res2Net解决人群图像拍摄角度差异大，目标尺度变化不均匀等问题，它通过卷积分组的方式以更细的粒度提取多尺度特征。如图4所示，在通过1×1卷积之后，将输入特征均匀地分割为s个特征子集，并用x_i表示，其中i∈{1,2,…,s}。每个特征子集x_i都具有相同的空间大小。除了x₁以外每个x_i都有与之相对应的3×3卷积，用K_i来表示，并将其输出表示为y_i。y_i的定义公式如下：

在Res2Net模块中，使用了一个新的控制参数“规模”，用s来表示，更大的s能使模型拥有更大的感受野。图4中s设定为4，在本方法模型中s设定为8。为了减少模型的参数量，省略了第一次分割后的卷积，这也是特征重用的一种形式。假设输入输出特征的通道数分别为I_c和O_c，对于残差块，其参数量为3×3×I_c×O_c，即9×I_c×O_c，对于Res2Net模块，其参数量为(s-1)×9×(I_c/s)×(O_c/s)，显然Res2Net模块具有更少的参数量。

具体来说，本发明设计的CBAM-Res2Net模块如图5所示，将CBAM模块添加在了Res2Net模块的残差连接之前，1×1卷积之后，在Res2Net模块中集成CBAM模块，能够使CBAM模块的优势更加突出，即在残差单元内部实现在空间域和通道域上对原始特征的重标定，完成特征调整。

所述后端网络采用扩张模块，并将其最后一层卷积层的卷积核大小替换为1×1。具体说，将扩张模块的空洞率设置为2，并将最后一层卷积层的卷积核大小由3×3修改为1×1，用来输出预测密度图。

S3、初始化人群计数网络的权重；

对人群计数网络的前端部分使用在分类数据集中预训练的参数作为初始值，其它部分使用均值为0，方差为预设值的正态分布进行初始化；本发明实施例中，方差预设为0.01。

训练使用的损失函数为：

M是一次训练图片的总数量，X_i为第i张训练图片，D(X_i；θ)为第i张图片的预测密度图，其中i∈[1,N]，θ为网络模型参数，

为第i张训练图片的真实密度图。在模型的训练过程中，对于图像尺寸大小不一致的数据集使用批量大小为1的SGD优化器进行训练，对于图像尺寸固定的数据集使用批量大小为8的Adam优化器进行模型优化，初始学习率为0.0001，训练600个epoch，批量大小设置为8。

将网络模型的输出结果与标签密度图进行对比，并选取平均绝对误差(meanabsolute error,MAE)和均方根误差(root mean square error,RMSE)作为评价指标，MAE通常用来评估人数估计的准确性，其值越小也就表明该算法的准确性越好，而RMSE通常用来量度算法的鲁棒性，其值越小也就表明该算法的鲁棒性越好。MAE和RMSE的定义公式如下：

其中，C_i和

分别为第i张图像中的预测人数和真实人数。

S6、利用训练完成的人群计数网络进行人群计数。

作为一种实施例，本发明使用MAE和RMSE两项指标在ShanghaiTech数据集上测试本申请的方法。结果如表1所示。

表1ShanghaiTech数据集各人群计数网络结果评价示意图

从表1可以看出，与现有算法相比，本方法在Part B上的性能指标MAE与RMSE均取得了最优的结果。而在Part A部分，本方法在RMSE的表现上仅次于ASD，在MAE的表现上取得了最优。

使用MAE和RMSE两项指标在UCF_CC_50数据集上测试本申请的方法。结果如表2所示。

表2UCF_CC_50数据集各人群计数网络结果评价示意图

方法	MAE	RMSE
			MCNN	337.6	509.1
Switch-CNN<sup>[20]</sup>	318.1	439.2
			CP-CNN	295.8	320.9
CSRNet	266.1	397.5
			ADCrowdNet	257.1	363.5
PACNN	267.9	357.8
			本方法	255.6	310.2

由表可见，即使在这种人群密度变化大、人头模糊、背景复杂的数据集上，本方法的性能依然优于其它算法。

为了能够直观的展示本方法的预测效果，本节列出了部分在不同数据集上生成的预测密度图的可视化结果，真实密度图和预测密度图的计数结果均标注在图片右下角，如图6所示，其中第一行和第二行为ShanghaiTech数据集Part B中的测试图像，第三行和第四行为ShanghaiTech数据集Part A中的测试图像，第五行和第六行为UCF_CC_50数据集的测试图像，a、b、c三列分别为人群图像、真实密度图和预测密度图。由以下结果可知，本方法模型能够有效的学习人群图像和人群密度图之间的映射关系。

综合来看，本发明的有益效果是：人群计数网络结构简单，训练方便，且提高了人群计数的精度与速度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人群计数方法，其特征在于：包括以下步骤：

S3、初始化人群计数网络的权重；

S6、利用训练完成的人群计数网络进行人群计数。

2.如权利要求1所述的一种一种人群计数方法，其特征在于：步骤S1中所述预处理过程具体如下：

S11：根据人群标注生成标签密度图，具体生成方式如下：

其中，N为整幅图像的总人数，x表示整幅图像的像素点坐标，x_i表示图像中第i个人头的坐标，δ(x-x_i)表示冲激函数；将高斯核函数G(x)与其进行卷积得到密度图函数F(x)，

为每个人的头部与其相邻的k个人之间的平均距离，β为处于(0,1]之间的预设参数；

S12：对人群数据集中的人群图像与标签密度图进行数据增强工作，将在不同的位置将图像随机裁剪为原始大小的四分之一，并对裁剪后的图片进行镜像翻转，扩充人群计数数据集。

3.如权利要求1所述的一种人群计数方法，其特征在于：步骤S2中，所述人群计数网络的具体结构如下：

所述前端网络由VGG16网络的前n层组成，n为预设值；

所述后端网络采用扩张模块，并将其最后一层卷积层的卷积核大小替换为1×1。

4.如权利要求1所述的一种人群计数方法，其特征在于：步骤S3中初始化人群计数网络的权重，具体过程为：对人群计数网络的前端部分使用在分类数据集中预训练的参数作为初始值，其它部分使用均值为0，方差为预设值的正态分布进行初始化。

5.如权利要求1所述的一种人群计数方法，其特征在于：步骤S4中对人群计数网络训练时，其损失函数为：

为第i张训练图片的真实密度图。

6.如权利要求1所述的一种人群计数方法，其特征在于：在模型的训练过程中，对于图像尺寸大小不一致的数据集使用SGD优化器进行训练，对于图像尺寸固定的数据集使用Adam优化器进行模型优化。

7.如权利要求1所述的一种人群计数方法，其特征在于：步骤S5中：将测试集输入到上述训练好的人群计数网络中，根据评价指标平均绝对误差和均方根误差来评估人群计数网络的准确性和鲁棒性。