CN112668532A

CN112668532A - 基于多阶段混合注意网络的人群计数方法

Info

Publication number: CN112668532A
Application number: CN202110007377.XA
Authority: CN
Inventors: 桑军; 王富森; 刘新悦; 田绍礼; 乔鑫; 蔡斌; 夏晓峰
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-04-16
Anticipated expiration: 2041-01-05
Also published as: CN112668532B

Abstract

本发明涉及一种基于多阶段混合注意网络的人群计数方法，属于视觉处理领域。该方法包括：S1、对输入图像进行高斯模糊生成标签密度图并进行数据增强；S2、建模多阶段混合注意网络并初始化权重参数；S3、数据增强后的训练集人群图像输入到S2的网络中进行训练，并将输出密度图与标签密度图作欧几里德损失计算误差，通过误差反向传播更新网络参数直到训练结束并保存最优模型；S4、将测试集人群图像输入到最优模型中输出密度图并进行积分得到估计人数。

Description

基于多阶段混合注意网络的人群计数方法

技术领域

本发明属于视觉处理领域，涉及基于多阶段混合注意网络的人群计数方法。

背景技术

出现大型的聚集活动，例如学术会议、商场促销展、体育赛事、交通繁忙地区以及热门旅游景点，需要针对这些聚集地点统计人群数量，对人群密度进行估计。这样既可以统计活动到场人数，减少工作人员工作量；又可以针对人群数目，提前做好安全措施，防止出现拥挤踩踏事故。

传统的人群计数方法大多集中在基于检测的方法上，使用滑动窗口式的检测器来检测行人并计数。最经典的基于目标检测的人群计数模型是MSCNN，该模型的主要方法为：

(1)使用一组固定的滤波器在不同尺度特征图上提取特征；

(2)放大所提取的特征用于检测。随着活动场景人群数量的暴增、摄像头视野变大、复杂的背景噪声等问题，导致人群之间遮挡越来越严重，因此基于检测的方法不再适用于人群密集区域。

随着深度学习在计算机视觉领域的广泛应用，Zhang等人于2016年提出一种用于人群计数的多列卷积网络模型，并提出生成人群密度图作为监督数据训练网络的新方法，即采用自适应高斯核根据图像中每个人头的大小估计高斯核的大小。然而，复杂的背景噪声使得网络不能正确区分人头和噪声区域，这使得网络收敛很差，人群计数不准确。

为了解决树叶、建筑物等背景噪声问题，Gao等人提出了一种空间/通道级注意回归网络，其中空间注意模块和通道注意模块均采用类似No-local的手段建模全局尺度的上下文依赖，但这样显著增加了大量的计算量却没有带来明显的效果提升。因为，在考虑几乎等价的计算量的前提下，选择串联多个混合注意网络，可以更好地过滤背景噪声区域，带来显著的效果提升。

发明内容

有鉴于此，本发明的目的在于提供一种基于多阶段混合注意网络的人群计数方法。

为达到上述目的，本发明提供如下技术方案：

基于多阶段混合注意网络的人群计数方法，该方法包括以下步骤：

S1：利用人群数据集的标注信息生成标签密度图，并对其中的训练集进行数据增强；

S2：建模多阶段混合注意网络；

S3：初始化预训练模型及其它网络层参数；

S4：输入训练图像，输出预测密度图，并计算预测密度图和标签密度图的损失；

S5：选择优化算法最小化损失，进行误差反向传播更新网络参数；

S6：每训练一次，就在测试集上通过评价指标验证模型计数性能；

S7：迭代训练至一定次数，并保存结果最优模型；

S8：将测试集图片输入S7保存的最优性能模型，输出预测密度图并进行积分获得估计人数。

可选的，所述S1具体为：利用高斯核函数对人群数据集的位置级注释进行高斯模糊，生成标签密度图作为监督数据，并对训练集进行数据增强，以此来增加训练样本，提升模型的泛化能力；

S11：采用大小为4的固定高斯核生成标签密度图，由于网络输出分辨率为原图的1/8，使用双线性插值对标签密度图进行8倍下采样；

S12：对训练集人群图像进行标准化和归一化，三通道均值和方差分别为(0.4108,0.3706,0.3596)和(0.2785,0.2692,0.2715)；

S13：对训练人群图像进行随机裁剪，由于Shanghai Tech A和UCF-CC-50数据集尺寸大一不一致，随机裁剪4个大小为128X128的图像patch，对于Shanghai Tech B和UCF-QNRF尺寸一致的数据集随即裁剪4个大小为500X500的图像patch；

S14：对训练数据进行概率值为0.5的随机翻转以增加样本的多样性；

S15：对训练数据进行概率值为0.2的随机噪声以增强模型的鲁棒性。

可选的，所述S2具体为：建模多阶段混合注意网络，包括特征提取模块、多个混合注意模块和密度图回归模块，具体方式如下：

S21：由于在ImageNet上预训练的VGG16-BN模型具有良好的迁移学习能力，因此采用VGG16-BN的前10层作为特征提取模块；

S22：混合注意模块由空间注意模块和通道注意模块并联组成；

S23：建模空间注意模块，具体方式为，步骤S21提取的512通道数特征X₀经过一个3X3通道数为256的卷积核，后接入批处理归一化BN和激活函数ReLU得到特征X₁，将X₁通过一个1X1大小通道数为1的卷积核进行通道降维，再经过Sigmoid激活层得到一张与X₁相同宽、高的单通道权重图weight map1，最后将输入特征X₀和weight map进行点乘操作得到空间注意模块的输出；

S24：建模通道注意模块，包括两个分支，分支一，将步骤S21输出的512通道数特征X₀经过一个1X1大小通道数为256的卷积核进行通道降维，然后再通过一个全局平均池化层，得到维度为1X1X256的特征块，后紧接维度为128的全连接层F1、批处理归一化BN、激活函数ReLU、维度为256的全连接层F2，以此来充分学习跨通道间的相关性依赖，之后经过Sigmoid激活层得到一个1X1X256的空间权重图weight map2，分支二，将X₀经过一个3X3通道数为256的卷积核，后接入批处理归一化BN和激活函数ReLU得到特征X₂，最后将分支二输出X₂与weight map2进行点成得到通道注意模块的输出；

S25：将步骤S23和步骤S24的输出使用Concat操作在通道维度进行拼接，得到通道为512的特征；

S26：串联多个步骤S22的混合注意模块，通过实验验证，发现3个混合注意模块的组合结果最优；

S27：建模密度图回归模块，包括2个大小为3X3通道数分别的128，64的卷积层，以及一个大小为1X1通道数为1的卷积层，最后将步骤S26输出的特征输入到这三个卷积层中即得到最终的预测密度图。

可选的，所述S3具体为：步骤S21中的VGG-BN前10层采用在ImageNet上的预训练参数，并在后续的训练中参数微调，其余层参数均采用正态分布初始化，其中，μ＝0，σ＝0.01。

可选的，所述S4具体为：将步骤S1数据增强后的数据样本输入网络，得到预测密度图，再将预测密度图和对应的标签密度图作欧几里德损失实现误差反向传播以更新网络参数，公式如下：

其中，N代表输入网络的图片批处理大小，

表示图片X_i的标签密度图，G(X_i；θ)表示图片X_i的带参数的预测密度图，实验中N＝32。

可选的，所述S5具体为：利用SGD优化算法最小化L_MSE损失，对模型进行梯度下降以更新参数。

可选的，所述S6具体为：每训练一次，就通过评价指标MAE和MSE测试模型性能，公式如下：

其中

表示图片X_i的真实人数，C_i表示图片X_i的预测人数。

可选的，所述S7具体为：迭代训练S4和S5，直至2000次并保存最优模型。

可选的，所述S8具体为：将测试集图片输入S7步骤中的最优模型中，输出预测密度图并进行积分获得估计人数。

本发明的有益效果在于：本发明提出了基于多阶段混合注意网络的方案，前端的预训练模型VGG16-BN用于提出丰富的特征信息；同时将该信息输入到由空间注意机制和通道注意机制组成的混合注意模块中，过滤复杂的纹理背景噪声；在考虑计算量和服务器资源消耗的情况下，通过实验验证，串联多个混合注意模块可以带来更准确的计数提升，尤其是在Shanghai PartA数据集上的MAE评价指标已经下降到54.6，优于目前最准确的结果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于多阶段混合注意网络的人群计数方法的流程图；

图2为基于多阶段混合注意网络的人群计数方法的网络结构图；

图3为空间注意模块SAM的网络结构图；

图4为通道注意模块CAM的网络结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，本发明为解决现有技术在不同人群场景下的复杂纹理背景给人群准确计数带来的困难，提出一种基于多阶段混合注意网络的人群计数方法。主要包括以下步骤：

S2：建模多阶段混合注意网络；

S3：初始化预训练模型及其它网络层参数；

S7：迭代训练至一定次数，并保存结果最优模型；

S8：将测试集图片输入S7保存的最优性能模型，输出预测密度图并进行积分获得估计人数；

S1：利用高斯核函数对人群数据集的位置级注释进行高斯模糊，生成标签密度图作为监督数据，并对训练集进行数据增强，以此来增加训练样本，提升模型的泛化能力；

S11：实验证明，固定高斯核比自适应高斯核具有更好的效果，因此采用大小为4的固定高斯核生成标签密度图，由于网络输出分辨率为原图的1/8，使用双线性插值对标签密度图进行8倍下采样；

S15：对训练数据进行概率值为0.2的随机噪声以增强模型的鲁棒性；

S2：建模多阶段混合注意网络，包括特征提取模块、多个混合注意模块、密度图回归模块，具体方式如下：

S22：混合注意模块由空间注意模块(SAM)和通道注意模块(CAM)并联组成；

S23：建模空间注意模块(SAM)，具体方式为，步骤S21提取的512通道数特征X₀经过一个3X3通道数为256的卷积核，后接入批处理归一化BN和激活函数ReLU得到特征X₁，将X₁通过一个1X1大小通道数为1的卷积核进行通道降维，再经过Sigmoid激活层得到一张与X₁相同宽、高的单通道权重图weight map1，最后将输入特征X₀和weight map进行点乘操作得到空间注意模块的输出；

S24：建模通道注意模块，包括两个分支，分支一，将步骤S21输出的512通道数特征X₀经过一个1X1大小通道数为256的卷积核进行通道降维，然后再通过一个全局平均池化层(GAP)，得到维度为1X1X256的特征块，后紧接维度为128的全连接层F1、批处理归一化BN、激活函数ReLU、维度为256的全连接层F2，以此来充分学习跨通道间的相关性依赖，之后经过Sigmoid激活层得到一个1X1X256的空间权重图weight map2，分支二，将X₀经过一个3X3通道数为256的卷积核，后接入批处理归一化BN和激活函数ReLU得到特征X₂，最后将分支二输出X₂与weight map2进行点成得到通道注意模块的输出；

S27：建模密度图回归模块，包括2个大小为3X3通道数分别的128，64的卷积层，以及一个大小为1X1通道数为1的卷积层，最后将步骤S26输出的特征输入到这三个卷积层中即得到最终的预测密度图；

S3：步骤S21中的VGG-BN前10层采用在ImageNet上的预训练参数，并在后续的训练中参数微调，其余层参数均采用正态分布初始化，其中，μ＝0，σ＝0.01；

S4：将步骤S1数据增强后的数据样本输入网络，得到预测密度图，再将预测密度图和对应的标签密度图作欧几里德损失(MSELoss)实现误差反向传播以更新网络参数，公式如下：

其中，N代表输入网络的图片批处理大小(Batch Size)，

表示图片X_i的标签密度图，G(X_i；θ)表示图片X_i的带参数的预测密度图，实验中N＝32；

S5：利用SGD优化算法最小化L_MSE损失，对模型进行梯度下降以更新参数；

S6：每训练一次，就通过评价指标MAE和MSE测试模型性能，公式如下：

其中

表示图片X_i的真实人数，C_i表示图片X_i的预测人数；

S7：迭代训练S4，S5至2000次并保存最优模型；

S8：将测试集图片输入S7步骤中的最优模型中，输出预测密度图并进行积分获得估计人数。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于多阶段混合注意网络的人群计数方法，其特征在于：该方法包括以下步骤：

S2：建模多阶段混合注意网络；

S3：初始化预训练模型及其它网络层参数；

S7：迭代训练至一定次数，并保存结果最优模型；

2.根据权利要求1所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S1具体为：利用高斯核函数对人群数据集的位置级注释进行高斯模糊，生成标签密度图作为监督数据，并对训练集进行数据增强，以此来增加训练样本，提升模型的泛化能力；

S13：对训练人群图像进行随机裁剪，由于Shanghai TechA和UCF-CC-50数据集尺寸大一不一致，随机裁剪4个大小为128X128的图像patch，对于Shanghai Tech B和UCF-QNRF尺寸一致的数据集随即裁剪4个大小为500X500的图像patch；

3.根据权利要求2所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S2具体为：建模多阶段混合注意网络，包括特征提取模块、多个混合注意模块和密度图回归模块，具体方式如下：

S23：建模空间注意模块，具体方式为，步骤S21提取的512通道数特征X₀经过一个3X3通道数为256的卷积核，后接入批处理归一化BN和激活函数ReLU得到特征X₁，将X₁通过一个1X1大小通道数为1的卷积核进行通道降维，再经过Sigmoid激活层得到一张与X₁相同宽、高的单通道权重图weightmap1，最后将输入特征X₀和weightmap1进行点乘操作得到空间注意模块的输出；

S24：建模通道注意模块，包括两个分支，分支一，将步骤S21输出的512通道数特征X₀经过一个1X1大小通道数为256的卷积核进行通道降维，然后再通过一个全局平均池化层，得到维度为1X1X256的特征块，后紧接维度为128的全连接层F1、批处理归一化BN、激活函数ReLU、维度为256的全连接层F2，以此来充分学习跨通道间的相关性依赖，之后经过Sigmoid激活层得到一个1X1X256的空间权重图weightmap2，分支二，将X₀经过一个3X3通道数为256的卷积核，后接入批处理归一化BN和激活函数ReLU得到特征X₂，最后将分支二输出X₂与weightmap2进行点成得到通道注意模块的输出；

4.根据权利要求3所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S3具体为：步骤S21中的VGG-BN前10层采用在ImageNet上的预训练参数，并在后续的训练中参数微调，其余层参数均采用正态分布初始化，其中，μ＝0，σ＝0.01。

5.根据权利要求4所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S4具体为：将步骤S1数据增强后的数据样本输入网络，得到预测密度图，再将预测密度图和对应的标签密度图作欧几里德损失实现误差反向传播以更新网络参数，公式如下：

其中，N代表输入网络的图片批处理大小，

6.根据权利要求5所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S5具体为：利用SGD优化算法最小化L_MSE损失，对模型进行梯度下降以更新参数。

7.根据权利要求6所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S6具体为：每训练一次，就通过评价指标MAE和MSE测试模型性能，公式如下：

其中

表示图片X_i的真实人数，C_i表示图片X_i的预测人数。

8.根据权利要求7所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S7具体为：迭代训练S4和S5，直至2000次并保存最优模型。

9.根据权利要求8所述的基于多阶段混合注意网络的人群计数方法，其特征在于：所述S8具体为：将测试集图片输入S7步骤中的最优模型中，输出预测密度图并进行积分获得估计人数。