CN116311091A

CN116311091A - 一种基于金字塔密度感知注意力网络的车辆计数方法

Info

Publication number: CN116311091A
Application number: CN202310061809.4A
Authority: CN
Inventors: 王玉; 刘明生; 谢云驰; 谭政宇; 季存羽
Original assignee: Jiangxi Traffic Monitoring Command Center
Current assignee: Jiangxi Traffic Monitoring Command Center
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-06-23

Abstract

本发明公开了一种基于金字塔密度感知注意力网络的车辆计数方法，其对获取的车辆图像预处理，划分出训练集和测试集，再利用标注信息生成对应的地面真实密度图；采用上下文感知金字塔模块和金字塔分割注意力模块，构建金字塔密度感知注意力网络；将训练集中的车辆图像和对应的地面真实密度图输入金字塔密度感知注意力网络，进行前向传播，再计算输出的车辆估计密度图与相对应的地面真实密度图之间的损失，更新金字塔密度感知注意力网络的参数，获得优化后的金字塔密度感知注意力网络。本发明能够处理不同图像之间以及每个输入场景内的尺度变化，提高多尺度表示能力，减少对背景信息的错误估计，提高了拥挤场景下车辆目标的计数精度。

Description

一种基于金字塔密度感知注意力网络的车辆计数方法

技术领域

本发明涉及计算机视觉中图像处理技术领域，特别涉及一种基于金字塔密度感知注意力网络的车辆计数方法。

背景技术

随着我国高速公路里程数和民用汽车保有量的不断增加，高速公路交通堵塞的状况也在各个城市中频发，给城市环境及居民出行安全带来了隐患。因此，对高速公路拥堵状态的检测逐渐成为了交通领域的研究热点。实时、准确地计算出监控路段的车辆数量，并直观呈现车辆的空间密度分布对交通控制、路径诱导以及提升出行效率具有重要意义。

车辆拥堵检测是智能交通系统重要的研究方向，传统方法主要用地感线圈、微波检测器或雷达等方法进行车流统计，当检测路段的车辆数量超过阈值时则认为该路段出现拥堵，并发出告警，但在实际应用中，这些检车仪器的安装较为稀疏且一些车检器已经失去工作能力，导致获取到的数据不完备或存在异常，使得交通拥堵状态的实时、准确判别精度大大降低。

近年来，随着计算机视觉技术在交通领域的应用，基于深度学习的车辆目标检测模型的检测精度有了很大提升，这类模型用到的典型目标检测算法，包括FasterR-CNN算法、YOLOv2算法和YOLOv3算法等。这些基于深度学习的目标检测算法，虽然让车辆的检测精度得到了大幅度提高，但是这类算法也只能适用于车辆比较稀疏的场景。在车辆高度拥挤的场景下，车辆遮挡严重、尺度剧烈变化，不清晰等现状会导致模型很难准确地检测到车辆，从而影响车辆目标计数的准确性。

受深度学习技术在解决计算机视觉问题中获得巨大成功的启发，拥挤场景下车辆计数的问题逐渐采用基于密度估计的方法来解决，通过抽取视频帧的特征作为回归，不仅可以准确地统计出视频帧的车辆数目，还能定性呈现出车辆的空间密度分布，例如FCN-rLSTM算法和CSRNet算法。然而，这些以深度学习为驱动的密度估计方法偏向于以人群计数为目标对象，使用密集人群计数数据集训练模型，有的只是把车辆计数数据集作为目标应用程序的推广验证，鲜有专门进行车辆密度估计的模型。此外，这些方法不加选择地融合所有尺度的信息，忽略了图像尺度变化的连续性，再加上没有对注意力特征信息进行编码，或是无法建立远程通道依赖关系，使得这些计数网络很容易将背景信息错误地预测为目标区域。

发明内容

针对上述现有技术存在的缺陷，本发明提供了一种基于金字塔密度感知注意力网络的车辆计数方法，可以有效解决密集场景下车辆遮挡严重和尺度剧烈变化的问题，实现密集场景下准确的车辆统计。

本发明采取的技术方案如下。

一种基于金字塔密度感知注意力网络的车辆计数方法，包括以下步骤：

S1：针对密集场景下车辆图像数据的特点，对获取的车辆图像预处理，划分出训练集和测试集，再利用标注信息生成对应的地面真实密度图；

S2：采用上下文感知金字塔模块和金字塔分割注意力模块，构建金字塔密度感知注意力网络；

S3：将步骤S1得到的训练集中的车辆图像和对应的地面真实密度图输入金字塔密度感知注意力网络，进行前向传播，再计算前向传播输出的车辆估计密度图与输入金字塔密度感知注意力网络相对应的地面真实密度图之间的损失，更新金字塔密度感知注意力网络的参数，设定迭代的最大次数，获得优化后的金字塔密度感知注意力网络；

S4：将步骤S1划分的测试集中的车辆图像，输入到步骤S3获得的优化后的金字塔密度感知注意力网络进行预测，得到车辆估计密度图，再对车辆估计密度图逐像素积分求和计算，实现输入图片中车辆数量的估计，评价网络预测效果。

进一步地，所述步骤S1具体包括：

S11：标注车辆图像，如果像素x_i标记为车辆中心位置，对于存在N个被标记的车辆的图像H(x)，表示为：

其中，x代表车辆图像中像素的位置，x_i表示第i个被标记的车辆的标注点所在的像素位置，δ(x-x_i)为增量函数，N为车辆图像中被标记的车辆的总数；

S12：对于带有标注的车辆图像，利用基于高斯核卷积生成方法，得到对应的地面真实密度图，具体方法为：

其中，

代表几何自适应高斯卷积核，超参数β表示标准偏差σ_i和/>

之间的比例系数，/>

代表车辆图像中第i个被标记的车辆距离其k辆近邻车辆标注点的平均欧式距离；

S13：根据上述地面真实密度图的生成方法，建立与车辆图像数据的训练集和测试集对应的地面真实密度图的训练集和测试集。

进一步地，所述步骤S12中标准偏差σ_i的计算，本发明设置超参数β为0.3，k为3。

进一步地，所述步骤S2具体包括：

S21：选取去除全连接层的VGG-16的前十层构建前端特征提取网络，用于提取输入的车辆图像的浅层特征，获得浅层特征图；

S22：构建上下文感知金字塔模块，该模块包括一个输入层、四个并行的分支结构和一个输出层，其中四个并行的分支结构由大小不同的平均池化层、核大小为1×1的卷积层和上采样组成，四个并行的分支结构用于提取丰富的多尺度特征，增强对尺度变化的鲁棒性，之后，将构建好的上下文感知金字塔模块添加到前端特征提取网络的后面；

S23：构建金字塔分割注意力模块，该模块包括一个输入层、一个分离和拼接模块，一个通道注意力模块和一个输出层，其中分离和拼接模块可以实现在更细粒度的水平上有效提取多尺度空间信息，通道注意力模块可以帮助模型建立远程通道依赖关系，之后，将构建好的金字塔分割注意力模块添加到上下文感知金字塔模块的后面；

S24：选取6层空洞率为2的空洞卷积层和1层卷积核尺寸为1×1的普通卷积层构建后端网络，添加到金字塔分割注意力模块的后面，用于获取车辆估计密度图。

进一步地，所述步骤S21构建的前端特征提取网络，采用的是预先训练好的VGG-16的前十个卷积层，因为它具有较强的迁移学习能力。

进一步地，所述步骤S22构建的上下文感知金字塔模块，通过利用四个并行分支的平均池化，将步骤S21提取的浅层特征划分为四个大小不同的块，对应的块大小为b(j)∈(1,3,5,7)，并对四个分支的感受野进行精细区分，以获得具有不同尺度特征的特征图，这些具有不同尺度特征的特征图再通过上采样操作恢复到和步骤S21提取的浅层特征图一样的大小，然后将它们融合在一起。融合后得到的特征图再与步骤S21获得的浅层特征图相结合，从而得到具有多尺度的上下文特征的特征图，并将其送入金字塔分割注意力模块。

进一步地，所述步骤S23构建的金字塔分割注意力模块，通过分离和拼接模块将步骤S22获得的具有多尺度的上下文特征的特征图从通道上分成g组，表示为[A₁,A₂,…,A_g]，分割的每一组都有相同的通道数C_a＝C/g，其中C为通道维度，即步骤S22获得的具有多尺度的上下文特征的特征图所具有的通道数量，每一组通道再通过不同尺寸的核卷积获取不同尺度的感受野，以提取通道方向不同尺度的特征信息，本发明设置g＝4，每组对应的卷积核大小为

进一步地，所述每组对应的卷积核大小为

考虑到当卷积核的大小比较大时，计算量也大，因此，对分割的每一组通道再进行分组卷积，具体的分组数量为/>

经过卷积核大小为/>

的不同卷积后，再在通道维度上进行拼接，得到拼接后的特征图E，以获得通道方向的多尺度特征映射，在更细粒度的水平上有效提取多尺度空间信息。

进一步地，所述步骤S23要建立远程通道依赖关系具体为，拼接后的特征图E又通过通道注意力模块生成不同尺度特征图的注意力，得到通道方向的注意力向量，再使用Softmax激活函数对通道方向的注意力向量进行重新校准，得到多尺度通道的重新校准权重，最后将逐元素乘积运算应用于重新校准的权重和对应的特征图E中，充分提取通道注意向量中的多尺度空间信息和跨通道的交互信息，输出精细化特征图U。

进一步地，所述步骤S24构建的后端网络采用的是2D空洞卷积层，其定义为：

其中，ρ(l,m)表示2D空洞卷积层中第l行和第m列位置处对应的输入数据，L表示2D空洞卷积层的长度，M表示2D空洞卷积层的宽度，r为空洞率，q的范围为1～L，代表第q行，f的范围为1～M，代表第f列，F^y(l,m)为滤波器τ(q,f)和输入ρ(l,m)进行空洞卷积的输出。

进一步地，所述步骤S3生成车辆估计密度图的具体方式为：

S31：将训练集中的车辆图像输入到不包含全连接层的前端特征提取网络，提取浅层特征，获得具有浅层特征的特征图，具体公式为：

V_e＝F_vgg(I_e)

其中，I_e表示第e张输入的车辆图像，F_vgg(I_e)为前端特征提取网络，V_e表示第e张输入车辆图像的浅层特征；

S32：利用步骤S22构建的上下文感知金字塔模块，对步骤S31获得的具有浅层特征的特征图进行多尺度上下文特征的提取，获得具有多尺度上下文特征的特征图A，具体公式为：

其中，j表示尺度，P_a(V_e,j)表示自适应平均池化，

是一个卷积核大小为1×1的卷积网络，在不改变通道维度的情况下用于将不同通道的特征组合在一起，F^u表示双线性插值，用于上采样，使得特征图与V_e具有相同维度，θ_j表示卷积核的参数，/>

表示上下文感知金字塔模块获取的多尺度上下文特征；

S33：再通过步骤S23构建的金字塔分割注意力模块，对步骤S32获得的具有多尺度上下文特征的特征图A进行通道注意向量中的多尺度空间信息和跨通道维度的重要特征的提取，其中，A∈R^C×H×W，C、H和W分别表示特征图的通道维度、高度维度和宽度维度，具体公式为：

其中，A_y表示第y组通道，

表示第y组通道的卷积核尺寸，GC_y表示第y组通道的分组数量，F_conv表示分组卷积，B_y表示通道方向的多尺度特征映射；

之后，通过通道连接的方式将每一组通道的B_y拼接在一起，具体公式为：

E＝F_cat([B₁,B₂,…,B_g])

其中，F_cat表示通道方向的连接操作，E∈R^C×H×W表示拼接后的特征图；

为了从通道中提取更具区分性的特征，并建立远程通道依赖关系，拼接后的特征图E又通过由全局平均池化、一维卷积和激活函数组成的通道注意力模块生成不同尺度特征图的注意力权值，最后将逐元素乘积运算应用于重新校准的注意力权值和特征图E中，输出具有更细粒度的多尺度空间信息和跨通道的交互信息的精细化特征图U，具体公式为：

其中，

表示基于通道的全局平均池化，CID_γ表示卷积核大小为γ的一维卷积网络，S_d为Sigmoid函数，⊙为通道方向的乘积；

一维卷积网络CID_γ涉及的超参数个数等同于卷积核的大小γ，它决定了通道注意力模块局部跨通道信息交互的覆盖范围，也就是说该通道附近有γ个邻居参与了这个通道的注意力预测。卷积核的大小γ是通过通道维度C的映射自适应确定的，这里采用的是以2为底的指数函数来表示γ与C之间的非线性映射关系，具体公式为：

其中，γ＝η(C)表示卷积核大小γ与C之间的非线性映射，|ψ|_odd表示最接近ψ的奇数，μ和v分别为常数2和1；

S34：将步骤S33得到的精细化特征图U送入到步骤S24构建的后端网络，生成最终的车辆估计密度图。

进一步地，所述步骤S3中计算前向传播输出的车辆估计密度图与输入金字塔密度感知注意力网络相对应的地面真实密度图之间的损失，损失函数T的表达式为：

其中，N_t表示训练集中的车辆图像的数量，

表示第/>

张输入的训练集中的车辆图像，/>

表示一组可学习参数，/>

为金字塔密度感知注意力网络生成的训练集中第/>

张与车辆图像对应的估计密度图，/>

表示与/>

相对应的地面真实密度图。

进一步地，所述步骤S3设定迭代的最大次数为800次，并保存迭代优化后的金字塔密度感知注意力网络的权重。

进一步地，所述步骤S4评价网络预测效果的具体公式为：

其中，M_t表示测试集中车辆图像的数量，

为金字塔密度感知注意力网络生成的测试集中第Λ张与车辆图像对应的估计密度图，/>

表示与/>

相对应的地面真实密度图，MAE为平均绝对误差，MSE为均方误差，MAE和MSE分别反映了网络的准确性和稳健性。

与现有技术相比，本发明具备如下有益效果：

(1)本发明在不同的位置随机裁剪大小为原车辆图像1/4的图像块，这些补丁被进一步镜像以使车辆图像的训练集加倍，有效避免了因训练集规模太小造成的过拟合；

(2)本发明提出了一种新的金字塔密度感知注意力网络，该网络通过使用不同尺度的块来提取丰富的上下文特征，然后利用不同大小的核卷积获得通道方向的多尺度特征映射，并在不同尺度上分别使用通道注意力模块，让网络关注不同尺度下的特征，得到通道方向的注意力向量，以减少对背景信息的错误估计；

(3)本发明将提出的方法在车辆数据集TRANCOS、CARPK和HS-Vehicle上进行了实验，此外，本申请提出的方法还将人群计数数据集ShanghaiTech作为验证模型泛用性的佐证，并与多种主流的方法进行了对比，实验结果表明本申请提出的方法比以往方法具有更高的计数精度和较好的泛化性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中基于金字塔密度感知注意力网络的车辆计数方法的流程图；

图2为本发明实施例的网络架构图；

图3为本发明实施例中金字塔分割注意力网络的结构图；

图4为本发明实施例实验中采用金字塔密度感知注意力网络在TRANCOS、CARPK和HS-Vehicle数据集上生成的部分样本的估计密度图与地面真实密度图的对比结果示意图；

图5为本发明实施例实验中采用金字塔密度感知注意力网络在ShanghaiTech数据集上生成的部分样本的估计密度图与地面真实密度图的对比结果示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

如图1～图5所示，本发明实施例利用了一种基于金字塔密度感知注意力网络的车辆计数方法，首先针对密集场景下车辆图像数据的特点，在对获取的车辆图像进行预处理阶段，划分出车辆图像的训练集和测试集，再基于高斯卷积核生成方法，利用车辆图像的标注信息生成对应的地面真实密度图。本发明实施例采用了公开的车辆计数数据集TRANCOS、CARPK和人群计数数据集ShanghaiTech，有效降低了数据标注的时间成本。随后采用上下文感知金字塔模块和金字塔分割注意力模块，构建金字塔密度感知注意力网络，本发明选取预先训练好的VGG-16的前十个卷积层作为金字塔密度感知注意力网络的前端特征提取网络，降低了网络训练的时间成本。构建了上下文感知金字塔模块将前端特征提取网络提取的浅层特征划分为四个不同大小的并行块以编码丰富的上下文信息，从而增强对尺度变化的鲁棒性；构建的金字塔分割注意力模块能够充分提取通道注意力向量中多尺度的空间信息和跨信道交互的重要特征，以提高不同尺度特征图的聚焦能力，减少图像背景和噪声的影响。之后，将训练集中的车辆图像和对应的地面真实密度图输入到金字塔密度感知注意力网络，进行前向传播，再计算前向传播输出的车辆估计密度图与输入金字塔密度感知注意力网络相对应的地面真实密度图之间的损失，更新金字塔密度感知注意力网络的参数，训练网络到设定迭代的最大次数，获得优化后的金字塔密度感知注意力网络。最后，将测试集中的车辆图像和对应的地面真实密度图输入到优化后的金字塔密度感知注意力网络中进行预测，得到车辆估计密度图，再对车辆估计密度图逐像素积分求和计算，实现输入图片中车辆数量的估计，评价网络预测效果。本发明实施例所述的基于金字塔密度感知注意力网络的车辆计数方法的具体步骤如下：

S4：将步骤S1划分的测试集中的车辆图像，输入到步骤S3中优化后的金字塔密度感知注意力网络进行预测，得到车辆估计密度图，再对车辆估计密度图逐像素积分求和计算，实现输入图片中车辆数量的估计，评价网络预测效果。

本实施例中，所述步骤S1具体包括：

其中，x代表车辆图像中像素的位置，x_i表示第i个被标记的车辆的标注点所在的像素位置(即车辆中心点的像素位置)，δ(x-x_i)为增量函数，N为车辆图像中被标记的车辆的总数；

其中，

代表几何自适应高斯卷积核，超参数β表示标准偏差σ_i和/>

之间的比例系数，/>

代表车辆图像中第i个被标记的车辆距离其k辆近邻车辆标注点的平均欧式距离；本发明设置超参数β为0.3，k为3；

所述步骤S2具体包括：

S21：选取去除全连接层的VGG-16的前十层构建前端特征提取网络，用于提取输入的车辆图像的浅层特征，获得浅层特征图；本实施例中的前端特征提取网络采用的是预先训练好的VGG-16的前十个卷积层，因为它具有较强的迁移学习能力。

S22：构建上下文感知金字塔模块，该模块包括一个输入层、四个并行的分支结构和一个输出层，其中四个并行的分支结构均包含一个平均池化层、一个核大小为1×1的卷积层和一个上采样层，四个并行的分支结构的平均池化层的核大小不同，四个并行的分支结构用于提取丰富的多尺度特征，增强对尺度变化的鲁棒性，之后，将构建好的上下文感知金字塔模块添加到前端特征提取网络的后面；

所述上下文感知金字塔模块，通过利用四个并行分支的平均池化，将S21提取的浅层特征划分为四个大小不同的块，对应的块大小为b(j)∈(1,3,5,7)，并对四个分支的感受野进行精细区分，以获得具有不同尺度特征的特征图，这些具有不同尺度特征的特征图再通过上采样操作恢复到和步骤S21提取的浅层特征图一样的大小，然后将它们融合在一起。融合后得到的特征图再与步骤S21获得的浅层特征图相结合，从而得到具有多尺度的上下文特征的特征图，并将其送入金字塔分割注意力模块。

所述步骤S23构建的金字塔分割注意力模块，通过分割和拼接模块将具有多尺度的上下文特征的特征图从通道上分成g组，表示为[A₁,A₂,…,A_g]，分割的每一组都有相同的通道数C_a＝C/g，其中C为通道维度，即步骤S22获得的具有多尺度的上下文特征的特征图所具有的通道数量，每一组通道再通过不同尺寸的核卷积获取不同尺度的感受野，以提取通道方向不同尺度的特征信息，本发明设置g＝4，每组对应的卷积核大小为

所述每组对应的卷积核大小为

经过卷积核大小为/>

所述步骤S23要建立远程通道依赖关系，拼接后的特征图E又通过通道注意力模块生成不同尺度特征图的注意力，得到通道方向的注意力向量，再使用Softmax激活函数对通道方向的注意力向量进行重新校准，得到多尺度通道的重新校准权重，最后将逐元素乘积运算应用于重新校准的权重和对应的特征图E中，充分提取通道注意向量中的多尺度空间信息和跨通道的交互信息，输出精细化特征图U。

S24：选取6层空洞率为2的空洞卷积层和1层卷积核尺寸为1×1的普通卷积层构建后端网络，用于获取车辆估计密度图。

所述步骤S24构建的后端网络采用的是2D空洞卷积，其定义为：

其中，ρ(l,m)表示2D空洞卷积层中第l行和第m列对应的输入数据，L表示2D空洞卷积层的长度，M表示2D空洞卷积层的宽度，r为空洞率，q的范围为1～L，代表第q行，f的范围为1～M，代表第f列，F^y(l,m)为滤波器τ(q,f)和输入ρ(l,m)进行空洞卷积的输出。

所述步骤S3生成车辆估计密度图的具体方式为：

V_e＝F_vgg(I_e)

S32：对于步骤S31获得的具有浅层特征的特征图，利用步骤S22构建的上下文感知金字塔模块实现多尺度上下文特征的提取，获得具有多尺度上下文特征的特征图A，具体公式为：

其中，j表示尺度，P_a(V_e,j)表示自适应平均池化，

表示上下文感知金字塔模块获取的多尺度上下文特征；

S33：对于步骤S32获得的具有多尺度上下文特征的特征图A，A∈R^C×H×W，C、H和W分别表示特征图的通道维度、高度维度和宽度维度，再通过步骤S23构建的金字塔分割注意力模块充分提取通道注意向量中的多尺度空间信息和跨通道维度的重要特征，具体公式为：

其中，A_y表示第y组通道，

E＝F_cat([B₁,B₂,…,B_g])

其中，

所述步骤S3中计算前向传播输出的车辆估计密度图与输入金字塔密度感知注意力网络相对应的地面真实密度图之间的损失，损失函数T的表达式为：

其中，N_t表示训练集中的车辆图像的数量，

表示第/>

张输入的训练集中的车辆图像，/>

表示一组可学习参数，/>

为金字塔密度感知注意力网络生成的训练集中第/>

张与车辆图像对应的估计密度图，/>

表示与/>

相对应的地面真实密度图。

所述步骤S3设定迭代的最大次数为800次，并保存迭代优化后的金字塔密度感知注意力网络的权重。

所述步骤S4评价网络预测效果的具体公式为：

其中，M_t表示测试集中车辆图像的数量，

表示与/>

下面通过具体的实验验证本发明实施例所述的车辆计数方法的有效性：

(1)数据集

本发明实施例选取的是3个车辆数据集TRANCOS、CARPK和HS-Vehicle数据集以及1个具有挑战性的大规模人群计数数据集ShanghaiTech数据集。

TRANCOS数据集是一个公共交通数据集，由监控摄像头拍摄的1244张不同拥堵交通场景的图像组成，包含了46796辆带注释的车辆；此外，TRANCOS数据集还提供了用于评估的感兴趣区域，图像的视角不是固定的，且是从不同的场景中收集的，是当下广泛应用于车辆计数实验的公开数据集，但该数据集图片数量较少、图片质量较差，所以本文选择建立一个新的车辆计数数据集HS-Vehicle进行实验。

HS-Vehicle数据集的图像是来自于安装在不同高速路段的监控摄像头，数据标注采用点状注释，标注灵活，准确性高；该数据集包含了不同密集程度的车辆拥堵场景，车辆包括轿车、大巴车、货车等多种类型，共2000张图像，每张图像中被标记的车辆数量从4到107不等，图像分辨率为720×576。

CARPK数据集是第一个也是最大的无人机视图数据集，图像采集于一些大规模汽车停车场，共有1448张高分辨率图像，它们都是从停车场的各种场景中记录下来的，包含了近9万辆带注释的汽车，每张图像中被标记的车辆数量从1到188不等，平均被标记的车辆数量有62。

ShanghaiTech数据集由PartA和Part B两部分组成，其中PartA是来自互联网的482张较为密集的人群图像，测试集和训练集分别为182张和300张，每张图像中被标记的人头数从33到3139不等；Part B部分，包含716张来自上海市区拍摄的相对Part A比较稀疏的图像，其中400张图像为训练集，316张构成测试集，Part B数据集的每张人群图像在9～578之间。

(2)评价指标

本发明实施例利用与大多数基于CNN的目标计数方法相同的评估指标，即MAE和MSE，用于评价网络的预测效果，具体公式为：

其中，MAE为平均绝对误差，MSE为均方误差，MAE和MSE分别反映了网络的准确性和稳健性，M_t表示测试集中车辆图像的数量，

表示与/>

相对应的地面真实密度图。

(3)实验细节

本发明实施例所述的方法使用Adam算法作为优化器，网络训练迭代的最大次数设定为800次，每个图形处理器上的批处理大小设置为8；对于ShanghaiTech数据集的PartA部分，学习率初始设置为1e-5，每次迭代减少0.995，而实验用到的其它数据集，学习速率固定为1e-4；此外，在网络训练过程中，在不同的位置随机裁剪大小为原车辆图像1/4的图像块，这些补丁被进一步镜像以使训练集加倍；本文的所有实验训练和评估都是在NVIDIAGeForce RTX 2080Ti GPU上使用PyTorch框架进行的。

(4)消融研究

本发明实施例在HS-Vehicle数据集上进行了消融实验，以展示金字塔密度感知注意力网络模型中每个模块的效果，即上下文感知金字塔模块(CAPM)和金字塔分割注意力模块(PSAM)。如表1所示，展示了具有四种不同设置的模型的性能。其中，CSRNet为本申请所提出方法的基线，CSRNet+CAPM表示在前端特征提取网络和后端网络之间仅添加CAPM；CSRNet+PSAM表示在前端特征提取网络和后端网络之间仅添加PSAM。

从表1中可以看到，单独加入CAPM或PSAM在MAE和MSE指标方面相比CSRNet分别实现了6.18/9.61、6.06/9.43的改进，两个模块单独添加到网络中性能提升的差距并不大。但CAPM和PSAM的组合输出比单独加入其中一个模块的效果更好，这意味着本申请所提出方法有助于模型学习更多的上下文尺度信息和通道注意力特征信息，有效地解决了尺度变化、目标自身形变和重度遮挡的问题，这与本发明最初的动机是一致的。

表1不同设置的模型的性能比较

(5)与现有技术的比较

本发明实施例与其他现有技术在3个车辆数据集TRANCOS、CARPK和HS-Vehicle数据集以及1个人群计数数据集ShanghaiTech数据集上进行对比实验，以验证本申请所提方法的有效性。

在TRANCOS数据集上的实验对比结果如表2所示，本申请所提方法取得了第2的成绩，在MAE指标方面相比Hydra-3s算法提高了55.6％，与CSRNet算法的性能也很接近，只差了1.32。为了直观展示本申请所提方法的性能，图4的第1行展示了TRANCOS数据集上的1组可视化结果。可以看出本申请所提方法可以直观地展现高速公路上车辆的空间分布状况，并得到与实际值较接近的计数结果，从而验证了本发明的有效性。

表2本发明实施例与现有其他方法在TRANCOS数据集中的结果比较

算法	MAE
		Hydra-3s	10.99
CSRNet	3.56
		Our approach	4.88

本发明实施例在CARPK数据集上与现有技术的比较结果如表3所示。CARPK是一个支持对象计数的数据集，提供了车辆边界框注释，所以本发明实施例选取了近年来两个最先进的基于目标检测的模型Faster R-CNN和YOLO，和一些密度物体计数测量中估计汽车数量的最新方法进行对比。由表3的实验结果可知，本发明实施例在MAE指标方面相比YOLO、Faster R-CNN、One-Look Regression、LPN和CSRNet，分别下降了44.36、42.92、54.93、9.19和2.78；在MSE指标上比YOLO、Faster R-CNN、One-Look Regression、LPN和CSRNet分别降低了50.56、50.4、59.85、14.78和2.82，以上数据表明本发明实施例在目标计数任务上有显著的提升。图4的第2行展示了本发明实施例在CARPK数据集上的1组可视化结果。定量和定性的实验结果证明了基于密度估计的方法相比基于目标检测的方法在计数性能上有了很大的提升，说明在高度拥挤场景下进行目标计数采用密度回归的策略是有效果的。

表3本发明实施例与现有其他方法在CARPK数据集中的结果比较

考虑到CARPK数据集来源于停车场，且都是无人机俯拍采集的图像，与实际的高速公路相比，场景比较单一，车辆尺度剧烈变化和严重遮挡的情况也比较少，对于模型来说缺乏挑战性。而TRANCOS数据集的规模和质量都不是很理想，所以本发明实施例引入一个新的车辆计数数据集HS-Vehicle进行实验。如表4所示，本发明实施例在MAE和MSE指标方面分别取得了2.37和3.0的最佳效果，1组样本的可视化如图4的第3行所示。以上实验结果表明本发明通过融合上下文感知金字塔特征和金字塔通道注意力特征信息，能够有效地提高计数模型的精确度，并能适应不同拥挤程度的车辆计数场景。

表4本发明实施例与现有其他方法在HS-Vehicle数据集中的结果比较

本发明实施例在ShanghaiTech数据集上与其他技术的对比结果如表5所示。在PartA和Part B上，与CSRNet相比，本发明实施例在MAE和MSE指标方面分别实现了1.84/11.95、3.15/3.75的改进。图5中第1行和第2行分别显示了PartA和Part B数据集上1组样本的可视化结果，可以看到本发明实施例在各种各样的高速拥堵场景中表现良好，预测图可以清楚显示不同区域的车辆密度，预测值与标记的计数值很接近，以上的实验结果证明了本发明具有一定的稳健性和泛化性。

通过实验，本申请所提方法使用不同尺度的丰富卷积计算尺度感知特征，使得网络可以适应快速的尺度变化，并能够在更细粒度的水平上提高多尺度表征能力，形成长距离的通道依赖，进而提高密集场景下车辆计数精度。

表5本发明实施例与现有其他方法在ShanghaiTech数据集中的结果比较

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，所述步骤S1具体包括：

S11：标注车辆图像，将像素x_i标记为车辆中心位置，对于存在N个被标记的车辆的图像H(x)，表示为：

其中，

代表几何自适应高斯卷积核，超参数β表示标准偏差σ_i和/>

之间的比例系数，/>

S13：根据地面真实密度图的生成方法，建立与车辆图像数据的训练集和测试集对应的地面真实密度图的训练集和测试集。

3.根据权利要求1所述的基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，所述步骤S2具体包括：

S22：构建上下文感知金字塔模块，所述上下文感知金字塔模块包括一个输入层、四个并行的分支结构和一个输出层，其中四个并行的分支结构均包含平均池化层、核大小为1×1的卷积层和上采样层，四个并行的分支结构用于提取丰富的多尺度特征，增强对尺度变化的鲁棒性，之后，将构建好的上下文感知金字塔模块添加到前端特征提取网络的后面；

S23：构建金字塔分割注意力模块，所述金字塔分割注意力模块包括一个输入层、一个分离和拼接模块，一个通道注意力模块和一个输出层，其中分离和拼接模块可以实现在更细粒度的水平上有效提取多尺度空间信息，通道注意力模块可以帮助模型建立远程通道依赖关系，之后，将构建好的金字塔分割注意力模块添加到上下文感知金字塔模块的后面；

4.根据权利要求3所述的基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，所述步骤S22构建的上下文感知金字塔模块，通过利用四个并行分支的平均池化，将步骤S21提取的浅层特征划分为四个大小不同的块，对应的块大小为b(j)∈(1,3,5,7)，并对四个分支的感受野进行精细区分，以获得具有不同尺度特征的特征图，这些具有不同尺度特征的特征图再通过上采样操作恢复到和步骤S21提取的浅层特征图一样的大小，然后将它们融合在一起；融合后得到的特征图再与步骤S21获得的浅层特征图相结合，从而得到具有多尺度的上下文特征的特征图，并将其送入金字塔分割注意力模块。

5.根据权利要求3所述的基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，所述步骤S23构建的金字塔分割注意力模块，通过分离和拼接模块将步骤S22获得的具有多尺度的上下文特征的特征图从通道上分成g组，表示为[A₁,A₂,…,A_g]，分割的每一组都有相同的通道数C_a＝C/g，其中C为通道维度，即步骤S22获得的具有多尺度的上下文特征的特征图所具有的通道数量，每一组通道再通过不同尺寸的核卷积获取不同尺度的感受野，以提取通道方向不同尺度的特征信息，设置g＝4，每组对应的卷积核大小为

6.根据权利要求5所述的基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，所述每组对应的卷积核大小为

经过卷积核大小为/>

7.根据权利要求6所述的基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，所述步骤S23要建立远程通道依赖关系具体为，拼接后的特征图E又通过通道注意力模块生成不同尺度特征图的注意力，得到通道方向的注意力向量，再使用Softmax激活函数对通道方向的注意力向量进行重新校准，得到多尺度通道的重新校准权重，最后将逐元素乘积运算应用于重新校准的权重和对应的特征图E中，充分提取通道注意向量中的多尺度空间信息和跨通道的交互信息，输出精细化特征图U。

8.根据权利要求3所述的基于金字塔密度感知注意力网络的车辆计数方法，其特征在于，所述步骤S24构建的后端网络采用的是2D空洞卷积，其定义为：