CN116403152A

CN116403152A - 一种基于空间上下文学习网络的人群密度估计方法

Info

Publication number: CN116403152A
Application number: CN202310061969.9A
Authority: CN
Inventors: 熊李艳; 易虎; 黄晓辉; 黄卫春
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-07-07

Abstract

本发明公开了一种基于空间上下文学习网络的人群密度估计方法，其从公共场所的监控视频中截取不同密度的人群图像构建数据集，采用基于高斯核卷积对人群图像进行预处理，得到真实密度图；结合空间金字塔密度感知模块和空间通道注意力模块，构建空间上下文学习网络；将获取的人群图像送到空间上下文学习网络，生成预测密度图，结合预测密度图与真实密度图构建损失函数模型训练网络，生成优化后的空间上下文学习网络；最后对预测密度图逐像素积分求和，得到人群密度估计结果。本发明可以自适应地编码预测人群密度所需的上下文信息的规模，可以在不同通道之间提取更具区分性的特征，有效解决尺度变化问题，并抑制背景噪声，提人群密度估计的精度。

Description

一种基于空间上下文学习网络的人群密度估计方法

技术领域

本发明涉及机器视觉中静态图像处理技术领域，特别涉及一种基于空间上下文学习网络的人群密度估计方法。

背景技术

人群密度估计在交通控制、公共安全监控、智能城市规划等方面有着广泛的应用，例如防止踩踏事件的发生，以及估计参加集会或游行的人数。此外，准确的人群密度估计还可以帮助当局确定是否仍然可以在某个公共空间保持社会距离，防止传染性病毒在密集人群中扩散。人群密度估计是人群分析的一个重要分支，其重点是预测人群的人数或估计人群场景的密度图。然而，现实世界中的各种情况，如严重的尺度变化和遮挡、杂乱的背景，都给人群计数的实际解决方案带来了巨大的挑战。由于相机角度的不同，人头在人群图像中的大小不可避免地会有很大的不同，加上图像背景的复杂性，一些基于卷积神经网络CNN的方法通常会高估背景的密度图，就像一些人群计数综述文章所分析的那样。此外，一些网格区域(如树木和建筑物)在密度图中更容易出错，因为背景的外观与拥挤的人群区域非常相似。

为解决人群图像存在的尺度变化问题，一些研究人员提出了许多基于多尺度特征融合的思想方法，例如多列卷积神经网络计数模型MCNN和Switch-CNN。然而，正如拥挤场景识别算法CSRNet中分析的那样，这些基于多列的方法，结构冗余复杂，且多列卷积网络训练困难、耗时长，不能满足实际应用的要求。而CSRNet使用深层卷积网络VGG-16网络的前10层作为特征提取器，后端使用7层扩张卷积作为回归器，能够扩大网络的接受范围以获取足够的空间上下文信息。可是，CSRNet没有考虑来自网络不同感受野的特征对最终人群计数的贡献，使得计数网络无法获得合适的空间上下文信息。此外，它没有编码注意力特征，容易错误地将背景预测为人群区域。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于空间上下文学习网络的人群密度估计方法，可以自适应地融合多尺度特征，以适应快速的尺度变化，并抑制背景噪声的干扰，生成高质量的密度图，实现密集场景下准确的人群密度估计。

本发明采取的技术方案是：一种基于空间上下文学习网络的人群密度估计方法，包括以下步骤：

S1：从公共场所的监控视频中截取大量含不同密度且具有不同分辨率的人群图像构建数据集，针对人群图像数据的特点，采用基于高斯核卷积的方法对人群图像进行预处理，得到与人群图像对应的真实密度图；

S2：结合空间金字塔密度感知模块和空间通道注意力模块，构建空间上下文学习网络；

S3：将步骤S1获取的含不同密度且具有不同分辨率的人群图像输入到空间上下文学习网络，生成与输入人群图像对应的预测密度图，结合预测密度图与真实密度图构建损失函数模型训练网络，生成优化后的空间上下文学习网络；

S4：对空间上下文学习网络最后生成的预测密度图逐像素积分求和，实现输入人群图像中行人数量的估计，评价网络预测效果。

进一步地，所述步骤S1中得到与人群图像对应的真实密度图的具体方法包括：

S11：标注人群图像数据集，如果人群图像的某个像素点处有一个人头，则将其标记为x_i，x_i就表示人群图像中第i个被标记人头的位置，那么一张带有N个人头标注点的人群图像表示为函数式：

其中，N是人群图像中被标记的人头的总数，x是人群图像中像素的位置，δ(x-x_i)为增量函数，Y(x)表示带有N个人头标注点的人群图像；

S12：采用高斯核卷积的方法模糊处理人群图像中的每一个被标记的人头，生成与人群图像对应的真实密度图，具体公式为：

其中，

为标准偏差为σ_i的高斯核卷积函数，/>

为人群图像中第i个被标记的人头距离其/>

个近邻人头标注点的平均欧式距离，ω表示常数，本发明设置ω为0.3，/>

为3；

S13：将步骤S11中获取的带有人头标注的人群图像数据集划分为训练集和测试集，步骤S12中生成的与人群图像对应的真实密度图也同样划分为训练集和测试集。

进一步地，所述步骤S2构建空间上下文学习网络的具体方法为：

S21：选取不包括全连接层的VGG-16的前10个卷积层作为空间上下文学习网络的前端网络，用于提取人群图像的2D特征图；

S22：构建空间金字塔密度感知模块，该模块包含一个输入层、四个并行的分支结构和一个输出层，四个并行的分支结构主要用于提取多尺度上下文信息、计算对比特征和学习预测权重图，对于步骤S21中前端网络输出的2D特征图，四个并行的分支结构先是执行空间金字塔池化操作来提取多尺度上下文信息，以解决前端网络在整个人群图像上编码相同感受野的局限性，再通过计算对比特征和学习预测权重图的方式来更好地解释人群图像中潜在的尺度变化，生成的这些权重图在每个空间位置上设置了每个尺度感知特征的相对影响，最后利用这些带有权重的权重图通过和前端网络输出的2D特征图进行通道级连接操作得到最终包含上下文特征的特征图

其中，四个并行的分支结构均包含一个平均池化层、两个核大小为1×1的卷积层、一个上采样层、一个元素差运算、一个Sigmoid激活函数和一个元素乘积运算，用于提取多尺度上下文信息的空间金字塔池化操作由四个并行的分支结构的平均池化层、第一个核大小为1×1的卷积层和上采样层共同执行，元素差运算用于计算多尺度上下文信息和前端网络输出的2D特征图之间的对比特征，这些对比特征为空间上下文学习网络提供了了解每个图像区域的局部尺度的重要信息，第二个核大小为1×1的卷积层、Sigmoid激活函数和元素乘积运算用于学习预测权重图，这里权重图包含的权重指的是通过对比特征学习的多尺度上下文信息的权重；

S23：设计空间通道注意力模块，对于步骤S22最后输出的包含上下文特征的特征图

再采用由空间注意力机制、全局平均池化GAP和权重共享的1D卷积组成的空间通道注意力模块SCAM进行全局编码，以获得更加广泛的上下文信息，并从通道中提取最具区分性的特征，使网络模型对噪声背景具有更强的鲁棒性，从而有效地减少密度场景下的估计误差；

其中，空间注意力机制用于学习空间维度上特征信息的相关性，使模型对背景噪声具有更强的鲁棒性，空间注意力机制包括三个分支，通过三个分支对步骤S22最后输出的具有上下文特征的特征图

进行处理，分别获得第一特征图B₁、第二特征图B₂和第三特征图B₃，依据第一特征图B₁和第二特征图B₂获得空间注意图B_s，再根据包含多尺度上下文特征的特征图、第三特征图B₃和空间注意图B_s获得空间注意力机制输出的特征图B_f；

全局平均池化GAP和权重共享的1D卷积的使用旨在从空间注意力机制输出的特征图B_f中捕获重要通道，抑制不必要通道中的信息；对于特征图B_f，先是通过全局平均池化GAP空间特征压缩，随后通过可权重共享的1D卷积进行学习，得到通道的权重，之后将通道权重与特征图B_f进行通道级乘法运算，从而将权重值加权到每个对应通道的特征上，最后输出特征图B_out；

S24：将步骤S23最后输出的特征图B_out送入由6层空洞率为2的空洞卷积层和1层卷积核大小为1×1的普通卷积层构成的后端网络，用于空间上下文学习网络最终的人群密度估计，以获取预测密度图。

进一步地，所述步骤S24中构建的后端网络采用了6层空洞率为2的空洞卷积层，空洞卷积的定义为：

其中，M表示空洞卷积层的宽度，f的范围为1～M，代表第f列，L表示空洞卷积层的长度，e的范围为1～L，代表第e行，D(l，m)为滤波器τ(e，f)和二维输入u(l+μ×e，m+μ×f)进行二维空洞卷积后的二维输出，l表示二维特征图的横坐标，m表示二维特征图的纵坐标，μ是空洞率，本发明设置μ为2。

进一步地，所述步骤S3生成与输入人群图像对应的预测密度图的具体方法为：

S31：将步骤S13中划分的训练集所包含的含不同密度且具有不同分辨率的人群图像送入空间上下文学习网络的前端网络，提取2D特征图，具体公式为：

H_r＝F₁₆(I_r)

其中，I_r表示输入的第r张训练集中的人群图像，F₁₆表示不包括全连接层的VGG-16网络的前10个卷积层，H_r为提取的第r张输入人群图像的2D特征图；

S32：将步骤S31得到的2D特征图输入到空间上下文学习网络的空间金字塔密度感知模块(SPDAM)中，先是通过结合使用多种感受野大小来捕获丰富的上下文信息和尺度多样性，具体公式为：

其中，A_p(H_r,j)表示尺度为j的自适应平均池化块，β_j是尺度为j的卷积核的参数，

为卷积核大小为1×1的卷积网络，U_bi表示用于上采样操作的双线性插值，/>

是通过执行空间金字塔池化操作提取的多尺度上下文信息，本发明设置了U种不同尺度的自适应平均池化块，用于获取不同深度的特征信息，对应的块大小为K(j)∈{1，2，3，6}，与其他块大小的设置相比，K(j)∈{1，2，3，6}显示了更好的性能；

然后，用学习预测权重图的方式来处理

通过将对比特征中每个人群图像区域的局部尺度的重要信息作为初始化参数为/>

的卷积网络/>

的输入来计算多尺度上下文信息/>

的权重，具体公式为：

其中，

表示对比特征，它可以捕捉到特定空间位置和邻域特征之间的不同，/>

是一个卷积核大小为1×1的卷积网络，/>

表示尺度为j的卷积核/>

的参数，后面跟一个Sigmoid激活函数，用于避免被零除，/>

表示多尺度上下文信息/>

的权重；

最后，使用这些权重计算最终的上下文特征，以获取最终包含上下文特征的特征图

具体公式为：

其中，

为元素乘积，j表示尺度，U＝4表示4种不同的尺度，[·|·]表示通道连接操作，/>

表示空间金字塔密度感知模块SPDAM最后输出的最终包含上下文特征的特征图；

S33：对于步骤S32中空间金字塔密度感知模块SPDAM输出的最终包含上下文特征的特征图

再采用组成空间通道注意力模块SCAM的空间注意力机制对整个特征图中的空间相关性进行编码，以便在像素级别上更准确地预测人群密度图，并利用全局平均池化GAP和权重共享的1D卷积处理通道映射之间的关系，显著提高特征图的聚焦能力，生成特征图B_out，其中，空间注意力机制处理特征图的具体公式为：

式中，

表示空间注意力特征图B_s中第h个位置对第d个位置的影响，两个位置的特征图越相似，表明它们之间的相关性越强，d为特征图中第d个输出位置，h为特征图中第h个输出位置，/>

为第一特征图B₁中第d个位置的表示，/>

为第二特征图B₂中第h个位置的表示，/>

为第三特征图S₃中第h个位置的表示，HW表示合并特征图的高度H和宽度W两个维度，得到大小为HW的维度，/>

表示空间注意力机制最终输出的特征图B_f中第d个位置的表示，exp(θ)表示的是e的θ次方，η表示可学习因子，用来缩放输出，空间注意机制利用核大小为1×1的卷积层来学习η。

全局平均池化GAP和权重共享的1D卷积能够从通道中提取最具区分性的特征，以过滤出一些背景细节，从而有效地减少密度场景下的估计误差，具体公式为：

式中，g(X)为全局平均池化，X_ab表示输入特征图B_f中第a行和第b列位置处的数据，a的取值是1～W，表示第a行，b的取值是1～H，表示第b列；

随后通过可权重共享的1D卷积进行学习，得到通道的权重，其中1D卷积的内核大小为γ，即1D卷积涉及的参数量，具体公式为：

W_c＝σ_s(CID_γ(g(X)))

式中，σ_s表示Sigmoid激活函数，内核大小γ与通道维度C之间为非线性映射表示为γ＝ψ(C)，|α|_odd表示最接近α的奇数，W_c为通道的权重，CID_γ表示一维卷积，μ和b为常数；

S34：将步骤S33中空间通道注意力模块SCAM生成的特征图B_out送入到空间上下文学习网络的后端网络，通过后端网络的空洞卷积层和卷积核大小为1×1的卷积产生最终与输入人群图像对应的预测密度图。

进一步地，所述步骤S3结合预测密度图与真实密度图构建损失函数模型训练网络，损失函数的表达式为：

其中，I_r表示输入空间上下文学习网络的第r张训练集中的人群图像，

表示输入空间上下文学习网络的第r张人群图像输出的预测密度图，/>

表示输入空间上下文学习网络的第r张人群图像对应的真实密度图，N_t表示训练集中人群图像的总数，/>

为/>

和/>

之间的误差的平方。

进一步地，所述步骤S3训练网络时，选取Adam算法作为空间上下文学习网络的优化器，对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集，学习速率固定为1e-4，对于ShanghaiTech数据集的PartA部分，学习速率初始化为1e-5，并且每个Epoch减少到0.995，每个图形处理器上的批处理大小设置为8，迭代的最大次数设置为800次，当网络训练迭代到设定的最大次数后，保存优化后的空间上下文学习网络的权重，从而得到优化后的空间上下文学习网络。

进一步地，所述步骤S4评价网络预测效果，是通过计算测试集中人群图像的预测密度图和真实密度图之间的均方误差MSE和平均绝对误差MAE来实现，具体公式为：

其中，R_t表示测试集中人群图像的数量，κ表示测试集中第κ张人群图像，

表示输入空间上下文学习网络的第κ张人群图像输出的预测密度图，/>

表示输入空间上下文学习网络的第κ张人群图像对应的真实密度图。

与现有技术相比，本发明的有益效果在于：

(1)本发明提出输入单张人群图像进行训练，避免了因为批量化训练人群图像导致的信息丢失。

(2)本发明在全卷积网络上进行改进，提出了SPDAM能够结合多个感受野大小获得的特征，并学习每个特征在每个图像位置的重要性，捕获丰富的上下文信息和尺度多样性，在SPDAM的帮助下，空间上下文学习网络在复杂的人群场景中表现良好，能够准确、高效地对不同尺度和密度的人群进行计数。

(3)本发明结合空间注意力机制、全局平均池化GAP和权重共享的1D卷积，提出了一种空间通道注意力模块SCAM，其中空间注意力机制可以对整个特征图中的空间相关性进行编码，以更准确地在像素级别上预测人群密度图，全局平均池化GAP和权重共享的1D卷积可以处理通道映射之间的关系，显著提高回归性能，有助于空间上下文学习网络关注人群场景中人的头部区域，避免了对背景的错误估计。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中基于空间上下文学习网络的人群密度估计方法的整体流程图。

图2为本发明的基于空间上下文学习网络的人群密度估计方法的网络结构图。

图3为本发明实施例空间通道注意力模块SCAM的结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

如图1～图3所示，本发明实施例利用了一种基于空间上下文学习网络的人群密度估计方法，首先从公共场所的监控视频中截取大量含不同密度的人群图像构建数据集，将获取的带有人头标注的人群图像数据集划分为训练集和测试集，再针对人群图像数据的特点，采用基于高斯核卷积的方法对人群图像进行预处理，生成的与人群图像对应的真实密度图。本发明实施例选用了公开的且具有挑战性的人群计数数据集ShanghaiTech、UCF_CC_50和WorldExpo’10数据集，降低了劳动强度，减少了数据采集、标注的成本。然后，结合空间金字塔密度感知模块和空间通道注意力模块，构建空间上下文学习网络。本发明实施例选取了预先训练好的去除全连接层的VGG-16的前10个卷积层作为前端网络，利用6层空洞率为2的空洞卷积和1层卷积核大小为1×1的普通卷积构建后端网络，通过现有的网络结构组建模型，不仅降低了模型训练的时间成本，而且有利于提升模型的鲁棒性。之后，将获取的分辨率大小不同的人群图像输入到空间上下文学习网络，生成与输入人群图像对应的预测密度图，结合预测密度图与真实密度图构建损失函数模型训练网络，生成优化后的空间上下文学习网络。最后，对空间上下文学习网络最后生成的预测密度图逐像素积分求和，实现输入人群图像中人头数量的估计。本发明实施例所述的基于空间上下文学习网络的人群密度估计方法的具体步骤如下：

S3：将步骤Sl获取的所有含不同密度且具有不同分辨率的人群图像输入到空间上下文学习网络，生成与输入人群图像对应的预测密度图，结合预测密度图与真实密度图构建损失函数模型训练网络，生成优化后的空间上下文学习网络；

步骤S1中得到与人群图像对应的真实密度图的具体方法包括：

S11：标注人群图像数据集，如果人群图像的某个像素点处有一个人头，则将其标记为x_i，x_i就表示人群图像中第i个被标记人头的位置，那么一张带有N个人头标注点的人群图像可以表示为函数式：

其中，

为标准偏差为σ_i的高斯核卷积函数，/>

为人群图像中第i个被标记的人头距离其/>

个近邻人头标注点的平均欧式距离，ω表示常数，本发明设置ω和/>

分别等于0.3和3；

步骤S2构建空间上下文学习网络的具体方法为：

S23：设计空间通道注意力模块，对于步骤S22最后输出的具有上下文特征的特征图

其中，空间注意力机制用于学习空间维度上特征信息的相关性，使模型对背景噪声具有更强的鲁棒性，空间注意力机制包括三个分支，通过三个分支对步骤S22最后输出的包含上下文特征的特征图

S24：将步骤S23最后输出的特征图B_out送入由6层空洞率为2的空洞卷积层和1层卷积核大小为1×1的普通卷积层构成的后端网络，用于空间上下文学习网络最终的人群密度估计。

步骤S24中构建的后端网络采用了6层空洞率为2的空洞卷积层，空洞卷积的定义为：

步骤S3生成与输入人群图像对应的预测密度图的具体方法为：

H_r＝F₁₆(I_r)

S32：将步骤S31得到的2D特征图输入到空间上下文学习网络的空间金字塔密度感知模块SPDAM中，先是通过结合使用多种感受野大小来捕获丰富的上下文信息和尺度多样性，具体公式为：

是通过执行空间金字塔池化操作提取的多尺度上下文信息，本发明设置了U＝4种不同尺度的自适应平均池化块，用于获取不同深度的特征信息，对应的块大小为K(j)∈{1，2，3，6}，与其他块大小的设置相比，K(j)∈{1，2，3，6}显示了更好的性能；

然后，用学习预测权重图的方式来处理

的卷积网络/>

的输入来计算多尺度上下文信息/>

的权重，具体公式为：

其中，

是一个卷积核大小为1×1的卷积网络，/>

表示尺度为j的卷积核/>

的参数，后面跟一个Sigmoid激活函数，用于避免被零除，/>

表示多尺度上下文信息/>

的权重；

具体公式为：

其中，

S33：对于SPDAM输出的最终包含上下文特征的特征图

再采用组成空间通道注意力模SCAM的空间注意力机制对整个特征图中的空间相关性进行编码，以便在像素级别上更准确地预测人群密度图，并利用全局平均池化GAP和权重共享的1D卷积处理通道映射之间的关系，显著提高特征图的聚焦能力，生成特征图B_out；

其中，空间注意力机制先是将步骤S22输出的大小为C×H×W的特征图送入3个不同的1×1卷积层，然后对提取的特征图执行reshape或transpose操作得到三个特征图B₁，B₂和B₃，为了获得空间注意力图，再对大小分别为HW×C和C×HW的S₁和B₂进行矩阵相乘和Softmax操作，从而获得大小为HW×HW的空间注意力图B_s，之后，为了得到包含全局上下文特征和空间注意力信息的特征图，将大小分别为C×HW和HW×HW的B₃和B_s应用矩阵乘法，做reshape输出大小为C×H×W的特征图，最后与步骤S22输出的大小为C×H×W的特征图求和输出最终的特征图，空间注意力机制处理特征图的具体公式为：

式中，

为第一特征图B₁中第d个位置的表示，/>

为第二特征图B₂中第h个位置的表示，/>

为第三特征图B₃中第h个位置的表示，HW表示合并特征图的高度H和宽度W两个维度，得到大小为HW的维度，/>

W_c＝σ_s(CID_γ(g(X)))

式中，σ_s表示Sigmoid激活函数，内核大小γ与通道维度C之间为非线性映射表示为γ＝ψ(C)，|α|_odd表示最接近α的奇数，W_c为通道的权重，CID_γ表示一维卷积，μ和b为常数，在本发明实施例中，μ＝2，b＝1；

S34：将SCAM生成的特征图B_out送入到空间上下文学习网络的后端网络，通过后端网络的空洞卷积层和卷积核大小为1×1的卷积产生最终与输入人群图像对应的预测密度图。

步骤S3结合预测密度图与真实密度图构建损失函数模型训练网络，损失函数的表达式为：

为/>

和/>

之间的误差的平方。

步骤S3训练网络时，选取Adam算法作为空间上下文学习网络的优化器，对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集，学习速率固定为1e-4，对于ShanghaiTech数据集的Part A部分，学习速率初始化为1e-5，并且每个Epoch减少到0.995，每个图形处理器上的批处理大小设置为8，迭代的最大次数设置为800次，当网络训练迭代到设定的最大次数后，保存优化后的空间上下文学习网络的权重，从而得到优化后的空间上下文学习网络。

步骤S4评价网络预测效果，是通过计算测试集中人群图像的预测密度图和真实密度图之间的均方误差MSE和平均绝对误差MAE来实现，具体公式为：

/>

本发明实施例进行实验的数据集、评价指标和实验细节如下：

(1)数据集

本发明实施例选用的是3个公开的且具有挑战性的人群计数数据集ShanghaiTech、UCF_CC_50和WorldExpo’10数据集。

ShanghaiTech数据集有1,198幅带注释的人群图像，有330,165个头部被注释，分为A部分482张，其中，训练集有300张图像，测试集有182张图像；B部分716张，其中训练集和测试集分别包括400张和316张图像。A部分数据集是来自互联网的密集人群图像，每张图像的人数从33到3，139不等；B部分数据集是拍摄于上海繁华街道的稀疏人群图像，每张图像的人数从9到578不等。

UCF_CC_50是一个极度拥挤的人群计数数据集。它由50幅不同分辨率的图像组成，每个图像中的人头数量在94到4543之间，有些图像包含非常密集的人群。该数据集还包含更多样的场景，例如音乐厅、抗议集会和体育馆。考虑到该数据集对于大容量模型来说相对较小，本发明实施例利用了5折交叉验证协议训练和验证模型。

WorldExpo’10由3,980个视频帧组成，其中，训练集包括3380帧图像，测试集有600帧图像。它的训练集来自103个场景中的1127个一分钟的视频序列，测试集是来自5个不同场景中的5个1小时视频序列，每个测试场景包含120帧图像，每帧图像中个体的数量在1到253之间。

(2)评价指标

本发明实施例是通过计算平均绝对误差MAE和均方误差MSE，对网络的预测效果进行评价，具体公式为：

(3)实验细节

本发明实施例所述的一种基于空间上下文学习网络的人群密度估计方法的前端网络选取的是VGG-16的前10个卷积层，通过导入预先训练好的模型参数以提高训练速度。本发明实施例选取Adam算法作为空间上下文学习网络的优化器，对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集，学习速率固定为1e-4，对于ShanghaiTech数据集的PartA部分，学习速率初始化为1e-5，并且每个Epoch减少到0.995，每个图形处理器上的批处理大小设置为8，迭代的最大次数设置为800次。此外，在训练过程中，本发明实施例在不同的位置随机裁剪大小为原人群图像1/4的图像块，这些补丁被进一步镜像以使训练集加倍。

与现有技术方法比较，本发明提出了基于空间上下文学习网络的人群密度估计方法，网络通过SPDAM能够自适应编码多尺度上下文，为了避免对背景区域的错误估计，网络又利用SCAM对特征图进行校准和再融合，并在不同通道之间提取更具区分性的特征。本申请提出的方法在计数精度和密度图质量方面相比现有技术取得了更优的结果。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于空间上下文学习网络的人群密度估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法，其特征在于，所述步骤S1中得到与人群图像对应的真实密度图的具体方法包括：

S11：标注人群图像数据集，若人群图像的某个像素点处有一个人头，则将其标记为x_i，x_i就表示人群图像中第i个被标记人头的位置，那么一张带有N个人头标注点的人群图像表示为函数式：

其中，

为标准偏差为σ_i的高斯核卷积函数，/>

为人群图像中第i个被标记的人头距离其/>

个近邻人头标注点的平均欧式距离，ω表示常数；

3.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法，其特征在于，所述步骤S2构建空间上下文学习网络的具体方法为：

其中，四个并行的分支结构均包含一个平均池化层、两个核大小为1×1的卷积层、一个上采样层、一个元素差运算、一个Sigmoid激活函数和一个元素乘积运算，用于提取多尺度上下文信息的空间金字塔池化操作由四个并行的分支结构的平均池化层、第一个核大小为1×1的卷积层和上采样层执行，元素差运算用于计算多尺度上下文信息和前端网络输出的2D特征图之间的对比特征，这些对比特征为空间上下文学习网络提供了了解每个图像区域的局部尺度的重要信息，第二个核大小为1×1的卷积层、Sigmoid激活函数和元素乘积运算用于学习预测权重图，这里权重图包含的权重指的是通过对比特征学习的多尺度上下文信息的权重；

4.根据权利要求3所述的一种基于空间上下文学习网络的人群密度估计方法，其特征在于，所述步骤S24中构建的后端网络采用了6层空洞率为2的空洞卷积层，空洞卷积的定义为：

其中，M表示空洞卷积层的宽度，f的范围为1～M，代表第f列，L表示空洞卷积层的长度，e的范围为1～L，代表第e行，D(l,m)为滤波器τ(e,f)和二维输入v(l+μ×e,m+μ×f)进行二维空洞卷积后的二维输出，l表示二维特征图的横坐标，m表示二维特征图的纵坐标，μ是空洞率。

5.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法，其特征在于，所述步骤S3生成与输入人群图像对应的预测密度图的具体方法为：

H_r＝F₁₆(I_r)

是通过执行空间金字塔池化操作提取的多尺度上下文信息，本发明设置了U种不同尺度的自适应平均池化块，用于获取不同深度的特征信息，对应的块大小为K(j)∈{1,2,3,6}，与其他块大小的设置相比，K(j)∈{1,2,3,6}显示了更好的性能；

然后，用学习预测权重图的方式来处理

的卷积网络/>

的输入来计算多尺度上下文信息

的权重，具体公式为：

其中，

是一个卷积核大小为1×1的卷积网络，/>

表示尺度为j的卷积核/>

的参数，后面跟一个Sigmoid激活函数，用于避免被零除，/>

表示多尺度上下文信息/>

的权重；

最后，使用这些权重计算最终的上下文特征，具体公式为：

其中，

表示空间金字塔密度感知模块SPDAM最后输出的包含上下文特征的特征图；

式中，

为第一特征图B₁中第d个位置的表示，/>

为第二特征图B₂中第h个位置的表示，

表示空间注意力机制最终输出的特征图B_f中第d个位置的表示,exp(θ)表示的是e的θ次方，η表示可学习因子，用来缩放输出，空间注意机制利用核大小为1×1的卷积层来学习η；

W_c＝σ_s(CID_γ(g(X)))

6.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法，其特征在于，所述步骤S3结合预测密度图与真实密度图构建损失函数模型训练网络，损失函数的表达式为：

为/>

和/>

之间的误差的平方。

7.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法，其特征在于，所述步骤S3训练网络时，选取Adam算法作为空间上下文学习网络的优化器，对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集，学习速率固定为1e-4，对于ShanghaiTech数据集的Part A部分，学习速率初始化为1e-5，并且每个Epoch减少到0.995，每个图形处理器上的批处理大小设置为8，迭代的最大次数设置为800次，当网络训练迭代到设定的最大次数后，保存优化后的空间上下文学习网络的权重，从而得到优化后的空间上下文学习网络。

8.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法，其特征在于，所述步骤S4评价网络预测效果，是通过计算测试集中人群图像的预测密度图和真实密度图之间的均方误差MSE和平均绝对误差MAE来实现，具体公式为：