CN114898284B

CN114898284B - 一种基于特征金字塔局部差异注意力机制的人群计数方法

Info

Publication number: CN114898284B
Application number: CN202210366563.7A
Authority: CN
Inventors: 张世周; 张倩
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-03-12
Anticipated expiration: 2042-04-08
Also published as: CN114898284A

Abstract

本发明公开了一种基于特征金字塔局部差异注意力机制的人群计数方法，提出了一个新颖的尺度感知的人群计数方法FPN‑LDA网络，其通过特征金字塔网络(FeaturePyramid Network,FPN)丰富特征尺度，并利用局部差异注意力(Local DifferenceAttention,LDA)模块对每个尺度的特征图进行重新加权，使特征集中在局部差异较大的位置，从而在基本不增加额外计算量的条件下提升人群计数的精度。本发明主要用于解决尺度变化场景下的人群计数，从网络的深度和广度两个层面处理人群场景尺度变化的问题，从而达到更高的计数精度。

Description

一种基于特征金字塔局部差异注意力机制的人群计数方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种人群计数方法。

背景技术

人群计数是计算机视觉领域的一个重要挑战，其任务是对人群场景图像进行自动计数。由于人群计数任务存在巨大的应用价值，如视频监控、公共安全、城市规划以及其他领域的计数任务等，近年来在工业界和学术界引起广泛的关注。然而，人群计数任务本身面临着遮挡、背景复杂、尺度变化、分布不均、旋转、光强变化等诸多挑战。其中，由于相机固有的透视变化，尺度变化的挑战不可避免。尺度变化既存在于同一场景图像的不同区域之间，也存在于不同的场景图像之间。因此，提升人群计数精度遇到了较大的挑战。

为了解决尺度变化的问题，现有人群计数方法(比如Single-image crowdcounting via multi-column convolutional neural network和Casa-crowd:A context-aware scale aggregation cnn-based crowd counting technique)通常通过具有不同感受野的多分支卷积神经网络获取多尺度特征。然而，一方面，多分支体系结构将会按比例增加算法所需的计算资源。另一方面，这些方法无法处理连续的尺度变化，从而降低了人群计数的精度。

发明内容

为了克服现有技术的不足，本发明提供了一种基于特征金字塔局部差异注意力机制的人群计数方法，提出了一个新颖的尺度感知的人群计数方法FPN-LDA网络，其通过特征金字塔网络(Feature Pyramid Network,FPN)丰富特征尺度，并利用局部差异注意力(Local Difference Attention,LDA)模块对每个尺度的特征图进行重新加权，使特征集中在局部差异较大的位置，从而在基本不增加额外计算量的条件下提升人群计数的精度。本发明主要用于解决尺度变化场景下的人群计数，从网络的深度和广度两个层面处理人群场景尺度变化的问题，从而达到更高的计数精度。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：输入图片预处理；

将原始图片的长和宽限制在2048像素以内，并使用随机裁剪和水平翻转进行数据增强，限定输入图片尺寸固定为512×512，得到人群场景图片；

步骤2：将人群场景图片输入特征金字塔网络提取多尺度特征；所述特征金字塔网络以VGG19作为骨干网络；

步骤2-1：自底向上阶段：将VGG19中输出特征尺寸相同的层视为同一阶段，将骨干网络划分为5个阶段；从第一个阶段开始，后续每个阶段的特征图尺寸将会减少到前一个阶段的一半，选择最后三个阶段输出的特征图构建三层特征金字塔网络，特征金字塔网络自底层到顶层三层的空间分辨率分别为128×128、64×64、32×32；

步骤2-2：自顶向下阶段：将顶层特征图连续上采样两次，得到空间分辨率为64×64和128×128的上采样特征图；

步骤2-3：横向连接阶段：通过逐元素相加的方式，将相同分辨率的上采样特征图与特征金字塔网络的特征图合并；将合并后的两个特征图及顶层特征图分别进行3×3卷积操作后，再经过采样使分辨率都变为64×64，再使用1×1卷积层改变通道数为128，最后将三者按通道拼接在一起得到64×64×384大小的特征图f^fpn∈R^384×64×64；

步骤3：计算局部差异注意力权重并对特征图进行加权；

步骤3-1：分别采用核大小分别为1×1、2×2和4×4的平均池化层对特征图f^fpn进行平均池化操作，获取多感受野下的多尺度特征图，公式如下：

F^j＝P_avg(f^fpn,j),j∈{1,2,3} (1)

其中，P_avg(·,j)表示进行平均池化操作；得到三个分支的金字塔特征图F^j的尺寸分别为64×64、32×32和16×16；

步骤3-2：在步骤3-1得到的每个分支上执行1×1卷积操作，公式如下：

其中，conv(·,·)表示卷积操作，然后对输出特征图进行上采样操作，使分辨率都变为64×64，公式如下：

其中，Up(·)表示上采样操作；

步骤3-3：将特征图f^j与特征图f^fpn做差，再进行1×1卷积得到局部差异注意力权重：

其中，表示卷积参数；

使用局部差异注意力权重对特征图f^fpn进行加权，并按通道进行合并，得到大小为64×64×768的多尺度特征图f，计算公式如下：

其中，表示两个矩阵的逐元素乘积操作，C(·)表示按通道合并操作；

步骤4：将多尺度特征图解码为单通道密度图；

将多尺度特征图f输入解码器，得到最终的密度图，对密度图进行求和得到对应人群场景的计数值；

所述解码器为多个卷积层堆叠而成；

步骤5：对步骤2和步骤3构建的FPN-LDA网络进行训练，将训练集中数据分批次输入FPN-LDA网络中，生成每幅图片的预测密度图，利用预测的密度图和真实人群场景的点标签计算损失，具体使用Bayesian损失构建点标注的密度贡献概率模型，公式如下：

其中，c_n表示每个人头注释点的真实人数值，E[c_n]表示每个注释点处的人数期望值，N表示整个场景的总人数；

使用优化器进行优化，直至目标函数L^Bayes的值不下降时结束训练；

步骤6：测试过程；

将测试图像输入训练后的FPN-LDA网络获取多尺度特征，然后将多尺度特征输入解码器即得到对应的密度图，最后，对密度图求和得到场景人群总数，并使用平均绝对误差MAE和均方误差MSE对计数性能进行评估。

进一步地，所述解码器为四个卷积层堆叠，大小分别为3×3×384、3×3×192、3×3×96、1×1×1。

本发明的有益效果如下：

本发明由于使用特征金字塔网络，极大地丰富了场景的尺度特征；局部差异注意力模块通过各尺度特征图的局部差异值重新加权来增强特征对局部差异较大的位置的关注，并抑制一些无关的特征，特征的有无在一定程度上表示场景的空间布局信息，因此也有利于对人群分布的感知。二者的协同作用分别从网络的深度和广度两个层面处理人群场景尺度变化的问题，从而达到更高的计数精度。

附图说明

图1是本发明的FPN-LDA网络结构图。

图2是本发明特征金字塔网络结构图。

图3是本发明解码器结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为了解决人群场景的尺度变化问题，本发明提出了一种基于特征金字塔局部差异注意力机制的人群计数方法，该方法能够有效处理人群场景固有的尺度变化问题。

本发明的技术方案主要模块包括如下：该方法包括两个部分，第一部分是基于VGG19的特征金字塔网络，第二部分是局部差异注意力模块。在第一部分中，以VGG19为骨干网络，将其改造为特征金字塔的结构，该结构包含三个过程，分别是自底向上、自顶向下和横向连接，用于构造和融合各种尺度的特征图。其中，自底向上的过程网络的前馈计算，计算由多个尺度的特征图组成的特征层次结构；自顶向下的过程对更高的金字塔层特征进行采样，从而使得空间上更粗粒度，但语义信息更强的特征获得更高的分辨率；最后，通过横向连接融合两个过程所产生的相同分辨率的特征图。第二部分中，以特征金字塔网络的输出作为输入，首先使用金字塔池化操作提取具有不同感受野的多尺度特征，然后计算局部差异注意力权重分数，对每个尺度的特征图进行重新加权，使特征集中在局部差异较大的位置，最后对多尺度特征进行融合和解码，输出人群场景的密度图，对密度图进行求和即可得到所需的人群数量。利用本发明的方法，可以更好地处理人群场景的尺度变化问题，并且基于局部差异注意力机制捕获上下文信息，获得各个尺度重要而有意义的特征，进而得到人群的布局信息，得到更好的计数精度。

一种基于特征金字塔局部差异注意力机制的人群计数方法，包括如下步骤：

步骤1：输入图片预处理；

步骤2-1：自底向上阶段：将VGG19中输出特征尺寸相同的层视为同一阶段，将骨干网络划分为5个阶段；从第一个阶段开始，后续每个阶段的特征图尺寸将会减少到前一个阶段的一半，考虑到性能和内存消耗之间的平衡，选择最后三个阶段输出的特征图构建三层特征金字塔网络，特征金字塔网络自底层到顶层三层的空间分辨率分别为128×128、64×64、32×32；

步骤3：计算局部差异注意力权重并对特征图进行加权；

F^j＝P_avg(f^fpn,j),j∈{1,2,3} (1)

其中，Up(·)表示上采样操作；

步骤3-3：为了有效利用场景图像尺度变化的信息，提出通过学习注意力权重图来捕捉特征图在每个空间位置的相对影响；将特征图f^j与特征图f^fpn做差，再进行1×1卷积得到局部差异注意力权重：

其中，表示卷积参数；w_j捕获了特定位置的特征与其邻域特征的差异，即局部差异。

步骤4：将多尺度特征图解码为单通道密度图；

所述解码器为四个卷积层堆叠而成，大小分别为3×3×384、3×3×192、3×3×96、1×1×1；

步骤5：对步骤2和步骤3构建的FPN-LDA网络进行训练，将训练集中数据分批次输入FPN-LDA网络中，生成每幅图片的预测密度图，利用预测的密度图和真实人群场景的点标签计算损失，具体使用Bayesian损失构建点标注的密度贡献概率模型，该损失没有严格限制密度图中每个像素的值，而是强制每个标注点的计数期望为1，从而避免了生成的“groundtruth”密度图的不完美所带来的误差，公式如下：

步骤6：测试过程；

具体实施例：

本发明提供了一个特征金字塔局部差异注意力机制的人群计数方法，具体过程如下：

1、根据所给的点标注计算密度贡献概率图作为网络训练的监督信息。

现有的人群计数数据集所提供的标签为场景中所有人头中心点的坐标。与传统方法直接利用高斯核回归ground truth密度图不同，根据位置坐标计算场景的密度贡献概率图，用于对模型训练进行监督，从而避免了由于生成的ground truth密度图不完美而引入的误差。

x是表示空间位置的随机变量，y是表示人头标注点的随机变量，根据已给的标签y_n构建x_m的后验概率，其中m＝1,2,...,M，M表示密度图像素点总数，n＝1,2,...,N，N是样本图像的总人数。计算公式如下：

p(x＝x_m|y＝y_n)＝N(x_m；z_n,σ²1_2×2) (8)

根据贝叶斯理论，给定密度图中的一个像素点，其对应的标签为，那么可计算的后验概率如下：

其中N(x_m；z_n,σ²1_2×2)表示x_m处的高斯回归，均值在标注点z_n处，协方差矩阵为σ²1_2×2。所计算的密度贡献概率图的尺寸与设定的预测密度图尺寸相同，均为64×64。

2、输入图片预处理。

由于普通的CNN接受域有限，无法处理各种尺度图像的问题，所以将样本图像的长宽限制在2048像素以内，并使用随机裁剪和水平翻转的方式来进行数据增强，以限定输入图片尺寸固定为512×512。

3、基于特征金字塔局部差异注意力机制计算人群场景多尺度特征。

首先将图片预处理后得到的张量(512×512×3)输入特征金字塔网络中，将骨干网络VGG19的前馈计算划分为五个阶段，选取最后三阶段的输出特征构建特征金字塔，其分辨率分别为128×128，64×64，32×32。将三个特征图分别经过1×1卷积统一通道数为256，然后将前馈计算最后一层输出的特征图上采样两次，采样率均为2，得到具有更多语义信息并且空间分辨率与前馈过程相对应的三组特征图。最后采用横向连接将分辨率相同的特征图两两融合(逐像素相加)得到多尺度的特征金字塔。为了消除上采样带来的混叠效应，将三个不同尺寸的特征图分别通过卷积核大小为3×3的卷积层，通道数为256，然后使用双线性采样将三组特征图均采样到64×64，再使用1×1卷积层改变通道数为128，最后将三者合并在一起得到64×64×384大小的特征图f^fpn。

对f^fpn采用多尺度的平均池化操作获取多感受野下的多尺度特征图。三个尺度的平均池化层分别表示为avgPool1、avgPool2和avgPool3，对应核的大小分别为1×1，2×2和4×4。f^fpn通过avgPool1的平均池化操作，其尺寸为64×64，同理，经过avgPool2和avgPool3后的尺寸分别为32×32和16×16，然后经过一个1×1的卷积层之后，使用双线性插值将三组特征图上采样到与输入相同的分辨率，即64×64。

将插值后的特征图与原始特征图做差得到局部差异注意力权重图K_n(n＝1,2,3)，再进行一个1×1的卷积操作，将通道数降为128，然后将差值权重值与金字塔池化操作输出的三个特征组对应相乘，最后将三个特征图按通道合并在一起，得到融合后的多尺度特征，其尺寸为64×64×768。

4、将特征解码为密度图。

将大小为64×64×768的多尺度特征输入附图3所示的解码器，输出特征图分辨率仍保持64×64，通道数变为1，即得到最终的密度图，对密度图进行求和得到对应人群场景的计数。

5、模型训练。

骨干网络在训练之前，将其在ImageNet上进行预训练，解码器由MSRA初始化器初始化，使用初始学习速率为10^-5的Adam优化器用于模型参数的更新。设置公式8中的高斯参数σ为8，训练步数设置为1000个epoch。采用Bayesian损失为训练所用的损失函数。

6、模型应用

在通过上面的训练过程后可以得到多个模型，选取其中最优的模型(损失函数值最小)用于应用，由于所提出的模型为全卷积网络，图片数据处理时不需要数据增强，直接以原始图片进行归一化后的张量作为模型的输入。整个的网络模型的参数都固定不动，只要输入图像数据并向前传播即可。最后对密度图进行求和即可得到当前场景的人群总数。

Claims

1.一种基于特征金字塔局部差异注意力机制的人群计数方法，其特征在于，包括如下步骤：

步骤1：输入图片预处理；

步骤3：计算局部差异注意力权重并对特征图进行加权；

F^j＝P_avg(f^fpn,j),j∈{1,2,3} (1)

其中，Up(·)表示上采样操作；

其中，表示卷积参数；

步骤4：将多尺度特征图解码为单通道密度图；

所述解码器为多个卷积层堆叠而成；

步骤6：测试过程；

2.根据权利要求1所述的一种基于特征金字塔局部差异注意力机制的人群计数方法，其特征在于，所述解码器为四个卷积层堆叠，大小分别为3×3×384、3×3×192、3×3×96、1×1×1。