CN113762009B

CN113762009B - 一种基于多尺度特征融合及双注意力机制的人群计数方法

Info

Publication number: CN113762009B
Application number: CN202011297960.0A
Authority: CN
Inventors: 陈洪刚; 王良聪; 吴晓红; 何小海; 熊书琪; 王正勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2023-06-16
Anticipated expiration: 2040-11-18
Also published as: CN113762009A

Abstract

本发明公开了一种基于多尺度特征融合及双注意力机制的人群计数方法，涉及计算机视觉中静态图像识别技术领域。本发明使用基于透视关系的方法对人群图像进行预处理，生成密度图。再使用VGG‑16网络的第4,7,10层分别提取特征，并依次经过多尺度特征融合模块和空间‑通道双注意力模块，实现多尺度特征融合，强调重要特征，弱化无关特征，最后将特征送入卷积层中，得到最终密度图。该方法可应用于对交通场景中各道路车辆统计，提升通行效率；对作物产量预估，利于统计各地人民的物资保障，有针对性地进行物资调配；对特定生物数量统计，如评估细菌细胞的增殖速度、调研迁徙的濒危物种数量等。

Description

一种基于多尺度特征融合及双注意力机制的人群计数方法

技术领域

本发明涉及一种基于多尺度特征融合及双注意力机制的人群计数方法，属于计算机视觉中静态图像识别技术领域。

背景技术

近年来，大量的人口选择汇集在城市工作及安家，使得单位面积内人口密度越来大，城市人口的增加带来了一系列的问题，如何高效、有序的管理社会成为一个关键性问题。因此，需要提前对人群信息进行快速统计，避免严重的公共安全责任事故发生。

人们提出了各种方法来进行人群计数和密度估计。早期的研究，采用了基于检测的方法，就是使用整体或部分身体特征的检测,主要训练一个分类器，利用从行人中提取到的整体或局部结构来检测行人，从而进行计数。但是由于基于检测的方法，在背景杂乱并且高密度的图像上，表现性能会大大降低，因此有人提出了基于回归的计数方法。基于回归的计数方法就是学习一种从特征到人数的映射，但是此方法会忽略空间信息，并且还会受到尺度和视角剧烈变化的影响，导致计数能力变差。

近年来，深度卷积神经网络在众多计算机视觉任务中获得了很大的成功,一个很大的原因是其对非线性关系的学习能力；这一点同样非常合适人群计数问题:用强大的深度卷积神经网络来更好地学习人群图像到相应密度图或相应计数之间，因此深度卷积神经网络在人群计数方向得到了广泛应用；

由上述叙述可知，近年来，有许多学者针对人群计数这一课题做出了许多努力。但是目前提出的网络，虽然具体性能不错，但是大部分现有网络存在特征信息提取不充足，无法从多个感受野中提取多尺度信息和没有融合多个尺度中的特征，从而达到丰富细节特征的目的的问题。并且无法排除背景中的干扰，弱化无关特征，强调重要特征；因此，在解决这些问题的情况下，再进一步提升人群计数的准确度，需要更加深入的研究。

发明内容

本发明针对现有技术存在的上述不足，提出了一种基于多尺度特征融合及双注意力机制的人群计数方法，并实现对图像中的小尺寸目标进行检测。

为了实现上述发明目的，本发明采用以下技术方案：

(1)针对人群计数图像数据特点，基于相机的成像原理以及画面的透视畸变，提出了基于透视关系的密度图生成方法。

(2)使用VGG-16网络的第4,7,10层分别提取特征，经过多尺度特征融合网络(Multi-scale Feature Fusion,MFF)，得到多尺度特征，通过加权求和操作和1×1卷积层，整合三层分别提取的特征。

(3)将提取的特征送入空间-通道双注意力机制(Spatial Channel-dualAttention,SCA)，实现对无关特征的弱化，再通过上下层融合，最后经过卷积层生成密度图。

本发明采用以上技术方案，具有以下优点：(1)本文根据相机的成像原理以及画面的透视畸变，提出基于透视关系的密度图生成方法。结合透视关系，各人物的标注范围准确，能够在很大程度上发挥各算法的优势，能够较快地应用到其他的人数统计数据集而不通过繁琐的参数实验。(2)使用VGG-16网络的第4,7,10层分别提取多尺度特征，且VGG-16模型深度较小，能够在保证足够源域特征的同时兼顾小尺寸目标。并且本发明还可将VGG模型进行迁移，使得本发明具有更强的特征表达与抗干扰性能。(3)使用MFF模块和SCA模块还能从多个感受野中提取多尺度信息和融合多个尺度中的特征，达到丰富细节特征的目的。并且排除背景中的干扰，弱化无关特征，强调重要特征。

附图说明

图1为一种基于多尺度特征融合及双注意力机制的人群计数方法的流程图。

图2为一种基于多尺度特征融合及双注意力机制的人群计数方法的网络框架图。

具体实施方式

为了使本发明更加清晰明了，下面结合具体实施方式并参照附图，更详细的描述本发明。应该理解，本发明可采用多种形式实现，而不被附图及下文描述的实施方式所限制。提供附图及下文描述的实施方式是为了能够让本发明更加完整及准确地被本领域技术人员所理解。

如图1和2所示，本发明一种基于多尺度及双注意力机制的小尺寸人群计数网络，包括如下五个步骤：

步骤一：对输入的图像数据进行预处理，从而生成密度图：

针对人数估计，数据集将画面中的行人标记分别以头部某点的位置坐标(头部轮廓几何中心最佳)的形式保存，也就是点标注形式。主要是由于以下几点原因：首先是使用打点方式标注，会大大提高效率，并且也不用过分地去考虑每个目标精确的尺寸问题；其次是因为人体头部包含的信息较多，并且在高密度人群中，仅仅就头部可见。因此使用点标注来标注头部，是人群估计中较为普遍的标注方式。假设目标的标记坐标为p_i，则对图像中n个目标的总体标注函数为

对于点标注，Chen等将每个目标的标注坐标都与二维高斯低通滤波函数G_σ(P)进行卷积操作，而后就将形成整体的目标密度图D(p),即：

经过此操作，就可将孤立的点标注扩散至贴合目标头部轮廓的置信密度分布。如果假设目标头部是圆形，通过限定二维离散高斯低通滤波函数的作用区间和标准差，就可以使得单个目标在此区间内的密度积分求和为1，就可以拟合图像中的具体人数。

Zhang等提出使用KNN算法自适应地估计图像中目标的尺寸，但由于场景的密集程度并不存在严格划分标准，难以形成一个统一、可移植的泛化方案。鉴于此，本文根据相机成像原理及图像的透视畸变问题，提出了基于透视关系的密度图生成方法。由于各成像设备的陈设一般都为水平放置，会导致在同一水平线上的人的尺度大致相同，符合远小近大的成像原理，根据此关系可得出人群分布的位置与图像上的纵坐标呈正相关关系。首先设目标头部的尺寸为P_x，则可得出整体图像的透视关系为

P_x＝k*P_y+b (3)

上述公式中，P_y表示图像中的纵坐标，k表示透射畸变因子，b为偏移因子，其中k以及b为待定系数。想要确定k和b这两个数，可以根据图像中两个纵坐标位置不同的目标人头，从而确定整幅图像的透视关系，选择两个纵坐标不同的目标P_x1，P_x2，可得

b＝P_x1-k*P_y1 (5)

由公式(4)(5)可得出：

由此方法即可对图像中的人群进行标注，从而生成密度图。

步骤二：使用VGG-16的前十层提取特征，并从第4,7,10层分别提取多尺度特征：

F_i和F_d为基于多尺度特征融合及双注意力机制模型的输入与输出，使用VGG-16在其第4,7,10层分别提取特征，此为特征提取，而后将提取的三个层的特征分别输入进三个MFF中进行特征融合，并将深层融合的特征作为输入，传递给浅层，可得

其中H(·)表示卷积操作，

表示逐像素相乘操作，F′_in表示经过MFF层进行过多尺度特征融合的深层输出特征，F_in就是浅层特征和深层特征融合后的多尺度特征。将低层网络的融合特征F′_in与高层网络所提取的特征F_out进行逐像素相乘操作，可以使得低高层特征进行融合，得到丰富的上下文信息。

步骤三：将从VGG-16中提取的三个特征分别送入三个多尺度特征融合(MFF)模块，并使用concat操作来进行高低层特征融合，实现多尺度特征融合：

MFF模块以此来扩大低层特征中的感受野，使其能将语义表征能力增强。本模块具体构成如图1中MFF模块所示。在MFF网络中，首先使用1个1×1的卷积层来对特征映射的通道进行压缩整合，并且由于低层网络的感受野较小，其语义表征能力弱，因此将整合的低层特征分别送入三个膨胀率不同的膨胀卷积网络中，可得

F′_in＝K(D(H(F_in),d＝1),D(H(F_in),d＝2),D(H(F_in),d＝3)) (8)

其中H(·)表示卷积操作，K(·)表示concat操作，D(·)表示膨胀卷积操作及其中的d为膨胀率。F_in经过三列膨胀卷积操作，使用concat操作进行多尺度的特征融合，再经过卷积操作之后得到F′_in。

步骤四：将特征F′_in送入空间-通道双注意力(SCA)模块，强调重要特征，忽视无关特征：

使用通道注意力网络，学习各通道的依赖程度，并根据依赖程度对不同的特征图进行调整，再结合使用空间注意力，此举不仅仅弥补了通道注意力的某些不足之处，并且也使结构的重点目光落在了输入图像中拥有的重要的丰富的信息的地方，并忽略了无关特征信息。本模块的具体构成如图1中SCA模块所示。首先将输入的特征F_f，分别送进两个不同的通道，然后进行1×1的卷积操作来整合特征，再分别在两个通道中经过最大池化层和平均池化层。可得

F_f＝K(M((A(H(F_i),2)²),2),A((M(H(F_i),2)²),2)) (9)

其中H(·)表示卷积操作，K(·)表示concat操作，M(·)表示最大池化操作，A(·)表示平均池化操作，公式(10)中的2表示pool＝2。使用最大池化层M(·)可以收集目标中的更细节的线索，而平均池化层A(·)可以将特征进行压缩，此时就实现了在通道上关注人群特征。而后又将已经经过处理的特征快速进行不同于上一次的平均池化以及最大池化，就加上了空间注意力。

而后将处理过的特征F_f进行上采样，将其与原始特征F_i进行逐像素相乘操作，就能得出输出特征F_o，可得

其中Upsample(·)表示上采样操作，

表示逐像素相乘操作。

步骤五，通过concat融合操作，再经过1×1卷积生成最终密度图：

将特征F_o输入密度图生成模块，可得

其中H(·)表示卷积操作，K(·)表示concat操作，

表示逐像素相加操作，F′_o，F″_o,F″′_o分别为第4,7,10层经过SCA模块的特征，F′_d为三个层concat之后的最终特征信息层级。而后将F′_d送入1×1卷积层中，就可得到密度图F_d。

为了验证本发明所述基于多尺度特征融合及双注意力机制的人群计数方法的有效性，在Shanghaitech数据集和Mall数据集上进行实验，。本文的实验平台为：Ubuntu20.04,Nvidia RTX 2080Ti GPU,Intel(R)Core(TM)i7-9700 CPU。采用的深度学习框架为Pytorch，采用的评价指标为((Mean Absolute Error)MAE和(Mean Square Error)MSE。在Shanghaitech数据集上，选取三种基于深度学习的人群计数方法作为对比方法，具体为：

方法1：Y.Li,X.Zhang,and D.Chen,"CSRNet:Dilated Convolutional NeuralNetworks for Understanding the Highly Congested Scenes,"in computer visionand pattern recognition,2018,pp.1091-1100.

方法2：Z.Duan,Y.Xie,and J.Deng,"HAGN:Hierarchical Attention GuidedNetwork for Crowd Counting,"IEEE Access,vol.8,pp.36376-36385,2020.

方法3：Y.Zhang,D.Zhou,S.Chen,S.Gao,and Y.Ma,"Single-Image CrowdCounting via Multi-Column Convolutional Neural Network,"in IEEE Conference onComputer Vision and Pattern Recognition,2016,pp.589-597.

在Mall数据集上，选取两种基于深度学习的人群计数方法作为对比方法，具体为：

方法4：E.Walach and L.Wolf,"Learning to Count with CNN Boosting,"inEuropean Conference on Computer Vision,2016,pp.660-676.

方法5：X.Kong,M.Zhao,H.Zhou,and C.Zhang,"Weakly Supervised Crowd-WiseAttention For Robust Crowd Counting,"in IEEE International Conference onAcoustics,Speech and Signal Processing,2020,pp.2722-2726:IEEE.

对比的实验内容如下：

Shanghaitech数据集分为两部分：Shanghaitech Part_A(简称SHA)和Shanghaitech Part_B(简称SHB)，SHA源于互联网照片，由训练集中的300张图像和测试集中的182张图像构成。SHB拍摄于上海繁华的街道，由400张训练图像和316张测试图像构成。Mall数据集获取于国外某购物中心，由拍摄视频中抽取的2000帧图片构成且场景固定。本发明的目标对象是小尺寸密集人群，过深的网络将存在过度的冗余，不利于性能特征的移植，因此采用的是VGG模型，此模型深度较小，能够在保证拥有足够的源域特征的前提下兼顾小尺寸目标。而后将Adam作为优化器，其具备计算效率高、内存要求低等优点；设置初始学习率(Learning rate)为0.00001；同时为了使梯度下降方向更稳定与准确，防止震荡，令每次训练输入所选取的样本数(batch size)等于4，并随机打乱每次样本的输入顺序。

本发明实验结果如表1和表2所示，Shanghaitech数据集SHA上MAE/MSE分别为62.1/98.19，与方法3相比，MAE/MSE分别降低了48.1/75.01，与最新的方法2相比，MAE/MSE也降低了3.1/8.21；SHB上MAE/MSE为8.3/12.49。与方法1相比，MAE/MSE分别降低了18.1/28.81，与最新的方法2相比，MAE/MSE也降低了1.7/5.11。Mall数据集上MAE/MSE分别为1.5/2.13。与方法4相比，MAE降低了0.51，与方法5相比，MAE/MSE也降低了0.56/0.77。

表1不同算法在Shanghaitech数据集上的测试结果

表2不同算法在Mall数据集上的测试结果

Claims

1.一种基于多尺度特征融合及双注意力机制的人群计数方法，其特征包括以下步骤：

(1)针对人群计数图像数据特点，基于相机的成像原理以及画面的透视畸变，提出了基于透视关系的密度图生成方法；

(2)使用VGG-16网络的第4,7,10层分别提取特征，经过多尺度特征融合网络(Multi-scale Feature Fusion,MFF)，得到多尺度特征，通过加权求和操作和1×1卷积层，整合三层分别提取的特征；

(3)将提取的特征送入空间-通道双注意力机制(Spatial Channel-dual Attention,SCA)，最后经过卷积层生成密度图。

2.根据权利要求1所述的方法，其特征在于(1)中密度图生成方法如下：

首先设目标头部的尺寸为P_x，则可得出整体图像的透视关系为

P_x＝k*P_y+b (1)

上述公式中，P_y表示图像中的纵坐标，k表示透射畸变因子，b为偏移因子，其中k以及b为未知数，因此想要确定这两个数，就可以根据图像中两个纵坐标位置不同的目标人头，从而确定整幅图像的透视关系，选择两个纵坐标不同的目标P_x1，P_x2，可得

b＝P_x1-k*P_y1 (3)

由(2)(3)公式可得出：

由此方法即可对图像中的人群进行标注，从而生成密度图。

3.根据权利要求1所述的方法，其特征在于(2)中构建VGG-16特征提取网络，构建方法如下：

其中H(·)表示卷积操作，

表示逐像素相乘操作，F′_in表示经过MFF层进行过多尺度特征融合的深层输出特征，F_in就是浅层特征和深层特征融合后的多尺度特征；将低层网络的融合特征F′_in与高层网络所提取的特征F_out进行逐像素相乘操作，可以使得低高层特征进行融合，得到丰富的上下文信息。

4.根据权利要求1所述的方法，其特征在于(2)中构建多尺度特征融合网络，构建方法如下：

在MFF网络中，首先使用1个1×1的卷积层来对特征映射的通道进行压缩整合，并且由于低层网络的感受野较小，其语义表征能力弱，因此将整合的低层特征分别送入三个膨胀率不同的膨胀卷积网络中，可得

F′_in＝K(D(H(F_in)，d＝1)，D(H(F_in)，d＝2)，D(H(F_in)，d＝3)) (6)

其中H(·)表示卷积操作，K(·)表示concat操作，D(·)表示膨胀卷积操作及其中的d为膨胀率；F_in经过三列膨胀卷积操作，使用concat操作进行多尺度的特征融合，再经过卷积操作之后得到F′_in；MFF模块以此来扩大低层特征中的感受野，使其能将语义表征能力增强。

5.根据权利要求1所述的方法，其特征在于(3)中构建双注意力机制，构建方法如下：

在SCA模块中，首先将输入的特征F_f，分别送进两个不同的通道，然后进行1×1的卷积操作来整合特征，再分别在两个通道中经过最大池化层和平均池化层；可得

F_f＝K(M((A(H(F_i)，2)²)，2)，A((M(H(F_i)，2)²)，2)) (7)

其中H(·)表示卷积操作，K(·)表示concat操作，M(·)表示最大池化操作，A(·)表示平均池化操作，公式(7)中的2表示pool＝2；使用最大池化层M(·)可以收集目标中的更细节的线索，而平均池化层A(·)可以将特征进行压缩，此时就实现了在通道上关注人群特征；而后又将已经经过处理的特征快速进行不同于上一次的平均池化以及最大池化，就加上了空间注意力；

其中Upsample(·)表示上采样操作，

表示逐像素相乘操作。

6.根据权利要求1所述的基于多尺度特征融合及双注意力机制的人群计数方法，其特征在于(3)中，构建方法如下：

将特征F_o输入密度图生成模块，可得

其中H(·)表示卷积操作，K(·)表示concat操作，

表示逐像素相加操作，F′_o，F″_o，F″′_o分别为第4，7，10层经过SCA模块的特征，F′_d为三个层concat之后的最终特征信息层级；而后将F′_d送入1×1卷积层中，就可得到密度图F_d。