CN114973112B

CN114973112B - 一种基于对抗学习网络的尺度自适应密集人群计数方法

Info

Publication number: CN114973112B
Application number: CN202110189510.8A
Authority: CN
Inventors: 严华; 陈欣钥
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2024-04-05
Anticipated expiration: 2041-02-19
Also published as: CN114973112A

Abstract

本发明提供了一种基于对抗学习网络的尺度自适应密集人群计数方法。密集人群计数普遍存在两大难题：一是对象的尺度变化大；二是可使用的数据集的规模小。为了解决这两个难题，本发明提出了以下技术方案：首先，构建对抗学习网络ASANet，使密集人群计数与目标检测形成博弈关系；然后，输入图像经过多层次的特征融合模块和多尺度的膨胀卷积模块后，提取出多层次多尺度的特征，再经过上采样层输出预测密度图，同时由回归器输出目标检测框；然后，基于预测密度图，联合使用归一化的欧几里得距离损失函数和对抗损失函数对网络ASANet进行训练，同时基于目标检测框，使用Focal损失函数对网络ASANet进行训练。实验结果表明，本发明方法能够有效地进行密集人群计数。

Description

一种基于对抗学习网络的尺度自适应密集人群计数方法

技术领域

本发明涉及一种计算机视觉技术领域的密集人群计数方法，具体涉及一种基于对抗学习网络的尺度自适应密集人群计数方法。

背景技术

密集人群计数旨在自动估计图像或视频中的人数。近年来，随着密集人群计数任务中的人群密度不断增大且场景复杂化，大量的密集人群计数方法涌现出来。密集人群计数可以应用在很多实际任务中，比如人流量监测、交通管控和空间设计等，所以人群计数任务具有很大的研究价值。

现有的密集人群计数方法分为传统方法和深度学习方法，传统方法包括基于检测的方法和基于回归的方法。基于检测的人群计数方法大多采用滑动窗口来检测行人并计数，它们通常是利用从行人身上提取到的小波、HOG、边缘等低级特征来检测行人。但基于检测的方法仅在稀疏人群场景中取得了较好的效果，根本无法处理密集人群场景。因为密集人群场景中存在着严重的遮挡现象，所以无法通过滑动窗口检测到行人的整体特征。虽然前人提出了具有低阈值的头部滤波器，可以通过检测图像中的人头来检测行人，从而减轻了人群遮挡对人群计数任务造成的影响，但基于检测的方法始终依赖于对物体的准确检测和分割，所以此算法仍然无法应对高密度人群场景中存在的严重的遮挡现象。基于回归的人群计数方法的中心思想是建立一种从特征到人群数量的映射关系，其实现步骤分为两步：(1)从图像中提取有效的低级特征，比如边缘、前景、纹理等特征。(2)根据提取到的低级特征，通过回归模型计算人群数量。基于回归的方法虽然可以解决密集场景，但忽略了对象的位置信息。

深度学习方法包括基于卷积神经网络(CNN)的方法，由于CNN被成功地应用于分类和识别任务中，所以近年来CNN被引入密集人群计数领域，其对非线性关系有着强大的学习能力，因此非常适合于密集人群计数。目前，针对单帧图像的密集人群计数仍存在两大研究难点：一是图像中存在较大范围的尺度变化，对特征提取造成了极大的困难；二是可使用的密集人群计数数据集的规模太小，导致训练得到的模型通常只适应特定场景。

发明内容

本发明的目的是为了解决密集人群计数中对象的尺度变化和训练样本少的问题。本发明提出的多层次特征融合模块和多尺度膨胀卷积模块，通过融合多层次多尺度的特征图，解决了尺度变化的问题，同时提出的对抗学习模型利用博弈思想，引入目标检测，与密集人群计数形成对抗学习结构，从而解决了训练样本少的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于对抗学习网络的尺度自适应密集人群计数方法，包括以下步骤：

(1)通过构建对抗学习网络ASANet，密集人群计数与目标检测形成博弈关系，两者在训练过程中自动更新进化；

(2)将密集人群计数的RGB图像输入密集人群计数分支的特征提取器，输出多层次多尺度的特征图，再经过四倍上采样，输出高质量的预测密度图，同时将目标检测的RGB图像输入目标检测分支的特征提取器，输出多层次多尺度的特征图，再经过回归器，输出目标检测框坐标；

(3)将密集人群计数和目标检测的RGB图像同时输入共享分支的特征提取器，输出两个多层次多尺度的特征图，再由鉴别器鉴别两个特征图是源于密集人群计数还是目标检测的图像；

(4)基于步骤(2)中得到的密度图，联合使用归一化的欧几里得距离损失函数和对抗损失函数对网络ASANet进行训练；基于步骤(2)中得到的目标检测框坐标，使用Focal损失函数对网络ASANet进行训练；

(5)将测试图像输入经过步骤(4)训练后的网络ASANet，输出具有与输入图像相同分辨率的预测密度图，再用平均绝对误差和均方误差对网络进行评估。

附图说明

图1是本发明实施例中尺度自适应对抗学习网络ASANet结构示意图。

图2是本发明实施例中多层次特征融合模块FFB结构示意图。

图3是本发明实施例中多尺度膨胀卷积模块SDCB结构示意图。

图4是本发明的预测密度图示意图。

具体实施方式

下面结合实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

本发明提出了一种基于对抗学习网络的尺度自适应密集人群计数方法，包括以下步骤：

具体地，所述步骤(1)中，构建对抗学习网络ASANet，其结构如图1所示，包括一个密集人群计数分支CCPB，一个目标检测分支ODPB和一个共享分支。

所述步骤(2)中，密集人群计数分支结构如图1第一行所示，目标检测分支结构如图1第三行所示。密集人群计数分支与目标检测分支的特征提取器相同，皆由一个图2所示的多层次特征融合模块FFB和一个图3所示的多尺度膨胀卷积模块SDCB组成。FFB包含14层卷积核大小为3×3的卷积层和4层步长为2的最大池化层，堆叠顺序为2层卷积层、1层最大池化层、2层卷积层、1层最大池化层、4层卷积层、1层最大池化层、4层卷积层、1层最大池化层、2层卷积层。图像输入FFB后，通过将第8、12和14层卷积层的特征图融合起来，得到多层次的特征信息。SDCB将膨胀系数分别为1、2、3且卷积核大小为3×3的三个卷积层并列排布，根据膨胀系数不同的卷积拥有不同的感受野这一特性，FFB输出的特征图再经过SDCB可得到多尺度的特征信息。通常来说，每个通道上的特征图对预测密度图的贡献不等，所以在三个并排的卷积层后面分别添加一个通道注意力组件，从而提高预测密度图的准确度。不同的是，在密集人群计数分支中，特征提取器的后面连接一个亚像素卷积层，目的是为了将特征图上采样四倍，还原到输入时的分辨率大小；在目标检测分支中，特征提取器后面连接一个包含三个可分离卷积层的回归器，目的是为了将特征图上的信息进行映射，从而回归出目标检测框的坐标信息。

所述步骤(3)中，共享分支由特征提取器和鉴别器组成，结构如图1中间分支所示。共享分支的特征提取器与步骤(2)所述的特征提取器相同，包括一个FFB和一个SDCB；共享分支的鉴别器包括一个梯度反转层、三个3×3的卷积层、一个全连接层和一个softmax层。将密集人群计数和目标检测的RGB图像同时输入共享分支的特征提取器后，分别输出了两个多层次多尺度的特征图，再将这两个特征图输入鉴别器，输出0～1之间的值，根据预先设定的密集人群计数任务为0，目标检测任务为1，鉴别器需要通过最小化损失函数使密集人群计数图像生成的值接近0，同时使目标检测图像生成的值接近1。

所述步骤(4)中，联合损失函数由归一化的欧几里得距离损失函数和对抗损失函数加权求和得到。在训练过程中，ASANet分为两部分进行训练，第一部分由密集人群计数分支与共享分支组成，第二部分由目标检测分支与共享分支组成，两个部分进行交替训练，即最小化联合损失函数来更新第一部分，最小化Focal损失函数来更新第二部分，从而实现了提取密集人群计数和目标检测的相似特征来辅助密集人群计数任务的目的，且得到的相似特征排除了目标检测的特异性。

归一化的欧几里得距离损失函数由公式(1)定义，

其中，崈表示样本数，X_i表示输入图像，θ表示网络参数，D(X_i；θ)表示预测密度图,表示标记密度图，(m，n)表示密度图中像素点的坐标，W和H表示标记密度图的宽和高；

对抗损失函数由公式(2)定义，

其中，x_i表示第i个类别，x_j表示第j个类别；

联合损失函数由公式(3)定义，

L＝L_nel(θ)+λL_adv (3)

其中，λ为所加权重；

Focal损失函数由公式(4)定义，

FL(p_t)＝-α_t(1-p_t)²log(p_t) (4)

其中，α∈[0，1]是权重因子。

所述步骤(5)中，测试图像输入经过步骤(4)训练后的网络ASANet，然后输出具有与输入图像相同分辨率的预测密度图。测试图像经过密集人群计数分支的特征提取器后输出64通道的特征图，再利用亚像素卷积层将64通道的特征图扩大四倍，输出单通道的预测密度图，其目的在于通过扩大预测密度图的分辨率而保持标记密度图的分辨率，从而保证了标记密度图的真实性，最后基于上采样后的预测密度图和标记密度图计算平均绝对误差和均方误差，以此来评估该密集人群计数方法的有效性。

为了更好地说明本发明的有效性，图4可视化了本发明和两种其他方法生成的预测密度图，便于直观地比较各种方法的优劣。从图4中可以看出，CMTL方法生成的预测密度图效果最差，本发明生成的预测密度图效果最好。除此之外，表1、2、3展示了平均绝对误差MAE和均方误差MSE两个指标，定量地说明了本发明的优势。表1展示了本发明在ShanghaiTech数据集上与其他方法的结果对比；表2展示了本发明在UCF_CC_50数据集上与其他方法的结果对比；表3展示了本发明在UCF_QNRF数据集上与其他方法的结果对比。

对比的方法为:

【1】MCNN:参考文献“Y.Zhang,D.Zhou,S.Chen,S.Gao,Y.Ma,Single-image crowdcounting via multi-column convolutional neural network,in:The IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),2016.doi:doi:https://doi.org/10.1109/cvpr.2016.70.”；

【2】Switching-CNN:参考文献“D.Babu Sam,S.Surya,R.Venkatesh Babu,Switching convolutional neural network for crowd counting,in:The IEEEConference on Computer Vision and Pattern Recognition(CVPR),2017.doi:doi:https://doi.org/10.1109/cvpr.2017.429.”；

【3】CMTL:参考文献“V.A.Sindagi,V.M.Patel,Cnn-based cascaded multi-tasklearning of high-level prior and density estimation for crowd counting,in:2017 14th IEEE International Conference on Advanced Video and Signal BasedSurveillance(AVSS),2017.doi:doi:https://doi.org/10.1109/avss.2017.8078491.”；

【4】SaCNN:参考文献“L.Zhang,M.Shi,Q.Chen,Crowd counting viascaleadaptive convolutional neural network,in:IEEE Winter Conference onApplications of Computer Vision,2018.doi:doi:https://doi.org/10.1109/wacv.2018.00127.”；

【5】CSRNet:参考文献“Y.Li,X.Zhang,D.Chen,Csrnet:Dilated convolutionalneural networks for understanding the highly congested scenes,in:The IEEEConference on Computer Vision and Pattern Recognition(CVPR),2018.doi:doi:https://doi.org/10.1109/cvpr.2018.00120.”；

【6】PCCNet:参考文献“J.Gao,Q.Wang,X.Li,Pcc net:Perspective crowdcounting via spatial convolutional network,IEEE Transactions on Circuits andSystems for Video Technology(2019).”；

【7】DADNet:参考文献“D.Guo,K.Li,Z.-J.Zha,M.Wang,Dadnet:Dilated-attentiondeformable convnet for crowd counting,in:Proceedings of the 27th ACMInternational Conference on Multimedia,2019,pp.1823–1832.”；

【8】CAT-CNN:参考文献“J.Chen,W.Su,Z.Wang,Crowd counting with crowdattention convolutional neural network,Neurocomputing 382(2020)210–220.”；

【9】RRP:参考文献“X.Chen,Y.Bin,C.Gao,N.Sang,H.Tang,Relevant regionprediction for crowd counting,Neurocomputing(2020).”。

表1本发明与其他方法在ShanghaiTech数据集上得到的MAE和MSE

表2本发明与其他方法在UCF_CC_50数据集上得到的MAE和MSE

表3本发明与其他方法在UCF_QNRF数据集上得到的MAE和MSE

Claims

1.一种基于对抗学习网络的尺度自适应密集人群计数方法，其特征在于，包括以下步骤：

(1)构建对抗学习网络ASANet，该网络包括一个密集人群计数分支CCPB，一个目标检测分支ODPB和一个共享分支，其中密集人群计数分支与目标检测分支形成博弈关系，两者在训练过程中自动更新进化；密集人群计数分支由一个多层次特征融合模块FFB、一个多尺度膨胀卷积模块SDCB和一个上采样层组成，目标检测分支由一个FFB、一个SDCB和一个回归器组成；多层次特征融合模块FFB包含14层卷积和3层最大池化层，该模块将图像中的轮廓信息与高级语义信息相融合，从而得到多层次的特征信息；多尺度膨胀卷积模块SDBC包含三层具有不同膨胀系数的卷积和三个通道注意力组件，将三层卷积并排，每层卷积后面连接一个通道注意力组件，再将三个并排的分支融合起来，从而获取多尺度的特征信息；

(2)将密集人群计数的RGB图像输入密集人群计数分支的特征提取器，输出多层次多尺度的特征图，再经过四倍上采样，输出预测密度图，同时将目标检测的RGB图像输入目标检测分支的特征提取器，输出多层次多尺度的特征图，再经过回归器，输出目标检测框坐标；

(3)将密集人群计数和目标检测的RGB图像同时输入共享分支的特征提取器，输出两个多层次多尺度的特征图，再由鉴别器鉴别两个特征图是源于密集人群计数还是目标检测的图像；共享分支包括一个FFB、一个SDCB和一个鉴别器，将两张图像输入由FFB和SDCB组成的特征提取器后，输出对应的两张特征图，再将这两张特征图输入鉴别器，输出0～1之间的值，然后利用softmax损失函数更新共享分支的权重；鉴别器包括梯度反转、三个卷积层、一个全连接层和一个softmax层；

2.如权利要求1所述的一种基于对抗学习网络的尺度自适应密集人群计数方法，其特征在于步骤(4)中所述的联合损失函数，该联合损失函数由归一化的欧几里得距离损失函数和对抗损失函数加权求和得到，训练过程中网络ASANet根据最小化联合损失函数更新权重；

所述的归一化的欧几里得距离损失函数由公式(1)定义，

其中，N表示样本数，X_i表示输入图像，θ表示网络参数，D(X_i；θ)表示预测密度图,表示标记密度图，(m,n)表示密度图中像素点的坐标，W和H表示标记密度图的宽和高；