CN109543695B

CN109543695B - 基于多尺度深度学习的泛密度人群计数方法

Info

Publication number: CN109543695B
Application number: CN201811255311.7A
Authority: CN
Inventors: 田宇坤; 张军平
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2023-01-06
Anticipated expiration: 2038-10-26
Also published as: CN109543695A

Abstract

本发明属于计算机视觉及智能交通技术领域，具体为一种基于多尺度深度学习的泛密度人群计数方法，称为PaDNet。本发明使用多个子网络去学习特定的人群尺度特征，首先对数据集进行聚类，将数据集划分为多种密度等级：低密度数据集、中密度数据集、高密度数据集；用特定密度等级的数据去预训练特定的子网络，然后通过一个尺度增强网络来加强尺度特征；最后，将所有的尺度特征通过一个融合网络融合起来生成最终的密度图来进行计数。本发明可以使得特定的子网络学习到准确的尺度特征，进而不同的网络能识别不同密度等级人群特征，更加准确的进行人群计数。

Description

基于多尺度深度学习的泛密度人群计数方法

技术领域

本发明属于计算机视觉及智能交通技术领域，具体涉及基于多尺度深度学习的人群计数方法。

背景技术

人群计数是计算机视觉和机器学习领域的难点、热点之一。当给定人群图像，要求根据计算机视觉或者机器学习算法输出行人数量。目前该领域有不少前人工作，其主要方法可以分为两大类：基于检测的方法、基于特征回归的方法。以下是这两类方法的一些参考文献：

[1]Dalal,N.,and Triggs,B.2005.Histograms of oriented gradients forhuman detection.In 2005IEEE Computer SocietyConference on Computer Vision andPattern Recognition,volume 1,886–893.

[2]Ren,S.；He,K.；Girshick,R.；and Sun,J.2017.Faster RCNN:Towards real-time object detection with region proposalnetworks.IEEE Transactions onPattern Analysis and Machine Intelligence 39(6):1137–1149.

[3]Felzenszwalb,P.F.；Girshick,R.B.；McAllester,D.；andRamanan,D.2010.Object detection with discriminatively trained part-based models.IEEETransactions on PatternAnalysis and Machine Intelligence 32(9):1627–1645.

[4]Wu,B.,and Nevatia,R.2007.Detection and tracking ofmultiple,partially occluded humans by Bayesian combinationof edgelet based partdetectors.International Journal ofComputer Vision 75(2):247–266.

[5]Chan,A.B.,and Vasconcelos,N.2009.Bayesian poissonregression forcrowd counting.In 2009IEEE InternationalConference on Computer Vision,545–551.

[6]Ryan,D.；Denman,S.；Fookes,C.；and Sridharan,S.2009.Crowd countingusing multiple local features.In 2009DigitalImage Computing:Techniques andApplications,81–88.

[7]Lempitsky,V.S.,and Zisserman,A.2010.Learning to countobjects inimages.In International Conference on NeuralInformation Processing Systems,1324–1332.

[8]Wang,C.；Zhang,H.；Yang,L.；Liu,S.；and Cao,X.2015.Deep peoplecounting in extremely dense crowds.In ACMInternational Conference onMultimedia,1299–1302.

[9]Zhang,Y.；Zhou,D.；Chen,S.；Gao,S.；and Ma,Y.2016.Single-image crowdcounting via multi-column convolutionalneural network.In 2016IEEE Conferenceon ComputerVision and Pattern Recognition,589–597.。

基于检测的方法，[1]主要通过在人群图像中抽取共同特征，用这些特征训练一个分类器,去检测图片中的行人。近年来，许多研究人员开始使用卷积神经网络来做行人检测，[2]通过卷积神经网络来提取丰富的人群特征。但是基于检测的方法在密集人群场景中效果较差，因为密集场景中有严重的人群遮挡问题。为了克服遮挡问题，[3]，[4]使用一个检测器去检测身体的特定部分或者区域。基于检测的方法仅仅适用于稀疏的人群场景中。

为了更好地解决人群中遮挡问题。基于回归的方法被广泛地使用到人群计数中。[5]，[6]通过HOG或者LBP等特征，学习到了一个从特征到人数地映射。与此不同的是[7]通过回归一个密度图而不是人数，加和密度图的所有像素点，就能得到人群总数。密度图包含了丰富的人群空间分布信息。近年来，卷积神经网络被广泛地用于人群计数，密度图预测。[8]提出了一个端到端的深度卷积网络用于人群估计。[9]提出了一个MCNN框架多个子网络配置不同的卷积核大小，来实现多尺度特征学习，来预测密度图。这些方法在单一固定的稀疏场景中都有着不错的效果，但是在不同场景，不同密度等级的人群密度时(例如，人群密度从极度稀疏变化到极度密集)效果较差。

本发明提出一种基于多尺度深度学习的人群计数方法，来准确估计泛密度的人群数。本发明主要解决了两个问题，一个问题是泛密度场景下人群计数效果差，另一个问题是当前的多尺度计数仅仅只能粗糙地学习到多尺度特征，本发明提出的方法可以使用不同的子网络准确地学习到不同尺度的特征，用于人群计数。

发明内容

本发明的目的在于提出一种用于泛密度场景下，计算精度高的人群计数方法。

本发明提出的人群计数方法，是基于多尺度深度学习，称为PaDNet。首先通过聚类算法将图像分为3类，分别为低密度数据集、中密度数据集、高密度数据集。然后用不同密度的数据集去预训练PaDNet不同的子网络，再通过一个尺度增强网络来加强对应的尺度特征；最后融合多个子网络的特征生成最后的密度图。具体的步骤为：

(1)图像数据预处理，增广人群训练数据

将图像大小调整为720*720，所有图像保持相同的尺寸大小；从调整后的图像裁剪出patch图片，patch大小为原图的四分之一，4个patch不重叠从原图裁剪出，然后再随机从原图中裁剪出5个patch图片；最后对这9个patch图片进行水平翻转，每张原图共产生18张patch图片；

(2)计算每个图片patch的密度值D，使用K-MEANS聚类算法将所有图片patch聚为K类；数据集合为：

S＝{S₁,S₂,……,S_k}

S为总的数据集，S_i,表示第i类密度等级的数据集；

(3)搭建K个子网络；每个子网络由一个共享的特征提取网络和对应的密度网络组成，其中，特征提取网络由一个预训练vgg-16的前10层卷积层组成；每个子网络具有不同大小的卷积核，以识别不同大小的人头特征性；用聚类得到不同密度等级的数据去预训练特定的子网络；

(4)搭建尺度增强网络(SRN)；SRN由空间金字塔池化层和全连接层构成；将每个子网络生成尺度特征送入到SRN中，进一步加强对应的尺度特征；

(5)搭建融合网络(Fusion Net)；将每个子网络增强后的特征送入融合网络中进行融合，生成最终的密度图；将整个密度图的像素点加和，即得到最终的人群数。

本发明步骤(2)中，所述的计算图片patch的密度值D以及划分数据集的步骤为：

(a)对于每一个人头标记，使用K近邻算法找出最近的K个人头位置；密度值D可通过如下公式计算：

符号N表示图片中人的数量，K表示计算第i个人周围K个人的位置，d_ij表示人头i和人头j之间的距离；

(b)根据计算的密度值D使用K-MEANS算法聚类，将整个数据集划分为K类；聚类会产生每一类的样本不平衡问题，不断重复裁剪图片聚类操作，来平衡各类别之间的图片数量。

本发明步骤(3)中，搭建K个子网络的步骤为：

(a)选取预训练的vgg-16的前10卷积层层作为所有子网络的共享特征提取层；在具体实验时，设置K＝3；

(b)三个子网络分别为低密度子网络，中密度子网络，高密度子网络，三个子网络具有不同大小的卷积核配置，来识别不同大小的人头特征；低密度子网络的卷积核大小分别为(9，9)，(9，9)，(7，7)，(5，5)，(5，5)；中密度子网络的卷积核大小分别为(7，7)，(7，7)，(5，5)，(3，3).高密度子网络的卷积核大小分别为(5，5)，(5，5)，(5，5)，(3，3)，(3，3)；

(c)使用特定等级密度的数据集去预训练特定的子网络；训练损失函数为：

N表示图片数量，Z(X_i；θ)表示预测的密度图，

表示对应的密度图标签；X_i表示第i张图片，θ表示网络参数。

本发明步骤(4)中，搭建尺度增强网络(SRN)的步骤为：

(a)尺度增强网络由空间金字塔池化层和全连接层构成；将子网络生成的特征图FM₁，FM₂和FM₃送入到空间金字塔池化层；金字塔池化层经过3次最大池化操作，将所有特征图转化为42*1维的向量；

(b)将空间金字塔池化层产生的42*1维的向量送入到3个神经元的全连接层：

v_i是每个全连接层的输出值，C是神经元的个数，通过如下方式来增强尺度特征：

FM″_i＝(1+σ(v_i))FM_i

1表示保存原始尺度特征，σ(v_i)表示对尺度特征的增强程度；交叉熵损失函数用来训练尺度增强网络：

N表示图片的数量，C表示类别数，y_i表示第i个样本的密度等级标签，F(X_i,θ)是全连接层的分类预测。

本发明步骤(5)中，搭建融合网络的步骤为：

(a)融合网络由4层卷积层构成，卷积核大小与输出通道数依次为(7，(5，32)，(3，32)，(3，1).经过尺度增强网络增强的特征FM″_i拼接起来，送入到融合网络融合；

(b)在融合网络的最后一层卷积层前加入跳连接操作，将子网络的特征FM_i与32个通道特征拼接起来，生成最后的密度图；

(c)将预测得到的密度图所有像素点加和，得到图中的预测人数；

其中，总的训练损失函数为：

L＝L(θ)+αL_cls

L表示总损失函数，L(θ)是训练PaDNet融合网络的损失函数，其中符号含义与预训练子网络的损失函数含义相同，L_cls是尺度增强网络的损失函数。

附图说明

图1：本发明模型结构。

图2：数据集人数直方图展示。

图3：ShanghaiTech数据集样例展示。

图4：UCF_CC_50数据集样例展示。

图5：UCSD数据集样例展示。

图6：UCF-QNRF数据集样例展示。

图7：密度图预测效果样例展示。

具体实施方式

介绍了本发明的算法原理和具体步骤之后，下面展示该发明在目前4个公共人群数据的测试效果。

实验采用四个数据集，包括ShanghaiTech数据集、UCF_CC_50数据集、UCSD数据集和UCF-QRNF数据集。

ShanghaiTech数据集包含1198张人群图像，总计对330165个人进行了标记。这个数据分为A，B两部分。数据集A的图片从互联网爬取得到，共482张图片。300张用于训练，剩下的182张用于测试。数据集B的图片来自上海市的繁华街道，共716张图片。400张用于训练，剩下的316张用于测试。图2展示了ShanghaiTech数据集的样例图像。

UCF_CC_50数据集是一个极度密集的人群数据集，包括50张不同分辨率图片。人数范围在94到4543之间。平均每张图片包含1280个人。图3展示UCF_CC_50数据集的样例图像。

UCSD是一个灰度行人图像数据集，包含2000张连续的158*238像素的图像，图像帧率(fps)为10张每秒。由于帧率较高，图像中有1684张相邻的图像人数是相同的，这些连续的图像特征很相似，所以存在大量冗余。图4展示了UCSD数据集的一些示例图像。按照以往大量的实验设置，该数据集的第601到1400帧图像作为训练集，剩余的1200帧图像作为测试集。

UCF-QNRF数据集是一个新的，目前最大人群数据集。一共包含1535张密集人群图片。1201张图片用来训练，剩下的334张用来测试。UCF-QNRF图片最小以及最大的人群数分别为49和12865。本数据在密度等级以及尺度上都有剧烈的变化。图5展示了UCF-QNRF数据集的一些示例图像。

试验中，采用平均绝对误差(MAE)和均方根误差(MSE)，MAE的定义方式为：

MSE的定义方式为：

MAE代表了算法的准确性，MSE代表了算法的鲁棒性。

实验例1：算法在ShanghaiTech数据上的性能

表1：算法在ShanghaiTech数据集与别的方法性能比较

实验例2：算法在UCF_CC_50数据集上的性能

表2：算法在UCF_CC_50数据集与别的方法性能比较

实验例3：算法在UCSD数据集上的性能

表3：算法在UCSD数据集与别的方法性能比较

Method	MAE	MSE
			Zhang et al.	1.60	3.31
MCNN	1.07	1.35
			Switch-CNN	1.62	2.10
ACSCP	1.04	1.35
			CSRNet	1.16	1.47
SANet	1.02	1.29
			PaDNet	0.82	1.03

。

实验例4：算法在UCF-QNRF数据集上的性能

表4：算法在UCF-QNRF数据集与别的方法性能比较

Method	MAE	MSE
			Idrees et al.(2013)	315.0	508.0
CMTL	252.0	514.0
			Resnet101	190.0	277.0
Densenet201	163.0	226.0
			MCNN	277.0	426.0
Switch-CNN	228.0	445.0
			Idress et al.(2018)	132.0	191.0
PaDNet	107.8	187.1

。

实验例5：密度图可视化效果比较

图7展示了生成的密度图的效果对比。图7第一列是原始图片，第二列是密度图标签，第三列是当前一个最新的算法效果(CSRNet)，第四列是本发明预测的密度图效果。从图7可以看出，本发明不论是在稀疏的场景还是密集的场景，预测的密度图的质量都比较高，准确度高。然而CSRNet在稀疏人群场景中表现较好，在密集人群场景中，预测的密度图会变得模糊。

从上面五个实验可以看出，本发明提出的框架PaDNet在所有数据集上取得了最好的性能。其他比较的算法都是计算机视觉，人工智能领域近几年的顶级会议论文。

Claims

1.一种基于多尺度深度学习的泛密度人群计数方法，其特征在于，具体步骤为：

(1)图像数据预处理，增广人群训练数据

S＝{S₁,S₂,……,S_K}

S为总的数据集，S_i,表示第i类密度等级的数据集；

(4)搭建尺度增强网络(SRN)；尺度增强网络由空间金字塔池化层和全连接层构成；将每个子网络生成尺度特征送入到尺度增强网络中，进一步加强对应的尺度特征；

(5)搭建融合网络(Fusion Net)；将每个子网络增强后的特征送入融合网络中进行融合，生成最终的密度图；将整个密度图的像素点加和，即得到最终的人群数；

步骤(3)中搭建K个子网络的步骤为：

(a)选取预训练的vgg-16的前10卷积层作为所有子网络的共享特征提取层；

(b)三个子网络分别为低密度子网络、中密度子网络、高密度子网络，三个子网络具有不同大小的卷积核配置，来识别不同大小的人头特征；低密度子网络的卷积核大小分别为(9，9)，(9，9)，(7，7)，(5，5)，(5，5)；中密度子网络的卷积核大小分别为(7，7)，(7，7)，(5，5)，(3，3)；高密度子网络的卷积核大小分别为(5，5)，(5，5)，(5，5)，(3，3)，(3，3)；