CN109344736B

CN109344736B - 一种基于联合学习的静态图像人群计数方法

Info

Publication number: CN109344736B
Application number: CN201811060252.8A
Authority: CN
Inventors: 燕然; 王朝晖; 刘纯平; 钟珊; 龚声蓉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2021-07-09
Anticipated expiration: 2038-09-12
Also published as: CN109344736A

Abstract

本发明公开了一种基于联合学习的静态图像人群计数方法，包括：预训练阶段：使用50层残差网络在ImageNet2012分类数据集上训练得到参数初始化分类器网络，通过一个Softmax将图像块分类成三种类别，分别对应三个回归器；回归器训练阶段：将训练数据集的每一个图像块都分别输入三个回归器，同一个图像块都会得到不同的计数结果，将计数误差最小的回归器作为分类标签来标记该图像块，用三种类别的图像块分别对各自的回归器进行微调；分类器训练阶段：随机抽取样本并且保证每种类别的标签数量一致；联合训练阶段：对分类器和回归器不断迭代训练。本发明能够在人群密集场景中进行计数与密度估计，具有一定的尺度自适应性，提高了计数精度与模型泛化能力。

Description

一种基于联合学习的静态图像人群计数方法

技术领域

本发明涉及一种基于联合学习的静态图像人群计数方法。

背景技术

人群计数有着重要的社会意义和市场应用前景，充分利用人数统计信息可以为一些人群密集的商场、车站、广场等公共场所的安全预警提供有效的指导，还可以带来经济效益，例如提高服务质量、分析顾客行为、投放广告和优化资源配置等。此外，人群计数方法也可以扩展到其他领域，例如从显微图像中计算细胞或细菌数量，在野外动物保护区预估动物群体，以及估计交通枢纽和交通堵塞处的车辆数量等。

静态图像人群计数一般包含人群计数与密度估计两个任务。人群计数的目的是统计静态图像中的人数，而密度估计的目的是将人群图像映射到其对应的密度图中，密度图能够表现出图像中的人群分布特征。世界人口的持续增长和随之而来的城市化导致了体育活动、政治集会、公众游行等活动的增加，从而导致近年来人群聚集场景出现地更加频繁。在这样的人群场景中，出于安全问题而分析群体行为是十分必要的。人群计数就是人群分析任务中的一个基本模块，有着重要的研究与应用价值。

部分人群计数方法是利用视频序列中的帧间关系来捕捉人群进行计数，而多数人群计数方法是对静态图像进行特征提取来计数。随着人群计数的发展与深度学习的兴起，近年来学者们的研究重点是通过卷积神经网络预测出人群密度图从而利用密度图回归的方法进行静态图像人群计数。

静态图像人群计数的传统方法依赖于手工设计的特征描述子来提取低层特征。这些特征通过各种回归技术映射成计数或密度图。现有方法可大致分为三类：基于检测的方法、基于回归的方法和基于密度估计的方法。通过结合深度学习，基于密度回归的方法在这个任务中表现出更强的能力，结果优于传统方法。

静态图像人群计数的早期研究大多数都集中在基于检测的方法上，使用一个类似于移动窗口的检测器来检测人并计算他们的数量，这些方法需要训练好的分类器来从整个人体提取低层特征(如Harr wavelets、HOG、Edgelet、Shapelet)，但是，由于大多数目标对象之间相互遮挡，它们在高度拥挤的场景中表现不佳。为了解决这一问题，研究者们将检测全身替换为检测特定的身体部位。随着卷积神经网络的兴起，研究者们开始将深度学习的方法应用于目标检测上，从而进行人群计数。

由于基于检测的方法不能适应高度拥挤的场景，研究者们试图使用基于回归的方法来学习从裁剪的图像块中提取出来的特征之间的关系，然后计算特定对象的数量，更多的特征，例如前景和纹理特征，被用来生成低层特征，通过类似的方法，Idrees提出了一个模型，使用傅里叶分析和SIFT提取特征进行基于兴趣点的计数。

当早期方法在处理遮挡和聚集问题取得成功时，大多数方法在回归全局数量时忽略了重要的空间信息。Lempitsky提出了一种解决该问题的方法，通过学习局部区域的特征与目标密度图之间的线性映射来加入空间信息。由于理想的线性映射很难获得，Pham使用随机森林来学习非线性映射。由于深度学习中的卷积神经网络在分类和识别任务中的成功，研究者们开始用基于卷积神经网络的方法来预测密度图。Walach和Wolf演示了一种选择采样和分层boosting的方法。Shang使用卷积神经网络尝试了一种端到端的回归方法，他放弃基于图像块的训练方法，将整个图像作为输入并且直接输出最终的人群数量。Boominathan纯粹地使用卷积神经网络和双列架构生成了密度图。Marsden探索了单列全卷积网络，而Sindagi提出了一个使用高层先验知识来提高密度预测性能的卷积神经网络。一个改进的结构是由Zhang提出来的，他使用一种基于多列的架构(MCNN)用于人群计数。类似的想法也出现在Onoro和Sastre的论文中，他们提出了一种规模感知、多列的计数模型，被称为“九头蛇”(Hydra)的卷积神经网络，用于目标密度估计。

目前，静态图像人群计数的研究难点在于如何在密集场景中进行人群计数与密度估计，密集场景是指超过2000人的人群场景。就这一挑战而言，主要存在三个问题：

1、计数精度。由于人群密集场景中存在的严重遮挡、角度变化、尺度变化、透视畸形、非均匀密度、标注困难等问题，对计数精度产生了影响。

2、尺度自适应性。人群场景图像中的人头尺度是不一致的，距离摄像头近的人头尺度偏大，而距离摄像头远的人头尺度偏小，这就要求使用的人群计数方法能够适应这种人头尺度的变化，具有一定的自适应性。

3、过拟合现象。将深度学习方法应用到人群计数任务中取得了巨大的成功，但深度学习对数据集的数据量有一定的要求，数据量不足会导致网络过拟合问题，使得模型的泛化能力较差。而由于人工标注的困难性，人群密集场景数据集存在数据量不足的情况，例如UCF_50_CC数据集只包含了50张图像。

发明内容

本发明解决的技术问题是提供一种基于联合学习的静态图像人群计数方法。

本发明的技术方案是：一种基于联合学习的静态图像人群计数方法，包括以下步骤：

2)预训练阶段：

1.1)使用50层残差网络在ImageNet2012分类数据集上训练得到参数初始化分类器网络，其中修改的层参数设为0，分类器将1000维的全连接层改为3维的全连接层，通过一个Softmax将图像块分类成三种类别R₁、R₂和R₃，分别对应三个回归器，回归器R₁拥有一个9×9的初始感受野，主要用于捕捉场景中距离摄像头较近的人脸，回归器R₂和回归器R₃分别拥有7×7和5×5的初始感受野，主要捕捉场景中距离摄像头较远的人头，每个回归器都包括四个卷积层和两个基于索引的随机池化层，基于索引的随机池化方法包括首先根据池化域内激活值的大小对激活值从高到低排序，产生激活值的索引，然后根据公式(3)计算激活值的选择概率：

p_r＝α(1-α)^r-1,r＝1,...,n (3)

其中,α是一个超参数，取值为0.5，表示最大激活值的选择概率，r表示激活值的索引，n表示池化域的大小；

最后从选择概率的多项式分布中采样，得到第j个池化域要保留的激活值s_j，表示为：

s_j＝a_i,i～multinomial(p₁,...,p_n) (4)

其中，a_i表示池化域j内索引为i的激活值，p₁表示索引为1的激活值的选择概率，p_n表示索引为n的激活值的选择概率。

1.2)使用训练数据集分别对三列回归器进行训练，损失函数为密度图误差，表示为：

其中，N是训练样本的个数，

是图像X_i的真值密度图，

是图像X_i的预测密度图；

损失体现了回归器的预测计数与真实计数之间的误差，卷积神经网络使用随机梯度下降法进行反向传播从而优化

损失，也就间接地减少了计数错误，回归器R_k被预训练直至验证精度达到一个稳定的状态；

2)回归器训练阶段：

2.1)将训练数据集的每一个图像块都分别输入三个回归器，同一个图像块都会得到不同的计数结果，将计数误差最小的回归器作为分类标签来标记该图像块，计数误差可通过公式(2)计算得到：

其中，

表示计数误差，

表示将第i个图像块输入第k个回归器所得到的预测计数，

代表第i个图像块的真实计数；

2.2)用三种类别(R₁,R₂,R₃)的图像块分别对各自的回归器进行微调，微调时使用随机梯度下降法进行反向传播来优化计数误差，回归器R_k被训练直至验证精度达到一个稳定的状态；

3)分类器训练阶段：随机抽取样本并且保证每种类别的标签数量一致，也就是样本量相同；

4)联合训练阶段：对分类器和回归器进行交替训练，每次迭代分为三个步骤：

a.利用新的分类标签对分类器进行训练，得到新的分类器；

b.利用密度图误差对回归器进行训练，得到新的回归器；

c.新回归器产生新的分类标签，更新图像块的分类标签。

进一步的，本发明中所述方法还包括在预训练阶段之前，将数据集分为训练样本和测试样本，首先对训练样本进行切分，增加训练样本的数量，然后从原训练样本中随机抽取若干样本组成验证集，再利用几何自适应高斯核对训练样本图像块生成真值密度图。

进一步的，本发明中步骤4)还包括交替训练完成后，利用验证集进行测试，选择最佳网络参数。

进一步的，本发明中所述方法还包括步骤5)测试阶段，对训练完成的联合学习模型进行测试，主要包括：

5.1)首先以同样的切分方式对测试样本进行切分；

5.2)将测试样本图像块输入网络得到对应的预测密度图，测试时将基于索引的随机池化层替换为基于索引的加权池化层；

5.3)对预测密度图求和得到图像块预测人数；

5.4)将图像块预测人数相加得到测试样本预测人数；

5.5)通过公式(5)和公式(6)分别对应计算测试集平均绝对误差和均方误差：

其中，N表示测试样本数量，z_i表示测试样本真实人数，

表示测试样本预测人数。

本发明与现有技术相比具有以下优点：

1)本发明提出了一个基于残差网络和多列卷积神经网络的联合学习模型，能够适应不同人头尺度的人群图像，从而进一步提高了模型的计数精度。该模型对现有的一个多列卷积神经网络模型进行改进，原模型虽然拥有不同大小的滤波器对应不同尺度的人头，但其子网络通过简单的模型融合生成密度图，整个网络的尺度自适应性较差，对多尺度人群图像的鲁棒性不足。于是，本模型先使用残差网络对图像块进行分类，再利用不同的子网络对密度图进行回归。实验结果证明提出的模型相比较于原始模型具有一定的尺度自适应性，计数精度更高。

2)本发明提出了基于索引的随机池化方法，在选择激活值时具有更多的随机性，从而进一步抑制过拟合现象。卷积神经网络一般采用最大池化选择激活值，忽略了大量有效信息，容易导致网络的过拟合，而该方法对随机池化做出改进，对池化域内的激活值进行排序，根据索引进行随机池化，避免随机池化退化为最大池化。实验结果证明提出的池化方法有助于抑制网络过拟合问题，提高模型的泛化能力。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明方法的网络框架图(其中，C代表卷积层，M-P代表最大池化层，G-A-P代表全局平均池化层，FC代表全连接层，I-S-P代表基于索引的随机池化层)。

具体实施方式

实施例：

结合附图所示为本发明一种基于联合学习的静态图像人群计数方法的具体实施方式，如图1所示，整个网络框架包括一个分类器(残差网络)和三个回归器(多列卷积神经网络)，分类器的目的是替图像块自动地选择最适合的回归器，三个回归器是用来预测人群密度图进而计算出人群数量。

本实施例的论证实验使用了两种数据集：UCF_CC_50和ShanghaiTech。UCF_CC_50数据集有50张人群场景图像，数据集的图像包含的人数有巨大的差异，一张图像中最少人数为94人，最多人数为1279人。极小的样本量和巨大的人数变化使得该数据集成为一个极具挑战性的数据集。ShanghaiTech数据集有1198张人群场景图像，该数据集分为PartA和PartB两个部分。PartA是从网络上收集的密集人群场景图像，PartB则是从上海的街道捕捉到的相对稀疏的人群场景图像。人群计数数据集的参数如表1所示。

表1

数据集	图像数量	分辨率	最小	平均	最大	总计数
							UCF_CC_50	50	-	94	1279	4543	63,974
ShanghaiTechPartA	482	-	33	501	3139	241,677
							ShanghaiTechPartB	716	768×1024	9	123	578	88,488

实验硬件环境：Ubuntu16.04，Corei5处理器，GTX750Ti显卡，内存16g。代码运行环境：python2.7，Theano。

(A)实验训练与测试步骤说明

以ShanghaiTechPartA数据集(300个训练样本，182个测试样本)为例，具体说明实验训练与测试步骤：

(a1)实验训练步骤

首先，将数据集分为训练样本和测试样本，对训练样本进行切分，用4行4列的网格分为16个图像子集，增加训练样本的数量，然后从原训练样本中随机抽取22个样本组成验证集，再利用几何自适应高斯核对训练样本图像块生成真值密度图。

接着，进行训练步骤：

1)预训练阶段：

1.1)使用50层残差网络在ImageNet2012分类数据集上训练得到参数初始化分类器网络，其中修改的层参数设为0，这个分类器采用50层的残差网络，将1000维的全连接层改为3维的全连接层，通过一个Softmax将图像块分类成三种类别R₁、R₂和R₃，分别对应三个回归器；

三个回归器拥有不同的感受野，能够捕捉不同尺度的人头，其中，回归器R₁拥有一个9×9的初始感受野，可以捕捉场景中距离摄像头较近的人脸，回归器R₂和回归器R₃分别拥有7×7和5×5的初始感受野，主要捕捉场景中距离摄像头较远的人头，也就是一些团块，例如输入的图像块人群密度较大，人头尺度相对较小，分类器将会把该图像块分类为R₃类别，送入R₃回归器中，该回归器拥有较小感受野，容易捕捉团块，适合人群密度较高的图像块；

每个回归器都包括四个卷积层和两个基于索引的随机池化层，池化层采用的不是最大池化，而是基于索引的随机池化方法，最大池化总是取池化域内的最大激活值作为池化输出，忽略了大量有用信息，容易导致模型过拟合，再加上数据集本身数据量不足，增加了过拟合的风险，为了抑制这种过拟合，考虑采用随机池化方法，但随机池化也存在不足，不能控制选择概率，在某些情况下会导致最大激活值的选择概率接近或达到1，使得随机池化退化为最大池化，基于索引的随机池化方法首先会根据池化域内激活值的大小对激活值从高到低排序，产生激活值的索引，然后根据公式(3)计算激活值的选择概率：

p_r＝α(1-α)^r-1,r＝1,...,n (3)

s_j＝a_i,i～multinomial(p₁,...,p_n) (4)

其中，a_i表示池化域j内索引为i的激活值；

其中，N是训练样本的个数，

是图像X_i的真值密度图；

损失体现了回归器的预测计数与真实计数之间的误差，卷积神经网络使用随机梯度下降法(SGD)进行反向传播从而优化

2)回归器训练阶段：

2.1)使用计数误差来衡量回归器的性能，将训练数据集的每一个图像块都分别输入三个回归器，同一个图像块都会得到不同的计数结果，将计数误差最小的回归器作为分类标签来标记该图像块，计数误差可通过公式(2)计算得到：

其中，

表示计数误差，

表示将第i个图像块输入第k个回归器所得到的预测计数，

代表第i个图像块的真实计数；

2.2)用三种类别(R₁,R₂,R₃)的图像块分别对各自的回归器进行微调，微调时使用随机梯度下降法(SGD)进行反向传播来优化计数误差，回归器R_k被训练直至验证精度达到一个稳定的状态；

3)分类器训练阶段：使用ResNet-50作为分类器来将图像块分为三个类别，分类器的训练依赖于回归器训练阶段生成的图像块标签，每种类别的图像块的数量是非常不均衡的，为了缓解这种标签数量的差异性，我们随机抽取样本并且保证每种类别的标签数量一致，也就是样本量相同；

4)联合训练阶段：分类器的训练使得图像块能够自动选择最佳回归器，从而降低预测计数的误差，然而，分离图像块是一个复杂的学习过程，训练后的分类器效果并不理想，为了提高分类器的精确度，减少复杂任务带来的影响，我们采用对分类器和回归器交替训练的方式，迭代次数为30，每次迭代分为三个步骤：

a.利用新的分类标签对分类器进行训练，得到新的分类器；

b.利用密度图误差对回归器进行训练，得到新的回归器；

c.新回归器产生新的分类标签，更新图像块的分类标签。

在交替训练完成后，利用验证集进行测试，选择最佳网络参数。

(a2)实验测试步骤

5)测试阶段：对训练完成的联合学习模型进行测试，主要包括：

5.1)首先对数据集中的测试样本进行切分，用4行4列的网格分为16个图像子集；

5.3)对预测密度图求和得到图像块预测人数；

5.4)将图像块预测人数相加得到测试样本预测人数；

其中，N表示测试样本数量，z_i表示测试样本真实人数，

表示测试样本预测人数。

(B)定性分析

(b1)验证联合学习框架有效性

对引入残差网络的联合学习框架的有效性进行验证。该实验采用ShanghaiTech数据集中测试集的平均绝对误差MAE作为量化指标，采用4行4列的网格对样本进行切分，分为16个图像子集，联合学习框架中的回归器采用最大池化方法。实验结果如表2所示。

表2

框架	Part A	Part B
			多列卷积神经网络(MCNN)	110.2	26.4
联合学习网络(JTCNN)	81.1	17.7

对比实验验证了采用残差网络和多列卷积神经网络的联合学习框架的计数精度高于单一的多列卷积神经网络。

(b2)验证图像分块有效性

对图像分块的有效性进行验证。该实验采用ShanghaiTech数据集中测试集的平均绝对误差MAE和图像块分类错误率Classification Error Rate作为量化指标，联合学习框架中的回归器采用最大池化方法。实验结果如表3所示。

表3

对比实验验证了图像分块有效性，分别采用2行2列、3行3列、4行4列、5行5列四种分块方式，实验证明用4行4列的网格将样本分为16个图像子集的方式最佳。

(b3)验证基于索引的随机池化方法有效性

对基于索引的随机池化方法的有效性进行验证。该实验采用ShanghaiTech数据集中测试集的平均绝对误差MAE和图像块分类错误率Classification Error Rate作为量化指标，采用4行4列的网格对样本进行切分，分为16个图像子集。实验结果如表4所示。

表4

对比实验验证了基于索引的随机池化方法的有效性，在联合学习框架的三列回归器中分别采用最大池化方法和基于索引的随机池化方法，实验证明基于索引的随机池化方法有效优化计数精度和图像块分类错误率。

(b4)本发明提出的方法实验结果对比

在UCF_CC_50数据集上，本发明方法与现有技术的对比，如表5所示：

表5

在ShanghaiTechPartA数据集上，本发明方法与现有技术的对比，如表6所示：

表6

在ShanghaiTechPartB数据集上，本发明方法与现有技术的对比，如表7所示：

表7

这种静态图像人群计数方法通过联合训练残差网络和多列卷积神经网络，并将最大池化层替换为基于索引的随机池化方法，提高网络的尺度自适应性，抑制数据量过少带来的过拟合现象，从而提高了网络计数精度。

当然上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于联合学习的静态图像人群计数方法，其特征在于，包括以下步骤：

1)预训练阶段：

p_r＝α(1-α)^r-1,r＝1,...,n (3)

s_j＝a_i,i～multinomial(p₁,...,p_n) (4)

其中，a_i表示池化域j内索引为i的激活值，p₁表示索引为1的激活值的选择概率，p_n表示索引为n的激活值的选择概率；

其中，N是训练样本的个数，

是图像X_i的真值密度图，

是图像X_i的预测密度图；

2)回归器训练阶段：

其中，

表示计数误差，

表示将第i个图像块输入第k个回归器所得到的预测计数，

代表第i个图像块的真实计数；

a.利用新的分类标签对分类器进行训练，得到新的分类器；

b.利用密度图误差对回归器进行训练，得到新的回归器；

c.新回归器产生新的分类标签，更新图像块的分类标签。

2.根据权利要求1所述的一种基于联合学习的静态图像人群计数方法，其特征在于：所述方法还包括在预训练阶段之前，将数据集分为训练样本和测试样本，首先对训练样本进行切分，增加训练样本的数量，然后从原训练样本中随机抽取若干样本组成验证集，再利用几何自适应高斯核对训练样本图像块生成真值密度图。

3.根据权利要求2所述的一种基于联合学习的静态图像人群计数方法，其特征在于：步骤4)还包括交替训练完成后，利用验证集进行测试，选择最佳网络参数。

4.根据权利要求3所述的一种基于联合学习的静态图像人群计数方法，其特征在于：所述方法还包括步骤5)测试阶段，对训练完成的联合学习模型进行测试，主要包括：

5.1)首先以同样的切分方式对测试样本进行切分；

5.3)对预测密度图求和得到图像块预测人数；

5.4)将图像块预测人数相加得到测试样本预测人数；

其中，N表示测试样本数量，z_i表示测试样本真实人数，

表示测试样本预测人数。