CN107967451B

CN107967451B - 一种对静止图像进行人群计数的方法

Info

Publication number: CN107967451B
Application number: CN201711179075.0A
Authority: CN
Inventors: 杨彪; 曹金梦; 张御宇; 崔国增; 邹凌
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2021-04-27
Anticipated expiration: 2037-11-23
Also published as: CN107967451A

Abstract

本发明公开了一种对静止图像进行人群计数的方法，首先将逆高斯密度图与原始高斯密度图结合，组成组合密度图；然后对输入图像不重叠采样获得若干图像子块，并基于图像子块及其对应的真实组合密度图训练网络；以相同步幅对输入图像重叠采样，将MMCNN预测得到的每个图像子块的组合密度图叠加，重构完整人群图像的组合密度图，进而实现人群计数。此外，针对人群尺度差异问题，本发明通过一种分尺度损失函数衡量不同尺度网络学习到的特征。同时，本发明提出的网络以多任务的方式同时预测人群组合密度图、密度级别以及前景/背景分类，由此改善组合密度图的估计准确性，从而缓减人群密度不均问题。

Description

一种对静止图像进行人群计数的方法

技术领域

本发明属于智能监控领域，特别涉及一种对静止图像进行人群计数的方法。

背景技术

作为智能视频监控的重要组成部分，公共场所的人群计数有许多应用，包括人群控制，异常行为检测和行人行为分析。人群计数可用于检测在宗教活动或体育赛事中的潜在风险并防止过度拥挤。同时，人群计数可以扩展到其他领域，例如从微观图像计数细胞或细菌。

现有的人群计数方法通常分为三类，即通过检测计数、聚类计数和回归计数。通过检测计数法，根据检测场景中人的个数实现人群计数。然而，由于使用具有不同尺度的预训练检测器对图像空间进行彻底扫描，所以检测过程十分耗时。又因为人群中背景混乱，存在严重的遮挡导致计数结果不准确。而通过聚类计数法，假设人群由个体组成，每个个体具有独特而连贯的运动模式，可以通过聚类估计场景中行人的数量。但是可靠的运动模式只能从足够高帧率的视频中提取出来。同时，运动模式通常从密集光流中提取，这个过程相当耗时。与检测计数和聚类计数法不同，通过回归计数法旨在实现特定视觉特征和人群计数之间的直接映射，而无需检测或跟踪人群中的个体。这种方法花费时间较少且能有效处理如人群局部遮挡等问题。通过回归计数法涉及两个主要任务，即提取特征以及设计回归模型。在第一个任务中，可以从检测到的人群中手动提取前景区域，如形状、边缘和其他特征等。许多研究集中于手动提取特征。支持向量机(SVM)能够仅使用少量训练样本进行估计。其他如随机森林、神经网络和高斯回归方法等也被广泛用于预测人群数量。然而，回归计数法主要在稀疏人群的场景下效果较好，在极其密集的人群中，手动提取的特征几乎无法捕捉有效信息，也不能准确预测人群数量。

近期，很多研究专注于基于深度学习的人群计数。其中，大多数研究尝试通过密度估算人群，通过将输入人群图像映射到其相应的密度图，以密度图表示图像中每个像素的人数。与手动提取的特征不同，实验表明由诸如卷积神经网络(convolution neuralnetwork，CNN)等深层网络自动提取的特征在预测人群数量方面优于传统的手动提取的特征，其在处理人群严重遮挡，场景杂乱等问题上更有效。然而，基于深度学习的人群计数仍然存在诸如不均匀人群分布和尺度不一等挑战。基于上述问题，本发明提出了一种利用多尺度多任务卷积神经网络(multi-scale multi-task convolution neural network，MMCNN)进行人群计数的方法。

发明内容

本发明目的在于提出一种对静止图像人群计数的方法，此方法对人群遮挡、人群分布不均、尺度不一等问题具有很强的鲁棒性。

本发明的技术方案为：

一种对静止图像进行人群计数的方法，包括以下步骤：

1)：由高斯密度图和逆高斯密度图计算组合密度图；

2)：构建多尺度卷积神经网络解决人群尺度差异问题；

3)：采取不同的采样策略对输入人群图像进行训练及预测；

4)：通过多任务学习提高结果的准确性。

进一步，所述步骤1)具体包括：

1.1)：计算高斯密度图

利用估计密度图进行人群计数，估计密度图由以行人头部位置为中心的高斯核累加得到，获得图像子块中行人头部的中心位置P_h后，生成的密度图为：

其中D_i(p)是高斯密度图，P_i是第i个图像子块，Z是图像子块的真实人数，σ_h表示归一化二维高斯核N_h的方差，生成的密度图中某一位置的值越高表示该位置人群密度越大；

1.2)：计算逆高斯密度图

将高斯密度图反转，获取逆高斯密度图

其中D_i(p)_[m,n]表示高斯密度图在[m，n]处的值，T_h是用于区分高斯密度图边缘与背景的给定阈值；逆高斯密度图由图像子块的真实人数Z归一化，即

1.3)：计算组合密度图

由高斯密度图及对应的逆高斯密度图，通过

计算组合密度图。

进一步，所述步骤2)具体为：

2.1)：构建三个具有不同尺度信息的卷积神经网络CNN通道，包括原始通道、上采样通道及下采样通道，每个通道由四个不同大小局部感受野的卷积层组成；对具有较大感受野的CNN通道，使用较少数量的滤波器，以减小网络规模；

2.2)：每个CNN通道前两层卷积之后连接步长为2的最大池化层，故不同通道第3层卷积的输入是原图大小的1/4；

2.3)：采用去卷积操作，保证第4个卷积层输出的特征大小相同的同时弥补由于之前最大池化操作导致丢失的细节，去卷积运算次数取决于每个CNN通道第4个卷积层输出特征的大小。

进一步，所述步骤3)具体包括：

3.1)：训练阶段：

将人群图像等分成若干图像子块，采用不重叠采样策略，利用图像子块和对应的真实标记，以多任务的方式训练网络；真实标记包括组合密度图、人群密度等级以及背景/前景分类；

3.2)：测试阶段：

以相同步幅对输入图像重叠采样，按照多任务学习的方式估计每个图像子块的组合密度图、人群密度级别和背景/前景分类；将所有图像子块的组合密度图重构获得整张图像的密度图，对于重叠部分，将该处密度值除以重叠次数进行归一化；

3.3)：训练、测试阶段均通过对整张人群图像的组合密度图进行积分，计算全局人群数量。

进一步，所述步骤4)具体包括：

4.1)：计算组合密度图与真实值之间的损失L_density

将三个CNN通道第4个卷积层输出的特征通过Merge层合并，然后输入到第5层卷积，最后将第5层卷积的输出映射到组合密度图，计算组合密度图与真实值之间的损失L_density：

其中N是训练样本数目，Θ是网络参数，P_i是第i小块,F_d(P_i,Θ)是P_i的估计密度图,

是F_d(P_i,Θ)的真实值；

4.2)：计算人群密度等级与真实值之间的损失L_level

通过一组级联卷积滤波器对第5层卷积的输出进行处理，其次使用高度为3的空间金字塔池SPP保证任意大小图像均可输入训练；采用4个全连接层，前3个全连接层后紧接着PReLU激活层，第4个全连接层之后连接sigmoid激活层，表示输入图像子块的人群密度等级。估计人群密度等级与其真实值之间的损失L_level：

其中M是密度级别个数，F_c(P_i,Θ)是估计的P_i密度级，

是真实值；

4.3)：计算前景/背景分类与真实值之间的损失L_mask

将合并的特征映射到背景/前景分类，计算背景/前景分类与真实值之间的损失L_mask：

其中F_m(P_i,Θ)是P_i背景/前景分类估计，

是真实值；

由尺度和背景/前景分类的相关性，分尺度损失PL_mask定义如下：

其中N是训练样本数目，α_j表示第j尺度的权重，Θ_j是j尺度下的CNN通道的参数，

是P_i的背景/前景分类估计；

4.4)：确定联合损失函数L_total

多尺度多任务卷积神经网络损失函数最终定义为：L_total＝λ₁L_density+λ₂L_level+λ₃PL_mask，其中λ₁、λ₂、λ₃是不同损失函数的权重。

本发明的有益效果：

1)考虑到传统高斯密度图的中心响应较强、边缘响应较弱，本发明通过逆高斯密度图增强边缘信息，再将高斯密度图和逆高斯密度图计算组合密度图，同时考虑行人位置和细节(边缘)信息，能较好模拟真实人群密度，由此估计人群数目。

2)由于距离摄像机不同的密集人群具有不同的尺度信息，本发明通过构建多尺度卷积神经网络，运用三个CNN通道对输入到网络的图像子块同时使用原始图像采样、下采样和上采样，从而解决人群尺度差异问题，有效提取人群特征。

3)本发明对输入图像采取不同采样方式进行训练及预测，提高模型泛化能力；训练阶段采用不重叠采样策略，避免由于样本相似性过大导致模型泛化能力差，测试阶段以相同步幅对输入图像重叠采样，估计每个图像子块的密度图。

4)考虑到不同人群分布问题，本发明联合估计密度图和人群密度等级分类，针对仍有一些背景被认为是人群的问题，本发明在执行多任务学习时进一步添加了背景/前景(BG/FG)分类，提高检测结果的准确性。

附图说明

图1是本发明对静止图像进行人群计数方法的系统流程图；

图2是本发明中提出的组合密度图与高斯密度图、逆高斯密度图的对比示意图，图2(a)是高斯密度图，图2(b)是逆高斯密度图，图2(c)是组合密度图；

图3是本发明中多尺度多任务卷积神经网络示意图；

图4是本发明中训练阶段示意图；

图5是本发明中预测阶段示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明，但本发明的保护范围并不限于此。

图1给出了对静止图像进行人群计数方法的系统流程图：

本发明提出的人群计数方法，将人群图像分割成若干个图像子块，每个图像子块都使用上采样和下采样进行处理，以获得不同尺度的信息。然后通过构建多尺度CNN从所有尺度的图像子块中自动提取特征。这些特征以多任务学习方式估计密度图，人群密度等级和背景/前景分类。最后根据所有图像子块的组合密度图重新构建人群图像的组合密度图，并通过对整张人群图像的组合密度图的值求和并积分计算人群数量。

本发明的具体操作步骤：

1)生成训练组合密度图

①计算高斯密度图

在密集人群中，头部信息基本都能够被检测到，而身体部分信息常被忽略，因此本实施例主要根据头部信息进行人群计数。目前，通常利用估计密度图的方法进行人群计数，估计密度图由以头部位置为中心的高斯核累加得到。也就是说，获得图像子块中行人头部的中心位置P_h后，其生成的密度图为：

其中：D_i(p)是高斯密度图，P_i是第i个图像子块，Z是图像子块的真实人数，N_h是归一化二维高斯核，σ_h表示N_h的方差，生成的密度图中某一位置的值越高表示该位置人群密度越大。

②计算逆高斯密度图

传统高斯密度图的中心响应较强，边缘响应较弱，其注重人群中头部的位置信息，而忽略边缘信息。为此，本实施例将原始高斯密度图反转，获取逆高斯密度图以增强边缘信息。逆高斯密度图

定义如下：

其中D_i(p)_[m,n]表示高斯密度图在[m，n]处的值，m、n分别表示高斯密度图的长和宽，T_h是用于区分高斯密度图边缘与背景的给定阈值(边缘在高斯密度图中有弱响应，而背景没有响应)，本实施例中，设置T_h＝max{D_i(p)_[m,n]}/25，逆高斯密度图由图像子块的真实人数Z归一化，即

③计算组合密度图

获得高斯密度图及对应的逆高斯密度图后，本实施例同时考虑行人位置和细节(边缘)信息，通过公式(3)计算组合密度图；由于高斯密度图和逆高斯密度图都已归一化，故组合密度图

无需尺寸归一化。

图2(a)、(b)、(c)给出了高斯密度图、逆高斯密度图以及本实施例提出的组合密度图的示意图。

2)构建多尺度卷积神经网络

目前，很多研究使用多个CNN通道处理不同尺度信息，但大多数只是采用金字塔下采样处理输入数据或特征，并将所有特征连接在一起；然而，在离摄像机很远的密集人群中，细节信息容易丢失，下采样可能导致神经网络无法提取人群的有效特征。因此，对于输入到MMCNN的图像子块，同时使用下采样和上采样提取不同尺度信息，最小化每个尺度的损失后合并。

本实施例提出的一种用于人群计数的MMCNN示意图如图3所示，MMCNN的左边部分包括上采样、原始图片采样和下采样三个CNN通道，每个通道有四个不同大小局部感受野的卷积层。在保持原始图像大小(宽为W，高为H)不变的基础上，通过上采样和下采样获得不同尺度信息。一般来说，具有较大感受野的滤波器对头部较大的密度图建模更有效。原始通道采用1个7×7卷积，3个5×5卷积提取有效特征，上采样通道处理的图像中人群头部较大，使用较大局部感受野卷积层提取特征(1个9×9卷积，3个7×7卷积)，下采样通道则采用局部感受野较小的卷积层(1个5×5卷积，3个3×3卷积)。为降低计算复杂度，对于具有较大感受野的CNN通道，使用较少数量的滤波器。每个通道前4个卷积后都连接Dropout层、Parametric Rectified Linear Unit(PReLU)激活层和Local Response Normalization(LRN)层，且前两层卷积之后连接步长为2的最大池化层，故不同通道第3层卷积的输入(conv1_3，conv2_3和conv3_3)是原图大小的1/4。对于每个通道的第4个卷积层，采用去卷积运算进行上采样。去卷积运算次数取决于由第4个卷积层输出特征的大小。例如，在下采样通道采用3个去卷积层，将特征尺寸从

扩大到W×H。去卷积主要是为了保证要合并的特征大小相同(W×H)，另一个重要的原因是弥补由于之前的池化操作导致丢失的细节。

3)训练及预测细节

图4所示为本发明中训练阶段示意图，将人群图像等分成若干图像子块，采用不重叠采样策略，避免由于样本相似性过大导致模型泛化能力差。利用图像子块和对应的真实标记(组合密度图、人群密度等级以及背景/前景分类)，以多任务的方式训练网络。本实施例将人群图像分为16个图像子块(UCSD数据集的人群图像分为9个图像子块)，对于每个图像子块，使用步骤1)提出的方法计算其组合密度图；同时，对于该图像子块，计算背景/前景分类和人群密度水平。本实施例中，只将人群中的头像作为前景，身体部分视为背景。利用图像子块和对应的真实标记(组合密度图、人群密度等级以及背景/前景分类)，以多任务的方式训练网络。

图5所示为本发明中预测阶段示意图，以相同步幅对输入图像重叠采样，估计每个图像子块的密度图；将所有图像子块的组合密度图重构获得整张图像的密度图，重叠部分以该处值除以重叠次数进行归一化；以多任务学习方式同时预测密度图，人群密度级别和背景/前景分类。

通过对整张人群图像的组合密度图值进行积分，计算全局人群数量。值得注意的是，人群总数是一个小数，而不是整数。

4)运用多任务学习策略

除了步骤2)提及的尺度变化，不同人群分布是人群计数的另一个具有挑战性的问题，特别是基于估计密度图的方法。回归问题简单地减少输出特征和密度图之间的损失，很容易达到局部最优。许多研究试图通过联合优化多个相关的目标函数处理这个问题，本实施例联合估计密度图和人群密度等级分类，依据Fu等人[参见文献：Fu M,Xu P,Li X,etal.Fast crowd density estimation with convolutional neural networks[J].Engineering Applications of Artificial Intelligence,2015,43:81-88.]提出的方法，将人群分为6个密度等级：极高密度、高密度、中等密度、低密度、极低密度及没有人(考虑到图像子块中只有背景存在的情况，添加一类“没有人”)。尽管同时估计了两个目标，但仍然有一些背景被认为是人群。为解决这个问题，本实施例在执行多任务学习时进一步添加了背景/前景(BG/FG)分类，BG/FG分类与密度图类似，但只关注人群的位置信息，而密度图同时兼顾位置信息和强度信息；因此，可以使用较少的卷积滤波器估计BG/FG分类。

图3中MMCNN的右边部分描述了多任务策略，本实施例采用1×1卷积将合并的特征映射到BG/FG分类，估计BG/FG分类与其真实值之间的损失L_mask。对于其他任务，合并的特征首先输出到大小为3×3的第5层卷积(conv5)，然后采用1×1卷积将conv5的输出映射到密度图，计算密度图与其真实值之间的损失L_density。对于分类任务，conv5的输出首先通过一组级联卷积滤波器进行处理。为了使用任意大小的图像进行训练，使用高度为3的空间金字塔池(SPP)消除包含全连接层的深层网络的固定尺寸约束。本实施例中采用4个全连接层(FC)，即FC1(512个神经元)、FC2(256个神经元)、FC3(32个神经元)和FC4(6个神经元)。前3个FC层后紧接着PReLU激活层，FC4之后连接sigmoid激活层，表示输入图像子块的人群密度等级。估计人群密度等级与其真实值之间的损失L_level。

5)计算分尺度损失函数

本实施例提出的MMCNN以多任务学习的方式训练，将3个损失(L_density，L_level和L_mask)最小化。MMCNN的主要目标是预测图像子块密度图，进一步估计人群图片中的人数；估计密度图与其真实值之间的损失L_density使用欧几里德损失来计算。定义如下：

其中N是训练样本数目，Θ是网络参数，F_d(P_i,Θ)是P_i的估计密度图,

是F_d(P_i,Θ)的真实值。

为了处理人群的不均匀分布，同时估计人群密度等级和背景/前景分类，估计密度等级与其真实值之间的损失L_level使用交叉熵损失计算；L_level定义如下：

其中M是密度级别个数，F_c(P_i,Θ)是估计的Pi密度级，

是真实值。

背景/前景分类用于防止网络将背景区域误认为人群，估计分类与真实值之间的损失L_mask，也使用欧氏距离计算，定义为：

其中F_m(P_i,Θ)是P_i背景/前景分类估计，

是真实值。

为了处理连续尺度变化，本实施例使用分尺度损失在多尺度CNN上改进，使得获得的特征更具区分性，提高计数准确率。考虑到尺度和背景/前景分类的相关性，分尺度损失PL_mask定义如下：

其中α_j表示第j尺度的权重，Θ_j是尺度j下的CNN通道的参数，

是P_i的估计背景/前景分类。

最终，MMCNN的损失函数定义为：

L_total＝λ₁L_density+λ₂L_level+λ₃PL_mask (8)

其中λ₁,λ₂,λ₃是不同损失函数的权重，通过交叉验证设置λ₁＝1,λ₂＝0.1,λ₃＝0.001；为使L_total最小化，每个尺度学习到的特征易于鉴别，初始化α_j时使其较大，然后逐渐减小其值。

以上所述对本发明进行了简单说明，并不受上述工作范围限值，只要采取本发明思路和工作方法进行简单修改运用到其他设备，或在不改变本发明主要构思原理下做出改进和润饰的等行为，均在本发明的保护范围之内。

Claims

1.一种对静止图像进行人群计数的方法，其特征在于，包括以下步骤：

1)：由高斯密度图和逆高斯密度图计算组合密度图；

1.1)：计算高斯密度图

1.2)：计算逆高斯密度图

将高斯密度图反转，获取逆高斯密度图

其中D_i(p)_[m,n]表示高斯密度图在[m，n]处的值，m、n分别表示高斯密度图的长和宽，Th是用于区分高斯密度图边缘与背景的给定阈值；逆高斯密度图由图像子块的真实人数Z归一化，即

1.3)：计算组合密度图

由高斯密度图及对应的逆高斯密度图，通过

计算组合密度图；

2)：构建多尺度卷积神经网络解决人群尺度差异问题；

3)：采取不同的采样策略对输入人群图像进行训练及预测；

4)：通过多任务学习提高结果的准确性。

2.根据权利要求1所述的一种对静止图像进行人群计数的方法，其特征在于，所述步骤2)具体为：

3.根据权利要求1所述的一种对静止图像进行人群计数的方法，其特征在于，所述步骤3)具体包括：

3.1)：训练阶段：

3.2)：测试阶段：

4.根据权利要求2所述的一种对静止图像进行人群计数的方法，其特征在于，所述步骤4)具体包括：

4.1)：计算组合密度图与真实值之间的损失L_density

是F_d(P_i,Θ)的真实值；

4.2)：计算人群密度等级与真实值之间的损失L_level

通过一组级联卷积滤波器对第5层卷积的输出进行处理，其次使用高度为3的空间金字塔池SPP保证任意大小图像均可输入训练；采用4个全连接层，前3个全连接层后紧接着PReLU激活层，第4个全连接层之后连接sigmoid激活层，表示输入图像子块的人群密度等级；估计人群密度等级与其真实值之间的损失L_level：

其中M是密度级别个数，F_c(P_i,Θ)是估计的P_i密度级，

是真实值；

4.3)：计算前景/背景分类与真实值之间的损失L_mask

其中F_m(P_i,Θ)是P_i背景/前景分类估计，

是真实值；

是P_i的背景/前景分类估计；

4.4)：确定联合损失函数L_total