CN110210423B

CN110210423B - 一种基于多层级回归的人群密度估计方法

Info

Publication number: CN110210423B
Application number: CN201910488308.8A
Authority: CN
Inventors: 任桐炜; 武港山; 谭昕; 陶淳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2023-04-25
Anticipated expiration: 2039-06-05
Also published as: CN110210423A

Abstract

一种基于多层级回归的人群密度估计方法，将人群图像划分为不同拥挤程度的人群区域及背景，对各个划分出的区域采用不同的密度回归器生成相应的密度图，并最终合并各个密度图生成整幅图像的密度图用于人数估计。本发明利用多层级回归处理不同拥挤程度的人群图像区域，有效解决了不同场景下人的外观、尺寸、面积等变化引起的人群密度估计准确率受限问题，提高了人群密度估计的准确率。

Description

一种基于多层级回归的人群密度估计方法

技术领域

本发明属于计算机技术领域，涉及彩色人群图像的识别和分割，还涉及人群图像的密度图生成方法，具体为一种基于多层级回归的人群密度估计方法。

背景技术

人群密度估计是指将包含人群的原始图像映射为人群密度图，通过密度图来获得图像中的人数和人群的分布信息。由于密度图包含众多有利用价值的信息，在视频监控、人群分析等领域有重要的应用价值。

早期的人群密度估计方法主要通过手动提取原图像的特征信息，使用一些简单的映射函数将提取出的特征映射为密度图或直接映射为人数，这些方法主要包括基于检测的方法和基于回归的方法。基于检测的方法主要使用滑动窗口，直接对图像中的人进行识别和计数，在人群拥挤的场景中预测的准确率较低。基于回归的方法主要使用线性函数建立从图像特征到人数或密度图的映射关系，由于映射函数由人工建立，函数的形式较为简单，预测的准确率不高。

最近几年一些学者将卷积神经网络引入到人群密度估计中，取得了较好的效果。卷积神经网络可以通过后向传播算法自动寻找映射函数中最优的参数组合，解决了人工设定映射函数比较困难的问题。人群密度估计中一个关键的问题是随着人群拥挤程度的增加，单位面积上密度增大，人的尺寸缩小，人与人之间存在遮挡，人的外观逐渐变得不完整，虽然这时人被挡住了，但在统计时仍然要将其计算在内。现有的应对方案提出了使用多尺度结构的方法来应对人的尺寸变化的问题，但这些方法仍然缺乏应对拥挤度增加下人的外观变化的能力，而且单一的密度回归器也不能很好地适应单位面积上密度变化的问题。同时，也有一些应对人群密度变化的方法被提出，但这些方法又不能很好地解决人的尺寸变化和人的外观变化的问题，这一缺陷也体现在这些方法在拥挤场景中准确率严重下降。目前为止，同时解决上述问题的研究工作仍然是空白。

综上所述，早期的人群密度估计方法不仅操作比较复杂，且准确率较低，现有的基于卷积神经网络的人群密度估计方法不能很好地同时应对不同拥挤程度场景下人的外观的变化、人的尺寸变化和单位面积密度变化。

发明内容

本发明要解决的问题是：现有的人群密度估计方法对拥挤程度高的情况，统计人群密度时不能兼顾密度、尺寸、外观等诸多变化点，不能解决不同场景下人的外观、尺寸、面积等变化引起的人群密度估计准确率受限问题。

本发明的技术方案为：一种基于多层级回归的人群密度估计方法，将人群图像划分为不同拥挤程度的区域，即划分多层，对各划分出的区域采用对应的密度回归器生成相应的区域密度图，最终合并各区域密度图生成整幅图像的密度图用于人群密度估计。

进一步的，拥挤度划分前先预设划分层数，根据设定层数确定拥挤度划分依据，同时利用分层后的数据训练得到对应层级的密度回归器，再对待估计密度的人群图像进行多层级回归的密度估计。

作为优选方式，根据设定层数进行训练，得到拥挤程度的划分依据，利用分层后的数据训练得到对应层的密度回归器。

本发明包括以下步骤：

1)对于输入的人群图像，根据不同拥挤程度将其分层，划分为多个区域，并对各个区域生成掩膜；

2)分别使用每一个掩膜与源图像或中间特征图相乘，遮挡住人群图像中不属于该掩膜对应区域的区域，得到只包含特定拥挤程度区域的图像，称为保留区域，源图像即输入的人群图像，中间特征图为源图像的特征图；

3)对每个特定拥挤程度区域的图像，分别采用一个相应的密度回归器进行回归，生成对应该拥挤程度区域的区域密度图；

4)将所有区域密度图相融合，生成整幅人群图像的密度图；

5)将整幅图像的密度图进行统计，生成人数估计结果。

进一步的，步骤1)对输入人群图像进行划分时，先划分为两层，将图像划分为人群区域和背景区域，再对人群区域分层，按照不同的拥挤程度进一步划分为多个区域。

密度回归器的个数与划分层数相同，或舍弃对应背景区域的密度回归器，将背景区域的区域密度图默认为0。

步骤3)所述的区域密度图生成方法具体为：通过密度回归器将保留区域映射到区域密度图。

本发明的有益结果是：本发明提出了一种面向不同场景下人的外观、尺度、面积等变化引起人群密度估计准确率受限问题的解决方案。实现了对具有不同拥挤程度的区域划分，避免了密度回归器只能适应稀疏或密集的单一人群的缺陷，通过对人群的划分，可以全面提高各个拥挤度人群的人数预测的准确率，特别是同一人群图像中密度不均，部分区域集中拥挤的情况下，不会由于使用单一密度估计方案，而在某些稀疏或密集的人群场景中预测出误差较大的结果，因此本方法具有良好的鲁棒性和实用性。图3展示了由本发明所生成的密度图结果示例，图3中的三行分别为：(a)输入图像，(b)密度图的真实标注，(c)预测的密度图。明显可见，本发明可以生成准确的密度图结果。

附图说明

图1为本发明的实施流程。

图2为本发明的区域划分的掩膜示例。

图3为本发明的密度图预测结果示例。

具体实施方式

本发明解决现有技术的缺陷，研究发现现有技术未能充分利用不同拥挤程度人群的特点，本发明通过对稀疏和拥挤人群的划分，使得人群密度估计的准确率可以得到提高，提出一种基于多层级回归的人群密度估计方法，能够适应不同的人群场景，并能提高预测准确率。

本发明方法将人群图像划分为不同拥挤程度的区域，即划分多层，对各划分出的区域采用对应的密度回归器生成相应的区域密度图，最终合并各区域密度图生成整幅图像的密度图用于人群密度估计。其中，拥挤程度的划分可以人工设定，也可以不人工设定。优选方式为，先预设划分层数，根据设定层数确定拥挤度划分依据，划分依据可以根据设定层数进行训练得到，同时利用分层后的数据训练得到对应层级的密度回归器，再对待估计密度的人群图像进行多层级回归的密度估计。每一层的划分依据是通过训练得到，也可以看作是人为设定的，但实际上只是人工设了分几层，至于怎么划分的阈值是训练得到的，不属于人工设定。密度回归器对应层级训练，在训练数据上对于划分出来的层级分别训练生成一个密度回归器，在实际使用(也就是实际进行密度估计)的时候，划分出来的是第几层区域，就调用之前在第几层上训练得到的密度回归器，也就是按照某一个拥挤程度划分得到的区域，对应采用哪个密度回归器。

如图1所示，本发明具体包括以下步骤：

1)对于输入的人群图像，根据不同拥挤程度将其划分为多个区域，进行多层划分，并对各个区域生成掩膜，掩膜表示了特定拥挤程度对应的区域，这里采用掩膜的形式可参照文献[1]《ADCrowdNet:An Attention-injective Deformable Convolutional Networkfor Crowd Understanding.》(Ning Liu,Yongchao Long,Changqing Zou,Qun Niu,LiPan,and Hefeng Wu.2019.In IEEE Conference on Computer Vision and PatternRecognition.)，分层时先将人群图像划分为两层，将人群图像划分为人群区域和背景区域，再对人群区域分层，按照不同的拥挤程度进一步划分为多个区域，除了这种分层方式，也可以直接将输入人群图像划分成不同拥挤度的区域，不影响后续密度估计。

1.1)对人群图像中的人群区域和背景区域进行划分；

1.2)从划分出的人群区域中进一步划分出拥挤程度较高的人群区域；

1.3)第二层及之后的每一层都对前一层划分出的人群区域进一步划分，得到其中拥挤程度相对较高的人群区域，直到没有可划分的更高拥挤程度的人群为止。

步骤1.2)1.3)中所述的拥挤程度的划分前面已经表述，可以根据设定的划分层数采用训练学习得到。

图2展示了对区域划分结果生成掩膜的示例，其中：(a)为两个输入人群图像，(b)-(d)中黑色表示第1层背景区域，(b)为第2层区域(人群)对应的掩膜，(c)第3层区域(人群)对应的掩膜，(d)第4层区域(人群)对应的掩膜。

2)分别使用每一个掩膜与源图像或中间特征图相乘，遮挡住人群图像中不属于该掩膜对应区域的区域，得到只包含特定拥挤程度区域的图像，称为保留区域，源图像即输入的人群图像，中间特征图为源图像的特征图。保留区域相当于对人群图像只考虑特定拥挤程度的区域，视其它部分不存在，掩膜是每个像素取值为0或1的图像，1表示这个像素符合当前的拥挤程度，0表示不符合：

2.1)中间特征图是对源图像采用某些方法，例如VGG19的前几层，抽取得到的特征图，本实施例使用VGG-16神经网络的前10层提取原图像的中间特征，得到中间特征图；

2.2)若执行2.1)则使用中间特征图与密度回归器对应的层划分人群得到的掩膜相乘，否则使用原输入图像与掩膜相乘，过滤掉人群以外的区域。

3)对每个特定拥挤程度的生成图像，分别采用一个相应的密度回归器进行回归，生成对应该拥挤程度的区域密度图：

3.1)将相乘后的图像或特征通过密度回归器映射到区域密度图，具体可参考文献[2]《CSRNet:Dilated convolutional neural networks for understanding the highlycongested scenes.》(Yuhong Li,Xiaofan Zhang,and Deming Chen.2018.In IEEEConference on Computer Vision and Pattern Recognition.1091–1100.)。

本发明理论上区域的个数、掩膜的个数、密度回归器的个数三者一一对应，即密度回归器的个数与划分层数相同，对于划分出背景区域的分层方式，也可以舍弃对应背景区域的密度回归器，将背景区域的区域密度图直接默认为0，来节省计算资源，提高效率。对于背景区域，我们认为其中不包含人，所以密度回归器生成的密度图应该是全0的，所以这个密度回归器没有意义，可以省略掉，但这只是理想情况，认为背景区域的划分是完全正确的，如果以背景区域可能会划错为前提，也就是可能会把一部分人群划分到背景区域，那么也就是允许在背景区域产生一定数量非0的密度图，这时候对应背景区域的密度回归器就不能舍弃了。

4)将所有区域密度图相融合，生成整幅图像的密度图；

4.1)将各个密度图相融合方法如下：

其中，H和W分别是密度图的高度和宽度，K是划分区域的个数，是第k个区域所对应密度图在坐标(i,j)处的像素值，p_ij是整幅图像密度图在坐标(i,j)处的像素值。

5)将整幅图像的密度图进行统计，生成人数估计结果。

5.1)根据密度图统计人数方法如下：

其中，c是估计的人数，H和W分别是密度图的高度和宽度，p_ij是整幅图像密度图在坐标(i,j)处的像素值。

本发明提供了一种从划分人群并分别对不同拥挤程度的人群回归的方法，实现了人群密度估计，能够适应稀疏和密集的人群场景，预测结果更为准确，克服了现有技术同时在稀疏和密集人群场景中预测不准确的限制。

Claims

1.一种基于多层级回归的人群密度估计方法，其特征是将人群图像划分为不同拥挤程度的区域，即划分多层，对各划分出的区域采用对应的密度回归器生成相应的区域密度图，最终合并各区域密度图生成整幅图像的密度图用于人群密度估计，包括以下步骤：

1）对于输入的人群图像，根据不同拥挤程度将其分层，划分为多个区域，并对各个区域生成掩膜；

2）分别使用每一个掩膜与源图像或中间特征图相乘，遮挡住人群图像中不属于该掩膜对应区域的区域，得到只包含特定拥挤程度区域的图像，称为保留区域，源图像即输入的人群图像，中间特征图为源图像的特征图；

3）对每个特定拥挤程度区域的图像，分别采用一个相应的密度回归器进行回归，生成对应该拥挤程度区域的区域密度图；

4）将所有区域密度图相融合，生成整幅人群图像的密度图；

5）将整幅图像的密度图进行统计，生成人数估计结果。

2.根据权利要求1所述的一种基于多层级回归的人群密度估计方法，其特征是拥挤度划分前先预设划分层数，根据设定层数确定拥挤度划分依据，同时利用分层后的数据训练得到对应层级的密度回归器，再对待估计密度的人群图像进行多层级回归的密度估计。

3.根据权利要求2所述的一种基于多层级回归的人群密度估计方法，其特征是根据设定层数进行训练，得到拥挤程度的划分依据，利用分层后的数据训练得到对应层的密度回归器。

4.根据权利要求1所述的一种基于多层级回归的人群密度估计方法，其特征是步骤1）对输入人群图像进行划分时，先划分为两层，将图像划分为人群区域和背景区域，再对人群区域分层，按照不同的拥挤程度进一步划分为多个区域。

5.根据权利要求4所述的一种基于多层级回归的人群密度估计方法，其特征是密度回归器的个数与划分层数相同，或舍弃对应背景区域的密度回归器，将背景区域的区域密度图默认为0。

6.根据权利要求1所述的一种基于多层级回归的人群密度估计方法，其特征是步骤3）所述的区域密度图生成方法具体为：通过密度回归器将保留区域映射到区域密度图。