CN112418120A

CN112418120A - 基于峰值置信图的人群检测方法

Info

Publication number: CN112418120A
Application number: CN202011360878.8A
Authority: CN
Inventors: 张锦; 陈�胜; 刘宏; 王磊; 胡娟; 龚文安
Original assignee: Hunan Normal University
Current assignee: Hunan Le Ran Intelligent Technology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-26
Anticipated expiration: 2040-11-27
Also published as: CN112418120B

Abstract

本发明提供了一种基于峰值置信图的人群检测方法。所述基于峰值置信图的人群检测方法包括以下步骤：步骤S1、提取图像中的特征信息：步骤S2、将提取到的特征信息映射为峰值置信图；步骤S3、在峰值置信图中寻找峰值来计算人群的数目和位置。本发明利用峰值置信图进行人群检测，具有很好的人群计数性能，同时还能获取准确的位置信息。

Description

基于峰值置信图的人群检测方法

技术领域

本发明涉及人群计数技术领域，特别涉及基于峰值置信图的人群检测方法。

背景技术

在城市中，这样的现象随处可见：在一公交车站有一群人在等车，而另一公交站几乎无人问津。根据车站人数合理安排车辆是人群计数问题中一个重要的应用，而这样的应用还有许多。因此，人群计数问题有着重要的应用前景。人群计数问题旨在估计图像或视频中的人群数量。该问题在其他方面也有着重要的应用，如交通管理，商场管理等。同时，在其它领域也存在一些相似的工作，如车辆计数，显微镜下的细胞计数等。这一系列问题的研究与应用，能极大的降低人力，物力和财力。和其他计算机视觉任务一样，在遮挡、背景干扰、图像失真等方面人群计数也面临着巨大的挑战。目前有很多研究者关注人群计数问题，并提出很多优秀的模型和算法来解决该问题。

在基于深度学习的框架下，人群计数方法包括密度图计数法。由于密度图方法是根据输入图像，通过网络回归的密度图进行求和而导致了如下问题：(1)假阳性的比例更高。(2)人群位置信息的丢失。如图2所示，采用密度图计数法，以左侧曲线和右侧曲线表示将不同人的位置信息转化成的高斯核函数，易知x1，x3表示不同人的头部位置，而进行相加后可得到中间的虚线曲线，由于此时产生了假峰值x2，则无法判断哪些峰值是人的头部位置。

发明内容

本发明提供了一种基于峰值置信图的人群检测方法，其目的是为了解决背景技术中人群计数精度不高的技术问题。

为了达到上述目的，本发明的实施例提供的基于峰值置信图的人群检测方法，包括以下步骤：

步骤S1、提取图像中的特征信息：

步骤S2、将提取到的特征信息映射为峰值置信图；

步骤S3、在峰值置信图中寻找峰值来计算人群的数目和位置。

优选地，所述步骤S1具体为采用残差网络提取图像中的特征信息，获得特征图。

优选地，所述步骤S1具体包括如下步骤：

步骤S11、将残差网络的layer3以及之前的层作为外部后端，以提取图像中的特征信息；

步骤S12、更改layer3的步长，获得残差块；

步骤S13、对图像中的特征信息进行提取，并进行下采样，得到缩小了8倍的特征图。

优选地，所述步骤S1中，所述残差网络训练过程中，使用残差网络在Image Net上预训练模型前三层的参数；将数据集划分为交叉集，验证集和训练集；使用Adam优化算法，由交叉集得出学习率为5e-5和权重衰退率为1e-4；输入图像进行正则化，然后在训练集上进行训练，得到预测的峰值置信图；将预测的峰值置信图经过求取极值点，统计预测的人数；同时，每在训练集上迭代一次，便在验证集上进行一次验证，保留验证集中最佳的模型。

优选地，所述步骤S2具体为：采用反卷积层和/或卷积层进行上采样，将特征图恢复成原图的大小，以获取峰值置信图：采用两个卷积层及四个反卷积层进行上采样，四个反卷积层依次设置于两个卷积层之间，其中，第一个卷积层负责编码特征图信息，中间四个反卷积层负责将特征图上采样成原图尺寸，最后一个卷积层负责将特征图映射成峰值置信图。

优选地，所述步骤S2中，所述峰值置信图函数为：

F(x,y)＝M(x_M,y_M)

其中，

表示第i个头部位置对应的高斯核，M(x_i,y_i)表示已包含i个头部位置的置信函数，M表示图像中的人数，σ_i为第i个头部对应高斯核的方差，ksize为像素大小，(x_i,y_i)表示包含i个头部位置的图像坐标，F(x,y)表示头部位置峰值置信函数。

优选地，将峰值置信图乘一个放大因子factor。

优选地，所述步骤S2中，使用均方损失评估真实峰值置信图与预测峰值置信图的误差，真实峰值置信图为预测峰值置信图与峰值置信图函数表征图的差值，均方损失函数为：

其中θ表示需要学习的参数，N表示图片总数，F(I_i；θ)表示第i幅输入图像I预测的峰值置信图，G_i表示第i幅输入图像I真实的峰值置信图。

优选地，所述步骤S2中，采用计算相邻像素点之间的差异及均方损失，共同评估真实峰值置信图与预测峰值置信图的误差，具体包括：

步骤A、使用大小为3*3的卷积核kernel＝[[-1,-1,-1],[-1,9,-1],[-1,-1,-1]]

分别与真实峰值置信图函数表征图和预测峰值置信图进行卷积，得到相邻像素点之间的关系；

步骤B、采用上述卷积后的结果，取绝对值，获得相邻像素点之间的损失：

步骤C、采用均方损失评估真实峰值置信图和预测峰值置信图之间的误差：

步骤D、计算总损失：

L(θ)＝L_mse(θ)+L_ker(θ)。

优选地，所述步骤S3中，所述在峰值置信图中寻找峰值中，采用非极大抑制方法对图像的峰值置信图F(x，y)寻找峰值，峰值极值点位置集合P为：

其中，F(x_i,y_j)表示大小为(W,H)的峰值密度图像中第(i,j)个像素点，arg max表示求取最大值的下标，W和H分别表示峰值密度图的宽度和高度，δ₄表示该峰值密度图每个像素点的四邻域，

为阈值。

采用本发明能达到的技术效果有：本发明采用峰值置信图方法进行人群检测。与密度图不同，峰值置信图表示人群头部位置的置信程度。峰值置信图中的每一个峰值都对应了每一个人的头部位置，且保留人群的空间分布信息。在峰值置信图下，由于其良好特性，它不仅适用于密集场景，更能对人群进行追踪等活动。峰值置信图具有与密度图相当的人群计数性能，同时它还能获取准确的位置信息。

采用残差网络进行训练及特征提取。残差网络的特点在于其“捷径连接(ShortcutConnections)性”，使得深层次的网络参数得以训练，图片分类效果好。

附图说明

图1为本发明的基于峰值置信图的人群检测方法的流程图；

图2为本发明的基于峰值置信图的人群检测方法的对比方法中，基于密度图获得极值点的效果图；

图3为本发明的基于峰值置信图的人群检测方法中基于峰值置信图获得极值点的效果图；

图4为本发明的基于峰值置信图的人群检测方法与对比方法基于密度图获得人群密度的对比示意图；

图5为本发明的基于峰值置信图的人群检测方法中采用残差网络获得特征图的示意图；

图6为本发明的基于峰值置信图的人群检测方法中将特征图恢复成原图的大小的示意图；

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的问题，提供了一种基于峰值置信图的人群检测方法，如图1所示，包括以下步骤：

步骤S1、提取图像中的特征信息：

步骤S2、将提取到的特征信息映射为峰值置信图；

所述步骤S1具体为采用残差网络提取图像中的特征信息，获得特征图。

如图5所示，所述步骤S1具体包括如下步骤：

步骤S12、更改layer3的步长，获得残差块；

所述步骤S1中，所述残差网络训练过程中，使用残差网络在Image Net上预训练模型前三层的参数；将数据集划分为交叉集，验证集和训练集；使用Adam优化算法，由交叉集得出学习率为5e-5和权重衰退率为1e-4；输入图像进行正则化，然后在训练集上进行训练，得到预测的峰值置信图；将预测的峰值置信图经过求取极值点，统计预测的人数；同时，每在训练集上迭代一次，便在验证集上进行一次验证，保留验证集中最佳的模型。

如图6所示，所述步骤S2具体为：采用反卷积层和/或卷积层进行上采样，将特征图恢复成原图的大小，以获取峰值置信图：采用两个卷积层及四个反卷积层进行上采样，四个反卷积层依次设置于两个卷积层之间，其中，第一个卷积层负责编码特征图信息，中间四个反卷积层负责将特征图上采样成原图尺寸，最后一个卷积层负责将特征图映射成峰值置信图。

优选地，所述步骤S2中，所述峰值置信图函数为：

将峰值置信图乘一个放大因子factor:F(x,y)＝factor*M(x_M,y_M)

其中，

峰值置信图使用峰值的个数来进行统计人群的数目。我们将其称为峰值置信图的原因是：1.峰值代表了人群的数目和位置。2.越靠近头部位置，其数值越高。在一定程度上能反应我们对人群检测的置信度。如图3所示，左侧的曲线和右侧的曲线分别表示不同头部位置的高斯核函数，虚线表示将不同高斯核函数取最大值后的结果。从虚线曲线可知，该曲线存在的两个峰值正好表示不同人的头部位置。在实验过程中，通过回归所述峰值置信图函数，使得网络在不同人的头部位置能产生不同的峰值。通过从峰值密度图中求取极值点来获取峰值的位置，易知有多少人就会产生多少个峰值，从而对人群进行计数。

所述步骤S2中，使用均方损失评估真实峰值置信图与预测峰值置信图的误差，真实峰值置信图为预测峰值置信图与峰值置信图函数表征图的差值，均方损失函数为：

但当我们仅使用均方损失时，网络偏向于预测的更多的峰值。虽然均方损失能惩罚真实峰值置信图和预测峰值置信图之间的误差，但它忽视了相邻像素点之间的关系。

作为本实施例的进一步改进，在所述步骤S2中，所述步骤S2中，采用计算相邻像素点之间的差异及均方损失，共同评估真实峰值置信图与预测峰值置信图的误差，具体包括：

步骤A、使用大小为3*3的卷积核kernel＝[[-1,-1,-1],[-1,9,-1],[-1,-1,-1]]分别与真实峰值置信图函数表征图和预测峰值置信图进行卷积，得到相邻像素点之间的关系；

步骤D、计算总损失：

L(θ)＝L_mse(θ)+L_ker(θ)。

所述步骤S3中，所述在峰值置信图中寻找峰值中，采用非极大抑制方法对图像的峰值置信图F(x，y)寻找峰值。

非极大抑制旨在局部最大搜索，即寻找极值点。在峰值置信图中，由于每一个人的头部恰好对应了一个峰值，使得非极大抑制成为可能。

峰值极值点位置集合P为：

为阈值。

对于置信图每一像素点，峰值极值点位置集合P式将其与其四邻域进行比较，若该点在四邻域中为最大值，则该像素点为局部最大值，即极值点。即人头位置P是一个这样的集合：它是一个局部最大值且大于阀值。

用本发明能达到的技术效果有：本发明采用峰值置信图方法进行人群检测。与密度图不同，峰值置信图表示人群头部位置的置信程度。峰值置信图中的每一个峰值都对应了每一个人的头部位置，且保留人群的空间分布信息。在峰值置信图下，由于其良好特性，它不仅适用于密集场景，更能对人群进行追踪等活动。

峰值置信图具有与密度图相当的人群计数性能，同时它还能获取准确的位置信息。根据上述所述峰值置信图方法和密度图的设计方法对比，使用Beijing-BRT，Mall,UCF_CC_50和ShangHai Tech测试，得到峰值置信图和密度图如图4所示。图4表明，当人群比较分散时，峰值置信图和密度图没有太大差别。当人群比较密集时，峰值密度图在人群位置处的值较大，而密度图则表现为在人群密集处的值较大。由于峰值密度图进行的是最大值操作，所以较好的保留了位置信息和人群分布。而密度图进行相加操作，所以使得人群密集的地方峰值较大，从而丢失了位置信息。

本申请通过残差网络和峰值置信图来预测人群位置。前者是一个全卷积网络，由ResNet-18(残差网络-18)和Up sampling(上采样)构成。ResNet-18作为特征提取器，Upsampling则将提取到的特征映射为高质量的峰值置信图。峰值密度图是对密度图的改进，它保留了人群分布与位置信息，通过非极大抑制获取位置信息。我们在四个公开数据集上进行实验，结果表明，峰值置信图具有与密度图相当的人群计数性能，同时它还能获取准确的位置信息。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于峰值置信图的人群检测方法，其特征在于，包括以下步骤：

步骤S1、提取图像中的特征信息：

步骤S2、将提取到的特征信息映射为峰值置信图；

2.根据权利要求1所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S1具体为采用残差网络提取图像中的特征信息，获得特征图。

3.根据权利要求2所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S1具体包括如下步骤：

步骤S12、更改layer3的步长，获得残差块；

4.根据权利要求3所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S1中，所述残差网络训练过程中，使用残差网络在Image Net上预训练模型前三层的参数；将数据集划分为交叉集，验证集和训练集；使用Adam优化算法，由交叉集得出学习率为5e-5和权重衰退率为1e-4；输入图像进行正则化，然后在训练集上进行训练，得到预测的峰值置信图；将预测的峰值置信图经过求取极值点，统计预测的人数；同时，每在训练集上迭代一次，便在验证集上进行一次验证，保留验证集中最佳的模型。

5.根据权利要求2所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S2具体为：采用反卷积层和/或卷积层进行上采样，将特征图恢复成原图的大小，以获取峰值置信图：采用两个卷积层及四个反卷积层进行上采样，四个反卷积层依次设置于两个卷积层之间，其中，第一个卷积层负责编码特征图信息，中间四个反卷积层负责将特征图上采样成原图尺寸，最后一个卷积层负责将特征图映射成峰值置信图。

6.根据权利要求1所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S2中，所述峰值置信图函数为：

F(x,y)＝M(x_M,y_M)

其中，

7.根据权利要求5所述的基于峰值置信图的人群检测方法，其特征在于，将峰值置信图乘一个放大因子factor。

8.根据权利要求1所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S2中，使用均方损失评估真实峰值置信图与预测峰值置信图的误差，真实峰值置信图为预测峰值置信图与峰值置信图函数表征图的差值，均方损失函数为：

9.根据权利要求8所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S2中，采用计算相邻像素点之间的差异及均方损失，共同评估真实峰值置信图与预测峰值置信图的误差，具体包括：

步骤D、计算总损失：

L(θ)＝L_mse(θ)+L_ker(θ)。

10.根据权利要求1所述的基于峰值置信图的人群检测方法，其特征在于，所述步骤S3中，所述在峰值置信图中寻找峰值中，采用非极大抑制方法对图像的峰值置信图F(x，y)寻找峰值，峰值极值点位置集合P为：

为阈值。