CN118015530A

CN118015530A - 一种开放场景下密集人群图像中的行人计数方法

Info

Publication number: CN118015530A
Application number: CN202311830305.0A
Authority: CN
Inventors: 李学龙; 高君宇; 刘子淇; 汪飞宇; 刘远东
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-05-10

Abstract

本发明涉及一种开放场景下密集人群图像中的行人计数方法，使用骨干网络模型对人群场景图像进行表征提取并进行图像编码并获取置信度图，随后将编码图像输入二值化模块中利用可学习的阈值生成像素级的阈值编码，最后将置信度图二值化输出行人数量预测图，其中骨干网络模型是指在现有开源人群定位数据集上训练得到的人群定位深度学习模型，当给定来自现有公开数据的样本时，骨干网络模型对该样本进行人群表征提取，然后将取得的表征与真实标签对比进行训练，与二值化模块的预测结果进行一致性约束，其中该一致性约束通过对上述二者计算损失值得到。本发明解决了现有人群场景图像标注中，因过于密集的行人而造成行人计数感知误差较大的问题。

Description

一种开放场景下密集人群图像中的行人计数方法

技术领域

本发明属于计算机图像处理领域，涉及一种开放场景下密集人群图像中的行人计数方法。

背景技术

随着人们生活水平提高，选择旅行的人数逐渐增多，特别是在节假日和周末。这种大规模的出行趋势给公共交通和旅游景点带来了巨大的挑战，甚至可能引发安全风险。在高度拥挤的环境中，若缺乏有效的管理和监督，很可能导致严重的安全事故。因此，如何有效地管理和进行人数检测和分析成为至关重要的社会安全任务。通过运用先进的技术手段，我们能够实时监测人群数量，预测拥挤情况，从而采取及时的预防和调控措施。

但是现阶段对拥挤人群的人数检测主要依靠人工现场监督或者监控辅助人工监督，但这种方法在面对大规模拥挤的情况下做出快速反应依然存在巨大的挑战性。随着深度学习和图像处理技术的成熟，通过深度学习方法对人群进行实时监控可以对一些安全事故的发生做到未雨绸缪。

然而，传统的基于检测的深度学习方法十分具有局限性，在集群环境或者非常密集的环境中的人之间的遮挡显著影响检测器的性能，会使得检测效果大打折扣。针对密集人群图像中的行人计数预测问题，目前尚未提出有效的解决方案。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种开放场景下密集人群图像中的行人计数方法，解决现有的对密集人群场景下的图像进行行人计数精度过低的问题。

技术方案

一种开放场景下密集人群图像中的行人计数方法，其特征在于：对每个行人的标注框利用图形学方法缩小，直到每个标注框压缩到与其最近临近框不重叠，从而对密集人群且重叠图像中的行人计数，计数方法步骤如下：

步骤1：采用骨干网络一组三通道RGB训练图像进行特征提取，得到特征图；

步骤2：将特征图输入置信度预测器中，得到置信度图I(x,y)，其中I(x,y)每个像素点被预测为正例的概率；所述输出数据与输入数据尺寸相同，输出通道数为1；

步骤3：将置信度图I(x,y)与步骤1的原图对应位置元素相乘，得到F图，并作为阈值编码器的输入；经过阈值编码器的具有PReLU的四个卷积层和池化层后，得到逐像素的阈值图T(x,y)；

步骤4：将阈值图T(x,y)和置信度图I(x,y)同时输入二值化层进行比较，对置信度图进行二值化并输出得到图像O(x,y)；

步骤5：用置信度图I(x,y)与ground truth即真实值图G(x,y)计算MSEloss损失：

n为图中像素数量总和，y_i为第i个像素位置的真实值，f(x_i)为置信度图中对应位置的模型预测值。

使用预测出的二值化图O(x,y)与真实值图G(x,y)计算L1loss损失：

n为图中像素数量总和，y_i为第i个像素位置的真实值，f(x_i)为二值化图中对应位置的模型预测值。

两个损失函数相加作为总损失Loss，进行反向传播更新网络参数：

Loss＝L₁loss+MSEloss

训练完成后得到一个能够用于开放场景下密集人群图像中的行人计数的模型；

步骤6：将一副待预测的图像，输入步骤5训练好的模型中，待预测的图像通过模型，在模型中使用骨干网络模型预测该图像的置信度图，然后使用二值化模块预测阈值，最后将置信度图值大于阈值图值的位置作为前景，全局连通区域作为背景。即可实现密集人群图像中的行人计数感知。

所述骨干网络采用卷积神经网络。

所述骨干网络是在现有开源源人群定位数据集上训练的任何人群定位深度网络模型，所述训练是指对使用骨干网络模型得到的图像表征与开源数据集中的图像标签进行损失函数的计算，并以此来使骨干网络进行学习。

所述人群定位数据集的每个元素为单张图片，对应的标签为一个二值图，其中，二值图的前景位置代表人群中的人头位置。

所述置信度预测器选取HR-net或VGG-16+FPN。

所述二值化模块包括阈值编码器和与阈值编码器连接的二值化层。

所述损失函数采用L1loss，用于训练阈值编码器，再引入MSELoss训练置信度预测器。

所述训练以开源的人群定位数据集NWPU-Crowd为样本，首先，将骨干网络预训练300轮，然后引入二值化模块和损失函数，按照步骤2再训练300轮。

一种所述开放场景下密集人群图像中的行人计数方法的应用，其特征在于包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述数据迁移方法的步骤，用于集群环境或者非常密集的环境中的人之间的遮挡时的对密集人群图像中的行人计数预测。一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述数据迁移方法的步骤。

一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述数据迁移方法的步骤。

有益效果

本发明提出的一种开放场景下密集人群图像中的行人计数方法，使用骨干网络模型对人群场景图像进行表征提取并进行图像编码并获取置信度图，随后将编码图像输入二值化模块中利用可学习的阈值生成像素级的阈值编码，最后将置信度图二值化输出行人数量预测图，其中骨干网络模型是指在现有开源人群定位数据集上训练得到的人群定位深度学习模型，当给定来自现有公开数据的样本时，骨干网络模型对该样本进行人群表征提取，然后将取得的表征与真实标签对比进行训练，与二值化模块的预测结果进行一致性约束，其中该一致性约束通过对上述二者计算损失值得到。本发明解决了现有人群场景图像标注中，因过于密集的行人而造成行人计数感知误差较大的问题。

附图说明

图1：本发明方法流程示意图

图2：本发明实施例1的一种可选的图像行人数目预测的结果

具体实施方式

现结合实施例、附图对本发明作进一步描述：

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例提供了一种对密集人群场景下的图像进行行人计数的算法，以至少解决现有的对密集人群场景下的图像进行行人计数精度过低的问题。

根据本发明实例的一个方面，提供了一种对现有数据集获取真实值的方法，本发明的主要架构利用卷积神经网络实现，在训练时需要携带标记的样本，但是由于图片中人群的密集性，使得样本中标记的行人位置不可避免的重叠。对此，我们对每个行人的标注框利用图形学方法缩小，直到到每个标注框压缩到与其最近临近框不重叠，这样可以保证获取较高质量的带标记样本。

根据本发明实施例的另一方面，提供了一种使用骨干网络进行置信度预测的方法，包括：VGG-16和FPN，利用VGG-16轻量化和高分辨率的特点，以其作为骨干网络，将图片输入VGG-16网络中进行表征提取，并接入FPN特征金字塔网络中，作为编码器编码多尺度特征。可选的，可以将VGG-16和FPN替换为HRNet-W48，是一种目前流行的高分辨率网络，具有强大的视觉识别特征表示能力，可以获取更高质量的结果，网络模型使用训练图像的标签进行训练，具体可通过以下公式进行损失计算：

根据本发明实施例的另一方面，还提供了一种规整置信度图的方法，包括：二值化模块，用于置信度图以输出二值图，其中，二值化模块由阈值编码器和二值化层组成，阈值编码器使用用1*1卷积层和全局平均池化输出单个值作为二值化层的可学习阈值。二值化层利用该阈值来初始化置信度图并输出实例图，其中阈值编码器中阈值的更新可以表示为：

其中L与上式相同，α设置为学习率。

在本发明实施例中，图像行人预测的方法包括：使用骨干网络模型对人群场景图像进行表征提取并进行图像编码并获取置信度图，随后将编码图像输入二值化模块中利用可学习的阈值生成像素级的阈值编码，最后将置信度图二值化输出行人数量预测图，其中骨干网络模型是指在现有开源人群定位数据集上训练得到的人群定位深度学习模型，当给定来自现有公开数据的样本时，骨干网络模型对该样本进行人群表征提取，然后将取得的表征与真实标签对比进行训练，与二值化模块的预测结果进行一致性约束，其中该一致性约束通过对上述二者计算损失值得到。本发明解决了现有人群场景图像标注中，因过于密集的行人而造成行人计数感知误差较大的问题。

根据本发明实施例，提供了一种辅助图像标注的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种行人计数的方法，如图1所示，该方法包括如下步骤：

步骤1,使用一个卷积神经网络作为骨干网络对一组三通道(RGB)训练图像进行特征提取，得到提取结果，其中骨干网络模型是在现有开源源人群定位数据集上训练的任何人群定位深度网络模型，其中，该训练方法是指对使用骨干网络模型得到的图像表征与开源数据集中的图像标签进行损失函数的计算，并以此来使骨干网络进行学习。

在一个可选方案中，上述开源人群定位数据集可以为NWPU-Crowd，即每个元素为单张图片，对应的标签为一个二值图，其中，二值图的前景位置代表人群中的人头位置；在上述开源人群定位数据集上对骨干网络模型预训练之后，使用其对待预测的人群图像进行预测，所得预测结果即为某区域为人头区域的置信度图。

步骤2，提取到的特征进入置信度预测器，得到置信度图为I(x,y)，代表每个像素点被预测为正例的概率，置信度图尺寸与原图大小相同。

在一个可选实例中，置信度预测器可选取HR-net或VGG-16+FPN，输出数据与输入数据尺寸相同，输出通道数为1。

步骤3，置信度图与原图对应位置元素相乘，得到F，作为阈值编码器的输入。进入阈值编码器后经过具有PReLU的四个卷积层和池化层后，得到逐像素的阈值图T(x,y)。

步骤4，阈值图T(x,y)和置信度图I(x,y)同时进入二值化层，对置信度图进行二值化并输出实例图O(x,y)。

在一个可选实施例中，二值化模块由阈值编码器与二值化层组成。

步骤5，将输出实例图与真实图转化成标量后进行计算损失，损失函数采用L1loss,用于训练阈值编码器，再引入MSELoss训练置信度预测器。

用置信度图I(x,y)与ground truth即真实值图G(x,y)计算MSEloss损失：

使用预测出的二值化图O(x,y)与真实值图G(x,y)计算L1loss损失：

n为图中像素数量总和，y_i为第i个像素位置的真实值，f(x_i)为二值化图中对应位置的模型预测值；

Loss＝L₁loss+MSEloss

在一个可选的实施例中，以开源的人群定位数据集NWPU-Crowd为样本，首先，将骨干网络预训练300轮，然后引入二值化模块和损失函数，按照步骤2再训练300轮。

步骤6，给定一副待预测的图像，使用骨干网络模型预测该图像的置信度图，然后使用二值化模块预测阈值，最后将置信度图值大于阈值图值的位置作为前景，全局连通区域作为背景。即可实现密集人群图像中的行人计数感知。

图2即为该方法所实现开放场景下密集行人计数的可视化结果，可以清晰的看到行人的分布规则以及人群总和。通过理论分析得出，由于该方法独具特色的使用了置信度图和阈值图逐像素同时训练的算法，使得在人群计数方面的效果超过现有以全局检测和训练为主的方法。

Claims

1.一种开放场景下密集人群图像中的行人计数方法，其特征在于：对每个行人的标注框利用图形学方法缩小，直到每个标注框压缩到与其最近临近框不重叠，从而对密集人群且重叠图像中的行人计数，计数方法步骤如下：

n为图中像素数量总和，y_i为第i个像素位置的真实值，f(x_i)为置信度图中对应位置的模型预测值；

使用预测出的二值化图O(x,y)与真实值图G(x,y)计算L1loss损失：

Loss＝L₁loss+MSEloss

步骤6：将一副待预测的图像，输入步骤5训练好的模型中，待预测的图像通过模型，在模型中使用骨干网络模型预测该图像的置信度图，然后使用二值化模块预测阈值，最后将置信度图值大于阈值图值的位置作为前景，全局连通区域作为背景；即可实现密集人群图像中的行人计数感知。

2.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述骨干网络采用卷积神经网络。

3.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述骨干网络是在现有开源源人群定位数据集上训练的任何人群定位深度网络模型，所述训练是指对使用骨干网络模型得到的图像表征与开源数据集中的图像标签进行损失函数的计算，并以此来使骨干网络进行学习。

4.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述人群定位数据集的每个元素为单张图片，对应的标签为一个二值图，其中，二值图的前景位置代表人群中的人头位置。

5.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述置信度预测器选取HR-net或VGG-16+FPN。

6.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述二值化模块包括阈值编码器和与阈值编码器连接的二值化层。

7.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述损失函数采用L1loss，用于训练阈值编码器，再引入MSELoss训练置信度预测器。

8.根据权利要求1所述开放场景下密集人群图像中的行人计数方法，其特征在于：所述训练以开源的人群定位数据集NWPU-Crowd为样本，首先，将骨干网络预训练300轮，然后引入二值化模块和损失函数，按照步骤2再训练300轮。

9.一种权利要求1～8任一项所述开放场景下密集人群图像中的行人计数方法的应用，其特征在于包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至8任一项所述数据迁移方法的步骤，用于集群环境或者非常密集的环境中的人之间的遮挡时的对密集人群图像中的行人计数预测。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述数据迁移方法的步骤。