CN110598558B

CN110598558B - 人群密度估计方法、装置、电子设备及介质

Info

Publication number: CN110598558B
Application number: CN201910750230.2A
Authority: CN
Inventors: 王伊飞; 黄晓峰; 殷海兵; 贾惠柱
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2022-05-06
Anticipated expiration: 2039-08-14
Also published as: CN110598558A

Abstract

本申请提供一种人群密度估计方法及装置、一种电子设备以及一种计算机可读介质。其中，所述方法包括：获取针对监控区域中人群的监控视频，提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧，将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的。由于是提取监控视频中的关键帧后再进行人群密度估计，相较于现有技术，能够提高人群密度估计的效率和准确性。

Description

人群密度估计方法、装置、电子设备及介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种人群密度估计方法及装置、一种电子设备以及一种计算机可读介质。

背景技术

在各大城市中，随着居住人口密度的增长，人群大量聚集的行为越来越多且规模越来越大。虽然在城市的每个角落几乎都装有摄像头，但目前人群的聚集仍然缺乏有效的管理和控制。因此对特定场合的人群的密度进行估计，成为城市管理中的一项重要任务。

人群密度估计在灾害防护、公共场所设计、人员智能调度等方面发挥着重要作用。当一个场景空间容纳了过多的行人时，容易发生踩踏事故，而人群密度估计可以对这样的场景进行预警，降低危险发生的概率。然而，由于受到场景多样性限制等因素影响，现有的人群密度估计方法的准确率并不高。例如，密集场景下人群大量聚集，遮挡严重；稀疏场景下人群分布散乱，背景复杂；人头尺度变化大，拍摄角度多样等因素。

因此，如何准确地对大量聚集的人群进行人群密度估计，是本领域亟需解决的技术问题。

发明内容

本申请的目的是提供一种人群密度估计方法及装置、一种电子设备以及一种计算机可读介质。

本申请第一方面提供一种人群密度估计方法，包括：

获取针对监控区域中人群的监控视频；

提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧；

将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的。

本申请第二方面提供一种人群密度估计装置，包括：

获取模块，用于获取针对监控区域中人群的监控视频；

提取模块，用于提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧；

分析模块，用于将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的。

本申请第三方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。

本申请第四方面提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

相较于现有技术，本申请第一方面提供的人群密度估计方法，通过获取针对监控区域中人群的监控视频，提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧，将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的。由于是提取监控视频中的关键帧后再进行人群密度估计，相较于现有技术，能够提高人群密度估计的效率和准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种人群密度估计方法的流程图；

图2示出了本申请的一些实施方式所提供的进行人群密度和数量估计的示意图；

图3示出了本申请的一些实施方式所提供的卷积神经网络模型训练建立的流程图；

图4示出了本申请的一些具体实施方式所提供的数据预处理过程的示意图；

图5示出了本申请的一些实施方式所提供的一种人群密度估计装置的示意图；

图6示出了本申请的另一些实施方式所提供的一种人群密度估计装置的示意图；

图7示出了本申请的一些实施方式所提供的一种电子设备的示意图；

图8示出了本申请的一些实施方式所提供的一种计算机可读介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种人群密度估计方法及装置、一种电子设备以及计算机可读存储介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种人群密度估计方法的流程图，如图所示，所述人群密度估计方法，可以包括以下步骤：

步骤S101：获取针对监控区域中人群的监控视频。

实际应用中，可以通过监控设备(例如监控摄像头)对监控区域中的人群进行实时监控，实时获取一段时间的监控视频，例如30秒的监控视频。

步骤S102：提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧。

实际应用中，现有的人群密度估计方法，由于受到场景多样性限制，密集场景下人群大量聚集，遮挡严重；稀疏场景下人群分布散乱，背景复杂；人头尺度变化大，拍摄角度多样等因素影响，估计准确率并不高，并且由于图片源分辨高，使得现有模型计算复杂度较高，耗时严重，很少有人对监控视频序列进行分析。因此，本申请实施例中，为了克服现有方法中存在的上述问题，当获取到监控视频之后，首先提取监控视频中图像帧间差异大于预设差分阈值的关键帧。

具体的，上述提取监控视频中图像帧间差异大于预设差分阈值的关键帧的步骤，可以实现为：提取所述监控视频中的第N帧图像和第N-1帧图像，N为大于1的正整数；将所述第N帧图像和所述第N-1帧图像作减法运算，得到两帧图像间的差分强度；将所述差分强度大于预设差分阈值的图像帧作为关键帧。

更具体的，在计算得到两两图像帧间的差分强度之后，可以先依据差分强度从大到小对所述监控视频中的图像帧进行排序及平滑处理，然后再与预设的差分阈值进行比较，将大于差分阈值的图像帧提取作为关键帧。图像帧之间的差异主要体现的是人群的变化，求取图像帧之间的差异可以避免遮挡、复杂背景等的干扰，同时对于后续的人群密度估计，也可以减少计算耗时。

步骤S103：将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的。

本申请实施例中，通过预先训练好的卷积神经网络模型对上述得到的监控视频中的关键帧进行人群分析，可以估计出该监控视频所记录的场景中人群的密度以及人数，如图2所示。实际应用中，可以设置人群密度阈值和人数阈值，当通过监控视频估计出的人群密度和人数大于对应阈值后报警，以免发生危险。

上述人群密度估计方法可用于客户端，本申请实施例中，所述客户端可以包括硬件，也可以包括软件。当客户端包括硬件时，其可以是具有显示屏并且支持信息交互的各种电子设备，例如，可以包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当客户端包括软件时，可以安装在上述电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

相较于现有技术，本申请实施例提供的上述人群密度估计方法，通过获取针对监控区域中人群的监控视频，提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧，将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的。由于是提取监控视频中的关键帧后再进行人群密度估计，相较于现有技术，能够提高人群密度估计的准确性。

在本申请的一些实施方式中，上述卷积神经网络模型可以通过以下方法训练建立，如图3所示，包括以下步骤：

步骤S201：对样本集中的各图像进行预处理，以根据图像中行人所在位置生成对应的人头点图和真实人群密度图。具体的，可以选取一个公开数据集作为样本集，将数据集中的待估计图像进行数据预处理，根据图像中行人所在位置获得待估计图像的真实人群密度图、人群数量。其中，如图4所示，可以先在RGB图像中进行人头位置标记生成人头点图(人头坐标)，然后再基于几何自适应高斯核通过如下公式一计算得到人群密度图，公式一：

即人群密度图是对delta脉冲函数与高斯函数卷积结果求和得来。其中，x_i表示人头在图像中的像素位置，δ(x-x_i)表示图像中人头位置的脉冲函数，N表示图像中的人头总数，

为距离x_i人头最近的m个人头与该人头的欧式距离的平均，通常情况头部的大小和两个相邻的人在拥挤的场景中中心之间的距离有关，

在人群较密的情况下近似等于人头大小，大量实验表明β＝0.3效果最好。这样生成的密度图在人头小/大的位置高斯核小/大(集中/分散)，能更好地表征人头大小的特征。

步骤S202：对预处理后的样本集进行数据增强。本实施例中，所述数据增强可以包括旋转、剪裁、翻转变换、缩放变换、平移变换和噪声扰动。具体的，由于实际中公开数据集图片较少，数据标注成本大，为了增大图片输入的随机性，对原图片进行长宽均为原图1/4的随机剪裁，每张图片随机剪裁得到9张子图像，然后还可以继续对这9张子图像进行旋转、翻转变换、缩放变换、平移变换、添加噪声扰动等数据增强，每张子图片对应的真值标签也做相应的处理，以提高神经网络模型的泛化能力、鲁棒性。

步骤S203：将数据增强后样本集中的图像及与其对应的真值标签共同输入到初始卷积神经网络模型中，输出人群密度估计图，其中，所述初始卷积神经网络模型采用VGG16模型的前十层作为主干网络，并在所述主干网络后面加入空洞卷积网络。具体的，采用VGG16模型的前十层作为主干网络，模型的初始参数为VGG的预训练权重，将原图输入到VGG16前十层网络中，进行特征提取，经过卷积、池化等操作得到特征图，其大小为原图的1/8。为了维持图像分辨率，增加感受野，在VGG16后面引入空洞卷积，将上述特征图使用1*1*1卷积操作，得到大小为原图1/8的初始人群密度估计图，将初始人群密度估计图通过线性插值法扩大至真实人群密度图大小，得到与输入大小一致的人群密度估计图。

步骤S204：对所述人群密度估计图的每个像素累加求和，得到人数估计结果。

本申请实施例中，可以将欧式距离损失函数和结构相似性损失函数的和确定为所述初始卷积神经网络模型的整体损失函数；所述欧式距离损失函数为人群密度估计图和真实人群密度图的欧氏距离函数，所述结构相似性损失函数为人群密度估计图和真实人群密度图的结构相似性函数。

具体的，上述整体损失函数用来调整模型的准确性及人群密度估计图的质量，该整体损失函数由以下两部分组成：

第一部分：损失L1，

其表示L2范数的平方，其中，N表示网络训练过程中Batch Size(一次训练所选取的样本数)，

表示第i张输入图像X_i对应的真实人群密度图，Z(X_i；θ)表示模型对应生成的人群密度估计图，θ表示此时网络的参数。

第二部分：损失SSIM，SSIM(Structual Similarity Index，结构相似性)，图像处理中常用的质量评价指标，使用SSIM衡量人群密度估计图与真实人群密度图之间的相似性，计算两者间的局部统计值：均值、方差、协方差。SSIM的取值范围从[-1,1]，当两个图片相同时值为1。使用11×11的正则化高斯核函数来进行局部统计。使用卷积层实现，设定权值不变。C₁和C₂是为防止分母出现0的常量，公式如下：

对以上两部分损失求和，得到整体损失：Loss＝L1+SSIM。

基于该整体损失函数，上述卷积神经网络模型训练方法还包括以下步骤：

步骤S205：根据整体损失函数确定所述初始卷积神经网络模型的误差。具体的，将人群密度估计图与其对应的真值输入到上述整体损失函数中，计算误差。

步骤S206：将所述误差反向传播，调整所述初始卷积神经网络模型的参数，对所述初始卷积神经网络模型进行优化。

步骤S207：重复以上优化步骤，对所述初始卷积神经网络模型进行迭代训练，直到所述整体损失函数收敛，训练完成后得到所述卷积神经网络模型。具体的，学习率可以设置为0.000001，迭代次数可以设置为1000。

通过上述方法训练建立的卷积神经网络模型，与现有模型对比，人群密度估计图质量、人群数量准确率都有显著提升。

在上述的实施例中，提供了一种人群密度估计方法，与之相对应的，本申请还提供一种人群密度估计装置。本申请实施例提供的人群密度估计装置可以实施上述人群密度估计方法，该人群密度估计装置可以通过软件、硬件或软硬结合的方式来实现。例如，该人群密度估计装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图5，其示出了本申请的一些实施方式所提供的一种人群密度估计装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图5所示，所述人群密度估计装置10可以包括：

获取模块101，用于获取针对监控区域中人群的监控视频；

提取模块102，用于提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧；

分析模块103，用于将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的。

请参考图6，其示出了本申请的另一些实施方式所提供的一种人群密度估计装置的示意图，如图所示，所述人群密度估计装置10还可以包括：

模型训练模块104，用于：

对样本集中的各图像进行预处理，以根据图像中行人所在位置生成对应的人头点图和真实人群密度图；

对预处理后的样本集进行数据增强；

将数据增强后样本集中的图像及与其对应的真值标签共同输入到初始卷积神经网络模型中，输出人群密度估计图，其中，所述初始卷积神经网络模型采用VGG16模型的前十层作为主干网络，并在所述主干网络后面加入空洞卷积网络；

对所述人群密度估计图的每个像素累加求和，得到人数估计结果。

在本申请实施例的一些实施方式中，所述模型训练模块104，还用于：

将欧式距离损失函数和结构相似性损失函数的和确定为所述初始卷积神经网络模型的整体损失函数；所述欧式距离损失函数为人群密度估计图和真实人群密度图的欧氏距离函数，所述结构相似性损失函数为人群密度估计图和真实人群密度图的结构相似性函数；

根据所述整体损失函数确定所述初始卷积神经网络模型的误差；

将所述误差反向传播，调整所述初始卷积神经网络模型的参数，对所述初始卷积神经网络模型进行优化；

重复以上优化步骤，对所述初始卷积神经网络模型进行迭代训练，直到所述整体损失函数收敛，训练完成后得到所述卷积神经网络模型。

在本申请实施例的一些实施方式中，所述数据增强包括旋转、剪裁、翻转变换、缩放变换、平移变换和噪声扰动。

在本申请实施例的一些实施方式中，所述提取模块102，具体用于：

提取所述监控视频中的第N帧图像和第N-1帧图像，N为大于1的正整数；

将所述第N帧图像和所述第N-1帧图像作减法运算，得到两帧图像间的差分强度；

将所述差分强度大于预设差分阈值的图像帧作为关键帧。

本申请实施例提供的人群密度估计装置10，与本申请前述实施例提供的人群密度估计方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的人群密度估计方法对应的电子设备，所述电子设备可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述人群密度估计方法。

请参考图7，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图7所示，所述电子设备20包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的人群密度估计方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述人群密度估计方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的人群密度估计方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的人群密度估计方法对应的计算机可读介质，请参考图8，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的人群密度估计方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的人群密度估计方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种人群密度估计方法，其特征在于，包括：

获取针对监控区域中人群的监控视频；

将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果；

其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的；

具体的，所述卷积神经网络模型的训练过程如下：

对预处理后的样本集进行数据增强；

将数据增强后样本集中的图像及与其对应的真值标签共同输入到初始卷积神经网络模型中，输出人群密度估计图，其中，所述初始卷积神经网络模型采用VGG16模型的前十层作为主干网络，模型的初始参数为VGG16模型的预训练权重，将所述图像输入到VGG16前十层网络中，进行特征提取，经过卷积、池化操作得到特征图，该特征图大小为所述图像的1/8，在所述主干网络后面加入空洞卷积网络，将所述特征图使用1*1*1卷积操作，得到大小为所述图像1/8的初始人群密度估计图，将所述初始人群密度估计图通过线性插值法扩大至所述真实人群密度图大小，得到与所述图像大小一致的人群密度估计图；

对所述人群密度估计图的每个像素累加求和，得到人数估计结果；

2.根据权利要求1所述的方法，其特征在于，所述数据增强包括旋转、剪裁、翻转变换、缩放变换、平移变换和噪声扰动。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述提取所述监控视频中图像帧间差异大于预设差分阈值的关键帧，包括：

将所述差分强度大于预设差分阈值的图像帧作为关键帧。

4.一种人群密度估计装置，其特征在于，包括：

获取模块，用于获取针对监控区域中人群的监控视频；

分析模块，用于将所述关键帧输入卷积神经网络模型中进行人群分析，输出所述关键帧对应的人群密度估计图和人数估计结果，其中，所述卷积神经网络模型是以不同图像及其对应的人群密度估计图和人数估计结果为样本集，经过深度学习训练建立的；

所述装置还包括：

模型训练模块，用于：

对预处理后的样本集进行数据增强；

所述模型训练模块，还用于：

5.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1至3任一项所述的方法。

6.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至3任一项所述的方法。