CN112364788A

CN112364788A - 基于深度学习的监控视频人群数量监测方法及其相关组件

Info

Publication number: CN112364788A
Application number: CN202011271883.1A
Authority: CN
Inventors: 张兴; 王国勋; 王鹤; 石强; 刘雨桐; 熊娇
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: China Resources Digital Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-12
Anticipated expiration: 2040-11-13
Also published as: CN112364788B

Abstract

本发明公开了基于深度学习的监控视频人群数量监测方法及其相关组件，其中，方法包括：基于深度学习的检测方法对当前图片进行计算，获取当前图片的第一人群数量；基于深度学习的密度估计方法对当前图片进行计算，获取当前图片的第二人群数量；将第二人群数量与人口密度阈值进行比较；若大于或等于人口密度阈值，则将第二人群数量作为输出人群数量，否则将第一人群数量作为输出人群数量。本发明根据不同的监控视频场景选择不同的人群数量统计方法，可以解决在人群稀疏和人群密集场景下单一算法无法准确估计人数的问题。

Description

基于深度学习的监控视频人群数量监测方法及其相关组件

技术领域

本发明涉及视频监控技术领域，特别涉及一种基于深度学习的监控视频人群数量监测方法及其相关组件。

背景技术

随着城市化的加速，现代城市人口数量日趋增长，在大型派对活动、游行、汽车站、火车站、地铁站、商场以及一些节日庆典上，常常会出现人数拥挤聚集现象。高密度的人群聚集，极其容易发生一些意外事故，包括踩踏、斗殴、暴乱等群体性事件，给公共安全带来了极大的挑战。因此，及时的监测公共场所人群数量的变化，并安排相应的保护措施，对于预防及降低突发事件的发生具有必要性。随着科技的发展，城市监控视频日趋增多，采用人工甄别视频监控的方法已经不能满足当下的需求，使用计算机算法进行监控视频中人群态势的分析迅速的成为一个研究热点。利用计算机系统对监控视频进行监测，当计算到当前监控画面下人群的密度超过一定阈值的时候，启动报警功能，并推送给相关管理人员，其可根据实时情况更好的进行现场管控。目前现有的人群计数方法主要包括以下几种：

1、传统检测方法。其利用滑动窗口检测器来检测场景中人群，并统计相应的人数，主要分为整体检测和部分的身体检测。整体检测的方法其主要是针对人群稀疏的场景，当人群之间遮挡严重时其检测精度就有所下降。为了解决遮挡问题基于部分身体的检测方法被提出，主要通过提取人头部、肩部等特征信息，用以避免身体的遮挡造成的精度下降问题。

2、传统回归的方法。对于低级的特征，传统的检测方法效果不是很好，回归的方法先提取场景的低级特征(边缘特征、梯度特征、前景特征、角点特征、纹理特征等)，再学习一个回归模型(线性回归、岭回归、高斯过程回归等)，学习低级特征到人群数量的映射关系，从而进行人群数量的统计。

3、基于密度图的方法。基于回归的方法虽然能够在一定程度上解决遮挡的问题，但其忽略了图像的空间信息。基于密度的方法先为检测的图片创建一个密度图，通过学习提取的特征与目标密度映射之间的关系，从而在计数的过程中加入图像的空间信息。

然而，这些方法只能应用于单一场景下，无法满足多种场景的市场需求。

发明内容

本发明的目的是提供一种基于深度学习的监控视频人群数量监测方法及其相关组件，旨在解决现有人群计数方法无法面对不同场景进行人群统计的问题。

第一方面，本发明实施例提供了一种基于深度学习的监控视频人群数量监测方法，其包括：

基于深度学习的检测方法对所获取的监控视频当前图片进行计算，以获取所述当前图片的第一人群数量；

基于深度学习的密度估计方法对所述当前图片进行计算，以获取所述当前图片的第二人群数量；

将所述第二人群数量与预设的人口密度阈值进行比较；其中，不同的监控视频场景对应不同的人口密度阈值；

若所述第二人群数量大于或等于所述人口密度阈值，则将所述第二人群数量作为输出人群数量，若所述第二人群数量小于所述人口密度阈值，则将所述第一人群数量作为输出人群数量。

第二方面，本发明实施例提供了一种基于深度学习的监控视频人群数量监测系统，其包括：

第一人群数量获取单元，用于基于深度学习的检测方法对所获取的监控视频当前图片进行计算，以获取所述当前图片的第一人群数量；

第二人群数量获取单元，用于基于深度学习的密度估计方法对所述当前图片进行计算，以获取所述当前图片的第二人群数量；

第二人群数量比对单元，用于将所述第二人群数量与预设的人口密度阈值进行比较；其中，不同的监控视频场景对应不同的人口密度阈值；

人群数量输出单元，用于若所述第二人群数量大于或等于所述人口密度阈值，则将所述第二人群数量作为输出人群数量，若所述第二人群数量小于所述人口密度阈值，则将所述第一人群数量作为输出人群数量。

第三方面，本发明实施例又提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于深度学习的监控视频人群数量监测方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度学习的监控视频人群数量监测方法。

本发明实施例提供了一种基于深度学习的监控视频人群数量监测方法及其相关组件，其中，方法包括：基于深度学习的检测方法对所获取的监控视频当前图片进行计算，以获取所述当前图片的第一人群数量；基于深度学习的密度估计方法对所述当前图片进行计算，以获取所述当前图片的第二人群数量；将所述第二人群数量与预设的人口密度阈值进行比较；其中，不同的监控视频场景对应不同的人口密度阈值；若所述第二人群数量大于或等于所述人口密度阈值，则将所述第二人群数量作为输出人群数量，若所述第二人群数量小于所述人口密度阈值，则将所述第一人群数量作为输出人群数量。本发明实施例根据不同的监控视频场景选择不同的人群数量统计方法，可以解决在人群稀疏和人群密集场景下单一算法无法准确估计人数的问题。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法的流程示意图；

图2为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法步骤S101的流程示意图；

图3为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法步骤S102的流程示意图；

图4为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法步骤S302的流程示意图；

图5为本发明实施例提供的基于深度学习的监控视频人群数量监测系统的示意性框图；

图6为本发明实施例提供的基于深度学习的监控视频人群数量监测系统第一人群数量获取单元501的示意性框图；

图7为本发明实施例提供的基于深度学习的监控视频人群数量监测系统第二人群数量获取单元502的示意性框图；

图8为本发明实施例提供的基于深度学习的监控视频人群数量监测系统人群密度估计模型获取单元702的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种基于深度学习的监控视频人群数量监测方法的流程示意图，该方法可以包括步骤S101～S106：

S101、基于深度学习的检测方法对所获取的监控视频当前图片进行计算，以获取所述当前图片的第一人群数量；

在本步骤中，在获取监控视频当前图片后，可以通过基于深度学习的Yolo-v4检测方法(Yolo-v4算法是在原有Yolo目标检测架构的基础上，采用了近些年卷积神经网络领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化，相较于其他检测方法，Yolo-v4检测方法的提供了检测速度更快、精度更好的检测模型，仅需要单张1080Ti或2080Ti即可完成训练)进行计算，以获取第一人群数量。

在一具体实施例中，如图2所示，所述步骤S101包括：

S201、创建包含多张行人图片的第一训练样本，并对所述行人图片中行人的头肩进行标注及清洗，以建立头肩数据库；

S202、基于所述头肩数据库中的第二训练样本，对Yolo-v4检测方法进行训练，并对训练结果进行迭代优化，以获取头肩模型；

S203、根据所述头肩模型对所述当前图片进行头肩检测，以获取当前图片中行人头肩框的数量，并将所述行人头肩框的数量作为第一人群数量。

在本实施例中，通过爬虫技术爬取所述监控视频中的行人图片，并以所述行人图片为基础创建包含多张行人图片的第一训练样本，通过对所述行人图片中行人的头肩进行标注、清洗，建立包含第二训练样本的私有头肩数据库。基于所述头肩数据库中的第二训练样本，采用Yolo-v4检测方法进行训练，并进行网络结构调整、参数优化、迭代更新，以得到最优的头肩模型。根据所述头肩模型，采用Yolo-v4检测方法对所述当前图片进行头肩检测，根据检测的行人头肩框的数量，返回所述当前图片下的第一人群数量。本实施例采用深度学习Yolo-v4检测方法，并利用自建的私有头肩数据库进行训练，在对监控视频下人群稀疏场景进行检测时具有精度高、速度快、实时性强的优点。

S102、基于深度学习的密度估计方法对所述当前图片进行计算，以获取所述当前图片的第二人群数量；

在本步骤中，利用基于深度学习的密度估计方法对所述当前图片进行计算，是将所述当前图片作为输入，利用端到端的卷积神经网络进行回归，从而获得所述第二人群数量。

在一具体实施例中，如图3所示，所述步骤S102包括：

S301、建立监控视频场景下的人群密度估计数据集，并对所述人群密度估计数据集进行标注及清洗；

S302、基于所述人群密度估计数据集中的第三训练样本，对所述基于深度学习的密度估计方法进行端对端的训练，并对训练结果进行优化，以获得人群密度估计模型；

S303、根据所述人群密度估计模型对所述监控视频当前图片进行检测，以获取所述当前图片的第二人群数量。

在本实施例中，通过截取监控视频获取图片，建立监控视频场景下的人群密度估计数据集，并进行标注、清洗；利用深度学习卷积神经网络(CNN)结合所述人群密度估计数据集中的所述第三训练样本，对所述基于深度学习的密度估计方法进行端对端的训练，并进行网络结构调整、参数优化、迭代更新，得到最优的人群密度估计模型；根据所述人群密度估计模型，对监控视频当前图片进行检测，返回监控视频当前图片下的第二人群数量。本实施例采用深度学习的密度估计方法，在视屏监控人群密集场景下可以降低监控视频画面质量模糊、光照不均衡、遮挡等因素的影响，提高人群检测准确率。

在一具体实施例中，如图4所示，所述步骤S302包括：

S401、采用Vgg-16网络对所述人群密度估计数据集中的第三训练样本进行特征提取，以获取所述第三训练样本的第一基础特征；

S402、将所述第一基础特征作为输入，通过特征金字塔提取多尺度的上下文信息；

S403、通过尺度感知特征方法，将所述上下文信息连接至所述第一基础特征，并定义每个空间位置尺度感知的相对影响为对比特征，所述对比特征为特定空间和邻近区域的特征之间的差异；

S404、将所述第三训练样本的透视图输入至所述Vgg-16网络中，以获得第二基础特征，并将所述第二基础特征作为输入，结合所述对比特征通过尺度为j下的一个卷积层输出每一对比特征的权重值；

S405、根据所述权重值及上下文信息，计算所述第三训练样本的上下文特征，并将所述上下文特征进行空洞卷积，以获得预估密度图。

在本实施例中，首先，通过Vgg-16网络(Vgg网络具有两种结构，分别是Vgg-16和Vgg-19，其中Vgg-16包含了16个隐藏层，即13个卷积层和3个全连接层)对所述第三训练样本进行特征提取，得到第一基础特征，然后将所述第一基础特征作为输入，通过特征金字塔提取多尺度的上下文信息，通过尺度感知特征方法，将所述上下文信息连接至所述第一基础特征，得到对比特征；再将所述第三训练样本输入至所述Vgg-16网络中，以得到第二基础特征，将所述第二基础特征结合所述对比特征进行卷积，以获得所述对比特征的权重值，最后利用所述权重值及上下文信息计算所述第三训练样本的上下文特征，通过对上下文特征进行空洞卷积，获得预估密度图。

具体的，所述端对端的人群密度估计算法的特征提取网络为Vgg-16网络，输入所述第三训练样本，通过公式f_v＝F_vgg(I)计算出所述第三训练样本的第一基础特征f_v；但F_vgg在所述第三训练样本上具有相同的感受野局限性。因此，在f_v的基础上，采用特征金字塔提取多尺度的上下文信息，其表示式为S_j＝U_bi(F_j(P_ave(f_v,j),θ_j))，其中，对每个尺度j，P_ave(f_v,j)将Vgg特征(即第一基础特征f_v或称Vgg特征图f_v)平均为k(j)*k(j)块，F_j是一个1×1卷积层，U_bi表示以双线性插值方式进行上采样，保持输出的特征图(即上下文信息)与f_v有相同的维度，θ_j表示尺度为j时非线性映射的输入参数。

使用尺度感知特征方法，将所述上下文信息连接到原始的Vgg特征图f_v后，定义每个空间位置尺度感知特征的相对影响为对比特征，其公式为c_j＝s_j-f_v，其中，c_j为对比特征。所述对比特征c_j表示特定空间和邻近区域的特征之间的差异，可以提供图像区域的局部的重要信息。

另外，针对不同尺度信息，将对比特征c_j作为输入，每个网络会输出一个特定尺寸的第一权重值w_j(这里所说的w_j即为第一权重值)，其公式为：w_j＝F^j(c_j,θ^j)，其中：F^j表示尺度为j下的一个1×1卷积层，θ^j表示对比特征c_j的预设权重值(即预先设置好的对比特征c_j的权重值)。

由于透视失真，场景几何形状与场景上下文信息具有高度相关性，可以将其用来引导网络更好地适应它所需要的场景上下文信息。其中，I_i表示所述第三训练样本，M_i表示所述第三训练样本对应的透视图，此时第二基础特征为f_g＝F′_vgg(M_i,θ_g)，所述F′_vgg表示所述Vgg-16网络，θ_g表示透视图M_i的预设权重值(即预先设置好的透视图M_i的权重值)。

将所述第二基础特征作为输入，代入公式w_j＝F^j(c_j,θ^j)中，计算出新的权重值w_j(这里所说的w_j可以视为第二权重值)，其公式可表示为：

其中，

表示引入几何信息时的卷积层，

表示[c_j|f_g]的预设权重值(即预先设置好的[c_j|f_g]的权重值)。

因此，通过如下公式可计算出上下文特征

其中，[.|.]表示通道连接操作，

表示元素乘积，wj表示第二权重值，S表示尺度数量，s_j表示采用特征金字塔提取多尺度的上下文信息。

将上下文特征f_I传递到一个由若干膨胀的空洞卷积组成的解码器，从而生成预测估计的密度图D_i ^est。

在一具体实施例中，在所述步骤S405之后，还包括：

采用如下损失函数对所述人群密度估计模型进行迭代优化：

其中，B为一次训练所选取的样本数，D_i ^gt为真实密度图，D_i ^est为预估密度图。

在本实施例中，通过上述公式对所述人群密度估计模型进行迭代优化，以确保得到最佳数据。

在一具体实施例中，在所述步骤S405之后，包括：

通过如下公式的自适应高斯核函数将所述第三训练样本中的每个人头转换成密度图，从而得到完整的人群密度图，

其中，对于输入图像I_i，有C_i个人头的二维坐标点(x,y)，用集合

表示所述第三训练样本中每个人头的二维坐标点位置集合，N^gt(p|μ,σ²)为高斯核；

基于所述人群密度图，对所述预估密度图进行积分求和，获取所述第三训练样本中的具体人数。

在本实施例中，通过自适应高斯核函数获得完成的人群密度图，基于所述人群密度图对预估密度图进行积分求和，得到所述第三训练样本的人数。具体的，所述自适应高斯核函数采用如下公式进行转换：

其中，对于所述第三训练样本I_i，有C_i个人头的二维坐标点(x,y)，用集合

表示所述第三训练样本中每个人头的二维坐标点位置集合，N^gt(p|μ,σ²)为高斯核，μ,σ表示正态分布的均值和方差。在经过自适应高斯核函数获取完整的人群密度图后，通过公式

进行积分求和。

S103、将所述第二人群数量与预设的人口密度阈值进行比较；其中，不同的监控视频场景对应不同的人口密度阈值；

在本步骤中，在不同的监控场景下，人口密度具有较大差异，因此在设置人口密度阈值时，需要根据该监控场景设置对应的人口密度阈值，再将所述第二人群密度与所设置的人口密度阈值作比较。具体的，在人群稀疏场景下，由于人群较为稀疏，因此该场景下的行人头肩标注更加清晰，此时采用基于深度学习的检测方法对此人群稀疏场景下的人群数量统计更加精确；当人群密度达到一定数量时，无法精确地检测出该区域内的行人头肩数量，因此，在人群密度达到一定数量时，采用基于深度学习的密度估计方法统计人群数量更加精确。通过两种检测方法结合使用，可以解决现有技术在人群稀疏和人群密集场景下单一算法无法准确估计人数的问题。

S104、若所述第二人群数量大于或等于所述人口密度阈值，则将所述第二人群数量作为输出人群数量，若所述第二人群数量小于所述人口密度阈值，则将所述第一人群数量作为输出人群数量；

在本步骤中，根据当前场景下的人群密度，设定对应的人口密度阈值，若所述第二人群数量大于该人口密度阈值，则表示当前场景为人群密集场景，将所述第二人群数量作为输出人群数量；若第二人群数量小于该人口密度阈值，则表示当前场景为人群稀疏场景，将所述第一人群数量作为输出人群数量。

在一实施例中，所述步骤S104之后包括：

将所述输出人群数量与预设的人员超限阈值进行对比，判断当前图片的人群数量是否存在人员超限的情况；

若所述输出人群数量大于所述人员超限阈值，则向外发出预警。

在本步骤中，在得到当前场景的人群数量后，将其与当前场景下预设的人员超限阈值进行对比，以判断当前场景中的人群数量是否存在人员超限的情况。每一监控视频对应一监控区域，每一个监控区域内都存在着人群承受上限，因此为了预防安全事故的出现，需要对区域内的人口进行限制，以避免在人员数量超过人员超限阈值后产生安全事故。若当前场景下的人群数量大于所述人员超限阈值，则需要向外发出预警，以提醒管理人员采取预防措施，防止出现安全事故。

请参阅图5，图5为本发明实施例提供的一种基于深度学习的监控视频人群数量监测系统的示意性框图，该基于深度学习的监控视频人群数量监测系统500包括：

第一人群数量获取单元501，用于基于深度学习的检测方法对所获取的监控视频当前图片进行计算，以获取所述当前图片的第一人群数量；

第二人群数量获取单元502，用于基于深度学习的密度估计方法对所述当前图片进行计算，以获取所述当前图片的第二人群数量；

第二人群数量比对单元503，用于将所述第二人群数量与预设的人口密度阈值进行比较；其中，不同的监控视频场景对应不同的人口密度阈值；

人群数量输出单元504，用于若所述第二人群数量大于或等于所述人口密度阈值，则将所述第二人群数量作为输出人群数量，若所述第二人群数量小于所述人口密度阈值，则将所述第一人群数量作为输出人群数量；

在一实施例中，所述人群数量输出单元504包括：

人员超限判断单元，用于将所述输出人群数量与预设的人员超限阈值进行对比，判断当前图片的人群数量是否存在人员超限的情况；

预警单元，用于若所述输出人群数量大于所述人员超限阈值，则向外发出预警。

在一实施例中，如图6所示，所述第一人群数量获取单元501包括：

头肩数据库创建单元601，用于创建包含多张行人图片的第一训练样本，并对所述行人图片中行人的头肩进行标注及清洗，以建立头肩数据库；

头肩模型获取单元602，用于基于所述头肩数据库中的第二训练样本，对Yolo-v4检测方法进行训练，并对训练结果进行迭代优化，以获取头肩模型；

第一人群数量输出单元603，用于根据所述头肩模型对所述当前图片进行头肩检测，以获取当前图片中行人头肩框的数量，并将所述行人头肩框的数量作为第一人群数量。

在一实施例中，如图7所示，所述第二人群数量获取单元502包括：

人群密度估计数据集获取单元701，用于建立监控视频场景下的人群密度估计数据集，并对所述人群密度估计数据集进行标注及清洗；

人群密度估计模型获取单元702，用于基于所述人群密度估计数据集中的第三训练样本，对所述基于深度学习的密度估计方法进行端对端的训练，并对训练结果进行优化，以获得人群密度估计模型；

第二人群数量输出单元703，用于根据所述人群密度估计模型对所述监控视频当前图片进行检测，以获取所述当前图片的第二人群数量。

在一实施例中，如图8所示，所述人群密度估计模型获取单元702包括：

第一基础特征获取单元801，用于采用Vgg-16网络对所述人群密度估计数据集中的第三训练样本进行特征提取，以获取所述第三训练样本的第一基础特征；

上下文信息获取单元802，用于将所述第一基础特征作为输入，通过特征金字塔提取多尺度的上下文信息；

对比特征获取单元803，用于通过尺度感知特征方法，将所述上下文信息连接至所述第一基础特征，并定义每个空间位置尺度感知的相对影响为对比特征，所述对比特征为特定空间和邻近区域的特征之间的差异；

权重值获取单元804，用于将所述第三训练样本的透视图输入至所述Vgg-16网络中，以获得第二基础特征，并将所述第二基础特征作为输入，结合所述对比特征通过尺度为j下的一个卷积层输出每一对比特征的权重值；

预估密度图获取单元805，用于根据所述权重值及上下文信息，计算所述第三训练样本的上下文特征，并将所述上下文特征进行空洞卷积，以获得预估密度图。

在一实施例中，所述人群密度估计模型获取单元702还包括：

完整人群密度图获取单元，用于通过如下公式的自适应高斯核函数将所述第三训练样本中的每个人头转换成密度图，从而得到完整的人群密度图，

训练样本人数获取单元，用于基于所述人群密度图，对所述预估密度图进行积分求和，获取所述第三训练样本中的具体人数。

在一实施例中，所述人群密度估计模型获取单元702还包括：

损失函数计算单元，用于采用如下损失函数对所述人群密度估计模型进行迭代优化：

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于深度学习的监控视频人群数量监测方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度学习的监控视频人群数量监测方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于深度学习的监控视频人群数量监测方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的监控视频人群数量监测方法，其特征在于，所述若所述第二人群数量大于或等于所述人口密度阈值，则将所述第二人群数量作为输出人群数量，若所述第二人群数量小于所述人口密度阈值，则将所述第一人群数量作为输出人群数量之后，包括：

3.根据权利要求1所述的基于深度学习的监控视频人群数量监测方法，其特征在于，所述基于深度学习的检测方法对所获取的监控视频当前图片进行计算，以获取所述当前图片的第一人群数量，包括：

创建包含多张行人图片的第一训练样本，并对所述行人图片中行人的头肩进行标注及清洗，以建立头肩数据库；

基于所述头肩数据库中的第二训练样本，对Yolo-v4检测方法进行训练，并对训练结果进行迭代优化，以获取头肩模型；

根据所述头肩模型对所述当前图片进行头肩检测，以获取当前图片中行人头肩框的数量，并将所述行人头肩框的数量作为第一人群数量。

4.根据权利要求1所述的基于深度学习的监控视频人群数量监测方法，其特征在于，所述基于深度学习的密度估计方法对所述当前图片进行计算，以获取所述当前图片的第二人群数量，包括：

建立监控视频场景下的人群密度估计数据集，并对所述人群密度估计数据集进行标注及清洗；

基于所述人群密度估计数据集中的第三训练样本，对所述基于深度学习的密度估计方法进行端对端的训练，并对训练结果进行优化，以获得人群密度估计模型；

根据所述人群密度估计模型对所述监控视频当前图片进行检测，以获取所述当前图片的第二人群数量。

5.根据权利要求4所述的基于深度学习的监控视频人群数量监测方法，其特征在于，所述基于所述人群密度估计数据集中的第三训练样本，对所述基于深度学习的密度估计方法进行端对端的训练，并对训练结果进行优化，以获得人群密度估计模型，包括：

采用Vgg-16网络对所述人群密度估计数据集中的第三训练样本进行特征提取，以获取所述第三训练样本的第一基础特征；

将所述第一基础特征作为输入，通过特征金字塔提取多尺度的上下文信息；

通过尺度感知特征方法，将所述上下文信息连接至所述第一基础特征，并定义每个空间位置尺度感知的相对影响为对比特征，所述对比特征为特定空间和邻近区域的特征之间的差异；

将所述第三训练样本的透视图输入至所述Vgg-16网络中，以获得第二基础特征，并将所述第二基础特征作为输入，结合所述对比特征通过尺度为j下的一个卷积层输出每一对比特征的权重值；

根据所述权重值及上下文信息，计算所述第三训练样本的上下文特征，并将所述上下文特征进行空洞卷积，以获得预估密度图。

6.根据权利要求5所述的基于深度学习的监控视频人群数量监测方法，其特征在于，所述根据所述权重值及上下文信息，计算所述第三训练样本的上下文特征，并将所述上下文特征进行空洞卷积，以获得预估密度图之后，包括：

7.根据权利要求5所述的基于深度学习的监控视频人群数量监测方法，其特征在于，所述根据所述权重值及上下文信息，计算所述第三训练样本的上下文特征，并将所述上下文特征进行空洞卷积，以获得预估密度图之后，还包括：

采用如下损失函数对所述人群密度估计模型进行迭代优化：

8.一种基于深度学习的监控视频人群数量监测系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于深度学习的监控视频人群数量监测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于深度学习的监控视频人群数量监测方法。