CN112364788A - 基于深度学习的监控视频人群数量监测方法及其相关组件 - Google Patents

基于深度学习的监控视频人群数量监测方法及其相关组件 Download PDF

Info

Publication number
CN112364788A
CN112364788A CN202011271883.1A CN202011271883A CN112364788A CN 112364788 A CN112364788 A CN 112364788A CN 202011271883 A CN202011271883 A CN 202011271883A CN 112364788 A CN112364788 A CN 112364788A
Authority
CN
China
Prior art keywords
crowd
population
monitoring
deep learning
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011271883.1A
Other languages
English (en)
Other versions
CN112364788B (zh
Inventor
张兴
王国勋
王鹤
石强
刘雨桐
熊娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Digital Technology Co Ltd
Original Assignee
Runlian Software System Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Software System Shenzhen Co Ltd filed Critical Runlian Software System Shenzhen Co Ltd
Priority to CN202011271883.1A priority Critical patent/CN112364788B/zh
Publication of CN112364788A publication Critical patent/CN112364788A/zh
Application granted granted Critical
Publication of CN112364788B publication Critical patent/CN112364788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Abstract

本发明公开了基于深度学习的监控视频人群数量监测方法及其相关组件,其中,方法包括:基于深度学习的检测方法对当前图片进行计算,获取当前图片的第一人群数量;基于深度学习的密度估计方法对当前图片进行计算,获取当前图片的第二人群数量;将第二人群数量与人口密度阈值进行比较;若大于或等于人口密度阈值,则将第二人群数量作为输出人群数量,否则将第一人群数量作为输出人群数量。本发明根据不同的监控视频场景选择不同的人群数量统计方法,可以解决在人群稀疏和人群密集场景下单一算法无法准确估计人数的问题。

Description

基于深度学习的监控视频人群数量监测方法及其相关组件
技术领域
本发明涉及视频监控技术领域,特别涉及一种基于深度学习的监控视频人群数量监测方法及其相关组件。
背景技术
随着城市化的加速,现代城市人口数量日趋增长,在大型派对活动、游行、汽车站、火车站、地铁站、商场以及一些节日庆典上,常常会出现人数拥挤聚集现象。高密度的人群聚集,极其容易发生一些意外事故,包括踩踏、斗殴、暴乱等群体性事件,给公共安全带来了极大的挑战。因此,及时的监测公共场所人群数量的变化,并安排相应的保护措施,对于预防及降低突发事件的发生具有必要性。随着科技的发展,城市监控视频日趋增多,采用人工甄别视频监控的方法已经不能满足当下的需求,使用计算机算法进行监控视频中人群态势的分析迅速的成为一个研究热点。利用计算机系统对监控视频进行监测,当计算到当前监控画面下人群的密度超过一定阈值的时候,启动报警功能,并推送给相关管理人员,其可根据实时情况更好的进行现场管控。目前现有的人群计数方法主要包括以下几种:
1、传统检测方法。其利用滑动窗口检测器来检测场景中人群,并统计相应的人数,主要分为整体检测和部分的身体检测。整体检测的方法其主要是针对人群稀疏的场景,当人群之间遮挡严重时其检测精度就有所下降。为了解决遮挡问题基于部分身体的检测方法被提出,主要通过提取人头部、肩部等特征信息,用以避免身体的遮挡造成的精度下降问题。
2、传统回归的方法。对于低级的特征,传统的检测方法效果不是很好,回归的方法先提取场景的低级特征(边缘特征、梯度特征、前景特征、角点特征、纹理特征等),再学习一个回归模型(线性回归、岭回归、高斯过程回归等),学习低级特征到人群数量的映射关系,从而进行人群数量的统计。
3、基于密度图的方法。基于回归的方法虽然能够在一定程度上解决遮挡的问题,但其忽略了图像的空间信息。基于密度的方法先为检测的图片创建一个密度图,通过学习提取的特征与目标密度映射之间的关系,从而在计数的过程中加入图像的空间信息。
然而,这些方法只能应用于单一场景下,无法满足多种场景的市场需求。
发明内容
本发明的目的是提供一种基于深度学习的监控视频人群数量监测方法及其相关组件,旨在解决现有人群计数方法无法面对不同场景进行人群统计的问题。
第一方面,本发明实施例提供了一种基于深度学习的监控视频人群数量监测方法,其包括:
基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量;
基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量;
将所述第二人群数量与预设的人口密度阈值进行比较;其中,不同的监控视频场景对应不同的人口密度阈值;
若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量。
第二方面,本发明实施例提供了一种基于深度学习的监控视频人群数量监测系统,其包括:
第一人群数量获取单元,用于基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量;
第二人群数量获取单元,用于基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量;
第二人群数量比对单元,用于将所述第二人群数量与预设的人口密度阈值进行比较;其中,不同的监控视频场景对应不同的人口密度阈值;
人群数量输出单元,用于若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量。
第三方面,本发明实施例又提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于深度学习的监控视频人群数量监测方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深度学习的监控视频人群数量监测方法。
本发明实施例提供了一种基于深度学习的监控视频人群数量监测方法及其相关组件,其中,方法包括:基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量;基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量;将所述第二人群数量与预设的人口密度阈值进行比较;其中,不同的监控视频场景对应不同的人口密度阈值;若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量。本发明实施例根据不同的监控视频场景选择不同的人群数量统计方法,可以解决在人群稀疏和人群密集场景下单一算法无法准确估计人数的问题。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法的流程示意图;
图2为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法步骤S101的流程示意图;
图3为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法步骤S102的流程示意图;
图4为本发明实施例所提供的基于深度学习的监控视频人群数量监测方法步骤S302的流程示意图;
图5为本发明实施例提供的基于深度学习的监控视频人群数量监测系统的示意性框图;
图6为本发明实施例提供的基于深度学习的监控视频人群数量监测系统第一人群数量获取单元501的示意性框图;
图7为本发明实施例提供的基于深度学习的监控视频人群数量监测系统第二人群数量获取单元502的示意性框图;
图8为本发明实施例提供的基于深度学习的监控视频人群数量监测系统人群密度估计模型获取单元702的示意性框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的一种基于深度学习的监控视频人群数量监测方法的流程示意图,该方法可以包括步骤S101~S106:
S101、基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量;
在本步骤中,在获取监控视频当前图片后,可以通过基于深度学习的Yolo-v4检测方法(Yolo-v4算法是在原有Yolo目标检测架构的基础上,采用了近些年卷积神经网络领域中最优秀的优化策略,从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化,相较于其他检测方法,Yolo-v4检测方法的提供了检测速度更快、精度更好的检测模型,仅需要单张1080Ti或2080Ti即可完成训练)进行计算,以获取第一人群数量。
在一具体实施例中,如图2所示,所述步骤S101包括:
S201、创建包含多张行人图片的第一训练样本,并对所述行人图片中行人的头肩进行标注及清洗,以建立头肩数据库;
S202、基于所述头肩数据库中的第二训练样本,对Yolo-v4检测方法进行训练,并对训练结果进行迭代优化,以获取头肩模型;
S203、根据所述头肩模型对所述当前图片进行头肩检测,以获取当前图片中行人头肩框的数量,并将所述行人头肩框的数量作为第一人群数量。
在本实施例中,通过爬虫技术爬取所述监控视频中的行人图片,并以所述行人图片为基础创建包含多张行人图片的第一训练样本,通过对所述行人图片中行人的头肩进行标注、清洗,建立包含第二训练样本的私有头肩数据库。基于所述头肩数据库中的第二训练样本,采用Yolo-v4检测方法进行训练,并进行网络结构调整、参数优化、迭代更新,以得到最优的头肩模型。根据所述头肩模型,采用Yolo-v4检测方法对所述当前图片进行头肩检测,根据检测的行人头肩框的数量,返回所述当前图片下的第一人群数量。本实施例采用深度学习Yolo-v4检测方法,并利用自建的私有头肩数据库进行训练,在对监控视频下人群稀疏场景进行检测时具有精度高、速度快、实时性强的优点。
S102、基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量;
在本步骤中,利用基于深度学习的密度估计方法对所述当前图片进行计算,是将所述当前图片作为输入,利用端到端的卷积神经网络进行回归,从而获得所述第二人群数量。
在一具体实施例中,如图3所示,所述步骤S102包括:
S301、建立监控视频场景下的人群密度估计数据集,并对所述人群密度估计数据集进行标注及清洗;
S302、基于所述人群密度估计数据集中的第三训练样本,对所述基于深度学习的密度估计方法进行端对端的训练,并对训练结果进行优化,以获得人群密度估计模型;
S303、根据所述人群密度估计模型对所述监控视频当前图片进行检测,以获取所述当前图片的第二人群数量。
在本实施例中,通过截取监控视频获取图片,建立监控视频场景下的人群密度估计数据集,并进行标注、清洗;利用深度学习卷积神经网络(CNN)结合所述人群密度估计数据集中的所述第三训练样本,对所述基于深度学习的密度估计方法进行端对端的训练,并进行网络结构调整、参数优化、迭代更新,得到最优的人群密度估计模型;根据所述人群密度估计模型,对监控视频当前图片进行检测,返回监控视频当前图片下的第二人群数量。本实施例采用深度学习的密度估计方法,在视屏监控人群密集场景下可以降低监控视频画面质量模糊、光照不均衡、遮挡等因素的影响,提高人群检测准确率。
在一具体实施例中,如图4所示,所述步骤S302包括:
S401、采用Vgg-16网络对所述人群密度估计数据集中的第三训练样本进行特征提取,以获取所述第三训练样本的第一基础特征;
S402、将所述第一基础特征作为输入,通过特征金字塔提取多尺度的上下文信息;
S403、通过尺度感知特征方法,将所述上下文信息连接至所述第一基础特征,并定义每个空间位置尺度感知的相对影响为对比特征,所述对比特征为特定空间和邻近区域的特征之间的差异;
S404、将所述第三训练样本的透视图输入至所述Vgg-16网络中,以获得第二基础特征,并将所述第二基础特征作为输入,结合所述对比特征通过尺度为j下的一个卷积层输出每一对比特征的权重值;
S405、根据所述权重值及上下文信息,计算所述第三训练样本的上下文特征,并将所述上下文特征进行空洞卷积,以获得预估密度图。
在本实施例中,首先,通过Vgg-16网络(Vgg网络具有两种结构,分别是Vgg-16和Vgg-19,其中Vgg-16包含了16个隐藏层,即13个卷积层和3个全连接层)对所述第三训练样本进行特征提取,得到第一基础特征,然后将所述第一基础特征作为输入,通过特征金字塔提取多尺度的上下文信息,通过尺度感知特征方法,将所述上下文信息连接至所述第一基础特征,得到对比特征;再将所述第三训练样本输入至所述Vgg-16网络中,以得到第二基础特征,将所述第二基础特征结合所述对比特征进行卷积,以获得所述对比特征的权重值,最后利用所述权重值及上下文信息计算所述第三训练样本的上下文特征,通过对上下文特征进行空洞卷积,获得预估密度图。
具体的,所述端对端的人群密度估计算法的特征提取网络为Vgg-16网络,输入所述第三训练样本,通过公式fv=Fvgg(I)计算出所述第三训练样本的第一基础特征fv;但Fvgg在所述第三训练样本上具有相同的感受野局限性。因此,在fv的基础上,采用特征金字塔提取多尺度的上下文信息,其表示式为Sj=Ubi(Fj(Pave(fv,j),θj)),其中,对每个尺度j,Pave(fv,j)将Vgg特征(即第一基础特征fv或称Vgg特征图fv)平均为k(j)*k(j)块,Fj是一个1×1卷积层,Ubi表示以双线性插值方式进行上采样,保持输出的特征图(即上下文信息)与fv有相同的维度,θj表示尺度为j时非线性映射的输入参数。
使用尺度感知特征方法,将所述上下文信息连接到原始的Vgg特征图fv后,定义每个空间位置尺度感知特征的相对影响为对比特征,其公式为cj=sj-fv,其中,cj为对比特征。所述对比特征cj表示特定空间和邻近区域的特征之间的差异,可以提供图像区域的局部的重要信息。
另外,针对不同尺度信息,将对比特征cj作为输入,每个网络会输出一个特定尺寸的第一权重值wj(这里所说的wj即为第一权重值),其公式为:wj=Fj(cjj),其中:Fj表示尺度为j下的一个1×1卷积层,θj表示对比特征cj的预设权重值(即预先设置好的对比特征cj的权重值)。
由于透视失真,场景几何形状与场景上下文信息具有高度相关性,可以将其用来引导网络更好地适应它所需要的场景上下文信息。其中,Ii表示所述第三训练样本,Mi表示所述第三训练样本对应的透视图,此时第二基础特征为fg=F′vgg(Mig),所述F′vgg表示所述Vgg-16网络,θg表示透视图Mi的预设权重值(即预先设置好的透视图Mi的权重值)。
将所述第二基础特征作为输入,代入公式wj=Fj(cjj)中,计算出新的权重值wj(这里所说的wj可以视为第二权重值),其公式可表示为:
Figure BDA0002777936750000071
其中,
Figure BDA0002777936750000073
表示引入几何信息时的卷积层,
Figure BDA0002777936750000074
表示[cj|fg]的预设权重值(即预先设置好的[cj|fg]的权重值)。
因此,通过如下公式可计算出上下文特征
Figure BDA0002777936750000072
其中,[.|.]表示通道连接操作,
Figure BDA0002777936750000075
表示元素乘积,wj表示第二权重值,S表示尺度数量,sj表示采用特征金字塔提取多尺度的上下文信息。
将上下文特征fI传递到一个由若干膨胀的空洞卷积组成的解码器,从而生成预测估计的密度图Di est
在一具体实施例中,在所述步骤S405之后,还包括:
采用如下损失函数对所述人群密度估计模型进行迭代优化:
Figure BDA0002777936750000081
其中,B为一次训练所选取的样本数,Di gt为真实密度图,Di est为预估密度图。
在本实施例中,通过上述公式对所述人群密度估计模型进行迭代优化,以确保得到最佳数据。
在一具体实施例中,在所述步骤S405之后,包括:
通过如下公式的自适应高斯核函数将所述第三训练样本中的每个人头转换成密度图,从而得到完整的人群密度图,
Figure BDA0002777936750000082
其中,对于输入图像Ii,有Ci个人头的二维坐标点(x,y),用集合
Figure BDA0002777936750000083
表示所述第三训练样本中每个人头的二维坐标点位置集合,Ngt(p|μ,σ2)为高斯核;
基于所述人群密度图,对所述预估密度图进行积分求和,获取所述第三训练样本中的具体人数。
在本实施例中,通过自适应高斯核函数获得完成的人群密度图,基于所述人群密度图对预估密度图进行积分求和,得到所述第三训练样本的人数。具体的,所述自适应高斯核函数采用如下公式进行转换:
Figure BDA0002777936750000084
其中,对于所述第三训练样本Ii,有Ci个人头的二维坐标点(x,y),用集合
Figure BDA0002777936750000085
表示所述第三训练样本中每个人头的二维坐标点位置集合,Ngt(p|μ,σ2)为高斯核,μ,σ表示正态分布的均值和方差。在经过自适应高斯核函数获取完整的人群密度图后,通过公式
Figure BDA0002777936750000086
进行积分求和。
S103、将所述第二人群数量与预设的人口密度阈值进行比较;其中,不同的监控视频场景对应不同的人口密度阈值;
在本步骤中,在不同的监控场景下,人口密度具有较大差异,因此在设置人口密度阈值时,需要根据该监控场景设置对应的人口密度阈值,再将所述第二人群密度与所设置的人口密度阈值作比较。具体的,在人群稀疏场景下,由于人群较为稀疏,因此该场景下的行人头肩标注更加清晰,此时采用基于深度学习的检测方法对此人群稀疏场景下的人群数量统计更加精确;当人群密度达到一定数量时,无法精确地检测出该区域内的行人头肩数量,因此,在人群密度达到一定数量时,采用基于深度学习的密度估计方法统计人群数量更加精确。通过两种检测方法结合使用,可以解决现有技术在人群稀疏和人群密集场景下单一算法无法准确估计人数的问题。
S104、若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量;
在本步骤中,根据当前场景下的人群密度,设定对应的人口密度阈值,若所述第二人群数量大于该人口密度阈值,则表示当前场景为人群密集场景,将所述第二人群数量作为输出人群数量;若第二人群数量小于该人口密度阈值,则表示当前场景为人群稀疏场景,将所述第一人群数量作为输出人群数量。
在一实施例中,所述步骤S104之后包括:
将所述输出人群数量与预设的人员超限阈值进行对比,判断当前图片的人群数量是否存在人员超限的情况;
若所述输出人群数量大于所述人员超限阈值,则向外发出预警。
在本步骤中,在得到当前场景的人群数量后,将其与当前场景下预设的人员超限阈值进行对比,以判断当前场景中的人群数量是否存在人员超限的情况。每一监控视频对应一监控区域,每一个监控区域内都存在着人群承受上限,因此为了预防安全事故的出现,需要对区域内的人口进行限制,以避免在人员数量超过人员超限阈值后产生安全事故。若当前场景下的人群数量大于所述人员超限阈值,则需要向外发出预警,以提醒管理人员采取预防措施,防止出现安全事故。
请参阅图5,图5为本发明实施例提供的一种基于深度学习的监控视频人群数量监测系统的示意性框图,该基于深度学习的监控视频人群数量监测系统500包括:
第一人群数量获取单元501,用于基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量;
第二人群数量获取单元502,用于基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量;
第二人群数量比对单元503,用于将所述第二人群数量与预设的人口密度阈值进行比较;其中,不同的监控视频场景对应不同的人口密度阈值;
人群数量输出单元504,用于若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量;
在一实施例中,所述人群数量输出单元504包括:
人员超限判断单元,用于将所述输出人群数量与预设的人员超限阈值进行对比,判断当前图片的人群数量是否存在人员超限的情况;
预警单元,用于若所述输出人群数量大于所述人员超限阈值,则向外发出预警。
在一实施例中,如图6所示,所述第一人群数量获取单元501包括:
头肩数据库创建单元601,用于创建包含多张行人图片的第一训练样本,并对所述行人图片中行人的头肩进行标注及清洗,以建立头肩数据库;
头肩模型获取单元602,用于基于所述头肩数据库中的第二训练样本,对Yolo-v4检测方法进行训练,并对训练结果进行迭代优化,以获取头肩模型;
第一人群数量输出单元603,用于根据所述头肩模型对所述当前图片进行头肩检测,以获取当前图片中行人头肩框的数量,并将所述行人头肩框的数量作为第一人群数量。
在一实施例中,如图7所示,所述第二人群数量获取单元502包括:
人群密度估计数据集获取单元701,用于建立监控视频场景下的人群密度估计数据集,并对所述人群密度估计数据集进行标注及清洗;
人群密度估计模型获取单元702,用于基于所述人群密度估计数据集中的第三训练样本,对所述基于深度学习的密度估计方法进行端对端的训练,并对训练结果进行优化,以获得人群密度估计模型;
第二人群数量输出单元703,用于根据所述人群密度估计模型对所述监控视频当前图片进行检测,以获取所述当前图片的第二人群数量。
在一实施例中,如图8所示,所述人群密度估计模型获取单元702包括:
第一基础特征获取单元801,用于采用Vgg-16网络对所述人群密度估计数据集中的第三训练样本进行特征提取,以获取所述第三训练样本的第一基础特征;
上下文信息获取单元802,用于将所述第一基础特征作为输入,通过特征金字塔提取多尺度的上下文信息;
对比特征获取单元803,用于通过尺度感知特征方法,将所述上下文信息连接至所述第一基础特征,并定义每个空间位置尺度感知的相对影响为对比特征,所述对比特征为特定空间和邻近区域的特征之间的差异;
权重值获取单元804,用于将所述第三训练样本的透视图输入至所述Vgg-16网络中,以获得第二基础特征,并将所述第二基础特征作为输入,结合所述对比特征通过尺度为j下的一个卷积层输出每一对比特征的权重值;
预估密度图获取单元805,用于根据所述权重值及上下文信息,计算所述第三训练样本的上下文特征,并将所述上下文特征进行空洞卷积,以获得预估密度图。
在一实施例中,所述人群密度估计模型获取单元702还包括:
完整人群密度图获取单元,用于通过如下公式的自适应高斯核函数将所述第三训练样本中的每个人头转换成密度图,从而得到完整的人群密度图,
Figure BDA0002777936750000111
其中,对于输入图像Ii,有Ci个人头的二维坐标点(x,y),用集合
Figure BDA0002777936750000112
表示所述第三训练样本中每个人头的二维坐标点位置集合,Ngt(p|μ,σ2)为高斯核;
训练样本人数获取单元,用于基于所述人群密度图,对所述预估密度图进行积分求和,获取所述第三训练样本中的具体人数。
在一实施例中,所述人群密度估计模型获取单元702还包括:
损失函数计算单元,用于采用如下损失函数对所述人群密度估计模型进行迭代优化:
Figure BDA0002777936750000113
其中,B为一次训练所选取的样本数,Di gt为真实密度图,Di est为预估密度图。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于深度学习的监控视频人群数量监测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深度学习的监控视频人群数量监测方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种基于深度学习的监控视频人群数量监测方法,其特征在于,包括:
基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量;
基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量;
将所述第二人群数量与预设的人口密度阈值进行比较;其中,不同的监控视频场景对应不同的人口密度阈值;
若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量。
2.根据权利要求1所述的基于深度学习的监控视频人群数量监测方法,其特征在于,所述若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量之后,包括:
将所述输出人群数量与预设的人员超限阈值进行对比,判断当前图片的人群数量是否存在人员超限的情况;
若所述输出人群数量大于所述人员超限阈值,则向外发出预警。
3.根据权利要求1所述的基于深度学习的监控视频人群数量监测方法,其特征在于,所述基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量,包括:
创建包含多张行人图片的第一训练样本,并对所述行人图片中行人的头肩进行标注及清洗,以建立头肩数据库;
基于所述头肩数据库中的第二训练样本,对Yolo-v4检测方法进行训练,并对训练结果进行迭代优化,以获取头肩模型;
根据所述头肩模型对所述当前图片进行头肩检测,以获取当前图片中行人头肩框的数量,并将所述行人头肩框的数量作为第一人群数量。
4.根据权利要求1所述的基于深度学习的监控视频人群数量监测方法,其特征在于,所述基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量,包括:
建立监控视频场景下的人群密度估计数据集,并对所述人群密度估计数据集进行标注及清洗;
基于所述人群密度估计数据集中的第三训练样本,对所述基于深度学习的密度估计方法进行端对端的训练,并对训练结果进行优化,以获得人群密度估计模型;
根据所述人群密度估计模型对所述监控视频当前图片进行检测,以获取所述当前图片的第二人群数量。
5.根据权利要求4所述的基于深度学习的监控视频人群数量监测方法,其特征在于,所述基于所述人群密度估计数据集中的第三训练样本,对所述基于深度学习的密度估计方法进行端对端的训练,并对训练结果进行优化,以获得人群密度估计模型,包括:
采用Vgg-16网络对所述人群密度估计数据集中的第三训练样本进行特征提取,以获取所述第三训练样本的第一基础特征;
将所述第一基础特征作为输入,通过特征金字塔提取多尺度的上下文信息;
通过尺度感知特征方法,将所述上下文信息连接至所述第一基础特征,并定义每个空间位置尺度感知的相对影响为对比特征,所述对比特征为特定空间和邻近区域的特征之间的差异;
将所述第三训练样本的透视图输入至所述Vgg-16网络中,以获得第二基础特征,并将所述第二基础特征作为输入,结合所述对比特征通过尺度为j下的一个卷积层输出每一对比特征的权重值;
根据所述权重值及上下文信息,计算所述第三训练样本的上下文特征,并将所述上下文特征进行空洞卷积,以获得预估密度图。
6.根据权利要求5所述的基于深度学习的监控视频人群数量监测方法,其特征在于,所述根据所述权重值及上下文信息,计算所述第三训练样本的上下文特征,并将所述上下文特征进行空洞卷积,以获得预估密度图之后,包括:
通过如下公式的自适应高斯核函数将所述第三训练样本中的每个人头转换成密度图,从而得到完整的人群密度图,
Figure FDA0002777936740000021
其中,对于输入图像Ii,有Ci个人头的二维坐标点(x,y),用集合
Figure FDA0002777936740000031
表示所述第三训练样本中每个人头的二维坐标点位置集合,Ngt(p|μ,σ2)为高斯核;
基于所述人群密度图,对所述预估密度图进行积分求和,获取所述第三训练样本中的具体人数。
7.根据权利要求5所述的基于深度学习的监控视频人群数量监测方法,其特征在于,所述根据所述权重值及上下文信息,计算所述第三训练样本的上下文特征,并将所述上下文特征进行空洞卷积,以获得预估密度图之后,还包括:
采用如下损失函数对所述人群密度估计模型进行迭代优化:
Figure FDA0002777936740000032
其中,B为一次训练所选取的样本数,Di gt为真实密度图,Di est为预估密度图。
8.一种基于深度学习的监控视频人群数量监测系统,其特征在于,包括:
第一人群数量获取单元,用于基于深度学习的检测方法对所获取的监控视频当前图片进行计算,以获取所述当前图片的第一人群数量;
第二人群数量获取单元,用于基于深度学习的密度估计方法对所述当前图片进行计算,以获取所述当前图片的第二人群数量;
第二人群数量比对单元,用于将所述第二人群数量与预设的人口密度阈值进行比较;其中,不同的监控视频场景对应不同的人口密度阈值;
人群数量输出单元,用于若所述第二人群数量大于或等于所述人口密度阈值,则将所述第二人群数量作为输出人群数量,若所述第二人群数量小于所述人口密度阈值,则将所述第一人群数量作为输出人群数量。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于深度学习的监控视频人群数量监测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于深度学习的监控视频人群数量监测方法。
CN202011271883.1A 2020-11-13 2020-11-13 基于深度学习的监控视频人群数量监测方法及其相关组件 Active CN112364788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011271883.1A CN112364788B (zh) 2020-11-13 2020-11-13 基于深度学习的监控视频人群数量监测方法及其相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011271883.1A CN112364788B (zh) 2020-11-13 2020-11-13 基于深度学习的监控视频人群数量监测方法及其相关组件

Publications (2)

Publication Number Publication Date
CN112364788A true CN112364788A (zh) 2021-02-12
CN112364788B CN112364788B (zh) 2021-08-03

Family

ID=74515608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011271883.1A Active CN112364788B (zh) 2020-11-13 2020-11-13 基于深度学习的监控视频人群数量监测方法及其相关组件

Country Status (1)

Country Link
CN (1) CN112364788B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222388A1 (en) * 2007-11-16 2009-09-03 Wei Hua Method of and system for hierarchical human/crowd behavior detection
CN106407946A (zh) * 2016-09-29 2017-02-15 北京市商汤科技开发有限公司 跨线计数方法和深度神经网络训练方法、装置和电子设备
CN107145821A (zh) * 2017-03-23 2017-09-08 华南农业大学 一种基于深度学习的人群密度检测方法和系统
CN107679503A (zh) * 2017-10-12 2018-02-09 中科视拓(北京)科技有限公司 一种基于深度学习的人群计数算法
CN108154110A (zh) * 2017-12-22 2018-06-12 任俊芬 一种基于深度学习人头检测的密集人流量统计方法
CN108615027A (zh) * 2018-05-11 2018-10-02 常州大学 一种基于长短期记忆-加权神经网络对视频人群计数的方法
CN109101930A (zh) * 2018-08-18 2018-12-28 华中科技大学 一种人群计数方法及系统
CN109543695A (zh) * 2018-10-26 2019-03-29 复旦大学 基于多尺度深度学习的泛密度人群计数方法
CN109697435A (zh) * 2018-12-14 2019-04-30 重庆中科云从科技有限公司 人流量监测方法、装置、存储介质及设备
CN110390226A (zh) * 2018-04-16 2019-10-29 杭州海康威视数字技术股份有限公司 人群事件识别方法、装置、电子设备及系统
CN110598558A (zh) * 2019-08-14 2019-12-20 浙江省北大信息技术高等研究院 人群密度估计方法、装置、电子设备及介质
CN110705394A (zh) * 2019-09-18 2020-01-17 广东外语外贸大学南国商学院 一种基于卷积神经网络的景区人群行为分析方法
CN110765833A (zh) * 2019-08-19 2020-02-07 中云智慧(北京)科技有限公司 一种基于深度学习的人群密度估计方法
CN111191610A (zh) * 2019-12-31 2020-05-22 河海大学常州校区 一种视频监控中人流量检测与处理方法
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN111428587A (zh) * 2020-03-10 2020-07-17 同济大学 人群计数及密度估计方法、装置、存储介质及终端
US10733876B2 (en) * 2017-04-05 2020-08-04 Carnegie Mellon University Deep learning methods for estimating density and/or flow of objects, and related methods and software
CN111563447A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种基于密度图的人群密度分析与检测定位方法
CN111626184A (zh) * 2020-05-25 2020-09-04 齐鲁工业大学 一种人群密度估计方法及系统

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222388A1 (en) * 2007-11-16 2009-09-03 Wei Hua Method of and system for hierarchical human/crowd behavior detection
CN106407946A (zh) * 2016-09-29 2017-02-15 北京市商汤科技开发有限公司 跨线计数方法和深度神经网络训练方法、装置和电子设备
CN107145821A (zh) * 2017-03-23 2017-09-08 华南农业大学 一种基于深度学习的人群密度检测方法和系统
US10733876B2 (en) * 2017-04-05 2020-08-04 Carnegie Mellon University Deep learning methods for estimating density and/or flow of objects, and related methods and software
CN107679503A (zh) * 2017-10-12 2018-02-09 中科视拓(北京)科技有限公司 一种基于深度学习的人群计数算法
CN108154110A (zh) * 2017-12-22 2018-06-12 任俊芬 一种基于深度学习人头检测的密集人流量统计方法
CN110390226A (zh) * 2018-04-16 2019-10-29 杭州海康威视数字技术股份有限公司 人群事件识别方法、装置、电子设备及系统
CN108615027A (zh) * 2018-05-11 2018-10-02 常州大学 一种基于长短期记忆-加权神经网络对视频人群计数的方法
CN109101930A (zh) * 2018-08-18 2018-12-28 华中科技大学 一种人群计数方法及系统
CN109543695A (zh) * 2018-10-26 2019-03-29 复旦大学 基于多尺度深度学习的泛密度人群计数方法
CN109697435A (zh) * 2018-12-14 2019-04-30 重庆中科云从科技有限公司 人流量监测方法、装置、存储介质及设备
CN110598558A (zh) * 2019-08-14 2019-12-20 浙江省北大信息技术高等研究院 人群密度估计方法、装置、电子设备及介质
CN110765833A (zh) * 2019-08-19 2020-02-07 中云智慧(北京)科技有限公司 一种基于深度学习的人群密度估计方法
CN110705394A (zh) * 2019-09-18 2020-01-17 广东外语外贸大学南国商学院 一种基于卷积神经网络的景区人群行为分析方法
CN111191610A (zh) * 2019-12-31 2020-05-22 河海大学常州校区 一种视频监控中人流量检测与处理方法
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN111428587A (zh) * 2020-03-10 2020-07-17 同济大学 人群计数及密度估计方法、装置、存储介质及终端
CN111563447A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种基于密度图的人群密度分析与检测定位方法
CN111626184A (zh) * 2020-05-25 2020-09-04 齐鲁工业大学 一种人群密度估计方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALEXEY BOCHKOVSKIY ET AL.: "YOLOv4: Optimal Speed and Accuracy of Object Detection", 《ARXIV》 *
MARK MARSDEN ET AL.: "ResnetCrowd: A Residual Deep Learning Architecture for Crowd Counting,Violent Behaviour Detection and Crowd Density Level Classification", 《AVSS 2017》 *
叶张帆 等: "基于深度学习和特征点数量的人数统计方法", 《厦门理工学院学报》 *
张楚楚 等: "基于改进 YOLOv2 网络的密集人群场景行人检测", 《图形图像》 *
曹金梦 等: "基于多尺度多任务卷积神经网络的人群计数", 《计算机应用》 *

Also Published As

Publication number Publication date
CN112364788B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN108615027B (zh) 一种基于长短期记忆-加权神经网络对视频人群计数的方法
CN108830145B (zh) 一种基于深度神经网络的人数统计方法及存储介质
CN108154110B (zh) 一种基于深度学习人头检测的密集人流量统计方法
CN109598794B (zh) 三维gis动态模型的构建方法
CN104978567B (zh) 基于场景分类的车辆检测方法
CN111860274B (zh) 基于头部朝向与上半身骨架特征的交警指挥手势识别方法
CN111709300B (zh) 基于视频图像的人群计数方法
CN109325404A (zh) 一种公交场景下的人数统计方法
CN110765833A (zh) 一种基于深度学习的人群密度估计方法
CN111783589B (zh) 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN111832489A (zh) 一种基于目标检测的地铁人群密度估计方法及系统
CN108804992B (zh) 一种基于深度学习的人群统计方法
CN106815563B (zh) 一种基于人体表观结构的人群数量预测方法
CN104320617A (zh) 一种基于深度学习的全天候视频监控方法
CN110717408B (zh) 一种基于tof相机的人流计数方法
CN110255318B (zh) 基于图像语义分割的电梯轿厢闲置物品检测的方法
CN109492615B (zh) 基于cnn低层语义特征密度图的人群密度估计方法
CN111027370A (zh) 一种多目标跟踪及行为分析检测方法
CN110490150A (zh) 一种基于车辆检索的违章图片自动审核系统及方法
CN106056078B (zh) 一种基于多特征回归式集成学习的人群密度估计方法
CN111091093A (zh) 一种高密度人群的数量估测方法、系统及相关装置
JP2011198244A (ja) 対象物認識システム及び該システムを利用する監視システム、見守りシステム
CN112464765B (zh) 一种基于单像素特征放大的安全帽检测方法及其应用
CN111563492B (zh) 一种跌倒检测方法、跌倒检测装置及存储装置
CN105118073A (zh) 基于Xtion摄像机的人体头部目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee after: China Resources Digital Technology Co., Ltd.

Address before: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee before: Runlian software system (Shenzhen) Co.,Ltd.