CN113255430A - 基于深度学习的视频中人群分布检测与计数方法 - Google Patents

基于深度学习的视频中人群分布检测与计数方法 Download PDF

Info

Publication number
CN113255430A
CN113255430A CN202110347405.2A CN202110347405A CN113255430A CN 113255430 A CN113255430 A CN 113255430A CN 202110347405 A CN202110347405 A CN 202110347405A CN 113255430 A CN113255430 A CN 113255430A
Authority
CN
China
Prior art keywords
density
crowd
map
point
counting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110347405.2A
Other languages
English (en)
Inventor
王丽园
余顺新
杨晶
肖进胜
吴游宇
罗丰
马天奕
熊文磊
李正军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCCC Second Highway Survey and Design Institute Co Ltd
Original Assignee
CCCC Second Highway Survey and Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCCC Second Highway Survey and Design Institute Co Ltd filed Critical CCCC Second Highway Survey and Design Institute Co Ltd
Priority to CN202110347405.2A priority Critical patent/CN113255430A/zh
Publication of CN113255430A publication Critical patent/CN113255430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提出了一种基于深度学习的视频中人群分布检测与计数方法包括以下步骤:获取大量含不同密度人群的视频,制作数据集,所述数据集包括训练样本集、测试样本集及真实密度图;建立基于注意力机制的深度神经网络;将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型;将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能;用CFDP聚类方法对人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。本发明的基于深度学习的视频中人群分布检测与技术方法可以准确地检测出有人群的区域,并且高精度的估计密集人群的人数。

Description

基于深度学习的视频中人群分布检测与计数方法
技术领域
本发明涉及视频图像处理技术领域,具体涉及一种基于深度学习的视频中人群分布检测与计数方法。
背景技术
近年来,随着计算机视觉的发展,智能视频监控技术逐渐应用于交通安全、公共安防等领域。人群分布检测与计数是智能视频监控邻域的一个研究热点,有着重要的社会意义和市场应用前景。例如,在人群容易聚集的公共场所,人群计数与分布检测可以对踩踏等安全问题进行预警,并实现人力、物力及资源的合理分配与调度;对于城市公共交通系统,可以根据乘客数量变化灵活调派车辆,既提高乘客出行质量又能保证车辆利用率;对于大型商场,可以通过客流量信息来制定更好的营销策略,提高经济效益。
目前人群计数的方法主要可以分为三类:基于检测的方法、基于回归的方法和基于密度图的估计。
基于检测的方法出现得较早,通过检测单个物体,例如头部或身体某个部位,计算图像中的总数。基于检测的方法存在的主要缺陷是在复杂场景下存在大量遮挡,导致该方法准确率较低。
基于回归的方法能有效解决这一问题,其主要思想是通过学习一种特征到人群数量的映射,首先提取低级的特征,随后学习一个回归模型,建立一个低级特征到人群数的映射关系。基于回归的方法的缺点是对空间信息考虑较少和缺乏可解释性。
基于密度图估计的方法通过学习人群分布的密度图,保证了人群计数准确性的同时,保留了图像中人与人之间的空间信息,有利于后续的人群分析工作。但现有的这类方法大多没有充分考虑背景的影响,会导致误识别,并且对整个图像上所有的人群区域都给予相同的注意力,不符合人类视觉系统的特点。
因此,亟需提供一种人群计数方法,克服以上三种现有方法存在的问题。
发明内容
本发明的目的在于,提供一种准确率高的基于深度学习的视频中人群分布检测与计数方法。
为实现上述目的,本发明所设计的基于深度学习的视频中人群分布检测与计数方法包括以下步骤:
步骤(1),获取大量含不同密度人群的视频,制作数据集,所述数据集包括训练样本集、测试样本集及真实密度图;
步骤(2),建立基于注意力机制的深度神经网络;
步骤(3),将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型;
步骤(4),将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能;
步骤(5),用CFDP聚类方法对人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
作为优选实施方式,在所述步骤(2)中,基于注意力机制的深度神经网络具体包括以下网络模块:
特征图提取器,用于从人群图像中提取出一般特征图,作为后续模块的输入;
人群区域识别器,用于判断一个区域是否包含人群,并生成一幅粗粒度注意力图CAM;
密度等级估计器,用于估计有人群区域的密度等级,生成一幅细粒度注意力图FAM;
密度图估计器,在细粒度注意力图FAM的帮助下生成一幅高分辨率、高质量的密度图。
作为优选实施方式,所述特征图提取器为编码器-解码器模式,采用VGG16的前10个卷积层和3个池化层作特征提取,在每个阶段分别获得大小为1、1/2、1/4、1/8的特征图;
所述人群区域识别器将特征图中的每个像素点分为人群区域和背景区域两类,所述人群区域识别器包含5个卷积层和3个上采样层;
所述密度等级估计器进一步将人群区域分类为不同的密度等级,所述密度等级估计器包含5个卷积层和3个上采样层;
所述密度图估计器生成高分辨率、高质量的密度图,所述密度图估计器包含5个卷积层和3个上采样层。
作为优选实施方式,所述特征图提取器的网络结构是:C(64,3) *2-P-C(128,3)*2-P-C(256,3)*2-P-C(512,3)*2,其中C表示卷积层,C(64,3)是卷积核大小为3*3、64通道的卷积层,P表示窗口大小为2*2的最大池化层;
所述人群区域识别器的网络结构是:C(256,3)-U-C(128,3)-U- C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3) 是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度等级估计器的网络结构是:C(256,3)-U-C(128,3)-U- C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3) 是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度图估计器的网络结构是:C(512,3,2)-U-C(256,3,2)- U-C(256,3,2)-U-C(64,3,2)-C(1,1),其中,C表示卷积层,C(512,3,2) 是实际卷积核大小为3*3、膨胀率为2、512通道的空洞卷积层,U代表系数为2的双线性上采样层。
作为优选实施方式,在所述步骤(2)中:
在人群区域识别器的每个阶段,特征图输入3*3的卷积层,生成一幅粗粒度注意力图CAM,然后输入密度等级估计器的对应阶段;
在密度等级估计器的每个阶段,特征图输入3*3的卷积层,生成一幅细粒度注意力图FAM,修正后的细粒度注意力图FAM'的计算公式为::FAM′=FAM+CAM,将修正后的细粒度注意力图FAM'输入密度图估计器的对应阶段;
在密度图估计器的每个阶段,修正后的特征图FM'的计算公式为: FM′=FM+FAM′*FM,修正后的特征图被上采样至输入图像大小后输入3*3的卷积层,生成一幅密度图。
作为优选实施方式,在所述步骤(2)中,人群区域识别器、密度等级估计器、密度图估计器模块的损失函数求和后反向传播。
作为优选实施方式,所述步骤(3)中生成训练模型包括以下步骤:
步骤(3.1),将训练样本集输入到深度神经网络,每个图像被随机裁剪成
Figure RE-GDA0003152522730000042
大小,然后以0.5的可能性水平翻转,扩大训练集;
步骤(3.2),特征图提取器由预训练的VGG-16网络的参数初始化,其它参数由σ=0.01的高斯分布随机初始化;采用Adam优化算法,迭代次数为500,学习率为2e-5且每迭代100次减小一半;
步骤(3.3),利用损失函数进行训练,得到一个用于人群计数的模型,取网络最深层的输出密度图作为输出密度图,对密度图积分得到人数。
作为优选实施方式,损失函数Ltotal为:
Ltotal=SL+BL+λLCAM+μLFAM
其中,SL为结构损失函数,BL为背景损失函数,LCAM为粗粒度注意力图的优化的损失函数的交叉熵,LFAM为细粒度注意力图的优化的损失函数的交叉熵;λ、μ分别表示LCAM、LFAM在Ltotal中的权重,取值范围为[0,1]。
作为优选实施方式,所述结构损失函数SL定义为:
Figure RE-GDA0003152522730000041
Figure RE-GDA0003152522730000051
其中,DM和
Figure RE-GDA0003152522730000052
分别表示真实密度图和估计的密度图,Poolj表示经过平均池化下采样到
Figure RE-GDA0003152522730000053
大小,μ表示局部均值,σ是局部方差,σXY是局部协方差;C1和C2分别设置为0.01和0.03,K设置为3;
所述背景损失函数BL定义为:
Figure RE-GDA0003152522730000054
其中,Cbg是背景区域的估计人数,Ctotal是估计的总人数。
作为优选实施方式,在所述步骤(4)中,评价指标包括平均绝对误差MAE、均方根误差RMSE、结构相似性SSIM和峰值信噪比PSNR;
所述平均绝对误差MAE、所述均方根误差RMSE按照如下方式计算:
Figure RE-GDA0003152522730000055
Figure RE-GDA0003152522730000056
其中,
Figure RE-GDA0003152522730000057
表示算法估计的每幅测试图像中的人数,
Figure RE-GDA0003152522730000058
表示每幅测试图像中的真实人数;
所述结构相似性SSIM和所述峰值信噪比PSNR的计算公式如下:
Figure RE-GDA0003152522730000059
Figure RE-GDA00031525227300000510
Figure RE-GDA00031525227300000511
其中,MAX表示图像可能的最大像素值,此处为255;DM(i)表示真实密度图的每个像素,
Figure RE-GDA00031525227300000512
表示估计的密度图的每个像素,N为密度图的总像素数。
作为优选实施方式,所述步骤(1)中的制作数据集方法包括以下步骤:
步骤(1.1),将视频切割成图像帧,对每幅图像中的每个人头的中心进行标注,在标注后的图像中挑选2/3作为训练样本集,剩余1/3 作为测试样本集。
步骤(1.2),将每个人头的标注点pi与归一化的高斯核N(pi2) 进行卷积,生成真实密度图,其中,σ是点pj与其最邻近三点间距离的均值。
作为优选实施方式,所述步骤(5)包括以下步骤:
步骤(5.1),对于每个数据点i,计算高斯核相似度作为每个点i 的局部密度ρi
Figure RE-GDA0003152522730000061
其中,dij是点i和点j之间的距离,dc为给定的阈值;
(5.2)将局部密度从大到小排序,并求出最大密度ρmax
(5.3)计算点i到更高密度点的距离δi
Figure RE-GDA0003152522730000062
(5.4)将具有高局部密度和相对较高的距离的点作为聚类中心,具有低局部密度和相对较高的距离的点作为异常点;
(5.5)将点i归于高于该点密度的距离最近点的类别:xi∈Ck,其中:
Figure RE-GDA0003152522730000063
(5.6)将每个类别中与其它类别的点的距离小于dc的点划为类别的边界区域,边界区域中密度最高的点为该类簇的边界点;类别中密度小于边界点的点归为噪声点;
(5.7)根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
本发明的有益效果是:本发明的基于深度学习的视频中人群分布检测与技术方法可以准确地检测出有人群的区域,并且高精度的估计密集人群的人数。
附图说明
图1为本发明的基于深度学习的视频中人群分布检测与计数方法的整体流程图;
图2为本发明实施例的基于深度学习的视频中人群分布检测与计数方法的注意力机制的深度神经网络的示意图;
图3为利用本发明实施例的基于深度学习的视频中人群分布检测与计数方法的检测结果示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的视频中人群分布检测与计数方法的流程示意图如图1所示,具体包含以下步骤:
步骤(1),获取大量含不同密度人群的视频,制作数据集。
在步骤(1)中,数据集包括训练样本集、测试样本集及真实密度图。步骤(1)中的制作数据集方法具体包括以下步骤:
步骤(1.1),将视频切割成图像帧,对每幅图像中的每个人头的中心进行标注,在标注后的图像中挑选2/3作为训练样本集,剩余1/3 作为测试样本集。
步骤(1.2),将每个人头的标注点pi与归一化的高斯核N(pi2) 进行卷积,生成真实密度图,其中σ是点pi与其最邻近三点间距离的均值。
步骤(2),建立基于注意力机制的深度神经网络。
基于注意力机制的深度神经网络如图2中所示。步骤(2)中的基于注意力机制的深度神经网络具体包括四个网络模块组合而成:特征图提取器、人群区域识别器、密度等级估计器、密度图估计器。
特征图提取器,用于从人群图像中提取出一般特征图,作为后续模块的输入;人群区域识别器,用于判断一个区域是否包含人群,并生成一幅粗粒度注意力图CAM;密度等级估计器,用于估计有人群区域的密度等级,生成一幅细粒度注意力图FAM;密度图估计器,在细粒度注意力图的帮助下生成一幅高分辨率、高质量的密度图。
步骤(2.1),特征图提取器设计为编码器-解码器模式,采用VGG16 的前10个卷积层和3个池化层作特征提取,在每个阶段分别获得大小为1、1/2、1/4、1/8的特征图。
特征图提取器的具体的网络结构是:C(64,3)*2-P-C(128,3)*2- P-C(256,3)*2-P-C(512,3)*2,其中C表示卷积层,C(64,3)是卷积核大小为3*3、64通道的卷积层,P表示窗口大小为2*2的最大池化层。
步骤(2.2),人群区域识别器将特征图中的每个像素点分为两类:人群区域和背景区域。
人群区域识别器包含5个卷积层和3个上采样层,具体的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层。在人群区域识别器的每个阶段,特征图输入3*3的卷积层,生成一幅粗粒度注意力图CAM,然后输入密度等级估计器的对应阶段。
步骤(2.3),密度等级估计器进一步将人群区域分类为不同的密度等级。
密度等级估计器包含5个卷积层和3个上采样层,具体的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层。
在密度等级估计器的每个阶段,特征图输入3*3的卷积层,生成一幅细粒度注意力图FAM。将特征图输入卷积层生成的细粒度注意力图FAM和之前得到的粗粒度注意力图CAM相加得到更精确的修正后的细粒度注意力图FAM':FAM′=FAM+CAM。然后,将修正后的细粒度注意力图FAM'输入密度图估计器的对应阶段。
步骤(2.4),密度图估计器生成高分辨率、高质量的密度图。
密度图估计器包含5个卷积层和3个上采样层,具体的网络结构是:C(512,3,2)-U-C(256,3,2)-U-C(256,3,2)-U-C(64,3,2)-C(1,1),其中,C表示卷积层,C(512,3,2)是实际卷积核大小为3*3、膨胀率为2、512通道的空洞卷积层,U代表系数为2的双线性上采样层。
在密度图估计器的每个阶段,对输入密度图估计器的特征图FM 和修正后的细粒度注意力图FAM'进行组合,从而得到更精细的修正后的特征图FM',修正后的特征图FM'的计算公式为:FM′=FM+ FAM′*FM。在密度图估计器的每个阶段,特征图被上采样至输入图像大小后输入3*3的卷积层,生成一幅密度图。
深度神经网络设计多级监督机制,用于协助反向传播和减少过拟合。人群区域识别器、密度等级估计器、密度图估计器等多个模块的损失函数求和后反向传播。这里损失函数Ltotal的计算方法将在步骤 (3.3)中进行说明。
步骤(3),将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型。
步骤(3)生成训练模型具体包括以下步骤:
步骤(3.1),将训练样本集输入到深度神经网络,每个图像被随机裁剪成
Figure RE-GDA0003152522730000091
大小,然后以0.5的可能性水平翻转,扩大训练集。
步骤(3.2),设置训练参数。特征图提取器由预训练的VGG-16 网络的参数初始化,其它参数由σ=0.01的高斯分布随机初始化;采用 Adam优化算法,迭代次数为500,学习率为2e-5且每迭代100次减小一半。
步骤(3.3),利用损失函数Ltotal进行训练,得到一个用于人群计数的模型,取网络最深层的输出密度图作为输出密度图,对密度图积分得到人数。
损失函数Ltotal的计算公式:Ltotal=SL+BL+λLCAM+μLFAM
其中,SL为结构损失函数,BL为背景损失函数;LCAM为粗粒度注意力图的优化的损失函数的交叉熵,LFAM为细粒度注意力图的优化的损失函数的交叉熵;λ、μ分别表示LCAM、LFAM在Ltotal中的权重,取值范围为[0,1]。λ、μ的值随着训练过程而动态调整。
考量结构相似性和计数准确率,结构损失函数SL定义为:
Figure RE-GDA0003152522730000101
Figure RE-GDA0003152522730000102
其中,DM和
Figure RE-GDA0003152522730000103
分别表示真实密度图和估计的密度图,Poolj表示经过平均池化下采样到
Figure RE-GDA0003152522730000104
大小,μ表示局部均值,σ是局部方差,σXY是局部协方差;C1和C2分别设置为0.01和0.03,K设置为3。
背景损失函数BL用于降低错误识别率,其定义为:
Figure RE-GDA0003152522730000105
其中,Cbg是背景区域的估计人数,Ctotal是估计的总人数。
对于粗粒度注意力图CAM,如果一个像素在真实密度图中对应位置的值大于1e-5(1e-5即为0.00001),将该像素值设置为1,否则设置为0,以此作为粗粒度注意力图的真实值;对于细粒度注意力图FAM,如果一个像素在真实密度图中对应位置的值小于1e-5,归类为0级,在[1e-5,1]范围内的按大小顺序归到k-1个级中,其中k为人工设置的所有像素的密度等级数量。
步骤(4),将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能。
将测试样本集输入至训练好的模型中,输出密度图,积分得到人数,计算整个测试集的平均绝对误差MAE、均方根误差RMSE、结构相似性SSIM和峰值信噪比PSNR。
步骤(4)中评价指标包括:评估计数准确性的指标和评估密度图质量的指标。
评估计数准确性的指标:平均绝对误差MAE和均方根误差RMSE,计算公式如下:
Figure RE-GDA0003152522730000111
Figure RE-GDA0003152522730000112
其中,
Figure RE-GDA0003152522730000113
表示算法估计的每幅测试图像中的人数,
Figure RE-GDA0003152522730000114
表示每幅测试图像中的真实人数。
评估密度图质量的指标:结构相似性SSIM和峰值信噪比PSNR,计算公式如下:
Figure RE-GDA0003152522730000115
Figure RE-GDA0003152522730000116
Figure RE-GDA0003152522730000117
其中,MAX表示图像可能的最大像素值,此处为255;DM(i)表示真实密度图的每个像素,
Figure RE-GDA0003152522730000118
表示估计的密度图的每个像素,N为密度图的总像素数。
步骤(5),用CFDP聚类方法对步骤(4)中输出的人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
CFDP(Clustering By Fast Search And Find Of Density Peaksd)为快速搜索聚类方法,步骤(5)中快速识别组群的方法具体包括:
步骤(5.1),对于每个数据点i,计算高斯核相似度作为每个点i 的局部密度ρi
Figure RE-GDA0003152522730000119
其中dij为点i和点j之间的距离,dc为给定的距离阈值;
步骤(5.2),将局部密度从大到小排序,并求出最大密度ρmax
步骤(5.3),计算点i到更高密度点的距离δi。对非局部密度最大点,δi是该点到任意更高密度点的最小距离;对于密度最大点,δi是该点到其它所有点的最大距离:
Figure RE-GDA0003152522730000121
步骤(5.4),将具有高局部密度和相对较高的距离的点作为聚类中心,具有低局部密度和相对较高的距离的点作为异常点。
步骤(5.5),将点i归于高于该点密度的距离最近点的类别:xi∈ Ck,其中:
Figure RE-GDA0003152522730000122
步骤(5.6),将每个类别中与其它类别的点的距离小于给定的距离阈值dc(即步骤(5.1)中的给定的距离阈值dc)的点划为类别的边界区域,边界区域中密度最高的点为该类别的边界点;类别中密度小于边界点的点归为噪声点。
步骤(5.7),根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
以图3为例,其为采用本发明的基于深度学习的视频中人群分布检测与计数方法的人群计数与组群识别结果示例。由图3可以看出,本发明的方法可以准确地检测出有人群的区域,并且高精度的估计密集人群的人数。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种基于深度学习的视频中人群分布检测与计数方法,其特征在于,包括以下步骤:
步骤(1),获取大量含不同密度人群的视频,制作数据集,所述数据集包括训练样本集、测试样本集及真实密度图;
步骤(2),建立基于注意力机制的深度神经网络;
步骤(3),将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型;
步骤(4),将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能;
步骤(5),用CFDP聚类方法对人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
2.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,在所述步骤(2)中,基于注意力机制的深度神经网络具体包括以下网络模块:
特征图提取器,用于从人群图像中提取出一般特征图,作为后续模块的输入;
人群区域识别器,用于判断一个区域是否包含人群,并生成一幅粗粒度注意力图CAM;
密度等级估计器,用于估计有人群区域的密度等级,生成一幅细粒度注意力图FAM;
密度图估计器,在细粒度注意力图FAM的帮助下生成一幅高分辨率、高质量的密度图。
3.如权利要求2所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:
所述特征图提取器为编码器-解码器模式,采用VGG16的前10个卷积层和3个池化层作特征提取,在每个阶段分别获得大小为1、1/2、1/4、1/8的特征图;
所述人群区域识别器将特征图中的每个像素点分为人群区域和背景区域两类,所述人群区域识别器包含5个卷积层和3个上采样层;
所述密度等级估计器进一步将人群区域分类为不同的密度等级,所述密度等级估计器包含5个卷积层和3个上采样层;
所述密度图估计器生成高分辨率、高质量的密度图,所述密度图估计器包含5个卷积层和3个上采样层。
4.如权利要求3所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:
所述特征图提取器的网络结构是:C(64,3)*2-P-C(128,3)*2-P-C(256,3)*2-P-C(512,3)*2,其中C表示卷积层,C(64,3)是卷积核大小为3*3、64通道的卷积层,P表示窗口大小为2*2的最大池化层;
所述人群区域识别器的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度等级估计器的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度图估计器的网络结构是:C(512,3,2)-U-C(256,3,2)-U-C(256,3,2)-U-C(64,3,2)-C(1,1),其中,C表示卷积层,C(512,3,2)是实际卷积核大小为3*3、膨胀率为2、512通道的空洞卷积层,U代表系数为2的双线性上采样层。
5.如权利要求3所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,在所述步骤(2)中:
在人群区域识别器的每个阶段,特征图输入3*3的卷积层,生成一幅粗粒度注意力图CAM,然后输入密度等级估计器的对应阶段;
在密度等级估计器的每个阶段,特征图输入3*3的卷积层,生成一幅细粒度注意力图FAM,修正后的细粒度注意力图FAM'的计算公式为::FAM′=FAM+CAM,将修正后的细粒度注意力图FAM'输入密度图估计器的对应阶段;
在密度图估计器的每个阶段,修正后的特征图FM'的计算公式为:FM′=FM+FAM′*FM,修正后的特征图被上采样至输入图像大小后输入3*3的卷积层,生成一幅密度图。
6.如权利要求5所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:在所述步骤(2)中,人群区域识别器、密度等级估计器、密度图估计器模块的损失函数求和后反向传播。
7.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,所述步骤(3)中生成训练模型包括以下步骤:
步骤(3.1),将训练样本集输入到深度神经网络,每个图像被随机裁剪成
Figure RE-FDA0003152522720000031
大小,然后以0.5的可能性水平翻转,扩大训练集;
步骤(3.2),特征图提取器由预训练的VGG-16网络的参数初始化,其它参数由σ=0.01的高斯分布随机初始化;采用Adam优化算法,迭代次数为500,学习率为2e-5且每迭代100次减小一半;
步骤(3.3),利用损失函数Ltotal进行训练,得到一个用于人群计数的模型,取网络最深层的输出密度图作为输出密度图,对密度图积分得到人数。
8.如权利要求6或7所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:损失函数Ltotal为:
Ltotal=SL+BL+λLCAM+μLFAM
其中,SL为结构损失函数,BL为背景损失函数,LCAM为粗粒度注意力图的优化的损失函数的交叉熵,LFAM为细粒度注意力图的优化的损失函数的交叉熵;λ、μ分别表示LCAM、LFAM在Ltotal中的权重,取值范围为[0,1]。
9.如权利要求8所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:所述结构损失函数SL定义为:
Figure RE-FDA0003152522720000041
Figure RE-FDA0003152522720000042
其中,DM和
Figure RE-FDA0003152522720000043
分别表示真实密度图和估计的密度图,Poolj表示经过平均池化下采样到
Figure RE-FDA0003152522720000044
大小,μ表示局部均值,σ是局部方差,σXY是局部协方差;C1和C2分别设置为0.01和0.03,K设置为3;
所述背景损失函数BL定义为:
Figure RE-FDA0003152522720000045
其中,Cbg是背景区域的估计人数,Ctotal是估计的总人数。
10.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:
在所述步骤(4)中,评价指标包括平均绝对误差MAE、均方根误差RMSE、结构相似性SSIM和峰值信噪比PSNR;
所述平均绝对误差MAE、所述均方根误差RMSE按照如下方式计算:
Figure RE-FDA0003152522720000046
Figure RE-FDA0003152522720000047
其中,
Figure RE-FDA0003152522720000048
表示算法估计的每幅测试图像中的人数,
Figure RE-FDA0003152522720000049
表示每幅测试图像中的真实人数;
所述结构相似性SSIM和所述峰值信噪比PSNR的计算公式如下:
Figure RE-FDA00031525227200000410
Figure RE-FDA00031525227200000411
Figure RE-FDA00031525227200000412
其中,MAX表示图像可能的最大像素值,此处为255;DM(i)表示真实密度图的每个像素,
Figure RE-FDA00031525227200000413
表示估计的密度图的每个像素,N为密度图的总像素数。
11.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,所述步骤(1)中的制作数据集方法包括以下步骤:
步骤(1.1),将视频切割成图像帧,对每幅图像中的每个人头的中心进行标注,在标注后的图像中挑选2/3作为训练样本集,剩余1/3作为测试样本集。
步骤(1.2),将每个人头的标注点pi与归一化的高斯核N(pi2)进行卷积,生成真实密度图,其中,σ是点pj与其最邻近三点间距离的均值。
12.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,所述步骤(5)包括以下步骤:
步骤(5.1),对于每个数据点i,计算高斯核相似度作为每个点i的局部密度ρi
Figure RE-FDA0003152522720000051
其中,dij是点i和点j之间的距离,dc为给定的阈值;
(5.2)将局部密度从大到小排序,并求出最大密度ρmax
(5.3)计算点i到更高密度点的距离δi
Figure RE-FDA0003152522720000052
(5.4)将具有高局部密度和相对较高的距离的点作为聚类中心,具有低局部密度和相对较高的距离的点作为异常点;
(5.5)将点i归于高于该点密度的距离最近点的类别:xi∈Ck,其中:
Figure RE-FDA0003152522720000053
(5.6)将每个类别中与其它类别的点的距离小于dc的点划为类别的边界区域,边界区域中密度最高的点为该类簇的边界点;类别中密度小于边界点的点归为噪声点;
(5.7)根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
CN202110347405.2A 2021-03-31 2021-03-31 基于深度学习的视频中人群分布检测与计数方法 Pending CN113255430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110347405.2A CN113255430A (zh) 2021-03-31 2021-03-31 基于深度学习的视频中人群分布检测与计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110347405.2A CN113255430A (zh) 2021-03-31 2021-03-31 基于深度学习的视频中人群分布检测与计数方法

Publications (1)

Publication Number Publication Date
CN113255430A true CN113255430A (zh) 2021-08-13

Family

ID=77181319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110347405.2A Pending CN113255430A (zh) 2021-03-31 2021-03-31 基于深度学习的视频中人群分布检测与计数方法

Country Status (1)

Country Link
CN (1) CN113255430A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920313A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 图像处理方法、装置、电子设备及存储介质
CN114463694A (zh) * 2022-01-06 2022-05-10 中山大学 一种基于伪标签的半监督人群计数方法及装置
CN114821488A (zh) * 2022-06-30 2022-07-29 华东交通大学 基于多模态网络的人群计数方法、系统及计算机设备
CN116071709A (zh) * 2023-03-31 2023-05-05 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质
CN117809293B (zh) * 2024-03-01 2024-05-03 电子科技大学 一种基于深度神经网络的小样本图像目标计数方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866844A (zh) * 2015-06-05 2015-08-26 中国人民解放军国防科学技术大学 一种面向监控视频的人群聚集检测方法
US20180189557A1 (en) * 2016-05-23 2018-07-05 Intel Corporation Human detection in high density crowds
CN109697435A (zh) * 2018-12-14 2019-04-30 重庆中科云从科技有限公司 人流量监测方法、装置、存储介质及设备
CN110502988A (zh) * 2019-07-15 2019-11-26 武汉大学 视频中的组群定位与异常行为检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866844A (zh) * 2015-06-05 2015-08-26 中国人民解放军国防科学技术大学 一种面向监控视频的人群聚集检测方法
US20180189557A1 (en) * 2016-05-23 2018-07-05 Intel Corporation Human detection in high density crowds
CN109697435A (zh) * 2018-12-14 2019-04-30 重庆中科云从科技有限公司 人流量监测方法、装置、存储介质及设备
CN110502988A (zh) * 2019-07-15 2019-11-26 武汉大学 视频中的组群定位与异常行为检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIANGZI RONG ET AL.: "Coarse- and Fine-grained Attention Network with Background-aware Loss for Crowd Density Map Estimation", 《ARXIV:2011.03721V1[CS.CV]》 *
姜源等: "人群密度估计研究现状及发展趋势", 《电子世界》 *
孙佳龙等: "《聚类分析在地球物理学研究中的应用》", 31 December 2018 *
王垆阳等: "结合流形密度的聚集行为模式分割算法", 《中国图象图形学报》 *
言有三: "《深度学习之人脸图像处理 核心算法与案例实战》" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920313A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 图像处理方法、装置、电子设备及存储介质
CN114463694A (zh) * 2022-01-06 2022-05-10 中山大学 一种基于伪标签的半监督人群计数方法及装置
CN114463694B (zh) * 2022-01-06 2024-04-05 中山大学 一种基于伪标签的半监督人群计数方法及装置
CN114821488A (zh) * 2022-06-30 2022-07-29 华东交通大学 基于多模态网络的人群计数方法、系统及计算机设备
CN116071709A (zh) * 2023-03-31 2023-05-05 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质
CN116071709B (zh) * 2023-03-31 2023-06-16 南京信息工程大学 一种基于改进型vgg16网络的人群计数方法、系统及存储介质
CN117809293B (zh) * 2024-03-01 2024-05-03 电子科技大学 一种基于深度神经网络的小样本图像目标计数方法

Similar Documents

Publication Publication Date Title
CN113255430A (zh) 基于深度学习的视频中人群分布检测与计数方法
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN102073841B (zh) 一种不良视频检测方法及装置
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN109325502B (zh) 基于视频渐进区域提取的共享单车停放检测方法和系统
CN109871875B (zh) 一种基于深度学习的建筑物变化检测方法
CN111079640B (zh) 一种基于自动扩增样本的车型识别方法及系统
CN108171136A (zh) 一种多任务卡口车辆以图搜图的系统及方法
CN111783589B (zh) 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN111950515B (zh) 一种基于语义特征金字塔网络的小人脸检测方法
CN106022254A (zh) 图像识别技术
CN106845458B (zh) 一种基于核超限学习机的快速交通标识检测方法
CN111833353B (zh) 一种基于图像分割的高光谱目标检测方法
CN115527269B (zh) 一种人体姿态图像智能识别方法及系统
CN113205107A (zh) 一种基于改进高效率网络的车型识别方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN115410258A (zh) 基于注意力图像的人脸表情识别方法
CN108664969A (zh) 基于条件随机场的路标识别方法
CN115527133A (zh) 一种基于目标密度信息的高分图像背景优化方法
CN110349119B (zh) 基于边缘检测神经网络的路面病害检测方法和装置
CN111832463A (zh) 一种基于深度学习的交通标志检测方法
CN115424276B (zh) 一种基于深度学习技术的船牌号检测方法
CN114022705B (zh) 一种基于场景复杂度预分类的自适应目标检测方法
CN110765900A (zh) 一种基于dssd的自动检测违章建筑方法及系统
CN114970862A (zh) 一种基于多实例知识蒸馏模型的pdl1表达水平预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813

RJ01 Rejection of invention patent application after publication