CN113255430A - 基于深度学习的视频中人群分布检测与计数方法 - Google Patents
基于深度学习的视频中人群分布检测与计数方法 Download PDFInfo
- Publication number
- CN113255430A CN113255430A CN202110347405.2A CN202110347405A CN113255430A CN 113255430 A CN113255430 A CN 113255430A CN 202110347405 A CN202110347405 A CN 202110347405A CN 113255430 A CN113255430 A CN 113255430A
- Authority
- CN
- China
- Prior art keywords
- density
- crowd
- map
- point
- counting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 101100059678 Mus musculus Cfdp1 gene Proteins 0.000 claims abstract 2
- 238000010586 diagram Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明提出了一种基于深度学习的视频中人群分布检测与计数方法包括以下步骤:获取大量含不同密度人群的视频,制作数据集,所述数据集包括训练样本集、测试样本集及真实密度图;建立基于注意力机制的深度神经网络;将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型;将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能;用CFDP聚类方法对人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。本发明的基于深度学习的视频中人群分布检测与技术方法可以准确地检测出有人群的区域,并且高精度的估计密集人群的人数。
Description
技术领域
本发明涉及视频图像处理技术领域,具体涉及一种基于深度学习的视频中人群分布检测与计数方法。
背景技术
近年来,随着计算机视觉的发展,智能视频监控技术逐渐应用于交通安全、公共安防等领域。人群分布检测与计数是智能视频监控邻域的一个研究热点,有着重要的社会意义和市场应用前景。例如,在人群容易聚集的公共场所,人群计数与分布检测可以对踩踏等安全问题进行预警,并实现人力、物力及资源的合理分配与调度;对于城市公共交通系统,可以根据乘客数量变化灵活调派车辆,既提高乘客出行质量又能保证车辆利用率;对于大型商场,可以通过客流量信息来制定更好的营销策略,提高经济效益。
目前人群计数的方法主要可以分为三类:基于检测的方法、基于回归的方法和基于密度图的估计。
基于检测的方法出现得较早,通过检测单个物体,例如头部或身体某个部位,计算图像中的总数。基于检测的方法存在的主要缺陷是在复杂场景下存在大量遮挡,导致该方法准确率较低。
基于回归的方法能有效解决这一问题,其主要思想是通过学习一种特征到人群数量的映射,首先提取低级的特征,随后学习一个回归模型,建立一个低级特征到人群数的映射关系。基于回归的方法的缺点是对空间信息考虑较少和缺乏可解释性。
基于密度图估计的方法通过学习人群分布的密度图,保证了人群计数准确性的同时,保留了图像中人与人之间的空间信息,有利于后续的人群分析工作。但现有的这类方法大多没有充分考虑背景的影响,会导致误识别,并且对整个图像上所有的人群区域都给予相同的注意力,不符合人类视觉系统的特点。
因此,亟需提供一种人群计数方法,克服以上三种现有方法存在的问题。
发明内容
本发明的目的在于,提供一种准确率高的基于深度学习的视频中人群分布检测与计数方法。
为实现上述目的,本发明所设计的基于深度学习的视频中人群分布检测与计数方法包括以下步骤:
步骤(1),获取大量含不同密度人群的视频,制作数据集,所述数据集包括训练样本集、测试样本集及真实密度图;
步骤(2),建立基于注意力机制的深度神经网络;
步骤(3),将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型;
步骤(4),将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能;
步骤(5),用CFDP聚类方法对人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
作为优选实施方式,在所述步骤(2)中,基于注意力机制的深度神经网络具体包括以下网络模块:
特征图提取器,用于从人群图像中提取出一般特征图,作为后续模块的输入;
人群区域识别器,用于判断一个区域是否包含人群,并生成一幅粗粒度注意力图CAM;
密度等级估计器,用于估计有人群区域的密度等级,生成一幅细粒度注意力图FAM;
密度图估计器,在细粒度注意力图FAM的帮助下生成一幅高分辨率、高质量的密度图。
作为优选实施方式,所述特征图提取器为编码器-解码器模式,采用VGG16的前10个卷积层和3个池化层作特征提取,在每个阶段分别获得大小为1、1/2、1/4、1/8的特征图;
所述人群区域识别器将特征图中的每个像素点分为人群区域和背景区域两类,所述人群区域识别器包含5个卷积层和3个上采样层;
所述密度等级估计器进一步将人群区域分类为不同的密度等级,所述密度等级估计器包含5个卷积层和3个上采样层;
所述密度图估计器生成高分辨率、高质量的密度图,所述密度图估计器包含5个卷积层和3个上采样层。
作为优选实施方式,所述特征图提取器的网络结构是:C(64,3) *2-P-C(128,3)*2-P-C(256,3)*2-P-C(512,3)*2,其中C表示卷积层,C(64,3)是卷积核大小为3*3、64通道的卷积层,P表示窗口大小为2*2的最大池化层;
所述人群区域识别器的网络结构是:C(256,3)-U-C(128,3)-U- C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3) 是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度等级估计器的网络结构是:C(256,3)-U-C(128,3)-U- C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3) 是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度图估计器的网络结构是:C(512,3,2)-U-C(256,3,2)- U-C(256,3,2)-U-C(64,3,2)-C(1,1),其中,C表示卷积层,C(512,3,2) 是实际卷积核大小为3*3、膨胀率为2、512通道的空洞卷积层,U代表系数为2的双线性上采样层。
作为优选实施方式,在所述步骤(2)中:
在人群区域识别器的每个阶段,特征图输入3*3的卷积层,生成一幅粗粒度注意力图CAM,然后输入密度等级估计器的对应阶段;
在密度等级估计器的每个阶段,特征图输入3*3的卷积层,生成一幅细粒度注意力图FAM,修正后的细粒度注意力图FAM'的计算公式为::FAM′=FAM+CAM,将修正后的细粒度注意力图FAM'输入密度图估计器的对应阶段;
在密度图估计器的每个阶段,修正后的特征图FM'的计算公式为: FM′=FM+FAM′*FM,修正后的特征图被上采样至输入图像大小后输入3*3的卷积层,生成一幅密度图。
作为优选实施方式,在所述步骤(2)中,人群区域识别器、密度等级估计器、密度图估计器模块的损失函数求和后反向传播。
作为优选实施方式,所述步骤(3)中生成训练模型包括以下步骤:
步骤(3.2),特征图提取器由预训练的VGG-16网络的参数初始化,其它参数由σ=0.01的高斯分布随机初始化;采用Adam优化算法,迭代次数为500,学习率为2e-5且每迭代100次减小一半;
步骤(3.3),利用损失函数进行训练,得到一个用于人群计数的模型,取网络最深层的输出密度图作为输出密度图,对密度图积分得到人数。
作为优选实施方式,损失函数Ltotal为:
Ltotal=SL+BL+λLCAM+μLFAM;
其中,SL为结构损失函数,BL为背景损失函数,LCAM为粗粒度注意力图的优化的损失函数的交叉熵,LFAM为细粒度注意力图的优化的损失函数的交叉熵;λ、μ分别表示LCAM、LFAM在Ltotal中的权重,取值范围为[0,1]。
作为优选实施方式,所述结构损失函数SL定义为:
所述背景损失函数BL定义为:
其中,Cbg是背景区域的估计人数,Ctotal是估计的总人数。
作为优选实施方式,在所述步骤(4)中,评价指标包括平均绝对误差MAE、均方根误差RMSE、结构相似性SSIM和峰值信噪比PSNR;
所述平均绝对误差MAE、所述均方根误差RMSE按照如下方式计算:
所述结构相似性SSIM和所述峰值信噪比PSNR的计算公式如下:
作为优选实施方式,所述步骤(1)中的制作数据集方法包括以下步骤:
步骤(1.1),将视频切割成图像帧,对每幅图像中的每个人头的中心进行标注,在标注后的图像中挑选2/3作为训练样本集,剩余1/3 作为测试样本集。
步骤(1.2),将每个人头的标注点pi与归一化的高斯核N(pi,σ2) 进行卷积,生成真实密度图,其中,σ是点pj与其最邻近三点间距离的均值。
作为优选实施方式,所述步骤(5)包括以下步骤:
步骤(5.1),对于每个数据点i,计算高斯核相似度作为每个点i 的局部密度ρi:
其中,dij是点i和点j之间的距离,dc为给定的阈值;
(5.2)将局部密度从大到小排序,并求出最大密度ρmax;
(5.3)计算点i到更高密度点的距离δi:
(5.4)将具有高局部密度和相对较高的距离的点作为聚类中心,具有低局部密度和相对较高的距离的点作为异常点;
(5.5)将点i归于高于该点密度的距离最近点的类别:xi∈Ck,其中:
(5.6)将每个类别中与其它类别的点的距离小于dc的点划为类别的边界区域,边界区域中密度最高的点为该类簇的边界点;类别中密度小于边界点的点归为噪声点;
(5.7)根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
本发明的有益效果是:本发明的基于深度学习的视频中人群分布检测与技术方法可以准确地检测出有人群的区域,并且高精度的估计密集人群的人数。
附图说明
图1为本发明的基于深度学习的视频中人群分布检测与计数方法的整体流程图;
图2为本发明实施例的基于深度学习的视频中人群分布检测与计数方法的注意力机制的深度神经网络的示意图;
图3为利用本发明实施例的基于深度学习的视频中人群分布检测与计数方法的检测结果示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的视频中人群分布检测与计数方法的流程示意图如图1所示,具体包含以下步骤:
步骤(1),获取大量含不同密度人群的视频,制作数据集。
在步骤(1)中,数据集包括训练样本集、测试样本集及真实密度图。步骤(1)中的制作数据集方法具体包括以下步骤:
步骤(1.1),将视频切割成图像帧,对每幅图像中的每个人头的中心进行标注,在标注后的图像中挑选2/3作为训练样本集,剩余1/3 作为测试样本集。
步骤(1.2),将每个人头的标注点pi与归一化的高斯核N(pi,σ2) 进行卷积,生成真实密度图,其中σ是点pi与其最邻近三点间距离的均值。
步骤(2),建立基于注意力机制的深度神经网络。
基于注意力机制的深度神经网络如图2中所示。步骤(2)中的基于注意力机制的深度神经网络具体包括四个网络模块组合而成:特征图提取器、人群区域识别器、密度等级估计器、密度图估计器。
特征图提取器,用于从人群图像中提取出一般特征图,作为后续模块的输入;人群区域识别器,用于判断一个区域是否包含人群,并生成一幅粗粒度注意力图CAM;密度等级估计器,用于估计有人群区域的密度等级,生成一幅细粒度注意力图FAM;密度图估计器,在细粒度注意力图的帮助下生成一幅高分辨率、高质量的密度图。
步骤(2.1),特征图提取器设计为编码器-解码器模式,采用VGG16 的前10个卷积层和3个池化层作特征提取,在每个阶段分别获得大小为1、1/2、1/4、1/8的特征图。
特征图提取器的具体的网络结构是:C(64,3)*2-P-C(128,3)*2- P-C(256,3)*2-P-C(512,3)*2,其中C表示卷积层,C(64,3)是卷积核大小为3*3、64通道的卷积层,P表示窗口大小为2*2的最大池化层。
步骤(2.2),人群区域识别器将特征图中的每个像素点分为两类:人群区域和背景区域。
人群区域识别器包含5个卷积层和3个上采样层,具体的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层。在人群区域识别器的每个阶段,特征图输入3*3的卷积层,生成一幅粗粒度注意力图CAM,然后输入密度等级估计器的对应阶段。
步骤(2.3),密度等级估计器进一步将人群区域分类为不同的密度等级。
密度等级估计器包含5个卷积层和3个上采样层,具体的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层。
在密度等级估计器的每个阶段,特征图输入3*3的卷积层,生成一幅细粒度注意力图FAM。将特征图输入卷积层生成的细粒度注意力图FAM和之前得到的粗粒度注意力图CAM相加得到更精确的修正后的细粒度注意力图FAM':FAM′=FAM+CAM。然后,将修正后的细粒度注意力图FAM'输入密度图估计器的对应阶段。
步骤(2.4),密度图估计器生成高分辨率、高质量的密度图。
密度图估计器包含5个卷积层和3个上采样层,具体的网络结构是:C(512,3,2)-U-C(256,3,2)-U-C(256,3,2)-U-C(64,3,2)-C(1,1),其中,C表示卷积层,C(512,3,2)是实际卷积核大小为3*3、膨胀率为2、512通道的空洞卷积层,U代表系数为2的双线性上采样层。
在密度图估计器的每个阶段,对输入密度图估计器的特征图FM 和修正后的细粒度注意力图FAM'进行组合,从而得到更精细的修正后的特征图FM',修正后的特征图FM'的计算公式为:FM′=FM+ FAM′*FM。在密度图估计器的每个阶段,特征图被上采样至输入图像大小后输入3*3的卷积层,生成一幅密度图。
深度神经网络设计多级监督机制,用于协助反向传播和减少过拟合。人群区域识别器、密度等级估计器、密度图估计器等多个模块的损失函数求和后反向传播。这里损失函数Ltotal的计算方法将在步骤 (3.3)中进行说明。
步骤(3),将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型。
步骤(3)生成训练模型具体包括以下步骤:
步骤(3.2),设置训练参数。特征图提取器由预训练的VGG-16 网络的参数初始化,其它参数由σ=0.01的高斯分布随机初始化;采用 Adam优化算法,迭代次数为500,学习率为2e-5且每迭代100次减小一半。
步骤(3.3),利用损失函数Ltotal进行训练,得到一个用于人群计数的模型,取网络最深层的输出密度图作为输出密度图,对密度图积分得到人数。
损失函数Ltotal的计算公式:Ltotal=SL+BL+λLCAM+μLFAM。
其中,SL为结构损失函数,BL为背景损失函数;LCAM为粗粒度注意力图的优化的损失函数的交叉熵,LFAM为细粒度注意力图的优化的损失函数的交叉熵;λ、μ分别表示LCAM、LFAM在Ltotal中的权重,取值范围为[0,1]。λ、μ的值随着训练过程而动态调整。
考量结构相似性和计数准确率,结构损失函数SL定义为:
背景损失函数BL用于降低错误识别率,其定义为:
其中,Cbg是背景区域的估计人数,Ctotal是估计的总人数。
对于粗粒度注意力图CAM,如果一个像素在真实密度图中对应位置的值大于1e-5(1e-5即为0.00001),将该像素值设置为1,否则设置为0,以此作为粗粒度注意力图的真实值;对于细粒度注意力图FAM,如果一个像素在真实密度图中对应位置的值小于1e-5,归类为0级,在[1e-5,1]范围内的按大小顺序归到k-1个级中,其中k为人工设置的所有像素的密度等级数量。
步骤(4),将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能。
将测试样本集输入至训练好的模型中,输出密度图,积分得到人数,计算整个测试集的平均绝对误差MAE、均方根误差RMSE、结构相似性SSIM和峰值信噪比PSNR。
步骤(4)中评价指标包括:评估计数准确性的指标和评估密度图质量的指标。
评估计数准确性的指标:平均绝对误差MAE和均方根误差RMSE,计算公式如下:
评估密度图质量的指标:结构相似性SSIM和峰值信噪比PSNR,计算公式如下:
步骤(5),用CFDP聚类方法对步骤(4)中输出的人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
CFDP(Clustering By Fast Search And Find Of Density Peaksd)为快速搜索聚类方法,步骤(5)中快速识别组群的方法具体包括:
步骤(5.1),对于每个数据点i,计算高斯核相似度作为每个点i 的局部密度ρi:
其中dij为点i和点j之间的距离,dc为给定的距离阈值;
步骤(5.2),将局部密度从大到小排序,并求出最大密度ρmax。
步骤(5.3),计算点i到更高密度点的距离δi。对非局部密度最大点,δi是该点到任意更高密度点的最小距离;对于密度最大点,δi是该点到其它所有点的最大距离:
步骤(5.4),将具有高局部密度和相对较高的距离的点作为聚类中心,具有低局部密度和相对较高的距离的点作为异常点。
步骤(5.5),将点i归于高于该点密度的距离最近点的类别:xi∈ Ck,其中:
步骤(5.6),将每个类别中与其它类别的点的距离小于给定的距离阈值dc(即步骤(5.1)中的给定的距离阈值dc)的点划为类别的边界区域,边界区域中密度最高的点为该类别的边界点;类别中密度小于边界点的点归为噪声点。
步骤(5.7),根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
以图3为例,其为采用本发明的基于深度学习的视频中人群分布检测与计数方法的人群计数与组群识别结果示例。由图3可以看出,本发明的方法可以准确地检测出有人群的区域,并且高精度的估计密集人群的人数。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种基于深度学习的视频中人群分布检测与计数方法,其特征在于,包括以下步骤:
步骤(1),获取大量含不同密度人群的视频,制作数据集,所述数据集包括训练样本集、测试样本集及真实密度图;
步骤(2),建立基于注意力机制的深度神经网络;
步骤(3),将训练样本集输入到深度神经网络,设置训练参数,利用损失函数进行训练,直至损失减小到一定程度且训练达到迭代最大次数,生成训练模型;
步骤(4),将测试样本集输入至训练好的模型中,输出人群密度图,评估模型性能;
步骤(5),用CFDP聚类方法对人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
2.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,在所述步骤(2)中,基于注意力机制的深度神经网络具体包括以下网络模块:
特征图提取器,用于从人群图像中提取出一般特征图,作为后续模块的输入;
人群区域识别器,用于判断一个区域是否包含人群,并生成一幅粗粒度注意力图CAM;
密度等级估计器,用于估计有人群区域的密度等级,生成一幅细粒度注意力图FAM;
密度图估计器,在细粒度注意力图FAM的帮助下生成一幅高分辨率、高质量的密度图。
3.如权利要求2所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:
所述特征图提取器为编码器-解码器模式,采用VGG16的前10个卷积层和3个池化层作特征提取,在每个阶段分别获得大小为1、1/2、1/4、1/8的特征图;
所述人群区域识别器将特征图中的每个像素点分为人群区域和背景区域两类,所述人群区域识别器包含5个卷积层和3个上采样层;
所述密度等级估计器进一步将人群区域分类为不同的密度等级,所述密度等级估计器包含5个卷积层和3个上采样层;
所述密度图估计器生成高分辨率、高质量的密度图,所述密度图估计器包含5个卷积层和3个上采样层。
4.如权利要求3所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:
所述特征图提取器的网络结构是:C(64,3)*2-P-C(128,3)*2-P-C(256,3)*2-P-C(512,3)*2,其中C表示卷积层,C(64,3)是卷积核大小为3*3、64通道的卷积层,P表示窗口大小为2*2的最大池化层;
所述人群区域识别器的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度等级估计器的网络结构是:C(256,3)-U-C(128,3)-U-C(128,3)-U-C(64,3)-C(1,3),其中,C表示卷积层,C(256,3)是卷积核大小为3*3、256通道的卷积层,U代表系数为2的双线性上采样层;
所述密度图估计器的网络结构是:C(512,3,2)-U-C(256,3,2)-U-C(256,3,2)-U-C(64,3,2)-C(1,1),其中,C表示卷积层,C(512,3,2)是实际卷积核大小为3*3、膨胀率为2、512通道的空洞卷积层,U代表系数为2的双线性上采样层。
5.如权利要求3所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,在所述步骤(2)中:
在人群区域识别器的每个阶段,特征图输入3*3的卷积层,生成一幅粗粒度注意力图CAM,然后输入密度等级估计器的对应阶段;
在密度等级估计器的每个阶段,特征图输入3*3的卷积层,生成一幅细粒度注意力图FAM,修正后的细粒度注意力图FAM'的计算公式为::FAM′=FAM+CAM,将修正后的细粒度注意力图FAM'输入密度图估计器的对应阶段;
在密度图估计器的每个阶段,修正后的特征图FM'的计算公式为:FM′=FM+FAM′*FM,修正后的特征图被上采样至输入图像大小后输入3*3的卷积层,生成一幅密度图。
6.如权利要求5所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:在所述步骤(2)中,人群区域识别器、密度等级估计器、密度图估计器模块的损失函数求和后反向传播。
8.如权利要求6或7所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于:损失函数Ltotal为:
Ltotal=SL+BL+λLCAM+μLFAM;
其中,SL为结构损失函数,BL为背景损失函数,LCAM为粗粒度注意力图的优化的损失函数的交叉熵,LFAM为细粒度注意力图的优化的损失函数的交叉熵;λ、μ分别表示LCAM、LFAM在Ltotal中的权重,取值范围为[0,1]。
11.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,所述步骤(1)中的制作数据集方法包括以下步骤:
步骤(1.1),将视频切割成图像帧,对每幅图像中的每个人头的中心进行标注,在标注后的图像中挑选2/3作为训练样本集,剩余1/3作为测试样本集。
步骤(1.2),将每个人头的标注点pi与归一化的高斯核N(pi,σ2)进行卷积,生成真实密度图,其中,σ是点pj与其最邻近三点间距离的均值。
12.如权利要求1所述的基于深度学习的视频中人群分布检测与计数方法,其特征在于,所述步骤(5)包括以下步骤:
步骤(5.1),对于每个数据点i,计算高斯核相似度作为每个点i的局部密度ρi:
其中,dij是点i和点j之间的距离,dc为给定的阈值;
(5.2)将局部密度从大到小排序,并求出最大密度ρmax;
(5.3)计算点i到更高密度点的距离δi:
(5.4)将具有高局部密度和相对较高的距离的点作为聚类中心,具有低局部密度和相对较高的距离的点作为异常点;
(5.5)将点i归于高于该点密度的距离最近点的类别:xi∈Ck,其中:
(5.6)将每个类别中与其它类别的点的距离小于dc的点划为类别的边界区域,边界区域中密度最高的点为该类簇的边界点;类别中密度小于边界点的点归为噪声点;
(5.7)根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110347405.2A CN113255430A (zh) | 2021-03-31 | 2021-03-31 | 基于深度学习的视频中人群分布检测与计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110347405.2A CN113255430A (zh) | 2021-03-31 | 2021-03-31 | 基于深度学习的视频中人群分布检测与计数方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113255430A true CN113255430A (zh) | 2021-08-13 |
Family
ID=77181319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110347405.2A Pending CN113255430A (zh) | 2021-03-31 | 2021-03-31 | 基于深度学习的视频中人群分布检测与计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255430A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920313A (zh) * | 2021-09-29 | 2022-01-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114463694A (zh) * | 2022-01-06 | 2022-05-10 | 中山大学 | 一种基于伪标签的半监督人群计数方法及装置 |
CN114821488A (zh) * | 2022-06-30 | 2022-07-29 | 华东交通大学 | 基于多模态网络的人群计数方法、系统及计算机设备 |
CN116071709A (zh) * | 2023-03-31 | 2023-05-05 | 南京信息工程大学 | 一种基于改进型vgg16网络的人群计数方法、系统及存储介质 |
CN117809293B (zh) * | 2024-03-01 | 2024-05-03 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866844A (zh) * | 2015-06-05 | 2015-08-26 | 中国人民解放军国防科学技术大学 | 一种面向监控视频的人群聚集检测方法 |
US20180189557A1 (en) * | 2016-05-23 | 2018-07-05 | Intel Corporation | Human detection in high density crowds |
CN109697435A (zh) * | 2018-12-14 | 2019-04-30 | 重庆中科云从科技有限公司 | 人流量监测方法、装置、存储介质及设备 |
CN110502988A (zh) * | 2019-07-15 | 2019-11-26 | 武汉大学 | 视频中的组群定位与异常行为检测方法 |
-
2021
- 2021-03-31 CN CN202110347405.2A patent/CN113255430A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866844A (zh) * | 2015-06-05 | 2015-08-26 | 中国人民解放军国防科学技术大学 | 一种面向监控视频的人群聚集检测方法 |
US20180189557A1 (en) * | 2016-05-23 | 2018-07-05 | Intel Corporation | Human detection in high density crowds |
CN109697435A (zh) * | 2018-12-14 | 2019-04-30 | 重庆中科云从科技有限公司 | 人流量监测方法、装置、存储介质及设备 |
CN110502988A (zh) * | 2019-07-15 | 2019-11-26 | 武汉大学 | 视频中的组群定位与异常行为检测方法 |
Non-Patent Citations (5)
Title |
---|
LIANGZI RONG ET AL.: "Coarse- and Fine-grained Attention Network with Background-aware Loss for Crowd Density Map Estimation", 《ARXIV:2011.03721V1[CS.CV]》 * |
姜源等: "人群密度估计研究现状及发展趋势", 《电子世界》 * |
孙佳龙等: "《聚类分析在地球物理学研究中的应用》", 31 December 2018 * |
王垆阳等: "结合流形密度的聚集行为模式分割算法", 《中国图象图形学报》 * |
言有三: "《深度学习之人脸图像处理 核心算法与案例实战》" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920313A (zh) * | 2021-09-29 | 2022-01-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114463694A (zh) * | 2022-01-06 | 2022-05-10 | 中山大学 | 一种基于伪标签的半监督人群计数方法及装置 |
CN114463694B (zh) * | 2022-01-06 | 2024-04-05 | 中山大学 | 一种基于伪标签的半监督人群计数方法及装置 |
CN114821488A (zh) * | 2022-06-30 | 2022-07-29 | 华东交通大学 | 基于多模态网络的人群计数方法、系统及计算机设备 |
CN116071709A (zh) * | 2023-03-31 | 2023-05-05 | 南京信息工程大学 | 一种基于改进型vgg16网络的人群计数方法、系统及存储介质 |
CN116071709B (zh) * | 2023-03-31 | 2023-06-16 | 南京信息工程大学 | 一种基于改进型vgg16网络的人群计数方法、系统及存储介质 |
CN117809293B (zh) * | 2024-03-01 | 2024-05-03 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255430A (zh) | 基于深度学习的视频中人群分布检测与计数方法 | |
CN109344736B (zh) | 一种基于联合学习的静态图像人群计数方法 | |
CN102073841B (zh) | 一种不良视频检测方法及装置 | |
CN110889449A (zh) | 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法 | |
CN109325502B (zh) | 基于视频渐进区域提取的共享单车停放检测方法和系统 | |
CN109871875B (zh) | 一种基于深度学习的建筑物变化检测方法 | |
CN111079640B (zh) | 一种基于自动扩增样本的车型识别方法及系统 | |
CN108171136A (zh) | 一种多任务卡口车辆以图搜图的系统及方法 | |
CN111783589B (zh) | 基于场景分类和多尺度特征融合的复杂场景人群计数方法 | |
CN111950515B (zh) | 一种基于语义特征金字塔网络的小人脸检测方法 | |
CN106022254A (zh) | 图像识别技术 | |
CN106845458B (zh) | 一种基于核超限学习机的快速交通标识检测方法 | |
CN111833353B (zh) | 一种基于图像分割的高光谱目标检测方法 | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN113205107A (zh) | 一种基于改进高效率网络的车型识别方法 | |
CN111274964B (zh) | 一种基于无人机视觉显著性分析水面污染物的检测方法 | |
CN115410258A (zh) | 基于注意力图像的人脸表情识别方法 | |
CN108664969A (zh) | 基于条件随机场的路标识别方法 | |
CN115527133A (zh) | 一种基于目标密度信息的高分图像背景优化方法 | |
CN110349119B (zh) | 基于边缘检测神经网络的路面病害检测方法和装置 | |
CN111832463A (zh) | 一种基于深度学习的交通标志检测方法 | |
CN115424276B (zh) | 一种基于深度学习技术的船牌号检测方法 | |
CN114022705B (zh) | 一种基于场景复杂度预分类的自适应目标检测方法 | |
CN110765900A (zh) | 一种基于dssd的自动检测违章建筑方法及系统 | |
CN114970862A (zh) | 一种基于多实例知识蒸馏模型的pdl1表达水平预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |
|
RJ01 | Rejection of invention patent application after publication |