CN110020606B - 一种基于多尺度卷积神经网络的人群密度估计方法 - Google Patents

一种基于多尺度卷积神经网络的人群密度估计方法 Download PDF

Info

Publication number
CN110020606B
CN110020606B CN201910186683.7A CN201910186683A CN110020606B CN 110020606 B CN110020606 B CN 110020606B CN 201910186683 A CN201910186683 A CN 201910186683A CN 110020606 B CN110020606 B CN 110020606B
Authority
CN
China
Prior art keywords
convolution
network
image
crowd
crowd density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910186683.7A
Other languages
English (en)
Other versions
CN110020606A (zh
Inventor
王素玉
付宇豪
杨滨
于晨
姬庆庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910186683.7A priority Critical patent/CN110020606B/zh
Publication of CN110020606A publication Critical patent/CN110020606A/zh
Application granted granted Critical
Publication of CN110020606B publication Critical patent/CN110020606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度卷积神经网络的人群密度估计方法,在视频监控领域,为了可以提升人群密度估计的准确性,本方法提出了一种基于多尺度卷积神经网络的网络结构,可以在场景中准确地预测人群密度图。本方法通过利用空洞卷积与原始卷积进行不同感受野信息的特征融合,以及融合不同分辨率下特征图不同的层级语义信息,从而生成具有更高质量的人群密度图。实验在当前较为流行的ShanghaiTech数据集、UCF_CC_50数据集以及WorldExpo‘10数据集上进行测试,使用平均绝对误差(MAE)和均方误差(MSE)作为评价标准。结果表明,该网络模型与以往的方法进行对比,降低了MAE值和MSE值,提高了人群密度估计的准确性。

Description

一种基于多尺度卷积神经网络的人群密度估计方法
技术领域
本发明涉及一种基于多尺度卷积神经网络的人群密度估计方法,属于计算机视觉技术领域。
背景技术
随着人类生活质量的提高,节日庆典、演唱会和体育赛事等大规模群体性活动日益频繁,近年来,由于人群密集所引发的群体性突发事件成为了社会的焦点。人群密度估计,作为一种人群控制和管理的重要方式,是当今智能监控领域的一个重要研究课题,它不仅能对当前场景下的人群进行统计从而帮助工作人员进行有效地管理,同时还可以通过预测人群的某些异常行为,对突发事件的发生进行预案,加强公众场所的安全。
传统的研究方法主要可以分为两种,一种是基于检测的方法,另一种是基于回归的方法。检测法的核心思想是通过检测对应场景下的每个个体,对个体人数进行统计,具体方法有:采用梯度方向直方图HOG(Histograms Of Oriented Gradients)特征进行检测、提取人群的外观特征和运动特征进行检测。这类方法适用于低密度人群图像。基于回归的方法又被称作基于映射的方法,核心思想是将人群看成一个整体,通过回归模型求出人群特征与人数之间的函数或者利用分类器将人群特征映射到对应的人群密度等级从而判定人群密度。但该类方法更多的适用于存在遮挡、环境干扰的高密度人群,但如何使用人群特征以及建立回归模型,是此方法的难点。综上所述,传统研究方法在人群密度估计领域还存在着不稳定性。
近年来,以卷积神经网络CNN(Convolutional Neural Network)为主的深度学习方法迅速成为了计算机视觉领域的热门研究重点,目前已被广泛应用到目标检测与识别、图像分割等领域。由于深度学习在图像处理方面的显著成效,很多学者把深度学习的方法引入到人群密度分析领域,提出了一些基于卷积神经网络的人群密度估计算法。
现有技术中提出了利用人群密度图来进行人群密度估计问题,人群密度图包含更多的信息,既可以获取人群数量,同时可以得到图像中人群的空间分布,这对于进行人群密度的应用奠定了更好的基础。还有一些文献提出了基于多任务卷积神经网络的人群密度估计算法,该方法中的网络框架包含了人群密度图估计和人数统计两个任务,这种通过可切换的学习方法能够将为这两个任务所得到的结果准确性提高。一些文献提出了基于多列卷积神经网络的人群密度估计算法(MCNN),该方法使用了尺寸自适应的高斯核函数从有人头标记的图像中得到人群密度图。MCNN网络的每一列并行的子网络深度相同,但是每列网络的卷积核大小各不相同,因此每一列子网络的感受野不同,能够抓取不同大小人头的特征,最后将三列子网络的特征图做线性加权得到该图像的人群密度图,类似模型融合的思想,这些多尺度的特征可以很大程度的提升人群密度估计和人群计数的准确率。在MCNN的基础之上,将输入图像分为了9个图像块,使用一个以CNN网络为基础的选择器对每个图像块进行分类并将分类出的图像块送入不同尺度的分支网络,这里所用到的分支网络结构与MCNN网络的每一路网络结构相同。在MCNN的基础上进行改进,提出了一种深层次的单列全卷积网络结构,输入图像尺寸可以是任意的,而输出的密度图根据输入尺寸自适应变化。
综上所述,基于卷积神经网络的方法拥有非常强的非线性表征能力,可以通过自主学习适应场景的干扰、遮挡等问题。但是上述方法还存在很多不足,主要体现在以下几个方面:多列卷积神经网络由于结构较宽,在训练方面需要浪费更多的时间;在人群密度估计过程中需要用到密度分类器,在使用分类器的过程中,会有很大的计算量,并且在网络中很大一部分的参数用于密度分类器,而用于密度图估计的参数只占一小部分,因此会产生额外的工作量。
发明内容
考虑到上述背景技术中提及的问题,本发明提出一种基于多尺度卷积神经网络的人群密度估计方法,通过对不同感受野下的特征及不同分辨率下的不同层级特征进行融合,进行人群密度估计。
为实现上述目的,本发明采用的技术方案为:一种基于多尺度卷积神经网络的人群密度估计方法,该方法的实现过程如下:
S1.1人群密度图的生成
由于网络模型需要经过训练才能从输入图像中估计出人群密度图,因此训练数据中给出的密度图的质量很大程度上决定了该方法的性能。这里,首先介绍如何将带有人头标注的图像转换为人群密度图。如果在像素xi处存在标注,将xi处标记的人头用狄拉克(delta)函数表示为δ(x-xi),因此具有N个头部标注的图像可以表示为:
Figure BDA0001993048770000031
为了使具有标注的图像可以转换为连续的密度图,将H(x)与高斯核函数进行卷积,得到结果即为最终的密度图:
ρ(x)=H(x)*Gσ(x).
但是,用此方法所生成密度图的前提是整张图像中的每个点在空间中独立存在的,而高密度人群图像存在着很多遮挡的问题,因此需要做一些改进。事实上,每个xi是在3D场景中一个独立的人群密度样本,并且由于透视失真,不同样本所对应的场景的位置的大小也是不同的。因此为了可以更加精确的得到人群密度ρ,需要考虑地平面与图像面之间引起的单应性失真问题。假设在标注的头部区域的周围,人群密度分布是均匀的,则该点与其最近的k个邻点之间的平均距离,给出了一个对于几何形变的合理估计。
因此,通过图像中每个人头部大小,确认高斯核函数中的传播参数σ。然而,由于图像中头部的遮挡问题,很难精确的得到头部的大小,也很难找到头部大小与密度图之间的潜在联系。发现,在拥挤的人群图像中,头部大小与两个相邻的头部之间的距离有一定的关系,所以,根据最近的相邻的平均距离自适应地确定每一个人头的参数。
对于给定的标注位置xi,将所有与其的k个最近邻的距离表示集合Di={d1i,d2i,...,dki}。平均距离
Figure BDA0001993048770000032
与xi相关联的像素位置对应于场景中地面上的一个区域,这个区域的半径与di成正比。因此,为了估计出xi周围的人群密度,需要把H(x)卷积一个自适应的高斯核函数,这个高斯核的方差σi是可变的且与di成正比,假设设定比例系数为β,则这个人群密度图表示为:
Figure BDA0001993048770000033
针对比例系数β,将带有密度核的标签H与每个标记点周围的局部几何相适应,称为几何自适应核。经过大量实验后,β=0.3是是目前所得到的最优解。通过上述处理后,便可以得到一个相对准确能够反映出人群空间信息的人群密度图,以此为标注从而完成整个网络的监督训练,使得最终生成的网络模型具备感知图像空间几何分布的能力。效果图1所示,图1的a为原始输入图像,图1的b为对应的人群密度图。
S1.2网络结构与设计
网络结构是人群密度估计的核心关键,为了可以更好的将浅层特征与深层特征融合,本方法设计了如图2所示网络结构。
网络配置详细参数如表1所示。输入图像为3通道的RGB人群图像,首先通过4个卷积层和2个下采样层生成通道数为64、大小为原图1/4的特征图。对此时得到的特征图经过两种处理:一、经过2个卷积核为3X3的卷积层,将其结果保留并进行下采样;二、经过2个卷积核为3X3,扩张率为2的空洞卷积,将其结果保留连接至网络末端。将此操作重复两次至步骤
Figure BDA0001993048770000042
此时,得到通道数为512,大小为原图1/32的特征图,对其进行上采样(反卷积)和卷积,将得到的特征图、上一阶段通过卷积生成的特征图及通过空洞卷积生成的特征图,进行特征融合,生成通道数为512,尺寸大小为1/16的特征图,以此类推,将每一层经过上采样层生成的特征图与上一阶段的两种特征图进行融合,重复两次,最后通过一个1X1的卷积核进行卷积,输出一张尺寸为1/4原图大小的人群密度图。在网络中,所有的卷积层都使用填充(padding)来保持以前的大小不变;卷积层的参数表示为“Conv-(核大小)-(通道数),空洞卷积层表示为AtrousConv-(核大小)-(通道数)(扩张倍数),选择ReLU作为每个卷积层后的激活函数。
表1多尺度卷积神经网络参数配置
Figure BDA0001993048770000041
Figure BDA0001993048770000051
Figure BDA0001993048770000061
在网络结构提取特征的过程中,采用空洞卷积进行了特征提取。空洞卷积最早被提出是在图像分割领域,图像输入到卷积神经网络中,通过卷积-池化的操作降低图像尺寸的同时增大其感受野,但由于图像分割预测需要进行像素级的输出,因此要将池化后尺寸较小的图像通过上采样恢复到与输入图像尺寸相同再进行预测,在图像尺寸变化的过程中,必定会有信息的损失,因此,就提出了一种空洞卷积的方法,即不通过池化层和上采样就增大感受野而获取更多的特征信息。
空洞卷积与普通的卷积相比,除了卷积核的尺寸以外,还有一个重要的参数为扩张率(rate),这个参数代表了空洞的大小。空洞卷积与普通卷积的不同点在于具有更大的感受野。从原图的角度可以很好的进行理解,所谓空洞就是在原图上做采样操作。当扩张率为1时,原图不丢失任何信息采样,此时的卷积操作即为标准的卷积操作。当扩张率rate>1时,就是在原图上的每隔rate-1个像素进行采样,当rate=2时,此时卷积核的感受野为5x5=25。当rate=3时,此时卷积核的感受野为7x 7=49。空洞卷积的优点是在保持参数个数不变的情况下增大了卷积核的感受野,同时可以保证输出的特征图的大小也保持不变。例如,一个扩张率为2的3x 3卷积核,感受野与5x 5的卷积核相同,但参数数量只有9个,是5x5卷积参数数量的36%。本方法选择了扩张率为2的空洞卷积进行特征提取。
该网络结构另一个的特点是在网络的扩展路径引入了反卷积与特征融合。反卷积的作用是将在收缩路径下通过下采样被压缩的特征图进行还原,经过三次反卷积后最终输出的人群密度图大小为输入图像的1/4。特征融合的主要作用是为了减小图像由于透视、遮挡等问题所产生的影响,由于在一张人群图像中,由于拍摄角度以及人群位置的原因,会造成很多人体特征的差异例如近处人的轮廓很清晰,而远处的人近乎为一个点等;目前解决的方法大多是进行图像分块,但这种方法会破坏图像的完整性,造成很多图像信息的缺失。如果采用不同大小的卷积核进行特征提取,会使参数量增多,而庞大的计算量使得网络的训练难度增加。因此,本方法提出了基于不同感受野的特征融合方法来解决此问题。
在卷积网络中提取特征的过程中,虽然不断在进行特征的压缩与提取,但是每一次下采样操作都会损失一部分空间关系信息,这就造成浅层特征具有更多的细节信息,深层更加抽象,如何结合不同分辨率下的特征图的有效信息,是一个重要问题。
本方法通过空洞卷积与原始卷积不同感受野信息的融合,实现了多尺度下的特征融合,与此同时,采用类似U型结构的上下采样过程,充分融合了不同分辨率特征图下不同的层级语义信息。正是这种操作,使得本网络结合了多重有效特征,具备了多尺度人群密度估计的泛化能力。
本网络结构未使用全连接层和池化层,下采样采用的是步长为2的卷积,采用这样的结构出于以下三方面考虑:第一减少训练过程中的参数量从而防止过拟合;第二,可以减少更多信息丢失的损失,保存图像中更多的空间细节信息;第三,通过卷积学习特征压缩权重,增强泛化能力。
S1.3损失函数
本方法采用损失函数的表达式为:
Figure BDA0001993048770000071
这里的x表示网络预测值与真实值之间的损失,SmoothL1损失函数是L1损失函数与L2损失函数结合的复合函数,函数图像由图4所示。
具有L1损失函数对离群点不敏感的特性,同时具备L2损失函数使网络更快收敛的特点,SmoothL1损失函数广泛应用于神经网络的回归问题。
网络训练:
网络训练对深度学习来说是非常重要的,相同的网络结构如果使用不同的训练方法训练,结果也会有很大的差异。
一般来说,参与训练的数据量越大,越容易进行网络参数调优。训练过程中要先对数据集进行图像预处理,将训练集中的图像进行水平翻转、裁剪等几何变换方式,扩增训练样本数量,例如如图5所示,本方法将图像等分9份对并进行裁剪,同时对裁剪后的图像对其进行水平翻转等操作。裁剪的图像包含正负样本,正样本为存在人群的裁剪图象,负样本为只有场景的图像,使用它们进行训练,可以提高网络对稀疏人群和密集人群的密度估计的泛化能力。
网络训练过程中,使用的是SGDM(Stochastic gradient descent Momentum)(随机梯度下降动量)优化器,其中初始学习率为0.0001,动量设置为0.8,batch size设置为1,Iteration设置为4000,Epoch设置为200,采用热启动的动态学习率调节策略进行训练,网络训练在GPU加速环境下进行,使用的是NVIDIVA GTX 1080T,Cuda9.2。
评价标准
为了能够定量的评价所提出的多尺度卷积神经网络估计的结果,参考一些已有的人群计数方法的约定,采用平局绝对误差(MAE)和均方误差(MSE)作为评估指标,其定义如下:
Figure BDA0001993048770000081
Figure BDA0001993048770000082
其中,N表示测试图像数量;yi表示数据集图像中实际标记人数;
Figure BDA0001993048770000083
表示相应图像的估计人数。总体来说,平均绝对误差MAE反映出估计结果的准确性,而均方误差MSE反映了估计结果的鲁棒性。
附图说明
图1原始输入图像与经过几何自适应所得到的人群密度图。
图2多尺度卷积神经网络结构。
图3卷积核为3x 3的空洞卷积,不同扩张率下的不同感受野大小。
图4SmoothL1损失函数的函数图像。
图5数据集图像扩增;(a)原图,(b)裁剪图,(c)水平翻转图。
图6实际图片的整体测试结果,前两张为人群稀疏对比图,后三张为高密度人群图像。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
网络训练对深度学习来说是非常重要的,相同的网络结构如果使用不同的训练方法训练,结果也会有很大的差异。
一般来说,参与训练的数据量越大,越容易进行网络参数调优。训练过程中要先对数据集进行图像预处理,将训练集中的图像进行水平翻转、裁剪等几何变换方式,扩增训练样本数量,本文将图像等分9份对并进行裁剪,同时对裁剪后的图像对其进行水平翻转等操作。裁剪的图像包含正负样本,正样本为存在人群的裁剪图象,负样本为只有场景的图像,使用它们进行训练,可以提高网络对稀疏人群和密集人群的密度估计的泛化能力。
网络训练过程中,使用的是SGDM(Stochastic gradient descent Momentum)(随机梯度下降动量)优化器,其中初始学习率为0.0001,动量设置为0.8,batch size设置为1,Iteration设置为4000,Epoch设置为200,采用热启动的动态学习率调节策略进行训练,网络训练在GPU加速环境下进行,使用的是NVIDIVA GTX 1080T,Cuda9.2。
评价标准
为了能够定量的评价所提出的多尺度卷积神经网络估计的结果,参考一些已有的人群计数方法约定,采用平局绝对误差(MAE)和均方误差(MSE)作为评估指标,其定义如下:
Figure BDA0001993048770000091
Figure BDA0001993048770000092
其中,N表示测试图像数量;yi表示数据集图像中实际标记人数;
Figure BDA0001993048770000093
表示相应图像的估计人数。总体来说,平均绝对误差MAE反映出估计结果的准确性,而均方误差MSE反映了估计结果的鲁棒性。
数据集及实验结果
本实验使用的三个人群密度数据集分别是目前人数最密、难度最大的UCF_CC_50数据集、含有标记人数最多的Shanghaitech数据集,和包含2010年上海世博会监控视频的WorldExpo’10数据集。表2给出了这三个数据集当中的具体参数。
表2数据集的基本情况
Figure BDA0001993048770000101
UCF_CC_50数据集
UCF_CC_50数据集最先由H.Idrees等人提出。这个数据集包含来自互联网的50幅图像。这是一个非常具有挑战性的数据集,因为不仅仅图像的数量很有限,而且图像的人群数量也发生着巨大的变化。在这些图像中,人头数量在94到4,543之间不等,平均人头数为1,280。作者为这50幅图像共提供了63,974条标注。按照标准设置执行5倍交叉验证来验证本文算法的性能。模型测试结果如表3所示。
表3 UCF_CC_50数据集人群密度估计对比
Figure BDA0001993048770000102
Shanghaitech数据集
Shanghaitech数据集包含1,198张带有标注的图像,共有330,165人的头部中心带有标注。目前在人群密度领域,这个数据集是标注人数最多的数据集。该数据集由两部分组成:A部分的482幅图像是从互联网上随机抓取的,B部分的716幅图像是从上海大都市繁华的街道上所采集的。在这两个数据集之间,人群密度的变化很大,这使得对人群的准确估计比大多数现有数据集更具有一定的挑战性。A部分和B部分均分为训练和测试两部分:A部分使用300张图像作为训练数据,剩余182张用于测试;B部分使用400张图像作为训练数据,剩余316张图像用于测试。模型测试结果如表4所示。
表4 Shanghai tech数据集在不同人群密度估计对比
Figure BDA0001993048770000111
3.3.3WorldExpo’10数据集
WorldExpo’10数据集首次被提出是由Zhang等人提出,该数据集是从108个监控摄像头拍摄的1132个监控视频中所提取出的图像,所有的监控视频均是2010年上海世博会期间所拍摄的。作者提供了3980张已标记的视频帧图像,总共标记人数有199,923,其中训练集含有3380张图像,共103个场景;剩下600张图像作为测试集,测试集图像包含五个不同的视频序列,每个序列中含有120张已标记的人群图像,并且为测试场景提供了五个不同的感兴趣区域(ROI)。由于测试的场景不同,因此不同算法在不同场景下所得到的人群密度图会有很大的差异,这说明不同方法适应特定的场景。通过与其他方法相比,发现本文方法在三个场景下的取得了不错得效果。这表明本文方法具有良好的泛化能力,以及在不同场景下具有良好的准确性。模型测试结果如表5所示,表格内数据为各方法的MAE值。
表5 WorldExpo’10数据集人群密度估计对比
Method S1 S2 S3 S4 S5 Avg.
Zhangetal. 9.8 14.1 14.3 22.2 3.7 12.9
MCNN 3.4 20.6 12.9 13 8.1 11.6
BSAD 4.1 21.7 11.9 11.0 3.5 10.5
MSCNN 7.8 15.4 14.9 11.8 5.8 11.7
SwitchingCNN 4.4 15.7 10 11 5.9 9.4
本文 3.2 17.3 12.1 10.2 4.2 9.4
实验总结
相比其他现有的一些算法,本文设计的网络结构在Shanghaitech数据集、UCF_CC_50数据集和WorldExpo’10数据集上均有不错的效果,MAE和MSE均有小幅度减小,这说明本文设计的方法在人群密度估计上具有一定的有效性。从数据集中选取了部分有代表性的图像,如图6所示,从左至右依次为原始图像、真实密度图以及预测密度图,图片中也标注了图像的原始人数以及估计人数。
为了更好的进行人群密度估计,本方法提出了一种基于多尺度卷积神经网络的人群密度估计算法。通过对不同尺度的特征进行融合,可以有效的提高人群密度估计的准确性。本网络中,通过输出1/4采样的密度图进行人群密度估计,一定程度上,损失了人群的细颗粒分布信息,如何在高分辨率,计算资源有限的情境下输出和原图一样尺寸的人群密度图,是该领域急待解决的问题。

Claims (1)

1.一种基于多尺度卷积神经网络的人群密度估计方法,其特征在于:该方法的实现过程如下,
S1.1人群密度图的生成
首先将带有人头标注的图像转换为人群密度图;如果在像素xi处存在标注,将xi处标记的人头用狄拉克函数表示为δ(x-xi),因此具有N个头部标注的图像表示为:
Figure FDA0002890946260000011
为使具有标注的图像转换为连续的密度图,将H(x)与高斯核函数进行卷积,得到结果即为最终的密度图:
ρ(x)=H(x)*Gσ(x).
假设在标注的头部区域的周围,人群密度分布是均匀的;
通过图像中每个人头部大小,确认高斯核函数中的传播参数σ;在拥挤的人群图像中,头部大小与两个相邻的头部之间的距离有一定的关系,根据最近的相邻的平均距离自适应地确定每一个人头的参数;
对于给定的标注位置xi,将所有与其的k个最近邻的距离表示集合Di={d1i,d2i,...,dki};平均距离
Figure FDA0002890946260000012
与xi相关联的像素位置对应于场景中地面上的一个区域,这个区域的半径与di成正比;为了估计出xi周围的人群密度,需要把H(x)卷积一个自适应的高斯核函数,这个高斯核的方差σi是可变的且与di成正比,假设设定比例系数为β,则这个人群密度图表示为:
Figure FDA0002890946260000013
针对比例系数β,将带有密度核的标签H与每个标记点周围的局部几何相适应,称为几何自适应核;β=0.3是是目前所得到的最优解;得到一个相对准确能够反映出人群空间信息的人群密度图,以此为标注从而完成整个网络的监督训练,使得最终生成的网络模型具备感知图像空间几何分布的能力;
S1.2网络结构与设计
网络结构是人群密度估计的核心关键,为了更好的将浅层特征与深层特征融合;
输入图像为3通道的RGB人群图像,首先通过4个卷积层和2个下采样层生成通道数为64、大小为原图1/4的特征图;对此时得到的特征图经过两种处理:一、经过2个卷积核为3X3的卷积层,将其结果保留并进行下采样;二、经过2个卷积核为3×3,扩张率为2的空洞卷积,将其结果保留连接至网络末端;将此操作重复两次,此时,得到通道数为512,大小为原图1/32的特征图,对其进行上采样和卷积,将得到的特征图、上一阶段通过卷积生成的特征图及通过空洞卷积生成的特征图,进行特征融合,生成通道数为512,尺寸大小为1/16的特征图,以此类推,将每一层经过上采样层生成的特征图与上一阶段的两种特征图进行融合,重复两次,最后通过一个1X1的卷积核进行卷积,输出一张尺寸为1/4原图大小的人群密度图;在网络中,所有的卷积层都使用填充来保持以前的大小不变,选择ReLU作为每个卷积层后的激活函数;
在网络结构提取特征的过程中,采用空洞卷积进行了特征提取;参数为扩张率rate代表了空洞的大小;空洞卷积与普通卷积的不同点在于具有更大的感受野;
S1.3损失函数
本方法采用损失函数的表达式为:
Figure FDA0002890946260000021
x表示网络预测值与真实值之间的损失,SmoothL1损失函数是L1损失函数与L2损失函数结合的复合函数;
具有L1损失函数对离群点不敏感的特性,同时具备L2损失函数使网络更快收敛的特点,SmoothL1损失函数广泛应用于神经网络的回归问题;
网络训练:
网络训练对深度学习来说是非常重要的,相同的网络结构如果使用不同的训练方法训练,结果也会有很大的差异;
训练过程中要先对数据集进行图像预处理,将训练集中的图像进行水平翻转、裁剪几何变换方式,扩增训练样本数量;
通过空洞卷积与原始卷积不同感受野信息的融合,实现多尺度下的特征融合,采用类似U型结构的上下采样过程,融合不同分辨率特征图下不同的层级语义信息;正是这种操作,使得本网络结合了多重有效特征,具备多尺度人群密度估计的泛化能力;
本网络结构未使用全连接层和池化层,下采样采用的是步长为2的卷积;
网络训练过程中,使用的是SGDM优化器,其中初始学习率为0.0001,动量设置为0.8,batch size设置为1,Iteration设置为4000,Epoch设置为200,采用热启动的动态学习率调节策略进行训练,网络训练在GPU加速环境下进行,使用的是NVIDIVA GTX 1080T,Cuda9.2;
评价标准
采用平局绝对误差MAE和均方误差MSE作为评估指标,其定义如下:
Figure FDA0002890946260000031
Figure FDA0002890946260000032
其中,N表示测试图像数量;yi表示数据集图像中实际标记人数;
Figure FDA0002890946260000033
表示相应图像的估计人数;总体来说,平均绝对误差MAE反映出估计结果的准确性,而均方误差MSE反映了估计结果的鲁棒性。
CN201910186683.7A 2019-03-13 2019-03-13 一种基于多尺度卷积神经网络的人群密度估计方法 Active CN110020606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910186683.7A CN110020606B (zh) 2019-03-13 2019-03-13 一种基于多尺度卷积神经网络的人群密度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910186683.7A CN110020606B (zh) 2019-03-13 2019-03-13 一种基于多尺度卷积神经网络的人群密度估计方法

Publications (2)

Publication Number Publication Date
CN110020606A CN110020606A (zh) 2019-07-16
CN110020606B true CN110020606B (zh) 2021-03-30

Family

ID=67189532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910186683.7A Active CN110020606B (zh) 2019-03-13 2019-03-13 一种基于多尺度卷积神经网络的人群密度估计方法

Country Status (1)

Country Link
CN (1) CN110020606B (zh)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472532B (zh) * 2019-07-30 2022-02-25 中国科学院深圳先进技术研究院 一种视频对象行为识别方法和装置
CN110674704A (zh) * 2019-09-05 2020-01-10 同济大学 一种基于多尺度扩张卷积网络的人群密度估计方法及装置
CN110866445A (zh) * 2019-10-12 2020-03-06 西南交通大学 一种基于深度学习的人群计数和密度估计方法
CN110991252B (zh) * 2019-11-07 2023-07-21 郑州大学 一种不均衡场景中人群分布与计数的检测方法
CN110941999B (zh) 2019-11-12 2023-02-17 通号通信信息集团有限公司 一种人群计数系统中自适应计算高斯核大小的方法
CN111222402A (zh) * 2019-11-14 2020-06-02 北京理工大学 一种面向无人机图像的人群聚集密度分析方法
CN110879982B (zh) * 2019-11-15 2023-06-20 苏州大学 一种人群计数系统及方法
CN110942015B (zh) * 2019-11-22 2023-04-07 上海应用技术大学 人群密度估计方法
CN110956122B (zh) * 2019-11-27 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、处理器、电子设备、存储介质
CN110991317B (zh) * 2019-11-29 2023-05-16 中山大学 一种基于多尺度透视感知型网络的人群计数方法
CN111062275A (zh) * 2019-12-02 2020-04-24 汇纳科技股份有限公司 一种多层次监督的人群计数方法、装置、介质及电子设备
CN111160413B (zh) * 2019-12-12 2023-11-17 天津大学 一种基于多尺度特征融合的甲状腺结节分类方法
CN111144460A (zh) * 2019-12-16 2020-05-12 华东师范大学 一种提高卷积神经网络分类性能的算法
CN111144329B (zh) * 2019-12-29 2023-07-25 北京工业大学 一种基于多标签的轻量快速人群计数方法
CN111242036B (zh) * 2020-01-14 2023-05-09 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN111259833A (zh) * 2020-01-20 2020-06-09 青岛大学 一种基于交通图像的车辆计数方法
CN113378608B (zh) * 2020-03-10 2024-04-19 顺丰科技有限公司 人群计数方法、装置、设备及存储介质
CN111507183B (zh) * 2020-03-11 2021-02-02 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN111464814B (zh) * 2020-03-12 2022-01-04 天津大学 一种基于视差引导融合的虚拟参考帧生成方法
CN111429466A (zh) * 2020-03-19 2020-07-17 北京航空航天大学 一种基于多尺度信息融合网络的空基人群计数与密度估计方法
CN111428809B (zh) * 2020-04-02 2023-07-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于空间信息融合与卷积神经网络的人群计数方法
CN111476823B (zh) * 2020-05-09 2023-04-11 安徽大学 基于多挑战交互学习的实时rgbt跟踪方法及装置
CN111626184B (zh) * 2020-05-25 2022-04-15 齐鲁工业大学 一种人群密度估计方法及系统
CN111753671A (zh) * 2020-06-02 2020-10-09 华东师范大学 一种现实场景的人群计数方法
CN111723693B (zh) * 2020-06-03 2022-05-27 云南大学 一种基于小样本学习的人群计数方法
CN111783589B (zh) * 2020-06-23 2022-03-15 西北工业大学 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN112001274B (zh) * 2020-08-06 2023-11-17 腾讯科技(深圳)有限公司 人群密度确定方法、装置、存储介质和处理器
CN111950443B (zh) * 2020-08-10 2023-12-29 北京师范大学珠海分校 一种多尺度卷积神经网络的密集人群计数方法
CN111950519A (zh) * 2020-08-27 2020-11-17 重庆科技学院 基于检测与密度估计的双列卷积神经网络人群计数方法
CN112418120B (zh) * 2020-11-27 2021-09-28 湖南师范大学 基于峰值置信图的人群检测方法
CN112541891B (zh) * 2020-12-08 2022-09-09 山东师范大学 一种基于空洞卷积高分辨率网络的人群计数方法及系统
CN112632601B (zh) * 2020-12-16 2024-03-12 苏州玖合智能科技有限公司 面向地铁车厢场景的人群计数方法
CN112541469B (zh) * 2020-12-22 2023-09-08 山东师范大学 基于自适应分类的人群计数方法及系统
CN112580545B (zh) * 2020-12-24 2022-07-29 山东师范大学 基于多尺度自适应上下文网络的人群计数方法及系统
CN112634289B (zh) * 2020-12-28 2022-05-27 华中科技大学 一种基于非对称空洞卷积的快速可行域分割方法
CN112597964B (zh) * 2020-12-30 2021-10-22 上海应用技术大学 分层多尺度人群计数的方法
CN112861699A (zh) * 2021-02-03 2021-05-28 湖南大学 一种基于单张深度图像和多阶段神经网络的任意姿势人体身高估计方法
CN112818944A (zh) * 2021-03-08 2021-05-18 北方工业大学 面向地铁车站场景的密集人群计数方法
CN112651390B (zh) * 2021-03-11 2021-09-10 江苏金智教育信息股份有限公司 一种基于卷积神经网络的图片人头计数的方法和装置
CN112801063B (zh) * 2021-04-12 2021-07-20 广东众聚人工智能科技有限公司 神经网络系统和基于神经网络系统的图像人群计数方法
CN113139489B (zh) * 2021-04-30 2023-09-05 广州大学 基于背景提取和多尺度融合网络的人群计数方法及系统
CN113468995A (zh) * 2021-06-22 2021-10-01 之江实验室 一种基于密度等级感知的人群计数方法
CN113553921B (zh) * 2021-07-02 2022-06-10 兰州交通大学 一种基于卷积神经网络的地铁车厢拥挤度识别方法
CN113486956B (zh) * 2021-07-07 2022-03-25 山东力聚机器人科技股份有限公司 目标分割系统及其训练方法、目标分割方法及设备
CN113392817A (zh) * 2021-08-16 2021-09-14 成都信息工程大学 一种基于多列卷积神经网络的车辆密度估计的方法及装置
CN113743422B (zh) * 2021-09-07 2024-05-03 西安建筑科技大学 多特征信息融合的人群密度估计方法、设备及存储介质
CN113762476B (zh) * 2021-09-08 2023-12-19 中科院成都信息技术股份有限公司 一种用于文字检测的神经网络模型及其文字检测方法
CN113807334B (zh) * 2021-11-22 2022-02-18 成都航空职业技术学院 一种基于残差网络的多尺度特征融合的人群密度估计方法
CN113887536B (zh) * 2021-12-06 2022-03-04 松立控股集团股份有限公司 一种基于高层语义引导的多阶段高效人群密度估计方法
CN116229336B (zh) * 2023-05-10 2023-08-18 江西云眼视界科技股份有限公司 视频移动目标识别方法、系统、存储介质及计算机
CN117710869A (zh) * 2024-02-05 2024-03-15 沈阳二一三电子科技有限公司 一种基于深度信息的人流统计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932517A (zh) * 2018-06-28 2018-12-04 中山大学 一种基于精细化网络模型的多标签服装解析方法
CN109101930A (zh) * 2018-08-18 2018-12-28 华中科技大学 一种人群计数方法及系统
CN109241895A (zh) * 2018-08-28 2019-01-18 北京航空航天大学 密集人群计数方法及装置
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932517A (zh) * 2018-06-28 2018-12-04 中山大学 一种基于精细化网络模型的多标签服装解析方法
CN109101930A (zh) * 2018-08-18 2018-12-28 华中科技大学 一种人群计数方法及系统
CN109241895A (zh) * 2018-08-28 2019-01-18 北京航空航天大学 密集人群计数方法及装置
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"DRINet for Medical Image Segmentation";Liang Chen 等;《IEEE Transactions on Medical Imaging》;20181130;第37卷(第11期);第2453-2462页 *
"基于深度学习的人群流量统计系统研究";万全;《中国优秀硕士学位论文全文数据库信息科技辑》;20181015(第10期);第11-13页 *
"多层次特征融合的人群密度估计";陈朋 等;《中国图象图形学报》;20180831;第23卷(第8期);第1181-1192页 *

Also Published As

Publication number Publication date
CN110020606A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110020606B (zh) 一种基于多尺度卷积神经网络的人群密度估计方法
CN109271960B (zh) 一种基于卷积神经网络的人数统计方法
Bouwmans et al. Scene background initialization: A taxonomy
CN107967451B (zh) 一种对静止图像进行人群计数的方法
CN108615027B (zh) 一种基于长短期记忆-加权神经网络对视频人群计数的方法
US20230196837A1 (en) Action recognition method and apparatus, and device and storage medium
CN111723693B (zh) 一种基于小样本学习的人群计数方法
CN113011329B (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN109377499B (zh) 一种像素级物体分割方法及装置
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN114255474A (zh) 一种基于多尺度、多粒度行人重识别方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Hu et al. Parallel spatial-temporal convolutional neural networks for anomaly detection and location in crowded scenes
CN115410030A (zh) 目标检测方法、装置、计算机设备及存储介质
CN115527133A (zh) 一种基于目标密度信息的高分图像背景优化方法
CN111753671A (zh) 一种现实场景的人群计数方法
CN114782859A (zh) 一种目标行为时空感知定位模型的建立方法及应用
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
CN117315752A (zh) 人脸情绪识别网络模型的训练方法、装置、设备和介质
Sharma et al. A novel 3d-unet deep learning framework based on high-dimensional bilateral grid for edge consistent single image depth estimation
CN116977200A (zh) 视频去噪模型的处理方法、装置、计算机设备和存储介质
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
Jeong et al. Congestion-aware bayesian loss for crowd counting
CN115965905A (zh) 一种基于多尺度融合卷积网络的人群计数方法及系统
Gupta et al. Reconnoitering the Essentials of Image and Video Processing: A Comprehensive Overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant