CN116403152A - 一种基于空间上下文学习网络的人群密度估计方法 - Google Patents

一种基于空间上下文学习网络的人群密度估计方法 Download PDF

Info

Publication number
CN116403152A
CN116403152A CN202310061969.9A CN202310061969A CN116403152A CN 116403152 A CN116403152 A CN 116403152A CN 202310061969 A CN202310061969 A CN 202310061969A CN 116403152 A CN116403152 A CN 116403152A
Authority
CN
China
Prior art keywords
crowd
spatial
convolution
density
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310061969.9A
Other languages
English (en)
Inventor
熊李艳
易虎
黄晓辉
黄卫春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310061969.9A priority Critical patent/CN116403152A/zh
Publication of CN116403152A publication Critical patent/CN116403152A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于空间上下文学习网络的人群密度估计方法,其从公共场所的监控视频中截取不同密度的人群图像构建数据集,采用基于高斯核卷积对人群图像进行预处理,得到真实密度图;结合空间金字塔密度感知模块和空间通道注意力模块,构建空间上下文学习网络;将获取的人群图像送到空间上下文学习网络,生成预测密度图,结合预测密度图与真实密度图构建损失函数模型训练网络,生成优化后的空间上下文学习网络;最后对预测密度图逐像素积分求和,得到人群密度估计结果。本发明可以自适应地编码预测人群密度所需的上下文信息的规模,可以在不同通道之间提取更具区分性的特征,有效解决尺度变化问题,并抑制背景噪声,提人群密度估计的精度。

Description

一种基于空间上下文学习网络的人群密度估计方法
技术领域
本发明涉及机器视觉中静态图像处理技术领域,特别涉及一种基于空间上下文学习网络的人群密度估计方法。
背景技术
人群密度估计在交通控制、公共安全监控、智能城市规划等方面有着广泛的应用,例如防止踩踏事件的发生,以及估计参加集会或游行的人数。此外,准确的人群密度估计还可以帮助当局确定是否仍然可以在某个公共空间保持社会距离,防止传染性病毒在密集人群中扩散。人群密度估计是人群分析的一个重要分支,其重点是预测人群的人数或估计人群场景的密度图。然而,现实世界中的各种情况,如严重的尺度变化和遮挡、杂乱的背景,都给人群计数的实际解决方案带来了巨大的挑战。由于相机角度的不同,人头在人群图像中的大小不可避免地会有很大的不同,加上图像背景的复杂性,一些基于卷积神经网络CNN的方法通常会高估背景的密度图,就像一些人群计数综述文章所分析的那样。此外,一些网格区域(如树木和建筑物)在密度图中更容易出错,因为背景的外观与拥挤的人群区域非常相似。
为解决人群图像存在的尺度变化问题,一些研究人员提出了许多基于多尺度特征融合的思想方法,例如多列卷积神经网络计数模型MCNN和Switch-CNN。然而,正如拥挤场景识别算法CSRNet中分析的那样,这些基于多列的方法,结构冗余复杂,且多列卷积网络训练困难、耗时长,不能满足实际应用的要求。而CSRNet使用深层卷积网络VGG-16网络的前10层作为特征提取器,后端使用7层扩张卷积作为回归器,能够扩大网络的接受范围以获取足够的空间上下文信息。可是,CSRNet没有考虑来自网络不同感受野的特征对最终人群计数的贡献,使得计数网络无法获得合适的空间上下文信息。此外,它没有编码注意力特征,容易错误地将背景预测为人群区域。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于空间上下文学习网络的人群密度估计方法,可以自适应地融合多尺度特征,以适应快速的尺度变化,并抑制背景噪声的干扰,生成高质量的密度图,实现密集场景下准确的人群密度估计。
本发明采取的技术方案是:一种基于空间上下文学习网络的人群密度估计方法,包括以下步骤:
S1:从公共场所的监控视频中截取大量含不同密度且具有不同分辨率的人群图像构建数据集,针对人群图像数据的特点,采用基于高斯核卷积的方法对人群图像进行预处理,得到与人群图像对应的真实密度图;
S2:结合空间金字塔密度感知模块和空间通道注意力模块,构建空间上下文学习网络;
S3:将步骤S1获取的含不同密度且具有不同分辨率的人群图像输入到空间上下文学习网络,生成与输入人群图像对应的预测密度图,结合预测密度图与真实密度图构建损失函数模型训练网络,生成优化后的空间上下文学习网络;
S4:对空间上下文学习网络最后生成的预测密度图逐像素积分求和,实现输入人群图像中行人数量的估计,评价网络预测效果。
进一步地,所述步骤S1中得到与人群图像对应的真实密度图的具体方法包括:
S11:标注人群图像数据集,如果人群图像的某个像素点处有一个人头,则将其标记为xi,xi就表示人群图像中第i个被标记人头的位置,那么一张带有N个人头标注点的人群图像表示为函数式:
Figure BDA0004061354220000021
其中,N是人群图像中被标记的人头的总数,x是人群图像中像素的位置,δ(x-xi)为增量函数,Y(x)表示带有N个人头标注点的人群图像;
S12:采用高斯核卷积的方法模糊处理人群图像中的每一个被标记的人头,生成与人群图像对应的真实密度图,具体公式为:
Figure BDA0004061354220000027
Figure BDA0004061354220000022
其中,
Figure BDA0004061354220000023
为标准偏差为σi的高斯核卷积函数,/>
Figure BDA0004061354220000024
为人群图像中第i个被标记的人头距离其/>
Figure BDA0004061354220000025
个近邻人头标注点的平均欧式距离,ω表示常数,本发明设置ω为0.3,/>
Figure BDA0004061354220000026
为3;
S13:将步骤S11中获取的带有人头标注的人群图像数据集划分为训练集和测试集,步骤S12中生成的与人群图像对应的真实密度图也同样划分为训练集和测试集。
进一步地,所述步骤S2构建空间上下文学习网络的具体方法为:
S21:选取不包括全连接层的VGG-16的前10个卷积层作为空间上下文学习网络的前端网络,用于提取人群图像的2D特征图;
S22:构建空间金字塔密度感知模块,该模块包含一个输入层、四个并行的分支结构和一个输出层,四个并行的分支结构主要用于提取多尺度上下文信息、计算对比特征和学习预测权重图,对于步骤S21中前端网络输出的2D特征图,四个并行的分支结构先是执行空间金字塔池化操作来提取多尺度上下文信息,以解决前端网络在整个人群图像上编码相同感受野的局限性,再通过计算对比特征和学习预测权重图的方式来更好地解释人群图像中潜在的尺度变化,生成的这些权重图在每个空间位置上设置了每个尺度感知特征的相对影响,最后利用这些带有权重的权重图通过和前端网络输出的2D特征图进行通道级连接操作得到最终包含上下文特征的特征图
Figure BDA0004061354220000031
其中,四个并行的分支结构均包含一个平均池化层、两个核大小为1×1的卷积层、一个上采样层、一个元素差运算、一个Sigmoid激活函数和一个元素乘积运算,用于提取多尺度上下文信息的空间金字塔池化操作由四个并行的分支结构的平均池化层、第一个核大小为1×1的卷积层和上采样层共同执行,元素差运算用于计算多尺度上下文信息和前端网络输出的2D特征图之间的对比特征,这些对比特征为空间上下文学习网络提供了了解每个图像区域的局部尺度的重要信息,第二个核大小为1×1的卷积层、Sigmoid激活函数和元素乘积运算用于学习预测权重图,这里权重图包含的权重指的是通过对比特征学习的多尺度上下文信息的权重;
S23:设计空间通道注意力模块,对于步骤S22最后输出的包含上下文特征的特征图
Figure BDA0004061354220000032
再采用由空间注意力机制、全局平均池化GAP和权重共享的1D卷积组成的空间通道注意力模块SCAM进行全局编码,以获得更加广泛的上下文信息,并从通道中提取最具区分性的特征,使网络模型对噪声背景具有更强的鲁棒性,从而有效地减少密度场景下的估计误差;
其中,空间注意力机制用于学习空间维度上特征信息的相关性,使模型对背景噪声具有更强的鲁棒性,空间注意力机制包括三个分支,通过三个分支对步骤S22最后输出的具有上下文特征的特征图
Figure BDA0004061354220000033
进行处理,分别获得第一特征图B1、第二特征图B2和第三特征图B3,依据第一特征图B1和第二特征图B2获得空间注意图Bs,再根据包含多尺度上下文特征的特征图、第三特征图B3和空间注意图Bs获得空间注意力机制输出的特征图Bf
全局平均池化GAP和权重共享的1D卷积的使用旨在从空间注意力机制输出的特征图Bf中捕获重要通道,抑制不必要通道中的信息;对于特征图Bf,先是通过全局平均池化GAP空间特征压缩,随后通过可权重共享的1D卷积进行学习,得到通道的权重,之后将通道权重与特征图Bf进行通道级乘法运算,从而将权重值加权到每个对应通道的特征上,最后输出特征图Bout
S24:将步骤S23最后输出的特征图Bout送入由6层空洞率为2的空洞卷积层和1层卷积核大小为1×1的普通卷积层构成的后端网络,用于空间上下文学习网络最终的人群密度估计,以获取预测密度图。
进一步地,所述步骤S24中构建的后端网络采用了6层空洞率为2的空洞卷积层,空洞卷积的定义为:
Figure BDA0004061354220000041
其中,M表示空洞卷积层的宽度,f的范围为1~M,代表第f列,L表示空洞卷积层的长度,e的范围为1~L,代表第e行,D(l,m)为滤波器τ(e,f)和二维输入u(l+μ×e,m+μ×f)进行二维空洞卷积后的二维输出,l表示二维特征图的横坐标,m表示二维特征图的纵坐标,μ是空洞率,本发明设置μ为2。
进一步地,所述步骤S3生成与输入人群图像对应的预测密度图的具体方法为:
S31:将步骤S13中划分的训练集所包含的含不同密度且具有不同分辨率的人群图像送入空间上下文学习网络的前端网络,提取2D特征图,具体公式为:
Hr=F16(Ir)
其中,Ir表示输入的第r张训练集中的人群图像,F16表示不包括全连接层的VGG-16网络的前10个卷积层,Hr为提取的第r张输入人群图像的2D特征图;
S32:将步骤S31得到的2D特征图输入到空间上下文学习网络的空间金字塔密度感知模块(SPDAM)中,先是通过结合使用多种感受野大小来捕获丰富的上下文信息和尺度多样性,具体公式为:
Figure BDA0004061354220000042
其中,Ap(Hr,j)表示尺度为j的自适应平均池化块,βj是尺度为j的卷积核的参数,
Figure BDA0004061354220000043
为卷积核大小为1×1的卷积网络,Ubi表示用于上采样操作的双线性插值,/>
Figure BDA0004061354220000044
是通过执行空间金字塔池化操作提取的多尺度上下文信息,本发明设置了U种不同尺度的自适应平均池化块,用于获取不同深度的特征信息,对应的块大小为K(j)∈{1,2,3,6},与其他块大小的设置相比,K(j)∈{1,2,3,6}显示了更好的性能;
然后,用学习预测权重图的方式来处理
Figure BDA0004061354220000051
通过将对比特征中每个人群图像区域的局部尺度的重要信息作为初始化参数为/>
Figure BDA0004061354220000052
的卷积网络/>
Figure BDA0004061354220000053
的输入来计算多尺度上下文信息/>
Figure BDA0004061354220000054
的权重,具体公式为:
Figure BDA0004061354220000055
其中,
Figure BDA0004061354220000056
表示对比特征,它可以捕捉到特定空间位置和邻域特征之间的不同,/>
Figure BDA0004061354220000057
是一个卷积核大小为1×1的卷积网络,/>
Figure BDA0004061354220000058
表示尺度为j的卷积核/>
Figure BDA0004061354220000059
的参数,后面跟一个Sigmoid激活函数,用于避免被零除,/>
Figure BDA00040613542200000510
表示多尺度上下文信息/>
Figure BDA00040613542200000511
的权重;
最后,使用这些权重计算最终的上下文特征,以获取最终包含上下文特征的特征图
Figure BDA00040613542200000512
具体公式为:
Figure BDA00040613542200000513
其中,
Figure BDA00040613542200000514
为元素乘积,j表示尺度,U=4表示4种不同的尺度,[·|·]表示通道连接操作,/>
Figure BDA00040613542200000515
表示空间金字塔密度感知模块SPDAM最后输出的最终包含上下文特征的特征图;
S33:对于步骤S32中空间金字塔密度感知模块SPDAM输出的最终包含上下文特征的特征图
Figure BDA00040613542200000516
再采用组成空间通道注意力模块SCAM的空间注意力机制对整个特征图中的空间相关性进行编码,以便在像素级别上更准确地预测人群密度图,并利用全局平均池化GAP和权重共享的1D卷积处理通道映射之间的关系,显著提高特征图的聚焦能力,生成特征图Bout,其中,空间注意力机制处理特征图的具体公式为:
Figure BDA00040613542200000517
Figure BDA00040613542200000518
式中,
Figure BDA00040613542200000519
表示空间注意力特征图Bs中第h个位置对第d个位置的影响,两个位置的特征图越相似,表明它们之间的相关性越强,d为特征图中第d个输出位置,h为特征图中第h个输出位置,/>
Figure BDA00040613542200000520
为第一特征图B1中第d个位置的表示,/>
Figure BDA00040613542200000521
为第二特征图B2中第h个位置的表示,/>
Figure BDA00040613542200000522
为第三特征图S3中第h个位置的表示,HW表示合并特征图的高度H和宽度W两个维度,得到大小为HW的维度,/>
Figure BDA00040613542200000523
表示空间注意力机制最终输出的特征图Bf中第d个位置的表示,exp(θ)表示的是e的θ次方,η表示可学习因子,用来缩放输出,空间注意机制利用核大小为1×1的卷积层来学习η。
全局平均池化GAP和权重共享的1D卷积能够从通道中提取最具区分性的特征,以过滤出一些背景细节,从而有效地减少密度场景下的估计误差,具体公式为:
Figure BDA0004061354220000061
式中,g(X)为全局平均池化,Xab表示输入特征图Bf中第a行和第b列位置处的数据,a的取值是1~W,表示第a行,b的取值是1~H,表示第b列;
随后通过可权重共享的1D卷积进行学习,得到通道的权重,其中1D卷积的内核大小为γ,即1D卷积涉及的参数量,具体公式为:
Wc=σs(CIDγ(g(X)))
Figure BDA0004061354220000062
式中,σs表示Sigmoid激活函数,内核大小γ与通道维度C之间为非线性映射表示为γ=ψ(C),|α|odd表示最接近α的奇数,Wc为通道的权重,CIDγ表示一维卷积,μ和b为常数;
S34:将步骤S33中空间通道注意力模块SCAM生成的特征图Bout送入到空间上下文学习网络的后端网络,通过后端网络的空洞卷积层和卷积核大小为1×1的卷积产生最终与输入人群图像对应的预测密度图。
进一步地,所述步骤S3结合预测密度图与真实密度图构建损失函数模型训练网络,损失函数的表达式为:
Figure BDA0004061354220000063
其中,Ir表示输入空间上下文学习网络的第r张训练集中的人群图像,
Figure BDA0004061354220000064
表示输入空间上下文学习网络的第r张人群图像输出的预测密度图,/>
Figure BDA0004061354220000065
表示输入空间上下文学习网络的第r张人群图像对应的真实密度图,Nt表示训练集中人群图像的总数,/>
Figure BDA0004061354220000066
为/>
Figure BDA0004061354220000067
和/>
Figure BDA0004061354220000068
之间的误差的平方。
进一步地,所述步骤S3训练网络时,选取Adam算法作为空间上下文学习网络的优化器,对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集,学习速率固定为1e-4,对于ShanghaiTech数据集的PartA部分,学习速率初始化为1e-5,并且每个Epoch减少到0.995,每个图形处理器上的批处理大小设置为8,迭代的最大次数设置为800次,当网络训练迭代到设定的最大次数后,保存优化后的空间上下文学习网络的权重,从而得到优化后的空间上下文学习网络。
进一步地,所述步骤S4评价网络预测效果,是通过计算测试集中人群图像的预测密度图和真实密度图之间的均方误差MSE和平均绝对误差MAE来实现,具体公式为:
Figure BDA0004061354220000071
Figure BDA0004061354220000072
其中,Rt表示测试集中人群图像的数量,κ表示测试集中第κ张人群图像,
Figure BDA0004061354220000073
表示输入空间上下文学习网络的第κ张人群图像输出的预测密度图,/>
Figure BDA0004061354220000074
表示输入空间上下文学习网络的第κ张人群图像对应的真实密度图。
与现有技术相比,本发明的有益效果在于:
(1)本发明提出输入单张人群图像进行训练,避免了因为批量化训练人群图像导致的信息丢失。
(2)本发明在全卷积网络上进行改进,提出了SPDAM能够结合多个感受野大小获得的特征,并学习每个特征在每个图像位置的重要性,捕获丰富的上下文信息和尺度多样性,在SPDAM的帮助下,空间上下文学习网络在复杂的人群场景中表现良好,能够准确、高效地对不同尺度和密度的人群进行计数。
(3)本发明结合空间注意力机制、全局平均池化GAP和权重共享的1D卷积,提出了一种空间通道注意力模块SCAM,其中空间注意力机制可以对整个特征图中的空间相关性进行编码,以更准确地在像素级别上预测人群密度图,全局平均池化GAP和权重共享的1D卷积可以处理通道映射之间的关系,显著提高回归性能,有助于空间上下文学习网络关注人群场景中人的头部区域,避免了对背景的错误估计。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中基于空间上下文学习网络的人群密度估计方法的整体流程图。
图2为本发明的基于空间上下文学习网络的人群密度估计方法的网络结构图。
图3为本发明实施例空间通道注意力模块SCAM的结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
除非另作定义,此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
如图1~图3所示,本发明实施例利用了一种基于空间上下文学习网络的人群密度估计方法,首先从公共场所的监控视频中截取大量含不同密度的人群图像构建数据集,将获取的带有人头标注的人群图像数据集划分为训练集和测试集,再针对人群图像数据的特点,采用基于高斯核卷积的方法对人群图像进行预处理,生成的与人群图像对应的真实密度图。本发明实施例选用了公开的且具有挑战性的人群计数数据集ShanghaiTech、UCF_CC_50和WorldExpo’10数据集,降低了劳动强度,减少了数据采集、标注的成本。然后,结合空间金字塔密度感知模块和空间通道注意力模块,构建空间上下文学习网络。本发明实施例选取了预先训练好的去除全连接层的VGG-16的前10个卷积层作为前端网络,利用6层空洞率为2的空洞卷积和1层卷积核大小为1×1的普通卷积构建后端网络,通过现有的网络结构组建模型,不仅降低了模型训练的时间成本,而且有利于提升模型的鲁棒性。之后,将获取的分辨率大小不同的人群图像输入到空间上下文学习网络,生成与输入人群图像对应的预测密度图,结合预测密度图与真实密度图构建损失函数模型训练网络,生成优化后的空间上下文学习网络。最后,对空间上下文学习网络最后生成的预测密度图逐像素积分求和,实现输入人群图像中人头数量的估计。本发明实施例所述的基于空间上下文学习网络的人群密度估计方法的具体步骤如下:
S1:从公共场所的监控视频中截取大量含不同密度且具有不同分辨率的人群图像构建数据集,针对人群图像数据的特点,采用基于高斯核卷积的方法对人群图像进行预处理,得到与人群图像对应的真实密度图;
S2:结合空间金字塔密度感知模块和空间通道注意力模块,构建空间上下文学习网络;
S3:将步骤Sl获取的所有含不同密度且具有不同分辨率的人群图像输入到空间上下文学习网络,生成与输入人群图像对应的预测密度图,结合预测密度图与真实密度图构建损失函数模型训练网络,生成优化后的空间上下文学习网络;
S4:对空间上下文学习网络最后生成的预测密度图逐像素积分求和,实现输入人群图像中行人数量的估计,评价网络预测效果。
步骤S1中得到与人群图像对应的真实密度图的具体方法包括:
S11:标注人群图像数据集,如果人群图像的某个像素点处有一个人头,则将其标记为xi,xi就表示人群图像中第i个被标记人头的位置,那么一张带有N个人头标注点的人群图像可以表示为函数式:
Figure BDA0004061354220000091
其中,N是人群图像中被标记的人头的总数,x是人群图像中像素的位置,δ(x-xi)为增量函数,Y(x)表示带有N个人头标注点的人群图像;
S12:采用高斯核卷积的方法模糊处理人群图像中的每一个被标记的人头,生成与人群图像对应的真实密度图,具体公式为:
Figure BDA0004061354220000097
Figure BDA0004061354220000092
其中,
Figure BDA0004061354220000093
为标准偏差为σi的高斯核卷积函数,/>
Figure BDA0004061354220000094
为人群图像中第i个被标记的人头距离其/>
Figure BDA0004061354220000095
个近邻人头标注点的平均欧式距离,ω表示常数,本发明设置ω和/>
Figure BDA0004061354220000096
分别等于0.3和3;
S13:将步骤S11中获取的带有人头标注的人群图像数据集划分为训练集和测试集,步骤S12中生成的与人群图像对应的真实密度图也同样划分为训练集和测试集。
步骤S2构建空间上下文学习网络的具体方法为:
S21:选取不包括全连接层的VGG-16的前10个卷积层作为空间上下文学习网络的前端网络,用于提取人群图像的2D特征图;
S22:构建空间金字塔密度感知模块,该模块包含一个输入层、四个并行的分支结构和一个输出层,四个并行的分支结构主要用于提取多尺度上下文信息、计算对比特征和学习预测权重图,对于步骤S21中前端网络输出的2D特征图,四个并行的分支结构先是执行空间金字塔池化操作来提取多尺度上下文信息,以解决前端网络在整个人群图像上编码相同感受野的局限性,再通过计算对比特征和学习预测权重图的方式来更好地解释人群图像中潜在的尺度变化,生成的这些权重图在每个空间位置上设置了每个尺度感知特征的相对影响,最后利用这些带有权重的权重图通过和前端网络输出的2D特征图进行通道级连接操作得到最终包含上下文特征的特征图
Figure BDA0004061354220000101
其中,四个并行的分支结构均包含一个平均池化层、两个核大小为1×1的卷积层、一个上采样层、一个元素差运算、一个Sigmoid激活函数和一个元素乘积运算,用于提取多尺度上下文信息的空间金字塔池化操作由四个并行的分支结构的平均池化层、第一个核大小为1×1的卷积层和上采样层共同执行,元素差运算用于计算多尺度上下文信息和前端网络输出的2D特征图之间的对比特征,这些对比特征为空间上下文学习网络提供了了解每个图像区域的局部尺度的重要信息,第二个核大小为1×1的卷积层、Sigmoid激活函数和元素乘积运算用于学习预测权重图,这里权重图包含的权重指的是通过对比特征学习的多尺度上下文信息的权重;
S23:设计空间通道注意力模块,对于步骤S22最后输出的具有上下文特征的特征图
Figure BDA0004061354220000102
再采用由空间注意力机制、全局平均池化GAP和权重共享的1D卷积组成的空间通道注意力模块SCAM进行全局编码,以获得更加广泛的上下文信息,并从通道中提取最具区分性的特征,使网络模型对噪声背景具有更强的鲁棒性,从而有效地减少密度场景下的估计误差;
其中,空间注意力机制用于学习空间维度上特征信息的相关性,使模型对背景噪声具有更强的鲁棒性,空间注意力机制包括三个分支,通过三个分支对步骤S22最后输出的包含上下文特征的特征图
Figure BDA0004061354220000103
进行处理,分别获得第一特征图B1、第二特征图B2和第三特征图B3,依据第一特征图B1和第二特征图B2获得空间注意图Bs,再根据包含多尺度上下文特征的特征图、第三特征图B3和空间注意图Bs获得空间注意力机制输出的特征图Bf
全局平均池化GAP和权重共享的1D卷积的使用旨在从空间注意力机制输出的特征图Bf中捕获重要通道,抑制不必要通道中的信息;对于特征图Bf,先是通过全局平均池化GAP空间特征压缩,随后通过可权重共享的1D卷积进行学习,得到通道的权重,之后将通道权重与特征图Bf进行通道级乘法运算,从而将权重值加权到每个对应通道的特征上,最后输出特征图Bout
S24:将步骤S23最后输出的特征图Bout送入由6层空洞率为2的空洞卷积层和1层卷积核大小为1×1的普通卷积层构成的后端网络,用于空间上下文学习网络最终的人群密度估计。
步骤S24中构建的后端网络采用了6层空洞率为2的空洞卷积层,空洞卷积的定义为:
Figure BDA0004061354220000111
其中,M表示空洞卷积层的宽度,f的范围为1~M,代表第f列,L表示空洞卷积层的长度,e的范围为1~L,代表第e行,D(l,m)为滤波器τ(e,f)和二维输入u(l+μ×e,m+μ×f)进行二维空洞卷积后的二维输出,l表示二维特征图的横坐标,m表示二维特征图的纵坐标,μ是空洞率,本发明设置μ为2。
步骤S3生成与输入人群图像对应的预测密度图的具体方法为:
S31:将步骤S13中划分的训练集所包含的含不同密度且具有不同分辨率的人群图像送入空间上下文学习网络的前端网络,提取2D特征图,具体公式为:
Hr=F16(Ir)
其中,Ir表示输入的第r张训练集中的人群图像,F16表示不包括全连接层的VGG-16网络的前10个卷积层,Hr为提取的第r张输入人群图像的2D特征图;
S32:将步骤S31得到的2D特征图输入到空间上下文学习网络的空间金字塔密度感知模块SPDAM中,先是通过结合使用多种感受野大小来捕获丰富的上下文信息和尺度多样性,具体公式为:
Figure BDA0004061354220000112
其中,Ap(Hr,j)表示尺度为j的自适应平均池化块,βj是尺度为j的卷积核的参数,
Figure BDA0004061354220000113
为卷积核大小为1×1的卷积网络,Ubi表示用于上采样操作的双线性插值,/>
Figure BDA0004061354220000114
是通过执行空间金字塔池化操作提取的多尺度上下文信息,本发明设置了U=4种不同尺度的自适应平均池化块,用于获取不同深度的特征信息,对应的块大小为K(j)∈{1,2,3,6},与其他块大小的设置相比,K(j)∈{1,2,3,6}显示了更好的性能;
然后,用学习预测权重图的方式来处理
Figure BDA0004061354220000121
通过将对比特征中每个人群图像区域的局部尺度的重要信息作为初始化参数为/>
Figure BDA0004061354220000122
的卷积网络/>
Figure BDA0004061354220000123
的输入来计算多尺度上下文信息/>
Figure BDA0004061354220000124
的权重,具体公式为:
Figure BDA0004061354220000125
其中,
Figure BDA00040613542200001216
表示对比特征,它可以捕捉到特定空间位置和邻域特征之间的不同,/>
Figure BDA0004061354220000126
是一个卷积核大小为1×1的卷积网络,/>
Figure BDA0004061354220000127
表示尺度为j的卷积核/>
Figure BDA0004061354220000128
的参数,后面跟一个Sigmoid激活函数,用于避免被零除,/>
Figure BDA0004061354220000129
表示多尺度上下文信息/>
Figure BDA00040613542200001210
的权重;
最后,使用这些权重计算最终的上下文特征,以获取最终包含上下文特征的特征图
Figure BDA00040613542200001211
具体公式为:
Figure BDA00040613542200001212
其中,
Figure BDA00040613542200001213
为元素乘积,j表示尺度,U=4表示4种不同的尺度,[·|·]表示通道连接操作,/>
Figure BDA00040613542200001214
表示空间金字塔密度感知模块SPDAM最后输出的最终包含上下文特征的特征图;
S33:对于SPDAM输出的最终包含上下文特征的特征图
Figure BDA00040613542200001215
再采用组成空间通道注意力模SCAM的空间注意力机制对整个特征图中的空间相关性进行编码,以便在像素级别上更准确地预测人群密度图,并利用全局平均池化GAP和权重共享的1D卷积处理通道映射之间的关系,显著提高特征图的聚焦能力,生成特征图Bout
其中,空间注意力机制先是将步骤S22输出的大小为C×H×W的特征图送入3个不同的1×1卷积层,然后对提取的特征图执行reshape或transpose操作得到三个特征图B1,B2和B3,为了获得空间注意力图,再对大小分别为HW×C和C×HW的S1和B2进行矩阵相乘和Softmax操作,从而获得大小为HW×HW的空间注意力图Bs,之后,为了得到包含全局上下文特征和空间注意力信息的特征图,将大小分别为C×HW和HW×HW的B3和Bs应用矩阵乘法,做reshape输出大小为C×H×W的特征图,最后与步骤S22输出的大小为C×H×W的特征图求和输出最终的特征图,空间注意力机制处理特征图的具体公式为:
Figure BDA0004061354220000131
Figure BDA0004061354220000132
式中,
Figure BDA0004061354220000133
表示空间注意力特征图Bs中第h个位置对第d个位置的影响,两个位置的特征图越相似,表明它们之间的相关性越强,d为特征图中第d个输出位置,h为特征图中第h个输出位置,/>
Figure BDA0004061354220000134
为第一特征图B1中第d个位置的表示,/>
Figure BDA0004061354220000135
为第二特征图B2中第h个位置的表示,/>
Figure BDA0004061354220000136
为第三特征图B3中第h个位置的表示,HW表示合并特征图的高度H和宽度W两个维度,得到大小为HW的维度,/>
Figure BDA0004061354220000137
表示空间注意力机制最终输出的特征图Bf中第d个位置的表示,exp(θ)表示的是e的θ次方,η表示可学习因子,用来缩放输出,空间注意机制利用核大小为1×1的卷积层来学习η。
全局平均池化GAP和权重共享的1D卷积能够从通道中提取最具区分性的特征,以过滤出一些背景细节,从而有效地减少密度场景下的估计误差,具体公式为:
Figure BDA0004061354220000138
式中,g(X)为全局平均池化,Xab表示输入特征图Bf中第a行和第b列位置处的数据,a的取值是1~W,表示第a行,b的取值是1~H,表示第b列;
随后通过可权重共享的1D卷积进行学习,得到通道的权重,其中1D卷积的内核大小为γ,即1D卷积涉及的参数量,具体公式为:
Wc=σs(CIDγ(g(X)))
Figure BDA0004061354220000139
式中,σs表示Sigmoid激活函数,内核大小γ与通道维度C之间为非线性映射表示为γ=ψ(C),|α|odd表示最接近α的奇数,Wc为通道的权重,CIDγ表示一维卷积,μ和b为常数,在本发明实施例中,μ=2,b=1;
S34:将SCAM生成的特征图Bout送入到空间上下文学习网络的后端网络,通过后端网络的空洞卷积层和卷积核大小为1×1的卷积产生最终与输入人群图像对应的预测密度图。
步骤S3结合预测密度图与真实密度图构建损失函数模型训练网络,损失函数的表达式为:
Figure BDA0004061354220000141
其中,Ir表示输入空间上下文学习网络的第r张训练集中的人群图像,
Figure BDA0004061354220000142
表示输入空间上下文学习网络的第r张人群图像输出的预测密度图,/>
Figure BDA0004061354220000143
表示输入空间上下文学习网络的第r张人群图像对应的真实密度图,Nt表示训练集中人群图像的总数,/>
Figure BDA0004061354220000144
为/>
Figure BDA0004061354220000145
和/>
Figure BDA0004061354220000146
之间的误差的平方。
步骤S3训练网络时,选取Adam算法作为空间上下文学习网络的优化器,对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集,学习速率固定为1e-4,对于ShanghaiTech数据集的Part A部分,学习速率初始化为1e-5,并且每个Epoch减少到0.995,每个图形处理器上的批处理大小设置为8,迭代的最大次数设置为800次,当网络训练迭代到设定的最大次数后,保存优化后的空间上下文学习网络的权重,从而得到优化后的空间上下文学习网络。
步骤S4评价网络预测效果,是通过计算测试集中人群图像的预测密度图和真实密度图之间的均方误差MSE和平均绝对误差MAE来实现,具体公式为:
Figure BDA0004061354220000147
/>
Figure BDA0004061354220000148
其中,Rt表示测试集中人群图像的数量,κ表示测试集中第κ张人群图像,
Figure BDA0004061354220000149
表示输入空间上下文学习网络的第κ张人群图像输出的预测密度图,/>
Figure BDA00040613542200001410
表示输入空间上下文学习网络的第κ张人群图像对应的真实密度图。
本发明实施例进行实验的数据集、评价指标和实验细节如下:
(1)数据集
本发明实施例选用的是3个公开的且具有挑战性的人群计数数据集ShanghaiTech、UCF_CC_50和WorldExpo’10数据集。
ShanghaiTech数据集有1,198幅带注释的人群图像,有330,165个头部被注释,分为A部分482张,其中,训练集有300张图像,测试集有182张图像;B部分716张,其中训练集和测试集分别包括400张和316张图像。A部分数据集是来自互联网的密集人群图像,每张图像的人数从33到3,139不等;B部分数据集是拍摄于上海繁华街道的稀疏人群图像,每张图像的人数从9到578不等。
UCF_CC_50是一个极度拥挤的人群计数数据集。它由50幅不同分辨率的图像组成,每个图像中的人头数量在94到4543之间,有些图像包含非常密集的人群。该数据集还包含更多样的场景,例如音乐厅、抗议集会和体育馆。考虑到该数据集对于大容量模型来说相对较小,本发明实施例利用了5折交叉验证协议训练和验证模型。
WorldExpo’10由3,980个视频帧组成,其中,训练集包括3380帧图像,测试集有600帧图像。它的训练集来自103个场景中的1127个一分钟的视频序列,测试集是来自5个不同场景中的5个1小时视频序列,每个测试场景包含120帧图像,每帧图像中个体的数量在1到253之间。
(2)评价指标
本发明实施例是通过计算平均绝对误差MAE和均方误差MSE,对网络的预测效果进行评价,具体公式为:
Figure BDA0004061354220000151
Figure BDA0004061354220000152
其中,Rt表示测试集中人群图像的数量,κ表示测试集中第κ张人群图像,
Figure BDA0004061354220000153
表示输入空间上下文学习网络的第κ张人群图像输出的预测密度图,/>
Figure BDA0004061354220000154
表示输入空间上下文学习网络的第κ张人群图像对应的真实密度图。
(3)实验细节
本发明实施例所述的一种基于空间上下文学习网络的人群密度估计方法的前端网络选取的是VGG-16的前10个卷积层,通过导入预先训练好的模型参数以提高训练速度。本发明实施例选取Adam算法作为空间上下文学习网络的优化器,对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集,学习速率固定为1e-4,对于ShanghaiTech数据集的PartA部分,学习速率初始化为1e-5,并且每个Epoch减少到0.995,每个图形处理器上的批处理大小设置为8,迭代的最大次数设置为800次。此外,在训练过程中,本发明实施例在不同的位置随机裁剪大小为原人群图像1/4的图像块,这些补丁被进一步镜像以使训练集加倍。
与现有技术方法比较,本发明提出了基于空间上下文学习网络的人群密度估计方法,网络通过SPDAM能够自适应编码多尺度上下文,为了避免对背景区域的错误估计,网络又利用SCAM对特征图进行校准和再融合,并在不同通道之间提取更具区分性的特征。本申请提出的方法在计数精度和密度图质量方面相比现有技术取得了更优的结果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于空间上下文学习网络的人群密度估计方法,其特征在于,包括以下步骤:
S1:从公共场所的监控视频中截取大量含不同密度且具有不同分辨率的人群图像构建数据集,针对人群图像数据的特点,采用基于高斯核卷积的方法对人群图像进行预处理,得到与人群图像对应的真实密度图;
S2:结合空间金字塔密度感知模块和空间通道注意力模块,构建空间上下文学习网络;
S3:将步骤S1获取的含不同密度且具有不同分辨率的人群图像输入到空间上下文学习网络,生成与输入人群图像对应的预测密度图,结合预测密度图与真实密度图构建损失函数模型训练网络,生成优化后的空间上下文学习网络;
S4:对空间上下文学习网络最后生成的预测密度图逐像素积分求和,实现输入人群图像中行人数量的估计,评价网络预测效果。
2.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法,其特征在于,所述步骤S1中得到与人群图像对应的真实密度图的具体方法包括:
S11:标注人群图像数据集,若人群图像的某个像素点处有一个人头,则将其标记为xi,xi就表示人群图像中第i个被标记人头的位置,那么一张带有N个人头标注点的人群图像表示为函数式:
Figure FDA0004061354210000011
其中,N是人群图像中被标记的人头的总数,x是人群图像中像素的位置,δ(x-xi)为增量函数,Y(x)表示带有N个人头标注点的人群图像;
S12:采用高斯核卷积的方法模糊处理人群图像中的每一个被标记的人头,生成与人群图像对应的真实密度图,具体公式为:
Figure FDA0004061354210000012
Figure FDA0004061354210000013
其中,
Figure FDA0004061354210000014
为标准偏差为σi的高斯核卷积函数,/>
Figure FDA0004061354210000016
为人群图像中第i个被标记的人头距离其/>
Figure FDA0004061354210000015
个近邻人头标注点的平均欧式距离,ω表示常数;
S13:将步骤S11中获取的带有人头标注的人群图像数据集划分为训练集和测试集,步骤S12中生成的与人群图像对应的真实密度图也同样划分为训练集和测试集。
3.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法,其特征在于,所述步骤S2构建空间上下文学习网络的具体方法为:
S21:选取不包括全连接层的VGG-16的前10个卷积层作为空间上下文学习网络的前端网络,用于提取人群图像的2D特征图;
S22:构建空间金字塔密度感知模块,该模块包含一个输入层、四个并行的分支结构和一个输出层,四个并行的分支结构主要用于提取多尺度上下文信息、计算对比特征和学习预测权重图,对于步骤S21中前端网络输出的2D特征图,四个并行的分支结构先是执行空间金字塔池化操作来提取多尺度上下文信息,以解决前端网络在整个人群图像上编码相同感受野的局限性,再通过计算对比特征和学习预测权重图的方式来更好地解释人群图像中潜在的尺度变化,生成的这些权重图在每个空间位置上设置了每个尺度感知特征的相对影响,最后利用这些带有权重的权重图通过和前端网络输出的2D特征图进行通道级连接操作得到最终包含上下文特征的特征图
Figure FDA0004061354210000021
其中,四个并行的分支结构均包含一个平均池化层、两个核大小为1×1的卷积层、一个上采样层、一个元素差运算、一个Sigmoid激活函数和一个元素乘积运算,用于提取多尺度上下文信息的空间金字塔池化操作由四个并行的分支结构的平均池化层、第一个核大小为1×1的卷积层和上采样层执行,元素差运算用于计算多尺度上下文信息和前端网络输出的2D特征图之间的对比特征,这些对比特征为空间上下文学习网络提供了了解每个图像区域的局部尺度的重要信息,第二个核大小为1×1的卷积层、Sigmoid激活函数和元素乘积运算用于学习预测权重图,这里权重图包含的权重指的是通过对比特征学习的多尺度上下文信息的权重;
S23:设计空间通道注意力模块,对于步骤S22最后输出的包含上下文特征的特征图
Figure FDA0004061354210000022
再采用由空间注意力机制、全局平均池化GAP和权重共享的1D卷积组成的空间通道注意力模块SCAM进行全局编码,以获得更加广泛的上下文信息,并从通道中提取最具区分性的特征,使网络模型对噪声背景具有更强的鲁棒性,从而有效地减少密度场景下的估计误差;
其中,空间注意力机制用于学习空间维度上特征信息的相关性,使模型对背景噪声具有更强的鲁棒性,空间注意力机制包括三个分支,通过三个分支对步骤S22最后输出的包含上下文特征的特征图
Figure FDA0004061354210000023
进行处理,分别获得第一特征图B1、第二特征图B2和第三特征图B3,依据第一特征图B1和第二特征图B2获得空间注意图Bs,再根据包含多尺度上下文特征的特征图、第三特征图B3和空间注意图Bs获得空间注意力机制输出的特征图Bf
全局平均池化GAP和权重共享的1D卷积的使用旨在从空间注意力机制输出的特征图Bf中捕获重要通道,抑制不必要通道中的信息;对于特征图Bf,先是通过全局平均池化GAP空间特征压缩,随后通过可权重共享的1D卷积进行学习,得到通道的权重,之后将通道权重与特征图Bf进行通道级乘法运算,从而将权重值加权到每个对应通道的特征上,最后输出特征图Bout
S24:将步骤S23最后输出的特征图Bout送入由6层空洞率为2的空洞卷积层和1层卷积核大小为1×1的普通卷积层构成的后端网络,用于空间上下文学习网络最终的人群密度估计,以获取预测密度图。
4.根据权利要求3所述的一种基于空间上下文学习网络的人群密度估计方法,其特征在于,所述步骤S24中构建的后端网络采用了6层空洞率为2的空洞卷积层,空洞卷积的定义为:
Figure FDA0004061354210000031
其中,M表示空洞卷积层的宽度,f的范围为1~M,代表第f列,L表示空洞卷积层的长度,e的范围为1~L,代表第e行,D(l,m)为滤波器τ(e,f)和二维输入v(l+μ×e,m+μ×f)进行二维空洞卷积后的二维输出,l表示二维特征图的横坐标,m表示二维特征图的纵坐标,μ是空洞率。
5.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法,其特征在于,所述步骤S3生成与输入人群图像对应的预测密度图的具体方法为:
S31:将步骤S13中划分的训练集所包含的含不同密度且具有不同分辨率的人群图像送入空间上下文学习网络的前端网络,提取2D特征图,具体公式为:
Hr=F16(Ir)
其中,Ir表示输入的第r张训练集中的人群图像,F16表示不包括全连接层的VGG-16网络的前10个卷积层,Hr为提取的第r张输入人群图像的2D特征图;
S32:将步骤S31得到的2D特征图输入到空间上下文学习网络的空间金字塔密度感知模块SPDAM中,先是通过结合使用多种感受野大小来捕获丰富的上下文信息和尺度多样性,具体公式为:
Figure FDA0004061354210000032
其中,Ap(Hr,j)表示尺度为j的自适应平均池化块,βj是尺度为j的卷积核的参数,
Figure FDA0004061354210000034
为卷积核大小为1×1的卷积网络,Ubi表示用于上采样操作的双线性插值,/>
Figure FDA0004061354210000033
是通过执行空间金字塔池化操作提取的多尺度上下文信息,本发明设置了U种不同尺度的自适应平均池化块,用于获取不同深度的特征信息,对应的块大小为K(j)∈{1,2,3,6},与其他块大小的设置相比,K(j)∈{1,2,3,6}显示了更好的性能;
然后,用学习预测权重图的方式来处理
Figure FDA0004061354210000041
通过将对比特征中每个人群图像区域的局部尺度的重要信息作为初始化参数为/>
Figure FDA0004061354210000042
的卷积网络/>
Figure FDA0004061354210000043
的输入来计算多尺度上下文信息
Figure FDA0004061354210000044
的权重,具体公式为:
Figure FDA0004061354210000045
其中,
Figure FDA0004061354210000046
表示对比特征,它可以捕捉到特定空间位置和邻域特征之间的不同,/>
Figure FDA0004061354210000047
是一个卷积核大小为1×1的卷积网络,/>
Figure FDA0004061354210000048
表示尺度为j的卷积核/>
Figure FDA0004061354210000049
的参数,后面跟一个Sigmoid激活函数,用于避免被零除,/>
Figure FDA00040613542100000410
表示多尺度上下文信息/>
Figure FDA00040613542100000411
的权重;
最后,使用这些权重计算最终的上下文特征,具体公式为:
Figure FDA00040613542100000412
其中,
Figure FDA00040613542100000413
为元素乘积,j表示尺度,U=4表示4种不同的尺度,[·|·]表示通道连接操作,/>
Figure FDA00040613542100000414
表示空间金字塔密度感知模块SPDAM最后输出的包含上下文特征的特征图;
S33:对于步骤S32中空间金字塔密度感知模块SPDAM输出的最终包含上下文特征的特征图
Figure FDA00040613542100000415
再采用组成空间通道注意力模块SCAM的空间注意力机制对整个特征图中的空间相关性进行编码,以便在像素级别上更准确地预测人群密度图,并利用全局平均池化GAP和权重共享的1D卷积处理通道映射之间的关系,显著提高特征图的聚焦能力,生成特征图Bout,其中,空间注意力机制处理特征图的具体公式为:
Figure FDA00040613542100000416
Figure FDA00040613542100000417
式中,
Figure FDA00040613542100000418
表示空间注意力特征图Bs中第h个位置对第d个位置的影响,两个位置的特征图越相似,表明它们之间的相关性越强,d为特征图中第d个输出位置,h为特征图中第h个输出位置,/>
Figure FDA00040613542100000419
为第一特征图B1中第d个位置的表示,/>
Figure FDA00040613542100000420
为第二特征图B2中第h个位置的表示,
Figure FDA0004061354210000051
为第三特征图B3中第h个位置的表示,HW表示合并特征图的高度H和宽度W两个维度,得到大小为HW的维度,/>
Figure FDA0004061354210000052
表示空间注意力机制最终输出的特征图Bf中第d个位置的表示,exp(θ)表示的是e的θ次方,η表示可学习因子,用来缩放输出,空间注意机制利用核大小为1×1的卷积层来学习η;
全局平均池化GAP和权重共享的1D卷积能够从通道中提取最具区分性的特征,以过滤出一些背景细节,从而有效地减少密度场景下的估计误差,具体公式为:
Figure FDA0004061354210000053
式中,g(X)为全局平均池化,Xab表示输入特征图Bf中第a行和第b列位置处的数据,a的取值是1~W,表示第a行,b的取值是1~H,表示第b列;
随后通过可权重共享的1D卷积进行学习,得到通道的权重,其中1D卷积的内核大小为γ,即1D卷积涉及的参数量,具体公式为:
Wc=σs(CIDγ(g(X)))
Figure FDA0004061354210000054
式中,σs表示Sigmoid激活函数,内核大小γ与通道维度C之间为非线性映射表示为γ=ψ(C),|α|odd表示最接近α的奇数,Wc为通道的权重,CIDγ表示一维卷积,μ和b为常数;
S34:将步骤S33中空间通道注意力模块SCAM生成的特征图Bout送入到空间上下文学习网络的后端网络,通过后端网络的空洞卷积层和卷积核大小为1×1的卷积产生最终与输入人群图像对应的预测密度图。
6.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法,其特征在于,所述步骤S3结合预测密度图与真实密度图构建损失函数模型训练网络,损失函数的表达式为:
Figure FDA0004061354210000055
其中,Ir表示输入空间上下文学习网络的第r张训练集中的人群图像,
Figure FDA0004061354210000056
表示输入空间上下文学习网络的第r张人群图像输出的预测密度图,/>
Figure FDA0004061354210000057
表示输入空间上下文学习网络的第r张人群图像对应的真实密度图,Nt表示训练集中人群图像的总数,/>
Figure FDA0004061354210000061
为/>
Figure FDA0004061354210000062
和/>
Figure FDA0004061354210000063
之间的误差的平方。
7.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法,其特征在于,所述步骤S3训练网络时,选取Adam算法作为空间上下文学习网络的优化器,对于ShanghaiTech数据集的Part B部分、UCF_CC_50和WorldExpo’10数据集,学习速率固定为1e-4,对于ShanghaiTech数据集的Part A部分,学习速率初始化为1e-5,并且每个Epoch减少到0.995,每个图形处理器上的批处理大小设置为8,迭代的最大次数设置为800次,当网络训练迭代到设定的最大次数后,保存优化后的空间上下文学习网络的权重,从而得到优化后的空间上下文学习网络。
8.根据权利要求1所述的一种基于空间上下文学习网络的人群密度估计方法,其特征在于,所述步骤S4评价网络预测效果,是通过计算测试集中人群图像的预测密度图和真实密度图之间的均方误差MSE和平均绝对误差MAE来实现,具体公式为:
Figure FDA0004061354210000064
Figure FDA0004061354210000065
其中,Rt表示测试集中人群图像的数量,κ表示测试集中第κ张人群图像,
Figure FDA0004061354210000066
表示输入空间上下文学习网络的第κ张人群图像输出的预测密度图,/>
Figure FDA0004061354210000067
表示输入空间上下文学习网络的第κ张人群图像对应的真实密度图。
CN202310061969.9A 2023-01-19 2023-01-19 一种基于空间上下文学习网络的人群密度估计方法 Pending CN116403152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310061969.9A CN116403152A (zh) 2023-01-19 2023-01-19 一种基于空间上下文学习网络的人群密度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310061969.9A CN116403152A (zh) 2023-01-19 2023-01-19 一种基于空间上下文学习网络的人群密度估计方法

Publications (1)

Publication Number Publication Date
CN116403152A true CN116403152A (zh) 2023-07-07

Family

ID=87006383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310061969.9A Pending CN116403152A (zh) 2023-01-19 2023-01-19 一种基于空间上下文学习网络的人群密度估计方法

Country Status (1)

Country Link
CN (1) CN116403152A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862252A (zh) * 2023-06-13 2023-10-10 河海大学 一种基于复合卷积算子的城市建筑物损失应急评估方法
CN117456449A (zh) * 2023-10-13 2024-01-26 南通大学 一种基于特定信息的高效跨模态人群计数方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862252A (zh) * 2023-06-13 2023-10-10 河海大学 一种基于复合卷积算子的城市建筑物损失应急评估方法
CN116862252B (zh) * 2023-06-13 2024-04-26 河海大学 一种基于复合卷积算子的城市建筑物损失应急评估方法
CN117456449A (zh) * 2023-10-13 2024-01-26 南通大学 一种基于特定信息的高效跨模态人群计数方法

Similar Documents

Publication Publication Date Title
CN112132023B (zh) 基于多尺度上下文增强网络的人群计数方法
CN110020606B (zh) 一种基于多尺度卷积神经网络的人群密度估计方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN110852267B (zh) 基于光流融合型深度神经网络的人群密度估计方法及装置
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN113011329B (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113642634A (zh) 一种基于混合注意力的阴影检测方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN111582483A (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN112288776B (zh) 一种基于多时间步金字塔编解码器的目标跟踪方法
CN111666852A (zh) 一种基于卷积神经网络的微表情双流网络识别方法
CN115424209A (zh) 一种基于空间金字塔注意力网络的人群计数方法
CN113239904A (zh) 基于卷积神经网络的高分辨率密集目标计数方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
CN117542045B (zh) 一种基于空间引导自注意力的食品识别方法及系统
CN114155278A (zh) 目标跟踪及相关模型的训练方法和相关装置、设备、介质
CN114202787A (zh) 一种基于深度学习和二维注意力机制的多帧微表情情感识别方法
CN115953736A (zh) 一种基于视频监控与深度神经网络的人群密度估计方法
CN112446245A (zh) 一种基于运动边界小位移的高效运动表征方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination