CN115424209A - 一种基于空间金字塔注意力网络的人群计数方法 - Google Patents

一种基于空间金字塔注意力网络的人群计数方法 Download PDF

Info

Publication number
CN115424209A
CN115424209A CN202211124676.2A CN202211124676A CN115424209A CN 115424209 A CN115424209 A CN 115424209A CN 202211124676 A CN202211124676 A CN 202211124676A CN 115424209 A CN115424209 A CN 115424209A
Authority
CN
China
Prior art keywords
network
crowd
representing
convolution
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211124676.2A
Other languages
English (en)
Inventor
熊李艳
易虎
丁韦华
邓慧子
胡竹逸
张�雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202211124676.2A priority Critical patent/CN115424209A/zh
Publication of CN115424209A publication Critical patent/CN115424209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本申请涉及一种基于空间金字塔注意力网络的人群计数方法,它包括以下步骤:获取的人群图像数据集,使用高斯核对人群图像进行预处理,生成地面真实密度图;选取拥挤场景识别算法CSRNet为基础结构,构建空间金字塔注意力网络;将获取的人群计数数据集中不同分辨率的人群图像和对应的人群密度图输入到空间金字塔注意力网络进行训练验证,输出对应的估计密度图,并计算与输入网络的地面真实人群密度图之间的损失,得到优化后的空间金字塔注意力网络;将训练好的网络权重进行保存,并使用测试样本集进行测试,判断网络效果。本发明能够有效解决尺度剧烈变化和严重遮挡问题,并引入注意力信息,实现不同拥挤场景下准确的人群计数。

Description

一种基于空间金字塔注意力网络的人群计数方法
技术领域
本申请涉及机器视觉中图像识别技术领域,具体涉及一种基于空间金字塔注意力网络的人群计数方法。
背景技术
随着世界人口的增长和人类社会性活动的增加,大规模的人群聚集性现象经常发生,特别是在体育场、商场、学校、会议厅等公共场所,这给公共安全带来了巨大隐患。因此,快速、准确地计算出不同密集场景下的人群数量对于行人流量分析和人群密度估计,具有重要参考价值,可以为有关部门对群体性异常事件预防、公共场所安全示警等提供有力的数据支撑。
人群分析是图像和视频分析领域的一项热门任务。在人群分析领域,人群计数是一个必不可少的分支,它专注于预测人数或估计人群场景的密度图,具有广泛的应用,如公共安全管理、城市规划和视频监控。此外,它还是人群行为分析、人群聚集检测等高级行为分析算法的关键技术。然而,现实世界的各种情况,例如严重的遮挡、杂乱的背景,以及因拍摄角度不同造成人的大小和形状的剧烈变化,对人群计数的实际解决方案提出了巨大的挑战。目前人群计数的方法主要有三类,包括:基于目标检测的方法、基于特征回归的方法和基于密度估计的方法。
基于目标检测方法通常采用滑动窗口检测器检测行人或通过检测头部、肩膀等身体的部分结构来进行行人检测并统计人群数量。这些基于目标检测的方法在人群分布较为稀疏的场景中取得了不错的效果,但在密集人群和遮挡严重的复杂场景中检测的准确性会急剧下降。
基于特征回归的方法一般通过从前景分割出的人群中提取纹理、边缘等特征训练一个回归模型,从而建立特征到人数的映射关系,进而预测人群数量。这类基于特征回归的方法学习到的只是一些低级特征映射,在尺度剧烈变化和目标遮挡严重的场景下依然暴露出检测不准确的缺点。
基于密度估计的方法是将人群计数作为回归任务,学习图像内容和人群密度分布之间的映射。通过CNN强大的特征表示生成高质量的预测密度图,再对密度图逐像素积分得到最终的计数结果。这类方法不仅可以增强模型对人群尺度变化的适应性,提高计数精度,还能定性呈现出人群的空间分布特征,直观展示出拥挤人群的分布区域。
但实际测试中,由于相机视角的不同,加之图像中人群不均匀分布造成的尺度差异问题一直是人群计数任务面临的一项挑战。尽管现有的基于密度估计的方法采用尺度感知特征以提高网络对尺度变化的鲁棒性,但是这些方法大多采用多列卷积,结构冗余复杂,或是将提取的多尺度特征不加选择地融合在一起,忽略了尺度连续变化的事实。此外,这些方法没有考虑到注意力信息,导致模型无法保留更多有用的细节信息,降低了计数的准确性。
发明内容
本发明的目的在于,提供一种基于空间金字塔注意力网络的人群计数方法,能够有效解决尺度剧烈变化和严重遮挡问题,并引入注意力信息,实现不同拥挤场景下准确的人群计数。
本发明采取的技术方案是:一种基于空间金字塔注意力网络的人群计数方法,包括以下步骤:
S1:获取的人群图像数据集,将获取的人群图像数据集划分为训练集和测试集,并针对获取的人群图像数据集的特点,使用高斯核对人群图像进行预处理,生成地面真实密度图;
S2:选取拥挤场景识别算法CSRNet为基础结构,构建空间金字塔注意力网络;
S3:将S1获取的人群计数数据集的训练集中不同分辨率的人群图像和对应的人群密度图输入到空间金字塔注意力网络进行训练验证,输出训练样本集对应的估计密度图,再计算与输入网络的地面真实人群密度图之间的损失,更新网络参数,确定迭代次数,得到优化后的空间金字塔注意力网络;
S4:将S3训练好的网络权重进行保存,再对S1获取的人群计数数据集中对应的测试样本集进行测试,输出测试样本集对应的人群密度图和预测值,判断网络效果。
进一步地,所述步骤S1中获取的人群图像数据集中包括原始图片和标注文件,通过标注文件,使用高斯核对人群图像进行预处理,生成地面真实密度图;具体方法为:
S11:当有一个人头位置在像素点,则将该人头位置进行标注,并记为xi,标注有N个人的头部位置的图像J(x)可表示为函数式:
Figure BDA0003847991940000021
其中,δ(x-xi)表示增量函数,x表示图像中像素的位置,i表示第i个人头标注点,N表示图像中人头标注点的数量,xi表示第i个人头标注点的位置;
S12:通过高斯核模糊每个人头标注来生成对应的真实密度图Dgt,即将增量函数δ(x-xi)与标准偏差为σi的高斯核函数进行卷积计算,真实密度图Dgt的具体计算公式为:
Figure BDA0003847991940000031
Figure BDA0003847991940000032
其中,
Figure BDA0003847991940000033
表示高斯核函数,β表示常数,
Figure BDA0003847991940000034
表示图像中第i个人头标注点距离其k近邻人头标注点的欧式距离的平均值;
针对拥挤程度不同的人群图像数据集,采用标准偏差不同的高斯核函数进行卷积计算;对于稀疏场景的人群计数数据集,使用固定高斯核生成密度图,对于密集场景的人群计数数据集,使用几何自适应高斯核生成密度图。
进一步地,所述S12中几何自适应高斯核选定标准偏差的方式为:取β=0.3,k=3,计算标准偏差σi的值。
进一步地,所述步骤S2的具体方法如下:
S21:搭建拥挤场景识别算法CSRNet的结构,选取预先训练好的VGG-16的前10个卷积层,作为前端特征提取网络,采用空洞率为2的6层空洞卷积层为后端网络,最后采用一层卷积核大小为1×1的普通卷积层输出结果;
S22:构建空间金字塔网络来应对连续的尺度变化,并将空间金字塔网络添加到步骤S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络和后端网络之间;
S23:构建通道注意力网络来处理通道维度上特征信息的相互依赖关系,并将通道注意力网络添加到步骤S22构建的空间金字塔网络和步骤S21搭建的拥挤场景识别算法CSRNet的后端网络之间。
进一步地,所述步骤S21采用空洞率为2的6层空洞卷积层为后端网络,所述后端网络使用的二维空洞卷积定义为:
Figure BDA0003847991940000035
其中,y(l,m)表示来自输入τ(l,m)和滤波器ρ(e,f)的二维空洞卷积的输出,r表示空洞率,L为空洞的卷积层的长度,M为空洞的卷积层的宽度,e的取值为1~L,表示第e行,f的取值为1~M,表示第f列。
进一步地,所述步骤S3输出估计密度图的具体方法如下:
S31:将不同分辨率的人群图像输入到步骤S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络,提取输入的人群图像的浅层特征;
S32:将步骤S31提取的浅层特征输入到步骤S22构建的空间金字塔网络中,通过将步骤S31提取的浅层特征分组为大小分别为1、3、5、7的四个并行块,以提取不同尺度的上下文特征,并将提取的上下文特征再通过上采样恢复到与输入的浅层特征相同的维度,然后将四个分支提取的上下文特征融合在一起形成融合特征;同时,将融合特征与输入的浅层特征相结合,得到多尺度上下文特征Mj,具体公式为:
Mj=Up(Fj(Pa(Fvgg(I),j),θj))+Fvgg(I)
其中,Fvgg表示对输入图像I进行编码的VGG-16网络的前10层;Pa(Fvgg(I),j)表示平均池化,即输入的浅层特征Fvgg(I)被划分为大小分别为k(j)×k(j)的块,对应的块大小k(j)∈(1,3,5,7),Fj是一个核大小为1×1的卷积网络,用于在不改变通道维度的情况下跨通道融合上下文特征;Up表示双线性插值,用于将上下文特征数组上采样到与Fvgg(I)相同的大小;θj表示卷积核的参数,j为尺度;
S33:使用步骤S23构建的通道注意力网络对步骤S32获取具有多尺度上下文特征的特征图进行处理,以捕获该输入特征图中的重要通道,抑制不必要通道中的信息;对于输入特征图
Figure BDA0003847991940000041
其中
Figure BDA0003847991940000042
为X的大小,W、H和C分别表示输入特征图X的宽度、高度和通道维度,先将输入特征图X进行全局平均池化,具体公式为:
Figure BDA0003847991940000043
其中,g(X)为通道全局平局池化,Xab表示输入特征图X上坐标(a,b)处的值,a的取值是1~W,表示第a行,b的取值是1~H,表示第b列;
随后通过可权重共享的1D卷积进行学习,得到通道的权重,其中1D卷积的内核大小为γ,即1D卷积涉及的参数量,具体公式为:
Wc=σs(CIDγ(g(X)))
Figure BDA0003847991940000044
其中,σs表示Sigmoid函数;内核大小γ与通道维度C之间为非线性映射γ=ψ(C);|α|odd表示最接近α的奇数;Wc为通道的权重;CIDγ表示一维卷积;μ和b为常数;
经过1D卷积操作后得到的通道权重,再与输入特征图X相乘计算,从而将权重值加权到每个对应通道的特征上;
S34:将步骤S33输出的特征图输入到步骤S21搭建的拥挤场景识别算法CSRNet的后端网络,再通过一层卷积核大小为1×1的普通卷积层进行密度回归,生成最终的人群估计密度图。
进一步地,所述步骤S3中进行网络训练时,对于相同分辨率的人群图像数据集,Batch Size为8,学习率为1e-4,优化器为Adam,迭代次数为800;对于不同分辨率的人群图像数据集,Batch Size为1,初始学习率为1e-5,每个Epoch减少到0.995,优化器为SGD,动量为0.95,迭代次数为800。
进一步地,所述步骤S3中计算空间金字塔网络输出的估计密度图与对应的地面真实密度图之间的密度图损失函数L(θ)的具体公式为:
Figure BDA0003847991940000051
其中,
Figure BDA0003847991940000052
表示地面真实密度图,
Figure BDA0003847991940000053
表示网络输出的估计密度图,
Figure BDA0003847991940000054
表示
Figure BDA0003847991940000055
Figure BDA0003847991940000056
之间误差的平方,Nt为训练样本集中的图像数量,d表示第d张输入图像。
进一步地,所述步骤S4中对人群计数数据集的测试样本集进行测试时,通过计算平均绝对误差MAE和均方误差MSE,评价网络预测效果,具体计算公式为:
Figure BDA0003847991940000057
Figure BDA0003847991940000058
其中,
Figure BDA0003847991940000059
表示地面真实密度图,
Figure BDA00038479919400000510
表示网络输出的估计密度图,Et为测试样本集中图像的数量,d表示第d张输入图像。
本发明的有益效果在于:
(1)本发明能够适应不同分辨率人群图像的输入,可以输入单张人群图像进行训练,有效解决对图像进行处理采用批量化训练导致关键信息丢失的问题;
(2)本发明提出了一种新的空间金字塔网络(SPNET),将VGG-16的前10个卷积层提取的浅层特征分组为四个大小分别为1、3、5、7的并行块,以提取丰富的多尺度特征,并在不改变通道维度的情况下跨通道融合四个分支提取的上下文特征,有助于充分利用场景内每个位置的有效上下文,增强对人群尺度变化的鲁棒性,提高计数的准确性;同时本发明提出了一种新的通道注意力网络(CANET),通过快速的1D卷积产生通道注意力,其内核大小可以通过通道维度的非线性映射自适应确定,避免了降低通道维度对通道注意预测带来的副作用,仅涉及少量参数,同时带来了明显的性能提升,并将注意力集中在人群的头部位置上,产生高质量的密度图,直观显示出密集人群的空间分布情况
(3)本发明将拥挤场景识别算法CSRNet的前端特征提取网络和后端网络选为空间金字塔注意力网络的一部分,利用已有的网络结构构建模型,减少了网络训练的时间成本,也有利于增强模型的鲁棒性;并利用构建的空间金字塔注意力网络对人群计数数据集的训练样本集进行训练,更新网络的权重参数并保存,再对测试样本集进行测试;通过结合多尺度上下文特征和通道注意力特征,来提高模型对连续的尺度变化的鲁棒性和处理通道维度上特征信息的相互依赖关系,进一步提高模型的计数精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的网络架构图;
图3为本发明实施例通道注意力网络的结构图;
图4为实验中采用的人群计数数据集的部分图像样本;
图5为实验中在ShanghaiTech Part B数据集上部分测试样本的预测值与真实值之间的误差结果示意图;
图6为实验中采用空间金字塔注意力网络在ShanghaiTech Part A数据集上生成的部分样本的密度图与地面真实密度图的对比结果示意图;
图7为实验中采用空间金字塔注意力网络在ShanghaiTech Part B数据集上生成的部分样本的密度图与地面真实密度图的对比结果示意图;
图8为实验中采用空间金字塔注意力网络在UCF_CC_50数据集上生成的部分样本的密度图与地面真实密度图的对比结果示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
除非另作定义,此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
如图1~图8所示,本发明实施例采用了一种基于空间金字塔注意力网络的人群计数方法,首先对获取的人群图像数据集进行分析,在对人群图像数据集的预处理阶段,获取地面真实密度图。在获取人群图像数据集时选取公开的人群计数数据集可以大大减少数据采集的成本,降低劳动强度,且公开的人群计数数据集具有一定挑战性,有利于增强模型性能。本发明实施例选取的是公开的大规模人群计数数据集ShanghaiTech和UCF_CC_50数据集。随后构建空间金字塔注意力网络,并将拥挤场景识别算法CSRNet的前端网络和后端空洞卷积网络选为空间金字塔注意力网络一部分,利用已有的网络结构构建模型,减少网络训练的时间成本,也有利于增强模型的鲁棒性。最后,利用构建的空间金字塔注意力网络对人群计数数据集的训练样本集进行训练,更新网络的权重参数并保存,再对测试样本集进行测试;通过结合多尺度上下文特征和通道注意力特征,来提高模型对连续的尺度变化的鲁棒性和处理通道维度上特征信息的相互依赖关系,进一步提高模型的计数精度。本发明实施例所述的基于空间金字塔注意力网络的人群计数方法的具体步骤如下:
S1:获取的人群图像数据集,将获取的人群图像数据集划分为训练集和测试集,并针对获取的人群图像数据集的特点,使用高斯核对人群图像进行预处理,生成地面真实密度图。
步骤S1中获取的人群图像数据集中包括原始图片和标注文件,通过标注文件,使用高斯核对人群图像进行预处理,生成地面真实密度图;具体方法为:
S11:当有一个人头位置在像素点,则将该人头位置进行标注,并记为xi,标注有N个人的头部位置的图像J(x)可表示为函数式:
Figure BDA0003847991940000081
其中,δ(x-xi)表示增量函数,x表示图像中像素的位置,i表示第i个人头标注点,N表示图像中人头标注点的数量,xi表示第i个人头标注点的位置。
S12:通过高斯核模糊每个人头标注来生成对应的真实密度图Dgt,即将增量函数δ(x-xi)与标准偏差为σi的高斯核函数进行卷积计算,真实密度图Dgt的具体计算公式为:
Figure BDA0003847991940000085
Figure BDA0003847991940000082
其中,
Figure BDA0003847991940000086
表示高斯核函数,β表示常数,
Figure BDA0003847991940000083
表示图像中第i个人头标注点距离其k近邻人头标注点的欧式距离的平均值,这样就能够更好地表示人头大小的特征信息。
针对拥挤程度不同的人群图像数据集,采用标准偏差不同的高斯核函数进行卷积计算;对于行人全部清晰可见,可以从背景中分割出来的稀疏人群计数数据集,使用固定高斯核生成密度图,例如ShanghaiTech Part B数据集,取σi=15。对于行人部分可见,难以从背景中全部分割出来的密集人群计数数据集,使用几何自适应高斯核生成密度图,例如ShanghaiTech Part A数据集和UCF_CC_50数据集,取β=0.3,k=3,计算标准偏差σi的值。
S2:选取拥挤场景识别算法CSRNet为基础结构,构建空间金字塔注意力网络。
步骤S2的具体方法如下:
S21:搭建拥挤场景识别算法CSRNet的结构,选取预先训练好的VGG-16的前10个卷积层,作为前端特征提取网络,采用空洞率为2的6层空洞卷积层为后端网络,最后采用一层卷积核大小为1×1的普通卷积层输出结果。
所述后端网络使用的二维空洞卷积定义为:
Figure BDA0003847991940000084
其中,y(l,m)表示来自输入τ(l,m)和滤波器ρ(e,f)的二维空洞卷积的输出,r表示空洞率,L为空洞的卷积层的长度,M为空洞的卷积层的宽度,e的取值为1~L,表示第e行,f的取值为1~M,表示第f列。
S22:构建空间金字塔网络来应对连续的尺度变化,并将空间金字塔网络添加到步骤S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络和后端网络之间。
S23:构建通道注意力网络来处理通道维度上特征信息的相互依赖关系,并将通道注意力网络添加到步骤S22构建的空间金字塔网络和步骤S21搭建的拥挤场景识别算法CSRNet的后端网络之间。
S3:将S1获取的人群计数数据集的训练集中不同分辨率的人群图像和对应的人群密度图输入到空间金字塔注意力网络进行训练验证,输出训练样本集对应的估计密度图,再计算与输入网络的地面真实人群密度图之间的损失,更新网络参数,确定迭代次数,得到优化后的空间金字塔注意力网络。
步骤S3输出估计密度图的具体方法如下:
S31:将不同分辨率的人群图像输入到步骤S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络,提取输入的人群图像的浅层特征。
S32:将步骤S31提取的浅层特征输入到步骤S22构建的空间金字塔网络中,通过将步骤S31提取的浅层特征分组为大小分别为1、3、5、7的四个并行块,以提取不同尺度的上下文特征,并将提取的上下文特征再通过上采样恢复到与输入的浅层特征相同的维度,然后将四个分支提取的上下文特征融合在一起形成融合特征;同时,将融合特征与输入的浅层特征相结合,得到多尺度上下文特征Mj,具体公式为:
Mj=Up(Fj(Pa(Fvgg(I),j),θj))+Fvgg(I)
其中,Fvgg表示对输入图像I进行编码的VGG-16网络的前10层;Pa(Fvgg(I),j)表示平均池化,即输入的浅层特征Fvgg(I)被划分为大小分别为k(j)×k(j)的块,对应的块大小k(j)∈(1,3,5,7),Fj是一个核大小为1×1的卷积网络,用于在不改变通道维度的情况下跨通道融合上下文特征;Up表示双线性插值,用于将上下文特征数组上采样到与Fvgg(I)相同的大小;θj表示卷积核的参数,j为尺度。
S33:使用步骤S23构建的通道注意力网络对步骤S32获取具有多尺度上下文特征的特征图进行处理,以捕获该输入特征图中的重要通道,抑制不必要通道中的信息;对于输入特征图
Figure BDA0003847991940000091
其中
Figure BDA0003847991940000092
为X的大小,W、H和C分别表示输入特征图X的宽度、高度和通道维度,先将输入特征图X进行全局平均池化,具体公式为:
Figure BDA0003847991940000101
其中,g(X)为通道全局平局池化,Xab表示输入特征图X上坐标(a,b)处的值,a的取值是1~W,表示第a行,b的取值是1~H,表示第b列;
随后通过可权重共享的1D卷积进行学习,得到通道的权重,其中1D卷积的内核大小为γ,即1D卷积涉及的参数量,具体公式为:
Wc=σs(CIDγ(g(X)))
Figure BDA0003847991940000102
其中,σs表示Sigmoid函数;内核大小γ与通道维度C之间为非线性映射γ=ψ(C);|α|odd表示最接近α的奇数;Wc为通道的权重;CIDγ表示一维卷积;μ和b为常数,在本发明实施例中,μ=2,b=1。
经过1D卷积操作后得到的通道权重,再与输入特征图X相乘计算,从而将权重值加权到每个对应通道的特征上。
S34:将步骤S33输出的特征图输入到步骤S21搭建的拥挤场景识别算法CSRNet的后端网络,再通过一层卷积核大小为1×1的普通卷积层进行密度回归,生成最终的人群估计密度图。
步骤S3中计算空间金字塔网络输出的估计密度图与对应的地面真实密度图之间的密度图损失函数L(θ)的具体公式为:
Figure BDA0003847991940000103
其中,
Figure BDA0003847991940000104
表示地面真实密度图,
Figure BDA0003847991940000105
表示网络输出的估计密度图,
Figure BDA0003847991940000106
表示
Figure BDA0003847991940000107
Figure BDA0003847991940000108
之间误差的平方,Nt为训练样本集中的图像数量,d表示第d张输入图像。
网络训练时,通过计算损失函数L(θ),更新空间金字塔注意力网络的权重参数,直至完成全部迭代周期后,结束训练;当L(θ)随着迭代周期的增长有逐渐降低的趋势时,意味着网络训练有效。
对于相同分辨率的人群图像数据集,Batch Size为8,学习率为1e-4,优化器为Adam,迭代次数为800;对于不同分辨率的人群图像数据集,Batch Size为1,初始学习率为1e-5,每个Epoch减少到0.995,优化器为SGD,动量为0.95,迭代次数为800。
S4:将S3训练好的网络权重进行保存,再对S1获取的人群计数数据集中对应的测试样本集进行测试,输出测试样本集对应的人群密度图和预测值,判断网络效果。
本发明实施例通过计算平均绝对误差MAE和均方误差MSE,评价网络预测效果,具体计算公式为:
Figure BDA0003847991940000111
Figure BDA0003847991940000112
其中,
Figure BDA0003847991940000113
表示地面真实密度图,
Figure BDA0003847991940000114
表示网络输出的估计密度图,Et为测试样本集中图像的数量,d表示第d张输入图像。
下面通过实验对本发明实施例所述的人群计数方法进行的有效性进行验证:
(1)数据集
本发明实施例选取的是公开的大规模人群计数数据集ShanghaiTech和UCF_CC_50数据集。
ShanghaiTech数据集是最大的人群统计数据集之一,由1198张带有人头注释的图片组成,超过330,165人;根据不同的密度分布,数据集被分为Part A和Part B两部分:A部分包含482张图片,是从网上随机抓取的;B部分中的716张图片是在上海某一条繁忙街道上拍摄的。具体来说,在Part A中使用300张图像作为训练集,182张图像作为测试集;在PartB中使用400张图像作为训练集,使用316张图像作为测试集;Part A 的人群密度大于B部分,且两部分的图像分辨率也不同,人群密度在两部分的图像中有着显著的变化,使得该数据集有一定的挑战性。
UCF_CC_50数据集是一个具有挑战性的数据集,由50张在各种场景中具有不同视角和不同分辨率的图像组成;这50张图像中总共有63,974个人头注释;图像中的人数从94到4543不等,平均为1280人;该数据集用5倍交叉验证的方法:将数据集划分为5等份,每次选择其中4组作为训练集,余下一组为测试集进行训练,最后求出5组结果的平均值。
如图4所示,从每个数据集中选择一张具有代表性的人群图像,这两个人群图像数据集中的每一个数据集都有自己的特征:ShanghaiTech Part A 数据集中的场景拥挤且嘈杂;ShanghaiTech Part B部分数据集嘈杂,但人群密度稀疏;UCF_CC_50数据集由高度拥挤的场景组成,背景噪音很小。
(2)评价指标
本发明实施例通过计算平均绝对误差MAE和均方误差MSE,评价网络预测效果,具体计算公式为:
Figure BDA0003847991940000121
Figure BDA0003847991940000122
其中,
Figure BDA0003847991940000123
表示地面真实密度图,
Figure BDA0003847991940000124
表示网络输出的估计密度图,Et为测试样本集中图像的数量,d表示第d张输入图像。
(3)实验细节
本发明实施例所述的方法的前端网络使用VGG-16的前10个卷积层,通过导入预先训练好的模型参数以提高训练速度;实验中,对于ShanghaiTech Part B和UCF_CC_50数据集,使用Adam算法作为网络的优化方法,学习率固定为1e-4;对于ShanghaiTech Part A数据集,初始学习率为1e-5,每个epoch降低到0.995次;每个图形处理器上的批次大小设置为8。此外,在训练期间,在不同位置随机裁剪1/4大小的原始图像的图像块作为补丁,这些补丁被进一步镜像以使训练集加倍;所有实验的训练和评估均使用PyTorch框架,且在NVIDIAGeForce RTX 3080Ti GPU上进行。
(4)消融研究
本发明实施例在ShanghaiTech Part B数据集上进行了消融实验,以展示SPNET和CANET的效果。表1显示了具有四种不同设置的模型的性能。其中,CSRNet被用作本发明方法的基线,它是单列VGG-16的前10个卷积层(VGG-16 FCN)和空洞卷积(Dilated Conv)的组合;CSRNet+SPNET表示在VGG-16 FCN和Dilated Conv之间单独添加SPNET;CSRNet+CANET表示在VGG-16 FCN和Dilated Conv之间单独添加CANET;SPA-Net表示本发明实施例提出的全模型,即空间金字塔注意力网络,它增加了SPNET和CANET。
表1不同设置的模型的性能比较
Figure BDA0003847991940000125
Figure BDA0003847991940000131
从表1中可以发现SPNET取得了比CANET更好的性能,但两者性能提升的差距不大,SPA-Net在MAE指标上的效果优于单独在CSRNet中加入SPNET或CANET的效果,这意味着提取多尺度空间上下文信息和注意力信息可以使网络适应快速的尺度变化,帮助网络更准确地预测像素级别的密度图,减轻对背景区域的错误估计。
(5)与现有技术的比较
为了验证本发明实施例的有效性,实验时将本发明实施例的实验结果与在上述两个数据集上测试的其他现有技术方法的实验结果进行了比较。
在ShanghaiTech数据集的两个子集上的比较结果如表2所示。具体来说,在Part A上,与基线CSRNet相比,本发明实施例的MAE实现了2.4%的相对改进;在Part B中,本发明实施例的MAE比基线CSRNet实现了30.2%的相对改进。即使与最近的MGANet相比,本发明实施例的MAE和MSE指标方面,也分别下降了1.8和2.5。总的来说,与其他现有技术的方法相比,本发明实施例的MAE和MSE值都有一定程度的降低,本发明实施例的SPA-Net在Part B上达到了最好的性能。
表2本发明实施例与现有其他方法在ShanghaiTech数据集中的结果比较
Figure BDA0003847991940000132
Figure BDA0003847991940000141
图5显示了本发明实施例在Part B数据集上的预测效果,可以发现预测值和地面真实值很接近,误差波动范围较小,因此,SPANET和CANET可以有效降低算法在拥挤场景中的MAE和MSE值。实验结果表明,无论是面对图像中不断变化的尺度,还是面对不同大小的头部,本发明实施例都能够准确地定位到每个人。此外,实验过程中从ShanghaiTech的两个子数据集中选择了部分测试集样本来展示人群密度图的可视化,如图6和图7所示,分别展示了在ShanghaiTech Part A和Part B数据集上生成的部分样本的密度图与地面真实密度图的对比结果。
在UCF_CC_50数据集上的比较结果如表3所示。本发明实施例在UCF_CC_50数据集上与现有的最先进技术方法进行了对比,获得了179.1和238.5的最佳MAE和MSE,与基线CSRNet相比,实现了32.7%和40.0%的相对改进,即使与最先进的MGANet相比,也相对提高了25.6%和23.4%。本发明实施例的SPA-Net达到了MAE的最小值,并且优于现有技术方法,这是对UCF_CC_50数据集的计数精度的显著提升,也验证了本发明提出的SPA-Net在稀疏和密集场景中都更加稳健。此外,如图8所示,实验过程中从UCF_CC_50数据集中选择了部分测试集样本来展示人群密度图的可视化。
表3本发明实施例与现有其他方法在UCF_CC_50数据集中的结果比较
Figure BDA0003847991940000142
与现有技术方法相比,本发明实施例能够聚合多尺度特征并利用通道注意力特征来解决拥挤场景中连续尺度变化的问题,同时提高特征图的聚焦能力,建少背景、噪声的影响,生成高质量的密度图。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于空间金字塔注意力网络的人群计数方法,其特征在于,包括以下步骤:
S1:获取的人群图像数据集,将获取的人群图像数据集划分为训练集和测试集,并针对获取的人群图像数据集的特点,使用高斯核对人群图像进行预处理,生成地面真实密度图;
S2:选取拥挤场景识别算法CSRNet为基础结构,构建空间金字塔注意力网络;
S3:将S1获取的人群计数数据集的训练集中不同分辨率的人群图像和对应的人群密度图输入到空间金字塔注意力网络进行训练验证,输出训练样本集对应的估计密度图,再计算与输入网络的地面真实人群密度图之间的损失,更新网络参数,确定迭代次数,得到优化后的空间金字塔注意力网络;
S4:将S3训练好的网络权重进行保存,再对S1获取的人群计数数据集中对应的测试样本集进行测试,输出测试样本集对应的人群密度图和预测值,判断网络效果。
2.根据权利要求1所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S1中获取的人群图像数据集中包括原始图片和标注文件,通过标注文件,使用高斯核对人群图像进行预处理,生成地面真实密度图;具体方法为:
S11:当有一个人头位置在像素点,则将该人头位置进行标注,并记为xi,标注有N个人的头部位置的图像J(x)可表示为函数式:
Figure FDA0003847991930000011
其中,δ(x-xi)表示增量函数,x表示图像中像素的位置,i表示第i个人头标注点,N表示图像中人头标注点的数量,xi表示第i个人头标注点的位置;
S12:通过高斯核模糊每个人头标注来生成对应的真实密度图Dgt,即将增量函数δ(x-xi)与标准偏差为σi的高斯核函数进行卷积计算,真实密度图Dgt的具体计算公式为:
Figure FDA0003847991930000015
Figure FDA0003847991930000012
其中,
Figure FDA0003847991930000013
表示高斯核函数,β表示常数,
Figure FDA0003847991930000014
表示图像中第i个人头标注点距离其k近邻人头标注点的欧式距离的平均值;
针对拥挤程度不同的人群图像数据集,采用标准偏差不同的高斯核函数进行卷积计算;对于稀疏场景的人群计数数据集,使用固定高斯核生成密度图,对于密集场景的人群计数数据集,使用几何自适应高斯核生成密度图。
3.根据权利要求2所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述S12中几何自适应高斯核选定标准偏差的方式为:取β=0.3,k=3,计算标准偏差σi的值。
4.根据权利要求1所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S2的具体方法如下:
S21:搭建拥挤场景识别算法CSRNet的结构,选取预先训练好的VGG-16的前10个卷积层,作为前端特征提取网络,采用空洞率为2的6层空洞卷积层为后端网络,最后采用一层卷积核大小为1×1的普通卷积层输出结果;
S22:构建空间金字塔网络来应对连续的尺度变化,并将空间金字塔网络添加到步骤S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络和后端网络之间;
S23:构建通道注意力网络来处理通道维度上特征信息的相互依赖关系,并将通道注意力网络添加到步骤S22构建的空间金字塔网络和步骤S21搭建的拥挤场景识别算法CSRNet的后端网络之间。
5.根据权利要求4所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S21采用空洞率为2的6层空洞卷积层为后端网络,所述后端网络使用的二维空洞卷积定义为:
Figure FDA0003847991930000021
其中,y(l,m)表示来自输入τ(l,m)和滤波器ρ(e,f)的二维空洞卷积的输出,r表示空洞率,L为空洞的卷积层的长度,M为空洞的卷积层的宽度,e的取值为1~L,表示第e行,f的取值为1~M,表示第f列。
6.根据权利要求4所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S3输出估计密度图的具体方法如下:
S31:将不同分辨率的人群图像输入到步骤S21搭建的拥挤场景识别算法CSRNet的前端特征提取网络,提取输入的人群图像的浅层特征;
S32:将步骤S31提取的浅层特征输入到步骤S22构建的空间金字塔网络中,通过将步骤S31提取的浅层特征分组为大小分别为1、3、5、7的四个并行块,以提取不同尺度的上下文特征,并将提取的上下文特征再通过上采样恢复到与输入的浅层特征相同的维度,然后将四个分支提取的上下文特征融合在一起形成融合特征;同时,将融合特征与输入的浅层特征相结合,得到多尺度上下文特征Mj,具体公式为:
Mj=Up(Fj(Pa(Fvgg(I),j),θj))+Fvgg(I)
其中,Fvgg表示对输入图像I进行编码的VGG-16网络的前10层;Pa(Fvgg(I),j)表示平均池化,即输入的浅层特征Fvgg(I)被划分为大小分别为k(j)×k(j)的块,对应的块大小k(j)∈(1,3,5,7),Fj是一个核大小为1×1的卷积网络,用于在不改变通道维度的情况下跨通道融合上下文特征;Up表示双线性插值,用于将上下文特征数组上采样到与Fvgg(I)相同的大小;θj表示卷积核的参数,j为尺度;
S33:使用步骤S23构建的通道注意力网络对步骤S32获取具有多尺度上下文特征的特征图进行处理,以捕获该输入特征图中的重要通道,抑制不必要通道中的信息;对于输入特征图
Figure FDA0003847991930000031
其中
Figure FDA0003847991930000032
为X的大小,W、H和C分别表示输入特征图X的宽度、高度和通道维度,先将输入特征图X进行全局平均池化,具体公式为:
Figure FDA0003847991930000033
其中,g(X)为通道全局平局池化,Xab表示输入特征图X上坐标(a,b)处的值,a的取值是1~W,表示第a行,b的取值是1~H,表示第b列;
随后通过可权重共享的1D卷积进行学习,得到通道的权重,其中1D卷积的内核大小为γ,即1D卷积涉及的参数量,具体公式为:
Wc=σs(CIDγ(g(X)))
Figure FDA0003847991930000034
其中,σs表示Sigmoid函数;内核大小γ与通道维度C之间为非线性映射γ=ψ(C);|α|odd表示最接近α的奇数;Wc为通道的权重;CIDγ表示一维卷积;μ和b为常数;
经过1D卷积操作后得到的通道权重,再与输入特征图X相乘计算,从而将权重值加权到每个对应通道的特征上;
S34:将步骤S33输出的特征图输入到步骤S21搭建的拥挤场景识别算法CSRNet的后端网络,再通过一层卷积核大小为1×1的普通卷积层进行密度回归,生成最终的人群估计密度图。
7.根据权利要求1所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S3中进行网络训练时,对于相同分辨率的人群图像数据集,Batch Size为8,学习率为1e-4,优化器为Adam,迭代次数为800;对于不同分辨率的人群图像数据集,BatchSize为1,初始学习率为1e-5,每个Epoch减少到0.995,优化器为SGD,动量为0.95,迭代次数为800。
8.根据权利要求1所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S3中计算空间金字塔网络输出的估计密度图与对应的地面真实密度图之间的密度图损失函数L(θ)的具体公式为:
Figure FDA0003847991930000041
其中,
Figure FDA0003847991930000042
表示地面真实密度图,
Figure FDA0003847991930000043
表示网络输出的估计密度图,
Figure FDA0003847991930000044
表示
Figure FDA0003847991930000045
Figure FDA0003847991930000046
之间误差的平方,Nt为训练样本集中的图像数量,d表示第d张输入图像。
9.根据权利要求1所述的一种基于空间金字塔注意力网络的人群计数方法,其特征在于,所述步骤S4中对人群计数数据集的测试样本集进行测试时,通过计算平均绝对误差MAE和均方误差MSE,评价网络预测效果,具体计算公式为:
Figure FDA0003847991930000047
Figure FDA0003847991930000048
其中,
Figure FDA0003847991930000049
表示地面真实密度图,
Figure FDA00038479919300000410
表示网络输出的估计密度图,Et为测试样本集中图像的数量,d表示第d张输入图像。
CN202211124676.2A 2022-09-15 2022-09-15 一种基于空间金字塔注意力网络的人群计数方法 Pending CN115424209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211124676.2A CN115424209A (zh) 2022-09-15 2022-09-15 一种基于空间金字塔注意力网络的人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211124676.2A CN115424209A (zh) 2022-09-15 2022-09-15 一种基于空间金字塔注意力网络的人群计数方法

Publications (1)

Publication Number Publication Date
CN115424209A true CN115424209A (zh) 2022-12-02

Family

ID=84204069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211124676.2A Pending CN115424209A (zh) 2022-09-15 2022-09-15 一种基于空间金字塔注意力网络的人群计数方法

Country Status (1)

Country Link
CN (1) CN115424209A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631422A (zh) * 2022-12-23 2023-01-20 国家海洋局东海信息中心 一种基于注意力机制的浒苔识别方法
CN116229376A (zh) * 2023-05-06 2023-06-06 山东易视智能科技有限公司 一种人群预警方法、计数系统、计算设备及存储介质
CN116682058A (zh) * 2023-05-30 2023-09-01 南通大学 一种基于空间池化的轻量级ViT弱监督人群计数方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631422A (zh) * 2022-12-23 2023-01-20 国家海洋局东海信息中心 一种基于注意力机制的浒苔识别方法
CN115631422B (zh) * 2022-12-23 2023-04-28 国家海洋局东海信息中心 一种基于注意力机制的浒苔识别方法
CN116229376A (zh) * 2023-05-06 2023-06-06 山东易视智能科技有限公司 一种人群预警方法、计数系统、计算设备及存储介质
CN116229376B (zh) * 2023-05-06 2023-08-04 山东易视智能科技有限公司 一种人群预警方法、计数系统、计算设备及存储介质
CN116682058A (zh) * 2023-05-30 2023-09-01 南通大学 一种基于空间池化的轻量级ViT弱监督人群计数方法

Similar Documents

Publication Publication Date Title
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN107967451B (zh) 一种对静止图像进行人群计数的方法
US11200424B2 (en) Space-time memory network for locating target object in video content
CN115424209A (zh) 一种基于空间金字塔注意力网络的人群计数方法
CN111723693B (zh) 一种基于小样本学习的人群计数方法
CN113011329B (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
CN112597985B (zh) 一种基于多尺度特征融合的人群计数方法
CN109376747A (zh) 一种基于双流卷积神经网络的视频火焰检测方法
CN110879982B (zh) 一种人群计数系统及方法
CN113658115A (zh) 一种基于深度卷积生成对抗网络的图像异常检测方法
CN112115911A (zh) 一种基于深度学习的轻量型sar图像目标检测方法
CN104992403B (zh) 一种基于视觉相似度度量的混合操作算子图像重定向方法
CN109977968B (zh) 一种深度学习分类后比较的sar变化检测方法
CN111986180A (zh) 基于多相关帧注意力机制的人脸伪造视频检测方法
CN112597964B (zh) 分层多尺度人群计数的方法
CN111709300A (zh) 基于视频图像的人群计数方法
CN110705340A (zh) 一种基于注意力神经网络场的人群计数方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN113239904B (zh) 基于卷积神经网络的高分辨率密集目标计数方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN115953736A (zh) 一种基于视频监控与深度神经网络的人群密度估计方法
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
CN114612456B (zh) 一种基于深度学习的钢坯自动语义分割识别方法
CN115965613A (zh) 基于空洞卷积的跨层连接的施工场景人群计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination