CN114898284B - 一种基于特征金字塔局部差异注意力机制的人群计数方法 - Google Patents
一种基于特征金字塔局部差异注意力机制的人群计数方法 Download PDFInfo
- Publication number
- CN114898284B CN114898284B CN202210366563.7A CN202210366563A CN114898284B CN 114898284 B CN114898284 B CN 114898284B CN 202210366563 A CN202210366563 A CN 202210366563A CN 114898284 B CN114898284 B CN 114898284B
- Authority
- CN
- China
- Prior art keywords
- feature
- map
- network
- fpn
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000007246 mechanism Effects 0.000 title claims abstract description 10
- 230000008859 change Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征金字塔局部差异注意力机制的人群计数方法,提出了一个新颖的尺度感知的人群计数方法FPN‑LDA网络,其通过特征金字塔网络(FeaturePyramid Network,FPN)丰富特征尺度,并利用局部差异注意力(Local DifferenceAttention,LDA)模块对每个尺度的特征图进行重新加权,使特征集中在局部差异较大的位置,从而在基本不增加额外计算量的条件下提升人群计数的精度。本发明主要用于解决尺度变化场景下的人群计数,从网络的深度和广度两个层面处理人群场景尺度变化的问题,从而达到更高的计数精度。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种人群计数方法。
背景技术
人群计数是计算机视觉领域的一个重要挑战,其任务是对人群场景图像进行自动计数。由于人群计数任务存在巨大的应用价值,如视频监控、公共安全、城市规划以及其他领域的计数任务等,近年来在工业界和学术界引起广泛的关注。然而,人群计数任务本身面临着遮挡、背景复杂、尺度变化、分布不均、旋转、光强变化等诸多挑战。其中,由于相机固有的透视变化,尺度变化的挑战不可避免。尺度变化既存在于同一场景图像的不同区域之间,也存在于不同的场景图像之间。因此,提升人群计数精度遇到了较大的挑战。
为了解决尺度变化的问题,现有人群计数方法(比如Single-image crowdcounting via multi-column convolutional neural network和Casa-crowd:A context-aware scale aggregation cnn-based crowd counting technique)通常通过具有不同感受野的多分支卷积神经网络获取多尺度特征。然而,一方面,多分支体系结构将会按比例增加算法所需的计算资源。另一方面,这些方法无法处理连续的尺度变化,从而降低了人群计数的精度。
发明内容
为了克服现有技术的不足,本发明提供了一种基于特征金字塔局部差异注意力机制的人群计数方法,提出了一个新颖的尺度感知的人群计数方法FPN-LDA网络,其通过特征金字塔网络(Feature Pyramid Network,FPN)丰富特征尺度,并利用局部差异注意力(Local Difference Attention,LDA)模块对每个尺度的特征图进行重新加权,使特征集中在局部差异较大的位置,从而在基本不增加额外计算量的条件下提升人群计数的精度。本发明主要用于解决尺度变化场景下的人群计数,从网络的深度和广度两个层面处理人群场景尺度变化的问题,从而达到更高的计数精度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:输入图片预处理;
将原始图片的长和宽限制在2048像素以内,并使用随机裁剪和水平翻转进行数据增强,限定输入图片尺寸固定为512×512,得到人群场景图片;
步骤2:将人群场景图片输入特征金字塔网络提取多尺度特征;所述特征金字塔网络以VGG19作为骨干网络;
步骤2-1:自底向上阶段:将VGG19中输出特征尺寸相同的层视为同一阶段,将骨干网络划分为5个阶段;从第一个阶段开始,后续每个阶段的特征图尺寸将会减少到前一个阶段的一半,选择最后三个阶段输出的特征图构建三层特征金字塔网络,特征金字塔网络自底层到顶层三层的空间分辨率分别为128×128、64×64、32×32;
步骤2-2:自顶向下阶段:将顶层特征图连续上采样两次,得到空间分辨率为64×64和128×128的上采样特征图;
步骤2-3:横向连接阶段:通过逐元素相加的方式,将相同分辨率的上采样特征图与特征金字塔网络的特征图合并;将合并后的两个特征图及顶层特征图分别进行3×3卷积操作后,再经过采样使分辨率都变为64×64,再使用1×1卷积层改变通道数为128,最后将三者按通道拼接在一起得到64×64×384大小的特征图ffpn∈R384×64×64;
步骤3:计算局部差异注意力权重并对特征图进行加权;
步骤3-1:分别采用核大小分别为1×1、2×2和4×4的平均池化层对特征图ffpn进行平均池化操作,获取多感受野下的多尺度特征图,公式如下:
Fj=Pavg(ffpn,j),j∈{1,2,3} (1)
其中,Pavg(·,j)表示进行平均池化操作;得到三个分支的金字塔特征图Fj的尺寸分别为64×64、32×32和16×16;
步骤3-2:在步骤3-1得到的每个分支上执行1×1卷积操作,公式如下:
其中,conv(·,·)表示卷积操作,然后对输出特征图进行上采样操作,使分辨率都变为64×64,公式如下:
其中,Up(·)表示上采样操作;
步骤3-3:将特征图fj与特征图ffpn做差,再进行1×1卷积得到局部差异注意力权重:
其中,表示卷积参数;
使用局部差异注意力权重对特征图ffpn进行加权,并按通道进行合并,得到大小为64×64×768的多尺度特征图f,计算公式如下:
其中,表示两个矩阵的逐元素乘积操作,C(·)表示按通道合并操作;
步骤4:将多尺度特征图解码为单通道密度图;
将多尺度特征图f输入解码器,得到最终的密度图,对密度图进行求和得到对应人群场景的计数值;
所述解码器为多个卷积层堆叠而成;
步骤5:对步骤2和步骤3构建的FPN-LDA网络进行训练,将训练集中数据分批次输入FPN-LDA网络中,生成每幅图片的预测密度图,利用预测的密度图和真实人群场景的点标签计算损失,具体使用Bayesian损失构建点标注的密度贡献概率模型,公式如下:
其中,cn表示每个人头注释点的真实人数值,E[cn]表示每个注释点处的人数期望值,N表示整个场景的总人数;
使用优化器进行优化,直至目标函数LBayes的值不下降时结束训练;
步骤6:测试过程;
将测试图像输入训练后的FPN-LDA网络获取多尺度特征,然后将多尺度特征输入解码器即得到对应的密度图,最后,对密度图求和得到场景人群总数,并使用平均绝对误差MAE和均方误差MSE对计数性能进行评估。
进一步地,所述解码器为四个卷积层堆叠,大小分别为3×3×384、3×3×192、3×3×96、1×1×1。
本发明的有益效果如下:
本发明由于使用特征金字塔网络,极大地丰富了场景的尺度特征;局部差异注意力模块通过各尺度特征图的局部差异值重新加权来增强特征对局部差异较大的位置的关注,并抑制一些无关的特征,特征的有无在一定程度上表示场景的空间布局信息,因此也有利于对人群分布的感知。二者的协同作用分别从网络的深度和广度两个层面处理人群场景尺度变化的问题,从而达到更高的计数精度。
附图说明
图1是本发明的FPN-LDA网络结构图。
图2是本发明特征金字塔网络结构图。
图3是本发明解码器结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为了解决人群场景的尺度变化问题,本发明提出了一种基于特征金字塔局部差异注意力机制的人群计数方法,该方法能够有效处理人群场景固有的尺度变化问题。
本发明的技术方案主要模块包括如下:该方法包括两个部分,第一部分是基于VGG19的特征金字塔网络,第二部分是局部差异注意力模块。在第一部分中,以VGG19为骨干网络,将其改造为特征金字塔的结构,该结构包含三个过程,分别是自底向上、自顶向下和横向连接,用于构造和融合各种尺度的特征图。其中,自底向上的过程网络的前馈计算,计算由多个尺度的特征图组成的特征层次结构;自顶向下的过程对更高的金字塔层特征进行采样,从而使得空间上更粗粒度,但语义信息更强的特征获得更高的分辨率;最后,通过横向连接融合两个过程所产生的相同分辨率的特征图。第二部分中,以特征金字塔网络的输出作为输入,首先使用金字塔池化操作提取具有不同感受野的多尺度特征,然后计算局部差异注意力权重分数,对每个尺度的特征图进行重新加权,使特征集中在局部差异较大的位置,最后对多尺度特征进行融合和解码,输出人群场景的密度图,对密度图进行求和即可得到所需的人群数量。利用本发明的方法,可以更好地处理人群场景的尺度变化问题,并且基于局部差异注意力机制捕获上下文信息,获得各个尺度重要而有意义的特征,进而得到人群的布局信息,得到更好的计数精度。
一种基于特征金字塔局部差异注意力机制的人群计数方法,包括如下步骤:
步骤1:输入图片预处理;
将原始图片的长和宽限制在2048像素以内,并使用随机裁剪和水平翻转进行数据增强,限定输入图片尺寸固定为512×512,得到人群场景图片;
步骤2:将人群场景图片输入特征金字塔网络提取多尺度特征;所述特征金字塔网络以VGG19作为骨干网络;
步骤2-1:自底向上阶段:将VGG19中输出特征尺寸相同的层视为同一阶段,将骨干网络划分为5个阶段;从第一个阶段开始,后续每个阶段的特征图尺寸将会减少到前一个阶段的一半,考虑到性能和内存消耗之间的平衡,选择最后三个阶段输出的特征图构建三层特征金字塔网络,特征金字塔网络自底层到顶层三层的空间分辨率分别为128×128、64×64、32×32;
步骤2-2:自顶向下阶段:将顶层特征图连续上采样两次,得到空间分辨率为64×64和128×128的上采样特征图;
步骤2-3:横向连接阶段:通过逐元素相加的方式,将相同分辨率的上采样特征图与特征金字塔网络的特征图合并;将合并后的两个特征图及顶层特征图分别进行3×3卷积操作后,再经过采样使分辨率都变为64×64,再使用1×1卷积层改变通道数为128,最后将三者按通道拼接在一起得到64×64×384大小的特征图ffpn∈R384×64×64;
步骤3:计算局部差异注意力权重并对特征图进行加权;
步骤3-1:分别采用核大小分别为1×1、2×2和4×4的平均池化层对特征图ffpn进行平均池化操作,获取多感受野下的多尺度特征图,公式如下:
Fj=Pavg(ffpn,j),j∈{1,2,3} (1)
其中,Pavg(·,j)表示进行平均池化操作;得到三个分支的金字塔特征图Fj的尺寸分别为64×64、32×32和16×16;
步骤3-2:在步骤3-1得到的每个分支上执行1×1卷积操作,公式如下:
其中,conv(·,·)表示卷积操作,然后对输出特征图进行上采样操作,使分辨率都变为64×64,公式如下:
其中,Up(·)表示上采样操作;
步骤3-3:为了有效利用场景图像尺度变化的信息,提出通过学习注意力权重图来捕捉特征图在每个空间位置的相对影响;将特征图fj与特征图ffpn做差,再进行1×1卷积得到局部差异注意力权重:
其中,表示卷积参数;wj捕获了特定位置的特征与其邻域特征的差异,即局部差异。
使用局部差异注意力权重对特征图ffpn进行加权,并按通道进行合并,得到大小为64×64×768的多尺度特征图f,计算公式如下:
其中,表示两个矩阵的逐元素乘积操作,C(·)表示按通道合并操作;
步骤4:将多尺度特征图解码为单通道密度图;
将多尺度特征图f输入解码器,得到最终的密度图,对密度图进行求和得到对应人群场景的计数值;
所述解码器为四个卷积层堆叠而成,大小分别为3×3×384、3×3×192、3×3×96、1×1×1;
步骤5:对步骤2和步骤3构建的FPN-LDA网络进行训练,将训练集中数据分批次输入FPN-LDA网络中,生成每幅图片的预测密度图,利用预测的密度图和真实人群场景的点标签计算损失,具体使用Bayesian损失构建点标注的密度贡献概率模型,该损失没有严格限制密度图中每个像素的值,而是强制每个标注点的计数期望为1,从而避免了生成的“groundtruth”密度图的不完美所带来的误差,公式如下:
使用优化器进行优化,直至目标函数LBayes的值不下降时结束训练;
步骤6:测试过程;
将测试图像输入训练后的FPN-LDA网络获取多尺度特征,然后将多尺度特征输入解码器即得到对应的密度图,最后,对密度图求和得到场景人群总数,并使用平均绝对误差MAE和均方误差MSE对计数性能进行评估。
具体实施例:
本发明提供了一个特征金字塔局部差异注意力机制的人群计数方法,具体过程如下:
1、根据所给的点标注计算密度贡献概率图作为网络训练的监督信息。
现有的人群计数数据集所提供的标签为场景中所有人头中心点的坐标。与传统方法直接利用高斯核回归ground truth密度图不同,根据位置坐标计算场景的密度贡献概率图,用于对模型训练进行监督,从而避免了由于生成的ground truth密度图不完美而引入的误差。
x是表示空间位置的随机变量,y是表示人头标注点的随机变量,根据已给的标签yn构建xm的后验概率,其中m=1,2,...,M,M表示密度图像素点总数,n=1,2,...,N,N是样本图像的总人数。计算公式如下:
p(x=xm|y=yn)=N(xm;zn,σ212×2) (8)
根据贝叶斯理论,给定密度图中的一个像素点,其对应的标签为,那么可计算的后验概率如下:
其中N(xm;zn,σ212×2)表示xm处的高斯回归,均值在标注点zn处,协方差矩阵为σ212×2。所计算的密度贡献概率图的尺寸与设定的预测密度图尺寸相同,均为64×64。
2、输入图片预处理。
由于普通的CNN接受域有限,无法处理各种尺度图像的问题,所以将样本图像的长宽限制在2048像素以内,并使用随机裁剪和水平翻转的方式来进行数据增强,以限定输入图片尺寸固定为512×512。
3、基于特征金字塔局部差异注意力机制计算人群场景多尺度特征。
首先将图片预处理后得到的张量(512×512×3)输入特征金字塔网络中,将骨干网络VGG19的前馈计算划分为五个阶段,选取最后三阶段的输出特征构建特征金字塔,其分辨率分别为128×128,64×64,32×32。将三个特征图分别经过1×1卷积统一通道数为256,然后将前馈计算最后一层输出的特征图上采样两次,采样率均为2,得到具有更多语义信息并且空间分辨率与前馈过程相对应的三组特征图。最后采用横向连接将分辨率相同的特征图两两融合(逐像素相加)得到多尺度的特征金字塔。为了消除上采样带来的混叠效应,将三个不同尺寸的特征图分别通过卷积核大小为3×3的卷积层,通道数为256,然后使用双线性采样将三组特征图均采样到64×64,再使用1×1卷积层改变通道数为128,最后将三者合并在一起得到64×64×384大小的特征图ffpn。
对ffpn采用多尺度的平均池化操作获取多感受野下的多尺度特征图。三个尺度的平均池化层分别表示为avgPool1、avgPool2和avgPool3,对应核的大小分别为1×1,2×2和4×4。ffpn通过avgPool1的平均池化操作,其尺寸为64×64,同理,经过avgPool2和avgPool3后的尺寸分别为32×32和16×16,然后经过一个1×1的卷积层之后,使用双线性插值将三组特征图上采样到与输入相同的分辨率,即64×64。
将插值后的特征图与原始特征图做差得到局部差异注意力权重图Kn(n=1,2,3),再进行一个1×1的卷积操作,将通道数降为128,然后将差值权重值与金字塔池化操作输出的三个特征组对应相乘,最后将三个特征图按通道合并在一起,得到融合后的多尺度特征,其尺寸为64×64×768。
4、将特征解码为密度图。
将大小为64×64×768的多尺度特征输入附图3所示的解码器,输出特征图分辨率仍保持64×64,通道数变为1,即得到最终的密度图,对密度图进行求和得到对应人群场景的计数。
5、模型训练。
骨干网络在训练之前,将其在ImageNet上进行预训练,解码器由MSRA初始化器初始化,使用初始学习速率为10-5的Adam优化器用于模型参数的更新。设置公式8中的高斯参数σ为8,训练步数设置为1000个epoch。采用Bayesian损失为训练所用的损失函数。
6、模型应用
在通过上面的训练过程后可以得到多个模型,选取其中最优的模型(损失函数值最小)用于应用,由于所提出的模型为全卷积网络,图片数据处理时不需要数据增强,直接以原始图片进行归一化后的张量作为模型的输入。整个的网络模型的参数都固定不动,只要输入图像数据并向前传播即可。最后对密度图进行求和即可得到当前场景的人群总数。
Claims (2)
1.一种基于特征金字塔局部差异注意力机制的人群计数方法,其特征在于,包括如下步骤:
步骤1:输入图片预处理;
将原始图片的长和宽限制在2048像素以内,并使用随机裁剪和水平翻转进行数据增强,限定输入图片尺寸固定为512×512,得到人群场景图片;
步骤2:将人群场景图片输入特征金字塔网络提取多尺度特征;所述特征金字塔网络以VGG19作为骨干网络;
步骤2-1:自底向上阶段:将VGG19中输出特征尺寸相同的层视为同一阶段,将骨干网络划分为5个阶段;从第一个阶段开始,后续每个阶段的特征图尺寸将会减少到前一个阶段的一半,选择最后三个阶段输出的特征图构建三层特征金字塔网络,特征金字塔网络自底层到顶层三层的空间分辨率分别为128×128、64×64、32×32;
步骤2-2:自顶向下阶段:将顶层特征图连续上采样两次,得到空间分辨率为64×64和128×128的上采样特征图;
步骤2-3:横向连接阶段:通过逐元素相加的方式,将相同分辨率的上采样特征图与特征金字塔网络的特征图合并;将合并后的两个特征图及顶层特征图分别进行3×3卷积操作后,再经过采样使分辨率都变为64×64,再使用1×1卷积层改变通道数为128,最后将三者按通道拼接在一起得到64×64×384大小的特征图ffpn∈R384×64×64;
步骤3:计算局部差异注意力权重并对特征图进行加权;
步骤3-1:分别采用核大小分别为1×1、2×2和4×4的平均池化层对特征图ffpn进行平均池化操作,获取多感受野下的多尺度特征图,公式如下:
Fj=Pavg(ffpn,j),j∈{1,2,3} (1)
其中,Pavg(·,j)表示进行平均池化操作;得到三个分支的金字塔特征图Fj的尺寸分别为64×64、32×32和16×16;
步骤3-2:在步骤3-1得到的每个分支上执行1×1卷积操作,公式如下:
其中,conv(·,·)表示卷积操作,然后对输出特征图进行上采样操作,使分辨率都变为64×64,公式如下:
其中,Up(·)表示上采样操作;
步骤3-3:将特征图fj与特征图ffpn做差,再进行1×1卷积得到局部差异注意力权重:
其中,表示卷积参数;
使用局部差异注意力权重对特征图ffpn进行加权,并按通道进行合并,得到大小为64×64×768的多尺度特征图f,计算公式如下:
其中,表示两个矩阵的逐元素乘积操作,C(·)表示按通道合并操作;
步骤4:将多尺度特征图解码为单通道密度图;
将多尺度特征图f输入解码器,得到最终的密度图,对密度图进行求和得到对应人群场景的计数值;
所述解码器为多个卷积层堆叠而成;
步骤5:对步骤2和步骤3构建的FPN-LDA网络进行训练,将训练集中数据分批次输入FPN-LDA网络中,生成每幅图片的预测密度图,利用预测的密度图和真实人群场景的点标签计算损失,具体使用Bayesian损失构建点标注的密度贡献概率模型,公式如下:
其中,cn表示每个人头注释点的真实人数值,E[cn]表示每个注释点处的人数期望值,N表示整个场景的总人数;
使用优化器进行优化,直至目标函数LBayes的值不下降时结束训练;
步骤6:测试过程;
将测试图像输入训练后的FPN-LDA网络获取多尺度特征,然后将多尺度特征输入解码器即得到对应的密度图,最后,对密度图求和得到场景人群总数,并使用平均绝对误差MAE和均方误差MSE对计数性能进行评估。
2.根据权利要求1所述的一种基于特征金字塔局部差异注意力机制的人群计数方法,其特征在于,所述解码器为四个卷积层堆叠,大小分别为3×3×384、3×3×192、3×3×96、1×1×1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366563.7A CN114898284B (zh) | 2022-04-08 | 2022-04-08 | 一种基于特征金字塔局部差异注意力机制的人群计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366563.7A CN114898284B (zh) | 2022-04-08 | 2022-04-08 | 一种基于特征金字塔局部差异注意力机制的人群计数方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898284A CN114898284A (zh) | 2022-08-12 |
CN114898284B true CN114898284B (zh) | 2024-03-12 |
Family
ID=82716179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210366563.7A Active CN114898284B (zh) | 2022-04-08 | 2022-04-08 | 一种基于特征金字塔局部差异注意力机制的人群计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898284B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115346180B (zh) * | 2022-10-18 | 2023-02-10 | 湖北车安达信息科技有限公司 | 一种基于低频数据的道路拥挤情况检测方法和装置 |
CN115619776A (zh) * | 2022-12-02 | 2023-01-17 | 湖北凯乐仕通达科技有限公司 | 基于深度学习的物品计数方法和装置 |
CN117351218B (zh) * | 2023-12-04 | 2024-02-27 | 武汉大学人民医院(湖北省人民医院) | 一种炎症性肠病病理形态学特征隐窝拉伸图像识别的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112784685A (zh) * | 2020-12-28 | 2021-05-11 | 山东师范大学 | 基于多尺度引导注意力机制网络的人群计数方法及系统 |
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
CN114120233A (zh) * | 2021-11-29 | 2022-03-01 | 上海应用技术大学 | 用于人群计数的轻量金字塔空洞卷积聚合网络的训练方法 |
CN114155210A (zh) * | 2021-11-17 | 2022-03-08 | 大连民族大学 | 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法 |
-
2022
- 2022-04-08 CN CN202210366563.7A patent/CN114898284B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112784685A (zh) * | 2020-12-28 | 2021-05-11 | 山东师范大学 | 基于多尺度引导注意力机制网络的人群计数方法及系统 |
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
CN114155210A (zh) * | 2021-11-17 | 2022-03-08 | 大连民族大学 | 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法 |
CN114120233A (zh) * | 2021-11-29 | 2022-03-01 | 上海应用技术大学 | 用于人群计数的轻量金字塔空洞卷积聚合网络的训练方法 |
Non-Patent Citations (1)
Title |
---|
基于通道域注意力机制的人群密度估计算法研究;马骞;;电子设计工程;20200803(第15期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114898284A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN107977932B (zh) | 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法 | |
CN112287940B (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
Marin et al. | Efficient segmentation: Learning downsampling near semantic boundaries | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112927202B (zh) | 多时域多特征结合的Deepfake视频检测方法及系统 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN107679462B (zh) | 一种基于小波的深度多特征融合分类方法 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN109993269B (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN110689482A (zh) | 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN112489050A (zh) | 一种基于特征迁移的半监督实例分割算法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN113537110A (zh) | 一种融合帧内帧间差异的虚假视频检测方法 | |
CN116052212A (zh) | 一种基于双重自监督学习的半监督跨模态行人重识别方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
Krishnan et al. | SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference | |
CN117351414A (zh) | 一种基于深度神经网络的人群密度估计方法 | |
CN117315752A (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |