CN113536925A - 一种基于引导注意力机制的人群计数方法 - Google Patents

一种基于引导注意力机制的人群计数方法 Download PDF

Info

Publication number
CN113536925A
CN113536925A CN202110659971.7A CN202110659971A CN113536925A CN 113536925 A CN113536925 A CN 113536925A CN 202110659971 A CN202110659971 A CN 202110659971A CN 113536925 A CN113536925 A CN 113536925A
Authority
CN
China
Prior art keywords
attention
crowd
feature
network
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110659971.7A
Other languages
English (en)
Other versions
CN113536925B (zh
Inventor
汤景凡
姜明
张旻
周美佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110659971.7A priority Critical patent/CN113536925B/zh
Publication of CN113536925A publication Critical patent/CN113536925A/zh
Application granted granted Critical
Publication of CN113536925B publication Critical patent/CN113536925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于引导注意力机制的人群计数方法。本发明步骤如下:获取并预处理人群图像数据集;建立基于引导注意力机制的人群计数网络;将预处理之后的人群图像输入该人群计数网络进行特征提取;网络中的特征编码部分生成图像中人群目标的注意力特征图;网络中的特征解码部分根据注意力特征图提取人群范围内的深层特征;将解码部分的特征转换为人群分布密度图,并与真实标注的密度图进行相似度计算,不断迭代更新人群计数网络;将测试图片输入优化后的人群计数网络,生成人群密度图并且进行人群计数。本发明能够有效解决人群计数任务中的背景干扰问题,以生成高质量的人群分布密度图并统计出高精度的人数。

Description

一种基于引导注意力机制的人群计数方法
技术领域
本发明涉及人群计数领域,具体涉及一种基于引导注意力机制的人群计数方法,属于计算机视觉的图像处理技术领域。
背景技术
由于各个国家的高速城镇化,拥有高度拥挤的人群场景越来越常见。人群计数在这一情况下能够在视频监控,智能治安管理领域中发挥十分重要的作用。现有的人群计数算法常常考虑目标尺度变化对计数任务产生的误差,而在实际的人群计数任务中,还存在严重的背景干扰问题。复杂的背景对于计数准确性的影响在于它会使网络错误地把一些背景区域识别为人群目标区域。一些人群图像中某些区域实际上是树木、建筑物等背景区域,而由于其特征与人群目标的特征具有一定的相似性,人群计数网络会错误地将这些物体都识别为人群目标,导致了最终的计数误差。为了降低复杂背景对人群计数任务的干扰,本发明设计了一个基于引导注意力机制的人群计数网络,通过注意力网络生成人群目标注意力掩膜,校准优化网络生成的初步特征图,从而减少背景对人群密度估计的影响。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于引导注意力机制的人群计数方法,以解决由于图像中出现的树木、建筑物等复杂背景干扰,而导致人群计数不准确的问题。
一种基于引导注意力机制的人群计数方法,包括以下步骤:
步骤(1)获取人群图像数据集并预处理;
步骤(2)建立基于引导注意力机制的人群计数网络;
步骤(3)将预处理之后的人群图像输入该人群计数网络进行特征提取;
步骤(4)人群计数网络中的特征编码部分生成图像中人群目标的注意力特征图;
步骤(5)人群计数网络中的特征解码部分根据注意力特征图提取人群范围内的深层特征;
步骤(6)将解码部分的深层特征转换为人群分布密度图,并与真实标注的密度图进行相似度计算,不断迭代更新人群计数网络;
步骤(7)将测试图片输入优化后的人群计数网络,生成人群密度图并且进行人群计数。
本发明所具有的优点如下:
本发明构建的编码-解码结构,能够将特征编码的梯度信息输入特征解码,加快网络的学习过程。特征编码构建引导注意力结构,空间注意力对整张图像进行编码捕获空间依赖,通道注意力在训练过程中选择合适的通道使得整个模型更加关注图像中的人头区域,通过融合空间注意力与通道注意力的特征,网络将兴趣点固定在人群目标区域。特征解码在注意力特征图所表示的人群范围内进行高层语义信息的融合。在此基础上,特征解码引入Inception空洞卷积结构,能够扩大空洞卷积的优势,以更多的空洞模式获取更大的感受野。最终使得预测的人群分布密度图具有很高的准确度。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的网络模型结构图;
图3是引导注意力结构图;
图4是单通道下Inception空洞卷积的结构图;
具体实施方式
下面结合附图对本发明作进一步描述。
本发明的整体实施方案流程图参照图1,一种基于引导注意力机制的人群计数方法,包括以下步骤:
步骤(1)获取并预处理人群图像数据集;
步骤(2)建立基于引导注意力机制的人群计数网络;
步骤(3)将预处理之后的人群图像输入该人群计数网络进行特征提取;
步骤(4)网络中的特征编码部分生成图像中人群目标的注意力特征图;
步骤(5)网络中的特征解码部分根据注意力特征图提取人群范围内的深层特征;
步骤(6)将解码部分的特征转换为人群分布密度图,并与真实标注的密度图进行相似度计算,不断迭代更新人群计数网络;
步骤(7)将测试图片输入优化后的人群计数网络,生成人群密度图并且进行人群计数。
所述的步骤(1)具体过程如下:
(1-1)从互联网上或者现实中获取一定量的人群图像训练数据集;
(1-2)对于收集到的人群图像进行二值化、归一化、数据增强的预处理,去除人群图像中的无关信息,使得预处理后的人群图像训练集P(p1,p2…pn)能够被网络处理。
所述的步骤(2)具体过程如下:
(2-1)构建基于引导注意力机制的人群计数网络,确定网络层的深度和分支结构;
(2-2)该人群计数网络为一个编码-解码结构,特征编码部分在不同深度的网络层中构建引导注意力结构,使网络将兴趣点固定在人群目标区域;
(2-3)每层引导注意力结构并联空间注意力和通道注意力,空间注意力对整张人群图像进行编码捕获空间依赖,通道注意力在训练过程中选择最佳的通道使得整个网络模型更加关注图像中的人头区域;
(2-4)特征解码部分接收特征编码的数据信息,在注意力掩膜区域内进行高层语义信息的融合,同时设置Inception空洞卷积保证分辨率不降低。
所述的步骤(3)具体过程如下:
(3-1)将步骤(1-2)中经过预处理后的人群图像训练集P(p1,p2…pn),输入到人群计数网络中;
(3-2)输入的人群图像首先经过人群计数网络前端提取低层的基础特征x,一定程度上对图像降维,减少网络的计算量,从而作为网络后端的编码-解码部分的输入。
所述的步骤(4)具体过程如下:
(4-1)基于步骤(3-2),将基础特征x输入到特征编码部分作进一步处理,特征编码部分以VGG-16的5-13层卷积层为基础,在三个深度的网络层中分别构建引导注意力结构;
(4-2)将基础特征x输入到引导注意力结构,该引导注意力结构并联空间注意力与通道注意力;
(4-3)通道注意力将输入的基础特征x直接进行变形,其中变形后的一个特征经过转置后与另一个变形矩阵进行点乘计算,将计算出的结果利用Softmax层转换为大小为C×C的通道注意力图c,将该过程用数学公式表示如下:
Figure BDA0003114805300000041
其中,cji表示通道注意力图c中第i通道对j通道的影响。xc1表示的是输入的基础特征x在通道注意力中经过变形的特征,xc2为输入的基础特征x经过变形转置后的特征。得到通道注意力图c后,将通道注意力图c与变形矩阵xc3相乘,以将尺寸重塑为C×H×W。最后将结果与权重λ相乘,并与输入的基础特征x逐像素相加,得到最终的注意力特征图y1,该过程可表示如下:
Figure BDA0003114805300000042
其中,λ是网络中从0开始的可学习参数,xj表示输入的基础特征x在第j通道上的值,
Figure BDA0003114805300000043
为注意力特征图y1在第j通道上的值。最终输出的注意力特征图是通道注意力特征与原始特征加权求和的结果,通过求和运算可以使所有通道的特征图之间建立语义依赖,增强特征的可辨别能力;
(4-4)空间注意力将输入的基础特征x首先经过三个1×1的卷积,保留图像原有的平面结构。然后分别经过变换和转置获得三个重置后的特征图xs1、xs2和xs3,将xs1和xs2进行点乘运算,得到的运算结果通过Softmax层生成大小为(H×W)×(H×W)的空间注意力图s,整个变换过程可以由以下公式表达:
Figure BDA0003114805300000051
其中,sji表示空间注意力图s中第i个区域对第j个区域的影响,任意两个区域的特征相似性越高,它们的关联性也就越强。
得到空间注意力图s之后,将s与xs3进行矩阵相乘,将特征的尺寸重塑为C×H×W,之后将结果与原始输入的基础特征x加权求和,得到最终的空间注意力特征图y2,整个过程的数学表达式如下:
Figure BDA0003114805300000052
其中,μ是可学习的权重参数,通过网络训练从0开始逐渐调整到最适合的权重值,xj表示输入的基础特征x在第j区域上的值,
Figure BDA0003114805300000053
为注意力特征图y2在第j区域上的值;
(4-5)将步骤(4-3)和(4-5)的两个输出y1和y2通过一个连接操作融合在一起,进一步增强特征表示。假设z为引导注意力结构的最终输出,则输出的注意力特征图用以下公式表示:
z=Concat(y1,y2) (5)
由于网络构建了三个引导注意力结构,所以三层引导注意力结构输出的人群注意力特征图Z可表示为如下集合Z(z1,z2,z3)。
所述的步骤(5)具体过程如下:
(5-1)将步骤(4-5)的人群注意力特征图zi与步骤(3-2)的基础特征x输入特征解码部分,在人群目标范围内对x进行高层特征的提取;
(5-2)以Inception空洞卷积为基础构建特征解码。假设y为Inception卷积的特征输出,则映射过程如下:
Figure BDA0003114805300000061
其中,d表示特征图的通道数,zi(i=1,2,3)为对应引导注意力的特征输出,g(*)为矩阵点乘运算,f(*)为卷积过程,rd和ld表示卷积核在行、列两个方向上的空洞率,可以通过rd和ld来设置Inception卷积在行、列两个维度上的膨胀效果。
所述的步骤(6)具体过程如下:
(6-1)将步骤(5-2)的输出特征y转换为网络预测的人群密度图,为了使密度图能够适应人群图像的各种条件,可以将其表示为N个头的F(x)。F(x)的计算方法是将增量函数δ(x-xi)与归一化为1的高斯核
Figure BDA0003114805300000062
进行卷积,过程如下:
Figure BDA0003114805300000063
其中,xi代表每个行人人头所在的像素点。σi是数据集中所有图像的人群分布。β是一个常数,
Figure BDA0003114805300000064
表示目标与其周围最近k个人头的平均距离。
(6-2)将网络预测的人群密度图与真实标注的人群密度图通过欧几里得损失函数L(σ)进行相似度计算,优化更新网络参数:
Figure BDA0003114805300000065
其中σ是网络中的映射参数,pi表示从第i张人群图像中的基础特征,n表示用于训练网络的图像样本数目,Fi表示人工标注的真实人群密度图,而F(xi)表示网络预测的人群密度图;
(6-3)采用Adam优化器进行训练,利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳;
(6-4)结束训练,得到最优的人群计数网络。
所述步骤(7)具体过程如下:
(7-1)将需要测试的人群图像输入训练好的基于引导注意力机制的人群计数网络中;
(7-2)输出对应的人群分布密度图与总人数。
本发明网络模型结构如图2所示,包括网络层的深度、分支结构:
它由一个前端网络与一个编码-解码后端网络组成。图像输入到网络中,首先经过3*3*64、3*3*64、3*3*128和3*3*128四层卷积提取初步的特征向量,每一层卷积之后紧跟Relu非线性激活,以减少参数之间的相互依赖,提高网络的非线性拟合能力。每两层卷积都引入一个步长为2的最大池化向量Maxpool,用于降低图片的分辨率,提高网络存储的利用率。之后,初步特征向量将被输入到后端的编码-解码网络。特征编码部分构建了多层引导注意力结构,每个引导注意力结构并联一个空间注意力和通道注意力,融合两个维度上的注意力图按梯度输入特征解码部分。特征解码部分为串联的多个Inception空洞卷积,在注意力图所划定的人群目标范围内对特征提取高层语义信息。最后,本发明网络模型通过1*1*1的卷积将高层特征转换为人群密度图并计数。
本发明构建的引导注意力结构如图3所示:
引导注意力结构是一个以空间注意力和通道注意力为基础的并联结构。假设原始图像经过一系列的卷积变换之后得到大小为W×H的特征图X,该特征图有C个通道,将其输入到构建的通道注意力和空间注意力。进入通道注意力的X首先经过全局平均池化获得每个通道的全局信息S,将S使用全连接层生成新特征Z,使用Softmax得到通道权重向量a,将X与a相乘,计算出最终具有通道权重的特征图T。通道注意力机制的目的就是为同一特征图中的各个通道设置不同感受野,分配各个通道之间的资源。
而输入到空间注意力中的特征图X,首先会通过Localization Net与目标特征T的空间变换参数θ。通过空间变换模块,不仅能够标注出图像中需要被关注的空间区域,还能提取出图像的局部信息。然后,Grid generator利用前面学习到的空间变换参数θ和目标特征T中的坐标点去X中采样,填充T中的每个像素点。最后,使用Sampler函数处理坐标为小数的位置。
最后将空间与通道两个维度上的特征输出融合作为引导注意力结构的输出。
本发明构建的Inception空洞卷积结构如图4所示:
常规的空洞卷积只包含一个空洞率参数,通过该空洞率参数同时控制卷积核在行和列两个方向上的膨胀大小,通过这种方法产生的空洞卷积在行、列两个方向上的膨胀效果是一致的。假设卷积核大小为3×3,空洞率为d,则在常规情况下,该空洞卷积的感受野大小为(1+2d)×(1+2d)。本发明引入的Inception卷积是一个二维独立的空洞卷积,设置了两个空洞率参数rd、ld(rd,ld=1,2,3),可以独立控制卷积核在行、列两个方向上的膨胀效果。同时设置卷积核大小为3×3,则整个空洞卷积的感受野范围可以从3×3取到(1+2ld)×(1+2rd)。将Inception空洞卷积的九种膨胀形式串联并划分为三个深度层作为特征编码的基础结构。

Claims (10)

1.一种基于引导注意力机制的人群计数方法,其特征在于包括以下步骤:
步骤(1)获取并预处理人群图像数据集;
步骤(2)建立基于引导注意力机制的人群计数网络;
步骤(3)将预处理之后的人群图像输入该人群计数网络进行特征提取;
步骤(4)网络中的特征编码部分生成图像中人群目标的注意力特征图;
步骤(5)网络中的特征解码部分根据注意力特征图提取人群范围内的深层特征;
步骤(6)将解码部分的特征转换为人群分布密度图,并与真实标注的密度图进行相似度计算,不断迭代更新人群计数网络;
步骤(7)将测试图片输入优化后的人群计数网络,生成人群密度图并且进行人群计数。
2.根据权利要求1所述的一种基于引导注意力机制的人群计数方法,其特征在于步骤(1)具体过程如下:
(1-1)从互联网上或者现实中获取一定量的人群图像训练数据集;
(1-2)对于收集到的人群图像进行二值化、归一化、数据增强的预处理,去除人群图像中的无关信息,使得预处理后的人群图像训练集P(p1,p2…pn)能够被网络处理。
3.根据权利要求2所述的一种基于引导注意力机制的人群计数方法,其特征在于步骤(2)具体过程如下:
(2-1)构建基于引导注意力机制的人群计数网络,确定网络层的深度和分支结构;
(2-2)该人群计数网络为一个编码-解码结构,特征编码部分在不同深度的网络层中构建引导注意力结构,使网络将兴趣点固定在人群目标区域;
(2-3)每层引导注意力结构并联空间注意力和通道注意力,空间注意力对整张人群图像进行编码捕获空间依赖,通道注意力在训练过程中选择最佳的通道使得整个网络模型更加关注图像中的人头区域。
4.根据权利要求3所述的一种基于引导注意力机制的人群计数方法,其特征在于步骤(3)具体过程如下:
(3-1)将步骤(1-2)中经过预处理后的人群图像训练集P(p1,p2…pn),输入到人群计数网络中;
(3-2)输入的人群图像首先经过人群计数网络前端提取低层的基础特征x,一定程度上对图像降维,减少网络的计算量,从而作为网络后端的编码-解码部分的输入。
5.根据权利要求4所述的一种基于引导注意力机制的人群计数方法,其特征在于步骤(4)具体过程如下:
(4-1)基于步骤(3-2),将基础特征x输入到特征编码部分作进一步处理,特征编码部分以VGG-16的5-13层卷积层为基础,在三个深度的网络层中分别构建引导注意力结构;
(4-2)将基础特征x输入到引导注意力结构,该引导注意力结构并联空间注意力与通道注意力;
(4-3)通道注意力将输入的基础特征x直接进行变形,其中变形后的一个特征经过转置后与另一个变形矩阵进行点乘计算,将计算出的结果利用Softmax层转换为大小为C×C的通道注意力图c,将该过程用数学公式表示如下:
Figure FDA0003114805290000021
其中,cji表示通道注意力图c中第i通道对j通道的影响;xc1表示的是输入的基础特征x在通道注意力中经过变形的特征,xc2为输入的基础特征x经过变形转置后的特征;得到通道注意力图c后,将通道注意力图c与变形矩阵xc3相乘,以将尺寸重塑为C×H×W;最后将结果与权重λ相乘,并与输入的基础特征x逐像素相加,得到最终的注意力特征图y1,该过程可表示如下:
Figure FDA0003114805290000031
其中,λ是网络中从0开始的可学习参数,xj表示输入的基础特征x在第j通道上的值,
Figure FDA0003114805290000032
为注意力特征图y1在第j通道上的值;最终输出的注意力特征图是通道注意力特征与原始特征加权求和的结果,通过求和运算可以使所有通道的特征图之间建立语义依赖,增强特征的可辨别能力;
(4-4)空间注意力将输入的基础特征x首先经过三个1×1的卷积,保留图像原有的平面结构;然后分别经过变换和转置获得三个重置后的特征图xs1、xs2和xs3,将xs1和xs2进行点乘运算,得到的运算结果通过Softmax层生成大小为(H×W)×(H×W)的空间注意力图s,整个变换过程可以由以下公式表达:
Figure FDA0003114805290000033
其中,sji表示空间注意力图s中第i个区域对第j个区域的影响,任意两个区域的特征相似性越高,它们的关联性也就越强;
得到空间注意力图s之后,将s与xs3进行矩阵相乘,将特征的尺寸重塑为C×H×W,之后将结果与原始输入的基础特征x加权求和,得到最终的空间注意力特征图y2,整个过程的数学表达式如下:
Figure FDA0003114805290000034
其中,μ是可学习的权重参数,通过网络训练从0开始逐渐调整到最适合的权重值,xj表示输入的基础特征x在第j区域上的值,
Figure FDA0003114805290000035
为注意力特征图y2在第j区域上的值;
(4-5)将步骤(4-3)和(4-5)的两个输出y1和y2通过一个连接操作融合在一起,进一步增强特征表示;假设z为引导注意力结构的最终输出,则输出的注意力特征图用以下公式表示:
z=Concat(y1,y2)(5)
由于网络构建了三个引导注意力结构,所以三层引导注意力结构输出的人群注意力特征图Z可表示为如下集合Z(z1,z2,z3)。
6.根据权利要求5所述的一种基于引导注意力机制的人群计数方法,其特征在于步骤(5)具体过程如下:
(5-1)将步骤(4-5)的人群注意力特征图zi与步骤(3-2)的基础特征x输入特征解码部分,在人群目标范围内对x进行高层特征的提取;
(5-2)以Inception空洞卷积为基础构建特征解码;假设y为Inception卷积的特征输出,则映射过程如下:
Figure FDA0003114805290000041
其中,d表示特征图的通道数,zi(i=1,2,3)为对应引导注意力的特征输出,g(*)为矩阵点乘运算,f(*)为卷积过程,rd和ld表示卷积核在行、列两个方向上的空洞率,可以通过rd和ld来设置Inception卷积在行、列两个维度上的膨胀效果。
7.根据权利要求6所述的一种基于引导注意力机制的人群计数方法,其特征在于步骤(6)具体过程如下:
(6-1)将步骤(5-2)的输出特征y转换为网络预测的人群密度图,为了使密度图能够适应人群图像的各种条件,可以将其表示为N个头的F(x);F(x)的计算方法是将增量函数δ(x-xi)与归一化为1的高斯核
Figure FDA0003114805290000042
进行卷积,过程如下:
Figure FDA0003114805290000043
其中,xi代表每个行人人头所在的像素点;σi是数据集中所有图像的人群分布;β是一个常数,
Figure FDA0003114805290000044
表示目标与其周围最近k个人头的平均距离;
(6-2)将网络预测的人群密度图与真实标注的人群密度图通过欧几里得损失函数L(σ)进行相似度计算,优化更新网络参数:
Figure FDA0003114805290000051
其中σ是网络中的映射参数,pi表示从第i张人群图像中的基础特征,n表示用于训练网络的图像样本数目,Fi表示人工标注的真实人群密度图,而F(xi)表示网络预测的人群密度图;
(6-3)采用Adam优化器进行训练,利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳;
(6-4)结束训练,得到最优的人群计数网络。
8.根据权利要求7所述的一种基于引导注意力机制的人群计数方法,其特征在于整个网络模型包括一个前端网络与一个编码-解码后端网络;图像输入到网络模型中,首先经过3*3*64、3*3*64、3*3*128和3*3*128四层卷积提取初步的特征向量,每一层卷积之后紧跟Relu非线性激活,每两层卷积都引入一个步长为2的最大池化向量Maxpool;初步特征向量将被输入到后端的编码-解码网络;特征编码部分构建多层引导注意力结构,每个引导注意力结构并联一个空间注意力和通道注意力,融合两个维度上的注意力图按梯度输入特征解码部分;特征解码部分为串联的多个Inception空洞卷积,在注意力图所划定的人群目标范围内对特征提取高层语义信息;网络模型通过1*1*1的卷积将高层特征转换为人群密度图并计数。
9.根据权利要求8所述的一种基于引导注意力机制的人群计数方法,其特征在于引导注意力结构如下:
引导注意力结构是一个以空间注意力和通道注意力为基础的并联结构;假设原始图像经过一系列的卷积变换之后得到大小为W×H的特征图X,该特征图有C个通道,将其输入到构建的通道注意力和空间注意力;进入通道注意力的X首先经过全局平均池化获得每个通道的全局信息S,将S使用全连接层生成新特征Z,使用Softmax得到通道权重向量a,将X与a相乘,计算出最终具有通道权重的特征图T;
输入到空间注意力中的特征图X,首先通过Localization Net与目标特征T的空间变换参数θ;Grid generator利用前面学习到的空间变换参数θ和目标特征T中的坐标点去X中采样,填充T中的每个像素点;使用Sampler函数处理坐标为小数的位置;
最后将空间与通道两个维度上的特征输出融合作为引导注意力结构的输出。
10.根据权利要求8或9所述的一种基于引导注意力机制的人群计数方法,其特征在于引入Inception卷积构建实现如下:Inception卷积是一个二维独立的空洞卷积,设置两个空洞率参数rd、ld能够独立控制卷积核在行、列两个方向上的膨胀效果;同时设置卷积核大小为3×3,则整个空洞卷积的感受野范围可以从3×3取到(1+2ld)×(1+2rd);将Inception空洞卷积的九种膨胀形式串联并划分为三个深度层作为特征编码的基础结构。
CN202110659971.7A 2021-06-15 2021-06-15 一种基于引导注意力机制的人群计数方法 Active CN113536925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110659971.7A CN113536925B (zh) 2021-06-15 2021-06-15 一种基于引导注意力机制的人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110659971.7A CN113536925B (zh) 2021-06-15 2021-06-15 一种基于引导注意力机制的人群计数方法

Publications (2)

Publication Number Publication Date
CN113536925A true CN113536925A (zh) 2021-10-22
CN113536925B CN113536925B (zh) 2024-02-02

Family

ID=78124960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110659971.7A Active CN113536925B (zh) 2021-06-15 2021-06-15 一种基于引导注意力机制的人群计数方法

Country Status (1)

Country Link
CN (1) CN113536925B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120245A (zh) * 2021-12-15 2022-03-01 平安科技(深圳)有限公司 基于深度神经网络的人群图像分析方法、装置以及设备
CN115019140A (zh) * 2022-06-02 2022-09-06 杭州电子科技大学 一种注意力引导的伪装目标检测方法
CN117253184A (zh) * 2023-08-25 2023-12-19 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LONG CHEN 等: "SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning", COMPUTER VISION FOUNDATION *
YOUMEI ZHANG 等: "Multi-resolution attention convolutional neural network for crowd counting", NEUROCOMPUTING *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120245A (zh) * 2021-12-15 2022-03-01 平安科技(深圳)有限公司 基于深度神经网络的人群图像分析方法、装置以及设备
CN115019140A (zh) * 2022-06-02 2022-09-06 杭州电子科技大学 一种注意力引导的伪装目标检测方法
CN115019140B (zh) * 2022-06-02 2023-11-21 杭州电子科技大学 一种注意力引导的伪装目标检测方法
CN117253184A (zh) * 2023-08-25 2023-12-19 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法
CN117253184B (zh) * 2023-08-25 2024-05-17 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法

Also Published As

Publication number Publication date
CN113536925B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN108510012B (zh) 一种基于多尺度特征图的目标快速检测方法
CN113536925B (zh) 一种基于引导注意力机制的人群计数方法
CN113673307A (zh) 一种轻量型的视频动作识别方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN112818969B (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN110991284B (zh) 一种基于场景预分类的光学遥感图像语句描述生成方法
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN117152416A (zh) 一种基于detr改进模型的稀疏注意力目标检测方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN116229519A (zh) 一种基于知识蒸馏的二维人体姿态估计方法
CN115830596A (zh) 基于融合金字塔注意力的遥感图像语义分割方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN111914751B (zh) 一种图像人群密度识别检测方法及系统
CN114187569A (zh) 一种皮尔森系数矩阵与注意力融合的实时目标检测方法
CN112784800B (zh) 一种基于神经网络和形状约束的人脸关键点检测方法
Guanglong et al. Correlation Analysis between the Emotion and Aesthetics for Chinese Classical Garden Design Based on Deep Transfer Learning
CN113658218B (zh) 一种双模板密集孪生网络跟踪方法、装置及存储介质
CN117671163B (zh) 多视图三维重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant