CN111259940A - 一种基于空间注意力地图的目标检测方法 - Google Patents

一种基于空间注意力地图的目标检测方法 Download PDF

Info

Publication number
CN111259940A
CN111259940A CN202010024750.8A CN202010024750A CN111259940A CN 111259940 A CN111259940 A CN 111259940A CN 202010024750 A CN202010024750 A CN 202010024750A CN 111259940 A CN111259940 A CN 111259940A
Authority
CN
China
Prior art keywords
target
information
map
spatial
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010024750.8A
Other languages
English (en)
Other versions
CN111259940B (zh
Inventor
郭春生
蔡猛
应娜
陈华华
杨萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010024750.8A priority Critical patent/CN111259940B/zh
Publication of CN111259940A publication Critical patent/CN111259940A/zh
Application granted granted Critical
Publication of CN111259940B publication Critical patent/CN111259940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于空间注意力地图的目标检测方法,包括:将测试图像输入预先训练好的Faster RCNN网络,自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播,得到目标的空间特征信息和特征梯度信息;对目标的空间特征信息和特征梯度信息进行加权得到目标高层语义信息引导的注意力地图;对目标空间特征信息进行数据预处理,得到目标感兴趣区域图;叠加目标感兴趣区域图和注意力地图,得到目标注意力地图;将目标注意力地图与通道特征权重进行计算得到多通道空间注意力地图;将多通道空间注意力地图与目标空间特征信息结合得到新的目标空间特征信息;将新的目标空间特征信息联合RPN网络的目标候选框提取出进行目标分类和边界框回归的特征。

Description

一种基于空间注意力地图的目标检测方法
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于空间注意力地图的目标检测方法。
背景技术
目标检测作为计算机视觉的领域的一个基础研究课题,其目标是在图片中对可变数量的目标进行查找和分类。得益于深度学习的快速发展,目标检测的性能取得了较大的进展,但是由于目标的尺度不一、种类和数量不确定、空间特征信息利用率低以及分类与定位精度间的不一致性等问题,限制了检测精度的提升。考虑到,人们在看一件东西的时候,总能够快速的将注意力焦点集中在这件东西的某一个地方或者部位,同时能够在较短时间内准确的获得这件东西的属性、类别等信息,这意味着人们在注意到某个目标或某个场景时,人类会利用有限的注意力资源从大量信息中快速筛选出高价值信息,即通过视觉注意力机制有效的结合了自下而上与自上而下的特征信息,进而极大提高了视觉信息处理的效率与准确性。
受人类视觉注意力的启发,近几年注意力模型被广泛应用于深度学习的语音识别、自然语言处理等任务中。其生成的注意力地图作为一种解释网络决策的有效方法,不仅有助于提高网络中图像特征信息的利用率,而且能够保证网络在有限注意力资源条件下将注意力焦点更多的投放在目标相关区域。其中,注意力模型的框架当前最为流行的是Transformer模型,它是一种编码解码框架主要依赖于self-attention机制处理自然语言处理中的各项任务,能够考虑到序列中元素间的关联性。尽管在深度学习的其他任务中,注意力模型有着较多的应用也取得了不错的效果,但是在图像处理领域如目标检测任务中它的应用依然是缺乏的。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于空间注意力地图的目标检测方法,在目标检测流程中,通过引入Transformer注意力模块以及结合网络自下而上的目标特征和自上而下的高层语义信息,不仅能够使网络充分利用目标的空间特征信息,而且也能够使网络更多的关注、定位相关目标区域
为了实现以上目的,本发明采用以下技术方案:
一种基于空间注意力地图的目标检测方法,包括步骤:
S1.将测试图像输入预先训练好的Faster RCNN网络,并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播,得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G;
S2.对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算,得到目标高层语义信息引导的注意力地图M;
S3.对所述目标的空间特征信息F进行数据预处理,通过Transformer注意力模块得到目标的感兴趣区域图P;
S4.叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M,得到目标注意力地图A;并将得到的目标注意力地图A与通道特征权重进行计算,得到多通道的空间注意力地图AS
S5.将所述得到的多通道的空间注意力地图AS与目标空间特征信息F进行结合,得到新的目标空间特征信息Fnew
S6.将得到的新的目标空间特征信息Fnew联合RPN网络的目标候选框,提取出进行目标分类和边界框回归的特征。
进一步的,所述步骤S6之后还包括:
S7.在Faster RCNN网络训练过程中,Transformer注意力模块、RPN网络、RCNN网络均产生损失,并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数,然后执行反向传播进行网络参数以及权重的更新。
进一步的,所述步骤S1中得到目标的空间特征信息和F与空间特征信息相对应的特征梯度信息G是通过卷积神经网络的最后一层卷积层获取到的。
进一步的,所述步骤S1中特征梯度信息G表示为:
Figure BDA0002362047450000031
其中,
Figure BDA0002362047450000032
表示空间特征信息F中第k个特征图(i,j)位置的元素值;Y表示高层语义信息。
进一步的,所述步骤S2中还包括对图像特征梯度信息G采进行全局平均化处理,得到每个通道特征权重wk
Figure BDA0002362047450000033
其中,Zk表示第k个通道中像素点的个数;wk的尺寸大小为C×1,表示第k个特征图对预测类别的重要性;
所述步骤S2中高层语义信息引导的注意力地图M为:
Figure BDA0002362047450000034
其中,ReLU(·)表示非线性修正单元;Fk表示第k个通道的特征图信息。
进一步的,所述步骤S3中的进行数据预处理包括多通道值的叠加、尺寸的统一、数值的归一化操作;
所述步骤S3中进行数据预处理之后,通过nn.Embeding()方法将空间特征信息F映射到指定512维度,并对每一维度特征图中分别位于奇数和偶数位置的序列信息采用正弦和余弦函数进行位置编码,编码计算方法如下:
PE(pos,2l)=sin(pos/100002l/d_model)
PE(pos,2l+1)=cos(pos/100002l/d_model)
其中,pos表示一个连续的整数序列;l表示序列信息所在位置;d_model=512表示Transformer网络模型的尺寸。
进一步的,所述步骤S4中还包括将目标感兴趣区域图P通过缩放得到与空间特征信息F大小相同的区域图;
所述步骤S4中得到多通道的空间注意力地图AS为:
Figure BDA0002362047450000041
其中,
Figure BDA0002362047450000042
aij表示目标注意力地图A中第(i,j)位置的像素值,
Figure BDA0002362047450000043
表示通道特征权重,计算方法分别为:
Figure BDA0002362047450000044
其中,Ts=0表示多通道的空间注意力地图As的阈值。
进一步的,所述步骤S4中还包括对通道特征权重wk重新处理得到新的通道特征权重
Figure BDA0002362047450000045
以得到权重占比的通道特征信息:
Figure BDA0002362047450000046
其中,
Figure BDA0002362047450000047
表示第k个通道的新权重值;Tc=0表示通道特征信息的阈值。
进一步的,所述步骤S5中得到的多通道的空间注意力地图AS与目标空间特征信息F进行结合的方式为:
Fnew=F*As
其中,*表示逐像素相乘,Fnew表示新的目标空间特征信息。
进一步的,所述步骤S7中将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数具体为:
Lrpn=Lrpn_cross+Lrpn_reg
Lrcnn=Lrcnn_cross+Lrcnn_reg
Loss=Lrcnn+Lrpn+Ltransformer
其中,Lrpn_cross和Lrpn_reg表示RPN网络的cross_entropy和L1损失;Lrcnn_cross和Lrcnn_reg表示RCNN网络的cross_entropy和L1损失;Ltransformer表示transformer注意力网络的KL损失;其中cross_entropy和L1损失分别用于计算网络的分类损失和边界框的回归损失。
与现有技术相比,本发明在Faster RCNN自下而上的检测流程中,引入了NLP自然语言处理领域的Transformer注意力模块,并通过它生成了目标的感兴趣区域图,其次通过融合目标的感兴趣区域图和类别概率信息引导的目标注意力地图得到了完整的目标注意力地图,进而生成更完整的目标空间信息。在归一化操作后,注意力地图中像素点的值揭示了输入图像上的像素点对最终网络检测结果的贡献程度,较好的反映了图像各区域与目标之间的关联性。然后将它应用于RoI Pooling层提取目标特征进而用于目标的分类和回归。在这一过程中,检测网络较充分的利用了目标的空间特征信息,即能够在分类与回归过程中更多使用目标位置信息,所以在一定程度上缓解了目标分类与定位之间的不一致性,优化提升了目标检测的精度。此外,本发明提出的方法是将注意力地图直接应用到了训练阶段,而非被动的利用训练后的网络注意力。
附图说明
图1是实施例一提供的一种基于空间注意力地图的目标检测方法流程图;
图2为实施例一提供的目标检测网络的整体框架示意图;
图3为实施例一提供的详细的空间注意力地图生成框架示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于空间注意力地图的目标检测方法,通过引入Transformer注意力模块以及结合网络自下而上的目标特征和自上而下的高层语义信息,不仅能够使网络充分利用目标的空间特征信息,而且也能够使网络更多的关注、定位相关目标区域。本发明所提出的方法有效缓解了网络空间特征信息利用率低和分类置信度与定位精度间的不一致性问题,从而提升了目标检测的精度。
实施例一
本实施例提供一种基于空间注意力地图的目标检测方法,如图1-3所示,包括步骤:
S11.将测试图像输入预先训练好的Faster RCNN网络,并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播,得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G;
S12.对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算,得到目标高层语义信息引导的注意力地图M;
S13.对所述目标的空间特征信息F进行数据预处理,通过Transformer注意力模块得到目标的感兴趣区域图P;
S14.叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M,得到目标注意力地图A;并将得到的目标注意力地图A与通道特征权重进行计算,得到多通道的空间注意力地图AS
S15.将所述得到的多通道的空间注意力地图AS与目标空间特征信息F进行结合,得到新的目标空间特征信息Fnew
S16.将得到的新的目标空间特征信息Fnew联合RPN网络的目标候选框,提取出进行目标分类和边界框回归的特征。
S17.在Faster RCNN网络训练过程中,Transformer注意力模块、RPN网络、RCNN网络均产生损失,并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数,然后执行反向传播进行网络参数以及权重的更新。
本实施例根据网络中注意力模块的输出、自下而上的特征提取和自上而下的高层语义信息对提取的图像特征信息优化,进而不仅能够使网络充分利用目标的空间特征信息,而且也能够使网络更多的关注、定位相关目标区域。
在步骤S11中,将测试图像输入预先训练好的Faster RCNN网络,并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播,得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G。
对于给定的一张图像,在Faster R-CNN网络框架自下而上的图像特征提取与自上而下的高层语义信息传播过程中,从卷积神经网络的最后一层卷积层获取目标的空间特征信息F与对应的特征梯度信息G。
其中,特征梯度信息G表示为:
Figure BDA0002362047450000071
其中,
Figure BDA0002362047450000072
表示空间特征信息F中第k个特征图(i,j)位置的元素值;Y表示高层语义信息。
在步骤S12中,对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算,得到目标高层语义信息引导的注意力地图M。
基于步骤S11中的空间特征信息F与特征梯度信息G,计算高层语义信息引导的目标注意力地图M。F和G都是尺寸大小为H×W×C的矩阵,H,W,C分别表示特征图的高度、宽度和通道个数.
在本实施例中,为进一步获得每个通道特征信息在图像特征映射中重要性的权重信息,对图像特征梯度信息采进行全局平均化处理,得到每个通道特征权重wk,计算公式如下:
Figure BDA0002362047450000073
其中,Zk表示第k个通道中像素点的个数;wk的尺寸大小为C×1,表示第k个特征图对预测类别的重要性;
本实施例考虑到在目标检测流程的计算中,只需要关注对预测目标类别具有积极影响的特征,因此高层语义信息引导的注意力地图M为:
Figure BDA0002362047450000074
其中,ReLU(·)表示非线性修正单元;Fk表示第k个通道的特征图信息。
在步骤S13中,对所述目标的空间特征信息F进行数据预处理,通过Transformer注意力模块得到目标的感兴趣区域图P。
根据Transformer注意力模块的输入参数要求,对目标空间特征信息F进行数据预处理,然后通过Transformer注意力模块得到目标的感兴趣区域图。预处理过程包括:多通道值的叠加、尺寸的统一、数值的归一化操作。
在预处理之后,本实施例通过nn.Embeding()方法将目标空间特征信息F映射到指定512维度,并对每一维度特征图中分别位于奇数和偶数位置的序列信息采用正弦和余弦函数进行位置编码,编码计算方法如下:
PE(pos,2l)=sin(pos/100002l/d_model)
PE(pos,2l+1)=cos(pos/100002l/d_model)
其中,pos表示一个连续的整数序列(0到最大值,最大值由目标空间特征信息F的列长确定);l表示序列信息所在位置;d_model=512表示Transformer网络模型的尺寸。
在本实施例中需要处理的信息是二维的图像信息,所以为使该Transformer注意力模块能够将各区域联系起来,本实施例对目标空间特征信息F分别沿行向量方向和列向量方向进行位置编码,并将编码叠加后的结果送入Transformer注意力模块进行处理,最后根据得到的结果与模块输入信息计算该模块的损失,以用于后续模块的训练,误差值通过KL相对熵损失函数计算。另外,在编码过程中因为将目标空间信息图上的各区域联系在了一起,使得语义信息表达更准确,所以通过Transformer注意力模块得到的输出结果即目标的感兴趣区域图P,在一定程度上能够反映出图像中目标的分布情况。
在步骤S14中,叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M,得到目标注意力地图A;并将得到的目标注意力地图A与通道特征权重进行计算,得到多通道的空间注意力地图AS
将步骤S13中得到的目标感兴趣区域图P缩放为与空间特征信息F大小相同的区域图,然后通过叠加目标高层语义信息引导的注意力地图M与目标感兴趣区域图P,得到完整的目标注意力地图A,并进行归一化与去除消极特征操作。另外,为使网络能够更多的关注对目标预测结果影响较大的区域,本实施例基于通道特征权重wk与目标注意力地图信息A计算生成了多通道的空间注意力地图AS,其计算方法为:
Figure BDA0002362047450000081
其中,
Figure BDA0002362047450000082
aij表示目标注意力地图A中第(i,j)位置的像素值,
Figure BDA0002362047450000083
表示通道特征权重,计算方法分别为:
Figure BDA0002362047450000091
其中,Ts=0表示多通道的空间注意力地图As的阈值。
本实施例注意到通道特征权重wk可以衡量通道特征信息对目标检测结果的影响大小,因此对权重wk重新处理得到新的通道特征权重wk c以突出权重占比大的通道特征信息:
Figure BDA0002362047450000092
其中,
Figure BDA0002362047450000093
表示第k个通道的新权重值;Tc=0表示通道特征信息的阈值。
在步骤S15中,将所述得到的多通道的空间注意力地图AS与目标空间特征信息F进行结合,得到新的目标空间特征信息Fnew
将目标的空间注意力地图As与从卷积网络中获取的目标空间特征图F组合,得到新的目标空间特征信息Fnew,即实现目标空间特征信息的优化。其组合方法为,按目标特征图的空间和通道维度进行逐像素的乘法操作,计算公式如:
Fnew=F*As
其中,*表示逐像素相乘,Fnew表示新的目标空间特征信息。
在步骤S16中,将得到的新的目标空间特征信息Fnew联合RPN网络的目标候选框,提取出进行目标分类和边界框回归的特征。
将原目标空间特征信息F替换为新得到的目标空间特征信息Fnew,然后应用于RoIPooling感兴趣区域池化层,通过联合RPN网络生成的目标候选框,提取出与目标更相关的特征以进行下一步目标的分类和边界框的回归。
在步骤S17中,在Faster RCNN网络训练过程中,Transformer注意力模块、RPN网络、RCNN网络均产生损失,并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数,然后执行反向传播进行网络参数以及权重的更新
在Faster RCNN网络训练过程中,新的损失函数Loss由Transformer注意力模块的损失与RPN网络和RCNN网络损失叠加生成,如下公式,
Lrpn=Lrpn_cross+Lrpn_reg
Lrcnn=Lrcnn_cross+Lrcnn_reg
Loss=Lrcnn+Lrpn+Ltransformer
其中,Lrpn_cross和Lrpn_reg表示RPN网络的cross_entropy和L1损失;Lrcnn_cross和Lrcnn_reg表示RCNN网络的cross_entropy和L1损失;Ltransformer表示transformer注意力网络的KL损失;其中cross_entropy和L1损失分别用于计算网络的分类损失和边界框的回归损失。
在Faster RCNN网络中,通过反向传播来优化联合后的Loss并逐一更新网络初始参数完成模型端到端的训练过程,从而优化了目标检测的性能。
本实施例首先在网络自下而上的特征提取与自上而下的误差反向传播过程中从目标网络层获取目标相关的空间特征信息与对应的特征梯度信息,梯度特征信息反映了空间特征信息中每一像素点对检测结果的重要性;其次,将目标空间特征信息与特征梯度信息进行加权计算,得到目标高层语义信息(目标类别信息)引导的注意力地图,能够定位目标在图像中的相关区域;然后,根据Transformer模块的输入要求对空间特征信息进行数据预处理,为使得目标空间信息图上的相关区域能够很好地联系在一起,本发明对目标的特征信息进行了先行后列的位置编码,并将编码后叠加的结果送入Transformer注意力模块,以获取目标的空间感兴趣区域图;最后,通过融合该感兴趣区域图和目标语义信息引导的注意力地图,生成了完整的目标注意力地图,并利用该注意力地图在自下而上特征提取过程中优化用于分类和回归的目标空间特征信息。
与现有技术相比,本实施例在Faster RCNN自下而上的检测流程中,引入了NLP自然语言处理领域的Transformer注意力模块,并通过它生成了目标的感兴趣区域图,其次通过融合目标的感兴趣区域图和类别概率信息引导的目标注意力地图得到了完整的目标注意力地图,进而生成更完整的目标空间信息。在归一化操作后,注意力地图中像素点的值揭示了输入图像上的像素点对最终网络检测结果的贡献程度,较好的反映了图像各区域与目标之间的关联性。然后将它应用于RoI Pooling层提取目标特征进而用于目标的分类和回归。在这一过程中,检测网络较充分的利用了目标的空间特征信息,即能够在分类与回归过程中更多使用目标位置信息,所以在一定程度上缓解了目标分类与定位之间的不一致性,优化提升了目标检测的精度。此外,本发明提出的方法是将注意力地图直接应用到了训练阶段,而非被动的利用训练后的网络注意力。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于空间注意力地图的目标检测方法,其特征在于,包括步骤:
S1.将测试图像输入预先训练好的Faster RCNN网络,并自下向上逐层进行特征提取、自上向下逐层进行高层语义信息传播,得到目标的空间特征信息F和与空间特征信息相对应的特征梯度信息G;
S2.对所述得到的目标的空间特征信息F和特征梯度信息G进行加权计算,得到目标高层语义信息引导的注意力地图M;
S3.对所述目标的空间特征信息F进行数据预处理,通过Transformer注意力模块得到目标的感兴趣区域图P;
S4.叠加所述得到的目标感兴趣区域图P和目标高层语义信息引导的注意力地图M,得到目标注意力地图A;并将得到的目标注意力地图A与通道特征权重进行计算,得到多通道的空间注意力地图AS
S5.将所述得到的多通道的空间注意力地图AS与目标空间特征信息F进行结合,得到新的目标空间特征信息Fnew
S6.将得到的新的目标空间特征信息Fnew联合RPN网络的目标候选框,提取出进行目标分类和边界框回归的特征。
2.根据权利要求1所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S6之后还包括:
S7.在Faster RCNN网络训练过程中,Transformer注意力模块、RPN网络、RCNN网络均产生损失,并将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数,然后执行反向传播进行网络参数以及权重的更新。
3.根据权利要求1所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S1中得到目标的空间特征信息和F与空间特征信息相对应的特征梯度信息G是通过卷积神经网络的最后一层卷积层获取到的。
4.根据权利要求1所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S1中特征梯度信息G表示为:
Figure FDA0002362047440000011
其中,
Figure FDA0002362047440000012
表示空间特征信息F中第k个特征图(i,j)位置的元素值;Y表示高层语义信息。
5.根据权利要求4所述的一种基于空间注意力地图的目标检测方法,其特征在于,其特征在于,所述步骤S2中还包括对图像特征梯度信息G采进行全局平均化处理,得到每个通道特征权重wk
Figure FDA0002362047440000021
其中,Zk表示第k个通道中像素点的个数;wk的尺寸大小为C×1,表示第k个特征图对预测类别的重要性;
所述步骤S2中高层语义信息引导的注意力地图M为:
Figure FDA0002362047440000022
其中,ReLU(·)表示非线性修正单元;Fk表示第k个通道的特征图信息。
6.根据权利要求5所述的一种基于空间注意力地图的目标检测方法,其特征在于,其特征在于,所述步骤S3中的进行数据预处理包括多通道值的叠加、尺寸的统一、数值的归一化操作;
所述步骤S3中进行数据预处理之后,通过nn.Embeding()方法将空间特征信息F映射到指定512维度,并对每一维度特征图中分别位于奇数和偶数位置的序列信息采用正弦和余弦函数进行位置编码,编码计算方法如下:
PE(pos,2l)=sin(pos/100002l/d_model)
PE(pos,2l+1)=cos(pos/100002l/d_model)
其中,pos表示一个连续的整数序列;l表示序列信息所在位置;d_model=512表示Transformer网络模型的尺寸。
7.根据权利要求6所述的一种基于空间注意力地图的目标检测方法,其特征在于,其特征在于,所述步骤S4中还包括将目标感兴趣区域图P通过缩放得到与空间特征信息F大小相同的区域图;
所述步骤S4中得到多通道的空间注意力地图AS为:
Figure FDA0002362047440000031
其中,
Figure FDA0002362047440000032
aij表示目标注意力地图A中第(i,j)位置的像素值,
Figure FDA0002362047440000033
表示通道特征权重,计算方法分别为:
Figure FDA0002362047440000034
其中,Ts=0表示多通道的空间注意力地图As的阈值。
8.根据权利要求7所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S4中还包括对通道特征权重wk重新处理得到新的通道特征权重
Figure FDA0002362047440000036
以得到权重占比的通道特征信息:
Figure FDA0002362047440000035
其中,
Figure FDA0002362047440000037
表示第k个通道的新权重值;Tc=0表示通道特征信息的阈值。
9.根据权利要求8所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S5中得到的多通道的空间注意力地图AS与目标空间特征信息F进行结合的方式为:
Fnew=F*As
其中,*表示逐像素相乘,Fnew表示新的目标空间特征信息。
10.根据权利要求2所述的一种基于空间注意力地图的目标检测方法,其特征在于,所述步骤S7中将Transformer注意力模块的损失与RPN网络、RCNN网络的损失结合,得到新的损失函数具体为:
Lrpn=Lrpn_cross+Lrpn_reg
Lrcnn=Lrcnn_cross+Lrcnn_reg
Loss=Lrcnn+Lrpn+Ltransformer
其中,Lrpn_cross和Lrpn_reg表示RPN网络的cross_entropy和L1损失;Lrcnn_cross和Lrcnn_reg表示RCNN网络的cross_entropy和L1损失;Ltransformer表示transformer注意力网络的KL损失;其中cross_entropy和L1损失分别用于计算网络的分类损失和边界框的回归损失。
CN202010024750.8A 2020-01-10 2020-01-10 一种基于空间注意力地图的目标检测方法 Active CN111259940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010024750.8A CN111259940B (zh) 2020-01-10 2020-01-10 一种基于空间注意力地图的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010024750.8A CN111259940B (zh) 2020-01-10 2020-01-10 一种基于空间注意力地图的目标检测方法

Publications (2)

Publication Number Publication Date
CN111259940A true CN111259940A (zh) 2020-06-09
CN111259940B CN111259940B (zh) 2023-04-07

Family

ID=70948557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010024750.8A Active CN111259940B (zh) 2020-01-10 2020-01-10 一种基于空间注意力地图的目标检测方法

Country Status (1)

Country Link
CN (1) CN111259940B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132216A (zh) * 2020-09-22 2020-12-25 平安国际智慧城市科技股份有限公司 车型识别方法、装置、电子设备及存储介质
CN112651371A (zh) * 2020-12-31 2021-04-13 广东电网有限责任公司电力科学研究院 着装安全检测方法、装置、存储介质及计算机设备
CN112906534A (zh) * 2021-02-07 2021-06-04 哈尔滨市科佳通用机电股份有限公司 一种基于改进后Faster R-CNN网络的锁扣丢失故障检测方法
CN113221987A (zh) * 2021-04-30 2021-08-06 西北工业大学 一种基于交叉注意力机制的小样本目标检测方法
CN113269182A (zh) * 2021-04-21 2021-08-17 山东师范大学 一种基于变体transformer对小区域敏感的目标果实检测方法及系统
CN113591840A (zh) * 2021-06-30 2021-11-02 北京旷视科技有限公司 一种目标检测方法、装置、设备和存储介质
CN113673425A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于Transformer的多视角目标检测方法及系统
CN113836985A (zh) * 2020-06-24 2021-12-24 富士通株式会社 图像处理装置、图像处理方法和计算机可读存储介质
WO2022036567A1 (zh) * 2020-08-18 2022-02-24 深圳市大疆创新科技有限公司 一种目标检测的方法、装置和车载雷达
CN114399628A (zh) * 2021-12-21 2022-04-26 四川大学 复杂空间环境下的绝缘子高效检测系统
CN117542045A (zh) * 2024-01-10 2024-02-09 济南大学 一种基于空间引导自注意力的食品识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
CN108509949A (zh) * 2018-02-05 2018-09-07 杭州电子科技大学 基于注意力地图的目标检测方法
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN109784375A (zh) * 2018-12-22 2019-05-21 国网内蒙古东部电力有限公司 基于Faster RCNN的自适应变压器部件检测识别方法
KR20190113119A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 합성곱 신경망을 위한 주의집중 값 계산 방법
WO2019240900A1 (en) * 2018-06-12 2019-12-19 Siemens Aktiengesellschaft Attention loss based deep neural network training

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN108509949A (zh) * 2018-02-05 2018-09-07 杭州电子科技大学 基于注意力地图的目标检测方法
KR20190113119A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 합성곱 신경망을 위한 주의집중 값 계산 방법
WO2019240900A1 (en) * 2018-06-12 2019-12-19 Siemens Aktiengesellschaft Attention loss based deep neural network training
CN109784375A (zh) * 2018-12-22 2019-05-21 国网内蒙古东部电力有限公司 基于Faster RCNN的自适应变压器部件检测识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MENG ZHANG等: "Spatial attention model based target detection for aerial robotic systems" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836985A (zh) * 2020-06-24 2021-12-24 富士通株式会社 图像处理装置、图像处理方法和计算机可读存储介质
WO2022036567A1 (zh) * 2020-08-18 2022-02-24 深圳市大疆创新科技有限公司 一种目标检测的方法、装置和车载雷达
CN112132216B (zh) * 2020-09-22 2024-04-09 平安国际智慧城市科技股份有限公司 车型识别方法、装置、电子设备及存储介质
CN112132216A (zh) * 2020-09-22 2020-12-25 平安国际智慧城市科技股份有限公司 车型识别方法、装置、电子设备及存储介质
CN112651371A (zh) * 2020-12-31 2021-04-13 广东电网有限责任公司电力科学研究院 着装安全检测方法、装置、存储介质及计算机设备
CN112906534A (zh) * 2021-02-07 2021-06-04 哈尔滨市科佳通用机电股份有限公司 一种基于改进后Faster R-CNN网络的锁扣丢失故障检测方法
CN113269182A (zh) * 2021-04-21 2021-08-17 山东师范大学 一种基于变体transformer对小区域敏感的目标果实检测方法及系统
CN113221987A (zh) * 2021-04-30 2021-08-06 西北工业大学 一种基于交叉注意力机制的小样本目标检测方法
CN113591840A (zh) * 2021-06-30 2021-11-02 北京旷视科技有限公司 一种目标检测方法、装置、设备和存储介质
CN113673425A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于Transformer的多视角目标检测方法及系统
CN113673425B (zh) * 2021-08-19 2022-03-15 清华大学 一种基于Transformer的多视角目标检测方法及系统
CN114399628A (zh) * 2021-12-21 2022-04-26 四川大学 复杂空间环境下的绝缘子高效检测系统
CN114399628B (zh) * 2021-12-21 2024-03-08 四川大学 复杂空间环境下的绝缘子高效检测系统
CN117542045A (zh) * 2024-01-10 2024-02-09 济南大学 一种基于空间引导自注意力的食品识别方法及系统
CN117542045B (zh) * 2024-01-10 2024-05-10 山东记食信息科技有限公司 一种基于空间引导自注意力的食品识别方法及系统

Also Published As

Publication number Publication date
CN111259940B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
US20230186056A1 (en) Grabbing detection method based on rp-resnet
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN110245620B (zh) 一种基于注意力的非最大化抑制方法
WO2023217163A1 (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN110135446B (zh) 文本检测方法及计算机存储介质
CN111160407A (zh) 一种深度学习目标检测方法及系统
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN112381763A (zh) 一种表面缺陷检测方法
CN111598183A (zh) 一种多特征融合图像描述方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN112561801A (zh) 基于se-fpn的目标检测模型训练方法、目标检测方法及装置
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
CN117173409A (zh) 一种实时的交互式图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant