CN114612791A - 一种基于改进注意力机制的目标检测方法及装置 - Google Patents

一种基于改进注意力机制的目标检测方法及装置 Download PDF

Info

Publication number
CN114612791A
CN114612791A CN202210508835.2A CN202210508835A CN114612791A CN 114612791 A CN114612791 A CN 114612791A CN 202210508835 A CN202210508835 A CN 202210508835A CN 114612791 A CN114612791 A CN 114612791A
Authority
CN
China
Prior art keywords
channel
information
characteristic information
attention
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210508835.2A
Other languages
English (en)
Other versions
CN114612791B (zh
Inventor
徐钒鑫
吕赫
唐学智
向伟
刘兴文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Minzu University
Original Assignee
Southwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Minzu University filed Critical Southwest Minzu University
Priority to CN202210508835.2A priority Critical patent/CN114612791B/zh
Publication of CN114612791A publication Critical patent/CN114612791A/zh
Application granted granted Critical
Publication of CN114612791B publication Critical patent/CN114612791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请实施例提供了一种基于改进注意力机制的目标检测方法及装置。用于提升目标检测的准确性。所述方法包括:获取第一通道特征信息和第二通道特征信息;其中,第一通道特征信息为进行全局平均池化处理得到的特征信息,第二通道特征信息为进行全局最大池化处理,并经过第一激活函数进行归一化处理之后得到的特征信息;通过多层感知机基于第一通道特征信息和第二通道特征信息生成输出特征信息;将输出特征信息输入第一激活函数得到通道注意力信息;将通道注意力信息与原始特征图合并得到通道特征图;基于空间注意力机制对通道特征图进行处理得到空间注意力信息;将空间注意力信息与通道特征图合并得到目标特征图;基于目标特征图进行目标检测。

Description

一种基于改进注意力机制的目标检测方法及装置
技术领域
本发明涉及视觉技术领域,尤其涉及一种基于改进注意力机制的目标检测方法及装置。
背景技术
随着深度卷积神经网络的飞速发展,注意力机制在增强卷积网络的性能上显示出了巨大的潜力。目前,应用在视觉任务的注意力机制包括通道注意力机制或空间注意力机制,或将二者结合到一起,例如:压缩激励网络(Squeeze-and-Excitation Networks,SENet)及其变体,通道空间注意力模块(Channel Block Attention Module,CBAM),瓶颈注意力模块(Bottleneck Attention Module,BAM),有效的通道注意力网络(EfficientChannel Attention Networks,ECANet)等等,其中,SENet与ECANet中仅学习通道注意力,而仅基于通道注意力进行目标检测时,检测的准确性较低,CBAM虽然同时学习通道注意力与空间注意力,但在学习的过程中,方法比较复杂,且对语义信息利用程度较低,使得目标检测的准确性也较低。
发明内容
本申请实施例提供了一种基于改进注意力机制的目标检测方法及装置。用于提升目标检测的准确性。
第一方面,提供一种基于改进注意力机制的目标检测方法,所述方法包括:
获取第一通道特征信息和第二通道特征信息;其中,所述第一通道特征信息为将原始特征图在每个通道上的全局空间信息进行全局平均池化处理得到的特征信息,所述第二通道特征信息为将所述原始特征图在所述每个通道上的全局空间信息进行全局最大池化处理,并将进行所述全局最大池化处理的输出结果输入第一激活函数进行归一化处理之后得到的特征信息;
通过多层感知机基于所述第一通道特征信息和第二通道特征信息生成输出特征信息;其中,所述输出特征信息用于表征每个通道与每个通道之间的互相关关系;
将所述输出特征信息输入所述第一激活函数进行归一化处理,得到通道注意力信息;
将所述通道注意力信息与所述原始特征图合并,得到通道特征图;
基于空间注意力机制对所述通道特征图进行处理,得到空间注意力信息;
将所述空间注意力信息与所述通道特征图合并,得到目标特征图;
基于所述目标特征图进行目标检测。
可选的,所述通过多层感知机基于所述第一通道特征信息和第二通道特征信息生成输出特征信息,包括:
将所述第一通道特征信息和第二通道特征信息进行点乘运算,得到合并通道特征信息;
将所述合并通道特征信息输入所述多层感知机生成所述输出特征信息。
可选的,所述基于空间注意力机制对所述通道特征图进行处理,得到空间注意力信息,包括:
分别对所述通道特征图进行全局平均池化和全局最大池化处理,得到第一空间特征信息和第二空间特征信息;
将所述第一空间特征信息和第二空间特征信息基于通道维度进行拼接,得到合并空间特征信息;
对所述合并空间特征信息进行标准卷积运算,将运算结果输入所述第一激活函数进行归一化处理,得到所述空间注意力信息。
可选的,所述多层感知机中包括第二激活函数,所述第二激活函数为非线性函数,用于增强所述多层感知机的输出特征信息的非线性表达能力。
第二方面,提供一种基于改进注意力机制的目标检测装置,所述装置包括:
获取模块,用于获取第一通道特征信息和第二通道特征信息;其中,所述第一通道特征信息为将原始特征图在每个通道上的全局空间信息进行全局平均池化处理得到的特征信息,所述第二通道特征信息为将所述原始特征图在所述每个通道上的全局空间信息进行全局最大池化处理,并将进行所述全局最大池化处理的输出结果输入第一激活函数进行归一化处理之后得到的特征信息;
处理模块,用于通过多层感知机基于所述第一通道特征信息和第二通道特征信息生成输出特征信息;其中,所述输出特征信息用于表征每个通道与每个通道之间的互相关关系;
所述处理模块,还用于将所述输出特征信息输入所述第一激活函数进行归一化处理,得到通道注意力信息;
所述处理模块,还用于将所述通道注意力信息与所述原始特征图合并,得到通道特征图;
所述处理模块,还用于基于空间注意力机制对所述通道特征图进行处理,得到空间注意力信息;
所述处理模块,还用于将所述空间注意力信息与所述通道特征图合并,得到目标特征图;
所述处理模块,还用于基于所述目标特征图进行目标检测。
可选的,所述处理模块,具体用于:
将所述第一通道特征信息和第二通道特征信息进行点乘运算,得到合并通道特征信息;
将所述合并通道特征信息输入所述多层感知机生成所述输出特征信息。
可选的,所述处理模块,具体用于:
分别对所述通道特征图进行全局平均池化和全局最大池化处理,得到第一空间特征信息和第二空间特征信息;
将所述第一空间特征信息和第二空间特征信息基于通道维度进行拼接,得到合并空间特征信息;
对所述合并空间特征信息进行标准卷积运算,将运算结果输入所述第一激活函数进行归一化处理,得到所述空间注意力信息。
可选的,所述多层感知机中包括第二激活函数,所述第二激活函数为非线性函数,用于增强所述多层感知机的输出特征信息的非线性表达能力。
第三方面,提供一种电子设备,所述电子设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一所述的方法包括的步骤。
第四方面,提供一种计算可读存储介质,所述计算可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中任一所述的方法包括的步骤。
第五方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述各种可能的实现方式中所描述的基于改进注意力机制的目标检测方法。
在本申请实施例中,将原始特征图在每个通道上的全局空间特征信息进行全局平均池化处理得到第一通道特征信息,以及将原始特征图在每个通道上的全局空间信息进行全局最大池化处理,并将进行全局最大池化处理的输出结果输入第一激活函数进行归一化处理之后得到第二通道特征信息,通过多层感知机基于第一通道特征信息和第二通道特征信息生成用于表征每个通道和每个通道之间互相关关系的输出特征信息,将该输出特征信息输入第一激活函数进行归一化处理,得到通道注意力信息,将通道注意力信息与原始特征图合并,得到通道特征图,并基于空间注意力机制对通道特征图进行处理,得到空间注意力信息,将空间注意力信息与通道特征图合并,得到目标特征图,基于目标特征图进行目标检测。
也就是说,本申请通过使用带有第一激活函数的全局最大池化分支来增强全局平均池化产生的通道语义信息,有效提升了空间注意力学习过程中对通道语义信息的利用,从而有效提升目标检测的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。
图1为本申请实施例提供的一种SE模块结构图;
图2为本申请实施例提供的一种CBAM中通道注意力模块结构图;
图3为本申请实施例提供的一种CBAM中空间注意力模块结构图;
图4为本申请实施例提供的一种基于改进注意力机制的目标检测方法的流程图;
图5为本申请实施例提供的一种改进后的通道注意力模块结构图;
图6为本申请实施例提供的一种改进后的通道注意力模块与空间注意力模块结合后的结构图;
图7为本申请实施例提供的一种基于改进注意力机制的目标检测装置的结构示意图;
图8为本申请实施例中的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
在介绍本申请实施例之前,首先对目前应用在视觉任务的注意力机制的学习过程进行简单的介绍,以SENet和CBAM为例:
SENet
寓意为压缩和提取信息,SE模块的目的是通过学习通道间互相关关系,提升主网络的性能,SE模块结构如图1所示。
一个SE模块可视为映射:
Figure 410366DEST_PATH_IMAGE001
的计算过程,将输入
Figure 327507DEST_PATH_IMAGE002
转换为 特征图:
Figure 234807DEST_PATH_IMAGE003
。其中
Figure 754650DEST_PATH_IMAGE004
表示标准卷积操作,用
Figure 569023DEST_PATH_IMAGE005
代表卷 积核,
Figure 453802DEST_PATH_IMAGE006
为第C个卷积核的参数。则可将输出特征信息
Figure 783152DEST_PATH_IMAGE007
表示为:
Figure 44369DEST_PATH_IMAGE008
公式(1)中,*代表卷积操作,
Figure 713248DEST_PATH_IMAGE009
Figure 768929DEST_PATH_IMAGE010
Figure 585575DEST_PATH_IMAGE011
Figure 387833DEST_PATH_IMAGE012
是二维卷积核,代表在X中每个通道所对应的卷积核。在最终输出中将 所有通道相加求和,便可将通道间的依赖关系嵌入在
Figure 973535DEST_PATH_IMAGE013
中,同时也与卷积核所捕获的空间 依赖关系纠缠在一起。该方法期望通过学习通道互相关性,使得网络能捕获更敏感的通道 特征,获得全局信息。
其中,由于每个卷积核的大小是固定的,正常卷积操作下的输出不能够获得卷积核区域外的语义信息。为了解决该问题,使用压缩操作,将每个通道上的全局空间信息压缩为通道描述信息,具体公式如下:
Figure 590330DEST_PATH_IMAGE014
公式(2)中,
Figure 956590DEST_PATH_IMAGE015
,是由特征图x通过其空间维度
Figure 231713DEST_PATH_IMAGE016
挤压获得的语义信 息,
Figure 344026DEST_PATH_IMAGE017
表示第c个元素通过其空间维度
Figure 7088DEST_PATH_IMAGE016
挤压获得的语义信息,可被认为是局部视 野(卷积核)对整个图像的描述信息,GAV指全局平均池化。
在压缩信息后,还要充分利用其中的通道互相关信息,即需要达到以下要求:能够灵活的学习到通道间的非线性关系;能够学习到非互斥的语义信息,即非独热编码的形式。因此,在SE模块中采用了sigmoid激活函数的门机制。
Figure 344134DEST_PATH_IMAGE018
公式(3)中,
Figure 344320DEST_PATH_IMAGE019
指ReLU激活函数,
Figure 904614DEST_PATH_IMAGE020
指Sigmoid激活函数,
Figure 800895DEST_PATH_IMAGE021
Figure 954795DEST_PATH_IMAGE022
。为降低模型复杂度,提高泛化性,使用有两层全连接层的瓶颈结构。第一个 全连接层起到降维作用,降维系数为r,后接ReLU激活函数,后接第二个全连接层恢复输出 特征的原始维度。
最终将学习到的各通道上的激活值乘
Figure 899618DEST_PATH_IMAGE017
,得到经通道注意力优化后的新特征图
Figure 176403DEST_PATH_IMAGE023
Figure 322213DEST_PATH_IMAGE024
其中,由于该操作学习到了各通道间的权重系数,让模型学习到了不同通道间的信息,也可以认为是通道间的变相的一种自注意力机制。
CBAM
给定中间图特征图
Figure 681519DEST_PATH_IMAGE025
作为输入,CBAM模块依次在通道与空间上进 行注意力操作,得到1维通道特征图
Figure 305399DEST_PATH_IMAGE026
和2维空间特征图,整个过程可总结为 (⊗为点乘操作):
Figure 840285DEST_PATH_IMAGE027
具体过程如下:
首先,对输入特征图
Figure 953735DEST_PATH_IMAGE025
同时使用平均池化与最大池化,聚合特征图 中的空间信息,分别产生两种不同的空间语义信息:
Figure 800337DEST_PATH_IMAGE028
Figure 227907DEST_PATH_IMAGE029
,然后将两种不同的空 间语义信息都送入带有一层隐藏层的多层感知机中,产生通道特征图
Figure 289404DEST_PATH_IMAGE030
,为 减少参数,隐藏层中的激活函数量设为:
Figure 636072DEST_PATH_IMAGE031
,其中r是缩减比例,最终将两个分别输 出的语义信息,与原特征图的特征向量用点乘操作合并到一起,公式如下:
Figure 48599DEST_PATH_IMAGE032
其中
Figure 141844DEST_PATH_IMAGE020
代表sigmoid激活函数,在感知机中的
Figure 385744DEST_PATH_IMAGE033
Figure 496788DEST_PATH_IMAGE034
代指共享权重层;
Figure 396611DEST_PATH_IMAGE033
后接 ReLU激活函数,最终接sigmoid激活函数,便于与原特征图合并得到优化的特征图T。其中, CBAM中通道注意力模块结构图如图2所示。
然后,将经CAM模块优化的特征图T,分别进行平均池化与最大池化,产生两个空间 二维特征图:
Figure 165984DEST_PATH_IMAGE035
Figure 529969DEST_PATH_IMAGE036
,并将它们合并产生特征信息。 然后使用标准卷积操作,生成二维空间注意力特征图:
Figure 952860DEST_PATH_IMAGE037
,用于确定是要 强调还是抑制特征信息,公示表示如下:
Figure 402296DEST_PATH_IMAGE038
其中
Figure 772097DEST_PATH_IMAGE020
代表sigmoid激活函数,
Figure 725010DEST_PATH_IMAGE039
为卷积核为7*7的标准卷积操作。其中,CBAM 中空间注意力模块结构图如图3所示。
下面结合说明书附图对本申请实施例提供的基于改进注意力机制的目标检测方法进行介绍。请参见图4所示,本申请实施例中的基于改进注意力机制的目标检测方法的流程描述如下:
步骤401:获取第一通道特征信息和第二通道特征信息;
在本申请实施例中,将经过卷积网络的特征图
Figure 587311DEST_PATH_IMAGE025
(即本申请实施例 中所述的原始特征图)在每个通道上的全局空间信息进行全局平均池化处理,获得第一通 道特征信息
Figure 258464DEST_PATH_IMAGE040
,同时将该原始特征图在每个通道上的全局空间信息进行全局最 大池化处理,并将进行全局最大池化处理的输出结果输入第一激活函数(例如是sigmoid激 活函数),获得第二通道特征信息
Figure 494273DEST_PATH_IMAGE041
步骤402:通过多层感知机基于第一通道特征信息和第二通道特征信息生成输出特征信息;
其中,输出特征信息用于表征每个通道与每个通道之间的互相关关系。在本申请实施例中,作为一种可能的实施方式,在获取第一通道特征信息和第二通道特征信息之后,将第一通道特征信息和第二通道特征信息使用点乘运算合并在一起,得到合并通道特征信息,并将合并通道特征信息输入多层感知机生成该输出特征信息。输出特征信息可以通过如下公式表示:
Figure 629588DEST_PATH_IMAGE042
进一步地,将公式(11)中的进行全局平均池化处理和全局最大池化处理之后得到的特征信息用步骤401所述的第一通道特征信息和第二通道特征信息进行表示,可得到如下公式:
Figure 722178DEST_PATH_IMAGE043
其中,
Figure 880627DEST_PATH_IMAGE044
指多层感知机,多层感知机中包含隐藏层,隐藏层大小设置为
Figure 645759DEST_PATH_IMAGE031
r是缩减比例,用于减少模块参数,且在多层感知机中应用第二激活函数(例如是ReLU激活 函数),第二激活函数为非线性函数,用于增强多层感知机的输出特征信息的非线性表达能 力,且能够让模型学习到更复杂的非线性关系。
在具体的实施过程中,经过归一化处理的第二通道特征信息对应的特征值属于区间[0,1],在将第一通道特征信息和第二通道特征信息相乘之后,可以根据第一通道特征信息的变化量确定每个通道的特征信息是要增强还是抑制,使得目标检测网络可以更加准确,高效的学习到重要特征信息,抑制冗余信息。
步骤403:将输出特征信息输入第一激活函数进行归一化处理,得到通道注意力信息;
在本申请实施例中,得到通道注意力信息为对步骤402得到的输出特征信息通过归一化处理之后的信息,具体表示如下:
Figure 573264DEST_PATH_IMAGE045
步骤404:将通道注意力信息与原始特征图合并,得到通道特征图;
其中,将通道注意力信息与原始特征图合并的过程与CBAM模块将1维通道特征图与中间特征图的合并过程相同,具体实施方式可以参考公式(5)。
步骤405:基于空间注意力机制对通道特征图进行处理,得到空间注意力信息;
在本申请实施例中,在得到通道特征图(例如是特征图T)之后,分别对通道特征图 进行全局平均池化和全局最大池化处理,得到第一空间特征信息
Figure 774438DEST_PATH_IMAGE046
和第 二空间特征信息
Figure 357866DEST_PATH_IMAGE047
,将第一空间特征信息
Figure 669899DEST_PATH_IMAGE046
和第二 空间特征信息
Figure 779806DEST_PATH_IMAGE047
基于通道维度进行拼接,得到合并空间特征信息,对合 并通道特征信息进行标准卷积运算,将运算结果输入第一激活函数进行归一化处理,得到 空间注意力信息,公式表示如下:
Figure 151881DEST_PATH_IMAGE048
步骤406:将空间注意力信息与通道特征图合并,得到目标特征图;
步骤407:基于目标特征图进行目标检测。
在具体的实施过程中,通过对通道注意力模块结构进行改进,改进后的结构如图5所示,改进后的通道注意力模块将经全局平均池化产生的通道语义信息与全局最大池化产生的语义信息通过点乘合并到一起,使得目标检测网络基于目标特征图能够更加准确高效的学习到重要特征信息,抑制冗余信息。同时,本申请将改进后的通道注意力模块与空间注意力模块进行结合,结合后的注意力模块结构如图6所示,使得结合后的注意力模块能最大程度上增强模型效果,且本申请沿用CBAM中先通道注意力后空间注意力的模块放置顺序,能最大程度的提升注意力机制产生的语义信息利用程度,几乎不增加网络的计算消耗与模型参数,能够灵活的集成在主网络的各卷积块之间。
在介绍完本申请注意力模块的改进过程之后,下面展示集中本申请将改进后的注意力模块(后面统称为增强注意力模块(Enhanced Channel Block Attention Module,ECBAM))与其他注意力模块在目标检测网络中对网络性能提升的对比结果,需要说明的是,不同注意力机制均在同一方法,同一数据集上进行测试。
第一种:不同检测网络骨干和不同注意力模块的实验结果对比,对比结果如表1所示:
Figure 284922DEST_PATH_IMAGE049
表1
其中,params指参数量,用于衡量模型的复杂度,GFLOPS指计算量,用于衡量模型每秒所执行的浮点运算次数,AP指目标检测的平均精度,AP 50 指IoU阈值为0.5时的AP测量值,IoU指真实检测框与预测检测框的面积交集占两者面积并集的比例,AP 75 指IoU阈值为0.75时的AP测量值,AP s 指像素面积小于322的AP测量值,AP M 指像素面积在322~962之间的AP测量值,AP L 指像素面积大于962AP测量值,通过实验结果可以看出,基于ECBAM注意力模块的目标检测精度明显优于基于SENet与CBAM模块的目标检测精度,更有效的利用了通道注意力与空间注意力机制产生的语义信息,同时基本不额外增加计算耗费与模型参数,显著提升了对中等尺寸目标的检测效果。
第2种,不同通道注意力模块在TE-YOLOF目标检测网络中的性能对比,骨干网络均为EfficientNet-B0,对比结果如表2所示:
Figure 338329DEST_PATH_IMAGE050
表2
表2中进行对比的模块包括ECA block,CAM block,SE block与ECAM block,均为通道注意力模块,未引入空间注意力模块。从表2可以得出,本申请实施例提供的改进的通道注意力模块(ECAM)相较其他通道注意力模块能够更大幅度提升目标检测网络的性能,并且未引入冗余参数与额外计算消耗。
第3种,不同通道注意力模块添加空间注意力模块之后,在TE-YOLOF目标检测网络中的性能对比,骨干网络均为EfficientNet-B0,对比结果如表3所示:
Figure 243356DEST_PATH_IMAGE051
表3
从表3可以得出,在通道注意力机制的基础上引入空间注意力机制,同样可以有效提升目标检测网络的性能,且引入空间注意力机制后的ECBAM模块额外增加了与ECAMblock相比约50%左右的性能提升,有效提升了对目标检测的准确性。以及ECBAM模块总体相较原网络也仅仅引入了极少量参数,与其他注意力模块参数量基本相同。
基于同一发明构思,本申请实施例提供了一种基于改进注意力机制的目标检测装置,该基于改进注意力机制的目标检测装置能够实现前述的基于改进注意力机制的目标检测方法对应的功能。该基于改进注意力机制的目标检测装置可以是硬件结构、软件模块、或硬件结构加软件模块。该基于改进注意力机制的目标检测装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图7所示,该基于改进注意力机制的目标检测装置包括获取模块701和处理模块702。其中:
获取模块701,用于获取第一通道特征信息和第二通道特征信息;其中,所述第一通道特征信息为将原始特征图在每个通道上的全局空间信息进行全局平均池化处理得到的特征信息,所述第二通道特征信息为将所述原始特征图在所述每个通道上的全局空间信息进行全局最大池化处理,并将进行所述全局最大池化处理的输出结果输入第一激活函数进行归一化处理之后得到的特征信息;
所述获取模块701,还用于将获取的第一通道特征信息和第二通道特征信息传递给处理模块702,以使处理模块702基于获取模块701发送的信息进行相应处理,具体的:
所述处理模块702,用于通过多层感知机基于所述第一通道特征信息和第二通道特征信息生成输出特征信息;其中,所述输出特征信息用于表征每个通道与每个通道之间的互相关关系;
所述处理模块702,还用于将所述输出特征信息输入所述第一激活函数进行归一化处理,得到通道注意力信息;
所述处理模块702,还用于将所述通道注意力信息与所述原始特征图合并,得到通道特征图;
所述处理模块702,还用于基于空间注意力机制对所述通道特征图进行处理,得到空间注意力信息;
所述处理模块702,还用于将所述空间注意力信息与所述通道特征图合并,得到目标特征图;
所述处理模块702,还用于基于所述目标特征图进行目标检测。
可选的,所述处理模块702,具体用于:
将所述第一通道特征信息和第二通道特征信息进行点乘运算,得到合并通道特征信息;
将所述合并通道特征信息输入所述多层感知机生成所述输出特征信息。
可选的,所述处理模块702,具体用于:
分别对所述通道特征图进行全局平均池化和全局最大池化处理,得到第一空间特征信息和第二空间特征信息;
将所述第一空间特征信息和第二空间特征信息基于通道维度进行拼接,得到合并空间特征信息;
对所述合并空间特征信息进行标准卷积运算,将运算结果输入所述第一激活函数进行归一化处理,得到所述空间注意力信息。
可选的,所述多层感知机中包括第二激活函数,所述第二激活函数为非线性函数,用于增强所述多层感知机的输出特征信息的非线性表达能力。
前述的基于改进注意力机制的目标检测方法的实施例涉及的各步骤的所有相关内容均可援引到本申请施例中的基于改进注意力机制的目标检测装置所对应的功能模块的功能描述,在此不再赘述。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本申请实施例提供一种电子设备。请参见图8所示,该电子设备包括至少一个处理器801,以及与至少一个处理器连接的存储器802,本申请实施例中不限定处理器801与存储器802之间的具体连接介质,图8中是以处理器801和存储器802之间通过总线800连接为例,总线800在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线800可以分为地址总线、数据总线、控制总线等,为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,存储器802存储有可被至少一个处理器801执行的指令,至少一个处理器801通过执行存储器802存储的指令,可以执行前述的基于改进注意力机制的目标检测方法中所包括的步骤。
其中,处理器801是电子设备的控制中心,可以利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器802内的指令以及调用存储在存储器802内的数据,电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器801可包括一个或多个处理单元,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。在一些实施例中,处理器801和存储器802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的基于改进注意力机制的目标检测方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器801进行设计编程,可以将前述实施例中介绍的基于改进注意力机制的目标检测方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的基于改进注意力机制的目标检测方法的步骤,如何对处理器801进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种计算可读存储介质,该计算可读存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的基于改进注意力机制的目标检测方法的步骤。
在一些可能的实施方式中,本申请提供的基于改进注意力机制的目标检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该检测设备执行本说明书上述描述的根据本申请各种示例性实施方式的基于改进注意力机制的目标检测方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种基于改进注意力机制的目标检测方法,其特征在于,所述方法包括:
获取第一通道特征信息和第二通道特征信息;其中,所述第一通道特征信息为将原始特征图在每个通道上的全局空间信息进行全局平均池化处理得到的特征信息,所述第二通道特征信息为将所述原始特征图在所述每个通道上的全局空间信息进行全局最大池化处理,并将进行所述全局最大池化处理的输出结果输入第一激活函数进行归一化处理之后得到的特征信息;
通过多层感知机基于所述第一通道特征信息和第二通道特征信息生成输出特征信息;其中,所述输出特征信息用于表征每个通道与每个通道之间的互相关关系;
将所述输出特征信息输入所述第一激活函数进行归一化处理,得到通道注意力信息;
将所述通道注意力信息与所述原始特征图合并,得到通道特征图;
基于空间注意力机制对所述通道特征图进行处理,得到空间注意力信息;
将所述空间注意力信息与所述通道特征图合并,得到目标特征图;
基于所述目标特征图进行目标检测。
2.如权利要求1所述的方法,其特征在于,所述通过多层感知机基于所述第一通道特征信息和第二通道特征信息生成输出特征信息,包括:
将所述第一通道特征信息和第二通道特征信息进行点乘运算,得到合并通道特征信息;
将所述合并通道特征信息输入所述多层感知机生成所述输出特征信息。
3.如权利要求1所述的方法,其特征在于,所述基于空间注意力机制对所述通道特征图进行处理,得到空间注意力信息,包括:
分别对所述通道特征图进行全局平均池化和全局最大池化处理,得到第一空间特征信息和第二空间特征信息;
将所述第一空间特征信息和第二空间特征信息基于通道维度进行拼接,得到合并空间特征信息;
对所述合并空间特征信息进行标准卷积运算,将运算结果输入所述第一激活函数进行归一化处理,得到所述空间注意力信息。
4.如权利要求2所述的方法,其特征在于,所述多层感知机中包括第二激活函数,所述第二激活函数为非线性函数,用于增强所述多层感知机的输出特征信息的非线性表达能力。
5.一种基于改进注意力机制的目标检测装置,其特征在于,所述装置包括:
获取模块,用于获取第一通道特征信息和第二通道特征信息;其中,所述第一通道特征信息为将原始特征图在每个通道上的全局空间信息进行全局平均池化处理得到的特征信息,所述第二通道特征信息为将所述原始特征图在所述每个通道上的全局空间信息进行全局最大池化处理,并将进行所述全局最大池化处理的输出结果输入第一激活函数进行归一化处理之后得到的特征信息;
处理模块,用于通过多层感知机基于所述第一通道特征信息和第二通道特征信息生成输出特征信息;其中,所述输出特征信息用于表征每个通道与每个通道之间的互相关关系;
所述处理模块,还用于将所述输出特征信息输入所述第一激活函数进行归一化处理,得到通道注意力信息;
所述处理模块,还用于将所述通道注意力信息与所述原始特征图合并,得到通道特征图;
所述处理模块,还用于基于空间注意力机制对所述通道特征图进行处理,得到空间注意力信息;
所述处理模块,还用于将所述空间注意力信息与所述通道特征图合并,得到目标特征图;
所述处理模块,还用于基于所述目标特征图进行目标检测。
6.如权利要求5所述的装置,其特征在于,所述处理模块,具体用于:
将所述第一通道特征信息和第二通道特征信息进行点乘运算,得到合并通道特征信息;
将所述合并通道特征信息输入所述多层感知机生成所述输出特征信息。
7.如权利要求5所述的装置,其特征在于,所述处理模块,具体用于:
分别对所述通道特征图进行全局平均池化和全局最大池化处理,得到第一空间特征信息和第二空间特征信息;
将所述第一空间特征信息和第二空间特征信息基于通道维度进行拼接,得到合并空间特征信息;
对所述合并空间特征信息进行标准卷积运算,将运算结果输入所述第一激活函数进行归一化处理,得到所述空间注意力信息。
8.如权利要求6所述的装置,其特征在于,所述多层感知机中包括第二激活函数,所述第二激活函数为非线性函数,用于增强所述多层感知机的输出特征信息的非线性表达能力。
CN202210508835.2A 2022-05-11 2022-05-11 一种基于改进注意力机制的目标检测方法及装置 Active CN114612791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210508835.2A CN114612791B (zh) 2022-05-11 2022-05-11 一种基于改进注意力机制的目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210508835.2A CN114612791B (zh) 2022-05-11 2022-05-11 一种基于改进注意力机制的目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN114612791A true CN114612791A (zh) 2022-06-10
CN114612791B CN114612791B (zh) 2022-07-29

Family

ID=81870438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210508835.2A Active CN114612791B (zh) 2022-05-11 2022-05-11 一种基于改进注意力机制的目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN114612791B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN116434039A (zh) * 2023-06-12 2023-07-14 济南大学 一种基于多尺度拆分注意力机制的目标检测方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019003396A (ja) * 2017-06-15 2019-01-10 コニカミノルタ株式会社 目的物体検出装置、該方法およびプログラム
US20190065885A1 (en) * 2017-08-29 2019-02-28 Beijing Samsung Telecom R&D Center Object detection method and system
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、系统
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN112819910A (zh) * 2021-01-08 2021-05-18 上海理工大学 基于双鬼注意力机制网络的高光谱图像重建方法
WO2021115159A1 (zh) * 2019-12-09 2021-06-17 中兴通讯股份有限公司 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
CN113065588A (zh) * 2021-03-24 2021-07-02 齐鲁工业大学 基于双线性注意力网络的医学影像数据分类方法及系统
CN113191391A (zh) * 2021-04-07 2021-07-30 浙江省交通运输科学研究院 一种针对三维探地雷达图谱的道路病害分类方法
CN113539297A (zh) * 2021-07-08 2021-10-22 中国海洋大学 一种用于声音分类的联合注意力机制模型、方法及应用
US20220058431A1 (en) * 2020-08-19 2022-02-24 Lg Electronics Inc. Semantic input sampling for explanation (sise) of convolutional neural networks
CN114090801A (zh) * 2021-10-19 2022-02-25 山东师范大学 深度对抗注意力跨模态哈希检索方法及系统
CN114118131A (zh) * 2021-09-29 2022-03-01 北京交通大学 基于注意力机制的多特征融合无线设备射频指纹提取方法
CN114186234A (zh) * 2021-12-16 2022-03-15 西南民族大学 基于轻量级网络ESPNet的恶意代码检测算法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019003396A (ja) * 2017-06-15 2019-01-10 コニカミノルタ株式会社 目的物体検出装置、該方法およびプログラム
US20190065885A1 (en) * 2017-08-29 2019-02-28 Beijing Samsung Telecom R&D Center Object detection method and system
WO2021115159A1 (zh) * 2019-12-09 2021-06-17 中兴通讯股份有限公司 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
CN111898617A (zh) * 2020-06-29 2020-11-06 南京邮电大学 基于注意力机制与并行空洞卷积网络的目标检测方法、系统
US20220058431A1 (en) * 2020-08-19 2022-02-24 Lg Electronics Inc. Semantic input sampling for explanation (sise) of convolutional neural networks
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN112819910A (zh) * 2021-01-08 2021-05-18 上海理工大学 基于双鬼注意力机制网络的高光谱图像重建方法
CN113065588A (zh) * 2021-03-24 2021-07-02 齐鲁工业大学 基于双线性注意力网络的医学影像数据分类方法及系统
CN113191391A (zh) * 2021-04-07 2021-07-30 浙江省交通运输科学研究院 一种针对三维探地雷达图谱的道路病害分类方法
CN113539297A (zh) * 2021-07-08 2021-10-22 中国海洋大学 一种用于声音分类的联合注意力机制模型、方法及应用
CN114118131A (zh) * 2021-09-29 2022-03-01 北京交通大学 基于注意力机制的多特征融合无线设备射频指纹提取方法
CN114090801A (zh) * 2021-10-19 2022-02-25 山东师范大学 深度对抗注意力跨模态哈希检索方法及系统
CN114186234A (zh) * 2021-12-16 2022-03-15 西南民族大学 基于轻量级网络ESPNet的恶意代码检测算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YINGSEN ZENG: "Efficient Dual Attention Module for Real-Time Visual Tracking", 《2019 IEEE VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP)》 *
张新华等: "基于深度学习的卫星图像道路分割算法", 《计算机工程》 *
高丹等: "A-PSPNet:一种融合注意力机制的PSPNet图像语义分割模型", 《中国电子科学研究院学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN115205986B (zh) * 2022-08-09 2023-05-19 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN116434039A (zh) * 2023-06-12 2023-07-14 济南大学 一种基于多尺度拆分注意力机制的目标检测方法
CN116434039B (zh) * 2023-06-12 2023-10-13 济南大学 一种基于多尺度拆分注意力机制的目标检测方法

Also Published As

Publication number Publication date
CN114612791B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114612791B (zh) 一种基于改进注意力机制的目标检测方法及装置
US11521039B2 (en) Method and apparatus with neural network performing convolution
CN111401516B (zh) 一种神经网络通道参数的搜索方法及相关设备
CN111814794B (zh) 文本检测方法、装置、电子设备及存储介质
US20190095212A1 (en) Neural network system and operating method of neural network system
CN109934285B (zh) 一种基于深度学习的图像分类神经网络压缩模型的系统
CN109740508B (zh) 一种基于神经网络系统的图像处理方法及神经网络系统
CN113065997B (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
US20210350230A1 (en) Data dividing method and processor for convolution operation
CN117037215B (zh) 人体姿态估计模型训练方法、估计方法、装置及电子设备
CN114626503A (zh) 模型的训练方法、目标检测方法、装置、电子设备及介质
CN114612477A (zh) 一种轻量化图像分割方法、系统、介质、终端及应用
CN113743618A (zh) 时间序列数据处理方法、装置、可读介质及电子设备
Siéler et al. A scalable and embedded FPGA architecture for efficient computation of grey level co-occurrence matrices and Haralick textures features
KR20210124888A (ko) 뉴럴 네트워크 연산 수행을 위한 뉴럴 네트워크 장치, 뉴럴 네트워크 장치의 동작 방법 및 뉴럴 네트워크 장치를 포함하는 애플리케이션 프로세서
CN116051846A (zh) 图像特征提取方法、装置、计算机设备和存储介质
CN115294361A (zh) 一种特征提取的方法及装置
CN111027670B (zh) 特征图处理方法、装置、电子设备及存储介质
US20210311703A1 (en) Neural network device for neural network operation, operating method of the neural network device, and application processor including the same
CN113553026A (zh) 神经网络装置及其操作方法、应用处理器
CN114820755A (zh) 一种深度图估计方法及系统
CN110930290A (zh) 一种数据处理方法及装置
CN117314756B (zh) 基于遥感图像的验保方法、装置、计算机设备及存储介质
US20230298326A1 (en) Image augmentation method, electronic device and readable storage medium
CN115965856B (zh) 图像检测模型构建方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant