CN116434039A

CN116434039A - 一种基于多尺度拆分注意力机制的目标检测方法

Info

Publication number: CN116434039A
Application number: CN202310685594.3A
Authority: CN
Inventors: 李忠涛; 刘圣勇; 李涛; 杨贵霞; 赵光龙; 郭庆北; 张玉璘
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-07-14
Anticipated expiration: 2043-06-12
Also published as: CN116434039B

Abstract

本申请实施例提供了一种基于多尺度拆分注意力机制的目标检测方法，涉及视觉技术领域。用于实现多尺度注意力融合和增强，提升目标检测的准确性。所述方法包括：获取多个通道数相同的输入尺度，对每个尺度进行拆分注意力操作，进行特征增强，同时获取每个尺度单独的通道特征信息，融合得到全局通道特征信息，然后经过注意力提取获取全局通道注意力，然后分别增强单个尺度输出的增强特征信息，使得单个输出尺度不仅包含自身的增强特征信息，更包含其他相关联特征尺度的特征信息，从而达到多尺度信息融和增强的效果。

Description

一种基于多尺度拆分注意力机制的目标检测方法

技术领域

本发明涉及视觉技术领域，尤其涉及一种基于多尺度拆分注意力机制的目标检测方法。

背景技术

近年来，注意力机制在深度卷积神经网络中的应用获得了广泛关注，并展示出巨大的潜力来增强网络性能。针对视觉任务，目前存在多种注意力机制，包括通道注意力和空间注意力，以及它们的组合形式。其中一些代表性的方法包括压缩激励网络（SENet）及其变体、通道空间注意力模块（CBAM）、拆分注意力模块（SA）、有效的通道注意力网络（ECANet）等。SENet主要关注学习通道注意力，但在仅基于通道注意力进行目标检测时，准确性较低。SA虽然在学习通道注意力时采用了拆分思想，但在多尺度应用场景中无法有效地交互多个尺度的语义信息，导致目标检测的准确性不高。因此，当前的研究对于进一步提升目标检测准确性，需要探索更有效的注意力机制，以便在多尺度场景下能够更好地捕捉关键的语义信息。

发明内容

本申请实施例提供了一种基于多尺度拆分注意力机制的目标检测方法，用于提升目标检测的准确性。

第一方面，提供一种基于多尺度拆分注意力机制的目标检测方法，所述方法包括：

S1、获取第一原始特征图、第二原始特征图和第三原始特征图，三个原始特征图通道数相同；

S2、设置翻倍系数，将第一原始特征图进行卷积，得到通道数量为第一原始特征图通道数乘翻倍系数的第一扩张特征图，将第一扩张特征图按通道分组，得到第一扩张特征图分组，分组数为翻倍系数，分组内所有特征图维度和第一原始特征图相同，将分组内所有特征图进行相加，得到第一中间特征图，第一中间特征图维度和第一原始特征图相同，将第一中间特征图进行平均池化得到第一通道特征信息，构建第一权重生成层，结构从前往后依次为全连接层、激活函数、全连接层、激活函数，将第一通道特征信息输入第一权重生成层，得到第一通道注意力信息，其通道数量为第一原始特征图通道数乘翻倍系数，将第一通道注意力信息按通道分组，得到第一通道注意力信息分组，分组数为翻倍系数，分组内所有通道注意力信息的通道数和第一原始特征图相同，将第一扩张特征图分组和第一通道注意力信息分组按先后顺序相乘，得到第一扩张特征图优化分组，将第一扩张特征图优化分组内所有特征图相加，得到第一输出特征图，其维度和第一原始特征图相同；

S3、根据S2所述相同的输入输出操作方式，输入第二原始特征图和第三原始特征图，得到第二通道特征信息、第三通道特征信息、第二输出特征图、第三输出特征图；

S4、将第一通道特征信息、第二通道特征信息和第三通道特征信息相加，得到全局通道特征信息，其通道数和单个原始特征图通道数相同，构建全局权重生成层，结构从前往后依次为全连接层、激活函数一、全连接层、激活函数二，将全局通道特征信息输入全局权重生成层，得到全局通道注意力信息，通道数为原始特征图通道数乘以原始特征图数量，将全局通道注意力信息按原始特征图数量进行分组，即分成三组，依次和第一输出特征图、第二输出特征图、第三输出特征图相乘，得到第一最终输出特征图、第二最终输出特征图、第三最终输出特征图；

S5基于所述输出特征图进行目标检测。

可选的，S2和S4所述激活函数，其特征在于，激活函数一和激活函数二为非线性函数，用于增强输出特征信息的非线性表达能力。

在本申请实施例中，输入的多个尺度的特征图一般来源于几个途径，例如特征金字塔（FPN）的输出、对单个特征图进行不同大小卷积核的卷积，这些输入特征图带有相同的通道数，不同的高度和宽度，先将多尺度的特征图进行拆分注意力的增强，然后将每个尺度内的通道语义信息进行相加得到全局通道语义信息，通过利用全局通道语义信息增强每个尺度的通道语义信息，使得输出特征图不仅利用了自身特征图的通道语义信息，也利用了其他输入特征图的通道语义信息，实现多个尺度注意力的融合和增强，从而有效提升目标检测的准确性。

附图说明

图1为本申请实施例提供的一种SE模块结构图；

图2为本申请实施例提供的ResNeSt中一种Split-Attention模块结构图；

图3为本申请实施例提供的一种基于多尺度拆分注意力机制的目标检测方法的流程图；

图4为本申请实施例提供的一种基于多尺度拆分注意力模块结构图；

图5为本申请实施例提供的一种基于多尺度拆分注意力模块维度变换示例图。

具体实施方式

在介绍本申请实施例之前，首先对目前应用在视觉任务的注意力机制的学习过程进行简单的介绍，以SENet和Split-Attention为例：

请参见图1所示，SENet（Squeeze-and-Excitation Networks）是一种用于增强深度卷积神经网络性能的注意力机制模型。SENet的核心思想是通过学习通道间的相互关系，自适应地调整每个通道的重要性，从而提升模型在特征表示方面的表达能力。其过程主要为，将输入特征X进行平均池化，把每个通道的特征图转换为一个数值，然后将各个通道数值信息作为输入，首先通过一个全连接层1将输入进行降维，然后经过ReLU激活函数进行非线性变换，再经过一个全连接层2和Sigmod激活函数将通道数恢复到原始维度，最后和输入特征X相乘得到输出特征X。这个过程可以看作是一种通道间的自适应权重学习，用于调整每个通道的激活值。

请参见图2所示，Split-Attention是ResNeSt（Residual Networks with Split-Attention）中的注意力机制，它旨在改善深度卷积神经网络的特征表示能力。Split-Attention通过将通道特征分成若干组，并在每组内进行注意力计算，来增强特征的表达能力。首先将输入特征X进行卷积，并按翻倍系数2在通道方向分成2个子特征组，每个子特征组包含一部分通道特征。然后在每个子特征组内计算注意力权重。每个组内的计算注意力权重和SENet计算通道注意力权重相似，都是将特征进行平均池化，通过一个全连接层1将输入进行降维，然后经过ReLU激活函数进行非线性变换，再经过一个全连接层2和Sigmod激活函数将通道数恢复到原始维度，得到每个子特征组通道的注意力权重，最后和每个子特征组相乘再相加得到输出特征X。

下面结合说明书附图对本申请实施例提供的基于多尺度拆分注意力机制的目标检测方法进行介绍。图2、图4、图5中出现的

和/>

依次表示矩阵相加和相乘操作。

请参见图3所示，本申请实施例中的基于多尺度拆分注意力机制的目标检测方法的流程描述如下：

步骤301：取第一原始特征图、第二原始特征图和第三原始特征图；

在本申请实施例中，获取经过卷积网络和FPN结构输出的第一原始特征图

、第二原始特征图/>

和第三原始特征图

，三个原始特征图有相同的通道数和成比例的宽高。

步骤302：将第一原始特征图进行卷积，进行分组并相加，得到第一中间特征图；

按照

的计算过程，/>

表示标准卷积操纵，将输入

转换为/>

，其中/>

，N为翻倍系数，本实例N均设置为2，用来将特征图进行扩张，并进行分组得到第—扩张特征图分组

、/>

，然后将分组内特征相加，得到第一中间特征图

。

步骤303：将第一中间特征图进行平均池化得到第一通道特征信息；

平均池化公式为

，其中

是特征图X1通过维度H×W挤压获得的第一通道特征信息，AV指的是平均池化。

步骤304：将第一通道特征信息通过全连接层和激活函数，得到第一通道注意力信息；

输入第一通道特征信息Z1，使用公式

，/>

指Sigmod函数，/>

指的是ReLU函数，/>

，/>

，由于设置的翻倍系数N为2，因此/>

。

步骤305：将第一通道注意力信息按通道分组；

按通道分组，分组数为翻倍系数N，即分2组，得到

、

。

步骤306：将第—扩张特征图分组和第一通道注意力信息分组按先后顺序相乘并相加；

按照先后顺序相乘并相加得到

，其中

。

步骤307：得到第一输出特征图；

得到第一输出特征图为

。

步骤308：按照上述方式分别得到第二通道特征信息、第三通道特征信息、第二输出特征图、第三输出特征图；

按照上述方式得到第二通道特征信息

、第三通道特征信息

、第二输出特征图/>

、第三输出特征图

。

步骤309：将第一通道特征信息、第二通道特征信息和第三通道特征信息相加，得到全局通道特征信息

相加得到的全局通道特征信息为

，其中

。

步骤310：将全局通道特征信息通过全连接层和激活函数，得到全局通道注意力信息；

输入全局通道特征信息

，使用公式/>

，

指Sigmod函数，/>

指的是ReLU函数，/>

，

，由于输入的原始特征图数量为3，因此

。

步骤311：将全局通道注意力信息按原始特征图数量进行分组，依次和第一输出特征

图、第二输出特征图、第三输出特征图相乘；

分组得到

、/>

、/>

，分别和/>

、/>

、/>

相乘。

步骤312：得到第一最终输出特征图、第二最终输出特征图、第三最终输出特征图;

最终得到第一最终输出特征图

、第二最终输出特征图/>

、第三最终输出特征图/>

，其中/>

、/>

、/>

。

步骤313：基于所述输出特征图进行目标检测。

请参见图4所示，本申请实施例中的基于改进注意力机制的目标检测模块结构为：输入特征X1、输入特征X2、输入特征X3会经过卷积、特征分组、平均池化、全连接层1、ReLu激活函数、全连接层2、Sigmod激活函数，得到输出特征X1、输出特征X2、输出特征X3，同时输入特征X1、输入特征X2、输入特征X3的通道特征信息通过平均池化提取出来并相加，然后经过全连接层1、ReLu激活函数、全连接层2、Sigmod激活函数，得到全局通道注意力信息，分成三组后分别和输出特征X1、输出特征X2、输出特征X3相乘，最终得到最终输出特征图X1、最终输出特征图X2、最终输出特征图X3。

请参见图5所示，展示了本申请实施例中的基于改进注意力机制的目标检测模块的特征输入维度变化：输入原始特征图个数为3，翻倍系数设置为2，三个原始特征图输入通道数相同，宽高依次按比例下降。以输入特征图1000×500×256为例，特征图高度1000，宽度500，经过卷积后，特征图通道数按照翻倍系数2变为512，然后分为2组并相加，得到1000×500×256，然后经过平均池化获得通道特征信息1×1×256，并通过一个全连接层1将输入进行降维，然后经过ReLU激活函数进行非线性变换，最后再经过一个全连接层2和Sigmod激活函数恢复到1×1×512，然后按照翻倍系数分为2组，每组维度为1×1×256，然后和上述分为2组的的1000×500×256进行相乘并相加，得到输出特征图1000×500×256；输入特征图500×250×256、250×125×256的进行的操作和输入特征图1000×500×256进行的操作相同，然后分别得到输出特征图500×250×256和输出特征图250×125×256；然后将三个输入特征图得到的通道特征信息相加得到全局通道特征信息，并通过一个全连接层1将输入进行降维得到1×1×16，然后经过ReLU激活函数进行非线性变换，最后再经过一个全连接层2和Sigmod激活函数恢复到1×1×768，并分为三组，按顺序和三个输出特征图相乘，得到三个最终输出特征图1000×500×256、500×250×256、250×125×256。

在具体的实施过程中，如图4所示，通过对通道注意力模块和拆分注意力模块进行改进，将原本输入单个尺度特征图变为输入多个尺度特征图，从而实现多尺度特征的融合和增强，使得目标检测网络基于目标特征图能够更加准确高效的学习到重要特征信息，抑制冗余信息，这种模块结构不改变输入特征图的维度，从而能够轻易的插入网络中去，尤其是特征金字塔的后面，也能够灵活的集成在主网络的各卷积块之间。

Claims

1.一种基于多尺度拆分注意力机制的目标检测方法，其特征在于，所述方法包括：

S1、获取第一原始特征图、第二原始特征图和第三原始特征图；

S2、输入第一原始特征图，设置翻倍系数，将第一原始特征图进行卷积，得到第一扩张特征图，将第一扩张特征图按通道分组，得到第一扩张特征图分组，分组数为翻倍系数，将分组内所有特征图进行相加，得到第一中间特征图，将第一中间特征图进行平均池化得到第一通道特征信息，构建第一权重生成层，结构从前往后依次为全连接层、激活函数、全连接层、激活函数，将第一通道特征信息输入第一权重生成层，得到第一通道注意力信息，将第一通道注意力信息按通道分组，得到第一通道注意力信息分组，分组数为翻倍系数，将第一扩张特征图分组和第一通道注意力信息分组按先后顺序相乘，得到第一扩张特征图优化分组，将第一扩张特征图优化分组内所有特征图相加，输出第一输出特征图；

S3、按照S2输入输出操作方式，输入第二原始特征图和第三原始特征图，得到第二通道特征信息、第三通道特征信息、第二输出特征图、第三输出特征图；

S4、将第一通道特征信息、第二通道特征信息和第三通道特征信息相加，得到全局通道特征信息，构建全局权重生成层，结构从前往后依次为全连接层、激活函数一、全连接层、激活函数二，将全局通道特征信息输入全局权重生成层，得到全局通道注意力信息，将全局通道注意力信息按原始特征图数量进行分组，即分成三组，依次和第一输出特征图、第二输出特征图、第三输出特征图相乘，得到第一最终输出特征图、第二最终输出特征图、第三最终输出特征图；

S5、基于所有的最终输出特征图进行目标检测。

2.如权利要求1所述的方法，其特征在于，S2和S4中的激活函数一和激活函数二为非线性函数，用于增强输出特征信息的非线性表达能力。

3.如权利要求1所述的方法，其特征在于，S1中三个原始特征图通道数相同，S2中第一扩张特征图通道数量为第一原始特征图通道数乘翻倍系数，S2中第一扩张特征图分组内所有特征图维度和第一原始特征图相同，S2中第一中间特征图维度和第一原始特征图相同，S2中第一通道注意力信息的通道数量为第一原始特征图通道数乘翻倍系数，S2中第一通道注意力信息分组内所有通道注意力信息的通道数和第一原始特征图相同，S2中第一输出特征图的维度和第一原始特征图相同，S4中全局通道特征信息的通道数和单个原始特征图通道数相同，S4中全局通道注意力信息的通道数为原始特征图通道数乘以原始特征图数量。