CN111709306B

CN111709306B - 基于多层次时空特征融合增强的双流网络行为识别方法

Info

Publication number: CN111709306B
Application number: CN202010441559.3A
Authority: CN
Inventors: 孔军; 王圣全; 蒋敏
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-06-09
Anticipated expiration: 2040-05-22
Also published as: CN111709306A

Abstract

一种基于多层次时空特征融合增强的双流网络行为识别方法。该方法采用了一种基于时空双流网络的网络架构，称作多层次时空特征融合增强网络。针对传统双流网络仅仅在最后层融合两个流的类别概率分布导致浅层特征的作用被忽视以及双流网络的互补特点无法被充分利用的问题，本发明提出多层次时空特征融合模块，在双流不同深度层级通过时空特征融合模块捕获多深度级别的混合特征以充分利用双流网络。此外，在网络中，平等地对待所有特征会削弱那些对分类贡献大的特征的作用。本发明在网络中提出分组增强注意力模块，自动增强特征上的有效区域以及通道的显著性。最终本发明通过汇集双流网络以及特征融合的分类结果，进一步提高了行为识别模型的鲁棒性。

Description

基于多层次时空特征融合增强的双流网络行为识别方法

技术领域

本发明属于机器视觉领域，特别涉及一种基于多层次时空特征融合增强的双流网络行为识别方法。

背景技术

动作识别已成为计算机视觉界的活跃领域，并广泛应用于视频监视，暴力检测，人机交互等各个领域。视频动作识别是为了挖掘可以表达视频所代表的目标动作的关键特征，相比于静态图像，它包含了丰富的运动信息，然而动作场景的多样性仍使得有效特征的提取具有挑战性。因此，本发明以视频为研究对象，针对网络提取视频中的空间和时间特征所面临的问题，提出独特的特征融合方法和注意力方法来有效地提取辨别性特征用于行为识别。

目前，面向视频的行为识别主要使用双流网络，并且发展趋势十分良好。在双流网络中，双流架构通过在外观上和光流堆上分别训练各自的卷积网络来捕获外观信息和运动信息，最后使用分数融合两个卷积网络的分类结果。但是传统双流网络仍旧面临以下问题：(1)如何有效利用两个流分别捕获的信息？(2)网络中平等的对待特征的每个区域与通道会削弱那些对分类有用的区域与通道的作用，如何有效地对捕获特征进行提炼？(3)如何有效地融合获取的空间信息和时间信息？

基于以上考虑，本发明提出一个基于多层次时空特征融合增强的双流网络行为识别方法。首先，使用提出的时空特征融合模块对双流网络不同深度层模块的特征进行融合来提取多深度级别混合特征。其次，利用提出的分组增强注意力模块对提取的混合特征进一步提炼，使网络自动关注特征中对于分类有作用的区域与通道。

发明内容

本发明的主要目的是提出一种基于多层次时空特征融合增强的双流网络(Multiple depth-levels feature fusion enhanced Network，MDFFEN)行为识别方法，更好地获取视频的有效特征以及特征上的辨别性信息，以进行高效的行为识别。

为了实现上述目的，本发明提供如下技术方案：

一种基于多层次时空特征融合增强的双流网络行为识别方法，步骤如下：

步骤一、获取RGB帧：对于数据集中的每个视频进行取帧处理，获得RGB原始帧

N为帧数；

步骤二、计算光流图：应用TVL1[Coloma Ballester,Lluis Garrido,VanelLazcano,and VicentCaselles.Atv-l1 optical flow method with occlusion detection.In JointDagm,2013.]算法对RGB原始帧f_rgb两两进行计算得到光流图

步骤三、对提取的所有RGB帧与光流图分段：将步骤一、步骤二获取的所有RGB帧与光流图平均分成三段

每段时序上连续，且任意两段间不重叠。

步骤四、从s_rgb中每段分别随机获取RGB帧构建空间网络的输入：

其中/>

步骤五、从s_opt中每段分别随机获取多张光流图构建时间的网络输入：

其中/>

步骤六、基于空间网络N_s计算空间类别概率分布O_S:将步骤四构建的空间网络的输入

分别送入空间网络N_s提取特征，空间网络N_s基于InceptionV3^[2]网络构建，再经过全局平均池化操作和全连接操作得到空间类别概率分布/>

其中

表示步骤三的第i个RGB帧分段RGB_i对应的空间类别概率分布；

步骤七、基于时间网络N_t计算时间类别概率分布O_T:将步骤五构建的时间网络的输入

分别送入时间网络N_t提取特征，时间网络N_t基于InceptionV3[ChristianSzegedy,Vincent Vanhoucke,Sergey Ioffe,Jonathon Shlens,and ZbigniewWojna.Rethinking the inception architecture for computervision.In ComputerVision&Pattern Recognition,2016.]网络构建，再经过全局平均池化操作和全连接操作得到时间类别概率分布/>

其中/>

表示步骤三中第i个光流图分段OPT_i对应的时间类别概率；

步骤八、基于双流融合网络N_TSFF计算特征融合类别概率分布O_F：使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络N_s和时间网络N_t的InceptionV3的多个子模块中以融合提取多深度级别混合特征，然后通过分组增强注意力模块对提取的特征进一步提炼，最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布

其中/>

表示步骤三的第i个RGB帧分段RGB_i和第i个光流图分段OPT_i对应的特征融合类别概率分布；

步骤九、计算多段融合的类别概率分布:根据步骤六、步骤七和步骤八得到的多段类别概率分布

与/>

通过三段平均值得到多段融合的类别概率分布/>

步骤十、计算三个流加权融合的类别概率分布δ：在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δ_s、多段融合的时间类别概率分布δ_t和多段融合的特征融合类别概率分布δ_f，本发明使用加权平均融合方法。

步骤十一、计算最终分类结果P：P＝argmax(δ)，其中argmax(δ)为计算δ向量中最大值的索引值，即计算所有行为类别中类别概率分布最高的类别。

与现有的技术相比，本发明具有以下有益效果：

1.通过步骤八构建的双流特征融合网络，在双流的不同深度层进行特征融合获取多深度级别的时空混合特征，充分利用了浅层特征以及双流互补的特点。

2.步骤八构建的双流特征融合网络提出了分组增强注意力模块对提取的混合特征进行进一步提炼局部信息以及全局信息，有效提升了行为识别精度。

附图说明

图1为本发明的算法流程图；

图2为本发明的算法模型图；

图3为双流特征融合网络N_TSFF图；

图4为时空特征融合图；

图5为分组增强注意力模块。

具体实施方式

图2为本发明的整体模型图；

图2表示本发明的算法模型图。算法以多段RGB图像与光流图为输入，模型包括空间网络，时间网络，特征融合网络，多段类别概率分布融合及多流类别概率分布融合五个关键部分。空间网络和时间网络均基于InceptionV3构建的，而特征融合网络是通过空间网络和时间网络构建的，简单来说使用提出的多层次时空特征融合模块以融合不同深度级别的时空混合特征，其中时空混合特征是利用提出的时空特征融合模块融合分别从空间网络和时间网络提取的特征，然后通过提出的分组增强注意力模块以进一步提炼多深度级别混合特征，同空间网络和时间网络一样，使用全局平均池化与全连接操作获得特征融合类别概率分布。然后将每个流的三个分段输入提取的对应的类别概率分布进行融合获取对应流的多段融合类别概率分布，最终，采用加权平均方法融合三个流对应的多段融合类别概率分布。

为了对本发明进行更好的说明，下面以公开的行为数据集UCF101为例进行阐述。

上述技术方案中步骤四中从s_rgb中每段分别随机获取RGB帧的具体方法为：

从步骤三中获得的第i段RGB帧序列RGB_i的随机位置获取连续的L_s张RGB帧得到

其中L_s在本示例中为1。

上述技术方案中步骤五中从s_opt中每段分别随机获取多张光流图的具体方法为：

从步骤三获得的第i段多张光流图OPT_i的随机位置开始获取连续的L_t张光流图得到

其中L_t在本示例中为5。

上述技术方案中步骤八中双流特征融合方法具体为：

传统的双流网络行为识别方法通常是在最后层融合类别概率分布。由于常规特征融合在最终层融合最深层次的特征，浅层的特征对于分类的作用常常被忽视。因此本发明提出多层次时空特征融合模块。具体实现如图3所示。与传统方法不同的是，本发明提出的多层次时空特征融合模块考虑了深度网络的浅层特征，以捕获具有多个深度级别的混合特征。此外，本发明提出了分组增强注意力模块以进一步优化从多层次时空特征融合模块中提取的混合特征。最后，类别概率分布是通过完全连接层FC对特征向量的操作生成的，其中特征向量是通过全局平均池化操作对特征图进行汇总生成的。双流特征融合的全过程从形式上写成如下公式：

其中M_MDFF(·,·)表示多层次时空特征融合模块,M_GSCE(·)表示分组增强注意力模块的输出特征。FC表示完全连接操作，GAP表示全局平均池化操作。

上述技术方案中步骤八中应用的多层次时空特征融合方法为：

InceptionV3由11个串联的子模块组成，分别为Inc.1-Inc.11，可以从中提取不同的深度级别特征。为了进一步提升InceptionV3网络的分类能力，本发明将时空特征融合模块STFF嵌入至空间网络和时间网络的各个子模块中，以捕获具有不同深度层次的新颖特征。本实例选择最后四个子模块，即从Inc.8到Inc.11的子模块，在具体应用中子模块的选择可以根据实际应用进行调整。通过将网络的多个深度的子模块生成的所有混合时空特征进行级联，从而获取具有多个深度级别的抽象卷积混合时空特征。多层次时空特征融合模块M_MDFF(·,·)的流程如下式所示：

其中M_STFF(·,·)表示时空特征融合模块。

和/>

分别表示将/>

和/>

送入空间网络和时间网络并从其中的inc.j模块中提取的特征。从Inc.8到Inc.11生成的混合特征的级联由/>

表示。Conv(·)表示卷积运算，本实例使用2048个内核大小为3*3的卷积滤波器，以从具有不同深度级别的混合特征中进一步提取抽象特征，同时获得的特征的通道数将转变为2048。

上述技术方案中步骤八中时空特征融合模块STFF的具体构建方法为：

时空特征融合模块的输出特征是由三种类型的特征(即初步混合时空特征，空间特征和时间特征)融合而成。

图4为时空特征融合模块。每个方框上的标识表示特征图的名称以及特征图的大小。

表示逐元素求和运算，N_Filter是卷积滤波器的数量。

如图4中详细介绍的那样，首先通过逐元素求和与卷积运算将从空间网络中子模块提取的空间特征与从时间网络子模块中提取的时间特征进行融合，以获得初级的混合抽象特征。通过忽略等式(2)中的上标i和下标inc.j，可以将

和/>

书写为/>

和/>

以便于表达，其中C，H和W分别表示特征图的通道数、高度和宽度。然后，将初步混合抽象特征F正式表示为以下公式：

其中Ψ_k,n表示卷积核大小为k及过滤器数目为n的ReLU(BN(Conv(·)))操作序列，其中ReLU和BN分别表示ReLU激活函数和批量归一化操作，Conv(·)表示卷积运算。另外，为了进一步抑制无效信息并提取有效信息，本发明提出特征提取器M_FE(·)。M_FE(·)由两个具有不同过滤器数目n的Ψ_3*3,n运算组成，其中第一个的过滤器数目是输入通道数C的一半，而另一个与输入通道数相同。然后通过特征提取器M_FE(·)，将所有三种类型(空间特征S，时间特征T和初级时空混合特征F)的特征进一步独立提取非线性抽象特征。特征提取器M_FE(·)的详细过程表示为以下公式：

M_FE(Z)＝Z_FE2＝Ψ_3*3,C(Z_FE1) (4)

其中Z∈{S,T,F}表示M_FE(·)的输入特征，S,T,F分别表示空间特征，时间特征和初级时空混合特征。

然后，将通过特征提取器M_FE(·)提炼的空间特征S_FE2和时间特征T_FE2分别与提炼过的混合特征F_FE2融合，以获得更深层次的融合特征F_S和F_T，如下所示：

F_S＝Φ(S_FE2,F_FE2) (6)

F_T＝Φ(T_FE2,F_FE2) (7)

此处的Φ(·,·)与公式(3)相同。

最后，通过Φ(·,·)运算将F_S和F_T融合，得到时空特征融合模块STFF的最终混合时空特征：

M_STFF(S,T)＝Φ(F_S,F_T) (8)

上述技术方案中步骤八中分组增强注意力模块具体如下：

为了通过全局和局部信息获取更有效的时空特征，本发明构建了分组增强注意力模块以进一步完善混合特征。图5展示了模块的详细结构。模块中的两个注意力模块的连接是并行的，这使得该模块可以同时提取空间信息和时间信息。

图5为分组增强注意力模块。组级空间注意模块用于挖掘感兴趣的各个局部区域，而通道关注模块则用于捕获通道维度中的全局响应。然后将它们连接，通过与原输入特征图逐元素相乘来增强空间显著性和通道显著性。最后，利用残差连接来减小梯度消失的可能。图中GAP和GMP表示全局平均池化操作和全局最大池化操作。它们都分别在空间注意模块中的空间维度和通道注意模块中的时间维度上操作。

与SGE[Xiang Li,Xiaolin Hu,and Jian Yang.Spatial group-wise enhance:Enhancing semantic feature learning in convolutional networks.2019.]模块类似，本发明以捕获空间特征与通道特征间的响应为目标，即包含全局特征和每个分组中局部特征之间的相似性。因此，本发明将分组策略引入到空间注意力(SA)模块中，从而生成组级空间注意力(GSA)模块，该模块可用于捕获局部信息，以对通道注意力(CA)模块提取的全局信息进行补充。此处提及的SA模块和CA模块在CBAM[Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.Cbam:Convolutional block attention module.2018.]中进行了详细说明。形式上将输入特征图定义为

本发明通过GSA模块和CA模块获取空间注意/>

和通道响应/>

进一步通过

操作分配融合的权重/>

来细化原始输入特征Q。此外，为了降低梯度消失的可能性并加快训练进度，本发明还引入了注意力残差，即通过

操作直接建立了Q和最终提炼后的特征之间的连接。最后，分组增强注意力模块输出的显著性增强特征/>

的生成过程如下式(9)所示。

表示逐元素乘法，其中M_C(Q)和M_GS(Q)之间的/>

操作包含广播操作，该操作在逐元素乘法运算时自动将M_C(Q)的大小C*1*1转换为与M_GS(Q)的大小C*H*W一致。

上述技术方案中步骤八中组级空间注意力GSA模块的构建方法如下：

一般注意力模块输入的完整特征由以组的形式分布在特征的多个通道中的子特征组成。而且这些子特征以相同的方式处理，因此很可能会带来背景噪声的影响，很容易导致错误的识别和定位结果。考虑到这一点，本发明提出了一个组级空间注意力GSA模块，用于在从原始特征图划分的每个独立组中生成局部空间响应。即通过分组策略将输入特征图Q划分为

其中/>

表示组号为l的特征图组。G表示划分的总组数，在本实例中为16。它通过有针对性的学习和噪声抑制有效地从子特征中捕获信息。然后利用SA模块得到组l的局部空间响应/>

其中SA模块在CBAM[Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.Cbam:Convolutional blockattention module.2018.]中进行了详细说明。最后，组级空间注意力模块的输出响应

的生成如下式所示：

其中Expand(·)操作表示将特征在通道维度上重复

次。

上述技术方案中步骤十中空间类别概率分布、时间类别概率分布和特征融合类别概率分布融合方法为：

本发明使用加权平均融合方法，即δ＝δ_s*w_s+δ_t*w_t+δ_f*w_f，w_s,w_t,w_f分别表示空间流，时间流和特征融合流的权重,其三个流默认的融合权重分别是0.4、2.7、2.4，可根据实际应用需要调整融合权重。

为验证本发明的准确性和鲁棒性，本发明在公开的UCF101和HMDB51数据集上进行了实验。

UCF101是典型的有挑战性的人类动作识别数据集，它包含从YouTube视频网站收集的13320个分辨率为320*240的视频。它总共包含101个动作类别，其中每个类别包含25个人。UCF101数据集在运动获取方面具有很大的多样性，包括相机操作，外观变化，姿态变化，物体比例变化，背景变化，光线变化等。101种动作可以大致分为五类：人与物的交互，人与人的交互，人与人的交互，乐器演奏和运动。

HMDB51数据集包含6849个320*240分辨率的视频样本，它由51个类别组成，其中每个类别至少包含101个样本。大多数视频来自电影，一些来自公共数据集或在线视频库(例如YouTube)。操作类别可以分为五种类型：一般的面部动作，面部动作和对象操纵，一般的身体动作，身体动作和对象互动，人类动作。背景混乱和光线条件的变化使识别视频所代表的目标动作非常具有挑战性。

表1是两个数据集在实验中的各个参数设置：

表1数据库实验参数设置

表2为本发明提出的方法MDFFEN在UCF101和HMDB51数据集上的测试结果，本发明在这两个数据集上都取得了较高的识别率。尽管这两个数据集存在着遮挡，变形，背景混乱，低分辨率等困难，但本发明提出的方法对这些困难具有很好的鲁棒性，因此表现相对较好。

表2在UCF101和HMDB51上的识别率

数据集	UCF101	HMDB51
			MDFFEN	95.3％	71.6％

本发明主要提出了两个机制，多层次时空特征融合以及分组增强注意力。从表3中可以看出，针对UCF101数据集，单纯使用双流网络的精度达到93.61％。在基础网络中添加多层次时空特征融合，精度提升至94.63％。在此基础上再加入分组增强注意力，精度进一步提升至95.31％。实验结果显示多层次时空特征融合方法有效提取了多深度级别混合特征，分组增强注意力进一步提起了混合特征中的辨别性特征，这两种机制都对行为识别的性能有好的影响，有效提高识别精度。

表3在UCF101数据集上两个机制的影响

上面结合附图对本发明的具体实施方式做了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于多层次时空特征融合增强的双流网络行为识别方法，其特征在于，步骤如下：

N为帧数；

步骤二、计算光流图：应用TVL1算法对RGB原始帧f_rgb两两进行计算得到光流图

每段时序上连续，且任意两段间不重叠；

其中/>

其中/>

步骤六、基于空间网络N_s计算空间类别概率分布O_S：将步骤四构建的空间网络的输入

分别送入空间网络N_s提取特征，空间网络N_s基于InceptionV3网络构建，再经过全局平均池化操作和全连接操作得到空间类别概率分布/>

其中/>

表示步骤三的第i个RGB帧分段RGB_i对应的空间类别概率分布；

步骤七、基于时间网络N_t计算时间类别概率分布O_T：将步骤五构建的时间网络的输入

分别送入时间网络N_t提取特征，时间网络N_t基于InceptionV3网络构建，再经过全局平均池化操作和全连接操作得到时间类别概率分布/>

其中/>

表示步骤三中第i个光流图分段OPT_i对应的时间类别概率；

步骤八、基于双流融合网络N_TSFF计算特征融合类别概率分布O_F：使用多层次时空特征融合模块将时空特征融合模块STFF分别嵌入至空间网络N_s和时间网络N_t的InceptionV3的多个子模块中以融合提取多深度级别混合特征，然后通过分组增强注意力模块对提取的特征提炼，最后通过全局平均池化操作和全连接操作得到特征融合类别概率分布

其中/>

步骤九、计算多段融合的类别概率分布：根据步骤六、步骤七和步骤八得到的多段类别概率分布

与/>

通过三段平均值得到多段融合的类别概率分布/>

步骤十、计算三个流加权融合的类别概率分布δ：在双流网络的基础上融合步骤九得到的多段融合的空间类别概率分布δ_s、多段融合的时间类别概率分布δ_t和多段融合的特征融合类别概率分布δ_f，采用加权平均融合方法计算类别概率分布δ；

步骤十一、计算最终分类结果P：P＝argmax(δ)，其中argmax(δ)为计算δ向量中最大值的索引值，该索引值为计算所有行为类别中类别概率分布最高的类别。

2.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法，其特征在于，完成双流网络行为识别方法的模型包括空间网络、时间网络、特征融合网络、多段类别概率分布融合和多流类别概率分布融合；空间网络和时间网络均是基于InceptionV3构建的，而特征融合网络是通过空间网络和时间网络构建的；使用多层次时空特征融合模块以融合不同深度级别的时空混合特征，其中时空混合特征是利用时空特征融合模块融合分别从空间网络和时间网络提取的特征，然后通过分组增强注意力模块提炼多深度级别混合特征，同空间网络和时间网络一样，使用全局平均池化与全连接操作获得特征融合类别概率分布；然后将每个流的三个分段输入提取的对应的类别概率分布进行融合，获取对应流的多段融合类别概率分布，最终，采用加权平均方法融合三个流对应的多段融合类别概率分布。

3.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法，其特征在于，所述步骤八的全过程从形式上写成如下公式：

其中M_MDFF(·,·)表示多层次时空特征融合模块，M_GSCE(·)表示分组增强注意力模块的输出特征；FC表示完全连接操作，GAP表示全局平均池化操作。

4.根据权利要求3所述的一种基于多层次时空特征融合增强的双流网络行为识别方法，其特征在于，所述步骤八中应用的多层次时空特征融合方法为：InceptionV3由j个串联的子模块组成，分别为Inc.1-Inc.j，能够从中提取不同的深度级别特征；将时空特征融合模块STFF嵌入至空间网络和时间网络的各个子模块中，以捕获具有不同深度层次的新颖特征；通过将网络的多个深度的子模块生成的所有混合时空特征进行级联，从而获取具有多个深度级别的抽象卷积混合时空特征；多层次时空特征融合模块M_MDFF(·,·)的流程如下式所示：

其中M_STFF(·,·)表示时空特征融合模块；

和/>

分别表示将/>

和/>

送入空间网络和时间网络并从其中的inc.j模块中提取的特征；/>

表示从inc.l1到inc.l2生成的混合特征的级联；Conv(·)表示卷积运算。

5.根据权利要求4所述的一种基于多层次时空特征融合增强的双流网络行为识别方法，其特征在于，时空特征融合模块的输出特征是由初步混合时空特征、空间特征和时间特征三种类型的特征融合而成；时空特征融合模块的具体过程为：首先通过逐元素求和与卷积运算将从空间网络中子模块提取的空间特征与从时间网络子模块中提取的时间特征进行融合，以获得初级的混合抽象特征；通过忽略等式(2)中的上标i和下标inc.j，将

和

书写为/>

和/>

以便于表达，其中C，H和W分别表示特征图的通道数、高度和宽度；然后，将初步混合抽象特征F正式表示为以下公式：

其中Ψ_k,n表示卷积核大小为k及过滤器数目为n的ReLU(BN(Conv(·)))操作序列，其中ReLU和BN分别表示ReLU激活函数和批量归一化操作，Conv(·)表示卷积运算，⊕表示逐元素求和运算；

为了抑制无效信息并提取有效信息，采用特征提取器M_FE(·)；M_FE(·)由两个具有不同过滤器数目n的Ψ_3*3,n运算组成，其中第一个的过滤器数目是输入通道数C的一半，而另一个与输入通道数相同；然后通过特征提取器M_FE(·)，将所有空间特征S、时间特征T和初级时空混合特征F独立提取非线性抽象特征；特征提取器M_FE(·)的详细过程表示为以下公式：

MFE(Z)＝Z_FE2＝Ψ_3*3,C(Z_FE1) (4)

其中Z∈{S,T,F}表示M_FE(·)的输入特征，S,T,F分别表示空间特征、时间特征和初级时空混合特征；

F_S＝Φ(S_FE2，F_FE2) (6)

F_T＝Φ(T_FE2，F_FE2) (7)

此处的Φ(·,·)与公式(3)相同；

M_STFF(S,T)＝Φ(F_S,F_T) (8)。

6.根据权利要求1所述的一种基于多层次时空特征融合增强的双流网络行为识别方法，其特征在于，所述步骤八中分组增强注意力模块包括组级空间注意模块和通道关注模块，两个注意力模块的连接是并行的；组级空间注意模块用于挖掘感兴趣的各个局部区域，而通道关注模块则用于捕获通道维度中的全局响应；将两个注意力模块连接，通过与原输入特征图逐元素相乘来增强空间显著性和通道显著性；最后，利用残差连接来减小梯度消失的可能；其中，全局平均池化操作GAP和全局最大池化操作GMP分别在空间注意模块中的空间维度和通道注意模块中的时间维度上操作；具体如下：

将分组策略引入到空间注意力SA模块中，从而生成组级空间注意力GSA模块，该模块用于捕获局部信息，以对通道注意力CA模块提取的全局信息进行补充；SA模块和CA模块形式上将输入特征图定义为