CN111709304B

CN111709304B - 一种基于时空注意力增强特征融合网络的行为识别方法

Info

Publication number: CN111709304B
Application number: CN202010437298.8A
Authority: CN
Inventors: 蒋敏; 庄丹枫; 孔军
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2023-05-05
Anticipated expiration: 2040-05-21
Also published as: CN111709304A

Abstract

本发明公开了一种基于时空注意力增强特征融合网络的行为识别方法，属于机器视觉领域。该方法采用了基于外观流和运动流双流网络的网络架构，称作时空注意力增强特征融合网络。针对传统双流网络对不同分支采用简单特征或分数融合，本发明构建了一个注意力增强的多层特征融合流作为第三个分支以补充双流结构。同时，针对传统深度网络忽略对通道特征的建模、无法充分利用通道间的相互关系，本发明引入不同层级的通道注意力模块，以建立通道间的相互关系来增强通道特征的表达能力。此外，时序信息在分段融合中起着重要的作用，通过对帧序列进行时序建模增强了重要时序特征的代表性。最终本发明通过对不同支流的分类得分进行加权融合。

Description

一种基于时空注意力增强特征融合网络的行为识别方法

技术领域

本发明属于机器视觉领域，特别涉及一种基于时空注意力增强特征融合网络的行为识别方法。

背景技术

随着机器视觉在理论上和实践上的广泛研究，基于RGB视频的行为识别也逐渐成为具有挑战性的一个分支。目前，面向RGB视频的行为识别主要使用双流网络架构，并且发展趋势十分良好。在双流架构中，深度神经网络通过在RGB外观流上和光流运动流上分别训练各自的深度卷积网络来得到有效特征。但是传统的联合RGB外观流和光流运动流训练的双流网络仍旧面临以下问题：(1)对双流网络中不同分支中得到的特征或分数进行简单融合不能有效地利用不同分支的特性，同时在单个分支中会存在特征过拟合的情况。(2)网络中具有丰富细节特征的初始输入空间特征和具有高层语义信息的高层空间特征沿着通道维度聚合。如何增强重要通道特征的代表性是一个重要的问题。(3)在通过时序分段网络TSN分段随机采样策略选择的帧序列中，包含了长距离的时序信息。因此，需要建立帧与帧之间的相互关系得到有效的时序特征，从而提升网络中帧序列进行分段融合方法的效果。

基于以上考虑，本发明提出一种基于时空注意力增强的特征融合网络用于人体行为识别。首先，本发明设计了一种新型的联合训练分支，称为注意力增强的多层特征融合流，其中RGB特征和光流特征共同训练从而得到补充特征。其次，本发明提出了作用在不同层级上的通道注意力模块，利用初始输入通道特征和经过深度特征提取的高层通道特征生成自适应权重来对深度网络中特征提取过程进行引导和增强，以提高重要通道特征的代表性。最后，本发明通过对分段随机采样策略选择的帧序列中包含的时序信息进行建模，增强重要的时序特征对分段融合方法的影响。

发明内容

本发明的主要目的是提出一种时空注意力增强特征融合网络(SpatiotemporalAttention Enhanced Features Fusion Network，ST-AEFFNet)以进行行为识别，对于基于RGB视频的行为识别任务，能够更好地提取出RGB视频中有效的外观特征和运动特征以进行多分类的行为识别。

为了实现上述目的，本发明提供如下技术方案：

一种基于时空注意力增强特征融合网络的行为识别方法，步骤如下：

步骤一、获取外观流的RGB静态帧：将数据集中的每个视频等分成N₁个片段，从每一个片段中随机选择

帧，这些从不同片段中选出的RGB静态帧构成帧序列

N′₁为RGB帧序列中的帧数，其中

步骤二、计算运动流的光流帧：对于每个数据集中的每个视频等分成N₂个片段，在每一个片段中随机选择连续的

帧RGB静态帧，在这些连续的RGB静态帧上两两应用TV-L1算法进行计算，在每一个片段中得到x方向和y方向上共

帧堆叠的光流帧，最终得到整个视频的光流帧：

N′₂为光流帧序列中的帧数，其中

步骤三、通过输入通道注意力引导模块ICGA分别计算RGB外观流和光流运动流的输入通道自适应权重：将原始特征F_rgb和F_opt分别输入RGB外观流和光流运动流对应的输入通道注意力引导模块(Input channel guided attention，ICGA)。ICGA通过全局池化和非局部建模形成RGB外观流输入通道和光流运动流输入通道的自适应权重，然后分别将自适应权重与对应支流的输入特征相加，得到该模块的输出结果，RGB外观流和光流运动流中的输入通道注意力引导模块ICGA的结果，分别表示为ICGA_rgb和ICGA_opt。

步骤四、通过IceptionV3深度特征提取网络对RGB特征和光流特征进行深度特征提取：将步骤三得到的ICGA_rgb和ICGA_opt分别输入对应的RGB外观流和光流运动流中的IceptionV3深度特征提取网络，得到具有丰富语义信息的高层特征。在使用IceptionV3提取特征的过程中，选取4层对应的高层RGB特征和高层光流特征，分别表示为

和

步骤五、通过高层通道分组注意力模块HCGA对RGB外观流和光流运动流中的高层通道特征进行增强：将步骤四中选择的第四个高层特征

和

分别输入RGB外观流和光流运动流对应的高层通道分组注意力模块(High-level channel groupedattention，HCGA)。HCGA首先将C个高层通道分成G组，在每组中执行组内局部通道关系建模。然后，建立G个分组之间的全局关系，再将其映射到每个高层通道上，得到全局通道自适应权重，再与输入该模块的原始高层特征相乘。RGB外观流和光流运动流中的高层通道分组注意力模块HCGA的输出结果，分别表示为HCGA_rgb和HCGA_opt。

步骤六、在RGB外观流和光流运动流中通过时序注意力增强模块TEA对分段融合进行增强并且分别计算单个流的分类得分：将步骤四中选择的第四个高层特征

和

分别输入RGB外观流和光流运动流的时序注意力增强模块(Temporal enhancedattention，TEA)，通过时序卷积网络TCN进行时序特征建模，得到不同帧的自适应权重值，增强重要的帧在分段融合中的作用，获得的时序注意力增强的特征表示为TEA_rgb和TEA_opt。再将步骤五中得到的高层通道分组注意力模块HCGA的结果和时序注意力增强模块TEA得到的结果分别相加，即在RGB外观流中将特征HCGA_rgb和TEA_rgb相加得到FL_rgb，在光流运动流中将特征HCGA_opt和TEA_opt相加得到FL_opt。将FL_rgb和FL_opt通过平均融合的方法对帧序列进行分段融合，分别得到Final_rgb和Final_opt。之后将Final_rgb和Final_opt输入线性分类层中分别得到RGB外观流和光流运动流的分类得分score_rgb和score_opt。

步骤七、通过多层特征融合块MFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的3个高层中间层特征进行融合：将从步骤四IceptionV3深度网络中提取的3个高层中间层特征

和

对应层相加之后使用多层特征融合块(Multi-layer Fusion Block，MFBlock)得到

将三层融合结果相加得到中间层融合特征J₁。

步骤八、通过注意力融合块AFBlock对RGB外观流和光流运动流IceptionV3深度特征提取过程中的最后一层高层特征进行注意力融合：将步骤四中得到第四层特征

和

通过注意力融合块(Attention Fusion Block，AFBlock)进行融合得到融合特征J₂。

步骤九、计算注意力增强的多层特征融合流中的高层特征：将步骤七和步骤八中得到的中间层融合特征J₁和注意力增强的融合特征J₂相加得到融合高层特征J。

步骤十、通过高层通道分组注意力模块HCGA对特征融合流上的通道特征进行增强：将步骤九的融合高层特征J输入高层通道分组注意力模块中得到通道自适应权重，该模块增强的高层通道特征表示为HCGA_fusion。

步骤十一、通过时序注意力增强模块TEA对特征融合流上的分段融合进行增强并且计算分类得分：将步骤九得到的融合高层特征J输入时序注意力增强模块TEA得到每一帧的自适应权重，该模块增强的高层时序特征表示为TEA_fusion。将步骤十的结果HCGA_fusion和时序注意力增强模块TEA的结果TEA_fusion相加得到融合流中注意力模块增强后的高层特征FL_fusion。之后将FL_fusion通过平均融合方式对帧序列进行分段融合得到Final_fusion，最后输入到线性分类层中得到特征融合流分类得分score_fusion。

步骤十二、计算RGB外观流，光流运动流和特征融合流的分类得分加权平均融合结果：将步骤六得到的RGB外观流分类概率分布score_rgb和光流运动流分类概率分布score_opt与步骤十一得到的特征融合流分类概率分布score_fusion进行加权平均融合。

与现有的技术相比，本发明具有以下有益效果：

1.通过步骤三、步骤五和步骤十采用的通道注意力机制，对通道关系进行建模，增强了深度网络提取有效通道特征的能力。通过处理不同层级的通道特征，充分利用了网络不同层级通道特征的特性。

2.通过步骤六和步骤十一中采用的时序注意力机制，通过处理时序特征，对不同时段时序信息的重要性进行评估，使得重要的时序信息在分段融合中起到更加重要的作用。

3.步骤七和步骤八构建联合RGB外观特征和光流运动特征的特征融合方法，有效改善了传统双流网络框架在单流上容易特征过拟合的问题。通过IceptionV3深度特征提取的中间层的特征融合得到不同高层的代表性特征，同时对IceptionV3深度特征提取的最后一层高层特征采用注意力机制进行融合，使得网络提取到有效的补充特征。

4.步骤十二中，基于双流网络，本发明充分利用RGB外观特征和光流运动特征，同时充分考虑外观特征和运动特征之间的互补性。通过对RGB外观流，光流运动流和特征融合流的分类得分进行加权融合，该行为识别网络的分类能力被极大地提高。

附图说明

图1为本发明的算法流程图；

图2为本发明的算法模型图；

图3为本发明中的输入通道注意力引导模块结构图；

图4为本发明中的高层通道分组注意力模块结构图；

图5为本发明中的时序注意力增强模块和分段融合结构图；

图6为本发明中特征融合流中的多层特征融合块；

图7为本发明中特征融合流中的注意力融合块。

具体实施方式

图2表示本发明的算法模型图。算法以RGB帧和光流帧为输入，通过三个分支RGB外观流、光流运动流和注意力增强的多层特征融合流进行联合判断，其中特征融合流通过多层特征融合块MFBlock和注意力融合块AFBlock对RGB外观流特征和光流运动流特征进行融合。同时在三个分支网络中增加了多种注意力模块，分别是输入通道注意力引导模块ICGA，高层通道分组注意力模块HCGA和时序注意力增强模块TEA，以进行网络引导和特征增强。最后，将三个流得到的分类得分进行加权融合。

为了对本发明进行更好的说明，下面以公开的行为数据UCF101数据集为例进行阐述。

上述技术方案步骤一中外观流的RGB静态帧具体获取方法如下：

通过分段随机采样得到RGB静态帧序列，N₁值的确定可以根据经验选择，以UCF101数据集为例，其中每个视频被等分成7个分段，即N₁＝7，在每个分段中选取1帧RGB静态帧，即

通过计算得到N′₁＝7。

上述技术方案步骤二中运动流的光流帧具体计算方法如下：

通过分段随机连续采样得到光流帧序列，N₂值的确定可以根据经验选择，以UCF101数据集为例，其中每个视频被等分成7个分段，即N₂＝7，在每个分段中选取连续的6帧RGB静态帧，即

将6帧RGB静态帧按顺序每两张计算得到光流图，则在每个片段中通过TV-L1算法提取x方向和y方向的光流图序列共10帧，通过计算得到N′₂＝70。

上述技术方案步骤三中RGB外观流和光流运动流中输入通道注意力引导模块ICGA的设计如下：

图3所示为本发明提出的输入通道注意力引导模块ICGA的结构图。这里，需要处理的原始特征O∈R^C×H×W通过拷贝得到三个一样的原始特征O₁∈R^C×H×W，O₂∈R^C×H×W和O₃∈R^C ^×H×W。本模块采用两种不同的特征压缩处理方法将空间信息压缩得到原始特征的通道描述符。

1)O₁采用的处理方式是将原始特征O₁∈R^C×H×W通过全局最大池化得到P_MAX∈R^C×1×1和全局平均池化得到P_AVG∈R^C×1×1，通过全局池化可以将每个二维通道特征转换为一个通道描述符。将P_MAX和P_AVG相加得到A∈R^C×1×1表示输入空间汇聚得到的通道信息；其中，C、H、W分别表示通道数、高度、宽度。

2)O₂采用的处理方式是通过简化的非局部建模方法对原始特征O₂∈R^C×H×W进行空间建模。非局部建模方法在空间特征的每个位置之间建立相互关系，然后通过简化的非局部函数汇总所有位置的相互关系以形成通道描述符。通过对O₂调整形状后得到B₁∈R^C×HW，HW表示H×W的乘积。同时通过对O₂进行卷积操作将C个通道变为1个通道，再经过softmax函数和变形得到B₂∈R^HW×1。再将B₂和B₁相乘并且经过变形得到第二种通道描述符B∈R^C×1×1来表示原始特征。

在此，详细描述B₂中每个位置的参数计算。B₂每个位置i的特征值更新公式如下：

i是空间特征中需要进行非局部建模的位置索引，

是经过非局部建模之后得到的第i个位置上的特征值。

是原始特征O₂中第j个位置的特征值。ω_k和ω_v是线性变换矩阵。N是要素图中的所有位置数。

最后将以上空间特征进行压缩得到的通道描述符A和B相加，得到通道自适应注意力权重S，再与原始特征O₃相加得到输入通道引导注意力模块的输出Z。

步骤三中RGB外观流对应的输入通道注意力引导模块ICGA以原始特征F_rgb为图3中的输入原始特征O，其输出Z对应为ICGA_rgb；光流运动流对应的输入通道注意力引导模块ICGA以原始特征F_opt为图3中的输入原始特征O，其输出Z对应为ICGA_opt。

上述技术方案步骤四中的深度特征提取的具体方法如下：

本发明采用了IceptionV3网络提取深度特征，如图2所示，本发明分别对步骤三得到的ICGA_rgb和ICGA_opt利用IceptionV3网络提取深度特征。在深度特征提取网络中，后面几层提取的是高层语义特征，网络中不同的高层能够提取到不同的代表性特征。所以本发明选择RGB外观流和光流运动流中IceptionV3深度特征提取网络的最后四层高层特征，可以代表提取到的不同层次的高层语义特征。在步骤四RGB外观流和光流运动流中选择的高层特征分别对应表示为

和

上述技术方案步骤五中的RGB外观流和光流运动流中的高层通道分组注意力模块HCGA设计如下：

图4中所示的是高层通道分组注意力模块HCGA的结构。在高层特征中，C个通道被分为G组，在每组内首先执行组内局部通道建模。然后，对G个分组进行组间全局分组建模，最后映射到每个通道上，得到每个通道的自适应权重，从而提高通道特征的代表性。具体操作如下：首先，将高层特征E∈R^C×1×1进行通道分组，沿着通道C分成G个组。G值的确定可以根据经验选择，以UCF101数据集为例，G＝4。在每个组中，1×1卷积运算操作被用来对组内通道特征进行建模并且获得每个组的融合通道描述符，该描述符大小为1×1×1，它们代表了每个组的融合特征表示。再将所有分组得到的代表特征拼接得到Q∈R^G×1×1。其次，调整Q的形状得到Q₁∈R^G×1和Q₂∈R^1×G，将Q₁和Q₂矩阵相乘得到H∈R^G×G来表示G个分组之间的相互关系，之后与Q进行张量相乘从而得到每个分组的全局建模特征。最后，通过1×1卷积运算操作得到具有C个通道的特征F∈R^C×1×1，将F作为通道自适应权重，通过与原始特征E相加得到高层通道分组注意力模块HCGA的结果I。

步骤五中RGB外观流对应的高层通道分组注意力模块HCGA以步骤四中得到的第四层RGB高层特征

为输入特征E，其输出I对应为HCGA_rgb；光流运动流对应的高层通道分组注意力模块HCGA以步骤四中得到的第四层光流高层特征

为输入特征E，其输出I对应为HCGA_opt；

上述技术方案步骤六中的RGB外观流和光流运动流中的时序注意力增强模块TEA和分段融合设计如下：

图5所示的时序注意力增强模块TEA和分段融合中，时序信息由时序卷积网络TCN进行建模，并评估每个帧的重要性来增强每一帧在RGB外观流分段融合和光流运动流分段融合中的作用。

首先，将高层特征X∈R^T×C×1输入到时序卷积网络中，得到经过时序卷积网络建模后的结果，然后与原始特征X相乘得到时序注意力增强的结果Y∈R^T×C×1。

其次，将Y与高层分组通道注意力I′∈R^T×C×1相加。最后，我们通过对维度T进行平均融合，得到最后的特征L∈R^1×C×1。

针对RGB外观流，维度T＝N₁；N₁为步骤一每个视频等分的片段数。以步骤四中得到的第四层RGB高层特征

为输入特征X，经过时序注意力增强模块TEA的特征表示Y对应TEA_rgb。以步骤五中得到的高层通道分组注意力模块HCGA的结果HCGA_rgb为输入特征I′，中间特征Z对应为步骤六中的FL_rgb，其计算公式如下：FL_rgb＝HCGA_rgb+TEA_rgb。FL_rgb可以表示为

输出L对应为Final_rgb，由分段融合得到，计算公式如下：

最后通过全连接层根据数据集的类别数计算分类得分得到score_rgb。

针对光流运动流，维度T＝N₂；N₂为步骤二每个视频等分的片段数。以步骤四中得到的第四层光流高层特征

为输入特征X，经过时序注意力增强模块TEA的特征表示Y对应TEA_opt。以步骤五中得到的高层通道分组注意力模块HCGA的结果HCGA_opt为输入特征I′，中间特征Z对应为步骤六中的FL_opt，其计算公式如下：FL_opt＝HCGA_opt+TEA_opt。FL_opt可以表示为

输出L对应为Final_rgb，由分段融合得到，计算公式如下：

最后通过全连接层根据数据集的类别数计算分类得分得到score_opt。

上述技术方案步骤七中的特征融合流中的多层特征融合块MFBlock设计如下：

图6中所示的是特征融合流中的多层特征融合块MFBlock。在多层特征融合过程中，选取RGB外观流和光流运动流中IceptionV3特征提取网络得到的多层特征

和

其中，通过卷积运算操作融合生成

公式表示为：

其中，Conv(·)是1×1的卷积操作，ReLU(·)是ReLU激活函数，G(·)是全局池化操作，然后将三层融合特征相加得到多层特征融合结果J₁∈R^C×1×1。

上述技术方案中步骤八的特征融合流中的注意力融合块AFBlock设计如下：

图7中所示的是特征融合流中的注意力融合块AFBlock，融合过程如下：选取双流网络中通过IceptionV3网络提取的最后一层的特征

和

通过卷积操作、ReLU激活函数等得到进行注意力融合生成J₂，公式表示为：

其中，Conv(·)是1×1的卷积操作，ReLU(·)是ReLU激活函数。

上述技术方案中步骤十中的高层通道分组注意力模块HCGA的设计如下：

该步骤中高层通道分组注意力模块HCGA的设计如步骤五中图4所示。特征融合流中的对应的高层通道分组注意力模块HCGA以步骤十中得到的融合流中的注意力增强的多层融合特征J为输入特征E，其输出I对应为HCGA_fusion。

上述技术方案步骤十一中的特征融合流中的时序注意力增强模块TEA和分段融合的设计如下：

该步骤中时序注意力增强模块TEA和分段融合的设计如图5所示。针对特征融合流，维度T＝N₁＝N₂；N₁为步骤一每个视频等分的片段数，N₂为步骤二每个视频等分的片段数。在特征融合流中，步骤一和步骤二中选取的片段数相等，即N₁＝N₂。以步骤九中得到的融合流中的注意力增强的多层融合特征J为输入特征X；经过时序注意力增强模块TEA后的特征Y对应TEA_fusion。以步骤十中得到的高层通道分组注意力模块HCGA的结果HCGA_fusion为输入特征I′，中间特征Z对应为FL_fusion，其计算公式如下：FL_fusion＝HCGA_fusion+TEA_fusion。FL_fusion可以表示为

输出L对应为Final_fusion；计算公式如下：

最后通过全连接层根据数据集的类别数进行分类得到score_fusion。

上述技术方案中步骤十二中的外观流类别概率分布、运动流类别概率分布和特征融合流概率分布融合方法设计如下：

本发明使用加权平均融合方法，三个流融合权重分别是ω_rgb，ω_opt和ω_fusion，即Score_last＝ω_rgb×Score_rgb+ω_opt×Score_opt+ω_fusion×Score_fusion，可根据实际应用需要调整融合权重。在本发明中，根据经验，针对UCF101数据集，三个流的权重设置为1∶0.5∶0.5。

为验证本发明的准确性和鲁棒性，本发明在公开的UCF101和HMDB51数据集上进行了实验。

UCF101数据集总共包含13320个视频剪辑和101个动作类别。每个视频包含一个动作。它有101种动作，每个动作由25个人执行。动作的类别主要是人与物体的交互，人与人的交互，人的身体运动，人与乐器的交互等行为。UCF101数据集目前的挑战在于相机运动、杂乱的背景、光照条件等变化因素。HMDB51数据集中的视频选自电影、公共数据库和视频库(例如YouTube)。它包含51个动作类别和6849个视频序列。它的挑战性在于这些视频具有不同的比例尺、不同的视角、视频来源丰富以及低分辨率。

表1是两个数据集在实验中的各个参数设置。其中分别包括类别数、训练样本和测试样本所占的比例、处理后的图片大小、初始学习率以及总的迭代次数。

表1数据库实验参数设置

数据集

类别数

训练样本数

测试样本数

图片大小

学习率

迭代次数

UCF101

101

占2/3

占1/3

299*299

0.01

400

HMDB51

51

占2/3

占1/3

299*299

0.01

400

为验证本发明中设计的通道注意力模块和时序注意力模块对于网络的提升效果，输入通道注意力引导模块(I)、高层通道分组注意力模块(H)和时序增强注意力模块(T)的消融实验对比如表2所示：

表2通道注意力机制和时序注意力机制的效果

对比网络	RGB网络(精度)	光流网络(精度)
			原始双流网络	86.8％	89.3％
双流网络+I	87.4％	89.6％
			双流网络+H	87.8％	89.8％
双流网络+T	87.4％	89.8％
			双流网络+I+H+T	88.0％	89.9％

表2是在UCF101上测试通道注意力模块和时序注意力模块的效果。其中包括了每个注意力模块单独加入网络后对结果的提升，以及同时加入三个注意力模块后对结果的提升。I表示输入通道注意力引导模块ICGA，H表示高层通道分组注意力模块HCGA，T表示时序注意力增强模块TEA。

表3为本发明提出的一种基于时空注意力增强的特征融合网络ST-AMFFNet在UCF101和HMDB51数据集上的测试结果，本发明在这两个具有挑战性的行为识别数据集上都取得了较高的准确率。UCF101具有背景复杂、类别繁多、视角多变等困难，HMDB51具有视频来源复杂、低分辨率等特点，而本发明提出的方法对于这两个数据集存在的问题都有很好的鲁棒性，取得了较好的识别效果。

表3在UCF101和HMDB51上的识别率

数据集	UCF101	HMDB51
			本发明方法	95.2％	71.9％

本发明提出的方法主要包含两个部分，时空注意力机制以及特征融合流。从表4中可以看出，针对UCF101数据集，使用传统双流网络的精度为93.74％。在传统双流网络中加入输入通道注意力引导模块ICGA、高层通道分组注意力模块HCGA、时序增强注意力模块TEA后，精度达到95.0％。在此基础上再加入注意力增强的多层特征融合流，精度达到95.2％。这表明两种方法都对基于双流网络的行为识别的性能有了一定的提升。时空注意力机制可以有效地引导和增强特征提取过程中的通道特征和时序特征，注意力增强的多层特征融合流可以对传统的双流网络特征有一定程度的补充作用，从而提高识别精度。

表4在UCF101数据集上两个方法的影响

上面结合附图对本发明的具体实施方式做了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于时空注意力增强特征融合网络的行为识别方法，其特征在于，步骤如下：

帧，这些从不同片段中选出的RGB静态帧构成帧序列

N′₁为RGB帧序列中的帧数，其中

帧堆叠的光流帧，最终得到整个视频的光流帧：

N′₂为光流帧序列中的帧数，其中

步骤三、通过输入通道注意力引导模块ICGA分别计算RGB外观流和光流运动流的输入通道自适应权重：将原始特征F_rgb和F_opt分别输入RGB外观流和光流运动流对应的输入通道注意力引导模块ICGA；ICGA通过全局池化和非局部建模形成RGB外观流输入通道和光流运动流输入通道的自适应权重，然后分别将自适应权重与对应支流的输入特征相加，得到该模块的输出结果，RGB外观流和光流运动流中的输入通道注意力引导模块ICGA的结果，分别表示为ICGA_rgb和ICGA_opt；

步骤四、通过IceptionV3深度特征提取网络对RGB特征和光流特征进行深度特征提取：将步骤三得到的ICGA_rgb和ICGA_opt分别输入对应的RGB外观流和光流运动流中的IceptionV3深度特征提取网络，得到具有丰富语义信息的高层特征；在使用IceptionV3提取特征的过程中，选取4层对应的高层RGB特征和高层光流特征，分别表示为

和

和

分别输入RGB外观流和光流运动流对应的高层通道分组注意力模块HCGA；HCGA首先将C个高层通道分成G组，在每组中执行组内局部通道关系建模；然后，建立G个分组之间的全局关系，再将其映射到每个高层通道上，得到全局通道自适应权重，再与输入该模块的原始高层特征相乘；RGB外观流和光流运动流中的高层通道分组注意力模块HCGA的输出结果，分别表示为HCGA_rgb和HCGA_opt；

和

分别输入RGB外观流和光流运动流的时序注意力增强模块TEA；通过时序卷积网络TCN进行时序特征建模，得到不同帧的自适应权重值，增强重要的帧在分段融合中的作用，获得的时序注意力增强的特征表示为TEA_rgb和TEA_opt；再将步骤五中得到的高层通道分组注意力模块HCGA的结果和时序注意力增强模块TEA得到的结果分别相加，即在RGB外观流中将特征HCGA_rgb和TEA_rgb相加得到FL_rgb，在光流运动流中将特征HCGA_opt和TEA_opt相加得到FL_opt；将FL_rgb和FL_opt通过平均融合的方法对帧序列进行分段融合，分别得到Final_rgb和Final_opt；之后将Final_rgb和Final_opt输入线性分类层中分别得到RGB外观流和光流运动流的分类得分score_rgb和score_opt；

和

对应层相加之后使用多层特征融合块MFBlock得到

将三层融合结果相加得到中间层融合特征J₁；

所述步骤七中通过卷积运算操作融合生成

公式表示为：

其中，Conv(■)是1×1的卷积操作，ReLU(■)是ReLU激活函数，G(■)是全局池化操作，然后将三层融合特征相加得到多层特征融合结果J₁∈R^C×1×1；

和

通过注意力融合块AFBlock进行融合得到融合特征J₂；

所述步骤八中融合特征J₂计算公式为：

其中，Conv(■)是1×1的卷积操作，ReLU(■)是ReLU激活函数；

步骤九、计算注意力增强的多层特征融合流中的高层特征：将步骤七和步骤八中得到的中间层融合特征J₁和注意力增强的融合特征J₂相加得到融合高层特征J；

步骤十、通过高层通道分组注意力模块HCGA对特征融合流上的通道特征进行增强：将步骤九的融合高层特征J输入高层通道分组注意力模块中得到通道自适应权重，该模块增强的高层通道特征表示为HCGA_fusion；

步骤十一、通过时序注意力增强模块TEA对特征融合流上的分段融合进行增强并且计算分类得分：将步骤九得到的融合高层特征J输入时序注意力增强模块TEA得到每一帧的自适应权重，该模块增强的高层时序特征表示为TEA_fusion；将步骤十的结果HCGA_fusion和时序注意力增强模块TEA的结果TEA_fusion相加得到融合流中注意力模块增强后的高层特征FL_fusion；之后将FL_fusion通过平均融合方式对帧序列进行分段融合得到Final_fusion，最后输入到线性分类层中得到特征融合流分类得分score_fusion；

步骤十二、计算RGB外观流，光流运动流和特征融合流的分类得分加权平均融合结果：将步骤六得到的RGB外观流分类概率分布socre_rgb和光流运动流分类概率分布socre_opt与步骤十一得到的特征融合流分类概率分布score_fusion进行加权平均融合。

2.根据权利要求1所述的一种基于时空注意力增强特征融合网络的行为识别方法，其特征在于，所述步骤三中：设需要处理的原始特征为O∈R^C×H×W，通过拷贝得到三个一样的原始特征O₁∈R^C×H×W，O₂∈R^C×H×W和O₃∈R^C×H×W；输入通道注意力引导模块ICGA采用两种不同的特征压缩处理方法将空间信息压缩得到原始特征的通道描述符：

1)O₁采用的处理方式是将原始特征O₁∈R^C×H×W通过全局最大池化得到P_MAX∈R^C×1×1和全局平均池化得到P_AVG∈R^C×1×1，通过全局池化将每个二维通道特征转换为一个通道描述符；将P_MAX和P_AVG相加得到A∈R^C×1×1表示输入空间汇聚得到的通道信息；其中，C、H、W分别表示通道数、高度、宽度；

2)O₂采用的处理方式是通过简化的非局部建模方法对原始特征O₂∈R^C×H×W进行空间建模；非局部建模方法在空间特征的每个位置之间建立相互关系，然后通过简化的非局部函数汇总所有位置的相互关系以形成通道描述符；通过对O₂调整形状后得到B₁∈R^C×HW，HW表示H×W的乘积；同时通过对O₂进行卷积操作将C个通道变为1个通道，再经过softmax函数和变形得到B₂∈R^HW×1；再将B₂和B₁相乘并且经过变形得到第二种通道描述符B∈R^C×1×1来表示原始特征；其中，B₂每个位置i的特征值更新公式为：

i是空间特征中需要进行非局部建模的位置索引，

是经过非局部建模之后得到的第i个位置上的特征值；

是原始特征O₂中第j个位置的特征值；ω_k和ω_v是线性变换矩阵；N是要素图中的所有位置数；

最后将以上空间特征进行压缩得到的通道描述符A和B相加，得到通道自适应注意力权重S，再与原始特征O₃相加得到输入通道引导注意力模块的输出Z；

当O对应F_rgb时，Z为ICGA_rgb；当O对应F_opt时，Z为ICGA_opt。

3.根据权利要求1所述的一种基于时空注意力增强特征融合网络的行为识别方法，其特征在于，所述步骤五具体过程为：首先，设高层特征为E∈R^C×1×1，将其进行通道分组，沿着通道C分成G个组；在每个组中，1×1卷积运算操作被用来对组内通道特征进行建模并且获得每个组的融合通道描述符，该描述符大小为1×1×1，它们代表了每个组的融合特征表示；再将所有分组得到的代表特征拼接得到Q∈R^G×1×1；其次，调整Q的形状得到Q₁∈R^G×1和Q₂∈R^1×G，将Q₁和Q₂矩阵相乘得到H∈R^G×G来表示G个分组之间的相互关系，之后与Q进行张量相乘从而得到每个分组的全局建模特征；最后，通过1×1卷积运算操作得到具有C个通道的特征F∈R^C×1×1，将F作为通道自适应权重，通过与原始特征E相加得到高层通道分组注意力模块HCGA的结果I；当高层特征E对应为

时，I为HCGA_rgb；当高层特征E对应为

时，I为HCGA_opt。

4.根据权利要求1所述的一种基于时空注意力增强特征融合网络的行为识别方法，其特征在于，所述步骤六具体过程为：首先，设高层特征为X∈R^T×C×1，将其输入到时序卷积网络TCN中，得到经过时序卷积网络建模后的结果，然后与原始特征X相乘得到时序注意力增强的结果Y∈R^T×C×1；其次，将Y与高层分组通道注意力I′∈R^T×C×1相加；最后，通过对维度T进行平均融合，得到最后的特征L∈R^1×C×1；

当高层特征X对应为

时，维度T＝N₁，Y对应为TEA_rgb，I′为HCGA_rgb，中间特征Z对应为FL_rgb，其计算公式为：FL_rgb＝HCGA_rgb+TEA_rgb；FL_rgb表示为

输出L对应为Final_rgb，由分段融合得到，计算公式为：

最后通过全连接层根据数据集的类别数计算分类得分得到score_rgb；

当高层特征X对应为

时，维度T＝N₂，Y对应为TEA_opt，i′为HCGA_opt，中间特征Z对应为FL_opt，其计算公式为：FL_opt＝HCGA_opt+TEA_opt；FL_opt表示为

输出L对应为Final_rgb，由分段融合得到，计算公式如下：