CN116824694A

CN116824694A - 基于时序聚合和门控Transformer的动作识别系统及方法

Info

Publication number: CN116824694A
Application number: CN202310663302.6A
Authority: CN
Inventors: 古晶; 翟得胜; 董天雨; 张炜; 杨淑媛; 冯婕; 侯彪; 刘芳; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-09-29

Abstract

基于时序聚合和门控Transformer的动作识别系统及方法，系统包括：依次连接的特征提取模块、第一3D‑ResNet网络、第一下采样模块、第二3D‑ResNet网络、第二下采样模块、第一Transformer网络、第三下采样模块、第二Transformer网络、全局平均池化模块和全连接层；方法包括：特征提取；局部特征增强；全局特征增强；动作识别；本发明通过在浅层网络引入深度可分离卷积模块，并设计卷积算子，同时在深层网络引入门控单元，有效地将卷积神经网络和Transformer网络的优势融合，建立兼顾局部时空关系和全局时空关系的动作识别系统，实现对视频动作外观特征和运动特征的有效提取，具有减少背景信息干扰，降低模型计算量，提高动作识别准确率的特点。

Description

基于时序聚合和门控Transformer的动作识别系统及方法

技术领域

本发明涉及视频理解和计算机视觉技术领域，特别涉及基于时序聚合和门控Transformer的动作识别系统及方法。

背景技术

根据网络模型获取视频特征方法的不同，动作识别方法可以分为传统的机器学习方法和基于深度学习的方法两大类。近年来，随着专业计算芯片的快速发展，计算成本快速地降低，使得深度学习算法的大面积使用成为了可能，从而在不提高成本的情况下，让动作识别的精度得到明显的提升。因此，基于深度学习算法的动作识别方法受到了学者们的广泛关注。

在基于深度学习算法的动作识别方法中，大多数方法只考虑空间特征，而忽略了视频帧之间的时序关系，而视频中的动作存在先后的时序关系。空间特征具有丰富的动作细节，而时间特征具有时序关系。因此，在空间建模的基础上，需要对视频特征进行时序建模来融合视频各帧特征。现有方法直接从视频片段中学习空间特征和相邻帧之间的时序特征，再利用学到的高层级特征进行分类。但是，由于视频数据在局部时空邻域具有相似性，这种局部性质容易引入大量低效的计算。

Li K等人在“UniFormer:Unified Transformer for Efficient Spatial-Temporal Representation Learning”(International Conference on LearningRepresentations.)一文中提出一种结合三维卷积和时空注意力的统一框架。现有技术在对视频的时空特征进行提取时，因卷积和池化操作感受野有限，缺乏捕获全局依赖的能力，而注意力网络能够对长时间序列进行建模，通过结合卷积和注意力操作对视频时空特征进行建模。具体步骤为：①将原始图像通过三维深度卷积操作，提取视频的时空特征；②将传统的空间下采样操作替换为时空下采样，生成带有时间信息的四维特征图；③在主干网络的浅层使用三维深度卷积提取局部邻域信息，学习时空特征表示；④在主干网络的深层使用时空Transformer网络获取全局视频帧的特征，建立长期时序依赖关系；⑤在PatchEmbedding阶段采用卷积风格的动态位置编码，统一编码的位置信息；⑥通过平均池化层与线性分类层，输出最终预测结果。

TianY等人在“EAN:EventAdaptive Network for EnhancedAction Recognition”(International Journal of Computer Vision,2022,130(10):2453-2471)中提出了一种可在卷积网络中即插即用的事件自适应网络，内容为：①提出事件自适应块(EventAdaptive Block，EAB)用于增强卷积算子的尺度自适应建模能力。该模块能够输入视频内部关键事件的尺度信息，自适应地动态选择固定尺度的时空卷积核的融合；②提出稀疏对象交互Transformer(Sparse Object Interaction Transformer，SOI-Tr)自适应选择动作中最重要的对象来构建稀疏交互图。即针对给定的深度视频特征，稀疏对象定位网络先输出几个物体的显著图，然后用Transformer对这部分物体间的远程交互进行建模，对原始视频特征和交互特征进行均值化处理，产生全局视频表示；③提出潜在运动编码(LatentMotion Code Module，LMC)模块来捕获局部视频片段中的短期运动信息，促进了对只有细微差别的动作的区分能力。

Hao Y等人在“Attention in attention:Modeling context correlation forefficient video classification”(IEEE Transactions on Circuits and Systems forVideo Technology,2022,32(10):7120-7132)一文中提出了一种注意力中的注意力(Attention in Attention，AIA)方法，将通道上下文插入到时空注意力模块及其反向变体中。具体内容为：①利用全局平均池化和最大池化操作将视频特征的上下文实例信息沿着特定维度聚合，AIA模块的第一个注意力块使用上下文信息来指导另一个注意力的门控权重计算；②设计将通道注意力插入到时空注意力当中的模块，增强各个维度的特征提取能力；③设计上述模块的反向变体，将时空注意力插入到通道注意力当中；④AIA模块被用于卷积神经网络和Transformer网络中，能够有效提升原有模型精度。

Long F等人在“Stand-alone inter-frame attention in video models”(Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2022:3192-3201)一文中设计了一个独立帧间注意力(Stand-alone Inter-Frame Attention，SIFA)模块，可插入到常见的卷积神经网络和Transformer网络中。该方法的具体内容为：①将当前帧的每个空间位置作为查询(Query，Q)，把下一帧中的局部邻域被视为键/值(keys/values，K/V)；②将Q和V之间的相似性度量作为独立的注意力进行学习，聚集相邻帧的局部区域内的所有邻域，以加权平均时间聚合的特征；③采用二维卷积算子预测以查询位置为中心的邻域中每个空间位置的偏移，增加视频帧的时空特征；④SIFA模块被用于卷积神经网络和Transformer网络中，能够有效提升原有模型精度。

Xie Z等人在“Global Temporal Difference Network for ActionRecognition”(IEEE Transactions on Multimedia,2022)一文中提出了一种用于动作识别的全局时间差异(Global Temporal Difference，GTD)模块，该模块由两个子模块组成，即全局聚合模块(Global Aggregation Module，GAM)和全局差异模块(Global DifferenceModel，GTM)。内容为：①在全局聚合模块中，通过将视频的视觉特征序列聚合为全局向量来学习全局先验知识，采用不同的时间依赖策略来多学习全局特征；②在全局差分模块中，通过从全局向量中减去每个局部向量来得到视频的差分向量序列，并使用通道自注意力操作学习特征的时序依赖关系；③全局时间差异模块是即插即用的，将其嵌入到ResNet-50网络中，将其替代原有的残差块，并利用全连接层作为分类层为动作识别结果提供预测。

但是，现有技术存在以下问题：

(1)现有技术在通过卷积神经网络提取视频特征时，因卷积和下采样等操作获得的特征图中未充分考虑时序依赖关系，难以对视频动作进行有效识别；

(2)虽然3D卷积相较于2D卷积有着能够学习视频时序特征的优势，但3D卷积仅能学习视频片段中的局部时序信息，存在收敛速度慢和计算代价高等问题；

(3)在利用Transformer网络捕获长距离时序依赖过程中，由于视频存在很多相似性信息，且未考虑到背景信息的影响，因此会引入大量的低效计算，导致模型参数量大，推理速度慢。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供基于时序聚合和门控Transformer的动作识别系统及方法，通过在浅层网络引入深度可分离卷积模块，并设计卷积算子，同时在深层网络引入门控单元，有效地将卷积神经网络和Transformer网络的优势融合，建立兼顾局部时空关系和全局时空关系的动作识别系统，实现对视频动作外观特征和运动特征的有效提取，具有减少背景信息干扰，降低模型计算量，提高动作识别准确率的特点。

为了实现上述目的，本发明采取的技术方案如下：

基于时序聚合和门控Transformer的动作识别系统，包括依次连接的特征提取模块、第一3D-ResNet网络、第一下采样模块、第二3D-ResNet网络、第二下采样模块、第一Transformer网络、第三下采样模块、第二Transformer网络、全局平均池化模块和全连接层；

特征提取模块：提取输入视频的时空特征，压缩输入数据的时间和空间维度，并进行层标准化操作，将提取到的时空特征输入第一3D-ResNet网络；

第一3D-ResNet网络：增强视频的局部时空特征信息，并将增强后的局部时空特征输入第一下采样模块；

第一下采样模块：提取时空特征，压缩输入数据的空间维度，并进行层标准化操作，用于降低第二3D-ResNet网络的计算量，保证准确率；

第二3D-ResNet网络：增强第一下采样模块输出特征的局部时空特征信息，并将增强后的局部时空特征输入第二下采样模块；

第二下采样模块：提取时空特征，压缩输入数据的空间维度，并进行层标准化操作，用于降低第一Transformer网络的计算量，保证准确率；

第一Transformer网络：增强第二下采样模块输出特征的全局时空特征信息，并将增强后的全局时空特征输入第三下采样模块；

第三下采样模块：提取时空特征，压缩输入数据的空间维度，并进行层标准化操作，用于降低第二Transformer网络的计算量，保证准确率；

第二Transformer网络：增强第三下采样模块输出特征的全局时空特征信息，并将增强后的全局时空特征输入全局平均池化模块和全连接层；

全局平均池化模块和全连接层：对第二Transformer网络输出的时空特征进行分类，输出动作识别结果。

所述第一3D-ResNet网络包括依次连接的三个局部特征聚合模块，具体为：

第一局部特征聚合模块：对特征提取模块提取到的时空特征进行局部时空特征信息的增强，并将增强后的局部时空特征输入第二局部特征聚合模块；

第二局部特征聚合模块：对第一局部特征聚合模块输出的局部时空特征进行局部时空特征信息增强，并将增强后的局部时空特征输入第三局部特征聚合模块；

第三局部特征聚合模块：对第二局部特征聚合模块输出的局部时空特征进行局部时空特征信息的增强，并将增强后的局部时空特征输入第一下采样模块。

所述第二3D-ResNet网络包括依次连接的四个局部特征聚合模块，具体为：

第四局部特征聚合模块：对第一下采样模块输出的时空特征进行局部时空特征信息的增强，并将增强后的局部时空特征输入第五局部特征聚合模块；

第五局部特征聚合模块：对第四局部特征聚合模块输出的局部时空特征进行局部时空特征信息增强，并将增强后的局部时空特征输入第六局部特征聚合模块；

第六局部特征聚合模块：对第五局部特征聚合模块输出的局部时空特征进行局部时空特征信息增强，并将增强后的局部时空特征输入第七局部特征聚合模块；

第七局部特征聚合模块：对第六局部特征聚合模块输出的局部时空特征进行局部时空特征信息的增强，并将增强后的局部时空特征输入第二下采样模块。

所述第一Transformer网络包括依次连接的第一门控单元、第一注意力模块、第二注意力模块、第三注意力模块、第二门控单元、第四注意力模块、第五注意力模块和第六注意力模块；

第一门控单元：对第二下采样模块输出的时空特征进行运动特征信息的增强，并将得到的运动特征输入第一注意力模块；

第一注意力模块：对第一门控单元输出的运动特征进行全局时空特征信息的增强，并将得到的全局时空特征输入第二注意力模块；

第二注意力模块：对第一注意力模块输出的全局时空特征进行全局时空特征信息的增强，并将得到的全局时空特征输入第三注意力模块；

第三注意力模块：对第二注意力模块输出的时空特征进行全局时空特征信息的增强，并将得到的时空特征输入第二门控单元；

第二门控单元：对第三注意力模块输出的全局时空特征进行运动特征信息的增强，并将得到的运动特征输入第四注意力模块；

第四注意力模块：对第二门控单元输出的运动特征进行全局时空特征信息的增强，并将得到的全局时空特征输入第五注意力模块；

第五注意力模块：对第四注意力模块输出的全局时空特征进行全局时空特征信息的增强，并将得到的全局时空特征输入第六注意力模块；

第六注意力模块：对第五注意力模块输出的全局时空特征进行全局时空特征信息的增强，并将得到的全局时空特征输入第三下采样模块。

所述第二Transformer网络包括依次连接的第三门控单元、第七注意力模块和第八注意力模块；

第三门控单元：对第三下采样模块输出的时空特征进行运动特征信息的增强，并将得到的运动特征输入第七注意力模块；

第七注意力模块：对第三门控单元输出的运动特征进行全局时空特征信息的增强，并将得到的全局时空特征输入第八注意力模块；

第八注意力模块：对第七注意力模块输出的全局时空特征进行全局时空特征信息的增强，并将得到的全局时空特征输入全局平均池化模块和全连接层。

所述局部特征聚合模块具体包括：

第一深度可分离卷积模块：利用卷积核大小为3×3×3、步长为1×1×1以及填充为1×1×1的卷积算子对输入的时空特征进行处理，获得与输入尺寸相同大小的特征图；

第一残差结构：将输入第一深度可分离卷积模块的时空特征与第一深度可分离卷积模块输出的特征图相加，实现视频特征的动态位置编码，获得外观特征；

第一批归一化模块：对第一残差结构输出的外观特征进行批归一化操作，将得到的外观特征输入第一卷积算子；

第一卷积算子：用于增强第一批归一化模块处理后的视频帧的外观特征，将得到的外观特征输入第二深度可分离卷积模块；

第二深度可分离卷积模块：将第一卷积算子输出的外观特征通过卷积核大小为5×1×1、步长为1×1×1以及填充为2×0×0的逐通道卷积，处理输入特征的时空信息，然后通过卷积核大小为1×1×5、步长为1×1×1以及填充为0×2×2的逐点卷积，处理输入特征的通道信息，获得与输入尺寸相同大小的特征图；

第二残差结构：将第一批归一化模块输出的外观特征与第二深度可分离卷积模块输出的特征图相加，获得增强后的局部时空特征；

第二批归一化模块：对第二残差结构输出的局部时空特征进行批归一化操作，将得到时空特征输入第一全连接层；

第一全连接层：将第二批归一化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，获得与输入尺寸相同大小的特征图；

第三残差结构：将第一全连接层输出的特征图与第二批归一化模块输出的时空特征相加，获得增强后的局部时空特征。

所述门控单元具体包括：

第三深度可分离卷积模块：利用卷积核大小为3×3×3、步长为1×1×1以及填充为1×1×1的卷积算子对输入特征进行处理，获得与输入尺寸相同大小的特征图；

第四残差结构：将输入第三深度可分离卷积模块的时空特征与第三深度可分离卷积模块输出的特征图相加，实现视频特征的动态位置编码，获得外观特征；

第一全局平均池化模块：将第四残差结构输出的时空特征进行自适应的全局平均池化操作，将得到的时空特征输入第二全连接层；

第二全连接层：将第一全局平均池化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，处理输入特征的通道信息；

矩阵乘法结构：将第四残差结构输出的外观特征与第二全连接层的输出结果进行矩阵乘法操作，得到增强后的时空特征；

级联做差结构：将第四残差结构输出的外观特征与矩阵乘法结构得到的时空特征进行级联做差，获得抑制背景信息的时空特征；

第一层标准化模块：对矩阵乘法结构得到的时空特征进行层标准化操作，将得到的时空特征输入第一时空Transformer模块；

第一时空Transformer模块：将第一层标准化模块输出的时空特征通过多头注意力Multi-Head，学习视频动作的长距离时序依赖关系；

第五残差结构：将第一层标准化模块输出的时空特征与第一时空Transformer模块的输出结果相加，获得增强后的运动特征；

第二层标准化模块：对第五残差结构输出的运动特征进行层标准化操作，将得到的时空特征输入第三全连接层；

第三全连接层：将第二层标准化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，获得与输入尺寸相同大小的特征图；

第六残差结构：将第二层标准化模块输出的时空特征与第三全连接层输出的特征图相加，获得增强后的全局时空特征；

级联做和结构：将级联做差结构输出的时空特征与第六残差结构输出的全局时空特征进行级联做和，获得增强后的运动特征。

所述注意力模块具体包括：

第四深度可分离卷积模块：利用卷积核大小为3×3×3、步长为1×1×1以及填充为1×1×1的卷积算子对输入特征进行处理，获得与输入尺寸相同大小的特征图；

第七残差结构：将输入第四深度可分离卷积模块的时空特征与第四深度可分离卷积模块输出的特征图相加，实现视频特征的动态位置编码，获得外观特征；

第三层标准化模块：将输入的时空特征进行层标准化操作，将得到的时空特征输入第二时空Transformer模块；

第二时空Transformer模块：将第三层标准化模块输出的时空特征通过多头注意力Multi-Head，学习视频动作的长距离时序依赖关系；

第八残差结构：将第三层标准化模块输出的时空特征与第二时空Transformer模块的输出结果相加，获得增强后的运动特征；

第四层标准化模块：对第八残差结构输出的运动特征进行层标准化操作，将得到的时空特征输入第四全连接层；

第四全连接层：将第四层标准化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，获得与输入尺寸相同大小的特征图；

第九残差结构：将第四层标准化模块输出的时空特征与第四全连接层输出的特征图相加，获得增强后的全局时空特征。

基于时序聚合和门控Transformer的动作识别方法，包括以下步骤：

步骤1，特征提取：利用特征提取模块提取输入视频的时空特征；

步骤2，局部特征增强：将步骤1提取到的时空特征依次输入第一3D-ResNet网络、第一下采样模块、第二3D-ResNet网络和第二下采样模块，输出增强了局部时空特征信息的时空特征；

步骤3：全局特征增强：将步骤2输出的时空特征依次输入第一Transformer网络、第三下采样模块和第二Transformer网络，输出增强了全局时空特征信息的时空特征；

步骤4：动作识别：将步骤3输出的时空特征输入全局平均池化模块和全连接层进行分类，输出动作识别结果。

相对于现有技术，本发明的有益效果在于：

1、本发明在浅层网络中引入深度可分离卷积模块，通过两次深度可分离卷积操作分别处理外观特征和通道特征，增强视频的局部时空特征信息，从而有效减少视频的信息冗余，与现有技术相比，具有减少背景信息干扰，降低模型计算量的特点。

2、本发明在深层网络中引入门控单元，通过级联做差抑制视频的背景信息，利用时间和空间注意力机制提取视频全局信息，并通过级联做和增强视频的运动信息，捕获视频动作的长时间时序依赖关系，与现有技术相比，提高了动作识别的准确率。

3、本发明中采用了特征提取操作和多处下采样操作，与现有技术相比，不仅可以有效压缩特征维度，降低模型计算量，同时还可以保证模型的准确率。

综上所述，与现有技术相比，本发明通过在浅层网络引入深度可分离卷积模块，并设计卷积算子，同时在深层网络引入门控单元，有效地将卷积神经网络和Transformer网络的优势融合，建立兼顾局部时空关系和全局时空关系的动作识别系统，实现了对视频动作外观特征和运动特征的有效提取，减少了背景信息干扰，降低了模型计算量，提高了动作识别准确率。

附图说明

图1为本发明动作识别系统的结构示意图。

图2为本发明中局部特征聚合模块的结构示意图。

图3为本发明中门控单元的结构示意图。

图4为本发明中注意力模块的结构示意图。

图5为本发明动作识别方法流程图。

具体实施方式

下面结合附图详细说明本发明的技术方案。

参见图1，基于时序聚合和门控Transformer的动作识别系统，包括依次连接的特征提取模块、第一3D-ResNet网络、第一下采样模块、第二3D-ResNet网络、第二下采样模块、第一Transformer网络、第三下采样模块、第二Transformer网络、全局平均池化模块和全连接层；

特征提取模块：利用卷积核大小为3×4×4、步长为2×4×4以及填充为1×0×0的卷积算子提取输入视频的时空特征，同时压缩输入数据的时间和空间维度，然后进行层标准化操作，将提取到的时空特征输入第一3D-ResNet网络；

具体为由一个卷积核大小为3×4×4、步长为2×4×4的卷积算子、一个LayerNormalization归一化操作和一个线性整流函数ReLu构成，同时压缩输入数据的时间和空间维度。

线性整流函数ReLu的计算公式如下：

其中，x为输入特征图中的元素。

本发明中的特征提取模块采用的是现有的3D卷积算子，该操作能有效提取视频特征，若将该卷积算子替换为分解的2D卷积操作和1D卷积操作，同样能够完成本发明的目的。

第一3D-ResNet网络：增强视频的局部时空特征信息，并将增强后的时空特征输入第一下采样模块；

第一下采样模块：利用卷积核大小为1×2×2、步长为1×2×2以及填充为0的卷积算子提取时空特征，压缩输入数据的空间维度，将得到的输出进行层标准化操作，用于降低第二3D-ResNet网络的计算量，保证准确率；

第二3D-ResNet网络：增强第一下采样模块输出特征的局部时空特征信息，并将增强后的时空特征输入第二下采样模块；

第二下采样模块：利用卷积核大小为1×2×2、步长为1×2×2以及填充为0的卷积算子提取时空特征，压缩输入数据的空间维度，将得到的输出进行层标准化操作，用于降低第一Transformer网络的计算量，保证准确率；

第一Transformer网络：增强第二下采样模块输出特征的全局时空特征信息，并将增强后的时空特征输入第三下采样模块；

第三下采样模块：利用卷积核大小为1×2×2、步长为1×2×2以及填充为0的卷积算子提取时空特征，压缩输入数据的空间维度，将得到的输出进行层标准化操作，用于降低第二Transformer网络的计算量，保证准确率；

第二Transformer网络：增强第三下采样模块输出特征的全局时空特征信息，并将增强后的时空特征输入全局平均池化模块；

全局平均池化模块和全连接层：对第二Transformer网络输出的时空特征进行分类，输出动作识别结果；

其中，三次下采样操作是通过设置一个卷积核大小1×2×2、步长为1×2×2的卷积算子和LayerNormalization归一化来实现，仅压缩数据的空间维度。这些下采样操作不仅可以有效降低模型计算量，同时还可以保证模型的准确率。

本发明将卷积神经网络和Transformer网络的优势融合，实现对视频动作外观特征和运动特征的有效提取，建立了兼顾局部时空关系和全局时空关系的动作识别系统，其中，全局依赖关系构建方式是采用时空Transformer注意力模块，该模块能实现对长距离时序依赖关系的有效建模。如果采用时间Transformer注意力和空间Transformer注意力，同样能完成本发明的目的。

第一局部特征聚合模块：对特征提取模块提取到的时空特征进行局部时空特征信息的增强，并将增强后的时空特征输入第二局部特征聚合模块；

第二局部特征聚合模块：对第一局部特征聚合模块输出的时空特征进行局部时空特征信息的增强，并将增强后的时空特征输入第三局部特征聚合模块；

第三局部特征聚合模块：对第二局部特征聚合模块输出的时空特征进行局部时空特征信息的增强，并将增强后的时空特征输入第一下采样模块。

第四局部特征聚合模块：对第一下采样模块输出的时空特征进行局部时空特征信息的增强，并将增强后的时空特征输入第四局部特征聚合模块；

第五局部特征聚合模块：对第四下采样模块输出的时空特征进行局部时空特征信息的增强，并将增强后的时空特征输入第六局部特征聚合模块；

第六局部特征聚合模块：对第五下采样模块输出的时空特征进行局部时空特征信息的增强，并将增强后的时空特征输入第七局部特征聚合模块；

第七局部特征聚合模块：对第六下采样模块输出的时空特征进行局部时空特征信息的增强，并将增强后的时空特征输入第二下采样模块。

第一注意力模块：对第一门控单元输出的运动特征进行全局时空特征信息的增强，并将得到的时空特征输入第二注意力模块；

第二注意力模块：对第一注意力模块输出的时空特征进行全局时空特征信息的增强，并将得到的时空特征输入第三注意力模块；

第二门控单元：对第三注意力模块输出的时空特征进行运动特征信息的增强，并将得到的运动特征输入第四注意力模块；

第四注意力模块：对第二门控单元输出的运动特征进行全局时空特征信息的增强，并将得到的时空特征输入第五注意力模块；

第五注意力模块：对第四注意力模块输出的时空特征进行全局时空特征信息的增强，并将得到的时空特征输入第六注意力模块；

第六注意力模块：对第五注意力模块输出的时空特征进行全局时空特征信息的增强，并将得到的时空特征输入第三下采样模块。

第七注意力模块：对第三门控单元输出的运动特征进行全局时空特征信息的增强，并将得到的时空特征输入第八注意力模块；

第八注意力模块：对第七注意力模块输出的时空特征进行全局时空特征信息的增强，并将得到的时空特征输入全局平均池化模块和全连接层。

参见图2，所述局部特征聚合模块具体包括：

第一深度可分离卷积模块：利用卷积核大小为3×3×3、步长为1×1×1以及填充为1×1×1的卷积算子对输入的时空特征进行处理，获得与输入尺寸相同大小的特征图，该操作借助卷积算子实现对视频特征的时空位置编码，学习视频时空局部邻域的特征表示；

第一残差结构：利用恒等映射和跳跃连接原理，将局部特征聚合模块的输入与第一深度可分离卷积模块得到的输出相加，实现视频特征的动态位置编码，增强视频的时空特征信息；

第一批归一化模块：对第一残差结构输出的外观特征进行批归一化操作，将得到的外观特征输入卷积算子；

第一卷积算子：用于增强第一批归一化模块处理后的视频帧的外观特征，将得到的外观特征输入第二深度可分离卷积模块；所述卷积算子的卷积核大小为1×1×1，步长为1×1×1以及填充为0；

第二深度可分离卷积模块：将第一卷积算子输出的外观特征通过卷积核大小为5×1×1、步长为1×1×1以及填充为2×0×0的逐通道卷积，处理输入特征的时空信息，然后通过卷积核大小为1×1×5、步长为1×1×1以及填充为0×2×2的逐点卷积，处理输入特征的通道信息，获得与输入尺寸相同大小的特征图，该操作能够有效地聚合视频的局部特征，减少模型计算量和参数量，解决了浅层网络中的视频冗余问题；

第二残差结构：利用恒等映射和跳跃连接原理，将第一批归一化模块的输出与第二深度可分离卷积模块的输出结果相加，获得增强后的局部时空特征；

第二批归一化模块：对第二残差结构输出的时空特征进行批归一化操作，将得到时空特征输入第一全连接层；

第一全连接层：将第二批归一化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，获得与输入尺寸相同大小的特征图；具体为通过一个线性层处理输入特征，将得到的输出通过一个高斯误差线性单元GELU，再通过一个线性层，获得与输入尺寸相同大小的特征图；

所述高斯误差线性单元GELU的计算公式如下：

GELU(x)＝xP(X≤x)＝xΦ(x)

式中，x为输入特征图中的元素，Φ(x)指的是x的高斯正态分布的累积分布函数，即：

式中，μ是指输入数据的期望值，σ是指输入数据的标准差；

第三残差结构：利用恒等映射和跳跃连接原理，将第一全连接层的输出与第二批归一化模块的输出结果相加，获得增强后的局部时空特征；

参见图3，所述门控单元具体包括：

第四残差结构：利用恒等映射和跳跃连接原理，将门控单元的输入与第三深度可分离卷积模块的输出结果相加，实现视频特征的动态位置编码；

第一全局平均池化模块：将第四残差结构输出的时空特征进行自适应的全局平均池化操作，降低视频的冗余信息，扩大感受野，将得到的时空特征输入第二全连接层；

第二全连接层：将第一全局平均池化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，处理输入特征的通道信息；具体为通过一个线性层，降低通道维度，将得到的输出通过一个线性整流函数ReLu，再通过一个线性层，恢复通道维度，将输出通过一个S型函数Sigmoid；

所述线性整流函数ReLu的计算公式如下：

其中，x为输入特征图中的元素。

所述S型函数Sigmoid的计算公式如下：

其中，x为输入的特征图中的元素。

矩阵乘法结构：将第四残差结构的输出与第二全连接层的输出结果进行矩阵乘法操作，恢复输入特征的尺寸，得到增强后的时空特征；

级联做差结构：将第四残差结构的输出与矩阵乘法结构得到的输出进行级联做差，获得抑制背景信息的时空特征；

第一层标准化模块：将输入的时空特征进行层标准化操作，将得到的时空特征输入第一时空Transformer模块；

第一时空Transformer模块：将第一层标准化模块输出的时空特征通过多头注意力(Multi-Head)，学习视频动作的长距离时序依赖关系，其计算过程如下所示：

对于多头注意力，计算公式如下所示：

其中，H_i代表注意力头，n_h为头的数量，设置为64。W^O分别表示线性映射Q、K、V、O的参数。d_k表示K向量的维数。

第五残差结构：利用恒等映射和跳跃连接原理，将第一层标准化模块的输出与第一时空Transformer模块的输出结果相加，获得增强后的运动特征；

第三全连接层：将第二层标准化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，获得与输入尺寸相同大小的特征图；具体为通过一个线性层处理输入特征，将得到的输出通过一个高斯误差线性单元GELU，再通过一个线性层，获得与输入尺寸相同大小的特征图；

第六残差结构：利用恒等映射和跳跃连接原理，将第二层标准化模块的输出与第三全连接层的输出结果相加，获得增强后的全局时空特征；

级联做和结构：将级联做差结构输出的时空特征与第六残差结构的输出结果进行级联做和，获得增强后的运动特征；

本发明中的门控单元采用的是现有的2D卷积算子，该操作能有效提取视频帧的差异信息，若采用其他卷积操作，例如：改进的2D卷积算子和3D卷积算子，同样能够完成本发明的目的。

参见图4，所述的注意力模块具体包括：

第二时空Transformer模块：将第三层标准化模块输出的时空特征通过多头注意力(Multi-Head)，学习视频动作的长距离时序依赖关系，其计算过程如下所示：

对于多头注意力，计算公式如下所示：

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，H_i代表注意力头，n_h为头的数量，设置为64。W_i ^Q、W_i ^K、W_i ^V、W^O分别表示线性映射Q、K、V、O的参数。d_k表示K向量的维数。

第八残差结构：利用恒等映射和跳跃连接原理，将第三层标准化模块的输出与第二时空Transformer模块的输出结果相加，获得增强后的运动特征；

第四全连接层：将第四层标准化模块得到的时空特征映射到样本标记空间，进行全局特征提取和非线性变换，获得与输入尺寸相同大小的特征图；具体为通过一个线性层处理输入特征，将得到的输出通过一个高斯误差线性单元GELU，再通过一个线性层，获得与输入尺寸相同大小的特征图；

第九残差结构：利用恒等映射和跳跃连接原理，将第四层标准化模块的输出与第四全连接层的输出结果相加，获得增强后的全局时空特征；

参见图5，基于时序聚合和门控Transformer的动作识别方法，包括以下步骤：

Claims

1.基于时序聚合和门控Transformer的动作识别系统，其特征在于，包括依次连接的特征提取模块、第一3D-ResNet网络、第一下采样模块、第二3D-ResNet网络、第二下采样模块、第一Transformer网络、第三下采样模块、第二Transformer网络、全局平均池化模块和全连接层；

2.根据权利要求1所述的基于时序聚合和门控Transformer的动作识别系统，其特征在于，所述第一3D-ResNet网络包括依次连接的三个局部特征聚合模块，具体为：

3.根据权利要求1所述的基于时序聚合和门控Transformer的动作识别系统，其特征在于，所述第二3D-ResNet网络包括依次连接的四个局部特征聚合模块，具体为：

4.根据权利要求1所述的基于时序聚合和门控Transformer的动作识别系统，其特征在于，所述第一Transformer网络包括依次连接的第一门控单元、第一注意力模块、第二注意力模块、第三注意力模块、第二门控单元、第四注意力模块、第五注意力模块和第六注意力模块；

5.根据权利要求1所述的基于时序聚合和门控Transformer的动作识别系统，其特征在于，所述第二Transformer网络包括依次连接的第三门控单元、第七注意力模块和第八注意力模块；

6.根据权利要求2或3所述的基于时序聚合和门控Transformer的动作识别系统，其特征在于，所述局部特征聚合模块具体包括：

7.根据权利要求4或5所述的基于时序聚合和门控Transformer的动作识别系统，其特征在于，所述门控单元具体包括：

8.根据权利要求4或5所述的基于时序聚合和门控Transformer的动作识别系统，其特征在于，所述注意力模块具体包括：

9.基于时序聚合和门控Transformer的动作识别方法，其特征在于，包括以下步骤：