CN115100574A

CN115100574A - 基于融合图卷积网络与Transformer网络的动作识别方法及系统

Info

Publication number: CN115100574A
Application number: CN202210851338.2A
Authority: CN
Inventors: 袁国慧; 王卓然; 张文超; 黄崇君
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-09-23

Abstract

一种基于融合图卷积网络与Transformer网络的动作识别方法及系统，属于计算机视觉等技术领域，解决现有技术只浅层使用图卷积网络提取空间特征，其局部时空特征建模能力差的问题。本发明对获取的人体骨架序列数据进行预处理，并引入关节速度信息，得到引入关节速度信息的人体骨架序列；基于引入关节速度信息的人体骨架序列构建时空骨架图；构建时空骨架图的自适应时空图卷积单元模块并进行堆叠，堆叠后得到时空图卷积网络；通过融合层将时空图卷积网络和视觉Transformer网络进行融合得到动作识别模型并进行训练；将待预测的人体动作骨架序列处理后送入训练好的动作识别模型进行预测，预测得到动作类别。本发明用于动作识别。

Description

基于融合图卷积网络与Transformer网络的动作识别方法及系统

技术领域

一种基于融合图卷积网络与Transformer网络的动作识别方法及系统，用于动作识别，属于计算机视觉、动作识别及深度学习技术领域。

背景技术

动作识别技术是计算机视觉领域中既基础又核心的研究领域之一，主要是对人体动作进行类别判断。动作识别技术在学术界及工业级等诸多领域均有着广泛的研究，发展及应用。由于RGB数据本身抗干扰能力弱，视觉遮挡、背景干扰和光照变化等问题一直限制着基于RGB视频的动作识别的发展。骨架数据去掉衣物及身形信息，重点包含人体关节的空间位置信息，相比图像信息，其具有更高级和准确的信息表达能力以及适应能力强等优势特性，因其数据本身不受视点变化、光照变化等问题影响，在动作识别任务中鲁棒性好。

骨架序列包含人体骨骼关节点的空间位置信息，通过对帧间人体骨骼关节的空间位置变化进行描述建模，提取动作过程中骨骼关节的时空变化特征实现动作识别。随着深度学习技术的发展，越来越多的深度学习中的网络模型被用于基于骨架数据的动作识别任务中。常见的算法可以分为以下三类：基于循环神经网络(Recurrent Neural Network，RNN)、基于卷积神经网络(Conventional Neural Network，CNN)和基于图卷积神经网络(Graph Convolutional Network，GCN)的方法，基于GCN的方法按拓扑图结构处理骨架数据，以成为主流。

现有技术中基于RNN的方法按时间向量处理动作序列，丢失了关节点空间结构信息，从而造成动作类别判断精准度差。基于CNN的方法以伪图片形式处理骨架序列，对关节间联系的建模表达存在缺失，从而造成动作类别判断精准度差。ST-GCN中将人体骨架按照生理结构构建固定结构的时空骨架图，由于图结构固定导致节点信息只能按照固定路径进行传播，路程较长的节点只能通过高阶卷积进行信息传递和交互，容易造成对骨骼空间结构特征的提取存在欠缺，未能准确表示动作特征，模型鲁棒性较差。ST-GCN、2s-AGCN方法均在整个模型中使用时间卷积网络在局部时间范围内进行时间卷积，基于时间卷积网络对时间维度信息进行提取会对整个动作过程中的时间动态信息表示不全面，方法存在计算复杂度大，且长时特征抽取不完整导致模型准确率低的问题。

CN113111760A-基于通道注意力的轻量化图卷积人体骨架动作识别方法虽然利用邻接矩阵以及引入通道注意力机制的残差GCN网络提取骨架序列的空间特征，再对空间特征池化聚合之后提取骨架序列的时间特征，来完成动作类别判断，但存在如下技术问题：

1.只浅层使用图卷积网络提取空间特征，其局部时空特征建模能力差，从而造成动作类别判断的准确性差的问题；

2.使用双层全连接层对骨架序列信息进行编码后内积求得邻接矩阵，未考虑骨架生理连接关系，使图卷积层对骨架图建模能力弱，从而造成动作类别判断的准确性差的问题；

3.使用一阶CNN网络提取骨架序列的时间特征，对长程时间特征建模能力差，从而造成动作类别判断的准确性差的问题。

发明内容

针对上述研究的问题，本发明的目的在于提供了一种基于融合图卷积网络与Transformer网络的动作识别方法及系统，解决现有技术只浅层使用图卷积网络提取空间特征，其局部时空特征建模能力差，从而造成动作类别判断的准确性差的问题。

为了达到上述目的，本发明采用如下技术方案：

一种基于融合图卷积网络与Transformer网络的动作识别方法，包括如下步骤：

S1：对获取的人体骨架序列数据进行预处理，基于预处理后得到的结果引入关节速度信息，得到引入关节速度信息的人体骨架序列，其中，人体骨架序列数据即为骨架的帧序列；

S2：基于引入关节速度信息的人体骨架序列构建时空骨架图；

S3：构建时空骨架图的自适应时空图卷积单元模块并进行堆叠，堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络；

S4：通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合，对融合后得到的动作识别模型进行训练，得到训练好的动作识别模型，其中，融合层基于局部时空特征得到伪图像特征图；

S5：将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测，预测得到动作类别。

进一步，所述步骤S1的具体步骤为：

S1.1：基于BN层对获取的人体骨架序列进行归一化处理；

S1.2：将归一化处理后得到的人体骨架序列随机裁剪到大于64帧的长度；

S1.3：使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上进行上下采样操作，将裁剪后得到的人体骨架序列缩放到64帧长度，即得到缩放后的人体骨架序列；

S1.4：基于缩放后的人体骨架序列，对各关节点前后帧进行差分运算得到关节点对应的速度信息，对于t帧中第i个关节点v_ti及该关节点在t+1帧中对应的关节点v_(t+1)i，其空间位置信息分别为(x_ti，y_ti，z_ti)和(x_(t+1)i，y_(t+1)i，z_(t+l)i)，则对于t帧中关节点v_ti，其速度信息为(x_(t+1)i-x_ti，y_(t+1)i-y_ti，z_(t+1)i-z_ti)，将位置信息和速度信息拼接，即得到预处理后的人体骨架序列，拼接后的关节点v_ti的信息可表示为：(x_(t+1)i，y_(t+1)i，z_(t+1)i，x_(t+1)i-x_ti，y_(t+1)i-y_ti，z_(t+1)i-z_ti)，x，y，z表示三维坐标点。

进一步，所述步骤S2的具体步骤为：

S2.1：用无向图G＝(V，E)表示预处理后的人体骨架序列，其中，人体骨架序列有T帧N个关节点，无向图G中的V表示关节点的集合，E表示边的集合，即骨骼连接的集合；

S2.2：V＝{v_ti|t＝1，L，T，i＝1，L，N}表示无向图G中所有关节点，t表示帧数索引标号，i表示关节点索引标号，T表示总帧数，N表示总关节点数；

S2.3：边的集合E由空间边的集合E_s和时间边的集合Et两部分共同组成，即E＝(E_s，E_t)，子集E_s＝{v_tiv_tj|(i，j)∈H}是每一帧空间维度上关节点之间的连接，属于帧内连接，其中，H是空间中人体的关节点连接的集合，子集E_t＝{v_tiv_(t+1)i}是前后两帧之间同一关节点之间的连接，属于帧间连接；

S2.4：以空间p处为中心点，定义该点在该帧内空间上的邻点集合B(v_ti)＝{v_tj|d(v_tj，v_ti)≤D}，d(v_tj，v_ti)表示t帧中第j个关节点v_tj到第i个关节点v_ti的最短距离，D为给定的阈值，为1，对每个关节点的邻点集合进行标记，定义图卷积过程中的索引顺序，即将关节点v_ti的邻点集合B(v_ti)按照根节点子集、向心点子集、离心点子集划分为3个子集，划分规则和定义的索引顺序如下：

其中，r_i为关节点i到骨架重心的距离，关节点i为邻点集合的中心关节点，骨架重心是单帧下整个人体骨架的所有关节点的坐标位置取均值后得到的坐标位置，r_j为关节点j到骨架重心的距离；

划分、且定义索引顺序后，得到时空骨架图。

进一步，所述步骤S3的具体步骤为：

S3.1：根据3个子集，使用自适应图结构设计单层自适应图卷积层，计算公式如下：

其中，f_in为空间图卷积层的输入，空间图卷积层即指单层自适应图卷积层，f_out为空间图卷积层的输出，W_k为可训练的第k个子集的权重矩阵，根节点子集、向心点子集、离心点子集的分区数K为3，即时空骨架图的归一化邻接矩阵

分为3个部分A_k，A₁为单位阵I，

为被分为两个不同的有向图A₂和A₃，A₂指向人体骨架重心，A₃远离人体骨架重心，

其中，度矩阵

对于同一个数值k，邻接矩阵B_k以A_k进行邻接矩阵参数初始化，在动作识别模型训练的过程中对邻接矩阵B_k的参数进行更新，邻接矩阵C_k依赖于不同的人体骨架序列样本数据本身生成图结构信息，使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉，得出两个关节点之间的关联依赖性，由于归一化高斯嵌入与softmax操作是等价的，所以邻接矩阵C_k计算公式如下：

其中，

表示第k个子集的可训练的线性层θ的参数矩阵的倒置，W_φk表示第k个子集的可训练的线性层φ的参数矩阵，

与W_φk用于与f_in相乘实现数据变换。

S3.2：构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层，即对空间图卷积网络输出的特征f_out实施挤压操作F_sq(·)，特征f_out通道数为c维，得到c维向量S，将向量S送入两层全连接层进行激励操作F_ex(·)，得到新的c维权重向量EE，将向量EE与空间图卷积层输出特征f_out进行相乘之后再与空间图卷积层输出特征f_out进行残差连接，相加得到最后的输出特征f；

S3.3：使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征，卷积核尺寸为1×Γ，其中，Γ是时间卷积核跨越的帧数；

S3.4：依次连接自适应图卷积层、批标准化层、残差通道注意力层、ReLu激活函数层、时域卷积层、批标准化层和ReLu激活函数层构成自适应时空图卷积单元模块；

S3.5：依次连接3个自适应时空图卷积单元模块，每个时间卷积层的时间卷积步长均设为1，得到基于堆叠后的自适应时空图卷积单元模块，即时空图卷积网络。

进一步，所述步骤S3.2中的激励操作F_ex(·)具体为：通过第一个全连接层得到C/r维向量，然后进行ReLu激活，再对其进行第二个全连接层，将C/r维向量变回C维向量，再次进行Sigmoid激活，使得数值位于0-1之间，最终得到c维权重向量EE。

进一步，所述步骤S4中，融合层的具体实现步骤为：

S4.1：在空间维度上，即在特征张量的节点维度上进行全局平均池化，将局部时空特征在关节点空间维度上进行聚合，使动作特征变为时间序列特征；

S4.2：将时间序列特征按时间先后顺序以从左到右、从上到下的方式进行数组变换得到时间序列特征在二维上的表示，且在通道方向上不变，最终生成伪图像特征图。

一种基于融合图卷积网络与Transformer网络的动作识别系统，包括：

数据处理模块：对获取的人体骨架序列数据进行预处理，基于预处理后得到的结果引入关节速度信息，得到引入关节速度信息的人体骨架序列，其中，人体骨架序列数据即为骨架的帧序列；

时空骨架图构建模块：基于引入关节速度信息的人体骨架序列构建时空骨架图；

时空图卷积网络构建模块：构建时空骨架图的自适应时空图卷积单元模块并进行堆叠，堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络；

融合模块：通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合，对融合后得到的动作识别模型进行训练，得到训练好的动作识别模型，其中，融合层基于局部时空特征得到伪图像特征图；

预测模块：将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测，预测得到动作类别。

进一步，所述步骤数据处理模块的具体实现步骤为：

S1.1：基于BN层对获取的人体骨架序列进行归一化处理；

S1.4：基于缩放后的人体骨架序列，对各关节点前后帧进行差分运算得到关节点对应的速度信息，对于t帧中第i个关节点v_ti及该关节点在t+1帧中对应的关节点v_(t+1)i，其空间位置信息分别为(x_ti，y_ti，z_ti)和(x_(t+1)i，y_(t+1)i，z_(t+1)i)，则对于t帧中关节点v_ti，其速度信息为(x_(t+1)i-x_ti，y_(+1)i-y_ti，z_(t+1)i-z_ti)，将位置信息和速度信息拼接，即得到预处理后的人体骨架序列，拼接后的关节点v_ti的信息可表示为：(x_(t+1)i，y_(t+1)i，z_(t+1)i，x_(t+1)i-x_ti，y_(t+l)i-y_ti，z_(t+1)i-z_ti)，x，y，z表示三维坐标点。

进一步，所述时空骨架图构建模块的具体实现步骤为：

S2.3：边的集合E由空间边的集合E_s和时间边的集合E_t两部分共同组成，即E＝(E_s，E_t)，子集E_s＝{v_tiv_tj|(i，j)∈H}是每一帧空间维度上关节点之间的连接，属于帧内连接，其中，H是空间中人体的关节点连接的集合，子集E_t＝{v_tiv_(t+l)i}是前后两帧之间同一关节点之间的连接，属于帧间连接；

S2.4：以空间p处为中心点，定义该点在该帧内空间上的邻点集合B(v_ti)＝{v_tj|d(v_tj，v_ti)≤D}，d(v_ti，v_ti)表示t帧中第j个关节点v_tj到第i个关节点v_ti的最短距离，D为给定的阈值，为1，对每个关节点的邻点集合进行标记，定义图卷积过程中的索引顺序，即将关节点v_ti的邻点集合B(v_ti)按照根节点子集、向心点子集、离心点子集划分为3个子集，划分规则和定义的索引顺序如下：

划分、且定义索引顺序后，得到时空骨架图；

所述时空图卷积网络构建模块的具体实现步骤为：

分为3个部分A_k，A₁为单位阵I，

其中，度矩阵

对于同一个数值k，邻接矩阵B_k以A_k进行邻接矩阵参数初始化，在动作识别模型训练的过程中对邻接矩阵B_k的参数进行更新，邻接矩阵C_k依舶于不同的人体骨架序列样本数据本身生成图结构信息，使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉，得出两个关节点之间的关联依赖性，由于归一化高斯嵌入与softmax操作是等价的，所以邻接矩阵C_k计算公式如下：

其中，

与W_φk用于与f_in相乘实现数据变换。

S3.2：构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层，即对空间图卷积网络输出的特征f_out实施挤压操作F_sq(·)，特征f_out通道数为c维，得到c维向量S，将向量S送入两层全连接层进行激励操作F_ex(·)，得到新的c维权重向量EE，将向量EE与空间图卷积层输出特征f_out进行相乘之后再与空间图卷积层输出特征f_out进行残差连接，相加得到最后的输出特征f；其中，激励操作F_ex(·)具体为：通过第一个全连接层得到C/r维向量，然后进行ReLu激活，再对其进行第二个全连接层，将C/r维向量变回C维向量，再次进行Sigmoid激活，使得数值位于0-1之间，最终得到c维权重向量EE；

S3.5：依次连接3个自适应时空图卷积单元模块，每个时间卷积层的时间卷积步长均设为1，得到基于堆叠后的自适应时空图卷积单元模块，即时空图卷积网络；

进一步，所述融合模块中，融合层的具体实现步骤为：

本发明同现有技术相比，其有益效果表现在：

一、本发明通过在网络模型训练过程中对依据人体生理结构设计的固定结构的邻接矩阵进行学习更新(即邻接矩阵B_k是在网络训练过程中进行学习更新)，同时针对每一个样本数据自适应地依据节点特征计算节点之间的连接关系和连接强弱(邻接矩阵C_k是使用输入f_in进行计算，两个线性层是在训练过程中进行学习的，使用是针对每一个样本数据自适应的调整连接关系和连接强弱)，通过两个邻接矩阵组合(即邻接矩阵B_k和邻接矩阵C_k的组合)作用实现对每一个样本进行个性化的动作时空特征提取，提高基于骨架数据的动作识别鲁棒性。

二、本发明使用Transformer框架对长程时间特征进行提取，通过对时间序列特征的重新排列可使连续时刻及不连续时刻实现特征交互，整体提取动作序列长程时间特征，可使用通用的用于图像分类的视觉Transformer框架进行替换，方法使用更加简单。

三、本发明使用多层自适应时空图卷积单元对人体骨架序列所有关节点的局部时空特征进行抽取，进一步对局部时空特征在节点维度上池化压缩(聚合)后送入Transformer框架进行长程时间特征提取，整个方法中以较小的计算量实现对局部时空特征和长程时间特征的提取，模型更加轻量化的同时准确率，鲁棒性均较好。

附图说明

图1是本发明的流程图；

图2是本发明基于人体骨架序列构建的时空骨架图；

图3是本发明中时空骨架图的关节点的邻点集合的子集划分示意图；

图4是本发明中自适应空间图卷积层的示意图，图中，res 1×1代表使用1×1卷积进行残差连接；

图5是本发明中残差通道注意力层的示意图，图中，f_out中的C、W、H分别表示f_out的C维向量、W维向量、H维向量，f中的C、W、H分别表示f的C维向量、W维向量、H维向量；

图6是本发明中自适应时空图卷积单元模块的示意图，其中，GCN代表自适应图卷积层、BN代表批标准化层、RCAB代表残差通道注意力层、ReLU代表ReLu激活函数层、TCN代表时域卷积层；

图7是本发明融合时空图卷积网络与视觉Transformer网络的动作识别方法结构示意图，其中，N代表输入数据，BN代表BN层，GCN代表自适应图卷积层，TCN代表时域卷积层，Channel Attention代表残差通道注意力层，GAP代表全局均池化，Transformer代表视觉Transformer网络，FC代表全连接层，OUT为输出结果；

图8是本发明中所述的ViT模型的结构示意图，其中，Linear Projection ofFlatten Patches代表对展平的图像块进行线性投射，Patch+Positional Embedding代表对图像块进行块及位置编码，Transformer Encoder代表编码器，MLP Head代表多层感知机；

图9是Swin Transformer模型的结构示意图，其中，Images代表输入图像，3×H×W代表图像尺寸，Patch Partition代表图像块划分，Linear Embedding代表对图像块计算线性嵌入向量，

均表示特征图尺寸，×2、×6均代表不同个数模块的堆叠，Swin Transformer Block表示编码器块，Stage1、Stage2、Stage3、Stage4分别表示阶段1、2、3、4；

图10是本发明公开方法中Transformer网络使用Swin Transformer结构的动作识别方法的结构示意图，Reshape代表对特征图尺寸的形状变换，Pseudo lmages代表伪图像特征图，64×H×W、C×H×W、

均表示特征图尺寸，×n1、×n2、×n3均代表不同个数模块的堆叠，Skeleton Sequence表示动作序列，Patch merging表示图像块合并，Block表示图像块；

图11是本发明在NTU RGB+D数据集上x-view测试基准下测试结果的混淆矩阵；

图12是本发明在NTU RGB+D数据集上x-sub测试基准下测试结果的混淆矩阵。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

实施例1

如图1所示，本实施例提供一种基于融合时空图卷积网络与Transformer网络的动作识别方法，包括如下步骤：

具体步骤为：

S1.1：基于BN层对获取的人体骨架序列进行归一化处理；

S1.4：基于缩放后的人体骨架序列，对各关节点前后帧进行差分运算得到关节点对应的速度信息，对于t帧中第i个关节点v_ti及该关节点在t+1帧中对应的关节点v_(t+1)i，其空间位置信息分别为(x_ti，y_ti，z_ti)和(x_(t+1)i，y_(t+1)i，z_(t+1)i)，则对于t帧中关节点v_ti，其速度信息为(x_(t+1)i-x_ti，y_(t+l)i-y_ti，z_(t+1)i-z_ti)，将位置信息和速度信息拼接，即得到预处理后的人体骨架序列，拼接后的关节点v_ti的信息可表示为：(x_(t+1)i，y_(t+1)i，z_(t+1)i，x_(t+1)i-x_ti，y_(t+1)i-y_ti，z_(t+1)i-z_ti)，x，y，z表示三维坐标点。

具体步骤为：

划分、且定义索引顺序后，得到时空骨架图。

具体步骤为：

分为3个部分A_k，A₁为单位阵I，

其中，度矩阵

其中，

与W_φk用于与f_in相乘实现数据变换。

S3.2：构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层，即对空间图卷积网络输出的特征f_out实施挤压操作F_sq(·)，特征f_out通道数为c维，得到c维向量S，将向量S送入两层全连接层进行激励操作F_ex(·)，得到新的c维权重向量EE，将向量EE与空间图卷积层输出特征f_out进行相乘之后再与空间图卷积层输出特征f_out进行残差连接，相加得到最后的输出特征f；其中，激励操作F_ex(·)具体为：通过第一个全连接层得到C/r维向量，然后进行ReLu激活，再对其进行第二个全连接层，将C/r维向量变回C维向量，再次进行Sigmoid激活，使得数值位于0-1之间，最终得到c维权重向量EE。

融合层的具体实现步骤为：

使用视觉Transformer网络对伪图像特征图进行长程时间特征提取并进行动作分类的具体为：将伪图像特征图送入通图像分类的视觉Transformer网络，经过Transformer框架中的多个编码器层对时间序列特征进行特征提取，提取后将输出特征送入全连接层，接入softmax函数实现动作类别判断。

Transformer框架可使用诸多用于图像分类的视觉Transformer框架，如图8所示的ViT，如图9所示的Swin Transformer等。Swin MLP框架是使用Swin-Transformer网络模型的一个适配，使用一个MLP层(实际为一个组线性层)取代所有在窗口内进行注意力计算的MSA模块，实现Attention-free。如图10所示，将变化后的伪图像特征图送入Swin MLP框架对时间特征进行提取，其关于第一阶段隐藏层的通道数C和每个阶段层数的超参设置是：C＝96，layer numbers＝{2，2，2}，head numbers＝{3，6，3}。

对动作识别模型进行训练过程中采用带有Nesterov动量为0.9的随机梯度下降法进行训练，选择交叉熵作为损失函数进行梯度计算实现反向传播，权重衰减系数设置为l×e^-4。

S5：将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测，预测得到动作类别。为了支持及验证本发明提出的动作识别模型的性能，本实施例基于pytorch深度学习框架在NTU RGB+D公开标准数据集上进行仿真实验，实验其他参数设置如下：总训练轮次为epoch＝150，初始学习率为0.15，在衰减位置(35，55，100)处将学习率衰减为之前的0.2倍，在模型训练前5个epoch使用warmup预热学习率。采用Top-1识别准确率作为评价指标，在跨表演人(x-sub)与跨视角(x-view)基准两个测试基准下进行模型训练及验证模型各个模块的有效性。实验结果显示，对于NTU RGB+D数据集，在x-view测试基准下，本发明公开方法的准确率为94.0％，在x-sub测试基准下，本发明公开方法的准确率为87.4％。在x-view测试基准和x-sub测试基准下测试结果的混淆矩阵分别如图11和图12所示。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S1的具体步骤为：

S1.1：基于BN层对获取的人体骨架序列进行归一化处理；

S1.4：基于缩放后的人体骨架序列，对各关节点前后帧进行差分运算得到关节点对应的速度信息，对于t帧中第i个关节点v_ti及该关节点在t+1帧中对应的关节点v_(t+l)i，其空间位置信息分别为(x_ti，y_ti，z_ti)和(x_(t+1)i，y_(t+1)i，z_(t+1)i)，则对于t帧中关节点v_ti，其速度信息为(x_(t+1)i-x_ti，y_(+l)i-y_ti，z_(t+1)i-z_ti)，将位置信息和速度信息拼接，即得到预处理后的人体骨架序列，拼接后的关节点v_ti的信息可表示为：(x_(t+1)i，y_(t+l)i，z_(t+l)i，x_(t+1)i-x_ti，y_(t+l)i-y_ti，z_(t+1)i-z_ti)，x，y，z表示三维坐标点。

3.根据权利要求2所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S2的具体步骤为：

S2.3：边的集合E由空间边的集合E_s和时间边的集合E_t两部分共同组成，即E＝(E_s，E_t)，子集E_s＝{v_tiv_tj|(i，j)∈H}是每一帧空间维度上关节点之间的连接，属于帧内连接，其中，H是空间中人体的关节点连接的集合，子集E_t＝{v_tiv_(t+1)i}是前后两帧之间同一关节点之间的连接，属于帧间连接；

划分、且定义索引顺序后，得到时空骨架图。

4.根据权利要求3所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S3的具体步骤为：

分为3个部分A_k，A₁为单位阵I，

其中，度矩阵

其中，

与W_φk用于与f_in相乘实现数据变换。

5.根据权利要求4所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S3.2中的激励操作F_ex(·)具体为：通过第一个全连接层得到C/r维向量，然后进行ReLu激活，再对其进行第二个全连接层，将C/r维向量变回C维向量，再次进行Sigmoid激活，使得数值位于0-1之间，最终得到c维权重向量EE。

6.根据权利要求5所述的一种基于融合图卷积网络与Transformer网络的动作识别方法，其特征在于，所述步骤S4中，融合层的具体实现步骤为：

7.一种基于融合图卷积网络与Transformer网络的动作识别系统，其特征在于，包括：

8.根据权利要求7所述的一种基于融合图卷积网络与Transformer网络的动作识别系统，其特征在于，所述步骤数据处理模块的具体实现步骤为：

S1.1：基于BN层对获取的人体骨架序列进行归一化处理；