CN111476181B

CN111476181B - 一种人体骨架动作的识别方法

Info

Publication number: CN111476181B
Application number: CN202010282867.6A
Authority: CN
Inventors: 于明; 李�杰; 郝小可; 郭迎春; 朱叶; 刘依; 阎刚
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2022-03-04
Anticipated expiration: 2040-04-13
Also published as: CN111476181A

Abstract

本发明一种人体骨架动作的识别方法，涉及用于识别图形的方法，是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法，充分挖掘不同特征信息的多样性和互补性，利用注意力机制自适应地调整空间结构各关节点的权重值和视频序列各帧的重要性，使用图卷积网络进行人体骨架的动作识别，克服了人体骨架的动作识别方法的现有技术，均存在无法更好地捕获时空特征信息，容易对人体较难动作的识别出现错误的缺陷。

Description

一种人体骨架动作的识别方法

技术领域

本发明的技术方案涉及用于识别图形的方法，具体地说是一种人体骨架动作的识别方法。

背景技术

近年来,随着视频采集传感器的广泛应用及人体姿态估计算法的不断发展,及其在智能视频监控、病人监护系统、人机交互和虚拟现实中的潜在应用，人的动作识别受到了越来越多的关注。基于机器视觉的人体动作识别是将包含人体动作的视频添加上动作类型的标签，其目的是分析理解视频中个人的动作和多人之间的交互行为。

根据输入数据的类型，人体动作识别分为基于RGB视频的方法和基于骨架视频的方法。与RGB图像相比，人体骨架数据具有轻巧、抗背景噪声及鲁棒性强的优点。目前针对人体动作识别的深度学习方法主要有递归神经网络、卷积神经网络和图卷积神经网络。其中，递归神经网络从原始骨架输入中识别人类动作，其中特征学习和时间动态建模由神经网络完成。卷积神经网络轻松构建深度网络，并具备出色的提取高级信息的能力。虽然这些方法显示出令人鼓舞的改进，但是不能推广到从任意形式的人体骨架中提取时空特征信息进行动作识别。因为人体骨架是关节自然连接的不规则的连通图，并不是2D或者3D的网格形式，这样就不能像先前的卷积神经网络一样直接从人体骨架中提取关键的特征信息。为了克服这些缺陷，需要一种新的方法，该方法能够捕获关节空间结构中的特征信息。最近，将卷积神经网络扩展为任意结构图的图卷积网络引起了重视，其明确考虑了非欧几里德空间中关节之间的相邻关系。

有关人体骨架动作识别方法现有技术的报道如下：2015年Yong Du在《The IEEEConference on Computer Vision and Pattern Recognition》上发表的论文“Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition”中，提出了一种用于动作识别的端到端分层RNN，它将整个人体分为五个部分，每个部分被馈送到不同的子网，并且子网的输出是分层融合的。2016年Jun Liu在《EuropeanConference on Computer Vision》上发表的论文“Spatio-Temporal LSTM with TrustGates for 3D Human Action Recognition”中，将LSTM扩展到空间-时间域，以明确建模关节之间的相关性，并引入新的门控机制来处理骨骼数据中的噪声和遮挡。上述这些方法忽略了人体骨架中各关节之间以及两相邻关节边的空间结构特征，从而无法有效利用人体骨架连通图的空间拓扑结构捕捉更重要的时空特征信息，进行动作识别的任务。同时，这些方法针对骨架连通图中各关节点对识别任务的贡献率以及动作视频序列中不同帧对识别任务的影响程度都没有进行充分的考虑。

2019年Bin Li在《The Thirty-Third AAAI Conference on ArtificialIntelligence》上发表的论文“Spatio-Temporal Graph Routing for Skeleton-BasedAction Recognition”中，提出了一种新的时空图路线方案，它自适应地学习物理上分开的骨架关节的内在高阶连通性关系。空间图路线旨在沿空间维度的子组聚类发现关节之间的连通性关系，而时间图路线通过测量时间关节节点轨迹之间的相关程度来探索结构信息，该方法存在忽略了运动中关键点和关键帧的重要性，无法更准确的提取时空特征信息的缺陷。2019年Maosen Li在《IEEE Conference on Computer Vision and PatternRecognition》上发表的论文“Actional-Structural Graph Convolutional Networks forSkeleton-based Action Recognition”中，提出了使用推断模块来捕获特定于动作的潜在依赖关系的动作连接，并将动作连接与结构连接组合为广义骨架图，该方法存在没有充分考虑视频时间序列关键帧的重要性和时空特征之间的相关关系的缺陷。CN110348395A公开了一种基于时空关系的骨架行为识别方法，该方法结合卷积神经网络和长短时记忆网络作为行为识别模型，自适应的提取人体骨架在时间空间上的动作行为特征，进行行为分类，该方法存在没有利用骨架数据的图形结构，并且难以推广到任意形式的骨架，进而不能有效捕捉人体骨架图中关节点之间的空间特征信息的缺陷。CN108764050A公开了一种基于角度无关性的骨架行为识别方法、系统及设备，该方法只在提高角度无关性骨架行为识别的准确率，其存在在空域注意力模块中忽略了周围邻居节点对中心节点的不同影响，不能更好提取重要的特征信息的缺陷。CN108304795A公开了一种基于深度强化学习的人体骨架行为识别方法及装置，该方法通过不断强化学习筛选关键帧，但存在没有考虑骨架图中各关节点在动作视频序列的不同重要程度的缺陷。CN110059620A公开了一种基于时空注意力的骨骼行为识别方法，该方法将计算方式类似的时间注意力模块和节点注意力模块串联，添加在卷积网络模块后，其存在不能分别对空间卷积和时间卷积操作赋予更准确的权重值的缺陷。CN110222611A公开了一种基于图卷积网络的人体骨架行为识别方法、系统、装置，该方法存在计算量较大，仅能具有低于文中阈值边的特征信息，其余边之间的相关关系没有被考虑，将会丢失一部分特征信息，从而影响动作识别准确性的提升的缺陷。CN110222653A公开了一种基于图卷积神经网络的骨架数据行为识别方法，该方法着重在于利用骨架数据的拓扑结构，提取空间结构信息，其存在而忽略了视频帧时间序列信息的重要性的缺陷。CN110210372A公开了一种基于注意增强图卷积网络的骨架行为识别方法、系统，该方法忽略了视频动作序列中不同帧之间同一关节的运动特征信息。(https://mp.weixin.qq.com/s？__biz＝MzIyNjY3MjQ5NA＝＝&mid＝2247483930&idx＝1&sn＝0131c07a9ecefec691b478589fe5fbb5&chksm＝e86da81bdf1a210d23f8415da25ac16159b211e59f3dc8cec9b2957af19960a6181dbc987a87&mpshare＝1&scene＝23&srcid＝1215rG7OW0vUbnGdI3EYErFG#rd)报道“基于双流递归神经网络的人体骨架行为识别”，公开了一种基于双流递归神经网络的方法，该方法分别对骨架坐标的时间动态特性和空间相对关系建模，其存在无法完全表示人体骨架图的拓扑结构，不能有效提取骨架图的空间位置结构信息的缺陷。

总之，相关人体骨架的动作识别方法的现有技术，均存在无法更好地捕获时空特征信息，容易对人体较难动作的识别出现错误的缺陷。

发明内容

本发明所要解决的技术问题是：提供一种人体骨架动作的识别方法，是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法，充分挖掘不同特征信息的多样性和互补性，利用注意力机制自适应地调整空间结构各关节点的权重值和视频序列各帧的重要性，使用图卷积网络进行人体骨架的动作识别，克服了人体骨架的动作识别方法的现有技术，均存在无法更好地捕获时空特征信息，容易对人体较难动作的识别出现错误的缺陷。

本发明解决该技术问题所采用的技术方案是：一种人体骨架动作的识别方法，是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法，具体步骤如下：

第一步，生成多角度骨架特征的训练数据：

所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据，

首先对于一组输入的人体骨架动作的视频序列，构建人体骨架的无向连通图，其中关节点作为图的顶点，关节点之间的自然连接作为图的边，定义骨架图G＝{V,E}，其中，V是n个关节点的集合，E是m个骨架边的集合，由如下公式(1)得到骨架图的邻接矩阵A_k∈{0,1}^n×n，

再利用其关节点的坐标数据，通过在3D空间中旋转来获得任意视点的关节序列，使用旋转矩阵将给定视点的关节点坐标数据X转换为另一个视点的关节点坐标数据，即为生成的关节信息流数据

其计算公式(2)如下所示，

公式(2)中，R_T为旋转矩阵，

根据生成的关节信息流数据

进一步生成骨骼信息流数据

和运动信息流数据

具体方法如下：

计算从骨骼边源关节点的三维坐标V₁＝(X₁,Y₁,Z₁)指向目标关节点的三维坐标V₂＝(X₂,Y₂,Z₂)的向量，得到骨骼边

过程如下公式(3)所示，

公式(3)中，X₁,Y₁,Z₁为V₁的三维坐标值，X₂,Y₂,Z₂为V₂的三维坐标值，

所有骨骼边

的集合即为骨骼信息流数据

由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标V_t＝(X_t,Y_t,Z_t)，前一帧的三维坐标V_t-1＝(X_t-1,Y_t-1,Z_t-1)和后一帧的三维坐标V_t+1＝(X_t+1,Y_t+1,Z_t+1)，计算对应坐标差的向量，得到运动边

过程如下公式(4)所示，

所有运动边

的集合即为运动信息流数据

至此生成多角度骨架特征的训练数据；

第二步，在空间域提取空间特征信息X_sout：

将上述第一步所得到关节信息流数据

骨骼信息流数据

和运动信息流数据

三种多角度骨架特征信息的训练数据，同时馈送到空间图卷积模块中进行训练，具体操作步骤如下：

第(2.1)步，进行图注意力模块操作，获得空间注意力M_k：

根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值e_ij，计算公式(5)如下所示，

e_ij＝LeakyReLU(X_inW₁)W₂ (5),

公式(5)中，X_in为关节信息流数据

骨骼信息流数据

或运动信息流数据

三种信息流数据的训练数据中的任意一种，W₁是特征维度上线性图层的参数，W₂是时间维度上线性图层的参数，LeakyReLU是一个激活函数，

进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值α_ij，如下公式(6)所示，

公式(6)中，N_i为关节点i的邻居节点的集合，e_ik为关节点i与集合N_i中所有任一关节点的图注意力值，k为集合N_i中的任一关节点的索引，

相对图注意力值α_ij的矩阵为空间注意力M_k；

第(2.2)步，提取空间特征信息X_sout：

将关节信息流数据

骨骼信息流数据

和运动信息流数据

分别输入到每个信息流的空间图卷积模块中，其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略，即以人体所有关节点的坐标平均值作为人体骨架的重心，采用相邻节点的一阶邻域，比根节点距离重心更近的节点作为向心点，比根节点距离重心更远的节点作为离心点，进行空间图卷积模块操作提取空间特征信息X_sout，用如下所示公式(7)计算，

公式(7)中，X_sout为关节信息流数据的空间特征信息

骨骼信息流数据的空间特征信息

或运动信息流数据的空间特征信息

三种信息流数据的空间特征信息中的任意一种，K为空间维度的卷积核大小，使用上述的分区策略，K设置为3，

为如下公式(8)所示的归一化后的邻接矩阵，W_k为特征信息的重要性，M_k为一个N×N的相对图注意力值的矩阵，表示每条边的权重值，*为哈达玛积，

公式(8)中，A_k为一个N×N的邻接矩阵，Λ_k为一个对角矩阵，

对角元素的值为

其计算方法如下公式(9)所示，

公式(9)中，关节点j为关节点i所有相连接的任一关节点，

为邻接矩阵A_k中关节点i的对应值；

由此完成在空间域提取空间特征信息X_sout；

第三步，在时间域提取时间特征信息X_tout：

第(3.1)步，进行时间注意力模块操作，获得时间注意力M_t：

调整上述第二步提取的空间特征信息X_sout的各帧之间的不同重要性，用如下所示公式(10)计算获得时间注意力值T_att，

公式(10)中，S_p为在第p帧经过空间图卷积模块后提取的空间特征信息，S_q为在第q帧经过空间图卷积模块后提取的空间特征信息，Z(S)为用于正则化的函数，g(·)为一个一元函数计算S_q的表示形式，成对函数f(S_p,S_q)定义了各帧之间的相关关系，其计算方法如下公式(11)所示，

公式(11)中，θ(·)和φ(·)为两个特征嵌入函数，θ(·)由如下公式(12)得到，φ(·)由如下公式(13)得到，T表示转置操作，

θ(S_p)＝W_θS_p (12),

公式(12)中，W_θ是可学习的参数，在网络训练时动态变化，

φ(S_q)＝W_φS_q (13),

公式(13)中，W_φ是可学习的参数，在网络训练时动态变化，

时间注意力值T_att的矩阵为时间注意力M_t；

第(3.2)步，提取时间特征信息X_tout：

沿着时间维度，将关节信息流数据的空间特征信息

骨骼信息流数据的空间特征信息

和运动信息流数据的空间特征信息

分别输入到每个信息流的时间卷积模块中，进行时间卷积模块操作提取时间特征信息X_tout，用如下所示公式(14)计算，

X_tout＝M_tX_soutW_o (14),

公式(14)中，X_tout为关节信息流数据的时间特征信息

骨骼信息流数据的时间特征信息

和运动信息流数据的时间特征信息

三种信息流数据的时间特征信息中的任意一种，Wo为一个能够学习的矩阵参数，

由此完成在时间域提取时间特征信息X_tout；

第四步，在残差模块提取残差特征信息F(X_tout)，进一步获得最终的特征信息X_out：

将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起，称为图卷积网络，上述第二步中的空间注意力和第三步的时间注意力组合在一起，称为时空注意力，上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起，称为一个时空卷积模块，整体网络框架共有10个这样的时空卷积模块，其中第一个时空卷积模块的作用为批处理归一化，接下来的三个时空卷积模块的输出通道分别为64通道，再接下来的三个时空卷积模块的输出通道为128通道，最后三个时空卷积模块的输出通道为256通道，其中每个时空卷积模块都附有一个残差模块，保留之前的信息，增强重要的信息，在残差模块中，添加了改进的关节之间的共现特征的学习算法，该残差模块共五个卷积分支和一个上采样层，上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作，由此得到残差模块提取的残差特征信息F(X_tout)，进一步用如下所示公式(15)计算最终特征信息X_out，

X_out＝X_tout+F(X_tout) (15),

公式(15)中，X_out为关节信息流数据的最终特征信息

骨骼信息流数据的最终特征信息

和运动信息流数据的最终特征信息

三种信息流数据的最终特征信息中的任意一种，F(X_tout)为关节信息流数据的残差特征信息

骨骼信息流数据的最终特征信息

和运动信息流数据的最终特征信息

三种信息流数据的残差特征信息中的任意一种，

由此完成在残差模块提取残差特征信息F(X_tout)，进一步获得最终的特征信息X_out；

第五步，三流动态融合后的预测类标签

将上述第四步获得的关节信息流数据的最终特征信息

骨骼信息流数据的最终特征信息

和运动信息流数据的最终特征信息

分别输入到每个信息流的softmax层，相应得到关节信息流的预测概率值为

骨骼信息流的预测概率值为

运动信息流的预测概率值为

将关节信息流的预测概率值

骨骼信息流的预测概率值

和运动信息流的预测概率值

进行动态地加权融合，得到三流动态融合后的预测类标签

如下公式(16)所示，

公式(16)中，W_j为关节信息流的动态融合变化的权重值，W_b为骨骼信息流的动态融合变化的权重值，W_m为运动信息流的动态融合变化的权重值，

至此，由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法；

第六步，结合时空注意力与图卷积网络的人体骨架动作识别方法的训练：

经过上述五个步骤的操作之后，使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示，

公式(17)中，Y为待测试动作真实标签，

通过随机梯度下降算法优化网络的参数，使交叉熵损失函数L达到最小化，

由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练；

第七步，结合时空注意力与图卷积网络的人体骨架动作识别方法的度量：

计算上述第五步所获得的三流动态融合后的预测类标签

与待测试动作真实标签Y之间的准确率，计算方法如下公式(18)所示，

公式(18)中，TP为动作被预测为相应类标签的数目，SP为各类标签的总数目；

由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量，

至此，完成人体骨架动作的识别。

一种人体骨架动作的识别方法，所述softmax层，上采样操作、所有的转置操作、双线性插值操作和随机梯度下降算法及关节之间的共现特征的学习算法均为本领域公知的技术。

本发明的有益效果是：与现有技术相比，本发明的突出的实质性特点和显著进步如下：

(1)本发明方法提出一种结合时空注意力与图卷积网络的人体骨架动作识别方法，对传统骨架图其固定的物理拓扑结构进行了调整，加入自适应邻接矩阵的方法，构建一种新的卷积核，提取更丰富的判别信息。在空间域中，使用图注意力模块，自适应地调整空间维度上节点之间的重要性。在时间域中，使用时间注意力模块，自适应地调整时间维度上各视频帧的重要性。在每个时空卷积模块，都添加一个残差模块，加入改进的共现特征，聚合局部的共现特征和全局的共现特征，以捕获动作中涉及的长期关节的相互影响。分别提取人体骨架的关节信息流，骨骼信息流和运动信息流的特征后，利用这三个信息流特征之间的互补性和多样性，将三流的预测概率值进行动态地融合，得到预测精度。本发明方法引入时空注意力机制更好地提取时空特征的判别信息，加入自适应邻接矩阵动态捕获学习新的拓扑结构，充分利用人体骨架的空间结构，解决了现有技术方法物理拓扑结构固定的缺陷，从而实现人体骨架动作的识别，提高识别的准确率。

(2)CN110348395A公开了一种基于时空关系的骨架行为识别方法，该方法结合卷积神经网络和长短时记忆网络作为行为识别模型，将人体骨架表示成矩阵的形式作为模型的输入，并将骨架序列进行分段处理，自适应的提取人体骨架在时间空间上的动作行为特征，进行行为分类，该方法没有利用骨架数据的图形结构，并且难以推广到任意形式的骨架，进而不能有效捕捉人体骨架图中关节点之间的空间特征信息。与CN110348395A相比，本发明方法是通过构建人体骨架无向图，采用图卷积的方法，更好地利用了骨架图的空间拓扑结构，提取高丰富的特征信息，提高了动作识别的准确性。

(3)CN108764050A公开了一种基于角度无关性的骨架行为识别方法、系统及设备，该方法只在提高角度无关性骨架行为识别的准确率，其在空域注意力模块中忽略了周围邻居节点对中心节点的不同影响，不能更好提取重要的特征信息。与CN110059620A相比，本发明方法采用图注意力模块，其遵循自我关注的方法，通过关注邻居节点来计算骨架图中每个节点的隐含表示，赋予更准确的权重值，提高了识别性能。

(4)CN108304795A公开了一种基于深度强化学习的人体骨架行为识别方法及装置，该方法通过不断挑选出来帧的判别性,去除冗余信息,降低测试阶段计算量，该方法存在没有考虑骨架图中各关节点在动作视频序列的不同重要程度的缺陷。与CN108304795A相比，本发明方法引入图注意力模块，充分利用人体骨架图关节之间的依赖性，赋予各关节点不同的权重，捕获更重要的信息，识别准确率进一步提高。

(5)CN110059620A公开了一种基于时空注意力的骨骼行为识别方法，该方法亦是结合了时空注意力机制，计算空间特征信息和时间特征信息的重要性，并把注意力单元模块嵌入到时间卷积网络和残差连接之间，该方法存在不能分别对空间卷积和时间卷积网络赋予更准确的权重值的缺陷。与CN110059620A相比，本发明在每一次卷积前分别赋予相应的权重值，其次在进行空间卷积或时间卷积提取特征信息，捕获更准确的语义特征，预测结果更加准确。

(6)CN110222611A公开了一种基于图卷积网络的人体骨架行为识别方法、系统、装置，该方法将人体关节自然连接图的自然连接边邻接矩阵与非自然连接边的邻接矩阵进行求和，得到各人体关节连接图的邻接矩阵以及相应的人体关节连接图，再进行时空特征信息的提取进而识别分类，该方法计算量较大，仅能具有低于文中阈值边的特征信息，其余边之间的相关关系没有被考虑，将会丢失一部分特征信息，从而影响动作识别准确性的提升。与CN110222611A相比，本发明方法是加入了自适应邻接矩阵，在网络训练过程中动态学习骨架图空间结构的拓扑结构，弥补了这一缺陷提高识别的准确率。

(7)CN110222653A公开了一种基于图卷积神经网络的骨架数据行为识别方法，是通过将骨架数据按其时间维度进行下采样，得到固定大小的骨架数据，接着将该数据按照三维坐标拆分成三个通道，并分别将每一个空间通道馈送到带有注意力的图卷积模块，将输出结果进行合并，再将其作时空卷积，得到分类结果，该方法着重在于利用骨架数据的拓扑结构，提取空间结构信息，而忽略了视频帧时间序列的重要性。与CN110222653A相比，本发明方法添加了时间注意力模块，给予关键帧更多的权重值，有利于提取更准确的时间信息，能够更精确的预测相应的动作类别。

(8)CN110210372A公开了一种基于注意增强图卷积网络的骨架行为识别方法、系统，该方法首先获取人体骨架序列作为待识别骨架序列，其次通过训练好的骨架行为识别网络，获取预设行为的概率，最后选择概率最高的预设行为作为所述待识别骨架序列的预测行为。该方法忽略了视频动作序列中不同帧之间同一关节的运动特征信息。与CN110210372A相比，本发明方法加入了运动信息流特征信息，能够更加全面地捕获各帧之间同一关节点的运动轨迹信息，有利于准确识别相应的动作。

(9)基于双流递归神经网络的人体骨架行为识别(https://mp.weixin.qq.com/s？__biz＝MzIyNjY3MjQ5NA＝＝&mid＝2247483930&idx＝1&sn＝0131c07a9ecefec691b478589fe5fbb5&chksm＝e86da81bdf1a210d23f8415da25ac16159b211e59f3dc8cec9b2957af19960a6181dbc987a87&mpshare＝1&scene＝23&srcid＝1215rG7OW0vUbnGdI3EYErFG#rd)公开了一种基于双流递归神经网络的方法。该方法分别对骨架坐标的时间动态特性和空间相对关系建模。其无法完全表示人体骨架图的拓扑结构，不能有效提取骨架图的空间位置结构信息。与基于双流递归神经网络的人体骨架行为识别相比，本发明具有的突出的实质性特点和显著进步是将骨架数据建模为图形结构，在人体骨架图上进行卷积运算，而且三流信息同时训练，能够捕捉更具有判别力的空间信息和时间动态特征信息，有效的进行动作识别。

(10)本发明方法采用图卷积的方法，相比递归神经网络和卷积神经网络,更好地利用了骨架图的空间拓扑结构，提取更丰富的特征信息，提高了动作识别的准确性，使得该方法具有实际的应用价值。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明方法的流程示意框图。

具体实施方式

图1所示实施例表明，本发明方法的流程是：生成多角度骨架特征的训练数据→在空间域提取空间特征信息X_sout→在时间域提取时间特征信息X_tout→在残差模块提取残差特征信息F(X_tout)，进一步获得最终的特征信息X_out→三流动态融合后的预测类标签

→结合时空注意力与图卷积网络的人体骨架动作识别方法的训练→结合时空注意力与图卷积网络的人体骨架动作识别方法的度量。

实施例

本实施例的结合时空注意力与图卷积网络的动作识别方法，具体步骤如下：

第一步，生成多角度骨架特征的训练数据：

其计算公式(2)如下所示，

公式(2)中，R_T为旋转矩阵，

根据生成的关节信息流数据

进一步生成骨骼信息流数据

和运动信息流数据

具体方法如下：

过程如下公式(3)所示，

所有骨骼边

的集合即为骨骼信息流数据

过程如下公式(4)所示，

所有运动边

的集合即为运动信息流数据

至此生成多角度骨架特征的训练数据；

第二步，在空间域提取空间特征信息X_sout：

将上述第一步所得到关节信息流数据

骨骼信息流数据

和运动信息流数据

三种多角度骨架特征信息的训练数据，同时馈送到空间图卷积模块中进行训练，在空间维度上，不同节点之间的特征相互影响，并且相互影响是高度动态的，由此，先经过图注意力模块，自适应地调整空间维度上节点之间的相对图注意力值α_ij，其次在空间域提取空间特征信息X_sout，具体操作步骤如下：

第(2.1)步，进行图注意力模块操作，获得空间注意力M_k：

遵循自我关注的方法，通过关注邻居节点来计算骨架图中每个节点的隐含表示，旨在根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值e_ij，计算公式(5)如下所示，

e_ij＝LeakyReLU(X_inW₁)W₂ (5),

公式(5)中，X_in为关节信息流数据

骨骼信息流数据

或运动信息流数据

使权重值在不同关节点之间进行比较，对关节点i和与其所有相连接的任一关节点j的图注意力值e_ij进行标准化处理，进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值α_ij，如下公式(6)所示，

相对图注意力值α_ij的矩阵为空间注意力M_k；

第(2.2)步，提取空间特征信息X_sout：

将关节信息流数据

骨骼信息流数据

和运动信息流数据

公式(7)中，X_sout为关节信息流数据的空间特征信息

骨骼信息流数据的空间特征信息

或运动信息流数据的空间特征信息

公式(8)中，A_k为一个N×N的邻接矩阵，Λ_k为一个对角矩阵，

对角元素的值为

其计算方法如下公式(9)所示，

公式(9)中，关节点j为关节点i所有相连接的任一关节点，

为邻接矩阵A_k中关节点i的对应值；

由此完成在空间域提取空间特征信息X_sout；

第三步，在时间域提取时间特征信息X_tout：

在时间维度上，骨架视频序列不同时间帧对动作识别任务的影响程度不同。因此，将上一步提取的空间特征信息X_sout，先经过时间注意力模块，适应性地赋予不同帧不同的时间注意力值T_att，其次在时间域提取时间特征信息X_tout，具体步骤如下：

第(3.1)步，进行时间注意力模块操作，获得时间注意力M_t：

θ(S_p)＝W_θS_p (12),

公式(12)中，W_θ是可学习的参数，在网络训练时动态变化，

φ(S_q)＝W_φS_q (13),

公式(13)中，W_φ是可学习的参数，在网络训练时动态变化，

时间注意力值T_att的矩阵为时间注意力M_t；

第(3.2)步，提取时间特征信息X_tout：

沿着时间维度，将关节信息流数据的空间特征信息

骨骼信息流数据的空间特征信息

和运动信息流数据的空间特征信息

X_tout＝M_tX_soutW_o (14),

公式(14)中，X_tout为关节信息流数据的时间特征信息

骨骼信息流数据的时间特征信息

和运动信息流数据的时间特征信息

三种信息流数据的时间特征信息中的任意一种，W_o为一个能够学习的矩阵参数，

由此完成在时间域提取时间特征信息X_tout；

X_out＝X_tout+F(X_tout) (15),

公式(15)中，X_out为关节信息流数据的最终特征信息

骨骼信息流数据的最终特征信息

和运动信息流数据的最终特征信息

骨骼信息流数据的最终特征信息

和运动信息流数据的最终特征信息

三种信息流数据的残差特征信息中的任意一种，

第五步，三流动态融合后的预测类标签

将上述第四步获得的关节信息流数据的最终特征信息

骨骼信息流数据的最终特征信息

和运动信息流数据的最终特征信息

骨骼信息流的预测概率值为

运动信息流的预测概率值为

将关节信息流的预测概率值

骨骼信息流的预测概率值

和运动信息流的预测概率值

进行动态地加权融合，得到三流动态融合后的预测类标签

如下公式(16)所示，

公式(17)中，Y为待测试动作真实标签，

计算上述第五步所获得的三流动态融合后的预测类标签

至此，完成人体骨架动作的识别。

本实施例利用Pytorch平台实现，并在NTU-RGB+D数据集进行了实验，该数据集提供了相应动作中每个人的3维25个关节点的坐标，共计60类动作。为了验证本发明方法在人体骨架动作识别率上的优势，本实施例选取常用于骨架动作识别的循环神经网络，卷积神经网络和图卷积神经网络进行了比较，表1列出了人体骨架动作识别的实验结果。

表1不同算法下NTU-RGB+D数据集的动作识别率

从表1中可以看出，本实施例提出的结合时空注意力与图卷积网络的动作识别方法的识别率明显优于其它对比方法。

上述实施例中，所述softmax层，上采样操作、所有的转置操作、双线性插值操作和随机梯度下降算法及关节之间的共现特征的学习算法均为本领域公知的技术。