CN110309732B

CN110309732B - 基于骨架视频的行为识别方法

Info

Publication number: CN110309732B
Application number: CN201910511925.5A
Authority: CN
Inventors: 叶帆帆; 唐慧明; 陈明芽
Original assignee: Huayan Zhike Hangzhou Information Technology Co ltd; Zhejiang University ZJU
Current assignee: Huayan Zhike Hangzhou Information Technology Co ltd; Zhejiang University ZJU
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-04-06
Anticipated expiration: 2039-06-13
Also published as: CN110309732A

Abstract

本发明公开了一种基于骨架视频的行为识别方法，方法流程包括：通过对数据集中的每一段视频抽帧得到视频训练样本，并提取各帧的骨架关节点信息；根据骨架关节点物理连接关系初始化骨架关节点连接关系矩阵，以初步训练空间域图卷积神经网络；在空间域图卷积神经网络的参数固定之后，通过空间域图卷积神经网络训练骨架关节点关系推理网络，得到新的骨架关节点连接关系矩阵；通过新的骨架关节点连接关系矩阵更新空间域图卷积神经网络的参数；应用时，对待识视频抽帧和提取骨架关节点信息后送入骨架关节点关系推理网络得到骨架关节点连接关系矩阵，将抽帧后的视频和骨架关节点连接关系矩阵送入更新后的空间域图卷积神经网络，以得到行人行为类别。

Description

基于骨架视频的行为识别方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于骨架视频的行为识别方法。

背景技术

行为识别的目的是给出视频中目标的行为类别，是计算机视觉中一个非常重要的研究领域，随着关键点检测算法和深度相机的发展，基于骨架的行为识别方法已经被应用于诸多领域，比如监控场景的预警、人机交互、虚拟现实等。基于骨架的行为识别方法相较于基于RGB等其他模态的行为识别法来说，其能够更加鲁棒的提取人的身体形态和结构信息，同时基于骨架信息的行为识别法能够去除颜色和纹理特征的干扰，使得其在大多数行为类别上已经取得了很好的识别性能。

基于骨架信息的行为识别方法大体上可以分为两大类：基于深度学习的方法和基于手工设计特征的方法。这两类方法的目的都是去提取并融合视频片段中帧内的空间特征和帧间的时序特征，从而根据这些特征有效的识别出行为类别。一般来说，基于深度学习的方法的性能优于基于手工设计特征的方法的性能。

基于深度学习的方法大体上又可以分为三类，基于RNN(Recurrent NeuralNetwork)类的方法、基于CNN(Convolution Neural Network)类的方法和基于GCN(GraphConvolution Network)。RNN类的方法虽然能够描述和处理时间上的依赖性，但是RNN类的算法在训练和参数调优上比较困难。基于CNN的方法能够同时处理空间和时序上的特征信息，相比RNN类的方法能够达到较好的性能，但是CNN方法认为空间维度上骨架关节点的排列顺序是无关的，在处理时空特征时，实际上已经丢失了人体骨架关节点连接的拓扑结构信息，而这是非常重要的。基于GCN的方法考虑了骨架关节点的拓扑结构信息，但是这些拓扑结构信息都是人为提前定义好的，有时候这些拓扑结构信息并不能充分描述关节点之间的联系。比如，在一段“拍手”的视频中，虽然左右手之间没有直接相连的骨骼边，但是“拍手”这个动作中左右手这两个关节点之间的连接信息对行为识别来说更加关键。

发明内容

针对上述的问题，本发明提出了一种基于骨架视频的行为识别方法。该方法可以对不同的行为自动推理当前骨架关节点最优的连接关系，并加强具有判别性的连接信息，削弱冗余信息，并以此提高算法识别的性能，同时可以充分利用人体骨骼的拓扑关系，来提高识别的性能。

为了达到上述的目的，本发明的实施例提出了一种基于骨架视频的行为识别方法，该方法包含以下步骤：

A1.对训练数据集中的每一段视频抽帧得到视频训练样本，并提取各帧的骨架关节点信息，得到骨架视频训练样本；

A2.将建立的初始骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵，用视频训练样本对所述的空间域图卷积神经网络进行初步训练，得到空间域图卷积神经网络的参数，训练方式为以行为类别为标签的监督式训练；

A3.基于得到的空间域图卷积神经网络的参数确定的空间域图卷积神经网络，用所述骨架视频训练样本训练所述的骨架关节点关系推理网络，输出骨架关节点连接关系矩阵；

A4.用所得的骨架关节点连接关系矩阵训练所述的空间域图卷积神经网络，更新该空间域图卷积神经网络的参数；

A5.重复步骤A3和A4若干次；

所述行为识别方法还包括如下应用步骤：

B1.获取待识视频，对待识视频抽帧得到待识视频样本，并提取各帧的骨架关节点信息；

B2.将待识视频样本输入训练好的骨架关节点关系推理网络，得到对应待识视频样本的骨架关节点连接关系矩阵；

B3.将该骨架关节点连接关系矩阵和待识视频样本输入训练好的空间域图卷积神经网络，得到行人行为的类别。

进一步的，步骤A1和B1中，所述的骨架关节点信息包括N个关节点的2D或3D坐标，对视频抽帧得到视频训练样本或待识视频样本，提取各帧的骨架关节点信息进一步包括：

将视频中的每一帧内的骨架信息建模成一张图G(x，A)，其中x∈R^N×C，包含N个关节点的2D或3D坐标，A是所述的骨架关节点连接关系矩阵，大小为N×N；

步骤A2中，通过如下方式将建立的初始骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵：

其中α、β、γ为常数，优先的，设α≥β＞γ≥0，如初始训练时将α、γ设为1，β设为0，能较快收敛。

进一步的，把骨架关节点集合划分成若干个骨架关节点子集合，对每个骨架关节点子集合分别用不同骨架关节点连接关系矩阵描述其连接关系；，所述的空间域图卷积神经网络中的图卷积层的输出为：

其中A_k是描述第k个骨架关节点子集合连接关系的子矩阵，Λ_k用于对连接关系矩阵做对称归一化处理，其表达式为

W是空间维度上可学习的参数矩阵，k是划分子矩阵的数量，i和j表示不同的关节点的索引，分别对应矩阵的行和列。

进一步的，所述的空间域图卷积神经网络中还包括带通道交换机制的卷积层，用于将关节点维度和特征维度交换顺序。

进一步的，步骤A3中用所述骨架视频训练样本训练所述的骨架关节点关系推理网络，输出骨架关节点连接关系矩阵具体包括：

(1)首先通过多层感知机或者1D卷积神经网络对每个关节点的初始特征进行编码；

(2)将任意不同的两个关节点的特征进行拼接，得到连接任意两点的骨架关节边的特征，并用多层感知机或者1D卷积神经网络层对获得的骨架关节边的特征进行再一次的编码；

(3)将同一个点出发或者接收的所有骨架关节边特征进行求和，以此求和后的特征表示新的骨架关节点的隐含层特征；

(4)重复步骤(2)-(3)若干次后，根据每条关节边的特征给每条关节边一个分数，根据分数构建新的连接关系矩阵。

进一步地，在本发明的一个实施例中，所述图卷积参数固定之后，通过所述的空间域图卷积网络训练骨架关节点关系推理网络，以得到新的骨架关节点连接关系矩阵，进一步包括：

通过所述的空间域图卷积神经网络训练骨架关节点关系推理网络对当前骨架关节点和其他所有骨架关节点的相互作用关系进行编码，以得到新的骨架关节点连接关系矩阵，进一步包括：

所述的骨架关节点关系推理网络对所有的骨架关节点的时空特征进行编码，并推理当前关节点和其他所有关节点在时空维度上的交互紧密程度，推理过程包括若干次关节点和关节边的特征相互传递的过程，具体为：

其中所有的f均表示多层感知机或者1D卷积神经网络层，第一项f_emb表示将初始骨架关节点特征进行编码；第二项

表示组合任意两个关节点编码后的特征；第三项f_sum表示将组合编码后的特征进行全局求和；第四项为第二项的重复。

表示骨架关节点编码后的特征向量，h¹(i，j)表示当前骨架关节点i和其他骨架关节点j组成的边的特征向量。其中上标1、2表示特征传递为第1或2次。

进一步地，在本发明的一个实施例中，所述基于骨架视频的行为识别方法还包括：交替训练方法，训练样本先输入关节点关系推理网络输出关节点关系连接矩阵，训练样本结合得到的关节点关系连接矩阵输入图卷积神经网络生成行为预测结果，交替进行这两个步骤。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为根据本发明一个实施例的具体实施例的基于骨架视频的行为识别方法的结构图。

图2为根据本发明一个实施例的基于骨架视频的行为识别方法的训练过程的实施流程图。

图3为根据本发明一个实施例的基于骨架视频的行为识别方法的应用时的实施流程图。

图4为根据本发明一个实施例的骨架关节点关系推理网络的结构示意图。

图5为根据本发明一个实施例的通过骨架关系推理网络可以学习得到的关节点连接图的示意图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

在介绍基于骨架视频的行为识别方法之前，先简单介绍一下基于人体骨架的行为识别和关系推理学习。

基于人体骨架关节点的行为识别方法，是利用骨架关节点信息，包括关节点的坐标信息及其相互关联信息，进行行为识别。基于骨架关节点的图卷积网络方法是行为识别的一个研究方向，相关技术可参见相关文献。可用于实验训练与测试的样本数据量总和超过40万。其中比较主流的数据集有NTU-RGBD、SYSU-3、UT-Kinetic等。当然也可以通过算法或者深度相机去采集视频图像中人骨架关节点的坐标信息，比较主流的开源算法有OpenPose或AlphaPose等。

关系推理学习，旨在通过模型训练使得模型具有推测不同目标关系的能力。近年来很多研究工作者将关系学习和深度学习相结合提出了一些有应用价值的方法和方案，但是目前还未见有将其应用到行为识别上来。另外，目前基于空间域图卷积的算法或装置所利用的骨架关节点连接关系矩阵均是人工定义的。这种人为定义的连接关系不能很好地描述真实动作发生时的骨架关节点之间的拓扑结构信息。例如，在“拍手”的视频中，虽然左右手对应的骨架关节点之间没有直接相连的边，但是“拍手”这个动作中左右手这两个骨架关节点之间的连接信息对该行为的识别来说更加关键。学术界已见有一些方法被提出来解决这个问题，但衡量关节点之间关系的规则均为人工预定义，这些规则并不能完全描述骨架关节点在不同动作下的拓扑结构信息。同时，这些方法为所有的样本设计相同的关节点连接关系。由于相同个体做不同的动作和不同的个体做相同的动作时，关节点之间的时空变化十分不同，这样的设计是不合理的。

正是基于上述原因，本发明实施例提出一种基于骨架视频的行为识别方法。下面参照附图描述根据本发明提出的基于骨架视频的行为识别方法。

附图1是基于骨架视频的行为识别方法总体结构的一个实施例。其中包含空间域图卷积神经网络，和一个骨架关节点关系推理网络，通过训练确定骨架关节点关系推理网络参数，得到骨架关节点连接关系矩阵，该骨架关节点连接关系矩阵输入所述的空间域图卷积神经网络，实现基于骨架视频的行为识别。

其中基于视频的骨架关节点样本，即骨架视频样本，包含多帧图像的骨架关节点信息，输入骨架关节点关系推理网络和图卷积神经网络，骨架关节点关系推理网络输出的关节点连接关系矩阵，作用于空间域图卷积神经网络，图卷积神经网络根据关节点连接关系矩阵和输入的骨架视频样本输出行为识别结果。

对于待识视频，首先获取视频中各帧的骨架关节点信息，形成骨架视频样本。

初始化骨架关节点连接关系矩阵和图卷积神经网络后，采用交替迭代方式对该网络进行训练：用骨架视频样本和关节点关系推理网络输出的骨架关节点连接关系矩阵训练图卷积神经网络，根据训练后的图卷积神经网络训练骨架关节点关系推理网络。

应用时，先将骨架视频样本输入骨架关节点关系推理网络得到骨架关节点连接关系矩阵，然后将连接关系矩阵和视频样本输入图卷积神经网络得到行为类别。

附图2是基于骨架视频的行为识别方法的训练步骤的一个实施例。下面详细介绍这些步骤：

步骤S201，对数据集中的每一段视频抽帧得到视频训练样本，并提取各帧的骨架关节点信息，得到骨架视频。其中从原始视频图像数据中提取关节点信息包括人体关节点的2D或3D坐标、关节点类别等信息。具体方法可采用卷积网络或传统图像处理方法提取关节点信息，也可采用开源算法OpenPose或AlphaPose提取关节点坐标信息。另外也可以直接通过深度相机直接获取骨架视频以及视频中人的骨架坐标信息。

训练时，本实施例抽取数据集中每个视频样本的T_N帧构成视频训练样本，本实施例中T_N等于64。具体的步骤为：1.训练时,首先生成范围在0.5-1的随机数p。2.若视频样本的帧数为f_N则先初步截取视频样本连续的p*f_N帧构成视频帧序列。3.若p*f_N大于T_N则再将p*f_N帧序列均匀降采样成T_N帧，若p*f_N小于T_N，则通过线性插值的方式将p*f_N帧序列插值成T_N帧。

除了上述的抽帧方式以外，还可以采用基于统计的关键帧抽取方式。具体的步骤为：1.统计视频样本中骨架关节点的中心坐标(即骨架关节点三维坐标的平均值)。2.对每个关节点计算T帧范围内中心坐标的平均值C_i(i＝0,1,2…,N-1)。3.计算每帧图像中的各个骨架关节点中心坐标和其对应关节点中心坐标平均值的差值ΔC_i(i＝0,1,2…,N-1)。4.在T帧范围内对坐标差值ΔC_i进行降序排序，选择前T_N帧符合条件的帧图像构成视频帧序列作为训练样本，这里的条件指这里的条件指降序后的前T_N帧相邻帧之间的时间差不能大于指定的值，如5帧。

除了上述抽帧的方式以外，还可以采用微调贪心的方式进行抽帧。具体步骤为：1.首先通过对输入视频均匀抽取T₁帧构成视频帧序列，在T₁帧内均匀布置T_N个锚点。2.这些锚点可以向左向右进行移动，选择性能最佳的抽帧方式。

步骤S202，将骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵，用视频训练样本对所述的空间域图卷积网络进行初步训练，得到空间域图卷积网络参数，训练方式为以行为类别为标签的监督式训练。具体为：

将视频中的每一帧内的骨架信息建模成一张图G(x，A)，其中x∈R^N×C，包含N个关节点的2D或3D坐标，A是所述的骨架关节点连接关系矩阵，大小为N×N。将骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵：

其中α、β、γ为常数，可初始化为其它任意大于零的常数，可初始化为随机值或指定值。为加快收敛速度，这里取α≥β＞γ≥0，如将α、γ设为1，β设为0。

然后，将每一帧的骨架关节点坐标信息和所构建的骨架关节点物理连接矩阵送入空间域图卷积网络的图卷积层，用视频训练样本对所述的空间域图卷积网络进行初步训练，得到空间域图卷积网络参数，训练方式为以行为类别为标签的监督式训练。

具体地，先将骨架关节点集合划分成若干个骨架关节点子集合，对每个骨架关节点子集合分别用不同骨架关节点连接关系矩阵描述其连接关系，图卷积操作按照如下公式进行计算：

其中A_k是描述第k个骨架关节点子集合连接关系的子矩阵，本实施例中骨架关节点子集合的划分是根据任意两个关节点距离骨架重心的距离远近进行划分的。本实施例将划分骨架关节点子集合的数量K确定为3。具体地，若两个关节点中的第一个关节点和骨架重心的距离大于第二个关节点与骨架重心的距离则将这两个点划分到集合1，同理若上述的距离相等则将这两个点划分到集合2，其他情况将对应的两个点划分到集合3。这里的骨架重心是指骨架中所有关节点坐标的平均或加权平均。

用于对连接关系矩阵做对称归一化处理，其中

第k个子矩阵的度矩阵的对角线元素。W是空间维度上可学习的参数矩阵。i和j表示不同的关节点的索引，分别对应矩阵的行和列。

本实施例设计与关节点无关的1D卷积核来聚合时间维度上的特征，卷积核大小表示为T×1，为了尽可能在较浅的网络中得到更大的时间维度的感受野，本实施例中T设置为7。在图卷积操作提取每帧骨架视频的空间特征之后，也可以用基于RNN/LSTM的算法来聚合骨架视频时间维度上的特征。若采用RNN/LSTM的算法聚合时间维度上的特征，此类算法的结构需要为多输入多输出的结构。

一次空间图卷积和一次时间卷积构成一次时空图卷积，最终构建包含10次时空图卷积操作的空间域图卷积神经网络，并进行以行为类别为标签的监督式训练。

步骤S203，基于所得的空间域图卷积神经网络的参数确定的空间域图卷积网络，用骨架视频训练样本训练所述的骨架关节点关系推理网络，输出骨架关节点连接关系矩阵。附图4是骨架关节点关系推理网络的一个实施例。下面介绍具体操作。

本发明设计的关节点关系推理网络最终采用的2次关节点到关节边和关节边到关节点的特征传递过程。这里的特征传递次数可以根据训练数据集的关节点采点数量的不同做适当的调整。2次特征传递之后，以新输出的特征推理当前骨架关节点和其他所有骨架关节点在时空维度上的交互紧密程度，具体为：

定示组合任意两个关节点编码后的特征；第三项f_sum表示将组合编码后的特征进行全局求和；第四项为第二项的重复。

其中，

初始坐标信息，通过多层感知机或者1D卷积神经网络层编码每个关节点的初始特征，即

进一步地，得到关节点的初始特征之后，将当前关节点的特征和其他所有关节点的特征进行拼接，并再次利用多层感知机或者1D卷积的方式进一步聚合边的信息得到表示当前连接该两个关节点的骨骼边的特征，即

得到所有骨骼边的特征信息之后，进一步通过对组合编码后的特征进行全局求和来聚合所有边的特征即

然后继续通过拼接的方式得到边的特征信息，即

最后重复上述的操作若干次，本发明采用了2次重复的方式，值得说明的是本领域技术人员可以对该重复次数进行更换，重复次数的选定可以根据计算机硬件的计算能力和对最终的准确率影响等因素进行选择。重复次数可以根据实际的训练情况确定，如当提高重复次数预测的性能得不到0.3％的提高或者对性能起反向作用则可以停止提高重复次数。这些次数更换之后的技术方案都将落入本发明的保护范围之内。

得到所有边的信息之后，本发明的实施例结合每条边的特征用Sigmoid函数给每条边一个分数，然后将所有边组合成新的骨架关节点连接关系矩阵，即A_ij＝sigmoid(f_c(h²(i，j)))。

步骤S204，用所得的骨架关节点连接关系矩阵训练所述的空间域图卷积神经网络，更新该空间域图卷积神经网络的参数，具体为利用步骤S203中得到的新的骨架关节点连接关系矩阵，固定所述的骨架关节点关系推理网络的参数，以步骤S201的方式重新训练空间域的图卷积网络，从而更新所述的空间域图卷积网络参数。

步骤S205，重复步骤S203和步骤S204若干次。本实施例采用2次交替训练，即能得到较为理想的效果。交替训练的次数可以根据实际情况进行替换，替换的原则为增加交替训练的次数后总体识别准确率增幅小于一个指定值，如0.3％，即不需要再增加。

附图3是基于骨架视频的行为识别方法的应用步骤的一个实施例。

步骤S301获取待识视频，提取各帧的骨架关节点信息，对待识视频抽帧得到待识视频样本。其中获取骨架关节点坐标信息的方式和步骤S201一样。应用时，首先要在长视频中抽取包含完整动作的视频片段，然后按照步骤S201的方式再对得到的视频片段抽帧得到固定帧数的视频帧序列作为应用时的待识别输入样本。

本实施例中，对长视频中抽取包含较完整动作的视频片段的步骤具体为：1.设置10个时间窗口W₁～W₁₀，时间窗口长度分别为30，60，90，120，150，180，210，240，270，300。2.在输入的长视频中每隔10帧设置起始帧位置，以每个起始帧位置为起点，分别截取这10个时间窗长度的视频短片段，记为V₁～V₁₀。3.应用现有的一些开源算法对10个时间窗长度的视频短片段进行是否包含行为的判断，若包含行为则进入步骤4，若不包含则舍弃该短视频片段。4.对包含完整行为的视频短片段以步骤S201的方式进行抽帧，抽帧后得到帧数相同的待识别视频样本。5.对长视频持续进行步骤1-5的操作。步骤S302，将待识视频样本输入所述的训练好的骨架关节点关系推理网络，得到对应待识视频样本的骨架关节点连接关系矩阵。具体为将所述的经过抽帧的视频输入到训练之后的骨架关节点关系推理网络中，得到当前行为最优的骨架关节点连接关系矩阵。

步骤S303，将该骨架关节点连接关系矩阵和待识视频样本输入训练好的空间域图卷积神经网络，得到行为的类别。即从步骤S302中得到当前行为下的骨架关节点连接关系矩阵之后，结合输入视频送入更新参数后的空间域图卷积神经网络进行计算得到最终的行为类别。

附图5是根据本发明一个实施例的通过骨架关系推理网络可以学习得到的关节点连接图的示意图。连接关系矩阵中的任意元素的值代表对应两个骨架关节点的连接紧密程度，可以用图的形式刻画各骨架关节点之间的关系，如果只保留连接关系矩阵中值大于指定阈值的边，则可以画出的附图5所示的骨架关节点连接图，本例指定的阈值为0.05。

本发明可以加强空间上骨架关节点之间的有效连接关系，削弱无效的连接关系，去除冗余信息，提高识别的性能，以此充分利用人体骨骼的拓扑关系，来提高识别的性能。实验证明，采用了骨架关节点关系推理网络之后，图卷积神经网络算法NTU-RGB+D数据集的CS基准下性能至少提高4.5％。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于骨架视频的行为识别方法，包含空间域图卷积神经网络，其特征在于还包括一个骨架关节点关系推理网络，通过训练确定骨架关节点关系推理网络参数，得到骨架关节点连接关系矩阵，该骨架关节点连接关系矩阵输入所述空间域图卷积神经网络，实现基于骨架视频的行为识别，具体包括如下训练步骤：

A2.用所述骨架视频训练样本对所述空间域图卷积神经网络进行初步训练，得到空间域图卷积神经网络的参数，训练方式为以行为类别为标签的监督式训练；

A3.基于得到的空间域图卷积神经网络的参数确定的空间域图卷积神经网络，用所述骨架视频训练样本训练所述骨架关节点关系推理网络，输出骨架关节点连接关系矩阵；

A4.用所得的骨架关节点连接关系矩阵训练所述空间域图卷积神经网络，更新该空间域图卷积神经网络的参数；

A5.重复步骤A3和A4若干次；

所述行为识别方法还包括如下应用步骤：

B1.获取待识别视频，对待识别视频抽帧得到待识别视频样本，并提取各帧的骨架关节点信息；

B2.将待识别视频样本输入训练好的骨架关节点关系推理网络，得到对应待识别视频样本的骨架关节点连接关系矩阵；

B3.将该骨架关节点连接关系矩阵和待识别视频样本输入训练好的空间域图卷积神经网络，得到行人行为的类别。

2.根据权利要求1所述的基于骨架视频的行为识别方法，其特征在于，步骤A1和B1中，所述骨架关节点信息包括N个关节点的2D或3D坐标，对视频抽帧得到视频训练样本或待识别视频样本，提取各帧的骨架关节点信息进一步包括：

将视频中的每一帧内的骨架信息建模成一张图G(x,A),其中x∈R^N×C，包含N个关节点的2D或3D坐标，A是所述骨架关节点连接关系矩阵，大小为N×N；

其中α、β、γ为常数，α≥β>γ≥0。

3.根据权利要求2所述的基于骨架视频的行为识别方法，其特征在于把骨架关节点集合划分成若干个骨架关节点子集合，对每个骨架关节点子集合分别用不同骨架关节点连接关系矩阵描述其连接关系；所述空间域图卷积神经网络中的图卷积层的输出为：

4.根据权利要求1所述的基于骨架视频的行为识别方法，其特征在于所述空间域图卷积神经网络中还包括带通道交换机制的卷积层，用于将关节点维度和特征维度交换顺序。

5.根据权利要求1所述的基于骨架视频的行为识别方法，其特征在于步骤A3中用所述骨架视频训练样本训练所述骨架关节点关系推理网络，输出骨架关节点连接关系矩阵具体包括:

(3)将同一个点出发和接收的所有骨架关节边特征进行求和，以此求和后的特征表示新的骨架关节点的隐含层特征；