CN111652124A

CN111652124A - 一种基于图卷积网络的人体行为识别模型的构建方法

Info

Publication number: CN111652124A
Application number: CN202010488680.1A
Authority: CN
Inventors: 周世杰; 王攀; 程红蓉; 廖永建; 刘启和; 谭浩; 刘辉; 徐阳; 周净
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-11

Abstract

本发明公开了一种基于图卷积网络的人体行为识别模型的构建方法，包括如下步骤：步骤1，骨架序列获取并预处理；步骤2，构造表示所述骨架序列的时空图；步骤3，基于所述时空图构建三流图卷积网络；所述三流图卷积网络包括三个分别用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的建模的网络，以及三个对应的图卷积网络，每个图卷积网络的输出进行融合作为三流图卷积网络的输出；步骤4，将步骤1得到的骨架序列经过步骤2转换为时空图后，输入三流图卷积网络进行训练，得到人体行为识别模型。本发明通过时空图计算关节点、骨骼和骨骼运动三种信息用于训练模型，以此使用更丰富的骨架信息进行动作识别，显著的提高了识别性能。

Description

一种基于图卷积网络的人体行为识别模型的构建方法

技术领域

本发明涉及机器学习技术领域，尤其是一种基于图卷积网络的人体行为识别模型的构建方法。

背景技术

动作识别任务在很多方面都有应用，其中，人体骨架信息有很多优势，比如对尺度变化、背景干扰等具有很强的鲁棒性，而且骨架信息很容易通过硬件设备(kinetics)或者软件(openpose)获得。传统的基于骨架的动作识别通常手动设计特征来表示骨架，目前有3种深度学习方法解决基于骨架的动作识别问题，分别是：将关节点序列表示成关节点向量，然后用RNN进行预测；将关节点信息表示成伪图像，然后用CNN去预测；将关节点信息表示成图结构，用图卷积进行预测。前两种方法不能将骨架信息中的图结构提取出来，也很难适应任意形状的骨架结构。最后一种的典型代表ST-GCN设计了一种时空图卷积网络，将人体的自然骨架结构通过拓扑图表示，动作识别性能得到了质的提升。

骨骼的自然结构是一个图形，关节是顶点，它们在人体中的自然连接是边缘。以往的方法不能充分利用骨架数据的图结构，难以推广到任意形式的骨架。近年来，图卷积网络(graph convolutional networks,GCNs)将卷积从图像推广到图上，在很多应用中都获得了成功。对于基于骨架的动作识别任务，Yan等人首先将GCNs应用于骨架数据的建模。他们基于人体关节的自然连接构建空间图形，并在连续的帧中添加相应关节之间的时间边缘。提出了一种基于距离的采样函数来构造图卷积层，并以此作为基本模块来构建最终的时空图卷积网络(ST-GCN)。

但是ST-GCN主要有四个缺点：

(1)ST-GCN中使用的骨架图是启发式预定义的，并且仅表示人体的物理结构。因此，它不能保证对动作识别任务是最优的，即原始的骨架结构是手动设计的，不能根据动作识别任务进行优化。例如，双手之间的关系对于识别诸如“拍手”和“阅读”之类的类很重要。然而，ST-GCN很难捕捉到双手之间的依赖关系，因为它们在预先定义的基于人体的图形中彼此相距很远。

(2)GCN的结构是层次结构，不同的层次包含多级语义信息。然而，ST-GCN中应用的图的拓扑结构在所有层上都是固定的，缺乏对所有层中包含的多级语义信息进行建模的灵活性和能力；

(3)对于不同行为类别的所有样本，一个固定图结构可能不是最优的。对于“擦脸”和“摸头”这类类别，手和头之间的联系应该更紧密，但对于其他一些类别，如“跳起来”和“坐下来”则不是这样。这一事实表明，图结构应该依赖于数据，然而，ST-GCN不支持这种依赖性。

(4)此外，骨头信息，表征着人体骨头的方向和长度，它和关节点坐标信息是互补的，骨头和关节点是紧密相连的，骨骼数据的二阶信息(骨骼的长度和方向)和其运动(motion)信息对于动作识别来说更有信息性和辨别性的。ST-GCN未能提取出关节点和骨头间的相互依赖信息来进行动作识别。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种基于图卷积网络的人体行为识别模型的构建方法。

本发明采用的技术方案如下：

一种基于图卷积网络的人体行为识别模型的构建方法，包括如下步骤：

步骤1，骨架序列获取并预处理；

步骤2，构造表示所述骨架序列的时空图；

步骤3，基于所述时空图构建三流图卷积网络；所述三流图卷积网络包括三个分别用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的进行建模的图卷积网络，三个图卷积网络是一样的，每个图卷积网络的输出进行融合作为三流图卷积网络的输出；

步骤4，将步骤1得到的骨架序列经过步骤2转换为时空图后，输入三流图卷积网络进行训练，得到人体行为识别模型。

进一步地，步骤1中骨架序列的预处理包括：

步骤1.1，基于骨架标识符将同一人体的骨架对齐；

步骤1.2，基于骨架能量的过滤；

步骤1.3，坐标数据归一化；

步骤1.4，视角归一化。

进一步地，如图2所示，步骤2包括如下子步骤：

步骤2.1，记一个有N个关节点和T帧的骨骼序列的时空图为G＝(V,E)，其关节点集合为V＝{v_ti|t＝1,…,T,i＝1,...,N}；

步骤2.2，将所述时空图G＝(V,E)中同一帧的每个关节点连接成边；

步骤2.3，将所述时空图G＝(V,E)中连续两帧相同的关节点连接成边。

进一步地，步骤3包括如下子步骤：

步骤3.1，将时空图中所有关节点的1邻域，划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集；

步骤3.2，根据三个子集构建自适应的空间图卷积层；

步骤3.3，使用传统的卷积层作为时域卷积层；

步骤3.4，构建图卷积块；所述图卷积块包括依次连接的空间图卷积层、BN层、RELU层、时域卷积层、BN层、RELU层；

步骤3.5，构建图卷积网络；所述图卷积网络包括依次连接的BN层、9个图卷积块、GAP层和softmax层；

步骤3.6，构建三流图卷积网络；所述三流图卷积网络包括三个分别用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息进行建模的图卷积网络，三个图卷积网络是一样的，每个图卷积网络的输出进行融合作为三流图卷积网络的输出。

进一步地，步骤3.2中构建的自适应的空间卷积网络表示为：

其中，f_out为空间卷积网络的输出，f_in为空间卷积网络的输入；K_v表示三个子集；W_k表示第k个子集的权重参数；A_k为第k个子集的邻接矩阵表达；B_k为第k个子集的权重邻接矩阵；C_k为attention邻接矩阵。

进一步地，步骤3.5中所述9个图卷积块的输入通道的数量、输出通道的数量和步长如下：

图卷积块B1的输入通道的数量为3、输出通道的数量为64、步长为1；

图卷积块B2的输入通道的数量为64、输出通道的数量为64、步长为1；

图卷积块B3的输入通道的数量为64、输出通道的数量为64、步长为1；

图卷积块B4的输入通道的数量为64、输出通道的数量为128、步长为2；

图卷积块B5的输入通道的数量为128、输出通道的数量为128、步长为1；

图卷积块B6的输入通道的数量为128、输出通道的数量为128、步长为1；

图卷积块B7的输入通道的数量为128、输出通道的数量为256、步长为2；

图卷积块B8的输入通道的数量为256、输出通道的数量为256、步长为1；

图卷积块B9的输入通道的数量为256、输出通道的数量为256、步长为1。

进一步地，所述进行关节点、骨骼和骨骼运动三种信息的建模的方法为：

(1)以关节点自身建模；

(2)以靠近骨骼重心的关节点为源关节点，以远离骨骼重心的关节点为目标关节点，每个骨骼表示源关节点指向目标关节点的向量；

(3)以同一骨骼在连续相邻不同时刻的向量之差为骨骼运动。

进一步地，步骤4包括如下子步骤：

步骤4.1，根据步骤1进行骨架序列获取并预处理；

步骤4.2，根据步骤2将步骤1处理后的骨架序列转换为时空图；

步骤4.3，将时空图输入三流图卷积网络，由三个用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的建模的网络，从时空图中计算出关节点、骨骼和骨骼运动；使三个对应的图卷积网络分别利用计算出的关节点、骨骼和骨骼运动进行训练，得到人体行为识别模型。

进一步地，训练时采用随机梯度下降法作为优化策略，选择交叉熵作为梯度反向传播的损失函数。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明通过时空图计算关节点、骨骼和骨骼运动三种信息用于训练模型，以此使用更丰富的骨架信息进行动作识别，显著的提高了识别性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的人体行为识别模型的构建方法的流程图。

图2为本发明构建的骨架序列的时空图示意图。

图3为本发明中子集划分示意图：其中D＝1(1邻域)的卷积核感受野由虚线画出，a(当前关节点),b(近重心邻居关节点)，c(远重心邻居关节点)表示不同的子集。

图4为本发明的空间图卷积层示意图，包括了C_k的计算示意图。

图5为本发明的时域卷积层示意图。

图6为本发明的图卷积块示意图。

图7为本发明的图卷积网络示意图。

图8为本发明的三流图卷积网络示意图(输入：骨骼运动(M-streams)，节点(J-streams)和骨骼(B-streams)。

具体实施方式

如图1所示，本发明的一种基于图卷积网络的人体行为识别模型的构建方法，包括如下步骤：

步骤1，骨架序列获取并预处理；

步骤2，构造表示所述骨架序列的时空图；

以下结合实施例对本发明的特征和性能作进一步的详细描述。

步骤1，骨架序列获取并预处理；

在一个视频中，有很多帧(Frame)，每个帧中，可能存在很多人(Man)，每个人又有很多关节点(Joint)，每一个关节点又有不同特征(位置坐标、置信度)。人体骨架序列可以从运动捕捉设备(Kinect)或视频的姿态估计算法(OpenPose)中获得。在2D或3D坐标形式下，动态骨骼可以自然地由人类关节点位置图的时间序列表示。然后，通过分析其动作模式可以做到人类行为识别。

骨架序列可以从两个现有数据集中获取：

(1)Kinetics：300000个视频(骨架序列)，400类动作，每个视频持续10秒，数据处理流程：resize(340*256)-->30fps-->OpenPose-->18个关节点的二维坐标+置信度-->(3,T,18,2)；其中T＝300，3表示二维坐标+置信度，18表示关节点数目，2表示置信度最高的两个人；

测评指标：Top-1和Top-5；

240000个视频训练，20000个视频验证测试。

(2)NTU-RGB D：56000个视频(骨架序列)，60类动作，由40个志愿者完成，25个关节点，每个关节点用三维坐标表示，每个clip最多有2个对象；

测评指标：Top-1；

cross-subject：40320个视频训练，16560个视频验证测试；cross-view：37920个视频训练，18960个视频验证测试。

在一个实施例中，骨架序列的预处理包括：

步骤1.1，基于骨架标识符将同一人体的骨架对齐：骨架标识符是指为每个人体分配一个body id(即身份标识)，在获取骨架序列时可能会有误分配，即同一个人体在不同帧内可能会分配不一样的body id。为了使人体的body id具有一致性，本方案在每一次bodyid消失的时候检测是否有新的body id出现，如果有，则认为新的body id是误分配，并把旧的body id赋值给新的body id。

步骤1.2，基于骨架能量的过滤：在图像中有时候会把桌子、椅子等物体检测为人体，为了过滤掉这些误检，本方案定义了一个骨架能量概念：即所有关节点的三维坐标在时间维度上标准差的平均值。由于物体通常是静止的，所以误检的物体的骨架能量会低于人体的骨架能量，然后通过设定一个骨架能量的阈值过滤掉这些物体。

步骤1.3，坐标数据归一化：为了统一数据的分布，减少人体中心在图像中的位置所带来地影响，简化模型训练过程。具体操作为：对于每一个骨架序列，以第一帧第一个人体的中心关节点为坐标系的原点，将其他帧归一化到这个坐标系中；然后将每个关节点的坐标减去这个中心关节点的坐标。

步骤1.4，视角归一化：为了减少视角对于模型训练的影响，由此将每一帧的人体都旋转到一个固定的角度。具体操作为：以第一帧第一个人体为基准求一个旋转矩阵，使得这个人体的左肩与右肩连成的直线与坐标系的x轴平行，这个人体的脊柱与坐标系的z轴平行。

步骤2，构造表示所述骨架序列的时空图；

根据步骤1获取的骨架序列并预处理后，本步骤设计出如图1所示的时空图。具体地，步骤2包括如下子步骤：

步骤2.1，记一个有N个关节点和T帧的骨骼序列的时空图为G＝(V,E)，其关节点集合为V＝{v_ti|t＝1,…,T,i＝1,...,N}，第t帧的第i个关节点v_ti的特征向量F(v_ti)由该关节点的坐标向量和估计置信度组成；

步骤2.2，将所述时空图G＝(V,E)中同一帧的每个关节点连接成边，这些边表示为E_S＝{v_tiv_tj|(i,j)∈H}，其中，H是一组自然连接的人体关节；

步骤2.3，将所述时空图G＝(V,E)中连续两帧相同的关节点连接成边，这些边表示为E_F＝{v_tiv_(t+1)i}；

步骤3，基于时空图构建三流图卷积网络；所述三流图卷积网络包括三个分别用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的建模对应的网络，它们的图卷积网络是一样的，每个图卷积网络的输出进行融合作为三流图卷积网络的输出；

具体地，步骤3包括如下子步骤：

空间构型划分Spatial configuration partitioning：将关节点的1邻域划分为3个子集，本专利采用的子集划分方法：

第一个子集连接了空间位置上比根节点(即当前卷积点)更远离整个骨架的邻居关节点(即远重心邻居关节点)，如图3中的c。

第二个子集连接了空间位置上比根节点(即当前卷积点)更靠近骨架中心的邻居关节点(即近重心邻居关节点)，如图3中b。

第三个子集为根节点自身，如图3中的a。

上述三个子集分别表示了离心运动、向心运动和静止的运动特征。关节点邻域是关节点的邻居关节点的集合，体现在邻接矩阵中。标准空间图卷积GCN对所有关节点使用同一个权重矩阵，但人体运动过程中，存在关节距离重心越远，运动幅度越大的规律，即包含的信息越多，因此本文提出将邻域分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集。

划分子集过后对每个关节点而言，其1邻域会分为三个部分，因此时空图的邻接矩阵就分为了三个子邻接矩阵A_k，表示为A+I＝∑_kA_k,k＝1,2,3，每个子邻接矩阵单独享有一个卷积权重，分别进行图卷积，最后通过加法叠加结果。这样划分会导致参数数量增加(扩增3倍)，但网络对空间特征细节的刻画能力也更加强。

步骤3.2，根据三个子集构建自适应的空间图卷积层；

标准空间图卷积GCN表示为：

其中，f_out为空间图卷积的输出，f_in为空间图卷积的输入；K_v表示三个子集；W_k表示第k个子集的权重参数；A_k为第k个子集的邻接矩阵表达，表示关节点之间的连接，代表了人体的物理结构，

是规范化的对角矩阵，α设为0.001，以避免空行；M_k指的是自适应权重矩阵，表示每个顶点的重要性。

上述标准空间图卷积GCN是基于一个预定义的图来计算的，这可能不是最佳选择。为了解决这个问题，本方案采用了一个自适应的空间图卷积层。以端到端学习的方式使时空图与空间图卷积层的其他参数一起得到优化。时空图对于不同的层和样本是唯一的，这大大增加了模型的灵活性。具体地：

构建的自适应的空间图卷积层，通过将标准空间图卷积GCN的公式改进为：

其中，f_out为空间图卷积层的输出，f_in为空间图卷积层的输入；K_v表示三个子集；W_k表示第k个子集的权重参数；A_k为第k个子集的邻接矩阵表达；B_k为第k个子集的权重邻接矩阵；C_k为attention邻接矩阵。

A_k与标准空间图卷积GCN中的含义一致，指的是邻接矩阵和单位矩阵的和，表示关节点之间的连接，代表了人体的物理结构，

是规范化的对角矩阵，α设为0.001，以避免空行。

B_k是一个N×N的矩阵，初始化为0，由网络自动学习，和网络中的其他参数仪器优化训练，没有任何约束，可以是任何元素，不仅可以增强关节点之间的连接，而且可以使没有关联的关节点之间产生关联，B_k中的元素可以是任意值。它不仅表明了两个关节点之间的连接的存在，而且还表明了连接的强度。在这里的功能和标准空间图卷积GCN的公式中的M_k类似，但是M_k只能改变原来不为零的权重，无法让为零的权重重新变成一个起作用的权重值，比如拥抱的姿势，两个胳膊之间的动作比较相似，有一定的关联，但是人体自然结构无法将这两个关节点连接起来，利用这个随机的B_k参数就可以使得这种没有人体自然结构关联的关节点关联到一起。所以B_k是一项完全由训练数据学习出来的参数，比原始的M_k更加灵活。

C_k是一个数据依赖图，针对每一个样本学习出一个唯一图即attention邻接矩阵，用关节点的轨迹来计算两个关节点之间的attention值。为了确定两个关节点之间是否存在连接以及连接的强度，用归一化的嵌入高斯函数(normalized embedded Gaussian)方程来衡量两个关节点之间的相似性：

如图4中C_k计算示意图。对于输入的特征图f_in大小为C_in×T×N，θ和φ嵌入函数选用1×1卷积层，首先用两个嵌入(embedding)函数θ和φ分别将f_in排列与重构(resize)成N×C_eT和C_eT×N两个矩阵，然后将生成的两个矩阵相乘得到N×N的相似矩阵C_k，

表示节点v_i和节点v_j之间的相似性。因为归一化的嵌入高斯函数有softmax操作，因此基于公式3计算C_k：

其中，W_θ和W_φ分别是嵌入函数θ和φ的参数，k对应不同的子集。

步骤3.3，使用传统的卷积层作为时域卷积层(TCN)；

对于时间维度，由于每个关节点的邻域数固定为2(两个连续帧中的对应关节点)，本方案使用传统的卷积层作为时域卷积层。

为了便于理解，可以类比图像的卷积操作。ST-GCN的feature map最后三个维度的形状为(C,V,T)，与图像feature map的形状(C,W,H)相对应，本专利采用和ST-GCN相同的TCN。

图像的通道数C对应关节点的特征数C。

图像的宽W对应关键帧数V。

图像的高H对应关节点数T。

在图像卷积中，卷积核的大小为『w』×『1』，则每次完成w行像素，1列像素的卷积。『stride』为s，则每次移动s像素，完成1行后进行下1行像素的卷积。

故时时域卷积过程如图5所示。在时域卷积中，卷积核的大小为『temporal_kernel_size』×『1』，则每次完成1个节点，temporal_kernel_size个关键帧的卷积。『stride』为1，则每次移动1帧，完成1个关节点后进行下一个关节点的卷积。

步骤3.4，如图6所示，构建图卷积块；所述图卷积块包括依次连接的空间图卷积层、BN层、RELU层、时域卷积层、BN层、RELU层；

步骤3.5，构建图卷积网络；如图7所示，所述图卷积网络包括依次连接的BN层、9个图卷积块、GAP层(全局平均池化层)和softmax层；

9个图卷积块的输入通道的数量、输出通道的数量和步长如下：

步骤3.6，构建三流图卷积网络；所述三流图卷积网络包括三个分别用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的建模的网络，以及三个对应的图卷积网络，每个图卷积网络的输出进行融合作为三流图卷积网络的输出。即三个图卷积网络输出的softmax层分数融合作为最后的分数去预测人体行为。

如图8所示，本方案使用J-stream，B-stream和M-stream分别表示为对关节点，骨骼和骨骼运动作为输入，分别通过图卷积网络对其进行建模，进行关节点、骨骼和骨骼运动三种信息的建模的方法为：

(1)以关节点自身建模；譬如源关节点v₁＝(x₁,y₁,z₁)，目标关节点v2＝(x₂,y₂,z₂)；

(2)以靠近骨骼重心的关节点为源关节点，以远离骨骼重心的关节点为目标关节点，每个骨骼表示源关节点指向目标关节点的向量，表示为

即时空图中的边，因为边数总比节点数少一个，所以增加一个中心点自环的一个长度为0的边。骨骼向量不仅包含长度信息，还包含方向信息。

(3)以同一骨骼在连续相邻不同时刻的向量之差为骨骼运动。表示为：

其中，e_t表示t时刻的骨骼即时空图中的边。

步骤4，将步骤1得到的骨架序列经过步骤2转换为时空图后，输入三流图卷积网络进行训练，得到人体行为识别模型；

具体地：

步骤4.1，根据步骤1进行骨架序列获取并预处理；

步骤4.3，将所述时空图输入三流图卷积网络，由三个用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的建模的网络，从时空图中计算出关节点、骨骼和骨骼运动；使三个对应的图卷积网络分别利用计算出的关节点、骨骼和骨骼运动进行训练，得到人体行为识别模型。

一个实施例中，训练时采用随机梯度下降法(SGD)作为优化策略，选择交叉熵作为梯度反向传播的损失函数：

其中：

M表示行为类别的数量；

y_ic表示指示变量(0或1)，如果该行为类别和训练集中样本i(即每一帧骨架序列)的类别相同就是1，否则是0；

p_ic表示对于样本i属于类别c的预测概率。

计算分类器的分类输出结果与数据集的样本标签的异同，将误差反向传播并更新图卷积网络的参数。以0.5的概率随机将特征dropout，将第4和第7个图卷积块中的时域卷积层的strides设置为2，批处理大小为64；重量衰减设置为0.0001，学习率为0.01，每10个epochs学习率下降0.1。

对于NTU-RGBD数据集，数据集的每个样本中最多有两个人。如果样本中的物体数小于2，我们用0填充第二个物体。每个样本的最大帧数为300。对于小于300帧的样本，我们重复采样，直到达到300帧。学习率设置为0.1，并在第30和第40次迭代时除以10。训练过程在第50次迭代(epoch)结束。

对于Kinetics数据集，输入张量的大小设置为与ST-GCN相同，它包含150帧，每帧有2个物体。对于数据增强，我们从输入的骨架序列中随机选择150帧，用随机选择的旋转和平移稍微打乱关节点坐标。学习率也设置为0.1，在第45和第55次迭代批次时除以10。训练过程在第65次迭代批次后结束。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图卷积网络的人体行为识别模型的构建方法，其特征在于，包括如下步骤：

步骤1，骨架序列获取并预处理；

步骤2，构造表示所述骨架序列的时空图；

2.根据权利要求1所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，步骤1中骨架序列的预处理包括：

步骤1.1，基于骨架标识符将同一人体的骨架对齐；

步骤1.2，基于骨架能量的过滤；

步骤1.3，坐标数据归一化；

步骤1.4，视角归一化。

3.根据权利要求1所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，步骤2包括如下子步骤：

4.根据权利要求1所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，步骤3包括如下子步骤：

步骤3.2，根据三个子集设计自适应的空间图卷积核，进而构建图卷积层；

步骤3.3，使用传统的卷积层作为时域卷积层；

步骤3.6，构建三流图卷积网络；所述三流图卷积网络包括三个分别用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的进行建模的图卷积网络，三个图卷积网络是一样的，每个图卷积网络的输出进行融合作为三流图卷积网络的输出。

5.根据权利要求4所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，步骤3.2中构建的自适应的空间卷积网络表示为：

6.根据权利要求4所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，步骤3.5中所述9个图卷积块的输入通道的数量、输出通道的数量和步长如下：

7.根据权利要求4所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，所述进行关节点、骨骼和骨骼运动三种信息的建模的方法为：

(1)以关节点自身建模；

(3)以同一骨骼在连续相邻不同时刻的向量之差为骨骼运动。

8.根据权利要求1所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，步骤4包括如下子步骤：

步骤4.1，根据步骤1进行骨架序列获取并预处理；

步骤4.3，将时空图输入三流图卷积网络，由三个用于对输入的时空图进行关节点、骨骼和骨骼运动三种信息的建模的网络，从时空图中计算出关节点、骨骼和骨骼运动；使三个相同且对应的图卷积网络分别利用计算出的关节点、骨骼和骨骼运动进行训练，得到人体行为识别模型。

9.根据权利要求8所述的基于图卷积网络的人体行为识别模型的构建方法，其特征在于，训练时采用随机梯度下降法作为优化策略，选择交叉熵作为梯度反向传播的损失函数。