CN115273244B

CN115273244B - 基于图神经网络的人体动作识别方法和系统

Info

Publication number: CN115273244B
Application number: CN202211201978.5A
Authority: CN
Inventors: 翟凯; 欧阳波; 杨善林
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-20
Anticipated expiration: 2042-09-29
Also published as: CN115273244A

Abstract

本发明提供一种基于图神经网络的人体动作识别方法和系统，涉及图像处理技术领域。本发明通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理，输出动作分类，该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。本发明设计了一种基于图神经网络的人体动作识别网络，利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别，以此输出作为图神经网络的骨架图输入，从而输出准确的3D动作从而从动作序列识别对应的动作分类，避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题，实现精确的动作识别。

Description

基于图神经网络的人体动作识别方法和系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于图神经网络的人体动作识别方法和系统。

背景技术

近年来，深度学习领域对人体动作识别的研究取得喜人进展，且在单目、多目的单帧静态图像及视频等各个方面进行了广泛且深入的研究。基于单帧的方法目的为以单张图片为输入，分析识别人的动作，而视频则包含了人体运动的整个时间流，包含了更多的信息，且可在时间上进行优化从而使得识别的动作更加平滑。以一个视频为例，动作识别算法首先有2D关节检测器识别每张图像中人关节的像素坐标，一般由卷积神经网络组成，部分方法直接采用集成好的OpenPose算法，然后输入到3D关节估计器估计每张图像中人关节的3D空间坐标，由于基于骨骼的人体关节数据的图结构特征，近年来基于图卷积的人体动作识别方法层出不穷，性能也优于基于卷积和全连接的方法。

目前的3D估计算法大部分采用时间序列输入，从人体动作时间流中寻找信息从而提高3D识别精度及采用光流等方法进行动作平滑，已有的算法如Spatial Temporal GraphConvolutional Networks for Skeleton-Based Action Recognition（用于骨骼的动作识别的时空图卷积网络）便采用时空图形式结合获取的视频的时间以及空间信息估计3D动作，但其采用OpenPose软件获得人体2D关键点，在输入精度有所欠缺，导致动作识别效果差。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种基于图神经网络的人体动作识别方法和系统，解决了现有方法动作识别效果差的技术问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供一种基于图神经网络的人体动作识别方法，其特征在于，所述方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理，输出动作分类，该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层，所述人体动作识别网络的训练过程包括：

S1、获取带有真值标签的数据集，所述真值标签包括：2D真值坐标、3D真值坐标和真实动作分类标签；

S2、通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别，得到2D关节点热图，基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失，优化预设的2D关节识别网络结构，直至热图损失小于第一预设阈值时，得到2D关节识别网络；

S3、通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置，得到帧级2D关节位置，将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中，得到3D关节位置，根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2，并计算loss=αloss1+（1-α）loss2，直至loss小于第二预设阈值时，得到3D关节识别网络；

S4、将2D关节识别网络、3D关节识别网络和全连接分类层组合，得到人体动作识别网络；

S5、将数据集中的视频输入到人体动作识别网络，得到动作分类，根据动作分类和真实动作，计算多分类交叉熵误差，优化人体动作识别网络；

其中，所述预设的2D关节识别网络结构为编码器解码器结构，且编码器与解码器结构对称；其中，编码器为下采样层提取全局特征，解码器为上采样层恢复局部特征；编码器分为四个网络块，块之间进行下采样，块内进行卷积并维持尺寸以进行短连接，每个块的最后输出为当前等级的特征图，从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图。

优选的，所述3D关节识别网络包括多个相同结构的图卷积块，每个所述图卷积块包括一个分层图卷积和一个时间卷积；

其中，每个图卷积块的编码器解码器块结构相同，且依次进行空间与时间的信息更新，具体为首先对每帧图像进行多阶邻居空间信息聚合，其中：

) d=1,2,3

其中，

表示为更新后的第m+1层的d层邻居特征，A _d为第d层邻居骨架图，X ^m为第m层的特征，M _d为第d层邻居的加权权重矩阵，W为特征更新矩阵，d=1,2,3,表示对应3层邻居层；

获得每一层级特征，通过

聚合各层级特征输出更新后的节点特征，对获得的更新后的特征图进行融合节点图获取全局信息，具体为对更新后的节点特征

进行分组融合得到融合后的融合特征图特征

，即

在融合特征图上进行一阶邻居聚合：

然后预定义的分组规则

其中，

为第m+1层加权聚合各层信息后的第m+1层特征；

为第d层邻居的权重；

为第m+1层最终聚合更新后的第i个节点的特征；β、δ、γ为权重，是超参；a为按对称空间骨架图分组规则聚合各组信息，

是指第i节点所对应的组的特征；A ₁为对称空间骨架图邻居图，

分别为对称空间骨架图的加权权重矩阵和特征更新矩阵；

为2D全局特征信息；

对于空间信息聚合，采用空域图卷积邻居节点聚合每个节点i的特征

。

优选的，所述3D关节识别网络还包括：帧级自注意力层，所述帧级自注意力层位于除最后一个图卷积块的所有图卷积块后。

优选的，所述基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失包括：

其中，x _uh为2D关节点热图的像素坐标值；

为关节2D真值坐标生成的高斯热图的像素坐标值；U为热图横坐标像素数；H为热图纵坐标像素数。

优选的，所述帧级关节点位置差损失loss1的计算方法包括：

其中，V为预定义的关节数；T为设计的输入3D关节识别网络的视频帧数；

为3D关节识别网络；y _ti为第t帧第i个节点的3D相机坐标网络估计值；

为第t帧第i个节点的3D真值坐标。

优选的，所述帧级关节点合理性损失loss2的计算方法包括：

其中，T为设计的输入3D关节识别网络的视频帧数；F为符号函数，如果值大于阈值输出为1，否则为0；J为预定义的按骨连接的关节对索引；Q为每个不合理骨骼误差惩罚；y _tj0为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值，y _tj1为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值，

为第t帧第j个关节索引对的第1个关节索引的3D相机坐标标签真值，

为第t帧第j个关节索引对的第2个关节索引的3D相机坐标标签真值。

第二方面，本发明提供一种基于图神经网络的人体动作识别系统，所述系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理，输出动作分类，该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层，所述预先训练的基于图神经网络模块包括：

数据集单元，用于获取带有真值标签的数据集，所述真值标签包括：2D真值坐标、3D真值坐标和真实动作分类标签；

2D单元，用于通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别，得到2D关节点热图，基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失，优化预设的2D关节识别网络结构，直至热图损失小于第一预设阈值时，得到2D关节识别网络；

3D单元，用于通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置，得到帧级2D关节位置，将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中，得到3D关节位置，根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2，并计算loss=αloss1+（1-α）loss2，直至loss小于第二预设阈值时，得到3D关节识别网络；

组合单元，用于将2D关节识别网络、3D关节识别网络和全连接分类层组合，得到人体动作识别网络；

优化单元，用于将数据集中的视频输入到人体动作识别网络，得到动作分类，根据动作分类和真实动作，计算多分类交叉熵误差，优化人体动作识别网络。

) d=1,2,3

其中，

获得每一层级特征，通过

进行分组融合得到融合后的融合特征图特征

，即

在融合特征图上进行一阶邻居聚合：

然后预定义的分组规则

其中，

为第m+1层加权聚合各层信息后的第m+1层特征；

为第d层邻居的权重；

分别为对称空间骨架图的加权权重矩阵和特征更新矩阵；

为2D全局特征信息；

。

第三方面，本发明提供一种计算机可读存储介质，其存储用于基于图神经网络的人体动作识别的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的基于图神经网络的人体动作识别方法。

第四方面，本发明提供一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述所述的基于图神经网络的人体动作识别方法。

（三）有益效果

本发明提供了一种基于图神经网络的人体动作识别方法和系统。与现有技术相比，具备以下有益效果：

本发明通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理，输出动作分类，该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。本发明设计了一种基于图神经网络的人体动作识别网络，利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别，以此输出作为图神经网络的骨架图输入，从而输出准确的3D动作从而从动作序列识别对应的动作分类，避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题，实现精确的动作识别。同时，2D关节识别网络和3D关节识别网络先分别训练，再组合训练，既能提高训练效率，又能提升动作识别的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于图神经网络的人体动作识别方法的框图；

图2为本发明实施例中2D关节识别网络的结构图；

图3为本发明实施例中3D关节识别网络的结构图；

图4和图5为多层级的骨架图，其中，图4为第一层级为人体16节点的骨架图，图5为第二层级为对称空间骨架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于图神经网络的人体动作识别方法和系统，解决了现有方法动作识别效果差的技术问题，实现精确的动作识别。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

现有的动作识别方法主要是利用OpenPose等算法对输入视频进行动作估计并由此构造出骨架的时空序列图，之后采用多层时空图卷积（ST-GCN），逐步在图上生成更高层次的特征图，最后采用标准的Softmax分类器将其分类为相应的动作类别。该方法直接采用现有的OpenPose等算法直接输出2D关节位置，因此缺少比较精确的2D关节信息从而导致3D动作识别效果差。同时，该方法的多层时空图卷积（ST-GCN）直接采用邻接矩阵，每一层当前节点只聚合当前节点的一阶邻居，而没有考虑高阶的邻居，感受野大小受限，需要堆叠较为多的图卷积层。

为解决现有的动作识别方法中的缺陷，本发明实施例提出多等级特征融合的2D关节识别网络，该2D关节识别网络能够识别浅层局部特征以及深层全局特征，并通过不同等级特征之间的融合从而精确识别2D关节点。并基于图神经网络构造时空图卷积时间序列的3D关节识别网络，在3D关节识别网络中预定义多层级人体骨骼关节节点，并设定了各层级之间的节点的转换以融合多层级信息，且在除最后一个图卷积块后的每个图卷积块后添加一个自注意力层以增强全局感受野下节点内时间特征信息的关注，修正边缘节点（双手双脚）识别位置的异常偏离，并采用时间卷积对预测的3D关节点特征信息进行聚合，最后通过分类层输出准确的动作分类结果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种基于图神经网络的人体动作识别方法，该方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理，输出动作分类，该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。如图1所示，该人体动作识别网络的训练过程包括：

S5、将数据集中的视频输入到人体动作识别网络，得到动作分类，根据动作分类和真实动作，计算多分类交叉熵误差，优化人体动作识别网络。

本发明实施例设计了一种基于图神经网络的人体动作识别网络，利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别，以此输出作为图神经网络的骨架图输入，从而输出准确的3D动作从而从动作序列识别对应的动作分类，避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题，实现精确的动作识别。同时，2D关节识别网络和3D关节识别网络先分别训练，再组合训练，既能提高训练效率，又能提升动作识别的精度。

下面对各个步骤进行详细描述：

在步骤S1中，获取带有真值标签的数据集，所述真值标签包括：2D真值坐标、3D真值坐标和真实动作标签。具体实施过程如下：

在本发明实施例中，数据来源可以使自建数据集，也可以是开源数据集。

在步骤S2中，通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别，得到2D关节点热图，基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失，优化预设的2D关节识别网络结构，直至热图损失小于第一预设阈值时，得到2D关节识别网络。具体实施过程如下：

为了从视频中准确提取出时间序列2D关节点位置，提出了一种多等级特征融合的半密集2D关节识别网络（该网络为基于U-Net和ResNet神经网络的多层次特征融合网络2D关节识别网络），其输入为单张图片，输出为图片中人体的2D关节点的像素坐标系坐标x _iÎR

，以f表示此2D关节识别网络，则网络的目标为最小化输出的每个关节的坐标x _i与2D真值坐标

的差值和，表示为：

其中，V为预定义的关节数，本发明实施例V=16。

2D关节识别网络的网络结构为编码器解码器结构，且编码器与解码器结构对称，其中编码器为下采样层提取全局特征，解码器为上采样层恢复局部特征。2D关节识别网络的具体结构如图2所示。

编码器分为四个网络块，块之间进行下采样，块内进行卷积并维持尺寸以进行短连接，每个块的最后输出为当前等级的特征图，从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图，特征等级排序为从低到高。同理，解码器上采样块对应特征为上采样图像特征图、上采样局部特征图、上采样提取特征图和全局特征图。

下采样与上采样提取的各等级特征经采样操作输出为下一等级特征，而下采样的尺寸减小操作会丢失部分信息，这些信息无法通过上采样恢复，因此，在上采样与下采样对应等级特征间搭建短连接以恢复下采样丢失信息。同时，为进一步提高精确度并尽可能减少计算量，设计低级底层特征融合，将网络的下采样对应低层特征图通过对应的卷积操作融合进上采样特征，特别的，对于每一个上采样特征图，本发明实施例只融合下采样多等级特征图中比之低等级的特征图，例如，对于上采样局部特征图，本发明实施例只融合下采样图像特征图与下采样局部特征图。

以一张3*224*224图片为例，2D关节识别网络首先进行下采样第一阶段，即两层卷积且每层卷积维持尺寸不变，获得尺寸不变特征通道升至64的下采样图像特征图，进行最大池化下采样操作得到编码器第二阶段的输入，且下采样特征图复制下采样到当前尺寸一半及当前尺寸的1/4分别与上采样第一、二、三阶段的其他输入部分融合作为输入。然后进行下采样第二阶段，同样两层卷积且每层卷积维持尺寸不变，获得尺寸不变特征通道升至128的下采样局部特征图，进行最大池化下采样操作得到编码器第三阶段的输入，且下采样特征图复制以及下采样到当前尺寸一半分别与上采样第一、二阶段的其他输入部分融合作为输入。然后进行下采样第三阶段，同样两层卷积且每层卷积维持尺寸不变，获得尺寸不变特征通道升至256的下采样局部特征图，进行最大池化下采样操作得到编码器第四阶段的输入，且下采样特征图复制与上采样第一阶段的其他输入部分融合作为输入。最后进行下采样第四阶段，同样两层卷积且每层卷积维持尺寸不变，获得尺寸不变特征通道升至512的全局特征图，作为解码器第一阶段的输入。

与4层下采样相同，构造除下采样第四阶段同等维度映射的3层上采样，并在每一级别的下采样的输入前构建一个卷积层，将多尺度的上采样信息分别卷积并融合乘当前尺度，再拼接起来送入当前上采样层作为输入，上采样的最后一层为所有关节对应的通道，按通道顺序表示索引顺序关节的2D关节位置热图。所得热图会与关节2D真值坐标生成的高斯热图进行计算热图损失，热图损失loss0的计算公式如下：

其中，x _uh为2D关节点热图的像素坐标值；

在具体实施过程中，第一预设阈值一般设置为65。

在步骤S3中，通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置，得到帧级2D关节位置，将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中，得到3D关节位置，根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2，并计算loss=αloss1+（1-α）loss2，直至loss小于第二预设阈值时，得到3D关节识别网络。具体实施过程如下：

在本发明实施例中，第二阈值设置为0.0001平方米。

经过2D关节识别网络识别，较快速精确地获得了所有帧的2D关节点位置，接下来通过3D关节识别网络将2D关节位置提升到3D关节位置。其目的是对给定的2D关节坐标序列

进行3D位姿估计输出对应三维相机空间坐标

，则3D关节识别网络的表示函数

，并使得每个预测关节坐标

与3D真值坐标

之间的误差最小，表示为：

整个3D关节识别网络由一些多层级图卷积编码器解码器块组成，其输入由图嵌入层将2D关节信息编码为高维潜特征向量，其输出经预测层输出3D关节坐标。本发明实施例的3D关节识别网络如图3所示，包括多个相同结构的图卷积块，每个图卷积块包括一个分层图卷积和一个时间卷积，除最后一个图卷积块，每个图卷积块后接批归一化BN和线性整流单元ReLU，并添加一个帧级自注意力层。在3D关节识别网络中，设计了如图4和图5所示的多层级骨架图，骨架图融合映射成下一等级的骨架图的规则如下：

0,7,8,9 →0

1,2,3 →1

4,5,6 →2

10,11,12 →3

13,14,15 →4

其中，0~15表示本发明实施例中本发明实施例中骨架图的节点数的标号。图4为第一层级为人体16节点的骨架图，图5为第二层级为对称空间骨架图。

帧级2D关节位置构建成时间序列骨架图在输入到3D关节识别网络的输入后，提取这一输入的全局特征。具体包括：

对所有原始输入的2D关节坐标进行信息提取，从而使后续每个图卷积块都能重新融合原始全局特征信息，具体操作为：将所有帧坐标拼接并通过全连接提取对应潜空间维度特征，得到2D全局特征信息

：

= Glo(concat(Flatten(x _ij)))

其中，Glo为全连接函数，concat为拼接操作，Flatten为展开，将二维坐标展开为一个维度、长度均为2的张量Tensor（如像素坐标（x,y)，在存储中的Tensor是[[x],[y]],展开成一个维度就是[[x,y]]），x _ij为第i帧第j个关节。

图卷积是定义为解决图结构数据无法有效进行卷积运算问题的网络结构，其输入数据一般为图G，其中G=(V，A)表示一张图，V为预定义的N个关节数，本发明实施例中，N=16，

为邻居矩阵，表示不同节点间的信息关联。给定第m层特征X ^m∈R ^N×C，则图卷积网络会从邻居矩阵A中聚合关联邻居节点特征从而更新当前节点特征，表示为：

其中，

，为可学习的权重矩阵。R表示维度，该公式表示第m层的特征是N×C、NC为两个维度，C为每个特征在当前层的特征维度，本发明实施例设置C=128。

本发明实施例的3D关节识别网络针对其中的权重W共享问题，采用节点级共享权重，即对每一个节点，都有其对应的W，表示为邻居节点更新权重

，且对于不同层级邻居节点有不同的更新权重W，表示为第d层级邻居图邻居节点更新权重

。本发明实施例将邻居矩阵图分为解耦层、一邻居层、二邻居层、三邻居层多层，更好的结合了其他节点的信息。且由于图卷积网络针对每个节点只聚合其邻居节点信息，只能通过逐层扩大感受野，而无法有效结合全局信息的问题，设计了分层全局信息与2D全局信息融合模块，从而有效结合全局信息，使网络较好收敛并消除抑制个别节点预测异常问题。

本发明实施例的3D关节识别网络的每个多层级图卷积编码器解码器块结构相同，且其中依次进行空间与时间的信息更新，具体为首先对每帧图像进行多阶邻居空间信息聚合，其中：

) d=1,2,3

其中，

获得每一层级特征，通过

进行分组融合得到融合后的融合特征图特征

，即

在融合特征图上进行一阶邻居聚合：

然后预定义的分组规则

其中，

为第m+1层加权聚合各层信息后的第m+1层特征；

为第d层邻居的权重；

分别为对称空间骨架图的加权权重矩阵和特征更新矩阵；

为2D全局特征信息。

进行不同层级特征聚合。再对所有节点特征维度按时间进行因果卷积聚合时间信息，依次堆叠多个此聚合块。更具体地，对于空间信息聚合，采用空域图卷积邻居节点聚合每个节点i的特征

，且每个

的更新都有自己的权重，就

而言，具体为

更新时对所有的

的一二三邻居

都以对应权重进行门控输出，并以一定权重将三层邻居特征与当前特征聚合得到更新后的特征，再将分组规则下映射的

对应的分组特征、

对应的分组特征更新后的特征以及对3D关节识别网络中输入的2D关节坐标序列融合的全局特征信息

以一定权重聚合，得到层更新后的

的特征。

本发明实施例中的3D关节识别网络由很多具有上述相同结构的图卷积块组成，其中包括几个由两个多层级图卷积编码器解码器块组成的残差连接块，除最后一个图卷积块，每个图卷积块后接批归一化BN和线性整流单元ReLU，并且添加一个帧级自注意力层进行肢体的自注意以提升肢体接触和遮挡的识别能力，即以8帧的节点信息为输入，计算帧节点间的信息相似度，进行帧级自注意。

loss1和loss2的计算公式如下：

其中，T为设计的输入3D关节识别网络的视频帧数；

为第t帧第i个节点的3D真值坐标；

F为符号函数，如果值大于阈值输出为1，否则为0；J为预定义的按骨连接的关节对索引(即有骨连接的两个索引关节组成一个关节对索引，共15个关节索引对，每个索引对为两个关节索引)；Q为每个不合理骨骼误差惩罚；y _tj0为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值，y _tj1为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值，

S4、将预训练好的2D关节识别网络、3D关节识别网络和全连接层组合，得到初始人体动作识别网络；

S5、将数据集中的视频输入到人体动作识别网络，得到动作分类，根据动作分类和真实动作，计算多分类交叉熵损失，优化初始人体动作识别网络，得到人体动作识别网络。

本发明实施例的人体动作识别方法可运用在多个应用场景，如行为安全监测、健身评分、动作纠正、骨科肌力康复评估等。

本发明实施例还提供一种基于图神经网络的人体动作识别系统，该系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理，输出动作分类，该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。预先训练的基于图神经网络模块包括：

可理解的是，本发明实施例提供的基于图神经网络的人体动作识别系统与上述基于图神经网络的人体动作识别方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于图神经网络的人体动作识别方法中的相应内容，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其存储用于基于图神经网络的人体动作识别的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的基于图神经网络的人体动作识别方法。

本发明实施例还提供一种电子设备，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例设计了一种基于图神经网络的人体动作识别网络，利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别，以此输出作为图神经网络的骨架图输入，从而输出准确的3D动作从而从动作序列识别对应的动作分类，避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题，实现精确的动作识别。

2、现有的基于深度学习的研究方法主要基于网络算法的改进而很少有损失函数的提出，且目前提出的一些损失函数无法较好的对网络识别的动作合理性进行约束，本发明实施例构造了动作合理性损失函数，提升了网络识别的3D动作的合理性从而提高了最终分类效果。

3、现有的基于图神经网络进行3D骨骼关键点识别方法很少会用到全局特征，而本发明实施例将空间图卷积更新后的节点特征与多层级骨骼特征更新后的骨骼层级特征以及3D识别网络中输入的视频的2D全局特征信息充分融合以学习全局动作从而更好推断关节相关信息。

4、现有的图神经网络方法虽然有部分结合了自注意力机制，但都是对整个身体进行自注意，而本发明实施例进行基于预定义的骨架图进行帧级自注意，从而提高了网络时间信息的获取能力，具有动作不合理、肢体位置异常等问题的鲁棒性。同时，本发明实施例设计了人体信息对称多层级骨架图，是人体所有关节骨架图的更优解，其中第一层级为人体16节点的骨架图，第二层级为对称空间骨架图。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图神经网络的人体动作识别方法，其特征在于，所述方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理，输出动作分类，该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层，所述人体动作识别网络的训练过程包括：

其中，所述预设的2D关节识别网络结构为编码器解码器结构，且编码器与解码器结构对称；其中，编码器为下采样层提取全局特征，解码器为上采样层恢复局部特征；编码器分为四个网络块，块之间进行下采样，块内进行卷积并维持尺寸以进行短连接，每个块的最后输出为当前等级的特征图，从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图；

所述3D关节识别网络包括多个相同结构的图卷积块，每个所述图卷积块包括一个分层图卷积和一个时间卷积；