CN111199216B

CN111199216B - 面向人体骨架的运动预测方法及系统

Info

Publication number: CN111199216B
Application number: CN202010014577.3A
Authority: CN
Inventors: 张娅; 李茂森; 赵阳桁; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2022-10-28
Anticipated expiration: 2040-01-07
Also published as: CN111199216A

Abstract

本发明提供了一种面向人体骨架的运动预测方法及系统，包括：数据获取步骤：获取人体骨架数据；人体多尺度图构建步骤：根据人体骨架数据构建多尺度人体，并基于多尺度人体构建以身体部位为点，以部位之间关系为边的人体多尺度图；人体运动特征提取步骤：将人体多尺度图引入由空间多尺度图卷积构成的深度模型中，提取多尺度人体的综合动作语义信息；动作分析与预测步骤：根据综合动作语义信息，实现动作预测。本发明利用自适应的、动态的图结构和DMGNN，可以提取动作的高层语义信息，利用高层语义信息实现了动作的预测。

Description

面向人体骨架的运动预测方法及系统

技术领域

本发明涉及视频分析与模式识别领域，具体地，涉及一种面向人体骨架的运动预测方法及系统。尤其地，涉及一种面向人体骨架运动预测的动态多尺度图神经网络模型与方法。

背景技术

人体动作理解和预测在视频监控、人机交互和虚拟现实等领域具有广泛应用。其中，骨架动作是一种人体动作的表达方式，可通过运动学相机采集，被表示为一系列的关节和骨骼。骨架数据能够有效地表达动作，且具有抗噪能力强，数据维度低等优势。利用骨架数据进行动作识别具有广泛的应用。

目前的人体骨架动作预测的方法通常是独立地考虑每个关节点的运动特征，用特征提取方法来对整个动作序列进行分析。随着深度学技术的发展，卷积神经网络与循环神经网络也常被用于自动地提取动作特征。然而，人体在运动过程中，不同身体部位之间存在相互依赖的关系，而这些方法无法显式地挖掘身体部位之间的运动依赖。

为了捕捉身体部位之间的依赖，图可以被用于关节之间的关系建模。图是一种无规则形状的拓扑结构，在人体骨架数据中，不同的身体部位可以被表示为图中的节点，而部位之间的关系可用图中的边来表示，因此，身体部位之间的关系得到建模，而每个部位特征也可以基于邻接关系互相影响。有方法提出将人体关节表示为图的节点，将骨骼表示为图的边，可以有效地捕捉人体结构中邻近关节之间的运动关系。然而，这种建模方式一方面只考虑了在人体生物学结构中邻近关节之间的关系，对于不同的动作而言，生物结构距离较远的关节可能会存在更强的关系，例如在行走时，双手和双脚是在协同运动的；另一方面，这种方法只考虑了细节的、易受扰动的关节尺度人体，而人体的整体运动特征并非通过观察每个关节的位置得以判定，而应该分析一些更加笼统和抽象的人体部位，例如在行走时，我们更关注双臂和双腿的运动，而不关注手指和脚趾的具体位置，为此我们建立了多尺度的人体结构，并将其建模没人体多尺度图，模型可同时提取具体的关节信息和抽象的身体部位信息；这种复合的特征可以使得模型对模式的分析和理解在满足精确度要求的同时更加鲁棒。

图卷积网络(Graph Convolutional Network，简称GCN)是近年提出的一类将图像领域中的卷积神经网络扩展到图结构上进行运算的方法，能有效利用节点关系提取节点特征。其基本思想是将节点信息在相邻节点之间传播，某个节点可以聚集邻居节点的特征来更新自身特征。在人体多尺度图上，利用GCN可以基于身体内部关系，提取高层语义特征，从而更准确地捕捉动作的模式。

实际研究中，本发明着重于解决人体骨架动作预测中的两个核心困难：1)如何建模多尺度人体结构中复杂内含关系以及如何描述多尺度的人体运动特征；2)如何稳定且合理地预测复杂和多样的人体运动，尤其是在没有动作种类信息作为先验知识的情况下。如何克服上述两个困难，能够让该模型更充分地提取动作信息，对提升人体骨架动作预测具有重要意义。

专利文献CN105320944B(申请号：201510698117.6)公开了一种基于人体骨架运动信息的人体行为预测方法，包括以下步骤：利用从RGB-D图像中提取人体骨架信息，分肢体计算各关节点的归一化相对方位特征；利用基于特征序列势差的分割方法对特征序列进行动态分割，得到姿态特征子序列和动作特征子序列；从姿态特征子序列和动作特征子序列中提取关键姿态和原子动作，构建基于关键姿态和原子动作的多层图模型；提取多层图模型中蕴含的人体子行为模式，构建人体子行为模式的上下文概率统计模型；进行人体子行为模式的识别与预测。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种面向人体骨架的运动预测方法及系统。

根据本发明提供的面向人体骨架的运动预测方法，包括：

数据获取步骤：获取人体骨架数据；

人体多尺度图构建步骤：根据人体骨架数据构建多尺度人体，并基于多尺度人体构建以身体部位为点，以部位之间关系为边的人体多尺度图；

人体运动特征提取步骤：将人体多尺度图引入由空间多尺度图卷积构成的深度模型中，提取多尺度人体的综合动作语义信息；

动作分析与预测步骤：根据综合动作语义信息，实现动作预测。

优选地，所述数据获取步骤包括：获取学界公开的人体骨架数据集，或根据深度相机获取人体骨架运动数据；

所述人体骨架数据包括人体中的关节点随时间变化的空间位置；

所述人体多尺度图包括：单尺度人体子图和跨尺度人体子图。

优选地，所述单尺度人体子图包括：第s个尺度的人体对应的单尺度人体子图包括M_s个节点和多条边，邻接矩阵表示为A_s，A_s进行自适应，在模型的训练过程中被自动调整。

优选地，所述跨尺度人体子图包括：邻接矩阵表示为A_ss，两个不同尺度的人体分别为s1和s2，分别由M_s1和M_s2个身体部位构成，s1的第i个身体部位的特征表达为p_s1,i，s2的第k个身体部位的特征表达为p_s2,k，跨尺度人体子图的邻接矩阵的推断过程为：

h_s1,i＝g_s1([p_s1,i,r_s1,i])

h_s2,k＝g_s2([p_s2,k,r_s2,k])

其中，

f_s1(·)表示对s1尺度下各个身体部位相对信息的聚合运算；

g_s1(·)表示对s1尺度下各个身体部位特征的更新操作；

f_s2(·)表示对s2尺度下各个身体部位相对信息的聚合运算；

g_s2(·)表示对s2尺度下各个身体部位特征的更新操作；

softmax(·)表示沿着内积矩阵行方向的softmax运算；

[·,·]表示向量拼接操作；

r_s1,i表示聚合了s1尺度下第i个关节的特征及其与其他任意关节之间的相对特征；

h_s1,i表示对s1尺度下第i个关节本身的特征及其聚合了全身关节的相对特征的深度映射表达；

r_s2,k表示聚合了s2尺度下第k个关节的特征及其与其他任意关节之间的相对特征；

h_s2,k表示对s2尺度下第k个关节本身的特征及其聚合了全身关节的相对特征的深度映射表达；

表示特征向量h_s2,k的转置；

A_s1s2表示s1尺度任意一个关节对s2尺度任意一个关节影响的影响力构成的权重矩阵，其中矩阵的每一行表示s2中的每一个关节受到s1中所有关节影响的归一化权重；

(A_s1s2)_ki表示s1的第i个关节对s2的第k个关节的影响力权重；

j表示第j个关节的编号；

将跨尺度人体子图的邻接矩阵转化为：

其中，e表示自然对数的底；

当s2的身体部位受到来自s1中所有身体部位信息的影响，权重值被归一化在0到1之间，超出预设的影响关系被softmax中的指数运算放大。

优选地，所述人体运动特征提取步骤包括：根据人体多尺度图，构成模型的单个运算单元，成为多尺度图运算单元MGCU；

所述多尺度图运算单元MGCU包括单尺度图卷积运算块SS-GCB和跨尺度融合运算块CS-FB。

优选地，所述单尺度图卷积运算块SS-GCB包括：单帧人体的空间图卷积核和相邻多帧的时间卷积，人体尺度s的姿态特征为X_s，SS-GCB中的空间图卷积表示为：

X_s,sp＝ReLU(A_sX_sW_s+X_sU_s)

其中，

W_s表示在聚合邻居身体部位的特征时所用的权重值；

U_s表示对每个身体部位本身在执行特征更新时所用的权重值；

A_s为尺度为s的单尺度人体子图的邻接矩阵；

ReLU表示非线性激活函数：整流线性单元ReLU，其表达式为：

ReLU(x)＝max(x,0)；

max(·)表示取输入值的最大值。

优选地，所述跨尺度融合运算块CS-FB包括：将不同尺度的人体特征进行转化和融合，对于两个不同尺度的人体s1和s2，身体各部位的特征表达分别为Xs1和Xs2，将人体结构s1的尺度通过推断得到的跨尺度人体图转换并映射到s2的CS-FB融合过程表示为：

X_s2←A_s1s2X_s1W_F,s1+X_s2

其中，

W_F,s1表示将X_s1进行转化时的权重矩阵；

s2中的每一个身体部位自适应地吸收来自s1的特征信息，通过CS-FB得到的融合后的特征表达被输入至网络中的下一层单尺度图卷积运算块SS-GCB，提取更高层次的特征。

优选地，所述动作分析与预测步骤包括：所述深度模型包括提取人体动作深层语义特征的编码器和生成未来人体姿态的解码器，分别进行人体动作的分析和预测；

所述编码器包括：多个MSGU运算单元被串行连接，MSCU含有自适应动态人体多尺度图；人体动作深层语义特征作为未来动作序列的初始运动状态，进行迭代生成未来动作；在t时刻，人体运动序列中每一个关节点的持续运动状态信息为H^(t)，当下时刻的人体中每一个关节点的位置为X^(t)，各人体关节点之间的图的邻接矩阵为A_H，则G-GRU的运算过程表示为：

r^(t)＝σ(r_in(X^(t))+r_hid(A_HH^(t)W_H))

u^(t)＝σ(u_in(X^(t))+u_hid(A_HH^(t)W_H))

c^(t)＝tanh(c_in(X^(t))+r^(t)c_hid(A_HH^(t)W_H))

H^(t+1)＝u^(t)H^(t)+(1-u^(t))c^(t)

其中，

r_in(·)，r_hid(·)，u_in(·)，u_hid(·)，c_in(·)和c_hid(·)表示6个可训练的线性网络层；

W_H表示G-GRU中图卷积运算中可以被训练的权重；

σ表示sigmoid激活函数；

tanh(·)表示双曲正切激活函数；

r^(t)表示由G-GRU中对输入特征和历史状态特征的一种深层非线性映射得到的运动特征表达；

u^(t)表示由G-GRU中对输入特征和历史状态特征的一种深层非线性映射得到的运动特征表达；

c^(t)表示整合了r^(t)、u^(t)和动作的运动状态特征并通过一种深层非线性映射得到的运动特征表达。

优选地，所述解码器包括：基于图的门限循环单元G-GRU对隐含的运动状态进行处理，输出函数基于更新后的运动状态输出未来人体姿态，在t时刻，人体个关节位置的估计值为

运动序列的隐含运动状态为H^(t)，则解码器表示为：

其中，

G-GRU(·,·)表示门限循环单元G-GRU；

f_pred(·)表示用于预测的输出函数；

f_pred(·)预测在时刻t+1的人体姿态与时刻t的人体姿态之间的差距，将其与

相加，获得t+1时刻的人体姿态估计值。

根据本发明提供的面向人体骨架的运动预测系统，包括：

数据获取模块：获取人体骨架数据；

人体多尺度图构建模块：根据人体骨架数据构建多尺度的人体，并基于多尺度人体构建以身体部位为点，以部位之间关系为边的人体多尺度图；

人体运动特征提取模块：将人体多尺度图引入由空间多尺度图卷积构成的深度模型中，提取多尺度人体的综合动作语义信息；

动作分析与预测模块：根据综合动作语义信息，实现动作预测。

与现有技术相比，本发明具有如下的有益效果：

1、本发明利用图的思想，建模不同身体部位在运动中的关系，从而更好地捕捉运动模式；

2、本发明不仅局限于人体的骨架结构，挖掘了动作中关节在运动时的关系，从而构建了一种自适应的、动态的人体结构图，灵活地获取丰富的运动信息；

3、本发明利用自适应的、动态的图结构和DMGNN，可以提取动作的高层语义信息，利用高层语义信息实现了动作的预测；

4、本发明在骨架动作预测任务中，获得了目前最低的预测误差，构建出的自适应的人体多尺度图符合人体在执行不同动作时的交互规律，对于提取信息的有效性具有较强的可解释性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明框架示意图；

图2为多尺度人体结构示意图；

图3为多尺度图计算单元(MGCU)示意图；

图4为单尺度图卷积运算块(SS-GCB)示意图；

图5为跨尺度融合运算块(CS-FB)示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，为本发明框架示意图，根据本发明提供的一种基于人体骨架数据动作预测模型，包括以下步骤：人体骨架动作数据收集步骤：利用动力学相机对人体主要关节点进行捕捉，或搜集网络上的公开数据集或在彩色的视频数据集上利用姿态估计工具提取人体的骨骼数据；人体多尺度图构建步骤：对获取到的人体骨架数据，构建多尺度的人体，并基于多尺度人体构建以不同身体部位为图节点，以部位之间关系为边的人体多尺度图；人体运动特征提取步骤：基于构建得到的人体多尺度图，引入由多尺度图卷积构成的深度网络模型中，提取多尺度人体骨架的丰富且综合动作语义信息；动作分析与预测步骤：利用高层语义信息，实现动作预测。

具体地，人体多尺度图构建步骤主要包括两点：对单个尺度的人体结构内部的空间关系构建和对不同尺度之间的相互作用关系推断。针对上述两点，本发明分别构建了单尺度人体子图和跨尺度人体子图用来描述相应的身体关系。本发明的输入数据是由诸多关节点构成的人体骨架。图2为多尺度人体结构示意图，对于这类关节尺度的人体结构，我们根据人体本身的自然结构和关节之间的耦合规律将一些局部关节的坐标以求平均的方式初步融合，例如，将“手指”和“手腕”的坐标平均为“手”，从而初始化为更加概括的人体尺度，该人体尺度下每一个身体部位的特征即为对应多个关节的空间坐标的平均值。由此，我们可以计算多种人体尺度，例如关节尺度、小范围身体部位尺度、大范围身体部位尺度……将人体不断地概括化，身体部位的数量也不断地减少。我们的模型可以同时利用多个身体尺度，提取丰富的动作信息，进行有效的未来动作预测。

首先考虑人体多尺度图构建过程中的单尺度人体结构内部的空间关系。对于第s个尺度的人体结构，我们可将该人体结构考虑为一个图，假设每个身体部位为图的节点，身体上任意两个部位之间的关系即为图的边。具体地，先以骨架结构建立图Gs(Vs,Es)，其中Vs为Ms个关节构成的节点集合，Es为图中所有边构成的集合。在模型训练的初始阶段，我们先根据人体的骨架结构对Gs的拓扑进行初始化，令Gs的初始化邻接矩阵为As∈{0,1}n×n，如果第i个部位与第j个部位在生物结构上有连接，如骨骼，则As的第i行第j列的元素为1，否则为0。在模型的训练过程中，邻接矩阵As的元素值可以被自适应地更新，任意两个身体部位之间均有可能具备不同程度的关联关系；此外，单尺度人体图会被用在DMGNN的多层神经网络模型的每一层，而神经网络中不同层次所携带的信息含义各有不同，则单尺度人体图可以根据特征的性质在不同层之间构建不同的拓扑结构，从而更灵活地表达不同层级人体各个部位之间的关联关系，提取更加细致且丰富的特征信息。

接下来考虑人体多尺度图构建过程中对不同尺度之间的相互作用关系推断。不同尺度之间也并非相互独立，某个尺度中的多个身体部位会以不同程度影响其他尺度中的身体部位。为了描述不同尺度下各个身体部位之间的相互作用，我们建立了一种跨尺度人体子图，该跨尺度人体子图是一个二分图(Bipartite graph)，其节点是两个不同尺度的人体中的身体部位，边是两个尺度的人体部位之间可能存在的连接关系；另一方面，该跨尺度人体子图是由输入的人体运动数据本身推断得到的，换言之，不同的输入数据将推断出不同的跨尺度人体图，从而该图可以描述不同运动模式的特异性。

接下来介绍跨尺度人体子图的推断过程。跨尺度人体子图主要通过将不同尺度的身体部位的特征进行进一步映射，计算映射后的特征表达间的距离，距离越小则关联关系越大，距离越大则关联关系越小；在身体部位的特征映射过程中，模型汇聚全身更多的信息来丰富每个身体部位本身的信息，目的是让每个身体部位对全身所有部位的特征表达有所了解和把握。具体地，假设两个不同尺度的人体分别为s1和s2，它们分别由Ms1和Ms2个身体部位构成，假设s1的第i个身体部位的特征表达为ps1,i，s2的第k个身体部位的特征表达为ps2,k，跨尺度人体子图的邻接矩阵的推断过程为：

h_s1,i＝g_s1([p_s1,i,r_s1,i])

h_s2,k＝g_s2([p_s2,k,r_s2,k])

其中，f_s1(·)，表示对s1尺度下各个身体部位相对信息的聚合运算，由可训练的多层感知机神经网络(Multi-layer perceptron)构成；

g_s1(·)，表示对s1尺度下各个身体部位特征的更新操作，有可训练的由可训练的多层感知机神经网络构成；

f_s2(·)，表示对s2尺度下各个身体部位相对信息的聚合运算，由可训练的多层感知机神经网络构成；

g_s2(·)，表示对s2尺度下各个身体部位特征的更新操作，有可训练的由可训练的多层感知机神经网络构成；

softmax(·)表示沿着内积矩阵行方向的softmax运算，具体形式如下文所示；

[·,·]表示向量拼接操作。

在跨尺度人体子图的推断和计算过程中，第一个和第三个公式用于聚合全身所有的身体部位的相对特征至s1和s2中的第i和第k个部位；接下来再分别利用第三和第四个公式更新s1和s2中的第i和第k个部位的特征；最终，可用第五个公式来计算两个尺度的特征内积，并引入一个沿矩阵的行方向计算的softmax操作，第五个公式亦可写作：

其中，e表示自然对数的底。

由此，对任意一个属于s2的身体部位而言，其受到来自s1中所有身体部位信息的影响权重值被归一化在0到1之间，且更重要的影响关系被softmax中的指数运算放大。上述跨尺度人体子图推断过程背后的依据是利用了全局的相对信息来丰富每个身体部位的特征，并且我们计算来自两个尺度的丰富信息的内积来得到自图中每个边的权重。

该跨尺度人体子图的建立和推断过程需要一些可训练的网络进行计算，这些网络可以在模型整体的训练过程中被端到端地训练。此外，我们在模型的不同网络层均引入跨尺度人体子图推断，可基于不同层级的特征信息计算不同含义的跨尺度人体子图，从而能够更加灵活有效地建立丰富的跨尺度连接关系。

得到由单尺度人体子图和跨尺度人体子图构成的人体多尺度图后，本发明利用上述图结构提取人体运动的深层特征。人体运动特征的提取步骤主要包括两点：单尺度人体的空间-时间特征提取和跨尺度人体特征融合。为了解决上述两个问题，我们构建了模型中的基本运算单元，称为多尺度图计算单元(Multiscale graph computational unit，简称MGCU)。图3为多尺度图计算单元(MGCU)示意图，MGCU包含了两步运算操作，即单尺度图卷积运算块(Single-scale graph convolution block，简称SS-GCB)和跨尺度融合运算块(Cross-scale fusion block，简称CS-FB)。MGCU的具体运算过程如下所述。

对于上述MGCU中单尺度图卷积运算块(SS-GCB)，我们可以将其进一步划分为两个步骤：单帧人体的空间图卷积核和相邻多帧的时间卷积，分别用于单尺度人体的空间特征提取和序列化运动过程的时间特征提取。其中单帧人体的空间图卷积考虑了单个尺度的人体结构及其内部的空间关系，利用图卷积的方法提取人体各部位的空间特征；相邻多帧的时间卷积考虑相邻多帧的人体姿态的变化过程，并利用沿着时间轴的卷积运算提取运动过程中的时序特征。具体地，假设对于第s个人体尺度，某一动作在某一时刻的姿态特征为Xs，SS-GCB中的空间图卷积可以表示为：

X_s,sp＝ReLU(A_sX_sW_s+X_sU_s)

其中，

W_s表示在聚合邻居身体部位的特征时所用的权重值，该权重值可端到端地在模型训练过程中被更新；

U_s表示对每个身体部位本身在执行特征更新时所用的权重值，该权重值可端到端地在模型训练过程中被更新；

A_s为尺度为s的单尺度人体子图的邻接矩阵，其元素值在模型训练过程中被自适应地调整，且在不同的MGCU或SS-GCB中，其元素值不同，体现身体内部结构在不同等级特征表达下的动态性；

ReLU表示非线性激活函数：整流线性单元(Rectified linear unit，简称ReLU)，其表达式为ReLU(x)＝max(x,0)，其中max(·)表示取输入值的最大值。

由此可知，我们利用公式中AsXsWs这一项来聚集每一身体部位周围各处邻居节点的特征，其中A_s是自适应、可训练的、动态的，并在任意两个身体部位之间均构建了不同程度的联系。通过将AsXsWs与XsUs进行求和，把聚集得到的邻居信息传递给对应的身体部位并更新该部位的特征表达。再经过激活函数对其进行激励，获得正向的响应。

为了获得人体动作随时间变化的信息，需考虑视频的帧与帧之间的关系。对此，本发明引入时间卷积运算，即沿着时间轴对每个身体部位的特征进行卷积运算来提取动作的时变特征。沿着时间轴的卷积操作对不同的身体部位是共享权重的，以减少模型复杂度并增强特征提取运算的一致性。综上，将空间中的图卷积运算与沿着时间轴卷积运算前后拼接可构成一个SS-GCB操作，图4为单尺度图卷积运算块(SS-GCB)示意图，其中空间中的图卷积利用身体部位之间的相关性提取空间特征，时间卷积则利用人体运动的连续性提取时间特征。

接下来，对于跨尺度融合运算块(CS-FB)，图5为跨尺度融合运算块(CS-FB)示意图，模型利用了跨尺度图将不同尺度的人体特征进行转化和融合。其中，跨尺度图是根据人体运动信息推断得到的，表达了不同尺度的人体各部位之间的关联关系。对于两个不同尺度的人体s1和s2，假设其身体各部位的特征表达分别为Xs1和Xs2，将人体结构s1的尺度通过推断得到的跨尺度人体图转换并映射到s2的CS-FB融合过程可以表示为：

X_s2←A_s1s2X_s1W_F,s1+X_s2

其中，

A_s1s2表示由跨尺度人体子图推断过程推断得到的由s1指向s2的影响关系。

W_F,s1表示将X_s1进行转化时的权重矩阵。

由此，第一项A_s1s2X_s1W_F,s1表示将s1中各个身体部位的特征通过推断得到的跨尺度人体子图进行聚合，再将其与尺度s2中的身体部位特征Xs2进行相加，从而融合并更新X_s2。由此，s2中的每一个身体部位可以自适应地吸收来自s1的特征信息。反之，我们也定义了由s2向s1的特征转化和融合过程。通过CS-FB得到的融合后的特征表达被输入至网络中的下一层单尺度图卷积运算块(SS-GCB)来提取更高层次的特征。综上，对于多个不同尺度的人体，将对应的SS-GCB与不同尺度之间的CS-FB拼接即可构成模型中的最基本的多尺度图运算单元(MGCU)；需要强调的是，每一个MGCU中所使用的人体多尺度图(包含单尺度人体子图和跨尺度人体子图)均为自适应的且可训练的；由于处理不同层级的信息，不同MGCU所使用的的人体多尺度图是动态的，良好地适应于各自的的信息层级，灵活地提取更有效的运动信息。

基于上述基本运算单元MGCU，本发明构建了整体的模型，称为动态多尺度图神经网络。该模型包含一个用于提取人体动作深层语义特征的编码器和一个用于生成未来人体姿态的解码器，分别用于人体动作的高层特征提取和预测。

对于编码器部分，多个MSGU被串行地连接起来，MSCU含有自适应的、动态的人体多尺度图。基于多层串联的MSCU，编码器可以对输入数据进行有效地特征提取和模式捕获，从而作为生成未来动作的起始状态，输入至解码器。

为了实现对未来人体骨架动作序列的准确且合理的预测，动态多尺度图神经网络模型构建了一个解码器：将编码器的输出特征作为未来动作序列的初始运动状态，解码器可以迭代式地生成未来动作。所述解码器的核心组成为基于图的门限循环单元(Graph-based gated recurrent unit，简称G-GRU)，可进一步通过一个自适应地学习和构建出的图来传播人体动作状态特征，并有效地回归未来的动作序列。假设：在t时刻，人体运动序列中每一个关节点的持续运动状态信息为H(t)，当下时刻的人体中每一个关节点的位置为X(t)，一个可训练的各人体关节点之间的图的邻接矩阵为AH，则G-GRU的运算过程可以表示为：

r^(t)＝σ(r_in(X^(t))+r_hid(A_HH^(t)W_H))

u^(t)＝σ(u_in(X^(t))+u_hid(A_HH^(t)W_H))

c^(t)＝tanh(c_in(X^(t))+r^(t)c_hid(A_HH^(t)W_H))

H^(t+1)＝u^(t)H^(t)+(1-u^(t))c^(t)

其中，

WH表示G-GRU中图卷积运算中可以被训练的权重；

⊙表示两个向量各元素之间的相乘；

tanh(·)表示双曲正切激活函数。

每一个G-GRU均使用了一个在隐藏状态上的图卷积运算，来促进信息的传播并未下一帧提供运动状态。

基于核心运算单元，基于图的门限循环单元(G-GRU)，解码器可迭代式地一步一步生成未来的人体姿态，并且其由两步运算构成：G-GRU可对隐含的运动状态进行处理，输出函数可基于更新后的运动状态输出未来人体姿态。假设，在t时刻，人体各个关节位置的估计值为

运动序列的隐含运动状态为H(t)，则解码器可以表示为：

其中，

G-GRU(·,·)为基于图的门限循环单元G-GRU；

f_pred(·)为为用于预测的输出函数。

由公式可知，f_pred(·)实际上是预测了在时刻t+1的人体姿态与时刻t的人体姿态之间的差距，将其与

相加，即可获得t+1时刻的人体姿态估计值。引入这种一致性连接可以更有效地挖掘人体运动过程中的变化规律并获得更稳定的预测结果。

最终，对所提出的DMGNN模型进行优化。本发明的目的是输入一段时间人体运动的观测序列，在动作高层语义特征的基础上，生成准确的、合理的一段未来运动序列，故模型训练时的损失函数(或目标函数)为生成序列与真实目标序列之间的距离。通过优化模型中的参数，使得损失函数在一定程度上减小，则可以获得更有效的未来动作预测性能。假设训练集中共有N个序列样本，第n个真实的长度为T的未来动作序列为(X1:T)n，其中1:T表示未来动作序列的帧数编号为1到T，第n个由DMGNN生成的未来动作序列估计值为

则模型的损失函数可以表示为：

其中，

||·||1表示L1范数。

由此，每个关节在空间和时间上的每个维度均被用于计算L1距离，通过最小化生成序列与真实序列之间的L1距离，可以有效地训练模型，使之生成与真实运动尽可能接近的人体动作序列。

在模型的训练过程中，我们采用随机梯度下降的方式对模型参数进行优化和调整。在每次梯度下降时，我们取32个动作序列作为训练样本。在梯度下降算法计算梯度时，我们将模型中所有参数的梯度的L2范数值的最大值限制为1，使得任何参数的梯度不会过大。我们使用Adam优化器对模型进行训练，并且设置梯度下降率(即模型的学习率)为0.0001，每经过2000次迭代，学习率降为之前的0.98。

综上，可以训练出完整AS-GCN模型，并实现人体骨架动作的识别和预测。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种面向人体骨架的运动预测方法，其特征在于，包括：

数据获取步骤：获取人体骨架数据；

动作分析与预测步骤：根据综合动作语义信息，实现动作预测；

所述数据获取步骤包括：获取学界公开的人体骨架数据集，或根据深度相机获取人体骨架运动数据；

所述人体多尺度图包括：单尺度人体子图和跨尺度人体子图；

所述单尺度人体子图包括：第s个尺度的人体对应的单尺度人体子图包括M_s个节点和多条边，邻接矩阵表示为A_s，A_s进行自适应，在模型的训练过程中被自动调整；

所述跨尺度人体子图包括：邻接矩阵表示为A_ss，两个不同尺度的人体分别为s1和s2，分别由M_s1和M_s2个身体部位构成，s1的第i个身体部位的特征表达为p_s1,i，s2的第k个身体部位的特征表达为p_s2,k，跨尺度人体子图的邻接矩阵的推断过程为：

h_s1,i＝g_s1([p_s1,i,r_s1,i])

h_s2,k＝g_s2([p_s2,k,r_s2,k])

其中，

f_s1(·)表示对s1尺度下各个身体部位相对信息的聚合运算；

g_s1(·)表示对s1尺度下各个身体部位特征的更新操作；

f_s2(·)表示对s2尺度下各个身体部位相对信息的聚合运算；

g_s2(·)表示对s2尺度下各个身体部位特征的更新操作；

softmax(·)表示沿着内积矩阵行方向的softmax运算；

[·,·]表示向量拼接操作；

表示特征向量h_s2,k的转置；

(A_s1s2)_ki表示s1的第i个关节对s2的第k个关节的影响力权重；

j表示第j个关节的编号；

将跨尺度人体子图的邻接矩阵转化为：

其中，e表示自然对数的底；

2.根据权利要求1所述的面向人体骨架的运动预测方法，其特征在于，所述人体运动特征提取步骤包括：根据人体多尺度图，构成模型的单个运算单元，成为多尺度图运算单元MGCU；

3.根据权利要求2所述的面向人体骨架的运动预测方法，其特征在于，所述单尺度图卷积运算块SS-GCB包括：单帧人体的空间图卷积核和相邻多帧的时间卷积，人体尺度s的姿态特征为X_s，SS-GCB中的空间图卷积表示为：

X_s,sp＝ReLU(A_sX_sW_s+X_sU_s)

其中，

W_s表示在聚合邻居身体部位的特征时所用的权重值；

A_s为尺度为s的单尺度人体子图的邻接矩阵；

ReLU表示非线性激活函数：整流线性单元ReLU，其表达式为：

ReLU(x)＝max(x,0)；

max(·)表示取输入值的最大值。

4.根据权利要求2所述的面向人体骨架的运动预测方法，其特征在于，所述跨尺度融合运算块CS-FB包括：将不同尺度的人体特征进行转化和融合，对于两个不同尺度的人体s1和s2，身体各部位的特征表达分别为Xs1和Xs2，将人体结构s1的尺度通过推断得到的跨尺度人体图转换并映射到s2的CS-FB融合过程表示为：

X_s2←A_s1s2X_s1W_F,s1+X_s2

其中，

W_F,s1表示将X_s1进行转化时的权重矩阵；

5.根据权利要求1所述的面向人体骨架的运动预测方法，其特征在于，所述动作分析与预测步骤包括：所述深度模型包括提取人体动作深层语义特征的编码器和生成未来人体姿态的解码器，分别进行人体动作的分析和预测；

r^(t)＝σ(r_in(X^(t))+r_hid(A_HH^(t)W_H))

u^(t)＝σ(u_in(X^(t))+u_hid(A_HH^(t)W_H))

c^(t)＝tanh(c_in(X^(t))+r^(t)c_hid(A_HH^(t)W_H))

H^(t+1)＝u^(t)H^(t)+(1-u^(t))c^(t)

其中，

W_H表示G-GRU中图卷积运算中可以被训练的权重；

σ表示sigmoid激活函数；

tanh(·)表示双曲正切激活函数；