CN117475518B

CN117475518B - 一种同步人体运动识别与预测方法及系统

Info

Publication number: CN117475518B
Application number: CN202311811358.8A
Authority: CN
Inventors: 柳凌峰; 涂建锋; 臧拓; 段梦然
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-22
Anticipated expiration: 2043-12-27
Also published as: CN117475518A

Abstract

本发明公开了一种同步人体运动识别与预测方法及系统，涉及人体运动分析技术领域，该方法包括：基于OpenPose姿态估计算法获取用于运动识别与运动预测的骨骼序列数据；对骨骼序列数据进行空间建模与时间建模，输出时空特征；基于时空特征，构建运动识别任务与运动预测任务之间的双向信息传递机制；基于运动识别任务与运动预测任务，最小化运动识别中真实分类标签和推断标签之间的交叉熵，及运动预测中真实关节坐标和预测关节坐标之间的误差，并使用预设参数衡量两个任务的重要性，以实现对运动识别任务与运动预测任务的多目标优化。本发明通过获取更多对人体运动分析有效的运动特征并实现人体运动识别和预测任务的同步分析。

Description

一种同步人体运动识别与预测方法及系统

技术领域

本发明涉及人体运动分析技术领域，具体涉及一种同步人体运动识别与预测方法及系统。

背景技术

随着社会的发展，智能机器人，尤其是仿形机器人在当前扮演着越来越重要的角色，而对人体运动进行分析在机器人与外界接触和协作中具有重要而不可忽视的作用。

作为人体运动分析中的关键问题，人体动作识别的目标是对查询动作的类别进行准确分类，而人体运动预测是根据观察到的运动来进行未来人体运动的预测。其在人机交互、自动驾驶、智能安全等领域都被广泛应用，例如，在人机交互中，识别人类动作并预测未来人类运动有助于机器人迅速做出反应并提前计划适当的行动；通过识别和预测人体运动，机器人还可以提前预判人类的需求，为其提供更加个性化和高效的支持。

然而，大多数的人体运动识别和预测模型，通常采用图神经网络作为基本模块，通过时空分别建模来学习运动序列的时空依赖关系，这些方法固然已经取得了很大的进展，但是在这些先前的研究中，通常是单独研究这两项任务，未充分考虑它们之间的内在关联性；并且仅通过卷积神经网络并不能很好地学习运动过程中姿态间或关节间的相关性。

发明内容

针对现有技术的不足，本发明的目的在于提供一种同步人体运动识别与预测方法及系统，通过获取更多对人体运动分析有效的运动特征并实现人体运动识别和预测任务的同步分析。

本发明的第一方面在于提供一种同步人体运动识别与预测方法，所述方法包括：

基于OpenPose姿态估计算法获取用于运动识别与运动预测的骨骼序列数据；

构建时空特征提取器，通过所述时空特征提取器对所述骨骼序列数据进行空间建模与时间建模，输出用于运动识别与运动预测的时空特征；

基于所述时空特征，构建运动识别任务与运动预测任务之间的双向信息传递机制，以运动识别结果作为所述运动预测任务的先验知识，并将预测结果反馈至所述运动识别任务；

基于所述运动识别任务与所述运动预测任务，最小化运动识别中真实分类标签和推断标签之间的交叉熵，及运动预测中真实关节坐标和预测关节坐标之间的误差，并使用预设参数衡量两个任务的重要性，以实现对所述运动识别任务与所述运动预测任务的多目标优化；

其中，构建时空特征提取器，通过所述时空特征提取器对所述骨骼序列数据进行空间建模与时间建模，输出用于运动识别与运动预测的时空特征的步骤中，通过所述时空特征提取器对所述骨骼序列数据进行用于运动识别空间建模的步骤，包括：

根据所述骨骼序列数据，输入骨骼序列并沿时间维度进行全局池化处理，输出池化矩阵以用于导出用于计算注意力分数的查询和值；

将所述查询和值与计算得到的组合邻接矩阵进行相乘，得到骨骼序列的最终嵌入张量；

基于所述最终嵌入张量对所述骨骼序列数据进行空间建模。

其中，所述运动识别任务的损失函数为，所述运动预测任务的损失函数为，所述运动识别任务与所述运动预测任务的整体损失定义为：

；

其中，为权重参数，用于控制两个损失函数在最终计算总损失时的权重，以权衡两个任务的重要性，实现对所述运动识别任务与所述运动预测任务的多目标优化。

根据上述技术方案的一方面，基于OpenPose姿态估计算法获取用于运动识别与运动预测的骨骼序列数据的步骤，包括：

从包含人体运动的视频数据或图像数据中获取运动数据源；

对所述运动数据源进行分解，得到所述运动数据源的多个关键帧；

基于OpenPose姿态估计算法对所述关键帧进行特征提取，输出人体骨骼关节点和置信度分数；

对输出结果进行解析，提取所需的关节位置，并按照时间顺序对所述关节位置进行排序，以得到骨骼序列数据。

根据上述技术方案的一方面，通过所述时空特征提取器对所述骨骼序列数据进行空间建模时，结合图卷积网络与图注意力网络进行建模，图卷积网络的计算将对称归一化的思想应用到第层输入骨架特征/>的节点更新函数中，节点更新函数为：

式中，为添加自环的邻接矩阵，/>为/>的度矩阵，/>为激活函数，/>为权重，/>的每个条目都采用二进制形式来表示连通性。

根据上述技术方案的一方面，图注意力网络使用自注意力机制自适应地学习每对连接的节点来模拟每对人体关节之间的相互作用，第层输入骨架特征/>的更新函数公式为：

；

式中，为自注意力得分矩阵，/>为第/>层的特征信息，/>为更新的下一层特征信息，/>为权重。

根据上述技术方案的一方面，为从骨架图中提取特征，将图卷积网络和图注意力网络的邻接计算结合到一个更新函数中：

；

式中，为组合邻接矩阵，/>为第/>层的特征信息，/>为更新的下一层特征信息，/>为权重。

根据上述技术方案的一方面，基于所述运动识别任务与所述运动预测任务，最小化运动识别中真实分类标签和推断标签之间的交叉熵，及运动预测中真实关节坐标和预测关节坐标之间的误差，并使用预设参数衡量两个任务的重要性，以实现对所述运动识别任务与所述运动预测任务的多目标优化的步骤中：

为了识别动作，最小化真实分类标签和推断标签之间的交叉熵；

设第个样本的真实标签为/>相应的分类结果为/>，对于一个小批量中的/>个训练样本，动作识别损失公式为：

；

式中，为转置操作；

对于运动预测，使用平均每个关节位置误差进行训练，其中所述关节位置误差定义为：

；

式中,是第/>帧中预测的第/>个关节位置，/>是对应的基准真实值，/>为预测的帧数；

则最终的损失函数公式定义：

；

式中，权衡两个任务的重要性。

本发明的第二方面在于提供一种同步人体运动识别与预测系统，应用于上述技术方案当中所述的同步人体运动识别与预测方法，所述系统包括：

数据获取模块，用于基于OpenPose姿态估计算法获取用于运动识别与运动预测的骨骼序列数据；

特征输出模块，用于构建时空特征提取器，通过所述时空特征提取器对所述骨骼序列数据进行空间建模与时间建模，输出用于运动识别与运动预测的时空特征；

任务协同模块，用于基于所述时空特征，构建运动识别任务与运动预测任务之间的双向信息传递机制，以运动识别结果作为所述运动预测任务的先验知识，并将预测结果反馈至所述运动识别任务；

目标优化模块，用于基于所述运动识别任务与所述运动预测任务，最小化运动识别中真实分类标签和推断标签之间的交叉熵，及运动预测中真实关节坐标和预测关节坐标之间的误差，并使用预设参数衡量两个任务的重要性，以实现对所述运动识别任务与所述运动预测任务的多目标优化。

与现有技术相比，采用本发明所示的同步人体运动识别与预测方法及系统，有益效果在于：

运动识别与预测的多任务协同网络旨在提高运动分析的综合能力，其核心思想是通过将运动识别和运动预测两个任务有机地结合，从而实现更全面的人体运动数据分析。具体而言，首先通过时空特征提取器对运动识别与预测分别进行时空建模，深入捕捉运动数据的时间演变和空间依赖关系，从而更好地理解和表征运动行为。其次，在网络的中间层引入运动识别头和运动预测头，进行运动识别和预测阶段；并引入任务协同机制，通过对运动识别任务的准确分类可以获得丰富的运动类别信息，从而为运动预测任务提供更为精确的运动先验。这种先验信息能够在时空维度上指导运动预测的进行，使得预测结果更具可信度和可解释性。同时，运动识别任务也能从运动预测中受益，通过对预测结果的分析，进一步优化识别模型，提高识别准确率。

附图说明

本发明的上述与/或附加的方面与优点从结合下面附图对实施例的描述中将变得明显与容易理解，其中：

图1为本发明一实施例当中同步人体运动识别与预测方法的流程示意图；

图2为本发明一实施例当中同步人体运动识别与预测系统的结构框图。

具体实施方式

为使本发明的目的、特征与优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，本发明的第一实施例提供了一种同步人体运动识别与预测方法，所述方法包括步骤S10-S40：

步骤S10，基于OpenPose姿态估计算法获取用于运动识别与运动预测的骨骼序列数据。

在本实施例当中，选择了基于OpenPose姿态估计算法来获取骨骼序列数据，这一算法具有简单高效和稳定性良好的特点，为人体运动识别和预测研究提供了坚实基础。

首先，从包含人体运动的视频或图像序列数据中获取数据源。通过OpenPose姿态估计算法对这些数据源进行处理，该算法以一种自下而上的方式处理视频样本中的每一帧图像，从中提取人体骨骼关节点坐标和置信度分数。解析OpenPose姿态估计算法的输出，提取出所需的关节位置。通常关注人体四肢及脊柱等关键关节，即人体的25或18个身体关节点的三维骨骼坐标（x，y，z），这些关节的位置对于运动分析和预测至关重要，按照时间顺序整理这些关节位置，从而获得完整的骨骼序列数据，最后，将整理好的骨骼序列数据妥善存储在适当的数据结构中，以便随时访问和使用，为进一步的分析和模型训练做好充分准备。

步骤S20，构建时空特征提取器，通过所述时空特征提取器对所述骨骼序列数据进行空间建模与时间建模，输出用于运动识别与运动预测的时空特征。

在本实施例当中，首先是用于运动识别的时空注意力图卷积，包括：

(a)空间建模

人类动作可以表示为一系列骨架图。骨骼图是由一组/>个顶点（或节点）和这些顶点之间的一组边/>构造的有序对。从节点/>到节点/>的边记为/>。骨骼图可以通过对称邻接矩阵/>方便地表示。图卷积网络的计算将对称归一化的思想应用到第/>层输入骨架特征/>的节点更新函数中，如下所示：

；

式中，为添加自环的邻接矩阵，/>为/>的度矩阵，/>为激活函数，为权重，/>的每个条目都采用二进制形式来表示连通性，/>为第/>层的特征信息，/>为更新的下一层特征信息。

其中，图注意力网络通过使用自注意力机制自适应地学习每对连接的节点来模拟每对人体关节之间的相互作用。

其中，第层输入骨架特征/>的更新函数公式为：

；

其中，为了有效地从骨架图中提取特征，将图卷积网络和图注意力网络的邻接计算结合到一个更新函数中：

；

通过结合这两种方法，可以从两者中获益。具体而言，图卷积网络适合根据邻接矩阵中给定的有关人体动力学的先验知识捕获节点之间的空间依赖性，图注意力网络非常适合对视觉上不相关的人体关节之间的隐藏关联进行建模。首先，输入序列沿时间维度进行全局池化，池化矩阵用于导出用于计算注意力分数的查询和键，将该值与组合邻接矩阵相乘以获得骨架序列的最终嵌入张量。

(b)时间建模

为了捕获骨架序列内的远程依赖性，同样将多头自注意力应用于对骨架序列进行时间建模，来补充传统的局部提取方法。首先，每个序列在每个骨架图上进行空间池化，合并后数据就变成了经典的序列问题，与空间建模的唯一区别是没有与邻接矩阵的组合过程。通过使用自注意力，可以提取一层内的远程依赖关系，时间自注意力的目的是从骨架序列中找出最有益的帧。然而，注意力模块可能会将大量权重放在远程框架上，而不考虑局部邻域。为此，提出将自注意力机制与一维时间卷积相结合以相互补充，采用多尺度扩张卷积模块增加了感受野，同时保持计算数量不变，这样在自注意力收集远程依赖关系的同时，标准的一维时间卷积用来捕获更丰富的局部依赖关系。

其次是用于运动预测的运动注意力和正交图学习，包括：

(a)基于频谱增强的运动注意力驱动。

在运动过程中，关注运动序列中不同帧的同一关节点产生特定的运动轨迹。对运动轨迹进行频谱特征增强，具体来说，使用Haar小波变换的基函数来将运动轨迹分解成低频和高频成分，降低运动数据的非平稳性；其中低频信号可以反映运动的整体趋势和变化，而高频信号则更能捕捉运动的细节和局部变化，如肢体的微颤或突然的转向等，这有助于更准确地提取人体运动的特征。随后，进一步通过离散余弦变换（DCT）获得更紧凑的运动序列表示，进一步增强了对人体运动平滑性的捕捉能力。因此形式上，对于每个样本，可以通过以下过程获得其相应的频谱特征增强序列：

对于给定长度为的观察运动序列/>，先将其投影到运动轨迹空间中，用表示跨/>帧的第/>个关节的轨迹。

对每个关节的轨迹进行离散小波变换，得到变换后的权重系数：

；

其中，DWT为离散小波变换，对离散小波变换后的权重系数进行离散余弦变换。

在对离散小波变换后的权重系数进行离散余弦变换后，将得到变换后的系数：

；

其中，DCT为离散余弦变换，利用混合变换的系数对每个关节的时间信息进行建模，从而得到频谱特征增强后的序列。

对原始序列进行了频谱特征增强后，为更好地整合运动序列的历史信息，采用了掩码感知注意力驱动块来动态聚合历史信息。首先，利用上下文注意力块来放大与当前运动序列相关的全局上下文特征。利用过去的帧来预测未来的/>帧，将长度为/>的历史运动序列/>划分为/>个时间窗口，每个窗口包含/>个连续的姿态，表示为/>。在不同时间窗口中计算注意力分数，以获得不同时间尺度上之间的全局依赖关系。对于每个时间窗口，计算一个上下文注意力分数：

；

式中，为查询子序列，/>为键子序列的转置，/>。

然后，为了强调相邻姿态间的关联性，引入了掩码感知注意力块，一方面通过掩码限制当前姿态帧的注意力权重只能集中在当前姿态之前的元素上；另一方面，通过计算两个不同姿态之间的时间距离，动态控制每个姿态的注意力权重，使得模型能够更加关注与当前姿态相关且更重要的信息。

将每个掩码权重应用于原始的注意力机制中，对于每个时间窗口同样计算一个掩码注意力分数：

；

最后，将两个注意力块所得到的注意力分数融合，得到每个子序列在历史序列中的相对重要性权重：

；

从而得到所有时间窗口的加权和表示，即聚合了历史运动信息的辅助估计子序列：

。

(b)正交图学习

和人体运动识别类似，使用图卷积网络来学习运动的空间依赖关系，网络将频谱增强后的系数矩阵作为输入，给定这些信息和一组可训练的权重/>，图卷积网络图卷积网络输出一个矩阵形式：

；

其中，为邻接矩阵，/>为权重矩阵，/>为第/>层的特征，/>为第/>层的特征。

为了缓解预测任务中的过度平滑问题，引入正交特征变换方法来保证图卷积网络中特征变换的正交性，稳定图神经网络的前向和后向信号。通过给定初始化权重，采用额外的正交变换层对其进行变换，并在将其应用于特征变换之前提高正交性，最终得到权重/>应用于特征转换。让每个关节点的最终表示都包含输入特征/>的一部分，并将单位矩阵/>添加到权重矩阵中。

因此，正交图卷积网络（O图卷积网络）的第层工作原理如下：

；

其中，和/>均为超参数，/>为邻接矩阵，/>为正交权重矩阵/>中第/>层的特征，/>为第/>层的特征。

最后，通过混合图卷积和正交图卷积网络的残差图神经网络来学习运动姿态的空间依赖关系。

步骤S30，基于所述时空特征，构建运动识别任务与运动预测任务之间的双向信息传递机制，以运动识别结果作为所述运动预测任务的先验知识，并将预测结果反馈至所述运动识别任务；

将提取的时空特征输入到多任务协同模块。运动识别头和运动预测头得到识别和预测的初步结果后，通过协同器促进两个任务之间的有效信息交换。通过运动识别头获得了每个样本的类别预测结果,现在，希望将这些预测结果引入运动预测任务中，以提高预测精度。为此，引入一个映射函数/>，将运动识别结果映射为预测任务的先验信息。这个映射可以表示为：

；

这里，为预测任务的先验信息，它包含了来自运动识别任务的类别预测结果。

进一步，将这个先验信息与原始的时空特征进行结合，得到增强后的特征表示/>用于运动预测。这可以通过加权融合实现，其中权重/>可以表示为一个学习的参数矩阵，从而得到：

；

接下来，进行运动预测，将增强后的特征输入到运动预测器/>中，得到预测结果/>。

同理，通过协同机制得到进一步优化后的运动识别结果。通过这样的协同机制，实现了运动识别和运动预测两个任务之间的双向信息传递，运动识别结果作为预测任务的先验知识，有助于提高预测精度；同时，预测结果反馈给运动识别任务，有助于优化识别模型，提高准确率，这种协同机制能够更充分地利用任务间的相互关联，进一步提升多任务协同网络的性能。

步骤S40，基于所述运动识别任务与所述运动预测任务，最小化运动识别中真实分类标签和推断标签之间的交叉熵，及运动预测中真实关节坐标和预测关节坐标之间的误差，并使用预设参数衡量两个任务的重要性，以实现对所述运动识别任务与所述运动预测任务的多目标优化。

其中，所述运动识别任务的损失函数为，所述运动预测任务的损失函数为。

为了同时训练运动识别和运动预测，考虑了多目标方案。为了识别动作，最小化真实分类标签和推断标签之间的交叉熵。设第个样本的真实标签为/>相应的分类结果为/>。对于一个小批量中的/>个训练样本，动作识别损失公式为：

；

其中，表示转置操作。

对于运动预测，使用平均每个关节位置误差(MPJPE)来训练，其中MPJPE定义为：

；

其中，为关节总数，/>为第/>帧中预测的第/>个关节位置，/>为对应的基准真实值，/>为预测的帧数。

因此，所述运动识别任务与所述运动预测任务的整体损失函数公式定义为：

；

综上所述，本实施例提出了一种基于注意力驱动与图神经网络的运动识别与预测同步分析方法。将原始运动序列输入到时空特征提取器，分别进行适用于运动识别和运动预测的时空建模，提出用于运动识别时空注意力图卷积和用于运动预测的运动注意力和正交图学习，得到时空运动特征。设计了多任务协同模块，通过运动识别头和运动预测头进行识别和预测；引入任务协同机制，该机制充分利用了运动识别任务的结果作为预测的先验知识，同时也将预测结果反馈给运动识别任务，使得两个任务之间相互促进、协同合作。

实施例二

请参阅图2，本发明的第二实施例提供了一种同步人体运动识别与预测系统，应用于上述第一实施例当中所述的同步人体运动识别与预测方法，所述系统包括：

数据获取模块10，用于基于OpenPose姿态估计算法获取用于运动识别与运动预测的骨骼序列数据。

特征输出模块20，用于构建时空特征提取器，通过所述时空特征提取器对所述骨骼序列数据进行空间建模与时间建模，输出用于运动识别与运动预测的时空特征。

任务协同模块30，用于基于所述时空特征，构建运动识别任务与运动预测任务之间的双向信息传递机制，以运动识别结果作为所述运动预测任务的先验知识，并将预测结果反馈至所述运动识别任务。

目标优化模块40，用于基于所述运动识别任务与所述运动预测任务，最小化运动识别中真实分类标签和推断标签之间的交叉熵，及运动预测中真实关节坐标和预测关节坐标之间的误差，并使用预设参数衡量两个任务的重要性，以实现对所述运动识别任务与所述运动预测任务的多目标优化。

与现有技术相比，采用本实施例当中所示的同步人体运动识别与预测系统，有益效果在于：

实施例三

本发明的第三实施例提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述实施例当中所述方法的步骤。

实施例四

本发明的第四实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例当中所述方法的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体与详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形与改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种同步人体运动识别与预测方法，其特征在于，所述方法包括：

基于所述最终嵌入张量对所述骨骼序列数据进行空间建模；

；

其中，为权重参数，用于控制两个损失函数在最终计算总损失时的权重，以权衡两个任务的重要性，实现对所述运动识别任务与所述运动预测任务的多目标优化；

；

式中，为转置操作；

；

其中，通过所述时空特征提取器对所述骨骼序列数据进行空间建模时，结合图卷积网络与图注意力网络进行建模，图卷积网络的计算将对称归一化的思想应用到第层输入骨架特征/>的节点更新函数中，如下所示：

；

式中，为添加自环的邻接矩阵，/>为/>的度矩阵，/>为激活函数，/>为权重，/>的每个条目都采用二进制形式来表示连通性；

其中，图注意力网络使用自注意力机制自适应地学习每对连接的节点来模拟每对人体关节之间的相互作用，第层输入骨架特征/>的更新函数公式为：

；

式中，为自注意力得分矩阵，/>为第/>层的特征信息，/>为更新的下一层特征信息，/>为权重；

其中，为从骨架图中提取特征，将图卷积网络和图注意力网络的邻接计算结合到一个更新函数中：

；

式中，为组合邻接矩阵。

2.根据权利要求1所述的同步人体运动识别与预测方法，其特征在于，基于OpenPose姿态估计算法获取用于运动识别与运动预测的骨骼序列数据的步骤，包括：

从包含人体运动的视频数据或图像数据中获取运动数据源；

3.一种同步人体运动识别与预测系统，其特征在于，应用于权利要求1-2任一项所述的同步人体运动识别与预测方法，所述系统包括：