CN114663593B

CN114663593B - 三维人体姿态估计方法、装置、设备及存储介质

Info

Publication number: CN114663593B
Application number: CN202210306937.6A
Authority: CN
Inventors: 刘连臣; 桑金楠
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2023-04-07
Anticipated expiration: 2042-03-25
Also published as: CN114663593A

Abstract

本申请涉及人工智能技术领域，特别涉及一种三维人体姿态估计方法、装置、设备及存储介质，其中，方法包括：采集目标人体的图片或视频帧；将目标人体的图片或视频帧输入至预设的三维人体姿态估计模型中，得到目标人体的三维人体姿态估计结果，其中，预设的三维人体姿态估计模型基于参考人体的目标关键点对语义图卷积神经网络训练得到；基于三维人体姿态估计结果识别目标人体的实际运动状态。由此，解决了相关技术中三维人体姿态估计的实时性较差，应用效果不佳等问题。

Description

三维人体姿态估计方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种三维人体姿态估计方法、装置、设备及存储介质。

背景技术

三维人体姿态估计通过对图片、视频流等进行对象信息提取与分析，来预测出人体关节点在给定的世界坐标系下的三维坐标信息。三维人体姿态估计有助于分析画面中人体的运动状态，对行人运动趋势的预测和突发危险事件的检测等应用具有重要意义。

随着深度学习理论与技术的快速发展，在三维人体姿态估计领域也得到了越来越多的关注与应用。基于深度学习的三维人体姿态估计主要有两种框架，一是端到端的框架，一是两阶段方法。其中，两阶段方法先从像素信息回归提取出人体关节点在像素坐标系下的二维坐标信息，然后根据提取好的二维坐标信息，再将关节点的二维坐标升维至三维。两阶段方法相比端到端的方法，能够将问题有效分解而提供了更明确的监督策略，具有更鲁棒的结果，是较为普遍适用的方法。

然而，三维人体姿态估计的应用场景中往往需要很强的实时性，虽然两阶段方法的二维信息提取回归阶段已经有了相当成熟高效的技术，但是基于深度学习的升维阶段由于具有训练数据集大、参数多、收敛速度慢等问题，影响了该方法的应用效果。

发明内容

本申请提供一种三维人体姿态估计方法、装置、电子设备及存储介质，以解决相关技术中三维人体姿态估计的实时性较差，应用效果不佳等问题。

本申请第一方面实施例提供一种三维人体姿态估计方法，包括以下步骤：采集目标人体的图片或视频帧；将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型中，得到所述目标人体的三维人体姿态估计结果，其中，所述预设的三维人体姿态估计模型基于参考人体的目标关键点对语义图卷积神经网络训练得到；基于所述三维人体姿态估计结果识别所述目标人体的实际运动状态。

进一步地，在将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型之前，还包括：采集参考人体的图片或视频帧；识别所述参考人体的图片或视频帧，并基于识别得到所述参考人体的目标关键点至少一个目标关键点建立训练数据集，利用所述训练数据集中的部分数据建立带有约束的邻接矩阵；初始化语义图卷积神经网络，根据所述带有约束的邻接矩阵和训练数据集的全部数据训练所述语义图卷积神经网络，得到所述三维人体姿态估计模型。

进一步地，所述基于识别得到至少一个目标关键点建立训练数据集，包括：标定每个目标关键点的二维像素空间坐标；基于所有目标关键点的二维像素空间坐标构建所述训练数据集。

进一步地，所述利用所述训练数据集中的部分数据建立带有约束的邻接矩阵，包括：将所述训练数据集划分为训练集和测试集；分别从所述训练集和所述测试集中随机抽取相同比率的数据，并利用所述训练集和所述测试集抽取的数据构建参数选取样本空间；获取目标关键点之间的约束关系，根据所述约束关系从所述参数选取样本空间中选取多组变换参数组合，并计算每组所述变换参数组合的平均绝对误差；将所述平均绝对误差最小的变换参数组合作为所述邻接矩阵的变换参数，根据所述邻接矩阵的变换参数计算并固化所述带有约束的邻接矩阵。

进一步地，所述带有约束的邻接矩阵为：

其中，

为带有约束的邻接矩阵，A为原始邻接矩阵，I为单位矩阵，a₀、a₁、a₂为所述邻接矩阵的变换参数。

可选地，所述目标关键点包括鼻子、颈部、右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝和左踝中的一个或多个关键点。

本申请第二方面实施例提供一种三维人体姿态估计装置，包括：采集模块，用于采集目标人体的图片或视频帧；估计模块，用于将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型中，得到所述目标人体的三维人体姿态估计结果，其中，所述预设的三维人体姿态估计模型基于参考人体的目标关键点对语义图卷积神经网络训练得到；识别模块，用于基于所述三维人体姿态估计结果识别所述目标人体的实际运动状态。

进一步地，还包括：训练模块，用于在将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型之前，采集参考人体的图片或体视频帧；识别所述参考人体的图片或体视频帧，并基于识别得到所述参考人体的至少一个目标关键点建立训练数据集，利用所述训练数据集中的部分数据建立带有约束的邻接矩阵；初始化语义图卷积神经网络，根据所述带有约束的邻接矩阵和训练数据集的全部数据训练所述语义图卷积神经网络，得到所述三维人体姿态估计模型。

进一步地，所述训练模块进一步用于标定每个目标关键点的二维像素空间坐标；基于所有目标关键点的二维像素空间坐标构建所述训练数据集。

进一步地，所述训练模块进一步用于将所述训练数据集划分为训练集和测试集；分别从所述训练集和所述测试集中随机抽取相同比率的数据，并利用所述训练集和所述测试集抽取的数据构建参数选取样本空间；获取目标关键点之间的约束关系，根据所述约束关系从所述参数选取样本空间中选取多组变换参数组合，并计算每组所述变换参数组合的平均绝对误差；将所述平均绝对误差最小的变换参数组合作为所述邻接矩阵的变换参数，根据所述邻接矩阵的变换参数计算并固化所述带有约束的邻接矩阵。

进一步地，所述带有约束的邻接矩阵为：

其中，

进一步地，所述目标关键点包括鼻子、颈部、右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝和左踝中的一个或多个关键点。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的三维人体姿态估计方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的三维人体姿态估计方法。

由此，本申请至少具有如下有益效果：

利用在图片或者视频流中提取出的人体关键点在二维像素空间中的坐标信息，通过建立和训练神经网络预测模型实现三维人体姿态估计，从而可以降低人体二维像素信息的数据量，并能加快三维人体姿态估计模型的训练收敛速度并提升回归效果，提升三维人体姿态估计的实时性和应用效果。由此，解决了相关技术中三维人体姿态估计的实时性较差，应用效果不佳等技术问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的三维人体姿态估计方法的流程图；

图2为根据本申请实施例提供的人体关键点的示意图；

图3为根据本申请实施例提供的三维人体姿态估计方法的流程图；

图4为根据本申请实施例提供的三维人体姿态估计装置的方框图；

图5为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

基于背景技术的问题，如何针对两阶段方法的升维阶段定义合理的人体关键点、改进邻接矩阵、优化模型训练步骤，对于减少该类方法的参数量，提高训练收敛速度，增强该方法的实用性具有重要意义。

为此，本申请实施例一种三维人体姿态估计方法、装置、电子设备及存储介质，下面参考附图进行描述。

具体而言，图1为本申请实施例所提供的一种三维人体姿态估计方法的流程示意图。

如图1所示，该三维人体姿态估计方法包括以下步骤：

在步骤S101中，采集目标人体的图片或视频帧。

在步骤S102中，将目标人体的图片或视频帧输入至预设的三维人体姿态估计模型中，得到目标人体的三维人体姿态估计结果，其中，预设的三维人体姿态估计模型基于参考人体的目标关键点对语义图卷积神经网络训练得到。

可以理解的是，本申请实施例可以利用预设的三维人体姿态估计模型对图片、视频流等进行对象信息提取与分析，来预测出人体关节点在给定的世界坐标系下的三维坐标信息，提升三维人体姿态估计的实时性和应用效果。

在步骤S103中，基于三维人体姿态估计结果识别目标人体的实际运动状态。

可以理解的是，本申请实施例可以基于三维人体姿态估计结果分析画面中人体的运动状态，对行人运动趋势的预测和突发危险事件的检测等应用具有重要意义。

在本申请实施例中，在将目标人体的图片或视频帧输入至预设的三维人体姿态估计模型之前，还包括：采集参考人体的图片或视频帧；识别参考人体的图片或视频帧，并基于识别得到参考人体的目标关键点至少一个目标关键点建立训练数据集，利用训练数据集中的部分数据建立带有约束的邻接矩阵；初始化语义图卷积神经网络，根据带有约束的邻接矩阵和训练数据集的全部数据训练语义图卷积神经网络，得到三维人体姿态估计模型。

可以理解的是，本申请实施例首先基于对人体关键点的定义和标记出的关键点在二维像素空间中的坐标值，建立训练数据集；然后利用部分训练数据，选取人体模型邻接矩阵变换参数并建立带有约束的邻接矩阵；最后以带有约束的邻接矩阵为基础，采用全部训练数据集对人体三维姿态估计模型进行训练。由此，可降低人体二维像素信息的数据量，并能加快三维人体姿态估计模型的训练收敛速度并提升回归效果。

下面将对面向三维人体姿态估计的人体关键点定义与模型训练的过程进行进一步阐述，具体如下：

在本申请实施例中，基于识别得到至少一个目标关键点建立训练数据集，包括：标定每个目标关键点的二维像素空间坐标；基于所有目标关键点的二维像素空间坐标构建训练数据集。

可以理解的是，本申请实施例可以基于人体关键点定义和二维像素空间坐标值提取与标记，建立训练数据集。

其中，如图2所示，基于人体关键点定义和二维像素空间坐标值提取与标记，建立训练数据集，包含以下四个阶段：

(1)人体关键点定义：对人体三维姿态进行估计，需要提取并记录人体模型关键点在每幅图像或者每个视频帧中的二维像素空间坐标位置。对于一个人体模型描述来说，本申请实施例定义十四个人体关键点，如图3所示，包括：鼻子、颈部、右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝、左踝。其中，每个人体关键点的二维像素空间坐标，用其在图像中的二维像素记录。

(2)人体关键点二维像素空间坐标的提取：从原始的图像或者视频流中，提取上述定义的人体关键点二维坐标信息。一般地，可以采用图像分割、图像检测的方法如DeepPose、OpenPose等工具，完成人体骨架关节点在二维像素空间中坐标值的提取。

(3)数据集的构建：使用两个已经标定好的单目摄像头采集以人典型动作为主题的视频流进行数据集构建。具体方法为：同一时刻下，两个单目摄像头各拍摄一张图片，将图片中的人实体与其关键点在两个单目摄像头的像素空间中提取出来，并分别进行标注；然后将0号摄像头的标注结果作为人体关键点的二维坐标信息，将1号摄像头所在的物体坐标系作为世界坐标系，将两个像素空间中的二维坐标通过相机外参在三维世界坐标系空间中进行标定，其结果作为人体关键点的对应的三维坐标信息。

需要说明的是，0号摄像头得到关键点的二维坐标信息，0号和1号两个摄像头共同得到关键点得三维坐标信息，从而可以构建二维到三维之间的映射关系作为数据集，可以提供给模型训练使用。模型训练完成后的进行使用时，只需要0号摄像头即可，只要看到平面的像素空间，根据经验来判断其可能的运动姿态。

(4)数据集的划分：全部数据按照一定比例(如选择15:1)划分为训练集和测试集，用于后续人体三维姿态估计神经网络模型的训练。

在本申请实施例中，利用训练数据集中的部分数据建立带有约束的邻接矩阵，包括：将训练数据集划分为训练集和测试集；分别从训练集和测试集中随机抽取相同比率的数据，并利用训练集和测试集抽取的数据构建参数选取样本空间；获取目标关键点之间的约束关系，根据约束关系从参数选取样本空间中选取多组变换参数组合，并计算每组变换参数组合的平均绝对误差；将平均绝对误差最小的变换参数组合作为邻接矩阵的变换参数，根据邻接矩阵的变换参数计算并固化带有约束的邻接矩阵。

可以理解的是，本申请实施例可以选取人体模型邻接矩阵变换参数，建立带有约束的邻接矩阵，如图2所示，具体如下：

(1)参数选取样本空间的构建：按照相同的比率(如15％)，分别从上述划分的训练集和测试集中随机抽取部分数据，构建人体模型邻接矩阵变换参数选取的训练样本和测试样本。

(2)带有约束邻接矩阵的定义：根据二阶段法升维阶段的语义图卷积神经网络预测模型的训练要求，需要输入表示图的邻接矩阵A来进行参数矩阵M的学习。本申请实施例考虑到直接使用原始邻接矩阵A与参数矩阵M按元素作积，相当于认为初始时刻仅有骨骼直接相连的关键点之间存在约束关系进行学习，而在人体姿态关键点图数据结构中，需要考虑所有关键点之间的约束关系。

本申请实施例考虑如下的人体关键点之间的强约束：

以颈部为基准对躯干部分的强约束：鼻子、双髋、双肩；

以左肩为基准对左上肢部分的强约束：颈部、右肩、左肘、左腕；

以左髋为基准对左下肢部分的强约束：颈部、右髋、左膝、左踝；

以右肩为基准对右上肢部分的强约束：颈部、左肩、右肘、右腕；

以右髋为基准对右下肢部分的强约束：颈部、左髋、右膝、右踝。

从以上的关键点相关性的定义来看，所有的有强约束关系的节点之间均存在可以在两步之内互通的通路。定义带有约束的二阶邻接矩阵为：

其中，

为带有约束的邻接矩阵，A为原始邻接矩阵，I为单位矩阵，a₀、a₁、a₂为变换系数，一般的取0.8≤a₀≤0.9，0.9≤a₁≤1.1、a₂＝1-a₀。

(3)人体模型邻接矩阵变换参数的选取：

i、语义图卷积神经网络预测模型的输入：按照公式(1)定义和约束，选择不同的a₀、a₁、a₂参数组合，计算出带有约束的邻接矩阵

作为模型邻接矩阵的输入，在参数选取样本空间上进行模型训练。

ii、人体模型邻接矩阵变换参数选取：在参数选取样本空间下，使用MAE(MeanAbsolute Deviation，平均绝对误差)对三维人体姿态估计升维任务的在每组变换参数组合下的模型效果进行评测，并以最小MAE情况下的参数组合作为人体模型邻接矩阵变换参数选取的标准，确定a₀、a₁、a₂。

(4)带有约束邻接矩阵的固化：通过选取确定的a₀、a₁、a₂的参数组合，计算并固化带有约束的邻接矩阵

进一步而言，如图2所示，基于语义图卷积神经网络的人体三维姿态估计模型训练，包括以下步骤：

(1)使用上述固化的带有约束的邻接矩阵

代替原始邻接矩阵，采用全部的训练数据集作为训练样本输入，初始化基于语义图卷积神经网络。

(2)进行语义图卷积神经网络预测模型训练。

由此，根据如图2所示的步骤，即可完成面向三维人体姿态估计的语义图卷积神经网络预测模型的训练，得到预设的三维人体姿态估计模型。

根据本申请实施例提出的三维人体姿态估计方法，利用在图片或者视频流中提取出的人体关键点在二维像素空间中的坐标信息，通过建立和训练神经网络预测模型实现三维人体姿态估计，从而可以降低人体二维像素信息的数据量，并能加快三维人体姿态估计模型的训练收敛速度并提升回归效果，提升三维人体姿态估计的实时性和应用效果。

其次参照附图描述根据本申请实施例提出的三维人体姿态估计装置。

图4是本申请实施例的三维人体姿态估计装置的方框示意图。

如图4所示，该三维人体姿态估计装置10包括：采集模块100、估计模块200和识别模块300。

其中，采集模块100用于采集目标人体的图片或视频帧；估计模块200用于将目标人体的图片或视频帧输入至预设的三维人体姿态估计模型中，得到目标人体的三维人体姿态估计结果，其中，预设的三维人体姿态估计模型基于参考人体的目标关键点对语义图卷积神经网络训练得到；识别模块300用于基于三维人体姿态估计结果识别目标人体的实际运动状态。

在本申请实施例中，本申请实施例的装置10还包括：训练模块。其中，训练模块用于在将目标人体的图片或视频帧输入至预设的三维人体姿态估计模型之前，采集参考人体的图片或体视频帧；识别参考人体的图片或体视频帧，并基于识别得到参考人体的至少一个目标关键点建立训练数据集，利用训练数据集中的部分数据建立带有约束的邻接矩阵；初始化语义图卷积神经网络，根据带有约束的邻接矩阵和训练数据集的全部数据训练语义图卷积神经网络，得到三维人体姿态估计模型。

在本申请实施例中，训练模块进一步用于标定每个目标关键点的二维像素空间坐标；基于所有目标关键点的二维像素空间坐标构建训练数据集。

在本申请实施例中，训练模块进一步用于将训练数据集划分为训练集和测试集；分别从训练集和测试集中随机抽取相同比率的数据，并利用训练集和测试集抽取的数据构建参数选取样本空间；获取目标关键点之间的约束关系，根据约束关系从参数选取样本空间中选取多组变换参数组合，并计算每组变换参数组合的平均绝对误差；将平均绝对误差最小的变换参数组合作为邻接矩阵的变换参数，根据邻接矩阵的变换参数计算并固化带有约束的邻接矩阵。

在本申请实施例中，带有约束的邻接矩阵为：

其中，

为带有约束的邻接矩阵，A为原始邻接矩阵，I为单位矩阵，a₀、a₁、a₂为邻接矩阵的变换参数。

在本申请实施例中，目标关键点包括鼻子、颈部、右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝和左踝中的一个或多个关键点。

需要说明的是，前述对三维人体姿态估计方法实施例的解释说明也适用于该实施例的三维人体姿态估计装置，此处不再赘述。

根据本申请实施例提出的三维人体姿态估计装置，利用在图片或者视频流中提取出的人体关键点在二维像素空间中的坐标信息，通过建立和训练神经网络预测模型实现三维人体姿态估计，从而可以降低人体二维像素信息的数据量，并能加快三维人体姿态估计模型的训练收敛速度并提升回归效果，提升三维人体姿态估计的实时性和应用效果。

图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的三维人体姿态估计方法。

进一步地，电子设备还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的三维人体姿态估计方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

1.一种三维人体姿态估计方法，其特征在于，包括以下步骤：

采集目标人体的图片或视频帧；

将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型中，得到所述目标人体的三维人体姿态估计结果，其中，所述预设的三维人体姿态估计模型基于参考人体的目标关键点对语义图卷积神经网络训练得到；以及

基于所述三维人体姿态估计结果识别所述目标人体的实际运动状态；

在将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型之前，还包括：

采集参考人体的图片或视频帧；

识别所述参考人体的图片或视频帧，并基于识别得到所述参考人体的目标关键点至少一个目标关键点建立训练数据集，利用所述训练数据集中的部分数据建立带有约束的邻接矩阵；其中，所述利用所述训练数据集中的部分数据建立带有约束的邻接矩阵，包括：将所述训练数据集划分为训练集和测试集；分别从所述训练集和所述测试集中随机抽取相同比率的数据，并利用所述训练集和所述测试集抽取的数据构建参数选取样本空间；获取目标关键点之间的约束关系，根据所述约束关系从所述参数选取样本空间中选取多组变换参数组合，并计算每组所述变换参数组合的平均绝对误差；将所述平均绝对误差最小的变换参数组合作为所述邻接矩阵的变换参数，根据所述邻接矩阵的变换参数计算并固化所述带有约束的邻接矩阵；

初始化语义图卷积神经网络，根据所述带有约束的邻接矩阵和训练数据集的全部数据训练所述语义图卷积神经网络，得到所述三维人体姿态估计模型。

2.根据权利要求1所述的方法，其特征在于，所述基于识别得到至少一个目标关键点建立训练数据集，包括：

标定每个目标关键点的二维像素空间坐标；

基于所有目标关键点的二维像素空间坐标构建所述训练数据集。

3.根据权利要求1所述的方法，其特征在于，所述带有约束的邻接矩阵为：

其中，

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述目标关键点包括鼻子、颈部、右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝和左踝中的一个或多个关键点。

5.一种三维人体姿态估计装置，其特征在于，包括：

采集模块，用于采集目标人体的图片或视频帧；

估计模块，用于将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型中，得到所述目标人体的三维人体姿态估计结果，其中，所述预设的三维人体姿态估计模型基于参考人体的目标关键点对语义图卷积神经网络训练得到；以及

识别模块，用于基于所述三维人体姿态估计结果识别所述目标人体的实际运动状态；

训练模块，用于在将所述目标人体的图片或视频帧输入至预设的三维人体姿态估计模型之前，采集参考人体的图片或体视频帧；识别所述参考人体的图片或体视频帧，并基于识别得到所述参考人体的至少一个目标关键点建立训练数据集，利用所述训练数据集中的部分数据建立带有约束的邻接矩阵；初始化语义图卷积神经网络，根据所述带有约束的邻接矩阵和训练数据集的全部数据训练所述语义图卷积神经网络，得到所述三维人体姿态估计模型；

所述训练模块进一步用于将所述训练数据集划分为训练集和测试集；分别从所述训练集和所述测试集中随机抽取相同比率的数据，并利用所述训练集和所述测试集抽取的数据构建参数选取样本空间；获取目标关键点之间的约束关系，根据所述约束关系从所述参数选取样本空间中选取多组变换参数组合，并计算每组所述变换参数组合的平均绝对误差；将所述平均绝对误差最小的变换参数组合作为所述邻接矩阵的变换参数，根据所述邻接矩阵的变换参数计算并固化所述带有约束的邻接矩阵。

6.根据权利要求5所述的装置，其特征在于，所述训练模块进一步用于标定每个目标关键点的二维像素空间坐标；基于所有目标关键点的二维像素空间坐标构建所述训练数据集。

7.根据权利要求5所述的装置，其特征在于，所述带有约束的邻接矩阵为：

其中，

为带有约束的邻接矩阵，A为原始邻接矩阵，I为单位矩阵，a₀、a₁、a₂为所述邻接矩阵变换参数。

8.根据权利要求5-7任意一项所述的装置，其特征在于，所述目标关键点包括鼻子、颈部、右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝和左踝中的一个或多个关键点。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的三维人体姿态估计方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的三维人体姿态估计方法。