CN116030537B

CN116030537B - 基于多分支注意力图卷积的三维人体姿态估计方法

Info

Publication number: CN116030537B
Application number: CN202310307618.1A
Authority: CN
Inventors: 尹燕芳; 刘明; 朱其刚; 张帅帅
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-05-23
Anticipated expiration: 2043-03-28
Also published as: CN116030537A

Abstract

本发明属于人体姿态估计技术领域，具体公开了一种基于多分支注意力图卷积的三维人体姿态估计方法。本发明设计了针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献的基于多分支的多W核矩阵图卷积特征提取层，克服了W核矩阵共享的缺点，提高了图卷积的特征表达能力。本发明通过添加可学习的边注意力矩阵及全局权重矩阵，实现了对自身节点、相邻节点的特征以及全局特征的提取与聚合，克服了经典图卷积只能提取局部特征的缺点。本发明还通过将设计的多分支注意力图卷积操作层与全连接网络相结合，构建了三维人体姿态估计的回归模型，在大大减少模型参数量的前提下，实现了基于图卷积的单帧三维人体姿态的最佳估计精度。

Description

基于多分支注意力图卷积的三维人体姿态估计方法

技术领域

本发明涉及人体姿态估计技术领域，尤其涉及一种基于多分支注意力图卷积的三维人体姿态估计方法。

背景技术

视频监控技术和人工智能技术的发展对基于视频图像的人体三维姿态自动分析和识别技术提出了更多的实际应用需求。例如，在运动识别、虚拟现实、人机交互和机器人操作、特定场所、危险场所作业人员姿态识别中都具有重要应用。由于目前广泛采用的监控视频获取的都是单目二维平面图像。因此，研究实用的二维图像进行人体三维姿态估计方法是非常有必要。然而，使用单帧图像进行三维姿态估计比进行二维姿态估计要困难的多，因为这需要从模糊和有噪声的二维图像中估计每一个关节的完整三维位置，而且不同的三维姿态可能对应相同或相似的二维姿态。因此，从单帧二维图像中估计三维姿态极具挑战性。

目前，人体三维人姿态估计方法总体可分为两类，即一步姿态估计法和两步姿态估计法。其中，一步法是直接从二维图像中回归每个关节的三维位置，无需中间步骤；这类方法的共同优点是网络模型架构相对简单，但因为缺乏中间约束和图像三维姿态数据集，因此直接估计三维姿态会非常困难，而且需要昂贵的计算资源以及精细的超级参数调整。两步姿态估计法需要首先使用设计的二维关键点检测器来估计二维关节位置，然后学习从二维姿态直接回归出相应的三位姿态；此类方法中，有些在完成关键点检测后使用存储的二维-三维姿势库来检索和匹配，从而输出与二维姿势相对应的三维姿势，但是这些方法都是基于字典的学习，在训练和估计中都非常耗时，并且实时性较差。

人类的关节由骨骼连接且具有一定的图形结构。因此，有效利用这些空间先验知识，可以大大地提高三维姿态回归的准确性。曾经有人提出通过增加三维的身体部位长度约束，使用一个经过独立训练的网络来学习三维姿势的先验分布，减小三维姿态估计误差的方法；有的方法则使用关节连接结构定义了复合损失函数，用于二维和三维姿势估计的结构感知的回归；还有的方法将人体部分划分为不同等级的三个自由度，建立身体部位之间的双向依赖模型，通过它们相互监督，共同生成物理约束和合理的三维姿态估计。

一般来说，基于图卷积网络的方法由端到端学习驱动，因为它们同时考虑了图的结构和深度神经网络强大的特征提取能力，因此往往会获得更为准确的三维姿态估计结果。然而，图卷积网络普遍采用单一的共享转换矩阵提取所有关节点的特征而且主要关注局部信息，这在一定程度上大大限制了图卷积的特征提取能力，因此影响了估计精度。

专利文献1公开了一种基于图多层感知器的三维人体姿态估计方法及系统，该专利申请中因采用多个全连接层，导致了参数冗余及模型参数量的增加。

专利文献2公开了一种基于多级监督图卷积的三维人体姿态估计的方法，然而该专利申请针对的是利用图像序列而非单张图像进行三维人体姿态估计的方法。

专利文献3提出了通过构建语义图卷积层，学习图的边中隐含的噪声节点的语义关系，利用全局上下文层，捕获节点之间的全局和远程关系进行三维人体姿态估计方法。

然而，该专利申请的专利设计通过引入图的边注意力，但是它的语义图卷积没有全局特征提取的能力，从而利用额外的非局部层来捕获节点之间的全局关系。

参考文献

专利文献1 中国发明专利申请，公开号：CN115205896A，公开日：2022.10.18；

专利文献2 中国发明专利申请，公开号：CN114694261A，公开日：2022.07.01；

专利文献3 中国发明专利申请，公开号：CN112712019A，公开日：2021.04.27。

发明内容

本发明的目的在于提出一种基于多分支注意力图卷积的三维人体姿态估计方法，该方法采用多分支结构分别提取贡献给当前关节点、邻接关节点以及全局其他关节点的特征信息，并采用相应的注意力来分别关注这些特征，以提升图卷积的特征提取能力，同时结合全连接网络的特点，既能够大大减少模型的参数量，又能够提高模型的估计精度。

本发明为了实现上述目的，采用如下技术方案：

基于多分支注意力图卷积的三维人体姿态估计方法，包括如下步骤：

步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型，其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型；

二维人体姿态识别模型用于接收二维图像输入并输出二维图像中人体对应的二维姿态；

MulitBA_GCN三维人体姿态识别模型用于接收所述二维人体姿态识别模型预测得出的二维姿态数据，并将该二维姿态数据作为输入回归出人体的三维姿态数据；

MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层；

其中，输入层是由一个MulitBA_GConv块组成；

中间特征提取层是由多个残差模块依次串联组成，每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成；

输入特征在每个残差模块中的处理过程为：输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征；

每个所述MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成；

输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成；

每个MulitBA_GConv图卷积操作层均包括：

多分支特征提取层，针对节点对自身贡献，对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征，分别使用三个可学习的转换矩阵进行特征转换和提取；

局部边注意力实现层，通过添加一个可学习的边注意力矩阵作为每一个边的注意力，分别用于聚合来自于自身节点的特征以及相邻节点的特征；

全局注意力实现层，通过添加一个可学习的全局权重矩阵表示行归一化后的全局注意力，用于聚合全局特征；

以及特征融合层，利用注意力对采用多分支特征提取层提取到的特征分别进行关注和聚合，对聚合后的三种特征进行融合；

步骤2. 对搭建好的三维人体姿态估计模型进行训练；

步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计，得到估计结果。

本发明具有如下优点：

如上所述，本发明述及了一种基于多分支注意力图卷积的三维人体姿态估计方法。其中，本发明设计了针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献的基于多分支的多W核矩阵图卷积特征提取层，克服了W核矩阵共享的缺点，提高了图卷积的特征表达能力。另外，本发明通过添加可学习的边注意力矩阵及全局权重矩阵，实现了对自身节点、相邻节点的特征以及全局特征的提取与聚合，克服了经典图卷积只能提取局部特征的缺点。此外，本发明还通过将设计的基于多分支注意力图卷积操作层与全连接网络相结合，构建了三维人体姿态估计的回归模型，在大大减少模型参数量的前提下，实现了基于图卷积的单帧三维人体姿态的最佳估计精度。

附图说明

图1为本发明实施例中基于二维图像的三维人体姿态估计模型总体架构图。

图2为本发明实施例中搭建的人体图形模型示意图。

图3为本发明实施例中利用二维姿态进行三位姿态估计的模型架构图。

图4为本发明实施例中多分支注意力图卷积操作层MulitBA_GConv的架构示意图。

具体实施方式

本发明的基本思想为：考虑到人体的姿态是多个关节协调的结果这一事实，针对采用图卷积操作主要关注局部信息的缺点，以及图卷积操作中共享转换矩阵导致表达能力不够丰富的特点，本发明提出并设计了一种改进的图卷积操作层，即多分支注意力图卷积操作层MulitBA_GConv，该多分支注意力图卷积操作层MulitBA_GConv采用多分支结构分别提取贡献给当前关节点、邻接关节点以及全局其他关节点的特征信息，并采用相应的注意力来分别关注这些特征，明显提升了图卷积的特征提取能力；同时，本发明还基于提出的MulitBA_GConv，并结合全连接网络，设计了一种模型参数量小、网络架构简单的三维人体姿态回归网络模型，大大减少模型的参数量的同时，又提高了模型的估计精度。

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，基于多分支注意力图卷积的三维人体姿态估计方法，包括如下步骤：

步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型，其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型。

二维人体姿态识别模型采用CPN模型，其用于接收二维图像输入并输出二维图像中人体对应的二维姿态，CPN模型能够实现单帧RGB图像到二维姿态的预测。

将二维图像输入训练好的先进二维预测回归模型CPN中，CPN模型输出图像中人体对应的二维姿态。

MulitBA_GCN三维人体姿态识别模型用于接收二维人体姿态识别模型预测得出的二维姿态数据，并将该二维姿态数据作为输入回归出人体的三维姿态数据。

人体的二维姿态就是人体主要关节点的二维位置信息，三维姿态就是人体关节点的三维位置信息，这些关节点之间是有一定的图连接结构。同时由于本发明设计的MulitBA_GConv图卷积操作层是基于图模型基础上的，因此首先需要对人体进行图形建模。

如图2所示，搭建人体图形模型。

用图

表示人体中的关节点和骨骼连接情况。

其中，

，N=16，代表16个身体关节点；集合E代表骨骼，即关节点的连接，E用一个邻接矩阵/>

来表示。

人体图形模型包括16个关节点以及19条边。

如图3所示，本发明实施例中搭建的MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层。

输入层是由一个MulitBA_GConv块组成。

每个MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成。

由于输入时二维姿态数据，因此，输入数据是(N,16,2)的格式。

MulitBA_GConv图卷积操作层的输出特征维度设置为128，该输入层的输出是(N,16,128)，N为批处理个数，模型使用时N=1；模型训练时，设置为N=128。

输入数据中的16是人体节点个数。

中间特征提取层是由多个残差模块依次串联组成，该残差模块可以重复多次（本发明实施例中重复了4次），使网络更深，从而具有更强的特征提取能力。

如图3所示，每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成。

输入特征在每个残差模块中的处理过程为：输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征。

输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成。

由于全连接网络在姿态估计中获取全局信息的能力是很强的，尽管本发明提出的图卷积操作层添加了全局注意力，但其获得全局信息的能力仍然弱于全连接层。

为了使模型最终的回归能力更强，本发明在整个识别模型的最后一层添加了全连接层，以输出最终的三维姿态估计结果，MulitBA_GConv层的输出特征维度设置为64。

如图3所示，MulitBA_GConv操作后进行维度变换，变换为(N,16×64)即(N,1024)，全连接层参数维度为（1024,48），因此直接回归出人体三维姿态。

与专利文献3采用非局部模块来实现对全局特征的提取不同，本发明通过在设计的MulitBA_GConv图卷积操作层中添加可学习的全局注意力，能够直接在图卷积操作中提取全局特征，此外，本发明还在三维人体姿态估计网络模型的最后一层添加了一层全连接来进一步的提取全局特征，因而进一步提高了模型的估计精度。

下面结合图4对本发明实施例中MulitBA_GConv图卷积操作层架构进行说明。

根据多层图卷积的定义，经典的图卷积运算操作后的节点特征

表示为：

。/>

其中，

表示无向图/>

的邻接矩阵；/>

是单位矩阵，代表自连接；/>

，/>

为度矩阵，/>

实现了对自环邻接矩阵/>

的对称规范化，

表示sigmoid激活函数；/>

是一个特定于/>

层的可训练权重矩阵，对/>

层的节点特征/>

进行变换。

该公式的严密推导过程是从图的傅里叶变换以及谱域分析开始的。

不过可以从空域来简单理解，用转置后的乘法顺序，权重转换矩阵

与

相乘可以理解为完成了节点特征/>

的通道变换，是节点的一阶邻域特征提取；再与对称规范化后的邻接矩阵 A 相乘为聚合（sum, mean, max 等）邻居与当前节点的一阶邻域特征。

从公式能够看出，该图卷积存在的问题是权重转换矩阵

对所有节点都是共享的导致特征提取能力相对较弱，同时图卷积只对局部特征进行的聚合，忽略了全局特征。

基于此，本发明提出了一种新的图卷积操作层即MulitBA_GConv图卷积操作层，如图4所示，其包括多分支特征提取层、局部边注意力实现层、全局注意力实现层和特征融合层。

由于多层图卷积进行特征提取的转换矩阵W针对所有节点都是共享的，因此节点（表示）编码因受到局限而不够丰富。为了提高多层图卷积的特征表达能力，本发明设计的多分支特征提取层针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征，分别使用三个不同的可学习的转换矩阵进行特征转换和提取。

本发明使用转换矩阵

、/>

、/>

的进行特征转换和提取，公式如下：

；

其中，

、/>

、/>

是分别提取到供特征融合层在聚合时使用的特征；/>

表示输入特征；/>

表示用于提取给自身节点信息的转换矩阵，/>

为用于提取给相邻节点信息的转换矩阵，/>

为用于提取给全局其他节点信息的转换矩阵。

局部特征聚合需要聚合来自于当前节点和来自于相邻节点的特征。

因此，本发明设计的局部边注意力实现层，通过添加一个可学习的边注意力矩阵作为每一个边的注意力，分别用于聚合来自于自身节点的特征以及相邻节点的特征。

借鉴边注意力思想，本发明述及的局部边注意力实现层，添加一个可学习的边注意力矩阵

作为每一个边的注意力；其中，K表示边的个数。

定义边注意力矩阵

的值表示节点i对节点j的依赖程度。

新的邻接关系

表示为：/>

。

其中，邻接矩阵A+I仅作为一个掩模；对于节点i，只关注学到的与其邻接节点j∈N(i)的权重，N(i)表示i的所有相邻节点；

是Softmax算符，实现行归一化功能，它使所有邻接节点j对节点i的边的权重之和为1。

由于

是学习到的，因此，/>

不再是对称的，以/>

为邻接矩阵的图转换为了一个加权的有向图，实现了不同自由度节点之间的依赖由可学习的边注意力来决定。

由于新的邻接关系

包含了自连接，因此，将新的邻接关系/>

分解为两部分，其中：/>

表示自连接权值部分，用它来聚合来自于自身节点的特征/>

；/>

为相邻节点之间的部分，用它来聚合来自于相邻节点的特征/>

。

以及/>

分别表示为：/>

，/>

。

局部特征中只聚合了节点自身及与之相邻的节点的特征。而人体姿态具有协调关系，即使没有相邻的关节之间也会提供重要的信息。

为了聚合全局特征，通过添加一个可学习的全局权重矩阵

表示行归一化后的全局注意力，聚合后的全局特征/>

表示为：

。

定义全局权重矩阵

表示j节点对i节点的贡献大小，该矩阵变换实现了将所有其他全局节点的信息按照/>

定义的注意力大小聚合到节点i上。在实际检测中，二维检测往往有一定的误差，为减小误差的影响，本发明实施例采用了基于降采样的全局注意力。

特征融合层，利用注意力对采用多分支特征提取层提取到的特征分别进行关注和聚合，对聚合后的三种特征进行融合。

一种优选方案，本发明实施例对聚合后的三种特征采用相加add方式进行融合，融合后的新特征

表示为：

。

其中，λ₀代表局部特征的权重，λ₁代表全局特征的权重。在本发明λ₀=0.67，λ₁=0.33。

当然，特征融合也可以通过特征拼接cat方式进行，该方式融合后的新特征融合后的新特征

表示为：

。

其中，||符号表示拼接操作。采用这种方式下，参数设置为每个图卷积输入维度为192，W变换矩阵为[192,64]，因此拼接后的该卷积输出特征还是3×64，即192维。

步骤2. 对搭建好的三维人体姿态估计模型进行训练，具体过程如下：

步骤2.1. 下载标准的人体运动数据集 Human3.6M。

步骤2.2. 对数据集Human3.6的真实的三维姿态数据进行投影预处理，得到对应的4个摄像机参数下的二维真实姿态数据和该摄像机参数下的三维姿态数据。

步骤2.3. 下载二维人体姿态识别的预训练的二维人体姿态识别模型。

二维人体姿态识别模型采用CPN模型。利用标准数据集Human3.6M的4摄像机下的图像作为输入，对应的4个摄像机参数下的二维真实姿态数据作为期望输出，采用预测值和真实关节位置的均方误差

作为损失函数对CPN模型进行再训练。

均方误差

的公式如下：/>

；其中，N表示人体节点个数；/>

表示人体第i个节点的二维预估坐标，/>

表示人体第i个节点的真实的二维坐标。

最终得到训练好的CPN模型参数，供下一步以及三维人体姿态识别模型使用。

步骤2.4. 利用训练好的CPN模型对数据集Human3.6M的人体图像进行二维姿态识别，并把识别结果进行存储。

步骤2.5. 首先利用步骤2.2中得到的二维真实姿态数据和三维姿态数据，分别作为MulitBA_GCN三维人体姿态识别模型的输入和期望输出，对MulitBA_GCN三维人体姿态识别模型进行预训练，采用预测值和真实关节位置的均方误差

作为损失函数，得到并保存MulitBA_GCN的预训练模型。

均方误差

的公式如下：/>

；/>

表示人体第i个节点的三维估计坐标，/>

表示人体第i个节点的真实的三维坐标。

步骤2.6. 利用步骤2.4从图像得到的二维姿态数据作为输入，步骤2.2得到的对应的三维姿态数据作为期望输出，对MulitBA_GCN三维人体姿态识别模型进行再训练，最终得到训练好的MulitBA_GCN三维人体姿态识别模型参数。

步骤3.1. 输入包含人体姿态的静态图像，利用步骤2.3训练好的CPN模型对输入图像中的人体进行人体关键点检测，得到其二维姿态数据。二维姿态数据是20×2的人体关节点特征数据。其中，人体关节点特征数据中20表示关节点个数，2表示x、y坐标值。

步骤3.2. 对步骤3.1得到的二维姿态数据进行归一化预处理。

首先取20个节点中的16个关节数据，去除不重要关节坐标。其次，去中心化，所有关节点坐标都减去第一个关节点坐标，第一个关节点为人体骨骼中心，相当于坐标平移到图像中心。最后，得到预处理后的16×2的二维姿态数据。

步骤3.3. 将预处理后的二维人体姿态数据输入到步骤2.6训练好的MulitBA_GCN三维人体姿态识别模型中，进行三维人体姿态识别，输出人体16×3的三维姿态数据。

本发明方法是三维姿态估计方法，其是针对单帧图像，输出的是骨架的三维坐标。

此外，为了验证本发明所提基于多分支注意力图卷积的三维人体姿态估计方法的有效性，还在三维人体姿势估计中使用最广泛的公开数据集Human3.6M上进行了验证和评估。

其中，数据集的S1、S5、S6、S7和S8用于模型的训练，S9和S11用于模型的评估。

对于模型性能的评价以模型的参数量以及姿态估计的精度两个指标去衡量，估计精度是以平均每关节误差(MPJPE) 作为标准进行的。本发明模型是基于PyTorch工具箱实现的。

对于Human3.6M，本发明使用Adam作为优化器。批量大小设置为256，网络总共训练了50个时期。学习率从0.001开始，在每个周期之后应用收缩因子来微调学习率。

验证实验在GeForce GTX 1080 GPU、CUDA 10.0上运行。

表1给出了本发明方法与其他基于图卷积的方法（语义图卷积（没有非全局模块）、语义图卷积（有非全局模块））在标准数据集上评估实验的结果。

表1与不同基于图卷积的三维人体姿态估计方法评估实验结果

基于图卷积的三维人体姿态估计方法	模型参数量	平均每关节位置误差(mm)
			语义图卷积（没有非全局模块）专利文献三	0.30M	65.9
语义图卷积（有非全局模块）专利文献三	0.43M	43.8
			MultiBA_GCN1_add(本发明方法)	0.47M	39.1
MultiBA_GCN2_cat(本发明方法)	0.29M	39.0

从评估结果能够看出：本发明在与专利文献三参数相近的情况下，平均每关节位置误差都有了很大的提高。另外，本发明在网络参数数量减少及估计精度提高方面均有明显优势。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.基于多分支注意力图卷积的三维人体姿态估计方法，其特征在于，

包括如下步骤：

MulitBA_GCN三维人体姿态识别模型用于接收二维人体姿态识别模型预测得出的二维姿态数据，并将该二维姿态数据作为输入回归出人体的三维姿态数据；

输入层是由一个MulitBA_GConv块组成；

中间特征提取层是由多个残差模块依次串联组成；其中，每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成；

输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成；

每个MulitBA_GConv图卷积操作层均包括多分支特征提取层、局部边注意力实现层、全局注意力实现层以及特征融合层；其中：

多分支特征提取层，针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征，分别使用三个可学习的转换矩阵进行特征转换和提取；

特征融合层，利用注意力对采用多分支特征提取层提取到的三种不同的特征分别进行关注和聚合，对聚合后的三种特征进行融合；

步骤2. 对搭建好的三维人体姿态估计模型进行训练；

2.根据权利要求1所述的三维人体姿态估计方法，其特征在于，

所述多分支特征提取层中，分别使用不同的转换矩阵进行特征转换和提取，公式如下：

；

其中，

、/>

、/>

是分别提取到供特征融合层在聚合时使用的特征；/>

表示输入特征；/>

表示用于提取给自身节点信息的转换矩阵，/>

为用于提取给相邻节点信息的转换矩阵，/>

为用于提取给全局其他节点信息的转换矩阵。

3.根据权利要求2所述的三维人体姿态估计方法，其特征在于，

所述局部边注意力实现层中，添加一个可学习的边注意力矩阵

作为每一个边的注意力；其中，K表示边的个数；

定义边注意力矩阵

的值表示节点i对节点j的依赖程度；

新的邻接关系

表示为：/>

；

是Softmax算符，实现行归一化功能，它使所有邻接节点j对节点i的边的权重之和为1；

由于新的邻接关系

包含了自连接，因此，将新的邻接关系/>

分解为两部分，其中：

表示自连接权值部分，用它来聚合来自于自身节点的特征/>

；/>

；

以及/>

分别表示为：/>

，/>

。

4.根据权利要求3所述的三维人体姿态估计方法，其特征在于，

所述全局注意力实现层中，添加一个可学习的全局权重矩阵

表示行归一化后的全局注意力，聚合后的全局特征/>

表示为：/>

；

定义全局权重矩阵

定义的注意力大小聚合到节点i上。

5.根据权利要求4所述的三维人体姿态估计方法，其特征在于，

所述特征融合层中，利用注意力对采用多分支方式提取到的特征分别进行关注和聚合，对聚合后的三种特征采用相加方式进行融合；

融合后的新特征

表示为：

；

其中，λ₀代表局部特征的权重，λ₁代表全局特征的权重。

6.根据权利要求4所述的三维人体姿态估计方法，其特征在于，

所述特征融合层中，特征融合通过拼接cat方式进行，融合后的新特征

表示为：

；

其中，

符号表示拼接操作。

7.根据权利要求1所述的三维人体姿态估计方法，其特征在于，

所述步骤1中，搭建人体图形模型；

用图

表示人体中的关节点和骨骼连接情况；

其中，

来表示；

人体图形模型包括16个关节点以及19条边。

8.根据权利要求6所述的三维人体姿态估计方法，其特征在于，

所述步骤2具体为：

步骤2.1. 下载标准的人体运动数据集 Human3.6M；

步骤2.2. 对数据集Human3.6的真实的三维姿态数据进行投影预处理，得到对应的4个摄像机参数下的二维真实姿态数据和该摄像机参数下的三维姿态数据；

步骤2.3. 下载二维人体姿态识别的预训练的二维人体姿态识别模型；

二维人体姿态识别模型采用CPN模型；利用标准数据集Human3.6M的4摄像机下的图像作为输入，对应的4个摄像机参数下的二维真实姿态数据作为期望输出，采用预测值和真实关节位置的均方误差

作为损失函数对CPN模型进行再训练；

均方误差

的公式如下：/>

；

其中，N表示人体节点个数；

表示人体第i个节点的二维预估坐标，/>

表示人体第i个节点的真实的二维坐标；

最终得到训练好的CPN模型参数，供下一步以及三维人体姿态识别模型使用；

步骤2.4. 利用训练好的CPN模型对数据集Human3.6M的人体图像进行二维姿态识别，并把识别结果进行存储；

作为损失函数，得到并保存MulitBA_GCN的预训练模型；

均方误差

的公式如下：/>

；/>

表示人体第i个节点的三维估计坐标，/>

表示人体第i个节点的真实的三维坐标；

9.根据权利要求8所述的三维人体姿态估计方法，其特征在于，

所述步骤3具体为：

步骤3.1. 输入包含人体姿态的静态图像，利用步骤2.3训练好的CPN模型对输入图像中的人体进行人体关键点检测，得到其二维姿态数据；

步骤3.2. 对步骤3.1得到的二维姿态数据进行归一化预处理；

步骤3.3. 将预处理后的二维人体姿态数据输入到步骤2.6训练好的MulitBA_GCN三维人体姿态识别模型中进行三维人体姿态识别，输出人体的三维姿态数据。

10.根据权利要求9所述的三维人体姿态估计方法，其特征在于，

所述步骤3.1中得到的二维姿态数据是20×2的人体关节点特征数据；其中，人体关节点特征数据中20表示关节点个数，2表示x、y坐标值；

所述步骤3.2中，对得到的数据进行归一化预处理的具体过程如下：

首先取20个节点中的16个关节数据，去除不重要关节坐标；其次，去中心化，所有关节点坐标都减去第一个关节点坐标，第一个关节点为人体骨骼中心，相当于坐标平移到图像中心；最后，得到预处理后的16×2的二维姿态数据；

所述步骤3.3中，MulitBA_GCN三维人体姿态识别模型输出人体16×3的三维姿态数据。