CN112712019B

CN112712019B - 一种基于图卷积网络的三维人体姿态估计方法

Info

Publication number: CN112712019B
Application number: CN202011597190.1A
Authority: CN
Inventors: 肖德贵; 伍梦斌
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-08-01
Anticipated expiration: 2040-12-28
Also published as: CN112712019A

Abstract

本发明提供一种基于图卷积网络的三维人体姿态估计方法。所述基于图卷积网络的三维人体姿态估计方法，包括以下步骤：S1：获取Human3.6M数据集的原始视频数据，将原始视频数据拆分为图片帧，提取每帧图片中的人体姿态数据，形成人体骨骼点二维和三维姿态数据；S2：将二维姿态定义为图其中v是K个节点的集合，ε是边；S3：基于图卷积网络，构建全局上下文‑语义图卷积网络模型，作为三维人体姿态估计模型f^*。本发明提供的基于图卷积网络的三维人体姿态估计方法具有能实现二维人体姿态到三维人体姿态的映射，且能提高三维人体姿态回归的性能、减少网络参数使用的优点。

Description

一种基于图卷积网络的三维人体姿态估计方法

技术领域

本发明涉及三维人体姿态技术领域，尤其涉及一种基于图卷积网络的三维人体姿态估计方法。

背景技术

现阶段，由于根据图像和视频进行三维人体姿态估计是计算机视觉中的经典问题，因此已广泛用于动画，游戏，动作识别，运动检测和人体跟踪中。三维人体姿态估计的任务是从图片或视频估计人体关节点的三维坐标，这本质上是一个回归问题，也就是将二维姿态“提升”为三维姿态的过程。

但是，在单一视图下二维姿态到三维姿态映射中固有的深层模糊性和不适定性使其成为一个难题。因为投影后，多个三维姿态可能对应于同一相机透视图中的同一二维姿态，尽管目前有提出一些方法来将二维姿态映射到三维空间，但是，在语义图卷积网络中，非本地层几乎为每个查询位置建模相同的上下文信息，并且，当使用非本地层时，整个网络将多使用约59.3％的参数。

因此，有必要提供一种新的基于图卷积网络的三维人体姿态估计方法解决上述技术问题。

发明内容

本发明解决的技术问题是提供一种能实现二维人体姿态到三维人体姿态的映射，且能提高三维人体姿态回归的性能、减少网络参数使用的基于图卷积网络的三维人体姿态估计方法。

为解决上述技术问题，本发明提供的基于图卷积网络的三维人体姿态估计方法，包括以下步骤：

S1：获取Human3.6M数据集的原始视频数据，将原始视频数据拆分为图片帧，提取每帧图片中的人体姿态数据，形成人体骨骼点二维和三维姿态数据；

S2：将二维姿态定义为图其中v是K个节点的集合，ε是边；

S3：基于图卷积网络，构建全局上下文-语义图卷积网络模型，作为三维人体姿态估计模型f^*；

S4：Human3.6M数据集中的S1，S5，S6，S7，S8作为训练集，将处理好人体姿态数据输入全局上下文-语义图卷积网络中，使用预测值和地面真实关节位置y_i的均方误差：作为损失函数进行训练，剩余的S9，S11则作为测试集进行测试，得到最后的三维人体姿态预测结果。

优选的，所述S3中f^*的公式构成包括以下步骤：

A1：给定来自图像的二维姿态：输入

A2：估值出三维姿态：输出A3：得出最终公式：

优选的，所述A3公式中：x_i是在已知的摄像机参数下获得的二维地面真实关节位置，或者是使用二维联合检测器获得的估计值。

优选的，所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。

优选的，所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤：

B1：构建语义图卷积层，学习图的边中隐含的噪声节点的语义关系；

将二维姿态定义为图其中v是K个节点的集合，ε是边，给定第l个卷积之前的节点i的表示形式，/>通过以下操作获得后续卷积的输出：

X^(l+1)＝σ(WX^(l)ρ_i(M⊙A))

其中，是参数矩阵，用于转换节点表示形式；ρ_i是非线性Softmax，在节点i的所有选择中对输入矩阵进行归一化；/>是加权矩阵；⊙是元素操作；A∈[0，1]^K×K是/>的邻接矩阵，用作仅计算节点i在图中的相邻节点/>的权重掩码，将掩码矩阵应用到每个通道c，等式2扩展为：

其中||表示逐个通道级联，而是矩阵W的第c行；

B2：构建全局上下文层，捕获节点之间的全局和远程关系；

应用全局上下文卷积来捕获节点之间的全局和远程关系，将该操作定义为：

其中W_k，W_v1和W_v2表示线性变换矩阵，是经过高斯归一化的全局注意力权重。

与相关技术相比较，本发明提供的基于图卷积网络的三维人体姿态估计方法具有如下有益效果：

本发明提供一种基于图卷积网络的三维人体姿态估计方法，通过提出全局上下文-语义图卷积网络，其中的语义图卷积层和全局上下文层是交错的，这种体系结构捕获了节点间的局部和全局语义关系，实现了二维人体姿态到三维人体姿态的映射，且通过全局上下文-语义图卷积网络的架构方式，能够整合外部信息，从而进一步提高三维人体姿态回归的性能。

附图说明

图1为本发明提供的基于图卷积网络的三维人体姿态估计方法中全局上下文-语义图卷积网络架构示意图；

图2为本发明提供的基于图卷积网络的三维人体姿态估计方法中的算法架构示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

在本发明的实施例中，基于图卷积网络的三维人体姿态估计方法，包括以下步骤：

S2：将二维姿态定义为图其中/>是K个节点的集合，ε是边；

所述S3中f^*的公式构成包括以下步骤：

A1：给定来自图像的二维姿态：输入

A2：估值出三维姿态：输出A3：得出最终公式：

所述A3公式中：x_i是在已知的摄像机参数下获得的二维地面真实关节位置，或者是使用二维联合检测器获得的估计值。

所述S3中全局上下文-语义图卷积网络是由语义图卷积层和全局上下文层交错构建而成。

所述S3中基于图卷积网络构建全局上下文-语义图卷积网络模型的生成方法包括以下步骤：

将二维姿态定义为图其中/>是K个节点的集合，ε是边，给定第l个卷积之前的节点i的表示形式，/>通过以下操作获得后续卷积的输出：

X^(l+1)＝σ(Wx^(l)ρ_i(M⊙A))

其中||表示逐个通道级联，而是矩阵W的第c行；

B2：构建全局上下文层，捕获节点之间的全局和远程关系；

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图卷积网络的三维人体姿态估计方法，其特征在于，包括以下步骤：

S2：将二维姿态定义为图其中/>是K个节点的集合，ε是边；

S4：Human3.6M数据集中的S1,S5,S6,S7,S8作为训练集，将处理好人体姿态数据输入全局上下文-语义图卷积网络中，使用预测值和地面真实关节位置y_i的均方误差：作为损失函数进行训练，剩余的S9,S11则作为测试集进行测试，得到最后的三维人体姿态预测结果。

所述S3中f^*的公式构成包括以下步骤：

A1：给定来自图像的二维姿态：输入

A2：估值出三维姿态：输出

A3：得出最终公式：

X^(l+1)＝σ(WX^(l)ρ_i(M⊙A))

其中，是参数矩阵，用于转换节点表示形式；ρ_i是非线性Softmax，在节点i的所有选择中对输入矩阵进行归一化；/>是加权矩阵；⊙是元素操作；A∈[0,1]^K×K是/>的邻接矩阵，用作仅计算节点i在图中的相邻节点/>的权重掩码，将掩码矩阵应用到每个通道c，等式2扩展为：

其中||表示逐个通道级联，而是矩阵W的第c行；

B2：构建全局上下文层，捕获节点之间的全局和远程关系；