CN115294265A

CN115294265A - 基于图骨架注意力利用二维人体姿态重建三维人体网格的方法和系统

Info

Publication number: CN115294265A
Application number: CN202210740281.9A
Authority: CN
Inventors: 刘宏; 游盈萱; 陈阳; 李文豪
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-11-04

Abstract

本发明涉及一种基于图骨架注意力利用二维人体姿态重建三维人体网格的方法和系统。该方法的步骤包括：1)关节特征化，将输入的二维关节线性映射为高维特征向量；2)关节特征学习，通过Skeletal MHA获得人体拓扑结构信息，同时GCN强化局部信息交互能力，使得训练后的模型能够学习人体的全局和局部的特征，更好地适用于人体重建任务；3)进行网格顶点的回归，再加到基于人体模型提供的网格模板上，得到三维人体网格输出。本发明通过引入人体结构的先验信息，结合Transformer的全局感知能力和GCN的局部聚合与传递功能，使得GSAT网络能够在全局和局部水平进行学习，从而重建出更加准确的三维人体网格。

Description

基于图骨架注意力利用二维人体姿态重建三维人体网格的方法和系统

技术领域

本发明属于计算机视觉中的三维人体重建和智能人机交互领域，具体涉及一种基于图骨架注意力利用二维人体姿态重建三维人体网格的方法和系统。

背景技术

人体网格重建是近几年计算机视觉中一项热点研究任务。其目标是利用输入的图像或者视频，重建三维的人体网格模型。三维人体网格模型是目前许多现实应用的基础，比如虚拟试衣、虚拟现实、增强现实和运动捕捉。

然而，利用二维输入来重建三维人体模型具有众多难点：深度歧义，从二维到三维的映射是一个逆问题求解的过程，由于缺少深度信息，一个二维姿态可能满足多种三维姿态，即存在多解的情况；遮挡问题，在现实场景中，存在多人的相互遮挡或者是人体的自遮挡情况，被遮挡部分的信息缺失为三维人体重建带来困难；同时，由于采用二维输入，三维人体重建面临图像处理中的经典难点问题：如光照变化、图像模糊、图像截断等。为此，如何在这些困难下进行高效的三维人体网格重建，并应用到真实场景，具有重要的研究意义。

基于深度学习的三维人体重建主要有两种方法：参数化方法和非参数化方法。参数化方法以回归现有的人体模型的参数为目标。人体模型参数分为姿态参数和形状参数，其中姿态参数用来控制三维人体的姿态动作，形状参数用来控制三维人体的高矮胖瘦的体型。参数化的方法简化了人体三维重建的任务难度，并取得了广泛的使用。但是从二维输入中学习人体网格模型的参数是一个高度非线性的问题，不能很好定位人体的位置，导致较低的定位精度。为了解决这个问题，与参数化方法相对的非参数化方法，直接预测人体网格中每个顶点的位置坐标。

然而，这两种方法大多数采用二维图像作为输入，他们存在以下的不足：现有的人体姿态估计和重建数据集是在精心布置的室内环境中采集的，具有干净的背景、无遮挡的人体和常见的人体姿态。这与真实场景下随意拍摄的图像有很大的不同，导致了图像的域间差距。因此，利用这类数据集训练的模型往往泛化性能不高，不能很好地适用于真实场景的图像。为了缓解这个不足，一些基于图像的方法混合多种数据集对模型进行训练，但同时也带来了更大的训练成本和数据标注的需求。图像问题带来的挑战推动研究人员开始关注另外的输入方式，比如利用二维人体关节作为输入，来研究其与三维人体网格的关系，从而进行更有效的三维人体网格重建。

发明内容

本发明内容是使用一个图骨架注意力增强的Transformer网络(Graph SkeletalAttention Transformer)，称为GSAT，以端到端的方式利用输入的二维人体姿态来重建三维人体网格模型。本发明通过显式建模人体骨架的结构信息，使网络在局部和全局的尺度上进行学习，有效提升了基于姿态输入的三维人体重建方法的准确率和泛化性。

本发明采用的技术方案如下：

一种基于图骨架注意力利用二维人体姿态重建三维人体网格的方法，包括以下步骤：

将输入的二维关节映射到高维空间中，获得高维的特征向量；

将关节的位置编码加到特征向量中，得到带有位置信息的关节特征；

将带有位置信息的关节特征输入图骨架注意力增强的Transformer块，以捕获全局和局部的人体关节特征；

将图骨架注意力增强的Transformer块输出的关节特征进行网格顶点回归，并加到基于人体模型提供的网格模板上，得到三维人体网格。

进一步地，所述图骨架注意力增强的Transformer块利用骨架多头注意力机制SkeletalMHA和图卷积神经网络GCN来捕获全局和局部的人体关节特征；其中骨架多头注意力机制Skeletal MHA获得人体拓扑结构信息，同时图卷积神经网络GCN强化局部信息交互能力，集成二者的信息并连接到前向传播网络FFN以整合特征结果。

进一步地，所述骨架多头注意力机制Skeletal MHA将人体关节的之间的连接关系和骨头长度的先验信息编码为注意力偏置矩阵，加入到注意力矩阵中，以此来建模人体的拓扑结构。

进一步地，所述图卷积神经网络GCN是与骨架多头注意力机制和前向传播网络相独立的一个并行模块，将人体关节建模为一个图结构，每个关节只关注于相邻关节，用来聚合和传递局部的关节信息，从而提高局部信息的捕获能力。

进一步地，在原始Transformer编码器的结构上改造MHA为Skeletal MHA，来建模人体拓扑结构；并在Skeletal MHA和FFN并行处，加入GCN来提高局部信息的捕获能力；Skeletal MHA、FFN和和GCN组成的子结构堆叠6层，构成所述图骨架注意力增强的Transformer块。

进一步地，所述人体模型为SMPL人体模型等。

进一步地，所述进行网格顶点回归，是上采样为网格增量，或者直接获得网格顶点。

一种基于图骨架注意力利用二维人体姿态重建三维人体网格的系统，其包括：

骨架编码模块，用于将输入的二维关节映射到高维空间中，获得高维的特征向量；

位置编码模块，用于将关节的位置编码加到特征向量中，得到带有位置信息的关节特征；关节特征学习模块，用于将带有位置信息的关节特征输入图骨架注意力增强的Transformer块，以捕获全局和局部的人体关节特征；

网格顶点回归模块，用于将图骨架注意力增强的Transformer块输出的关节特征进行网格顶点回归，并加到基于人体模型提供的网格模板上，得到三维人体网格。

本发明的技术效果：

本发明实现了利用二维人体姿态输入重建三维人体网格的方法。通过引入人体结构的先验信息，结合Transformer的全局感知能力和GCN的局部聚合与传递功能，使得GSAT网络能够在全局和局部水平进行学习，从而重建出更加准确的三维人体网格。

附图说明

图1是本发明的整体模型的框架图；

图2是本发明的Skeletal MHA模块的具体结构；

图3是本发明的回归器的具体结构；

图4是本发明的三维人体网格重建的可视化结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明使用Transformer网络作为基本框架，针对人体骨架和网格模型的特点，提出了符合人体拓扑结构的注意力机制。Transformer的描述参照Ashish Vaswani,NoamShazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,

Kaiser,and Illia Polosukhin.2017.Attention is all you need.In Advances in NeuralInformation Processing Systems(NeurIPS).5998–6008.

如图1所示，本发明的基于图骨架注意力利用二维人体姿态重建三维人体网格方法的步骤如下：

1)三维人体重建模型的构建。基本框架采用文献Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,

Kaiser,and IlliaPolosukhin.2017.Attention is all you need.In Advances in Neural InformationProcessing Systems(NeurIPS).5998–6008.中所提的Transformer方法。另外提出了骨架多头注意力机制(Skeletal MHA)将人体关节的之间的连接关系和骨头长度的先验知识编码到注意力矩阵中，来建模人体的拓扑结构信息。并在Skeletal MHA和FFN模块并行处加上了GCN(图卷积神经网络)模块，用来聚合和传递局部的关节信息。因此，整个模型能够在全局和局部水平进行学习，从而重建出更加准确的三维人体网格。

2)关节特征化。使用线性变换方法，将输入的二维关节映射到高维空间中获得高维的向量，从而学习到潜在的特征。

3)将关节的位置编码加到特征向量中，得到带有位置信息的关节特征。

4)关节特征学习。将特征化的关节向量送入堆叠6层的GSAT块，通过Skeletal MHA获得人体拓扑结构信息，同时GCN强化局部信息交互能力，集成二者的信息连接到FFN(前向传播网络)整合特征结果，使得训练后的模型能够捕获全局和局部的特征，更好地适用于人体重建任务。本发明在原始Transformer编码器的结构上改造MHA为Skeletal MHA，来建模人体拓扑结构；并在Skeletal MHA和FFN并行处，加入GCN来提高局部信息的捕获能力。这样的子结构堆叠6层，构成GSAT块。

5)网格顶点的回归。将GSAT块输出的关节特征送入线性回归器中。首先将关节特征上采样为网格增量，再加到SMPL人体模型提供的网格模板上，最后得到三维人体网格输出。该步骤不是直接回归网格顶点绝对坐标，而是先计算出网格顶点增量，再加到SMPL人体模型提供的网格模板上。优点在于利用了人体模型的先验信息，且增量形式比绝对坐标更加稳定。

本发明的一个实施例提供一种基于图骨架注意力利用二维人体姿态重建三维人体网格的方法，其步骤如下，图1是GSAT的整体框架图：

1)将二维人体姿态数据P∈R^N×2输入到骨架编码模块(Skeletal Embedding)中，线性映射为高维空间中的特征向量X₀∈R^N×D，其中N为关节数量，D为特征维度。在本实施例的模型中D＝512。

2)将关节的位置编码加到特征向量X₀∈R^N×D中，得到带有位置信息的关节特征X∈R^N×D。

3)关节特征X∈R^N×D进入图骨架注意力增强的Transformer块(Graph SkeletalAttention Transformer Block)，称为GSAT块。

4)GSAT块与原始的Transformer Encoder(编码器)不同，增加了骨架多头注意力机制(Skeletal Multi-head Attention Mechanism,Skeletal MHA)和图卷积网络(GraphConvolutional Network,GCN)。

5)传统Transformer中的自注意力机制通过计算序列输入不同表征之间的相似性来分配不同的注意力并得到输出，同时具有全局的感知能力。但不同于序列数据，人体具有更复杂的结构，因此Skeletal MHA将人体关节之间的连接关系和骨头长度的先验信息编码为注意力偏置矩阵加入到注意力矩阵中，如图2所示。图2中的空间编码即人体关节之间的连接关系的编码，路径编码即骨头长度的编码。

其中，关节连接关系的注意力偏置矩阵的计算公式为：ABS(i,j)＝b_dis(i,j)·dis(i,j)，其中b_dis(i,j)是与关节i和关节j之间的连接距离dis(i,j)有关的一个可学习系数。

骨头长度的注意力偏置矩阵的计算公式为：

表示从关节i到关节j的所有骨头特征

的加权平均，其中

是可学习的权重参数，k是从关节i到关节j经过的骨头编号。

最后，通过人体骨架信息强化后的注意力公式为：

其中

是原始Transformer的自注意力公式，Q＝XW_Q和K＝XW_K表示输入特征X的两种线性变换，d表示输入特征X的维度大小。

6)为了提高局部信息的捕获能力，在Skeletal MHA和FFN模块并行处加上了GCN模块，用来聚合和传递局部的关节信息，其公式如下：

X_out＝σ(AX_inW)，其中X_out表示输出的关节特征，X_in表示输入的关节特征，A∈{0,1}^N×N是邻接矩阵，表示关节是否直接相连，

是一个可学习的权重矩阵，σ是非线性激活函数，D_in表示输入关节特征的维度，D_out表示输出关节特征的维度。

7)综上，如图1，关节特征X∈R^N×D经过GSAT块的计算过程表示为：

X′＝SMHA(LN(X_in))+GCN(LN(X_in))+X_in

X_out＝FFN(LN(X′))+GCN(LN(X′))+X′

其中，SMHA(·)是Skeletal MHA模块，GCN(·)是图卷积模块，FFN(·)是前向传播网络，LN表示Layer Normalization层正则化操作。

8)最后一个线性回归器(如图3所示)，将输出的特征X_out∈R^N×D上采样到X′_out∈R^N ^×V，其中V＝6890为人体网格顶点个数，然后再将其线性投影为网格增量ΔM∈R^V×3，并将其加到SMPL人体模型提供的网格模板M₀∈R^V×3上，得到最终的三维人体网格输出M＝M₀+ΔM∈R^V×3。

实验所用数据库为Human3.6M、3DPW、COCO和MuCo-3DHP数据集。其中，Human3.6M是一个大型的室内人体数据集，包括来自四个相机的360万帧视频，共有11个演员表演15类动作，如走路、吃饭和坐下；3DPW是一个室外数据集，包含带三维人体姿态和网格标签的5.1万帧视频，该数据集只用来测试，以验证方法的泛化性能；COCO是一个包含二维人体姿态标签的数据集，通过数据增强的方法还获得了三维人体姿态和网格标签，该数据集只用来训练；MuCo-3DHP包含带有大量真实场景的20万帧视频，同样该数据集也只用来训练。

三维人体网格重建的可视化结果如图4所示。其中，第一列为原始图像，第二列是二维姿态检测器得到的二维人体姿态，即模型的输入，第三列是我们方法重建的三维网格投影到图像上的结果。可以看出，在人体姿态和体型上都能很好地与图像匹配。

与原始的Transformer相比，本发明的方法具有更高的重建精度，对比结果如表1所示。

表1

Method	MPJPE↓
		Transformer	65.43
Transformer+Skeletal MHA	64.59
		Transformer+GCN	64.91
Transformer+Skeletal MHA+GCN	64.14

其中，MPJPE(Mean Per Joint Position Error)代表精度误差。可以看到本发明的方法的精度最高，对原始的Transformer有了2.0％的提升。

基于同一发明构思，本发明的另一实施例提供一种基于图骨架注意力利用二维人体姿态重建三维人体网格的系统，其包括：

网格顶点回归模块，用于将图骨架注意力增强的Transformer块输出的关节特征输入线性回归器中，上采样为网格增量，并加到基于人体模型提供的网格模板上，得到三维人体网格。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

本发明的上述实施例是以SMPL人体模型为例进行说明，其它实施例中可以替换为另外的人体模型(如SMPL-X、GHUM)。

本发明的上述实施例中，网格顶点回归模块中使用线性回归器上采样网格顶点增量的方式，其中线性回归器可以替换为其它的计算方式(比如卷积)，网格顶点增量可以替换为直接获得网格顶点。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的最佳实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。

Claims

1.一种基于图骨架注意力利用二维人体姿态重建三维人体网格的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述图骨架注意力增强的Transformer块利用骨架多头注意力机制Skeletal MHA和图卷积神经网络GCN来捕获全局和局部的人体关节特征；其中骨架多头注意力机制Skeletal MHA获得人体拓扑结构信息，同时图卷积神经网络GCN强化局部信息交互能力，集成二者的信息并连接到前向传播网络FFN以整合特征结果。

3.根据权利要求2所述的方法，其特征在于，所述骨架多头注意力机制Skeletal MHA将人体关节的之间的连接关系和骨头长度的先验信息编码为注意力偏置矩阵，加入到注意力矩阵中，以此来建模人体的拓扑结构。

4.根据权利要求3所述的方法，其特征在于，所述人体关节的之间的连接关系的注意力偏置矩阵的计算公式为：ABS(i,j)＝b_dis(i,j)·dis(i,j)，其中b_dis(i,j)是与关节i和关节j之间的连接距离dis(i,j)有关的一个可学习系数；所述骨头长度的注意力偏置矩阵的计算公式为：

表示从关节i到关节j的所有骨头特征

的加权平均，其中

是可学习的权重参数；通过人体骨架信息强化后的注意力公式为：

其中

是原始Transformer的自注意力公式。

5.根据权利要求2所述的方法，其特征在于，所述图卷积神经网络GCN是与骨架多头注意力机制和前向传播网络相独立的一个并行模块，将人体关节建模为一个图结构，每个关节只关注于相邻关节，用来聚合和传递局部的关节信息，从而提高局部信息的捕获能力。

6.根据权利要求2所述的方法，其特征在于，在原始Transformer编码器的结构上改造MHA为Skeletal MHA，来建模人体拓扑结构；并在Skeletal MHA和FFN并行处，加入GCN来提高局部信息的捕获能力；Skeletal MHA、FFN和和GCN组成的子结构堆叠6层，构成所述图骨架注意力增强的Transformer块。

7.根据权利要求1所述的方法，其特征在于，所述进行网格顶点回归，是上采样为网格增量，或者直接获得网格顶点。

8.一种基于图骨架注意力利用二维人体姿态重建三维人体网格的系统，其特征在于，包括：

位置编码模块，用于将关节的位置编码加到特征向量中，得到带有位置信息的关节特征；

关节特征学习模块，用于将带有位置信息的关节特征输入图骨架注意力增强的Transformer块，以捕获全局和局部的人体关节特征；

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。