CN115908497A

CN115908497A - 一种基于人体拓扑感知网络的三维人体姿态估计方法及系统

Info

Publication number: CN115908497A
Application number: CN202211563969.0A
Authority: CN
Inventors: 刘宏; 蔡家伦; 丁润伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-04-04

Abstract

本发明涉及一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。本方法利用人体拓扑的分层次结构和运动约束，充分捕捉信息密度稀疏的人体关节点数据中的先验信息，有效缓解了人体末端关节点估计精度不足的问题。本方法构建了一种多层次特征提取聚合框架，可以由细粒度到粗粒度依次提取关节点层次、肢体层次、全身层次的特征信息；构建了同一肢体内关节点间的运动约束关系，利用父节点辅助高误差的末端关节点的预测。本发明充分利用人体拓扑中高度结构化的先验信息，无需引入额外的数据，便可在控制模型参数量的情况下获得更丰富的人体姿态表征学习能力。

Description

一种基于人体拓扑感知网络的三维人体姿态估计方法及系统

技术领域

本发明属于计算机视觉中的目标识别和智能人机交互领域，具体涉及一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。

背景技术

三维人体姿态估计是计算机视觉领域一个基础且活跃的研究方向，其旨在从图像中预测人体关键点的三维坐标并由此构建出人体的骨架表示。由三维人体姿态估计算法估计出的人体骨架可以被进一步运用在在虚拟现实、动作识别、三维人体重建等任务中，因此具有重要的研究意义和应用价值。

当前，三维人体姿态估计算法主要分为两种实现方式：一阶段方法和两阶段方法。一阶段方法对RGB图片进行处理，旨在端到端地回归出人体关节点的三维坐标。虽然RGB图像具有丰富的语义信息，但各种形式的衣服、任意遮挡、视角造成的遮挡和背景上下文都会增大估计的难度，基于一阶段的经典姿态估计算法(Pavlakos G,Zhou X,Derpanis K G,etal.Coarse-to-fine volumetric prediction for single-image 3D humanpose.Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR).2017:7025-7034.)计算量巨大且难以在这些复杂场景下准确识别和追踪细粒度的关节坐标。得益于现有的鲁棒的二维人体姿态估计算法，两阶段方法出现以来受到广泛的应用(Martinez J,Hossain R,Romero J,et al.Asimple yet effectivebaseline for 3D human pose estimation.Proceedings of the IEEE InternationalConference on Computer Vision(ICCV).2017:2640-2649.)。其首先利用现有的高效二维姿态估计器从图片中估计出二维坐标，再通过一个二维到三维的提升网络实现最终的三维坐标输出。大量实验证明无论是在主流的数据集中还是在真实场景下，两阶段方法都可以利用更加轻量级的网络获得更准确的估计。

然而，与基于图片输入的方法不同，两阶段方法中提升网络处理的数据是稀疏的人体关节点，如何充分利用好这些关节点间的人体拓扑先验信息就尤为重要。当前的相关工作主要参照主流的计算机视觉任务，希望从全局和局部两个层次去对人体关节点进行分析和处理，而忽视了人体关节点本身是高度结构化的拓扑组成，人体自身的层次结构和运动约束作为先验知识都可以很好的帮助我们进一步的提升三维人体姿态估计任务的准确性。

发明内容

针对现有技术存在的问题，本发明分析了人体的结构特性，提供了一种基于人体拓扑感知网络的三维人体姿态估计方法及系统。根据人体的层次结构，本发明从关节点、肢体、全身三个层次依次提取特征信息并聚合。同时在肢体层次上，本发明设计了一种肢体内约束模块，利用同一肢体内的父关节点约束肢体末端关节点的运动，大幅降低了末端关节点的运动误差。本发明在不引入额外信息的情况下，利用人体关节点间的拓扑关系，便可有效获取更加丰富的表征学习能力，并有效提升了预测的准确性。

本发明采用的技术方案如下：

一种基于人体拓扑感知网络的三维人体姿态估计方法，包括以下步骤：

利用预训练好的二维人体姿态估计器从输入的包含人体信息的图片中提取出二维关节点坐标；

利用空间特征嵌入模块将二维关节点坐标填充为高维向量；

将高维向量划分为三部分子向量；

第一部分子向量中，利用局部关节点构建模块对关节点间的物理连接进行建模；

第二部分子向量中，利用肢体内约束模块对肢体层次的运动约束关系进行建模；

第三部分子向量中，利用全局信息交互模块对身体层次的长距离交互进行建模；

将各子向量中提取到的分层次信息依次连接并聚合；

利用空间感知器模型对聚合后的高维向量提取高级语义特征；

利用预测头模块对高级语义特征进行回归，最终输出关节点的三维坐标。

进一步地，利用均方根损失函数在模型的输出和真实值间进行监督学习。

进一步地，所述的局部关节点构建模块局部关节点构建模块主要利用图卷积网络，利用邻接矩阵模仿人体关节点间的物理连接关系；所述的图卷积网络中的邻接矩阵仅考虑人体关节点间的物理连接和每个关键点与该关键点的自身相连。优选地，所述局部关节点构建模块利用两个图卷积、两个层归一化和一个激活函数的统一框架来模拟人体关节点层次的物理连接关系。

进一步地，所述的肢体内约束模块由两组一维标准卷积和空间感知器组成。该模块利用简单的一维标准卷积和替换操作，引入同一肢体中的父节点来约束具有高运动复杂度的末端关节点的运动，这种拓扑约束可以有效缓解末端关节点的误差，并协助产生更加合理的三维姿态估计。

进一步地，所述的两组一维标准卷积的卷积核分别是2和3，其跨步值也分别为2和3。

进一步地，所述的全局信息交互模块利用自注意力机制捕获全身关节点层次的长距离特征。

进一步地，所述的自注意力机制包含多个自注意力头，且仅考虑关节点间的空间信息交互。

进一步地，所述的分层次信息依次连接并聚合的过程结合了并行和串行的框架，一方面对于输入的高维特征通道进行拆分，并采用并行处理的方式来控制模型的参数量；另一方面，依次串行连接三个子模块，从而获得从细粒度到粗粒度的特征提取。

进一步地，所述的预测头模块包含一层全连接网络。

一种基于人体拓扑感知网络的三维人体姿态估计系统，其包括：

二维关节点坐标提取模块，用于利用预训练好的二维人体姿态估计器从包含人体信息的图片中提取出二维关节点坐标；

空间特征嵌入模块，用于将二维关节点坐标填充为高维向量；

通道拆分模块，用于将高维向量划分为三部分子向量；

局部关节点构建模块，用于利用第一部分子向量对关节点间的物理连接进行建模；

肢体内约束模块，用于利用第二部分子向量对肢体层次的运动约束关系进行建模；

全局信息交互模块，用于利用第三部分子向量对身体层次的长距离交互进行建模；

通道合并模块，用于将各子向量中提取到的分层次信息依次连接并聚合；

空间感知器模块，用于对聚合后的高维向量提取高级语义特征；

预测头模块，用于对高级语义特征进行回归，最终输出关节点的三维坐标。

本发明的有益效果如下：

本发明通过对于人体拓扑结构的进一步探索，利用人体拓扑的分层次结构和运动约束，提出一种基于人体拓扑感知网络的三维人体姿态估计方法及系统，可以充分利用人体结构上的先验信息，解决输入的关节点数据信息密度稀疏的问题。本发明在应用中的效果图如图3，图4所示，在陌生的户外场景中，本发明也可以对复杂且存在遮挡的人体动作进行精确的估计。作为一个有效的基线模型，本发明可以被引入到三维人体重建、动作识别等下游的人体任务中，从而实现更加完备的人体建模和分析。

附图说明

图1.本发明的人体拓扑感知网络流程图。

图2.本发明的局部关节点构建模块、肢体内约束模块和全局信息交互模块的流程图。

图3.本发明的预测值与真实值的对比。

图4.基于本发明的户外场景下三维人体姿态估计可视化。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明的一种基于人体拓扑感知网络的三维人体姿态估计方法，包括以下步骤：

1)利用现有的二维人体姿态估计器从输入的图片中提取出关节点的二维坐标；

2)利用特征嵌入模块将1)中的空间坐标信息填充为高维向量；其中填充包括空间填充和位置填充，空间填充是利用一层全连接网络对骨架坐标进行编码得到高维向量，位置填充是指利用一组可学习的变量标定关节点间的顺序关系；

3)将2)中的高维向量划分成三个部分；

4)对于3)中的第一部分，利用局部关节点构建模块对关节点间的物理连接进行建模；

5)对于3)中的第二部分，利用肢体内约束模块对肢体层次的运动约束关系进行建模；

6)对于3)中的第三部分，利用全局信息交互模块对身体层次的长距离交互进行建模；

7)将4)，5)，6)中提取的各层次信息依次连接并聚合；

8)利用现代空间多层感知器网络对7)中的高维向量进行高级语义特征处理；

9)利用预测头模块对8)中提取的高级语义特征进行回归并最终输出关节点的三维坐标；

10)利用均方根损失函数在9)中的输出和真实值间进行监督学习。

其中，步骤1)中的二维人体姿态估计器参考CPN(Chen Y,Wang Z,Peng Y,etal.Cascaded pyramid network for multi-person pose estimation.Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition(CVPR).2018:7103-7112.)，这是当前两阶段算法中一种主流且鲁棒的二维人体姿态估计算器。输入包含人体信息的RGB图像，利用预训练好的二维人体姿态估计器从图片中提取出二维关节点坐标。

其中，步骤4)中的局部关节点构建模块主要利用图卷积网络，利用邻接矩阵模仿人体关节点间的物理连接关系，其提取的主要是直接相连的关节点间的特征。

其中，步骤5)中的肢体内约束模块主要关注的是四肢内部的特征，其利用卷积神经网络来提取每个肢体的特征，并将这种肢体特征和高误差的肢体末端关节点融合，有效的利用整个肢体的运动趋势来约束具有高灵活度故难以预测的末端关节点。

其中，步骤6)中的全局信息交互模块主要关注的是长距离的关节点间信息交互，其利用自注意力机制捕获全身层次的关节点间交互。

其中，步骤4)，5)，6)分通道对人体拓扑中的结构信息分层次提取，依次连接，并在8)中聚合处理，由此在总参数量保持的情况下获取了更丰富的多层次信息。

其中，步骤9)中的所述的回归过程是通过一个全连接层实现。

下面进一步说明本发明的人体拓扑感知网络主要包含的三个针对人体不同层次结构的子模块：局部关节点构建模块、肢体内约束模块和全局信息交互模块。

(1)局部关节点构建模块

本模块利用图卷积网络构建人体关节点间的物理连接，定义为：

其中，

表示第l层中人体17个关节点的C个通道上的高维特征，σ是激活函数，

是对角节点度矩阵，W是一个可学习的权重矩阵，

表示对称归一化的邻接矩阵，A表示邻接矩阵，I是单位矩阵，其中的邻接矩阵中本发明只关注物理上直接相连的关节点。由此，本模块将主要关注邻接关节点层面的特征信息。

本发明的一个实施例中，所述的局部关节点构建模块利用两个图卷积、两个层正则化和一个“高斯误差线性单元”激活函数的统一框架来模拟人体关节点层次的物理连接关系。

(2)肢体内约束模块

因为同一个肢体内的关节点往往运动趋势相同，且根据距离躯干部分的远近可以分为上游关节点和下游关节点。上游关节点(例如肩关节)运动幅度小，运动姿态简单，往往可以辅助和约束下游关节点的预测(例如肘关节，腕关节)。参照图2，本发明首先在四肢中选取了两组关节点：

和

前者由四个肢体中末端的两个关节点组成，后者由四肢的全部三个关节点组成。接下来，本发明利用卷积操作提取出表征每个肢体运动趋势的肢体特征

其中，GELU(·)是激活函数，Conv₁和Conv₂分别是卷积核为2和3的一维标准卷积，LN(·)是标准层正则化，MLP是空间多层感知器。

随后，本模块利用这种运动约束关系，通过简单替换操作构造了两种拓扑约束。对于X₁，用肢体特征

来替换肢体最末端的关节点得到Y₁，由于

包含了上游父关节点和末端关节点特征，由此可以很好的利用上游父关节点的运动特征来约束具有高误差的末端关节点的运动；同理，对于X₂，扩大了约束范围，用肢体特征表示

来替换肢体最末端的两个关节点并得到Y₂。最后，本模块的输出是原本的输入X和被替换特征的结合：

Y＝Y₁+Y₂+X

综上所述，引入同一肢体中的父节点来约束具有高运动复杂度的末端关节点的运动，这种拓扑约束可以有效缓解末端关节点的误差，并协助产生更加合理的三维姿态估计。

(3)全局信息交互模块

本模块利用自注意力机制可以很好的捕获全身关节点间的长距离特征，这在人体姿态估计领域已经被广泛的运用，其具体实现方式如下所示：

X_l+1＝Concat(H₁,H₂,...,H_h)W_out

其中，h是自注意力头的数量，Q_l,K_l,V_l分别是由X_l通过线性变化计算出来的输入查询、索引、内容矩阵，Concat表示连接操作，H₁,H₂,...,H_h表示自注意力机制中的注意头，h表示注意头的数量，W_out表示可学习的权重矩阵。

对于这三个子模块的连接方式，本发明设计了一种分层连接结构。一方面，对于输入的高维特征通道进行拆分，并采用并行处理的方式来控制模型的参数量；另一方面，本发明串行连接分别处理关节点、肢体、全身层次特征的三个子模块，从而获得从细粒度到粗粒度的特征提取。图3和图4中的可视化结果充分体现了本发明的准确性和鲁棒性，能够激发更多对于人体拓扑结构先验的发明研究。

本发明的另一个实施例提供一种基于人体拓扑感知网络的三维人体姿态估计系统，其包括：

通道拆分模块，用于将高维向量划分为三部分子向量；

其中各模块的具体实施过程参见前文对本发明方法的描述。

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的最佳实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。

Claims

1.一种基于人体拓扑感知网络的三维人体姿态估计方法，其特征在于，包括以下步骤：

利用预训练好的二维人体姿态估计器从包含人体信息的图片中提取出二维关节点坐标；

利用空间特征嵌入模块将二维关节点坐标填充为高维向量；

将高维向量划分为三部分子向量；

将各子向量中提取到的分层次信息依次连接并聚合；

2.如权利要求1所述的方法，其特征在于，利用均方根损失函数对输出的关节点的三维坐标和真实值间进行监督学习。

3.如权利要求1所述的方法，其特征在于，所述的局部关节点构建模块采用图卷积网络，利用邻接矩阵模仿人体关节点间的物理连接关系；所述邻接矩阵仅考虑人体关节点间的物理连接和每个关键点与该关键点的自身相连。

4.如权利要求1所述的方法，其特征在于，所述的肢体内约束模块由两组一维标准卷积和空间感知器组成；该模块利用一维标准卷积和替换操作，引入同一肢体中的父节点来约束具有高运动复杂度的末端关节点的运动；所述的两组一维标准卷积的卷积核分别是2和3，其跨步值也分别为2和3。

5.如权利要求1所述的方法，其特征在于，所述的全局信息交互模块利用自注意力机制捕获全身关节点层次的长距离特征；所述的自注意力机制包含多个自注意力头，且仅考虑关节点间的空间信息交互。

6.如权利要求1所述的方法，其特征在于，所述的将各子向量中提取到的分层次信息依次连接并聚合的过程结合了并行和串行的框架，一方面对于输入的高维特征通道进行拆分，并采用并行处理的方式来控制模型的参数量；另一方面，依次串行连接局部关节点构建模块、肢体内约束模块和全局信息交互模块，从而获得从细粒度到粗粒度的特征提取。

7.如权利要求1所述的方法，其特征在于，所述的预测头模块包含一层全连接网络。

8.一种基于人体拓扑感知网络的三维人体姿态估计系统，其特征在于，包括：

通道拆分模块，用于将高维向量划分为三部分子向量；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。