CN113989854A

CN113989854A - 一种三维人体姿态估计方法、系统、装置及介质

Info

Publication number: CN113989854A
Application number: CN202111384850.2A
Authority: CN
Inventors: 熊红凯; 李涵; 史博文; 戴文睿; 李成林; 邹君妮
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-01-28

Abstract

本发明公开了一种三维人体姿态估计方法、系统、装置及介质，构建方法包括：通过对人体稠密表面的图拓扑结构进行粗化操作，得到不同粗化层次的图拓扑结构，该粗化图拓扑结构相较于人体骨架图拓扑结构更为稠密；结合人体骨架图拓扑结构，从稀疏到稠密，依次构建具有多条并行分支的图卷积神经网络；通过多尺度特征融合模块来连接不同分支，实现分支间的信息交互，构建得到层次化的图卷积神经网络。该三维人体姿态估计系统包括：层次化图卷积网络的构建单元、图卷积神经网络的训练单元及三维人体姿态估计单元，通过本发明，可以节约网络模型的参数量，并且能够显著提高含有自遮挡和复杂动作的姿态估计准确率。

Description

一种三维人体姿态估计方法、系统、装置及介质

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种用于三维人体姿态估计的图卷积网络构建方法、系统及三维人体姿态估计系统、装置及介质。

背景技术

三维人体姿态估计旨在通过单张单目图像来预测人体关节点的三维空间位置，作为计算机视觉领域中的热点，三维人体姿态估计具有广阔的研究前景，也被广泛地应用于各个领域中，如行为异常检测、行为识别等。最近几年，二维人体姿态估计的性能得到了大幅度的提升，因此越来越多的工作使用估计得到的关节点的二维坐标来回归其对应的三维坐标。由于人体骨架可以看作是一个图拓扑结构，因此可以利用图卷积神经网络来对其关节点之间的关系进行建模。图卷积神经网络通过设计有效的相似度度量或利用谱图卷积，模拟了传统卷积神经网络中的卷积操作，分别对应空域和谱域图卷积神经网络。它们综合了图结构对人体骨架的表示能力以及卷积网络对高维信号强大的特征学习能力，在三维人体姿态估计等任务中取得了可观的成果。

经过对现有技术的文献检索发现，现有基于图卷积神经网络进行三维人体姿态估计任务的主要困难在于难以克服二维到三维映射的不唯一性，因此该问题是一个病态问题。现有方法在建模图神经网络时，采用的图拓扑结构通常是人体骨架拓扑，该图拓扑结构具有较稀疏的节点数(如17个)，而这种稀疏性不能很好对人体骨架的进行局部性的建模，导致了上述病态问题更加严重。因此，在面对人体关节点存在遮挡的场景和一些复杂的动作时，往往难以估计准确的三维关节点坐标。

发明内容

本发明针对上述现有技术中存在的问题，提出了一种三维人体姿态估计方法、系统、装置及介质，节约人为设计参数的工作量和时间，更好地捕捉局部化信息，在能够显著提高含有自遮挡和复杂动作的姿态估计准确率同时，减少了模型的参数量。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明的第一方面，提供一种用于三维人体姿态估计的网络构建方法，包括：

S11：通过对人体稠密表面的图拓扑结构进行粗化操作，得到不同粗化层次的图拓扑结构；

S12：根据S11得到的人体粗化表面图拓扑结构，结合人体骨架图拓扑结构，从稀疏到稠密，依次构建具有多条并行分支的图卷积神经网络结构；

S13：根据S12得到的多并行分支图卷积网络结构，通过多尺度特征融合模块来连接不同分支，实现分支间的信息交互，构建得到层次化图卷积神经网络。

优选地，所述S11进一步包括：在粗化阶段，将某些图结点合并在一起，得到下一级粗化图，重复此过程直到粗化图足够小为止。

优选地，所述S12进一步包括：

根据S11得到的不同粗化层次人体表面图拓扑结构

选取其中粗化等级最高的两个图拓扑

以及人体骨架图拓扑结构g_P，按照图拓扑结构的节点个数，从稀疏到稠密，依次构建具有三条并行的图卷积神经网络分支，每个分支具有不同的图拓扑结构。

优选地，所述S12中的图卷积神经网络分支进一步包括多个残差图卷积模块：

根据S12中三条并行的图卷积神经网络分支的图拓扑结构中的粗化程度，为每条图卷积神经网络分支分配不同个数的残差图卷积模块。其中残差图卷积模块包含两层图卷积层、两层非线性激活层、两层批归一化层以及一层非局部模块层。

优选地，所述S13进一步包括：多尺度特征融合模块通过1x1卷积来建模不同图拓扑结构之间节点的映射关系，从而实现信息交互。

本发明的第二方面，提供一种用于三维姿态估计的图卷积网络构建系统，包括：图粗化单元、多分支图卷积神经网络结构构建单元、层次化图卷积神经网络构建单元；其中，

所述图粗化单元通过对人体稠密表面的图拓扑结构进行粗化操作，得到不同粗化层次的图拓扑结构；

所述多分支图卷积神经网络结构构建单元根据所诉图粗化单元得到的人体粗化表面图拓扑结构，并结合人体骨架图拓扑结构，从稀疏到稠密，依次构建具有多条并行分支的图卷积神经网络结构；

所述根据层次化图卷积神经网络构建单元，基于述多分支图卷积神经网络结构构建单元得到的多并行分支图卷积网络结构，通过多尺度特征融合模块来连接不同分支，实现分支间的信息交互，构建得到层次化图卷积神经网络。

本发明的第三方面，提供一种三维人体姿态估计方法，包括：

利用上述得到的层次化图卷积神经网络；

对所述层次化图卷积神经网络进行训练；

利用训练得到的图卷积神经网络进行三维人体姿态估计。

本发明的第四方面，提供一种维人体姿态估计系统，包括：图卷积神经网络的构建单元、图卷积神经网络的训练单元以及三维人体姿态估计单元；其中，

所述图卷积神经网络的构建单元利用上述构建得到的层次化图卷积神经网络；

所述图卷积神经网络的训练单元用于对所述图卷积神经网络的构建单元构建的所述图卷积神经网络进行训练；

所述三维人体姿态估计用于利用所述图卷积神经网络的训练单元训练得到的图卷积神经网络进行三维人体姿态估计。

本发明的第五方面，提供一种于三维人体姿态估计装置，包括：存储器以及处理器；其中，

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序实现如上述所述的用于三维人体姿态估计的网络构建方法，或实现如上述所述的用于于三维人体姿态估计的网络构建单元，或实现如上述所述的于三维人体姿态估计系统。

本发明的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时用于执行所述的用于三维姿态估计的图卷积网络构建方法，或执行所述的三维人体姿态估计方法。

相较于现有技术，本发明实施例具有如下至少一种有益效果：

(1)本发明提供的用于三维人体姿态估计的网络构建方法、系统及三维人体姿态估计系统、装置，通过将引入较人体骨架更稠密的图拓扑结构，能够更好地捕获局部信息。；

(2)本发明提供的用于三维人体姿态估计的网络构建方法、系统及三维人体姿态估计系统、装置，通过S13的网络构建方法，能够更紧凑地对输入数据进行特征提取，节约网络模型参数量。

(3)本发明的提供的用于三维人体姿态估计的网络构建方法、系统及三维人体姿态估计系统、装置，通过一种与具体图卷积方式无关的网络构建算法，因此可以方便地嵌入到现有的各种图卷积方式中，能够显著提高含有自遮挡和复杂动作的姿态估计准确率，具有很强的灵活性和可扩展性。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明的实施例的用于三维人体姿态估计的网络构建方法的流程图；

图2为本发明的实施例的用于三维人体姿态估计的网络构建系统的结构示意图；

图3为本发明的实施例的三维人体姿态估计的结构示意图；

图4为本发明一具体实例中三维人体姿态估计示意图；

标号说明：11-图粗化单元，12-多分支图卷积神经网络结构构建单元，13-层次化图卷积神经网络构建单元

21-图卷积神经网络的构建单元，22-图卷积神经网络的训练单元，23-三维人体姿态估计单元。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。以下实施例中没有详细说明的部分可以采用现有技术实现。

如图1所示，为本发明一实施例的用于三维人体姿态估计的网络构建方法的流程图。

请参考图1，本实施例的用于三维人体姿态估计的网络构建方法包括以下步骤：

较佳实施例中，S11进一步包括：

S111:根据人体表面模型得到人体稠密表面的图拓扑结构

S112:考察图拓扑结构节点之间的权重关系，将某些图结点合并在一起，得到粗化图；

S113:重复上述操作直到粗化图足够小为止，最后得到不同粗化层次的图拓扑结构

较佳实施例中，S12进一步包括：

S121:根据S11得到的不同粗化层次人体表面图拓扑结构

选取其中粗化等级最高的两个图拓扑

以及人体骨架图拓扑结构g_P,作为所需三个图拓扑结构。

S122:通过两层图卷积层、两层非线性激活层、两层批归一化层以及一层非局部模块层构建得到残差图卷积模块，按照图卷积、非线性激活、批归一化、图卷积、非线性激活、批归一化、非局部模块串行排列；

S123：按照图拓扑结构的节点个数，从稀疏到稠密，依次构建具有三条并行的图卷积神经网络分支，每个分支具有不同的图拓扑结构和不同个数的残差图卷积模块。

较佳实施例中，S13进一步包括：多尺度特征融合模块通过1x1卷积来建模不同图拓扑结构之间节点的映射关系，从而实现信息交互。具体为：

给定输入的不同图拓扑结构对应的特征X₀,X₁,…,X_s，其中下标代表图拓扑结构的尺度，得到融合并输出后的每个图拓扑结构对应的特征Y_j：

其中a代表1x1卷积，i,j分别代表输入和输出特征对应的尺度。

如图2所示，为本发明的实施例的用于三维人体姿态估计的网络构建系统的结构示意图。

请参考图2，本实施例的用于三维人体姿态估计的网络构建方法系统包括：图粗化单元11、多分支图卷积神经网络结构构建单元12、层次化图卷积神经网络构建单元13。其中：

图粗化单元11用于通过对人体稠密表面的图拓扑结构进行粗化操作，得到不同粗化层次的图拓扑结构；图粗化单元的作用在于，得到不同层次的图拓扑结构，并且该图拓扑结构相较于常用的人体骨架结构更为稠密，能够使得获取更多局部信息。

多分支图卷积神经网络结构构建单元12用于图粗化单元S11得到的人体粗化表面图拓扑结构，结合人体骨架图拓扑结构，从稀疏到稠密，依次构建具有多条并行分支的图卷积神经网络结构；多分支图卷积神经网络结构构建单元在于，不同分支具有不同尺度的图拓扑结构，对于捕捉人体不同尺度的结构信息。

层次化图卷积神经网络构建单元13用于根据多分支图卷积神经网络结构构建单元12得到的多并行分支图卷积网络结构，通过多尺度特征融合模块来连接不同分支，实现分支间的信息交互，构建得到层次化图卷积神经网络。

如图3所示，为本发明的一实施例的三维人体姿态估计系统的结构示意图。

请参考图3，本实施例的三维人体姿态估计系统包括：图卷积神经网络的构建单元21、图卷积神经网络的训练单元22以及三维人体姿态估计单元23。其中，图卷积神经网络的构建单元21利用上述实施例的用于三维人体姿态估计网络构建方法构建图卷积神经网络；或利用上述实施例的用于三维人体姿态估计网络构建系统构建图卷积神经网络。图卷积神经网络的训练单元22用于对图卷积神经网络的构建单元构建的图卷积神经网络进行训练。三维人体姿态估计单元23用于利用图卷积神经网络的训练单元22训练得到的图卷积神经网络进行三维人体姿态估计。

基于上述相同的技术沟通，本发明实施例还提供一种三维人体姿态估计方法，其特征包括：利用的用于三维人体姿态估计的图卷积神经网络构建方法构建得到层次化图卷积神经网络；对层次化图卷积神经网络进行训练；利用训练得到的图卷积神经网络进行三维人体姿态估计。

为了更好对上述的各部分进行理解，以下结合一个详细的应用实例来说明。本实施例提供了一种三维人体姿态估计系统统，该系统中采用上述的层次化图卷积神经网络构建方法，该实施例在输入的一批(64个)二维人体关节点上并行执行，每组二维人体关节点包括多个点，每个点包含其在图像坐标系下的二维坐标信息。三维人体姿态估计通过图卷积神经网络回归得到每个关节点对应的三维坐标信息。为清晰地叙述执行过程，下面以节点个数为17的人体骨架拓扑结构以及节点数为6890的人体稠密表面图拓扑结构为例，说明用于三维人体姿态估计的网络结构构造方法为例具体说明。

1.图粗化单元

图粗化单元的主要作用为获取不同层次的图拓扑结构，并且该图拓扑结构相较于常用的人体骨架结构更为稠密，能够使得获取更多局部信息。图粗化单元根据人体表面模型得到具有6890个节点的人体稠密表面的图拓扑结构

考察图拓扑结构节点之间的权重关系，将某些图结点合并在一起，得到粗化图；重复上述操作直到粗化图足够小为止，最后得到不同粗化层次的图拓扑结构

2.多分支图卷积神经网络结构构建单元

多分支图卷积神经网络结构构建单元12用于图粗化单元S11得到的人体粗化表面图拓扑结构，结合人体骨架图拓扑结构，从稀疏到稠密，依次构建具有多条并行分支的图卷积神经网络结构。具体步骤如下：

步骤一，根据图粗化单元得到的不同粗化层次人体表面图拓扑结构

选取其中粗化等级最高的两个图拓扑

以及人体骨架图拓扑结构g_P,作为所需三个图拓扑结构，节点数分别为96，48，17。

步骤二，通过两层图卷积层、两层非线性激活层、两层批归一化层以及一层非局部模块层构建得到残差图卷积模块；

步骤三：根据步骤一得到的三个图拓扑结构的节点个数，从稀疏到稠密，依次构建具有三条并行的图卷积神经网络分支，每个分支具有不同的图拓扑结构和不同个数的残差图卷积模块。

3.层次化图卷积神经网络构建单元

层次化图卷积神经网络构建单元根据多分支图卷积神经网络结构构建单元得到的多并行分支图卷积网络结构，通过多尺度特征多尺度特征融合模块通过1x1卷积来建模不同图拓扑结构之间节点的映射关系，从而实现信息交互。融合模块来连接不同分支，实现分支间的信息交互，构建得到层次化图卷积神经网络。

以上图粗化单元、多分支图卷积神经网络结构构建单元、层次化图卷积神经网络构建单元构成用于三维人体姿态估计的网络构建系统。在实际使用中，可以嵌入到目前各种主流的图卷积方式中，根据所构建的层次化图卷积神经网络，对输入二维人关节点坐标进行特征提取从而回归三维人体关节点坐标，形成完整的三维人体姿态估计系统(图卷积神经网络的构建单元21、图卷积神经网络的训练单元22以及三维人体姿态估计单元23)，采用图卷积神经网络的构建单元21生成优化的图结构，通过层次化图卷积神经网络提取特征后，在三维人体姿态估计单元单元进行三维人体姿态估计单元。

将邻居采样点上的图信号聚合到中心采样点上，同时进行信号的升维和降维。相对于输入的原始二维人体关节点坐标，层次化图卷积神经网络提取得到表示性更强的高维特征。在三维人体姿态估计单元中高维特征再多次通过多层感知机，最终被映射到三维常见的图信号维度变化是2→128→128→128→128→3，其中2和3分别为输入和输出的人体关节点坐标的维度。

实施效果：

本实施例中的可以采用主流的图卷积方式，评价可分为客观评价和主观评价，前者包括对三维人体姿态估计的结果进行数据统计，得到MPJPE等指标；后者包括对三维人体姿态估计的结果进行可视化。本实施例在包含多个动作的Human3.6M数据集与原现有方法的姿态估计结果进行对比。

实验表明，在客观评价方面，本实施相较于现有方法在具有自遮挡和复杂动作上MPJPE具有明显提升，同时在平均MPJPE上也获得了提升。进一步的数据分析证明，采用本实施例方法后，在网络构建方法中，考虑了相较于人体骨架更为稠密的图拓扑结构，意味着神经网络针对输入的二维人体关节点坐标能够捕获更多局部信息，能够在输入二维人体姿态存在复杂动作和自遮挡的情况下，很好的对关节点的结构信息进行表示，有效提升该动作的三维人体姿态估计结果。

采用本实施例的方法后，对于复杂动作和自遮挡动作的三维人体姿态估计效果得到了提升，参考图4的可视化的结果：从上到下三行分别为三个不同的输入动作，左边一列中深色和浅色分别为真值和本实例方法的三维人体姿态估计结果，真值即人为标注的语义类别。右边一列中深色和浅色分别为真值和传统图神经网络结构的三维人体姿态估计结果。深色骨架和浅色骨架越靠近，代表三维人体姿态估计越准确。可以看出，与右列相比，左列的误差明显更小，通过引入层次化的图拓扑结构并构建层次化的神经网络结构，本实施例方法有助于显著提高复杂动作和自遮挡动作的三维人体姿态估计精度。

在本发明另一实施例中，还提供一种三维人体姿态估计装置，其包括：存储器以及处理器。其中，存储器用于存储计算机程序；处理器用于执行计算机程序实现上述实施例的用于三维人体姿态估计的网络构建，或实现上述实施例的用于三维人体姿态估计的网络构建系统，或实现上述实施例的三维人体姿态估计系统。

在本发明另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行所述的用于三维姿态估计的图卷积网络构建方法，或执行所述的三维人体姿态估计方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volati le memory)，例如快闪存储器(英文：flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本领域那些技术人员可以理解，除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何装置的所有过程或单元进行组合。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

Claims

1.一种三维人体姿态估计的图神经网络构建方法，其特征在于，包括：

2.根据权利要求1所述的用于三维姿态估计的网络构建方法，其特征在于，所述S11进一步包括：

在粗化操作时，将某些图结点合并在一起，得到下一级粗化图，重复此过程直到粗化图足够小为止。

3.根据权利要求1所述的用于三维姿态估计的网络构建方法，其特征在于，所述S12进一步包括：

根据S11得到的不同粗化层次人体表面图拓扑结构，选取其中粗化等级最高的两个图拓扑以及人体骨架图拓扑结构，按照图拓扑结构的节点个数，从稀疏到稠密，依次构建具有三条并行的图卷积神经网络分支，每个分支具有不同的图拓扑结构。

4.根据权利要求1所述的用于三维姿态估计的网络构建方法，其特征在于，所述S12中的图卷积神经网络分支进一步包括多个残差图卷积模块：

根据S12中三条并行的图卷积神经网络分支的图拓扑结构中的粗化程度，为每条图卷积神经网络分支分配不同个数的残差图卷积模块，其中残差图卷积模块包含两层图卷积层、两层非线性激活层、两层批归一化层以及一层非局部模块层。

5.根据权利要求1所述的用于三维姿态估计的图卷积网络构建方法，其特征在于，所述S13进一步包括：

多尺度特征融合模块通过1x1卷积来建模不同图拓扑结构之间节点的映射关系，从而实现信息交互。

6.一种用于三维姿态估计的图卷积网络构建系统，其特征在于，包括：

图粗化单元，通过对人体稠密表面的图拓扑结构进行粗化操作，得到不同粗化层次的图拓扑结构；

多分支图卷积神经网络结构构建单元，根据所述图粗化单元得到的人体粗化表面图拓扑结构，并结合人体骨架图拓扑结构，从稀疏到稠密，依次构建具有多条并行分支的图卷积神经网络结构；

层次化图卷积神经网络构建单元，基于所述多分支图卷积神经网络结构构建单元得到的多并行分支图卷积网络结构，通过多尺度特征融合模块来连接不同分支，实现分支间的信息交互，构建得到层次化图卷积神经网络。

7.一种三维人体姿态估计方法，其特征在于，包括：

利用权利要求1至5任一项或权利要求6得到的层次化图卷积神经网络；

对所述层次化图卷积神经网络进行训练；

利用训练得到的图卷积神经网络进行三维人体姿态估计。

8.一种三维人体姿态估计系统，其特征在于，包括：

图卷积神经网络的构建单元，利用如权利要求1至5任一项或权利要求6得到的层次化图卷积神经网络；

图卷积神经网络的训练单元，对所述图卷积神经网络的构建单元构建的所述图卷积神经网络进行训练；

三维人体姿态估计模块，利用所述图卷积神经网络的训练单元训练得到的图卷积神经网络进行三维人体姿态估计。

9.一种三维姿态估计装置，其特征在于，包括：存储器以及处理器；其中，

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序实现权利要求1至5任一项所述的用于三维姿态估计的图卷积网络构建方法，或实现权利要求7所述的三维人体姿态估计方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时用于执行权利要求1至5任一项所述的用于三维姿态估计的图卷积网络构建方法，或执行权利要求7所述的三维人体姿态估计方法。