CN114241515A

CN114241515A - 一种基于时空上下文特征感知的三维人体姿态估计方法

Info

Publication number: CN114241515A
Application number: CN202111373663.4A
Authority: CN
Inventors: 刘盛; 李超楠; 姚璐; 邹思宇; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-25

Abstract

本发明公开了一种基于时空上下文特征感知的三维人体姿态估计方法，从视频每一帧中提取相应的二维人体姿态，并组成二维人体姿态骨架数据序列，利用空间上下文感知模块依次处理二维骨架序列从中获取人体结构隐含的几何约束信息特征，通过时间上下文感知模块从整个二维人体骨架序列数据中提取内在的时间特征，最后利用回归模块从前述模块生成的特征中回归出相应的三维人体姿态。本发明显著地提升三维人体姿态估计精度，并且消耗的计算资源更少，有较强的鲁棒性。

Description

一种基于时空上下文特征感知的三维人体姿态估计方法

技术领域

本申请属于三维人体姿态估计技术领域，尤其涉及一种基于时空上下文特征感知的三维人体姿态估计方法。

背景技术

三维人体姿态估计是计算机视觉领域的一项基础研究，也是一个热点研究方向。其在虚拟现实、人机交互、行为分析等领域有着广泛的应用。近年来，尽管基于深度学习的方法取得巨大进步，但是由于二维表征数据中固有的深度歧义性和广泛存在的自遮挡现象，导致三维人体姿态估计仍然是一项极具挑战性的任务。

目前存在的三维人体姿态估计方法主要分为两类：(1)直接从图像中估计三维人体姿态；(2)先从图像中估计二维人体姿态，然后在回归出三维人体姿态。前者需要大量的计算资源，并且受限于有限的三维标注数据。后者将三维人体姿态估计整个任务进行拆分，使得预测难度下降。并且，二维姿态检测拥有大量的标注数据，且已经取得很好的精度。但是一个二维姿态往往可以对应多个不同的三维姿态，尤其是存在自遮挡的情况下。这种二维表征数据中固有的深度歧义性问题，极大的影响预测的精度。

为了解决深度歧义性问题，利用注意力机制高效地从二维人体姿态中学习隐含的几何约束信息是一种有效的方式。此外，已有的三维人体姿态估计方法在视频上连续预测时，常常会出现不连贯、抖动的预测结果。这是由于，人体是高度自由和非线性的软体结构，且常常出现自遮挡的现象。已有的基于单帧图像的三维人体估计方法，缺乏时序信息间的关联和约束，无法胜任连续视频下的预测任务。因此，构建一种有效的时间提取模型更有利于模型的鲁棒性和通用性。

发明内容

本申请的目的是提供一种基于时空上下文特征感知的三维人体姿态估计方法，以提高预测精度。

为了实现上述目的，本申请技术方案如下：

一种基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述基于时空上下文特征感知的三维人体姿态估计方法，包括：

输入单目视频中连续F帧，检测出人体边界框，然后采用级联金字塔结构的二维人体姿态检测器对每一帧进行二维人体关节点坐标的检测，并组成一个二维人体骨架序列；

对二维人体骨架序列的每一个二维人体骨架进行归一化处理，对归一化处理后的二维人体骨架中关节点坐标进行升维，得到升维后的骨架特征；

将升维后的骨架特征输入到空间上下文感知模块，提取包含人体关节点间的几何依赖信息的依赖关系特征；

将依赖关系特征输入时间多层感知网络模块，在时间维度上进一步提取时间信息，得到时间上下文特征；

将时间上下文特征在时间维度均值化，然后进行归一化，接着通过一个全连接层，预测对应的三维人体姿态结果。

进一步的，所述对二维人体骨架序列的每一个二维人体骨架进行归一化处理，包括：

对于二维人体骨架序列中的每一个二维人体骨架，每个关节点的二维坐标减去臀部关节点的二维坐标，从而得到归一化后的二维人体骨架。

进一步的，所述将升维后的骨架特征输入到空间上下文感知模块，提取包含人体关节点间的几何依赖信息的依赖关系特征，包括：

3.1)、首先根据预设的人体结构，通过以下公式，构建结构矩阵

其中S_(i,p)代表结构矩阵S中第i行，第p列的元素，MD(i,p)代表第i个人体关节点和第p个人体关节点间的流式距离，关节点间的流式距离由预设的人体骨架结构图所决定，K代表预定义的超参数。

3.2)、将结构矩阵S及升维后的骨架特征x_new输入空间上下文感知模块进行骨架特征学习，该空间上下文感知模块由N个相同结构的姿态编码器串联构成；结构矩阵S及升维后的骨架特征x_new经过第一个姿态编码器后得到特征矩阵，该特征矩阵与骨架特征x_new维度大小相同，后一个姿态编码器的输入为前一个姿态编码器输出的特征矩阵以及结构矩阵S；经过N个姿态编码器后，输出特征

将输出特征

经过LayerNorm层进行归一化，得到包含人体关节点间的几何依赖信息的依赖关系特征

进一步的，所述姿态编码器，执行如下操作：

首先将结构矩阵S展平成维度为1×J²的一维向量，并将其输入骨架注意力模块，其中骨架注意力模块由一层J²个神经元的全连接层和一层sigmoid激活函数组成，输出注意力向量

将输入的特征矩阵首先经过LayerNorm层，然后经过转置操作将维度变成C_s×J，接着经过一层包含J²个神经元的全连接层和一层GELU激活函数，得到中间特征其维度大小为C_s×J²，然后将该中间特征与注意力向量W_Att做元素乘法操作，得到注意力特征矩阵，最后将注意力特征矩阵经过一层包含J个神经元的全连接层得到骨架注意力特征矩阵W_SA维度大小为C_s×J，最后将骨架注意力特征矩阵W_SA经过转置操作将维度变成J×C_s并且与输入特征x_new相加，得到残差特征值W_Ra；

然后，将残差特征值W_Ra在经过LayerNorm层，以及一层包含C_s个神经元的全连接层和一层GELU激活函数，进一步学习骨架特征，最后再经过一层包含C_s个神经元的全连接层后将输出与残差特征值W_RA相加，得到一个新的残差特征W_{New_RA}维度大小为J×C_s；W_{New_RA}即为当前姿态编码器输出的特征矩阵。

进一步的，所述将依赖关系特征输入时间多层感知网络模块，在时间维度上进一步提取时间信息，得到时间上下文特征，包括：

4.1)、将每一个二维人体骨架的依赖关系特征进行拼接，组成骨架特征序列，然后将骨架特征序列的第二、三维展平成一维，形成新骨架特征序列；

4.2)将新骨架特征序列输入时间多层感知网络模块，输出的特征进行归一化，得到时间上下文特征。

进一步的，所述时间多层感知网络模块由多个相同结构的多层感知混合器串联构成，每一个多层感知混合器执行如下操作：

首先经过LayerNorm层进行归一化，接着使用转置操作将输入特征维度变成C_t×F，接着经过一层包含D_s个神经元的全连接层，一层GELU激活函数和一层包含F个神经元的全连接层，得到中间特征其维度大小为C_t×F，接着将中间特征经过转置操作将维度变成F×C_t，并且与输入特征相加，得到残差特征值

然后将残差特征值F_{T_Ra}经过LayerNorm层进行归一化，以及一层包含D_c个神经元的全连接层和一层GELU激活函数，进一步学习时间特征，最后再经过一层包含C_t个神经元的全连接层后将输出与残差特征值F_{T_Ra}相加，得到一个新的残差特征F_{New_T_Ra}维度大小为F×C_t，F_{New_T_Ra}即为当前多层感知混合器输出的时间特征矩阵。

进一步的，所述将时间上下文特征在时间维度均值化，然后进行归一化，接着通过一个全连接层，预测对应的三维人体姿态结果，包括：

将时间上下文特征F_TC首先经过LayerNorm层进行归一化，接着在时间维度进行均值化操作，得到最终的时间特征

将时间特征F_{T_Final}再经过LayerNorm层进行归一化，然后紧跟一层包含J×3个神经元的全连接层得到最终的预测结果

进一步的，所述基于时空上下文特征感知的三维人体姿态估计方法，还包括：

构建损失函数：

其中γ代表预测的结果，

代表真实数据结果，k代表人体骨架中第k个关节点。

本申请提出的一种基于时空上下文特征感知的三维人体姿态估计方法与现有技术相比，具有如下优点与有益效果：

1、本申请提出的基于空间上下文特征的方案，能有效学习人体骨架内在的几何约束信息，从而缓和三维人体姿态估计中存在的自遮挡及深度歧义性问题，进一步提升三维人体姿态估计精度。

2、目前的基于单帧图像的三维人体姿态检测方法在连续视频流上检测时存在严重的抖动问题，本发明提出的基于时间上下文特征的方案能显著减少抖动的预测结果，得到稳定的预测结果。

3、本申请的网络都是采用简单的全连接层，网络结构简单，计算快速高效，节约计算资源，从而能达到实时预测的效果。

附图说明

图1为本申请一种基于时空上下文特征感知的三维人体姿态估计方法流程图；

图2为预定义的人体17个人体骨架关节点示意图；

图3为本申请基于时空上下文特征感知的三维人体姿态估计方法所采用的网络框架图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供的一种基于时空上下文特征感知的三维人体姿态估计方法，如图1所示，具包括：

步骤S1：输入单目视频中连续F帧，检测出人体边界框，然后采用级联金字塔结构的二维人体姿态检测器对每一帧进行二维人体关节点坐标的检测，并组成一个二维人体骨架序列。

对输入的单目视频中连续243帧，首先采用Mask R-CNN进行人体边界框检测，其中Mask R-CNN使用ResNet101作为主干网，然后利用级联金字塔结构的二维人体姿态检测器(CPN)进行二维人体姿态估计。对于CPN，本申请使用分辨率384×288的ResNet-50作为主干网。并且Mask R-CNN与CPN，从COCO上的预训练模型开始，并在Human3.6M上微调检测器，以学习一组新的人体关节点，并组成一个二维人体骨架序列

步骤S2、对二维人体骨架序列的每一个二维人体骨架进行归一化处理，对归一化处理后的二维人体骨架中关节点坐标进行升维，得到升维后的骨架特征。

所述对二维人体骨架序列的每一个二维人体骨架进行归一化处理，包括：

即针对步骤1生成的二维人体骨架序列，我们首先对二维人体骨架序列中的每一个二维人体骨架

(如图2所示)，i代表X_seq中第i个人体骨架，进行归一化操作。其目的在于我们不关注三维人体骨架的全局位置，而在于三维人体骨架关节点间的相对位置。具体操作为将xⁱ中每个关节点的二维坐标减去臀部关节点的二维坐标，从而得到归一化后的二维人体骨架

(如图3所示，归一化后的人体二维坐标)。

然后对

进行升维操作，将其通过一个包含32个神经元的全连接层如图3所示，FC)对

中关节点坐标进行升维，升维后输出数据维度为

其中，32个神经元即为升维后的维度。

步骤S3、将升维后的骨架特征输入到空间上下文感知模块，提取包含人体关节点间的几何依赖信息的依赖关系特征。

本步骤将升维后的二维人体骨架输入到空间上下文感知模块，提取人体关节点间的几何依赖信息，包括以下步骤：

3.1)、首先根据预设的人体结构，构建结构矩阵。

如图2所示，通过以下公式，构建结构矩阵

例如，根据图2定义左臀部与臀部之间的流式距离为1，因为他们是直接相连的，左臀部与右臀部之间的流式距离为2，因为他们中间隔着臀部关节点。在本实施例中，将K预设为3。

将输出特征

将结构矩阵S及升维后的骨架特征x_new输入空间上下文感知模块进行骨架特征学习，该空间上下文感知模块由3个相同结构的姿态编码器串联构成。结构矩阵S及升维后的骨架特征x_new经过第一个姿态编码器后得到特征矩阵，该特征矩阵与骨架特征x_new维度大小相同，后一个姿态编码器的输入为前一个姿态编码器输出的特征矩阵及结构矩阵S。经过3个姿态编码器后，输出特征

并经过LayerNorm层进行归一化，得到最终特征

其中所述的姿态编码器，执行如下操作：

具体的，如图3所示，首先将结构矩阵S展平成维度为(1×289)的一维向量，并将其输入骨架注意力模块，其中骨架注意力模块由一层289个神经元的全连接层和一层sigmoid激活函数组成，输出注意力向量

将输入的特征矩阵(如果是第一个姿态编码器则输入为骨架特征x_new)首先经过LayerNorm层，然后经过转置操作将维度变成(32×17)，接着经过一层包含289个神经元的全连接层和一层GELU激活函数，得到中间特征其维度大小为(32×289)，然后将该中间特征与注意力向量W_Att做元素乘法操作，得到注意力特征矩阵，最后将注意力特征矩阵经过一层包含17个神经元的全连接层得到骨架注意力特征矩阵W_SA维度大小为(32×17)，最后将骨架注意力特征矩阵W_SA经过转置操作将维度变成(17×32)并且与输入特征x_new相加，得到残差特征值W_Ra。然后，将残差特征值W_Ra在经过LayerNorm层，以及一层包含32个神经元的全连接层和一层GELU激活函数，进一步学习骨架特征，最后再经过一层包含32个神经元的全连接层后将输出与残差特征值W_RA相加，得到一个新的残差特征W_{New_RA}维度大小为(17×32)。W_{New_RA}即为当前姿态编码器输出的特征矩阵。

步骤S4、将依赖关系特征输入时间多层感知网络模块，在时间维度上进一步提取时间信息，得到时间上下文特征。

将依赖关系特征输入时间多层感知网络模块，在时间维度上进一步提取时间信息，包括：

4.1)、将每一个二维人体骨架的依赖关系特征进行拼接，组成骨架特征序列，然后将骨架特征序列的第二、三维展平成一维，形成新骨架特征序列。

利用步骤3对二维人体骨架序列中的每一个二维人体骨架提取骨架特征

并将每一个骨架特征进行拼接，然后组成骨架特征序列

最后将骨架特征序列β的第二、三维展平成一维，形成新骨架特征序列

4.2)、将新骨架特征序列输入时间多层感知网络模块，输出的特征进行归一化，得到时间上下文特征。

将上一步得到的特征序列β₀输入时间上下文特征感知模块，学习帧间的时间一致性信息。时间多层感知网络模块由多个相同结构的多层感知混合器串联构成。在本实施例中时间多层感知网络模块由多个相同结构的多层感知混合器串联构成。

每一个多层感知混合器执行如下操作：：

特征序列β₀经过第一个多层感知混合器后得到时间特征矩阵，时间特征矩阵与β₀维度大小相同，后一个多层感知混合器的输入为前一个多层感知混合器输出的时间特征矩阵。经过8个多层感知混合器后，输出特征

将输出的特征经过LayerNorm层进行归一化，得到时间上下文特征

所述的时间多层感知网络模块，将时间特征矩阵(如果是第一个多层感知混合器则输入为特征序列β₀)首先经过LayerNorm层进行归一化，接着使用转置操作将特征序列维度变成(544×243)，接着经过一层包含256个神经元的全连接层，一层GELU激活函数和一层包含243个神经元的全连接层，得到中间特征其维度大小为(544×243)，接着将中间特征经过转置操作将维度变成(243×544)，并且与输入的特征相加，得到残差特征值

然后将残差特征值F_{T_Ra}经过LayerNorm层进行归一化，以及一层包含512个神经元的全连接层和一层GELU激活函数，进一步学习时间特征，最后再经过一层包含544个神经元的全连接层后将输出与残差特征值F_{T_Ra}相加，得到一个新的残差特征F_{New_T_Ra}维度大小为(243×544)。F_{New_T_Ra}即为当前多层感知混合器输出的时间特征矩阵。

步骤S5、将时间上下文特征在时间维度均值化，然后进行归一化，接着通过一个全连接层，预测对应的三维人体姿态结果。

本步骤将时间上下文特征F_TC首先经过LayerNorm层进行归一化，接着在时间维度进行均值化操作，得到最终的时间特征

然后将时间特征F_{T_Final}再经过LayerNorm层进行归一化，然后紧跟一层包含J×3个神经元的全连接层得到最终的预测结果

具体的，将时间上下文特征在时间维度均值化，从而获得输入的二维人体骨架序列中间帧相对应的三维人体姿态结果，包括以下步骤：

将时间特征F_{T_Final}在经过LayerNorm层进行归一化，然后紧跟一层包含(51)个神经元的全连接层得到最终的预测结果

在一个具体的实施例中，本申请基于时空上下文特征感知的三维人体姿态估计方法，还包括：

构建损失函数：

其中γ代表预测的结果，

代表真实数据结果，k代表人体骨架中第k个关节点。通过该损失函数可以精确的计算网络预测结果与真实数据结果之间的误差，从而反向传播给神经网络，更新网络的参数，促使神经网络学习有用的信息，并提高预测精度。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述基于时空上下文特征感知的三维人体姿态估计方法，包括：

2.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述对二维人体骨架序列的每一个二维人体骨架进行归一化处理，包括：

3.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述将升维后的骨架特征输入到空间上下文感知模块，提取包含人体关节点间的几何依赖信息的依赖关系特征，包括：

其中S_(i，p)代表结构矩阵S中第i行，第p列的元素，MD(i，p)代表第i个人体关节点和第p个人体关节点间的流式距离，关节点间的流式距离由预设的人体骨架结构图所决定，K代表预定义的超参数。

将输出特征

4.根据权利要求3所述的基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述姿态编码器，执行如下操作：

然后，将残差特征值W_Ra在经过LayerNorm层，以及一层包含C_s个神经元的全连接层和一层GELU激活函数，进一步学习骨架特征，最后再经过一层包含C_s个神经元的全连接层后将输出与残差特征值W_RA相加，得到一个新的残差特征W_Ne_{w_RA}维度大小为J×C_s；W_{New_RA}即为当前姿态编码器输出的特征矩阵。

5.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述将依赖关系特征输入时间多层感知网络模块，在时间维度上进一步提取时间信息，得到时间上下文特征，包括：

6.根据权利要求4所述的基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述时间多层感知网络模块由多个相同结构的多层感知混合器串联构成，每一个多层感知混合器执行如下操作：

7.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述将时间上下文特征在时间维度均值化，然后进行归一化，接着通过一个全连接层，预测对应的三维人体姿态结果，包括：

8.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法，其特征在于，所述基于时空上下文特征感知的三维人体姿态估计方法，还包括：

构建损失函数：

其中γ代表预测的结果，

代表真实数据结果，k代表人体骨架中第k个关节点。