CN113723237A

CN113723237A - 一种根据相对信息的三维人体姿态估计方法及装置

Info

Publication number: CN113723237A
Application number: CN202110945989.3A
Authority: CN
Inventors: 马思伟; 单文康; 鲁昊鹏; 王苫社; 赵利平
Original assignee: Shaoxing Beida Information Technology Innovation Center
Current assignee: Shaoxing Beida Information Technology Innovation Center
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-30
Anticipated expiration: 2041-08-17
Also published as: CN113723237B

Abstract

本发明是一种根据相对信息的三维人体姿态估计方法，包括以下步骤，输入一段视频序列中所有的二维人体关节点，这一段二维人体关节点首先被送到相对信息编码模块中；原始输入与位置、时间增强表达三者将一同被送入特征融合网络中；在每组中进行三维姿态相关的局部特征提取；在当前帧中提取全局特征；全局特征、局部特征一起送到特征融合模块中；局部特征、混合特征、全局特征被送到解码器中估计三维姿态。

Description

一种根据相对信息的三维人体姿态估计方法及装置

技术领域

本发明属于计算机视觉领域，特别是一种根据相对信息的三维人体姿态估计方法及装置。

背景技术

三维人体姿态估计旨在根据给定的RGB图像或视频中定位三维空间中人体关节的位置。最近的方法遵循两阶段的原理进行三维姿势推理。第一步是定位二维人体关节点，第二步是根据上一步的结果预测相应的三维关节位置。如图1所示，人体的运动可以分为整体运动和局部运动。先前的大多数工作都关注对局部运动的估计，而不是整体运动。它们以相对于根关节(即骨盆)的相对坐标形式表示三维人体关节。

但现有方法缺乏对全局运动的鲁棒性。他们仅将二维姿势的绝对位置用作输入，导致输入和输出的分布之间存在差异。在实际场景下，摄像机的位置经常会移动，这可以视为二维关节点的全局运动。这带来了一个严重的问题，即拥有相同姿势，但却有不同绝对二维位置的人将对应不同的三维关节位置输出。先前的工作在局部运动的预测过程中产生不准确的预测结果。他们利用一段时间内的二维坐标来预测某个特定帧帧中一个人的三维姿势，将每个时间点上的二维姿势均等地对待，而忽略了当前姿势与所有其他姿势之间的关系。这表明神经网络对局部运动中的微小变化不敏感，从而导致在运动范围较小的局部运动上拥有较差的预测性能。

发明内容：

本发明要解决的技术问题是现有算法鲁棒性差以及预测性差。

本发明提出一种根据相对信息的三维人体姿态估计方法，包括如下步骤：

S1,输入带二维人体关节点K的视频,对于视频序列中每一帧，利用关节点与骨盆节点得到相对于骨盆节点的二维相对坐标，将其定义为坐标增强表达K_p；

S2,对于S1中所有的二维人体关节点，将每一帧与当前帧进行时间信息编码操作运算，得到时间增强表达K_T；

S3,对S1中每一帧所包含的关节点进行分组；

S4,对S3中的每一组进行三维姿态的局部特征提取；

S5,对二维人体关节点进行当前位置的提取，得到当前帧中的动作，然后提取当前位置的全局特征；

S6，从S4的局部特征中任选其中一组为当前组局部特征，将除当前组外其他组的局部特征进行融合，得到融合特征，之后将局部特征、融合特征和全局特征送入解码器中估计三维姿态。

优选的，所述步骤S1中，二维相对坐标的计算公式为

其中Kp为二维相对坐标，J为每一帧包含的关节点。

优选的，步骤S2中，时间信息编码操作运算的公式为

其中KT为时间增强表达，T为视频序列包含的帧的数量。

优选的，所述步骤S4中，局部特征提取的计算公式为

其中

为第i组的局部编码器，

为第i组的局部特征。

优选的，所述步骤S5中，全局特征提取的计算公式为F_g＝E_g(K_c,θ)，其中

为当前帧中的动作，E_g(·,θ)为全局编码器，F_g为全局特征。

优选的，所述步骤S6中，融合的公式为

其中

N是组数，G_f(·,θ)是采用融合网络结构的融合块，

是第i组的融合特征。

优选的，所述步骤S6中，解码器中估计三维姿态的公式为

其中

是级联操作，D(·,θ)是解码器，

是第i组的融合特征，F_g为全局特征，

为第i组的局部特征。

一种根据相对信息的三维人体姿态估计装置，包括相对信息编码模块、局部编码器、全局编码器、特征融合模块和解码器；其中相对信息编码模块用于对二维关节点进行位置信息编码和时间信息编码；局部编码器用于在每组中捕捉局部特征；全局编码器用于提取当前帧中的动作中所有节点的特性；特征融合模块用于将使局部特征在求解的时候获取其他组的信息；解码器用于从局部特征、全局特征、融合特征中解码得到输出结果。

优选的，所述局部编码器采用时域卷积网络结构，其由一系列时域一维卷积、批归一化层、dropout层和激活层一同构成，其中包含残差结构。

优选的，所述全局编码器、特征融合模块和解码器采用相同的网络结构，其由两层全连接层、批归一化层、dropout层加上一个残差结构组成。

本发明同现有技术相比具有以下优点及效果：

1、本发明通过在输入端使用相对于根关节的二维相对坐标对位置信息进行编码，以确保与输出端的一致性。以这种方式网络可以提取与姿势有关的信息而不会受到人体绝对位置的干扰。当二维关节点在图像平面中的位置发生全局移动时，位置信息编码后的结果仍然相同。因此，三维人体姿态估计对于全局运动变得更加鲁棒。

2、本发明显式传播当前姿势对其他姿势的影响来对时间信息进行编码。时间信息编码可以被建模为任何向量运算符，例如内积和减法。这种方法强调上下文姿势相对于当前姿势的位置变化，而不是每个姿势的绝对位置。在局部运动范围较小的情况下，当前姿势和其他姿势之间的变化将被放大，从而有助于获得更准确的预测结果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为全局运动和局部运动的示意图。

图2为本发明算法的流程示意图。

图3为本发明中特征融合模块的示意图。

图4为本发明中相对信息编码的示意图，其中a为位置信息编码，b为时间信息编码。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1：本发明提出一种基于相对信息编码的三维人体姿态估计算法及装置，具体实施步骤如下：

1.1、输入一段视频序列中所有的二维人体关节点K，这个视频序列总共T＝243帧，每帧包含J＝17个关节点。这一段二维人体关节点首先被送到相对信息编码模块。

1.2、对输入的二维关节点进行位置信息编码和时间信息编码。其中位置信息编码的过程为：如图4所示，对于视频序列中每一帧，将所有关节点与骨盆节点的位置作差，得到相对于骨盆节点的二维相对坐标，称之为坐标增强表达，上述过程可以表示为

其作用是保证输入端与输出端数据分布的一致性。通过这种方式，具有不同绝对二维坐标的相同姿势将对应于共同的坐标增强表达，降低了网络产生相同预测结果的难度。位置信息编码让网络仅捕获与人体姿势有关的重要信息，而不是二维全局轨迹，这有利于加强网络对全局运动的鲁棒性。

时间信息编码的过程为：如图4所示，对于人体所有关节点，将每一帧与当前帧进行时间信息编码操作运算，这种运算可以被建模为任何向量运算符，例如内积、外积、余弦相似度、减法等。我们将得到的结果称为时间增强表达。上述过程可以表示为

此方法驱动网络学习当前姿势对其他姿势的影响。它允许所有姿势从网络的浅层开始着眼于与当前姿势的时间相关性，无论这些姿势在时域上是靠近或是远离当前帧。换句话说，网络专注于当前姿势周围的位置变化，而不是每个姿势的绝对位置。当发生运动范围较小的局部运动时，这些变化将被放大，这有助于对人体三维姿态进行细粒度建模。

2、原始输入与位置、时间增强表达三者将一同被送入特征融合网络中，特征融合网络包括局部编码器、全局编码器、特征融合模块和解码器。具体过程为，利用人体分组策略对三者进行分组，总共分为躯干、左手臂、右手臂、左腿、右腿，一共五组。原始输入可被表示为

其中J_i为第i组中节点的数目。同理，可以获得位置、时间增强表达的分组结果：

这一步的目的是利用人体结构性信息，将语义上相关联的节点进行联合求解，排除别组非相干节点的干扰。

3、在每组中进行三维姿态相关的局部特征提取。具体过程为，原始输入与位置、时间增强表达被送到局部特征编码器中得到局部特征，这个过程可以写为

其中

为第i组的局部特征编码器，

为第i组的局部特征。本实施例采用时域卷积网络(TCN)作为局部特征编码器的网络结构，它由一系列时域一维卷积、批归一化层、dropout层、激活层一同构成，其中包含残差结构。

4、在当前帧中提取全局特征。具体过程为，先对二维关节点序列进行当前位置的提取，然后通过全局特征编码器得到全局特征，这个过程可以写为F_g＝E_g(K_c,θ)，其中

为当前帧中的动作，E_g(·,θ)为全局特征编码器，F_g为全局特征。这一步的目的是排除别的帧对本帧的干扰，只获取与当前位置有关的全局信息。

5、如图3所示，从S4的局部特征中任选其中一组为当前组局部特征，将除当前组外其他组的局部特征进行融合，全局特征、局部特征一起送到特征融合模块中。不同组间的信息可以通过融合块来进行融合，这个过程可以写为

其中

N是组数，G_f(·,θ)是融合块，

是第i组的融合特征，F₁ ⁿ为除了第i组外的局部特征。这一步的目的是尽管分组的方法在每组中保留了空域上有意义的模式，但排除了不同组之间的联系。当推断三维人体姿态时，当前组完全不知道其他组关节的位置，这不利于保持整体姿态的一致性。理想情况下，网络应该考虑各组之间关节的连续性。而特征融合模块能将其他组的信息传输到当前组，实现这个目的。

6、之后局部特征、融合特征、全局特征被送到解码器中估计三维姿态，这个过程可以写为

其中

是级联操作，D(·,θ)是解码器。另外，全局特征编码器、融合块、解码器共享一个网络结构，由两层全连接层、批归一化层、dropout层加上一个残差结构组成。

本实施例与现有算法在Human3.6M数据集上进行比较，通过平均关节点位置误差(MPJPE)与经过Procrustes分析后的平均关节点位置误差(P-MPJPE)对方法性能进行评价，本实施例能与任何二维关节点检测器兼容。具体来说，使用级联金字塔网络(CPN)的二维关节点预测结果作为整体框架的输入，本实施例在MPJPE指标下为44.3mm，在P-MPJPE指标下为35.0mm，与现有方法相比取得了最优的结果。另外，本实施例还利用二维姿势的真实标注数据作为网络的输入对模型进行训练。该模型在MPJPE指标下为30.1mm，并将之前最优方法的下限提高了约5.9％。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种根据相对信息的三维人体姿态估计方法，其特征在于，包括如下步骤：

S3,对S1中每一帧所包含的关节点进行分组；

S4,对S3中的每一组进行三维姿态的局部特征提取；

2.根据权利要求1所述的根据相对信息的三维人体姿态估计方法，其特征在于，所述步骤S1中，二维相对坐标的计算公式为

其中Kp为二维相对坐标，J为每一帧包含的关节点。

3.根据权利要求1所述的根据相对信息的三维人体姿态估计方法，其特征在于，步骤S2中，时间信息编码操作运算的公式为

其中KT为时间增强表达，T为视频序列包含的帧的数量。

4.根据权利要求1所述的根据相对信息的三维人体姿态估计方法，其特征在于，所述步骤S4中，局部特征提取的计算公式为

其中

为第i组的局部编码器，

为第i组的局部特征。

5.根据权利要求1所述的根据相对信息的三维人体姿态估计方法，其特征在于，所述步骤S5中，全局特征提取的计算公式为F_g＝E_g(K_c,θ)，其中

为当前帧中的动作，E_g(·,θ)为全局编码器，F_g为全局特征。

6.根据权利要求1所述的根据相对信息的三维人体姿态估计方法，其特征在于，所述步骤S6中，融合的公式为

其中

N是组数，G_f(·,θ)是采用融合网络结构的融合块，

是第i组的融合特征。

7.根据权利要求1所述的根据相对信息的三维人体姿态估计方法，其特征在于，所述步骤S6中，解码器中估计三维姿态的公式为

其中

是级联操作，D(·,θ)是解码器，

是第i组的融合特征，F_g为全局特征，

为第i组的局部特征。

8.一种根据相对信息的三维人体姿态估计装置，其特征在于，包括相对信息编码模块、局部编码器、全局编码器、特征融合模块和解码器；其中相对信息编码模块用于对二维关节点进行位置信息编码和时间信息编码；局部编码器用于在每组中捕捉局部特征；全局编码器用于提取当前帧中的动作中所有节点的特性；特征融合模块用于将使局部特征在求解的时候获取其他组的信息；解码器用于从局部特征、全局特征、融合特征中解码得到输出结果。

9.根据权利要求8所述的根据相对信息的三维人体姿态估计装置，其特征在于，所述局部编码器采用时域卷积网络结构，其由一系列时域一维卷积、批归一化层、dropout层和激活层一同构成，其中包含残差结构。

10.根据权利要求8所述的根据相对信息的三维人体姿态估计装置，其特征在于，所述全局编码器、特征融合模块和解码器采用相同的网络结构，其由两层全连接层、批归一化层、dropout层加上一个残差结构组成。