CN115565203A

CN115565203A - 一种跨模态弱监督的三维人体姿态估计方法及系统

Info

Publication number: CN115565203A
Application number: CN202211214543.4A
Authority: CN
Inventors: 肖阳; 吴存霖; 曹治国; 姜昌龙
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-03

Abstract

本发明公开了一种跨模态弱监督的三维人体姿态估计方法及系统。该方法包括：获取有关人体的成对的点云数据和RGB图像，并选取部分数据作为训练样本，其余数据作为测试样本；获取二维人体姿态的关节点坐标；获取三维人体姿态估计的预估结果；根据二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息，确定损失函数；根据训练样本和损失函数对待训练的三维人体姿态估计网络进行训练，得到训练后的三维人体姿态估计模型；将测试样本中的点云数据输入训练好的三维人体姿态估计模型中，计算得到目标对象的三维人体姿态估计的结果。解决了现有方法存在的获取标签复杂、泛化性差的问题，减小了对有标签数据的依赖程度，提升了方法的泛化性能。

Description

一种跨模态弱监督的三维人体姿态估计方法及系统

技术领域

本发明属于机器学习领域，更具体地，涉及一种跨模态弱监督的三维人体姿态估计方法及系统。

背景技术

近年来，随着计算机视觉领域以及消费市场的发展，人体姿态估计技术在人机交互、虚拟现实、人体行为分析、医学诊断方面发挥着重要的作用。另一方面，获取高质量的三维人体姿态的标注信息，是十分昂贵且费时费力的，这也催生了诸多弱监督训练三维人体姿态估计网络的方法。

现在常用的三维人体全监督和弱监督方法，包括以下两种。

(1)基于深度图像(点云)的三维人体姿态估计方法

深度图像包含丰富的深度信息，可以为三维人体姿态估计任务提供三维特征，首先在深度图上提取手工设计的特征，随后利用回归或分类的方法得到每一个关节点的坐标位置信息。将原始深度图投影至三维体素，并设计了相应的利用3DCNN的网络来进行三维人体姿态的估计。利用2DCNN在原始深度图上得到权重、平面偏移量、深度偏移量三个分支，通过各个锚点预测加权求和的形式获取三维人体姿态估计的结果。利用点云来进行姿态估计的方法，其利用PointNet系列方法，针对每个点预测到目标关节点的偏移量和概率图，逐点加权求和获取最终的关节点预测结果。

(2)弱监督三维人体姿态估计方法

弱监督方法主要是为了解决三维人体姿态估计任务中的缺乏标注的问题，目前主流的三维人体姿态估计的弱监督方法主要包括：第一途径是利用多视角图像来对人体姿态估计的结果进行弱监督训练，在获取了多视角的二维人体关节点信息之后，利用相机的内参和外参，将原始的多视角的二维结果，通过迭代寻优或监督训练的形式，转化为三维人体姿态，但是这种方法在搜集数据的过程中，需要复杂校准的多相机系统，相机间的时序一致性难以保证，此外，在视角变化小和视角数目少的情况下，还有一定程度上的歧义性的问题。第二种途径是利用现有的渲染或生成模型，生成带有标签的人体模型，或根据预定义好的分块人体模型，将姿态映射回原始图像，形成监督训练；但是这种方法人工设计的模型，其结构形式单一，并且同真实人体模型还有一定的差异，在合成数据集上训练好的模型，在迁移到真实场景中往往面临严重的性能下降。第三种是利用人体的先验信息，例如骨骼的比例来约束预测结果；这种弱监督形式操作简单，但在深度信息不完全的情况下，相对深度并不能充分地利用人体姿态的先验信息，导致了诸如绝对长度、对称性之类的先验无法被很好地利用。

目前基于深度图像的三维人体姿态估计方法，在网络的训练阶段均需要标注好的三维人体姿态结果，都有样本量小，场景单一等缺点，极大地限制了上述方法的泛化性能；目前的三维人体姿态估计的弱监督方法，存在着获取标签复杂、泛化性差等缺点，数据的采集难度或模型设计难度依旧很高。

发明内容

针对相关技术的缺陷，本发明的目的在于提供一种跨模态弱监督的三维人体姿态估计方法，旨在解决目前三维人体姿态估计方法存在的获取标签复杂、泛化性差的问题。

为实现上述目的，本发明提供了一种跨模态弱监督的三维人体姿态估计方法，包括：

获取包含人体对象的点云数据和RGB图像，并选取部分数据作为训练样本，其余数据作为测试样本；

将所述RGB图像输入预训练的二维人体姿态估计网络，获取二维人体姿态的关节点坐标；

将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络，获取三维人体姿态的预估结果；

根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息，确定损失函数；

根据所述训练样本对待训练的三维人体姿态估计网络进行训练，并根据所述损失函数进行梯度反向传播，更新待训练的三维人体姿态估计网络参数，得到训练后的三维人体姿态估计模型；

将所述测试样本中的点云数据输入训练好的三维人体姿态估计模型中，计算得到目标对象的三维人体姿态估计的结果。

可选的，所述将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络，获取三维人体姿态的预估结果，包括：

所述三维人体姿态估计网络提取所述点云数据的特征，并输出概率分支和偏移量分支；

所述概率分支为：

所述偏移量分支为：

其中，p_i是点云中的第i个点，φ_j是第j个待预测的关节点，r是最近邻算法中设置的最大半径长度；

计算逐点的偏移向量：

V＝r·(1-H_ij)·U_ij；

所述三维人体姿态的预估结果表示为：

其中，i_m是H_j中概率第m大的点的下标值，M设置为64，ω_m是第m个点根据

获取的权重系数。

可选的，在所述三维人体姿态估计网络提取所述点云数据的特征之后，还包括：

对点云数据和对应深度图像进行特征提取，将提取的点云特征和深度特征进行特征融合，得到重组特征；

所述待训练的三维人体姿态估计网络根据所述重组特征得到三维人体姿态的预估结果。

可选的，所述根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息，确定损失函数，包括：

根据所述二维人体姿态的关节点坐标、相机参数，确定第一损失函数；

根据人体姿态的先验信息，确定第二损失函数；

根据所述第一损失函数和所述第二损失函数确定所述损失函数。

可选的，所述根据所述二维人体姿态的关节点坐标和相机参数，确定第一损失函数，包括：

将所述二维人体姿态的关节点坐标根据所述相机参数投影至三维空间形成射线；

根据所述相机参数将所述三维人体姿态的预估结果中的关节点的坐标进行转换，得到转换关节点；

计算所述射线与对应的所述转换关节点的直线距离，并根据所述直线距离确定第一损失函数。

可选的，所述相机参数包括RGB相机内参K_rgb、点云相机内参K_p、点云相机外参R_p-r、RGB相机外参T_p-r；

所述三维人体姿态的预估结果中的关节点为：

所述转换关节点为：

所述二维人体姿态定义为：

其中，K为人体关节点个数；

所述直线距离表示为：

所述第一损失函数表示为：

其中，

可选的，所述根据人体姿态的先验信息，确定第二损失函数，包括：

根据所述点云数据获取三维关节点在真实场景下的尺度信息；

通过计算骨骼长度损失、人体对称性损失和时序损失，确定第二损失函数；

所述骨骼长度损失为：

其中，N为人体关节点所组成的连接数量；

所述人体对称性损失为：

其中，

是与当前骨骼对应的骨骼长度；

所述时序损失被为：

L_con＝L_con1+λ₀L_con2；

所述第二损失函数被为：

L₂＝λ₂L_len+λ₃L_sym+λ₄L_con。

可选的，所述损失函数为：

L＝λ₁L_2d+λ₂L_len+λ₃L_sym+λ₄L_con

其中，λ₁＝10,λ₁＝1,λ₁＝0.002,λ₁＝0.1。

可选的，所述预训练的二维人体姿态估计网络使用大规模公开数据库进行预训练。

第二方面，本发明提供了一种跨模态弱监督的三维人体姿态估计系统，包括：

数据获取模块，用于获取包含人体的点云数据和RGB图像，并选取部分数据作为训练样本，其余数据作为测试样本；

二维姿态获取模块，用于将所述RGB图像输入预训练的二维人体姿态估计网络，获取二维人体姿态的关节点坐标；

三维姿态获取模块，用于将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络，获取三维人体姿态的预估结果；

监督损失模块，用于根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息，确定损失函数；

训练模块，用于根据所述训练样本对待训练的三维人体姿态估计网络进行训练，并根据所述损失函数进行梯度反向传播，更新待训练的三维人体姿态估计网络参数，得到训练后的三维人体姿态估计模型；

计算模块，用于将所述测试样本中的点云数据输入训练好的三维人体姿态估计模型中，计算得到目标对象的三维人体姿态估计的结果。

本发明的技术方案通过一种跨模态弱监督的三维人体姿态估计方法，利用成对的跨模态RGB-点云数据，利用数据域间的信息互补特性，在无需已标注训练样本的条件下，完成深度神经网络的训练，将图像平面的二维关节点映射为三维空间中的射线的方式，提升了弱监督信号的有效性，利用人体姿态先验信息以及时序的平滑特性，设计三维人体姿态的自监督损失，在测试阶段，仅需要输入点云至已经训练好基于点云的三维人体姿态估计网络，无需RGB-点云对，即可得到目标对象的三维人体姿态估计结果。解决了目前三维人体姿态估计方法存在的获取标签复杂、泛化性差、对标签数据依赖程度高的问题，实现了减小数据的依赖，在大规模无标签数据集训练后，具有鲁棒性强，泛化性好的有益效果。

附图说明

图1是本发明实施例一提供的一种跨模态弱监督的三维人体姿态估计方法的流程示意图；

图2是本发明实施例一提供的基于点云的弱监督三维人体估计方法的示意图；

图3是本发明实施例一提供的方法在训练阶段和测试阶段的信息流图；

图4是本发明实施例一提供的弱监督损失函数中，将二维关节点映射至三维空间的的示意图；

图5是本发明实施例一提供的方法中提出的特征融合的示意图；

图6是本发明实施例一提供的方法中提出的特征融合的信息流的示意图；

图7是本发明实施例一提供的方法在提供的不同的点云人体姿态下的关节点预测结果图；

图8是本发明实施例一提供的方法在NTU RGB-D数据集中结果图；

图9是本发明实施例一提供的方法的结果与Kinect v2的部分结果对比图；

图10是本发明实施例二提供的一种跨模态弱监督的三维人体姿态估计系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

下面结合一个优选实施例，对上述实施例中涉及的内容进行说明。

实施例一

如图1所示，一种跨模态弱监督的三维人体姿态估计方法，包括：

S1、获取包含人体的点云数据和RGB图像，并选取部分数据作为训练样本，其余数据作为测试样本。

S2、将RGB图像输入预训练的二维人体姿态估计网络，获取二维人体姿态的关节点坐标。

S3、将训练样本中的点云数据输入待训练的三维人体姿态估计网络，获取三维人体姿态的预估结果。

S4、根据二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息，确定损失函数。

S5、根据训练样本对待训练的三维人体姿态估计网络进行训练，并根据损失函数进行梯度反向传播，更新待训练的三维人体姿态估计网络参数，得到训练后的三维人体姿态估计模型。

S6、将测试样本中的点云数据输入训练好的三维人体姿态估计模型中，计算得到目标对象的三维人体姿态估计的结果。

人体姿态估计任务是预测给定图像或点云中人体关节点的位置信息，不同于二维人体姿态估计任务，三维人体姿态估计任务需要估计出人体关节点在三维空间中的位置。针对三维人体姿态估计缺乏高质量标注导致难以训练的问题，本发明提出的一种跨模态弱监督的三维人体姿态估计方法不同于全监督的人体姿态估计方法，采用了弱监督方法，需要在训练样本无标注或不完全标注的情况下，完成对深度神经网络的训练。

在训练阶段，利用主流的深度相机采集用于训练的RGB-点云图像对，并通过相机相关信息获取相应的内参外参矩阵。其中，相机参数包括RGB相机内参K_rgb、点云相机内参K_p、点云相机外参R_p-r、RGB相机外参T_p-r。选取部分点云数据作为训练样本，其余点云数据作为测试样本。使用在大规模公开数据库上预训练的二维人体姿态估计网络，获取RGB图像层面的二维人体姿态的关节点坐标，其中，二维人体姿态定义为：

c_k＝(u_k,v_k)，K为人体关节点个数；公开数据库包括COCO数据集(Microsoft Common Objects inContext)和MPII数据集(MPII Human Pose)。将包含人体信息的训练样本中的点云或RGB图像输入待训练的三维人体姿态估计网络中，获取三维人体姿态的预估结果，其中，待训练的三维人体姿态估计网络除了采用本发明提供的网络，还可以为通用网络，例如A2J、P2P。根据获取的RGB图像层面的二维人体姿态的关节点坐标和相机内外参信息，生成第一损失函数，作为第一监督信号，对获取的三维人体姿态的预估结果进行监督。同时，根据人体姿态的先验信息生成第二损失函数，作为第二监督信号，对获取的三维人体姿态的预估结果形成监督。根据第一损失函数和第二损失函数，确定最终的损失函数，第一监督信号和第二监督信号共同作用，对待训练的三维人体姿态估计网络进行深度神经网络的训练，损失函数进行梯度反向传播，更新深度神经网络参数。在测试阶段，仅需要采集点云数据，便可利用基于点云的三维人体姿态估计网络，直接获取点云上的三维人体姿态估计的结果。在训练阶段和测试阶段的信息流图如图3所示。

本实施例中，不同于利用多视角数据或人体结构化模型的弱监督方法，在神经网络的训练阶段，本算法无需对样本进行人工的标注，仅依靠成对的RGB-点云数据，便可完成神经网络的弱监督训练。针对三维人体姿态估计任务，本算法根据二维人体姿态的关节点坐标和相机参数计算得到第一损失函数，提升了弱监督信号的有效性；根据人体姿态的先验信息，计算得到第二损失函数，实现了三维人体姿态的自监督损失。根据损失函数完成对网络的训练。在测试阶段，由于已经训练好基于点云的三维人体姿态估计网络，本算法仅需要输入点云，无需RGB-点云对，大大提高了方法实际使用的便捷性。

进一步的，在另一实施例中，可以采用RGB图像训练网络，从而得到基于RGB图像的三维人体姿态估计网络，在测试时，仅需要输入RGB图像即可得到目标对象的三维人体姿态估计的结果。如图8所示。

在上述实施例的基础上，可选的，S2具体包括：

三维人体姿态估计网络提取点云数据的特征，并输出概率分支和偏移量分支。三维人体姿态估计网络中点云的点的个数设置为N(如1024，2048等)，本实施例中采用N设置为2048。

概率分支为：

偏移量分支为：

其中，p_i是点云中的第i个点，φ_j是第j个待预测的关节点，r是最近邻算法中设置的最大半径长度；本实施例中对人体姿态估计任务设置的最大半径长度为80cm。

计算逐点的偏移向量：

V＝r·(1-H_ij)·U_ij；

三维人体姿态的预估结果表示为：

获取的权重系数。

可选的，针对点云网络，在三维人体姿态估计网络提取点云数据的特征之后，还包括：设计了针对点云以及深度图同源数据的特征融合方法。

具体包括：

对点云数据和对应深度图像进行特征提取，将提取的点云特征和深度特征进行特征融合，得到重组特征；待训练的三维人体姿态估计网络根据重组特征得到三维人体姿态的预估结果。

如图5所示，将点云网络提取的特征，同深度图提取的特征进行特征融合，如图6所示，增强点云网络的性能，在不带来额外数据要求的情况下提升姿态估计的准确度。

采用RGB图像所提供的信息作为弱监督信号，基于点云的弱监督三维人体估计方法的如图2所示，具体包括：

A1、将二维人体姿态的关节点坐标根据相机参数投影至三维空间形成射线。

A2、根据相机参数将三维人体姿态的预估结果中的关节点的坐标进行转换，得到转换关节点。

A3、计算射线与对应的转换关节点的直线距离，并根据直线距离确定第一损失函数。

可选的，经过待训练的三维人体姿态估计网络输出的预估结果中的关节点为：

利用相机参数将其转换为彩色相机的三维坐标系下，转换关节点为：

利用获取的二维人体姿态的关节点坐标c_k＝(u_k,v_k)便可对上述网络输出进行弱监督约束，如图4所示，直线距离表示为：

弱监督损失函数即第一损失函数表示为：

其中，

本实施例将图像平面的二维关节点映射为三维空间中的射线的方式，提升了弱监督信号的有效性。

可选的，还可利用人体姿态的自监督先验信息进行自监督训练，图2所示。根据人体姿态的先验信息，确定第二损失函数，包括：

B1、根据点云数据获取三维关节点在真实场景下的尺度信息。

B2、通过计算骨骼长度损失、人体对称性损失和时序损失，确定第二损失函数。

其中，骨骼长度损失为：

其中，N为人体关节点所组成的连接数量。

人体对称性损失为：

其中，

是与当前骨骼对应的骨骼长度。

时序损失被为：

L_con＝L_con1+λ₀L_con2；

第二损失函数被为：

L₂＝λ₂L_len+λ₃L_sym+λ₄L_con。

可选的，最终的损失函数为第一损失函数和第二损失函数的和，表示为：

L＝λ₁L_2d+λ₂L_len+λ₃L_sym+λ₄L_con

其中，λ₁＝10,λ₁＝1,λ₁＝0.002,λ₁＝0.1。

如图1所示，在测试或实际使用阶段，仅需要如图7所示的点云数据，将点云数据送入图1所示，训练阶段已经训练好的网络中，便可获取如图7所示的测试结果。

本发明的技术方案通过一种跨模态弱监督的三维人体姿态估计方法，利用成对的跨模态RGB-点云数据，利用数据域间的信息互补特性，在无需已标注训练样本的条件下，完成深度神经网络的训练，将图像平面的二维关节点映射为三维空间中的射线的方式，提升了弱监督信号的有效性，利用人体姿态先验信息以及时序的平滑特性，设计三维人体姿态的自监督损失，在测试阶段，仅需要输入点云至已经训练好基于点云的三维人体姿态估计网络，无需RGB-点云对，即可得到目标对象的三维人体姿态估计的结果。解决了目前三维人体姿态估计方法存在的获取标签复杂、泛化性差、标签数据依赖程度高的问题，实现了减小对有标签数据的依赖程度，提升了方法的泛化性能的有益效果。

实施例二

如图10所示，一种跨模态弱监督的三维人体姿态估计系统，包括：

数据获取模块210，用于获取包含人体的点云数据和RGB图像，并选取部分数据作为训练样本，其余数据作为测试样本；

二维姿态获取模块220，用于将RGB图像输入预训练的二维人体姿态估计网络，获取二维人体姿态的关节点坐标；

三维姿态获取模块230，用于将训练样本中的点云数据输入待训练的三维人体姿态估计网络，获取三维人体姿态的预估结果；

监督损失模块240，用于根据二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息，确定损失函数；

训练模块250，用于根据训练样本对待训练的三维人体姿态估计网络进行训练，并根据损失函数进行梯度反向传播，更新待训练的三维人体姿态估计网络参数，得到训练后的三维人体姿态估计模型；

计算模块260，用于将测试样本中的点云数据输入训练好的三维人体姿态估计模型中，计算得到目标对象的三维人体姿态估计的结果。

本发明实施例所提供的一种跨模态弱监督的三维人体姿态估计系统可执行本发明任意实施例所提供的一种跨模态弱监督的三维人体姿态估计方法，具备执行方法相应的功能模块和有益效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。