CN115083015B

CN115083015B - 一种3d人体姿态估计数据标注方式和对应的模型构建方法

Info

Publication number: CN115083015B
Application number: CN202210653359.3A
Authority: CN
Inventors: 张磊; 顾友良; 李观喜; 赵乾
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2024-04-16
Anticipated expiration: 2042-06-09
Also published as: CN115083015A

Abstract

本发明公开了一种3D人体姿态估计数据标注方式和对应的模型构建方法，获取原始的人体3D骨骼数据，根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点；将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标；对任一两个相邻点之间进行深度差值计算，神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像，裁剪之后经过相同结构的卷积网络进行特征提取，且这些卷积网络之间不共享参数，将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量；最后将拼接后的人体特征跟原有映射网络的分支进行整合，放入全连接层进行最终的3D坐标值预测。

Description

一种3D人体姿态估计数据标注方式和对应的模型构建方法

技术领域

本发明涉及计算机深度学习算法技术领域，尤其涉及一种新型的3D人体姿态估计数据标注方式和对应的模型构建方法。

背景技术

3D人体姿态估计，可通过人体图像推断出3D关键节点的位置，然后根据节点的相对位置和关节角度变化去估计人体的真实动作姿态。它是深度学习可落地算法中的一个重要算法应用技术，广泛被应用在行为分析、步态分析、危险行为检测、人机交互、虚拟游戏等领域。3D人体姿态估计按照输入数据类型，可进一步被分为基于RGB图像的姿态估计算法、基于视频的姿态估计算法以及基于深度图的姿态估计算法，本发明涉及到的技术可适配任意数据类型。

从算法上来分，姿态估计任务可分为两种：一种是端到端的单阶段方式，由深度学习模型直接从图像或视频推断出人体3D关键点的坐标信息(x,y,z)，由于原始视频或图像中场景环境的复杂性、人物动作的多样性和不同衣物纹理的差异性，因此要想通过该方法得到通用能力较强的模型，必须要有大量的差异性明显的图片或视频，然而现有的人体数据集场景、动作比较单一，不能满足需要，同时3D人体数据标注成本很高，难以获取，因此该方法适配能力非常有限；第二种是两阶段方法，先通过2D人体姿态估计算法从图像或视频推断出人体2D关键点坐标信息(x,y)，再由2D点坐标通过3D网络模型进行人体3D关键点坐标预测，由于2D人体标注简易且2D人体姿态估计算法相对来说比较成熟，因此第一阶段得到的2D点坐标较为精准，再通过第二阶段进行3D点坐标预测的时候，规避掉了场景环境、动作、衣服等因素的影响，该方法得到的模型跟第一种方法相比，通用性更强，但第二阶段自身也有明显的局限性，主要原因在于它抛弃了图像中人体动作不同肢体之间的前后深度差，只凭借2D人体姿态坐标去进行推断，而一个2D人体姿态对应多个3D人体姿态，即使利用了视频的前后多个帧的坐标综合进行判断，关键点的深度信息也经常预测错误。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。本发明在现有3D人体数据集基础上，提出了一种新型的数据标注方式，主要是通过相机坐标系下每相邻两个肢体关键点之间的深度差异，去推断出人体所有关键节点的深度分布，以这种相对深度作为标签值可以让每个点在进行预测和评估的时候只需要考虑相邻的位置变化，而不会去考虑整体的动作变化，任务难度大幅度降低。针对这种新型的数据标签格式，还需要一个与之对应的模型搭建相匹配，该模型的输入不再只是单一的2D人体姿态算法得到的人体2D关键点坐标，还需要额外的图像特征作为模型加强分支的输入，以这种方式预测的3D关键点坐标没有抛弃图像中人体肢体间的前后深度差，最终得到的3D点的精度大幅度提升。

为此，本发明公开了一种3D人体姿态估计数据标注方式和对应的模型构建方法，如图1所示，所述方法包括如下步骤：

步骤1，获取原始的人体3D骨骼数据，根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点；

步骤2，将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标；

步骤3，对任一两个相邻点之间进行深度差值计算，初始化起始参照点自身的相对深度差，并跟其余所述预定数量减1个点计算得到的深度差组成数组，并将所述数组作为新的标签，然后将所述的关键节点的3D坐标值的z轴坐标用相对深度差取代，得到最终的预定数量的相对3D坐标值；

步骤4，构建神经网络，采用二阶段姿态估计算法的训练，神经网络的第一分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像，裁剪之后经过相同结构的卷积网络进行特征提取，且这些卷积网络之间不共享参数，将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量，第二分支将人体2D坐标输入原有的2D转3D的映射网络；

步骤5，最后将拼接后的人体特征跟原有映射网络的分支进行整合，放入全连接层进行最终的3D坐标值预测。

更进一步地，所述步骤1进一步包括：拿到原始的HM3.6M人体3D骨骼数据，该数据下每个人体有32个关键节点，其中有一半的节点是不可运动的，将其去掉，我们只需要可运动的17个关键节点：头顶，鼻子，颈部，左肩，左手肘，左手腕，右肩，右手肘，右手腕，胸部脊椎中心，髋关节，左髋，左膝，左脚腕，右髋，右膝，右脚腕，其中，所述预设规则为通过位置索引的方式进行筛选以剔除不需要的关键节点。

更进一步地，所述步骤2进一步包括：所述预定数量为17，不同拍摄人的相机外参和所属的相机内参不同，按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标，其中，用C1，C2，C3...C17来表示所述相机坐标系下的3D坐标，和图像坐标系下的2D坐标。

更进一步地，所述步骤3进一步包括：选定起始参照点，将颈部C3作为起始参照点，根据最近距离去定义，它的相邻点有4个，分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10，用距离符号-->表示两点相邻，可以简写成C3-->C2、C3-->C4、C3-->C7、C3-->C10，那么剩余的相邻点可表示为C2-->C1，C4-->C5，C5-->C6，C7-->C8，C8-->C9，C10-->C11，C11-->C12，C12-->C13，C13-->C14，C11-->C15，C15-->C16，C16-->C17；C2相对C3的深度差为C2的z轴坐标减去C3的z轴坐标，同理可得所有16点的相对相邻点的深度差；起始参照点C3自身的相对深度差记为0，跟剩余16点计算得到的深度差组成一个数组，数组长度为17，将这个数组作为新的标签，以这种方式进行数据标注之后，HM3.6M数据集每张图片，都有与之对应的人体17个点的2D坐标值、3D坐标值和相对深度差，将每个点的3D坐标值的z轴坐标用相对深度差取代，得到最终的17个点的相对3D坐标值。

更进一步地，神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像进一步包括：所述预先裁剪的方式为按照所述关键节点进行裁剪。

更进一步地，所述预先裁剪的方式为按照所述关键节点进行裁剪进一步包括：在对人体图像进行特征提取之前，需要按照2D关键点将人体进行简单的分割，分成头部、躯干、左手肢、右手肢、左腿、右腿6大部分，每部分裁剪尺寸为64*64。

更进一步地，所述步骤4进一步包括：

特征提取函数为：

其中，代表提取后的人体特征向量，X_i代表裁剪后的肢体部分，n是裁剪得到的身体总数，Concat表示拼接操作函数，F表示特征提取网络。

更进一步地，所述步骤5进一步包括：具体的计算公式如下：

其中，P_3d为预测后的人体3D姿态坐标，P_2d为第一阶段得到的人体2D姿态坐标，M为2D到3D的映射网络，W_fc和b_fc代表全连接层的参数。

更进一步地，整个训练过程用标注得到的新的17个点的相对3D坐标值进行监督训练。

更进一步地，所述步骤5进一步包括：特征整合，并进行3D点坐标预测，用真实的相对坐标值进行监督训练。

本领域与现有技术相比，有益效果为：在现有3D人体数据集基础上，提出了一种新型的数据标注方式，主要是通过相机坐标系下每相邻两个肢体关键点之间的深度差异，去推断出人体所有关键节点的深度分布，以这种相对深度作为标签值可以让每个点在进行预测和评估的时候只需要考虑相邻的位置变化，而不会去考虑整体的动作变化，任务难度大幅度降低。针对这种新型的数据标签格式，还需要一个与之对应的模型搭建相匹配，该模型的输入不再只是单一的2D人体姿态算法得到的人体2D关键点坐标，还需要额外的图像特征作为模型加强分支的输入，以这种方式预测的3D关键点坐标没有抛弃图像中人体肢体间的前后深度差，最终得到的3D点的精度大幅度提升。并且，目前所有两阶段姿态估计算法在第一阶段获取到2D人体关键点之后，第二阶段就会抛弃图像特征，只通过映射网络进行2D转3D的坐标预测。本发明在保证映射网络不变的情况下，新建了另一个网络分支对人体图像特征进行提取度大幅度提升。以本发明的裁剪的方式得到肢体部分特征，会保证每个关键节点进行预测时，更多的注意力放在相邻肢体上，一定程度上减轻了任务的复杂度。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的数据标注方式和相匹配的模型构建方法的流程图。

图2是本发明一实施例的最终的3D坐标值预测的方法的流程图。

具体实施方式

实施例一

如图2所示的本实施例的核心包括两个方面：一是提出了一种新型的数据标注方式；二是与新型标注方式相匹配的模型构建方法。

方面一包括：

第一步，拿到原始的HM3.6M人体3D骨骼数据，该数据下每个人体有32个关键节点，其中有一半的节点是不可运动的，将其去掉，我们只需要可运动的17个关键节点：头顶，鼻子，颈部，左肩，左手肘，左手腕，右肩，右手肘，右手腕，胸部脊椎中心，髋关节，左髋，左膝，左脚腕，右髋，右膝，右脚腕。这些点可通过位置索引的方式进行筛选。

第二步，不同拍摄人的相机外参和所属的相机内参不同，按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标(用C1，C2，C3...C17来表示)，和图像坐标系下的2D坐标。

第三步，每两个相邻点之间进行深度差值计算，具体步骤如下：将颈部C3作为起始参照点，根据最近距离去定义，它的相邻点有4个，分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10，用距离符号-->表示两点相邻，可以简写成C3-->C2、C3-->C4、C3-->C7、C3-->C10，那么剩余的相邻点可表示为C2-->C1，C4-->C5，C5-->C6，C7-->C8，C8-->C9，C10-->C11，C11-->C12，C12-->C13，C13-->C14，C11-->C15，C15-->C16，C16-->C17；C2相对C3的深度差为C2的z轴坐标减去C3的z轴坐标，同理可得所有16点的相对相邻点的深度差；起始参照点C3自身的相对深度差记为0，跟剩余16点计算得到的深度差组成一个数组，数组长度为17，将这个数组作为新的标签。以这种方式进行数据标注之后，HM3.6M数据集每张图片，都有与之对应的人体17个点的2D坐标值、3D坐标值和相对深度差，将每个点的3D坐标值的z轴坐标用相对深度差取代，得到最终的17个点的相对3D坐标值。

方面二核心在于构建网络，用于二阶段姿态估计算法的训练，步骤如下：

第一步，目前所有两阶段姿态估计算法在第一阶段获取到2D人体关键点之后，第二阶段就会抛弃图像特征，只通过映射网络进行2D转3D的坐标预测。本发明在保证映射网络不变的情况下，新建了另一个网络分支对人体图像特征进行提取，该分支的输入是第一阶段得到的人体抠图。

进一步地，新分支在对人体图像进行特征提取之前，需要按照2D关键点将人体进行简单的分割，分成头部、躯干、左手肢、右手肢、左腿、右腿6大部分，每部分裁剪尺寸为64*64，裁剪之后经过相同结构的卷积网络进行特征提取，且这些卷积网络之间不共享参数，将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量。特征提取函数为：

最后，以这种裁剪的方式得到肢体部分特征，会保证每个关键节点进行预测时，更多的注意力放在相邻肢体上，一定程度上减轻了任务的复杂度。最后将拼接后的人体特征跟原有映射网络的分支进行整合，放入全连接层进行最终的3D坐标值预测。具体的计算公式如下：

整个训练过程用标注得到的新的17个点的相对3D坐标值进行监督训练。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，所述方法包括如下步骤：

步骤3，对任意两个相邻点之间进行深度差值计算，初始化起始参照点自身的相对深度差，并跟其余所述预定数量减1个点计算得到的深度差组成数组，并将所述数组作为新的标签，然后将所述的关键节点的3D坐标值的z轴坐标用相对深度差取代，得到最终的预定数量的相对3D坐标值；

步骤4，构建神经网络，采用二阶段姿态估计算法的训练，神经网络的第一分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像，裁剪之后经过相同结构的卷积网络进行特征提取，且这些卷积网络之间不共享参数，将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量，第二分支将人体2D坐标输入原有的2D转3D的映射网络，其中，所述步骤4进一步包括：

特征提取函数为：

其中，代表提取后的人体特征向量，X_i代表裁剪后的肢体部分，n是裁剪得到的身体总数，Concat表示拼接操作函数，F表示特征提取网络；

步骤5，最后将拼接后的人体特征跟原有映射网络的分支进行整合，放入全连接层进行最终的3D坐标值预测，其中，所述步骤5进一步包括：具体的计算公式如下：

2.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，所述步骤1进一步包括：拿到原始的HM3.6M人体3D骨骼数据，该数据下每个人体有32个关键节点，其中有一半的节点是不可运动的，将其去掉，我们只需要可运动的17个关键节点：头顶，鼻子，颈部，左肩，左手肘，左手腕，右肩，右手肘，右手腕，胸部脊椎中心，髋关节，左髋，左膝，左脚腕，右髋，右膝，右脚腕，其中，所述预设规则为通过位置索引的方式进行筛选以剔除不需要的关键节点。

3.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，所述步骤2进一步包括：所述预定数量为17，不同拍摄人的相机外参和所属的相机内参不同，按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标，其中，用C1，C2，C3...C17来表示所述相机坐标系下的3D坐标，和图像坐标系下的2D坐标。

4.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，所述步骤3进一步包括：选定起始参照点，将颈部C3作为起始参照点，根据最近距离去定义，它的相邻点有4个，分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10，用距离符号-->表示两点相邻，简写成C3-->C2、C3-->C4、C3-->C7、C3-->C10，那么剩余的相邻点表示为C2-->C1，

C4-->C5，C5-->C6，C7-->C8，C8-->C9，C10-->C11，C11-->C12，C12-->C13，C13-->C14，C11-->C15，C15-->C16，C16-->C17；C2相对C3的深度差为C2的z轴坐标减去C3的z轴坐标，同理可得所有16点的相对相邻点的深度差；起始参照点C3自身的相对深度差记为0，跟剩余16点计算得到的深度差组成一个数组，数组长度为17，将这个数组作为新的标签，以这种方式进行数据标注之后，HM3.6M数据集每张图片，都有与之对应的人体17个点的2D坐标值、3D坐标值和相对深度差，将每个点的3D坐标值的z轴坐标用相对深度差取代，得到最终的17个点的相对3D坐标值。

5.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像进一步包括：所述预先裁剪的方式为按照所述关键节点进行裁剪。

6.如权利要求5所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，所述预先裁剪的方式为按照所述关键节点进行裁剪进一步包括：在对人体图像进行特征提取之前，需要按照2D关键点将人体进行简单的分割，分成头部、躯干、左手肢、右手肢、左腿、右腿6大部分，每部分裁剪尺寸为64*64。

7.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，整个训练过程用标注得到的新的17个点的相对3D坐标值进行监督训练。

8.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法，其特征在于，所述步骤5进一步包括：特征整合，并进行3D点坐标预测，用真实的相对坐标值进行监督训练。