CN112651316A

CN112651316A - 二维和三维多人姿态估计系统及方法

Info

Publication number: CN112651316A
Application number: CN202011509274.5A
Authority: CN
Inventors: 徐超; 李杰锋; 谌志存; 卢策吾
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-13
Anticipated expiration: 2040-12-18
Also published as: CN112651316B

Abstract

一种二维和三维多人姿态估计系统及方法，包括：数据层、模型层和评估层，其中：数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标，模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练，得到二维和三维姿态预测结果，评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果，并对预测结果评估打分。本发明可以同时端到端训练、评估、推理二维以及三维姿态估计。并对多任务有良好的应用性，识别性能非常理想，且内存占用较小，有较高的效率和实时性。

Description

二维和三维多人姿态估计系统及方法

技术领域

本发明涉及的是一种计算机视觉和模式识别领域的技术，具体是一种二维和三维多人姿态估计系统及方法。

背景技术

姿态估计任务的目标是检测图片中人体各关键点的位置。对于二维姿态估计任务，需要得到关键点的像素坐标。对于三维姿态估计任务，需要得到关键点的三维空间坐标。而对于多人场景，不仅需要检测到所有人体的关键点，而且要确定每个关键点的所属个体。姿态估计任务是计算机视觉领域最重要的基础任务之一。在学术上，除帮助解析人体结构本身外，还可以作用于更高级的人体智能理解等相关研究，如动作理解、人物交互语义知识、姿态迁移、动作重定向等方向。在工业界上，对于人机交互、特效制作、行为监督、游戏互动等任务都有重要的应用价值。但是现在的主流算法中，存在二维热力图表征存在量化误差以及三维热力图占用存储空间太大等问题，同时没有算法满足实际应用中同时训练、评估、推理二维以及三维姿态估计的要求。

发明内容

本发明针对现有技术热力图量化误差、训练稳定性差、三维热力图占用存储空间大、实用性和通用性较差等问题，提出一种二维和三维多人姿态估计系统及方法，可以同时进行二维和三维的多人姿态估计，藉由检测器获取到单人人体边界框，将多人姿态估计任务转化为单人姿态估计，通过卷积神经网络提取特征，分别经过二维热力图子网络和一维深度中间表征子网络以及各自的后处理模块得到二维单人姿态估计结果与深度预测结果，将两者合并并且进行坐标变换后得到三维单人姿态估计结果。

本发明是通过以下技术方案实现的：

本发明涉及一种二维和三维多人姿态估计系统，包括：数据层、模型层和评估层，其中：数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标，模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练，得到二维和三维姿态预测结果，评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果，并对预测结果评估打分。

本发明涉及上述系统的二维和三维多人姿态估计方法，通过对二维姿态数据集和三维姿态数据集进行解析并且预处理后进行模型推理，分别得到二维热力图和深度中间表征，经各自后处理后分别得到二维坐标和三维坐标，对其施加监督训练，最后经坐标变换后得到二维最终预测坐标以及三维最终预测坐标并分别进行二维姿态评估和三维姿态评估与结果存储。

所述的解析包括：①在训练阶段和评估阶段对二维和三维姿态数据集所包含图片和标注文件进行解析，得到数据集的原始图片、人体边界框及其二维关键点标注或三维关键点标注；②在推理阶段以图片路径列表作为输入进行解析，得到列表中的每张原始图片数据，并通过目标检测器获取人体候选边界框，生成全零的关键点伪标注。

所述的关键点伪标注的张量维度与训练集的保持一致。

所述的预处理包括：①对数据进行随机裁切、旋转、遮挡、反转、颜色畸变、归一化以及关节定义重对齐，得模型图片输入和训练监督目标；②二维姿态的监督目标通过增加置零深度维与三维姿态数据集对齐，并且深度上的目标权重掩码置零。

所述的模型推理包括：对解析后的数据依次进行特征提取、上采样后分别输入二维热力图子网络和一维深度中间表征子网络，得到各关键点的二维热力图和结构化人体骨架动力链上各关键点相对于其父节点的深度偏移量。

所述的关键点是指：由数据集所定义的结构化人体的各部位或各关节核心位置，即姿态估计任务的预测目标。比如：手肘点、脖子点、脚踝点等。

所述的结构化人体骨架动力链是指：模拟人体的树结构，该结构上各个节点对应人体的关键点，结构的根节点为盆骨点，从根节点出发沿一条由不同关键点组成的动力学路径到达某个关键点节点。

所述的父节点是指：每个关键点在其动力学路径上的前一个节点，该关键点即为其路径上前一个节点的子节点。

所述的特征提取，以数据层预处理后的图片数据以及监督目标为输入，经过卷积神经网络骨架后，得到分辨率较低的高维语义特征。

所述的上采样，通过上采样卷积神经网络，进一步扩大高维语义特征的特征分辨率，得到甚高维语义特征。

所述的二维热力图子网络在得到上采样子网络输出的甚高维语义特征后，通过一层通道映射卷积层，得到各关键点的二维热力图。

所述的一维深度中间表征子网络通过全局池化与全连接层，对甚高维语义特征直接回归关键点深度中间表征，即结构化人体骨架动力链上各关键点相对于其父节点的深度偏移量。

所述的后处理包括：对二维热力图：采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标以及对深度中间表征：从根关节点出发经过骨架动力链累加各子节点偏移量，得到各关键点相对于根节点的深度，再将两部分合并得到预测的三维关键点坐标。

所述的优化积分坐标回归方法是指：将归一化后的单张二维热力图看作二维坐标的联合概率分布，通过对另一变量的积分操作，对联合概率分布边缘化，得到概率分布的离散形式

和

其中：单张二维热力图h∈{h^k|k∈[1，K]}，H_o和W_o分别为热力图的高度和宽度。设

为预测点的坐标向量，则预测的关键点二维坐标由概率的期望公式得到

以及

设热力图上的坐标向量变量为p∈{(x，y)|x∈[1，width]，y∈[1，height]}，将离散化的坐标积分回归表达为

优选地，为能考虑到各元素的独立信息，比如获取置信度等信息，使用sigmoid激活函数与除以总和的方式作为热力图的归一化方式。

所述的优化积分坐标回归方法的自适应的梯度计算方式

使其训练收敛速度更快更稳定，其中：

是符号函数，l是损失函数。

所述的监督训练是指：对于仅含二维姿态估计任务，对其二维坐标结果进行监督，对其对其施加L1损失函数作为监督；对于三维姿态估计任务，对合并后的三维坐标施加L1损失函数作为监督。

所述的坐标变换是指：对模型输出的二维预测坐标和三维预测坐标，经过坐标变换得到各自最终预测结果。在二维姿态估计任务中，将网络输出的二维坐标从相对于框中图片坐标系变换至原始图片坐标系。在三维姿态估计任务中，将网络输出的三维坐标组合的二维坐标部分从框中图片坐标系变换至原始图片坐标系，与深度坐标部分组合后利用摄像机的内参信息和根关节点距离摄像机的深度经过小孔成像原理得到摄像机坐标系下的三维空间坐标。

技术效果

本发明整体解决了现有二维以及三维姿态估计算法后处理存在的热力图量化误差、训练稳定性差、大量内存占用等问题。与现有技术相比，本发明通过端到端训练的优化积分坐标回归后处理，其将归一化后的热力图视作点位概率分布，并求取多元期望得到预测坐标值。并通过自适应梯度设计，使其训练收敛更加快速；通过热力图分离结构，将原本三维热力图表征分解为二维热力图与深度中间表征的组合，减少大量内存占用的同时提升精度；通过抽象数据层、模型层和评估层并制定各层统一输入输出标准，提出二维和三维多人姿态估计通用算法系统，可以同时训练、评估、推理二维以及三维姿态估计。

附图说明

图1为本发明系统示意图；

图2为本发明的二维多人姿态估计方法流程图；

图3为本发明的优化积分坐标回归方法示意图；

图4为本发明的三维多人姿态估计方法流程图；

图5为本发明效果示意图。

具体实施方式

如图1所示，为本实施例涉及的一种二维和三维多人姿态估计系统，包括：数据层、模型层和评估层，其中：数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标，模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练，得到二维和三维姿态预测结果，评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果，并对预测结果评估打分。

所述的数据层包括：数据集解析单元与预处理单元，其中：数据集解析单元在训练阶段和评估阶段，根据算法训练所需二维和三维姿态数据集所包含图片和标注文件进行解析，得到原始图片

人体边界框

及其二维关键点标注

或三维关键点标注

其中：H和W分别为原始图片的长和宽，

为框的左上角坐标，

为框的长宽，K为数据集所定义的关键点类别数；数据集解析单元在推理阶段以图片路径列表作为输入，得到列表中的每张原始图片数据，并通过目标检测器获取人体候选边界框，生成全零的关键点伪标注；预处理单元对解析结果进行预处理，得到模型输入

与二维和三维姿态数据集的监督目标，其中：H_i和W_i分别为模型输入的长和宽，二维姿态数据集的监督目标通过增加置零深度维与三维姿态数据集的监督目标维数对齐，并且深度上的目标权重掩码置零。

所述的目标检测器采用但不限于：yolov3。

所述的模型层包括：特征提取单元、上采样单元、二维热力图子网络单元、一维深度中间表征子网络单元和后处理单元，其中：特征提取单元以数据层预处理后的图片数据以及监督目标为输入，经过内置的卷积神经网络骨架得到分辨率较低的高维语义特征

其中：s₁为骨架网络的降采样倍数，C₁为骨架网络输出的特征通道数；上采样单元通过内置的上采样卷积神经网络，进一步扩大高维语义特征的特征分辨率，得到甚高维语义特征

其中：H_o和W_o分别为上采样后的特征分辨率，C₂为上采样后的特征通道数；二维热力图子网络单元通过对甚高维语义特征进行一层通道映射卷积

K为关键点的类别数，得到各关键点的二维热力图

一维深度中间表征子网络单元通过对甚高维语义特征进行全局池化与全连接层处理，直接回归关键点深度z的中间表征，即子关键点相对于父节点的深度偏移量；后处理单元分别对二维热力图子网络单元和一维深度中间表征子网络单元的结果进行后处理，得到预测的三维关键点坐标。

所述的后处理，包括：①对各关键点的二维热力图采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标；②对结构化人体骨架动力链上各关键点相对于父节点的深度偏移量，从根关节点出发经过骨架动力链累加各子节点偏移量，得到各关键点相对于根节点的深度z；③将两部分合并得到预测的三维关键点坐标。

优选地，如图2所示，对于纯二维姿态估计任务只需对其二维热力图子网络单元的输出结果进行监督，对其对其施加L1损失函数作为监督

一维深度中间表征子网络单元的输出没有实际意义，深度维也不会被监督。在三维姿态估计任务中，其模型流程图如图4所示，对合并后的三维坐标施加L1损失函数作为监督，

所述的评估层包括：坐标变换单元和评估单元，其中：坐标变换单元对预测的三维关键点坐标经过坐标变换得到最终预测结果，评估单元在训练阶段和评估阶段根据最终预测结果按照数据集定义评估流程进行评估打分；评估单元在推理阶段将预测结果按照图片名索引的方式存储。

所述的坐标变换包括：①在二维姿态估计任务中，将网络输出的二维坐标从相对于框中图片坐标系变换至原始图片坐标系；②在三维姿态估计任务中，将网络输出的三维坐标组合的二维坐标部分从框中图片坐标系变换至原始图片坐标系，与深度坐标部分组合后利用摄像机的内参信息和根关节点距离摄像机的深度经过小孔成像原理得到摄像机坐标系下的三维空间坐标。

本实施例涉及上述系统的二维和三维多人姿态估计方法，包括以下步骤：

步骤1，构建训练样本数据集集，本实施例中采用公开的MSCOCO数据集用于二维多人姿态估计；采用Human3.6M数据集用于三维多人姿态估计、二维数据集MPII用于辅助训练

所述的Human3.6M数据集和二维数据集MPII的训练样本在训练批中的占比为1：1。

步骤2，通过数据层分别对二维姿态数据集和三维姿态数据集进行解析，获得原始图片I_raw、其人体边界框标注

(由框的左上角坐标和长宽组成)及其二维关键点标注

或三维关键点标注

在MSCOCO和Human3.6M中K为17，而MPII中K为16。在推理阶段，即以图片路径列表为输入，通过主流目标检测器yolov3得到输入图片集中每个人体的边界框，并对焦距和根关节点距离摄像机的深度进行合理近似估算

焦距近似系数β为

z_root≈5000(mm)。由于一般情况下z_root＞＞d_I且实际人物距离镜头位置在一定距离附近，所以使得通过近似后的参数还原的原始三维空间坐标畸变并不严重。

步骤3，预处理：对步骤2得到的作为训练数据的图片和标注进行进行随机裁切、随机旋转、随机遮挡、随机反转、随机颜色畸变、归一化以及关节定义重对齐，得到网络图片输入I和二维姿态估计任务和三维姿态估计任务的训练监督目标及其权重掩码。

所述的随机裁切是指：对标注人体边界框随机缩放至多±0.3倍，随后裁切出边界框所围图片，关键点坐标进行相应的从原始图片坐标系到边界框内图片坐标系的转换。

所述的随机旋转是指：对图片和坐标随机旋转至多一定角度，对二维姿态估计任务设置为±40°，三维姿态估计任务设置为±30°。裁切并旋转后的图片会被缩放至网络输入所需的分辨率。二维姿态估计算法的输入图片分辨率为256×192，三维姿态估计算法的输入图片分辨率为256×256。

所述的随机遮挡是指：对图片局部随机生成高斯噪声矩形块，只有在三维姿态估计任务中被设置。

所述的随机反转是指：对图片和坐标随机横向翻转，概率是0.5。

所述的随机颜色畸变是指：对图片输入像素值按通道分别增加随机抖动，最大为自身像素值的±0.2倍，只有在三维姿态估计任务中被设置。

所述的归一化是指：对图片和目标坐标进行归一化处理，使其分布均值为0，方差为1。在计算损失函数时，网络输出的坐标也会做归一化处理。

所述的关节定义重对齐是指：根据不同数据集对关键点的不同定义，以主数据集定义为基准，将其他辅助数据集的各关键点目标坐标重新排列，使其与主数据集的目标坐标在顺序上对齐，且数量一致，当某关键点在主数据集中没有被定义，它的目标坐标将会被丢弃；当有在主数据集中被定义，而辅助数据集没有的关键点，那么新增置零的目标坐标，且该目标权重掩码置零。

所述的二维姿态数据集的训练监督目标通过增加置零深度维与三维姿态数据集对齐，并且深度上的目标权重掩码置零。

步骤4，如图2～图4所示，将步骤3预处理后的图片和二维姿态估计任务和三维姿态估计任务的监督目标及其掩码输入基于卷积神经网络进行推理和训练，并将得到的二维热力图和深度中间表征进行后处理，得到二维坐标和三维坐标。

所述的基于卷积神经网络包括：特征提取单元、上采样单元、二维热力图子网络单元、一维深度中间表征子网络单元，其中：特征提取单元使用的使用ResNet-50，降采样倍率s₁为32，输出的特征图通道数量C₁为2048；上采样单元使用的是三层反卷积，每层上采样2倍，上采样单元输出的特征图尺寸与特征提取单元输出的分辨率之比

中间每层输出的通道数量均为256，最终的输出通道数数量C₂为256。

通过各自的预测子网络后，得到二维热力图和深度z的中间表征。

所述的后处理是指：分别对二维热力图和深度中间表征的结果进行后处理。二维热力图部分的后处理方式是采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标。深度中间表征部分的后处理方式是从根关节点出发经过骨架动力链累加各子节点偏移量，得到各关键点相对于根节点的深度z。将两部分合并，即得到模型预测的三维关键点坐标。

所述的后处理中，优化积分坐标回归的梯度项的权重系数α为2。

步骤5，通过步骤3得到的训练监督目标及其权重掩码，对步骤4得到的二维坐标和三维坐标进行监督训练，具体为：对于二维姿态估计任务，只监督其二维坐标，用于监督的L1损失函数为

其中：

是第k个关键点的训练目标权重掩码，

是第k个关键点的预测坐标，

是第k个关键点的目标坐标。深度中间表征的后处理结果，即三维坐标并无意义，也不会被监督。对于三维姿态估计任务，监督其三维坐标，用于监督的L1损失函数为

其中：

是第k个关键点的训练目标权重掩码，

是第k个关键点的预测坐标，

是第k个关键点的目标坐标。

当所述的训练目标权重掩码为0意味着该对应处的预测项不会被监督，有以下几种情况：

(1)数据集中该关键点标注缺失或标记为不可见；

(2)在预处理时，关键点的目标坐标超出输入图片范围；

(3)在关节定义重对齐时，出现主数据集中被定义，而辅助数据集没有的关键点，而被新增的置零目标坐标；

(4)二维姿态数据集的监督目标通过增加置零深度维与三维姿态数据集对齐。

前3种情况，关键点的目标权重掩码所有维均置零。最后一种情况，仅第三维，即深度维置零。

步骤6，对步骤4得到的二维坐标和三维坐标进行评估，即：将网络输出经过坐标变换后得到最终预测坐标分别按照数据集定义评估流程进行评估打分，其中预处理时增加的随机扰动操作均不实施。

在二维姿态估计任务中，网络输出的二维坐标是相对于框中图片坐标系(u_I，v_I)，需要将其坐标变换至原始图片坐标系

变化公式为

其中：W_o和H_o是网络输出热力图的宽和高，分别为48和64。

在三维姿态估计任务中，网络输出的三维坐标是相对于框中图片坐标系与相对空间深度的组合(u_I，v_I，d_I)，需要利用小孔成像原理将其坐标变换至原始三维空间坐标系(x，y，z)，变化公式为

其中：W_o和H_o均为64，深度的归一化系数

设为2000，z_root是标注中的根关节点距离摄像机的深度，f_x和f_y分别是横纵方向的焦距。所使用的二维多人姿态数据集MSCOCO的评估指标为mAP，三维多人姿态数据集Human3.6M的评估指标为PA MPJPE。

步骤7，对步骤6得到的经过坐标变换后的最终预测坐标按照图片名索引的方式存储。

经过具体实际实验，在二维姿态估计任务中，使用常见的二维多人姿态数据集MSCOCO数据集训练并且评估，姿态的准确率指标mAP达71.6。在三维姿态估计任务中，使用常见的三维多人姿态数据集Human3.6M与二维数据集MPII混合训练，在Human3.6M上评估，姿态的错误偏差指标PA MPJPE达32.07。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种二维和三维多人姿态估计系统，其特征在于，包括：数据层、模型层和评估层，其中：数据层根据训练阶段和评估阶段所需的二维和三维姿态数据集或推理阶段输入的图片路径集进行解析和预处理得到模型图片的输入数据和监督目标，模型层根据输入数据与监督目标对基于卷积神经网络进行推理与训练，得到二维和三维姿态预测结果，评估层将二维和三维姿态预测结果坐标变换得到最终算法预测结果，并对预测结果评估打分；

所述的数据层包括：数据集解析单元与预处理单元；

所述的模型层包括：特征提取单元、上采样单元、二维热力图子网络单元、一维深度中间表征子网络单元和后处理单元；

所述的评估层包括：坐标变换单元和评估单元。

2.根据权利要求1所述的二维和三维多人姿态估计系统，其特征是，所述的数据集解析单元在训练阶段和评估阶段对二维和三维姿态数据集所包含图片和标注文件进行解析，得到数据集的原始图片、人体边界框及其二维关键点标注或三维关键点标注；在推理阶段以图片路径列表作为输入，得到列表中的每张原始图片数据，并通过目标检测器获取人体候选边界框，生成全零的关键点伪标注；

所述的预处理单元对数据进行随机裁切、旋转、遮挡、反转、颜色畸变、归一化以及关节定义重对齐，得模型图片输入和训练监督目标。

3.根据权利要求2所述的二维和三维多人姿态估计系统，其特征是，所述的监督目标中的二维姿态的监督目标通过增加置零深度维与三维姿态数据集对齐，并且深度上的目标权重掩码置零。

4.根据权利要求1所述的二维和三维多人姿态估计系统，其特征是，所述的特征提取单元以数据层预处理后的图片数据以及监督目标为输入，经过卷积神经网络骨架后，得到分辨率较低的高维语义特征；所述的上采样单元通过上采样卷积神经网络，进一步扩大高维语义特征的特征分辨率，得到甚高维语义特征；所述的二维热力图子网络单元根据甚高维语义特征，通过一层通道映射卷积层得到各关键点的二维热力图；所述的一维深度中间表征子网络单元通过全局池化与全连接层，对甚高维语义特征直接回归关键点深度中间表征，即子关键点相对于父节点的深度偏移量；所述的后处理单元对二维热力图：采用优化积分坐标回归方法将热力图解码得到其表征的二维关键点坐标以及对深度中间表征：从根关节点出发经过骨架动力链累加各子节点偏移量，得到各关键点相对于根节点的深度，再将两部分合并得到预测的三维关键点坐标。

5.根据权利要求1所述的二维和三维多人姿态估计系统，其特征是，所述的坐标变换单元对模型输出的二维预测坐标和三维预测坐标，经过坐标变换得到各自最终预测结果，包括：在二维姿态估计任务中，将网络输出的二维坐标从相对于框中图片坐标系变换至原始图片坐标系，在三维姿态估计任务中，将网络输出的三维坐标组合的二维坐标部分从框中图片坐标系变换至原始图片坐标系，与深度坐标部分组合后利用摄像机的内参信息和根关节点距离摄像机的深度经过小孔成像原理得到摄像机坐标系下的三维空间坐标。

6.一种基于上述任一权利要求所述系统的二维和三维多人姿态估计方法，其特征在于，通过对二维姿态数据集和三维姿态数据集进行解析并且预处理后进行模型推理，分别得到二维热力图和深度中间表征，经各自后处理后分别得到二维坐标和三维坐标，对其施加监督训练，最后经坐标变换后得到二维最终预测坐标以及三维最终预测坐标并分别进行二维姿态评估和三维姿态评估与结果存储。

7.根据权利要求6所述的二维和三维多人姿态估计方法，其特征是，所述的优化积分坐标回归方法是指：将归一化后的单张二维热力图看作二维坐标的联合概率分布，通过对另一变量的积分操作，对联合概率分布边缘化，得到概率分布的离散形式