CN116824086B

CN116824086B - 一种三维运动目标重建方法及系统

Info

Publication number: CN116824086B
Application number: CN202310702787.5A
Authority: CN
Inventors: 吴晓; 杜起; 李威; 宋雨佩; 张基
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2024-03-19
Anticipated expiration: 2043-06-14
Also published as: CN116824086A

Abstract

本发明涉及计算机视觉技术领域，公开了一种三维运动目标重建方法及系统，该方法，使用全局特征及局部特征的混合特征对三维运动目标的姿势参数和形态参数进行学习，并在循环迭代三维运动目标的特征的过程中最小化重建损失和最小化姿势对抗损失来实现三维运动目标重建。本发明解决了现有技术存在的对齐效果差、丢失了过多的特征信息、关节点约束困难等问题。

Description

一种三维运动目标重建方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体是一种三维运动目标重建方法及系统。

背景技术

现存不同的基于深度学习的方案实现三维人体重建，已经取得不错的效果，但都存在不少的问题。比如HMR使用循环的迭代网络只使用全局特征，对齐效果较差，PyMAF使用局部对齐特征效果明显提升，本方法提出使用全局特征及局部特征的混合特征方式实现更好的三维人体模型和图片的对齐。HMR没有使用局部对齐特征导致对齐效果较差，PyMAF没有使用全局特征丢失了过多的特征信息。同时参数化的人体模型关节点约束困难。

综上，现存的方法未能充分的利用到网络提取的特征信息，无法达到较好的人体网格和图片人物的对齐，参数化人体模型的人体姿势和人体形态参数约束困难，很容易出现人体关节扭曲变形的情况。

发明内容

为克服现有技术的不足，本发明提供了一种三维运动目标重建方法及系统，解决现有技术存在的对齐效果差、丢失了过多的特征信息、关节点约束困难等问题。

本发明解决上述问题所采用的技术方案是：

一种三维运动目标重建方法，使用全局特征及局部特征的混合特征对三维运动目标的姿势参数和形态参数进行学习，并在循环迭代三维运动目标的特征的过程中最小化重建损失和最小化姿势对抗损失来实现三维运动目标重建。

作为一种优选的技术方案，采用具有若干层的生成对抗网络，包括以下步骤：

S1，全局特征获取：将三维运动目标的图片输入编码器中得到全局特征Φ₀；

S2，不同维度特征获取：对全局特征Φ₀进行反卷积操作得到不同维度的全局特征Φ₁...,Φ_t...,Φ_n；其中，n表示全局特征维度，Φ_t表示第t维度的全局特征，1≤t≤n且t为整数；

S3，SMPL参数获取：基于每一层的全局特征，经过特征混合得到当前层次的SMPL参数；

S4，迭代输入：对于每一层的特征都执行步骤S3的操作，将每一层的SMPL的输出作为下一层特征图迭代的输入；

S5，网络SMPL参数生成：在生成对抗网络的最后一层的输出的SMPL参数输入到姿势形态判别器中约束生成网络生成的SMPL参数；其中，生成对抗网络的最后一层的输出是指最后一个特征图迭代输出的SMPL参数。

作为一种优选的技术方案，步骤S3中，首先依次经过全局特征提取器G和全局特征回归器GR得到全局SMPL参数，然后依次经过局部特征提取器L和局部特征回归器LR得到当前层次的局部SMPL参数；

全局特征回归器或局部特征回归器的目标是给定图像的编码特征输出对应的SMPL的参数，来最小化回归参数的重投影损失，计算公式如下：

其中，L_reproj表示重投影损失，||·||₂表示L2范数，x_i表示第i个二维关节真值，表示实数空间，K表示关节点数量，/>表示网络输出关节点的值，v_i表示第i个K关节的可见性，v_i∈{0,1}，若第i个K关节可见则v_i为1，否则v_i为0。

作为一种优选的技术方案，步骤S5中，总损失公式如下：

L_total＝λ_reprojL_reproj+ML_3D+λ_advL_adv+λ_auxL_aux；

其中，L_total表示总损失，L_adv表示对抗损失，L_aux表示掩码损失，λ_reproj表示L_reproj在总损失的权重，λ_adv表示L_adv在总损失的权重，λ_aux表示L_aux在总损失的权重，M表示标志函数，只有当前损失可用时M是1，否则M是0，L_3D表示3D损失。

作为一种优选的技术方案，步骤S5中，3D损失公式如下：

L_3D＝λ_jL_3Djoints+λ_sL_3Dsmp1，

其中，X_i表示输出的预测值的关节点，表示输出的真值的关节点，β_i表示预测值SMPL的形状参数，θ_i表示预测值SMPL的姿势参数，/>表示真值的形状参数，/>表示真值的姿势参数，L_3D _joints表示3D关节点损失,L_3D _smpl表示SMPL参数损失，λ_s表示3D关节点损失的系数，λ_s表示SMPL参数损失的系数，/>表示L2范数的平方。

作为一种优选的技术方案，步骤S5中，对抗损失公式为：

其中，L_adv(E)表示对抗损失，minL_adv(E)表示最小化对抗损失，E(I)表示生成网络的输出，D_i(E(I)表示第i个判别器输出的参数的判别求值，D_i(E(I)输出[0,1]之间的值，Θ表示SMPL的参数，p_E表示生成器输出的SMPL的分布，表示生成器网络输出的参数输入到判别器中得到的期望，E表示生成器，每个判别器目标是最小化判别器的损失，联合优化E和所有D_i，公式如下：

其中，表示判别器的损失，/>表示最小化判别器的损失，p_data表示数据分布，/>表示真实数据判别器输出的期望。

作为一种优选的技术方案，步骤S5中，掩码损失公式为：

其中，C(·)表示卷积，S(·)表示Sigmoid计算，表示三维运动目标掩码的真值。

作为一种优选的技术方案，步骤S5中，步骤S5中，在最后一层特征图Φ_n上增加一个前背景分割头任务。

作为一种优选的技术方案，n＝3。

一种三维运动目标重建系统，用于实现所述的一种三维运动目标重建方法，采用具有若干层的生成对抗网络，包括依次相连的以下模块：

全局特征获取模块：用以，将三维运动目标的图片输入编码器中得到全局特征Φ₀；

不同维度特征获取模块：用以，对全局特征Φ₀进行反卷积操作得到不同维度的全局特征Φ₁...,Φ_t...,Φ_n；其中，n表示全局特征维度，Φ_t表示第t维度的全局特征，1≤t≤n且t为整数；

SMPL参数获取模块：用以，基于每一层的全局特征，经过特征混合得到当前层次的SMPL参数；

迭代输入模块：用以，对于每一层的特征都执行SMPL参数获取模块工作的操作，将每一层的SMPL的输出作为下一层特征图迭代的输入；

网络SMPL参数生成：用以，在生成对抗网络的最后一层的输出的SMPL参数输入到姿势形态判别器中约束生成网络生成的SMPL参数；其中，生成对抗网络的最后一层的输出是指最后一个特征图迭代输出的SMPL参数。

本发明相比于现有技术，具有以下有益效果：

本发明充分使用全局特征和局部特征，在循环迭代的过程中逐步实现三维人体网格和图片人物的对齐；使用人体姿势形态判别器网络来增进生成网络对真实人体姿势形态参数的分布的学习，引入了附加的人体前背景监督任务来增强网络对对齐效果的学习，进一步实现三维人体模型和人物的对齐效果；从而实现了较好的重构效果。

附图说明

图1为本发明所述的一种三维运动目标重建系统的结构示意图；

图2为本发明特征混合模块示意图；

图3为本发明特征提取器的实现示意图；

图4为本发明姿势判别器网络的实现示意图；

图5为本发明提出方法与其它方法的生成效果对比图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例1

如图1至图5所示，本发明设计了一种多级特征循环迭代的回归网络，主要通过循环迭代过程中最小化重建损失和人体姿势对抗损失来实现三维人体重建。系统框图如附图1所示，完整的方法如下：

1、一种全局特征和局部特征融合的循环迭代网络，充分的利用全局特征信息和局部特征的对齐信息，达到较好的三维人体模型和图片的对齐。

2、人体姿势判别器网络，实验发现使用参数化人体模型的姿势参数约束困难，算法引入人体姿势判别器学习真实人体模型的姿势和形态参数的分布，增强生成网络的学习。

3、人体前背景分割任务，算法引入附加的人体前背景分割的任务来促进网络对人体模型和图像人物的对齐。

4、多级特征金字塔网络和循环迭代网络的设计，图片在循环迭代的过程中逐步实现人体网格的对齐，这种回归网络在推理的速度上相较于优化网络有明显优势。

本发明图1展示了构建的1个生成对抗网络，每个特征对应生成对抗网络的一层。

图1所示系统工作时执行以下步骤：

S1,首先算法对输入的图片进行预处理，将输入的图片进行裁剪变换，得到224*224大小的图片然后送入图片编码器中得到全局特征Φ₀。

S2,接着对全局特征Φ₀进行反卷积操作得到不同维度的特征Φ₁...Φ_n，算法设置的n＝3。

S3,对于每一层的特征，比如Φ₀，首先经过全局特征提取器G和全局特征回归器GR得到SMPL参数(gθ₀)之后使用局部特征提取器L和局部特征回归器LR得到当前层次的SMPL参数(θ₀)。

S4,对于每一层的特征都执行c步骤的操作，每一层的SMPL的输出作为下一层迭代的输入。

S5,在最后一层网络的输出的SMPL参数(θn)送入到人体姿势形态判别器网络中约束生成网络生成的SMPL的合理的解空间。

其中，在最后一层特征图上Φ_n增加一个前背景分割头任务用来增强算法输入SMPL人体模型和图片的对齐效果。

如图2所示。特征混合模块(含全局特征提取器G、全局特征回归器GR、局部特征提取器L、局部特征回归器LR)的实现是在全局特征回归之后使用局部特征进行回归。

如图3所示。特征提取器(全局特征提取器G或局部特征提取器L)的输入是特征金字塔对应层的特征，其中M_T'表示的是SMPL模型，前面介绍过SMPL模型包含6,890个顶点，首先将SMPL的顶点进行降采样，得到431个顶点，然后对431个顶点进行投影，得到同一平面中431个点，使用点集提取对应特征的特征向量，然后将其送入到MLP网络中得到一个431*5的特征。全局特征和部特征使用相同的方式，不过全局特征不是使用SMPL参数投影的点而是使用整个特征图进行降采样，最终通过特征提取器提取的特征都是维度的向量，其中B表示批量大小。

如图4所示。左侧判别器网络分解成右侧的四个小判别器，判别器的输入分别是生成网络的SMPL参数和真实的SMPL参数，用来约束生成网络的生成SMPL的参数空间。

本发明的公式说明如下：

1、算法的整体损失主要包括三维损失和二维损失，同时引入的人体姿势判别器网络包含对抗损失和引入的附加监督任务的人体掩码损失。总损失公式如下：

L_total＝λ_reprojL_reproj+ML_3D+λ_advL_adv+λ_auxL_aux；

其中λ_reproj,λ_adv,λ_aux控制每个目标的相对重要性也就是分配给当前损失在整体损失的权重，M是一个标志函数，表示只有当前损失可用的时候是1，否则是0。其中各个损失系数值得设置为λ_reproj＝300,λ_adv＝0.1,λ_aux＝0.1。算法使用的Human3.6M和3DPW数据集包含了3D数据真值，而COCO和MPII等其余的数据集中没有3D的标注算法增加了其2D关节点投影的损失，这也是在公式中有所体现的，同时还增加了对抗损失和附加人体分割任务的损失。

2、重投影损失。算法的回归模块的目标是给定图像的编码特征输出对应的SMPL的参数，来最小化回归参数的重投影损失，如下公式：

其中是第i个二维关节真值和v_i∈{0,1}^K是每个K关节的可见性(如果可见则为1，否则为0)。

3、三维损失。当训练的数据集的3D真值可以使用的时候，可以采用额外的直接3D监督。最常见的3D注释形式是3D关节。现在有诸多的数据集提供的包含SMPL参数的真值，比如Human3.6M和3DPW数据集，同时也可以通过MoSh获得根据SMPL参数[β,θ]的监督。以下是3D损失的定义。算法可以显示使用和不使用任何直接监督的结果。三维损失公式如下所示：

L_3D＝λ_jL_3Djoints+λ_sL_3Dsmpl，

其中X_i，分别表示预测值和真值的关节点，β_i，θ_i，/>分别表示预测值SMPL的形状和姿势参数，真值的形状和姿势参数。λ_j,λ_s分别是3D关节点损失的权重和SMPL参数的损失权重，其中λ_j＝300，λ_s分为对姿势和形态参数两个参数的系数，姿势参数损失系数为100，形态参数损失系数为1.0。

4、对抗损失。本章算法训练了四个的判别器，每个判别器D_i(E(I)输出[0,1]之间的值，D_i(E(I)表示Θ来自数据集的概率，越靠近1表示概率越大，越靠近0表示概率越小。在实践中，算法使用最小二乘公式来保证其稳定性。令E代表编码器，包括图像编码器和3D模块。那么编码器的对抗损失函数如公式：

其中每个鉴别器的目标是最小化公式，算法联合优化E和所有D_i。公式如下：

5、掩码损失。附加任务监督的损失计算如公式所示：

其中C(·),S(·)和||·||分别表示卷积、Sigmoid计算和L2范数，表示人体掩码的真值，算法通过掩码的损失来学习三维人体模型和图片人体的对齐信息。

通过上述三点的改进和多级特征循环迭代网络的设计，能够提升参数化三维人体重建的精度，在公开的数据集上取得不错的效果。SMPL参数回归结果首先在Human3.6M和3DPW数据集上进行评估。表3-3中列出了与其他基于回归的最先进方法的比较效果。选用PyMAF作为基准，与基准相比，本方法分别将PVE减少了4.2mm，将PA-MPJPE减少了3.9mm。在Human3.6M数据集上取得了有竞争力的结果。从下表可以看出，本方法在PVE指标上取得了更显著的结果，这意味着更好的网格和图像对齐。尽管本方法在某一项没有达到最优，比如PARE在3DPW上的指标更好，是因为PARE算法的训练中使用了3DPW数据集作为训练集，本方法并没有使用3DPW作为训练集，3DPW数据集仅仅起到验证集的作用，因此在这一个维度上并没有可比性。本方法的指标在基线的基础上具有明显的提升。

具体的实验数据结果见表1。

表1在3DPW和Human3.6M上的重建损失表

专利提出方法与其它方法的生成效果对比如图5所示。

图5中第一列表示原视图片，第二列是本方法的可视化结果，第三列是HMR算法的结果，第四列是SPIN算法的结果，第五列是PyMAF算法的可视化结果，第六列是PARE算法的结果，从图中可以看出本方法在对齐和人体形状参数以及人脸朝向的输出更具有优势。HMR算法在对齐效果上较差。从第一组对比实验可以看出本方法相较于PyMAF的人脸朝向更加合理，相较于PARE和SPIN的对齐效果更好，第二组对比实验可以看到HMR、SPIN、PARE算法的对齐效果依旧较差，本方法基准算法的差异细微，在头部区域本方法对齐略差于PyMAF，出现这种情况是因为整体数据集的真值对齐并不考虑人体帽子的对于部分，本方法学习的人体模型默认去除人体戴帽子的模型，第三组对比实验可以看出本方法的人体形态的预测相较于PyMAF的效果更加好，比PARE和SPIN算法的对齐效果更好，PyMAF得到的模型的人体形状参数更偏瘦，我们的模型能够更好的学习到人体形态参数，这得益于我们对人体形态参数施加的判别器网络约束，第四组对比试验可以看出HMR、SPIN、PARE的对齐效果仍然较差，SPIN和PARE算法在手臂处的对齐过于偏外，超出了人体的界限，本方法相较于PyMAF算法可以看出学习到的人体形状参数更加的饱满，以上机组实验尽管从肉眼观测的差异很小，但是在指标上证明了本方法具有较好的对齐效果和人体形态参数。

相关实验均运行在服务器中，服务器操作系统为Ubuntu18.04，CUDA版本为10.2，Python版本为3.8。使用深度学习框架PyTorch1.10.0，具体的实验参数如表2。

表2实验参数表

为了定量评价3DPW和Human3.6M上的三维人体重建和姿态估计性能，算法使用了三个评估标准MPJPE、PVE、PA-MPJPE。默认情况下都是毫米为单位。其值都是越小越好。

这里详细的介绍算法使用的参数和不同维度的特征。本方法使用在ImageNet上预训练的Resnet-50作为主干网络，Resnet-50主干网络输入224×224大小的图片，输出2048×7×7大小的图像特征。对于经典的回归网络HMR，平均池化后会得到2048×1的全局特征向量。图像特征将经过反卷积层，得到分辨率为{14×14,28×28,56×56}的空间特征图，其中所有分辨率的C_s＝256。这里，最大数量T设置为3，这等于HMR中使用的迭代次数。在生成网格对齐特征时，使用PyMAF中提供的预计算下采样矩阵对SMPL网格进行下采样，之后顶点数从6,890下降到431。每个点的网格对齐特征将由三层MLP处理，以便它们的维度将从C_s减少到5。因此，2155＝431×5，这与全局特征的长度相似。对于在t＝0处使用的网格特征，它们是从按照21×21的网格模式均匀采样的。点数为441＝21×21这近似于网格下采样后的顶点数431。回归器R_t与HMR中的回归器具有相同的架构，只是它们的输入维度略有不同。按照SPIN的设置，算法使用Adam优化器训练本方法的网络，学习率设置为5e-5，批量大小设置为64。上述的设置和PyMAF保持一致，不同的是回归器的设置中使用了全局回归器和局部对齐回归器，全局回器使用441＝21×21下采样特征送入MLP中得到全局特征，局部特征回归器使用SMPL下采样的431个点送到回归器中得到2155＝431×5长度的特征。网络采用两次训练的方式，第一次训练在Human3.6M数据集上进行60次的迭代，然后在混合数据集上再进行60次的迭代。

本方法和PyMAF方法有着相同的输入和输出维度，但是有着不同的监督任务和回归方法。回归器由两个全连接层组成，每个全连接层有1,024个隐神经元同时神经元之间添加了Dropout来防止过拟合，紧接着连接最后一层输出，包括形状和姿态的差值输出。网络中的回归器采用连续表示来表示姿势参数θ中的3D旋转。再提取网格对齐的局部特征和全局特征中，提取出来的维度由256降到5，这个降维的操作是送到了一个MLP网络中完成的，这个MLP网络由三层全连接层组成，同样也会添加Dropout来减少过拟合。方法的特征金字塔网络特征和PyMAF保持一致，由三个反卷积网络组成。反卷积不是强制性的，但有助于生成更好的特征图。在实验中，使用早期层中的特征图也是可行的，但不是最终解决方案。

在算法的特征模块首先在网络的每一次循环迭代中首先使用全局特征，该全局特征是每一层迭代的特征金字塔对应层次的特征向量，首先会使用MLP网络对全局特征进行降维，降维后的特征送入到回归器中计算人体姿势和形态参数的偏移量，然后加上基本参数得到当前全局特征回归的人体模型参数，在同一层迭代中，根据本次迭代全局回归器得到的人体形态姿势参数在进行局部特征的回归，首先对全局特征进行人体模型对齐的随机采样特征的提取，并送入到回归器中得到人体形态姿势的偏移加上全局特征回归器回归的人体参数得到本次迭代的人体参数化模型的参数并进行下一次的迭代。如表3简单列出模型的参数设置。

表3模型的参数设置表

本发明采用多级特征循环迭代网络使用混合特征的方式逐步实现三维人体模型和图片人物的对齐；

本发明采用人体姿势形态判别器网络，起到数据先验的作用，增强生成网络对真实人体分布参数的学习。

本发明采用人体前背景分割头人物，促进网络实现更好的对其效果。

如上所述，可较好地实现本发明。

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种三维运动目标重建方法，其特征在于，使用全局特征及局部特征的混合特征对三维运动目标的姿势参数和形态参数进行学习，并在循环迭代三维运动目标的特征的过程中最小化重建损失和最小化姿势对抗损失来实现三维运动目标重建；

采用具有若干层的生成对抗网络，包括以下步骤：

S5，网络SMPL参数生成：在生成对抗网络的最后一层的输出的SMPL参数输入到姿势形态判别器中约束生成网络生成的SMPL参数；其中，生成对抗网络的最后一层的输出是指最后一个特征图迭代输出的SMPL参数；

步骤S3中，首先依次经过全局特征提取器G和全局特征回归器GR得到全局SMPL参数，然后依次经过局部特征提取器L和局部特征回归器LR得到当前层次的局部SMPL参数。

2.根据权利要求1所述的一种三维运动目标重建方法，其特征在于，步骤S3中，全局特征回归器或局部特征回归器的目标是给定图像的编码特征输出对应的SMPL的参数，来最小化回归参数的重投影损失，计算公式如下：

3.根据权利要求2所述的一种三维运动目标重建方法，，其特征在于，步骤S5中，总损失公式如下：

L_total＝λ_reprojL_reproj+ML_3D+λ_advL_adv+λ_auxL_aux；

4.根据权利要求3所述的一种三维运动目标重建方法，，其特征在于，步骤S5中，3D损失公式如下：

L_3D＝λ_jL_3Djoints+λ_sL_3Dsmp1，

其中，X_i表示输出的预测值的关节点，表示输出的真值的关节点，β_i表示预测值SMPL的形状参数，θ_i表示预测值SMPL的姿势参数，/>表示真值的形状参数，/>表示真值的姿势参数，L_{3D joints}表示3D关节点损失,L_{3D smpl}表示SMPL参数损失，λ_s表示3D关节点损失的系数，λ_s表示SMPL参数损失的系数，/>表示L2范数的平方。

5.根据权利要求3所述的一种三维运动目标重建方法，，其特征在于，步骤S5中，对抗损失公式为：

其中，表示判别器的损失，/>表示最小化判别器的损失，p_data表示数据分布，表示真实数据判别器输出的期望。

6.根据权利要求3所述的一种三维运动目标重建方法，，其特征在于，步骤S5中，掩码损失公式为：

7.根据权利要求1所述的一种三维运动目标重建方法，，其特征在于，步骤S5中，步骤S5中，在最后一层特征图Φ_n上增加一个前背景分割头任务。

8.根据权利要求1至7任一项所述的一种三维运动目标重建方法，其特征在于，n＝3。

9.一种三维运动目标重建系统，其特征在于，用于实现权利要求1至8任一项所述的一种三维运动目标重建方法，采用具有若干层的生成对抗网络，包括依次相连的以下模块：