CN111627101A

CN111627101A - 一种基于图卷积的三维人体重构方法

Info

Publication number: CN111627101A
Application number: CN202010441454.8A
Authority: CN
Inventors: 任柯燕; 岳天一
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-04
Anticipated expiration: 2040-05-22
Also published as: CN111627101B

Abstract

本发明公开一种基于图卷积的三维人体重构方法，能够根据单目图像生成三维人体网格。该方法包括以下步骤：采用一个残差网络构成的特征提取器提取输入图像的轮廓特征；采用一个反馈神经网络构成的参数回归器从提取得到的特征中回归人体模型的参数；根据估计的参数，采用一个事先训练好的人体模型生成人体的模板拓扑结构；粘合轮廓特征到模板拓扑结构的顶点上；采用一个残差化的图卷积网络优化模板拓扑结构，使模板网格变形，从而得到目标的人体网格。这种网络架构能够避免原始的图卷积网络在回归人体的过程中受到固定初始化的约束，在减轻网络回归压力的同时，生成更为精准的预测网格。

Description

一种基于图卷积的三维人体重构方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人体三维网格的估计方法。

背景技术

从单目图像中回归人体的三维姿态和外形，是计算机视觉领域一个非常有价值的研究方向。现有丰富的技术方法能够以简化的人体骨架为目标进行估计。本发明则希望更进一步得到完整的人体形状和姿势，也就是人体的全3D网格。

通过模拟人类的双眼视力，这个问题在多个摄像头的实验环境中已经得到了很好的解决。然而，实际上即便是在单眼的情况下人类同样可以看到立体空间，这很大程度上依赖于人类的大脑能够从单目图像中正确地重建完整的三维空间。因此，单目重构一直是相关研究领域的重点目标，但过多的模糊性、有限的训练数据和广泛的成像条件使这项任务在单眼情况下尤其具有挑战性。

传统上，基于优化算法的方法为单眼姿态和形状恢复提供了最可靠的解决方案。然而，缓慢的运行时间、对良好初始化的依赖以及经典的局部极小值问题造成的失败，迫使人们将重点转移到基于学习的方法上。这些作品的研究目标大多集中于寻找最可靠的方式来追溯人体的姿态和形状参数，将人体的网格回归到一个特定的参数空间。这无疑会约束网络自身的潜力，例如，SMPL人体模型无法针对手部姿势或面部表情建模。在现今最先进的方法中，解放参数空间约束，使用图卷积网络直接地回归顶点坐标的网络模型开始兴起。但是，人体网格的顶点数量庞大，以及非欧氏空间中顶点间的链接特征使回归网络的能力面临巨大挑战。事实上，对于人体的体态和姿态较为突出的情况，现有的基于单目图像输入的网络作品只能给出粗糙甚至混乱的估计结果。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于单目图像的人体重构方法，能够解决上述技术问题。

本发明的技术方案是这样实现的：

一种基于图卷积的三维人体重构方法，包括：

(1)利用特征提取器提取输入图像中人体的轮廓特征；

(2)利用参数回归器从人体的轮廓特征中回归人体模型的位姿和体态两个参数；

(3)利用人体生成模型从步骤(2)预测的两个参数中生成人体的模板拓扑结构，所述的模板结构作为后端精细雕刻网络的初始化输入，拥有粗糙的人体位姿和体态；

(4)粘合步骤(1)输出的轮廓特征到步骤(3)输出的模板拓扑结构的顶点上，得到动态模板网格；

(5)以步骤(4)得到的动态模板网格作为输入，利用改进的图卷积网络通过迭代地变形模板网格，得到最终预测的人体重构网格。

所述的步骤(3)与步骤(4)生成的是一种动态人体模板，相当于一个与输入图像相匹配的粗制人体网格。与此同时，这种动态模板网格还保留有网格三维坐标与轮廓特征之间的关联性，是后端网络进一步学习的基础。与静态模板网格相比，本发明提出的动态网格能够避免图卷积无法大幅度拉伸网格的弊端，本质上，是将这部分拉伸工作交给前端的参数回归网络完成。

需要说明的是，上述提到的人体生成模型选用SMPL，它是一种生成式的人体回归网络。通过输入指定特征空间内的模型参数，它可以生成一一对应的三维人体网格和三维人体节点。

相比于以往的人体重构方法，本发明的创新点在于提出一种参数回归网络与图卷积网络相配合的网络架构，完成人体网格的回归工作。其中，参数回归网络被称为前端，图卷积网络被称为后端。

特别的，本发明的参数回归网络部分生成的动态模板网格，能够让图卷积网络在已经具有初步位姿和体态的模板上，学习网格坐标与输入特征的数据分布规律。重要的是，由于图卷积无法大幅度拉伸具有关联性的网格顶点，导致网络在面对拥有特殊姿态或体态(如，倒立翻滚，身材较高等)的输入图像时，无法充分的将模板网格做拉伸变形，更加倾向于陷入局部最小值。因此，相比于鲁棒的使用一种拥有固定位姿和体态的静态人体模板来讲，本发明提出的动态模板能够代替图卷积完成网格拉伸工作，避免网络回归受限。

更进一步，为了能够使图卷积网络充分的适应这种动态模板输入，本发明使用残差思想改进原始的谱图卷积网络。改进后的残差图卷积网络，在原始的逐层图卷积结构中添加输入映射，并使用先降维再卷积的方式，缩减图卷积的计算量。如此，每一层网络只需要学习输入层与输出层之间的改变量，在增加网络参数的改变率的同时，使回归更简单。本质上，残差图卷积网络就是通过逐步拉扯动态模板网格到轮廓特征所指示的位置上，实现对人体网格的精加工。

有益效果

本发明提出的网络结构能够避免图卷积受限于静态模板网格的约束，在已经初步具有位姿和体态的网格上进行细微雕刻，输出准确度更高的人体网格。与此同时，残差图卷积网络能够节省部分所需参数，缓解图卷积由顶点数量庞大导致的参数爆炸问题。重点的，对拥有特殊姿态和体态的输入人体图像，本发明的网络模型的表现尤为突出，能够鲁棒的得到基本覆盖全部人体的网格。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例中三维人体重构网络的架构示意图；

图2是根据本发明实施例中残差图卷积网络单层架构示意图；

图3是根据本发明实施例中各阶段网络回归的人体网格的示意图；

图4是本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了

根据本发明实施例的一种基于图卷积的三维人体重构方法，在实际应用中可如图1所示，对本发明的网络结构进行部署，包括：

一个优化后的残差网络构成的特征提取器，用于提取输入图像中人体的轮廓特征；

一个基于模型参数的反馈神经网络构成的参数回归器，用于从轮廓特征中回归人体模型的位姿和体态两个参数；

一个基于SMPL的人体生成模型，用于从预测的人体参数中生成人体的模板拓扑结构。模板作为后端精细雕刻网络的初始化输入，拥有粗糙的人体位姿和体态；

粘合特征提取器输出的轮廓特征到参数回归器输出的模板拓扑结构的顶点上；

一个借助残差思想优化的图卷积网络，以粘合特征的图网格为输入，迭代优化网格顶点位置，变形得到目标人体的网格。

注意，本实施例提到的SMPL特指一种生成式的人体回归网络。通过输入指定特征空间内的模型参数，它可以生成一一对应的三维人体网格和三维人体节点。实施例中使用的SMPL是经过充分训练的普适生成模型，不参与训练过程。

为方便理解本发明的上述技术方案，以下通过实际部署和应用对本发明的上述技术方案进行详细说明。

在训练过程中，本实施例综合使用多种数据集训练网络模型，分别为UP_3D、LSP、MPII和COCO。这些数据集的特征在于，所有输入数据均为拥有一个或多个人体的单目图像以及相匹配的2D人体关键点的标记。值得注意的是，每个数据集对于人体关键点的定义不同，本发明在训练中简单的忽略那些没有标记数据的关键点的损失。

对于一批输入的单目图像，一个特征提取器负责从图像中提取人体轮廓特征φ。本实施例中特征提取器选用Res-Net-50，为取得更好的效果还可以对Res-Net-50进行优化改进，具体为：模块的网络结构引用Res-Net-50的主体部分，省略网络最后的全连接层，并保留输出2048维向量的平均池化层。事实上，全连接层的主要功能是对提取的特征分类，然而图神经网络在某种程度上相当于一个更为优化的全连接层，因此舍弃提取器中的分类工作有利于图神经网络对轮廓特征的解析。与此同时，网络模型采用全局平均池化作为输出，还可以缩减模型参数(全连接层参数可占整个网络参数80％)，并展现出更好的预测性能。除此之外，特征提取器还可以选用VGG、Lenet-5等经典网络。

随后，一个基于SMPL模型的参数回归器根据特征提取器输出的人体轮廓特征φ，预测人体特征参数，包括SMPL的位姿

和体态

以及用于二维投影的相机参数R、t、s，这些统称为Θ。本实施例中的参数回归器由一个普适的反馈神经网络实现，特征在于当前层输出作为下一次卷积的输入，即人体特征参数Θ和轮廓特征φ连接成(φ，Θ)作为回归器的输入。通过不断的迭代卷积，网络会得到趋于稳定的估计结果。具体的，当人体轮廓特征φ和第t层的模型输出Θ_t作为输入，参数回归网络负责输出该层的优化值ΔΘ_t。通过逐层的叠加优化值，即Θ_t+1＝Θ_t+ΔΘ_t，预测的参数结果会越加精准、稳定。最初的预测参数Θ₀是参数的均值

按照图1所示的网络架构，本发明使用SMPL模型将上述人体特征参数Θ转换成3D人体网格和3D人体关键点坐标P。并借助参数回归器输出的相机参数将人体关键点P投影到平面空间，得到预测的2D人体关键点，用于标记数据的训练，即X＝sΠ(RP)+t。另外的3D人体网格将作为后端图卷积网络的动态模板网格。下面给出本实施例中前端回归网络的损失函数，本实施例应用L₂loss作为参数回归器中关键点

和模型参数

的损失函数，分别为：

公式中，K表示人体关键点的数量，X_i表示参数回归网络预测的第i个2D人体关键点；θ_i与β_i分别表示人体的位姿和体态参数；

表示各个预测结果对应的标记数据。实验结果表明，在回归拥有特殊含义的参数时，这种损失函数有助于形成梯度，加快训练速度。

得到前端网络提供的动态模板网格后，模型会粘合特征提取器中的2048维特征向量到模板网格的顶点上，作为图卷积的输入特征。本实施例中的粘合操作具体由张量合并的方式实现，为方便理解，以下举例描述一段张量合并的过程。实施例中的批处理量为64，模板网格顶点数为6890，空间维度是3，则有模板网格的张量形状为64×6890×3，人体的轮廓特征的形状为64×2048。64个人体轮廓特征对应合并到6890个顶点的三维坐标后，可以得到本发明的动态模板网格，其形状为64×6890×2051。本质上，三维坐标和人体轮廓特征被合并成为统一的特征，回归问题从三维空间被转换到特殊的特征空间。

对于后端基于动态模板的回归网络，本实施例使用一个基于频谱域的残差谱图卷积网络从动态模板网格开始回归顶点的三维坐标。从宏观的视角观察，图卷积网络借助粗略接近目标结果的模板网格和人体的轮廓特征，不断使网格变形，逼近准确的回归目标。这样的变形过程实际上是一系列图卷积运算的结果。然而，传统的谱图卷积网络在模型深度方面表现不佳，迭代超过3层的模型会出现训练错误率高的情况，并且对于动态模板与人体特征之间的学习能力不强。因此本发明提出进一步优化图卷积结构。具体的，一个具有逐层传播规则的多层残差图卷积网络，第l^th层的形式如下：

公式中，σ表示激活函数，

其中A表示模板拓扑图的邻接矩阵，I_N表示单位阵；

表示

的度矩阵；

表示归一化的图邻接矩阵；

是l^th层的输入特征矩阵，特别的H⁽⁰⁾＝X；W_b和W_f分别表示输入映射部分和团卷积部分的权重矩阵。本质上，图卷积的功能相当于每个顶点与自身的邻居节点的全连接运算。

在实际训练过程中，本发明提出的残差图卷积网络单层结构如图2所示，特征在于动态模板作为输入映射x与图卷积F(x)叠加，其中，H(x)代表公式(3)中的H^(l+1)，x表示

为缩减图卷积的计算量，本发明实施例还在F(x)部分中改进模型结构。如图2中GraphConvolution前后的线性卷积层所示，网络使用1x1的卷积核先让输入特征降维，再进行图卷积运算。由于1x1的2D卷积核不适合在图上运算，本文利用图卷积的思想将2D卷积核替换为每个顶点的全连接卷积核。再而，残差网络中的批处理归一化(Batch Normalization)会导致训练不稳定和测试性能降低。取消批处理归一化又会使训练速度变慢，网络卡在局部极小值处，甚至造成训练的提前崩溃。因此本发明实施例将网络中的批处理归一化替换为更适合图卷积运算的组归一化(Group Normalization)，较好的解决了这一问题。至此，本发明实施例的网络结构组建完毕，下面将详细阐述后端图卷积网络的训练目标。

通过上述图卷积结构可知，本发明的最终回归结果是一个三维的人体拓扑图

通过SMPL模型的回归器，模型可以从拓扑图中获得人体关键节点的三维坐标，定义为

首先考虑人体拓扑结构的损失，本实施例得出在当前情景下，L₁loss比L₂loss拥有更稳定且快速的训练表现，则输出人体网格的损失函数如下：

公式中，N表示人体网格的顶点数；

表示图卷积网络预测的第i个顶点的三维坐标；

表示对应顶点的标记数据。

再考虑人体关键点的损失，本实施例中使用2D节点标记的数据集，因此在上述图卷积网络中另有一段预测投影相机参数的线性卷积网络，包括一个比例因子s和一个二维平移向量t。模型利用相机参数将图卷积网络得到的三维人体关键点J投影到2维平面上，即X′＝sΠ(J)+t。本实例使用L₂loss用作后端图卷积网络中人体2D关键点的损失函数，形式与公式(1)相同，定义如下：

公式中，K表示人体关键点的数量，

表示图卷积网络预测的第i个2D人体关键点；

表示对应关键点的标记数据。注意，由于每个数据集的定义不同，并不是所有标记数据都拥有24个关键点，对于缺失标记的顶点，本实施例简单的忽略其损失。

根据公式(3)提出的图卷积结构，不断简化的网络实质上是根据相邻顶点对中央顶点做邻域平均。这有利于输出平滑且高质量的人体形状，因为邻域平均强制相邻顶点具有相似的特征。通过这种图卷积特性，本发明提出省略损失函数中有关形状的平滑性损失。因此，本发明完整的损失函数如下：

公式中，

与

分别表示残差图卷积网络中关于人体关键点和网格的损失函数，

与

分别表示参数回归器中关于人体关键点和人体特征参数的损失函数。特别的，λ是关于参数回归器的调节系数，用于控制生成的动态模板的精细程度。

本发明提出的训练模型能够综合多种数据集，使用不同种类标记完成训练任务。然而不同的数据集拥有不同的标准，包括不同的人体节点定义，不同类型的标记，事实上仅有部分数据集提供相应的SMPL参数。由于输出的节点包含所有情况，本发明可以利用不同标准下的2D关键点标记，参与部分训练任务。在这些情况下，训练网络的优化器只需忽略数据集中不包含的节点，或者忽略公式(2)中有关SMPL参数的损失函数。

为展示本发明提出网络的强大的回归能力以及图卷积网络的优化效果，以下将展示几个处在特殊姿态下的人体回归案例，如图3所示。其中，a列是经过本发明提出的改进图卷积网络优化的网格，可以看出模型输出更贴合原图细节的网格；b列是参数回归网络生成的动态模板网格；c列是由a列网格提取参数后生成的SMPL网格；d列是水平旋转90°展示的a列网格。从图中可以看出对于倒置和卷曲状态下的人体，模型能够准确的捕捉四肢的姿态。对于动态模板网格表现很差的I-c，经过图卷积网络的优化后的I-a拥有恰当的网格朝向以及精准的人体姿态。对于腿部出现偏差的II-c，经过图卷积网络的优化后的II-a能够更贴合原图的腿部外形。

综上所述，借助于上述技术方案，本发明提出的基于动态模板的残差谱图卷积网络通过解放以往模型对参数模型的严重依赖，通常是SMPL模型，使人体网格能够摆脱特定参数空间的限制，在更精细的领域中逼近最优坐标。与此同时，本发明保留SMPL模型生成的拓扑结构作为动态模板网格，相比于使用的标准网格来讲，这种网络结构能够在已经初步具有位姿和体态的网格上进行细微雕刻，避免卷积受限于固定的体态，减轻图卷积网络的回归负担。再而，残差网络的思想能够帮助模板网格随着网络层数加深逐渐逼近目标位置，也就是网络的回归结果是网格的形变量。这样的网络结构在加快每一层网络回归速度的同时，有助于加深网络的迭代层数。从总体结果来看，本发明的表现优于传统的基于模型参数的回归网络的基线。在大部分的对比案例中，本发明提出的网络模型对于特殊姿态的人体预估结果表现更为突出，能够较准确的得到单目图像中人体的位姿和体态。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。