CN113077545A

CN113077545A - 一种基于图卷积的从图像中重建着装人体模型的方法

Info

Publication number: CN113077545A
Application number: CN202110362435.0A
Authority: CN
Inventors: 毛爱华; 禚冠军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-06
Anticipated expiration: 2041-04-02
Also published as: CN113077545B

Abstract

本发明公开了一种基于图卷积的从图像中重建着装人体模型的方法，包括以下步骤：S1、生成光滑人体模型，通过顶点偏差建立着装人体模型的表示方式；S2、搭建基于图卷积的神经网络，所述神经网络包括图像特征提取网络、基于图卷积的人体外貌优化网络以及图像特征转换模块；S3、训练所述基于图卷积的神经网络；S4、对于需要预测的图像预处理，并获取与之对应的光滑人体模型；S5、将预处理后的测试图像输入训练好的神经网络神经网络取最后阶段的输出与光滑人体模型叠加得到最终的着装人体模型。

Description

一种基于图卷积的从图像中重建着装人体模型的方法

技术领域

本发明涉及计算机图形学、计算机视觉与机器学习的三维物体重建领域，具体涉及一种基于图卷积的从图像中重建着装人体模型的方法。

背景技术

三维模型的重建一直是计算机图形图像领域的热门问题，其中三维人体重建更是一个受到广泛关注且具有巨大应用价值的领域。目前高质量三维人体模型往往需要借助一些相机阵列或者特殊的深度、激光相机来获得初步的图像信息，然后经过复杂的后处理得到模型。这种方法的精度较高，但是需要昂贵的专用设备，推广难度大，且重建过程操作复杂。另外一种获得三维人体的方法是基于单个深度或者彩色相机来获得图像，然后借助于神经网络的处理来快速获得重建结果。因为深度相机并不像普通彩色相机那么普遍，导致基于深度相机的方法受制于采集设备。而仅利用彩色图像的方法，由于输入图像中包含的人体信息有限，需要神经网络学习人体的先验知识作为补充。其中部分工作恢复的结果虽然可控，但是仅包含人体的体型与姿势，并不包含人体的着装，无法反应照片中真实人体的衣服外貌。另外有工作尝试从图像中恢复出着装的人体，但是它恢复的结果不具有可控性，无法直接进行二次的姿势或者体型的变化，这给人体重建结果推广与使用带来了困难。

《一种人体二维图像采集装置及三维人体表面重建系统》(CN 206162583 U)由红外图像采集装置和三维人体表面重建系统组成。采集装置为一个红外相机，利用架设的滑轨或转盘，自动转动相机或人体，从而获得静止人体在各种角度下的红外图像。多视角的红外图像送入与采集装置相连的三维人体表面重建装置，重建三维人体。

《基于图片的SMPL参数预测以及人体模型生成方法》(CN 111968217 A)分为基本人体模型(SMPL)的形状与姿势参数的预测。输入的图像通过特殊设计具有注意力机制的神经网络提取人体轮廓，依据人体轮廓预测SMPL的形态参数，利用姿态参数预测网络预测SMPL的姿势参数，姿势参数θ和形状参数β控制SMPL的生成结果，得到最终的三维人体模型。

《一种基于简易测量服的三维人体快速重建方法》(CN 108269302 B)首先针对现有人体库中的人体，提取其中的特征参数与特征曲线作为人体的特征，然后利用PCA方法构建整个人体库的形状空间。神经网络被用来建立人体特征与形状空间之间的映射关系。然后测量待测人体特征参数以及利用简易测量服获取该人体的特征曲线，这两项输入到之前的神经网络映射模型，得到形状空间中的各特征向量对应的特征值，再还原重建得到三维人体模型。

《基于RGBD单视角图像人体三维重建方法及装置》(CN 110335343 A)通过深度相机采集人体的RGB彩色图片与深度图片，依据图片得到对应人体在图像中包含的人体分割信息、二维关节点信息和三维关节点信息，凭借三维关节点对基本人体模型(SMPL)进行约束与初步的预测，将初步预测的三维人体渲染深度图像，使得预测模型深度值与采集的深度图数值尽可能相似，然后结合单视角彩色图像与从渲染中恢复三维形状的方法对初步预测的人体模型进行进一步的优化，并进行三角化重建获得三维人体模型。

一种有遮挡情况下的人体三维重建方法、装置及电子设备》(CN 111739161 B)主要解决的是在遮挡情况下的三维人体重建。利用相机采集的彩色图像与深度图像，对彩色图像里的目标进行实例分割，得到人体掩码与遮挡物掩码，依此信息将深度图分为人体深度图与遮挡物深度图，利用神经网络估计遮挡物姿态然后重建遮挡物，基于彩色图像，人体深度图与遮挡物模型对人体造成的几何约束进行三维人体重建。

《基于隐式函数和人体模板的单图像人体三维重建方法》(CN 111340944 A)采集人体几何模型，预处理生成数据集以用于神经网络训练。构建了二维图像特征提取网络以及三维参数化模板的体特征提取网络，然后将图像特征与三维参数化模板的体特征输入到隐式函数推断神经网络预测在固定空间内某一位置位于模型内部的概率，然后借助于Marching Cube算法提取等值面获得预测的人体。

现有技术的缺点：

1.依赖复杂的采样设备与后处理过程。有些方法为了获得足够重建人体的信息，需要多摄像头或者是特殊的特备以采集多个视角的人体图像，如专利(CN 206162583 U)需要红外相机以及对应的转动支架以便获得多视角图像，这要求带了了场地的限制，不利于大规模的应用，操作也相对来说较为复杂。同时多个摄像头获得的图像需要经过复杂的后处理才可以获得重建人体。此外还有专利(CN 108269302 B)需要特制的服装来辅助人体测量，这也提高了操作的复杂度。

2.重建需要借助于深度相机采集深度图像，无法仅从单张彩色图像重建。目前有些方法借助于神经网络，操作上相对简化了，但是需要借助于深度相机以获得人体的点云，以优化人体体型外貌，如专利(CN 110335343 A)与(CN 111739161 B)。简单偏移的深度相机采集精度不足，并且会带来噪声，这为这种基于深度相机的技术的广泛应用带来麻烦。

3.重建的人体缺乏对人体着装的表示。有些重建方法重建的人体是预测人体姿势参数θ和形状参数β，然后由参数化的人体模板(SMPL)获得结果，如专利(CN 111968217 A)。单纯的姿势参数与形状参数只包含了图像中人体的姿势与身体胖瘦等有限的信息，无法表达人体的衣服等外貌细节信息，重建的结果是SMPL较为光滑的人体，它没有对于人体衣服的重建，缺乏表达能力。

4.重建的人体缺乏控制性。有一类方法仅从一张或有限几张图像中重建人体，它的使用操作较为简单，但是重建的结果缺乏二次变形的能力，如专利(CN 111340944 A)。这种方法重建的人体模型需要重新经过复杂的骨骼权重蒙皮才可以进行二次的形变，这不利于对重建人体进行二次变形以动画化的利用，且复杂的蒙皮技术限制了它结果的应用场景。

发明内容

本发明主要目的是借助于图卷积将SMPL的拓扑结构嵌入神经网络，从一张或者几张图像中生成对应的着装人体，同时保证重建的着装人体模型具有一定的可控性，可以二次变形或者动画化。本发明通过建立人体模型，本发明的人体模型结合了SMPL的可控性，同时加入对于每个SMPL模型的额外顶点，用于提高该表示法对于人体外貌的表达能力，使用一种基于相机投影的方式来完成特征与模型顶点的对齐，该种转换方式可以自然的适应从单张图像到多张图像的输入。

本发明至少通过如下技术方案之一实现。

一种基于图卷积的从图像中重建着装人体模型的方法，包括以下步骤：

S1、生成光滑人体模型，通过顶点偏差建立着装人体模型的表示方式；

S2、搭建基于图卷积的神经网络，所述神经网络包括图像特征提取网络、基于图卷积的人体外貌优化网络以及图像特征转换模块；

S3、训练所述基于图卷积的神经网络；

S4、对于需要预测的图像预处理，并获取与之对应的光滑人体模型；

S5、将预处理后的测试图像输入训练好的神经网络神经网络取最后阶段的输出与光滑人体模型叠加得到最终的着装人体模型。

优选的，所述光滑人体模型通过SMPL生成，所述光滑人体模型的形态由n个形状参数β和N个姿势参数θ控制。

优选的，所述着装人体模型的表示方式为SMPL+D_p，是在所述光滑人体模型的每个顶点上增加偏移，通过增加偏移来表示人体的服饰信息，所有顶点形成偏移集合D_p：

D_p＝W(D_u,J(β),θ,W)

其中，D_u表示默认姿势下的偏移，W(*)表示SMPL的线性蒙皮函数，W为对应的权重，J(β)表示由形状参数β确定的关节点位置，将默认姿势下的偏移D_u与默认姿势下的光滑人体模型相加，通过控制形状参数β和姿势参数θ控制着装人体模型。

优选的，步骤S2是利用神经网络PyTorch搭建图像特征提取网络、基于图卷积的人体外貌优化网络以及图像特征转换模块。

优选的，所述图像特征提取网络包括s个卷积层，每个卷积层的卷积核大小都为m*m，除了最后一层卷积层，每个卷积层后面都接有修正线性单元作为激活函数来修正输出值。

优选的，所述图像特征转换模块接收来自图像特征提取网络输出的特征图，基于网格拓扑图卷积输入光滑人体模型每个顶点的特征，利用对应的光滑人体模型或者基于图卷积的人体外貌优化网络输出的中间预测结果做相机投影，得到光滑人体模型上的顶点在每层特征图上的位置，然后以该位置为中心借助双线性插值的方法提取该顶点特征，分别在图像特征提取网络的特征图执行上述投影对齐操作，再将每个顶点在不同层的特征拼接在一起，作为该顶点在基于图卷积的人体外貌优化网络中的输入特征。

优选的，所述基于图卷积的人体外貌优化网络包括多级沙漏模块；每级沙漏模块包括由多个堆叠的图卷积构成的沙漏模块；每级沙漏模块之间设有含两个卷积窗口的图卷积执行特征的通道转换，每级沙漏模块之后设有含两个卷积窗口的图卷积用于生成中间预测结果D_p，该中间预测结果D_p与对应的光滑人体模型叠加得到该沙漏模块预测下的中间人体模型预测结果；第一级沙漏模块的输入为光滑人体模型投影对齐的特征；其他的沙漏模块的的输入为上一级沙漏模块优化的光滑人体模型投影对齐的特征、上一级沙漏模块的输出以及中间人体模型预测结果。

优选的，所述每级沙漏模块包括h个下采样图卷积块、h个上采样图卷积块和h个残差图卷积块；

其中，每个卷积块包括含有j层卷积窗口的图卷积；如果卷积块的输入与输出通道数一致，则将输入与输出直接相加作为最终输出，否则使用额外的图卷积将卷积块的输入通道转换后再与输出相加；

所述h个下采样图卷积块，将投影对齐的特征依次下采样至最小分辨率然后通过两个全连接层与一个上采样图卷积块相连；

所述h个上采样图卷积块依次连接；所述h个下采样图卷积块、h个上采样图卷积块的不同卷积块之间的拓扑结构不同，所对应的顶点也不同，上一级的特征通过之顶点上下采样矩阵进行上下采样，以满足不同的拓扑要求；

所述h个残差图卷积块的输入分别与同级下采样图卷积块输入相同，输出通道数分别与同级上采样图卷积块的相同，每个残差图卷积块将该级输出与对应的上采样图卷积块输出相加得到该级拓扑下的最终输出特征。

优选的，步骤S3是通过PyTorch的RMSprop优化器进行训练，具体为：将训练图像输入到图像特征提取网络，得到每层的输出特征图，利用光滑人体模型做投影对齐操作，将投影对齐的特征转换为以顶点为基本单位的特征集合，将特征集合输入到基于图卷积的人体外貌优化网络的第一级沙漏模块，得到第一级预测输出，所述第一级预测输出与光滑人体模型叠加得到完整的中间人体模型预测结果，将中间人体模型预测结果进行投影对齐，新对齐的特征与所述中间人体模型预测结果以及第一级预测输出拼接在一起输入第二级沙漏模块，如此重复得到下一级沙漏模块的输入，将每级沙漏模块的中间人体模型预测结果与真实的着装人体模型进行监督学习，以训练整个神经网络；

优选的，训练的损失组包括点到曲面损失、边长正则化损失、拉普拉斯保持损失以及整体网格编码损失；整体网格编码损失所用的整体网格编码网络为去除四个残差图卷积块的沙漏模块构建，利用着装人体的衣服偏移进行预训练以使整体网格具有编码人体偏移的能力。

与现有的技术相比，本发明的有益效果为：本发明公开了一种基于图卷积网络的从图像中重建着装人体模型的网络框架，且因为本发明的图卷积网络嵌入了可控模型SMPL的拓扑结构，使得本发明的重建人体同时具有同于SMPL的可控性。

1.所设计网络的输入只需要一张(或者多视角网络下输入为3张或更多)图像作为输入，重建过程中的所需的SMPL人体也可由所介绍的方法仅从一张图像获得，因此本发明的网络无需依赖复杂的采集设备，也不需要借助于深度相机。

2.操作简单快捷。所设计神经网络可以借助数据进行端到端的训练，在训练完毕后即可由测试图像获得重建的着装人体，此测试过程简单快捷，无复杂的人工干预操作。

3.重建人体不仅仅包括体型、姿势，还有衣服等外貌细节。针对部分工作仅从图像重建光滑人体的缺点，本发明独特设计了人体优化网络从图像里多级优化光滑人体，以此提高重建人体质量，使其包含衣服、发型、鞋子等人体外貌。

4.重建的结果具有可控性。针对于多数重建着装人体的工作的重建结果缺乏可控性的问题，本发明借助于图卷积网络，将SMPL这一可控模型的拓扑嵌入本发明的网络设计之中，使得本发明的输出结果具有了SMPL相同的拓扑结构，因此本发明的重建人体可以使用同于SMPL的方法，借助于姿势参数θ和形状参数β实现二次变形。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本实施例一种基于图卷积的从图像中重建着装人体模型的方法的实例流程图；

图2是本实施例人体外貌优化网络结构图；

图3是关于本实施例重建的人体关于可控性展示图。

具体实施方式

以下结合实施例及其附图对本发明作进一步说明。

本实施例借助于图卷积将SMPL的拓扑结构嵌入神经网络，具体涉及一种基于图卷积神经网络和参数化人体模板SMPL(Skinned Multi-Person Linear)的从图像中生成着装人体的方法。从一张或者几张输入图像中获得人体信息推理人体的着装等外貌以优化与之对应的光滑人体模型SMPL，从而产生可控的着装人体模型，建立并训练神经网络，训练结束后，向神经网络输入图像即可得到对应的着装人体模型，该模型可以借助同于SMPL变形的方法进行二次变形。所述输入图像为512*512像素分辨率的剔除背景的仅包含人体的彩色图像(且图像中人体的身高大致相当于与图像高度)

如图1所示的一种基于图卷积的从图像中重建着装人体模型的方法，包括以下步骤：

S1、通过SMPL生成生成光滑人体模型，通过顶点偏差建立着装人体模型的表示方式；

具体的，利用相机获取着装人体的彩色图像，从彩色图像中挖掘信息以重建人体，得到网格形式的人体模型，即为光滑人体模型(SMPL)，光滑人体模型可以由10个形状参数β和72个姿势参数θ控制其形态，即给定参数β和θ，即可得到参数化人体模型。

从图像中除了估计姿势参数与形状参数用于生成参数化人体模型外，还直接从图像中挖掘人物的衣服信息以增强重建模型。

借助于基于普通卷积的简易特征提取网络从图像提取包含人体衣服信息编码的低级特征，然后输入基于图卷积的人体外貌优化网络，获得相对于SMPL的额外偏移来表示人体的衣服、鞋子等信息，由于光滑人体模型无法体现人体的衣服、头发与鞋子等细节。因此，为其每个顶点施加一个偏移，这些偏移直接加到对应的SMPL模型之上即可得到着装人体。所有顶点的偏移集合起来称为D_p，使用D_p表示当前人体下的衣服头发鞋子等细节。D_p是姿势依赖的，即它是对应某一姿势下的SMPL人体模型的顶点偏移。对于SMPL模型的额外顶点，用于提高该表示法对于人体外貌的表达能力。而其他使用点云、拓扑不唯一的网格或者体素化表示的人体表示法缺乏足够的可控性，无法简单的像SMPL一样进行二次变形。

所述着装人体模型的表示方式为SMPL+D_p，在所述光滑人体模型的每个顶点上增加偏移：

D_p＝W(D_u,J(β),θ,W)

其中，D_u表示默认姿势(T-Pose)下的偏移，W(*)表示SMPL的线性蒙皮函数，W为对应的权重，J(β)表示由形状参数β确定的关节点位置，将默认姿势下的偏移D_u与默认姿势下的光滑人体模型相加，通过控制形状参数β和姿势参数θ控制着装人体模型。

作为优选的实施例，训练用的人体模型可以由合成得到，如使用使用文献(Multi-garment net:Learning to dress 3d people from images)中的数字衣柜结合所述的参数化人体模型获得不同姿势下的着装人体模型，借助于该数字衣柜提供的标签与纹理，利用python里面的工具包neural_render在环境光与随机点光源的光照下对着装人体模型(即参数化人体模型)进行多视角的渲染，获得与之对应的图像、轮廓图、语义分割图、深度图。同时还可以由每个着装人对应的姿势参数θ和形状参数β得到与之对应的参数化人体模型，二者做减法即可得到该着装人体对于相应SMPL的顶点偏移D_p。

S2、搭建基于图卷积的神经网络，所述神经网络包括图像特征提取网络、人体外貌优化网络以及图像特征提取网络、人体外貌优化网络之间的图像特征转换模块；

所述图像特征提取网络从步骤S1获取的彩色图像提取包含人体信息的低级特征，其包括8个卷积层，每个卷积层的卷积核大小都为3*3，而卷积输出通道分别为16、16、32、32、32、64、64、64。第3卷积层以及第6卷积层的步长为2，缩小特征图以进行信息的聚合，其他卷积层的步长都为1。除了最后一层卷积层，每个卷积层后面都接一个修正线性单元作为激活函数来修正输出值。

作为另一个具体的实施例，所述的图像特征提取网络的构成可以为8个卷积层，每个卷积层的卷积核大小为3*3，而卷积的输出通道数分别为16、16、32、32、32、64、64、64。其中第2层卷积以及第5层卷积后面都添加一个池化窗口为2，步长为1的池化层，用以缩小特征图并进行特征的聚合。在所有卷积层后面，都可以添加泄露修正线性单元用来修正输出值。

作为另外的实施例，所述的图像特征提取网络的构成可以为9个卷积层，每个卷积层的卷积核大小为3*3，而卷积的输出通道数分别为16、16、32、32、32、64、64、64、64。其中第3层卷积以及第7层卷积为膨胀因子为2的膨胀卷积，通过膨胀卷积来扩展膨胀卷积层之后的卷积层的感受域。在所有卷积层后面，都添加修正线性单元用来修正输出值。

所述人体外貌优化网络的输入为图像特征提取网络的低级特征，以顶点偏移作为优化对象，具体是利用网格采样方法对SMPL默认的人体参数模型进行粗化，以下采样因子4执行多次得到不同粗化级别的SMPL模型以及对应的顶点上/下采样矩阵，借助其不同的拓扑，构建对应不同采样率的图卷积以模拟普通卷积网络中的下采样与上采样操作，将着装人体生成视为一个渐进的优化过程。

所述人体外貌优化网络通过图卷积(graph-convolution)搭建，具体包括三级堆叠的图卷积构成的沙漏模块，每一级都可以输出该级下的中间预测结果。第二、三级沙漏模块的输入为利用上一级优化的参数化人体模型投影对齐的特征、上一级沙漏模块的输出以及中间预测结果；第一级沙漏模块的输入只有利用光滑人体模型投影对齐的特征。每个沙漏模块之前设有含两个卷积窗口K为1的图卷积执行特征的通道转换，而在沙漏模块之后也额外的设有含两个卷积窗口K为1的图卷积用于生成中间预测结果D_p。该预测结果与对应的SMPL模型叠加可以得到该级预测下的完整着装人体。

所述图卷积公式化为：

其中，对应于网格归一化后的拉普拉斯矩阵L的最大特征值，x是输入的图像信号，

是关于

的k阶切比雪夫多项式(chebyshev polynomial)，θ′_k表示关于切比雪夫系数的向量,σ是激活函数，y为图卷积的输出信号，以卷积窗口内节点到中心节点的最大跳数K表示图卷积的卷积核大小。L为图卷积所对应的图的对称正规化后的拉普拉斯矩阵，λ_max是矩阵L最大的特征值，

是将L执行放缩操作2L/λ_max-I_N后得到的矩阵，I_N为N阶单位矩阵，N是矩阵L的阶数。

如图2所示，每级沙漏模块有四个下采样图卷积块、四个上采样图卷积块和四个残差图卷积块组成。四级下采样图卷积块，将特征依次下采样至最小分辨率然后通过两个全连接层与最低级的上采样图卷积块相连，上采样部分经过四级上采样得到上采样输出，而四个残差图卷积块的输入分别与同级下采样输入相同，输出通道数分别与同级上采样的相同，每个残差图卷积块将该级输出与对应的上采样图卷积块输出相加得到该级拓扑下的最终输出特征。其中每个卷积块都由三层卷积窗口K为6的图卷积构成，如果卷积块的输入与输出通道数一致，则将输入与输出直接相加作为最终输出，否则使用额外的卷积窗口K为1的图卷积将卷积块的输入通道转换后再与输出相加。在这四个上/下采样图卷积块中，不同块之间的拓扑结构不同，他们所对应的顶点也不同，上一级的特征通过之前预计算的顶点上下采样矩阵进行上下采样，以满足不同的拓扑要求。

作为另一个具体的实施例，在对SMPL默认的人体参数模型进行粗化时，下采样因子设为2，并执行8次下采样操作，得到将该SMPL默认的参数人体模型顶点的八级上/下采样矩阵，对应的每级沙漏可以扩展为八个下采样图卷积块、八个上采样图卷积块和八个残差图卷积块组成。八级下采样图卷积块，将特征依次下采样至最小分辨率然后通过两个全连接层与最低级的上采样图卷积块相连，上采样部分经过八级上采样得到上采样输出，而八个残差图卷积块的输入分别与同级下采样输入相同，输出通道数分别与同级上采样的相同，每个残差图卷积块将该级输出与对应的上采样图卷积块输出相加得到该级拓扑下的最终输出特征。其中每个卷积块都由三层卷积窗口K为6的图卷积构成，如果卷积块的输入与输出通道数一致，则将输入与输出直接相加作为最终输出，否则使用额外的卷积窗口K为6的图卷积将卷积块的输入通道转换后再与输出相加。在这八级上/下采样图卷积块中，每级图卷积块所需的顶点特征由上一级的特征通过之前预计算的八级顶点上/下采样矩阵进行上下采样来获得。

所述图像特征转换模块借助于相机投影成像的方法。来自图像特征提取网络的输出为二维结构的特征图，而向基于图卷积的人体外貌优化网络输入为每个网格顶点的特征，利用与图像中对应的光滑人体模型或者人体外貌优化网络输出的中间预测结果做相机投影，得到模型上的顶点在每层特征图上的位置，然后以该位置为中心借助双线性插值的方法提取该顶点特征。为了保证有足够充分的特征被转换，分别在图像特征提取网络的第二、五、八层特征图执行上述投影对齐操作，然后将每个顶点在不同层的特征拼接在一起作为该顶点在基于图卷积的人体外貌优化网络中的输入特征。

基于图卷积的人体外貌优化网络还可以扩展为多视角输入图像。对于每个视角图像，可以复用图像特征提取网络获得每张图像的特征，借助图像特征转换模块适应不同数量的输入图像，顶点的特征拼接阶段再拼接不同图像关于同一顶点的特征即可，同时人体外貌优化网络的特征通道数也做适当的提升以利用更多的信息，即输入特征通道数为特征提取网络的输出特征通道数乘以视角的数量。

为了完成特征在各网络之间的转换，使用一种基于相机投影的方式来完成特征与模型顶点的对齐，该种转换方式可以自然的适应从单张图像到多张图像的输入。

S3、利用基于PyTorch的RMSprop优化器进行训练所述神经网络，将训练图像输入到图像特征提取网络，得到每层的输出特征图，利用对应的参数化人体模型做投影对齐操作，将特征转换为以顶点为基本单位的特征集合，将其输入到人体外貌优化网络的第一级沙漏模块，得到第一级预测输出，该输出结果与参数化人体模型叠加得到完整的中间人体预测结果，再将中间人体预测结果进行投影对齐，新对齐的特征与第一级沙漏模块输出的中间人体预测结果以及第一级沙漏模块输出特征拼接在一起输入第二级沙漏模块中，如此重复可得第三级沙漏模块输入，将每个沙漏模块的中间人体预测结果与真实的着装人体模型进行监督学习，即可训练整个神经网络。

训练的损失组成为点到曲面损失(point-to-surface loss)、边长正则化损失(edge length regularization)、拉普拉斯保持损失(Laplacian-maintainingregularization)以及整体网格编码损失(global mesh loss)。这些损失定义同于文献《Geometrics:Exploiting geometric structure for graph-encoded objects》。整体网格编码损失需要利用训练好的网格编码网络，整体网格编码网络使用一个去除了四个残差图卷积块的沙漏模块来构建，利用着装人体的衣服偏移进行预训练以使整体网格编码网络具有编码人体偏移(即服装、头发等人体外貌细节)的能力。

S4、对于需要预测的图像预处理，切除测试图像的背景，并获取与之对应的参数化人体模型。预处理包括切除测试图像中人体以外的背景像素，裁剪图像使图像中人体高度大致等于图像高度，放缩图像使图像的分辨率为512*512像素，并从图像中获取与图中对应的参数化人体模型。

采用一种开源的基于神经网络的方法从图像中获得参数化人体模型，具体来自论文《End-to-end recovery of human shape and pose》，具体为：人体图像经过编码器编码后，送入回归器进行多次回归优化得到对应的参数化人体模型的姿势参数θ、形状参数β以及用于与图像投影对齐的缩放因子s,旋转矩阵R,平移参数T。可以由θ和β得到待优化的光滑人体模型，并且可用该待优化的光滑人体模型做第一阶段的特征投影对齐操作。将SMPL拓扑结构通过图卷积嵌入网络，从而保持重建人体的可控性。保证预测人体满足SMPL拓扑结构是实现可控重建人体的关键。

作为另一个具体的实施例，也可以采用论文《Learning to Estimate 3D HumanPose and Shape from a Single Color Image》中的方法来从图像获得参数化的人体模型，具体为：人体图像经过该论文中的卷积神经网络获得人体的轮廓图和一组人体关节点的热力图，然后将人体关节点的热力图送入全连接网络构成的姿势回归预测网络得到对应的参数化人体的姿势参数θ，人体的轮廓图送入全连接网络构成的形状回归预测网络得到对应的参数化人体的形状参数β，由姿势参数θ和形状参数β得到待优化的光滑人体模型。

S5、将预处理后的测试图像输入图像特征提取网络得到低级的特征图，然后借助待优化的光滑人体模型或者中间优化输出的人体模型进行特征对齐转换，再将对齐转换的特征送入人体外貌优化网络进行三阶段的优化，取最后阶段的输出与光滑人体模型叠加得到最终的着装人体模型。

人体外貌优化网络共享了SMPL的拓扑结构，因此可以使用同于SMPL的控制方式对重建人体进行控制。由公式D_p＝W(D_u,J(β),θ,W)逆向推导来获得默认姿势(T-Pose)下的偏移D_u，然后附加在T-Pose的SMPL模型的顶点之上，这样便可以通过控制SMPL的姿势参数θ和形状参数β分别改变重建的人体的姿势与胖瘦等体型。其中关于姿势变形效果的展示参考图3，取一组SMPL的姿势参数θ，然后将θ应用于我重建人体之上即可得到新姿势的着装人体，将预测的姿势依赖的偏移点(表示衣服等人体外貌)去姿势化后与T-Pose的SMPL结合，获得同于SMPL控制能力的重建人体二次变形。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，包括以下步骤：

S3、训练所述基于图卷积的神经网络；

2.根据权利要求1所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，所述光滑人体模型通过SMPL生成，所述光滑人体模型的形态由n个形状参数β和N个姿势参数θ控制。

3.根据权利要求2所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，所述着装人体模型的表示方式为SMPL+D_p，是在所述光滑人体模型的每个顶点上增加偏移，通过增加偏移来表示人体的服饰信息，所有顶点形成偏移集合D_p：

D_p＝W(D_u,J(β),θ,W)

4.根据权利要求3所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，步骤S2是利用神经网络PyTorch搭建图像特征提取网络、基于图卷积的人体外貌优化网络以及图像特征转换模块。

5.根据权利要求4所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，所述图像特征提取网络包括s个卷积层，每个卷积层的卷积核大小都为m*m，除了最后一层卷积层，每个卷积层后面都接有修正线性单元作为激活函数来修正输出值。

6.根据权利要求5所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，所述图像特征转换模块接收来自图像特征提取网络输出的特征图，基于网格拓扑图卷积输入光滑人体模型每个顶点的特征，利用对应的光滑人体模型或者基于图卷积的人体外貌优化网络输出的中间预测结果做相机投影，得到光滑人体模型上的顶点在每层特征图上的位置，然后以该位置为中心借助双线性插值的方法提取该顶点特征，分别在图像特征提取网络的特征图执行上述投影对齐操作，再将每个顶点在不同层的特征拼接在一起，作为该顶点在基于图卷积的人体外貌优化网络中的输入特征。

7.根据权利要求6所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，所述基于图卷积的人体外貌优化网络包括多级沙漏模块；每级沙漏模块包括由多个堆叠的图卷积构成的沙漏模块；每级沙漏模块之间设有含两个卷积窗口的图卷积执行特征的通道转换，每级沙漏模块之后设有含两个卷积窗口的图卷积用于生成中间预测结果D_p，该中间预测结果D_p与对应的光滑人体模型叠加得到该沙漏模块预测下的中间人体模型预测结果；第一级沙漏模块的输入为光滑人体模型投影对齐的特征；其他的沙漏模块的的输入为上一级沙漏模块优化的光滑人体模型投影对齐的特征、上一级沙漏模块的输出以及中间人体模型预测结果。

8.根据权利要求7所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，所述每级沙漏模块包括h个下采样图卷积块、h个上采样图卷积块和h个残差图卷积块；

9.根据权利要求8所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，步骤S3是通过PyTorch的RMSprop优化器进行训练，具体为：将训练图像输入到图像特征提取网络，得到每层的输出特征图，利用光滑人体模型做投影对齐操作，将投影对齐的特征转换为以顶点为基本单位的特征集合，将特征集合输入到基于图卷积的人体外貌优化网络的第一级沙漏模块，得到第一级预测输出，所述第一级预测输出与光滑人体模型叠加得到完整的中间人体模型预测结果，将中间人体模型预测结果进行投影对齐，新对齐的特征与所述中间人体模型预测结果以及第一级预测输出拼接在一起输入第二级沙漏模块，如此重复得到下一级沙漏模块的输入，将每级沙漏模块的中间人体模型预测结果与真实的着装人体模型进行监督学习，以训练整个神经网络。

10.根据权利要求9所述的一种基于图卷积的从图像中重建着装人体模型的方法，其特征在于，训练的损失组包括点到曲面损失、边长正则化损失、拉普拉斯保持损失以及整体网格编码损失；整体网格编码损失所用的整体网格编码网络为去除四个残差图卷积块的沙漏模块构建，利用着装人体的衣服偏移进行预训练以使整体网格具有编码人体偏移的能力。