CN110223370A

CN110223370A - 一种从单视点图片生成完整人体纹理贴图的方法

Info

Publication number: CN110223370A
Application number: CN201910457005.XA
Authority: CN
Inventors: 曹汛; 杨皓天; 朱昊
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-10
Anticipated expiration: 2039-05-29
Also published as: CN110223370B

Abstract

本发明公开一种从单视点图片生成完整人体纹理贴图的方法。该方法包括：随机生成人体姿态和体型参数，得到不同姿态和体型的人体模型，将人体模型和对应的纹理贴图在不同光照、不同视点下渲染生成二维图片；将图片上可见的人体像素映射到模型纹理坐标空间，得到部分人体纹理图；用部分纹理图和对应的完整纹理图做训练数据，训练神经网络将部分纹理图补全为完整的纹理图；输入单视图人体图片，重建人体三维模型，根据可见的像素得到部分纹理图，然后使用训练好的神经网络将其补全为完整的人体纹理图。本发明通过将图片上的像素映射到人体模型统一的纹理坐标空间，然后用神经网络进行纹理补全，能够从单张人体图片得到三维人体模型的完整纹理贴图。

Description

一种从单视点图片生成完整人体纹理贴图的方法

技术领域

本发明属于计算机视觉领域，具体地说，本发明涉及一种基于深度学习的从单视点图片生成包含完整纹理贴图的人体三维模型的方法。

背景技术

三维人体模型在动画制作、影视制作、虚拟现实、人机交互等方面有广泛的应用。传统的三维重建通常需要复杂的采集设备和繁琐的操作流程，如多视点采集系统和激光扫描仪等。而从单张图片中恢复人体三维模型具有速度快、成本低、操作简单等优势，近年来吸引了研究者的广泛关注。目前，从单张图片重建人体三维模型的方法可以分为两大类：

第一类是使用参数化人体模型做先验，然后从图片获得模型参数，进而得到人体三维模型。例如，Federica Bogo等人(Bogo F,Kanazawa A,Lassner C,et al.Keep itSMPL:Automatic estimation of 3D human pose and shape from a single image[C]//European Conference on Computer Vision.Springer,Cham,2016:561-578)提出，首先检测图片上的人体关键点位置，然后用最优化的方法，通过使人体模型上的关键点投影到图片之后与检测到的关键点之间距离尽可能接近，得到人体SMPL(Skinned Multi-PersonLinear Model)模型的参数。Angjoo Kanazawa等人(Kanazawa A,Black M J,Jacobs D W,et al.End-to-end recovery of human shape and pose[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2018:7122-7131)提出使用图片上标记的人体关键点位置的真值，通过加入对抗损失限制人体姿态参数，直接训练神经网络输出人体SMPL模型参数和相机参数。在Angjoo Kanazawa等人工作的基础上，HaoZhu等人(Zhu H,Zuo X,Wang S,et al.Detailed Human Shape Estimation from aSingle Image by Hierarchical Mesh Deformation[J].arXiv preprint arXiv:1904.10506,2019)提出通过神经网络预测人体模型的形变，使其与图片上人的轮廓更好地匹配。

另一类方法是使用神经网络直接预测非参数化的人体模型。例如，Gul Varol等人(Varol G,Romero J,Martin X,et al.Learning from synthetic humans[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2017:109-117)提出直接使用神经网络，从图片预测表示为深度图形式的人体模型。Aaron S.Jackson等人(Jackson A S,Manafas C,Tzimiropoulos G.3d humanbody reconstruction from a single image via volumetric regression[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:0-0)将人体模型表示为立体像素(Voxel)的形式，使用3D卷积网络预测立体像素的值。

但是上述两类方法至少存在以下缺陷：只考虑了恢复出的人体三维模型的形状与图片相匹配，而不包含完整的纹理贴图。由于完整的纹理贴图是逼真的模型不可或缺的一部分，因此现有方法的应用领域受到了限制。

发明内容

为了从单张图片生成逼真的人体三维模型，本发明提供了一种基于深度学习的根据单视点图片生成人体模型完整纹理贴图的方法。

为了实现上述发明目的，本发明方法采用的技术方案如下：

一种从单视点图片生成完整人体纹理贴图的方法，包括如下步骤：

S1：随机生成参数化人体模型的姿态和体型参数，得到不同姿态和体型的人体模型；将人体模型和对应的纹理贴图在不同光照和不同视点下渲染生成二维图片；其中，人体模型的参数要满足先验分布，即不会产生不真实的三维人体模型且应涵盖各种常见人体姿态和体型；

S2：将步骤S1中渲染生成的二维图片上可见的人体像素映射到人体模型纹理坐标空间，得到部分人体纹理图I_raw，作为神经网络的训练数据；

S3：以部分人体纹理图I_raw为输入，以对应的真实纹理图I_gt为真值，训练神经网络预测像素流，然后按像素流采样部分纹理图得到粗糙的完整纹理图I_flow；

S4：以所述粗糙的完整纹理图I_flow为输入和以对应的真实纹理图I_gt为真值训练另一个神经网络，生成纹理图中像素流采样无法得到的部分，得到最终的完整纹理图I_final；

S5：输入单视图人体图片，使用基于最优化或深度学习的方法从单张图片中获得对应的没有纹理的人体三维模型，根据人体可见部分的像素得到部分纹理图，然后使用步骤S3和S4中训练好的两个神经网络将部分纹理图补全为完整的人体纹理图。

进一步地，所述步骤S1中，不同姿态和体型的人体模型由同一个参数化模型生成，因此人体模型面片拓扑和纹理坐标位置都是一致的；对每一个人体模型，通过旋转矩阵实现虚拟视点的变化，通过改变光源方向和强度实现光照的变化。

进一步地，所述步骤S2中，部分人体纹理图I_raw的获取方法为：根据对应的视点位置参数和人体模型，检测当前视点下可见的模型面片索引；之后遍历所有可见的面片，根据每个面片三个顶点的纹理坐标，计算纹理图上在三角形内的所有纹理像素的重心坐标；根据重心坐标和面片三个顶点投影到图片上的位置，获得纹理像素投影到图片上的位置；最后将图片上对应位置的像素值赋给所述纹理像素；在遍历所有可见的面片的过程中，在每个面片纹理坐标三角形内的像素视为可见像素，得到一个二值的掩膜M。

进一步地，所述步骤S3中，部分纹理图I_raw和表示像素可见性的掩膜M在通道维度上拼接在一起作为网络的输入；网络预测的像素流表示为与纹理图同样大小的两通道图，每个点储存该像素在部分纹理图I_raw上的采样坐标位置；通过神经网络中可导的双线性采样层，网络可以使用输出纹理图与真实纹理图之间的L1范数做损失端到端的训练，网络的损失函数L_flow为：L_flow＝||I_gt-I_flow||₁。

进一步地，所述步骤S4中，神经网络的输入为步骤S3中得到的粗糙的完整纹理图、左右对称翻转之后的粗糙的完整纹理图和掩膜M三者在通道维度上拼接在一起组成的张量；训练过程中的损失包括L1损失对抗损失L_adv、感知损失L_perc和风格损失L_style，网络的损失函数为：

其中，G表示生成最终完整纹理图的网络，D表示判别器网络；λ_adv、λ_perc和λ_style分别是对抗损失、感知损失和风格损失的权重。

进一步地，所述步骤S5中，图片对应的人体三维模型与训练阶段使用的模型由同一个参数化模型生成，有相同的面片拓扑和纹理坐标。

本发明通过将单视点人体图片上的像素映射到人体模型统一的纹理坐标空间，使输入神经网络的部分纹理图具有一致的结构。然后用两个级联的神经网络由粗到精补全部分纹理图，第一个网络预测像素流，通过采样部分纹理图得到粗糙的完整纹理图，充分利用了人体纹理贴图具有的统一结构，使神经网络能补全从单张图片得到的大面积缺失的部分纹理图；第二个网络生成纹理图上不能用像素流采样得到的部分，网络中对称的输入使输出的完整纹理图具有合理的对称性，通过对抗损失、感知损失等不同损失函数相结合使生成的纹理看起来更加逼真。

附图说明

图1为本发明方法的流程图。

图2为本发明实施例中训练阶段的流程图。

图3为本发明实施例中运行阶段的流程图。

图4为本发明实施例中神经网络训练数据的获取方法流程图。

图5为本发明实施例中神经网络的框架结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明的一种从单视点图片生成人体模型完整纹理贴图的方法，具体过程如下：

(1)使用多视点三维重建系统或其他三维重建设备，采集一定数量的多样的人体完整纹理贴图，作为神经网络的训练数据。

(2)使用参数化的人体模型，随机生成人体模型中需要的姿态和体型等参数，得到不同姿态和体型的人体模型。对训练数据中的每一张纹理贴图，选择多个不同姿态和体型的人体模型在不同光照、不同视点下渲染生成二维图片。

训练数据中的每张纹理贴图可以得到对应不同姿态和体型的人体模型以及不同光照、不同视点下的多对训练数据，减少了训练神经网络需要采集的纹理贴图数量。并且，这样生成的训练数据足够丰富，能够使训练出的网络能够适应实际图片中的不同情况。

(3)根据对应的人体模型，将渲染的图片上可见的人体像素映射到模型纹理坐标空间，得到部分人体纹理图I_raw，作为神经网络的训练数据。从图片计算部分人体纹理图I_raw的实现方法为：

对每一张渲染出的人体图片I_src，在它对应的视点位置参数和人体模型参数上加了一个扰动值，大小与原参数的大小成正比。然后根据扰动之后的参数，检测当前状态可见的模型面片索引。之后遍历所有可见的面片，根据每个面片三个顶点的纹理坐标，计算纹理图上在三角形内的所有纹理像素的重心坐标。根据重心坐标和面片三个顶点投影到图片上的位置，获得该纹理像素投影到图片上的位置。最后将图片上对应位置的像素值赋给该纹理像素。

在训练数据的参数中加入了一定扰动，是因为在实际应用中，从图片中恢复出的人体模型参数不可能与真实值完全相同。因此，在训练数据的参数中加入扰动能够让训练出的网络有一定抑制噪声的能力，对实际的图片更加鲁棒。

同时，该步骤可以确定纹理图中每个像素是否可见，遍历所有可见的面片的过程中，在每个面片纹理坐标三角形内的像素视为可见像素，得到一个二值的掩膜M。图片上的人体像素映射到纹理坐标空间后有统一的结构。

(4)以部分纹理图I_raw为网络的输入，对应的真实的完整纹理图I_gt为真值训练神经网络预测像素流，然后按像素流采样部分纹理图得到粗糙的完整纹理图I_flow上每个像素的值。

部分纹理图I_raw和表示像素可见性的掩膜M在通道维度上拼接在一起作为网络的输入。网络预测的像素流表示为与纹理图同样大小的两通道图，每个点储存该像素i在部分纹理图I_raw上的采样的坐标位置(x⁽ⁱ⁾，y⁽ⁱ⁾)。使用神经网络中可导的双线性采样层，可以按像素流中的位置采样，得到输出纹理图I_flow：

其中q表示位置(x⁽ⁱ⁾，y⁽ⁱ⁾)的4近邻。由于上述采样操作是可导的，网络可以使用输出纹理图与真实纹理图之间的L1范数做损失端到端的训练，网络的损失函数L_flow为：

L_flow＝||I_gt-I_flow||₁

网络的结构为：首先经过卷积层，将特征图的尺寸降采样到原图的然后是数个空洞卷积(dilated convolution)构成的残差模块(residual block)。最后使用转置卷积(transposed convolution)得到与输入相同尺寸的输出。

(5)以上一步生成的粗糙的完整纹理图I_flow为输入、对应的真实纹理图I_gt为真值训练另一个神经网络，生成纹理图中像素流采样无法得到的部分，得到最终的完整纹理图I_final。

考虑到人体纹理通常是左右对称的，网络的输入为步骤(4)中得到的粗糙的完整纹理图、左右对称翻转之后的粗糙的完整纹理图和掩膜M三者在通道维度上拼接在一起组成的张量。通过将粗糙的完整纹理图I_flow翻转之后和原图拼接在一起，神经网络的感受野(receptive field)包含了图片上左右对称的位置。这样能够使输出的纹理图具有一定程度的对称性，特别是提升了纹理图在人体模型上左右接缝位置的连续性。

网络输出最终的完整纹理图I_final。训练过程中的损失包含L1损失对抗损失(Adversarial Loss)L_adv、感知损失(Perceptual Loss)L_perc和风格损失(Style Loss)L_style。网络的损失函数为：

其中G表示生成最终完整纹理图的网络，D表示判别器网络。λ_adv，λ_perc和λ_style分别是对抗损失，感知损失和风格损失的权重。其中，对抗损失L_adv定义为：

对抗损失能够使生成的纹理具有更多高频细节。感知损失L_perc定义为：

其中，φ_i表示在ImageNet数据库上训练的Vgg-19网络的第i层特征，N_i是第i层特征的数量。感知损失能够使网络生成的图片观感上更接近真实图片。风格损失L_style定义为：

其中是上述Vgg-19网络中第i层特征φ_i计算出的Gram矩阵。风格损失有助于减少由于网络中的转置卷积层造成的“棋盘格(checkerboard)”现象。

步骤(5)中生成最终完整纹理图的网络G与步骤(4)中网络使用了相同的结构。

(6)输入单视图人体图片，使用基于最优化或深度学习的技术从单张图片中获得对应的没有纹理的人体三维模型，根据人体可见部分的像素得到部分纹理图，然后使用上述训练好的神经网络将其补全为完整的人体纹理图。

数据预测阶段，从输入的单视图人体图片中得到没有纹理的人体三维模型的过程使用现有的从单张图片重建参数化人体模型的方法。对应的人体三维模型与训练阶段使用的模型由同一个参数化模型生成，有相同的面片拓扑和纹理坐标。从图片获得不完整纹理图的方法与步骤(2)相同。

实施例

本实施例提供了一种从单视点图片生成完整人体纹理贴图的方法，参见图2和3，具体包括：

(1)使用SURREAL数据库中的929张完整纹理图，对每一张纹理图，从UP-3D(Unitethe People)数据库中随机选择20组SMPL人体模型的姿态参数和随机的体型参数，得到不同姿态和体型的人体模型。对得到的每一个模型，从54个视点中随机选择5个，渲染得到图片。54个视点的生成方式是选择3个不同的仰角(-20°，0°，20°)和18个不同的方位角([0°-340°]，间隔20°)。渲染图片的背景从Places数据库中随机选择。这样一共得到了92900张图片。

(2)对92900张渲染的图片中每一张图片对应的人体模型参数，随机添加一个与参数值成正比的均匀分布的扰动噪声。根据扰动后的参数，将渲染的图片上可见的人体像素映射到模型纹理坐标空间，得到部分人体纹理图I_raw，部分人体纹理图I_raw的大小为256×256。

(3)以部分纹理图I_raw为网络的输入，对应的真实的完整纹理图I_gt为真值训练神经网络预测像素流，像素流的尺寸同样是256×256。然后按像素流对应位置采样部分纹理图，得到粗糙的完整纹理图I_flow上每个像素的值。

使用的网络结构如图5所示，具体为：首先，用三层3×3的卷积层将特征图的尺寸降采样到原图的后面是8个逐次相连的残差模块，模块中使用膨胀系数(dilationfactor)为2的空洞卷积。最后通过三层转置卷积恢复到原图的尺寸，输出256×256×2的像素流。训练过程中，批次(batch)的大小设置为10，使用Adam优化器，学习率设为0.0001，直到收敛。训练中随机改变图片的色调、对比度、亮度和饱和度作为数据增强。

(4)以上一步生成的粗糙的完整纹理图I_flow为输入、对应的真实纹理图I_gt为真值训练另一个神经网络，生成纹理图中像素流采样无法得到的部分，得到最终的完整纹理图I_final。这里使用的生成最终完整纹理图的网络G的结构与步骤(3)中的网络相同。判别器网络D使用了Phillip Isola等人(Isola P，Zhu J Y，Zhou T，et al.Image-to-imagetranslation with conditional adversarial networks[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2017：1125-1134)提出的70×70的PatchGAN结构。各项损失的权重系数λ_adv，λ_perc和λ_style分别设为0.1，0.1和250。训练过程的参数和数据增强与步骤(3)相同。

(5)输入单视图人体图片，使用Hao Zhu等人(Zhu H，Zuo X，Wang S，etal.Detailed Human Shape Estimation from a Single Image by Hierarchical MeshDeformation[J].arXiv preprint arXiv：1904.10506，2019)提出的方法从单张图片中获得对应的没有纹理的人体三维模型，根据人体可见部分的像素得到部分纹理图，然后使用上述训练好的神经网络将其补全为完整的人体纹理图。下面进行消融实验来验证本方法的有效性。实验包括：

1、不加扰动(w/o.perturb)。实验中不对渲染的图片对应的参数值添加扰动，直接使用真实的参数值获得部分人体纹理图I_raw，然后用这个数据训练神经网络。其他步骤与上述完整过程相同。

2、不使用像素流(w/o.flow)。实验中去掉了第一个神经网络，直接将部分纹理图I_raw输入第二个网络G，训练网络直接补全纹理图。其他与步骤上述完整过程相同。

3、不加对称输入(w/o.symmetry)。实验中使用粗糙的完整纹理图I_flow和表示像素可见性的掩膜M在通道维度上拼接在一起作为第二个网络G的输入。其他步骤与上述完整过程相同。

4、完整方法(full)，即本发明所述的完整方法。

把从SURREAL数据库中得到的92900张图片分为两份，其中90％用于训练，10％用于测试。在测试集上比较了上述4个实验结果与对应的真实纹理图的平均绝对误差MAE(Mean Absolute Error)、信噪比PSNR(Peak Signal-to-Noise Ratio)和结构相似度SSIM(Structural Similarity Index for Measuring)，如下表所示：

表1消融实验定量结果

方法	PSNR	MAE	SSIM
				w/o.perturb	17.62	0.1710	0.5919
w/o.flow	19.48	0.1223	0.6699
				w/o.symmetry	19.58	0.1200	0.6780
full	19.65	0.1189	0.6829

通过定量的对比，可见本发明的完整方法中的每一步都对最终效果的提升有帮助。

Claims

1.一种从单视点图片生成完整人体纹理贴图的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种从单视点图片生成完整人体纹理贴图的方法，其特征在于，所述步骤S1中，不同姿态和体型的人体模型由同一个参数化模型生成，因此人体模型面片拓扑和纹理坐标位置都是一致的；对每一个人体模型，通过旋转矩阵实现虚拟视点的变化，通过改变光源方向和强度实现光照的变化。

3.根据权利要求1所述的一种从单视点图片生成完整人体纹理贴图的方法，其特征在于，所述步骤S2中，部分人体纹理图I_raw的获取方法为：

根据对应的视点位置参数和人体模型，检测当前视点下可见的模型面片索引；之后遍历所有可见的面片，根据每个面片三个顶点的纹理坐标，计算纹理图上在三角形内的所有纹理像素的重心坐标；根据重心坐标和面片三个顶点投影到图片上的位置，获得纹理像素投影到图片上的位置；最后将图片上对应位置的像素值赋给所述纹理像素；在遍历所有可见的面片的过程中，在每个面片纹理坐标三角形内的像素视为可见像素，得到一个二值的掩膜M。

4.根据权利要求1所述的一种从单视点图片生成完整人体纹理贴图的方法，其特征在于，所述步骤S3中，部分纹理图I_raw和表示像素可见性的掩膜M在通道维度上拼接在一起作为网络的输入；网络预测的像素流表示为与纹理图同样大小的两通道图，每个点储存该像素在部分纹理图I_raw上的采样坐标位置；通过神经网络中可导的双线性采样层，网络可以使用输出纹理图与真实纹理图之间的L1范数做损失端到端的训练，网络的损失函数L_flow为：

L_flow＝||I_gt-I_flow||₁。

5.根据权利要求1所述的一种从单视点图片生成完整人体纹理贴图的方法，其特征在于，所述步骤S4中，神经网络的输入为步骤S3中得到的粗糙的完整纹理图、左右对称翻转之后的粗糙的完整纹理图和表示像素可见性的掩膜M三者在通道维度上拼接在一起组成的张量；训练过程中的损失包括L1损失对抗损失L_adv、感知损失L_perc和风格损失L_style，网络的损失函数为：

6.根据权利要求1所述的一种从单视点图片生成完整人体纹理贴图的方法，其特征在于，所述步骤S5中，图片对应的人体三维模型与训练阶段使用的模型由同一个参数化模型生成，有相同的面片拓扑和纹理坐标。