CN115761143A

CN115761143A - 一种基于2d图像的3d虚拟换装模型生成方法及装置

Info

Publication number: CN115761143A
Application number: CN202211564381.7A
Authority: CN
Inventors: 姜明华; 王誉霖; 余锋; 王文婷; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-03-07
Anticipated expiration: 2042-12-07
Also published as: CN115761143B

Abstract

本发明涉及一种基于2D图像的3D虚拟换装模型生成方法，包括以下步骤：将人体全身图

和待试穿服装的2D图

以及人体语义分割图

送入预处理网络进行图像处理；将所述预处理网络的输出图像送入深度预测网络进行深度预测以得到初始服装深度图和初始人体深度图；将所述初始服装深度图和初始人体深度图带入深度优化模型生成网络获取三维服装模型和三维人体模型；将所述三维服装模型和三维人体模型送入服装试穿模块进行模型融合和模型着色，得到3D虚拟换装模型。采用了更全面的信息来描述服装与人体的特征，在小幅增加计算量的同时，加快了方法的收敛速度，提升了虚拟试衣的最终效果。

Description

一种基于2D图像的3D虚拟换装模型生成方法及装置

技术领域

本发明涉及计算机图形学技术领域，具体涉及一种基于2D图像的3D虚拟换装模型生成方法及装置。

背景技术

在这个时代，公众更加关注环境的卫生安全，对于线下试衣间来说，消费者愈发重视狭窄密闭空间下的卫生问题；对于线上网店来说，大量的退换货无疑增加了卖家在时间与经济成本上的开销，而买家因为商品不合适需要在快递运输上进行漫长的等待，这些不确定性和滞后性始终困扰着广泛的用户群体。

现有的虚拟试衣方法中主要分为基于2D和基于3D的虚拟试衣，前者的试穿结果是在二维图像空间中，例如公开号为CN202111033391的中国专利“一种基于关键点聚类驱动匹配的虚拟试衣图像生成方法”利用关键点聚类匹配算法，对目标衣服进行扭曲处理，将扭曲后的目标衣服与粗合成试穿图像作为细化网络的输入，输出合成真实图像，但它忽略了潜在的三维身体信息，导致对人体的表现能力较差；后者的试穿结果实在三维空间中呈现，公开号为CN201811159988的中国专利“基于单目深度相机的虚拟试衣方法及装置”通过将RGB-D中的RGB通道输入预先训练的神经网络，并结合深度通道得到点云中每个点的类别以完成虚拟试衣，通过3D人体建模和3D服装建模，实现了3D虚拟试衣，真实展示了用户的试衣效果，但它需要昂贵的传感器及服装、人体的建模数据，即现有的三维虚拟试衣方法主要依赖于事先标注的三维人体形状和服装模板。

现有的基于3D的虚拟试衣方法主要依赖于带注释的3D人形和服装模板，因所需的时间与经济成本高昂，制约其技术的发展，这极大地阻碍了此类方法在实际场景中的应用；而基于2D信息的虚拟试衣方法提供了一种更快的替代方案来操作目标服装与人物信息，但因为此类方案在实际应用中缺乏丰富且逼真的三维表示而大为受限。

发明内容

有鉴于此，本发明提供了一种基于2D图像的3D虚拟换装模型生成方法及装置，目的在于，采用了更全面的信息来描述服装与人体的特征，在小幅增加计算量的同时，加快了方法的收敛速度，提升了虚拟试衣的最终效果。

为达上述目的，本发明采用了如下技术方案：

一种基于2D图像的3D虚拟换装模型生成方法，包括以下步骤：

将人体全身图

和待试穿服装的2D图

以及人体语义分割图

送入预处理网络进行图像处理；将所述预处理网络的输出图像送入深度预测网络进行深度预测以得到初始服装深度图和初始人体深度图；将所述初始服装深度图和初始人体深度图带入深度优化的模型生成网络获取三维服装模型和三维人体模型；将所述三维服装模型和三维人体模型送入服装试穿网络进行模型融合和模型着色，得到3D虚拟换装模型。

进一步的，所述将人体全身图

和待试穿服装的2D图

以及人体语义分割图

送入预处理网络进行图像处理的步骤还包括：

将人体全身图

和待试穿服装的2D图

以及人体语义分割图

送入预处理网络的第一部分进行特征提取，得到服装关键点语义图、人体关键点语义图、去除服装区域的人体语义图

和人体姿态灰度表示图

。

将人体全身图

和待试穿服装的2D图

送入预处理网络的第二部分进行预对齐操作，通过图像旋转与比例缩放将待试穿服装的边角与人体全身图像

的服装轮廓进行预对齐，得到待试穿服装的预对齐图

。

将所述预对齐图

、人体全身图

、服装关键点语义图、人体关键点语义图和人体姿态灰度表示图

送入预处理网络的第三部分进行服装变换，根据人体的当前姿态，通过插值法将服装褶皱、纹理等特征转移到待试穿服装的预对齐图

上，得到贴合人体姿态的服装变形图

。

进一步的，所述人体全身图

包括正面视图

和背面视图

，所述待试穿服装的2D图

也包括正面视图

和背面视图

，所述将人体全身图的正面视图

和待试穿服装的2D图的正面视图

以及人体语义分割图

送入预处理网络进行正面视图的图像处理；再所述将人体全身图的背面视图

和待试穿服装的2D图的背面视图

以及人体语义分割图

送入预处理网络进行背面视图的图像处理。

进一步的，所述将所述预处理网络的输出图像送入深度预测网络进行深度预测以得到初始服装深度图和初始人体深度图的步骤还包括：

将所述服装变形图

、人体全身图

、去除服装区域的人体语义图

、人体姿态灰度表示图

送入深度预测网络，通过深度预测操作将二维图像特征送入深度编码器，得到初始服装深度图

和初始人体深度图

，其中，所述深度预测操作为将二维图像的像素通道映射到深度通道。

进一步的，所述深度预测操作在训练过程中使用的损失函数的具体表示式为：

其中，X表示样本集，

表示该位置深度信息点在真实值中的占有率或正确率，

表示样本集中的第x样本所估计的正面深度图，

表示样本集中的第x样本所估计的背面深度图，

表示该样本的正面深度图的真实标签值，

表示该样本的背面深度图的真实标签值，L1为最小绝对值偏差。

进一步的，所述将所述初始服装深度图和初始人体深度图带入深度优化模型生成网络获取三维服装模型和三维人体模型的步骤包括：

通过对初始服装深度图和初始人体深度图的局部信息和梯度信息进行优化，得到细化的服装深度图和细化的人体深度图；利用深度转换操作将细化的服装深度图和细化的人体深度图转换为三维服装模型和三维人体模型，其中所述深度转换操作将二维深度图转换为三维点云。

进一步的，所述将所述三维服装模型和三维人体模型送入服装试穿模块进行模型融合和模型着色的步骤包括：

将三维服装模型和三维人体模型送入服装试穿网络，参照多维特征集P ̃的丰富特征，通过模型融合步骤和模型着色步骤；所述多维特征集P ̃包括人体姿态灰度表示图

、头发与面部区域语义图

、去除服装区域的人体语义图

、人体语义分割图

、服装与人体的位置关联信息

、服装与人体的空间关联信息

、细化的服装深度图和细化的人体深度图中的至少一种。

所述模型融合步骤包括参照语义图信息，将正面的三维服装模型与三维人体模型的对应部位进行融合，再将背面的三维服装模型和三维人体模型的对应部位进行融合，最后将正面和背面的三维模型拼合在一起；其中，所述语义图信息包括头发与面部区域语义图

、去除服装区域的人体语义图

、人体语义分割图

以及服装与人体的位置关联信息

、服装与人体的空间关联信息

。所述模型着色步骤包括参照细化的深度图信息，对拼合的模型进行空间逐点着色，补充其真实的色彩信息。

本发明还涉及一种基于2D图像的3D虚拟换装系统，包括：

预处理模块，所述预处理模块输入人体全身图像

，待试穿服装的2D图像

和人体语义分割图

进行图像预处理；

深度预测模块，所述深度预测模块输入服装变形图

、人体全身图

、去除服装区域的人体语义图

和人体姿态灰度表示图

进行深度图预测操作，得到初始服装深度图

和初始人体深度图

；

模型生成模块，所述模型生成模块将初始服装深度图

和初始人体深度图

进行深度优化操作与深度转换操作，得到三维服装模型和三维人体模型；

服装试穿模块，所述服装试穿模块将三维服装模型、三维人体模型的对应部位进行融合并逐点着色，得到最终的3D虚拟试衣结果。

本发明还涉及一种计算机设备，包括存储器和处理器，所述存储器上存储有可由处理器运行的计算机程序，所述处理器运行所述计算机程序时，执行如上所述的一种基于2D图像的3D虚拟换装模型生成方法。

与现有技术相比，本发明的有益效果是：

本发明提出的一种基于2D图像的3D虚拟试衣方法及系统，采用了更全面的信息来描述服装与人体的特征，在小幅增加计算量的同时，加快了方法的收敛速度，进一步提升了虚拟试衣的最终效果。其次，在身体遮挡服装的情况下也能够得到逼真的3D虚拟试衣结果，提升买家购物体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提供的一种基于2D图像的3D虚拟换装模型生成方法的流程示意图；

图2示出了本发明实施例提供的一种基于2D图像的3D虚拟试衣网络示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基于2D图像的3D虚拟换装模型生成方法的流程示意图，描述了本发明主要的思路与操作流程。图2为本发明实施例提供的一种基于2D图像的3D虚拟试衣网络示意图。如图1-2所示，本发明提供了一种基于2D图像的3D虚拟换装模型生成方法，将人体图像与服装特征提取到虚拟试衣网络中，输出3D虚拟试衣结果作为3D虚拟换装模型。该虚拟试衣网络100包括预处理网络101、深度预测网络102、模型生成网络103、服装试穿网络104。所述方法包括以下步骤：

将人体全身图

和待试穿服装的2D图

以及人体语义分割图

送入预处理网络101进行图像处理；将所述预处理网络101的输出图像送入深度预测网络102进行深度预测以得到初始服装深度图和初始人体深度图；将所述初始服装深度图和初始人体深度图带入深度优化的模型生成网络103获取三维服装模型和三维人体模型；将所述三维服装模型和三维人体模型送入服装试穿网络104进行模型融合和模型着色，得到3D虚拟换装模型。

进一步的，所述将人体全身图

和待试穿服装的2D图

以及人体语义分割图

送入预处理网络101进行图像处理的步骤还包括：

将人体全身图

和待试穿服装的2D图

以及人体语义分割图

送入预处理网络的第一部分（特征提取模块）进行特征提取，得到服装关键点语义图、人体关键点语义图、去除服装区域的人体语义图

和人体姿态灰度表示图

。其中，所述的语义图是一种可用于描述物体特征的二维图像，包括：视觉层、对象层和概念层。视觉层即颜色、纹理和形状等；对象层通常包含了属性特征或状态等；概念层是图像表达出的最直观的事物。

作为一种可选的实施方式，依据人体语义分割图将人体全身图像划分为非试穿区域和试穿区域，其中非试穿区域可以包括：头发、面部、脖颈、手部、背景、下装的语义信息图；试穿区域可以包括：衣服和手臂的语义信息图，将非试穿区域和试穿区域进行掩码处理，得到去除服装区域的人体语义图

；利用关键点预测网络，输入待试穿服装的2D图

和人体全身图

，得到服装关键点语义图和人体关键点语义图；将25个人体骨骼关键点依次在11*11大小的邻域中进行方形的灰度渐变填充，每一个关键点对应一个通道的灰度图，距离人体骨骼关键点的中心越远则灰度数值越小，最后将25个通道的灰度图进行堆叠得到人体姿态灰度表示图

。

将人体全身图

和待试穿服装的2D图

的服装轮廓进行预对齐，得到待试穿服装的预对齐图

。

作为一种可选的实施方式，首先将待试穿服装的2D图

放大或缩小至人体全身图

的服装区域，其次在图像缩放的过程中，并行地将待试穿服装的2D图

进行适配性旋转和平移，实现待试穿服装的2D图

的轮廓与人体全身图

的服装区域的轮廓之间的预对齐，从而得到待试穿服装的预对齐图

。在服装预对齐操作的过程中，起决定作用的是图像缩放因子、图像旋转因子与图像平移因子，它们是互相影响与共同优化的关系，在网络的迭代训练中，通过回归更新图像缩放因子、图像旋转因子与图像平移因子，把参数的选择问题作为回归问题，故可以进行端到端训练，其实现过程可表示为：

上式中，为了将待试穿服装的2D图

的大小和位置匹配到人体全身图

中服装区域的尺寸和坐标下，得到待试穿服装的预对齐图

，本专利使用了一种可学习的服装预对齐操作

。其中，S表示待试穿服装的2D图的特征向量，将待试穿服装的2D图

的三通道特征通过卷积和池化操作转化为待试穿服装图的特征向量；

和

分别代表待试穿服装的2D图

的中心点坐标和人体全身图

中服装区域的中心点坐标；

和

分别代表待试穿服装的2D图

的服装上边界减去下边界的行距和人体全身图

中服装区域的上边界减去下边界的行距；

和

分别代表待试穿服装的2D图

的高度和人体全身图

中的高度；

和

分别代表待试穿服装的2D图

的服装中心点的法线角度和人体全身图

中服装区域的中心点的法线角度；

、

和

分别代表了图像缩放因子、图像旋转因子与图像平移因子，它们是互相影响与共同优化的关系，在网络的迭代训练中，通过回归更新图像缩放因子、图像旋转因子与图像平移因子；这样的设计使网络更多地聚焦在图像的低频信息，即服装区域的整体轮廓，从而得到待试穿服装的预对齐图

。

将所述预对齐图

、人体全身图

送入预处理网络的第三部分进行服装变换，根据人体的当前姿态信息，不同的人体姿态通常会产生不同的服装褶皱，再依据服装关键点语义图来重点学习人体全身图

的关键服装区域，包含褶皱细节、服装纹理等信息，通过插值法将服装褶皱、纹理等特征转移到待试穿服装的预对齐图

上，得到贴合人体姿态的服装变形图

。

作为一种可选的实施方式，所述的插值法包括但不限于最近邻插值法，双线性插值法，双三次插值，薄板样条插值法等。

所述人体全身图

包括正面视图

和背面视图

，所述待试穿服装的2D图

也包括正面视图

和背面视图

，所述将人体全身图的正面视图

和待试穿服装的2D图的正面视图

以及人体语义分割图

和待试穿服装的2D图的背面视图

以及人体语义分割图

送入预处理网络进行背面视图的图像处理。也即，对于待试穿服装的2D图的背面视图

、人体全身图的背面视图

采用与正面图像相同的方法进行处理。

将所述服装变形图

、人体全身图

、去除服装区域的人体语义图

、人体姿态灰度表示图

和初始人体深度图

作为一种可选的实施方式，所述深度编码器的具体操作是：先经过一个3×3深度可分离卷积层和池化层，再经过一个3×3深度可分离卷积层和池化层调整通道数为分类数，随后经过一个3×3的卷积层和池化调整通道数为分类数，得到一个一维的特征向量，从而获得了更广的感受野，最后接入一个全连接层对每个通道的重要性进行预测，得到不同通道的重要性大小后再作用到之前的feature map的对应通道上输出最终的预测特征图。

所述深度预测操作是一种将二维图像的像素通道映射到深度通道的操作，深度预测操作在训练过程中使用的损失函数的具体表示式为：

其中，X表示样本集，

表示该位置深度信息点在真实值中的占有率或正确率，

表示样本集中的第x样本所估计的正面深度图，

表示样本集中的第x样本所估计的背面深度图，

表示该样本的正面深度图的真实标签值，

表示该样本的背面深度图的真实标签值，L1为范数损失函数，也即最小绝对值偏差，它把目标值与估计值的绝对差值的总和最小化，L1损失的优点是使模型更加鲁棒，此处L1损失函数是将模型所估计的深度图与该深度图的真实标签值之间作差，并使其绝对差值总和最小化的过程。深度预测操作是一种将二维图像的像素通道映射到深度通道的操作，初始服装深度图

是在服装变形图

的基础上进行深度预测操作得到的；初始人体深度图

是在人体全身图

的基础上进行深度预测操作得到的。

通过对初始服装深度图和初始人体深度图的局部信息和梯度信息进行优化，得到细化的服装深度图和细化的人体深度图；

利用深度转换操作将细化的服装深度图和细化的人体深度图转换为三维服装模型和三维人体模型，其中所述深度转换操作将二维深度图转换为三维点云。

使用

深度损失引导网络关注复杂的局部细节，其具体计算公式为：

上式中，S是输入深度图中深度点的总数，深度点是构成深度图的单位，深度点总数就是该深度图的所有深度点，深度点从1开始计数，

表示第i个深度点的

损失，对数损失用来捕获高频细节，引导网络关注复杂的局部信息。

为了进一步捕捉几何细节，特别是在身体部位的交界处，本发明引入深度图的梯度信息优化，可表示为：

上式中，

、

和

表示分别在x、y、z坐标轴下所应用的边界检测算子，

分别表示深度图在x、y、z坐标轴下的梯度正则项，用以约束深度点在各自坐标轴下的变化范围；因此，深度优化操作在训练中使用的总体损失函数可表示为：

上式中，

和

分别代表深度图局部信息优化的损失函数和深度图梯度信息优化的损失函数，

和

表示以上两种损失函数的训练权重，通过上述方式来更新深度优化模型的总体损失，这样的设计能够更好地泛化复杂场景下试衣任务。

作为一种可选的实施方式，应用边界检测算子法来获得图像亮度函数的梯度信息，所述的边界检测算子法包括但不限于Roberts算子、Sobel算子、Prewitt算子、Laplacian算子等。

作为一种可选的实施方式，深度转换操作的过程包括以下处理：

根据相机内参的比例刻度和深度图像得到Z坐标参数；

从相机内参可以得知x轴焦距

、y轴焦距

与深度图的空间关系；

结合以上坐标参数、焦距、空间关系，将深度图数据转换为点云数据，得到三维服装模型与三维人体模型。

将三维服装模型和三维人体模型送入服装试穿网络，参照多维特征集P ̃的丰富特征，通过模型融合步骤和模型着色步骤；

所述多维特征集P ̃包括人体姿态灰度表示图

、头发与面部区域语义图

、去除服装区域的人体语义图

、人体语义分割图

、服装与人体的位置关联信息

、服装与人体的空间关联信息

、细化的服装深度图和细化的人体深度图中的至少一种；

所述服装与人体的位置关联信息

，即服装关键点与人体骨骼关键点的关联信息。它是基于人体骨骼关键点的稳定性强、可信度高的特质来辅助服装关键点的定位与识别，随后将服装关键点语义图和人体骨骼关键点语义图进行特征组合，通过这样的特征组合表示可以进一步明确服装与人体的位置关联性，从而得到服装与人体的位置关联信息

。

所述服装与人体的空间关联信息

，是基于细化的服装深度图、细化的人体深度图来描述服装与人体的空间状态，尤其是在困难的遮挡场景下，例如头发与服装的遮挡、躯干与服装的遮挡，通过这样的空间特征表示可以进一步明确服装与人体的空间关联性，从而得到服装与人体的空间关联信息

。

、去除服装区域的人体语义图

、人体语义分割图

以及服装与人体的位置关联信息

、服装与人体的空间关联信息

。

所述模型着色步骤包括参照细化的深度图信息，对拼合的模型进行空间逐点着色，补充其真实的色彩信息。

其中在为网格像素点着色的过程中，服装区域是通过细化的服装深度图进行着色，去除服装的人体区域是通过细化的人体深度图进行着色。而去除服装的人体区域因为所提取的特征相对较少，为了不影响整体的效果，采用内容感知修复，结合快速匹配方法细化整体试穿结果，最终呈现出一种基于2D图像的3D虚拟试衣结果。

本发明还公开了一种基于2D图像的3D虚拟换装系统，包括：

预处理模块，所述预处理模块输入人体全身图像

，待试穿服装的2D图像

和人体语义分割图

进行图像预处理；

深度预测模块，所述深度预测模块输入服装变形图

、人体全身图

、去除服装区域的人体语义图

和人体姿态灰度表示图

进行深度图预测操作，得到初始服装深度图

和初始人体深度图

；

模型生成模块，所述模型生成模块将初始服装深度图

和初始人体深度图

本发明还涉及一种计算机可读存储介质，其包括程序代码，当程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行如上所述的一种基于2D图像的3D虚拟换装模型生成方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明提出的一种基于2D图像的3D虚拟试衣方法及系统，采用了更全面的信息来描述服装与人体的特征，在小幅增加计算量的同时，加快了方法的收敛速度，进一步提升了虚拟试衣的最终效果。其次，在身体遮挡服装的情况下也能够得到逼真的3D虚拟试衣结果，这将进一步创新现代购物模式，提升买家购物体验。

需要说明的是：附图中的标记和文字只是为了更清楚地说明本发明，不视为对本发明保护范围的不当限定。术语“包括”、“包含”或者任何其他类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备/装置中还存在另外的要素，即“包括一个”的意思还涵盖“包括另一个”的意思。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。