CN113436058A

CN113436058A - 一种人物虚拟换衣方法、终端设备及存储介质

Info

Publication number: CN113436058A
Application number: CN202110705915.2A
Authority: CN
Inventors: 王宗跃; 陈文平; 陈智鹏
Original assignee: Shenzhen Saiwei Network Technology Co ltd; Jimei University
Current assignee: Shenzhen Saiwei Network Technology Co ltd; Jimei University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-24
Anticipated expiration: 2041-06-24
Also published as: CN113436058B

Abstract

本发明涉及一种人物虚拟换衣方法、终端设备及存储介质，该方法中首先将人体图片经过仿射变换得到新图片，并将原始图像与新图像馈入到不同的池化机制以及特征拼接机制，从多方面提取人体全身特征，实现人体语义分割；其次设计了一个基于边界框和Transformer的人体姿势热图回归方法，辅助网络更好的实现人体姿态估计，从而缓解人体姿势复杂和人物图像重叠对后续虚拟换衣的影响；接着利用生成对抗网络的生成模型生成人物图片中衣服的分割掩码以及粗略的合成图；然后利用TPS薄板样条变换，输出符合人的姿势和体形信息的衣服图片，并通过全卷积网络输出细化后的合成图，使得合成图包含更多的服装细节；最后本发明利用矩阵计算输出虚拟换衣结果。

Description

一种人物虚拟换衣方法、终端设备及存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种人物虚拟换衣方法、终端设备及存储介质。

背景技术

随着在线时装购物的需求日益增长，各种尺寸和形状的虚拟人物的衣服是必要的。为这样的角色穿衣是一个重要的瓶颈，需要人工设计服装，将其放在身体上，并模拟其物理变形。2012年布朗大学计算机科学系在ACM Transactions on Graphics发表论文《DRAPE:DRessing Any PErson》，文章描述了一个完整的系统，用于在任何形状和姿势的合成体上制作逼真的服装动画，而无需人工干预。该方法的关键部分是一个名为DRAPE(DRessing Any PErson)的服装模型，该模型是通过对不同形状和姿势的身体上的服装进行基于物理学的模拟来学习的。DRAPE模型有一个理想的特性，即把身体形状引起的服装变形与姿势变化引起的变形"分化"。这种因子化提供了一个物理服装变形的近似值，大大简化了服装合成。给定一个具有已知形状和姿势参数的人体参数化模型。DRAPE可用于为静态身体或动画序列穿上学习到的衣服动态模型。由于该方法是完全自动化的，它适用于为大量不同形状的虚拟人物穿衣。该方法的效率明显高于物理模拟。

2018年罗马尼亚学院的数学研究所在IEEE国际计算机视觉与模式识别会议CVPR发表《Human Appearance Transfer》，文章提出了一种基于显式参数3d人体表征和深度翻译网络架构的自动人对人外观转移模型，用于摄影图像合成。给定一个源图像和一个目标图像，每个图像对应不同的人类主体，穿着不同的衣服和不同的姿势，《Human AppearanceTransfer》的目标是将源图像的外观逼真地转移到目标图像上，同时保留目标形状和服装分割布局。具体实施方案是根据计算管道制定的：(1)从单眼图像中估计三维人体姿势和身体形状；(2)识别在两幅图像中可见的三维表面颜色元素(网状三角形)，这些元素可以直接使用重心程序转移；(3)使用基于深度学习的图像合成技术预测第一个图像中缺失但在第二个图像中可见的表面外观。

同样2018年马里兰大学在IEEE国际计算机视觉与模式识别会议CVPR也发表了一篇文章《VITON:An Image-based Virtual Try-on Network》，文章提出了一个虚拟试穿网络(VITON)，这是一个从粗到细的框架，可以将产品图像中的目标服装项目无缝转移到二维图像中穿衣者的相应区域。首先介绍了一个与服装无关的表征，它由一套全面的特征组成，用来描述一个人的不同特征。在这个表征的基础上，VITON采用了一个多任务编码器-解码器网络来生成一个粗略的合成服装人，以相同的姿势穿着目标服装，并生成一个相应的服装区域掩码。然后，该掩码被用作指导，对目标服装项目进行扭曲，以考虑到变形的情况。此外，VITON利用一个细化网络，该网络被训练来学习如何将扭曲的服装项目合成到粗略的图像中，以便通过自然变形和详细的视觉模式来传输所需的项目。

基于图像的虚拟试穿系统用于将新的店内衣服拟合到人物图像中，引起了越来越多的研究关注，但仍然具有挑战性。一个理想的管道不仅应该将目标衣服无缝地转换成最合适的形状，而且还应该很好地保留生成图像中的衣服身份，即描绘原始衣服的关键特征(例如纹理、标志、刺绣)。然而，之前的图像条件生成工作无法满足这些对看似合理的虚拟试穿性能的关键要求，因为它们无法处理输入图像和目标衣服之间的大空间错位。先前的工作使用形状上下文匹配解决了空间变形，但由于其从粗到细的策略而未能保留服装细节。2018年中山大学在欧洲计算机视觉国际会议ECCV发表《Toward Characteristic-Preserving Image-based Virtual Try-On Network》，提出了一种新的完全可学习的特征保留虚拟试穿网络(CP-VTON)，用于解决此任务中的所有现实挑战。首先，CP-VTON学习thin-plate spline变换，通过新的几何匹配模块(GMM)将店内的衣服转换成适合目标人物的体型，而不是像以前的工作那样计算兴趣点的对应关系。其次，为了减轻变形衣服的边界伪影并使结果更加逼真，采用了一个Try-On模块，该模块学习了一个组合掩码以整合变形的衣服，渲染图像以确保平滑度。2019年中山大学在国际计算机视觉大会ICCV提出《Towards Multi-pose Guided Virtual Try-on Network》，文章首次尝试了多姿态引导的虚拟试穿系统，该系统能够在不同姿态的人像上转移衣服。给定一个输入的人像、一个所需的衣服图像和一个所需的姿势，所提出的多姿势引导的虚拟试穿网络(MG-VTON)可以在将所需的衣服装入输入图像并操纵人体姿势后生成一个新的人像。MG-VTON分三个阶段构建。1)合成目标图像的所需人体解析图，以匹配所需姿势和所需衣服形状；2)深度变形生成对抗网络(Warp-GAN)将所需的衣服外观变形为合成的人体解析图，并缓解输入人体姿势与所需人体姿势之间的错位问题；3)利用多姿势合成掩码的细化渲染，恢复衣服的纹理细节并去除一些伪影。

2020年德国马克斯-普朗克信息学研究所在IEEE国际计算机视觉与模式识别会议CVPR发表《Learning to Transfer Texture from Clothing Images to 3D Humans》，文章提出了一种简单而有效的方法，将服装图像的纹理(正面和背面)自动转移到穿在SMPL上面的3D服装上，并进行实时处理。首先使用一种定制的非刚性三维到二维的配准方法，自动计算出对准三维服装的图像对。利用这些配对，网络学习从像素到3D服装表面的映射。该方法仅使用形状信息来学习从服装图像轮廓到3D服装表面的2D-UV地图的密集对应关系，完全忽略纹理，使得能够推广到广泛的网络图像。

虽然现有的3D建模技术可以对人体进行逼真的服装模拟，但安装硬件和收集3D注释数据的高成本在一定程度上阻碍了它们的大规模部署。在为虚拟试穿目的而开发的最新图像合成方法中，存在以下缺点：(1)部分方法没有使用全身的解析信息，所产生的图像大多是模糊；(2)利用了身体部位信息，但是当人体姿势稍微复杂时，无法产生逼真的图像，这限制了所提出的算法在现实图像中的应用；(3)在面对大的几何变化时保留细节的能力很差，例如以未对齐的图像为条件；(4)网络不能很好的传输更精细的服装细节。

发明内容

为了解决上述问题，本发明提出了一种人物虚拟换衣方法、终端设备及存储介质。

具体方案如下：

一种人物虚拟换衣方法，包括以下步骤：

S1：将人物图片经过仿射变换得到人物仿射变换图片；

S2：针对人物图片和人物仿射变换图片分别进行特征提取，并基于不同的池化机制和特征拼接机制，分别将人物图片和人物仿射变换图片的特征转化为优化特征；

S3：根据人物图片和人物仿射变换图片的优化特征，得到人物图片的最终语义分割结果；

S4：根据人物图片提取其内各人物对应的人体边界框，井基于提取的人体边界框对人物图片中的各人物进行裁剪；

S5：基于裁剪后各裁剪图片的像素位置和人物图片的优化特征，确定各裁剪图片对应的裁剪特征；

S6：根据各裁剪特征和其对应的像素位置编码，得到各裁剪图片的所有人体关键点，并根据人体关键点生成各裁剪图片的姿势热图；

S7：根据各裁剪图片对应的姿势热图、单通道的二进制掩码图、三个颜色通道图和对应的衣服图片，通过生成对抗网络中的生成模型，生成人物图片中衣服的分割掩码以及粗略合成图；

S8：根据TPS薄板样条变换原理，得到符合人的姿势和体形信息的衣服图片，并通过全卷积网络输出细化后的合成图；

S9：根据细化后的合成图，通过矩阵计算输出虚拟换衣结果。

进一步的，步骤S2中人物图片的特征转化为优化特征的方法为：对人物图片的特征分别进行平均池化和最大池化，并将平均池化和最大池化的结果分别输入多层感知机内，将多层感知机针对平均池化和最大池化的输出结果进行逐元素求和合并后，将合并结果通过激活函数进行激活，激活后得到人物图片的优化特征。

进一步的，步骤S2中人物仿射变换图片的特征转化为优化特征的方法为：对人物仿射变换图片的特征分别进行平均池化和最大池化，并将平均池化和最大池化的结果进行连接，将连接结果通过激活函数进行激活，激活后得到人物仿射变换图片的优化特征。

进一步的，步骤S3具体包括以下过程：

S301：将人物图片的优化特征作为特征金字塔网络的第一层，预测人物图片的第一语义分割结果S₁；

S302：将人物仿射变换图片的优化特征作为特征金字塔网络的第二层，预测人物仿射变换图片的语义分割结果S₂；

S303：对人物仿射变换图片进行仿射变换的逆变换，得到人物图片的第二语义分割结果S₂₁；

S304：将人物图片的第一语义分割结果S₁和第二语义分割结果S₂₁相加，得到人物图片的最终语义分割结果S_p。

进一步的，步骤S6中人体关键点的获取方法为：通过将各裁剪图片的裁剪特征和对应的像素位置编码分别输入Transformer编码器解码器网络中回归获得。

进一步的，步骤S8中根据TPS薄板样条变换原理，得到符合人的姿势和体形信息的衣服图片的方法为：提取衣服图片的前景掩码；计算前景掩码和人物图片中衣服的分割掩码之间的TPS薄板样条变换，输出符合人的姿势和体形信息的衣服图片。

进一步的，步骤S9中输出虚拟换衣结果I_output的矩阵计算公式为：

其中，

表示逐元素矩阵乘法，M表示组合掩码，I_ct表示符合人的姿势和体形信息的衣服图片，I_pcr表示细化后的合成图。

其中，

表示逐元素矩阵乘法。

一种人物虚拟换衣终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，并具有有益效果：

(1)将人体图片经过仿射变换得到新图片，并将原始图像与新图像馈入到不同的池化机制以及特征拼接机制，能从多方面提取人体全身特征；

(2)设计了一个基于边界框和Transformer的人体姿势热图回归方法，辅助网络更好的实现人体姿态估计，从而缓解人体姿势复杂和人物图像重叠对后续虚拟换衣的影响；

(3)利用生成对抗网络的生成模型生成人物图片中衣服的分割掩码以及粗略的合成图，并利用TPS薄板样条变换，得到符合人的姿势和体形信息的衣服图片，使得最终通过全卷积网络得到的细化后的合成图包含更多的服装细节。

附图说明

图1所示为本发明实施例一的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种人物虚拟换衣方法，如图1所示，其为本发明实施例所述的人物虚拟换衣方法的流程图，所述方法包括以下步骤：

S1：将人物图片I_p经过仿射变换得到人物仿射变换图片I_t。

S2：针对人物图片I_p和人物仿射变换图片I_t分别进行特征提取，并基于不同的池化机制和特征拼接机制，分别将人物图片和人物仿射变换图片的特征转化为优化特征。

该实施例中特征提取通过U-net网络进行，在其他实施例中也可以采用其他方式，在此不做限制。人物图片I_p和人物仿射变换图片I_t特征提取后的结果分别表示为人物图片特征F_p与人物仿射变换图片特征F_t。

人物图片的特征转化为优化特征的方法为：对人物图片特征F_p分别进行平均池化和最大池化，并将平均池化和最大池化的结果分别输入多层感知机内，将多层感知机针对平均池化和最大池化的输出结果进行逐元素求和合并后，将合并结果通过激活函数进行激活，激活后得到人物图片的优化特征F_ps。

人物仿射变换图片的特征转化为优化特征的方法为：对人物仿射变换图片特征F_t分别进行平均池化和最大池化，并将平均池化和最大池化的结果进行连接，将连接结果通过激活函数进行激活，激活后得到人物仿射变换图片的优化特征F_ts。

该实施例中上述两种激活情况采用的激活函数均为sigmoid函数。通过激活函数激活可以增强网络的表达能力。

S3：根据人物图片和人物仿射变换图片的优化特征，得到人物图片的最终语义分割结果。

该实施例中步骤S3具体包括以下过程：

S301：将人物图片的优化特征F_ps作为特征金字塔网络的第一层，预测人物图片I_p的第一语义分割结果S₁，S₁为每个像素在不同语义类别的得分；

S302：将人物仿射变换图片的优化特征F_ts作为特征金字塔网络的第二层，预测人物仿射变换图片I_t的语义分割结果S₂；

S303：对人物仿射变换图片I_t进行仿射变换的逆变换，得到人物图片I_p的第二语义分割结果S₂₁；

S304：将人物图片I_p的第一语义分割结果S₁和第二语义分割结果S₂₁相加，得到人物图片的最终语义分割结果S_p。

S4：根据人物图片提取其内各人物对应的人体边界框，井基于提取的人体边界框对人物图片中的各人物进行裁剪。

该实施例中通过Faster RCNN网络来提取人物图片中各人物对应的人体边界框，在其他实施例中也可以采用其他方式，在此不做限定。

由于人物图片中可能包含多个人物，因此提取的人体边界框也为多个，表示为

i代表人数。人物图片中有几个人物即裁剪出几幅裁剪图片，裁剪图片的数量与人物的数量一一对应。

S5：基于裁剪后各裁剪图片的像素位置和人物图片的优化特征，确定各裁剪图片对应的裁剪特征。该实施例中裁剪特征表示为F_pc。

S6：根据各裁剪特征和其对应的像素位置编码，得到各裁剪图片的所有人体关键点，并根据人体关键点生成各裁剪图片的姿势热图。

该实施例中人体关键点的获取方法为：通过将各裁剪图片的裁剪特征F_pc和对应的像素位置编码分别输入Transformer编码器解码器网络中回归获得。

没幅裁剪图片中包括多个人体关键点，每个人体关键点均被转化为一热图，即在关键点周围的9×9的邻域中，用1填充，其他地方用0填充；将所有人体关键点的热图进行堆叠，形成一个多通道的姿势热图。

S7：根据各裁剪图片对应的姿势热图、单通道的二进制掩码图、三个颜色通道图和对应的衣服图片，通过生成对抗网络中的生成模型，生成人物图片中衣服的分割掩码M_p以及粗略合成图I_pc。

该实施例中裁剪图片的单通道的二进制掩码图的生成方法为：设定身体部分对应的像素点的值为1，裁剪图片中其他部分对应的像素点的值为0。需要说明的是，身体部分为衣服对应的身体部分，不包括脸和头发。分割掩码M_p不仅包含衣服所在的区域，而且包含人物的姿势。

S8：根据TPS薄板样条变换原理，得到符合人的姿势和体形信息的衣服图片，并通过全卷积网络输出细化后的合成图。

该实施例中根据TPS薄板样条变换原理，得到符合人的姿势和体形信息的衣服图片的方法为：提取衣服图片I_c的前景掩码M_c；计算前景掩码M_c和人物图片中衣服的分割掩码M_p之间的TPS薄板样条变换，输出符合人的姿势和体形信息的衣服图片I_ct。

通过全卷积网络输出细化后的合成图的方法为：将符合人的姿势和体形信息的衣服图片I_ct以及粗略合成图I_pc作为全卷积网络的输入，输出组合掩码M以及细化后的合成图I_pcr。

该实施例中矩阵计算公式为：

其中，

表示逐元素矩阵乘法。

本发明实施例将人体图片经过仿射变换得到新图片，并将原始图像与新图像馈入到不同的池化机制以及特征拼接机制，从多方面提取人体全身特征，实现人体语义分割。本实施例设计了一个基于边界框和Transformer的人体姿势热图回归方法，辅助网络更好的实现人体姿态估计，从而缓解人体姿势复杂和人物图像重叠对后续虚拟换衣的影响。本实施例利用TPS薄板样条变换，输出符合人的姿势和体形信息的衣服图片，并通过全卷积网络输出细化后的合成图，使得合成图包含更多的服装细节。

实施例二：

本发明还提供一种人物虚拟换衣终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述人物虚拟换衣终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述人物虚拟换衣终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述人物虚拟换衣终端设备的组成结构仅仅是人物虚拟换衣终端设备的示例，并不构成对人物虚拟换衣终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述人物虚拟换衣终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述人物虚拟换衣终端设备的控制中心，利用各种接口和线路连接整个人物虚拟换衣终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述人物虚拟换衣终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述人物虚拟换衣终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种人物虚拟换衣方法，其特征在于，包括以下步骤：

S1：将人物图片经过仿射变换得到人物仿射变换图片；

2.根据权利要求1所述的人物虚拟换衣方法，其特征在于：步骤S2中人物图片的特征转化为优化特征的方法为：对人物图片的特征分别进行平均池化和最大池化，并将平均池化和最大池化的结果分别输入多层感知机内，将多层感知机针对平均池化和最大池化的输出结果进行逐元素求和合并后，将合并结果通过激活函数进行激活，激活后得到人物图片的优化特征。

3.根据权利要求1所述的人物虚拟换衣方法，其特征在于：步骤S2中人物仿射变换图片的特征转化为优化特征的方法为：对人物仿射变换图片的特征分别进行平均池化和最大池化，并将平均池化和最大池化的结果进行连接，将连接结果通过激活函数进行激活，激活后得到人物仿射变换图片的优化特征。

4.根据权利要求1所述的人物虚拟换衣方法，其特征在于：步骤S3具体包括以下过程：

5.根据权利要求1所述的人物虚拟换衣方法，其特征在于：步骤S6中人体关键点的获取方法为：通过将各裁剪图片的裁剪特征和对应的像素位置编码分别输入Transformer编码器解码器网络中回归获得。

6.根据权利要求1所述的人物虚拟换衣方法，其特征在于：步骤S8中根据TPS薄板样条变换原理，得到符合人的姿势和体形信息的衣服图片的方法为：提取衣服图片的前景掩码；计算前景掩码和人物图片中衣服的分割掩码之间的TPS薄板样条变换，输出符合人的姿势和体形信息的衣服图片。

7.根据权利要求1所述的人物虚拟换衣方法，其特征在于：步骤S8中通过全卷积网络输出细化后的合成图的方法为：将符合人的姿势和体形信息的衣服图片以及粗略合成图作为全卷积网络的输入，输出组合掩码以及细化后的合成图。

8.根据权利要求7所述的人物虚拟换衣方法，其特征在于：步骤S9中输出虚拟换衣结果I_output的矩阵计算公式为：

其中，

9.一种人物虚拟换衣终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～8中任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～8中任一所述方法的步骤。