CN111062777B

CN111062777B - 一种可保留示例衣服细节的虚拟试穿方法及系统

Info

Publication number: CN111062777B
Application number: CN201911259729.XA
Authority: CN
Inventors: 梁小丹; 谢震宇; 董浩业
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-06-24
Anticipated expiration: 2039-12-10
Also published as: CN111062777A

Abstract

本发明公开了一种可保留示例衣服细节的虚拟试穿方法及系统，该方法包括：步骤S1，对于一张人体图像，基于与衣服无关的人体特征表示方法，获得与衣服无关的人体特征图p；步骤S2，分别提取人体特征图p和示例衣服图c的高层特征，计算两者之间的相关性，得到代表人体特征和衣服特征相关性的张量，并基于回归网络以及薄板样条插值模块，获得变形后的衣服图

步骤S3，将步骤S1获得的人体特征图p和由步骤S2得到的变形衣服图

拼接作为深度学习UNet网络的输入，获得初步合成的试穿结果I_r以及掩模M；步骤S4，由掩模M将初步合成的试穿结果I_r和形变衣服图

融合在一起，得到最终的试穿结果I_o。

Description

一种可保留示例衣服细节的虚拟试穿方法及系统

技术领域

本发明涉及虚拟现实技术领域，特别是涉及一种可保留示例衣服细节的虚拟试穿方法及系统。

背景技术

线上服装销售相比于线下服装销售在时间，价格，选择上更具商业优势，但不足之处是消费者缺少实际的试穿体验。虚拟试穿技术通过使用计算机图形学或计算机视觉的技术，将示例衣服和人体图像结合在一起，消费者无需到实体店，就能有衣服试穿的体验。这使消费者对服装的选择更加方便，服装销售人员也无需为消费者提供试穿服务，极大提高了买卖双方的交易效率。但虚拟试穿任务是极具挑战性的，一种好的虚拟试穿方法不仅要保证示例衣服能够自然的穿在人身上，即示例衣服要与人的轮廓贴合，还需要保证试穿结果尽可能保留示例衣服的细节。

传统虚拟试穿技术使用计算机图形学的方法建立人体三维模型，再将示例衣服渲染在三维模型上。由于计算机图形学能够精准的计算图像的几何形变，所以这类方法一般能得到比较好的试穿效果。但这类方法往往需要大量的人工标注或昂贵的设备进行信息的获取及复杂的计算，所以基于计算机图形学的方法很难在实际应用中推广。

近年来，得益于生成模型，特别是基于生成对抗网络(Generative AdversarialNetwork)生成模型的快速发展，基于图像的虚拟试穿系统在没有引入人体三维信息的前提下，也能够生成效果逼真的试穿结果。具体来说，给定一张人体图像和一张示例衣服图像就可生成逼真的试穿效果，基于图像的虚拟试穿系统需要生成满足以下四个要求的图像：(1)目标人物穿着示例衣服；(2)目标人物的体型，姿态，外貌等特征能够保留；(3)示例衣服经过变形之后仍能保持真实性且和目标人物贴合得自然；(4)试穿结果应该保留原示例衣服上纹理，标识和文字等细节。现有基于图像的虚拟试穿方法主要有VITON(Viton:An image-based virtual try-on network)，但这种方法在复杂场景下生成的试穿结果并不真实。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种可保留示例衣服细节的虚拟试穿方法及系统，以提供一种不需要复杂先验知识、实用性强且在保证衣服与人体自然融合的同时保留衣服细节的虚拟试穿技术。

为达上述及其它目的，本发明提出一种可保留示例衣服细节的虚拟试穿方法，包括如下步骤：

步骤S1，对于一张人体图像，基于与衣服无关的人体特征表示方法，获得与衣服无关的人体特征图p；

步骤S2，分别提取人体特征图p和示例衣服图c的高层特征，并计算两个特征图之间的相关性，得到代表人体特征和衣服特征相关性的张量，并基于回归网络以及薄板样条插值模块，获得变形后的衣服图

步骤S3，将步骤S1获得的人体特征图p和由步骤S2得到的变形衣服

拼接起来作为深度学习UNet网络的输入，获得初步合成的试穿结果I_r以及用于融合的掩模M；

步骤S4，由掩模M将初步合成的试穿结果I_r和形变衣服图

融合在一起，得到最终的试穿结果I_o。

优选地，步骤S1进一步包括：

步骤S100，通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的18通道的热图；

步骤S101，对于同一张目标人体图像，使用人体解析器得到该人体图像的分割图，该分割图上不同区域对应人体的不同部位，再将该分割图转化为二进制的掩模；

步骤S102，根据该人体图像的分割图和原人体图像获取包含人体脸部和头发区域的RGB图像；

骤S103，将步骤S100获得的热图、步骤S101获得的1通道的掩模以及步骤S102获得的3通道的RGB图像按通道拼接起来，得到一张编码了人体头部、姿态、轮廓信息但不包含衣服信息的22通道的人体特征图p。

优选地，热图上以特征点为中心的11*11的区域值为1，其余区域值为0。

优选地，步骤S2进一步包括：

步骤S200，将编码好的人体特征图p和示例衣服图c分别输进两个特征提取网络，由两个特征提取网络分别编码，得到对应的高层特征；

步骤S201，将获得的两个高层特征输进一个计算特征图相关性的相关性匹配模块，以计算两个特征图之间的相关性，得到一个能够表示特征间相关性的张量；

步骤S202，将获得的张量输进回归网络，由回归网络计算衣服变换所需的变形参数θ，最后使用薄板样条插值方法将输入的示例衣服图c进行空间变化，得到形变后衣服图

优选地，于步骤S201中，所述相关性匹配模块对两个特征图进行矩阵乘法操作，得到一个能够表示特征间相关性的张量。

优选地，在训练阶段，使用真实的变形衣服图c_t和由模型得到变形衣服图

之间像素级别的L1损失函数约束变形参数θ的学习。

优选地，于步骤S4中，最终的试穿结果I_o计算如下：

优选地，在训练阶段，通过计算合成试穿结果I_o与真实图像I_t的L1损失和VGG感知损失

来约束系统模型的学习。

优选地，在训练阶段还引入针对掩模M的损失函数，训练阶段的总损失函数为：

其中，λ_L1，λ_vgg和λ_mask均取值为1。

为达到上述目的，本发明还提供一种可保留示例衣服细节的虚拟试穿系统，包括如下步骤：

人体特征图获取模块，用于对一张人体图像，基于与衣服无关的人体特征表示方法，获得与衣服无关的人体特征图；

几何匹配模块，用于使用两个神经网络分别提取人体特征图p和示例衣服图c的高层特征，并使用一个计算特征图相关性的相关性匹配网络结构计算两个特征图之间的相关性，得到代表人体特征和衣服特征相关性的张量，并基于回归网络以及薄板样条插值模块，获得变形后的衣服图

试穿处理模块，用于将所述人体特征图获取模块获得的人体特征图p和由所述几何匹配模块得到的变形衣服

融合模块，用于通过掩模M将初步合成的试穿结果I_r和形变衣服图

融合在一起，得到最终的试穿结果I_o。

与现有技术相比，本发明一种可保留示例衣服细节的虚拟试穿方法及系统通过基于与衣服无关的人体特征表示方法，基于几何形变的衣服与人体对齐方法以及基于融合的虚拟试穿方法，实现了一种不需复杂先验知识，实用性强，在保证衣服与人体自然融合的同时保留衣服细节的虚拟试穿方法。

附图说明

图1为本发明一种可保留示例衣服细节的虚拟试穿方法的步骤流程图；

图2为本发明一种可保留示例衣服细节的虚拟试穿系统的系统架构图；

图3为本发明具体实施例之虚拟试穿系统的结构示意图；

图4为本发明实施例不同全变差的衣服示意图；

图5为本发明和VITON对衣服变形效果的对比图；

图6为本发明和VITON的试穿效果对比图；

图7为本发明消融实验中的效果对比图；

图8为本发明和其他方法鲁棒性对比图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种可保留示例衣服细节的虚拟试穿方法的步骤流程图。如图1所示，本发明一种可保留示例衣服细节的虚拟试穿方法，包括如下步骤：

步骤S1，对于一张人体图像，基于与衣服无关的人体特征表示方法，获得与衣服无关的人体特征图。

具体地，步骤S1进一步包括：

步骤S100，通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，在该热图上，除了特征点及其邻域值为1，其他位置值为0，然后将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的热图。

在本发明具体实施例中，每个特征点的邻域是一个以特征点为中心，11*11的正方形区域。具体地说，步骤S100进一步包括：

步骤S100a，给定一张目标人体图像，使用人体姿态估计器预测包含18个特征点的姿态图，姿态图上每个特征点都会被转换为1通道的热图，热图上以特征点为中心的11*11的区域值为1，其余区域值为0。

步骤S100b，将18个1通道的热图按通道拼接在一起,得到一张18通道的热图，即该热图编码了人体的姿态信息。

步骤S101，对于同一张目标人体图像，使用人体解析器(LIP)得到该人体图像的分割图，该分割图上不同区域对应人体的不同部位，再将该分割图转化为二进制的掩模，掩模上人体区域(除了头发和脸部)值为1，其余区域值为0。

步骤S102，根据该人体图像的分割图和原人体图像获取包含身份信息(如人体脸部和头发区域)的RGB图像，

步骤S103，将步骤S100获得的18通道的热图、步骤S101获得的1通道的掩模以及步骤S102获得的3通道的RGB图像按通道拼接起来，得到一张编码了人体头部，姿态，轮廓信息，但不包含衣服信息的22通道特征图p。

在本发明具体实施例中，所述人体姿态估计器使用文章“Realtime multiperson2d pose estimation using part affinity fields”所提出的方法，所述人体解析器则可以使用文章“Look into person:Self-supervised structure-sensitive learning anda new benchmark for human parsing”所提出的方法，在此不予赘述。

步骤S2，使用两个神经网络分别提取人体特征图p和示例衣服图c的高层特征，并使用一个计算特征图相关性的相关性匹配网络结构计算两个特征图之间的相关性，得到代表人体特征和衣服特征相关性的张量，并基于回归网络以及薄板样条插值模块，获得变形后的衣服图

具体地，步骤S2进一步包括：

步骤S200，将编码好的人体特征图p和示例衣服图c分别输进两个特征提取网络，由两个网络分别编码，得到对应的高层特征。在本发明具体实施例中，将编码好的人体特征图p和示例衣服图c输进几何匹配模块(Geometric Matching Module)，所述几何匹配模块包括两个特征提取网络以及相关性匹配网络，由该两个特征提取网络分别对人体特征图p和示例衣服图c编码，得到对应的高层特征。

在本发明具体实施例中，两个特征提取网络的结构相似，均包含4个步长为2的下采样卷积层，以及2个步长为1的卷积层。每个卷积层的卷积核个数依次为64，128，256，512，512，512。

步骤S201，将获得的两个高层特征输进一个计算特征图相关性的相关性匹配模块，以计算两个特征图之间的相关性，得到一个能够表示特征间相关性的张量。

在本发明具体实施例中，所述相关性匹配模块的计算特征相关性的具体操作是对两个特征图进行矩阵乘法操作，得到一个能够表示特征间相关性的张量。具体地，将两个维度为c*h*w的张量铺展为维度分别为(w*h)*c和c*(h*w)的张量，再进行矩阵乘法操作，得到一个(w*h)*(h*w)的张量，然后再其维度铺展为(h*w)*h*w，代表原先两个特征图之间的相关性。

步骤S202，将获得的张量输进回归网络，由回归网络计算衣服变换所需的变形参数θ，最后使用薄板样条插值方法(TPS)将输入的示例衣服图c进行空间变化，得到形变后衣服图

由于TPS为一种现有的插值技术，常用于2D图像配准中，在此不予赘述。

在本发明中，所述回归网络包含2个步长为2的卷积层，2个步长为1的卷积层以及1个全连接层，卷积层卷积核个数依次为512，256，128，64，由于全连接层需要预测x坐标和y坐标的TPS参数，所以全连接层输出的维度为2*5*5＝50。

在本发明具体实施例中，在本发明系统模型的训练阶段，使用真实的变形衣服图c_t和由模型得到变形衣服图

之间像素级别的L1损失函数约束变形参数θ的学习，该损失函数的计算公式为：

需说明的是，在本发明具体实施例中，输进网络的特征图p或者示例衣服的图像c的分辨率均为256*192。

拼接起来作为深度学习UNet网络的输入，获得初步合成的试穿结果I_r以及用于融合的掩模M。

具体地，于步骤S3中，使用12层的深度学习UNet网络进行编码和解码，其包含6个步长为2的下采样卷积层以及6层上采样卷积层，其中，每个上采样卷积层由1个最近邻插值层和1个步长为1的卷积层组成。下采样卷积层卷积核个数依次为64，128，256，512，512，512，而上采样卷积层卷积核个数依次为512，512，256，128，64，4。每个卷积层都使用了实例归一化方法，激活函数使用Leaky ReLU，其斜率为0.2。

步骤S4，由掩模M将初步合成的试穿结果I_r和形变衣服图

融合在一起，得到最终的试穿结果I_o。

在本发明具体实施例中，最终的试穿结果I_o的计算公式为：

通过上述步骤，就可以根据一张人体图像和示例衣服图像，生成虚拟试穿结果。

在本发明系统模型的训练阶段，可通过计算合成试穿结果I_o与真实图像I_t的L1损失和VGG感知损失来约束模型的学习。具体公式为：

其中φ_i(I)表示图像I经过VGG19网络第i层得到的特征图。具体来说i依次代表了VGG19的’conv1_2’，’conv2_2’，’conv3_2’，’conv4_2’和’conv5_2’。

同时，为了使融合掩模M能够更多保留衣服的细节，在训练阶段还引入了针对M的损失函数。训练阶段总损失函数为：

其中，λ_L1，λ_vgg和λ_mask均取值为1。

图2为本发明一种可保留示例衣服细节的虚拟试穿系统的系统架构图。图3为本发明具体实施例之虚拟试穿系统的结构示意图。如图2及图3所示，本发明一种可保留示例衣服细节的虚拟试穿系统，包括如下步骤：

人体特征图获取模块201，用于对一张人体图像，基于与衣服无关的人体特征表示方法，获得与衣服无关的人体特征图。

具体地，人体特征图获取模块201进一步包括：

姿态图获取模块，用于通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，在该热图上，除了特征点及其邻域值为1，其他位置值为0，然后将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的热图。

在本发明具体实施例中，每个特征点的邻域是一个以特征点为中心，11*11的正方形区域。姿态图获取模块具体用于：

给定一张目标人体图像，使用人体姿态估计器预测包含18个特征点的姿态图，姿态图上每个特征点都会被转换为1通道的热图，热图上以特征点为中心的11*11的区域值为1，其余区域值为0。

将18个1通道的热图按通道拼接在一起,得到一张18通道的热图，即该热图编码了人体的姿态信息。

1通道掩模获取模块，用于对于同一张目标人体图像，使用人体解析器(LIP)得到该人体图像的分割图，该分割图上不同区域对应人体的不同部位，再将该分割图转化为二进制的掩模，掩模上人体区域(除了头发和脸部)值为1，其余区域值为0。

3通道图像获取模块，用于根据该人体图像的分割图和原人体图像获取包含身份信息(如人体脸部和头发区域)的RGB图像，

拼接模块，用于将姿态图获取模块获得的18通道的热图、1通道掩模获取模块获得的1通道的掩模以及3通道图像获取模块获得的3通道的RGB图像按通道拼接起来，得到一张编码了人体头部，姿态，轮廓信息，但不包含衣服信息的22通道特征图p。

几何匹配模块202，用于使用两个神经网络分别提取人体特征图p和示例衣服图c的高层特征，并使用一个计算特征图相关性的相关性匹配网络结构计算两个特征图之间的相关性，得到代表人体特征和衣服特征相关性的张量，并基于回归网络以及薄板样条插值模块，获得变形后的衣服图

具体地，几何匹配模块202进一步包括：

特征提取模块，用于将编码好的人体特征图p和示例衣服图c分别输进两个特征提取网络，由两个网络分别编码，得到对应的高层特征。在本发明具体实施例中，将编码好的人体特征图p和示例衣服图c输进几何匹配模块(Geometric Matching Module)，所述几何匹配模块包括两个特征提取网络以及相关性匹配网络，由该两个特征提取网络分别对人体特征图p和示例衣服图c编码，得到对应的高层特征。

相关性匹配模块，用于将获得的两个高层特征输进计算特征图相关性的相关性匹配模块，以计算两个特征图之间的相关性，得到一个能够表示特征间相关性的张量。

在本发明具体实施例中，所述相关性匹配模块的计算特征相关性的具体操作是对两个特征图进行矩阵乘法操作，得到一个能够表示特征间相关性的张量。

回归网络，用于将获得的张量输进回归网络，由回归网络计算衣服变换所需的变形参数θ，最后使用薄板样条插值方法(TPS)将输入的示例衣服图c进行空间变化，得到形变后衣服图

试穿处理模块203，用于将人体特征图获取模块201获得的人体特征图p和由几何匹配模块202得到的变形衣服

具体地，试穿处理模块203使用12层的深度学习UNet网络进行编码和解码，其包含6个步长为2的下采样卷积层以及6层上采样卷积层，其中，每个上采样卷积层由1个最近邻插值层和1个步长为1的卷积层组成。下采样卷积层卷积核个数依次为64，128，256，512，512，512，而上采样卷积层卷积核个数依次为512，512，256，128，64，4。每个卷积层都使用了实例归一化方法，激活函数使用Leaky ReLU，其斜率为0.2。

融合模块204，用于通过掩模M将初步合成的试穿结果I_r和形变衣服图

融合在一起，得到最终的试穿结果I_o。

在本发明具体实施例中，最终的试穿结果I_o的计算公式为：

同时，为了使融合掩模M能够更多保留衣服的细节，在训练阶段还引入了针对M的损失函数。训练阶段的总损失函数为：

其中，λ_L1，λ_vgg和λ_mask均取值为1。

实施例

在本发明实施例中，使用的虚拟试穿数据集包含19000个图像对，每个图像对由一张上衣图像和一张模特图像构成，其中模特穿着给定的上衣，数据集中有16253个图像对是比较清晰的，所以将这些图像对划分为训练集和验证集，分别包含14221，2032个图像对，将验证集匹配的图像对重新组合，使上衣图像和模特图像中的上衣不匹配，以此作为本发明的测试集。

为了说明本发明适用于不同复杂程度的虚拟试穿场景(衣服纹理细节的复杂程度)，从测试集中划分两个测试子集LARGE和SMALL。LARGE测试子集中衣服比较复杂，纹理细节比较多。SMALL测试子集中衣服比较简单。衣服的复杂程度是根据图像的全变差(TVnorm)来决定的。由于数据集中衣服图像的背景都是白色的，所以可以使用全变差来度量衣服纹理的复杂程度。图4显示了随着全变差变大，衣服细节变得更丰富。(从上往下全变差逐渐变大)。

下面将结合附图来说明本发明的虚拟试穿效果：

以下将定性和定量分析本发明的虚拟试穿效果。针对定性指标，在传统图像生成方法中，一般使用图像生成质量的指标Inception Score(IS)作为评判标准。但该标准不适用于对虚拟试穿效果的评价，因为它不能反映图像的细节是否得到保留。所以本发明使用用户调查的方式对不同模型做定性评价。具体操作是，在亚马逊AMT平台上，向平台上的工作人员展示一张人体图像和一张示例衣服图像，然后让工作人员从两个虚拟试穿结果中选择更加真实逼真，保留更多细节的结果，给定的两个试穿结果来自不同的模型。

为了说明本发明设计的几何匹配模块(GMM)对衣服变形的有效性，本发明对比了不同方法下示例衣服的变形的效果图。对比的方法是VITON中采用的方法，记为SCMM。两个方法的差异在于GMM的变形参数由网络预测得到，而SCMM的变形参数是根据网络预测得到的变形掩模和示例图像的分割掩模计算得到的。图5展示不同方法下衣服变形的效果示意图。第1行和第2行分别为示例衣服和人体图像，第3行和第4行分别表示使用SCMM方法衣服的变形结果和将变形结果简单贴到模特身上的示意图。第5行和第6行分别表示使用GMM方法衣服的变形结果和将变形结果简单贴到模特身上的示意图。由结果图可以看出GMM和SCMM对衣服的变形效果差别不大，但针对某些特定的情况，GMM变现比SCMM好。比如图5中的第6列，SCMM对长袖的变形效果不好，原因是SCMM只是根据掩模的边缘特征计算变形参数，如果边缘特征计算不准确，就会导致变形参数计算不准确，进而影响变形的效果。而GMM使用网络预测变形参数，充分利用了人体特征和衣服特征，预测出的变形参数更精准。

为了说明本发明对于虚拟试穿任务的有效性，本发明比较本发明的试穿效果和VITON的试穿效果。图6是不同方法试穿效果对比图。第1行和第2行分别为示例衣服和人体图像，第3行和第4行分别文本发明的方法和VITON方法的试穿效果图。由图6可以观察到，对于前4列，衣服比较简单情况，本发明的方法和VITON的效果差别不大。但对于后4列，在衣服细节比较多的情况下，本发明的方法在细节保留上表现出明显的优势。对于细节比较多的衣服，VITON生成的结果往往比较模糊，不能保留衣服的细节，而本发明生成的试穿结果衣服细节比较清晰。至于定性指标，在简单衣服的测试子集SMALL上，AMT平台有55％的工作人员认为本发明的结果比VITON的结果好。而针对复杂衣服的测试子集LARGE，AMT平台上有67.5％的工作人员认为本发明的结果比VITON的结果好。这说明了对于衣服简单的情景，本发明方法和VITON的效果相似，而针对衣服复杂的情景，本发明方法更有优势，即能保留衣服的细节。

为了验证本发明所设计的试穿模块的有效性，本发明设计了两组消融实验。第1组消融实验在模型的试穿模块(Try-On Module)中将生成的融合掩模去除，即直接使用UNet网络生成的试穿结果作为最终的输出。第2组消融实验是在训练试穿模块时不使用限制融合掩模M的损失函数。图7是两组消融实验和本发明完整模型的效果对比图。图7第1列和第2列分别为人体图像和示例衣服。第3列是不使用融合掩模的试穿结果。第4列和第5列是不对融合掩模使用L1损失函数时模型生成的试穿结果和融合掩模。第6列和第7列是使用本发明完整模型得到的试穿结果和融合掩模。由图7可以观察，不使用融合掩模得到的试穿结果不能保留原衣服的细节，比较模糊。这验证了直接使用类似UNet的结构对图像细节的生成效果一般。不对融合掩模使用L1损失函数的模型得到的融合掩模在衣服区域比较暗，意味着没有了对融合掩模损失函数的约束，它更偏向于选择直接合成的试穿结果。原因是在训练阶段，变形的衣服不可避免会与真实衣服存在偏差，而这种偏差会加大整体的L1损失和VGG感知损失。

为了验证本发明的方法在生成的形变衣服和真实形变衣服有偏差时鲁棒性比之前方法更好，本发明还设计实验来验证各个方法对这种偏差的鲁棒性。对比的方法包括本发明的方法，本发明中去除融合掩模的方法以及VITON。具体的做法是使用真实形变衣服作为每个方法第二阶段的输入，同时为形变衣服加上不同程度的像素偏移，来模拟生成形变衣服和真实形变衣服之间的偏差。图8展示了不同方法在不同程度偏差下得到试穿结果的对比图。从左到右依次为偏移0个像素，5个像素，10个像素，15个像素和20个像素不同方法生成的试穿结果。当偏移0个像素时，由于使用了真实的形变衣服，所以三种方法得到的试穿结果都很好。但随着像素偏移增加，前两个方法在保留衣服细节上退化得比较明显，本发明的方法在形变衣服与真实形变衣服存在较大偏差的情况下，仍能保留衣服的细节。验证了本发明的方法鲁棒性更好。

综上所述，本发明一种可保留示例衣服细节的虚拟试穿方法及系统通过基于与衣服无关的人体特征表示方法，基于几何形变的衣服与人体对齐方法以及基于融合的虚拟试穿方法，实现了一种不需复杂先验知识，实用性强，在保证衣服与人体自然融合的同时保留衣服细节的虚拟试穿方法。

与现有技术相比，本发明具有如下优点：

1)在传统方法VITON中，TPS变换参数是由示例衣服的掩模和网络生成形变衣服的掩模通过迭代的方式计算得到，这种计算方式只使用了衣服掩模的边界特征而不关注衣服的内部特征，如果边界特征估计出错，就会导致得到的形变参数不准确，影响最终的形变结果。而本发明充分利用人体特征和示例衣服特征，让神经网络预测TPS变换的参数，使模型对示例衣服的变形更准确。

2)传统的VITON方法使用的策略虽然也在第一阶段先生成粗糙的试穿结果，但这种粗糙的试穿结果没有保留示例衣服的细节，在第二阶段生成一个融合掩模，用于融合形变衣服和粗糙试穿结果，为第一阶段生成的粗糙结果添加细节；但由于在训练第一阶段和第二阶段都是使用生成的试穿结果和真实试穿结果之间VGG感知损失来约束模型学习，而经过第一阶段多轮训练之后，粗糙的试穿结果和真实试穿结果之间VGG感知损失已经很小了，并且存在1)中生成的形变衣服和真实形变衣服有偏差的问题，导致第二阶段生成的融合掩模倾向于选择第一阶段生成的粗糙试穿结果，所以示例衣服的细节不能很好的保留。而本发明在第一阶段生成保留示例衣服细节的形变衣服，在第二阶段生成粗糙试穿结果的同时生成一个融合掩模，最终的试穿结果由融合掩模将粗糙的试穿结果和第一阶段生成的形变衣服融合得到。在训练阶段，使用最终合成的试穿结果和真实试穿结果之间VGG感知损失和L1损失来约束模型的学习。这样就能避开VITON中存在的问题，使最终合成的试穿结果能保留示例衣服上的细节。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种可保留示例衣服细节的虚拟试穿方法，包括如下步骤：

步骤S2，分别提取人体特征图p和示例衣服图c的高层特征，并计算两个特征图之间的相关性，得到代表人体特征和衣服特征相关性的张量，将获得的张量输入回归网络以及薄板样条插值模块，获得变形后的衣服图

步骤S4，由掩模M将初步合成的试穿结果I_r和形变衣服图

融合在一起，得到最终的试穿结果I_o。

2.如权利要求1所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于，步骤S1进一步包括：

步骤S103，将步骤S100获得的热图、步骤S101获得的1通道的掩模以及步骤S102获得的3通道的RGB图像按通道拼接起来，得到一张编码了人体头部、姿态、轮廓信息但不包含衣服信息的22通道的人体特征图p。

3.如权利要求2所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于：热图上以特征点为中心的11*11的区域值为1，其余区域值为0。

4.如权利要求2所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于，步骤S2进一步包括：

5.如权利要求4所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于：于步骤S201中，所述相关性匹配模块对两个特征图进行矩阵乘法操作，得到一个能够表示特征间相关性的张量。

6.如权利要求4所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于：在训练阶段，使用真实的变形衣服图c_t和由模型得到变形衣服图

之间像素级别的L1损失函数约束变形参数θ的学习。

7.如权利要求6所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于，于步骤S4中，最终的试穿结果I_o计算如下：

8.如权利要求7所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于：在训练阶段，通过计算合成试穿结果I_o与真实图像I_t的L1损失和VGG感知损失

来约束系统模型的学习。

9.如权利要求8所述的一种可保留示例衣服细节的虚拟试穿方法，其特征在于，在训练阶段还引入针对掩模M的损失函数，训练阶段的总损失函数为：

其中，λ_L1，λ_vgg和λ_mask均取值为1。

10.一种可保留示例衣服细节的虚拟试穿系统，包括如下步骤：

几何匹配模块，用于使用两个神经网络分别提取人体特征图p和示例衣服图c的高层特征，并使用一个计算特征图相关性的相关性匹配网络结构计算两个特征图之间的相关性，得到代表人体特征和衣服特征相关性的张量，将获得的张量输入回归网络以及薄板样条插值模块，获得变形后的衣服图

融合在一起，得到最终的试穿结果I_o。