CN117575746A

CN117575746A - 虚拟试穿方法、装置、电子设备及存储介质

Info

Publication number: CN117575746A
Application number: CN202410068912.6A
Authority: CN
Inventors: 易东; 吴凌翔; 王金桥; 牛蕴方
Original assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Current assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-02-20
Anticipated expiration: 2044-01-17
Also published as: CN117575746B

Abstract

本发明提供一种虚拟试穿方法、装置、电子设备及存储介质，属于图像处理技术领域，所述方法包括：获取待试穿衣物图像和人物图像；将所述待试穿衣物图像和所述人物图像输入至虚拟试穿模型，得到所述虚拟试穿模型输出的虚拟试穿图像；所述虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的，所述伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及所述人物图像数据集中各人物图像的解析数据进行处理得到的。本发明可以实现无解析器形式的虚拟试穿图像生成，有效提高了虚拟试穿图像的生成效率，提升了虚拟试穿效果。

Description

虚拟试穿方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种虚拟试穿方法、装置、电子设备及存储介质。

背景技术

虚拟试穿是指在给定一个人和一件衣服的两张图片，保持人的姿势和身份不变的情况下“穿上”衣服。它引起了广泛的研究关注，具有提高电子商务和元宇宙购物体验的潜力。通过虚拟试穿，用户在网上购物时可以快速浏览衣物试穿效果，避免因实际试穿效果不理想选择退货所带来的不良体验。

针对虚拟试穿的研究，现有技术中大多数采用的是基于解析器的生成对抗网络（Generative Adversarial Network，GAN）方法，通过将服装变形为目标形状，然后将目标形状的服装和人物图像合成最终结果。然而，上述方式中，解析器在推理过程中的使用十分繁琐，并且生成的虚拟试穿图像容易带有伪影，虚拟试穿效果较差。

因此，如何更好地实现虚拟试穿，提升虚拟试穿效果已经成为业界亟待解决的技术问题。

发明内容

本发明提供一种虚拟试穿方法、装置、电子设备及存储介质，用以更好地实现虚拟试穿，提升虚拟试穿效果。

本发明提供一种虚拟试穿方法，包括：

获取待试穿衣物图像和人物图像；

将所述待试穿衣物图像和所述人物图像输入至虚拟试穿模型，得到所述虚拟试穿模型输出的虚拟试穿图像；

所述虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的，所述伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及所述人物图像数据集中各人物图像的解析数据进行处理得到的；

所述虚拟试穿模型包括融合模块，所述融合模块采用特征融合处理模型，所述特征融合处理模型包括用于提取人物特征图的去噪网络模型，所述去噪网络模型包括至少一层目标层，所述目标层包括注意力模块；

所述注意力模块具体用于：

基于注意力机制，根据人物特征图的图像特征与对应的衣物特征图的图像特征，生成多个不同尺度的注意力特征图；

将各个注意力特征图进行融合，并将融合得到的特征与人物特征图的图像特征进行叠加，得到叠加融合特征图。

根据本发明提供的一种虚拟试穿方法，所述虚拟试穿模型具体用于：

对所述待试穿衣物图像和所述人物图像进行特征提取，得到衣物图像特征和人物图像特征；

对所述衣物图像特征和所述人物图像特征进行不同尺度的注意力机制融合，并基于融合得到的特征生成所述虚拟试穿图像。

根据本发明提供的一种虚拟试穿方法，所述虚拟试穿模型包括编码模块；

所述编码模块具体用于：

将所述待试穿衣物图像和所述人物图像分别输入至自编码器的编码器进行编码，得到所述待试穿衣物图像对应的衣物特征图和所述人物图像对应的人物特征图。

根据本发明提供的一种虚拟试穿方法，所述融合模块具体用于：

将所述衣物特征图和所述人物特征图输入至特征融合处理模型，得到所述特征融合处理模型输出的目标融合特征图；所述特征融合处理模型用于基于注意力机制对所述衣物特征图和所述人物特征图进行不同尺度的特征融合。

根据本发明提供的一种虚拟试穿方法，所述虚拟试穿模型还包括解码模块；

所述解码模块具体用于：

将目标融合特征图输入至所述自编码器的解码器进行解码，得到所述虚拟试穿图像。

根据本发明提供的一种虚拟试穿方法，所述特征融合处理模型包括用于提取衣物特征图的编码网络模型。

根据本发明提供的一种虚拟试穿方法，所述去噪网络模型包括输入层、中间层、输出层，所述输入层或所述输出层中的至少一项包括至少一层目标层；所述中间层最多包括一层目标层；所述目标层用于对其上一层的输出特征图进行多层卷积层的卷积处理，将处理得到的特征图和所述编码网络模型中对应层输出的特征图输入至注意力模块，得到叠加融合特征图。

根据本发明提供的一种虚拟试穿方法，所述用于提取人物特征图的去噪网络模型为改进的U-Net网络模型，用于提取衣物特征图的编码网络模型为U-Net网络的编码网络模型。

本发明还提供一种虚拟试穿装置，包括：

获取模块，用于获取待试穿衣物图像和人物图像；

输出模块，用于将所述待试穿衣物图像和所述人物图像输入至虚拟试穿模型，得到所述虚拟试穿模型输出的虚拟试穿图像；

所述注意力模块具体用于：

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述虚拟试穿方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述虚拟试穿方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述虚拟试穿方法。

本发明提供的虚拟试穿方法、装置、电子设备及存储介质，通过采用人物图像样本、衣物图像样本和虚拟试穿图像的伪标签对虚拟试穿模型进行模型训练，得到训练好的虚拟试穿模型，虚拟试穿模型可以对待试穿衣物图像和人物图像进行特征提取得到衣物图像特征和人物图像特征，并对衣物图像特征和人物图像特征进行注意力机制融合，利用该融合人物和衣物特征所得到的融合特征生成虚拟试穿图像，无需使用解析器，实现无解析器形式的虚拟试穿图像生成，有效提高了虚拟试穿图像的生成效率，提升了虚拟试穿效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的虚拟试穿方法的流程示意图；

图2是本发明提供的虚拟试穿方法中虚拟试穿模型的结构示意图之一；

图3是本发明提供的虚拟试穿方法中采用的注意力机制的流程示意图；

图4是本发明提供的虚拟试穿方法中虚拟试穿模型的结构示意图之二；

图5是本发明提供的虚拟试穿方法中虚拟试穿模型的结构示意图之三；

图6是本发明提供的虚拟试穿装置的结构示意图；

图7是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合图1-图7描述本发明的虚拟试穿方法、装置、电子设备及存储介质。

图1是本发明提供的虚拟试穿方法的流程示意图，如图1所示，包括：

步骤110，获取待试穿衣物图像和人物图像；

步骤120，将待试穿衣物图像和所述人物图像输入至虚拟试穿模型，得到虚拟试穿模型输出的虚拟试穿图像；

虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的，伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及人物图像数据集中各人物图像的解析数据进行处理得到的。

具体地，本发明实施例所描述的待试穿衣物图像可以是用户想要试穿的衣物图像；人物图像指的是用户的人体图像。

本发明实施例所描述的虚拟试穿图像的伪标签指的是在模型训练之前，利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及人物图像数据集中各人物图像的解析数据进行处理，生成的同一人物穿着不同衣物的图像标签，能够帮助模型更好地从无标注的人物、衣物图像信息中进行学习，提升模型性能。

本发明实施例所描述的虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签对深度神经网络模型进行训练得到的，其主要用于对输入的待试穿衣物图像和人物图像进行特征提取，得到衣物图像特征和人物图像特征，并将衣物图像特征和人物图像特征进行不同尺度的注意力（Attention）机制融合，基于融合得到的特征生成虚拟试穿图像。

其中，深度神经网络可以采用自编码器（Auto-encoder，AE），深度学习U-Net网络构成的联合模型、GAN网络模型等，还可以为其他用于虚拟试穿图像生成的神经网络，在本发明中不做具体限定。

其中，训练样本是由人物图像样本、衣物图像样本和虚拟试穿图像的伪标签组成的。

在本发明的实施例中，步骤110中，可以通过预置的图像采集装置采集用户的人物图像，用户在前端人机交互界面选择并提交需要试穿的待试穿衣物图像，由此，获取待试穿衣物图像和人物图像。

进一步地，在本发明的实施例中，步骤120中，将获取到的待试穿衣物图像和人物图像至预先训练好的虚拟试穿模型，通过虚拟试穿模型的处理，分别对待试穿衣物图像和人物图像进行特征提取，获取衣物图像特征和人物图像特征，并基于模型设置的注意力进制，对提取到的衣物图像特征和人物图像特征进行多层级融合，得到融合后的特征，并基于该融合特征最终可以生成高质量的虚拟试穿图像。

本发明实施例的虚拟试穿方法，通过采用人物图像样本、衣物图像样本和虚拟试穿图像的伪标签对虚拟试穿模型进行模型训练，得到训练好的虚拟试穿模型，虚拟试穿模型可以对待试穿衣物图像和人物图像进行特征提取得到衣物图像特征和人物图像特征，并对衣物图像特征和人物图像特征进行注意力机制融合，利用该融合人物和衣物特征所得到的融合特征生成虚拟试穿图像，无需使用解析器，实现无解析器形式的虚拟试穿图像生成，有效提高了虚拟试穿图像的生成效率，提升了虚拟试穿效果。

图2是本发明提供的虚拟试穿方法中虚拟试穿模型的结构示意图之一，如图2所示，在本发明的实施例中，虚拟试穿模型包括编码模块1、融合模块2和解码模块3。其中，编码模块1具体用于将待试穿衣物图像和人物图像分别输入至自编码器的编码器11进行编码，得到待试穿衣物图像对应的衣物特征图和人物图像对应的人物特征图。

虚拟试穿模型还包括融合模块2。融合模块2具体用于将衣物特征图和人物特征图输入至特征融合处理模型21，得到特征融合处理模型21输出的目标融合特征图；特征融合处理模型21用于基于注意力机制对衣物特征图和人物特征图进行不同尺度的特征融合。

虚拟试穿模型还包括解码模块3。解码模块3具体用于将目标融合特征图输入至自编码器的解码器12进行解码，得到虚拟试穿图像。

具体地，本发明实施例所描述的待试穿衣物图像对应的衣物特征图指的是待试穿衣物图像被映射至隐空间得到的特征图像。

本发明实施例所描述的人物图像对应的人物特征图指的是人物图像被映射至隐空间得到的特征图像。

在本发明的实施例中，虚拟试穿模型是基于扩散模型进行构建的，包括编码模块、融合模块和解码模块。其中，编码模块和解码模块可以分别选择AE的编码器和解码器；融合模块采用特征融合处理模型，特征融合处理模型内部设置了Attention机制，通过Attention机制，可以对输入的衣物特征图和人物特征图进行不同尺度的特征融合。

AE属于一种无监督式学习模型，它基于反向传播算法与最优化方法，包含两个主要的部分：编码器和解码器；编码器的作用是把高维输入编码成低维的隐变量，此处的低维空间也称作隐空间，从而强迫神经网络学习最有信息量的特征；解码器的作用是把隐藏层的隐变量还原到初始维度。

其中，AE具体可以采用变分自编码器（Variational Auto-Encoders，VAE），VAE是一种主要用于数据生成的自编码器的变体，相当于在传统AE的隐层表达上增加一个对隐变量的约束。

在本发明的实施例中，利用扩散模型，通过预训练的VAE在隐空间中进行去噪过程，将随机噪声作为输入，逐渐去除其中的噪声，实现从噪声到虚拟试穿图像数据的生成。

更具体地，在本发明的实施例中，将待试穿衣物图像和人物图像输入至虚拟试穿模型后，首先通过编码模块中VAE的编码器对待试穿衣物图像和人物图像进行编码，分别将待试穿衣物图像和人物图像的信息映射至隐空间，得到待试穿衣物图像对应的衣物特征图和人物图像对应的人物特征图。

进一步地，在本发明的实施例中，通过融合模块，将上述得到的衣物特征图和人物特征图输入至特征融合处理模型中，基于Attention机制对衣物特征图和人物特征图提取对应注意力特征，并进行不同尺度的特征融合，得到目标融合特征图。

继续参照图2，基于上述实施例的内容，作为一种可选的实施例，特征融合处理模型21包括用于提取人物特征图的去噪网络模型211和用于提取衣物特征图的编码网络模型212；用于提取人物特征图的去噪网络模型211包括至少一层目标层；目标层包括多层卷积层和注意力模块，多层卷积层用于提取人物特征图的图像特征，注意力模块用于将人物特征图的图像特征与对应的衣物特征图的图像特征进行基于注意力机制的融合处理。

其中，用于提取人物特征图的去噪网络模型211可以采用改进的U-Net网络模型，用于提取衣物特征图的编码网络模型212可以采用U-Net网络的编码网络模型。

具体地，在本发明的实施例中，特征融合处理模型包括用于提取人物特征图的去噪网络模型和用于提取衣物特征图的编码网络模型。其中，用于提取人物特征图的去噪网络模型包括至少一层目标层，目标层包括多层卷积层和注意力模块。

在本发明实施例中，通过目标层中的多层卷积层，可以提取人物特征图的图像特征。通过目标层中的注意力模块，可以将人物特征图的图像特征与对应的衣物特征图的图像特征进行基于注意力机制的融合处理。

更具体地，在本发明的实施例中，用于提取人物特征图的去噪网络模型可以采用改进的U-Net网络模型，用于提取衣物特征图的编码网络模型可以采用U-Net网络的编码网络模型。通过对U-Net网络模型进行改进，针对原始U-Net网络模型中输入层、中间层和输出层的结构，设置目标层结构。其中，目标层包括多层卷积层和添加的注意力模块，多层卷积层用于提取人物特征图的图像特征，由此，构成改进的U-Net网络模型。

同时，利用U-Net网络的编码网络模型构建衣物特征编码器，提取衣物特征图的图像特征。

其中，注意力模块用于将人物特征图的图像特征与对应的衣物特征图的图像特征进行基于Attention机制的融合处理。

本发明实施例的方法，通过利用改进的U-Net网络作为扩散模型的主干网络，构建一种有条件引导的去噪网络框架，可以有效实现无解析器形式的虚拟试穿网络，无需输入人体解析数据即可完成试穿，有利于提升虚拟试穿图像生成的效率和效果。

图3是本发明提供的虚拟试穿方法中采用的注意力机制的流程示意图，如图3所示，在本发明的实施例中，注意力模块具体用于：

具体地，在本发明的实施例中，通过注意力模块，基于注意力机制，根据人物特征图的图像特征与对应的衣物特征图的图像特征，生成多个不同尺度的注意力特征图。

假设，、/>分别表示第/>层的人物特征图的图像特征和第/>层的衣物特征图的图像特征。在经过层归一化处理后，使用/>卷积生成查询(Q)、键(K) 和值(V)。具体而言，通过人物特征/>生成/>，通过衣物特征/>生成/>。

在本实施例中，为了从不同视角学习更完整的表示，将特征分成 N个头（head），生成多个不同尺度的注意力特征图，包括注意力图1，其可以表示为，以及注意力图2，其可以表示为/>。该过程可以通过如下公式表示：

；

其中，表示通道数。

进一步地，将各个注意力特征图进行融合，最终的注意力融合函数可以描述如下：

；

并且，将融合得到的特征进行层归一化和卷积处理后，与人物特征图的图像特征/>进行叠加，得到叠加融合特征图/>，即：

；

由此，在本发明的实施例中，通过上述设计好的注意力模块，对人物特征图的图像特征与对应的衣物特征图的图像特征进行融合，得到融合后的特征图。

本发明实施例的方法，通过将衣物图像特征与人物图像特征分成多个头部，与原始的交叉注意力不同，本注意力模块为每组头部运算得到两组注意力矩阵和值，从不同的视角学习更完整的表示，进一步增强人物和服装衣物特征的融合和模型的表达能力，有利于提升后续虚拟试穿图像生成的质量。

进一步地，在本发明的实施例中，通过解码模块，将特征融合处理模型输出的目标融合特征图输入到自编码器的解码器进行解码，将目标融合特征图的隐变量还原到初始维度，得到虚拟试穿图像。

本发明实施例的方法，通过使用扩散模型进行无解析器虚拟试穿，利用一个去噪U-Net神经网络、一个衣物特征编码器，并采用一种改进的注意力模块进行特征融合来搭建虚拟试穿网络框架，使用扩散模型的采样算法生成虚拟试穿图像，可以进一步提升虚拟试穿图像的生成效率以及虚拟试穿效果。

图4是本发明提供的虚拟试穿方法中虚拟试穿模型的结构示意图之二，如图4所示，在本发明的实施例中用于提取人物特征图的去噪网络模型211包括输入层2111、中间层2112和输出层2113；输入层2111或输出层2113中的至少一项包括至少一层目标层；中间层2112最多包括一层目标层；其中，目标层用于对其上一层的输出特征图进行多层卷积层的卷积处理，将处理得到的特征图和编码网络模型212中对应层输出的特征图输入至注意力模块，得到叠加融合特征图。

具体地，在本发明的实施例中，用于提取人物特征图的去噪网络模型具体包括输入层、中间层和输出层。并且，输入层或输出层中的至少一项包括至少一层目标层，也就是说，输入层或输出层中包括一层目标层或者多层目标层。中间层最多包括一层目标层，也就是说，中间层中包括一层目标层，或者没有设置目标层。

可以理解的是，本发明实施例中的目标层包括多层卷积层和注意力模块。其中，去噪网络模型中的每一层目标层，具体可以对其上一层的输出特征图进行多层卷积层的卷积处理，将处理得到的特征图和编码网络模型中对应层输出的特征图输入至注意力模块，通过注意力模块的注意力特征融合处理，得到叠加融合特征图。

可选地，输入层可以包括依次连接的至少一层第一组合层和至少一层目标层，第一组合层包括依次连接的多层卷积层和下采样层；输出层包括依次连接的至少一层目标层和至少一层第二组合层，第二组合层包括依次连接的上采样层和多层卷积层；中间层包括一层目标层。

其中，将衣物特征图和人物特征图输入至特征融合处理模型，得到特征融合处理模型输出的目标融合特征图，具体包括：

将人物特征图输入至改进的U-Net网络模型的输入层，并将衣物特征图输入至U-Net网络的编码网络模型，在人物特征图经过输入层的至少一层第一组合层处理后，得到第一特征图；

通过输入层、中间层和输出层中各目标层对第一特征图进行处理，得到目标叠加融合特征图；

在目标叠加融合特征图经过输出层的至少一层第二组合层处理后，得到目标融合特征图。

具体地，本发明实施例所描述的第一组合层指的是U-Net网络中依次连接的多个卷积层和下采样层所组成的组合网络。

本发明实施例所描述的第二组合层指的是U-Net网络中依次连接的上采样层和多个卷积层所组成组合网络。

本发明实施例所描述的第一特征图指的是由VAE的编码器输出的人物特征图经过输入层中的第一组合层处理后所得到的特征图。

在本发明的实施例中，在将人物特征图输入至改进的U-Net网络模型中后，首先通过输入层处理，在人物特征图经过输入层中的至少一层第一组合层处理后，通过多层卷积和下采样处理，得到第一特征图。

同时，将衣物特征图输入至U-Net网络的编码网络模型，可以得到该编码网络模型每一层输出的特征图。

进一步地，在本发明的实施例中，基于第一特征图，通过输入层、中间层和输出层中各目标层对输入的人物特征图和编码网络模型对应输出的衣物特征图的处理，通过逐层目标层中设置的注意力模块，对不同层的衣物特征图及对应的人物特征图进行融合处理，最终得到目标叠加融合特征图。

基于上述实施例的内容，通过输入层、中间层和输出层中各目标层对第一特征图进行处理，得到目标叠加融合特征图，包括：

将第一特征图输入至输入层的目标层，在经过输入层中至少一层的目标层处理后，得到输入层中每一层目标层输出的叠加融合特征图，

将输入层的最后一层目标层输出的叠加融合特征图输入至中间层，经过中间层的目标层处理后，得到中间层输出的叠加融合特征图；

将中间层输出的叠加融合特征图和输入层的最后一层目标层输出的叠加融合特征图输入至输出层，在经过输出层的至少一层目标层的处理后，得到目标叠加融合特征图；

输出层中每一层目标层的输入为其上一层输出的叠加融合特征图和输入层中对应目标层输出的叠加融合特征图。

具体地，在本发明的实施例中，将第一特征图经过输入层中，经过输入层中各层目标层的卷积处理以及注意力模块处理，可以得到输入层中每一层目标层输出的叠加融合特征图。

需要说明的是，输入层的最后一层目标层输出的特征图无需采用下采样处理，而最后一层目标层如果有设置的目标层，那么这些目标层输出的特征图还需经过下采样处理，得到下采样特征图，作为下一层网络层的输入特征图。

进一步地，在本发明的实施例中，将输入层的最后一层目标层输出的叠加融合特征图输入至中间层，在该叠加融合特征图经过中间层的卷积层处理后，通过中间层中的注意力模块，对该卷积处理得到的特征图和编码网络模型中对应层输出的特征图进行注意力特征融合处理，可以得到中间层输出的叠加融合特征图；

进一步地，将输入层的最后一层目标层输出的叠加融合特征图和中间层输出的叠加融合特征图一并输入至输出层，经过输出层至少一层目标层的处理后，最终得到目标叠加融合特征图。

需要说明的是，输出层中每一层目标层的输入为其上一层输出的叠加融合特征图和输入层中对应目标层输出的叠加融合特征图。例如，输出层中第一层目标层的输入为其上一层中间层输出的叠加融合特征图和输入层中最后一层目标层输出的叠加融合特征图；输出层中第二层目标层的输入为其第一层目标层输出的叠加融合特征图和输入层中倒数第二层目标层输出的叠加融合特征图。以此类推，设置输入层与输出层中的目标层网络。

本发明实施例的方法，通过输入层与输出层中逐层目标层的注意力模块处理，将衣物图像特征与人物图像特征分成多个头部，增强人物和服装衣物特征的融合和模型的表达能力，在节省计算资源开支的同时，为后续虚拟试穿图像的生成提供丰富的特征表达，以实现高质量的虚拟试穿效果。

进一步地，在本发明的实施例中，将目标叠加融合特征图输入至输出层的第二组合层网络中，在目标叠加融合特征图经过输出层的至少一层第二组合层处理后，可以得到最终的目标融合特征图。

本发明实施例的方法，通过在输入层、中间层及输出层中均设置目标层，结合输入层与输出层中各目标层的注意力模块，对衣物图像特征与人物图像特征进行逐层注意力特征融合处理，从而提取更加丰富的图像特征表达，可以生成高质量的虚拟试图像。

图5是本发明提供的虚拟试穿方法中虚拟试穿模型的结构示意图之三，如图5所示，在本发明的一个具体实施例中，输入层2111和输出层2113均包括四层网络，输入层2111的第一层和第二层均为包括卷积层和下采样层的第一组合层，第三层和第四层均为目标层；中间层2112包括一层目标层；输出层2113的第一层和第二层均为目标层，第三层和第四层均为包括上采样层和卷积层的第二组合层；U-Net网络的编码网络模型212包括四层卷积层。

将人物特征图输入至改进的U-Net网络模型的输入层，并将衣物特征图输入至U-Net网络的编码网络模型，在人物特征图经过输入层的两层第一组合层处理后，得到第一特征图；

基于第一特征图，通过输入层、中间层和输出层中各目标层对输入的人物特征图和编码网络模型输出的衣物特征图的处理，得到目标叠加融合特征图；

将目标叠加融合特征图输入至输出层的第三层，在目标叠加融合特征图经过输出层的两层第二组合层处理后，得到目标融合特征图。

具体地，在本发明的实施例中，在将人物特征图输入至改进的U-Net网络模型中后，首先通过输入层处理，在人物特征图经过输入层的前两层第一组合层处理后，通过多层卷积和下采样处理，得到第一特征图。

进一步地，在本发明的实施例中，基于第一特征图，通过输入层、中间层和输出层中各目标层对输入的人物特征图和编码网络模型输出的衣物特征图的处理，通过逐层目标层中设置的注意力模块，对不同层的衣物特征图及对应的人物特征图进行融合处理，最终得到目标叠加融合特征图。

可选地，基于第一特征图，通过输入层、中间层和输出层中各目标层对输入的人物特征图和编码网络模型输出的衣物特征图的处理，得到目标叠加融合特征图，具体步骤包括：

将第一特征图输入至输入层的第三层，在经过输入层的第三层的卷积层处理后，将处理得到的特征图和编码网络模型的第三层输出的特征图输入至注意力模块，得到第一叠加融合特征图，并将第一叠加融合特征图进行下采样处理，得到第二特征图；

将第二特征图输入至输入层的第四层，在经过输入层的第四层的卷积层处理后，将处理得到的特征图和编码网络模型的第四层输出的特征图输入至注意力模块，得到第二叠加融合特征图；

将第二叠加融合特征图输入至中间层，经过中间层的卷积层处理后，将处理得到的特征图和编码网络模型的第四层输出的特征图输入至注意力模块，得到第三叠加融合特征图；

将第三叠加融合特征图和第二叠加融合特征图输入至输出层的第一层，在经过输出层的第一层的卷积层处理后，将处理得到的特征图和编码网络模型的第三层输出的特征图输入至注意力模块，得到第四叠加融合特征图；

对第四叠加融合特征图进行上采样处理，得到第三特征图，并将第三特征图和第一叠加融合特征图输入至输出层的第二层，在经过输出层的第二层的卷积层处理后，将处理得到的特征图和编码网络模型的第四层输出的特征图输入至注意力模块，得到目标叠加融合特征图。

具体地，本发明实施例所描述的第一叠加融合特征图指的是在第一特征图经过输入层第三层所处目标层的卷积处理后，通过该目标层中的注意力模块，对该卷积处理得到的特征图和编码网络模型第三层输出的特征图进行注意力特征融合处理所得到的融合特征图。

本发明实施例所描述的第二特征图指的是第一叠加融合特征图通过下采样处理所得到的特征图。

本发明实施例所描述的第二叠加融合特征图指的是在第二特征图经过输入层第四层所处目标层的卷积处理后，通过该目标层中的注意力模块，对该卷积处理得到的特征图和编码网络模型第四层输出的特征图进行注意力特征融合处理所得到的融合特征图。

本发明实施例所描述的第三叠加融合特征图指的是在第二叠加融合特征图经过中间层的卷积层处理后，通过中间层中的注意力模块，对该卷积处理得到的特征图和编码网络模型的第四层输出的特征图进行注意力特征融合处理所得到的融合特征图。

本发明实施例所描述的第四叠加融合特征图指的是在第三叠加融合特征图和第二叠加融合特征图一并经过输出层第一层所处目标层的卷积层处理后，通过该目标层的注意力模块，对该卷积处理得到的特征图和编码网络模型的第三层输出的特征图进行注意力特征融合处理所得到的融合特征图。

本发明实施例所描述的第三特征图指的是第四叠加融合特征图通过输出层第二层的上采样处理后得到的特征图。

进一步地，在本发明的实施例中，将第三特征图和输入层输出的第一叠加融合特征图一并输入至输出层第二层所处目标层，在经过该目标层的卷积层处理后，通过该目标层中的注意力模块，对该卷积处理得到的特征图和编码网络模型的第四层输出的特征图进行注意力特征融合，最终得到目标叠加融合特征图。

进一步地，在本发明的实施例中，将目标叠加融合特征图输入至输出层的第三层，在目标叠加融合特征图经过输出层的后两层（即第三层和第四层）第二组合层处理后，输出目标融合特征图，以将该目标融合特征图输入到VAE的解码器进行解码，得到高质量的虚拟试穿图像。

本发明实施例的方法，通过设置四层输入层和四层输出层，结合输入层与输出层中各目标层的注意力模块，对衣物图像特征与人物图像特征进行逐层注意力特征融合处理，提取更加丰富的图像特征表达，在生成高质量的虚拟试图像的同时，可以有效节省计算资源开支，达到性能最优化。

基于上述实施例的内容，作为一种可选的实施例，在将待试穿衣物图像和人物图像输入至虚拟试穿模型之前，该方法还包括：

获取人物图像数据集、对应的衣物图像数据集以及人物图像数据集中各人物图像的解析数据；人物图像数据集包括多个不同人物的图像，衣物图像数据集包括多个不同衣物的图像；

利用多个有解析器生成模型对人物图像数据集、对应的衣物图像数据集以及人物图像数据集中各人物图像的解析数据进行处理，生成每个人物穿着不同衣物图像的伪标签；

利用多个人物图像样本、多个衣物图像样本和每个伪标签，对虚拟试穿模型进行训练。

具体地，在本发明的实施例中，在将待试穿衣物图像和人物图像输入至虚拟试穿模型之前，还需对虚拟试穿模型进行模型训练，以得到训练好的虚拟试穿模型。

在本发明的实施例中，通过搜集人物换装数据集，将数据进行解压操作，获取得到人物图像数据集、衣物图像数据集以及人物图像数据集中各人物图像的解析数据，以及训练测试文件名等信息。其中，衣物图像数据集中每张衣物图像都与人物图像数据集中的每张人物图像一一对应。

在本发明的一个具体实施例中，上述数据集包含13679对高分辨率(1024768)的正面视图女性和上半身服装图像，进一步地，可以将上述数据集划分为训练集和测试集，其中训练集和测试集分别包含11647对图像和2032对图像。

进一步地，在本发明的实施例中，可以采用若干有解析器生成模型生成为每个人物生成穿着不同衣物的伪标签。具体地，需要为无解析器模型训练准备伪标签。现有方法通常只使用一个模型来获取/>。不同的是，本发明实施例中选择了一个基于解析器的模型库，其可以表示为/>,来获得伪标签集合/>，这可以有效增加输入数据的多样性。上述合成过程可以表示如下：/>

；

其中，表示无解析器模型（即虚拟试穿模型）的目标人物，/>表示模型中心的其他输入，包括未配对的服装/>，解析掩码/>，骨架/>等等。

在本发明的一个具体实施例中，采用三个表现良好的有解析器生成模型分辨率下生成伪标签输入。对于每个模型，可以生成同一人穿着随机不同衣物的10张图像，从而将训练集扩大30倍。

进一步地，在本发明的实施例中，利用收集好的多个人物图像样本、多个衣物图像样本和前述每个伪标签，对虚拟试穿模型进行训练，在满足预设训练终止条件，如达到最大训练次数的情况下，最终完成虚拟试穿模型的整个训练过程，得到训练好的虚拟试穿模型。

本发明实施例的方法，通过采用多个有解析器生成模型生成不同人物穿着不同服装的伪标签图像数据，可以进一步扩充模型训练的样本数据量，可以有效提升训练好的虚拟试穿模型的模型精度。

下面对本发明提供的虚拟试穿装置进行描述，下文描述的虚拟试穿装置与上文描述的虚拟试穿方法可相互对应参照。

图6是本发明提供的虚拟试穿装置的结构示意图，如图6所示，包括：

获取模块610，用于获取模块，用于获取待试穿衣物图像和人物图像；

输出模块620，用于将待试穿衣物图像和人物图像输入至虚拟试穿模型，得到虚拟试穿模型输出的虚拟试穿图像；

虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的；伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及人物图像数据集中各人物图像的解析数据进行处理得到的。

本实施例所述的虚拟试穿装置可以用于执行上述虚拟试穿方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例的虚拟试穿装置，通过采用人物图像样本、衣物图像样本和虚拟试穿图像的伪标签对虚拟试穿模型进行模型训练，得到训练好的虚拟试穿模型，虚拟试穿模型可以对待试穿衣物图像和人物图像进行特征提取得到衣物图像特征和人物图像特征，并对衣物图像特征和人物图像特征进行注意力机制融合，利用该融合人物和衣物特征所得到的融合特征生成虚拟试穿图像，无需使用解析器，实现无解析器形式的虚拟试穿图像生成，有效提高了虚拟试穿图像的生成效率，提升了虚拟试穿效果。

图7是本发明提供的电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器（processor）710、通信接口（Communications Interface）720、存储器（memory）730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各方法所提供的虚拟试穿方法，该方法包括：获取待试穿衣物图像和人物图像；将待试穿衣物图像和所述人物图像输入至虚拟试穿模型，得到虚拟试穿模型输出的虚拟试穿图像；虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的，伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及人物图像数据集中各人物图像的解析数据进行处理得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的虚拟试穿方法，该方法包括：获取待试穿衣物图像和人物图像；将待试穿衣物图像和所述人物图像输入至虚拟试穿模型，得到虚拟试穿模型输出的虚拟试穿图像；虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的，伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及人物图像数据集中各人物图像的解析数据进行处理得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的虚拟试穿方法，该方法包括：获取待试穿衣物图像和人物图像；将待试穿衣物图像和所述人物图像输入至虚拟试穿模型，得到虚拟试穿模型输出的虚拟试穿图像；虚拟试穿模型是根据人物图像样本、衣物图像样本和虚拟试穿图像的伪标签训练得到的，伪标签是利用多个有解析器生成模型对人物图像数据集、衣物图像数据集以及人物图像数据集中各人物图像的解析数据进行处理得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟试穿方法，其特征在于，包括：

获取待试穿衣物图像和人物图像；

所述注意力模块具体用于：

2.根据权利要求1所述的虚拟试穿方法，其特征在于，所述虚拟试穿模型具体用于：

3.根据权利要求1或2所述的虚拟试穿方法，其特征在于，所述虚拟试穿模型包括编码模块；

所述编码模块具体用于：

4.根据权利要求3所述的虚拟试穿方法，其特征在于，

所述融合模块具体用于：

5.根据权利要求4所述的虚拟试穿方法，其特征在于，所述虚拟试穿模型还包括解码模块；

所述解码模块具体用于：

6.根据权利要求4所述的虚拟试穿方法，其特征在于，所述特征融合处理模型包括用于提取衣物特征图的编码网络模型。

7.根据权利要求6所述的虚拟试穿方法，其特征在于，所述去噪网络模型包括输入层、中间层、输出层，所述输入层或所述输出层中的至少一项包括至少一层目标层；所述中间层最多包括一层目标层；所述目标层用于对其上一层的输出特征图进行多层卷积层的卷积处理，将处理得到的特征图和所述编码网络模型中对应层输出的特征图输入至注意力模块，得到叠加融合特征图。

8.根据权利要求7所述的虚拟试穿方法，其特征在于，所述用于提取人物特征图的去噪网络模型为改进的U-Net网络模型，用于提取衣物特征图的编码网络模型为U-Net网络的编码网络模型。

9.一种虚拟试穿装置，其特征在于，包括：

获取模块，用于获取待试穿衣物图像和人物图像；

所述注意力模块具体用于：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述虚拟试穿方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述虚拟试穿方法。