CN115761791A

CN115761791A - 基于2d图像的人体语义预测模块、虚拟换衣模型及方法

Info

Publication number: CN115761791A
Application number: CN202211278194.2A
Authority: CN
Inventors: 张海军; 李国建
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-03-07

Abstract

公开了一种基于2D图像的人体语义预测模块、虚拟换衣模型及方法。所述人体语义预测模块由一个改进后的U‑Net网络组成，改进后的U‑Net网络是将传统U‑Net网络的基本单元改为残差块；人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出包括所述人体模特图像每个像素点的分类概率；人体姿态特征包括densepose特征；人体语义预测模块依据所述分类概率预测换衣后的人体语义信息。虚拟换衣模型包括一个服装变形的外观流模块、人体语义预测模块和换衣生成模块。虚拟换衣方法包括构建虚拟换衣数据集、设计虚拟换衣模型和设计虚拟换衣模型的训练策略的步骤。本发明具有较高的网络提取特征的能力，提升了最终换衣图像的真实性。

Description

基于2D图像的人体语义预测模块、虚拟换衣模型及方法

技术领域

本发明属于图像生成模型以及时尚服装领域，涉及一种基于2D图像的人体语义预测模块、虚拟换衣模型及方法，所述人体语义预测模块、虚拟换衣模型及方法使用人体模特穿衣图像和平面化服装图像作为最原始的输入。

背景技术

虚拟换衣是指用户不需要亲自试穿衣服就可以看到自己穿衣之后的效果，在服装效果展示方面有很广泛的应用场景。随着电子商务的兴起，越来越多的人选择了在线上进行购物，其中服装是每个人都必不可少物品。而线上购买服装通常只是使用模特试穿的图像来进行展示，其最大的问题就是，用户无法看到服装穿在自己身上的效果。虚拟换衣技术刚好可以很好地解决这一问题，该技术能够很好地展示服装在人体身上的效果，更直接地让用户看到服装是否合身、颜色是否适合等特征，帮助用户做出更好的决定。尤其是近几年，因为疫情导致越来越多的人进行线上购物，电商平台也需要为用户提供更好的服务，向用户展现更真实的商品效果。对于服装展示而言，虚拟换衣技术在电商领域有很大的应用空间。基于展示服装效果的目的，虚拟换衣技术通常包括两大技术方向：(1)基于3D人体模型技术的虚拟换衣方法，该方法通过对人体和服装在三维空间中进行建模的方式，来生成换衣后的效果图，虽然基于3D建模方法的效果很真实，但其计算量较大，且应用时对场地的要求较高，不适合一般电商平台的应用；(2)基于2D图像的虚拟换衣方法，该方法可以通过输入的2D人体图像和平面化服装图像，直接生成人体更换服装后的图像，其最大的特点就是，在保证一定效果的同时，还可以有很快的运行速度，相比于3D建模的方法，应用场景更宽广。

深度学习的发展极大促进了虚拟换衣技术的发展，在2018年，VITON技术首次提出了使用深度学习技术来进行虚拟换衣的模型框架，在之后的几年中，涌现了很多类似的技术，对现有的虚拟换衣方法不断地进行完善。基于2D图像的虚拟换衣方法通常包含两大步骤：(1)对平面化服装区域进行扭曲变形，将服装图像扭曲变形成服装被穿在人体身上后的形状，在这个过程中需要保持服装的纹理、图案等细节信息；(2)根据人体图像的各种特征，结合变形后的服装，生成换衣后的图像效果，最后的生成的图像即为模型对人体进行换衣后的图像。在服装扭曲的技术当中，常用的方法有TPS变换的方法和基于外观流的方法。TPS插值是常用的2D插值方法。它的物理意义是：在原图像中取N个点，这N个点，在经过图像的扭曲变形后形成的新坐标下，对应了新的N个点。该方法的应用范围受限，对于服装遮挡、衣领伪影或者服装几何变形程度较大等问题上，不能完全地对服装进行扭曲。基于外观流的方法能够利用深度学习技术，学习到原始图像中有哪些像素点能够用于生成目标图像，相比于TPS变换，该方法灵活度更高且效果更好。在换衣合成技术中，常用的方法是使用U-Net网络，对输入的特征进行结合，但目前的方法中，还存在着一些问题，其一是，由于在训练的过程中，对人体进行换衣时，需要去除人体身上原有服装的所有信息，保留下的特征在一定程度上有所缺失，无法完全表示人体；其二是，模型在换衣的过程中，由于提取到的特征不足以更好的生成换衣后的图像，导致生成的图像效果有限。

发明内容

本发明提供了一种基于人工智能的人体语义预测模块、虚拟换衣模型及方法。一方面，输入的数据都为2D图像；另一方面，平面化服装图像需要通过外观流技术进行扭曲变形，生成最终换衣图像的服装区域，且输入的特征需要利用U-Net网络进行提取和融合，生成最终的换衣图像。基于此思路，本发明提出了一种基于2D图像的人体语义预测模块、虚拟换衣模型及方法。结合输入图像的多种特征，实现对输入的人体图像进行换衣。在虚拟换衣过程中，除了人体模特图像和平面化服装图像两个输入外，还包括densepose特征、人体语义信息和平面化服装的前景mask特征。在获取densepose特征时，将人体图像映射到三维空间，同时将人体表面划分为24个平面，densepose特征能够表示这24个平面在图像中的位置信息。在获取人体语义信息时，将人体图像的像素点进行分类，识别出像素点属于脸部、服装、手臂等区域。除此之外，在虚拟换衣过程中还可以使用人体的openpose姿态特征，openpose姿态特征由18个人体不同位置的关键点组成。

第一方面，提供一种人体语义预测模块，由一个改进后的U-Net网络组成，所述改进后的U-Net网络的基本结构为残差块；所述人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出包括所述人体模特图像每个像素点的分类概率；所述人体姿态特征包括densepose特征；所述人体语义预测模块依据所述分类概率预测换衣后的人体语义信息。

可选的，选取像素点的所述分类概率最大的类别为该像素点所属的区域类别。

可选的，所述残差块分为直接映射部分和残差部分；所述直接映射部分的输入特征不经过卷积操作，直接作为这部分的输出特征；所述残差部分的输入特征经过一个多层卷积神经网络，预测出特征的残差；将所述残差部分部分的输出与所述直接映射部分的输出相加后，通过一个Relu激活层，作为整个残差块的输出。

可选的，所述多层卷积神经网络的损失函数为Relu函数。

第二方面，提供一种虚拟换衣模型，包括一个服装变形的外观流模块、一个人体语义预测模块和一个换衣生成模块；其中，服装变形的外观流模块用于生成扭曲变形后的服装区域；人体语义预测模块由一个改进后的U-Net网络组成，所述改进后的U-Net网络的基本结构为残差块，所述人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出为所述人体模特图像每个像素点的分类概率，所述人体姿态特征包括densepose特征，所述人体语义预测模块依据所述分类概率预测换衣后的人体语义信息；所述换衣生成模块用于融合得到的各种特征，生成最终的换衣图像。

可选的，所述服装变形的外观流模块由两个结构相同的FPN网络和一个卷积神经网络所组成；所述FPN网络中的一个的输入为人体图像中与服装无关的特征，输出得到人体与服装无关区域的多级特征，另一FPN网络的输入为平面化服装图像，输出得到平面化服装图像的多级特征；所述卷积神经网络每一层的输入为所述FPN网络在该层输出的多级特征以及上一层的输出，输出为每一层服装图像中每个素点的偏移量；所述服装变形的外观流模块根据最终输出的偏移量对服装图像进行扭曲变形。

可选的，所述换衣生成模块采用与所述人体语义预测模块相同的网络结构，输入为扭曲变形后的服装图像及其mask特征、与服装无关的人体图像、以及预测的语义信息。

第三方面，提供一种虚拟换衣方法，包括：

构建虚拟换衣数据集；

设计虚拟换衣模型，所述虚拟换衣模型包括一个服装变形的外观流模块、一个人体语义预测模块和一个换衣生成模块；其中，所述服装变形的外观流模块用于生成扭曲变形后的服装区域；所述人体语义预测模块由一个改进后的U-Net网络组成，所述改进后的U-Net网络是将U-Net网络的基本单元改为残差块，所述人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出为所述人体模特图像每个像素点的分类概率，所述人体姿态特征包括densepose特征，所述人体语义预测模块依据所述分类概率预测换衣后的人体语义信息；所述换衣生成模块用于融合得到的各种特征，生成最终的换衣图像；

设计所述虚拟换衣模型的训练策略。

可选的，构建虚拟换衣数据集包括：先获取平面化服装图像和对应的人体模特穿着这件服装的图像；利用人体解析模型对人体模特图像进行语义分割，获取人体模特图像的语义信息；利用人体姿态特征的提取方法分别提取openpose特征和densepose特征；利用显著性目标检测的方法获取平面化服装图像的前景mask特征；将平面化服装图像及其前景mask特征、人体模特图像及其人体姿态特征、人体模特图像的语义信息组合在一起，构建成虚拟换衣数据集。

可选的，所述服装变形的外观流模块工作过程包括步骤：

(1)利用FPN网络生成服装图像c和与服装无关的人体图像的多级特征p；

(2)分别对提取到的多级特征中的每一级特征进行外观流信息生成操作，对上一级卷积神经网络生成的外观流信息f₁进行上采样，将其应用在当前的服装特征图中，对其进行扭曲变形c’；

(3)将变形后的特征图c’和当前级别的与人体无关的特征图p进行相关性计算，得到结果r，相关性计算是指计算目标图像中第j个像素点和源图像中第j个像素点周围k个像素点之间的相关性；

(4)将该相关性结果r输入到卷积神经网络中，计算第二步中上采样生成的外观流信息的偏差f₁’，将该偏差和上采样得到的外观流f进行相加，得到当前级别的初步外观流信息f₂”；

(5)利用该外观流特征f₂”继续对特征图进行扭曲变形得到c”，将扭曲变形后的特征图c”和与服装无关的人体图像特征图p一起输入到卷积神经网络中，输出该特征图外观流的残差f₂’，将其和上一步生成的外观流信息f₂”相加，即为当前级别特征图的外观流信息f₂，输入到下一级网络中；如果下一级网络不为最后一层，就回到步骤(2)中进行重复。

可选的，虚拟换衣模型的训练策略包括：在训练和测试阶段，所有图像在被送入服装变形的外观流模块之前，被调整为统一的尺寸M×N，同时生成模型所需要的人体姿态特征、人体语义信息和服装的前景mask特征；在服装变形的外观流模块中，使用L1损失和Vgg感知损失进行训练；在人体语义预测模块中，使用多类交叉熵损失进行训练；在换衣生成模块中，使用L1损失、Vgg感知损失和对抗损失进行训练；在所述虚拟换衣模型中，使用Adam优化器进行优化。

本发明的有益效果是：本发明提出了一种基于2D图像的人体语义预测模块，该模块能够充分利用densepose姿态特征信息和人体中其他与服装无关的特征，生成最终换衣图像中每个位置像素点的类别预测信息。本发明还将人体语义预测模块应用于虚拟换衣模型和方法中，以扭曲后的服装及其mask特征、预测的人体语义信息以及与服装无关的特征作为输入，生成最终的换衣图像，同时在训练过程中增加了对抗损失，在一定程度上提升了最终换衣图像的真实性。所述人体语义预测模块、虚拟换衣模型和虚拟换衣方法充分利用了输入图像中的densepose特征进行语义信息的预测，能够使得最终合成的换衣图像效果更加真实。同时，本发明没有使用传统的U-Net网络，而是利用以残差块为基本单元的U-Net网络，大幅度增强了人体语义预测模块的表征能力。本发明构建的虚拟换衣模型和方法能够根据输入的人体模特图像和平面化服装图像，在保持人体姿势不变的情况下，生成这个人穿着这件服装的图像；虚拟换衣模型和方法保证了生成图像的质量，同时也能兼顾模型运行的速度。

附图说明

图1是本发明基于2D图像的人体语义预测模块示意图。

图2是本发明基于2D图像的虚拟换衣模型和虚拟换衣方法框架图。

图3是本发明服装变形的外观流模块结构示意图。

图4是本发明换衣生成模块结构示意图。

图5是本发明基于2D图像的虚拟换衣方法的流程图。

图6是本发明所提取的特征示例。

图7是本发明换衣图像中的模特和服装图像的实例样例以及本发明方法生成结果的展示图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明基于2D图像的人体语义预测模块示意图如图1所示。人体语义预测模块对传统的U-Net网络进行了改进，将网络的基本单元改为残差块，这样能够大幅度增加网络的深度，提高网络提取特征的能力。人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，包括人体densepose特征及其对应的mask信息，还可以包括openpose特征，输出包括所述人体模特图像每个像素点的分类概率；人体语义预测模块依据所述分类概率预测换衣后的人体语义信息。

本发明基于2D图像的虚拟换衣模型和虚拟换衣方法框架图如图2所示。虚拟换衣模型包括一个服装变形的外观流模块、一个人体语义预测模块和一个换衣生成模块；其中，服装变形的外观流模块用于生成扭曲变形后的服装区域；人体语义预测模块用于预测换衣后的人体语义信息，换衣生成模块依据服装变形服的外观流模型的输出特征、人体语义预测模块的输出特征和人体姿态特征，融合上述各种特征，生成最终的换衣图像。

图3是本发明服装变形的外观流模块结构示意图。服装变形的外观流模块由两个FPN网络和一个卷积神经网络所组成。其中两个FPN网络结构相同。FPN网络由多层卷积神经网络组成，提取到图像的多层特征，从网络不同层抽取不同尺度的特征，即特征金字塔，由图像的浅层信息到提取图像的深层信息所组成。两个FPN网络中，一个的输入为人体图像中与服装无关的特征，输出得到人体与服装无关区域的多级特征；另一FPN网络的输入为平面化服装图像，输出得到平面化服装图像的多级特征。这两个FPN多级特征作为同一个卷积神经网络的输入信息，对其中的每一级特征，利用卷积神经网络，预测当前层原始服装图像特征中，每个像素点的偏移量，利用这个偏移量对当前层服装特征进行扭曲变形操作，然后输入到下一层中，继续预测下一层服装特征的像素点偏移量，继续对这一层的服装特征进行偏移，由高层特征到底层特征，图像的尺寸不断变大，最终即可生成扭曲变形后的服装图像。

人体语义预测模块主要目的是将图像中的人体区域像素点进行分类处理，预测人体换衣后各个区域的语义信息，即预测哪些像素点属于手臂、哪些像素点属于脸部等。人体语义预测模块由一个改进后的U-Net网络组成，所述改进后的U-Net网络的基本结构为残差块，残差块分成两部分：直接映射部分和残差部分。直接映射部分的输入特征不经过卷积操作，直接作为这部分的输出特征。残差部分的输入特征经过一个多层卷积神经网络，其中的损失函数为Relu函数，预测出特征的残差。将这部分信息与直接映射部分的输出进行相加，然后通过一个Relu激活层，作为整个残差块的输出。人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出为所述人体模特图像每个像素点的分类概率，选取概率最大的类别即为该像素点所属的区域类别。

图4是本发明换衣生成模块结构示意图。换衣合成模块采用与人体语义预测模块相同的改进U-Net网络，所不同的是，换衣生成模块并不是预测像素点的类别，而是根据输入的特征，生成最终的换衣图像。该网络的输入特征为所述服装变形的外观流模块的输出特征、人体语义预测模块的输出特征和人体姿态特征。

图5是本发明基于2D图像的虚拟换衣方法的流程图。详述如下。

步骤S1：构建虚拟换衣数据集。本发明使用的用于训练的数据来自于服装购物网站上的展示图像。数据集中包括了不同类别的衣服图像，例如，长袖、短袖、连衣裙等，以及不同性别和不同姿势的模特图像。在构建数据集之前，需要对收集的服装图像和人体模特图像进行特征提取，提取出的特征包括服装图像的前景mask特征、人体图像的语义信息以及人体图像的姿态信息。对于服装的前景mask特征，本发明使用显著性目标检测的方法，利用已有的模型对数据集中的所有服装图像进行前景mask特征提取；对于人体图像的语义信息，本发明利用以LIP数据集进行训练的人体解析模型对图像进行语义信息的提取，同时，由于人体的脖子区域在LIP数据集中并没有被标注，本发明利用图像处理的方式，结合densepose特征，将人体的脖子区域进行了标注；对于人体图像的姿态信息，本发明使用开源的模型对图像进行特征提取，分别提取出人体的openpose特征和densepose特征。本发明所提取的特征示例如图6所示。

步骤S2：设计虚拟换衣模型，具体包括：服装变形的外观流模块、人体语义预测模块和换衣生成模块。

针对服装变形的外观流模块，本发明使用了一种能够自适应学习源图像中哪些像素能够用于生成目标图像的模型，即预测服装图像中所有像素点的偏移量，该偏移量称为服装的外观流。服装变形的外观流模块由两个用于提取图像多级特征的FPN网络和一个用于生成外观流信息的卷积神经网络组成。该外观流模块工作过程分为五个步骤：(1)利用FPN网络生成服装图像和与服装无关的人体图像的多级特征，分别表示为c和p；(2)分别对提取到的多级特征中的每一级特征进行外观流信息生成操作，对上一级卷积神经网络生成的外观流信息f₁进行上采样，将其应用在当前的服装特征图中，对其进行扭曲变形c’；(3)将变形后的特征图c’和当前级别的与人体无关的特征图p进行相关性计算，得到结果r，相关性计算是指计算目标图像中第j个像素点和源图像中第j个像素点周围k个像素点之间的相关性；(4)将该相关性结果r输入到卷积神经网络中，计算第二步中上采样生成的外观流信息的偏差f₁’，将该偏差和上采样得到的外观流f进行相加，得到当前级别的初步外观流信息f₂”；(5)利用该外观流特征f₂”继续对特征图进行扭曲变形得到c”，将扭曲变形后的特征图c”和与服装无关的人体图像特征图p一起输入到卷积神经网络中，输出该特征图外观流的残差f₂’，将其和上一步生成的外观流信息f₂”相加，即为当前级别特征图的外观流信息f₂，输入到下一级网络中。如果下一级网络不为最后一层，就回到步骤(2)中进行重复。损失函数为L₁损失和Vgg感知损失L_p的加权求和：

其中，S_I表示扭曲变形后的服装图像，I表示真实图像，即人体模特中的服装区域，S_mask表示变形后服装的mask特征，I_mask表示模特图像中服装区域的mask特征，

表示Vgg网络中第m层的输出，λ₁、λ_p分别为L₁损失和Vgg感知损失L_p的权重系数。

针对人体语义预测模块，本发明提出了一种能够根据人体姿态特征和平面化服装图像预测人体换衣图像的语义信息的网络。该网络输入为25维度的densepose特征及其对应的mask信息和人体图像中所有与服装无关的区域像素点，结合平面化服装图像，一起作为模块的输入特征，预测换衣后生成图像的人体语义信息分布图。该网络结构由五层U-Net组成，每层的U-Net基本单元由一个三层卷积神经网络所构成的残差块组成。使用的损失函数为交叉熵损失函数：

其中，

表示像素点预测的概率，y_i表示像素点真实的值。

针对换衣生成模块，本发明使用了与人体语义预测模块相同结构的改进U-Net，用于生成换衣后的图像。所不同的是，输入的特征为扭曲变形后的服装图像及其mask特征、与服装无关的人体图像和预测的人体语义信息。该网络作为虚拟换衣最后的图像生成方法，输出特征是三维，为最终的换衣图像。网络所使用的损失函数为L₁损失和Vgg感知损失L_p。

步骤S3：根据虚拟换衣模型设计训练策略。本发明提出的虚拟换衣模型是在Pytorch框架下实现的。在训练和测试阶段,图像在被送入服装变形的外观流模块之前，被调整为192×256，同时生成模型所需要的人体姿态特征、人体语义信息和服装的前景mask特征。服装变形的外观流模型中，FPN的隐藏单元数设置为256，外观流模型的层数设置为五层，即有五级FPN的特征和五级外观流的信息。人体语义预测模块中的U-Net和换衣合成网络的U-Net的隐藏单元数均被设置为256。本发明在所有改进的U-Net中均使用了残差块作为网络的基本模块，其中残差块的残差部分为三层卷积神经网络。该虚拟换衣模型不同阶段使用了不同的损失函数，在服装变形阶段，使用L₁损失和Vgg感知损失进行训练；在基于U-Net的人体语义预测模块中，使用多类交叉熵损失进行训练；在基于U-Net的换衣合成网络中，使用L₁损失、Vgg感知损失L_p和对抗损失L_adv进行训练，损失函数为：

其中，S_p表示生成图像中与服装无关的区域，P表示真实图像中与服装无关的区域，S_I表示生成的换衣图像，I表示真实的模特图像，

表示Vgg网络中第m层的输出，D表示判别器。

整个模型流程分为以上三个阶段，各阶段独立训练，在所有阶段中，都使用Adam优化器进行优化。

图7是换衣图像中的模特和服装图像的实例样例以及本发明方法生成结果的展示图。

本发明的主要贡献有以下三点：(1)提出了基于多特征的换衣图像语义预测的网络，输入包含densepose等人体特征，能够根据输入图像的多种特征预测出换衣后的图像语义信息，减少了原图像中人体身上的服装对结果的影响。(2)提出了一个新的换衣模型，以扭曲后的服装及其mask特征、预测的人体语义信息以及与服装无关的特征作为输入，生成最终的换衣图像，同时在损失函数方面，除了常用的L1损失和Vgg感知损失外，还添加了对抗损失；(3)提出了一个新的基于2D图像的三阶段虚拟换衣方法。该方法将虚拟换衣任务进行拆解，划分为三个阶段，前两个阶段分别生成扭曲变形后的服装图像和换衣后的人体语义信息，最后一个阶段利用前两个阶段生成的特征进行换衣图像的生成。该方法能够有效利用输入图像中的各种特征，使得生成的换衣图像更加真实。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人体语义预测模块，其特征在于，所述人体语义预测模块由一个改进后的U-Net网络组成，所述改进后的U-Net网络是将传统U-Net网络的基本单元改为残差块；所述人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出包括所述人体模特图像每个像素点的分类概率；所述人体姿态特征包括densepose特征；所述人体语义预测模块依据所述分类概率预测换衣后的人体语义信息。

2.如权利要求1所述的人体语义预测模块，其特征在于，所述残差块分为直接映射部分和残差部分；所述直接映射部分的输入特征不经过卷积操作，直接作为这部分的输出特征；所述残差部分的输入特征经过一个多层卷积神经网络，预测出特征的残差；将所述残差部分的输出与所述直接映射部分的输出相加后，通过一个Relu激活层，作为整个残差块的输出。

3.如权利要求2所述的人体语义预测模块，其特征在于，所述多层卷积神经网络的损失函数为Relu函数。

4.一种虚拟换衣模型，其特征在于，所述虚拟换衣模型包括一个服装变形的外观流模块、一个人体语义预测模块和一个换衣生成模块；其中，所述服装变形的外观流模块用于生成扭曲变形后的服装区域；所述人体语义预测模块由一个改进后的U-Net网络组成，所述改进后的U-Net网络是将传统U-Net网络的基本单元改为残差块，所述人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出为所述人体模特图像每个像素点的分类概率，所述人体姿态特征包括densepose特征，所述人体语义预测模块依据所述分类概率预测换衣后的人体语义信息；所述换衣生成模块用于融合得到的各种特征，生成最终的换衣图像。

5.如权利要求4所述的虚拟换衣模型，其特征在于，所述服装变形的外观流模块由两个结构相同的FPN网络和一个卷积神经网络所组成；所述FPN网络中的一个的输入为人体图像中与服装无关的特征，输出得到人体与服装无关区域的多级特征，另一FPN网络的输入为平面化服装图像，输出得到平面化服装图像的多级特征；所述卷积神经网络每一层的输入为所述FPN网络在该层输出的多级特征以及上一层的输出，输出为每一层服装图像中每个素点的偏移量；所述服装变形的外观流模块根据最终输出的偏移量对服装图像进行扭曲变形。

6.如权利要求4所述的虚拟换衣模型，其特征在于，所述换衣生成模块采用与所述人体语义预测模块相同的网络结构，输入为扭曲变形后的服装图像及其mask特征、与服装无关的人体图像、以及预测的语义信息。

7.一种虚拟换衣方法，其特征在于，包括步骤：

A、构建虚拟换衣数据集；

B、设计虚拟换衣模型，所述虚拟换衣模型包括一个服装变形的外观流模块、一个人体语义预测模块和一个换衣生成模块；其中，所述服装变形的外观流模块用于生成扭曲变形后的服装区域；所述人体语义预测模块由一个改进后的U-Net网络组成，所述改进后的U-Net网络是将传统U-Net网络的基本单元改为残差块，所述人体语义预测模块的输入为平面化服装图像和由人体模特图像提取的人体姿态特征，输出为所述人体模特图像每个像素点的分类概率，所述人体姿态特征包括densepose特征，所述人体语义预测模块依据所述分类概率预测换衣后的人体语义信息；所述换衣生成模块用于融合得到的各种特征，生成最终的换衣图像；

C、设计所述虚拟换衣模型的训练策略。

8.如权利要求7所述的虚拟换衣方法，其特征在于，所述步骤A具体为：先获取平面化服装图像和对应的人体模特穿着这件服装的图像；利用人体解析模型对人体模特图像进行语义分割，获取人体模特图像的语义信息；利用人体姿态特征的提取方法分别提取openpose特征和densepose特征；利用显著性目标检测的方法获取平面化服装图像的前景mask特征；将平面化服装图像及其前景mask特征、人体模特图像及其人体姿态特征、人体模特图像的语义信息组合在一起，构建成虚拟换衣数据集。

9.如权利要求7所述的虚拟换衣方法，其特征在于，所述服装变形的外观流模块由两个结构相同的FPN网络和一个卷积神经网络所组成；所述FPN网络中的一个的输入为人体图像中与服装无关的特征，输出得到人体与服装无关区域的多级特征，另一FPN网络的输入为平面化服装图像，输出得到平面化服装图像的多级特征；所述卷积神经网络每一层的输入为所述FPN网络在该层输出的多级特征以及上一层的输出，输出为每一层服装图像中每个素点的偏移量；所述服装变形的外观流模块根据最终输出的偏移量对服装图像进行扭曲变形。

10.如权利要求9所述的虚拟换衣方法，其特征在于，所述服装变形的外观流模块工作过程包括步骤：

(2)分别对提取到的多级特征中的每一级特征进行外观流信息生成操作，对上一级卷积神经网络生成的外观流信息f₁进行上采样，将其应用在当前的服装特征图中，对其进行扭曲变形，得到变形后的特征图c’；

(4)将相关性结果r输入到卷积神经网络中，计算第(2)步中上采样生成的外观流信息的偏差f₁’，将该偏差和上采样得到的外观流f进行相加，得到当前级别的初步外观流信息f₂”；

11.如权利要求7所述的虚拟换衣方法，其特征在于，所述步骤C具体为：在训练和测试阶段，所有图像在被送入服装变形的外观流模块之前，被调整为统一的尺寸M×N，同时生成模型所需要的人体姿态特征、人体语义信息和服装的前景mask特征；在服装变形的外观流模块中，使用L1损失和Vgg感知损失进行训练；在人体语义预测模块中，使用多类交叉熵损失进行训练；在换衣生成模块中，使用L1损失、Vgg感知损失和对抗损失进行训练；在所述虚拟换衣模型中，使用Adam优化器进行优化。