CN113781164B

CN113781164B - 虚拟试衣模型训练方法、虚拟试衣方法和相关装置

Info

Publication number: CN113781164B
Application number: CN202111015751.7A
Authority: CN
Inventors: 叶伟霞; 吴玉英
Original assignee: Shenzhen Fugaokang Electronic Co ltd
Current assignee: Shenzhen Fugaokang Electronic Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2024-03-15
Anticipated expiration: 2041-08-31
Also published as: CN113781164A

Abstract

本申请提供虚拟试衣模型训练方法、虚拟试衣方法和相关装置，其中，虚拟试衣模型包括虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，虚拟试衣方法包括：获取目标用户的三维躯体图像；获取目标衣物的衣物图像和文本描述；将三维躯体图像、目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到目标用户穿戴所述目标衣物的目标三维图像，目标虚拟试衣模型经过虚拟试衣模型训练方法训练得到。由于目标虚拟试衣模型能够生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物的衣物特征一致的试衣图像，使得试衣图像能够较好地反映用户真实试穿该衣物的情况。

Description

虚拟试衣模型训练方法、虚拟试衣方法和相关装置

技术领域

本申请涉及虚拟试衣领域，尤其虚拟试衣模型训练方法、虚拟试衣方法和相关装置。

背景技术

在当今社会中，手机已经成为人们日常生活中不可获取的重要工具，尤其是智能手机的出现，手机几乎可以取代电脑，人们可以用手机购物、聊天、视频等，但这些功能远远不能满足人们日益增长的需求，其中，手机购物功能需要进行完善。

用户可以通过手机在网络购物平台(如淘宝、京东)上购买衣物，但是，由于用户获取的待售衣物的信息一般是二维展示图片，用户无法知道这些衣物穿戴在自己身上的效果，因而可能会导致买到不适合自己的衣物，购物体验较差。

发明内容

本申请提供虚拟试衣模型训练方法、虚拟试衣方法和相关装置，以解决用户无法知道衣物穿戴在自己身上的效果的技术问题。

第一方面，提供一种虚拟试衣模型训练方法，所述虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，所述方法包括：

获取训练样本，所述训练样本包括三维躯体样本图像、所述三维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述；

将所述三维躯体样本图像输入所述第一编码模块，通过所述第一编码模块对所述三维躯体样本图像进行三维特征提取，以得到第一样本特征；

将所述二维衣物样本图像输入所述第二编码模块，通过所述第二编码模块对所述二维衣物样本图像进行二维特征提取，以得到第二样本特征；

将所述二维衣物样本图像的文本描述输入所述第三编码模块，通过所述第三编码模块对所述二维衣物样本图像的文本描述进行语义特征提取，以得到第三样本特征；

将所述第一样本特征、所述第二样本特征以及所述第三样本特征进行特征融合，得到第四样本特征；

将所述第四样本特征输入所述解码模块，通过所述解码模块对所述第四样本特征进行特征还原，以得到三维试衣样本图像；

将所述三维试衣样本图像输入至试衣判别模型，以得到所述三维试衣样本图像的判别结果，所述判别结果用于指示所述三维试衣样本图像为真实试衣图像的可能性；

将所述三维试衣样本图像输入至衣物定位模型，以定位所述三维试衣样本图像中的衣物位置，并根据所述衣物位置截取所述三维试衣样本图像中的衣物，得到衣物迁移样本图像，并将所述衣物迁移样本图像输入至文本描述模型，以得到所述衣物迁移样本图像的文本描述；

将所述三维试衣样本图像输入至人体特征提取模型，以获取所述三维试衣样本图像的三维人体特征，得到第五样本特征；

基于所述第一样本特征和所述第五样本特征、所述二维衣物样本图像和所述衣物迁移样本图像、所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述以及所述判别结果，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参，直至所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型均收敛；

将收敛后的虚拟试衣模型确定为目标虚拟试衣模型。

在该技术方案中，虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，通过获取三维躯体样本图像、二维衣服图像和二维衣物样本图像的文本描述作为训练样本，然后将三维躯体样本图像输入至第一编码模块中进行三维特征提取，从而提取到反映三维躯体样本图像的三维特征的第一样本特征；将二维衣物样本图像输入到第二编码模块中进行二维特征提取，得到反映二维衣物图像的二维特征的第二样本特征；并将二维样本图像的文本描述输入到第三编码模块中进行语义特征提取，得到表达该文本描述的语义的第三样本特征；再将第一样本特征、第二样本特征以及第三样本特征进行融合，得到了融合有三维躯体样本图像的三维特征、二维衣物图像的二维特征以及表达该文本描述的语义的第四特征，再将第四样本特征输入解码模块，并通过解码对第四样本特征进行特征还原，得到三维试衣样本图像，最后将三维试衣样本图像分别输入至试衣判别模型、衣物定位模型、文本描述模型以及人体特征提取模型，并根据模型输出的结果对虚拟试衣模型、试衣判别模型以及文本描述模型进行迭代调参，将收敛后的虚拟试衣模型确定为目标试衣模型。通过对试衣判别模型进行迭代调参，能够使得试衣判别模型具备足够强的鉴别图像真假的能力，从而能够使得虚拟试衣模型生成的三维试衣样本图像能够足够逼真，对虚拟试衣模型进行迭代调参，能够使虚拟试衣模型学习到三维躯体样本图像的三维特征和二维衣物样本图像的二维特征，从而能够确保三维试衣样本图像符合三维躯体样本图像的三维特征和二维衣物图像的二维特征；对文本描述模型进行迭代调参，能够使得文本描述模型输出的三维试衣样本图像的文本描述接近于二维衣物样本图像的文本描述，从而可以弥补二维衣物样本图像在衣物特征上的不足，从而能够使得虚拟试衣模型全面学习到衣物的特征，即使得三维试衣样本图像中的衣物能够更加接近于真实衣物的情况。因此，通过对虚拟试衣模型、试衣判别模型以及文本描述模型进行联合训练，能够使得最后得到的目标虚拟试衣模型具备生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物特征一致的试衣图像的能力，即具有还原真实试穿衣物的情况的能力，进而可以利用目标试衣模型进行虚拟试衣，使得用户能够确定试穿的效果，提升购物体验。

结合第一方面，在一种可能的实现方式中，所述将所述第一样本特征、所述第二样本特征以及所述第三样本特征进行特征融合，得到第四样本特征，包括：将所述第二样本特征与所述第三样本特征进行特征相乘，得到第六样本特征；将所述第一样本特征与所述第六样本特征进行特征拼接，得到所述第四样本特征。

结合第一方面，在一种可能的实现方式中，所述基于所述第一样本特征和所述第五样本特征、所述二维衣物样本图像和所述衣物迁移样本图像、所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述以及所述判别结果，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参，包括：计算所述第一样本特征和所述第五样本特征之间的差距，以得到三维特征损失；计算所述二维衣物样本图像和所述衣物迁移样本图像之间的差距，以得到第一衣物损失；计算所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述之间的差距，以得到第二衣物损失；根据所述判别结果，确定图像对抗损失，所述图像对抗损失用于反映所述试衣判别模型判别试衣图像真假的能力；根据所述三维特征损失、所述第一衣物损失、所述第二衣物损失以及所述图像对抗损失，确定总损失；根据所述总损失，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参。

结合第一方面，在一种可能的实现方式中，上述所述获取训练样本，包括：获取二维躯体样本图像、所述二维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述；将所述二维躯体样本图像输入至预设的三维-生成式对抗网络模型中，以得到所述三维躯体样本图像；将所述三维躯体样本图像、所述二维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述确定为训练样本。

第二方面，提供一种虚拟试衣方法，包括：

获取目标用户的三维躯体图像；

获取目标衣物的衣物图像和文本描述，所述目标衣物为所述目标用户选择的衣物；

将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的目标三维图像，所述目标虚拟试衣模型经过上述第一方面所述的虚拟试衣模型训练方法训练得到。

在该技术方案中，通过获取目标用户的三维躯体图像、用户选择的衣物的衣物图像和文本描述，将目标用户的三维取图图像、用户选择的衣物的衣物图像和文本描述输入至预先训练得到的目标虚拟试衣模型中，由于目标虚拟试衣模型能够生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物的衣物特征一致的试衣图像，使得试衣图像能够较好地反映用户真实试穿该衣物的情况，有助于用户了解试穿衣物的情况，提升购物体验。

结合第二方面，在一种可能的实现方式中，所述获取目标用户的三维躯体图像之后还包括：对所述目标用户的三维躯体图像进行衣物特征掩膜处理，以得到三维躯体掩膜图；所述将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的三维图像，包括：将所述三维躯体掩膜图、所述目标衣物的衣物图像和文本描述输入至所述目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的三维试衣样本图像。

第三方面，提供一种虚拟试衣模型训练装置，所述虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，所述装置包括：

样本获取模块，用于获取训练样本，所述训练样本包括三维躯体样本图像、所述三维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述；

第一提取模块，用于将所述三维躯体样本图像输入所述第一编码模块，通过所述第一编码模块对所述三维躯体样本图像进行三维特征提取，以得到第一样本特征；

第二提取模块，用于将所述二维衣物样本图像输入所述第二编码模块，通过所述第二编码模块对所述二维衣物样本图像进行二维特征提取，以得到第二样本特征；

第三提取模块，用于将所述二维衣物样本图像的文本描述输入所述第三编码模块，通过所述第三编码模块对所述二维衣物样本图像的文本描述进行语义特征提取，以得到第三样本特征；

融合模块，用于将所述第一样本特征、所述第二样本特征以及所述第三样本特征进行特征融合，得到第四样本特征；

还原模块，用于将所述第四样本特征输入所述解码模块，通过所述解码模块对所述第四样本特征进行特征还原，以得到三维试衣样本图像；

判别模块，用于将所述三维试衣样本图像输入至试衣判别模型，以得到所述三维试衣样本图像的判别结果，所述判别结果用于指示所述三维试衣样本图像为真实试衣图像的可能性；

第一输出模块，用于将所述三维试衣样本图像输入至衣物定位模型，以获取所述三维试衣样本图像中的衣物位置，并根据衣物位置截取所述三维试衣样本图像中的衣物，得到衣物迁移样本图像，并将所述衣物迁移样本图像输入至文本描述模型，以得到所述衣物迁移样本图像的文本描述；

第二输出模块，用于将所述三维试衣样本图像输入至人体特征提取模型，以获取所述三维试衣样本图像的三维人体特征，得到第五样本特征；

调参模块，用于基于所述第一样本特征和所述第五样本特征、所述二维衣物样本图像和所述衣物迁移样本图像、所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述以及所述判别结果，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参，直至所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型均收敛；

模型确定模块，用于将收敛后的虚拟试衣模型确定为目标虚拟试衣模型。

第四方面，提供一种虚拟试衣装置，包括：

第一获取模块，用于获取目标用户的三维躯体图像；

第二获取模块，用于获取目标衣物的衣物图像和文本描述，所述目标衣物为所述目标用户选择的衣物；

图像输出模块，用于将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的目标三维图像，所述目标虚拟试衣模型经过上述第一方面所述的虚拟试衣模型训练方法训练得到。

第五方面，提供一种计算机设备，包括存储器以及一个或多个处理器，一个或多个处理器用于执行存储在存储器中的一个或多个计算机程序，一个或多个处理器在执行一个或多个计算机程序时，使得该计算机设备实现上述第一方面的虚拟试衣模型训练方法或上述第二方面的虚拟试衣方法。

第六方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，上述程序指令当被处理器执行时使上述处理器执行上述第一方面的虚拟试衣模型训练方法或上述第二方面的虚拟试衣方法。

本申请可以实现如下技术效果：通过对虚拟试衣模型、试衣判别模型以及文本描述模型进行联合训练，能够使得最后得到的目标虚拟试衣模型具备生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物特征一致的试衣图像的能力，即具有还原真实衣物的情况的能力，进而可以利用目标试衣模型进行虚拟试衣，使得用户能够确定衣物试穿的效果，提升购物体验。

附图说明

图1为本申请实施例提供的虚拟试衣模型的框架结构示意图；

图2为本申请实施例提供的一种虚拟试衣模型训练方法的流程示意图；

图3为本申请实施例提供的三维躯体样本图像、二维衣物样本图像的示意图；

图4为本申请实施例提供的3D-GAN的结构示意图；

图5为本申请实施例提供的整体训练框架图；

图6为本申请实施例提供的一种虚拟试衣方法的流程示意图；

图7是本申请实施例提供的一种虚拟试衣模型训练装置的结构示意图；

图8是本申请实施例提供的一种虚拟试衣装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请的技术方案可适用于各种虚拟试衣的场景，其中，本申请的技术方案可应用于各种支持虚拟试衣功能的应用终端(如手机等)以及支持虚拟试衣功能的各种智能硬件(如智能柜、智能穿衣镜、智能显示屏等)等。

在一种可能的情况中，虚拟试衣的场景具体可以为线上购物场景。其中，当用户通过支持虚拟试衣功能的应用终端在网络购物平台上选定要进行试穿的目标衣物时，应用终端可以确定用户选定的要进行试穿的目标衣物的具体情况(如尺寸、样式等)，并获取用户的躯体情况(如身高、三围等)，然后根据目标衣物的具体情况和用户的躯体情况生成反映用户试穿该衣物的三维图像，以供用户查看，用户可根据三维图像确定试穿的效果，从而可以提高购物体验。

在另一种可能的情况中，虚拟试衣的场景具体也可以为线下购物场景。具体地，当用户在线下商店中确定要试穿的目标衣物后，可以通过线下商店中的智能硬件查找并选定该目标衣物，智能硬件可根据用户选定的目标意图的具体情况，获取用户的躯体情况，然后根据目标衣物的具体情况和用户的躯体情况生成反映用户试穿该衣物的三维图像，以供用户查看。通过在线下购物场景中设置虚拟试衣，可以省去用户试穿衣物时需来回更换衣物的繁琐步骤，提高用户购物体验。

上述可知，不论是线上购物场景还是线下购物场景，虚拟试衣均可以提高用户的购物体验，因此，如何提高虚拟试衣的逼真度，成为购物场景中需考虑的一个问题。为此，本申请提出了一种虚拟试衣模型训练方法，通过构建并训练虚拟试衣模型，以期得到能够较好还原用户真实试穿衣物的情况的目标虚拟试衣模型。

为便于理解，首先介绍本申请构建的虚拟试衣模型的框架原理，参见图1，图1为本申请实施例提供的虚拟试衣模型的框架结构示意图，如图1所示，本申请的虚拟试衣模型10包括第一编码模块101、第二编码模块102、第三编码模块103以及解码模块104。第一编码模块101、第二编码模块102以及第三编码模块103的功能各不相同。第一编码模块101用于对输入至第一编码模块101的三维躯体图像进行三维特征提取，以提取到三维躯体图像中的三维躯体的三维躯体特征，其中，三维躯体特征是指反映人体形态与姿态的特征参数，三维躯体特征可用于进行人体三维重建，具体可包括人体骨骼关键点特征、三维轮廓特征、三维纹理特征等等。第二编码模块102用于对输入至第二编码模块102的二维衣物图像进行二维特征提取，以提取到二维衣物图像中的衣物的二维衣物特征，其中，二维衣物特征是指反映衣物样式的特征参数，具体可包括色彩特征、纹理特征、边缘特征、尺度特征，等等；基于二维衣物特征可原得到衣物图像。第三编码模块103用于对输入至第三编码模块103的文本描述进行语义特征提取，以提取到文本描述的文本编码特征，其中，文本编码特征以向量或矩阵的形式表示文本描述，可用于还原得到文本描述。第一编码模块101、第二编码模块102以及第三编码模块103通过融合层105连接至解码模块104，融合层105将第一编码模块101提取到的三维躯体特征、第二编码模块102提取到的二维衣物特征以及第三编码模块103提到的文本编码特征融合后输出至解码模块104，解码模块104对融合得到的融合特征进行特征还原，以得到反映该融合特征的三维图像。由于融合特征是对第一编码模块101提取到的三维躯体特征、第二编码模块102提取到的二维衣物特征以及第三编码模块103提到的文本编码特征，因此还原得到的三维图像综合了三维躯体图像、二维衣物图像以及文本描述的特征。通过对虚拟试衣模型进行训练，可使虚拟试衣模型学习到三维躯体图像的三维躯体特征、二维衣物图像的衣物特征以及文本描述的语义特征，得到目标虚拟试衣模型，目标虚拟试衣模型能够输出与三维躯体图像的三维躯体特征一致、与二维衣物图像的衣物特征一致，且与文本描述一致的三维试衣图像。

以下具体介绍对虚拟试衣模型进行训练，得到目标虚拟试衣模型的具体过程。

参见图2，图2为本申请实施例提供的一种虚拟试衣模型训练方法的流程示意图，该方法可应用于上述提到的应用终端或智能硬件上，其中，虚拟试衣模型的基本框架结构可参见图1。如图2所示，该方法包括如下步骤：

S201，获取训练样本，训练样本包括三维躯体样本图像、三维躯体样本图像对应的二维衣物样本图像和二维衣物样本图像的文本描述。

S202，将三维躯体样本图像输入第一编码模块，通过第一编码模块对三维躯体样本图像进行三维特征提取，以得到第一样本特征。

S203，将二维衣物样本图像输入第二编码模块，通过第二编码模块对二维衣物样本图像进行二维特征提取，以得到第二样本特征。

S204，将二维衣物样本图像的文本描述输入第三编码模块，通过第三编码模块对二维衣物样本图像的文本描述进行语义特征提取，以得到第三样本特征。

S205，将第一样本特征、第二样本特征以及第三样本特征进行特征融合，得到第四样本特征。

S206，将第四样本特征输入解码模块，通过解码模块对第四样本特征进行特征还原，以得到三维试衣样本图像。

S207，将所述三维试衣样本图像输入至试衣判别模型，以得到所述三维试衣样本图像的判别结果，所述判别结果用于指示所述三维试衣样本图像为真实试衣图像的可能性。

S208，将三维试衣样本图像输入至衣物定位模型，以定位三维试衣样本图像中的衣物位置，并根据衣物位置截取三维试衣样本图像中的衣物，得到衣物迁移样本图像，并将衣物迁移样本图像输入至文本描述模型，以得到衣物迁移样本图像的文本描述。

S209，将三维试衣样本图像输入至人体特征提取模型，以获取三维试衣样本图像的三维人体特征，得到第五样本特征。

S210，基于第一样本特征和第五样本特征、二维衣物样本图像和衣物迁移样本图像、二维衣物样本图像的文本描述和衣物迁移样本图像的文本描述以及判别结果，对虚拟试衣模型、试衣判别模型、文本描述模型进行迭代调参，直至虚拟试衣模型、试衣判别模型、文本描述模型均收敛。

S211，将收敛后的虚拟试衣模型确定为目标虚拟试衣模型。

本申请实施例中，上述步骤S201和步骤S202涉及的三维躯体样本图像是指包含有用户躯体且用作训练样本的三维图像，其中，用户躯体在三维躯体样本图像中以三维的形式体现。示例性地，三维躯体样本图像可以图3中的A所示。上述步骤S201、步骤S203以及步骤S210涉及的二维衣物样本图像是指包含有衣物且用作训练样本的二维图像，其中，二维衣物样本图像中的衣物可以理解为是待试穿的衣物，即需要移植到用户躯体上的衣物。上述步骤S201、步骤S204以及步骤S210涉及的二维衣物样本图像的文本描述是指用于以语言的形式描述二维衣物样本图像中的衣物的文本。其中，二维衣物样本图像的文本描述可包括二维衣物样本图像能直接反映的衣物特征的描述，如衣物的颜色(具体可以为红、黄蓝等)、类型(具体可以为帽子、短裙等)、面料材质、样式等；进一步地，二维衣物样本图像的文本描述还可以包括二维衣物样本图像不能直接反映的衣物特征的描述，如衣物的尺码和与尺码相对应的各种信息(如胸围、衣长、袖长、肩宽)等。例如，二维衣物样本图像如图3中的B所示，则该二维衣物样本图像对应的文本描述可以为{儿童连衣裙，圆领，胸前有黄色蝴蝶结，S码、140厘米，棉麻}。

具体实现中，可通过收集不同性别、不同年龄和不同体型的用户的三维躯体图像，并收集不同类型不同样式的衣物图像以及这些衣物图像的文本描述，将一张三维躯体图像以及，适应于这张三维躯体样本图像的衣物图像和衣物图像的文本描述组成一个训练样本，将多个训练样本组成训练样本集，每进行一次训练，则从训练样本集中随机抽取一个或多个训练样本用于训练。其中，适应于三维躯体样本图像的衣物图像可以是指为三维躯体中的样本图像中的用户躯体设计的衣物的图像，也可以是指适合三维躯体中的样本图像中的用户躯体穿戴的衣物的衣的物图像。

由于不同性别、不同年龄和不同体型的用户的三维躯体图像较难进行大批获取，在一些可能的实施方式中，还可以通过二维转三维的方式，将二维躯体图像转换为三维躯体图像。在一种可行的实施方式中，上述步骤S201具体可以包括如下步骤A1-A3。

A1、获取二维躯体样本图像、二维躯体样本图像对应的二维衣物样本图像和二维衣物样本图像的文本描述。

这里，二维躯体样本图像是指包含有用户躯体且用作训练样本的二维图像，其中，用户躯体在二维躯体样本图像中以二维的形式体现。示例性地，二维躯体样本图像可以如图3中的C所示。有关于二维衣物样本图像和文本描述的定义，可参考前述描述，此处不再赘述。

A2、将二维躯体样本图像输入至预设的三维-生成式对抗网络(3Dgenerativeadversarial network，3D-GAN)模型中，以得到三维躯体样本图像。

其中，3D-GAN模型为一种新的GAN模型，具体地，可参考图4，图4为本申请实施例提供的3D-GAN的结构示意图，如图4所示，3D-GAN可包括图像生成模块b1和图像判别模块b2，图像生成模块b1包括图像编码器b11、第一生成器b12，其中，图像编码模器b11用于对输入至图像编码模器b11的二维图像进行图像编码，得到一个潜在向量Z，潜在向量Z反映了二维图像的二维图像特征；将潜在向量Z输出至第一生成器b12，第一生成器b12由5个容量全卷积层组成，用于将潜在向量Z映射成64*64*64的三维图像G(Z)(即三维图像)；图像判别模块b2用于对立方体图像G(z)进行真假判别，以确定立方体图像G(Z)的真实度。通过预先对3D-GAN进行训练，使得图像生成模块b1与图像判别模块b2之间取得博弈平衡(即损失度最小)，从而可使得图像生成模块b1具备生成三维图像的能力，且使得图像判别模块b2具备判别真假的能力，进而可使得图像生成模块b1能够生成足够逼真的三维图像。

在训练得到3D-GAN后，可以将二维躯体样本图像输入至3D-GAN的图像生成模块b1中，通过图像编码器b11对二维躯体图像样本图像进行图像编码，得到二维躯体样本图像对应的潜在向量，再通过第一生成器b12对二维躯体样本图像对应的潜在向量Z进行映射，从而将二维躯体图像映射至三维空间中，以得到二维躯体样本图像对应的三维图像，以作为三维躯体样本图像。通过基于预设的3D-GAN对二维躯体样本图像进行处理，得到三维躯体样本图像，能够充分保留二维躯体样本图像中的图像细节，保证生成的三维躯体样本图像与真实的三维躯体样本图像无差别，从而可以保证后续训练的准确性。并且，仅通过一张二维图像即可实现三维重建，而无需获取同一对象(指用户)不同角度的二维图像，可以减少数据获取量。

可以理解的是，在得到二维躯体样本图像对应的三维图像后，还可以通过上采样、插值等方式对三维图像进行放大，或，通过下采样、卷积等方式对三维图像进行缩小，从而得到尺寸适应于第一编码模块的三维躯体样本图像，即使得三维躯体样本图像的尺寸与输入至第一编码模块的图像的尺寸相同，从而使得三维躯体样本图像可以输入至第一编码模块中进行三维特征提取。

A3、将三维躯体样本图像、二维躯体样本图像对应的二维衣物样本图像和二维衣物样本图像的文本描述确定为训练样本。

通过二维转三维的方式，将二维躯体样本图像转换为三维躯体样本图像，实现了样本数据的扩增，可以降低数据获取难度。

本申请实施例中，上述步骤S202中涉及的第一编码模块可以参见图1所示的第一编码模块101。第一编码模块可以为任意一种能够实现三维特征提取的编码模块。

在一种可行的实施方式中，第一编码模块可以为三维卷积神经网络。具体地，如图5所示，三维卷积神经网络由依次连接的多个三维特征处理单元101a组成，每个三维特征处理单元101a可由一个三维卷积块101a1、一个激活层101a2和一个三维池化层101a3组成，每个三维卷积块包括多个三维卷积核。三维卷积块用于对输入至三维卷积块的图像进行三维卷积，得到三维卷积特征；激活层用于为三维卷积块输出的三维卷积特征添加非线性特征，以减轻训练过程中梯度消失的问题。池化层用于降低非线性特征的维度大小。

具体地，对于上述步骤S202，可以将三维躯体样本图像输入至该多个三维特征处理单元中的第一个三维特征处理单元，通过该多个三维特征处理单元对三维躯体样本图像进行逐层三维特征提取，然后获取该多个三维特征处理单元中的最后一个三维特征处理单元的输出，从而得到第一样本特征。

三维卷积模块对应的三维卷积公式如下：

其中，为多个三维特征处理单元中的第i个三维特征处理单元中的第n个三维卷积核的输出，F1(x)为第i个三维特征处理单元采用的激活函数，T_(i-1)m(x+u，y+v，z+s)为多个三维特征处理单元中的第(i-1)个三维特征处理单元中的第m个三维卷积核的输出，/>为第i个三维特征处理单元中的第n个三维卷积核对应的稀疏矩阵，，b_in为第i个三维特征处理单元的偏置项，u、v、z为x、y、z方向上的采样步长。i的取值为1～I，I为多个三维特征处理单元的数量。当i＝1时，I_(i-1)m(x+u，y+v，z+s)为三维躯体样本图像；当i＝I时，/>经过池化层池化后即为第一样本特征。

激活层可以采用修正线性(rectified lineaner unit，Relu)函数，即F1(x)＝max(0，x)，使得经过三维卷积模块处理得到的三维卷积特征中大于0的特征被保持，小于0的特征被忽略。

三维池化层可以采用三维最大池化，以提高计算速度。其中，三维最大池化的公式如下：

T(x，y，z)＝max(0≤a≤s1，0≤b≤s2，0≤c≤s3(σ_{x*u+a，y*v+b，z*s+c}))

其中，σ_{x*u+a，y*v+b，z*s+c}为池化层的输入，s1、s2、s3为池化的范围。

通过利用三维卷积神经网络对三维躯体样本图像进行三维特征提取，能够提取到更多的三维躯体样本图像的三维空间特征，从而能够更好地表达三维躯体样本图像的特征。

可选地，在其他实施方式中，第一编码模块也可以有其它形式，例如还可以由多个提取空间曲线特征的空间算子组成。对于第一编码模块的具体结构，本申请不做限制。

本申请实施例中，上述步骤S203设计的第二编码模块可以参见图1所示的第二编码模块102。第二编码模块可以为任意一种能够实现二维特征提取的编码模块。

在一种可行的实施方式中，第二编码模块可以为全卷积神经网络。具体地，如图5所示，全卷积神经网络可以由多个特征提取层102a组成，每个特征提取层102a均可以由卷积层102a1、激活函数层102a2以及实例归一化层102a3组成。卷积层用于对上一个特征提取层输出的特征图进行卷积处理，以得到卷积特征图，激活函数层用于对卷积层输出的卷积特征图进行激活处理，实例归一化层用于对激活处理后的卷积特征图进行归一化处理，以向下一个特征提取层输出特征图。

具体地，对于上述步骤S203，可以将二维衣物样本图像输入至该多个特征提取层中的第一个特征提取层，通过该多个特征提取层对二维衣物样本图像进行逐层特征提取，然后获取该多个特征提取模层中的最后一个特征提取模层的输出，从而得到第二样本特征。

具体地，每一个特征提取层的处理过程可以用如下公式来进行表示：

其中，表示多个特征提取层中的第j个特征提取层输出的第e个特征图；f_d ^(i-1)表示编码模块中的第(j-1)个特征提取层输出的第d个特征图；/>表示多个特征提取层中的第j个特征提取层中的卷积核对应的稀疏矩阵，/>表示第j个特征提取层中的偏置项，将特征图与卷积核进行矩阵相乘求和并加上偏置项，即为对特征图的卷积处理；F2表示第j个特征提取层采用的激活函数，具体地，激活函数可以为PRelu函数；IN表示第j个特征提取层中的实例化处理。通过利用多个特征提取层逐层特征提取，能提取到输入至第二编码模块的图像在各个语义层次上的图像特征，从而可以达到全方位提取输入至特征提取模块的图像的目的，也即可以全方位提取到二维衣物样本图像的特征，从而得到第二样本特征。

本申请实施例中，上述步骤S204中涉及的第三编码模块可以参见图1所示的第三编码模块103。第三编码模块可以为任意一种能够实现文本特征提取的编码模块。

在一种可行的实施方式中，如图5所示，第三编码模块可以包括向量编码模型1031和向量转换模型1032，其中，向量编码模型用于对输入至向量编码模型的文本进行编码，得到编码向量。向量转换模型用于对编码向量进行向量转换(包括升维或降维处理)，得到一个固定长度的文本向量。

具体地，对于上述步骤S204，可以将二维衣物样本图像的文本描述输入第三编码模块，通过第三编码模块中的向量编码模型对该文本描述进行编码，得到该文本描述对应的编码向量；然后通过第三编码模块中的向量转换模型将该文本描述对应的编码向量转换为固定长度的文本向量，从而得到第三样本特征。其中，文本描述对应的编码向量可包括文本描述中的各个字的字向量(以向量的形式表示文本描述中的每个字)、文本描述对应的编码向量还可以包括文本描述中的各个词的词向量(以向量的形式表示文本描述中的每个词)；可选地，文本描述中的各个字的位置向量(以向量的形式表示文本描述中的每个字在文本描述中的位置)、文本描述对应的编码向量还可以包括文本描述中的各个词的位置向量(以向量的形式表示文本中的每个词的位置向量)。通过利用向量编码模型提取文本描述对应的各种向量，并将各种向量组合得到文本描述对应的编码向量，可以更好地表达文本描述的语义特征；通过向量转换模型将文本描述对应的编码向量转换为固定长度的文本向量，能够使得第三样本特征的维度与第二样本特征的维度相匹配，从而能够对第三样本特征和第二样本特征进行融合。

具体实现中，向量编码模型包括但不限于为word2vec模型、基于位置的双向编码(bidirectional encoder representation from transformers，BERT)模型，或者word2vec与BERT模型的组合。向量转换模可以为全连接层。

本申请实施例中，对于上述步骤S205，可以通过图1所示的融合层105对第一样本特征、第二样本特征以及第三样本特征进行融合，以得到第四样本特征。在一种可行的实施方式中，可以通过如下步骤B1-B2进行特征融合。

B1、将第二样本特征与第三样本特征进行特征相乘，得到第六样本特征。

这里，特征相乘是指将第二样本特征对应的特征矩阵/特征向量与第三样本特征对应的特征矩阵/特征向量对应相乘。例如，第二样本特征包括多个特征矩阵，其中一个特征矩阵为M1×N1的特征矩阵1，第三样本特征包括多个特征向量，其中一个特征向量为N1维的向量2，则将特征矩阵1与向量2相乘，可得到一个M1维的向量3，该向量3即为一个第六样本特征。

B2、将第一样本特征与第六样本特征进行特征拼接，得到第四样本特征。

这里，特征拼接，是指将第一样本特征对应的特征矩阵/特征向量与第六样本特征对应的特征矩阵/特征向量按行或者按列拼接起来，拼接后的样本特征即为第四样本特征。例如，第一样本特征和第六样本特征均包括多个特征矩阵，第一样本特征对应的其中一个特征矩阵为M2×N2的特征矩阵4，第六样本特征矩阵对应的其中一个特征为M2×N2的特征矩阵5，则将特征矩阵4与特征矩阵5按列进行拼接，可得到M2×(N2+N3)的特征矩阵6，该特征矩阵6即为第四样本特征。

需要说明的是，上述第一样本特征、第二样本特征、第三样本特征具体对应的是特征矩阵还是特征向量取决于第一编码模块、第二编码模块以及第三编码模块的具体设计，只要使得第一编码模块的输出的第一样本特征的特征维度与第二编码模块输出的第二样本特征的特征维度匹配(即能够进行特征对应相乘)即可，且使得第一样本特征与第二样本特征相乘后得到的第六样本特征的特征维度与第三编码模块输出的第三样本特征的特征维度与第六样本特征的特征维度匹配(即能够进行特征拼接)即可。

通过将第二样本特征与第三样本特征进行特征相乘，得到第六样本特征，能够弥补二维衣物样本图像在衣物特征上的不足，从而能够更好地体现衣物的特征，有助于模型进行更好地学习；通过将第六样本特征与第一样本特征进行特征，得到第四样本特征，可以实现对三维躯体样本图像中躯体的三维特征与衣物的衣物特征的融合。

本申请实施例中，上述步骤S206涉及的解码模块可以参见图1所示的解码模块104。解码模块可以为任意一种能够实现特征还原的解码模块。

在一种可行的实施方式中，解码模块可以为三维反卷积神经网络。具体地，如图5所示，三维反卷积神经网络由依次连接的多个三维还原处理单元104a组成，每个三维还原处理单元104a可由一个三维转置卷积块104a1、一个激活层104a2和一个反池化层104a3组成。三维转置卷积块用于对输入至三维转置卷积块的图像进行三维反卷积处理，以得到三维反卷积还原图，激活层用于对三维转置卷积添加非线性特征；反池化层用于恢复特征。

具体地，对于上述步骤S206，可以将第四样本特征输入至该多个三维还原处理单元中的第一个三维还原处理单元，通过该多个三维还原处理单元对第四样本特征进行逐层三维特征提取，然后获取该多个三维还原处理单元中的最后一个三维还原处理单元中的输出，从而得到三维试衣样本图像。通过利用三维反卷积神经网络对第四样本特征进行特征还原，能够使得还原得到的三维试衣样本图像能够准确再现第四样本特征对应的特征，确保三维试衣样本图像不失真。

可选地，在其他实施方式中，解码模块也可以有其它形式，例如还可以通过线性插值(如双线性插值、双三次插值)等方式对特征进行还原。对于解码模块的具体结构，本申请不做限制。

本申请实施例中，上述步骤S207涉及的试衣判别模型是指用于输入至试衣判别模型的三维图像是否为真实三维图像的模型。对于上述步骤S207，将三维试衣样本图像输入至试衣判别模型的三维试衣样本图像后，试衣判别模型会输出一个判别结果，该判别结果包括了该三维试衣样本图像为真实三维图像的概率和虚假三维图像的概率。

在一种可行的实施方式中，如图5所示，试衣判别模型106由依次连接的多个三维特征还原单元1061和一个全连接层1062组成，其中，相互连接的两个三维特征还原单元中上一个三维特征还原单元的输出为该相互连接的两个三维特征还原单元中下一个三维特征还原单元的输入，最后一个三维特征还原单元与全连接层连接，全连接层用于输出判别结果。其中，每个三维特征还原单元均可以由三维卷积块10611、激活层10612和丢弃层10613组成，丢弃层用于舍弃部分特征，以防止过拟合。通过三维卷积与全连接层相结合的方式，能够使得试衣判别模型基于深层特征判定三维试衣图像的真假，判断能力更强，从而在后续训练过程中能够给予虚拟试衣模型以反馈，以促进虚拟试衣模型生成更为逼真的三维试衣图像。

本申请实施例中，上述步骤S208涉及的衣物定位模型是指用于对三维试衣图像中的衣物位置进行定位的目标检测模型。衣物定位模型可以为任意一种目标检测模型，包括但不限于为单一多框检测(single shot multibox detector，SSD)模型、YOLO(you onlylook once)模型、Faster R-CNN模型等。通过利用标注有衣物位置的三维人体图像对预先对目标检测模型进行训练，使得目标检测模型学习到三维人体图像中的衣物位置，具备定位衣物位置的能力，可得到衣物定位模型。进而可利用衣物定位模型定位三维试衣图像中的衣物位置。

本申请实施例中，上述步骤S208涉及的文本描述模型是指用于基于衣物图像输出衣物图像的文本描述的模型，文本描述模型可以为任意一种生成图像的自然语言描述的模型。

在一种可行的实施方式中，如图5所示，文本描述模型107可以包括图像特征提取器1071和双向长短期记忆(long short term memory，LSTM)网络1072，其中，图像特征提取器用于提取输入至图像特征提取器的图像的图像特征，以得到图像特征向量；双向LSTM网络用于根据图像特征向量进行字词预测，以得到文本描述。具体地，图像特征提取器可以为卷积神经网络，例如为MobileNet。

具体地，对于上述步骤S208，可以将衣物迁移样本图像输入至文本描述模型中的特征提取器，提取得到衣物迁移样本图像的图像特征向量，再将衣物迁移样本图像输入至双向LSTM网络中进行字词预测，从而得到衣物迁移样本图像的文本描述。通过利用双向LSTM对字词进行预测，能够充分利用衣物迁移样本图像的上下文特征，从而能够更准确地确定衣物迁移样本图像的文本描述。

本申请实施例中，上述步骤S209中涉及的人体特征提取模型是指用于提取三维人体图像中的三维人体特征的模型。人体特征提取模型可以为任意一种能能够提取三维特征的模型。在一种可能的情况中，人体特征提取模型的结构可以与前述第一编码模块101的结构相同，与第一编码模块101不同的是，人体特征提取模型为预先训练好的模型。有关于人体特征提取模型的结构和人体特征提取模型对三维试衣样本图像进行处理得到第五样本特征的处理过程，可参考前述第一编码模块的结构和第一编码模块对三维躯体样本图像进行处理得到第一样本特征的处理过程，此处不再赘述。通过将人体特征提取模型设置得与第一编码模块的结构一致，便于后续将第一编码模块提取到的第一样本特征和人体特征提取模型提取得到的第五样本特征进行比较，从而有助于判断第一编码模块的特征提取准确度。

本申请实施例中，上述步骤S210中涉及的迭代调参，是指依据虚拟试衣模型、试衣判别模型以及文本描述模型的期望输出与虚拟试衣模型、试衣判别模型以及文本描述模型的实际输出之间的误差，调整虚拟试衣模型、试衣判别模型以及文本描述模型的参数，使得虚拟试衣模型、试衣判别模型以及文本描述模型的实际输出向虚拟试衣模型、试衣判别模型以及文本描述模型的期望输出逼近。通过多次调整虚拟试衣模型、试衣判别模型以及文本描述模型的参数，使得虚拟试衣模型、试衣判别模型以及文本描述模型的实际输出无限逼近于虚拟试衣模型、试衣判别模型以及文本描述模型的期望输出，则确定虚拟试衣模型、试衣判别模型以及文本描述模型收敛。应理解的是，每进行一次参数调整，则执行一次上述步骤S201～步骤S210，即上述步骤S201～步骤S210的执行次数与参数调整的次数相同。

其中，上述第一样本特征、二维衣物样本图像以及上述二维衣物样本图像的文本描述反映了虚拟试衣模型的期望输出，上述第五样本特征、衣物迁移样本图像以及上述衣物迁移样本图像的文本描述反映了虚拟试衣模型的实际输出；上述二维衣物样本图像的文本描述反映了文本描述模型的期望输出，上述衣物迁移样本图像的文本描述反映了文本描述模型的实际输出；上述判别结果反映了试衣判别模型的实际输出。因此，可以基于第一样本特征和第五样本特征、二维衣物样本图像和衣物迁移样本图像、二维衣物样本图像的文本描述和衣物迁移样本图像的文本描述以及判别结果计算虚拟试衣模型、试衣判别模型以及文本描述模型这三个模型的总损失，以三个模型的总损失来衡量虚拟试衣模型、试衣判别模型以及文本描述模型的期望输出与虚拟试衣模型、试衣判别模型以及文本描述模型的实际输出之间的误差。当三个模型的总损失小于预设阈值或参数调整的次数达到预设次数时，则确定虚拟试衣模型、试衣判别模型以及文本描述模型这三个模型均收敛。

在一种可行的实施方式中，可以通过如下步骤C1-C5计算虚拟试衣模型、试衣判别模型以及文本描述模型这三个模型的总损失。

C1、计算第一样本特征和第五样本特征之间的差距，以得到三维特征损失。

其中，三维特征损失用于衡量虚拟试衣模型在生成三维试衣图像的过程中，三维试衣图像中的三维人体特征与三维躯体样本图像中的三维人体特征之间的差距。三维特征损失越小，则说明三维试衣图像中的三维人体特征与三维躯体样本图像中的三维人体特征之间的差距越小，也即三维试衣图像中的三维人体特征与三维躯体样本图像中的三维人体特征越相似；三维特征损失越大，则说明三维试衣图像中的三维人体特征与三维躯体样本图像中的三维人体特征之间的差距越大，也即三维试衣图像中的三维人体特征与三维躯体样本图像中的三维人体特征越不相似。

在一种具体实现方式中，可以基于均方误差确定三维特征损失。三维特征损失的计算公式可以如下：

其中，L11为三维特征损失，H为三维人体特征的数量(具体可以是指第一编码模块中最后一个特征处理单元中的三维卷积核的数量)，E_h为第h个第一样本特征与第h个第五样本特征之间的均方误差。

在另一种具体实现方式中，也可以基于欧式距离确定三维特征损失。三维特征损失的计算公式还可以如下：

其中，L12为三维特征损失，H为三维人体特征的数量，x_1k为第一样本特征，x_2k为第五样本特征，K为一个第一样本特征与一个第五样本特征的维度数。

进一步地，还可以结合均方误差和欧式距离确定三维特征损失，以更准确地评价三维特征损失。

C2、计算二维衣物样本图像和衣物迁移样本图像之间的差距，以得到第一衣物损失。

其中，第一衣物损失用于衡量虚拟试衣模型在生成三维试衣图像的过程中，三维试衣图像中的衣物与三维躯体样本图像中衣物之间的图像内容差距。第一衣物损失越小，则说明三维试衣图像中的衣物图像内容与三维躯体样本图像中的衣物图像内容之间的差距越小，也即三维试衣图像中的衣物与三维躯体样本图像中的衣物越相似；三维特征损失越大，则明三维试衣图像中的衣物图像内容与三维躯体样本图像中的衣物图像内容之间的差距越大，也即三维试衣图像中的衣物与三维躯体样本图像中的衣物越不相似。

在一种具体实现方式中，可以基于结构相似性(structural similarity index，SSIM)度量确定第一衣物损失。第一衣物损失的计算公式如下：

其中，μ₁为二维衣物样本图像的均值，μ₂为衣物迁移样本图像的均值，α₁为二维衣物样本图像的标准差，α₂为衣物迁移样本图像的标准差，l1和l2为常数。

基于SSIM衡量二维衣物样本图像和衣物迁移样本图像之间的差距，可以全方位的评价二维衣物样本图像和衣物迁移样本图像之间的差距，从而能够更准确地确定第一衣物损失。

可选地，也可以通过其他方式确定第一衣物损失，如基于直方图、互信息等确定二维衣物样本图像和衣物迁移样本图像之间的差距。进一步地，还可以结合多种方式确定二维衣物样本图像和衣物迁移样本图像之间的差距。有关于确定第一衣物损失的方式，本申请不做限制。

C3、计算二维衣物样本图像的文本描述和衣物迁移样本图像的文本描述之间的差距，以得到第二衣物损失。

其中，第二衣物损失用于衡量虚拟试衣模型在生成三维试衣图像的过程中，三维试衣图像中的衣物与三维躯体样本图像中衣物之间的文本内容差距。第二衣物损失越小，则说明三维试衣图像中的衣物文本内容与三维躯体样本图像中的衣物文本内容之间的差距越小，也即三维试衣图像中的衣物与三维躯体样本图像中的衣物越相似；三维特征损失越大，则明三维试衣图像中的衣物文本内容与三维躯体样本图像中的衣物文本内容之间的差距越大，也即三维试衣图像中的衣物与三维躯体样本图像中的衣物越不相似。

具体地，可以基于N-gram语言统计模型计算计算二维衣物样本图像的文本描述和衣物迁移样本图像的文本描述之间的差距，以得到第二衣物损失；可选地，也可以基于术语频率–逆文档频率(term frequency–inverse document frequency，TF-IDF)计算二维衣物样本图像的文本描述和衣物迁移样本图像的文本描述之间的差距，以得到第二衣物损失。有关于确定计算二维衣物样本图像的文本描述和衣物迁移样本图像的文本描述之间的差距的具体方式，本申请不做限定。

C4、根据三维试衣样本图像的判别结果，确定图像对抗损失。

其中，图像对抗损失用于衡量虚拟试衣模型在生成三维试衣图像的过程中，虚拟试衣模型生成真实三维图像的能力和试衣判别模型的判别能力。图像对抗损失越大，虚拟试衣模型生成真实三维图像的能力和试衣判别模型的判别能力越强；图像对抗损失越小，虚拟试衣模型生成真实三维图像的能力和试衣判别模型的判别能力越弱。

在一种具体实现方式，可以通过计算交叉熵以确定图像对抗损失。具体地，图像对抗损失的计算公式可以如下：

L4＝E_x[logD(x)]+E_x,t[log(1-D(G(x,t)))]

其中，L4表示图像对抗损失，D(x)表示试衣判别模型对三维试衣样本图像的判别结果，D(G(x,t))表示输出图像判别模型对三维躯体样本图像的判别结果。即，在计算图像对抗损失的过程中，除了将三维试衣样本图像输入至图像判别模型中，也要将三维躯体样本图像输入至图像判别模型。

C5、根据三维特征损失、第一衣物损失、第二衣物损失以及图像对抗损失，确定总损失。

具体地，可以对三维特征损失、第一衣物损失、第二衣物损失以及图像对抗损失求或者加权求和，得到总损失。通过加权求和的方式，能够进一步优化虚拟试衣模型、试衣判别模型以及文本描述模型训练的方向，进而可以训练得到更准确的虚拟试衣模型。

上述可知，在上述图2对应的技术方案中，虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，通过获取三维躯体样本图像、二维衣服图像和二维衣物样本图像的文本描述作为训练样本，然后将三维躯体样本图像输入至第一编码模块中进行三维特征提取，从而提取到反映三维躯体样本图像的三维特征的第一样本特征；将二维衣物样本图像输入到第二编码模块中进行二维特征提取，得到反映二维衣物图像的二维特征的第二样本特征；并将二维样本图像的文本描述输入到第三编码模块中进行语义特征提取，得到表达该文本描述的语义的第三样本特征；再将第一样本特征、第二样本特征以及第三样本特征进行融合，得到了融合有三维躯体样本图像的三维特征、二维衣物图像的二维特征以及表达该文本描述的语义的第四特征，再将第四样本特征输入解码模块，并通过解码对第四样本特征进行特征还原，得到三维试衣样本图像，最后将三维试衣样本图像分别输入至试衣判别模型、衣物定位模型、文本描述模型以及人体特征提取模型并根据模型输出的结果对虚拟试衣模型、试衣判别模型以及文本描述模型进行迭代调参，将收敛后的虚拟试衣模型确定为目标试衣模型。通过对试衣判别模型进行迭代调参，能够使得试衣判别模型具备足够强的鉴别图像真假的能力，从而能够使得虚拟试衣模型生成的三维试衣样本图像能够足够逼真，对虚拟试衣模型进行迭代调参，能够使虚拟试衣模型学习到三维躯体样本图像的三维特征和二维衣物样本图像的二维特征，从而能够确保三维试衣样本图像符合三维躯体样本图像的三维特征和二维衣物图像的二维特征；对文本描述模型进行迭代调参，能够使得文本描述模型输出的三维试衣样本图像的文本描述接近于二维衣物样本图像的文本描述，从而可以弥补二维衣物样本图像在衣物特征上的不足，从而能够使得虚拟试衣模型全面学习到衣物的特征，即使得三维试衣样本图像中的衣物能够更加接近于真实衣物的情况。因此，通过对虚拟试衣模型、试衣判别模型以及文本描述模型进行联合训练，能够使得最后得到的目标虚拟试衣模型具备生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物特征一致的试衣图像的能力，即具有还原真实试穿衣物的情况的能力，进而可以利用目标试衣模型进行虚拟试衣，使得用户能够确定试穿的效果，提升购物体验。

在通过上述实施例训练得到目标虚拟试衣模型后，可利用目标虚拟试衣模型实现虚拟试衣。参见图6，图6为本申请实施例提供的一种虚拟试衣方法的流程示意图，该方法可应用于上述提到的应用终端或智能硬件上。如图6所示，该方法包括如下步骤：

S301，获取目标用户的三维躯体图像。

这里，目标用户的三维躯体图像是指包含有目标用户的躯体的三维图像。在一种可行的实施方式中，可以基于双目摄像头(包括彩色摄像头和深度摄像头)拍摄目标用户的躯体，分别获取目标用户的平面躯体图像深度躯体图像，从而获取到目标用户的三维躯体图像。在另一种可行的实施方式，也可以通过激光扫描目标用户的躯体，从而获取到目标用户的三维躯体图像。

S302，获取目标衣物的衣物图像和文本描述。

这里，目标衣物是目标用户选择的衣物。具体实现中，可以根据用户选定要试穿的衣物图像，从预设的数据库中获取该用户选定的衣物的文本描述，从而获取到目标衣物的衣物图像和文本描述。

S303，将目标用户的三维躯体图像、目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到目标用户穿戴目标衣物的目标三维图像。

目标虚拟试衣模型通过上述图2实施例中的虚拟试衣模型训练方法训练得到的虚拟试衣模型。有关于目标虚拟试衣模型输出目标三维图像的具体原理，可参考前述图2步骤S202～S206的有关描述，此处不再赘述。

上述可知，在图6对应的实施例中，通过获取目标用户的三维躯体图像、用户选择的衣物的衣物图像和文本描述，将目标用户的三维取图图像、用户选择的衣物的衣物图像和文本描述输入至预先训练得到的目标虚拟试衣模型中，由于目标虚拟试衣模型能够生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物的衣物特征一致的试衣图像，使得试衣图像能够较好地反映用户真实试穿该衣物的情况，有助于用户了解试穿衣物的情况，提升购物体验。

在一些可能的实施例中，为了使目标虚拟试衣模型能够更好地再现目标衣物的衣物特征，在获取到目标用户的三维躯体图像后，还可以对目标用户的三维躯体图像进行衣物特征掩膜处理，以得到三维躯体掩膜图；将三维躯体掩膜图、目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，得到目标用户穿戴目标衣物的三维试衣样本图像。目标虚拟试衣模型基于三维躯体掩膜图、目标衣物的衣物图像和文本描述输出目标三维图像的具体原理与基于目标用户的三维躯体图像、目标衣物的衣物图像和文本描述输出目标三维图像的原理一致。其中，对目标用户的三维躯体图像进行衣物特征掩膜处理是指弱化三维躯体图像中的衣物特征，使得三维躯体掩膜图能更纯粹地反映用户的躯体特征。具体实现中，可以对目标用户的三维躯体图像中衣物特征对应的像素置0，以实现对对目标用户的三维躯体图像进行衣物特征掩膜处理。通过利用三维躯体掩膜图替代目标用户的三维躯体图像的方式，能够使目标虚拟试衣模型更多地关注到目标衣物的衣物图像的特征，从而能够更好地生成目标三维图像，能进一步提升购物体验。

上述介绍了本申请的方法，为了更好地实施本申请的方法，接下来介绍本申请的装置。

参见图7，图7是本申请实施例提供的一种虚拟试衣模型训练装置的结构示意图，虚拟试衣模型训练装置可以为前述提到的应用终端或智能硬件，虚拟试衣模型的结构可参见前述图1，如图7所示，该虚拟试衣模型训练装置40包括：

样本获取模块401，用于获取训练样本，所述训练样本包括三维躯体样本图像、所述三维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述；

第一提取模块402，用于将所述三维躯体样本图像输入所述第一编码模块，通过所述第一编码模块对所述三维躯体样本图像进行三维特征提取，以得到第一样本特征；

第二提取模块403，用于将所述二维衣物样本图像输入所述第二编码模块，通过所述第二编码模块对所述二维衣物样本图像进行二维特征提取，以得到第二样本特征；

第三提取模块404，用于将所述二维衣物样本图像的文本描述输入所述第三编码模块，通过所述第三编码模块对所述二维衣物样本图像的文本描述进行语义特征提取，以得到第三样本特征；

融合模块405，用于将所述第一样本特征、所述第二样本特征以及所述第三样本特征进行特征融合，得到第四样本特征；

还原模块406，用于将所述第四样本特征输入所述解码模块，通过所述解码模块对所述第四样本特征进行特征还原，以得到三维试衣样本图像；

判别模块407，用于将所述三维试衣样本图像输入至试衣判别模型，以得到所述三维试衣样本图像的判别结果，所述判别结果用于指示所述三维试衣样本图像为真实试衣图像的可能性；

第一输出模块408，用于将所述三维试衣样本图像输入至衣物定位模型，以获取所述三维试衣样本图像中的衣物位置，并根据衣物位置截取所述三维试衣样本图像中的衣物，得到衣物迁移样本图像，并将所述衣物迁移样本图像输入至文本描述模型，以得到所述衣物迁移样本图像的文本描述；

第二输出模块409，用于将所述三维试衣样本图像输入至人体特征提取模型，以获取所述三维试衣样本图像的三维人体特征，得到第五样本特征；

调参模块410，用于基于所述第一样本特征和所述第五样本特征、所述二维衣物样本图像和所述衣物迁移样本图像、所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述以及所述判别结果，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参，直至所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型均收敛；

模型确定模块411，用于将收敛后的虚拟试衣模型确定为目标虚拟试衣模型。

在一种可能的设计中，上述融合模块405具体用于：将所述第二样本特征与所述第三样本特征进行特征相乘，得到第六样本特征；将所述第一样本特征与所述第六样本特征进行特征拼接，得到所述第四样本特征。

在一种可能的设计中，上述调参模块410具体用于：计算所述第一样本特征和所述第五样本特征之间的差距，以得到三维特征损失；计算所述二维衣物样本图像和所述衣物迁移样本图像之间的差距，以得到第一衣物损失；计算所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述之间的差距，以得到第二衣物损失；根据所述判别结果，确定图像对抗损失，所述图像对抗损失用于反映所述试衣判别模型判别试衣图像真假的能力；根据所述三维特征损失、所述第一衣物损失、所述第二衣物损失以及所述图像对抗损失，确定总损失；根据所述总损失，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参。

在一种可能的设计中，上样本获取模块401，具体用于：获取二维躯体样本图像、所述二维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述；将所述二维躯体样本图像输入至预设的三维-生成式对抗网络模型中，以得到所述三维躯体样本图像；将所述三维躯体样本图像、所述二维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述确定为训练样本。

需要说明的是，图7对应的实施例中未提及的内容可参见前述图2方法实施例的描述，这里不再赘述。

上述装置，虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，通过获取三维躯体样本图像、二维衣服图像和二维衣物样本图像的文本描述作为训练样本，然后将三维躯体样本图像输入至第一编码模块中进行三维特征提取，从而提取到反映三维躯体样本图像的三维特征的第一样本特征；将二维衣物样本图像输入到第二编码模块中进行二维特征提取，得到反映二维衣物图像的二维特征的第二样本特征；并将二维样本图像的文本描述输入到第三编码模块中进行语义特征提取，得到表达该文本描述的语义的第三样本特征；再将第一样本特征、第二样本特征以及第三样本特征进行融合，得到了融合有三维躯体样本图像的三维特征、二维衣物图像的二维特征以及表达该文本描述的语义的第四特征，再将第四样本特征输入解码模块，并通过解码对第四样本特征进行特征还原，得到三维试衣样本图像，最后将三维试衣样本图像分别输入至试衣判别模型、衣物定位模型、文本描述模型以及人体特征提取模型并根据模型输出的结果对虚拟试衣模型、试衣判别模型以及文本描述模型进行迭代调参，将收敛后的虚拟试衣模型确定为目标试衣模型。上述可知，在图6对应的实施例中，通过获取目标用户的三维躯体图像、用户选择的衣物的衣物图像和文本描述，将目标用户的三维取图图像、用户选择的衣物的衣物图像和文本描述输入至预先训练得到的目标虚拟试衣模型中，由于目标虚拟试衣模型能够生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物的衣物特征一致的试衣图像，使得试衣图像能够较好地反映用户真实试穿该衣物的情况，有助于用户了解试穿衣物的情况，提升购物体验。

图8是本申请实施例提供的一种虚拟试衣装置的结构示意图，虚拟试衣装置可以为前述提到的应用终端或智能硬件；如图8所示，该虚拟试衣装置50包括：

第一获取模块501，用于获取目标用户的三维躯体图像；

第二获取模块502，用于获取目标衣物的衣物图像和文本描述，所述目标衣物为所述目标用户选择的衣物；

图像输出模块503，用于将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的目标三维图像，所述目标虚拟试衣模型经过上述方法例中的虚拟试衣模型训练方法训练得到。

在一种可能的设计中，上述装置50还包括：掩膜模块504，用于对所述目标用户的三维躯体图像进行衣物特征掩膜处理，以得到三维躯体掩膜图；上述图像输出模块503具体用于：将所述三维躯体掩膜图、所述目标衣物的衣物图像和文本描述输入至所述目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的三维试衣样本图像。

需要说明的是，图8对应的实施例中未提及的内容可参见前述图6方法实施例的描述，这里不再赘述。

上述装置，通过获取目标用户的三维躯体图像、用户选择的衣物的衣物图像和文本描述，将目标用户的三维取图图像、用户选择的衣物的衣物图像和文本描述输入至预先训练得到的目标虚拟试衣模型中，由于目标虚拟试衣模型能够生成足够逼真、且三维特征与三维躯体样本图像中的三维特征一致、衣物特征与二维衣物图像对应的衣物的衣物特征一致的试衣图像，使得试衣图像能够较好地反映用户真实试穿该衣物的情况，有助于用户了解试穿衣物的情况，提升购物体验。

参见图9，图9是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备60包括处理器601、存储器602。处理器601连接到存储器602，例如处理器601可以通过总线连接到存储器602。

处理器601被配置为支持该计算机设备50执行上述方法实施例中的方法中相应的功能。该处理器601可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器602用于存储程序代码等。存储器602可以包括易失性存储器(volatilememory，VM)，例如随机存取存储器(random access memory，RAM)；存储器602也可以包括非易失性存储器(non-volatile memory，NVM)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器602还可以包括上述种类的存储器的组合。

在一些可能的情况下，处理器601可以调用所述程序代码以执行以下操作：

将收敛后的虚拟试衣模型确定为目标虚拟试衣模型。

在另一些可能的情况下，处理器601可以调用所述程序代码以执行以下操作：

获取目标用户的三维躯体图像；

将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的目标三维图像，所述目标虚拟试衣模型经过前述方法实施例中的虚拟试衣模型训练方法训练得到。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only memory，ROM)或随机存储记忆体(Random Accessmemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种虚拟试衣模型训练方法，其特征在于，所述虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，所述方法包括：

将收敛后的虚拟试衣模型确定为目标虚拟试衣模型。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一样本特征、所述第二样本特征以及所述第三样本特征进行特征融合，得到第四样本特征，包括：

将所述第二样本特征与所述第三样本特征进行特征相乘，得到第六样本特征；

将所述第一样本特征与所述第六样本特征进行特征拼接，得到所述第四样本特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本特征和所述第五样本特征、所述二维衣物样本图像和所述衣物迁移样本图像、所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述以及所述判别结果，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参，包括：

计算所述第一样本特征和所述第五样本特征之间的差距，以得到三维特征损失；

计算所述二维衣物样本图像和所述衣物迁移样本图像之间的差距，以得到第一衣物损失；

计算所述二维衣物样本图像的文本描述和所述衣物迁移样本图像的文本描述之间的差距，以得到第二衣物损失；

根据所述判别结果，确定图像对抗损失，所述图像对抗损失用于反映所述试衣判别模型判别三维试衣图像真假的能力；

根据所述三维特征损失、所述第一衣物损失、所述第二衣物损失以及所述图像对抗损失，确定总损失；

根据所述总损失，对所述虚拟试衣模型、所述试衣判别模型、所述文本描述模型进行迭代调参。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取训练样本，包括：

获取二维躯体样本图像、所述二维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述；

将所述二维躯体样本图像输入至预设的三维-生成式对抗网络模型中，以得到所述三维躯体样本图像；

将所述三维躯体样本图像、所述二维躯体样本图像对应的二维衣物样本图像和所述二维衣物样本图像的文本描述确定为训练样本。

5.一种虚拟试衣方法，其特征在于，包括：

获取目标用户的三维躯体图像；

将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的目标三维图像，所述目标虚拟试衣模型经过如权利要求1-4任一项所述的虚拟试衣模型训练方法训练得到。

6.根据权利要求5所述的方法，其特征在于，所述获取目标用户的三维躯体图像之后还包括：

对所述目标用户的三维躯体图像进行衣物特征掩膜处理，以得到三维躯体掩膜图；

所述将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的三维图像，包括：

将所述三维躯体掩膜图、所述目标衣物的衣物图像和文本描述输入至所述目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的三维试衣样本图像。

7.一种虚拟试衣模型训练装置，其特征在于，所述虚拟试衣模型包括第一编码模块、第二编码模块、第三编码模块和解码模块，所述装置包括：

8.一种虚拟试衣装置，其特征在于，包括：

第一获取模块，用于获取目标用户的三维躯体图像；

图像输出模块，用于将所述三维躯体图像、所述目标衣物的衣物图像和文本描述输入至目标虚拟试衣模型中，以得到所述目标用户穿戴所述目标衣物的目标三维图像，所述目标虚拟试衣模型经过如权利要求1-4任一项所述的虚拟试衣模型训练方法训练得到。

9.一种计算机设备，其特征在于，包括存储器以及一个或多个处理器，所述一个或多个处理器用于执行存储在所述存储器中的一个或多个计算机程序，所述一个或多个处理器在执行所述一个或多个计算机程序时，使得所述计算机设备实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。