CN116205786A

CN116205786A - 一种基于文本驱动图像生成的虚拟试衣方法

Info

Publication number: CN116205786A
Application number: CN202211655193.5A
Authority: CN
Inventors: 张振辉; 李吉平; 王栋; 梁云
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-06-02

Abstract

本发明的目的是提供一种基于文本驱动图像生成的虚拟试衣方法，属于虚拟现实技术领域，该方法包括：获取用户二维人物图像和用户服装需求文本；将用户二维人物图像转化为人体姿势估计图；提取用户服装需求文本中的服装形状属性和服装纹理属性；根据人体姿势估计图和服装形状属性生成人体解析图；结合人体解析图和服装纹理属性生成虚拟试衣图像。本发明能够自动生成真实的虚拟试穿效果，解决现有虚拟试衣的交互性不合理及试衣效果不真实自然的问题。

Description

一种基于文本驱动图像生成的虚拟试衣方法

技术领域

本发明涉及虚拟现实技术领域，尤其涉及一种基于文本驱动图像生成的虚拟试衣方法。

背景技术

随着互联网技术的发展，互联网普及率越来越高，网络购物作为一种新兴的购物方式，因其方便快捷而受到广大消费者的喜爱。目前，网上购物通常是通过给用户展示商品的照片来给用户提供参考，用户仅能通过照片来判断商品是否符合自己，经常出现网购回来的衣物不理想而发生换货退货现象，增加了交易成本，给消费者带来不便。

近来，利用虚拟现实的内容迅速兴起而成为下一代内容。尤其，各个企业和消费者针对虚拟试衣的关注也在与日俱增，所谓虚拟试衣技术是指利用计算机技术让购买衣服的用户在线上能够模拟自己试穿衣物的技术。

通过虚拟试穿方法，用户不必真实地穿上衣服，而仅需要将自己的图片提供给系统就能够看到虚拟试穿的效果。这种虚拟试穿方法的应用十分广泛，比如，设计师可利用虚拟试穿系统来辅助服装设计，而随着网络技术的发展，对于普通顾客而言，这种虚拟试穿方法还特别适用于网络购物、虚拟社区等在线交互系统。

发明内容

本发明的目的是提供一种基于文本驱动图像生成的虚拟试衣方法，该方法能够自动生成真实的虚拟试穿效果，解决现有虚拟试衣的交互性不合理及试衣效果不真实自然的问题。

本发明提出一种基于文本驱动图像生成的虚拟试衣方法，包括：

获取用户二维人物图像和用户服装需求文本；

将用户二维人物图像转化为人体姿势估计图；

提取用户服装需求文本中的服装形状属性和服装纹理属性；

根据人体姿势估计图和服装形状属性生成人体解析图；

结合人体解析图和服装纹理属性生成虚拟试衣图像。

获取用户二维人物图像和用户服装需求文本包括：

用户二维人物图像是用户上传的全身照片；

用户服装需求文本是用户在预设示例中选择，示例包括：

上衣的长度：无袖、短袖、中袖和长袖；

下装：三点式短裤，短裤、剪裁裤和长裤；

领口的形状：V字型、方型、圆领、高领和翻领；

是否有饰品：是或无；

特殊的服装：连衣裙，连衫裤；

对于描述衣服纹理的文本，衣服纹理包含颜色和面料两个类别，示例包括：

衣服的颜色类别：花色、图案、条纹、纯色、格子、色块和混合色；

衣服的面料类别：牛仔布、棉布、皮革、毛衣、针织、薄纱和其他材料；

将用户二维人物图像转化为人体姿势估计图包括：

对用户二维真实人物图像使用开源的Desepose方法分别进行姿态估计及图像语义分割得到人体姿态图P。

提取用户服装需求文本中的服装形状属性包括：

将用户输入描述服装形状的文本转化为一组服装的形状属性{a₁,…,a_i,…a_k},其中，a_i∈{0,1,…,C_i},C_i是属性a_i的类别序号；

将形状属性输入属性嵌入模型得到形状属性表示f_shape＝Fusion([E₁(a₁),E₂(a₂),…,E_i(a_i),…,E_k(a_k)]),其中，E_i(·)是对a_i的属性嵌入表示，Fusion(·)则融合了k个属性嵌入表示，[·]表示的是连接操作；

根据人体姿势估计图和服装形状属性生成人体解析图包括：

将人体穿衣区域P和形状属性表示f_shape输入到使用交叉损失训练的姿势-解析网络模型中，该模型由一个编码器Enc和一个解码器Dec组成，其中，编码器Enc的第i层操作定义如下：

其中，B(·)是空间广播操作，使f_shape被广播为具有与

相同的空间大小，同时使/>

解码器Dec在第i层的操作定义为：

是最终编码后的特征，被输入完全卷积层，进行最终的解析预测，得到人体穿衣解析图。

结合人体解析图和服装纹理属性生成虚拟试衣图像包括：

从预先训练好的层次化纹理感知编码库寻找匹配度高的纹理特征，在编码库中，将编码器提取的服装特征，根据他们的纹理属性，划分到不同的编码本中，以获得量化特征，不同的纹理属性分别被建立了不同的编码本；

纹理特征的提取并合成分为两个部分：粗糙纹理和精细纹理，为了从编码库中采样纹理索引，使用一个多层混合采样器，进行纹理特征的采样，根据人体穿衣解析图中的划分区域，将匹配到的纹理特征以纹理索引的形式，分别分配到不同的采样层中，初步合成一个带有粗糙纹理的人体图；

对于精细纹理，使用一个前馈编码本索引预测网络对精细纹理进行生成预测，最后，将精细纹理与粗糙纹理合成得到最终的图像。

建立层次化纹理感知编码库包括：

使用现有的分层的VQVAE模型对服装库中的服装图像进行特征提取，将不同的属性类别建立了不同的编码本，每个编码本含有一个粗略级纹理索引T_code,其中属性类别分为服装材质和颜色两种。

进行纹理特征的采样包括：

使用基于扩展变形器的多层混合采样器向层次化纹理感知编码库中进行采样，在多层混合采样器引入mixture-of-experts的思想，多层混合采样器的输入由三部分组成：编码本索引T_code，带标记的人体分割掩码图T_seg，带标记的纹理掩码T_tex，变形器的多头注意力对所有标记进行如下计算：

f＝＝MHAEmb_code(T_code)+Emb_seg(T_seg)+Emb_tex(T_tex))

其中，Emb_code,Emb_seg,Emb_tex是可被训练的嵌入表示。

根据从用户输入确定的文本信息，使用一个索引分配器将多头注意力提取的特征被路由到不同的组别中，每一个组负责单个纹理的标记，最终的编码索引由所有组别的输出组成，当对纹理特征采样时，开始初始化，并使用新采样的标记进行对人体穿衣解析图迭代填充，直到被目标纹理信息填满，并最后在层混合采样器中被解码为相应的粗糙级纹理图像。

本发明通过用户文本输入自定义选择服装对象以合成虚拟试衣图像，合理地提高了虚拟试衣方法的交互性，并且对试穿者的输入图像没有限制，试穿者可采用随意的穿着和姿势，输入图像也可以是易于采集的普通二维图像，也不需要获取试穿者的真实身材数据，所实现的试穿效果图可达到照片级别的真实性，本发明还支持多种人体姿势和常见的多种衣服形状、纹理样式，更利于用户便捷的试衣体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，标示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的流程图；

图2为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的试穿效果示意图；

图3为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的适用体姿图；

图4为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的语言模型结构图；

图5为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的属性嵌入模型结构图；

图6为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的姿势-解析网络模型结构图。

图7为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的层次化纹理感知编码库结构图

图8为本发明提出的一种基于文本驱动图像生成的虚拟试衣方法的虚拟试衣方法的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一种该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

S100,获取用户二维人物图像和用户服装需求文本；

S200,将用户二维人物图像转化为人体姿势估计图；

S300,提取用户服装需求文本中的服装形状属性和服装纹理属性；

S400,根据人体姿势估计图和服装形状属性生成人体解析图；

S500,结合人体解析图和服装纹理属性生成虚拟试衣图像。

S100获取用户二维人物图像和用户服装需求文本包括：

用户二维人物图像是用户上传的全身照片；

用户服装需求文本是用户在预设示例中选择，示例包括：

上衣的长度：无袖、短袖、中袖和长袖；

下装：三点式短裤，短裤、剪裁裤和长裤；

领口的形状：V字型、方型、圆领、高领和翻领；

是否有饰品：是或无；

特殊的服装：连衣裙，连衫裤；

用户上传的照片可以是任意姿势，用户自由度高，对于服装选择范围广，人机互动性强。

S200将用户二维人物图像转化为人体姿势估计图包括：

对所述二维真实人物图像进行姿势估计及标记得到人体姿势估计图。在本发明实施例中，获取所述二维真实人物图像之后，通过姿态检测模型对所述二维真实人物图像进行姿势估计得到人体姿势估计图。其中，所述姿态检测模型为现有的姿态检测模型，即Densepose姿态检测模型。

S300提取用户服装需求文本中的服装形状属性包括：

S400根据人体姿势估计图和服装形状属性生成人体解析图包括：

其中，B(·)是空间广播操作，使f_shape被广播为具有与

相同的空间大小，同时使/>

解码器Dec在第i层的操作定义为：

S500结合人体解析图和服装纹理属性生成虚拟试衣图像包括：

合成试衣效果图。所述的层次化纹理感知编码库中不同级别的编码本之间存在一定的隐式关系。在本发明实施例中，使用一个基于编码器-解码器网络的索引预测网络，根据已采样的粗糙级纹理特征，对精细纹理进行预测获取。将获取的精细纹理特征填充在上述的粗糙级纹理图像中，得到最终的合成试衣效果图。

建立层次化纹理感知编码库包括：

进行纹理特征的采样包括：

其中，Emb_code,Emb_seg,Emb_tex是可被训练的嵌入表示。

根据本发明示例性实施例的虚拟试穿系统和方法对试穿者的输入图像没有限制，试穿者可采用随意的穿着和姿势，输入图像也可以是易于采集的普通二维图像。在根据本发明示例性实施例的虚拟试衣系统和方法中，可自动合成试穿效果图，不需要获取试穿者的真实身材数据，所实现的试穿效果图可达到照片级别的真实性。此外，根据本发明示例性实施例的虚拟试穿系统和方法有效地解决了基于图像进行虚拟试穿时经常面临的部位遮挡问题，并通过独特的部位划分、部位匹配和效果图合成处理，保证了试穿系统运行的速度和显示的效果。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，包括：

获取用户二维人物图像和用户服装需求文本；

将用户二维人物图像转化为人体姿势估计图；

提取用户服装需求文本中的服装形状属性和服装纹理属性；

根据人体姿势估计图和服装形状属性生成人体解析图；

结合人体解析图和服装纹理属性生成虚拟试衣图像。

2.根据权利要求1所述的一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，所述获取用户二维人物图像和用户服装需求文本包括：

用户二维人物图像是用户上传的全身照片；

用户服装需求文本是用户在预设示例中选择，示例包括：

上衣的长度：无袖、短袖、中袖和长袖；

下装：三点式短裤，短裤、剪裁裤和长裤；

领口的形状：V字型、方型、圆领、高领和翻领；

是否有饰品：是或无；

特殊的服装：连衣裙，连衫裤；

衣服的面料类别：牛仔布、棉布、皮革、毛衣、针织、薄纱和其他材料。

3.根据权利要求1所述的一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，所述将用户二维人物图像转化为人体姿势估计图包括：

4.根据权利要求1所述的一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，所述提取用户服装需求文本中的服装形状属性包括：

将形状属性输入属性嵌入模型得到形状属性表示f_shape＝Fusion([E₁(a₁),E₂(a₂),…,E_i(a_i),…,E_k(a_k)]),其中，E_i(·)是对a_i的属性嵌入表示，Fusion(·)则融合了k个属性嵌入表示，[·]表示的是连接操作。

5.根据权利要求1所述的一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，所述根据人体姿势估计图和服装形状属性生成人体解析图包括：

其中，B(·)是空间广播操作，使f_shape被广播为具有与

相同的空间大小，同时使

/>

解码器Dec在第i层的操作定义为：

6.根据权利要求1所述的一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，所述结合人体解析图和服装纹理属性生成虚拟试衣图像包括：

7.根据权利要求6所述的一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，所述建立层次化纹理感知编码库包括：

8.根据权利要求6所述的一种基于文本驱动图像生成的虚拟试衣方法，其特征在于，所述进行纹理特征的采样包括：

f＝MHA(Emb_code(T_code)+Emb_seg(T_seg)+Emb_tex(T_tex))

其中，Emb_code,Emb_seg,Emb_tex是可被训练的嵌入表示。

根据从用户输入确定的文本信息，使用一个索引分配器将多头注意力提取的特征被路由到不同的组别中，每一个组负责单个纹理的标记，最终的编码索引由所有组别的输出组成，当对纹理特征采样时，开始初始化，并使用

新采样的标记进行对人体穿衣解析图迭代填充，直到被目标纹理信息填满，

并最后在层混合采样器中被解码为相应的粗糙级纹理图像。