CN117011420A

CN117011420A - 一种基于隐扩散模型的虚拟试穿方法

Info

Publication number: CN117011420A
Application number: CN202310922604.0A
Authority: CN
Inventors: 梁秀波; 智鑫
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-11-07

Abstract

本发明公开一种基于隐扩散模型的虚拟试穿方法，包括：获取用户二维人物图像和目标服装图像；获取人体姿势关键点信息；分别将用户二维人物图像和目标服装图像的信息映射至隐空间，得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息；结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。本发明能够根据用户二维人物图像和二维目标服装图像自动生成真实的虚拟试穿效果。

Description

一种基于隐扩散模型的虚拟试穿方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于隐扩散模型的虚拟试穿方法。

背景技术

随着互联网技术的发展，网络购物作为一种新兴的购物方式，因其方便快捷而受到广大消费者的喜爱。网购服装也成为了很多消费者的选择，但是通过网络购物消费者无法看到实际的试穿效果，收到货后因为试穿效果不理想而发生换货退货现象，增加了商家与消费者的负担。

近来，各个企业和消费者针对虚拟试穿的关注也在与日俱增，所谓虚拟试穿技术是指利用计算机技术让消费者能够在线上模拟的试穿服装的技术。通过虚拟试穿方法，用户不必真实地穿上衣服，而仅需要将自己的图片提供给系统就能够看到虚拟试穿的效果。这种虚拟试穿方法的应用十分广泛，比如，设计师可利用虚拟试穿系统来辅助服装设计，而随着网络技术的发展，对于普通顾客而言，这种虚拟试穿方法还特别适用于网络购物、虚拟社区等在线交互系统。

基于此，需要一种比较有效的为用户生成高质量虚拟试穿图像的方案。

发明内容

针对上述背景技术中存在的问题，本发明提供一种基于隐扩散模型的虚拟试穿方法，隐扩散模型通过不断迭代去噪，能够生成高质量图像。相比传统虚拟试穿方法，基于隐扩散模型的虚拟试穿方法能够获得更高质量的虚拟试穿结果。

为实现上述目的，本发明采用了以下技术方案：一种基于隐扩散模型的虚拟试穿方法，包括以下步骤：

S1、获取用户二维人物图像和目标服装图像；

S2、获取人体姿势关键点信息；

S3、分别将用户二维人物图像和目标服装图像的信息映射至隐空间，得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息；

S4、结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。

进一步地，所述人体姿势关键点信息为包括头部、手臂、臀部、腿部、足部的相对位置信息的图片或包括头部、手臂、臀部、腿部、足部的相对位置信息的文本信息。

进一步地，所述步骤S2中，所述获取人体姿势关键点信息的方法包括以下两种方式：

方式一：输入所述用户二维人物图像，使用开源的openpose方法，输出人体姿势关键点信息；

方式二：用户自行以文本或图像形式提供人体姿势关键点信息。

进一步地，所述步骤S3具体为：

将所述用户二维人物图像输入自编码器中的编码器中，映射得到所述用户二维人物图像对应的隐空间信息；

将所述目标服装图像输入自编码器中的编码器中，映射得到所述目标服装图像对应的隐空间信息。

进一步地，所述步骤S4包括以下子步骤：

S401、初始化随机噪声Z₀；

S402、将Z₀、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合，输入去噪U-Net网络，并通过注意力机制与去噪U-Net网络各层进行连接，进行第一次去噪，输出第一次去噪的隐空间信息Z₁；将Z₁、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合，输入去噪U-Net网络，并通过注意力机制与去噪U-Net网络各层进行连接，进行第二次去噪，输出第二次去噪的隐空间信息Z₂；重复该步骤，进行第N次去噪，得到去除噪声的隐空间信息Z_N；

S403、将Z_N输入自编码器中的解码器，得到对应的虚拟试穿图像。

进一步地，所述神经网络包括去噪U-Net神经网络。

本发明的有益效果如下：

(1)本发明利用人体姿势关键点信息引导虚拟试穿结果的生成，能够基于输入人体姿势关键点信息生成多种姿势的虚拟试穿图片。

(2)本发明的虚拟试穿结果通过扩散模型多步生成，生成的虚拟试穿图片更加接近现实图像。

(3)本发明在隐空间中完成扩散过程，相比直接在像素空间中完成扩散过程，虚拟试穿结果生成速度更快而且不易出现伪影。

附图说明

图1示例性提供一种基于隐扩散模型的虚拟试穿方法的流程图；

图2示例性提供一种记录了人体姿势关键点信息的示意图；

图3示例性提供一种隐扩散模型的示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

此处先对本公开中的若干概念进行介绍。

自编码器，属于一种无监督式学习模型，它基于反向传播算法与最优化方法，包含两个主要的部分：编码器和解码器；编码器的作用是把高维输入编码成低维的隐变量，此处的低维空间也称作隐空间，从而强迫神经网络学习最有信息量的特征；解码器的作用是把隐藏层的隐变量还原到初始维度。

扩散模型，属于一种生成模型，通过训练一个去噪模型，将随机噪声作为输入，逐渐去除其中的噪声，实现从噪声生成目标数据样本。

隐扩散模型，与扩散模型类似，区别在于隐扩散模型通过预训练的自动编码器在隐空间中进行去噪过程，所需的计算资源低于原始扩散模型。

如图1所示，本实施例提供了一种基于隐扩散模型的虚拟试穿方法，所述隐扩散模型如图3所示，由两个组件组成：一个预训练的自编码器以及一个去噪U-Net∈_θ。具体而言，编码器ε可以将人像I编码为隐编码z，即z＝ε(I)。解码器/>可以从隐编码z重构人像，即/>该虚拟试穿方法包括以下步骤：

S1、获取用户二维人物图像和目标服装图像；

S2、获取人体姿势关键点信息；

所述人体姿势关键点信息为包括头部、手臂、腿部、足部的相对位置信息的图片或者包括头部、手臂、腿部、足部的相对位置信息的文本信息；

步骤S1的详细步骤包括：

获取用户上传的全身照片作为用户二维人物图像，记为I；

获取用户在预设示例中选择的服装图像作为目标服装图像，或者获取用户上传的服装图像作为目标服装图像，记为G。

步骤S2的详细步骤包括：

将步骤S1获取的用户二维人物图像，使用开源的openpose方法，得到输出为包含所述二维人物图像的人体姿势关键点信息的图像；

或者用户自行以文本或图像形式输入人体姿势关键点信息。

上述人体姿势关键点信息参与虚拟试穿图像的生成，最终生成的虚拟试穿图像中的人体姿势关键点信息与上述人体姿势关键点信息一致。

如图2所示，包含所述二维人物图像的人体姿势关键点信息的图像，点0到点24分别代表了鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、中臀、右臀、右膝、右脚踝、左臀、左膝、左脚踝、右眼、左眼、右耳、左撇子、左大脚趾、左小脚趾、左脚跟、右大脚趾、右小脚趾、右脚跟的位置。

步骤S3的详细步骤包括：

将所述用户二维人物图像I输入自编码器中的编码器中，编码器ε将部分遮蔽的人像I_m＝I⊙m编码成隐空间信息C_m，使用公式C_m＝ε(I_m)。这里，m表示需要遮蔽的部分，如上半身和臂部，映射得到所述用户二维人物图像对应的隐空间信息；

将所述目标服装图像G输入自编码器中的编码器中，即C_g＝ε(G)，映射得到所述目标服装图像对应的隐空间信息。

如图3所示，步骤S4的详细步骤包括：

S401、初始化随机噪声Z_T为高斯分布；

S402、将条件y定义为三个元素的逐通道连接：人像的隐编码C_m、目标服装的隐编码C_g和姿势关键点图像C_p。因此，通过QKV注意力机制将条件y与去噪U-Net网络各层进行连接，进行第一次去噪，输出第一次去噪的隐空间信息Z_T-1；将Z_T-1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合，输入去噪U-Net网络，并通过注意力机制与去噪U-Net网络各层进行连接，进行第二次去噪，输出第二次去噪的隐空间信息Z_T-2；重复该步骤，进行第T次去噪，得到去除噪声的隐空间信息Z₀；

S403、将Z₀输入自编码器中的解码器，通过解码得到虚拟试穿结果I_c。得到对应的虚拟试穿图像；此处的解码器与步骤S3中的编码器是一组自编码器的两部分。

通过上述技术方案，用户不必实际试穿服饰，就可以获取到用户对服饰的试穿效果的虚拟试穿图像。在实际应用中，用户可以利用自己的设备在网购服装时进行虚拟试穿，线下商店也可以在门店中部署虚拟试穿终端，帮助用户快速筛选满意的产品。

尽管上述实施例对本发明做出了详尽的描述，但它仅仅是本发明一部分实施例而不是全部实施例，人们还可以根据本实施例在不经创造性前提下获得其他实施例，这些实施例都属于本发明保护范围。

Claims

1.一种基于隐扩散模型的虚拟试穿方法，其特征在于，包括以下步骤：

S1、获取用户二维人物图像和目标服装图像；

S2、获取人体姿势关键点信息；

2.如权利要求1所述的虚拟试穿方法，其特征在于，所述人体姿势关键点信息为包括头部、手臂、臀部、腿部、足部的相对位置信息的图片或包括头部、手臂、臀部、腿部、足部的相对位置信息的文本信息。

3.如权利要求1所述的虚拟试穿方法，其特征在于，所述步骤S2中，所述获取人体姿势关键点信息的方法包括以下两种方式：

4.如权利要求1所述的虚拟试穿方法，其特征在于，所述步骤S3具体为：

5.如权利要求1所述的虚拟试穿方法，其特征在于，所述步骤S4包括以下子步骤：

S401、初始化随机噪声Z_T；

S402、将Z_T、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合，输入神经网络，并通过注意力机制与神经网络各层进行连接，进行第一次去噪，输出第一次去噪的隐空间信息Z_T-1；将Z_T-1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合，再次输入神经网络，并通过注意力机制与神经网络各层进行连接，进行第二次去噪，输出第二次去噪的隐空间信息Z_T-2；重复该步骤，进行第T次去噪，得到去除噪声的隐空间信息Z₀；

S403、将Z₀输入自编码器中的解码器，得到对应的虚拟试穿图像。

6.如权利要求4所述的虚拟试穿方法，其特征在于，所述神经网络包括去噪U-Net神经网络。