CN117011420A - 一种基于隐扩散模型的虚拟试穿方法 - Google Patents

一种基于隐扩散模型的虚拟试穿方法 Download PDF

Info

Publication number
CN117011420A
CN117011420A CN202310922604.0A CN202310922604A CN117011420A CN 117011420 A CN117011420 A CN 117011420A CN 202310922604 A CN202310922604 A CN 202310922604A CN 117011420 A CN117011420 A CN 117011420A
Authority
CN
China
Prior art keywords
image
user
hidden space
information
space information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310922604.0A
Other languages
English (en)
Inventor
梁秀波
智鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310922604.0A priority Critical patent/CN117011420A/zh
Publication of CN117011420A publication Critical patent/CN117011420A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种基于隐扩散模型的虚拟试穿方法,包括:获取用户二维人物图像和目标服装图像;获取人体姿势关键点信息;分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。本发明能够根据用户二维人物图像和二维目标服装图像自动生成真实的虚拟试穿效果。

Description

一种基于隐扩散模型的虚拟试穿方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于隐扩散模型的虚拟试穿方法。
背景技术
随着互联网技术的发展,网络购物作为一种新兴的购物方式,因其方便快捷而受到广大消费者的喜爱。网购服装也成为了很多消费者的选择,但是通过网络购物消费者无法看到实际的试穿效果,收到货后因为试穿效果不理想而发生换货退货现象,增加了商家与消费者的负担。
近来,各个企业和消费者针对虚拟试穿的关注也在与日俱增,所谓虚拟试穿技术是指利用计算机技术让消费者能够在线上模拟的试穿服装的技术。通过虚拟试穿方法,用户不必真实地穿上衣服,而仅需要将自己的图片提供给系统就能够看到虚拟试穿的效果。这种虚拟试穿方法的应用十分广泛,比如,设计师可利用虚拟试穿系统来辅助服装设计,而随着网络技术的发展,对于普通顾客而言,这种虚拟试穿方法还特别适用于网络购物、虚拟社区等在线交互系统。
基于此,需要一种比较有效的为用户生成高质量虚拟试穿图像的方案。
发明内容
针对上述背景技术中存在的问题,本发明提供一种基于隐扩散模型的虚拟试穿方法,隐扩散模型通过不断迭代去噪,能够生成高质量图像。相比传统虚拟试穿方法,基于隐扩散模型的虚拟试穿方法能够获得更高质量的虚拟试穿结果。
为实现上述目的,本发明采用了以下技术方案:一种基于隐扩散模型的虚拟试穿方法,包括以下步骤:
S1、获取用户二维人物图像和目标服装图像;
S2、获取人体姿势关键点信息;
S3、分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;
S4、结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。
进一步地,所述人体姿势关键点信息为包括头部、手臂、臀部、腿部、足部的相对位置信息的图片或包括头部、手臂、臀部、腿部、足部的相对位置信息的文本信息。
进一步地,所述步骤S2中,所述获取人体姿势关键点信息的方法包括以下两种方式:
方式一:输入所述用户二维人物图像,使用开源的openpose方法,输出人体姿势关键点信息;
方式二:用户自行以文本或图像形式提供人体姿势关键点信息。
进一步地,所述步骤S3具体为:
将所述用户二维人物图像输入自编码器中的编码器中,映射得到所述用户二维人物图像对应的隐空间信息;
将所述目标服装图像输入自编码器中的编码器中,映射得到所述目标服装图像对应的隐空间信息。
进一步地,所述步骤S4包括以下子步骤:
S401、初始化随机噪声Z0
S402、将Z0、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入去噪U-Net网络,并通过注意力机制与去噪U-Net网络各层进行连接,进行第一次去噪,输出第一次去噪的隐空间信息Z1;将Z1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入去噪U-Net网络,并通过注意力机制与去噪U-Net网络各层进行连接,进行第二次去噪,输出第二次去噪的隐空间信息Z2;重复该步骤,进行第N次去噪,得到去除噪声的隐空间信息ZN
S403、将ZN输入自编码器中的解码器,得到对应的虚拟试穿图像。
进一步地,所述神经网络包括去噪U-Net神经网络。
本发明的有益效果如下:
(1)本发明利用人体姿势关键点信息引导虚拟试穿结果的生成,能够基于输入人体姿势关键点信息生成多种姿势的虚拟试穿图片。
(2)本发明的虚拟试穿结果通过扩散模型多步生成,生成的虚拟试穿图片更加接近现实图像。
(3)本发明在隐空间中完成扩散过程,相比直接在像素空间中完成扩散过程,虚拟试穿结果生成速度更快而且不易出现伪影。
附图说明
图1示例性提供一种基于隐扩散模型的虚拟试穿方法的流程图;
图2示例性提供一种记录了人体姿势关键点信息的示意图;
图3示例性提供一种隐扩散模型的示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
此处先对本公开中的若干概念进行介绍。
自编码器,属于一种无监督式学习模型,它基于反向传播算法与最优化方法,包含两个主要的部分:编码器和解码器;编码器的作用是把高维输入编码成低维的隐变量,此处的低维空间也称作隐空间,从而强迫神经网络学习最有信息量的特征;解码器的作用是把隐藏层的隐变量还原到初始维度。
扩散模型,属于一种生成模型,通过训练一个去噪模型,将随机噪声作为输入,逐渐去除其中的噪声,实现从噪声生成目标数据样本。
隐扩散模型,与扩散模型类似,区别在于隐扩散模型通过预训练的自动编码器在隐空间中进行去噪过程,所需的计算资源低于原始扩散模型。
如图1所示,本实施例提供了一种基于隐扩散模型的虚拟试穿方法,所述隐扩散模型如图3所示,由两个组件组成:一个预训练的自编码器以及一个去噪U-Net∈θ。具体而言,编码器ε可以将人像I编码为隐编码z,即z=ε(I)。解码器/>可以从隐编码z重构人像,即/>该虚拟试穿方法包括以下步骤:
S1、获取用户二维人物图像和目标服装图像;
S2、获取人体姿势关键点信息;
所述人体姿势关键点信息为包括头部、手臂、腿部、足部的相对位置信息的图片或者包括头部、手臂、腿部、足部的相对位置信息的文本信息;
S3、分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;
S4、结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。
步骤S1的详细步骤包括:
获取用户上传的全身照片作为用户二维人物图像,记为I;
获取用户在预设示例中选择的服装图像作为目标服装图像,或者获取用户上传的服装图像作为目标服装图像,记为G。
步骤S2的详细步骤包括:
将步骤S1获取的用户二维人物图像,使用开源的openpose方法,得到输出为包含所述二维人物图像的人体姿势关键点信息的图像;
或者用户自行以文本或图像形式输入人体姿势关键点信息。
上述人体姿势关键点信息参与虚拟试穿图像的生成,最终生成的虚拟试穿图像中的人体姿势关键点信息与上述人体姿势关键点信息一致。
如图2所示,包含所述二维人物图像的人体姿势关键点信息的图像,点0到点24分别代表了鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、中臀、右臀、右膝、右脚踝、左臀、左膝、左脚踝、右眼、左眼、右耳、左撇子、左大脚趾、左小脚趾、左脚跟、右大脚趾、右小脚趾、右脚跟的位置。
步骤S3的详细步骤包括:
将所述用户二维人物图像I输入自编码器中的编码器中,编码器ε将部分遮蔽的人像Im=I⊙m编码成隐空间信息Cm,使用公式Cm=ε(Im)。这里,m表示需要遮蔽的部分,如上半身和臂部,映射得到所述用户二维人物图像对应的隐空间信息;
将所述目标服装图像G输入自编码器中的编码器中,即Cg=ε(G),映射得到所述目标服装图像对应的隐空间信息。
如图3所示,步骤S4的详细步骤包括:
S401、初始化随机噪声ZT为高斯分布;
S402、将条件y定义为三个元素的逐通道连接:人像的隐编码Cm、目标服装的隐编码Cg和姿势关键点图像Cp。因此,通过QKV注意力机制将条件y与去噪U-Net网络各层进行连接,进行第一次去噪,输出第一次去噪的隐空间信息ZT-1;将ZT-1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入去噪U-Net网络,并通过注意力机制与去噪U-Net网络各层进行连接,进行第二次去噪,输出第二次去噪的隐空间信息ZT-2;重复该步骤,进行第T次去噪,得到去除噪声的隐空间信息Z0
S403、将Z0输入自编码器中的解码器,通过解码得到虚拟试穿结果Ic。得到对应的虚拟试穿图像;此处的解码器与步骤S3中的编码器是一组自编码器的两部分。
通过上述技术方案,用户不必实际试穿服饰,就可以获取到用户对服饰的试穿效果的虚拟试穿图像。在实际应用中,用户可以利用自己的设备在网购服装时进行虚拟试穿,线下商店也可以在门店中部署虚拟试穿终端,帮助用户快速筛选满意的产品。
尽管上述实施例对本发明做出了详尽的描述,但它仅仅是本发明一部分实施例而不是全部实施例,人们还可以根据本实施例在不经创造性前提下获得其他实施例,这些实施例都属于本发明保护范围。

Claims (6)

1.一种基于隐扩散模型的虚拟试穿方法,其特征在于,包括以下步骤:
S1、获取用户二维人物图像和目标服装图像;
S2、获取人体姿势关键点信息;
S3、分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;
S4、结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。
2.如权利要求1所述的虚拟试穿方法,其特征在于,所述人体姿势关键点信息为包括头部、手臂、臀部、腿部、足部的相对位置信息的图片或包括头部、手臂、臀部、腿部、足部的相对位置信息的文本信息。
3.如权利要求1所述的虚拟试穿方法,其特征在于,所述步骤S2中,所述获取人体姿势关键点信息的方法包括以下两种方式:
方式一:输入所述用户二维人物图像,使用开源的openpose方法,输出人体姿势关键点信息;
方式二:用户自行以文本或图像形式提供人体姿势关键点信息。
4.如权利要求1所述的虚拟试穿方法,其特征在于,所述步骤S3具体为:
将所述用户二维人物图像输入自编码器中的编码器中,映射得到所述用户二维人物图像对应的隐空间信息;
将所述目标服装图像输入自编码器中的编码器中,映射得到所述目标服装图像对应的隐空间信息。
5.如权利要求1所述的虚拟试穿方法,其特征在于,所述步骤S4包括以下子步骤:
S401、初始化随机噪声ZT
S402、将ZT、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入神经网络,并通过注意力机制与神经网络各层进行连接,进行第一次去噪,输出第一次去噪的隐空间信息ZT-1;将ZT-1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,再次输入神经网络,并通过注意力机制与神经网络各层进行连接,进行第二次去噪,输出第二次去噪的隐空间信息ZT-2;重复该步骤,进行第T次去噪,得到去除噪声的隐空间信息Z0
S403、将Z0输入自编码器中的解码器,得到对应的虚拟试穿图像。
6.如权利要求4所述的虚拟试穿方法,其特征在于,所述神经网络包括去噪U-Net神经网络。
CN202310922604.0A 2023-07-26 2023-07-26 一种基于隐扩散模型的虚拟试穿方法 Pending CN117011420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310922604.0A CN117011420A (zh) 2023-07-26 2023-07-26 一种基于隐扩散模型的虚拟试穿方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310922604.0A CN117011420A (zh) 2023-07-26 2023-07-26 一种基于隐扩散模型的虚拟试穿方法

Publications (1)

Publication Number Publication Date
CN117011420A true CN117011420A (zh) 2023-11-07

Family

ID=88575632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310922604.0A Pending CN117011420A (zh) 2023-07-26 2023-07-26 一种基于隐扩散模型的虚拟试穿方法

Country Status (1)

Country Link
CN (1) CN117011420A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575746A (zh) * 2024-01-17 2024-02-20 武汉人工智能研究院 虚拟试穿方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575746A (zh) * 2024-01-17 2024-02-20 武汉人工智能研究院 虚拟试穿方法、装置、电子设备及存储介质
CN117575746B (zh) * 2024-01-17 2024-04-16 武汉人工智能研究院 虚拟试穿方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Yang et al. Semantic parametric reshaping of human body models
Li et al. Dynamic facial asset and rig generation from a single scan.
Ma et al. Real‐Time Facial Expression Transformation for Monocular RGB Video
Song et al. SP-VITON: shape-preserving image-based virtual try-on network
Chu et al. Expressive telepresence via modular codec avatars
CN117011420A (zh) 一种基于隐扩散模型的虚拟试穿方法
Choi et al. Animatomy: An animator-centric, anatomically inspired system for 3d facial modeling, animation and transfer
Yang et al. Controllable sketch-to-image translation for robust face synthesis
Choutas et al. Learning to fit morphable models
Zeng et al. 3D human body reshaping with anthropometric modeling
CN116188912A (zh) 主题图像的图像合成模型的训练方法、装置、介质及设备
Song et al. Unpaired person image generation with semantic parsing transformation
Kaneko et al. DeepEarNet: individualizing spatial audio with photography, ear shape modeling, and neural networks
Li et al. Instant3d: Instant text-to-3d generation
CN117593178A (zh) 一种基于特征引导的虚拟试衣方法
Uk Kim et al. A variational U‐Net for motion retargeting
CN116452291A (zh) 虚拟试衣方法、装置、电子设备及存储介质
Kuriyama et al. Context‐based style transfer of tokenized gestures
Tze et al. Neural sign reenactor: Deep photorealistic sign language retargeting
Tu et al. Acquiring identity and expression information from monocular face image
Motegi et al. Human motion generative model using variational autoencoder
Huang et al. DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion
Qinran et al. Video‐Driven 2D Character Animation
De Guevara et al. Cross-modal Latent Space Alignment for Image to Avatar Translation
Xu et al. FrseGAN: Free‐style editable facial makeup transfer based on GAN combined with transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination