CN117011420A - 一种基于隐扩散模型的虚拟试穿方法 - Google Patents
一种基于隐扩散模型的虚拟试穿方法 Download PDFInfo
- Publication number
- CN117011420A CN117011420A CN202310922604.0A CN202310922604A CN117011420A CN 117011420 A CN117011420 A CN 117011420A CN 202310922604 A CN202310922604 A CN 202310922604A CN 117011420 A CN117011420 A CN 117011420A
- Authority
- CN
- China
- Prior art keywords
- image
- user
- hidden space
- information
- space information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000009792 diffusion process Methods 0.000 title claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 5
- 230000036544 posture Effects 0.000 description 21
- 210000002683 foot Anatomy 0.000 description 4
- 210000002414 leg Anatomy 0.000 description 4
- 210000003423 ankle Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000000454 fifth toe Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000001255 hallux Anatomy 0.000 description 2
- 210000001624 hip Anatomy 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种基于隐扩散模型的虚拟试穿方法,包括:获取用户二维人物图像和目标服装图像;获取人体姿势关键点信息;分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。本发明能够根据用户二维人物图像和二维目标服装图像自动生成真实的虚拟试穿效果。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于隐扩散模型的虚拟试穿方法。
背景技术
随着互联网技术的发展,网络购物作为一种新兴的购物方式,因其方便快捷而受到广大消费者的喜爱。网购服装也成为了很多消费者的选择,但是通过网络购物消费者无法看到实际的试穿效果,收到货后因为试穿效果不理想而发生换货退货现象,增加了商家与消费者的负担。
近来,各个企业和消费者针对虚拟试穿的关注也在与日俱增,所谓虚拟试穿技术是指利用计算机技术让消费者能够在线上模拟的试穿服装的技术。通过虚拟试穿方法,用户不必真实地穿上衣服,而仅需要将自己的图片提供给系统就能够看到虚拟试穿的效果。这种虚拟试穿方法的应用十分广泛,比如,设计师可利用虚拟试穿系统来辅助服装设计,而随着网络技术的发展,对于普通顾客而言,这种虚拟试穿方法还特别适用于网络购物、虚拟社区等在线交互系统。
基于此,需要一种比较有效的为用户生成高质量虚拟试穿图像的方案。
发明内容
针对上述背景技术中存在的问题,本发明提供一种基于隐扩散模型的虚拟试穿方法,隐扩散模型通过不断迭代去噪,能够生成高质量图像。相比传统虚拟试穿方法,基于隐扩散模型的虚拟试穿方法能够获得更高质量的虚拟试穿结果。
为实现上述目的,本发明采用了以下技术方案:一种基于隐扩散模型的虚拟试穿方法,包括以下步骤:
S1、获取用户二维人物图像和目标服装图像;
S2、获取人体姿势关键点信息;
S3、分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;
S4、结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。
进一步地,所述人体姿势关键点信息为包括头部、手臂、臀部、腿部、足部的相对位置信息的图片或包括头部、手臂、臀部、腿部、足部的相对位置信息的文本信息。
进一步地,所述步骤S2中,所述获取人体姿势关键点信息的方法包括以下两种方式:
方式一:输入所述用户二维人物图像,使用开源的openpose方法,输出人体姿势关键点信息;
方式二:用户自行以文本或图像形式提供人体姿势关键点信息。
进一步地,所述步骤S3具体为:
将所述用户二维人物图像输入自编码器中的编码器中,映射得到所述用户二维人物图像对应的隐空间信息;
将所述目标服装图像输入自编码器中的编码器中,映射得到所述目标服装图像对应的隐空间信息。
进一步地,所述步骤S4包括以下子步骤:
S401、初始化随机噪声Z0;
S402、将Z0、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入去噪U-Net网络,并通过注意力机制与去噪U-Net网络各层进行连接,进行第一次去噪,输出第一次去噪的隐空间信息Z1;将Z1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入去噪U-Net网络,并通过注意力机制与去噪U-Net网络各层进行连接,进行第二次去噪,输出第二次去噪的隐空间信息Z2;重复该步骤,进行第N次去噪,得到去除噪声的隐空间信息ZN;
S403、将ZN输入自编码器中的解码器,得到对应的虚拟试穿图像。
进一步地,所述神经网络包括去噪U-Net神经网络。
本发明的有益效果如下:
(1)本发明利用人体姿势关键点信息引导虚拟试穿结果的生成,能够基于输入人体姿势关键点信息生成多种姿势的虚拟试穿图片。
(2)本发明的虚拟试穿结果通过扩散模型多步生成,生成的虚拟试穿图片更加接近现实图像。
(3)本发明在隐空间中完成扩散过程,相比直接在像素空间中完成扩散过程,虚拟试穿结果生成速度更快而且不易出现伪影。
附图说明
图1示例性提供一种基于隐扩散模型的虚拟试穿方法的流程图;
图2示例性提供一种记录了人体姿势关键点信息的示意图;
图3示例性提供一种隐扩散模型的示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
此处先对本公开中的若干概念进行介绍。
自编码器,属于一种无监督式学习模型,它基于反向传播算法与最优化方法,包含两个主要的部分:编码器和解码器;编码器的作用是把高维输入编码成低维的隐变量,此处的低维空间也称作隐空间,从而强迫神经网络学习最有信息量的特征;解码器的作用是把隐藏层的隐变量还原到初始维度。
扩散模型,属于一种生成模型,通过训练一个去噪模型,将随机噪声作为输入,逐渐去除其中的噪声,实现从噪声生成目标数据样本。
隐扩散模型,与扩散模型类似,区别在于隐扩散模型通过预训练的自动编码器在隐空间中进行去噪过程,所需的计算资源低于原始扩散模型。
如图1所示,本实施例提供了一种基于隐扩散模型的虚拟试穿方法,所述隐扩散模型如图3所示,由两个组件组成:一个预训练的自编码器以及一个去噪U-Net∈θ。具体而言,编码器ε可以将人像I编码为隐编码z,即z=ε(I)。解码器/>可以从隐编码z重构人像,即/>该虚拟试穿方法包括以下步骤:
S1、获取用户二维人物图像和目标服装图像;
S2、获取人体姿势关键点信息;
所述人体姿势关键点信息为包括头部、手臂、腿部、足部的相对位置信息的图片或者包括头部、手臂、腿部、足部的相对位置信息的文本信息;
S3、分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;
S4、结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。
步骤S1的详细步骤包括:
获取用户上传的全身照片作为用户二维人物图像,记为I;
获取用户在预设示例中选择的服装图像作为目标服装图像,或者获取用户上传的服装图像作为目标服装图像,记为G。
步骤S2的详细步骤包括:
将步骤S1获取的用户二维人物图像,使用开源的openpose方法,得到输出为包含所述二维人物图像的人体姿势关键点信息的图像;
或者用户自行以文本或图像形式输入人体姿势关键点信息。
上述人体姿势关键点信息参与虚拟试穿图像的生成,最终生成的虚拟试穿图像中的人体姿势关键点信息与上述人体姿势关键点信息一致。
如图2所示,包含所述二维人物图像的人体姿势关键点信息的图像,点0到点24分别代表了鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、中臀、右臀、右膝、右脚踝、左臀、左膝、左脚踝、右眼、左眼、右耳、左撇子、左大脚趾、左小脚趾、左脚跟、右大脚趾、右小脚趾、右脚跟的位置。
步骤S3的详细步骤包括:
将所述用户二维人物图像I输入自编码器中的编码器中,编码器ε将部分遮蔽的人像Im=I⊙m编码成隐空间信息Cm,使用公式Cm=ε(Im)。这里,m表示需要遮蔽的部分,如上半身和臂部,映射得到所述用户二维人物图像对应的隐空间信息;
将所述目标服装图像G输入自编码器中的编码器中,即Cg=ε(G),映射得到所述目标服装图像对应的隐空间信息。
如图3所示,步骤S4的详细步骤包括:
S401、初始化随机噪声ZT为高斯分布;
S402、将条件y定义为三个元素的逐通道连接:人像的隐编码Cm、目标服装的隐编码Cg和姿势关键点图像Cp。因此,通过QKV注意力机制将条件y与去噪U-Net网络各层进行连接,进行第一次去噪,输出第一次去噪的隐空间信息ZT-1;将ZT-1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入去噪U-Net网络,并通过注意力机制与去噪U-Net网络各层进行连接,进行第二次去噪,输出第二次去噪的隐空间信息ZT-2;重复该步骤,进行第T次去噪,得到去除噪声的隐空间信息Z0;
S403、将Z0输入自编码器中的解码器,通过解码得到虚拟试穿结果Ic。得到对应的虚拟试穿图像;此处的解码器与步骤S3中的编码器是一组自编码器的两部分。
通过上述技术方案,用户不必实际试穿服饰,就可以获取到用户对服饰的试穿效果的虚拟试穿图像。在实际应用中,用户可以利用自己的设备在网购服装时进行虚拟试穿,线下商店也可以在门店中部署虚拟试穿终端,帮助用户快速筛选满意的产品。
尽管上述实施例对本发明做出了详尽的描述,但它仅仅是本发明一部分实施例而不是全部实施例,人们还可以根据本实施例在不经创造性前提下获得其他实施例,这些实施例都属于本发明保护范围。
Claims (6)
1.一种基于隐扩散模型的虚拟试穿方法,其特征在于,包括以下步骤:
S1、获取用户二维人物图像和目标服装图像;
S2、获取人体姿势关键点信息;
S3、分别将用户二维人物图像和目标服装图像的信息映射至隐空间,得到用户二维人物图像隐空间信息和目标服装图像的隐空间信息;
S4、结合人体姿势关键点信息、用户二维人物图像的隐空间信息和目标服装图像的隐空间信息生成虚拟试穿图像。
2.如权利要求1所述的虚拟试穿方法,其特征在于,所述人体姿势关键点信息为包括头部、手臂、臀部、腿部、足部的相对位置信息的图片或包括头部、手臂、臀部、腿部、足部的相对位置信息的文本信息。
3.如权利要求1所述的虚拟试穿方法,其特征在于,所述步骤S2中,所述获取人体姿势关键点信息的方法包括以下两种方式:
方式一:输入所述用户二维人物图像,使用开源的openpose方法,输出人体姿势关键点信息;
方式二:用户自行以文本或图像形式提供人体姿势关键点信息。
4.如权利要求1所述的虚拟试穿方法,其特征在于,所述步骤S3具体为:
将所述用户二维人物图像输入自编码器中的编码器中,映射得到所述用户二维人物图像对应的隐空间信息;
将所述目标服装图像输入自编码器中的编码器中,映射得到所述目标服装图像对应的隐空间信息。
5.如权利要求1所述的虚拟试穿方法,其特征在于,所述步骤S4包括以下子步骤:
S401、初始化随机噪声ZT;
S402、将ZT、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,输入神经网络,并通过注意力机制与神经网络各层进行连接,进行第一次去噪,输出第一次去噪的隐空间信息ZT-1;将ZT-1、用户二维人物图像对应的隐空间信息、目标服装图像对应的隐空间信息和人体姿势关键点信息在通道维度组合,再次输入神经网络,并通过注意力机制与神经网络各层进行连接,进行第二次去噪,输出第二次去噪的隐空间信息ZT-2;重复该步骤,进行第T次去噪,得到去除噪声的隐空间信息Z0;
S403、将Z0输入自编码器中的解码器,得到对应的虚拟试穿图像。
6.如权利要求4所述的虚拟试穿方法,其特征在于,所述神经网络包括去噪U-Net神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310922604.0A CN117011420A (zh) | 2023-07-26 | 2023-07-26 | 一种基于隐扩散模型的虚拟试穿方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310922604.0A CN117011420A (zh) | 2023-07-26 | 2023-07-26 | 一种基于隐扩散模型的虚拟试穿方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011420A true CN117011420A (zh) | 2023-11-07 |
Family
ID=88575632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310922604.0A Pending CN117011420A (zh) | 2023-07-26 | 2023-07-26 | 一种基于隐扩散模型的虚拟试穿方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011420A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575746A (zh) * | 2024-01-17 | 2024-02-20 | 武汉人工智能研究院 | 虚拟试穿方法、装置、电子设备及存储介质 |
-
2023
- 2023-07-26 CN CN202310922604.0A patent/CN117011420A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575746A (zh) * | 2024-01-17 | 2024-02-20 | 武汉人工智能研究院 | 虚拟试穿方法、装置、电子设备及存储介质 |
CN117575746B (zh) * | 2024-01-17 | 2024-04-16 | 武汉人工智能研究院 | 虚拟试穿方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Semantic parametric reshaping of human body models | |
Li et al. | Dynamic facial asset and rig generation from a single scan. | |
Ma et al. | Real‐Time Facial Expression Transformation for Monocular RGB Video | |
Song et al. | SP-VITON: shape-preserving image-based virtual try-on network | |
Chu et al. | Expressive telepresence via modular codec avatars | |
CN117011420A (zh) | 一种基于隐扩散模型的虚拟试穿方法 | |
Choi et al. | Animatomy: An animator-centric, anatomically inspired system for 3d facial modeling, animation and transfer | |
Yang et al. | Controllable sketch-to-image translation for robust face synthesis | |
Choutas et al. | Learning to fit morphable models | |
Zeng et al. | 3D human body reshaping with anthropometric modeling | |
CN116188912A (zh) | 主题图像的图像合成模型的训练方法、装置、介质及设备 | |
Song et al. | Unpaired person image generation with semantic parsing transformation | |
Kaneko et al. | DeepEarNet: individualizing spatial audio with photography, ear shape modeling, and neural networks | |
Li et al. | Instant3d: Instant text-to-3d generation | |
CN117593178A (zh) | 一种基于特征引导的虚拟试衣方法 | |
Uk Kim et al. | A variational U‐Net for motion retargeting | |
CN116452291A (zh) | 虚拟试衣方法、装置、电子设备及存储介质 | |
Kuriyama et al. | Context‐based style transfer of tokenized gestures | |
Tze et al. | Neural sign reenactor: Deep photorealistic sign language retargeting | |
Tu et al. | Acquiring identity and expression information from monocular face image | |
Motegi et al. | Human motion generative model using variational autoencoder | |
Huang et al. | DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion | |
Qinran et al. | Video‐Driven 2D Character Animation | |
De Guevara et al. | Cross-modal Latent Space Alignment for Image to Avatar Translation | |
Xu et al. | FrseGAN: Free‐style editable facial makeup transfer based on GAN combined with transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |