CN117057976B - 一种基于局部外观流的虚拟试衣方法 - Google Patents
一种基于局部外观流的虚拟试衣方法 Download PDFInfo
- Publication number
- CN117057976B CN117057976B CN202310982956.5A CN202310982956A CN117057976B CN 117057976 B CN117057976 B CN 117057976B CN 202310982956 A CN202310982956 A CN 202310982956A CN 117057976 B CN117057976 B CN 117057976B
- Authority
- CN
- China
- Prior art keywords
- clothing
- image
- module
- warp
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000013140 knowledge distillation Methods 0.000 claims description 8
- 238000004821 distillation Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000000750 progressive effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000004088 simulation Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000036544 posture Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 229920002449 FKM Polymers 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于局部外观流的虚拟试衣方法,属于虚拟现实与仿真技术领域。解决了在具有挑战性的输入情况下依然能够获得合理的翘曲部分和语义正确的完整服装,缓解了服装翘曲过程中纹理失真的技术问题。其技术方案为:包括以下步骤:S1、数据处理模块;S2、教师模块中包含多尺度特征提取模块、翘曲模块和生成模块;S3、学生模块中包含与教师模块相同的三个子模块。本发明的有益效果为:本发明在不需要人体解析的情况下,通过提取局部外观流信息,对服装进行局部翘曲变形,有效保持服装上的纹理特征和变形后的衣服细节,减少教师模块中生成图像的伪影,提高生成结果的质量和真实度。
Description
技术领域
本发明涉及虚拟现实与仿真技术领域,尤其涉及一种基于局部外观流的虚拟试衣方法。
背景技术
虚拟试衣技术分为二维和三维两种形式,其中二维虚拟试衣是通过对用户和目标服装图像进行处理合成试衣图像的过程。与三维虚拟试衣相比,二维虚拟试衣具备部署简便、易于推广等优势,这使得二维虚拟试衣技术在实际应用中更具可行性,容易被大众所接受。因此,二维虚拟试衣技术在服装领域的应用前景广阔。目前的基于图像的虚拟试衣方法可以通过是否依赖解析器信息可以分为基于解析器和无解析器两类。
基于解析器的虚拟试衣技术利用人体解析信息来实现试衣效果。它通过提取人体图像的关键点、和姿势等特征,将提取的服装特征与解析得到的人体特征进行匹配和合成,生成最终的试衣图像。然而,当人体解析图质量低或存在误差时,例如CP-VTON和ClothFlow等,其试穿结果会显得不自然。
为了解决这个问题,基于无解析器的虚拟试衣PF-AFN中引入了教师模块,该网络在经过预处理的图像上能够生成真实的服装翘曲图像。学生模块与教师模块具有相同的架构,但没有使用解析器和姿态估计技术,直接模仿教师模块的试衣能力。然而,由于教师模块仍然基于解析器,因此生成的图像会出现较大的伪影,进而影响到学生模块的试衣结果。
如何解决上述技术问题为本发明面临的课题。
发明内容
本发明的目的在于提供一种基于局部外观流的虚拟试衣方法,在不需要人体解析的情况下,通过提取局部外观流信息,对服装进行局部翘曲变形,对生成对抗网络的训练进行优化和改进,有效保持服装上的纹理特征和变形后的衣服细节,缓解服装纹理失真问题,减少教师模块中生成图像的伪影,提高生成结果的质量和真实度,优化学生模块的算法和训练过程,通过引入知识蒸馏使其能够更好地模仿教师模块的试衣能力,从而提升试穿结果的理想程度,即使在挑战性姿势的情况下,如交叉手臂、手臂遮挡身体,也能够处理较大的错位和变形,有助于用户感受高质量的虚拟试衣效果。
为了实现上述发明目的,本发明采用技术方案具体为:一种基于局部外观流的虚拟试衣方法,包括以下步骤:
S1:数据处理模块,将人体图像、穿着的原服装图像和选择的目标服装进行处理,分别获得人体语义分割图、人体关键点、遮盖服装区域的人体图像掩膜和服装解析结果;
S2:教师模块,该模块包含三个子模块,分别是多尺度特征提取模块、翘曲模块和生成模块;
首先通过卷积编码器提取服装和人体图像的金字塔深度特征表示,将完整的服装分为三部分,并分别估计局部流来翘曲不同的部分,引入全局服装解析,将局部翘曲组合成完整的翘曲服装,最后基于改进的Res-Unet网络生成试穿图像即指导知识;此外,将经过翘曲的原服装图像作为知识蒸馏送入学生模块中进行约束,实现更好的翘曲服装;
S3:学生模块,该模块与教师模块结构相似,但是输入只有指导知识和服装图像,在知识蒸馏的指导下,经过翘曲模块对服装进行变形,最终与指导知识一起馈送到生成模块中实现虚拟试穿。
所述步骤S1的具体内容为:首先,选择人体图像和目标服装;然后,将人体图像I进行处理,分别获得人体语义分割图Idp、人体关键点Ip、遮盖服装区域的人体图像掩膜MP并将其组合成p*,穿着的原服装图像C和选择的目标服装G获得服装解析结果Cs和Gs。
所述步骤S2的具体步骤如下:教师模块包含三个子模块,分别是多尺度特征提取模块、翘曲模块和生成模块。
S2.1:首先,将卷积编码器Ec和Ep来提取两个分支的金字塔深度特征表示,分别用表示服装图像,/>表示人体图像;
S2.2:将完整的服装分为三个局部部分即左/右袖和躯干区域,并分别估计三个局部流/>来翘曲不同的部分,由于同一部分内变形的多样性较小,局部流能够准确处理翘曲并生成语义正确的扭曲结果。
此外,设计了一个全局的服装解析,将局部翘曲组合成完整的翘曲服装Gwarp,这种改进的方法能够提供更逼真的变形效果。
具体地,渐进式外观流估计由N个流网络FN组成用于估计N个多尺度局部流,首先最高级金字塔层级上提取gN和pN,馈送道流网络FN-1层级中进行逐像素匹配估计初始局部流然后将/>和N-1尺度上的特征输入到FN-2,即下一个层级中细化获取流继续上述步骤将/>和N-2尺度上的特征输入到FN-3获取细化流,直到最终输出通过N个FN网络逐渐细化估计的外观流,以捕捉服装图像和人物图像之间的长距离对应关系。
具体地,FN网络中包含粗/细流估计模块,粗流估计模块,首先复制服装特征{gi}为利用来自上一层流网络的局部流{fin}将/>生成三个局部翘曲特征/>并集成:
其中,corr代表FlowNet2中的相关运算,然后分别送入三个卷积层以估计相应的局部流{f'},最后与{fin}相加生成细化的局部流{fout},细流估计模块具有相同结构只是输出{fout}变成输入{fin},corr运算变成直接拼接。
为了更好地保留衣服的特性并准确预测人物图像和衣服图像之间的外观流,在模型中引入了二阶光滑约束,该约束旨在鼓励相邻外观流的共线性,更好地捕捉到相邻像素之间的变化趋势,从而提高外观流的平滑性和准确性,从而降低变形结果的不自然程度,减少非自然的变形,并保持衣服特性的完整性。
其中,fi t表示第i个尺度的流图上的第t个点,表示第t个点周围的水平邻域、垂直邻域和两个对角线邻域的集合,/>是广义的Charbonnier损失函数。
将最后层级预测的局部外观流用于将服装局部翘曲变形:
然后,组成完整的翘曲服装Gwarp,但是,将局部翘曲组合成完整的翘曲服装过程中直接组装局部翘曲可能导致重叠区域出现不同的伪影,所以使用局部流信息和变形特征来估计全局服装解析S'g以确保每个像素点准确地分配到特定的翘曲部分,从而消除重叠伪影并获得更精确的解析结果。
具体地,利用来自局部的精细流{fin}将生成三个局部翘曲特征/>通过卷积层进行融合,得到全局翘曲特征/>将其与输入特征gpi连接并经过卷积层来估计全局服装解析结果S'g。
S2.3:将变形的衣服Gwarp、人体姿势估计和遮盖服装区域的人体图像连接起来作为输入,采用改进的Res-Unet结构,保留服装细节并生成试穿图像,将其作为导师知识
基于改进的Res-Unet结构的生成模块,它是由多个残差块组成,包含下采样、上采样和基于跨层融合模块跳跃连接,下采样操作通过卷积和池化层来提取图像的低级特征,并减小特征图的尺寸,上采样操作通过反卷积和上采样层来恢复图像的细节,并增加特征图的尺寸,跳跃连接将下采样和上采样的特征图进行融合,以保留多尺度的语义信息,但是采用简单的拼接忽略了编码器和解码器之间的语义歧义,通过引入跨层融合模块,对特征进行加权处理,增强重要特征的影响,消除不必要的特征,减少了底层和高层信息融合过程中的语义歧义。
具体地,跨层融合模块将浅层编码器和深层解码器的特征拼接起来并使用全局平均池化来压缩特征图的尺寸,通过卷积层增强特征信息的交流,然后通过softmax进行特征通道的加权,用残差连接复用来自解码器的特征获取更丰富的信息。
S3具体步骤如下;
在学生模块中,同样包括三个子模块,分别是多尺度特征提取模块、翘曲模块和生成模块
S3.1将指导知识和原服装图像作为翘曲模块输入。其中指导知识为教师网络中随机选择的一个不同的服装图像生成试穿图像原服装图像就是教师网络中人体图像原本的衣服C。将服装图像翘曲变形的过程与教师网络相似,只是输入不同,通过卷积编码器提取服装图像C和指导知识/>的金字塔深度特征,在知识蒸馏的指导下先局部变形再组成完整翘曲服装C* warp。
S3.2生成模块将变形的服装图像C* warp和人体图像连接起来作为输入,馈送到生成模块中输出图像CI。生成器模块具有和教师模块相同改进的Res-UNet结构,通过最小化损失函数/>来优化生成模块和翘曲模块的参数:
其中,是L1损失,/>是感知损失,其中φ是特征映射,用于促进试穿图像CI与真实图像I之间的相似性。因为学生网络的试穿输出就是教师网络的输入,使用真实图像进行约束可以获得更好的结果。
由于教师模块中以人体解析结果、人体姿势估计和服装图像作为输入,学生网络的输入仅有指导知识和服装图像。因此,基于解析器的方法对准确的解析结果依赖较强,如果解析结果不准确,会导致错误的指导信息。
为了解决该问题,引入蒸馏损失来有效地指导学生模块中人物编码器的学习,而无需依赖解析器进行特征提取,从而提高虚拟试穿过程中语义信息和预测结果的质量和准确性。通过最小化指导特征与生成特征之间的差异,蒸馏损失定义为:
其中,Gpi和Cpi是从人体特征表示p*和指导知识中第i层级尺度中通过人物编码器Ep提取的特征;Gfi和Cfi分别表示在第i层级尺度中预测的流。
与现有技术相比,本发明的技术效果为:
1、本发明能先将人体图像、穿着的原服装图像和选择的目标服装进行处理,获得人体语义分割图、人体关键点、遮盖服装区域的人体图像掩膜和服装解析结果。
2、发明学习不同服装部件的不同局部变形流,从而能够处理具有挑战性的输入,通过卷积编码器提取服装和人体图像的金字塔深度特征表示,将完整的服装分为三部分,并分别估计局部流来翘曲不同的部分能够获得合理的翘曲部分和语义正确的完整服装,并且引入全局服装解析,使用局部流信息和变形特征来估计全局服装解析S'g以确保每个像素点准确地分配到特定的翘曲部分,从而消除重叠伪影并获得更精确的解析结果,最终将局部翘曲组合成完整的翘曲服装。在传统方法中,在将服装变形时,需要确保服装的纹理完全符合模型的边界约束。然而,这会导致在重叠区域出现服装纹理扭曲,出现服装纹理失真。在生成对抗网络的训练过程中通过动态控制梯度更新范围,变形后的服装纹理不需要完全符合边界约束,灵活有效的避免了纹理挤压问题。另外,在模型中引入了二阶光滑约束,更好地保留衣服的特性,并准确预测人物图像和衣服图像之间的外观流。
3、本发明基于改进的Res-Unet网络生成试穿图像,即指导知识,通过引入跨层融合模块,对特征进行加权处理,增强重要特征的影响,消除不必要的特征,减少了底层和高层信息融合过程中的语义歧义,缓解梯度问题,改善模型的鲁棒性和泛化能力;此外,将经过翘曲的原服装图像作为知识蒸馏送入学生模块中进行约束,实现知识迁移使得学生模块更好的利用教师模块的经验更好的翘曲衣服。
4、本发明中,由于学生模块中的输入只有指导知识和服装图像,所以引入蒸馏损失可以有效地指导学生模块中人物编码器的学习,而无需依赖解析器进行特征提取,从而提高虚拟试穿过程中语义信息和预测结果的质量和准确性;在知识蒸馏的指导下,经过翘曲模块对服装进行变形,最终与指导知识一起馈送到生成模块中实现虚拟试穿。学生模块的优点在于试穿输出就是教师模块的输入,可以通过真实图像进行约束可以获得更好的试穿效果结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1是本发明提供的一种基于局部外观流的虚拟试衣方法的整体流程示意图。
图2是本发明中教师模块示意图。
图3是本发明中学生模块示意图。
图4是本发明中预测局部外观流示意图。
图5是本发明中FN网络中包含粗/细流估计模块示意图。
图6是本发明中基于注意力的跨层融合模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1至图6,本发明提供其技术方案为,一种基于局部外观流的虚拟试衣方法,包括以下步骤:
S1:数据处理模块中依据现有的方法,将人体图像I、穿着的原服装图像C和选择的目标服装G进行处理,分别获得人体语义分割图Idp、人体关键点Ip、遮盖服装区域的人体图像掩膜MP和服装解析结果Cs和Gs。
S2:教师模块中包含三个模块,分别是多尺度特征提取模块、翘曲模块和生成模块;
S2.1提取多尺度的人体特征和服装特征/>
S2.2将完整的服装图像G分成三个部分并对每个部分预测局部流动根据局部外观流信息,分别对原服装图像和目标服装图像进行局部翘曲/>最后将局部翘曲的部分重新组装起来,形成完整的翘曲服装图像gwarp,同样的将服装图像C也进行翘曲变形为Cwarp;
S2.3生成模块将变形的衣服Gwarp、人体姿势估计和遮盖服装区域的人体图像连接起来作为输入,送到基于改进的Res-Unet生成模块中,保留服装细节并生成试穿图像,将其作为指导知识
S3:学生模块中包含与教师模块相同的三个子模块,但是输入不同,学生模块的输入只有指导知识和服装图像C,将它们送入多尺度特征提取模块中和翘曲模块中将进行翘曲变形获得C* warp,在翘曲过程中由教师模块对服装C的翘曲结果Cwarp作为知识蒸馏对获得的C* warp进行约束,有效地指导学生模块中人物编码器的学习以便获得更好的翘曲结果;将C* warp和GI送到生成模块中实现虚拟换装,并且使用真实图像I进行约束以便获得更接近原图像的试穿效果。
如图2所示,在本实施例中教师模块的具体步骤,包含三个子模块,分别是多尺度特征提取模块、翘曲模块和生成模块:
首先,将卷积编码器(Ec和Ep)来提取两个分支的金字塔深度特征表示,分别用表示服装图像,/>表示人体图像。
然后,将完整的服装分为三个局部部分(即左/右袖和躯干区域),并分别估计三个局部流/>来翘曲不同的部分。由于同一部分内变形的多样性较小,局部流能够准确处理翘曲并生成语义正确的扭曲结果。此外,设计了一个全局的服装解析,将局部翘曲组合成完整的翘曲服装Gwarp,这种改进的方法能够提供更逼真的变形效果。具体的,渐进式外观流估计由N个流网络FN组成用于估计N个多尺度局部流,首先最高级金字塔层级上提取gN和pN,馈送道流网络FN-1层级中进行逐像素匹配估计初始局部流/>然后将/>和N-1尺度上的特征输入到FN-2即下一个层级中细化获取流/>继续上述步骤,直到最终输出/>通过N个FN网络逐渐细化估计的外观流,以捕捉服装图像和人物图像之间的长距离对应关系。具体的,FN网络中包含粗/细流估计模块,粗流估计模块首先复制服装特征{gi}为/>利用来自上一层流网络的局部流{fin}将/>生成三个局部翘曲特征/>并集成:
其中corr代表FlowNet2中的相关运算。然后分别送入三个卷积层以估计相应的局部流{f'},最后与{fin}相加生成细化的局部流{fout},细流估计模块具有相同结构只是输出{fout}变成输入{fin},corr运算变成直接拼接。
为了更好地保留衣服的特性并准确预测人物图像和衣服图像之间的外观流,在模型中引入了二阶光滑约束,鼓励相邻外观流的共线性,提高外观流的平滑性和准确性,从而降低变形结果的不自然程度,减少非自然的变形,并保持衣服特性的完整性。
其中,fit表示第i个尺度的流图上的第t个点,表示第t个点周围的水平邻域、垂直邻域和两个对角线邻域的集合,/>是广义的Charbonnier损失函数。
将最后层级预测的局部外观流用于将服装局部翘曲变形:
最后,将局部翘曲组成完整的翘曲服装Gwarp。引入全局服装解析S'g以确保每个像素点准确地分配到特定的翘曲部分,从而消除简单组装出现的重叠伪影并获得更精确的解析结果。具体的,利用来自局部的精细流{fin}将生成三个局部翘曲特征/>通过卷积层进行融合,得到全局翘曲特征/>将其与输入特征gpi连接并经过卷积层来估计全局服装解析结果S'g。
如图3所示,在本实施例中学生模块的具体步骤,在学生模块中同样包括三个子模块,分别是多尺度特征提取模块、翘曲模块和生成模块:
首先,将指导知识和原服装图像作为翘曲模块输入。其中指导知识为教师网络中随机选择的一个不同的服装图像生成试穿图像原服装图像就是教师网络中人体图像原本的衣服C。将服装图像翘曲变形的过程与教师网络相似,只是输入不同,通过卷积编码器提取服装图像C和指导知识/>的金字塔深度特征,在知识蒸馏的指导下先局部变形再组成完整翘曲服装C* warp。
然后,生成模块将变形的服装图像C* warp和人体图像连接起来作为输入,馈送到生成模块中输出图像CI。生成器模块具有和教师模块相同改进的Res-UNet结构,通过最小化损失函数/>来优化生成模块和翘曲模块的参数:
其中,是L1损失,/>是感知损失,其中φ是特征映射,用于促进试穿图像CI与真实图像I之间的相似性。因为学生网络的试穿输出就是教师网络的输入,使用真实图像进行约束可以获得更好的结果。
如图4所示,在本实施例中预测局部外观流的具体步骤:渐进式局部外观流估计由N个流网络FN组成用于估计N个多尺度局部流,首先最高级金字塔层级上提取gN和pN,馈送道流网络FN-1层级中进行逐像素匹配估计初始局部流然后将/>和N-1尺度上的特征输入到FN-2即下一个层级中细化获取流/>继续上述步骤,直到最终输出/>通过N个FN网络逐渐细化估计的外观流,以捕捉服装图像和人物图像之间的长距离对应关系
如图5所示,在本实施例中FN网络中包含粗/细流估计的具体步骤:
粗流估计模块首先复制服装特征{gi}为利用来自上一层流网络的局部流{fin}将/>生成三个局部翘曲特征/>并集成:
其中corr代表FlowNet2中的相关运算。然后分别送入三个卷积层以估计相应的局部流{f'},最后与{fin}相加生成细化的局部流{fout},细流估计模块具有相同结构只是输出{fout}变成输入{fin},corr运算变成直接拼接。
如图6所示,在本实施例中基于注意力的跨层融合模块的具体步骤:
首先,将来自编码器的低层特征和来自解码器的高层特征进行拼接,对拼接结果进行全局平均池化处理,压缩特征图的空间大小,定义如下:
F=GAP(concat(DownFeature,UpFeature))
在这之后对特征图进行卷积处理,加强通道之间的联系,使用softmax激活函数进行指数运算,并将结果归一化获得信息权重,能够对重要的特征分配权重,具体如下:
ω1,ω2=softmax(conv(F))
接着将权重信息对高层特征和底层特征进行加权处理并将结果进行特征融合和拼接,在此基础上,还需要将来自解码器的高层特征进行残差连接复用,进一步提升性能,最后输出结果。
实施例2:
为了检验本实施例提出的方法的性能,将本实施例的方法与原始的方法进行对比,本实施例数据集是由一个训练集包含14221个图像对和一个测试集包含2023个图像对组成,人体图像和服装图像的分辨率都是256×192。
表1展示了VITON数据集上不同模型的定量结果:
如表1所示,Warping表示所述模型采用的翘曲方式,基于TPS和基于外观流,Parser表示所属模型是否采用解析器,Y代表是,N代表否;FID是用于评估生成模型和真实数据分布之间差异的指标,分数越低越好。由表1可知,本实施例方法的评价指标优于所比较的模型方法,同时,从表1可以看出基于外观流的翘曲方法优于基于TPS的翘曲方法;虽然基于无解析器方法需要更多的训练时间,但效果优于基于解析器的方法。SSIM是结构相似度指数,是一种用于度量图像质量的指标,分数越高代表图像质量约好,由表1内容可知,本实施例方法的图像质量优于所比较的模型方法,说明本发明的方法能够提升试穿结果的理想程度,获得更好的试穿效果。
从本实施例的结果来看,FID降低到9.07,生成图像与真实图像的相似性提高,SSIM最优指标为0.91,生成图像的质量得到提升。通过与其他方法比较,表明了本发明提出的方法是一种有效的虚拟试衣方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于局部外观流的虚拟试衣方法,其特征在于,包括以下步骤:
S1、数据处理模块中,依据DensePose方法,将人体图像I、穿着的原服装图像C和选择的目标服装G进行处理,分别获得人体语义分割图Idp、人体关键点Ip、遮盖服装区域的人体图像掩膜MP和服装解析结果Cs和Gs;
S2、教师模块中包含多尺度特征提取模块、翘曲模块和生成模块;
S2.1、多尺度特征提取模块,提取多尺度的人体特征和服装特征/>
S2.2、翘曲模块,将完整的服装图像G分成三个部分,左/右袖和躯干区域并对每个部分预测局部流动/>根据局部外观流信息,分别对原服装图像和目标服装图像进行局部翘曲/>将局部翘曲的部分重新组装起来,形成完整的翘曲服装图像Gwarp,将服装图像C进行翘曲变形为Cwarp;
S2.3、生成模块,将变形的衣服Gwarp、人体姿势估计和遮盖服装区域的人体图像连接起来作为输入,送到基于改进的Res-Unet生成模块中,保留服装细节并生成试穿图像,将其作为指导知识
S3、学生模块中包含与教师模块相同的三个子模块,由于输入不同,学生模块的输入指导知识和服装图像C,将它们送入多尺度特征提取模块中和翘曲模块中,将进行翘曲变形获得C* warp,在翘曲过程中由教师模块对服装C的翘曲结果Cwarp作为知识蒸馏对获得的C* warp进行约束,指导学生模块中人物编码器的学习,获得翘曲结果;将C* warp和GI送到生成模块中实现虚拟换装,并且使用真实图像I进行约束,获得与原图像的试穿效果。
2.根据权利要求1所述的一种基于局部外观流的虚拟试衣方法,其特征在于,所述步骤S1中,选择人体图像和目标服装,将人体图像I、穿着的原服装图像C和选择的目标服装G进行处理,分别获得人体语义分割图Idp、人体关键点Ip、遮盖服装区域的人体图像掩膜MP和服装解析结果Cs和Gs。
3.根据权利要求1所述的一种基于局部外观流的虚拟试衣方法,其特征在于,所述步骤S2.2中,渐进式外观流估计由N个流网络FN组成,用于估计N个多尺度局部流,包括以下步骤:
S2.21、从最高级金字塔层级上提取gN和pN,馈送道流网络FN-1层级中进行逐像素匹配估计初始局部流然后将/>和N-1尺度上的特征输入到FN-2,即在下一个层级中细化获取流/>继续上述步骤将/>和N-2尺度上的特征输入到FN-3获取细化流,直到输出/>通过N个FN网络细化估计的外观流,捕捉服装图像和人物图像之间的长距离对应关系,FN网络中包含粗/细流估计模块,粗流估计模块先复制服装特征{gi}为/>利用来自上一层流网络的局部流{fin}将/>生成三个局部翘曲特征/>并集成:
其中corr代表FlowNet2中的相关运算;
S2.22、分别送入三个卷积层估计相应的局部流{f'},与{fin}相加生成细化的局部流{fout},细流估计模块具有相同结构,输出{fout}变成输入{fin},corr运算变成直接拼接;
最后层级预测的局部外观流用于使服装局部翘曲变形为/>再利用全局服装解析组成完整的翘曲服装gwarp Gwarp:
S2.23、将变形的衣服Gwarp、人体姿势估计和遮盖服装区域的人体图像连接起来作为输入,采用改进的Res-Unet结构,保留服装细节并生成试穿图像,将其作为导师知识
4.根据权利要求1所述的一种基于局部外观流的虚拟试衣方法,其特征在于,所述步骤S2.2中,为保留衣服的特性并预测人物图像和衣服图像之间的外观流,在模型中引入了二阶光滑约束:
其中,fi t表示第i个尺度的流图上的第t个点,表示第t个点周围的水平邻域、垂直邻域和两个对角线邻域的集合,/>是广义的Charbonnier损失函数。
5.根据权利要求3所述的一种基于局部外观流的虚拟试衣方法,其特征在于,所述步骤S2.23中,利用来自局部的精细流{fin}将生成三个局部翘曲特征/>通过卷积层进行融合,得到全局翘曲特征/>将其与输入特征gpi连接并经过卷积层来估计全局服装解析结果S'g。
6.根据权利要求1所述的一种基于局部外观流的虚拟试衣方法,其特征在于,所述步骤S3具体步骤如下;
S3.1、将指导知识和原服装图像作为翘曲模块输入,指导知识为教师网络中随机选择的一个不同的服装图像生成试穿图像原服装图像是教师网络中人体图像原本的衣服C,将服装图像翘曲变形的过程与教师网络相似,通过卷积编码器提取服装图像C和指导知识的金字塔深度特征,在知识蒸馏的指导下先局部变形再组成完整翘曲服装C* warp;
S3.2、生成模块将变形的服装图像C* warp和人体图像GI连接起来作为输入,馈送到生成模块中输出图像CI,生成器模块具有和教师模块相同改进的Res-UNet结构,通过最小化损失函数来优化生成模块和翘曲模块的参数:
其中,是L1损失,/>是感知损失,其中φ是特征映射,用于促进试穿图像CI与真实图像I之间的相似性;
通过最小化指导特征与生成特征之间的差异,蒸馏损失定义为:
其中,Gpi和Cpi是从人体特征表示p*和指导知识GI中第i层级尺度中通过人物编码器Ep提取的特征;Gfi和Cfi分别表示在第i层级尺度中预测的流。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982956.5A CN117057976B (zh) | 2023-08-04 | 2023-08-04 | 一种基于局部外观流的虚拟试衣方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982956.5A CN117057976B (zh) | 2023-08-04 | 2023-08-04 | 一种基于局部外观流的虚拟试衣方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117057976A CN117057976A (zh) | 2023-11-14 |
CN117057976B true CN117057976B (zh) | 2024-03-19 |
Family
ID=88656556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310982956.5A Active CN117057976B (zh) | 2023-08-04 | 2023-08-04 | 一种基于局部外观流的虚拟试衣方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117057976B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538610A (zh) * | 2021-06-21 | 2021-10-22 | 杭州电子科技大学 | 一种基于稠密流的虚拟试衣方法 |
CN114520906A (zh) * | 2022-04-21 | 2022-05-20 | 北京影创信息科技有限公司 | 基于单目相机的三维人像补全方法和补全系统 |
CN114820294A (zh) * | 2022-05-23 | 2022-07-29 | 感知阶跃(深圳)数字科技有限公司 | 基于循环三级变换的全方位虚拟试穿方法、系统及介质 |
EP4050515A1 (en) * | 2021-02-24 | 2022-08-31 | Tata Consultancy Services Limited | Integrated pipeline for generation of virtual models for apparel catalogue and virtual try-ons for apparels |
CN116071619A (zh) * | 2023-02-14 | 2023-05-05 | 深圳数联天下智能科技有限公司 | 虚拟试衣模型的训练方法、虚拟试衣方法及电子设备 |
CN116452291A (zh) * | 2023-04-06 | 2023-07-18 | 深圳市威富视界有限公司 | 虚拟试衣方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055888B2 (en) * | 2019-08-27 | 2021-07-06 | Shenzhen Malong Technologies Co., Ltd. | Appearance-flow-based image generation |
US20220066544A1 (en) * | 2020-09-01 | 2022-03-03 | Georgia Tech Research Corporation | Method and system for automatic extraction of virtual on-body inertial measurement units |
US11544884B2 (en) * | 2020-12-11 | 2023-01-03 | Snap Inc. | Virtual clothing try-on |
-
2023
- 2023-08-04 CN CN202310982956.5A patent/CN117057976B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4050515A1 (en) * | 2021-02-24 | 2022-08-31 | Tata Consultancy Services Limited | Integrated pipeline for generation of virtual models for apparel catalogue and virtual try-ons for apparels |
CN113538610A (zh) * | 2021-06-21 | 2021-10-22 | 杭州电子科技大学 | 一种基于稠密流的虚拟试衣方法 |
CN114520906A (zh) * | 2022-04-21 | 2022-05-20 | 北京影创信息科技有限公司 | 基于单目相机的三维人像补全方法和补全系统 |
CN114820294A (zh) * | 2022-05-23 | 2022-07-29 | 感知阶跃(深圳)数字科技有限公司 | 基于循环三级变换的全方位虚拟试穿方法、系统及介质 |
CN116071619A (zh) * | 2023-02-14 | 2023-05-05 | 深圳数联天下智能科技有限公司 | 虚拟试衣模型的训练方法、虚拟试衣方法及电子设备 |
CN116452291A (zh) * | 2023-04-06 | 2023-07-18 | 深圳市威富视界有限公司 | 虚拟试衣方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Parser-Free Virtual Try-on via Distilling Appearance Flows;GE Y, SONG Y, ZHANG R, et al;《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20210301;8481-8489 * |
基于无监督光流场估计的极向运动极光自动识别;向晗;《中国优秀硕士学位论文全文数据库 基础科学辑》;20221215;A012-14 * |
Also Published As
Publication number | Publication date |
---|---|
CN117057976A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275518B (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN111428586A (zh) | 基于特征融合与样本增强的三维人体姿态估计方法 | |
CN110427799B (zh) | 基于生成对抗网络的人手深度图像数据增强方法 | |
CN109978021B (zh) | 一种基于文本不同特征空间的双流式视频生成方法 | |
CN111242238A (zh) | 一种rgb-d图像显著性目标获取的方法 | |
CN110853119B (zh) | 一种鲁棒的基于参考图片的妆容迁移方法 | |
CN110276753B (zh) | 基于特征空间统计信息映射的目标自适应隐藏方法 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN113343878A (zh) | 基于生成对抗网络的高保真人脸隐私保护方法和系统 | |
Sun et al. | Learning local quality-aware structures of salient regions for stereoscopic images via deep neural networks | |
CN114581560A (zh) | 基于注意力机制的多尺度神经网络红外图像彩色化方法 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN113570685A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN112819951A (zh) | 一种基于深度图修复的带遮挡三维人体重建方法 | |
Zeng et al. | Expression-tailored talking face generation with adaptive cross-modal weighting | |
CN117057976B (zh) | 一种基于局部外观流的虚拟试衣方法 | |
CN117315069A (zh) | 基于图像特征对齐的人体姿态迁移方法 | |
CN115526891B (zh) | 一种缺陷数据集的生成模型的训练方法及相关装置 | |
CN117036876A (zh) | 一种基于三维视角对齐的可泛化目标重识别模型构建方法 | |
CN115761801A (zh) | 一种基于视频时序信息的三维人体姿态迁移方法 | |
Koumparoulis et al. | Audio-assisted image inpainting for talking faces | |
Ma et al. | Cloud-egan: Rethinking cyclegan from a feature enhancement perspective for cloud removal by combining cnn and transformer | |
CN113111906A (zh) | 一种基于单对图像训练的条件生成对抗网络模型的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |