CN114820294A - 基于循环三级变换的全方位虚拟试穿方法、系统及介质 - Google Patents
基于循环三级变换的全方位虚拟试穿方法、系统及介质 Download PDFInfo
- Publication number
- CN114820294A CN114820294A CN202210568501.4A CN202210568501A CN114820294A CN 114820294 A CN114820294 A CN 114820294A CN 202210568501 A CN202210568501 A CN 202210568501A CN 114820294 A CN114820294 A CN 114820294A
- Authority
- CN
- China
- Prior art keywords
- semantic
- cyclic
- fitting
- clothes
- level transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000009466 transformation Effects 0.000 title claims abstract description 69
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 230000036544 posture Effects 0.000 claims abstract description 29
- 238000012546 transfer Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000004321 preservation Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000011426 transformation method Methods 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 229920002449 FKM Polymers 0.000 description 1
- 206010040030 Sensory loss Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于循环三级变换的全方位虚拟试穿方法、系统及介质,所述方法包括以下步骤:基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息;根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理;根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。相较于现有技术,本发明能实现更高质量的服装变形,以实现精细化虚拟换装。
Description
技术领域
本发明涉及虚拟试穿领域,尤其涉及一种基于循环三级变换的全方位虚拟试穿方法、系统及介质。
背景技术
近年来,随着互联网技术的飞速发展,数据采集的方式多样化简易化,使得许多需要基于大量图像数据所训练的计算机视觉相关模型的落地成为了可能。随着计算机视觉的商业化潜能不断被挖掘,如何设计出面向虚拟试穿且能落地的模型成为了一个很大的挑战,也因为其拥有巨大的商业潜力和应用前景而受到了越来越多的关注。
一方面,虚拟换装本身是需要在指定的服装图像、给定的目标服装和参考人物图像中生成逼真的人物,虽然已经提出了很多算法来构建虚拟试穿生成模型,但是在现实世界场景中对不同服装类型进行全方位试穿仍然具有挑战性。T恤、长袖外套等标准服装与参照人的关系清晰,而非标准服装则可能涉及不规则的图案和设计,从而导致对应关系更加模糊。两种典型的非标准类型是露肩衣(正常领露肩)和一字肩衣(水平领线朝向肩部)。当前几乎没有人报道这些非标准服装的解决结果和方案。ACGPN是最早的一批通过引入试穿后人体语义图来提升试穿效果的,但是当在衣服平铺图为非标准衣服时,则预测试穿后的人体语义图的衣服部位有误,不能保持衣服原本的语义形状。
另一方面,早期的工作利用粗略的形状和姿势图来合成试穿结果。开创性的方法通过首先用目标服装图像预测语义布局,然后通过正则化薄板样条算法来改善由粗糙形状引起的模糊伪影,从而产生更好的边界更清晰的结果。然而,这些方法仍然难以准确描绘“试穿后”的语义,其中功能也仅限于标准服装。阻止全方位虚拟试穿的另一个障碍是服装图像与参考人的错位。薄板样条算法是一种常用的做法,用于对服装图像进行空间变换,同时保留特征。然而,服装图像的过度失真阻碍了基于薄板样条算法的方法,促使人们越来越倾向于基于仿射的算法。与薄板样条算法相比,基于仿射的方法在生成不失真结果方面表现出巨大潜力,但不涉及变形的非刚性部分,这无法模拟衣服和人之间的自然相互作用。基于流的方法将最大容量嵌入变形建模中,从而密集地预测像素级偏移场。然而,如果没有真实流,如PF-AFN中的优化流网络只能通过强正则化先验来实现,例如仿射先验、总方差约束或二阶拉普拉斯惩罚,不然就会发生过度形变。
上述几个问题严重限制了虚拟换衣神经网络的工业化以及商业化应用。
发明内容
本发明的主要目的在于提供一种基于循环三级变换的全方位虚拟试穿方法、系统及介质,旨在实现更高质量的服装变形,以实现精细化虚拟换装。
为实现上述目的,本发明提供一种基于循环三级变换的全方位虚拟试穿方法,所述方法包括以下步骤:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息;
根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理;
根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。
本发明进一步地技术方案是,所述基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息的步骤包括:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系;
根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息。
本发明进一步地技术方案是,所述基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系的步骤包括:
其中,convS→C和convS→P指卷积层,σ是激活函数;
本发明进一步地技术方案是,所述根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息的步骤包括:
将和分别展平成和是第t层的人体姿态图reshape到RHW×C的表示符号,是第t层的衣服图reshape到RHW×C的表示符号,RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C],相关矩阵由成对的特征计算:
其中,⊙指的是哈达玛积;
其中,γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换SFT。
本发明进一步地技术方案是,所述根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理的步骤包括:
将均匀采样的初始控制点定义为q,将预测的目标点定义为q′,给定图像中的一个点v,应用衰减权重为每个点v计算不同的仿射变换:
其中,α是默认值为1的衰减参数,i表示第i个点。
本发明进一步地技术方案是,所述根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理的步骤中施加了相似保留约束,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。
本发明进一步地技术方案是,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换的步骤包括:
定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,q2由q0和q1定义为:
其中,R90表示逆时针旋转90度,给定q′0和q′1按以下公式计算出q′2的期望位置:
然后使用的正则项按以下公式计算得到:
类似地,将相同的机制应用于同一四边形中的另一个三角形的q′1:
其中每个四边形的误差相加形成最终的正则化损失,训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-feature,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。
本发明进一步地技术方案是,所述根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人的步骤包括:
生成三元组{I′S,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,将生成的图像与变形的衣服CW合成:
Is=α⊙I′s+(1-α)⊙CW,
其中,⊙表示逐元素相乘,IS是最后的生成结果;
在测试过程中,利用人的语义布局和预测的语义布局,通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin,
其中,I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
为实现上述目的,本发明还提出一种基于循环三级变换的全方位虚拟试穿系统,所述系统包括存储器、处理器、以及存储在所述处理器上的基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被所述处理器运行时执行如上所述的方法的步骤。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被处理器运行时执行如上所述的方法的步骤。
本发明基于循环三级变换的全方位虚拟试穿方法、系统及介质的有益效果是:
1、本发明采用一种新的语义生成算法,能够充分的生成“试穿后”的语义信息,解决了当模拟前虚拟试穿算法仅限应用于没有复杂花边或撕裂效果的标准衣服,而不能扩展到具有复杂花纹且种类繁多的非标准衣服(露肩衬衫)的问题。
2、本发明采用一种基于移动最小二乘和保相似性约束的算法,保持了局部翘曲的相似性减少扭曲和发生,解决了现有方法常常产生衣服过度失真的情况。
3、本发明采用提出了一种融合语义分割、扭曲衣服以及非目标身体图像来和合成输出的试穿合成算法,其中辅助衣服重建损失解决了当前方法不能保持纹理的情况。
附图说明
图1是本发明基于循环三级变换的全方位虚拟试穿方法较佳实施例的流程示意图;
图2是本发明基于循环三级变换的全方位虚拟试穿方法所涉及的硬件模块示意图;
图3是本发明基于循环三级变换的全方位虚拟试穿方法的整体流程示意图;
图4是三级变换与普通编码器解码器、Unet结构比较示意图;
图5是用于计算ASAP正规则化的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中的虚拟试穿方法主要关注在标款衣服换装,对于露肩、一字肩,以及由复杂形状的衣服的换装效果较差,由此,本发明提出一种基于循环三级变换的全方位虚拟试穿方法,可以很好的保留衣服的实际形状,以达到真实的换装效果,通过图像形变方法可以找到灵活性和稳定性的平衡,以实现更加高质量的服装形变,实现精细化虚拟换装。
具体地,如图1所示,本发明基于循环三级变换的全方位虚拟试穿方法较佳实施例包括以下步骤:
步骤S10,基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息。
现有技术中主要是针对T恤、长袖外套等标准服装的虚拟试穿,而对具有不规则图案和设计的非标服装的试穿几乎没有涉及,本实施例采用基于循环三级变换的语义生成算法,可以生成更好的衣服穿在模特上的语义布局,提高换装真实度。
具体地,所述步骤S10,基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息包括:
步骤S101,基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系。
步骤S101具体包括:
其中,convS→C和convS→P指卷积层,σ是激活函数;
步骤S102,根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息。
本实施例中,步骤S102具体包括:
将和分别展平成和是第t层的人体姿态图reshape到RHW×C的表示符号,是第t层的衣服图reshape到RHW×C的表示符号,RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C],相关矩阵由成对的特征计算:
其中,⊙指的是哈达玛积。
其中,γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换SFT。
步骤S20,根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理。
现有技术中不能平衡空间变换的灵活性与仿射变换的刚性,非常容易导致服装图像扭曲变形,本实施例采用基于移动最小二乘法的图像形变方法和相似保留约束,灵活而稳定的进行目标衣服变形,可以获得更好的衣服特征保留结果。
本实施例中,步骤S20具体包括:
将均匀采样的初始控制点定义为q,将预测的目标点定义为q′,给定图像中的一个点v,应用衰减权重为每个点v计算不同的仿射变换:
其中,α是默认值为1的衰减参数,i表示第i个点。
步骤S30,根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。
本实施例中,步骤S30中施加了相似保留约束,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。
具体地,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换的步骤包括:
定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,q2由q0和q1定义为:
其中,R90表示逆时针旋转90度,给定q′0和q′1按以下公式计算出q′2的期望位置:
然后使用的正则项按以下公式计算得到:
类似地,将相同的机制应用于同一四边形中的另一个三角形的q′1:
其中每个四边形的误差相加形成最终的正则化损失,训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-feature,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。
本实施例中,所述根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人的步骤包括:
生成三元组{I′s,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,将生成的图像与变形的衣服CW合成:
IS=α⊙I′S+(1-α)⊙CW,
其中,⊙表示逐元素相乘,IS是最后的生成结果。
在测试过程中,利用人的语义布局和预测的语义布局,通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin,
其中,I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
以下结合图2至图5对本发明基于循环三级变换的全方位虚拟试穿方法进行进一步的详细产生。
本发明基于循环三级变换的全方位虚拟试穿方法可以对标准和非标准服装进行全方位的虚拟试穿,具体的发明点包括以下两点:
1、提出了一种基于循环三级变换的语义生成算法,深入挖掘“试穿后”的语义信息,在三个不同级别的服装表示上进行渐进的特征转换,即服装、姿势和人体语义,从而大大提高了试穿质量和对全系列服装类型的适应性,尤其是非标准服装。较以往以服装图像和姿态图为条件直接生成语义布局相比,循环三级变换能能先找到服装和姿态图之间的联系,然后再对语义布局进行预测,这种两阶段的预测方法能让网络对非标准衣服的试穿后语义布局的预测更加真实准确。
2、提出了一种基于移动最小二乘的服装形变算法,采用这种半刚性变形的方法将服装图像与预测语义对齐,从而保持局部翘曲相似性。较以往使用基于薄板样条算法而言,避免了服装的过度失真的同时又设计到了变形的刚性部分,可以很好的模拟服装和人之间的自然相互作用。
本发明基于循环三级变换的全方位虚拟试穿方法中,上述步骤S10至S30可以分别通过如图2所示的语义生成模块、服装变形模块和内容融合模块三个技术模块来执行。
当在做虚拟换装的时候首先预测试穿后的语义图,使用本发明提出的循环三级变换网络来进行试穿后的语义预测;
当已有预测的服装区域和服装平铺图时,使用本发明的服装变形算法来将一件平铺衣服图变形到该指定服装区域。
一、循环三级变换(Recurrent Tri-Level Transform):
CP-VITON和VTION等先前的工作使用粗略的身体形状作为输入而不是语义分割,失去了对服装和非服装区域精细细节的把握。ACGPN提出一种基于人体语义方法来生成逼真的结果,但是无法稳定语义的预测过程。此外,由于服装图像的错位,所以在试穿后准确保持服装形状仍然是个很大的挑战。
为了解决上述问题,本发明基于服装、人体姿态和人体语义的表示,提出了循环三级变换。受人类真实穿衣过程的启发,首先找出服装和姿态图二者之间的对应关系,然后再生成语义布局信息,这打破了直接学习以服装图像和人体姿态图为条件的语义转换流程,使得对非标准服装的语义布局准确预测成为了可能。
如图3所示,本发明的算法结合了局部门控注意力机制,通过全局对应学习逐步细化三级特征,这使得我们能够准确生成语义布局。
详细过程如下:
本发明使用局部门控注意力机制过滤不相关特征从而实现自我校正过程。
其中convS→C和convS→P指卷积层,σ是激活函数。然后,本发明尝试找到和的对应关系。其中使用卷积层对和进行下采样以提取更高语义的特征。然后将和分别展平成(姿态)和(服装),(则是第t层的人体姿态图reshape到RHW×C的表示符号;则是第t层的衣服图reshape到RHW×C的表示符号;其中RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C]);并且相关矩阵由成对的特征计算:
其中γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换(SFT)。所以人体语义编码不是直接依赖服装特征,而是由空间变换的服装编码得到的,这有效地弥合和目标衣服和参考模特之间的错位。添加重建损失以通过对下采样的服装图像进行变形来帮助对应学习,其中参考人身上的衣服作真实值(Ground Truth)。图4展示了非局部对应学习是有助于网络理解“试穿后”语义的。
二、服装变形模块(Clothes Warping Module)
在已知“试穿后”的人体语义布局后,可以对服装图像进行变形以转移纹理。但是以前通过训练空间变换网络来试图将薄板样条算法的灵活性与仿射变换的刚性相结合的做法,不能找到这种权衡。
为了解决这个问题,本发明提出了一种半刚性变换,将服装的形变建模为一个可学习的移动最小二乘问题,以平衡灵活性和刚性。控制点的影响随距离的二次方衰减,因此在计算每个点的单独仿射变换参数时允许局部灵活性。本发明将均匀采样的初始控制点定义为q,将预测的目标点定义为q′。给定图像中的一个点v,本发明通过应用衰减权重为每个v计算不同的仿射变换:
其中α是默认值为1的衰减参数,i表示第i个点。通过解决加权最小二乘问题,本发明可以根据预测的控制点q′对目标服装图像进行半刚性形变。通过应用空间衰减权重,在允许局部灵活性的同时,充分利用了仿射变换的优势。
本发明施加了As-Similarity-As-Possible(ASAP)约束,该约束在预测控制点q′的每个四边形内计算。每个四边形都分成了两个三角形。如图5所示,ASAP约束通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。本发明定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,所以q2可以由q0和q1定义为:
其中R90表示逆时针旋转90度,给定q′0和q′1,本发明可以按以下公式计算出q′2的期望位置:
然后使用的正则项可以按以下公式计算得到:
其中每个四边形的误差相加形成最终的正则化损失。训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-festure,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。至此,L1损失和感知损失用于指导图像变形,由ASAP约束进行正则化。
三、试穿融合模块(Try-on Synthesizer)
给定预测的人体语义布局以及已经变形的服装图像,所提出的试穿融合模块使用上述输入生成穿着服装的人。本发明采用类似的自适应生成和保存策略,在生成暴露的身体纹理的同时保留非目标身体部位。为了鼓励网络保留扭曲的服装纹理,同时重构了变形的服装输入,这有助于网络保留原始特征。
为了让网络既有生成能力又有保存服装纹理的能力,通过随机移除身体部位来使网络学得生成缺失皮肤的能力。在训练中,本发明的试穿融合模块最后生成了一个三元组{I′S,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,用于将生成的图像与变形的衣服CW合成:
IS=α⊙I′s+(1-α)⊙CW
其中⊙表示逐元素相乘,IS是最后的生成结果。在衣服身体和衣服的生成时使用了L1损失,感知损失和对抗损失。在测试过程中,利用人的语义布局和预测的语义布局,可以通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin
其中I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
本发明基于循环三级变换的全方位虚拟试穿方法的有益效果是:
1、本发明采用一种新的语义生成算法,能够充分的生成“试穿后”的语义信息,解决了当模拟前虚拟试穿算法仅限应用于没有复杂花边或撕裂效果的标准衣服,而不能扩展到具有复杂花纹且种类繁多的非标准衣服(露肩衬衫)的问题。
2、本发明采用一种基于移动最小二乘和保相似性约束的算法,保持了局部翘曲的相似性减少扭曲和发生,解决了现有方法常常产生衣服过度失真的情况。
3、本发明采用提出了一种融合语义分割、扭曲衣服以及非目标身体图像来和合成输出的试穿合成算法,其中辅助衣服重建损失解决了当前方法不能保持纹理的情况。
为实现上述目的,本发明还提出一种基于循环三级变换的全方位虚拟试穿系统,所述系统包括存储器、处理器、以及存储在所述处理器上的基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被所述处理器运行时执行如上实施例所述的方法的步骤,这里不再赘述。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被处理器运行时执行如上实施例所述的方法的步骤,这里不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述方法包括以下步骤:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息;
根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理;
根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。
2.根据权利要求1所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息的步骤包括:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系;
根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息。
4.根据权利要求3所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息的步骤包括:
将和分别展平成和 是第t层的人体姿态图reshape到RHW×C的表示符号,是第t层的衣服图reshape到RHW×C的表示符号,RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C],相关矩阵由成对的特征计算:
其中,⊙指的是哈达玛积;
其中,γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换SFT。
6.根据权利要求5所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理的步骤中施加了相似保留约束,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。
7.根据权利要求6所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换的步骤包括:
定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,q2由q0和q1定义为:
其中,R90表示逆时针旋转90度,给定q′0和q′1按以下公式计算出q′2的期望位置:
然后使用的正则项按以下公式计算得到:
类似地,将相同的机制应用于同一四边形中的另一个三角形的q′1:
其中每个四边形的误差相加形成最终的正则化损失,训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-feature,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。
8.根据权利要求7所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人的步骤包括:
生成三元组{I′S,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,将生成的图像与变形的衣服CW合成:
IS=α⊙I′S+(1-α)⊙CW,
其中,⊙表示逐元素相乘,IS是最后的生成结果;
在测试过程中,利用人的语义布局和预测的语义布局,通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin,
其中,I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
9.一种基于循环三级变换的全方位虚拟试穿系统,其特征在于,所述系统包括存储器、处理器、以及存储在所述处理器上的基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被所述处理器运行时执行如权利要求1至8任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被处理器运行时执行如权利要求1至8任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210568501.4A CN114820294A (zh) | 2022-05-23 | 2022-05-23 | 基于循环三级变换的全方位虚拟试穿方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210568501.4A CN114820294A (zh) | 2022-05-23 | 2022-05-23 | 基于循环三级变换的全方位虚拟试穿方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114820294A true CN114820294A (zh) | 2022-07-29 |
Family
ID=82516367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210568501.4A Pending CN114820294A (zh) | 2022-05-23 | 2022-05-23 | 基于循环三级变换的全方位虚拟试穿方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820294A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057976A (zh) * | 2023-08-04 | 2023-11-14 | 南通大学 | 一种基于局部外观流的虚拟试衣方法 |
CN117710710A (zh) * | 2024-02-06 | 2024-03-15 | 湖南善禧文化股份有限公司 | 一种深度语义理解的图像匹配方法 |
-
2022
- 2022-05-23 CN CN202210568501.4A patent/CN114820294A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117057976A (zh) * | 2023-08-04 | 2023-11-14 | 南通大学 | 一种基于局部外观流的虚拟试衣方法 |
CN117057976B (zh) * | 2023-08-04 | 2024-03-19 | 南通大学 | 一种基于局部外观流的虚拟试衣方法 |
CN117710710A (zh) * | 2024-02-06 | 2024-03-15 | 湖南善禧文化股份有限公司 | 一种深度语义理解的图像匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055888B2 (en) | Appearance-flow-based image generation | |
US11367239B2 (en) | Textured neural avatars | |
CN109636831B (zh) | 一种估计三维人体姿态及手部信息的方法 | |
US11158121B1 (en) | Systems and methods for generating accurate and realistic clothing models with wrinkles | |
CN109584353B (zh) | 一种基于单目视频重建三维人脸表情模型的方法 | |
CN114820294A (zh) | 基于循环三级变换的全方位虚拟试穿方法、系统及介质 | |
US20230169727A1 (en) | Generative Nonlinear Human Shape Models | |
Zakharkin et al. | Point-based modeling of human clothing | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
CN111028354A (zh) | 一种基于图像序列的模型形变人脸三维重建方案 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN116012950A (zh) | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 | |
Zhang et al. | Data-driven facial animation via semi-supervised local patch alignment | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN115951784A (zh) | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 | |
Li et al. | Spa: Sparse photorealistic animation using a single rgb-d camera | |
Li et al. | Gaussianbody: Clothed human reconstruction via 3d gaussian splatting | |
Yuan et al. | Interactive nerf geometry editing with shape priors | |
CN112365589B (zh) | 一种虚拟三维场景展示方法、装置及系统 | |
CN117593178A (zh) | 一种基于特征引导的虚拟试衣方法 | |
US20230126829A1 (en) | Point-based modeling of human clothing | |
CN115761801A (zh) | 一种基于视频时序信息的三维人体姿态迁移方法 | |
CN115049764A (zh) | Smpl参数预测模型的训练方法、装置、设备及介质 | |
CN110349268B (zh) | 一种三维人体姿态、表情及手势的重构方法 | |
CN114092610A (zh) | 一种基于生成对抗网络的人物视频生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |