CN114820294A - 基于循环三级变换的全方位虚拟试穿方法、系统及介质 - Google Patents

基于循环三级变换的全方位虚拟试穿方法、系统及介质 Download PDF

Info

Publication number
CN114820294A
CN114820294A CN202210568501.4A CN202210568501A CN114820294A CN 114820294 A CN114820294 A CN 114820294A CN 202210568501 A CN202210568501 A CN 202210568501A CN 114820294 A CN114820294 A CN 114820294A
Authority
CN
China
Prior art keywords
semantic
cyclic
fitting
clothes
level transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210568501.4A
Other languages
English (en)
Inventor
杨涵
于新蕊
臧延龙
刘子纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Perceptron Step Shenzhen Digital Technology Co ltd
Original Assignee
Perceptron Step Shenzhen Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Perceptron Step Shenzhen Digital Technology Co ltd filed Critical Perceptron Step Shenzhen Digital Technology Co ltd
Priority to CN202210568501.4A priority Critical patent/CN114820294A/zh
Publication of CN114820294A publication Critical patent/CN114820294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于循环三级变换的全方位虚拟试穿方法、系统及介质,所述方法包括以下步骤:基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息;根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理;根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。相较于现有技术,本发明能实现更高质量的服装变形,以实现精细化虚拟换装。

Description

基于循环三级变换的全方位虚拟试穿方法、系统及介质
技术领域
本发明涉及虚拟试穿领域,尤其涉及一种基于循环三级变换的全方位虚拟试穿方法、系统及介质。
背景技术
近年来,随着互联网技术的飞速发展,数据采集的方式多样化简易化,使得许多需要基于大量图像数据所训练的计算机视觉相关模型的落地成为了可能。随着计算机视觉的商业化潜能不断被挖掘,如何设计出面向虚拟试穿且能落地的模型成为了一个很大的挑战,也因为其拥有巨大的商业潜力和应用前景而受到了越来越多的关注。
一方面,虚拟换装本身是需要在指定的服装图像、给定的目标服装和参考人物图像中生成逼真的人物,虽然已经提出了很多算法来构建虚拟试穿生成模型,但是在现实世界场景中对不同服装类型进行全方位试穿仍然具有挑战性。T恤、长袖外套等标准服装与参照人的关系清晰,而非标准服装则可能涉及不规则的图案和设计,从而导致对应关系更加模糊。两种典型的非标准类型是露肩衣(正常领露肩)和一字肩衣(水平领线朝向肩部)。当前几乎没有人报道这些非标准服装的解决结果和方案。ACGPN是最早的一批通过引入试穿后人体语义图来提升试穿效果的,但是当在衣服平铺图为非标准衣服时,则预测试穿后的人体语义图的衣服部位有误,不能保持衣服原本的语义形状。
另一方面,早期的工作利用粗略的形状和姿势图来合成试穿结果。开创性的方法通过首先用目标服装图像预测语义布局,然后通过正则化薄板样条算法来改善由粗糙形状引起的模糊伪影,从而产生更好的边界更清晰的结果。然而,这些方法仍然难以准确描绘“试穿后”的语义,其中功能也仅限于标准服装。阻止全方位虚拟试穿的另一个障碍是服装图像与参考人的错位。薄板样条算法是一种常用的做法,用于对服装图像进行空间变换,同时保留特征。然而,服装图像的过度失真阻碍了基于薄板样条算法的方法,促使人们越来越倾向于基于仿射的算法。与薄板样条算法相比,基于仿射的方法在生成不失真结果方面表现出巨大潜力,但不涉及变形的非刚性部分,这无法模拟衣服和人之间的自然相互作用。基于流的方法将最大容量嵌入变形建模中,从而密集地预测像素级偏移场。然而,如果没有真实流,如PF-AFN中的优化流网络只能通过强正则化先验来实现,例如仿射先验、总方差约束或二阶拉普拉斯惩罚,不然就会发生过度形变。
上述几个问题严重限制了虚拟换衣神经网络的工业化以及商业化应用。
发明内容
本发明的主要目的在于提供一种基于循环三级变换的全方位虚拟试穿方法、系统及介质,旨在实现更高质量的服装变形,以实现精细化虚拟换装。
为实现上述目的,本发明提供一种基于循环三级变换的全方位虚拟试穿方法,所述方法包括以下步骤:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息;
根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理;
根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。
本发明进一步地技术方案是,所述基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息的步骤包括:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系;
根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息。
本发明进一步地技术方案是,所述基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系的步骤包括:
将最初的人体语义图设为
Figure BDA0003657875360000021
衣服图设为
Figure BDA0003657875360000022
姿态图表示成
Figure BDA0003657875360000023
第t层的人体语义图
Figure BDA0003657875360000024
和衣服图
Figure BDA0003657875360000025
是由第t层的姿态图
Figure BDA0003657875360000026
中的注意力掩码更新,其中应用了sigmoid门控卷积:
Figure BDA0003657875360000027
Figure BDA0003657875360000028
其中,convS→C和convS→P指卷积层,σ是激活函数;
找出
Figure BDA0003657875360000031
Figure BDA0003657875360000032
的对应关系。
本发明进一步地技术方案是,所述根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息的步骤包括:
Figure BDA0003657875360000033
Figure BDA0003657875360000034
分别展平成
Figure BDA0003657875360000035
Figure BDA0003657875360000036
是第t层的人体姿态图
Figure BDA0003657875360000037
reshape到RHW×C的表示符号,
Figure BDA0003657875360000038
是第t层的衣服图
Figure BDA0003657875360000039
reshape到RHW×C的表示符号,RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C],相关矩阵
Figure BDA00036578753600000310
由成对的特征计算:
Figure BDA00036578753600000311
其中,
Figure BDA00036578753600000312
指的是
Figure BDA00036578753600000313
的特征,
Figure BDA00036578753600000314
指的是对应相似性;
然后使用非局部对应矩阵
Figure BDA00036578753600000315
Figure BDA00036578753600000316
中展平的衣服向量
Figure BDA00036578753600000317
Figure BDA00036578753600000318
其中,α是锐化参数,
Figure BDA00036578753600000319
是使用滑动窗口展开的,softmaxv是行维度操作的softmax操作;
然后重新将扁平化的衣服向量
Figure BDA00036578753600000320
变为
Figure BDA00036578753600000321
使用计算出的注意力掩码
Figure BDA00036578753600000322
Figure BDA00036578753600000323
衣服和姿势被更新为:
Figure BDA00036578753600000324
Figure BDA00036578753600000325
其中,⊙指的是哈达玛积;
然后提取高级特征以计算相关性矩阵
Figure BDA00036578753600000326
得到转换后的衣服编码
Figure BDA00036578753600000327
将人体语义编码
Figure BDA00036578753600000328
按以下公式更新为:
Figure BDA00036578753600000329
其中,γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换SFT。
本发明进一步地技术方案是,所述根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理的步骤包括:
将均匀采样的初始控制点定义为q,将预测的目标点定义为q′,给定图像中的一个点v,应用衰减权重为每个点v计算不同的仿射变换:
Figure BDA00036578753600000330
其中,α是默认值为1的衰减参数,i表示第i个点。
本发明进一步地技术方案是,所述根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理的步骤中施加了相似保留约束,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。
本发明进一步地技术方案是,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换的步骤包括:
定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,q2由q0和q1定义为:
Figure BDA0003657875360000041
其中,R90表示逆时针旋转90度,给定q′0和q′1按以下公式计算出q′2的期望位置:
Figure BDA0003657875360000042
然后使用的正则项按以下公式计算得到:
Figure BDA0003657875360000043
其中
Figure BDA0003657875360000044
指的是q′2的误差项;
类似地,将相同的机制应用于同一四边形中的另一个三角形的q′1
Figure BDA0003657875360000045
其中每个四边形的误差相加形成最终的正则化损失,训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-feature,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。
本发明进一步地技术方案是,所述根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人的步骤包括:
生成三元组{I′S,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,将生成的图像与变形的衣服CW合成:
Is=α⊙I′s+(1-α)⊙CW
其中,⊙表示逐元素相乘,IS是最后的生成结果;
在测试过程中,利用人的语义布局和预测的语义布局,通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin
其中,I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
为实现上述目的,本发明还提出一种基于循环三级变换的全方位虚拟试穿系统,所述系统包括存储器、处理器、以及存储在所述处理器上的基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被所述处理器运行时执行如上所述的方法的步骤。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被处理器运行时执行如上所述的方法的步骤。
本发明基于循环三级变换的全方位虚拟试穿方法、系统及介质的有益效果是:
1、本发明采用一种新的语义生成算法,能够充分的生成“试穿后”的语义信息,解决了当模拟前虚拟试穿算法仅限应用于没有复杂花边或撕裂效果的标准衣服,而不能扩展到具有复杂花纹且种类繁多的非标准衣服(露肩衬衫)的问题。
2、本发明采用一种基于移动最小二乘和保相似性约束的算法,保持了局部翘曲的相似性减少扭曲和发生,解决了现有方法常常产生衣服过度失真的情况。
3、本发明采用提出了一种融合语义分割、扭曲衣服以及非目标身体图像来和合成输出的试穿合成算法,其中辅助衣服重建损失解决了当前方法不能保持纹理的情况。
附图说明
图1是本发明基于循环三级变换的全方位虚拟试穿方法较佳实施例的流程示意图;
图2是本发明基于循环三级变换的全方位虚拟试穿方法所涉及的硬件模块示意图;
图3是本发明基于循环三级变换的全方位虚拟试穿方法的整体流程示意图;
图4是三级变换与普通编码器解码器、Unet结构比较示意图;
图5是用于计算ASAP正规则化的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中的虚拟试穿方法主要关注在标款衣服换装,对于露肩、一字肩,以及由复杂形状的衣服的换装效果较差,由此,本发明提出一种基于循环三级变换的全方位虚拟试穿方法,可以很好的保留衣服的实际形状,以达到真实的换装效果,通过图像形变方法可以找到灵活性和稳定性的平衡,以实现更加高质量的服装形变,实现精细化虚拟换装。
具体地,如图1所示,本发明基于循环三级变换的全方位虚拟试穿方法较佳实施例包括以下步骤:
步骤S10,基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息。
现有技术中主要是针对T恤、长袖外套等标准服装的虚拟试穿,而对具有不规则图案和设计的非标服装的试穿几乎没有涉及,本实施例采用基于循环三级变换的语义生成算法,可以生成更好的衣服穿在模特上的语义布局,提高换装真实度。
具体地,所述步骤S10,基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息包括:
步骤S101,基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系。
步骤S101具体包括:
将最初的人体语义图设为
Figure BDA0003657875360000071
衣服图设为
Figure BDA0003657875360000072
姿态图表示成
Figure BDA0003657875360000073
第t层的人体语义图
Figure BDA0003657875360000074
和衣服图
Figure BDA0003657875360000075
是由第t层的姿态图
Figure BDA0003657875360000076
中的注意力掩码更新,其中应用了sigmoid门控卷积:
Figure BDA0003657875360000077
Figure BDA0003657875360000078
其中,convS→C和convS→P指卷积层,σ是激活函数;
找出
Figure BDA0003657875360000079
Figure BDA00036578753600000710
的对应关系。
步骤S102,根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息。
本实施例中,步骤S102具体包括:
Figure BDA00036578753600000711
Figure BDA00036578753600000712
分别展平成
Figure BDA00036578753600000713
Figure BDA00036578753600000714
是第t层的人体姿态图
Figure BDA00036578753600000715
reshape到RHW×C的表示符号,
Figure BDA00036578753600000716
是第t层的衣服图
Figure BDA00036578753600000717
reshape到RHW×C的表示符号,RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C],相关矩阵
Figure BDA00036578753600000718
由成对的特征计算:
Figure BDA00036578753600000719
其中,
Figure BDA00036578753600000720
指的是
Figure BDA00036578753600000721
的特征,
Figure BDA00036578753600000722
指的是对应相似性。
然后使用非局部对应矩阵
Figure BDA00036578753600000723
Figure BDA00036578753600000724
中展平的衣服向量
Figure BDA00036578753600000725
Figure BDA00036578753600000726
其中,α是锐化参数,
Figure BDA00036578753600000727
是使用滑动窗口展开的,softmaxv是行维度操作的softmax操作。
然后重新将扁平化的衣服向量
Figure BDA00036578753600000728
变为
Figure BDA00036578753600000729
使用计算出的注意力掩码
Figure BDA00036578753600000730
Figure BDA00036578753600000731
衣服和姿势被更新为:
Figure BDA00036578753600000732
Figure BDA00036578753600000733
其中,⊙指的是哈达玛积。
然后提取高级特征以计算相关性矩阵
Figure BDA00036578753600000734
得到转换后的衣服编码
Figure BDA00036578753600000735
将人体语义编码
Figure BDA0003657875360000081
按以下公式更新为:
Figure BDA0003657875360000082
其中,γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换SFT。
步骤S20,根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理。
现有技术中不能平衡空间变换的灵活性与仿射变换的刚性,非常容易导致服装图像扭曲变形,本实施例采用基于移动最小二乘法的图像形变方法和相似保留约束,灵活而稳定的进行目标衣服变形,可以获得更好的衣服特征保留结果。
本实施例中,步骤S20具体包括:
将均匀采样的初始控制点定义为q,将预测的目标点定义为q′,给定图像中的一个点v,应用衰减权重为每个点v计算不同的仿射变换:
Figure BDA0003657875360000083
其中,α是默认值为1的衰减参数,i表示第i个点。
步骤S30,根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。
本实施例中,步骤S30中施加了相似保留约束,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。
具体地,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换的步骤包括:
定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,q2由q0和q1定义为:
Figure BDA0003657875360000084
其中,R90表示逆时针旋转90度,给定q′0和q′1按以下公式计算出q′2的期望位置:
Figure BDA0003657875360000085
然后使用的正则项按以下公式计算得到:
Figure BDA0003657875360000091
其中
Figure BDA0003657875360000092
指的是q′2的误差项。
类似地,将相同的机制应用于同一四边形中的另一个三角形的q′1
Figure BDA0003657875360000093
其中每个四边形的误差相加形成最终的正则化损失,训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-feature,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。
本实施例中,所述根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人的步骤包括:
生成三元组{I′s,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,将生成的图像与变形的衣服CW合成:
IS=α⊙I′S+(1-α)⊙CW
其中,⊙表示逐元素相乘,IS是最后的生成结果。
在测试过程中,利用人的语义布局和预测的语义布局,通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin
其中,I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
以下结合图2至图5对本发明基于循环三级变换的全方位虚拟试穿方法进行进一步的详细产生。
本发明基于循环三级变换的全方位虚拟试穿方法可以对标准和非标准服装进行全方位的虚拟试穿,具体的发明点包括以下两点:
1、提出了一种基于循环三级变换的语义生成算法,深入挖掘“试穿后”的语义信息,在三个不同级别的服装表示上进行渐进的特征转换,即服装、姿势和人体语义,从而大大提高了试穿质量和对全系列服装类型的适应性,尤其是非标准服装。较以往以服装图像和姿态图为条件直接生成语义布局相比,循环三级变换能能先找到服装和姿态图之间的联系,然后再对语义布局进行预测,这种两阶段的预测方法能让网络对非标准衣服的试穿后语义布局的预测更加真实准确。
2、提出了一种基于移动最小二乘的服装形变算法,采用这种半刚性变形的方法将服装图像与预测语义对齐,从而保持局部翘曲相似性。较以往使用基于薄板样条算法而言,避免了服装的过度失真的同时又设计到了变形的刚性部分,可以很好的模拟服装和人之间的自然相互作用。
本发明基于循环三级变换的全方位虚拟试穿方法中,上述步骤S10至S30可以分别通过如图2所示的语义生成模块、服装变形模块和内容融合模块三个技术模块来执行。
当在做虚拟换装的时候首先预测试穿后的语义图,使用本发明提出的循环三级变换网络来进行试穿后的语义预测;
当已有预测的服装区域和服装平铺图时,使用本发明的服装变形算法来将一件平铺衣服图变形到该指定服装区域。
一、循环三级变换(Recurrent Tri-Level Transform):
CP-VITON和VTION等先前的工作使用粗略的身体形状作为输入而不是语义分割,失去了对服装和非服装区域精细细节的把握。ACGPN提出一种基于人体语义方法来生成逼真的结果,但是无法稳定语义的预测过程。此外,由于服装图像的错位,所以在试穿后准确保持服装形状仍然是个很大的挑战。
为了解决上述问题,本发明基于服装、人体姿态和人体语义的表示,提出了循环三级变换。受人类真实穿衣过程的启发,首先找出服装和姿态图二者之间的对应关系,然后再生成语义布局信息,这打破了直接学习以服装图像和人体姿态图为条件的语义转换流程,使得对非标准服装的语义布局准确预测成为了可能。
如图3所示,本发明的算法结合了局部门控注意力机制,通过全局对应学习逐步细化三级特征,这使得我们能够准确生成语义布局。
详细过程如下:
本发明使用局部门控注意力机制过滤不相关特征从而实现自我校正过程。
最初的人体语义图设为
Figure BDA0003657875360000111
衣服图为
Figure BDA0003657875360000112
和姿态图表示成
Figure BDA0003657875360000113
第t层的人体语义图
Figure BDA0003657875360000114
和衣服图
Figure BDA0003657875360000115
是由第t层的姿态图
Figure BDA0003657875360000116
中的注意力掩码更新。这里应用了广泛使用的如下sigmoid门控卷积:
Figure BDA0003657875360000117
Figure BDA0003657875360000118
其中convS→C和convS→P指卷积层,σ是激活函数。然后,本发明尝试找到
Figure BDA0003657875360000119
Figure BDA00036578753600001110
的对应关系。其中使用卷积层对
Figure BDA00036578753600001111
Figure BDA00036578753600001112
进行下采样以提取更高语义的特征。然后将
Figure BDA00036578753600001113
Figure BDA00036578753600001114
分别展平成
Figure BDA00036578753600001115
(姿态)和
Figure BDA00036578753600001116
(服装),(
Figure BDA00036578753600001117
则是第t层的人体姿态图
Figure BDA00036578753600001118
reshape到RHW×C的表示符号;
Figure BDA00036578753600001119
则是第t层的衣服图
Figure BDA00036578753600001120
reshape到RHW×C的表示符号;其中RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C]);并且相关矩阵
Figure BDA00036578753600001121
由成对的特征计算:
Figure BDA00036578753600001122
其中
Figure BDA00036578753600001123
指的是
Figure BDA00036578753600001124
的特征。
Figure BDA00036578753600001125
指的是对应相似性。然后使用非局部对应矩阵
Figure BDA00036578753600001126
Figure BDA00036578753600001127
中展平的衣服向量
Figure BDA00036578753600001128
Figure BDA00036578753600001129
其中α是锐化参数。
Figure BDA00036578753600001130
是使用滑动窗口展开的,softmaxv是行维度操作的softmax操作,然后我们重新将扁平化的衣服向量
Figure BDA00036578753600001131
变为了
Figure BDA00036578753600001132
使用计算出的注意力掩码
Figure BDA00036578753600001133
Figure BDA00036578753600001134
衣服和姿势被更新为:
Figure BDA00036578753600001135
Figure BDA00036578753600001136
其中⊙指的是哈达玛积,即逐元素相乘(entry-wise multiplication),然后提取高级特征以计算相关性矩阵
Figure BDA00036578753600001137
并通过公式得到转换后的衣服编码
Figure BDA00036578753600001138
将人体语义编码
Figure BDA00036578753600001139
按以下公式更新为:
Figure BDA00036578753600001140
其中γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换(SFT)。所以人体语义编码不是直接依赖服装特征,而是由空间变换的服装编码
Figure BDA00036578753600001141
得到的,这有效地弥合和目标衣服和参考模特之间的错位。添加重建损失以通过对下采样的服装图像进行变形来帮助对应学习,其中参考人身上的衣服作真实值(Ground Truth)。图4展示了非局部对应学习是有助于网络理解“试穿后”语义的。
二、服装变形模块(Clothes Warping Module)
在已知“试穿后”的人体语义布局后,可以对服装图像进行变形以转移纹理。但是以前通过训练空间变换网络来试图将薄板样条算法的灵活性与仿射变换的刚性相结合的做法,不能找到这种权衡。
为了解决这个问题,本发明提出了一种半刚性变换,将服装的形变建模为一个可学习的移动最小二乘问题,以平衡灵活性和刚性。控制点的影响随距离的二次方衰减,因此在计算每个点的单独仿射变换参数时允许局部灵活性。本发明将均匀采样的初始控制点定义为q,将预测的目标点定义为q′。给定图像中的一个点v,本发明通过应用衰减权重为每个v计算不同的仿射变换:
Figure BDA0003657875360000121
其中α是默认值为1的衰减参数,i表示第i个点。通过解决加权最小二乘问题,本发明可以根据预测的控制点q′对目标服装图像进行半刚性形变。通过应用空间衰减权重,在允许局部灵活性的同时,充分利用了仿射变换的优势。
本发明施加了As-Similarity-As-Possible(ASAP)约束,该约束在预测控制点q′的每个四边形内计算。每个四边形都分成了两个三角形。如图5所示,ASAP约束通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。本发明定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,所以q2可以由q0和q1定义为:
Figure BDA0003657875360000122
其中R90表示逆时针旋转90度,给定q′0和q′1,本发明可以按以下公式计算出q′2的期望位置:
Figure BDA0003657875360000123
然后使用的正则项可以按以下公式计算得到:
Figure BDA0003657875360000124
其中
Figure BDA0003657875360000125
指的是q′2的误差项。类似地,本发明可以将相同的机制应用于同一四边形中的另一个三角形的q′1
Figure BDA0003657875360000126
其中每个四边形的误差相加形成最终的正则化损失。训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-festure,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。至此,L1损失和感知损失用于指导图像变形,由ASAP约束进行正则化。
三、试穿融合模块(Try-on Synthesizer)
给定预测的人体语义布局以及已经变形的服装图像,所提出的试穿融合模块使用上述输入生成穿着服装的人。本发明采用类似的自适应生成和保存策略,在生成暴露的身体纹理的同时保留非目标身体部位。为了鼓励网络保留扭曲的服装纹理,同时重构了变形的服装输入,这有助于网络保留原始特征。
为了让网络既有生成能力又有保存服装纹理的能力,通过随机移除身体部位来使网络学得生成缺失皮肤的能力。在训练中,本发明的试穿融合模块最后生成了一个三元组{I′S,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,用于将生成的图像与变形的衣服CW合成:
IS=α⊙I′s+(1-α)⊙CW
其中⊙表示逐元素相乘,IS是最后的生成结果。在衣服身体和衣服的生成时使用了L1损失,感知损失和对抗损失。在测试过程中,利用人的语义布局和预测的语义布局,可以通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin
其中I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
本发明基于循环三级变换的全方位虚拟试穿方法的有益效果是:
1、本发明采用一种新的语义生成算法,能够充分的生成“试穿后”的语义信息,解决了当模拟前虚拟试穿算法仅限应用于没有复杂花边或撕裂效果的标准衣服,而不能扩展到具有复杂花纹且种类繁多的非标准衣服(露肩衬衫)的问题。
2、本发明采用一种基于移动最小二乘和保相似性约束的算法,保持了局部翘曲的相似性减少扭曲和发生,解决了现有方法常常产生衣服过度失真的情况。
3、本发明采用提出了一种融合语义分割、扭曲衣服以及非目标身体图像来和合成输出的试穿合成算法,其中辅助衣服重建损失解决了当前方法不能保持纹理的情况。
为实现上述目的,本发明还提出一种基于循环三级变换的全方位虚拟试穿系统,所述系统包括存储器、处理器、以及存储在所述处理器上的基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被所述处理器运行时执行如上实施例所述的方法的步骤,这里不再赘述。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被处理器运行时执行如上实施例所述的方法的步骤,这里不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述方法包括以下步骤:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息;
根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理;
根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人。
2.根据权利要求1所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法生成试穿语义布局信息的步骤包括:
基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系;
根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息。
3.根据权利要求2所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述基于服装、人体姿态和人体语义的表示,结合循环三级变换的语义生成算法,找出服装和姿态图二者之间的对应关系的步骤包括:
将最初的人体语义图设为
Figure FDA0003657875350000011
衣服图设为
Figure FDA0003657875350000012
姿态图表示成
Figure FDA0003657875350000013
第t层的人体语义图
Figure FDA0003657875350000014
和衣服图
Figure FDA0003657875350000015
是由第t层的姿态图
Figure FDA0003657875350000016
中的注意力掩码更新,其中应用了sigmoid门控卷积:
Figure FDA0003657875350000017
Figure FDA0003657875350000018
其中,convS→C和convS→P指卷积层,σ是激活函数;
找出
Figure FDA0003657875350000019
Figure FDA00036578753500000110
的对应关系。
4.根据权利要求3所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述根据所述服装和姿态图二者之间的对应关系生成试穿语义布局信息的步骤包括:
Figure FDA00036578753500000111
Figure FDA00036578753500000112
分别展平成
Figure FDA00036578753500000113
Figure FDA00036578753500000114
Figure FDA00036578753500000118
是第t层的人体姿态图
Figure FDA00036578753500000115
reshape到RHW×C的表示符号,
Figure FDA00036578753500000116
是第t层的衣服图
Figure FDA00036578753500000117
reshape到RHW×C的表示符号,RHW×C表示一个长为H×W宽为C的矩实数矩阵,即维度为[H×W,C],相关矩阵
Figure FDA0003657875350000021
由成对的特征计算:
Figure FDA0003657875350000022
其中,
Figure FDA0003657875350000023
指的是x′t C,x′t P的特征,
Figure FDA0003657875350000024
指的是对应相似性;
然后使用非局部对应矩阵
Figure FDA0003657875350000025
Figure FDA0003657875350000026
中展平的衣服向量
Figure FDA0003657875350000027
Figure FDA0003657875350000028
其中,α是锐化参数,
Figure FDA0003657875350000029
是使用滑动窗口展开的,softmaxv是行维度操作的softmax操作;
然后重新将扁平化的衣服向量
Figure FDA00036578753500000210
变为
Figure FDA00036578753500000211
使用计算出的注意力掩码
Figure FDA00036578753500000212
Figure FDA00036578753500000213
衣服和姿势被更新为:
Figure FDA00036578753500000214
Figure FDA00036578753500000215
其中,⊙指的是哈达玛积;
然后提取高级特征以计算相关性矩阵
Figure FDA00036578753500000216
得到转换后的衣服编码
Figure FDA00036578753500000217
将人体语义编码
Figure FDA00036578753500000218
按以下公式更新为:
Figure FDA00036578753500000219
其中,γ(·),β(·)表示条件尺度和偏移参数计算,遵循空间特征变换SFT。
5.根据权利要求4所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理的步骤包括:
将均匀采样的初始控制点定义为q,将预测的目标点定义为q′,给定图像中的一个点v,应用衰减权重为每个点v计算不同的仿射变换:
Figure FDA00036578753500000220
其中,α是默认值为1的衰减参数,i表示第i个点。
6.根据权利要求5所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述根据所述语义布局信息,采用基于移动最小二乘法的图像形变方法和相似保留约束对目标服装进行变形以转移纹理的步骤中施加了相似保留约束,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换。
7.根据权利要求6所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述相似保留约束在所述预测的目标点q′的每个四边形内计算,通过惩罚变形的三角形{q′0,q′1,q′2}来强制每个三角形进行相似变换的步骤包括:
定义相对坐标q1{x01,0},q2{0,y02},其中x01,y02是均匀采样控制点的固定间隔,q2由q0和q1定义为:
Figure FDA0003657875350000031
其中,R90表示逆时针旋转90度,给定q′0和q′1按以下公式计算出q′2的期望位置:
Figure FDA0003657875350000032
然后使用的正则项按以下公式计算得到:
Figure FDA0003657875350000033
其中
Figure FDA0003657875350000034
指的是q′2的误差项;
类似地,将相同的机制应用于同一四边形中的另一个三角形的q′1
Figure FDA0003657875350000035
其中每个四边形的误差相加形成最终的正则化损失,训练时,再根据试穿后的真实图像图和真实语义图得到试穿后的真实衣服图cgt,计算变形的服装cwarp和cgt之间的L1损失;之后将原衣服图c和试穿后的真实衣服图cgt分别经过vgg19网络来提取特征得到cfeature和cgt-feature,再通过变形时预测的矩阵grid将cfeature进行变换;对变换后的图像和cgt-feature计算逐像素之差作为感知损失。
8.根据权利要求7所述的基于循环三级变换的全方位虚拟试穿方法,其特征在于,所述根据所述试穿语义布局信息和已经变形的服装图像,生成穿着服装的人的步骤包括:
生成三元组{I′S,CR,α},其中I′S是生成的身体部分,CR是用于辅助监督的变形衣服,α是合成蒙版,将生成的图像与变形的衣服CW合成:
IS=α⊙I′S+(1-α)⊙CW
其中,⊙表示逐元素相乘,IS是最后的生成结果;
在测试过程中,利用人的语义布局和预测的语义布局,通过将剩余的身体IR输入到试穿融合模块中来保留不变的皮肤像素,定义如下:
IR=I⊙Mskin⊙M′skin
其中,I是输入参考人,Mskin是参考人的皮肤区域,M′skin是预测语义布局的皮肤区域。
9.一种基于循环三级变换的全方位虚拟试穿系统,其特征在于,所述系统包括存储器、处理器、以及存储在所述处理器上的基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被所述处理器运行时执行如权利要求1至8任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于循环三级变换的全方位虚拟试穿程序,所述基于循环三级变换的全方位虚拟试穿程序被处理器运行时执行如权利要求1至8任意一项所述的方法的步骤。
CN202210568501.4A 2022-05-23 2022-05-23 基于循环三级变换的全方位虚拟试穿方法、系统及介质 Pending CN114820294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210568501.4A CN114820294A (zh) 2022-05-23 2022-05-23 基于循环三级变换的全方位虚拟试穿方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210568501.4A CN114820294A (zh) 2022-05-23 2022-05-23 基于循环三级变换的全方位虚拟试穿方法、系统及介质

Publications (1)

Publication Number Publication Date
CN114820294A true CN114820294A (zh) 2022-07-29

Family

ID=82516367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210568501.4A Pending CN114820294A (zh) 2022-05-23 2022-05-23 基于循环三级变换的全方位虚拟试穿方法、系统及介质

Country Status (1)

Country Link
CN (1) CN114820294A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057976A (zh) * 2023-08-04 2023-11-14 南通大学 一种基于局部外观流的虚拟试衣方法
CN117710710A (zh) * 2024-02-06 2024-03-15 湖南善禧文化股份有限公司 一种深度语义理解的图像匹配方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057976A (zh) * 2023-08-04 2023-11-14 南通大学 一种基于局部外观流的虚拟试衣方法
CN117057976B (zh) * 2023-08-04 2024-03-19 南通大学 一种基于局部外观流的虚拟试衣方法
CN117710710A (zh) * 2024-02-06 2024-03-15 湖南善禧文化股份有限公司 一种深度语义理解的图像匹配方法

Similar Documents

Publication Publication Date Title
US11055888B2 (en) Appearance-flow-based image generation
US11367239B2 (en) Textured neural avatars
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
US11158121B1 (en) Systems and methods for generating accurate and realistic clothing models with wrinkles
CN109584353B (zh) 一种基于单目视频重建三维人脸表情模型的方法
CN114820294A (zh) 基于循环三级变换的全方位虚拟试穿方法、系统及介质
US20230169727A1 (en) Generative Nonlinear Human Shape Models
Zakharkin et al. Point-based modeling of human clothing
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
CN111028354A (zh) 一种基于图像序列的模型形变人脸三维重建方案
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN116012950A (zh) 一种基于多重心时空注意图卷积网络的骨架动作识别方法
Zhang et al. Data-driven facial animation via semi-supervised local patch alignment
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN115951784A (zh) 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法
Li et al. Spa: Sparse photorealistic animation using a single rgb-d camera
Li et al. Gaussianbody: Clothed human reconstruction via 3d gaussian splatting
Yuan et al. Interactive nerf geometry editing with shape priors
CN112365589B (zh) 一种虚拟三维场景展示方法、装置及系统
CN117593178A (zh) 一种基于特征引导的虚拟试衣方法
US20230126829A1 (en) Point-based modeling of human clothing
CN115761801A (zh) 一种基于视频时序信息的三维人体姿态迁移方法
CN115049764A (zh) Smpl参数预测模型的训练方法、装置、设备及介质
CN110349268B (zh) 一种三维人体姿态、表情及手势的重构方法
CN114092610A (zh) 一种基于生成对抗网络的人物视频生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination