CN117670695A - 一种用于改善遮挡问题的循环外观流虚拟试衣方法 - Google Patents
一种用于改善遮挡问题的循环外观流虚拟试衣方法 Download PDFInfo
- Publication number
- CN117670695A CN117670695A CN202311366008.5A CN202311366008A CN117670695A CN 117670695 A CN117670695 A CN 117670695A CN 202311366008 A CN202311366008 A CN 202311366008A CN 117670695 A CN117670695 A CN 117670695A
- Authority
- CN
- China
- Prior art keywords
- image
- appearance
- virtual fitting
- model
- clothing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000014759 maintenance of location Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 210000000323 shoulder joint Anatomy 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000037303 wrinkles Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011065 in-situ storage Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 229920002449 FKM Polymers 0.000 description 1
- 101100412102 Haemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd) rec2 gene Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种用于改善遮挡问题的循环外观流虚拟试衣方法,包括如下步骤:S1、收集时尚图像数据并预处理,构建语义信息数据组,所述语义信息数据组包括人物图像、姿态信息、语义信息、时尚衣物单品图像;S2、构建包含循环外观流形变模型和多掩码图像融合模型的两阶段虚拟试衣模型,并初始化网络权重;S3、利用反向传播算法学习模型参数,直至网络收敛;S4、输出模型,该方法改善现有的问题,基于循环优化外观流和多掩码图像融合模型,生成逼真的虚拟试衣图像。
Description
技术领域
本发明涉及信息处理技术领域,具体指一种用于改善遮挡问题的循环外观流虚拟试衣方法。
背景技术
随着在线购物的普及以及计算机图形引擎、人工智能、虚拟现实和增强现实等相关理论和技术的突破发展,虚拟试衣技术的研究工作得到了越来越多的关注。虚拟试衣技术对于满足不断增长的市场需求、提高用户体验并减少产品退货风险至关重要。过去,虚拟试衣的商业应用主要基于三维模型,利用计算机图形学相关技术对目标衣物进行完整的测量和建模,并最终渲染到人体上。然而,在现代时尚电子商务行业中,规模和速度是机遇和挑战。传统的三维方法计算密集且需要大量人力物力支持,这大大增加了虚拟试衣实际应用的成本。同时,该类技术仅适用于特定衣物建模,其灵活性和创造性也受到限制。对于二维图像虚拟试衣任务,传统的人工方法要求相关专业人员利用图像编辑软件对目标衣物进行形变处理,然后将其叠加在人物图像上以实现虚拟试穿效果。这同样要求高水平的专业技能和大量的时间投入。然而,近年来深度学习技术的迅速发展使得人工智能能够替代人类完成虚拟试衣工作成为可能。基于图像的虚拟试衣算法以人物模特图片和待试穿衣物为输入条件,将已有的人物衣物替换为待试穿衣物,合成出全新的服装试穿图像,该生成图像既要求保留待试穿衣物和原始人物的外观特征,保证两者不丢失过多细节,又需要有一定的如阴影和褶皱等真实感内容的生成。
在先前已有图像虚拟试衣方法中,基于薄板样条插值变化的形变模型用于对齐人物与服装图像,而该方法基于有限的控制点,难以处理复杂形变。相反,最近基于外观流的方法展示了学习具有更高灵活性的复杂非刚性服装变形的优势。这些方法使用源区域和目标区域之间的像素级偏移即密集的外观流来对服装图像进行形变,使之和人物相关区域对齐。然而这些方法未能很好地应对复杂手臂姿势。另外,图像到图像转换模型和空间语义自适应生成模型常被用于融合形变后的衣物图像与人物图像,但现有生成模型在生成真实感图像方面仍有待提升。本发明的任务旨在改善几个具有挑战性的问题。
1)人物手臂遮挡问题
当参考人物的手臂遮挡服装区域时,现有方法难以正确地分离出手臂区域,造成了例如衣服袖子丢失、手臂与身体部位粘连而未区分等不逼真的衣物形变和图像生成结果。
2)外观流模型训练过程不合理
现有的基于外观流的方法在训练过程中依赖于从粗糙到精细的分辨率策略来学习外观流。通常,这些方法使用级联的流估计网络,在低分辨率下估计外观流,然后在较高分辨率上进行优化。这使得这些方法容易在粗糙分辨率的尺度上累积误差,且不易在后续分辨率修正,导致最终结果的误差。
3)图像生成模型真实感不足
现有图像生成方法仅作简单的衣物图像与人物图像拼接和部分人体皮肤像素生成,无法生成现实衣物试穿造成的阴影与褶皱以及针对人物原始肤色信息做出的皮肤内容生成调整,这造成了生成图像,特别是手臂遮挡区域的不真实感。
因此亟需一种试衣方法致力于改善现有的问题,基于循环优化外观流和多掩码图像融合模型,生成逼真的虚拟试衣图像。
发明内容
本发明针对现有技术的不足,提出一种用于改善遮挡问题的循环外观流虚拟试衣方法,改善现有的问题,基于循环优化外观流和多掩码图像融合模型,生成逼真的虚拟试衣图像。
为了解决上述技术问题,本发明的技术方案为:
一种用于改善遮挡问题的循环外观流虚拟试衣方法,包括如下步骤:
S1、收集时尚图像数据并预处理,构建语义信息数据组,所述语义信息数据组包括人物图像、姿态信息、语义信息、时尚衣物单品图像;
S2、构建包含循环外观流形变模型和多掩码图像融合模型的两阶段虚拟试衣模型,并初始化网络权重;
S2-1、通过所述循环外观流形变模型预测一个与输入的图像相同尺寸的外观流ft,并利用外观流ft得到形变后时尚衣物单品图像Iw和衣物无关的人物保留图像Ip,同时生成目标人物语义预测图Sp;
输入语义信息数据通过循环外观流形变模型中的特征提取器得到时尚衣物单品特征Fg∈Rh×w×d、人体特征Fp∈Rh×w×d和上下文特征Fc∈Rh×w×d;
通过时尚衣物单品特征Fg∈Rh×w×d、人体特征Fp∈Rh×w×d得到相关性金字塔{C1,C2,C3,C4},其中
定义查表操作L,按照索引从相关性金字塔中检索相关性并计算特征得到外观流;具体的,对于一个当前估计出的外观流假设时尚衣物单品特征Fg的某个空间位置为x=(u,v),在人物特征Fp上与之关联的位置为/> 定义位置x′的局部邻域为/> 其中,dx表示以x′为中心的偏移量,||dx||1≤r表示偏移量的半径以L1距离计算并且不超过r。相关性金字塔具有时尚衣物单品Fg上x=(u,v)位置与人物特征Fp所有位置的特征相似性,包含了x=(u,v)与局部邻域/>的特征相似性。因此可以直接从相关性金字塔中索引得到所需局部特征相关性。
使用循环外观流形变模型中的外观流更新块,将外观流作为输入,得到特征F′h=attn×ψ(Fh);
使用循环外观流形变模型中的门控循环单元,将Fc,Fh,F′h的拼接结果和外观流更新块中的隐藏层ht-1一起送入门控循环单元,得到精细外观流ft=f′t+Δft″;
利用精细外观流将输入的时尚衣物单品图像Ig形变至与输入人体图像对齐匹配的形变后时尚衣物单品图像Iw,具体的,对于输入的时尚衣物单品图像Ig的每个像素,将其原位置坐标加上精细外观流ft在该位置的偏移值,得到新的位置坐标,从而实现图像的形变,同时生成目标人物语义预测图Sp;
S2-2、将形变后时尚衣物单品图像Iw、目标人物语义预测图Sp以及衣物无关的人物保留图像Ip作为输入通过多掩码图像融合模型输出的虚拟试衣图像It,其中衣物无关的人物保留图像Ip由输入的人物图像和预处理得到的姿态信息和语义信息处理得到,具体的,从人物语义信息选取衣物区域,将原人物图像相同位置像素值替换为0;从姿态信息中选取肩膀关节点附近半径为5个像素单位的圆形邻域,将原人物图像相同位置区域像素值替换为0,从而得到衣物无关的人物保留图像Ip。
S3、利用反向传播算法学习模型参数,直至网络收敛;
S4、输出模型。
作为优选,所述步骤S1中,预处理的方法为:收集的时尚图像数据,使用姿态评估器从时尚图像中估计人的姿态,所述人的姿态信息包含18个关节坐标点;使用人体解析器计算一个包含20个标签的语义信息和25个标签的姿态信息。
作为优选,所述步骤S2-1中,利用三个个网络结构相同但参数不共享的特征提取器从时尚衣物单品图像和姿态信息的组合中提取时尚衣物单品特征Fg∈Rh×w×d、人体特征Fp∈Rh×w×d和上下文特征Fc∈Rh×w×d。
作为优选,所述步骤S2-1中,相关性金字塔的获取方法为:构造一个四维的相关性容器,所述相关性容器的值通过特征的点乘得到:Cijkl(Fg,Fp)=<Fg(ijd),Fp(kld)>∈Rh ×w×h×w,其中Fg(ijd)和Fp(kld)分别代表服装特征Fg通道为d,空间位置为(i,j)的特征向量与人物特征Fp通道为d,空间位置为(k,l)的特征向量;然后,采用核大小为2×2的平均池化操作,对相关性容器后二维平均池化三次,得到一个由四个四维相关性容器组成的相关性金字塔{C1,C2,C3,C4},其中
作为优选,所述步骤S2-1中,利用外观流更新块更新外观流的方法为:
对上下文特征Fc进行投影,得到查询特征θ(Fc),键特征φ(Fc),其中θ(Fc)=Wq×Fc,φ(Fc)=Wk×Fc,进一步得到注意力矩阵attn=softmax(θ(Fc)φ(Fc)T),其中Wq,Wk和Wk是可学习的参数,
给定当前的外观流的估计ft-1,从相关性金字塔中利用查表操作L得到相关性特征Ct-1,对于ft-1,应用卷积层来生成外观流特征,相关性特征Ct-1通过卷积层进行处理,并与外观流特征进行拼接,拼接后的特征通过卷积层进行处理,得到特征Fh,将Fh投影至值特征ψ(Fh)=Wv×Fh,ψ(Fh)与注意力矩阵相乘得到特征F′h=attn×ψ(Fh),其中,Fc,θ(Fc),φ(Fc),ψ(Fh),Fh和F′h都有着相同的纬度Rh×w×d。
作为优选,所述步骤S2-1中,得到精细外观流的方法为:
将Fc,Fh,F′h的拼接结果和隐藏层ht-1一起送入门控循环单元,门控循环单元的隐藏层输出ht再经过两个卷积层来估计粗糙残差外观流Δf′t,同时,ht-1也经过三个上采样+卷积操作,估计得到人物语义图Sp,其中粗糙外观流为f′t=ft-1+Δf′t,引入特征对齐机制,使用f′t将服装特征Fg形变至F′g,然后将F′g与Fp拼接送入卷积层生成一个精细的残差外观流Δft″,最后,得到精细外观流ft=ft′+Δft″。
作为优选,所述步骤S2-2中,多掩码图像融合模型包括了一个参数共享的编码器,一个多掩码生成器Gm和一个多内容生成器Gc。
作为优选,所述步骤S2-2中,输出虚拟试衣图像It的方法为:
首先,通过叠加Iw和Ip得到Is,再把Is与Sp拼接并送入编码器提取特征;然后把通过编码器提取到的特征送入多掩码生成器Gm和多内容生成器Gc;
通过多掩码生成器Gm生成n个注意力掩码,表示为Mi,i=1,...,n,以及一个组合选择掩码M0;
通过多内容生成器Gc生成n个处于RGB色彩空间的内容图像,表示为Ci,i=1,...,n;
组合选择掩码M0从Is中选择相应的像素,而注意力掩码Mi从内容图像Ci中选择相应的像素,将通过组合选择掩码M0和注意力掩码Mi选择的像素进行组合,得到最终的虚拟试衣图像
作为优选,所述两阶段虚拟试衣模型的目标函数为:由最小化对抗损失、交叉熵损失、像素级损失、感知损失及外观流平滑损失组成的总目标函数,所述总目标函数利用收集到的语义信息数据组训练循环外观流形变模型和多掩码图像融合模型。
本发明具有以下的特点和有益效果:
采用上述技术方案,通过循环预测的外观流的和多掩码图像生成模型的图像融合,得到了优秀的虚拟试衣结果,并且可以在不同的遮挡场景下进行虚拟试衣,定量定性均超过了最先进的方法。
该方法主要包括两个方面:一是通过循环迭代优化的外观流预测方法,实现对衣物的精确形变控制;二是利用多掩码图像融合模型,将衣物与人体生成的图像进行合成,最终生成逼真的虚拟试衣图像。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的具体流程示意图;
图2为本发明实施例中循环外观流形变模型;
图3为本发明实施例中多掩码图像融合模型;
图4为本发明数据组示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
本发明提供了一种改善遮挡问题的循环外观流虚拟试衣方法,通过循环预测的外观流的和多掩码图像生成模型的图像融合,得到了优秀的虚拟试衣结果。进行了大量的实验,证明所提出的方法可以在不同的遮挡场景下进行虚拟试衣,定量定性均超过了最先进的方法。
一种用于改善遮挡问题的循环外观流虚拟试衣方法,如图1所示,其步骤如下:
步骤(1)、借助现有的时尚数据集,收集任务的数据,并对数据进行预处理,构建人物模特图像、姿态信息、语义信息、时尚衣物单品图像数据组。
本实施例中,借助现有时尚数据集,收集任务的数据,是指在VITON和VITON-HD数据集上评估了的方法,因为它包含了各种类型时尚衣物单品与模特试穿配对图。
步骤(2)、在现有数据组下,以生成自然准确的虚拟试衣图像为目标,构建两阶段模型;阶段一为循环外观流形变模型,采用多任务学习策略,生成密集的外观流预测和人体语义分割图,在第二阶段提出了一个引入了多掩码生成和选择机制的合成模型。
步骤(3)、在最小化对抗损失、交叉熵损失、像素级损失、感知损失及外观流平滑损失下,利用收集到的数据组训练循环外观流形变模型和多掩码图像融合模型。
步骤(4)、通过反向传播算法对步骤(3)中的模型中的网络参数进行训练,直至整个模型收敛,生成对应的虚拟试衣图像。
具体的,步骤(1)所述的构建人物模特图像、姿态信息、语义信息数据组,是指对于对应的时尚图像数据,使用最先进的姿态评估器从时尚图像中估计人的姿态,计算出的人的姿态信息包含18个关节坐标点。另外,使用先进的人体解析器来计算一个包含20个标签的人体语义信息和25个标签的人体深度姿态信息,每个标签代表人体的特定部分,比如脸、头发、胳膊、腿和衣服区域。
步骤(2)所述的构建两阶段模型,包括循环外观流形变模型和多掩码图像融合模型,实现精准的衣物形变、语义图预测以及图像合成,生成真实感强的虚拟试衣图像,具体如下:
如图2所示,第一阶段:外观流形变网络
为了使服装与目标人物的体形、姿势对齐,外观流估计模块通过估计服装与目标人物之间的外观流,对服装进行自然、准确的形变。此外,该网络采用多任务学习策略,同时估计试穿后的目标人物语义图,来改善外观流估计的准确的,并为第二阶段合成模块提供语义指导。
在外观流形变网络中,本实施例的目标是预测一个与输入图像相同尺寸的稠密外观流ft,利用其将输入的时尚衣物单品图像Ig形变至与输入人体图像对齐匹配的形变后时尚衣物单品图像Iw,具体的,对于输入的时尚衣物单品图像Ig的每个像素,将其原位置坐标加上精细外观流ft在该位置的偏移值,得到新的位置坐标,从而实现图像的形变。同时生成目标人物语义预测图Sp。
将形变后时尚衣物单品图像Iw、目标人物语义预测图Sp以及衣物无关的人物保留图像Ip作为输入通过多掩码图像融合模型输出的虚拟试衣图像It,其中衣物无关的人物保留图像Ip由输入的人物图像和预处理得到的姿态信息和语义信息处理得到,具体的,从人物语义信息选取衣物区域,将原人物图像相同位置像素值替换为0;从姿态信息中选取肩膀关节点附近半径为5个像素单位的圆形邻域,将原人物图像相同位置区域像素值替换为0,从而得到衣物无关的人物保留图像Ip。
具体的,外观流形变网络包含了特征提取器,特征提取器负责从时尚衣物单品和人体中提取适当的特征。首先,从输入人物图像Ir预处理得到衣物无关语义分割图Sr,人体深度姿态信息Pr和关键点姿态信息Kr。然后,利用两个网络结构相同但参数不共享的特征提起器从时尚衣物单品图像和预处理人体语义姿态信息组合提取高层次特征:时尚衣物单品特征Fg∈Rh×w×d与人体特征Fp∈Rh×w×d。这些特征将用于计算人体与时尚衣物单品的视觉相关性。另外,还从时尚衣物单品图像提取上下文特征Fc∈Rh×w×d,用于在外观流更新块初始化和更新隐藏层。
在获得上述特征后,关键的步骤是计算特征的视觉相关性,视觉相似性表示了时尚衣物单品与参考人体之间的对应关系。具体来说,我们构造一个四维相关性容器,其值来自特征的点乘其中/>和/>分别代表服装特征Fg通道为d,空间位置为(i,j)的特征向量与人物特征Fp通道为d,空间位置为(k,l)的特征向量。然后,采用核大小为2×2的平均池化操作,对相关性容器后二维平均池化三次,得到一个由四个四维相关性容器组成的相关性金字塔{C1,C2,C3,C4},其中该相关性金字塔在多个尺度上捕捉人与时尚衣物单品之间的整体视觉相关性,并被反复查询和输入到一个循环网络中迭代外观流。
为了估计稠密的外观流,定义一个查表操作L,即按照索引从四维相关性金字塔中检索相关性并计算特征。因为衣物时尚衣物单品通常会扭曲到人体的上部,因此没有必要将整个相关金字塔作为外观流更新块的输入,此外,
具体的,对于一个当前估计出的外观流假设时尚衣物单品特征Fg的某个空间位置为x=(u,v),在人物特征Fp上与之关联的位置为/> 定义位置x′的局部邻域为/> 其中,dx表示以x′为中心的偏移量,||dx||1≤r表示偏移量的半径以L1距离计算并且不超过r。相关性金字塔具有时尚衣物单品Fg上x=(u,v)位置与人物特征Fp所有位置的特征相似性,包含了x=(u,v)与局部邻域的特征相似性。因此可以直接从相关性金字塔中索引得到所需局部特征相关性。
本实施例中,查找操作显著降级了迭代更新外观流的计算复杂度。对于一个位于人物图像中的像素x′=(u,v),通过相关性金字塔的索引,得到了人和时尚衣物单品的多尺度相关性特征。例如,在x′周围构建了一个领域网格,然后利用双线性采用在相关性金字塔上进行信息提取。
外观流更新块用于迭代更新外观流。它接收了当前外观流估计结果ft-1,相关性特征Ct-1,上下文特征Fc,时尚衣物单品特征Fg,人物特征Fp以及上一次迭代的隐藏层ht-1,输出了粗糙残差外观流Δf′t,精细残差外观流Δft″,当前隐藏层ht以及目标人物语义预测图Sp。我们定义初始外观流为f0=(0,0)。在每次外观流迭代过程,我们首先引入一个注意力机制来捕捉时尚衣物单品图像像素之间的长距离依赖,相关性矩阵由时尚衣物单品图像的自相关性计算得到。我们对上下文特征Fc进行投影,得到查询特征θ(Fc),键特征φ(Fc),其中θ(Fc)=Wq×Fc,φ(Fc)=Wk×Fc,进一步得到注意力矩阵attn=softmax(θ(Fc)φ(Fc)T)。对于每个时尚衣物单品图像的像素,识别其与哪些其他像素相关,是准确估计外观流的关键提示。利用注意力机制对外观流的估计非常有利。给定当前的外观流估计ft-1,我们从相关性金字塔中利用查表操作L得到相关性特征Ct-1。对于ft-1,我们应用卷积层来生成外观流特征。相关性特征Ct-1通过卷积层进行处理,并与外观流特征进行拼接。拼接后的特征通过卷积层进行处理,得到特征Fh。我们将Fh投影至值特征ψ(Fh)=Wv×Fh。ψ(Fh)与注意力矩阵相乘得到特征F′h=attn×ψ(Fh)。注意Fc,θ(Fc),φ(Fc),ψ(Fh),Fh和F′h都有着相同的维度Rh×w×d,Wq,Wk和Wk是可学习的参数。
然后,Fc,Fh,F′h的拼接结果和ht-1一起送入门控循环单元。门控循环单元的隐藏层输出ht再经过两个卷积层来估计粗糙残差外观流Δf′t,同时,ht-1也经过三个上采样+卷积操作,估计得到人物语义图Sp。由于粗糙外观流ft′=ft-1+Δft′往往忽略了服装的细粒度细节,如图案和纹理,我们引入一个特征对齐机制。特征对齐机制通过对齐形变的时尚衣物单品特征和人物特征,来修正粗糙外观流的错误。具体来说,我们使用ft′将服装特征Fg形变至Fg′,然后将其与Fp拼接送入卷积层生成一个精细的残差外观流Δft″,最后,我们得到精细外观流ft=ft′+Δft″。
如图3所示,第二阶段:图像合成网络
本实施例的图像合成网络旨在通过参考人物和时尚衣物单品生成高质量的试衣图像。大多数现有的虚拟试衣方法都是利用一个U型编码器解码器结构的生成器网络和一个用于选择机制的单一组合掩码。然而这种方法不能有效地区分服装和手臂之间的边界,也不能产生如阴影和褶皱这种复杂的服装细节,特别是在产生遮挡情况以及复杂姿势下。为了达到照相级的真实感,我们的图像合成模型提出了一种新的掩码生成和选择机制。与之前的方法不同,我们的方法生成了多个注意力掩码和相对应的内容图像,并与生成的试穿图像融合,产生高质量的虚拟试衣图像结果。我们提出的多掩码图像合成模型是对现有方法的一个显著改进。
详细来说,我们的多掩码图像合成模型包括了一个参数共享的编码器,一个多掩码生成器Gm和一个多内容生成器Gc。该网络接收形变后的时尚衣物单品图像Iw,估计的人物语义分割图Sp,衣物无关的人物保留图像Ip作为输入,输出最终的虚拟试衣图像It。注意Iw和Sp均来自第一阶段。首先,我们通过叠加Iw和Ip得到Is,再把Is与Sp拼接并送入编码器。然后我们把提取到的特征送入Gm与Gc。在这里,Gm生成n个注意力掩码,表示为Mi,i=1,...,n,以及一个组合选择掩码M0。Gc生成n个处于RGB色彩空间的内容图像,表示为Ci,i=1,...,n,这些内容图像包含了细粒度的生成细节,如阴影、褶皱和人物皮肤。组合选择掩码M0从Is中选择相应的像素,而注意力掩码Mi从内容图像Ci中选择相应的像素。最后,我们将这些内容组合,得到具有真实感的输出
步骤(3)、构建深度学习框架,在最小化对抗损失、交叉熵损失、像素级损失、感知损失及风格损失下,利用收集到的数据组训练语义布局生成网络和纹理生成网络。具体如下:
为了鼓励被第i次估计外观流ft形变后的时尚衣物单品图像与真实人物穿着图像I′r之间的视觉相似性,我们使用像素级损失/>和感知损失,其中φm是指在ImageNet数据集预训练的VGG-19网络的第m层特征。我们也对形变后时尚衣物单品与真实人物穿着图像的二值化掩码和Edge(I′r)进行像素级损失约束,/> 为了保证形变后时尚衣物单品图案与纹理的一致性,我们使用外观流平滑损失其中fi k表示第i次迭代的外观流的第k个点,/>表示该点的水平、垂直和对角领域。/>是Charbonnier损失方程。
为了促进语义信息的估计效果,我们在预测的语义分割图Sp和真实语义分割图S′p之间计算像素级交叉熵损失我们也使用一个鉴别器网络来进行对抗训练。
外观流形变模型的整体损失函数如下:
其中N是外观流的总迭代次数,γi是每次迭代的权重。和λadv是各项损失函数的权重。
在第二阶段,我们对图像合成模型应用如下损失
其中和/>分别代表模型输出与真实图像的重建和感知损失,对应的权重分别是λrec2和λper2。/>和/>表示第i个生成内容图像与真实图像间的损失,并在最终计算时采用所有内容的平均值。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (10)
1.一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,包括如下步骤:
S1、收集时尚图像数据并预处理,构建语义信息数据组,所述语义信息数据组包括人物图像、姿态信息、语义信息、时尚衣物单品图像;
S2、构建包含循环外观流形变模型和多掩码图像融合模型的两阶段虚拟试衣模型,并初始化网络权重;
S2-1、通过所述循环外观流形变模型预测一个与输入的图像相同尺寸的外观流ft,并利用外观流ft得到形变后时尚衣物单品图像Iw和衣物无关的人物保留图像Ip,同时生成目标人物语义预测图Sp;
输入语义信息数据通过循环外观流形变模型中的特征提取器得到时尚衣物单品特征Fg∈Rh×w×d、人体特征Fp∈Rh×w×d和上下文特征Fc∈Rh×w×d;
通过时尚衣物单品特征Fg∈Rh×w×d、人体特征Fp∈Rh×w×d得到相关性金字塔{C1,C2,C3,C4},其中
定义查表操作L,按照索引从相关性金字塔中检索相关性并计算特征得到外观流;
使用循环外观流形变模型中的外观流更新块,将外观流作为输入,得到特征F′h=attn×ψ(Fh);
使用循环外观流形变模型中的门控循环单元,将Fc,Fh,F′h的拼接结果和外观流更新块中的隐藏层ht-1一起送入门控循环单元,得到精细外观流ft=f′t+Δf″t;
利用精细外观流将输入的时尚衣物单品图像Ig形变至与输入人体图像对齐匹配的形变后时尚衣物单品图像Iw,同时生成目标人物语义预测图Sp;
S2-2、将形变后时尚衣物单品图像Iw、目标人物语义预测图Sp以及衣物无关的人物保留图像Ip作为输入通过多掩码图像融合模型输出的虚拟试衣图像It;
S3、利用反向传播算法学习模型参数,直至网络收敛;
S4、输出模型。
2.根据权利要求1所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述步骤S1中,预处理的方法为:收集的时尚图像数据,使用姿态评估器从时尚图像中估计人的姿态,所述人的姿态信息包含18个关节坐标点;使用人体解析器计算一个包含20个标签的语义信息和25个标签的姿态信息。
3.根据权利要求2所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述步骤S2-1中,利用三个个网络结构相同但参数不共享的特征提取器从时尚衣物单品图像和姿态信息的组合中提取时尚衣物单品特征Fg∈Rh×w×d、人体特征Fp∈Rh×w×d和上下文特征Fc∈Rh×w×d。
4.根据权利要求3所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述衣物无关的人物保留图像Ip获取方法:
从人物语义信息选取衣物区域,将原人物图像相同位置像素值替换为0;从姿态信息中选取肩膀关节点附近半径为5个像素单位的圆形邻域,将原人物图像相同位置区域像素值替换为0,从而得到衣物无关的人物保留图像Ip。
5.根据权利要求4所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述步骤S2-1中,相关性金字塔的获取方法为:构造一个四维的相关性容器,所述相关性容器的值通过特征的点乘得到:Cijkl(Fg,Fp)=<Fg(ijd),Fp(kld)>∈Rh×w×h×w,其中Fg(ijd)和Fp(kld)分别代表服装特征Fg通道为d,空间位置为(i,j)的特征向量与人物特征Fp通道为d,空间位置为(k,l)的特征向量;然后,采用核大小为2×2的平均池化操作,对相关性容器后二维平均池化三次,得到一个由四个四维相关性容器组成的相关性金字塔{C1,C2,C3,C4},其中
6.根据权利要求5所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述步骤S2-1中,利用外观流更新块更新外观流的方法为:
对上下文特征Fc进行投影,得到查询特征θ(Fc),键特征φ(Fc),其中θ(Fc)=Wq×Fc,φ(Fc)=Wk×Fc,进一步得到注意力矩阵attn=softmax(θ(Fc)φ(Fc)T),其中Wq,Wk和Wk是可学习的参数,
给定当前的外观流的估计ft-1,从相关性金字塔中利用查表操作L得到相关性特征Ct-1,对于ft-1,应用卷积层来生成外观流特征,相关性特征Ct-1通过卷积层进行处理,并与外观流特征进行拼接,拼接后的特征通过卷积层进行处理,得到特征Fh,将Fh投影至值特征ψ(Fh)=Wv×Fh,ψ(Fh)与注意力矩阵相乘得到特征F′h=attn×ψ(Fh),其中,Fc,θ(Fc),φ(Fc),ψ(Fh),Fh和F′h都有着相同的维度Rh×w×d。
7.根据权利要求6所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述步骤S2-1中,得到精细外观流的方法为:
将Fc,Fh,F′h的拼接结果和隐藏层ht-1一起送入门控循环单元,门控循环单元的隐藏层输出ht再经过两个卷积层来估计粗糙残差外观流Δf′t,同时,ht-1也经过三个上采样+卷积操作,估计得到人物语义图Sp,其中粗糙外观流为f′t=ft-1+Δf′t,引入特征对齐机制,使用f′t将服装特征Fg形变至F′g,然后将F′g与Fp拼接送入卷积层生成一个精细的残差外观流Δf″t,最后,得到精细外观流ft=f′t+Δf″t。
8.根据权利要求7所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述步骤S2-2中,多掩码图像融合模型包括了一个参数共享的编码器,一个多掩码生成器Gm和一个多内容生成器Gc。
9.根据权利要求8所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述步骤S2-2中,输出虚拟试衣图像It的方法为:
首先,通过叠加Iw和Ip得到Is,再把Is与Sp拼接并送入编码器提取特征;然后把通过编码器提取到的特征送入多掩码生成器Gm和多内容生成器Gc;
通过多掩码生成器Gm生成n个注意力掩码,表示为Mi,i=1,...,n,以及一个组合选择掩码M0;
通过多内容生成器Gc生成n个处于RGB色彩空间的内容图像,表示为Ci,i=1,...,n;
组合选择掩码M0从Is中选择相应的像素,而注意力掩码Mi从内容图像Ci中选择相应的像素,将通过组合选择掩码M0和注意力掩码Mi选择的像素进行组合,得到最终的虚拟试衣图像
10.根据权利要求1所述的一种用于改善遮挡问题的循环外观流虚拟试衣方法,其特征在于,所述两阶段虚拟试衣模型的目标函数为:由最小化对抗损失、交叉熵损失、像素级损失、感知损失及外观流平滑损失组成的总目标函数,所述总目标函数利用收集到的语义信息数据组训练循环外观流形变模型和多掩码图像融合模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311366008.5A CN117670695A (zh) | 2023-10-20 | 2023-10-20 | 一种用于改善遮挡问题的循环外观流虚拟试衣方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311366008.5A CN117670695A (zh) | 2023-10-20 | 2023-10-20 | 一种用于改善遮挡问题的循环外观流虚拟试衣方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117670695A true CN117670695A (zh) | 2024-03-08 |
Family
ID=90068961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311366008.5A Pending CN117670695A (zh) | 2023-10-20 | 2023-10-20 | 一种用于改善遮挡问题的循环外观流虚拟试衣方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117670695A (zh) |
-
2023
- 2023-10-20 CN CN202311366008.5A patent/CN117670695A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Bcnet: Learning body and cloth shape from a single image | |
Yang et al. | Physics-inspired garment recovery from a single-view image | |
US11055888B2 (en) | Appearance-flow-based image generation | |
Guan et al. | Drape: Dressing any person | |
Zhang et al. | Avatargen: a 3d generative model for animatable human avatars | |
Balan et al. | Detailed human shape and pose from images | |
CN111275518A (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
Yang et al. | Detailed garment recovery from a single-view image | |
Shen et al. | Gan-based garment generation using sewing pattern images | |
CN110310285A (zh) | 一种精确的基于三维人体重建的烧伤面积计算方法 | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
WO2021063271A1 (zh) | 人体模型重建方法、重建系统及存储介质 | |
Zakharkin et al. | Point-based modeling of human clothing | |
CN115951784B (zh) | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 | |
CN112330813A (zh) | 一种基于单目深度摄像头的着装下三维人体模型重建方法 | |
Zheng et al. | Image-based clothes changing system | |
CN114693570A (zh) | 一种人体模型图像的融合处理方法、设备和存储介质 | |
Choutas et al. | Learning to fit morphable models | |
Li et al. | Spa: Sparse photorealistic animation using a single rgb-d camera | |
Ye et al. | 3d morphable face model for face animation | |
Liang et al. | Machine learning for digital try-on: Challenges and progress | |
CN116310066A (zh) | 一种单图像三维人体形态估计方法及应用 | |
Makarov et al. | Real-time 3d model reconstruction and mapping for fashion | |
CN114004772A (zh) | 图像处理方法、图像合成模型的确定方法、系统及设备 | |
Zhu et al. | Champ: Controllable and consistent human image animation with 3d parametric guidance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |