CN113538610A - 一种基于稠密流的虚拟试衣方法 - Google Patents

一种基于稠密流的虚拟试衣方法 Download PDF

Info

Publication number
CN113538610A
CN113538610A CN202110686459.1A CN202110686459A CN113538610A CN 113538610 A CN113538610 A CN 113538610A CN 202110686459 A CN202110686459 A CN 202110686459A CN 113538610 A CN113538610 A CN 113538610A
Authority
CN
China
Prior art keywords
clothing
semantic segmentation
information
target
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110686459.1A
Other languages
English (en)
Other versions
CN113538610B (zh
Inventor
顾晓玲
王涛
俞俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110686459.1A priority Critical patent/CN113538610B/zh
Publication of CN113538610A publication Critical patent/CN113538610A/zh
Application granted granted Critical
Publication of CN113538610B publication Critical patent/CN113538610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0621Item configuration or customization
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于稠密流的虚拟试衣方法。本发明主要涉及利用深层神经网络生成目标语义分割图,并通过语义分割图利用可变形卷积神经网络预测稠密流,用于对源服装的特征信息进行空间形变并与目标人体信息融合得到服装转换的结果。本发明包括如下步骤:步骤(1)、生成目标语义分割图;步骤(2)、计算稠密流;步骤(3)、对人体信息和源服装信息进行融合得到最后的结果。本发明不需要服装的原始产品图,而是一张模特图,同时也能完成同一件服装在不同人物身上以不同视角的呈现,生成的结果纹理清晰,转换自然,目前获得了在该领域最好的效果。

Description

一种基于稠密流的虚拟试衣方法
技术领域
本发明属于虚拟试衣技术领域,提出一种基于稠密流的虚拟试衣方法。
背景技术
随着近年来互联网发展迅速,产生了一系列电商平台,众多人群选择从互联网上购买所需商品,比如生活用品、食物和衣物,这与线下购买方式相比为人们提供了极大的便捷。但线上购物也有一些弊端,如从互联网上购买衣物时,由于无法试穿衣服,可能导致顾客糟糕的购物体验,为了解决这个问题,虚拟试衣任务应运而生。基于图像的虚拟试衣在近年来已成为了一个热门话题的,目的是将服装图像转移到目标人物身上。传统的虚拟试衣任务通常侧重于在保持人体姿势不变情况下令服装扭曲成符合人体,并保存服装形象的特征(纹理,图标,刺绣)。此外姿势引导的人体生成在大量的现实应用程序中非常重要,特别是对于时尚行业,客户或造型师希望将服装从一个人转移到另一个人。图像到图像转换的生成网络的最新进展激发了研究人员通过输入源图像和目标姿态作为输入,然后合成目标图像来解决这个问题。然而,衣服的非刚性性质可能会导致严重变形和无法正确处理的严重遮挡,从而限制其在目标视图中呈现服装细节(例如,图案、图形、标志)的性能。以上两个任务都有较大的限制,第一个任务需要先获得服装的原始产品图,第二个任务只针对同一人物和服装的不同视角的生成,不考虑服装交换问题。本发明结合了上述两个任务的特点并更具挑战性,我们不需要服装的原始产品图,而是一张穿着源服装的模特图,同时可以完成同一件服装在不同人物身上以不同视角的呈现。想象一下,你能在舒适的家里,在几分钟内,在外面,尝试穿上名人红毯上的不同类型的衣服而不用花费大量的购物时间。在本发明中,我们的目标是通过一种算法来实现这一目标,在任意姿势、形状和服装中的两个单个视图模特图像之间传递服装信息。例如,在拍摄完照片后,摄影师可能会决定穿着不同的摄影环境和照明条件的衣服看起来更好。服装转移也很适合于设计理念,它可以回答诸如“这种风格的服装在不同体型和比例上的外观如何?”这些应用程序需要解决共同推断一个人的身体姿势、形状和服装的具有挑战性的问题,因此我们的任务需要解决以下几个问题:
(1)推断出源服装呈现在目标人物身上的语义分割图:由于源服装来自另一人物的图片,需要根据目标人物的体型推断出源服装在目标人物身上的语义分布。
(2)服装扭曲困难:目前多数工作采用薄板插值样条算法(TPS)来对源服装进行扭曲但由于其有限的自由度当大的几何变化发生时,这会导致不准确和不自然的变换估计。
(3)融合人体和服装信息:现有方法主要是通过掩膜在像素级别上生成结果与扭曲的服装,这往往令最终结果的服装纹理受扭曲服装结果影响而忽略了生成结果的效果。
为了解决上述的问题,我们提出了一个新的方法。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于稠密流的虚拟试衣方法,一种新的方法用于虚拟试衣任务,主要涉及利用深层神经网络生成目标语义分割图,并通过语义分割图利用可变形卷积神经网络预测稠密流,用于对源服装的特征信息进行空间形变并与目标人体信息融合得到服装转换的结果。
本发明解决其技术问题所采用的技术方案如下:
步骤(1)、生成目标语义分割图
将源服装语义分割图、目标人物的姿态信息以及目标人物身体信息经由Unet神经网络估计源服装到目标人物的语义转换,生成目标语义分割图。
所述的通过Unet神经网络实现语义层面上的转换,在转换过程中不能改变服装的种类并要保留目标人物的姿态信息和人体信息。
步骤(2)、计算稠密流
根据目标语义分割图能够得到准确的空间位置信息,通过源服装语义分割图和目标语义分割图的服装部分估计稠密流。
步骤(3)、对人体信息和源服装信息进行融合得到最后的结果。
不断在特征层面上融合人体信息和通过稠密流扭曲过后的源服装信息以达到人体和服装混合。
步骤(1)所述的生成目标语义分割图:
1-1.为了实现源服装到目标人物身上的转换,首先实现语义层面上的转换,在转换过程中不能改变服装的种类并要保留目标人物的姿态信息和人物身体信息;所以利用源服装语义分割图和目标人物的姿态信息以及目标人物身体信息去生成目标语义分割图。
本发明不把目标人体语义分割图作为Unet神经网络的条件输入,而是以姿态信息作为输入让Unet神经网络预测人体信息以实现解耦合。
所述的人体信息包括目标人物的姿态信息、身体信息;
1-2.为了获得用于训练的语义分割图和姿态信息,使用预训练的姿态估计器和人类解析器。具体地说:姿态估计器预测了一组人体关键点的二维信息,紧接着将二维信息转换成18个通道的热图,在半径为4像素的圆内标记为1,其余部分标记为0。人类解析器用于预测语义分割图,把语义分割图编码成20个通道的二值图,每个通道对应特定的人体部分,包括头发、脸、服装、胳膊等。
1-3.将源服装语义分割图、目标人物的姿态信息以及目标人物身体信息作为Unet神经网络的输入。经过特征提取后由反卷积层得到预测的目标语义分割图。采用交叉熵损失函数来约束模型预测正确的目标语义分割图,损失函数如下:
Lg=Ex,y[log(D(x,y)]+Ex,z[log(1-D(x,G(x,z))] (1)
L=Lparsing(y,G(x,z))+Lg (2)
其中Lparsing(x,G(x,y))是交叉熵损失,Lg为生成对抗损失,x为输入,y为真实结果,z为噪声;
1-4.为了监督训练,我们本应该需要的样本为含有源服装的图片A,含有目标人物的图片B以及目标人物B穿着源服装A的图片C(A+B=C)。但这样的样本是难以收集的,因此设定图片A和图片B是穿着同一件服装的同一个人物但姿势并不相同,通过同一个人物的自我服装转换来训练模型。
步骤(2)所述的计算稠密流
2-1.该阶段我们的目标是对源服装进行自然的形变以符合目标人物的姿势和体形。该想法类似与传统虚拟试衣任务,在传统虚拟试衣任务中使用TPS(Thin PlateSpline,薄板样条插值)对服装产品图进行扭曲,而TPS受限于自由度不高无法实现复杂非刚性的形变,并不适合我们的情况。近年来非监督光流发展迅速,其目标是估计两张图像之间的稠密流,通过稠密流来扭曲一个图像以匹配另一个图像,以使这两个图像之间的差异最小化,并适应某种形式的正则化。这与我们的目的有相似之处,我们使用服装语义分割图作为输入,在不同特征层估计关注不同形变程度的残差稠密流,不断的迭代优化得到最终稠密流,用于对源服装图片进行形变,使用半监督的方法训练稠密流网络。
2-2.由于源服装和目标服装存在巨大的空间形变差异,直接估计稠密流是困难的,因此采用粗到细的方法,把巨大的空间形变分解成不同程度的子形变,在高级语义特征层进行特征匹配得到预估整体变形的稠密流,再逐级根据低级语义特征匹配得到关注细微变化的稠密流,最终估计出整个稠密流。
使用同一个编码器对服装语义分割图进行特征提取,由此得到特征金字塔Fs{fsn,fsn-1,fsn-2,...,fs1}和Ft{ftn,ftn-1,ftn-2,...,ft1}。稠密流网络从最高级层的特征开始进行匹配,直接拼接特征fsn和ftn,由可变形卷积层估计得到较注重整体形变的稠密流flown,并根据得到的稠密流flown对较低层的特征fsn-1利用线性插值法进行扭曲,以减少与特征ftn-1的空间距离,再次拼接fsn-1和ftn-1,由可变形卷积层估计得到残差稠密流resflown-1,将flown与resflown-1相加得到当前层的稠密流flown-1,特征金字塔的每一层都重复该过程,从而得到整个稠密流。
fs′n-1=warp(fsn-1,flown) (3)
flown-1=flown+resflown-1 (4)
fsn表示源服装语义分割图经过编码器得到的第n层特征,flown表示第n层稠密流,fs′n表示fsn经过fl0wn扭曲后得到的特征,warp通过双线性插值法实现,resflown-1为第n-1层得到的残差稠密流。
2-3稠密流网络的损失函数如下:
Lstruct(cs,ct)=∑iψ(cs,i)ψ(ct,i)||cs-ct||1, (5)
Figure BDA0003124895110000051
其中,Lstruct为结构损失,c′s表示由稠密流扭曲后得到的源服装语义分割图,ct为目标服装语义分割图(目标语义分割图中的服装部分),i表示语义分割图的的通道索引(即每个i是一个特定的服装类别),ψ是一个指示器函数,而ψ(cs,i)ψ(ct,i)表示一个服装类别i是否同时存在于源图像和目标图像中,Lroi_perc为roi-感知损失函数,λl表示损失的权重,⊙表示点乘。
2-4.但是由于不同的服装部分可能会有相似的纹理,使网络难以感知到服装的边界和产生不准确的错位。为了解决这个问题,我们进一步设计了一个结构损失来加强服装翘曲区域的结构约束。由于稠密流密集且自由维数高,稠密流网络允许源服装区域和目标服装区域进行像素与像素的匹配,从而更好地估计几何变化,这是产生真实感结果的关键。然而如果没有适当的正则化,使用稠密流通常会产生不真实的伪影,因此进一步引入了一种总变化损失,它将估计的稠密流进行正则化,以增强平滑性。
Figure BDA0003124895110000061
Lflow=Lroi_perc+αLstruct+βLsmt (8)
其中,Lsmt为总变化损失函数,Fn表示第n层得到的稠密流,N表示特征金字塔的层数,α和β为损失函数的权重。
步骤(3)对人体信息和源服装信息进行融合得到最后的结果。
3-1.在这个阶段,需要对源服装信息和人体信息进行融合得到最终的结果。但在此之前有一个问题,在训练本发明整个网络时是对自身进行服装转换,服装的种类没有发生改变,然而实际上这种情况并不常见,举一个例子,源服装是一件短袖,但是目标任务原先穿着长袖,那么目标人物的手臂因为遮挡而缺失。为了能处理这个问题,我们提出了人体修复模型。在训练时,不是把整个目标人体作为输入,而是利用掩膜mask进行挖空,把被挖空的人体作为输入,我们的目的是使人体修复模型在不能感受到全部的人体结构的情况下,根据目标语义分割图去生成完整的人体。
b′t=bt*mask (9)
其中,bt为目标人物身体,mask为不规则形状的掩膜,在数值上由0和1构成。
在之前工作中,大多是通过对源服装进行像素级别的形变,然后通过计算掩膜对生成结果和像素级形变结果进行融合,我们在特征层面上对源服装信息和人体信息进行融合,具体地,我们把源服装作为编码器的输入得到特征,对每一层的服装特征根据上一阶段得到的稠密流对当前服装特征进行形变,然后与人体信息相加,经过解码器得到服装转换后的结果。
Figure BDA0003124895110000073
Figure BDA0003124895110000074
其中,
Figure BDA0003124895110000075
表示源服装经由编码器得到第i层源服装特征,flowi表示第i层稠密流,
Figure BDA0003124895110000076
表示b′t经过编码器得到的第i层特征。
损失函数如下所示:
Figure BDA0003124895110000071
Figure BDA0003124895110000072
Linpating=Lperc+Lstyle (14)
Ir是第三阶段得到的结果,It是真实结果,Lperc是感知损失,φl表示图片在ImageNet预训练的VGG-19模型上得到的第I层特征。Lstyle是风格损失,
Figure BDA0003124895110000077
表示图片在ImageNet预训练的VGG-19模型上得到的第I层特征的格拉姆矩阵。λl和γl都表示系数。
本发明有益效果:
本发明提出了一种新的虚拟试衣方法方法,结合了传统虚拟试衣任务和姿势引导的人体生成任务的特点,提供了一种更具普遍性的虚拟试衣方法。不需要服装的原始产品图,而是一张模特图,同时也能完成同一件服装在不同人物身上以不同视角的呈现,生成的结果纹理清晰,转换自然。
附图说明
图1是本发明的具体流程图
图2是利用服装语义分割图和目标姿态与部分外观信息生成目标语义分割图示意图;
图3是利用语义分割图预测转换稠密流示意图;
图4是对源服装信息和人体信息进行融合得到结果的示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,一种基于稠密流的虚拟试衣方法,一种新的方法用于虚拟试衣任务,主要涉及利用深层神经网络生成目标语义分割图,并通过语义分割图利用可变形卷积神经网络预测稠密流,用于对源服装的特征信息进行空间形变并与目标人体信息融合得到服装转换的结果。本发明的虚拟试衣过程划分为3个子任务。在第一阶段:生成目标语义分割图,给出来自源图片的服装语义信息与来自目标图片的头发掩膜和姿势信息,深度神经网络估计源服装到目标人物的语义转换,生成目标语义分割图。在第二个阶段:目标语义分割图提供了准确的空间位置信息,根据源图片和目标语义分割图的服装语义部分估计稠密流。最后在第三阶段,我们不断在特征层面上融合人体信息和通过稠密流扭曲过后的服装信息以达到人体和服装混合。根据此方法,我们得到的结果中服装纹理清晰,服装变形自然,目前获得了在该领域最好的效果。
本发明具体实现过程如下:
步骤(1)、生成目标语义分割图
将源服装语义分割图、目标人物的姿态信息以及目标人物身体信息经由Unet神经网络估计源服装到目标人物的语义转换,生成目标语义分割图。
所述的通过Unet神经网络实现语义层面上的转换,在转换过程中不能改变服装的种类并要保留目标人物的姿态信息和人体信息。
步骤(2)、计算稠密流
根据目标语义分割图能够得到准确的空间位置信息,通过源服装语义分割图和目标语义分割图的服装部分估计稠密流。
步骤(3)、对人体信息和源服装信息进行融合得到最后的结果。
不断在特征层面上融合人体信息和通过稠密流扭曲过后的源服装信息以达到人体和服装混合。
如图2所示,步骤(1)所述的生成目标语义分割图:
1-1.为了实现源服装到目标人物身上的转换,首先实现语义层面上的转换,在转换过程中不能改变服装的种类并要保留目标人物的姿态信息和人物身体信息;所以利用源服装语义分割图和目标人物的姿态信息以及目标人物身体信息去生成目标语义分割图。
本发明不把目标人体语义分割图作为Unet神经网络的条件输入,而是以姿态信息作为输入让Unet神经网络预测人体信息以实现解耦合。
所述的人体信息包括目标人物的姿态信息、身体信息;
1-2.为了获得用于训练的语义分割图和姿态信息,使用预训练的姿态估计器和人类解析器。具体地说:姿态估计器预测了一组人体关键点的二维信息,紧接着将二维信息转换成18个通道的热图,在半径为4像素的圆内标记为1,其余部分标记为0。人类解析器用于预测语义分割图,把语义分割图编码成20个通道的二值图,每个通道对应特定的人体部分,包括头发、脸、服装、胳膊等。
1-3.将源服装语义分割图、目标人物的姿态信息以及目标人物身体信息作为Unet神经网络的输入。经过特征提取后由反卷积层得到预测的目标语义分割图。采用交叉熵损失函数来约束模型预测正确的目标语义分割图,损失函数如下:
Lg=Ex,y[log(D(x,y)]+Ex,z[log(1-D(x,G(x,z))] (1)
L=Lparsing(y,G(x,z))+Lg (2)
其中Lparsing(x,G(x,y))是交叉熵损失,Lg为生成对抗损失,x为输入,y为真实结果,z为噪声;
1-4.为了监督训练,我们本应该需要的样本为含有源服装的图片A,含有目标人物的图片B以及目标人物B穿着源服装A的图片C(A+B=C)。但这样的样本是难以收集的,因此设定图片A和图片B是穿着同一件服装的同一个人物但姿势并不相同,通过同一个人物的自我服装转换来训练模型。
如图3所示,步骤(2)所述的计算稠密流
2-1.该阶段我们的目标是对源服装进行自然的形变以符合目标人物的姿势和体形。该想法类似与传统虚拟试衣任务,在传统虚拟试衣任务中使用TPS对服装产品图进行扭曲,而TPS受限于自由度不高无法实现复杂非刚性的形变,并不适合我们的情况。近年来非监督光流发展迅速,其目标是估计两张图像之间的稠密流,通过稠密流来扭曲一个图像以匹配另一个图像,以使这两个图像之间的差异最小化,并适应某种形式的正则化。这与我们的目的有相似之处,我们使用服装语义分割图作为输入,在不同特征层估计关注不同形变程度的残差稠密流,不断的迭代优化得到最终稠密流,用于对源服装图片进行形变,使用半监督的方法训练稠密流网络。
2-2.由于源服装和目标服装存在巨大的空间形变差异,直接估计稠密流是困难的,因此采用粗到细的方法,把巨大的空间形变分解成不同程度的子形变,在高级语义特征层进行特征匹配得到预估整体变形的稠密流,再逐级根据低级语义特征匹配得到关注细微变化的稠密流,最终估计出整个稠密流。
使用同一个编码器对服装语义分割图进行特征提取,由此得到特征金字塔Fs和Ft。
稠密流网络从最高级层的特征开始进行匹配,直接拼接特征,由可变形卷积层估计得到较注重整体形变的稠密流,并根据得到的稠密流对较低层的特征利用线性插值法对特征Fs进行扭曲,以减少与Ft的空间距离,特征金字塔的每一层都重复该过程,从而得到整个稠密流。
fs′n=warp(fsn,flown) (3)
fsn表示源服装语义分割图经过编码器得到的第n层特征,flown表示第n层稠密流,fs′n表示fsn经过flown扭曲后得到的特征,warp通过双线性插值法实现。
2-3稠密流网络的损失函数如下:
Lstruct(cs,ct)=∑iψ(cs,i)ψ(ct,i)||cs-ct||1, (4)
Figure BDA0003124895110000111
其中,Lstruct为结构损失,c′s表示由稠密流扭曲后得到的源服装语义分割图,ct为目标服装语义分割图(目标语义分割图中的服装部分),i表示语义分割图的的通道索引(即每个i是一个特定的服装类别),ψ是一个指示器函数,而ψ(cs,i)ψ(ct,i)表示一个服装类别i是否同时存在于源图像和目标图像中,Lroi_perc为感知损失函数,λl表示损失的权重,⊙表示点乘。
2-4.但是由于不同的服装部分可能会有相似的纹理,使网络难以感知到服装的边界和产生不准确的错位。为了解决这个问题,我们进一步设计了一个结构损失来加强服装翘曲区域的结构约束。由于稠密流密集且自由维数高,稠密流网络允许源服装区域和目标服装区域进行像素与像素的匹配,从而更好地估计几何变化,这是产生真实感结果的关键。然而如果没有适当的正则化,使用稠密流通常会产生不真实的伪影,因此进一步引入了一种总变化损失,它将估计的稠密流进行正则化,以增强平滑性。
Figure BDA0003124895110000112
Lflow=Lroi_perc+αLstruct+βLsmt (7)
其中,Lsmt为正则化损失函数,Fn表示第n层得到的稠密流,N表示特征金字塔的层数,α和β为损失函数的权重.
如图4所示,步骤(3)对人体信息和源服装信息进行融合得到最后的结果。
3-1.在这个阶段,需要对源服装信息和人体信息进行融合得到最终的结果。但在此之前有一个问题,在训练本发明整个网络时是对自身进行服装转换,服装的种类没有发生改变,然而实际上这种情况并不常见,举一个例子,源服装是一件短袖,但是目标任务原先穿着长袖,那么目标人物的手臂因为遮挡而缺失。为了能处理这个问题,我们提出了人体修复模型。在训练时,不是把整个目标人体作为输入,而是利用掩膜mask进行挖空,把被挖空的人体作为输入,我们的目的是使人体修复模型在不能感受到全部的人体结构的情况下,根据目标语义分割图去生成完整的人体。
b′t=bt*mask (7)
其中,bt为目标人物身体,mask为不规则形状的掩膜,在数值上由0和1构成。
在之前工作中,大多是通过对源服装进行像素级别的形变,然后通过计算掩膜对生成结果和像素级形变结果进行融合,我们在特征层面上对源服装信息和人体信息进行融合,具体地,我们把源服装作为编码器的输入得到特征,对每一层的服装特征根据上一阶段得到的稠密流对当前服装特征进行形变,然后与人体信息相加,经过解码器得到服装转换后的结果。
Figure BDA0003124895110000121
Figure BDA0003124895110000122
其中,
Figure BDA0003124895110000123
表示源服装经由编码器得到第i层源服装特征,flowi表示第i层稠密流,
Figure BDA0003124895110000124
表示b′t经过编码器得到的第i层特征。
损失函数如下所示:
Figure BDA0003124895110000125
Figure BDA0003124895110000126
Linpating=Lperc+Lstyle (12)
Ir是第三阶段得到的结果,It是真实结果,Lperc是感知损失,φl表示图片在lmageNet预训练的VGG-19模型上得到的第I层特征。
Figure BDA0003124895110000127
表示图片在lmageNet预训练的VGG-19模型上得到的第I层特征的格拉姆矩阵。λl和γl都表示系数。

Claims (4)

1.一种基于稠密流的虚拟试衣方法,主要涉及利用深层神经网络生成目标语义分割图,并通过语义分割图利用可变形卷积神经网络预测稠密流,用于对源服装的特征信息进行空间形变并与目标人体信息融合得到服装转换的结果,其特征在于具体包括如下步骤:
步骤(1)、生成目标语义分割图
将源服装语义分割图、目标人物的姿态信息以及目标人物身体信息经由Unet神经网络估计源服装到目标人物的语义转换,生成目标语义分割图;
所述的通过Unet神经网络实现语义层面上的转换,在转换过程中不能改变服装的种类并要保留目标人物的姿态信息和人体信息;
步骤(2)、计算稠密流
根据目标语义分割图能够得到准确的空间位置信息,通过源服装语义分割图和目标语义分割图的服装部分估计稠密流;
步骤(3)、对人体信息和源服装信息进行融合得到最后的结果;
不断在特征层面上融合人体信息和通过稠密流扭曲过后的源服装信息以达到人体和服装混合。
2.根据权利要求1所述的一种基于稠密流的虚拟试衣方法,其特征在于步骤(1)所述的生成目标语义分割图,具体实现如下:
1-1.为了实现源服装到目标人物身上的转换,首先实现语义层面上的转换,在转换过程中不能改变服装的种类并要保留目标人物的姿态信息和人物身体信息;所以利用源服装语义分割图和目标人物的姿态信息以及目标人物身体信息去生成目标语义分割图;
将姿态信息作为输入让Unet神经网络预测人体信息以实现解耦合;
1-2.为了获得用于训练的语义分割图和姿态信息,使用预训练的姿态估计器和人类解析器,具体地说:姿态估计器预测一组人体关键点的二维信息,紧接着将二维信息转换成18个通道的热图,在半径为4像素的圆内标记为1,其余部分标记为0;人类解析器用于预测语义分割图,把语义分割图编码成20个通道的二值图,每个通道对应特定的人体部分,包括头发、脸、服装、胳膊;
1-3.将源服装语义分割图、目标人物的姿态信息以及目标人物身体信息作为Unet神经网络的输入;经过特征提取后由反卷积层得到预测的目标语义分割图;采用交叉熵损失函数来约束模型预测正确的目标语义分割图,损失函数如下:
Lg=Ex,y[log(D(x,y)]+Ex,z[log(1-D(x,G(x,z))] (1)
L=Lparsing(y,G(x,z))+Lg (2)
其中Lparsing(x,G(x,y))是交叉熵损失,Lg为生成对抗损失,x为输入,y为真实结果,z为噪声;
1-4.为了监督训练,设定图片A和图片B是穿着同一件服装的同一个人物但姿势并不相同,通过同一个人物的自我服装转换来训练模型。
3.根据权利要求1所述的一种基于稠密流的虚拟试衣方法,其特征在于步骤(2)所述的计算稠密流具体实现如下:
2-1.使用服装语义分割图作为输入,在不同特征层估计关注不同形变程度的残差稠密流,不断的迭代优化得到最终稠密流,用于对源服装图片进行形变,使用半监督的方法训练稠密流网络;
使用同一个编码器对服装语义分割图进行特征提取,由此得到特征金字塔Fs{fsn,fsn-1,fsn-2,...,fs1}和Ft{ftn,ftn-1,ftn-2,...,ft1};
稠密流网络从最高级层的特征开始进行匹配,直接拼接特征fsn和ftn,由可变形卷积层估计得到较注重整体形变的稠密流flown,并根据得到的稠密流flown对较低层的特征fsn-1利用线性插值法进行扭曲,以减少与特征ftn-1的空间距离,再次拼接fsn-1和ftn-1,由可变形卷积层估计得到残差稠密流resflown-1,将flown与resflown-1相加得到当前层的稠密流flown-1,特征金字塔的每一层都重复该过程,从而得到整个稠密流;
fs′n-1=warp(fsn-1,flown) (3)
flown-1=flown+resflown-1 (4)
fsn表示源服装语义分割图经过编码器得到的第n层特征,flown表示第n层稠密流,fs′n表示fsn经过flown扭曲后得到的特征,warp通过双线性插值法实现,resflown-1为第n-1层得到的残差稠密流;
2-3稠密流网络的损失函数如下:
Lstruct(c′s,ct)=∑iψ(cs,i)ψ(ct,i)||c′s-ct||1, (5)
Figure FDA0003124895100000031
其中,Lstruct为结构损失,c′s表示由稠密流扭曲后得到的源服装语义分割图,ct为目标服装语义分割图(目标语义分割图中的服装部分),i表示语义分割图的的通道索引,ψ是一个指示器函数,而ψ(cs,i)ψ(ct,i)表示一个服装类别i是否同时存在于源图像和目标图像中,Lroi_perc为感知损失函数,λl表示损失的权重,⊙表示点乘;
2-4.设计一个结构损失来加强服装翘曲区域的结构约束;由于稠密流密集且自由维数高,稠密流网络允许源服装区域和目标服装区域进行像素与像素的匹配,从而更好地估计几何变化,这是产生真实感结果的关键;然而如果没有适当的正则化,使用稠密流通常会产生不真实的伪影,因此引入了一种总变化损失,它将估计的稠密流进行正则化,以增强平滑性;
Figure FDA0003124895100000032
Lflow=Lroi_perc+αLstruct+βLsmt (8)
其中,Lsmt为总变化损失函数,Fn表示第n层得到的稠密流,N表示特征金字塔的层数,α和β为损失函数的权重。
4.根据权利要求1所述的一种基于稠密流的虚拟试衣方法,其特征在于步骤(3)所述的对人体信息和源服装信息进行融合得到最后的结果,具体实现如下:
3-1.提出人体修复模型;在训练时,不是把整个目标人体作为输入,而是利用掩膜mask进行挖空,把被挖空的人体作为输入,目的是使人体修复模型在不能感受到全部的人体结构的情况下,根据目标语义分割图去生成完整的人体;
b′t=bt*mask (9)
其中,bt为目标人物身体,mask为不规则形状的掩膜,在数值上由0和1构成;
通过对源服装进行像素级别的形变,然后通过计算掩膜对生成结果和像素级形变结果进行融合,在特征层面上对源服装信息和人体信息进行融合,具体地,把源服装作为编码器的输入得到特征,对每一层的服装特征根据上一阶段得到的稠密流对当前服装特征进行形变,然后与人体信息相加,经过解码器得到服装转换后的结果;
Figure FDA0003124895100000041
Figure FDA0003124895100000042
Linpating=Lperc+Lstyle (12)
其中,
Figure FDA0003124895100000043
表示源服装经由编码器得到第i层源服装特征,flowi表示第i层稠密流,
Figure FDA0003124895100000044
表示b′t经过编码器得到的第i层特征;
损失函数如下所示:
Figure FDA0003124895100000045
Figure FDA0003124895100000046
Linpating=Lperc+Lstyle (15)
Ir是第三阶段得到的结果,It是真实结果,Lperc是感知损失,φl表示图片在ImageNet预训练的VGG-19模型上得到的第l层特征;Lsvle是风格损失,
Figure FDA0003124895100000047
表示图片在ImageNet预训练的VGG-19模型上得到的第1层特征的格拉姆矩阵;λl和γl都表示系数。
CN202110686459.1A 2021-06-21 2021-06-21 一种基于稠密流的虚拟试衣方法 Active CN113538610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110686459.1A CN113538610B (zh) 2021-06-21 2021-06-21 一种基于稠密流的虚拟试衣方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110686459.1A CN113538610B (zh) 2021-06-21 2021-06-21 一种基于稠密流的虚拟试衣方法

Publications (2)

Publication Number Publication Date
CN113538610A true CN113538610A (zh) 2021-10-22
CN113538610B CN113538610B (zh) 2024-07-02

Family

ID=78125506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110686459.1A Active CN113538610B (zh) 2021-06-21 2021-06-21 一种基于稠密流的虚拟试衣方法

Country Status (1)

Country Link
CN (1) CN113538610B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639161A (zh) * 2022-02-21 2022-06-17 深圳市海清视讯科技有限公司 多任务模型的训练方法以及衣服的虚拟试穿方法
CN114862666A (zh) * 2022-06-22 2022-08-05 阿里巴巴达摩院(杭州)科技有限公司 图像变换系统、方法、存储介质及电子设备
CN114969869A (zh) * 2022-07-29 2022-08-30 杭州彩连科技有限公司 一种基于在线服装设计的渲染方法、系统、装置和介质
CN117057976A (zh) * 2023-08-04 2023-11-14 南通大学 一种基于局部外观流的虚拟试衣方法
CN117409208A (zh) * 2023-12-14 2024-01-16 武汉纺织大学 一种实时服装图像语义分割方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852941A (zh) * 2019-11-05 2020-02-28 中山大学 一种基于神经网络的二维虚拟试衣方法
CN112613439A (zh) * 2020-12-28 2021-04-06 湖南大学 一种新型的虚拟试衣网络

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852941A (zh) * 2019-11-05 2020-02-28 中山大学 一种基于神经网络的二维虚拟试衣方法
CN112613439A (zh) * 2020-12-28 2021-04-06 湖南大学 一种新型的虚拟试衣网络

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639161A (zh) * 2022-02-21 2022-06-17 深圳市海清视讯科技有限公司 多任务模型的训练方法以及衣服的虚拟试穿方法
CN114862666A (zh) * 2022-06-22 2022-08-05 阿里巴巴达摩院(杭州)科技有限公司 图像变换系统、方法、存储介质及电子设备
CN114862666B (zh) * 2022-06-22 2022-10-04 阿里巴巴达摩院(杭州)科技有限公司 图像变换系统、方法、存储介质及电子设备
CN114969869A (zh) * 2022-07-29 2022-08-30 杭州彩连科技有限公司 一种基于在线服装设计的渲染方法、系统、装置和介质
CN117057976A (zh) * 2023-08-04 2023-11-14 南通大学 一种基于局部外观流的虚拟试衣方法
CN117057976B (zh) * 2023-08-04 2024-03-19 南通大学 一种基于局部外观流的虚拟试衣方法
CN117409208A (zh) * 2023-12-14 2024-01-16 武汉纺织大学 一种实时服装图像语义分割方法及系统
CN117409208B (zh) * 2023-12-14 2024-03-08 武汉纺织大学 一种实时服装图像语义分割方法及系统

Also Published As

Publication number Publication date
CN113538610B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN113538610B (zh) 一种基于稠密流的虚拟试衣方法
Wang et al. Toward characteristic-preserving image-based virtual try-on network
Cao et al. Carigans: Unpaired photo-to-caricature translation
CN111080511A (zh) 一种端到端的高分辨率多特征提取的人脸交换方法
CN111243066A (zh) 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN110853119B (zh) 一种鲁棒的基于参考图片的妆容迁移方法
CN105488472A (zh) 一种基于样本模板的数字化妆方法
CN112837215B (zh) 一种基于生成对抗网络的图像形状变换方法
CN112991371B (zh) 一种基于着色溢出约束的图像自动着色方法及系统
CN112417991B (zh) 基于沙漏胶囊网络的双注意力人脸对齐方法
Zhang et al. A light dual-task neural network for haze removal
Xia et al. Controllable continuous gaze redirection
CN116051593A (zh) 服装图像提取方法及其装置、设备、介质、产品
Choutas et al. Learning to fit morphable models
Macêdo et al. Expression transfer between photographs through multilinear AAM's
CN118212028A (zh) 虚拟试衣方法、装置、电子设备及可读存储介质
Fang et al. PG-VTON: A novel image-based virtual try-on method via progressive inference paradigm
CN113436058A (zh) 一种人物虚拟换衣方法、终端设备及存储介质
Zhong et al. Deco: Decoupled human-centered diffusion video editing with motion consistency
CN117593178A (zh) 一种基于特征引导的虚拟试衣方法
Li The influence of digital twins on the methods of film and television creation
CN114119350B (zh) 基于衣服块指引及空间自适应网络的虚拟试穿方法及系统
CN113989444A (zh) 一种基于侧脸照片进行人脸三维重建的方法
CN115130390A (zh) 一种面向人体图像的服装色彩生成系统及方法
CN114627161A (zh) 源图片到驱动图片的运动迁移的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant