CN113361560A - 一种基于语义的多姿势虚拟试衣方法 - Google Patents

一种基于语义的多姿势虚拟试衣方法 Download PDF

Info

Publication number
CN113361560A
CN113361560A CN202110304724.5A CN202110304724A CN113361560A CN 113361560 A CN113361560 A CN 113361560A CN 202110304724 A CN202110304724 A CN 202110304724A CN 113361560 A CN113361560 A CN 113361560A
Authority
CN
China
Prior art keywords
semantic
human body
clothes
semantics
virtual fitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110304724.5A
Other languages
English (en)
Other versions
CN113361560B (zh
Inventor
张建明
宋阳
王志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110304724.5A priority Critical patent/CN113361560B/zh
Publication of CN113361560A publication Critical patent/CN113361560A/zh
Application granted granted Critical
Publication of CN113361560B publication Critical patent/CN113361560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/16Cloth

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及虚拟试衣领域,具体涉及一种基于语义的多姿势虚拟试衣方法,包括:步骤101,选择人体图像、目标衣服和人体姿势图;步骤102,分别提取人体图像的语义信息,依据人体衣服语义,对目标衣服进行扭转变形;步骤103,将变形后的衣服、人体语义表征、人体姿势表征送入条件式对抗生成网络,得到初始试衣结果;步骤104,采用由粗到细的两步图像合成方法,生成试衣结果时,在神经网络中间层采用语义条件空间归一化,保留衣服语义并和其它人体语义分离,训练时,将生成的语义标签作为输入;步骤105,输出并显示用户指定目标衣服和姿势的虚拟试衣结果。本发明适用于电子商务服装在线销售领域,能够极大提升用户体验,实现海量、高效的虚拟试衣效果。

Description

一种基于语义的多姿势虚拟试衣方法
技术领域
本发明涉及虚拟试衣领域,特别是一种基于语义的多姿势虚拟试衣方法。
背景技术
将目标衣服试穿到人体图像上是虚拟试衣任务的主要目标,也是近来计算机视觉领域的重要应用场景。
传统的虚拟试衣技术,大部分研究者都专注于基于三维建模的虚拟试衣技术,利用三维扫描、三维重建等技术建立服装和人体的三维模型来实现虚拟试衣,大多数方法都是建立在计算机图形学的基础上,根据用户自身三维人体信息,建立人体三维模型,再将衣服渲染在所建立的人体三维模型上,得益于计算机图形学精确计算出来的衣服和人体几何形变,这类方法得出的试衣结果较为准确,但是,这种方法往往需要巨大的计算资源,且对硬件设备有很强的依赖性;基于图像的虚拟试衣技术能很好的克服上述问题,但现有的二维虚拟试衣技术往往只适用于简单的试穿场合,人体图像的质量和目标衣服的图像质量都会影响试衣效果。
发明内容
为了解决上述现有技术的不足,本发明提供一种基于语义的多姿势虚拟试衣系统和方法,在不需要额外计算量或者复杂硬件设备,系统鲁棒性强,可以实现复杂情况下的海量试衣,其具体技术方案如下:
一种基于语义的多姿势虚拟试衣方法,包括以下步骤:
步骤101,用户选择人体图像、目标衣服和需要试穿的人体姿势图;
步骤102,分别提取人体图像的语义信息,生成人体语义解析图,同时根据语义解析图,采用空间转换网络,对目标衣服进行扭转变形;
步骤103,将变形后的衣服、人体语义表征、人体姿势表征送入条件式生成对抗网络中,得到初始的试衣结果;
步骤104,采用由粗到细的图像合成方法,生成试衣结果时,在神经网络中间层采用语义条件空间归一化操作,保留衣服语义并和人体其他语义分离开;训练时,通过生变分自编码器VAE生成的语义标签作为输入,在测试阶段,不生成语义标签;
步骤105,通过训练好的模型对用户输入的目标姿势、目标衣服和人体图像进行测试,输出并显示用户指定目标衣服和姿势的虚拟试衣结果。
进一步的,所述步骤102具体为:
提取人体图像语义信息,包括人体衣服语义、身体部分语义、头发和脸部语义和裤子语义;
所述的空间转换网络采用薄板样条插值法对目标衣服进行扭转变形,采用卷积神经网络
Figure RE-RE-GDA0003158259300000021
预测薄板样条插值法的参数θ,在卷积神经网络
Figure RE-RE-GDA0003158259300000022
的第3,4,5层,使用带偏移量的卷积核代替常规卷积核,将常规的感受野网格
Figure RE-RE-GDA0003158259300000023
增强为带有偏移量{Δpn|n=1,...,N}的网格
Figure RE-RE-GDA0003158259300000024
其中
Figure RE-RE-GDA0003158259300000025
带有偏移量的不规则采样坐标变成了pn+Δpn,对Δpn进行双线性插值
Figure RE-RE-GDA0003158259300000026
转换,将其转换成整数,其中p代表任意位置的坐标,q列举了所有特征图中的整数空间位置, G(·,·)是双线性插值操作,G是二维运算,被分成两个维度的运算:
Figure RE-RE-GDA0003158259300000027
单独维度的线性插值运算为:
Figure RE-RE-GDA0003158259300000028
a,b分别是一维空间中两个点的坐标,同时,在生成变形后的目标衣服后,对参数θ进行修正,得到人体衣服语义匹配的预测参数 (θ+Δθ)。
进一步的,所述步骤103中的人体语义表征包括人体衣服语义、身体部分语义、头发和脸部语义的单通道掩膜,所述人体姿势表征采用18个人体姿势关键点来表示,所述关键点被转换成18通道的姿势热图;所述条件式生成对抗网络包括生成器和判别器,所述生成器由特征提取器即编码器和Unet神经网络组成,特征提取器分别提取变形衣服、人体语义掩膜和姿势表征的高阶特征,接着将所述高阶特征送入Unet神经网络中完成特征的融合,所述判别器由下采样卷积模块和最后的全连接层组成,对真实的条件和人体图像判断为真,对生成器生成的结果和条件判断为假。
进一步的,所述所述神经网络为条件式对抗生成网络,其目标函数为:
Figure RE-RE-GDA0003158259300000029
全局GAN损失函数为:
Figure RE-RE-GDA00031582593000000210
其中
Figure RE-RE-GDA0003158259300000031
分别表示判别器对于真实图像分布和生成图像分布的判别期望值,G表示生成器,D表示判别器,
Figure RE-RE-GDA0003158259300000032
分别是判别器最小化解纠缠生成器生成分布判别期望和最大化真实分布判别期望,Z表示随机噪声变量,xtrue表示真实服装图像,condition表示试衣图像的语义分割标签和变形衣服的掩膜。
进一步的,所述生成试衣结果时,采用的语义条件空间归一化操作,是指在每次上采样过程中,都对特征图进行空间归一化操作,将人体语义图像映射到编码空间,通过两次卷积网络输出生成调制参数包括斜率γ和偏差β,所述卷积网络的卷积核大小为3×3,通道数分别与输入通道和特征图数量匹配,斜率γ和偏差β不是传统归一化方法中的向量,而是带有空间维度的张量,在高度为h,宽度为w,通道数为c的第n张图片,其空间归一化过程为:
Figure RE-RE-GDA0003158259300000074
(,其中
Figure RE-RE-GDA0003158259300000034
Figure RE-RE-GDA0003158259300000035
是归一化层学习到的参数,
Figure RE-RE-GDA0003158259300000036
是归一化之前的第i层激活层,
Figure RE-RE-GDA0003158259300000037
是和
Figure RE-RE-GDA0003158259300000038
分别是激活层在通道c的均值和标准差,计算公式为:
Figure RE-RE-GDA0003158259300000039
Figure RE-RE-GDA00031582593000000310
进一步的,所述训练时,将通过生变分自编码器VAE生成的语义标签作为输入,具体为:使用变分自编码器VAE生成两个新的语义标签l1和l2,将其送入生成器,分别生成两个试衣结果,再将这两个试衣结果进行融合,同真实试衣结果进行误差反向传播。
进一步的,所述生成的语义标签和真实语义标签服从同一分布但存在一定的偏差,将生成的语义标签和真实数据对送入到虚拟试衣网络中进行训练,通过 GAN损失和感知损失等目标函数进一步提升虚拟试衣网络的效果,所述的变分自编码器在训练时的目标函数由两部分组成:1)重建损失
Figure RE-RE-GDA00031582593000000311
2)KL散度损失
Figure RE-RE-GDA0003158259300000041
二者分别控制元素级的偏差和潜空间的平滑度,
Figure RE-RE-GDA0003158259300000042
可以表征真实先验
分布和学习到的分布之间的距离,总体变分自编码器损失可以表示为:
Figure RE-RE-GDA0003158259300000043
λKL表示的是KL散度损失的系数。所述的变分自编码器在测试过程中不用生成语义标签。
进一步的,所述步骤105具体为:完成网络模型的训练过程后,用户输入人体图像、目标姿势、目标衣服,生成人体语义解析图,接着将用户输入信息传入到模型中,输出最终的试衣结果;所述网络模型采用编码器和译码器,编码器首先将人体图像和目标姿势下采样为中间潜码,接着中间潜码通过一个译码器上采样到最终的虚拟试衣结果。
9、如权利要求8所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述的编码器由四个下采样卷积模块和两个并列输出的全连接层组成,每个卷积模块的下采样倍数为2,卷积操作后图像的大小为16×12,并列的全连接层的大小为256,分别输出对应的均值和均差。
进一步的,所述的译码器结构具体为:中间潜码经过4个上采样模块得到最终的虚拟试衣结果,上采样模块是由语义条件空间归一化模块组成的,每个条件空间归一化模块对人体语义解析进行两次卷积操作,分别得到归一化参数的斜率和偏差,在对特征图进行了批归一化层后再进行语义条件空间归一化操作,得到经过语义条件归一化的特征图。
本发明提出的一种基于语义的多姿势虚拟试衣系统和方法,能够很好的克服目标衣服试穿不准确,试衣效果不匹配等问题,以人体姿势和衣服语义作为生成对抗网络的条件,能够实现多姿势的虚拟试衣技术,互相对抗训练的GAN网络能够很好的保证虚拟试衣生成的效果图。
附图说明
图1是本发明的方法流程示意图;
图2是本发明实施例的采用数据集的人体图像和目标衣服图像示意图;
图3是本发明实施例的目标人体语义解析、目标衣服掩码变形过程的示意图;
图4是本发明实施例的使用的带有偏移量卷积核的示意图;
图5是本发明实施例的使用变分自编码器提升模型测试时鲁棒性的流程图;
图6是本发明实施例的从用户输入到得到虚拟试衣结果的流程图;
图7是本发明实施例的编码器的网络结构示意图;
图8是本发明实施例的的译码器和条件空间归一化模块的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1-8所示,本发明的一种基于语义的多姿势虚拟试衣方法,包括如下步骤:
步骤101,用户选择人体图像、目标衣服和需要试穿的人体姿势图;对所述目标衣服和人体图像进行语义解析和姿势估计,其中,所述人体姿势图是由18 个关键点组成的姿势热图,每个关键点是由大小为11×11的值为1的特征块组成的,其余部分的值为0,所述姿势热图最终组合成通道数为18的姿势表征送入到条件式生成对抗网络中,用户可以通过选择18个关键点的位置来选择指定的目标姿势。
步骤102,分别提取人体图像的语义信息,生成人体语义解析图,同时根据语义解析图,采用空间转换网络,对目标衣服进行扭转变形。
所述的提取人体图像语义信息,主要包括人体衣服语义、身体部分语义、头发和脸部语义和裤子语义等。
所述目标衣服的变形要根据输入的用户人体图像进行,变形后的衣服掩膜要与人体图象的衣服语义匹配,在对目标衣服进行扭转变形时,还要保证衣服的细节特征,如颜色、纹理、图案等要素保留,仅仅改变衣服的形状,以适应人体图像。
在将目标衣服进行扭转变形时,使用薄板样条插值采样法对目标衣服进行空间转换,使用卷积神经网络
Figure RE-RE-GDA0003158259300000051
来预测其参数θ,在卷积神经网络
Figure RE-RE-GDA0003158259300000052
的第3,4,5 层,使用带偏移量的卷积核代替常规卷积核,提升特征图对于非刚性变形采样的感受野,将常规的感受野网格
Figure RE-RE-GDA0003158259300000053
增强为带有偏移量{Δpn|n=1,...,N}的网格
Figure RE-RE-GDA0003158259300000054
其中
Figure RE-RE-GDA0003158259300000055
带有偏移量的不规则采样坐标变成了pn+Δpn,对Δpn进行双线性插值
Figure RE-RE-GDA0003158259300000061
转换,将其转换成整数,其中p代表任意位置的坐标, q列举了所有特征图中的整数空间位置,G(·,·)是双线性插值操作,G是二维运算,被分成两个维度的运算:
Figure RE-RE-GDA0003158259300000062
单独维度的线性插值运算为:
Figure RE-RE-GDA0003158259300000063
a,b分别是一维空间中两个点的坐标。同时,在生成变形后的目标衣服后,对参数θ进行修正,得到语义匹配的预测参数 (θ+Δθ)。
步骤103,将变形后的衣服、人体语义表征、人体姿势表征送入条件式生成对抗网络中,得到初始的试衣结果。
所述变形后的衣服图像的大小为3×256×192,表示图像的高为256,长为 192,通道数为3,人体姿势表征是由18个关键点在通道层次连接的,人体语义表征的大小为1×256×192,因此送入条件式对抗生成网络的输入通道数为22,大小为256×192。
所述人体语义表征包括人体衣服语义、身体部分语义、头发和脸部语义等的单通道掩膜,人体姿势表征用18个人体姿势关键点来表示,为了利用姿势的空间布局,关键点被转换成18通道的姿势热图,作为人体姿势表征;在测试阶段,用户通过改变人体姿势关键点来实现多姿势试衣结果;
所述条件式生成对抗网络包括生成器和判别器,所述生成器由特征提取器即编码器和一个Unet神经网络组成,特征提取器分别提取变形衣服、人体语义掩膜和姿势表征的高阶特征,接着将所述高阶特征送入Unet神经网络中完成特征的融合。所述判别器是一个下采样卷积模块和最后的全连接层组成,对真实的条件和人体图像判断为真,对生成器生成的结果和条件判断为假。
步骤104,采用由粗到细的图像合成方法,生成试衣结果时,在神经网络中间层采用语义条件空间归一化操作,保留衣服语义并和人体其他语义分离;训练时,将通过生变分自编码器VAE生成的语义标签作为输入,在测试阶段,不生成语义标签;
所述由粗到细的图像合成方法是指:首先生成粗糙的、模糊的虚拟试衣结果,接着通过细化和优化操作提升图像效果;
所述神经网络为条件式对抗生成网络,其目标函数为:
Figure RE-RE-GDA0003158259300000064
全局GAN损失函数为:
Figure RE-RE-GDA0003158259300000071
其中
Figure RE-RE-GDA0003158259300000072
分别表示判别器对于真实图像分布和生成图像分布的判别期望值,G表示生成器,D表示判别器,
Figure RE-RE-GDA0003158259300000073
分别是判别器最小化解纠缠生成器生成分布判别期望和最大化真实分布判别期望,Z表示随机噪声变量,xtrue表示真实服装图像,condition表示试衣图像的语义分割标签和变形衣服的掩膜。
在生成试衣结果时,采用的语义条件空间归一化操作,是指在每次上采样过程中,都对特征图进行空间归一化操作,将人体语义图像映射到编码空间,通过两次卷积网络输出生成调制参数包括斜率γ和偏差β,所述卷积网络的卷积核大小为3×3,通道数分别与输入通道和特征图数量匹配,斜率γ和偏差β不是传统归一化方法中的向量,而是带有空间维度的张量,在高度为h,宽度为w,通道数为c的第n张图片,其空间归一化过程为:
Figure RE-RE-GDA0003158259300000074
其中
Figure RE-RE-GDA0003158259300000075
Figure RE-RE-GDA0003158259300000076
是归一化层学习到的参数,
Figure RE-RE-GDA0003158259300000077
是归一化之前的第i层激活层,
Figure RE-RE-GDA0003158259300000078
是和
Figure RE-RE-GDA0003158259300000079
分别是激活层在通道c的均值和标准差,计算公式为:
Figure RE-RE-GDA00031582593000000710
在训练过程中,使用变分自编码器生VAE成两个新的语义标签l1和l2,将其送入生成器,分别生成两个试衣结果,再将这两个试衣结果进行融合,同真实试衣结果进行误差反向传播,以优化生成器,增强网络对于测试阶段语义变化的鲁棒性。
生成的语义标签和真实语义标签服从同一分布但存在一定的偏差,将生成的语义标签和真实数据对送入到虚拟试衣网络中进行训练,通过GAN损失和感知损失等目标函数进一步提升虚拟试衣网络的效果,所述的变分自编码器在训练时的目标函数由两部分组成:1)重建损失
Figure RE-RE-GDA00031582593000000711
2)KL散度损失
Figure RE-RE-GDA00031582593000000712
二者分别控制元素级的偏差和潜空间的平滑度,
Figure RE-RE-GDA0003158259300000081
可以表征真实先验分布和学习到的分布之间的距离,总体变分自编码器损失可以表示为:
Figure RE-RE-GDA0003158259300000082
λKL表示的是KL散度损失的系数。所述的变分自编码器在测试过程中不用生成语义标签,仅仅在训练过程中用以提升算法对于语义改变的鲁棒性。
在测试阶段,不需要使用到变分自编码器VAE。
在训练时,整个模型的目标函数由GAN损失、感知损失、总体VAE损失、特征匹配损失组成,各部分损失的权重系数是训练时需要调节的超参数。
步骤105,通过训练好的模型对用户输入的目标姿势、目标衣服和人体图像进行测试,输出并显示用户指定目标衣服和姿势的虚拟试衣结果。
如图6所示,在完成模型的训练过程后,用户输入人体图像、目标姿势、目标衣服后,系统对人体图像进行语义解析,生成人体语义解析图,接着将用户输入信息传入到模型中,译码器会输出最终的试衣结果,在生成初始试衣结果时,主要采用了一个编码器和译码器,编码器首先将人体图像和目标姿势下采样为中间潜码,接着中间潜码通过一个译码器上采样到最终的虚拟试衣结果。
如图7所示,所述的编码器结构主要由四个下采样卷积模块和两个并列输出的全连接层组成,每个卷积模块的下采样倍数为2,卷积操作后图像的大小为16 ×12,并列的全连接层的大小为256,分别输出对应的均值和均差。
如图8所示,所述的译码器结构,中间潜码经过4个上采样模块得到最终的虚拟试衣结果,上采样模块是由语义条件空间归一化模块组成的,每个条件空间归一化模块对人体语义解析进行两次卷积操作,分别得到归一化参数的斜率和偏差,在对特征图进行了批归一化层后再进行语义条件空间归一化操作,得到经过语义条件归一化的特征图,因此能够保留相关的语义信息,在网络层进行传递时也能保留各部分语义特征。
所述的编码器和译码器中使用的卷积层的卷积核大小均为3×3,上下采样的步长均为2。
为了证明本发明的实施有效性,在实施过程中对结果进行了对比试验和定量测评,对比试验的参照结果是现有的基于图像的虚拟试穿方法VITON (Viton:An image-based virtual try-on network),定量测评的指标包括感知得分(Inception Score,IS),其值越高表示效果越好,感知结构相似度得分(LPIPS),其值越低表示与真实图像更接近,结构相似性指标(SSIM),其值越高表示生成图像效果越好,得到的实验结果如下表所示:
方法 IS LPIPS SSIM
VITON 2.4578±0.1145 0.1488 0.7064
本发明 3.1597±0.1420 0.1120 0.8268
由上表可以看出,本发明在三种定量评测指标都优于现有的VITON方法,由此证明了本发明所采用方法的优越性,本发明所采用的方法实施效果最好。

Claims (10)

1.一种基于语义的多姿势虚拟试衣方法,其特征在于,包括以下步骤:
步骤101,用户选择人体图像、目标衣服和需要试穿的人体姿势图;
步骤102,分别提取人体图像的语义信息,生成人体语义解析图,同时根据语义解析图,采用空间转换网络,对目标衣服进行扭转变形;
步骤103,将变形后的衣服、人体语义表征、人体姿势表征送入条件式生成对抗网络中,得到初始的试衣结果;
步骤104,采用由粗到细的图像合成方法,生成试衣结果时,在神经网络中间层采用语义条件空间归一化操作,保留衣服语义并和人体其他语义分离开;训练时,通过生变分自编码器VAE生成的语义标签作为输入,在测试阶段,不生成语义标签;
步骤105,通过训练好的模型对用户输入的目标姿势、目标衣服和人体图像进行测试,输出并显示用户指定目标衣服和姿势的虚拟试衣结果。
2.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述步骤102具体为:
提取人体图像语义信息,包括人体衣服语义、身体部分语义、头发和脸部语义和裤子语义;
所述的空间转换网络采用薄板样条插值法对目标衣服进行扭转变形,采用卷积神经网络
Figure FDA0002986572670000011
预测薄板样条插值法的参数θ,在卷积神经网络
Figure FDA0002986572670000012
的第3,4,5层,使用带偏移量的卷积核代替常规卷积核,将常规的感受野网格
Figure FDA0002986572670000013
增强为带有偏移量{Δpn|n=1,...,N}的网格
Figure FDA0002986572670000014
其中
Figure FDA0002986572670000015
带有偏移量的不规则采样坐标变成了pn+Δpn,对Δpn进行双线性插值
Figure FDA0002986572670000016
转换,将其转换成整数,其中p代表任意位置的坐标,q列举了所有特征图中的整数空间位置,G(·,·)是双线性插值操作,G是二维运算,被分成两个维度的运算:
Figure FDA0002986572670000017
单独维度的线性插值运算为:
Figure FDA0002986572670000018
a,b分别是一维空间中两个点的坐标,同时,在生成变形后的目标衣服后,对参数θ进行修正,得到人体衣服语义匹配的预测参数(θ+Δθ)。
3.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述步骤103中的人体语义表征包括人体衣服语义、身体部分语义、头发和脸部语义的单通道掩膜,所述人体姿势表征采用18个人体姿势关键点来表示,所述关键点被转换成18通道的姿势热图;所述条件式生成对抗网络包括生成器和判别器,所述生成器由特征提取器即编码器和Unet神经网络组成,特征提取器分别提取变形衣服、人体语义掩膜和姿势表征的高阶特征,接着将所述高阶特征送入Unet神经网络中完成特征的融合,所述判别器由下采样卷积模块和最后的全连接层组成,对真实的条件和人体图像判断为真,对生成器生成的结果和条件判断为假。
4.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述所述神经网络为条件式对抗生成网络,其目标函数为:
Figure FDA0002986572670000021
全局GAN损失函数为:
Figure FDA0002986572670000022
其中
Figure FDA0002986572670000023
分别表示判别器对于真实图像分布和生成图像分布的判别期望值,G表示生成器,D表示判别器,
Figure FDA0002986572670000024
分别是判别器最小化解纠缠生成器生成分布判别期望和最大化真实分布判别期望,Z表示随机噪声变量,xtrue表示真实服装图像,condition表示试衣图像的语义分割标签和变形衣服的掩膜。
5.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述生成试衣结果时,采用的语义条件空间归一化操作,是指在每次上采样过程中,都对特征图进行空间归一化操作,将人体语义图像映射到编码空间,通过两次卷积网络输出生成调制参数包括斜率γ和偏差β,所述卷积网络的卷积核大小为3×3,通道数分别与输入通道和特征图数量匹配,斜率γ和偏差β不是传统归一化方法中的向量,而是带有空间维度的张量,在高度为h,宽度为w,通道数为c的第n张图片,其空间归一化过程为:
Figure FDA0002986572670000025
其中
Figure FDA0002986572670000026
Figure FDA0002986572670000027
是归一化层学习到的参数,
Figure FDA0002986572670000028
是归一化之前的第i层激活层,
Figure FDA0002986572670000031
是和
Figure FDA0002986572670000032
分别是激活层在通道c的均值和标准差,计算公式为:
Figure FDA0002986572670000033
6.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述训练时,将通过生变分自编码器VAE生成的语义标签作为输入,具体为:使用变分自编码器VAE生成两个新的语义标签l1和l2,将其送入生成器,分别生成两个试衣结果,再将这两个试衣结果进行融合,同真实试衣结果进行误差反向传播。
7.如权利要求6所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述生成的语义标签和真实语义标签服从同一分布但存在一定的偏差,将生成的语义标签和真实数据对送入到虚拟试衣网络中进行训练,通过GAN损失和感知损失等目标函数进一步提升虚拟试衣网络的效果,所述的变分自编码器在训练时的目标函数由两部分组成:1)重建损失
Figure FDA0002986572670000034
2)KL散度损失
Figure FDA0002986572670000035
二者分别控制元素级的偏差和潜空间的平滑度,
Figure FDA0002986572670000036
可以表征真实先验分布和学习到的分布之间的距离,总体变分自编码器损失可以表示为:
Figure FDA0002986572670000037
λKL表示的是KL散度损失的系数。所述的变分自编码器在测试过程中不用生成语义标签。
8.如权利要求6所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述步骤105具体为:完成网络模型的训练过程后,用户输入人体图像、目标姿势、目标衣服,生成人体语义解析图,接着将用户输入信息传入到模型中,输出最终的试衣结果;所述网络模型采用编码器和译码器,编码器首先将人体图像和目标姿势下采样为中间潜码,接着中间潜码通过一个译码器上采样到最终的虚拟试衣结果。
9.如权利要求8所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述的编码器由四个下采样卷积模块和两个并列输出的全连接层组成,每个卷积模块的下采样倍数为2,卷积操作后图像的大小为16×12,并列的全连接层的大小为256,分别输出对应的均值和均差。
10.如权利要求8所述的一种基于语义的多姿势虚拟试衣方法,其特征在于,所述的译码器结构具体为:中间潜码经过4个上采样模块得到最终的虚拟试衣结果,上采样模块是由语义条件空间归一化模块组成的,每个条件空间归一化模块对人体语义解析进行两次卷积操作,分别得到归一化参数的斜率和偏差,在对特征图进行了批归一化层后再进行语义条件空间归一化操作,得到经过语义条件归一化的特征图。
CN202110304724.5A 2021-03-22 2021-03-22 一种基于语义的多姿势虚拟试衣方法 Active CN113361560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110304724.5A CN113361560B (zh) 2021-03-22 2021-03-22 一种基于语义的多姿势虚拟试衣方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110304724.5A CN113361560B (zh) 2021-03-22 2021-03-22 一种基于语义的多姿势虚拟试衣方法

Publications (2)

Publication Number Publication Date
CN113361560A true CN113361560A (zh) 2021-09-07
CN113361560B CN113361560B (zh) 2023-03-24

Family

ID=77525006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110304724.5A Active CN113361560B (zh) 2021-03-22 2021-03-22 一种基于语义的多姿势虚拟试衣方法

Country Status (1)

Country Link
CN (1) CN113361560B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356084A (zh) * 2021-12-24 2022-04-15 阿里巴巴(中国)有限公司 图像处理方法、系统及电子设备
CN114724004A (zh) * 2022-03-16 2022-07-08 深圳数联天下智能科技有限公司 训练试衣模型的方法、生成试衣图像的方法及相关装置
CN114862666A (zh) * 2022-06-22 2022-08-05 阿里巴巴达摩院(杭州)科技有限公司 图像变换系统、方法、存储介质及电子设备
CN115761143A (zh) * 2022-12-07 2023-03-07 武汉纺织大学 一种基于2d图像的3d虚拟换装模型生成方法及装置
WO2023088277A1 (zh) * 2021-11-16 2023-05-25 百果园技术(新加坡)有限公司 虚拟穿戴方法、装置、设备、存储介质及程序产品
CN117522680A (zh) * 2023-11-10 2024-02-06 南通大学 一种基于轻量化结构的虚拟试衣方法
CN117575636A (zh) * 2023-12-19 2024-02-20 东莞莱姆森科技建材有限公司 一种基于视频处理的智能镜控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120136755A1 (en) * 2010-11-29 2012-05-31 Yang Jin Seok System and Method for Providing Virtual Fitting Experience
CN111275518A (zh) * 2020-01-15 2020-06-12 中山大学 一种基于混合光流的视频虚拟试穿方法及装置
CN111445426A (zh) * 2020-05-09 2020-07-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于生成对抗网络模型的目标服装图像处理方法
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111768472A (zh) * 2020-05-29 2020-10-13 北京沃东天骏信息技术有限公司 虚拟试衣方法及装置、计算机可存储介质
CN112258269A (zh) * 2020-10-19 2021-01-22 武汉纺织大学 基于2d图像的虚拟试衣方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120136755A1 (en) * 2010-11-29 2012-05-31 Yang Jin Seok System and Method for Providing Virtual Fitting Experience
CN111275518A (zh) * 2020-01-15 2020-06-12 中山大学 一种基于混合光流的视频虚拟试穿方法及装置
CN111489287A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
CN111445426A (zh) * 2020-05-09 2020-07-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于生成对抗网络模型的目标服装图像处理方法
CN111768472A (zh) * 2020-05-29 2020-10-13 北京沃东天骏信息技术有限公司 虚拟试衣方法及装置、计算机可存储介质
CN112258269A (zh) * 2020-10-19 2021-01-22 武汉纺织大学 基于2d图像的虚拟试衣方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023088277A1 (zh) * 2021-11-16 2023-05-25 百果园技术(新加坡)有限公司 虚拟穿戴方法、装置、设备、存储介质及程序产品
CN114356084A (zh) * 2021-12-24 2022-04-15 阿里巴巴(中国)有限公司 图像处理方法、系统及电子设备
CN114724004A (zh) * 2022-03-16 2022-07-08 深圳数联天下智能科技有限公司 训练试衣模型的方法、生成试衣图像的方法及相关装置
CN114724004B (zh) * 2022-03-16 2024-04-26 深圳数联天下智能科技有限公司 训练试衣模型的方法、生成试衣图像的方法及相关装置
CN114862666A (zh) * 2022-06-22 2022-08-05 阿里巴巴达摩院(杭州)科技有限公司 图像变换系统、方法、存储介质及电子设备
CN114862666B (zh) * 2022-06-22 2022-10-04 阿里巴巴达摩院(杭州)科技有限公司 图像变换系统、方法、存储介质及电子设备
CN115761143A (zh) * 2022-12-07 2023-03-07 武汉纺织大学 一种基于2d图像的3d虚拟换装模型生成方法及装置
CN115761143B (zh) * 2022-12-07 2023-09-19 武汉纺织大学 一种基于2d图像的3d虚拟换装模型生成方法及装置
CN117522680A (zh) * 2023-11-10 2024-02-06 南通大学 一种基于轻量化结构的虚拟试衣方法
CN117575636A (zh) * 2023-12-19 2024-02-20 东莞莱姆森科技建材有限公司 一种基于视频处理的智能镜控制方法及系统
CN117575636B (zh) * 2023-12-19 2024-05-24 东莞莱姆森科技建材有限公司 一种基于视频处理的智能镜控制方法及系统

Also Published As

Publication number Publication date
CN113361560B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN113361560B (zh) 一种基于语义的多姿势虚拟试衣方法
CN112001960B (zh) 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
US11450066B2 (en) 3D reconstruction method based on deep learning
CN110728219B (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN111275518A (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN110544297A (zh) 一种单幅图像的三维模型重建方法
CN111091624B (zh) 一种从单张图片生成高精度可驱动人脸三维模型的方法
CN112784782B (zh) 一种基于多视角双注意网络的三维物体识别方法
CN114187331A (zh) 一种基于Transformer特征金字塔网络的无监督光流估计方法
CN113516693B (zh) 一种快速通用的图像配准方法
CN110909615A (zh) 基于多尺度输入混合感知神经网络的目标检测方法
CN112819951A (zh) 一种基于深度图修复的带遮挡三维人体重建方法
CN112634438A (zh) 基于对抗网络的单帧深度图像三维模型重建方法及装置
CN111445426A (zh) 一种基于生成对抗网络模型的目标服装图像处理方法
Kang et al. Competitive learning of facial fitting and synthesis using uv energy
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-CNN structure for face super-resolution
CN115761791A (zh) 基于2d图像的人体语义预测模块、虚拟换衣模型及方法
CN117522990B (zh) 基于多头注意力机制和迭代细化的类别级位姿估计方法
CN115761143B (zh) 一种基于2d图像的3d虚拟换装模型生成方法及装置
CN116071410A (zh) 一种基于深度学习的点云配准方法、系统、设备及介质
CN109697695A (zh) 可见光图像引导的超低分辨率热红外图像插值算法
CN113593007B (zh) 一种基于变分自编码的单视图三维点云重建方法及系统
CN114494576A (zh) 一种基于隐函数的快速高精度多视点人脸三维重建方法
CN113822175A (zh) 一种基于关键点聚类驱动匹配的虚拟试衣图像生成方法
CN114022362A (zh) 一种基于金字塔注意力机制和对称网络的图像超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant