CN113361560A

CN113361560A - 一种基于语义的多姿势虚拟试衣方法

Info

Publication number: CN113361560A
Application number: CN202110304724.5A
Authority: CN
Inventors: 张建明; 宋阳; 王志坚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-09-07
Anticipated expiration: 2041-03-22
Also published as: CN113361560B

Abstract

本发明涉及虚拟试衣领域，具体涉及一种基于语义的多姿势虚拟试衣方法，包括：步骤101，选择人体图像、目标衣服和人体姿势图；步骤102，分别提取人体图像的语义信息，依据人体衣服语义，对目标衣服进行扭转变形；步骤103，将变形后的衣服、人体语义表征、人体姿势表征送入条件式对抗生成网络，得到初始试衣结果；步骤104，采用由粗到细的两步图像合成方法，生成试衣结果时，在神经网络中间层采用语义条件空间归一化，保留衣服语义并和其它人体语义分离，训练时，将生成的语义标签作为输入；步骤105，输出并显示用户指定目标衣服和姿势的虚拟试衣结果。本发明适用于电子商务服装在线销售领域，能够极大提升用户体验，实现海量、高效的虚拟试衣效果。

Description

一种基于语义的多姿势虚拟试衣方法

技术领域

本发明涉及虚拟试衣领域，特别是一种基于语义的多姿势虚拟试衣方法。

背景技术

将目标衣服试穿到人体图像上是虚拟试衣任务的主要目标，也是近来计算机视觉领域的重要应用场景。

传统的虚拟试衣技术，大部分研究者都专注于基于三维建模的虚拟试衣技术，利用三维扫描、三维重建等技术建立服装和人体的三维模型来实现虚拟试衣，大多数方法都是建立在计算机图形学的基础上，根据用户自身三维人体信息，建立人体三维模型，再将衣服渲染在所建立的人体三维模型上，得益于计算机图形学精确计算出来的衣服和人体几何形变，这类方法得出的试衣结果较为准确，但是，这种方法往往需要巨大的计算资源，且对硬件设备有很强的依赖性；基于图像的虚拟试衣技术能很好的克服上述问题，但现有的二维虚拟试衣技术往往只适用于简单的试穿场合，人体图像的质量和目标衣服的图像质量都会影响试衣效果。

发明内容

为了解决上述现有技术的不足，本发明提供一种基于语义的多姿势虚拟试衣系统和方法，在不需要额外计算量或者复杂硬件设备，系统鲁棒性强，可以实现复杂情况下的海量试衣，其具体技术方案如下：

一种基于语义的多姿势虚拟试衣方法，包括以下步骤：

步骤101，用户选择人体图像、目标衣服和需要试穿的人体姿势图；

步骤102，分别提取人体图像的语义信息，生成人体语义解析图，同时根据语义解析图，采用空间转换网络，对目标衣服进行扭转变形；

步骤103，将变形后的衣服、人体语义表征、人体姿势表征送入条件式生成对抗网络中，得到初始的试衣结果；

步骤104，采用由粗到细的图像合成方法，生成试衣结果时，在神经网络中间层采用语义条件空间归一化操作，保留衣服语义并和人体其他语义分离开；训练时，通过生变分自编码器VAE生成的语义标签作为输入，在测试阶段，不生成语义标签；

步骤105，通过训练好的模型对用户输入的目标姿势、目标衣服和人体图像进行测试，输出并显示用户指定目标衣服和姿势的虚拟试衣结果。

进一步的，所述步骤102具体为：

提取人体图像语义信息，包括人体衣服语义、身体部分语义、头发和脸部语义和裤子语义；

所述的空间转换网络采用薄板样条插值法对目标衣服进行扭转变形，采用卷积神经网络

预测薄板样条插值法的参数θ，在卷积神经网络

的第3，4，5层，使用带偏移量的卷积核代替常规卷积核，将常规的感受野网格

增强为带有偏移量{Δp_n|n＝1,...,N}的网格

其中

带有偏移量的不规则采样坐标变成了p_n+Δp_n，对Δp_n进行双线性插值

转换，将其转换成整数，其中p代表任意位置的坐标，q列举了所有特征图中的整数空间位置， G(·,·)是双线性插值操作，G是二维运算，被分成两个维度的运算：

单独维度的线性插值运算为：

a,b分别是一维空间中两个点的坐标，同时，在生成变形后的目标衣服后，对参数θ进行修正，得到人体衣服语义匹配的预测参数 (θ+Δθ)。

进一步的，所述步骤103中的人体语义表征包括人体衣服语义、身体部分语义、头发和脸部语义的单通道掩膜，所述人体姿势表征采用18个人体姿势关键点来表示，所述关键点被转换成18通道的姿势热图；所述条件式生成对抗网络包括生成器和判别器，所述生成器由特征提取器即编码器和Unet神经网络组成，特征提取器分别提取变形衣服、人体语义掩膜和姿势表征的高阶特征，接着将所述高阶特征送入Unet神经网络中完成特征的融合，所述判别器由下采样卷积模块和最后的全连接层组成，对真实的条件和人体图像判断为真，对生成器生成的结果和条件判断为假。

进一步的，所述所述神经网络为条件式对抗生成网络，其目标函数为：

全局GAN损失函数为：

其中

分别表示判别器对于真实图像分布和生成图像分布的判别期望值，G表示生成器，D表示判别器，

分别是判别器最小化解纠缠生成器生成分布判别期望和最大化真实分布判别期望，Z表示随机噪声变量，x_true表示真实服装图像，condition表示试衣图像的语义分割标签和变形衣服的掩膜。

进一步的，所述生成试衣结果时，采用的语义条件空间归一化操作，是指在每次上采样过程中，都对特征图进行空间归一化操作，将人体语义图像映射到编码空间，通过两次卷积网络输出生成调制参数包括斜率γ和偏差β，所述卷积网络的卷积核大小为3×3，通道数分别与输入通道和特征图数量匹配，斜率γ和偏差β不是传统归一化方法中的向量，而是带有空间维度的张量，在高度为h，宽度为w，通道数为c的第n张图片，其空间归一化过程为：

(，其中

和

是归一化层学习到的参数，

是归一化之前的第i层激活层，

是和

分别是激活层在通道c的均值和标准差，计算公式为：

进一步的，所述训练时，将通过生变分自编码器VAE生成的语义标签作为输入，具体为：使用变分自编码器VAE生成两个新的语义标签l₁和l₂，将其送入生成器，分别生成两个试衣结果，再将这两个试衣结果进行融合，同真实试衣结果进行误差反向传播。

进一步的，所述生成的语义标签和真实语义标签服从同一分布但存在一定的偏差，将生成的语义标签和真实数据对送入到虚拟试衣网络中进行训练，通过 GAN损失和感知损失等目标函数进一步提升虚拟试衣网络的效果，所述的变分自编码器在训练时的目标函数由两部分组成：1)重建损失

2)KL散度损失

二者分别控制元素级的偏差和潜空间的平滑度，

可以表征真实先验

分布和学习到的分布之间的距离，总体变分自编码器损失可以表示为：

λ_KL表示的是KL散度损失的系数。所述的变分自编码器在测试过程中不用生成语义标签。

进一步的，所述步骤105具体为：完成网络模型的训练过程后，用户输入人体图像、目标姿势、目标衣服，生成人体语义解析图，接着将用户输入信息传入到模型中，输出最终的试衣结果；所述网络模型采用编码器和译码器，编码器首先将人体图像和目标姿势下采样为中间潜码，接着中间潜码通过一个译码器上采样到最终的虚拟试衣结果。

9、如权利要求8所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述的编码器由四个下采样卷积模块和两个并列输出的全连接层组成，每个卷积模块的下采样倍数为2，卷积操作后图像的大小为16×12，并列的全连接层的大小为256，分别输出对应的均值和均差。

进一步的，所述的译码器结构具体为：中间潜码经过4个上采样模块得到最终的虚拟试衣结果，上采样模块是由语义条件空间归一化模块组成的，每个条件空间归一化模块对人体语义解析进行两次卷积操作，分别得到归一化参数的斜率和偏差，在对特征图进行了批归一化层后再进行语义条件空间归一化操作，得到经过语义条件归一化的特征图。

本发明提出的一种基于语义的多姿势虚拟试衣系统和方法，能够很好的克服目标衣服试穿不准确，试衣效果不匹配等问题，以人体姿势和衣服语义作为生成对抗网络的条件，能够实现多姿势的虚拟试衣技术，互相对抗训练的GAN网络能够很好的保证虚拟试衣生成的效果图。

附图说明

图1是本发明的方法流程示意图；

图2是本发明实施例的采用数据集的人体图像和目标衣服图像示意图；

图3是本发明实施例的目标人体语义解析、目标衣服掩码变形过程的示意图；

图4是本发明实施例的使用的带有偏移量卷积核的示意图；

图5是本发明实施例的使用变分自编码器提升模型测试时鲁棒性的流程图；

图6是本发明实施例的从用户输入到得到虚拟试衣结果的流程图；

图7是本发明实施例的编码器的网络结构示意图；

图8是本发明实施例的的译码器和条件空间归一化模块的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1-8所示，本发明的一种基于语义的多姿势虚拟试衣方法，包括如下步骤：

步骤101，用户选择人体图像、目标衣服和需要试穿的人体姿势图；对所述目标衣服和人体图像进行语义解析和姿势估计，其中，所述人体姿势图是由18 个关键点组成的姿势热图，每个关键点是由大小为11×11的值为1的特征块组成的，其余部分的值为0，所述姿势热图最终组合成通道数为18的姿势表征送入到条件式生成对抗网络中，用户可以通过选择18个关键点的位置来选择指定的目标姿势。

步骤102，分别提取人体图像的语义信息，生成人体语义解析图，同时根据语义解析图，采用空间转换网络，对目标衣服进行扭转变形。

所述的提取人体图像语义信息，主要包括人体衣服语义、身体部分语义、头发和脸部语义和裤子语义等。

所述目标衣服的变形要根据输入的用户人体图像进行，变形后的衣服掩膜要与人体图象的衣服语义匹配，在对目标衣服进行扭转变形时，还要保证衣服的细节特征，如颜色、纹理、图案等要素保留，仅仅改变衣服的形状，以适应人体图像。

在将目标衣服进行扭转变形时，使用薄板样条插值采样法对目标衣服进行空间转换，使用卷积神经网络

来预测其参数θ，在卷积神经网络

的第3，4，5 层，使用带偏移量的卷积核代替常规卷积核，提升特征图对于非刚性变形采样的感受野，将常规的感受野网格

增强为带有偏移量{Δp_n|n＝1,...,N}的网格

其中

转换，将其转换成整数，其中p代表任意位置的坐标， q列举了所有特征图中的整数空间位置，G(·,·)是双线性插值操作，G是二维运算，被分成两个维度的运算：

单独维度的线性插值运算为：

a,b分别是一维空间中两个点的坐标。同时，在生成变形后的目标衣服后，对参数θ进行修正，得到语义匹配的预测参数 (θ+Δθ)。

步骤103，将变形后的衣服、人体语义表征、人体姿势表征送入条件式生成对抗网络中，得到初始的试衣结果。

所述变形后的衣服图像的大小为3×256×192，表示图像的高为256，长为 192，通道数为3，人体姿势表征是由18个关键点在通道层次连接的，人体语义表征的大小为1×256×192，因此送入条件式对抗生成网络的输入通道数为22，大小为256×192。

所述人体语义表征包括人体衣服语义、身体部分语义、头发和脸部语义等的单通道掩膜，人体姿势表征用18个人体姿势关键点来表示，为了利用姿势的空间布局，关键点被转换成18通道的姿势热图，作为人体姿势表征；在测试阶段，用户通过改变人体姿势关键点来实现多姿势试衣结果；

所述条件式生成对抗网络包括生成器和判别器，所述生成器由特征提取器即编码器和一个Unet神经网络组成，特征提取器分别提取变形衣服、人体语义掩膜和姿势表征的高阶特征，接着将所述高阶特征送入Unet神经网络中完成特征的融合。所述判别器是一个下采样卷积模块和最后的全连接层组成，对真实的条件和人体图像判断为真，对生成器生成的结果和条件判断为假。

步骤104，采用由粗到细的图像合成方法，生成试衣结果时，在神经网络中间层采用语义条件空间归一化操作，保留衣服语义并和人体其他语义分离；训练时，将通过生变分自编码器VAE生成的语义标签作为输入，在测试阶段，不生成语义标签；

所述由粗到细的图像合成方法是指：首先生成粗糙的、模糊的虚拟试衣结果，接着通过细化和优化操作提升图像效果；

所述神经网络为条件式对抗生成网络，其目标函数为：

全局GAN损失函数为：

其中

在生成试衣结果时，采用的语义条件空间归一化操作，是指在每次上采样过程中，都对特征图进行空间归一化操作，将人体语义图像映射到编码空间，通过两次卷积网络输出生成调制参数包括斜率γ和偏差β，所述卷积网络的卷积核大小为3×3，通道数分别与输入通道和特征图数量匹配，斜率γ和偏差β不是传统归一化方法中的向量，而是带有空间维度的张量，在高度为h，宽度为w，通道数为c的第n张图片，其空间归一化过程为：

其中

和

是归一化层学习到的参数，

是归一化之前的第i层激活层，

是和

分别是激活层在通道c的均值和标准差，计算公式为：

在训练过程中，使用变分自编码器生VAE成两个新的语义标签l₁和l₂，将其送入生成器，分别生成两个试衣结果，再将这两个试衣结果进行融合，同真实试衣结果进行误差反向传播，以优化生成器，增强网络对于测试阶段语义变化的鲁棒性。

生成的语义标签和真实语义标签服从同一分布但存在一定的偏差，将生成的语义标签和真实数据对送入到虚拟试衣网络中进行训练，通过GAN损失和感知损失等目标函数进一步提升虚拟试衣网络的效果，所述的变分自编码器在训练时的目标函数由两部分组成：1)重建损失

2)KL散度损失

二者分别控制元素级的偏差和潜空间的平滑度，

可以表征真实先验分布和学习到的分布之间的距离，总体变分自编码器损失可以表示为：

λ_KL表示的是KL散度损失的系数。所述的变分自编码器在测试过程中不用生成语义标签，仅仅在训练过程中用以提升算法对于语义改变的鲁棒性。

在测试阶段，不需要使用到变分自编码器VAE。

在训练时，整个模型的目标函数由GAN损失、感知损失、总体VAE损失、特征匹配损失组成，各部分损失的权重系数是训练时需要调节的超参数。

如图6所示，在完成模型的训练过程后，用户输入人体图像、目标姿势、目标衣服后，系统对人体图像进行语义解析，生成人体语义解析图，接着将用户输入信息传入到模型中，译码器会输出最终的试衣结果，在生成初始试衣结果时，主要采用了一个编码器和译码器，编码器首先将人体图像和目标姿势下采样为中间潜码，接着中间潜码通过一个译码器上采样到最终的虚拟试衣结果。

如图7所示，所述的编码器结构主要由四个下采样卷积模块和两个并列输出的全连接层组成，每个卷积模块的下采样倍数为2，卷积操作后图像的大小为16 ×12，并列的全连接层的大小为256，分别输出对应的均值和均差。

如图8所示，所述的译码器结构，中间潜码经过4个上采样模块得到最终的虚拟试衣结果，上采样模块是由语义条件空间归一化模块组成的，每个条件空间归一化模块对人体语义解析进行两次卷积操作，分别得到归一化参数的斜率和偏差，在对特征图进行了批归一化层后再进行语义条件空间归一化操作，得到经过语义条件归一化的特征图，因此能够保留相关的语义信息，在网络层进行传递时也能保留各部分语义特征。

所述的编码器和译码器中使用的卷积层的卷积核大小均为3×3，上下采样的步长均为2。

为了证明本发明的实施有效性，在实施过程中对结果进行了对比试验和定量测评，对比试验的参照结果是现有的基于图像的虚拟试穿方法VITON (Viton:An image-based virtual try-on network),定量测评的指标包括感知得分(Inception Score,IS),其值越高表示效果越好，感知结构相似度得分(LPIPS)，其值越低表示与真实图像更接近，结构相似性指标(SSIM)，其值越高表示生成图像效果越好，得到的实验结果如下表所示：

方法	IS	LPIPS	SSIM
				VITON	2.4578±0.1145	0.1488	0.7064
本发明	3.1597±0.1420	0.1120	0.8268

由上表可以看出，本发明在三种定量评测指标都优于现有的VITON方法，由此证明了本发明所采用方法的优越性，本发明所采用的方法实施效果最好。

Claims

1.一种基于语义的多姿势虚拟试衣方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述步骤102具体为：

预测薄板样条插值法的参数θ，在卷积神经网络

增强为带有偏移量{Δp_n|n＝1,...,N}的网格

其中

转换，将其转换成整数，其中p代表任意位置的坐标，q列举了所有特征图中的整数空间位置，G(·,·)是双线性插值操作，G是二维运算，被分成两个维度的运算：

单独维度的线性插值运算为：

a,b分别是一维空间中两个点的坐标，同时，在生成变形后的目标衣服后，对参数θ进行修正，得到人体衣服语义匹配的预测参数(θ+Δθ)。

3.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述步骤103中的人体语义表征包括人体衣服语义、身体部分语义、头发和脸部语义的单通道掩膜，所述人体姿势表征采用18个人体姿势关键点来表示，所述关键点被转换成18通道的姿势热图；所述条件式生成对抗网络包括生成器和判别器，所述生成器由特征提取器即编码器和Unet神经网络组成，特征提取器分别提取变形衣服、人体语义掩膜和姿势表征的高阶特征，接着将所述高阶特征送入Unet神经网络中完成特征的融合，所述判别器由下采样卷积模块和最后的全连接层组成，对真实的条件和人体图像判断为真，对生成器生成的结果和条件判断为假。

4.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述所述神经网络为条件式对抗生成网络，其目标函数为：

全局GAN损失函数为：

其中

5.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述生成试衣结果时，采用的语义条件空间归一化操作，是指在每次上采样过程中，都对特征图进行空间归一化操作，将人体语义图像映射到编码空间，通过两次卷积网络输出生成调制参数包括斜率γ和偏差β，所述卷积网络的卷积核大小为3×3，通道数分别与输入通道和特征图数量匹配，斜率γ和偏差β不是传统归一化方法中的向量，而是带有空间维度的张量，在高度为h，宽度为w，通道数为c的第n张图片，其空间归一化过程为：

其中

和

是归一化层学习到的参数，

是归一化之前的第i层激活层，

是和

分别是激活层在通道c的均值和标准差，计算公式为：

6.如权利要求1所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述训练时，将通过生变分自编码器VAE生成的语义标签作为输入，具体为：使用变分自编码器VAE生成两个新的语义标签l₁和l₂，将其送入生成器，分别生成两个试衣结果，再将这两个试衣结果进行融合，同真实试衣结果进行误差反向传播。

7.如权利要求6所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述生成的语义标签和真实语义标签服从同一分布但存在一定的偏差，将生成的语义标签和真实数据对送入到虚拟试衣网络中进行训练，通过GAN损失和感知损失等目标函数进一步提升虚拟试衣网络的效果，所述的变分自编码器在训练时的目标函数由两部分组成：1)重建损失

2)KL散度损失

二者分别控制元素级的偏差和潜空间的平滑度，

8.如权利要求6所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述步骤105具体为：完成网络模型的训练过程后，用户输入人体图像、目标姿势、目标衣服，生成人体语义解析图，接着将用户输入信息传入到模型中，输出最终的试衣结果；所述网络模型采用编码器和译码器，编码器首先将人体图像和目标姿势下采样为中间潜码，接着中间潜码通过一个译码器上采样到最终的虚拟试衣结果。

9.如权利要求8所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述的编码器由四个下采样卷积模块和两个并列输出的全连接层组成，每个卷积模块的下采样倍数为2，卷积操作后图像的大小为16×12，并列的全连接层的大小为256，分别输出对应的均值和均差。

10.如权利要求8所述的一种基于语义的多姿势虚拟试衣方法，其特征在于，所述的译码器结构具体为：中间潜码经过4个上采样模块得到最终的虚拟试衣结果，上采样模块是由语义条件空间归一化模块组成的，每个条件空间归一化模块对人体语义解析进行两次卷积操作，分别得到归一化参数的斜率和偏差，在对特征图进行了批归一化层后再进行语义条件空间归一化操作，得到经过语义条件归一化的特征图。