CN110909754B

CN110909754B - 一种属性生成对抗网络及基于该网络的搭配服饰生成方法

Info

Publication number: CN110909754B
Application number: CN201811074522.0A
Authority: CN
Inventors: 张海军; 刘琳琳; 孙妍芳
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2023-04-07
Anticipated expiration: 2038-09-14
Also published as: KR20200034917A; CN110909754A

Abstract

一种属性生成对抗网络及基于该网络的搭配服饰生成方法，属于生成式模型以及服饰搭配领域。针对根据已有服饰图像生成相搭配的服饰图像的问题，先构建搭配服饰数据集，包含一套搭配服饰的图像信息、文本信息以及相应的属性信息；再设计属性生成对抗网络，包含一个生成器、一个搭配判别器和一个属性判别器；然后对其进行对抗训练，学习得到生成器网络参数；最后对于新的服饰图像输入到训练好的生成器中，从而生成相搭配的服饰图像。本发明通过训练设计的属性生成对抗网络，生成和输入图像相搭配的服饰图像，为用户的穿衣搭配提供参考依据；在高级语义属性上符合人们通常的搭配规则，对衣服推荐、衣服检索、时尚设计等应用有巨大的潜力。

Description

一种属性生成对抗网络及基于该网络的搭配服饰生成方法

本发明属于生成式模型以及服饰搭配领域，尤其涉及一种属性生成对抗网络及基于该网络的搭配服饰生成方法，所述方法使用服饰搭配对和相应属性信息作为最原始输入。

背景技术

时尚因素因其展现自我个性和塑造文化的能力，在现今社会中扮演的角色日益重要。最近，网上购物对时尚产品的需求不断上升，能够有效地推荐时尚物品的方法有两种，一种是推荐一件商品与现有的单品组合相搭配；另一种是通过用户给出的文字描述或者场景图片产生一套符合要求的时尚单品集合。想要实现这种功能仍然存在许多挑战，困难在于对于不同种类的时尚物品之间的相容关系建模，这不同于通常的计算图像的相似度。目前时尚学习领域的研究内容只要集中在衣服分割、衣服识别、时尚推荐或衣服检索等。但是这些工作没有深究一整套时尚搭配之所以搭配的原因在哪，或者通过对搭配的建模，生成虚拟的相搭配的单品，从而对人们的穿衣搭配给予指导。这些研究问题可以从图像和文本两个领域来考虑，图像上一套搭配中的单品要有视觉上的相容性和风格上的共享性；文本上可以通过给予一件单品的描述信息、属性或者适合场景等，给予一系列搭配上的指导。

GAN是“生成对抗网络”(Generative Adversarial Networks)的简称，由2014年还在蒙特利尔读博士的Ian Goodfellow引入深度学习领域。2016年，GAN热潮席卷AI领域顶级会议，从ICLR到NIPS，大量高质量论文被发表和探讨。GAN是一个非常灵活的设计框架，各种类型的损失函数都可以整合到GAN模型当中，这样使得针对不同的任务，我们可以设计不同类型的损失函数，都会在GAN的框架下进行学习和优化。作为一个生成模型，GAN最直接的应用，就是用于真实数据分布的建模和生成，包括可以生成一些图像和视频，以及生成一些自然语句和音乐等。其次，因为内部对抗训练的机制，GAN可以解决一些传统的机器学习中所面临的数据不足的问题，因此可以应用在半监督学习、无监督学习、多视角、多任务学习的任务中。此外，GAN可以和CNN、RNN结合在一起。任何一个可微分的函数，都可以用来参数化GAN的生成模型和判别模型。那么，在实际中，我们就可以使用深度卷积网络，来参数化生成模型。综上所述深度卷积神经网络和GAN，无论是单独研究还是结合起来解决问题，都是有着较理想的研究前景。

发明内容

本发明依托现有的条件生成对抗网络模型，提出属性生成对抗网络模型，基于服饰属性生成与之相搭配的服饰，在模型中生成器学习合成与输入图像相搭配的服饰，判别器分别判断合成的图像是否与输入图像相搭配，以及在属性上是否逼近条件图像。基于此思路，本发明提出了一种属性生成对抗网络及基于该网络的服饰搭配方法。

所述属性生成对抗网络包括一个生成器和两个判别器，所述生成器生成合成图像、完成输入服饰图像到相应搭配服饰图像的转换，两个判别器分别为搭配判别器和属性判别器，所述搭配判别器判断生成的合成搭配图像对搭配与否，所述属性判别器判断生成的合成图像是否具有相应的服饰属性；所述属性生成对抗网络混合条件生成对抗网络的目标函数和传统损失，保持判别器的任务不变，生成器不仅要蒙蔽判别器，且生成的合成图像要在相似度距离上逼近真实图像；作为优选，所述相似度距离为L1距离。

进一步地，所述生成器采用“U-Net”结构；所述搭配判别器采用“Patch-GAN”；所述属性判别器包含四个卷积层和M个全连接层，M为属性个数，卷积层卷积核大小为4×4，使用M个交叉熵(Cross Entropy)损失函数的求和平均作为属性判别器的目标函数。

进一步地，所述的属性生成对抗网络，其特征在于，所述判别器要使搭配判别器和属性判别器的目标函数最大化，而生成器则要使自身的目标函数最小化，二者形成对抗。

所述基于属性生成对抗网络的服饰搭配方法包括以下步骤：

A、构建搭配服饰数据集：构建包含图像信息、文本信息和服饰搭配信息的服饰数据集；建立细粒度服饰属性数据集，对其中的服饰图像进行标记；

B、设计属性生成对抗网络：所述属性生成对抗网络包括一个生成器和两个判别器，所述生成器完成输入服饰图像到相应搭配服饰图像的转换，两个判别器分别为搭配判别器和属性判别器，所述搭配判别器判断生成的合成搭配图像对搭配与否，所述属性判别器判断生成的合成图像是否具有相应的服饰属性；此外，所述属性生成对抗网络混合条件生成对抗网络的目标函数和传统损失，保持判别器的任务不变，生成器不仅要蒙蔽判别器，生成的合成图像要在相似度距离上逼近真实图像；作为优选，该相似度距离采用L1距离；

C、属性生成对抗网络训练：将真实搭配图像服饰对中的一个作为输入，另外一个作为条件，通过其中的生成器生成合成图像，搭配判别器将不断学习以区分真实搭配图像对和合成搭配图像对，属性判别器则学习预测真实图像和合成图像的属性；

D、生成搭配服饰图像：完成属性生成对抗网络的训练后，得到相应的网络参数，针对新的服饰图像，输入到生成器中，生成相应的搭配服饰图像。

进一步地，所述步骤A构建搭配服饰数据集包括以下步骤：

A1、构建服饰数据集，包含搭配信息的服饰图像和文本信息，文本包含对于服饰的描述、对于一套服饰的喜爱程度；

A2、综合若干电商的关键字搜索项，建立细粒度服饰属性集，包含类别，颜色，纹理，款式，细节，对服饰搭配数据集中的服饰图像进行属性人工标记；

进一步地，所述步骤B设计属性生成对抗网络包括以下步骤：

B1、生成器采用一个解码-译码的变型框架，采用“U-Net”结构，所述框架在对应的层之间跳跃链接，具体体现在译码阶段网络会把对应层的特征进行连接，再接着去进行卷积或者批标准化，进而进行上采样；

B2、搭配判别器采用“Patch-GAN”，先把图像划分成许多patch，然后在图像对的N×N块上去判断是搭配是否为真，再对所有的patch的判定结果求平均，最后给出判定输出；

B3、设计卷积神经网络，包含四层卷积层，M个全连接(Fully Connected，FC)层，M为属性个数，属性判别器，使用M个交叉熵损失函数的求和平均作为属性判别器的目标函数；

B4、选取L1距离作为附加监督信息，使合成图像在L1距离上更加逼近真实图像；在生成器的目标函数中添加合成图像和真实图像的L1距离。

进一步地，所述步骤C包括以下步骤：

C1、将成对的搭配图像，以及想要生成的图像类型的属性监督信息输入属性生成对抗网络；

C2、在迭代过程中，输入服饰图像和真实图像组成真实搭配图像对，输入服饰图像和合成图像组成合成搭配图像对，分别作为正样本对和负样本对输入到搭配判别器中学习服饰图像搭配与否的判定；

C3、在迭代过程中，真实图像及其对应的属性信息、合成图像和对应的属性信息分别作为正样本和负样本分别输入到属性判别器，学习图像到高级语义属性的映射。

具体地，属性生成对抗网络的输入分为两个部分，其中一部分为采集的包含搭配信息的衣服图像对，另一部分为对搭配服饰数据集的人工标记的属性信息。在一次迭代过程中，输入服饰图像和真实图像组成真实搭配图像对，输入服饰图像和合成图像组成合成搭配图像对，分别作为正样本对和负样本对输入到搭配判别器中学习服饰图像搭配与否的判定。在一次迭代过程中，真实图像及其对应的属性信息、合成图像和对应的属性信息分别作为正样本和负样本输入到属性判别器，学习图像到高级语义属性的映射。利用卷积神经网络分别对真实图像和合成图像的属性进行预测，优化属性预测过程中，判别器提供额外的高层语义信息。

本发明的有益效果是：本发明提出了一种属性生成对抗网络及基于该网络的服饰搭配方法，通过训练设计的属性生成对抗网络，生成和输入图像相搭配的服饰图像，为用户的穿衣搭配及服装设计师的服装设计提供参考依据。具体来说，本发明提出了一种属性生成对抗网络，生成基于高级语义属性搭配规则的服饰图像。在属性生成对抗网络框架下，生成器将生成和输入图像相搭配的服饰图像，搭配生成器判定生成的服饰图像和输入服饰图像是否搭配，属性判别器则判断生成的服饰图像是否符合输入图像的属性规则。训练的最终结果，搭配判别器不能判断生成的服饰图像是否搭配，生成的服饰属性是否正确。在多加一个属性判别器的情况下，生成的搭配衣服图像将在高级语义属性上符合人们通常的搭配规则。此框架对衣服推荐，衣服检索，时尚设计等实际应用有巨大的潜力。

附图说明

图1是本发明的基于属性生成对抗网络的服饰搭配方法的流程图；

图2是本发明的属性生成对抗网络的模型框架图；

图3是本发明的属性生成对抗网络中的属性判别器的模型框架图；

图4是本发明方法生成的相搭配衣服图像结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

附图1示出了本发明提供的基于属性生成对抗网络的服饰搭配方法的流程图，其详述如下。

步骤S1：构建搭配服饰数据集。本发明使用的用于训练的数据来自于www.ployvore.com网站，网站的用户可以上传、分享、修改创建的服饰搭配组合，其他用户则可以进行评论和打分。本发明爬取了包含图像信息、文本信息的搭配组合，文本信息主要包含对于搭配的文本描述以及用户的喜爱度。

在此基础上，综合若干电商用户常用的搜索关键字项，建立一套细粒度服饰属性集，包含类别、颜色、纹理、款式等种类，共90种属性。对于爬取的搭配服饰图像进行属性的人工标记，经过标记和清洗，共得到19081个搭配，其中15000对搭配作为训练，3000对作为验证，1081对作为测试。

步骤S2：设计属性生成对抗网络。本发明提出了一种属性生成对抗网络，具体模型框架如图2所示，分为三部分：一个生成器，搭配判别器和属性判别器。属性生成对抗网络的输入为搭配服饰图像对以及对应的属性信息。

其中，生成器主要学习搭配服饰图像对中的一张图像到另一张图像的映射，表示为

生成器采用解码-译码的变型框架，该框架在对应的层之间跳跃链接，在译码阶段网络会把对应层的特征进行连接，再接着去进行卷积或者批标准化，进而进行上采样，这样的框架通常被称之为“U-Net”。具体来说，在生成器卷积神经网络的每个i层和n-i层之间进行跳跃连接，其中n为总的网络层数。每个跳跃链接连接i层和n-i层的所有通道。

搭配判别器输入为生成的搭配服饰图像和输入图像组成的搭配服饰图像对，输出为判定此搭配服饰图像是否搭配，表示为

具体采用分块判断的“Patch-GAN”，即是把图像划分成许多patch，在图像对的N×N块上去判断是搭配是否为真，再对所有的patch的判定结果求平均，最后给出判定输出。

最终的搭配判别器的目标函数可以表示为：

其中D_collo(x|y)为搭配判别器，G(x)为生成器，P_data表示数据分布，

为通过生成器生成的搭配图像

混合条件生成对抗网络目标函数和传统损失函数。保持搭配判别器的目标函数不变，在生成器的目标函数中加入L1距离，使生成的搭配图像，不仅要骗过判别器，还要在L1距离上接近条件搭配图像。生成器的目标函数表示为：

其中||·||₁为L1距离。

对于属性判别器，首先设计卷积神经网络，包含4层卷积层，M个FC层，M为属性个数。属性判别器可看作多类分类器，在FC层后计算M个交叉熵损失函数的求和平均作为属性判别器的损失函数。属性判别器的框架图如图3所示，包含四个卷积层和一个FC层，卷积层卷积核大小为4×4，连接FC层的输出节点数为属性标签数。最终的属性判别器目标函数表示为

其中A_i表示第i个服饰属性，a_i表示第i个属性真值。在训练过程中，条件服饰图像以及相应的属性信息作为正样本，生成的服饰图像和真实图像的属性信息作为负样本，在迭代过程中输入到属性判别器中学习图像到高级语义属性之间的映射。

判别器D_collo和D_attri尝试尽量使搭配判别器和属性判别器的目标函数最大化，而生成器G则要使自身的目标函数最小化，二者形成对抗，即最终需要满足的生成器目标函数为

其中λ是预先定义的参数，在多次尝试调整后选取最优的λ来使生成服饰图像最真实。

步骤S3：将服饰对图像中的其中一个作为输入，另外一个作为条件，通过其中的生成器合成搭配的服饰，搭配判别器将不断学习以区分真实图像对和合成图像对，属性判别器则学习预测真实图像和合成图像的属性。在属性生成对抗网络的训练过程中，采用标准GAN模型训练过程，生成器、搭配判别器和属性判别器交替梯度下降，并使用小批量的随机梯度下降、Adam算法进行训练。

步骤S4：完成属性生成对抗网络训练之后，将得到生成器的网络参数，将服饰图像输入到生成器中，将生成与之相搭配的服饰图像。本发明方法生成的相搭配的衣服图像结果示例如图4所示。

本发明的主要贡献有以下两点：(1)本发明构建了搭配服饰数据集，通过爬取时尚网站的图像和文本数据，包含图像信息、文本信息和搭配度信息的搭配服饰数据集；接着建立一套符合人们常规搭配规则的细粒度属性集，并对服饰数据集中的图像进行属性人工标记。(2)本发明提出了属性生成对抗网络，在条件对抗生成网络的基础上加入属性判别器，在判断生成图像和条件图像是否搭配的同时，判断生成图像是否具有条件图像的高级语义属性，这样约束生成器不仅要生成真实的图像，还要生成满足属性搭配规则的图像，为后期的图像检索和推荐提供了巨大的研究空间。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种属性生成对抗网络，包括一个生成器和两个判别器，所述生成器生成合成图像、完成输入服饰图像到相应搭配服饰图像的转换，两个判别器分别为搭配判别器和属性判别器，所述搭配判别器判断生成的合成搭配图像对搭配与否，所述属性判别器判断生成的合成图像是否具有相应的服饰属性；所述属性判别器采用卷积神经网络结构，所述卷积神经网络分别对真实图像和合成图像的属性进行预测，在优化属性预测过程中，所述属性判别器提供额外的高层语义信息；此外，所述属性生成对抗网络混合条件生成对抗网络的目标函数和传统损失，保持判别器的任务不变，生成器不仅要蒙蔽判别器，生成的合成图像要在相似度距离上逼近真实图像，所述相似度距离是指L1距离；

所述生成器的网络参数在完成对所述属性生成对抗网络训练之后得到，在训练迭代时：

输入服饰图像和真实图像组成真实搭配图像对，输入服饰图像和合成图像组成合成搭配图像对，所述真实搭配图像对和合成搭配图像对分别作为正样本对和负样本对输入到搭配判别器中，学习服饰图像搭配与否的判定；

将真实图像及其对应的属性信息、合成图像及其对应的属性信息分别作为正样本和负样本输入到属性判别器，学习图像到高级语义属性的映射。

2.如权利要求1所述的属性生成对抗网络，其特征在于，所述生成器采用U-Net结构；所述搭配判别器采用Patch-GAN；所述属性判别器包含四个卷积层和M个全连接层，M为属性个数，卷积层卷积核大小为4×4，使用M个交叉熵损失函数的求和平均作为属性判别器的目标函数。

3.如权利要求1所述的属性生成对抗网络，其特征在于，所述判别器要使搭配判别器和属性判别器的目标函数最大化，而生成器则要使自身的目标函数最小化，二者形成对抗。

4.一种基于属性生成对抗网络的搭配服饰生成方法，包括以下步骤：

A、构建搭配服饰数据集：构建包含图像信息、文本信息和服饰搭配信息的服饰数据集；建立细粒度服饰属性数据集，对其中的服饰图像进行标记；所述步骤A具体包括：

A2、综合若干电商的关键字搜索项，建立细粒度服饰属性集，包含类别、颜色、纹理、款式和细节，对服饰搭配数据集中的图像进行人工标记；

B、设计属性生成对抗网络：所述属性生成对抗网络包括一个生成器和两个判别器，所述生成器完成输入服饰图像到相应搭配服饰图像的转换，两个判别器分别为搭配判别器和属性判别器，所述搭配判别器判断生成的合成搭配图像对搭配与否，所述属性判别器判断生成的合成图像是否具有相应的服饰属性；所述属性判别器采用卷积神经网络结构，所述卷积神经网络分别对真实图像和合成图像的属性进行预测，在优化属性预测过程中，所述属性判别器提供额外的高层语义信息；此外，所述属性生成对抗网络混合条件生成对抗网络的目标函数和传统损失，保持判别器的任务不变，生成器不仅要蒙蔽判别器，生成的合成图像要在相似度距离上逼近真实图像，所述相似度距离是指L1距离；所述生成器的网络参数在完成对所述属性生成对抗网络训练之后得到，在训练迭代时：输入服饰图像和真实图像组成真实搭配图像对，输入服饰图像和合成图像组成合成搭配图像对，所述真实搭配图像对和合成搭配图像对分别作为正样本对和负样本对输入到搭配判别器中，学习服饰图像搭配与否的判定；将真实图像及其对应的属性信息、合成图像及其对应的属性信息分别作为正样本和负样本输入到属性判别器，学习图像到高级语义属性的映射；

C、属性生成对抗网络训练：将真实搭配图像对中的一个作为输入，另外一个作为条件，通过其中的生成器生成合成图像，搭配判别器将不断学习以区分真实搭配图像对和合成搭配图像对，属性判别器则学习预测真实图像和合成图像的属性；

5.如权利要求4中所述的属性生成对抗网络的搭配服饰生成方法，其特征在于，所述细粒度服饰属性数据集包含90种属性。

6.如权利要求4所述的属性生成对抗网络的搭配服饰生成方法，其特征在于，所述步骤B包括以下步骤：

B1、所述生成器采用一个解码-译码的变型框架，采用U-Net结构，所述框架在对应的层之间跳跃链接，即在译码阶段网络会把对应层的特征进行连接，再接着去进行卷积或者批标准化，进而进行上采样；

B2、所述搭配判别器采用Patch-GAN，先把图像划分成许多patch，然后在图像对的N×N块上去判断是搭配是否为真，再对所有的patch的判定结果求平均，最后给出判定输出；

B3、设计卷积神经网络，包含四层卷积层，M个全连接层，M为属性个数，所述属性判别器使用M个交叉熵损失函数的求和平均作为属性判别器的目标函数；

B4、选取相似度距离作为附加监督信息，使合成图像在相似度距离上更加逼近真实图像；在生成器的目标函数中添加合成图像和真实图像的相似度距离。

7.如权利要求4所述的属性生成对抗网络的搭配服饰生成方法，其特征在于，所述步骤C包括以下步骤：

C3、在迭代过程中，真实图像及其对应的属性信息、合成图像及其对应的属性信息分别作为正样本和负样本输入到卷积神经网络学习图像到高级语义属性的映射。

8.如权利要求4～7中任一权利要求所述的属性生成对抗网络的搭配服饰生成方法，其特征在于，在所述步骤C中，采用标准GAN模型训练过程，生成器、搭配判别器和属性判别器交替梯度下降，并使用小批量的随机梯度下降、Adam算法进行训练。