CN112529768A

CN112529768A - 一种基于生成对抗网络的服装编辑和生成方法

Info

Publication number: CN112529768A
Application number: CN202011398628.3A
Authority: CN
Inventors: 王若梅; 罗政煊; 林淑金; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-19
Anticipated expiration: 2040-12-04
Also published as: CN112529768B

Abstract

本发明公开了一种基于生成对抗网络的服装编辑和生成方法。首先在用户原始图像被输入后，使用R‑CNN区域检测卷积神经网络对图像中的服装进行检测识别；使用CPN级联金字塔网络来对服装物体进行轮廓点检测，单独提取无背景的服装图像显示给用户；并根据上述数据，返回给用户进行属性修改选择；将用户请求信息进行结构化处理后获得需要修改属性的语义信息，输入至训练好的带有指定属性的逼真图像能力的生成器生成最终服装图像。本发明为用户提供一种依靠计算机视觉技术端到端的服装编辑生成方案，一方面，解决了用户商品检索前对于服装样式进行更改的需求，另一方面，提高了服装编辑的可操作性和生成效果。

Description

一种基于生成对抗网络的服装编辑和生成方法

技术领域

本发明涉及计算机视觉领域和服装设计领域，具体涉及一种基于生成对抗网络的服装编辑和生成方法。

背景技术

随着图像识别技术的迅速发展，电商平台对于图像内商品的识别和检索技术已经趋于成熟和稳定。但是在服装领域，用户往往不满足于服饰的原始状态，通常想要对其款式或细节进行部分修改，再进行商品检索。但即便是目前最易用的图像修改软件，要想生成逼真且符合用户内心期望的服装图像，需要用户拥有相当水平的美术水平和修改技巧，无法既满足用户对于服装属性修改的要求，又满足达到高精确度检索所要求的图像完整性和清晰度。同时，在未来私人订制等更加广阔的领域，设计师需要和用户很好的互动才能快速而准确的理解用户的需求，但用户的艺术表达能力依然是设计师和用户中间的一道鸿沟，需要一种快捷而简单的互动方案，为用户快速而准确地表达其设计需求。但目前，设计师和用户之间的交流往往还是通过设计师不断地修改，用户不断的提出要求，这两者之间循环往复，没有让用户也参与到设计的过程中，所以设计效率低下并且效果往往差强人意。

目前图像生成领域最常用也是效果最好的方法就是使用GAN生成对抗网络，可以通过简单的语义信息、属性标签或草图等信息就能生成较为逼真的图像。

目前的现有技术之一是姚俊峰和冯威宇的《一种基于对抗生成网络的辅助服装生成方法和装置》，该技术方案主要解决了服装设计问题，提出了人机混合智能的设计思路，将素材收集、数据分析的工作交由智能辅助机器人完成，人类设计师负责创造型设计工作，简化服装设计流程。方案具体为：通过手工或者网络抓取收集服装设计素材图片，对素材照片进行结构化处理，存储在素材库中；接收用户的请求信息，将请求信息进行结构化处理；使用长短期记忆网络LSTM将结构化处理后的用户请求信息转化成服装草图；用户选择草图中需要进一步设计的部分区域；构建对抗生成网络，其中生成器和判别器均使用卷积神经网络构建；在素材库中查找与用户请求的结构化信息匹配的素材照片，构成可选素材集合；使用对抗生成网络生成衣服设计方案，具体的，将可选素材输入到生成器中，然后将用户选择的草图部分区域和训练后的生成器的输出分别输入到判别器中，具体训练过程是：对生成器网络进行训练，训练一定周期后固定生成器，并将其输出和用户选择的草图部分区域图片作为判别器网络的输入然后训练一定周期，如此循环训练生成器和判别器，最后输出训练后的服装设计方案；用户可以选择不同的衣服部位迭代使用对抗生成网络生成衣服设计方案，最终将服装草图逐步细化，形成符合用户请求的服装设计图片。该技术的缺点：(1)主要面向对象为服装设计领域，对于服装的设计表达能力要求还是相对很高，虽然使用了人工智能自动生成服装，但是使用者必须能够清楚地将自己的服装概念通过请求信息表达出来才能生成服装。但对于一般普通用户，只是希望通过图像检索来识别商品，并且能够简易地改变或者增减已有图像中的服装部分属性再进行检索，过于复杂的编辑方式或者方法就不适用于普通用户；(2)这种方案面向的是具有一定设计基础或者有一定艺术创作能力的人群，而用户对服装的期望往往是建立在已有的服装基础上，并在款式、版型或细节部分区域进行修改以满足他们的要求。如果让普通人通过语义等请求信息来整体设计出他们心仪或者理想中的服装是不切实际的；(3)对于服装生成，主要是基于所接收的用户请求信息，在很大一部分上，如果用户无法对期待的服装有很好的描述或者表达，那么生成的服装将有很大的偏差。而如果基于某个显示图或者参照图进行服装生成，仅凭所依据的内容标签和视觉标签，其结果是难以具体控制。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于生成对抗网络的服装编辑和生成方法。本发明解决的主要问题是，(1)如何为用户提供可在图像上对服装进行属性修改的简易可操作性；(2)如何在图像生成过程中，对改动的属性生成进行控制，使生成结果更精确，让生成器更多的保留原有服装其他细节。

为了解决上述问题，本发明提出了一种基于生成对抗网络的服装编辑和生成方法，所述方法包括：

对服装图像进行结构化预处理，得到预处理后的服装图像；

对所述预处理后的服装图像提取信息，包括标注服装属性、标注服装分割点和服装轮廓点，将所提取的信息进行结构化处理，获得向量格式记录的服装属性信息；

将所述预处理后的服装图像、所述服装属性和所述服装分割点，作为Mask R-CNN卷积神经网络的输入，获得特征图，对特征图进行分类和回归训练获得网络模型，用于对所述服装图像进行服装属性分类识别和分割点检测，将所有分割点顺序连接得到轮廓图；

使用CPN级联金字塔网络，对所述服装轮廓点进行检测，按不同的服装关键点提取整体服装轮廓，配合所述轮廓图，获得所述服装图像的精度较高的轮廓关键点坐标信息；

综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量，对所述服装图像取掩码提取服装部分，并将轮廓点高亮显示给用户，提供属性修改功能；

利用所述服装图像取掩码提取的服装部分预训练判别器D，判别器的网络沿用Att-GAN属性生成对抗网络的判别器，网络采取五层卷积层，卷积结果连接两个不同的全连接层至两个分支判别器Dimg和Datt用于判别生成图像各种属性的准确性；

利用所述服装图像和所述向量格式记录的服装属性信息，构建生成器G，生成器采用U型编码-解码网络模型，编码器对所述服装图像取掩码提取的服装部分，提取特征向量，使用ACUs(Attribute Control Units)属性控制单元，各层ACU连接在编码器和解码器对应层之间，ACUs属性控制单元内，特征向量的每一层特征图与所述向量格式记录的服装属性信息生成属性编辑后的特征图，ACUs通过卷积得到综合后的特征图，传入解码器中，解码器反卷积后生成图像；

将所述生成图像输入至所述预训练好的判别器D，按属性得到分类结果，来衡量属性编辑程度，并通过损失函数计算损失值，梯度反向传播更新所述生成器和所述辨别器的卷积参数，迭代其相互对抗提升能力过程，得到具有生成带有指定属性的逼真图像能力的生成器G；

输入待处理的服装图像，对该图像取掩码提取服装部分并高亮显示轮廓点，得到可供用户选择和修改的服装属性，之后把修改后的服装属性输入所述具有生成带有指定属性的逼真图像能力的生成器G，迭代地生成用户期望的服装图像。

优选地，所述服装图像进行结构化预处理，具体为：

服装图像数据来自于Deep Fashion2数据集以及服装购物网站；

服装图像结构化处理包括筛选无遮挡服装图像，进行背景去噪、尺寸统一，同时尽可能保留服装的形状等细节。

优选地，所述对所述预处理后的服装图像提取信息，具体为：

对服装属性进行分类，分为上装和下装两类，上装属性包括：类别、袖长、领口、中缝、身长、腰宽等，下装属性包括：类别、裤长，标注服装所属类别以及属性，存在属性则标注为1，不存在则标注为0；

标注服装分割点，用于服装物体的识别和分类，分割点的数目没有限定；

标注服装轮廓点，用于轮廓生成的训练输入，轮廓点的数目根据服装类别决定；

对提取的不同服装信息进行结构化处理，以向量格式记录服装的属性信息，并记录分割点和轮廓点坐标信息。

优选地，所述将所述预处理后的服装图像、所述服装属性和所述服装分割点，作为Mask R-CNN卷积神经网络的输入，获得特征图，对特征图进行分类和回归训练获得网络模型，用于对所述服装图像进行服装属性分类识别和分割点检测，将所有分割点顺序连接得到轮廓图，具体为：

Mask R-CNN使用卷积神经网络，以所述预处理后的服装图像、所述服装属性和所述服装分割点作为网络输入；

通过卷积获得特征图，并对特征图进行分类和回归训练最终获取网络模型，服装识别分类可以得到服装的属性类别，分割点检测可以获得服装的大致完整轮廓；

训练使用resnet101残差网络，作为MaskR-CNN的网络主体结构进行多层的特征提取获得服装的掩码分割信息和分类结果；

训练好的网络模型可以直接用于对所述服装图像进行服装属性识别分类和服装分割点检测，并将所有分割点顺序连接得到轮廓图，用bitmap保存轮廓图信息，轮廓图内像素标记为1，图外像素标记为0。

优选地，所述综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量，具体为：

用(X_seg,Y_seg)表示所述服装分割点包围区域，用(X_con,Y_con)表示所述服装轮廓点包围区域，并进行叠加获得最终服装掩码信息，

{(X_clo,Y_clo)||X_clo＝X_seg∪X_con,Y_clo＝Y_seg∪Y_con}，

找出边界点(X_out,Y_out)，若某一轮廓点(x_con,y_con)在边界线围绕区域内，不在边界线上

则偏移至离边界线最近一点，

优选地，所述预训练判别器D，具体为：

判别器D分为图像判别器Dimg和属性判别器Datt；

图像判别器Dimg用于判别生成图像的真实性，属性判别器Datt用于判别生成图像各种属性的准确性；

判别器D输入为所述服装图像取掩码提取的服装部分，判别器的网络沿用了Att-GAN属性生成对抗网络的判别器，网络整体采用五层卷积层，卷积结果连接两个不同的全连接层至两个分支判别器，最终分别获得图像和属性的判别结果。

优选地，所述构建生成器G，具体为：

生成器G采用U型结构的encoder-decoder编码-解码网络模型，输入为所述服装图像和所述向量格式记录的服装属性信息；

编码器使用残差网络对所述服装图像取掩码提取的服装部分提取特征向量，编码器包含5层卷积层，卷积核尺寸为4*4；

使用ACUs(Attribute Control Units)属性控制单元实现对于属性的准确控制，各层ACU连接在编码器和解码器对应层之间，在ACUs属性控制单元内，特征向量中的每一层特征图与所述以向量格式记录的服装属性信息生成属性编辑后的特征图；

将综合后的特征图传入解码器中，解码器包含5个对应的反卷积层，卷积核尺寸4*4，经5层反卷积后生成图像。

本发明提出的一种基于生成对抗网络的服装编辑和生成方法，通过人工智能结合用户简单的属性变化信息，对输入服装进行自动编辑修改后，生成用户满意的服装图像，为用户提供一种依靠计算机视觉技术端到端的服装编辑生成方案，一方面，解决了用户商品检索前对于服装样式进行更改的需求，另一方面，提高了服装编辑的可操作性和生成效果。

附图说明

图1是本发明实施例的一种基于生成对抗网络的服装编辑和生成方法的总体流程图；

图2是本发明实施例的生成器编码-解码结构图；

图3是本发明实施例的整体结构、数据流向和梯度更新方向示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种基于生成对抗网络的服装编辑和生成方法的总体流程图。

如图1所示，该方法包括：

S1，对服装图像进行结构化预处理，得到预处理后的服装图像；

S2，对所述预处理后的服装图像提取信息，包括标注服装属性、标注服装分割点和服装轮廓点，将所提取的信息进行结构化处理，获得向量格式记录的服装属性信息；

S3，将所述预处理后的服装图像、所述服装属性和所述服装分割点，作为Mask R-CNN卷积神经网络的输入，获得特征图，对特征图进行分类和回归训练获得网络模型，用于对所述服装图像进行服装属性分类识别和分割点检测，将所有分割点顺序连接得到轮廓图；

S4，使用CPN级联金字塔网络，对所述服装轮廓点进行检测，按不同的服装关键点提取整体服装轮廓，配合所述轮廓图，获得所述服装图像的精度较高的轮廓关键点坐标信息；

S5，综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量，对所述服装图像取掩码提取服装部分，并将轮廓点高亮显示给用户，提供属性修改功能；

S6，利用所述服装图像取掩码提取的服装部分预训练判别器D，判别器的网络沿用Att-GAN属性生成对抗网络的判别器，网络采取五层卷积层，卷积结果连接两个不同的全连接层至两个分支判别器Dimg和Datt用于判别生成图像各种属性的准确性；

S7，利用所述服装图像和所述向量格式记录的服装属性信息，构建生成器G，生成器采用U型编码-解码网络模型，编码器对所述服装图像取掩码提取的服装部分，提取特征向量，使用ACUs(Attribute Control Units)属性控制单元，各层ACU连接在编码器和解码器对应层之间，ACUs属性控制单元内，特征向量的每一层特征图与所述向量格式记录的服装属性信息生成属性编辑后的特征图，ACUs通过卷积得到综合后的特征图，传入解码器中，解码器反卷积后生成图像；

S8，将所述生成图像输入至所述预训练好的判别器D，按属性得到分类结果，来衡量属性编辑程度，并通过损失函数计算损失值，梯度反向传播更新所述生成器和所述辨别器的卷积参数，迭代其相互对抗提升能力过程，得到具有生成带有指定属性的逼真图像能力的生成器G；

S9，输入待处理的服装图像，对该图像取掩码提取服装部分并高亮显示轮廓点，得到可供用户选择和修改的服装属性，之后把修改后的服装属性输入所述具有生成带有指定属性的逼真图像能力的生成器G，迭代地生成用户期望的服装图像。

步骤S1，具体如下：

S1-1，服装数据集来自于Deep Fashion2数据集以及服装购物网站；

S1-2，对服装图像进行结构化处理，筛选无遮挡服装图像，进行背景去噪、尺寸统一，同时尽可能保留服装的形状等细节，用于后续特征提取进行网络训练。

步骤S2，具体如下：

S2-1，对服装属性进行分类，属性信息作为分类网络和生成器G的输入。服装分为上装和下装两大类，上装属性包括：类别、袖长、领口、中缝、身长、腰宽等，下装属性分别包括：类别、裤长。标注服装所属类别以及属性。存在属性则标注为1，不存在则标注为0，在网络训练中可以按需对不同属性进行训练；

S2-2，标注服装分割点，用于服装物体的识别和分类，作为后续图像分类识别的训练输入，分割点的数目没有限定，将服装尽量完整保留细节地从图像中分割出；

S2-3，标注服装轮廓点，用于轮廓生成的训练输入，轮廓点的数目根据服装类别决定；

S2-4，对S2-1、S2-2和S2-3提取的不同服装信息进行结构化处理，以向量格式记录服装的属性信息，并记录分割点和轮廓点坐标信息，用于不同编辑方式选择生成器G的输入内容。

步骤S3，具体如下：

S3-1，Mask R-CNN使用卷积神经网络，以S11预训练后的图像、S21标注的分类信息和S2-2标记的服装分割点作为网络输入。通过卷积获得特征图，并对特征图进行分类和回归训练最终获取网络模型。服装识别分类可以得到服装的属性类别，分割点检测可以获得服装的大致完整轮廓；

S3-2，训练使用resnet101残差网络，作为MaskR-CNN的网络主体结构进行多层的特征提取获得服装的掩码分割信息和分类结果。最终训练好的网络模型可以直接用于对输入图像中的服装进行识别分类和分割点检测，并将所有分割点顺序连接得到轮廓图，用bitmap保存轮廓图信息，轮廓图内像素标记为1，图外像素标记为0。

步骤S4，具体如下：

S4-1，轮廓点检测使用了CPN级联金字塔网络，目的是按不同类别服装的关键点来提取服装整体轮廓，配合S3分割点生成的轮廓图，进一步提高服装提取的精度。由于服装图像常常被人的身体部位造成的弯曲所重叠或者遮挡，考虑到服装对称性和可能存在的人动作姿态对服装的干扰，需要对服装遮挡或者弯曲部分进行还原。

步骤S5，具体如下：

S5-1，用(X_seg,Y_seg)表示S2-2分割点包围区域，用(X_con,Y_con)表示S2-3轮廓点包围区域，并进行叠加获得最终服装掩码信息{(X_clo,Y_clo)||X_clo＝X_seg∪X_con,Y_clo＝Y_seg∪Y_con}，并找出边界点(X_out,Y_out)，若某一轮廓点(x_con,y_con)在边界线围绕区域内，不在边界线上

则偏移至离边界线最近一点，

S5-2，对输入图像取掩码提取的服装部分，并将轮廓点高亮显示给用户，提供属性修改功能。

步骤S6，具体如下：

S6-1，判别器D分为图像判别器Dimg和属性判别器Datt。图像判别器Dimg用于判别生成图像的真实性，属性判别器Datt用于判别生成图像各种属性的准确性；

S6-2，判别器输入为S5-2提取的服装部分，判别器的网络沿用了Att-GAN属性生成对抗网络的判别器，网络整体采用五层卷积层，卷积结果连接两个不同的全连接层至两个分支判别器，最终分别获得图像和属性的判别结果。

步骤S7，具体如下：

S7-1，生成器G采用U型结构的encoder-decoder编码-解码网络模型，具体网络结构如图2，输入为S5-2掩码提取的服装部分和S2-4中经用户编辑修改后的服装属性向量；

S7-2，编码器使用残差网络对输入图像提取特征向量得到f_enc＝{f_enc ¹,...,f_enc ⁵}，f_enc＝G_enc(x)，编码器包含5层卷积层，卷积核尺寸为4*4；

S7-3，使用ACUs(Attribute Control Units)属性控制单元实现对于属性的准确控制，各层ACU连接在编码器和解码器对应层之间，在ACUs属性控制单元内，特征向量中的每一层特征图与编辑后的属性向量生成属性编辑后的特征图；

S7-4，ACUs属性控制单元的输入包括S7-2中编码器提取的l层的编码特征图f_enc ^l，l+1层的ACUs输出的隐藏态s^l+1，以及属性差分向量att_diff＝att_t-att_s，属性的种类和数目根据需要囊括的服装种类决定，输出包括l层的解码特征图f_dec ^l和l层隐藏态和本层的隐藏态s^l；

S7-5，ACUs首先将l+1层的隐藏态s^l+1通过转置卷积进行上采样，使l层的隐藏态特征图尺寸匹配l+1层隐藏态特征图尺寸，

s′^l+1＝W_t*T[s^l+1,att_diff]

r^l＝σ(W_r*[f_enc ^l,s′^l+1])

u^l＝σ(W_u*[f_enc ^l,u′^l+1])

f_t′^l＝tanh(W_h*[f_enc ^l,s^l])

其中，[·,·]表示向量的拼接，*T表示转置卷积，

表示求矩阵的点积，σ(·)表示应用sigmoid激活函数，tanh(·)表示应用tanh激活函数，r^l是重置门，用于控制各属性是否使用l层上采样后的隐藏态信息，u^l是更新门，用于控制l层隐藏态信息对于l+1层特征图的重要度，s^l是l层的隐藏态，f_t ^l是l层的转换后的编码特征；

S7-6，将综合后的特征图f_t ^l传入解码器中，解码器包含5个对应的反卷积层，卷积核尺寸4*4，经5层反卷积后生成图像，ACUs了替代传统常用的skip connection跳线，解决了跳线虽然可以增强图像的生成质量，但在属性操控方面依然有可能导致偏差、生成方向不可控的缺点。

步骤S8，具体如下：

S8-1，判别器的损失函数分为图像生成损失和属性控制损失两部分，图像生成损失用于计算生成图像和真实图像的差异，属性控制损失计算生成图像各种属性和实际属性的差异，判别器D损失函数为

生成器G损失函数为

λ，

是折衷参数，判别器和生成器由图像生成损失、属性控制损失和参数组成；

S8-2，图像生成损失：由于生成器G在生成图像后，缺少对照组的真实图像作为对比获取损失精度，所以使用判别器的图像生成损失来判断生成图像的真实性差异，如图3所示，得到判别器D和生成器G的参数，

S8-3，属性控制损失：在没有真实图像作为参照的情况下，通过属性判别器对属性的分类结果来衡量属性编辑程度，

其中，n为可编辑属性种类数。

本发明实施例提出的一种基于生成对抗网络的服装编辑和生成方法，通过人工智能结合用户简单的属性变化信息，对输入服装进行自动编辑修改后，生成用户满意的服装图像，为用户提供一种依靠计算机视觉技术端到端的服装编辑生成方案，一方面，解决了用户商品检索前对于服装样式进行更改的需求，另一方面，提高了服装编辑的可操作性和生成效果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于生成对抗网络的服装编辑和生成方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于生成对抗网络的服装编辑和生成方法，其特征在于，所述方法包括：

对服装图像进行结构化预处理，得到预处理后的服装图像；

2.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法，其特征在于，所述服装图像进行结构化预处理，具体为：

服装图像数据来自于Deep Fashion2数据集以及服装购物网站；

3.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法，其特征在于，所述对所述预处理后的服装图像提取信息，具体为：

4.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法，其特征在于，所述将所述预处理后的服装图像、所述服装属性和所述服装分割点，作为Mask R-CNN卷积神经网络的输入，获得特征图，对特征图进行分类和回归训练获得网络模型，用于对所述服装图像进行服装属性分类识别和分割点检测，将所有分割点顺序连接得到轮廓图，具体为：

5.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法，其特征在于，所述综合所述服装分割点和所述轮廓关键点坐标信息形成精确掩码轮廓图和属性向量，具体为：

{(X_clo,Y_clo)||X_clo＝X_seg∪X_con,Y_clo＝Y_seg∪Y_con}，

则偏移至离边界线最近一点，

6.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法，其特征在于，所述预训练判别器D，具体为：

判别器D分为图像判别器Dimg和属性判别器Datt；

7.如权利要求1所述的一种基于生成对抗网络的服装编辑和生成方法，其特征在于，所述构建生成器G，具体为：