CN113393546A - 基于服装类别及纹理图案控制的时尚服装图像生成方法 - Google Patents
基于服装类别及纹理图案控制的时尚服装图像生成方法 Download PDFInfo
- Publication number
- CN113393546A CN113393546A CN202110535271.7A CN202110535271A CN113393546A CN 113393546 A CN113393546 A CN 113393546A CN 202110535271 A CN202110535271 A CN 202110535271A CN 113393546 A CN113393546 A CN 113393546A
- Authority
- CN
- China
- Prior art keywords
- clothing
- fashion
- design sketch
- texture
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013461 design Methods 0.000 claims abstract description 121
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000012938 design process Methods 0.000 claims abstract description 3
- 239000004744 fabric Substances 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 37
- 230000004927 fusion Effects 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000003042 antagnostic effect Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000003708 edge detection Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims 1
- 238000007670 refining Methods 0.000 claims 1
- 238000012795 verification Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 241000669618 Nothes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
- Image Generation (AREA)
Abstract
本发明公开了一种基于服装类别及纹理图案控制的时尚服装图像生成方法。本发明构建了一个全新的数据集,同时在网络结构上进行了创新并且进行了有效性验证;参考设计师在设计服装的过程中先绘制时尚服装设计草图,然后再挑选相应的纹理图案布料应用到设计草图上完成服装设计的步骤,将整个任务分为了基于服装类别控制的时尚服装设计草图生成和基于纹理图案和设计草图控制的时尚服装图像生成两个部分;且两个部分是分开训练的,在完成两个部分的训练后将第一部分的输出作为第二部分时尚设计草图的输入就能拼接两个网络。本发明提高时尚服装的生成质量,增加了纹理扩展模块以优化纹理的生成,增加了梯度重构损失让生成的时尚服装图片更加清晰。
Description
技术领域
本发明提出一种基于服装类别及纹理图案控制的时尚服装图像生成方法,主要涉及时尚服装图像生成领域。
背景技术
基于深度学习的图像生成是指通过深度学习技术生成虚拟数字图像的一种计算机技术,使用此项技术可以快速生成大量与真实图片相似的虚拟图片。为了提高图像生成技术的可用性,现在更多的研究关注于条件图像生成技术。在条件图像生成网络当中,用户可以输入一些相关的条件来控制图像的生成,这让用户对图片的生成有一定的控制能力。
时尚服装图像生成方法也是基于条件图像生成技术展开的,用户通过输入一些时尚元素信息作为控制条件,便可以生成与控制条件相关的时尚服装图片。这对于时尚服装设计师来说,意义重大。如今在服装设计的流程当中,为了节约成本,设计师们通常会先使用电脑软件设计渲染出服装效果图进行参考,以确定是否要进行样品生产。但是,使用传统的计算机方法需要复杂而繁琐的操作步骤,计算机渲染过程也需要花费昂贵的时间代价,这就使得设计师们很多新奇的设计想法无法快速实现而被迫放弃。所以,研究基于深度学习的时尚服装生成方法能够帮助设计师快速实现想法,减少不必要的重复性工作,提高服装设计的整体效率。
近年来也有许多方法在时尚服装生成方面展开了相关的研究并获得了不错的成果。但是,这些方法也存在着一些缺点。首先,部分方法选择的控制条件本身就难以获得,例如时尚服装草图,绘制时尚服装草图本身就需要十分专业的知识基础并且需要花费较多的时间。其次,现有的一些基于深度学习的生成方法在生成服装纹理上效果不是特别理想。本发明从上述问题出发,提出了一种基于服装类别及纹理图案的是时尚服装生成方法。用户只需要提供服装的类别信息(如上衣,短裤,长裙等)和选择好的小块纹理图案就能生成多样的时尚服装图像,这样简单的输入条件能让设计师们更快地实现自己的设计想法。并且,本发明为了改进时尚服装图像的生成效果,在生成网络上也进行了相应的创新,这使得生成的服装图像有更清晰的纹理。
发明内容
本发明针对现有技术的不足,提出了一种基于服装类别及纹理图案控制的时尚服装图像生成方法。考虑到现有相关数据集不完全适用于本发明,我们构建了一个全新的数据集,本发明所有实验均在此数据集上进行。为了提高生成图片的效果,本发明在网络结构上进行了创新并且进行了有效性验证。本发明参考设计师在设计服装的过程中先绘制时尚服装设计草图,然后再挑选相应的纹理图案布料应用到设计草图上完成服装设计的步骤,将整个任务分为了基于服装类别控制的时尚服装设计草图生成和基于纹理图案和设计草图控制的时尚服装图像生成两个步骤。值得注意的是,两个子部分是分开训练的,在完成两个子部分的训练后只需要简单地将第一部分的输出作为第二部分时尚设计草图的输入就能拼接两个网络。
本发明采用的技术方案包括如下步骤:
步骤(1)时尚服装数据集的创建
在互联网时尚大数据中收集高清服装图片作为初始图像数据集,然后对其中的初始图像数据进行简单的清理,之后再使用计算机图像技术进一步处理,最终构建一个时尚服装数据集。
步骤(2)基于服装类别控制的时尚服装设计草图生成
结合CVAE和GAN两者的结构优势,本发明的第一部分以服装类别(长裙、短裙、长裤等)标签作为输入条件生成时尚服装设计草图。生成的时尚服装设计草图保证类别上与输入条件一致且具有一定的多样性,这将作为接下来生成时尚服装图片的基础。为了增强生成模型的稳定性和生成图片的多样性,本发明在这一部分使用WGAN-GP中的对抗损失代替传统GAN中的对抗损失。
步骤(3)基于纹理图案和设计草图控制的时尚服装图像生成
以纹理图案和设计草图为输入,本发明设计生成模型来生成时尚服装图像。为了增强图像的生成效果,本发明的生成模型设计有纹理扩展模块和特征融合模块。纹理扩展模块的设计使得尺寸较小的纹理块信息能够在特征融合前被扩展,从而提供更丰富的指导信息以达到更好的时尚服装图片生成效果。特征融合模块使用空间自适应归一化的方法将扩展后的纹理特征和设计草图特征融合最终生成时尚服装图片。除此之外,生成模型还增加有全新的梯度重构损失以使得生成图像的纹理更加清晰。
步骤(1)时尚服装数据集的创建:
1-1.在互联网时尚大数据中收集高清服装图片作为初始图像数据,使用人工和人脸检测算法对初始图像数据进行清理,只保留包含纯净服饰的图片形成服装数据集(图中没有模特)。最终保留12500张服饰图片,服饰图片中包含5个类别:衣服、裤子、短裤、裙子和上衣;每个类别数目相同。并以8.5:1.5的比例划分成了训练集和测试集,训练集和测试集中每个类别的图片数量保持了均匀分布以确保模型训练的可靠性(训练集每个类别2125张图片,测试集每个类别375张图片)。
1-2.对经过清理的服装数据集使用整体嵌套边缘检测技术(Holistically-Nested Edge Detection,HED)检测其中时尚服装图像的线条,此项技术能够得到服装的整体骨架图,但获取的整体骨架图还会包含许多干扰像素。所以对整体骨架图进行二值化处理获得二值化图像;再使用传统图像处理方法对二值化图像进行像素值细化操作,从而得到初步的时尚服装设计草图。由于细化后的时尚服装设计草图会留下一些孤立的孤岛像素,所以继续使用删除小面积对象的方法去除孤立的孤岛像素,减少小面积的像素孤岛。最后,再使用去马刺技术去除时尚服装设计草图结构中额外的突出像素,得到所需时尚服装设计草图。
1-3.由于上述步骤中存在一些阈值选择问题,得到的时尚服装设计草图容易出现边界像素丢失,这使得时尚服装设计草图轮廓总是不够连续。这样数据集中的不足将影响网络模型的性能,所以需要进一步改进时尚服装设计草图的效果。具体操作如下:
(1)使用K-means算法对服装数据集中每张纯净服饰图片的像素进行聚类。
(2)通过Sobel滤波的方法计算聚类矩阵的梯度,得到梯度图(聚类矩阵中的每个条目都对应于服装数据集中每张纯净服饰图片中的一个像素值,并且每个条目的值都使用相应像素的K-means类别标签进行设置),在该梯度图上执行Flood-Fill操作(一个图像处理方法,会填充所有的闭合区域),获得服装数据集中每张纯净服饰图片的前景和背景分开的蒙版图。
(3)通过计算蒙版图的梯度并将其二值化来生成连续的轮廓图像。
(4)通过简单地叠加时尚服装设计草图和轮廓图像来进一步增强服装设计草图的效果,得到最终时尚服装设计草图。
步骤(2)基于服装类别的时尚草图生成:
2-1.将最终时尚服装设计草图中的真实草图x与对应类别信息c输入到编码器(Encoder)当中进行编码操作,编码器通过连续的卷积操作将输入映射到隐藏向量空间当中得到隐空间向量z。为了保证能够从此向量空间正常采样,与VAE的做法相似,此处使用KL损失将向量空间限定为标准的高斯分布。
2-2.将隐空间向量z与对应类别信息c结合输入到生成器(Generator)当中重构输入的真实草图x,生成设计草图图片x'。这是标准的编码-解码步骤,通过对数据集中真实草图x的重构,解码器(也是生成器)能够拟合从隐向量空间到真实数据分布的映射。在测试阶段,只需要在高斯分布中进行采样并与服装类别信息结合输入到生成器当中,就能生成不同类别的设计草图图片。
2-3.为了保证数据的重构效果,使用多种损失函数同时对生成的设计草图图片x'进行约束。首先使用L2重构损失保证图像在像素点上与真实草图x相近。为了保证类别的正确性,使用预训练好的VGG19网络作为分类器对真实草图x进行分类以微调分类网络。得到微调的VGG19后,便可在训练时计算生成器的分类损失。与此同时,提取真实草图x与生成的设计草图图片x'在VGG19中的特征以计算VGG重构损失。为了让生成的设计草图图片x'更真实,网络同时使用了对抗损失。为了增强生成模型的稳定性和生成图片的多样性,此处使用了WGAN-GP中的对抗损失代替了传统GAN中的对抗损失。
上述提及的L2重构损失可以表示为公式1,其中x为真实设计草图图片,x'为生成的设计草图图片:
Lossl2=||x-x'||2 (公式1)
上述提及的生成器分类损失可以表示为公式2,其中Pg表示生成的设计草图的数据分布,x'表示生成的设计草图图片,P(c|x')表示当分类器输入为x',输出类别为c的概率。
上述提及的VGG重构损失可以表示为公式3,其中VGG表示在数据集上微调好的VGG19网络,x为真实设计草图图片,x'为生成的设计草图图片。
Lossvgg=||VGG(x)-VGG(x')||1 (公式3)
上述提及的对抗生成损失可以表示为公式4,其中D表示判别器,Pr表示真实的数据分布,Pg表示生成的数据分布,▽表示求导运算,λ为权重值,一般取值为10。
步骤(3)基于纹理图案和设计草图的时尚服装生成:
3-1.为了让尺寸较小的纹理图案与设计草图保持特征的一致性,输入的纹理图案块t先经过一个纹理扩展模块。纹理扩展模块采用经典的Encoder-Decoder结构。在编码部分,纹理图案块t与位置掩码矩阵m进行拼接作为纹理扩展模块的输入,之后3个连续的步长卷积模块(步长为2)对输入进行特征提取以获得更高层次的特征信息Ft。注意,这3个步长卷积模块中都包含了Instance Normal归一化和ReLU非线性激活层以提高网络的稳定性。经过上述编码器得到抽象的特征信息Ft后,考虑到被扩展的纹理与已有纹理块具有极强的相关性,所以设计一个注意力模块来增强纹理的扩展能力。特征信息Ft经过注意力模块后,需要被扩展的部分都会根据与原有纹理块特征的相关性进行扩展,得到扩展特征Ft a。为了扩大特征的感受野并且更好地保留原本纹理块的信息,同时将编码器得到的特征信息Ft输入到一些堆叠的残差模块中得到特征Ft r,最后与注意力模块得到的扩展特征Ft a进行拼接。纹理扩展模块的解码器部分将拼接后特征进行尺寸上的扩展。解码器部分对称地采用了连续3个步长为2的反卷积模块以增大特征尺寸,同样的,每个反卷积模块都同时拥有Instance Normal归一化和ReLU非线性激活层。每次反卷积输出的纹理特征将被送入到特征转换机制(卷积核大小为1×1的卷积组合)中生成对应尺寸的均值矩阵(α1,α2,α3,)和方差矩阵(β1,β2,β3),每组均值矩阵和方差矩阵αn,βn(n∈[1,2,3])都代表了对应尺寸纹理特征的有效信息,这些均值矩阵和方差矩阵将在特征融合模块中与设计草图特征进行融合。
3-2.纹理特征被扩展后,接下来将在特征融合模块与设计草图特征结合生成时尚服装图像。特征融合模块的输入为时尚设计草图图片s,特征融合模块的Encoder部分有连续的三层卷积模块用来进行编码操作,每个卷积模块中也都使用了Instance Normal和ReLU非线性激活层。在初步得到编码草图特征Fs后,使用连续的9个残差模块来进一步提取特征得到特征Fs r,残差模块的引入使得特征融合模块能够在增加深度的情况下保持训练的稳定性。在这之后,特征Fs r被输入到解码器中进行解码,并完成与纹理扩展模块获得的均值矩阵和方差矩阵融合的步骤。解码器整体由三组连续的反卷积模块构成(同样拥有Instance Normal和ReLU激活层),这些反卷积操作的卷积核大小被设置为3,步长被设置为2,周围使用大小为1的零值填充。具体解码融合步骤为:特征Fs r经过首个反卷积模块尺寸扩大一倍生成特征使用空间自适应归一化的方法与纹理扩展模块中得到的对应尺寸的均值矩阵和方差矩阵(α1,β1)进行融合,融合后的特征输入到第二组反卷积模块中尺寸扩大一倍生成特征同样使用空间自适应归一化的方法与α2,β2进行融合。融合后的特征输入到第三组反卷积中尺寸扩大一倍生成特征与α3,β3使用空间自适应归一化方法融合后再经过一个步长为1的卷积操作生成最终的时尚服装图像。
3-3.基于纹理图案和设计草图的时尚服装生成网络模型中,采用了多种损失函数来更新网络。首先采用的是L1重构损失来初步约束生成图像的像素值的整体相似度。同样使用了特征损失在特征维度上进行限制(特征在ImageNet上预训练的Vgg19的中间层中提取)。在GAN损失方面,使用了LSGAN当中的对抗损失代替传统的对抗损失以增强网络的生成效果。本发明还创造性地提出了梯度重构损失来解决使用L1重构损失导致的图片纹理模糊问题。
上述提及的L1重构损失可以表示为公式5,其中x为真实时尚服装图片,x'为生成的时尚服装图片:
Lossl1=||x-x'||1 (公式5)
上述提及的VGG重构损失可以表示为公式6,注意,与步骤2中的VGG重构损失不同的是,公式中的VGG表示在ImageNet上预训练的VGG19网络。
Lossvgg=||VGG(x)-VGG(x')||1 (公式6)
上述提及的对抗生成损失可以表示为公式7,其中D表示判别器,Pg表示生成时尚服装图片的数据分布,c为一个常量一般取1。
3-4.在基于服装类别的时尚草图生成模型和基于纹理图案和设计草图的时尚服装生成模型都在本发明所提出的数据集上训练完后,只要将两个网络进行简单地拼接就能得到最终的生成系统。选择服装类别信息c输入到基于服装类别的时尚草图生成模型当中就能得到一些多样性的时尚设计草图s;将s和选中的纹理块图案t输入到基于纹理图案和设计草图的时尚服装生成模型当中,就能生成由这两个元素控制的时尚服装图片。
本发明有益效果:
本发明就智能时尚服装图像生成问题,提出了一种基于服装类别及纹理图案控制的时尚服装图像生成方法。考虑到现有数据集的不足,构建了一个全新的数据集以支持本发明的实验。在数据集的构建时,提出了一种时尚服装设计草图轮廓连续性增强方法。在基于纹理图案和设计草图的时尚服装生成网络模型中,设计了纹理扩展模块和特征融合模块两部分,纹理扩展模块的设计使得尺寸较小的纹理块信息能够在特征融合前被扩展,从而提供更丰富的指导信息以达到更好的时尚服装图片生成效果。特征融合模块使用空间自适应归一化的方法将扩展后的纹理特征和设计草图特征融合最终生成时尚服装图片。除此之外,此生成模型还增加有全新的梯度重构损失以使得生成图像的纹理更加清晰。
附图说明
图1是本文发明的总体内容框架图。
图2是基于服装类别的时尚草图生成网络结构图。
图3是基于纹理图案和设计草图的时尚服装生成网络结构图。
图4是梯度重构损失的计算步骤图。
具体实施方式
下面结合附图对本发明做进一步说明。
如图1所示,本发明提出了一种基于服装类别及纹理图案控制的时尚服装图像生成方法,具体包括如下步骤:
步骤(1)在互联网时尚大数据中收集高清服装图片作为初始图像数据,并采用人工和计算机处理技术对初始图像数据进行清理构建了服装数据集。此数据集包含了五个时尚服装类别(衣服,裤子,短裤,裙子和上衣),并且同时拥有对应的时尚服装设计草图、时尚服装原图和时尚服装掩码图。
步骤(2)中使用本发明构建的数据集提供的服装类别信息作为输入,时尚服装设计草图作为目标图片,结合CVAE和GAN两者网络结构的优势训练了一个基于服装类别控制的时尚服装设计草图生成模型。通过此模型可以简单指定服装类别信息作为输入来生成具有多样性的对应类别的时尚服装设计草图。
步骤(3)中构建了一个基于纹理图案和设计草图控制的时尚服装图像生成模型,该模型的训练由数据集提供的时尚服装设计草图作为一个输入,从服装原图和掩码图片可获得纹理图案块作为另一个输入,时尚服装原图也同时作为目标图像。此模型能够结合两个输入的信息,生成与输入时尚服装设计草图形状一致并与纹理图案拥有相同纹理的时尚服装图片。
如图1所示,本发明能够简单地将两个网络模型进行拼接组成最终的生成系统,选择服装类别信息输入到基于服装类别控制的时尚服装设计草图生成模型当中就能得到一些多样性的时尚服装设计草图;将时尚服装设计草图和需要的纹理块图案输入到基于纹理图案和设计草图控制的时尚服装图像生成模型当中,就能生成由这两个元素控制的时尚服装图片。
如图2所示是步骤(2)中的整体网络结构。
时尚服装设计草图中的真实草图x与对应类别信息c(图中c为短裤类别的one-hot编码)输入到编码器(图中为E)当中进行编码操作,编码器通过连续的卷积操作将输入映射到隐空间向量z。将隐空间向量z与对应类别信息c结合输入到生成器(图中为G)当中重构输入的真实草图x,得到生成设计草图图片x'。网络C是在实验数据集上微调过的VGG19分类网络,它在作为的分类器的同时能够提供VGG重构损失的特征提取网络,这能够进一步保证类别控制信息的有效性。网络D为生成网络G的对抗网络,用来判别输入图片的真假,对抗的结构能够增强生成图片的真实性和多样性。
如图3所示是步骤(3)中的整体网络结构。
图中上半部分为纹理扩展模块,用来扩展纹理块的尺寸以使得融合时纹理特征与设计草图特征更加匹配。纹理扩展模块的在编码部分,纹理图案块t与位置掩码矩阵m进行简单的拼接后作为纹理扩展模块的输入,在连续的步长卷积模块后变为具有更抽象意义的深层特征信息Ft。特征信息Ft被输入注意力模块以拟合扩展的纹理与已有纹理块的极强相关性得到特征矩阵Ft a,为了扩大特征的感受野并且更好地保留原本纹理块的信息,同时将特征信息Ft输入连续的残差模块中得到Ft r。最后将特征Ft a与特征Ft r进行拼接送入到解码模块部分进行特征解码以获得多尺寸的解码特征这些特征将被送入到特征转换机制(卷积核大小为1×1的卷积组合)中生成对应尺寸的均值矩阵(α1,α2,α3,)和方差矩阵(β1,β2,β3)用来在特征融合模块中与设计草图特征进行融合。
图中下半部分为特征融合模块,在此模块中,时尚设计草图图片s作为输入经过连续的步长卷积模块变为尺寸较小的特征矩阵Fs。Fs被输入到连续的9个残差模块来进一步提取特征得到特征矩阵Fs r,残差模块的引入使得网络能够在增加深度的情况下保持训练的稳定性。特征Fs r被输入到解码器中进行解码,并完成与纹理扩展模块获得的均值矩阵和方差矩阵融合的步骤。具体解码融合步骤为:特征Fs r经过首个反卷积模块尺寸扩大一倍生成特征使用空间自适应归一化的方法与纹理扩展模块中得到的对应尺寸的均值矩阵和方差矩阵(α1,β1)进行融合,融合后的特征输入到第二组反卷积模块中尺寸扩大一倍生成特征同样使用空间自适应归一化的方法与α2,β2进行融合。融合后的特征输入到第三组反卷积中尺寸扩大一倍生成特征与α3,β3使用空间自适应归一化方法融合后再经过一个步长为1的卷积操作生成最终的时尚服装图像。
如图4所示是步骤(3)中的梯度重构损失计算步骤。
首先将基于纹理图案和设计草图控制的时尚服装图像生成模型的生成图片与对应数据集中的服装目标图片转换成灰度图片以方便计算各自的梯度。然后,再使用Sobel算子分别在两张图像的x轴和y轴上进行卷积操作以求得各自的梯度图。从图3中的梯度图可以看出,一些重要的形状信息和纹理变化信息显现的更加明显,这使得梯度重构损失能够把注意力放在本任务更为关注的像素点上。最后,使用了L1损失来计算这两个梯度图之间的差异以获得梯度重构损失。上述步骤可以用如下公式表示。其中R表示真实图片,G表示生成图片,n表示图片中的像素总数,GradR表示由真实图片得到的梯度矩阵,GradG表示由生成图片得到的梯度矩阵。式中GradG的计算方法与GradR相同(如公式9),Sobelx和Sobely分别为在x轴和y轴上的Sobel式子(如式公式11和公式12)。
表一所示为步骤(3)中本发明提出的方法与两个相关的基准方法在FID和LPIPS两个图像生成评价指标上的比较结果(两个指标都是值越小表明图像生成质量越高,表中用↓表示)。从指标比较中可以看出,本发明所提出的方法相对于两个基准方法有着明显的提升,这证明了本方法能够生成质量更高的时尚服装图像。
表1
Claims (6)
1.基于服装类别及纹理图案控制的时尚服装图像生成方法,其特征在于考虑到现有相关数据集的不适应,构建一个全新的数据集,同时在网络结构上进行了创新并且进行了有效性验证;参考设计师在设计服装的过程中先绘制时尚服装设计草图,然后再挑选相应的纹理图案布料应用到设计草图上完成服装设计的步骤,将整个任务分为了基于服装类别控制的时尚服装设计草图生成和基于纹理图案和设计草图控制的时尚服装图像生成两个部分;且两个部分是分开训练的,在完成两个部分的训练后将第一部分的输出作为第二部分时尚设计草图的输入就能拼接两个网络。
2.根据权利要求1所述的基于服装类别及纹理图案控制的时尚服装图像生成方法,其特征在于包括如下步骤:
步骤(1)时尚服装数据集的创建
在互联网时尚大数据中收集高清服装图片作为初始图像数据集,然后对其中的初始图像数据进行清理,之后再使用计算机图像技术进一步处理,最终构建一个时尚服装数据集;
步骤(2)基于服装类别控制的时尚服装设计草图生成
结合CVAE和GAN两者的结构优势,第一部分以服装类别标签作为输入条件生成时尚服装设计草图;且第一部分使用WGAN-GP中的对抗损失代替传统GAN中的对抗损失;
步骤(3)基于纹理图案和设计草图控制的时尚服装图像生成
以纹理图案和设计草图为输入,设计生成模型来生成时尚服装图像;生成模型设计有纹理扩展模块和特征融合模块;纹理扩展模块的设计使得尺寸较小的纹理块信息能够在特征融合前被扩展,从而提供更丰富的指导信息以达到更好的时尚服装图片生成效果;特征融合模块使用空间自适应归一化的方法将扩展后的纹理特征和设计草图特征融合最终生成时尚服装图片;同时生成模型还增加有全新的梯度重构损失以使得生成图像的纹理更加清晰。
3.根据权利要求2所述的基于服装类别及纹理图案控制的时尚服装图像生成方法,其特征在于步骤(1)所述的时尚服装数据集的创建,具体实现如下:
1-1.在互联网时尚大数据中收集高清服装图片作为初始图像数据,使用人工和人脸检测算法对初始图像数据进行清理,只保留包含纯净服饰的图片形成服装数据集;;最终保留12500张服饰图片,服饰图片中包含5个类别:衣服、裤子、短裤、裙子和上衣;每个类别数目相同;并以8.5:1.5的比例划分成了训练集和测试集,训练集和测试集中每个类别的图片数量保持了均匀分布以确保模型训练的可靠性(训练集每个类别2125张图片,测试集每个类别375张图片);
1-2.对经过清理的服装数据集使用整体嵌套边缘检测技术检测其中时尚服装图像的线条,得到服装的整体骨架图;由于获取的整体骨架图还会包含许多干扰像素,所以对整体骨架图进行二值化处理获得二值化图像;再对二值化图像进行像素值细化操作,从而得到初步的时尚服装设计草图;由于细化后的时尚服装设计草图会留下一些孤立的孤岛像素,所以继续使用删除小面积对象的方法去除孤立的孤岛像素,减少小面积的像素孤岛;最后,再使用去马刺技术去除时尚服装设计草图结构中额外的突出像素,得到所需时尚服装设计草图;
1-3.由于阈值选择问题,得到的时尚服装设计草图容易出现边界像素丢失,这使得时尚服装设计草图轮廓总是不够连续,所以需要进一步改进时尚服装设计草图的效果,具体操作如下:
(1)使用K-means算法对服装数据集中每张纯净服饰图片的像素进行聚类;
(2)通过Sobel滤波的方法计算聚类矩阵的梯度,得到梯度图,在该梯度图上执行Flood-Fill操作,获得服装数据集中每张纯净服饰图片的前景和背景分开的蒙版图;
(3)通过计算蒙版图的梯度并将其二值化来生成连续的轮廓图像;
(4)通过叠加时尚服装设计草图和轮廓图像来进一步增强服装设计草图的效果,得到最终时尚服装设计草图。
4.根据权利要求3所述的基于服装类别及纹理图案控制的时尚服装图像生成方法,其特征在于步骤(2)基于服装类别的时尚草图生成,具体实习如下:
2-1.将最终时尚服装设计草图中的真实草图x与对应类别信息c输入到编码器当中进行编码操作,编码器通过连续的卷积操作将输入映射到隐藏向量空间当中得到隐空间向量z;使用KL损失将向量空间限定为标准的高斯分布;
2-2.将隐空间向量z与对应类别信息c结合输入到生成器当中重构输入的真实草图x,生成设计草图图片x';这是标准的编码-解码步骤,通过对数据集中真实草图x的重构,生成器能够拟合从隐向量空间到真实数据分布的映射;在测试阶段,只需要在高斯分布中进行采样并与服装类别信息结合输入到生成器当中,就能生成不同类别的设计草图图片;
2-3.为了保证数据的重构效果,使用多种损失函数同时对生成的设计草图图片x'进行约束;首先使用L2重构损失保证图像在像素点上与真实草图x相近;为了保证类别的正确性,使用预训练好的VGG19网络作为分类器对真实草图x进行分类以微调分类网络;得到微调的VGG19后,便可在训练时计算生成器的分类损失;与此同时,提取真实草图x与生成的设计草图图片x'在VGG19中的特征以计算VGG重构损失;为了让生成的设计草图图片x'更真实,网络同时使用了对抗损失;为了增强生成模型的稳定性和生成图片的多样性,此处使用了WGAN-GP中的对抗损失代替了传统GAN中的对抗损失。
5.根据权利要求4所述的基于服装类别及纹理图案控制的时尚服装图像生成方法,其特征在于:
提及的L2重构损失表示为公式1,其中x为真实设计草图图片,x'为生成的设计草图图片:
Lossl2=||x-x'||2 (公式1)
提及的生成器分类损失表示为公式2,其中Pg表示生成的设计草图的数据分布,x'表示生成的设计草图图片,P(c|x')表示当分类器输入为x',输出类别为c的概率;
提及的VGG重构损失表示为公式3,其中VGG表示在数据集上微调好的VGG19网络,x为真实设计草图图片,x'为生成的设计草图图片;
Lossvgg=||VGG(x)-VGG(x')||1 (公式3)
提及的对抗生成损失表示为公式4,其中D表示判别器,Pr表示真实的数据分布,Pg表示生成的数据分布,▽表示求导运算,λ为权重值,一般取值为10;
6.根据权利要求5所述的基于服装类别及纹理图案控制的时尚服装图像生成方法,其特征在于步骤(3)基于纹理图案和设计草图的时尚服装生成,具体实现如下:
3-1.为了让尺寸较小的纹理图案与设计草图保持特征的一致性,输入的纹理图案块t先经过一个纹理扩展模块;纹理扩展模块采用经典的Encoder-Decoder结构;在编码部分,纹理图案块t与位置掩码矩阵m进行拼接作为纹理扩展模块的输入,之后3个连续的步长卷积模块对输入进行特征提取以获得更高层次的特征信息Ft;3个步长卷积模块中都包含了Instance Normal归一化和ReLU非线性激活层以提高网络的稳定性;经过上述编码器得到抽象的特征信息Ft后,考虑到被扩展的纹理与已有纹理块具有极强的相关性,所以设计一个注意力模块来增强纹理的扩展能力;特征信息Ft经过注意力模块后,需要被扩展的部分都会根据与原有纹理块特征的相关性进行扩展,得到扩展特征Ft a;同时将编码器得到的特征信息Ft输入到堆叠的残差模块中得到特征Ft r,最后与注意力模块得到的扩展特征Ft a进行拼接;纹理扩展模块的解码器部分将拼接后特征进行尺寸上的扩展;解码器部分对称地采用了连续3个步长为2的反卷积模块以增大特征尺寸,同样的,每个反卷积模块都同时拥有Instance Normal归一化和ReLU非线性激活层;每次反卷积输出的纹理特征将被送入到特征转换机制中生成对应尺寸的均值矩阵(α1,α2,α3,)和方差矩阵(β1,β2,β3),每组均值矩阵和方差矩阵αn,βn都代表了对应尺寸纹理特征的有效信息,n∈[1,2,3],这些均值矩阵和方差矩阵将在特征融合模块中与设计草图特征进行融合;
3-2.纹理特征被扩展后,接下来将在特征融合模块与设计草图特征结合生成时尚服装图像;特征融合模块的输入为时尚设计草图图片s,特征融合模块的Encoder部分有连续的三层卷积模块用来进行编码操作,每个卷积模块中也都使用了Instance Normal和ReLU非线性激活层;在初步得到编码草图特征Fs后,使用连续的9个残差模块来进一步提取特征得到特征Fs r,残差模块的引入使得特征融合模块能够在增加深度的情况下保持训练的稳定性;之后,特征Fs r被输入到解码器中进行解码,并完成与纹理扩展模块获得的均值矩阵和方差矩阵融合的步骤;解码器整体由三组连续的反卷积模块构成,这些反卷积操作的卷积核大小被设置为3,步长被设置为2,周围使用大小为1的零值填充;具体解码融合步骤为:特征Fs r经过首个反卷积模块尺寸扩大一倍生成特征使用空间自适应归一化的方法与纹理扩展模块中得到的对应尺寸的均值矩阵和方差矩阵(α1,β1)进行融合,融合后的特征输入到第二组反卷积模块中尺寸扩大一倍生成特征同样使用空间自适应归一化的方法与α2,β2进行融合;融合后的特征输入到第三组反卷积中尺寸扩大一倍生成特征与α3,β3使用空间自适应归一化方法融合后再经过一个步长为1的卷积操作生成最终的时尚服装图像;
3-3.基于纹理图案和设计草图的时尚服装生成网络模型中,采用了多种损失函数来更新网络;首先采用的是L1重构损失来初步约束生成图像的像素值的整体相似度;同样使用了特征损失在特征维度上进行限制;在GAN损失方面,使用了LSGAN当中的对抗损失代替传统的对抗损失以增强网络的生成效果;提出了梯度重构损失来解决使用L1重构损失导致的图片纹理模糊问题;
上述提及的L1重构损失可以表示为公式5,其中x为真实时尚服装图片,x'为生成的时尚服装图片:
Lossl1=||x-x'||1 (公式5)
上述提及的VGG重构损失可以表示为公式6,注意,与步骤2中的VGG重构损失不同的是,公式中的VGG表示在ImageNet上预训练的VGG19网络;
Lossvgg=||VGG(x)-VGG(x')||1 (公式6)
上述提及的对抗生成损失可以表示为公式7,其中D表示判别器,Pg表示生成时尚服装图片的数据分布,c为一个常量取1;
3-4.在基于服装类别的时尚草图生成模型和基于纹理图案和设计草图的时尚服装生成模型都在本发明所提出的数据集上训练完后,只要将两个网络进行简单地拼接就能得到最终的生成系统;选择服装类别信息c输入到基于服装类别的时尚草图生成模型当中就能得到一些多样性的时尚设计草图s;将s和选中的纹理块图案t输入到基于纹理图案和设计草图的时尚服装生成模型当中,就能生成由这两个元素控制的时尚服装图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535271.7A CN113393546B (zh) | 2021-05-17 | 2021-05-17 | 基于服装类别及纹理图案控制的时尚服装图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535271.7A CN113393546B (zh) | 2021-05-17 | 2021-05-17 | 基于服装类别及纹理图案控制的时尚服装图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393546A true CN113393546A (zh) | 2021-09-14 |
CN113393546B CN113393546B (zh) | 2024-02-02 |
Family
ID=77617957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110535271.7A Active CN113393546B (zh) | 2021-05-17 | 2021-05-17 | 基于服装类别及纹理图案控制的时尚服装图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393546B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565119A (zh) * | 2021-11-25 | 2022-05-31 | 天津市测绘院有限公司 | 基于多模态图卷积网络的时尚兼容度预测方法 |
CN116402580A (zh) * | 2023-04-12 | 2023-07-07 | 钰深(北京)科技有限公司 | 基于输入的文本/语音/图片自动生成服装的方法和系统 |
CN117292017A (zh) * | 2023-09-14 | 2023-12-26 | 西安邮电大学 | 一种草图到图片跨域合成方法、系统及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510456A (zh) * | 2018-03-27 | 2018-09-07 | 华南理工大学 | 基于感知损失的深度卷积神经网络的草图简化方法 |
CN110175251A (zh) * | 2019-05-25 | 2019-08-27 | 西安电子科技大学 | 基于语义对抗网络的零样本草图检索方法 |
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
-
2021
- 2021-05-17 CN CN202110535271.7A patent/CN113393546B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510456A (zh) * | 2018-03-27 | 2018-09-07 | 华南理工大学 | 基于感知损失的深度卷积神经网络的草图简化方法 |
CN110175251A (zh) * | 2019-05-25 | 2019-08-27 | 西安电子科技大学 | 基于语义对抗网络的零样本草图检索方法 |
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
Non-Patent Citations (1)
Title |
---|
李瑶: "基于深度学习的服装图像生成与交互式编辑", 中国优秀硕士学位论文全文数据库, pages 1 - 43 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565119A (zh) * | 2021-11-25 | 2022-05-31 | 天津市测绘院有限公司 | 基于多模态图卷积网络的时尚兼容度预测方法 |
CN114565119B (zh) * | 2021-11-25 | 2023-09-26 | 天津市测绘院有限公司 | 基于多模态图卷积网络的时尚兼容度预测方法 |
CN116402580A (zh) * | 2023-04-12 | 2023-07-07 | 钰深(北京)科技有限公司 | 基于输入的文本/语音/图片自动生成服装的方法和系统 |
CN117292017A (zh) * | 2023-09-14 | 2023-12-26 | 西安邮电大学 | 一种草图到图片跨域合成方法、系统及设备 |
CN117292017B (zh) * | 2023-09-14 | 2024-09-27 | 西安邮电大学 | 一种草图到图片跨域合成方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113393546B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Elasri et al. | Image generation: A review | |
Remez et al. | Learning to segment via cut-and-paste | |
CN112529768B (zh) | 一种基于生成对抗网络的服装编辑和生成方法 | |
CN113393546B (zh) | 基于服装类别及纹理图案控制的时尚服装图像生成方法 | |
Chen et al. | Poseshop: Human image database construction and personalized content synthesis | |
Zhang et al. | Style transfer via image component analysis | |
Shen et al. | Gan-based garment generation using sewing pattern images | |
CN109583481B (zh) | 一种基于卷积神经网络的细粒度服装的属性识别方法 | |
Zhang et al. | Deep detail enhancement for any garment | |
Li et al. | Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation | |
Qin et al. | Automatic skin and hair masking using fully convolutional networks | |
Zheng et al. | Image-based clothes changing system | |
Dong et al. | Dressing in the wild by watching dance videos | |
Zhang et al. | R2Net: Residual refinement network for salient object detection | |
Liu et al. | Toward realistic virtual try-on through landmark guided shape matching | |
Wang et al. | GGD-GAN: Gradient-guided dual-branch adversarial networks for relic sketch generation | |
CN114782979A (zh) | 一种行人重识别模型的训练方法、装置、存储介质及终端 | |
Han et al. | Multi-stage generative adversarial networks for generating pavement crack images | |
Wu et al. | Deep texture exemplar extraction based on trimmed T-CNN | |
Jong et al. | Virtual try-on with generative adversarial networks: A taxonomical survey | |
Zhang et al. | Limb-Aware Virtual Try-On Network with Progressive Clothing Warping | |
Musoni et al. | GIM3D plus: A labeled 3D dataset to design data-driven solutions for dressed humans | |
Podlasov et al. | Japanese street fashion for young people: A multimodal digital humanities approach for identifying sociocultural patterns and trends | |
Cao et al. | Automatic motion-guided video stylization and personalization | |
Xiang et al. | FashionSegNet: a model for high-precision semantic segmentation of clothing images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |