CN111476867A - 一种基于变分自编码和生成对抗网络的手绘草图生成方法 - Google Patents
一种基于变分自编码和生成对抗网络的手绘草图生成方法 Download PDFInfo
- Publication number
- CN111476867A CN111476867A CN202010265887.2A CN202010265887A CN111476867A CN 111476867 A CN111476867 A CN 111476867A CN 202010265887 A CN202010265887 A CN 202010265887A CN 111476867 A CN111476867 A CN 111476867A
- Authority
- CN
- China
- Prior art keywords
- sketch
- stroke
- generation
- format
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 99
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 22
- 230000007787 long-term memory Effects 0.000 claims description 16
- 230000006403 short-term memory Effects 0.000 claims description 16
- 239000000203 mixture Substances 0.000 claims description 11
- 238000000547 structure data Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/80—Creating or modifying a manually drawn or painted image using a manual input device, e.g. mouse, light pen, direction keys on keyboard
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像数据处理技术领域,公开了一种基于变分自编码和生成对抗网络的手绘草图生成方法,获取矢量格式草图,进行格式转换,构建新数据集;获取新数据集中笔画向量的全局和局部特征结构;利用解码器,得到新数据集的笔画正态分布参数数据和笔画状态分类分布的概率数据;从正态分布中随机取样并计算笔画状态,得到每个时间步的预测输出,获取预测生成的草图;利用鉴别器,获取输入数据的真假信息,得到融合VAE和GAN的草图生成模型;将数据输入到生成模型中,得到预测生成草图。本发明的草图生成方法生成草图质量高,并且支持多类草图生成。
Description
技术领域
本发明属于图像数据处理技术领域,尤其涉及一种基于变分自编码和生成对抗网络的手绘草图生成方法。
背景技术
早在远古时代,草图就在辅助人类进行交流和创意设计方面发挥着重要作用,同时,矢量图在传输过程中只需要最少的空间来存储和传输,这种情况推动了草图在人工智能技术的发展。有关于草图的研究主要在识别,并在一定程度上取得了不错的效果,而在草图生成方面却只有少量的研究。2018年,由google提出的一种名为Sketch-RNN的seq2seq的变分自编码(VAE)模型,能根据人工输入生成草图,作为第一种人工智能技术被引进,被称为最先进的技术;但该模型也有自己的局限性,包括:在学习单个类别草图时可以有较好的输出,但当多个类别输入模型中时,生成草图质量会下降;当一个草图由多个组件组成时,Sketch-RNN无法很好的捕捉组件之间的相对位置关系,从而造成生成草图的质量低下。Sketch-pix2seq是为了解决上述问题而提出的解决方案,该模型在单类别草图生成质量上较Sketch-RNN有了很大的提升,并且支持多类别生成,并且在多类别中也可以去的不错的效果。但该模型生成的草图质量还有待提高,Sketch-pix2seq模型编码器部分的感受野较小,仅能学习局部范围内的笔画关系,而无法捕获笔画间的长距离依赖关系,从而导致捕捉到的有效信息有限,草图质量降低,并且Sketch-RNN和Sketch-pix2seq模型均是基于VAE生成框架。
综上所述,现有技术存在的问题是:(1)现有草图生成方案均是基于VAE模型,生成框架单一。
(2)目前生成草图最好的模型Sketch-pix2seq在学习草图特征时,不能学习笔画之间的长距离关系,无法从全局更好的掌握草图特征信息。
解决上述技术问题的难度:目前,有关手绘草图的研究已经成为计算机视觉的一个分支而存在,以往的研究主要集中于手绘草图的识别,并在一定程度上取得了不错的效果,但是在手绘草图的生成上却只有少量的研究,可以查证的资料较少;另外在草图质量评价上,还没有明确的标准,对草图的评价主要还是根据人类的主观评价。
解决上述技术问题的意义:实现了一种可以在单类别和多类别草图领域都可以生成高质量草图的VAE-GAN生成框架。
发明内容
针对现有技术存在的问题,本发明提供了一种基于变分自编码和生成对抗网络的手绘草图生成方法。
本发明是这样实现的,一种基于变分自编码和生成对抗网络的手绘草图生成方法,包括:
步骤一,获取某一类或某几类别的矢量格式草图,利用cairoSVG进行格式转换,得到对应的光栅格式草图,利用矢量格式草图和光栅格式草图构建新数据集;
步骤二,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构;
步骤三,将获取到的全局和局部特征结构以及矢量格式草图输入到由长短期记忆网络组成的解码器中,得到新数据集的笔画正态分布参数数据和笔画状态分类分布概率数据;
步骤四,从正态分布中随机取样得到每个时间步的笔画位置数据,从笔画状态分类分步概率数据中计算每个时间步的笔画状态数据,将每个时间步的输出组成在一起,获取组合后的预测生成的草图;
步骤五,将生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型;
步骤六,将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到最终预测生成草图。
进一步,所述矢量格式草图由数据点偏移量、笔画状态信息组成的五元组组成。
进一步,步骤一中,所述利用矢量格式草图和光栅格式草图构建新数据集包括:
(1)获取三元组表达形式的矢量格式草图,利用cairoSVG将矢量格式草图转换为光栅格式草图;
(2)将三元组表达形式的矢量格式草图转换为五元组表达形式,并获取数据集中草图的最大组成长度;
进一步,步骤二中,所述利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构包括:
1)将得到的光栅格式草图输入到卷积神经网络中,进行训练,将卷积神经网络的输出做线性计算,得到组成笔画向量的全局和局部特征结构的参数,对参数进行线性计算并抽样,得到笔画向量全局和局部特征结构数据。
2)在卷积神经网络的1层后加入注意力模块,得到笔画向量全局和局部特征结构数据。
进一步,步骤2)中,所述卷积神经网络包含获取全局和局部特征结构的神经网络层,所述卷积神经网络共计7层。
进一步,步骤2)中,所述训练包括:采用dropout进行训练,dropout比率为0.9。
进一步,步骤三中,所述预测笔画正态分布参数数据获取方法包括:
第一步,将得到的全局和局部特征结构数据作为噪声同矢量草图一同输入由LSTM搭建的解码器中,得到每个时间步的输出;
第二步,将得到的每个时间步的输出输入高斯混合模型中,得到组成二元正态分布的参数,并对笔画状态数据进行建模;
第三步,将得到的组成二元正态分布的参数得到二元正态分布函数,进行抽样得到笔画位置数据,并从笔画状态分类分布概率模型中计算当前时间步的笔画状态数据;
第四步,将得到的笔画位置数据和状态数据组成五元组表达形式的预测输出笔画;将所有时间步的预测输出笔画组合,即得预测输出草图。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述基于变分自编码和生成对抗网络的手绘草图生成方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述的基于变分自编码和生成对抗网络的手绘草图生成方法。
本发明的另一目的在于提供一种基于变分自编码和生成对抗网络的手绘草图生成系统,可应用于美术、建筑、工程领域,包括:
新数据集构建模块,用于获取某一类或某几类别的矢量格式草图,利用cairoSVG图形库进行格式转换,得到对应的光栅格式草图,利用矢量格式草图和光栅格式草图构建新数据集;
笔画向量的全局和局部特征结构获取模块,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构;
笔画正态分布参数数据和笔画状态分类分布概率数据获取模块,用于将获取笔画向量的全局和局部特征结构以及矢量格式草图输入到由长短期记忆网络组成的解码器中,得到新数据集的笔画正态分布参数数据和笔画状态分类分布概率数据;
组合后的预测生成草图获取模块,用于从正态分布中随机取样得到每个时间步的笔画位置数据,从笔画状态分类分步概率数据中计算每个时间步的笔画状态数据,将每个时间步的输出进行组合,获取组合后的预测生成的草图;
融合VAE和GAN的草图生成模型获取模块,用于将预测生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型;
最终预测生成草图获取模块,将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到最终预测生成草图。
综上所述,本发明的优点及积极效果为:本发明采用卷积神经网络和注意力模块的特征提取方法,为草图的生成提供了绘画过程中笔画摆放位置的指导,同时对组成草图的不同组件之间的长短距离依赖位置关系提供了依据,从而大大避免了产生低质量草图的可能性;另外,本发明采用VAE-GAN生成框架,充分结合了VAE模型高效表达的能力以及GAN强大的生成能力,实现了一种基于新型框架下的草图生成模型,并进一步提升了生成草图的质量。
本发明在卷积神经网络提取特征时,加入了全局笔画相关性关系学习模块,充分利用了光栅格式图片学习不同组件之间的相对位置关系,可以有效的提高生成草图的质量。
本发明通过融合VAE和GAN模型,既利用了VAE模型高效的学习能力,同时又结合了GAN模型强大的生成能力,两者的结合使得草图生成效果更加多样且真实,和其他同类模型相比,草图的质量均有明显提升。
本发明中的矢量格式草图数据是指由数据点偏移量、变化状态信息组成的五元组组成的图片,这种格式的图片无论是放大、缩小或旋转都不会失真,保证了生成草图的质量。
本发明将解码器的LSTM隐含结点个数设置为2048,并在训练过程中采用dropout方法,特征提取效果好,草图的质量高。本发明将学习率为0.01,学习衰减速率为0.9999,使得迭代参数更容易更新至最小值,生成的草图更加切合实际。
本发明将预测的笔画数据送入高斯混合模型,得到笔画的分布表示,从而可以从分布中随机选择输出笔画,使得生成数据更具有多样性。
附图说明
图1是本发明实施例提供的基于变分自编码和生成对抗网络的手绘草图生成方法图。
图2是本发明实施例提供的草图生成方法原理图。
图3是本发明实施例提供的基于CNN的草图特征提取方法流程图。
图4是本发明实施例提供的融合全局笔画相关性学习模块的CNN特征提取方法流程图。
图5是本发明实施例提供的基于LSTM的草图生成器示意图。
图6是本发明实施例提供的基于LSTM的草图鉴别器示意图。
图7是本发明实施例提供的ESkeVAE-GAN潜在空间可视化图。
图8是本发明实施例提供的Sketch-RNN潜在空间可视化图。
图9是本发明实施例提供的对比模型在五种类别部分生成结果图。
图10是本发明实施例提供的对比模型在cat类别部分生成结果图。
图11是本发明实施例提供的对比模型在car类别部分生成结果图。
图12是本发明实施例提供的对比模型在shoes类别部分生成结果图。
图13是本发明实施例提供的对比模型在cup类别部分生成结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有草图生成方法中存在草图生成框架单一、无法学习组件长距离依赖的问题。
针对现有技术存在的问题,本发明提供了一种基于变分自编码和生成对抗网络的手绘草图生成方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于变分自编码和生成对抗网络的手绘草图生成方法包括:
S101,获取某一类或某几类别的矢量格式草图,利用cairoSVG图形库进行格式转换,得到对应的光栅格式草图,利用矢量格式草图和光栅格式草图构建新数据集。
S102,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构。
S103,将获取到的全局和局部特征结构以及矢量格式草图输入到由长短期记忆网络组成的解码器中,得到新数据集的笔画正态分布参数数据和笔画状态分类分布概率数据。
S104,从正态分布中随机取样得到每个时间步的笔画位置数据,从笔画状态分类分步概率数据中计算每个时间步的笔画状态数据,将每个时间步的输出组成在一起,获取组合后的预测生成的草图。
S105,将生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型。
S106,将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到最终预测生成草图。
本发明实施例提供的矢量格式草图由数据点偏移量、变化状态信息组成的五元组组成。
如图2所示:步骤S101中,本发明实施例提供的利用矢量格式草图和光栅格式草图构建新数据集包括:
(1)获取三元组表达形式的矢量格式草图,利用格式转换库将矢量格式草图转换为光栅格式草图。
(2)将三元组表达形式的矢量格式草图转换为五元组表达形式,并获取数据集中草图的最大组成长度。
步骤S102中,本发明实施例提供的利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构包括:
1)将得到的光栅格式草图输入到卷积神经网络中,进行训练,将卷积神经网络的输出做线性计算,得到组成笔画向量的全局和局部特征结构的参数,对参数进行线性计算并抽样,得到笔画向量全局和局部特征结构数据。
2)在卷积神经网络的1层后加入注意力模块,得到笔画向量全局和局部特征结构数据。
步骤2)中,本发明实施例提供的卷积神经网络包含获取全局特征结构的神经网络层,所述卷积神经网络共计7层。
步骤2)中,本发明实施例提供的训练包括:采用dropout进行训练,dropout比率为0.9。
步骤S103中,本发明实施例提供的预测笔画正态分布参数数据获取方法包括:
第一步,将得到的全局和局部特征结构数据作为噪声同矢量草图一同输入由LSTM搭建的解码器中,得到每个时间步的输出。
第二步,将得到的每个时间步的输出输入高斯混合模型中,得到组成二元正态分布的参数,并对笔画状态数据进行建模。
第三步,将得到的组成二元正态分布的参数得到二元正态分布函数,进行抽样得到笔画位置数据,并从笔画状态分类分布概率模型中计算当前时间步的笔画状态数据。
第四步,将得到的笔画位置数据和状态数据组成五元组表达形式的预测输出笔画;将所有时间步的预测输出笔画组合,即得预测输出草图。
本发明提供一种基于变分自编码和生成对抗网络的手绘草图生成系统,可应用于美术、建筑、工程领域,包括:
新数据集构建模块,用于获取某一类或某几类别的矢量格式草图,利用cairoSVG图形库进行格式转换,得到对应的光栅格式草图,利用矢量格式草图和光栅格式草图构建新数据集。
笔画向量的全局和局部特征结构获取模块,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构。
笔画正态分布参数数据和笔画状态分类分布概率数据获取模块,用于将获取笔画向量的全局和局部特征结构以及矢量格式草图输入到由长短期记忆网络组成的解码器中,得到新数据集的笔画正态分布参数数据和笔画状态分类分布概率数据。
组合后的预测生成草图获取模块,用于从正态分布中随机取样得到每个时间步的笔画位置数据,从笔画状态分类分步概率数据中计算每个时间步的笔画状态数据,将每个时间步的输出进行组合,获取组合后的预测生成的草图。
融合VAE和GAN的草图生成模型获取模块,用于将预测生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型。
最终预测生成草图获取模块,将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到最终预测生成草图。
下面结合具体实施例对本发明作进一步说明。
实施例:
如图1和图2所示,本发明实施例提供了一种草图生成方法,包括:
(1)获取某一类或某几类别的矢量格式草图,并进行格式转换,得到对应的光栅格式草图,将矢量格式草图和光栅格式草图构成新数据集;
具体的,本发明实施例提供的矢量格式草图数据是指由数据点偏移量、变化状态信息组成的五元组组成的图片,这种格式的图片无论是放大、缩小或旋转都不会失真;本发明使用QuickDraw数据集,下载不同类别的矢量格式图片,并利用cairoSVG图形库进行格式转换,从而获取模型训练所需的数据集。
(2)所述的新数据集,利用卷积神经网络和注意力模块获取所述和笔画向量的全局和局部特征结构。
如图3所示,步骤(2)中,本发明实施例提供的获取笔画向量的全局和局部特征结构,具体包括:
(2.1)将上述光栅格式草图输入到卷积神经网络中,卷积神经网络(包含获取全局和局部特征结构的神经网络层)共7层,将卷积神经网络的输出做线性计算,得到组成笔画向量的全局和局部特征结构的参数,对参数进行线性计算并抽样,得到笔画向量全局和局部特征结构数据。
如图4所示,输入的光栅格式的图片在特征提取1层后添加了一层学习全局特征结构的神经网络,经过学习全局特征结构的神经网络后的图片仅仅改变了不同位置的权重大小,尺寸大小及深度都不会改变,将最后一层卷积神经网络的输出经过线性计算得到潜在空间h1。
具体地,通过实验发现,将编码器设置为卷积神经网络和注意力模块的结合,并在训练过程中采用dropout方法,特征提取效果更好,草图的质量也更高。
(3)将所述新数据集获取到的全局和局部特征结构和矢量格式草图输入到由长短期记忆网络组成的解码器中,获取所述新数据集的预测笔画的正态分布参数数据和笔画状态预测数据。
具体地,考虑到生成草图的泛化问题,本发明将预测的笔画数据送入高斯混合模型,得到笔画的分布表示,从而可以从分布中随机选择输出笔画,使得生成数据更具有多样性,具体包括以下步骤:
(3.1)将上述全局和局部特征结构数据作为噪声同矢量草图一同输入由LSTM搭建的解码器中,得到每个时间步的输出。
如图5和图6所示,LSTM每个时间步的输入由全局和局部特征结构和矢量格式的单个笔画组成,即input={z,Si},每个时间步的输出用于对笔画位置和笔画状态建模。
(3.2)将上述每个时间步的输出输入高斯混合模型中,得到组成二元正态分布的参数。
对解码器的输出进行高斯混合建模以及笔画状态建模,其中正态分布参数包括μx,j、σx,j、μy,j、σy,j、ρxy,j,笔画状态信息包括(p1,p2,p3)。
采用生成分布参数的方式以便后续随机生成草图的笔画,使得生成的数据具有泛化的能力。
(3.3)将上述组成二元正态分布的参数得到二元正态分布函数,进行抽样得到笔画位置数据,并从笔画状态分类分布概率模型中计算笔画状态数据。
(3.4)对所述预测笔画的正态分布参数进行取样,并计算笔画状态,获取预测生成的草图;如图5所示,从高斯混合模型计算的正态分布参数对笔画的位置信息进行随机取样,并同时计算当前笔画的状态,将采样数据依据时间步的顺序组成预测草图的笔画向量。
(4)将预测生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型。
具体地,通过实验发现,将解码器和鉴别器的LSTM隐含层大小设置为2048,并在训练过程中采用dropout方法,生成草图的效果更好;学习率为0.01,学习衰减速率为0.9999,使得迭代参数更容易更新至最小值,生成的草图更加切合实际。
(5)将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到预测生成草图。
下面结合具体实验效果对发明作进一步描述。
本发明从数据集Qucick,Draw!中选用了4个类别对象做单类别手绘草图试验,同时选用了5个类别对象做多类别手绘草图试验,具体类别信息如表3-1所示。
表1数据集设置
据我们所知,目前还没有评价手绘草图质量的标准,因此,我们从草图绘制的清晰度、完成度、自然性角度出发,邀请了30名观察者来对草图进行人类图灵测试,每个观察者对每张草图需要给出三个评分,其中清晰度分值为0-4分,完成度分值为0-3分,自然性分值为0-3分,定量的评估了生成草图带给人类最直接的感受,对于每项指标的各项分值对应的解释如表2至表4所示,供观察者进行参考。
表2清晰度分值解释表
表3完成度分值解释表
表3-4自然性分值解释表
另一方面,在草图绘制类别的正确性上,我们将其作为一个单个指标来对模型进行评估,该项指标也是模型最重要的参考部分,按照类别分辨的正确率将其映射到总分为10分的评价区间,比如,30名观察者中对生成猫的识别率是70%,对应到10分制中为7分。综合以上两个不同的出发点,最终模型的评价由两部分共同组成,其中草图绘制的清晰度、完成度和自然性占总评分的40%,草图类别的正确率占60%,根据最后总的得分来评价生成模型的有效性,效果越好的模型对应的评分越高。有关总评分的计算过程如公式3-10所示
其中Stotal代表最后的总评分,sci、spi、sni分别代表第i张草图对应的清晰度、完成度和自然性的评分,sai代表第i张草图被识别为正确类别的比例。
本发明从模型是否支持多类别生成、草图质量两个方面出发来对模型进行综合评价,另外选择Sketch-RNN和Sketch-pix2seq作为基线模型。
(1)潜在空间可视化:
如图7所示,5种类别草图的潜在空间是打碎之后混合在一起的,每个类别之间没有明显的界限;
如图8所示,可以很明显的显示出聚类效果;
因此,ESkeVAE-GAN模型具有多类草图生成的能力。
(2)生成草图质量评价,如图9对比模型在五种类别部分生成结果所示。
表2多类别统计结果
模型 | 清晰度 | 绘画技术 | 自然性 | 类别判断正确率 | 总分 |
输入样本 | 3.03 | 2.17 | 2.24 | 44.7% | 5.658 |
Sketch-RNN | 2.85 | 2.02 | 1.95 | 42.3% | 5.266 |
Sketch-pix2seq | 3.45 | 2.61 | 2.57 | 66.3% | 7.43 |
ESkeVAE-GAN | 3.68 | 2.72 | 2.71 | 70.7% | 7.886 |
从评分结果中看到,ESkeVAE-GAN模型生成草图的质量评分相比于输入样本、Sketch-RNN和Sketch-pix2seq模型生成的草图质量评分分别提升了39.4%、49.8%、6.1%,充分说明了ESkeVAE-GAN模型在多类别草图生成上有良好的表现,比现有的模型表现更加出色,并且当草图中出现较多组件时,可以更加全面的学习所有组件。
通过以上对比试验,充分证明了ESkeVAE-GAN模型在草图生成上的优势,无论是单类别草图训练还是多类别草图训练,ESkeVAE-GAN相较于Sketch-pix2seq可以生成更高质量的草图,并且也支持多类别生成。
本发明还提供一种草图生成系统包括:
新数据集构建模块,用于获取某一类或某几类别的矢量格式草图,利用cairoSVG图形库进行格式转换,得到对应的光栅格式草图,利用矢量格式草图和光栅格式草图构建新数据集。
笔画向量的全局和局部特征结构获取模块,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构。
笔画正态分布参数数据和笔画状态分类分布概率数据获取模块,用于将获取笔画向量的全局和局部特征结构以及矢量格式草图输入到由长短期记忆网络组成的解码器中,得到新数据集的笔画正态分布参数数据和笔画状态分类分布概率数据。
组合后的预测生成草图获取模块,用于从正态分布中随机取样得到每个时间步的笔画位置数据,从笔画状态分类分步概率数据中计算每个时间步的笔画状态数据,将每个时间步的输出进行组合,获取组合后的预测生成的草图。
融合VAE和GAN的草图生成模型获取模块,用于将预测生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型。
最终预测生成草图获取模块,将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到最终预测生成草图。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于变分自编码和生成对抗网络的手绘草图生成方法,其特征在于,所述基于变分自编码和生成对抗网络的手绘草图生成方法包括:
步骤一,获取某一类或某几类别的矢量格式草图,利用cairoSVG图形库进行格式转换,得到对应的光栅格式草图,利用矢量格式草图和光栅格式草图构建新数据集;
步骤二,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构;
步骤三,将获取笔画向量的全局和局部特征结构以及矢量格式草图输入到由长短期记忆网络组成的解码器中,得到新数据集的笔画正态分布参数数据和笔画状态分类分布概率数据;
步骤四,从正态分布中随机取样得到每个时间步的笔画位置数据,从笔画状态分类分步概率数据中计算每个时间步的笔画状态数据,将每个时间步的输出进行组合,获取组合后的预测生成的草图;
步骤五,将生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型;
步骤六,将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到最终预测生成草图。
2.如权利要求1所述基于变分自编码和生成对抗网络的手绘草图生成方法,其特征在于,所述步骤一中,矢量格式草图由数据点偏移量、笔画状态信息组成的五元组组成。
3.如权利要求1所述基于变分自编码和生成对抗网络的手绘草图生成方法,其特征在于,所述步骤一中,利用矢量格式草图和光栅格式草图构建新数据集的方法包括:
(1)获取三元组表达形式的矢量格式草图,利用格式转换库将矢量格式草图转换为光栅格式草图。
(2)将三元组表达形式的矢量格式草图转换为五元组表达形式,并获取数据集中草图的最大组成长度。
4.如权利要求1所述基于变分自编码和生成对抗网络的手绘草图生成方法,其特征在于,所述步骤二中,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局特征结构包括:
1)将得到的光栅格式草图输入到卷积神经网络中,进行训练,将卷积神经网络的输出做线性计算,得到组成笔画向量的全局和局部特征结构的参数,对参数进行线性计算并抽样,得到笔画向量局部位置特征数据;
2)在卷积神经网络的1层后加入注意力模块,得到笔画向量全局和局部特征结构数据。
5.如权利要求4所述基于变分自编码和生成对抗网络的手绘草图生成方法,其特征在于,步骤2)中,所述卷积神经网络包含获取全局特征结构的神经网络层,所述卷积神经网络共计7层。
6.如权利要求4所述基于变分自编码和生成对抗网络的手绘草图生成方法,其特征在于,步骤2)中,所述训练采用dropout进行训练,dropout比率为0.9。
7.如权利要求1所述基于变分自编码和生成对抗网络的手绘草图生成方法,其特征在于,所述步骤三中,笔画正态分布参数数据获取方法包括:
第一步,将得到的全局和局部特征结构数据作为噪声同矢量草图一同输入由LSTM搭建的解码器中,得到每个时间步的输出;
第二步,将得到的每个时间步的输出输入高斯混合模型中,得到组成二元正态分布的参数,并对笔画状态数据进行建模;
第三步,将得到的组成二元正态分布的参数得到二元正态分布函数,进行抽样得到笔画位置数据,并从笔画状态分类分布概率模型中计算当前时间步的笔画状态数据;
第四步,将得到的笔画位置数据和状态数据组成五元组表达形式的预测输出笔画;将所有时间步的预测输出笔画组合,即得预测输出草图。
8.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1~7任意一项所述基于变分自编码和生成对抗网络的手绘草图生成方法。
9.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-7任意一项所述的基于变分自编码和生成对抗网络的手绘草图生成方法。
10.一种实施权利要求1~7任意一项所述基于变分自编码和生成对抗网络的手绘草图生成方法的基于变分自编码和生成对抗网络的手绘草图生成系统,其特征在于,所述基于变分自编码和生成对抗网络的手绘草图生成系统包括:
新数据集构建模块,用于获取某一类或某几类别的矢量格式草图,利用cairoSVG图形库进行格式转换,得到对应的光栅格式草图,利用矢量格式草图和光栅格式草图构建新数据集;
笔画向量的全局和局部特征结构获取模块,利用卷积神经网络和注意力模块获取得到的新数据集中笔画向量的全局和局部特征结构;
笔画正态分布参数数据和笔画状态分类分布概率数据获取模块,用于将获取笔画向量的全局和局部特征结构以及矢量格式草图输入到由长短期记忆网络组成的解码器中,得到新数据集的笔画正态分布参数数据和笔画状态分类分布概率数据;
组合后的预测生成草图获取模块,用于从正态分布中随机取样得到每个时间步的笔画位置数据,从笔画状态分类分步概率数据中计算每个时间步的笔画状态数据,将每个时间步的输出进行组合,获取组合后的预测生成的草图;
融合VAE和GAN的草图生成模型获取模块,用于将预测生成的草图和所述矢量格式草图输入到由长短期记忆网络组成的鉴别器中,获取鉴别器预测输入数据的真假信息,训练完成后得到融合VAE和GAN的草图生成模型;
最终预测生成草图获取模块,将待预测的矢量格式草图和对应的光栅格式草图输入到所述的融合VAE和GAN的草图生成模型中进预测,得到最终预测生成草图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010265887.2A CN111476867A (zh) | 2020-04-07 | 2020-04-07 | 一种基于变分自编码和生成对抗网络的手绘草图生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010265887.2A CN111476867A (zh) | 2020-04-07 | 2020-04-07 | 一种基于变分自编码和生成对抗网络的手绘草图生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111476867A true CN111476867A (zh) | 2020-07-31 |
Family
ID=71750132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010265887.2A Pending CN111476867A (zh) | 2020-04-07 | 2020-04-07 | 一种基于变分自编码和生成对抗网络的手绘草图生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476867A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463912A (zh) * | 2020-11-23 | 2021-03-09 | 浙江大学 | 一种基于树莓派和循环神经网络的简笔画识别与生成方法 |
CN113160343A (zh) * | 2020-12-31 | 2021-07-23 | 江苏元图信息技术有限公司 | 基于深度神经网络的简笔画绘画过程生成算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805224A (zh) * | 2018-05-28 | 2018-11-13 | 中国人民解放军国防科技大学 | 具备可持续学习能力的多符号手绘草图识别方法及装置 |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
CN110598018A (zh) * | 2019-08-13 | 2019-12-20 | 天津大学 | 一种基于协同注意力的草图图像检索方法 |
US20200073968A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Sketch-based image retrieval techniques using generative domain migration hashing |
-
2020
- 2020-04-07 CN CN202010265887.2A patent/CN111476867A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805224A (zh) * | 2018-05-28 | 2018-11-13 | 中国人民解放军国防科技大学 | 具备可持续学习能力的多符号手绘草图识别方法及装置 |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
US20200073968A1 (en) * | 2018-09-04 | 2020-03-05 | Inception Institute of Artificial Intelligence, Ltd. | Sketch-based image retrieval techniques using generative domain migration hashing |
CN110598018A (zh) * | 2019-08-13 | 2019-12-20 | 天津大学 | 一种基于协同注意力的草图图像检索方法 |
Non-Patent Citations (3)
Title |
---|
ANDERS BOESEN LINDBO LARSEN,SØREN KAAE SØNDERBY等: "Autoencoding beyond pixels using a learned similarity metric", 《HTTPS//ARXIV.ORG/PDF/1512.09300V2.PDF》 * |
VARSHANEYA V,S BALASUBRAMANIAN: "TEACHING GANS TO SKETCH IN VECTOR FORMAT", 《HTTPS://ARXIV.ORG/ABS/1904.03620V1》 * |
YAJING CHEN, SHIKUI TU, YUQI YI, LEI XU: "Sketch-pix2seq: a Model to Generate Sketches of Multiple Categories", 《HTTPS://ARXIV.ORG/PDF/1709.04121.PDF》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463912A (zh) * | 2020-11-23 | 2021-03-09 | 浙江大学 | 一种基于树莓派和循环神经网络的简笔画识别与生成方法 |
CN113160343A (zh) * | 2020-12-31 | 2021-07-23 | 江苏元图信息技术有限公司 | 基于深度神经网络的简笔画绘画过程生成算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN111260740B (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
Kim et al. | Softflow: Probabilistic framework for normalizing flow on manifolds | |
Stelzner et al. | Faster attend-infer-repeat with tractable probabilistic models | |
CN108629288B (zh) | 一种手势识别模型训练方法、手势识别方法及系统 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN113039555B (zh) | 在视频剪辑中进行动作分类的方法、系统及存储介质 | |
CN111862274A (zh) | 生成对抗网络训练方法、图像风格迁移方法及装置 | |
Cao et al. | Adversarial learning with local coordinate coding | |
Jaiswal et al. | Bidirectional conditional generative adversarial networks | |
CN111541900B (zh) | 基于gan的安防视频压缩方法、装置、设备及存储介质 | |
CN110264407B (zh) | 图像超分辨模型训练及重建方法、装置、设备及存储介质 | |
CN115797606B (zh) | 基于深度学习的3d虚拟数字人交互动作生成方法及系统 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN111476867A (zh) | 一种基于变分自编码和生成对抗网络的手绘草图生成方法 | |
Marin et al. | The effect of latent space dimension on the quality of synthesized human face images | |
CN110727844A (zh) | 一种基于生成对抗网络的在线评论商品特征观点提取方法 | |
Gorijala et al. | Image generation and editing with variational info generative AdversarialNetworks | |
Zhu et al. | StyleGAN3: generative networks for improving the equivariance of translation and rotation | |
CN116958712B (zh) | 基于先验概率分布的图像生成方法、系统、介质及设备 | |
CN117634459A (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
Wu et al. | Sketchscene: Scene sketch to image generation with diffusion models | |
Kasi et al. | A deep learning based cross model text to image generation using DC-GAN | |
CN114333069A (zh) | 对象的姿态处理方法、装置、设备及存储介质 | |
CN113920291A (zh) | 基于图片识别结果的纠错方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200731 |