CN110147797B - 一种基于生成式对抗网络的草图补全与识别方法和装置 - Google Patents
一种基于生成式对抗网络的草图补全与识别方法和装置 Download PDFInfo
- Publication number
- CN110147797B CN110147797B CN201910294373.7A CN201910294373A CN110147797B CN 110147797 B CN110147797 B CN 110147797B CN 201910294373 A CN201910294373 A CN 201910294373A CN 110147797 B CN110147797 B CN 110147797B
- Authority
- CN
- China
- Prior art keywords
- sketch
- completion
- incomplete
- cascade
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于生成式对抗网络的草图补全与识别方法和装置。本发明包括:(1)基于条件生成式对抗神经网络,针对草图相对于彩色图片语义信息稀疏的特点,利用级联策略对生成式对抗神经网络进行改进;(2)扩展草图补全网络的类别通用性,设置草图识别任务作为辅助任务,同时在网络结构中增加草图识别辅助网络;(3)将草图补全方法应用于残缺草图的识别任务、基于残缺草图的图像检索任务和草图场景编辑任务中;(6)集成草图补全方法形成草图补全应用平台,支持包括交互式草图补全、草图补全与识别、草图场景分割与补全、交互式草图补全辅助等应用功能,能够在PC、手机、平板电脑、电子白板等多种设备和终端上进行应用。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于生成式对抗网络(GenerativeAdversial Network,GAN)的草图补全与识别方法和装置。
背景技术
草图是一种能直观地表达抽象概念与用户意图的自然符号(参考文献:Liu Y J,Ma C,Zhao G,et al.An Interactive SpiralTape Video Summarization[J].IEEETransactions on Multimedia,2016,18(7):1269-1282.),在多媒体组织与人机交互领域具有广泛的应用。近年来,草图识别(sketch recognition)、基于草图的图像识别(sketch-based image retrieval,SBIR)、基于草图的图像生成(sketch-based image generation,SBIG)、草图解析(sketch parsing)、草图视频摘要(sketch-based video summerization)等草图相关技术的研究都取得了巨大的进展。特别的,随着深度学习技术的引进,几个重要的草图数据库得以建立(如TU-Berlin、The Sketchy Database、The SketchyScene、Fine-Grained SBIR Datasets等草图数据库),基于大数据的草图基础技术研究得到了进一步发展。
目前的草图相关基础技术和应用技术都建立在输入草图具有完整性的前提下,完整的草图包含了视觉感知上闭合的轮廓,用一系列稀疏的线条来描述物体的关键形状特征。近十年来草图识别算法(参考文献:J.Y.He,X.Wu,Y.G.Jiang,B.Zhao,and Q.Peng,“Sketch recognition with deep visual-sequential fusion model,”in ACM onMultimedia Conference,2017,pp.448–456.)与草图分类技术(参考文献:H.Zhang,S.Liu,C.Zhang,W.Ren,R.Wang,and X.Cao,“Sketchnet:Sketch classification with webimages,”in IEEE Conference on Computer Vision and Pattern Recognition,2016,pp.1105–1113.)取得了巨大的进展,但对于残缺草图的识别问题一直未得到关注与解决。
在手绘草图的实际应用场景中通常存在不完整草图(或称残缺草图),例如同一草图场景中多个草图目标互相重叠、手绘草图编辑过程的中间结果、经目标检测和目标分割(object detection、object segmentation)后产生的结果草图,通常都是不完整的。残缺草图的存在给草图相关的应用带来了很大的局限性,目前的草图相关算法都是为完整的草图设计,将残缺草图直接应用于草图相关应用,特别是草图识别算法,会大大降低现有草图识别算法的准确率。如何对残缺草图进行预处理,使其适用于当前的各种草图相关应用,特别地,如何有效地提高残缺草图存在的情况下,草图识别算法的精度,已经成为扩大草图应用场景、进一步深入草图相关研究的迫切需求。
草图补全(sketch completion)的目的是生成合理的草图线条来填充残缺草图缺失区域的信息。近年来彩色图像的补全问题(inpainting)得到了广泛的研究(参考文献:K.He and J.Sun,“Statistics of patch offsets for image completion,”in EuropeanConference on Computer Vision,2012,pp.16–29.),而草图相比于彩色图像缺少了颜色和纹理信息,因此为彩色图像设计的补全方法不能直接运用于草图上。进一步的,草图具有多样性,同一个物体的草图可能有多种风格的画法,不同人对同一物体的草图绘制也不尽相同,这给草图补全问题带来了巨大的挑战。
另外一个与草图补全相关的问题是轮廓补全(contour completion),二者的相同点在于都是生成黑白像素点来补充轮廓的残缺区域。轮廓补全的目标是从彩色图像中提取感知显著的轮廓,或者在场景图像中找到物体的表面边界,近年来轮廓补全问题的研究取得了巨大的进展(参考文献:Y.Ming,H.Li,and X.He,“Connected contours:A newcontour completion model that respects the closure effect,”in Computer Visionand Pattern Recognition(CVPR),2012IEEE Conference on.IEEE,2012,pp.829–836.)。轮廓补全必须与其真实对应的彩色图像边缘保持高度一致,而草图具有多样性与抽象性(参考文献:M.Eitz,J.Hays,and M.Alexa,“How do humans sketch objects?”ACMTransactions on Graphics,vol.31,no.4,pp.1–10,2012.),并不要求与原始图像的边界精确对齐,与原始图像之间没有明确的映射关系,因此不能直接将现有的轮廓补全方法应用于草图补全问题。
发明内容
本发明的目的在于提出一种基于生成式对抗网络的草图补全与识别方法(简称SketchGAN),对残缺草图数据进行有效的生成式补全与修复,同时利用补全后的草图数据进行草图识别,提高目前主流草图识别算法对残缺草图的识别准确率。
本发明所提出的主要方法包括首先提出草图补全这一新问题、建立同时处理草图补全与草图识别的多任务生成式对抗网络、建立针对草图补全的级联(cascaded)生成式对抗网络模型、建立衡量草图补全效果的量化评价标准。本发明的目标是设计一种以草图补全为主、以草图识别为辅,同时解决草图补全与草图识别两个问题的深度神经网络:一方面,利用草图识别辅助任务提供草图补全主任务的算法性能;另一方面,利用草图补全的结果,反过来提高大多数现有主流草图识别算法对残缺草图的识别准确率。SketchGAN:基于生成式对抗神经网络的草图补全与识别方法的优势在于:草图识别这一辅助任务能提高草图补全主任务的补全效果,并且草图补全的结果能提高草图识别算法的识别精度,两个任务相互促进,相互改善。
本发明主要包括以下内容:
1)基于条件生成式对抗神经网络(Conditional Generative AdversarialNetworks),针对草图相对于彩色图片语义信息稀疏的特点,利用级联策略对生成式对抗神经网络进行改进。级联式的草图补全方法,通过将前一个级联阶段的输出特征与原始输入的残缺草图融合,作为后一个级联阶段的输入。如此,重复利用原始输入残缺草图和各中间级联层输出的草图特征信息,逐步增强草图补全的效果。
2)扩展草图补全网络的类别通用性,设置草图识别任务作为辅助任务,同时在网络结构中增加草图识别辅助网络。在本发明提出模型的训练过程中,原始输入的残缺草图首先进行补全,然后将补全后的草图输入识别网络。利用草图识别结果作为草图类别的先验知识,反过来辅助草图补全主任务,改善草图补全网络对多类别残缺草图的补全效果。
3)将本发明提出的草图补全方法应用于残缺草图的识别任务中,提出一种新型的残缺草图识别(Sketch Recognition)模式。通过将原始输入的残缺草图先补全,再识别,提高残缺草图的识别精度。
4)将本发明提出的草图补全方法应用于基于残缺草图的图像检索(Sketch-BasedImage Retrieval,SBIR)任务中,提出一种新型的SBIR模式。通过将原始输入草图先补全,再检索,提高基于草图的图像检索精度。
5)将本发明提出的草图补全方法应用于草图场景编辑(Sketch-Scene Editing)任务中,对输入草图场景进行编辑,特别是物体分割的过程中,会产生大量残缺草图,利用本发明的方法对此中间结果进行补全,然后进行草图场景编辑,可以突破草图补全的应用限制。
6)集成本发明提出的草图补全方法,形成草图补全应用平台,支持包括交互式草图补全、草图补全与识别、草图场景分割与补全、交互式草图补全辅助等应用功能,能够在PC、手机、平板电脑、电子白板等多种设备和终端上进行应用。
具体来说,本发明采用如下的技术方案:
一种基于生成式对抗网络的草图补全方法,其步骤包括:
1)建立级联生成式对抗神经网络模型,其包括生成器、判别器和分类器,所述生成器包括至少两个级联阶段,其中前一个级联阶段的输出特征与原始输入的残缺草图融合,作为后一个级联阶段的输入;
2)对所述级联生成式对抗神经网络模型进行训练,训练过程中将所述分类器得到的草图识别结果作为草图类别的先验知识,辅助所述生成器和所述判别器进行草图补全;
3)将残缺草图输入训练完成的所述级联生成式对抗神经网络模型,输出补全的草图。
进一步的,生成式对抗网络GAN近年来被广泛地应用于图像生成、图像补全、图像编辑等领域。GAN网络训练两个模型,一个生成器G与一个判别器D。生成器G不断生成与真实图像视觉上相似的图像,判别器D判断一个图像是否是真实的还是合成的。
进一步的,本发明采用级联策略对生成式对抗神经网络进行改进,提出级联生成式对抗网络模型。通过实验验证,模型的草图补全效果和模型计算速度随级联次数改变。二次级联后模型的补全效果提升约30%,三次级联后模型的补全效果提升约50%;此后,模型补全效果随级联次数的增加缓慢改善。考虑到模型的时间开销,级联次数的增加会减慢模型的训练和测试速度。本发明最终采用三个级联阶段的模型,在尽量提高模型草图补全效果的同时,减少模型的时间开销。本发明提出模型能够达到草图补全交互上操作的实时性。
进一步的,模型输入为一张残缺草图x,本发明提出模型对x进行三个级联阶段的补全。在生成器G的第一个级联阶段,把原始输入残缺草图x作为输入,输出中间补全结果y1;在生成器G的第二个级联阶段,把原始输入残缺草图x和第一阶段的输出y1进行特征融合后作为输入,输出中间补全结果y2;在生成器G的第二个级联阶段,把原始输入残缺草图x、第一阶段的输出y1、第二阶段的输出y2进行特征融合后作为输入,输出最终补全结果y3。
进一步的,在模型的训练阶段,将生成器G最后一个级联阶段的输出y3同时送到判别器D和分类器C。分类器C对y3进行类别识别,输出一个分类损失Lossc;将补全图像y3输入判别器D,D网络判别此图像是否是真实图像或者生成图像,输出一个判别损失LossD。最后,将分类损失Lossc与判别损失LossD融合后对模型进行更新。
进一步的,在模型的测试阶段,将原始输入的残缺草图x依次经过生成器G的三个级联补全阶段,将最后一个补全阶段的输出y3作为本发明草图补全的输出结果G(x)。
一种残缺草图识别方法,包括以下步骤:
a)采用上面所述方法对残缺草图进行补全,得到补全的草图;
b)采用现有的草图识别算法对所述补全的草图进行识别。
一种基于草图的图像检索方法,包括以下步骤:
a)采用上面所述方法对残缺草图进行补全,得到补全的草图;
b)将所述补全的草图输入现有的基于草图的图像检索算法,获得图像检索结果。
一种草图场景编辑方法,包括以下步骤:
a)采用上面所述方法,对草图场景编辑过程中产生的各类残缺草图进行补全,得到补全的草图;
b)对所述补全的草图进行存储、组织、再编辑。
一种基于生成式对抗网络的草图补全装置,包括:
网络构建模块,负责建立级联生成式对抗神经网络模型,其包括生成器、判别器和分类器,所述生成器包括至少两个级联阶段,其中前一个级联阶段的输出特征与原始输入的残缺草图融合,作为后一个级联阶段的输入;
网络训练模块,负责对所述级联生成式对抗神经网络模型进行训练,训练过程中将所述分类器得到的草图识别结果作为草图类别的先验知识,辅助所述生成器和所述判别器进行草图补全;
草图补全模块,负责将残缺草图输入训练完成的所述级联生成式对抗神经网络模型,输出补全的草图。
一种草图补全应用平台,其包括上面所述的基于生成式对抗网络的草图补全装置,以及草图识别装置;所述草图识别装置采用草图识别算法对所述草图补全装置得到的补全的草图进行识别。
综上,和现有技术相比,本发明具有的优点和积极效果如下:
1.本发明创新性地提出“草图补全”这一研究问题,草图补全对扩大草图相关应用具有实际意义;本发明同时完成草图补全和草图识别两个任务,以草图补全为主任务,草图识别为辅助任务,二者相互促进,共同提升算法性能。
2.本发明提出基于生成式对抗网络的草图补全与识别的深度学习网络模型:通过生成式对抗网络能够产生原草图中不存在的草图线条来修复残缺区域;利用级联策略提高对草图(特别是对存在较大残缺区域的草图)补全的性能;引入草图识别辅助网络,提供草图的类别先验知识,扩展补全网络的类别通用性,使其能够对多个类别的草图同时进行补全。
3.将本发明提出的草图补全方法应用于残缺草图的识别任务、基于残缺草图的图像检索(Sketch-Based Image Retrieval,SBIR)任务及草图场景编辑(Sketch-SceneEditing)任务中,提出一种新型的草图应用模式并集成草图补全应用平台。通过将原始输入的残缺草图先补全,再进行后续处理,提高残缺草图的相关算法效率。
附图说明
图1.本发明的生成式对抗神经网络与识别网络的网络结构图示;
图2.融合草图补全的草图识别处理流程图;
图3.残缺模板、原始草图、残缺草图图示;
图4.残缺草图、补全草图、真实草图图示。
具体实施方式
为了使本技术领域的人员更好的理解本发明,以下结合附图进一步详细描述本发明所提供的SketchGAN:基于生成式对抗网络的草图补全与识别方法,但不构成对本发明的限制。
本发明的主要内容包括:
1、生成式对抗神经网络与识别网络的目标函数
图1是本发明的生成式对抗神经网络与识别网络网络结构示意图,包括生成器、判别器和分类器。本发明基于条件生成式对抗神经网络,针对草图相对于彩色图像信息稀疏的特征,采用级联策略,对输入残缺草图进行多次信息学习与图像补全,提高草图补全的效果;引入辅助草图识别子任务,在级联条件生成式对抗神经网络中添加草图识别辅助网络,在模型的训练过程中融合识别网络的损失,利用草图类别先验知识使得整个模型对多类别的草图补全效果得到改善,同时扩展了模型的类别通用性。
生成式对抗网络中的生成器G学习一个从随机噪声z到到输出图像y的映射:G:z→y。相应地,条件生成式对抗网络中的生成器G学习一个从随机噪声z到到输出图像y的映射:G:{x,z}→y。其中,pz,pdata分别是随机噪声z与真实数据x分布的先验知识,条件生成式对抗网络(cGAN)的目标函数为:
其中,E表示能量函数,生成器G的目标是尽可能最小化此目标函数,而判别器D的目标是尽可能最大化此目标函数,即
本发明中利用Pix2Pix(Isola P,Zhu J Y,Zhou T,et al.Image-to-ImageTranslation with Conditional Adversarial Networks[J].2016.)中改进的损失函数,即:1)判别器D不观测输入x;2)在目标函数中引入L1距离,减轻生成图像的模糊现象。
LL1(G)=Ex,y,z[||y-G(x,z)||1]
分类器C最大化图像的预测类别标签与真实类别标签的对数似然函数:
Lac(C)=E[logP(C=c|y)]
保持判别器D与分类器C不变,生成器G最大化同样的类别损失函数Lac(G)=Lac(C)。
最终的目标函数为:
λ1与λ2是超参数,本发明中实验过程设置λ1=100,λ2=0.5,模型能够取得稳定良好的性能。本发明只在模型的其中一些网络层引入噪声。
2、生成式对抗神经网络与识别网络的网络结构
(1)生成器
本发明提出的草图补全网络模型中生成器G采用“U-Net”(参考文献:RonnebergerO,Fischer P,Brox T.U-Net:Convolutional Networks for Biomedical ImageSegmentation[C]//International Conference on Medical Image Computing&Computer-assisted Intervention.2015.)的网络结构,在编码器和解码器堆栈中的镜像层加入跳跃链接(skip connection)。本发明提出的生成器G的网络结构特征如表1所示,具体包括:
a)在每个级联阶段中,首先对输入数据进行预处理,即将原始残缺草图输入x与之前所有级联阶段的输出结果(y1、y2)通过两层全连接网络层进行特征融合。
b)编码器中卷积层卷积核(kernel)大小为4*4,步长(stride)为2。
c)每个网络层都加入批标准化层(Batch Normalization)与线性整流函数层(Rectified Linear Unit,ReLU)。
d)最后输出时,采用双曲正切函数(tanh)作为激活函数,将输出映射到[0,1]范围内。
(2)判别器
本发明提出的草图补全网络模型中判别器D采用双判别器模型(参考文献:Ishikawa H,Ishikawa H,Ishikawa H.Globally and locally consistent imagecompletion[M].ACM,2017.),由一个局部判别器(Local Discriminator)和一个全局判别器(Global Discriminator)组成。本发明提出的判别器D的网络结构特征如表2所示,具体包括:
a)局部判别器与全局判别器的目的都是分辨图像是真实图像还是合成图像。局部判别器只关注草图补全修复区域内的信息,而全局局部判别器从整个图像的结构及轮廓来判别图像是否真实。
b)局部判别器与全局判别器最后的输出特征通过一个级联层(Concatenation)进行融合。
c)此后,将此融合特征经过全连接层,使用线性整流函数层(Rectified LinearUnit,ReLU)进行激活。
d)最后,使用双曲正切函数(tanh)作为激活函数,将输出特征映射到[0,1]范围内。即0代表图像是合成图像,1代表图像是真实图像。
表1.生成器的结构
名字 | 类型 | 卷积核 | 步长 | 输出 |
Preprocessing_1 | conv. | 3*3 | 1*1 | 3 |
Preprocessing_2 | conv. | 3*3 | 1*1 | 3 |
Encoder_1 | conv. | 4*4 | 2*2 | 64 |
Encoder_2 | conv. | 4*4 | 2*2 | 128 |
Encoder_3 | conv. | 4*4 | 2*2 | 256 |
Encoder_4 | conv. | 4*4 | 2*2 | 512 |
Encoder_5 | conv. | 4*4 | 2*2 | 512 |
Encoder_6 | conv. | 4*4 | 2*2 | 512 |
Encoder_7 | conv. | 4*4 | 2*2 | 512 |
Encoder_8 | conv. | 4*4 | 2*2 | 512 |
Decoder_8 | deconv. | 4*4 | 2*2 | 512 |
Decoder_7 | deconv. | 4*4 | 2*2 | 512 |
Decoder_6 | deconv. | 4*4 | 2*2 | 512 |
Decoder_5 | deconv. | 4*4 | 2*2 | 512 |
Decoder_4 | deconv. | 4*4 | 2*2 | 256 |
Decoder_3 | deconv. | 4*4 | 2*2 | 128 |
Decoder_2 | deconv. | 4*4 | 2*2 | 64 |
Decoder_1 | deconv. | 4*4 | 2*2 | 3 |
表2.判别器的结构
(3)分类器
本发明采用Sketch-a-Net(参考文献:Yu Q,Yang Y,Liu F,et al.Sketch-a-Net:A Deep Neural Network that Beats Humans[J].International Journal of ComputerVision,2017,122(3):411-425.)中提出的草图识别模型作为本发明提出的草图补全框架下草图识别辅助网络C(即分类器)的结构。草图识别辅助网络C的损失函数为交叉熵损失(Cross-Entropy loss)。在模型的训练阶段,采用端到端的方法(End-to-End)将草图识别辅助网络C与整个补全网络框架同时训练。分类器的模型结构如表3所示。
表3.分类器的结构
名字 | 类型 | 卷积核 | 步长 | 随机失活 | 输出 |
C_1 | conv. | 15*15 | 4*4 | - | 64 |
C_2 | conv. | 5*5 | 4*4 | - | 128 |
C_3 | conv. | 3*3 | 1*1 | - | 256 |
C_4 | conv. | 3*3 | 1*1 | - | 256 |
C_5 | conv. | 3*3 | 1*1 | - | 256 |
C_6 | conv. | 7*7 | 1*1 | 0.5 | 512 |
C_7 | conv. | 1*1 | 2*2 | 0.5 | 512 |
C_8 | conv. | 1*1 | 1*1 | - | - |
3、数据预处理与草图补全效果评价标准
(1)数据预处理
本发明数据预处理过程中,利用现有草图库的数据进行草图补全训练数据的制作。The Sketchy database(参考文献:Sangkloy P,Burnell N,Ham C,et al.The sketchydatabase:learning to retrieve badly drawn bunnies[J].Acm Transactions onGraphics,2016,35(4):119.)是大型草图数据集,其中的草图全部由众包非专业人士绘制,包含了涵盖125个种类、12500个物体的75471幅草图。The Sketchy database草图数据库被广泛应用于草图相关的研究领域。
本发明提出的数据增强方法(data augmentation)理论上可以对任何草图数据集进行数据扩充,但实践中模型训练过程所用数据来源于The Sketchy database草图数据集。数据制作步骤为:
①将草图数据集分为训练集和测试集,分别包含80%、20%的草图数据。
②对于每一张原始草图,生成一个随机大小、随机位置的矩形块(corrupt mask)对其进行擦除,矩形框内部的像素全部置为白色。
③检验此残缺草图与原始草图黑色像素的比率,即残缺率。若残缺率在10%~40%之间,则保持此残缺草图;反之重复步骤②。
④最终,本发明为每张原始草图制作一个对应的残缺草图。每个草图种类大约包括500张草图数据。如图3所示,是一些草图数据扩充样例。
本发明提出的草图补全框架理论上可以对多个种类的残缺草图进行补全。主要实验中与采用11个草图种类进行验证:car、cow、horse、cat、dog、sheep、airplane、motorcycle、bicycle、songbird、pickup_truck。此外,在验证本发明提出的草图补全网络性能部分,也进行了更多草图种类补全实验,包括1、4、8、11、50、125不同种类数量的草图。
(2)草图补全效果评价标准
本发明采用像素级比较方法(pixel-to-pixel)对草图补全进行效果评估,仅在草图残缺区域(corrupt mask)进行计算如下四个指标:修复的黑色像素的精确度(Precision)、修复的黑色像素的召回率(Recall)、修复的黑色像素的准确率(Accuracy)、修复的黑色像素的F值(F-Measure)。令:
TP:真实数据为黑色像素,补全后为黑色像素;
TN:真实数据为白色像素,补全后为白色像素;
FP:真实数据为白色像素,补全后为黑色像素;
FN:真实数据为黑色像素,补全后为白色像素。
精确度(Precision)、召回率(Recall)、准确率(Accuracy)、F值(F-Measure)的计算方式如下:
4、基于草图补全技术的草图应用
(1)非完整草图的识别问题
本发明将提出的草图补全技术作为解决非完整草图(或残缺草图)识别问题的中间步骤。
目前主流的草图识别算法对输入草图直接进行识别/分类。本发明设计一种新型草图识别模式:输入草图首先通过本发明提出的草图补全网络进行补全,然后将其补全后的输出,作为输入重新送入各主流草图识别算法。即由原来的直接识别,转换为先补全、再识别的模式,提高大多数主流草图识别算法对非完整草图的识别精度,突破草图识别算法的局限性。
(2)基于草图的图像检索
本发明将提出的草图补全技术作为解决基于草图的图像检索(Sketch-basedImage Retrieval,SBIR)问题的中间步骤。
目前主流的SBIR算法(参考文献:(1)Yu Q,Yang Y,Liu F,et al.Sketch-a-Net:ADeep Neural Network that Beats Humans[J].International Journal of ComputerVision,2017,122(3):411-425.;Sarvadevabhatla R K,Kundu J,Babu R V.Enabling MyRobot To Play Pictionary:Recurrent Neural Networks For Sketch Recognition[J].2016.(2)Sarvadevabhatla R K,Kundu J,Babu R V.Enabling My Robot To PlayPictionary:Recurrent Neural Networks For Sketch Recognition[J].2016.)对输入草图直接进行彩色图像检索。本发明设计一种新型SBIR模式:输入草图首先通过本发明提出的草图补全网络进行补全,然后将其补全后的输出,作为输入重新送入各主流SBIR算法。即由原来的直接检索图像,转换为先补全、再检索图像的模式,提高大多数主流基于草图的图像检索算法对非完整草图输入的检索精度,扩大草图的应用领域。
(3)草图场景编辑
处理草图场景编辑过程中,特别是在草图场景中进行物体分割时,由于多物体同时存在、场景编辑的中间结果、目标之间相互覆盖等原因,会产生大量的残缺草图,给草图场景编辑带来了巨大的困难。
目前主流的草图场景编辑方法都假设输入草图是完全完整的(参考文献:Chen T,Cheng M M,Tan P,et al.Sketch2Photo:internet image montage[J].Proc SiggraphAsia,2009,28(5):1-10.),很难应用于实际应用中。本发明设计一种新型草图场景编辑模式:将编辑过程中产生的各类残缺草图等中间结果通过本发明提出的草图补全网络进行补全,然后将其进行存储、组织、再编辑,使得目前的各主流草图场景编辑方法能应用于复杂场景,提高其编辑效率。
(4)草图补全应用平台系统
集成本发明提出的草图补全方法,形成草图补全应用平台,支持包括交互式草图补全、草图补全与识别、草图场景分割与补全、交互式草图补全辅助等应用功能,能够在PC、手机、平板电脑、电子白板等多种设备和终端上进行应用。
下面提供本发明方法的一个具体应用实例,包括以下步骤:
1、选定要处理的残缺草图资源,本示例中部分数据来源于自主提出的数据增强方法所构建的残缺草图数据库,另一方面数据来自于用户输入。从现有残缺草图素材中选取了一批残缺草图作为对象,如图4中第一、四列所示;
2、针对前面步骤1所述的残缺草图数据进行补全,输入残缺草图数据至本发明所提出的网络模型,如图1;
3、模型输出补全后的草图,如图4中第二、五列所示;
4、采用前面步骤3中补全后的草图输入到现有的草图分类器中,对草图进行识别,如图2,提高现有草图相关算法在残缺草图上的应用效率。
以上对本发明所述的SketchGAN:基于生成式对抗网络的草图补全与识别方法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。
Claims (9)
1.一种基于生成式对抗网络的草图补全方法,其步骤包括:
1)建立级联生成式对抗神经网络模型,其包括生成器、判别器和分类器,所述生成器包括至少两个级联阶段,其中前面所有级联阶段的输出特征与原始输入的残缺草图融合,作为后一个级联阶段的输入;
2)对所述级联生成式对抗神经网络模型进行训练,训练过程中将所述分类器得到的草图识别结果作为草图类别的先验知识,辅助所述生成器和所述判别器进行草图补全;对所述级联生成式对抗神经网络模型进行训练的过程包括:
2.1)将生成器最后一个级联阶段的输出y3输入分类器,对y3进行类别识别,输出一个分类损失Lossc;
2.2)将生成器最后一个级联阶段的输出y3输入判别器,判别此图像是否是真实图像或者生成图像,输出一个判别损失LossD;
2.3)将分类损失Lossc与判别损失LossD融合后对所述级联生成式对抗神经网络模型进行更新;
3)将残缺草图输入训练完成的所述级联生成式对抗神经网络模型,输出补全的草图。
2.如权利要求1所述的方法,其特征在于,所述生成器包含三个级联阶段,在提高模型草图补全效果的同时减少模型的时间开销;在生成器的第一个级联阶段,把原始输入的残缺草图x作为输入,输出中间补全结果y1;在生成器的第二个级联阶段,把x和第一阶段的输出y1进行特征融合后作为输入,输出中间补全结果y2;在生成器的第三个级联阶段,把x、第一阶段的输出y1、第二阶段的输出y2进行特征融合后作为输入,输出最终补全结果y3。
3.如权利要求1所述的方法,其特征在于,所述生成器采用U-Net网络结构,在编码器和解码器堆栈中的镜像层加入跳跃链接;所述判别器采用双判别器模型,由一个局部判别器和一个全局判别器组成;所述分类器采用Sketch-a-Net中提出的草图识别模型,采用的损失函数为交叉熵损失。
4.如权利要求1所述的方法,其特征在于,对所述级联生成式对抗神经网络模型进行训练时,采用数据增强方法对草图数据集进行数据扩充,包括以下步骤:
①将草图数据集分为训练集和测试集;
②对于每一张原始草图,生成一个随机大小、随机位置的矩形块对其进行擦除,矩形框内部的像素全部置为白色;
③检验此残缺草图与原始草图黑色像素的比率,即残缺率,若残缺率在10%~40%之间,则保持此残缺草图;反之重复步骤②,最终为每张原始草图制作一个对应的残缺草图。
5.一种残缺草图识别方法,其特征在于,包括以下步骤:
a)采用权利要求1~4中任一权利要求所述方法对残缺草图进行补全,得到补全的草图;
b)采用草图识别算法对所述补全的草图进行识别。
6.一种基于草图的图像检索方法,其特征在于,包括以下步骤:
a)采用权利要求1~4中任一权利要求所述方法对残缺草图进行补全,得到补全的草图;
b)将所述补全的草图输入基于草图的图像检索算法,获得图像检索结果。
7.一种草图场景编辑方法,其特征在于,包括以下步骤:
a)采用权利要求1~4中任一权利要求所述方法,对草图场景编辑过程中产生的各类残缺草图进行补全,得到补全的草图;
b)对所述补全的草图进行存储、组织、再编辑。
8.一种采用权利要求1~4中任一权利要求所述方法的基于生成式对抗网络的草图补全装置,其特征在于,包括:
网络构建模块,负责建立级联生成式对抗神经网络模型,其包括生成器、判别器和分类器,所述生成器包括至少两个级联阶段,其中前面所有级联阶段的输出特征与原始输入的残缺草图融合,作为后一个级联阶段的输入;
网络训练模块,负责对所述级联生成式对抗神经网络模型进行训练,训练过程中将所述分类器得到的草图识别结果作为草图类别的先验知识,辅助所述生成器和所述判别器进行草图补全;
草图补全模块,负责将残缺草图输入训练完成的所述级联生成式对抗神经网络模型,输出补全的草图。
9.一种草图补全应用平台,其特征在于,包括权利要求 8所述的基于生成式对抗网络的草图补全装置,以及草图识别装置;所述草图识别装置采用草图识别算法对所述草图补全装置得到的补全的草图进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294373.7A CN110147797B (zh) | 2019-04-12 | 2019-04-12 | 一种基于生成式对抗网络的草图补全与识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294373.7A CN110147797B (zh) | 2019-04-12 | 2019-04-12 | 一种基于生成式对抗网络的草图补全与识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147797A CN110147797A (zh) | 2019-08-20 |
CN110147797B true CN110147797B (zh) | 2021-06-01 |
Family
ID=67588572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910294373.7A Active CN110147797B (zh) | 2019-04-12 | 2019-04-12 | 一种基于生成式对抗网络的草图补全与识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147797B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599435B (zh) * | 2019-09-04 | 2021-01-12 | 精英数智科技股份有限公司 | 一种图像合成的方法、装置、设备和存储介质 |
CN110942624B (zh) * | 2019-11-06 | 2020-12-01 | 浙江工业大学 | 一种基于sae-gan-sad的路网交通数据修复方法 |
CN110852980A (zh) * | 2019-11-13 | 2020-02-28 | 北京京东方专用显示科技有限公司 | 交互式图像填充方法及系统、服务器、设备及介质 |
CN110856048B (zh) * | 2019-11-21 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 视频修复方法、装置、设备及存储介质 |
CN111489405B (zh) * | 2020-03-21 | 2022-09-16 | 复旦大学 | 基于条件增强生成对抗网络的人脸草图合成系统 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
CN112836573A (zh) * | 2020-12-24 | 2021-05-25 | 浙江大学 | 一种基于对抗生成网络的车道线图像增强与补全方法 |
CN114840107B (zh) * | 2021-04-28 | 2023-08-01 | 中国科学院软件研究所 | 一种草图数据重用与场景草图辅助构建方法及系统 |
CN113706646A (zh) * | 2021-06-30 | 2021-11-26 | 酷栈(宁波)创意科技有限公司 | 用于生成山水画的数据处理方法 |
CN113435583B (zh) * | 2021-07-05 | 2024-02-09 | 平安科技(深圳)有限公司 | 基于联邦学习的对抗生成网络模型训练方法及其相关设备 |
CN117197820A (zh) * | 2023-09-01 | 2023-12-08 | 中央民族大学 | 用于残缺东巴文字的识别方法、系统、电子设备及介质 |
CN117454181B (zh) * | 2023-11-16 | 2024-06-14 | 国网山东省电力公司枣庄供电公司 | 基于级联生成对抗网络的局部放电数据生成方法 |
CN117993480A (zh) * | 2024-04-02 | 2024-05-07 | 湖南大学 | 面向设计师风格融合和隐私保护的aigc联邦学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130059035A (ko) * | 2011-11-28 | 2013-06-05 | 연세대학교 산학협력단 | 스케치를 이용한 시나리오 콘티의 자동 완성 장치 및 방법, 그리고 이를 이용한 애니메이션 제작 시스템 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
CN109325529A (zh) * | 2018-09-06 | 2019-02-12 | 安徽大学 | 一种草图识别方法以及该方法在商品检索中的应用 |
CN109472838A (zh) * | 2018-10-25 | 2019-03-15 | 广东智媒云图科技股份有限公司 | 一种素描生成方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10916001B2 (en) * | 2016-11-28 | 2021-02-09 | Adobe Inc. | Facilitating sketch to painting transformations |
CN107527318B (zh) * | 2017-07-17 | 2021-06-04 | 复旦大学 | 一种基于生成对抗式网络模型的发型更换方法 |
CN108198179A (zh) * | 2018-01-03 | 2018-06-22 | 华南理工大学 | 一种生成对抗网络改进的ct医学图像肺结节检测方法 |
CN108510444B (zh) * | 2018-04-02 | 2022-04-22 | 景德镇陶瓷大学 | 一种高分辨率陶瓷花纸图案的生成方法及装置 |
CN109584325B (zh) * | 2018-10-30 | 2020-01-07 | 河北科技大学 | 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法 |
CN109508669B (zh) * | 2018-11-09 | 2021-07-23 | 厦门大学 | 一种基于生成式对抗网络的人脸表情识别方法 |
-
2019
- 2019-04-12 CN CN201910294373.7A patent/CN110147797B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130059035A (ko) * | 2011-11-28 | 2013-06-05 | 연세대학교 산학협력단 | 스케치를 이용한 시나리오 콘티의 자동 완성 장치 및 방법, 그리고 이를 이용한 애니메이션 제작 시스템 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
CN109325529A (zh) * | 2018-09-06 | 2019-02-12 | 安徽大学 | 一种草图识别方法以及该方法在商品检索中的应用 |
CN109472838A (zh) * | 2018-10-25 | 2019-03-15 | 广东智媒云图科技股份有限公司 | 一种素描生成方法及装置 |
Non-Patent Citations (5)
Title |
---|
Connected contours: A new contour completion model that respects the closure effect;Yansheng Ming等;《2012 IEEE Conference on Computer Vision and Pattern Recognition》;20120726;第829-836页 * |
Image Generation from Sketch Constraint Using Contextual GAN;Yongyi Lu等;《Computer Vision–ECCV 2018》;20181006;第213-228页 * |
Sketch-a-Net: A Deep Neural Network that Beats Humans;Qian Yu等;《International Journal of Computer Vision volume》;20160726;第411-425页 * |
SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis;Wengling Chen等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;第9416-9425页 * |
生成式对抗网络在图像补全中的应用;时澄 等;《计算机科学与探索》;20190306;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110147797A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147797B (zh) | 一种基于生成式对抗网络的草图补全与识别方法和装置 | |
CN108596329B (zh) | 基于端到端深度集成学习网络的三维模型分类方法 | |
Dvornik et al. | Modeling visual context is key to augmenting object detection datasets | |
Yun et al. | Focal loss in 3d object detection | |
CN111860171B (zh) | 一种大规模遥感图像中不规则形状目标的检测方法及系统 | |
CN108509978A (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN109472298A (zh) | 用于小尺度目标检测的深度双向特征金字塔增强网络 | |
Qian et al. | Nuscenes-qa: A multi-modal visual question answering benchmark for autonomous driving scenario | |
CN111046821B (zh) | 一种视频行为识别方法、系统及电子设备 | |
CN114170174B (zh) | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
He et al. | Sketch recognition with deep visual-sequential fusion model | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN114638994B (zh) | 基于注意力的多交互网络的多模态图像分类系统及方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN113239961A (zh) | 基于生成对抗网络的文本生成序列图像的方法 | |
Bengamra et al. | A comprehensive survey on object detection in Visual Art: taxonomy and challenge | |
Yang | Visual transformer for object detection | |
Liu et al. | Remote sensing image vehicle detection based on pre-training and random-initialized fusion network | |
Qin et al. | The application of attention mechanism in semantic image segmentation | |
CN115984400A (zh) | 基于手绘草图的图像自动生成方法及系统 | |
Gong et al. | Multi-feature fusion network for facial expression recognition in the wild | |
Mo et al. | Cascaded hierarchical context-aware vehicle re-identification | |
Zhang et al. | Panoptic-level image-to-image translation for object recognition and visual odometry enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |