CN110610124B - 一种基于生成对抗网络的图像生成方法 - Google Patents

一种基于生成对抗网络的图像生成方法 Download PDF

Info

Publication number
CN110610124B
CN110610124B CN201910697197.1A CN201910697197A CN110610124B CN 110610124 B CN110610124 B CN 110610124B CN 201910697197 A CN201910697197 A CN 201910697197A CN 110610124 B CN110610124 B CN 110610124B
Authority
CN
China
Prior art keywords
data
paired
function
modules
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910697197.1A
Other languages
English (en)
Other versions
CN110610124A (zh
Inventor
殷绪成
孙明
杨春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Eeasy Electronic Tech Co ltd
Original Assignee
Zhuhai Eeasy Electronic Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Eeasy Electronic Tech Co ltd filed Critical Zhuhai Eeasy Electronic Tech Co ltd
Priority to CN201910697197.1A priority Critical patent/CN110610124B/zh
Publication of CN110610124A publication Critical patent/CN110610124A/zh
Application granted granted Critical
Publication of CN110610124B publication Critical patent/CN110610124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于生成对抗网络的图像生成方法,包括以下步骤:1、把合成数据既输入到成对数据模块的生成器以训练出成对数据模块的生成数据,又输入到不成对数据模块的生成器以训练出不成对数据模块的生成数据;2、形成混合数据;3、把所述的混合数据输入到成对数据模块的判别器,并把所述成对数据模块的生成数据也输入到成对数据模块中的判别器;4、所述成对数据模块的判别器判断结果反馈到成对数据模块的生成器。生成图像的Inception score接近于真实图像,可以得到更低的FID score,提高了数据的保真度和多样性。

Description

一种基于生成对抗网络的图像生成方法
技术领域
本发明涉及计算机视觉的图像生成技术领域,具体涉及一种基于生成对抗网络的图像生成方法。
背景技术
车牌号码作为车辆的唯一标识,其特殊性及重要性决定了车牌识别系统成为智能交通管理系统中不可或缺的重要组成部分。车牌识别系统为城市交通管理提供了方便、快捷、适用的手段,成为近几年研究的热点。目前,非常火热的车牌识别算法是基于深度神经网络的,那么想要获得比较高的精度和鲁棒性,就需要大量的车牌标注数据。但是,可能涉及到个人隐私信息以及有多种类型的车牌,需要花费大量的时间、资金和人力去进行收集和标注。而且,车牌识别是一项具有区域特征的任务,在不同的国家和地区,车牌号码的定义规则是不一样的。在中国,每个省份、直辖市、自治区之间的车牌首字符都是不一样的,需要对每个地区车牌进行收集。重要的是,在真实场景中,会有夜晚、倾斜角度、分辨率低、运动模糊、曝光以及遮挡等多样车牌,进一步增加了车牌数据收集的难度。为提高模型的鲁棒性和高性能,在每个地区收集数量足够、各式各样的车牌数据是很困难的。
在先前的工作中,为了减少成本,使用计算机图形脚本,按照字体、颜色和构图规则合成车牌图像。值得注意的是,这些合成图像并不如真实的照片,由于仅限于手工规则很难模拟真实车牌图像。这种做法训练出的车牌识别模型在真实数据上的效果并不好,模型很容易学习错误的知识;还有的做法是,对真实数据进行数据增强,比如翻转、镜像、裁剪不同的大小、调整图像对比度和饱和度等做法,增加真实数据的样本量。使用合成数据预训练识别模型,然后使用增广的真实数据微调训练,可能会有好一点的效果。但是,增广的车牌数据也只是让本发明模型更好的学习这些数据的特征,模型的泛化能力一般,针对一些地区没见过的车牌,效果一般。
生成对抗网络(GANs)(Goodfellow I.NIPS 2016Tutorial:GenerativeAdversarial Networks[J].2016.)在结构上受到零和博弈的启发,系统有生成器与判别器构成。生成器捕捉真实数据的潜在分布,生成以假乱真的数据去迷惑判别器,判别器去判别输入数据是真实数据还是假数据。深度卷积神经网络(DCGANs)(Radford A,Metz L,Chintala S.Unsupervised Representation Learning with Deep ConvolutionalGenerative Adversarial Networks[J].Computer Science,2015.)为训练GANs提供了一个稳定的结构。条件生成对抗网络(CGAN)(Mirza M,Osindero S.Conditional GenerativeAdversarial Nets[J].Computer Science,2014.)通过在生成器和判别器上进行条件约束,生成具有特定类标签的图像。不仅可以通过类标签生成图像,生成对抗网络还可以通过文本描述(Reed S,Akata Z,Yan X,et al.Generative Adversarial Text to ImageSynthesis[J].2016.)或者图像(Isola P,Zhu J,Zhou T,et al.Image-to-ImageTranslation with Conditional Adversarial Networks[J].{IEEE}Computer Society,2017)为条件,这种约束可以实现文本到图像的合成,或者图像到图像的风格转换。Isola等人提出pix2pix,去对成对的数据进行风格转换。如图2c和图2d所示,虽然可以通过学习合成数据的实际分布来生成一些图像,但在没有训练数据的一些省份上,图像中汉字字符会变得模糊。为了解决非成对数据的训练问题,Zhu等人提出了CycleGAN(Zhu J Y,Park T,Isola P,et al.Unpaired Image-to-Image Translation using Cycle-ConsistentAdversarial Networks[J].2017.),CycleGAN引入了循环一致性损失对非成对数据进行训练。如图2a和图2b所示,CycleGAN只能生成一种车牌图片风格,生成的图片质量比用pix2pix生成的图片质量要低。
GANs存在训练不稳定、梯度消失、模型坍塌的问题。最小二乘生成对抗网络(MaoX,Li Q,Xie H,et al.Least Squares Generative Adversarial Networks[J].2016.)针对的是标准GAN生成的图片质量不高以及训练不稳定这两个缺陷进行改进。改进方法就是将GAN的目标函数由交叉熵损失换成最小二乘损失。为了提高训练的稳定性和防止模式崩溃,采用Wasserstein距离的生成对抗网络(WGAN)(Arjovsky M,Chintala S,Bottou,Léon.Wasserstein GAN[J].2017.)的工作设计了一种训练算法,提供了一些技巧。加入梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)(Gulrajani I,Ahmed F,Arjovsky M,etal.Improved Training of Wasserstein GANs[J].2017.)是WGAN的改进版本,主要改善了连续性限制条件。为使判别器具有利普希茨连续条件以及训练稳定性,从“层参数”的角度来看,对判别器使用谱归一化(Miyato T,Kataoka T,Koyama M,et al.SpectralNormalization for Generative Adversarial Networks[J].2018.)。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于生成对抗网络的图像生成方法,该方法将基于不成对数据的模块和基于成对数据的模块结合起来,生成高保真、多样和类平衡的数据。针对车牌这种典型的非平衡数据,应用本发明的算法实现了一个端到端的车牌生成系统,生成多省份、多场景下的车牌数据。
为实现本发明的目的,采取以下的技术方案:一种基于生成对抗网络的图像生成方法,将成对数据模块和不成对数据模块结合起来生成图像,主要可以包括以下步骤:
步骤1、把成对数据模块中的合成数据既输入到成对数据模块的生成器以训练出成对数据模块的生成数据,又输入到不成对数据模块的生成器以训练出不成对数据模块的生成数据;
步骤2、把不成对数据模块的生成数据和非平衡的真实数据进行混合,形成混合数据;
步骤3、把所述的混合数据输入到成对数据模块的判别器,并把所述成对数据模块的生成数据也输入到成对数据模块中的判别器;
步骤4、所述成对数据模块的判别器判断出输入的混合数据和成对数据模块的生成数据是真实数据还是虚假数据,并把是真实数据还是虚假数据的判断结果反馈到成对数据模块的生成器。
所述的将成对数据模块和不成对数据模块结合起来,是把生成对抗网络损失和特征匹配损失结合起来,具体通过以下公式进行结合:
Figure GDA0003272768250000031
其中,λ表示控制
Figure GDA0003272768250000041
Figure GDA0003272768250000042
的重要性,X是与真实数据配对的合成数据,
Figure GDA0003272768250000043
是与真实数据未配对的合成数据,Y是真实数据,Gp是成对数据模块的生成器,Dp是成对数据模块的判别器,Gu是不成对数据模块的生成器,
Figure GDA0003272768250000044
是生成对抗网络的损失函数,这里我们使用的是最小二乘损失,
Figure GDA0003272768250000045
是特征匹配损失。
在步骤1中,所述训练出不成对数据模块的生成数据,是通过在CycleGAN的基础上附加梯度惩罚方法形成WCycleGAN-GP来实现,具体通过以下公式实现:
Figure GDA0003272768250000046
其中,
Figure GDA0003272768250000047
为循环一致性损失,x是与真实数据配对的合成数据,y是真实数据,
Figure GDA0003272768250000048
Figure GDA0003272768250000049
分别是合成数据与真实数据的数据分布,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,
Figure GDA00032727682500000410
表示x符合合成数据分布的函数,
Figure GDA00032727682500000411
表示y符合真实数据分布的函数,λ1表示控制
Figure GDA00032727682500000412
的相对重要性,λ2表示控制
Figure GDA00032727682500000413
的相对重要性,||||1表示求里面数值的L1范数。
所述不成对数据模块还可以具有判别器,所述不成对数据模块的判别器的损失函数为:
Figure GDA00032727682500000414
Figure GDA0003272768250000051
其中,x是与真实数据配对的合成数据,y是真实数据,
Figure GDA0003272768250000052
表示为最小化Dx函数,
Figure GDA0003272768250000053
表示为最小化Dy函数,Dx为判别y是否为真实数据,Dy为判别x是否为真实数据,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,λ表示控制
Figure GDA0003272768250000054
Figure GDA0003272768250000055
的重要,
Figure GDA0003272768250000056
表示对t求梯度,||||2表示对里面的数值求L2范数,
Figure GDA0003272768250000057
表示x符合合成数据分布的函数,
Figure GDA0003272768250000058
表示y符合真实数据分布的函数,
Figure GDA0003272768250000059
表示符合
Figure GDA00032727682500000510
分布的函数,
Figure GDA00032727682500000511
表示符合
Figure GDA00032727682500000512
分布的函数,t1的计算过程:首先,采样合成数据
Figure GDA00032727682500000513
和真实数据
Figure GDA00032727682500000514
然后∈~U[0,1],得到一个随机数,t1=∈y+(1-∈)x,计算出t1,t1的分布满足于
Figure GDA00032727682500000515
t2的计算过程:首先,采样数据
Figure GDA00032727682500000516
和数据
Figure GDA00032727682500000517
然后,∈~U[0,1],得到一个随机数,通过t2=∈x+(1-∈)y,计算出t2,并且,t2的分布满足于
Figure GDA00032727682500000518
所述不成对数据模块的生成器的损失函数为:
Figure GDA00032727682500000519
其中,Gu是不成对数据模块的生成器,x是与真实数据配对的合成数据,y是真实数据,
Figure GDA00032727682500000520
表示最小化Gx(x)函数,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,Dx为判别y是否为真实数据,Dy为判别x是否为真实数据,
Figure GDA0003272768250000061
表示x符合合成数据分布的函数,
Figure GDA0003272768250000062
表示y符合真实数据分布的函数,
Figure GDA0003272768250000063
为循环一致性损失。在步骤3中,从层参数的角度对pix2pix的谱归一化进行正则化,使所述成对数据模块的判别器具有利普希茨连续条件,形成SN-pix2pix,所述SN-pix2pix的目标函数为:
Figure GDA0003272768250000064
其中,λ表示控制
Figure GDA0003272768250000065
Figure GDA0003272768250000066
的重要性,
Figure GDA0003272768250000067
Figure GDA0003272768250000068
分别表示最小二乘损失和特征匹配损失,Dsn是带着谱归一化的判别器,G为生成器,
Figure GDA0003272768250000069
表示为最小化G函数,
Figure GDA00032727682500000610
表示为最大化Dsn函数。
本发明的技术方案可以还包括以下步骤:输入的所述成对数据模块中的合成数据为灰度车牌图片,采用基于神经网络的时序分类作为损失函数,通过全连接层把输入的灰度车牌图片识别成车牌。
所述通过全连接层把输入的灰度车牌图片识别成车牌之后,再把重新组织的标签作为输出。所述重新组织的标签可以为76个标签,所述的76个标签具有39个汉字、26个字母、10个数字和1个空白字符。
本发明将Wasserstein距离和梯度惩罚应用于CycleGAN并形成了WCycleGAN-GP。本发明将谱归一化技术应用于pix2pix,并形成了SN-pix2pix。本发明的结合了WCycleGAN-GP和SN-pix2pix,生成了具有更好细节和更逼真纹理的车牌图像。
本发明的优点和有益效果:
1、本发明针对车牌这种典型的非平衡数据,应用本发明的算法实现了一个端到端的车牌生成系统,生成多省份、多场景下的车牌数据。测试表明,生成图像的Inceptionscore接近于真实图像,可以得到更低的FID score,该算法可依靠少量真实场景数据生成大量的、覆盖面广、多种多样、以假乱真的车牌数据。
2、本发明实现了一个端到端的框架,将基于不成对数据的模块和基于成对数据的模块结合起来,生成高保真、多样和平衡的数据;采用不成对数据的模块对多个模型进行预训练,解决标签不匹配问题,采用成对数据的模块对配对数据进行训练,以保证图像的高保真度和多样性;在前向传播阶段,可以运用P-module生成大量的车牌图像,这样,训练集就转化为一个平衡的数据集,本发明手动选择U-module,用P-module对数据进行训练。
3、本发明将WGAN-GP应用于CycleGAN并提出了WCycleGAN-GP,本发明将谱归一化技术应用于pix2pix,并提出了SN-pix2pix;本发明结合了WCycleGAN-GP和SN-pix2pix,以生成具有更好细节和更逼真纹理的车牌图像;针对车牌这种典型的非平衡数据,本发明实现了端到端的车牌图像生成方法,生成多省份、多场景下的车牌数据,测试结果表明,生成图像的Inception score接近于真实图像,可以得到更低的FID score,本发明的方法可依靠少量真实场景数据生成大量的、覆盖面广、多种多样、以假乱真的车牌数据。
4、本发明设计了一个不带LSTM结构的车牌识别网络来验证本发明的有效性,在SYSU-ITS数据集上展现了出优越的性能。使用LSTM会增加计算成本,使网络模型复杂化;使用全连接层(FC)可以有效得识别车牌,最后,重新组织为76个标签,包括39个汉字、26个字母、10个数字和空白字符;本发明设计的识别网络具有更少的参数、更快的速度以及更高的准确度,在SYSU-ITS数据集上展现出了优越的性能。
附图说明
图1为本发明的图像生成过程的流程图;使用opencv脚本生成Synthetic data,Fake data由生成器生成,Mixed data数据包含U-module生成的数据和真实数据,带有谱归一化的判别器接受成对数据的输入。
图2a为脚本生成的二值化的车牌图片例子,此图片送入GANs进行测试。
图2b为不成对数据的模块生成的车牌示例,使用图2a中的图像作为输入。
图2c为成对数据的模块生成的车牌示例,使用图2a中的图像作为输入。
图2d为真实车牌图片。
图3a为本发明收集的真实车牌图像数量的分布图。
图3b为在SYSU-ITS数据集中获取的各个省份车牌图像数量的分布图。
图4a为由本发明的方法生成的单行车牌图片。
图4b为由本发明的方法生成的特殊车牌图片。
图5为为车牌识别网络结构的具体参数。
具体实施方式
实施例
下面结合具体实施方式对本发明作进一步的说明。
如图1所示,一种基于生成对抗网络的图像生成方法,将基于成对数据的模块(即:P-module)和不成对数据的模块(即:U-module)结合起来生成图像,U-module用于对多个模型进行预训练,以解决标签不匹配问题,P-module用于对配对数据进行训练,以保证图像的高保真度和多样性,在前向传播阶段,可利用P-module中的主干网络生成大量的车牌图像。如图4a和图4b所示,生成的车牌图像种类繁多,可以覆盖每个区域,保证图像的高保真度,将成对数据的模块(即:P-module)和不成对数据的模块(即:U-module)结合起来的目标函数为:把GAN(生成对抗网络)损失和特征匹配损失结合起来,如以下公式所示:
Figure GDA0003272768250000081
其中,λ表示控制
Figure GDA0003272768250000082
Figure GDA0003272768250000083
的重要性,X是与真实数据配对的合成数据,
Figure GDA0003272768250000084
是与真实数据未配对的合成数据,Gp和Dp分别是P-module的生成器和判别器,Gu是U-module的生成器。
本实施例结合了P-module和U-module,Dp的输入分为三部分:合成数据、混合数据以及生成数据。当Gp的输入是X时,Dp的输入要么是成对的X和Y,要么是成对的X和Gp;当Gp的输入是
Figure GDA0003272768250000091
时,Dp的输入要么是成对的
Figure GDA0003272768250000092
和Gu,要么是成对的
Figure GDA0003272768250000093
和Gp,因此,本实施例的方法解决了这样一个问题:没有成对数据,就无法对
Figure GDA0003272768250000094
进行训练。
(1)U-module;
本实施例使用WCycleGAN-GP,它通过循环一致性损失解决了不成对数据训练的问题:
Figure GDA0003272768250000095
Figure GDA0003272768250000096
Figure GDA0003272768250000097
分别是合成数据与真实数据的数据分布,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,λ1表示控制
Figure GDA0003272768250000098
的相对重要性,λ2表示控制
Figure GDA0003272768250000099
的相对重要性。
传统的CycleGAN使用的是最小二乘损失,它训练生成器去优化
Figure GDA00032727682500000910
训练判别器去优化
Figure GDA00032727682500000911
Figure GDA00032727682500000912
本实施例中的U-module具有判别器,将WGAN-GP应用于CycleGAN,以提高训练的稳定性,WGAN-GP采用梯度惩罚方法解决了梯度消失和梯度爆炸的问题,比传统的CycleGAN能够生成出更加高质量的图片,该WCycleGAN-GP中判别器的损失函数为:
Figure GDA0003272768250000101
Figure GDA0003272768250000102
t1的计算过程:首先,采样合成数据
Figure GDA0003272768250000103
和真实数据
Figure GDA0003272768250000104
然后∈~U[0,1],得到一个随机数,最后,t1=∈y+(1-∈)x,计算出t1,t1的分布满足于
Figure GDA0003272768250000105
t2
Figure GDA0003272768250000106
跟上述计算过程是相似的。
CycleGAN的目标函数由对抗损失和循环一致性损失组成,在优化生成器时,本实施例使用WGAN-GP损失代替最小二乘损失,WCycleGAN-GP中生成器的损失函数为:
Figure GDA0003272768250000107
其中,Gu是不成对数据模块的生成器,x是与真实数据配对的合成数据,y是真实数据,
Figure GDA0003272768250000108
表示最小化Gx(x)函数,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,Dx表示判别y是否为真实数据,Dy表示判别x是否为真实数据,
Figure GDA0003272768250000109
表示x符合合成数据分布的函数,
Figure GDA00032727682500001010
表示y符合真实数据分布的函数,
Figure GDA00032727682500001011
为循环一致性损失。
(2)P-module;
本实施例在原始的pix2pix上进行了修改。本实施例从“层参数”的角度对谱归一化进行了正则化,使判别器D具有利普希茨连续条件。本实施例分别将最小二乘损失和特征匹配损失作为对抗损失和惩罚项。
Figure GDA0003272768250000111
的计算过程为:生成样本和真实样本送入判别器去进行特征提取,然后在特征图上进行点乘运算。SN-pix2pix的目标函数为:
Figure GDA0003272768250000112
其中,λ表示控制
Figure GDA0003272768250000113
Figure GDA0003272768250000114
的重要性,
Figure GDA0003272768250000115
Figure GDA0003272768250000116
分别是最小二乘损失和特征匹配损失,Dsn是带着谱归一化的判别器。
本实施例实现了一个端到端的框架。对成对数据可直接用于P-module进行训练,保证图像清晰、真实。未配对数据可以使用U-module生成,以确保在多个省份生成数据。这样,训练集就转化为一个平衡的数据集。目前,本实施例手动选择U-module,用P-module对框架进行训练。
(3)车牌识别;
本实施例的车牌识别网络结构的具体参数如图5所示,其中输出大小代表着通道数×宽度×高度,请注意,图中显示的每个卷积层对应于序列为bn-relu-conv。网络的输入为100×32的灰度车牌图片。
本实施例设计了一个不带LSTM结构的小型车牌识别网络,使用LSTM会增加计算成本,使网络模型复杂化。使用全连接层(FC)可以有效得识别车牌,最后,重新组织为76个标签,包括39个汉字、26个字母、10个数字和空白字符。本实施例使用CTC(ConnectionistTemporal Classification,即:基于神经网络的时序分类)(Graves A,Santiago Fernández,Gomez F.Connectionist temporal classification:Labelling unsegmentedsequence data with recurrent neural networks[C]//International Conference onMachine Learning.ACM,2006.)作为损失函数。
本实施例将基于不成对数据的模块和基于成对数据的模块结合起来,生成高保真、多样和类平衡的数据。本实施例使用基于配对数据的模块来提高数据的保真度和多样性,使用基于未配对数据的模块来解决不平衡问题。针对车牌这种典型的非平衡数据,应用本实施例的算法实现了一个端到端的车牌生成系统,生成多省份、多场景下的车牌数据。实验表明,生成图像的Inception score接近于真实图像,可以得到更低的FID score。而且,本实施例还设计了一个不带LSTM结构的车牌识别网络来验证本实施例中方法的有效性,本实施例中的方法在SYSU-ITS数据集上展现出了优越的性能。
(1)本实施例使用的数据集;
本实施例在SYSU-ITS开源数据集上评估了本实施例方法的性能,本实施例使用的数据集共有3338个车牌图像,全部来自于高清的卡口图像,每个图像仅包含一个车牌。由于该数据集没有提供车牌矩形框,因此本实施例不考虑车牌图像是否能被检测网络正确地召回,将车牌图像截出来进行识别。本实施例使用SYSU-ITS数据集中的单行车牌图像作为测试集,其中包含31个省份的车牌数据,该数据分布如图3b所示。
本实施例收集了六个省份的车牌数据集,总计超过8200个,以这些数据为基础来训练本实施例的框架和车牌识别网络,但此数据集不平衡,如上海和广东占很大比例,数据分布具体如图3a所示,这样的数据集更符合真实车牌数据的采集。
(2)测试描述;
在本实施例的测试过程中,图像生成框架是通过pytorch实现的,测试是在带有12GB内存的NVIDIA TITAN Xp GPU上实现的,采用U-module对多个模型进行预训练,解决标签不匹配问题,P-module用于对配对数据进行训练,以保证图像的高保真度和多样性。在前向传播阶段,可利用P-module中的主干网络可以生成大量的车牌图像,其中,训练U-module和P-module的真实数据如图3a所示。
在使用本实施例中的方法生成各省车牌图片后,再使用Inception score和FIDscore对本实施例的图像进行评估,Inception score越高,FID score越低,代表生成图片的质量更高,多样性更丰富。
此外,本实施例还设计了一个不带LSTM结构的车牌识别网络来验证本实施例框架的有效性,在SYSU-ITS数据集上展现了出优越的性能。
(3)测试结果;
根据Inception score和FID score,比较了本实施例的方法和现有技术中的性能,不同的GANs模型生成60000张车牌图像进行评估,真实图像数据集包含本实施例收集的数据以及SYSU-ITS中的图片,测试表明,生成图像的Inception score为2.11,接近于真实图像,并且,在本实施例的方法中,FID score为33.59,比现有技术中的更低。
本实施例训练车牌识别网络使用合成车牌数据和真实数据,测试集使用的是SYSU-ITS数据集,该SYSU-ITS数据集模型受合成数据和不平衡真实数据的影响,性能较差,识别率为83.3%,但是,使用本实施例方法生成的车牌数据训练识别网路,在测试集上展现出了优越的性能,识别率可以高达到94.3%。为了进一步评价本实施例的方法在非平衡车牌数据集中的有效性,本实施例对测试集中的每个省份进行了测试,测试结果表明,在一些训练集中没有真实车牌省份的情况下,识别率有非常大幅度的提升。
本实施例中的方法将基于不成对数据的模块和基于成对数据的模块结合起来,生成高保真、多样和类平衡的数据。本实施例使用基于配对数据的模块来提高数据的保真度和多样性,使用基于未配对数据的模块来解决不平衡问题。针对车牌这种典型的非平衡数据,应用本实施例的方法实现了一个端到端的车牌生成系统,生成多省份、多场景下的车牌数据。测试表明,生成图像的Inception score接近于真实图像,可以得到更低的FIDscore。而且,本实施例还设计了一个不带LSTM结构的车牌识别网络来验证本实施例中的方法的有效性,在SYSU-ITS数据集上展现出优越了的性能;如图4a和图4b所示,本实施例生成的车牌图像种类繁多,可以覆盖每个区域,保证了图像的高保真度。
上列详细说明是针对本发明可行实施例的具体说明,该实施例并非用以限制本发明的专利范围,凡未脱离本发明所为的等效实施或变更,均应包含于本案的专利范围中。

Claims (6)

1.一种基于生成对抗网络的图像生成方法,其特征在于,将成对数据模块和不成对数据模块结合起来生成图像,包括以下步骤:
步骤1、把成对数据模块中的合成数据既输入到成对数据模块的生成器以训练出成对数据模块的生成数据,又输入到不成对数据模块的生成器以训练出不成对数据模块的生成数据;
步骤2、把不成对数据模块的生成数据和非平衡的真实数据进行混合,形成混合数据;
步骤3、把所述的混合数据输入到成对数据模块的判别器,并把所述成对数据模块的生成数据也输入到成对数据模块中的判别器;
步骤4、所述成对数据模块的判别器判断出输入的混合数据和成对数据模块的生成数据是真实数据还是虚假数据,并把是真实数据还是虚假数据的判断结果反馈到成对数据模块的生成器。
2.根据权利要求1所述的基于生成对抗网络的图像生成方法,其特征在于,所述的将成对数据模块和不成对数据模块结合起来是把生成对抗网络损失和特征匹配损失结合起来,把生成对抗网络损失和特征匹配损失结合起来的目标函数的计算公式为:
Figure FDA0003281943170000011
其中,λ表示控制
Figure FDA0003281943170000012
Figure FDA0003281943170000013
的重要性,X是与真实数据配对的合成数据,
Figure FDA0003281943170000014
是与真实数据未配对的合成数据,Y是真实数据,Gp是成对数据模块的生成器,Dp是成对数据模块的判别器,Gu是不成对数据模块的生成器,
Figure FDA0003281943170000015
是生成对抗网络的损失函数,使用的是最小二乘损失,
Figure FDA0003281943170000016
是特征匹配损失。
3.根据权利要求1所述的基于生成对抗网络的图像生成方法,其特征在于,在步骤1中,所述训练出不成对数据模块的生成数据,是通过在CycleGAN的基础上附加梯度惩罚方法以形成WCycleGAN-GP来实现,所述WCycleGAN-GP具体为以下公式:
Figure FDA0003281943170000021
其中,
Figure FDA0003281943170000022
为循环一致性损失,x为与真实数据配对的合成数据,y为真实数据,
Figure FDA0003281943170000023
为合成数据的数据分布,
Figure FDA0003281943170000024
为真实数据的数据分布,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,
Figure FDA0003281943170000025
为x符合合成数据分布的函数,
Figure FDA0003281943170000026
为y符合真实数据分布的函数,λ1表示控制
Figure FDA0003281943170000027
的相对重要性,λ2表示控制
Figure FDA0003281943170000028
的相对重要性,|| ||1表示求L1范数。
4.根据权利要求1至3任一项所述的基于生成对抗网络的图像生成方法,其特征在于,所述不成对数据模块具有判别器,所述不成对数据模块的判别器的损失函数为:
Figure FDA0003281943170000029
Figure FDA00032819431700000210
其中,x为与真实数据配对的合成数据,y是真实数据,
Figure FDA00032819431700000211
为最小化Dx函数,
Figure FDA00032819431700000212
为最小化Dy函数,Dx为判别y是否为真实数据,Dy为判别x是否为真实数据,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,λ表示控制
Figure FDA0003281943170000031
Figure FDA0003281943170000032
的重要,
Figure FDA0003281943170000033
表示对t求梯度,|| ||2表示求L2范数,
Figure FDA0003281943170000034
表示x符合合成数据分布的函数,
Figure FDA0003281943170000035
表示y符合真实数据分布的函数,
Figure FDA0003281943170000036
表示符合
Figure FDA0003281943170000037
分布的函数,
Figure FDA0003281943170000038
表示符合
Figure FDA0003281943170000039
分布的函数,t1的计算过程:首先,采样合成数据
Figure FDA00032819431700000310
和真实数据
Figure FDA00032819431700000311
然后,∈~U[0,1],得到一个随机数,通过t1=∈y+(1-∈)x,计算出t1,并且,t1的分布满足于
Figure FDA00032819431700000312
t2的计算过程:首先,采样真实数据
Figure FDA00032819431700000313
和合成数据
Figure FDA00032819431700000314
然后,∈~U[0,1],得到一个随机数,通过t2=∈x+(1-∈)y,计算出t2,并且,t2的分布满足于
Figure FDA00032819431700000315
5.根据权利要求1至3任一项所述的基于生成对抗网络的图像生成方法,其特征在于,所述不成对数据模块的生成器的损失函数为:
Figure FDA00032819431700000316
其中,Gu是不成对数据模块的生成器,x是与真实数据配对的合成数据,y是真实数据,
Figure FDA00032819431700000317
表示最小化Gx(x)函数,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,Dx表示判别y是否为真实数据,Dy表示判别x是否为真实数据,
Figure FDA00032819431700000318
表示x符合合成数据分布的函数,
Figure FDA00032819431700000319
表示y符合真实数据分布的函数,
Figure FDA00032819431700000320
为循环一致性损失。
6.根据权利要求1所述的基于生成对抗网络的图像生成方法,其特征在于,在步骤3中,从层参数的角度对pix2pix的谱归一化进行正则化,使所述成对数据模块的判别器具有利普希茨连续条件,以形成SN-pix2pix,所述SN-pix2pix的目标函数为:
Figure FDA0003281943170000041
其中,λ表示控制
Figure FDA0003281943170000042
Figure FDA0003281943170000043
的重要性,
Figure FDA0003281943170000044
Figure FDA0003281943170000045
分别表示最小二乘损失和特征匹配损失,Dsn为带着谱归一化的判别器,G为生成器,
Figure FDA0003281943170000046
表示最小化G函数,
Figure FDA0003281943170000047
表示最大化Dsn函数。
CN201910697197.1A 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法 Active CN110610124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910697197.1A CN110610124B (zh) 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910697197.1A CN110610124B (zh) 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法

Publications (2)

Publication Number Publication Date
CN110610124A CN110610124A (zh) 2019-12-24
CN110610124B true CN110610124B (zh) 2021-11-30

Family

ID=68890191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910697197.1A Active CN110610124B (zh) 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法

Country Status (1)

Country Link
CN (1) CN110610124B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275692B (zh) * 2020-01-26 2022-09-13 重庆邮电大学 基于生成对抗网络的红外小目标检测方法
CN111353995B (zh) * 2020-03-31 2023-03-28 成都信息工程大学 一种基于生成对抗网络的宫颈单细胞图像数据生成方法
CN111767945A (zh) * 2020-06-08 2020-10-13 上海交通大学 基于CycleGAN网络模型的车牌样本生成方法及系统
CN111563899B (zh) * 2020-06-09 2020-10-02 南京汇百图科技有限公司 一种髋关节ct图像中骨的分割方法
CN112380374B (zh) * 2020-10-23 2022-11-18 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112419201A (zh) * 2020-12-04 2021-02-26 珠海亿智电子科技有限公司 一种基于残差网络的图像去模糊方法
CN116721176B (zh) * 2023-08-10 2023-11-10 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830192A (zh) * 2018-05-31 2018-11-16 珠海亿智电子科技有限公司 车载环境下基于深度学习的车辆与车牌检测方法
CN109190620A (zh) * 2018-09-03 2019-01-11 苏州科达科技股份有限公司 车牌样本生成方法、系统、设备及存储介质
CN109190684A (zh) * 2018-08-15 2019-01-11 西安电子科技大学 基于素描及结构生成对抗网络的sar图像样本生成方法
CN109523493A (zh) * 2017-09-18 2019-03-26 杭州海康威视数字技术股份有限公司 一种图像生成方法、装置及电子设备
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523493A (zh) * 2017-09-18 2019-03-26 杭州海康威视数字技术股份有限公司 一种图像生成方法、装置及电子设备
CN108830192A (zh) * 2018-05-31 2018-11-16 珠海亿智电子科技有限公司 车载环境下基于深度学习的车辆与车牌检测方法
CN109190684A (zh) * 2018-08-15 2019-01-11 西安电子科技大学 基于素描及结构生成对抗网络的sar图像样本生成方法
CN109190620A (zh) * 2018-09-03 2019-01-11 苏州科达科技股份有限公司 车牌样本生成方法、系统、设备及存储介质
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adversarial Generation of Training Examples for Vehicle License Plate Recognition;Xinlong Wang et al;《arXiv:1707.03124v2》;20170722;第1-24页 *
生成对抗网络GAN综述;程显毅等;《计算机科学》;20190331;第46卷(第3期);第74-81页 *

Also Published As

Publication number Publication date
CN110610124A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110610124B (zh) 一种基于生成对抗网络的图像生成方法
Qu et al. Enhanced pix2pix dehazing network
Cai et al. Exploring object relation in mean teacher for cross-domain detection
US11854244B2 (en) Labeling techniques for a modified panoptic labeling neural network
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN111914797B (zh) 基于多尺度轻量级卷积神经网络的交通标志识别方法
CN112528862B (zh) 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN113505772B (zh) 基于生成对抗网络的车牌图像生成方法及系统
CN103984963B (zh) 一种高分辨率遥感图像场景分类方法
CN113838064B (zh) 一种基于分支gan使用多时相遥感数据的云去除方法
CN112800906A (zh) 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法
CN111160481A (zh) 基于深度学习的adas目标检测方法及系统
CN111008979A (zh) 一种鲁棒的夜晚图像语义分割方法
CN109949200A (zh) 基于滤波器子集选择和cnn的隐写分析框架构建方法
CN114119420B (zh) 一种基于雾迁移和特征聚合的真实场景下有雾图像去雾方法
Yuan et al. Multi-attention DeepEMD for few-shot learning in remote sensing
CN111695455A (zh) 一种基于耦合判别流形对齐的低分辨人脸识别方法
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法
CN109615576A (zh) 基于级联回归基学习的单帧图像超分辨重建方法
CN113112441A (zh) 基于密集网络和局部亮度遍历算子的多波段低分辨率图像同步融合方法
CN110020986A (zh) 基于欧氏子空间群两重映射的单帧图像超分辨率重建方法
Sun et al. Image generation framework for unbalanced license plate data set
CN115035007A (zh) 基于像素级对齐生成对抗网络的人脸老化系统及建立方法
Zhu et al. HDRD-Net: High-resolution detail-recovering image deraining network
CN109753999B (zh) 针对任意视角汽车图片的细粒度车型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant