CN110610124A - 一种基于生成对抗网络的图像生成方法 - Google Patents

一种基于生成对抗网络的图像生成方法 Download PDF

Info

Publication number
CN110610124A
CN110610124A CN201910697197.1A CN201910697197A CN110610124A CN 110610124 A CN110610124 A CN 110610124A CN 201910697197 A CN201910697197 A CN 201910697197A CN 110610124 A CN110610124 A CN 110610124A
Authority
CN
China
Prior art keywords
data
paired
function
modules
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910697197.1A
Other languages
English (en)
Other versions
CN110610124B (zh
Inventor
殷绪成
孙明
杨春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Wisdom Electronic Technology Co Ltd
Original Assignee
Zhuhai Wisdom Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Wisdom Electronic Technology Co Ltd filed Critical Zhuhai Wisdom Electronic Technology Co Ltd
Priority to CN201910697197.1A priority Critical patent/CN110610124B/zh
Publication of CN110610124A publication Critical patent/CN110610124A/zh
Application granted granted Critical
Publication of CN110610124B publication Critical patent/CN110610124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于生成对抗网络的图像生成方法,包括以下步骤:1、把合成数据既输入到成对数据模块的生成器以训练出成对数据模块的生成数据,又输入到不成对数据模块的生成器以训练出不成对数据模块的生成数据;2、形成混合数据;3、把所述的混合数据输入到成对数据模块的判别器,并把所述成对数据模块的生成数据也输入到成对数据模块中的判别器;4、所述成对数据模块的判别器判断结果反馈到成对数据模块的生成器。生成图像的Inception score接近于真实图像,可以得到更低的FID score,提高了数据的保真度和多样性。

Description

一种基于生成对抗网络的图像生成方法
技术领域
本发明涉及计算机视觉的图像生成技术领域,具体涉及一种基于生成对抗 网络的图像生成方法。
背景技术
车牌号码作为车辆的唯一标识,其特殊性及重要性决定了车牌识别系统成 为智能交通管理系统中不可或缺的重要组成部分。车牌识别系统为城市交通管 理提供了方便、快捷、适用的手段,成为近几年研究的热点。目前,非常火热 的车牌识别算法是基于深度神经网络的,那么想要获得比较高的精度和鲁棒性, 就需要大量的车牌标注数据。但是,可能涉及到个人隐私信息以及有多种类型 的车牌,需要花费大量的时间、资金和人力去进行收集和标注。而且,车牌识 别是一项具有区域特征的任务,在不同的国家和地区,车牌号码的定义规则是 不一样的。在中国,每个省份、直辖市、自治区之间的车牌首字符都是不一样的,需要对每个地区车牌进行收集。重要的是,在真实场景中,会有夜晚、倾 斜角度、分辨率低、运动模糊、曝光以及遮挡等多样车牌,进一步增加了车牌 数据收集的难度。为提高模型的鲁棒性和高性能,在每个地区收集数量足够、 各式各样的车牌数据是很困难的。
在先前的工作中,为了减少成本,使用计算机图形脚本,按照字体、颜色 和构图规则合成车牌图像。值得注意的是,这些合成图像并不如真实的照片, 由于仅限于手工规则很难模拟真实车牌图像。这种做法训练出的车牌识别模型 在真实数据上的效果并不好,模型很容易学习错误的知识;还有的做法是,对 真实数据进行数据增强,比如翻转、镜像、裁剪不同的大小、调整图像对比度 和饱和度等做法,增加真实数据的样本量。使用合成数据预训练识别模型,然 后使用增广的真实数据微调训练,可能会有好一点的效果。但是,增广的车牌 数据也只是让本发明模型更好的学习这些数据的特征,模型的泛化能力一般, 针对一些地区没见过的车牌,效果一般。
生成对抗网络(GANs)(Goodfellow I.NIPS 2016Tutorial:GenerativeAdversarialNetworks[J].2016.)在结构上受到零和博弈的启发,系统有生成器与 判别器构成。生成器捕捉真实数据的潜在分布,生成以假乱真的数据去迷惑判 别器,判别器去判别输入数据是真实数据还是假数据。深度卷积神经网络 (DCGANs)(RadfordA,Metz L,Chintala S.Unsupervised Representation Learning with Deep ConvolutionalGenerative Adversarial Networks[J].Computer Science, 2015.)为训练GANs提供了一个稳定的结构。条件生成对抗网络(CGAN)(Mirza M,Osindero S.Conditional GenerativeAdversarial Nets[J].Computer Science, 2014.)通过在生成器和判别器上进行条件约束,生成具有特定类标签的图像。不 仅可以通过类标签生成图像,生成对抗网络还可以通过文本描述(Reed S,Akata Z,Yan X,et al.Generative Adversarial Text to ImageSynthesis[J].2016.)或者图像 (Isola P,Zhu J,Zhou T,et al.Image-to-ImageTranslation with Conditional Adversarial Networks[J].{IEEE}Computer Society,2017)为条件,这种约束可以实 现文本到图像的合成,或者图像到图像的风格转换。Isola等人提出pix2pix,去 对成对的数据进行风格转换。如图2c和图2d所示,虽然可以通过学习合成数 据的实际分布来生成一些图像,但在没有训练数据的一些省份上,图像中汉字 字符会变得模糊。为了解决非成对数据的训练问题,Zhu等人提出了 CycleGAN(Zhu J Y,ParkT,Isola P,et al.Unpaired Image-to-Image Translation using Cycle-ConsistentAdversarial Networks[J].2017.),CycleGAN引入了循环一 致性损失对非成对数据进行训练。如图2a和图2b所示,CycleGAN只能生成一 种车牌图片风格,生成的图片质量比用pix2pix生成的图片质量要低。
GANs存在训练不稳定、梯度消失、模型坍塌的问题。最小二乘生成对抗网 络(MaoX,Li Q,Xie H,et al.Least Squares Generative Adversarial Networks[J]. 2016.)针对的是标准GAN生成的图片质量不高以及训练不稳定这两个缺陷进 行改进。改进方法就是将GAN的目标函数由交叉熵损失换成最小二乘损失。为 了提高训练的稳定性和防止模式崩溃,采用Wasserstein距离的生成对抗网络 (WGAN)(Arjovsky M,Chintala S,Bottou,Léon.Wasserstein GAN[J].2017.)的工 作设计了一种训练算法,提供了一些技巧。加入梯度惩罚的Wasserstein距离生 成对抗网络(WGAN-GP)(Gulrajani I,Ahmed F,Arjovsky M,etal.Improved Training ofWasserstein GANs[J].2017.)是WGAN的改进版本,主要改善了连续 性限制条件。为使判别器具有利普希茨连续条件以及训练稳定性,从“层参数” 的角度来看,对判别器使用谱归一化(Miyato T,Kataoka T,Koyama M,et al.SpectralNormalization for GenerativeAdversarialNetworks[J].2018.)。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于生成对抗网络的图像 生成方法,该方法将基于不成对数据的模块和基于成对数据的模块结合起来, 生成高保真、多样和类平衡的数据。针对车牌这种典型的非平衡数据,应用本 发明的算法实现了一个端到端的车牌生成系统,生成多省份、多场景下的车牌 数据。
为实现本发明的目的,采取以下的技术方案:一种基于生成对抗网络的图 像生成方法,将成对数据模块和不成对数据模块结合起来生成图像,主要可以 包括以下步骤:
步骤1、把成对数据模块中的合成数据既输入到成对数据模块的生成器以训 练出成对数据模块的生成数据,又输入到不成对数据模块的生成器以训练出不 成对数据模块的生成数据;
步骤2、把不成对数据模块的生成数据和非平衡的真实数据进行混合,形成 混合数据;
步骤3、把所述的混合数据输入到成对数据模块的判别器,并把所述成对数 据模块的生成数据也输入到成对数据模块中的判别器;
步骤4、所述成对数据模块的判别器判断出输入的混合数据和成对数据模块 的生成数据是真实数据还是虚假数据,并把是真实数据还是虚假数据的判断结 果反馈到成对数据模块的生成器。
所述的将成对数据模块和不成对数据模块结合起来,是把生成对抗网络损 失和特征匹配损失结合起来,具体通过以下公式进行结合:
其中,λ表示控制的重要性,X是与真实数据配对的合成数据,是与真实数据未配对的合成数据,Y是真实数据,Gp是成对数据模块的生成器, Dp是成对数据模块的判别器,Gu是不成对数据模块的生成器,是生成对抗 网络的损失函数,这里我们使用的是最小二乘损失,是特征匹配损失。
在步骤1中,所述训练出不成对数据模块的生成数据,是通过在CycleGAN 的基础上附加梯度惩罚方法形成WCycleGAN-GP来实现,具体通过以下公式实 现:
其中,为循环一致性损失,x是与真实数据配对的合成数据,y是真实数 据,分别是合成数据与真实数据的数据分布,生成器Gx学习x到y的映 射,生成器Gy学习y到x的映射,表示x符合合成数据分布的函数,表示y符合真实数据分布的函数,λ1表示控制的相对重要性,λ2表示控 制的相对重要性,||||1表示求里面数值的L1范数。
所述不成对数据模块还可以具有判别器,所述不成对数据模块的判别器的 损失函数为:
其中,x是与真实数据配对的合成数据,y是真实数据,表示为最小化Dx函数,表示为最小化Dy函数,Dx为判别y是否为真实数据,Dy为判别x是否 为真实数据,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,λ表 示控制的重要,表示对t求梯度,||||2表示对里面的数值求L2 范数,表示x符合合成数据分布的函数,表示y符合真实数据分布的 函数,表示符合分布的函数,表示符合分布的函数,t1的计算 过程:首先,采样合成数据和真实数据然后∈~U[0,1],得到一个随 机数,t1=∈y+(1-∈)x,计算出t1,t1的分布满足于t2的计算过程:首先, 采样数据和数据然后,∈~U[0,1],得到一个随机数,通过t2=∈x+(1-∈)y,计算出t2,并且,t2的分布满足于
所述不成对数据模块的生成器的损失函数为:
其中,Gu是不成对数据模块的生成器,x是与真实数据配对的合成数据,y 是真实数据,表示最小化Gx(x)函数,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,Dx为判别y是否为真实数据,Dy为判别x是否为真实数 据,表示x符合合成数据分布的函数,表示y符合真实数据分布的函 数,为循环一致性损失。在步骤3中,从层参数的角度对pix2pix的谱归一 化进行正则化,使所述成对数据模块的判别器具有利普希茨连续条件,形成 SN-pix2pix,所述SN-pix2pix的目标函数为:
其中,λ表示控制的重要性,分别表示最小二乘损 失和特征匹配损失,Dsn是带着谱归一化的判别器,G为生成器,表示为最 小化G函数,表示为最大化Dsn函数。
本发明的技术方案可以还包括以下步骤:输入的所述成对数据模块中的合 成数据为灰度车牌图片,采用基于神经网络的时序分类作为损失函数,通过全 连接层把输入的灰度车牌图片识别成车牌。
所述通过全连接层把输入的灰度车牌图片识别成车牌之后,再把重新组织 的标签作为输出。所述重新组织的标签可以为76个标签,所述的76个标签具 有39个汉字、26个字母、10个数字和1个空白字符。
本发明将Wasserstein距离和梯度惩罚应用于CycleGAN并形成了 WCycleGAN-GP。本发明将谱归一化技术应用于pix2pix,并形成了SN-pix2pix。 本发明的结合了WCycleGAN-GP和SN-pix2pix,生成了具有更好细节和更逼真 纹理的车牌图像。
本发明的优点和有益效果:
1、本发明针对车牌这种典型的非平衡数据,应用本发明的算法实现了一个 端到端的车牌生成系统,生成多省份、多场景下的车牌数据。测试表明,生成 图像的Inceptionscore接近于真实图像,可以得到更低的FID score,该算法可依 靠少量真实场景数据生成大量的、覆盖面广、多种多样、以假乱真的车牌数据。
2、本发明实现了一个端到端的框架,将基于不成对数据的模块和基于成对 数据的模块结合起来,生成高保真、多样和平衡的数据;采用不成对数据的模 块对多个模型进行预训练,解决标签不匹配问题,采用成对数据的模块对配对 数据进行训练,以保证图像的高保真度和多样性;在前向传播阶段,可以运用 P-module生成大量的车牌图像,这样,训练集就转化为一个平衡的数据集,本 发明手动选择U-module,用P-module对数据进行训练。
3、本发明将WGAN-GP应用于CycleGAN并提出了WCycleGAN-GP,本 发明将谱归一化技术应用于pix2pix,并提出了SN-pix2pix;本发明结合了 WCycleGAN-GP和SN-pix2pix,以生成具有更好细节和更逼真纹理的车牌图像; 针对车牌这种典型的非平衡数据,本发明实现了端到端的车牌图像生成方法, 生成多省份、多场景下的车牌数据,测试结果表明,生成图像的Inception score 接近于真实图像,可以得到更低的FID score,本发明的方法可依靠少量真实场 景数据生成大量的、覆盖面广、多种多样、以假乱真的车牌数据。
4、本发明设计了一个不带LSTM结构的车牌识别网络来验证本发明的有效 性,在SYSU-ITS数据集上展现了出优越的性能。使用LSTM会增加计算成本, 使网络模型复杂化;使用全连接层(FC)可以有效得识别车牌,最后,重新组 织为76个标签,包括39个汉字、26个字母、10个数字和空白字符;本发明设 计的识别网络具有更少的参数、更快的速度以及更高的准确度,在SYSU-ITS 数据集上展现出了优越的性能。
附图说明
图1为本发明的图像生成过程的流程图;使用opencv脚本生成Synthetic data,Fake data由生成器生成,Mixed data数据包含U-module生成的数据和真实数据, 带有谱归一化的判别器接受成对数据的输入。
图2a为脚本生成的二值化的车牌图片例子,此图片送入GANs进行测试。
图2b为不成对数据的模块生成的车牌示例,使用图2a中的图像作为输入。
图2c为成对数据的模块生成的车牌示例,使用图2a中的图像作为输入。
图2d为真实车牌图片。
图3a为本发明收集的真实车牌图像数量的分布图。
图3b为在SYSU-ITS数据集中获取的各个省份车牌图像数量的分布图。
图4a为由本发明的方法生成的单行车牌图片。
图4b为由本发明的方法生成的特殊车牌图片。
图5为本发明的不带LSTM的小型车牌识别结果。
具体实施方式
实施例
下面结合具体实施方式对本发明作进一步的说明。
如图1所示,一种基于生成对抗网络的图像生成方法,将基于成对数据的 模块(即:P-module)和不成对数据的模块(即:U-module)结合起来生成图 像,U-module用于对多个模型进行预训练,以解决标签不匹配问题,P-module 用于对配对数据进行训练,以保证图像的高保真度和多样性,在前向传播阶段, 可利用P-module中的主干网络生成大量的车牌图像。如图4a和图4b所示,生 成的车牌图像种类繁多,可以覆盖每个区域,保证图像的高保真度,将成对数 据的模块(即:P-module)和不成对数据的模块(即:U-module)结合起来的 目标函数为:把GAN(生成对抗网络)损失和特征匹配损失结合起来,如以下 公式所示:
其中,λ表示控制的重要性,X是与真实数据配对的合成数据,是与真实数据未配对的合成数据,Gp和Dp分别是P-module的生成器和判别器, Gu是U-module的生成器。
本实施例结合了P-module和U-module,Dp的输入分为三部分:合成数据、 混合数据以及生成数据。当Gp的输入是X时,Dp的输入要么是成对的X和Y, 要么是成对的X和Gp;当Gp的输入是时,Dp的输入要么是成对的和Gu,要么是 成对的和Gp,因此,本实施例的方法解决了这样一个问题:没有成对数据,就 无法对进行训练。
(1)U-module;
本实施例使用WCycleGAN-GP,它通过循环一致性损失解决了不成对数据 训练的问题:
分别是合成数据与真实数据的数据分布,生成器Gx学习x到y的映 射,生成器Gy学习y到x的映射,λ1表示控制的相对重要性,λ2表示控 制的相对重要性。
传统的CycleGAN使用的是最小二乘损失,它训练生成器去优化训练判别器去优化
本实施例中的U-module具有判别器,将WGAN-GP应用于CycleGAN,以 提高训练的稳定性,WGAN-GP采用梯度惩罚方法解决了梯度消失和梯度爆炸 的问题,比传统的CycleGAN能够生成出更加高质量的图片,该WCycleGAN-GP 中判别器的损失函数为:
t1的计算过程:首先,采样合成数据和真实数据然后∈~U[0,1],得到一个随机数,最后,t1=∈y+(1-∈)x,计算出t1,t1的分布满足于t2跟上述计算过程是相似的。
CycleGAN的目标函数由对抗损失和循环一致性损失组成,在优化生成器时, 本实施例使用WGAN-GP损失代替最小二乘损失,WCycleGAN-GP中生成器的 损失函数为:
其中,Gu是不成对数据模块的生成器,x是与真实数据配对的合成数据,y 是真实数据,表示最小化Gx(x)函数,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,Dx表示判别y是否为真实数据,Dy表示判别x是否为真实 数据,表示x符合合成数据分布的函数,表示y符合真实数据分布的 函数,为循环一致性损失。
(2)P-module;
本实施例在原始的pix2pix上进行了修改。本实施例从“层参数”的角度对 谱归一化进行了正则化,使判别器D具有利普希茨连续条件。本实施例分别将 最小二乘损失和特征匹配损失作为对抗损失和惩罚项。的计算过程为:生成 样本和真实样本送入判别器去进行特征提取,然后在特征图上进行点乘运算。 SN-pix2pix的目标函数为:
其中,λ表示控制的重要性,分别是最小二乘损失 和特征匹配损失,Dsn是带着谱归一化的判别器。
本实施例实现了一个端到端的框架。对成对数据可直接用于P-module进行 训练,保证图像清晰、真实。未配对数据可以使用U-module生成,以确保在多 个省份生成数据。这样,训练集就转化为一个平衡的数据集。目前,本实施例 手动选择U-module,用P-module对框架进行训练。
(3)车牌识别;
本实施例的车牌识别结果如图5所示,其中输出大小代表着通道数×宽度× 高度,请注意,图中显示的每个卷积层对应于序列为bn-relu-conv。网络的输入 为100×32的灰度车牌图片。
本实施例设计了一个不带LSTM结构的小型车牌识别网络,使用LSTM会增 加计算成本,使网络模型复杂化。使用全连接层(FC)可以有效得识别车牌, 最后,重新组织为76个标签,包括39个汉字、26个字母、10个数字和空白字符。 本实施例使用CTC(ConnectionistTemporal Classification,即:基于神经网络的时 序分类)(GravesA,Santiago Fernández,Gomez F.Connectionisttemporal classification:Labellingunsegmented sequence data with recurrent neural networks[C]//InternationalConference onMachine Learning.ACM,2006.)作为损 失函数。
本实施例将基于不成对数据的模块和基于成对数据的模块结合起来,生成 高保真、多样和类平衡的数据。本实施例使用基于配对数据的模块来提高数据 的保真度和多样性,使用基于未配对数据的模块来解决不平衡问题。针对车牌 这种典型的非平衡数据,应用本实施例的算法实现了一个端到端的车牌生成系 统,生成多省份、多场景下的车牌数据。实验表明,生成图像的Inception score 接近于真实图像,可以得到更低的FID score。而且,本实施例还设计了一个不 带LSTM结构的车牌识别网络来验证本实施例中方法的有效性,本实施例中的方 法在SYSU-ITS数据集上展现出了优越的性能。
(1)本实施例使用的数据集;
本实施例在SYSU-ITS开源数据集上评估了本实施例方法的性能,本实施例 使用的数据集共有3338个车牌图像,全部来自于高清的卡口图像,每个图像仅 包含一个车牌。由于该数据集没有提供车牌矩形框,因此本实施例不考虑车牌 图像是否能被检测网络正确地召回,将车牌图像截出来进行识别。本实施例使 用SYSU-ITS数据集中的单行车牌图像作为测试集,其中包含31个省份的车牌 数据,该数据分布如图3b所示。
本实施例收集了六个省份的车牌数据集,总计超过8200个,以这些数据为 基础来训练本实施例的框架和车牌识别网络,但此数据集不平衡,如上海和广 东占很大比例,数据分布具体如图3a所示,这样的数据集更符合真实车牌数据 的采集。
(2)测试描述;
在本实施例的测试过程中,图像生成框架是通过pytorch实现的,测试是在 带有12GB内存的NVIDIATITAN Xp GPU上实现的,采用U-module对多个模 型进行预训练,解决标签不匹配问题,P-module用于对配对数据进行训练,以 保证图像的高保真度和多样性。在前向传播阶段,可利用P-module中的主干网 络可以生成大量的车牌图像,其中,训练U-module和P-module的真实数据如 图3a所示。
在使用本实施例中的方法生成各省车牌图片后,再使用Inception score和 FIDscore对本实施例的图像进行评估,Inception score越高,FID score越低,代 表生成图片的质量更高,多样性更丰富。
此外,本实施例还设计了一个不带LSTM结构的车牌识别网络来验证本实 施例框架的有效性,在SYSU-ITS数据集上展现了出优越的性能。
(3)测试结果;
根据Inception score和FID score,比较了本实施例的方法和现有技术中的性能,不同的GANs模型生成60000张车牌图像进行评估,真实图像数据集包含 本实施例收集的数据以及SYSU-ITS中的图片,测试表明,生成图像的Inception score为2.11,接近于真实图像,并且,在本实施例的方法中,FID score为33.59, 比现有技术中的更低。
本实施例训练车牌识别网络使用合成车牌数据和真实数据,测试集使用的 是SYSU-ITS数据集,该SYSU-ITS数据集模型受合成数据和不平衡真实数据的 影响,性能较差,识别率为83.3%,但是,使用本实施例方法生成的车牌数据训 练识别网路,在测试集上展现出了优越的性能,识别率可以高达到94.3%。为了 进一步评价本实施例的方法在非平衡车牌数据集中的有效性,本实施例对测试 集中的每个省份进行了测试,测试结果表明,在一些训练集中没有真实车牌省 份的情况下,识别率有非常大幅度的提升。
本实施例中的方法将基于不成对数据的模块和基于成对数据的模块结合起 来,生成高保真、多样和类平衡的数据。本实施例使用基于配对数据的模块来 提高数据的保真度和多样性,使用基于未配对数据的模块来解决不平衡问题。 针对车牌这种典型的非平衡数据,应用本实施例的方法实现了一个端到端的车 牌生成系统,生成多省份、多场景下的车牌数据。测试表明,生成图像的Inception score接近于真实图像,可以得到更低的FIDscore。而且,本实施例还设计了一 个不带LSTM结构的车牌识别网络来验证本实施例中的方法的有效性,在SYSU-ITS数据集上展现出优越了的性能;如图4a和图4b所示,本实施例生成 的车牌图像种类繁多,可以覆盖每个区域,保证了图像的高保真度。
上列详细说明是针对本发明可行实施例的具体说明,该实施例并非用以限 制本发明的专利范围,凡未脱离本发明所为的等效实施或变更,均应包含于本 案的专利范围中。

Claims (9)

1.一种基于生成对抗网络的图像生成方法,其特征在于,将成对数据模块和不成对数据模块结合起来生成图像,主要包括以下步骤:
步骤1、把成对数据模块中的合成数据既输入到成对数据模块的生成器以训练出成对数据模块的生成数据,又输入到不成对数据模块的生成器以训练出不成对数据模块的生成数据;
步骤2、把不成对数据模块的生成数据和非平衡的真实数据进行混合,形成混合数据;
步骤3、把所述的混合数据输入到成对数据模块的判别器,并把所述成对数据模块的生成数据也输入到成对数据模块中的判别器;
步骤4、所述成对数据模块的判别器判断出输入的混合数据和成对数据模块的生成数据是真实数据还是虚假数据,并把是真实数据还是虚假数据的判断结果反馈到成对数据模块的生成器。
2.根据权利要求1所述的基于生成对抗网络的图像生成方法,其特征在于,所述的将成对数据模块和不成对数据模块结合起来是把生成对抗网络损失和特征匹配损失结合起来,把生成对抗网络损失和特征匹配损失结合起来的目标函数的计算公式为:
其中,λ表示控制的重要性,X是与真实数据配对的合成数据,是与真实数据未配对的合成数据,Y是真实数据,Gp是成对数据模块的生成器,Dp是成对数据模块的判别器,Gu是不成对数据模块的生成器,是生成对抗网络的损失函数,使用的是最小二乘损失,是特征匹配损失。
3.根据权利要求1所述的基于生成对抗网络的图像生成方法,其特征在于,在步骤1中,所述训练出不成对数据模块的生成数据,是通过在CycleGAN的基础上附加梯度惩罚方法以形成WCycleGAN-GP来实现,所述WCycleGAN-GP具体为以下公式:
其中,为循环一致性损失,x为与真实数据配对的合成数据,y为真实数据,为合成数据的数据分布,为真实数据的数据分布,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,为x符合合成数据分布的函数,为y符合真实数据分布的函数,λ1表示控制的相对重要性,λ2表示控制的相对重要性,|| ||1表示求L1范数。
4.根据权利要求1至3任一项所述的基于生成对抗网络的图像生成方法,其特征在于,所述不成对数据模块具有判别器,所述不成对数据模块的判别器的损失函数为:
其中,x为与真实数据配对的合成数据,y是真实数据,为最小化Dx函数,为最小化Dy函数,Dx为判别y是否为真实数据,Dy为判别x是否为真实数据,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,λ表示控制的重要,表示对t求梯度,|| ||2表示求L2范数,表示x符合合成数据分布的函数,表示y符合真实数据分布的函数,表示符合分布的函数,表示符合分布的函数,t1的计算过程:首先,采样合成数据和真实数据然后,∈~U[0,1],得到一个随机数,通过t1=∈y+(1-∈)x,计算出t1,并且,t1的分布满足于t2的计算过程:首先,采样数据和数据然后,∈~U[0,1],得到一个随机数,通过t2=∈x+(1-∈)y,计算出t2,并且,t2的分布满足于
5.根据权利要求1至3任一项所述的基于生成对抗网络的图像生成方法,其特征在于,所述不成对数据模块的生成器的损失函数为:
其中,Gu是不成对数据模块的生成器,x是与真实数据配对的合成数据,y是真实数据,表示最小化Gx(x)函数,生成器Gx学习x到y的映射,生成器Gy学习y到x的映射,Dx表示判别y是否为真实数据,Dy表示判别x是否为真实数据,表示x符合合成数据分布的函数,表示y符合真实数据分布的函数,为循环一致性损失。
6.根据权利要求1所述的基于生成对抗网络的图像生成方法,其特征在于,在步骤3中,从层参数的角度对pix2pix的谱归一化进行正则化,使所述成对数据模块的判别器具有利普希茨连续条件,以形成SN-pix2pix,所述SN-pix2pix的目标函数为:
其中,λ表示控制的重要性,分别表示最小二乘损失和特征匹配损失,Dsn为带着谱归一化的判别器,G为生成器,表示最小化G函数,表示最大化Dsn函数。
7.根据权利要求1所述的基于生成对抗网络的图像生成方法,其特征在于,还包括以下步骤:
输入的所述成对数据模块中的合成数据为灰度车牌图片,采用基于神经网络的时序分类作为损失函数,通过全连接层把输入的灰度车牌图片识别成车牌。
8.根据权利要求7所述的基于生成对抗网络的图像生成方法,其特征在于,所述通过全连接层把输入的灰度车牌图片识别成车牌之后,再把重新组织的标签作为输出。
9.根据权利要求8所述的基于生成对抗网络的图像生成方法,其特征在于,所述重新组织的标签为76个标签,所述的76个标签具有39个汉字、26个字母、10个数字和1个空白字符。
CN201910697197.1A 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法 Active CN110610124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910697197.1A CN110610124B (zh) 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910697197.1A CN110610124B (zh) 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法

Publications (2)

Publication Number Publication Date
CN110610124A true CN110610124A (zh) 2019-12-24
CN110610124B CN110610124B (zh) 2021-11-30

Family

ID=68890191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910697197.1A Active CN110610124B (zh) 2019-07-30 2019-07-30 一种基于生成对抗网络的图像生成方法

Country Status (1)

Country Link
CN (1) CN110610124B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275692A (zh) * 2020-01-26 2020-06-12 重庆邮电大学 基于生成对抗网络的红外小目标检测方法
CN111353995A (zh) * 2020-03-31 2020-06-30 成都信息工程大学 一种基于生成对抗网络的宫颈单细胞图像数据生成方法
CN111563899A (zh) * 2020-06-09 2020-08-21 南京汇百图科技有限公司 一种髋关节ct图像中骨的分割方法
CN111767945A (zh) * 2020-06-08 2020-10-13 上海交通大学 基于CycleGAN网络模型的车牌样本生成方法及系统
CN112380374A (zh) * 2020-10-23 2021-02-19 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112419201A (zh) * 2020-12-04 2021-02-26 珠海亿智电子科技有限公司 一种基于残差网络的图像去模糊方法
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830192A (zh) * 2018-05-31 2018-11-16 珠海亿智电子科技有限公司 车载环境下基于深度学习的车辆与车牌检测方法
CN109190684A (zh) * 2018-08-15 2019-01-11 西安电子科技大学 基于素描及结构生成对抗网络的sar图像样本生成方法
CN109190620A (zh) * 2018-09-03 2019-01-11 苏州科达科技股份有限公司 车牌样本生成方法、系统、设备及存储介质
CN109523493A (zh) * 2017-09-18 2019-03-26 杭州海康威视数字技术股份有限公司 一种图像生成方法、装置及电子设备
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523493A (zh) * 2017-09-18 2019-03-26 杭州海康威视数字技术股份有限公司 一种图像生成方法、装置及电子设备
CN108830192A (zh) * 2018-05-31 2018-11-16 珠海亿智电子科技有限公司 车载环境下基于深度学习的车辆与车牌检测方法
CN109190684A (zh) * 2018-08-15 2019-01-11 西安电子科技大学 基于素描及结构生成对抗网络的sar图像样本生成方法
CN109190620A (zh) * 2018-09-03 2019-01-11 苏州科达科技股份有限公司 车牌样本生成方法、系统、设备及存储介质
CN109978021A (zh) * 2019-03-07 2019-07-05 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINLONG WANG ET AL: "Adversarial Generation of Training Examples for Vehicle License Plate Recognition", 《ARXIV:1707.03124V2》 *
程显毅等: "生成对抗网络GAN综述", 《计算机科学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275692A (zh) * 2020-01-26 2020-06-12 重庆邮电大学 基于生成对抗网络的红外小目标检测方法
CN111275692B (zh) * 2020-01-26 2022-09-13 重庆邮电大学 基于生成对抗网络的红外小目标检测方法
CN111353995A (zh) * 2020-03-31 2020-06-30 成都信息工程大学 一种基于生成对抗网络的宫颈单细胞图像数据生成方法
CN111353995B (zh) * 2020-03-31 2023-03-28 成都信息工程大学 一种基于生成对抗网络的宫颈单细胞图像数据生成方法
CN111767945A (zh) * 2020-06-08 2020-10-13 上海交通大学 基于CycleGAN网络模型的车牌样本生成方法及系统
CN111563899A (zh) * 2020-06-09 2020-08-21 南京汇百图科技有限公司 一种髋关节ct图像中骨的分割方法
CN112380374A (zh) * 2020-10-23 2021-02-19 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112380374B (zh) * 2020-10-23 2022-11-18 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112419201A (zh) * 2020-12-04 2021-02-26 珠海亿智电子科技有限公司 一种基于残差网络的图像去模糊方法
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN116721176B (zh) * 2023-08-10 2023-11-10 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置

Also Published As

Publication number Publication date
CN110610124B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN110610124B (zh) 一种基于生成对抗网络的图像生成方法
Cai et al. Exploring object relation in mean teacher for cross-domain detection
Wu et al. Dcan: Dual channel-wise alignment networks for unsupervised scene adaptation
Zhang et al. Fully convolutional adaptation networks for semantic segmentation
Zhang et al. Separating style and content for generalized style transfer
US11854244B2 (en) Labeling techniques for a modified panoptic labeling neural network
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN111914797B (zh) 基于多尺度轻量级卷积神经网络的交通标志识别方法
CN103984963B (zh) 一种高分辨率遥感图像场景分类方法
CN113838064B (zh) 一种基于分支gan使用多时相遥感数据的云去除方法
CN110136162A (zh) 无人机视角遥感目标跟踪方法及装置
CN109949200A (zh) 基于滤波器子集选择和cnn的隐写分析框架构建方法
Wang et al. A multistage information complementary fusion network based on flexible-mixup for HSI-X image classification
Yuan et al. Multi-attention DeepEMD for few-shot learning in remote sensing
CN116030453A (zh) 一种数字电气表计的识别方法、装置及设备
CN111695455A (zh) 一种基于耦合判别流形对齐的低分辨人脸识别方法
Zhang et al. Boosting transferability of physical attack against detectors by redistributing separable attention
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法
CN109615576A (zh) 基于级联回归基学习的单帧图像超分辨重建方法
CN104732238B (zh) 基于方位选择性的灰度图像纹理特征提取的方法
CN110020986A (zh) 基于欧氏子空间群两重映射的单帧图像超分辨率重建方法
Sun et al. Image generation framework for unbalanced license plate data set
Yu et al. Night-time vehicle model recognition based on domain adaptation
Hu et al. GeoPalette: Road segmentation with limited satellite imagery
Gupta et al. Parametric Synthesis of Text on Stylized Backgrounds using PGGANs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant