CN110610124B

CN110610124B - 一种基于生成对抗网络的图像生成方法

Info

Publication number: CN110610124B
Application number: CN201910697197.1A
Authority: CN
Inventors: 殷绪成; 孙明; 杨春
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-11-30
Anticipated expiration: 2039-07-30
Also published as: CN110610124A

Abstract

本发明提出了一种基于生成对抗网络的图像生成方法，包括以下步骤：1、把合成数据既输入到成对数据模块的生成器以训练出成对数据模块的生成数据，又输入到不成对数据模块的生成器以训练出不成对数据模块的生成数据；2、形成混合数据；3、把所述的混合数据输入到成对数据模块的判别器，并把所述成对数据模块的生成数据也输入到成对数据模块中的判别器；4、所述成对数据模块的判别器判断结果反馈到成对数据模块的生成器。生成图像的Inception score接近于真实图像，可以得到更低的FID score，提高了数据的保真度和多样性。

Description

一种基于生成对抗网络的图像生成方法

技术领域

本发明涉及计算机视觉的图像生成技术领域，具体涉及一种基于生成对抗网络的图像生成方法。

背景技术

车牌号码作为车辆的唯一标识，其特殊性及重要性决定了车牌识别系统成为智能交通管理系统中不可或缺的重要组成部分。车牌识别系统为城市交通管理提供了方便、快捷、适用的手段，成为近几年研究的热点。目前，非常火热的车牌识别算法是基于深度神经网络的，那么想要获得比较高的精度和鲁棒性，就需要大量的车牌标注数据。但是，可能涉及到个人隐私信息以及有多种类型的车牌，需要花费大量的时间、资金和人力去进行收集和标注。而且，车牌识别是一项具有区域特征的任务，在不同的国家和地区，车牌号码的定义规则是不一样的。在中国，每个省份、直辖市、自治区之间的车牌首字符都是不一样的，需要对每个地区车牌进行收集。重要的是，在真实场景中，会有夜晚、倾斜角度、分辨率低、运动模糊、曝光以及遮挡等多样车牌，进一步增加了车牌数据收集的难度。为提高模型的鲁棒性和高性能，在每个地区收集数量足够、各式各样的车牌数据是很困难的。

在先前的工作中，为了减少成本，使用计算机图形脚本，按照字体、颜色和构图规则合成车牌图像。值得注意的是，这些合成图像并不如真实的照片，由于仅限于手工规则很难模拟真实车牌图像。这种做法训练出的车牌识别模型在真实数据上的效果并不好，模型很容易学习错误的知识；还有的做法是，对真实数据进行数据增强，比如翻转、镜像、裁剪不同的大小、调整图像对比度和饱和度等做法，增加真实数据的样本量。使用合成数据预训练识别模型，然后使用增广的真实数据微调训练，可能会有好一点的效果。但是，增广的车牌数据也只是让本发明模型更好的学习这些数据的特征，模型的泛化能力一般，针对一些地区没见过的车牌，效果一般。

生成对抗网络(GANs)(Goodfellow I.NIPS 2016Tutorial:GenerativeAdversarial Networks[J].2016.)在结构上受到零和博弈的启发，系统有生成器与判别器构成。生成器捕捉真实数据的潜在分布，生成以假乱真的数据去迷惑判别器，判别器去判别输入数据是真实数据还是假数据。深度卷积神经网络(DCGANs)(Radford A,Metz L,Chintala S.Unsupervised Representation Learning with Deep ConvolutionalGenerative Adversarial Networks[J].Computer Science,2015.)为训练GANs提供了一个稳定的结构。条件生成对抗网络(CGAN)(Mirza M,Osindero S.Conditional GenerativeAdversarial Nets[J].Computer Science,2014.)通过在生成器和判别器上进行条件约束，生成具有特定类标签的图像。不仅可以通过类标签生成图像，生成对抗网络还可以通过文本描述(Reed S,Akata Z,Yan X,et al.Generative Adversarial Text to ImageSynthesis[J].2016.)或者图像(Isola P,Zhu J,Zhou T,et al.Image-to-ImageTranslation with Conditional Adversarial Networks[J].{IEEE}Computer Society,2017)为条件,这种约束可以实现文本到图像的合成，或者图像到图像的风格转换。Isola等人提出pix2pix，去对成对的数据进行风格转换。如图2c和图2d所示，虽然可以通过学习合成数据的实际分布来生成一些图像，但在没有训练数据的一些省份上，图像中汉字字符会变得模糊。为了解决非成对数据的训练问题，Zhu等人提出了CycleGAN(Zhu J Y,Park T,Isola P,et al.Unpaired Image-to-Image Translation using Cycle-ConsistentAdversarial Networks[J].2017.)，CycleGAN引入了循环一致性损失对非成对数据进行训练。如图2a和图2b所示，CycleGAN只能生成一种车牌图片风格，生成的图片质量比用pix2pix生成的图片质量要低。

GANs存在训练不稳定、梯度消失、模型坍塌的问题。最小二乘生成对抗网络(MaoX,Li Q,Xie H,et al.Least Squares Generative Adversarial Networks[J].2016.)针对的是标准GAN生成的图片质量不高以及训练不稳定这两个缺陷进行改进。改进方法就是将GAN的目标函数由交叉熵损失换成最小二乘损失。为了提高训练的稳定性和防止模式崩溃，采用Wasserstein距离的生成对抗网络(WGAN)(Arjovsky M,Chintala S,Bottou,Léon.Wasserstein GAN[J].2017.)的工作设计了一种训练算法，提供了一些技巧。加入梯度惩罚的Wasserstein距离生成对抗网络(WGAN-GP)(Gulrajani I,Ahmed F,Arjovsky M,etal.Improved Training of Wasserstein GANs[J].2017.)是WGAN的改进版本，主要改善了连续性限制条件。为使判别器具有利普希茨连续条件以及训练稳定性，从“层参数”的角度来看，对判别器使用谱归一化(Miyato T,Kataoka T,Koyama M,et al.SpectralNormalization for Generative Adversarial Networks[J].2018.)。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于生成对抗网络的图像生成方法，该方法将基于不成对数据的模块和基于成对数据的模块结合起来，生成高保真、多样和类平衡的数据。针对车牌这种典型的非平衡数据，应用本发明的算法实现了一个端到端的车牌生成系统，生成多省份、多场景下的车牌数据。

为实现本发明的目的，采取以下的技术方案：一种基于生成对抗网络的图像生成方法，将成对数据模块和不成对数据模块结合起来生成图像，主要可以包括以下步骤：

步骤1、把成对数据模块中的合成数据既输入到成对数据模块的生成器以训练出成对数据模块的生成数据，又输入到不成对数据模块的生成器以训练出不成对数据模块的生成数据；

步骤2、把不成对数据模块的生成数据和非平衡的真实数据进行混合，形成混合数据；

步骤3、把所述的混合数据输入到成对数据模块的判别器，并把所述成对数据模块的生成数据也输入到成对数据模块中的判别器；

步骤4、所述成对数据模块的判别器判断出输入的混合数据和成对数据模块的生成数据是真实数据还是虚假数据，并把是真实数据还是虚假数据的判断结果反馈到成对数据模块的生成器。

所述的将成对数据模块和不成对数据模块结合起来，是把生成对抗网络损失和特征匹配损失结合起来，具体通过以下公式进行结合：

其中，λ表示控制

和

的重要性，X是与真实数据配对的合成数据，

是与真实数据未配对的合成数据，Y是真实数据，G_p是成对数据模块的生成器，D_p是成对数据模块的判别器，G_u是不成对数据模块的生成器，

是生成对抗网络的损失函数，这里我们使用的是最小二乘损失，

是特征匹配损失。

在步骤1中，所述训练出不成对数据模块的生成数据，是通过在CycleGAN的基础上附加梯度惩罚方法形成WCycleGAN-GP来实现，具体通过以下公式实现：

其中，

为循环一致性损失，x是与真实数据配对的合成数据,y是真实数据，

和

分别是合成数据与真实数据的数据分布，生成器G_x学习x到y的映射，生成器G_y学习y到x的映射，

表示x符合合成数据分布的函数，

表示y符合真实数据分布的函数，λ₁表示控制

的相对重要性，λ₂表示控制

的相对重要性，||||₁表示求里面数值的L1范数。

所述不成对数据模块还可以具有判别器，所述不成对数据模块的判别器的损失函数为：

其中，x是与真实数据配对的合成数据,y是真实数据，

表示为最小化D_x函数，

表示为最小化D_y函数，D_x为判别y是否为真实数据，D_y为判别x是否为真实数据，生成器G_x学习x到y的映射，生成器G_y学习y到x的映射，λ表示控制

和

的重要，

表示对t求梯度，||||₂表示对里面的数值求L2范数，

表示x符合合成数据分布的函数，

表示y符合真实数据分布的函数，

表示符合

分布的函数，

表示符合

分布的函数,t₁的计算过程：首先，采样合成数据

和真实数据

然后∈～U[0,1]，得到一个随机数，t₁＝∈y+(1-∈)x，计算出t₁，t₁的分布满足于

t₂的计算过程：首先，采样数据

和数据

然后，∈～U[0,1]，得到一个随机数，通过t₂＝∈x+(1-∈)y，计算出t₂，并且，t₂的分布满足于

所述不成对数据模块的生成器的损失函数为：

其中，G_u是不成对数据模块的生成器，x是与真实数据配对的合成数据,y是真实数据，

表示最小化G_x(x)函数，生成器G_x学习x到y的映射，生成器G_y学习y到x的映射，D_x为判别y是否为真实数据,D_y为判别x是否为真实数据,

表示x符合合成数据分布的函数，

表示y符合真实数据分布的函数，

为循环一致性损失。在步骤3中，从层参数的角度对pix2pix的谱归一化进行正则化，使所述成对数据模块的判别器具有利普希茨连续条件，形成SN-pix2pix，所述SN-pix2pix的目标函数为：

其中，λ表示控制

和

的重要性，

和

分别表示最小二乘损失和特征匹配损失，D_sn是带着谱归一化的判别器，G为生成器，

表示为最小化G函数，

表示为最大化D_sn函数。

本发明的技术方案可以还包括以下步骤：输入的所述成对数据模块中的合成数据为灰度车牌图片，采用基于神经网络的时序分类作为损失函数，通过全连接层把输入的灰度车牌图片识别成车牌。

所述通过全连接层把输入的灰度车牌图片识别成车牌之后，再把重新组织的标签作为输出。所述重新组织的标签可以为76个标签，所述的76个标签具有39个汉字、26个字母、10个数字和1个空白字符。

本发明将Wasserstein距离和梯度惩罚应用于CycleGAN并形成了WCycleGAN-GP。本发明将谱归一化技术应用于pix2pix，并形成了SN-pix2pix。本发明的结合了WCycleGAN-GP和SN-pix2pix，生成了具有更好细节和更逼真纹理的车牌图像。

本发明的优点和有益效果：

1、本发明针对车牌这种典型的非平衡数据，应用本发明的算法实现了一个端到端的车牌生成系统，生成多省份、多场景下的车牌数据。测试表明，生成图像的Inceptionscore接近于真实图像，可以得到更低的FID score，该算法可依靠少量真实场景数据生成大量的、覆盖面广、多种多样、以假乱真的车牌数据。

2、本发明实现了一个端到端的框架，将基于不成对数据的模块和基于成对数据的模块结合起来，生成高保真、多样和平衡的数据；采用不成对数据的模块对多个模型进行预训练，解决标签不匹配问题，采用成对数据的模块对配对数据进行训练，以保证图像的高保真度和多样性；在前向传播阶段，可以运用P-module生成大量的车牌图像，这样，训练集就转化为一个平衡的数据集，本发明手动选择U-module，用P-module对数据进行训练。

3、本发明将WGAN-GP应用于CycleGAN并提出了WCycleGAN-GP，本发明将谱归一化技术应用于pix2pix，并提出了SN-pix2pix；本发明结合了WCycleGAN-GP和SN-pix2pix，以生成具有更好细节和更逼真纹理的车牌图像；针对车牌这种典型的非平衡数据，本发明实现了端到端的车牌图像生成方法，生成多省份、多场景下的车牌数据，测试结果表明，生成图像的Inception score接近于真实图像，可以得到更低的FID score，本发明的方法可依靠少量真实场景数据生成大量的、覆盖面广、多种多样、以假乱真的车牌数据。

4、本发明设计了一个不带LSTM结构的车牌识别网络来验证本发明的有效性，在SYSU-ITS数据集上展现了出优越的性能。使用LSTM会增加计算成本，使网络模型复杂化；使用全连接层(FC)可以有效得识别车牌，最后，重新组织为76个标签，包括39个汉字、26个字母、10个数字和空白字符；本发明设计的识别网络具有更少的参数、更快的速度以及更高的准确度，在SYSU-ITS数据集上展现出了优越的性能。

附图说明

图1为本发明的图像生成过程的流程图；使用opencv脚本生成Synthetic data，Fake data由生成器生成，Mixed data数据包含U-module生成的数据和真实数据，带有谱归一化的判别器接受成对数据的输入。

图2a为脚本生成的二值化的车牌图片例子，此图片送入GANs进行测试。

图2b为不成对数据的模块生成的车牌示例，使用图2a中的图像作为输入。

图2c为成对数据的模块生成的车牌示例，使用图2a中的图像作为输入。

图2d为真实车牌图片。

图3a为本发明收集的真实车牌图像数量的分布图。

图3b为在SYSU-ITS数据集中获取的各个省份车牌图像数量的分布图。

图4a为由本发明的方法生成的单行车牌图片。

图4b为由本发明的方法生成的特殊车牌图片。

图5为为车牌识别网络结构的具体参数。

具体实施方式

实施例

下面结合具体实施方式对本发明作进一步的说明。

如图1所示，一种基于生成对抗网络的图像生成方法，将基于成对数据的模块(即：P-module)和不成对数据的模块(即：U-module)结合起来生成图像，U-module用于对多个模型进行预训练，以解决标签不匹配问题，P-module用于对配对数据进行训练，以保证图像的高保真度和多样性，在前向传播阶段，可利用P-module中的主干网络生成大量的车牌图像。如图4a和图4b所示，生成的车牌图像种类繁多，可以覆盖每个区域，保证图像的高保真度，将成对数据的模块(即：P-module)和不成对数据的模块(即：U-module)结合起来的目标函数为：把GAN(生成对抗网络)损失和特征匹配损失结合起来，如以下公式所示：

其中，λ表示控制

和

的重要性，X是与真实数据配对的合成数据，

是与真实数据未配对的合成数据，G_p和D_p分别是P-module的生成器和判别器，G_u是U-module的生成器。

本实施例结合了P-module和U-module，D_p的输入分为三部分：合成数据、混合数据以及生成数据。当G_p的输入是X时，D_p的输入要么是成对的X和Y，要么是成对的X和G_p；当G_p的输入是

时,D_p的输入要么是成对的

和G_u，要么是成对的

和G_p，因此，本实施例的方法解决了这样一个问题：没有成对数据，就无法对

进行训练。

(1)U-module；

本实施例使用WCycleGAN-GP，它通过循环一致性损失解决了不成对数据训练的问题：

和

分别是合成数据与真实数据的数据分布，生成器G_x学习x到y的映射，生成器G_y学习y到x的映射，λ₁表示控制

的相对重要性，λ₂表示控制

的相对重要性。

传统的CycleGAN使用的是最小二乘损失，它训练生成器去优化

训练判别器去优化

本实施例中的U-module具有判别器，将WGAN-GP应用于CycleGAN，以提高训练的稳定性，WGAN-GP采用梯度惩罚方法解决了梯度消失和梯度爆炸的问题，比传统的CycleGAN能够生成出更加高质量的图片，该WCycleGAN-GP中判别器的损失函数为：

t₁的计算过程：首先，采样合成数据

和真实数据

然后∈～U[0,1]，得到一个随机数，最后，t₁＝∈y+(1-∈)x，计算出t₁，t₁的分布满足于

t₂和

跟上述计算过程是相似的。

CycleGAN的目标函数由对抗损失和循环一致性损失组成，在优化生成器时，本实施例使用WGAN-GP损失代替最小二乘损失，WCycleGAN-GP中生成器的损失函数为：

表示最小化G_x(x)函数，生成器G_x学习x到y的映射，生成器G_y学习y到x的映射，D_x表示判别y是否为真实数据，D_y表示判别x是否为真实数据,

表示x符合合成数据分布的函数，

表示y符合真实数据分布的函数，

为循环一致性损失。

(2)P-module；

本实施例在原始的pix2pix上进行了修改。本实施例从“层参数”的角度对谱归一化进行了正则化，使判别器D具有利普希茨连续条件。本实施例分别将最小二乘损失和特征匹配损失作为对抗损失和惩罚项。

的计算过程为：生成样本和真实样本送入判别器去进行特征提取，然后在特征图上进行点乘运算。SN-pix2pix的目标函数为：

其中，λ表示控制

和

的重要性，

和

分别是最小二乘损失和特征匹配损失，D_sn是带着谱归一化的判别器。

本实施例实现了一个端到端的框架。对成对数据可直接用于P-module进行训练，保证图像清晰、真实。未配对数据可以使用U-module生成，以确保在多个省份生成数据。这样，训练集就转化为一个平衡的数据集。目前，本实施例手动选择U-module，用P-module对框架进行训练。

(3)车牌识别；

本实施例的车牌识别网络结构的具体参数如图5所示，其中输出大小代表着通道数×宽度×高度，请注意，图中显示的每个卷积层对应于序列为bn-relu-conv。网络的输入为100×32的灰度车牌图片。

本实施例设计了一个不带LSTM结构的小型车牌识别网络，使用LSTM会增加计算成本，使网络模型复杂化。使用全连接层(FC)可以有效得识别车牌，最后，重新组织为76个标签，包括39个汉字、26个字母、10个数字和空白字符。本实施例使用CTC(ConnectionistTemporal Classification，即：基于神经网络的时序分类)(Graves A,Santiago Fernández,Gomez F.Connectionist temporal classification:Labelling unsegmentedsequence data with recurrent neural networks[C]//International Conference onMachine Learning.ACM,2006.)作为损失函数。

本实施例将基于不成对数据的模块和基于成对数据的模块结合起来，生成高保真、多样和类平衡的数据。本实施例使用基于配对数据的模块来提高数据的保真度和多样性，使用基于未配对数据的模块来解决不平衡问题。针对车牌这种典型的非平衡数据，应用本实施例的算法实现了一个端到端的车牌生成系统，生成多省份、多场景下的车牌数据。实验表明，生成图像的Inception score接近于真实图像，可以得到更低的FID score。而且，本实施例还设计了一个不带LSTM结构的车牌识别网络来验证本实施例中方法的有效性，本实施例中的方法在SYSU-ITS数据集上展现出了优越的性能。

(1)本实施例使用的数据集；

本实施例在SYSU-ITS开源数据集上评估了本实施例方法的性能，本实施例使用的数据集共有3338个车牌图像，全部来自于高清的卡口图像，每个图像仅包含一个车牌。由于该数据集没有提供车牌矩形框，因此本实施例不考虑车牌图像是否能被检测网络正确地召回，将车牌图像截出来进行识别。本实施例使用SYSU-ITS数据集中的单行车牌图像作为测试集，其中包含31个省份的车牌数据，该数据分布如图3b所示。

本实施例收集了六个省份的车牌数据集，总计超过8200个，以这些数据为基础来训练本实施例的框架和车牌识别网络，但此数据集不平衡，如上海和广东占很大比例，数据分布具体如图3a所示，这样的数据集更符合真实车牌数据的采集。

(2)测试描述；

在本实施例的测试过程中，图像生成框架是通过pytorch实现的，测试是在带有12GB内存的NVIDIA TITAN Xp GPU上实现的，采用U-module对多个模型进行预训练，解决标签不匹配问题，P-module用于对配对数据进行训练，以保证图像的高保真度和多样性。在前向传播阶段，可利用P-module中的主干网络可以生成大量的车牌图像，其中，训练U-module和P-module的真实数据如图3a所示。

在使用本实施例中的方法生成各省车牌图片后，再使用Inception score和FIDscore对本实施例的图像进行评估，Inception score越高，FID score越低，代表生成图片的质量更高，多样性更丰富。

此外，本实施例还设计了一个不带LSTM结构的车牌识别网络来验证本实施例框架的有效性，在SYSU-ITS数据集上展现了出优越的性能。

(3)测试结果；

根据Inception score和FID score，比较了本实施例的方法和现有技术中的性能，不同的GANs模型生成60000张车牌图像进行评估，真实图像数据集包含本实施例收集的数据以及SYSU-ITS中的图片，测试表明，生成图像的Inception score为2.11，接近于真实图像，并且，在本实施例的方法中，FID score为33.59，比现有技术中的更低。

本实施例训练车牌识别网络使用合成车牌数据和真实数据，测试集使用的是SYSU-ITS数据集，该SYSU-ITS数据集模型受合成数据和不平衡真实数据的影响，性能较差，识别率为83.3％，但是，使用本实施例方法生成的车牌数据训练识别网路，在测试集上展现出了优越的性能，识别率可以高达到94.3％。为了进一步评价本实施例的方法在非平衡车牌数据集中的有效性，本实施例对测试集中的每个省份进行了测试，测试结果表明，在一些训练集中没有真实车牌省份的情况下，识别率有非常大幅度的提升。

本实施例中的方法将基于不成对数据的模块和基于成对数据的模块结合起来，生成高保真、多样和类平衡的数据。本实施例使用基于配对数据的模块来提高数据的保真度和多样性，使用基于未配对数据的模块来解决不平衡问题。针对车牌这种典型的非平衡数据，应用本实施例的方法实现了一个端到端的车牌生成系统，生成多省份、多场景下的车牌数据。测试表明，生成图像的Inception score接近于真实图像，可以得到更低的FIDscore。而且，本实施例还设计了一个不带LSTM结构的车牌识别网络来验证本实施例中的方法的有效性，在SYSU-ITS数据集上展现出优越了的性能；如图4a和图4b所示，本实施例生成的车牌图像种类繁多，可以覆盖每个区域，保证了图像的高保真度。

上列详细说明是针对本发明可行实施例的具体说明，该实施例并非用以限制本发明的专利范围，凡未脱离本发明所为的等效实施或变更，均应包含于本案的专利范围中。