CN113643400B

CN113643400B - 一种图像生成方法

Info

Publication number: CN113643400B
Application number: CN202110966379.1A
Authority: CN
Inventors: 马立勇; 刘雪微; 刘鹏; 张湧
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2022-05-24
Anticipated expiration: 2041-08-23
Also published as: CN113643400A

Abstract

本发明公开了一种图像生成方法，包括：获取训练数据集，所述训练数据集包括若干张第一图像和若干张第二图像；其中，所述第一图像为原图像，所述第二图像为待生成类别的图像；基于CycleGAN和VAE建立神经网络模型；通过所述训练数据集对所述神经网络模型进行训练，训练好的所述神经网络模型用于进行图像生成。本发明采用CycleGAN与VAE结合的方式，通过VAE网络产生图像的编码分布，将产生的编码输入到CycleGAN网络作为其生成图像的噪声信号，并对生成的图像加上类别限制，能够保证生成的图像是期望的图像，使生成的图像逼真的同时也具有较好的细节信息。

Description

一种图像生成方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像生成方法。

背景技术

视觉是一种对物体进行种类识别和检测的重要方法。随着人工智能技术的发展，视觉检测技术发展快速，基于计算机视觉的图像识别和检测技术也迅速发展。目前以深度学习为代表的机器学习方法已经成为图像识别和检测的主流方法。这些方法首先需要利用大量要分类或者识别检测的目标的图像进行学习，提取到种类或者目标的特征，然后利用特征完成分类。因此大量图像样本是机器学习方法开展有效训练的基础，也是人工智能中的机器学习方法实现的基础。

但是实际机器学习中由于收集到的图像数据集有限，而且各类图像数据集的图像数据量会有很大差别，且不同的视角、不同的大小、物体的形变、物体的遮挡、光照条件、背景复杂、每一类中有多种形态等因素都会影响最终的实际的基于视觉的分类和目标识别的准确性。为了能够更好地让机器学习方法学习到对象种类或者目标的特征分布，则需要对已经收集到的图像数据集进行增广。图像增广就是利用已有图像通过图像生成方法产生新的图像。

通过图像生成方法产生新图像的数据增广方法被广泛使用。使用图像生成方法能够获得各种不同于原图像的新的图像，可以在不改变原始图像的语义特征的同时增大了样本量，使得样本的数据分布更加接近真实分布，从而提高模型的泛化能力。缓解数据的不均衡问题，同时这些方法不会改变数据语义特征分布。使用图像生成方法还能够增强模型对未见过的图像的判断能力，且能够防止模型过拟合。

图像生成方法中被广泛使用的有旋转、平移、缩放、随机裁剪、加入高斯模糊、改变亮度、色调和饱和度等方法。但是这些方法都无法实现对复杂背景图像的扩充。

生成对抗网络(GAN,Generative Adversarial Network)可以对图像样本进行处理实现图像生成，例如突出图像中感兴趣部分，减弱或去除不需要的信息。GAN是一种以半监督学习方式训练的模型,能够通过一系列卷积操作提取图像特征，对图像特征重组以后通过反卷积操作生成包含目标特征的图像，因此可以作为图像生成方法使用。传统的GAN是单向的，训练这个单向GAN需要两个损失函数，CycleGAN本质上是两个镜像对称的对抗生成网络构成的环形网络，可以实现无配对的两个图像集的训练，克服了pixel2pixel方法存在的要求样本必须严格配对的缺点。CycleGAN的优点是产生的图像质量高，细节清晰,存在的主要问题是训练困难，可能会产生不收敛的情况，另外，生成的结果图像不能保证样本的分布特点。

变分自编码器(VAE，Variational Auto-Encoder)是另一种能够实现图像生成的方法，但由于没有对抗过程对生成图像真假进行判断，VAE模型仅经过计算原始图像与生成图像的均方差就可以实现模型的训练，导致其生成图像相比GAN会更加模糊。

因此，有必要提供一种图像生成方法，使得生成的图像是期望的图像，且图像逼真，具有较好的细节信息。

发明内容

本发明的目的是提供一种图像生成方法，以解决现有技术的问题，采用CycleGAN与VAE结合的方式，通过VAE网络产生图像的编码分布，将产生的编码输入到CycleGAN网络作为其生成图像的噪声信号，并对生成的图像加上类别限制，能够保证生成的图像是期望的图像，使生成的图像逼真的同时也具有较好的细节信息。

为实现上述目的，本发明提供了如下方案：本发明提供一种图像生成方法，包括：

获取训练数据集，所述训练数据集包括若干张第一图像和若干张第二图像；其中，所述第一图像为原图像，所述第二图像为待生成类别的图像；

基于CycleGAN和VAE建立神经网络模型；

通过所述训练数据集对所述神经网络模型进行训练，训练好的所述神经网络模型用于进行图像生成。

可选地，所述CycleGAN包括第一鉴别器DX、第二鉴别器DY、第一生成器G1和第二生成器G2；所述VAE包括第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY。

可选地，所述神经网络模型的结构包括：

所述第一编码器E1、第一生成器G1、第二编码器E2、第二生成器G2依次连接；所述第二生成器G2一端与所述第二编码器E2连接，另一端分别与所述第一鉴别器DX和所述第一分类器CX连接；所述第二鉴别器DY和所述第二分类器CY连接于所述第一生成器G1和所述第二编码器E2之间；

所述第一编码器E1用于输入第一图像X或第一输出图像X’，还用于输入第一图像X对应的图像类别XC，并输出第一编码ZX；

所述第一生成器G1用于输入第一编码ZX和第二图像Y对应的图像类别YC，并输出第二输出图像Y’；

所述第二编码器E2用于输入第二图像Y或第二输出图像Y’，还用于输入第二图像Y对应的图像类别YC，并输出第二编码ZY；

所述第二生成器G2用于输入第二编码ZY和第一图像X对应的图像类别XC，并输出第一输出图像X’；

所述第一分类器CX用于输入第一图像X或第一输出图像X’，并输出第一图像X或第一输出图像X’所属的类别；

所述第二分类器CY用于输入第二图像Y或第二输出图像Y’，并输出第二图像Y或第二输出图像Y’所属的类别；

所述第一鉴别器DX用于输入第一图像X或第一输出图像X’，并输出第一图像X或第一输出图像X’的真实度概率；

所述第二鉴别器DY用于输入第二图像Y或第二输出图像Y’，并输出第二图像Y或第二输出图像Y’的真实度概率。

可选地，通过所述训练数据集对所述神经网络模型进行训练的过程中，损失函数包括：鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失。

可选地，所述损失函数L的计算如式1所示：

L＝L_DX+L_DY+L_CX+L_CY+λ₁L_KL+λ₂(L_GX+L_GY)+λ₃(L_GDX+L_GDY)+λ₄(L_GCX+L_GCY)

……………………1

式中，L_DX、L_DY分别为第一鉴别器DX、第二鉴别器DY的鉴别损失函数；L_CX、L_CY分别为第一分类器CX、第二分类器CY的类别损失函数；L_KL为散度损失函数；L_GX、L_GY分别为第一生成器G1和第二生成器G2的生成损失函数；L_GDX、L_GDY分别为第一鉴别器DX、第二鉴别器DY的生成鉴别损失函数；L_GCX、L_GCY分别为第一分类器CX、第二分类器CY的生成类别损失函数；λ₁、λ₂、λ₃、λ₄均为权重参数。

可选地，L_DX、L_DY、L_CX、L_CY、L_KL、L_GX、L_GY、L_GDX、L_GDY、L_GCX、L_GCY的计算分别如式2-式12所示：

式中，||·||₂表示L2范数，P_data(A)表示A所在数据集的真实概率分布，

表示A属于P_data(A)的期望，A∈{X，Y，ZX，ZY}，P(·)表示概率，λ₁、λ₂、λ₃、λ₄均为权重参数，μ_ZX、μ_ZY分别表示ZX、ZY的均值，ε_ZX、ε_ZY分别表示ZX、ZY的方差。

可选地，通过所述训练数据集对所述神经网络模型进行训练的终止条件为：

设置最大训练次数，当训练次数达到最大训练次数时，训练完成。

可选地，对所述神经网络模型进行训练后，还包括：

获取待进行图像生成的第一图像，将所述第一图像输入训练好的所述神经网络模型，输出生成的第二图像。

可选地，对所述神经网络模型进行训练后，还包括：获取图像生成得到的第二图像，将所述第二图像输入训练好的所述神经网络模型，输出待进行图像生成的第一图像。

本发明公开了以下技术效果：

本发明提供了一种图像生成方法，结合CycleGAN和VAE建立神经网络模型，并通过由原图像和待生成类别的图像组成的训练数据集对神经网络模型进行训练，通过VAE网络产生图像的编码分布，将产生的编码输入到CycleGAN网络作为其生成图像的噪声信号，并对生成的图像加上类别限制，能够保证生成的图像是期望的图像，使生成的图像逼真的同时也具有较好的细节信息；同时，本申请在训练过程中，采用鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失共六类损失函数，通过该六类损失函数从生成类别、中间隐变量分布、生成图像真假三个方面限制生成图像，使得生成的图像与目标图像处于同一空间，使得生成的图像更加逼真。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中图像生成方法流程图；

图2为传统GAN工作流程示意图；

图3为CycleGAN工作原理示意图；

图4为VAE工作原理示意图；

图5为本发明实施例中神经网络模型结构示意图；

图6为本发明实施例中第一编码器E1、第二编码器E2的网络结构示意图；

图7为本发明实施例中第一生成器G1和第二生成器G2的网络结构示意图；

图8为本发明实施例中第一鉴别器DX、第二鉴别器DY的网络结构示意图；

图9为本发明实施例中ResBlock的网络结构示意图；

图10为本发明实施例中本发明方法生成的图像与标准CycleGAN方法生成的图像的对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1所示，本实施例提供一种图像生成方法，包括：

S1、获取训练数据集，训练数据集包括若干张第一图像X和若干张第二图像Y；其中，第一图像X为原图像，第二图像Y为待生成类别的图像；

S2、基于CycleGAN和VAE建立神经网络模型；

CycleGAN和VAE的原理分别如下：

GAN包括生成器(Generator，简称G)和鉴别器(Discriminator，简称D)，G用来生成数据，D用来对真实数据和生成数据进行鉴别，两者同时训练。G负责把原始图像尽可能地模仿成含有目标特征的真实图像，而D尽可能地把G生成的图像和真实图像分开，G、D二者形成博弈。经过二者的博弈，G的生成能力增强，D的鉴别能力得到提高。当D分辨不出图像是真实的还是G生成的图像的时候，对抗的过程达到纳什均衡，此时认为对抗过程结束，G获得最优的生成能力，D获得最强的辨别能力。

传统GAN包括从域A生成域B中假图像的生成器G_AB，从域B中假图像恢复到域A中的重构图像的生成器G_BA，和域B中的鉴别器D_B，如图2所示。传统的GAN是单向的，训练这个单向GAN需要两个损失函数：生成器的重建损失函数L和判别器的判别损失函数LGAN，其计算方法如下：

L(G_AB，G_BA，A，B)＝E_a～A[||G_BA(G_AB(a))||₁]

L_GAN(G_AB，D_B，A，B)＝E_b～B[log D_B(b)]+E_a～A[log(1-D_B(G_AB(a)))]

式中，E[ ]表示分布函数的期望值，a～A表示样本a所属的域A，b～B表示样本b所属的域B，|| ||1表示L1范数。重建损失函数L的目的是使重构的图像GBA(GAB(a))与原图a尽可能地相似。判别损失函数L_GAN的目的是使生成网络生成的图像符合目标图像的特征分布。

CycleGAN本质上是两个镜像对称的对抗生成网络构成的环形网络。如图3所示，CycleGAN共有两个判别器：DX、DY，两个生成器：G和F，对抗生成网络共享两个生成器，但鉴别器相互独立。CycleGAN的一个优点是可以实现无配对的两个图像集的训练，克服了pixel2pixel方法存在的要求样本必须严格配对的缺点。CycleGAN工作原理是，通过训练创建原始数据集到生成数据集的映射，从而确保输入图像和生成图像间存在有意义的关联。如图3所示，CycleGAN从域A获取图像x，x输入生成器G得到目标域B中的图像

图像

再通过生成器F恢复得到域A中的图像

类似地，有从域B中的y到

的对称过程。

为了使得生成的图像符合要求，需要使用损失函数对图像生成过程进行约束。设G为A域图像到B域图像的映射函数，F为B域图像到A域图像的映射函数，D_X和D_Y分别为GAN网络的在A域和B域的判别器。在CycleGAN中，损失函数定义如下：

L(G，F，D_X，D_Y)＝L_GAN(G，D_Y，A，B)+L_GAN(F，D_X，B，A)+λL_cyc(G，F)

式中，|| ||1表示L1范数，E表示期望，P_data(x)和P_data(y)分别表示x和y样本所在数据集的真实概率分布，λ为权重参数。L(G，F，D_X，D_Y)为整个GAN的损失函数，L_GAN(G，D_Y，A，B)、L_GAN(F，D_X，B，A)损失函数用于保证生成的图像接近域A或域B的真实图像；L_cyc(G，F)为GAN的循环损失函数，保证域A到域B的映射不是单射，从而避免A向B映射时将A空间的元素映射为B空间的某一特定元素。

VAE通过构建一个中间隐变量，再将隐变量输入至编码网络实现图像生成。VAE生成图像过程不存在对抗过程，因此不要求在生成图像时达到纳什均衡。由于目前还没有找到很好的达到纳什均衡的方法，因此训练VAE相比GAN具有训练稳定的特点。VAE的最大特点是模仿自编码器的学习预测机制，在可测函数之间进行编码、解码。其最重要的思想是基于一个数学事实：对于一个目标概率分布，给定任何一种概率分布，总存在一个可微的可测函数，将其映射到另一种概率分布，使得这种概率分布与目标的概率分布任意地接近。VAE的一个重要的哲学思想是，遵从图模型，希望生成的样本是由某些隐含变量所构造出来的。VAE利用一个联合高斯分布作为隐含可测函数的分布，随即将问题转化为学习一个从隐含可测函数(隐含变量)到一个所希望生成样本的映射，这个过程就是解码过程。利用编码器能够获得输入图像经过编码后对应的噪声分布，噪声分布的选择能够控制图像的生成，即可以通过选择噪声得到想要生成的图像。可以在VAE编码过程中通过对噪声的选择对生成目标类别进行限制，使得编码器输出的特征向量服从标准正态分布。通过选择合适的服从标准正态分布的噪声，将其作为解码器网络的输入，经过解码器的反卷积计算过程，将噪声还原为想要的图像。该过程不需要输入图像，仅需要输入一组标准正态分布的噪声即可生成想要的图像。由于没有对抗过程对生成图像真假进行判断，VAE模型仅经过计算原始图像与生成图像的均方差就可以实现模型的训练，导致其生成图像相比GAN会更加模糊。VAE工作原理如图4所示。

本申请中，CycleGAN包括第一鉴别器DX、第二鉴别器DY、第一生成器G1和第二生成器G2；VAE包括第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY；第一编码器E1、第一生成器G1、第二编码器E2、第二生成器G2依次连接；第二生成器G2一端与第二编码器E2连接，另一端分别与第一鉴别器DX和第一分类器CX连接；第二鉴别器DY和第二分类器CY连接于第一生成器G1和第二编码器E2之间，如图5所示。

第一编码器E1用于输入第一图像X或第一输出图像X’，还用于输入第一图像X对应的图像类别XC，并输出第一编码ZX；

第一生成器G1用于输入第一编码ZX和第二图像Y对应的图像类别YC，并输出第二输出图像Y’；

第二编码器E2用于输入第二图像Y或第二输出图像Y’，还用于输入第二图像Y对应的图像类别YC，并输出第二编码ZY；

第二生成器G2用于输入第二编码ZY和第一图像X对应的图像类别XC，并输出第一输出图像X’；

第一分类器CX用于输入第一图像X或第一输出图像X’，并输出第一图像X或第一输出图像X’所属的类别；

第二分类器CY用于输入第二图像Y或第二输出图像Y’，并输出第二图像Y或第二输出图像Y’所属的类别；

第一鉴别器DX用于输入第一图像X或第一输出图像X’，并输出第一图像X或第一输出图像X’的真实度概率；

第二鉴别器DY用于输入第二图像Y或第二输出图像Y’，并输出第二图像Y或第二输出图像Y’的真实度概率。

S3、通过训练数据集对神经网络模型进行训练，训练好的神经网络模型用于进行图像生成；

该步骤中，通过训练数据集对神经网络模型进行训练的过程中，损失函数包括六个部分，分别为：鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失；该六个部分从生成类别、中间隐变量分布、生成图像真假三个方面限制生成图像，使得生成图像与目标图像处于同一空间。上述网络结构中引入了分类器网络对生成的图像进行类别限制，从而使得生成的图像更加逼真。

损失函数L的计算如式(1)所示：

……………………(1)

其中，L_DX、L_DY分别为第一鉴别器DX、第二鉴别器DY的鉴别损失函数；L_CX、L_CY分别为第一分类器CX、第二分类器CY的类别损失函数；L_KL为散度损失函数；L_GX、L_GY分别为第一生成器G1和第二生成器G2的生成损失函数；L_GDX、L_GDY分别为第一鉴别器DX、第二鉴别器DY的生成鉴别损失函数；L_GCX、L_GCY分别为第一分类器CX、第二分类器CY的生成类别损失函数。

L_DX、L_DY、L_CX、L_CY、L_KL、L_GX、L_GY、L_GDX、L_GDY、L_GCX、L_GCY的计算分别如式(2)-式(12)所示：

另外，图5中f_c(X)和f_c(X’)分别表示通过第一分类器CX对输入X和X’进行分类，分类结果为C(X)和C(X’)；f_c(Y)和f_c(Y’)分别表示通过第二分类器CY对输入Y和Y’进行分类，分类结果为C(Y)和C(Y’)；f_d(X)和f_d(X’)分别表示通过第一鉴别器DX对输入X和X’进行鉴别，鉴别结果为D(X)和D(X’)；f_d(Y)和f_d(Y’)分别表示通过第二鉴别器DY对输入Y和Y’进行鉴别，鉴别结果为D(Y)和D(Y’)。

训练的终止条件通过设置最大训练次数实现，当训练次数达到最大训练次数时，训练完成；使用步骤S1中的所有第一图像作为输入完成的训练为一次训练。

完成对神经网络模型的训练后，还包括如下步骤：

S4、获取待进行图像生成的第一图像，将第一图像输入训练好的神经网络模型，输出生成的第二图像。

进一步地，由于网络结构的对称性，步骤S4还包括：获取生成的第二图像，将第二图像输入训练好的神经网络模型，输出第一图像。

如下以水面图像的船舶识别为例对本申请图像生成方法进行详细说明；其中，第一图像X为水面拍摄的清晰的船舶图像，第二图像Y为不清晰的船舶图像；船舶航行时受海水波动导致相机采集到的图像会产生运动模糊，通过收集带有运动模糊的船舶图像得到第二图像；共收集第一图像和第二图像各500张。

第一编码器E1、第二编码器E2的网络结构如图6所示，第一生成器G1和第二生成器G2的网络结构如图7所示，第一鉴别器DX、第二鉴别器DY的网络结构如图8所示，图6–图8中，Conv为卷积层，GLU(Gated Linear Unit)为门控线性单元，IN(Instance Normalization)为实例标准化层，AdaIN(Adaptive Instance Normalization)为自适应实例标准化层，ResBlock为残差块，ResBlock的网络结构如图9所示；第一分类器CX、第二分类器CY采用经过ImageNet数据集预训练的标准的ResNet50网络结构。

第一鉴别器DX、第二鉴别器DY、第一生成器G1、第二生成器G2、第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY所有网络的训练均采用Adam优化方法，批大小设置为1，权重参数λ₁、λ₂、λ₃、λ₄均设置为10，损失函数按照公式(1)-(12)进行计算所有网络的起始学习率均设置为0.0002，并从训练次数到达最大训练次数的一半时开始衰减，到最大训练次数的时候，线性衰减至0，其中，最大训练次数设置为1000。

输入一张清晰的海面船舶图像至训练好的神经网络模型，能够生成一张模糊的海面船舶图像，这些新生成的模糊的海面船舶图像，能够用于图像的目标检测或者分类任务，提高了目标检测或者分类的鲁棒性。

为了进一步验证本发明的效果，本实施例中将本发明方法生成的图像与标准CycleGAN方法生成的图像进行比较，比较结果如图10给所示，由图10可以看出，本发明方法生成的图像具有更好的图像清晰度和细节。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种图像生成方法，其特征在于，包括：

基于CycleGAN和VAE建立神经网络模型；

通过所述训练数据集对所述神经网络模型进行训练，训练好的所述神经网络模型用于进行图像生成；

所述CycleGAN包括第一鉴别器DX、第二鉴别器DY、第一生成器G1和第二生成器G2；所述VAE包括第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY；

所述神经网络模型的结构包括：

2.根据权利要求1所述的图像生成方法，其特征在于，通过所述训练数据集对所述神经网络模型进行训练的过程中，损失函数包括：鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失。

3.根据权利要求2所述的图像生成方法，其特征在于，所述损失函数L的计算如式1所示：L＝L_DX+L_DY+L_CX+L_CY+λ₁L_KL+λ₂(L_GX+L_GY)+λ₃(L_GDX+L_GDY)+λ₄(L_GCX+L_GCY)……………………1

4.根据权利要求3所述的图像生成方法，其特征在于，L_DX、L_DY、L_CX、L_CY、L_KL、L_GX、L_GY、L_GDX、L_GDY、L_GCX、L_GCY的计算分别如式2-式12所示：

式中，||·||2表示L2范数，P_data(A)表示A所在数据集的真实概率分布，

5.根据权利要求1所述的图像生成方法，其特征在于，通过所述训练数据集对所述神经网络模型进行训练的终止条件为：

6.根据权利要求1所述的图像生成方法，其特征在于，对所述神经网络模型进行训练后，还包括：

7.根据权利要求1所述的图像生成方法，其特征在于，对所述神经网络模型进行训练后，还包括：获取图像生成得到的第二图像，将所述第二图像输入训练好的所述神经网络模型，输出待进行图像生成的第一图像。