CN113643400A - 一种图像生成方法 - Google Patents

一种图像生成方法 Download PDF

Info

Publication number
CN113643400A
CN113643400A CN202110966379.1A CN202110966379A CN113643400A CN 113643400 A CN113643400 A CN 113643400A CN 202110966379 A CN202110966379 A CN 202110966379A CN 113643400 A CN113643400 A CN 113643400A
Authority
CN
China
Prior art keywords
image
output
training
discriminator
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110966379.1A
Other languages
English (en)
Other versions
CN113643400B (zh
Inventor
马立勇
刘雪微
刘鹏
张湧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN202110966379.1A priority Critical patent/CN113643400B/zh
Publication of CN113643400A publication Critical patent/CN113643400A/zh
Application granted granted Critical
Publication of CN113643400B publication Critical patent/CN113643400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种图像生成方法,包括:获取训练数据集,所述训练数据集包括若干张第一图像和若干张第二图像;其中,所述第一图像为原图像,所述第二图像为待生成类别的图像;基于CycleGAN和VAE建立神经网络模型;通过所述训练数据集对所述神经网络模型进行训练,训练好的所述神经网络模型用于进行图像生成。本发明采用CycleGAN与VAE结合的方式,通过VAE网络产生图像的编码分布,将产生的编码输入到CycleGAN网络作为其生成图像的噪声信号,并对生成的图像加上类别限制,能够保证生成的图像是期望的图像,使生成的图像逼真的同时也具有较好的细节信息。

Description

一种图像生成方法
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像生成方法。
背景技术
视觉是一种对物体进行种类识别和检测的重要方法。随着人工智能技术的发展,视觉检测技术发展快速,基于计算机视觉的图像识别和检测技术也迅速发展。目前以深度学习为代表的机器学习方法已经成为图像识别和检测的主流方法。这些方法首先需要利用大量要分类或者识别检测的目标的图像进行学习,提取到种类或者目标的特征,然后利用特征完成分类。因此大量图像样本是机器学习方法开展有效训练的基础,也是人工智能中的机器学习方法实现的基础。
但是实际机器学习中由于收集到的图像数据集有限,而且各类图像数据集的图像数据量会有很大差别,且不同的视角、不同的大小、物体的形变、物体的遮挡、光照条件、背景复杂、每一类中有多种形态等因素都会影响最终的实际的基于视觉的分类和目标识别的准确性。为了能够更好地让机器学习方法学习到对象种类或者目标的特征分布,则需要对已经收集到的图像数据集进行增广。图像增广就是利用已有图像通过图像生成方法产生新的图像。
通过图像生成方法产生新图像的数据增广方法被广泛使用。使用图像生成方法能够获得各种不同于原图像的新的图像,可以在不改变原始图像的语义特征的同时增大了样本量,使得样本的数据分布更加接近真实分布,从而提高模型的泛化能力。缓解数据的不均衡问题,同时这些方法不会改变数据语义特征分布。使用图像生成方法还能够增强模型对未见过的图像的判断能力,且能够防止模型过拟合。
图像生成方法中被广泛使用的有旋转、平移、缩放、随机裁剪、加入高斯模糊、改变亮度、色调和饱和度等方法。但是这些方法都无法实现对复杂背景图像的扩充。
生成对抗网络(GAN,Generative Adversarial Network)可以对图像样本进行处理实现图像生成,例如突出图像中感兴趣部分,减弱或去除不需要的信息。GAN是一种以半监督学习方式训练的模型,能够通过一系列卷积操作提取图像特征,对图像特征重组以后通过反卷积操作生成包含目标特征的图像,因此可以作为图像生成方法使用。传统的GAN是单向的,训练这个单向GAN需要两个损失函数,CycleGAN本质上是两个镜像对称的对抗生成网络构成的环形网络,可以实现无配对的两个图像集的训练,克服了pixel2pixel方法存在的要求样本必须严格配对的缺点。CycleGAN的优点是产生的图像质量高,细节清晰,存在的主要问题是训练困难,可能会产生不收敛的情况,另外,生成的结果图像不能保证样本的分布特点。
变分自编码器(VAE,Variational Auto-Encoder)是另一种能够实现图像生成的方法,但由于没有对抗过程对生成图像真假进行判断,VAE模型仅经过计算原始图像与生成图像的均方差就可以实现模型的训练,导致其生成图像相比GAN会更加模糊。
因此,有必要提供一种图像生成方法,使得生成的图像是期望的图像,且图像逼真,具有较好的细节信息。
发明内容
本发明的目的是提供一种图像生成方法,以解决现有技术的问题,采用CycleGAN与VAE结合的方式,通过VAE网络产生图像的编码分布,将产生的编码输入到CycleGAN网络作为其生成图像的噪声信号,并对生成的图像加上类别限制,能够保证生成的图像是期望的图像,使生成的图像逼真的同时也具有较好的细节信息。
为实现上述目的,本发明提供了如下方案:本发明提供一种图像生成方法,包括:
获取训练数据集,所述训练数据集包括若干张第一图像和若干张第二图像;其中,所述第一图像为原图像,所述第二图像为待生成类别的图像;
基于CycleGAN和VAE建立神经网络模型;
通过所述训练数据集对所述神经网络模型进行训练,训练好的所述神经网络模型用于进行图像生成。
可选地,所述CycleGAN包括第一鉴别器DX、第二鉴别器DY、第一生成器G1和第二生成器G2;所述VAE包括第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY。
可选地,所述神经网络模型的结构包括:
所述第一编码器E1、第一生成器G1、第二编码器E2、第二生成器G2依次连接;所述第二生成器G2一端与所述第二编码器E2连接,另一端分别与所述第一鉴别器DX和所述第一分类器CX连接;所述第二鉴别器DY和所述第二分类器CY连接于所述第一生成器G1和所述第二编码器E2之间;
所述第一编码器E1用于输入第一图像X或第一输出图像X’,还用于输入第一图像X对应的图像类别XC,并输出第一编码ZX;
所述第一生成器G1用于输入第一编码ZX和第二图像Y对应的图像类别YC,并输出第二输出图像Y’;
所述第二编码器E2用于输入第二图像Y或第二输出图像Y’,还用于输入第二图像Y对应的图像类别YC,并输出第二编码ZY;
所述第二生成器G2用于输入第二编码ZY和第一图像X对应的图像类别XC,并输出第一输出图像X’;
所述第一分类器CX用于输入第一图像X或第一输出图像X’,并输出第一图像X或第一输出图像X’所属的类别;
所述第二分类器CY用于输入第二图像Y或第二输出图像Y’,并输出第二图像Y或第二输出图像Y’所属的类别;
所述第一鉴别器DX用于输入第一图像X或第一输出图像X’,并输出第一图像X或第一输出图像X’的真实度概率;
所述第二鉴别器DY用于输入第二图像Y或第二输出图像Y’,并输出第二图像Y或第二输出图像Y’的真实度概率。
可选地,通过所述训练数据集对所述神经网络模型进行训练的过程中,损失函数包括:鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失。
可选地,所述损失函数L的计算如式1所示:
L=LDX+LDY+LCX+LCY1LKL2(LGX+LGY)+λ3(LGDX+LGDY)+λ4(LGCX+LGCY)
……………………1
式中,LDX、LDY分别为第一鉴别器DX、第二鉴别器DY的鉴别损失函数;LCX、LCY分别为第一分类器CX、第二分类器CY的类别损失函数;LKL为散度损失函数;LGX、LGY分别为第一生成器G1和第二生成器G2的生成损失函数;LGDX、LGDY分别为第一鉴别器DX、第二鉴别器DY的生成鉴别损失函数;LGCX、LGCY分别为第一分类器CX、第二分类器CY的生成类别损失函数;λ1、λ2、λ3、λ4均为权重参数。
可选地,LDX、LDY、LCX、LCY、LKL、LGX、LGY、LGDX、LGDY、LGCX、LGCY的计算分别如式2-式12所示:
Figure BDA0003224162010000051
Figure BDA0003224162010000052
Figure BDA0003224162010000053
Figure BDA0003224162010000054
Figure BDA0003224162010000055
Figure BDA0003224162010000056
Figure BDA0003224162010000057
Figure BDA0003224162010000061
Figure BDA0003224162010000062
Figure BDA0003224162010000063
Figure BDA0003224162010000064
式中,||·||2表示L2范数,Pdata(A)表示A所在数据集的真实概率分布,
Figure BDA0003224162010000065
表示A属于Pdata(A)的期望,A∈{X,Y,ZX,ZY},P(·)表示概率,λ1、λ2、λ3、λ4均为权重参数,μZX、μZY分别表示ZX、ZY的均值,εZX、εZY分别表示ZX、ZY的方差。
可选地,通过所述训练数据集对所述神经网络模型进行训练的终止条件为:
设置最大训练次数,当训练次数达到最大训练次数时,训练完成。
可选地,对所述神经网络模型进行训练后,还包括:
获取待进行图像生成的第一图像,将所述第一图像输入训练好的所述神经网络模型,输出生成的第二图像。
可选地,对所述神经网络模型进行训练后,还包括:获取图像生成得到的第二图像,将所述第二图像输入训练好的所述神经网络模型,输出待进行图像生成的第一图像。
本发明公开了以下技术效果:
本发明提供了一种图像生成方法,结合CycleGAN和VAE建立神经网络模型,并通过由原图像和待生成类别的图像组成的训练数据集对神经网络模型进行训练,通过VAE网络产生图像的编码分布,将产生的编码输入到CycleGAN网络作为其生成图像的噪声信号,并对生成的图像加上类别限制,能够保证生成的图像是期望的图像,使生成的图像逼真的同时也具有较好的细节信息;同时,本申请在训练过程中,采用鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失共六类损失函数,通过该六类损失函数从生成类别、中间隐变量分布、生成图像真假三个方面限制生成图像,使得生成的图像与目标图像处于同一空间,使得生成的图像更加逼真。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中图像生成方法流程图;
图2为传统GAN工作流程示意图;
图3为CycleGAN工作原理示意图;
图4为VAE工作原理示意图;
图5为本发明实施例中神经网络模型结构示意图;
图6为本发明实施例中第一编码器E1、第二编码器E2的网络结构示意图;
图7为本发明实施例中第一生成器G1和第二生成器G2的网络结构示意图;
图8为本发明实施例中第一鉴别器DX、第二鉴别器DY的网络结构示意图;
图9为本发明实施例中ResBlock的网络结构示意图;
图10为本发明实施例中本发明方法生成的图像与标准CycleGAN方法生成的图像的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1所示,本实施例提供一种图像生成方法,包括:
S1、获取训练数据集,训练数据集包括若干张第一图像X和若干张第二图像Y;其中,第一图像X为原图像,第二图像Y为待生成类别的图像;
S2、基于CycleGAN和VAE建立神经网络模型;
CycleGAN和VAE的原理分别如下:
GAN包括生成器(Generator,简称G)和鉴别器(Discriminator,简称D),G用来生成数据,D用来对真实数据和生成数据进行鉴别,两者同时训练。G负责把原始图像尽可能地模仿成含有目标特征的真实图像,而D尽可能地把G生成的图像和真实图像分开,G、D二者形成博弈。经过二者的博弈,G的生成能力增强,D的鉴别能力得到提高。当D分辨不出图像是真实的还是G生成的图像的时候,对抗的过程达到纳什均衡,此时认为对抗过程结束,G获得最优的生成能力,D获得最强的辨别能力。
传统GAN包括从域A生成域B中假图像的生成器GAB,从域B中假图像恢复到域A中的重构图像的生成器GBA,和域B中的鉴别器DB,如图2所示。传统的GAN是单向的,训练这个单向GAN需要两个损失函数:生成器的重建损失函数L和判别器的判别损失函数LGAN,其计算方法如下:
L(GAB,GBA,A,B)=Ea~A[||GBA(GAB(a))||1]
LGAN(GAB,DB,A,B)=Eb~B[log DB(b)]+Ea~A[log(1-DB(GAB(a)))]
式中,E[ ]表示分布函数的期望值,a~A表示样本a所属的域A,b~B表示样本b所属的域B,|| ||1表示L1范数。重建损失函数L的目的是使重构的图像GBA(GAB(a))与原图a尽可能地相似。判别损失函数LGAN的目的是使生成网络生成的图像符合目标图像的特征分布。
CycleGAN本质上是两个镜像对称的对抗生成网络构成的环形网络。如图3所示,CycleGAN共有两个判别器:DX、DY,两个生成器:G和F,对抗生成网络共享两个生成器,但鉴别器相互独立。CycleGAN的一个优点是可以实现无配对的两个图像集的训练,克服了pixel2pixel方法存在的要求样本必须严格配对的缺点。CycleGAN工作原理是,通过训练创建原始数据集到生成数据集的映射,从而确保输入图像和生成图像间存在有意义的关联。如图3所示,CycleGAN从域A获取图像x,x输入生成器G得到目标域B中的图像
Figure BDA0003224162010000104
图像
Figure BDA0003224162010000105
再通过生成器F恢复得到域A中的图像
Figure BDA0003224162010000106
类似地,有从域B中的y到
Figure BDA0003224162010000107
的对称过程。
为了使得生成的图像符合要求,需要使用损失函数对图像生成过程进行约束。设G为A域图像到B域图像的映射函数,F为B域图像到A域图像的映射函数,DX和DY分别为GAN网络的在A域和B域的判别器。在CycleGAN中,损失函数定义如下:
L(G,F,DX,DY)=LGAN(G,DY,A,B)+LGAN(F,DX,B,A)+λLcyc(G,F)
Figure BDA0003224162010000101
Figure BDA0003224162010000102
Figure BDA0003224162010000103
式中,|| ||1表示L1范数,E表示期望,Pdata(x)和Pdata(y)分别表示x和y样本所在数据集的真实概率分布,λ为权重参数。L(G,F,DX,DY)为整个GAN的损失函数,LGAN(G,DY,A,B)、LGAN(F,DX,B,A)损失函数用于保证生成的图像接近域A或域B的真实图像;Lcyc(G,F)为GAN的循环损失函数,保证域A到域B的映射不是单射,从而避免A向B映射时将A空间的元素映射为B空间的某一特定元素。
VAE通过构建一个中间隐变量,再将隐变量输入至编码网络实现图像生成。VAE生成图像过程不存在对抗过程,因此不要求在生成图像时达到纳什均衡。由于目前还没有找到很好的达到纳什均衡的方法,因此训练VAE相比GAN具有训练稳定的特点。VAE的最大特点是模仿自编码器的学习预测机制,在可测函数之间进行编码、解码。其最重要的思想是基于一个数学事实:对于一个目标概率分布,给定任何一种概率分布,总存在一个可微的可测函数,将其映射到另一种概率分布,使得这种概率分布与目标的概率分布任意地接近。VAE的一个重要的哲学思想是,遵从图模型,希望生成的样本是由某些隐含变量所构造出来的。VAE利用一个联合高斯分布作为隐含可测函数的分布,随即将问题转化为学习一个从隐含可测函数(隐含变量)到一个所希望生成样本的映射,这个过程就是解码过程。利用编码器能够获得输入图像经过编码后对应的噪声分布,噪声分布的选择能够控制图像的生成,即可以通过选择噪声得到想要生成的图像。可以在VAE编码过程中通过对噪声的选择对生成目标类别进行限制,使得编码器输出的特征向量服从标准正态分布。通过选择合适的服从标准正态分布的噪声,将其作为解码器网络的输入,经过解码器的反卷积计算过程,将噪声还原为想要的图像。该过程不需要输入图像,仅需要输入一组标准正态分布的噪声即可生成想要的图像。由于没有对抗过程对生成图像真假进行判断,VAE模型仅经过计算原始图像与生成图像的均方差就可以实现模型的训练,导致其生成图像相比GAN会更加模糊。VAE工作原理如图4所示。
本申请中,CycleGAN包括第一鉴别器DX、第二鉴别器DY、第一生成器G1和第二生成器G2;VAE包括第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY;第一编码器E1、第一生成器G1、第二编码器E2、第二生成器G2依次连接;第二生成器G2一端与第二编码器E2连接,另一端分别与第一鉴别器DX和第一分类器CX连接;第二鉴别器DY和第二分类器CY连接于第一生成器G1和第二编码器E2之间,如图5所示。
第一编码器E1用于输入第一图像X或第一输出图像X’,还用于输入第一图像X对应的图像类别XC,并输出第一编码ZX;
第一生成器G1用于输入第一编码ZX和第二图像Y对应的图像类别YC,并输出第二输出图像Y’;
第二编码器E2用于输入第二图像Y或第二输出图像Y’,还用于输入第二图像Y对应的图像类别YC,并输出第二编码ZY;
第二生成器G2用于输入第二编码ZY和第一图像X对应的图像类别XC,并输出第一输出图像X’;
第一分类器CX用于输入第一图像X或第一输出图像X’,并输出第一图像X或第一输出图像X’所属的类别;
第二分类器CY用于输入第二图像Y或第二输出图像Y’,并输出第二图像Y或第二输出图像Y’所属的类别;
第一鉴别器DX用于输入第一图像X或第一输出图像X’,并输出第一图像X或第一输出图像X’的真实度概率;
第二鉴别器DY用于输入第二图像Y或第二输出图像Y’,并输出第二图像Y或第二输出图像Y’的真实度概率。
S3、通过训练数据集对神经网络模型进行训练,训练好的神经网络模型用于进行图像生成;
该步骤中,通过训练数据集对神经网络模型进行训练的过程中,损失函数包括六个部分,分别为:鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失;该六个部分从生成类别、中间隐变量分布、生成图像真假三个方面限制生成图像,使得生成图像与目标图像处于同一空间。上述网络结构中引入了分类器网络对生成的图像进行类别限制,从而使得生成的图像更加逼真。
损失函数L的计算如式(1)所示:
L=LDX+LDY+LCX+LCY1LKL2(LGX+LGY)+λ3(LGDX+LGDY)+λ4(LGCX+LGCY)
……………………(1)
其中,LDX、LDY分别为第一鉴别器DX、第二鉴别器DY的鉴别损失函数;LCX、LCY分别为第一分类器CX、第二分类器CY的类别损失函数;LKL为散度损失函数;LGX、LGY分别为第一生成器G1和第二生成器G2的生成损失函数;LGDX、LGDY分别为第一鉴别器DX、第二鉴别器DY的生成鉴别损失函数;LGCX、LGCY分别为第一分类器CX、第二分类器CY的生成类别损失函数。
LDX、LDY、LCX、LCY、LKL、LGX、LGY、LGDX、LGDY、LGCX、LGCY的计算分别如式(2)-式(12)所示:
Figure BDA0003224162010000141
Figure BDA0003224162010000142
Figure BDA0003224162010000143
Figure BDA0003224162010000144
Figure BDA0003224162010000145
Figure BDA0003224162010000146
Figure BDA0003224162010000147
Figure BDA0003224162010000148
Figure BDA0003224162010000149
Figure BDA00032241620100001410
Figure BDA00032241620100001411
式中,||·||2表示L2范数,Pdata(A)表示A所在数据集的真实概率分布,
Figure BDA00032241620100001412
表示A属于Pdata(A)的期望,A∈{X,Y,ZX,ZY},P(·)表示概率,λ1、λ2、λ3、λ4均为权重参数,μZX、μZY分别表示ZX、ZY的均值,εZX、εZY分别表示ZX、ZY的方差。
另外,图5中fc(X)和fc(X’)分别表示通过第一分类器CX对输入X和X’进行分类,分类结果为C(X)和C(X’);fc(Y)和fc(Y’)分别表示通过第二分类器CY对输入Y和Y’进行分类,分类结果为C(Y)和C(Y’);fd(X)和fd(X’)分别表示通过第一鉴别器DX对输入X和X’进行鉴别,鉴别结果为D(X)和D(X’);fd(Y)和fd(Y’)分别表示通过第二鉴别器DY对输入Y和Y’进行鉴别,鉴别结果为D(Y)和D(Y’)。
训练的终止条件通过设置最大训练次数实现,当训练次数达到最大训练次数时,训练完成;使用步骤S1中的所有第一图像作为输入完成的训练为一次训练。
完成对神经网络模型的训练后,还包括如下步骤:
S4、获取待进行图像生成的第一图像,将第一图像输入训练好的神经网络模型,输出生成的第二图像。
进一步地,由于网络结构的对称性,步骤S4还包括:获取生成的第二图像,将第二图像输入训练好的神经网络模型,输出第一图像。
如下以水面图像的船舶识别为例对本申请图像生成方法进行详细说明;其中,第一图像X为水面拍摄的清晰的船舶图像,第二图像Y为不清晰的船舶图像;船舶航行时受海水波动导致相机采集到的图像会产生运动模糊,通过收集带有运动模糊的船舶图像得到第二图像;共收集第一图像和第二图像各500张。
第一编码器E1、第二编码器E2的网络结构如图6所示,第一生成器G1和第二生成器G2的网络结构如图7所示,第一鉴别器DX、第二鉴别器DY的网络结构如图8所示,图6–图8中,Conv为卷积层,GLU(Gated Linear Unit)为门控线性单元,IN(Instance Normalization)为实例标准化层,AdaIN(Adaptive Instance Normalization)为自适应实例标准化层,ResBlock为残差块,ResBlock的网络结构如图9所示;第一分类器CX、第二分类器CY采用经过ImageNet数据集预训练的标准的ResNet50网络结构。
第一鉴别器DX、第二鉴别器DY、第一生成器G1、第二生成器G2、第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY所有网络的训练均采用Adam优化方法,批大小设置为1,权重参数λ1、λ2、λ3、λ4均设置为10,损失函数按照公式(1)-(12)进行计算所有网络的起始学习率均设置为0.0002,并从训练次数到达最大训练次数的一半时开始衰减,到最大训练次数的时候,线性衰减至0,其中,最大训练次数设置为1000。
输入一张清晰的海面船舶图像至训练好的神经网络模型,能够生成一张模糊的海面船舶图像,这些新生成的模糊的海面船舶图像,能够用于图像的目标检测或者分类任务,提高了目标检测或者分类的鲁棒性。
为了进一步验证本发明的效果,本实施例中将本发明方法生成的图像与标准CycleGAN方法生成的图像进行比较,比较结果如图10给所示,由图10可以看出,本发明方法生成的图像具有更好的图像清晰度和细节。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (9)

1.一种图像生成方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括若干张第一图像和若干张第二图像;其中,所述第一图像为原图像,所述第二图像为待生成类别的图像;
基于CycleGAN和VAE建立神经网络模型;
通过所述训练数据集对所述神经网络模型进行训练,训练好的所述神经网络模型用于进行图像生成。
2.根据权利要求1所述的图像生成方法,其特征在于,所述CycleGAN包括第一鉴别器DX、第二鉴别器DY、第一生成器G1和第二生成器G2;所述VAE包括第一编码器E1、第二编码器E2、第一分类器CX和第二分类器CY。
3.根据权利要求2所述的图像生成方法,其特征在于,所述神经网络模型的结构包括:
所述第一编码器E1、第一生成器G1、第二编码器E2、第二生成器G2依次连接;所述第二生成器G2一端与所述第二编码器E2连接,另一端分别与所述第一鉴别器DX和所述第一分类器CX连接;所述第二鉴别器DY和所述第二分类器CY连接于所述第一生成器G1和所述第二编码器E2之间;
所述第一编码器E1用于输入第一图像X或第一输出图像X’,还用于输入第一图像X对应的图像类别XC,并输出第一编码ZX;
所述第一生成器G1用于输入第一编码ZX和第二图像Y对应的图像类别YC,并输出第二输出图像Y’;
所述第二编码器E2用于输入第二图像Y或第二输出图像Y’,还用于输入第二图像Y对应的图像类别YC,并输出第二编码ZY;
所述第二生成器G2用于输入第二编码ZY和第一图像X对应的图像类别XC,并输出第一输出图像X’;
所述第一分类器CX用于输入第一图像X或第一输出图像X’,并输出第一图像X或第一输出图像X’所属的类别;
所述第二分类器CY用于输入第二图像Y或第二输出图像Y’,并输出第二图像Y或第二输出图像Y’所属的类别;
所述第一鉴别器DX用于输入第一图像X或第一输出图像X’,并输出第一图像X或第一输出图像X’的真实度概率;
所述第二鉴别器DY用于输入第二图像Y或第二输出图像Y’,并输出第二图像Y或第二输出图像Y’的真实度概率。
4.根据权利要求3所述的图像生成方法,其特征在于,通过所述训练数据集对所述神经网络模型进行训练的过程中,损失函数包括:鉴别损失、类别损失、散度损失、生成损失、生成鉴别损失、生成类别损失。
5.根据权利要求4所述的图像生成方法,其特征在于,所述损失函数L的计算如式1所示:
L=LDX+LDY+LCX+LCY1LKL2(LGX+LGY)+λ3(LGDX+LGDY)+λ4(LGCX+LGCY)
……………………1
式中,LDX、LDY分别为第一鉴别器DX、第二鉴别器DY的鉴别损失函数;LCX、LCY分别为第一分类器CX、第二分类器CY的类别损失函数;LKL为散度损失函数;LGX、LGY分别为第一生成器G1和第二生成器G2的生成损失函数;LGDX、LGDY分别为第一鉴别器DX、第二鉴别器DY的生成鉴别损失函数;LGCX、LGCY分别为第一分类器CX、第二分类器CY的生成类别损失函数;λ1、λ2、λ3、λ4均为权重参数。
6.根据权利要求5所述的图像生成方法,其特征在于,LDX、LDY、LCX、LCY、LKL、LGX、LGY、LGDX、LGDY、LGCX、LGCY的计算分别如式2-式12所示:
Figure FDA0003224156000000031
Figure FDA0003224156000000032
Figure FDA0003224156000000033
Figure FDA0003224156000000034
Figure FDA0003224156000000035
Figure FDA0003224156000000036
Figure FDA0003224156000000037
Figure FDA0003224156000000038
Figure FDA0003224156000000039
Figure FDA00032241560000000310
Figure FDA0003224156000000041
式中,||·||2表示L2范数,Pdata(A)表示A所在数据集的真实概率分布,
Figure FDA0003224156000000042
表示A属于Pdata(A)的期望,A∈{X,Y,ZX,ZY},P(·)表示概率,λ1、λ2、λ3、λ4均为权重参数,μZX、μZY分别表示ZX、ZY的均值,εZX、εZY分别表示ZX、ZY的方差。
7.根据权利要求1所述的图像生成方法,其特征在于,通过所述训练数据集对所述神经网络模型进行训练的终止条件为:
设置最大训练次数,当训练次数达到最大训练次数时,训练完成。
8.根据权利要求1所述的图像生成方法,其特征在于,对所述神经网络模型进行训练后,还包括:
获取待进行图像生成的第一图像,将所述第一图像输入训练好的所述神经网络模型,输出生成的第二图像。
9.根据权利要求1所述的图像生成方法,其特征在于,对所述神经网络模型进行训练后,还包括:获取图像生成得到的第二图像,将所述第二图像输入训练好的所述神经网络模型,输出待进行图像生成的第一图像。
CN202110966379.1A 2021-08-23 2021-08-23 一种图像生成方法 Active CN113643400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110966379.1A CN113643400B (zh) 2021-08-23 2021-08-23 一种图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110966379.1A CN113643400B (zh) 2021-08-23 2021-08-23 一种图像生成方法

Publications (2)

Publication Number Publication Date
CN113643400A true CN113643400A (zh) 2021-11-12
CN113643400B CN113643400B (zh) 2022-05-24

Family

ID=78423430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110966379.1A Active CN113643400B (zh) 2021-08-23 2021-08-23 一种图像生成方法

Country Status (1)

Country Link
CN (1) CN113643400B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758035A (zh) * 2022-06-13 2022-07-15 之江实验室 一种针对未配对数据集的图像生成方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN108288072A (zh) * 2018-01-26 2018-07-17 深圳市唯特视科技有限公司 一种基于生成对抗网络的面部表情合成方法
CN109658347A (zh) * 2018-11-14 2019-04-19 天津大学 一种同时生成多种图片风格的数据增强方法
CN109741410A (zh) * 2018-12-07 2019-05-10 天津大学 基于深度学习的荧光编码微球图像生成及标注方法
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
US20200160153A1 (en) * 2018-11-15 2020-05-21 L'oreal System and method for augmented reality using conditional cycle-consistent generative image-to-image translation models
CN111210382A (zh) * 2020-01-03 2020-05-29 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
WO2020239208A1 (en) * 2019-05-28 2020-12-03 Toyota Motor Europe Method and system for training a model for image generation
CN112489168A (zh) * 2020-12-16 2021-03-12 中国科学院长春光学精密机械与物理研究所 一种图像数据集生成制作方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN108288072A (zh) * 2018-01-26 2018-07-17 深圳市唯特视科技有限公司 一种基于生成对抗网络的面部表情合成方法
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
CN109658347A (zh) * 2018-11-14 2019-04-19 天津大学 一种同时生成多种图片风格的数据增强方法
US20200160153A1 (en) * 2018-11-15 2020-05-21 L'oreal System and method for augmented reality using conditional cycle-consistent generative image-to-image translation models
CN109741410A (zh) * 2018-12-07 2019-05-10 天津大学 基于深度学习的荧光编码微球图像生成及标注方法
WO2020239208A1 (en) * 2019-05-28 2020-12-03 Toyota Motor Europe Method and system for training a model for image generation
CN111210382A (zh) * 2020-01-03 2020-05-29 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN112489168A (zh) * 2020-12-16 2021-03-12 中国科学院长春光学精密机械与物理研究所 一种图像数据集生成制作方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林成创等: "机器视觉应用中的图像数据增广综述", 《计算机科学与探索》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758035A (zh) * 2022-06-13 2022-07-15 之江实验室 一种针对未配对数据集的图像生成方法及装置

Also Published As

Publication number Publication date
CN113643400B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN110322423B (zh) 一种基于图像融合的多模态图像目标检测方法
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN109543640B (zh) 一种基于图像转换的活体检测方法
CN110084757B (zh) 一种基于生成对抗网络的红外深度图像增强方法
CN109410135B (zh) 一种对抗学习型图像去雾、加雾方法
CN112580590A (zh) 一种基于多语义特征融合网络的指静脉识别方法
CN114359526B (zh) 基于语义gan的跨域图像风格迁移方法
CN109657582A (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
CN112052877B (zh) 一种基于级联增强网络的图片细粒度分类方法
CN113724354B (zh) 基于参考图颜色风格的灰度图像着色方法
CN111091059A (zh) 一种生活垃圾塑料瓶分类中的数据均衡方法
CN113643400B (zh) 一种图像生成方法
CN114841846A (zh) 一种基于视觉感知的自编码彩色图像鲁棒水印处理方法
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN114187221A (zh) 基于自适应权重学习的红外与可见光图像融合方法
CN114677722A (zh) 一种融合多尺度特征的多监督人脸活体检测方法
Yang et al. Research on digital camouflage pattern generation algorithm based on adversarial autoencoder network
Shen et al. Channel recombination and projection network for blind image quality measurement
CN112766217B (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
Schirrmeister et al. When less is more: Simplifying inputs aids neural network understanding
CN116452469B (zh) 一种基于深度学习的图像去雾处理方法及装置
Gunawan et al. Modernizing Old Photos Using Multiple References via Photorealistic Style Transfer
CN112070703A (zh) 一种仿生机器鱼水下视觉图像增强方法及系统
CN105389573B (zh) 一种基于局部三值模式分层重构的人脸识别方法
Liu et al. Image Decomposition Sensor Based on Conditional Adversarial Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant