CN113379593B - 一种图像生成方法、系统及相关设备 - Google Patents
一种图像生成方法、系统及相关设备 Download PDFInfo
- Publication number
- CN113379593B CN113379593B CN202110707279.7A CN202110707279A CN113379593B CN 113379593 B CN113379593 B CN 113379593B CN 202110707279 A CN202110707279 A CN 202110707279A CN 113379593 B CN113379593 B CN 113379593B
- Authority
- CN
- China
- Prior art keywords
- noise
- picture set
- feature
- pictures
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 72
- 230000006870 function Effects 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于人工智能应用领域,提供了一种图像生成方法、系统、计算机设备及存储介质,具体包括:提取有特征标签的训练图片为训练集;随机生成满足高斯分布的第一噪声和第二噪声;利用生成器根据第一噪声、第二噪声得到中间噪声,并对特征标签、第一噪声、第二噪声、中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;将第一图片集、第二图片集、第一噪声、第二噪声、中间噪声以及第三图片集输入到多样化模式损失函数进行处理;将第三图片集、训练集以及特征标签输入到生成对抗网络的判别器进行处理;生成器和判别器反复交替更新学习,直到达到纳什均衡,生成最终图像。本发明缓解了生成对抗网络中的模式崩塌问题。
Description
技术领域
本发明属于人工智能应用领域,尤其涉及一种图像生成方法、系统及相关设备。
背景技术
生成对抗网络(Generative Adversarial Networks,GAN)一般有两个重要的组成部分:生成器和判别器。通过使生成器和判别器相互对抗直至双方均达到最优的过程,称为纳什均衡。然而,实际训练中很难达到纳什均衡,主要原因是,对于生成图像和辨别图像两个任务来说,生成图像的任务难度远高于辨别图像的难度,所以判别器往往比生成器训练得更快,从而使得判别器率先达到最优状态,在这种情况下,生成器生成的图片会很容易被判别器辨别出来,导致在反向传播时,生成器得到无效的梯度,最终使得生成器一直无法达到最优状态。达不到纳什均衡的结果是生成器无法生成更高保真度和多样性的图片。
GAN一直被广泛应用于各种条件生成任务,但一直以来两个主要问题都未能得到很好的解决,其一,为上述描述的训练不稳定导致很难达到纳什均衡的问题;其二,为模式崩塌,是指对于取自同一分布不同的隐变量通过生成器得到的图片很大程度上是相似的,缺乏多样性。出现模式崩塌的原因主要是,对于生成器学到的一个具体的特征,会出现两种情况:一,生成器学习到的特征是符合实际需求的,但是由于判别器训练的过好,所以会给虚假的特征一个较低的分数;二,生成器学习到的特征不符合实际需求,但是由于判别器训练的过差,无法判别虚假图像的真假,可能会误给虚假的特征一个很高的分数。
从优化生成器的角度,MSGAN(Mode Seeking Generative AdversarialNetworks,模式寻求型生成对抗网络)的作者提出一种损失函数MS_Loss,具体表述为:对于取自同一分布的任意两个隐变量通过生成器生成的图片的多样性距离应该是尽量的大,即希望生成器在隐变量距离比较小的时候,可以寻找到更多的模式。但是,对于原先两个相近的隐变量对应生成的图片相似度距离也很相近,MSGAN会将所有的样本都输入到MS_Loss中,最终会使得生成器最终学习到有偏差的真实分布。
发明内容
本发明实施例提供一种图像生成方法、系统及相关设备,旨在解决生成对抗网络中生成器过分追求模式的多样性,最终造成模式崩塌的问题。
第一方面,本发明实施例提供一种图像生成方法,包括以下步骤:
将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
随机地生成满足高斯分布的第一噪声和第二噪声;
将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集;
计算所述第一噪声和所述第二噪声的均值,均值计算使用均方差纠错作为损失函数,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集;
将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理,得到所述第三图片集的判断结果;
所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像。
更进一步地,所述将所述特征标签分别与所述第一噪声和所述第二噪声拼接的步骤具体包括:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征。
更进一步地,所述得到对应所述第一噪声和所述第二噪声的结果第一图片集和第二图片集具体包括以下步骤:
将所述第一拼接特征和所述第二拼接特征经过三组相同的反卷积、批归一化和ReLU函数处理,得到第一处理特征和第二处理特征;
将所述第一处理特征和所述第二处理特征分别经过tanh函数处理,分别得到所述第一图片集和所述第二图片集。
其中,j在计算过程中取值1和2,使I1、I2分别代表所述第一图片集和所述第二图片集,z1、z2分别代表所述第一噪声和所述第二噪声,代表所述中间噪声,代表所述第三图片集,代表对于所述第一图片集、所述第二图片集分别与所述第三图片集之间的矩阵计算,代表对于所述第一噪声、所述第二噪声分别与所述中间噪声之间的矩阵计算过程,代表生成对抗网络中生成器进行的距离矩阵值最大化计算过程。
更进一步地,所述将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理的步骤具体包括以下步骤:
将所述第三图片集、所述训练集以及对应的所述特征标签输入所述判别器中,同时,所述特征标签通过重整形与所述训练集中的图片为相同形状,并在RGB通道上将所述第三图片集和所述训练集分别与所述特征标签进行拼接,分别得到第三拼接特征和训练特征;
将所述第三拼接特征和所述训练特征分别经过一组卷积和LeakyReLU函数处理,分别得到第三处理特征和第四处理特征;
将所述第三处理特征和所述第四处理特征再经过两组卷积、批归一化和LeakyReLU函数处理,得到最终拼接特征和最终训练特征;
将得到的所述最终拼接特征和所述最终训练特征经过一组卷积和Sigmoid函数处理,得到一个一维数组,并使用所述判别器的损失函数对所述一维数组计算对抗损失,使得所述判别器对于所述第三图片集的真实图像得出的判别数值靠近1,对于所述第三图片集的虚假图像得出的判别数值靠近0。
更进一步地,所述LeakyReLU函数引入了数据小于0时的梯度,并满足如下约束条件:
其中,x代表所述LeakyReLU函数的输入数据。
更进一步地,所述生成器和所述判别器反复交替更新学习的迭代次数至少为200次。
第二方面,本发明实施例提供一种图像生成系统,包括数据处理模块、生成器模块、判别器模块、损失计算模块,其中:
数据提取模块用于将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
噪声生成模块用于随机地生成满足高斯分布的第一噪声和第二噪声;
生成器模块用于根据所述第一噪声、所述第二噪声得到中间噪声,并对所述特征标签、所述第一噪声、所述第二噪声、所述中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;
损失计算模块用于将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集利用多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
判别器模块用于对所述第三图片集、所述训练集以及对应的所述特征标签进行处理,得到所述第三图片集的判断结果;
迭代控制模块用于控制所述生成器模块、所述判别器模块反复交替更新学习,直到达到纳什均衡,生成最终图像。
第三方面,本发明实施例提供一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例中任一项所述的一种图像生成方法中的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中任一项所述的一种图像生成方法中的步骤。
本发明所达到的有益效果,由于在生成对抗网络中引入了新的损失函数,使得生成对抗网络的生成器在生成图片时会围绕一个主要特征来进行,避免了生成器在迭代过程中过分追求模式的多样性,达到了缓解模式崩塌的效果。
附图说明
图1是本发明实施例提供的一种图像生成方法的流程图;
图2是本发明实施例提供的一种图像生成方法中生成器运作流程图;
图3是本发明实施例提供的一种图像生成方法中判别器运作流程图;
图4是本发明实施例提供的一种图像生成系统的结构示意图;
图5是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例是基于DCGAN(Deep Convolutional GenerativeAdversarialNetworks,卷积生成对抗网络)进行的,在本领域相关技术中,DCGAN模型及其相关优化模型具有共同的运行逻辑和结构,因此在任何DCGAN模型及其相关优化模型中都可以使用本发明实施例提供的方法,对于基础的模型架构本发明不做限定。请参照图1,图1是本发明实施例提供的一种图像生成方法的流程图,包括以下步骤:
S101、将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片具有标签。
所述预设的训练图片数据为真实图像,包括通过高清摄像头采集的自然图像以及具有特定对象的图像等,所述训练集中的图片从所述预设的训练图片数据中随机地选出,并通过人工操作或计算机程序处理的方式,将所述训练集中的图片其转化为32×3×32×32的形状,其中,所述训练集中的图片还具有标签信息,所述特征标签类型在本发明实施例中为onehot编码格式,所述特征标签形状为32×10。
S102、随机地生成满足高斯分布的第一噪声和第二噪声。
使用计算机图像生成工具随机生成满足高斯分布的第一噪声和第二噪声,具体的,所述第一噪声和所述第二噪声为一种一维度的形状,所述第一噪声和所述第二噪声的形状为32×100。
S103、将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集。
其中,将所述特征标签分别与所述第一噪声和所述第二噪声拼接,包括以下步骤:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征。
所述第一噪声和所述第二噪声原本为一维度的数据,在得到第一拼接特征之前,对所述第一噪声和所述第二噪声进行二维度和三维度扩展,使得所述第一噪声和所述第二噪声成为一个形状为32×10×1×1的三维度数据,之后将所述特征标签与扩展了维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道上拼接,得到第一拼接特征和第二拼接特征,具体的,所述第一拼接特征和所述第二拼接特征的形状为32×110×1×1。
请参照图2,图2是本发明实施例提供的一种图像生成方法中生成器运作流程图,对应本发明实施例中步骤S103中所述分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集,包括以下步骤:
S201、将所述第一拼接特征和所述第二拼接特征经过三组相同的反卷积、批归一化和ReLU函数处理,得到第一处理特征和第二处理特征。
在本发明实施例中,所述反卷积、批归一化和ReLU函数是为了采样到所述第一拼接特征中的像素特征,并加速模型收敛,其中,所述反卷积的大小为4×4,步长为1,使用ReLU函数仅通过一个阈值来做激活,降低了模型的计算复杂度。
S202、将所述第一处理特征和所述第二处理特征分别经过tanh函数处理,分别得到所述第一图片集和所述第二图片集。
经过所述反卷积、批归一化和ReLU函数层处理后得到的所述第一处理特征和所述第二处理特征,由于ReLU的输出可能过大,造成像素值出现错误,因此在所述生成器的最后一层引入tanh函数来减小数值,具体的,所述tanh函数的公式如下所示:
其中,x表示tanh函数的输入内容,sinh为双曲正弦函数,cosh为双曲余弦函数,e为常量,tanh函数将所述第一处理特征和所述第二处理特征的处理结果缩小到-1至1之间,在所述生成器最后输出时,会将所述tanh函数的输出结果作一个等值放大计算,以得到像素值的取值0至255之间的一个计算结果。所述生成器根据所述第一噪声和所述第二噪声作为输入的输出结果,即分别具有所述第一拼接特征和所述第二拼接特征特点的所述第一图片集和所述第二图片集。
S104,计算所述第一噪声和所述第二噪声的均值,均值计算使用均方差纠错作为损失函数,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集。
具体的,本发明实施例中,生成对抗网络的生成器生成所述第三图片集,首先计算所述第一噪声和所述第二噪声的均值。对于所述第一噪声和所述第二噪声拼接所述特征标签经过所述生成器生成的对应的所述第一图片集和所述第二图片集,其中,定义所述特征标签为c,且:
c=[c1,c2,...cn]
定义所述第一噪声、所述第二噪声分别为z1和z2,且:
z1=[z11,z12,...z1n],z2=[z21,z22,...z2n]
根据上述参数所产生的所述第一图片集和所述第二图片集分别定义为I1和I2,且:
I1=[I11,I12,...I1n],I2=[I21,I22,...I2n]
在以上公式中,n代表的是一组随机噪声的数目。此处对于所述第一图片集和所述第二图片集的计算还存在:
Ii=G(c,zi)
其中,i取值为1和2,使zi分别计算中取值为z1和z2,分别对应所述第一噪声和所述第二噪声,G(c,zi)是代表所述生成器的计算过程,所述生成器通过对噪声数据进行处理,生成一组新的图片。
根据以上定义,所述第一噪声和所述第二噪声计算得到所述中间噪声的过程满足如下约束条件:
在上述条件中,j取值1和2,i取值与n的范围相等,使得zji在取值时能够对应所述第一噪声和所述第二噪声之间的任意一个随机噪声,例如,z12代表所述第一噪声中的第二个噪声数据,当模式崩塌发生时,对于所述第一噪声和所述第二噪声之间的任意一组随机噪声zji会和所述中间噪声很接近。在这个均值计算的过程中使用均方误差(Mean SquaredError,简称MSE)作为损失函数,表示根据zji计算出来的所述中间噪声。
根据所述第一噪声和所述第二噪声以及所述特征标签得到所述第三图片集的过程满足如下约束条件:
S105、将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一。
具体的,所述多样化模式损失函数(Divm_Loss)的表达式满足如下约束条件:
其中,j在计算过程中取值1和2,使I1、I2分别代表所述第一图片集和所述第二图片集,z1、z2分别代表所述第一噪声和所述第二噪声,代表所述中间噪声,代表所述第三图片集,代表对于所述第一图片集、所述第二图片集分别与所述第三图片集之间的矩阵计算,代表对于所述第一噪声、所述第二噪声分别与所述中间噪声之间的矩阵计算过程,代表生成对抗网络中生成器进行的距离矩阵值最大化计算过程。在计算过程中,dI和dz均使用均方差纠错的损失函数,对于dz来说,由于所述第一噪声、所述第二噪声服从高斯分布,所以所述多样化模式损失函数中的结果近似等于1,使得所述多样化损失函数的计算量得到优化。具体的,多样化模式损失函数的优化表达式满足如下约束条件:
其中,D(c,G(c,z)代表的是所述判别器的计算过程,所述判别器通过对所述生成器生成的图片以及原始数据进行处理,输出一个用于判断图片真伪的值。
S106、将所述第三图片集、所述训练集以及对应的所述特征标签输入到生成对抗网络的判别器进行处理。
请参照图3,图3是本发明实施例提供的一种图像生成方法中判别器运作流程图,包括以下步骤:
S301、将所述第三图片集、所述训练集以及对应的所述特征标签输入所述判别器中,同时,所述特征标签通过重整形与所述训练集中的图片为相同形状,并在RGB通道上将所述第三图片集和所述训练集分别与所述特征标签进行拼接,分别得到第三拼接特征和训练特征。
具体的,所述判别器在进行对所述生成器生成的图片进行判断前,还包括一个对图片特征采样的过程,所述第三图片集和所述训练集中的图片在所述判别器中分别视为判断对象和对照对象,所述第三图片集和所述训练集中的图片分别在RGB通道进行拼接,分别得到所述第三拼接特征和所述训练特征。
S302、将所述第三拼接特征和所述训练特征分别经过一组卷积和LeakyReLU函数处理,分别得到第三处理特征和第四处理特征。
所述第三拼接特征和所述训练特征首先经过一组大小为4×4、步长为1的卷积处理,然后通过LeakyReLU函数激活,所述LeakyReLU函数是ReLU函数的改进函数,引入了输入数据小于0时的梯度,所述LeakyReLU函数具体表达式为:
其中,x代表的是输入内容,在本发明实施例中,x代表的是所述第三拼接特征和所述训练特征经过卷积处理后的数据,即所述第三拼接特征和所述训练特征。
S303、将所述第三处理特征和所述第四处理特征再经过两组卷积、批归一化和LeakyReLU函数处理,得到最终拼接特征和最终训练特征。
所述第三处理特征和所述第四处理特征首先经过两组大小为4×4、步长为1的卷积处理,与本发明实施例步骤S302的区别在于,加入了一个批归一化的步骤,以此来收敛所述判别器的模型,最后将批归一化的数据再经过所述LeakyReLU函数进行处理,最后对应所述第三处理特征和所述第四处理特征,分别得到最终拼接特征和最终训练特征。
S304、将得到的所述最终拼接特征和所述最终训练特征经过一组卷积和Sigmoid函数处理,得到一个一维数组,并使用所述判别器的损失函数对所述一维数组计算对抗损失,使得所述判别器对于真实图像得出的判别数值更靠近1,对于虚假图像得出的判别数值更靠近0。
所述最终拼接特征和所述最终训练特征再经过一组大小为4×4、步长为1的卷积处理,随后,经过Sigmoid激活函数处理,最终得到一个一维数组。
根据所述判别器的损失函数计算结果,得到一个介于0和1之间的数值,根据这个数值,得到可以得到对于此次计算用到的所述第三拼接特征相对于所述训练特征的判断结果,即,对于所述第三图片集中的真实图像得出的判别数值更靠近1,对于所述第三图片集中的虚假图像得出的判别数值更靠近0。
S107、所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像。
所述全局损失函数经过表达式变换,可知所述生成器的损失和所述判别器的损失存在相关性,所述生成器和所述判别器重复交替更新学习,在本发明实施例中,至少进行200次迭代,即对于同一组所述训练集中用到的图片与所述第一噪声和第二噪声在所述生成器和所述判别器之间进行的图片生成和判断的过程,至少进行200次,以通过收敛模型更快地接近达到纳什均衡的表现效果,最后,使用完成迭代次数的所述生成对抗网络进行图片生成。
请参照图4,图4是本发明实施例提供的一种图像生成系统的结构示意图,所述图像生成系统400包括:
数据提取模块401,用于将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签,具体的所述数据提取模块401将所述训练集中的图片从所述预设的训练图片数据中随机地选出,并将其转化为32×3×32×32的形状,其中,所述训练集中的图片还具有标签信息,所述特征标签类型在本发明实施例中为onehot编码格式,所述特征标签形状为32×10;
噪声生成模块402,用于随机地生成满足高斯分布的形状为32×100的第一噪声和第二噪声;
生成器模块403,用于根据所述第一噪声、所述第二噪声得到中间噪声,并对所述特征标签、所述第一噪声、所述第二噪声、所述中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;
损失计算模块404,将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集利用多样化模式损失函数进行处理,具体的,使用的所述多样化模式损失函数表达式如下:
所述损失计算模块404利用所述多样化模式损失函数计算并最大化所述生成器模块403生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离,避免所述生成器模块403生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一。
判别器模块405,用于对所述第三图片集、所述训练集以及对应的所述特征标签进行处理,具体的,所述判别器模块405利用卷积、批归一化和激活函数等操作计算对抗损失,并判断所述生成器模块403生成的图片相对于所述训练集中的图片的真伪度;
迭代控制模块406,用于控制所述生成器模块403、所述判别器模块405反复交替更新学习,直到达到纳什均衡,最后,使用完成迭代次数的所述图像生成系统400进行图片生成。
请参照图5,图5是本发明实施例提供的一种计算机设备的结构示意图,所述计算机设备500包括:存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的计算机程序。
处理器501调用存储器502存储的计算机程序,执行以下步骤:将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
随机地生成满足高斯分布的第一噪声和第二噪声;
将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集;
计算所述第一噪声和所述第二噪声的均值,均值计算使用均方差纠错作为损失函数,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集;
将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理,得到所述第三图片集的判断结果;
所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像。
本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的一种图像生成方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本发明实施例中用于描述生成对抗网络相关参数的数字和指代符号,例如所述训练集中的图片形状、所述特征标签的形状、所述第一噪声和第二噪声的形状、所述第一拼接特征和所述第二拼接特征的形状、所述多样化模式损失函数中的参数符号等,仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种图像生成方法,其特征在于,包括以下步骤:
将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
随机地生成满足高斯分布的第一噪声和第二噪声;
将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集;
计算所述第一噪声和所述第二噪声的均值,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集;
将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理,得到所述第三图片集的判断结果;
所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像;
其中,将所述特征标签分别与所述第一噪声和所述第二噪声拼接,包括以下步骤:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征;
2.如权利要求1所述的一种图像生成方法,其特征在于,所述得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集具体包括以下步骤:
将所述第一拼接特征和所述第二拼接特征经过三组相同的反卷积、批归一化和ReLU函数处理,得到第一处理特征和第二处理特征;
将所述第一处理特征和所述第二处理特征分别经过tanh函数处理,分别得到所述第一图片集和所述第二图片集。
3.如权利要求1所述的一种图像生成方法,其特征在于,所述将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理的步骤具体包括以下步骤:
将所述第三图片集、所述训练集以及对应的所述特征标签输入所述判别器中,同时,所述特征标签通过reshape与所述训练集中的图片为相同形状,并在RGB通道上将所述第三图片集和所述训练集分别与所述特征标签进行拼接,分别得到第三拼接特征和训练特征;
将所述第三拼接特征和所述训练特征分别经过一组卷积和LeakyReLU函数处理,分别得到第三处理特征和第四处理特征;
将所述第三处理特征和所述第四处理特征再经过两组卷积、批归一化和LeakyReLU函数处理,得到最终拼接特征和最终训练特征;
将得到的所述最终拼接特征和所述最终训练特征经过一组卷积和Sigmoid函数处理,得到一个一维数组,并使用所述判别器的损失函数对所述一维数组计算对抗损失,使得所述判别器对于所述第三图片集的真实图像得出的判别数值靠近1,对于所述第三图片集的虚假图像得出的判别数值靠近0。
5.如权利要求1所述的一种图像生成方法,其特征在于,所述生成器和所述判别器反复交替更新学习的迭代次数至少为200次。
6.一种图像生成系统,其特征在于,包括数据提取模块、噪声生成模块、生成器模块、损失计算模块、判别器模块、迭代控制模块,其中:
所述数据提取模块用于将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
所述噪声生成模块用于随机地生成满足高斯分布的第一噪声和第二噪声;
所述生成器模块用于根据所述第一噪声、所述第二噪声得到中间噪声,并对所述特征标签、所述第一噪声、所述第二噪声、所述中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;
所述损失计算模块用于将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集利用多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
所述判别器模块用于对所述第三图片集、所述训练集以及所述特征标签进行处理,得到所述第三图片集的判断结果;
所述迭代控制模块用于控制所述生成器模块、所述判别器模块反复交替更新学习,直到达到纳什均衡,生成最终图像;
其中,将所述特征标签分别与所述第一噪声和所述第二噪声拼接,包括以下步骤:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征;
7.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的一种图像生成方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的一种图像生成方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707279.7A CN113379593B (zh) | 2021-06-25 | 2021-06-25 | 一种图像生成方法、系统及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707279.7A CN113379593B (zh) | 2021-06-25 | 2021-06-25 | 一种图像生成方法、系统及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113379593A CN113379593A (zh) | 2021-09-10 |
CN113379593B true CN113379593B (zh) | 2022-04-19 |
Family
ID=77579003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110707279.7A Active CN113379593B (zh) | 2021-06-25 | 2021-06-25 | 一种图像生成方法、系统及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379593B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019128B (zh) * | 2022-06-02 | 2024-08-23 | 电子科技大学 | 图像生成模型训练方法、图像生成方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675316A (zh) * | 2019-08-29 | 2020-01-10 | 中山大学 | 基于条件生成对抗网络的多域图像转换方法、系统及介质 |
CN110930471A (zh) * | 2019-11-20 | 2020-03-27 | 大连交通大学 | 一种基于人机交互式对抗网络的图像生成方法 |
CN112270996A (zh) * | 2020-11-13 | 2021-01-26 | 南京信息工程大学 | 一种可用于多变量医疗传感数据流的分类方法 |
-
2021
- 2021-06-25 CN CN202110707279.7A patent/CN113379593B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675316A (zh) * | 2019-08-29 | 2020-01-10 | 中山大学 | 基于条件生成对抗网络的多域图像转换方法、系统及介质 |
CN110930471A (zh) * | 2019-11-20 | 2020-03-27 | 大连交通大学 | 一种基于人机交互式对抗网络的图像生成方法 |
CN112270996A (zh) * | 2020-11-13 | 2021-01-26 | 南京信息工程大学 | 一种可用于多变量医疗传感数据流的分类方法 |
Non-Patent Citations (2)
Title |
---|
基于感知对抗网络的图像风格迁移方法研究;李君艺;《合 肥 工 业 大 学 学 报 (自 然 科 学 版 )》;20200531;全文 * |
生成对抗网络总结 - 深度机器学习;博客园;《https://www.cnblogs.com/eilearn/p/9490288.html》;20180816;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113379593A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359608B (zh) | 一种基于深度学习模型的人脸识别方法 | |
CN109840531A (zh) | 训练多标签分类模型的方法和装置 | |
CN110458085B (zh) | 基于注意力增强三维时空表征学习的视频行为识别方法 | |
CN109410247A (zh) | 一种多模板和自适应特征选择的视频跟踪算法 | |
CN111753881A (zh) | 一种基于概念敏感性量化识别对抗攻击的防御方法 | |
CN110941794A (zh) | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 | |
CN112132258B (zh) | 一种基于可变形卷积的多任务图像处理方法 | |
Zhang et al. | Channel-wise and feature-points reweights densenet for image classification | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN111507384A (zh) | 一种黑盒深度模型对抗样本生成方法 | |
CN113379593B (zh) | 一种图像生成方法、系统及相关设备 | |
CN112966644A (zh) | 用于手势检测和手势识别的多模态多任务模型及其训练方法 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN112149645A (zh) | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 | |
Li et al. | Fast Robust Matrix Completion via Entry-Wise ℓ 0-Norm Minimization | |
CN113935396A (zh) | 基于流形理论的对抗样本攻击方法及相关装置 | |
CN117011508A (zh) | 一种基于视觉变换和特征鲁棒的对抗训练方法 | |
CN114882323B (zh) | 对抗样本生成方法、装置、电子设备及存储介质 | |
CN115270891A (zh) | 一种信号对抗样本的生成方法、装置、设备及存储介质 | |
CN114723733B (zh) | 一种基于公理解释的类激活映射方法及装置 | |
CN115409159A (zh) | 对象操作方法、装置、计算机设备以及计算机存储介质 | |
CN113283520A (zh) | 面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置 | |
Viswanathan et al. | Text to image translation using generative adversarial networks | |
CN118230087A (zh) | 一种基于降维与迁移的对抗样本生成方法 | |
CN113298049B (zh) | 图像特征降维方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240109 Granted publication date: 20220419 |