CN113379593B - 一种图像生成方法、系统及相关设备 - Google Patents

一种图像生成方法、系统及相关设备 Download PDF

Info

Publication number
CN113379593B
CN113379593B CN202110707279.7A CN202110707279A CN113379593B CN 113379593 B CN113379593 B CN 113379593B CN 202110707279 A CN202110707279 A CN 202110707279A CN 113379593 B CN113379593 B CN 113379593B
Authority
CN
China
Prior art keywords
noise
picture set
feature
pictures
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110707279.7A
Other languages
English (en)
Other versions
CN113379593A (zh
Inventor
孙志伟
马韬
闫潇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Anruan Huishi Technology Co ltd
Shenzhen Anruan Technology Co Ltd
Original Assignee
Shenzhen Anruan Huishi Technology Co ltd
Shenzhen Anruan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Anruan Huishi Technology Co ltd, Shenzhen Anruan Technology Co Ltd filed Critical Shenzhen Anruan Huishi Technology Co ltd
Priority to CN202110707279.7A priority Critical patent/CN113379593B/zh
Publication of CN113379593A publication Critical patent/CN113379593A/zh
Application granted granted Critical
Publication of CN113379593B publication Critical patent/CN113379593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于人工智能应用领域,提供了一种图像生成方法、系统、计算机设备及存储介质,具体包括:提取有特征标签的训练图片为训练集;随机生成满足高斯分布的第一噪声和第二噪声;利用生成器根据第一噪声、第二噪声得到中间噪声,并对特征标签、第一噪声、第二噪声、中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;将第一图片集、第二图片集、第一噪声、第二噪声、中间噪声以及第三图片集输入到多样化模式损失函数进行处理;将第三图片集、训练集以及特征标签输入到生成对抗网络的判别器进行处理;生成器和判别器反复交替更新学习,直到达到纳什均衡,生成最终图像。本发明缓解了生成对抗网络中的模式崩塌问题。

Description

一种图像生成方法、系统及相关设备
技术领域
本发明属于人工智能应用领域,尤其涉及一种图像生成方法、系统及相关设备。
背景技术
生成对抗网络(Generative Adversarial Networks,GAN)一般有两个重要的组成部分:生成器和判别器。通过使生成器和判别器相互对抗直至双方均达到最优的过程,称为纳什均衡。然而,实际训练中很难达到纳什均衡,主要原因是,对于生成图像和辨别图像两个任务来说,生成图像的任务难度远高于辨别图像的难度,所以判别器往往比生成器训练得更快,从而使得判别器率先达到最优状态,在这种情况下,生成器生成的图片会很容易被判别器辨别出来,导致在反向传播时,生成器得到无效的梯度,最终使得生成器一直无法达到最优状态。达不到纳什均衡的结果是生成器无法生成更高保真度和多样性的图片。
GAN一直被广泛应用于各种条件生成任务,但一直以来两个主要问题都未能得到很好的解决,其一,为上述描述的训练不稳定导致很难达到纳什均衡的问题;其二,为模式崩塌,是指对于取自同一分布不同的隐变量通过生成器得到的图片很大程度上是相似的,缺乏多样性。出现模式崩塌的原因主要是,对于生成器学到的一个具体的特征,会出现两种情况:一,生成器学习到的特征是符合实际需求的,但是由于判别器训练的过好,所以会给虚假的特征一个较低的分数;二,生成器学习到的特征不符合实际需求,但是由于判别器训练的过差,无法判别虚假图像的真假,可能会误给虚假的特征一个很高的分数。
从优化生成器的角度,MSGAN(Mode Seeking Generative AdversarialNetworks,模式寻求型生成对抗网络)的作者提出一种损失函数MS_Loss,具体表述为:对于取自同一分布的任意两个隐变量通过生成器生成的图片的多样性距离应该是尽量的大,即希望生成器在隐变量距离比较小的时候,可以寻找到更多的模式。但是,对于原先两个相近的隐变量对应生成的图片相似度距离也很相近,MSGAN会将所有的样本都输入到MS_Loss中,最终会使得生成器最终学习到有偏差的真实分布。
发明内容
本发明实施例提供一种图像生成方法、系统及相关设备,旨在解决生成对抗网络中生成器过分追求模式的多样性,最终造成模式崩塌的问题。
第一方面,本发明实施例提供一种图像生成方法,包括以下步骤:
将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
随机地生成满足高斯分布的第一噪声和第二噪声;
将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集;
计算所述第一噪声和所述第二噪声的均值,均值计算使用均方差纠错作为损失函数,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集;
将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理,得到所述第三图片集的判断结果;
所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像。
更进一步地,所述将所述特征标签分别与所述第一噪声和所述第二噪声拼接的步骤具体包括:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征。
更进一步地,所述得到对应所述第一噪声和所述第二噪声的结果第一图片集和第二图片集具体包括以下步骤:
将所述第一拼接特征和所述第二拼接特征经过三组相同的反卷积、批归一化和ReLU函数处理,得到第一处理特征和第二处理特征;
将所述第一处理特征和所述第二处理特征分别经过tanh函数处理,分别得到所述第一图片集和所述第二图片集。
更进一步地,所述多样化模式损失函数的定义为
Figure GDA0003507100250000031
满足如下约束条件:
Figure GDA0003507100250000032
其中,j在计算过程中取值1和2,使I1、I2分别代表所述第一图片集和所述第二图片集,z1、z2分别代表所述第一噪声和所述第二噪声,
Figure GDA0003507100250000033
代表所述中间噪声,
Figure GDA0003507100250000034
代表所述第三图片集,
Figure GDA0003507100250000035
代表对于所述第一图片集、所述第二图片集分别与所述第三图片集之间的矩阵计算,
Figure GDA0003507100250000036
代表对于所述第一噪声、所述第二噪声分别与所述中间噪声之间的矩阵计算过程,
Figure GDA0003507100250000037
代表生成对抗网络中生成器进行的距离矩阵值最大化计算过程。
更进一步地,所述将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理的步骤具体包括以下步骤:
将所述第三图片集、所述训练集以及对应的所述特征标签输入所述判别器中,同时,所述特征标签通过重整形与所述训练集中的图片为相同形状,并在RGB通道上将所述第三图片集和所述训练集分别与所述特征标签进行拼接,分别得到第三拼接特征和训练特征;
将所述第三拼接特征和所述训练特征分别经过一组卷积和LeakyReLU函数处理,分别得到第三处理特征和第四处理特征;
将所述第三处理特征和所述第四处理特征再经过两组卷积、批归一化和LeakyReLU函数处理,得到最终拼接特征和最终训练特征;
将得到的所述最终拼接特征和所述最终训练特征经过一组卷积和Sigmoid函数处理,得到一个一维数组,并使用所述判别器的损失函数对所述一维数组计算对抗损失,使得所述判别器对于所述第三图片集的真实图像得出的判别数值靠近1,对于所述第三图片集的虚假图像得出的判别数值靠近0。
更进一步地,所述LeakyReLU函数引入了数据小于0时的梯度,并满足如下约束条件:
Figure GDA0003507100250000041
其中,x代表所述LeakyReLU函数的输入数据。
更进一步地,所述生成器和所述判别器反复交替更新学习的迭代次数至少为200次。
第二方面,本发明实施例提供一种图像生成系统,包括数据处理模块、生成器模块、判别器模块、损失计算模块,其中:
数据提取模块用于将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
噪声生成模块用于随机地生成满足高斯分布的第一噪声和第二噪声;
生成器模块用于根据所述第一噪声、所述第二噪声得到中间噪声,并对所述特征标签、所述第一噪声、所述第二噪声、所述中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;
损失计算模块用于将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集利用多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
判别器模块用于对所述第三图片集、所述训练集以及对应的所述特征标签进行处理,得到所述第三图片集的判断结果;
迭代控制模块用于控制所述生成器模块、所述判别器模块反复交替更新学习,直到达到纳什均衡,生成最终图像。
第三方面,本发明实施例提供一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例中任一项所述的一种图像生成方法中的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中任一项所述的一种图像生成方法中的步骤。
本发明所达到的有益效果,由于在生成对抗网络中引入了新的损失函数,使得生成对抗网络的生成器在生成图片时会围绕一个主要特征来进行,避免了生成器在迭代过程中过分追求模式的多样性,达到了缓解模式崩塌的效果。
附图说明
图1是本发明实施例提供的一种图像生成方法的流程图;
图2是本发明实施例提供的一种图像生成方法中生成器运作流程图;
图3是本发明实施例提供的一种图像生成方法中判别器运作流程图;
图4是本发明实施例提供的一种图像生成系统的结构示意图;
图5是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例是基于DCGAN(Deep Convolutional GenerativeAdversarialNetworks,卷积生成对抗网络)进行的,在本领域相关技术中,DCGAN模型及其相关优化模型具有共同的运行逻辑和结构,因此在任何DCGAN模型及其相关优化模型中都可以使用本发明实施例提供的方法,对于基础的模型架构本发明不做限定。请参照图1,图1是本发明实施例提供的一种图像生成方法的流程图,包括以下步骤:
S101、将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片具有标签。
所述预设的训练图片数据为真实图像,包括通过高清摄像头采集的自然图像以及具有特定对象的图像等,所述训练集中的图片从所述预设的训练图片数据中随机地选出,并通过人工操作或计算机程序处理的方式,将所述训练集中的图片其转化为32×3×32×32的形状,其中,所述训练集中的图片还具有标签信息,所述特征标签类型在本发明实施例中为onehot编码格式,所述特征标签形状为32×10。
S102、随机地生成满足高斯分布的第一噪声和第二噪声。
使用计算机图像生成工具随机生成满足高斯分布的第一噪声和第二噪声,具体的,所述第一噪声和所述第二噪声为一种一维度的形状,所述第一噪声和所述第二噪声的形状为32×100。
S103、将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集。
其中,将所述特征标签分别与所述第一噪声和所述第二噪声拼接,包括以下步骤:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征。
所述第一噪声和所述第二噪声原本为一维度的数据,在得到第一拼接特征之前,对所述第一噪声和所述第二噪声进行二维度和三维度扩展,使得所述第一噪声和所述第二噪声成为一个形状为32×10×1×1的三维度数据,之后将所述特征标签与扩展了维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道上拼接,得到第一拼接特征和第二拼接特征,具体的,所述第一拼接特征和所述第二拼接特征的形状为32×110×1×1。
请参照图2,图2是本发明实施例提供的一种图像生成方法中生成器运作流程图,对应本发明实施例中步骤S103中所述分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集,包括以下步骤:
S201、将所述第一拼接特征和所述第二拼接特征经过三组相同的反卷积、批归一化和ReLU函数处理,得到第一处理特征和第二处理特征。
在本发明实施例中,所述反卷积、批归一化和ReLU函数是为了采样到所述第一拼接特征中的像素特征,并加速模型收敛,其中,所述反卷积的大小为4×4,步长为1,使用ReLU函数仅通过一个阈值来做激活,降低了模型的计算复杂度。
S202、将所述第一处理特征和所述第二处理特征分别经过tanh函数处理,分别得到所述第一图片集和所述第二图片集。
经过所述反卷积、批归一化和ReLU函数层处理后得到的所述第一处理特征和所述第二处理特征,由于ReLU的输出可能过大,造成像素值出现错误,因此在所述生成器的最后一层引入tanh函数来减小数值,具体的,所述tanh函数的公式如下所示:
Figure GDA0003507100250000081
其中,x表示tanh函数的输入内容,sinh为双曲正弦函数,cosh为双曲余弦函数,e为常量,tanh函数将所述第一处理特征和所述第二处理特征的处理结果缩小到-1至1之间,在所述生成器最后输出时,会将所述tanh函数的输出结果作一个等值放大计算,以得到像素值的取值0至255之间的一个计算结果。所述生成器根据所述第一噪声和所述第二噪声作为输入的输出结果,即分别具有所述第一拼接特征和所述第二拼接特征特点的所述第一图片集和所述第二图片集。
S104,计算所述第一噪声和所述第二噪声的均值,均值计算使用均方差纠错作为损失函数,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集。
具体的,本发明实施例中,生成对抗网络的生成器生成所述第三图片集,首先计算所述第一噪声和所述第二噪声的均值。对于所述第一噪声和所述第二噪声拼接所述特征标签经过所述生成器生成的对应的所述第一图片集和所述第二图片集,其中,定义所述特征标签为c,且:
c=[c1,c2,...cn]
定义所述第一噪声、所述第二噪声分别为z1和z2,且:
z1=[z11,z12,...z1n],z2=[z21,z22,...z2n]
根据上述参数所产生的所述第一图片集和所述第二图片集分别定义为I1和I2,且:
I1=[I11,I12,...I1n],I2=[I21,I22,...I2n]
在以上公式中,n代表的是一组随机噪声的数目。此处对于所述第一图片集和所述第二图片集的计算还存在:
Ii=G(c,zi)
其中,i取值为1和2,使zi分别计算中取值为z1和z2,分别对应所述第一噪声和所述第二噪声,G(c,zi)是代表所述生成器的计算过程,所述生成器通过对噪声数据进行处理,生成一组新的图片。
根据以上定义,所述第一噪声和所述第二噪声计算得到所述中间噪声的过程满足如下约束条件:
Figure GDA0003507100250000091
在上述条件中,j取值1和2,i取值与n的范围相等,使得zji在取值时能够对应所述第一噪声和所述第二噪声之间的任意一个随机噪声,例如,z12代表所述第一噪声中的第二个噪声数据,当模式崩塌发生时,对于所述第一噪声和所述第二噪声之间的任意一组随机噪声zji会和所述中间噪声很接近。在这个均值计算的过程中使用均方误差(Mean SquaredError,简称MSE)作为损失函数,
Figure GDA0003507100250000101
表示根据zji计算出来的所述中间噪声。
根据所述第一噪声和所述第二噪声以及所述特征标签得到所述第三图片集的过程满足如下约束条件:
Figure GDA0003507100250000102
其中,
Figure GDA0003507100250000103
代表所述第三图片集,所述第三图片集与所述随机噪声zji存在正相关性。
S105、将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一。
具体的,所述多样化模式损失函数(Divm_Loss)的表达式满足如下约束条件:
Figure GDA0003507100250000104
其中,j在计算过程中取值1和2,使I1、I2分别代表所述第一图片集和所述第二图片集,z1、z2分别代表所述第一噪声和所述第二噪声,
Figure GDA0003507100250000105
代表所述中间噪声,
Figure GDA0003507100250000106
代表所述第三图片集,
Figure GDA0003507100250000107
代表对于所述第一图片集、所述第二图片集分别与所述第三图片集之间的矩阵计算,
Figure GDA0003507100250000108
代表对于所述第一噪声、所述第二噪声分别与所述中间噪声之间的矩阵计算过程,
Figure GDA0003507100250000111
代表生成对抗网络中生成器进行的距离矩阵值最大化计算过程。在计算过程中,dI和dz均使用均方差纠错的损失函数,对于dz来说,由于所述第一噪声、所述第二噪声服从高斯分布,所以所述多样化模式损失函数中的
Figure GDA0003507100250000112
结果近似等于1,使得所述多样化损失函数的计算量得到优化。具体的,多样化模式损失函数的优化表达式满足如下约束条件:
Figure GDA0003507100250000113
在本发明实施例中,使用了所述多样化模式损失函数的DCGAN中新的全局损失函数
Figure GDA0003507100250000114
表达式为:
Figure GDA0003507100250000115
其中,λDivM代表将所述多样化模式损失函数加入到原本的DCGAN中所需要修改的正则化参数,
Figure GDA0003507100250000116
表示原始DCGAN中的损失函数,
Figure GDA0003507100250000117
在DCGAN中的表达式为:
Figure GDA0003507100250000118
其中,D(c,G(c,z)代表的是所述判别器的计算过程,所述判别器通过对所述生成器生成的图片以及原始数据进行处理,输出一个用于判断图片真伪的值。
S106、将所述第三图片集、所述训练集以及对应的所述特征标签输入到生成对抗网络的判别器进行处理。
请参照图3,图3是本发明实施例提供的一种图像生成方法中判别器运作流程图,包括以下步骤:
S301、将所述第三图片集、所述训练集以及对应的所述特征标签输入所述判别器中,同时,所述特征标签通过重整形与所述训练集中的图片为相同形状,并在RGB通道上将所述第三图片集和所述训练集分别与所述特征标签进行拼接,分别得到第三拼接特征和训练特征。
具体的,所述判别器在进行对所述生成器生成的图片进行判断前,还包括一个对图片特征采样的过程,所述第三图片集和所述训练集中的图片在所述判别器中分别视为判断对象和对照对象,所述第三图片集和所述训练集中的图片分别在RGB通道进行拼接,分别得到所述第三拼接特征和所述训练特征。
S302、将所述第三拼接特征和所述训练特征分别经过一组卷积和LeakyReLU函数处理,分别得到第三处理特征和第四处理特征。
所述第三拼接特征和所述训练特征首先经过一组大小为4×4、步长为1的卷积处理,然后通过LeakyReLU函数激活,所述LeakyReLU函数是ReLU函数的改进函数,引入了输入数据小于0时的梯度,所述LeakyReLU函数具体表达式为:
Figure GDA0003507100250000121
其中,x代表的是输入内容,在本发明实施例中,x代表的是所述第三拼接特征和所述训练特征经过卷积处理后的数据,即所述第三拼接特征和所述训练特征。
S303、将所述第三处理特征和所述第四处理特征再经过两组卷积、批归一化和LeakyReLU函数处理,得到最终拼接特征和最终训练特征。
所述第三处理特征和所述第四处理特征首先经过两组大小为4×4、步长为1的卷积处理,与本发明实施例步骤S302的区别在于,加入了一个批归一化的步骤,以此来收敛所述判别器的模型,最后将批归一化的数据再经过所述LeakyReLU函数进行处理,最后对应所述第三处理特征和所述第四处理特征,分别得到最终拼接特征和最终训练特征。
S304、将得到的所述最终拼接特征和所述最终训练特征经过一组卷积和Sigmoid函数处理,得到一个一维数组,并使用所述判别器的损失函数对所述一维数组计算对抗损失,使得所述判别器对于真实图像得出的判别数值更靠近1,对于虚假图像得出的判别数值更靠近0。
所述最终拼接特征和所述最终训练特征再经过一组大小为4×4、步长为1的卷积处理,随后,经过Sigmoid激活函数处理,最终得到一个一维数组。
所述判别器的损失函数
Figure GDA0003507100250000131
的表达式为:
Figure GDA0003507100250000132
其中,Itrain代表的是所述训练集,
Figure GDA0003507100250000133
代表对于表达式中对数的基数运算,是数学中的常用计算方式。
根据所述判别器的损失函数计算结果,得到一个介于0和1之间的数值,根据这个数值,得到可以得到对于此次计算用到的所述第三拼接特征相对于所述训练特征的判断结果,即,对于所述第三图片集中的真实图像得出的判别数值更靠近1,对于所述第三图片集中的虚假图像得出的判别数值更靠近0。
S107、所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像。
所述全局损失函数
Figure GDA0003507100250000134
经过表达式变换,可知所述生成器的损失和所述判别器的损失存在相关性,所述生成器和所述判别器重复交替更新学习,在本发明实施例中,至少进行200次迭代,即对于同一组所述训练集中用到的图片与所述第一噪声和第二噪声在所述生成器和所述判别器之间进行的图片生成和判断的过程,至少进行200次,以通过收敛模型更快地接近达到纳什均衡的表现效果,最后,使用完成迭代次数的所述生成对抗网络进行图片生成。
请参照图4,图4是本发明实施例提供的一种图像生成系统的结构示意图,所述图像生成系统400包括:
数据提取模块401,用于将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签,具体的所述数据提取模块401将所述训练集中的图片从所述预设的训练图片数据中随机地选出,并将其转化为32×3×32×32的形状,其中,所述训练集中的图片还具有标签信息,所述特征标签类型在本发明实施例中为onehot编码格式,所述特征标签形状为32×10;
噪声生成模块402,用于随机地生成满足高斯分布的形状为32×100的第一噪声和第二噪声;
生成器模块403,用于根据所述第一噪声、所述第二噪声得到中间噪声,并对所述特征标签、所述第一噪声、所述第二噪声、所述中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;
损失计算模块404,将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集利用多样化模式损失函数进行处理,具体的,使用的所述多样化模式损失函数表达式如下:
Figure GDA0003507100250000141
所述损失计算模块404利用所述多样化模式损失函数计算并最大化所述生成器模块403生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离,避免所述生成器模块403生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一。
判别器模块405,用于对所述第三图片集、所述训练集以及对应的所述特征标签进行处理,具体的,所述判别器模块405利用卷积、批归一化和激活函数等操作计算对抗损失,并判断所述生成器模块403生成的图片相对于所述训练集中的图片的真伪度;
迭代控制模块406,用于控制所述生成器模块403、所述判别器模块405反复交替更新学习,直到达到纳什均衡,最后,使用完成迭代次数的所述图像生成系统400进行图片生成。
请参照图5,图5是本发明实施例提供的一种计算机设备的结构示意图,所述计算机设备500包括:存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的计算机程序。
处理器501调用存储器502存储的计算机程序,执行以下步骤:将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
随机地生成满足高斯分布的第一噪声和第二噪声;
将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集;
计算所述第一噪声和所述第二噪声的均值,均值计算使用均方差纠错作为损失函数,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集;
将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理,得到所述第三图片集的判断结果;
所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像。
本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的一种图像生成方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本发明实施例中用于描述生成对抗网络相关参数的数字和指代符号,例如所述训练集中的图片形状、所述特征标签的形状、所述第一噪声和第二噪声的形状、所述第一拼接特征和所述第二拼接特征的形状、所述多样化模式损失函数中的参数符号等,仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种图像生成方法,其特征在于,包括以下步骤:
将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
随机地生成满足高斯分布的第一噪声和第二噪声;
将所述特征标签分别与所述第一噪声和所述第二噪声拼接,再输入到生成对抗网络的生成器进行处理,分别得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集;
计算所述第一噪声和所述第二噪声的均值,以得到中间噪声,将所述第一噪声和所述第二噪声以及所述特征标签拼接,再输入到生成对抗网络的生成器进行处理,得到第三图片集;
将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集输入到多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理,得到所述第三图片集的判断结果;
所述生成器和所述判别器反复交替更新学习,直到达到纳什均衡,以生成最终图像;
其中,将所述特征标签分别与所述第一噪声和所述第二噪声拼接,包括以下步骤:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征;
所述多样化模式损失函数的定义为
Figure FDA0003466937140000021
满足如下约束条件:
Figure FDA0003466937140000022
其中,j在计算过程中取值1和2,使I1、I2分别代表所述第一图片集和所述第二图片集,z1、z2分别代表所述第一噪声和所述第二噪声,
Figure FDA0003466937140000023
代表所述中间噪声,
Figure FDA0003466937140000024
代表所述第三图片集,
Figure FDA0003466937140000025
代表对于所述第一图片集、所述第二图片集分别与所述第三图片集之间的矩阵计算,
Figure FDA0003466937140000026
代表对于所述第一噪声、所述第二噪声分别与所述中间噪声之间的矩阵计算过程,
Figure FDA0003466937140000027
代表生成对抗网络中生成器进行的距离矩阵值最大化计算过程。
2.如权利要求1所述的一种图像生成方法,其特征在于,所述得到对应所述第一噪声和所述第二噪声的第一图片集和第二图片集具体包括以下步骤:
将所述第一拼接特征和所述第二拼接特征经过三组相同的反卷积、批归一化和ReLU函数处理,得到第一处理特征和第二处理特征;
将所述第一处理特征和所述第二处理特征分别经过tanh函数处理,分别得到所述第一图片集和所述第二图片集。
3.如权利要求1所述的一种图像生成方法,其特征在于,所述将所述第三图片集、所述训练集以及所述特征标签输入到生成对抗网络的判别器进行处理的步骤具体包括以下步骤:
将所述第三图片集、所述训练集以及对应的所述特征标签输入所述判别器中,同时,所述特征标签通过reshape与所述训练集中的图片为相同形状,并在RGB通道上将所述第三图片集和所述训练集分别与所述特征标签进行拼接,分别得到第三拼接特征和训练特征;
将所述第三拼接特征和所述训练特征分别经过一组卷积和LeakyReLU函数处理,分别得到第三处理特征和第四处理特征;
将所述第三处理特征和所述第四处理特征再经过两组卷积、批归一化和LeakyReLU函数处理,得到最终拼接特征和最终训练特征;
将得到的所述最终拼接特征和所述最终训练特征经过一组卷积和Sigmoid函数处理,得到一个一维数组,并使用所述判别器的损失函数对所述一维数组计算对抗损失,使得所述判别器对于所述第三图片集的真实图像得出的判别数值靠近1,对于所述第三图片集的虚假图像得出的判别数值靠近0。
4.如权利要求3所述的一种图像生成方法,其特征在于,所述LeakyReLU函数引入了数据小于0时的梯度,并满足如下约束条件:
Figure FDA0003466937140000031
其中,x代表所述LeakyReLU函数的输入数据。
5.如权利要求1所述的一种图像生成方法,其特征在于,所述生成器和所述判别器反复交替更新学习的迭代次数至少为200次。
6.一种图像生成系统,其特征在于,包括数据提取模块、噪声生成模块、生成器模块、损失计算模块、判别器模块、迭代控制模块,其中:
所述数据提取模块用于将预设的训练图片数据中的图片提取为训练集,所述训练集中的图片对应有特征标签;
所述噪声生成模块用于随机地生成满足高斯分布的第一噪声和第二噪声;
所述生成器模块用于根据所述第一噪声、所述第二噪声得到中间噪声,并对所述特征标签、所述第一噪声、所述第二噪声、所述中间噪声进行处理,得到第一图片集、第二图片集和第三图片集;
所述损失计算模块用于将所述第一图片集、所述第二图片集、所述第一噪声、所述第二噪声、所述中间噪声以及所述第三图片集利用多样化模式损失函数进行处理,以使得所述生成器生成的所述第一图片集、所述第二图片集与所述第三图片集之间的矩阵距离最大化,避免所述生成器生成所述第一图片集、所述第二图片集、所述第三图片集时的表现趋势过于单一;
所述判别器模块用于对所述第三图片集、所述训练集以及所述特征标签进行处理,得到所述第三图片集的判断结果;
所述迭代控制模块用于控制所述生成器模块、所述判别器模块反复交替更新学习,直到达到纳什均衡,生成最终图像;
其中,将所述特征标签分别与所述第一噪声和所述第二噪声拼接,包括以下步骤:
扩展所述第一噪声和所述第二噪声的维度,并将扩展维度后的所述第一噪声和所述第二噪声分别与所述特征标签在RGB通道维度上拼接,分别得到第一拼接特征和第二拼接特征;
所述多样化模式损失函数的定义为
Figure FDA0003466937140000041
满足如下约束条件:
Figure FDA0003466937140000042
其中,j在计算过程中取值1和2,使I1、I2分别代表所述第一图片集和所述第二图片集,z1、z2分别代表所述第一噪声和所述第二噪声,
Figure FDA0003466937140000043
代表所述中间噪声,
Figure FDA0003466937140000044
代表所述第三图片集,
Figure FDA0003466937140000045
代表对于所述第一图片集、所述第二图片集分别与所述第三图片集之间的矩阵计算,
Figure FDA0003466937140000046
代表对于所述第一噪声、所述第二噪声分别与所述中间噪声之间的矩阵计算过程,
Figure FDA0003466937140000047
代表生成对抗网络中生成器进行的距离矩阵值最大化计算过程。
7.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的一种图像生成方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的一种图像生成方法中的步骤。
CN202110707279.7A 2021-06-25 2021-06-25 一种图像生成方法、系统及相关设备 Active CN113379593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707279.7A CN113379593B (zh) 2021-06-25 2021-06-25 一种图像生成方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707279.7A CN113379593B (zh) 2021-06-25 2021-06-25 一种图像生成方法、系统及相关设备

Publications (2)

Publication Number Publication Date
CN113379593A CN113379593A (zh) 2021-09-10
CN113379593B true CN113379593B (zh) 2022-04-19

Family

ID=77579003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707279.7A Active CN113379593B (zh) 2021-06-25 2021-06-25 一种图像生成方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN113379593B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019128A (zh) * 2022-06-02 2022-09-06 电子科技大学 图像生成模型训练方法、图像生成方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675316A (zh) * 2019-08-29 2020-01-10 中山大学 基于条件生成对抗网络的多域图像转换方法、系统及介质
CN110930471A (zh) * 2019-11-20 2020-03-27 大连交通大学 一种基于人机交互式对抗网络的图像生成方法
CN112270996A (zh) * 2020-11-13 2021-01-26 南京信息工程大学 一种可用于多变量医疗传感数据流的分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675316A (zh) * 2019-08-29 2020-01-10 中山大学 基于条件生成对抗网络的多域图像转换方法、系统及介质
CN110930471A (zh) * 2019-11-20 2020-03-27 大连交通大学 一种基于人机交互式对抗网络的图像生成方法
CN112270996A (zh) * 2020-11-13 2021-01-26 南京信息工程大学 一种可用于多变量医疗传感数据流的分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于感知对抗网络的图像风格迁移方法研究;李君艺;《合 肥 工 业 大 学 学 报 (自 然 科 学 版 )》;20200531;全文 *
生成对抗网络总结 - 深度机器学习;博客园;《https://www.cnblogs.com/eilearn/p/9490288.html》;20180816;全文 *

Also Published As

Publication number Publication date
CN113379593A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN112561838B (zh) 基于残差自注意力和生成对抗网络的图像增强方法
CN112784764B (zh) 一种基于局部与全局注意力机制的表情识别方法及系统
CN109359608B (zh) 一种基于深度学习模型的人脸识别方法
CN109840531A (zh) 训练多标签分类模型的方法和装置
CN110458085B (zh) 基于注意力增强三维时空表征学习的视频行为识别方法
CN111881935A (zh) 一种基于内容感知gan的对抗样本生成方法
CN110941794A (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN111753881A (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN112085055A (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
Zhang et al. Channel-wise and feature-points reweights densenet for image classification
CN112132258B (zh) 一种基于可变形卷积的多任务图像处理方法
CN111507384A (zh) 一种黑盒深度模型对抗样本生成方法
CN113379593B (zh) 一种图像生成方法、系统及相关设备
CN112966644A (zh) 用于手势检测和手势识别的多模态多任务模型及其训练方法
CN112149645A (zh) 基于生成对抗学习和图神经网络的人体姿势关键点识别方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
Li et al. Fast Robust Matrix Completion via Entry-Wise $\ell_ {0} $-Norm Minimization
CN113935396A (zh) 基于流形理论的对抗样本攻击方法及相关装置
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
CN117011508A (zh) 一种基于视觉变换和特征鲁棒的对抗训练方法
CN115270891A (zh) 一种信号对抗样本的生成方法、装置、设备及存储介质
CN113177599B (zh) 一种基于gan的强化样本生成方法
CN112215282B (zh) 一种基于小样本图像分类的元泛化网络系统
Viswanathan et al. Text to image translation using generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240109

Granted publication date: 20220419