CN114419348A - 一种生成对抗网络判别器及文本生成图像的方法 - Google Patents

一种生成对抗网络判别器及文本生成图像的方法 Download PDF

Info

Publication number
CN114419348A
CN114419348A CN202210266864.2A CN202210266864A CN114419348A CN 114419348 A CN114419348 A CN 114419348A CN 202210266864 A CN202210266864 A CN 202210266864A CN 114419348 A CN114419348 A CN 114419348A
Authority
CN
China
Prior art keywords
picture
discriminator
generated
image
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210266864.2A
Other languages
English (en)
Inventor
肖春霞
方菲
罗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210266864.2A priority Critical patent/CN114419348A/zh
Publication of CN114419348A publication Critical patent/CN114419348A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种生成对抗网络判别器及文本生成图像的方法,通过从三个方面对判别器进行设计,首先,提出了一种多样性敏感条件鉴别器,它通过判断生成的图像与不匹配文本的组合为假来增加生成图像的多样性。其次,对于非条件判别器,提出了一种对比搜索策略来衡量生成图像的真实感,并惩罚梯度以稳定训练过程。最后,用判别器作为特征提取器,引入了多层次图片相似度损失,进一步提高了训练图像和生成图像与目标之间的高级特征相似度。大量的实验结果和消融研究表明,对判别器的改进可以有效地提高生成图像的质量。

Description

一种生成对抗网络判别器及文本生成图像的方法
技术领域
本发明涉及计算机视觉和多媒体领域,具体涉及一种生成对抗网络判别器及文本生成图像的方法。
背景技术
从文本描述生成逼真图像是计算机视觉和多媒体领域的一个活跃的研究领域。目标是生成逼真的图像,能够尽可能多地展示文本描述的语义信息。生成对抗网络(Generative Adversarial Networks, GAN)由于其生成器-判别器结构适合于跨模态转换任务,在文本生成图像中发挥着重要作用。
许多工作集中在改进生成器和细粒度的文本图像一致性。在实践中,判别器在为生成器的训练提供正确的指导方面是非常重要的。本发明中,提高了GAN系统中判别器的能力,为生成器的训练提供了正确的指导。最早的用于文本生成图像的判别器,能够判断生成的图像的特征是否与句子特征向量一致。随后HDGAN提出了一种多层嵌套的多尺度图像判别器来联合训练图像生成器。StackGAN++提出了条件判别器和非条件判别器,分别用于判断假图像是否匹配输入描述,并区分图像真实感高低。这种双向判别器在后续的工作中得到了广泛的应用。
文本到图像的生成是一个多模态任务,多个图像可以将一条输入的文本可视化。然而,双向判别器忽略了这一多模态特征,对多模态任务进行了过于严格的惩罚。严格的判别器会导致GAN的模式崩溃和训练不稳定。为了增加生成图像的多样性,减轻GAN训练的不稳定性,有研究者提出了Hinge Loss来稳定GAN的训练,但可能影响生成图像的真实性及其与训练图像之间的相似性。另一些方法在判别过程中,将一些生成图像视为真实图像。然而,该策略在每个训练步骤中使用固定数量的真实图像作为真实图像,降低了判别器准确度。
提高生成图片与对应训练图像之间的高级语义相似度,可以进一步增加生成图像之间的多样性。最近的一些工作SEGAN、XMCGAN在高级图像特征中加入图像相似度损失来提高两种图像相似度。例如,XMCGAN提出了图像与文本、区域与单词、生成图像与训练图像之间的对比损失来训练生成器。这种方法也使用判别器网络作为图像特征提取器。然而,该方法并没有专门训练判别器作为合格的特征提取器来区分真假图像的高级特征,也没有从多层次衡量图片相似度。
发明内容
本发明针对现有文字生成方法中判别器的不足,设计了一种生成对抗网络判别器及文本生成图像的方法,能够缓解模式崩溃带来的生成图片多样性降低,并能够使网络训练过程更加稳定,从而提高生成图片的质量。
本发明所设计的生成对抗网络判别器,其特殊之处在于:包括多样性敏感的条件判别器、对比搜索梯度惩罚的非条件判别器和多层次图像相似度单元,三者分别获得条件和非条件对抗损失以及生成图片和对应训练图片的相似度损失,以训练更好的生成器;
所述多样性敏感条件判别器基于传统条件判别器,将判断生成的图像和不匹配的文本的组合为假,从而产生损失惩罚,用来缓解模式崩溃;
所述非条件判别器基于对比搜索的梯度惩罚策略,通过比较生成图像与所构建的真图和假图之间的距离来确定生成图像是真还是假,并能够惩罚由于低估对比真图而引起的梯度爆炸;
所述多层次图像相似度单元通过计算生成图像和对应训练图像之间图像级别的差异和物体级别的差异,并将这两种差异损失相加用来更新生成器,从而促进生成图像和对应训练图像在高层语义上的相似度。在计算多层次图像相似性损失之前,先训练判别器网络,使其能够体现真实的训练图像和生成图像的差异,从而帮助更准确地计算多层次图像相似度差异。
进一步地,所述条件判别器中,通过改变判别器的判别规则,提升传统判别器对生成图像多样性的敏感程度,从而缓解模式崩溃,帮助生成更多样化的图像,具体过程如下:
在传统的条件判别器中,将真实训练图像或生成图像的特征与对应或非对应的文本特征串联,经过判别器的判断,对判断为“假”的组合产生损失,用来训练生成器。传统条件判别器一般会对三种图像和文字特征的组合做出判断:将真实的训练图像的特征与匹配的文本特征的组合判断为“真”;将真实的训练图像的特征与不匹配的其他文本的特征的组合判断为“假”;将生成的图像的特征与匹配的文本特征的组合判断为“假”。这三种判断用公式表达如下:
Figure 552975DEST_PATH_IMAGE001
其中,
Figure 1274DEST_PATH_IMAGE002
是条件判别器,
Figure 827016DEST_PATH_IMAGE003
是生成器,
Figure 753384DEST_PATH_IMAGE004
是生成图像,
Figure 364494DEST_PATH_IMAGE005
是第i张真实的训 练图像,
Figure 468847DEST_PATH_IMAGE006
Figure 532618DEST_PATH_IMAGE007
是输入文本的句子特征向量,
Figure 262677DEST_PATH_IMAGE008
是从标准正态分布中采样的噪声向量,i=j表示图像与文本是相匹配的,ij表示二者是不匹配的。
本发明中,将上式中的第三个判断改为如下形式,式中第一个和第二个判断不变:
Figure 977561DEST_PATH_IMAGE009
也就是说,条件判别器会将将生成的图像的特征与不匹配的文本特征的组合判断为“假”,这样就将传统条件判别器改为多样性敏感的条件判别器,它将惩罚与输入文本不匹配的生成图像。当模式崩溃出现时,许多本应该各不相同生成图像却看起来非常相似,这样,这些生成图像往往与对应的输入文本语义不一致。多样性敏感的条件判别器将惩罚这种现象,并产生更合理的对抗性损失,以训练更好的生成器。
进一步地,所述非条件判别器中通过比较生成图像与所构建的真图和假图之间的距离来确定假图像是真还是假的,具体过程如下:
首先,对于一批生成图片
Figure 767662DEST_PATH_IMAGE010
,构建一批构造真图
Figure 53150DEST_PATH_IMAGE011
Figure 337632DEST_PATH_IMAGE012
其中,
Figure 657755DEST_PATH_IMAGE013
是这批生成图片对应的训练集图片,
Figure 618758DEST_PATH_IMAGE014
的值是随机从[0.85,0.99]中选 取的;类似地,构建一批构造假图
Figure 906388DEST_PATH_IMAGE015
Figure 978250DEST_PATH_IMAGE016
其中,
Figure 418458DEST_PATH_IMAGE017
是一批噪声图像,它们与生成图片具有同样的分辨率,但是每个像素都 是从均匀分布
Figure 35515DEST_PATH_IMAGE018
中采样得到的;
Figure 295595DEST_PATH_IMAGE019
的值是随机从[0.4,0.6]中选取的;对于一张生成图 片
Figure 171148DEST_PATH_IMAGE020
,要对比它和对应的构造真图
Figure 715130DEST_PATH_IMAGE021
和构造假图
Figure 17936DEST_PATH_IMAGE022
的距离,从而决定
Figure 765312DEST_PATH_IMAGE023
是否是一张对 比真图。先把这三张图片都输入到非条件判别器
Figure 929708DEST_PATH_IMAGE024
中,然后这两个距离的计算方法如下:
Figure 78930DEST_PATH_IMAGE025
其中,|·|表示差的绝对值,最后,如果有
Figure 818215DEST_PATH_IMAGE026
并且
Figure 36576DEST_PATH_IMAGE027
,则认为
Figure 253931DEST_PATH_IMAGE028
是一张对比真图,其余情况下,认为
Figure 257659DEST_PATH_IMAGE029
是一张对比假图。
更进一步地,所述非条件判别器中计算铰链损失Hinge Loss,并对产生的梯度爆炸进行惩罚,具体过程如下:
先采用常规的铰链损失损失函数将当前非条件判别器
Figure 918579DEST_PATH_IMAGE030
更新为
Figure 640547DEST_PATH_IMAGE031
,再采用以下 公式进一步将
Figure 396013DEST_PATH_IMAGE032
更新为
Figure 988669DEST_PATH_IMAGE033
,以修改正原来被判别器判断为大于
Figure 319025DEST_PATH_IMAGE034
的图片会被更新后的 判别器判别为小于
Figure 528289DEST_PATH_IMAGE034
Figure 87446DEST_PATH_IMAGE035
其中,
Figure 550920DEST_PATH_IMAGE036
Figure 537331DEST_PATH_IMAGE032
更新为
Figure 233891DEST_PATH_IMAGE033
的损失函数,E表示期望值,Ncr为常规判别器判断 为大于
Figure 580428DEST_PATH_IMAGE037
的图片被更新后的判别器
Figure 678834DEST_PATH_IMAGE031
判别为小于
Figure 570566DEST_PATH_IMAGE034
的图片,
Figure 505155DEST_PATH_IMAGE034
为对比真图的阈值,
Figure 406115DEST_PATH_IMAGE038
表 示sigmoid函数,
Figure 827869DEST_PATH_IMAGE039
的值是梯度惩罚的权重。
Figure 670929DEST_PATH_IMAGE040
的值越大表明生成图片
Figure 76503DEST_PATH_IMAGE041
具有更高 的真实感,超参数
Figure 781154DEST_PATH_IMAGE042
用来调整权重值。
然后,用更新后的对比搜索梯度惩罚非条件判别器
Figure 322993DEST_PATH_IMAGE033
产生的对抗损失来训练和 更新生成器:
Figure 838420DEST_PATH_IMAGE043
其中
Figure 465710DEST_PATH_IMAGE044
是一个自适应参数,他的取值是一批真实训练图片输入
Figure 974052DEST_PATH_IMAGE045
的最小值。在 上式中,使
Figure 619666DEST_PATH_IMAGE046
的值在
Figure 289681DEST_PATH_IMAGE044
和1之间,这样能够减少训练图片和生成图片之间的差异,
Figure 669847DEST_PATH_IMAGE047
是噪声向量,
Figure 201454DEST_PATH_IMAGE048
是噪声向量的分布”补充进说明书的发明内容对应处。
进一步地,所述图像级别的差异损失具体过程为:
首先,训练判别器作为图像特征提取器,构建正样本和负样本,使得真实训练图片和正样本差别较小,和负样本差别较大,具体如下:
对于一张真图
Figure 717886DEST_PATH_IMAGE049
,正样本和负样本都包含有m张图片,其中正样本包含真实感较 高并且与
Figure 824382DEST_PATH_IMAGE050
语义一致的图片,负样本包含真实感较低并和
Figure 426265DEST_PATH_IMAGE050
语义不一致的图片,将
Figure 525676DEST_PATH_IMAGE050
和 正负样本图片都输入到相似度判别器中,输出的值分别为
Figure 162194DEST_PATH_IMAGE051
Figure 174013DEST_PATH_IMAGE052
Figure 13924DEST_PATH_IMAGE053
,计算出
Figure 667759DEST_PATH_IMAGE054
Figure 893204DEST_PATH_IMAGE055
中差距最大的值
Figure 590770DEST_PATH_IMAGE056
Figure 167245DEST_PATH_IMAGE054
Figure 359192DEST_PATH_IMAGE057
中差距最小的值
Figure 189876DEST_PATH_IMAGE058
,计算三元组损失Triplet Loss使 得
Figure 809076DEST_PATH_IMAGE056
小于
Figure 607268DEST_PATH_IMAGE058
Figure 337327DEST_PATH_IMAGE059
其中margin是超参数;然后,计算中心损失Center Loss以提高判别器网络对于正负样本的区分能力和鲁棒性:
Figure 786631DEST_PATH_IMAGE060
其中,
Figure 842312DEST_PATH_IMAGE061
Figure 144111DEST_PATH_IMAGE062
Figure 412282DEST_PATH_IMAGE063
之间距离的平均值;
然后,用经过以上两种损失训练过的判别器网络,分别提取生成图片和真实训练图片的图像级别和物体级别的特征,从而计算多层次图像相似性损失,具体如下:
更进一步地,用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征,计算二者的差异作为图像级别的相似性损失,具体过程如下:
将分辨率为256*256*3的训练图片和生成图片分别输入图中所示的判别器网络中,分别提取4*4*C的中间特征,其中C是特征通道数,然后分别经过两个卷积层得到最终的判别器输出值,这两个值相减得到训练图片和生成图片的图片级差异值。
更进一步地,用训练过的判别器网络分别提取生成图片中前景物体的特征和真实训练图片中前景物体的特征,计算二者物体级别的差异损失具体,具体过程如下:
首先用YOLOv3物体检测器检测训练图片中所存在的前景物体,并用包围框表示物体的位置,每个位置提取255维的物体特征,对于生成图片,用在训练图片中检测到的位置,提取生成图片对应位置的255维特征;对于这两种特征,用平均池化层将255维特征减少为1维特征值,然后两种图片对应物体的特征值的绝对值差异取平均,就得到训练图片和生成图片物体级别的差异值。
基于同一发明构思,本发明还设计了一种利用生成对抗网络判别器的文本生成图像方法,包括以下步骤:
步骤1,输入文字信息,用文字编码器进行文字编码,编码为句子特征向量和单词特征矩阵;
步骤2,编码后的句子特征向量串联一个噪声向量输入图片生成器生成初步图片,单词特征矩阵对初步图片进行注意力监督,生成更加清晰的图片;
步骤3,改进传统的条件判别器为多样性敏感的条件判别器,将真实训练图像与生成图像、构建的真图和假图输入多样性敏感条件判别器,产生更合理的对抗损失来训练生成器;
步骤4,对于每张生成图片构造高质量的真图和低质量的假图,比较生成图片的与两种构造图片的差异,如果与构造真图的差异较小,则生成图片判别为对比真图,如果与构造假图的差异较小,则生成图片判别为对比假图,产生对抗损失更新生成器;
步骤5,对于非条件判别器计算铰链损失初步更新判别器;
步骤6,初步更新的判别器可能存在过拟合现象,即把一部分对比真图判别为假,产生较大的梯度,从而造成训练过程的不稳定,对这部分梯度进行梯度惩罚,从而稳定训练过程;
步骤7,对于生成器的训练,计算Hinge Loss的对抗损失,并使得生成图片接近真实训练图片的值域,从而使生成图片接近真实训练图片;
步骤8,训练判别器作为图片特征提取器,构建正样本和负样本,使得真实训练图片和正样本差别较小,和负样本差别较大;
步骤9,用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征,计算二者的差异作为损失函数,更新生成器;
步骤10,用已经预训练的YOLOv3作为物体检测器,检测真实训练图片上的物体和生成图片对应位置的物体相似度,二者的差异作为损失函数,更新生成器。
进一步地,所述步骤7的具体过程如下:
用更新后的对比搜索梯度惩罚非条件判别器
Figure 466825DEST_PATH_IMAGE064
产生的对抗损失来训练和更新 生成器:
Figure 693407DEST_PATH_IMAGE065
其中
Figure 449880DEST_PATH_IMAGE044
是一个自适应参数,他的取值是一批真实训练图片输入
Figure 787320DEST_PATH_IMAGE045
的最小值。在 上式中,使
Figure 961950DEST_PATH_IMAGE046
的值在
Figure 844586DEST_PATH_IMAGE044
和1之间,这样能够减少训练图片和生成图片之间的差异。
优选地,所述物体检测器采用YOLOv3。
本发明的优点在于:
1)通过改进传统的条件判别器,提出了一种多样性敏感条件判别器来增加生成图片的多样性,并缓解模式崩溃;
2)对于非条件判别器,提出了一种基于对比搜索梯度惩罚(CSGP)的无条件判别器策略。这种改进可以更好地评价评价图像的真实感,并惩罚梯度爆炸现象,从而稳定GAN的训练;
3)提出了一种多层次图片相似度损失,用来改进生成图片与对应训练图片的相似度度量方法。在使用判别器网络提取图像和目标特征之前,将判别器网络训练成一个合格的特征提取器,使其能够区分图片质量的好坏。
本发明有效的提高了生成图片的多样性和真实感,提高生成图片与真实训练图片的语义相似度,并能够稳定训练过程。
附图说明
图1是本发明用于文字-图片生成的整体流程图。
图2是本发明的对比搜索梯度惩罚的非条件判别器的示意图。
图3是本发明的多层次图片相似度损失的示意图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明,并不对本发明作任何的限制。
本发明所设计的用于文本生成图像的生成对抗网络判别器,包括条件判别器、非条件判别器和相似度判别器,可以获得条件和非条件对抗损失以及生成图片和对应训练图片的相似度损失,以训练更好的生成器;
所述多样性敏感条件判别器基于传统条件判别器,将判断生成的图像特征和不匹配的文本特征的组合为假,从而产生损失训练更好的生成器,从而缓解生成器的模式崩溃,提高生成图片的多样性;
所述非条件判别器基于对比搜索的梯度惩罚策略,通过比较生成图像与所构建的真图和假图之间的距离来确定假图像是真还是假,并惩罚由于低估对比真图而引起的梯度爆炸;
所述多层次图像相似度单元通过计算图像级别的差异和物体级别的差异,并将这两种差异损失相加用来更新生成器。
基于同一发明构思,本发明设计了一种利用生成对抗网络判别器的文本生成图像方法,上述判别器的具体设计过程结合文本生成图像方法做进一步的详述,其具体过程如下:
步骤1,输入文字信息,用文字编码器进行文字编码,编码为句子特征向量和单词特征矩阵;
步骤2,编码后的句子特征向量串联一个噪声向量输入图片生成器生成初步图片,单词特征矩阵对初步图片进行注意力监督,生成更加清晰的图片;
步骤3,改进传统的条件判别器为多样性敏感的条件判别器,将真实训练图像与生成图像、构建的真图和假图输入多样性敏感条件判别器,产生更合理的对抗损失来训练生成器,具体如下:
在传统的条件判别器中,将真实训练图像或生成图像的特征与对应或非对应的文本特征串联,经过判别器的判断,对判断为“假”的组合产生损失,用来训练生成器。传统条件判别器一般会对三种图像和文字特征的组合做出判断:将真实的训练图像的特征与匹配的文本特征的组合判断为“真”;将真实的训练图像的特征与不匹配的其他文本的特征的组合判断为“假”;将生成的图像的特征与匹配的文本特征的组合判断为“假”。这三种判断用公式表达如下:
Figure 104666DEST_PATH_IMAGE001
其中,
Figure 980218DEST_PATH_IMAGE002
是条件判别器,
Figure 258622DEST_PATH_IMAGE003
是生成器,
Figure 295848DEST_PATH_IMAGE004
是生成图像,
Figure 43224DEST_PATH_IMAGE005
是第i张真实的训 练图像,
Figure 722467DEST_PATH_IMAGE006
Figure 356842DEST_PATH_IMAGE007
是输入文本的句子特征向量,
Figure 830548DEST_PATH_IMAGE008
是从标准正态分布中采样的噪声向量,i=j表示图像与文本是相匹配的,ij表示二者是不匹配的。本发明中将上式中的第三个判断 改为如下形式,前两个判断保留不变:
Figure 65221DEST_PATH_IMAGE009
该多样性感知的条件判别器有三个优点:首先,真实感较差的生成图像不太可能与对应的文本匹配,这意味着传统判别器的第三个判断很少被使用。在大多数情况下,生成图像既不真实,也与输入文本语义不匹配,特别是在GAN训练的早期阶段;其次,当生成的图片在GAN训练的后期具有较高的质量时,去除这一判断更为合理。在实践中,由于文本生成图像任务的多模态特性,生成的合格图像看起来不会与对应的训练图片相同。当有高质量的与对应文本匹配但与对应的训练图片不同的生成图片时,传统的条件判别器可能会变得过于严格。此外,这个过于严格的条件判别器将进一步导致图像生成的模式崩溃;修改过的判别器将惩罚与相应输入文本不匹配的生成图像。当模式崩溃出现时,许多生成的图像在视觉上是相似的。这些生成图像往往与对应的输入文本语义不一致。修改后的条件判别器将惩罚这种现象,并产生更合理的对抗性损失,以训练更好的生成器。因此,修改后的条件判别器可以缓解模式崩溃,帮助生成更多样化的图像。
步骤4,对于每张生成图片构造高质量的真图和低质量的假图,比较生成图片的与两种构造图片的差异,如果与构造真图的差异较小,则生成图片判别为对比真图,如果与构造假图的差异较小,则生成图片判别为对比假图,产生对抗损失更新生成器,具体如下:
首先,对于一批生成图片
Figure 266264DEST_PATH_IMAGE010
,构建一批构造真图
Figure 535571DEST_PATH_IMAGE011
Figure 914600DEST_PATH_IMAGE012
其中,
Figure 387301DEST_PATH_IMAGE013
是这批生成图片对应的训练集图片,
Figure 142767DEST_PATH_IMAGE014
的值是随机从[0.85,0.99]中选 取的。类似地,构建一批构造假图
Figure 1002DEST_PATH_IMAGE015
Figure 82090DEST_PATH_IMAGE016
其中,
Figure 564060DEST_PATH_IMAGE017
是一批噪声图像,它们与生成图片具有同样的分辨率,但是每个像素都 是从均匀分布
Figure 857638DEST_PATH_IMAGE018
中采样得到的。
Figure 570379DEST_PATH_IMAGE019
的值是随机从[0.4,0.6]中选取的。对于一张生成图 片
Figure 307522DEST_PATH_IMAGE023
,要对比它和对应的构造真图
Figure 4082DEST_PATH_IMAGE021
和构造假图
Figure 101351DEST_PATH_IMAGE022
的距离,从而决定
Figure 183446DEST_PATH_IMAGE023
是否是一张对 比真图。这两个距离的计算方法如下:
Figure 340757DEST_PATH_IMAGE025
其中,|·|表示差的绝对值,
Figure 259035DEST_PATH_IMAGE066
是非条件判别器。最后,如果有
Figure 159995DEST_PATH_IMAGE026
并且
Figure 598061DEST_PATH_IMAGE027
,则认为
Figure 926274DEST_PATH_IMAGE028
是一张对比真图,其余情况下,认为
Figure 331847DEST_PATH_IMAGE029
是一张对比假图;
步骤5,对于非条件判别器计算铰链损失Hinge Loss初步更新判别器,具体如下:
在训练的第t步,首先用上一步的方法从生成器
Figure 551345DEST_PATH_IMAGE067
生成的一批图片中得到一组对 比真图
Figure 93185DEST_PATH_IMAGE068
和一组对比假图
Figure 592299DEST_PATH_IMAGE069
,并用以下常规的Hinge Loss损失函数将当前非条件判别 器
Figure 219590DEST_PATH_IMAGE030
更新为
Figure 213084DEST_PATH_IMAGE031
Figure 875010DEST_PATH_IMAGE070
其中,E表示期望值,P data 表示真实训练图片的分布,x~P data 就是x的分布服从真实 训练图片的分布,
Figure 545026DEST_PATH_IMAGE041
是生成图片,x是真实训练图片。
步骤6,初步更新的判别器可能存在过拟合现象,即把一部分对比真图判别为假,产生较大的梯度,从而造成训练过程的不稳定,对这部分梯度进行梯度惩罚,从而稳定训练过程,具体如下:
常规的损失函数一般容易产生不稳定的损失,也就是说,对于真实度较高的对比 真图也会产生较大的损失,原来被判别器判断为大于的图片会被更新后的判别器判别为小 于,对这一错误进行修正,从而减小梯度,并用以下公式进一步将
Figure 908880DEST_PATH_IMAGE071
更新为
Figure 955333DEST_PATH_IMAGE072
Figure 471765DEST_PATH_IMAGE073
为对 比真图的阈值,
Figure 312682DEST_PATH_IMAGE073
在本实验中设为0;真实度高低,是步骤4中对比得到的判断。步骤中得到 的对比真图,与构造真图的距离较近,认为其真实度较高,所以说“真实度较高的对比真 图”;类似地,对比假图认为其真实度较低。
Figure 930877DEST_PATH_IMAGE074
其中,
Figure 515442DEST_PATH_IMAGE075
为将
Figure 886380DEST_PATH_IMAGE076
更新为
Figure 413045DEST_PATH_IMAGE072
的损失函数,
Figure 236645DEST_PATH_IMAGE077
表示sigmoid函数,
Figure 624901DEST_PATH_IMAGE078
的值是 梯度惩罚的权重。
Figure 850346DEST_PATH_IMAGE079
的值越大表明生成图片
Figure 49377DEST_PATH_IMAGE080
具有更高的真实感,超参数
Figure 625852DEST_PATH_IMAGE081
用来区分 权重值,本实施例中
Figure 552220DEST_PATH_IMAGE081
的值取3,N cr 为常规判别器判断为大于
Figure 147018DEST_PATH_IMAGE073
的图片被更新后的判别器
Figure 766218DEST_PATH_IMAGE082
判别为小于
Figure 564410DEST_PATH_IMAGE073
的图片。
步骤7,对于生成器的训练,计算Hinge Loss的对抗损失,并使得生成图片接近真实训练图片的分布,从而使生成图片接近真实训练图片,具体如下:
用更新后的判别器
Figure 28889DEST_PATH_IMAGE033
产生的对抗损失来训练和更新生成器:
Figure 245238DEST_PATH_IMAGE084
其中
Figure 35339DEST_PATH_IMAGE044
是一个自适应参数,他的取值是一批真实训练图片输入
Figure 320827DEST_PATH_IMAGE045
的最小值。在 上式中,使
Figure 103844DEST_PATH_IMAGE046
的值在
Figure 158388DEST_PATH_IMAGE044
和1之间,这样能够减少训练图片和生成图片之间的差异,
Figure 853812DEST_PATH_IMAGE047
是噪声向量,
Figure 642907DEST_PATH_IMAGE048
是噪声向量的分布。
步骤8,训练判别器作为图片特征提取器,构建正样本和负样本,使得真实训练图片和正样本差别较小,和负样本差别较大,具体如下:
对于一张真图
Figure 714768DEST_PATH_IMAGE049
,正样本和负样本都包含有m张图片,其中正样本包含真实感较 高并且与
Figure 889398DEST_PATH_IMAGE049
语义一致的图片,负样本包含真实感较低并和
Figure 21302DEST_PATH_IMAGE049
语义不一致的图片。将
Figure 265070DEST_PATH_IMAGE049
和 正负样本图片都输入到图3所示的判别器网络中,输出的值分别为
Figure 140622DEST_PATH_IMAGE051
Figure 435337DEST_PATH_IMAGE052
Figure 223296DEST_PATH_IMAGE053
。计算出
Figure 970672DEST_PATH_IMAGE051
Figure 384336DEST_PATH_IMAGE055
中差距最大的值
Figure 533558DEST_PATH_IMAGE056
Figure 256532DEST_PATH_IMAGE051
Figure 225625DEST_PATH_IMAGE085
中差距最小的值
Figure 442980DEST_PATH_IMAGE058
,计算三元组损失Triplet Loss使得
Figure 931861DEST_PATH_IMAGE056
小于
Figure 576469DEST_PATH_IMAGE058
Figure 298437DEST_PATH_IMAGE086
其中margin是超参数,设置margin的值为0.1。计算中心损失Center Loss可以提高判别器网络对于正负样本的区分能力和鲁棒性:
Figure 53904DEST_PATH_IMAGE060
其中,
Figure 426985DEST_PATH_IMAGE061
Figure 242494DEST_PATH_IMAGE062
Figure 186179DEST_PATH_IMAGE063
之间距离的平均值。
步骤9,用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征,计算二者的差异作为损失函数,更新生成器,具体如下:
如图3所示,对于图片级别的训练图片和生成图片相似度,将分辨率为256*256*3的训练图片和生成图片分别输入图中所示的判别器网络中,分别提取4*4*C的中间特征,其中C是特征通道数,然后分别经过两个卷积层得到最终的判别器输出值,这两个值相减得到训练图片和生成图片的图片级差异值;
步骤10,用已经预训练的YOLOv3作为物体检测器,检测真实训练图片上的物体和生成图片对应位置的物体相似度,二者的差异作为损失函数,更新生成器,具体如下:
如图3所示,对于物体级别的训练图片和生成图片的相似度,首先用YOLOv3物体检测器检测训练图片中所存在的前景物体,并用包围框表示物体的位置,每个位置提取255维的物体特征。对于生成图片,用在训练图片中检测到的位置,提取生成图片对应位置的255维特征。对于这两种特征,用平均池化层将255维特征减少为1维特征值,然后两种图片对应物体的特征值的绝对值差异取平均,就得到训练图片和生成图片物体级别的差异值,这两种级别的差异值都作为损失用来训练更好的生成器。
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (9)

1.一种生成对抗网络判别器,其特征在于:包括多样性敏感条件判别器、对比搜索梯度惩罚非条件判别器和多层次图像相似度单元,获得条件和非条件对抗损失以及生成图片和对应训练图片的相似度损失,以训练更好的生成器;
所述多样性敏感条件判别器基于传统条件判别器,将判断生成的图像和不匹配的文本的组合为假,从而产生损失惩罚,缓解模式崩溃;
所述非条件判别器基于对比搜索的梯度惩罚策略,通过比较生成图像与所构建的真图和假图之间的距离来确定假图像是真还是假,并惩罚由于低估对比真图而引起的梯度爆炸;
所述多层次图像相似度单元通过计算图像级别的差异和物体级别的差异,并将这两种差异损失相加用来更新生成器。
2.根据权利要求1所述的生成对抗网络判别器,其特征在于:所述非条件判别器中通过比较生成图像与所构建的真图和假图之间的距离来确定假图像是真还是假的具体过程如下:
首先,对于一批生成图片
Figure 607901DEST_PATH_IMAGE001
,构建一批构造真图
Figure 992746DEST_PATH_IMAGE002
Figure 651260DEST_PATH_IMAGE003
其中,
Figure 3613DEST_PATH_IMAGE004
是这批生成图片对应的训练集图片,
Figure 772986DEST_PATH_IMAGE005
的值是随机从[0.85,0.99]中选取 的;类似地,构建一批构造假图
Figure 277917DEST_PATH_IMAGE006
Figure 855135DEST_PATH_IMAGE007
其中,
Figure 179937DEST_PATH_IMAGE008
是一批噪声图像,它们与生成图片具有同样的分辨率,但是每个像素都是从 均匀分布
Figure 2269DEST_PATH_IMAGE009
中采样得到的;
Figure 361706DEST_PATH_IMAGE010
的值是随机从[0.4,0.6]中选取的;对于一张生成图片
Figure 362023DEST_PATH_IMAGE011
,要对比它和对应的构造真图
Figure 190433DEST_PATH_IMAGE012
和构造假图
Figure 301608DEST_PATH_IMAGE013
的距离,从而决定
Figure 781131DEST_PATH_IMAGE014
是否是一张对比真 图,这两个距离的计算方法如下:
Figure 201617DEST_PATH_IMAGE015
其中,|·|表示差的绝对值,
Figure 501011DEST_PATH_IMAGE016
是非条件判别器,最后,如果有
Figure 415878DEST_PATH_IMAGE017
并且
Figure 763289DEST_PATH_IMAGE018
,则认为
Figure 105409DEST_PATH_IMAGE019
是一张对比真图,其余情况下,认为
Figure 626520DEST_PATH_IMAGE020
是一张对比假图。
3.根据权利要求2所述的生成对抗网络判别器,其特征在于:所述非条件判别器中计算铰链损失,并对产生的梯度爆炸进行惩罚,具体过程如下:
先采用常规的铰链损失损失函数将当前非条件判别器
Figure 859924DEST_PATH_IMAGE021
更新为
Figure 48460DEST_PATH_IMAGE022
,再用以下公式进 一步将
Figure 561481DEST_PATH_IMAGE023
更新为
Figure 586200DEST_PATH_IMAGE024
,以修改正原来被判别器判断为大于
Figure 842869DEST_PATH_IMAGE025
的图片会被更新后的判别器 判别为小于
Figure 885911DEST_PATH_IMAGE025
Figure 819101DEST_PATH_IMAGE026
其中,
Figure 845963DEST_PATH_IMAGE027
Figure 640743DEST_PATH_IMAGE023
更新为
Figure 551674DEST_PATH_IMAGE024
的损失函数,E表示期望值,N cr 为常规判别器判断为大于
Figure DEST_PATH_IMAGE028
的图片被更新后的判别器
Figure 875339DEST_PATH_IMAGE022
判别为小于
Figure 107606DEST_PATH_IMAGE029
的图片,
Figure 706078DEST_PATH_IMAGE030
表示sigmoid函数,
Figure 989292DEST_PATH_IMAGE031
的值是梯 度惩罚的权重,
Figure 765749DEST_PATH_IMAGE032
的值越大表明生成图片
Figure 501624DEST_PATH_IMAGE033
具有更高的真实感,超参数
Figure 903786DEST_PATH_IMAGE034
用来区分权 重值,
Figure 25195DEST_PATH_IMAGE025
为对比真图的阈值。
4.根据权利要求1所述的生成对抗网络判别器,其特征在于:所述图像级别的差异损失具体过程为:
训练判别器作为图像特征提取器,构建正样本和负样本,使得真实训练图片和正样本差别较小,和负样本差别较大,具体如下:
对于一张真图
Figure 221821DEST_PATH_IMAGE035
,正样本和负样本都包含有m张图片,其中正样本包含真实感较高并且 与
Figure 444992DEST_PATH_IMAGE036
语义一致的图片,负样本包含真实感较低并和
Figure 398648DEST_PATH_IMAGE037
语义不一致的图片,将
Figure 390875DEST_PATH_IMAGE037
和正负样 本图片都输入到相似度判别器中,输出的值分别为
Figure 758402DEST_PATH_IMAGE038
Figure 452558DEST_PATH_IMAGE039
Figure 462102DEST_PATH_IMAGE040
,计算出
Figure 43256DEST_PATH_IMAGE041
Figure 597996DEST_PATH_IMAGE042
中差 距最大的值
Figure 530180DEST_PATH_IMAGE043
Figure 77836DEST_PATH_IMAGE044
Figure 762764DEST_PATH_IMAGE045
中差距最小的值
Figure 737674DEST_PATH_IMAGE046
,计算三元组损失
Figure 157154DEST_PATH_IMAGE047
使得
Figure 725145DEST_PATH_IMAGE043
小于
Figure 546470DEST_PATH_IMAGE046
Figure 692281DEST_PATH_IMAGE048
其中margin是超参数,计算中心损失
Figure 582745DEST_PATH_IMAGE049
Figure 472204DEST_PATH_IMAGE050
以提高判别器网络对于正负样本的区 分能力和鲁棒性:
Figure 633189DEST_PATH_IMAGE051
其中,
Figure 949901DEST_PATH_IMAGE052
Figure 343973DEST_PATH_IMAGE053
Figure 20811DEST_PATH_IMAGE054
之间距离的平均值;
用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征,计算二者的差异作为图像级别的差异损失。
5.根据权利要求4所述的生成对抗网络判别器,其特征在于:用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征,计算二者的差异作为图像级别的差异损失,具体过程如下:
将分辨率为256*256*3的训练图片和生成图片分别输入图中所示的判别器网络中,分别提取4*4*C的中间特征,其中C是特征通道数,然后分别经过两个卷积层得到最终的判别器输出值,这两个值相减得到训练图片和生成图片的图片级差异值。
6.根据权利要求1所述的生成对抗网络判别器,其特征在于:所述物体级别的差异损失具体为:
对于物体级别的训练图片和生成图片的相似度,首先用YOLOv3物体检测器检测训练图片中所存在的前景物体,并用包围框表示物体的位置,每个位置提取255维的物体特征,对于生成图片,用在训练图片中检测到的位置,提取生成图片对应位置的255维特征;对于这两种特征,用平均池化层将255维特征减少为1维特征值,然后两种图片对应物体的特征值的绝对值差异取平均,就得到训练图片和生成图片物体级别的差异值。
7.一种利用权利要求1-6任一所述的生成对抗网络判别器的文本生成图像方法,其特征在于,包括以下步骤:
步骤1,输入文字信息,用文字编码器进行文字编码,编码为句子特征向量和单词特征矩阵;
步骤2,编码后的句子特征向量串联一个噪声向量输入图片生成单元生成初步图片,输入单词矩阵对初步图片进行注意力监督,生成更加清晰的图片;
步骤3,将真实训练图片与生成图像、构建的真图和假图输入多样性敏感条件判别器,产生更合理的对抗损失;
步骤4,对于每张生成图片构造高质量的真图和低质量的假图,对比搜索梯度惩罚非条件判别器首先通过图像之间的距离比较生成图片的与两种构造图片的差异,产生对抗损失更新生成器;
步骤5,对于对比搜索梯度惩罚非条件判别器计算铰链损失初步更新判别器;
步骤6,对初步更新的对比搜索梯度惩罚非条件判别器过拟合现象,进行梯度惩罚,从而稳定训练过程;
步骤7,对于生成器的训练,计算铰链损失的对抗损失,并使得生成图片接近真实训练图片的值域,从而使生成图片接近真实训练图片;
步骤8,训练相似度判别器作为图片特征提取器,构建正样本和负样本,使得真实训练图片和正样本差别较小,和负样本差别较大;
步骤9,用训练过的相似度判别器分别提取生成图片的特征和真实训练图片的特征,计算二者的差异作为图像级别的差异损失函数,更新生成器;
步骤10,用已经预训练的物体检测器,检测真实训练图片上的物体和生成图片对应位置的物体相似度,二者的差异作为物体级别的差异损失函数,更新生成器。
8.根据权利要求7所述的利用生成对抗网络判别器的文本生成图像的方法,其特征在于:所述步骤7的具体过程如下:
用更新后的对比搜索梯度惩罚非条件判别器
Figure 551150DEST_PATH_IMAGE055
产生的对抗损失来训练和更新生成 器:
Figure 38763DEST_PATH_IMAGE056
其中
Figure 402355DEST_PATH_IMAGE057
是一个自适应参数,他的取值是一批真实训练图片输入
Figure 633616DEST_PATH_IMAGE058
的最小值,在上式 中,使
Figure 18461DEST_PATH_IMAGE059
的值在
Figure 191822DEST_PATH_IMAGE057
和1之间,这样能够减少训练图片和生成图片之间的差异,
Figure 29328DEST_PATH_IMAGE060
是 噪声向量,
Figure 798701DEST_PATH_IMAGE061
是噪声向量的分布。
9.根据权利要求7所述的利用生成对抗网络判别器的文本生成图像的方法,其特征在于:所述物体检测器采用YOLOv3。
CN202210266864.2A 2022-03-18 2022-03-18 一种生成对抗网络判别器及文本生成图像的方法 Pending CN114419348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210266864.2A CN114419348A (zh) 2022-03-18 2022-03-18 一种生成对抗网络判别器及文本生成图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210266864.2A CN114419348A (zh) 2022-03-18 2022-03-18 一种生成对抗网络判别器及文本生成图像的方法

Publications (1)

Publication Number Publication Date
CN114419348A true CN114419348A (zh) 2022-04-29

Family

ID=81263527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210266864.2A Pending CN114419348A (zh) 2022-03-18 2022-03-18 一种生成对抗网络判别器及文本生成图像的方法

Country Status (1)

Country Link
CN (1) CN114419348A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019128A (zh) * 2022-06-02 2022-09-06 电子科技大学 图像生成模型训练方法、图像生成方法及相关装置
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN117115064A (zh) * 2023-10-17 2023-11-24 南昌大学 一种基于多模态控制的图像合成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019128A (zh) * 2022-06-02 2022-09-06 电子科技大学 图像生成模型训练方法、图像生成方法及相关装置
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN116721176B (zh) * 2023-08-10 2023-11-10 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN117115064A (zh) * 2023-10-17 2023-11-24 南昌大学 一种基于多模态控制的图像合成方法
CN117115064B (zh) * 2023-10-17 2024-02-02 南昌大学 一种基于多模态控制的图像合成方法

Similar Documents

Publication Publication Date Title
CN114419348A (zh) 一种生成对抗网络判别器及文本生成图像的方法
CN112101426B (zh) 基于自编码器的无监督学习图像异常检测方法
CN111259930A (zh) 自适应注意力指导机制的一般性目标检测方法
CN110399845A (zh) 一种图像中连续成段文本检测与识别方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN111738113B (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
Wan et al. AFSar: An anchor-free SAR target detection algorithm based on multiscale enhancement representation learning
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN112052876A (zh) 一种基于改进ra-cnn的细粒度图像检测方法与系统
CN114612767B (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN113239926B (zh) 基于对抗的多模态虚假信息检测模型系统
CN115238685A (zh) 一种基于位置感知的建筑工程变更事件联合抽取方法
Zhang et al. Crowd counting based on attention-guided multi-scale fusion networks
CN113179276B (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
CN114022687A (zh) 一种基于增强学习的图像描述对抗生成方法
CN113420833A (zh) 一种基于问题语义映射的视觉问答方法及装置
Ruan et al. Dual‐Path Residual “Shrinkage” Network for Side‐Scan Sonar Image Classification
CN116385866B (zh) 基于sar图像的铁路沿线彩钢房变化检测方法和装置
CN117094835A (zh) 面向社交媒体内容的多目标群体分类方法
CN117152486A (zh) 一种基于可解释性的图像对抗样本检测方法
CN114494999B (zh) 一种双分支联合型目标密集预测方法及系统
Liu et al. RDBN: Visual relationship detection with inaccurate RGB-D images
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination