CN114419348A

CN114419348A - 一种生成对抗网络判别器及文本生成图像的方法

Info

Publication number: CN114419348A
Application number: CN202210266864.2A
Authority: CN
Inventors: 肖春霞; 方菲; 罗飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-04-29

Abstract

本发明公开了一种生成对抗网络判别器及文本生成图像的方法，通过从三个方面对判别器进行设计，首先，提出了一种多样性敏感条件鉴别器，它通过判断生成的图像与不匹配文本的组合为假来增加生成图像的多样性。其次，对于非条件判别器，提出了一种对比搜索策略来衡量生成图像的真实感，并惩罚梯度以稳定训练过程。最后，用判别器作为特征提取器，引入了多层次图片相似度损失，进一步提高了训练图像和生成图像与目标之间的高级特征相似度。大量的实验结果和消融研究表明，对判别器的改进可以有效地提高生成图像的质量。

Description

一种生成对抗网络判别器及文本生成图像的方法

技术领域

本发明涉及计算机视觉和多媒体领域，具体涉及一种生成对抗网络判别器及文本生成图像的方法。

背景技术

从文本描述生成逼真图像是计算机视觉和多媒体领域的一个活跃的研究领域。目标是生成逼真的图像，能够尽可能多地展示文本描述的语义信息。生成对抗网络(Generative Adversarial Networks, GAN)由于其生成器-判别器结构适合于跨模态转换任务，在文本生成图像中发挥着重要作用。

许多工作集中在改进生成器和细粒度的文本图像一致性。在实践中，判别器在为生成器的训练提供正确的指导方面是非常重要的。本发明中，提高了GAN系统中判别器的能力，为生成器的训练提供了正确的指导。最早的用于文本生成图像的判别器，能够判断生成的图像的特征是否与句子特征向量一致。随后HDGAN提出了一种多层嵌套的多尺度图像判别器来联合训练图像生成器。StackGAN++提出了条件判别器和非条件判别器，分别用于判断假图像是否匹配输入描述，并区分图像真实感高低。这种双向判别器在后续的工作中得到了广泛的应用。

文本到图像的生成是一个多模态任务，多个图像可以将一条输入的文本可视化。然而，双向判别器忽略了这一多模态特征，对多模态任务进行了过于严格的惩罚。严格的判别器会导致GAN的模式崩溃和训练不稳定。为了增加生成图像的多样性，减轻GAN训练的不稳定性，有研究者提出了Hinge Loss来稳定GAN的训练，但可能影响生成图像的真实性及其与训练图像之间的相似性。另一些方法在判别过程中，将一些生成图像视为真实图像。然而，该策略在每个训练步骤中使用固定数量的真实图像作为真实图像，降低了判别器准确度。

提高生成图片与对应训练图像之间的高级语义相似度，可以进一步增加生成图像之间的多样性。最近的一些工作SEGAN、XMCGAN在高级图像特征中加入图像相似度损失来提高两种图像相似度。例如，XMCGAN提出了图像与文本、区域与单词、生成图像与训练图像之间的对比损失来训练生成器。这种方法也使用判别器网络作为图像特征提取器。然而，该方法并没有专门训练判别器作为合格的特征提取器来区分真假图像的高级特征，也没有从多层次衡量图片相似度。

发明内容

本发明针对现有文字生成方法中判别器的不足，设计了一种生成对抗网络判别器及文本生成图像的方法，能够缓解模式崩溃带来的生成图片多样性降低，并能够使网络训练过程更加稳定，从而提高生成图片的质量。

本发明所设计的生成对抗网络判别器，其特殊之处在于：包括多样性敏感的条件判别器、对比搜索梯度惩罚的非条件判别器和多层次图像相似度单元，三者分别获得条件和非条件对抗损失以及生成图片和对应训练图片的相似度损失，以训练更好的生成器；

所述多样性敏感条件判别器基于传统条件判别器，将判断生成的图像和不匹配的文本的组合为假，从而产生损失惩罚，用来缓解模式崩溃；

所述非条件判别器基于对比搜索的梯度惩罚策略，通过比较生成图像与所构建的真图和假图之间的距离来确定生成图像是真还是假，并能够惩罚由于低估对比真图而引起的梯度爆炸；

所述多层次图像相似度单元通过计算生成图像和对应训练图像之间图像级别的差异和物体级别的差异，并将这两种差异损失相加用来更新生成器，从而促进生成图像和对应训练图像在高层语义上的相似度。在计算多层次图像相似性损失之前，先训练判别器网络，使其能够体现真实的训练图像和生成图像的差异，从而帮助更准确地计算多层次图像相似度差异。

进一步地，所述条件判别器中，通过改变判别器的判别规则，提升传统判别器对生成图像多样性的敏感程度，从而缓解模式崩溃，帮助生成更多样化的图像，具体过程如下：

在传统的条件判别器中，将真实训练图像或生成图像的特征与对应或非对应的文本特征串联，经过判别器的判断，对判断为“假”的组合产生损失，用来训练生成器。传统条件判别器一般会对三种图像和文字特征的组合做出判断：将真实的训练图像的特征与匹配的文本特征的组合判断为“真”；将真实的训练图像的特征与不匹配的其他文本的特征的组合判断为“假”；将生成的图像的特征与匹配的文本特征的组合判断为“假”。这三种判断用公式表达如下：

其中，

是条件判别器，

是生成器，

是生成图像，

是第i张真实的训练图像，

和

是输入文本的句子特征向量，

是从标准正态分布中采样的噪声向量，i=j表示图像与文本是相匹配的，i≠j表示二者是不匹配的。

本发明中，将上式中的第三个判断改为如下形式，式中第一个和第二个判断不变：

也就是说，条件判别器会将将生成的图像的特征与不匹配的文本特征的组合判断为“假”，这样就将传统条件判别器改为多样性敏感的条件判别器，它将惩罚与输入文本不匹配的生成图像。当模式崩溃出现时，许多本应该各不相同生成图像却看起来非常相似，这样，这些生成图像往往与对应的输入文本语义不一致。多样性敏感的条件判别器将惩罚这种现象，并产生更合理的对抗性损失，以训练更好的生成器。

进一步地，所述非条件判别器中通过比较生成图像与所构建的真图和假图之间的距离来确定假图像是真还是假的，具体过程如下：

首先，对于一批生成图片

，构建一批构造真图

：

其中，

是这批生成图片对应的训练集图片，

的值是随机从[0.85,0.99]中选取的；类似地，构建一批构造假图

：

其中，

是一批噪声图像，它们与生成图片具有同样的分辨率，但是每个像素都是从均匀分布

中采样得到的；

的值是随机从[0.4,0.6]中选取的；对于一张生成图片

，要对比它和对应的构造真图

和构造假图

的距离，从而决定

是否是一张对比真图。先把这三张图片都输入到非条件判别器

中，然后这两个距离的计算方法如下：

其中，|·|表示差的绝对值，最后，如果有

并且

，则认为

是一张对比真图，其余情况下，认为

是一张对比假图。

更进一步地，所述非条件判别器中计算铰链损失Hinge Loss，并对产生的梯度爆炸进行惩罚，具体过程如下：

先采用常规的铰链损失损失函数将当前非条件判别器

更新为

，再采用以下公式进一步将

更新为

，以修改正原来被判别器判断为大于

的图片会被更新后的判别器判别为小于

：

其中，

将

更新为

的损失函数，E表示期望值，Ncr为常规判别器判断为大于

的图片被更新后的判别器

判别为小于

的图片，

为对比真图的阈值，

表示sigmoid函数，

的值是梯度惩罚的权重。

的值越大表明生成图片

具有更高的真实感，超参数

用来调整权重值。

然后，用更新后的对比搜索梯度惩罚非条件判别器

产生的对抗损失来训练和更新生成器：

其中

是一个自适应参数，他的取值是一批真实训练图片输入

的最小值。在上式中，使

的值在

和1之间，这样能够减少训练图片和生成图片之间的差异，

是噪声向量，

是噪声向量的分布”补充进说明书的发明内容对应处。

进一步地，所述图像级别的差异损失具体过程为：

首先，训练判别器作为图像特征提取器，构建正样本和负样本，使得真实训练图片和正样本差别较小，和负样本差别较大，具体如下：

对于一张真图

，正样本和负样本都包含有m张图片，其中正样本包含真实感较高并且与

语义一致的图片，负样本包含真实感较低并和

语义不一致的图片，将

和正负样本图片都输入到相似度判别器中，输出的值分别为

、

和

，计算出

和

中差距最大的值

，

和

中差距最小的值

，计算三元组损失Triplet Loss使得

小于

：

其中margin是超参数；然后，计算中心损失Center Loss以提高判别器网络对于正负样本的区分能力和鲁棒性：

其中，

是

和

之间距离的平均值；

然后，用经过以上两种损失训练过的判别器网络，分别提取生成图片和真实训练图片的图像级别和物体级别的特征，从而计算多层次图像相似性损失，具体如下：

更进一步地，用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征，计算二者的差异作为图像级别的相似性损失，具体过程如下：

将分辨率为256*256*3的训练图片和生成图片分别输入图中所示的判别器网络中，分别提取4*4*C的中间特征，其中C是特征通道数，然后分别经过两个卷积层得到最终的判别器输出值，这两个值相减得到训练图片和生成图片的图片级差异值。

更进一步地，用训练过的判别器网络分别提取生成图片中前景物体的特征和真实训练图片中前景物体的特征，计算二者物体级别的差异损失具体，具体过程如下：

首先用YOLOv3物体检测器检测训练图片中所存在的前景物体，并用包围框表示物体的位置，每个位置提取255维的物体特征，对于生成图片，用在训练图片中检测到的位置，提取生成图片对应位置的255维特征；对于这两种特征，用平均池化层将255维特征减少为1维特征值，然后两种图片对应物体的特征值的绝对值差异取平均，就得到训练图片和生成图片物体级别的差异值。

基于同一发明构思，本发明还设计了一种利用生成对抗网络判别器的文本生成图像方法，包括以下步骤：

步骤1，输入文字信息，用文字编码器进行文字编码，编码为句子特征向量和单词特征矩阵；

步骤2，编码后的句子特征向量串联一个噪声向量输入图片生成器生成初步图片，单词特征矩阵对初步图片进行注意力监督，生成更加清晰的图片；

步骤3，改进传统的条件判别器为多样性敏感的条件判别器，将真实训练图像与生成图像、构建的真图和假图输入多样性敏感条件判别器，产生更合理的对抗损失来训练生成器；

步骤4，对于每张生成图片构造高质量的真图和低质量的假图，比较生成图片的与两种构造图片的差异，如果与构造真图的差异较小，则生成图片判别为对比真图，如果与构造假图的差异较小，则生成图片判别为对比假图，产生对抗损失更新生成器；

步骤5，对于非条件判别器计算铰链损失初步更新判别器；

步骤6，初步更新的判别器可能存在过拟合现象，即把一部分对比真图判别为假，产生较大的梯度，从而造成训练过程的不稳定，对这部分梯度进行梯度惩罚，从而稳定训练过程；

步骤7，对于生成器的训练，计算Hinge Loss的对抗损失，并使得生成图片接近真实训练图片的值域，从而使生成图片接近真实训练图片；

步骤8，训练判别器作为图片特征提取器，构建正样本和负样本，使得真实训练图片和正样本差别较小，和负样本差别较大；

步骤9，用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征，计算二者的差异作为损失函数，更新生成器；

步骤10，用已经预训练的YOLOv3作为物体检测器，检测真实训练图片上的物体和生成图片对应位置的物体相似度，二者的差异作为损失函数，更新生成器。

进一步地，所述步骤7的具体过程如下：

用更新后的对比搜索梯度惩罚非条件判别器

产生的对抗损失来训练和更新生成器：

其中

是一个自适应参数，他的取值是一批真实训练图片输入

的最小值。在上式中，使

的值在

和1之间，这样能够减少训练图片和生成图片之间的差异。

优选地，所述物体检测器采用YOLOv3。

本发明的优点在于：

1）通过改进传统的条件判别器，提出了一种多样性敏感条件判别器来增加生成图片的多样性，并缓解模式崩溃；

2）对于非条件判别器，提出了一种基于对比搜索梯度惩罚(CSGP)的无条件判别器策略。这种改进可以更好地评价评价图像的真实感，并惩罚梯度爆炸现象，从而稳定GAN的训练；

3）提出了一种多层次图片相似度损失，用来改进生成图片与对应训练图片的相似度度量方法。在使用判别器网络提取图像和目标特征之前，将判别器网络训练成一个合格的特征提取器，使其能够区分图片质量的好坏。

本发明有效的提高了生成图片的多样性和真实感，提高生成图片与真实训练图片的语义相似度，并能够稳定训练过程。

附图说明

图1是本发明用于文字-图片生成的整体流程图。

图2是本发明的对比搜索梯度惩罚的非条件判别器的示意图。

图3是本发明的多层次图片相似度损失的示意图。

具体实施方式

下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明，并不对本发明作任何的限制。

本发明所设计的用于文本生成图像的生成对抗网络判别器，包括条件判别器、非条件判别器和相似度判别器，可以获得条件和非条件对抗损失以及生成图片和对应训练图片的相似度损失，以训练更好的生成器；

所述多样性敏感条件判别器基于传统条件判别器，将判断生成的图像特征和不匹配的文本特征的组合为假，从而产生损失训练更好的生成器，从而缓解生成器的模式崩溃，提高生成图片的多样性；

所述非条件判别器基于对比搜索的梯度惩罚策略，通过比较生成图像与所构建的真图和假图之间的距离来确定假图像是真还是假，并惩罚由于低估对比真图而引起的梯度爆炸；

所述多层次图像相似度单元通过计算图像级别的差异和物体级别的差异，并将这两种差异损失相加用来更新生成器。

基于同一发明构思，本发明设计了一种利用生成对抗网络判别器的文本生成图像方法，上述判别器的具体设计过程结合文本生成图像方法做进一步的详述，其具体过程如下：

步骤3，改进传统的条件判别器为多样性敏感的条件判别器，将真实训练图像与生成图像、构建的真图和假图输入多样性敏感条件判别器，产生更合理的对抗损失来训练生成器，具体如下：

其中，

是条件判别器，

是生成器，

是生成图像，

是第i张真实的训练图像，

和

是输入文本的句子特征向量，

是从标准正态分布中采样的噪声向量，i=j表示图像与文本是相匹配的，i≠j表示二者是不匹配的。本发明中将上式中的第三个判断改为如下形式，前两个判断保留不变：

该多样性感知的条件判别器有三个优点：首先，真实感较差的生成图像不太可能与对应的文本匹配，这意味着传统判别器的第三个判断很少被使用。在大多数情况下，生成图像既不真实，也与输入文本语义不匹配，特别是在GAN训练的早期阶段；其次，当生成的图片在GAN训练的后期具有较高的质量时，去除这一判断更为合理。在实践中，由于文本生成图像任务的多模态特性，生成的合格图像看起来不会与对应的训练图片相同。当有高质量的与对应文本匹配但与对应的训练图片不同的生成图片时，传统的条件判别器可能会变得过于严格。此外，这个过于严格的条件判别器将进一步导致图像生成的模式崩溃；修改过的判别器将惩罚与相应输入文本不匹配的生成图像。当模式崩溃出现时，许多生成的图像在视觉上是相似的。这些生成图像往往与对应的输入文本语义不一致。修改后的条件判别器将惩罚这种现象，并产生更合理的对抗性损失，以训练更好的生成器。因此，修改后的条件判别器可以缓解模式崩溃，帮助生成更多样化的图像。

步骤4，对于每张生成图片构造高质量的真图和低质量的假图，比较生成图片的与两种构造图片的差异，如果与构造真图的差异较小，则生成图片判别为对比真图，如果与构造假图的差异较小，则生成图片判别为对比假图，产生对抗损失更新生成器，具体如下：

首先，对于一批生成图片

，构建一批构造真图

：

其中，

是这批生成图片对应的训练集图片，

的值是随机从[0.85,0.99]中选取的。类似地，构建一批构造假图

：

其中，

中采样得到的。

的值是随机从[0.4,0.6]中选取的。对于一张生成图片

，要对比它和对应的构造真图

和构造假图

的距离，从而决定

是否是一张对比真图。这两个距离的计算方法如下：

其中，|·|表示差的绝对值，

是非条件判别器。最后，如果有

并且

，则认为

是一张对比真图，其余情况下，认为

是一张对比假图；

步骤5，对于非条件判别器计算铰链损失Hinge Loss初步更新判别器，具体如下：

在训练的第t步，首先用上一步的方法从生成器

生成的一批图片中得到一组对比真图

和一组对比假图

，并用以下常规的Hinge Loss损失函数将当前非条件判别器

更新为

：

其中，E表示期望值，P _data表示真实训练图片的分布，x~P _data就是x的分布服从真实训练图片的分布，

是生成图片，x是真实训练图片。

步骤6，初步更新的判别器可能存在过拟合现象，即把一部分对比真图判别为假，产生较大的梯度，从而造成训练过程的不稳定，对这部分梯度进行梯度惩罚，从而稳定训练过程，具体如下：

常规的损失函数一般容易产生不稳定的损失，也就是说，对于真实度较高的对比真图也会产生较大的损失，原来被判别器判断为大于的图片会被更新后的判别器判别为小于，对这一错误进行修正，从而减小梯度，并用以下公式进一步将

更新为

，

为对比真图的阈值，

在本实验中设为0；真实度高低，是步骤4中对比得到的判断。步骤中得到的对比真图，与构造真图的距离较近，认为其真实度较高，所以说“真实度较高的对比真图”；类似地，对比假图认为其真实度较低。

其中，

为将

更新为

的损失函数，

表示sigmoid函数，

的值是梯度惩罚的权重。

的值越大表明生成图片

具有更高的真实感，超参数

用来区分权重值，本实施例中

的值取3，N _cr为常规判别器判断为大于

的图片被更新后的判别器

判别为小于

的图片。

步骤7，对于生成器的训练，计算Hinge Loss的对抗损失，并使得生成图片接近真实训练图片的分布，从而使生成图片接近真实训练图片，具体如下：

用更新后的判别器

产生的对抗损失来训练和更新生成器：

其中

是一个自适应参数，他的取值是一批真实训练图片输入

的最小值。在上式中，使

的值在

和1之间，这样能够减少训练图片和生成图片之间的差异，

是噪声向量，

是噪声向量的分布。

步骤8，训练判别器作为图片特征提取器，构建正样本和负样本，使得真实训练图片和正样本差别较小，和负样本差别较大，具体如下：

对于一张真图

语义一致的图片，负样本包含真实感较低并和

语义不一致的图片。将

和正负样本图片都输入到图3所示的判别器网络中，输出的值分别为

、

和

。计算出

和

中差距最大的值

，

和

中差距最小的值

，计算三元组损失Triplet Loss使得

小于

：

其中margin是超参数，设置margin的值为0.1。计算中心损失Center Loss可以提高判别器网络对于正负样本的区分能力和鲁棒性：

其中，

是

和

之间距离的平均值。

步骤9，用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征，计算二者的差异作为损失函数，更新生成器，具体如下：

如图3所示，对于图片级别的训练图片和生成图片相似度，将分辨率为256*256*3的训练图片和生成图片分别输入图中所示的判别器网络中，分别提取4*4*C的中间特征，其中C是特征通道数，然后分别经过两个卷积层得到最终的判别器输出值，这两个值相减得到训练图片和生成图片的图片级差异值；

步骤10，用已经预训练的YOLOv3作为物体检测器，检测真实训练图片上的物体和生成图片对应位置的物体相似度，二者的差异作为损失函数，更新生成器，具体如下：

如图3所示，对于物体级别的训练图片和生成图片的相似度，首先用YOLOv3物体检测器检测训练图片中所存在的前景物体，并用包围框表示物体的位置，每个位置提取255维的物体特征。对于生成图片，用在训练图片中检测到的位置，提取生成图片对应位置的255维特征。对于这两种特征，用平均池化层将255维特征减少为1维特征值，然后两种图片对应物体的特征值的绝对值差异取平均，就得到训练图片和生成图片物体级别的差异值，这两种级别的差异值都作为损失用来训练更好的生成器。

应当理解的是，这里所讨论的实施方案及实例只是为了说明，对本领域技术人员来说，可以加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种生成对抗网络判别器，其特征在于：包括多样性敏感条件判别器、对比搜索梯度惩罚非条件判别器和多层次图像相似度单元，获得条件和非条件对抗损失以及生成图片和对应训练图片的相似度损失，以训练更好的生成器；

所述多样性敏感条件判别器基于传统条件判别器，将判断生成的图像和不匹配的文本的组合为假，从而产生损失惩罚，缓解模式崩溃；

2.根据权利要求1所述的生成对抗网络判别器，其特征在于：所述非条件判别器中通过比较生成图像与所构建的真图和假图之间的距离来确定假图像是真还是假的具体过程如下：

首先，对于一批生成图片

，构建一批构造真图

：

其中，

是这批生成图片对应的训练集图片，

：

其中，

中采样得到的；

的值是随机从[0.4,0.6]中选取的；对于一张生成图片

，要对比它和对应的构造真图

和构造假图

的距离，从而决定

是否是一张对比真图，这两个距离的计算方法如下：

其中，|·|表示差的绝对值，

是非条件判别器，最后，如果有

并且

，则认为

是一张对比真图，其余情况下，认为

是一张对比假图。

3.根据权利要求2所述的生成对抗网络判别器，其特征在于：所述非条件判别器中计算铰链损失，并对产生的梯度爆炸进行惩罚，具体过程如下：

先采用常规的铰链损失损失函数将当前非条件判别器

更新为

，再用以下公式进一步将

更新为

，以修改正原来被判别器判断为大于

的图片会被更新后的判别器判别为小于

：

其中，

将

更新为

的损失函数，E表示期望值，N _cr为常规判别器判断为大于

的图片被更新后的判别器

判别为小于

的图片，

表示sigmoid函数，

的值是梯度惩罚的权重，

的值越大表明生成图片

具有更高的真实感，超参数

用来区分权重值，

为对比真图的阈值。

4.根据权利要求1所述的生成对抗网络判别器，其特征在于：所述图像级别的差异损失具体过程为：

训练判别器作为图像特征提取器，构建正样本和负样本，使得真实训练图片和正样本差别较小，和负样本差别较大，具体如下：

对于一张真图

语义一致的图片，负样本包含真实感较低并和

语义不一致的图片，将

和正负样本图片都输入到相似度判别器中，输出的值分别为

、

和

，计算出

和

中差距最大的值

，

和

中差距最小的值

，计算三元组损失

使得

小于

：

其中margin是超参数，计算中心损失

和

以提高判别器网络对于正负样本的区分能力和鲁棒性：

其中，

是

和

之间距离的平均值；

用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征，计算二者的差异作为图像级别的差异损失。

5.根据权利要求4所述的生成对抗网络判别器，其特征在于：用训练过的判别器网络分别提取生成图片的特征和真实训练图片的特征，计算二者的差异作为图像级别的差异损失，具体过程如下：

6.根据权利要求1所述的生成对抗网络判别器，其特征在于：所述物体级别的差异损失具体为：

对于物体级别的训练图片和生成图片的相似度，首先用YOLOv3物体检测器检测训练图片中所存在的前景物体，并用包围框表示物体的位置，每个位置提取255维的物体特征，对于生成图片，用在训练图片中检测到的位置，提取生成图片对应位置的255维特征；对于这两种特征，用平均池化层将255维特征减少为1维特征值，然后两种图片对应物体的特征值的绝对值差异取平均，就得到训练图片和生成图片物体级别的差异值。

7.一种利用权利要求1-6任一所述的生成对抗网络判别器的文本生成图像方法，其特征在于，包括以下步骤：

步骤2，编码后的句子特征向量串联一个噪声向量输入图片生成单元生成初步图片，输入单词矩阵对初步图片进行注意力监督，生成更加清晰的图片；

步骤3，将真实训练图片与生成图像、构建的真图和假图输入多样性敏感条件判别器，产生更合理的对抗损失；

步骤4，对于每张生成图片构造高质量的真图和低质量的假图，对比搜索梯度惩罚非条件判别器首先通过图像之间的距离比较生成图片的与两种构造图片的差异，产生对抗损失更新生成器；

步骤5，对于对比搜索梯度惩罚非条件判别器计算铰链损失初步更新判别器；

步骤6，对初步更新的对比搜索梯度惩罚非条件判别器过拟合现象，进行梯度惩罚，从而稳定训练过程；

步骤7，对于生成器的训练，计算铰链损失的对抗损失，并使得生成图片接近真实训练图片的值域，从而使生成图片接近真实训练图片；

步骤8，训练相似度判别器作为图片特征提取器，构建正样本和负样本，使得真实训练图片和正样本差别较小，和负样本差别较大；

步骤9，用训练过的相似度判别器分别提取生成图片的特征和真实训练图片的特征，计算二者的差异作为图像级别的差异损失函数，更新生成器；

步骤10，用已经预训练的物体检测器，检测真实训练图片上的物体和生成图片对应位置的物体相似度，二者的差异作为物体级别的差异损失函数，更新生成器。

8.根据权利要求7所述的利用生成对抗网络判别器的文本生成图像的方法，其特征在于：所述步骤7的具体过程如下：

用更新后的对比搜索梯度惩罚非条件判别器