CN114332565A

CN114332565A - 一种基于分布估计的条件生成对抗网络文本生成图像方法

Info

Publication number: CN114332565A
Application number: CN202111670694.6A
Authority: CN
Inventors: 俞俊; 刘贝利; 丁佳骏; 范建平; 付圣祺; 沈铭
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本发明公开了一种基于分布估计的条件生成对抗网络文本生成图像方法用。本发明步骤如下：步骤(1)、数据预处理，提取文本数据的特征；步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数；步骤(3)、引入基于分布估计的损失函数；步骤(4)、模型训练；根据得到的新的损失函数，在训练过程中对判别器D_i和生成器G_i进行交替训练。本发明损失隐式地体现了单个文本生成无限次图像的影响，优化的目标为单个文本描述生成图像的特征分布。通过估计单个文本描述生成的图像的特征分布，来实现损失计算及梯度信息回传。在多个模型和数据集上的实验表明，基于分布估计的新损失函数能够有效提升文本生成图像模型的性能。

Description

一种基于分布估计的条件生成对抗网络文本生成图像方法

技术领域

本发明提到了一种基于分布估计的条件生成对抗神经网络(cGAN)的新损失形式，用于跨模态的文本生成图像任务。

背景技术

人类将书面文本内容形象化、视觉化的能力在许多认知过程中起重要的作用，如记忆，空间推理等。受人类可视化的能力的启发，构建一个在语言和视觉之间转化的跨模态系统，也成了人工智能领域新的追求。

图像是一种更准确、高效和便捷的信息共享和传递的方式，相比书面文本而言。近几年，深度学习的发展使计算机视觉和图像生成技术也更进一步。生成对抗神经网络(GAN)的出现使得图像生成任务可以以无监督的形式训练。同时，随着生成对抗网络(GAN)的进一步发展，文本描述这类条件变量也融合进了图像生成任务的框架内。通过条件生成对抗神经网络(cGAN)，可以以文本描述为条件，生成与文本描述相对应的图像。文本描述能携带关于当前对象的属性、空间位置、关系等密集语义信息，并且可以表示不同的场景，从而实现了语言到视觉的转化过程。

从文本的描述生成图像(T2I)是一种复杂的计算机视觉和机器学习的任务，在多个领域有重要的应用，如图像编辑、计算机辅助设计、电子游戏等。

使用基于条件生成对抗神经网络(cGAN)是实现文本生成图像(T2I)的一种主流方法，在过去几年模型的架构和性能都有了一定的提升。其中包括文本特征提取更加细致，分为句子特征和单词特征；采用新的架构(如层叠结构逐步提升图像分辨、网络中引入注意力机制、动态内存机制等)；引入新的文本到图像的生成(T2I)的多模态损失。近几年出现的一些优秀的算法，引入了上述改进，如StackGAN++、AttnGAN、DM-GAN等，在生成的图像质量、图像分辨率上有了很大的提升。同时在评价指标上，开发定义的新指标(R-值、语义对象准确性等)，用来评价文本生成图像模型的性能。

然而，现有的模型仍存在着一些限制和缺陷。首先，是在一些数据量受限的数据集上训练(例如，Oxford-102Flowers和CUB-200Birds)，图像总数都在10k左右，数据集的图像总量过小。判别器的训练往往容易产生过拟合现象，导致模型在一段时间的训练后，整体的性能很难再提升。

另外一个问题就是模型的性能不稳定，通过对模型生成的图像的观察统计，发现仍存在不少质量较差的图像，且许多方法的定量结果也很难复现(即使提供代码和模型)。文本到图像的生成(T2I)任务的评价指标基本都是从数据的分布出发，进行评价，少数质量较低的图像很难体现在评价指标上。应该考虑提升模型生成高质量图像的水平和整体训练的稳定性。

发明内容

本发明的目的是针对现有技术的不足，提出了一种基于分布估计的条件生成对抗网络文本生成图像方法。基于分布估计的条件生成对抗网络的新损失形式，用于提高文本生图像模型的性能和训练的稳定性。本发明提出的新损失函数是以单个文本描述生成大量图像的形式，通过同时惩罚大量的文本-图像对来提升整体生成图像的质量，从而提高模型的性能这一动机出发。

但实际情况是无法承受涉及生成大量图像的损失的计算消耗。通过对新损失函数进行数学推导，利用杰森不等式和矩母函数公式，可以得到一个易于计算的上界，该损失以特征的概率分布，隐式地体现单个文本描述进行无限次图像生成的影响，从分布的角度来约束损失，从而能更好地优化生成器和判别器。提高模型生成图像的质量。

一种基于分布估计的条件生成对抗网络文本生成图像方法，包括如下步骤：

步骤(1)、数据预处理，提取文本数据的特征；

对于文本生成图像任务的训练数据集和测试数据集。首先将相应地自然语言文本描述添加到CUB和MSCOCO图像数据集。CUB-200数据集作为鸟类数据集，有200类鸟类数据，按照指定的划分规定划分CUB-200数据集，训练集包含150类，测试集有50类鸟类数据。COCO数据集总共91类图像，也按规定的比例划分训练集和测试集。

对自然语言文本描述进行特征提取，得到一个文本特征集合。提取的文本特征集合包括全局的句子级别的特征和细粒度的单词级别的特征。具体就是使用一个预训练过的双向长短期记忆网络BiLSTM从自然语言文本描述中提取语义特征，形成每个单词的特征，通过最后的连接的隐藏状态得到句子的特征。

步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络(ConditionalGenerative Adversarial Networks，cGAN)和损失函数；

传统的条件生成对抗神经网络只有一组生成器和判别器，在生成高分辨图像上比较困难，本发明采用多阶段的条件生成对抗神经网络模型作为基准模型，利用其能堆叠生成器的能力，逐步了提高生成的图像的分辨率。

同时联合无条件生成对抗神经网络和有条件生成对抗神经网络来共同训练，对于无条件生成对抗神经网络，训练生成器生成能骗过判别器的假图，判别器能区分真实图像和虚假图像。为了控制图像生成符合描述的图像，还要训练有条件生成对抗神经网络，使用步骤(1)中提取的文本特征集合作为条件变量输入到生成器和判别器中，指导生成器生成逼近文本条件的图像分布，同时判别器能更好判别图像和文本条件是否匹配。所述的文本特征集合包含单词的特征和句子的特征。

步骤(3)、引入基于分布估计的损失函数；

将步骤(2)中的损失函数换成基于分布估计的新损失函数。将基于分布估计的新损失函数分别用在判别器和生成器的损失上。新损失函数假定单个文本描述生成的图像的特征都属于一个高斯分布，即：

其中，

是无条件生成对抗神经网络生成的图像的特征，

是有条件生成对抗神经网络生成的图像的特征，

和

分别是两个高斯分布的均值，

和

是高斯分布的协方差，i表示第i个文本描述。通过概率分布来约束模型的训练。

步骤(4)、模型训练，优化判别器和生成器，得到与文本描述相对应的图像。

进一步的，所述的步骤(1)所述的数据预处理，文本特征的提取具体如下：

引文数据集(CUB-200,COCO-2014)，CUB-200是相对较小的数据集，总计包含200类的鸟类图像。按照指定的划分训练集和测试集，训练集包含8,855张图像，2,933张图像作为测试集。每张图像描述了一个单一的物体(鸟)，每张图像有10个相关的文本描述。COCO由大约123k张图像组成，每张图像有5个描述。其中80k的图像被划分为训练集，40k的图像用作测试集。COCO数据集是物体类别比较多的数据集，数据量也是CUB-200鸟类数据集的数倍，可以更好地检验算法在实际场景下的性能。

对于数据集中的自然语言文本描述进行特征提取，使用一个预训练好的双向长短期记忆网络(BiLSTM)从文本描述中提取文本特征集合。在双向长短期记忆网络中，连接它的两个隐藏状态作为一个单词的特征。得到一个文本描述中所有单词的特征矩阵e∈R^D×T，其中特征矩阵的第i列向量eⁱ表示第i个单词的特征，D表示单词特征的维度，T是单词的数量。将最后一层隐藏状态连接起来，作为全局的句子特征

进一步的，所述的步骤(2)具体方法如下：

2-1采用DM-GAN作为基准模型，多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率，生成细节更丰富的图像。对于模型的生成器，给定随机噪声z～N(0,1)和条件变量c，通过F₀和F_i得到生成器的输入h₀＝F₀(c,z)和h_i＝F_i(h_i-1,z)，h_i-1输入下一阶段生成器网络F_i得到h_i，其中F_i是生成器的神经网络。对于生成器G_i，生成多阶段分辨率的图像x_i＝G_i(h_i)。

2-2联合有条件和无条件生成对抗神经网络共同训练，模型的目标函数包含两项内容，分别是无条件损失和条件损失。无条件损失决定图像的视觉真实性，条件损失决定图像和文本描述能否匹配。第i个阶段判别器D_i的损失定义如下：

相应地第i个阶段的生成器G_i的损失也是由两部分的损失组成，

其中x_i是来自第i个阶段真实图像分布p_datai的图像，s_i是生成器G_i生成的第i阶段的虚假图像，c是条件变量，E表示求数学期望。

进一步的，所述的步骤(3)具体方法如下：

3-1为实现对单个文本描述生成的图像进行整体优化，通过生成大量的同一文本描述的图像来优化网络，提升模型性能。单个文本描述生成一次图像的生成器损失定义如下：

故生成M次图像的损失表示为：

3-2但是在实际的计算过程中，无法承受生成过多图像带来的计算成本。为了解决这个问题，在公式中使用一个无限大的M，通过数学推导，能将损失转化为一个易于计算的上界，是以概率分布的形式来隐式体现生成大量图像的约束。

使M→∞，生成器的损失

定义如下：

其中w_u，b_u和w_c，b_c分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差。

是无条件生成对抗神经网络生成的图像，经过判别器D_i最后一层网络前的特征；

是条件生成对抗神经网络生成的图像，经过判别器D_i最后一层网络前的特征；其中i表示第i个阶段，E表示求相应的数学期望，N表示样本个数。

假定单个文本描述生成的图像的特征都属于一个高斯分布，即：

公式(5)的无条件损失可以推导为一个易于计算的上界：

同样的生成器G_i的无条件损失也可以推导为如下形式：

在上述的推导中公式(8)是利用Jensen不等式E[logX]≤logE[X]，公式(9)是使用矩母函数做变换得到，矩母函数定义如下：

对于判别器D_i的条件和无条件损失，也可以通过同样的数学推导得到相应的损失上界，即：

其中α_i和β_i是真实图像经过判别器网络的得到的特征，w_u，b_u和w_c，b_c分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差。

和

分别是特征

和

所属的高斯分布的均值，

和

分别是特征

和

所属的高斯分布的协方差。N表示样本个数。

最后根据引入概率分布来构成损失函数，对每个判别器D_i和生成器G_i(i＝0,1,2)都使用基于分布估计的新损失函数。

进一步的，所述的步骤(4)具体方法如下：

根据得到的新损失函数，在训练过程中对判别器D_i和生成器G_i进行交替训练。判别器训练时固定生成器模型，同时梯度信息只在判别器上传递；生成器训练时梯度信息从判别器一直传递到生成器，但判别器的模型不进行梯度更新，只优化生成器网络的参数。最后通过反向传播算法(Back-Propagation，BP)对模型参数进行更新，直至模型收敛。

训练结束保存的生成器模型，可以根据指定的文本描述生相对应的高分辨率图像。

本发明有益效果如下：

为了提升条件生成对抗神经网络在文本生成图像任务上的整体性能，生成高质量的图像，本发明提出了一种适用于条件生成对抗神经网络的新损失函数，是一种通过图像特征的概率分布来优化网络的机制。该损失隐式地体现了单个文本生成无限次图像的影响，经过数学推导得到了一个易于计算的损失上界。通过估计单个文本描述生成的图像特征的分布，来实现损失计算及梯度信息回传。在多个模型和数据集上的实验表明，基于分布估计的新损失函数能够有效提升条件生成对抗神经网络实现文本生成图像的性能，同时减少低质量图像的出现，图像整体效果得到提升。

本发明完全采用端到端的方式，优化网络的性能。新的损失应用在多个文本生成图像模型上，性能均有一定的提升。

附图说明

图1为本发明基于分布估计的条件生成对抗生成网络模型结构。

图2为本发明实现文本生成图像任务完整流程图

具体实施方式

下面对本发明方法和其详细参数和做进一步具体说明。

一种基于分布估计的条件生成对抗神经网络文本生成图像方法，具体步骤如下：

步骤(1)、数据预处理，提取文本数据的特征；

引文数据集(CUB-200,COCO-2014)，CUB-200是包含200类的鸟类图像，总计11788张图像。按照指定的划分训练集和验证集，训练集包含8,855张图像，2,933张图像作为测试集。每张图像描述了一个单一的物体(鸟)，每张图像有10个相关的文本描述。由于该数据集中80％的鸟类的对象和图像大小比小于0.5，对数据进行预处理，裁剪所有图像，以确保鸟类的边界框的对象和图像大小比大于0.75。使用的真实图像的大小为299×299。

COCO由大约123k张图像组成，每张图像有5个描述。其中80k的图像被划分为训练集，40k的图像用作测试集。进行实验设置之后，直接使用COCO划分的训练集和验证集。

对于数据集中的自然语言文本描述进行文本特征集合的提取，使用一个预训练好的双向的长短期记忆网络(BiLSTM)从文本中提取文本特征集合，文本特征集合包含单词的特征和句子的特征。在双向长短期记忆网络中，每个单词对应两个隐藏状态，每个方向对应一个状态。因此，连接它的两个隐藏状态作为一个单词的特征，最后得到一个单词特征矩阵e∈R^D×T，其中矩阵的第i列向量eⁱ表示第i个单词的特征，D＝256表示单词特征的维度，T＝25是单词的数量。同时，将双向的长短期记忆网络的最后一层隐藏状态连接起来，作为全局句子特征

步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数；

2-1采用DM-GAN作为基准模型，多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率，生成细节更丰富的图像。对于模型的生成器，给定随机噪声z～N(0,1)和条件变量c，维度分别是100和256维。

通过F₀和F_i得到下一阶段生成器的输入h₀＝F₀(c,z)、h_i＝F_i(h_i-1,z)，h_i-1输入下一阶段生成器网络F_i得到h_i，其中F_i是生成器中的神经网络。F₀由一个全连接层和四层卷积网络构成，F_i(i＝1,2)由动态内存写入机制、两个残差模块和一个卷积层构成。对于生成器G_i，生成多阶段分辨率的图像

的分别率大小分别是64×64,128×128和256×256

2-2联合有条件和无条件生成对抗神经网络共同训练，模型的目标函数包含两项内容，分别是无条件损失和条件损失。第i个阶段判别器D_i的损失定义如下：

相应的第i个阶段的生成器G_i的损失也是由两部分的损失组成，

其中x_i是来自第i个阶段真实图像分布

的图像，s_i是生成器G_i生成的第i阶段的虚假图像，c是条件变量，E表示求数学期望。

步骤(3)、引入基于分布估计的损失函数；

为了实现对单个文本描述生成的图像进行整体优化，使用之前推导出的新的损失函数，该损失为一个易于计算的上界，是以概率分布的形式来隐式体现单个文本生成大量图像的影响。生成器的损失

定义如下：

假定单个文本描述生成的图像的特征都属于一个高斯分布，即

和

这里通过单个文本描述生成M′次图像的来估计两个分布的均值和协方差矩阵，其中M′＝4。

生成器的损失

在M趋向无穷后，可以推导出一个易于计算的形式，生成器的无条件损失和条件损失最后分别定义为如下：

其中α_i和β_i是真实图像经过判别器网络的得到的特征。w_u，b_u和w_c，b_c分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差。

和

分别是特征

和

所属的高斯分布的均值，

和

分别是特征

和

所属的高斯分布的协方差。N表示样本个数。

如图1所示，是单个阶段的基于分布估计的条件生成对抗网络，进行文本生成图像任务的训练过程。最后根据引入概率分布来构成损失函数，对每个阶段的判别器D_i和生成器G_i(i＝0,1,2)都使用基于分布估计的新损失函数。

步骤(4)、模型训练；

根据得到的新的损失函数，在训练过程中对判别器D_i和生成器G_i进行交替训练。相关训练参数设置如下：训练epoch为800,batch大小为20，使用Adam优化器，判别器和生成器初始学习率均为2e-4。

判别器训练时固定生成器模型，同时梯度信息只在判别器上传递；生成器训练时梯度信息从判别器一直传递到生成器，但判别器的模型不进行梯度更新，只优化生成器网络的参数。最后通过反向传播算法(Back-Propagation，BP)对模型参数进行更新，直至模型收敛。

训练结束保存的生成器模型，可以根据指定的文本描述生相对应的高分辨率图像。如图2所示，是模型实现文本生成图像任务的完整流程。

使用生成图像的均值和协方差来计算评价指标FID和IS的值，量化模型的性能。

表1展示的是采用基于分布估计条件生成对抗网络(DM-GAN+DE)及其对比算法在CUB-200数据集上的定量评价结果，图像生成质量评价使用FID(越大越好)和IS(越小越好)这两个指标。该结果表明采用本文的基于分布估计的条件生成对抗神经网络的新损失形式，能有效提升DM-GAN这类文本生成图像模型的性能：在FID这一指标上，从16.09降低到了14.71，IS从4.71上升到了4.84。

这一结果表明，本文提出的基于分布估计的新损失形式可以使基于对抗生成网络的文本生成图像模型生成质量更好的图像。

表1

Claims

1.一种基于分布估计的条件生成对抗网络文本生成图像方法，其特征在于包括如下步骤：

步骤(1)、数据预处理，提取文本数据的特征；

步骤(3)、引入基于分布估计的损失函数；

步骤(4)、模型训练；根据得到的新的损失函数，在训练过程中对判别器D_i和生成器G_i进行交替训练。

2.根据权利要求书1所述的一种基于分布估计的条件生成对抗网络文本生成图像方法，其特征在于步骤(1)具体实现如下：

引文数据集CUB-200是包含200类的鸟类图像，总计11788张图像；按照指定的划分训练集和验证集，训练集包含8,855张图像，2,933张图像作为测试集；每张图像描述了一个单一的物体(鸟)，每张图像有10个相关的文本描述；由于该数据集中80％的鸟类的对象和图像大小比小于0.5，对数据进行预处理，裁剪所有图像，以确保鸟类的边界框的对象和图像大小比大于0.75；使用的真实图像的大小为299×299；

COCO由大约123k张图像组成，每张图像有5个描述；其中80k的图像被划分为训练集，40k的图像用作测试集；

对数据集中的自然语言文本描述进行文本特征集合的提取，使用一个预训练好的双向的长短期记忆网络从文本描述中提取文本特征集合，文本特征集合包含单词的特征和句子的特征；在双向长短期记忆网络中，每个单词对应两个隐藏状态，每个方向对应一个状态；因此，连接它的两个隐藏状态作为一个单词的特征，最后得到一个单词特征矩阵e∈R^D×T，其中矩阵的第i列向量eⁱ表示第i个单词的特征，D＝256表示单词特征的维度，T＝25是单词的数量；同时，将双向的长短期记忆网络的最后一层隐藏状态连接起来，作为全局句子特征

3.根据权利要求书1或2所述的一种基于分布估计的条件生成对抗网络文本生成图像方法，其特征在于步骤(2)具体实现如下：

2-1采用DM-GAN作为基准模型，多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率；对于模型的生成器，给定随机噪声z～N(0,1)和条件变量c，维度分别是100和256维；

通过F₀和F_i得到下一阶段生成器的输入h₀＝F₀(c,z)、h_i＝F_i(h_i-1,z)，h_i-1输入下一阶段生成器网络F_i得到h_i，其中F_i是生成器中的神经网络；F₀由一个全连接层和四层卷积网络构成，F_i由动态内存写入机制、两个残差模块和一个卷积层构成；对于生成器G_i，生成多阶段分辨率的图像