CN113140020A

CN113140020A - 一种基于伴随监督生成对抗网络的文本生成图像的方法

Info

Publication number: CN113140020A
Application number: CN202110520773.2A
Authority: CN
Inventors: 罗俊海; 吴蔓; 王芝燕
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-07-20
Anticipated expiration: 2041-05-13
Also published as: CN113140020B

Abstract

本发明公开一种基于伴随监督生成对抗网络的文本生成图像的方法，应用于条件图像生成领域，针对现有技术中存在的网络结构复杂，计算代价过大的问题；本发明利用层级嵌套的伴随监督架构设计文本生成图像模型，在单流生成器的三个中间隐层侧接判别器，对图像生成过程进行显式对抗监督，能有效提升生成过程的透明性，并可缩短错误传播路径；避免了堆叠多个生成对抗网络，能大幅降低模型复杂度和参数量，提高训练速度。

Description

一种基于伴随监督生成对抗网络的文本生成图像的方法

技术领域

本发明属于条件图像生成领域，特别涉及一种文本到图像的生成技术。

背景技术

文本和图像是人类社会最常见实用的两类信息载体，文本有利于知识记载和传承，而图像有利于直观快速地获取和理解信息。实现文本和图像两种模态数据的相互转换，即文本到图像生成(Text-To-Image Generation,T2I)和图像到文本生成(Image-To-TextGeneration,I2T)，是近年来计算机视觉和自然语言处理领域的热门研究课题。本发明解决的文本生成图像问题，起源于2016年，是一个年轻、有趣、有用和极其热门的课题，属于生成建模任务，以生成对抗网络为主要解决方案。

文本生成图像的任务内容是，把人类书写的描述性文本转换为真实度、自然度、清晰度和语义一致度高的图像，其本质是信息在文本模态和图像模态的迁移和转换。把文本转换为图像，一是有利于提升人们的信息提取速度和知识理解深度；二是有利于增加数据稀疏的特定类别的图像数量，以构建超大规模半监督或弱监督数据集，支持半监督和无监督深度学习技术的发展；三是有利于艺术创作、图片编辑和辅助设计等工程应用的创新和进步。

图像生成分为无条件图像生成和有条件图像生成，二者输出均为合成图像，但前者只给生成模型输入随机噪声，后者给生成模型输入条件信息和随机噪声。文本生成图像属于条件生成图像任务，用文本条件信息指导、监督和控制生成图像的视觉语义。

图像生成曾经常用的经典生成模型有自回归网络、玻尔兹曼机和变分自编码器。自回归网络采用回归思想，导致合成图模式单一而缺乏多样性；玻尔兹曼机依赖马尔科夫链近似采样，导致计算代价昂贵；变分自编码器通过最大化似然的变分下界而间接最大化似然，其“剑走偏锋”导致生成图像模糊。生成对抗网络在设计上避开了这些生成模型的缺点，它不用回归思想，直接从生成器中采样出合成图；不依赖概率图中的马尔科夫链；不对真实数据分布的形式做任何假设，直接最大化似然，因此得以生成清晰、多样而真实的高质量图像，成为生成建模任务中最受欢迎的主流模型。

生成对抗网络是一种深度学习框架，而非一种具体模型，它提供了一种思想——二人博弈式的对抗训练思想。生成对抗网络包含一个或多个生成器网络和判别器网络，数量和网络形式均根据问题需要来设计。生成器是核心，负责由噪声生成图像特征并逐步生成图像，其理论本质是在学习训练集数据的概率分布；判别器占辅助地位，类似于一个智能的、自适应的损失函数，负责判断生成器生成图像的真假，给生成器提供参数更新的梯度指导方向，其理论本质是在衡量生成器当前学到的模型分布和训练集真实数据分布的距离和差异。条件生成网络是对生成对抗网络的简单改进，它给生成器和判别器增加了一个条件输入，生成器的输入是噪声和条件信息，负责生成与条件信息语义相符的图像；判别器的输入是真假图像和条件信息，负责鉴别生成器生成图像的真假以及是否匹配条件语义。

目前，文本到图像生成主要面临以下难点和挑战：

1、合成图像的视觉质量较低。视觉质量包括真实度、自然度和辨识度等极具主观性的指标。主体(前景)或缺失部件(如鸟缺失翅膀)、或多余部件(如鸟有两个头部)、或形状异常、或没有三维立体感，甚至与背景相融而非分离。判别器将这类图像鉴定为真实图片，但人类却可一眼看出是合成假图；此外，背景也存在模糊的问题。

2、合成图像与给定文本的语义匹配度较低。文本描述中的语义细节未能准确映射到图像的主体上，如主体的颜色、纹理、数量和部件形状信息。

3、合成图像分辨率较低。目前，基于文本描述直接生成的图像能做到的最高分辨率为512*512，且大多数已有模型只能在64*64、128*128和256*256三个分辨率层级上生成质量较好的图像，512*512分辨率图像生成还处于尝试和探索的初期阶段。但对人类观看者而言，分辨率对图像质量有至关重要的影响，低分辨率造成的模糊使人无法进一步看清和鉴别细粒度语义的局部视觉细节。

目前，学术界对文本生成图像进行了广泛研究，提出了很多方法和模型。GAN-INT-CLS把无条件图像生成任务中的DCGAN网络结构改进为条件生成对抗网络框架，用一个生成器和一个判别器实现了64*64分辨率图像生成。StackGAN提出将两个生成对抗网络堆叠/级联起来，分两个阶段训练模型，第一阶段训练第一个生成对抗网络，把噪声和文本转换为64*64低分辨率图像；第二阶段训练第二个生成对抗网络，把把文本和低分辨率图像生成为256*256高分辨率图像。StackGAN++沿用堆叠思想，把三个生成对抗网络级联为树状结构，可以端到端训练，且三个生成器可生成三级分辨率(64,128,256)图像。AttnGAN在StackGAN++模型基础上，添加了跨模态注意力机制，学习单词和图像块的关联，可生成多级分辨率图像，且丰富了语义细节。DM-GAN^[5]在堆叠架构基础上添加记忆网络，和AttnGAN类似，学习细粒度词语和图片块的相关性以提升合成图语义匹配度。

以上方法都在模型架构上施加堆叠思想实现基于文本的256*256分辨率的高质量图像生成，但是堆叠架构提升了模型复杂度，且最终合成图的质量高度依赖于初始图质量，一旦初始图有明显错误，后续级联过程难以纠正和调优。另外，上述方法通过增加额外网络结构的方式提升合成图质量指标如语义一致度，而没有从改进模型损失函数角度出发，显著增加了模型复杂度和计算代价。

发明内容

为解决上述技术问题，本发明提出一种基于伴随监督生成对抗网络的文本生成图像的方法，实现从文本到图像的高真实度、多级分辨率和高语义相似度的转换。

本发明采用的技术方案为：一种基于伴随监督生成对抗网络的文本生成图像的方法，包括：

S1、建立文本-图像对数据集；

S2、通过训练好的文本编码器将文本-图像对数据转化为文本特征向量；

S3、搭建伴随监督生成对抗网络模型，包括：一个生成器与三个判别器；所述生成器为单流生成器，包括6个中间隐层，沿着深度方向，通过6个中间隐层生成尺寸逐级增大图像特征；后3个中间隐层各侧接一个判别器；

S4、将步骤S2得到的文本向量输入到搭建的伴随监督生成对抗网络模型中进行训练；

S5、根据训练完成的伴随监督生成对抗网络模型，进行文本到图像的生成。

所述6个中间隐层中前3个中间隐层均为残差上采样块；后3个中间隐层各包括一个残差上采样块、一个缩放块以及一个压缩输出层；后3个中间隐层中的缩放块的输入为上一个中间隐层的残差上采样块的输出，缩放块的输出与当前中间隐层的残差上采样模块的输出相加作为压缩输出层的输入，压缩输出层的输出作为对应判别器的输入。

6个中间隐层的残差上采样块结构相同，包括：2倍最近邻插值上采样层、两个带批标准化和ReLU激活函数的卷积层，两个卷积层设计为残差块形式，且跳加后不再用ReLU层。

后3个中间隐层中的缩放块结构相同，包括：2倍最近邻插值上采样层、1个带BN和ReLU的卷积层。

后3个中间隐层中的压缩输出层是一个带Tanh激活函数的卷积层。

生成器还包括条件增广模块。

前两个判别器为单分支判别器，依次包括：一个多卷积层下采样块、级联单元、第一卷积层、第二卷积层、第三卷积层，多卷积层下采样块用于将输入的图像提取为高层特征，级联单元用于将提取的高层特征与经过空间复制的随机文本条件向量级联；级联单元的输出结果经第一卷积层进行跨模态特征融合，融合后的特征依次经过第二卷积层与第三卷积层进行处理；

最后一个判别器为双分支判别器，在单分支判别器的基础上，还包括第四卷积层和全连接层，融合后的特征还包括经第四卷积层和全连接层进行处理。

步骤S4具体为：

S41、利用条件增广模块，将步骤S2得到的文本向降维为低维随机文本条件向量，并将其与高斯噪声向量拼接作为原始图像特征；

S42、生成器对原始图像特征逐次采样，得到三级合成图像；

S43、三个判别器分别提取各级合成图像的高层特征，并将其与文本特征进行跨模态融合；

S44、计算三个判别器的对抗损失。

本发明的有益效果：本发明利用层级嵌套的伴随监督架构设计文本生成图像模型，在单流生成器的三个中间隐层(即上采样块)侧接判别器，对图像生成过程进行显式对抗监督，能有效提升生成过程的透明性，并可缩短错误传播路径；避免了堆叠多个生成对抗网络，能大幅降低模型复杂度和参数量，提高训练速度；设计了多目标联合对抗损失，能有针对性地提升生成图像的真实性、语义一致性和多样性等质量要求，为生成器提供更明确的参数更新方向。

附图说明

图1为本发明中伴随监督生成对抗网络的结构示意图。

图2为生成器结构示意图。

图3为判别器结构示意图。

图4为本发明中模型训练优化流程示意图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

图1为伴随监督生成对抗网络结构示意图，它包含一个单流生成器和三个侧接判别器。生成器以高斯噪声和文本向量的级联为输入，沿着深度方向，通过中间隐层生成尺寸逐级增大的图像特征，并把64*64、128*128和256*256宽高的图像特征转换为RGB彩色图像；判别器计算L₁，L₂和L₃损失函数，其中L₁是判别器的基础对抗损失：

其中，I和x分别表示真实图像和合成图像，t和t′分别表示与图像匹配和不匹配的文本，D表示判别器函数，p_r，p_mis和p_g分别表示真实且匹配、真实但与文本不匹配和合成图像的数据分布，

表示对方括号内运算结果在真实且匹配的数据分布中求期望，

表示对方括号内运算结果在真实但与文本不匹配的数据分布中求期望，

表示对方括号内运算结果在合成图像的数据分布中求期望。L₁被设计为hinge形式，以把判别器输出限制在(-1,1)，防止判别器过度优化导致生成器梯度消失，从而提升训练稳定性。最小化第一项的本质是最大化D(I,t)，激励D对真实且匹配的正类样本(I,t)打高分；最小化第二项则是最小化D(I,t′)，引导D对真实但与文本不匹配的第一类负样本打低分；最小化第三项则是最小化D(x,t)，促进D对合成图及其给定文本的第二类负样本打低分。因此，L₁把图像真实性和语义一致性一起评判，是最基础的对抗损失。

L₂是匹配感知梯度惩罚损失：

其中，k和p是用于调整梯度惩罚力度的超参数，

是梯度算子。梯度惩罚只对正类样本进行，括号中第一项是判别器决策值关于真实图像的梯度，第二项是关于文本描述的梯度。

L₃是类别信息损失：

L₃＝log(D₃(I,t,C))+log(D₃(I,t′,C))+log(D₃(x₃,t,C))

其中，C是类别标签，取整数数值。类别信息损失额外引入图像类别信息，依赖一个辅助分类分支，通过对合成图像正确分类而间接提升判别器鉴定图像真假和辨识度的能力。如图1所示，D₁和D₂不计算类别信息损失，只有D₃计算这一项。

图2是生成器G的结构示意图。首先，非结构化的文本描述经过预训练文本编码器被转换为1024维的确定文本向量

我们使用char-CNN-RNN文本编码器；然后，利用条件增广模块学习确定文本向量的均值μ₀和标准差σ₀，再利用重采样技巧得到引入随机性的128维文本条件向量c₀，以降低文本空间的维度，减轻其稀疏性和不连续性，增加模型对噪声的鲁棒性；c₀和100维高斯噪声向量z级联后成为原始图像特征，经过空间复制后维度变为(B,228,4,4)，再经过一个全连接层被转化为(B,1024,4,4)，B表示训练中的batch size；后被送入6个连续的残差上采样块中，每经过一个上采样块，图像特征的宽高增大1倍；在图像特征宽高为64*64、128*128和256*256时，把前一个上采样块的输出经过缩放块后与当前特征相加，再经过一个压缩输出层把累加特征转换为RGB彩色图像。

残差上采样块包含一个2倍最近邻插值上采样层、两个带批标准化(BatchNormalization,BN)和ReLU激活函数的卷积层，两个卷积层被设计为残差块形式，且跳加(skip-addtion)后不再用ReLU层以减少ReLU引入的稀疏梯度；缩放块包含一个2倍最近邻插值上采样层和1个带BN和ReLU的卷积层，用于将前一级特征图的尺寸放大；压缩输出层是一个带Tanh激活函数的卷积层，用于把图像特征转换到RGB彩色图像空间。

生成器网络末尾，利用感知损失函数评估真实图像和生成器生成图像的感知相似度，直接而非通过判别器间接地指导参数更新。感知损失函数的数学定义是：

其中，C_i、W_i和H_i分别表示图像特征的通道数、宽度和高度；

表示图像分类器，

表示最终合成图；x₃下标中的3表示第3级分辨率256*256，相应的第1级分辨率为64*64，第2级分辨率为128*128；

表示矩阵2范数的平方；我们使用在ImageNet数据集上预训练好的VGG19网络，提取VGG19的第i个卷积层之后第i个池化层之前的特征；I和x₃分别是真实图像和256*256分辨率合成图像。这里的感知损失是一种激活重构损失，它鼓励两张图像有相似的特征表示，从而提升合成图与真实图的感知上的而非像素层次的相似度。

除了感知损失外，生成器的基础对抗损失取决于判别器输出：

其中，

表示对方括号内运算结果在G(z,t)服从p_g的分布中求期望，G(z,t)表示生成的合成图像，z是高斯噪声向量，t是文本向量。

图3是判别器网络D的结构示意图。D₁和D₂都是单分支判别器，而D₃有两个分支。真实图像或者生成器生成的图像经过一个多卷积层下采样块后，被提取为512维的高层特征，多卷积层下采样块由连续的5个步长为2的卷积层组成，每个卷积层后均有BN层和ReLU层；高层图像特征与经过空间复制的随机文本条件向量c₀级联后，经过一个1*1卷积层进行跨模态特征融合；融合特征经过两个3*3卷积层计算L₁损失，D₃的另一个分支则经过一个3*3卷积层和一个全连接层计算L₃损失；匹配感知梯度惩罚损失L₂对整个判别器进行，它惩罚判别器所有参数的梯度的范数，无需单独建立计算分支。

图4是伴随监督生成对抗网络的训练优化流程示意图，具体包含以下步骤：

S1.建立文本-图像对数据集；

对于每张图片，提供数句(实际应用中建议采用10句)人类写的对图像前景和背景的描述性文本，文本应全面准确地反映主体的颜色、纹理、形状和数量等关键特征。每条文本包含一句话，且多条文本的单词数量相当，如均含有大约15个单词。此外，每张图片需要一个人工标注的整数形式的类别标签。

图像分辨率、尺寸和编码格式等无需完全统一，但图像中主体与整图的面积比例应在0.7～0.8左右，以让主体占据图像提供信息量的绝大部分。如果不满足，则应根据主体边界框信息裁剪图像使之达到物体-图像比例要求。

本领域技术人员应知，图像主体即图像的主要内容，即前景，与之对应的是背景，非主体内容。主体就是文本所描述的对象，现有文本-图像生成任务数据集所提供的图像基本没有复杂的背景，文本描述是完全关于图像主体的。

S2.预训练文本编码器；

这一步的目的是对图像和其对应的描述性文本联合建模，以获取文本描述的深度视觉细粒度嵌入，把非结构化文本编码为结构化特征向量。文本到图像生成任务非常复杂，模型通常参数量较大，训练时间较长，因此完全从描述性文本到图像的端到端训练的实现非常困难。因此，一般把文本编码，即描述性文本到文本向量的转换这一步预先执行。

这一步中，我们使用char-CNN-RNN文本编码器。它包含一个图像分类器和一个文本分类器，以及一个图像编码器和一个文本编码器。图像编码器是GoogLeNet,文本编码器是一个LSTM，他们分别把图像和文本转换为1024维特征。图像特征和文本特征的内积被定义为文本图像兼容性函数。而文本分类器和图像分类器的优化目标就是最大化这个兼容性函数。通过最大化兼容性函数，实现文本分类器、图像分类器和文本编码器的训练，而其中文本编码器才是训练的真正目的。

S3.划分训练集和测试集；

对于自己采集的数据集，根据数据集规模大小，按照8:2或7:3等比例随机划分；对于公开数据集，直接使用发布者提供的划分方式；

S4.搭建伴随监督生成对抗网络模型；

生成器包含条件增广模块，6个残差上采样块，3个缩放块和3个压缩输出层；三个判别器被嵌套在生成器深度增加方向上的中间隐层，均包含由6个步长为2的卷积层组成的下采样块，所有卷积层均使用批标准化和LeakyReLU激活函数；

S5.将文本条件向量进行增广，得到原始图像特征；

把char-CNN-RNN文本编码器编码得到的1024维确定性文本向量

输入到生成器中的条件增广模块，得到引入了随机性而被增广和降维的128维文本条件向量c₀；再将其与随机采样得到的100维高斯噪声向量直接拼接作为原始图像特征。

其中，μ(·)和σ(·)分别是文本描述服从的高斯分布的均值和方差，均是用神经网络建模的函数；⊙表示逐元素相乘运算；ε～N(0,I)表示高斯噪声。

条件增广模块的参数和生成器参数一起更新，因此它给生成器添加一个损失项，即标准正态分布和随机文本向量分布的KL散度，最小化这个散度距离促使条件增广模块输出的条件文本向量足够多样。

S6.生成器生成多级分辨率彩色图像；

在生成器的前馈过程中，原始图像特征经过连续的6个2倍残差上采样块，被逐级转换为8*8，16*16直到256*256宽高的图像特征；64*64、128*128和256*256图像特征与经过缩放块的前一级特征累加后，被压缩输出层转换为三通道彩色图像，实现三级分辨率输出。

S7.判别器提取合成图像高层特征；

三个尺度输出图像被分别送入对应判别器以鉴别图像质量，包括真实自然度和语义匹配度。判别器通过下采样块提取出512维图像高层特征，并将其与经过空间复制的128维文本条件向量级联后，经过一个1*1卷积层实现跨模态特征融合，得到模态共享特征表示，以计算判别器各项损失；

S8.多目标联合损失评估合成图像质量；

在一次交替优化中，首先根据判别器计算的对抗损失L₁、L₂和L₃，让判别器鉴别生成图像的真实度、语义一致度和类别一致性，本着进一步提升判别器判别能力的目的，更新判别器的网络参数；然后根据生成器的基础对抗损失L_G，条件增广模块损失L_ca和直接使用的感知损失L_perc，考察生成图像的各方面质量，本着进一步提升生成器生成能力的目的，更新生成器的网络参数；

将交替优化循环执行数个epoch，完成模型训练。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，包括：

S1、建立文本-图像对数据集；

2.根据权利要求1所述的一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，所述6个中间隐层中前3个中间隐层均为残差上采样块；后3个中间隐层各包括一个残差上采样块、一个缩放块以及一个压缩输出层；后3个中间隐层中的缩放块的输入为上一个中间隐层的残差上采样块的输出，缩放块的输出与当前中间隐层的残差上采样模块的输出相加作为压缩输出层的输入，压缩输出层的输出作为对应判别器的输入。

3.根据权利要求2所述的一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，6个中间隐层的残差上采样块结构相同，包括：2倍最近邻插值上采样层、两个带批标准化和ReLU激活函数的卷积层，两个卷积层设计为残差块形式，且跳加后不再用ReLU层。

4.根据权利要求3所述的一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，后3个中间隐层中的缩放块结构相同，包括：2倍最近邻插值上采样层、1个带BN和ReLU的卷积层。

5.根据权利要求4所述的一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，后3个中间隐层中的压缩输出层是一个带Tanh激活函数的卷积层。

6.根据权利要求5所述的一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，生成器还包括条件增广模块。

7.根据权利要求6所述的一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，前两个判别器为单分支判别器，依次包括：一个多卷积层下采样块、级联单元、第一卷积层、第二卷积层、第三卷积层，多卷积层下采样块用于将输入的图像提取为高层特征，级联单元用于将提取的高层特征与经过空间复制的随机文本条件向量级联；级联单元的输出结果经第一卷积层进行跨模态特征融合，融合后的特征依次经过第二卷积层与第三卷积层进行处理；

8.根据权利要求7所述的一种基于伴随监督生成对抗网络的文本生成图像的方法，其特征在于，步骤S4具体为：

S42、生成器对原始图像特征逐次采样，得到三级合成图像；

S44、计算三个判别器的对抗损失。