CN113140019B

CN113140019B - 一种基于融合弥补生成对抗网络的文本生成图像的方法

Info

Publication number: CN113140019B
Application number: CN202110520772.8A
Authority: CN
Inventors: 罗俊海; 吴蔓; 王芝燕
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-05-31
Anticipated expiration: 2041-05-13
Also published as: CN113140019A

Abstract

本发明公开一种基于融合弥补生成对抗网络的文本生成图像的方法，应用于条件图像生成领域，针对现有技术中存在的模型复杂、合成图分辨率低和不考虑文本图像特征融合等问题，本发明搭建的融合弥补生成对抗网络模型，生成器上采样块中包括仿射调制融合块，在仿射调制融合块中通过条件卷积层多次引入文本向量作为输入，在生成器前馈过程中多次、反复利用文本条件信息，并将其融合到生成的图像特征中，实现对神经网络前馈过程中丢失信息的弥补，从而使得模型可以在单体架构中一次性生成256*256分辨率图像，避免了计算代价昂贵的额外网络的引入。

Description

一种基于融合弥补生成对抗网络的文本生成图像的方法

技术领域

本发明属于条件图像生成领域，特别涉及一种在生成过程中多次弥补文本条件信息的图像生成技术。

背景技术

文本生成图像任务起源于2016年，任务内容是把人类书写的自然语言描述如“这只鸟是黑白相间的，有短小的喙”转化为一幅符合文本语义的图像，其本质是条件图像生成，即以文本信息为控制、监督或指导条件的图像生成。文本生成图像的主要难点在于：(1)图像视觉质量低下，包括清晰度、自然度和辨识度等；(2)图像与给定文本的语义相似度低下，即生成图像无法准确反映文本描述中的视觉语义细节。(3)模型复杂，导致训练困难，包括训练不稳定和训练时间长等问题。

截止目前，文本生成图像的模型架构设计历经了从简单到复杂，再回归简单的发展过程。早期模型，如GAN-INT-CLS和GAWWN，使用单体架构，即只用一对生成器和判别器，只能生成32*32和64*64分辨率的图像，且语义细节匮乏，图像模糊；StackGAN开启了堆叠架构的先河，主张堆叠多个生成对抗网络，使用多对生成器和判别器，通过分阶段训练实现128*128和256*256分辨率图像的合成；此后，StackGAN++,AttnGAN,DM-GAN等模型均沿用堆叠思想，虽然实现了多级分辨率输出且增加了局部语义细节，但整体趋势是模型越来越复杂，训练难度和时长也越来越大；HDGAN改进了堆叠思想，把多个生成器合并，采用逐级嵌套架构，使用一个深度较大的生成器和多个伴随判别器搭建模型，保留了多级分辨率输出优点，同时也实现了与堆叠模型相当的质量，却大大降低了模型复杂度。

但是，与早期奠基性的单体架构模型相比，堆叠模型和层级嵌套模型的复杂度较高，且需要依赖额外添加的网络结构来提升合成图语义丰富程度，如AttnGAN和DM-GAN分别利用跨模态注意力机制和记忆网络来引入单词级细粒度文本向量以提升语义细腻度，但同时也进一步增大了模型参数量和计算量。此外，上述模型均没有考虑文本和图像特征的融合，仅把二者的简单级联作为生成器输入，只使用一次文本向量，生成器前馈过程不断丢失信息，导致最终合成图语义细节较少。因此，亟需提出一种新方法，一是要进一步简化架构设计，二是要在生成器中引入文本和图像模态特征融合，在生成图像的过程中多次补充文本信息。

发明内容

为解决上述技术问题，本发明提出一种基于融合弥补生成对抗网络的文本生成图像的方法，有效地实现从输入文本到高质量图像的生成和转换。

本发明采用的技术方案为：一种基于融合弥补生成对抗网络的文本生成图像的方法，包括：

S1、采集文本-图像数据集并做预处理；

S2、构建融合弥补生成对抗网络，包括：生成器网络与判别器网络，所述生成器网络包括一个全连接层与6个连续的上采样块，每个上采样块包括一个一个仿射调制融合块和一个2倍最近邻插值上采样层；所述判别器网络包括一个卷积层和6个连续的下采样块，每个下采样块为主路包括两个带LeakyReLU激活函数的卷积层的残差块；

S3、生成器网络以噪声相邻与文本向量作为输入，生成合成图像；

S4、判别器网络以真实图像、合成图像和对应的文本向量作为输入，用两个分支分别给图像质量和语义一致性评分；

S5、生成器网络根据判别器的输出计算损失，并更新生成器网络的参数；然后返回步骤S3，直至迭代结束。

每个仿射调制融合块都是一个残差块，每个仿射调制融合块主路依次包括第一条件卷积层、第二条件卷积层、第一普通3*3卷积层、第三条件卷积层、第四条件卷积层、第二普通3*3卷积层；第一条件卷积层、第二条件卷积层、第三条件卷积层、第四条件卷积层均为带LeakyReLU激活函数的条件卷积层；每个仿射调制融合块支路为1*1卷积层。

每个仿射调制融合块主路的输入为噪声向量或合成的图像特征，文本向量通过各条件卷积层输入。

判别器网络还包括：无条件分支与有条件分支，所述无条件分支用于鉴别图像真假，有条件分支用于鉴别图像语义一致性。

所述无条件分支的输入为判别器网络中6个联系的下采样块的最终的输出结果。

所述有条件分支的输入为判别器网络中6个联系的下采样块的最终的输出结果和经过空间复制的文本条件向量的级联。

无条件分支具体包括4*4卷积层。

有条件分支具体包括一个3*3卷积层和一个4*4卷积层。

本发明的有益效果：本发明的方法基于搭建融合弥补生成对抗网络模型，进行文本图像生成，本发明的生成器网络的上采样块中包括仿射调制融合块，仿射调制融合块的主路输入是噪声向量或生成的图像特征，而文本向量通过条件卷积层被输入进来。通过多个条件卷积层，得以在生成器前馈过程中多次、反复利用文本条件信息，并将其融合到生成的图像特征中，实现对神经网络前馈过程中丢失信息的弥补；具备以下优点：

1、采用传统单体架构，仅利用一个生成器和一个判别器，把生成器和判别器均用残差神经网络和卷积神经网络建模，能有效降低模型空间复杂度和时间复杂度，即参数量和计算量，同时也能降低模型的训练难度和时长；

2、利用文本与图像的特征融合在生成器前馈过程中反复进行信息弥补，能充分提取和挖掘文本条件信息的高层语义并将其充分映射到生成图像中，能提升合成图语义丰富度，一次性实现256*256分辨率图像的合成，同时避免了计算代价昂贵的额外网络的引入；

3、采用两路判别器，一方面增加了判别器工作量和提升鉴别难度，有助于提升其与生成器的对抗游戏的平衡性，稳定模型训练；另一方面把判别器工作细化为无条件鉴别图像真假和有条件鉴别图像语义一致性的两个分支，有助于把真实性和语义一致性两个质量指标分开实现，为生成器提供更明确的梯度更新指示。

附图说明

图1为本发明的方法流程图；

图2为本发明实施例提供的一张图像；

图3为本发明中融合弥补生成对抗网络的结构示意图；

图4为仿射调制融合块结构示意图；

图5为条件卷积核原理示意图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示，本发明的基于融合弥补生成对抗网络的文本生成图像方法，包括以下步骤：

S1.建立数据集并进行预处理；

文本生成图像任务使用的数据集由多个文本-图像对组成，文本是对该图像中主体的自然语言描述。一张图像可以对应十多句不同的文本描述，每句用不同词语，从不同角度来描述图像。如图2所示的图像，对应了以下10个不同角度的文本描述：

1.the medium sized bird has a dark grey color,a black downward curvedbeak,and long wings.

2.the bird is dark grey brown with a thick curved bill and a flatshaped tail.

3.bird has brown body feathers,white breast feathers and black beak.

4.this bird has a dark brown overall body color,with a small whitepatch around the base of the bill.

5.the bird has very long and large brown wings,as well as a blackbody and a long black beak.

6.it is a type of albatross with black wings,tail,back and beak,andhas a white ring at the base of its beak.

7.this bird has brown plumage and a white ring at the base of itslong,curved brown beak.

8.the entire body is dark brown,as is the bill,with a white bandencircling where the bill meets the head.

9.this bird is gray in color,with a large curved beak.

10.a large gray bird with a long wingspan and a long black beak.

预处理包括图像和文本数据预处理，以及训练-测试集的划分。图像预处理主要是指裁剪，其具体实现需要用到主体的边界框的四角位置信息，目的是保证主体在图像中面积占比大于70％，以保证较高的“信噪比”。

本领域技术人员应知，主体就是图像的主要内容，一般是前景，与背景相对，背景一般是不重要的非主体内容。

确定主体的方法是通过边界框(bounding box)，它是四个坐标，即四对数值，它把图像主体框定在一个长方形方框内。边界框信息由数据集本身提供，可以直接使用。如果自建数据集则需要自己提供边界框信息，但是如果自建数据集内图像主体-图像比例均较大(大于70％)，则无需提供边界框信息，也无需这一步通过边界框确定主体。

文本预处理是指文本编码，即利用文本编码器把人类写的自然语言描述转换为长度固定的结构化的数值向量。使用char-CNN-RNN编码器，对文本和图像两个模态进行联合建模，把图像和文本和关联性嵌入到文本向量中，得到1024维的句子级文本条件向量。

文本编码器的输入是自然语言书写的句子，输出是结构化的句子向量。它首先把整个数据集的所有文本描述遍历一遍，统计出词语总数，并为每一个词语编号，如“this”被编号为12，“bird”编号为245，然后把每句文本转化为一个包含一组数字编号的列表。至此，就实现了人类语言到数字的转换。

文本编码器后续工作是把每个词语从整数编号转换为固定维度的词语向量，如128维或256维，这里的转换原理则根据文本编码器自身设计原理而定，如char-CNN-RNN使用一个双向LSTM神经网络来学习出词向量，而AttnGAN提出的DAMSM文本编码器则用RNN结合注意力机制学习词向量。最后再通过文本编码器自身的设计把词语向量转换为固定维度的句向量，如DAMSM是把LSTM的最后两个隐状态向量级联起来(256维)作为全局句向量。

文本和图像的关联性是语义相似性，更具体地说，就是句子中每一个单词和图像中每一个图像块之间的相关性，如某单词描述的是哪一个图像块的特征等。

根据收集到的文本-图像数据集的规模大小，按照一定比例如6:4或8:2等划分训练集和测试集，为训练模型做好基础数据准备。

S2.搭建融合弥补生成对抗网络；

图3是融合弥补生成对抗网络整体结构图，包含一个生成器网络和一个判别器网络。生成器包含一个全连接层和6个连续的上采样块，每个上采样块包含一个仿射调制融合块和一个2倍最近邻插值上采样层。噪声向量通过全连接层转换维度后，被这些上采样块继续转化为256*256宽高的图像特征，并经过一个带Tanh激活函数的3*3卷积层被输出为RGB彩色图像。

噪声向量是生成对抗网络GAN中的生成器G的输入，G的功能就是把噪声转换为图像，数学上来说就是把高斯分布转换为图像分布，即G的本质是在学习训练集图像的概率分布形式，并把这种分布从简单的高斯分布采样出来。

由噪声生成图像，是GAN的基本原理。本发明是基于条件生成对抗网络CGAN，比传统GAN多了一个输入，即条件向量c，具体来说就是文本向量。CGAN在文本条件向量的指导下，生成出真实且符合文本向量高层语义的图像。

噪声向量在生成器G中逐步被转换为高维的图像特征，最终输出才是三通道彩色图像。

判别器结构相似，包含一个3*3卷积层和6个连续的下采样块，每个下采样块是一个主路含两个带LeakyReLU激活函数的卷积层的残差块。输入图像经过连续下采样块被转化为512维高层特征，被送入仅有一个4*4卷积层的无条件分支(L_u是无条件分支，u表示unconditional，即无条件的)，以计算考察图像本身真实度的无条件损失：

其中，脚标u表示unconditional，即无条件的，I和x分别是真实图像和合成图像，D是判别器，在这里表示判别器网络所拟合的函数，D(I)表示判别器的无条件分支的输出，即对图像I的判别分数，

是数值全为1的矩阵，

表示实数空间，用于说明张量的维度，||·||_F是Frobenius范数，即矩阵的L₂范数。无条件损失实际上是一种局部图像损失，它不只考虑全局真假，而还考察图像局部的真假性，因此其输出D(x)是一个维度为Q×Q的二维矩阵，矩阵中元素取值范围为[0，1]，表示该图像块为真实图像的概率，故此输出矩阵也称为概率图。Q是一个调整局部图像损失接收域的超参数，可根据需要自行调节和设置。

Q是局部图像损失的关键参数，局部图像损失的目的是把图像划分为Q×Q个图像块，让D判别每一个图像块的真实度，其输出的Q×Q矩阵中每一个值表示的是该图像块为真实图像的概率。因此，Q越大，就把图像划分为更多的局部块，D判别的更为细粒度。但是，Q并非越大越好，过大的Q使得单个图像块太小，加大D的工作量，且学习过细容易导致D过拟合。

其本质是均方误差：Q取5，则一张图像经过D的无条件分支的输出D(I)是一个5*5的矩阵，而

是一个取值全为1的5*5矩阵，通过求出两个同维矩阵的对应元素的平方和，作为损失，通过最小化这个损失，迫使D输出的5*5矩阵的值都接近1，即这25个图像块为真实图像的概率接近1，从而使得整个图像的真实度提升。本实施例中Q取值为5，一般推荐取值大于3。

有条件分支(L_c就是有条件分支，c表示conditional，即有条件的)的输入是图像特征和经过空间复制的文本条件向量的级联，它包含一个3*3卷积层和一个4*4卷积层，计算考察图像和其给定文本的语义匹配度的有条件损失：

其中，脚标c表示conditional，E表示数学期望，D表示判别器，

表示对其后面括号中的运算结果关于真实图像分布p_r求期望；p_r，p_g和p_mis分别表示真实且匹配、真实不匹配和合成图像数据分布。最小化第一项鼓励判别器的有条件分支给真实且匹配的正类样本尽可能高的输出值，最小化第二项和第三项则分别促使有条件分支给两类负样本尽可能低的输出值。有条件损失通过考虑三类输入样本，考察图像和给定文本的语义一致度，促使判别器将匹配文本语义且较真实的合成图像判定为真，从而鼓励生成器继续生成这样的图像。

图4是仿射调制融合块的结构示意图。每个仿射调制融合块都是一个残差块，其主路由四个带LeakyReLU激活函数的条件卷积层(cConv+LekyReLU)和两个普通卷积层(conv3*3)堆叠而成，恒等映射支路上有一个用于升降维度以实现跳加操作的1*1卷积层。仿射调制融合块的主路输入是噪声向量或生成的图像特征，而文本向量通过条件卷积层被输入进来。通过多个条件卷积层，仿射调制融合块得以在生成器前馈过程中多次、反复利用文本条件信息，并将其融合到生成的图像特征中，实现对神经网络前馈过程中丢失信息的弥补，从而使得模型可以在单体架构中一次性生成256*256分辨率图像。

文本向量通过条件卷积层输入的具体过程为：

条件卷积层包括一个scale模块和一个shift模块，分别用于根据文本向量求取缩放因子和平移因子。Scale模块被实现为一个1024*out_chs的全连接层，它的输入是1024维的文本向量，输出是out_chs维的缩放因子，其中out_chs是条件卷积层的输出通道数；shift模块同理，是一个1024*in_chs的全连接层，输入是文本向量，输出是in_chs维的平移因子。

条件卷积层通过scale模块和shift模块求出的缩放因子和平移因子对卷积核的权重参数进行缩放和平移，然后对输入图像特征进行卷积操作，输出卷积后特征图。

图5是条件卷积原理示意图，条件卷积的思想是利用条件信息来“调制”卷积层中滤波器的权重参数，对不同条件生成不同的特征图，从而实现条件信息对生成图像的控制。条件卷积层是对普通卷积层的扩展和改进，如图4所示，它可被分为沿通道方向的平移操作和沿滤波器方向的缩放操作。沿滤波器方向缩放是指，用一组与条件信息相关的缩放参数

对不同滤波器的权重参数进行缩放，C_out是当前卷积层的卷积核数目，即输出通道数目；沿通道方向平移是指，用一组与条件信息相关的平移参数

对滤波器不同通道参数进行平移，C_in是前一卷积层的卷积核数目，即输入通道数目。经过条件卷积层生成图像特征的数学表示是：

其中F_cConv函数表示条件卷积层，其输入是图像特征I和文本向量t，其执行的运算是让由文本t计算得到的缩放参数γ_s和平移参数β_s对原始卷积核参数W进行调制，然后与图像特征I卷积后输出调制后特征图。

S3.生成器生成图像；

如图3所示，每一个仿射调制融合块包含4个条件卷积层，每一个条件卷积层会使用一次文本向量来计算缩放参数和平移参数，因此一个仿射调制融合块会引入4次文本向量。生成器G由6个仿射调制融合块堆叠而成，因此在G的前馈过程中能引入24次文本向量。

如图1所示，生成器以噪声为输入，并另在仿射调制融合块中通过条件卷积层多次引入文本向量作为输入，经过6个连续的上采样块，一次性合成256*256分辨率图像。生成器的基础对抗损失是：

其中，第一项是无条件损失，仅衡量合成图像质量；第二项是有条件损失，权量合成图像和给定文本的语义相似度，

表示对其右边运算结果在真实图像分布中求期望，G是生成器，z是噪声，G(z)表示生成器由噪声转换来的图像。

除了基础对抗损失外，为生成器直接引入了一种感知损失函数，通过最小化合成图像和对应真实训练图像的高层特征而保证二者具有人类主观感知上的相似性：

其中，C_i、W_i和H_i分别表示图像分类器

的第i个卷积层和第i个池化层之间得到的图像特征的通道数和宽高。图像分类器

使用在ImageNet数据集上预训练的Inception-v3模型，i一般设置为35，即取输入图像在第35个卷积层和池化层之间的图像特征；

表示最终合成图；x₃下标中的3表示第3级分辨率256*256，相应的第1级分辨率为64*64，第2级分辨率为128*128；

表示矩阵2范数的平方。

S4.判别器为真实图像、合成图像和对应文本计算决策值，更新其参数。

判别器的总损失如下式，α是平衡无条件损失L_u和有条件损失L_c的超参数：

L_D＝L_u+αL_c。

的取值若大于1，则更注重有条件损失，即语义匹配度；若取值小于1，则更注重真实度，可能会导致合成图与文本的语义相似度较低；本实施例中取值为1，即有条件损失衡量的是合成图和文本的语义相似度，而无条件损失衡量的是合成图的真实度，二者同等重要。

用θ表示判别器网络全体参数，τ表示学习率，则判别器的一次优化的数学表示如下：

为稳定单体架构的融合弥补生成对抗网络的训练，为判别器引入了谱归一化正则化，把每个卷积核的全体参数看作一个矩阵

用矩阵W的谱范数对W进行归一化，如下式。谱归一化保证了判别器所有卷积核所表示的映射均满足1-李普希兹连续性，从而使得整个判别器满足1-李普希兹连续性，从而从根本上解决了生成对抗网络训练中常出现的梯度消失问题，保证了训练稳定性：

上式中，W是判别器中所有卷积核的原始参数，W′是经过谱归一化之后的卷积核参数，σ(·)函数计算矩阵的谱范数，σ(·)即矩阵W^TW的最大特征值的平方根，也即矩阵W的最大奇异值：

本领域的技术人员应注意，这里的h无具体的物理含义，在

中h用于表示任何非零向量，在

中h用于表示2范数小于等于1的任何向量。

S5.生成器计算损失值，更新其参数；

生成器的总损失如下式，β是平衡基础对抗损失和感知损失的超参数：

其中，β为超参数，用于权衡感知损失在整体损失中的重要程度；超参数的取值越大，则感知损失对结果的影响越大，取值越小，则感知损失无法起作用，无法有效改善合成图质量，在实际应用中，β的取值可以根据需要进行调整，本实施例中取值为0.1。

用π表示生成器网络全体参数，τ表示学习率，则生成器的一次优化的数学表示如下：

步骤S4是一次交替优化，模型的训练需要循环执行多次交替优化，利用生成器和判别器的对抗实现二者性能的共同提升，从而训练出最优生成器。一般使用Adam优化器来优化模型。

融合弥补生成对抗网络模型中，生成器和判别器是完全独立的两个神经网络；在交替优化中，总是先优化一次判别器，再优化一次生成器；判别器优化后鉴别能力得到提升，于是更容易拒绝生成器合成样本，为生成器提出更高要求；生成器根据判别器对前一步合成图像的鉴别损失和自身直接使用的感知损失，更新自身参数后生成能力也得到提升，得以生成质量更好的图像，企图“骗”过判别器。每一次交替优化都是生成器和判别器的一次对抗较量，二者相互竞争的同时相互帮助，互相引导对方把参数向正确的优化方向更新；循环执行数次交替优化后，二者的性能均达到最优，判别器无法区分真实图像和合成图像，而生成器生成了以假乱真的合成图像。

循环次数即图1中优化的epoch次数，每一个epoch会用整个数据集更新一次G和D的参数。在本发明实施例以及本领域的实际实验中，一般选择最大循环次数为600。

但是，并非必须优化600个epoch，其实在300个甚至200个epoch时效果已经足够好，要根据数据集中图像分布的复杂程度、实验中batch size，学习率等超参数的设置来定。如果数据集复杂，则需要更多epoch；如果batch size较大，则需要更多epoch，因为单个epoch的迭代次数较少；如果学习率较小，则也需要多个epoch，因为学习慢。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于融合弥补生成对抗网络的文本生成图像的方法，其特征在于，包括：

S1、采集文本-图像数据集并做预处理；

S2、构建融合弥补生成对抗网络，包括：生成器网络与判别器网络，所述生成器网络包括一个全连接层与6个连续的上采样块，每个上采样块包括一个仿射调制融合块和一个2倍最近邻插值上采样层；所述判别器网络包括一个卷积层和6个连续的下采样块，每个下采样块为主路包括两个带LeakyReLU激活函数的卷积层的残差块；

每个仿射调制融合块都是一个残差块，每个仿射调制融合块主路依次包括第一条件卷积层、第二条件卷积层、第一普通3*3卷积层、第三条件卷积层、第四条件卷积层、第二普通3*3卷积层；第一条件卷积层、第二条件卷积层、第三条件卷积层、第四条件卷积层均为带LeakyReLU激活函数的条件卷积层；每个仿射调制融合块支路为1*1卷积层；

每个仿射调制融合块主路的输入为噪声向量或合成的图像特征，文本向量通过各条件卷积层输入；

S3、生成器网络以噪声向量与文本向量作为输入，生成合成图像；

2.根据权利要求1所述的一种基于融合弥补生成对抗网络的文本生成图像的方法，其特征在于，判别器网络还包括：无条件分支与有条件分支，所述无条件分支用于鉴别图像真假，有条件分支用于鉴别图像语义一致性。

3.根据权利要求2所述的一种基于融合弥补生成对抗网络的文本生成图像的方法，其特征在于，所述无条件分支的输入为判别器网络中6个联系的下采样块的最终的输出结果。

4.根据权利要求3所述的一种基于融合弥补生成对抗网络的文本生成图像的方法，其特征在于，所述有条件分支的输入为判别器网络中6个联系的下采样块的最终的输出结果和经过空间复制的文本条件向量的级联。

5.根据权利要求3所述的一种基于融合弥补生成对抗网络的文本生成图像的方法，其特征在于，无条件分支具体包括4*4卷积层。

6.根据权利要求5所述的一种基于融合弥补生成对抗网络的文本生成图像的方法，其特征在于，有条件分支具体包括一个3*3卷积层和一个4*4卷积层。