CN112884856A

CN112884856A - 基于谱归一化层级式生成对抗网络的文本生成图像方法

Info

Publication number: CN112884856A
Application number: CN202110096097.0A
Authority: CN
Inventors: 朱信忠; 徐慧英; 王霞; 董仕豪; 靳林通; 赵建民
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-06-01
Anticipated expiration: 2041-01-25
Also published as: WO2022156350A1; LU502833B1; CN112884856B; ZA202207738B

Abstract

本发明公开了基于谱归一化层级式生成对抗网络的文本生成图像方法，包括：第一阶段：将文本输入至生成对抗网络中，通过条件增强模型后将文本相对应的文本特征向量与噪声向量进行拼接，并输入至生成器网络中进行处理，得到第一图像；将得到的第一图像输入至判别器网络中进行下采样处理，得到第一图像相对应的张量，将张量和文本特征向量进行拼接，生成低分辨率图像；第二阶段：将第一阶段中的文本特征向量通过条件增强模型进行处理后将文本特征向量与第一阶段中生成的低分辨率图像经过下采样处理的张量进行拼接，并输入至生成器网络中进行处理，得到第二图像；将得到的第二图像输入至判别器网络中进行处理，生成高分辨率图像。

Description

基于谱归一化层级式生成对抗网络的文本生成图像方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及基于谱归一化层级式生成对抗网络的文本生成图像方法。

背景技术

近年来，深度学习技术在图像识别、分类以及图像去模糊等方面取得了突破性进展。文本生成图像是一项通过结合计算机视觉和自然语言的综合性交叉任务，是图像生成领域的重要分支，并且在很多方面都有着广泛的应用，如为文本配上对应的插图和辅助设计等。

文本生成图像是从一句描述性文本生成一张与文本内容相对应的图像，其最开始的主流方法是采用变分自动编码器(Variational Auto-Encoder,VAEs)和深度递归注意力作家(Deep Recurrent Attention Writer,DRAW)框架模型结构，在现有技术中提出的生成对抗网络(Generative Adversarial Networks,GANs)后，其简单有效的网络机制让文本生成图像这一任务有了更好的实现途径，各学者对于文本生产成本图像这一任务的研究取得一定的成就，其中一些文献中提出GAN-INT-CLS模型，首次使用具有判别意识的判别器以及使用流行插值的两种方案解决了生成图像多样化的问题以及提高了生成能力，但是无法合成高分辨率的图像；一些文献中提出了能更好地根据文本描述控制图像中物体具体位置的网络GAWWN。还有一些文献提出了一种层级式生成对抗网络(StackGAN)模型，把生成高质量图像的复杂问题分解成两个更好控制的子问题。在第一阶段利用文本描述粗略勾画物体的主要形状和颜色，生成64×64的低分辨率图像；在第二阶段，将第一阶段的结果和文本描述作为输入，生成256×256的高分辨率图像。然而，生成图像的过程还是存在训练不稳定、梯度消失等的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了基于谱归一化层级式生成对抗网络的文本生成图像方法。

为了实现以上目的，本发明采用以下技术方案：

基于谱归一化层级式生成对抗网络的文本生成图像方法，包括两个阶段：

第一阶段：将文本输入至生成对抗网络中，通过条件增强模型进行处理，将处理后的与文本相对应的文本特征向量与噪声向量进行拼接，并输入至生成器网络中进行处理，得到第一图像；将得到的第一图像输入至判别器网络中进行下采样处理，得到第一图像相对应的张量，将第一图像相对应的张量和文本特征向量进行拼接，生成低分辨率图像；

第二阶段：将第一阶段中的文本特征向量通过条件增强模型进行处理，得到处理后的文本特征向量；将第一阶段中生成的低分辨率图像经过下采样处理，得到低分辨率图像相对应的张量，将低分辨率图像相对应的张量与降维后的文本特征向量进行拼接，并输入至生成器网络中进行处理，得到第二图像；将得到的第二图像输入至判别器网络中进行处理，生成高分辨率图像。

进一步的，所述第一阶段和第二阶段中的判别器网络为加入谱归一化的判别器网络，具体为：

采用谱归一化约束判别器网络的Lipschitz常数，其中，谱归一化的Lipschitz常数，表示为：

其中，f(x)表示实数集上的函数；x与x′表示定义域内的两个不相等实数；M表示常数；

令

则

其中，σ(A)表示矩阵A的谱范数：

将判别器网络的每一层g，h作为输入，则g(h)＝Wh，表示为：

而在判别器网络f(x)＝W^L+1a_L(W^L(a_L-1(W^L-1(…a₁(W¹x)…))))中，基于‖g₁.g₂‖≤‖g₁‖_Lip·‖g₂‖_Lip得到：

其中，W表示判别器网络的参数矩阵；l表示网络层数。

将判别器的每层网络的Lipschitz常数限制为1，即‖g‖_Lip＝1，就需要σ(W)＝1，得到谱归一化的计算公式为：

其中，W_sn表示判别器网络各层的谱归一化值。

进一步的，所述第一阶段和第二阶段中的生成器网络为加入感知损失函数的生成器网络，具体为：

将感知损失函数加入生成器网络的判别损失中，其中感知损失函数表示为：

其中，L_per表示感知损失函数；

表示VGG-16网络第i层的激活函数；I表示真实图像，I′表示生成图像；C_i×H_i×W_i表示特征图的维度。

进一步的，所述第一阶段和第二阶段中通过条件增强模型进行处理是将输入的高维条件变量进行降维处理。

进一步的，所述第一阶段中将第一图像相对应的张量和文本特征向量进行拼接之后还包括经过三个平行的卷积层得到概率分布。

进一步的，所述生成对抗网络为条件生成对抗网络。

进一步的，所述条件生成对抗网络的损失函数表示为：

其中，D表示判别器；G表示生成器；D(x)、D(G(z))分别表示判别器判定图像真实度的分值；G(z)表示生成器输出的假图像；x表示真实数据集的图像；z表示随机噪声；y表示附加信息。

与现有技术相比，本发明在判别器网络中的每一层卷积层后都加一层谱归一化，将每层网络梯度限制在固定范围内，减缓判别器的收敛速度，为生成器提供更多有效信息，从而提高网络训练的稳定性和生成质量更好的图像。本发明还在生成器网络中结合了感知损失函数，联合原有的损失函数共同来优化生成图像，进一步提升生成图像的质量，使得图像更为自然、真实。

附图说明

图1是实施例一提供的判别器网络模型结构图；

图2是实施例二提供的第一阶段不同迭代次数下的图像对比示意图；

图3是实施例二提供的第二阶段生成图像的对比示意图；

图4是实施例二提供的生成器网络加入感知损失函数后生成图片的对比示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供的基于谱归一化层级式生成对抗网络的文本生成图像方法，包括两个阶段：

本实施例的文本生成图像方法所涉及的第一阶段和第二阶段均是基于生成对抗网络实现的，其中生成对抗网络的构建具体如下：

生成对抗网络的基本思想源自博弈论的零和游戏，是由一个生成器和一个判别器构成，采用对抗的方式进行学习，直到达到纳什平衡。

生成器G的输入是服从正态分布的随机噪声z，输出是假图像G(z)，目的是尽量去学习真实的数据分布；判别器D的输入是来自真实数据集的图像x和生成器输出的假图像G(z)，输出是判别器给这张图像真实度的分值D(x)与D(G(z))，取值在0到1之间，分值越高，说明这张图像越接近真实图像，其目的是尽量正确判别输入数据是来自真实数据还是来自生成器生成的数据。生成器G和判别器D交替训练，其损失函数是：

在公式(1)中：x是来自真实数据集P_x的真实图像，z是来自服从高斯分布P_z的噪声矢量。

由于生成对抗网络根据噪声z生成图像的方式过于自由，对于较复杂的数据，其变得不可控，得到的图像可能存在偏差较大的情况，因此提出条件生成式对抗网络(Conditional Generative Adversarial Network，简称cGAN)，通过在生成器和判别器中加入约束条件来解决该问题，为模型添加额外的辅助信息y，这一策略的作用是监督生成式对抗网络，其训练过程与生成式对抗网络(GAN)相同，此时条件生成式对抗网络的损失函数为：

与公式(1)的区别是在生成器和判别器的输入中都添加了额外的辅助信息y，使无监督生成变成了有监督生成，在保持多样性生成的同时也指定了相应的生成对象。本实施例的网络模型正是采用了条件生成对抗网络,并将文本内容采用文本描述向量化技术转化为向量以作为附加信息y。

在本实施例中，第一阶段和第二阶段中的判别器网络为加入谱归一化的判别器网络，具体为：

由于生成对抗网络会出现模式坍塌等问题,因此在其后续工作的研究中学者们也提出了诸多解决方法。归一化层的提出主要是为了克服深度神经网络难以训练的问题，将输入的数据映射到[0,1]之间，这样不仅使网络训练更加稳定，还可以提高训练中数据的精度。

本实施例提出的谱归一化通过严格约束判别器的每一层网络权重矩阵的谱范数进而达到约束判别器的Lipschitz常数，从而增强条件生成对抗网络在训练中的稳定性，相比于其他的归一化技术，谱归一化只需要调整Lipschitz常数。其中，谱归一化的Lipschitz常数，表示为：

令

则

其中，σ(A)表示矩阵A的谱范数：

将判别器网络的每一层g，h作为输入，则g(h)＝Wh，表示为：

其中，W表示判别器网络的参数矩阵；l表示网络层数。

其中，W_sn表示判别器网络各层的谱归一化值。

本实施例将谱归一化添加到了判别器网络中，在保证满足Lipschitz条件的同时，又不破坏判别器网络中的参数矩阵结构。

在本实施例中，第一阶段和第二阶段中的生成器网络为加入感知损失函数的生成器网络，具体为：

感知损失在计算机图像领域取得优异的成绩，它具有接近人眼视觉感知特性，可以使生成的图像更加符合真实、自然，并且增强了文本内容与生成图像的一致性。

本实施例采用的感知损失是先在VGG-16网络的ImageNet数据集上预训练好，其本质是提取真实图像I与生成图像I′相对应的语义特征。其中感知损失函数表示为：

其中，L_per表示感知损失函数；

生成器网络通过联合感知损失函数，进一步提升生成图像的质量和生成图像与文本语义的一致性，并使得图像更为自然、真实。

当构建好生成对抗网络后，为了进一步提高网络训练的稳定性，增强生成图像的质量，本实施例采用两个阶段来进行文本到图像的实现，但是在两阶段采用的生成对抗网络中均采用条件生成对抗网络，在两阶段中均在判别器网络的每一层中加入谱归一化，如图1所示。谱归一化将约束每层的Lipschitz常数为1，从而增强网络在训练中的稳定性。

第一阶段利用文本描述粗略勾画物体的主要形状和颜色，生成低分辨率图像。

如图1(a)为第一阶段，将文本作为网络的首层输入，通过条件增强模型将输入的高维条件变量降维，并对文本特征向量和噪声向量进行拼接，然后通过生成器生成64×64的图像；接着判别器将64×64的图像(生成或真实图像)经过下采样后，对得到的张量和文本特征向量进行拼接，经过三个平行的卷积层得到概率分布，判别输入图像的真假。

第二阶段将第一阶段的结果和文本描述作为输入生成高分辨率图像。

如图1(b)为第二阶段，将文本特征向量经过条件增强模型后生成的文本特征向量与第一阶段生成的64×64的图像经过下采样后得到的张量进行拼接，通过生成器生成256×256的图像，再次输给判别器网络，最后输出质量较好、内容相对应的256×256图像。

由于生成式对抗网络中生成器和判别器在交替训练时，判别器会很早达到一个区分真假的理想状态，而当判别器达到理想状态后无法给生成器提供任何的梯度信息去优化图像，导致网络出现模式坍塌以及不收敛等的问题。本文模型与StackGAN最大的不同点在于判别器的设置，在此判别器网络中的每一层卷积层后都加一层谱归一化，将每层网络梯度限制在固定范围内，减缓判别器的收敛速度，为生成器提供更多有效信息，从而提高网络训练的稳定性和生成质量更好的图像。本文还在生成器网络中结合了感知损失函数，联合原有的损失函数共同来优化生成图像，进一步提升生成图像的质量，使得图像更为自然、真实。

实施例二

本实施例提供的基于谱归一化层级式生成对抗网络的文本生成图像方法与实施例一的不同之处在于：

本实施例以具体实验进行分析。

由于测试集的图片数量较多且训练次数达到120次，因此本实施例选取具有代表性的训练次数作为展示。如图2为展示不同训练阶段中不同训练轮次的生成图像效果，并与文献“H.Zhang,T.Xu,H.Li,S.Zhang,X.Wang,X.Huang,and D.Metaxas.Stackgan:Text tophoto-realistic image synthesis with stacked generative adversarialnetworks.In ICCV,2017.”的StackGAN模型做了对比。

如图2所示为第一阶段不同迭代次数下的图像对比，第一排是文献生成的图像，第二排是本实施例模型生成的图像。

图2所示的第一阶段不同迭代次数下的图像对比图中可以很清楚的观察到，在阶段一中，文献在迭代60次左右的时候就已经达到生成能力较好的状态，也就是此时判别器达到区分真假图像的完美能力，不在继续给生成器反馈信息。而本实施例模型在判别器网络中加入谱归一化后，减缓判别器的收敛速度，让判别器持续给生成器反馈信息，不断优化生成器网络，最后使得生成器生成的图像更加清晰。

如图3所示为第二阶段中文献的和本实施例模型生成图像的对比，第一排是文献生成的图像，第二排是本文模型生成的图像。

图3是第二阶段文献和本实施例模型生成图像的对比图，由于本实施例模型中减缓了判别器的收敛速度，所以在训练过程中不仅训练稳定也让生成器接受到更多信息，生成出更加具有多样性的图像。

如下表1为不同模型与数据集的Inception scores值对比：

模型	Oxford-102数据集Is值	coco数据集
			文献模型	2.27±0.02	2.32±0.02
本实施例模型	2.48±0.02	2.51±0.02

表1

表1是本实施例模型与文献模型的Inception scores值的对比值。由于本实施例模型的实验设备有限，因此与文献得到的数值有差距，但是在此数值之上，本实施例所提出的模型对于生成效果有较明显的提升。

如图4为生成器网络加入感知损失函数后生成图片的对比。

图4是当生成器网络的损失函数加入感知损失函数后的生成图对比，可以很明显的从图中观察到图像内容表现的更好：颜色鲜明，生成内容明确。生成图像与之前相比更加真实与自然。

针对文本生成图像任务，提出一种结合谱归一化的文本到图像生成对抗网络模型，沿用层级式生成对抗网络的思想，在其基础上将谱归一化运用到判别器中，将每层网络梯度限制在固定范围内，减缓判别器的收敛速度，从而提高网络训练的稳定性。为了验证本实施例模型的有效性，本文在Oxford-102与coco数据集上进行实验，并对结果采用评价指标Inception Score与StackGAN模型做了对比。无论是在个人主观观察还是客观评价指标对比上，本实施例所提的模型都取得了一定的进步。除此之外，针对较复杂的数据集，将空间注意力与模型网络架构结合起来提高生成图像效果是未来研究的重点方向。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。