CN111968193A

CN111968193A - 一种基于StackGAN网络的文本生成图像方法

Info

Publication number: CN111968193A
Application number: CN202010735650.6A
Authority: CN
Inventors: 李云红; 朱绵云; 聂梦轩; 穆兴; 贾凯莉; 姚兰; 罗雪敏
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-20
Anticipated expiration: 2040-07-28
Also published as: CN111968193B

Abstract

本发明公开了一种基于StackGAN网络的文本生成图像方法，具体为：收集整理文本图像数据集并分成训练集和测试集；构建StackGAN网络文本生成图像模型，分两个阶段进行训练，每个阶段由生成器和判别器构成；将训练集图像对应的文本描述与随机噪声向量输入到模型的第一阶段进行训练，生成64×64的低分辨率图像，再进行预处理；最后，将图像再结合训练集图像文本描述输入到模型的第二阶段，结合图像的类别与重构信息进行训练，最终输出256×256高分辨率图像。采用分段式训练模型，有利于对图像的轮廓信息、图像的类别及特征与像素信息进行定位，保证生成图像的边缘清晰，生成的图像像素更好，细节和纹理更加细腻真实。

Description

一种基于StackGAN网络的文本生成图像方法

技术领域

本发明属于计算机视觉与自然语言处理技术领域，具体涉及一种基于StackGAN网络的文本生成图像方法。

背景技术

随着互联网技术的迅猛发展，数以万计的图像信息丰富了人们的生活。与此同时，人们对图像信息的要求也越来越高，含有特定意义的图像还是不能满足人们的需求，为了让计算机能根据人们的需求自动生成有意义的图像，文本生成图像任务应运而生。

文本生成图像是结合计算机视觉与自然语言处理两个领域的综合性任务，近年来，由于深度学习等技术的迅速发展，在计算机视觉、自然语言处理等方面取得了长足的进步，2014年6月，生成式对抗网络的诞生为文本生成图像任务提供了可能。2016年Reed等人第一次将生成式对抗网络用于文本生成图像，使得文本生成图像任务有了突破性进展，其在游戏动漫设计、刑侦破案、绘图插画、广告设计、数据增强等领域具有广泛的应用前景。

目前，文本生成图像方法基本都是基于对抗网络训练的，传统的文本生成图像网络模型有GAWWN模型、GAN-INT-CLS模型等。现有的比较有影响力的模型有StackGAN模型、StackGAN++模型、AttnGAN模型。传统的GAWWN模型使用关键点和边界来标记对象的位置信息，从而实现了可以在图像的相应位置绘制相应的内容。GAN-INT-CLS模型经在数据集上实验可生成64×64像素的图像。针对传统模型生成图像质量不高的问题，随后提出了StackGAN网络模型，该模型将两个生成对抗网络叠加起来，第一个生成对抗网络生成相对粗糙的64×64的图像，第二个生成对抗网络能够修正之前生成的图像并添加细节，最终生成256×256像素的高分辨率图像。随后，作为对StackGAN网络的改进，在堆栈生成对抗网络的基础上提出了一种树状生成对抗网络结构StackGAN++网络模型，该网络模型是将三个生成对抗网络堆叠起来，三个生成对抗网络分别先后生成64×64、128×128、256×256像素的图像，使生成图像的综合效果得到改善。AttnGAN模型中可以选择单词级别的信息，通过将图像生成分为多个阶段并为每个阶段添加注意力机制，迭代地生成图像的细节。

以上方法虽然都在一定程度上改善了生成图像的质量，但是在生成图像的轮廓，细节纹理等方面还是存在不足，生成的图像存在边缘轮廓模糊，细节纹理不清晰等问题。

发明内容

本发明的目的是提供一种基于StackGAN网络的文本生成图像方法，解决了现有技术中存在的生成的图像边缘轮廓模糊、细节纹理不清晰的问题。

本发明所采用的技术方案是，一种基于StackGAN网络的文本生成图像方法，具体按照以下步骤实施：

步骤1，收集整理文本图像数据集；

步骤2，将收集好的文本图像数据集分成训练集和测试集；

步骤3，构建StackGAN网络文本生成图像模型，该网络模型分为两个阶段进行训练，分别为低分辨率图像生成阶段和高分辨率图像生成阶段；低分辨率图像生成阶段包括一个生成器和一个判别器，高分辨率图像生成阶段包括一个生成器和两个判别器；

步骤4，将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入，输出64×64低分辨率图像，然后送入到第一阶段的判别器中进行判别；

步骤5，将步骤4得到的64×64低分辨率图像进行预处理；

步骤6，将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN网络模型的第二阶段即高分辨率图像生成阶段生成器的输入，然后再结合图像的类别与重构信息，在第二阶段模型中进行训练，输出256×256高分辨率图像，然后送入到第二阶段的判别器中进行判别。

本发明的特点还在于，

步骤4中，具体过程如下：

步骤4.1，将训练集图像文本描述使用文本编码器进行编码，将文本描述表示为特征向量；

步骤4.2，采用条件增强模型产生一个附加条件变量c；具体是将文本特征向量

通过全连接层得到均值向量

和协方差矩阵

然后从单位高斯分布N(0,1)中随机采样ε，得到最终条件变量c的表达式，如式(1)所示：

其中，c表示条件变量，

表示文本特征向量，

表示均值向量，

表示协方差矩阵，⊙表示矩阵元素对应相乘；

步骤4.3，将步骤4.2得到的条件变量c与随机噪声向量z进行拼接，作为第一阶段生成器的输入，然后通过全连接及上采样操作生成64×64像素的图像；训练中第一阶段生成器的损失函数如式(2)所示；

式中，G1和D1分别为第一阶段的生成器和判别器，L_G1表示第一阶段生成器的损失函数，E表示期望，z表示随机噪声向量，t表示文本描述，p_z表示随机噪声分布，p_data表示真实数据分布，L_kL表示正则化函数，λ是正则化参数，设置为1；

步骤4.4，将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量

输入到第一阶段的判别器中进行判别，如果判别器输出为1，则表示判别器输入的是和文本匹配的真实图像；如果判别器输出为0，则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像；第一阶段判别器的损失函数，如式(4)所示；

式中，L_D1表示第一阶段判别器的损失函数，I₁表示第一阶段64×64真实图像。

步骤4.3中，正则化函数，如式(3)所示；

式中，L_kL表示正则化函数，D_kL表示标准高斯分布和条件高斯分布之间的KL散度，

表示独立高斯分布，N(0,1)表示标准正态分布。

步骤5中，预处理过程包括图像灰度化、边缘检测及边缘锐化，首先对图像进行灰度化处理，其次对灰度化图像进行边缘检测，最后对得到的边缘检测图像进行边缘锐化。

步骤6中，具体过程如下：

步骤6.1，将第一阶段生成的64×64图像经过步骤5预处理后最终得到的图像与训练集图像文本描述一起输入到第二阶段的生成器中，生成器通过一系列卷积下采样操作后与文本特征向量进行拼接；

第二阶段生成器的损失函数如式(5)所示；

式中，L_g2表示第二阶段生成器的损失函数，E表示期望，s₁表示第一阶段生成图像的预处理结果，P_G1表示第一阶段生成图像结果分布，Ds为第二阶段的真假判别器，G2为第二阶段的生成器，λ₀是一个平衡的正则化参数，设置为1；

步骤6.2，在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练，生成像素更好的256×256高分辨率图像；

第二阶段生成器图像的分类损失函数与C_r做交叉熵如式(6)所示；

式中，L_Gc表示第二阶段生成器的分类损失函数，H表示交叉熵函数，D_c表示类别判别器，I_f表示虚假图像，C_r表示正确图像类别；

第二阶段生成器图像特征重构误差函数如式(7)所示；

式中，L_feature表示图像特征重构误差函数，F_D为神经网络非线性函数，I_r表示真实图像；

第二阶段生成器图像像素重构误差函数如式(8)所示；

式中，L_image表示图像像素重构误差函数；

第二阶段生成器的最终损失函数如式(9)所示；

L_G2＝L_g2+L_Gc+λ₁L_feature+λ₂L_image (9)；

式中，L_G2表示第二阶段生成器的最终损失函数，λ₁和λ₂为超参数，设置为1；

步骤6.3，将第二阶段最终生成的256×256图像结合256×256真实图像和文本特征向量

放入第二阶段的判别器中进行判别，第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配，第二个判别器判断输入图像所属类别；

当第一个判别器输入和文本匹配的真实图像I_r和文本特征向量

时，与1作交叉熵；当第一个判别器输入生成的虚假图像I_f和文本特征向量

时，则与0作交叉熵；当第一个判别器输入和文本不匹配的错误图像I_w和文本特征向量

时，与0作交叉熵；

第二阶段第一个判别器的损失函数如式(10)所示；

式中，L_Ds表示第二阶段第一个判别器的损失函数，Ds表示真假判别器；

第二个判别器判断输入图像的类别，当第二个判别器输入和文本匹配的真实图像I_r和文本特征向量

时，正确图像类别为C_r，与C_r做交叉熵；当第二个判别器输入生成的虚假图像I_f和文本特征向量

时，虚假图像的类别标签也为C_r，则与C_r作交叉熵；当第二个判别器输入和文本不匹配的错误图像I_w和文本特征向量

时，错误图像的类别标签为C_w，则与C_w作交叉熵；

第二阶段第二个判别器的损失函数如式(11)所示；

式中，L_Dc表示第二阶段第二个判别器的分类损失函数，D_c表示类别判别器；

第二阶段判别器最终损失函数如式(12)所示；

L_D2＝L_Ds+L_Dc (12)；

式中，L_D2表示第二阶段判别器的最终损失函数，L_Ds为第二阶段第一个判别器判断真假的损失函数，L_Dc为第二阶段第二个判别器的分类损失函数。

本发明的有益效果是：

(1)本发明一种基于StackGAN网络的文本生成图像方法，采用分段式训练模型，分别对低分辨率图像和高分辨率图像的生成进行训练，有利于提高生成图像的质量；

(2)本发明一种基于StackGAN网络的文本生成图像方法，该方法将模型第一阶段生成的64×64低分辨率的图像进行预处理(图像灰度化、边缘检测、边缘锐化)后，再结合训练集图像文本描述作为模型第二阶段生成器的输入，有利于对图像的轮廓信息进行定位，保证生成图像的边缘清晰不模糊；

(3)本发明一种基于StackGAN网络的文本生成图像方法，该方法在模型第二阶段的生成器中加入了图像的类别信息、特征重构损失及像素重构损失，有利于对图像的类别及特征与像素信息进行定位，使生成模型更加接近真实样本，生成的图像像素更好，细节和纹理更加细腻真实；

(4)本发明一种基于StackGAN网络的文本生成图像方法，该方法在每个阶段的生成器损失中都加入了正则化项，防止文本生成图像模型训练时过拟合，提升模型训练的稳定性。

附图说明

图1是本发明一种基于StackGAN网络的文本生成图像方法的整体流程示意图；

图2是本发明一种基于StackGAN网络的文本生成图像方法的举例效果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于StackGAN网络的文本生成图像方法，如图1所示，具体按照以下步骤实施：

步骤1，收集整理文本图像数据集；

步骤2，将收集好的文本图像数据集分成训练集和测试集；

步骤3，构建StackGAN网络文本生成图像模型，该网络模型分为两个阶段进行训练，分别为低分辨率图像生成阶段和高分辨率图像生成阶段。低分辨率图像生成阶段包括一个生成器和一个判别器，高分辨率图像生成阶段包括一个生成器和两个判别器；

步骤4，将训练集图像对应的文本描述与随机噪声向量作为StackGAN模型第一阶段即低分辨率图像生成阶段的输入，输出64×64低分辨率图像，然后送入到第一阶段的判别器中进行判别；具体过程如下：

步骤4.2，采用条件增强模型产生一个附加条件变量c，避免由高维向量导致潜在数据流不连续，不利于生成模型学习的问题；具体是将文本特征向量

通过全连接层得到均值向量

和协方差矩阵

其中，c表示条件变量，

表示文本特征向量，

表示均值向量，

表示协方差矩阵，⊙表示矩阵元素对应相乘；

式中，G1和D1分别为第一阶段的生成器和判别器，L_G1表示第一阶段生成器的损失函数，E表示期望，z表示随机噪声向量，t表示文本描述，p_z表示随机噪声分布，p_data表示真实数据分布，log为对数函数，c表示条件变量，

表示文本特征向量，L_kL表示正则化函数，λ是一个平衡的正则化参数，设置为1；

为避免模型训练过拟合，在生成器的损失函数中加入正则化函数，如式(3)所示；

表示独立高斯分布，

表示均值向量，

表示协方差矩阵，N(0,1)表示标准正态分布；

式中，G1和D1分别为第一阶段的生成器和判别器，L_D1表示第一阶段判别器的损失函数，E表示期望，I₁表示第一阶段64×64真实图像，t表示文本描述，z表示随机噪声向量，p_data表示真实数据分布，p_z表示随机噪声分布，log为对数函数，c表示条件变量，

表示文本特征向量；

步骤5，将步骤4得到的64×64低分辨率图像进行预处理，包括图像灰度化、边缘检测及边缘锐化，首先对图像进行灰度化处理，其次对灰度化图像进行边缘检测，最后对得到的边缘检测图像进行边缘锐化，使边缘轮廓更加清晰；

步骤6，将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN模型的第二阶段即高分辨率图像生成阶段生成器的输入，然后再结合图像的类别与重构信息(特征重构信息与像素重构信息)在第二阶段模型中进行训练，输出256×256高分辨率图像，然后送入到第二阶段的判别器中进行判别；具体过程如下：

步骤6.1，将第一阶段生成的64×64图像经过步骤5预处理后最终得到的边缘锐化图像与训练集图像文本描述一起输入到第二阶段的生成器中，生成器通过一系列卷积下采样操作后与文本特征向量进行拼接；

在第二阶段生成器训练过程中，生成器的部分损失由判别器传递回来，判别器要判断输入图像的真假，生成器则要尽可能地使判别器认为生成的图像是真实图像，因此第二阶段生成器的损失函数如式(5)所示；

式中，L_g2表示第二阶段生成器的损失函数，E表示期望，s₁表示第一阶段生成图像的预处理结果，P_G1表示第一阶段生成图像结果分布，t表示文本描述，p_data表示真实数据分布，Ds为第二阶段的真假判别器，G2为第二阶段的生成器，c为条件变量，L_kL表示正则化函数，λ₀是一个平衡的正则化参数，设置为1；

步骤6.2，在步骤6.1的生成器中再加入图像的分类损失函数、特征重构误差函数及像素重构误差函数辅助训练，目的是使生成图像细节更加细腻真实，生成像素更好的256×256高分辨率图像；

式中，L_Gc表示第二阶段生成器的分类损失函数，H表示交叉熵函数，D_c表示类别判别器，I_f表示虚假图像，

表示文本特征向量，C_r表示正确图像类别；

第二阶段生成器图像特征重构误差函数如式(7)所示；

式中，L_feature表示图像特征重构误差函数，F_D为神经网络非线性函数，I_f表示虚假图像，

为文本特征向量，I_r表示真实图像；

第二阶段生成器图像像素重构误差函数如式(8)所示；

式中，L_image表示图像像素重构误差函数，I_f表示虚假图像，I_r表示真实图像；

综上所述，第二阶段生成器的最终损失函数如式(9)所示；

L_G2＝L_g2+L_Gc+λ₁L_feature+λ₂L_image (9)；

式中，L_G2表示第二阶段生成器的最终损失函数，L_g2表示第二阶段生成器最初的损失函数，L_Gc表示第二阶段生成器的分类损失函数，L_feature表示图像特征重构误差函数，L_image表示图像像素重构误差函数，λ₁和λ₂为超参数，一般设置它们为1；

放入第二阶段的判别器中进行判别，在第二阶段的末尾有两个判别器，第一个判别器判断输入的图像是真实图像还是生成器生成的虚假图像以及与文本是否匹配，第二个判别器判断输入图像所属类别；

时，与0作交叉熵；

因此，第二阶段第一个判别器的损失函数如式(10)所示；

式中，L_Ds表示第二阶段第一个判别器的损失函数，H表示交叉熵函数，Ds表示真假判别器；

时，错误图像的类别标签为C_w，则与C_w作交叉熵；

因此，第二阶段第二个判别器的损失函数如式(11)所示；

式中，L_Dc表示第二阶段第二个判别器的分类损失函数，H表示交叉熵函数，D_c表示类别判别器；

综上所述，第二阶段判别器最终损失函数如式(12)所示；

L_D2＝L_Ds+L_Dc (12)；

图2为本发明举例效果示意图，数据集为鸟类数据集，通过输入一段关于鸟的文本描述然后结合随机噪声向量z输入到模型的第一阶段中进行训练产生64×64像素的鸟的图片，然后对产生的64×64像素的鸟的图片进行预处理得到最终边缘锐化的图像再结合文本特征向量与鸟的类别与特征信息输入到模型的第二阶段中进行训练，最终生成256×256高像素的鸟的图片。