CN116309913A

CN116309913A - 一种基于生成对抗网络asg-gan文本描述生成图像方法

Info

Publication number: CN116309913A
Application number: CN202310259864.4A
Authority: CN
Inventors: 钟玲; 王博文; 刘欣悦; 蒋贤钊; 郭泽宇; 林诗博
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-23
Anticipated expiration: 2043-03-16
Also published as: CN116309913B

Abstract

本发明公开了一种基于生成对抗网络ASG‑GAN(Advanced Scene Graph‑GAN)的文本描述生成图像方法，包括：将原始文本输入到训练好的ASG‑GAN模型中，得到最终高分辨率图像；该模型通过堆叠式的生成对抗网络，将第一层网络的输出图像通过下采样取得输出图像特征，同时将原始描述文本通过文本编码器转换为文本嵌入向量，通过条件增强技术解决长文本嵌入向量条件流性不连续的问题，最终将第一层网络生成的图像与条件文本向量连接，通过残差网络学习文本与图像的多峰向量特征，实现第二层输出图像的分辨率提升，同时通过对图像原始文本的重复学习，提取原始文本的隐含信息，提升图像的整体细节及图像生成质量。

Description

一种基于生成对抗网络ASG-GAN文本描述生成图像方法

技术领域

本发明属于文本描述生成图像技术领域，特别是涉及一种基于生成对抗网络ASG-GAN文本描述生成图像方法。

背景技术

图像信息相比单纯的文字信息更直观更易让人理解，这导致在如今获取信息的方式与信息量日益增多的背景下，人们选择性地忽略文字内容，而更愿意去接受图像所表达的信息，因此图像在当前信息传递中扮演一个至关重要的角色。但是就目前而言，图片大部分是由拍摄或绘制完成的，这种方式，效率低且制作成本高。如果能够让计算机通过文本描述来自动生成与文本的语义信息匹配的图像，这样不仅能减少文字创作者的配图成本，同时还可以提高图像创作者的创作效率。因此，计算机自动识别文本中的语义信息并生成一张与文本语义相符合的图像成为了当今机器学习的研究课题之一。

2014年，LanGoodfellow首次提出生成式对抗网络作为深度学习的重要研究方法赢得了广泛关注。GAN通过生成器和鉴别器两个深度神经网络互相博弈，在输入随机取样的前提下，输出与真实样本近似的数据。GAN是一种无监督式建模方法，可以避免早期手动特征提取的繁琐操作，采用深度神经网络自动学习特征，不需要人工干预。GAN的生成器在训练良好的情况下可以生成与真实样本几乎相同的数据分布。通过生成式对抗网络，可以实现图像风格迁移、创建动画角色、生成超分辨率图像、人脸合成、高分辨率图像合成等应用。GAN在解决多模态问题上表现了出不错的成果，因此结合GAN实现文本生成图像是目前阶段兼具可行性与研究价值的方案。

文本描述生成图像是深度学习领域中难度较高的分支之一，可用于插画配图、人物建模、以及通过场景还原辅助公安侦破案件等多个领域，具有较强的应用价值。随着深度学习以及生成对抗网络的快速发展，出现了很多解决方案对生成图像的质量进行提升，但由于任务的复杂性，生成图像的质量还有较大的提升空间，图像的真实性及分辨率都有进一步提高的可能性，文本描述生成图像课题研究具有很强的可行性及现实意义。

发明内容

本发明的目的是提供一种基于生成对抗网络ASG-GAN文本描述生成图像方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于生成对抗网络ASG-GAN文本描述生成图像方法，包括：

将原始文本输入到训练好的ASG-GAN模型中，得到最终高分辨率图像；

所述ASG-GAN模型是将两个生成对抗网络模型即第一层生成对抗网络模型和第二层生成对抗网络模型合并形成一个高分辨率图像生成网络模型即ASG-GAN模型；所述第一层生成对抗网络模型和所述第二层生成对抗网络模型均基于GAN模型构建；所述第一层生成对抗网络模型用于构建图像轮廓、填充基本颜色，生成低分辨率图像；所述第二层生成对抗网络模型用于利用所述低分辨率图像和所述原始文本，挖掘所述文本的隐含特征，为图像添加细节、弥补缺陷、丰富色彩，最终生成高分辨率图像。

可选的，所述第一层生成对抗网络模型包括场景图分析组件，将GAN模型的输入条件由场景图转变为所述原始文本。

可选的，所述场景图分析组件为Scene Graph Parser

可选的，所述第一层生成对抗网络模型的鉴别器由一对鉴别器网络D_img及D_obj组成；鉴别器表示为：

L_GAN＝E_x～preal log D(x)+E_x～pfake log(1-D(x))

其中，X～P_real是真实的图像，X～P_fake是来自生成器网络的输出，D通过最大化目标对输入X进行归类，生成器通过最小化L对鉴别器进行欺骗。

可选的，所述第二层生成对抗网络模型的生成网络为深层残差卷积神经网络；

可选的，所述第二层生成对抗网络模型的生成器损失函数表示为：

其中，

为标准高斯分布与条件高斯分布之间的KL距离，/>

为条件增强技术来产生的条件变量，s₀为第一层网络的输出，φ_t为文本通过编码器转换得到的嵌入向量。

可选的，所述第二层生成对抗网络模型的鉴别网络为深度卷积神经网络，所述鉴别网络包含额外的下采样层，用来处理更大的图像；

可选的，所述第二层生成对抗网络模型的鉴别器的损失函数表示为：

其中，

为条件增强技术来产生的条件变量，s₀为第一层网络的输出，φ_t为文本通过编码器，I为真实图像。

可选的，所述ASG-GAN模型的训练过程为：

1)获取训练图像及对应的描述文本，将对应的图像描述文本传递至场景图分析组件，形成与图像对应的场景图；

2)固定所述第二层生成对抗网络，对所述第一层生成对抗网络进行训练，即将步骤1)所述场景图输入到生成器中，输出生成的伪图像；

3)计算损失函数值，即将步骤2)生成的所述伪图像、步骤1)所述的训练图像一同输入到鉴别器中进行鉴别，得到相应的损失函数值；

4)更新生成器和鉴别器的网络，即依据所述损失函数值对生成器和鉴别器进行反向传播，更新生成器和鉴别器的网络参数；

5)重复步骤2)、3)和4)直至第一层生成对抗网络模型收敛，完成对第一层生成对抗网络模型的训练。

6)固定第一层生成对抗网络模型，重复步骤2)、3)和4)直至第二层生成对抗网络模型收敛，完成对第二生成对抗网络模型的训练，最终完成所述ASG-GAN模型的训练。

本发明的技术效果为：

通过提出的ASG-GAN模型针对原有模型生成图像分辨率较低、图像质量较差，对多物体场景适应性低的问题进行改进。该模型通过堆叠式的生成对抗网络，将第一层网络的输出图像通过下采样取得输出图像特征。

同时将图像的原始描述文本通过文本编码器转换为文本嵌入向量。通过条件增强技术解决长文本嵌入向量条件流性不连续的问题。最终将图像与条件文本向量连接，通过残差网络学习文本与图像的多峰向量特征。进而实现第二层输出图像的分辨率提升。同时通过对图像原始文本的重复学习，提取原始文本中隐含的图像信息。对场景图单一的对象与对象间结构化的图像信息学习作以补充，从而提升图像的整体细节及图像生成质量。实验表明相比于SG-GAN，ASG-GAN生成的图像在分辨率上更高，图像细节更为丰富，InceptionScore有所提升。相比于StackGAN，ASG-GAN在多物体场景下生成的图像与描述文本的语义更相符。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的基于原始文本生成图像方法的整体流程图；

图2为本发明实施例中的ASG-GAN模型的运行流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明方案整体思路为：基于生成对抗网络的ASG-GAN文本描述生成图像方法，该方法包括

1)设计ASG-GAN的第一层生成对抗网络模型；

2)设计ASG-GAN的第二层生成对抗网络模型；

3)完成对ASG-GAN模型的训练；

4)实现文本描述生成图像分辨率、质量提升及模型广适性增强。

使用多层级网络堆叠方式来改进生成对抗网络，将两个生成对抗网络合并形成一个高分辨率图像生成网络，对两层生成对抗网络作功能划分。

第一层网络负责图像轮廓构建、基本颜色填充，负责生成低分辨率图像，第一层网络以文字描述对应的场景图为输入条件，阶段生成图像分辨率为64*64。

第二层网络将获取第一层网络的输出图像及图像对应原始文本，挖掘文本隐含特征，生成高分辨率图像，为图像整体添加细节，弥补生成缺陷，并丰富图像色彩，最终生成图像分辨率为256*256。

本发明提供如下操作步骤：使用预设参数训练ASG-GAN模型，输入文本描述内容，获得与文本描述相符的256*256分辨率的高质量图像。

实施例一

如图1-2所示，本实施例中提供一种基于生成对抗网络ASG-GAN文本描述生成图像方法，包括：

1)设计ASG-GAN的第一层生成对抗网络模型

首先，引入一种描述文本解析方式，通过Scene Graph Parser将原文本解析为与文本对应的场景图，场景图是一种图像或文本中实体及实体间关系的向量表示。通过这种方式改变原有模型的输入条件，无需通过直接输入场景图生成相应图像，可直接输入自然语言生成对应图像，通过此种方式增强模型的普遍适用性。

Scene Graph Parser通过文本解析将文本转换为实体以及关系。实体列表包含实体头、拓展以及修饰词。关系列表将实体头与实体头之间的关系，通过点对点的方式展示出来。经过场景解析器转换后，将文本从原有的描述特性转移为突出语句实体与实体之间的关系。

通过这种方式改变原有模型的输入条件。无需绘制场景图，可直接输入自然语言生成对应图像，通过此种方式增强模型的普遍适用性。

通过Scene Graph Parse解析的场景图用以描述对象以及对象之间的关系，每个场景图是一个元组(O,E)，设定对象类别为C，关系类别为R，则O＝{o₁,...,o_n}，o_i∈C。

是一组(o_i,r,o_j)形式的有向边，其中o_i,o_j∈O，r∈R。

以端到端的方式处理场景图，将每个节点以及与节点连接的边作为单张图D_in输入，通过图卷积网络计算输出图D_out，输出向量是单个节点对应输入的局部邻域的函数特征，因此每个图的卷积层沿着图的边传播信息。图卷积层将单个函数应用于所有边，并允许单个层对任意形状图形进行操作，从而形成完整的对象嵌入向量。

为了生成一个图像，需要将中间结果从图域转换至图像域，因此需要通过对象嵌入向量转换一个二维结构作为图像的框架。在这里使用对象布局网络预测每个对象的分割掩码和边界框来最终计算图像的场景布局。

对象布局网络接收到一个形状为D的物体O_i的对象嵌入向量v_i，将其传递至掩膜回归网络预测一个形状为D×M×M形状的二进制掩膜m_i。

并同时将对象嵌入向量v_i传递至一个边界框预测网络，来预测一个边界框b_i＝(x0,y0,x1,y1),将嵌入向量v_i与掩模m_i相乘，得到形状D×M×M的掩模嵌入，然后使用双线性插值将其弯曲到边界框的位置，给出对象布局。最终汇集所有对象布局生成最终的场景布局。

为了生成一个与场景布局相对应的输出图像，需要通过一系列细化卷积模块建立级联细化网络，倍增模块间的空间分辨率，从而使图像生成以一个从粗略到精细的方向运行。前一模块以下采样至输入分辨率的场景布局及前一模块的输出作为输入，将输入通过信道连接最终传递至一个3×3的卷积层，再传递至下一个模块之前通过邻近插值对输出进行上采样，从而符合下一模块的输入分辨率，第一模块的取高斯噪声Z～P_Z作为输入，最后一模块的输出被传递至最终的双卷积层从而输出最终图像。

第一层对抗生成网络的鉴别器由一对鉴别器网络D_img及D_obj组成，D_img鉴别器负责图像整体的鉴别任务，D_obj网络鉴别器负责图像中包含的单个实体的鉴别任务。鉴别器网络表示为：

L_GAN＝E _x～preal log D(x)+E _x～pfake log(1-D(x))

鉴别器D通过最大化目标对输入X进行归类，其中X～P_fake是来自生成器网络的输出，生成器网络通过最小化L来欺骗鉴别器。图像鉴别器D_img用以确保图像的整体真实度，而对象鉴别器D_obj用以保证图像中各个对象的真实程度。图像鉴别器D_img将规则间隔的重叠图像块划分为真或假，并实现单个完整的卷积网络，D_obj的输入为一个对象的全部像素，通过双线性插值，将像素裁剪或缩放至固定尺寸。

2)设计ASG-GAN的第二层生成对抗网络模型；

第二层网络模型的生成网络是深层残差卷积神经网络。是为了提升原有方法的图像分辨率及丰富图像细节提升图像质量，设计并增加的堆叠式对抗生成网络结构。

第一层网络模型的输出图像通过下采样层生成相对应的图像特征。接着将图像原始描述文本通过预先训练的文本编码器转换为文本嵌入向量φ_t。在这里引入条件增强技术，改变原有的非线性转换，从一个独立的高斯分布中随机采样潜在变量，该高斯分部的表示为：

N(μ(φ_t),Σ(φ_t))

其中对角斜方差矩阵Σ(φ_t)，和均值(μ(φ_t)为文本嵌入向量φ_t的函数，此种方式激励了模型小扰动条件流型的鲁棒性，使模型可实现在少量的文本、图像参数训练中得到更多的训练对，便于模型更充分的利用原始描述文本中隐含的文本特征信息。

将图像特征和图像描述文本通过文本编码器转换得到的文本嵌入向量连接在一起，用以深入理解文本的隐含特征。将连接后得到的张量送入残差块，残差块用以深入理解文本和图像的多峰特征。最后一个操作的输出被输入到一个上采样层种，生成尺寸为256x256x3的高分辨率图像。

生成器损失函数表示为:

鉴别网络是一个深度卷积神经网络，鉴别器网络包含额外的下采样层，用以处理更大的图像。鉴别器是一个可识别条件文字与图像是否匹配的鉴别器。在训练期间，鉴别器将真实图像及其对应的文本描述作为正样本对，而负样本对则由两组组成。第一组是具有不匹配文本嵌入的真实图像，而第二组是具有相应文本嵌入的合成图像。

鉴别器损失函数表示为：

3)完成对ASG-GAN模型的训练；

步骤一：获取训练图像及对应的描述文本；

将对应的图像描述文本传递至场景图分析组件，形成与图像对应的场景图

步骤二：固定第二阶段生成对抗网络，对一阶段网络进行训练；

将场景图输入进入到生成器中，输出生成的伪图像；

步骤三：计算损失函数值；

将生成图像、真实图像一同输入到鉴别器中进行鉴别，得到相应的损失函数值。

步骤四：更新生成器和鉴别器的网络；

依据损失函数值对生成器和鉴别器进行反向传播，更新生成器和鉴别器的网络参数；

步骤五：重复步骤二、三和四直至第一阶段模型收敛，完成对第一阶段模型的训练。

步骤六：固定一阶段网络，重复步骤二、三和四直至第二阶段模型收敛，完成对第二阶段模型的训练，最终完成ASG-GAN模型的训练。

使用多层级网络堆叠方式来改进生成对抗网络，将两个生成对抗网络合并形成一个高分辨率图像生成网络。

通过堆叠式的生成对抗网络，在第一层网络中改进原有方法的输入模式，通过场景图分析器的引入，将场景图转换为模型的中间产物，增强模型的普遍适用性。设计并增加第二层堆叠式对抗生成网络，将第一层网络的输出图像通过下采样取得输出图像特征。通过条件增强技术解决长文本嵌入向量条件流性不连续的问题。最终将图像与条件文本向量连接，通过残差网络学习文本与图像的多峰向量特征。进而实现第二层输出图像的分辨率提升。

通过对图像原始文本的重复学习，提取原始文本中隐含的图像信息。对场景图单一的对象与对象间结构化的图像信息学习作以补充，从而提升图像的整体细节及图像生成质量。

实验表明相比于SG-GAN，ASG-GAN生成的图像在分辨率上更高，图像细节更为丰富，Inception Score有所提升。相比于StackGAN，ASG-GAN在多物体场景下生成的图像与描述文本的语义更相符。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。