CN115862039A

CN115862039A - 基于多尺度特征的文本生成图像算法

Info

Publication number: CN115862039A
Application number: CN202211559529.8A
Authority: CN
Inventors: 廖涌卉; 姜文涛; 张海涛
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-28

Abstract

本发明公开了一种基于多尺度特征的文本生成图像算法，该方法包括：采用双向长短期记忆网络学习给定文本的语义表示，产生两个输出：表示文本全局语义的句子特征、表示每个单词语义的词向量特征；网络的最后一个平均池化层实现的，在模型中添加一个感知器网络将图像特征转化为与文本特征相同维度的特征；采用注意力矩阵形成的多模态上下文向量和上阶段输出的隐向量作为输入；通过不同的扩张率进行空洞卷积实现并行采样，不同扩张率提取的特征在单独的分支中处理，融合生成最终结果。本发明通过在上采样结构之前引入空洞空间金字塔结构来融合多尺度信息，保留更多的图像特征，实现高级特征语义信息的挖掘，有利于提高生成图片的质量。

Description

基于多尺度特征的文本生成图像算法

技术领域

本发明属于图像处理的技术领域，尤其涉及一种基于多尺度特征的文本生成图像算法。

背景技术

近年来，随着深度模型的广泛兴起，图像生成任务已经取得了一定的进展。自生成对抗网络(generative adversar ia l networks，GANs)，大量的研究开始将GAN应用到文本到图像生成的任务中。Reed等人2016年提出了GAN-I NT-CLS，该模型最后生成了分辨率为64X64的图像，这是第一次将GAN网络应用到文本到图像的生成任务中。同年，Reed等人在此基础上继续提出GAWWN，为了在确定的位置生成目标图像，模型标记目标的边界框和关键点，将生成图像的分辨率提升到了128X 128。为了进一步生成高质量图像以及提高对细节的把控，Zhang等人提出的StackGAN和StackGAN++模型通过引入条件增强技术，使用多阶段堆叠式生成对抗网络逐级提高生成图像的分辨率，将生成图像的分辨率提升到256X 256，有效降低了信息丢失的问题。Xu等人在三级生成对抗网络的基础上增加了注意力机制，通过在不同阶段重点关注不同区域，从而有针对性的对图像进行细化。文献在模型中加入空间注意力机制作用于单词和图像区域块，该方法实现了可控的图像生成。尹在AttnGAN的基础上加入了空间自注意力模块将不同范围的图像特征关联起来，使生成器更加关注生成图像的整体布局。Sun等人通过嵌入残差金字塔模块来进行多尺度特征融合生成更加逼真的图像。以往的文本生成图像模型虽然已经实现了高分辨率图像的生成，但是图像细节缺失、图像结构性错误等问题依然广泛存在在现有模型中。

AttnGAN网络允许注意力驱动、多阶段细化细粒度文本到图像的生成，该模型由两个组件组成。第一个组成部分是注意力生成网络，其中一种注意力机制，让生成器通过关注与所绘制的子区域最相关的单词来绘制图像的不同子区域。除了将自然语言描述编码为全局句子向量之外，句子中的每个单词也被编码为单词向量。生成网络在第一阶段利用全局句子向量生成低分辨率图像。在接下来的阶段中，它使用每个子区域中的图像向量通过使用关注层来查询单词向量，以形成单词上下文向量。然后，它将区域图像向量和对应的单词上下文向量组合以形成多模态上下文向量，基于该多模态上下文矢量，模型在周围子区域中生成新的图像特征。在每个阶段产生具有更多细节的更高分辨率图像。AttnGAN的另一个组件是深度注意力多模态相似模型(DAMSM)。通过注意机制，DAMSM能够使用全局句子级别信息和细粒度单词级别信息来计算生成的图像和句子之间的相似度。因此，DAMSM为训练生成器提供了额外的细粒度图像文本匹配损失。但该技术存在以下缺点：

1、存在图像细节缺失、图像结构性错误，卷积神经网络在每层是局部有界的，对于远距离信息的把握具有局限性。

2、进行图像特征提取时没有捕获到关键性信息。

发明内容

基于以上现有技术的不足，本发明提出一种基于多尺度特征的文本生成图像算法，通过在上采样结构之前引入空洞空间金字塔结构来融合多尺度信息，保留更多的图像特征，实现高级特征语义信息的挖掘，有利于提高生成图片的质量。

为了实现以上发明，提出了一种基于多尺度特征的文本生成图像算法，包括以下步骤：

S1、采用双向长短期记忆网络学习给定文本的语义表示，产生两个输出：表示文本全局语义的句子特征、表示每个单词语义的词向量特征；

S2、通过裁剪方式将图像分辨率进行缩放，提取局部图像特征的I ncept ion-v3网络中的“mixed_6e”层，全局特征的提取通过I ncept ion-v3网络的最后一个平均池化层实现，在模型中添加一个感知器网络将图像特征转化为与文本特征相同维度的特征；

S3、采用注意力矩阵形成的多模态上下文向量和上阶段输出的隐向量作为输入；

S4、通过不同的扩张率进行空洞卷积实现并行采样，不同扩张率提取的特征在单独的分支中处理，融合生成最终结果。

优选的，在所述步骤S1中，使用条件增强来增强训练数据得到低维度的文本条件向量

随机选择一个服从正态分布的高斯噪声z拼接句子特征/>

得到/>

送入上采样模块得到第一个分支的隐特征h₀：

其中，z～N(0，1)，F₀是建立的神经网络模型，将其送入生成器生成低分辨率图像，此时的低分辨率图像包含对象的大致颜色和粗略结构。

优选的，在所述步骤S5中，ASPP结合不同尺寸的深度可分离卷积和全局池化获得多尺度的关联信息，在ASPP中会将特征分配给五个分支，第一分支采用1×1的标准卷积进行原始特征的特征映射，第二到第四分支通过设置不同尺寸的膨胀卷积使得在特征提取的过程中可以获得不同的感受野，第五分支通过全局池化的方式得到整体特征来结合多尺度特征，增强金字塔的覆盖能力；

最后将五个分支的特征图在通道维度上进行堆叠，经过1×1标准卷积融合不同尺度的信息。

由上，本发明的基于多尺度特征的文本生成图像算法具有如下有益效果：

(1)、基于空间金字塔池化操作可以提高合成精度，在注意力生成对抗网络(AttnGAN)的基础上引入了空洞空间金字塔模块(ASPP)，通过多特征融合提高目标图像细节合成能力，同时实现高水平特征语义信息的挖掘，准确定位每个特征区域对应的句子信息。

(2)、添加ASPP模块，在扩大感受野的同时获取到多尺度的上下文信息，增强了遥远区域之间的特征一致性，减少了多头等异常目标图像生成的可能性，使得最后生成的图像更加生动鲜明。

(3)、在上采样前加入空洞空间金字塔模块，通过不同的空洞率构建不同感受野的卷积核获得多尺度特征，组合形成具有高级语义的特征图，有效解决以往生成图像细节难处理的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的基于多尺度特征的文本生成图像算法的流程图；

图2为ASPP网络结构。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

如图1至图2所示，本发明的基于多尺度特征的文本生成图像算法中，本发明的生成对抗网络模型包含3个生成器(G₀，G₁，G₂)，3个判别器(D₀，D₁，D₂)。隐藏特征(h₀，h₁，h₂)作为生成器的输入，得到不同尺度的图像(x₀，x₁，x₂)。

对于文本嵌入模块，本发明采用双向长短期记忆网络(Bi-LSTM)学习给定文本的语义表示，产生两个输出：表示文本全局语义的句子特征

表示每个单词语义的词向量特征s∈R^D×T。使用条件增强(CA)来增强训练数据得到低维度的文本条件向量/>

随机选择一个服从正态分布的高斯噪声z拼接句子特征/>

得到/>

送入上采样模块得到第一个分支的隐特征h₀，

对于图像编码模块，本发明使用的是一个卷积神经网络，具体的说，该编码器是建立在ImageNet上的预训练模型I ncept ion-v3。对于输入的图像，首先通过裁剪等方式将图像分辨率缩放到299×299，用来提取局部图像特征的I ncept ion-v3网络中的“mi xed_6e”层，全局特征的提取通过I ncept ion-v3网络的最后一个平均池化层实现。为了方便图像特征编码和文本特征编码之间进行比较，在模型中添加一个感知器网络将图像特征转化为与文本特征相同维度的特征。

在接下来的图像细化阶段，生成器的输入不再是噪声和句子语义特征，而是采用注意力矩阵形成的多模态上下文向量和上阶段输出的隐向量作为输入。

其中，

表示第i个阶段生成的图像，h_i表示第i层的隐藏特征。/>

首先使用点积操作计算上阶段输出的隐特征信息和文本单词特征的相似性形成权重，形成根据权重加权组合成的多模态上下文向量。

空洞空间金字塔池化(Atrous Spat ia l Pyrami d poo l i ng，ASPP)是基于空洞卷积和空间金字塔池化而成的。传统的深度卷积神经网络在处理特征时，随着网络层数的加深会导致内部数据结构丢失，因此导致网络精度无法上升，空洞卷积的主要作用是在不丢失分辨率的同时扩大感受野，输出包含较大范围的特征信息，通过调整扩张率得到多尺度特征信息，从而提高网络的性能。ASPP通过不同的扩张率进行空洞卷积实现并行采样，不同扩张率提取的特征在单独的分支中处理，融合生成最终结果，其具体结构如图2所示。

ASPP结合不同尺寸的深度可分离卷积和全局池化获得多尺度的关联信息，在ASPP中会将特征分配给五个分支，第一分支采用1×1的标准卷积进行原始特征的特征映射，第二到第四分支通过设置不同尺寸的膨胀卷积使得在特征提取的过程中可以获得不同的感受野，第五分支通过全局池化的方式得到整体特征来结合多尺度特征，增强金字塔的覆盖能力。最后将五个分支的特征图在通道维度上进行堆叠，经过1×1标准卷积融合不同尺度的信息。原ASPP模块采用的激活函数为ReLU激活函数，但当输入的值为零或负数时，函数的梯度会直接变为零，因此不能进行梯度更新，本发明使用LeakyReLU激活函数对其进行替换，当输入值为零或负数时，模型会自动给出一个很小的斜率，会在一定程度上缓解梯度消失的问题。上述过程中通过频繁向下池化会造成物体边缘信息的损失，因此将需要上述结果通过上采样放大四倍，与原特征拼接起来形成新的特征。加入ASPP模块的目的是在不改变shape的前提下增加网络的感受野，增强网络获得多尺度上下文特征的能力。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.基于多尺度特征的文本生成图像算法，其特征在于，包括以下步骤：

S2、通过裁剪方式将图像分辨率进行缩放，提取局部图像特征的Inception-v3网络中的“mixed_6e”层，全局特征的提取通过Inception-v3网络的最后一个平均池化层实现，在模型中添加一个感知器网络将图像特征转化为与文本特征相同维度的特征；

2.如权利要求1所述的基于多尺度特征的文本生成图像算法，其特征在于，在所述步骤S1中，使用条件增强来增强训练数据得到低维度的文本条件向量

随机选择一个服从正态分布的高斯噪声z拼接句子特征/>

得到/>

送入上采样模块得到第一个分支的隐特征h₀：

3.如权利要求1所述的基于多尺度特征的文本生成图像算法，其特征在于，在所述步骤S5中，ASPP结合不同尺寸的深度可分离卷积和全局池化获得多尺度的关联信息，在ASPP中会将特征分配给五个分支，第一分支采用1×1的标准卷积进行原始特征的特征映射，第二到第四分支通过设置不同尺寸的膨胀卷积使得在特征提取的过程中可以获得不同的感受野，第五分支通过全局池化的方式得到整体特征来结合多尺度特征，增强金字塔的覆盖能力；