CN113421314A

CN113421314A - 一种基于生成对抗网络的多尺度双模态文本生成图像方法

Info

Publication number: CN113421314A
Application number: CN202110641648.7A
Authority: CN
Inventors: 蒋斌; 黄昀
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-21
Anticipated expiration: 2041-06-09
Also published as: CN113421314B

Abstract

本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法，属于文本到图像的合成技术领域，包括以下步骤：步骤1，构造基于生成对抗网络的多尺度双模态文本图像生成模型，步骤2，编码给定的文本描述，得到相应的文本编码特征，步骤3，将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入，步骤4，将中间图像特征经过一个双模态调整注意力机制，步骤5，将中间图像特征经过生成器得到由文本描述产生的图片，本发明有益效果在于，提出一种双模态调整注意力机制，通过文本图像两种模态来调整生成图像，以及一种多尺度一致性鉴别器，通过其约束词级文本模态和多尺度视觉模态之间的相关性来增强语义一致性。

Description

一种基于生成对抗网络的多尺度双模态文本生成图像方法

技术领域

本发明涉及一种基于生成对抗网络的多尺度双模态文本生成图像方法，属于文本到图像的合成技术领域。

背景技术

文本到图像的合成是计算机视觉中一项重要且具有挑战性的任务，具体为根据给定的文本描述生成逼真且与给定文本语义一致的图像。这项任务已被广泛用于照片编辑，多媒体数据创建和计算机辅助设计等实际应用中。近年来，随着生成对抗网络(GANs)的快速发展，其被大量应用于文本生成图像任务中，这个复杂的计算机视觉和机器学习问题，也由此在近年来取得了很大的进步。2016年，Reed等人首次利用GAN，从文本描述中生成低分辨率的图像。2017年，Zhang等人提出StackGAN，将图像生成分为多个由粗到细的阶段。随后，Xu等人在此基础上提出了一个经典的AttnGAN模型。该模型在每一个生成阶段加入注意力机制，在生成图像的每一个子区域时，动态地选择单词级别的信息来指导图像生成。随后，研究学者基于AttnGAN框架，提出大量模型。这些模型从不同角度出发，都达到了可观的效果。例如：(1)MirrorGAN再次提取生成图像对应的文本描述，约束生成文本，使其与给定文本语义一致，进而达到增强图像文本语义一致性的目的；(2)SEGAN构建自适应注意权重机制，以区分文本描述中关键词和不重要的词，从而提高生成的精确度；(3)Yin等人认为不同描述但意思相近的句子生成的图像也应该类似，由此提出SD-GAN在提取多个句子中类似语义信息的前提下，保证图像的多样性与细节内容。但是上述方法没有考虑到蕴含在生成图像特征中的空间信息，并且，不同类型单词对应的图像区域大小也不同，比如在描述鸟的句子中“翅膀”对应的子区域范围显然与“眼睛”对应的大小不同。

发明内容

本发明的目的在于提供一种基于生成对抗网络的多尺度双模态文本生成图像方法,从而克服现有技术中的不足。

本发明通过以下技术方案实现，具体包括以下步骤：

步骤1，构造基于生成对抗网络的多尺度双模态文本图像生成模型，网络的输入采用文本描述，输出与其对应的256×256图像；网络的框架具体由三个阶段堆叠而成，每个阶段都包含一对生成器与辨别器，并且由粗到细逐步生成分辨率为64×64，128×128，256×256的图片；

步骤2，编码给定的文本描述，得到相应的文本编码特征。

步骤2.1、对文本描述进行分词处理，将每个句子通过填充或删除操作得到统一长度的句子表示；

步骤2.2、将句子表示输入进一个双向长短时记忆神经网络，即Bi-LSTM，得到文本描述的对应词嵌入表示与句子嵌入表示；

所述的步骤2.2中采用以下条件增强方法：

由于句子嵌入表示是一个高维稀疏向量，为了避免导致潜在数据流不连续，不利于模型训练的问题，采用以下条件增强的方法：

其中，

与

为将句子向量表示

通过全连接网络得到的均值向量和协方差矩阵，∈从高斯分布

随机采样得到，·为矩阵元素对应相乘，

为最终的句子向量表示；

步骤3，将预处理过的文本特征以及一个服从高斯分布的噪声作为文本图像生成模型的输入，经过第一阶段网络的处理，得到中间图像特征；即，将步骤2中得到的句子向量表示

与从高斯分布

随机采样得到的噪声

沿着通道拼接，作为初始图像生成阶段的输入；所述的第一阶段网络包括一个全连接层与四个上采样层，输出64×64的中间图像特征；

步骤4，将中间图像特征经过一个双模态调整注意力机制，所述的双模态调整注意力机制由文本指导模块与通道采样模块并行组成；该机制包括一个文本指导模块，用于基于文本描述来校正图像内容；还包括一个通道采样模块，通过选择性地聚合空间上的通道信息来指导图像特征调节，并且将调整后的图像特征作为下一阶段的输入：

步骤4.1、文本指导模块主要采用文本信息来动态调整图像内容：

计算单词嵌入表示W与中间图像特征Vi的相对重要性，即控制因子r_i：

r_i＝σ(L_w(W)+L_v(avg(V_i)))

其中，σ为sigmoid函数，avg表示计算均值，L_w和L_v分别对应W和V_i的线性变换；

根据控制因子r_i，将W和V_i投影到公共空间O_i中，分别用两个卷积操作f_o，f_k，使O_i通道数与V_i一致，通过以下方式构造加权图像表示C_i：

C_i＝sm(f_o(O_i)V_i)f_k(O_i)

其中sm为softmax函数，用于归一化图像特征与关键分量之间的相似度；串联C_i与V_i，得到U；用门控机制将图像特征V_i与加权图像表示组合为：

其中，L_u表示线性运算，sigma表示sigma函数，

为文本引导模块调整后的图像特征；步骤4.2、通道采样模块主要通过聚合通道维度上的信息由此获得图像特征V_i的空间信息；对于每个阶段输出的图像特征中的每个像素点，其通道信息表示为

其中n为特征通道数。我们采用卷积操作将p_i映射到p_o，并将卷积核集定义为A＝{α₁，α₂，...，a_m}，其中每个α_j是第j个卷积核的参数值。该聚合运算公式为：

其中m是卷积核的数量，p_o表示通道维度上的线性组合，可让网络自动关注图像特征中较重要的信息，同时抑制无用信息；

步骤4.3、采用一个上下文编码模块来增强模型的非线性映射能力，由此得到通道采样模块的输出

步骤4.4、将文本引导模块和通道采样模块的输出

拼接起来，作为下一生成阶段的输入；

步骤5，将中间图像特征经过生成器得到由文本描述产生的图片，并输入到多尺度一致性辨别器。该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性，由此增强图像文本语义一致性具体为计算给定文本描述中每个单词嵌入表示与三个不同尺度的图像区域之间的相关性，得到三个相关性值，相加得到相关性损失值。

本发明的有益效果在于，(1)采用的注意力机制不仅通过常用的文本描述来调节中间图像内容，而且还通过图像特征内部的空间信息来调节中间图像内容。由此，调整后的图像不仅蕴含文本中的语义信息，同时能更清晰的刻画出图像内物体的形状，并将其与背景区分开来。(2)提出一种多尺度一致性鉴别器，通过其约束词级文本模态和多尺度视觉模态之间的相关性来增强语义一致性。(3)在CUB和MS-COCO数据集上进行的大量实验表明，本发明优于现有技术方案中的方法，CUB和MS-COCO上Inception Score(IS)值分别从4.55和24.75提高到了4.64和26.09，R-precision值分别从70.31％和84.70％提高到了73.04％和85.74％。

附图说明

图1为本发明结构图。

图2为多尺度一致性辨别器结构图。

具体实施方式

下面结合附图1至2对本发明的优选实施例作进一步说明，步骤1，构造基于生成对抗网络的多尺度双模态文本图像生成模型，如图1所示，网络的输入采用文本描述，输出与其对应的256×256图像；网络的框架具体由三个阶段堆叠而成，每个阶段都包含一对生成器与辨别器，并且由粗到细逐步生成分辨率为64×64，128×128，256×256的图片；

步骤2，编码给定的文本描述，得到相应的文本编码特征。

所述的步骤2.2中采用以下条件增强方法：

其中，

与

为将句子向量表示

随机采样得到，·为矩阵元素对应相乘，

为最终的句子向量表示；

与从高斯分布

随机采样得到的噪声

计算单词嵌入表示W与中间图像特征V_i的相对重要性，即控制因子r_i：

r_i＝σ(L_w(W)+L_u(avg(V_i)))

C_i＝sm(f_o(O_i)V_i)f_k(O_i)

其中，L_u表示线性运算，sigma表示sigma函数，

为文本引导模块调整后的图像特征；

步骤4.2、通道采样模块主要通过聚合通道维度上的信息，由此获得图像特征V_i的空间信息；对于每个阶段输出的图像特征中的每个像素点，其通道信息表示为

其中n为特征通道数。我们采用卷积操作将p_i映射到p_o，并将卷积核集定义为A＝{α₁，α₂，...，α_m}，其中每个α_j是第j个卷积核的参数值。该聚合运算公式为：

具体的，若m＝1，则当α_j的参数值全为

时，该线性组合即相当于平均池化操作；若将通道中最大的

对应的α_k参数设置为1，且其他参数设置为0，此时该线性组合即为最大池化操作；因此通道采用模块不仅能达到平均池化中保留背景信息的作用以及最大池化中提取纹理特征，减少无用信息影响的作用，还能灵活做到关注图像特征中相对重要的信息，抑制无用信息。

步骤4.4、将文本引导模块和通道采样模块的输出

拼接起来，作为下一生成阶段的输入；

步骤5，如图2所示，将中间图像特征经过生成器得到由文本描述产生的图片，并输入到多尺度一致性辨别器。该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性，由此增强图像文本语义一致性。具体为计算给定文本描述中每个单词嵌入表示与三个不同尺度的图像区域之间的相关性，得到三个相关性值，相加得到相关性损失值。在CUB和MS-COCO数据集上进行的大量实验表明，本发明优于现有技术方案中的方法，CUB和MS-COCO上Inception Score(IS)值分别从4.55和24.75提高到了4.64和26.09，R-precision值分别从70.31％和84.70％提高到了73.04％和85.74％。IS值可衡量生成图像的真实性与多样性，R-precision值可衡量生成图像与给定文本之间的语义一致性。

Claims

1.一种基于生成对抗网络的多尺度双模态文本生成图像方法，其特征在于包括以下步骤：

步骤2，编码给定的文本描述，得到相应的文本编码特征；

与从高斯分布

随机采样得到的噪声z沿着通道拼接，作为初始图像生成阶段的输入；所述的第一阶段网络包括一个全连接层与四个上采样层，输出64×64的中间图像特征；

r_i＝σ(L_w(W)+L_υ(avg(V_i)))

其中，σ为sigmoid函数，avg表示计算均值，L_w和L_υ分别对应W和V_i的线性变换；

C_i＝sm(f_o(O_i)V_i)f_k(O_i)

其中，L_u表示线性运算，sigma嵌示sigma函数，V_i ^t为文本引导模块调整后的图像特征；

其中n为特征通道数；采用卷积操作将p_i映射到p_o，并将卷积核集定义为A＝{α₁，α₂，...，α_m}，其中每个α_j是第j个卷积核的参数值，该聚合运算公式为：

步骤4.3、采用一个上下文编码模块来增强模型的非线性映射能力，由此得到通道采样模块的输出V_i ^c；

步骤4.4、将文本引导模块和通道采样模块的输出V_i ^l，V_i ^c拼接起来，作为下一生成阶段的输入；

步骤5，将中间图像特征经过生成器得到由文本描述产生的图片，并输入到多尺度一致性辨别器；该辨别器分别计算图像特征与匹配文本相关性以及图像特征与不匹配文本间的相关性，由此增强图像文本语义一致性。