CN114581334A

CN114581334A - 一种基于生成对抗网络的自调节文本生成图像方法

Info

Publication number: CN114581334A
Application number: CN202210267451.6A
Authority: CN
Inventors: 蒋斌; 曾威远; 杨超
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-03
Anticipated expiration: 2042-03-17
Also published as: CN114581334B

Abstract

本发明涉及一种基于生成对抗网络的自调节文本生成图像方法，属于对抗网络的文本合成图像技术领域。基于生成对抗网络设计自调节文本生成图像模块，该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系，建模每个通道的重要性，并自适应地增强重要的通道和抑制不重要的通道；通过将该模块组合进模型当中，能够显著地消除文本特征和视觉特征的融合带来的噪声，提高合成图像的质量；有益效果在于，通过将自调节模块组合进模型当中，能够显著地消除文本特征和视觉特征的融合带来的噪声，提高合成图像的质量。

Description

一种基于生成对抗网络的自调节文本生成图像方法

技术领域

本发明涉及一种基于生成对抗网络的自调节文本生成图像方法，属于对抗网络的文本合成图像技术领域。

背景技术

现有技术中，从文本到图像的合成任务，其目的是生成能够正确反映给定文本含义的图像。由于它在艺术生成和计算机辅助设计等一系列应用中具有巨大的潜力，文本-图像合成已成为研究界最有吸引力的任务之一。传统的文本生成图像方法采取的通用方式是通过搜索和监督式学习的组合来合成图像的。为了将文本的语义信息和生成的图像对应，常用的做法是计算文本序列中关键字与图像之间的相关性来显示获得与图像关系更加密切且可以被充分表现出的文本单元，然后搜索以文本为条件的最可能的图像部分，最终再以文本和搜索得到的图像子区域为条件去优化最终的图像布局。这类传统的方法有两个显著的缺陷，第一个在于它集成了太多复杂部件，过于笨重，而且不好进行优化。第二个问题则在于它缺乏生成新内容的能力，只能对给定图像或者训练集图像的内容进行更改。

近年来，以生成对抗网络(GAN)为代表的基于深度学习的生成式模型取得了巨大进展，文本生成图像这一领域内也从中获益，出现了许多基于GAN的方法，相比起传统方法，这些基于GAN的方法更加轻量，也能够合成出全新的图像。尽管这些基于GAN的方法取得了令人印象深刻的成果，但目前网络生成的图像质量仍然远远不能令人满意。为了提高生成图像的质量和分辨率，大多数现有的方法是建立在多阶段生成过程的基础上的，比如经典的Attn-GAN和DM-GAN模型；它们首先在初始阶段以句子层面的文本信息为条件生成一个低分辨率的图像，然后立即将初始结果与单词级别的文本特征融合后送入后一阶段的生成器中，忽略了对图像进行充分的细化。这种操作带来了一个不可忽视的问题：生成结果在很大程度上取决于初始图像的质量。如果初始图像生成得不好，整个多阶段过程就无法合成出为高质量的图像。

综上所述，现有的基于GAN的文本生成图像方法没有能力保证合成图像的质量，阻碍了这项技术应用到实际的使用场景当中。为了进一步提高文本生成图像的结果图像的质量，同时也为了保证最终合成的图像与输入文本的语义一致性，需要对现有的模型方法加以改进。

发明内容

本发明的目的在于，对现有的基于生成对抗网络的文本合成图像方法加以改进，提出一种基于生成对抗网络的自调节文本生成图像方法。

本发明的技术原理于，提出了一种新颖的自调节模块，该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系，建模每个通道的重要性，并自适应地增强重要的通道和抑制不重要的通道。

本发明的技术方案在于，基于生成对抗网络设计自调节文本生成图像模块，该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系，建模每个通道的重要性，并自适应地增强重要的通道和抑制不重要的通道；通过将该模块组合进模型当中，能够显著地消除文本特征和视觉特征的融合带来的噪声，提高合成图像的质量；具体包括以下步骤：

步骤1，数据收集与处理，训练文本生成图像模型，

(1.1)首先需要采集大量的图像数据和对应的描述文本数据，本发明使用了两个开源数据集CUB和MS-COCO，CUB数据集包含训练图像8855张、测试数据2933张；

(1.2)在获得数据集后，首先对文本进行预处理，随机选取每张图像的描述语句的其中一个，通过填充或者删除单词的操作使得每个句子的长度一致，在本发明中设置的句子固定长度为10，再使用一个双向的长短期记忆模型(Bi-LSTM)对文本进行编码，得到文本描述对应的句子向量嵌入表示表示作为模型的输入；

步骤2，模型构建，基于生成对抗网络设计自调节文本生成图像模块，主干网络分成两个部分，前半部分是生成器，后半部分是判别器；

(2.1)生成器接受一个噪声z和一个句子向量嵌入表示s作为输入，先利用全连接层将z扩充成一个视觉特征图A；

(2.2)再使用多个不同大小的跨模态融合模块和自调节模块将输入转化成最终的输出图像，跨模态融合模块首先对图像特征图进行上采样，提高特征图的分辨率，得到视觉特征图A₂；

随后将视觉特征图A₂输入到深度融合模块中让其与句子向量的嵌入表示s进行融合；

(2.3)在一个跨模态融合模块里加入了两个深度融合模块，实现了图像特征和文本信息的充分融合；

(2.4)判别器接受一张图像和它对应的描述语句作为输入，计算图像和语句之间相似性求得损失函数，然后利用梯度下降算法依据损失函数更新模型的参数，逐渐提升模型合成的图像的质量；

步骤3，自调节模块构建，该模块的输入是一个尺寸为R^H×W×C的特征图F，随后对该特征图进行调整：

(3.1)对特征图F应用全局平均池化操作，压缩F每个通道的空间信息，形成一个尺寸为R^C的一维向量V＝{v₁，v₂，...，v_c}：

V＝avgpool(F)

其中avgpool表示全局平均池化。V的一个元素v_i对应着原始特征图F的一个通道，因此V相当于F中通道的空间信息高度压缩之后的描述符，用于之后的计算；

(3.2)为了达成模型效果和参数量之间的平衡，在对V进行卷积操作之前，要决定卷积核的尺寸；没有使用固定的尺寸，使用一个公式依据V的大小来确定卷积核尺寸k：

其中eve表示取最近的偶数；

(3.3)对V施加一个一维卷积，去捕捉每个元素跟它相邻的k个元素之间的依赖关系，决定V中每个元素的重要性，也即是原始特征图F中每个通道的重要性，最终得到一个注意力向量M＝(m₁,m₂，...，m_c}；M的元素m_i就代表F中第i个通道的重要性，计算过程可形式化为如下公式：

其中σ表示sigmoid函数，

表示卷积核中第j个元素，

表示以v_i为中心大小为k的邻域；

(3.4)将注意力向量M进行扩充，把它的尺寸变成跟F一样的R^H×W×C，得到注意力图谱M₂，M₂的第i通道里不同空间位置上的元素值都跟M中第i个元素值相同；然后将F和M₂按照逐元素相乘的的形式融合起来，形成调整之后特征图F₂：

F₂＝F×M₂

自调节模块通过捕捉输入特征图的每个通道与它相邻通道之间的依赖关系，计算出通道的重要性，然后自适应地调整通道的强度，更好地支持模型实现高质量的图像生成；

步骤4，损失函数，自调节文本生成图像模型采用了带有以0为中心的匹配感知梯度惩罚项的Hinge-Loss作为损失函数，其数学计算公式如下：

其中G代表生成器，D代表判别器，z是噪声，s是文本的句子向量嵌入表示；L_G和L_D分别是生成器和判别器的损失函数，

和

分别表示生成器生成的数据分布，真实的数据分布以及不匹配的图像分布，x是分别从这些数据分布中采样得到的具体数据，

和

分别表示对x和s求导数。

在(2.3)中，深度融合模块则使用四个全链接层从s中分别学习出一个缩放参数γ和一个移位参数β去调整图像特征的数据分布，使得图象特征逐渐和句子的含义趋于一致，得到新的视觉特征图

上述过程可以形式化为如下数学公式：

A₂＝up(A)

γ＝f₁₂(f₁₁(A₂))

β＝f₂₂(f₂₁(A₂))

A^out＝γ×A₂+β

其中up表示上采样操作，f₁₁、f₁₂、f₂₁和f₂₂表示4个不同的全连接层；本发明相比于现有技术的深度融合模块，自调节模块则通过捕捉图像特征通道之间的关联，动态建模通道的重要性，然后自适应地增强重要的通道并抑制不重要的通道，从而提高图像质量。

本发明的有益效果在于，通过将自调节模块组合进模型当中，能够显著地消除文本特征和视觉特征的融合带来的噪声，提高合成图像的质量。1)由于设计了基于生成对抗网络的自调节文本生成图像模型，解决了以往此类模型过于依赖初始生成结果的问题，大大提升了生成图像的质量和模型的应用前景。2)提出的自调节模块能够很好地支持模型学会建模特征通道的重要性，自适应地抑制或者增强不同的通道，更好地消除了文本和视觉特征融合中带来的干扰，极大地保障了生成图像的质量。

附图说明

图1为本发明整体结构图。

图2为自调节模块计算流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念；此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。以下将参照附图更详细地描述本发明。在各个附图中，相同的元件采用类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。

下面结合附图1至2来描述本发明实施例的一种基于生成对抗网络的自调节文本生成图像方法：基于生成对抗网络设计自调节文本生成图像模块，该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系，建模每个通道的重要性，并自适应地增强重要的通道和抑制不重要的通道；通过将该模块组合进模型当中，能够显著地消除文本特征和视觉特征的融合带来的噪声，提高合成图像的质量；

具体包括以下步骤：

步骤1，数据收集与处理，训练文本生成图像模型，

(1.1)首先需要采集大量的图像数据和对应的描述文本数据，本发明使用了两个开源数据集CUB和MS-COCO，CUB数据集包含训练图像8855张、测试数据2933张；每张图像最多可以对应有10个描述句子，其中每张图像可以有不定数量的一个或多个描述语句，本发明在实施时只要求有一个描述语句作为输入即可。例如使用的另一个数据集MS-COCO，它对于每张图像就只有5个描述句子。在使用时，对于存在多个描述语句的情况可随机选取其中一个作为输入，如果只有一个那就选取该语句作为输入；

(1.2)在获得数据集后，首先对文本进行预处理，随机选取每张图像的描述语句的其中一个，通过填充或者删除单词的操作使得每个句子的长度一致，在本发明中设置的句子固定长度为10，再使用一个双向的长短期记忆模型(Bi-LSTM)对文本进行编码，得到文本描述对应的句子向量嵌入表示表示作为模型的输入；句子固定长度为10是指在原始输入时句子的长度为不定长，本发明在读取到输入时会自动进行填充单词或者删除单词的操作，将句子长度变为10；

步骤2，模型构建，基于生成对抗网络设计自调节文本生成图像模块，完整的模型结构如图1所示，图1上半部分就是主干网络；主干网络分成两个部分，前半部分是生成器，后半部分是判别器；

(2.2)再使用多个不同大小的跨模态融合模块和自调节模块将输入转化成最终的输出图像，如图1所示，跨模态融合模块首先对图像特征图进行上采样，提高特征图的分辨率，得到视觉特征图A₂；

深度融合模块则使用四个全链接层从s中分别学习出一个缩放参数γ和一个移位参数β去调整图像特征的数据分布，使得图象特征逐渐和句子的含义趋于一致，得到新的视觉特征图

上述过程可以形式化为如下数学公式：

A₂＝up(A)

γ＝f₁₂(f₁₁(A₂))

β＝f₂₂(f₂₁(A₂))

A^out＝γ×A₂+β

其中up表示上采样操作，f₁₁、f₁₂、f₂₁和f₂₂表示4个不同的全连接层。本发明相比于现有技术的深度融合模块，自调节模块则通过捕捉图像特征通道之间的关联，动态建模通道的重要性，然后自适应地增强重要的通道并抑制不重要的通道，从而提高图像质量；

步骤3，自调节模块构建，本发明提出的自调节模块内部的计算过程如图2所示，该模块的输入是一个尺寸为R^H×W×C的特征图F，随后对该特征图进行调整：

V＝avgpool(F)

(3.2)为了达成模型效果和参数量之间的平衡，在对V进行卷积操作之前，要决定卷积核的尺寸；本发明没有使用固定的尺寸，使用一个公式依据V的大小来确定卷积核尺寸k：

其中eve表示取最近的偶数；本发明之所以采用公式动态地依据每个输入的尺寸改变卷积核的尺寸，是由于如果卷积核尺寸固定，当输入的V尺寸较小时，卷积核尺寸就过大，造成了不必要的参数浪费。而当输入的V尺寸较大时，卷积核尺寸有不足覆盖V中每个元素较远的邻居元素，从而使得模块失去自调节能力；

(3.3)对V施加一个一维卷积，去捕捉每个元素跟它相邻的k个元素之间的依赖关系，决定V中每个元素的重要性，也即是原始特征图F中每个通道的重要性，最终得到一个注意力向量M＝{m₁,m₂，...，m_c}；M的元素m_i就代表F中第i个通道的重要性，计算过程可形式化为如下公式：

其中σ表示sigmoid函数，

表示卷积核中第j个元素，

表示以v_i为中心大小为k的邻域；

F₂＝F×M₂

如图1所示，从第4个跨模态融合模块开始，每个跨模态融合层之后就嵌入了一个自调节模块，这是为了等待特征图F开始具备一定的语义之后才进行调整。自调节模块通过捕捉输入特征图的每个通道与它相邻通道之间的依赖关系，计算出通道的重要性，然后自适应地调整通道的强度，更好地支持模型实现高质量的图像生成；

和

和

分别表示对x和s求导数。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于生成对抗网络的自调节文本生成图像方法，其特征在于：基于生成对抗网络设计自调节文本生成图像模块，该模块能够动态地捕捉视觉特征的通道之间的相互依赖关系，建模每个通道的重要性，并自适应地增强重要的通道和抑制不重要的通道；通过将该模块组合进模型当中，能够显著地消除文本特征和视觉特征的融合带来的噪声，提高合成图像的质量；具体包括以下步骤：

步骤1，数据收集与处理，训练文本生成图像模型，

(1.1)首先需要采集大量的图像数据和对应的描述文本数据，包括两个开源数据集CUB和MS-COCO，CUB数据集包含训练图像8855张、测试数据2933张；

(1.2)在获得数据集后，首先对文本进行预处理，随机选取每张图像的描述语句的其中一个，通过填充或者删除单词的操作使得每个句子的长度一致，设置的句子固定长度为10，再使用一个双向的长短期记忆模型(Bi-LSTM)对文本进行编码，得到文本描述对应的句子向量嵌入表示表示作为模型的输入；

随后将视觉特征图A₂输入到深度融合模块中让其与句子向量的嵌入表示s进行融合；(2.3)在一个跨模态融合模块里加入了两个深度融合模块，实现了图像特征和文本信息的充分融合；

V＝avgpool(F)

其中avgpool表示全局平均池化；V的一个元素v_i对应着原始特征图F的一个通道，因此V相当于F中通道的空间信息高度压缩之后的描述符，用于之后的计算；

其中eve表示取最近的偶数；

(3.3)对V施加一个一维卷积，去捕捉每个元素跟它相邻的k个元素之间的依赖关系，决定V中每个元素的重要性，也即是原始特征图F中每个通道的重要性，最终得到一个注意力向量M＝{m₁，m₂，...，m_c}；M的元素m_i就代表F中第i个通道的重要性，计算过程可形式化为如下公式：

其中σ表示sigmoid函数，

表示卷积核中第j个元素，V_i ^k表示以v_i为中心大小为k的邻域；

F₂＝F×M₂

和

和

分别表示对x和s求导数。

2.根据权利要求1所述的一种基于生成对抗网络的自调节文本生成图像方法，其特征在于：(2.3)中，深度融合模块则使用四个全链接层从s中分别学习出一个缩放参数γ和一个移位参数β去调整图像特征的数据分布，使得图象特征逐渐和句子的含义趋于一致，得到新的视觉特征图A^out；上述过程可以形式化为如下数学公式：

A₂＝up(A)

γ＝f₁₂(f₁₁(A₂))

β＝f₂₂(f₂₁(A₂))

A^out＝γ×A₂+β

其中up表示上采样操作，f₁₁、f₁₂、f₂₁和f₂₂表示4个不同的全连接层。