CN112348911B

CN112348911B - 基于语义约束的堆叠文本生成细粒度图像方法及系统

Info

Publication number: CN112348911B
Application number: CN202011170331.1A
Authority: CN
Inventors: 刘丽; 田甜; 王萍; 张静静; 张化祥
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2023-04-18
Anticipated expiration: 2040-10-28
Also published as: CN112348911A

Abstract

本发明属于图像生成领域，提供了一种基于语义约束的堆叠文本生成细粒度图像方法及系统。其中，基于语义约束的堆叠文本生成细粒度图像方法包括提取语义文本的句嵌入特征向量和词嵌入特征矩阵，均输入至堆叠细粒度图像生成网络中，生成细粒度图像；所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络，且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。其能够保证最终生成的图像具有良好的语义一致性。

Description

基于语义约束的堆叠文本生成细粒度图像方法及系统

技术领域

本发明属于图像生成领域，尤其涉及一种基于语义约束的堆叠文本生成细粒度图像方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

根据文本描述生成图像在诸多领域得到了广泛的应用，并逐渐成为计算机视觉领域最活跃的研究课题之一。由于不同模态之间的异构性，很难根据文本直接生成匹配的图像。近年来，许多学者提出了基于生成对抗网络的根据文本生成图像的方法，该方法在生成具有视觉真实性的图像方面具有良好的性能。尽管生成具有较高视觉真实性的图像方面的研究已经取得了一定成果，但是在生成图像与对应文本的语义一致性方面仍有较大的提升空间。

从不同的语言描述中提取高级语义特征是比较困难的。张等人提出了草图-细化方法，将困难问题分解为更易于解决的子问题。在第一阶段生成低分辨率图像，并将其生成结果和隐层向量输入到图像生成的下一阶段来生成具有更加丰富的语义信息的细粒度图像。徐等人提出了注意力机制，根据自然语言描述中的相关词汇来获取不同子区域的细粒度细节图像。这种方法使得生成图像的视觉真实性和分辨率显著提高。乔等人提出的MirrorGAN模型，根据模型生成的图像重新生成文本描述，通过最小化该描述与真实文本之间的差异损失来增强生成图像与对应文本的语义一致性。然而，发明人发现，仅在图像生成的最后阶段计算该损失并不能获得最好的结果。生成图像与给定文本描述之间的语义一致性还有很大的改进空间。

发明内容

为了解决上述问题，本发明提供一种基于语义约束的堆叠文本生成细粒度图像方法及系统，其能够保证最终生成的图像具有良好的语义一致性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于语义约束的堆叠文本生成细粒度图像方法，其包括：

提取语义文本的句嵌入特征向量和词嵌入特征矩阵，均输入至堆叠细粒度图像生成网络中，生成细粒度图像；

所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络，且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。

本发明的第二个方面提供一种基于语义约束的堆叠文本生成细粒度图像系统，其包括：

文本特征提取模块，其用于提取语义文本的句嵌入特征向量和词嵌入特征矩阵；

细粒度图像生成模块，其用于将提取语义文本的相应特征均输入至堆叠细粒度图像生成网络中，生成细粒度图像；

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。

本发明的有益效果是：

本发明提取语义文本的句嵌入特征向量和词嵌入特征矩阵，并输入至堆叠细粒度图像生成网络中，生成细粒度图像；堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络，且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。运用深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束使生成图像在保证图像视觉真实性的同时最大程度地与输入文本的高级语义匹配。我们提出的堆叠细粒度图像生成网络生成的图像在视觉真实性和语义一致性上明显优于之前的方法，并在数据集上取得了良好的效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的堆叠细粒度图像生成网络结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于语义约束的堆叠文本生成细粒度图像方法，其包括：

提取语义文本的句嵌入特征向量和词嵌入特征矩阵，均输入至堆叠细粒度图像生成网络中，生成细粒度图像。

句嵌入特征向量和词嵌入特征矩阵是基于语义文本嵌入模块提取的。

在第一个图像特征转换网络中输入词嵌入特征矩阵

和句嵌入特征向量

生成低分辨率图像。我们使用条件增强方法来生成更多的文本模型数据，以降低有限的文本-图像数据对对模型训练过程的影响。条件增强函数F_ca可以表示为：

其中，

表示条件增强后的句嵌入特征向量,D′是

的向量维度。

参照图1，所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络，且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。

如图1所示，将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中，得到初始的粗粒度图像。根据图像特征向量计算出图像各子区域的文本相关度特征向量。将图像特征向量和相应的文本相关度特征矩阵输入到下一个图像特征转换网络中，生成较细粒度的图像。依次访问每个图像特征转换网络，得到最终的细粒度图像。

在具体实施中，利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度特征向量。

堆叠细粒度图像生成网络是基于注意力机制的图像生成网络，其有两个输入：词嵌入矩阵

以及上一阶段生成的隐层特征向量

其中D′是向量维度，N是生成图像的子区域个数。

通过增加一个新的感知器层U，将词嵌入特征矩阵w与图像特征向量映射到一个公共的语义空间。

w′＝Uw (2)

我们使用{F₀,F₁,...,F_m-1}表示m个图像特征转换器，{G0，G1，…，Gm-1}表示m个图像生成器,z表示引入的随机噪声。由多阶段网络逐步生成最终的细粒度图像的过程可以表示为：

I_i＝G_i(f_i),i∈{0,1,2,…,m-1} (3)

首先将词嵌入特征矩阵w和前一阶段的隐层特征向量输入图像特征转换器，然后利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度向量。将词嵌入特征矩阵w与图像特征向量映射到一个公共的语义空间w′，然后根据图像的隐藏层特征f_i计算出图像每个子区域的文本相关度特征向量。f的每一列表示图像的一个子区域对应的特征向量，I_i表示第i个阶段生成器根据隐藏层特征f_i生成的图像。

其中，β_j，i表示模型在生成图像的第j个子区域时文本中第i个单词的权重，c_j表示根据单词权重加权后的词嵌入特征矩阵。

图像特征向量的文本相关度特征矩阵可被定义如下：

F_attn(f，w)＝(c₀，c₁，c₂，...，c_N-1) (5)

其中，{c₀，c₁，...，c_N-1}表示生成图像的N个子区域对应的文本相关度特征向量。f和F_attn(f，w)可以输入到下一个图像特征转换器中，以获得更高像素级的细粒度图像。

所述堆叠细粒度图像生成网络还包括语义文本再生成模块，其用于根据生成的图像来编码出与该图像语义匹配的文本描述，进而形成语义再生成对齐约束。语义文本再生成模块根据生成图像编码出与之语义匹配的文本描述。通过一个基于Inception-v3模型的卷积神经网络(CNN)对生成图像进行编码，该模型将图像特征向量编码为语义特征向量。通过CNN的中间层学习图像不同子区域的局部特征，并通过最后一层学习图像的全局特征。语义文本再生成模块的解码器采用循环神经网络(RNN)。

r_-1＝CNN(I_m-1)

r_i＝W_eT_t，i∈{0，...，m-1}

p_i＝RNN(r_i)，i∈{0，...，m-1}t∈{0，...，L-1} (6)

其中，I_m-1是由网络中最后一个生成器生成的图像，r-1是开始时输入RNN的视觉特征，W_e是一个词嵌入特征矩阵，用于将词级特征映射到图像特征空间。T_t表示句子T中的第t个单词，L表示句子中单词的个数，p_i是一个预测的概率分布，r_i表示第i个阶段的视觉特征。我们计算出基于交叉熵的文本语义重构损失，以保证新生成的文本描述的底层语义与给定的文本描述相匹配。

基于语义约束的堆叠细粒度图像生成网络有三个重要约束：深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束。如果网络生成的图像在高级语义上与输入的文本描述一致，那么根据生成图像编码得到的再生成文本与输入的文本描述具有完全相同的语义。由于用于训练的文本-图像对的数目有限，训练生成对抗网络变得非常困难，我们使用条件增强方法来生成更多的文本模型数据，从而增强生成图像对文本流形上小扰动的鲁棒性。

深度多模态注意约束将图像编码器生成的图像特征向量映射到词嵌入语义空间，从而根据每个单词来衡量自然语言描述与生成图像的相似度，并计算细粒度损失。图像编码器是将生成的图像I映射到词嵌入语义空间的三维卷积神经网络，映射过程表示为：

其中，

是生成图像的全局特征，

中的每一个v_i表示图像的第i个子区域的隐藏层特征向量，D是词嵌入语义空间的维度，N是图像的子区域个数。通过感知层U将词嵌入特征矩阵w和句嵌入特征向量

映射到视觉特征的的底层公共语义空间，计算自然语言描述中的词与生成图像的子区域之间的相关度特征矩阵。我们将相关度特征矩阵规范化如下：

图像子区域特征向量定义为：

其中，γ₁是由实验决定的注意力因子，α_i，j表示生成器在生成图像的第j个子区域时语义描述中第i个单词的权重。整个图像特征向量的文本相关度特征矩阵可由(c₀，c₁，c₂，...，c_N-1)表示，N表示图像中子区域的个数。自然语言描述中的第i个单词w_i和图像的第i个子区域之间的余弦相似度为：

结合最小分类误差公式，我们将自然语言描述Te与整个生成图像之间的匹配度定义为：

其中，γ₂是由实验决定的相关系数。深度多模态注意约束是一种基于半监督学习的注意力模型，监督信息是自然语言描述w与整个生成图像的匹配度。第i个阶段只有Te_i的语义描述与图像I相匹配。

我们将词级损失

定义为图像与其对应的文本描述之间匹配度的负对数后验概率：

句级损失

可通过将R(Io_i，Te_i)修改为

来计算，由此可以得到深度多模态注意约束的损失函数如下：

在生成网络的每个阶段都要考虑语义再生成对齐损失，以提高生成图像与输入文本的语义一致性。如果生成模型生成的图像与给定的文本描述在语义上一致，那么根据生成图像编码得到的再生成文本应该具有与输入文本完全相同的高级语义。语义再生成对齐模块尝试根据生成图像编码生成与输入的文本描述具有一致语义的再生成文本描述。语义再生成对齐约束计算了基于交叉熵的文本语义重构损失，来保证再生成文本描述的底层语义与输入的文本描述一致。语义再生成对齐模型的最终损失函数表示如下：

其中，Te_t是整个自然语言描述Te中的第t个单词，p_t是预测概率分布，L是句中的单词数。我们根据自然语言描述利用该约束计算每个阶段的语义再生成对齐损失，将每个阶段的语义再生成对齐损失相加作为该次生成的最终语义再生成对齐损失。网络最终的语义再生成对齐损失定义如下：

其中，

表示第i个阶段的语义再生成对齐损失，F表示网络模型的迭代次数。

文本语义嵌入约束计算两种对抗损失：视觉真实性对抗损失和图像语义一致性对抗损失。在生成网络的第i个阶段，生成器G_i的对抗损失定义如下：

其中，u_i表示此阶段使用的高斯条件变量，无条件损失

表示图像在视觉上的真假，条件损失

表示图像在高级语义上与输入文本的匹配程度。我们将生成器和鉴别器进行交替训练，最小化交叉熵以提高鉴别器判断输入图像真实性的能力。对抗性损失定义如下：

其中，x_i表示在第i个阶段服从真实图像分布Pdata的图像，

表示在第i个阶段服从生成图像分布PG_i的图像。

我们在生成网络的每个阶段都进行一次语义对齐，语义对齐损失定义如下：

其中，Te_t，i表示在第i个阶段自然语言描述Te中的第t个单词，L表示句中的单词数，p_t，i表示在第i个阶段第t个单词的预测概率分布。

语义校对损失可表示如下：

本实施例提出的堆叠细粒度图像生成网络有三个方面的贡献：(1)根据文本描述中每个单词对图像不同子区域的影响程度生成图像各子区域的细粒度图像。(2)根据模型生成的图像重新编码得到再生成文本描述，通过最小化该描述与真实文本之间的差异损失来增强生成图像与对应文本的语义一致性。(3)最终的损失函数由每个阶段的文本对齐损失组成，以保证最终生成的图像具有良好的语义一致性。

虽然现有的模型可以基于全局约束(如类标签或标题)来生成图像，但在生成图像与对应文本的视觉真实性和语义一致性上仍有较大的提升空间。我们提出了一个新颖的堆叠细粒度图像生成网络，该网络将图像的生成划分为三个阶段，首先根据文本内容生成基于句嵌入的粗粒度图像，然后运用注意力机制计算出文本描述中每个单词对图像各子区域的影响程度，结合由生成图像编码得到的再生成的文本与原始文本间的匹配损失，在每个阶段逐步生成具有更高视觉真实性和语义一致性的细粒度图像。生成器的训练基于三个约束：深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束。我们的方法在生成图像的视觉真实性和语义一致性方面明显优于之前的方法，并且优于当前CUB数据集上相关生成模型的最佳结果。

实施例二

本实施例提供了一种基于语义约束的堆叠文本生成细粒度图像系统，其包括：

本实施例的基于语义约束的堆叠文本生成细粒度图像系统与基于语义约束的堆叠文本生成细粒度图像方法中的步骤一一对应，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义约束的堆叠文本生成细粒度图像方法，其特征在于，包括：

提取语义文本的句嵌入特征向量和词嵌入特征矩阵，均输入至堆叠细粒度图像生成网络中，生成细粒度图像；在生成细粒度图像的过程中，将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中，得到初始粗粒度图像；

所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络，且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性；

深度多模态注意约束的损失函数：

将词级损失

句级损失

可通过将R(Io_i,Te_i)修改为

在生成网络的每个阶段都进行一次语义对齐，语义对齐损失定义如下：

其中，Te_t，i表示在第i个阶段自然语言描述Te中的第t个单词，L表示句中的单词数，p_t，i表示在第i个阶段第t个单词的预测概率分布；

语义校对损失可表示如下：

2.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法，其特征在于，在得到初始的粗粒度图像之后，还包括：

提取当前粒度图像的图像特征向量，计算出当前粒度图像各子区域的文本相关度特征向量；

将当前粒度图像的图像特征向量和相应的文本相关度特征矩阵输入到下一个图像特征转换网络中，生成较细粒度的图像。

3.如权利要求2所述的基于语义约束的堆叠文本生成细粒度图像方法，其特征在于，利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度特征向量。

4.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法，其特征在于，基于图像特征向量和相应的文本相关度特征矩阵依次访问每个图像特征转换网络，得到最终的细粒度图像。

5.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法，其特征在于，所述堆叠细粒度图像生成网络还包括语义文本再生成模块，其用于根据生成的图像来编码出与该图像语义匹配的文本描述，进而形成语义再生成对齐约束。

6.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法，其特征在于，深度多模态注意约束用于将图像编码器生成的图像特征向量映射到词嵌入语义空间，根据每个单词来衡量自然语言描述与生成图像的相似度，并计算细粒度损失；

或文本语义嵌入约束用于计算两种对抗损失：视觉真实性对抗损失和图像语义一致性对抗损失。

7.一种基于语义约束的堆叠文本生成细粒度图像系统，其特征在于，包括：

细粒度图像生成模块，其用于将提取语义文本的相应特征均输入至堆叠细粒度图像生成网络中，生成细粒度图像；在生成细粒度图像的过程中，将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中，得到初始粗粒度图像；

深度多模态注意约束的损失函数：

将词级损失

句级损失

可通过将R(Io_i,Te_i)修改为

其中，Te_t，u表示在第u个阶段自然语言描述Te中的第t个单词，L表示句中的单词数，p_t，i表示在第i个阶段第t个单词的预测概率分布；

语义校对损失可表示如下：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。