CN110490946A

CN110490946A - 基于跨模态相似度和生成对抗网络的文本生成图像方法

Info

Publication number: CN110490946A
Application number: CN201910635075.XA
Authority: CN
Inventors: 赵生捷; 缪楠; 史清江; 张�林
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-22
Anticipated expiration: 2039-07-15
Also published as: CN110490946B

Abstract

本发明涉及一种基于跨模态相似度和生成对抗网络的文本生成图像方法，包括：步骤S1：使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型，其中，三个模型分别用于得到文本与图像的全局表示、局部表示和关系表示；步骤S2：利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示；步骤S3：将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示；步骤S4：利用F^ca条件增强模块待处理文本的文本表示转换为条件向量；步骤S5：将条件向量输入生成器得到生成的图像。与现有技术相比，本发明具有考虑了局部和关系信息等优点。

Description

基于跨模态相似度和生成对抗网络的文本生成图像方法

技术领域

本发明涉及图像检索匹配技术，尤其是涉及一种基于跨模态相似度和生成对抗网络的文本生成图像方法。

背景技术

近年来，深度神经网络DNNs取得了巨大的成功，尤其是针对判别任务而训练的神经网络模型。例如，卷积神经网络CNNs在计算机视觉中展现了伟大的前景。但是判别模型专注于表征学习，而不能够捕捉到数据分布。学习可以解释复杂数据分布的生成模型是深度学习领域一个长期的难题。作为它的一个子问题，基于生成对抗网络GANs的文本生成图像取得了一系列进展。

将文本作为条件送入生成器和判别器中，这些基于生成对抗网络GANs的深度学习模型可以产生和输入文本语义上相近且丰富多彩的图像结果。但是这些条件生成对抗网络只基于总体的文本表达而缺少详细的局部信息，从而无法生成清晰的高质量图像。因此，现有的基于GAN的成功只局限于小型样本库，对于有很多物体的复杂图像生成，仍然是一个挑战。

但不同于普通的文本生成图像问题，本发明基于多层级的文本描述，分别是全局描述、局部描述和关系描述，生成有很多物体和关系的复杂图像。这使得本发明不仅可以捕捉到全局信息，同时可以注意到详细的局部信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于跨模态相似度和生成对抗网络的文本生成图像方法。

本发明的目的可以通过以下技术方案来实现：

一种基于跨模态相似度和生成对抗网络的文本生成图像方法，包括：

步骤S1：使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型，其中，所述全局一致性模型、局部一致性模型和关系一致性模型分别用于得到文本与图像的全局表示、局部表示和关系表示；

步骤S2：利用训练好的全局一致性模型、局部一致性模型和关系一致性模型得到待处理的文本的全局表示、局部表示和关系表示；

步骤S3：将待处理文本的全局表示、局部表示和关系表示串联得到待处理文本的文本表示；

步骤S4：利用F^ca条件增强模块待处理文本的文本表示转换为条件向量；

步骤S5：将条件向量输入生成器得到生成的图像。

对于全局表示：

每个输入图像被调整为299×299的大小，然后被送入卷积神经网络，获得一个高级的全局视觉特征；

使用递归神经网络来处理文本数据，所述递归神经网络为双向LSTM模型来，所述双向LSTM模型抽取语义向量，在双向LSTM模型中，每个单词对应两个潜在状态，串联这两个潜在状态来表示每个单词的语义信息。

对于局部表示：

每个图像被送入基于VGG-16的Fater R-CNN模型，得到多个边界框，将边界框中的图像从原图中裁出，并当作单个子图像处理，送入卷积神经网络得到各单个子图像的全局表示，并将所有单个子图像的全局表示组合得到图像的局部表示；

分解文本得到多个单词，利用双向LSTM和注意力机制得到文本的局部表示。

所述卷积神经网络是基于Inception-v3网络设计的，并使用Inception-v3最后的平均池化层结果作为图像的全局表示。

所述文本的局部表示为：

其中：l^t为文本t的局部表示，m为文本中的单词个数，为单词k的注意力权重，为单词k的语义表示向量。

所述文本的关系表示为：

其中：r^t为文本t的关系表示，m为文本中的单词个数，为单词k的注意力权重，为单词k的语义表示向量。

所述步骤S1中的训练过程中，总损失函数为：

其中：为总损失函数，为全局表示匹配的损失函数，λ_g为全局表示匹配的权重，为局部表示匹配的损失函数，λ_l为局部表示匹配的权重，为关系表示匹配的损失函数，λ_r为关系表示匹配的权重。

所述全局表示匹配的损失函数为：

其中：为局表示匹配的损失函数，N是样本数量，为匹配图像，为匹配文本，为不匹配文本，为使用匹配文本图像对和不匹配文本图像对(匹配图像，不匹配文本)的损失函数，为使用匹配文本图像对和不匹配文本图像对(不匹配图像，匹配文本)的损失函数，α表示边际向量，d(·)为点乘计算，表示全局表示的匹配对，和是全局表示的不匹配对。

所述局部表示匹配的损失函数为：

其中：为局部表示匹配的损失函数，K为最近邻的个数，为局部表示的匹配对，为局部表示的不匹配对.

所述关系表示匹配的损失函数为：

其中：为关系表示匹配的损失函数，为关系表示的匹配对，为关系表示的不匹配对。

与现有技术相比，本发明具有以下有益效果：

1)综合考虑了全部、局部和关系信息，从而使得最终生成的图像更加丰富，提高了图像生成、检索的能力。

2)研究面向具有很多物体和关系的复杂图像生成问题，采用合适的条件生成对抗网络模型及其训练优化理论算法，输出高质量的复杂图像。

附图说明

图1为本发明方法的主要步骤流程示意图；

图2为跨模态相似度模型的示意图；

图3为跨模态相似度模型CRAN训练示意图；

图4为条件增强模块的示意图；

图5为文本生成图像模型RAGAN示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种基于跨模态相似度和生成对抗网络的文本生成图像方法，该方法以计算机程序的形式由计算机系统实现，实现时，如图1所示，包括以下步骤：

步骤S1：使用匹配和不匹配的数据训练全局一致性模型、局部一致性模型和关系一致性模型，其中，全局一致性模型、局部一致性模型和关系一致性模型分别用于得到文本与图像的全局表示、局部表示和关系表示；

如图3所示的多层级匹配来计算文本和图像的语义相似性得到如图2所示的跨模态相似度模型。

使用D＝{T，I}表示数据库，其中文本表示为图像表示为每个模型都有N个样本。

如图2所示，跨模型相似度模型主要包括以下三个子模型，分别是全局一致性模型、局部一致性模型和关系一致性模型。本申请对文本和图像抽取全局表示、局部表示和关系表示，以对文本-图像匹配提供大量信息。

首先，对于全局表示，每个输入图像i_p被调整为299×299的大小，然后被送入卷积网络，获得一个高级的全局视觉特征。具体来说，卷积神经网络是基于Inception-v3网络设计的。本发明使用Inception-v3最后的平均池化层结果作为图像的全局表示。每个文本t_q被看作一个字符串，使用递归神经网络来处理文本数据。具体来说，使用双向LSTM模型来抽取语义向量。在双向LSTM模型中，每个单词对应两个潜在状态。因此，串联这两个潜在状态来表示每个单词的语义信息，例如因此，文本的全局表示可以表示为

其次，对于图像的局部表示，使用Faster R-CNN模型来获得候选图像区域，其有很大概率包含视觉物体，例如人或是桌子。具体来说，每个i_p被送入基于VGG-16的Faster R-CNN模型。这样，可以得到几个边界框，将边界框中的图像从原图中裁出，并当作单个图像处理，送入卷积神经网络，抽取Inception-v3最后的平均池化层结果作为图像的视觉特征。这样，就形成了一个图像的局部表示对于文本的局部表示，使用双向LSTM来获得一串输出。在双向LSTM中，每个单词对应两个潜在状态。因此，串联这两个潜在状态来表示每个单词的语义信息。因此，对于m个不同的文本块，特征矩阵被表示为此外，需要使模型专注于必要的细粒度部分，采用注意力机制来捕捉有用的文本块。使用带有softmax函数的前馈网络来计算注意力权重，如下所示：

其中，a^l表示每个文本块的注意力权重。注意力权重越大的文本块更有可能包含一些描述相关视觉物体的关键单词。因此，得到文本局部表示：

最后，对于关系表示，需要综合考虑图像区域之间的关系，和文本块之间的关系。对于图像区域来说，使用上述提到的从Faster RCNN中抽取出的视觉特征，构建一个图像中的区域之间的成对组合，以考虑它们之间的关系。因此，图像关系表示为j，k＝1，...，n，，其中{.；.}表示第j个和第k个局部图像表示的串联。对于文本关系，同样使用注意力机制和双向LSTM模型来获得一组特征注意力机制被用在双向LSTM的顶部输出。对不同文本块，计算其注意力权重a^r，注意力权重越大，其文本内容就有更大概率包含关系表达，例如旁边，下面等等，其表达了关键词之间的关系。因此，最后产生文本关系表示为：

已经获得了图像和文本的三类表示，分别是全局、局部和关系表示，通过学习多层级匹配来探索其跨模态的相似性。

对于全局匹配，我们的目标是学习不同模态类型之间的成对跨模态相关性，如图像gⁱ和文本g^t。我们设计了用于全局对齐的跨模态损失函数。考虑到匹配文本图像对的相似性与不匹配对的相似性之间的差异应尽可能大。因此，全局表示匹配的损失函数为：

对于局部匹配，在文本局部表示l_t和多个图像局部表示中找到最匹配的对。具体来说，对于每个文本局部表示，从多个图像局部表示选择K个近邻(KNN)。并给出如下损失函数定义，

其中：为局部表示匹配的损失函数，K为最近邻的个数，为局部表示的匹配对，为局部表示的不匹配对，匹配对中的K个近邻局部对的平均值应该尽可能大，相比于不匹配对。

对于关系匹配，在文本关系表示r_t和多个图像关系表示中找到最匹配的对。

类似于局部匹配，对于每个文本关系表达，从多个图像关系表示选择K个近邻(KNN)。并给出如下损失函数定义，

其中：为关系表示匹配的损失函数，为关系表示的匹配对，为关系表示的不匹配对，匹配对中的K个近邻关系对的平均值应该尽可能大，相比于不匹配对。

最终，CRAN模型损失函数被定义为：

本发明使用的CRAN模型通过最小化来对真实图像-文本对进行预训练。给定一对文本和图像，CRAN模型的目的就是计算出文本t_q和图像i_p的跨模态相似性sim(t_q，i_p)。综上所述，使用CRAN计算生成图像样本s_m和输入文本t的相似度值：

其中：sim(t_q，i_p)为文本t_q和图像i_p的跨模态相似性，gⁱ为图像的全局表示，g^t为文本的全局表示，为图像的局部表示，l^t为文本的局部表示，为图像的关系表示，r^t为文本的关系局部表示。

本申请提出了一种新的变种生成对抗网络GAN架构，称作关系注意力生成网络RAGAN，在RAGAN中，每个生成的图像样本都有一个相应的文本描述t和噪音z。调用CRAN中的文本编码器，每个文本描述有三个表示，分别是全局表示g_t，局部表示l_t和关系表示r_t。

如图5所示，条件文本描述t由CRAN中的文本编码器编码，生成文本描述的全局表示g_t，局部表示l_t和关系表示r_t，将三者串联起来获得文本向量之前，对文本向量进行非线性转化从而产生生成器的条件变量。但是，以文本为条件的潜在空间通常是高维度的(>100维)。在有限的数据量情况下，通常会导致数据的不连续性，对于生成器而言，这是不可取的。

为了解决这个问题，采用了条件增强技术，如图4所示，来为生成器产生更多的条件变量。从独立高斯分布进行采样，其中均值和协方差是文本变量的函数。图4中的F^ca是条件增强模块，将文本向量转换为条件向量。

步骤S5：将条件向量输入生成器得到生成的图像。

以文本描述为条件，不直接生成高分辨率图像，将生成图像任务简化，分层从低到高分辨率模拟图像分布。为了使生成对抗网络更具普遍性，本发明使用一种端到端的模型，来模拟一系列多尺度图像分布。如图5所示，RAGAN包含一个树状结构的许多个生成器和判别器。不同分辨率的图像在树的各个分支上生成。在每个分支上，生成器捕捉相应分辨率上的图像分布，判别器判别生成样本和相应尺寸的真实图像。联合训练生成器，来逼近多层分布。

本申请探讨了多尺寸图像分布。RAGAN使用条件变量c和噪音z～p_noise作为输入，并使用多层生成器来产生不同尺寸的图像。p_noise是一个先验分布，通常采用标准正态分布。潜在变量z一层一层被转换为隐层特征。使用一个非线性转换来计算每个生成器G_i的隐层特征h_i。

h₀＝F₀(z)；

h_i＝F_i(h_i-1，z)，i＝1，2，...，m-1，

其中，h_i表示第i个分支的隐层特征，一共有m个生成器，F_i是神经网络模型。为了捕捉之前分支产生的信息，条件向量c和噪音z串联在隐层特征h_i-1作为F_i的输入，从而计算h_i。基于不同层的隐层特征(h₀，h₁，...，h_m-1)，生成器产生从小到大尺寸的样本(s₀，s₁，...，s_m-1)，

s_i＝G_i(h_i)，i＝0，1，...，m-1，

其中，G_i是第i个分支的生成器。

每个生成器G_i有一个对应的判别器D_i，通过最小化如下交互熵损失函数来训练。

其中s_i是每个生成器G_i产生的图像样本。通过已训练好的判别器的指导，生成器通过最小化如下损失函数，联合逼近多尺度图像分布进行优化。

其中，是逼近第i个分支的图像分布的损失函数，sim(t，s_m)是文本描述和第m个分支的生成图像样本的相似度值。在实际训练中，生成器和判别器依次优化直至收敛。

最后，综合考虑文本图像相似性、图像多样性、图像清晰度，本发明提出一种面向文本生成图像算法的评价指标，使用该评价指标对模型所生成的图像质量进行评价。

Index＝λ₁Inception Score+λ₂Similarity Score

其中，Inception Score评价图像的多样性和清晰度，Similarity Score描述文本图像的相似性。本专利将生成图像样本送入Inception模型，获得条件标签分布p(y|x)。图像清晰度高的生成图像样本的条件标签分布p(y|x)的熵比较低。图像多样性好的生成图像样本的边际和的熵更高。综合考虑图像多样性和清晰度，使用作为Inception Score。本专利将生成图像样本送入预训练好的跨模态相似度模型，使用计算得到的跨模态多层相似度值作为Similarity Score。

Claims

1.一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，包括：

步骤S5：将条件向量输入生成器得到生成的图像。

2.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，对于全局表示：

3.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，对于局部表示：

4.根据权利要求2或3所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，所述卷积神经网络是基于Inception-v3网络设计的，并使用Inception-v3最后的平均池化层结果作为图像的全局表示。

5.根据权利要求3所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，所述文本的局部表示为：

6.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，所述文本的关系表示为：

7.根据权利要求1所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，所述步骤S1中的训练过程中，总损失函数为：

8.根据权利要求7所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，所述全局表示匹配的损失函数为：

其中：为局表示匹配的损失函数，N是样本数量，为匹配图像，为匹配文本，为不匹配文本，为使用匹配文本图像对和匹配图像但不匹配文本的不匹配文本图像对的损失函数，为使用匹配文本图像对和不匹配图像但匹配文本的不匹配文本图像对的损失函数，α表示边际向量，d(·)为点乘计算，表示全局表示的匹配对，和是全局表示的不匹配对。

9.根据权利要求8所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，所述局部表示匹配的损失函数为：

其中：为局部表示匹配的损失函数，K为最近邻的个数，为局部表示的匹配对，为局部表示的不匹配对。

10.根据权利要求9所述的一种基于跨模态相似度和生成对抗网络的文本生成图像方法，其特征在于，所述关系表示匹配的损失函数为：