CN114022687A

CN114022687A - 一种基于增强学习的图像描述对抗生成方法

Info

Publication number: CN114022687A
Application number: CN202111120908.2A
Authority: CN
Inventors: 王蕊; 吕飞霄; 李太豪; 裴冠雄
Original assignee: Institute of Information Engineering of CAS; Zhejiang Lab
Current assignee: Institute of Information Engineering of CAS; Zhejiang Lab
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-02-08
Anticipated expiration: 2041-09-24
Also published as: CN114022687B

Abstract

本发明公开了一种基于增强学习的图像描述对抗生成方法，包括如下步骤：S1，根据待描述图像检索相似图像及其文本描述；S2，构建基于注意力机制的图像描述生成网络，在待描述图像生成文本时，引入注意力机制和长短期记忆网络，将长短期记忆网络的输出，结合提取的图像特征，经过注意力机制，计算损失，得到生成的文本描述；S3，构建图像描述相似性配对判别网络；S4，利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述，及其相似图像的文本描述，通过判别网络进行配对判别，根据判别网络输出的奖励值，对生成网络和判别网络进行联合迭代优化；S5，将待生成描述的图像，输入训练后的生成网络，生成文本描述。

Description

一种基于增强学习的图像描述对抗生成方法

技术领域

本发明涉及计算机视觉与NLP的交叉技术领域，尤其是涉及一种基于增强学习的图像描述对抗生成方法。

背景技术

图像描述是一项新兴的研究任务。在过去的二十年中，自然语言处理(NLP)和计算机视觉(CV)领域在分析和生成文本以及图像理解方面取得了巨大的进步。虽然这两个领域都有一套基于机器学习和人工智能的方法，但是它们在过去的研究中是分开的，并且在科学界的交互并不多。然而近年来，随着人工智能领域的进步和深度学习模型的发展，学者们对语言和视觉信息的结合问题产生了越来越多的兴趣。与此同时，网络上出现了大量文字和视觉信息结合的数据，比如：带有标签的照片，报纸插图，以及社交媒体上的多模态信息。这些数据的出现，更加使得基于深度学习的图像描述模型受到越来越多的关注。

当前，图像描述模型的局限性在于所生成的描述往往由普通单词组成，因此许多图像具有相似的描述。图像中的独特性概念被忽略，这限制了图像描述的应用。现有图像描述方法的结果往往不具有区分性，生成的描述比较通用和死板，描述模型的能力有限。尽管可以使用辅助信息(例如在何处，何时何地拍摄照片)来生成个性化的描述，但是大多数图像没有类似信息。在生成描述的质量方面，早期的方法已经提出了各种模型和度量来改善描述的流畅性和相关性，以获得准确的结果。但是，这些描述在生成描述的独特性方面表现得并不是很好，即图像描述模型生成的描述在将该图像与其他相似图像区分开的方面表现不佳。

最近的一些工作开始关注图像描述的独特性，并受到计算机视觉方面的启发，开始使用深度学习的方法解决存在的问题。例如，通过条件生成式对抗网络(GAN)生成更加独特的描述，通过自我检索和两阶段长短期记忆模型(LSTM)等技术来产生更多多样的描述性描述。生成式对抗网络的方法通过对抗学习，虽然改善了所生成描述的多样性，但牺牲了评估标准上的总体性能，在生成描述的准确性和流畅性方面表现难以满足当前的期待。

与图像描述的相似性和独特性相关的图像检索，近年来也受到了较多的关注。近年来表现较好的图像检索模型，将处于两个空间的图像和描述，按照语义关系映射到同一空间中，可以使得相似语义的图像和描述的距离更加接近。其中表现较好的方法是VSE++，它分析了难样本并把图像和描述映射到同一空间。基于这类工作，图像描述的多样性和独特性便可以顺利地度量和区分。这种方法使得图像描述工作更加智能和灵活，出现了一些以图像检索为基础的图像描述模型。这样以图像检索指导的描述框架不仅可以更好地区分不同图像的描述，而且可以从其他相似图像中获得特征信息，从相似数据中提取阴性样本可以进一步提高图像描述的独特性和区分性，不需要更多的额外注释。图像检索的进步对图像描述独特性的研究产生了很大的帮助，但图像描述中的描述生成独特性，仍有待提高。

发明内容

为解决现有技术的不足，实现提高图像描述的描述生成独特性的目的，本发明采用如下的技术方案：

一种基于增强学习的图像描述对抗生成方法，包括如下步骤：

S1，通过图像检索，为数据集中的待描述图像检索相似图像，所述数据集包括图像及其对应的一组文本描述；

S2，构建基于注意力机制的图像描述生成网络，为待描述图像生成文本描述的过程中，引入注意力机制和长短期记忆网络，将长短期记忆网络的输出，结合提取的图像特征，经过注意力机制和全卷积网络，计算交叉熵损失，获得单词输出，通过各单词，得到生成网络生成的文本描述；

S3，构建图像描述相似性配对判别网络，对输入的图像和文字描述，进行配对判别，根据判别网络输出是否配对的概率，作为强化学习的奖励值；

S4，利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述，及其相似图像的文本描述，通过判别网络进行配对判别，根据奖励值，使用对抗损失和强化学习的训练策略，对生成网络和判别网络进行联合迭代优化；

S5，将待生成描述的图像，输入训练后的生成网络，为该图像生成文本描述。

进一步地，所述S2包括如下步骤：

S21，提取图像特征a_i；

S22，为LSTM的输入，引入第一注意力机制；每层长短期记忆网络LSTM的输入为a_i·α，α表示第一注意力权重矩阵，用于记录a_i每个像素位置获得的关注度，α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得，公式为：

x_t＝a¹·W¹a_i

a¹＝W¹ _hh_t-1·W¹ _aa_i

其中，x_t表示当前时期LSTM的输入，a¹表示第一注意力权重矩阵，h_t-1表示前一时期LSTM的隐变量输出，a_i表示图像特征，W¹、W¹ _h、W¹ _a表示引入LSTM输入的第一注意力机制的可学习的权重矩阵；

S23，为LSTM的输出，引入第二注意力机制，对文本描述进行解码；LSTM的每层输出为w_t，是a_i与该层隐变量h_t经过注意力机制的结果，公式如下：

w_t＝a²·W²a_i

a²＝W² _hh_t·W² _aa_i

其中，a²表示第二注意力权重矩阵，W²、W² _h、W² _a表示引入LSTM输出的第二注意力机制的可学习的权重矩阵。

进一步地，所述S3中的判别网络，对输入的图像，通过卷积网络，进行特征提取，对输入的文字描述，通过LSTM得到文字特征，对二者做内积，进行配对判别，通过全连接层进行特征融合，输出一个是否匹配的概率，作为强化学习的奖励值。

进一步地，所述S4中，判别网络的目标损失函数：

其中I表示数据集中的图像，x表示与图像匹配的文本描述，S_r表示数据集中匹配的图像与文本描述对，D(·)表示判别网络，E[·]表示对[·]中求均值；

表示生成网络生成的文本描述，S_f表示图像与生成网络生成的文本描述对；

表示相似图像的文本描述，S_w表示数据集中不匹配的图像与文本描述对，λ₁、λ₂、λ₃、β为超参数。

第一项确保图像和描述的匹配，第二个项使得判别网络区分标注描述和生成的描述，推动它生成更自然的描述，第三个项抑制不配对的图像和描述，来确保语义相关性。

进一步地，所述S1的图像检索，是利用难样本改善联合语义嵌入的图像检索，将图像及其对应的文本描述，联合嵌入公共空间，得到表述图像和描述文本语义的跨模态空间，在跨模态空间中检索，得到与目标图像语义上相似的N张图像，包括如下步骤：

S11，将文本描述与图像映射到统一子空间，采用二者的内积计算相似度：

s(i，c)＝f(i；w_f，θ_φ)·g(c；w_g，θ_ψ)

其中f(·)表示图像特征提取，i表示图像，w_f表示图像特征提取的权重，θ_φ表示卷积网络的参数，

表示图像特征提取的学习参数，φ(·)表示卷积网络，g(·)表示文字特征提取，c表示文字，w_g表示文字特征提取的权重，θ_ψ表示序列网络的参数，

表示文字特征提取的学习参数，ψ(·)表示序列网络，s(·)表示图像与文字特征内积，即二者相似度度量的内积；

S12，通过三元组损失进行训练，损失函数公式为：

其中i表示目标图像，

表示对应负样本描述，c表示目标描述，

表示负样本图像，σ表示三元组损失训练的注意力权重矩阵，优化目标为最大化L(i，c)；

S13，为避免描述来自同一图像，从中为数据集中的每个图像，检索一组相似描述，从这组相似描述中，找到前N张对应图像，作为检索到的相似图像。

进一步地，所述S4中的训练策略，采用强化学习自我批判算法进行训练，以贪婪搜索的解码结果作为基准，通过判别网络根据图像与文本描述配对生成的奖励值，更新整体生成网络的网络参数。SCST算法的训练策略抛弃自行设计一个基线的想法，通过平衡训练和测试这种自批判的算法，调整系统的性能参数。

进一步地，所述S23中，长短期记忆网络得到的当前时期单词的词嵌入向量，通过词袋模型，获得该层最终的单词输出。

进一步地，图像特征提取采用卷积网络VGG16，文字特征提取采用序列网络GRU。

进一步地，所述超参数λ₁、λ₂、λ₃的取值分别为1、0.5、0.5。

进一步地，当存在5张相似图像的及每张5个文本描述，共计25个相似文本描述时，超参数β的取值为0.02。

本发明的优势和有益效果在于：

本发明采用基于检索的方式，对相似图像之间的描述进行细致的分析，提高生成描述的独特性；整个过程采用强化学习与对抗网络联合训练的方式，提高了生成描述的多样性；生成模型采用注意力机制进行描述的生成，关注到图像的不同区域，得到更加符合图像本身的描述；判别模型采用拉远与相似图像的描述距离的方式，并加大与匹配描述的权重，保证了描述与图像的配准保真度。

附图说明

图1是本发明方法的网络架构及流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明首先采用了利用难样本改善联合语义嵌入的图像检索方法(VSE++)，对数据集MSCOCO，Flickr30K进行训练，将图像和文字描述映射到同一个空间里，利用三元组损失，进而得到训练好的相似图像和描述文字共空间的模型；之后依靠生成式对抗网络(GAN)生成独特性较强的图像，具体地，利用生成网络对图像数据进行特征提取，生成输入图像的描述，并利用判别网络和区别性损失，将该描述与相似图像的其他描述区分开。整个发明为两阶段的图像描述方法，加强了生成描述的多样性和独特性。

如图1所示，一种基于增强学习的图像描述对抗生成方法，包括如下步骤：

S1，根据MSCOCO以及Flickr30K两个数据集的图像及与之匹配的5个描述，将图片重塑为224*224大小后作为输入，通过利用难样本改善联合语义嵌入的图像检索方法VSE++，并使用VGG16提取图像特征，文本描述采用GRU将文本与图像映射到同一个子空间，二者相似度度量采用二者的内积进行计算，通过卷积网络VGG16与序列网络GRU分别得到图像和文本特征：

s(i，c)＝f(i；w_f，θ_φ)·g(c；w_g，θ_ψ)

其中f(·)表示图像特征，i表示图像，w_f表示图像特征提取的权重，θ_φ表示卷积网络的参数，

表示图像特征提取的学习参数，φ(·)表示卷积网络VGG16，g(·)表示文字特征提取，c表示文字，w_g表示文字特征提取的权重，θ_ψ表示序列网络的参数，

表示文字特征提取的学习参数，ψ(·)表示序列网络GRU，s(·)表示图像与文字特征内积，即二者相似度度量的内积。

最终采用三元组损失triplet loss训练，损失函数公式为：

其中i表示目标图片，

表示对应负样本描述，c表示目标描述，

表示负样本图像，σ表示三元组损失训练的注意力权重矩阵，优化目标为最大化L(i，c)。

之后跨模态空间训练完成，为避免描述来自同一图像，从中为数据集中每个图像检索25个相似描述，从这些描述中找到前五个对应图像，完成语义相似的图像检索阶段，为每张图像检索五个相似图像。

S2，基于注意力机制的对抗生成图像描述方法，构建基于注意力机制的图像描述生成网络，该生成网络，改进Show，attend and tell的思想，在描述生成的过程中引入注意力机制，使用图像特征提取的基于卷积神经网络(CNN)的注意力特征提取网络，用于对图像进行编码，将提取的图像特征，加入长短期记忆网络，对编码特征解码成文字描述，生成图像描述。

编码过程输入为图像I，将图像归一化到224*224，使用预训练的卷积网络VGG16中第五层卷积的conv5_3所输出的特征，得到512维的图像特征{a_i}。解码过程输入为该512维图像特征{a_i}，模型采用长短期记忆模型LSTM，其每个时期的输出，结合图像特征经过注意力机制和全卷积网络，经过计算交叉熵损失获得该层最终的单词输出。注意力机制采用以下规则：图像特征为512维的a_i，每层LSTM的输入部分由a_i·α获得，α表示编码阶段注意力权重矩阵，用于记录a_i每个像素位置获得的关注度(注意力)。α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得，公式为：

x_t＝a¹·W¹a_i

a¹＝W¹ _hh_t-1·W¹ _aa_i

其中，x_t表示当前时期LSTM的输入，a¹表示编码阶段第一注意力权重矩阵，h_t-1表示上一时期隐变量输出，a_i表示图像特征，W¹、W¹ _h、W¹ _a表示LSTM输入注意力机制的可学习的权重矩阵。LSTM的每层输出为w_t，是a_i与该层隐变量h_t经过注意力机制的结果，公式如下：

w_t＝a²·W²a_i

a²＝W² _hh_t·W² _aa_i

其中，a²表示编码阶段第二注意力权重矩阵，W²、W² _h、W² _a、表示LSTM输出注意力机制的可学习的权重矩阵。

S3，构建图像描述相似性配对判别网络，利用相似图像进行图像与描述的配对判别，根据配对情况生成强化学习的奖励值。

图像描述相似性配对判别网络，采用简单的卷积网络VGG16得到图像特征，并将对应的3种描述通过LSTM得到文字特征。3种描述为：生成网络生成的描述、该图像标注的配对描述、5个相似图像的总共25个描述。之后得到的特征通过相乘，得到内积的形式，通过全连接层进行特征融合，并给出奖励分数。最终得到的判别网络的目标损失函数：

其中I表示该图像，x表示数据集中匹配的图像描述，S_r表示数据集中匹配的图像描述对，D(·)表示判别网络，E[·]表示对[·]中求均值；

表示生成网络生成的描述，S_f表示图片与生成网络生成的描述对；

表示相似图像的描述，S_w表示数据集中不匹配的图像描述对，λ₁、λ₂、λ₃为超参数分别为1、0.5、0.5。β为超参数，由于存在25个相似描述，因此设置为0.02。

第一项确保图像和描述的匹配，第二个项使得判别网络区分标注描述和生成的描述，推动它生成更自然的描述，第三个项抑制不配对的图像和描述，来确保语义相关性。该判别网络对生成的描述，经过全连接层，输出一个是否匹配的概率，作为强化学习的奖励值R。

S4，最终通过对抗损失和强化学习策略进行联合迭代优化。考虑到希望测定获得描述的独特性与保真度，因此使用BLEU和CIDEr评分算法作为最终的评价标准。

具体地，根据奖励值，使用强化学习的训练策略进行联合优化和训练，强化学习的训练策略采用强化学习自我批判算法(SCST)，采用贪婪搜索的解码结果作为基准，通过图像描述配对，判别网络生成的奖励值得分，来更新整体生成网络的网络参数。SCST算法的训练策略抛弃自行设计一个基线的想法，通过平衡训练和测试这种自批判的算法，调整系统的性能参数。

S5，测试阶段，包括如下步骤：

1)将测试图像输入训练好的基于注意力机制的图像描述生成网络中，输出对应该测试图像的描述。

2)对该描述与标注的匹配描述进行BLEU以及CIDEr标准的计算和测量，作为最终输出描述的结果评价。

本实施例的测试环境及实验结果为：

(1)测试环境：

系统环境：ubuntu16.04；

硬件环境：内存：16GB，GPU：TITIANXP，硬盘：1TB；

(2)实验数据：

训练数据：

使用Flickr30K以及MSCOCO数据集两个数据集分别进行训练和测试，训练到模型稳定，效果不再提升。

测试数据：Flickr30K以及MSCOCO的测试数据集

评估方法：在线评估

(3)实验结果：

本发明测试对比结果如表1所示，使用本发明方法得到的BLEU-2、BLEU-3、BLEU-4、CIDEr评分值均高于未使用本发明方法得到的评分值。其中“未使用本发明方法”，代表未检索相似图像进行对抗学习并未使用增强学习的方法。

表1

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。