CN112966135B

CN112966135B - 一种基于注意力机制和门控机制的图文检索方法和系统

Info

Publication number: CN112966135B
Application number: CN202110160697.9A
Authority: CN
Inventors: 程起敏; 周玉琢; 甘德樵; 邵丽媛; 黄海燕; 黄小松
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2022-03-29
Anticipated expiration: 2041-02-05
Also published as: CN112966135A

Abstract

本发明公开了一种基于注意力机制和门控机制的图文检索方法和系统，属于跨模态检索领域。本发明通过注意力机制快速筛选出有价值的信息，以获取更加精确的特征表达，在此基础上，为了使模态之间的对应关系更加显著，通过将两种模态的数据互相作为监督信息，并引入门控机制对另一模态特征进行进一步的调整，以尽可能多地过滤掉不必要的信息，保留语义丰富的部分，最终获得具有足够通用语义和准确注意力的图像特征，从而有效地提高跨模态检索模型的性能。

Description

一种基于注意力机制和门控机制的图文检索方法和系统

技术领域

本发明属于跨模态检索领域，更具体地，涉及一种基于注意力机制和门控机制的图文检索方法和系统。

背景技术

随着地球观测技术的飞速发展，遥感数据的数量和质量也在迅速增加。为了从海量数据中精准地筛选出有用的信息，前人进行了大量的研究，如遥感图像检索，即输入一幅遥感图像作为查询图像，最终输出与之相似的遥感图像集合作为检索结果。目前，遥感图像检索技术已经较为成熟，现有的检索方法在基准遥感数据集上都可以获得非常高的精度。然而，数据的类型是多种多样的，人们常常会用不同模态的数据来描述同一个实体。例如，给定一个查询文本，人们可能希望检索出与之对应的图像或视频。由于跨模态数据之间存在异构性，不同模态的数据往往分布在不同的特征空间上，因此通过异构数据的语义对齐实现跨模态检索成为了一项非常有挑战性的任务。

传统的语义对齐算法，主要是基于核典型相关分析进行的，即利用核方法学习得到一种能够将两种异构数据特征之间的相关性最大化的映射。虽然这是一种十分有效的语义对齐算法，但是这种算法需要保留一定的空间以便在训练的时候将两种异构数据的内核矩阵保存下来，这种做法对于内存的消耗和依赖是很大的。而基于深度学习的语义对齐算法则可以有效地解决这些问题。基于深度学习的语义对齐算法大多是将自编码器、循环递归神经网络、卷积神经网络等深度网络模型应用在语义对齐模型中，以得到不同模态数据的深度特征表示，并在一个损失函数的监督下，将两种异构数据的特征映射到一个公共的潜在空间中进行对齐。

深度学习技术可以从数据中抽取更深层的语义信息，有助于解决低层视觉特征和高级语义理解之间的语义鸿沟问题。但是，现有的大多数基于深度学习的语义对齐方法都只是简单地将不同模态的特征映射到一个公共的潜在嵌入空间当中，平等地、无差别地对待不同类型的单词或图像区域，然后在这个空间中进行语义对齐。这类方法很难捕捉到细粒度的语义差别，因此也很难对不同模态的数据之间的复杂对应关系进行很好的建模，在一定程度上直接限制了跨模态检索模型的性能。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于注意力机制和门控机制的图文检索方法和系统，其目的在于提高跨模态检索模型的性能。

为实现上述目的，本发明提供了一种基于注意力机制和门控机制的图文检索方法，包括：

S1.构建跨模态检索模型；所述跨模态检索模型包括：图像视觉特征提取模块、文本语义特征提取模块、注意力模块和门控机制模块；

图像视觉特征提取模块，用于获取遥感图像的区域特征；文本语义特征提取模块，用于获取文本所包含单词的特征；图像区域特征和文本单词特征构成不同模态的高层语义特征；

注意力模块，用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中，并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数，以注意力分数作为加权系数，将对应特征进行加权平均得到新的全局特征；

门控机制模块，用于构造一个基于门控机制的函数组，将新的全局特征作为监督信息，对另一模态的特征进行更新和优化，加强两种不同模态特征之间的语义对齐关系；

S2.以图像库和对应的语料库作为训练集，训练所述跨模态检索模型；

S3.将待检索的图片或文本输入至训练好的跨模态检索模型中，得到对应的检索结果。

进一步地，利用AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种获取遥感图像的区域特征。

进一步地，利用Inception V3网络获取遥感图像的区域特征。

进一步地，利用LSTM网络或GRU网络中的任意一种获取文本所包含单词的特征。

进一步地，利用双向GRU网络获取文本所包含单词的特征。

进一步地，所述通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数，具体为，

将图像中的所有区域与文本中的所有单词分别组成区域-单词对，用余弦相似度函数计算其相似度矩阵：

其中f_i表示第i个图像区域特征，t_j表示第j个文本单词特征；

对相似度矩阵进行归一化，得到注意力分数。

进一步地，对另一模态的特征进行更新和优化的函数组包括一个更新门

和一个新记忆单元

由以下公式确定：

g_i＝sigmoid[l_i(W₁，b₁)]

c_i＝sigmoid[l_i(W₂,b₂)]

其中，

是一个线性函数，用来将图像区域特征和文本单词特征进行简单的拼接，

表示权重为W₁，偏置为b₁的线性拼接，

表示权重为W₂，偏置为b₂的线性拼接，W₁,b₁,W₂,b₂是待学习的超参数。

进一步地，采用以下损失函数训练所述跨模态检索模型：

L(R_f)和L(R_t)为权重函数，R_f表示与图像匹配的句子t在所有返回结果中的排名；R_t表示与文本语句匹配的遥感图像f在所有返回结果中的排名，

和

分别表示每个批量中的最难负样本对，β表示三元组损失函数的margin值。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

本发明通过注意力机制快速筛选出有价值的信息，以获取更加精确的特征表达，在此基础上，为了使模态之间的对应关系更加显著，通过将两种模态的数据互相作为监督信息，并引入门控机制对另一模态特征进行进一步的调整，以尽可能多地过滤掉不必要的信息，保留语义丰富的部分，最终获得具有足够通用语义和准确注意力的图像特征，从而有效地提高跨模态检索模型的性能。

附图说明

图1是本发明提供的跨模态检索模型结构图；

图2是本发明提供的Inception V3网络在NWPU-Captions数据集上的分类精度；

图3是本发明提供的背景比较杂乱的图像。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供的一种基于注意力机制和门控机制的图文检索方法，包括以下步骤：

S1.构建跨模态检索模型；参考图1，跨模态检索模型包括特征提取部分和语义对齐部分；

特征提取部分包括图像视觉特征提取模块和文本语义特征提取模块；图像视觉特征提取模块，用于获取遥感图像的区域特征；文本语义特征提取模块，用于获取文本所包含单词的特征；图像区域特征和文本单词特征构成不同模态的高层语义特征；

具体地，用来获取遥感图像特征的网络为卷积神经网络，可以是AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种，提取的每一幅遥感图像的特征为多个局部区域特征的集合。优选地，用来获取遥感图像特征的网络为卷积神经网络为Inception V3网络。Inception架构的主要思想是用密集成分来近似得到最优的局部稀疏解。Inception V3架构对Inception V2中Inception Module的结构进行了优化，具有更加丰富的Inception Module种类，即35×35、17×17和8×8三种不同的结构；Inception V3还在Inception Module的分支中进一步使用了分支，并且还引入了将一个较大的二维卷积拆分成两个较小的一维卷积的做法，可以用来处理更多、更丰富的空间特征，增加特征多样性，同时减少了计算量。假设遥感图像数据集为：I＝{x₁,x₂,…,x_P}，x_i表示单幅图像。将原始遥感图像输入到Inception V3网络后，取最后一个Inceptionmodule的输出作为图像的视觉特征：

即每一幅遥感图像的全局特征由K个局部特征组成。

具体地，用来获取文本特征的网络为循环神经网络，可以是LSTM网络、GRU网络中的任意一种，提取的每一个文本语句的特征为该语句所包含的所有单词特征的集合。优选地，用来获取文本特征的网络为双向GRU网络(Bi-GRU)。Bi-GRU架构是在GRU的基础上进行改进得到的，由一个前向GRU和一个反向GRU构成。对于一个文本语句，假定其包含的单词数量为N，用一个基于GRU的文本编码器将每个单词分别映射为300维的词向量：

y_i＝W_yw_i,i∈{1,…,N}

通过汇总句子中两个方向的信息，使用双向GRU将词向量和上下文语义共同映射得到最终的单词特征。双向GRU包含一个前向GRU(Forward GRU)和一个反向GRU(BackwardGRU)。前向GRU按照从w₁到w_N的顺序读取句子：

反向GRU则与之顺序相反：

其中，

和

分别表示从前向GRU和反向GRU中生成的隐藏状态(hidden state)。每个单词的文本特征则表示为前向GRU和反向GRU的隐藏状态的平均值：

最后，获取该语句所对应的单词级的特征集合：

其中，t_i是单词w_i的编码结果。

语义对齐部分包括注意力模块和门控机制模块；注意力模块，用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中，并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数，以注意力分数作为加权系数，将对应特征进行加权平均得到新的全局特征；

对于一个图像-文本对，将图像中的所有区域与文本中的所有单词分别组成区域-单词对，用余弦相似度函数计算其相似度矩阵，即：

其中f_i表示图像区域特征，t_j表示文本单词特征。

进一步的，对相似度矩阵进行归一化，即：

其中[sim(i,j)]₊＝max{[sim(i,j)],0}。

进一步的，将归一化之后的分数

作为图像区域特征或文本单词特征的注意力分数，包含语义信息越丰富的单词，则会得到越高的注意力分数。

进一步的，将获取的注意力分数

作为每个局部特征的新的加权系数，即重要性分数。以该重要性分数为权重，将所有局部特征进行加权平均，得到新的全局特征。新的文本全局特征通过以下公式确定：

具体地，i∈[1,K]，

超参数α为softmax函数中的逆温度系数(inversetemperature parameter)，用来控制注意力的分布状况。为了使softmax输出的概率分布更平滑，避免在训练过程中陷入局部最优解，将逆温度系数α设置为9.0。

门控机制模块，用于构造一个基于门控机制的函数组，将新的全局特征作为监督信息，对另一模态的特征进行更新和优化，以尽可能多地过滤掉不必要的信息，并最终获得具有足够通用语义和准确注意力的图像特征，加强两种不同模态特征之间的语义对齐关系；

通过构造一个线性函数l_i(W₁，b₁)，用来将f_i和e_i进行简单的拼接(concatenate)。l_i(W₁，b₁)由以下公式确定：

l_i(W，b)＝concat(f_i，e_i)·W+b

具体地，W₁，b₁，W₂，b₂是待学习的超参数。

用来对特征进行进一步更新和优化的函数组，可以是sigmoid函数、tanh函数、MLP(多层感知器)中的任意一种。优选地，基于sigmoid函数构建，即

进一步的，函数组包括一个更新门(update gate)g_i和一个新记忆单元(new memory cell)c_i，由以下公式确定：

g_i＝sigmoid[l_i(W₁，b₁)]

c_i＝sigmoid[l_i(W₂，b₂)]

更新门用来保留图像中最显著的语义信息，新记忆单元的作用则是增强图像特征和句子级文本特征之间的相互作用。

进一步的，更新后的图像特征表示为：

在训练过程中，采用带可变权重系数的损失函数来对跨模态检索模型进行参数训练。具体的，根据真实匹配的正样本在返回结果中的排名，给每个三元组分配不同的惩罚权重，用来训练跨模态检索模型，最后得到模型的最优解。损失函数定义为：

具体地，为了确保训练过程的效率，将训练集分为多个小批量(mini-batch)进行训练，

和

分别表示每个批量中的最难负样本对(the hardest negativepair)，即最接近正样本对的负样本对。L(R_f)和L(R_t)为权重函数。对于一幅遥感图像，R_f表示与之匹配的句子t在所有返回结果中的排名；对于一个文本语句，R_t表示与之匹配的遥感图像f在所有返回结果中的排名。L(R_f)和L(R_t)由以下公式确定：

具体地，N表示返回结果的总数。

综上所述，本发明通过深度神经网络获取遥感图像的视觉特征和文本的语义特征以构建强健的高层特征，并通过注意力机制快速筛选出有价值的信息，以获取更加精确的特征表达。同时，为了使模态之间的对应关系更加显著，通过将两种模态的数据互相作为监督信息，并引入门控机制进一步过滤掉不必要的信息，保留语义丰富的部分，从而有效地提高跨模态检索模型的性能。

以下通过实验来证本发明的有效性：

本实验选用NWPU-Captions数据集进行性能测试。NWPU-Captions数据集是由武汉大学和华中科技大学在NWPU-RESISC45图像集的基础上，由多位专业人员人工标注而成。NWPU-RESISC45图像集由31500幅遥感图像组成，分为45个类，这些图像是从Google Earth中提取的。每个类包含700幅图像，每幅图像的大小为256×256像素。与其它现有的遥感数据集相比，该数据集包含更多的数据、更丰富的图像变化以及更高的类内多样性和类间相似性。该数据集不仅包含了每个类别的不同视角、平移、物体姿态、外观、空间分辨率、光照、背景、遮挡等方面的变化，还包含了一些语义重叠的细粒度类别，如圆形和矩形农田、商业和工业区域、篮球场和网球场等。NWPU-Captions数据集中，每幅遥感图像包含5个语句标注，且每个语句不少于6个单词。本实验的图像-文本数据集如表1所示。

表1：图像-文本数据

评价指标：top-1召回率R@1、top-5召回率R@5和top-10召回率R@10。

具体地，在本实验中，将以图像-文本检索任务为例，分别从图像和语句的角度出发来进行评价。其中，基于图像的top-K召回率表示根据图像检索语句时的top-K召回率，记为R@K_i；而基于语句的top-K召回率表示根据语句检索图像时的top-K召回率，记为R@K_t。以基于图像的top-K召回率为例，首先，对于一幅图片，在测试集中通过跨模态检索得到K个与之最近邻的语句。如果返回的K个语句中至少有一个语句与图像真实匹配，则该次匹配的score值记为1，否则记为0。此时，top-K召回率R@K表示测试集中所有查询图像score值的平均：

本实验所采用的CNN模型是在ImageNet上预训练好的Inception V3网络。在对CNN模型进行预训练时，学习率设置为0.005，mini-batch设置为128。所提取的图像视觉特征和文本语义特征的维度设置为2048维。

首先，通过图像分类实验来验证图像特征提取网络Inception V3的分类性能。分类结果如图2所示，在NWPU-Captions数据集上，Inception V3网络的平均分类精度为92.5％。总体来说，Inception V3网络可以在该数据集上取得不错的分类精度，证明Inception V3具有很强的图像视觉特征表达能力。

实验还测试了本发明方法的检索性能并与其它跨模态图文检索方法进行了对比，对比的方法包括：(1)IMRAM模型，该模型主要特点在于通过多步对齐的方法来捕获图像和文本之间的对应关系。(2)PFAN模型，该模型首先对图像进行分块，由此来推断区域在图像中的相对位置，然后利用注意力机制来建立图像区域与分块之间的关系模型，并生成有价值的位置特征，在图像与句子之间建立更可靠的关系模型。(3)MTFN模型，该模型的主要思想在于，通过多模态张量融合全局视觉特征和文本特征，有效地学习图像-文本相似度函数。(4)SCAN模型，该模型的主要思想在于，分别对文本和图像使用注意力机制，学习得到较为精确的文本和图像表示，然后在公共的子空间中利用三元组损失函数度量文本和图像之间的相似性。在NWPU-Captions数据集上的跨模态图文检索结果对比分别如表2所示。

表2：NWPU-Captions数据集上的跨模态图文检索结果对比

模型	R@1_i	R@5_i	R@10_i	R@1_t	R@5_t	R@10_t
							IMRAM	8.4	25.6	53.1	7.2	30.6	65.5
PFAN	8.8	23.8	49.6	11.4	32.4	72.1
							MTFN	8.2	25.2	57.8	14.8	36.7	75.7
SACN	12.1	37.4	63.2	15.3	38.1	76.3
							本发明的方法	13.2	38.1	65.9	15.1	39.8	77.2

如表2所示，可以看到本发明所提出的方法，和其它比较典型的基于深度学习的图像-文本检索模型相比，具有一定的优势。这也证明了本发明利用深度神经网络所获取的图像视觉特征和文本语义特征是有效的，同时，利用注意力机制和门控机制来对特征进行优化和更新是可行的。

对于如图3所示背景比较杂乱的图像，本发明所采用方法的检索示例如表3所示，可以看到，本发明的方法也可以在排名靠前的语句中返回正确的结果。

表3

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制和门控机制的图文检索方法，其特征在于，包括：

门控机制模块，用于构造一个基于门控机制的函数组，将新的全局特征作为监督信息，对另一模态的特征进行更新和优化，加强两种不同模态特征之间的语义对齐关系；对另一模态的特征进行更新和优化的函数组包括一个更新门g_i和一个新记忆单元c_i，由以下公式确定：

g_i＝sigmoid[l_i(W₁,b₁)]

c_i＝sigmoid[l_i(W₂,b₂)]

l_i(W₁,b₁)表示权重为W₁，偏置为b₁的线性拼接，l_i(W₂,b₂)表示权重为W₂，偏置为b₂的线性拼接，W₁,b₁,W₂,b₂是待学习的超参数；

对图像区域特征进行更新和优化时，拼接对象是图像区域特征和文本单词特征对应的新的全局特征；对文本单词特征进行更新和优化时，拼接对象是文本单词特征和图像区域特征对应的新的全局特征；

2.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法，其特征在于，利用AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种获取遥感图像的区域特征。

3.根据权利要求2所述的一种基于注意力机制和门控机制的图文检索方法，其特征在于，利用Inception V3网络获取遥感图像的区域特征。

4.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法，其特征在于，利用LSTM网络或GRU网络中的任意一种获取文本所包含单词的特征。

5.根据权利要求4所述的一种基于注意力机制和门控机制的图文检索方法，其特征在于，利用双向GRU网络获取文本所包含单词的特征。

6.根据权利要求1-5任一项所述的一种基于注意力机制和门控机制的图文检索方法，其特征在于，所述通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数，具体为，

对相似度矩阵进行归一化，得到注意力分数。

7.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法，其特征在于，采用以下损失函数训练所述跨模态检索模型：

和

8.一种基于注意力机制和门控机制的图文检索系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至7任一项所述的基于注意力机制和门控机制的图文检索方法。