CN112784092A

CN112784092A - 一种混合融合模型的跨模态图像文本检索方法

Info

Publication number: CN112784092A
Application number: CN202110118655.9A
Authority: CN
Inventors: 徐行; 王依凡; 杨阳; 邵杰; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-11
Anticipated expiration: 2041-01-28
Also published as: CN112784092B

Abstract

本发明公开了一种混合融合模型的跨模态图像文本检索方法，在早期融合结构中，首先结合局部的视觉区域特征和文本的原始全局特征，以获得一个统一的跨模态融合表征，再以融合特征为输入，在随后的嵌入网络中增强局部视觉特征和语言信息之间的交互；与此同时，以传统的晚期融合结构为基础，将原始图像和句子特征分别输入到视觉和文本编码器中进行模态内特征增强，丰富各自模态的语义信息；最后，整个网络相似度是早期融合相似度和晚期融合相似度的加权线性组合，从而实现了早期融合在跨模态学习层面和晚期融合在模态内学习层面的互补，完成图像和文本模态之间的潜在对齐。

Description

一种混合融合模型的跨模态图像文本检索方法

技术领域

本发明属于跨模态检索技术领域，更为具体地讲，涉及一种混合融合模型的跨模态图像文本检索方法。

背景技术

跨模态检索是指用户通过输入任意模态的查询数据，检索出所有模态中的语义相关数据。随着移动互联网中文本、图像和视频等多模态数据的日益增多，跨越不同模态的检索成为信息检索的新趋势，实现快速准确的图像文本检索具有极大的应用价值与经济效益。

由于来自图像数据的计算机视觉特征和来自文本数据的语言特征天然存在数据分布和底层特征表示的“异构鸿沟”，如何度量图像和文本之间在高层语义上的相关性仍是一个挑战。目前方法的解决思路通常是对不同模态的数据进行融合，从而减少不同模态之间的表征差异，进一步在融合表征的基础上计算跨模态相似度，实现图像文本跨模态检索。其中根据融合策略在整个网络框架中实施的阶段，主要可以划分为两类方法：早期融合策略、晚期融合策略。

1)早期融合策略：早期融合策略主要简单的联合操作将图像和文本的原始特征合并在一起，随后基于融合表征通过一个统一的网络学习框架对融合向量进行嵌入学习，从而使候机的网络可以对跨模态融合表征进行适应和自动学习，进一步促进不同模态之间的信息交流。

2)晚期融合策略：传统的晚期融合策略对图像和文本特征分别设计独立的图像编码器和文本编码器，原始的视觉和文本特征通过注意力机制，图卷积和递归模型等操作增强各自模态的特征表示，促进模态内的关系学习和高层语义的挖掘，最后通过晚期融合对编码后的视觉和文本特征进行结合，生成图像-文本相似度。。

目前主流的跨模态检索方法采用晚期融合策略，对图像和文本数据运用较为复杂的网络设计分别进行嵌入编码，此类方法往往存在跨模态学习不充分的问题，同时计算成本较高。另一方面，现有的早期融合方法往往较为粗糙，只能在全局层面对图像文本数据进行融合，性能上表现较为一般。

发明内容

本发明的目的在于克服现有技术的不足，提供一种混合融合模型的跨模态图像文本检索方法，通过结合早期融合和晚期融合策略，实现早期融合在跨模态学习层面和晚期融合在模态内学习层面的互补，从而实现图像和文本模态之间的潜在对齐。

为实现上述发明目的，本发明一种混合融合模型的跨模态图像文本检索方法，其特征在于，包括以下步骤：

(1)、提取跨模态数据特征；

(1.1)、下载包含N组图像与其对应的描述性文本的跨模态图像文本对数据；

(1.2)、在每一组跨模态图像文本对数据中，利用基于区域的卷积神经网络FasterR-CNN提取图像区域特征集合V＝{v_i}，其中，v_i表示第i个图像区域特征，i＝1,2,…,k，k代表图像区域特征集合中元素个数；利用基于门控循环单元GRU提取文本单词特征集合T＝{t_j}，其中，t_j表示第j个文本单词特征，j＝1,2,…,l，l是文本单词个数；

(2)、训练混合融合模型；

(2.1)、将任意一组跨模态数据特征输入至混合融合模型；

(2.2)、计算跨模态数据特征的早期融合跨模态相似度；

(2.2.1)、对跨模态数据特征进行早期融合：拼接图像区域特征v_i与平均池化后的文本单词特征

再归一化处理，得到跨模态融合特征vt_i；

其中，

表示级联操作，BatchNorm(·)表示归一化处理；

(2.2.2)、在跨模态融合特征vt_i的基础上，采用多层感知机进行嵌入学习，从而生成跨模态融合特征

其中，W_s,W_h,b_s,b_h分别表示全连接线性层中的待训练参数，σ(·)表示tanh激活函数；

(2.2.3)、使用余弦相似度构建早期融合图像文本相似度；

将k个跨模态融合特征

进行平均池化，得到特征

将平均池化后的文本单词特征

记为

即：

采用余弦相似度计算特征

和特征

的早期融合跨模态相似度S_early；

(2.3)、计算跨模态数据特征的晚期融合图像文本相似度；

通过不同的编码方式对每一组跨模态数据特征进行编码，然后对编码后的图像与文本特征采用晚期融合机制，生成晚期融合图像文本相似度S_late；

(2.4)、构造图像文本检索中的综合跨模态相似度S；

通过一个可控权重参数γ将早期融合跨模态相似度S_early和晚期融合图像文本相似度S_late进行线性加权，得到综合跨模态相似度S；

S＝γ·S_early+(1-γ)·S_late

(2.5)、根据综合跨模态相似度S构建三元组损失函数；

(2.5.1)、根据综合跨模态相似度S选出距离最近且不相关其他模态的样本，记为跨模态负样本对

和

而相关其他模态的样本记为跨模态正样本(v_p,t_p)；

(2.5.2)、以拉近跨模态正样本(v_p,t_p)的距离，拉远跨模态负样本对

和

的距离为优化目标，构建三元组损失函数L；

其中，α是可调控的阈值，S(v_p,t_p)，

和

分别表示正样本和负样本对的综合跨模态相似度；

(2.6)、利用随机梯度下降法对三元组损失函数L进行优化求解，记录下优化后的总损失函数值；

(2.7)、重复步骤(2.2)～(2.6)，处理完N组跨模态图像文本对数据，得到N个损失函数值，完成N次训练，然后选出最小的一个损失函数值，并将该损失函数值对应的训练模型作为最终检测的混合融合模型；

(3)、跨模态的实时检索；

提取任意图像或文本的特征，并输入至步骤(2)得到的混合融合模型，从而检索出该图像最相关的文本实例或文本的最相关图像实例。

本发明的发明目的是这样实现的：

本发明一种混合融合模型的跨模态图像文本检索方法，在早期融合结构中，首先结合局部的视觉区域特征和文本的原始全局特征，以获得一个统一的跨模态融合表征，再以融合特征为输入，在随后的嵌入网络中增强局部视觉特征和语言信息之间的交互；与此同时，以传统的晚期融合结构为基础，将原始图像和句子特征分别输入到视觉和文本编码器中进行模态内特征增强，丰富各自模态的语义信息；最后，整个网络相似度是早期融合相似度和晚期融合相似度的加权线性组合，从而实现了早期融合在跨模态学习层面和晚期融合在模态内学习层面的互补，完成图像和文本模态之间的潜在对齐。

同时，本发明一种混合融合模型的跨模态图像文本检索方法还具有以下有益效果：

(1)、本发明设计一个混合融合结构的图像文本跨模态检索框架，同时结合了早期融合策略和晚期融合策略，使两者在跨模态的信息交互与模态内的关系挖掘进行互补，并在最终图像文本相似度度量上进行结合，从而可以更好提取与识别图像与文本在高层语义上的潜在相关性，解决跨模态检索中“异构鸿沟”的问题。

(2)、本发明中设计的早期融合模块，区别于以往早期融合策略中仅在全局特征上进行跨模态重构机制，在原始特征层面上对图像的区域特征和文本的全局特征进行早期融合，增强了视觉特征的表达能力。

(3)、本发明设计的早期融合模块，可以很方便容易地移植到现有的晚期融合模型框架中，在促进跨模态信息交流，提高图像文本检索准确度的同时，并不会带来庞大的计算量和时间成本，是一个通用的混合融合架构。

(4)、本发明设计的晚期融合模块采用模态内编码器进行特征加强，随后对不同融合机制的结果进行融合，经过整个网络训练后进行跨模态检索。

(5)、本发明设计的融合网络可以动态调节早期融合和晚期融合的比例，在图像文本相似度上进一步融合，可以进一步提高跨模态检索的准确度。

附图说明

图1是本发明一种混合融合模型的跨模态图像文本检索方法流程图；

图2是基于本发明的一种神经网络连接框架；

图3是早期融合计算跨模态相似度的具体流程图；

图4是晚期融合计算跨模态相似度的具体流程图；

图5是混合融合结构与单一的晚期融合结构在数据集MSCOCO上的检索对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种混合融合模型的跨模态图像文本检索方法流程图。

在本实施例中，如图1所示，本发明一种混合融合模型的跨模态图像文本检索方法，包括以下步骤：

S1、提取跨模态数据特征；

S1.1、下载包含N组图像与其对应的描述性文本的跨模态图像文本对数据；

S1.2、在每一组跨模态图像文本对数据中，利用基于区域的卷积神经网络FasterR-CNN提取图像区域特征集合V＝{v_i}，其中，v_i表示第i个图像区域特征，i＝1,2,…,k，k代表图像区域特征集合中元素个数，在本实施例中k取为36；利用基于门控循环单元GRU提取文本单词特征集合T＝{t_j}，其中，t_j表示第j个文本单词特征，j＝1,2,…,l，l是文本单词个数，在本实施例中l取为10；

S2、训练混合融合模型；

在本实施例中，混合融合模型的网络框架如图2所示。

S2.1、将任意一组跨模态数据特征输入至混合融合模型，按照图3所示，计算早期融合计算跨模态相似度；

S2.2、计算跨模态数据特征的早期融合跨模态相似度；

S2.2.1、对跨模态数据特征进行早期融合：拼接图像区域特征v_i与平均池化后的文本单词特征

再归一化处理，得到跨模态融合特征vt_i；

其中，

表示级联操作，BatchNorm(·)表示归一化处理；

S2.2.2、在跨模态融合特征vt_i的基础上，采用多层感知机进行嵌入学习，从而生成跨模态融合特征

其中，W_s,W_h,b_s,b_h分别表示全连接线性层中的待训练参数，σ(·)表示tanh激活函数；通过多层感知机的嵌入学习，可以有效促进图像和文本跨模态的信息交流，有助于模型对跨模态融合特征的适应；

S2.2.3、使用余弦相似度构建早期融合图像文本相似度；

将36个跨模态融合特征

进行平均池化，得到特征

将平均池化后的文本单词特征

记为

即：

采用余弦相似度计算特征

和特征

的早期融合跨模态相似度S_early；

其中，||·||表示求二范数；

通过上述操作，将图像的局部区域特征和文本的全局句子特征联合起来，随后嵌入到统一的多层感知机中，可以有效利用图像区域的表达能力，同时后继的网络层可以对这种融合表征自适应，促进模态间的信息交互，有效实现跨模态的潜在对齐。

S2.3、计算跨模态数据特征的晚期融合图像文本相似度；

按照图4所示，计算晚期融合计算跨模态相似度：通过不同的编码方式对每一组跨模态数据特征进行编码，然后对编码后的图像与文本特征采用晚期融合机制，生成晚期融合图像文本相似度S_late；

在本实施例中，采用交叉注意力、视觉语义推理、场景图和图结构四种不同的编码方式对跨模态数据特征进行编码，具体如下：

1)、采用交叉注意力编码：通过交叉注意力机制对局部的文本单词特征集合T＝{t_j}进行加权，在加权过程中，每个文本单词特征t_j通过对应的权重β_j加权处理后再求所有加权后的文本单词特征的均值，得到全局特征t；然后将图像区域特征v_i与全局特征t映射到同一嵌入空间，再通过余弦相似度计算局部-全局跨模态相关性R(v_i,t)；

在晚期融合中，通过指数和池化LSE或平均池化AVG的形式来聚合不同区域的局部-全局跨模态相关性，实现全局的图像与文本的晚期融合图像文本相似度的计算：

其中，

表示指数和池化形式下的晚期融合图像文本相似度，

表示指数和平均池化形式下的晚期融合图像文本相似度，λ₂是可调控的参数，在本实施例中根据经验将λ₂设为6；

2)、视觉语义推理编码：将图像区域特征集合V＝{v_i}输入至图卷积网络，从而生成视觉增强表征V^*＝{v_i}^*，然后通过基于门控循环网络的全局语义模块GRU进行多步视觉推理，得到视觉特征GRU(V^*)；最后将通过内积的计算方式将视觉特征GRU(V^*)与文本单词特征集合T进行融合，得到晚期融合图像文本相似度S_late；

其中，||·||表示求二范数；

3)、场景图编码：将图像区域特征集合V＝{v_i}输入至场景图解析器中，生成图像场景图SG(V)，其中图像场景图SG(V)的节点由k(本实施例中k＝36)个图像区域特征v_i和解析器所生成的N_r(本实施例中N_r＝25)个图像关系特征v_r构成；然后在场景图结构基础上，对36个图像区域特征节点v_i，通过图卷积网络使用图像关系特征v_r的信息更新自身节点，得到v_i′；

通过文本解析器对文本单词特征集合T＝{t_j}进行关系解析，生成N_p(本实施例中N_p＝5)个主谓宾三元组(例如本实施例中“girl-blow-candle”为其中1个主谓宾三元组)，再将其输入至双向门控循环网络Bi-GRU生成相应的5个文本关系特征t_p；

最终的晚期融合基于编码后的图像区域特征v_i′，图像关系特征v_r，文本单词特征t_j和文本关系特征t_p，分别计算对象级的相似度S^o和关系级S^r的相似度，然后求和得到晚期融合图像文本相似度S_late；

4)、图结构编码：首先分别构建图像拓扑图G_V和文本拓扑图G_T，其中图像拓扑图G_V的节点由k(本实施例中k＝36)个图像区域特征v_i构成，通过极坐标计算出拓扑图G_V节点之间的边值；文本拓扑图G_T的节点由l(本实施例中l＝10)个文本单词特征t_j构成，通过单词特征之间的余弦相似度计算出拓扑图G_T节点之间的边值；

通过节点级匹配和结构级匹配融合跨模态节点，其中，前者节点级匹配将图像拓扑图G_V和文本拓扑图G_T的节点彼此之间通过内积进行结合更新自身节点，得到节点级匹配后的图像拓扑图G_V节点

和文本拓扑图G_T节点

后者结构级匹配分别在图像拓扑图G_V和文本拓扑图G_T内部，通过图卷积网络传播邻域特征进一步更新自身节点，将结构级匹配后的图像拓扑图G_V中节点记为

文本拓扑图G_T中节点记为

通过多层感知机MLP进行晚期融合，计算出最终的跨模态相似度S_late；

其中，k和l分别表示图像拓扑图G_V和文本拓扑图G_T中节点的个数，在本实施例中分别设为36和10。

S2.4、构造图像文本检索中的综合跨模态相似度S；

S＝γ·S_early+(1-γ)·S_late

其中在本实施例中γ根据经验设为0.2。

通过上述操作，可以动态调控综合跨模态相似度中早期融合跨模态相似度和晚期融合相似度的比例，可以根据不同编码方式灵活选择权重参数γ的大小。

S2.5、根据综合跨模态相似度S构建三元组损失函数；

S2.5.1、根据综合跨模态相似度S选出距离最近且不相关其他模态的样本，记为跨模态负样本对

和

而相关其他模态的样本记为跨模态正样本(v_p,t_p)；

S2.5.2、以拉近跨模态正样本(v_p,t_p)的距离，拉远跨模态负样本对

和

的距离为优化目标，构建三元组损失函数L；

其中，α是可调控的阈值，在本实施例中设为0.2，S(v_p,t_p)，

和

分别表示正样本和负样本对的综合跨模态相似度；

S2.6、利用随机梯度下降法对三元组损失函数L进行优化求解，记录下优化后的总损失函数值；

S2.7、重复步骤S2.2～S2.6，处理完N组跨模态图像文本对数据，得到N个损失函数值，完成N次训练，然后选出最小的一个损失函数值，并将该损失函数值对应的训练模型作为最终检测的混合融合模型；

S3、跨模态的实时检索；

提取任意图像或文本的特征，并输入至步骤S2得到的混合融合模型，从而检索出该图像最相关的文本实例或文本的最相关图像实例。

在两个广泛使用的跨模态检索数据集MSCOCO和Flickr30K上测试本发明在图片-文字检索场景的效果。MSCOCO数据集总共包括123287张图像，每个图像由5个句子描述，其中训练集包括113287张图像，验证集和测试集分别包括5000张图像。Flickr30K数据集包含31783张图像，同样每张图像有5个描述性语句。数据集可划分为29000张训练图像，1000张验证图像和剩余的1000张测试图像。

本发明中采用召回率指标Recall@K(简称R@K)和RSum来评估我们的模型。在输入图像检索最相关文本(表1中示为“图像→文本”)和输入文本检索最相关图像(表1中示为“文本→图像”)两个子任务中，R@K具体指的是根据查询的数据，模型返回的相似度分数中前K个结果中有正确相关的跨模态实例所占的比例，其中K取值1，5，10；RSum指的是在两个子任务中所有R@1，R@5和R@10的总和。R@K和RSum数值越大，说明检索准确率越高，检索性能越好。该指标可以从整体上反映模型的检索性能，是信息检索系统常用的评价指标。

在四种不同晚期融合方案上加入本发明中提出的早期融合结果，测试比较结果如下表1所示：

表1

其中表1中“交叉注意力”，“视觉语义推理”，“图结构”和“场景图”分别表示仅采用步骤2.3中晚期融合模型的四种不同编码方式进行计算，以晚期融合相似度作为最终的相似度进行跨模态图像文本检索。表1中“交叉注意力+早期融合(本发明)”，“视觉语义推理+早期融合(本发明)”，“图结构+早期融合(本发明)”和“场景图+早期融合(本发明)”表示采用本发明所提出的混合融合模型，在相应不同编码的晚期融合模型上加入早期融合，以加权混合的早期融合相似度和晚期融合相似度作为最终的相似度进行跨模态图像文本检索。

表1中加粗的数字表示比原晚期融合模型指标有数值提高，可以看出，本发明在所有测试集上几乎所有指标上均优于原晚期融合模型。具体来看，与图结构编码晚期融合模型相比，在MSCOCO数据集和Flickr30K数据集上的文本检索(表1中示为“图像→文本”)上，采用混合融合模型(表1中示为“图结构+早期融合(本发明)”)分别将R@1提高了1.6％和1.5％。其中在特定的后期融合框架上，例如交叉注意力晚期融合模型和场景图晚期融合模型上，早期融合的加入对原模型有显著的改进，可以观察到在MSCOCO数据集的文本检索(表1中示为“图像→文本”)上，场景图模型的R@1增长了8.9％，交叉注意力模型的R@1增长了5.6％，这表明早期的融合策略对原本只关注独立的视觉和文本编码方式十分有效，从而可以补充模态之间的相互作用。综上所述本发明所提出的混合融合结构可以有效地在晚期融合模型的基础上进一步提升了跨模态检索的准确率。

如图5所示，在MSCOCO数据集上分别对视觉语义推理模型和混合融合模型(视觉语义推理模型+早期融合)进行可视化结果展示。图5中“视觉语义推理模型”表示仅采用步骤2.3中晚期融合模型的第二种视觉语义推理编码方式进行计算，以晚期融合相似度作为最终的相似度进行跨模态图像文本检索；图5中“视觉语义推理模型+早期融合”表示采用本发明所提出的混合融合模型，在视觉语义推理这一编码方式上加入早期融合，以加权混合的早期融合相似度和晚期融合相似度作为最终的相似度进行跨模态图像文本检索。

根据相似度值从大到小进行排序，图5分别展示了文本检索(查询为图像，输出相关文本)前三的句子结果和图像检索(查询为文本，输出相关图像)前五的结果。在文本检索中，正确相关的文本句子用灰色底色标记；在图像检索中，正确相关的图像用粗框进行标记。从图5可以看出，在文本检索中，原视觉语义推理晚期融合模型给出的前三个检索结果中，并未检索出真实正确相关的文本句子，而混合融合模型中给出的第一个检索结果即为真实正确相关的文本句子；在图像检索中，真实正确相关的图像在原视觉语义推理晚期融合模型中检索结果中仅排序第4，而混合融合模型中给出的最相关结果即为真实正确相关的文本句子。以上示例进一步直观地说明了混合融合模型在实际跨模态图像文本检索对检索性能的有效提升。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种混合融合模型的跨模态图像文本检索方法，其特征在于，包括以下步骤：

(1)、提取跨模态数据特征；

(1.2)、在每一组跨模态图像文本对数据中，利用基于区域的卷积神经网络Faster R-CNN提取图像区域特征集合V＝{v_i}，其中，v_i表示第i个图像区域特征，i＝1,2,…,k，k代表图像区域特征集合中元素个数；利用基于门控循环单元GRU提取文本单词特征集合T＝{t_j}，其中，t_j表示第j个文本单词特征，j＝1,2,…,l，l是文本单词个数；

(2)、训练混合融合模型；

(2.1)、将任意一组跨模态数据特征输入至混合融合模型；

(2.2)、计算跨模态数据特征的早期融合跨模态相似度；

再归一化处理，得到跨模态融合特征vt_i；

其中，

表示级联操作，BatchNorm(·)表示归一化处理；

(2.2.3)、使用余弦相似度构建早期融合图像文本相似度；

将k个跨模态融合特征

进行平均池化，得到特征

将平均池化后的文本单词特征

记为

即：

采用余弦相似度计算特征

和特征

的早期融合跨模态相似度S_early；

(2.3)、计算跨模态数据特征的晚期融合图像文本相似度；

通过不同的编码方式对每一组跨模态数据特征进行编码，然后对编码后的图像与文本特征采用后期融合机制，生成后期融合图像文本相似度S_late；

(2.4)、构造图像文本检索中的综合跨模态相似度S；

S＝γ·S_early+(1-γ)·S_late

(2.5)、根据综合跨模态相似度S构建三元组损失函数；

和

而相关其他模态的样本记为跨模态正样本(v_p,t_p)；

(2.5.2)、以以拉近跨模态正样本(v_p,t_p)的距离，拉远跨模态负样本对

和

的距离为优化目标，构建三元组损失函数L；

其中，α是可调控的阈值，S(v_p,t_p)，

和

分别表示正样本和负样本对的综合跨模态相似度；

(3)、跨模态的实时检索；

提取任意图像或文本的特征，并输入至步骤(3)得到的混合融合模型，从而检索出该图像最相关的文本实例或文本的最相关图像实例。

2.根据权利要求1所述的一种混合融合模型的跨模态图像文本检索方法，其特征在于，所述步骤(2.3)计算跨模态数据特征的晚期融合图像文本相似度的具体方法为：

采用交叉注意力、视觉语义推理、场景图和图结构四种不同的编码方式对跨模态数据特征进行编码，具体如下：

在后期融合中，通过指数和池化LSE或平均池化AVG的形式来聚合不同区域的局部-全局跨模态相关性，实现全局的图像与文本的晚期融合图像文本相似度的计算：

其中，

表示指数和池化形式下的晚期融合图像文本相似度，

表示指数和平均池化形式下的晚期融合图像文本相似度，λ₂是可调控的参数；

其中，||·||表示求二范数；

3)、场景图编码：将图像区域特征集合V＝{v_i}输入至场景图解析器中，生成图像场景图SG(V)，其中图像场景图SG(V)的节点由k个图像区域特征v_i和解析器所生成的N_r个图像关系特征v_r构成；然后在场景图结构基础上，对k个图像区域特征节点v_i，通过图卷积网络使用图像关系特征v_r的信息更新自身节点，得到v′_i；

通过文本解析器对文本单词特征集合T＝{t_j}进行关系解析，生成N_p个主谓宾三元组，再将其输入至双向门控循环网络Bi-GRU生成N_p个文本关系特征t_p；

最终的后期融合基于编码后的图像区域特征v′_i，图像关系特征v_r，文本单词特征t_j和文本关系特征t_p，分别计算对象级的相似度S^o和关系级S^r的相似度，然后求和得到晚期融合图像文本相似度S_late；

4)、图结构编码：首先分别构建图像拓扑图G_V和文本拓扑图G_T，其中图像拓扑图G_V的节点由k个图像区域特征v_i构成，通过极坐标计算出拓扑图G_V节点之间的边值；文本拓扑图G_T的节点由l个文本单词特征t_j构成，通过单词特征之间的余弦相似度计算出拓扑图G_T节点之间的边值；

和文本拓扑图G_T节点

文本拓扑图G_T中节点记为

通过多层感知机MLP进行后期融合，计算出最终的晚期融合图像文本相似度S_late；

其中，k和l分别表示图像拓扑图G_V和文本拓扑图G_T中节点的个数。