CN115098646A

CN115098646A - 一种图文数据的多级关系分析与挖掘方法

Info

Publication number: CN115098646A
Application number: CN202210875014.2A
Authority: CN
Inventors: 王海荣; 郭瑞萍
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-09-23
Anticipated expiration: 2042-07-25
Also published as: CN115098646B

Abstract

本发明公开了一种图文数据的多级关系分析与挖掘方法，其引入BERT‑Large提取文本特征构建文本连接图，利用Faster‑RCNN网络提取图像特征来学习空间位置关系和语义关系并构建图像连接图，进而完成单模态内部语义关系计算，在此基础上，使用“节点切分方法”和带多头注意力机制的图卷积网络，进行局部和全局的图文关系融合。此外，为提升关系分析与挖掘效率，采用了基于注意力机制的连边权重剪枝策略，用以增强重要分支表示，减少冗余信息干扰。在公开的Flickr30K、MSCOCO‑1K、MSCOCO‑5K数据集上进行方法实验，并与11种方法进行实验结果的对比分析，本发明在Flickr30K上的平均召回率提高了0.97％和0.57％，在MSCOCO‑1K上的平均召回率提高了0.93％和0.63％，在MSCOCO‑5K上的平均召回率提高了0.37％和0.93％。

Description

一种图文数据的多级关系分析与挖掘方法

技术领域

本发明涉及知识挖掘和知识管理的技术领域，尤其是指一种图文数据的多级关系分析与挖掘方法。

背景技术

随着文本、图像、视频等多模态数据急剧增涨，对数据的获取、分析与处理逐步由单模态转化为多模态形式。大量多模态数据之间包含语义关联，如何挖掘到语义相近的多模态数据进行知识抽取成为研究热点，关系挖掘作为多模态知识抽取中的重要任务也备受关注。

现有的研究主要聚焦于异构数据相似性来学习对应关系，可大致分为全局表示方法和区域词对应方法。全局表示方法分别提取图像和句子的全局特征，Corrado等人介绍了深度图像标签嵌入模型，采用图卷积网络从图像中提取视觉特征，并使用SkipGram提取语义标签，与匹配图像标签对的结构化目标相关联；Ma等人提出用于图像句子联合表示的网络，利用图文间的最终分数进行融合和匹配；Barros等人设计了高效的字符接收模块，该模块在不同粒度级别卷积原始字符来学习文本语义嵌入，并将图文表示编码到多模态空间中，通过对比成对损失函数关联图文间语义信息；Wang等人提出一种基于秩的张量融合网络来学习图文数据全局特征下的相似性；Wu等人通过语言引导的图注意网络来捕获图像间的关联；Mafla等人学习图像中显著对象和文本之间的公共语义空间来获得关系增强的特征；Liu等人提出了联合模态相似矩阵的无监督哈希方法来保持两种模态间相关性，利用抽样和加权方法，使具有相似语义的样本距离更近，不同语义样本距离更远；Dong等人采用图卷积网络方法使每个样本的语义信息更完整，利用生成式对抗网络在公共空间中获得模态不变表示。这些方法使显著对象在图文数据整体表示中起主导作用，但涉及到次要对象时往往被忽略。

区域词对应方法侧重于学习图像局部区域对应，Karpathy等人在网络迭代学习过程中计算区域和单词的相似性，但只能优化最相似的部分，效果也不够明显；Lee等人设计了交叉注意力机制来加权较重要的区域，以图像区域和句子中单词作为上下文计算图文相似度；Huang等人利用语义概念结合正确语义顺序来改进图像表示，设计出有利于语义增强的相似度匹配模型；Yao等人提出GCN-LSTM架构将语义和空间对象关系集成到图像编码器中学习区域级表示；Hou等人将外部先验知识嵌入到区域语义空间中来指导推理图像视频中的对象关系；Wang等人设计了位置聚焦注意网络来探索图文数据间相关性，将位置信息和视觉特征集成到图像表示中，使视觉表达更加完整；Chen等人提出了一种迭代匹配与重复注意记忆方法来选择突出特征，使用多步对齐来捕获图文数据间对应关系，通过一种内存蒸馏单元来融合多模态特征。

上述方法虽然学到了突出对象对应关系，但仍然没有明确揭示出图文对象间的语义关系，故当前方法将整体与区域结合起来进一步提升图文关系捕获效果。Li等人设计了VSRN推理模型通过区域关系和全局语义利用GCN推理生成可视化关系信息；Liu等人结合全面和细粒度的多模态交互方法，并采用自适应门控方案合理处理冗余信息；Yang等人构建了视觉对象和关系表示的场景图，并利用GCN模块对场景图进行关系识别与渐进推理；Song等人利用多注意力机制与剩余学习策略将全局上下文和局部引导特征相结合进而计算多实例表示；Zhang等人提出上下文感知注意网络(CANN)，通过聚合全局上下文选择性地关注关键局部片段；Wang等人介绍了场景图匹配方式捕获图文数据中的对象和关系，进一步提高了性能；Zheng等人利用分类损失把每个多模态数据视为一个类来学习图文数据模态间相似性；Li等人将高阶语义信息进行视觉语义匹配(VSM)，通过图卷积网络来处理由每个节点表示的图像和文本场景图，以交叉图注意机制的方式来计算图文数据间相似度。

综上，基于图文数据关系挖掘方法的研究在计算异构数据相似性、学习对应关系方面已经取得了一定成果。为更细粒度地挖掘图像与文本数据间关系，本发明将在整体与区域结合方法基础上，针对其存在的两个问题展开研究，一是文本和图像特征易丢失有效信息，二是语义关系挖掘不充分。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种图文数据的多级关系分析与挖掘方法，其引入BERT-Large改进文本表示，在图像特征参与相似度计算之前参考空间位置关系来缓解有效语义信息丢失问题，采用带多头注意力机制的GCN聚焦重要关系、补全与传播全局关系，进而实现图文数据关系的有效分析与挖掘。

为实现上述目的，本发明所提供的技术方案为：一种图文数据的多级关系分析与挖掘方法，包括以下步骤：

1)采集不同模态的图文数据，包含文本和图像；

2)对获取到的不同模态的图文数据分模态进行特征表示，提取文本和图像特征向量；

3)图文数据特征表示后，分别构建文本连接图和图像连接图，进行单模态内部关系挖掘，得到单模态内部关系相似度，即分别得到文本内部关系相似度和图像内部关系相似度；

4)参照文本连接图和图像连接图，计算连接图中局部某个节点与另一模态节点间的相似度，利用“节点切分方法”进一步实施局部相似性操作，得到图文局部关系相似度；联合考虑从图像到文本、从文本到图像的局部相似性来学习全局相似性，采用带多头注意力机制的GCN通过相邻节点进行对应关系补全与传播，得到图文全局关系相似度；

5)加入基于注意力机制的连边权重剪枝策略，来增强重要关系展示，去除无用关系信息；

6)根据计算出的单模态内部关系相似度、图文局部关系相似度、图文全局关系相似度得到最终图文关系融合相似度，将关系相似度排序，取前k个候选集作为与检索例子有高度语义关联的结果。

进一步，在步骤1)中，将采集到的图文数据表示为：

式中，E表示文本实例，I表示图像实例，y＝1表示第一对文本图像数据，整个式子C表示Y对图文数据。

进一步，所述步骤2)包括以下两部分：

a、文本特征提取与表示：给定一个句子E，采用NLP句法分析工具进行预处理后，添加两个特殊的标记：[CLS]和[SEP]，并将其输入预训练的BERT-Large模型作为整个模型的文本编码层，其计算公式为：

D_x＝BERT-L arg e(E_x),x∈[1,z]

式中，E_x是包含x个单词的句子向量，D_x代表将句子向量E_x输入到BERT-Large模型后的结果向量，z为组成句子的z个词，也就是句子中的最大单词量，将结果向量D_x通过双向GRU网络即Bi-GRU网络映射到h维嵌入空间中生成最终文本表示，其计算公式为：

T_x＝Bi-GRU(D_x),x∈[1,z]

式中，T_x表示利用前向GRU和后向GRU读取D_x后的结果；

b、图像特征提取与表示：输入一张图像I，使用Faster-RCNN网络结合预训练的ResNet-101提取区域级图像特征；给定在图像中检测到的区域i，在平均池化操作后选择2048维特征e_i，利用全连接层将e_i转换为h维嵌入空间，其转换公式为：

v_i＝W_ve_i+p_v

式中，v_i表示区域i的图像特征向量，W_v和p_v分别为图像特征向量的权重矩阵和偏差；图像区域特征提取的边界框用一个四维空间坐标S_i＝{A_i,B_i,G_i,H_i}表示，式中，S_i表示区域i的边界框特征向量，(A_i,B_i)表示框中左上点坐标的横坐标与纵坐标，(G_i,H_i)是边界框的宽度和高度；每张图像用一组对象O＝{o₁,o₂,…,o_t,…,o_a}来表示，a代表图像区域数，每个对象o_t都与图像特征向量v_i、边界框特征向量S_i相关联，整个图像写成O＝[v₁||S₁,v₂||S₂,…,v_i||S_i,…,v_a||S_a]。

进一步，所述步骤3)包括以下两部分：

a、文本数据特征表示完后，构建文本连接图来进行文本内部关系挖掘，得到文本内部关系相似度；首先，使用NLP句法分析工具识别句子中的语义依赖关系，采用预训练BERT-Large模型结合Bi-GRU网络从输入句子中提取特征向量t；构建文本连接图时，将每个单词设置为节点，根据句法分析决定单词节点间是否连边，将文本连接图设为J＝(X,F)，X是单词节点的集合，F是边的集合，记单词节点数为c；通过内积公式计算文本连接图中两两单词节点间相似性，从而获得连边权重：

设所求单词表示t的相似矩阵为Q，t_x和t_y分别表示第x个单词节点和第y个单词节点，Q_xy代表第x个和第y个单词节点间的相似性，λ是一个比例因子，使用参数λ乘以内积结果进行运算，利用softmax归一化得Q；由于F为文本连接图中边的集合，设f为单词节点之间的连边，单词节点间的语义依赖性用连边权重W_f来表示，具体公式为：

式中，矩阵K表示节点的邻接矩阵，连边权重W_f通过相似度矩阵Q和邻接矩阵K相乘得到；

b、图像数据特征表示完后，构建图像连接图来进行图像内部关系挖掘，得到图像内部关系相似度，主要从空间关系和语义关系两个层面进行；首先，给定两个区域对象，通过三元组<实体-关系-实体>形式表示，即q_U,V＝<object_U,R,object_V>来表示其空间相对位置，用object_U和object_V来表示两个实体，用R来表示关系信息；将空间区域图设为Z_sp＝(v,q_sp)，式中，v代表图像特征向量，q_sp是带方向性的空间相对位置，q_u,v和q_v,u是对称方向的边；原始GCN不包含有向边，因此空间图中不同的方向要通过变换矩阵进行转换；这里采用带多头注意力机制的GCN对空间图进行推理，把每个注意头的输出特征连接起来，通过聚焦重要边来挖掘空间关系，得到相应的区域图像表示，其计算公式为：

式中，N表示头注意力的数量，ReLU(·)是激活函数，N(v_i)表示v_i的邻居集合，v_i表示区域i的图像特征向量，dir(i,j)为对每条边方向性敏感的变换矩阵，

是一个相关权重矩阵，α_ij ⁿ是多头注意力系数，v_j表示区域i的邻域j的图像特征向量，v′_i代表经过多头注意力机制增强GCN之后得到具有空间关系感知的区域图像特征向量，注意力系数α_ij计算公式为：

式中，W_β为变换矩阵，V_dir(i,j)表示一个相关变换矩阵，通过基于注意力的空间关系编码器对区域进行编码后，区域特征学习到了对象间更精准的空间关系；

获得具有空间关系感知的区域图像特征向量v′_i后，将其连接起来构成图像连接图M＝(V,H)，V代表图节点的集合，H代表由n个图节点组成的n×(n-1)个节点对构建的连边集合，计算每个节点对的相似度，计算公式如下：

式中，λ是比例因子，v′_j表示带空间关系v′_i的邻域区域特征，P_ij代表第i个和第j个图像区域节点间的相似性，使用参数乘以内积进行计算，用softmax层归一化得到最终的相似度矩阵，即通过计算连边权重来度量图节点间的相似性。

进一步，所述步骤4)包括以下步骤：

4.1)参照文本连接图J＝(X,F)和图像连接图M＝(V,H)，式中，X是单词节点的集合，F是单词节点间边的集合，V代表图节点的集合，H代表图节点连边的集合；输入句子后，需要从文本连接图中找到和图像节点相似的文本节点，将单词嵌入节点表示为J′_α∈R^c×dim，图像中节点表示为M′_β∈R^n×dim，其中R表示矩阵，c和n分别表示文本连接图和图像连接图的节点数，dim表示矩阵的维数，然后计算内积，再乘λ权重进行归一化操作，即U_m→j表示句子中有哪些词是和图像中节点对应，计算公式为：

U_m→j＝soft max_α(λM′_βJ′_α ^T)J′_α

式中，λ是比例因子，M′_β表示图像中节点，J′_α表示单词嵌入节点，α代表从句子中查找与图像节点相关的词；U_j→m表示图像连接图中有哪些节点和句子中的单词节点对应，β代表从图像中查找与单词节点相关的区域节点，计算公式为：

U_j→m＝soft max_β(λJ′_αM′_β ^T)M′_β

4.2)每个节点与其对应的另一模态节点采用“节点切分方法”进一步实施局部相似性操作，得到图文局部关系相似度，具体操作是：将每个节点切分为等值大小的j个小节点[t_m1,t_m2,…,t_mj]，t_mj代表第j个小节点，其对应节点也划分为等值大小的j个小节点[v_m1,v_m2,…,v_mj]，v_mj代表第j个小节点，小节点和小节点之间计算相似性，计算公式为：

h_me＝cos(v_me,t_me),e∈[1,j]

式中，h_me是个标量值，cos(·)是余弦相似度函数，t_me代表将文本中词的集合划分为等值大小的子文本节点，v_me代表等值大小的子图像节点，e代表将节点划分为小节点的数量范围；再将每个小节点计算出来的余弦相似性拼接，计算公式为：

h_m＝h_m1||h_m2||…||h_mj

式中，“||”表示串联，h_mj是一个代表图文数据对应小节点间余弦相似性的第j个标量值，h_m代表第m个文本节点的对应向量，通过连接所有小节点间的相似性计算得出，即h_m表示第m个文本节点对应的局部节点相似性；

4.3)在得出从图像到文本和从文本到图像局部相似度的基础上，为了对全局模式下的多模态数据特征进一步融合，采用GCN应用k个内核来进行局部对应关系的传播与推理，关系的补全与传播通过相邻局部聚合信息来更新，GCN具体计算公式为：

式中，σ(·)表示tanh激活函数，N_m为第m个节点的邻域，W_f为连边权重，W_k和d是k核需要学习的参数，h_e表示第e个文本节点对应的局部节点相似性，其被添加到h′_m中，h′_m表示通过一层GCN应用k个内核进行局部对应关系传播与推理后第m个文本节点对应的节点相似度；采用多头注意力机制增强上述GCN，计算公式为：

式中，P代表头注意力的个数，ReLU(·)表示非线性激活函数，N(h′_m)表示h′_m的邻居集合，W^p表示头注意力个数为P的投影矩阵，

是多头注意力系数，h′_e为通过一层GCN应用k个内核进行局部对应关系传播与推理后第e个文本节点对应的节点相似度，将h′_e添加到

中，

为经过多头注意力机制增强GCN后的第m个文本节点对应的节点相似度；

4.4)综合所有局部对应关系做推理，逐步学习到全局对应关系；从文本到图像的相似性Sim_j→m、从图像到文本的相似性Sim_j→m，计算公式为：

式中，

为文本MLP参数，W_g ^m′、

为图像MLP参数，tanh(·)为激活函数，W_h ^j′、

为文本图像融合的全连接层可训练参数，W_h ^m′、

为图像文本融合的全连接层可训练参数，n表示图节点数，c表示单词节点数，把之前计算出来的特征向量经过两层MLP后变为标量，

为最终经过局部关系挖掘后的第m个文本节点对应的节点相似度，

为最终经过局部关系挖掘后的第e个文本节点对应的节点相似度；计算图文数据整体相似性时，需要把文本到图像的全局相似性、图像到文本的全局相似性相加，计算公式为：

S(J,M)＝Sim_j→m+Sim_m→j

式中，S(J,M)表示图文全局关系相似度，J表示文本连接图，M表示图像连接图，通过联合考虑从图像到文本、从文本到图像的相似性来学习到全局相似性，进而建立起全局对应关系，实现图文关系融合。

进一步，在步骤5)中，为提升关系分析与挖掘效率，加入基于注意力机制的连边权重剪枝策略，来增强重要关系展示，去除无用关系信息，具体操作是：给经过关系挖掘后的第m个文本节点对应的节点相似度

计算聚合权重α_g，其公式为：

式中，Sigmoid(·)表示一种激活函数，

表示

的邻居集合，BN(·)函数表示进行批量归一化处理，W_q∈R^d×1是一个d维相似度向量的线性变换矩阵，R代表矩阵，

为经过关系挖掘后的第e个文本节点对应的节点相似度，为

聚合相似性表示，计算公式为：

式中，α_g表示相似度聚合权重，用h_end来聚合相似性表示，根据h_end具体大小来设置阈值ε，若相似度聚合权重乘以相似度大于或等于阈值，则保留其连边，小于则剪掉，通过此策略来增强重要关系信息，抑制无效关系，以保证挖掘关系的有效性。

本发明与现有技术相比，具有如下优点与有益效果：

本发明将NLP解析器、预训练的BERT-Large模型和Bi-GRU网络三者结合提取文本信息构建文本连接图，使用Faster-RCNN网络提取图像信息，学习图像中空间位置和语义交互构建图像连接图，进而分别计算节点间相似性来挖掘单模态内部语义关系；提出“节点切分方法”有效学习局部对应关系，采用带多头注意力机制的GCN聚焦重要关系、推理全局关系，加入基于注意力机制的连边权重剪枝策略优化方法模型，从而弥补了之前方法不能充分挖掘图文数据语义关系的问题。总之，本发明在复杂场景下多模态检索效率有明显提升，同时可根据挖掘到的关系实现图像文本数据间的互检索，具有很好的应用前景。

附图说明

图1为本发明方法的流程图。

图2为文本关系挖掘图。

图3为图像关系挖掘图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供了一种图文数据的多级关系分析与挖掘方法，聚焦多模态数据间隐藏的高级语义关联，使用了相关图像文本特征提取技术和图文相似度计算方法，其包括以下步骤：

1)采集不同模态的图文数据，包含文本和图像；将采集到的不同模态的图文数据表示为

其中，E表示文本实例，I表示图像实例，y＝1表示第一对文本图像数据，整个式子C表示Y对图文数据。

2)对获取到的不同模态的图文数据分模态进行特征表示，提取文本和图像特征向量，包括以下两部分：

D_x＝BERT-L arg e(E_x),x∈[1,z]

T_x＝Bi-GRU(D_x),x∈[1,z]

式中，T_x表示利用前向GRU和后向GRU读取D_x后的结果；

v_i＝W_ve_i+p_v

式中，v_i表示区域i的图像特征向量，W_v和p_v分别为图像特征向量的权重矩阵和偏差；图像区域特征提取的边界框用一个四维空间坐标S_i＝{A_i,B_i,G_i,H_i}表示，式中，S_i表示区域i的边界框特征向量，(A_i,B_i)表示框中左上点坐标的横坐标与纵坐标，(G_i,H_i)是边界框的宽度和高度；每张图像用一组对象O＝{o₁,o₂,…,o_t,…,o_a}来表示，a代表图像区域数，每个对象o_t都与图像特征向量v_i、边界框特征向量S_i相关联，整个图像可以写成O＝[v₁||S₁,…,v_i||S_i,…,v_a||S_a]。

3)图文数据特征表示后，分别构建文本连接图和图像连接图，进行单模态内部关系挖掘，得到单模态内部关系相似度，即分别得到文本内部关系相似度和图像内部关系相似度，包括以下两部分：

a、文本数据特征表示完后，构建文本连接图来进行文本内部关系挖掘，得到文本内部关系相似度；首先使用NLP句法分析工具识别句子中的语义依赖关系，采用预训练BERT-Large模型结合Bi-GRU网络从输入句子中提取特征向量t；构建文本连接图时，将每个单词设置为节点，根据句法分析决定单词节点间是否连边，将文本连接图设为J＝(X,F)，X是单词节点的集合，F是边的集合，记单词节点数为c，如图2展示了文本关系挖掘过程图。

从图2可以看出，用NLP工具识别语义依赖关系、采用预训练的BERT-Large模型和Bi-GRU网络提取句子特征来改进文本表示挖掘文本关系的过程，最终构建起文本连接图。通过内积公式计算文本连接图中两两单词节点间相似性，从而获得连边权重：

矩阵K表示节点的邻接矩阵，连边权重W_f通过相似度矩阵Q和邻接矩阵K相乘得到。最后经过L2正则，从而归一化权重、减少梯度爆炸等问题。

b、图像数据特征表示完后，构建图像连接图来进行图像内部关系挖掘，得到图像内部关系相似度，主要从空间关系和语义关系两个层面进行分析，其分析挖掘过程如图3所示。

图3展示了将区域特征提取完后图像关系挖掘的两个阶段，即空间关系和语义关系挖掘。

空间关系：首先给定两个区域对象，通过三元组<实体-关系-实体>形式表示，即q_U,V＝<object_U,R,object_V>来表示其空间相对位置，用object_U和object_V来表示两个实体，用R来表示关系信息；将空间区域图设为Z_sp＝(v,q_sp)，式中，v代表图像特征向量，q_sp是带方向性的空间相对位置，q_u,v和q_v,u是对称方向的边；原始GCN不包含有向边，因此空间图中不同的方向要通过变换矩阵进行转换；这里采用带多头注意力机制的GCN对空间图进行推理，把每个注意头的输出特征连接起来，通过聚焦重要边来挖掘空间关系，得到相应的区域图像表示，其计算公式为：

式中N表示头注意力的数量，ReLU(·)是激活函数，N(v_i)表示v_i的邻居集合，dir(i,j)为对每条边方向性敏感的变换矩阵，

W_β为变换矩阵，v_i表示区域i的图像特征向量，V_dir(i,j)表示一个相关变换矩阵，通过基于注意力的空间关系编码器对区域进行编码后，区域特征学习到了对象间更精准的空间关系。

语义关系：获得具有空间关系感知的区域图像特征向量v′_i后，将其连接起来构成图像连接图M＝(V,H)，V代表图节点的集合，H代表由n个图节点组成的n×(n-1)个节点对构建的连边集合，计算每个节点对的相似度，计算公式如下：

4)参照文本连接图和图像连接图，计算连接图中局部某个节点与另一模态节点间的相似度，利用“节点切分方法”进一步实施局部相似性操作，得到图文局部关系相似度；联合考虑从图像到文本、从文本到图像的局部相似性来学习全局相似性，采用带多头注意力机制的GCN通过相邻节点进行对应关系补全与传播，得到图文全局关系相似度，包括以下步骤：

U_m→j＝soft max_α(λM′_βJ′_α ^T)J′_α

U_j→m＝soft max_β(λJ′_αM′_β ^T)M′_β

h_me＝cos(v_me,t_me),e∈[1,j]

h_m＝h_m1||h_m2||…||h_mj

式中，“||”表示串联，h_mj是一个代表图文数据对应小节点间余弦相似性的第j个标量值，h_m代表第m个文本节点的对应向量，通过连接所有小节点间的相似性计算得出，即h_m表示第m个文本节点对应的局部节点相似性。通过“节点切分方法”，可以将句子中的单词节点与其相似度较高的图像节点相关联。此方法可以减少计算复杂度，通过分成多个小节点可以更好地并行化实现；也可以在后续找对应关系的时候，使来自不同位置的向量起到不同的作用；通过这种方法计算相似性后，可以将对应关系保留并表示成一个向量，如果不切分，计算完相似性之后就是一个标量，不方便以后计算。

式中σ(·)表示tanh激活函数，N_m为第m个节点的邻域，W_f为连边权重，W_k和d是k核需要学习的参数，h_e表示第e个文本节点对应的局部节点相似性，其被添加到h′_m中，h′_m表示通过一层GCN应用k个内核进行局部对应关系传播与推理后第m个文本节点对应的节点相似度；为了稳定训练过程并丰富模型能力，采用多头注意力机制增强上述GCN，计算公式为：

式中P代表头注意力的个数，ReLU(·)表示非线性激活函数，N(h′_m)表示h′_m的邻居集合，W^p表示头注意力个数为P的投影矩阵，

中，

为经过多头注意力机制增强GCN后的第m个文本节点对应的节点相似度。通过带多头注意力机制的GCN给图文数据传播完局部相邻节点的对应关系后，每个单词都会找到相关图像区域进行对应关系的建立，然后沿文本内部传播与补全。传播完后将卷积向量送到感知机中，用多层MLP计算。

4.4)综合所有局部对应关系做推理，逐步学习到全局对应关系。从文本到图像、从图像到文本的相似性计算公式为：

式中，W_g ^j′、

为文本MLP参数，W_g ^m′、

为图像MLP参数，tanh(·)为激活函数，W_h ^j′、

为文本图像融合的全连接层可训练参数，W_h ^m′、

为最终经过局部关系挖掘后的第e个文本节点对应的节点相似度。计算图文数据整体相似性时，需要把文本到图像的全局相似性Sim_j→m、图像到文本的全局相似性Sim_m→j相加，计算公式为：

S(J,M)＝Sim_j→m+Sim_m→j

5)为提升关系分析与挖掘效率，加入基于注意力机制的连边权重剪枝策略，来增强重要关系展示，去除无用关系信息。具体操作是：给经过关系挖掘后的第m个文本节点对应的节点相似度

计算聚合权重α_g，其公式为：

式中，Sigmoid(·)表示一种激活函数，

表示

为经过关系挖掘后的第e个文本节点对应的节点相似度，为

聚合相似性表示，计算公式为：

本实验基于Ubuntu操作系统，使用python、pytorch、cuda、gcc等语言工具，调用Flickr30K、MSCOCO数据集进行实验。

1)实验设置与评价指标

数据集Flickr30K包含从Flickr网站收集的31783张图片，每张图像对应五种句子描述，MSCOCO由123287张图像组成，每张图像与五个文本描述相关联，将数据集拆分成训练集、验证集、测试集来评估模型，详情如表1所示。

表1数据集统计表

评价指标使用recall@k进行方法评价，表示在排名前k个样本的返回结果中，检索到符合事实的正确项占总测试项的比例，这里衡量的是R@1,R@5,R@10。计算公式为：

式中，Z代表检索实例数量，如果Relate_k＝1代表所查询的例子和得到的结果有关系，结果正确；如果等于零则表示所查询的例子和得到的结果没有关系，结果错误。

2)结果分析

基于搭建的环境，使用对应的评价指标，对本发明提出来的方法进行了有效性验证，并与m-CNN、VSE++、GXN、SCO、SCAN、VSRN、CAMP、SGM、多层语义对齐、CANN、MMCA等11种方法进行实验结果对比，具体如表2所示。

表2实验结果分析表(％)

本发明方法旨在深层次提取文本、图像特征，充分挖掘图文数据内和数据间语义关系。将本发明方法应用在多模态检索任务中，取得了较好的检索效果。从表2对比结果可看出，本发明方法在Flickr30K数据集的句子检索任务下，其recall@1与当前方法中最好的结果相比有较大的提升，提升2％，recall@5有小幅提升，提升0.9％，在图像检索任务下recall@5和recall@10也有小幅提升，分别提升1.1％、0.6％。而MSCOCO-1K数据集(把5次1000张测试图像的测试结果取平均值)中，对于以文索图，其recall@1、recall@5、recall@10分别提高1.2％、1.3％、0.3％，以图索文中recall@1、recall@5分别提高1.2％、0.7％。相比之下，MSCOCO-5K检索性能低于MSCOCO-1K测试集的结果，因为MSCOCO-5K是较广泛的目标集，包含更多数量的实体关系与噪声信息。与多种方法进行比较，图像到文本检索里recall@1、recall@10各提升了1％、0.1％，文本到图像检索里recall@1、recall@10各提升了0.9％、1.9％。虽然上述模型在某些项得分略低于其它模型，但本发明成果验证了在多模态检索中考虑隐藏关系的必要性。

3)消融实验分析

为验证MRAM模型中关键部分的有效性，采用控制变量法，通过去掉模型中的部分模块来查看模型性能是否发生变化，如表3所示，划分文本关系挖掘、图像关系挖掘、图文关系融合、关系验证四个模块在Flickr30K和MSCOCO-1K数据集上进行消融实验以及结果分析。

表3消融实验表

在(1)中，评估了预训练的BERT-Large引入文本编码层的影响，由于它可以捕捉到Bi-GRU网络易忽视的上下文关系信息，因此没有经过预训练BERT-Large编码的模型尤其图像检索方面损失约1.88％。

在(2)中，利用基于注意力的空间关系编码器来学到具有空间关系感知的区域级图像表示。去除带多头注意力的空间关系后，文本检索图像和图像检索文本性能分别下降了1.67％和1.13％，说明通过参考学习到的空间位置关系，可以更好地获得图像在语义和空间层次上目标间的多关系视觉特征，进而弥补后期图像特征参与相似度计算时易丢失有效信息等问题，有助于图像关系挖掘。

在图文关系融合模块中，证明了其每个组件的重要性。在(3)中，试图只考虑局部对应关系挖掘，然而性能显著下降，因为局部对应关系部分只从小范围节点方面计算图文相似性，而全局对应关系则进一步实现了整体范围的图文关系传播、推理与实现。在(4)中，计算图文局部相似性时没有用“节点切分方法”，模型性能虽然轻微下降，但是通过此方法却可以优化相似度计算，降低其运算过程中的时间复杂度，推动整个模型实现，方便后续操作。在(5)中，删掉全局对应关系中的注意力机制后，检索性能下降了约1.18％，这证实了注意力机制可以加权重要关系信息，从而捕获隐藏在多模态数据间深层次的语义关联。(6)中尝试在全局对应关系中用两层GCN，结果表明更深的网络会降低性能，主要原因可能是使用两层GCN后，即使有些节点不能构成局部对应，但它也会在间接相邻的节点之间互相传播关系，会被其它节点对应关系干扰，因此最后学习到的关系就不那么准确，检索效率也随之下降。在(7)中，移除基于注意力机制的连边权重剪枝策略之后，模型效果也一定程度下降了，这是由于注意力机制能将注意力关注到最相关的地方，从而可以参考阈值有效剪枝，提高模型效率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。