CN112966127A

CN112966127A - 一种基于多层语义对齐的跨模态检索方法

Info

Publication number: CN112966127A
Application number: CN202110374768.5A
Authority: CN
Inventors: 王海荣; 杜锦丰
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-06-15
Anticipated expiration: 2041-04-07
Also published as: CN112966127B

Abstract

本发明公开了一种基于多层语义对齐的跨模态检索方法，其利用自注意力机制获取显著细粒度区域，促进模态数据间实体和关系对齐，并提出基于语义一致的图像文本匹配策略，从已给文本数据集提取语义标签，通过多标签预测进行全局语义约束，以获得更精准跨模态关联。从而解决了跨模态数据语义鸿沟问题。

Description

一种基于多层语义对齐的跨模态检索方法

技术领域

本发明涉及跨模态检索的技术领域，具体涉及一种基于多层语义对齐的跨模态检索方法。

背景技术

伴随着人工智能在各个领域的广泛应用，数据呈现形式越来越多样化,文本、图像、视频等多模态数据快速增长。不同模态数据呈现底层特征异构，高层语义相关的特点，如同一网页中的文本通过字典向量来表示，而图像则通过视觉特征表示，它们处于完全不同的特征空间，但却表示同一语义。而目前的检索方法通常是单一媒介，即查询和检索结果属于同一模态类型，检索内容单一，受限于查询条件约束。由于多模态数据的内容互相补充，用户借助跨模态检索引擎，提交任意一种模态查询数据获取语义相关其它数据，提高查询效率，改善用户体验。因此，对多模态数据交叉检索具有重要应用价值。

怎样在大量多模态数据中寻找所需数据是当前研究热点。主流的跨模态检索方法是构建不同模态数据共同语义空间，在该空间中，将图像和文本异构数据映射相同维度的语义特征，通过语义特征直接度量不同模态数据相似性。其中最常用的是典型相关分析算法(CCA)，其将两组异构数据在公共空间进行相似性最大化。而后提出的深度对抗度量学习方法，将数据非线性映射共公子空间，使类内差异最小化，类间差异最大化，来捕获数据对的差异最小化；正交约束光谱回归方法，在图模型将多模态数据投影到潜在空间；基于任务和查询的子空间学习方法，通过高效迭代优化学习特定任务和类别子空间；基于深度监督方法学习公共的表示空间，直接度量每一种模态的样本实例，通过有监督方法学习不变特征向量；分层网络融合细粒度特征方法，利用层次网络学习互补上下文特征向量，自适应平衡模态内和模态间成对语义约束。

然而，上述提出的这些方法主要是从图像和文本全局特征建立关联，忽略图像细粒度区域和文本词之间关系，且图像特征高度依赖检测图像精度，不同区域互相影响。因此，如何挖掘多模态特征多层关联，构建有效的语义约束，是实现跨模态检索精度提升的关键问题。

发明内容

针对上述存在的问题，本发明旨在提供一种基于多层语义对齐的跨模态检索方法，了实现上述目的，本发明所采用的技术方案如下：

一种基于多层语义对齐的跨模态检索方法，其特征在于，包括以下步骤：

步骤1：获取不同模态的数据：文本、图像和视频；

步骤2：对收集到的不同模态数据进行特征提取，并将提取出的相应的文本、图像和视频特征向量，并映射到公共空间；

步骤3：将得到的文本、图像和视频特征向量通过自注意力机制为不同的特征向量分配自注意力权重，并通过注意力机制自适应地过滤掉无关或相关性较小区域；

步骤4：利用自注意力机制将实体对齐、关系对齐；

步骤5：利用全局特征匹配方法实现全局语义对齐；

步骤6：分别计算关系相似度、实体相似度和全局语义相似度；

步骤7：根据得到的关系相似度、实体相似度和全局语义相似度来计算图像和文本整体相似度，并根据整体相似度进行排序，选择排名前n个候选集的相似度作为最终的查询结果。

进一步地，步骤2的具体操作步骤包括：

S21：将收集到的N对图像、文本、视频的跨模态数据表示为

S22：提取图像特征：将每幅图像i输入到Faster R-CNN，提取图像区域特征，得到一组图像i的特征向量

其中lⁱ表示每个候选图像区域，n为候选区域个数，其计算公式为：

l_i＝W_v.f_i+b_v i∈[1,2......n] (1)，

其中，W_v是转换矩阵，b_v是偏置系数；

S23：提取文本特征：对于文本句子T，通过Bi-GRU网络学习文本上下文特征，将得到的文本语义特征通过one-hot编码，获得每一个词的词向量表示，并通过编码矩阵将词向量嵌入到公共空间，得到文本的语义向量特征表示，其计算公式为：

其中，e_j表示单词向量，W_t为Bi-GRU单元参数；

S24：提取视频特征：对于一个视频语义信息V^T，利用Bi-GRU网络提取视频中的文本语义信息，利用文本语义特征代替视频提取单词特征，将得到文本语义特征通过one-hot编码，获得每一个词的词向量表示，并通过编码矩阵将单词嵌入到公共空间，得到视频V的语义向量特征表示。

进一步地，步骤S3的具体操作步骤包括：

S31：对于输入的图像特征

利用多层感知机进行计算，获得图像片段的自注意力权值Wⁱ：

其中，Wⁱ是权值矩阵，Qⁱ和Pⁱ为注意力机制参数矩阵，n为图像区域个数，

为偏置系数，通过softmax函数实现图像特征权重分配；

S32：对于输入的文本特征e＝{e₁,e₂，.....e_m}，利用多层感知机进行计算，获得文本片段的自注意力权值W^t：

其中，W^t是权值矩阵，Q^t和P^t为注意力机制参数矩阵，m为文本词向量个数，

为偏置系数，通过softmax函数实现文本特征权重分配；

S33：对于输入的视频特征向量{v₁,v₂.....v_m}，利用多层感知机进行计算，获得到视频片段的自注意力权值W^v：

其中，W^v是权值矩阵，Q^v和P^v为注意力机制参数矩阵，m为视频向量个数，

为偏置系数，通过softmax函数实现视频特征权重分配；

S34：特征向量经过自注意力计算，自适应地过滤掉权重较小的图像、文本和视频区域。

进一步地，步骤S4的具体操作步骤包括：

S41：对于图像片段

根据与该图像区域语义相似性，计算每个单词的注意力权重

注意力权重的计算公式为：

其中

表示图像区域

和词向量t_q语义相似性；

S42：将图像关系表示为

p,q＝{1，...,n}，其表示第p和q个区域关系，对于每个图像关系rⁱ，根据与该图像区域语义相似性，计算每个单词的注意力权重

其中

表示图像区域

和单词t_q的语义相似性；

S43：根据S41和S42得到的注意力权重计算实体和关系对齐。

进一步地，步骤S43的具体操作步骤包括：

S431：基于句子间的连词和语法规则，判断两个句子间的递进、转折和总结三类关系；

S432：将句子间的三类关系作为先验知识，引入注意力网络，得到基于句法关系约束的句子层注意力机制，其计算公式为：

其中，N是文本数量，w是情感分类模型，x_i是第i个文本的向量表示，y_i是第i个文本的情感极性，β_i,β_j分别是句子层的注意力系数，B_ij是句子i和句子j的相似度，λ₁,λ₃是超参数。

S433：将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络，最终得到文档的向量表示。

进一步地，通过步骤6实现多层语义相似度融合，整体相似度的计算公式为：

本发明的有益效果是：

本发明在现有方法的基础上，提出一种多层对齐的跨模态检索方法，该方法能够挖掘模态细粒度特征，从而实现图像文本实体和关系对齐，并通过文本加权向量的多标签预测进行全局语义约束，弥补图像区域检测不精确，实现跨模态数据更好的关联。该方法通过与现有跨模态检索方法相比，其检索的精度有显著的提升，并实现从图像、文本的跨模态检索扩展到图像、文本和视频三种模态数据。

附图说明

图1为多层语义对齐的跨模态检索模型框架图；

图2为多层感知器结构图；

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

本发明方法的实现主要依据于混合匹配和注意力机制等方法。其中，混合匹配方法是将图像划分为整体和部分图像区域，将文本划分部分句子和部分单词，挖掘图像与文本实体对齐；而注意力机制在序列学习任务上有巨大的提升作用，广泛用于自然语言处理的各项任务，利用注意力机制处理多模态数据，能够捕获文本和图像特征之间的依赖。

在上述现有方法的基础上，本发明的方法基于模态特征子空间映射和跨模态检索度量两个部分，具体又划分为跨模态特征学习、跨模态注意力机制、全局语义一致性构建和多层相似度融合四个方面，且多层语义对齐的跨模态检索模型的框架如附图1所示。

其中，跨模态特征学习用于抽取模态特征并将特征映射到公共空间，特征向量通过自注意机制计算图像和文本片段关联程度，自适应剔除关联度低区域并对图像区域和文本词实体和关系注意对齐。为避免图像区域检测不精确，抽取文本信息作为全局语义约束，增强跨模态数据关联。将得到的多层次语义进行相似度融合，得到整体相似度。

下面从上述四个层面进行阐述：

1、跨模态特征表示

将跨模态数据表示为

其表示N对图像、文本，视频；为简化符号，分别将I、T和V表示为图像模态、文本和视频模态实例。

对于图像特征提取，本发明利用Faster R-CNN算法来提取图像区域特征，并较大概率生成包含对象的候选区域，如“woman”或“bike”；

本发明中的Faster R-CNN通过ResNet-101网络实现，将每幅图像i输入Faster R-CNN，得到若干候选框，提取候选区域特征

其表示一幅图像中的 n个不同的区域。对于I中候选区域i，f_i表示通过ResNet-101对区域池化后的特征向量，为使不同模态数据映射到统一的空间，添加全连接层对f_i进行变换，投影到1024维特征向量，因此，可将图像i表示为一组特征向量

其中 l_i表示每个图像候选区域，计算如公式1所示：

l_i＝W_v.f_i+b_v (1)，

其中，W_v是转换矩阵，b_v是偏置系数。

对于文本特征提取，利用Bi-GRU网络充分学习文本上下文特征，对文本句子 T，使用one-hot编码向量表示每一个词单词，通过编码矩阵将单词嵌入到与图像同维向量空间。{e₁,e₂.....e_m}表示句子中m个单词向量，通过双向GRU网络分别从e₁读取单词到e_m并反向读取，且用以下公式递归更新GRU：

z_t＝σ(W_z.x_t+U_z.h_t-1) (2)，

r_t＝σ(W_t.x_t+U_z.H_t-1) (3)，

其中，z_t和r_t分别表示为更新门和复位门，

为候选激活单元，h_t为隐性激活单元，W_z和W_t分别为Bi-GRU单元参数，σ为sigmod激活函数。最终得到文本词向量特征表示式为：

从而可以看出，文本T完整表示由一组语义向量{t₁,t₂.....t_m}表示文本句子中的m不同单词。

对于视频特征提取，其提取方法与文本提取方法相似，即：首先提取视频文本语义信息，利用文本特征代替视频提取单词特征，其次，利用Bi-GRU网络充分学习文本特征上下文，对于一个视频语义信息V^T，使用one-hot编码向量表示每一个词单词，通过编码矩阵将单词嵌入与图像同维向量空间。因此，最后将视频V特征表示为一组语义向量{v₁,v₂.....v_m}。

2、跨模态注意力机制

对于特征向量，存在无关或相关性较小的区域，造成实体对齐和相似性计算量较大。因此将得到的特征向量通过自注意力机制获得注意力权重α，权重越大，相关性越高。本发明在图像文本自注意力机制通过一个多层感知器(MLP)得到相关的权重，且多层感知器结构图如附图2所示。

以图片特征为例，其中Qⁱ和Pⁱ为注意力机制参数矩阵，Softmax函数在第二步执行，蓝色区域为中间结果，Wⁱ是权值矩阵表示图像片段自注意力权值。通过注意力机制自适应过滤掉权值较小的区域。

对于输入的文本特征e＝{e₁,e₂，.....e_m}，利用多层感知机进行计算，获得文本片段的自注意力权值W^t：

为偏置系数，通过softmax函数实现文本特征权重分配；

对于输入的视频特征向量{v₁,v₂.....v_m}，利用多层感知机进行计算，获得到视频片段的自注意力权值W^v：

为偏置系数，通过softmax函数实现视频特征权重分配；

上述的特征向量经过自注意力计算，即可自适应地过滤掉权重较小的图像、文本和视频区域。

此外，采用跨模态联合注意力机制，挖掘实体对齐突出文本词。对于图像片段

根据与该图像区域语义相似性，计算每个单词注意力权重

计算如公式 9：

其中，

表示图像区域

和词向量t_q语义相似性，注意力权重越大表示关键词描述图像区域精度越高。

利用实体关系对齐方法挖掘图像区域与文本词联系，图像区域成对组合，图像关系表示为

其表示第p和q个区域关系。采用关系跨模态注意力，突出描述对应图像关系文本词，对于每个图像关系rⁱ，根据与该图像区域语义相似性，计算每个词的注意力权重

计算公式如下：

其中，

表示图像区域

和单词t_q的语义相似性，注意力权重越大关键词描述的图像组合区域的可能性越高，为跨模态关联学习提供互补信息。

根据式(11)和式(12)得到的特征向量权重来计算实体和关系对齐，具体包括：

(1)基于句子间的连词和语法规则，判断两个句子间的递进、转折和总结三类关系；

(2)将句子间的三类关系作为先验知识，引入注意力网络，得到基于句法关系约束的句子层注意力机制，其计算公式为：

(3)将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络，最终得到文档的向量表示。

3、全局语义一致性

现有跨模态数据集没有成对图像-文本标签，故需构建文本标签字典作为跨模态数据集的语义标签。通过选择句子中出现频率最高的500个词构建标签字典，包含对象、属性等词汇，为满足每个图像文本对至少包含一个语义标签，将图像对应 5条语句进行拼接作为一条语句，实现图像文本对分配一个或多个语义标签。

全局特征匹配方法与直接计算全局特征的特征相似度不同，其首先将图像区域特征和句子加权注意力向量生成全局特征，对于一个给定的图文对(I,T)，且文本词的注意力权重为a_i,i∈[1,m]，文本全局加权注意力向量文本词的平均注意向量可表示为：

该计算式的目标是使A^T全局注意向量在语义上与(I，T)的语义标签一致。

4、多层次相似度融合

基于上述的图像和文本的三种不同表示形式，利用全局、局部和关系三个层次实现语义对齐，计算跨模态相似度。其中全局语义对齐是通过加权特征向量与语义标签转换为多标签分类，使用两个全连接层和激活函数实现向量语义标签非线性映射(1024→500→512)，对于图像-文本对(I，T)，其文本真实语义标签为 Y＝{y₁,y₂......y_C}，C表示标签数量，其中y_i＝1表示图像文本存在标签i。

该方法构建了基于全局语义一致的多标签预测框架，在不增加人工成本的情况下，直接从可用的句子语料库中提取语义标签，利用加权向量进行来预测语义标签

为实体和关系对齐得到的语义相似度提供全局语义约束。具体来说，由于句子中包含大量的独特词和各种概念，如对象、属性、数量、动作等，且频率不同，通过选择所有句子中出现频率最高的k个词来构建标签词典，为每个图像、文本对分配一个或多个语义标签，以表示其高级语义。这里，K是一个依赖于特定数据频率分布的整数。多标签预测方法是将(11)中的向量与语义标签相关联，通过使用两个完全连接的层和tanh激活函数，实现将全局特征的注意力向量到语义标签的非线性映射，进而实现语义标签预测。然而在建立的标签字典中，标签分布是不均衡的，在多标签预测过程中，进一步对每个标签采用了加权方案。其中，pc为标签概率权重值，是标签c的负样本和正样本的比例，目的是使出现频率较低的标签分配的权重高，频率较高的标签分配的权重较低，来有效地提高低频率标签的召回率。最后计算真实标签和预测标签余弦相似度，进行全局语义约束。其计算式为(15)：

得到预测目标

作为图像和文本样本上每个标签的二值分类任务，其损失函数为：

对于细粒度特征向量进行实体对齐，将通过自注意力机制自适应地过滤掉无关图像文本区域特征，根据学习到的实体注意权值来度量图像区域

和文本词{t₁,t₂.....t_m}细粒度语义相似性，计算如公式如下：

其中，

是在图像区域

和文本词中的第j个单词t_j注意力权重。并根据相似度丢弃未对齐的图像区域，将语义相似度较小的区域进行过滤。在多个实体图像特征中选择K个最近邻，使K个最接近实体平均相似度大于不匹配的图像/文本对，目标函数如下：

除了全局和实体对齐外，还要挖掘图像组合特征和文本词关系对齐，对一个图像关系rⁱ与句子t_j之间关系相似度进行测量，计算相似度如下所示:

其中，

是在图像区域

和文本的第j个单词t_j注意力权重，根据计算关系相似度，选择K个最近邻，实现图像文本关系对齐，目标函数如下：

将图像I与文本T相似度多层级融合，利用全局、实体和关系互补信息，建模图像和文本相似性，促进跨媒体检索，得到跨模态数据整体相似度为，通过结合全局、实体和关系相似度计算，在候选集中选取相似度排名较前n个候选实例作为检索结果返回，其相似度计算公式如(18)所示

实施例：

1、实验方法

本实验在NVIDIA 1080Ti GPU工作站上运行，在Flickr30k和MSCOCO两个公用数据集进行实验，数据集中的每张图片对应五条关联句子，数据信息如表1所示。因数据集中只包含了图像和文本两种模态数据，故本方法验证了文本与图像的互检索。实验中对每一张图像提取36个区域、2048维度特征，通过全连接层进行数据降维至1024公共空间。针对每个句子，单词嵌入大小设置为300，长度不足的句子用零填充，使用Bi-GRU对句子单词进行编码，隐藏单元维数为1024。

表1 Flickr30k和MSCOCO数据集详情

本文采用R@K对方法进行评估。R@K表示K个检索结果中查询正确的百分比，其值越高表示检索性能越好，计算公式下：

其中N为实例个数，当Relk＝1表示第k个返回结果与查询实例相关，当Relk＝0 表示第k个返回结果与查询实例无相关，实验中k设置为1、5、10。本方法与DCCA、 SCAN、DVSA、RRF-Net、SCO、JGCAR、CASC在相同实验环境下的结果如表2 所示。

表2实验结果分析表

为验证本方法的查询效果，在Flickr30k数据集上的图像-文本互检索实例 (Q1-Q6)的实验结果如表3和表4所示(只列出相似度前5和前3的查询结果)，其中红色标注的是错误查询结果。

表3本方法图像检索文本结果

表4本方法文本检索图像结果

对比发现，本方法相比上述方法检索准确率均有显著提升，优于现有的方法，验证方法合理性。一方面，基于全局特征匹配方法由于网络结构较浅提取模态特征粗糙，造成图像文本对齐精度不高且损耗函数设计较差，实体对齐较差。另一方面，现有的混合匹配方法只关注图像文本的整体和实体对齐，没有挖掘文本和图像区域间关系，且实体对齐高度依赖图像检测进准度，造成跨模态数据难以对齐。

2、实验结论

本发明方法从全局、实体和关系三个层次考虑图像与文本语义相似度，提高多模态数据关联性能。实验结果表明，该方法在Flickr30k和MSCOCO两个公开数据集上进行验证，证明本文算法较好地提升，优于现有方法。在未来中，通过融合知识图谱实现图图像文本关系补充，通过知识表示方式实现跨模态数据更好关联，提高检索准确度。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。