CN115329120A

CN115329120A - 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构

Info

Publication number: CN115329120A
Application number: CN202210827738.XA
Authority: CN
Inventors: 赵万青; 安刚; 彭进业; 张晓丹; 杨文静; 胡琦瑶
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-11-11

Abstract

本发明公开了一种知识图谱嵌入注意力机制的弱标注哈希图像检索的架构，通该架构将特征学习、哈希学习、知识图谱嵌入、跨模态特征融合集成到了一个端到端的图像检索架构当中，包括图像视觉特征提取网络、文本特征提取模型、将图像特征与文本特征执行交叉关注的解码器、嵌入自注意力层的噪声遮罩矩阵、生成紧凑语义的哈希层、单模态视觉模型和用于将多模态模型性的能迁移至单模态模型的知识蒸馏机制。该架构对弱标注环境下的图像检索性能具有一定的提升。

Description

一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构

技术领域

本发明属于图像检索技术领域，具体涉及一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构。

背景技术

许多基于学习的哈希方法被研究人员提出并用于图像检索，它们的目标是学习一种紧凑的、保持相似性的表示方法，使得类似的图像就可以映射到汉明空间中邻近的二进制哈希编码上，在人工标记图像的帮助下，这类有监督哈希学习方法取得了显著的效果，然而大规模标记图像数据的获取成本很高，限制了这类算法的使用。

在真实环境中，存在着许多Web图像库，这其中，弱标记的图像数据非常丰富。这样的Web图像通常包含有用信息的图像标记，但这类弱标记往往伴随着大量的噪声标记。

随着基于自注意力机制的Transformer架构的提出，许多研究开始将Transformer应用于视觉领域。此外，随着知识图谱的发展，越来越多的研究人员尝试利用从知识图谱中学习的知识信息来提高一些知识驱动任务的性能。

如何利用知识图谱作为辅助知识，在数据和知识共同驱动下，降低噪声标签在注意力机制中的影响，目前在图像检索领域相关研究较少。

经申请人研究，现有技术中存在如下问题：

(1)有监督学习依赖于人工标注的数据集，然而大规模标记图像数据的获取成本很高，限制了这类算法的使用。

(2)在真实环境中存在大量的弱标注数据，这些数据既含有用信息的图像标记，又伴随着大量的噪声标记。

(3)图像视觉特征与文本特征之间不但表征不一致，而且具有不同属性，这种异构性造成跨模态的相关性度量十分困难，难以实现跨模态数据的统一表征与综合利用。

发明内容

针对上述现有技术存在的缺陷或不足，本发明的目的在于，提供一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构。

为了实现上述任务，本发明采取如下的技术解决方案：

一种知识图谱嵌入注意力机制的弱标注哈希图像检索的架构，其特征在于，该架构将特征学习、哈希学习、知识图谱嵌入、跨模态特征融合集成到了一个图像检索架构当中，包括以下结构：

结构(1)：图像视觉特征提取网络；

结构(2)：文本特征提取模型；

结构(3)：将图像特征与文本特征执行交叉关注的解码器；

结构(4)：嵌入自注意力层的噪声遮罩矩阵；

结构(5)：生成紧凑语义的哈希层；

结构(6)：单模态视觉模型；

结构(7)：用于将多模态模型性的能迁移至单模态模型的知识蒸馏机制。

根据本发明，所述噪声遮罩矩阵，具体为知识图谱提供的先验知识可以为文本提供词与词之间相似性，进而形成相关性矩阵，对相关性低的词形成遮罩，在计算单词的自注意力时，遮挡标记与噪声标记之间注意力的计算，从而降低噪声或错误标记对自注意力分数的影响。

具体地，所述知识蒸馏机制具体为：结构(1)-(5)生成的模型是以图像和文本同时作为输入，目的是在获取视觉语义信息的同时还引入了丰富的文本语义，在降低文本噪声的基础上形成的是强大的视觉文本模型，而视觉文本模型是不可检索的，因为在检索阶段，图像检索模型的输入只有图像，因此结构(7)所采用的知识蒸馏机制为引入一个可检索的视觉模型去学习强大但不可检索的视觉文本模型，将视觉文本模型的性能通过学习分布的方式迁移至简单高效可检索的单模态视觉模型。

本发明的知识图谱嵌入注意力机制的弱标注哈希图像检索的架构，与现有技术相比，具有如下技术效果：

(1)将特征学习、哈希学习、知识图谱嵌入、跨模态特征融合集成到了一个的端到端的图像检索架构当中；

(2)针对语言和视觉之间存在巨大的语义差异,采用了交叉关注的Transformer将二者的特征进行融合，实现跨模态的统一表征；

(3)利用了知识图谱的先验知识作为辅助知识，在计算文本自注意力时引入了遮挡噪声标记的噪声遮罩矩阵，在数据和知识的共同驱动下，降低了错误或者噪声标签对图像和文本语义发掘的影响；

(4)采用了蒸馏机制，将强大但不可检索的视觉文本模型压缩为适合图像检索任务的高效检索的可索引的视觉模型；

(5)在NUS-WIDE基准数据集上的实验表明，该架构对弱标注环境下的图像检索性能具有一定的提升。

附图说明

图1为本发明的知识图谱嵌入注意力机制的弱标注哈希图像检索架构采用整体结构框图；

图2为知识图谱嵌入注意力机制形成Attention Mask原理图；

以下结合附图和实施例对本发明作进一步说明。

具体实施方式

本申请的设计思路是：在真实环境中，即存在大量噪声和模糊标签的情况下，利用知识图谱提供的先验知识嵌入注意力机制中，在数据和知识共同驱动下，降低了错误或者噪声标签对图像和文本语义发掘的影响，提高了模型在真实环境下的性能和泛化能力。另外，利用Transformer内置的交叉注意力机制使视觉特征与文本单词特征执行交叉关注，以进行细粒度级别的特征学习，实现跨模态特征融合。最后，将特征映射到汉明空间学习更加紧凑的哈希码，以提高在大规模图像检索中的效率。

本实施例给出一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构，该架构将特征学习、哈希学习、知识图谱嵌入、跨模态特征融合集成到了一个图像检索架构当中，具体包括以下结构：

结构(1)：图像视觉特征提取网络；

结构(2)：文本特征提取模型；

结构(3)：将图像特征与文本特征执行交叉关注的解码器；

结构(4)：嵌入自注意力层的噪声遮罩矩阵；

结构(5)：生成紧凑语义的哈希层；

结构(6)：单模态视觉模型；

本实施例中，图像视觉特征提取网络是指任意公开的神经网络模型，例如ResNet，VGG16或者ViT等，所采用的神经网络模型并不限制对图像特征提取网络的选择，因此这个神经网络模型是通用的，它可以集成任何先进的深度模型，使得这些模型也可以在弱标注数据上进行训练，从而提高它们的性能。申请人在随后的实验过程中采用了ResNet50网络模型来作为图像视觉特征提取网络模型。

本实施例中，所述文本特征提取模型，采用预训练的word2vec模型来将文本转化为特征向量。

所述将图像特征与文本特征执行交叉关注的解码器，具体是利用Transformer结构中的解码器(Decoder)执行交叉关注。

传统解码器Decoder中的交叉注意力层中的query，key，value均来自于单一模态的特征，而本实施例中，query，key来自于视觉特征，value则来自于文本特征，三者计算注意力的过程就完成了视觉特征与文本特征的交叉关注，实现了跨模态的特征融合。

所述嵌入自注意力层的噪声遮罩矩阵，是针对于某一样本对应的文本信息，利用知识图谱的先验知识判断词与词之间的相关性，不相关的词之间计算的注意力分数将会是噪声进而影响实验结果，故在嵌入自注意力层引入噪声遮罩矩阵，在计算解码器中的自注意层时，将不相关的词之间的得分进行“遮挡”，不计入最终的结果，从而降低噪声对结果的影响。

所述知识图谱，采用了公开的文本知识图谱ConcepNet5，该知识图谱ConcepNet5以三元组形式的关系型知识构成，采用了非形式化、更接近自然语言的描述，侧重于词与词之间的关系。

所述生成紧凑语义的哈希层，具体是指在最终的推理阶段，将图像特征映射成紧凑的二进制哈希码，提示图像检索的效率。

所述单模态视觉模型，具体是指在下一阶段的知识蒸馏期间只需输入图像即可检索的单模态模型。本实施例中，采用的单模态视觉模型的结构即为在结构(1)中的图像视觉特征提取网络，加入激活层Sigmoid和哈希层，这么设计的目的是为了与结构(1)共享训练参数。

所述知识蒸馏：图像检索是对模型输入图像，模型则返回尽可能相似的多个图像，而模型不仅需要输入图像，还需要输入文本。本实施例所述知识蒸馏机制具体为：结构(1)-(5)生成的模型是以图像和文本同时作为输入，目的是在获取视觉语义信息的同时还引入了丰富的文本语义，在降低文本噪声的基础上形成的是强大的视觉文本模型，而视觉文本模型是不可检索的，因为在检索阶段，图像检索模型的输入只有图像，因此结构(7)所采用的知识蒸馏机制为引入一个可检索的视觉模型去学习强大但不可检索的视觉文本模型，将视觉文本模型的性能通过学习分布的方式迁移至简单高效可检索的单模态视觉模型。最终将该单模态视觉模型的性能蒸馏到了一个仅需要单模态输入小而快的深度模型中。

以下是具体的实施过程。

参见图1，图1给出了知识图谱嵌入注意力机制的弱标注哈希图像检索架构结构框图，具体构建包含如下步骤：

首先，假设数据集是由图像-文本-标签(x_i，T_i，l_i)对组成的,其中x_i表示第i个样本的图像，T_i表示其对应的文本集合，l_i表示真实标签。

步骤1，特征提取阶段，该步骤包括了视觉特征和文本特征的提取，具体来说，给定一个样本对(x，T),对于图像x，利用CNN主干网络提取图像的空间特征F∈R^HW×d，其中HW表示特征图的高和宽的乘积，d表示特征的维度。对于由K个单词组成的文本T，使用任意词嵌入模型(word2vec、GRU网络或者bert)将每个单词转化为d维的向量，最终形成词嵌入向量W∈R^K×d。

步骤2，将在步骤1中获取到的标签嵌入向量Q₀∈R^K×d作为query输入transformer的解码器，图像的视觉特征F则作为key和value也输入到的解码器中，使用多层transformer将图像的空间特征与文本的词特征进行交叉注意计算。标准的transformer的解码器结构由一个自注意模块，一个交叉注意模块和一个前馈网络(FNN)组成。第i个解码器层的查询Q_i会根据其前一层的输出Q_i-1进行更新，如下所示:

Self-Attention：

Cross-Attention：

FFN：

式中，Q上方加波浪线表示进行位置嵌入之后的结果，

和

是两个中间变量，MultiHead(query，key，value)和FNN(x)分别是多头注意力机制和前馈网络。在自注意力模块和模态交叉注意力模块中，使用同一个MuliHead函数实现。不同之处在于键和值来自哪里，在自注意模块中，query，key，value均来自标签嵌入向量，而在模态交叉注意模块中，keye，value变成了图像空间特征。模态交叉注意的直观的描述为：每个标签的特征Q_i-1,j∈R^d(j＝1,...,HW)查询所有的图像空间特征，选择与之相关性高的视觉向量进行组合，进而每个单词向量都会获得一个与图像相关的特征并进行自我更新，因此Q₀被逐层更新，并通过交叉注意逐步注入来自图像的语义信息，从而实现图像空间特征与文本信息的跨模态融合。

步骤3，由于文本特征中可能存在一些与真实语义不相关的噪声标签，在执行自注意力时，这些噪声标签也会与视觉特征进行交叉计算，并随之注入到最终的结果中。为了减少这些错误或有噪声标签的影响，本实施例在步骤2中的self-attention阶段通过引入知识图谱作为辅助知识构建语义图，利用知识图谱提供的相关性来遮罩不相关单词之间的注意力计算。

具体来说，知识图谱ConcepNet构建以单词为顶点，以相关性权重为边，以(起点，终点，关系)三元组构成语义图，其中相关性为负或为较小值的边表示两单词不相关或相关性较低。因此，对于任意的单词w_i和w_j，定义Attention Mask矩阵M为：

式中，r_ij代表单词w_i与w_j之间的相关性得分，ε表示一个相关性的阈值，当单词之间的相关性得分低于ε时，就认为这两单词之间是不相关的。

为了防止噪声单词对自注意力机制的影响，故在矩阵M的基础上引入mask self-attention，它是自注意力机制的一种扩展，具体来说，在Attention的计算过程中，引入噪声遮罩矩阵M：

式中，Q，K，V分别是query，key和value，

为比例因子，M则为噪声遮罩矩阵。直观来讲，如果query中的某个单词w_i对key中的某个单词w_j不相关，那么M_ij会将注意力得分置为0，也就是说不相关的两个单词w_i与w_j计算的注意力得分将对value不起作用，从而降低了噪声标签对最终结果计算的影响。

如图2所示，sky对bay是不可见的，因为知识图谱提供的语义图中，二者的相关性很低，也就意味着sky与bay是不相关的，故注意力得分为0，将不参与softmax的计算。而sky对sunset，clouds等是可见的，因此会得到它们之间的注意力得分并考虑入softmax的计算中。这一过程的好处就在于，在计算sky与其余单词执行注意力时，噪声bay不会参与softmax计算，从而降低了噪声对真实语义的影响。

步骤4，利用平均池化操作从用户标签中获取图像级语义表示，这也可以减轻噪音和多义标签的影响，具体公式为：

式中，u_i表示第i个样本对应的文本特征与图像视觉特征经过交叉关注之后的跨模态融合特征，K_i表示第i个样本对应的单词个数。至此，得到Z∈R^N×d维的特征矩阵，其中N为mini-batch的大小。

步骤5，将步骤4得到的特征矩阵经过全连接层映射至nbit的汉明空间并用sigmoid激活，具体公式为：

h_i＝σ(W^Tz_i+b_i)

其中，h_i为第i个样本的哈希码，σ为sigmoid激活函数。

值得一提的是，由于符号函数sgn()不可导，故在训练阶段生成的哈希码是实值哈希码，而在推理阶段，通过以下公式，生成二进制哈希码：

式中，h_i表示实值哈希码，sgn()表示符号函数，b_i表示二进制哈希码。

步骤6，针对该弱监督任务，由于没有强标签的约束，需要从弱标记中挖掘出指导模型训练的信息。TripletLoss是一种常见的排名损失，这一损失函数来使得正样本对之间的相似度大于负样本对之间的相似度：

L_triplet＝[S_n-S_p+λ]₊

式中，[x]₊＝max(0,x)，S为样本对之间的余弦相似度，S_n与S_p分别表示负样本对{x_a，x_n}的相似度和正样本对{x_a，x_p}的相似度。三元组损失会将S_n+λ>S_p的样本对视为有效样本对加入损失函数，而对于S_n+λ≤S_p的样本对被认为所含信息较少，因此被丢弃。

对于正负样本对的挖掘，首先由预训练的word2vec模型生成文本特征并进行均值聚合，然后计算文本之间的余弦相似性分数S_T，设定阈值threshold，则正样本对集合P_i＝{(x_i,x_j)|S_T(i,j)>threshold}，负样本对集合N_i＝{(x_i,x_j)|S_T(i,j)≤threshold}，其中，threshold为超参数。

由于正样本对的挖掘相对容易，而负样本的挖掘相对较难，故在三元组损失的基础上，提出了一种针对正负样本对不均衡情况下的损失函数：

其中，N为mini-batch的大小，S_I(i,k)表示步骤5得到的视觉实值哈希码之间的余弦相似度，γ为可调节因子，视为超参数。threshold实际上反映了样本与样本之间的接近程度。

对于文本相似度大于threshold的样本，则认为它们在视觉特征上也会更加相似，故对于容易挖掘的正样本对来说，(1-threshold)更接近与一个较小的数值，而对于较难挖掘的负样本对来说，threshold更接近于一个较大的值，相比传统的三元组损失平等的看待正负样本对来说，该损失对于挖掘较为准确的正样本对，损失的改变较小，而相对于难挖掘或者挖掘不准确的负样本对来说，损失的改变较大，简而言之，相当于增加了难挖掘样本对在损失函数中的权重，使得损失函数倾向于难挖掘的样本，有助于提高难挖掘样本的准确度。

步骤7，跨模态交叉融合模型虽然准确度较高，但是由于模型庞大，且需要文本特征，在真实需求中，实际上只需要输入图片便可执行图像检索功能，故本发明在最后将已经训练好的上述基于知识图谱嵌入注意力机制的模型作为Teachter模型，将另一个较小的快速的基于CNN网络的模型作为Student模型，来将跨模态交叉融合模型的知识提取到Student模型中。

具体来说，Student采用了与Teachter模型相同的Backbone，并且双方参数共享，在训练Student模型时固定Backbone参数。之后的结构遵循Backbone分类网络的惯例，只是将最后用于分类的全连接层去除，加入全连接映射层将其映射至于与Teacher模型输出相同的nbits位，并用sigmoid激活，由于没有强标签，故无法采用传统蒸馏损失形式，这里采用了相对熵作为蒸馏损失函数，来衡量两个模型分布之间的距离。

首先，假设对于任意的样本i，Teachter模型输出的哈希码为h_itech，Student模型输出的哈希码为h_istud，则蒸馏损失为：

式中，p_i和q_i分别表示了对应样本i在两个模型中的概率分布，τ为知识蒸馏中的temperature参数。

步骤8，为了评估所提出的弱监督哈希学习框架，发明人将其与几种目前较领先的哈希方法在NUS-WIDE数据集上进行对比，包括LSH、DSH和DeepBit，WDHT，SCADH，SGDH，WDH等。

发明人遵循图像检索评价指标惯例，采用了mAP@5000来评价模型的性能，实验结果如下表1：

表1

该模型能够将弱标记文本信息通过注意力机制选择与之相关性高的视觉信息进行组合，实现两种不同模态的特征融合，且知识图谱提供的先验知识为形成AttentionMask提供了条件，并有助于对降低噪声标签对检索结果的影响。从表1中结果可以看出，在12bit到32bit之间Attention Mask起到了明显促进作用，而在64bit中有所下降的原因可能是随着哈希码位数的增多，模型也会更加复杂，提升会逐渐趋于饱和，这可能需要更多模型优化措施和训练时间。

Claims

1.一种知识图谱嵌入注意力机制的弱标注哈希图像检索的架构，其特征在于，该架构将特征学习、哈希学习、知识图谱嵌入、跨模态特征融合集成到了一个端到端的图像检索架构当中，包括以下结构：

结构(1)：图像视觉特征提取网络；

结构(2)：文本特征提取模型；

结构(3)：将图像特征与文本特征执行交叉关注的解码器；

结构(4)：嵌入自注意力层的噪声遮罩矩阵；

结构(5)：生成紧凑语义的哈希层；

结构(6)：单模态视觉模型；

结构(7)：用于将多模态模型的性能迁移至单模态模型的知识蒸馏机制。

2.如权利要求1所述的知识图谱嵌入注意力机制的弱标注哈希图像检索的架构，其特征在于，所述噪声遮罩矩阵，具体为知识图谱提供的先验知识可以为文本提供词与词之间相似性，进而形成相关性矩阵，对相关性低的词形成遮罩，在计算单词的自注意力时，遮挡标记与噪声标记之间注意力的计算，从而降低噪声或错误标记对自注意力分数的影响。

3.如权利要求1所述的知识图谱嵌入注意力机制的弱标注哈希图像检索的架构，其特征在于，所述知识蒸馏机制具体为：结构(1)至(5)生成的模型是以图像和文本同时作为输入，目的是在获取视觉语义信息的同时还引入了丰富的文本语义，在降低文本噪声的基础上形成的是强大的视觉文本模型，而该视觉文本模型是不可检索的，因为在检索阶段，图像检索模型的输入只有图像，因此结构(7)所采用的知识蒸馏机制为引入一个可检索的视觉模型去学习强大但不可检索的视觉文本模型，将视觉文本模型的性能通过学习分布的方式迁移至简单高效可检索的单模态视觉模型。