CN113095415A

CN113095415A - 一种基于多模态注意力机制的跨模态哈希方法及系统

Info

Publication number: CN113095415A
Application number: CN202110407112.9A
Authority: CN
Inventors: 鲁芹; 吴吉祥
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-09
Anticipated expiration: 2041-04-15
Also published as: CN113095415B

Abstract

本发明属于多模态注意力机制和跨模态哈希网络融合领域，提供了一种基于多模态注意力机制的跨模态哈希方法和系统。该方法包括：训练过程和检索过程，训练过程：将相同语义的图像文本对以及其所属的类标签输入到多模态注意力机制的跨模态哈希网络模型中进行训练，直至多模态注意力机制的跨模态哈希网络模型收敛，得到训练好的多模态注意力机制的跨模态哈希网络模型；检索过程：将待查询的图像或文本输入训练好的多模态注意力机制的跨模态哈希网络模型，根据相似度的大小，得到检索到的前k个文本或图像。

Description

一种基于多模态注意力机制的跨模态哈希方法及系统

技术领域

本发明属于多模态注意力机制和跨模态哈希网络融合领域，尤其涉及一种基于多模态注意力机制的跨模态哈希方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

跨模态检索就是利用某一种模态数据类型作为查询来检索出与其具有相似语义的另一种模态数据类型的内容。尤其是对于图像和文本之间的互检索，我们可以通过此检索方式来解决我们的日常生活和工作上的需求。在现有的跨模态哈希方法的特征提取中，基于全局表示对齐的方法无法准确定位图像和文本中有语义意义的部分，而局部表示对齐方法由于需要对图像片段和文本单词的相似度进行详尽的聚合而存在巨大的计算负担。

随着深度学习在各个领域的发展，多项研究表明通过深度学习提取的特征表示比传统的浅层学习方法具有更强的表达能力。在当前先进的方法中，选用两个相似的结构分支分别对图像数据和文本数据进行深度特征的提取，然后对提取出来的两种不同模态的特征进行下一步的操作，从而计算出不同模态之间的相似性。虽然这种方法已经取得了一定的进展，但是在使用深度学习架构进行跨模态检索的过程中仍然存在一些问题。这种深层次的特征提取出来的只是模态的全局特征信息，不足以表达模态的局部关键特征信息，无法挖掘不同模态间的语义关联，进而会影响检索的精度和准确性。除此之外，在一些广泛使用的数据集上进行检索时，由于数据信息量太大而且计算量也过高，最终导致检索的速度大大降低。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于多模态注意力机制的跨模态哈希方法及系统，其包括训练过程和检索过程，在训练过程中，提取图像特征以及文本特征；利用多模态注意力机制来对图像模态的特征和文本模态的特征进行细微的交互,提取出图像和文本模态内部更为精炼的关键特征信息；最后学习这两种模态的哈希表示。在检索过程中，将需要查询的图像模态或者文本模态输入到训练模块中，得到图像或文本的二进制哈希码，然后将它们输入到查询检索库中，通过汉明距离公式来计算该哈希码与检索库中哈希码的值，最后根据汉明距离值得大小顺序从小到大依次输出检索结果，得到我们需要的图像或文本列表。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多模态注意力机制的跨模态哈希方法。

一种基于多模态注意力机制的跨模态哈希方法，包括：训练过程和检索过程，

训练过程：将相同语义的图像文本对以及其所属的类标签输入到多模态注意力机制的跨模态哈希网络模型中进行训练，直至多模态注意力机制的跨模态哈希网络模型收敛，得到训练好的多模态注意力机制的跨模态哈希网络模型；

检索过程：将待查询的图像或文本输入训练好的多模态注意力机制的跨模态哈希网络模型，根据相似度的大小，得到检索到的前k个文本或图像。

进一步的，所述训练过程包括：

步骤(1-1)：将不同类别的图像输入图像模态特征提取网络，提取图像的全局特征向量；

步骤(1-2)：将与步骤(1-1)中图像数据对应的文本数据输入到文本模态特征提取网络中，提取文本的全局特征向量；

步骤(1-3)：将图像的全局特征向量和文本的全局特征向量分别输入多模态交互门，得到的多模态图像上下文特征向量和多模态文本上下文特征向量分别输入到跨模态哈希网络中，得到的图像特征向量和文本特征向量分别输入哈希层，得到图像特征向量对应的二进制哈希码和文本特征向量对应的二进制哈希码。

进一步的，所述步骤(1-1)包括：

步骤(1-1-1)：采用卷积神经网络CNN提取图像模态的粗粒度特征向量；

步骤(1-1-2)：将提取的图像模态的粗粒度特征输入均值池化层，得到图像全局上下文特征向量；

步骤(1-1-3)：将图像模态的粗粒度特征向量输入循环神经网络GRN，得到图像的空间位置特征向量；

步骤(1-1-4)：将图像全局上下文特征向量与图像的空间位置特征向量相加，得到图像的全局特征向量。

进一步的，所述步骤(1-2)包括：

步骤(1-2-1)：采用循环神经网络中的Bi-LSTM提取文本模态的粗粒度特征向量；

步骤(1-2-2)：将文本模态的粗粒度特征向量输入均值池化层，得到文本的全局特征向量。

进一步的，所述步骤(1-3)包括：

步骤(1-3-11)：将图像的全局特征向量输入多模态交互门，得到多模态图像上下文特征向量；

步骤(1-3-12)：将多模态图像上下文特征向量与图像模态的粗粒度特征向量共同输入图像的多模态注意力函数中，计算每个图像区域的注意力权重；

步骤(1-3-13)：根据每个图像区域的注意力权重、图像模态的粗粒度特征向量和b_m，通过加权平均计算图像特征向量；

步骤(1-3-14)：将图像特征向量输入哈希层，计算图像特征向量对应的二进制哈希码；

进一步的，所述步骤(1-3)包括：

步骤(1-3-21)：将文本的全局特征向量输入多模态交互门，得到多模态文本上下文特征向量；

步骤(1-3-22)：将多模态文本上下文特征向量与文本模态的粗粒度特征向量共同输入文本的多模态注意力函数中，计算每个文本中词汇的注意力权重；

步骤(1-3-23)：根据每个文本中词汇的注意力权重、文本模态的粗粒度特征向量和b_l，通过加权平均计算文本特征向量；

步骤(1-3-24)：将文本特征向量输入哈希层，计算文本特征向量对应的二进制哈希码。

进一步的，所述检索过程包括：

步骤(2-1)：将待查询的图像或文本输入多模态注意力机制的跨模态哈希网络模型，得到图像或文本对应的二进制哈希码；

步骤(2-2)：将图像的二进制哈希码或者文本的二进制哈希码输入待检索的查询库中，计算该哈希码与检索库中哈希码的汉明距离，依据汉明距离的大小顺序，从小到大依次输出前k个检索文本或者图像。

进一步的，采用跨模态检索损失函数计算相同类标签的图像和文本之间的相似度，根据图像检索图像、图像检索文本、文本检索文本和文本检索图像的损失函数计算图像与图像之间、图像与文本之间、文本与文本之间、文本与图像之间的相似性。

本发明的第二个方面提供一种基于多模态注意力机制的跨模态哈希系统。

一种基于多模态注意力机制的跨模态哈希系统，包括：训练模块和检索模块，

训练模块，其被配置为：将相同语义的图像文本对以及其所属的类标签输入到多模态注意力机制的跨模态哈希网络模型中进行训练，直至多模态注意力机制的跨模态哈希网络模型收敛，得到训练好的多模态注意力机制的跨模态哈希网络模型；

检索模块，其被配置为：将待查询的图像或文本输入训练好的多模态注意力机制的跨模态哈希网络模型，根据相似度的大小，得到检索到的前k个文本或图像。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于多模态注意力机制的跨模态哈希方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于多模态注意力机制的跨模态哈希方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明采用深度学习在ImageNet上预训练好的ResNet-152网络来提取图像的特征；在此基础上继续提取出细粒度的图像上下文特征，并且利用GRU来进一步提取图像的空间位置信息特征，最终将这两个细粒度的特征结合起来作为图像的全局特征。对于文本特征，通过双向LSTM来提取特征，利用它的长期记忆功能来解决梯度爆炸问题，并在一定程度上保留模态内的语义一致性，提高相似性度量的计算。

2、本发明设计了一个多模态交互门来进行图像和文本模态之间的细微交互，以此来挖掘不同模态之间的语义关联特征，平衡它们之间的信息量和语义互补性。并输入到注意力机制中来捕捉图像或文本模态的局部关键信息特征，然后将带有注意的特征输入哈希函数分别得到图像或文本的二进制哈希码表示。在检索时，将待查询的任一种模态输入以上过程来得到哈希码，并计算该哈希码与检索库中哈希码的汉明距离，最后根据距离大小按顺序输出检索结果。

3、在一些公开的数据集上进行的实验表明，新提出的HX_MAN模型的mAP值与现有的跨模态检索方法相比在一定程度上有所提高，由此也验证了本发明所提出的方法的性能的优越性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明提出的基于多模态注意力机制的跨模态哈希网络模型的结构图；

图2(a)是本发明实施例中视觉-空间位置信息和语义互补在跨模态图像检索模型中重要性的第一对比图；

图2(b)是本发明实施例中视觉-空间位置信息和语义互补在跨模态图像检索模型中重要性的第一对比图；

图2(c)是本发明实施例中视觉-空间位置信息和语义互补在跨模态图像检索模型中重要性的第一对比图；

图3(a)是本发明实施例中采用NUS-WIDE数据集实现“图像→文本”检索的多种方法准确度对比折线图；

图3(b)是本发明实施例中采用NUS-WIDE数据集实现“文本→图像”检索的多种方法准确度对比折线图；

图4(a)是本发明实施例中采用MIR-Flickr25K数据集实现“图像→文本”检索的多种方法准确度对比折线图；

图4(b)是本发明实施例中采用MIR-Flickr25K数据集实现“文本→图像”检索的多种方法准确度对比折线图；

图5是本发明实施例中基于多模态注意力机制的跨模态哈希系统页面展示图；

图6是本发明实施例中基于多模态注意力机制的跨模态哈希方法与现有的两种方法在数据集上检索结果的对比图；

图7(a)是本发明实施例中检索案例一可视化展示图；

图7(b)是本发明实施例中检索案例二可视化展示图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于多模态注意力机制的跨模态哈希方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

步骤(1)训练过程：将相同语义的图像文本对以及其所属的类标签输入到多模态注意力机制的跨模态哈希网络模型中进行训练，直至多模态注意力机制的跨模态哈希网络模型收敛，得到训练好的多模态注意力机制的跨模态哈希网络模型；

步骤(2)检索过程：将待查询的图像或文本输入训练好的多模态注意力机制的跨模态哈希网络模型，根据相似度的大小，得到检索到的前k个文本或图像。

(一)训练过程：

在训练过程中，本实施例利用深度学习强大的特征提取能力来提取图像和文本模态的全局粗粒度特征向量，又通过多模态注意力机制来对不同的模态进行细微的交互，以此来搜索图像与文本特征向量之间在底层上的细粒度关联，然后关注这些细粒度特征的局部信息，从而能够在一定程度上解决不同模态之间的语义不相关的问题，并从深层次的网络中表达出模态的特征信息。

特征的提取和表示：

对于图像和文本的特征提取就是把它们的一组数字数据经过一系列的步骤进行预处理，然后将这些数据的维度缩放到一定的程度，最终得到另一组更能表达模态信息的数字向量，这组数据的好坏对泛化能力的影响很大。在这一部分的图像和文本特征提取中，本实施例选取了很多人验证过的卷积神经网络CNN来提取图像特征，而对于文本特征的提取，采用循环神经网络中的Bi-LSTM来提取文本的特征。

(1)图像表示：使用在ImageNet上预训练的ResNet-152作为图像特征编码器，用降维方法将其维度修改为448×448，调整完之后把它们输入到CNN的网络中。在此步骤中，我们做了一些改变，就是将最后的池化层去除掉并将最后输出的结果作为图像粗粒度特征I。之前的实验证明了去除掉池化层对本实施例的网络影响很小。在得到图像特征之后，将它逐步输入到均值池化层网络中。为了描述的方便性，我们用{I₁,...,I_M}来表示这些输入的粗粒度特征，其中M的值表示在图像中共有多少区域，I_i(i∈[1,M])表示图像中的第i个区域。

在得到粗粒度特征的表示之后，将此特征作为基础并输入到均值池化层中，将其输出作为图像的局部特征向量。这样做是为了得到更深层次的特征信息，并以此来表达图像的上文下信息，我们将它记为图像全局上下文特征向量I^(g)：

其中，tanh()是一个激活函数，用来对特征向量做一次非线性映射，将特征投射到一个公共子空间中，P⁽⁰⁾是一个权重矩阵，通过这个矩阵可以将图像特征向量和文本特征向量嵌入到同一个公共空间中。

有时候，我们在视觉上看到的效果可能和图像的潜在表达信息有些误差，导致我们的判断错误，导致这种问题的原因是我们忽略了图像的空间位置信息。如图2(a)和图2(b)所示，这两幅图像一眼看上去都有“汽车”和“男人”这两个相同的角色，但是它们所要表达的信息完全不同。所以，如果我们仅仅使用上面提到的粗粒度特征的话，就很难把这两幅图像区别出来。这其中的原因就是粗粒度特征在进行均值池化的过程中抛掉了一些空间位置的信息。由此可以说明空间位置信息和粗粒度特征信息是同样的重要，二者缺一不可。对于解决办法，本实施例选择通过GRU来进一步剖析图像的空间位置信息，从而能够更好地在视觉上辨别出两幅图像。GRU作为一种特殊类型的循环神经网络，它的参数少而且计算效率也非常高。

对于得到的图像特征向量{I₁,...,I_M}，我们将它们整齐排列好，并且依次把这些特征输入到GRUs中用于输出它们之间的位置特征向量。这个过程可用公式(2)来定义：

其中，

表示GRU在时间步长t处的隐藏状态，

则表示上一个节点传下来的隐藏状态，I_t表示第t个区域的图像特征。由此，可以将它们组合成一个隐藏状态向量

然后对这组向量进行池化操作就可以得到图像的空间位置特征

它将图像在视觉上的位置信息表示了出来。

最后，将图像的两个重要的特征信息I^(g)和I^(d)通过相加的方式将它们的特征信息总结在一起，这样就得到了最终图像的全局特征向量I⁽⁰⁾：

(2)文本表示：对于文本的特征表示方面，使用双向LSTMs作为编码器来生成文本的粗粒度特征向量。假设文本输入用{w₁,...,w_L}表示，将其中每个单词首先用独热编码(one-hot)向量表示，以此来表征每个单词在表中的索引。然后将各个one-hot编码向量通过e_L＝Pw_L嵌入到向量空间中，其中P是嵌入矩阵。最后将这些向量按空间顺序排列好并输入到双向LSTMs中。此过程可由公式(4)来表示。

其中

和

分别表示前向和后向LSTM在时间步t处的隐藏状态，在每个时间步长处添加这两个隐藏状态，即

构造了一组文本的粗粒度特征向量{T₁,...,T_L}。

对于文本模态的深层次特征提取方面，在提取文本的粗粒度特征时，每个片段都继承了上一时刻的顺序信息。所以就不用像图像特征的提取方式那样分别提取两种重要的特征信息了，只使用均值池化来把文本的粗粒度特征生成文本的全局特征T⁽⁰⁾，其中T⁽⁰⁾对文本模态的所有句子中的第i个单词的上下文语义进行编码：

多模态注意力网络：

在之前的大部分检索方法中，它们只是将不同模态的全局特征信息训练出来，然后将这些特征信息通过数学方法投影到一个共同的空间中来度量每个图像区域和单词之间的相似度。这种方法虽然能在一定程度上度量出它们的相似度，但是这些全局特征信息不仅消耗计算资源多而且不能将模态的关键信息表现出来，更不能在底层挖掘出它们之间的深度关系，从而降低了检索的精度和速度。

在接下来很长的一段时间内，当多模态领域的研究发展停滞不前时，学者们提出了注意力机制并被广泛应用到各个领域。受到前者的启发，本实施例对已有的方法进行了创新和改进并且提出了一种新的注意力机制。注意力机制在各个领域都有很多的贡献，正如我们看到它的表面意思，“注意”的目的是为了寻找出哪一部分最需要被我们所重视。利用这种方法的局部信息提取能力，我们可以很容易得将模态内的关键信息展现出来，从而能够更好的剖析不同模态内部之间的特征信息匹配度。

虽然上述方法在一定程度上能够增加图像和句子的局部关键信息量，并且其性能比其他那些不利用此方法的模型更优。但是这种方法只是将图像或文本模态各自的关键区域部分挖掘出来，并没有完成异构数据间的交互，所以在捕捉不同模态之间的语义关联方面还存在一定的问题。如图2(b)和图2(c)所示，这两幅图像的语言描述在语义上非常接近，但是我们在视觉观察上还是很难将这两幅图像区分开来。其中的原因就是我们只关注了文本模态的关键信息，却没有考虑到视觉部分与文本之间的语义互补性。

针对以上问题，本实施例在借助注意力机制之前增加了多模态交互门来将图像和文本模态进行交互，利用不同模态之间存在的语义互补性来增强图像和文本的表示能力。这个交互门能够将细粒度的图像特征与词汇的抽象表征进行细微的融合，并且能够通过它们之间的交互使得不同的模态语义互补，从而挖掘出它们之间的底层关联关系，提高检索的精度。

在最初的实验设计阶段，我们认为将图像和文本特征进行交互的最简单方式就是直接将它们相加。但是，随着实验的进行，发现这种直接相加的方式在实践中可能会导致相对较差的性能。这可能是因为图像上下文特征和文本上下文特征在训练阶段使用的提取方法不一样。如果以这种简单的方式来将它们融合，在此过程中可能会有某种模态的有意义的部分信息被其他的模态所遮盖。针对这种模态信息被遮盖的问题，为了将这两个来自不同模态的特征进行底层的交互，设计了交互门来将图像特征和文本特征实现语义互补。

具体来说，如图1所示，本实施例将图像和文本的上下文特征向量I⁽⁰⁾和T⁽⁰⁾输入到语义互补的交互门中，以进行它们之间的交互。这个过程可由公式(6)表示：

o^(I)＝σ((α·U_I(I⁽⁰⁾)+(1-α)·U_I(I⁽⁰⁾)))

o^(T)＝σ((α·U_T(T⁽⁰⁾)+(1-α)·U_T(T⁽⁰⁾))) (6)

其中U_I和U_T是可以降维的矩阵，α是防止图像和文本上下文特征进行融合过程中信息量丢失的参数。最后通过sigmoid激活函数σ来将交互过程中的每个特征再次减小到[0,1]。o^(I)和o^(T)分别表示由多模态交互门输出得到的更为精炼的特征向量。为了方便起见，分别把它们称为多模态图像上下文特征向量和文本上下文特征向量。

在将图像和文本特征向量进行底层的交互并且通过语义互补性来获得它们之间的语义关联之后，就可以借助注意力机制来捕捉和检测图像或文本模态内的局部关键信息了。注意力机制被提出来是为了能够在学习之后捕捉到我们所需要的东西，把那些不重要的信息区域直接无视掉，它一般在学习得到结果之后以概率图或者概率特征向量输出。设计多模态注意力的目的是独立利用具有语义互补性的多模态图像或文本上下文特征的数据信息来探索多个图像区域或单词之间的细粒度关联关系。此过程是通过计算图像区域或文本局部特征的凸组合来实现的。

具体来说，对于图像的多模态注意力模块，如图1所示，将得到的图像特征向量{I₁,...,I_M}和多模态图像上下文特征向量o^(I)作为查询输入到图像的多模态注意力函数f_att(·,·)中来计算得到每个图像区域的注意力权重α_I,m。图像的多模态注意力函数f_att(·,·)采用两层前馈感知器，并通过softmax函数来保证整个过程中的权重不会失衡。具体而言，注意力权重α_I,m的计算过程可由公式(7)来定义：

α_I,m＝softmax(W_I,hh_I,m+b_I,h) (7)

其中，w_I,w_I,q和w_I,h是感知器的参数，b_I，和b_I,h b_I,q是感知器的偏置项，h_I,m表示图像多模态注意力函数中时间步长为m处的隐藏状态，tanh()是一个激活函数。在得到每个图像区域的注意力权重之后，就可以通过加权平均来计算带有注意的图像特征表示向量I⁽¹⁾了:

其中，P(1)是一个权重矩阵，通过这个矩阵可以将图像特征向量和文本特征向量嵌入到同一个公共空间中，b_m是感知器的偏置项。

与图像的多模态注意力模块设置的目的一样，就是为了将文本句子中的词汇通过注意力机制来表示出抽象的高级表征，从而提取出带有多模态注意的上下文语义特征。注意力权重α_T，l也是由两层前馈感知器和softmax函数组成的软注意模块得到的，文本的多模态上下文特征向量T⁽¹⁾可由以下公式来定义:

α_T,l＝softmax(W_T,hh_T,l+b_T,h)

其中w_T,w_T,q和w_T,h分别是感知器的参数，b_T，b_T,q和b_T,h是感知器的偏置项，h_T,l表示多模态文本注意在时间步长l处的隐藏状态，T_l是文本的粗粒度特征，b_l是感知器的偏置项。与图像的多模态注意力模块不同的是，文本的多模态注意力已经不需要在加权平均后添加嵌入层，因为文本特征{T₁,...,T_L}已经存在于公共空间中，并通过端到端方式进行训练。

哈希层：

在哈希层中，分别将带有多模态注意的图像特征I⁽¹⁾和文本特征T⁽¹⁾输入到哈希层中，

通过学习哈希函数得到不同模态特征的二进制表示。在哈希层中，Tanh的激活函数使得每个神经元的输出在-1到1之间，阈值为0的Sign函数再将其转换成二进制编码。编码值为1代表神经元的输出大于或等于0；编码值为0，代表输出小于0。图像和文本的哈希函数分别如公式(10)和公式(11)所示：

H^I＝Sign(Tanh(w^(I)I⁽¹⁾+b^(I))) (10)

H^T＝Sign(Tanh(w^(T)T⁽¹⁾+b^(T))) (11)

其中w^(I)和w^(T)分别是图像或文本模态的网络参数，b^(I)和b^(I)是感知器的偏置项，H^I和H^T分别为图像和文本的哈希表示。

(二)检索过程：

在以上的训练过程中，本实施例利用深度学习的底层特征挖掘能力和注意力机制捕捉局部关键特征信息的优势将图像模态或文本模态的特征通过哈希函数得到了它们各自的二进制哈希码表示。于是在进行跨模态检索时，将任意一个模态的样本作为查询对象，可以检索到与之相似的另一个不同模态的样本。具体来说，如图1所示，对于图像查询，用户将待查询的图像输入到训练模块来将图像特征转化为训练好的二进制哈希码的形式，并将训练好的哈希码输入到待检索的查询库中，计算该哈希码与检索库中哈希码的汉明距离，依据汉明距离的大小顺序从小到大依次输出前k个检索结果；相似地，对于文本查询来说，用户将文本数据作为查询对象，通过训练模块中端到端的网络框架来得到文本模态的哈希码，然后计算与待检索数据库中哈希码之间的汉明距离并排序，最终输出检索到的前k个图片。

目标函数：

跨模态检索损失函数的目标是既保留模态内的相似性,又保留异构模态间的语义相似性。跨模态检索损失函数如公式(12)所示:

F＝min(F_v→v+F_v→t+F_t→t+F_t→v) (12)

其中，v→v，v→t，t→t和t→v分别表示图像检索图像、图像检索文本、文本检索文本和文本检索图像。而F_v→t表示图像检索文本的损失函数，其余损失函数类似。图像检索文本的损失函数F_v→t定义为：

其中，(i,j,k)为三元组,表示最小边距.

表示当前作为查询模态的图像与正样本的欧氏距离，

表示当前模态与负样本的欧氏距离。F_v→t是三元组排序损失,表示图像i与文本j的相似性大于图像i与文本k的相似性。

实验结果与分析：

本实施例首先对HX_MAN中的训练模块与当前先进的跨模态检索方法的数据结果进行详细分析，然后在两个公共数据集NUS-WIDE数据集和MIR-Flickr25K数据集，还有一些评价指标的计算。然后用本实施例提出的HX_MAN模型与几种现有的方法进行了基准化分析。

数据集及评价指标：

(1)数据集

NUS-WIDE数据集是由一个媒体搜索实验室创建的大型网络图像数据集。数据集包含在Flickr网站上搜集到的260648张图像和5018个不同的类标签。每幅图像都有其相对应的文本标注并且构成图像-文本对。这些对图像进行描述的文本是用户在上传图像时对其用单词连贯起来的一组句子。本实施例基于这个数据集中的20类最常用标签的194600个图像-文本对进行了基准方法的分析，每对数据的文本都表示为一个1000维的bag-of-words(BOW)向量。如果图像和文本有其中一个相同概念的标签，则认为它们之间是相似的，否则认为它们不相似。

MIR-Flickr25K数据集包含从Flickr网站上收集的25000个多标签图像，24个人工标注的类别标签。本实施例的实验数据选取至少有20个文本标记的图像-文本对，一共得到了20015对数据，每对数据都用24类标签中的一个来标记。每对数据的文本都表示为1386维的BOW向量。如果图像和文本有相同的标签，则认为它们之间是相似的，否则认为它们不相似。

(2)评价指标

本实施例使用平均准确率均值(mean Average Precision,mAP)来评估本文的模型。mAP的计算公式如(14)所示：

其中，|Q|表示查询数据集Q的大小，q表示给定的一个查询，AP表示均值准确度(Average Precision)：

其中，M表示q在查询数据中真实近邻的个数，n表示数据的总量，P_q(i)表示前i个被检索到的实例的精度，δ(i)是一个指示函数，当δ(i)＝1时，表示第i个实例与被检索的实例是相关的，而δ(i)＝0时则表示不相关。

基准方法分析：

作为另一种实施例方式，我们用本实施例提出的HX_MAN模型与几种现有的跨模态检索方法进行了对比，以此来验证我们提出的模型的性能。为了能够达到我们所预期的结果，我们不仅与基于浅层结构的方法(CMFH，SCM，STMH，SePH)进行了比较，而且和两种基于深层结构的方法(DCMH和SDCH)进行了比较。为了实验的公平起见，对于图像模态的特征提取，我们对所有的方法都使用在ImageNet上预训练的ResNet-152网络模型来提取；对于文本模态，我们同样都使用Bi-LSTM来提取特征。在数据集的拆分方面，我们将MIR-Flickr25K数据集中的2500对数据作为查询，剩下的数据对作为检索库。对于NUS-WIDE数据集，我们选取数据集的1％作为查询，剩下的作为检索库。我们从检索库中取出5500对数据来作为两个数据集的训练集。所有参数使用均值为0、标准差为0.01的高斯函数随机初始化。本文通过随机梯度下降来训练网络,batch值为64,总epoch为60，学习率为0.05，每20次迭代后学习率变为当前值的1/10。

本实验的结果与其他检索方法的比较如表1所示。其中，“图像→文本”表示查询数据为图像模态，检索数据为文本模态；而“文本→图像”则表示查询数据为文本模态，检索数据为图像模态。我们在NUS-WIDE数据集和MIR-Flickr25K数据集上对比了编码长度为16bits，32bits和64bits的每个模型方法的mAP值。根据实验结果和表中的对比数据我们可以看出，基于深层结构的方法性能明显优于基于浅层结构的方法。这从一定程度上说明了由深度学习提取的深层次特征提高了跨模态检索的精度，由此也说明了本文所提出的模型在跨模态检索方面取得了一定的进展。

表1 HX_MAN模型与其他跨模态检索模型的对比数据

除此之外，为了在视觉上显示出本文的模型与其他方法的对比度，我们利用折线图将对比数据展示了出来。其中，图3(a)是本发明实施例中采用NUS-WIDE数据集实现“图像→文本”检索的多种方法准确度对比折线图；图3(b)是本发明实施例中采用NUS-WIDE数据集实现“文本→图像”检索的多种方法准确度对比折线图；图4(a)是本发明实施例中采用MIR-Flickr25K数据集实现“图像→文本”检索的多种方法准确度对比折线图；图4(b)是本发明实施例中采用MIR-Flickr25K数据集实现“文本→图像”检索的多种方法准确度对比折线图；从这四幅图可以看出来，本实施例的方法在MIR-Flickr25K数据集上的mAP值略比NUS-WIDE数据集高，并且文本检索图像的mAP值也略高于图像检索文本的值。由此可以看出，本实施例的HX_MAN模型的性能高于其他的方法，这也验证了图像和文本模态通过堆叠注意力机制的交互作用能够更好地关联在一起，而且哈希方法能够提高跨模态检索的速度。

可视化分析：

本实施例将展示我们设计的跨模态检索系统页面，并且将检索结果与DCMH方法和SDCH方法进行比较分析。

如图5所示，我们的跨模态检索系统页面主要分为两部分：图像检索文本、文本检索图像。对于图像检索文本部分，我们将需要查询的图像上传到系统中，系统将图像在本文设计的方法中一步步得进行，从而检索出与图像内容具有语义相似性的图像描述，并且以文本的形式输出相似度最高的前几种，最后呈现到客户眼前。文本检索图像部分与其相似，就是将需要查询的文本内容上传至系统中，然后输出前几张与文本内容最为相似的图像。

除此之外，我们从MIR-Flickr25K数据集的测试集中随机选取了3个文本描述来与DCMH方法和SDCH方法进行比较分析。如图6所示，我们将三种模型用各自的方法输出检索结果并选取最好的结果来进行比较。在第一个文本描述中，DCMH方法输出的图像中的“狗”是“趴着的”。在第二个文本描述中，SDCH方法输出的图像中的“狗”的动作不是“站着的”。在第三个描述中同样是这种问题。从比较中可以看出，本实施例的方法在利用深度学习提取了位置特征信息之后，在文本描述中生成了更准确、清晰的视觉信息的图像，这也在一定程度上说明了本实施例的方法在确保速度的基础上提高了检索的准确度。

虽然此方法在精度和速度方面较其他方法有所提升，但是并没有想象中的那么完美，在输出结果中还存在一点小误差。图7(a)是本发明实施例中检索案例一可视化展示图，可视化结果为全部正确的5个原描述；图7(b)是本发明实施例中检索案例二可视化展示图，可视化结果中第5句检索错误，但是对于这种描述也有一定的合理性，因为图片的现实背景只要合理怎么形容都可以。

实施例二

本实施例提供一种基于多模态注意力机制的跨模态哈希系统。

此处需要说明的是，上述训练模块和检索模块对应于实施例一中的步骤(1)至步骤(2)，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于多模态注意力机制的跨模态哈希方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于多模态注意力机制的跨模态哈希方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态注意力机制的跨模态哈希方法，包括：训练过程和检索过程，其特征在于：

2.根据权利要求1所述的基于多模态注意力机制的跨模态哈希方法，其特征在于，所述训练过程包括：

3.根据权利要求2所述的基于多模态注意力机制的跨模态哈希方法，其特征在于，所述步骤(1-1)包括：

4.根据权利要求2所述的基于多模态注意力机制的跨模态哈希方法，其特征在于，所述步骤(1-2)包括：

5.根据权利要求2所述的基于多模态注意力机制的跨模态哈希方法，其特征在于，所述步骤(1-3)包括：

或者，

所述步骤(1-3)包括：

6.根据权利要求1所述的基于多模态注意力机制的跨模态哈希方法，其特征在于，所述检索过程包括：

7.根据权利要求1所述的基于多模态注意力机制的跨模态哈希方法，其特征在于，采用跨模态检索损失函数计算相同类标签的图像和文本之间的相似度，根据图像检索图像、图像检索文本、文本检索文本和文本检索图像的损失函数计算图像与图像之间、图像与文本之间、文本与文本之间、文本与图像之间的相似性。

8.一种基于多模态注意力机制的跨模态哈希系统，包括：训练模块和检索模块，其特征在于：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于多模态注意力机制的跨模态哈希方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于多模态注意力机制的跨模态哈希方法中的步骤。