CN114090801A

CN114090801A - 深度对抗注意力跨模态哈希检索方法及系统

Info

Publication number: CN114090801A
Application number: CN202111214287.4A
Authority: CN
Inventors: 张化祥; 王本惠; 刘丽; 朱磊; 孙建德; 聂礼强; 金圣开
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-02-25

Abstract

本发明提出了深度对抗注意力跨模态哈希检索方法及系统，包括：注意力学习步骤：获得图像和文本两种模态，利用通道注意力机制，将每个模态的特征表示分为相关的模态特征和不相关的模态特征；模内对抗学习步骤：通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息；模间对抗学习学习步骤：将图像模态的相关的模态特征设为真，将文本模态的相关的模态特征设为假，通过模间对抗学习使得两种模态各自的相关特征表示分布均匀；哈希学习步骤：将图像相关特征和文本相关特征映射在汉明空间中，用于进行跨模态检索。将生成对抗网络、注意力机制、哈希学习结合在一起，相比较之前跨模态检索方法，进一步提高了跨模态检索的准确度。

Description

深度对抗注意力跨模态哈希检索方法及系统

技术领域

本发明属于跨模态检索技术领域，尤其涉及深度对抗注意力跨模态哈希检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着互联网和大数据的迅速发展，多媒体数据以多种模态的形式出现，比如：图像、文本、视频等。近年来，因为不同模态之间的检索需求日益增加，跨模态检索越来越受到大众的关注。跨模态检索就是通过使用一种模态(例如：图像)的查询，来检索另一种模态(例如：文本)中的相似的实例。然而，不同模态的分布和表示是不一样的，这就导致了多模态数据之间的异质性鸿沟，这使得跨模态检索的难度大大增加。

为了弥补异质性鸿沟，现有的跨模态方法大致分为两类：实值表示表示学习和二值表示学习。实值表示学习是指学习一个实值的公共表示空间，在这个空间中进行不同模态实例的相似度测量。但是这种检索方法要耗费非常久的时间。减少搜索时间的一个方法就是二值表示学习，即哈希学习。这个方法将高维的多模态数据投射到一个低维的公共的汉明空间中，其中语义相似的不同模态实例之间的距离很小。这个方法大大降低了时间复杂度和空间复杂度，提高检索效率。

非常多的哈希方法被提出来解决问题。根据在训练阶段有无使用标签信息，跨模态哈希分为有监督哈希和无监督哈希。

有监督哈希利用标签信息学习很多具有判别性的哈希码，以此来提高检索性能。

无监督哈希利用共现信息来学习跨模态数据的哈希函数，发现模内和模间的相似度。无监督交叉模态哈希方法通常将来自不同模态的数据投影到一个共同的汉明空间，以最大化它们的相关性。

这些传统的方法几乎都是浅层的，依赖于手工制作的特性，不能充分探索不同模态之间的语义关系。这大大降低了模态实例表示的区分性，降低了检索性能。

近年来，由于深度学习的成功应用，深度跨模态哈希在跨模态检索中发挥着越来越重要的作用，它能够学习更多的判别表示，因此能够发现不同模态之间的异质性关联。具有代表性的深度跨模态哈希方法有：DCMH、SSAH、AADAH等方法。然而，这些方法侧重于模态之间的关系，忽略了每个模态特有的信息。

发明内容

为克服上述现有技术的不足，本发明提供了深度对抗注意力跨模态哈希检索方法，将生成对抗网络、注意力机制、哈希学习有效结合在一起，并且在注意力学习的基础上，用生成对抗网络来补充每个模态的信息，这使得跨模态检索的精度更加精确。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了深度对抗注意力跨模态哈希检索方法，包括：

注意力学习步骤：获得图像和文本两种模态，利用通道注意力机制，将每个模态的特征表示分为相关的模态特征和不相关的模态特征；

模内对抗学习步骤：通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息；

模间对抗学习学习步骤：将图像模态的相关的模态特征设为真，将文本模态的相关的模态特征设为假，通过模间对抗学习使得两种模态各自的相关特征表示分布均匀；

哈希学习步骤：将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中，用于进行跨模态检索。

进一步的技术方案，所述通道注意力学习机制采用平均池化的方法收集每个模态的空间信息，最大池化的方法收集每个模态的对象特征。

进一步的技术方案，对于图像模态，获得代表图像模态的平均池化和最大池化的表示特征，将表示特征输入至共享图像网络中，生成一维通道注意力映射；

对于文本模态，获得代表文本特征的平均池化和最大池化的表示特征，将表示特征输入到共享的文本网络中，生成一维通道注意力映射。

进一步的技术方案，在模内对抗学习中，将模态的相关信息设置为“真”，将模态的无关信息设置为“假”，对图像模态及文本模态，分别定义判别器和生成器的目标函数，将每个模态无关信息补充注意力学习机制突出的相关信息。

进一步的技术方案，在模间对抗学习中，在判别步骤中，将图像模态的相关信息设为“真”，将文本模态的相关信息设为“假”，定义判别器的目标函数；

在生成步骤中，本发明将文本模态的相关信息设置为“真”，将图像模态的相关信息设置为“假”，定义生成器的目标函数；

通过模间对抗学习使得两种模态各自的相关特征表示分布均匀。

进一步的技术方案，哈希学习过程中，利用两个哈希层将图像的相关表示及文本的相关表示分别映射成哈希码；

使用两两配对损失函数来衡量哈希码之间的相似性。

进一步的技术方案，哈希学习过程中，基于量化误差定义损失函数，以减少在哈希学习过程中会出现的量化错误。

第二方面，公开了深度对抗注意力跨模态哈希检索系统，包括：

注意力学习模块，被配置为：获得图像和文本两种模态，利用通道注意力机制，将每个模态的特征表示分为相关的模态特征和不相关的模态特征；

模内对抗学习模块，被配置为：通过生成对抗网络将每个模态内的不相关特征补充每个模态的相关特征表示信息；

模间对抗学习模块，被配置为：将图像模态的相关的模态特征设为真，将文本模态的相关的模态特征设为假，通过模间对抗学习使得两种模态各自的相关特征表示分布均匀；

哈希学习模块，被配置为：将经过上述学习之后的图像相关特征和文本相关特征映射在汉明空间中，用于进行跨模态检索。

以上一个或多个技术方案存在以下有益效果：

本发明将生成对抗网络、注意力机制、哈希学习有效结合在一起，相比较之前跨模态检索方法，进一步提高了跨模态检索的准确度，并且本发明在注意力学习的基础上，用生成对抗网络来补充每个模态的信息，这使得跨模态检索的精度更加精确，注意力机制中使用了通道注意力机制，能够聚焦有意义的图像或者文本，而在生成对抗学习中，分为了模内对抗和模间对抗，模内对抗能够补充每个模态的相关信息表示，模间对抗能够使得图像和文本两种模态分布的更加均匀，这大大提高了跨模态检索的准确度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例中通道注意力机制的示意图；

图2为实施例中深度对抗注意力跨模态哈希检索方法的流程示意图；

图3为实施例中深度对抗注意力跨模态哈希检索方法结果的PR-曲线图；

图4为实施例中深度对抗注意力跨模态哈希检索方法中的超参数α的取值；

图5为实施例中深度对抗注意力跨模态哈希检索方法中的超参数β的取值。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

参见附图2所示，本实施例公开了一种深度对抗注意力跨模态哈希检索方法，包括：

在图像网络中，首先利用广泛使用的卷积神经网络CNN-F来提取图像特征，之后，为了进一步处理提取之后的图像特征，将特征输入到三个全连接层中。注意力学习时，将经过三个全连接层的特征表示划分了模态的相关和不相关的表征。具体来说，模态的相关表征是指两种模态中意思相近的特征，通过两种模态的相关特征，可以使得检索的精度大大提升。因此，我们的工作主要是为了增加每个模态相关表征的准确性，从而提高检索精度。模态的不相关表征则是每个模态独有的特征。

在注意力学习阶段之后，本发明在图像网络对抗学习中，只有模内对抗学习。模内对抗的目的是利用图像模态不相关的信息补充图像模态相关的信息。在每个模态中，不相关的信息是每个模态特有的信息，将不相关信息补充到每个模态的相关信息中，会大大增加每个模态的相关信息的准确度，所以在每个模态中，不相关信息设为假，相关信息设为真，通过生成对抗的方式，使得每个模态不相关的信息补充到相关信息中，从而提高跨模态检索的准确度。

最后，为了将图像模态的相关表示映射到汉明空间，本发明设计了完全连接的哈希层

来生成紧凑的哈希。

在文本网络中，本发明使用单词袋(bow)将文本实例转换为一个one-hot向量。之后，本发明将bow表示输入到三个完全连接的层中，以提取文本表示。

然后，注意力学习时将经过三个全连接层的文本特征表示分为了文本相关表示和文本不相关表示。

在注意力学习阶段之后，本发明在文本网络对抗学习中，只有模内对抗学习。模内对抗的目的是利用文本模态不相关的信息补充文本模态相关的信息。

最后，为了将文本模态的相关表示映射到汉明空间，本发明设计了完全连接的哈希层

来生成紧凑的哈希码。生成哈希码之后，在进行跨模态检索时，通过测量两个模态哈希码之间的距离，进行跨模态检索。

在图像文本模态之间，有模间对抗学习。模间对抗学习将图像模态和文本模态的相关表示进行对抗学习，这两个模态的相关表示分布的更加均匀，从而更加提高了跨模态检索的准确性。

需要说明的是，本发明为了补充每个模态的相关表示信息，利用注意力机制，将每个模态的特征分为相关的表示和不相关的表示，这更利于之后在对抗学习中补充每个模态的相关信息。

本发明利用生成对抗学习补充了每个模态的相关表示，在生成对抗学习中，每个模态的不相关表示可以用来补充每个模态的相关表示，这使得每个模态的相关表示更能确切的表示每个模态的特征，从而提高跨模态检索的精度。

为了说明本发明的上述技术构思，下面详细说明注意力对抗网络的构建过程：

注意力对抗网络主要包括三个网络：注意力学习网络，对抗学习网络和哈希学习网络。

参见附图1所示，在注意力学习网络中，使用通道注意力网络进行注意力学习。通道注意力学习机制采用平均池化的方法收集空间信息，最大池化的方法收集对象特征。这种机制大大提高了注意力学习机制的表达能力，更好的突出了想要的模态的相关信息。设定F^I和F^T分别为图像和文本表示。

对于图像模态，本发明假定

和

分别表示图像模态的平均池化和最大池化。在此之后，将这些特征输入到共享图像网络中，生成一维通道注意力映射M_CI∈R^C×1×1。这个共享图像网络由包含一层隐藏层的多层感知器(MLP)组成。隐藏层的激活大小设置为

其中r是减少率。在模态中，通道注意力机制会注意到每个模态的相关的信息特征，而没被注意到的为不相关的信息表征。图像模态的通道注意力机制计算为：

其中，σ代表sigmoid函数，MLP权重由

和W_0I∈R^C×C/r两个输入共享，其中c为神经元个数。

对于文本模态，

和

分别代表文本特征的平均池化和最大池化。然后本发明将这些特征输入到共享的文本网络中，生成一维通道注意力映射M_CT∈R^C×1×1。文本模态的通道注意力机制计算为：

其中σ代表sigmoid函数，MLP权重由

和W_0T∈R^C×C/r两个输入共享。

对抗学习网络包括两种对抗学习：模内对抗学习和模间对抗学习。对于模态内学习，本发明在注意力学习模块中得到显著的相关信息，但每个模态都有相关和不相关的信息。这些不相关的信息还包括了一些模态的语义信息，丰富了模态的相关信息。

因此，本发明提出了模内对抗学习，其目的是每个模态无关信息补充注意力学习机制突出的相关信息。对抗性学习包括判别步骤和生成步骤。在模内对抗学习中，本发明将模态的相关信息设置为“真”，将模态的无关信息设置为“假”。图像和文本模态内对抗学习模块是对称的，因此，对图像模态来说，模内对抗的目标函数可以定义为：

其中θ_D是判别器D的参数，

和

是第i个图像实例的模内相关信息和不相关信息。在生成阶段，本发明训练

和

去将相关信息分类为“假”，将无关信息分类为“真”。生成器的目标函数定义为：

其中，

是

和

的参数。生成器

和判别器D以一种对抗的方式进行学习，所以，不相关的信息可以补充模态内的相关信息。

对称的，文本模态判别器和生成器的目标函数可定义为：

判别器：

其中，θ_D是判别器D的参数，

和

是第i个实例的模内的相关信息和不相关信息。

生成器：

其中，

是

和

的参数。

对于模间对抗，在判别步骤中，本发明将图像模态的相关信息设为“真”，将文本模态的相关信息设为“假”，判别器的目标函数可以定义为：

其中，θ_D是判别器D的参数，

和

分别是第i个实例的图像模态的相关信息和文本模态的相关信息。在生成步骤中，本发明将文本模态的相关信息设置为“真”，将图像模态的相关信息设置为“假”。生成器的目标函数可以定义为：

其中

是

和

的参数。在对抗学习过程中，生成器

和判别器D可以使图像和文本的相关信息均匀分布，提高跨模态检索的准确性。结合Eq.(3)，Eq.(4)，Eq.(5)，Eq.(6)，Eq.(7)，Eq.(8)得到对抗学习网络的目标函数为：

其中，α是超参数。

哈希学习网络：

为了将图像的相关表示

和文本的相关表示

映射到汉明空间中，本发明设计了两个哈希层

和

去让

和

映射成哈希码。本发明使用两两配对损失函数来衡量它们哈希码之间的相似性，可以设计为：

假设

其中

分别是哈希层

和

的参数。可以发现，当这个损失函数最小化，它等于最大似然，所以当S_ij＝1时，h_*i和h_*j之间的相似性(内积)增加，当S_ij＝0时，h_*i和h_*j之间的相似性(内积)减少。因此，优化L_p可以保持图像哈希层的h^I输出和文本哈希层h^T输出在S中的跨模态相似性。此外，由于哈希码是离散的，在哈希学习过程中会出现量化错误。为了减少量化误差的发生，量化误差设计为：

其中，b^I＝sign(h^I)以及b^T＝sign(h^T)。本发明认为，这两个模态在训练过程中可以共享哈希码b，以及将h^I和h^T考虑分别为b连续的替代，所以b^I和b^T可以在S中保存跨模态的相似性。结合Eq.(10)and Eq.(11)

L_hash＝L_p+βL_q (12)

其中，β是超参数。

结合Eq.(9)和Eq.(12)，总的损失函数可以定义如下：

验证实验例子：

分别在MIRFlickr-25k和NUS-WIDE两个数据集上进行实验。

MIRFlickr-25k数据集包含了25,000个从Flickr图片收集。每个图像都有一个相应的文本标签。在DCMH实验中，本发明选取了20015对相同设置的图像文本对。每个文本实例的特性由一个1，386维的词袋向量(BOWs)表示。而且，每个实例都使用24个唯一标记中的一个或多个标记进行注释。

NUS-WIDE数据集包含269,648个web图像。每个实例都用81个唯一标记中的一个或多个进行注释。与DCMH实验设置一样，本发明选择了属于21个最常见概念的195,834对图像-文本对。本发明使用1000维词袋向量(BOWs)来表示每个实例的文本特征。

对于MIRFlickr-25k数据集，随机选择2,000个数据对作为测试(查询)集，其余数据对作为检索集。另外，从检索集中选择10000个数据对作为数据集的训练集。

对于NUS-WIDE数据集，随机选取2100个实例作为测试(查询)集，其余实例作为检索集，并在检索集中选取10500个实例作为训练集。本实施例在Pytorch框架下进行实施。批大小为64，总epoch为100，初始学习率为0.0006。本发明将每个模态的相关表示作为哈希层的输入。对于图像的模态，本发明使用CNN-F架构作为提取器来提取图像的表示，该表示由5个卷积块和3个全连接层组成。对于文本模态，为了提取文本特性，每个文本的实例都由单词袋(BOW)向量表示。为了验证超参数的作用，本发明在MIRFlickr-25K数据集上进行了实验，其中哈希码的长度固定为64位。图4显示了不同α值下的MAP结果，图5为不同β值下的MAP结果。当一个超参数发生变化时，另一个超参数保持不变。由图4和图5可知，当α＝0.1，β＝0.1时，得到的结果最好。因此，超参数α的最优值和β的最优值设置为0.1在哈希层中，本发明使用tanh函数作为激活函数来生成图像和文本的哈希码。算法实现过程如下。

输入:训练集z_i＝{v_i，t_i，l_i}；

输出：优化的代码矩阵B

初始化：初始化网络参数，

mini-batch大小:m；学习率:r；

一个epoch的迭代数:t＝M/m；

循环执行下列语句

1.迭代次数1，2,…[t]；

2.将Eq.(4)，Eq.(6)，Eq.(8)用反向传播更新参数θ_D；

3.将Eq.(5)，Eq.(7)，Eq.(9)用反向传播法更新参数

4.利用反向传播将Eq.(11)，Eq.(12)更新参数

5.利用反向传播将Eq.(11)，Eq.(12)更新参数

直至收敛

在两个数据集上进行实验，并对比了当前比较流行的其他9种方法(FSH,FDCH,DBRC,CRE,UCMH,CPAH,SRCH,SPHMF and DMFH)。本发明通过直接引用原文的结果或参考作者的实现来得到比较结果源代码的。从表1-4以及图3可以看出：本实施例提供的方法在不同数据集上都表现出优于其他方法的检索性能。其中图3中(a)和(c)是在MIRFlickr-25k数据集，(b)和(d)是在NUS-WIDE数据集，代码的长度为32比特，从表5-8可以看出每个学习部分的作用

表1

表2

表3

表4

表5

表6

表7

表8

基于同样的发明构思，一个或多个实施例提供了一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子中深度对抗注意力跨模态哈希检索方法。

基于同样的发明构思，一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例子中深度对抗注意力跨模态哈希检索方法。

基于同样的发明构思，一个或多个实施例提供了一种深度对抗注意力跨模态哈希检索系统，包括：

注意力学习模块，针对每个模态的特征，利用通道注意力机制，将每个模态的特征表示分为相关的模态特征和不相关的模态特征，通道注意力机制采用平均池化方法收集空间信息，最大池化方法收集对象特征。该机制极大地提高了网络的表达能力，更好地突出了模态的相关性；

模内对抗学习模块：对于每个图像文本模态，通过注意力机制得到了显著的相关信息，但每个模态都有相关和不相关信息，所以本发明将模态特征分为了相关和不相关的特征，将模态的相关信息设为真，将模态的无关信息设为假，每个模态内的不相关表示通过生成对抗网络将补充每个模态的相关表示信息；

模间对抗学习模块：对于图像和文本两种模态，在对抗过程中，本发明将图像模态的相关信息设为真，将文本模态的相关信息设为假。通过模间对抗学习使得两种模态各自的相关表示分布的更加均匀，从而使得跨模态检索的准确性大大提高；

哈希学习模块：在这个阶段中，将图像和文本的相关表示映射在汉明空间中，从而提高跨模态检索的精度和速度。

以上实施例的装置中涉及的各步骤与方法实施例相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.深度对抗注意力跨模态哈希检索方法，其特征是，包括：

2.如权利要求1所述的深度对抗注意力跨模态哈希检索方法，其特征是，所述通道注意力学习机制采用平均池化的方法收集每个模态的空间信息，最大池化的方法收集每个模态的对象特征。

3.如权利要求1所述的深度对抗注意力跨模态哈希检索方法，其特征是，对于图像模态，获得代表图像模态的平均池化和最大池化的表示特征，将表示特征输入至共享图像网络中，生成一维通道注意力映射；

4.如权利要求1所述的深度对抗注意力跨模态哈希检索方法，其特征是，在模内对抗学习中，将模态的相关信息设置为“真”，将模态的无关信息设置为“假”，对图像模态及文本模态，分别定义判别器和生成器的目标函数，将每个模态无关信息补充注意力学习机制突出的相关信息。

5.如权利要求1所述的深度对抗注意力跨模态哈希检索方法，其特征是，在模间对抗学习中，在判别步骤中，将图像模态的相关信息设为“真”，将文本模态的相关信息设为“假”，定义判别器的目标函数；

6.如权利要求1所述的深度对抗注意力跨模态哈希检索方法，其特征是，哈希学习过程中，利用两个哈希层将图像的相关表示及文本的相关表示分别映射成哈希码；

使用两两配对损失函数来衡量哈希码之间的相似性。

7.如权利要求6所述的深度对抗注意力跨模态哈希检索方法，其特征是，哈希学习过程中，基于量化误差定义损失函数，以减少在哈希学习过程中会出现的量化错误。

8.深度对抗注意力跨模态哈希检索系统，其特征是，包括：

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。