CN116737877A

CN116737877A - 基于注意力网络对抗哈希的跨模态检索方法及设备

Info

Publication number: CN116737877A
Application number: CN202310722310.3A
Authority: CN
Inventors: 黄昭; 苏苗
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-12

Abstract

本发明提出了一种基于注意力网络对抗哈希的跨模态检索方法及设备，方法包括:获得图像‑文本对数据，提取图像数据和文本数据的初始全局特征，将图像数据的初始全局特征和文本数据的初始全局特征分别经过共享注意力模块处理，获得图像数据和文本数据的最终特征表示；模态判别器以对抗式的方式和特征提取器相互作用，促使模态特征提取器学习到更好的图文特征；将图像数据和文本数据的最终特征表示转换为二进制编码，将其特征映射到公共汉明空间中，进行跨模态检索，获得前K个跨模态检索的结果。本发明将对抗网络与哈希学习网络结合，既利用了对抗网络学习促使特征提取器学习模态不变表示，同时也利用了哈希快速检索的特性，从而实现跨模态检索。

Description

基于注意力网络对抗哈希的跨模态检索方法及设备

技术领域

本发明涉及计算机技术中的跨模态图文检索领域，具体涉及一种基于注意力网络对抗哈希的跨模态检索方法及设备。

背景技术

跨模态检索过程中，提取高质量的模态特征和实现快速准确的检索是当前研究的目标和方向。传统的基于手工特征的模型不能很好的提取不同模态数据的特征，而利用深度学习提取的模态特征有更强的表达能力。同时，共享注意力模块可以有效的学习高质量特征，关注相关信息，忽略不相关信息，产生更多的辨别特征，为哈希学习奠定基础。跨模态哈希因其快速检索的速度深受欢迎。跨模态哈希是利用特征提取器对不同模态数据进行特征提取，同时能够把模态特征中容易忽略的信息提取出来，通过学习它们的哈希变换，将这些数据信息投影到一个汉明空间，然后通过在这个空间中计算相似度，最终实现跨模态检索。然而，哈希学习方法没有充分探索哈希学习过程中模态的语义相关性，同时也没有充分考虑到数据的分布变化。因此，如何高效的提取带有掩码权重的注意力特征同时将对抗与哈希结合进行跨模态检索成为了一个需要思考的问题。

发明内容

为了解决上述问题，本发明提供一种基于注意力网络对抗哈希的跨模态检索方法及设备，利用深度学习和共享注意力模块对图像和文本数据进行特征提取，同时，模态判别器以一种对抗性的方式与特征提取器一起来适应数据的分布变化，通过哈希学习网络，得到二进制编码，最终实现快速准确检索的目的。

为了达到上述目的，本发明所采用的技术方案为：一种基于注意力网络对抗哈希的跨模态检索方法，包括以下步骤：

对成对的图文数据中的图像数据和文本数据提取初始特征；

对初始特征学习掩码权重，获得用于检索任务的高质量的图文特征；具体的，将图像数据的初始全局特征和文本数据的初始全局特征作为共享注意力模块的输入，经过注意力模块处理，从而获得图像数据和文本数据的激活输出；将图像数据和文本数据的激活输出送到一个全连接层，分别得到图像数据和文本数据的最终特征表示；

基于所述高质量的图文特征，利用模态判别器判断所述图文特征是图像特征还是文本特征，模态特征提取器和模态判别器以对抗式的方式相互作用，通过模态特征提取器学习到更好的图文特征；

将所述图文特征作为哈希学习器的输入，利用哈希学习网络将更好的图文特征非线性的转换为二进制编码，即哈希码；

将待查询图像数据或文本数据映射到公共汉明空间，在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量，对相似度测量结果进行排序，获得前K个跨模态检索的结果。

对成对的图文数据中的图像数据和文本数据分别提取初始特征包括：

对于图像数据采用在ImageNet上预训练好的ResNet-101网络模型提取初始特征，从pool5层提取的2048维的特征向量，映射到1024维特征，并将此作为图像数据的初始全局特征

P∈R^r×n,P_i＝f(v_i；θ_v)；

对于文本数据，首先通过预处理得到词向量，然后将词向量作为双向长短期记忆神经网络的输入进行特征提取，并将其的输出作为文本数据的初始全局特征Q∈R^r×n,Q_j＝f(t_j；θ_t)。

将图像数据的初始全局特征P_i和文本数据的初始全局特征Q_j作为共享注意力模块的输入，利用具有sigmoid激活函数的全连接层来构建f_mask函数，学习特征图中每个位置的掩码权重，图像数据的掩码权重M_i(v)和文本数据的掩码权重M_j(t)为：

M_i(v)＝f_mask(P_i)

M_j(t)＝f_mask(Q_j)

全连接层用于学习特征的非线性变换，提取数据的语义信息；

sigmoid激活函数用于将图像数据的掩码权重M_i(v)和文本数据的掩码权重M_j(t)的值映射在[0,1]范围内；

将图像数据的掩码权重M_i(v)与图像数据的初始全局特征P_i作内积操作，然后将内积得到的值与图像数据的初始全局特征P_i作和操作，最终得到图像的激活输出H_i(v)；

将文本数据的掩码权重M_j(t)与文本数据的初始全局特征Q_j作内积操作；然后将内积得到的值与文本数据的初始全局特征Q_j作和操作，最终得到文本的激活输出H_j(t)；

内积层的参数对于两个模态样本是共享的，图像的激活函数输出H_i(v)和文本的激活输出H_j(t)为：

H_i(v)＝(1+M_i(v))(P_i)

H_j(t)＝(1+M_j(t))(Q_j)

将图像的激活函数输出H_i(v)和文本的激活输出H_j(t)分别输入到一个全连接层，得到图像数据的最终特征表示和文本数据的最终特征表示

利用模态判别器判断所述图文特征是图像特征还是文本特征包括：

利用一个三层的前馈神经网络对上述图像数据和文本数据的最终表示进行模态判别，模态判别器的输出即代表输入特征的模态，其中1代表的是图像数据特征，0代表的是文本数据特征；

模态判别器用于正确区分样本的模态，即输入的样本特征属于图像样本特征还是文本样本特征，图像样本特征和文本样本特征的差异为相应的损失，损失越小，则图像样本特征和文本样本特征差异越大。

模态判别器包括一个三层的前馈神经网络，模态判别器的输出为：

D∈Rⁿ,D_i＝D(y_i；θ_D)∈{0,1}

其中y_i表示投影的图像特征或文本特征，θ_D为参数，若D_i为1，代表将投影的特征判别为图像数据特征，反之，若D_i为0，代表将投影的特征判别为文本数据特征；

利用似然函数表示y_i和l_i之间的关系，

其中表示图像或文本成为图像特征的概率，l_i为每个图像-文本对的真实模态标签；图像特征和文本特征的差异为相应的损失，损失越小，则图像特征和文本特征差异越大，判别损失函数为：

其中n为跨模态数据集中的图像-文本对数量，θ_D为模态判别器的参数。

将所述图文特征作为哈希学习器的输入，利用哈希学习网络将更好的图文特征非线性的转换为二进制编码包括：

将更好的图文特征一起形成具有两个模态的所有特征表示的集合；

将所有特征表示的集合作为哈希学习网络的输入，哈希学习网络由三个全连接层组成，基于前两个全连接层计算得到二进制编码；

哈希学习网络利用具有语义监督的损失函数确保所生成的二进制编码与初始数据之间的语义关系。

哈希学习网络包括三个全连接层，二进制编码的计算基于前两个全连接层，通过最小化下式来学习二进制编码：

s.t.B∈{-1,1}^r×2n

其中，B＝{b₁,b₂,···,b_2n}是数据样本的二进制编码，n为跨模态数据集中的图像-文本对数量，S^h为二进制编码学习中的成对相似性，a为二进制编码的长度；

上式确保所学习的二进制编码应接近成对相似性S^h，等价为：

s.t.B∈{-1,1}^r×2n

其中，M＝{m₁,m₂,···,m_2n}为哈希学习中第二层全连接的值；

基于非对称松弛策略，进一步减小量化误差，强制二进制编码B与特征相似，并最小化特征与成对相似性矩阵S^h之间的差异；

哈希学习网络的目标函数为：

s.t.B∈{-1,1}^r×2n

其中，是独立项，/>是平衡项，α₁,α₂,α₃是超参数，α₁为控制二进制编码离散约束的超参数，α₂为控制二进制编码独立性的超参数，α₃为控制二进制编码平衡性的超参数，θ_h为哈希学习网络的参数；

最终，总的目标函数可以表示为：

其中，β,γ,δ是超参数，θ_v,θ_t分别是图像特征提取网络和文本特征提取网络的参数，θ_D为模态判别器的参数，θ_h为哈希学习网络的参数。

将图像数据和文本数据映射到公共汉明空间，在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量，对相似度测量结果进行排序，获得前K个跨模态检索的结果包括：

待查询文本检索图像，将待查询文本经过跨模态检索模型将其转换为二进制编码，得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序，最终得到排名前K个的图像检索结果；

待查询图像检索文本，将待查询图像经过跨模态检索模型将其转换为二进制编码，得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序，最终得到排名前K个的文本检索结果。

另外提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，所述处理器执行程序时能实现本发明所述的跨模态检索方法。

本发明同时提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的跨模态检索方法。

与现有跨模态方法相比，本发明至少具有以下优点：

利用深度学习提取的模态特征有更强的表达能力，对数据集的表达更高效和准确，所提取的图像特征鲁棒性更强，泛化能力更好；利用共享注意力模块将特征嵌入到同一空间中，可以减小异质性差距，提取语义特征，关注相关信息，忽略不相关信息，产生更多的辨别特征；利用模态判别器区分数据类型，当其无法区分数据类型时，说明不同模态数据之间的异质性差距被最小化；利用跨模态哈希学习方法，将不同模态特征转化为二进制编码，实现快速准确的检索，在一定程度上提升了跨模态检索方法的质量和效率。

进一步的，对图像数据和文本数据分别利用不同的神经网络进行初始特征提取时，利用双向长短期记忆网络的长短期记忆功能可以解决梯度爆炸问题，保留模态内的语义一致性；双向长短期记忆网络还能够关注到上下文信息和丰富的语义信息，从而充分提取到文本数据的语义特征。

附图说明

图1是新型跨模态检索方法结构示意图。

图2是新型跨模态检索方法示意图。

图3是共享注意力模块示意图。

图4是新型跨模态检索流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，基于本发明中的实施例，本领域普通技术人员在没有做出创造性技术方案前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于注意力网络对抗哈希的跨模态检索方法，包括以下步骤：

对成对的图文数据中的图像数据和文本数据提取初始特征；

图1是本发明所述跨模态检索基于跨模态检索模型，跨模态检索模型结构示意图，具体说明如下：

跨模态检索模型包括三个部分：

第一部分，特征提取器首先用不同的神经网络对图像和文本进行初始的特征提取，然后将提取的特征输入到共享注意力模块，获得带有注意力的图像特征和文本特征，具体如下：

对于图像数据采用在ImageNet上预训练好的ResNet-101网络模型提取初始特征，从pool5层提取的2048维的特征向量，映射到1024维特征，并将此作为图像数据的初始全局特征P∈R^r×n,P_i＝f(v_i；θ_v)；

对于文本数据，首先通过预处理得到词向量，然后将词向量作为双向长短期记忆神经网络的输入进行特征提取，并将其的输出作为文本数据的初始全局特征Q∈R^r×n,Q_j＝f(t_j；θ_t)；

将图像数据的初始全局特征和文本数据的初始全局特征作为共享注意力模块的输入，经过注意力模块，从而获得图像数据和文本数据的激活输出；

将上述的图像数据和文本数据的激活输出送到一个全连接层，分别得到图像数据和文本数据的最终特征表示。

第二部分，模态判别器，用于对通过特征提取器得到的带有注意力的图像特征和文本特征进行模态判别，并以一种对抗性的方式促使特征提取器学习到更好的图文特征，具体如下：

模态判别器的目的是为了正确区分样本的模态，即输入的样本特征属于图像样本特征还是文本样本特征，图像样本特征和文本样本特征的差异为相应的损失，损失越小，则说明二者差异越大；

模态特征提取器希望模态判别器无法区分输入样本特征的模态，二者以对抗式的方式相互作用，从而适应分布变化，促使模态特征提取器学习到更好的图文特征。

第三部分，哈希学习器，用于将通过特征提取器得到的带有注意力的图像最终特征表示和文本最终特征表示非线性的转换为二进制编码，并利用具有语义监督的损失函数确保所生成的二进制编码与初始数据之间的语义关系，具体如下：

将上述的图像数据最终特征表示和文本数据的最终特征表示一起形成具有两个模态的所有特征表示的集合；

将所有特征表示的集合作为哈希学习网络的输入，哈希学习网络由三个全连接层组成，二进制编码的计算基于前两个全连接层，最终得到了二进制编码；

图2是本发明跨模态检索方法示意图，现对本发明的实施方式进行详细说明。

步骤1，将成对的图文数据作为跨模态检索模型的输入。

步骤2，对图像数据和文本数据分别利用不同的神经网络进行初始特征提取，具体如下：

步骤2.1，对于图像数据采用在ImageNet上预训练好的ResNet-101网络模型提取初始特征，从pool5层提取的2048维的特征向量，映射到1024维特征，并将此作为图像数据的初始全局特征P∈R^r×n,P_i＝f(v_i；θ_v)；

ResNet-101网络模型对于局部像素有很强的表达能力，能够充分利用图像的二维结构和相邻像素之间的相关性。

在ImageNet数据集上预训练好的残差网络ResNet-101在图像特征提取方面具有优秀的表现力。

步骤2.2，对于文本数据，首先通过预处理得到词向量，然后将词向量作为双向长短期记忆神经网络的输入进行特征提取，并将其的输出作为文本数据的初始全局特征Q∈R^r×n,Q_j＝f(t_j；θ_t)。

首先利用word2vec方法提取词向量，将词向量映射为一个d维向量X。

然后，将每个单词嵌入到词向量空间中，按照前后顺序输入到双向长短期记忆网络中，对文本向量的特征及语义进行提取，过程表示如下：

其中e_t表示嵌入到词向量空间的词向量，和/>分别表示前向和后向LSTM在步长t时的隐藏状态，在每个时间步长t处添加这两个隐藏状态，即/>构造了一组文本特征向量。

最后，通过平均池化得到文本的初始全局特征Q。

利用双向长短期记忆网络的长短期记忆功能可以解决梯度爆炸问题，保留模态内的语义一致性。

双向长短期记忆网络还能够关注到上下文信息和丰富的语义信息，从而充分提取到文本数据的语义特征。

步骤3，将步骤2提取的初始特征作为共享注意力模块的输入，利用共享注意力模块对初始特征学习掩码权重，获得用于检索任务的高质量的图文特征，具体如下：

将图像数据的初始全局特征P_i和文本数据的初始全局特征Q_j作为共享注意力模块的输入，利用具有sigmoid激活函数的全连接层来构建f_mask函数，学习特征图中每个位置的掩码权重，图像数据的掩码权重M_i(v)和文本数据的掩码权重M_j(t)定义为：

M_i(v)＝f_mask(P_i)

M_j(t)＝f_mask(Q_j)

全连接层用于学习特征的非线性变换，提取数据的语义信息。

内积层的参数对于两个模态样本是共享的，图像的激活函数输出H_i(v)和文本的激活输出H_j(t)定义为：

H_i(v)＝(1+M_i(v))(P_i)

H_j(t)＝(1+M_j(t))(Q_j)

步骤4，将步骤3获得的图文特征作为模态判别器的输入，利用模态判别器判断输入的特征是图像特征还是文本特征。

模态判别器用于正确区分输入的样本特征属于图像样本特征还是文本样本特征，图像样本特征和文本样本特征的差异为相应的损失，损失越小，则图像样本特征和文本样本特征的差异越大。

步骤5，模态特征提取器希望模态判别器无法区分输入样本特征的模态，二者以对抗式的方式相互作用，促使模态特征提取器学习到更好的图文特征，具体如下：

模态判别器由一个三层的前馈神经网络组成，模态判别器的输出为：

D∈Rⁿ,D_i＝D(y_i；θ_D)∈{0,1}

其中y_i表示投影的图像特征或文本特征，θ_D为模态判别器的参数，若D_i为1，代表将投影的特征判别为图像数据特征，反之，若D_i为0，代表将投影的特征判别为文本数据特征；

利用似然函数表示特征y_i和标签l_i之间的关系，

其中表示图像或文本成为图像特征的概率，l_i为每个图像-文本对的真实模态标签。

图像特征和文本特征的差异为相应的损失，损失越小，则说明图像特征和文本特征差异越大，因此，判别损失函数为：

步骤6，将步骤3获得最终图文特征同时也作为哈希学习器的输入，利用哈希学习网络将成对的样本非线性的转换为二进制编码，即哈希码，具体如下：

哈希学习网络由三个全连接层组成，二进制编码的计算基于前两个全连接层，通过最小化下式来学习二进制编码：

s.t.B∈{-1,1}^r×2n

其中，B＝{b₁,b₂,···,b_2n}是数据样本的二进制编码，n为跨模态数据集中的图像-文本对数量，S^h为二进制编码学习中的成对相似性，a为二进制编码的长度。

上式确保了所学习的二进制编码应接近成对相似性S^h，从而可以更好的学习二进制编码。

上式也等价为：

s.t.B∈{-1,1}^r×2n

其中，M＝{m₁,m₂,···,m_2n}为哈希学习中第二层全连接的值。

基于非对称松弛策略，进一步减小量化误差，强制二进制编码B与特征相似，并最小化特征与成对相似性矩阵S^h之间的差异。

因此，哈希学习网络的目标函数为：

s.t.B∈{-1,1}^r×2n

其中，是独立项，/>是平衡项，α₁,α₂,α₃是超参数，α₁为控制二进制编码离散约束的超参数，α₂为控制二进制编码独立性的超参数，α₃为控制二进制编码平衡性的超参数，θ_h为哈希学习网络的参数。

最终，总的目标函数可以表示为：

步骤7，跨模态检索模型分别将待查询图像数据和文本数据映射到公共汉明空间，在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量，获得前K个跨模态检索的结果。具体如下：

步骤7.1，待查询文本检索图像，将待查询文本经过跨模态检索模型将其转换为二进制编码，得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序，最终得到排名前K个的图像检索结果。

步骤7.2，待查询图像检索文本，将待查询图像经过跨模态检索模型将其转换为二进制编码，得到的二进制编码与公共汉明空间里的二进制编码进行距离计算并排序，最终得到排名前K个的文本检索结果。

综上所述，本发明提出了一种基于注意力网络对抗哈希的跨模态检索方法及设备，方法包括:特征提取步骤：获得图像-文本对数据，利用ResNet-101网络提取图像数据的初始全局特征，利用双向长短期记忆神经网络提取文本数据的初始全局特征，将图像数据的初始全局特征和文本数据的初始全局特征分别经过共享注意力模块处理，获得图像数据和文本数据的最终特征表示；模态判别步骤：以对抗式的方式和特征提取器相互作用，从而适应分布变化，促使模态特征提取器学习到更好的图文特征；哈希学习步骤：将图像数据和文本数据的最终特征表示转换为二进制编码，成功将其特征映射到公共汉明空间中，进行跨模态检索，获得前K个跨模态检索的结果。本发明将对抗网络与哈希学习网络结合，既利用了对抗网络学习促使特征提取器学习更好的图文特征表示，同时也利用了哈希快速检索的特性，从而实现跨模态检索。

本发明还可以提供一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，处理器执行计算机可执行程序时能实现本发明所述的基于注意力网络对抗哈希的跨模态检索方法。

另一方面，本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于注意力网络对抗哈希的跨模态检索方法。

所述计算机设备可以采用笔记本电脑、桌面型计算机或工作站。

对于本发明所述处理器，可以是中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是笔记本电脑、桌面型计算机或工作站的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

最后说明的是，以上所述，仅为说明本发明的具体实施方式，但本发明创造的保护范围并不局限于此，熟悉本技术领域的技术人员应该明白，在本发明技术方案的基础上，根据本发明创造的技术方案及其发明构思做出的修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于注意力网络对抗哈希的跨模态检索方法，其特征在于，包括以下步骤：

对成对的图文数据中的图像数据和文本数据提取初始特征；

2.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法，其特征在于，对成对的图文数据中的图像数据和文本数据分别提取初始特征包括：

P∈R^r×n,P_i＝f(v_i；θ_v)；

3.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法，其特征在于，将图像数据的初始全局特征P_i和文本数据的初始全局特征Q_j作为共享注意力模块的输入，利用具有sigmoid激活函数的全连接层来构建f_mask函数，学习特征图中每个位置的掩码权重，图像数据的掩码权重M_i(v)和文本数据的掩码权重M_j(t)为：

M_i(v)＝f_mask(P_i)

M_j(t)＝f_mask(Q_j)

H_i(v)＝(1+M_i(v))(P_i)

H_j(t)＝(1+M_j(t))(Q_j)

将图像的激活函数输出H_i(v)和文本的激活输出H_j(t)分别输入到一个全连接层，得到图像数据的最终特征表示和文本数据的最终特征表示/>

4.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法，其特征在于，利用模态判别器判断所述图文特征是图像特征还是文本特征包括：

5.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法，其特征在于，模态判别器包括一个三层的前馈神经网络，模态判别器的输出为：

D∈Rⁿ,D_i＝D(y_i；θ_D)∈{0,1}

利用似然函数表示y_i和l_i之间的关系，

其中表示图像或文本成为图像特征的概率，l_i为每个图像-文本对的真实模态标签；图像特征和文本特征的差异为相应的损失，损失越小，则图像特征和文本特征的差异越大，判别损失函数为：

6.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法，其特征在于，将所述图文特征作为哈希学习器的输入，利用哈希学习网络将更好的图文特征非线性的转换为二进制编码包括：

7.根据权利要求6所述的基于注意力网络对抗哈希的跨模态检索方法，其特征在于，哈希学习网络包括三个全连接层，二进制编码的计算基于前两个全连接层，通过最小化下式来学习二进制编码：

s.t.B∈{-1,1}^r×2n

哈希学习网络的目标函数为：

s.t.B∈{-1,1}^r×2n

最终，总的目标函数可以表示为：

8.根据权利要求1所述的基于注意力网络对抗哈希的跨模态检索方法，其特征在于，将图像数据和文本数据映射到公共汉明空间，在公共汉明空间经过计算查询数据的二进制编码和初始数据的二进制编码之间进行相似度测量，对相似度测量结果进行排序，获得前K个跨模态检索的结果包括：

9.一种计算机设备，其特征在于，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，所述处理器执行程序时能实现权利要求1-8任一项所述的跨模态检索方法。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现权利要求1-8任一项所述的跨模态检索方法。