CN114817581A

CN114817581A - 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法

Info

Publication number: CN114817581A
Application number: CN202210546822.4A
Authority: CN
Inventors: 张学旺; 李金鹏; 林金朝; 赵丽; 黄胜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-07-29

Abstract

本发明涉及一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法，属于跨模态检索领域。该方法包括：S1：对数据集中图像和文本进行预处理；S2：提取模态数据特征；S3：哈希码映射：将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征；S4：建立基于五元组结构的损失函数；S5：输入五元组数据训练检索模型；S6：使用训练好的检索模型执行跨模态哈希检索任务。本发明提高了提取模态数据特征的精细程度，提升了模型检索准确率。

Description

基于融合注意力机制和DenseNet网络的跨模态哈希检索方法

技术领域

本发明属于跨模态检索领域，涉及一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法。

背景技术

随着互联网和信息技术的快速发展，以不同媒体形式存在的多模态数据爆炸式地增长，这其中包含有图像、文本、音频和视频等众多媒体形式。每时每刻互联网上都会产生海量的多媒体数据。传统的单模态式检索已经远远不能满足用户日常的信息检索需求，对于描述同一事物的多种模态数据之间的高效检索已经成为了信息检索领域的一个研究热点。在该应用背景的推动下，跨模态检索得到了飞速发展。跨模态检索是指根据查询模态数据检索并返回与其语义相关的其他模态数据。由于低存储需求和快速计算的特性，近些年哈希方法在跨模态检索领域得到了广泛的关注和应用。哈希方法是解决跨模态数据间语义鸿沟的有效方法。它通过将经过特征提取的模态数据低维特征嵌入到固定长度的哈希编码中，然后对拥有同样长度的查询模态数据和检索模态数据的哈希码执行按位异或运算。通过该运算我们可以快速的得到查询模态数据与被检索的模态数据在汉明空间中的距离，进而得到数据间的语义相似性。

跨模态哈希检索方法按照训练模型时是否有监督标签可以分为有监督跨模态哈希、无监督跨模态哈希和半监督跨模态哈希三种类型。其中无监督跨模态哈希主要利用不同模态数据本身的特征和数据结构进行学习；有监督跨模态哈希则是利用数据集中人工标注的信息有目的性的进行训练，可以获得比无监督跨模态哈希更好的检索结果；半监督跨模态哈希训练方式是先利用部分标记数据进行有监督训练，然后再利用无标记数据进行无监督训练。由于有监督训练方式相较于其他训练方式拥有的更加优异的检索结果，基于深度学习的有监督跨模态哈希受到了研究者们的关注。

目前已经涌现出许多的基于深度学习的有监督跨模态哈希检索方法。但这些方法普遍存在着一些缺陷问题。例如未考虑到模态数据内部之间的关系，而仅仅是站在事物外部的视角来度量不同模态数据间的关系。其实同一模态数据内部之间也蕴含着丰富的语义关联，这些同类别模态数据内部之间的语义信息可以被用来作为跨模态哈希检索的索引依据。目前，很多跨模态检索方法在特征学习网络中仍然使用的是基于VGG-Net结构的图像特征学习网络，然而随着深度学习技术的迅速发展，性能优异的深度学习模型不断产生，因此存在模态数据特征学习网络有待优化、提取的模态数据特征不够精细而影响检索精度的问题。

因此，亟需一种新的跨模态哈希检索方法来解决上述问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于融合注意力机制和DenseNet网络五元组图文跨模态哈希检索方法，解决目前基于三元组的方法中存在的下列问题：未考虑到模态数据内部之间的语义关系，图像特征学习网络有待优化，提取的模态数据特征不够精细而影响检索任务精度。

为达到上述目的，本发明提供如下技术方案：

一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法，在图像特征学习网络中引入DenseNet网络，借助其深层结构以及在特征channel上的连接来实现特征重用，加强深层网络中特征的传递，减轻梯度消失的问题，同时又在特征学习网络中融合SENet注意力机制，以提高提取模态数据特征的精细程度，提升模型检索准确率。该方法具体包括以下步骤：

S1：对数据集中图像和文本进行预处理；

S2：提取模态数据特征，具体包括：采用基于融合通道域注意力和DenseNet网络结构的图像特征学习网络来提取图像特征，采用基于BoW模型的文本特征学习网络来提取文本特征；

S3：哈希码映射：将步骤S2提取的图像特征和文本特征分别经过两层全连接层得到相同维度的低维特征；

S4：建立基于五元组结构的损失函数L；

minL＝L₁+L₂+γL₃+L₄

其中，γ是可调节的超参数、用于调节L₃占损失函数L的比重，L₁表示文本特征F_T与图像特征F_I模态数据之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量，L₂表示文本特征F_T的模态数据内部之间的损失、使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量，L₃表示度量哈希码F与低维特征H之间的损失，L₄表示对权重W和偏置B的正交正则化处理得到的损失；

S5：使用大批量的方式输入五元组数据训练检索模型；

所述检索模型包括图像特征学习网络、文本特征学习网络、哈希层和查询检索过程；

所述五元组数据包括：查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本和不同模态的正例样本；将训练批量大小即batch_size设为8192，训练次数Epoch设为2000，采用五元组的模式向检索模型中输入训练数据，通过优化总目标函数L，更新权重，偏置等参数来训练模型；

S6：使用训练好的检索模型执行跨模态哈希检索任务。

进一步，步骤S3中，所述低维特征由阈值函数映射为相同位数的哈希码，其中第一层全连接层采用的是tanh激活函数，第二层采用的是sigmoid函数，得到相同维度低维特征的过程可以描述为：

其中，C₁层使用的tanh激活函数，

和

分别是C₁层中参数的权重和偏置，C₂层使用的是sigmoid激活函数，

和

分别是C₂层中参数的权重和偏置，f表示模态数据特征提取部分的输出，即融合SENet注意力的DenseNet201图像特征学习网络对图像特征的输出以及基于BoW模型的文本特征学习网络对文本数据特征的输出；

所述阈值函数为：

进一步，步骤S4中，文本特征F_T与图像特征F_I模态数据之间的损失L₁的计算公式为：

L₁＝l₁+λ(l₂+l₃)

其中，l₁表示模态间距离的损失；λ是可调节的超参数，用来调控损失项l₂和l₃占L₁损失项的比例；n表示五元组样本的数量，超参数β表示衡量

和

之间损失的边界值，

表示查询文本低维特征F_qT与被检索的正例图像低维特征

之间的距离，

表示查询文本低维特征F_qT与被检索的负例图像低维特征

之间的距离；

其中，

表示T_i ⁺和I_i ⁺之间的距离，T_i ⁺和I_i ⁺分别表示第i个正例文本和第i个正例图像。

进一步，步骤S4中，文本特征F_T的模态数据内部之间的损失L₂的计算公式为：

L₂＝l₄+λl₅

其中，λ是可调节的超参数，用来调控损失项l₅占L₂损失项的比例；超参数β表示衡量

和

之间损失的边界值，n表示五元组样本的数量，

表示查询文本低维特征

与被检索的正例文本的低维特征

之间的距离，

表示查询文本低维特征

与被检索的负例文本的低维特征

之间的距离。

进一步，步骤S4中，度量哈希码F与低维特征H之间的损失L₃的计算公式为：

其中，n表示五元组样本的数量，

表示查询文本的低维特征

与其对应哈希码

以及同模态内部被检索文本的低维特征F_T与其对应哈希码H_T之间的距离，

表示被检索图像的低维特征F_I与其对应哈希码H_I之间的距离；T_i ⁺和T_i ^-分别表示第i个正例文本和负例文本；I_i ⁺和T_i ^-分别表示第i个正例图像和负例图像。

进一步，步骤S4中，对权重W和偏置B的正交正则化处理得到的损失L₄的计算公式为：

其中，W^tra表示权重矩阵W的转置矩阵，I_ide表示单位矩阵，θ和ω是可以调参的超参数，||·||_Fro表示矩阵的Frobenius范数，下标T表示文本数据，下标I表示图像数据。

进一步，步骤S5中，输入五元组数据训练检索模型，具体包括以下步骤：

S51：随机的初始化W和B，设定训练批次大小和训练轮次Epoch；

S52：针对每一个查询文本数据

随机挑选出m个与其语义相关的图像数据

与其语义不相关的图像数据

与其语义相关的文本数据T_i ⁺、与其语义不相关的文本数据T_i ^-来组成m对五元组输入数据；其中，每处理过总数据的30％需重新挑选训练模型的五元组输入数据，训练文本检索模型并通过优化总目标函数L来更新权重W和偏置项B；

S53：针对每一个查询图像数据

随机挑选出m个与其语义相关的图像数据

与其语义不相关的图像数据I_i ^-、与其语义相关的文本数据T_i ⁺、与其语义不相关的文本数据T_i ^-来组成m对五元组输入数据；其中，每处理过总数据的30％需重新挑选训练模型的五元组输入数据，训练图像检索模型并通过优化总目标函数L来更新权重W和偏置项B。

进一步，步骤S6中，使用训练好的检索模型执行跨模态哈希检索任务，具体包括：将待查询的图像和文本等模态数据输入到已经训练好的检索模型中，经过模型的处理可以得到对应的哈希码，然后对这些哈希码执行异或运算可以得到模态数据之间的汉明距离，对这些汉明距离排序可以得到查询模态数据与检索数据库中的模态数据之间的语义相关程度，排名在前列的模态数据语义相似程度越高，取排在前列的模态数据作为此次查询的检索结果。

本发明的有益效果在于：本发明通过采用五元组模式，可以同时从模态间与模态内两个方面建立模态数据之间的语义关系，同类别模态数据内部之间的语义信息也被用来作为跨模态哈希检索的索引依据；使用DenseNet稠密网络优化了图像特征学习网络结构，相较于以往的VGG-Net更加高效地识别并提取图像数据特征；同时在图像特征学习网络中融合通道域注意力机制中的SENet注意力，使得提取的模态数据特征更加的精细，训练得到的模型明显地提高了跨模态哈希检索的检索结果准确率，提高了检索的精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为五元组同时对模态内与模态间语义关系衡量示意图；

图2为本发明融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法的模型框架结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，本发明提供一种融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法，包含以下步骤：

步骤1：对数据集中图像和文本进行预处理。

具体实施方式以Wikipedia数据集和MIRFlickr-25K数据集为例说明，以下同。对Wikipedia数据集进行划分，随机挑选2173个图像/文本数据对作为训练集和检索集，其他余下的693对数据对作为测试集。对MIRFlickr-25K数据集做预处理，挑选出至少出现在20张图像中的tags作为词袋模型BoW的单词表，移除在整个数据集中不包含在单词表中的单词所在数据对和缺少文本描述的图像以及缺少类别标注的图像/文本数据对。处理后，数据集中还存有20819对数据符合实验要求。随机选择出1041对数据对作为测试集，余下的19778对数据对作为检索数据集。从检索集中随机的选出5000对数据对作为训练集。

步骤2：模态数据特征提取。

如图2所示，使用融合通道域注意力且基于DenseNet网络结构的图像特征学习网络来提取图像数据的1920维特征，使用基于词袋模型BoW的文本特征学习网络来提取文本特征。其中，对于Wikipedia数据集，文本数据被表示成1000维向量，对于MIRFlickr-25K数据集，文本数据被表示成1386维向量。

步骤3：哈希码映射。

如图2所示，经过特征学习网络提取的图像特征与文本特征分别经过两层全连接层得到相同维度的低维特征，这些低维特征由阈值函数映射为相同位数的哈希码。其中第一层全连接层采用的是tanh激活函数，第二层采用的是sigmoid函数，得到相同维度低维特征的过程可以描述为：

其中，C₁层使用的Tanh激活函数，

和

分别是C₁层中参数的权重和偏置。C₂层使用的是sigmoid激活函数，

和

分别是C₂层中参数的权重和偏置。这里f表示模态数据特征提取部分的输出，即融合SENet注意力的DenseNet201图像特征学习网络对图像特征的输出以及基于词袋模型BoW的文本特征学习网络对文本数据特征的输出，所使用的阈值函数如下面的公式所示：

步骤4：建立基于五元组结构的损失函数L。

如图1所示，基于五元组结构的损失函数L主要包括四个部分：(1)文本特征F_T与图像特征F_I模态数据之间的损失，使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量，可以得到损失函数L₁；(2)文本特征F_T的模态数据内部之间的损失，使用基于边界的合页损失函数和sigmoid交叉熵损失函数来度量，可以得到损失函数L₂；(3)度量哈希码F与低维特征H之间的损失可以得到损失函数L₃；(4)对权重W和偏置B的正交正则化处理，可以得到损失函数L₄。

(1)计算文本特征F_T与图像特征F_I模态数据之间的损失

其中，

表示查询文本低维特征

与被检索的正例图像低维特征

之间的距离，

表示查询文本低维特征

与被检索的负例图像低维特征

之间的距离。使用合页损失函数来评估模态间距离的损失。

其中，n表示输入到跨模态哈希检索方法中五元组样本的数量，超参数β表示衡量

和

之间损失的边界值。可以通过操作减小

数值的同时增大

数值使得l₁的损失值减小。理想情况下，经过不断的优化，β最终将会取到

和

之间的间隔。因此使用sigmoid交叉熵损失函数来处理这个二分类问题，继续优化

和

损失项，将会得到如下的式子：

经过分析，可以发现

的优化结果不能接近理想的0数值，故而直接使用

整体作为损失项来处理，对于loss₂符合优化的期望则继续使用sigmoid交叉熵损失函数来处理。为此，可以得到损失项l₂

输入的五元组数据样本中，根据

T_i ⁺之间的关系，可以推断出

和T_i ⁺也存在着关系。考虑将

和T_i ⁺之间的距离也加入到目标函数中，

和T_i ^-之间无直接关系可以衡量。

结合上述中的损失项，可以得到汇总的模态间的损失函数：

L₁＝l₁+λ(l₂+l₃)

其中λ是可调节的超参数，用来调控损失项l₂和l₃占L₁损失项的比例。

(2)计算文本特征F_T的模态数据内部之间的损失

相同模态数据内部查询文本与被检索文本的低维特征之间的距离通过上面两个公式衡量。其中，

表示查询文本低维特征

与被检索的正例文本的低维特征

之间的距离，

表示查询文本低维特征

与被检索的负例文本的低维特征

之间的距离。同样使用基于边界的合页损失函数来评估模态内距离的损失：

其中，超参数β表示衡量

和

之间损失的边界值，n表示五元组样本的数量。由于与计算模态数据间的损失的处理逻辑一样，因此可以得到下列损失项：

模态内总损失项为：

L₂＝l₄+λl₅

其中，λ是可调节的超参数、用来调控损失项l₅占L₂损失项的比例。

(3)度量哈希码F与低维特征H之间的损失

哈希码特有的离散性质意味着在将低维特征转换为哈希码的过程中必然存在着误差损失。为了应对这个问题，考虑将哈希码与特征之间的距离也加入到目标函数中。通过这个损失项的约束，可以缩小特征在向哈希码转换过程中的损失，使哈希码更好地表示模态数据的特征。这二者之间的衡量如下式所示：

其中，

表示查询文本的低维特征

与其对应哈希码

以及同模态内部被检索文本的低维特征F_T与其对应哈希码Ht之间的距离；

表示被检索图像的低维特征F_I与其对应哈希码H_I之间的距离。将上述两个式子结合可以得到哈希码H与低维特征F间的损失项：

(4)对权重W和偏置B的正交正则化处理

通过引入正则化来降低训练模型时的过拟合问题，以提高模型的泛化能力。因为正交矩阵具有正交变换保范性，与正交矩阵做乘法运算的向量之间的范数关系不会改变，因而引入正交正则化处理，将权重矩阵W做正交正则化处理并将其作为损失项。由于偏置B不参加向量间的乘法运算故不做该处理。使用矩阵的Frobenius范数来衡量这一部分。

其中，W^tra表示权重矩阵W的转置矩阵，I_ide表示单位矩阵，θ和ω是可调参的超参数。

将这四个部分的损失函数相加可以得到总目标损失函数L：

minL＝L₁+L₂+γL₃+L₄

其中，γ是可调节的超参数、用于调节L₃占损失函数L的比重。

步骤5：使用大批量的方式输入五元组数据训练模型。

五元组包含：查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本、不同模态的正例样本。将训练批量大小即batch_size设为8192，训练次数Epoch设为2000，采用五元组的模式向检索模型中输入训练数据，通过优化总目标函数L，更新权重、偏置等参数来训练模型。由于融合注意力机制的基于DenseNet网络五元组图文跨模态哈希检索方法主要包含文本查询图像和图像查询文本这两种检索任务。为此，对应这两种任务分别对模型进行训练，具体过程如下：

步骤5.1：随机初始化W和B，将训练批次大小设定为8192，训练模型时的训练轮次Epoch设定为2000。对于超参数的设定，其中哈希码位数规定为16、32、64，其对应的β分别为6、8、10，θ＝0.000l，γ＝λ＝ω＝0.01。为了减少超参数的数量，加快模型的收敛，这里将γ、λ、ω都设为了相同值。采用Adam优化算法来优化，更新模型中的参数。在所有数据集上的学习率都设为Adam算法默认的0.0001。

步骤5.2：针对每一个查询文本数据

随机挑选出m个与其语义相关的图像数据

与其语义不相关的图像数据

与其语义相关的文本数据T_i ⁺、与其语义不相关的文本数据T_i ^-来组成m对五元组

输入数据；其中，每处理过总数据的30％就重新挑选训练模型的五元组输入数据。训练文本检索任务网络并通过优化总目标函数L更新权重W和偏置项B。

步骤5.3：针对每一个查询图像数据

随机挑选出m个与其语义相关的图像数据

与其语义不相关的图像数据

与其语义相关的文本数据T_i ⁺、与其语义不相关的文本数据

来组成m对五元组

输入数据；其中，每处理过总数据的30％就重新挑选训练模型的五元组输入数据。训练图像检索任务网络并通过优化总目标函数L更新权重W和偏置项B。

步骤6：使用训练好的模型执行跨模态哈希检索任务。

如图2所示，本发明将待查询的图像、文本等模态数据输入到已经训练好的检索模型中去，经过模型的处理可以得到对应的哈希码，然后对这些哈希码做异或运算可以得到模态数据之间的汉明距离，对这些距离排序可以得到查询模态数据与检索数据库中的模态数据之间的语义相关程度，排名在前列的模态数据语义相似程度越高，取排在前列的模态数据作为此次查询的检索结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于融合注意力机制和DenseNet网络的跨模态哈希检索方法，其特征在于，该方法包括以下步骤：

S1：对数据集中图像和文本进行预处理；

S4：建立基于五元组结构的损失函数L；

minL＝L₁+L₂+γL₃+L₄

S5：输入五元组数据训练检索模型；

所述五元组数据包括：查询锚点样本、同模态的负例样本、同模态的正例样本、不同模态的负例样本和不同模态的正例样本；

S6：使用训练好的检索模型执行跨模态哈希检索任务。

2.根据权利要求1所述的跨模态哈希检索方法，其特征在于，步骤S3中，所述低维特征由阈值函数映射为相同位数的哈希码，其中第一层全连接层采用的是tanh激活函数，第二层采用的是sigmoid函数，得到相同维度低维特征的过程描述为：

其中，C₁层使用的tanh激活函数，

和

和

分别是C₂层中参数的权重和偏置，表示模态数据特征提取部分的输出；

所述阈值函数为：

3.根据权利要求1所述的跨模态哈希检索方法，其特征在于，步骤S4中，文本特征F_T与图像特征F_I模态数据之间的损失L₁的计算公式为：

L₁＝l₁+λ(l₂+l₃)

和

之间损失的边界值，

表示查询文本低维特征F_qT与被检索的正例图像低维特征

之间的距离，

表示查询文本低维特征F_qT与被检索的负例图像低维特征

之间的距离；

其中，

表示

和

之间的距离，

和

分别表示第i个正例文本和第i个正例图像。

4.根据权利要求1所述的跨模态哈希检索方法，其特征在于，步骤S4中，文本特征F_T的模态数据内部之间的损失L₂的计算公式为：

L₂＝l₄+λl₅

其中，λ是可调节的超参数，用来调控损失项l₅占L₂损失项的比例，超参数β表示衡量

和

之间损失的边界值，n表示五元组样本的数量，

表示查询文本低维特征F_qT与被检索的正例文本的低维特征

之间的距离，

表示查询文本低维特征F_qT与被检索的负例文本的低维特征

之间的距离。

5.根据权利要求1所述的跨模态哈希检索方法，其特征在于，步骤S4中，度量哈希码F与低维特征H之间的损失L₃的计算公式为：

其中，n表示五元组样本的数量，

表示查询文本的低维特征F_qT与其对应哈希码H_qT，以及同模态内部被检索文本的低维特征F_T与其对应哈希码H_T之间的距离，

表示被检索图像的低维特征F_I与其对应哈希码H_I之间的距离；

和

分别表示第i个正例文本和负例文本；

和

分别表示第i个正例图像和负例图像。

6.根据权利要求1所述的跨模态哈希检索方法，其特征在于，步骤S4中，对权重W和偏置B的正交正则化处理得到的损失L₄的计算公式为：

其中，W^tra表示权重矩阵W的转置矩阵，I_ide表示单位矩阵，θ和ω是可以调参的超参数，‖·‖_Fro表示矩阵的Frobenius范数，下标T表示文本数据，下标I表示图像数据。

7.根据权利要求1所述的跨模态哈希检索方法，其特征在于，步骤S5中，输入五元组数据训练检索模型，具体包括以下步骤：

S51：随机的初始化W和B，设定训练批次大小和训练轮次Epoch；

S52：针对每一个查询文本数据

随机挑选出m个与其语义相关的图像数据

与其语义不相关的图像数据

与其语义相关的文本数据

与其语义不相关的文本数据

来组成m对五元组输入数据；其中，每处理过总数据的30％需重新挑选训练模型的五元组输入数据，训练文本检索模型并通过优化总目标函数L来更新权重W和偏置项B；

S53：针对每一个查询图像数据

随机挑选出m个与其语义相关的图像数据

与其语义不相关的图像数据

与其语义相关的文本数据

与其语义不相关的文本数据

来组成m对五元组输入数据；其中，每处理过总数据的30％需重新挑选训练模型的五元组输入数据，训练图像检索模型并通过优化总目标函数L来更新权重W和偏置项B。

8.根据权利要求1所述的跨模态哈希检索方法，其特征在于，步骤S6中，使用训练好的检索模型执行跨模态哈希检索任务，具体包括：将待查询的图像和文本模态数据输入到已经训练好的检索模型中，经过模型的处理得到对应的哈希码，然后对这些哈希码执行异或运算得到模态数据之间的汉明距离，对这些汉明距离排序得到查询模态数据与检索数据库中的模态数据之间的语义相关程度，排名在前列的模态数据语义相似程度越高，取排在前列的模态数据作为此次查询的检索结果。