CN111460077A

CN111460077A - 一种基于类语义引导的跨模态哈希检索方法

Info

Publication number: CN111460077A
Application number: CN201910180788.1A
Authority: CN
Inventors: 陈志奎; 杜佳宁; 钟芳明
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-01-22
Filing date: 2019-03-11
Publication date: 2020-07-28
Anticipated expiration: 2039-03-11
Also published as: CN111460077B

Abstract

一种基于类语义引导的跨模态哈希检索方法，属于计算机技术领域，包括：1)类语义引导的投影学习；2)哈希码学习；3)模态内和模态间的相似性保持；4)总目标函数的构建和优化。本发明主要针对监督方法中完全忽略类语义的问题，考虑通过语义丰富的词嵌入空间有效捕捉类别间的语义关联，并以类语义作为中间层，采用编码器‑解码器范式进行投影学习，进一步地生成具有辨别性的哈希码和特定模态的哈希函数。此外，由于类语义建立了可见类和不可见类的关系，因此也同时解决了不可见域的检索问题。实验表明，本发明有效捕捉类别间的语义关联，提高了哈希码的质量和跨模态检索的性能，并同时具有处理跨模态检索任务和零样本跨模态检索任务的能力。

Description

一种基于类语义引导的跨模态哈希检索方法

技术领域

本发明属于计算机技术领域，涉及一种基于类语义引导的跨模态哈希检索方法。

背景技术

随着大数据时代的到来，互联网上的多媒体数据如图像、文本、音频等呈指数型增长。这些多媒体数据多元化和多维度的特点，使得人们的检索需求从传统单模态数据的检索如图像检索、文本检索等，转变为多模态数据间相互检索，尤其是跨模态数据间的检索。跨模态检索是使用一种模态的样本来获得另一种模态的相关结果，如使用一幅图像检索与其相关的文本或视频。近年来，许多研究者对此做出不懈努力，并产生了大量的研究成果。然而，在大规模检索任务中，跨模态检索方法会遭受维度灾难的问题，计算成本显著增长。受哈希技术快速搜索效率和低存储成本的启发，基于哈希的跨模态检索(跨模态哈希)吸引了相当大的关注，它将高维数据编码成紧凑的二进制码，并通过快速的逐位异或运算来计算相似性，有效地解决了上述大规模检索中的问题。由于不同模态数据间具有巨大的特征差异，如何消除它们之间的语义鸿沟，构建不同模态间的关联关系，成为跨模态哈希的核心和难点。

大多数现有跨模态哈希的研究工作主要将不同模态的数据投影到公共语义空间，然后映射到汉明空间，生成相应的哈希码，可大致将跨模态哈希方法分为两个分支，即无监督方法和监督方法。无监督方法仅从原始特征中学习哈希函数，以保持数据的内在结构。代表性的工作包括共矩阵分解哈希(CMFH)、潜在语义稀疏哈希(LSSH)等方法。这些方法能够提取不同模态间的关系，但在无监督方式下学习到的哈希码辨别能力不强。监督方法提供了异构数据的标签信息以提高检索能力，如监督矩阵分解哈希(SMFH)、模态内和模态间相似性保持哈希(IISPH)等。由于它有效地保留了可用的标签信息，因此监督方法的结果通常比无监督方法更好。

然而，大多数现有的监督方法主要关注如何利用监督信息捕获从原始空间到公共语义空间的语义关系，而监督信息通常以0/1标签或成对关系的形式使用，这造成每个类别相互独立。更重要的是，标签之间有价值的语义关联被完全忽略。

为了捕捉类别之间的语义关联，通过已有的一些工作，可以发现词嵌入空间可以有效地捕捉类别间的语义关联，因此本发明提出一种基于类语义引导的跨模态哈希检索方法，通过从语义丰富的词嵌入空间中提取类语义特征，并利用类语义引导哈希码的生成和特定模态哈希函数的学习过程。

发明内容

本发明针对最常见的两个模态(图像和文本)，探究一种基于类语义引导的跨模态哈希检索方法。该方法根据word2vec模型生成类名的语义表示，并构建类级语义空间，捕捉不同类别间的语义关联。此外，以类级语义空间作为中间层，采用编码器-解码器范式学习从原始特征空间到公共潜在空间的投影，使得原始特征中包含的所有信息都保留到投影中。这样的模型不仅增强了学习到哈希码的辨别性，而且使得本发明可以解决不可见域的检索问题。

为了达到上述目的，本发明采用的技术方案为：

一种基于类语义引导的跨模态哈希检索方法，包括以下步骤：

步骤1，通过从语义丰富的词嵌入空间中提取类语义特征，并利用类语义引导学习具有辨别性的投影矩阵；

步骤2，基于投影矩阵学习到不同模态的潜在表示，并通过对其映射和量化过程，在汉明空间生成具有辨别性的二进制码；

步骤3，将模态内和模态间的相似性保持嵌入到哈希码和哈希函数的学习过程中；

步骤4，构建和优化总目标函数，迭代更新矩阵变量直至满足收敛条件。

本发明解决的是闭集的跨模态检索问题，即训练集和查询集都来自相同的类别，其中训练集为训练数据构成的集合，查询集为查询数据构成的集合。

本发明还可以用于解决不可见域的检索问题。而在不可见域的检索问题上，其目标函数与前面所有公式一致。唯一不同的是，解决不可见域的检索问题时，查询集包含的类别与训练集完全不同，即查询数据是训练时从未出现过的类别。

本发明的有益效果为：本发明主要针对监督方法中完全忽略类语义的问题，考虑通过语义丰富的词嵌入空间有效捕捉类别间的语义关联，并以类语义作为中间层，采用编码器-解码器范式进行投影学习，进一步地生成具有辨别性的哈希码和特定模态的哈希函数。此外，由于类语义建立了可见类和不可见类的关系，因此本发明也同时解决了不可见域的检索问题。实验表明，本发明有效捕捉类别间的语义关联，提高了哈希码的质量和跨模态检索的性能，并同时具有处理跨模态检索任务和零样本跨模态检索任务的能力。

附图说明

图1为基于类语义引导的跨模态哈希检索方法(SeGH)框架图；

图2为所有方法在LabelMe数据集上64位和128位哈希码长度的准确率-召回率曲线；其中，图(a)为图像检索文本任务下64位哈希码的准确率-召回率曲线，图(b)为图像检索文本任务下128位哈希码的准确率-召回率曲线，图(c)为文本检索图像任务下64位哈希码的准确率-召回率曲线，图(d)为文本检索图像任务下128位哈希码的准确率-召回率曲线；

图3为所有方法在Pascal数据集上64位和128位哈希码长度的准确率-召回率曲线；其中，图(a)为图像检索文本任务下64位哈希码的准确率-召回率曲线，图(b)为图像检索文本任务下128位哈希码的准确率-召回率曲线，图(c)为文本检索图像任务下64位哈希码的准确率-召回率曲线，图(d)为文本检索图像任务下128位哈希码的准确率-召回率曲线；

图4为所有方法在LabelMe和Pascal数据集上执行零样本跨模态哈希检索的mAP结果；图(a)为LabelMe数据集上图像检索文本任务的mAP结果，图(b)为LabelMe数据集上文本检索图像任务的mAP结果，图(c)为Pascal数据集上图像检索文本任务的mAP结果，图(d)为Pascal数据集上文本检索图像任务的mAP结果；

图5为本发明提出方法的整体流程图。

具体实施方式

下面结合附图对本发明的实施方式做进一步说明。

图1为基于类语义引导的跨模态哈希检索方法的框架图。为了便于解释，本发明设计的方法仅考虑最常见的两种模态(即文本和图像)的检索场景。

一种基于类语义引导的跨模态哈希检索方法，该方法主要由两步组成，分别为类语义引导的投影学习和哈希码学习。在第一步中，首先根据现成的word2vec模型，将类名转换成词向量，并构建类语义空间。然后，基于类标签语义引导的编码器-解码器范例学习得到具有辨别性的投影。在第二步中，首先利用上一步中学习到的投影，将原始数据投影到公共潜在语义空间。然后将不用模态的语义特征投影到汉明空间，同时保持模态内和模态间的相似性，并生成异构数据的二进制码。最终通过矩阵的运算可以学习到特定模态的哈希函数。

具体步骤如下：

步骤1、类语义引导的投影学习；

首先，设

和

表示描述同一对象的两个模态的训练特征，其中

表示实数集，d₁,d₂分别是图像和文本特征的维度，n是所有对象的数量。此外，将Y∈{0,1}^c×n定义为二进制标签矩阵，其中c是类别数。受word2vec模型挖掘语义关系的优越性能的启发，本发明考虑将每个类别嵌入到300维的词向量中，并构建类级语义空间，捕捉不同类别间的语义关联。因此，代替由0/1二进制形式描述标签的传统方法如矩阵Y，这里的标签矩阵由类语义矩阵

表示。为了描述方便，定义

为类语义矩阵，用来表示类级语义空间下的特征矩阵。

然后，提出基于类语义的编码器-解码器模型来学习不同模态的投影矩阵。具体为：通过将训练特征X₁和X₂映射到类级语义空间分别获得投影矩阵

和

同时，利用两个投影矩阵

和

将语义空间映射到原始特征空间。基于已有的工作，通过绑定权重来简化模型得到等式

和

其中上标T表示矩阵的转置。因此给定类语义矩阵S，该模型可以被实现，如公式(1)所示：

其中min(·)表示将公式最小化，||·||_F表示矩阵的Frobenius-范数(简称F-范数)，

表示F-范数的平方。此外，符号s.t.表示公式的约束条件。

考虑到上式中的硬约束W₁X₁＝S和W₂X₂＝S难以优化，因此通过松弛这两个约束，我们将重写的公式定义为J₁，用来表示类语义引导的投影学习的目标函数，公式(1)被重写如下所示：

其中，α₁和α₂表示相应项的权衡参数，分别用来均衡图像和文本模态的特征对学习投影矩阵的贡献程度。

步骤2、哈希码学习；

通过解决上一步公式(2)中的问题，可以获得从原始特征空间到公共潜在空间分别用于图像和文本的投影矩阵W₁和W₂。首先，基于矩阵W₁和W₂学习不同模态的潜在语义表示。然后，给定二进制码长度k，通过投影矩阵

将不同模态的潜在语义特征投影到k维公共空间

并量化到汉明空间生成哈希码。此外，引入一个正则化项R(·)来避免过拟合问题。因此，学习哈希码的目标函数可以陈述如下。

其中，矩阵

表示两个模态的k维公共特征，正则化项R(·)被定义为

在公式(3)中表示

此外，β₁和β₂表示相应项的权衡参数，分别用来平衡图像模态和文本模态的潜在语义特征对k维公共空间的影响程度。λ表示正则化项R(P)对本目标函数贡献程度的权衡参数。为了避免过拟合，上述公式(3)引入了正则化项R(·)，其中R(·)＝||||_F。最后，通过sign函数生成哈希码，可以将哈希码矩阵表示为B＝sign(H)。

最后，通过sign函数生成哈希码，可以得到哈希码矩阵Β∈{-1,1}^k×n，其计算公式为B＝sign(H)。其中，sign函数是一种符号函数，它的功能是取某个数的符号(正或负)。

步骤3、模态内和模态间的相似性保持；

为了学习更细粒度和具有辨别力的哈希码，本发明将模态内和模态间相似性保持嵌入到哈希码和哈希函数学习过程中。

首先，考虑保持模态内相似性。对于每个模态，利用它们的局部几何结构，构建最近邻矩阵A^(m)(m＝1,2)，其中m＝1表示图像模态，m＝2表示文本模态。最近邻矩阵的元素定义如下：

其中，N_p(·)被定义为p近邻集合，本发明将p定义为5。

表示模态m的第i个训练特征，

表示模态m的第j个训练特征。

然后，整合标签信息来保持模态间的相似性。因此，图像模态和文本模态之间的相似性矩阵A^inter的元素

被定义如下：

其中，

代表图像模态的第i个训练特征，

代表文本模态的第i个训练特征。

结合以上模态内和模态间的相似性矩阵，用于两个模态的公共特征矩阵H的总相似性保持被表示为以下公式(6)，并将该公式定义为J_se:

其中，tr(·)表示矩阵的逆，矩阵A^total＝A⁽¹⁾+A⁽²⁾+A^inter。D是对角矩阵，其元素值D_ii可以通过公式

计算得到，其中

表示矩阵A^total第i行第j列的元素值。矩阵L＝D-A^total表示图拉普拉斯矩阵。此外，h_i是矩阵H的第i(i∈[1,n])列，表示第i个训练对象的公共特征，h_j是矩阵H的第j(j∈[1,n])列，表示第j个训练对象的公共特征，n为所有训练对象的数量。∑表示求和符号，||·||表示向量的2-范数，||·||²表示2-范数的平方。

在哈希码的学习过程中，通过保持模态内和模态间的相似性，进一步增强了二进制码的辨别能力。

步骤4、总目标函数的构建和优化；

由于本发明提出的方法由两步的框架组成，因此也包括两个目标函数来分别对应这两步。

第一步是学习判别语义引导的投影，它的总目标函数表示为J₁，如公式(1)所示。为了优化J1，分别对矩阵W1和W2求导，令导数为0，然后可以得到：

可以看出，公式(7)中的两个等式都是众所周知的Sylvester等式，其形式为AW+WC+D＝0，在MATLAB中可以通过lyap函数求解。

在第二步中，结合公式(3)中的哈希码学习和公式(6)中的相似性嵌入，构成其目标函数如下：

其中，β₁,β₂,γ,λ表示相应项的权衡参数。具体地，β₁和β₂分别用来均衡图像模态和文本模态的潜在语义特征对k维公共特征的影响程度，γ表示模态内和模态间的相似度保持的贡献程度，λ表示正则化项R(P)对本目标函数的贡献程度。

由于很难直接对多个未知变量进行求导，因此这里采用迭代方法优化该目标函数J₂，具体步骤如下：

1)更新P。固定W₁,W₂和H，令

其中

表示求偏导，

表示求目标函数J₂对矩阵P的偏导数。通过计算可以得到：

其中，

代表n₁阶单位矩阵，这里n₁＝300，而上标-1表示矩阵的逆，上标T表示矩阵的转置。

2)更新H。固定W₁,W₂和P，令

其中

表示求目标函数J₂对矩阵H的偏导数。通过计算可以得到：

H＝(2β₁PW₁X₁+2β₂PW₂X₂)[2(β₁+β₂)I_n+γ(L^T+L)]^-1 (10)

其中，I_n表示n阶单位矩阵，n表示所有对象的数量。

3)收敛性判断。通过比较连续两次目标函数J₂的值是否满足如下公式(11)的收敛条件：

其中，err表示连续两次目标函数J₂的误差值，

表示本次的目标函数值，

表示上一次的目标函数值，ξ表示给定的阈值，这里将阈值ξ设为0.01。符号|·|表示绝对值。

如果满足收敛条件，当前所有矩阵值为最终值，即得到原始数据的哈希码矩阵B，以及投影矩阵W₁,W₂和P；否则，如果不满足收敛条件，更新目标函数值为当前计算得到的目标函数值，并重新执行1)至3)迭代更新矩阵。

当满足收敛条件后，可以进一步生成特定模态的哈希函数。具体地，给定图像模态的特征x₁，其哈希函数h₁(x₁)表示为h₁(x₁)＝sign(PW₁x₁)，h₁(·)代表图像模态的哈希函数；类似地，给定文本模态的特征x₂，其哈希函数表示为h₂(x₂)＝sign(PW₂x₂)，h₂(·)代表图像模态的哈希函数。

此外，如前所述，本发明提供的基于类语义引导的跨模态哈希检索方法还可以解决不可见域的检索问题。而在不可见域的检索问题上，本方法的目标函数与前面所有公式一致。与传统跨模态哈希方法的唯一区别是：查询集包含的类别与训练集完全不同，即查询数据是训练时从未出现过的类别。

验证结果

为了验证本发明提出方法的性能，首先在两个公共基准数据集LabelMe和Pascal上执行大量实验，并与几种先进的跨模态哈希方法进行比较。此外，进行了扩展实验，来验证提出的方法在零样本跨模态检索任务(即不可见域的检索问题)中的实用性和有效性。

跨模态哈希方法的性能在两个不同的检索任务上被测量，包括‘图像检索文本’和‘文本检索图像’。在这两个任务中，采用两种类型的评估指标，即平均准确率均值(meanAverage Precision，mAP)，准确率-召回率曲线(Precision-Recall Curve)。此外，将提出的方法与六种先进的跨模态哈希方法进行了比较，包括共矩阵分解哈希(CMFH)，语义相关最大化哈希(SCM_Orth和SCM_Seq)，模态内和模态间相似性保持哈希(IISPH)，监督矩阵分解哈希(SMFH)。对于不可见域的扩展实验，还额外添加了两个零样本哈希方法，即零样本哈希(ZSH)和属性哈希(AH)，以全面评估检索性能。

本发明提出的方法(SeGH)在LabelMe和Pascal数据集上的mAP性能比较结果如表1和表2所示，其中包括哈希码长度为8比特、16比特、32比特、64比特和128比特。

表1 LabelMe数据集上的mAP结果比较

表2 Pascal数据集上的mAP结果比较

从表1和表2中，可以很容易观察到本发明提出的方法在LabelMe和Pascal数据集的两个检索任务上都获得了最佳的mAP分数，这证明了本发明的有效性和优势。特别地，在Pascal数据集的实验中，与第二种最佳方法相比，SeGH在‘文本检索图像’的任务中获得了20.5％至27％的显着增量。此外，可以注意到，大多数方法的‘文本检索图像’任务的mAP分数高于‘图像检索文本’任务，这意味着捕获图像中的潜在语义信息比文本更难。

此外，实验在两个数据集上对所有方法绘制了64比特和128比特的哈希码长度时的准确率-召回率曲线，LabelMe数据集参见附图2，Pascal数据集参见附图3。从图2中可以看出，本发明提出的方法明显在两个任务上优于所有的基线方法，清晰地表现出本方法的优势。此外，可以发现随着哈希码长度的增加，提出方法的性能表现更好，这是因为更多的判别信息被编码到二进制码中。从图3中可以观察到，除LSSH之外，提出的方法与其他基线相比，都表现出优异的性能，这与LabelMe数据集上的结果一致。值得注意的是，无监督方法LSSH几乎可以在Pascal数据集上与所有监督方法相比较甚至优于它们，而本发明提出的SeGH仍然可以在‘文本检索图像’任务中获得最佳结果。然而，在‘图像检索文本’任务的最开始阶段，LSSH略优于SeGH。根据分析和结果可推测，对于Pascal数据集来说，限制哈希码的大量标签信息对Pascal数据集可能过于严格。

最后，为了验证本发明提出的方法对零样本跨模态检索任务的有效性，采用mAP指标执行了扩展实验来评估不可见域的检索性能。所有比较方法在LabelMe和Pascal数据集上的mAP结果如附图4所示。可以看出，本发明提出的方法(SeGH)在所有数据集的所有哈希码长度下都实现了最高的mAP值，而其他方法由于无法捕捉可见类和不可见类的共同特征，表现不佳。此外，单模态零样本哈希方法(包括AH和ZSH)在LabelMe数据集的所有任务上都显著优于一些监督的跨模式哈希方法，如SCM_Orth和SCM_Seq，这证实了传统的闭集检索方法在处理不可见类的任务时可能遭受到严重的性能下降，也表明所提出的方法具有应用于零样本问题的能力。

综上所示，考虑到本发明提出的方法在所有实验中的优势，可以得出，所提出的方法具有处理跨模态检索任务和零样本跨模态检索任务的能力，并且可以与几种最先进的方法竞争，证明本方法的有效性和优越性。

以上所述实施例仅表达本发明的实施方式，但并不能因此而理解为对本发明专利的范围的限制，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种基于类语义引导的跨模态哈希检索方法，其特征在于，所述的跨模态哈希检索方法包括以下步骤：

步骤1、类语义引导的投影学习；

首先，设

和

表示描述同一对象的两个模态的训练特征，其中

表示实数集，d₁,d₂分别是图像和文本特征的维度，n是所有对象的数量；此外，将Y∈{0,1}^c×n定义为二进制标签矩阵，其中c是类别数；根据word2vec模型生成类名的语义表示，将每个类别嵌入到300维的词向量中，并构建类级语义空间，捕捉不同类别间的语义关联；定义

为类语义矩阵，用来表示类级语义空间下的特征矩阵；

然后，提出基于类语义的编码器-解码器模型来学习不同模态的投影矩阵；具体为：通过将训练特征X₁和X₂映射到类级语义空间分别获得投影矩阵

和

同时，利用两个投影矩阵

和

将语义空间映射到原始特征空间；通过绑定权重来简化模型得到等式

和

因此给定类语义矩阵S，该模型可以被实现，如公式(1)所示：

通过松弛两个约束W₁X₁＝S和W₂X₂＝S，公式(1)被重写为以下公式，将重写的公式定义为J₁，用来表示类语义引导的投影学习的目标函数；

其中，α₁和α₂表示相应项的权衡参数，分别用来均衡图像和文本模态的特征对学习投影矩阵的贡献程度；

步骤2、哈希码学习；

通过解决上一步公式(2)中的问题，获得从原始特征空间到公共潜在空间分别用于图像和文本的投影矩阵W₁和W₂；首先，基于矩阵W₁和W₂学习不同模态的潜在语义表示；然后，给定二进制码长度k，通过投影矩阵

将不同模态的潜在语义特征投影到k维公共空间，并量化至汉明空间生成哈希码；此外，引入一个正则化项R(·)来避免过拟合问题；因此，学习哈希码的目标函数为：

其中，矩阵

表示两个模态的k维公共特征，正则化项R(·)被定义为

在公式(3)中表示

此外，β₁和β₂表示相应项的权衡参数，分别用来平衡图像模态和文本模态的潜在语义特征对k维公共空间的影响程度；λ表示正则化项R(P)对本目标函数贡献程度的权衡参数；

最后，通过sign函数生成哈希码，可以得到哈希码矩阵Β∈{-1,1}^k×n，其计算公式为B＝sign(H)；

步骤3、模态内和模态间的相似性保持；

为了学习更细粒度和具有辨别力的哈希码，将模态内和模态间相似性保持嵌入到哈希码和哈希函数学习过程中；

首先，考虑保持模态内相似性；对于每个模态，利用它们的局部几何结构，构建最近邻矩阵A^(m)(m＝1,2)，其中m＝1表示图像模态，m＝2表示文本模态；最近邻矩阵的元素

定义如下：

其中，N_p(·)被定义为p近邻集合，将p定义为5；

表示模态m的第i个训练特征，

表示模态m的第j个训练特征；

然后，整合标签信息来保持模态间的相似性；因此，图像模态和文本模态之间的相似性矩阵A^inter的元素

被定义如下：

其中，

代表图像模态的第i个训练特征，

代表文本模态的第i个训练特征；

其中，矩阵A^total＝A⁽¹⁾+A⁽²⁾+A^inter；D是对角矩阵，其元素值D_ii可以通过公式

计算得到，其中

表示矩阵A^total第i行第j列的元素值；矩阵L＝D-A^total表示图拉普拉斯矩阵；此外，h_i是矩阵H的第i(i∈[1,n])列，表示第i个训练对象的公共特征，h_j是矩阵H的第j(j∈[1,n])列，表示第j个训练对象的公共特征，n为所有训练对象的数量；

在哈希码的学习过程中，通过保持模态内和模态间的相似性，进一步增强二进制码的辨别能力；

步骤4、总目标函数的构建和优化；

由于提出的方法由两步的框架组成，因此也包括两个目标函数来分别对应这两步；

第一步是学习判别语义引导的投影，它的总目标函数表示为J₁，如公式(2)所示；为了优化J₁，分别对矩阵W₁和W₂求导后，通过lyap函数求解；

在第二步中，结合公式(3)中的哈希码学习和公式(6)中的相似性嵌入，其构成的目标函数被定义为J₂，如下所示：

其中，β₁,β₂,γ,λ表示相应项的权衡参数；具体地，β₁和β₂分别用来均衡图像模态和文本模态的潜在语义特征对k维公共特征的影响程度，γ表示模态内和模态间的相似度保持的贡献程度，λ表示正则化项R(P)对本目标函数的贡献程度；

为了优化目标函数J₂，采用迭代方式更新矩阵，具体步骤如下：

1)更新P；固定W₁,W₂和H，令

通过计算得到：

其中，

代表n₁阶单位矩阵，这里n₁＝300；

2)更新H；固定W₁,W₂和P，令

通过计算得到：

H＝(2β₁PW₁X₁+2β₂PW₂X₂)[2(β₁+β₂)I_n+γ(L^T+L)]^-1 (10)

其中，I_n表示n阶单位矩阵，n表示所有对象的数量；

3)收敛性判断；通过比较连续两次目标函数J₂的值是否满足如下公式(11)的收敛条件：

其中，err表示连续两次目标函数J₂的误差值，

表示本次的目标函数值，

表示上一次的目标函数值，ξ表示给定的阈值；

如果满足收敛条件，当前所有矩阵值为最终值，即得到原始数据的哈希码矩阵B，以及投影矩阵W₁,W₂和P；否则，如果不满足收敛条件，更新目标函数值为当前计算得到的目标函数值，并重新执行1)至3)迭代更新矩阵；

当满足收敛条件后，进一步生成特定模态的哈希函数：给定图像模态的特征x₁，其哈希函数h₁(x₁)表示为h₁(x₁)＝sign(PW₁x₁)，h₁(·)代表图像模态的哈希函数；类似地，给定文本模态的特征x₂，其哈希函数表示为h₂(x₂)＝sign(PW₂x₂)，h₂(·)代表图像模态的哈希函数。

2.根据权利要求1所述的一种基于类语义引导的跨模态哈希检索方法，其特征在于，所述的公式(11)中的阈值ξ设为0.01。

3.根据权利要求1或2所述的一种基于类语义引导的跨模态哈希检索方法，其特征在于，所述的跨模态哈希检索方法还可以用于解决不可见域的检索问题。