CN111461157B

CN111461157B - 一种基于自学习的跨模态哈希检索方法

Info

Publication number: CN111461157B
Application number: CN201910180371.5A
Authority: CN
Inventors: 陈志奎; 钟芳明; 杜佳宁; 仇希如
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-01-22
Filing date: 2019-03-11
Publication date: 2022-11-18
Anticipated expiration: 2039-03-11
Also published as: CN111461157A

Abstract

一种基于自学习的跨模态哈希检索方法，属于计算机技术领域，步骤为：1)通过共矩阵分解技术学习不同模态的潜在公共语义特征；2)通过正交变换和量化过程学习到统一的、具有辨别性的二进制码；3)将模态内和模态间的相似度保持整合为图正则化项，并嵌入到二进制码的生成过程中；4)计算和优化目标函数，迭代更新多个矩阵变量直至满足收敛条件；5)采用自学框架完成特定模态哈希函数的学习。本发明针对阈值策略造成大量化误差的问题，将不同模态公共表示的二进制编码损失最小化，同时嵌入模态内部和模态间的相似性，并引入自学习哈希方案学习到更具有辨别性的哈希函数。能够有效减小二值量化阶段的编码误差，提高哈希码的质量和跨模态检索的性能。

Description

一种基于自学习的跨模态哈希检索方法

技术领域

本发明属于计算机技术领域，涉及一种基于自学习的跨模态哈希检索方法。

背景技术

随着信息检索技术的快速发展和多种数字设备的普及，互联网中出现大量多媒体数据，如文本、图像、视频等。这些多媒体数据不仅具有相当大的数量，还包含多种不同维度的模态。由于不同模态的数据通常描述了同一个物体或事件，如何利用其中一种模态数据来检索与之相关的其他模态结果，已经成为需要迫切解决的问题。近年来，许多研究者已经投入到跨模态检索领域，并取得了很大的成功。然而，当数据维度较高、规模较大时，大多数跨模态检索方法的检索成本会非常大。为了加快检索速度，基于哈希的跨模态检索(即跨模态哈希)在多媒体领域引起了越来越多的关注，它将不同模态的高维数据转换成紧凑的二进制码，并保持原始数据的流形结构，有效地解决了大规模多媒体数据的检索问题。由于不同模态之间不一致的特征维度和语义差异，跨模态哈希仍然是一项非常具有挑战性的任务。

近年来，大量的研究工作主要关注于消除不同模态之间的语义鸿沟。根据是否使用标签信息，跨模态哈希被分为无监督方法和监督方法。无监督的方法，例如跨媒体哈希(IMH)、潜在语义稀疏哈希(LSSH)、共矩阵分解哈希(CMFH)，仅利用训练数据的共现信息来挖掘不同模态的潜在特征。不同于无监督的方法，监督方法充分利用标签信息来保持语义相似性，通常可以有效减小语义差距，并得到更好的检索结果。代表性的监督跨模态哈希方法包括跨模态相似性敏感哈希(CMSSH)、语义相关最大化(SCM)、监督矩阵分解哈希(SMFH)。

然而，无论是无监督哈希方法还是监督的哈希方法，都具有一个共同的限制：在量化阶段，它们大多数都忽略了二值约束，而采用简单的阈值策略来生成最终的二进制哈希码，这将导致大量化误差，同时会降低二进制码的辨别能力。一些工作也采用了sigmoid或者tanh松弛来代替sign函数，从而避免了大量化误差。它们的结果也表明降低量化误差对提高哈希码的质量至关重要。

因此，本发明采用自学习哈希方案，主要考虑最小化公共表示的编码损失，发明了一种基于自学习的跨模态哈希检索方法。

发明内容

本发明针对两个模态(图像和文本)之间的交叉检索，探究一种基于自学习的跨模态哈希检索方法。该方法将语义特征学习和二值量化过程相结合，不仅捕获到各模态数据的潜在语义信息，而且使得二进制码的量化误差最小。此外，本发明引入自学习哈希方案来学习哈希函数，同时借助支持向量机二分类的优势，学习到更具有辨别力的哈希函数和哈希码，最终提高跨模态检索的准确率和召回率。

为了达到上述目的，本发明采用的技术方案为：

一种基于自学习的跨模态哈希检索方法，包括以下步骤：

步骤1、通过共矩阵分解技术学习不同模态的潜在公共语义特征

步骤2、通过正交变换和量化过程学习统一的、具有辨别性的二进制码；

步骤3、将模态内和模态间的相似度保持整合为图正则化项，并嵌入到二进制码的生成过程中；

步骤4、计算和优化目标函数，迭代更新多个矩阵变量直至满足收敛条件；

步骤5、采用自学框架完成特定模态哈希函数的学习。

本发明的有益效果为：本发明主要针对阈值策略造成大量化误差的问题，考虑结合语义特征学习和二值编码过程，将不同模态公共表示的二进制编码损失最小化，同时嵌入模态内部和模态间的相似性，并引入自学习哈希方案学习到更具有辨别性的哈希函数。实验表明，本发明有效减小了二值量化阶段的编码误差，提高了哈希码的质量和跨模态检索的性能。

附图说明

图1基于自学习的跨模态哈希检索方法(STCMH)框架图；

图2所有方法在Wiki数据集64位哈希码长度的准确率-召回率曲线和topN-准确率曲线。其中，图(a)为图像检索文本任务下的准确率-召回率曲线，图(b)为文本检索图像任务下的准确率-召回率曲线，图(c)为图像检索文本任务下的topN-准确率曲线，图(d)为文本检索图像任务下的topN-准确率曲线；

图3所有方法在Pascal数据集64位哈希码长度的准确率-召回率曲线和topN-准确率曲线。图(a)为图像检索文本任务下的准确率-召回率曲线，图(b)为文本检索图像任务下的准确率-召回率曲线，图(c)为图像检索文本任务下的topN-准确率曲线，图(d)为文本检索图像任务下的topN-准确率曲线；

图4为本发明提出方法的流程图。

具体实施方式

下面结合附图对本发明的实施方式做进一步说明。

图1为基于自学习的跨模态哈希检索方法的框架图。为了描述简单，本发明使用最常见的两种模态(文本和图像)作为跨模态检索的样本。首先采用共矩阵分解技术将不同模态的特征数据投影到公共潜在语义空间。其次，通过正交变换技术将公共语义空间旋转至不同维度数据的方差最小，使得二值量化损失达到最小化，从而可以将相同类别但空间不相关的样本进一步转换为相似的二进制码。此外，考虑保持模态内和模态间的相似度。对于模态内相似度，利用局部几何结构进行学习；对于模态间相似度，利用标签信息来定义学习。之后，在自学习哈希方案的引导下，将哈希函数的学习视为一个二进制分类问题。因此，基于训练数据和学习到的二进制码，可以训练得到一组分类器，将其整合学习后生成哈希函数。最后，查询样本可以通过哈希函数直接生成其对应的二进制码，之后计算它与数据库之间的汉明距离来获得最终的跨模态检索结果。

具体步骤如下：

步骤1、学习潜在语义特征；

具有语义信息的公共子空间学习被证明可以在跨模态检索中产生更好的结果，其中包括两个原因。首先，它提取到高级语义特征，消除了冗余信息并突出共同特征。其次，分享共同主题或概念的相关数据彼此接近，从而减少了语义鸿沟。矩阵分解是挖掘语义概念和维度约简的卓越技术之一，已经广泛应用于模式识别领域。类似地，共矩阵分解提供了一种简单而有效的方法来提取多模态数据的公共语义。遵循这个想法，本发明采用共矩阵分解技术学习异构数据的公共语义特征。假定训练集

是具有两种模态的n个实例，其中s_i表示第i个实例，n表示所有实例的数量。对于第i(i＝1,...,n)个实例s_i＝{x_i,y_i}，x_i表示d₁维的图像特征向量，y_i表示d₂维的文本特征向量，d₁和d₂分别表示图像特征向量和文本特征向量的维度，通常d₁≠d₂。这里将图像模态的训练特征表示为

文本模态的训练特征为

其中

表示实数集。针对训练特征X和Y，将它们联合分解如公式(1)所示，并将该公式定义为O₁：

其中，矩阵

和

分别代表图像模态和文本模态的分解因子，其中k是潜在因子的数量，同时也表示哈希码长度。

代表两个模态的公共潜在语义表示，而V^T表示矩阵V的转置，其中上标T指矩阵的转置。权衡参数α用于衡量图像模态和文本模态的重要性。||·||_F表示矩阵的Frobenius-范数(简称F-范数)，

表示F-范数的平方。

步骤2、二值编码过程；

在之前的跨模态哈希工作中，通常使用简单、直接的阈值策略(如sign函数)来生成二进制码，这会导致大量化误差，并可能改变公共语义空间的局部结构。因此，为了减轻这个问题，本发明对学习到的公共语义空间执行正交变换，来获得具有最小语义损失的二进制码。给定潜在公共潜在语义表示V，二值编码过程通过优化如下公式(2)：

其中，

表示原始数据的哈希码矩阵。

代表正交变换矩阵，它建立公共语义特征和二进制哈希码间的关系，平衡了公共语义潜在表示V中不同维度数据的方差，使得相同类别但具有不相关空间特征的数据被编码成相似的二进制码，并且相应地最小化语义量化损失，Q^T表示矩阵Q的转置。I_k代表k阶单位矩阵。为了表示方便，将公式

定义为O₂，用来表示二值编码过程。min(·)表示最小化公式，符号s.t.表示公式的约束条件。

步骤3、图正则化嵌入；

为了使学习到的二进制码更有辨别性，本发明引入原始数据的局部结构和标签信息，考虑在二进制码的生成和哈希函数的学习过程中同时保持模态内和模态间的相似性。

1)模态内相似性

模态内相似性通过局部几何结构来度量，首先捕捉每个模态的近邻关系，然后构建p近邻模型，选取前p项作为最相近的样本，其中p表示选取最近邻样本的数量。

图像模态的相似性矩阵

被构建，且该相似性矩阵的元素

定义如下：

其中，x_i为图像模态的第i个训练特征，x_j为图像模态的第j个训练特征。N_p(·)代表p近邻集合，p的取值可以按照需求设定，一般将p设置为[5,10]，优选为5。

与此类似，构建文本模态的相似性矩阵

并定义该相似性矩阵的元素

为：

其中，y_i为文本模态的第i个训练特征，y_j为文本模态的第j个训练特征。N_p(·)代表p近邻集合，一般将p设置为[5,10]，优选为5。

2)模态间相似性

由于同一个对象不同模态的特征共享相同的语义信息，而标签信息代表着不同模态是否处于同一个类别，因此模态间的相似性可以通过标签信息来度量。给定训练数据的标签矩阵

c表示类别总数。文本模态与图像模态之间的相似性度量

如公式(5)所示。

其中，x_i为图像模态的第i个训练特征，y_j为文本模态的第j个训练特征。

为了在公共潜在语义空间中保持两种模态间的标签一致性，同时又保持每个模态内的相似性，构建了图正则化嵌入项，并将该项用符号O₃表示，定义如公式(6)所示。

其中，矩阵

由第i行第j列的元素w_ij组成，元素

表示模态t(t＝1表示图像模态，t＝2表示文本模态)的模态内相似性矩阵的元素；

是对角矩阵，其对角元素值d_ii是矩阵W的列和(或行和)，即d_ii＝∑_jw_ij；L＝D-W被称为图拉普拉斯矩阵。

表示原始数据的哈希码矩阵，

代表矩阵B的转置；向量

指矩阵B^T的第i列，表示第i个训练实例的哈希码，而

指矩阵B^T的第j列，表示第j个训练实例的哈希码，其中i,j∈[1,n]。此外，Tr(·)代表矩阵的迹，∑表示求和符号，||·||表示向量的2-范数，||·||²表示2-范数的平方。

因此，通过描述局部结构和标签信息，获得了图正则化嵌入项O₃，进一步增强了二进制码的表示辨别能力。

步骤4、计算和优化目标函数；

通过整合公式(1)中的语义子空间项O₁，公式(2)的二值编码O₂和公式(6)中的图正则化嵌入项O₃，以及为了避免过拟合问题增加的一个正则化项R(·)，共同组成了总目标函数，我们将其表示为O(U₁,U₂,V,B,Q)，如公式(7)所示。

其中，α,μ,γ,λ表示相应项的权衡参数。具体地，参数α用于衡量图像模态和文本模态的重要性，参数μ用来均衡二值量化项对目标函数的影响程度，参数γ表示图正则化项对目标函数的贡献程度，参数λ表示正则化项R(U₁,U₂,V,B)对本目标函数的贡献程度。此外，R(U₁,U₂,V,B)是一个正则化项，用来避免过拟合问题，其中R(·)被定义为

因此公式(7)中的正则化项被表示为

矩阵的上标T都表示矩阵的转置。

为了优化和求解目标函数，需要对它的五个矩阵变量U₁,U₂,V,B,Q求导，优化采用固定其他四个矩阵变量，求解剩余一个矩阵变量的方式。即该优化问题通过迭代地遵循以下列出的四个步骤来解决，直到满足收敛条件，进一步得到最终的哈希码矩阵B，并将其作为检索数据库，用于下一步骤的计算。优化目标函数的具体步骤如下：

1)更新两个模态的分解因子U_t(t＝1,2)，其中t表示模态t(t＝1为图像模态，t＝2为文本模态)。固定V,B,Q，令

其中

表示求偏导，

表示求目标函数O(U₁,U₂,V,B,Q)对矩阵U_t的偏导数，O是目标函数O(U₁,U₂,V,B,Q)的简写表述。通过计算可以得到：

其中，I_k代表k阶单位矩阵，上标-1表示矩阵的逆。

2)更新B。固定U_t(t＝1,2),V,Q，令

其中

表示求目标函数O(U₁,U₂,V,B,Q)对矩阵B的偏导数。通过计算可以得到：

B＝2β(2(β+λ)I_n+γ(L+L^T))^-1VQ (9)

其中，I_n代表n阶单位矩阵，

代表图拉普拉斯矩阵，L^T代表矩阵L的转置，上标-1表示矩阵的逆。

3)更新V。固定U_t(t＝1,2),B,Q，令

其中

表示求目标函数O(U₁,U₂,V,B,Q)对矩阵V的偏导数。通过计算可以得到：

V＝(αX^TU₁+(1-α)Y^TU₂+βBQ^T)(αU₁ ^TU₁+(1-α)U₂ ^TU₂+(β+λ)I_k)^-1 (10)

其中，上标T表示矩阵的转置，上标-1表示矩阵的逆。

4)更新Q。固定U_t(t＝1,2),V,B，令

其中

表示求目标函数O(U₁,U₂,V,B,Q)对矩阵Q的偏导数。这里的优化是经典的正交普鲁克斯特问题，一般采取奇异值分解(SVD)的方法解决。首先计算矩阵B^T和V的乘积，并通过奇异值分解方法将乘积结果B^TV分解为M₁AM₂ ^T，之后通过公式(11)获得矩阵Q：

Q＝M₂M₁ ^T (11)

其中，

和

表示正交矩阵，矩阵A为对角矩阵，被定义为A＝diag(σ₁,σ₂,...,σ_q)，diag(σ₁,σ₂,...,σ_q)表示矩阵的对角线元素为σ₁,σ₂,...,σ_q，σ_r(i＝1,2,..,q)为矩阵B^TV的非零奇异值。

5)收敛性判断。通过比较连续两次目标函数O的值是否满足如下公式(12)的收敛条件，O是目标函数O(U₁,U₂,V,B,Q)的简称。

err＝|O^cur-O^pre|≤ξ (12)

其中，err表示连续两次目标函数O的误差值，O^cur表示本次的目标函数值，O^pre表示上一次的目标函数值，ξ表示给定的阈值，这里将阈值ξ设为0.01。符号|·|表示绝对值。

如果满足收敛条件，则通过如下公式(13)输出最终的哈希码矩阵B。

B＝sign(2β(2(β+λ)I_n+γ(L+L^T))^-1VQ) (13)

其中，sign函数是一种符号函数，用来取某个数的符号(正或负)。

否则，如果不满足收敛条件，更新目标函数值为当前计算得到的目标函数值，并重新执行1)至5)迭代更新矩阵。

步骤5、学习哈希函数；

大多数跨模态哈希方法通常学习一个线性或非线性投影矩阵，然后采用阈值函数投影到二值范围，从而生成哈希函数。与这类传统方法不同，本发明以一种自学框架完成哈希函数的学习，采用直接的方法得到训练集之外样本相应的二进制哈希码。其主要思想是将哈希函数学习视为二分类问题，采用支持向量机方法为每个模态训练k个二分类模型，其中k为哈希码长度。

具体地，首先将训练特征X和Y分别作为输入，将上一步骤学习到的哈希码b_l作为标签，通过线性支持向量机训练k个二分类模型

和

其中b_l代表矩阵B的第l列，

表示图像模态的第l个二分类模型，

表示文本模态的第l个二分类模型，且l＝1,...,k。

其次，对于每个模态(图像和文本)，将其对应的k个二分类模型

或

整合，则生成最终的哈希函数。因此，图像模态的哈希函数f_x表示为

类似地，文本模态的哈希函数f_y表示为

因此，对于一个新查询的图像特征x_z或文本特征y_z，采用上述对应模态的哈希函数f_x或f_y，可以预测得到其k位哈希码h_z，即h_z＝f_x(x_z)或h_z＝f_y(y_z)，其中h_z代表新查询为图像模态或文本模态的哈希码，f_x(x_z)表示计算图像特征x_z的哈希函数，f_y(y_z)表示计算文本特征y_z的哈希函数。最后，通过与数据库的哈希码码执行异或操作，则能够获取与查询最相关的另一个模态的结果。

验证结果：

在本发明的实验中，选择应用广泛的两个公开数据集Wiki和Pascal来验证本发明的有效性。评价的标准包括平均准确率均值(mean Average Precision，mAP)，准确率-召回率曲线(Precision-Recall Curve)和topN-准确率曲线(topN-precision Curve)。此外，采用6个优秀的跨模态哈希方法作为基线，与本文方法进行对比，具体包括跨视图哈希(CVH)，共矩阵分解哈希(CMFH)，语义相关最大化哈希(SCM_Orth和SCM_Seq)，潜在语义稀疏哈希(LSSH)，监督矩阵分解哈希(SMFH)。

本发明提出的方法(STCMH)在Wiki和Pascal数据集上的mAP性能比较结果如表1和表2所示，共包含图像检索文本和文本检索图像两个任务。

表1 Wiki数据集上的mAP结果比较

表2 Pascal数据集上的mAP结果比较

从表1和表2中，可以观察到本发明提出的方法在Wiki和Pascal数据集的两个任务上都优于所有基线方法，这证明了本发明的有效性和优势。此外，随着哈希码长度的增加，某些方法如CVH和SCM_Orth的性能在一定程度上有所降低，而本发明提出的方法仍然会获得更好的mAP值。

此外，为了清晰地显示本发明提出的方法和基线方法的整体变化，实验在Wiki和Pascal数据集上对所有方法绘制了64位哈希码长度时准确率-召回率曲线和topN-准确率曲线，参见附图2和附图3。从图2和图3中，可以发现本发明提出的方法要明显优于其他方法，清楚地表示出本方法的优势。可以注意到，Pascal数据集中无监督方法LSSH的性能与监督方法SMFH相当甚至更好，而本发明提出的方法仍然达到了所有方法中的最佳性能，进一步说明了本发明提出方法的有效性。

Claims

1.一种基于自学习的跨模态哈希检索方法，其特征在于，所述的跨模态哈希检索方法包括以下步骤：

步骤1、学习潜在语义特征；

采用共矩阵分解技术学习异构数据的公共语义特征；假定训练集

是具有两种模态的n个实例，其中s_i表示第i个实例，n表示所有实例的数量；对于第i(i＝1,...,n)个实例s_i＝{x_i,y_i}，x_i表示d₁维的图像特征向量，y_i表示d₂维的文本特征向量，d₁和d₂分别表示图像特征向量和文本特征向量的维度，通常d₁≠d₂；这里将图像模态的训练特征表示为

文本模态的训练特征为

其中

表示实数集；针对训练特征X和Y，将它们联合分解如公式(1)所示，并将该公式定义为O₁：

其中，矩阵

和

分别代表图像模态和文本模态的分解因子，其中k是潜在因子的数量，同时也表示哈希码长度；

代表两个模态的公共潜在语义表示；权衡参数α用于衡量图像模态和文本模态的重要性；

步骤2、二值编码过程；

对学习到的公共语义空间执行正交变换，获得具有最小语义损失的二进制码；给定潜在公共潜在语义表示V，二值编码过程通过优化如下公式(2)：

其中，

表示原始数据的哈希码矩阵；

代表正交变换矩阵，它建立公共语义特征和二进制哈希码间的关系，平衡公共语义潜在表示V中不同维度数据的方差，使得相同类别但具有不相关空间特征的数据被编码成相似的二进制码，并且相应地最小化语义量化损失；I_k代表k阶单位矩阵；将公式

定义为O₂，用来表示二值编码过程；

步骤3、图正则化嵌入；

为了使学习到的二进制码更有辨别性，引入原始数据的局部结构和标签信息，考虑在二进制码的生成和哈希函数的学习过程中同时保持模态内和模态间的相似性；

1)模态内相似性

模态内相似性通过局部几何结构来度量，首先捕捉每个模态的近邻关系，然后构建p近邻模型，选取前p项作为最相近的样本，其中p表示选取最近邻样本的数量；

图像模态的相似性矩阵

被构建，且该相似性矩阵的元素

定义如下：

其中，x_i为图像模态的第i个训练特征，x_j为图像模态的第j个训练特征；N_p(·)代表p近邻集合，p的取值设置为[5,10]；

与此类似，构建文本模态的相似性矩阵

并定义该相似性矩阵的元素

为：

其中，y_i为文本模态的第i个训练特征，y_j为文本模态的第j个训练特征；N_p(·)代表p近邻集合，p的取值设置为[5,10]；

2)模态间相似性

模态间的相似性通过标签信息度量；给定训练数据的标签矩阵

c表示类别总数；文本模态与图像模态之间的相似性度量

如公式(5)所示；

其中，x_i为图像模态的第i个训练特征，y_j为文本模态的第j个训练特征；

为了在公共潜在语义空间中保持两种模态间的标签一致性，同时又保持每个模态内的相似性，构建图正则化嵌入项，并将该项用符号O₃表示，定义如公式(6)所示；

其中，矩阵

由第i行第j列的元素w_ij组成，元素

是对角矩阵，其对角元素值d_ii是矩阵W的列和(或行和)，即d_ii＝∑_jw_ij；L＝D-W被称为图拉普拉斯矩阵；

表示原始数据的哈希码矩阵；向量

指矩阵B^T的第i列，表示第i个训练实例的哈希码，而

指矩阵B^T的第j列，表示第j个训练实例的哈希码，其中i,j∈[1,n]；

步骤4、计算和优化目标函数；

通过整合公式(1)中的语义子空间项O₁，公式(2)的二值编码项O₂和公式(6)中的图正则化嵌入项O₃，以及一个正则化项，共同组成总目标函数，将其表示为O(U₁,U₂,V,B,Q)，如公式(7)所示；

其中，α,μ,γ,λ表示相应项的权衡参数；具体地，参数α用于衡量图像模态和文本模态的重要性，参数μ用来均衡二值量化项对目标函数的影响程度，参数γ表示图正则化项对目标函数的贡献程度，参数λ表示正则化项R(U₁,U₂,V,B)对本目标函数的贡献程度；此外，R(U₁,U₂,V,B)是一个正则化项，用来避免过拟合问题，其中R(·)被定义为

因此公式(7)中的正则化项被表示为

该目标函数的优化求解问题通过迭代地遵循以下列出的四个步骤来解决，直到满足收敛条件，进一步得到最终的哈希码矩阵B，并将其作为检索数据库，用于下一步骤的计算；优化目标函数的步骤如下：

1)更新两个模态的分解因子U_t(t＝1,2)，其中t表示模态t(t＝1为图像模态，t＝2为文本模态)；固定V,B,Q，令

O是目标函数O(U₁,U₂,V,B,Q)的简写表述；通过计算得到：

其中，I_k代表k阶单位矩阵；

2)更新B；固定U_t(t＝1,2),V,Q，令

通过计算得到：

B＝2β(2(β+λ)I_n+γ(L+L^T))^-1VQ (9)

其中，I_n代表n阶单位矩阵，

代表图拉普拉斯矩阵；

3)更新V；固定U_t(t＝1,2),B,Q，令

通过计算得到：

4)更新Q；固定U_t(t＝1,2),V,B，令

这里的优化是经典的正交普鲁克斯特问题，采取奇异值分解SVD的方法解决；首先计算矩阵B^T和V的乘积，并通过奇异值分解方法将乘积结果B^TV分解为M₁AM₂ ^T，之后通过公式(11)获得矩阵Q：

Q＝M₂M₁ ^T (11)

其中，

和

表示正交矩阵，矩阵A为对角矩阵，被定义为A＝diag(σ₁,σ₂,...,σ_q)，diag(σ₁,σ₂,...,σ_q)表示矩阵的对角线元素为σ₁,σ₂,...,σ_q，σ_r(i＝1,2,..,q)为矩阵B^TV的非零奇异值；

5)收敛性判断；通过比较连续两次目标函数O的值是否满足如下公式(12)的收敛条件，O是目标函数O(U₁,U₂,V,B,Q)的简称；

err＝|O^cur-O^pre|≤ξ (12)

其中，err表示连续两次目标函数O的误差值，O^cur表示本次的目标函数值，O^pre表示上一次的目标函数值，ξ表示给定的阈值；

如果满足收敛条件，则通过如下公式(13)输出最终的哈希码矩阵B；

B＝sign(2β(2(β+λ)I_n+γ(L+L^T))^-1VQ) (13)

否则，如果不满足收敛条件，更新目标函数值为当前计算得到的目标函数值，并重新执行1)至5)迭代更新矩阵；

步骤5、学习哈希函数；

以一种自学框架完成哈希函数的学习，将哈希函数学习视为二分类问题，采用支持向量机方法为每个模态训练k个二分类模型，其中k为哈希码长度；具体地：

首先，将训练特征X和Y分别作为输入，将上一步骤学习到的哈希码b_l作为标签，通过线性支持向量机训练k个二分类模型

和

其中b_l代表矩阵B的第l列，

表示图像模态的第l个二分类模型，

表示文本模态的第l个二分类模型，且l＝1,...,k；

或

整合，则生成最终的哈希函数；因此，图像模态的哈希函数f_x表示为

类似地，文本模态的哈希函数f_y表示为

因此，对于一个新查询的图像特征x_z或文本特征y_z，采用上述对应模态的哈希函数f_x或f_y，可以预测得到其k位哈希码h_z，即h_z＝f_x(x_z)或h_z＝f_y(y_z)，其中h_z代表新查询为图像模态或文本模态的哈希码，f_x(x_z)表示计算图像特征x_z的哈希函数，f_y(y_z)表示计算文本特征y_z的哈希函数；最后，通过与数据库的哈希码码执行异或操作，能够获取与查询最相关的另一个模态的结果。

2.根据权利要求1所述的一种基于自学习的跨模态哈希检索方法，其特征在于，所述的公式(12)中的阈值ξ设为0.01。