CN109657112A

CN109657112A - 一种基于锚点图的跨模态哈希学习方法

Info

Publication number: CN109657112A
Application number: CN201811439568.8A
Authority: CN
Inventors: 董西伟; 邓安远; 胡芳; 贾海英; 周军; 孙丽; 杨茂保; 王海霞
Original assignee: Jiujiang University
Current assignee: Jiujiang University
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-04-19
Anticipated expiration: 2038-11-29
Also published as: CN109657112B

Abstract

一种基于锚点图的跨模态哈希学习方法，特征是该方法包括以下步骤：（1）使用基于锚点图技术设计的目标函数得到个对象在图像模态和文本模态的二进制哈希编码和，以及图像模态和文本模态的投影矩阵和；（2）鉴于目标函数的非凸性质，通过交替更新的方式求解目标函数中的未知变量、、和；（3）基于求解得到的图像模态和文本模态的投影矩阵和，为查询样本和检索样本集中的样本生成二进制哈希编码；（4）基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离；（5）使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。该方法能够基于锚点图技术快速得到真实相似度矩阵的近似矩阵。

Description

一种基于锚点图的跨模态哈希学习方法

技术领域

本发明涉及一种基于锚点图的跨模态哈希学习方法。

背景技术

随着信息技术的迅速发展，人类社会已经步入大数据时代，时时刻刻都会有来自于不同领域、不同应用的海量数据产生。面对爆炸式增长的数据，如何从中快速地检索出所需要的信息，从而确保数据的有效使用，已经成为大数据时代亟待解决并且非常具有挑战性的问题。

最近邻搜索，又称为相似性搜索，在诸如文档检索、物体识别和近似图像检测等诸多应用中扮演着重要的角色。在众多用于近似近邻搜索的方法中，基于哈希的搜索(检索)方法在近些年受到越来越多的关注。基于哈希的搜索方法能够将高维的特征数据映射成紧凑的二进制哈希编码并使得相似特征数据的哈希编码相同或者相似。例如，局部敏感哈希(Locality Sensitive Hashing，LSH)方法可以使高维空间中距离很近的两点，在经过哈希函数对这两点进行哈希编码后，它们的哈希编码有很大的概率是一样的，反之，若两点之间的距离较远，则它们的哈希编码相同的概率会很小。基于哈希的搜索方法具有存储要求低搜索效率高的优点。

跨模态哈希检索主要用于解决不同模态数据之间的相互检索问题，例如，用图像搜索文本、或者用文本搜索图像等。跨模态哈希检索方法需要对不同模态的数据进行哈希编码，生成紧凑的二进制哈希编码，然后基于生成的二进制哈希编码完成不同模态数据之间的相互检索。Bronstein等人较早提出了跨模态哈希方法，他们提出的方法可以确保两个相关的数据点具有相似的哈希编码，反之具有不相似的哈希编码。但是他们的提出的这个方法仅仅注重保留模态间的相关性，而忽视了模态内相似性的保持。Kumar等人提出了一种称为跨视图哈希(Cross-View Hashing，CVH)的方法将传统的谱哈希技术从单模态数据扩展到多模态数据，该方法可以学习一个能够保持所有模态局部结构的公共汉明空间。Zhu等人提出了线性跨模态哈希(Linear Cross-Modal Hashing，LCMH)方法。LCMH方法采用两阶段策略来学习跨模态哈希函数，即，首先使用锚点图将每个模态的数据进行低秩表示，然后通过学习哈希函数将每个锚点图空间的数据投影到一个公共的汉明空间。对于只学习一个公共汉明空间的跨模态哈希方法来说，它们不能够很好地同时刻画每个模态的局部结构。为了解决这个问题，Wang等人提出了线性桥接映射跨模态哈希(Learning BridgingMapping for Cross-modal Hashing，LBMCH)方法，LBMCH方法能够为每个模态学习一个可以实现局部结构保持的汉明空间，并且它能够自动地学习用于保持模态间语义一致性的桥接投影。为了有效地保持每个模态数据的局部结构，Zhai等人提出了一种参数化的局部多模态哈希 (Parametric Local Multimodal Hashing，PLMH)方法。PLMH方法通过将每个实例的哈希投影矩阵参数化为一些哈希投影基的线性组合来实现局部性和计算效率的平衡。Yu等人提出了鉴别成对字典哈希(Discriminative Coupled Dictionary Hashing，DCDH)方法，该方法首先联合使用不同模态的数据和类别信息来学习鉴别的成对字典，然后基于不同模态的数据在相应字典上的稀疏编码来学习哈希函数并将稀疏编码换成紧凑的二进制哈希编码。DCDH方法不仅可以保持模态内的相似性和模态间的相关性，还可以使多模态数据的稀疏表示具有很好的可解释性。Zhen等人提出了多模态潜在二进制嵌入(Multimodal Latent Binary Embedding，MLBE)方法，该方法使用概率生成模型来编码每个模态数据内部的相似性和不同模态数据间的相关性。但是MLBE方法不需要哈希编码的不同比特之间相互独立，这使得哈希编码的不同比特具有很高的冗余。Zhang等人提出了协同子空间图哈希(Collaborative Subspace Graph Hashing，CSGH)方法，该方法是一种两阶段协同学习架构，它首先使用每个模态特定的变换矩阵将相应模态的数据投影到潜在子空间，然后通过一个共享变换矩阵将每个模态的子空间连接成一个公共汉明空间。CSGH方法分别通过拉普拉斯正则和基于图的相关性约束来考虑特定模态的近邻结构和模态间的相关性。

跨模态哈希检索方法的目的是将不同模态的高维特征数据映射到低维汉明空间，以实现基于汉明空间的二进制哈希编码完成快速且准确的信息检索。跨模态哈希检索方法，因为其基于二进制哈希编码完成检索任务，其检索时效可以得到很好的保证。但是，对于检索任务来说，检索的准确性是另外一个方面的重要问题。当将数据从原始的高维特征空间映射到低维汉明空间时，原始数据的信息会不可避免地受到损失。因此，在进行哈希学习时，特别是基于大规模数据集进行哈希学习时，如何充分地保留原始特征的有益信息是跨模态哈希学习方法需要充分考虑的重要问题。当前，不少跨模态哈希学习方法基于数据点的图结构来完成模态内相似性和模态间相关性的保持。但是，当数据集的样本数量较大时，构建数据点的图结构需要很大的时间开销。因此，在基于数据点的图结构来保持特征数据中的有用信息时，设计能够快速有效地构建图结构的方案对于高效地进行跨模态哈希学习具有重要的意义。此外，对于每个模态的特征数据来说，不同的特征具有不同的鉴别能力，并且不同的特征之间存在冗余信息。因此，在哈希学习过程中注重对特征的选择利用对于实现更精准的哈希检索同样具有重要意义。

发明内容

本发明其目的就在于提供一种基于锚点图的跨模态哈希学习方法，解决了已有的跨模态哈希学习方法还未彻底解决在大规模数据集上基于图结构来保持特征数据中的有益信息的问题，以及将原始特征数据从高维特征空间映射到低维汉明空间时涉及到的鉴别特征选择问题，提出了一种基于锚点图的跨模态哈希学习方法并应用于包含图像模态和文本模态的跨模态检索任务。

为实现上述目的而采取的技术方案是，一种基于锚点图的跨模态哈希学习方法，建立 n个对象在图像模态和文本模态的特征分别为和其中，和分别表示第i个对象在图像模态和文本模态的特征向量，i＝1,2,…,n，d₁和d₂分别表示图像模态和文本模态特征向量的维数；同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的，即满足假设和分别为图像模态和文本模态样本的邻接矩阵；矩阵 A⁽¹⁾中的元素和矩阵A⁽²⁾中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度；假设S∈{0,1}^n×n为两个模态中样本之间的语义相关性矩阵，其中， S_ij表示图像模态中第i个样本与文本模态中第j个样本的语义相关性；如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别)，则S_ij＝1，否则 S_ij＝0；该方法包括以下步骤：

(1)使用基于锚点图技术设计的目标函数得到n个对象在图像模态和文本模态的二进制哈希编码B₁和B₂，以及图像模态和文本模态的投影矩阵P₁和P₂；

(2)鉴于目标函数的非凸性质，通过交替更新的方式求解目标函数中的未知变量B₁、B₂、P₁和P₂，即交替地求解如下三个子问题：固定B₁和B₂，求解P₁和P₂；固定B₂、P₁和P₂，求解B₁；固定B₁、P₁和P₂，求解B₂；

(3)基于求解得到的图像模态和文本模态的投影矩阵P₁和P₂，为查询样本和检索样本集中的样本生成二进制哈希编码；

(4)基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离；

(5)使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索。

所述步骤(1)中的基于锚点图技术设计的目标函数形式如下：

其中，α、β、γ和λ为非负的平衡因子，k为二进制哈希编码的长度，1_n×1表示元素全部为1的列向量，L⁽¹⁾、L⁽²⁾和L均为拉普拉斯矩阵，tr(·)表示矩阵的迹，||·||_F表示矩阵的Frobenius范数，(·)^T表示矩阵的转置，sign(·)为符号函数。

所述步骤(2)中的通过交替更新的方式求解目标函数中的未知变量B₁、B₂、P₁和P₂，具体为，交替地求解如下三个子问题：

(1)固定B₁和B₂，求解P₁和P₂。当固定二进制哈希编码B₁和B₂后，公式(1)所示的目标函数简化为关于投影矩阵P₁和P₂的子问题，即：

(2)固定B₂、P₁和P₂，求解B₁；当固定二进制哈希编码B₂，以及投影矩阵P₁和P₂后，公式(1)所示的目标函数简化为关于二进制哈希编码B₁的子问题，即：

(3)固定B₁、P₁和P₂，求解B₂；当固定二进制哈希编码B₁，以及投影矩阵P₁和P₂后，公式(1)所示的目标函数简化为关于二进制哈希编码B₂的子问题，即：

所述步骤(3)中的基于求解得到的图像模态和文本模态的投影矩阵P₁和P₂，为查询样本和检索样本集中的样本生成二进制哈希编码，具体为，假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中，表示检索样本集中样本的数量；查询样本和检索样本集中样本的二进制哈希编码分别为：和其中，

所述步骤(4)中的基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离，具体为，使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离；使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。

所述步骤(5)中的使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索，具体是对计算得到的汉明距离(或者)按照从小到大的顺序进行排序，然后，在检索样本集中取前K个最小距离对应的样本作为检索结果。

有益效果与现有技术相比本发明具有以下优点。

1、本发明方法能够更好地适用于在大规模数据集上进行跨模态哈希学习； 2、本发明方法基于锚点图技术可以为大规模数据集中的样本点快速有效地构建用于保持特征数据近邻结构的相似度矩阵；

3、本发明方法通过对用于将原始特征数据从高维特征空间投影到低维汉明空间的投影矩阵使用基于l_2,1范数的正则项进行约束，可以有效地选择有益于生成优秀哈希编码的特征。

附图说明

下面结合附图对本发明作进一步的详细说明。

图1是本发明提出的基于锚点图的跨模态哈希学习方法的工作流程图。

具体实施方式

一种基于锚点图的跨模态哈希学习方法，建立n个对象在图像模态和文本模态的特征分别为和其中，和分别表示第i个对象在图像模态和文本模态的特征向量，i＝1,2,…,n，d₁和d₂分别表示图像模态和文本模态特征向量的维数；同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的，即满足假设和分别为图像模态和文本模态样本的邻接矩阵；矩阵A⁽¹⁾中的元素和矩阵A⁽²⁾中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度；假设S∈{0,1}^n×n为两个模态中样本之间的语义相关性矩阵，其中，S_ij表示图像模态中第i个样本与文本模态中第j 个样本的语义相关性；如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别)，则S_ij＝1，否则S_ij＝0；如图1所示，该方法包括以下步骤：

所述步骤(1)中的基于锚点图技术设计的目标函数形式如下：

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明所述的一种基于锚点图的跨模态哈希学习方法，包括基于锚点图的模态内相似性保持策略，以及基于l_2,1范数的特征选择策略；

所述的基于锚点图的模态内相似性保持策略：对于跨模态哈希检索方法来说，为了实现快速检索，需要将每个模态的原始特征数据从高维特征空间映射到低维汉明空间。但是，在特征映射过程中会不可避免的带来信息损失。对于每个模态的特征数据来说，保持其在原始特征空间中的近邻结构对于增强学习得到的哈希编码的鉴别能力是有益的。在大规模数据集上使用传统的KNN近邻图来构建用于实现模态内近邻结构保持的相似度矩阵需要很大的时间开销。为了快速有效地构建所有样本点的相似度矩阵用于保持模态内的近邻结构，本发明方法使用锚点图技术来构建样本点的真实相似度矩阵的近似矩阵以达到节省时间开销的目的；

所述的基于l_2,1范数的特征选择策略：对于每个模态的原始特征数据来说，不同特征的鉴别能力不同，并且不同特征之间存在冗余信息。当将每个模态的特征数据从原始高维特征空间投影到低维汉明空间时，希望有益于增强哈希编码鉴别能力的特征能够被选择出来用于生成哈希编码。本发明方法通过对每个模态中用于实现投影变换的投影矩阵使用基于l_2,1范数的正则项进行约束来达到这个目的。

本发明的具体实施例为，一种基于锚点图的跨模态哈希学习方法，首先建立n个对象在图像模态和文本模态的特征分别为和其中，和分别表示第i个对象在图像模态和文本模态的特征向量，i＝1,2,…,n，d₁和d₂分别表示图像模态和文本模态特征向量的维数。同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的，即满足假设和分别为图像模态和文本模态样本的邻接矩阵；矩阵A⁽¹⁾中的元素和矩阵A⁽²⁾中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度；假设S∈{0,1}^n×n为两个模态中样本之间的语义相关性矩阵，其中，S_ij表示图像模态中第i个样本与文本模态中第j个样本的语义相关性；如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别)，则S_ij＝1，否则S_ij＝0。

具体实施过程主要包括以下步骤：

(1)基于锚点图的跨模态哈希学习目标函数构建：

在本发明方法中，跨模态哈希学习的目的是利用图像模态和文本模态的特征数据X⁽¹⁾和 X⁽²⁾，以及对象的类别标记信息学习图像模态和文本模态的哈希函数h⁽¹⁾(x⁽¹⁾)∈{-1,+1}^k×1和 h⁽²⁾(x⁽²⁾)∈{-1,+1}^k×1，其中，k是可调节的二进制哈希编码的长度；这里假设 B₁＝[b₁₁,b₁₂,…,b_1n]∈{-1,+1}^k×n和B₂＝[b₂₁,b₂₂,…,b_2n]∈{-1,+1}^k×n是利用n个对象的图像模态和文本模态的特征数据，以及相应的哈希函数h⁽¹⁾(·)和h⁽²⁾(·)生成的哈希空间中的二进制哈希编码，其中，b_1i和b_2i分别表示第i(i＝1,2,…,n)个对象在图像模态和文本模态的哈希编码；在跨模态哈希学习过程中，当将每个模态的特征数据从原始特征空间变换到汉明空间时，希望特征数据在原始空间的近邻结构能够在汉明空间中得以保留，即，原始特征空间中相似的样本点在变换到汉明空间后具有较小的距离，反之，具有较大的距离。为了定量地表示近邻结构的保留，很多跨模态哈希学习方法基于每个模态样本数据的图结构来构建学习模型。 KNN近邻图常用于保持每个模态内部样本间的相似性关系。然而构造具有n个样本点的近邻图以及相应的拉普拉斯矩阵所需时间复杂度为O(dn²)，这对于样本数量比较多的大规模数据集来说，会带来巨大的时间开销。通过使用锚点图技术，可以有效降低构建n个样本点的近邻图的时间复杂度，时间复杂度可以降为O(dmnT+dmn)，其中，O(dmnT)为来自于K 均值聚类的时间复杂度，T为迭代次数。

锚点图是指利用m(m＜＜n)个称为锚点的点来近似地估计数据的近邻结构，即，样本集中n个点之间的相似性可以基于这m个锚点进行度量。下面以图像模态为例，介绍图像模态中n个样本点的相似度矩阵A⁽¹⁾的构建。构建相似度矩阵A⁽¹⁾的具体步骤为：

第一，通过使用聚类算法(如K均值聚类、高斯混合聚类、密度聚类等)对数据集中的n个样本点进行聚类分析，将所获得的聚类中心作为m个锚点。

第二，使用n个样本点和m个锚点来定义锚点图，该锚点图的相似度矩阵Z⁽¹⁾的元素(即，样本集中第i个样本点与第j个锚点u_j的相似度)可以用如下的公式表示：

其中，为相对于锚点集U⁽¹⁾且大小为s(s＜＜m)的最近邻样本集，σ为带宽参数，i＝1,2,…,n，j＝1,2,…,m。可以看出，矩阵为稀疏矩阵，矩阵Z⁽¹⁾的每一行中只有s个非零值，并且这s个非零值的和为1。

第三，使用如下的公式计算相似度矩阵A⁽¹⁾的近似解

其中，为对角矩阵，diag(·)为对角函数，(·)^-1表示矩阵的逆，表示元素全为1的列向量。

由公式(2)可知：若两个样本点是相关的，即则两者必然具有至少一个相同的锚点，否则这说明如果两个样本点具有公共的近邻锚点，那么它们的语义相关性就比较大。由公式(2)还可以推导出：矩阵的每个行向量和每个列向量的元素的和均为1，进一步可以得到相应的拉普拉斯矩阵为

类似于在图像模态中基于锚点图技术获取真实相似度矩阵A⁽¹⁾的近似矩阵和相应的拉普拉斯矩阵L⁽¹⁾的做法，可以得到文本模态的真实相似度矩阵A⁽²⁾的近似矩阵和相应的拉普拉斯矩阵

在跨模态哈希学习过程中，除了希望能在汉明空间中保持两个模态各自的近邻结构，还希望能在汉明空间中最大化两个模态中同类样本的语义相关性，即，对于图像模态和文本模态的哈希编码B₁和B₂来说，希望其能够保持语义相关性矩阵S中的信息，即若S_ij＝1，则b_1i与b_2j、b_1j与b_2i的汉明距离尽量小，反之两者的距离尽量大。

对于每个模态的特征数据来说，不同的特征具有不同的鉴别能力，并且不同的特征之间存在冗余信息。为了在将每个模态的特征数据从原始高维特征空间投影到低维汉明空间时，尽可能地去除冗余信息并保留尽可能地挖掘鉴别信息，在进行哈希学习时需要对每个模态的特征数据进行特征选择。

根据以上分析，可以设计如下的目标函数来满足上述对跨模态哈希学习的要求：

其中，α、β、γ和λ为非负的平衡因子，1_n×1表示元素全部为1的列向量。和这两项的作用是希望哈希编码的每一位是+1和-1的概率相等，这两项可以最大化哈希编码的每一位所提供的信息。矩阵P₁和矩阵P₂分别为将图像模态和文本模态的特征投影到汉明空间所需要的投影矩阵。||P₁||_2,1和||P₂||_2,1为防止过拟合的正则项并起到特征选择的作用。对于矩阵||P||_2,1的定义为其中，p⁽ⁱ⁾表示矩阵P的第i行的向量。

将公式(3)进行简单的推导，可以得到：

其中，和L＝D-S均为拉普拉斯矩阵，为对角矩阵，并且D的第i个对角元素为

(2)目标函数的求解：

公式(4)所示的目标函数中包含四个待求解的未知变量，即：图像模态和文本模态的哈希编码B₁和B₂，图像模态和文本模态的投影矩阵P₁和P₂。公式(4)所示的目标函数对于四个联合在一起的未知变量是非凸的，因此，无法同时得到这四个未知变量的解析解。公式(4)中的未知变量可以通过交替地求解如下三个子问题得到解，即：固定B₁和B₂，求解P₁和P₂；固定B₂、P₁和P₂，求解B₁；固定B₁、P₁和P₂，求解B₂；

(a)固定B₁和B₂，求解P₁和P₂

当固定图像模态和文本模态的哈希编码B₁和B₂后，公式(4)所示的目标函数简化为关于投影矩阵P₁和P₂的子问题，即：

在公式(5)中，因为存在sign(·)函数，因此，求解公式(5)是NP难问题。为了求解公式(5)，这里将公式(5)进行松弛，并将其中的基于l_2,1范数的正则项转化为迹的形式，可以得到：

其中，G₁和G₂是对角矩阵。G₁和G₂的第i个对角元素分别为和其中，和分别为矩阵P₁和P₂的第i个行向量。对于和来说，从理论上讲它们可以为0，但是为了确保求解算法能够收敛，它们不能为0。因此，这里对g_1i和g_2i进行正则化处理，令其中，ε为取较小值的平滑项。

对公式(6)中的分别关于P₁和P₂求导，并令导数等于0，可得：

进一步推导可得：

通过观察公式(9)和公式(10)可以发现，P₁(P₂)的求解依赖于G₁(G₂)，而G₁(G₂) 的构建又依赖于P₁(P₂)。因此，这里采用迭代求解的方式分别对P₁和P₂进行求解，即，首先分别用有效值初始化P₁和P₂，并分别基于P₁和P₂构建G₁和G₂，然后分别使用公式(9)和公式(10)更新P₁和P₂，重复上述对P₁和P₂更新的步骤，直到P₁和P₂收敛或者达到指定的最大迭代次数为止。

(b)固定B₂、P₁和P₂，求解B₁

当固定文本模态的哈希编码B₂、以及投影矩阵P₁和P₂后，公式(4)所示的目标函数简化为关于图像模态的哈希编码B₁的子问题，即：

为了方便的求解公式(11)所示的问题，这里对公式(11)中的sign(·)函数和关于B₁的约束进行松弛，可以得到：

对公式(12)中的分别关于B₁求导，并令导数等于0，可得：

进一步推导并对B₁用sign(·)函数进行离散化处理可得：

(c)固定B₁、P₁和P₂，求解B₂

当固定图像模态的哈希编码B₁、以及投影矩阵P₁和P₂后，公式(4)所示的目标函数简化为关于图像模态的哈希编码B₂的子问题，即：

采用对B₁进行求解的类似做法，可以得到：

(3)生成查询样本和检索样本集中的样本二进制哈希编码假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中，表示检索样本集中样本的数量。利用求解得到的图像模态和文本模态的投影矩阵P₁和P₂，可以得到查询样本和检索样本集中样本的二进制哈希编码分别为：和其中，

(4)计算查询样本到检索样本集中各个样本的汉明距离：

对于图像模态的查询样本使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离。对于文本模态的查询样本使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。

(5)使用跨模态检索器完成对查询样本的检索：

对计算得到的汉明距离(或)按照从小到大的顺序进行排序，然后，在检索样本集中取前K个最小距离对应的样本作为检索结果。

以下结合具体实验对本发明的有益效果进行说明。

相关实验主要在MIRFLICKR-25K数据集上进行，下面首先对这个数据集进行简要介绍。MIRFLICKR-25K数据集包含25000幅图像，且每幅图像被标记了24种文本标签中的若干种标签，并基于此构成图像-文本对。实验中选取至少包含20种文本标签的图像-文本对来使用，共计20015对。在图像模态，每幅图像用512维的GIST特征向量表示；在文本模态，文本标签用1386维的词袋向量表示。在实验中随机选择1000对图像-文本用于构造查询样本集，随机选择10000对图像-文本用于训练跨模态哈希检索模型。

在实验中使用平均精度均值(Mean Average Precision，MAP)来衡量跨模态哈希检索方法的性能。若要计算MAP需要首先计算平均精度(Average Precision，AP)。假设某个查询样本在进行跨模态哈希检索时返回R个检索到的样本，那么这个查询样本的平均精度AP 定义为：

在公式(17)中，P(r)表示前r个被检索到的样本的精度，即，前r个被检索到的样本中有多少样本是真正与查询样本相关的。对于δ(r)，当第r个被检索到的样本真正与查询样本相关时，δ(r)＝1，反之，δ(r)＝0。当获取了所有查询样本的平均精度AP后，平均精度均值 MAP即为这些平均精度AP的均值。

在实验中，本发明方法中的参数α、β、γ和λ采用5折交叉验证确定最优的值。对于其它方法中的参数，参照各个方法文献中所推荐的参数设置原则进行设置。实验所报告的结果为10次随机实验结果的平均值。

与本发明方法进行对比的方法分别为：线性跨模态哈希(Linear Cross-ModalHashing，LCMH)方法、线性桥接映射跨模态哈希(Learning Bridging Mapping for Cross-modal Hashing，LBMCH)方法和协同子空间图哈希(Collaborative Subspace GraphHashing，CSGH) 方法。表1列出了本发明方法和对比方法在MIRFLICKR-25K数据集上进行跨模态哈希检索时的平均精度均值MAP。表1中的Img2Txt和Txt2Img分别表示用图像检索文本和用文本检索图像的跨模态检索任务。从表1可以看出，对于图像检索文本和文本检索图像这两种跨模态检索任务，本发明方法的检索性能在四种哈希编码长度下都优于对比方法。这说明本发明提出的基于锚点图的跨模态哈希学习方法是有效的。这也说明综合运用本发明所设计的基于锚点图的模态内相似性保持策略、基于l_2,1范数的特征选择策略等可以有效地完成哈希学习，进而有效地提升跨模态哈希检索的性能。

表1各方法在MIRFLICKR-25K数据集上的MAP

下面对本发明方法所设计的基于锚点图的模态内相似性保持策略，对跨模态哈希检索性能和训练时间的影响进行评估。具体地，这里将对比本发明方法在使用和不使用基于锚点图的模态内相似性保持策略时，所能得到的平均精度均值MAP和所需要的训练时间。为了方便表示，将本发明方法使用和不使用基于锚点图的模态内相似性保持策略这两种情况分别记为“本方法”和“本方法1”。表2和表3分别给出了在MIRFLICKR-25K数据集上，当哈希编码长度为 32bits时，本发明方法在使用和不使用基于锚点图的模态内相似性保持策略时，所能得到的平均精度均值MAP和所需要的训练时间。实验所使用的计算机的主要配置为：Intel(R) Core(TM)i7-7700K 4.20GHz CPU和64GB DDR4RAM。从表2和表3可以看出，本发明方法在使用基于锚点图的模态内相似性保持策略时，训练时间明显降低，并且两种情况下所得到的平均精度均值MAP相差不大。这说明本发明方法所设计的基于锚点图的模态内相似性保持策略可以在不损失跨模态检索性能的情况下，有效地降低训练时间复杂度。

表2两个方法在MIRFLICKR-25K数据集上的MAP

任务	本方法	本方法1
			Img2Txt	0.3350	0.3352
Txt2Img	0.4269	0.4267

表3两个方法在MIRFLICKR-25K数据集上的训练时间(单位：秒)

本方法	本方法1
		43.25	125.62

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

Claims

1.一种基于锚点图的跨模态哈希学习方法，建立n个对象在图像模态和文本模态的特征分别为和其中，和分别表示第i个对象在图像模态和文本模态的特征向量，i＝1,2,…,n，d₁和d₂分别表示图像模态和文本模态特征向量的维数；同时假设图像模态和文本模态的特征向量都是经过零中心化预处理的，即满足假设和分别为图像模态和文本模态样本的邻接矩阵；矩阵A⁽¹⁾中的元素和矩阵A⁽²⁾中的元素分别表示图像模态和文本模态中第i个样本与第j个样本之间的相似度；假设S∈{0,1}^n×n为两个模态中样本之间的语义相关性矩阵，其中，S_ij表示图像模态中第i个样本与文本模态中第j个样本的语义相关性；如果图像模态中第i个样本与文本模态中第j个样本是语义相关的(至少属于一个相同的类别)，则S_ij＝1，否则S_ij＝0；特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法，其特征在于，所述步骤(1)中的基于锚点图技术设计的目标函数形式如下：

3.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法，其特征在于，所述步骤(2)中的通过交替更新的方式求解目标函数中的未知变量B₁、B₂、P₁和P₂，具体为，交替地求解如下三个子问题：

4.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法，其特征在于，所述步骤(3)中的基于求解得到的图像模态和文本模态的投影矩阵P₁和P₂，为查询样本和检索样本集中的样本生成二进制哈希编码，具体为，假设图像模态的一个查询样本的特征向量为文本模态的一个查询样本的特征向量为图像模态检索样本集中样本的特征为文本模态检索样本集中样本的特征为其中，表示检索样本集中样本的数量；查询样本和检索样本集中样本的二进制哈希编码分别为：和其中，

5.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法，其特征在于，所述步骤(4)中的基于生成的二进制哈希编码计算查询样本到检索样本集中各个样本的汉明距离，具体为，使用公式计算图像模态的查询样本到文本模态检索样本集中每个样本的汉明距离；使用公式计算文本模态的查询样本到图像模态检索样本集中每个样本的汉明距离。

6.根据权利要求1所述的一种基于锚点图的跨模态哈希学习方法，其特征在于，所述步骤(5)中的使用基于近似最近邻搜索的跨模态检索器完成对查询样本的检索，具体是对计算得到的汉明距离(或者)按照从小到大的顺序进行排序，然后，在检索样本集中取前K个最小距离对应的样本作为检索结果。