CN109857892B

CN109857892B - 基于类标传递的半监督跨模态哈希检索方法

Info

Publication number: CN109857892B
Application number: CN201811645529.3A
Authority: CN
Inventors: 王泉; 王笛; 田玉敏; 尚斌; 赵辉; 万波; 杨鹏飞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-12-02
Anticipated expiration: 2038-12-29
Also published as: CN109857892A

Abstract

本发明公开了一种基于类标传递的半监督跨模态哈希检索方法，主要解决现有的训练数据没有足够的类标信息以及现有的半监督多模态方法不能有效利用类标信息的问题，其实现方案是：获取测试数据和训练数据各自对应的特征矩阵；通过类标传递分别获取无监督训练图片集和无监督训练文本集的类标矩阵；构造监督哈希的目标函数，迭代求解分别得到更新后的图片和文本哈希码矩阵以及投影矩阵，据此求得测试图片集和测试文本集的哈希码；计算测试数据哈希码与训练数据哈希码之间的汉明距离并将其从小到大进行排序，取前s个对应的训练数据作为最终查询结果。本发明能有效利用多模态半监督训练样本中的监督信息，提高检索精度，可应用于信息交叉检索和数据存储。

Description

基于类标传递的半监督跨模态哈希检索方法

技术领域

本发明属于信息检索和模式识别技术领域，特别涉及一种半监督跨模态哈希检索方法，可应用于信息交叉检索和数据存储。

背景技术

随着近年来互联网、社交媒体等信息技术的飞速发展，各行各业积累的数据都呈现出爆炸式增长趋势。而且现今的数据不仅仅是数量大，同时还伴随着数据的多源、多类等特性，因此传统的数据存储和管理方式不能满足当前的需求，寻找新的有效利用大数据的技术已经迫在眉睫。哈希学习通过机器学习机制将数据映射成二进制串的形式，能显著减少数据的存储和通信开销，从而有效提高学习系统的效率。现有的哈希方法研究方向大致划分为三类：单模态哈希方法、多视图哈希方法和跨模态哈希方法。跨模态哈希方法可以有效的进行大规模相似性搜索。

跨模态哈希可分为监督跨模态哈希、无监督跨模态哈希、半监督跨模态哈希。监督跨模态哈希方法主要利用训练数据的类标信息来提高哈希方法的检索精度，但是监督跨模态哈希方法要求所有的训练数据都要有类标，在实际应用中大多数是无标签的数据并且对海量的数据进行标注几乎是不可能的，因此无法进行基于类标的约束处理。无监督哈希方法主要通过挖掘和保持多模态数据的潜在相关性来获得哈希编码，但是由于没有任何的类标信息，算法的精度并不是很高。现实生活中，大多数数据都是无类标的，只有少部分数据有类标信息，如何有效利用这部分类标信息来提高检索精度，即半监督哈希，是我们现阶段急需解决的问题。

类标传递是通过数据之间的相关性将训练数据中监督数据的类标传递给无监督数据，跨模态检索中的类标传递包括模态间的类标传递和模态内部的类标传递，通过类标传递得到所有训练数据的类标之后，借助于监督跨模态哈希方法的优势来提高检索精度。

综上，现阶段存在的监督哈希方法不适用于大规模数据，无监督哈希方法没有类标信息，导致检索精度不高。

发明内容

本发明的目的在于针对上述已有技术的不足，提供一种基于类标传递的半监督跨模态哈希检索方法，以有效利用半监督训练数据中的部分类标信息，通过类标传递并结合监督哈希方法的优势来提高检索精度。

实现本发明的思路是，在训练模式下，通过类标传递的方式得到无监督训练数据的类标，并利用所有训练数据的类标和数据特征训练得到投影矩阵和哈希编码；在测试模式下，利用训练模式下获得的投影矩阵对测试数据进行投影，通过量化得到测试数据的哈希编码，并在训练数据中查找相似的数据，输出查找结果。其实现步骤包括如下：

(1)获取测试数据和训练数据及其各自对应的特征矩阵：

从图片数据库中获取图片和文本的多模数据集，将数据集中的10％的数据作为测试数据，剩下的数据作为训练数据；

测试数据包括测试图片集T¹和测试文本集T²；

训练数据包括训练图片集X¹和训练文本集X²，将X¹中的5％的数据分为监督训练图片集

剩下的分为无监督训练图片集

将X²中的5％的数据分为监督训练文本集

剩下的分为无监督训练文本集

监督训练图片集

和监督训练文本集

拥有共同的类标矩阵Y_c；

(2)通过类标传递获取无监督训练数据图片集

的类标矩阵

和无监督训练文本集

的类标矩阵

(3)根据上述参数构造监督哈希的目标函数G：

其中，B_c表示监督训练数据的哈希码矩阵，

表示无监督训练图片集

的哈希码矩阵，

无监督训练文本集

的哈希码矩阵，U₁表示图片类标矩阵

与图片哈希码矩阵

之间的投影矩阵，U₂表示文本类标矩阵

与文本哈希码矩阵

之间的投影矩阵，P₁表示图片哈希码矩阵

与图片特征矩阵

之间的投影矩阵，P₂表示文本哈希码矩阵

与文本特征矩阵

之间的投影矩阵，

表示矩阵的Frobenius范数，R(·)表示正则化项，λ表示类标-哈希码误差项参数，μ表示哈希码-特征误差项参数，γ表示正则化项参数；

(4)迭代求解目标函数，得到更新后的图片哈希码矩阵

和文本哈希码矩阵

以及两个投影矩阵P₁，P₂；

(5)求得测试图片集T¹和测试文本集T²的哈希码；

(6)计算测试数据哈希码与训练数据哈希码之间的汉明距离，再将其从小到大进行排序，前s个对应的训练数据即为查询结果，s≥1。

本发明与现有技术相比具有以下优点：

本发明由于结合了模态间类标传递和模态内部类标传递，因而得到的无监督训练数据的类标更加准确；同时由于在训练哈希函数的时候，使用类标-哈希码误差项，保证了类标和哈希码之间的关系，此外由于使用哈希码-特征误差项保证哈希码和与数据特征之间的关系，明显的提高了检索系统的精度。

附图说明

图1为本发明的实现流程图；

图2为本发明与传统跨模态哈希方法在wiki数据集下的实验结果图；

图3为本发明与传统跨模态哈希方法在MIRFlickr数据集下的实验结果图。

具体实施方案

以下结合附图对本发明的实施例和效果做进一步描述。

参照图1，本实施例的实现步骤如下：

步骤1，获取测试数据和训练数据及其各自对应的特征矩阵。

测试数据包括测试图片集T¹和测试文本集T²；

剩下的分为无监督训练图片集

将X²中的5％的数据分为监督训练文本集

剩下的分为无监督训练文本集

监督训练图片集

和监督训练文本集

拥有共同的类标矩阵Y_c。

步骤2，通过类标传递获取无监督训练数据图片集

的类标矩阵

和无监督训练文本集

的类标矩阵

现存的获取无监督训练数据的技术包括模态间类标传递、关系传递、分类算法、聚类算法，本步骤采用模态间类标传递和模态内部类标传递相结合的方法得到无监督训练数据的类标，见Qi G J,Liu W,Aggarwal C,et al.Joint intermodal and intramodallabel transfers for extremely rare or unseen classes[J].IEEE transactions onpattern analysis and machine intelligence,2017,39(7):1360-1373，其实现如下：

2a)设类标传递包括模态间类标传递和模态内部类标传递，其传递方程分别表示如下：

其中，f₁(Z)为模态间类标传递方程，y_i表示另一个模态监督训练数据的类标，X_i表示另外一个模态监督训练数据的特征，n表示另外一个模态监督训练数据的个数，T表示转置，Z表示待预测类标的数据特征向量，W和V分别为两个模态数据的投影矩阵，S＝W^TV；f₂(Z)为模态内部类标传递方程，y_j表示同一模态监督训练数据的类标，Z_j表示同一模态监督训练数据的特征，α_j表示第j个权重参数，K(Z_j,Z)为核函数，j＝1,2,...m，m表示同一模态监督训练数据的个数；

2b)将模态间类标传递方程和模态内部类标传递方程相结合，得到最终的类标传递方程为：

f(Z)＝f₁(Z)+f₂(Z)；

2c)根据最终的类标传递方程，得到类标传递的目标函数J：

其中，γ表示类标误差项的参数，m表示监督训练数据的个数，y_j表示监督训练数据的类标，Z_j表示监督训练数据的特征向量，f(Z_j)表示将Z_j带入到2b)中的类标传递方程，λ表示成对数据误差项的参数，l表示成对数据的数量，X_k，Y_k分别表示两个模态成对数据的特征向量，||·||_∑表示迹范数；

2d)利用梯度下降法求解2c)中的目标函数，得到矩阵S和权重参数[α₁,...,α_j,...,α_m]；

2e)分别通过2a)-2d)得到两个模态的类标传递方程f_I(Z)和f_T(Z)，通过下式得到无监督训练图片集

的类标矩阵

和无监督训练文本集

的类标矩阵

步骤3，根据步骤1和步骤2中的参数构造监督哈希的目标函数G。

3a)通过步骤2得到无监督训练图片集

的类标矩阵

和无监督训练文本集

的类标矩阵

之后，所有的训练数据都有类标，为了保持类标和哈希码之间的对应关系，构造类标-哈希码误差项：

3a1)图片集的类标-哈希码误差项如下：

其中，U₁表示图片类标矩阵

与图片哈希码矩阵

之间的投影矩阵，B_c表示监督训练数据的哈希码矩阵，

表示无监督训练图片集

的哈希码矩阵，

表示矩阵的Frobenius范数；

3a2)文本集的类标-哈希码误差项如下：

其中，U₂表示文本类标矩阵

与文本哈希码矩阵

之间的投影矩阵，

表示无监督训练文本集

的哈希码矩阵；

3b)为了保持哈希码跟数据特征之间的联系，构造哈希码-特征误差项：

3b1)图片集的哈希码-特征误差项如下：

其中，P₁表示图片哈希码矩阵

与图片特征矩阵

之间的投影矩阵；

3b2)文本集的哈希码-特征误差项如下：

其中，P₂表示文本哈希码矩阵

与文本特征矩阵

之间的投影矩阵；

3c)为了防止过拟合，设置如下正则化项：

3d)将3a)-3c)中的误差项相结合，得到目标函数G如下：

其中，λ表示类标-哈希码误差项的平衡参数，μ表示哈希码-特征误差项的平衡参数，γ表示正则化项的平衡参数。

步骤4，迭代求解目标函数，得到更新后的图片哈希码矩阵

和文本哈希码矩阵

以及两个投影矩阵P₁，P₂。

4a)设监督哈希目标函数G的最小值及参数λ、μ和γ的值；

4b)对目标函数G求偏导，并令其等于0，且用Y^t表示

用B^t表示

用X^t表示

得到如下迭代公式：

其中t＝1,2，T表示转置，(·)^-1表示矩阵的逆，I表示单位矩阵；

4c)设定最大迭代次数C，每次迭代先利用4b)中的公式更新参数值，再计算目标函数G的值，重复迭代直到目标函数值G小于设定的最小值或者迭代次数达到最大迭代次数C，得到更新后的哈希码矩阵

和投影矩阵P₁，P₂。

步骤5，求得测试图片集T¹和测试文本集T²的哈希码。

5a)将测试图片集T¹和投影矩阵P₁相乘，并通过符号函数sign(·)量化，得到测试图片集的哈希码；

5b)将测试文本集T²和投影矩阵P₂相乘，并通过符号函数sign(·)量化，得到测试文本集的哈希码。

步骤6，计算测试数据哈希码与训练数据哈希码之间的汉明距离，即统计每个测试数据哈希码与每个训练数据哈希码中哈希码不相同的个数，将其从小到大进行排序，则前s个对应的训练数据即为查询结果，s≥1。

本发明的效果可以通过以下仿真进一步说明：

1，仿真条件

本发明的仿真是用Matlab R2018a仿真软件，将类标传递目标函数J中的参数α设为0.5，β设为1.0，将监督哈希的目标函数G中的参数λ设为0.5，μ设为100，γ设为0.01，目标函数最小值均设为10^-5，最大迭代次数为100次，取其平均值作为最终结果。

2，仿真内容

仿真1：在wiki数据集下分别采用本发明和现有的两种经典跨模态方法语义关联最大化SCM和语义保持哈希SePH进行跨模态检索实验，结果如图2所示。其中：

图2(a)为用图片作为训练数据以及图片作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

图2(b)为用图片作为训练数据以及文本作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

图2(c)为用文本作为训练数据以及图片作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

图2(d)为用文本作为训练数据以及文本作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

从图2可见，在图片检索图片，图片检索文本以及文本检索图片时，本发明检索的平均准确率都高于SCM和SePH，在文本检索文本时精度略低于SePH。

仿真2：在MIRFlickr数据集下分别采用本发明和现有的两种经典跨模态方法语义关联最大化SCM和语义保持哈希SePH进行跨模态检索实验，实验结果如图3所示，其中：

图3(a)为用图片作为训练数据以及图片作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

图3(b)为用图片作为训练数据以及文本作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

图3(c)为用文本作为训练数据以及图片作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

图3(d)为用文本作为训练数据以及文本作为测试数据时，用三种方法得到的随着编码长度改变的平均准确率结果图。

从图3可见，在四种检索方式中，本发明检索的平均准确率都高于SCM和SePH。

Claims

1.一种基于类标传递的半监督跨模态哈希检索方法，包括如下：

(1)获取测试数据和训练数据及其各自对应的特征矩阵：

测试数据包括测试图片集T¹和测试文本集T²；

剩下的分为无监督训练图片集

将X²中的5％的数据分为监督训练文本集

剩下的分为无监督训练文本集

监督训练图片集

和监督训练文本集

拥有共同的类标矩阵Y_c；

(2)通过类标传递获取无监督训练数据图片集

的类标矩阵

和无监督训练文本集

的类标矩阵

(3)根据上述参数构造监督哈希的目标函数G：

其中，B_c表示监督训练数据的哈希码矩阵，

表示无监督训练图片集

的哈希码矩阵，

无监督训练文本集

的哈希码矩阵，U₁表示图片类标矩阵

与图片哈希码矩阵

之间的投影矩阵，U₂表示文本类标矩阵

与文本哈希码矩阵

之间的投影矩阵，P₁表示图片哈希码矩阵

与图片特征矩阵

之间的投影矩阵，P₂表示文本哈希码矩阵

与文本特征矩阵

之间的投影矩阵，

(4)迭代求解目标函数，得到更新后的图片哈希码矩阵

和文本哈希码矩阵

以及两个投影矩阵P₁，P₂；

(5)求得测试图片集T¹和测试文本集T²的哈希码；

2.根据权利要求1所述的方法，其特征在于，所述步骤(2)，其实现如下：

其中，f₁(Z)为模态间类标传递方程，y_i表示另一个模态监督训练数据的类标，X_i表示另外一个模态监督训练数据的特征，n表示另外一个模态监督训练数据的个数，T表示转置，Z表示待预测类标的数据特征向量，W和V分别为两个模态数据的投影矩阵，S＝W^TV；

f₂(Z)为模态内部类标传递方程，y_j表示同一模态监督训练数据的类标，Z_j表示同一模态监督训练数据的特征，α_j表示第j个权重参数，K(Z_j,Z)为核函数，m表示同一模态监督训练数据的个数；

2b)将模态间类标传递方程和模态内部类标传递方程相结合得到最终的类标传递方程为：

f(Z)＝f₁(Z)+f₂(Z)；

2c)根据类标传递方程，得到类标传递的目标函数J：

的类标矩阵

和无监督训练文本集

的类标矩阵

3.根据权利要求1所述的方法，其特征在于，所述步骤(4)，其实现如下：

4a)设监督哈希目标函数G的最小值及参数λ、μ和γ的值；

4b)对目标函数G求偏导，并令其等于0；用Y^t表示

用B^t表示

用X^t表示

得到如下迭代公式：

4c)设定最大迭代次数C，每次迭代首先利用4b)中的公式更新参数值，然后计算目标函数G的值，重复迭代直到目标函数值G小于设定的最小值或者迭代次数达到最大迭代次数C，得到更新后的哈希码矩阵

和投影矩阵P₁，P₂。

4.根据权利要求1所述的方法，其特征在于，所述步骤(5)，其实现如下：

5.根据权利要求1所述的方法，其特征在于，步骤(6)中计算测试数据哈希码与训练数据哈希码之间的汉明距离，是统计每个测试数据哈希码与每个训练数据哈希码中哈希码不相同的个数。