CN104778234A

CN104778234A - 基于局部敏感哈希技术的多标记文件近邻查询方法

Info

Publication number: CN104778234A
Application number: CN201510150666.XA
Authority: CN
Inventors: 胡海峰; 邵燕; 吴建盛
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-07-15

Abstract

本发明公开了一种基于局部敏感哈希技术的多标记学习的设计方法，该方法将海量文件问题转化为多标记学习问题，建立海量文件的近邻索引表；海量文件的多标记训练；新文件的预测标记向量；基于LSH的多标记学习文件近邻查询。给定海量文件样本X，关键词，文件查询结果，按照查询结果得到文件标记向量集合Y；对标记向量集Y执行LSH算法,得到基于标记文件的近邻索引表；文件样本X根据多标记学习算法构建多标记分类器；对于新文件，首先进行上述两个步骤，然后根据多标记分类器，得到预测的标记集合；新文件的标记向量执行LSH查询，得到候选样本文件；对候选样本文件进行线性搜索，获取近邻文件。

Description

基于局部敏感哈希技术的多标记文件近邻查询方法

技术领域

本发明涉及一种基于局部敏感哈希技术的多标记文件近邻查询方法，属于数据挖掘的技术领域。

背景技术

目前我们已经进入了以信息技术为主导的时代，在网络、科学、能源、生物、商业、地理信息等诸多领域每天都会产生海量数据，对这些海量数据的处理又称为大数据问题(BigData Problem)。而对大数据问题，计算机基础结构正在面临挑战，即：网络带宽的提高和处理器速度的增加速度远远低于数据量的增速。

在海量文件系统中，目前主要是根据特定属性进行分类查询，面对多样化的文件查询时，传统的一次文件查询往往需要从查询系统的不同区域抽取文件，这样就会带来三个主要问题：(1)从不同的区域查询海量文件，增加了文件查询访问的查询刷量；(2)样本数量大，从而大大降低了文件的查询搜索效率。

由于高维数据的“维度灾难”问题，算法的复杂度呈指数级上升，算法性能会急剧下降。为了进行更好的数据处理和分析，一种典型的方法就是降维。在很多应用环境下，一组近似的结果也可以很好地满足用户的查询需求。因而，人们提出了近似相似性查询的技术(Approximate Similarity Search)。近似相似性查询通过快速地返回查询近似结果，来折中查询的效果和效率。

局部敏感哈希(Locality Sensitive Hashing，简称LSH)作为近似相似性查询目前最有效的技术，获得了广泛的研究和应用。因此被广泛应用于许多场景，包括基于内容的图像检索、音频检索、视频拷贝检测以及DNA序列相似性比对等。LSH是一种概率方法，采用过滤-验证的框架(Filter-and-Refine Framework)。在过滤阶段，LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉，过滤之后的数据对象作为候选集(Candidate Set)，使得相似的数据对象以很高的概率留存在候选集合中，进而在候选集合上进行实际的距离或者相似性度量计算。由于在过滤阶段非相似的数据对象大部分被过滤掉，候选集合的大小远小于原始数据集，因而极大地缩短了查询计算时间，提高了效率。

虽然位置敏感哈希技术具有坚实的理论基础，且在多个领域的相似性查询方面取得了很好的应用效果，但高维数据嵌入到低维空间时，为了保证嵌入的质量，所需的维度仍然比较高。随着机器学习理论与应用研究的深入，多标记学习已成为机器学习领域的热点研究方向之一，该方法可以在低维的空间进行相似性查询。

在传统的监督学习框架中，待学习的样本具有明确的单一的语义标记，即每个样本示例只属于一个类别，在这个监督学习框架下已经提出多种算法并取得良好的效果。然而，在很多现实世界的应用中，研究对象其语义标记通常是不唯一的，往往存在一个样本可被分配一组多重标记的情况。例如，在文本分类中，一篇新闻报道可能涵盖某个事件的多个方面，因此，应该被分配给多个主题，比如，政治和经济；在生物信息学中，一个基因序列可以与多个功能相联系，比如，在一个细胞生命周期中表明了基因序列功能的新陈代谢和蛋白质合成；在图像注释中，一幅图像可以被多个主题词注释，比如，能够表明图像内容的城市、楼房和马路。这就使得对于只考虑明确、单一的语义的传统监督学习框架难以取得好的效果。为了使多义性对象中含有的多种语义信息能够直观地反映，一种显而易见的方式就是为该对象明确地赋予具有合适类别标记的标记子集。基于以上分析，一种针对多义性对象的学习建模工具，多标记学习框架由此而产生。在多标记学习框架下，样本由一个示例和对应的多个标记构成，学习的目标是将多个适当的标记赋予未知的示例。

随着机器学习理论与应用研究的深入，多标记学习中分类问题已成为人工智能领域的热点研究方向。由于多标记分类与现实应用紧密相关，针对多标记分类问题的研究具有重要的理论和应用价值。多标记学习是一个具有挑战性的研究课题，过去主要在文本分类领域进行研究，而现在引起了越来越多的研究人员的兴趣，并应用到很多新的领域，如音乐分类、蛋白质功能分类、Web挖掘、互联网海量数据信息检索以及图像和视频的语义分类等。多标记学习重点研究对多义性对象进行建模和学习的方法，具有重大理论意义和应用前景。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于针对海量文件查询时遇到的问题，提出了一种基于局部敏感哈希技术的多标记文件近邻查询方法，该方法将基于多标记学习与LSH(即：局部敏感哈希)相似性查询相结合，解决了文件查询时遇到的问题，提高了文件查询效率。

本发明解决其技术问题所采取的技术方案是：一种基于局部敏感哈希技术的多标记学习的设计方法，该方法将海量文件问题转化为多标记学习问题，建立海量文件的近邻索引表；海量文件的多标记训练；新文件的预测标记向量；基于LSH的多标记学习文件近邻查询。其中将文件问题转化为多标记学习问题，按照以下规则：若第j个关键词的查询结果中包含文件i，则文件i的标记向量Y_i中第j个元素Y_ij＝1，否则Y_ij＝0；海量文件的近邻索引建立，利用已知文件的标记向量建立近邻索引表；海量文件的多标记训练，对海量文件进行训练得到文件分类器；新文件的预测标记向量，利用分类器获得新文件的标记向量；基于LSH多标记学习文件近邻查询，可以在低时间复杂度的情况下获取近邻，将算法的计算复杂度充分降低，使其可扩展到海量数据的文件查询中。

方法流程：

步骤1：给定海量文件样本X，关键词，文件查询结果，按照查询结果得到文件标记向量集合Y。

步骤2：对标记向量集Y执行LSH算法,得到基于标记文件的近邻索引表。

步骤3：文件样本X根据多标记学习算法(即：文件预处理和特征选择)构建多标记分类器。

步骤4：对于新文件，首先进行上述两个步骤，然后根据多标记分类器，得到预测的标记集合，即：分类结果。

步骤5：新文件的标记向量执行LSH查询，得到候选样本文件。

步骤6：对候选样本文件进行线性搜索，获取近邻文件。

本发明上述方法应用于多标记文件近邻查询的机制。

有益效果：

1、针对样本数量过大的问题，本发明采用LSH方法进行近邻查找，降低了时间和空间的复杂度。

2、本发明能够很好地支持大规模数据下的近邻查找，解决了样本数量过大的问题。

3、本发明通过多标记训练，能够有效地提取文件的标记向量特征，提高相关性文件查询的准确度。

附图说明

图1为本发明的方法流程图。

具体实施方式

以下结合说明书附图对本发明创造作进一步的详细说明。

如图1所示，本发明提供了一种基于局部敏感哈希技术的多标记文件近邻查询方法，该方法具体实施步骤包括如下：

(1)利用LSH进行近邻查找。

相似性检索在各种领域特别是在视频、音频、图像、文本等含有丰富特征信息领域中的应用变得越来越重要。丰富的特征信息一般用高维向量表示，由此相似性检索一般通过k近邻或近似近邻查询来实现。在大规模数据时代，怎样快速地从大规模的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个热点和难点。如果是低维的小数据集，我们通过线性查找(Linear Search)就可以容易解决，但如果是对一个大规模的高维数据集采用线性查找匹配的话，会非常耗时，因此，为了解决该问题，我们需要采用一些类似索引的技术来加快查找过程，通常这类技术称为最近邻查找(Nearest Neighbor,NN)或近似最近邻查找(Approximate Nearest Neighbor,ANN)。

其中局部敏感哈希(Locality-Sensitive Hashing,LSH)，作为ANN中的一类方法，是最近非常流行的一种相似性搜索算法，LSH因其快速的查找效率，较强的高维适应性以及足够的理论保证而被广泛应用于各个领域。应用LSH来快速的查找最近邻。

LSH的基本思想如下:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。这样对原始数据集合中所有的数据都进行hash映射后，我们就得到了一个hash table，这些原始数据集被分散到了hash table的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的。因此，如果我们能够找到这样一些hash函数，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么我们在该数据集合中进行近邻查找就变得容易了，在查询时，我们只需要将查询点按照相同的哈希函数哈希到桶中得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配计算查询点与每个候选近似最近邻点的距离，通过该距离判断是否符合查询条件。

LSH中的hash函数需要满足以下两个条件：

1)如果d(x，y)≤d1，则h(x)＝h(y)的概率至少为p1；

2)如果d(x，y)≥d2，则h(x)＝h(y)的概率至多为p2；

其中d(x，y)表示x和y之间的距离，d1＜d2，h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的hash函数称为(d1，d2，p1，p2)-sensitive。而通过一个或多个(d1，d2，p1，p2)-sensitive的hash函数对原始数据集合进行hashing生成一个或多个hashtable的过程称为局部敏感哈希(Locality-sensitive Hashing)。

(2)多标记学习

海量文件的近邻查询转化为多标记文件的近邻查找问题，首先按照规则：若第j个关键词的查询结果中包含文件i，则文件i的标记向量Y_i中第j个元素Y_ij＝1，否则Y_ij＝0，根据此规则获得海量文件的类别标记向量。然后进一步进行多标记学习。

设X＝R^d为d维示例空间，而y＝{1，...，Q)为所有概念标记构成的集合，给定多标记训练集D＝{(X₁，Y₁)，...，(X_m，Y_m)}，X_i∈X为d维属性向量(示例)，而Y_i∈y为与X_i对应概念标记集合，多标记学习系统的目标是从训练集D中进行学习，输出一个多标记分类器h：X→2^y，在一般情况下，为了得到多标记分类器h(·),学习系统将学习得到某个实值函数：X×y→R，对于训练样本X_i及其对应的概念标记集合Y_i而言，学习系统希望对于任意的以及有成立，即f(·，·)在隶属于Y_i的概念标记上输出较大的值，而在不隶属于的概念标记Y_i上输出较小的值。

基于学习所得的实值函数f(·，·)，可导出多标记分类器为h(·)为其中，t(·)为相应的阈值函数且通常设为零常量函数。此外，实值函数f(·，·)还可转化为一个排序函数rank_f(·，·)，该函数实现实值输出到集合y的映射，从而当

f (X_{i}, {\hat{y}}_{1}) > f (X_{i}, {\hat{y}}_{2})

成立时亦成立。

在本发明中，使用基于局部敏感哈希技术的多标记文件近邻查询方法，可以快速高效的对文件进行近邻搜索，并可以成功扩展到大规模高维数据中，而将对文件进行多标记学习获得的标记向量来建立LSH索引与文件查询，这是多标记学习的一个重要应用。

本发明所解决的技术问题包括如下：

(1)样本数量过大

传统的多标记学习算法是针对低维的，少量的样本空间。随着数据急剧扩张，样本的数量变的非常大，训练时的样本数量甚至达到几百万。随着数据的增加，计算时间随着样本的数量会产生指数级的增长，而且数据的查询代价也会变得非常高。由于样本的计算主要在数据的分析和处理过程，在基于统计学理论的多标记学习算法中，计算主要是在样本的相似性搜索和近邻查找过程中。如果是低维的小数据集，我们通过线性查找就可以容易解决，但如果是对一个大规模的高维数据集采用线性查找匹配的话，会非常耗时，因此，为了解决该问题，本发明引入了一种高效、可扩展的相似性近邻查找算法—局部敏感哈希(LSH)算法。利用LSH算法，可以快速高效的进行近邻查找，实现高维下的近似查询。

(2)文件相关性问题

传统的近邻相似性查询技术基于无监督学习的，无监督式学习在学习时并不知道其分类结果是否正确，亦不知道何种学习是正确的。本文利用机器学习的方法，对高维数据进行相似性查询处理，将高维数据查询到的结果作为文件的标记向量，训练一组分类器。对用户的查询，使用分类器预测其标记向量。这样，查询可以在汉明空间进行计算，将数据无关的LSH技术转变为数据相关的查询技术。

如图1所示，本发明的实施包括两个过程：基于LSH的海量文件的标记向量索引建立方法和基于多标记分类的文件查询，包括：

Claims

1.一种基于局部敏感哈希技术的多标记文件近邻查询方法，其特征在于，所述方法包括如下步骤：

步骤1：给定海量文件样本X，关键词，文件查询结果，按照查询结果得到文件标记向量集合Y；

步骤2：对标记向量集Y执行LSH算法,得到基于标记文件的近邻索引表；

步骤3：文件样本X根据多标记学习算法，即：文件预处理和特征选择构建多标记分类器；

步骤4：对于新文件，首先进行上述步骤，然后根据多标记分类器，得到预测的标记集合，即：分类结果；

步骤5：新文件的标记向量执行LSH查询，得到候选样本文件；

步骤6：对候选样本文件进行线性搜索，获取近邻文件。

2.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法，其特征在于，所述方法包括：海量文件问题转化为多标记学习问题，建立海量文件的近邻索引表；海量文件的多标记训练；新文件的预测标记向量。

3.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法，其特征在于：所述方法是基于LSH的多标记学习文件的近邻查询。

4.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法，其特征在于，所述方法步骤1的文件标记向量集合，是根据一定的规则将查询结果转化为向量集合，即：文件标记向量集。

5.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法，其特征在于：所述方法应用于多标记文件近邻查询的机制。

6.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法，其特征在于，所述方法的规则包括：若第j个关键词的查询结果中包含文件i，则文件i的标记向量Y_i中第j个元素Y_ij＝1，否则Y_ij＝0；海量文件的近邻索引建立，利用已知文件的标记向量建立近邻索引表；海量文件的多标记训练，对海量文件进行训练得到文件分类器；新文件的预测标记向量，利用分类器获得新文件的标记向量；使可扩展到海量数据的文件查询中。