CN104778234A - 基于局部敏感哈希技术的多标记文件近邻查询方法 - Google Patents

基于局部敏感哈希技术的多标记文件近邻查询方法 Download PDF

Info

Publication number
CN104778234A
CN104778234A CN201510150666.XA CN201510150666A CN104778234A CN 104778234 A CN104778234 A CN 104778234A CN 201510150666 A CN201510150666 A CN 201510150666A CN 104778234 A CN104778234 A CN 104778234A
Authority
CN
China
Prior art keywords
file
label
nearest neighbor
lsh
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510150666.XA
Other languages
English (en)
Inventor
胡海峰
邵燕
吴建盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510150666.XA priority Critical patent/CN104778234A/zh
Publication of CN104778234A publication Critical patent/CN104778234A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于局部敏感哈希技术的多标记学习的设计方法,该方法将海量文件问题转化为多标记学习问题,建立海量文件的近邻索引表;海量文件的多标记训练;新文件的预测标记向量;基于LSH的多标记学习文件近邻查询。给定海量文件样本X,关键词,文件查询结果,按照查询结果得到文件标记向量集合Y;对标记向量集Y执行LSH算法,得到基于标记文件的近邻索引表;文件样本X根据多标记学习算法构建多标记分类器;对于新文件,首先进行上述两个步骤,然后根据多标记分类器,得到预测的标记集合;新文件的标记向量执行LSH查询,得到候选样本文件;对候选样本文件进行线性搜索,获取近邻文件。

Description

基于局部敏感哈希技术的多标记文件近邻查询方法
技术领域
本发明涉及一种基于局部敏感哈希技术的多标记文件近邻查询方法,属于数据挖掘的技术领域。
背景技术
目前我们已经进入了以信息技术为主导的时代,在网络、科学、能源、生物、商业、地理信息等诸多领域每天都会产生海量数据,对这些海量数据的处理又称为大数据问题(BigData Problem)。而对大数据问题,计算机基础结构正在面临挑战,即:网络带宽的提高和处理器速度的增加速度远远低于数据量的增速。
在海量文件系统中,目前主要是根据特定属性进行分类查询,面对多样化的文件查询时,传统的一次文件查询往往需要从查询系统的不同区域抽取文件,这样就会带来三个主要问题:(1)从不同的区域查询海量文件,增加了文件查询访问的查询刷量;(2)样本数量大,从而大大降低了文件的查询搜索效率。
由于高维数据的“维度灾难”问题,算法的复杂度呈指数级上升,算法性能会急剧下降。为了进行更好的数据处理和分析,一种典型的方法就是降维。在很多应用环境下,一组近似的结果也可以很好地满足用户的查询需求。因而,人们提出了近似相似性查询的技术(Approximate Similarity Search)。近似相似性查询通过快速地返回查询近似结果,来折中查询的效果和效率。
局部敏感哈希(Locality Sensitive Hashing,简称LSH)作为近似相似性查询目前最有效的技术,获得了广泛的研究和应用。因此被广泛应用于许多场景,包括基于内容的图像检索、音频检索、视频拷贝检测以及DNA序列相似性比对等。LSH是一种概率方法,采用过滤-验证的框架(Filter-and-Refine Framework)。在过滤阶段,LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉,过滤之后的数据对象作为候选集(Candidate Set),使得相似的数据对象以很高的概率留存在候选集合中,进而在候选集合上进行实际的距离或者相似性度量计算。由于在过滤阶段非相似的数据对象大部分被过滤掉,候选集合的大小远小于原始数据集,因而极大地缩短了查询计算时间,提高了效率。
虽然位置敏感哈希技术具有坚实的理论基础,且在多个领域的相似性查询方面取得了很好的应用效果,但高维数据嵌入到低维空间时,为了保证嵌入的质量,所需的维度仍然比较高。随着机器学习理论与应用研究的深入,多标记学习已成为机器学习领域的热点研究方向之一,该方法可以在低维的空间进行相似性查询。
在传统的监督学习框架中,待学习的样本具有明确的单一的语义标记,即每个样本示例只属于一个类别,在这个监督学习框架下已经提出多种算法并取得良好的效果。然而,在很多现实世界的应用中,研究对象其语义标记通常是不唯一的,往往存在一个样本可被分配一组多重标记的情况。例如,在文本分类中,一篇新闻报道可能涵盖某个事件的多个方面,因此,应该被分配给多个主题,比如,政治和经济;在生物信息学中,一个基因序列可以与多个功能相联系,比如,在一个细胞生命周期中表明了基因序列功能的新陈代谢和蛋白质合成;在图像注释中,一幅图像可以被多个主题词注释,比如,能够表明图像内容的城市、楼房和马路。这就使得对于只考虑明确、单一的语义的传统监督学习框架难以取得好的效果。为了使多义性对象中含有的多种语义信息能够直观地反映,一种显而易见的方式就是为该对象明确地赋予具有合适类别标记的标记子集。基于以上分析,一种针对多义性对象的学习建模工具,多标记学习框架由此而产生。在多标记学习框架下,样本由一个示例和对应的多个标记构成,学习的目标是将多个适当的标记赋予未知的示例。
随着机器学习理论与应用研究的深入,多标记学习中分类问题已成为人工智能领域的热点研究方向。由于多标记分类与现实应用紧密相关,针对多标记分类问题的研究具有重要的理论和应用价值。多标记学习是一个具有挑战性的研究课题,过去主要在文本分类领域进行研究,而现在引起了越来越多的研究人员的兴趣,并应用到很多新的领域,如音乐分类、蛋白质功能分类、Web挖掘、互联网海量数据信息检索以及图像和视频的语义分类等。多标记学习重点研究对多义性对象进行建模和学习的方法,具有重大理论意义和应用前景。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于针对海量文件查询时遇到的问题,提出了一种基于局部敏感哈希技术的多标记文件近邻查询方法,该方法将基于多标记学习与LSH(即:局部敏感哈希)相似性查询相结合,解决了文件查询时遇到的问题,提高了文件查询效率。
本发明解决其技术问题所采取的技术方案是:一种基于局部敏感哈希技术的多标记学习的设计方法,该方法将海量文件问题转化为多标记学习问题,建立海量文件的近邻索引表;海量文件的多标记训练;新文件的预测标记向量;基于LSH的多标记学习文件近邻查询。其中将文件问题转化为多标记学习问题,按照以下规则:若第j个关键词的查询结果中包含文件i,则文件i的标记向量Yi中第j个元素Yij=1,否则Yij=0;海量文件的近邻索引建立,利用已知文件的标记向量建立近邻索引表;海量文件的多标记训练,对海量文件进行训练得到文件分类器;新文件的预测标记向量,利用分类器获得新文件的标记向量;基于LSH多标记学习文件近邻查询,可以在低时间复杂度的情况下获取近邻,将算法的计算复杂度充分降低,使其可扩展到海量数据的文件查询中。
方法流程:
步骤1:给定海量文件样本X,关键词,文件查询结果,按照查询结果得到文件标记向量集合Y。
步骤2:对标记向量集Y执行LSH算法,得到基于标记文件的近邻索引表。
步骤3:文件样本X根据多标记学习算法(即:文件预处理和特征选择)构建多标记分类器。
步骤4:对于新文件,首先进行上述两个步骤,然后根据多标记分类器,得到预测的标记集合,即:分类结果。
步骤5:新文件的标记向量执行LSH查询,得到候选样本文件。
步骤6:对候选样本文件进行线性搜索,获取近邻文件。
本发明上述方法应用于多标记文件近邻查询的机制。
有益效果:
1、针对样本数量过大的问题,本发明采用LSH方法进行近邻查找,降低了时间和空间的复杂度。
2、本发明能够很好地支持大规模数据下的近邻查找,解决了样本数量过大的问题。
3、本发明通过多标记训练,能够有效地提取文件的标记向量特征,提高相关性文件查询的准确度。
附图说明
图1为本发明的方法流程图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
如图1所示,本发明提供了一种基于局部敏感哈希技术的多标记文件近邻查询方法,该方法具体实施步骤包括如下:
(1)利用LSH进行近邻查找。
相似性检索在各种领域特别是在视频、音频、图像、文本等含有丰富特征信息领域中的应用变得越来越重要。丰富的特征信息一般用高维向量表示,由此相似性检索一般通过k近邻或近似近邻查询来实现。在大规模数据时代,怎样快速地从大规模的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个热点和难点。如果是低维的小数据集,我们通过线性查找(Linear Search)就可以容易解决,但如果是对一个大规模的高维数据集采用线性查找匹配的话,会非常耗时,因此,为了解决该问题,我们需要采用一些类似索引的技术来加快查找过程,通常这类技术称为最近邻查找(Nearest Neighbor,NN)或近似最近邻查找(Approximate Nearest Neighbor,ANN)。
其中局部敏感哈希(Locality-Sensitive Hashing,LSH),作为ANN中的一类方法,是最近非常流行的一种相似性搜索算法,LSH因其快速的查找效率,较强的高维适应性以及足够的理论保证而被广泛应用于各个领域。应用LSH来快速的查找最近邻。
LSH的基本思想如下:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果我们对原始数据进行一些hash映射后,我们希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的桶号。这样对原始数据集合中所有的数据都进行hash映射后,我们就得到了一个hash table,这些原始数据集被分散到了hash table的桶内,每个桶会落入一些原始数据,属于同一个桶内的数据就有很大可能是相邻的。因此,如果我们能够找到这样一些hash函数,使得经过它们的哈希映射变换后,原始空间中相邻的数据落入相同的桶内的话,那么我们在该数据集合中进行近邻查找就变得容易了,在查询时,我们只需要将查询点按照相同的哈希函数哈希到桶中得到其桶号,然后取出该桶号对应桶内的所有数据,再进行线性匹配计算查询点与每个候选近似最近邻点的距离,通过该距离判断是否符合查询条件。
LSH中的hash函数需要满足以下两个条件:
1)如果d(x,y)≤d1,则h(x)=h(y)的概率至少为p1;
2)如果d(x,y)≥d2,则h(x)=h(y)的概率至多为p2;
其中d(x,y)表示x和y之间的距离,d1<d2,h(x)和h(y)分别表示对x和y进行hash变换。
满足以上两个条件的hash函数称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash函数对原始数据集合进行hashing生成一个或多个hashtable的过程称为局部敏感哈希(Locality-sensitive Hashing)。
(2)多标记学习
海量文件的近邻查询转化为多标记文件的近邻查找问题,首先按照规则:若第j个关键词的查询结果中包含文件i,则文件i的标记向量Yi中第j个元素Yij=1,否则Yij=0,根据此规则获得海量文件的类别标记向量。然后进一步进行多标记学习。
设X=Rd为d维示例空间,而y={1,...,Q)为所有概念标记构成的集合,给定多标记训练集D={(X1,Y1),...,(Xm,Ym)},Xi∈X为d维属性向量(示例),而Yi∈y为与Xi对应概念标记集合,多标记学习系统的目标是从训练集D中进行学习,输出一个多标记分类器h:X→2y,在一般情况下,为了得到多标记分类器h(·),学习系统将学习得到某个实值函数:X×y→R,对于训练样本Xi及其对应的概念标记集合Yi而言,学习系统希望对于任意的以及成立,即f(·,·)在隶属于Yi的概念标记上输出较大的值,而在不隶属于的概念标记Yi上输出较小的值。
基于学习所得的实值函数f(·,·),可导出多标记分类器为h(·)为其中,t(·)为相应的阈值函数且通常设为零常量函数。此外,实值函数f(·,·)还可转化为一个排序函数rankf(·,·),该函数实现实值输出到集合y的映射,从而当 f ( X i , y ^ 1 ) > f ( X i , y ^ 2 ) 成立时亦成立。
在本发明中,使用基于局部敏感哈希技术的多标记文件近邻查询方法,可以快速高效的对文件进行近邻搜索,并可以成功扩展到大规模高维数据中,而将对文件进行多标记学习获得的标记向量来建立LSH索引与文件查询,这是多标记学习的一个重要应用。
本发明所解决的技术问题包括如下:
(1)样本数量过大
传统的多标记学习算法是针对低维的,少量的样本空间。随着数据急剧扩张,样本的数量变的非常大,训练时的样本数量甚至达到几百万。随着数据的增加,计算时间随着样本的数量会产生指数级的增长,而且数据的查询代价也会变得非常高。由于样本的计算主要在数据的分析和处理过程,在基于统计学理论的多标记学习算法中,计算主要是在样本的相似性搜索和近邻查找过程中。如果是低维的小数据集,我们通过线性查找就可以容易解决,但如果是对一个大规模的高维数据集采用线性查找匹配的话,会非常耗时,因此,为了解决该问题,本发明引入了一种高效、可扩展的相似性近邻查找算法—局部敏感哈希(LSH)算法。利用LSH算法,可以快速高效的进行近邻查找,实现高维下的近似查询。
(2)文件相关性问题
传统的近邻相似性查询技术基于无监督学习的,无监督式学习在学习时并不知道其分类结果是否正确,亦不知道何种学习是正确的。本文利用机器学习的方法,对高维数据进行相似性查询处理,将高维数据查询到的结果作为文件的标记向量,训练一组分类器。对用户的查询,使用分类器预测其标记向量。这样,查询可以在汉明空间进行计算,将数据无关的LSH技术转变为数据相关的查询技术。
如图1所示,本发明的实施包括两个过程:基于LSH的海量文件的标记向量索引建立方法和基于多标记分类的文件查询,包括:

Claims (6)

1.一种基于局部敏感哈希技术的多标记文件近邻查询方法,其特征在于,所述方法包括如下步骤:
步骤1:给定海量文件样本X,关键词,文件查询结果,按照查询结果得到文件标记向量集合Y;
步骤2:对标记向量集Y执行LSH算法,得到基于标记文件的近邻索引表;
步骤3:文件样本X根据多标记学习算法,即:文件预处理和特征选择构建多标记分类器;
步骤4:对于新文件,首先进行上述步骤,然后根据多标记分类器,得到预测的标记集合,即:分类结果;
步骤5:新文件的标记向量执行LSH查询,得到候选样本文件;
步骤6:对候选样本文件进行线性搜索,获取近邻文件。
2.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法,其特征在于,所述方法包括:海量文件问题转化为多标记学习问题,建立海量文件的近邻索引表;海量文件的多标记训练;新文件的预测标记向量。
3.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法,其特征在于:所述方法是基于LSH的多标记学习文件的近邻查询。
4.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法,其特征在于,所述方法步骤1的文件标记向量集合,是根据一定的规则将查询结果转化为向量集合,即:文件标记向量集。
5.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法,其特征在于:所述方法应用于多标记文件近邻查询的机制。
6.根据权利要求1所述的一种基于局部敏感哈希技术的多标记文件近邻查询方法,其特征在于,所述方法的规则包括:若第j个关键词的查询结果中包含文件i,则文件i的标记向量Yi中第j个元素Yij=1,否则Yij=0;海量文件的近邻索引建立,利用已知文件的标记向量建立近邻索引表;海量文件的多标记训练,对海量文件进行训练得到文件分类器;新文件的预测标记向量,利用分类器获得新文件的标记向量;使可扩展到海量数据的文件查询中。
CN201510150666.XA 2015-03-31 2015-03-31 基于局部敏感哈希技术的多标记文件近邻查询方法 Pending CN104778234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510150666.XA CN104778234A (zh) 2015-03-31 2015-03-31 基于局部敏感哈希技术的多标记文件近邻查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510150666.XA CN104778234A (zh) 2015-03-31 2015-03-31 基于局部敏感哈希技术的多标记文件近邻查询方法

Publications (1)

Publication Number Publication Date
CN104778234A true CN104778234A (zh) 2015-07-15

Family

ID=53619698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510150666.XA Pending CN104778234A (zh) 2015-03-31 2015-03-31 基于局部敏感哈希技术的多标记文件近邻查询方法

Country Status (1)

Country Link
CN (1) CN104778234A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183792A (zh) * 2015-08-21 2015-12-23 东南大学 一种基于局部敏感哈希的分布式快速文本分类方法
CN105868272A (zh) * 2016-03-18 2016-08-17 乐视网信息技术(北京)股份有限公司 多媒体文件分类方法及装置
CN108959441A (zh) * 2018-06-13 2018-12-07 新华智云科技有限公司 一种基于局部敏感哈希的近相似快速查找方法
CN109460500A (zh) * 2018-10-24 2019-03-12 深圳市腾讯计算机系统有限公司 热点事件发现方法、装置、计算机设备和存储介质
CN111581956A (zh) * 2020-04-08 2020-08-25 国家计算机网络与信息安全管理中心 基于bert模型和k近邻的敏感信息识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185561B1 (en) * 2005-08-15 2012-05-22 Google Inc. Scalable user clustering based on set similarity
CN102609441A (zh) * 2011-12-27 2012-07-25 中国科学院计算技术研究所 基于分布熵的局部敏感哈希高维索引方法
CN102646097A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 一种聚类方法及装置
CN103774934A (zh) * 2012-10-25 2014-05-07 周跃平 一种液压密码锁栓止回装置
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185561B1 (en) * 2005-08-15 2012-05-22 Google Inc. Scalable user clustering based on set similarity
CN102646097A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 一种聚类方法及装置
CN102609441A (zh) * 2011-12-27 2012-07-25 中国科学院计算技术研究所 基于分布熵的局部敏感哈希高维索引方法
CN103774934A (zh) * 2012-10-25 2014-05-07 周跃平 一种液压密码锁栓止回装置
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何学文: "基于LSH的语音文档主题分类研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *
程圣军 等: "一种改进的ML-kNN多标记文档分类方法", 《哈尔滨工业大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183792A (zh) * 2015-08-21 2015-12-23 东南大学 一种基于局部敏感哈希的分布式快速文本分类方法
CN105868272A (zh) * 2016-03-18 2016-08-17 乐视网信息技术(北京)股份有限公司 多媒体文件分类方法及装置
CN108959441A (zh) * 2018-06-13 2018-12-07 新华智云科技有限公司 一种基于局部敏感哈希的近相似快速查找方法
CN109460500A (zh) * 2018-10-24 2019-03-12 深圳市腾讯计算机系统有限公司 热点事件发现方法、装置、计算机设备和存储介质
CN111581956A (zh) * 2020-04-08 2020-08-25 国家计算机网络与信息安全管理中心 基于bert模型和k近邻的敏感信息识别方法及系统
CN111581956B (zh) * 2020-04-08 2022-09-13 国家计算机网络与信息安全管理中心 基于bert模型和k近邻的敏感信息识别方法及系统

Similar Documents

Publication Publication Date Title
CN104715021B (zh) 一种基于哈希方法的多标记学习的学习方法
CN102799614B (zh) 基于视觉词语空间共生性的图像检索方法
CN104778234A (zh) 基于局部敏感哈希技术的多标记文件近邻查询方法
Karvelis et al. Topic recommendation using Doc2Vec
CN104573130A (zh) 基于群体计算的实体解析方法及装置
Qin et al. Joint specifics and consistency hash learning for large-scale cross-modal retrieval
Zhai et al. Effective heterogeneous similarity measure with nearest neighbors for cross-media retrieval
Papadopoulos et al. Image clustering through community detection on hybrid image similarity graphs
Feng et al. Transductive multi-instance multi-label learning algorithm with application to automatic image annotation
Li et al. Consistency-Preserving deep hashing for fast person re-identification
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
Tian et al. Query difficulty prediction for web image search
Wu et al. Distance metric learning from uncertain side information for automated photo tagging
Zhao et al. Multi-scale Context Deep Hashing for Remote Sensing Image Retrieval
Zhang et al. Hierarchical one permutation hashing: efficient multimedia near duplicate detection
Xu et al. Image annotation by learning label-specific distance metrics
Li et al. Nonlinear embedding neural codes for visual instance retrieval
Chatzilari et al. Leveraging social media for scalable object detection
Chen et al. Multi-modal multi-layered topic classification model for social event analysis
Zhu et al. Evolution of ICTs-empowered-identification: A general re-ranking method for person re-identification
Ji et al. Vocabulary hierarchy optimization and transfer for scalable image search
Mercy Rajaselvi Beaulah et al. Categorization of images using autoencoder hashing and training of intra bin classifiers for image classification and annotation
Xu et al. Academic Expert Finding via $(k,\mathcal {P}) $-Core based Embedding over Heterogeneous Graphs
Tian et al. Learning label set relevance for search based image annotation
Ye et al. DLMSearch: Diversified landmark search by photo

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150715

RJ01 Rejection of invention patent application after publication