CN103631928A - 一种基于局部敏感哈希的聚类索引方法及系统 - Google Patents

一种基于局部敏感哈希的聚类索引方法及系统 Download PDF

Info

Publication number
CN103631928A
CN103631928A CN201310652980.9A CN201310652980A CN103631928A CN 103631928 A CN103631928 A CN 103631928A CN 201310652980 A CN201310652980 A CN 201310652980A CN 103631928 A CN103631928 A CN 103631928A
Authority
CN
China
Prior art keywords
point
cluster
candidate
class
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310652980.9A
Other languages
English (en)
Other versions
CN103631928B (zh
Inventor
谢洪涛
王鹏
徐克付
谭建龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201310652980.9A priority Critical patent/CN103631928B/zh
Publication of CN103631928A publication Critical patent/CN103631928A/zh
Application granted granted Critical
Publication of CN103631928B publication Critical patent/CN103631928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于局部敏感哈希的聚类索引方法及系统,所述方法包括:步骤1,对数据集进行聚类分析,将数据集分成若干个类,并确定和保存每个类的聚类中心;步骤2,在每个类中采用局部敏感哈希方法建立哈希表;步骤3,计算各聚类中心与查询点之间的欧式距离,选择距离最小的多个类作为候选类;步骤4,计算查询点在每个候选类中的哈希值,根据步骤2建立的哈希表,选出候选类中与查询点哈希值相同的数据点作为候选点;步骤5,计算候选点与查询点之间的欧式距离,将欧式距离最小的候选点作为查询点的最近邻点。本发明可以在牺牲较小准确率的情况下换取查询效率的较大提高和查询性能的相对稳定。

Description

一种基于局部敏感哈希的聚类索引方法及系统
技术领域
本发明涉及信息过滤技术领域,特别是涉及一种基于局部敏感哈希(Locality Sensitive Hashing,简称为LSH)的聚类索引方法及系统。
背景技术
以下是本领域中的一些名词解释,其使用范围仅限于本发明:
哈希桶(HashBucket):哈希表中同一个位置可能存有多个元素,以应对哈希冲突问题,这样,哈希表中的每个位置表示一个哈希桶。
最近邻点:最近邻搜索是一个在尺度空间中寻找最近邻点的优化问题,即在尺度空间M中给定一个点集S和一个目标点q∈M,在S中找到距离q最近的点,该点即为最近邻点。
随着互联网的飞速发展,互联网上的图像数量呈现几何级数增长,比如Facebook当前的图像数量就已经达到150亿张,而且还以每天1亿张的数量在增加。伴随着网上图像信息的快速增长,随之而来的问题是图像内容良莠不齐,所以需要进行管理。通过基于内容的图像过滤可以实现对图像的管理。图像过滤需要对图像进行描述,生成的特征描述符一般都是高维向量,如果不使用索引直接进行蛮力匹配,结果将是无法想像的,无法实现实时性。所以索引对于图像过滤是不可或缺的,而且过滤的效率直接由索引所决定。近些年来,为了提高匹配速度提出了近似最近邻索引方法。就是牺牲部分精度以换取速度的大幅提高,而局部敏感哈希索引方法(LSH)是当前最成功的近似最近邻方法。但由于数据集分布的不规则性,导致了数据点在局部敏感哈希表中分布不均匀,同时原始的局部敏感哈希方法是对全部数据集总体进行哈希映射,从而导致匹配的速度受到限制和匹配性能对数据集分布的不均匀性比较敏感。已经有一些论文从优化局部敏感哈希参数的角度来提高哈希函数对数据集的适应性,但由于需要哈希函数适应数据集致使哈希函数的选取的随机性受到限制,同时由于还是对整个数据集进行哈希映射和查询,所以查询匹配速度并未较原始的LSH有所提高。
因此,本发明提出了一种基于LSH的聚类索引方法。
发明内容
本发明所要解决的技术问题是提供一种基于LSH的聚类索引方法及系统,用于实现数据集经哈希映射后,在哈希表中分布相对均匀,并且提高查询匹配的速度。
本发明解决上述技术问题的技术方案如下:一种基于局部敏感哈希的聚类索引方法,包括:
步骤1,对数据集进行聚类分析,将数据集分成若干个类,并确定和保存每个类的聚类中心;
步骤2,在每个类中采用局部敏感哈希方法建立哈希表;
步骤3,计算各聚类中心与查询点之间的欧式距离,选择距离最小的多个类作为候选类;
步骤4,计算查询点在每个候选类中的哈希值,根据步骤2建立的哈希表,选出候选类中与查询点哈希值相同的数据点作为候选点;
步骤5,计算候选点与查询点之间的欧式距离,将欧式距离最小的候选点作为查询点的最近邻点。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述对数据集进行聚类分析具体包括:
步骤11,预先确定进行聚类的类别数K,在数据集中随机选取K个数据点,作为聚类中心μj,其中j=1,2,…,K;
步骤12,对数据集中聚类中心以外的数据点,分别计算其与各聚类中心的欧式距离,并将各数据点归入与其欧氏距离最近的类中,并重新计算各类的聚类中心μj
步骤13,重复步骤12,直到数据集中所有数据点均归入相应的类,且直到聚类中心稳定,并保存每一个类的聚类中心。
进一步,所述步骤12中重新计算各类的聚类中心μj具体包括:重新取各类的几何中心作为其聚类中心。
进一步,所述步骤2具体包括:
步骤21,生成各维服从高斯分布的一个向量r,r的维数与数据点维数相同;
步骤22,计算各数据点的哈希值;
步骤23,将计算所得哈希值,以链表形式存放;
步骤24,将上部分的链表形式转换成混合类型结构存储在连续的存储表里,完成各类对应的哈希表的构建。
进一步,所述步骤2还包括将所有数据点映射到相应哈希表的哈希桶中。
对应地,本发明的技术方案还包括一种基于局部敏感哈希的聚类索引系统,其结构包括聚类分析模块、哈希表构建模块、候选类确定模块、候选点确定模块和最近邻点输出模块:
所述聚类分析模块,其用于数据集进行聚类分析,将数据集分成若干个类,并确定和保存每个类的聚类中心。
所述哈希表构建模块,其连接所述聚类分析模块,用于在所述聚类分析模块分成的每个类中采用局部敏感哈希方法建立哈希表。
所述候选类确定模块,其连接所述聚类分析模块,用于计算各聚类中心与查询点之间的欧式距离,选择距离最小的多个类作为候选类。
所述候选点确定模块,其连接所述候选类确定模块和所述哈希表构建模块,用于计算查询点在每个候选类中的哈希值,并根据哈希表构建模块建立的哈希表,选出候选类中与查询点哈希值相同的数据点作为候选点。
所述最近邻点输出模块,其连接所述候选点确定模块,用于计算候选点与查询点之间的欧式距离,将欧式距离最小的候选点作为查询点的最近邻点。
进一步,所述聚类分析模块具体包括:
预处理模块,其用于预先确定进行聚类的类别数K,并在数据集中随机选取K个数据点,作为聚类中心μj,其中j=1,2,…,K。
数据点归类模块,其用于对预处理模块中确定的聚类中心以外的数据点,分别计算其与各聚类中心的欧式距离,并将各数据点归入与其欧氏距离最近的类中,并重新计算各类的聚类中心μj
聚类中心保存模块,其在数据集中所有数据点均归入相应的类后,保存每一个类的聚类中心。
进一步,所述数据点归类模块重新计算各类的聚类中心μj具体包括:重新取各类的几何中心作为其聚类中心。
进一步,所述哈希表构建模块还包括将所有数据点映射到相应哈希表的哈希桶中。
本发明的有益效果是:
一、先将数据集先进行聚类,以使相似的数据点先聚合在一起,聚类后类内部的数据分布相对均匀,这样就大大减少了由于数据分布不均匀造成的匹配性能不稳定。
二、针对每类的内部使用局部敏感哈希方法建立哈希表,数据点在所建哈希表内分布与传统LSH相比要更均匀,在匹配时性能比较稳定。
三、针对聚类导致的边缘点与聚类中心的差异导致的匹配精度下降,查询运用多探测方法,即确定多个候选类,在每个候选类中选出候选点,最后再确定最近邻点,提高了查询的精度。
综上,本发明的聚类索引方法与系统适用于大规模数据集,可以在牺牲较小准确率的情况下换取查询效率的较大提高和查询性能的相对稳定。
附图说明
图1为本发明所述基于LSH的聚类索引方法的流程示意图;
图2为传统LSH对整个数据集进行哈希映射的示意图;
图3为本发明对聚类后的数据集进行哈希映射的示意图;
图4为本发明进行查询匹配过程的示意图;
图5为本发明所述基于LSH的聚类索引系统的结构示意图;
图6为本发明所述聚类分析模块的结构示意图。
附图中,各标号所代表的部件列表如下:
1、查询点,2、聚类中心,3、哈希表,4、候选集,5、最近邻点,6、聚类分析模块,7、哈希表构建模块,8、候选类确定模块,9、候选点确定模块,10、最近邻点输出模块,51、预处理模块,52、数据点归类模块,53、聚类中心保存模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
传统的搜索匹配策略采用树形索引结构,当数据维数较低时搜索速度较快,但当维数大于十时甚至搜索速度还不如线性查找。LSH方法利用将相似的数据点映射到相同的哈希桶中,匹配时计算查询点的哈希值,将与其哈希值相同的哈希桶中的点作为候选点,计算候选点与查询点间欧氏距离,返回计算所得最近邻点。LSH方法通过哈希函数映射的方法以一定的概率保证返回真正的最近邻点,从而很大程度上提高了匹配的速度。但是由于LSH是对全部数据集进行哈希映射的,所以其在查询时速度还是受到限制,同时由于数据集分布的不均匀性,导致数据点在哈希表中分布不均匀。
因此,本实施例提出了一种基于局部敏感哈希的聚类索引方法,如图1所示,其具体包括以下步骤:
步骤1,对数据集进行聚类分析,将数据集分成若干个类,并确定和保存每个类的聚类中心;
步骤2,在每个类中采用局部敏感哈希方法建立哈希表;
步骤3,计算各聚类中心与查询点之间的欧式距离,选择距离最小的多个类作为候选类;
步骤4,计算查询点在每个候选类中的哈希值,根据步骤2建立的哈希表,选出候选类中与查询点哈希值相同的数据点作为候选点;
步骤5,计算候选点与查询点之间的欧式距离,将欧式距离最小的候选点作为查询点的最近邻点。
上述步骤的具体实施过程如下所述。
一、对数据集进行聚类分析
(1)预先选取K值(聚类的类别数,本实施例中先选定K=60),即有K个聚类中心,在数据集中随机选取K个数据点,作为聚类中心μj(j=1,2...,k)。
(2)继续上一步,选取数据集中剩余的点,分别计算选取点与聚类中心的欧氏距离,将选取点归入与其欧氏距离最近的类Ci中,即:
Ci:=argmin||x(i)j||2
式中,x表示选取点,i表示类的数目,且i=1,2,…,m,m表示类个数的最大值。
以Ci的几何中心作为调整后的聚类中心,采用公式如下:
μ j : = Σ i = 1 m 1 { C i = j } x ( i ) Σ i = 1 m { C i = j }
式中,参数含义参照上文各公式,而上式的分子表示的是属于第j类的数据点的对应维的坐标和,分母表示属于第j类的数据点的个数。
如此循环,直到数据集中所有点都归入相应的簇为止,并保存每一类的聚类中心。
(3)由于聚类方法对初始聚类中心选择较敏感,所以本实施例通过在所用数据集上的实验,最终选定120个聚类,即K=120。
二、针对已经聚类的每类内部数据点应用局部敏感哈希方法建立相应的哈希表。
设数据点维数为d,每类中哈希表数为L,每个哈希表由M个哈希映射
Figure BDA0000430860030000072
组成,其中x表示数据点,r向量各维服从高斯分布,b服从[0,w]上的均匀分布。具体步骤如下:
(1)首先生成各维服从高斯分布的向量r,r的维数与数据点维数相同。
(2)计算各数据点的Hash映射值。
(3)将计算所得Hash值,以链表的形式存在链表里。
(4)将上部分的链表形式转换成混合类型结构存储在连续的存储表里。
以上步骤就完成一个哈希表的创建,每个类中包括L个不同的哈希表,创建方法相同。此方法较原始的局部敏感哈希所生成的哈希索引数据分布更均衡,使得在匹配时由于数据分布不均匀所造成的查询性能不稳定性大大减小。图2及图3分别表示采用传统LSH方法和本实施例的聚类索引方法的效果图,通过对比可以看出,图2中原先整个数据集在映射向量上的投影比较集中,图3中将数据集聚类后针对每类中的数据分别进行映射,可以看出每类数据在映射向量上投影相对于将整个数据集一起映射要均匀很多。
三、查询匹配阶段。
由于考虑到聚类后所造成的中心和边缘点的差异导致匹配精度下降,本实施例通过多探测机制来提高匹配的精度,如图4所示,具体步骤如下:
(1)首先计算查询点1与各聚类中心点2的欧氏距离,按照从小到大的顺序排序,并按照多探测数目N,选取与聚类中心欧氏距离最小的N个类,作为候选类。
(2)分别在N个候选类中,计算查询点的哈希值,根据建立的哈希表3,将候选类中与查询点哈希值相同的哈希桶中的点作为候选点,组成候选集4。
(3)在上一步基础上,进一步计算查询点与候选点的欧氏距离,将欧式距离最小的候选点作为查询点的最近邻点5,并返回最近邻点5。
如图5所示,对应上述聚类索引方法,本实施例还提供了一种基于局部敏感哈希的聚类索引系统,其结构包括聚类分析模块6、哈希表构建模块7、候选类确定模块8、候选点确定模块9和最近邻点输出模块10:
所述聚类分析模块6,其用于数据集进行聚类分析,将数据集分成若干个类,并确定和保存每个类的聚类中心。
所述哈希表构建模块7,其连接所述聚类分析模块6,用于在所述聚类分析模块6分成的每个类中采用局部敏感哈希方法建立哈希表,还用于将所有数据点映射到相应哈希表的哈希桶中。
所述候选类确定模块8,其连接所述聚类分析模块6,用于计算各聚类中心与查询点之间的欧式距离,选择距离最小的多个类作为候选类。
所述候选点确定模块9,其连接所述候选类确定模块8和所述哈希表构建模块7,用于计算查询点在每个候选类中的哈希值,并根据哈希表构建模块建立的哈希表,选出候选类中与查询点哈希值相同的数据点作为候选点。
所述最近邻点输出模块10,其连接所述候选点确定模块9,用于计算候选点与查询点之间的欧式距离,将欧式距离最小的候选点作为查询点的最近邻点。
本实施例中,如图6所示,所述聚类分析模块5具体包括:
预处理模块51,其用于预先确定进行聚类的类别数K,并在数据集中随机选取K个数据点,作为聚类中心μj,其中j=1,2,…,K;
数据点归类模块52,其用于对预处理模块51中确定的聚类中心以外的数据点,分别计算其与各聚类中心的欧式距离,并将各数据点归入与其欧氏距离最近的类中,并重新计算各类的聚类中心μj,即取各类的几何中心作为其聚类中心;
聚类中心保存模块53,其在数据集中所有数据点均归入相应的类后,保存每一个类的聚类中心。
该基于局部敏感哈希的聚类索引系统与上述的聚类索引方法的方案一一对应,其具体的实施过程参考上文相关描述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于局部敏感哈希的聚类索引方法,其特征在于,包括:
步骤1,对数据集进行聚类分析,将数据集分成若干个类,并确定和保存每个类的聚类中心;
步骤2,在每个类中采用局部敏感哈希方法建立哈希表;
步骤3,计算各聚类中心与查询点之间的欧式距离,选择距离最小的多个类作为候选类;
步骤4,计算查询点在每个候选类中的哈希值,根据步骤2建立的哈希表,选出候选类中与查询点哈希值相同的数据点作为候选点;
步骤5,计算候选点与查询点之间的欧式距离,将欧式距离最小的候选点作为查询点的最近邻点。
2.根据权利要求1所述的聚类索引方法,其特征在于,所述对数据集进行聚类分析具体包括:
步骤11,预先确定进行聚类的类别数K,在数据集中随机选取K个数据点,作为聚类中心μj,其中j=1,2,…,K;
步骤12,对数据集中聚类中心以外的数据点,分别计算其与各聚类中心的欧式距离,并将各数据点归入与其欧氏距离最近的类中,并重新计算各类的聚类中心μj
步骤13,重复步骤12,直到数据集中所有数据点均归入相应的类,并保存每一个类的聚类中心。
3.根据权利要求2所述的聚类索引方法,其特征在于,所述步骤12中重新计算各类的聚类中心μj具体包括:重新取各类的几何中心作为其聚类中心。
4.根据权利要求1所述的聚类索引方法,其特征在于,所述步骤2具体包括:
步骤21,生成各维服从高斯分布的一个向量r,r的维数与数据点维数相同;
步骤22,计算各数据点的哈希值;
步骤23,将计算所得哈希值,以链表形式存放;
步骤24,将上部分的链表形式转换成混合类型结构存储在连续的存储表里,完成各类对应的哈希表的构建。
5.根据权利要求1或4所述的聚类索引方法,其特征在于,所述步骤2还包括将所有数据点映射到相应哈希表的哈希桶中。
6.一种基于局部敏感哈希的聚类索引系统,其特征在于,包括聚类分析模块、哈希表构建模块、候选类确定模块、候选点确定模块和最近邻点输出模块:
所述聚类分析模块,其用于数据集进行聚类分析,将数据集分成若干个类,并确定和保存每个类的聚类中心;
所述哈希表构建模块,其连接所述聚类分析模块,用于在所述聚类分析模块分成的每个类中采用局部敏感哈希方法建立哈希表;
所述候选类确定模块,其连接所述聚类分析模块,用于计算各聚类中心与查询点之间的欧式距离,选择距离最小的多个类作为候选类;
所述候选点确定模块,其连接所述候选类确定模块和所述哈希表构建模块,用于计算查询点在每个候选类中的哈希值,并根据哈希表构建模块建立的哈希表,选出候选类中与查询点哈希值相同的数据点作为候选点;
所述最近邻点输出模块,其连接所述候选点确定模块,用于计算候选点与查询点之间的欧式距离,将欧式距离最小的候选点作为查询点的最近邻点。
7.根据权利要求6所述的聚类索引系统,其特征在于,所述聚类分析模块具体包括:
预处理模块,其用于预先确定进行聚类的类别数K,并在数据集中随机选取K个数据点,作为聚类中心μj,其中j=1,2,…,K;
数据点归类模块,其用于对预处理模块中确定的聚类中心以外的数据点,分别计算其与各聚类中心的欧式距离,并将各数据点归入与其欧氏距离最近的类中,并重新计算各类的聚类中心μj
聚类中心保存模块,其在数据集中所有数据点均归入相应的类后,保存每一个类的聚类中心。
8.根据权利要求7所述的聚类索引系统,其特征在于,所述数据点归类模块重新计算各类的聚类中心μj具体包括:重新取各类的几何中心作为其聚类中心。
9.根据权利要求6所述的聚类索引系统,其特征在于,所述哈希表构建模块还包括将所有数据点映射到相应哈希表的哈希桶中。
CN201310652980.9A 2013-12-05 2013-12-05 一种基于局部敏感哈希的聚类索引方法及系统 Active CN103631928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310652980.9A CN103631928B (zh) 2013-12-05 2013-12-05 一种基于局部敏感哈希的聚类索引方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310652980.9A CN103631928B (zh) 2013-12-05 2013-12-05 一种基于局部敏感哈希的聚类索引方法及系统

Publications (2)

Publication Number Publication Date
CN103631928A true CN103631928A (zh) 2014-03-12
CN103631928B CN103631928B (zh) 2017-02-01

Family

ID=50212969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310652980.9A Active CN103631928B (zh) 2013-12-05 2013-12-05 一种基于局部敏感哈希的聚类索引方法及系统

Country Status (1)

Country Link
CN (1) CN103631928B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199827A (zh) * 2014-07-24 2014-12-10 北京大学 基于局部敏感哈希的大规模多媒体数据的高维索引方法
CN104391866A (zh) * 2014-10-24 2015-03-04 宁波大学 一种基于高维数据过滤器的近似成员查询方法
CN104866471A (zh) * 2015-06-05 2015-08-26 南开大学 一种基于局部敏感哈希策略的实例匹配方法
CN105095212A (zh) * 2014-04-22 2015-11-25 华为技术有限公司 创建哈希表的方法和设备
CN105138527A (zh) * 2014-05-30 2015-12-09 华为技术有限公司 一种数据分类回归方法及装置
CN105183792A (zh) * 2015-08-21 2015-12-23 东南大学 一种基于局部敏感哈希的分布式快速文本分类方法
CN106228035A (zh) * 2016-07-07 2016-12-14 清华大学 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
CN106599686A (zh) * 2016-10-12 2017-04-26 四川大学 一种基于tlsh特征表示的恶意软件聚类方法
CN106777130A (zh) * 2016-12-16 2017-05-31 西安电子科技大学 一种索引生成方法、数据检索方法和装置
CN107103206A (zh) * 2017-04-27 2017-08-29 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107291895A (zh) * 2017-06-21 2017-10-24 浙江大学 一种快速的层次化文档查询方法
CN107656989A (zh) * 2017-09-13 2018-02-02 华中科技大学 云存储系统中基于数据分布感知的近邻查询方法
CN108959441A (zh) * 2018-06-13 2018-12-07 新华智云科技有限公司 一种基于局部敏感哈希的近相似快速查找方法
CN109243529A (zh) * 2018-08-28 2019-01-18 福建师范大学 基于局部敏感哈希的水平转移基因识别方法
CN109344154A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 数据处理方法、装置、电子设备及存储介质
CN110399530A (zh) * 2018-04-20 2019-11-01 杭州海康威视数字技术股份有限公司 数据匹配方法、装置及计算机设备
CN110889424A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置
CN111695917A (zh) * 2019-03-11 2020-09-22 北京京东尚科信息技术有限公司 商品推荐方法、系统、电子设备和存储介质
CN112860898A (zh) * 2021-03-16 2021-05-28 哈尔滨工业大学(威海) 一种短文本框聚类方法、系统、设备及存储介质
CN113407786A (zh) * 2021-06-22 2021-09-17 深圳大学 基于欧氏距离的度量空间索引构建方法、装置及相关设备
CN113641870A (zh) * 2021-10-18 2021-11-12 北京微播易科技股份有限公司 向量索引构建方法、向量检索方法和与方法对应的系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506843A (zh) * 2006-08-14 2009-08-12 微软公司 图像中的对象的自动分类
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
CN102609441A (zh) * 2011-12-27 2012-07-25 中国科学院计算技术研究所 基于分布熵的局部敏感哈希高维索引方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506843A (zh) * 2006-08-14 2009-08-12 微软公司 图像中的对象的自动分类
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
CN102609441A (zh) * 2011-12-27 2012-07-25 中国科学院计算技术研究所 基于分布熵的局部敏感哈希高维索引方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹玉东等: "基于局部敏感哈希算法的图像高维数据索引技术的研究", 《辽宁工业大学学报(自然科学版)》 *
王旭乐: "基于内容的图像检索系统中高维索引技术的研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095212B (zh) * 2014-04-22 2018-10-09 华为技术有限公司 创建哈希表的方法和设备
CN105095212A (zh) * 2014-04-22 2015-11-25 华为技术有限公司 创建哈希表的方法和设备
CN105138527B (zh) * 2014-05-30 2019-02-12 华为技术有限公司 一种数据分类回归方法及装置
CN105138527A (zh) * 2014-05-30 2015-12-09 华为技术有限公司 一种数据分类回归方法及装置
CN104199827A (zh) * 2014-07-24 2014-12-10 北京大学 基于局部敏感哈希的大规模多媒体数据的高维索引方法
CN104199827B (zh) * 2014-07-24 2017-08-04 北京大学 基于局部敏感哈希的大规模多媒体数据的高维索引方法
CN104391866B (zh) * 2014-10-24 2017-07-28 宁波大学 一种基于高维数据过滤器的近似成员查询方法
CN104391866A (zh) * 2014-10-24 2015-03-04 宁波大学 一种基于高维数据过滤器的近似成员查询方法
CN104866471B (zh) * 2015-06-05 2017-09-19 南开大学 一种基于局部敏感哈希策略的实例匹配方法
CN104866471A (zh) * 2015-06-05 2015-08-26 南开大学 一种基于局部敏感哈希策略的实例匹配方法
CN105183792A (zh) * 2015-08-21 2015-12-23 东南大学 一种基于局部敏感哈希的分布式快速文本分类方法
CN106228035A (zh) * 2016-07-07 2016-12-14 清华大学 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
CN106228035B (zh) * 2016-07-07 2019-03-01 清华大学 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
CN106599686B (zh) * 2016-10-12 2019-06-21 四川大学 一种基于tlsh特征表示的恶意软件聚类方法
CN106599686A (zh) * 2016-10-12 2017-04-26 四川大学 一种基于tlsh特征表示的恶意软件聚类方法
CN106777130A (zh) * 2016-12-16 2017-05-31 西安电子科技大学 一种索引生成方法、数据检索方法和装置
CN106777130B (zh) * 2016-12-16 2020-05-12 西安电子科技大学 一种索引生成方法、数据检索方法和装置
CN107103206B (zh) * 2017-04-27 2019-10-18 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107103206A (zh) * 2017-04-27 2017-08-29 福建师范大学 基于标准熵的局部敏感哈希的dna序列聚类
CN107291895A (zh) * 2017-06-21 2017-10-24 浙江大学 一种快速的层次化文档查询方法
CN107291895B (zh) * 2017-06-21 2020-05-26 浙江大学 一种快速的层次化文档查询方法
CN107656989A (zh) * 2017-09-13 2018-02-02 华中科技大学 云存储系统中基于数据分布感知的近邻查询方法
CN107656989B (zh) * 2017-09-13 2019-09-13 华中科技大学 云存储系统中基于数据分布感知的近邻查询方法
CN110399530A (zh) * 2018-04-20 2019-11-01 杭州海康威视数字技术股份有限公司 数据匹配方法、装置及计算机设备
CN108959441A (zh) * 2018-06-13 2018-12-07 新华智云科技有限公司 一种基于局部敏感哈希的近相似快速查找方法
CN109344154B (zh) * 2018-08-22 2023-05-30 中国平安人寿保险股份有限公司 数据处理方法、装置、电子设备及存储介质
CN109344154A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 数据处理方法、装置、电子设备及存储介质
CN109243529A (zh) * 2018-08-28 2019-01-18 福建师范大学 基于局部敏感哈希的水平转移基因识别方法
CN109243529B (zh) * 2018-08-28 2021-09-07 福建师范大学 基于局部敏感哈希的水平转移基因识别方法
CN110889424A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置
CN110889424B (zh) * 2018-09-11 2023-06-30 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置
CN111695917A (zh) * 2019-03-11 2020-09-22 北京京东尚科信息技术有限公司 商品推荐方法、系统、电子设备和存储介质
CN112860898A (zh) * 2021-03-16 2021-05-28 哈尔滨工业大学(威海) 一种短文本框聚类方法、系统、设备及存储介质
CN113407786A (zh) * 2021-06-22 2021-09-17 深圳大学 基于欧氏距离的度量空间索引构建方法、装置及相关设备
CN113641870A (zh) * 2021-10-18 2021-11-12 北京微播易科技股份有限公司 向量索引构建方法、向量检索方法和与方法对应的系统
CN113641870B (zh) * 2021-10-18 2022-02-11 北京微播易科技股份有限公司 向量索引构建方法、向量检索方法和与方法对应的系统

Also Published As

Publication number Publication date
CN103631928B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN103631928A (zh) 一种基于局部敏感哈希的聚类索引方法及系统
Zamir et al. Image geo-localization based on multiplenearest neighbor feature matching usinggeneralized graphs
Galvez-Lopez et al. Real-time loop detection with bags of binary words
Li et al. Motion-alert: automatic anomaly detection in massive moving objects
CN102890703B (zh) 一种网络异质多维标度方法
CN104112005B (zh) 分布式海量指纹识别方法
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN104156433A (zh) 一种基于语义映射空间构建的图像检索方法
CN105354578A (zh) 一种多目标物体图像匹配方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN106599915A (zh) 一种车载激光点云分类方法
CN104899326A (zh) 一种基于二进制多索引哈希技术的图像检索方法
CN105844647A (zh) 一种基于颜色属性的核相关目标跟踪方法
Gulzar et al. Optimizing skyline query processing in incomplete data
CN104361135A (zh) 一种图像检索方法
CN103761503A (zh) 用于相关反馈图像检索的自适应训练样本选取方法
Sundarakumar et al. A heuristic approach to improve the data processing in big data using enhanced Salp Swarm algorithm (ESSA) and MK-means algorithm
CN108875828A (zh) 一种相似图像的快速匹配方法和系统
CN107067035A (zh) 协同演化算法优化的支持向量机湿地遥感分类方法
CN107123138A (zh) 基于vanilla‑R点对剔除策略的点云配准算法
CN106020724A (zh) 一种基于数据映射算法的近邻存储方法
CN105302833A (zh) 一种基于内容的视频检索数学模型建立方法
CN101817001A (zh) 一种信封图像的查询方法
CN104699701A (zh) 基于敏感哈希的并行最邻近节点计算方法及分布式系统
Elbatta et al. A vibration method for discovering density varied clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant