CN110059208A

CN110059208A - 利用倒排索引筛选出与查询点碰撞次数较高的分布式数据处理方法

Info

Publication number: CN110059208A
Application number: CN201910324441.XA
Authority: CN
Inventors: 汪祖民; 季长清
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2016-02-05
Filing date: 2016-02-05
Publication date: 2019-07-26
Also published as: CN105760469A; CN110046268A; CN110046268B; CN105760469B

Abstract

本分案申请公开了一种利用倒排索引筛选出与查询点碰撞次数较高的分布式数据处理方法，属于基于大数据与移动应用领域，解决降低高维索引代价的问题，多次碰撞直至将数据全部哈希，筛选出碰撞次数相对比较高的对象,对象d为对象q的临近点的概率最高，对象d是碰撞可能性最高的对象，用碰撞计数统计代替实际的值，统计碰撞的次数作为最后的排序结果，减小中间数据量，从加快的处理速度，效果是提高了查询效率。

Description

利用倒排索引筛选出与查询点碰撞次数较高的分布式数据处理方法

本申请是申请号为201610083263.2，申请日为2016-02-05，发明创造名称为云计算环境下基于倒排LSH的高维近似图象检索方法的发明专利申请的分案申请。

技术领域

本发明属于基于大规模时空数据处理与移动技术应用领域，涉及一种云计算环境下基于倒排LSH的高维近似图象检索方法

背景技术

现在网络基本覆盖了人们的生活，手机上网成为主要上网模式。截至2014年6月，我国网民上网设备中，手机使用率达83.4％，首次超越传统PC(使用台式机和笔记本)整体使用率80.9％，手机作为第一大上网终端设备的地位更加巩固。如今信息技术发展十分迅速，各种形式的信息数量也在迅速增长中，随着用户检索要求多样化复杂化，用户不再满足于简单的文字检索，而将图像作为一种重要的信息载体，日常生活当中充斥着丰富多样的图像信息。例如用户看到喜欢的漂亮头像，想找类似的头像、看到一款衣服或裙子，想找类似的款等等这种用文字表达不方便，而有图片参考的检索需求。

如今信息技术发展十分迅速，各种形式的信息数量也在迅速增长中，随着用户检索要求多样化复杂化，用户已不再满足于简单的文字检索，而更倾向图像这一信息检索。日常生活当中充斥着丰富多样的图像信息。例如用户看到喜欢的头像，想找类似的样式，或是看到一款衣服或裙子，想找类似的款试等等。这种情况用文字表达不方便，但用图片却能极快满足用户的检索需求。智能手机作为图像的采集器当然必不可少。根据新数据了解，2015年全球智能手机用户将达19.1亿，2016年该指数将增长12.6％达到21.6亿。智能手机将逐渐占领信息通讯市场。

那么，研究用户应该如何做到依据图像在这么多选择中快速地找到自己需要的信息，怎样提供一种快速有效的方法来进行图像检索已经成为当今图像检索领域的一个至关重要的研究热点。现有的研究工作中，通常的做法是先对图像的高维数据根据特定的方法(如图像中常用的sift算子)来提取高维特征，然后根据特征建立索引来加快查询速度。但不同的数据特征下，向量维数通常高达几十甚至几百维，而且每个维度的数据量都很大，这就要求高维索引结构具有较好的维度扩展性，即随着维数的增加，索引仍然能够保持较好的性能。遗憾的是，现在绝大多数传统的空间索引技术都会遇到维灾难等问题，比如Rtree与Voronoi等索引，总的来说，当前的高维特征索引技术存在以下不足：(1)大多数传统的索引结构扩展性差与遇到维灾难问题；(2)多数传统索引机制在划分数据空间时，对数据分布做了一定的假设(如均匀分布)，通常与数据的真实分布(如倾斜分布、Zipf分正态分布等)不同；(3)多数高维索引结构的空间和时间复杂度较高、精度较差。

发明内容

为了解决现有基于位置敏感哈希索引无法适应分布式索引，本发明提出了一种云计算环境下基于倒排LSH的高维近似图象检索方法，可以实现置敏感哈希索引适应分布式索引。

为了实现上述目的，本发明采用如下技术方案：一种云计算环境下基于倒排LSH的高维近似图象检索方法，包括步骤：客户端采集并提取图片特征，与云中心服务系统通信；云中心服务系统建立基于位置敏感哈希分布式倒排索引并查询与采集图片对应的近邻图像。

有益效果：由于云中心服务系统建立了基于倒排位置敏感哈希索引，使得位置敏感哈希索引可以适应分布式查询，使得本发明解决了信息量过大、所需信息与显示图片不符等问题，尽可能帮助使用者节省了检索与查询的时间。

附图说明

图1云计算环境下基于倒排位置敏感哈希索引的大规模高维图像检索的原理图；

图2本发明基于分布式倒排网格索引的kNN算法过程；

图3本发明的功能模块图；

图4本发明的图像检索流程图；

图5本发明实现图像查找流程图。

具体实施方式

实施例1:一种云计算环境下基于倒排LSH的高维近似图象检索方法，包括步骤：客户端采集并提取图片特征，与云中心服务系统通信；云中心服务系统利用云端强大分布计算能力，建立基于倒排位置敏感哈希索引并查询与采集图片对应的近邻图像。

一般的，kNN算法是基于分布式倒排索引的，而基于位置敏感哈希索引并非分布式索引，为了可以适应分布式索引，建立基于位置敏感哈希分布式倒排索引：该技术方案中，是在建立基于位置敏感哈希索引时，分出若干个Hash桶，将Hash桶作为Key，Hash桶内的点集作为Value，使用MapReduce进行分布式求解。该技术方案，将基于位置敏感哈希索引解析为Key-Value结构以适应分布式索引，使得该索引可以使用kNN算法实现查询；且分布式索引可以实现将相邻点汇集到相邻近Hash桶(相似数据哈希到同一区域)，可以加快查询速度。

本技术方案中，作为优选，LSH将高维空间中的对象视为带有位置信息的空间数据点，通过一族哈希函数F()将空间所有对象点映射到m个哈希表T_i中，其中m＝|F|，即每个哈希函数f∈F对应一个哈希表，每个哈希表都存放着空间中所有的对象点。给定一个查询点q，分别计算每个q点在哈希函数中的结果值：{f_1(q),f_2(q)…f_m(q),f_i∈F,i＝1,2…m}.将所有f_i(q)落入到哈希表T_i桶中的点作为候选集，用以计算与q之间的距离，最终排序选出距离最近的k个点，即得到kNN结果集。

上述技术方案用于解决海量数据环境下的高维数据检索问题，高维数据向量实际上是对一个文本的抽象，然后我们结合位置敏感哈希函数的特性，对高维向量利用哈希投影技术进行降维，将其作为哈希索引值，对应的高维向量作为数据记录，对其它数据也进行同样的哈希操作，将所得结果进行筛选和查询优化，得到最终候选的结果集。

传统的LSH算法，只能在单机下执行，但受限于单计算机节点在性能、计算与存储资源的不足。尤其在高维数据下，随着维灾难的出现，这种局限更为严重。

在大规模数据下，原有为单机设计的空间索引与典型的查询算法，也需要在分布式环境下进行重新设计与优化。研究如何引入云计算中分布式处理及空间索引优化技术相融合，解决有效地大规模空间检索的问题是需要进一步开拓的新研究点。

在分布式技术中，利用分布式文件系统可以科学地将所有的多媒体数据根据不同的网络环境等因素存储在所有不同的计算机节点里，并通过网络互联起来，实现了化整为零，解决了大规模数据存储的问题。并且，由于所有数据都存储在不同的计算机节点，整体系统的数据安全性、可行性和读写效率等方面也有了很大的提高。分布式技术在计算方面有比较成熟的模型，可以提高系统的计算速度以及相应能力,比如已经提出并应用的Google分布式文件系统。

基于以上几点，利用分布式技术能够很好地提高LSH算法的性能，现代网络多媒体发展的现实也要求分布式技术的应用。

实施例2:本实施例具有与实施例1相同的技术方案，更为具体的是：本实施例公开了一种建立基于位置敏感哈希分布式倒排索引的具体方法，预先将数据集存储到HDFS分布式文件系统中，启动任务时，通过分布式缓存机制读入一些配置文件LSH哈希函数族，每个Map任务读入由JobTracker指定的数据分片作为输入，然后根据给定的哈希函数对每一个数据对象进行哈希映射降维，将高维向量通过哈希映射之后得到一个哈希值，这一哈希值作为索引值，如对于高维向量v，通过第i个哈希函数hi(.)映射之后得到哈希值hi(v)，最后以<i#hi(v),v.id>键值对的形式进行输出，对于每个高维数据向量经过这样计算之后都能得到那样的二元组，利用每一个哈希函数对每一条数据进行同样的操作。Map过程的输出作为Reduce的输入，在Reduce里将相同哈希的所有数据对象收集到一起，以空格将数据对象分隔，最后作为结果输出到HDFS分布式文件系统中进行存储。其中，在进行分布式索引构建过程中，Map和Reduce之间可以加入Combine的优化过程，减少中间数据的传输，详细的分布式索引构建伪代码如下所述：

算法：基于LSH的分布式索引构造

输入：高维数据集集合S，哈希函数族H

输出：高维索引文件

第1步：Mapper过程

第2步：Combine过程//优化过程

第3步：Reducer过程

实施例3:本实施例具有与实施例1或2相同的技术方案，更为具体的是：本实施例公开了一种查询方法，所述查询是建立基于位置敏感哈希分布式倒排索引的kNN查询，步骤是：设高维数据集合为S，S是图象检索系统中已有大规模图象库，比如说大量的植物的图库，图象库中的每个图象保存的是128维的高维特征。查询对象集合为Q，Q是查询图象对象，比如说拍摄的一组花的图象，先进行高维特征提取后，形成特征集,对于每个查询对象q属于Q,初始化关联函数h,h属于G，G是一个哈希族，LSH是一个多轮哈希的算法，不同的哈希函数，会得到不同的哈希结果。h对应q的相似点集合，半径集合R＝getCandidates(hashvalue)，hashvalue是哈希值，哈希算法将任意长度的二进制值映射为固定长度的较小二进制值，这个小的二进制值称为哈希值。不同的哈希值，可以得到不同的哈希结果，这里的R就是桶宽。

在某一半径为r的区域内进行有关哈希函数的哈希冲突碰撞，哈希的每个对象为hashvalue＝Computer(q,h)，每一个hasvalue是通过哈希计算函数得到的，即Computer计算出来的。比如说取余就是一种最简单的计算方式，多次碰撞直至将数据全部哈希，筛选出碰撞次数相对比较高的对象d＝computer(q,c),对象d为对象q的临近点的概率最高。即d是碰撞可能性最高的对象。为了减少MapReduce的中间数据量，我们采用了基于哈希冲突碰撞计数的方法，用碰撞计数统计来代替实际的值。统计碰撞的次数作为最后的排序结果，这样可以极大地减小中间数据量，从而加快了MapReduce的处理速度。

作为技术方案的优选，碰撞区域给定一个误差校准范围(1+θ)r。在进行哈希冲突碰撞时，对于哈希函数F(h)，统计碰撞的次数，作为最后排序依据，碰撞次数越多则排序越靠前，因为r区域有一定的误差，所以碰撞区域给定一个误差校准范围(1+θ)r。且由于系统误差的存在，碰撞需进行多次来筛选最终结果：碰撞发生在q与相邻数据之间，同时也会有少部分不相邻数据与之碰撞；然后进行第二次碰撞、第三次碰撞直至将数据全部哈希，然后筛选出碰撞次数相对比较高的点d＝computer(q,c),这些点为q的临近点的概率最高，然后将这些数据整理出来进行整合。

实施例4:本实施例具有与实施例1或2或3相同的技术方案，更为具体的是：客户端提取图片高维特征，生成图片高维特征数据，并将图片高维特征数据传输至云中心服务系统。维度一般是按128维以上提取，实验是在128X128维下做的，大规模一般指大于10G－几百T。实验是在16G数据下做的样本测试。

上述方案是效果是：

(1)此应用采用连接线路智能化选择的的设计方式，使手机选择更加恰当的云计算服务器进行数据的传送。软件安装在手机和服务器上，客户端安装在智能手机的软件上，一旦使用者将某所需类似图片传送到手机软件，软件会先对图片进行数据特征提取处理，然后利用手机自身内存预先储存的部分数据对数据进行简单匹配。如果手机内存中含有所需的数据则软件将会把数据转化成对应图片呈现在软件上；如果手机内存数据中不存在对应数据，软件将会利用2G、3G、4G、WIFI与服务器进行连接，将图片特征数据传送至服务器，在服务器内进行LSRP-tree检索索引，完成后将数据反馈到手机软件，显示结果。

(2)云计算是一种基于物联网的资源共享平台，这个平台通过共享的软硬件资源和信息可以按需提供给计算机和其他设备.所以基于倒排位置敏感哈希索引的大规模高维图象检索系统

便利用云计算这一特性来为图片特征查询提供强大的数据处理体系，而正是这种强大的数据处理体系的支持才能使手机在有限的硬件设施条件下呈现使用者所需匹配图片。

(3)使用者将图片上传到软件后手机处理的数据只是简单的内存再现，手机内存毕竟有限，所以这种图片索引基本不能满足用户需求。而真正意义的图片索引则是利用网络将图片特征数据传至云端服务器。对于服务器，由于事先通过MapReduce将海量的数据集划分成多个子数据集，且对子数据集的任务进行调度，然后建立基于LSH的分布式倒排空间高维索引，通过将相似数据哈希到同一个区域进行多轮局部敏感哈希动态碰撞检测算法计算，得到最终结果。

本实施例公开了一种云计算环境下基于倒排位置敏感哈希索引的大规模高维图像检索系统，属于基于大规模时空数据处理与移动技术应用领域。在该系统中，利用LSH与RP-tree结合形成了一种新的索引结构(LSRP-tree),使其在高维数据查询中降低了索引代价，提高了查询质量和查询效率；LSH与MapReduce结合形成的新算法(H-c2kNN)表现出了良好的扩展性和高效性。这两种创新的应用切实地解决了高维数据空间下的近似检索问题。我们采用了基于哈希冲突碰撞计数的方法，用碰撞计数统计来代替实际的值，统计碰撞的次数，作为最后的排序结果，这样可以极大地减小中间数据量，从而加快了MapReduce的处理速度。而云计算则为有限硬件条件下的数据交流提供了极其便利的交流平台。本发明是利用智能移动平台来查找图片的系统，其中包括一组云端服务器和一个移动客户端，具体是安装在智能移动平台(如智能手机或平板电脑)上的软件，分别供使用者使用。客户端包括图库，照片拍摄，传送，图片扫描等基本功能，云端服务器负责整个图片查找流程的控制和相关数据处理(包括LSH索引的建立与分布式kNN查询等)，通过提取特征向量进行图像检索。本发明切实有利的解决了信息量过大，信息与图片不符等问题，尽可能的帮助使用者节省时间，最大限度的解决了海量信息排除问题，使资源的利用更加简单化，合理化。满足人们对移动信息检索智能化的进一步渴求。

实施例5：一种云计算环境下基于倒排位置敏感哈希索引的大规模高维图像检索系统，包括云中心服务系统和智能移动客户端。其中，云中心服务系统用于进行哈希算法的建立，以及执行倒排网格索引，智能移动客户端用于收集图片，并通过无线网络将该信息发送给云中心服务系统，且智能移动客户端还用于接收云中心服务系统返回的最佳图片。本发明也针对现有技术中存在的在空间数据索引和查询方法中的不足进行了改进，最大限度的解决了海量信息筛选问题，使资源的利用更加简单化、合理化，满足人们对资源智能化的进一步渴求。而本应用的基础则是位置敏感哈希(LSH)分别与MapReduce、RP-tree结合产生的LSRP-tree索引结构和H-c2kNN查询算法。所述系统可执行检索方法。

实施例6：具有与实施例5相同的技术方案，当用户用手机拍下图片或通过无线网络获取到图片后，应用相应搜索引擎上传图片，云中心服务系统会用图像分析程序自动抽取图像的颜色、形状、纹理等特征，并用建立的基于哈希算法的倒排网格索引对所提取的图片特征向量进行数据分析并匹配，根据匹配的精度要求返回k个最近邻，再根据这k个向量找到对应的k张图像，并及时将信息反馈给用户端。

实施例7：具有与实施例6相同的技术方案，位置敏感哈希的处理方法为：首先，通过海量的数据集建立基于LSH的分布式倒排空间高维索引，并将哈希的桶作为Key，桶内的点集作为Value，然后利用MapReduce进行分布式求解。然后，结合多轮局部敏感哈希、动态碰撞次数检测算法，利用MapReduce进行结果的筛选和查询优化。最终得到结果集，同时利用倒排索引，也可以将相邻点汇集在相邻近桶，通过探测近邻桶，也可以加快近似查找速度。

为了减少MapReduce的中间数据量，我们采用了基于哈希冲突碰撞计数的方法，用碰撞计数统计来代替实际的值，统计碰撞的次数，作为最后的排序结果，这样可以极大地减小中间数据量，从而加快了MapReduce的处理速度。

本实施例采用了大规模分布式哈希算法等空间数据处理算法，通过分析图片颜色、形状、纹理等特征，将大数据处理的模式整合到该大规模高维图象检索系统的查询阶段，在海量数据中搜索出最佳的图片，并将该图片信息反馈至用户端，最终完成图象检索问题。效果是：通过分析图片颜色、形状、纹理等特征，据此为用户提供最佳近似匹配图片。

本实施例中所述的大规模高维图象检索具有下述结构和好处：

(1)此应用采用连接线路智能化选择的的设计方式，使手机选择更加恰当的云计算服务器进行数据的传送；软件安装在手机和服务器上，客户端安装在智能手机的软件上，一旦使用者将某所需类似图片传送到手机软件，软件会先对图片进行数据特征提取处理，然后利用手机自身内存预先储存的部分数据对数据进行简单匹配。如果手机内存中含有所需的数据则软件将会把数据转化成对应图片呈现在软件上；如果手机内存数据中不存在对应数据，软件将会利用2G、3G、4G、WIFI与服务器进行连接，将图片特征数据传送至服务器，在服务器内进行LSRP-tree检索索引，完成后将数据反馈到手机软件，显示结果。

(2)云计算是一种基于物联网的资源共享平台，这个平台通过共享的软硬件资源和信息可以按需提供给计算机和其他设备。所以基于倒排位置敏感哈希索引的大规模高维图像检索系统便利用云计算这一特性来为图片特征查询提供强大的数据处理体系，而正是这种强大的数据处理体系的支持才能使手机在有限的硬件设施条件下呈现使用者所需匹配图片。

(3)使用者将图片上传到软件后手机处理的数据只是简单的内存再现，手机内存毕竟有限，所以这种图片索引基本不能满足用户需求。而真正意义的图片索引则是利用网络将图片特征数据传至云端服务器，对于服务器，由于事先通过MapReduce将海量的数据集划分成多个子数据集，且对子数据集的任务进行调度，然后建立基于LSH的分布式倒排空间高维索引，通过将相似数据哈希到同一个区域进行多轮局部敏感哈希动态碰撞检测算法计算，得到最终结果。

实施例8：本实施例给出了kNN查询的定义。

下面给出kNN查询的形式化定义：给定一个空间数据点集P，查询点q和一个整数k(k>0)，k近邻查询就是找到由k个数据点组成的集合kNN，且对于任意p'∈kNN和任意的p∈P-kNN，满足dist(p',q)≤dist(p,q)。

对于高维环境下的图片索引，LSH索引与MapReduce相结合形成的H-c2kNN算法不失为一个优选算法。空间大规模数据的一个重要来源即高维数据，它带来数据的高速增长。如何在高维条件下对大规模空间数据进行kNN查询就是近年来引起关注的重要方向。

下述步骤，是对实施例2中，hashvalue＝Computer(q,h)，R＝getCandidates(hashvalue)的进一步解释，算法执行是在实施例2中的第1步的①初始化②执行计算。

设定一组哈希函数F(),计算将空间所有对象映射到m个哈希表T_i中，其中m＝|F|，即每个哈希函数f属于F对应一个哈希表，每个哈希表都存放着空间中所有的对象点。给定一个查询点q，分别计算每个哈希函数对q点映射的函数结果值。

下述步骤是与实施例3中d＝computer(q,c)计算碰撞算法对应，其对应实施例2中的第2步，是优化过程。实施例2其实是算法的执行过程，实施例3是对算法的理论分析，即数学运算过程。

在进行哈希冲突碰撞时，对于哈希函数F(h)，寻找任何的M，M’，并满足H(M)＝H(M’)在计算上存在困难，则H(M)称为强单向hash函数或无碰撞函数，一般也称为散列函数。因此，我们利用较易进行的哈希碰撞次数来代替实际值。统计碰撞的次数作为最后排序结果，这样可以极大的减少中间数据量，从而加快MapReduce处理速度，将处理结果更快的反馈给使用者。

对于服务器运算我们运用了数据区分和数据镜像，由云计算提供技术提供无差别的数据服务。

实施例9：参见图1，云计算环境下基于倒排位置敏感哈希索引的大规模高维图像检索系统的原理图作以下说明：建立基于LSH的分布式倒排空间高维索引进行kNN查询，设数据集合为S,查询对象为Q,对于每个q属于Q,初始化关联函数h,h属于G,h对应q的相似点集合，半径集合R＝getCandidates(hashvalue).在某一半径为r的区域内进行有关哈希函数碰撞，哈希的每个点为hashvalue＝Computer(q,h).因为r区域有一定的误差，所以碰撞区域给定一个误差校准范围(1+θ)r。且由于系统误差的存在，碰撞需进行多次来筛选最终结果：碰撞发生在q与相邻数据之间，同时也会有少部分不相邻数据与之碰撞；然后进行第二次碰撞、第三次碰撞直至将数据全部哈希，然后筛选出碰撞次数相对比较高的点d＝computer(q,c),这些点为q的临近点的概率最高，然后将这些数据整理出来进行整合。

实施例10：参见图2，大规模高维图像kNN查询索引中，由于kNN算法是基于分布式倒排网格索引，我们设定网格单元大小为ɡ*ɡ，给定一个查询点q，用Aq表示q点所在网格，以r为半径，q为圆心作圆，P(xi,yi)表示里q点最近距离。对于特定的哈希函数，给定一点q，求其相邻点时，首先利用函数分成若干个“桶”key(代指特定关系存在区域，用hv1、hv2、hv3、、、hvN表示)然后函数利用数据与哈希函数之间的关系对应哈希到特定的桶内同时会使q与其有对应关系的桶内数据进行碰撞，即keyi＝hvi＝g(i),筛选出与q碰撞次数较高的数据进行整合，则就得到某一特定点的相似数据。

对于图片的索引，我们需要更多的特征才能确定某一具体图片，所以就需要求出其他特征的相似数据，如给定另一点P，同样建立在同一数据表格中，以R为半径，p为圆心，找出其近邻数据点，而p与q点的最近邻中可能出现同一点M，则M为索引的特征数据点的概率就特别大，以此类推，进行哈希，直至找出最终数据。

实施例11：参见图3，本发明考虑到移动终端便于携带的特性和它软硬件资源限制以及云计算的优点，基于倒排位置敏感哈希索引的大规模高维图像检索系统运用C/S架构的瘦客户端模式，云端服务器负责主要的数据处理工作，客户端只需要简单地发送所需图表，接收并显示结果，手持设备客户端通过基于2G\3G\4G方式或是WIFI的无线网络，接入移动互联网与云端服务器建立联系，客户端负责显示图片，并携带相关参数，如图片特征数据信息向云端服务器发送请求，手机登录后发送图片特征到云端，云端服务器采用我们设计的高维空间海量数据分布式空间倒排索引技术，即LSH技术将图片特征数据发送到云端服务器，云端服务器采用本文的并行化kNN查询技术，快速地从海量的图表中查找到用户所需图片。查询到图片将会发送到的客户端软件界面上，从而完成使用者需求。

实施例12：参见图4，本发明是利用智能移动平台来查找图片的系统，其中包括一组云端服务器和一个移动客户端，具体是安装在智能移动平台(如智能手机或平板电脑)上的软件，分别供使用者使用。客户端包括图库，照片拍摄，传送，图片扫描等基本功能，云端服务器负责整个图片查找流程的控制和相关数据处理(包括LSH索引的建立与分布式kNN查询等)。

实施例13：参见图5，通过本发明来实现图表查找所包括的步骤如下：使用者通过拍摄或其他途径得到所需的类似图片，通过客户端进行扫描，手机客户端发现图片特征上传至云端服务器，云端服务器通过上传的图片特征数据进行数据处理，找到相似特征图片数据，然后将数据返回到客户端，客户端将图片索引出来呈现到软件界面，进而完成任务。图片呈现到客户端界面后还会显示图片编号，来源链接等，便于使用者更深层次了解图表信息。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种利用倒排索引筛选出与查询点碰撞次数较高的分布式数据处理方法，其特征在于，设高维数据集合为S，S是图象检索系统中已有大规模图象库，查询对象集合为Q，Q是查询图象对象，先进行高维特征提取后，形成特征集,对于每个查询对象q属于Q,初始化关联函数h,h属于G，G是一个哈希族，LSH是一个多轮哈希的算法，不同的哈希函数，会得到不同的哈希结果，h对应q的相似点集合，半径集合R＝getCandidates(hashvalue)，hashvalue是哈希值，不同的哈希值，得到不同的哈希结果，R是桶宽；在某一半径为r的区域内进行有关哈希函数的哈希冲突碰撞，哈希的每个对象为hashvalue＝Computer(q,h)，每一个hasvalue是通过哈希计算函数得到的，多次碰撞直至将数据全部哈希，筛选出碰撞次数相对比较高的对象d＝computer(q,c),对象d为对象q的临近点的概率最高，对象d是碰撞可能性最高的对象，用碰撞计数统计代替实际的值，统计碰撞的次数作为最后的排序结果，减小中间数据量，从加快MapReduce的处理速度。