CN103455531B

CN103455531B - 一种支持高维数据实时有偏查询的并行索引方法

Info

Publication number: CN103455531B
Application number: CN201310041516.6A
Authority: CN
Inventors: 王寅峰; 邓果丽; 许志良
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2013-02-01
Filing date: 2013-02-01
Publication date: 2016-12-28
Anticipated expiration: 2033-02-01
Also published as: CN103455531A

Abstract

本发明适用于索引技术领域，提供了一种支持高维数据实时有偏查询的并行索引方法，所述方法包括：查询系统使用MapReduce等方法对数据属性进行特征抽取作为输入，由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数构建并行索引，通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中；如果所述映射的误差超过用户能够接受的范围，查询系统将有偏查询提交并行组合的索引服务器分别处理；并行组合的索引服务器按用户给出的权重的比例分别返回经筛选后的结果，然后对所有返回的结果进行计算与合并，确保在确定的时间内返回查询响应的结果。本发明技术方案具有能够处理海量数据的优点。

Description

一种支持高维数据实时有偏查询的并行索引方法

技术领域

本发明属于搜索技术领域，尤其涉及一种支持高维数据实时有偏查询的并行索引方法。

背景技术

高维数据：指属性（特征）多于20维的数据。各种类型的交易数据、社交网络信息、Web文档和使用数据、地理信息、文档词频数据、用户评分数据、多媒体数据等呈现出多源、海量、异构(非结构化的数据模型)与高维的特征即它们的维度(属性)通常可以达到成百上千维，甚至更高，造成各种应用中需要检索的数据日益复杂且数据量急剧膨胀。有偏查询：用户基于自身的偏好与在环境交互中的体验，在不同的场景中仅对数据属性中的某些特征维比较关心，选取部分特征（动态选择几个或更多特征）作为检索的要求，同时所选维度也具有了随机（用户定义）的权重，呈现出有偏(Bias-based)查询的特征。KNN相似搜索：K最邻近结点（k-Nearest Neighbor）搜索，不同于范围（Range）搜索，不能预先确定要搜索的范围，即最近邻节点可能很近也可能很远（相对搜索条件而言）。

并行索引：采用多个索引服务器构建索引，索引服务器具备通讯接口可以接受查询命令，每个服务器分别选取部分维度建立索引关系，各个索引服务器间的维度以正交关系为主，避免冗余。相似性度量：相似性度量是衡量两个案例相似的依据，是相似性查询的基础。一方面，相似性度量影响到查询的完备性；另一方面，相似性度量的选择决定了相似性查询能否描述案例中的关系与构建索引的方法。高维数据的相似性度量主要分为两步完成：1）通过一定的形式表示可以度量的特征；2）给出度量接近程度的函数。海量数据：指要处理的数据量规模非常大（记录一般超过100万条）、数据的内容和关系也很丰富，如各种空间数据、交易数据、报表统计数据、文字、声音、图像、超文本等各种环境和文化数据信息。实时性：不仅仅是响应快或者低延迟，更主要的是系统必须在限定时间内做出反应，即：在限定的时间内必有响应。hash函数：就是把任意长的输入字符串变化成固定长的输出字符串的一种函数。通俗的说，hash函数用来生成信息的摘要。输出字符串的长度称为hash函数的位数。

现有技术提供的高维数据索引方法主要包括：

以空间划分方法为主的聚类索引

B树、R树、K-D树、X树、M树这些树形索引及其基础上的各种变形，如B+树，R*树等等均采用基于向量或度量空间划分的方法，能够很好的解决低维（少于20维）数据中的索引问题。但是这些索引机制其需要划分的空间随着维数的增加而成指数增长，造成其查找性能随维数增加急剧下降，不能有效的支持高维数据索引。

使用空间填充曲线的索引方法

希尔伯特、Z，Gray等填充曲线法的基本思想是用一维的线来填满二维的平面，从而达到快速查找的目的。但是填充曲线法一方面面临单位空间的数目随着维度增加而成指数增长，另一方面在进行kNN搜索时要查找的相邻空间数目也呈指数增长。由于空间数据稀疏的特性，即使付出很高的地址映射计算代价如采用多条填充曲线，也不能在确定的时间保证完成近邻数据搜索。

位置敏感哈希函数(Locality Sensitive Hashing，LSH)索引方法

在保证较查询高准确性的前提下，时间和空间复杂度得到降低，并且能够很好地支持高维数据的检索，但是预先构建完成的索引机制如何支持用户对任意特征属性的动态组合查询是高维数据索引技术所面临的挑战。

发明内容

本发明实施例的目的在于提供一种支持高维数据实时有偏查询的并行索引方法，旨在解决现有处理海量数据有偏查询搜索中实时性、可扩展性无法满足的问题。

本发明实施例是这样实现的，一种支持高维数据实时有偏查询的并行索引方法，所述方法包括：

查询系统使用MapReduce对数据属性进行特征抽取作为输入，由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数，然后以所述哈希函数优化LSH算法分别构建数据的向量索引，其中，各个索引服务器的向量索引之间形成正交关系；

查询系统接收用户的有偏查询，通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中；

如果所述映射的误差超过用户能够接受的范围，查询系统将有偏查询提交并行组合的索引服务器分别处理；并行组合的索引服务器按所述有偏查询中的用户给出的权重的比例分别返回经筛选后的结果，然后对所有返回的结果进行计算与合并，确保在确定的时间内返回查询响应的结果。

可选的，所述查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数具体包括：

所述哈希函数中的a为一个d维度的向量，且满足稳定分布，所述哈希函数中的b为按数据的密度产生的均匀分布。

本发明实施例与现有技术相比，有益效果在于：本发明具体实施方式提供的技术方案具有实时性好，能够处理海量数据，支持随机有偏查询的优点。

附图说明

图1是本发明具体实施方式提供的支持高维数据实时有偏查询的并行索引方法的流程图；

图2是本发明实施例提供的索引的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明具体实施方式提供一种支持高维数据实时有偏查询的并行索引方法，该方法由查询系统完成，该方法如图1所示，包括：

S11、查询系统使用MapReduce对数据属性进行特征抽取作为输入，由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数，优化LSH算法分别构建数据的向量索引，其中，各个索引服务器的向量索引之间形成正交关系；

S12、查询系统接收用户的有偏查询，通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中；由于有偏查询造成数据间的距离产生相对变化，由预先建立的索引查询出的结果会出现映射误差。

S13、如果所述映射的误差超过用户能够接受的范围，查询系统将有偏查询提交并行组合的索引服务器分别处理；并行组合的索引服务器按有偏查询中的用户给出的权重的比例分别返回经筛选后的结果，然后对所有返回的结果进行计算与合并，确保在确定的时间内返回查询响应的结果。

上述查询系统中的多个索引服务器根据数据密度弹性划分数据桶的哈希函数的目的是使优化LSH算法能够将集聚的数据尽量均匀分布在数据桶中，确保数据查询的实时性要求。

具体实例如下：一个hash函数，映射一个d维的向量v到一组int值。在这一组中的每个hash函数被索引的方式是由a,b来决定，其中a是一个d维度的向量，在已有的LSH算法中满足于“稳定(stable)分布”，b在已有的LSH算法中是一个均匀分布在区间[0,r]之间的实数。本发明具体实施方式将b修改为按数据的密度产生均匀分布，如根据数据的特点可采用正态分布，这样每一段的长度是不同的，但给定了a,b之后，一个特殊的基于“稳定分布”的位置敏感的hash，就可以通过(a.v+b)/r来产生了，由于b的取值是按密度分布而非常量，这样使得数据能够尽量均匀的分布在各个数据桶中，从而避免数据不均匀带来的查询时间不确定的问题，确保查询能够在确定的时间内必有响应。

其最终的效果就是，给定了一个输入d维的输入v，按数据的密度产生均匀分布结果的int就可以作为对象存放的桶的位置，由于数据桶大小是按照数据的密度而产生均匀分布的，有效解决了已有算法中返回结果忽多忽少与响应时间不确定的问题。

本发明具体实施方式通过一种新的根据数据密度弹性划分数据桶的哈希函数有效解决了已有LSH算法中返回结果的集和中数据非均匀分布的问题，并且提高了内存的使用率，提高了单台索引服务器可处理的数据量。通过采用有向聚类映射的方法减少查询映射的误差，有效减少了索引重构的代价；通过使用并行的索引结构实现了系统的可扩展性，确保能够满足用户对高维数据有偏查询的实时性要求。

实施例

本发明实施例提供的索引建立和查询的流程图如图2所示，其中，分为两个部分，离线处理部分和在线处理部分。

离线处理部分：使用（MapReduce等方法）对数据属性进行特征抽取作为输入，由多个索引服务器采用按数据密度（如正态分布）弹性划分数据桶的哈希函数按照LSH算法分别构建数据的向量索引，各个索引服务器的向量索引之间形成正交关系，以支持海量数据的索引。

在线处理部分：当用户的查询到来时首先通过有向聚类映射方法将用户的有偏（带权）查询所带来的距离改变投影到已有索引结构中，以减少索引重构的计算时间；如果映射的误差超过用户能够接受的范围则将查询请求提交并行组合的索引服务器分别处理；索引服务器按权重的比例分别返回经筛选后的数据，然后对返回的结果进行计算与合并，在确定的时间内返回响应，完成实时查询的过程。

值得注意的是，上述实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种支持高维数据实时有偏查询的并行索引方法，其特征在于，所述方法包括：

查询系统使用MapReduce对数据属性进行特征抽取作为输入，由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数，优化LSH算法分别构建数据的向量索引，其中，各个索引服务器的向量索引之间形成正交关系；

如果所述映射的误差超过用户能够接受的范围，查询系统将有偏查询提交并行组合的索引服务器分别处理；并行组合的索引服务器按所述有偏查询中的用户给出的权重的比例分别返回经筛选后的结果，然后对所有返回的结果进行计算与合并，确保在确定的时间内返回查询响应的结果；

所述查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数具体包括：

所述哈希函数所述哈希函数中的v为一个d维度的向量，所述哈希函数中的a为一个d维度的向量，且满足稳定分布，所述哈希函数中的b为按数据的密度产生均匀分布，所述均匀分布的区间为[0,r]，r为数据桶的宽度。