CN106503196A

CN106503196A - 云环境下可扩展存储索引结构的构建和查询方法

Info

Publication number: CN106503196A
Application number: CN201610944106.6A
Authority: CN
Inventors: 周维; 刘建坤; 罗静; 姚绍文; 张�浩
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-15
Anticipated expiration: 2036-10-26
Also published as: CN106503196B

Abstract

本发明公开了一种云环境下可扩展存储索引结构的构建和查询方法，首先建立KD树索引结构，在建立KD树时依次采用每个索引维的数据作为层结点的划分标准，将构建得到的KD树中各个叶子结点数据集的索引数据存储在HBase中，并对整个数据集建立其Bloom Filter结构并存储；在单健值查询时，先通过Bloom Filter结构检测数据是否存在，然后再根据KD树进行精确查询；在范围查询时，确定查询范围对应的子树，然后根据子树下的叶子节点进行精确查询。本发明利用KD树这种数据结构并结合HBase来有针对性地构建云环境下可扩展存储索引结构，利用KD树将各维度在一定范围内的数据子集映射到一起，实现多维范围的查询。

Description

云环境下可扩展存储索引结构的构建和查询方法

技术领域

本发明属于云存储技术领域，更为具体地讲，涉及一种云环境下可扩展存储索引结构的构建与查询方法。

背景技术

随着计算机及网络技术的发展，云计算技术作为一种高性能、低成本的实用分布式计算技术，已被广泛运用于以大数据处理为代表的各种网络应用中。高可扩展性和可靠性的云存储系统逐渐成为大数据处理的首选方案之一，已有的优秀云存储系统包括：Google的GFS、MapReduce以及其开源实现Hadoop、亚马逊的Dynamo和Facebook的Cassandra等。相对于传统数据存储系统，云存储系统分布更广，支持数据更多，这就意味着云存储时代的辅助索引系统必然发生大的变化。

当前大多数的云存储系统都采用健-值(Key-Value)模型,将查询的键(key)和具体值(value)映射为键值对(kv-pair)来存取数据。该模型简单，适合通过主键进行查询。在单键查询的时候有着良好的表现，但却不能有效支持范围查询。实际的应用效果表明，这类基于Key-Value模型的云存储系统还存在一些亟待提高的地方。例如，对于一个在线视频点播系统来说，用户们往往倾向于采用多于一个的键值来进行查询，或需要查询特定属性处于某一个数据范围之内的视频信息。为了满足上述的应用需求，当前的解决方案主要是通过运行一个后台批处理任务(例如运行一个MapReduce的任务)，来扫描整个数据集然后得到查询结果。然而，这类解决方案缺乏时效性，新存入的数据不能被及时的查询到，必须等到后台的批处理任务完成了完整的扫描，数据才会可查。上述分析表明，当前云存储系统在多维度查询和范围查询方面支持的都不是很理想、且时效性差，有必要构建云环境下存储索引结构。

目前少数基于不同数据结构的双层存储索引结构已经被提出。这些方案能够很方便地实现云存储系统的可扩展性，使云存储系统能够同时支持大规模的查询。但是，这些方案在全局索引中大都采用了基于P2P协议的覆盖网络来实现并行查询，但是P2P网络本身的维护比较复杂，查询时的网络开销也比较大，这会影响到云存储系统的查询性能。同时，由于现有的云存储系统一般都是master-slave结构的，要在这些节点上重新构建一个P2P网络，会对原有的存储系统带来一定的负面影响。

发明内容

本发明的目的在于克服现有技术的不足，提供一种云环境下可扩展存储索引结构的构建与查询方法，在云存储系统中存储索引结构实现快速有效的多维查询。

为实现上述发明目的，本发明云环境下可扩展存储索引结构的构建与查询方法包括以下步骤：

S1：记数据集中每个数据为X_i＝(x_i1,x_i2,…x_ij,…,x_iL)，其中i＝1,2,…,N，j＝1,2,…,L，其中N表示数据集中数据数量，L表示数据维数，根据需要从L维数据中选择M维数据作为索引维，然后根据以下方法构建KD树：

S1.1：令层数d＝1，根据数据集中每个数据的第1维索引维数据，筛选得到其中位数，将该中位数所对应的数据作为根结点；

S1.2：令d＝d+1；

S1.3：如果d＜D，D表示预设的KD树的深度，进入步骤S1.4，否则KD树构建完成；

S1.4：计算A_d＝d％M，％表示取余；

S1.5：对于第d-1层中的每个结点，从数据集获取该结点对应的左子集和右子集范围内的所有数据，对于左子集，根据每个数据的第A_d维索引维数据，筛选得到其中位数，将该中位数所对应的数据作为左子集的根结点；对于右子集，根据每个数据的第A_d维索引维数据，筛选得到其中位数，将该中位数所对应的数据作为右子集的根结点；返回步骤S1.2；

S2：获取步骤S1中构建得到的KD树中各个叶子结点数据集并存储，将叶子结点对应的范围信息作为RowKey值，将叶子结点数据集中所有数据存储指针构成的数组作为Value值，将索引数据存储在HBase中；

S3：对整个数据集建立其Bloom Filter结构并存储；

S4：在单健值查询时，采用以下方法：

通过数据集的Bloom Filter结构检测所查询数据是否存在，如果未检测到数据存在，则报告数据不存在，如果存在，则根据KD树的路由定位到数据所在的叶子结点的Key值，然后根据Key值提取到对应的数据集，再进行精确查询，提取数据并返回或报告数据不存在；

S5：在范围查询时，采用以下方法：

根据KD树对数据在所选维度上的划分，确定查询范围对应的子树；获取该子树下所有叶子结点对应的Key值，如果要查询的结果是Value中已经预先计算好的函数值，则直接从对应Value中提取数据并返回，如果不是预先计算的函数值，则通过HBase提取得到所有Key值对应的数据，根据范围查询条件筛选出相应数据，然后计算得到函数值后返回结果。

本发明云环境下可扩展存储索引结构的构建和查询方法，首先建立KD树索引结构，在建立KD树时依次采用每个索引维的数据作为层结点的划分标准，将构建得到的KD树中各个叶子结点数据集的索引数据存储在HBase中，并对整个数据集建立其Bloom Filter结构并存储；在单健值查询时，先通过Bloom Filter结构检测数据是否存在，然后再根据KD树进行精确查询；在范围查询时，确定查询范围对应的子树，然后根据子树下的叶子节点进行精确查询。

本发明利用KD树这种数据结构并结合HBase来有针对性地构建云环境下可扩展存储索引结构，利用KD树将各维度在一定范围内的数据子集映射到一起，这样知道某些维度的范围就可以实现多维范围的查询。同时，针对单键值查询，利用Bloom-Filter的海量数据过滤能力，提高单点查询的效率。此外，本发明中的存储索引结构可以根据用户需求进行构建，以满足不同程度的查询需求与索引结构空间占用的平衡，具有很好的扩展性。

附图说明

图1是本发明中可扩展存储索引的架构示意图；

图2是本发明云环境下可扩展存储索引结构的构建和查询方法的流程图；

图3是本发明中KD树构建的流程图；

图4是本实施例中数据集；

图5是图4所示数据集的KD树；

图6是单键值查询的具体实例流程图；

图7是范围查询的具体实例流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明中可扩展存储索引的架构示意图。如图1所示，本发明中可扩展存储索引采用KD树型结构，每个结点对应一个范围信息，用于划分该结点左、右子结点所对应的数据范围。该树型结构的深度D可以自定义，从而控制每个叶子节点对应的数据集大小。例如，当完整数据集大小为1亿条记录，如果设置KD树的深度为11，那么该KD树具有1024个叶子结点，则每个叶子节点对应约1万条记录；如果设置KD树的深度为21，那么该KD树具有1048576个叶子节点，每个叶子节点对应约100条记录。KD树中的内部结点，只是起到路由作用，因此可以称之为路由结点(Router-Node)。叶子结点对应多条记录的集合，本发明称每个叶子结点对应的数据结构为一个叶子节点数据集(LNS，Leaf-Node-Set)。

根据KD树的特点，本发明提出了云环境下可扩展存储索引结构的构建和查询方法。图2是本发明云环境下可扩展存储索引结构的构建和查询方法的流程图。如图2所示，本发明云环境下可扩展存储索引结构的构建和查询方法包括以下步骤：

S201：构建KD树：

对于本发明而言，首先需要建立云环境下可扩展存储索引结构，也就是数据集的KD树。记数据集中每个数据为X_i＝(x_i1,x_i2,…x_ij,…,x_iL)，其中i＝1,2,…,N，j＝1,2,…,L，其中N表示数据集中数据数量，L表示数据维数。由于数据的维数一般较多，因此为了简化KD树构建流程，本发明根据需要从L维数据中选择M维数据作为索引维，这些索引维即可视为数据集的特征维，然后根据这些索引维来构建KD树。图3是本发明中KD树构建的流程图。如图3所示，本发明中KD树构建包括以下步骤：

S301：确定根结点：

令层数d＝1，根据数据集中每个数据的第1维索引维数据，筛选得到其中位数，将该中位数所对应的数据作为根结点。显然此时就可以将整个数据集划分为两个子集。

S302：令d＝d+1。

S303：判断是否d＜D，D表示预设的KD树的深度，如果是，进入步骤S304，否则KD树构建完成。

S304：确定第d层对应数据维：

计算A_d＝d％M，％表示取余，那么第d层的数据划分以数据中的第A_d维索引维作为划分标准。

S305：确定第d层结点：

对于第d-1层中的每个结点，从数据集获取该结点对应的左子集和右子集范围内的所有数据，对于左子集，根据每个数据的第A_d维索引维数据，筛选得到其中位数，将该中位数所对应的数据作为左子集的根结点；同样地，对于右子集，根据每个数据的第A_d维索引维数据，筛选得到其中位数，将该中位数所对应的数据作为右子集的根结点；返回步骤S302。

图4是本实施例中数据集。如图4所示，本实施例中共有8条数据，每个数据有三个维度。由于本实施例仅作示例，数据集中数据较少，设置KD树的层数为3，将三个维度均作为索引维。该数据集的KD树构建过程如下：

第一层选择第1维索引维(A)作为划分标准，筛选得到第1维索引维数据1,5,7,2,11,8,12,9的中位数为7，故选择(7,12,1.2)作为根结点；根据A<7和A>7将数据分为两个子集，其中左子集包括：(1,14,0.1)、(5,18,0.5)和(2,9,1.3)，右子集包括：(11,14,0.8)、(8,11,0.5)、(12,12,0.7)和(9,10,0.4)。第二层选择第2维索引维(B)作为划分标准，对第1层结点的左、右子集进行划分。因为14,18,9的中位数为14，所以选择(1,14,0.1)做为第二层左子树的根结点；对于右子集，因为14,11,12,10的中位数是11，所以选择(8,11,0.5)做为右子树的根结点。第三层应当选择第3维(C)作为划分标准，但是由于本实施例中数据较少，无法对第三层结点实现划分，因此本实施例中无法确定第3维的划分范围。

图5是图4所示数据集的KD树。如图5所示，以以(2,9,1.3)所示的叶子结点为例：该结点表示的空间范围为A<＝7&&B<＝14，那么其Key值＝“A<＝7&&B<＝14”。

S202：存储叶子节点数据集：

获取步骤S201中构建得到的KD树中各个叶子结点数据集并存储。由于当数据集较大时，那么每个叶子结点数据集中包含的数量可能较多，因此不方便把数据直接存储在叶子结点对应的数据结构中。而由于KD树中每个叶子结点都有一个对应的范围信息，且各不相同，因此本发明将叶子结点对应的范围信息作为RowKey值，将叶子结点数据集中所有数据存储指针构成的数组作为Value值，将索引数据存储在HBase中。此外，为了便于用户查询，对于各个叶子结点数据集，还可以根据预设的统计指标函数计算出该叶子结点数据集对应的统计指标并存储。统计指标函数一般可以包括求和函数SUM、平均值函数AVG或者用户自定义的函数UDFs。

以图5所示KD树为例。本实施例中，设置Value为一个二维数组，其中Value[0]是对所对应的数据的SUM(A)值，Value[1]是对所对应的数据的AVERAGE(B)值。那么以Key＝“A<＝7&&B<＝14”为例，则对应的Value[0]＝10，Value[1]＝35/3。在HBase中插入记录，(“A<＝7&&B<＝14”,Position:[Pointerto(7,12,1.2),Pointerto(2,9,1.3),Pointerto(1,14,0.1)]。

S203：建立Bloom Filter结构：

对整个数据集建立其Bloom Filter结构并存储。Bloom Filter结构是一种二进制向量数据结构，它具有很好的空间和时间效率，被用来检测一个元素是不是集合中的一个成员。

S204：单键值查询：

由于本发明对于整个数据集建立了Bloom Filter结构，由于Bloom Filter结构可以对海量数据起到过滤作用，因此在本发明中以Bloom Filter结构作为单键值查询的入口，从而快速检测数据存在与否。本发明中单键值查询的具体方法为：

通过Bloom Filter结构检测所查询数据是否存在，如果未检测到数据存在，则报告数据不存在，如果存在，则根据KD树的路由定位到数据所在的叶子结点的Key值，然后根据Key值提取到对应的数据集，再进行精确查询，提取数据并返回或报告数据不存在。

图6是单键值查询的具体实例流程图。如图6所示，设置要查找的数据为(5,18,0.5)。首先通过Bloom Filter检测数据是否存在，此处假设数据存在，那么通过KD-Tree的路由，找到所对应的叶子结点，提取其Key＝“A<＝7&&B>14”，然后根据Key值到HBase中检索数据，成功查询得到该数据，由提取数据并返回。

S205：范围查询：

在基于key-value模型存取数据的云数据库系统中，数据表经过分片后，分布式存储在服务器集群上。在海量数据情况下，对所有数据分区进行遍历是非常耗时的，通过索引可以有效过滤不符合查询条件的数据，仅对有可能包含查询结果的分区进行扫描，可以有效提高数据检索的性能。

因为Bloom Filter结构并不支持范围查找，因此本发明在范围查找的入口即KD树本身。本发明中范围查询的具体方法为：

图7是范围查询的具体实例流程图。如图7所示，假设查询语句为：

如果没有建立索引结构，现有的MapReduce执行过程如下：首先执行一个Map任务，一个Map任务可以创建多个mapper，对数据进行遍历，找出在范围内的数据，然后执行聚合函数，返回查询结果。

而在本发明所建立KD树索引结构中，通过KD树的路由得知，查询的范围落在第一和第二个叶子结点上，查询两个结点对应的所有数据，因为共有4个叶子结点，因此实际需要扫描的数据只占原数据的1/2左右。因为要返回的是SUM(C)，所以首先查找前两个叶子结点的LNS的Value值，如果存在SUM(C)，则直接返回，否则合并提取两个叶子结点的数据并过滤出所对应的所有数据中满足条件的数据，即(7,12,1.2)、(2,9,1.3)和(1,14,0.1)三条记录，计算后返回。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种云环境下可扩展存储索引结构的构建和查询方法，其特征在于，包括以下步骤：

S1.2：令d＝d+1；

S1.4：计算A_d＝d％M，％表示取余；

S2：获取步骤S201中构建得到的KD树中各个叶子结点数据集并存储，将叶子结点对应的范围信息作为RowKey，将叶子结点数据集中所有数据存储指针构成的数组作为Value值，将索引数据存储在HBase中；

S3：对整个数据集建立其Bloom Filter结构并存储；

S4：在单健值查询时，采用以下方法：

S5：在范围查询时，采用以下方法：

2.根据权利要求1所对应的云环境下可扩展存储索引结构的索引构建和查询方法，其特征在于，步骤S2中对于各个叶子结点数据集，根据预设的统计指标函数计算出该叶子结点数据集对应的统计指标并存储。