CN103870456A

CN103870456A - 一种面向大规模数据的索引方法及其系统

Info

Publication number: CN103870456A
Application number: CN201210526354.0A
Authority: CN
Inventors: 李春生; 金澈清; 周傲英
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2014-06-18
Anticipated expiration: 2032-12-07
Also published as: CN103870456B

Abstract

本发明公开了一种面向大规模数据的索引方法，包括构建索引结构阶段与查询阶段；构建索引结构阶段中根据原始数据生成索引结构；查询阶段根据索引结构获得相应的原始数据；原始数据中包括至少一个由数据元组组成的数据块；索引结构包括叶子层索引和根层索引，叶子层索引包含一层叶子层索引文件，叶子层索引文件中包含至少一个叶子层数据块；根层索引包括中间层索引，中间层索引包含至少一层中间层索引文件，中间层索引文件中包含至少一个中间层数据块。本发明解决了利用MapReduce框架查询大数据时响应时间过慢等问题，通过在MapReduce框架中引入索引机制来提升查询性能。本发明还公开了一种面向大规模数据的索引系统。

Description

一种面向大规模数据的索引方法及其系统

技术领域

本发明属于数据库技术领域，尤其涉及一种面向大规模数据的索引方法及其系统。

背景技术

大数据存在于诸多应用中，如网络日志、传感器网络、社会网络、天文监测等。例如，大型综合测绘望远镜(LSST)是一个多国合作计划的产物，预计将于2014年建成。建成之后，它将为人类提供前所未有的星空观测能力，每晚产生30TB数据。大数据具有以下三个特性：1、海量性：在许多应用中，数据量变得非常庞大；2、高速性：由于数据生成速度非常快，它会像数据流一样不停的进入系统；3、多样性：存在许多种数据类型，包括结构化和非结构化数据。

现有的集中式处理技术无法有效管理大数据，一些研究人员专注于设计一些并行算法，使之运行于一个包含数百甚至数千台计算机的集群上，MapReduce即是一种应用最为广泛的框架。MapReduce框架可分为两个阶段：map和reduce。在各阶段中，多个进程并行执行，从而显著降低总的执行时间。MapReduce的执行流程如图1所示。

查询操作是数据库管理领域的一项基本操作，它返回一个满足给定约束条件的元组子集。例如，假设用户希望从一个由互联网抓取的网页数据集合中获取指定网站的所有URL。设计一个遵循MapReduce框架的算法并不难，即：扫描整个数据集，过滤不属于该网站的页面。但是，鉴于所有数据必须被逐一访问，该方法的执行效率并不高。传统的DBMS通常使用索引结构来加速查询执行过程。但是，传统的索引技术无法被直接应用到MapReduce框架中。所以，在MapReduce框架中引入新颖的索引机制很有必要。

发明内容

本发明克服了现有的针对大数据中多维数据查询过慢的缺陷，提出一种面向大规模数据的索引方法及其系统。

本发明提出了一种面向大规模数据的索引方法，包括构建索引结构阶段与查询阶段；所述构建索引结构阶段根据原始数据生成索引结构；所述查询阶段根据所述索引结构获得相应的所述原始数据；

其中，所述原始数据至少包括一个由数据元组组成的数据块；所述索引结构包括叶子层索引与根层索引；所述叶子层索引包含一层叶子层索引文件，所述叶子层索引文件中包含至少一个叶子层数据块；所述根层索引位于叶子层索引之上，包括中间层索引，所述中间层索引包含至少一层中间层索引文件，所述中间层索引文件中包含至少一个中间层数据块。

其中，所述构建索引结构阶段包括：

步骤一：对所述原始数据的所述数据块中每一个数据元组排序，输出至所述叶子层索引；

步骤二：在所述叶子层索引中划分所述数据元组获得所述叶子层数据块，并生成所述叶子层索引文件作为所述叶子层索引，并将所述叶子层索引文件中的叶子层数据块输出至所述根层索引；

步骤三：在所述根层索引中根据所述叶子层数据块获得所述中间层数据块，并生成所述中间层索引文件作为所述中间层索引。

其中，所述步骤一中，所述数据元组排序及输出的过程包括：

步骤A1：利用空间拟合曲线计算所述原始数据中的每一个数据元组的转换值及所在数据块的地址信息；

步骤A2：根据所述转换值利用MapReduce框架对所述数据元组排序，所述排序后的数据元组结合所述地址信息发送至所述叶子层。

其中，所述步骤三中生成所述中间层索引的过程包括：

步骤B1：获取所述叶子层索引文件中的每一个所述叶子层数据块的首个数据元组的所述转换值及地址信息；

步骤B2：根据所述转换值与所述地址信息生成所述中间层数据块，组成所述中间层索引文件作为所述中间层索引。

其中，所述步骤B2后进一步包括：

步骤B3：检验所述中间层数据块的数量是否小于阈值；若小于阈值，则保留所述中间层数据块并组成所述中间层索引文件，完成建立所述中间层索引；否则，以所述中间层索引文件代替所述步骤B1中的所述叶子层索引文件并重新执行所述步骤B1，生成更高层的中间层索引文件。

其中，所述查询阶段包括：

步骤三：获取查询条件，并根据所述查询条件依次查询所述中间层索引、叶子层索引，获取所述原始数据的数据块地址信息；

步骤四：根据所述查询条件与所述原始数据的数据块地址信息，获取相应的数据元组。

其中，所述步骤三中查询所述索引结构的过程包括：

步骤C1：根据所述查询条件计算待查询的数据元组的转换值范围；

步骤C2：根据所述转换值范围查询所述中间层索引文件，获取所述叶子层索引文件的相关叶子层数据块的地址信息；

步骤C3：根据所述查询条件与所述叶子层数据块的地址信息，获取所述原始数据中相关的数据块的地址信息；

步骤C4：根据所述查询条件与所述数据块的地址信息，获取相应的数据元组。

本发明还提出了一种面向大规模数据的索引系统，包括：

原始数据存储单元，其存储所述原始数据；

叶子层存储单元，其与所述原始数据存储单元连接，存储所述叶子层索引文件；

中间层存储单元，其与所述叶子层存储单元连接，存储所述中间层索引文件；

叶子层构建单元，其设置在所述原始数据存储单元与叶子层存储单元之间，用于读取所述原始数据并构建所述叶子层索引文件；

中间层构建单元，其设置在所述中间层存储单元与叶子层构建单元之间，用于读取所述叶子层索引文件并构建所述中间层索引文件；

查询单元，其与所述中间层存储单元连接，用于获取查询条件并查询相应的数据元组。

本发明的索引方法可以基于MapReduce框架。本发明面向大规模数据的索引方法，采用两个不同阶段处理，即构建阶段和查询阶段。索引构建阶段中，根据原始数据生成索引文件，索引文件数据量会小于原始数据，且分层存放。在查询阶段中，根据索引文件得到最终的查询结果。本发明的方法解决了大数据中查询时间开销过大等问题，从而提升了查询性能。

附图说明

图1为MapReduce架构图。

图2为空间实例对象与空间填充曲线图示意图。

图3为构建索引结构的示意图。

图4为查询阶段的示意图图。

图5为构建索引结构阶段的流程图。

图6为构建叶子层索引的流程图。

图7为构建中间层索引的流程图。

图8为索引方法的总体流程图。

图9为索引系统的结构图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

如图1至图9，1-原始数据存储单元，2-叶子层存储单元，3-中间层存储单元，4-叶子层构建单元，5-中间层构建单元，6-查询单元。

本发明的面向大规模数据的索引方法是基于树的数据结构，包括构建索引结构阶段和查询阶段。图8显示的是索引方法的总体流程图，其中构建索引结构阶段中构建的索引结构包括叶子层索引与根层索引组成。其中根层索引包括中间层索引。

其中，原始数据中包含至少一个数据块，数据块为文件系统中的数据存储单元，由原始数据存储单元1保存。数据块中包含若干个数据元组。

其中，叶子层索引是叶子节点的数据项集合，其中包含一个独立的叶子层索引文件。该叶子层索引文件由多个叶子层数据块组成，保存在叶子层存储单元2中。叶子层数据块中以数据元组为单位存储，每个叶子层数据块中的数据元组包含排序后的原始数据中的数据元组及其地址信息。

其中，中间层索引是除了叶子层索引之外的更高层索引的集合，可以有多层，每层是一个独立的中间层索引文件，每个中间层索引文件由多个中间层数据块组成，由中间层存储单元3保存。中间层索引文件的生成方式类似于叠罗汉，高层索引文件由下层索引文件作为输入生成，其中最底的中间层数据块中包含有每个叶子层数据块相应的转换值及其地址信息。

图5显示的是构建索引结构阶段的流程图。当获取原始数据后，对原始数据中每一个数据元组排序，生成叶子层索引，再重组叶子层索引，生成中间层索引。优选地，若中间层索引中的索引文件过大，则在该索引文件基础上进行迭代，在生成一个更高层的中间层索引文件，直到该新的索引文件符合不过大为止。

图6显示的是叶子层索引构建流程图。其中，叶子层构建单元4获取原始数据后，使用空间填充曲线图将每个数据元组映射为一个转换值，使每个数据元组根据该转换值排序。例如，使用Z-order曲线作为空间填充曲线图，获取的转换值为Z-order值，将数据元组根据Z-order值由低至高排序。

图7显示的是中间层索引构建流程图。其中，针对叶子层索引文件中的每一个叶子层数据块，提取其中第一个数据元组的空间拟合曲线的转换值以及该叶子层数据块的地址信息，生成中间层索引文件。优选地，判断生成的中间层数据块的数量是否小于阈值。若小于阈值则保留中间层数据块并组成中间层索引文件；否则，以中间层索引文件代替步骤B1中的叶子层索引文件并重新执行步骤B1，生成更高层的中间层索引文件。重复执行直到该层中的中间层数据块的数量小于阈值为止。阈值的数据可由中间层构建单元5预先设定，阈值在处理大规模数据时根据实际情况设定，本实施例中阈值设定为30。

本发明可在MapReduce框架下实现的。鉴于在MapReduce框架下完成的，所以实施例中以具体的Map函数和Reduce函数的操作为例。

在叶子层索引建立阶段，叶子层构建单元4利用MapReduce框架对原始数据中的数据元组进行排序。由于多维数据进行排序并不简单。因此，本实施例中使用空间填充曲线图将每个数据元组映射为一个转换值，使每个数据元组可以排序。优选地，叶子层构建单元4使用Z-order曲线作为空间填充曲线图实现数据元组与转换值的映射关系，如图2所示。方法1描述了叶子层索引建立的过程。map函数的输入参数为键/值(key/value)对。key和value分别对应该数据元组的地址偏移量信息(即地址信息)以及该数据元组的内容。对于每一个key/value对，map函数先根据key计算其所在数据块的地址信息。由于数据块的大小以及其偏移量为事先预设，因此可以计算出其数据块地址。例如，假设数据块的大小是64MB，某一数据元组偏移值恰好是21OM，我们可以计算出该数据元组处于第4个数据块中。随后，从value字段中提取位置信息。基于位置的信息，通过计算Z-order曲线的转换值(Z-order值)。最后，调用emit函数输出新的key/value对。reduce函数读取map函数从输出结果。进一步地，Hadoop分布式系统中还可通过shuffle和sort阶段确保了reduce的输入结果根据保持有序。reduce函数收集所有的key/value对，并输出到最后的结果文件中。

中间层建立阶段的目标是构建更高层的索引项。中间层构建单元5分配一个MapReduce任务扫描排序后的叶子层索引，找到叶子层索引文件中的每个叶子层数据块的第一个元组的转换值，输出该转换值以及该叶子层数据块的地址作为键/值对到高层次的中间层索引中，重组并生成中间层索引文件。优选地，判断该新的中间层索引文件的中间层数据块的数量是否小于阈值，如果生成的中间层索引文件仍然过大，在该层中间层索引文件的基础上重新执行上述步骤，直到更高层次的索引文件(根索引文件)中的中间层数据块的数量小于阈值。方法2描述了此阶段的详细步骤。map函数的输入参数是和算方法1相同，数据块地址的计算过程也和算法1一致。提取每个叶子层数据块中的第一个元组的转换值。然后调用emit函数输出key/value对。最后，reduce函数将收集map函数的输出，并输出到中间层存储单元3中保存。

查询过程则和一般的树结构索引相似。从根开始遍历直到叶子层结束。首先，查询会被转换为Z-order范围。本实例中所使用的空间实例对象分布如图2所示。原始数据总共有11个空间对象，原始分布顺序为：O₁，O₂，…，O₁₁，在Z-order曲线中的分布顺序为：O₅，O₁，O₆，O₂，O₇，O₈，O₄，O₃，O₉，O₁₀，O₁₁。

图3展示了索引结构的示意图。原始数据是由O₁到O₁₁11个空间对象组成，每个空间对象即为一个数据元组，原始数据共由4个数据块组成，其地址信息分别为00，01，02，03。其中，每个空间对象都有其位置信息，该位置信息将会被转换为z-order值。图中叶子层的数据元组Z₅对应原始数据的空间对象O₅，pl₁表示O₅所在的数据块的地址信息，pl₁指向O₅所在的数据块01。在本实例中，排序之后，O₅的z-order值最小，O₁₁的最大。叶子层索引建立之后，以叶子层索引为输入，构造中间层索引。在本实例中，叶子层索引由3个叶子层数据块组成。R₀就是叶子层数据块10的第一个数据元组Z₅:pl₁的转换值，pi₀即是指向叶子层数据块10。若中间层索引文件中，中间层数据块的数量大于或等于阈值时，以中间层索引文件代替叶子层索引文件并重新执行构建中间层索引步骤，直到生成的高层中间层索引文件中的中间层数据块的数量小于阈值，迭代构建中间层索引的过程即会停止。中间层索引文件的层数取决于中间层数据块的数量以及阈值的大小。通常情况下，中间层索引文件只需要一至两层即可。在本实施例中，中间层索引文件包含3个中间层数据块，由于小于预先设定的阈值(阈值为30)，所以中间层索引构造过程只执行了一次，本实施例中的根层索引只包含一层中间层索引文件。

图4展示了一个查询的实例。查询的过程和索引建立过程相反，从根层索引遍历至叶子层索引。例如，获取的查询条件为查询对象O₇的详细信息。首先，查询单元6会将O₇的位置信息转换为对应的z-order值的范围，查询从根层次的索引开始扫描。其中，数据元组R₁满足z-order值的范围。根据R₁的指针，pi1指向的叶子层数据块11。查询单元6扫描该叶子层数据块11。在叶子层索引中，确定对象O₇的所在的叶子层数据块，并获取其地址信息pl2。指针pl2指向的原始数据的数据O₂块，进而获得其中的数据元组O₇。

图9显示的是索引系统的结构。本发明的索引系统包括：原始数据存储单元1、叶子层存储单元2、中间层存储单元3、叶子层构建单元4、中间层构建单元5与查询单元6。其中，原始数据存储单元1实现存储原始数据。叶子层存储单元2与原始数据存储单元1连接，实现存储叶子层索引文件。中间层存储单元3与叶子层存储单元2连接，实现存储中间层索引文件。叶子层构建单元4设置在原始数据存储单元1与叶子层存储单元2之间，用于读取原始数据并构建叶子层索引文件。中间层构建单元5设置在中间层存储单元2与叶子层构建单元3之间，用于读取叶子层索引文件并构建中间层索引文件。查询单元6与中间层存储单元3连接，用于获取查询条件并查询相应的数据元组。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种面向大规模数据的索引方法，其特征在于，包括构建索引结构阶段与查询阶段；所述构建索引结构阶段根据原始数据生成索引结构；所述查询阶段根据所述索引结构获得相应的所述原始数据；

2.如权利要求1所述的面向大规模数据的索引方法，其特征在于，所述构建索引结构阶段包括：

3.如权利要求2所述的面向大规模数据的索引方法，其特征在于，所述步骤一中，所述数据元组排序及输出的过程包括：

4.如权利要求2或3中任意一项或多项所述的面向大规模数据的索引方法，其特征在于，所述步骤三中生成所述中间层索引的过程包括：

5.如权利要求4所述的面向大规模数据的索引方法，其特征在于，所述步骤B2后进一步包括：

6.如权利要求1所述的面向大规模数据的索引方法，其特征在于，所述查询阶段包括：步骤三：获取查询条件，并根据所述查询条件依次查询所述中间层索引、叶子层索引，获取所述原始数据的数据块地址信息；

7.如权利要求6所述的面向大规模数据的索引方法，其特征在于，所述步骤三中查询所述索引结构的过程包括：

8.一种面向大规模数据的索引系统，其特征在于，包括：

原始数据存储单元(1)，其存储所述原始数据；

叶子层存储单元(2)，其与所述原始数据存储单元(1)连接，存储所述叶子层索引文件；

中间层存储单元(3)，其与所述叶子层存储单元(2)连接，存储所述中间层索引文件；

叶子层构建单元(4)，其设置在所述原始数据存储单元(1)与叶子层存储单元(2)之间，用于读取所述原始数据并构建所述叶子层索引文件；

中间层构建单元(5)，其设置在所述中间层存储单元(3)与叶子层构建单元(4)之间，用于读取所述叶子层索引文件并构建所述中间层索引文件；

查询单元(6)，其与所述中间层存储单元(3)连接，用于获取查询条件并查询相应的数据元组。