CN104239469A

CN104239469A - 一种面向空间数据连接操作的分布式数据存取方法

Info

Publication number: CN104239469A
Application number: CN201410444716.0A
Authority: CN
Inventors: 陆佳民; 冯钧
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2014-09-03
Filing date: 2014-09-03
Publication date: 2014-12-24
Anticipated expiration: 2034-09-03
Also published as: CN104239469B

Abstract

本发明涉及一种面向空间数据连接操作的分布式数据存取方法，属于信息技术处理领域。本方法公开了空间数据的分离存取方法，将空间数据连接操作的不同阶段：过滤与精化，与分布式计算过程MapReduce进行有机结合。本发明不仅明确了MapReduce框架内空间数据连接操作的基本过程，同时提出了通用的针对空间数据操作的远程有效数据存取过程，筛选并远程存取操作相关数据，达到降低网络传输代价的目的。

Description

一种面向空间数据连接操作的分布式数据存取方法

技术领域

本发明涉及一种面向空间数据连接操作的分布式数据存取方法，属于信息技术处理领域。

背景技术

空间数据的连接操作是指发现符合一定空间关系（覆盖、邻近、包含等）的空间对象二元组，一般分为两个步骤：过滤与精化。前者利用空间数据的概要进行来发现符合查询要求的候选集，而后者则利用空间对象的高精度形状数据来进行比较，以得到最终的连接结果。在基于MapReduce并行处理模式进行空间连接操作时，Map阶段需用于对空间对象进行粗粒度聚类，而上述两个步骤都则只可以在Reduce阶段完成，因此需要将所有非过滤候选集的空间对象数据也通过网络进行远程存取，产生大量不必要的代价。

非过滤候选集的空间数据的远程存取代价构成了面向分布式环境的空间数据连接连接操作的一个技术难点。

目前面向分布式环境的数据远程存取的方法主要有：Jeffrey Dean 和 Sanjay Ghemawat提出的MapReduce并行处理模式，阐述了并行化环境下数据处理的标准流程与体系结构，为实现空间数据连接操作提供了良好的基础。在此基础上由Apache基金会实现的Hadoop平台则成为主流的并行处理平台，所有数据按照键-值对的形式存储在分布式文件系统HDFS，并在需要时进行远程存取（Dean, J. & Ghemawat, S. MapReduce: Simplified Data Processing on Large Clusters Proceedings of the 6th Symposium on Operating Systems Design & Implementation - Volume 6, USENIX Association, 2004）。Shubin Zhang等在MapReduce并行处理模式的基础上对空间数据的并行化连接操作进行了实现，由于过滤与精化均在Reduce阶段进行处理，因此通过HDFS对全体空间对象数据进行远程读取（Zhang, S.； Han, J.； Liu, Z.； Wang, K. & Xu, Z. SJMR: Parallelizing Spatial Join With MapReduce on Clusters Cluster Computing and Workshops, 2009）。Jens Dittrich等人在HDFS基础上，建立了Hadoop++系统，对所有存储在HDFS上的文件建立内部索引。尽管没有减少远程存取的数据量，但在对数据进行读取后，借由内部索引可以加快本地数据的读取速度（Dittrich, J.； Quiane-Ruiz, J.； Jindal, A.； Kargin, Y.； Setty, V. & Schad, J. Hadoop++: Making A Yellow Elephant Run Like A Cheetah (Without It Even Noticing) Proceedings of the VLDB Endowment, 2010）。Yongqiang He等提出了列式分布存储结构，将关系数据表中的每一列作为HDFS中的独立模块进行远程存取，减小了关系数据操作中对于无关数据的存取代价（He, Y.； Lee, R.； Huai, Y.； Shao, Z.； Jain, N.； Zhang, X. & Xu, Z. RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems Data Engineering (ICDE), 2011 IEEE 27th International Conference on, 2011）。

目前，涉及到分布式环境下数据远程存取的方法在针对空间数据对象进行连接操作时，均需对全体对象的高精度形状数据进行远程存取。

发明内容

本发明所要解决的技术问题是针对上述背景技术的不足，提供了一种面向空间数据连接操作的分布式数据存取方法。

本发明为实现上述发明目的采用如下技术方案：

步骤1，对给定的分布式空间数据样本进行抽样，进而制定出多维空间内的细粒度网格结构，方法如下:

步骤1-1，对于分布在并行数据库内，以两个关系数据表形式所存储的空间数据进行样本抽取；

步骤1-2，在所有子数据库内，计算样本空间数据的最小外包框，从而获取本地数据的分布范围和样本尺寸均值，并提交至主数据库内；

步骤1-3，在主数据库内，计算整体空间数据的基本分布范围以及样本尺寸均值，进行制定出全局网格，任一网格单元可以覆盖若干个空间数据对象；

步骤1-4，对网格单元从左至右，从下而上进行编号，起始号码为1。网格外区域统一编号为0；

步骤2，在MapReduce并行处理模式的Map阶段，将所有子数据库将包含的空间数据对象划分入步骤1所产生的全局网格, 具体包括如下步骤:

步骤2-1，计算两个关系数据表内每个空间数据对象的最小外包框，进而得到它所覆盖的网格单元的编号值；

步骤2-2，若对象的最小外包框覆盖了多个单元格，则对对象进行复制；

步骤2-3，根据步骤4中所需执行的并行Reduce任务的数量，将网格单元以及其内所包含的空间数据对象进行聚类。使得每个Reduce任务可以读取并处理一部分数据。每部分的数据与其它部分不存在依赖关系，从而可以使得所有Reduce任务进行同步处理。

步骤3，在关系数据表内，一个空间数据对象不仅包含其多维形状信息，也包含其多种类别的其它描述信息（湖泊的名称、所属市省邮编等）。前者被称为数据元组信息，而后者则被称为LOB（Large OBject）数据，通常空间数据的精密形状数据远远大于其元组信息。数据元组信息的内容由具体的关系数据表决定，但物体的最小外包框数据则通常与其元组信息保存在一起，包括以下具体步骤：

步骤3-1，对存储在关系数据表内的空间数据对象按照元组信息与LOB信息进行分类；

步骤3-2，元组信息中包含对应LOB信息的逻辑指针，描述存储LOB信息的集群计算机编号，文件名称，偏移量与大小；

步骤3-3，基于此分类，以及在步骤2中利用全局网格对空间对象的划分，对每一部分的空间对象导出并分别存储在两个文件之中：数据元组文件和LOB文件。

步骤4，利用MapReduce处理平台，对步骤3中所产生的数据元组文件，按照所包含对象的网格编号进行Shuffle，确保所以分配入相同网格单元部分的数据对象，均被划分入同一Reduce任务进行处理。

步骤5，针对相同部分的空间数据对象，进行空间数据连接操作的过滤处理，具体步骤如下：

步骤5-1，按照连接操作的输入来源，得到每一个空间连接对象二元组。

步骤5-2，若两个对象的最小外包框重叠，则被视为存在空间连接关系的候选对象并予以保留，否则弃置。

步骤6，对于步骤5中所产生的空间连接候选集，远程读取涉及空间对象的LOB数据，进而对每一候选对象二元组进行精化操作，以确定两者是否存在空间连接关系，其主要步骤包括：

步骤6-1，对步骤5中产生的连接候选集进行处理，收集相关LOB信息的逻辑指针，按照存储位置的不同保存在对应的需求列表（Lob Sheet）中；

步骤6-2，将需求列表发送给对应的远程集群计算机；

步骤6-3，在每台集群计算机运行的后台式LOB收集服务器接受来自其它计算机的需求列表，按照内含的LOB逻辑指针，收集需要的LOB数据并保存在结果LOB文件（result LOB）中；

步骤6-4，将结果LOB文件发送给对应的提交需求列表的集群计算机；

步骤6-5，继续空间连接操作，读取LOB信息并进行精化操作，产生最终结果。

本发明采用上述技术方案，具有以下有益效果：明确了MapReduce框架内空间数据连接操作的基本过程，利用通用的针对空间数据操作的远程有效数据存取过程，可以筛选并远程存取连接候选集数据，达到降低远程存取高精度空间对象数据代价的目的。

附图说明

图1为面向分布式空间数据连接操作数据存取方法的数据流程图。

具体实施方式

下面结合附图对发明的技术方案进行详细说明：

面向分布式环境的空间数据数据连接操作的最小对象为两个包含有大量二维空间对象的关系数据库表R和S，以属性r和s来分别定义操作所要求的空间对象，一个部署在由若干计算机组成的集群上的Hadoop系统。

按照图1所示的流程图，实现面向分布式空间数据连接操作的数据存取方法，包括以下步骤：

步骤1，对给定的分布式空间关系数据表R和S进行样本抽样，进而制定出二维空间内的细粒度网格结构，方法如下:

步骤1-1，对于分布在并行数据库内，以R和S中所存储的空间数据按照1:1000的比例进行样本抽取；

步骤1-2，对抽取样本，计算空间数据属性r和s的最小外包框，再进行空间合并（union）操作，获取本地数据的分布范围和样本尺寸均值（每个对象的最小外包框在X和Y轴上的大小），并提交至主数据库内；

步骤1-3，在主数据库内，计算整体空间数据的基本分布范围以及样本尺寸均值。制定出全局网格，任一网格单元可以覆盖若干个空间数据对象，

网格大小为全体样本数据最小外包框的合并集，而网格单元格的大小则设定了样本均值的10倍，平均每个单元格可包含100个空间数据对象；

步骤2-1，计算两个关系数据表内每个空间数据对象的最小外包框，计算外包框与全局网格的相对位置，并与单元格尺寸相除，可以得到它所覆盖的网格单元的编号值；

步骤2-2，若对象的最小外包框覆盖了多个单元格，则对空间对象进行复制，并赋予不同的单元格编号；

步骤2-3，根据步骤4中所需执行的并行Reduce任务的数量K，计算每一对象的单元格编号与K的模值，并按照结果对网格单元以及其内所包含的空间数据对象进行聚类，使得每个Reduce任务可以读取并处理具有相同模值的空间对象。每部分的数据与其它部分不存在依赖关系，以便同步处理所有Reduce任务；

步骤3，将关系数据表内空间对象的高精度形状信息归为LOB数据，而其它数据，包括其形状的最小外包框归为元组数据，进行分离存储，方法如下：

步骤3-2，分类后的数据导出在两个二进制块数据内，元组数据中包含对应LOB信息的逻辑指针，描述存储LOB信息的集群计算机编号，文件名称，偏移量与大小；

步骤3-3，结合步骤2中利用全局网格对空间对象的划分，将每一部分的空间对象的导出数据分别存储在两个文件之中：数据元组文件和LOB文件。

步骤4，利用MapReduce处理平台，对步骤3中所产生的数据元组文件，按照所包含对象的网格编号进行Shuffle。每个文件的网格划分编号作为HDFS中间结果的键值，而文件位置则作为具体数值，每个Reduce任务接收具有相同键值的中间结果，并进而从其它集群计算机上去读取属于同一网格的数据远组文件。

步骤5-1，按照连接操作的输入来源，区分属于关系表R和S的对应元组，基于所有属于关系表R中的对象最小外包框，建立R-Tree结构，进而再逐行扫描属于关系表S的元组；

步骤5-2，通过与R-Tree的剪枝操作，找到最小外包框重叠的空间连接候选元组（r,s），其它不相符的空间对象则均被弃置。

步骤6-1，对步骤5中产生的每一个连接候选元组（r,s）进行处理，收集对象r与s的LOB信息逻辑指针，按照存储位置的不同保存在对应的需求列表（Lob Sheet）中；

步骤6-2，当收集到的所有存储在相同目标远程集群计算机上的LOB需求列表后，将列表发送给对应的远程计算机；

步骤6-3，目标集群计算机运行后台式LOB收集服务器，用于接受来自其它计算机的需求列表，逐行读取内含的LOB逻辑指针后，查询保存在LOB文件内的数据并保存在结果LOB文件（result LOB）中；

步骤6-5，当获取到候选元组（r,s）所需要的全部LOB文件后，读取需要的LOB信息，再继续空间连接操作的精化步骤，比较两个空间对象的高精度形状信息，若符合查询所需的空间连接关系，则输出此元组为最终结果。

可见，本发明能够实现空间数据的分离存取，从而可以将空间数据连接操作的不同阶段：过滤与精化，与分布式处理模式MapReduce进行有机结合。利用通用的针对空间数据操作的远程有效数据存取过程，筛选并远程存取操作相关数据，达到降低网络传输代价的目的。

Claims

1.一种面向分布式空间数据连接操作的数据存取方法，其特征在于包括如下步骤:

步骤1-1，对于分布在子数据库内，以两个关系数据表形式所存储的空间数据进行样本抽取；

步骤1-2，计算样本空间数据的最小外包框，从而获取本地数据的分布范围和样本尺寸均值，并提交至主数据库内；

步骤1-3，在主数据库内，计算整体空间数据的基本分布范围以及样本尺寸均值，进而制定出全局网格，并使任一网格单元可以覆盖若干个空间数据对象；

步骤1-4，对网格单元从左至右，从下而上进行编号，起始号码为1；

网格外区域统一编号为0；

步骤2-3，根据执行所需Reduce任务的数量，将网格单元以及其内所包含的空间数据对象进行聚类；

使得每个Reduce任务可以读取并处理一部分数据；

每部分的数据与其它部分不存在依赖关系，从而可以使得所有Reduce任务进行同步处理；

步骤3，对每一部分的空间数据对象进行区别存储，将数据元组信息与对象形状信息（称为LOB数据）分别存储在不同的文件内，前者形成数据元组文件，后者形成LOB文件；

步骤4，利用MapReduce处理平台，对步骤3中所产生的数据元组文件，按照所包含对象的网格编号进行Shuffle，确保所以分配入相同网格单元部分的数据对象，均被划分入同一Reduce任务进行处理；

步骤5-1，按照连接操作的输入来源，得到每一个空间连接对象二元组；

步骤5-2，若两个对象的最小外包框重叠，则被视为候选对象并予以保留，否则弃置；

步骤6，对于步骤5中所产生的空间连接候选集，远程读取涉及空间对象的LOB数据，进而对每一候选对象二元组进行精化操作，以确定两者是否存在空间连接关系。

2.根据权利要求1所述的面向分布式空间数据连接操作的数据存取方法，其特征在于步骤3的具体步骤如下：

3.根据权利要求1所述的面向分布式空间数据连接操作的数据存取方法，其特征在于步骤6中所述通用的针对空间数据操作的远程候选数据的存取方法如下具体包含如下步骤：

步骤6-2，将需求列表发送给对应的远程集群计算机；

步骤6-5，继续空间连接操作，读取LOB信息，获得候选对象的高精度形状数据并进行精化操作，产生最终结果。

4.根据权利要求1所述的面向分布式空间数据连接操作的数据存取方法，其特征在于，其运行环境是由一台主计算机与若干子计算机构成的计算机集群系统；

所述集群中每台计算机均包含一个具有处理空间数据的数据库，以实现空间对象最小外包框的比较与及精密形状数据的处理；

所述主数据库是指位于主计算机中的数据库，所述子数据库是指位于子计算机中的数据库。

5.如权利要求1所述面向分布式空间数据连接操作的数据存取方法，其特征在于，所述LOB数据是指在关系数据表内一个空间数据对象的多维形状信息，所述元组信息是指在关系数据表内一个空间数据对象的除多维形状外的其它描述信息（湖泊的名称、所属市省邮编等），元组信息的内容由具体的关系数据表决定，但物体的最小外包框数据则通常与其元组信息保存在一起；

通常空间数据的精密形状信息远远大于其元组信息。