CN111078634B

CN111078634B - 一种基于r树的分布式时空数据索引方法

Info

Publication number: CN111078634B
Application number: CN201911389582.6A
Authority: CN
Inventors: 王鹏; 刘涛; 程坦; 陈昭; 汪玮
Original assignee: Zhongkehaituo Wuxi Technology Co ltd
Current assignee: Zhongkehaituo Wuxi Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-07-25
Anticipated expiration: 2039-12-30
Also published as: CN111078634A

Abstract

本发明公开了一种基于R树的分布式时空数据索引方法，同一空间内离散实体的时空点序列依据时间顺序构成了该实体的运动轨迹。通过动态划分、建立、维护空间栅格，结合相邻轨迹数据划分轨迹片段，并确定一定时间窗口；构建时空索引高效查询方法是：(1)确立空间网格的动态划分及维护策略；(2)对空间网格内轨迹片段进行划分；(3)建立启发式的动态时空查询算法；(4)构建时空索引的动态维护策略。从而获得查询响应时间的大幅提升，并保证索引维护期间查询的正确响应。

Description

一种基于R树的分布式时空数据索引方法

技术领域

本发明涉及时空数据索引分析领域，特别是一种基于R树的分布式时空数据索引方法。

背景技术

R树是一种有序扩展的对象存取方法之一，也是目前应用最为广泛的一种空间索引结构。同一空间内离散实体的时空点序列依据时间顺序构成了该实体的运动轨迹。针对离散实体的移动范围相对全球区域范围较小且运动稀疏的特点，时空索引被分为空间索引及时间索引两层：首先将空间区域划分为若干网格，进而在每个空间网格内构建离散实体的时空点对应的时间范围索引，索引节点中的每个离散实体对应该船舶的完整运动轨迹。时空索引的构建过程及查询过程均基于并行计算框架实现，每个空间网格将并行构建该网格内的时间范围索引；执行点查询、区域查询及轨迹查询时，首先将输入的查询条件转换为时空查询范围，然后依据该查询范围并行查找时空索引获得候选对象集合，最终在该对象集合上精确查找符合查询条件的时空点。

以通用并行处理框架实现时空查询，既可以以指定形式直接导出存储，也可以作为处理链的一环，促进数据查询检索效率和手段构建便利性的大幅提升。

发明内容

本发明的目的是解决时空数据索引分析时效率低下的问题，提出了一种基于R树的分布式时空数据索引方法，本方法以轨迹数据文件为索引单元执行构建，在索引记录规模较小的前提下，将时间、空间信息作为多维信息同时进行考虑，构建了时空三维的R树时空索引，在执行构建前通过空间填充曲线Hilbert函数评估索引记录间的时空相近程度对索引记录进行预排序，使具有相近时空的记录排序后同样接近从而改善时空索引的构建过程。主要包括：(1)、索引记录生成；(2)索引记录预排序；(3)索引树构建。

所述索引记录生成通过存储在Hive中的单张轨迹数据表，采用单个文件存储所有已构建的时空索引树的属性信息，每行记录包含一个索引树的索引文件所在文件夹的HDFS路径、该索引树中索引文件的HDFS文件路径共同前缀，以及该索引树中包含所有索引记录的时间戳、经纬度取值范围；文件中的记录按索引树包含的最小时间戳取值升序存储。具体步骤如下：

(11).被索引的文件存储在一个文件夹；

参与构建时空索引的轨迹数据文件存储在HDFS的同一文件夹下。

(12).构建文件索引记录；

基于所有文件索引记录构建的R树时空索引最终将序列化为若干个索引文件，存储在HDFS的指定目录下，同一时空索引树的索引文件存储在单独文件夹下。

(13).索引记录元组生成；

对所有轨迹数据文件进行遍历，并以文件为单位对文件中包含的轨迹数据记录的时间戳、经纬度取值进行统计，生成参与索引的索引记录元组。

(14)索引记录生成算法；

索引记录生成的算法描述主要说明了对大量轨迹数据文件进行并行遍历并统计各文件的时间戳、经纬度取值范围，最终生成索引记录。

(15)三元组间的聚合算法；

将该时空三元组的时间、经纬度值与范围元组中的对应最大值最小值进行比较，选取其中的较大、较小值作为新的最大值、最小值，并将比较后的新时空范围元组作为结果返回。

所述索引记录预排序是基于上节获得的包含索引记录的元组，调用算法计算单条索引记录中时空范围的Key值对索引记录进行预排序，以改善时空索引树的构建过程，完成索引记录生成的运算后，进行索引记录的预排序。具体步骤如下：

(21)确定索引关键值；

调用SortByKey算子，定义Hilbert函数计算单条索引记录中时空范围的Hilbert值并以Hilbert值为Key值对索引记录进行预排序。

(22)时空立方体算法；

空间填充曲线Hilbert函数是将一个多维的点映射为一个一维的数值，单条索引记录的时空范围可以表征为一个时空立方体，因此需要以一个点描述该时空立方体，以获得索引记录的Hilbert值。

(23)算法优化；

由于三维向量的Hilbert值的生成规则基于正立方体空间生成，因此需要尽可能使时间、空间取值数量级相近(以2的幂次方为衡量标准)，以减少不被“访问”的空间，优化生成的Hilbert值。

所述索引树构建基于遍历所有轨迹数据文件并经过预排序后的索引记录进行，最终构建R数的分布式时空数据索引表。具体步骤如下：

(31)构建时空数据索引R*树；

调用Action类的Collect算子，获得经过预排序后的所有索引记录，然后依据索引记录中包含的时空三维信息，构建为时空索引R*树。

(32)时空数据索引操作；

以页为单位对节点进行存储和记录，以页为单位对节点进行存储、记录、更改、删除和退出等操作。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明的一种基于R树的分布式时空数据索引方法示意图。

图2是本发明的索引记录生成过程示意图。

图3是本发明的索引记录预排序过程示意图。

图4是本发明的索引树构建示意图。

具体实施方式

一种基于R树的分布式时空数据索引方法，主要包括：(1)、索引记录生成；(2)索引记录预排序；(3)索引树构建其中，

(11).被索引的文件存储在一个文件夹；

参与构建时空索引的轨迹数据文件存储在HDFS的同一文件夹下，单条索引记录的结构设计为：

I＝(p，tmin，tmax，xmin，xmax，ymin，ymax)

其中p为该文件的最短文件路径，即去掉共同文件路径前缀后的剩余文件名，(tmin，tmax)为该文件包含轨迹数据记录的时间取值上下界，(xmin，xmax)为该文件包含轨迹数据记录的经度取值上下界，(ymin，ymax)为该文件包含轨迹数据记录的纬度取值上下界。

(12).构建文件索引记录；

(13).索引记录元组生成；

(14)索引记录生成算法；

算法基于Spark的编程模型实现，由一系列SDD的算子组成，其中省略了调用Map、AggregateByKey等算子时传入函数的具体算法实现过程。

首先将每一个文件转化为一个SDD，对该文件SDD调用Map算子，传入的TSTupleGenerate函数依据定义的列分隔符将文件中的每一行转换为若干列，并依据定义的时间、空间列偏移，将文件中的每行记录转换为描述该行记录的时空信息的(t，x，y)三元组；

随后调用Map算子将该文件中的三元组转换为(文件路径，时空三元组)的Key-Value形式的值；

每一个文件由原始的文件变为一个元素为Key-Value形式的(文件路径，时空三元组)的SDD，每个元素对应文件中的一行记录，其中此处的文件路径已经为去掉公共前缀后的最短文件路径。

通过对传入的文件路径列表进行遍历，执行上述转换操作，将获得一系列包含Key-Value形式的(文件路径，时空三元组)的SDD；

通过调用Union算子，将这些SDD合并为一个SDD，此时该SDD中包含的元素均为Key-Value形式，其中Key为文件路径，Value为描述了Key值指定的文件中的一行记录的时间、空间信息取值的时空三元组；

在合并后的SDD上调用AggregateByKey算子，Spark将以Key值为单位，对同一Key值的Value进行聚合运算；

ZeroValue为定义的初始值，此处为表示时空取值范围的初始值，值为(now，0，lonmax，lonmin，latmax，latmin)，前两位为时间的初始最小值、最大值，now为索引构建时实时获取的时间戳。

(15)三元组间的聚合算法；

FTSSeq函数定义了一个时空范围元组与一个时空三元组间的聚合运算方式，将两个时空范围元组间的聚合运算方式，两个元组一一对应比较，将获得的新时空范围元组作为返回。

AggregateByKey算子将在计算节点进行局部Combine，具有较高的计算性能，经过AggregateByKey后，将得到包含元素为Key-Value形式的(文件路径，时空范围元组)的SDD，其中Key为文件路径，时空范围元组(tmin，tmax，xmin，xmax，ymin，ymax)描述了Key值指定的文件中包含记录的时间取值上下界。

基于该SDD再次调用Map算子，将Key-Value形式元素转换为[key，value]形式，即转换为(p，tmin，tmax，xmin，xmax，ymin，ymax)元组，即可得到包含元素为索引记录的SDD，随后经过预排序将执行时空索引树的构建。

(21)确定索引关键值；

基于上节获得的包含索引记录的SDD，调用SortByKey算子，定义Hilbert函数计算单条索引记录中时空范围的Hilbert值并以Hilbert值为Key值对索引记录进行预排序。

(22)时空立方体算法；

(23)算法优化；

取该时刻的时间戳作为基准，减去每条索引记录的时间戳值进而获得的差值作为计算Hilbert值时的时间取值，当数据记录中的最小时间戳值与基准时间戳值相差一年时，最大差值约为2的25次方；

将索引记录的经纬度值扩大到以分为单位的数值，则经度的最大分度值约为2的20次方；

设基准时间戳值为now，则第i条索引记录的Hilbert值计算方式：

point_i＝(now--(ti_min+ti_max)/2，(xi_min+xi_max)/2*3600，(yi_min+yi_max)/2*3600)

h_i＝Hilbert(point_i)

(31)构建时空数据索引R*树；

基于R树实现库提供的存储框架CustomStorage实现了基于HDFS的R*树的构建与重载过程，即HDFSStorage类。HDFSStorage类定义了索引存储的初始化过程，存储过程，以及索引单元页的载入、存储与删除过程。

(32)时空数据索引操作；

以页为单位对节点进行存储和记录，当文件存在时，从HDFS的相应路径读取索引包含的若干页，并以dict形式将这些页的内容载入内存；

在执行索引构建、查询时为查询过程提供指定页的数据内容，或动态对页进行更改或删除；

在结束对索引访问时，将索引树包含的各个页存入HDFS的指定路径下。

本发明在时空数据索引建立模型过程中，通过使用R树的方式构建索引树的模型，减少了模型计算的工作量，在该对象集合上精确查找符合查询条件的时空点；时空数据索引的构建通过索引记录生成、索引记录预排序、索引树构建三个过程，促进数据查询检索效率和手段构建便利性的大幅提升。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于R树的分布式时空数据索引方法，主要特征包括如下步骤：

(1)、索引记录生成：通过存储在Hive中的单张轨迹数据表，采用单个文件存储所有已构建的时空索引树的属性信息，每行记录包含一个索引树的索引文件所在文件夹的HDFS路径、该索引树中索引文件的HDFS文件路径共同前缀，以及该索引树中包含所有索引记录的时间戳、经纬度取值范围；文件中的记录按索引树包含的最小时间戳取值升序存储；

(2)索引记录预排序：是基于上节获得的包含索引记录的元组，调用算法计算单条索引记录中时空范围的Key值对索引记录进行预排序，以改善时空索引树的构建过程，完成索引记录生成的运算后，进行索引记录的预排序；

(3)索引树构建：基于遍历所有轨迹数据文件并经过预排序后的索引记录进行，最终构建R数的分布式时空数据索引表；

步骤(2)索引记录预排序，其实现方法包括：

(31)确定索引关键值：定义Hilbert函数计算单条索引记录中时空范围的Hilbert值并以Hilbert值为Key值对索引记录进行预排序；

(32)时空立方体算法：空间填充曲线Hilbert函数是将一个多维的点映射为一个一维的数值，单条索引记录的时空范围可以表征为一个时空立方体，因此需要以一个点描述该时空立方体，以获得索引记录的Hilbert值；

(33)算法优化：由于三维向量的Hilbert值的生成规则基于正立方体空间生成，因此需要尽可能使时间、空间取值数量级相近，以2的幂次方为衡量标准，以减少不被“访问”的空间，优化生成的Hilbert值；

步骤(33)算法优化，其实现方法包括：

(81)时间维度优化：取时间戳now作为基准，减去每条索引记录的时间戳值进而获得的差值作为计算Hilbert值时的时间取值，当数据记录中的最小时间戳值与基准时间戳值相差一年时，最大差值为2的25次方；所述now为索引构建时实时获取的时间戳；

(82)经纬度优化：将索引记录的经纬度值扩大到以分为单位的数值，则经度的最大分度值为2的20次方；

(83)时空优化：设基准时间戳值为now，则第i条索引记录的Hilbert值计算方式：

point_i＝(now-(ti_min+ti_max)/2，(xi_min+xi_max)/2*3600，(yi_min+yi_max)/2*3600)

h_i＝Hilbert(point_i)。

2.按照权利要求1所述的一种基于R树的分布式时空数据索引方法，其特征在于，步骤(1)索引记录的生成，其实现方法包括：

(21)被索引的文件存储在一个文件夹：参与构建时空索引的轨迹数据文件存储在HDFS的同一文件夹下；

(22)构建文件索引记录：基于所有文件索引记录构建的R树时空索引最终将序列化为若干个索引文件，存储在HDFS的指定目录下，同一时空索引树的索引文件存储在单独文件夹下；

(23)索引记录元组生成：对所有轨迹数据文件进行遍历，并以文件为单位对文件中包含的轨迹数据记录的时间戳、经纬度取值进行统计，生成参与索引的索引记录元组；

(24)索引记录生成算法：索引记录生成的算法描述主要说明了对大量轨迹数据文件进行并行遍历并统计各文件的时间戳、经纬度取值范围，最终生成索引记录；

(25)三元组间的聚合算法：将时空三元组的时间、经纬度值与范围元组中的对应最大值最小值进行比较，选取其中的较大、较小值作为新的最大值、最小值，并将比较后的新时空范围元组作为结果返回。

3.按照权利要求1所述的一种基于R树的分布式时空数据索引方法，其特征在于，步骤(3)索引树构建，其实现方法包括：

(41)构建时空数据索引R*树：获得经过预排序后的所有索引记录，然后依据索引记录中包含的时空三维信息，构建为时空索引R*树；

(42)时空数据索引操作：以页为单位对节点进行存储、记录、更改、删除和退出操作。

4.按照权利要求2所述的索引记录生成过程，其特征在于，步骤(21)被索引的文件存储在一个文件夹，其实现方法包括：

(51)构建单条索引记录：单条索引记录的结构设计为：

I＝(p，tmin，tmax，xmin，xmax，ymin，ymax)

5.按照权利要求2所述的索引记录生成过程，其特征在于，步骤(24)索引记录生成算法，其实现方法包括：

(61)算法模型设计：算法基于Spark的编程模型实现，由一系列SDD的算子组成，其中省略了调用Map、AggregateByKey算子时传入函数的具体算法实现过程；

(62)生产时空信息三元组：将每一个文件转化为一个SDD，对该文件SDD调用Map算子，传入的TSTupleGenerate函数依据定义的列分隔符将文件中的每一行转换为若干列，并依据定义的时间、空间列偏移，将文件中的每行记录转换为描述该行记录的时空信息的(t，x，y)三元组；

(63)三元组转换：调用Map算子将该文件中的三元组转换为(文件路径，时空三元组)的Key-Value形式的值；

(64)生产元素的对应关系：每一个文件由原始的文件变为一个元素为Key-Value形式的(文件路径，时空三元组)的SDD，每个元素对应文件中的一行记录，其中此处的文件路径已经为去掉公共前缀后的最短文件路径；

(65)文件路径列表遍历：通过对传入的文件路径列表进行遍历，执行上述转换操作，将获得一系列包含Key-Value形式的(文件路径，时空三元组)的SDD；

(66)合并冗余：通过调用Union算子，将这些SDD合并为一个SDD，此时该SDD中包含的元素均为Key-Value形式，其中Key为文件路径，Value为描述了Key值指定的文件中的一行记录的时间、空间信息取值的时空三元组；

(67)聚合运算：在合并后的SDD上调用AggregateByKey算子，Spark将以Key值为单位，对同一Key值的Value进行聚合运算；

(68)获取时间戳：ZeroValue为定义的初始值，此处为表示时空取值范围的初始值，值为(now，0，lonmax，lonmin，latmax，latmin)，前两位为时间的初始最小值、最大值，now为索引构建时实时获取的时间戳。

6.按照权利要求2所述的索引记录生成过程，其特征在于，步骤(25)三元组间的聚合算法，其实现方法包括：

(71)三元组对比：FTSSeq函数定义了一个时空范围元组与一个时空三元组间的聚合运算方式，将两个时空范围元组间的聚合运算方式，两个元组一一对应比较，将获得的新时空范围元组作为返回；

(72)构建Key值：AggregateByKey算子将在计算节点进行局部Combine，经过AggregateByKey后，将得到包含元素为Key-Value形式的(文件路径，时空范围元组)的SDD，其中Key为文件路径，时空范围元组(tmin，tmax，xmin，xmax，ymin，ymax)描述了Key值指定的文件中包含记录的时间取值上下界；

(73)索引记录生成：基于该SDD再次调用Map算子，将Key-Value形式元素转换为[key，value]形式，即转换为(p，tmin，tmax，xmin，xmax，ymin，ymax)元组，即可得到包含元素为索引记录的SDD。

7.按照权利要求3所述的索引树构建过程，其特征在于，步骤(41)时空数据索引操作，其实现方法包括：

(91)构建为时空索引R*树：调用Action类的Collect算子，获得经过预排序后的所有索引记录，然后依据索引记录中包含的时空三维信息，构建为时空索引R*树；

(92)R*树的构建与重载：基于R树实现库提供的存储框架CustomStorage实现了基于HDFS的R*树的构建与重载过程，即HDFSStorage类；

(93)定义HDFSStorage类：定义了索引存储的初始化过程，存储过程，以及索引单元页的载入、存储与删除过程。

8.按照权利要求3所述的索引树构建过程，其特征在于，步骤(42)时空数据索引操作，其实现方法包括：

(101)存储和记录：以页为单位对节点进行存储和记录，当文件存在时，从HDFS的相应路径读取索引包含的若干页，并以dict形式将这些页的内容载入内存；

(102)更改和删除：在执行索引构建、查询时为查询过程提供指定页的数据内容，或动态对页进行更改或删除；

(103)结束操作：在结束对索引访问时，将索引树包含的各个页存入HDFS的指定路径下。