CN107451233B

CN107451233B - 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法

Info

Publication number: CN107451233B
Application number: CN201710609573.8A
Authority: CN
Inventors: 吉根林; 何浩奇; 赵斌
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2020-02-18
Anticipated expiration: 2037-07-25
Also published as: CN107451233A

Abstract

本发明公开一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，依据时间属性对轨迹的点数据进行重新组织，同一时刻的点数据集中存储，即：将移动对象同一时刻所有的点数据构成的结构称之为“帧”，然后按照时刻将轨迹组织成帧数据文件，一帧对应于一个时刻，每一帧包含该时刻所有轨迹的点数据，同一帧数据在存储设备中邻近存储；对存储后的帧数据文件进行相关操作，包括新文件的初始化、轨迹添加、顺序读取和时间查询。本发明根据用户对于时空轨迹数据访问时间属性的特点针对性地设计了数据文件的格式，该存储方法具有无数据缺失和易于实现的特点，适用于轨迹数据的存储管理和数据分析与挖掘领域。

Description

时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法

技术领域

本发明涉及一种时空数据存储方法，具体涉及一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法。

背景技术

近年来，随着全球定位技术和网络通信技术的发展和成熟，移动终端产生的时空轨迹数据的规模越来越大。在综合考虑存储设备的技术性能与价格成本之后，通常轨迹数据采用辅助存储设备(如磁盘)进行存储。但是，轨迹数据的挖掘算法常常在执行过程中引发大量的随机I/O操作，这成为了影响算法性能提升的重要因素。本文通过研究时空轨迹数据在辅助存储设备中的存储方法，减少随机I/O操作次数，缩短执行时间，有效提升挖掘算法的执行性能。

关于轨迹数据的存储方案，工业界普遍采用成熟的数据库技术。例如，甲骨文公司的Oracle Spatial产品基于对象-关系模式存储和管理空间数据，其中的SDO_GEOMETRY对象类型可以用来存储轨迹数据。又如，微软公司的SQL Server同样提供了对空间数据的支持功能。开源数据库PostgreSQL的扩展插件PostGIS提供的空间数据类型也可以构造出Trajectory数据类型。上述软件产品大多采用基于关系数据库扩展出的空间数据库来存储轨迹数据。虽然此类解决方案提供了成熟的空间数据类型和空间访问接口，使用方便。但是，轨迹数据本质上不是结构化数据，并不完全适合关系数据库。因而，这样的存储方法无法针对轨迹的时空特性提供高效率的访问方法，从而影响数据访问的性能。

学术界针对此问题也展开了相关研究。Mediano M^[1]等人提出采用轨迹形式表示二维空间长矢量，在经过分段处理后按照原始顺序依次存储。实际操作时仅需读取所需片段，避免非必要数据的读取，提升了数据访问效率。Chakka V^[2]等人也采用了基于轨迹段的存储方法，但其存储方法采用在线算法实现。基本思想是将添加的轨迹分段处理后按照空间关系进行组织，将邻近的轨迹段归为一组，同组轨迹段在磁盘上连续存放，这样的存储方法可以有效提升邻近空间轨迹的磁盘访问效率。通常时空数据在空间分布上具有偏斜的特性，Botea V^[3]等人基于此观察采用空间四象限划分的方法将历史时空点数据分组到不同大小的空间网格中，每个网格存储的数据规模大致相同，并且相邻时空点数据在磁盘上邻近存储。另一个相近的研究工作是Mauroux P提出的TrajStore^[4],它也研究轨迹数据的存储问题，不同之处是TrajStore的存储方法支持数据压缩和新轨迹的添加功能。Wang HZ^[5]等人研究了内存中轨迹数据的组织方法。按照时间顺序以“帧”为单位进行分组，并且采用压缩和Cache优化的技术提升数据访问性能。由于该存储方法是针对内存设备而设计的，因此无法直接移植到磁盘设备上。

轨迹数据存储方法对轨迹数据挖掘算法的性能影响很大。现有的轨迹数据挖掘包含轨迹模式挖掘、轨迹聚类、轨迹分类和时空图挖掘等研究内容。其中不同的挖掘算法访问轨迹数据的方式各不相同，因而在存储设备上轨迹数据按照轨迹访问方式进行存储与组织最有利于算法性能的发挥。例如，轨迹伴随模式算法的核心操作是对每个时刻的点数据集进行聚类运算。打破原始轨迹的点数据组织方式，按照时间属性对点数据进行重新分组，显然这种方法更优。由此可见，轨迹数据存储方法的设计应该充分考虑数据访问的方式。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，本发明根据用户对于时空轨迹数据访问时间属性的特点针对性地设计了数据文件的格式，该存储方法具有无数据缺失和易于实现的特点，适用于轨迹数据的存储管理和数据分析与挖掘领域。

技术方案：本发明一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，依据时间属性对轨迹的点数据进行重新组织，同一时刻的点数据集中存储，即：将移动对象同一时刻所有的点数据构成的结构称之为“帧”，然后按照时刻将轨迹组织成帧数据文件，一帧对应于一个时刻，每一帧包含该时刻所有轨迹的点数据，同一帧数据在存储设备中邻近存储；对存储后的帧数据文件进行相关操作，包括新文件的初始化、轨迹添加、顺序读取和时间查询；给定时空轨迹数据集Traj_DB＝(Traj₁,Traj₂,…,Traj_n)，其中，轨迹Traj_i＝〈p_i1,p_i2…p_im>，p_ij代表轨迹Traj_i中的第j个点，每个点包含x，y和t三种属性分别代表在t时刻移动对象的经纬度坐标x和y。

进一步的，所述数据文件包括文件首部、数据区、空闲区和索引区；所述文件首部记录数据文件的元数据，包括偏移量、文件链接、数据容量和早晚时间；所述数据区中最小的存储单元是帧，帧包括帧首部和帧数据区；所述索引区记录数据区中每个帧的时刻信息和在文件中的偏移量。

进一步的，所述文件首部的偏移量包括文件数据区偏移量、文件空闲区偏移量和文件索引区偏移量，文件数据区偏移量是数据文件中数据区的起始位置，用于数据访问操作中定位数据区的数据；文件空闲区偏移量是数据文件空闲区的起始位置，用于定位新添加数据的起始位置；文件索引区偏移量是数据文件索引区的起始位置，用于读取索引和添加新数据的索引信息；所述文件链接用于访问邻近的数据文件，包括前序文件链接和后序文件链接，前序文件链接和后序文件链接分别指向与当前数据文件相关联的前一个数据文件和后一个数据文件；该时间信息在文件头部记录文件中数据的最早时间和最晚时间。

进一步的，所述数据区的帧的首部为帧的ID，即此帧所对应的时刻，帧的数据区是FP_i的集合，FP_i由轨迹ID和轨迹点的经度和纬度组成；不同时刻对应的帧数据在存储设备上连续存储。

进一步的，所述索引区的具体字段描述为：帧的偏移量用于定位帧在数据文件中的位置；帧所对应的时刻信息，用来筛选满足数据访问的时间条件。

进一步的，所述新文件的初始化操作步骤为：将数据文件的默认大小为64M字节，然后新建空的数据文件，在文件首部中依次写入各字段的初始值。

进一步的，当添加新的轨迹数据集时，首先将轨迹按照时刻划分成帧，然后将帧数据按照时间先后一次存放到当前数据文件中；一个帧在数据文件中需要的空间总量

是固定的即为帧的长度L_fdata加上帧在索引区所占的字节长度(例如12字节)的总和；向指定数据文件中添加帧数据的具体步骤如下：

A、比较L_fdata和空闲区容量，如果空闲区存储空间足够，则顺序执行下一步骤；否则新建数据文件F，并且将当前文件通过文件首部中的链接字段与新文件F相互链接，然后，将当前帧添加到文件F中，即更换数据文件重新执行步骤A；

B、读取当前空闲区的偏移量，同时记录此偏移量值，为添加索引区记录做准备，然后按照帧格式，在空闲区偏移位置处写入帧数据，包括帧的首部和帧的所有点数据，然后执行步骤C；

C、读取当前索引区的偏移量，按照相应字段长度，从索引区偏移位置前12个字节处将帧的起始位置及其对应的时刻写入到数据文件中；

D、更新文件首部中的空闲区偏移量、索引区偏移量、空闲区容量和时间信息。

进一步的，顺序读取操作的具体操作步骤如下：

(1)访问程序从数据文件首部中获得数据区的偏移量offset_s和空闲区的偏移量offset_e；

(2)访问程序从offset_s位置开始按照头区中帧的长度读取数据到内存中；

(3)访问程序在内存中进行数据转换，如图4所示，首先读出帧的首部8个字节并转成时间，然后以20字节为一个单元，读出轨迹的ID，轨迹点数据的经度和纬度信息，直至转换完所有帧的数据；

(4)重复步骤(2)～(3)操作，直至读文件至offset_e位置停止。

进一步的，时间查询操作的具体操作步骤如下：

1、加载索引区的所有帧摘要，帧摘要包括偏移位置和时刻信息；

II、根据给定的时间条件，对比索引区帧的时刻信息进行筛选，得到候选帧集合C；

III、逐一访问C中的每个帧的偏移位置，然后按照顺序读写中的步骤II和步骤III读取帧数据。

有益效果：与现有技术相比，本发明具有以下优点：

1、存储对象为帧，本发明打破时空轨迹原有的数据结构，按照有利于时间属性访问的原则重新组织时空轨迹数据，将轨迹数据按照时刻进行组织，每个时刻的所有数据为一帧，以此作为时空轨迹在辅助存储设备上存储的最小单元，摈弃了传统的以空间点数据作为存储单元的方法，更有利于以时刻为单位作为处理对象的时空轨迹数据挖掘算法，例如时空轨迹群体运动模式中的聚集模式算法。

2、支持时间查询的索引区设计：轨迹数据中同时包含空间信息和时间信息，这样能够便于访问数据文件中轨迹的时间信息，本发明的索引区记录所有帧的时间信息，在进行时间查询时，可以快速便捷地过滤数据，进而找到符合时间条件的轨迹数据。

3、数据文件可相互链接：由于一个数据文件无法存储大规模的轨迹数据集，但本发明的数据文件之间具有链接功能，通过文件首部中的“前序文件链接”和“后序文件链接”将多个文件连接起来，解决大规模轨迹数据集的存储问题。

附图说明

图1为本发明中数据文件格式的区域划分示意图；

图2为本发明中文件首部的格式示意图；

图3为本发明数据区中帧的格式示意图；

图4为本发明中索引区的格式示意图；

图5为实施例中窗口查询的时间性能示意图；

图6为实施例中DBSCAN的时间性能示意图。

其中，图5(a)是指轨迹数据量的变化影响示意图，图5(b)窗口比例的变化影响示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本发明一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，依据时间属性对轨迹的点数据进行重新组织，同一时刻的点数据集中存储，即：将移动对象同一时刻所有的点数据构成的结构称之为“帧”，然后按照时刻将轨迹组织成帧数据文件，一帧对应于一个时刻，每一帧包含该时刻所有轨迹的点数据，同一帧数据在存储设备中邻近存储；对存储后的帧数据文件进行相关操作，包括新文件的初始化、轨迹添加、顺序读取和时间查询；给定时空轨迹数据集Traj_DB＝(Traj₁,Traj₂,…,Traj_n)，其中，轨迹Traj_i＝<p_i1,p_i2…p_im>，p_ij代表轨迹Traj_i中的第j个点，每个点包含x，y和t三种属性分别代表在t时刻移动对象的经纬度坐标x和y。

当执行基于时间的移动对象查询时，首先按照时间参数定位对应的帧数据。然后，只需要有限次I/O就可以读出指定数据。由于轨迹点数据的采样频率可能不同，因此需要采用线性插值的方法对缺失的点数据进行补齐

例如，如表1所示，两条轨迹Traj₁(p₁₁,p₁₂,…,p₁₅)和Traj₁(p₂₁,p₂₂,…,p₂₅)，第i帧由Traj₁的p_1i点和Traj₂的p_2i点构成，i＝1,…,5。

表1帧结构的示例

如图1所示，所述数据文件包括文件首部、数据区、空闲区和索引区；所述文件首部记录数据文件的元数据，包括偏移量、文件链接、数据容量和早晚时间；所述数据区中最小的存储单元是帧，帧包括帧首部和帧数据区；所述索引区记录数据区中每个帧的时刻信息和在文件中的偏移量。

如图2所示，所述文件首部的偏移量包括文件数据区偏移量、文件空闲区偏移量和文件索引区偏移量，文件数据区偏移量是数据文件中数据区的起始位置，用于数据访问操作中定位数据区的数据；文件空闲区偏移量是数据文件空闲区的起始位置，用于定位新添加数据的起始位置；文件索引区偏移量是数据文件索引区的起始位置，用于读取索引和添加新数据的索引信息；所述文件链接用于访问邻近的数据文件，包括前序文件链接和后序文件链接，前序文件链接和后序文件链接分别指向与当前数据文件相关联的前一个数据文件和后一个数据文件；时间信息在文件头部记录文件中数据的最早时间和最晚时间。

如图3所示，所述数据区的帧的首部为帧的ID，即此帧所对应的时刻，帧的数据区是FP_i的集合，FP_i由轨迹ID和轨迹点的经度和纬度组成；不同时刻对应的帧数据在存储设备上连续存储。

如图4所示，所述索引区的具体字段描述为：帧的偏移量用于定位帧在数据文件中的位置；帧所对应的时刻信息，用来筛选满足数据访问的时间条件。

上述新帧数据文件的初始化操作步骤为：将数据文件的默认大小为64M字节，然后新建空的数据文件，按照表2所示，在文件首部中依次写入各字段的初始值。

表2数据文件首部字段的初始化表

当添加新的轨迹数据集时，首先将轨迹安装时刻划分成帧，然后将帧数据按照时间先后一次存放到当前数据文件中；一个帧在数据文件中需要的空间总量

是固定的即为帧的长度L_fdata加上帧在索引区所占的字节长度(12字节)的总和；向指定数据文件中添加帧数据的具体步骤如下：

B、读取当前空闲区的偏移量，同时记录此偏移量值，为添加索引区记录做准备，然后按照数据区中的帧格式，在空闲区偏移位置处写入帧数据，包括帧的首部和帧的所有点数据，然后执行步骤C；

C、读取当前索引区的偏移量，按照表3规定的字段长度，从索引区偏移位置前12个字节处将帧的起始位置及其对应的时刻写入到数据文件中；

表3数据区和索引区的字段长度

上述顺序读取操作的具体操作步骤如下：

(4)重复步骤(2)～(3)操作，直至读文件至offset_e位置停止。

上述时间查询操作的具体操作步骤如下：

实施例：

为了验证本发明的实际效果，设计了如下实验。选取2012年11月2日至8日北京市12408辆出租车2500条GPS数据作为数据集。在经过线性插值后，最终得到1.13G的测试数据集。所有实验程序采用Java语言开发实现。实验环境配置为Intel Core i5处理器、2.6GHz主频、8G内存和500G转速7200转/秒的硬盘。

为了验证时间属性优先的时空轨迹存储方法的在数据访问中的性能，本实施例中设计了两个实验，分别为K最近邻查询和DBSCAN聚类算法(轨迹数据挖掘中最具有代表性的聚类算法)。DBSCAN的密度阈值设为5，距离阈值设为200米。具体参数信息参考表4。所有的查询实验都是取50次测试的平均值作为最终测试结果。由于DBSCAN测试非常耗时，因而取5次测试的平均值作为最终结果。

为了测试轨迹存储方法的有效性和可行性，实现了经典的原序保持的时空轨迹存储方法和本发明的时间属性优先的时空轨迹存储方法，并且进行了实验比较。为了表述方便，后续实验分析将采用表5中的英文简称代替存储方法的中文全称。

表4实验参数设置情况

表5轨迹存储方法列表

实验结果与分析

以下将依次测试两种存储方法在K最近邻查询和聚类算法实验中的性能。

(1)窗口查询实验

K最近邻查询是指给定时刻查找距离查询点最近的K个移动对象。以下将从轨迹数据量变化和近邻数K值变化两方面测试三种存储方法的性能。不难发现，轨迹数据量的增加会造成K近邻计算的候选集规模的变大。如图5(a)所示TT方法的时间代价最低。这是因为同一时刻的候选集数据在存储设备中集中存放，因而数据访问效率最高。而CT需要扫描所有的轨迹数据，其扫描时间随着另一方面，由于近邻数K值的变化不改变候选集的规模，因此各方法在时间代价上基本没有变化，并且时间代价上的排序和轨迹数据量变化的完全相同，如图5(b)所示。

(2)DBSCAN聚类实验分析

DBSCAN算法对给定时刻的移动对象进行聚类处理，主要的数据访问操作是在指定时刻查找指定空间范围内的点数据。如图6所示，TT比CT表现得更好一些。因为它首先按照时刻对轨迹数据进行了重新组织，同一时刻的数据邻近存储，这非常有利于DBSCAN中的数据访问操作。

Claims

1.一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：依据时间属性对轨迹的点数据进行重新组织，同一时刻的点数据集中存储，即：将移动对象同一时刻所有的点数据构成的结构称之为“帧”，然后按照时刻将轨迹组织成帧数据文件，一帧对应于一个时刻，每一帧包含该时刻所有轨迹的点数据，同一帧数据在存储设备中邻近存储；对存储后的帧数据文件进行相关操作，包括新文件的初始化、轨迹添加、顺序读取和时间查询；

给定时空轨迹数据集Traj_DB＝(Traj₁,Traj₂,…,Traj_n)，其中，轨迹Traj_i＝<p_i1,p_i2…p_im>，p_ij代表轨迹Traj_i中的第j个点，每个点包含x，y和t三种属性分别代表在t时刻移动对象的经纬度坐标x和y；

所述帧数据文件包括文件首部、数据区、空闲区和索引区；所述文件首部记录数据文件的元数据，包括偏移量、文件链接、数据容量和早晚时间；所述数据区中最小的存储单元是帧，帧包括帧首部和帧数据区；所述索引区记录数据区中每个帧的时刻信息和在文件中的偏移量。

2.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：所述文件首部的偏移量包括文件数据区偏移量、文件空闲区偏移量和文件索引区偏移量，文件数据区偏移量是数据文件中数据区的起始位置，用于数据访问操作中定位数据区的数据；文件空闲区偏移量是数据文件空闲区的起始位置，用于定位新添加数据的起始位置；文件索引区偏移量是数据文件索引区的起始位置，用于读取索引和添加新数据的索引信息；所述文件链接用于访问邻近的数据文件，包括前序文件链接和后序文件链接，前序文件链接和后序文件链接分别指向与当前数据文件相关联的前一个数据文件和后一个数据文件；该时间信息在文件头部记录文件中数据的最早时间和最晚时间。

3.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：所述数据区的帧的首部为帧的ID，即此帧所对应的时刻，帧的数据区是FP_i的集合，FP_i由轨迹ID和轨迹点的经度和纬度组成；不同时刻对应的帧数据在存储设备上连续存储。

4.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：所述索引区的具体字段描述为：帧的偏移量用于定位帧在数据文件中的位置；帧所对应的时刻信息，用来筛选满足数据访问的时间条件。

5.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：所述新文件的初始化操作步骤为：将数据文件的默认大小为64M字节，然后新建空的数据文件，并在新建文件首部中依次写入各字段的初始值。

6.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：当添加新的轨迹数据集时，首先将轨迹按照时刻划分成帧，然后将帧数据按照时间先后一次存放到当前数据文件中；一个帧在数据文件中需要的空间总量

是固定的即为帧的长度L_fdata加上帧在索引区所占的字节长度的总和；

向指定数据文件中添加帧数据的具体步骤如下：

7.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：顺序读取操作的具体操作步骤如下：

(3)访问程序在内存中进行数据转换，首先读出帧的首部若干个字节并转成时间，然后以相应字节为一个单元，读出轨迹的ID，轨迹点数据的经度和纬度信息，直至转换完所有帧的数据；

(4)重复步骤(2)～(3)操作，直至读文件至offset_e位置停止。

8.根据权利要求7所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法，其特征在于：时间查询操作的具体操作步骤如下：

I、加载索引区的所有帧摘要，帧摘要包括偏移位置和时刻信息；

III、逐一访问C中的每个帧的偏移位置，然后按照顺序读取操作中的步骤(2)和步骤(3)来读取帧数据。