CN107451233A - 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 - Google Patents
时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 Download PDFInfo
- Publication number
- CN107451233A CN107451233A CN201710609573.8A CN201710609573A CN107451233A CN 107451233 A CN107451233 A CN 107451233A CN 201710609573 A CN201710609573 A CN 201710609573A CN 107451233 A CN107451233 A CN 107451233A
- Authority
- CN
- China
- Prior art keywords
- data
- frame
- file
- time
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 52
- 241001269238 Data Species 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000009434 installation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 2
- 241000406668 Loxodonta cyclotis Species 0.000 claims 1
- 238000009412 basement excavation Methods 0.000 abstract description 4
- 238000007726 management method Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000035800 maturation Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,依据时间属性对轨迹的点数据进行重新组织,同一时刻的点数据集中存储,即:将移动对象同一时刻所有的点数据构成的结构称之为“帧”,然后按照时刻将轨迹组织成帧数据文件,一帧对应于一个时刻,每一帧包含该时刻所有轨迹的点数据,同一帧数据在存储设备中邻近存储;对存储后的帧数据文件进行相关操作,包括新文件的初始化、轨迹添加、顺序读取和时间查询。本发明根据用户对于时空轨迹数据访问时间属性的特点针对性地设计了数据文件的格式,该存储方法具有无数据缺失和易于实现的特点,适用于轨迹数据的存储管理和数据分析与挖掘领域。
Description
技术领域
本发明涉及一种时空数据存储方法,具体涉及一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法。
背景技术
近年来,随着全球定位技术和网络通信技术的发展和成熟,移动终端产生的时空轨迹数据的规模越来越大。在综合考虑存储设备的技术性能与价格成本之后,通常轨迹数据采用辅助存储设备(如磁盘)进行存储。但是,轨迹数据的挖掘算法常常在执行过程中引发大量的随机I/O操作,这成为了影响算法性能提升的重要因素。本文通过研究时空轨迹数据在辅助存储设备中的存储方法,减少随机I/O操作次数,缩短执行时间,有效提升挖掘算法的执行性能。
关于轨迹数据的存储方案,工业界普遍采用成熟的数据库技术。例如,甲骨文公司的Oracle Spatial产品基于对象-关系模式存储和管理空间数据,其中的SDO_GEOMETRY对象类型可以用来存储轨迹数据。又如,微软公司的SQL Server同样提供了对空间数据的支持功能。开源数据库PostgreSQL的扩展插件PostGIS提供的空间数据类型也可以构造出Trajectory数据类型。上述软件产品大多采用基于关系数据库扩展出的空间数据库来存储轨迹数据。虽然此类解决方案提供了成熟的空间数据类型和空间访问接口,使用方便。但是,轨迹数据本质上不是结构化数据,并不完全适合关系数据库。因而,这样的存储方法无法针对轨迹的时空特性提供高效率的访问方法,从而影响数据访问的性能。
学术界针对此问题也展开了相关研究。Mediano M[1]等人提出采用轨迹形式表示二维空间长矢量,在经过分段处理后按照原始顺序依次存储。实际操作时仅需读取所需片段,避免非必要数据的读取,提升了数据访问效率。Chakka V[2]等人也采用了基于轨迹段的存储方法,但其存储方法采用在线算法实现。基本思想是将添加的轨迹分段处理后按照空间关系进行组织,将邻近的轨迹段归为一组,同组轨迹段在磁盘上连续存放,这样的存储方法可以有效提升邻近空间轨迹的磁盘访问效率。通常时空数据在空间分布上具有偏斜的特性,Botea V[3]等人基于此观察采用空间四象限划分的方法将历史时空点数据分组到不同大小的空间网格中,每个网格存储的数据规模大致相同,并且相邻时空点数据在磁盘上邻近存储。另一个相近的研究工作是Mauroux P提出的TrajStore[4],它也研究轨迹数据的存储问题,不同之处是TrajStore的存储方法支持数据压缩和新轨迹的添加功能。Wang HZ[5]等人研究了内存中轨迹数据的组织方法。按照时间顺序以“帧”为单位进行分组,并且采用压缩和Cache优化的技术提升数据访问性能。由于该存储方法是针对内存设备而设计的,因此无法直接移植到磁盘设备上。
轨迹数据存储方法对轨迹数据挖掘算法的性能影响很大。现有的轨迹数据挖掘包含轨迹模式挖掘、轨迹聚类、轨迹分类和时空图挖掘等研究内容。其中不同的挖掘算法访问轨迹数据的方式各不相同,因而在存储设备上轨迹数据按照轨迹访问方式进行存储与组织最有利于算法性能的发挥。例如,轨迹伴随模式算法的核心操作是对每个时刻的点数据集进行聚类运算。打破原始轨迹的点数据组织方式,按照时间属性对点数据进行重新分组,显然这种方法更优。由此可见,轨迹数据存储方法的设计应该充分考虑数据访问的方式。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,本发明根据用户对于时空轨迹数据访问时间属性的特点针对性地设计了数据文件的格式,该存储方法具有无数据缺失和易于实现的特点,适用于轨迹数据的存储管理和数据分析与挖掘领域。
技术方案:本发明一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,依据时间属性对轨迹的点数据进行重新组织,同一时刻的点数据集中存储,即:将移动对象同一时刻所有的点数据构成的结构称之为“帧”,然后按照时刻将轨迹组织成帧数据文件,一帧对应于一个时刻,每一帧包含该时刻所有轨迹的点数据,同一帧数据在存储设备中邻近存储;对存储后的帧数据文件进行相关操作,包括新文件的初始化、轨迹添加、顺序读取和时间查询;给定时空轨迹数据集TrajDB=(Traj1,Traj2,…,Trajn),其中,轨迹Traji=<pi1,pi2...pim>,pij代表轨迹Traji中的第j个点,每个点包含x,y和t三种属性分别代表在t时刻移动对象的经纬度坐标x和y。
进一步的,所述数据文件包括文件首部、数据区、空闲区和索引区;所述文件首部记录数据文件的元数据,包括偏移量、文件链接、数据容量和早晚时间;所述数据区中最小的存储单元是帧,帧包括帧首部和帧数据区;所述索引区记录数据区中每个帧的时刻信息和在文件中的偏移量。
进一步的,所述文件首部的偏移量包括文件数据区偏移量、文件空闲区偏移量和文件索引区偏移量,文件数据区偏移量是数据文件中数据区的起始位置,用于数据访问操作中定位数据区的数据;文件空闲区偏移量是数据文件空闲区的起始位置,用于定位新添加数据的起始位置;文件索引区偏移量是数据文件索引区的起始位置,用于读取索引和添加新数据的索引信息;所述文件链接用于访问邻近的数据文件,包括前序文件链接和后序文件链接,前序文件链接和后序文件链接分别指向与当前数据文件相关联的前一个数据文件和后一个数据文件;所述时间信息在文件头部记录文件中数据的最早时间和最晚时间。
进一步的,所述数据区的帧的首部为帧的ID,即此帧所对应的时刻,帧的数据区是FPi的集合,FPi由轨迹ID和轨迹点的经度和纬度组成;不同时刻对应的帧数据在存储设备上连续存储。
进一步的,所述索引区的具体字段描述为:帧的偏移量用于定位帧在数据文件中的位置;帧所对应的时刻信息,用来筛选满足数据访问的时间条件。
进一步的,所述新帧数据文件的初始化操作步骤为:将数据文件的默认大小为64M字节,然后新建空的数据文件,在文件首部中依次写入各字段的初始值。
进一步的,当添加新的轨迹数据集时,首先将轨迹安装时刻划分成帧,然后将帧数据按照时间先后一次存放到当前数据文件中;一个帧在数据文件中需要的空间总量是固定的即为帧的长度Lfdata加上帧在索引区所占的字节长度(例如12字节)的总和;向指定数据文件中添加帧数据的具体步骤如下:
A、比较Lfdata和空闲区容量,如果空闲区存储空间足够,则顺序执行下一步骤;否则新建数据文件F,并且将当前文件通过文件首部中的链接字段与新文件F相互链接,然后,将当前帧添加到文件F中,即更换数据文件重新执行步骤A;
B、读取当前空闲区的偏移量,同时记录此偏移量值,为添加索引区记录做准备,然后按照帧格式,在空闲区偏移位置处写入帧数据,包括帧的首部和帧的所有点数据,然后执行步骤C;
C、读取当前索引区的偏移量,按照相应字段长度,从索引区偏移位置前12个字节处将帧的起始位置及其对应的时刻写入到数据文件中;
D、更新文件首部中的空闲区偏移量、索引区偏移量、空闲区容量和时间信息。
进一步的,顺序读取操作的具体操作步骤如下:
(1)访问程序从数据文件首部中获得数据区的偏移量offsets和空闲区的偏移量offsete;
(2)访问程序从offsets位置开始按照头区中帧的长度读取数据到内存中;
(3)访问程序在内存中进行数据转换,如图4所示,首先读出帧的首部8个字节并转成时间,然后以20字节为一个单元,读出轨迹的ID,轨迹点数据的经度和纬度信息,直至转换完所有帧的数据;
(4)重复步骤(2)~(3)操作,直至读文件至offsete位置停止。
进一步的,时间查询操作的具体操作步骤如下:
1、加载索引区的所有帧摘要,帧摘要包括偏移位置和时刻信息;
II、根据给定的时间条件,对比索引区帧的时刻信息进行筛选,得到候选帧集合C;
III、逐一访问C中的每个帧的偏移位置,然后按照顺序读写中的步骤II和步骤III读取帧数据。
有益效果:与现有技术相比,本发明具有以下优点:
1、存储对象为帧,本发明打破时空轨迹原有的数据结构,按照有利于时间属性访问的原则重新组织时空轨迹数据,将轨迹数据按照时刻进行组织,每个时刻的所有数据为一帧,以此作为时空轨迹在辅助存储设备上存储的最小单元,摈弃了传统的以空间点数据作为存储单元的方法,更有利于以时刻为单位作为处理对象的时空轨迹数据挖掘算法,例如时空轨迹群体运动模式中的聚集模式算法。
2、支持时间查询的索引区设计:轨迹数据中同时包含空间信息和时间信息,这样能够便于访问数据文件中轨迹的时间信息,本发明的索引区记录所有帧的时间信息,在进行时间查询时,可以快速便捷地过滤数据,进而找到符合时间条件的轨迹数据。
3、数据文件可相互链接:由于一个数据文件无法存储大规模的轨迹数据集,但本发明的数据文件之间具有链接功能,通过文件首部中的“前序文件链接”和“后序文件链接”将多个文件连接起来,解决大规模轨迹数据集的存储问题。
附图说明
图1为本发明中数据文件格式的区域划分示意图;
图2为本发明中文件首部的格式示意图;
图3为本发明数据区中帧的格式示意图;
图4为本发明中索引区的格式示意图;
图5为实施例中窗口查询的时间性能示意图;
图6为实施例中DBSCAN的时间性能示意图。
其中,图5(a)是指轨迹数据量的变化影响示意图,图5(b)窗口比例的变化影响示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
本发明一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,依据时间属性对轨迹的点数据进行重新组织,同一时刻的点数据集中存储,即:将移动对象同一时刻所有的点数据构成的结构称之为“帧”,然后按照时刻将轨迹组织成帧数据文件,一帧对应于一个时刻,每一帧包含该时刻所有轨迹的点数据,同一帧数据在存储设备中邻近存储;对存储后的帧数据文件进行相关操作,包括新文件的初始化、轨迹添加、顺序读取和时间查询;给定时空轨迹数据集TrajDB=(Traj1,Traj2,...,Trajn),其中,轨迹Traji=<pi1,pi2...pim>,pij代表轨迹Traji中的第j个点,每个点包含x,y和t三种属性分别代表在t时刻移动对象的经纬度坐标x和y。
当执行基于时间的移动对象查询时,首先按照时间参数定位对应的帧数据。然后,只需要有限次I/O就可以读出指定数据。由于轨迹点数据的采样频率可能不同,因此需要采用线性插值的方法对缺失的点数据进行补齐
例如,如表1所示,两条轨迹Traj1(p11,p12,...,p15)和Traj1(p21,p22,...,p25),第i帧由Traj1的p1i点和Traj2的p2i点构成,i=1,...,5。
表1帧结构的示例
如图1所示,所述数据文件包括文件首部、数据区、空闲区和索引区;所述文件首部记录数据文件的元数据,包括偏移量、文件链接、数据容量和早晚时间;所述数据区中最小的存储单元是帧,帧包括帧首部和帧数据区;所述索引区记录数据区中每个帧的时刻信息和在文件中的偏移量。
如图2所示,所述文件首部的偏移量包括文件数据区偏移量、文件空闲区偏移量和文件索引区偏移量,文件数据区偏移量是数据文件中数据区的起始位置,用于数据访问操作中定位数据区的数据;文件空闲区偏移量是数据文件空闲区的起始位置,用于定位新添加数据的起始位置;文件索引区偏移量是数据文件索引区的起始位置,用于读取索引和添加新数据的索引信息;所述文件链接用于访问邻近的数据文件,包括前序文件链接和后序文件链接,前序文件链接和后序文件链接分别指向与当前数据文件相关联的前一个数据文件和后一个数据文件;所述时间信息在文件头部记录文件中数据的最早时间和最晚时间。
如图3所示,所述数据区的帧的首部为帧的ID,即此帧所对应的时刻,帧的数据区是FPi的集合,FPi由轨迹ID和轨迹点的经度和纬度组成;不同时刻对应的帧数据在存储设备上连续存储。
如图4所示,所述索引区的具体字段描述为:帧的偏移量用于定位帧在数据文件中的位置;帧所对应的时刻信息,用来筛选满足数据访问的时间条件。
上述新帧数据文件的初始化操作步骤为:将数据文件的默认大小为64M字节,然后新建空的数据文件,按照表2所示,在文件首部中依次写入各字段的初始值。
表2数据文件首部字段的初始化表
当添加新的轨迹数据集时,首先将轨迹安装时刻划分成帧,然后将帧数据按照时间先后一次存放到当前数据文件中;一个帧在数据文件中需要的空间总量是固定的即为帧的长度Lfdata加上帧在索引区所占的字节长度(12字节)的总和;向指定数据文件中添加帧数据的具体步骤如下:
A、比较Lfdata和空闲区容量,如果空闲区存储空间足够,则顺序执行下一步骤;否则新建数据文件F,并且将当前文件通过文件首部中的链接字段与新文件F相互链接,然后,将当前帧添加到文件F中,即更换数据文件重新执行步骤A;
B、读取当前空闲区的偏移量,同时记录此偏移量值,为添加索引区记录做准备,然后按照数据区中的帧格式,在空闲区偏移位置处写入帧数据,包括帧的首部和帧的所有点数据,然后执行步骤C;
C、读取当前索引区的偏移量,按照表3规定的字段长度,从索引区偏移位置前12个字节处将帧的起始位置及其对应的时刻写入到数据文件中;
D、更新文件首部中的空闲区偏移量、索引区偏移量、空闲区容量和时间信息。
表3数据区和索引区的字段长度
上述顺序读取操作的具体操作步骤如下:
(1)访问程序从数据文件首部中获得数据区的偏移量offsets和空闲区的偏移量offsete;
(2)访问程序从offsets位置开始按照头区中帧的长度读取数据到内存中;
(3)访问程序在内存中进行数据转换,如图4所示,首先读出帧的首部8个字节并转成时间,然后以20字节为一个单元,读出轨迹的ID,轨迹点数据的经度和纬度信息,直至转换完所有帧的数据;
(4)重复步骤(2)~(3)操作,直至读文件至offsete位置停止。
上述时间查询操作的具体操作步骤如下:
1、加载索引区的所有帧摘要,帧摘要包括偏移位置和时刻信息;
II、根据给定的时间条件,对比索引区帧的时刻信息进行筛选,得到候选帧集合C;
III、逐一访问C中的每个帧的偏移位置,然后按照顺序读写中的步骤II和步骤III读取帧数据。
实施例:
为了验证本发明的实际效果,设计了如下实验。选取2012年11月2日至8日北京市12408辆出租车2500条GPS数据作为数据集。在经过线性插值后,最终得到1.13G的测试数据集。所有实验程序采用Java语言开发实现。实验环境配置为Intel Core i5处理器、2.6GHz主频、8G内存和500G转速7200转/秒的硬盘。
为了验证时间属性优先的时空轨迹存储方法的在数据访问中的性能,本实施例中设计了两个实验,分别为K最近邻查询和DBSCAN聚类算法(轨迹数据挖掘中最具有代表性的聚类算法)。DBSCAN的密度阈值设为5,距离阈值设为200米。具体参数信息参考表4。所有的查询实验都是取50次测试的平均值作为最终测试结果。由于DBSCAN测试非常耗时,因而取5次测试的平均值作为最终结果。
为了测试轨迹存储方法的有效性和可行性,实现了经典的原序保持的时空轨迹存储方法和本发明的时间属性优先的时空轨迹存储方法,并且进行了实验比较。为了表述方便,后续实验分析将采用表5中的英文简称代替存储方法的中文全称。
表4实验参数设置情况
表5轨迹存储方法列表
存储方法简称 | 存储方法全称 |
CT | 原序保持的时空轨迹存储方法 |
TT | 时间属性优先的时空轨迹存储方法 |
实验结果与分析
以下将依次测试两种存储方法在K最近邻查询和聚类算法实验中的性能。
(1)窗口查询实验
K最近邻查询是指给定时刻查找距离查询点最近的K个移动对象。以下将从轨迹数据量变化和近邻数K值变化两方面测试三种存储方法的性能。不难发现,轨迹数据量的增加会造成K近邻计算的候选集规模的变大。如图5(a)所示TT方法的时间代价最低。这是因为同一时刻的候选集数据在存储设备中集中存放,因而数据访问效率最高。而CT需要扫描所有的轨迹数据,其扫描时间随着另一方面,由于近邻数K值的变化不改变候选集的规模,因此各方法在时间代价上基本没有变化,并且时间代价上的排序和轨迹数据量变化的完全相同,如图5(b)所示。
(2)DBSCAN聚类实验分析
DBSCAN算法对给定时刻的移动对象进行聚类处理,主要的数据访问操作是在指定时刻查找指定空间范围内的点数据。如图6所示,TT比CT表现得更好一些。因为它首先按照时刻对轨迹数据进行了重新组织,同一时刻的数据邻近存储,这非常有利于DBSCAN中的数据访问操作。
Claims (9)
1.一种时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:依据时间属性对轨迹的点数据进行重新组织,同一时刻的点数据集中存储,即:将移动对象同一时刻所有的点数据构成的结构称之为“帧”,然后按照时刻将轨迹组织成帧数据文件,一帧对应于一个时刻,每一帧包含该时刻所有轨迹的点数据,同一帧数据在存储设备中邻近存储;对存储后的帧数据文件进行相关操作,包括新文件的初始化、轨迹添加、顺序读取和时间查询;
给定时空轨迹数据集TrajDB=(Traj1,Traj2,…,Trajn),其中,轨迹Traji=<pi1,pi2…pim>,pij代表轨迹Traji中的第j个点,每个点包含x,y和t三种属性分别代表在t时刻移动对象的经纬度坐标x和y。
2.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:所述数据文件包括文件首部、数据区、空闲区和索引区;所述文件首部记录数据文件的元数据,包括偏移量、文件链接、数据容量和早晚时间;所述数据区中最小的存储单元是帧,帧包括帧首部和帧数据区;所述索引区记录数据区中每个帧的时刻信息和在文件中的偏移量。
3.根据权利要求2所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:所述文件首部的偏移量包括文件数据区偏移量、文件空闲区偏移量和文件索引区偏移量,文件数据区偏移量是数据文件中数据区的起始位置,用于数据访问操作中定位数据区的数据;文件空闲区偏移量是数据文件空闲区的起始位置,用于定位新添加数据的起始位置;文件索引区偏移量是数据文件索引区的起始位置,用于读取索引和添加新数据的索引信息;所述文件链接用于访问邻近的数据文件,包括前序文件链接和后序文件链接,前序文件链接和后序文件链接分别指向与当前数据文件相关联的前一个数据文件和后一个数据文件;所述时间信息在文件头部记录文件中数据的最早时间和最晚时间。
4.根据权利要求2所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:所述数据区的帧的首部为帧的ID,即此帧所对应的时刻,帧的数据区是FPi的集合,FPi由轨迹ID和轨迹点的经度和纬度组成;不同时刻对应的帧数据在存储设备上连续存储。
5.根据权利要求2所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:所述索引区的具体字段描述为:帧的偏移量用于定位帧在数据文件中的位置;帧所对应的时刻信息,用来筛选满足数据访问的时间条件。
6.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:所述新帧数据文件的初始化操作步骤为:将数据文件的默认大小为64M字节,然后新建空的数据文件,并在新建文件首部中依次写入各字段的初始值。
7.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:当添加新的轨迹数据集时,首先将轨迹安装时刻划分成帧,然后将帧数据按照时间先后一次存放到当前数据文件中;一个帧在数据文件中需要的空间总量是固定的即为帧的长度Lfdata加上帧在索引区所占的字节长度的总和;
向指定数据文件中添加帧数据的具体步骤如下:
A、比较Lfdata和空闲区容量,如果空闲区存储空间足够,则顺序执行下一步骤;否则新建数据文件F,并且将当前文件通过文件首部中的链接字段与新文件F相互链接,然后,将当前帧添加到文件F中,即更换数据文件重新执行步骤A;
B、读取当前空闲区的偏移量,同时记录此偏移量值,为添加索引区记录做准备,然后按照数据区中的帧格式,在空闲区偏移位置处写入帧数据,包括帧的首部和帧的所有点数据,然后执行步骤C;
C、读取当前索引区的偏移量,按照相应字段长度,从索引区偏移位置前12个字节处将帧的起始位置及其对应的时刻写入到数据文件中;
D、更新文件首部中的空闲区偏移量、索引区偏移量、空闲区容量和时间信息。
8.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:顺序读取操作的具体操作步骤如下:
(1)访问程序从数据文件首部中获得数据区的偏移量offsets和空闲区的偏移量offsete;
(2)访问程序从offsets位置开始按照头区中帧的长度读取数据到内存中;
(3)访问程序在内存中进行数据转换,首先读出帧的首部若干个字节并转成时间,然后以相应字节为一个单元,读出轨迹的ID,轨迹点数据的经度和纬度信息,直至转换完所有帧的数据;
(4)重复步骤(2)~(3)操作,直至读文件至offsete位置停止。
9.根据权利要求1所述的时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法,其特征在于:时间查询操作的具体操作步骤如下:
1、加载索引区的所有帧摘要,帧摘要包括偏移位置和时刻信息;
II、根据给定的时间条件,对比索引区帧的时刻信息进行筛选,得到候选帧集合C;
III、逐一访问C中的每个帧的偏移位置,然后按照顺序读写中的步骤II和步骤III读取帧数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710609573.8A CN107451233B (zh) | 2017-07-25 | 2017-07-25 | 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710609573.8A CN107451233B (zh) | 2017-07-25 | 2017-07-25 | 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451233A true CN107451233A (zh) | 2017-12-08 |
CN107451233B CN107451233B (zh) | 2020-02-18 |
Family
ID=60488988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710609573.8A Active CN107451233B (zh) | 2017-07-25 | 2017-07-25 | 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451233B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108407A (zh) * | 2017-12-11 | 2018-06-01 | 南京师范大学 | 基于时空轨迹的群体运动移动簇模式排序方法 |
CN108664578A (zh) * | 2018-05-03 | 2018-10-16 | 中北大学 | 一种文件循环存储方法及系统 |
CN109613412A (zh) * | 2018-12-19 | 2019-04-12 | 上海哥瑞利软件有限公司 | 实时分析stdf检测数据的方法 |
CN109961106A (zh) * | 2019-04-18 | 2019-07-02 | 北京百度网讯科技有限公司 | 轨迹分类模型的训练方法和装置、电子设备 |
CN111078634A (zh) * | 2019-12-30 | 2020-04-28 | 中科海拓(无锡)科技有限公司 | 一种基于r树的分布式时空数据索引方法 |
CN111241217A (zh) * | 2018-11-29 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 数据处理的方法、装置和系统 |
CN112269844A (zh) * | 2020-09-24 | 2021-01-26 | 桂林电子科技大学 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
US11068491B2 (en) | 2018-11-28 | 2021-07-20 | The Toronto-Dominion Bank | Data storage using a bi-temporal index |
US12124463B2 (en) | 2021-06-10 | 2024-10-22 | The Toronto-Dominion Bank | Data storage using a bi-temporal index |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646070A (zh) * | 2012-02-29 | 2012-08-22 | 武汉大学 | 一种基于区域的时空轨迹数据存储方法 |
CN103052022A (zh) * | 2011-10-17 | 2013-04-17 | 中国移动通信集团公司 | 基于移动行为的用户稳定点发现方法和系统 |
CN104239556A (zh) * | 2014-09-25 | 2014-12-24 | 西安理工大学 | 基于密度聚类的自适应轨迹预测方法 |
US20160364472A1 (en) * | 2015-06-15 | 2016-12-15 | International Business Machines Corporation | Functional space-time trajectory clustering |
-
2017
- 2017-07-25 CN CN201710609573.8A patent/CN107451233B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103052022A (zh) * | 2011-10-17 | 2013-04-17 | 中国移动通信集团公司 | 基于移动行为的用户稳定点发现方法和系统 |
CN102646070A (zh) * | 2012-02-29 | 2012-08-22 | 武汉大学 | 一种基于区域的时空轨迹数据存储方法 |
CN104239556A (zh) * | 2014-09-25 | 2014-12-24 | 西安理工大学 | 基于密度聚类的自适应轨迹预测方法 |
US20160364472A1 (en) * | 2015-06-15 | 2016-12-15 | International Business Machines Corporation | Functional space-time trajectory clustering |
Non-Patent Citations (4)
Title |
---|
ZHIXIANG FANG 等: "An Integrated Space-Time Pattern Classification Approach for Individuals Travel Trajectories", 《FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 * |
吉根林 等: "时空轨迹大数据模式挖掘研究进展", 《数据采集与处理》 * |
张晓滨 等: "基于时间约束的Hausdorff距离的时空轨迹相似度量", 《计算机应用研究》 * |
马林兵 等: "基于子空间聚类算法的时空轨迹聚类", 《地理与地理信息科学》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108407A (zh) * | 2017-12-11 | 2018-06-01 | 南京师范大学 | 基于时空轨迹的群体运动移动簇模式排序方法 |
CN108664578B (zh) * | 2018-05-03 | 2020-10-20 | 中北大学 | 一种文件循环存储方法及系统 |
CN108664578A (zh) * | 2018-05-03 | 2018-10-16 | 中北大学 | 一种文件循环存储方法及系统 |
US11068491B2 (en) | 2018-11-28 | 2021-07-20 | The Toronto-Dominion Bank | Data storage using a bi-temporal index |
CN111241217A (zh) * | 2018-11-29 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 数据处理的方法、装置和系统 |
CN111241217B (zh) * | 2018-11-29 | 2023-05-30 | 阿里巴巴集团控股有限公司 | 数据处理的方法、装置和系统 |
CN109613412B (zh) * | 2018-12-19 | 2020-12-08 | 上海哥瑞利软件有限公司 | 实时分析stdf检测数据的方法 |
CN109613412A (zh) * | 2018-12-19 | 2019-04-12 | 上海哥瑞利软件有限公司 | 实时分析stdf检测数据的方法 |
CN109961106A (zh) * | 2019-04-18 | 2019-07-02 | 北京百度网讯科技有限公司 | 轨迹分类模型的训练方法和装置、电子设备 |
CN111078634A (zh) * | 2019-12-30 | 2020-04-28 | 中科海拓(无锡)科技有限公司 | 一种基于r树的分布式时空数据索引方法 |
CN111078634B (zh) * | 2019-12-30 | 2023-07-25 | 中科海拓(无锡)科技有限公司 | 一种基于r树的分布式时空数据索引方法 |
CN112269844A (zh) * | 2020-09-24 | 2021-01-26 | 桂林电子科技大学 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
US12124463B2 (en) | 2021-06-10 | 2024-10-22 | The Toronto-Dominion Bank | Data storage using a bi-temporal index |
Also Published As
Publication number | Publication date |
---|---|
CN107451233B (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451233A (zh) | 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 | |
CN102521405B (zh) | 支持高速加载的海量结构化数据存储、查询方法和系统 | |
CN103020204B (zh) | 一种对分布式顺序表进行多维区间查询的方法及其系统 | |
CN107491495B (zh) | 空间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN102214176B (zh) | 超大维表的切分与表连接方法 | |
CN102779138B (zh) | 实时数据的硬盘存取方法 | |
CN103577440A (zh) | 一种非关系型数据库中的数据处理方法和装置 | |
CN105488231A (zh) | 一种基于自适应表维度划分的大数据处理方法 | |
CN113297135A (zh) | 数据处理方法以及装置 | |
CN110309233A (zh) | 数据存储的方法、装置、服务器和存储介质 | |
CN106599040A (zh) | 一种面向云存储的分层索引方法与检索方法 | |
CN101751475B (zh) | 号段记录压缩方法及其装置 | |
CN101587484B (zh) | 一种基于T-lt树的主存数据库的索引方法 | |
CN103198157B (zh) | 一种大地电场数据的压缩存储处理方法 | |
CN113918663A (zh) | 一种基于命名规则和缓存机制的知识图谱构的操作方法 | |
CN103136244A (zh) | 基于云计算平台的并行数据挖掘方法及系统 | |
Abbasifard et al. | Efficient indexing for past and current position of moving objects on road networks | |
CN104750860B (zh) | 一种不确定数据的数据存储方法 | |
CN109213760A (zh) | 非关系数据存储的高负载业务存储及检索方法 | |
CN109189873A (zh) | 一种气象服务大数据监测分析系统平台 | |
CN104714956A (zh) | 一种异构记录集对比方法及装置 | |
CN103309890A (zh) | 一种Linux文件系统与实时数据库索引融合的技术 | |
Choi et al. | Adaptive cell-based index for moving objects | |
CN104657460B (zh) | 一种基于大规模文件系统负载特征关键字的文件搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |