CN106374934A

CN106374934A - 一种可控的并行轨迹数据压缩方法

Info

Publication number: CN106374934A
Application number: CN201610687941.6A
Authority: CN
Inventors: 邓泽; 王力哲; 褚军德; 陈云亮; 陈小岛
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-02-01

Abstract

本发明提供了一种可控的并行轨迹数据压缩方法，包括以下步骤：将原始轨迹数据进行分段，每个数据段的首尾均设置有两个轨迹数据点的overlap部分；计算每一个轨迹数据点的优先级，所算得的优先级作为该轨迹数据点的SED误差；移除每个数据段中SED最小的轨迹数据点，汇总轨迹数据点并循环上述步骤重新进行分段压缩，迭代压缩直至达到所设定的目标压缩比；设置SED阈值，将压缩后轨迹数据点中SED小于SED阈值的轨迹数据点移除，以确保SED误差范围，得到最终的压缩后轨迹数据。本发明在并行过程中使用overlap技术，有效降低了SED误差，保证轨迹数据压缩性能。同时确保压缩率与压缩产生的SED误差可由用户控制。

Description

一种可控的并行轨迹数据压缩方法

技术领域

本发明涉及一种可控的并行轨迹数据压缩方法，尤其涉及一种压缩率与压缩产生的SED误差可由用户控制且借助GPU硬件并行化以提高执行效率的压缩方法，属于数据管理和高性能计算领域。

背景技术

随着移动互联网时代的到来与高速发展，许多基于LBS(Location-BasedServices)的应用软件大量增加，这些应用产生了海量的轨迹数据，大规模的轨迹数据中蕴含着丰富的知识，从中挖掘出的有用信息，应用到相关的技术和服务，可以给人们的生活带来极大的便利。但是轨迹数据的日益增多也带来了许多挑战：数据量巨大、查询延时增长、数据冗余。因此，轨迹压缩对于提供更好的服务是非常有必要的，轨迹压缩的目标是在满足压缩轨迹与原始轨迹之间的相似度条件下，尽可能减小轨迹数据量。

轨迹数据压缩技术的初识研究从地图制图学中的地图概括问题和计算几何中的多线段简化问题得到灵感。地图概括母是在一定粒度上用简单形式表示一张地图；多线段简化要解决的问题是给定多连续的线段，选取部分线段的断点按原来顺序链接起来，用更少的线段来表示原始线段。轨迹数据压缩技术从中受到启发，把空间线段简化算法引入到轨迹数据压缩中。简化复杂线段连线的曲线段成简单曲线段的问题被称为直线泛华问题。目前在国内外SQUISH-E(Spatial Quality Simplification Heuristic-Extended)算法是综合性能较好的一种在线轨迹数据压缩方法，在满足压缩比的同时能确保SED误差范围。

SQUISH-E算法中在每次一个点进入优先级队列，都会计算并调整相邻点的优先级，当队列满后还有移除队列中优先级最下的点，随着数据规模增大，压缩时间会大大提高。

上述传统轨迹数据压缩算法是基于CPU实现的，随着轨迹数据规模的增加，传统轨迹压缩方法已经无法满足软件对数据信息处理的实时性和高效性的需求。

发明内容

本发明通过提供一种可控的并行轨迹数据压缩方法，解决了现有技术在轨迹数据规模增大后压缩时间太长，无法满足软件对轨迹数据处理实时高效需求与压缩率、SED误差不可控的问题。本发明提供的方法借助GPU硬件并行化，提高了执行效率，降低了压缩时间，并行过程中使用overlap技术，有效降低了SED误差，保证轨迹数据压缩性能。同时确保压缩率与压缩产生的SED误差可由用户控制。

实现本发明上述目的所采用的技术方案为：

一种可控的并行轨迹数据压缩方法，包括以下步骤：(1)、将原始轨迹数据进行分段，每个数据段中包含N个轨迹数据点，剩余的不足N个轨迹数据点作为最后一个数据段，每个数据段的首尾均设置有两个轨迹数据点的overlap部分，确保分段后每个数据段首尾的点在相邻数据段中能够被压缩；

(2)、计算每一个轨迹数据点的优先级，所算得的优先级作为该轨迹数据点的SED误差；

(3)、移除每个数据段中SED最小的轨迹数据点，汇总轨迹数据点并循环上述步骤重新进行分段压缩，迭代压缩直至达到所设定的目标压缩比；

(4)、设置SED阈值，将压缩后轨迹数据点中SED小于SED阈值的轨迹数据点移除，以确保SED误差范围，得到最终的压缩后轨迹数据。

上述方法在GPU平台上的CUDA环境中运行，借助GPU平台的计算吞吐量，提高上述步骤的执行效率，降低轨迹数据压缩的时间开销。

所述的步骤(2)中，GPU平台中的多线程并行处理轨迹数据点的计算任务，算得每一个轨迹数据点的优先级。

步骤(3)中所述的迭代压缩具体方法为：将移除了每个数据段中SED最小的轨迹数据点之后的各个数据段中剩下的点拷贝到另一个数组中，然后以该数组中的全部轨迹数据点作为初始轨迹重新进行分段，再筛选每个数据段中SED最小的轨迹数据点并移除，然后再将移除后剩余的轨迹数据点汇总，继续循环上述步骤进行迭代，直到压缩后轨迹数据规模达到所设定的目标压缩比。

与现有技术相比，本发明中在SQUISH-E算法的基础上，将原始轨迹分段压缩，充分考虑分段首尾节点的不确定性，使用overlap技术，使分段后首尾节点在其他轨迹数据段中能够被压缩，可以避免分段后首尾节点没能被压缩增加了轨迹压缩产生的SED误差，甚至达到了降低SED误差的效果。同时利用GPU的多线程资源并行处理轨迹点的相关计算任务，大大提高了处理任务的时间开销，减少了压缩时间。同时，在并行轨迹数据压缩中，本发明通过迭代压缩次数能有效控制压缩率，还能控制SED误差的范围。

附图说明

图1为本发明所提供的轨迹数据压缩方法的流程图；

图2为本发明实施例中将轨迹数据分段并设置overlap部分的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例以及附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种可控的并行轨迹数据压缩方法，其流程图如图1所示，所述方法包括：

步骤101：轨迹数据分段化，多线程并行处理点的优先级计算任务。

在具体实施过程中，首先将原始轨迹数据按照事先定义好的一个轨迹数据段单元的大小(N)进行分段化，即，将原始轨迹数据分为若干轨迹数据段单元，各个数据段单元的轨迹数据点数量相同。每段轨迹数据节点的首尾都有2个点的overlap部分，确保分段后每段轨迹数据点首尾的点在相邻数据段中能够被压缩。具体的，第一个轨迹数据段单元即为原始轨迹的前N个点，如图2所示，第二个轨迹数据段单元以第N-1个点作为该轨迹数据段的第一个节点，第2N-2个点为该轨迹数据段单元的尾节点，第三个轨迹数据段单元则以第2N-3个点为首节点，以第3*(N-1)+2个点为该轨迹数据段单元的尾节点，以此类推将原始轨迹分段，最后剩下不足N个的点为最后一个轨迹数据段。GPU平台中的多线程并行处理一个点的优先级计算任务。每个点初始优先级即为该点的SED误差。

在执行完步骤101之后，本申请执行步骤102：移除每段轨迹点中优先级最小的点，汇总轨迹点并重新分段压缩，迭代压缩直至达到设定的目标压缩比。

在具体实施过程中，根据每个线程计算出数组A中的各个点的SED大小，在各个轨迹数据段单元中进行比较，将该段中SED最小的点做个标记，标记为被移除的点，然后将各个轨迹数据段中剩下的点拷贝到另一个数组B中，然后以数组B中的轨迹数据作为初始轨迹进行跟上述相同的压缩处理，并且将各个轨迹数据段中剩下的点拷贝到A中，以此类推进行迭代，直到压缩后轨迹数据规模达到目标压缩比。

在执行完步骤102之后，本申请执行步骤103：基于用户输入的SED阈值，将压缩后轨迹点中最大优先级小于SED阈值的点移除，确保SED误差范围，得到最终的压缩后轨迹。

在具体实施过程中，这部分任务需要串行处理，处理任务在CPU上完成。将在GPU上压缩后的轨迹数据拷贝到CPU的内存中，然后创建一个优先级队列，将压缩后轨迹数据点按顺序执行进队列操作，然后依次移除队列中优先级最小且小于用户输入的SED阈值的轨迹点，并且调整相邻的点的优先级，直到队列中所有轨迹点的优先级都不小于用户输入的SED阈值，至此，压缩完成，得到最终的压缩结果。调整优先级的具体方法是移除相邻的点后计算出该点的SED，该点的优先级大小为SED与相邻点被移除后相邻点的最大优先级的和，其中相邻点被移除后相邻点的最大优先级为被移除前的优先级与它的前驱节点或者后继节点中优先级较大的值。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

本发明通过将轨迹数据分段化，并且使用overlap技术，从而确保了轨迹数据压缩不会由于分段化带来更高的SED误差，甚至达到了降低SED误差的效果。利用GPU上多线程资源并行处理轨迹节点的计算任务，减少了压缩时间。可以同游用户输入的目标压缩率和SED阈值来控制轨迹数据压缩后的压缩率和SED误差范围。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种可控的并行轨迹数据压缩方法，其特征在于包括以下步骤：(1)、将原始轨迹数据进行分段，每个数据段中包含N个轨迹数据点，剩余的不足N个轨迹数据点作为最后一个数据段，每个数据段的首尾均设置有两个轨迹数据点的overlap部分，确保分段后每个数据段首尾的点在相邻数据段中能够被压缩；

2.如权利要求1所述的并行轨迹数据压缩方法，其特征在于：上述方法在GPU平台上的CUDA环境中运行，借助GPU平台的计算吞吐量，提高上述步骤的执行效率，降低轨迹数据压缩的时间开销。

3.如权利要求2所述的并行轨迹数据压缩方法，其特征在于：所述的步骤(2)中，GPU平台中的多线程并行处理轨迹数据点的计算任务，算得每一个轨迹数据点的优先级。

4.如权利要求1所述的并行轨迹数据压缩方法，其特征在于：步骤(3)中所述的迭代压缩具体方法为：将移除了每个数据段中SED最小的轨迹数据点之后的各个数据段中剩下的点拷贝到另一个数组中，然后以该数组中的全部轨迹数据点作为初始轨迹重新进行分段，再筛选每个数据段中SED最小的轨迹数据点并移除，然后再将移除后剩余的轨迹数据点汇总，继续循环上述步骤进行迭代，直到压缩后轨迹数据规模达到所设定的目标压缩比。