CN111190891B

CN111190891B - 一种多语义轨迹数据分段存储方法

Info

Publication number: CN111190891B
Application number: CN201911372236.7A
Authority: CN
Inventors: 涂来; 周伟
Original assignee: Wuhan Yangtze Communications Zhilian Technology Co ltd; WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Current assignee: Wuhan Yangtze Communications Zhilian Technology Co ltd; WUHAN YANGTZE COMMUNICATIONS INDUSTRY GROUP CO LTD
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-07-25
Anticipated expiration: 2039-12-27
Also published as: CN111190891A

Abstract

本发明提出了一种多语义轨迹数据分段存储方法。本发明将轨迹由原始的采样点模型转换为便于理解和组织的轨迹段的形式，并将原始轨迹数据分为移动对象、点对象和轨迹对象分别存储和管理。本发明方法主要分为三个步骤，首先将原始轨迹数据进行必要的数据清洗，然后基于轨迹语义和停留点两种方法进行分段，轨迹分段后再根据轨迹尺度，选取合适压缩算法，对轨迹段进行压缩，最后以设计的数据表字段格式将轨迹数据进行存储。

Description

一种多语义轨迹数据分段存储方法

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种多语义轨迹数据分段存储方法。

背景技术

随着位置采集装备和移动计算技术的进步，现在已经能够产生大量移动物体的时空轨迹数据。时空轨迹是物体在地理空间上运动产生的轨迹，通常用一系列按时间排序的点表示，例如车辆的GPS轨迹、手机WiFi接入、手机蜂窝基站定位等。支持GPS的移动终端以及地图服务(如百度地图、高德地图)的不断推广与普及，使得人们可以记录自己当前的地理坐标并分享至互联网。而且越来越多的社交网络，如微信、微博等，也提供基于位置和行程的服务。欧盟GSA的报告显示，苹果和安卓手机APP市场中有近一半的应用需要用户提供位置信息。时空轨迹数据的迅速增长，要求我们对轨迹数据的存储、管理、计算、检索以及挖掘等新计算技术有系统的研究和发展，空间轨迹计算也成为越来越重要的研究领域。这为轨迹模式挖掘、基于位置的社交网络、智能交通系统、城市计算等应用提供了有力支持。

然而轨迹数据的挖掘与计算却存在着以下几点挑战：

轨迹数据具有覆盖范围广、种类繁多、更新频率快等特点，因此数据量庞大。例如车辆GPS轨迹、手机基站轨迹、社交媒体行为轨迹等，其日均数据量达到百万甚至上亿级。

轨迹数据尺度各异。由于轨迹都具有异频采样性，同种甚至不同类型的移动对象采样频率也会不同。例如，通常有源车载GPS约30秒上传一次定位，也有某些车载定位设备为节省流量间隔数分钟或数十分钟上传一次定位；除了采样频率不同外，空间点坐标的精度可能也会不同，例如GPS的精度约能达到10米，而手机基站定位的精度一般在100～1000米。对于不同属性的异质轨迹数据而言不仅难于统一管理，而且使用目前较通用的距离度量方式所计算的轨迹相似性也可能会出现偏差；

不含语义的表达难以被人类理解。通常轨迹数据是以采样点模型进行存储，当研究人员进行轨迹挖掘时，需要将轨迹转换为含有语义的表示。例如某些轨迹是一段有目的出行，某些轨迹只是在一个区域的游走，需要将轨迹的点序列表示转换为根据物理意义划分或停留时长划分的有语义的轨迹段。

面临上述挑战，如果没有合理的轨迹存储组织和管理模型，轨迹计算往往费时费力。本发明旨在构建一个原始轨迹点序列与轨迹挖掘计算的中间层，提出一种面向多语义跨尺度轨迹大数据的存储管理模型，为构建轨迹数据库提供一个良好的轨迹存储组织方法。

发明内容

为了解决上述技术问题，本发明提出了一种多语义轨迹数据分段存储方法。

本发明的技术方案为一种多语义轨迹数据分段存储方法，具体包括以下步骤：

步骤1：将车辆轨迹数据通过数据清洗去除无效数据得到清洗后车辆轨迹数据，将语义分段数据通过数据清洗去除无效数据得到清洗后语义分段数据；

步骤2：将数据清洗后车辆轨迹数据和数据清洗后车辆语义行程分段进行数据融合，得到融合后车辆轨迹段数据；

步骤3：采用基于停留点分段的方法对融合后车辆轨迹段数据进行分段，得到轨迹分段后数据；

步骤4：将轨迹分段后数据进行数据压缩，得到压缩完成的轨迹段数据；

步骤5：将轨迹分段后数据、压缩完成的轨迹段数据通过数据表方式进行存储。

作为优选，步骤1中所述车辆轨迹数据具体为：

GPS_i＝{long_i,lat_i,date,time_i,ID_i}，i∈[1,M]

其中，GPS_i为第i组车辆GPS数据，long_i,为第i组车辆GPS数据的经度，lat_i,为第i组车辆车GPS数据的纬度，date_i,为第i组车辆GPS数据的日期，time_i为为第i组车辆GPS记录时刻，ID_i为第i组车辆GPS数据的车牌号，M为原始所有轨迹点的个数。

步骤1中所述车辆轨迹数据去除无效数据，具体方法为：

加载给定车辆的所有轨迹数据，去除时间重复的轨迹点数据；

利用正则匹配去除时间、经纬度格式错误的数据；

去除经纬度不在合法范围内(如中国境内)的记录；

统一时间格式，将时间字段转换为ISO8601标准格式；

按车牌号分组、按日期时间排序并存储；

进一步地，步骤1中所述数据清洗后车辆轨迹数据结合相邻两点的车速、道路的限速过滤GPS漂移点，具体为：

通过速度来判断车辆是否发生漂移，即任意相邻两点的车速应当不大于道路的限速，选取高速限速作为判断依据；

则轨迹R中相邻两点r_i与r_j之间的速度为：

其中，dist_r(r_i,r_j)表示地图上两点间球面距离，ri，r_j，分别为两点的经纬度坐标向量，dist_r(r_i,r_j)计算方法可使用Haversine公式计算，dist(ri,rj)tj,ti分别表示gps记录rj,ri两点时的记录时间；

过滤漂移点步骤如下：

依次对轨迹R中的每个点r_i，按轨迹R中相邻两点速度模型，计算r_i相邻与前向邻近轨迹点r_i-1和后向邻近轨迹点r_i+1的平均速度；

如果前向或后向平均速度小于设定的阈值则保留该点；如果都大于设定阈值，则认定该点为漂移点，将漂移点从清洗后的轨迹中移除；

数据清洗后车辆轨迹数据格式保持不变，具体定义为：

GPS_j＝{long_j,lat_j,date,time_j,ID_j}，j∈[1,N]

其中，GPS_j为清洗后第j组车辆GPS数据，long_j,为第j组车辆GPS数据的经度，lat_j,为第j组车辆GPS数据的纬度，date_j,为第j组车辆GPS数据的日期，time_j为为第i组车辆GPS记录时刻，ID_j为第j组车辆GPS数据的车牌号，N为清洗后有效轨迹点的个数；

步骤1中所述语义分段数据数据具体为：

Trav_k＝{stime_k,dtime_k,dis_k,ID_k,disp_k}，k∈[1,M]

其中，stime_k为第k组语义行程分段的起始时间，dtime_k为第k组语义行程分段的终止时间，dis_k为第k组语义行程分段的行驶里程，ID_k为第k组车辆GPS数据的车牌号，disp_k为该段行程的语义描述，M为原始数据中，该车辆的语义行程分段的个数。

步骤1中所述车辆语义分段数据去除无效字段，具体方法为：

加载语义分段数据，并去重；

正则匹配滤掉时间格式错误的数据；

滤掉终止时间早于起始时间的记录；

将时间字段转换为ISO8601标准格式；

按车牌号分组、按时间排序并存储；

数据清洗后车辆语义分段数据为：

Trav_l＝{stime_l,dtime_l,dis_l,ID_l,disp_l}，l∈[1,N]

其中，stime_l为清洗后保留的有效语义分段数据中第l组行程的起始时间，dtime_l为第l组语义行程分段的终止时间，dis_l为第l组语义行程分段的行驶里程，ID_l为第l组车辆GPS数据的车牌号，disp_l为该段行程的语义描述，N为清洗后车辆的语义行程分段的个数。

作为优选，步骤2中所述将数据清洗后车辆轨迹数据和数据清洗后车辆语义行程分段进行数据融合，具体过程为：

步骤2.1依次对每辆车做如下操作；

步骤2.2对该车辆的轨迹序列按日期时间的顺序排序；

步骤2.3对该车辆的每对上下车记录的时间，按时间排序；

如果轨迹点GPS_k的时间time_k位于某一个语义行程分段Trav_i的起始时间stime_i和终止时间dtime_i之间，则用该语义行程的描述disp_i标记为此轨迹点；如果time_k位于Trav_i的终止时间dtime_i与下一段语义行程分段Trav_i+1的起始时间stime_i+1之间，则标记为“无语义”，直至最后一个语义行程分段；

作为优选，步骤3中所述采用基于停留点分段的方法对融合后车辆轨迹段数据进行分段，具体如下：

步骤3.1：检测停留点；

步骤3.2：以停留点为分割点，对轨迹段继续进行分段；

作为优选，步骤4将轨迹分段后数据进行数据压缩，具体如下：

步骤4.1：给定待压缩的轨迹分段后数据，以轨迹分段后数据的轨迹点序列方式给出；

步骤4.2：设定允许误差ε；

步骤4.3：保留轨迹分段后数据中的第一点和最后一点，将其的连线设为近似轨迹段；

步骤4.4：计算轨迹分段后数据中，中间轨迹点到近似轨迹段的投影距离，选取该距离的最大值，记为近似轨迹段误差；

步骤4.5：如果近似轨迹段误差大于ε，则以此最大误差的轨迹点为分割点，将原轨迹分为两段，然后分别对两段轨迹重复步骤4.3操作，直至所有近似轨迹段的误差都小于ε；

步骤4.6：如果近似轨道段误差小于ε，则输出近似轨迹段，完成该段轨迹压缩；

步骤4.7：将所有完成压缩的近似轨迹段的轨迹点连接，输出作为最终的压缩轨迹点序列。

作为优选，步骤5中所述通过数据表方式进行存储，具体为：

将每个车辆的压缩完成的轨迹段数据用三张表来存储，包括轨迹分段后数据以及压缩完成的轨迹段数据；

具体包括：车辆ID，轨迹点时间，轨迹点的经度纬度坐标，轨迹点的语义描述，将这些数据以如下数据表组织方式进行存储：

所述存储每个车辆的压缩完成的轨迹段数据的第一张表为：原始的完整轨迹点序列，存储车辆的有效轨迹点数据，即步骤3完成后保留的轨迹点序列。所述存储每个车辆的压缩完成的轨迹段数据的第一张表字段包括：车辆ID，轨迹点时间(含日期)，轨迹点经度，轨迹点纬度，轨迹点语义描述。

所述存储每个车辆的压缩完成的轨迹段数据的第二张表为：为车辆轨迹段表，存储车辆行驶的所有轨迹段的索引关系以及轨迹段的元信息。所述存储每个车辆的压缩完成的轨迹段数据的第二张表字段包括：车辆ID，轨迹段ID，轨迹段长度，轨迹段起始时间，轨迹段终止时间，轨迹段中心经度，轨迹段中心纬度。

所述存储每个车辆的压缩完成的轨迹段数据的第三张表为：位轨迹段坐标点表，存储每个轨迹段所包含的压缩轨迹点的信息。所述存储每个车辆的压缩完成的轨迹段数据的第三张表字段包括：轨迹段ID，压缩后保留的轨迹点时间(含日期)，压缩后保留的轨迹点经度，压缩后保留的轨迹点纬度。

本发明优点在于，适用于存储包含不同语义行程的轨迹，此外该方法以轨迹段为元数据存储，更便于轨迹的查询检索。同时本方法可以根据存储需要，灵活设定压缩误差，可以在满足误差需求和轨迹检索需求的情况下，减小存储空间开销。

附图说明

图1：本发明方法流程图。

图2：车辆轨迹数据和语义分段数据融合示意图。

图3：车辆轨迹停留点检测。

图4：车辆轨迹压缩。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的具体实施方式可以通过sql数据库平台或者Hadoop文件系统实现存储。当使用sql数据库平台时，最终轨迹数据按步骤5定义的表格字段，将轨迹数据存入数据库的数据表中。如使用Hadoop系统，可以按步骤5定义的字段格式，以文本文件存入HDFS文件系统。

同其他数据挖掘工作一样，在挖掘前都需要做数据的预处理。对于轨迹数据，在预处理环节不仅要剔除掉字段不完整、格式不规范、冗余的数据，还要保证时空数据的连贯性，剔除不合理的轨迹漂移点。首先将车辆GPS轨迹数据和语义行程分段进行融合，为轨迹数据注入行程分段的语义信息。最后，对轨迹进行了基于语义行程的分段和基于停留点的分段，并导入轨迹数据模型存储。轨迹数据与交易数据的预处理阶段流程如图1所示。

本发明的具体实施方式为一种多语义轨迹数据分段存储方法，包括以下步骤：

对车辆轨迹数据的清洗的无效数据包括，字段不完整，字段格式不正确，数据重复、清洗后再结合相邻两点的车速、道路的限速过滤GPS漂移点；

车辆的语义行程分段数据为人工标注的具有语义含义的某段行程；

例如，如果车辆为出租车，则车辆轨迹数据为出租车的行驶GPS轨迹数据，语义分段数据为出租车打表数据。每个语义分段数据分别表示出租车服务不同乘客的载客行程和每段载客间的空载行程。

数据清洗步骤中，将清洗这类数据中的不正确数据，包括字段不完整，格式不正确的数据，例如：

由于设备的问题，可能存在某些车辆经纬度值有明显问题，如不在中国境内；或者因为传输延迟，当天的数据被保存在第二天的位置，

数据清洗的具体步骤如下：

所述车辆轨迹数据具体为：

GPS_i＝{long_i,lat_i,date,time_i,ID_i}，i∈[1,M] (1)

所述车辆轨迹数据去除无效字段，具体方法为：

利用正则匹配去除时间、经纬度格式错误的数据；

去除经纬度不在合法范围内(如中国境内)的记录；

统一时间格式，将时间字段转换为ISO8601标准格式；

按车牌号分组、按日期时间排序并存储；

由于天气干扰、传输不稳定或者高楼、隧道、停车场等建筑物遮挡等因素，会出现车辆轨迹数据发生漂移。本文基于速度来判断车辆是否发生漂移，即任意相邻两点的车速应当不大于道路的限速，为简单起见，选取高速限速120km/h作为判断依据；

则轨迹R中相邻两点r_i与r_j之间的速度为：

其中，dist_r(r_i,r_j)表示地图上两点间球面距离，ri，rj，分别为两点的经纬度坐标向量，dist_r(r_i,r_j)计算方法可使用Haversine公式计算，dist(ri,rj)tj,ti分别表示gps记录rj,ri两点时的记录时间；

过滤漂移点步骤如下：

依次对轨迹R中的每个点r_i，按公式(2)计算r_i相邻与前向邻近轨迹点r_i-1和后向邻近轨迹点r_i+1的平均速度；

如果前向或后向平均速度小于设定的阈值(城市区域参考设定为120km/h)，则保留该点；如果都大于设定阈值，则认定该点为漂移点，将漂移点从清洗后的轨迹中移除。

数据清洗后车辆轨迹数据格式保持不变，具体定义为：

GPS_j＝{long_j,lat_j,date,time_j,ID_j}，j∈[1,N]

其中，GPS_j为清洗后第j组车辆GPS数据，long_j,为第j组车辆GPS数据的经度，lat_j,为第j组车辆GPS数据的纬度，date_j,为第j组车辆GPS数据的日期，time_j为为第i组车辆GPS记录时刻，ID_j为第j组车辆GPS数据的车牌号，N为清洗后有效轨迹点的个数。

车辆的语义行程分段数据为人工标注的具有语义含义的某段行程。车辆的语义行程分段数据包括该段行程的起始时间，终止时间，该段行程的行驶距离，该段行程的语义描述和车辆ID。车辆的语义行程分段数据具体为：

Trav_k＝{stime_k,dtime_k,dis_k,ID_k,disp_k}，k∈[1,M]

例如，如果车辆为出租车时，语义行程分段数据来自于出租车打表数据，每个语义分段行程分别表示出租车服务不同乘客的载客行程和每段载客间的空载行程。每段行程的起始时间和终止时间为乘客的上下车时间。每个段语义行程的描述为“空载”状态或“载客”状态。

所述车辆语义分段数据去除无效字段，具体方法为：

加载语义分段数据，并去重；

正则匹配滤掉时间格式错误的数据；

滤掉终止时间早于起始时间的记录；

将时间字段转换为ISO8601标准格式；

按车牌号分组、按时间排序并存储；

数据清洗后车辆语义分段数据为：

Trav_l＝{stime_l,dtime_l,dis_l,ID_l,displ}，l∈[1,N]

其中，stime_l为清洗后保留的有效语义分段数据中第l组行程的起始时间，dtime_l为第l组语义行程分段的终止时间，dis_l为第l组语义行程分段的行驶里程，ID_l为第l组车辆GPS数据的车牌号，disp_l为该段行程的语义描述，N为清洗后车辆的语义行程分段的个数。；

步骤2：将清洗后车辆轨迹数据以及清洗后语义分段数据进行数据融合，得到融合后数据；

将数据清洗后车辆轨迹数据和数据清洗后车辆语义行程分段进行数据融合，得到融合后车辆轨迹段数据；

步骤2中所述将数据清洗后车辆轨迹数据和数据清洗后车辆语义行程分段进行数据融合，具体过程为：

步骤2.1依次对每辆车做如下操作；

步骤2.2对该车辆的轨迹序列按日期时间的顺序排序；

步骤2.3对该车辆的每对上下车记录的时间，按时间排序；

步骤3：将融合后数据采用基于停留点分段的方法进行分段，得到轨迹分段后数据；

步骤3具体分为两个步骤：

步骤3.1：检测停留点。

步骤3.2：以停留点为分割点，对轨迹段继续进行分段。

其中，步骤3.1中的停留点检测方法如下：

寻找在一个区域内缓慢移动且在该区域的停留时间超过阈值的点，进一步检测停留点。图3中展示了两种类型的停留点，基于停留点的分段首先需要寻找车辆的停留点。第一种为在一个地点停留时间超过阈值，如图中点p₃，第二种情况为在一个区域内缓慢移动且在该区域的停留时间超过阈值，如图中的点p₅→p₆→p₇→p₈。

检测停留点的步骤方法具体如下：

步骤3.2.1：将轨迹段中的第一个点设置为待判决的轨迹点；

步骤3.2.2：计算待判决轨迹点与其后续轨迹点间的距离dist；

步骤3.2.3：如果dist小于停留阈值Th_d,则计算待判决点和下一个后续轨迹点的距离；

步骤3.2.4：如果dist大于停留阈值Th_d,则计算两点的累积停留时间Δt＝p_j·T-p_i·T

步骤3.2.5：如果Δt大于停留阈值时间Th_t,则将此段时间判定为停留时间，将带判决点至该后续点间所有轨迹点的中心，设定为停留中心。将最后一个后续点设定为新的待判决点，重复步骤3.2.2的操作。

步骤4：将轨迹分段后数据进行数据压缩，得到压缩完成的轨迹段数据。

步骤4具体如下：

步骤4.2：设定允许误差ε；

由于不同尺度的轨迹点拥有不同的采样频率，有些轨迹采样点非常密集，例如车辆GPS轨迹，因而数据量庞大且计算复杂。因此在轨迹分段后，可以适当的对轨迹进行压缩，在不影响后续计算的准确性情况下减少轨迹数据量的大小。为简化计算，使用投影距离作为误差度量方式，进行轨迹压缩。

以图4为例，描述步骤4的压缩算法。

如图4中，4.1所述给定的待压缩的轨迹序列点为P1至P12，4.2设定允许的误差为ε，假设为10米。

步骤4.3中使用近似的线段来代替不规则的轨迹段。如图4中p₁到p₁₂为压缩前的轨迹段，从轨迹段的起始点p₁和末端点p₁₂开始使用一条近似的线段来代替p₁到p₁₂的轨迹段并依次计算其他点到该线段的距离。

步骤4.4中依次计算轨迹点p2至p11到线段的投影距离

步骤4.5中假设当轨迹点p₄到线段的最大距离大于给定的允许误差ε时便将该点加入滑动点集合，并从该点将轨迹分为两段/>和/>将/>和/>分别作为输入，重复4.3过程；

步骤4.6中至到所有点到线段的距离都小于允许的误差ε；

步骤4.7中压缩完成后，保留的轨迹序列点为P1,P4,P9,P12。

步骤5：将车辆轨迹分段数据与其对应轨迹分段后数据，通过数据表方式进行存储。

步骤5中所述通过数据表方式进行存储，具体为：

将每个车辆的车辆轨迹分段数据、轨迹分段后数据用三张表来存储，包括步骤3输出的未压缩的轨迹数据，以及压缩完成后的轨迹数据，即经过步骤4压缩处理仍保留的车辆轨迹点序列，具体包括车辆ID，轨迹点时间，轨迹点的经度纬度坐标，轨迹点的语义描述。将这些数据以如下数据表组织方式进行存储。

所述存储每个车辆的压缩完成的轨迹段数据的第二张表为：车辆轨迹段表，存储车辆行驶的所有轨迹段的索引关系以及轨迹段的元信息。所述存储每个车辆的压缩完成的轨迹段数据的第二张表字段包括：车辆ID，轨迹段ID，轨迹段长度，轨迹段起始时间，轨迹段终止时间，轨迹段中心经度，轨迹段中心纬度。

所述存储每个车辆的压缩完成的轨迹段数据的第三张表为：轨迹段坐标点表，存储每个轨迹段所包含的压缩轨迹点的信息。所述存储每个车辆的压缩完成的轨迹段数据的第三张表字段包括：轨迹段ID，压缩后保留的轨迹点时间(含日期)，压缩后保留的轨迹点经度，压缩后保留的轨迹点纬度。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种多语义轨迹数据分段存储方法，其特征在于，包括以下步骤：

步骤5：将轨迹分段后数据、压缩完成的轨迹段数据通过数据表方式进行存储；

步骤1中所述车辆轨迹数据具体为：

GPS_i＝{long_i,lat_i,date_i,time_i,ID_i}，i∈[1,M]

其中，GPS_i为第i组车辆GPS数据，long_i,为第i组车辆GPS数据的经度，lat_i,为第i组车辆车GPS数据的纬度，date_i,为第i组车辆GPS数据的日期，time_i为为第i组车辆GPS记录时刻，ID_i为第i组车辆GPS数据的车牌号，M为原始所有轨迹点的个数；

步骤1中所述车辆轨迹数据去除无效数据，具体方法为：

利用正则匹配去除时间、经纬度格式错误的数据；

去除经纬度不在合法范围内的记录；

统一时间格式，将时间字段转换为ISO8601标准格式；

按车牌号分组、按日期时间排序并存储；

步骤1中所述数据清洗后车辆轨迹数据结合相邻两点的车速、道路的限速过滤GPS漂移点，具体为：

则轨迹R中相邻两点r_i与r_j之间的速度为：

其中，dist_r(r_i,r_j)表示地图上两点间球面距离，r_i，r_j，分别为两点的经纬度坐标向量，dist_r(r_i,r_j)计算方法可使用Haversine公式计算，t_j,t_i分别表示gps记录r_i，r_j两点时的记录时间；

过滤漂移点步骤如下：

依次对轨迹R中的每个点r_i，按轨迹R中相邻两点速度模型，计算r_i相邻与前向邻近轨迹点r_i-1和后向邻近轨迹点r_i+1的速度；

如果前向速度、后向速度均小于等于设定的阈值则保留该点；如果前向或后向速度大于设定阈值，则认定该点为漂移点，将漂移点从清洗后的轨迹中移除；

数据清洗后车辆轨迹数据格式保持不变，具体定义为：

GPS_j＝{long_j,lat_j,date_j,time_j,ID_j}，j∈[1,N]

步骤1中所述语义分段数据数据具体为：

Trav_k＝{stime_k,dtime_k,dis_k,ID_k,disp_k}，k∈[1,M]

其中，stime_k为第k组语义行程分段的起始时间，dtime_k为第k组语义行程分段的终止时间，dis_k为第k组语义行程分段的行驶里程，ID_k为第k组车辆GPS数据的车牌号，disp_k为该段行程的语义描述，M为原始数据中，该车辆的语义行程分段的个数；

步骤1中所述车辆语义分段数据去除无效字段，具体方法为：

加载语义分段数据，并去重；

正则匹配滤掉时间格式错误的数据；

滤掉终止时间早于起始时间的记录；

将时间字段转换为ISO8601标准格式；

按车牌号分组、按时间排序并存储；

数据清洗后车辆语义分段数据为：

Trav_l＝{stime_l,dtime_l,dis_l,ID_l,disp_l}，l∈[1,N]

其中，stime_l为清洗后保留的有效语义分段数据中第l组行程的起始时间，dtime_l为第l组语义行程分段的终止时间，dis_l为第l组语义行程分段的行驶里程，ID_l为第l组车辆GPS数据的车牌号，disp_l为该段行程的语义描述，N为清洗后车辆的语义行程分段的个数；

步骤2.1依次对每辆车做如下操作；

步骤2.2对该车辆的轨迹序列按日期时间的顺序排序；

步骤2.3对该车辆的每对上下车记录的时间，按时间排序；

如果轨迹点GPS_k的时间time_k位于某一个语义行程分段Trav_i的起始时间stime_i和终止时间dtime_i之间，则用该语义行程的描述disp_i标记为此轨迹点；如果time_k位于Trav_i的终止时间dtime_i与下一段语义行程分段Trav_i+1的起始时间stime_i+1之间，则标记为“无语义”，直至最后一个语义行程分段。

2.根据权利要求1所述的多语义轨迹数据分段存储方法，其特征在于：步骤3中所述采用基于停留点分段的方法对融合后车辆轨迹段数据进行分段，具体如下：

步骤3.1：检测停留点；

步骤3.2：以停留点为分割点，对轨迹段继续进行分段。

3.根据权利要求1所述的多语义轨迹数据分段存储方法，其特征在于：步骤4将轨迹分段后数据进行数据压缩，具体如下：

步骤4.2：设定允许误差ε；

4.根据权利要求1所述的多语义轨迹数据分段存储方法，其特征在于：步骤5中所述通过数据表方式进行存储，具体为：

表1为原始的完整轨迹点序列，存储车辆的有效轨迹点数据，即步骤3完成轨迹分段后的数据；表1字段包括：车辆ID，轨迹点时间，轨迹点经度，轨迹点纬度，轨迹点语义描述；

表2为车辆轨迹段表，存储车辆行驶的所有轨迹段的索引关系以及轨迹段的元信息；表2字段包括：车辆ID，轨迹段ID，轨迹段长度，轨迹段起始时间，轨迹段终止时间，轨迹段中心经度，轨迹段中心纬度；

表3为轨迹段坐标点表，存储每个轨迹段所包含的压缩轨迹点的信息；表3字段包括：轨迹段ID，压缩后保留的轨迹点时间，压缩后保留的轨迹点经度，压缩后保留的轨迹点纬度。