CN115310522A

CN115310522A - 一种非机动车骑行轨迹的数据质量提升方法及系统

Info

Publication number: CN115310522A
Application number: CN202210842913.2A
Authority: CN
Inventors: 陈杰; 毛嘉莉; 沈文怡; 吴问宇; 周傲英; 曹绍升; 赵俐晟; 周霖; 黄海斌; 马楠
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-11-08

Abstract

本发明公开了一种非机动车骑行轨迹的数据质量提升方法，所述方法首先采集获取车行轨迹数据和非机动车轨迹数据，将低质量轨迹区域分割成固定大小的网格，并对轨迹点建立网格索引；识别并消除转向异常点和速度异常点、徘徊轨迹段、逆行/违章行驶轨迹段，对漂移轨迹段进行校准，对缺失轨迹进行恢复；最终输出经数据质量提升后的非机动车骑行轨迹。本发明还公开了实现上述非机动车骑行轨迹的数据质量提升方法的系统以及所述方法和/或系统在非机动车骑行轨迹的数据质量提升中的应用。本发明能够解决非机动车骑行轨迹数据中存在的轨迹异常和定位信号缺失问题，为利用非机动车骑行数据推断骑行地图提供了良好的数据基础。

Description

一种非机动车骑行轨迹的数据质量提升方法及系统

技术领域

本发明属于轨迹挖掘技术领域，具体涉及一种非机动车骑行轨迹的数据质量提升方法及系统。

背景技术

随着非机动车保有量的大规模增加，非机动车相关的服务蓬勃发展且已进入到快速成长期。为方便快捷地到达目的地，人们常以非机动车作为交通工具。由于缺少专业精准的非机动车骑行导航地图，骑行时常常进入非机动车限行区域；此外，骑行时依赖更新不及时的两轮车导航软件提供的线路前往目的地，时有发生误入深山、林区等事件。构建并及时更新非机动车骑行地图能保证高效的骑行线路规划、提升非机动车骑行体验感。非机动车相关服务的迅猛增长积累了海量的非机动车骑行轨迹数据，它们与对应产生的行程、车辆、基准路网等数据，为骑行地图的推断提供了数据基础。然而，由于定位设备误差、非机动车骑行习惯等因素的影响，骑行轨迹数据集中存在大量异常数据以及定位信息缺失的情况，使非机动车骑行地图的推断面临严峻的挑战。因此，亟需设计一种面向非机动车骑行地图构建的数据质量提升方法。

据观察，非机动车骑行轨迹中除了轨迹数据普遍存在的方向、速度噪声以外，还存在热门骑行区域的徘徊轨迹段、违章转向(逆行)轨迹段、信号漂移轨迹段以及信号缺失轨迹段等数据异常。其中，徘徊轨迹段常见于非道路区域，伴有方向多变与低速行驶的现象；违章骑行轨迹则以非转向区域的转向以及逆行事件呈现，它们为道路拓扑的精准提取带来一定程度的干扰，需要及时发现并消除。信号漂移与缺失轨迹段常发生在信号薄弱区域，需要利用历史轨迹数据对漂移行为进行有效识别以及基于稀疏数据对缺失轨迹进行恢复。

发明内容

本发明所要解决的技术问题是针对非机动车骑行轨迹存在的数据异常与缺失、以及已有的基于汽车轨迹数据的预处理方法不能直接用于提升非机动车骑行轨迹质量等问题，提出了一种非机动车骑行轨迹的数据质量提升方法及系统，该方法能够处理非机动车骑行轨迹数据中存在的轨迹异常和定位信号缺失问题，为非机动车骑行地图推断提供有效的数据基础。

为实现上述技术目的，本发明采取的技术方案为：

一种非机动车骑行轨迹的数据质量提升方法，包含以下步骤：

S1：采集获取车行轨迹数据和非机动车轨迹数据，为加速后续基于近邻范围的异常检测与数据恢复，使用基于GeoHash的单元划分方法将低质量轨迹区域分割成固定大小的网格，并对轨迹点建立GeoHash网格索引。

S2：采用基于近邻轨迹点的主方向与速度的轨迹噪声检测方法，识别转向异常点和速度异常点并予以消除。

S3：根据方向多变和低速特征，基于GeoHash网格和广度优先搜索(BFS)识别相较于较大范围时空近邻的徘徊轨迹段并消除。

S4：使用核密度估计和GeoHash网格对近邻轨迹进行分析，检测违章行驶轨迹段并消除。

S5：利用轨迹数据的正常采样间隔和漂移轨迹段与近邻轨迹移动行为的一致性检测漂移轨迹段，利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准。

S6：根据近邻轨迹点间的平均采样间隔提取具有较长时间(或距离)间隔的轨迹线段，使用增量聚类方法对轨迹线段进行聚类以识别缺失轨迹所在区域，基于该区域的历史轨迹数据获取相似子轨迹，再采用基于最小距离和的拟合方法实现缺失轨迹的恢复；

S7：输出经数据质量提升后的非机动车骑行轨迹。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤S1中，轨迹点的采样间隔和相邻轨迹点之间的距离的信息来源于原始轨迹自身。

所述步骤S1具体包括：

为加速异常数据检测的近邻搜索效率，先使用基于GeoHash的网格单元划分方法将数据异常区域(低质量轨迹区域)分割成固定大小的网格，网格大小的划分与后续查询的范围有关，应尽量与查询范围相当，而后续查询基于轨迹点近邻范围内轨迹点，考虑属于同一车道内的性质较为相同，则查询范围应略大于车道以保证同车道内轨迹点进入查询范围；所述查询范围为车道宽度的100-120％。随后对骑行轨迹数据中轨迹点的方向和速度、相邻轨迹点间的方向变化与速度变化、相邻轨迹点之间采样时间差进行计算，在此基础上结合轨迹点所处的行程状态(所述行程状态是获得轨迹时候同时获得的自带属性，例如、“空闲”、“骑行中”、“骑行起点附近”、“到达骑行终点附近”等)信息形成轨迹点的衍生属性；最后对轨迹数据建立以对应GeoHash值为关键词的网格索引，这里的GeoHash通过将经纬度转换为字符串，然后用字符串作为一维索引连接对应轨迹信息。网格索引的关键词就是GeoHash，每个GeoHash对应一个地理范围，对应一个网格区域。

其中，所述数据异常区域或低质量轨迹区域是指包括有热门骑行区域的徘徊轨迹段、违章转向(逆行)轨迹段、信号漂移轨迹段以及信号缺失轨迹段等低质量轨迹情况的区域；所述轨迹点的衍生属性(即信息)包括轨迹点的方向，方向变化，速度，速度变化，与相邻轨迹点之间的采样时间差，行程状态等。

GeoHash是一种地理编码算法，可以在O(1)时间复杂度下将GPS坐标按照不同的编码长度定位到不同大小的地理网格单元中，同时，对于不同GPS坐标对应的编码公共前缀，其长度越长，所在位置则越近。考虑到车道宽度的国家标准为3.5米至3.75米，设置对应geohash编码长度为9(即对应网格单元长、宽均为4.8米)，geohash的长度为正整数值，编码长度即geohash值编码长度每增加1，对应的网格面积缩小为原来的32分之1，长度越长则对应网格范围越小。具体为先把经纬度按照二分法转换为2进制编码，然后按照偶数位放经度，奇数位放纬度进行整合。再把整合后的二进制5个一组转换为10进制，最后根据Base32表转换为字符串。其中Base32表可使用32个字符对任意字节数据进行编码。

上述的步骤S2具体包括：

步骤2.1、轨迹分段：统计相邻轨迹点间的采样时间间隔，以整条非机动车轨迹数据中各轨迹点间的平均采样时间间隔Time_dis作为轨迹段划分的阈值对轨迹分段。

步骤2.2、速度异常点消除：鉴于骑行使用的非机动车按照国家标准规定上限速度th_speed为6.95米/秒(即25公里/小时)，删除轨迹点速度超过速度阈值th_speed的轨迹点；轨迹点的速度的计算方法为分段前轨迹点与其前后相邻轨迹点的距离和/分段前轨迹点与其前后相邻轨迹点的采样时间差的和。

步骤2.3、转向异常点消除：基于少数转向异常点与其大多数近邻轨迹点的方向差异特性，先用GeoHash网格查找待检测轨迹点的近邻；随后对近邻点按照方向将其划分到8个不同方向(与正北相差角度为

的8个方向)类中；考虑道路有单向/双向道，如待检测轨迹点的方向不属于轨迹点数量最多的两个方向，则将其视为转向异常点予以删除，其中，近邻点定义如下：

给定一个轨迹点p_i，预设的距离阈值th_dis，以及轨迹点集合P，GeoDis(p_i，p_j)表示p_i和p_j之间的实际地面距离，则p_i的近邻点定义为：Near(p_i)＝{p_j∈P|GeoDis(p_i，p_j)≤th_dis}；所述距离阈值的设置与车道的宽度有关，一般会比车道宽度略宽，大体相当于车道宽度的100％到120％；

近邻点的方向代表了待检测轨迹点周围大多数轨迹点的正常方向，如果待检测轨迹点方向与之相差较大，则认为其方向存在异常，考虑到车道宽度为3.5米至3.7米，在实际使用时，可以设置th_dis＝4米。

上述的步骤S3具体包括：

非机动车骑行轨迹的徘徊轨迹段位于骑行行程所涉及的非道路区域，例如居民区、商圈，该类区域是大量状态为“到达骑行终点附近”的轨迹点所在区域，同时，徘徊轨迹段常伴有方向多变且速度相对于正常骑行轨迹速度较低等行为。

根据这些特性，首先基于广度优先搜索(BFS)，搜索待检测轨迹点的近邻点，考虑到非道路区域相较于道路区域的轨迹稀疏特性，这里设置较大的近邻点距离阈值(设置为两倍车道宽度，一般为8米)，以提取更多的近邻轨迹点；

基于得到的近邻点，统计其中状态为“到达骑行终点附近”的轨迹点的数量占比，当占比超过状态为“骑行中”轨迹点数量的占比时，将该区域视为与非机动车骑行相关的热门非道路区域，如果一段轨迹中连续多个轨迹点位于上述热门非道路区域，将其视为候选徘徊轨迹段；

统计候选徘徊轨迹段内轨迹点的方向并将其划分到8个方向类中，考虑到道路骑行轨迹可能偶发转向行为以及转向前后骑行方向不变的特性，如果徘徊轨迹段内轨迹点的方向超过2个方向类、且不同类轨迹点根据采样时间顺序存在位置交叉关系，同时该候选徘徊轨迹段内轨迹点平均速度低于道路骑行平均速度，则判断其为徘徊轨迹段予以删除。

上述的步骤S4具体包括：

S4中的违章行驶轨迹段包括逆行转向轨迹段、违规转向轨迹段；非机动车限行道路区域的轨迹消除：鉴于网格下轨迹点密度的稀疏性会影响车行区域计算的平滑性，利用核密度估计方法来平滑计算各网格单元内的骑行轨迹与(汽车)车行轨迹密度，根据车行区域内轨迹密度应显著高于骑行轨迹密度的特性判定轨迹区域中属于限行区域的网格单元。

所述核密度估计方法是指对一定范围内的网格密度加权求和来平滑表示当前网格密度的非参数估计方法，其中权重由近邻网格与当前网格的距离通过高斯核函数计算得到，函数形式如下所示：

其中，x为当前网格的历史轨迹流量，x′为近邻网格的历史轨迹流量，σ为核函数的窗宽，即对应车道宽度(单位米)。

基于上述步骤识别的限行区域网格单元，对非机动车骑行轨迹进行遍历，当相邻轨迹点连接形成线段覆盖的限行区域网格单元的占比超过阈值th_prop(设置较小占比阈值th_prop以保证限行区域内骑行轨迹与车行轨迹的显著差异，取为0.1)，判断该线段为异常轨迹段；当异常轨迹段存在连续轨迹点间长度超过距离阈值dis_len(以选定时间平均采样间隔与骑行限速的乘积设置距离阈值)时，判定其为异常行驶轨迹段并消除。时间平均采样间隔为非机动车轨迹数据决定，在本发明中，实验数据的平均采样间隔为12_s，非机动车骑行限速为25km/h，即为6.94m/s，相乘即可得到83.33米，取整可得到84米，即设置距离阈值dis_len＝84米。

逆行/违规转向轨迹段消除：考虑到逆行和违规转向轨迹段与其大多数近邻轨迹点在方向以及方向变化上均存在较大差异，故先通过范围提取(提取范围略大于车道宽度，为车道宽度的100-120％以内，一般取值为4米)待检测轨迹点的近邻点，并将近邻点根据方向与方向变化划分到8个方向(与正北相差角度为

的8个方向)类中；

当近邻点的方向大致相同时(以大多数近邻点的方向为主方向)，判定该轨迹点所处道路为单向道；若当前轨迹点方向与主方向相反，判定该轨迹点存在逆行行为。若连续轨迹点序列中不存在逆行行为的轨迹点占比低于设定的阈值(设置较小占比阈值以保证逆行行为的可信，一般取值为0.1)，则认为该轨迹点序列为逆行轨迹段予以消除；

当轨迹点方向不属于近邻点主方向，且其方向变化不同于其近邻轨迹点的方向变化时，则认为该点存在违规转向行为；当连续轨迹点的序列其方向属于主方向的占比低于阈值(设置较小阈值保证违规转向的可信，一般取值为0.1)且存在违规转向行为的轨迹点，则认为该轨迹点序列存在违规转向行为应予以消除。

上述的步骤S5具体包括：

步骤5.1、给出定义：给定轨迹点对(p_s，p_e)和一条轨迹Tr＝{p₁，p₂，...，p_n}，当同时满足以下条件时，认为Tr的子轨迹

是轨迹点对(p_s，p_e)的相似轨迹段：

(1)p_i是轨迹Tr中距离点p_s最近的点，p_i+m是轨迹Tr中距离点p_e的最近点；

(2)p_s与p_i间的距离dis(p_s，p_i)＜β且p_e与p_i+m间的距离dis(p_e，p_i+m)＜β(β＞0)，β是用于搜索给定轨迹点近邻的距离阈值，其初始值根据平均采样间隔与骑行限速的乘积设置，可以为84米，且要求β＝min(dis(p_s，p_e)/2，β)；

(3)查询轨迹点对之间的时间间隔应与相似轨迹段的持续时间相似，即令△t＝p_e.time-p_s.time，max(0，(1-α₁)*△t)＜p_i+m.time-p_i，time＜(1+α₁)*△t，其中α₁为调节参数，其取值范围为[0，1]，可以根据GPS轨迹数据集的不同而改变，一般情况下取平均值即0.5，time是采样时间戳。

步骤5.2、漂移轨迹段识别：给定一条轨迹Tr＝{p₁，p₂，...，p_n}，当存在漂移轨迹段

时，表现为轨迹Tr的子轨迹

内所有轨迹点均远离Tr中其他近邻轨迹点，但

内轨迹点间采样间隔保持不变。据此，将按照以下条件判定轨迹Tr的子轨迹

是否为漂移轨迹段

(1)p_i与p_i-1间的距离dis(p_i，p_i-1)＞(1+α₂)*avg_dis且p_i+m+1与p_i+m间的距离dis(p_i+m，p_i+m+1)＞(1+α₂)*avg_dis，其中avg_dis表示两个连续轨迹点间的平均采样距离，α₂为调节参数，其取值范围为[0，1]，可以根据GPS轨迹数据集的不同而改变，一般情况下取平均值即0.5；

(2)(1-α₂)*avg_dis＜dis(p_z+k，p_z+k+1)＜(1+α₂)*avg_dis(0≤k≤m-1)；

(3)(1-α₃)*avg_si＜(p_i+k-1.time-p_z+k.time)＜(1+α₃)*avg_si(0≤k≤m+1)，其中avg_si表示数据集的平均采样间隔，α₃为调节参数，其取值范围为[0，1]，可以根据GPS轨迹数据集的不同而改变，一般情况下取平均值即0.5，其中time指的是轨迹点的采样时间戳。

步骤5.3、漂移轨迹段校准：考虑到漂移轨迹段相对于移动对象的整条轨迹而言只是其中一段，采用基于最长公共子序列(LCSS：Longest Common Subsequence)的相似性度量方法查找与存在漂移轨迹段的轨迹相似度最高的k条轨迹。为评测其他轨迹与漂移轨迹的相似性，使用两条轨迹最长公共子序列的点数与该轨迹所有轨迹点数量的占比作为衡量值。随后，根据步骤5.1的定义，以漂移轨迹段

的前序轨迹点p_i-1和后续轨迹点p_i+m+1作为查询点对，从相似性最高的k条轨迹中提取与漂移轨迹的相似轨迹段集合。

鉴于漂移轨迹段可能由移动设备的惯导系统根据连续采集轨迹点的方向与加速度推算产生，其形态与真实轨迹相似。因此，先将漂移轨迹段

的每个轨迹点p_i+k(0≤k≤m)转换地理位置得到

从而获得转换后的新轨迹段

位置转换公式如下，其中x表示该点的经度，y表示该点的纬度：

采用Fréchet距离度量

与每条相似轨迹段之间的距离，将与相似轨迹段距离最小的新轨迹段

视为代表轨迹段，并使用代表轨迹段替换对应的漂移轨迹段以实现校准。对于两条轨迹段

和

它们之间的Fréchet距离F(Tr_m，Tr_n)的计算公式如下，首先查找两条轨迹之间对应的点对序列

其中a₁＝1，b₁＝1，a_s＝i，b_s＝j，

中包含轨迹段Tr_m中的所有轨迹点且按原有轨迹点顺序(重复)排列，

同理，然后计算点对序列中对应点对之间的最大距离||L||，Fréchet距离F(Tr_m，Tr_n)为所有点对序列中最小的||L||值：

F(Tr_m，Tr_n)＝min{||L|||L是Tr_p，Tr_q之间的点对序列}

上述的步骤S6具体包括：

步骤6.1、给出定义：给定轨迹Tr＝{p₁，p₂，...，p_n}，较长采样间隔轨迹段L_i＝(p_i，p_i+1)是满足以下条件的两个连续轨迹点连接形成的线段：

(1)p_i与p_i+1间的距离dis(p_i，p_i+1)＞(1+α₂)*avg_dis，其中avg_dis表示两个连续轨迹点之间的平均采样距离间隔，α₂为距离约束的调节参数，其取值范围为[0，1]，可以根据GPS轨迹数据集的不同而改变，一般情况下取平均值即0.5；

(2)(p_i+1.time-p_i.time)＞(1+α₄)*avg_si，其中avg_si表示平均采样时间间隔，α₄为调节参数，其取值范围为[0，+∞]，可以根据GPS轨迹数据集的不同而改变，一般情况下取平均值即2，此处的time是采样时间戳。

步骤6.2、弱信号区域的识别：

由于部分区域定位信号弱，存在连续轨迹点间时间和/或距离远大于平均采样时间间隔/平均采样距离间隔的情况，称之为较长采样间隔线段(轨迹段)。根据步骤6.1的定义检测发现较长采样间隔线段，再对其进行增量聚类以定位信号弱的区域。该方法在聚类过程中维护一个较长采样间隔线段簇的集合，这里的线段簇表示一组线段(轨迹段)的集合，开始时该集合为空，当检测到一条较长采样间隔线段(轨迹段)L_i时，通过计算L_i与现有较长采样间隔线段簇的代表轨迹之间的距离，搜索距离L_i最近的较长采样间隔线段簇(满足L_i与较长采样间隔线段簇的距离小于指定阈值β)，将L_i插入该簇并重新计算所在簇的代表轨迹；如未找到，将L_i单独作为一个簇，其中β的值按照公式min(lc.length/2，β)计算得到，其中lc.length表示代表轨迹的lc的长度。较长采样间隔线段簇C_k的代表轨迹的起点lc_s和终点lc_e由以下公式计算得到，C_k.num表示该簇的线段数：

L_i.st表示较长采样间隔线段的起始端点、L_i.ed表示较长采样间隔线段的终止端点。

线段之间的距离采用基于线段的豪斯多夫距离方法，该方法结合平行距离、垂直距离和角距离等对线段之间的距离进行评测，豪斯多夫距离相比其他基于线段的相似性度量方法能在较小的运算时间的基础上得到一个更精度的相似值，在本发明中可以有效度量线段之间的相似性。

当较长采样间隔线段簇的数量超过内存所能保存的最大数量m时，合并两个距离最近的簇。当C_k.num大于预设阈值thres_num时，将该簇所在区域视为弱信号区域，其中阈值thres_num设置为该区域内所有较长采样间隔线段簇中线段的平均数量，设置平均数量可以反应一般情况下簇内轨迹的正常数量。

步骤6.3、弱信号区域内缺失轨迹恢复：

针对弱信号区域内的缺失轨迹，以位于这些区域的较长采样间隔线段的两个端点(L_i.st、L_i.ed)为查询点，根据步骤5.1的定义，从历史轨迹中提取相似轨迹段集合。分别计算相似轨迹段集合中轨迹段之间的Fréchet距离，找出与其相似轨迹段之间距离之和最小的轨迹段

将其作为参考轨迹段。对于两条轨迹段

和

其中a₁＝1，b₁＝1，a_s＝i，b_s＝j，

F(Tr_m，Tr_n)＝min{||L|||L是Tr_p，Tr_q之间的点对序列}

考虑到基于距离计算得到的参考轨迹段具有不稳定性，使用参考轨迹段附近的轨迹点对其进行校准，具体方法为：首先将L_i.st视为代表轨迹点rp_s；再依次以参考轨迹段的轨迹点p_i+k(0≤k≤m)为圆心，以道路宽度d为半径，找出该区域内的所有轨迹点，并在这些轨迹点中筛选出与轨迹点p_i+k的方向夹角小于阈值thres_angle的轨迹点集合S_p，将S_p中轨迹点的平均位置点作为其代表轨迹点rp_i+k，其中阈值thres_angle设置较小值保证方向近似，在本发明中一般情况取10°，可根据不同轨迹选取不同的较小值参数。

为了保证提取的代表轨迹的平滑性，若当前代表轨迹点与前一代表轨迹点之间的距离小于平滑度阈值thres_smooth，则遍历跳过当前代表轨迹点。直到L_i.ed与当前轨迹点之间的距离小于平滑度阈值thres_smooth，将L_i.ed作为最后一个代表轨迹点rp_e，完成代表轨迹段的提取。其中阈值thres_smooth设置为GPS数据集中相邻轨迹点之间的平均采样距离，使用平均采样间隔可以反应出一般情况下轨迹的正常采样间隔，该参数可以根据不同轨迹的采样间隔进行调整。最后，使用代表轨迹段代替对应的较长采样间隔线段完成弱信号区域内采样缺失轨迹的恢复。

本发明还提出了一种非机动车骑行轨迹数据质量提升系统，所述系统包括：轨迹数据获取模块、低质量轨迹区域分割模块、异常轨迹点消除模块、徘徊轨迹段消除模块、逆行和/或违章轨迹段消除模块、漂移轨迹段校准模块、缺失轨迹段恢复模块、提升后轨迹数据输出模块；

所述轨迹数据获取模块用于采集获取车行轨迹数据和非机动车轨迹数据；

所述低质量轨迹区域分割模块用于基于GeoHash的单元划分方法将低质量轨迹区域分割成固定大小的网格，并对轨迹点建立GeoHash网格索引；

所述异常轨迹点消除模块用于基于近邻轨迹点的主方向与速度的轨迹噪声检测方法，识别转向异常点和速度异常点并予以消除；

所述徘徊轨迹段消除模块用于基于GeoHash网格和广度优先搜索(BFS)识别相较于较大范围时空近邻的徘徊轨迹段并消除；

所述逆行和/或违章轨迹段消除模块用于使用核密度估计和GeoHash网格对近邻轨迹进行分析，检测违章行驶轨迹段并消除；

所述消除轨迹段校准模块用于利用轨迹数据的正常采样间隔和漂移轨迹段与近邻轨迹移动行为的一致性检测漂移轨迹段，利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准；

所述缺失轨迹段恢复模块使用增量聚类方法对轨迹线段进行聚类以识别缺失轨迹所在区域，基于该区域的历史轨迹数据获取相似子轨迹，再采用基于最小距离和的拟合方法实现缺失轨迹的恢复；

所述提升后轨迹数据输出模块用于输出经数据质量提升后的非机动车骑行轨迹。

本发明还提出了上述的非机动车骑行轨迹的数据质量提升方法，上述的非机动车骑行轨迹数据质量提升系统在非机动车骑行轨迹的数据质量提升中的应用。

本发明具有以下有益效果：

1、本研究分析了非机动车骑行轨迹中存在的影响后续地图构建的数据质量问题，包括轨迹噪声中的异常轨迹点(方向噪声、速度噪声)和异常轨迹段(徘徊轨迹段、违章转向(包含逆行)轨迹段)、以及轨迹段漂移和轨迹缺失等。

2、针对非机动车骑行轨迹存在的数据质量问题，本发明提出了数据质量提升的六步骤框架，实现了异常数据与缺失数据的校准，进而为后续利用非机动车骑行数据推断骑行地图构建提供良好的数据基础。

3、本文使用真实轨迹数据，以非机动车数据的后续使用为标准，对质量提升方法进行了实验评估，实验结果验证了本文方法的有效性。

附图说明

图1是基于非机动车骑行轨迹的数据质量提升的框架图。

图2是本发明实施例中原始数据效果图。

图3是本发明实施例中完成数据质量提升后的效果图。

图4是本发明实施例中原始CITT预处理方法后的路口发现效果图。

图5是本发明实施例中基于本发明数据质量提升方法后的路口发现效果图。

图6是本发明实施例中原始TKDD预处理方法后的路口发现效果图。

图7是本发明实施例中同一区域的本发明数据质量提升后的路口发现效果图。

图8是本发明实施例中原始的SLC预处理后的道路生成效果图。

图9是本发明实施例中本发明数据质量提升后的道路生成效果图。

图10是本发明实施例中原始的Cao09预处理后的道路生成效果图。

图11是本发明实施例中本发明数据质量提升后的道路生成效果图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明提出了一种非机动车骑行轨迹数据的质量提升框架，如图1所示，针对前述提到的非机动车骑行轨迹存在的数据异常与缺失问题，本发明首先采集获取车行轨迹数据和非机动车轨迹数据，使用基于GeoHash的单元划分方法将低质量区域分割成固定大小的网格，并对轨迹点建立GeoHash网格索引以加速后续基于近邻范围的异常检测与数据恢复；再采用基于近邻轨迹点的主方向与速度的轨迹噪声检测方法，识别转向异常点和速度异常点并予以消除；并根据方向多变和低速特征，基于网格采用广度优先搜索(BFS)方法识别与较大范围时空近邻不同的徘徊轨迹段并消除；之后使用核密度估计和基于网格的近邻轨迹分析，检测违章行驶轨迹段并消除。再利用轨迹数据的平均采样间隔和漂移轨迹段与近邻轨迹移动行为的不一致性检测漂移轨迹段，利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准；最后根据近邻轨迹点间的平均采样间隔提取具有较长时间(或距离)间隔的轨迹线段，使用增量聚类方法对其进行聚类以识别缺失轨迹所在区域，基于该区域的历史轨迹数据获取相似子轨迹，再采用基于最小距离和的拟合方法实现缺失轨迹的恢复；最终输出经数据质量提升后的非机动车骑行轨迹。

如图1所示，本发明采用六步骤的数据质量提升方法，包括以下步骤：

S1：采集获取车行轨迹数据和非机动车轨迹数据，为加速后续基于近邻范围的异常检测与数据恢复，使用基于GeoHash的单元划分方法将异常骑行轨迹所在区域分割成固定大小的网格，并对轨迹点建立GeoHash网格索引。

实施例中，步骤S1具体包括：

为加速异常数据检测的近邻搜索效率，先使用基于GeoHash的网格单元划分方法将数据异常区域分割成固定大小的网格，随后对非机动车骑行轨迹数据中轨迹点的方向、相邻轨迹点间的方向变化与速度变化、相邻点之间采样时间差进行统计，在此基础上结合轨迹点所处的行程状态(例如“空闲”、“骑行中”、“骑行起点附近”、“到达骑行终点附近”等)信息形成轨迹点的衍生属性；最后对轨迹数据建立GeoHash网格索引。

GeoHash是一种地理编码算法，可以在O(1)时间复杂度下将GPS坐标按照不同的编码长度定位到不同大小的地理网格单元中，同时，对于不同GPS坐标对应的编码公共前缀其长度越长，所在位置则越近。考虑到车道宽度的国家标准为3.5米至3.75米，设置对应GeoHash编码长度为9(即对应网格单元长、宽均为4.8米)。

实施例中，步骤S2具体包括：

步骤2.1)轨迹分段：统计相邻轨迹点间的采样时间间隔，以整条非机动车轨迹数据中各轨迹点间的平均采样时间间隔Time_dis作为轨迹段划分的阈值(这里，设置Time_dis＝12秒进行实验)对轨迹分段。

步骤2.2)速度异常点消除：鉴于非机动车如电动自行车按照国家标准规定上限速度th_speed为6.95米/秒(即25公里/小时)，基于S1计算的轨迹点速度删除超过速度阈值th_speed的轨迹点。

步骤2.3)转向异常点消除：基于少数转向异常点与其大多数近邻轨迹点的方向差异特性，先用GeoHash网格查找待检测轨迹点的近邻；随后对近邻点按照方向将其划分到8个不同方向(与正北相差角度为

给定一个轨迹点p_i、预设的距离阈值th_dis、以及轨迹点集合P，GeoDis(p_i，p_j)表示p_i和p_j之间的实际地面距离，则p_i的近邻点定义为：Near(p_i)＝{p_j∈P|GeoDis(p_i，p_j)≤th_dis}。

近邻点的方向实质上是待检测轨迹点周围大多数轨迹点的正常方向，如果待检测轨迹点方向与之相差较大，则认为其方向存在异常，考虑到车道宽度为3.5米至3.7米，设置th_dis＝4米。

S3：根据方向多变和低速特征，基于GeoHash网格采用广度优先搜索(BFS)方法识别相比较大范围时空近邻不一样的徘徊轨迹段并消除。

实施例中，步骤S3具体包括：

非机动车骑行轨迹的徘徊轨迹段位于非机动车行程所涉及的非道路区域，例如居民区、商圈等，该类区域是大量状态为“到达骑行终点附近”的轨迹点所在区域，同时，徘徊轨迹段常伴有方向多变且速度相对于正常骑行轨迹速度较低等特性。

根据上述特性，首先采用广度优先搜索(BFS)方法搜索待检测轨点的近邻点，考虑到非道路区域相比道路区域具有轨迹稀疏性，设置近邻点距离阈值(这里取th_dis＝8米进行实验)以提取更多的近邻轨迹点；

基于得到的近邻点，统计其中状态为“到达骑行终点附近”的轨迹点的数量占比，当占比超过状态为“骑行中”轨迹点数量的占比时，将该区域视为与非机动车骑行相关的热门非道路区域，如果一段轨迹连续多个轨迹点位于热门非道路区域，将其视为候选徘徊轨迹段；

统计候选徘徊轨迹段内轨迹点的方向并将其划分到8个方向类中，考虑到道路骑行轨迹可能偶发转向行为以及转向前后骑行方向不变的特性，如果徘徊轨迹段内轨迹点的方向超过2个方向类、且不同类轨迹点根据采样时间顺序存在位置交叉关系，同时该候选徘徊轨迹段内轨迹点平均速度低于道路骑行平均速度(这里设置V＝4.0米/秒进行实验)，则判断其为徘徊轨迹段予以删除。

S4：使用核密度估计和基于GeoHash网格的近邻轨迹分析，检测违章行驶轨迹段并消除。

实施例中，步骤S4具体包括：

非机动车限行道路区域的轨迹消除：鉴于网格内轨迹点密度的稀疏性会影响车行区域计算的平滑性，利用核密度估计方法平滑计算各网格单元内的骑行轨迹与(汽车)车行轨迹密度，根据车行区域内轨迹密度应显著高于骑行轨迹密度的特性判定其属于限行区域的网格单元。

基于上述步骤识别的限行区域网格单元，对骑行轨迹进行遍历，当相邻轨迹点连接形成线段覆盖的限行区域网格单元的占比超过阈值th_prop(设置占比阈值th_prop为0.1以保证限行区域内骑行轨迹与车行轨迹的显著差异)，判断该线段为异常轨迹段；当异常轨迹段存在连续轨迹点间长度超过距离阈值dis_len(以选定时间平均采样间隔与骑行限速的乘积设置距离阈值dis_len＝84米)时，判定为异常行驶轨迹段并消除。

逆行/违规转向轨迹段消除：考虑到逆行和违规转向轨迹段与其大多数近邻轨迹点在方向以及方向变化上均存在较大差异，故先通过范围提取待检测轨迹点的近邻点，并将近邻点根据方向与方向变化划分到8个方向类中；

当近邻点的方向大致相同时(以大多数近邻点的方向为主方向，设置不属于主方向的方向占比阈值th_prop为0.1)，判定该轨迹点所在道路为单向道；若当前轨迹点方向与主方向相反(即与主方向差距为180度的方向)，判定该轨迹点存在逆行行为。若连续轨迹点序列中不存在逆行行为的轨迹点占比低于设定的阈值(这里取阈值th_prop为0.1进行实验)，则认为该轨迹点序列为逆行轨迹段将其消除；

当轨迹点方向不属于近邻点主方向，且其方向变化不同于其近邻轨迹点的方向变化时(取不属于主方向变化的占比阈值th_prop为0.1进行实验)，则认为该点存在违规转向行为；当连续轨迹点的序列其方向属于主方向的占比低于阈值(取阈值th_prop为0.1进行实验)且存在违规转向行为的轨迹点时，则认为该轨迹点序列存在违规转向行为应予以消除。

S5：利用轨迹数据的平均采样间隔和漂移轨迹段与近邻轨迹移动行为的不一致性检测漂移轨迹段，利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准。

实施例中，步骤S5具体包括：

步骤5.1)给出定义：给定轨迹点对(p_s，p_e)和一条轨迹Tr＝{p₁，p₂，...，p_n}，当满足以下条件时，认为Tr的子轨迹

是轨迹点对(p_s，p_e)的相似轨迹段：

(2)p_s与p_i间的距离dis(p_s，p_i)＜β且dis(p_e，p_i+m)＜β(β＞0)，β是用于搜索给定轨迹点近邻的距离阈值，β＝min(dis(p_s，p_e)/2，β)；

(3)令△t＝p_e.time-p_s.time，max(0，(1-α₁)*△t)＜p_z+m.time-p_i，time＜(1+α₁)*△t，其中α₁为调节参数，此处将其设为0.5。

步骤5.2)漂移轨迹段识别：给定一条轨迹Tr＝{p₁，p₂，...，p_n}，当存在漂移轨迹段

时，表现为

内所有轨迹点均远离Tr中其他近邻轨迹点，但

是否为漂移轨迹段：

(1)dis(p_i，p_i-1)＞(1+α₂)*avg_dis且dis(p_i+m，p_i+m+1)＞(1+α₂)*avg_dis，其中avg_dis表示两个连续轨迹点间的平均采样距离，α₂为调节参数，此处将其设为0.5；

(2)(1-α₂)*avg_dis＜dis(p_i+k，p_i+k+1)＜(1+α₂)*avg_dis(0≤k≤m-1)；

(3)(1-α₃)*avg_si)＜(p_i+k-1.time-p_i+k.time)＜(1+α₃)*avg_si(0≤k≤m+1)，其中avg_si表示数据集的平均采样间隔，α₃为调节参数，在本发明中设为0.5。

步骤5.3)漂移轨迹段校准：考虑到漂移轨迹段相对于移动对象的整条轨迹而言只是其中一段，采用基于最长公共子序列(LCSS：Longest Common Subsequence)的相似性度量方法查找与存在漂移轨迹段的轨迹相似度最高的k条轨迹(这里，设置k＝20)。为评测其他轨迹与漂移轨迹的相似性，使用两条轨迹最长公共子序列的点数与该轨迹所有轨迹点数量的占比作为衡量值。随后，根据步骤5.1)的定义，以漂移轨迹段

的每个轨迹点p_z+k(0≤k≤m)转换地理位置得到

继而获得转换后的新轨迹段

位置转换公式如下：

采用Fréchet距离度量

与每条相似轨迹段之间的距离，将距离最小的轨迹段

视为代表轨迹段，并使用代表轨迹段替换对应的漂移轨迹段以实现校准。

S6：根据近邻轨迹点间的平均采样间隔提取具有较长时间(或距离)间隔的轨迹线段，使用增量聚类方法对其进行聚类以识别缺失轨迹所在区域，基于该区域的历史轨迹数据获取相似子轨迹，再采用基于最小距离和的拟合方法实现缺失轨迹的恢复。

实施例中，步骤S6具体包括：

步骤6.1)给出定义：给定轨迹Tr＝{p₁，p₂，...，p_n}，较长采样间隔轨迹段L_i＝(pi，p_i+1)是满足以下条件的两个连续轨迹点连接形成的线段：

(1)dis(p_i，p_i+1)＞(1+α₂)*avg_dis，其中avg_dis表示两个连续轨迹点之间的平均采样距离间隔，α₂为距离约束的调节参数，此处，将其设为0.5_；

(2)(p_i+1.time-p_i.time)＞(1+α₄)*avg_si，其中avg_si表示平均采样时间间隔，α₄为调节参数，此处，将其设为2。

步骤6.2)弱信号区域的识别：

由于部分区域定位信号弱，存在连续轨迹点间时间/距离远大于平均采样时间间隔/平均采样距离间隔的情况，称之为较长采样间隔线段。根据步骤6.1)的定义检测发现较长采样间隔线段，再对其进行增量聚类以定位信号弱的区域。该方法先维护一个较长采样间隔线段簇的集合，当检测到一条较长采样间隔线段L_i时，通过计算L_i与现有较长采样间隔线段簇的代表轨迹之间的距离，搜索距离L_i最近的较长采样间隔线段簇(满足L_i与其的距离小于指定阈值β)，将L_i插入该簇并重新计算所在簇的代表轨迹；如未找到，将L_i单独作为一个簇，其中β的值按照公式min(lc.length/2，β)计算得到。较长采样间隔线段簇C_k的代表轨迹的起点lc_s和终点lc_e由以下公式计算得到，C_k.num表示该簇的线段数：

线段之间的距离采用基于线段的豪斯多夫距离方法，该方法结合平行距离、垂直距离和角距离等对线段之间的距离进行评测。

当较长采样间隔线段簇的数量超过内存所能保存的最大数量m时，合并两个距离最近的簇。当C_k.num大于预设阈值thres_num(thres_num这里设置为10)时，将该簇所在区域视为弱信号区域。

步骤6.3)弱信号区域内缺失轨迹恢复：

针对弱信号区域内的缺失轨迹，以位于这些区域的较长采样间隔线段的两个端点(L_i.st、L_i.ed)为查询点，根据步骤5.1)的定义，从历史轨迹中提取相似轨迹段集合。分别计算相似轨迹段集合中轨迹段之间的Fréchet距离，找出与其相似轨迹段之间距离之和最小的轨迹段

将其作为参考轨迹段。

考虑到基于距离得到的参考轨迹段具有不稳定性，使用参考轨迹段附近的轨迹点对其进行校准，具体方法为：首先将L_i.st视为代表轨迹点rp_s；然后依次以参考轨迹段的轨迹点p_i+k(0≤k≤m)为圆心，以道路宽度d为半径，找出该区域内的所有轨迹点，并在这些轨迹点中筛选出与轨迹点p_i+k的方向夹角小于阈值thres_angle的轨迹点集合S_p(thres_angle设置为10度)，将S_p中轨迹点的平均位置点作为其代表轨迹点rp_i+k。

为了保证提取的代表轨迹的平滑性，若当前代表轨迹点与上一个代表轨迹点之间的距离小于平滑度阈值thres_smooth(这里将其设置为30米)，则遍历跳过当前代表轨迹点。直到L_i.ed与当前轨迹点之间的距离小于平滑度阈值thres_smooth，将L_i.ed作为最后一个代表轨迹点rp_e，完成代表轨迹段的提取。最后，使用代表轨迹段代替对应的较长采样间隔线段完成弱信号区域内采样缺失轨迹的恢复。

最终获得并输出经数据质量提升后的非机动车骑行轨迹。

为验证本发明的有效性，选取真实轨迹数据进行数据质量提升，如图2所示为原始数据效果图，如图3所示为完成数据质量提升后的效果图，轨迹质量得到了明显提升；并基于公开的骑行路网，与现有地图推断应用的预处理方法进行对比评估；选取的方法包括路口发现方法的CITT和Huang19，如图4所示为原始CITT预处理方法后的路口发现效果图，如图5所示为基于本发明数据质量提升方法后的路口发现效果图，热门区域内的徘徊轨迹被明显消除，如图6所示为原始TKDD预处理方法后的路口发现效果图，如图7所示为同一区域的本发明数据质量提升后的路口发现效果图，噪声轨迹被大量消除；选取的道路生成方法包括SLC和Cao09，如图8所示为原始的SLC预处理后的道路生成效果图，如图9所示为本发明数据质量提升后的道路生成效果图，生成的路网缺失情况减少且热门区域内的徘徊轨迹段不影响路网生成，如图10所示为原始的Cao09预处理后的道路生成效果图，如图11所示为本发明数据质量提升后的道路生成效果图，生成的路网冗余情况明显减少；并选取路口发现的评价指标Precision(精确率)、Recall(召回率)、F-score进行量化评估，其中真实位置从OSM路网数据中获得，L_truth表示真实路口数量，L_detect表示检测到的路口数量，L_corr表示正确识别的路口数量。F-score值越高表示性能越好，精确率、召回率、F-score分别定义如下：

对比评估效果如表1所示，使用本发明数据质量提升后路口发现方法的Precision、Recall和F-score，都有一定程度提升；选取的道路生成的评价指标有CMP(正确匹配百分比)、AL(匹配的长度)、AN(匹配的数量)，对比评估效果如表2所示，使用本发明数据质量提升后道路生成的CMP、AL、AN也都相对原方法有一定程度提升。

表1基于路口发现应用的预处理效果对比表

表2基于道路生成应用的预处理效果对比表

综上所述，本发明综合采用GeoHash地理空间索引技术、轨迹异常检测方法、范围查找技术、核密度估计、轨迹相似性度量方法和增量聚类等技术，形成了一种非机动车骑行轨迹的数据质量提升方法，以处理非机动车骑行轨迹数据中存在的轨迹异常和定位信号缺失问题，为非机动车骑行地图推断提供有效的数据基础。

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种非机动车骑行轨迹的数据质量提升方法，其特征在于，包含以下步骤：

S1：采集获取车行轨迹数据和非机动车轨迹数据，使用基于GeoHash的单元划分方法将低质量轨迹区域分割成固定大小的网格，并对轨迹点建立GeoHash网格索引；

S2：采用基于近邻轨迹点的主方向与速度的轨迹噪声检测方法，识别转向异常点和速度异常点并予以消除；

S3：根据方向多变和低速特征，基于GeoHash网格和广度优先搜索方法识别方向、速度区别于时空近邻的徘徊轨迹段并消除；

S4：使用核密度估计方法和GeoHash网格对近邻轨迹进行分析，检测并消除违章行驶轨迹段；

S5：根据轨迹数据的平均采样间隔以及漂移轨迹段与近邻轨迹移动行为的一致性检测漂移轨迹段，利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准；

S6：根据近邻轨迹点间的平均采样间隔提取具有较长时间或距离间隔的轨迹线段，使用增量聚类方法对轨迹线段进行聚类以识别缺失轨迹所在区域，基于该区域的历史轨迹数据获取相似子轨迹，再采用基于最小距离和的拟合方法实现缺失轨迹的恢复；

S7：输出经数据质量提升后的非机动车骑行轨迹。

2.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法，其特征在于，所述步骤S1具体包括：

使用基于GeoHash的网格单元划分方法将数据异常区域分割成固定大小的网格，随后对骑行轨迹数据中轨迹点的方向和速度、邻接轨迹点间的方向变化与速度变化、邻接轨迹点之间采样时间差进行计算，在此基础上结合轨迹点所处的行程状态形成轨迹点的衍生属性；最后对轨迹数据建立GeoHash网格索引；所述数据异常区域是指包括有热门骑行区域的徘徊轨迹段、违章转向或逆行轨迹段、信号漂移轨迹段以及信号缺失轨迹段的区域。

3.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法，其特征在于，所述步骤S2具体包括：

步骤2.1、轨迹分段：统计邻接轨迹点间的采样时间间隔，以整条非机动车轨迹数据中各轨迹点间的平均采样时间间隔Time_dis作为轨迹段划分的阈值对轨迹分段；

步骤2.2、速度异常点消除：删除轨迹点速度超过速度阈值th_speed的轨迹点；所述速度阈值为骑行使用的非机动车按照国家标准规定上限速度th_speed为6.95米/秒；所述轨迹点速度的计算方法为分段前轨迹点与其前后相邻轨迹点的距离和/分段前轨迹点与其前后相邻轨迹点的采样时间差的和；

步骤2.3、转向异常点消除：基于少数转向异常点与其大多数近邻轨迹点的方向差异特性，先用GeoHash网格查找待检测轨迹点的近邻；随后对近邻点按照方向将其划分到8个不同方向类中；考虑道路有单向/双向道，若待检测轨迹点的方向不属于近邻点中数量最多的两个方向，则将其视为转向异常点予以删除。

4.根据权利要求3所述的一种非机动车骑行轨迹的数据质量提升方法，其特征在于，所述近邻点定义如下：

给定一个轨迹点p_i，预设的距离阈值th_dis，以及轨迹点集合P，GeoDis(p_i，p_j)表示p_i和p_j之间的实际地面距离，则p_i的近邻点定义为：Near(p_i)＝{p_j∈P|GeoDis(p_i，p_j)≤th_dis}；所述距离阈值的设置与车道的宽度有关，为车道宽度的100％到120％；

近邻点的方向代表了待检测轨迹点周围大多数轨迹点的主要方向，如果待检测轨迹点方向与之相差较大，则认为其方向异常。

5.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法，其特征在于，所述步骤S3具体包括：

首先基于广度优先搜索方法，搜索待检测轨迹点的近邻点，考虑到非道路区域相较于道路区域的轨迹稀疏特性，通过设置两倍车道宽度的近邻点距离阈值以提取更多的近邻轨迹点；

基于得到的近邻点，统计其中状态为“到达骑行终点附近”的轨迹点的数量占比，当占比超过状态为“骑行中”轨迹点数量的占比时，将该区域视为与非机动车骑行相关的热门非道路区域，如果一段轨迹中连续多个轨迹点位于所述热门非道路区域，将其视为候选徘徊轨迹段；所述徘徊轨迹段方向多变且速度相对于正常骑行轨迹速度低；

统计候选徘徊轨迹段内轨迹点的方向并将其划分到8个方向类中，考虑到道路骑行轨迹具有偶发转向行为以及转向前后骑行方向不变的特性，如果徘徊轨迹段内轨迹点的方向超过2个方向类，不同类轨迹点根据采样时间顺序存在位置交叉关系，同时该候选徘徊轨迹段内轨迹点平均速度低于道路骑行平均速度，则判断其为徘徊轨迹段将其删除。

6.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法，其特征在于，所述步骤S4具体包括：

非机动车限行道路区域的轨迹消除：鉴于网格中轨迹点密度的稀疏性会影响车行区域计算的平滑性，利用核密度估计方法来平滑计算各网格单元内的骑行轨迹与汽车车行轨迹密度，根据车行区域内轨迹密度应高于骑行轨迹密度的特性判定其是否属于限行区域的网格单元；

基于上述步骤识别的限行区域网格单元，对骑行轨迹进行遍历，当相邻轨迹点连接形成线段所覆盖的限行区域网格单元的占比超过阈值th_prop，判断该线段为异常轨迹段；当异常轨迹段存在连续轨迹点间长度超过距离阈值dis_len时，判定其为异常行驶轨迹段并消除；所述距离阈值dis_len通过平均采样时间间隔与骑行限速的乘积获得；

逆行/违规转向轨迹段消除：考虑到逆行、违规转向轨迹段与其大多数近邻轨迹在方向以及方向变化上均存在差异，故先通过范围搜索待检测轨迹点的近邻点，并将近邻点根据方向与方向变化划分到8个方向类中；

当待检测点与近邻点的主方向相同时，判定该点所处道路为单向道；若待检测点方向与主方向相反，判定该点存在逆行行为；若连续轨迹点序列中不存在逆行行为的轨迹点占比低于设定的阈值，则认为该轨迹点序列为逆行轨迹段予以消除；

当轨迹点方向不属于近邻点主方向，且其方向变化不同于其近邻轨迹点的方向变化时，则认为该点存在违规转向行为；当连续轨迹点的序列其方向属于主方向的占比低于阈值且存在违规转向行为的轨迹点，则认为该轨迹点序列存在违规转向行为应予以消除。

7.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法，其特征在于，所述步骤S5具体包括：

步骤5.1、给出定义：给定轨迹点对(p_s，p_e)和一条轨迹Tr＝{p₁，p₂，...，p_n}，当满足以下条件时，Tr的子轨迹

是轨迹点对(p_s，p_e)的相似轨迹段，1＜i，i+m＜n：

(2)p_s与p_i间的距离dis(p_s，p_i)＜β且p_e与p_i+m间的距离dis(p_e，p_i+m)＜β，β＞0，β是用于搜索给定轨迹点近邻的距离阈值，β＝min(dis(p_s，p_e)/2，β)；β的初始值根据平均采样间隔与骑行限速的乘积设置，且要求β＝min(dis(p_s，p_e)/2，β)；

(3)令△t＝p_e.time-p_s.time，max(0，(1-α₁)*△t)＜p_i+m.time-p_i，time＜(1+θ₁)*△t，其中α₁为调节参数，其取值范围为[0，1]；time是采样时间戳；

时，1＜i，i+m＜n，表现为

内所有轨迹点均远离Tr中其他近邻轨迹点，但

内轨迹点间采样间隔保持不变；按照以下条件判定轨迹Tr的子轨迹

是否为漂移轨迹段：

(1)p_i与p_i-1间的距离dis(p_i，p_i-1)＞(1+α₂)*avg_dis且p_i+m+1与p_i+m间的距离dis(p_i+m，p_i+m+1)＞(1+α₂)*avg_dis，其中avg_dis表示两个连续轨迹点间的平均采样距离，α₂为调节参数，其取值范围为[0，1]；time是采样时间戳；

(2)(1-α₂)*avg_dis＜dis(p_i+k，p_i+k+1)＜(1+α₂)*avg_dis，0≤k≤m-1；

(3)(1-α₃)*avg_si)＜(p_i+k-1.time-p_i+k.time)＜(1+α₃)*avg_si，0≤k≤m+1；其中avg_si表示数据集的平均采样间隔，α₃为调节参数，其取值范围为[0，1]；time是采样时间戳；

步骤5.3、漂移轨迹段校准：考虑到漂移轨迹段相对于移动对象的整条轨迹而言只是其中一段，采用基于最长公共子序列的相似性度量方法查找与存在漂移轨迹段的轨迹相似度最高的k条轨迹；为评测其他轨迹与漂移轨迹的相似性，使用两条轨迹最长公共子序列的点数与该轨迹所有轨迹点数量的占比作为评测值；随后，根据步骤5.1的定义，以漂移轨迹段

的前序轨迹点p_i-1和后续轨迹点p_i+m+1作为查询点对，从相似性最高的k条轨迹中提取与漂移轨迹的相似轨迹段集合；

漂移轨迹段的形态与真实轨迹相似；因此，先将漂移轨迹段

的每个轨迹点p_i+k转换地理位置得到

从而获得转换后的新轨迹段

采用Fréchet距离度量

与每条相似轨迹段之间的距离，将距离最小的轨迹段

8.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法，其特征在于，所述步骤S6具体包括：

(1)dis(p_i，p_i+1)＞(1+α₂)*avg_dis，其中avg_dis表示两个连续轨迹点之间的平均采样距离间隔，α₂为距离约束的调节参数，其取值范围为[0，1]；

(2)(p_i+1.time-p_i.time)＞(1+α₄)*avg_si，其中avg_si表示平均采样时间间隔，α₄为调节参数，其取值范围为[0，+∞]；

步骤6.2、弱信号区域的识别：

将连续轨迹点间时间和/或距离远大于平均采样时间间隔/平均采样距离间隔的线段称为为较长采样间隔线段；根据步骤6.1的定义检测发现较长采样间隔线段，再对其进行增量聚类以定位信号弱的区域；先维护一个较长采样间隔线段簇的集合，当检测到一条较长采样间隔线段L_i时，通过计算L_i与现有较长采样间隔线段簇的代表轨迹之间的距离，搜索距离L_i最近的较长采样间隔线段簇，满足L_i与较长采样间隔线段簇的距离小于指定阈值β，将L_i插入该簇并重新计算所在簇的代表轨迹；如未找到，将L_i单独作为一个簇，其中β的值按照公式min(lc.length/2，β)计算得到；较长采样间隔线段簇C_k的代表轨迹的起点lc_s和终点lc_e由以下公式计算得到，C_k.num表示该簇的线段数：

L_i.st表示较长采样间隔线段的起始端点、L_i.ed表示较长采样间隔线段的终止端点；

线段之间的距离采用基于线段的豪斯多夫距离方法，所述豪斯多夫距离方法结合平行距离、垂直距离和角距离等对线段之间的距离进行评测；

当较长采样间隔线段簇的数量超过内存能保存的最大数量m时，合并两个距离最近的簇，当C_k.num大于预设阈值thres_num时，将该簇所在区域视为弱信号区域；所述阈值thres_num设置为该区域内所有较长采样间隔线段簇中线段的平均数量；

步骤6.3、弱信号区域内的缺失轨迹恢复：

针对弱信号区域内的缺失轨迹，以位于这些区域的较长采样间隔线段的两个端点(L_i.st、L_i.ed)为查询点，根据步骤5.1的定义，从历史轨迹中提取相似轨迹段集合，分别计算相似轨迹段集合中轨迹段之间的Fréchet距离，找出与其相似轨迹段之间距离和最小的轨迹段

将其作为参考轨迹段；

考虑到基于距离计算得到的参考轨迹段具有不稳定性，使用参考轨迹段附近的轨迹点对其进行校准，具体方法为：首先将L_i.st视为代表轨迹点rp_s；然后依次以参考轨迹段的轨迹点p_i+k为圆心，0≤k≤m，以道路宽度d为半径，找出该区域内的所有轨迹点，并在这些轨迹点中筛选出与轨迹点p_i+k的方向夹角小于阈值thres_angle的轨迹点集合S_p，将S_p中轨迹点的平均位置点作为其代表轨迹点rp_i+k；

为了保证提取的代表轨迹的平滑性，若当前代表轨迹点与上一个代表轨迹点之间的距离小于平滑度阈值thres_smooth，则遍历跳过当前代表轨迹点；直到L_i.ed与当前轨迹点之间的距离小于平滑度阈值thres_smooth，将L_i.ed作为最后一个代表轨迹点rp_e，完成代表轨迹段的提取；最后，使用代表轨迹段代替对应的较长采样间隔线段完成弱信号区域内采样缺失轨迹的恢复。

9.一种实现如权利要求1-8之任一项所述的非机动车骑行轨迹数据质量提升方法的非机动车骑行轨迹数据质量提升系统，所述系统包括：轨迹数据获取模块、低质量轨迹区域分割模块、异常轨迹点消除模块、徘徊轨迹段消除模块、逆行和/或违章轨迹段消除模块、漂移轨迹段校准模块、缺失轨迹段恢复模块、提升后轨迹数据输出模块；

10.如权利要求1-8之任一项所述的非机动车骑行轨迹的数据质量提升方法，如权利要求9所述的非机动车骑行轨迹数据质量提升系统在非机动车骑行轨迹的数据质量提升中的应用。