CN115310522A - 一种非机动车骑行轨迹的数据质量提升方法及系统 - Google Patents
一种非机动车骑行轨迹的数据质量提升方法及系统 Download PDFInfo
- Publication number
- CN115310522A CN115310522A CN202210842913.2A CN202210842913A CN115310522A CN 115310522 A CN115310522 A CN 115310522A CN 202210842913 A CN202210842913 A CN 202210842913A CN 115310522 A CN115310522 A CN 115310522A
- Authority
- CN
- China
- Prior art keywords
- track
- points
- point
- segment
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种非机动车骑行轨迹的数据质量提升方法,所述方法首先采集获取车行轨迹数据和非机动车轨迹数据,将低质量轨迹区域分割成固定大小的网格,并对轨迹点建立网格索引;识别并消除转向异常点和速度异常点、徘徊轨迹段、逆行/违章行驶轨迹段,对漂移轨迹段进行校准,对缺失轨迹进行恢复;最终输出经数据质量提升后的非机动车骑行轨迹。本发明还公开了实现上述非机动车骑行轨迹的数据质量提升方法的系统以及所述方法和/或系统在非机动车骑行轨迹的数据质量提升中的应用。本发明能够解决非机动车骑行轨迹数据中存在的轨迹异常和定位信号缺失问题,为利用非机动车骑行数据推断骑行地图提供了良好的数据基础。
Description
技术领域
本发明属于轨迹挖掘技术领域,具体涉及一种非机动车骑行轨迹的数据质量提升方法及系统。
背景技术
随着非机动车保有量的大规模增加,非机动车相关的服务蓬勃发展且已进入到快速成长期。为方便快捷地到达目的地,人们常以非机动车作为交通工具。由于缺少专业精准的非机动车骑行导航地图,骑行时常常进入非机动车限行区域;此外,骑行时依赖更新不及时的两轮车导航软件提供的线路前往目的地,时有发生误入深山、林区等事件。构建并及时更新非机动车骑行地图能保证高效的骑行线路规划、提升非机动车骑行体验感。非机动车相关服务的迅猛增长积累了海量的非机动车骑行轨迹数据,它们与对应产生的行程、车辆、基准路网等数据,为骑行地图的推断提供了数据基础。然而,由于定位设备误差、非机动车骑行习惯等因素的影响,骑行轨迹数据集中存在大量异常数据以及定位信息缺失的情况,使非机动车骑行地图的推断面临严峻的挑战。因此,亟需设计一种面向非机动车骑行地图构建的数据质量提升方法。
据观察,非机动车骑行轨迹中除了轨迹数据普遍存在的方向、速度噪声以外,还存在热门骑行区域的徘徊轨迹段、违章转向(逆行)轨迹段、信号漂移轨迹段以及信号缺失轨迹段等数据异常。其中,徘徊轨迹段常见于非道路区域,伴有方向多变与低速行驶的现象;违章骑行轨迹则以非转向区域的转向以及逆行事件呈现,它们为道路拓扑的精准提取带来一定程度的干扰,需要及时发现并消除。信号漂移与缺失轨迹段常发生在信号薄弱区域,需要利用历史轨迹数据对漂移行为进行有效识别以及基于稀疏数据对缺失轨迹进行恢复。
发明内容
本发明所要解决的技术问题是针对非机动车骑行轨迹存在的数据异常与缺失、以及已有的基于汽车轨迹数据的预处理方法不能直接用于提升非机动车骑行轨迹质量等问题,提出了一种非机动车骑行轨迹的数据质量提升方法及系统,该方法能够处理非机动车骑行轨迹数据中存在的轨迹异常和定位信号缺失问题,为非机动车骑行地图推断提供有效的数据基础。
为实现上述技术目的,本发明采取的技术方案为:
一种非机动车骑行轨迹的数据质量提升方法,包含以下步骤:
S1:采集获取车行轨迹数据和非机动车轨迹数据,为加速后续基于近邻范围的异常检测与数据恢复,使用基于GeoHash的单元划分方法将低质量轨迹区域分割成固定大小的网格,并对轨迹点建立GeoHash网格索引。
S2:采用基于近邻轨迹点的主方向与速度的轨迹噪声检测方法,识别转向异常点和速度异常点并予以消除。
S3:根据方向多变和低速特征,基于GeoHash网格和广度优先搜索(BFS)识别相较于较大范围时空近邻的徘徊轨迹段并消除。
S4:使用核密度估计和GeoHash网格对近邻轨迹进行分析,检测违章行驶轨迹段并消除。
S5:利用轨迹数据的正常采样间隔和漂移轨迹段与近邻轨迹移动行为的一致性检测漂移轨迹段,利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准。
S6:根据近邻轨迹点间的平均采样间隔提取具有较长时间(或距离)间隔的轨迹线段,使用增量聚类方法对轨迹线段进行聚类以识别缺失轨迹所在区域,基于该区域的历史轨迹数据获取相似子轨迹,再采用基于最小距离和的拟合方法实现缺失轨迹的恢复;
S7:输出经数据质量提升后的非机动车骑行轨迹。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤S1中,轨迹点的采样间隔和相邻轨迹点之间的距离的信息来源于原始轨迹自身。
所述步骤S1具体包括:
为加速异常数据检测的近邻搜索效率,先使用基于GeoHash的网格单元划分方法将数据异常区域(低质量轨迹区域)分割成固定大小的网格,网格大小的划分与后续查询的范围有关,应尽量与查询范围相当,而后续查询基于轨迹点近邻范围内轨迹点,考虑属于同一车道内的性质较为相同,则查询范围应略大于车道以保证同车道内轨迹点进入查询范围;所述查询范围为车道宽度的100-120%。随后对骑行轨迹数据中轨迹点的方向和速度、相邻轨迹点间的方向变化与速度变化、相邻轨迹点之间采样时间差进行计算,在此基础上结合轨迹点所处的行程状态(所述行程状态是获得轨迹时候同时获得的自带属性,例如、“空闲”、“骑行中”、“骑行起点附近”、“到达骑行终点附近”等)信息形成轨迹点的衍生属性;最后对轨迹数据建立以对应GeoHash值为关键词的网格索引,这里的GeoHash通过将经纬度转换为字符串,然后用字符串作为一维索引连接对应轨迹信息。网格索引的关键词就是GeoHash,每个GeoHash对应一个地理范围,对应一个网格区域。
其中,所述数据异常区域或低质量轨迹区域是指包括有热门骑行区域的徘徊轨迹段、违章转向(逆行)轨迹段、信号漂移轨迹段以及信号缺失轨迹段等低质量轨迹情况的区域;所述轨迹点的衍生属性(即信息)包括轨迹点的方向,方向变化,速度,速度变化,与相邻轨迹点之间的采样时间差,行程状态等。
GeoHash是一种地理编码算法,可以在O(1)时间复杂度下将GPS坐标按照不同的编码长度定位到不同大小的地理网格单元中,同时,对于不同GPS坐标对应的编码公共前缀,其长度越长,所在位置则越近。考虑到车道宽度的国家标准为3.5米至3.75米,设置对应geohash编码长度为9(即对应网格单元长、宽均为4.8米),geohash的长度为正整数值,编码长度即geohash值编码长度每增加1,对应的网格面积缩小为原来的32分之1,长度越长则对应网格范围越小。具体为先把经纬度按照二分法转换为2进制编码,然后按照偶数位放经度,奇数位放纬度进行整合。再把整合后的二进制5个一组转换为10进制,最后根据Base32表转换为字符串。其中Base32表可使用32个字符对任意字节数据进行编码。
上述的步骤S2具体包括:
步骤2.1、轨迹分段:统计相邻轨迹点间的采样时间间隔,以整条非机动车轨迹数据中各轨迹点间的平均采样时间间隔Timedis作为轨迹段划分的阈值对轨迹分段。
步骤2.2、速度异常点消除:鉴于骑行使用的非机动车按照国家标准规定上限速度thspeed为6.95米/秒(即25公里/小时),删除轨迹点速度超过速度阈值thspeed的轨迹点;轨迹点的速度的计算方法为分段前轨迹点与其前后相邻轨迹点的距离和/分段前轨迹点与其前后相邻轨迹点的采样时间差的和。
步骤2.3、转向异常点消除:基于少数转向异常点与其大多数近邻轨迹点的方向差异特性,先用GeoHash网格查找待检测轨迹点的近邻;随后对近邻点按照方向将其划分到8个不同方向(与正北相差角度为的8个方向)类中;考虑道路有单向/双向道,如待检测轨迹点的方向不属于轨迹点数量最多的两个方向,则将其视为转向异常点予以删除,其中,近邻点定义如下:
给定一个轨迹点pi,预设的距离阈值thdis,以及轨迹点集合P,GeoDis(pi,pj)表示pi和pj之间的实际地面距离,则pi的近邻点定义为:Near(pi)={pj∈P|GeoDis(pi,pj)≤thdis};所述距离阈值的设置与车道的宽度有关,一般会比车道宽度略宽,大体相当于车道宽度的100%到120%;
近邻点的方向代表了待检测轨迹点周围大多数轨迹点的正常方向,如果待检测轨迹点方向与之相差较大,则认为其方向存在异常,考虑到车道宽度为3.5米至3.7米,在实际使用时,可以设置thdis=4米。
上述的步骤S3具体包括:
非机动车骑行轨迹的徘徊轨迹段位于骑行行程所涉及的非道路区域,例如居民区、商圈,该类区域是大量状态为“到达骑行终点附近”的轨迹点所在区域,同时,徘徊轨迹段常伴有方向多变且速度相对于正常骑行轨迹速度较低等行为。
根据这些特性,首先基于广度优先搜索(BFS),搜索待检测轨迹点的近邻点,考虑到非道路区域相较于道路区域的轨迹稀疏特性,这里设置较大的近邻点距离阈值(设置为两倍车道宽度,一般为8米),以提取更多的近邻轨迹点;
基于得到的近邻点,统计其中状态为“到达骑行终点附近”的轨迹点的数量占比,当占比超过状态为“骑行中”轨迹点数量的占比时,将该区域视为与非机动车骑行相关的热门非道路区域,如果一段轨迹中连续多个轨迹点位于上述热门非道路区域,将其视为候选徘徊轨迹段;
统计候选徘徊轨迹段内轨迹点的方向并将其划分到8个方向类中,考虑到道路骑行轨迹可能偶发转向行为以及转向前后骑行方向不变的特性,如果徘徊轨迹段内轨迹点的方向超过2个方向类、且不同类轨迹点根据采样时间顺序存在位置交叉关系,同时该候选徘徊轨迹段内轨迹点平均速度低于道路骑行平均速度,则判断其为徘徊轨迹段予以删除。
上述的步骤S4具体包括:
S4中的违章行驶轨迹段包括逆行转向轨迹段、违规转向轨迹段;非机动车限行道路区域的轨迹消除:鉴于网格下轨迹点密度的稀疏性会影响车行区域计算的平滑性,利用核密度估计方法来平滑计算各网格单元内的骑行轨迹与(汽车)车行轨迹密度,根据车行区域内轨迹密度应显著高于骑行轨迹密度的特性判定轨迹区域中属于限行区域的网格单元。
所述核密度估计方法是指对一定范围内的网格密度加权求和来平滑表示当前网格密度的非参数估计方法,其中权重由近邻网格与当前网格的距离通过高斯核函数计算得到,函数形式如下所示:
其中,x为当前网格的历史轨迹流量,x′为近邻网格的历史轨迹流量,σ为核函数的窗宽,即对应车道宽度(单位米)。
基于上述步骤识别的限行区域网格单元,对非机动车骑行轨迹进行遍历,当相邻轨迹点连接形成线段覆盖的限行区域网格单元的占比超过阈值thprop(设置较小占比阈值thprop以保证限行区域内骑行轨迹与车行轨迹的显著差异,取为0.1),判断该线段为异常轨迹段;当异常轨迹段存在连续轨迹点间长度超过距离阈值dislen(以选定时间平均采样间隔与骑行限速的乘积设置距离阈值)时,判定其为异常行驶轨迹段并消除。时间平均采样间隔为非机动车轨迹数据决定,在本发明中,实验数据的平均采样间隔为12s,非机动车骑行限速为25km/h,即为6.94m/s,相乘即可得到83.33米,取整可得到84米,即设置距离阈值dislen=84米。
逆行/违规转向轨迹段消除:考虑到逆行和违规转向轨迹段与其大多数近邻轨迹点在方向以及方向变化上均存在较大差异,故先通过范围提取(提取范围略大于车道宽度,为车道宽度的100-120%以内,一般取值为4米)待检测轨迹点的近邻点,并将近邻点根据方向与方向变化划分到8个方向(与正北相差角度为的8个方向)类中;
当近邻点的方向大致相同时(以大多数近邻点的方向为主方向),判定该轨迹点所处道路为单向道;若当前轨迹点方向与主方向相反,判定该轨迹点存在逆行行为。若连续轨迹点序列中不存在逆行行为的轨迹点占比低于设定的阈值(设置较小占比阈值以保证逆行行为的可信,一般取值为0.1),则认为该轨迹点序列为逆行轨迹段予以消除;
当轨迹点方向不属于近邻点主方向,且其方向变化不同于其近邻轨迹点的方向变化时,则认为该点存在违规转向行为;当连续轨迹点的序列其方向属于主方向的占比低于阈值(设置较小阈值保证违规转向的可信,一般取值为0.1)且存在违规转向行为的轨迹点,则认为该轨迹点序列存在违规转向行为应予以消除。
上述的步骤S5具体包括:
(1)pi是轨迹Tr中距离点ps最近的点,pi+m是轨迹Tr中距离点pe的最近点;
(2)ps与pi间的距离dis(ps,pi)<β且pe与pi+m间的距离dis(pe,pi+m)<β(β>0),β是用于搜索给定轨迹点近邻的距离阈值,其初始值根据平均采样间隔与骑行限速的乘积设置,可以为84米,且要求β=min(dis(ps,pe)/2,β);
(3)查询轨迹点对之间的时间间隔应与相似轨迹段的持续时间相似,即令△t=pe.time-ps.time,max(0,(1-α1)*△t)<pi+m.time-pi,time<(1+α1)*△t,其中α1为调节参数,其取值范围为[0,1],可以根据GPS轨迹数据集的不同而改变,一般情况下取平均值即0.5,time是采样时间戳。
步骤5.2、漂移轨迹段识别:给定一条轨迹Tr={p1,p2,...,pn},当存在漂移轨迹段 时,表现为轨迹Tr的子轨迹内所有轨迹点均远离Tr中其他近邻轨迹点,但内轨迹点间采样间隔保持不变。据此,将按照以下条件判定轨迹Tr的子轨迹是否为漂移轨迹段
(1)pi与pi-1间的距离dis(pi,pi-1)>(1+α2)*avgdis且pi+m+1与pi+m间的距离dis(pi+m,pi+m+1)>(1+α2)*avgdis,其中avgdis表示两个连续轨迹点间的平均采样距离,α2为调节参数,其取值范围为[0,1],可以根据GPS轨迹数据集的不同而改变,一般情况下取平均值即0.5;
(2)(1-α2)*avgdis<dis(pz+k,pz+k+1)<(1+α2)*avgdis(0≤k≤m-1);
(3)(1-α3)*avgsi<(pi+k-1.time-pz+k.time)<(1+α3)*avgsi(0≤k≤m+1),其中avgsi表示数据集的平均采样间隔,α3为调节参数,其取值范围为[0,1],可以根据GPS轨迹数据集的不同而改变,一般情况下取平均值即0.5,其中time指的是轨迹点的采样时间戳。
步骤5.3、漂移轨迹段校准:考虑到漂移轨迹段相对于移动对象的整条轨迹而言只是其中一段,采用基于最长公共子序列(LCSS:Longest Common Subsequence)的相似性度量方法查找与存在漂移轨迹段的轨迹相似度最高的k条轨迹。为评测其他轨迹与漂移轨迹的相似性,使用两条轨迹最长公共子序列的点数与该轨迹所有轨迹点数量的占比作为衡量值。随后,根据步骤5.1的定义,以漂移轨迹段的前序轨迹点pi-1和后续轨迹点pi+m+1作为查询点对,从相似性最高的k条轨迹中提取与漂移轨迹的相似轨迹段集合。
鉴于漂移轨迹段可能由移动设备的惯导系统根据连续采集轨迹点的方向与加速度推算产生,其形态与真实轨迹相似。因此,先将漂移轨迹段的每个轨迹点pi+k(0≤k≤m)转换地理位置得到从而获得转换后的新轨迹段位置转换公式如下,其中x表示该点的经度,y表示该点的纬度:
采用Fréchet距离度量与每条相似轨迹段之间的距离,将与相似轨迹段距离最小的新轨迹段视为代表轨迹段,并使用代表轨迹段替换对应的漂移轨迹段以实现校准。对于两条轨迹段和它们之间的Fréchet距离F(Trm,Trn)的计算公式如下,首先查找两条轨迹之间对应的点对序列其中a1=1,b1=1,as=i,bs=j,中包含轨迹段Trm中的所有轨迹点且按原有轨迹点顺序(重复)排列,同理,然后计算点对序列中对应点对之间的最大距离||L||,Fréchet距离F(Trm,Trn)为所有点对序列中最小的||L||值:
F(Trm,Trn)=min{||L|||L是Trp,Trq之间的点对序列}
上述的步骤S6具体包括:
步骤6.1、给出定义:给定轨迹Tr={p1,p2,...,pn},较长采样间隔轨迹段Li=(pi,pi+1)是满足以下条件的两个连续轨迹点连接形成的线段:
(1)pi与pi+1间的距离dis(pi,pi+1)>(1+α2)*avgdis,其中avgdis表示两个连续轨迹点之间的平均采样距离间隔,α2为距离约束的调节参数,其取值范围为[0,1],可以根据GPS轨迹数据集的不同而改变,一般情况下取平均值即0.5;
(2)(pi+1.time-pi.time)>(1+α4)*avgsi,其中avgsi表示平均采样时间间隔,α4为调节参数,其取值范围为[0,+∞],可以根据GPS轨迹数据集的不同而改变,一般情况下取平均值即2,此处的time是采样时间戳。
步骤6.2、弱信号区域的识别:
由于部分区域定位信号弱,存在连续轨迹点间时间和/或距离远大于平均采样时间间隔/平均采样距离间隔的情况,称之为较长采样间隔线段(轨迹段)。根据步骤6.1的定义检测发现较长采样间隔线段,再对其进行增量聚类以定位信号弱的区域。该方法在聚类过程中维护一个较长采样间隔线段簇的集合,这里的线段簇表示一组线段(轨迹段)的集合,开始时该集合为空,当检测到一条较长采样间隔线段(轨迹段)Li时,通过计算Li与现有较长采样间隔线段簇的代表轨迹之间的距离,搜索距离Li最近的较长采样间隔线段簇(满足Li与较长采样间隔线段簇的距离小于指定阈值β),将Li插入该簇并重新计算所在簇的代表轨迹;如未找到,将Li单独作为一个簇,其中β的值按照公式min(lc.length/2,β)计算得到,其中lc.length表示代表轨迹的lc的长度。较长采样间隔线段簇Ck的代表轨迹的起点lcs和终点lce由以下公式计算得到,Ck.num表示该簇的线段数:
Li.st表示较长采样间隔线段的起始端点、Li.ed表示较长采样间隔线段的终止端点。
线段之间的距离采用基于线段的豪斯多夫距离方法,该方法结合平行距离、垂直距离和角距离等对线段之间的距离进行评测,豪斯多夫距离相比其他基于线段的相似性度量方法能在较小的运算时间的基础上得到一个更精度的相似值,在本发明中可以有效度量线段之间的相似性。
当较长采样间隔线段簇的数量超过内存所能保存的最大数量m时,合并两个距离最近的簇。当Ck.num大于预设阈值thresnum时,将该簇所在区域视为弱信号区域,其中阈值thresnum设置为该区域内所有较长采样间隔线段簇中线段的平均数量,设置平均数量可以反应一般情况下簇内轨迹的正常数量。
步骤6.3、弱信号区域内缺失轨迹恢复:
针对弱信号区域内的缺失轨迹,以位于这些区域的较长采样间隔线段的两个端点(Li.st、Li.ed)为查询点,根据步骤5.1的定义,从历史轨迹中提取相似轨迹段集合。分别计算相似轨迹段集合中轨迹段之间的Fréchet距离,找出与其相似轨迹段之间距离之和最小的轨迹段将其作为参考轨迹段。对于两条轨迹段和它们之间的Fréchet距离F(Trm,Trn)的计算公式如下,首先查找两条轨迹之间对应的点对序列其中a1=1,b1=1,as=i,bs=j,中包含轨迹段Trm中的所有轨迹点且按原有轨迹点顺序(重复)排列,同理,然后计算点对序列中对应点对之间的最大距离||L||,Fréchet距离F(Trm,Trn)为所有点对序列中最小的||L||值:
F(Trm,Trn)=min{||L|||L是Trp,Trq之间的点对序列}
考虑到基于距离计算得到的参考轨迹段具有不稳定性,使用参考轨迹段附近的轨迹点对其进行校准,具体方法为:首先将Li.st视为代表轨迹点rps;再依次以参考轨迹段的轨迹点pi+k(0≤k≤m)为圆心,以道路宽度d为半径,找出该区域内的所有轨迹点,并在这些轨迹点中筛选出与轨迹点pi+k的方向夹角小于阈值thresangle的轨迹点集合Sp,将Sp中轨迹点的平均位置点作为其代表轨迹点rpi+k,其中阈值thresangle设置较小值保证方向近似,在本发明中一般情况取10°,可根据不同轨迹选取不同的较小值参数。
为了保证提取的代表轨迹的平滑性,若当前代表轨迹点与前一代表轨迹点之间的距离小于平滑度阈值thressmooth,则遍历跳过当前代表轨迹点。直到Li.ed与当前轨迹点之间的距离小于平滑度阈值thressmooth,将Li.ed作为最后一个代表轨迹点rpe,完成代表轨迹段的提取。其中阈值thressmooth设置为GPS数据集中相邻轨迹点之间的平均采样距离,使用平均采样间隔可以反应出一般情况下轨迹的正常采样间隔,该参数可以根据不同轨迹的采样间隔进行调整。最后,使用代表轨迹段代替对应的较长采样间隔线段完成弱信号区域内采样缺失轨迹的恢复。
本发明还提出了一种非机动车骑行轨迹数据质量提升系统,所述系统包括:轨迹数据获取模块、低质量轨迹区域分割模块、异常轨迹点消除模块、徘徊轨迹段消除模块、逆行和/或违章轨迹段消除模块、漂移轨迹段校准模块、缺失轨迹段恢复模块、提升后轨迹数据输出模块;
所述轨迹数据获取模块用于采集获取车行轨迹数据和非机动车轨迹数据;
所述低质量轨迹区域分割模块用于基于GeoHash的单元划分方法将低质量轨迹区域分割成固定大小的网格,并对轨迹点建立GeoHash网格索引;
所述异常轨迹点消除模块用于基于近邻轨迹点的主方向与速度的轨迹噪声检测方法,识别转向异常点和速度异常点并予以消除;
所述徘徊轨迹段消除模块用于基于GeoHash网格和广度优先搜索(BFS)识别相较于较大范围时空近邻的徘徊轨迹段并消除;
所述逆行和/或违章轨迹段消除模块用于使用核密度估计和GeoHash网格对近邻轨迹进行分析,检测违章行驶轨迹段并消除;
所述消除轨迹段校准模块用于利用轨迹数据的正常采样间隔和漂移轨迹段与近邻轨迹移动行为的一致性检测漂移轨迹段,利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准;
所述缺失轨迹段恢复模块使用增量聚类方法对轨迹线段进行聚类以识别缺失轨迹所在区域,基于该区域的历史轨迹数据获取相似子轨迹,再采用基于最小距离和的拟合方法实现缺失轨迹的恢复;
所述提升后轨迹数据输出模块用于输出经数据质量提升后的非机动车骑行轨迹。
本发明还提出了上述的非机动车骑行轨迹的数据质量提升方法,上述的非机动车骑行轨迹数据质量提升系统在非机动车骑行轨迹的数据质量提升中的应用。
本发明具有以下有益效果:
1、本研究分析了非机动车骑行轨迹中存在的影响后续地图构建的数据质量问题,包括轨迹噪声中的异常轨迹点(方向噪声、速度噪声)和异常轨迹段(徘徊轨迹段、违章转向(包含逆行)轨迹段)、以及轨迹段漂移和轨迹缺失等。
2、针对非机动车骑行轨迹存在的数据质量问题,本发明提出了数据质量提升的六步骤框架,实现了异常数据与缺失数据的校准,进而为后续利用非机动车骑行数据推断骑行地图构建提供良好的数据基础。
3、本文使用真实轨迹数据,以非机动车数据的后续使用为标准,对质量提升方法进行了实验评估,实验结果验证了本文方法的有效性。
附图说明
图1是基于非机动车骑行轨迹的数据质量提升的框架图。
图2是本发明实施例中原始数据效果图。
图3是本发明实施例中完成数据质量提升后的效果图。
图4是本发明实施例中原始CITT预处理方法后的路口发现效果图。
图5是本发明实施例中基于本发明数据质量提升方法后的路口发现效果图。
图6是本发明实施例中原始TKDD预处理方法后的路口发现效果图。
图7是本发明实施例中同一区域的本发明数据质量提升后的路口发现效果图。
图8是本发明实施例中原始的SLC预处理后的道路生成效果图。
图9是本发明实施例中本发明数据质量提升后的道路生成效果图。
图10是本发明实施例中原始的Cao09预处理后的道路生成效果图。
图11是本发明实施例中本发明数据质量提升后的道路生成效果图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明提出了一种非机动车骑行轨迹数据的质量提升框架,如图1所示,针对前述提到的非机动车骑行轨迹存在的数据异常与缺失问题,本发明首先采集获取车行轨迹数据和非机动车轨迹数据,使用基于GeoHash的单元划分方法将低质量区域分割成固定大小的网格,并对轨迹点建立GeoHash网格索引以加速后续基于近邻范围的异常检测与数据恢复;再采用基于近邻轨迹点的主方向与速度的轨迹噪声检测方法,识别转向异常点和速度异常点并予以消除;并根据方向多变和低速特征,基于网格采用广度优先搜索(BFS)方法识别与较大范围时空近邻不同的徘徊轨迹段并消除;之后使用核密度估计和基于网格的近邻轨迹分析,检测违章行驶轨迹段并消除。再利用轨迹数据的平均采样间隔和漂移轨迹段与近邻轨迹移动行为的不一致性检测漂移轨迹段,利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准;最后根据近邻轨迹点间的平均采样间隔提取具有较长时间(或距离)间隔的轨迹线段,使用增量聚类方法对其进行聚类以识别缺失轨迹所在区域,基于该区域的历史轨迹数据获取相似子轨迹,再采用基于最小距离和的拟合方法实现缺失轨迹的恢复;最终输出经数据质量提升后的非机动车骑行轨迹。
如图1所示,本发明采用六步骤的数据质量提升方法,包括以下步骤:
S1:采集获取车行轨迹数据和非机动车轨迹数据,为加速后续基于近邻范围的异常检测与数据恢复,使用基于GeoHash的单元划分方法将异常骑行轨迹所在区域分割成固定大小的网格,并对轨迹点建立GeoHash网格索引。
实施例中,步骤S1具体包括:
为加速异常数据检测的近邻搜索效率,先使用基于GeoHash的网格单元划分方法将数据异常区域分割成固定大小的网格,随后对非机动车骑行轨迹数据中轨迹点的方向、相邻轨迹点间的方向变化与速度变化、相邻点之间采样时间差进行统计,在此基础上结合轨迹点所处的行程状态(例如“空闲”、“骑行中”、“骑行起点附近”、“到达骑行终点附近”等)信息形成轨迹点的衍生属性;最后对轨迹数据建立GeoHash网格索引。
GeoHash是一种地理编码算法,可以在O(1)时间复杂度下将GPS坐标按照不同的编码长度定位到不同大小的地理网格单元中,同时,对于不同GPS坐标对应的编码公共前缀其长度越长,所在位置则越近。考虑到车道宽度的国家标准为3.5米至3.75米,设置对应GeoHash编码长度为9(即对应网格单元长、宽均为4.8米)。
S2:采用基于近邻轨迹点的主方向与速度的轨迹噪声检测方法,识别转向异常点和速度异常点并予以消除。
实施例中,步骤S2具体包括:
步骤2.1)轨迹分段:统计相邻轨迹点间的采样时间间隔,以整条非机动车轨迹数据中各轨迹点间的平均采样时间间隔Timedis作为轨迹段划分的阈值(这里,设置Timedis=12秒进行实验)对轨迹分段。
步骤2.2)速度异常点消除:鉴于非机动车如电动自行车按照国家标准规定上限速度thspeed为6.95米/秒(即25公里/小时),基于S1计算的轨迹点速度删除超过速度阈值thspeed的轨迹点。
步骤2.3)转向异常点消除:基于少数转向异常点与其大多数近邻轨迹点的方向差异特性,先用GeoHash网格查找待检测轨迹点的近邻;随后对近邻点按照方向将其划分到8个不同方向(与正北相差角度为的8个方向)类中;考虑道路有单向/双向道,如待检测轨迹点的方向不属于轨迹点数量最多的两个方向,则将其视为转向异常点予以删除,其中,近邻点定义如下:
给定一个轨迹点pi、预设的距离阈值thdis、以及轨迹点集合P,GeoDis(pi,pj)表示pi和pj之间的实际地面距离,则pi的近邻点定义为:Near(pi)={pj∈P|GeoDis(pi,pj)≤thdis}。
近邻点的方向实质上是待检测轨迹点周围大多数轨迹点的正常方向,如果待检测轨迹点方向与之相差较大,则认为其方向存在异常,考虑到车道宽度为3.5米至3.7米,设置thdis=4米。
S3:根据方向多变和低速特征,基于GeoHash网格采用广度优先搜索(BFS)方法识别相比较大范围时空近邻不一样的徘徊轨迹段并消除。
实施例中,步骤S3具体包括:
非机动车骑行轨迹的徘徊轨迹段位于非机动车行程所涉及的非道路区域,例如居民区、商圈等,该类区域是大量状态为“到达骑行终点附近”的轨迹点所在区域,同时,徘徊轨迹段常伴有方向多变且速度相对于正常骑行轨迹速度较低等特性。
根据上述特性,首先采用广度优先搜索(BFS)方法搜索待检测轨点的近邻点,考虑到非道路区域相比道路区域具有轨迹稀疏性,设置近邻点距离阈值(这里取thdis=8米进行实验)以提取更多的近邻轨迹点;
基于得到的近邻点,统计其中状态为“到达骑行终点附近”的轨迹点的数量占比,当占比超过状态为“骑行中”轨迹点数量的占比时,将该区域视为与非机动车骑行相关的热门非道路区域,如果一段轨迹连续多个轨迹点位于热门非道路区域,将其视为候选徘徊轨迹段;
统计候选徘徊轨迹段内轨迹点的方向并将其划分到8个方向类中,考虑到道路骑行轨迹可能偶发转向行为以及转向前后骑行方向不变的特性,如果徘徊轨迹段内轨迹点的方向超过2个方向类、且不同类轨迹点根据采样时间顺序存在位置交叉关系,同时该候选徘徊轨迹段内轨迹点平均速度低于道路骑行平均速度(这里设置V=4.0米/秒进行实验),则判断其为徘徊轨迹段予以删除。
S4:使用核密度估计和基于GeoHash网格的近邻轨迹分析,检测违章行驶轨迹段并消除。
实施例中,步骤S4具体包括:
非机动车限行道路区域的轨迹消除:鉴于网格内轨迹点密度的稀疏性会影响车行区域计算的平滑性,利用核密度估计方法平滑计算各网格单元内的骑行轨迹与(汽车)车行轨迹密度,根据车行区域内轨迹密度应显著高于骑行轨迹密度的特性判定其属于限行区域的网格单元。
基于上述步骤识别的限行区域网格单元,对骑行轨迹进行遍历,当相邻轨迹点连接形成线段覆盖的限行区域网格单元的占比超过阈值thprop(设置占比阈值thprop为0.1以保证限行区域内骑行轨迹与车行轨迹的显著差异),判断该线段为异常轨迹段;当异常轨迹段存在连续轨迹点间长度超过距离阈值dislen(以选定时间平均采样间隔与骑行限速的乘积设置距离阈值dislen=84米)时,判定为异常行驶轨迹段并消除。
逆行/违规转向轨迹段消除:考虑到逆行和违规转向轨迹段与其大多数近邻轨迹点在方向以及方向变化上均存在较大差异,故先通过范围提取待检测轨迹点的近邻点,并将近邻点根据方向与方向变化划分到8个方向类中;
当近邻点的方向大致相同时(以大多数近邻点的方向为主方向,设置不属于主方向的方向占比阈值thprop为0.1),判定该轨迹点所在道路为单向道;若当前轨迹点方向与主方向相反(即与主方向差距为180度的方向),判定该轨迹点存在逆行行为。若连续轨迹点序列中不存在逆行行为的轨迹点占比低于设定的阈值(这里取阈值thprop为0.1进行实验),则认为该轨迹点序列为逆行轨迹段将其消除;
当轨迹点方向不属于近邻点主方向,且其方向变化不同于其近邻轨迹点的方向变化时(取不属于主方向变化的占比阈值thprop为0.1进行实验),则认为该点存在违规转向行为;当连续轨迹点的序列其方向属于主方向的占比低于阈值(取阈值thprop为0.1进行实验)且存在违规转向行为的轨迹点时,则认为该轨迹点序列存在违规转向行为应予以消除。
S5:利用轨迹数据的平均采样间隔和漂移轨迹段与近邻轨迹移动行为的不一致性检测漂移轨迹段,利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准。
实施例中,步骤S5具体包括:
(1)pi是轨迹Tr中距离点ps最近的点,pi+m是轨迹Tr中距离点pe的最近点;
(2)ps与pi间的距离dis(ps,pi)<β且dis(pe,pi+m)<β(β>0),β是用于搜索给定轨迹点近邻的距离阈值,β=min(dis(ps,pe)/2,β);
(3)令△t=pe.time-ps.time,max(0,(1-α1)*△t)<pz+m.time-pi,time<(1+α1)*△t,其中α1为调节参数,此处将其设为0.5。
步骤5.2)漂移轨迹段识别:给定一条轨迹Tr={p1,p2,...,pn},当存在漂移轨迹段 时,表现为内所有轨迹点均远离Tr中其他近邻轨迹点,但内轨迹点间采样间隔保持不变。据此,将按照以下条件判定轨迹Tr的子轨迹是否为漂移轨迹段:
(1)dis(pi,pi-1)>(1+α2)*avgdis且dis(pi+m,pi+m+1)>(1+α2)*avgdis,其中avgdis表示两个连续轨迹点间的平均采样距离,α2为调节参数,此处将其设为0.5;
(2)(1-α2)*avgdis<dis(pi+k,pi+k+1)<(1+α2)*avgdis(0≤k≤m-1);
(3)(1-α3)*avgsi)<(pi+k-1.time-pi+k.time)<(1+α3)*avgsi(0≤k≤m+1),其中avgsi表示数据集的平均采样间隔,α3为调节参数,在本发明中设为0.5。
步骤5.3)漂移轨迹段校准:考虑到漂移轨迹段相对于移动对象的整条轨迹而言只是其中一段,采用基于最长公共子序列(LCSS:Longest Common Subsequence)的相似性度量方法查找与存在漂移轨迹段的轨迹相似度最高的k条轨迹(这里,设置k=20)。为评测其他轨迹与漂移轨迹的相似性,使用两条轨迹最长公共子序列的点数与该轨迹所有轨迹点数量的占比作为衡量值。随后,根据步骤5.1)的定义,以漂移轨迹段的前序轨迹点pi-1和后续轨迹点pi+m+1作为查询点对,从相似性最高的k条轨迹中提取与漂移轨迹的相似轨迹段集合。
鉴于漂移轨迹段可能由移动设备的惯导系统根据连续采集轨迹点的方向与加速度推算产生,其形态与真实轨迹相似。因此,先将漂移轨迹段的每个轨迹点pz+k(0≤k≤m)转换地理位置得到继而获得转换后的新轨迹段位置转换公式如下:
S6:根据近邻轨迹点间的平均采样间隔提取具有较长时间(或距离)间隔的轨迹线段,使用增量聚类方法对其进行聚类以识别缺失轨迹所在区域,基于该区域的历史轨迹数据获取相似子轨迹,再采用基于最小距离和的拟合方法实现缺失轨迹的恢复。
实施例中,步骤S6具体包括:
步骤6.1)给出定义:给定轨迹Tr={p1,p2,...,pn},较长采样间隔轨迹段Li=(pi,pi+1)是满足以下条件的两个连续轨迹点连接形成的线段:
(1)dis(pi,pi+1)>(1+α2)*avgdis,其中avgdis表示两个连续轨迹点之间的平均采样距离间隔,α2为距离约束的调节参数,此处,将其设为0.5;
(2)(pi+1.time-pi.time)>(1+α4)*avgsi,其中avgsi表示平均采样时间间隔,α4为调节参数,此处,将其设为2。
步骤6.2)弱信号区域的识别:
由于部分区域定位信号弱,存在连续轨迹点间时间/距离远大于平均采样时间间隔/平均采样距离间隔的情况,称之为较长采样间隔线段。根据步骤6.1)的定义检测发现较长采样间隔线段,再对其进行增量聚类以定位信号弱的区域。该方法先维护一个较长采样间隔线段簇的集合,当检测到一条较长采样间隔线段Li时,通过计算Li与现有较长采样间隔线段簇的代表轨迹之间的距离,搜索距离Li最近的较长采样间隔线段簇(满足Li与其的距离小于指定阈值β),将Li插入该簇并重新计算所在簇的代表轨迹;如未找到,将Li单独作为一个簇,其中β的值按照公式min(lc.length/2,β)计算得到。较长采样间隔线段簇Ck的代表轨迹的起点lcs和终点lce由以下公式计算得到,Ck.num表示该簇的线段数:
线段之间的距离采用基于线段的豪斯多夫距离方法,该方法结合平行距离、垂直距离和角距离等对线段之间的距离进行评测。
当较长采样间隔线段簇的数量超过内存所能保存的最大数量m时,合并两个距离最近的簇。当Ck.num大于预设阈值thresnum(thresnum这里设置为10)时,将该簇所在区域视为弱信号区域。
步骤6.3)弱信号区域内缺失轨迹恢复:
针对弱信号区域内的缺失轨迹,以位于这些区域的较长采样间隔线段的两个端点(Li.st、Li.ed)为查询点,根据步骤5.1)的定义,从历史轨迹中提取相似轨迹段集合。分别计算相似轨迹段集合中轨迹段之间的Fréchet距离,找出与其相似轨迹段之间距离之和最小的轨迹段将其作为参考轨迹段。
考虑到基于距离得到的参考轨迹段具有不稳定性,使用参考轨迹段附近的轨迹点对其进行校准,具体方法为:首先将Li.st视为代表轨迹点rps;然后依次以参考轨迹段的轨迹点pi+k(0≤k≤m)为圆心,以道路宽度d为半径,找出该区域内的所有轨迹点,并在这些轨迹点中筛选出与轨迹点pi+k的方向夹角小于阈值thresangle的轨迹点集合Sp(thresangle设置为10度),将Sp中轨迹点的平均位置点作为其代表轨迹点rpi+k。
为了保证提取的代表轨迹的平滑性,若当前代表轨迹点与上一个代表轨迹点之间的距离小于平滑度阈值thressmooth(这里将其设置为30米),则遍历跳过当前代表轨迹点。直到Li.ed与当前轨迹点之间的距离小于平滑度阈值thressmooth,将Li.ed作为最后一个代表轨迹点rpe,完成代表轨迹段的提取。最后,使用代表轨迹段代替对应的较长采样间隔线段完成弱信号区域内采样缺失轨迹的恢复。
最终获得并输出经数据质量提升后的非机动车骑行轨迹。
为验证本发明的有效性,选取真实轨迹数据进行数据质量提升,如图2所示为原始数据效果图,如图3所示为完成数据质量提升后的效果图,轨迹质量得到了明显提升;并基于公开的骑行路网,与现有地图推断应用的预处理方法进行对比评估;选取的方法包括路口发现方法的CITT和Huang19,如图4所示为原始CITT预处理方法后的路口发现效果图,如图5所示为基于本发明数据质量提升方法后的路口发现效果图,热门区域内的徘徊轨迹被明显消除,如图6所示为原始TKDD预处理方法后的路口发现效果图,如图7所示为同一区域的本发明数据质量提升后的路口发现效果图,噪声轨迹被大量消除;选取的道路生成方法包括SLC和Cao09,如图8所示为原始的SLC预处理后的道路生成效果图,如图9所示为本发明数据质量提升后的道路生成效果图,生成的路网缺失情况减少且热门区域内的徘徊轨迹段不影响路网生成,如图10所示为原始的Cao09预处理后的道路生成效果图,如图11所示为本发明数据质量提升后的道路生成效果图,生成的路网冗余情况明显减少;并选取路口发现的评价指标Precision(精确率)、Recall(召回率)、F-score进行量化评估,其中真实位置从OSM路网数据中获得,Ltruth表示真实路口数量,Ldetect表示检测到的路口数量,Lcorr表示正确识别的路口数量。F-score值越高表示性能越好,精确率、召回率、F-score分别定义如下:
对比评估效果如表1所示,使用本发明数据质量提升后路口发现方法的Precision、Recall和F-score,都有一定程度提升;选取的道路生成的评价指标有CMP(正确匹配百分比)、AL(匹配的长度)、AN(匹配的数量),对比评估效果如表2所示,使用本发明数据质量提升后道路生成的CMP、AL、AN也都相对原方法有一定程度提升。
表1基于路口发现应用的预处理效果对比表
表2基于道路生成应用的预处理效果对比表
综上所述,本发明综合采用GeoHash地理空间索引技术、轨迹异常检测方法、范围查找技术、核密度估计、轨迹相似性度量方法和增量聚类等技术,形成了一种非机动车骑行轨迹的数据质量提升方法,以处理非机动车骑行轨迹数据中存在的轨迹异常和定位信号缺失问题,为非机动车骑行地图推断提供有效的数据基础。
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (10)
1.一种非机动车骑行轨迹的数据质量提升方法,其特征在于,包含以下步骤:
S1:采集获取车行轨迹数据和非机动车轨迹数据,使用基于GeoHash的单元划分方法将低质量轨迹区域分割成固定大小的网格,并对轨迹点建立GeoHash网格索引;
S2:采用基于近邻轨迹点的主方向与速度的轨迹噪声检测方法,识别转向异常点和速度异常点并予以消除;
S3:根据方向多变和低速特征,基于GeoHash网格和广度优先搜索方法识别方向、速度区别于时空近邻的徘徊轨迹段并消除;
S4:使用核密度估计方法和GeoHash网格对近邻轨迹进行分析,检测并消除违章行驶轨迹段;
S5:根据轨迹数据的平均采样间隔以及漂移轨迹段与近邻轨迹移动行为的一致性检测漂移轨迹段,利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准;
S6:根据近邻轨迹点间的平均采样间隔提取具有较长时间或距离间隔的轨迹线段,使用增量聚类方法对轨迹线段进行聚类以识别缺失轨迹所在区域,基于该区域的历史轨迹数据获取相似子轨迹,再采用基于最小距离和的拟合方法实现缺失轨迹的恢复;
S7:输出经数据质量提升后的非机动车骑行轨迹。
2.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法,其特征在于,所述步骤S1具体包括:
使用基于GeoHash的网格单元划分方法将数据异常区域分割成固定大小的网格,随后对骑行轨迹数据中轨迹点的方向和速度、邻接轨迹点间的方向变化与速度变化、邻接轨迹点之间采样时间差进行计算,在此基础上结合轨迹点所处的行程状态形成轨迹点的衍生属性;最后对轨迹数据建立GeoHash网格索引;所述数据异常区域是指包括有热门骑行区域的徘徊轨迹段、违章转向或逆行轨迹段、信号漂移轨迹段以及信号缺失轨迹段的区域。
3.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法,其特征在于,所述步骤S2具体包括:
步骤2.1、轨迹分段:统计邻接轨迹点间的采样时间间隔,以整条非机动车轨迹数据中各轨迹点间的平均采样时间间隔Timedis作为轨迹段划分的阈值对轨迹分段;
步骤2.2、速度异常点消除:删除轨迹点速度超过速度阈值thspeed的轨迹点;所述速度阈值为骑行使用的非机动车按照国家标准规定上限速度thspeed为6.95米/秒;所述轨迹点速度的计算方法为分段前轨迹点与其前后相邻轨迹点的距离和/分段前轨迹点与其前后相邻轨迹点的采样时间差的和;
步骤2.3、转向异常点消除:基于少数转向异常点与其大多数近邻轨迹点的方向差异特性,先用GeoHash网格查找待检测轨迹点的近邻;随后对近邻点按照方向将其划分到8个不同方向类中;考虑道路有单向/双向道,若待检测轨迹点的方向不属于近邻点中数量最多的两个方向,则将其视为转向异常点予以删除。
4.根据权利要求3所述的一种非机动车骑行轨迹的数据质量提升方法,其特征在于,所述近邻点定义如下:
给定一个轨迹点pi,预设的距离阈值thdis,以及轨迹点集合P,GeoDis(pi,pj)表示pi和pj之间的实际地面距离,则pi的近邻点定义为:Near(pi)={pj∈P|GeoDis(pi,pj)≤thdis};所述距离阈值的设置与车道的宽度有关,为车道宽度的100%到120%;
近邻点的方向代表了待检测轨迹点周围大多数轨迹点的主要方向,如果待检测轨迹点方向与之相差较大,则认为其方向异常。
5.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法,其特征在于,所述步骤S3具体包括:
首先基于广度优先搜索方法,搜索待检测轨迹点的近邻点,考虑到非道路区域相较于道路区域的轨迹稀疏特性,通过设置两倍车道宽度的近邻点距离阈值以提取更多的近邻轨迹点;
基于得到的近邻点,统计其中状态为“到达骑行终点附近”的轨迹点的数量占比,当占比超过状态为“骑行中”轨迹点数量的占比时,将该区域视为与非机动车骑行相关的热门非道路区域,如果一段轨迹中连续多个轨迹点位于所述热门非道路区域,将其视为候选徘徊轨迹段;所述徘徊轨迹段方向多变且速度相对于正常骑行轨迹速度低;
统计候选徘徊轨迹段内轨迹点的方向并将其划分到8个方向类中,考虑到道路骑行轨迹具有偶发转向行为以及转向前后骑行方向不变的特性,如果徘徊轨迹段内轨迹点的方向超过2个方向类,不同类轨迹点根据采样时间顺序存在位置交叉关系,同时该候选徘徊轨迹段内轨迹点平均速度低于道路骑行平均速度,则判断其为徘徊轨迹段将其删除。
6.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法,其特征在于,所述步骤S4具体包括:
非机动车限行道路区域的轨迹消除:鉴于网格中轨迹点密度的稀疏性会影响车行区域计算的平滑性,利用核密度估计方法来平滑计算各网格单元内的骑行轨迹与汽车车行轨迹密度,根据车行区域内轨迹密度应高于骑行轨迹密度的特性判定其是否属于限行区域的网格单元;
基于上述步骤识别的限行区域网格单元,对骑行轨迹进行遍历,当相邻轨迹点连接形成线段所覆盖的限行区域网格单元的占比超过阈值thprop,判断该线段为异常轨迹段;当异常轨迹段存在连续轨迹点间长度超过距离阈值dislen时,判定其为异常行驶轨迹段并消除;所述距离阈值dislen通过平均采样时间间隔与骑行限速的乘积获得;
逆行/违规转向轨迹段消除:考虑到逆行、违规转向轨迹段与其大多数近邻轨迹在方向以及方向变化上均存在差异,故先通过范围搜索待检测轨迹点的近邻点,并将近邻点根据方向与方向变化划分到8个方向类中;
当待检测点与近邻点的主方向相同时,判定该点所处道路为单向道;若待检测点方向与主方向相反,判定该点存在逆行行为;若连续轨迹点序列中不存在逆行行为的轨迹点占比低于设定的阈值,则认为该轨迹点序列为逆行轨迹段予以消除;
当轨迹点方向不属于近邻点主方向,且其方向变化不同于其近邻轨迹点的方向变化时,则认为该点存在违规转向行为;当连续轨迹点的序列其方向属于主方向的占比低于阈值且存在违规转向行为的轨迹点,则认为该轨迹点序列存在违规转向行为应予以消除。
7.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法,其特征在于,所述步骤S5具体包括:
(1)pi是轨迹Tr中距离点ps最近的点,pi+m是轨迹Tr中距离点pe的最近点;
(2)ps与pi间的距离dis(ps,pi)<β且pe与pi+m间的距离dis(pe,pi+m)<β,β>0,β是用于搜索给定轨迹点近邻的距离阈值,β=min(dis(ps,pe)/2,β);β的初始值根据平均采样间隔与骑行限速的乘积设置,且要求β=min(dis(ps,pe)/2,β);
(3)令△t=pe.time-ps.time,max(0,(1-α1)*△t)<pi+m.time-pi,time<(1+θ1)*△t,其中α1为调节参数,其取值范围为[0,1];time是采样时间戳;
步骤5.2、漂移轨迹段识别:给定一条轨迹Tr={p1,p2,...,pn},当存在漂移轨迹段 时,1<i,i+m<n,表现为内所有轨迹点均远离Tr中其他近邻轨迹点,但内轨迹点间采样间隔保持不变;按照以下条件判定轨迹Tr的子轨迹是否为漂移轨迹段:
(1)pi与pi-1间的距离dis(pi,pi-1)>(1+α2)*avgdis且pi+m+1与pi+m间的距离dis(pi+m,pi+m+1)>(1+α2)*avgdis,其中avgdis表示两个连续轨迹点间的平均采样距离,α2为调节参数,其取值范围为[0,1];time是采样时间戳;
(2)(1-α2)*avgdis<dis(pi+k,pi+k+1)<(1+α2)*avgdis,0≤k≤m-1;
(3)(1-α3)*avgsi)<(pi+k-1.time-pi+k.time)<(1+α3)*avgsi,0≤k≤m+1;其中avgsi表示数据集的平均采样间隔,α3为调节参数,其取值范围为[0,1];time是采样时间戳;
步骤5.3、漂移轨迹段校准:考虑到漂移轨迹段相对于移动对象的整条轨迹而言只是其中一段,采用基于最长公共子序列的相似性度量方法查找与存在漂移轨迹段的轨迹相似度最高的k条轨迹;为评测其他轨迹与漂移轨迹的相似性,使用两条轨迹最长公共子序列的点数与该轨迹所有轨迹点数量的占比作为评测值;随后,根据步骤5.1的定义,以漂移轨迹段的前序轨迹点pi-1和后续轨迹点pi+m+1作为查询点对,从相似性最高的k条轨迹中提取与漂移轨迹的相似轨迹段集合;
8.根据权利要求1所述的一种非机动车骑行轨迹的数据质量提升方法,其特征在于,所述步骤S6具体包括:
步骤6.1、给出定义:给定轨迹Tr={p1,p2,...,pn},较长采样间隔轨迹段Li=(pi,pi+1)是满足以下条件的两个连续轨迹点连接形成的线段:
(1)dis(pi,pi+1)>(1+α2)*avgdis,其中avgdis表示两个连续轨迹点之间的平均采样距离间隔,α2为距离约束的调节参数,其取值范围为[0,1];
(2)(pi+1.time-pi.time)>(1+α4)*avgsi,其中avgsi表示平均采样时间间隔,α4为调节参数,其取值范围为[0,+∞];
步骤6.2、弱信号区域的识别:
将连续轨迹点间时间和/或距离远大于平均采样时间间隔/平均采样距离间隔的线段称为为较长采样间隔线段;根据步骤6.1的定义检测发现较长采样间隔线段,再对其进行增量聚类以定位信号弱的区域;先维护一个较长采样间隔线段簇的集合,当检测到一条较长采样间隔线段Li时,通过计算Li与现有较长采样间隔线段簇的代表轨迹之间的距离,搜索距离Li最近的较长采样间隔线段簇,满足Li与较长采样间隔线段簇的距离小于指定阈值β,将Li插入该簇并重新计算所在簇的代表轨迹;如未找到,将Li单独作为一个簇,其中β的值按照公式min(lc.length/2,β)计算得到;较长采样间隔线段簇Ck的代表轨迹的起点lcs和终点lce由以下公式计算得到,Ck.num表示该簇的线段数:
Li.st表示较长采样间隔线段的起始端点、Li.ed表示较长采样间隔线段的终止端点;
线段之间的距离采用基于线段的豪斯多夫距离方法,所述豪斯多夫距离方法结合平行距离、垂直距离和角距离等对线段之间的距离进行评测;
当较长采样间隔线段簇的数量超过内存能保存的最大数量m时,合并两个距离最近的簇,当Ck.num大于预设阈值thresnum时,将该簇所在区域视为弱信号区域;所述阈值thresnum设置为该区域内所有较长采样间隔线段簇中线段的平均数量;
步骤6.3、弱信号区域内的缺失轨迹恢复:
针对弱信号区域内的缺失轨迹,以位于这些区域的较长采样间隔线段的两个端点(Li.st、Li.ed)为查询点,根据步骤5.1的定义,从历史轨迹中提取相似轨迹段集合,分别计算相似轨迹段集合中轨迹段之间的Fréchet距离,找出与其相似轨迹段之间距离和最小的轨迹段将其作为参考轨迹段;
考虑到基于距离计算得到的参考轨迹段具有不稳定性,使用参考轨迹段附近的轨迹点对其进行校准,具体方法为:首先将Li.st视为代表轨迹点rps;然后依次以参考轨迹段的轨迹点pi+k为圆心,0≤k≤m,以道路宽度d为半径,找出该区域内的所有轨迹点,并在这些轨迹点中筛选出与轨迹点pi+k的方向夹角小于阈值thresangle的轨迹点集合Sp,将Sp中轨迹点的平均位置点作为其代表轨迹点rpi+k;
为了保证提取的代表轨迹的平滑性,若当前代表轨迹点与上一个代表轨迹点之间的距离小于平滑度阈值thressmooth,则遍历跳过当前代表轨迹点;直到Li.ed与当前轨迹点之间的距离小于平滑度阈值thressmooth,将Li.ed作为最后一个代表轨迹点rpe,完成代表轨迹段的提取;最后,使用代表轨迹段代替对应的较长采样间隔线段完成弱信号区域内采样缺失轨迹的恢复。
9.一种实现如权利要求1-8之任一项所述的非机动车骑行轨迹数据质量提升方法的非机动车骑行轨迹数据质量提升系统,所述系统包括:轨迹数据获取模块、低质量轨迹区域分割模块、异常轨迹点消除模块、徘徊轨迹段消除模块、逆行和/或违章轨迹段消除模块、漂移轨迹段校准模块、缺失轨迹段恢复模块、提升后轨迹数据输出模块;
所述轨迹数据获取模块用于采集获取车行轨迹数据和非机动车轨迹数据;
所述低质量轨迹区域分割模块用于基于GeoHash的单元划分方法将低质量轨迹区域分割成固定大小的网格,并对轨迹点建立GeoHash网格索引;
所述异常轨迹点消除模块用于基于近邻轨迹点的主方向与速度的轨迹噪声检测方法,识别转向异常点和速度异常点并予以消除;
所述徘徊轨迹段消除模块用于基于GeoHash网格和广度优先搜索(BFS)识别相较于较大范围时空近邻的徘徊轨迹段并消除;
所述逆行和/或违章轨迹段消除模块用于使用核密度估计和GeoHash网格对近邻轨迹进行分析,检测违章行驶轨迹段并消除;
所述消除轨迹段校准模块用于利用轨迹数据的正常采样间隔和漂移轨迹段与近邻轨迹移动行为的一致性检测漂移轨迹段,利用LCSS和Fréchet距离计算提取最相似近邻轨迹段以替换漂移轨迹段实现校准;
所述缺失轨迹段恢复模块使用增量聚类方法对轨迹线段进行聚类以识别缺失轨迹所在区域,基于该区域的历史轨迹数据获取相似子轨迹,再采用基于最小距离和的拟合方法实现缺失轨迹的恢复;
所述提升后轨迹数据输出模块用于输出经数据质量提升后的非机动车骑行轨迹。
10.如权利要求1-8之任一项所述的非机动车骑行轨迹的数据质量提升方法,如权利要求9所述的非机动车骑行轨迹数据质量提升系统在非机动车骑行轨迹的数据质量提升中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210842913.2A CN115310522A (zh) | 2022-07-18 | 2022-07-18 | 一种非机动车骑行轨迹的数据质量提升方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210842913.2A CN115310522A (zh) | 2022-07-18 | 2022-07-18 | 一种非机动车骑行轨迹的数据质量提升方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115310522A true CN115310522A (zh) | 2022-11-08 |
Family
ID=83857540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210842913.2A Pending CN115310522A (zh) | 2022-07-18 | 2022-07-18 | 一种非机动车骑行轨迹的数据质量提升方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115310522A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407481A (zh) * | 2023-12-15 | 2024-01-16 | 北京易诚高科科技发展有限公司 | 一种针对地理信息数据的多尺度泊松盘采样方法 |
-
2022
- 2022-07-18 CN CN202210842913.2A patent/CN115310522A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407481A (zh) * | 2023-12-15 | 2024-01-16 | 北京易诚高科科技发展有限公司 | 一种针对地理信息数据的多尺度泊松盘采样方法 |
CN117407481B (zh) * | 2023-12-15 | 2024-02-27 | 北京易诚高科科技发展有限公司 | 一种针对地理信息数据的多尺度泊松盘采样方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sousa et al. | Vehicle trajectory similarity: models, methods, and applications | |
CN111475596B (zh) | 一种基于多层级轨迹编码树的子段相似性匹配方法 | |
CN112015835B (zh) | Geohash压缩的地图匹配方法 | |
CN109739926B (zh) | 一种基于卷积神经网络的移动对象目的地预测方法 | |
CN108961758B (zh) | 一种基于梯度提升决策树的路口展宽车道探测方法 | |
CN111104398B (zh) | 针对智能船舶近似重复记录的检测方法、消除方法 | |
CN109410588B (zh) | 一种基于交通大数据的交通事故演化分析方法 | |
CN111046968B (zh) | 一种基于改进dpc算法的道路网络轨迹聚类分析方法 | |
US20230237113A1 (en) | Data processing method and device | |
CN114299742B (zh) | 一种高速公路的限速信息动态识别与更新推荐方法 | |
CN113159105B (zh) | 一种驾驶行为无监督模式识别方法及数据采集监控系统 | |
CN112579921B (zh) | 基于倒排序索引及前缀树的轨迹索引和查询方法及系统 | |
CN115310522A (zh) | 一种非机动车骑行轨迹的数据质量提升方法及系统 | |
Qiu et al. | Automatic extraction of road networks from GPS traces | |
Chang et al. | iTaxi: Context-aware taxi demand hotspots prediction using ontology and data mining approaches | |
CN113932821A (zh) | 基于连续窗口平均方向特征的轨迹地图匹配方法 | |
CN112309118A (zh) | 一种基于时空相似度的车辆轨迹推算方法 | |
CN111444286B (zh) | 一种基于轨迹数据的远距离交通节点关联性挖掘方法 | |
CN110097074B (zh) | 一种基于序列相似度的车辆轨迹压缩方法 | |
Zhao et al. | CLEAN: frequent pattern-based trajectory spatial-temporal compression on road networks | |
CN110909037A (zh) | 一种频繁轨迹模式的挖掘方法及装置 | |
CN116484244A (zh) | 基于聚类模型的自动驾驶事故发生机制分析方法 | |
CN115565376A (zh) | 融合graph2vec、双层LSTM的车辆行程时间预测方法及系统 | |
CN115662124A (zh) | 一种基于网络编码的gps轨迹数据路段流量匹配方法 | |
CN112633592B (zh) | 基于机器学习聚类算法的车辆常跑路线计算方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |