CN112906812A - 基于带离群点去除的车辆轨迹聚类方法 - Google Patents

基于带离群点去除的车辆轨迹聚类方法 Download PDF

Info

Publication number
CN112906812A
CN112906812A CN202110252754.6A CN202110252754A CN112906812A CN 112906812 A CN112906812 A CN 112906812A CN 202110252754 A CN202110252754 A CN 202110252754A CN 112906812 A CN112906812 A CN 112906812A
Authority
CN
China
Prior art keywords
track
segment
track segment
clustering
central
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110252754.6A
Other languages
English (en)
Inventor
李晓辉
李宜霖
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110252754.6A priority Critical patent/CN112906812A/zh
Publication of CN112906812A publication Critical patent/CN112906812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于带离群点去除的车辆轨迹聚类方法,主要解决现有技术聚类时间复杂度高和聚类质量差的问题。其实现方案为:通过GPS采集车辆轨迹数据;整理轨迹数据格式并对数据清洗形成轨迹数据集;使用A‑MDL算法对轨迹数据进行轨迹段划分;采用带有离群因子LOF的DBSCAN算法对轨迹段数据集聚簇;使用引入了中心轨迹子轨迹段最大置信长度Z的扫描线方法确定轨迹簇的中心轨迹;通过坐标系旋转得到中心轨迹的实际坐标,各个轨迹簇的中心轨迹即为最终的车辆轨迹聚类的结果。本发明降低了轨迹聚类的时间复杂度,消除了离群轨迹的影响,提高了轨迹聚类的质量和聚类结果的平滑度,可用于城市交通管理和道路养护。

Description

基于带离群点去除的车辆轨迹聚类方法
技术领域
本发明属于大数据分析技术领域,进一步涉及一种车辆轨迹聚类方法,可用于城市交通中普通车辆行驶的行为分析和工程车辆相关的施工行为分析,为改善城市交通管理和道路养护提供依据。
背景技术
随着移动定位技术与移动通信系统的蓬勃发展,以及各类移动终端设备的广泛应用衍生了海量的移动对象的位置信息。位置信息中主要包括对象所处位置的经纬度和时间戳等信息,这些海量的数据被终端设备实时采集,并在持续累积的条件下形成了规模庞大高速集中的对象轨迹流信息。实时的对轨迹流数据进行处理分析可以感知移动对象在移动过程中发生的变化,并通过深度的分析揭示隐藏在对象行为模式背后的规律。
聚类是轨迹数据分析中经典的数据挖掘技术。聚类的主要目标是将海量的轨迹数据集划分成若干个相似度满足要求的簇用以表征不同的轨迹所代表的相似的移动趋势。然而,聚类算法的有效性受到限制的原因有三个:首先,聚类算法所需的输入参数值通常很难确定;第二,聚类算法对这些参数值是敏感的,即使参数设置稍有不同,也常常会产生非常不同的数据聚类结果;第三,现实世界中的高维数据集往往具有很大的分布偏差。
目前,对轨迹聚类算法的改进已经有很多研究。Xinzheng Niu等人在发表的论文“Label-Based Trajectory Clustering in Complex Road Networks”中提出了一种复杂道路网络中基于标号的轨迹聚类方法,该方法研究了复杂网络理论,探讨了复杂网络理论在道路网络轨迹聚类中的应用。具体来说,是将道路网络建模为对偶图,以助于有效地将聚类问题从道路网络中的子轨迹转化为复杂网络中的节点,并在此模型的基础上,设计了一种基于标签的轨迹聚类算法LBTC,用来捕捉和刻画节点间相似度的本质。该方法将网格理论应用于轨迹聚类中虽说可通过网状网络的特性增加轨迹段的可描述性,但该种方法在面对大规模的轨迹数据时,庞大的网状网络构建会成为性能的瓶颈。在Amir Salarpour等人发表的论文“Direction-based similarity measure to trajectory clustering”中提出基于方向的轨迹聚类相似性度量,其根据不同分辨率下的方向变化计算轨迹相似性,并通过轨迹段的角度描述对轨迹的相似性进行分析,以实现旋转和位置不变性,但该方法由于判断的条件单一,因而无法相对准确的描述相似性的概念。He Ailin等人发表的论文“Movement Pattern Extraction Based on a Non-parameter Sub-trajectoryClustering Algorithm”为了使轨迹聚类方法摆脱相关领域先验知识的限制,该方法改进了对轨迹段划分的方式,率先采用了通信领域中的MDL最小描述性原则,并基于该种相对准确的轨迹段描述使用DBSCAN算法进行后续的轨迹聚类分析。但直接使用MDL原则进行轨迹段划分的时间复杂度较高,难以适应海量轨迹数据的处理,并且仅使用基于密度的聚类算法聚类的准确度较低。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于带离群点去除的车辆轨迹聚类方法,以减小时间复杂度,提高聚类的运行效率和准确度。
本发明的技术思路是:在轨迹划分时通过使用带角度描述的轨迹划分策略A-MDL算法减小轨迹段划分过程的时间复杂度并提高轨迹段划分的准确度,通过在聚类的过程中采用了带离群因子LOF的DBSCAN算法提高聚类的准确度,通过在轨迹簇分析时设计最大置信长度的扫描策略,使得轨迹聚类结果更加平滑。
根据上述思路,本发明的实现步骤包括有如下:
(1)在车联网系统中通过GPS采集目标车辆移动的经度xr和纬度yr这些信息,并存储到云服务器;
(2)整理采集的车辆轨迹点的数据,并定义轨迹点格式:Pr=(xr,yr);
(3)遍历车辆目标的轨迹数据集,去除位置信息中重复位置的数据和采集失败或超出范围的错误数据,实现对车辆轨迹数据的清洗;
(4)对清洗后的车辆轨迹数据集中的轨迹逐个使用引入角度描述的最小描述长度A-MDL进行轨迹段划分,生成新的车辆轨迹段数据集:
(4a)选取车辆轨迹数据集中的一条轨迹,并将其表示为T={p1p2p3…pi…pn}其中pi表示轨迹第i点,n为轨迹中轨迹点的个数;
(4b)定义每个轨迹段角度为:
Figure BDA0002966717460000031
其中i、j为满足j>i的任意正整数,θk表示两条轨迹段的夹角,k从k=i开始递增至k=j;
(4c)设定角度阈值Amax,从轨迹的首个轨迹段开始对每个轨迹段进行角度判断:
若A的值大于Amax,则直接排除假设描述的可行性,向后扩充一个轨迹点重新进行判断,直到A的值小于角度阈值Amax
若A的值小于角度阈值Amax,则执行(4d);
(4d)计算轨迹段pipj的最小描述性原则MDL的成本:
若轨迹段pipj包含其它轨迹点,则将其MDL成本计算为MDLcost=S+H;
若轨迹段pipj不包含其它轨迹点,则将其MDL成本计算为MDLnp-cost=S;
其中,S为轨迹段pipj的假设描述长度,H为假设描述S下轨迹段pipj的描述长度;
(4e)对每个轨迹段pipj进行轨迹段划分判断:
若MDLcost<MDLnp-cost,则当前轨迹段满足划分条件假设描述S就是最佳轨迹段假设D,向后扩充一个轨迹点,若扩充至轨迹T的最后一个轨迹点pn,则完成轨迹段划分,即生成的新轨迹段数据集,执行(5),否则,返回(4c);
若MDLcost≥MDLnp-cost则回退一个轨迹点,返回(4c);
(5)使用带LOF离群因子的DBSCAN算法,按照密度可达性原则将轨迹段划分生成的新轨迹段数据集分为不同的轨迹簇;
(6)设轨迹簇中心轨迹的任意子轨迹段最大置信长度为Z表示,在Z的限制下对多个轨迹簇进行扫描,得到每个轨迹簇的中心轨迹;
(7)对扫描得到的中心轨迹进行坐标系旋转,计算每个轨迹簇中心轨迹的实际坐标,这些中心轨迹为轨迹聚类的最终结果。
本发明与现有技术相比具有以下优点:
第一,本发明由于使用了A-MDL算法改进轨迹段划分的过程,提高了轨迹段划分的效率。
第二,本发明由于使用带LOF离群因子的DBSCAN算法将轨迹段数据集分为不同的轨迹簇,消除了离群样本的影响,提高了聚类的质量。
第三,本发明由于在轨迹簇扫描时设置了中心轨迹的任意子轨迹段最大置信长度Z,使得中心轨迹更加平滑。
附图说明
图1为本发明的实现总流程图;
图2为本发明中GPS采集车辆位置信息的车辆网系统框架图;
图3为本发明中轨迹数据清洗子流程图;
图4为本发明中定义轨迹段之间的间距示意图;
图5为本发明中轨迹段扫描的示意图;
图6为本发明中旋转坐标系的示意图。
具体实施方式
下面结合附图对本发明的实施例作进一步的详细描述。
参照图1,本发明的实现步骤如下:
步骤1,采集车辆轨迹数据集。
本实例的轨迹聚类是基于车联网系统下车辆轨迹数据的采集进行。
所述车联网系统,如图2所示,其包括车载终端、云端服务器、前端网页这三大部分。其中车载终端主要负责采集车辆设备的相关参数、车辆位置、运行时间、传感器数据等信息并通过4G移动网络实现数据上传;云端服务器主要对存储在服务器中的车辆相关信息进行分析;前端网页用于进行可视化信息显示,将云端分析数据的结果通过网页向用户进行展示,直观的展现车辆运行情况、位置信息等统计分析结果为车辆行为分析提供依据。
基于上述系统,本实例预先设定采集频率,车载的终端通过GPS信号,每隔一段时间获取车辆目标的经度x和纬度y信息,并由4G网络传输至云端服务器存储,随着轨迹数据的积累在云端服务器形成车辆轨迹数据集。
步骤2,轨迹点数据整理。
根据轨迹数据的特征,将通过GPS信号采集到的经纬度数据进行格式整理,遍历每条轨迹的数据信息,将轨迹中每一个轨迹点的格式定义为点p=(x,y)。
步骤3,对轨迹数据集进行清洗。
在GPS采集车辆位置信息时,车辆目标长时间停留在某个位置时会导致采集到大量重复的数据点,此外,由于GPS信号的不稳定性,采集中时常会记录到一些错误信息或空信息。这些重复或错误的位置信息会影响轨迹聚类分析,所以轨迹聚类前需要进行数据清洗。
如图3所示,本实例进行轨迹数据清洗的实现如下:
3.1)遍历轨迹数据集中的轨迹点,判断当前轨迹点的经纬度信息是否与相邻的下一个轨迹点重复:
若重复,则删除当前轨迹点,对下一个轨迹点重新进行判断,直到所有轨迹点判断完毕,得到数据清洗后的轨迹数据集,执行步骤4;
若不重复,则直接执行3.2);
3.2)判断当前轨迹点的经纬度信息是否符合轨迹点的格式:
若不符合,则删除当前轨迹点,对下一个轨迹点执行3.1);
若符合,则直接对下一个轨迹点执行3.1)。
步骤4,对数据清洗后的轨迹数据集进行轨迹段划分。
轨迹数据是通过GPS设备对车辆目标的位置进行均匀持续的采点形成的一组轨迹点数据集,如何通过采集的轨迹点描述聚类分析可用的轨迹段是轨迹聚类中十分重要的一个步骤。轨迹段划分不仅要保证划分出的轨迹段能尽可能表征车辆目标原有的移动趋势,还需要使用尽量少的轨迹点生成轨迹段以减少海量数据时处理的时间。常用的轨迹段划分算法有两种:一种是Douglas-Peucker压缩算法,该方法使用距离阈值的限制对轨迹段进行划分,其直接通过距离限制进行划分,划分结果无法很好的表征原轨迹的趋势;另一种是使用MDL最小长度描述性原则对轨迹段进行划分,该算法时间复杂度较高。本实例在MDL算法的基础上扩展了角度描述提出了A-MDL算法,通过角度阈值的判断降低了轨迹段划分的时间复杂度。A-MDL算法遍历轨迹数据集中的每一条轨迹进行轨迹段划分,步骤如下:
4.1)选取车辆轨迹数据集中的一条轨迹T,并将其表示为:
T={p1p2p3…pi…pn}
其中,pi表示轨迹第i点,n为轨迹中轨迹点的个数;
4.2)为了降低算法的时间复杂度,本实例在轨迹段划分时定义了任意一个轨迹段pipj的角度为:
Figure BDA0002966717460000061
其中i、j为满足j>i的任意正整数,θk表示两条轨迹段的夹角,k从k=i开始递增至k=j;
4.3)根据轨迹聚类使用时不同的实际场景,设定轨迹段角度的阈值Amax,本实例基于车辆轨迹聚类的场景,将角度阈值Amax设定为30°;
4.4)从轨迹段角度入手,判断轨迹段是否符合轨迹划分要求,即从轨迹的首个轨迹段开始对每个轨迹段进行角度判断:
若A的值大于Amax,则判定当前轨迹段不符合轨迹段划分的要求,向后扩充一个轨迹点重新进行判断,直到A的值小于角度阈值Amax
若A的值小于角度阈值Amax,则执行4.5);
4.5)完成角度判断后使用MDL原则进行下一步轨迹段划分,MDL原则的原理是找到数据总描述长度最小的模型最为最佳假设,实现如下:
4.5.1)寻找轨迹段pipj最佳假设需要计算pipj的MDL成本,为了计算MDL成本,本实例参照图4,首先对轨迹T中任意两条轨迹段pipj和pbpm的垂直距离d和角度距离dθ分别定义为:
Figure BDA0002966717460000062
Figure BDA0002966717460000063
其中,b、m为任意正整数,且m>b;l⊥i为端点pi与轨迹段pbpm之间的垂直距离;l⊥j为端点pj与轨迹段pbpm之间的垂直距离;L(pipj)表示两个轨迹点pi与pj之间的距离;θ为轨迹段pipj与轨迹段pbpm之间的夹角;
4.5.2)依据轨迹段间的垂直距离d和角度距离dθ,设轨迹段pipj的假设描述长度S和假设描述S下轨迹段pipj的描述长度H分别为:
S=log2(L(pipj)),
Figure BDA0002966717460000071
4.5.3)依据S和H的值,对轨迹段pipj的MDL成本进行计算:
若轨迹段pipj中包含其它轨迹点则称为分段轨迹,将其MDL成本计算为MDLcost=S+H;
若轨迹段pipj中不包含其它轨迹点则称为不分段轨迹,将其MDL成本计算为MDLnp-cost=S;
4.6)轨迹段划分的目的是寻找最佳假设,根据计算得到的MDL成本判断假设描述长度S是否为最佳假设:
如果MDLcost<MDLnp-cost,则假设描述S就是最佳假设,向后扩充一个轨迹点,并根据扩充轨迹点的次序判断轨迹段划分是否完成:
若扩充的轨迹点为轨迹T的最后一个轨迹点pn,则完成轨迹段划分,即生成的新轨迹数据集,执行步骤5;否则,返回4.4);
如果MDLcost≥MDLnp-cost,则假设描述S下轨迹段pipj的描述长度H不是最小值,表明当前轨迹段不满足轨迹段划分条件,需回退一个轨迹点后,返回4.4);
步骤5,使用带LOF因子的DBSCAN算法对新轨迹数据集聚簇。
轨迹段的聚簇是轨迹聚类中的关键步骤,通过不同轨迹间存在的相似性对轨迹数据集进行分析,将相似度符合要求的轨迹的集合作为一个轨迹簇。
现有的轨迹聚簇过程常用两种算法进行:第一种是K-MEANS算法,该算法是一种仅依靠轨迹对象间距离关系进行相似度判断的算法,距离越近则相似度越高,但该算法由于仅依靠距离聚簇使得聚簇的结果始终为圆形区域,与轨迹形状多变的特性不符导致聚簇结果存在偏差;第二种是DBSCAN算法,该算法是一种基于密度的判断轨迹对象间相似度的方法,并将判断不同轨迹对象间是否密度可达作为轨迹对象是否属于同一个轨迹簇的依据,聚簇的结果为任意的形状,改善了K-MEANS算法聚簇结果为圆形区域的缺点。
本实例针对现实采集的轨迹数据存在较大分布偏差的特性,将一种带离群因子LOF的DBSCAN算法应用于轨迹聚簇的过程。在轨迹聚簇的过程中引入了LOF离群因子用来表征轨迹对象的离群度,在轨迹对象的离群因子LOF不大于限制时,通过寻找局部密度可达的轨迹生成轨迹簇,具体实现如下:
5.1)定义如下概念,以在基于DBSCAN算法进行轨迹聚簇的过程中引入轨迹段T的离群因子LOF:
5.1.1)参照图4,定义轨迹段pipj和pbpm间的距dist(pipj,pbpm)=d+dθ+d||,其中d||=MIN(l||1,l||2),其中,l||1表示pi向pbpm做垂线的垂点与pb的距离;l||2分别表示表示pj向pbpm做垂线的垂点与pm的距离;
5.1.2)给定任意正整数s,定义轨迹段T的s阶距离为distsT,该distsT的值是轨迹段T和核心轨迹段之间的距离;
5.1.3)定义Ns(T)为轨迹段T的s阶邻域,邻域中任意一条轨迹段T'与轨迹段T的距离小于或等于distsT
5.1.4)将在轨迹段T的e阶领域内,最少有e个非T的轨迹段T'满足dist(O,T')<dist(T,O),并且LOF(T)<LOFUB,的轨迹段定义为轨迹段T为核心轨迹段,其中e为限制邻域阶数的常数,LOFUB为离群因子阈值;
5.1.5)定义邻域阶数为s时,相对可达距离dist-reachTO为轨迹段T相对核心轨迹段O的可达距离,dist-reachTO=max{distsO,dist(O,T)};
5.1.6)定义邻域阶数为s时轨迹段T局部可达密度LRDs(T)为:
Figure BDA0002966717460000081
5.1.7)定义邻域阶数为s时轨迹段T的局部离群因子LOFs(T)表示为
Figure BDA0002966717460000082
5.1.8)若轨迹段T'在轨迹段T的s阶邻域范围内,且满足:
Figure BDA0002966717460000083
则定义这两个轨迹段T和T'的局部密度可达,其中pct为用于限制波动范围的常数;
5.2)根据轨迹聚类的聚类质量设置轨迹聚簇的三个核心参数:邻域阶数的限制e、密度限制pct、离群因子阈值LOFUB,本实例在车辆轨迹的实际场景中根据聚类结果的对比设置e=28;pct=0.5、LOFUB=3;
5.3)遍历轨迹数据集,根据5.1.4)定义将所有满足核心轨迹段条件的轨迹段标记为核心轨迹段;
5.4)从轨迹数据集中随机选取一个核心轨迹段;
5.5)遍历轨迹段数据集,根据5.1.8)定义找出所有与当前核心轨迹段局部密度可达的轨迹段,形成轨迹簇;
5.6)在未聚簇的轨迹段中随机选取核心轨迹段:
若未聚簇的轨迹段中不存在核心轨迹段,则轨迹段聚簇结束,执行步骤6;
若未聚簇的轨迹段中存在核心轨迹段,则返回5.5);
步骤6,使用扫描线法生成每个轨迹簇的中心轨迹。
每一个轨迹簇中包含多个轨迹段,对轨迹簇分析得到中心轨迹是进行轨迹聚类的最终目的,中心轨迹表征了车辆目标的行为特点,可用于后续的异常检测、热点分析这些过程。因此,在一个轨迹簇中分析出一条能充分代表该簇运动特征的轨迹是十分必要的。扫描线法是轨迹簇分析的一种常用算法,通过定义一个垂直于轨迹簇轴线方向的扫描线对轨迹簇进行扫描,根据扫描线穿过轨迹段数量的变化分析得到轨迹簇中心轨迹。
参照图5,本实例采用扫描线的方法生成轨迹簇的中心轨迹,并设置了中心轨迹子轨迹段最大置信长度Z,使得生成的中心轨迹更加平滑,具体实现如下:
6.1)根据轨迹聚类结果的平滑度设置轨迹簇扫描的两个核心参数:中心轨迹子轨迹段最大置信长度Z和扫描线所需要穿过的最小的轨迹段个数M,本实例在车辆轨迹的实际场景中根据聚类结果的对比设置Z=45、M=3;
6.2)定义一条垂直于轨迹簇轴线的线段为扫描线;
6.3)扫描线沿轴线方向移动进行扫描:
若扫描线穿过轨迹簇轴线终点,则结束轨迹簇扫描,执行步骤7;
否则,执行6.4);
6.4)当扫描线穿过的轨迹段实际个数大于等于预设个数M时,使用扫描线与所有穿过的轨迹段交点,计算中心轨迹点的平均坐标(x',y'):
参照图6,计算平均坐标是根据扫描线与三条不同的轨迹段的交点(x',y1')、(x',y'2)、(x',y'3)计算中心轨迹点为:
Figure BDA0002966717460000101
并保存当前扫描线的位置;
6.5)在扫描线间距不超过中心轨迹的任意子轨迹段最大置信长度Z的条件下,继续移动扫描线,直到扫描线穿过的轨迹段个数小于M时,计算得到中心轨迹点的平均坐标后,返回6.3)。
步骤7,对轨迹簇中心轨迹进行坐标系旋转。
由于轨迹簇的方向是任意的,计算中心轨迹的轨迹点时使用的是以轨迹簇轴线方向为横轴建立的平面直角坐标系,因此,为了得到中心轨迹在原平面直角坐标系XY下的实际坐标,需要对中心轨迹的坐标点进行坐标系旋转。
参照图6,本步骤的具体实现如下:
7.1)定义轨迹簇轴线方向与坐标系X轴的夹角为φ;
7.2)设以轨迹簇轴线方向为横轴建立的平面直角坐标系下,中心轨迹中任意一个轨迹点pe的横纵坐标值为x'、y',根据坐标系旋转的对应关系计算点pe实际坐标x、y的值:
Figure BDA0002966717460000102
7.3)计算所有中心轨迹的轨迹点的实际坐标,轨迹聚类的最终结果为每个轨迹簇中心轨迹点构成的中心轨迹。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明的内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (5)

1.一种基于带离群点去除的车辆轨迹聚类方法,其特征在于,包括如下:
(1)在车联网系统中通过GPS采集目标车辆移动的经度x和纬度y这些信息,并存储到云服务器;
(2)整理采集的车辆轨迹点的数据,并定义轨迹点格式:p=(x,y);
(3)遍历车辆目标的轨迹数据集,去除位置信息中重复位置的数据和采集失败或超出范围的错误数据,实现对车辆轨迹数据的清洗;
(4)对清洗后的车辆轨迹数据集中的轨迹逐个使用引入角度描述的最小描述长度A-MDL进行轨迹段划分,生成新的车辆轨迹段数据集:
(4a)选取车辆轨迹数据集中的一条轨迹,并将其表示为T={p1p2p3…pi…pn}其中pi表示轨迹第i点,n为轨迹中轨迹点的个数;
(4b)定义每个轨迹段角度为:
Figure FDA0002966717450000011
其中i、j为满足j>i的任意正整数,θk表示两条轨迹段的夹角,k从k=i开始递增至k=j;
(4c)设定角度阈值Amax,从轨迹的首个轨迹段开始对每个轨迹段进行角度判断:
若A的值大于Amax,则直接排除假设描述的可行性,向后扩充一个轨迹点重新进行判断,直到A的值小于角度阈值Amax
若A的值小于角度阈值Amax,则执行(4d);
(4d)计算轨迹段pipj的最小描述性原则MDL的成本:
若轨迹段pipj包含其它轨迹点,则将其MDL成本计算为MDLcost=S+H;
若轨迹段pipj不包含其它轨迹点,则将其MDL成本计算为MDLnp-cost=S;
其中,S为轨迹段pipj的假设描述长度,H为假设描述S下轨迹段pipj的描述长度;
(4e)对每个轨迹段pipj进行轨迹段划分判断:
若MDLcost<MDLnp-cost,则当前轨迹段满足划分条件假设描述S就是最佳轨迹段假设D,向后扩充一个轨迹点,若扩充至轨迹T的最后一个轨迹点pn,则完成轨迹段划分,即生成的新轨迹段数据集,执行(5),否则,返回(4c);
若MDLcost≥MDLnp-cost则回退一个轨迹点,返回(4c);
(5)使用带LOF离群因子的DBSCAN算法,按照密度可达性原则将轨迹段划分生成的新轨迹段数据集分为不同的轨迹簇;
(6)设轨迹簇中心轨迹的任意子轨迹段最大置信长度为Z表示,在Z的限制下对多个轨迹簇进行扫描,得到每个轨迹簇的中心轨迹;
(7)对扫描得到的中心轨迹进行坐标系旋转,计算每个轨迹簇中心轨迹的实际坐标,这些中心轨迹为轨迹聚类的最终结果。
2.根据权利要求1所述的基于带离群点去除车辆轨迹聚类方法,其特征在于,(4d)中轨迹段pipj的假设描述长度S和假设描述S下轨迹段pipj的描述长度H,计算如下:
(4d1)定义轨迹T中任意两条轨迹段pipj和pbpm的垂直距离d和角度距离dθ分别为:
Figure FDA0002966717450000021
Figure FDA0002966717450000022
其中,b、m为任意正整数,且m>b;l⊥i为端点pi与轨迹段pbpm之间的垂直距离;l⊥j为端点pj与轨迹段pbpm之间的垂直距离;L(pipj)表示两个轨迹点pi与pj之间的距离;θ为轨迹段pipj与轨迹段pbpm之间的夹角;
(4d2)根据垂直距离d和角度距离dθ,分别计算假设描述长度S和假设描述S下轨迹段pipj的描述长度H:
S=log2(L(pipj)),
Figure FDA0002966717450000031
其中,d(pkpk+1,pipj)表示轨迹段pkpk+1与pipj的垂直距离;dθ(pkpk+1,pipj)表示轨迹段pkpk+1与pipj的角度距离;k从k=i开始递增至k=j。
3.根据权利要求1所述的方法,其特征在于,(5)中的使用带LOF离群因子的DBSCAN算法将轨迹段划分生成的新轨迹段数据集分为不同的轨迹簇,实现如下:
(5a)设定离群因子阈值LOFUB,将所有离群因子小于LOFUB的轨迹段均作为核心轨迹段;
(5b)在轨迹段数据集中随机选取一段LOF<LOFUB的轨迹段作为核心轨迹段;
(5c)遍历轨迹段数据集,找出所有与当前核心轨迹段局部密度可达的轨迹段,形成轨迹簇;
(5d)在未聚簇的轨迹段中随机选取一段LOF<LOFUB的轨迹段作为核心轨迹段,执行(5c),直至未聚簇的轨迹段中不存在核心轨迹段时结束。
4.根据权利要求1所述的方法,其特征在于,(6)中的对轨迹簇进行扫描,实现如下:
(6a)定义一条垂直于轨迹簇轴线的线段为扫描线,扫描线沿轴线方向移动进行扫描。预设扫描线所需要穿过的最小的轨迹段个数为M;
(6b)当扫描线穿过的轨迹段实际个数大于等于预设个数M时,使用扫描线与所有穿过的轨迹段交点,计算中心轨迹点的平均坐标,作为中心轨迹的一个轨迹点,并保存当前扫描线的位置;
(6c)在扫描线间距不超过中心轨迹的任意子轨迹段最大置信长度Z的条件下继续移动,直至扫描线穿过的轨迹段个数小于M时,使用扫描线与所有穿过的轨迹段交点,计算中心轨迹点的平均坐标,作为中心轨迹中的一个轨迹点;(6d)返回(6b)直至扫描线穿过轨迹簇轴线终点结束。
5.根据权利要求1所述的方法,其特征在于,(7)中计算中心轨迹实际坐标,实现如下:
(7a)定义轨迹簇轴线方向与坐标系X轴的夹角为φ;
(7b)设原中心轨迹中任意一个轨迹点为pe的横纵坐标值为x'、y',根据坐标系旋转的对应关系,计算点pe实际坐标x、y的值:
Figure FDA0002966717450000041
(7c)用每个轨迹簇中心的轨迹点构成该轨迹簇中心轨迹。
CN202110252754.6A 2021-03-09 2021-03-09 基于带离群点去除的车辆轨迹聚类方法 Pending CN112906812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110252754.6A CN112906812A (zh) 2021-03-09 2021-03-09 基于带离群点去除的车辆轨迹聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110252754.6A CN112906812A (zh) 2021-03-09 2021-03-09 基于带离群点去除的车辆轨迹聚类方法

Publications (1)

Publication Number Publication Date
CN112906812A true CN112906812A (zh) 2021-06-04

Family

ID=76106978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110252754.6A Pending CN112906812A (zh) 2021-03-09 2021-03-09 基于带离群点去除的车辆轨迹聚类方法

Country Status (1)

Country Link
CN (1) CN112906812A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115206095A (zh) * 2022-06-28 2022-10-18 公安部交通管理科学研究所 一种卡口过车轨迹数据重构方法
CN115878694A (zh) * 2023-01-31 2023-03-31 小米汽车科技有限公司 轨迹的挖掘方法、装置及电子设备
WO2023169100A1 (zh) * 2022-03-07 2023-09-14 中兴通讯股份有限公司 用户分簇方法、装置及计算机存储介质
CN117290741A (zh) * 2023-11-14 2023-12-26 北京阿帕科蓝科技有限公司 车辆聚类方法、装置、计算机设备和存储介质
CN117349688A (zh) * 2023-12-01 2024-01-05 中南大学 一种基于峰值轨迹的轨迹聚类方法、装置、设备及介质
CN117874158A (zh) * 2024-03-12 2024-04-12 远江盛邦(北京)网络安全科技股份有限公司 聚类地图位置数据的自适应调整方法和装置
CN117874158B (zh) * 2024-03-12 2024-05-28 远江盛邦(北京)网络安全科技股份有限公司 聚类地图位置数据的自适应调整方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109708638A (zh) * 2018-12-03 2019-05-03 江苏科技大学 一种船舶轨迹点提取方法
CN111242521A (zh) * 2020-04-24 2020-06-05 中国人民解放军国防科技大学 轨迹异常检测方法和系统
CN111539454A (zh) * 2020-03-30 2020-08-14 武汉理工大学 一种基于元学习的车辆轨迹聚类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109708638A (zh) * 2018-12-03 2019-05-03 江苏科技大学 一种船舶轨迹点提取方法
CN111539454A (zh) * 2020-03-30 2020-08-14 武汉理工大学 一种基于元学习的车辆轨迹聚类方法及系统
CN111242521A (zh) * 2020-04-24 2020-06-05 中国人民解放军国防科技大学 轨迹异常检测方法和系统
US10902337B1 (en) * 2020-04-24 2021-01-26 Jun Tang Method and device of trajectory outlier detection, and storage medium thereof

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HE AILIN 等: "Cluster-based trajectory overall trend extraction", 《PROCEEDINGS OF THE 36TH CHINESE CONTROL CONFERENCE》 *
HE AILIN 等: "Movement Pattern Extraction Based on a Non-parameter Sub-trajectory Clustering Algorithm", 《2019 THE 4TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS》 *
YINGCHI MAO 等: "An Adaptive Trajectory Clustering Method Based on Grid and Density in Mobile Pattern Analysis", 《SENSORS》 *
周培培 等: "基于DBSCAN聚类算法的异常轨迹检测", 《红外与激光工程》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023169100A1 (zh) * 2022-03-07 2023-09-14 中兴通讯股份有限公司 用户分簇方法、装置及计算机存储介质
CN115206095A (zh) * 2022-06-28 2022-10-18 公安部交通管理科学研究所 一种卡口过车轨迹数据重构方法
CN115206095B (zh) * 2022-06-28 2024-05-14 公安部交通管理科学研究所 一种卡口过车轨迹数据重构方法
CN115878694A (zh) * 2023-01-31 2023-03-31 小米汽车科技有限公司 轨迹的挖掘方法、装置及电子设备
CN117290741A (zh) * 2023-11-14 2023-12-26 北京阿帕科蓝科技有限公司 车辆聚类方法、装置、计算机设备和存储介质
CN117290741B (zh) * 2023-11-14 2024-03-19 北京阿帕科蓝科技有限公司 车辆聚类方法、装置、计算机设备和存储介质
CN117349688A (zh) * 2023-12-01 2024-01-05 中南大学 一种基于峰值轨迹的轨迹聚类方法、装置、设备及介质
CN117349688B (zh) * 2023-12-01 2024-03-19 中南大学 一种基于峰值轨迹的轨迹聚类方法、装置、设备及介质
CN117874158A (zh) * 2024-03-12 2024-04-12 远江盛邦(北京)网络安全科技股份有限公司 聚类地图位置数据的自适应调整方法和装置
CN117874158B (zh) * 2024-03-12 2024-05-28 远江盛邦(北京)网络安全科技股份有限公司 聚类地图位置数据的自适应调整方法和装置

Similar Documents

Publication Publication Date Title
CN112906812A (zh) 基于带离群点去除的车辆轨迹聚类方法
CN107766808B (zh) 道路网络空间中车辆对象移动轨迹聚类的方法及系统
JP6561199B2 (ja) レーザ点群に基づく都市道路の認識方法、装置、記憶媒体及び機器
CN111192284B (zh) 一种车载激光点云分割方法及系统
CN108256577B (zh) 一种基于多线激光雷达的障碍物聚类方法
CN111299815B (zh) 一种用于低灰度橡胶垫视觉检测与激光切割轨迹规划方法
CN109167805B (zh) 基于城市场景中车联网时空数据的分析处理方法
CN108519094B (zh) 局部路径规划方法及云处理端
CN108961758B (zh) 一种基于梯度提升决策树的路口展宽车道探测方法
CN106777093B (zh) 基于空间时序数据流应用的Skyline查询系统
WO2023065395A1 (zh) 作业车辆检测与跟踪方法和系统
CN112100435B (zh) 一种基于边缘端交通音视频同步样本的自动标注方法
CN108765961B (zh) 一种基于改进型限幅平均滤波的浮动车数据处理方法
CN109739585B (zh) 基于spark集群并行化计算的交通拥堵点发现方法
CN116055413B (zh) 一种基于云边协同的隧道网络异常识别方法
Liu et al. Extending the detection range for low-channel roadside LiDAR by static background construction
WO2022198817A1 (zh) 车辆图像聚类及轨迹还原方法
CN107944628A (zh) 一种路网环境下的聚集模式发现方法及系统
CN112269844B (zh) 基于大规模轨迹数据的通用伴随模式分布式挖掘方法
CN113110507A (zh) 一种自主避障的路径规划方法
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
CN113932821A (zh) 基于连续窗口平均方向特征的轨迹地图匹配方法
CN113052265B (zh) 基于特征选择的移动对象轨迹简化方法
Xie et al. Road network inference from GPS traces using DTW algorithm
Tampakis et al. Maritime data analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination