CN113611115B

CN113611115B - 一种基于路网敏感特征的车辆轨迹聚类方法

Info

Publication number: CN113611115B
Application number: CN202110901581.6A
Authority: CN
Inventors: 陈传明; 叶震; 俞庆英; 胡凡; 龚杉; 杨峰; 肖振兴; 孙丽萍; 郑明�
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2022-06-21
Anticipated expiration: 2041-08-06
Also published as: CN113611115A

Abstract

本发明公开一种基于路网敏感特征的车辆轨迹聚类方法，包括：构建路网拓扑表；获取轨迹上各轨迹点在路网中的匹配路段，将所有轨迹点的匹配路段依次连接形成路段轨迹；连接路段轨迹的起始位置点和终止位置点，形成路段轨迹的方向向量，基于路段轨迹的方向向量与正北方向形成的夹角对路段轨迹进行方向聚类，形成若干方向簇；针对每个方向簇，基于路网中路段的密度、连通性以及转角计算对应路段的敏感值，基于路段的敏感值对路段进行聚类，形成若干路段簇；基于路段簇间距离对路段簇对应的路段轨迹进行再次聚类，即完成了车辆轨迹的聚类；基于路网中路段密度、连通性和转角特性的路段聚类方法，该方法能有效度量车辆轨迹数据在路网中的整体和局部相似性。

Description

一种基于路网敏感特征的车辆轨迹聚类方法

技术领域

本发明属于数据挖掘技术领域，更具体地，本发明涉及一种基于路网敏感特征的车辆轨迹聚类方法。

背景技术

随着通信和定位技术的快速发展以及移动跟踪设备的应用普及，人们可以很容易获取和存储大量移动对象的轨迹数据，用于记录车辆移动位置、人类活动、动物迁移和台风运动路线等，这些轨迹数据是按时间顺序排列的位置序列，包含大量时间和空间语义信息，对这些信息进行必要的数据分析，可以获取数据中隐藏的知识，比如分析人类的旅游移动轨迹，进行兴趣点提取，可以推荐旅游路线；分析动物迁移轨迹，可以发现它们的活动分布；分析台风轨迹，可以预测台风未来可能的运动趋势和方向。然而，时空数据的海量性和多样性为数据分析带来了挑战，需要设计有效方法来揭示轨迹数据中的潜在知识。

聚类分析是发现轨迹潜在知识的有效方法之一，对轨迹数据进行聚类分析可以挖掘它们的共同特征，从而发现感兴趣的知识。目前具有代表性的聚类算法包括基于划分的k-means算法、基于层次的BIRCH算法以及基于密度的DBSCAN算法和OPTICS算法等。但是很难将这些传统的聚类算法直接应用到轨迹聚类中，因为传统聚类算法主要针对一个个数据点，将拥有相似特征的数据点聚类到一个簇中。然而轨迹之间的相似特征很难通过数据点进行衡量，所以部分研究者考虑将连续的数据点作为一个对象来进行轨迹聚类，但是没有考虑到实际道路网络的影响，因此另一部分研究者考虑将轨迹中的点进行路网匹配后，再对轨迹路段进行聚类，从而更符合实际情况，但是只考虑到同一个出发地和同一个目的地之间的轨迹，使用真实路网中模拟车辆的轨迹，且没有考虑不同出发点和目的地位置的相似性以及路网的特性，现有车辆轨迹聚类方法不能有效度量真实路网中轨迹之间的相似性，导致聚类结果不好。

发明内容

本发明提供一种基于路网敏感特征的车辆轨迹聚类方法，旨在提供一种衡量真实路网中车辆轨迹之间的相似性的聚类方法。

本发明是这样实现的，一种基于路网敏感特征的车辆轨迹聚类方法，所述方法具体包括如下步骤：

S1、对轨迹数据和路网数据进行预处理，对路网中的同一路段的不同方向进行区分，构建路网拓扑表；

S2、获取轨迹上各轨迹点在路网中的匹配路段，将所有轨迹点的匹配路段依次连接形成路段轨迹；

S3、连接路段轨迹的起始位置点和终止位置点，形成路段轨迹的方向向量，基于路段轨迹的方向向量与正北方向形成的夹角对路段轨迹进行方向聚类，形成若干方向簇；

S4、针对在每个方向簇，基于路网中路段的路段密度、连通性以及转角计算对应路段的敏感值，基于路段的敏感值对路段进行聚类，形成若干路段簇；

S5、基于路段簇间距离对路段簇对应的路段轨迹进行再次聚类，即完成了车辆轨迹的聚类；

其中，路网拓扑表包括：路段标识、起始道路节点、终止道路节点、传入路段、传出路段、起始道路节点和终止道路节点的经纬度坐标以及路段长度。

进一步的，路段簇的聚类方法具体如下：

S41、计算各方向簇中每个路段的路段密度，路段密度即包括该路段的轨迹数量；

S42、选择未访问过的密度最大的路段作为簇中心，若有多个相同密度大小的簇中心，则选择最长的路段作为唯一簇中心；

S43、基于路网拓扑表分别计算簇中心的传入路段和传出路段的敏感值CV；

S44、选取敏感值CV最大的未访问路段，检测该路段的密度是否大于或等于密度阈值α；

S45、若检测结果为是，则将该路段加入到簇中心，标记为被访问，执行步骤S44，直至所有的传入路段和传出路段均被访问，则该簇中心对应的路段簇聚类完成，查找下一个簇中心，即执行步骤S42；

S46、若检测结果为否，则该簇中心对应的路段簇聚类完成，查找下一个簇中心，即执行步骤S42，直至该方向簇中的下一个簇中心密度小于密度阈值α。

进一步的，传入路段r_i的敏感值CV获取方法如下：

计算传入路段r_i的路段密度、传入路段r_i到簇中心路段的连通性及传入路段r_i与簇中心路段的夹角；

对传入路段的路段密度、传入路段r_i到簇中心路段的连通性及传入路段r_i与簇中心路段的夹角进行归一化，获取密度因子q_i，连通性因子f_i和转角因子t_i；

基于获取密度因子q_i，连通性因子f_i和转角因子t_i计算传入路段r_i的敏感值CV，其计算公式如下：

CV＝w₁·q_i+w₂·f_i+w₃·t_i

其中，w₁，w₂，w₃分别表示密度因子q_i，连通性因子f_i和转角因子t_i的权重值。

进一步的，传出路段r_k的敏感值CV获取方法如下：

获取传出路段r_k的路段密度、簇中心路段到传出路段r_k的连通性及传出路段r_k与簇中心路段的夹角；

对传出路段r_k的路段密度、簇中心路段到传出路段r_k的连通性及传出路段r_k与簇中心路段的夹角进行归一化，获取密度因子q_k，连通性因子f_k和转角因子t_k；

基于密度因子q_k，连通性因子f_k和转角因子t_k计算传出路段r_k的敏感值CV，其计算公式如下：

CV＝w₁·q_k+w₂·f_k+w₃·t_k

其中，w₁，w₂，w₃分别表示密度因子q_k，连通性因子f_k和转角因子t_k的权重值。

进一步的，路段簇的聚类方法具体如下：

S51、基于路网拓扑表生成的每个路段簇在路网中经过的道路节点，并计算它们在路网中的总长度，按照长度大小降序排列；

S52、选择序列中未被访问的最长路段簇为簇中心，将簇中心对应的路段簇标记为被访问，计算簇中心的路段簇与其他路段簇的距离；

S53、将距离小于或等于设定阈值的路段簇放入簇中心所在簇，并将路段簇标记为被访问，执行步骤S52，直至所有的路段簇均被访问。

进一步的，两路段簇间的距离计算方法具体如下：

基于Dijkstra算法在路网中找到簇中心的端点道路节点和另一路段簇对应端点的道路节点相连通的中间道路节点，并按照顺序连接，两路段簇间形成至少一个多边形，将多边形的面积进行累加，用累加后的面积表示两路段簇间的距离。

进一步的，轨迹点在路网中的匹配路段获取方法具体如下：

S21、获取所有轨迹点到路网中各路段的距离，将距离值按从小到大的顺序排列，选取前n个路段作为对应轨迹点的候选路段；

S22、将当前轨迹点和下一个相邻轨迹点形成当前轨迹点的方向向量，计算当前轨迹点的方向向量与各候选路段的夹角；

S23、将当前轨迹点距各候选路段的距离、当前轨迹点的方向向量与各候选路段的夹角进行归一化，归一化后计算两者之和，将两者之和的最小值对应的路段作为当前轨迹点的匹配路段；

S24、检测当前的匹配路段是否为前一个匹配路段的传出路段，若检测结果为否，则根据Dijkstra算法将两个匹配路段之间连通。

本发明提供的车辆轨迹聚类方法具有如下有益技术效果：

(1)针对真实路网构建路网拓扑表，提高检索速度，并依据局部Dijkstra算法对地图匹配中的缺失路段插入，提高了数据利用率；

(2)针对车辆整体运动趋势对轨迹进行方向聚类，再依据地图匹配后的路段轨迹，提出一种基于路网中路段密度、连通性和转角特性的路段聚类方法，该方法能有效度量车辆轨迹数据在路网中的整体和局部相似性，有益于实际应用中的使用，如城市道路规划和拥挤道路检测；

(3)提出一种路网中多面积相似性度量方法，基于该方法对轨迹路段聚类结果进行合并聚类，获得最终的聚类结果，该方法可以有效度量实际路网中车辆轨迹之间的距离，同时，获得了较好的可视化聚类效果，具有更好的实际指导意义，如公共交通规划。

附图说明

图1为本发明实施例提供的基于路网敏感特征的车辆轨迹聚类方法的流程图；

图2为本发明实施例提供的路网的模型图；

图3为本发明实施例提供的轨迹点到路段的距离示意图，其中，(a)为轨迹点的投影点在路段上,(b)为轨迹点的投影点在路段的延长线上；

图4为本发明实施例提供的地图匹配示意图；

图5为本发明实施例提供的在北京市路网数据和出租车轨迹数据上运行的聚类效果示意图，其中，(a)为TCRNC算法聚类效果示意图，(b)为TCRNC算法在长度约束为3000m下的聚类效果示意图，(c)为TOPOSCAN算法聚类效果示意图，(d)为TOPOSCAN算法在长度约束为3000m下的聚类效果示意图；

图6为本发明实施例提供的TCRNC算法和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类结果对比图，其中，(a)为生成簇的最大长度对比结果示意图，(b)生成簇的平均长度对比结果示意图；

图7为本发明实施例提供的TCRNC算法在不同w₁，w₂，w₃权重值下和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类结果中，生成簇的数量随着密度阈值α变化的对比结果示意图；

图8为本发明实施例提供的TCRNC算法在不同距离阈值m下在北京市路网数据和出租车轨迹数据上运行的聚类结果中，生成簇的数量随着密度阈值α变化的结果示意图；

图9为本发明实施例提供的TCRNC算法在不同w₁，w₂，w₃权重值下和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类结果中，rate值随着密度阈值α变化的对比结果示意图；

图10为本发明实施例提供的CRRN算法、FC_TSMRNC算法、TCRNC算法和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上的运行时间随着车辆轨迹数的变化结果示意图；

图11为本发明实施例提供的TCRNC算法在不同w₁，w₂，w₃权重值下和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上的运行时间随着密度阈值α变化的对比结果示意图；

图12为本发明实施例提供的两路段簇在路网中形成的多边形示意图，其中，(a)为两路段簇在路网中形成多个多边形，(b)为两路段簇在路网中形成一个多边形。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

图1为本发明实施例提供的基于路网敏感特征的车辆轨迹聚类方法的流程图，该方法包括如下步骤：

S1、对轨迹数据和路网数据进行预处理，预处理是指筛选出误差偏移程度较大、因为GPS等技术原因导致的错误轨迹数据，对路网中的同一路段的不同方向进行区分，构建路网拓扑表；

对于真实路网，有些路段可以双向行驶，有的路段只能单向行驶，对此将同一路段的不同方向使用不同的标识号表示，如图2所示，道路节点2和道路节点5中间的路段为双向行驶路段，则用标识r₄表示从道路节点2到道路节点5的行驶方向，用标识r₉表示从道路节点5到道路节点2的行驶方向，道路节点2和道路节点7中间的路段为单向行驶路段，则只有一个标识r₁₀，表示从道路节点2到道路节点10的行驶方向；

其中，路段r的传入路段为终止道路节点与路段r的起始道路节点相同的路段，路段r的传出路段为起始道路节点与路段r的终止道路节点相同的路段，如图2所示，路段r₄的传入路段有路段r₂和路段r₉，路段r₄的传出路段有路段r₆，路段r₇和路段r₉，进而构建路网拓扑表，路网拓扑表包括：路段标识、起始道路节点、终止道路节点、传入路段、传出路段、起始道路节点和终止道路节点的经纬度坐标、以及路段长度。

S2、计算轨迹点到路网中各路段的距离，选择距离值小的若干路段作为候选路段，再综合轨迹点的方向向量与各候选路段的夹角来获取各轨迹点的匹配路段；

在进行地图匹配之前，为了提高效率，找到每个轨迹点对应的候选路段，而候选路段的选择取决于路段和轨迹点之间的距离D，如图3所示，轨迹点和路段之间的距离计算有两种方式，第一种情况，若轨迹点的投影点在路段的延长线上，如图3(b)所示，则距离计算如公式(1)所示：

D(p，r)＝R*arcos(cos Y₁*cos Y₂*cos(X₁-X₂)+sinY₁*sinY₂) (1)

其中，D(p,r)表示轨迹点p到路段r的距离，p表示轨迹点，r表示路网中的路段，(X₁,Y₁)表示轨迹点p的坐标，(X₂,Y₂)表示路段r中距轨迹点p最近的端点坐标，R为地球半径，取6378137米。

第二种情况，若轨迹点的投影点在路段上，如图3(a)所示，则距离计算如公式(2)所示：

其中，D(p,r)表示轨迹点p到路段r的距离，p表示轨迹点，D₁为路段r的起始道路节点与轨迹点p的欧式距离，D₃为路段r的终止路段节点与轨迹点p的欧式距离，D₂表示路段r的长度。

通过上述方式获取所有轨迹点到路网中各路段的距离，将距离值按从小到大的顺序排列，选取前n个路段作为对应轨迹点的候选路段，再进行进一步匹配，如图4所示，对于一条轨迹，从第一个轨迹点开始，当前轨迹点和下一个相邻轨迹点形成当前轨迹点的方向向量，计算当前轨迹点的方向向量与各候选路段的夹角；将轨迹点距各候选路段的距离、当前轨迹点的方向向量与各候选路段的夹角进行归一化，归一化后计算两者之和，将两者之和的最小值对应的路段作为该轨迹点的匹配路段，即为当前轨迹点匹配到该路段，若匹配后的路段不在前一个匹配路段的传出路段集合中，则根据Dijkstra算法将两路段之间连通，将该轨迹点标记为访问，将下一轨迹点作为当前轨迹点，执行上述路段匹配过程，直到所有轨迹点均被访问，一条轨迹的地图匹配结束，用所有轨迹点的匹配路段重新构建一条路段轨迹。

S3、连接路段轨迹起始位置点和终止位置点，形成路段轨迹的方向向量，基于路段轨迹的方向向量与正北方向形成的夹角对路段轨迹进行方向聚类；

连接每条路段轨迹的起始位置点和终止位置点，形成对应路段轨迹的方向向量，方向由起始位置点指向终止位置点，计算每个路段轨迹的方向向量与正北方向的夹角，然后根据设定的方向簇数量和角度范围，对所有的路段轨迹进行聚类，形成若干方向簇，即完成方向聚类。

S4、在每个方向簇中，基于路网中路段的路段密度、连通性以及转角计算路段敏感值，基于路段敏感值对路段进行聚类，形成若干路段簇；

针对每个方向簇，基于路段敏感值对路段进行聚类，形成若干路段簇，即在每个方向簇中形成若干路段簇，每个路段簇对应一条轨迹，路段的聚类方法具体如下：

S41、计算各方向簇中每个路段的路段密度，路段密度即包括该路段的轨迹数量，假定在方向簇A中，有轨迹1和轨迹2都存在路段r，则路段r的路段密度为2；

S43、基于路网拓扑表分别计算簇中心的传入路段和传出路段的敏感值CV，传入路段和传出路段的敏感值CV计算方法具体如下：

传入路段r_i的敏感值CV计算方法如下：基于传入路段的路段密度(路段密度)、传入路段r_i到簇中心路段的连通性(连通性)及传入路段r_i与簇中心路段的夹角(转角)来计算传入路段r_i的敏感值，其中，传入路段r_i到簇中心路段的连通性即从传入路段r_i驶向簇中心路段的轨迹数量。

传出路段r_k的敏感值CV计算方法如下：基于传出路段r_k的路段密度、簇中心路段到传出路段r_k的连通性及传出路段r_k与簇中心路段的夹角来计算传出路段r_k的敏感值，其中，簇中心路段到传出路段r_k的连通性即从簇中心路段驶向传出路段r_k的轨迹数量。

由于密度、连通性和夹角的大小以及度量单位不同，分别对路段的密度、连通性以及转角进行归一化，获取密度因子q，连通性因子f和转角因子t，以传出路段r_k为例，归一化如公式(3)、(4)和(5)所示：

其中，r_k表示路段r的传出路段，r_k∈OutR(r)，OutR(r)表示路段r的传出路段集，d(r_i)表示传出路段r_i的路段密度，d(r_k)表示传出路段r_k的路段密度，f(r,r_k)表示路段r到路段r_k的连通性，d(r)表示路段r的路段密度，

表示路段r与路段r_k之间的夹角；传出路段r_i的密度因子q、连通性因子f和转角因子t计算方法与传出路段r_k的密度因子q，连通性因子f和转角因子t计算方法相同。

获取密度因子，连通性因子和转角因子后，计算每个传入和传出路段的敏感值CV，计算如公式(6)所示：

CV＝w₁*q+w₂*f+w₃*t (6)

其中w₁，w₂，w₃分别表示密度因子q、连通性因子f和转角因子t的权重值，满足w₁+w₂+w₃＝1和w₁≥0，w₂≥0，w₃≥0。

S5、基于路段簇间距离对路段簇对应的路段轨迹进行再次聚类，将距离较近的多个路段簇合并同一个簇中，即完成了车辆轨迹的聚类；路段簇的聚类方法具体如下：

S52、选择序列中未被访问的最长路段簇为簇中心，并将簇中心对应的路段簇标记为被访问，计算簇中心的路段簇与其他未被访问的路段簇的距离；

在本发明实施例中，两路段簇间的距离计算方法具体如下：

基于Dijkstra算法在路网中找到簇中心的端点道路节点和另一路段簇对应端点的道路节点相连通的中间道路节点，并按照顺序连接，两路段簇间形成至少一个多边形，将多边形的面积进行累加，用累加后的面积表示两路段簇间的距离，若累加后的面积小于等于阈值m，则认定两路段簇间的距离小于等于设定的阈值m。

两路段簇对应的路段轨迹中存在相同的道路节点，此时，两路段簇在路网中形成至少2个多边形，如图12(a)所示，路段轨迹P1和路段轨迹P2对应为两个路段簇，定义为C1和C2，基于Dijkstra算法在路网中找到与路段簇C1的端节点4和路段簇C2的端节点5相连通的中间道路节点2，找到路段簇C1的端节点18和路段簇C2的端节点24相连通的中间道路节点21、中间道路节点22及中间道路节点23，由于路段簇C1与路段簇C2存在相同的道路节点10和道路节点16，路段簇C1与路段簇C2在路网上形成了三个多边形，分别是：路段r₂、路段r₆、路段r₉、路段r₁₂、路段r₁₀、路段r₇及路段r₃组成的多边形；路段r₁₁、路段r₁₄、路段r₁₇、路段r₁₅及路段r₁₃组成的多边形；路段r₁₈、路段r₂₁、路段r₂₄、路段r₂₅、路段r₂₆、路段r₂₂及路段r₁₉组成的多边形。

两路段簇对应的路段轨迹中不存在相同的道路节点，此时，两路段簇在路网中形成1个多边形，如图12(b)所示，路段轨迹P3和路段轨迹P4对应为两个路段簇，定义为C3和C4，在路网中路段簇C3的端节点4和路段簇C4的端节点5间无需中间道路节点即可相连通，基于Dijkstra算法找到路段簇C3的端节点13和路段簇C4的端节点16相连通的中间道路节点14及中间道路节点15，由于路段簇C3与路段簇C4不存在相同的道路节点，路段簇C3与路段簇C4在路网上形成了1个多边形，分别是：路段r₄、路段r₆、路段r₉、路段r₁₃、路段r₁₈、路段r₁₇、路段r₁₆、路段r₁₅、路段r₁₁、路段r₈及路段r₅组成的多边形。

S53、将距离小于设定阈值的路段簇放入簇中心所在簇，并将路段簇标记为被访问，执行步骤S52，直至所有的路段簇均被访问。

本发明提供的车辆轨迹聚类方法具有如下有益技术效果：

该方法适用于移动空间受限的轨迹数据集，尤其是针对真实路网中受限的车辆轨迹数据，理论分析与实验结果均表明，本发明是能够有效地度量车辆轨迹数据在路网中的相似性，并获得较好的聚类效果。

为了说明效果，本发明的具体实施例，列举了在1个数据集上评价提出方法的有效性。数据来源是取自北京市真实出租车移动轨迹数据集和路网数据集，出租车移动轨迹数据集具体包括2017年3月1日早上8:00到9:00之间的10000辆出租车的运行轨迹，包括10000条真实轨迹，每条轨迹中位置点之间的平均采样频率大约为50秒，平均每条轨迹含有70个时空位置。路网数据集具体包括2016年底更新的10万多个路段以及8万多个道路节点。并根据是否可双向行驶的标记属性，将可以双向行驶路段区分后，路网共包含18万多个路段，道路节点数量不变。本发明的实验中主要使用轨迹位置点的纬度、经度这两个属性。

图5给出了本发明所描述方法TCRNC算法和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类效果示意图，图5(a)和(b)中间较粗的线条为本发明聚类得到的结果，图5(c)和(d)中间较粗的线条为本发明对比算法TOPOSCAN聚类得到的结果，其中图5(b)和(d)是过滤掉长度小于3000米路段簇(交通流)的聚类结果，可以明显看出在北京市中心的车辆比较密集，包含了主要的交通流，同时对比发现，本发明描述方法的结果明显优于对比算法，得到了更加密集的交通流，且较长交通流的数量更多，更有利于交通规划等应用。

图6(a)给出了本发明所描述方法TCRNC算法和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类结果中，生成簇的最大长度对比结果示意图，图6(b)给出了本发明所描述方法中的TCRNC算法和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类结果中，生成簇的平均长度对比结果示意图，簇的长度是根据路网拓扑表将簇在路网中经过路段的长度累加得到的，簇的平均长度是所有簇长度的和除以簇的数量得到的，生成簇的长度越大或簇的平均长度越大，表明本发明所描述方法的聚类结果的连续性越好，且聚类结果的轨迹段越符合路网中交通密集区，更有利于应用到道路规划、公共交通规划以及道路拥挤预测等实际生活中。

图7给出了本发明所描述方法TCRNC算法在不同w₁，w₂，w₃权重值下和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类结果中，生成簇的数量随着密度阈值α变化的对比结果示意图，可以看出，随着密度阈值α的变化，TCRNC算法生成簇的数量虽然在不同权重下都比TOPOSCAN算法少很多，但是根据图6对比的长度可知，本发明所描述的方法得到的聚类结果更加的集中且交通流比较连续，故聚类效果越好，且随着α的增大，簇的数量会越来越少，表明满足密度阈值的交通流变少。

图8给出了本发明所描述方法TCRNC算法在不同距离阈值m下在北京市路网数据和出租车轨迹数据上运行的聚类结果中，生成簇的数量随着密度阈值α变化的结果示意图，在w₁＝1/3，w₂＝1/3，w₃＝1/3，同一距离阈值m条件下，随着阈值α的减小，生成簇的数量变多，说明能观察到的主要交通流和路段变多，更有利于实际规划。除此之外，在阈值α＝350的情况下，距离阈值从250000变为300000时，簇的数量没有改变，都是14个簇，如果需要看到更紧凑和大范围的簇，应设置更大的m，本发明所描述方法在实际应用中，通过设置合适的m合并路段簇，可以让公共交通更好地连续的长距离行驶，从而减少公共交通的分配，减少道路拥挤，有利于减少碳排放，保护环境。

图9给出了本发明所描述方法TCRNC算法在不同w₁，w₂，w₃权重值下和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上运行的聚类结果中，rate值随着密度阈值α变化的对比结果示意图，rate是根据生成簇中每个路段通过车辆轨迹数，与当前路段的实际长度相乘后累加，然后将累加后的结果除以所有车辆轨迹在实际路网中的总长度，得到簇平均覆盖率，rate值越大，聚类效果越好，如图9所示，在同一α，不同权重设置条件下，TCRNC算法的簇平均覆盖率普遍比TOPOSCAN算法高，且TCRNC算法的簇平均覆盖率相近；并且在同一权重设置下，随着α的降低，簇平均覆盖率逐渐升高，表明能够识别和聚类的路段越多且更加精确。

图10给出了本发明所描述方法CRRN算法、FC_TSMRNC算法、TCRNC算法和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上的运行时间随着车辆轨迹数的变化结果示意图，从出租车轨迹数据集中随机选取6000条到10000条不同规模的车辆轨迹，在α＝400，w₁＝1/3，w₂＝1/3，w₃＝1/3，m＝100000的条件下，运行程序所需时间如图10所示，路段聚类CRRN的运行时间比合并聚类FC_TSMRNC高很多，因为路段聚类对象是所有输入轨迹，合并聚类对象是路段聚类后的少量路段簇，而输入轨迹数量要远远大于路段簇的数量，所以CRRN算法运行时间要比FC_TSMRNC算法长；随着轨迹数量的增加，TOPOSCAN和TCRNC算法运行时间基本都呈线性递增，符合实际需求，并且随着轨迹数量的增多，TCRNC算法运行时间比TOPOSCAN算法执行时间少。

图11给出了本发明所描述方法TCRNC算法在不同w₁，w₂，w₃权重值下和TOPOSCAN算法在北京市路网数据和出租车轨迹数据上的运行时间随着密度阈值α变化的对比结果示意图，可以观察到在阈值α低于250时，TCRNC算法运行时间较TOPOSCAN算法高，是因为在计算路段簇合并时，所花费时间增多，但随着阈值α的增大，总运行时间趋近于TOPOSCAN算法，甚至在阈值α＝400时，略优于TOPOSCAN算法。所以从整体实验部分来看，本发明所描述的方法在保证相同参数阈值设置时，TCRNC算法在聚类效果上比TOPOSCAN算法好，同时整体算法的运行时间和TOPOSCAN算法相比也相差无几，甚至在较大α下略优。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之。

Claims

1.一种基于路网敏感特征的车辆轨迹聚类方法，其特征在于，所述方法具体包括如下步骤：

其中，路网拓扑表包括：路段标识、起始道路节点、终止道路节点、传入路段、传出路段、起始道路节点和终止道路节点的经纬度坐标以及路段长度；

路段簇的聚类方法具体如下：

2.如权利要求1所述基于路网敏感特征的车辆轨迹聚类方法，其特征在于，传入路段r_i的敏感值CV获取方法如下：

CV＝w₁·q_i+w₂·f_i+w₃·t_i

3.如权利要求1所述基于路网敏感特征的车辆轨迹聚类方法，其特征在于，传出路段r_k的敏感值CV获取方法如下：

CV＝w₁·q_k+w₂·f_k+w₃·t_k

4.如权利要求1所述基于路网敏感特征的车辆轨迹聚类方法，其特征在于，路段簇的聚类方法具体如下：

5.如权利要求4所述基于路网敏感特征的车辆轨迹聚类方法，其特征在于，两路段簇间的距离计算方法具体如下：

6.如权利要求1所述基于路网敏感特征的车辆轨迹聚类方法，其特征在于，轨迹点在路网中的匹配路段获取方法具体如下：