CN116502781A

CN116502781A - 基于gps数据的公交线路规划与影响因素可视分析方法

Info

Publication number: CN116502781A
Application number: CN202310497318.4A
Authority: CN
Inventors: 张慧杰; 夏秋实; 蔺依铭; 曲德展
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-07-28

Abstract

本发明涉及基于GPS数据的公交线路规划与影响因素可视分析方法，首先对城市出租车订单数据和城市兴趣点数据进行预处理得到乘客出行起始地‑目的地数据和POI类别数据；提取乘客上下车热点网格，基于网格聚类挖掘候选公交站点；进一步构建公交线路规划多目标模型，通过多目标优化方法生成最优公交线路集合，在统计线路属性信息基础上得到属性权重量化和排序结果；最后，可视分析系统支持规划人员探索分析最优线路集合中的线路，并支持更改线路属性权重，系统会根据调整的属性权重或主观排序重新训练以更新排序结果，通过交互式探索分析得到最优公交线路规划方案，为交通部门进行公交线路规划提供科学的决策依据和实践手段，助力智慧城市发展。

Description

基于GPS数据的公交线路规划与影响因素可视分析方法

技术领域

本发明属于公共交通线路规划技术领域，具体涉及一种基于GPS数据的公交线路规划与影响因素可视分析方法。

背景技术

公共交通对城市可持续发展起到支撑与引领作用，推动公共交通优先发展是解决环境污染、交通拥堵和提升城市交通运行效率的有效途径。但随着社会发展以及出行规律的变化，城市公交线路不能切实满足乘客日常出行需求，在运营效能方面仍有待提升。公交线路规划需从全局出发，考虑多重因素的共同影响，寻求城市发展和实际需求的契合点，平衡出行者和运营方的成本与利益。然而，如何精准感知乘客出行需求、制定满足多目标的公交线路规划方案并量化分析影响因素及其权重是一个巨大的挑战。

传统的公交站点挖掘和线路设计方法依赖于人口普查或者出行意愿调查，这类方法收集的样本内容相对主观、规模较小，基于这种受限的样本进行公交线路规划无法真正满足乘客出行需求且费时费力。基于轨迹数据感知乘客出行需求、布设公交站点的方法缺少对城市公交站点整体分布等方面的考量，候选公交站点挖掘的精准性仍有待提高。同时，可能的公交路线规划方案构成了庞大的解空间，提高最优线路集合求解效率和准确性的难度极大，需要以有效性和高效性为前提，实现多目标相互制约的均衡最优公交线路集合求解。此外，量化分析线路影响因素及其权重对于比较候选线路之间的差异并制定合理的线路规划方案极为重要，可以提高最优线路推荐的精准性与可信度。

发明内容

为解决上述问题，本发明提出一个可感知乘客出行需求的公交线路规划可视分析框架，将城市交通数据智能处理、视觉表征与交互分析有机融合，识别乘客出行的热点区域，提高公交站点挖掘和线路设计的精准性；量化分析线路属性权重对制定线路规划方案的影响，为交通部门进行公交线路规划提供科学的决策依据和实践手段，助力智慧城市发展。

本发明采用的技术方案如下：

本发明提供了基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述方法包括以下步骤：

步骤1：收集城市出租车订单数据和城市兴趣点数据；

步骤2：对收集到的数据进行预处理，得到乘客出行起始地-目的地OD数据和POI类别数据；

步骤3：基于步骤2所得数据进行城市热点上下车网格提取以及网格聚类，根据聚类结果来确定候选公交站点位置，并统计候选站点间客流转移量和车辆行驶时间；

步骤4：构建公交线路规划多目标模型，基于NSGA-Ⅱ算法对模型进行求解，得到最优公交线路集；

步骤5：使用Ranking SVM对最优公交线路集合中的线路进行属性权重量化、排序以及贡献值的计算，用以修正公交线路规划多目标模型的输出结果；

步骤6：对最优公交线路集合中的线路进行可视分析，旨在得到最优公交线路规划方案。

在某实施方式中，所述步骤2中：数据预处理包括数据脱敏、过滤重复数据，去除主要字段缺失数据、去除位置信息无效数据、或坐标系转换及时间戳计算其中至少一种。

在某实施方式中所述步骤3中，基于步骤2所得数据进行城市热点上下车网格提取的步骤包括：

步骤S1：输入上下客位置点集合P＝<p₁,p₂,...,p_n>，p_i＝(lon_i,lat_i)，p_i表示上下客位置点，n表示上下车总次数，lon_i与lat_i表示对应点的经纬度；

步骤S2：初始化网格集合步长step＝0.0001，基准点经纬度Lon、Lat，使得lon_i≤Lon，lat_i≥lat均成立；

步骤S3：遍历集合P中的点p_i，计算其所属网格经纬度lon_g、lat_g：

lon_g＝floor((lon_i-Lon)/step)*step+Lon

lat_g＝floor((lat_i-Lat)/step)*step+Lat

式中，floor表示向下取整函数，即根据步长向下取整计算所属网格；

步骤S4：判断网格g_i＝(lon_g,lat_g)∈G是否成立：

如果不成立，将g_i加入集合G中，并初始化该网格连通度网格内上下车次数否则，并执行下一步；

步骤S5：计算得到(lon_g±step,lat_g±step)、(lon_g±step,lat_g)、(lon_g,lat_g±step)，判断它们是否在集合G中，得到存在个数w，使得

步骤S6：所有上下车点遍历完成，输出上下车热点网格集合G。

进一步的，所述步骤3中网格聚类的方法包括：

步骤S1：输入：G＝<g₁,g₂,...,g_n>，n为网格个数，其中每个网格g_i＝(lon_i,lat_i,CD_i,PDR_i)；

步骤S2：设定一个可步行的距离阈值Max_Raduis，默认取500m，簇中心集合

步骤S3：将g₁作为簇中心加入到集合C中；

步骤S4：遍历G中所有网格，对于网格g_i，计算其与簇中心的距离SD(g_i,c_j)，找到与其距离最小的簇中心网格c；如果SD(g_i,c)≤Max_Radius，则该网格属于这一簇，加入到该簇中，并执行下一步；否则将网格g_i加入到C中；

步骤S5：通过如下公式计算簇中心网格c所属簇中所有网格的值，取值最大的网格c_new作为簇中心网格加入到C中，同时删除c：

式中,w₁是网格连通度的权重,w₂是网格客流量的权重，n是簇中心网格c所属簇的网格数量，是最大值函数；

步骤S6：所有网格遍历完成，输出候选公交站点集合C＝<c₁,c₂,...,c_m>，m为公交站点个数。

进一步的，GPS轨迹点间的真实空间距离SD的计算方法为：

SD＝Δσ*R (3-1)

其中，R代表地球平均半径，公式3-2中的Δlat和Δlon分别表示两GPS点之间的经、纬度差。

在某实施方式中所述步骤4中公交线路规划多目标模型包括：最小化线路运行时间函数以及最大化线路累计客流量函数，

其中所述最小化线路运行时间函数包括：

ΔT_R＝h+T(s_r|R|,s_n) (4-1)

式中；ΔT_R为每两站之间的公交车总运行时间，h为每站停车等待时间，|R|表示线路R中当前的站点数量，s_i表示第i站公交站点，T为两站之间的车辆行驶时间，从Traveltime矩阵中可以得到，R＝(r₁,r₂,...,r_k)表示已加入到线路中的站点集合、未到达目的地s_d，s_n为新加入到线路中的站点、整条线路的运行时间为相邻两公交站点间的行驶时间以及整条线路上的所有停车等待时间之和；

其中所述最大化线路累计客流量函数包括：

（4-4）

式中：ΔD_R为线路中所有站点的累计客流量，F为两站之间的转移客流量，可从Passenger矩阵中得到。。

进一步的，所述最小化线路运行时间函数以及最大化线路累计客流量函数还具备如下约束条件：

(1)充足的站点间距；

dist(s_i+1,s_i)＜δ,(i＝1,2,...,n-1) (4-5）

式中：δ为两站点最大间距，设定δ＝1.5km，dist为任意两站点之间的距离；

(2)车辆行驶方向一直沿着目的地方向；

式中：(x(i),y(i))为站点s_i与始发地s₁的经纬度之差，即方向向量，(x(n),y(n))为终点站s_n与始发地s₁的经纬度之差，即方向向量，该约束可以保证公交车始终沿目的地方向前进，约束公式如4-6所示。

(3)远离起始点，在进行站点选择时要保证每新增一站都远离始发地s₁，约束公式如4-7所示：

dist(s_i+1,s₁)＞dist(s_i,s₁),(i＝1,2,...,n-1) (4-7）

(4)接近目的地，在进行站点选择时要保证每新增一站都更接近目的地s_n，公式如4-8所示：

dist(s_i+1,s_n)＜dist(s_i,s_n),(i＝1,2,...,n-1) (4-8）

(5)无曲折路线，此条件为了保证生成线路的畅通，无“Z”字形路线产生，约束公式如4-9所示：

（4-9）

式中：dist为两站点之间的距离、是最小值函数。

在某实施方式中所述步骤4基于NSGA-Ⅱ算法对模型进行求解，得到最优公交线路集，具体方法过程如下：

步骤S1：输入候选公交站点集合S＝{s₁,s₂,s₃...}，其中s_i＝(lon_i,lat_i)；

客流矩阵Passenger、行驶时间矩阵Traveltime；

始发地s_o和目的地s_d，s_o,s_d∈S；

步骤S2：初始化定制公交线路总数，即设定种群最大规模N，最大迭代次数g_max,设置迭代次数g＝1；

步骤S3：生成初始种群，即生成规模为N的可行公交线路集合；

步骤S4：计算每条线路的目标函数值，公式4-2和公式4-4；

步骤S5：对当前种群进行遗传交叉操作，针对每一条线路，随机选择一个站点与另一个个体进行交换并需同时满足约束条件，从而产生新的线路；

步骤S6：对当前种群进行遗传变异操作，针对每一条线路，随机在其中的一条线路中选取两个站点，用这两个站点之间一条新线路替换原始线路并需同时满足约束条件，产生新线路；

步骤S7：计算新线路的目标函数值合并新旧线路，根据两个目标函数对所有个体进行快速非支配排序、计算个体拥挤距离、精英保留策略操作，形成下一代线路集合，另g＝g+1；

步骤S8：当g≤g_max时，循环步骤S4至S7；当g＞g_max时，算法结束，此时的线路集合即为P_od。

进一步的，所述步骤S3中采用轮盘赌概率选择法，步骤如下：

用以表示每个站点被选择的概率，式中，S^*中包含线路中s_j可能连接的所有站点

allowSize＝length(P)//候选站点的个数；

selectP＝Random(0,1)//预先产生一个[0，1]之间均匀分布的伪随机数；

selectNode＝0//初始化被选中的站点个数为第0个(站点序号从0开始)；

sumP＝0//初始化累计概率为0；

startIndex＝Random(allowedSize)+1//随机产生轮盘转动的起始位置；

while sumP＜selectP do：

sumP＝sumP+P[(startIndex-1)％allowedSize]//计算累计概率；

startIndex＝startIndex+1；

end while；

selectNode＝(startIndex-2)％allowedSize//选择加入到线路中的站点索引；

从始发站点开始结合约束条件进行站点选择selectNode，到目的地为止，则产生一条公交线路，迭代直至规模为N。

在某实施方式中，针对最优公交线路集的5个属性实现权重量化，分别为：线路累计客流量、线路运行时间、线路长度、站点个数以及可达POI数量，线路累计客流量和线路运行时间为公交线路规划研究中的重要属性，线路长度和站点个数可以反应线路运营的投入成本，可达POI数量从可达性的角度衡量线路可达的范围以及POI数量。

由于采用了上述技术方案，本发明的有益效果是：

在候选公交站点挖掘部分，本技术方案从数据驱动的角度分析乘客日常出行数据，提出基于网格聚类的乘客出行需求感知方法，综合考虑热点网格的连通度、网格内上下车次数、乘客可接受的步行范围等因素对网格进行聚类，从而提高候选公交站点挖掘的准确性。本技术方案构建了线路规划多目标模型，将非支配排序遗传算法(Non-dominatedSorting Genetic Algorithm-II，NSGA-Ⅱ)多目标优化的关键思想引入最优公交线路集合的求解问题中，注重线路规划的协同效应，得到出行者和运营方之间的均衡解集，即最大化线路累计客流量的同时最小化线路运营时间。结合公交线路规划设计原则，提出基于NSGA-Ⅱ的多目标优化方法求解得出线路规划候选方案，提高生成线路的精准性和最优集合求解效率。通过Ranking SVM方法实现线路属性权重量化，支持规划人员更改权重以及主观排序操作，提高线路排序推荐的精准性与可信度。本发明提出感知乘客出行需求的公交线路规划可视分析框架，提高了公交站点挖掘和线路设计的精准性，量化分析线路属性权重对制定线路规划方案的影响，为交通部门进行公交线路规划提供有价值的决策依据。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明实施例提供的基于GPS数据的公交线路规划与影响因素可视分析方法的架构流程图；

图2是本发明实施例提供的数据预处理示意图；

图3是本发明实施例提供的城市POI信息图；

图4是本发明实施例提供的上下车热点网格图；

图5是本发明实施例提供的聚类簇数量随Max_Radius变化图；

图6是本发明实施例提供的评价指标随Max_Radius变化图；

图7是本发明实施例提供的聚类结果图；

图8是本发明实施例提供的聚类结果对比图；

图9是本发明实施例提供的候选公交站点地理空间位置对比图；

图10是本发明实施例提供的Ranking SVM原理示意图；

图11是本发明实施例提供的Ranking SVM在公交线路属性上的应用示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明中技术方案的研究框架包含数据预处理、候选公交站点挖掘、最优公交线路集求解、线路属性权重量化以及可视分析五个模块。首先，对城市出租车订单数据和城市兴趣点(Point of Interest，POI)数据进行预处理得到乘客出行起始地-目的地(Origin-Destination，OD)数据和POI类别数据；进一步生成最优公交线路集合，在统计线路属性信息基础上得到属性权重量化和排序结果；最后，可视化系统支持规划人员探索分析最优线路集合中的线路，并支持更改线路属性权重，系统会根据调整的属性权重或者主观排序重新训练以更新排序结果，通过交互式探索分析得到满意的公交线路规划方案，为线路规划人员提供决策支持。

如图1所示，具体的，所述方法包括以下步骤：

步骤1：收集城市出租车订单数据和城市兴趣点数据；

在一具体的实施方式中，数据获取以及预处理包括：

本申请的候选公交站点挖掘工作基于城市出租车订单数据展开实验。出租车乘客的上下车记录反映了城市中人们的出行需求，从数据挖掘的角度对其进行分析可以感知乘客出行需求，进而使得生成的候选公交站点的位置较为合理。基于此，收集处理了某市于2021年8月份产生的出租车订单数据进行候选公交站点挖掘工作。如表1所示，每条数据包含七个字段，分别为订单编号(脱敏处理)、上车时间、下车时间、乘客上车地点经、纬度和下车地点经、纬度。

表1出租车订单数据集数据描述

数据预处理操作主要为了去除脏数据，提高数据分析的准确性。本申请实验中所使用的数据集为某市2021年8月1日至2021年8月26日时间跨度内出租车订单数据，由于数据采集过程中不可避免地出现丢失和偏差等问题，导致原始数据无法直接进行分析。因此，本申请对上述出租车订单数据集进行如图2所示的数据预处理操作，首先对数据进行脱敏处理，进一步过滤重复数据，去除主要字段缺失数据(如缺少经纬度信息无法定位上下车地点)，去除位置信息无效数据(城市区域外)，坐标系及时间戳转换，最终得到乘客出行的OD数据。

通过上述操作最终得到有效出租车订单数据2251274条，乘客上下车行为共4502548次。结合调查研究，本申请默认城市公交运行时间频率为半小时，每日从凌晨0点至4点乘客出行呈现下降趋势，从4点早上8点随着早高峰出行的开始，出租车上下车发生的次数逐渐增多，白天时段乘客出行处于平稳趋势，直到夜间21点随着晚高峰的结束上下车发生次数呈现下降趋势，符合城市人们实际出行规律。通过使用该城市的出租车上下车数据进行数据挖掘分析较为合理。

此外，为了增加用户对线路功能性的了解并且完善线路规划过程，本申请还处理了城市POI数据，可以通过计算挖掘得到的候选公交站点可达区域覆盖的POI类型和数量来实现上述目的。POI是指城市区域中与居民日常生活密切相关的城市实体或者建筑的信息标记数据，如学校、商场、公园以及各类机构等，POI数据集中主要描述了这些地点的地理位置和所属类别，整个城市范围内的POI数据包含了丰富的信息，将其与城市交通数据结合探索可以在一定程度上反应城市中的潜在活动。本申请所使用的POI数据集同样来自2021年官方统计数据，与出租车订单数据年份相对应。各条数据的字段包括经纬度、地址名称、类别编码，如表2所示。本申请最终所使用的POI数据为在此基础上整理的10种大类，各种类名称和数量如图3所示，分别包括餐饮服务、住宿住宅、风景名胜、科教文化、机构及团体、生活服务、商场超市、休闲娱乐、公司企业以及交通设施十个类别。

表2POI数据集数据描述

在一具体的实施方式中，网格提取以及网格聚类部分包括：

上下车热点网格提取

得到乘客出行需求数据(即OD数据)后，需要在此基础上进一步探索城市交通的热点区域，为候选公交站点挖掘提供基础。本申请提出将上下车点聚合到网格内的方法，并标记每个网格的连通度(Connectivity Degree，CD)和上下车发生次数(Pick-up and Drop-off Records，PDR)，以此来判断交通热点区域。上下车热点网格提取算法中step表示计算网格用到的步长，即划分出的网格边长，取0.0001°≈11m；基准点经纬度Lon,Lat分别表示包含城市地理空间最小矩形左上顶点的经度和纬度。利用上述数据进行上下车热点网格提取，共得到293496个上下车热点网格，如图4所示，其中每个网格标记了CD，PDR两个指标，为挖掘候选公交站点挖掘提供了基础。

基于步骤2所得数据进行城市热点上下车网格提取的步骤包括：

步骤S3：遍历P中所有点，对于点p_i，计算所属网格经纬度：

lon_g＝floor((lon_i-Lon)/step)*step+Lon

lat_g＝floor((lat_i-Lat)/step)*step+Lat

式中，floor表示向下取整函数，即根据步长向下取整计算所属网格即根据步长向下取整计算所属网格；

步骤S4：判断网格g_i＝(lon_g,lat_g)∈G是否成立：

如果不成立，将g_i加入集合G中，并初始化该网格连通度网格内上下车次数否则，并执行下一步

网格聚类与候选公交站点生成

对数据进行数据聚类可以对数据进行分组并且可以利用簇中心表示某种含义。然而，目前的聚类算法并不能很好地适用于候选公交站点生成任务，即需要将热点网格进行聚类，得到每个簇的簇中心作为候选公交站点。因此，本申请提出基于GPS数据感知乘客出行需求的候选公交站点挖掘方法(Identification of Candidate Bus Stops，ICBS)，综合考虑乘客出行热点区域的连通性以及公交站点的服务范围，提高候选公交站点挖掘的合理性与准确性。ICBS算法如下：

步骤S3：将g₁作为簇中心加入到集合C中；

式中，w₁是网格连通度的权重,w₂是网格客流量的权重，n是簇中心网格c所属簇的网格数量，是最大值函数；；

步骤S6：所有网格遍历完成，输出：候选公交站点集合C＝<c₁,c₂,...,c_m>，m为公交站点个数。

该算法中有三个参数，其中设定Max_Radius＝500m，权重w₁＝0.5,w₂＝0.5。w₁和w₂不影响聚类簇数量，它用来决定簇中心。w₁是网格连通度的权重，目的是使得候选站点选取在每一簇上下车发生行为的密集地点；w₂是网格客流量的权重，目的是使得候选站点选取在每一簇的客流量多的地点；显然这两点平等重要，即在关注有上下车行为的同时也要关注上下车的次数，所以设w₁＝w₂＝0.5(CD和PDR做了归一化处理)。同时考虑传统的欧式距离等不能代表地球上两个GPS轨迹点间的实际距离，因此本申请采用空间距离进行计算，如公式3-1所示。其中，R代表地球平均半径，约为6378137米，公式3-2中的Δlat和Δlon分别表示两GPS点之间的经、纬度差，公式3-1中的SD可以近似表示两个GPS点间的真实空间距离。

SD＝Δσ*R (3-1)

式中，R代表地球平均半径，公式3-2中的Δlat和Δlon分别表示两GPS点之间的经、纬度差，α₁和α₂分别表示两GPS点的经度角。

方法中Max_Radius影响聚类簇数量，根据《中国城市道路交通规划设计规范》建议公交车的服务区域在半径500到800范围内。因此，本申请为验证Max_Radius的不同取值对聚类结果的影响，在[500，800]区间内取步长为20m进行聚类实验，并通过簇内误差平方和(Sum of Squares due to Error，SSE)、轮廓系数(Silhouette Coefficient，SC)、方差比标准(Calinski-Harabaz Index，CHI)和戴维森堡丁指数(Davies-Bouldin Index，DBI)四个常用的聚类指标对相应结果进行评价，其中SSE、DBI指数结果值越小表示聚类效果越好，CHI值越大代表聚类效果越好，SC取值越接近于1代表聚类效果越好。

如图5所示，生成的簇数量随着Max_Radius的增大逐渐减少，即在一定区域内簇的大小随着可接受的步行范围变大而变大、数量变少。各项指标随Max_Radius的变化如图6所示。其中，SSE随其增大而增大，当Max_Radius＝500时值最小，说明聚类效果最好；CHI随其增大而减小，同样当取值为500时值最大，聚类效果最好；SC、DBI随着Max_Radius的变化有一定的波动，SC值呈下降趋势，DBI呈上升趋势，但都同样在取值为500时聚类效果最好。

综上所述，同时考虑乘客所接受的步行范围越小越好，因此本申请设定Max_Radius的取值为500m。

聚类结果如图7所示，最终得到2357个候选公交站点，其散点图如图8(a)所示，并且以这些站点为中心，以500m距离为半径，结合POI数据对各个候选站点可达的POI类型和数量进行了统计。

服务于为城市生成候选公交站点实际应用问题，本发明更关注如下两个问题：(1)应选择客流量大的地理位置，(2)应覆盖城市的整个区域并且位置要尽量为“服务区域”的中心。而传统的聚类方法如K-Means等，在聚类时容易受数据密度影响，即会在客流量较多的位置生成多个簇。基于城市公交线路的设计原则，在一定范围内设置多个冗余候选公交站点不符合公交站点设计原则，并且算法产生的簇中心位置不能够符合实际需求，即行人不可达区域，因为簇中心取其簇内所有样本数据的平均位置。本申请与K-Means方法进行了对比实验加以验证。通过K-Means方法得到的聚类中心结果如图8(b)所示，其中取K＝2357，即与本技术方案方法聚类个数相同，数据输入同样包含网格的经度、纬度、CD和PDR，并对此结果进行了定量和定性比较。

首先从上节提及的评价聚类结果的4个指标上进行了对比，如表3所示，可以看出本技术方案的方法在SSE、SC、DBI指标上都优于K-Means方法，其中CH指数反之，它考虑了簇内距离和簇间距离，簇内距离用簇内样本点与簇中心点的距离表示，簇间距离用样本点与其他簇内中心点的距离表示。CH的数值越大，说明簇内距离越小，簇间距离越大，聚类效果越好。这一点从图8(b)可以看出K-Means聚类结果相对密集，所以簇内距离要小的多。但从本申请的实际应用来看，这样的聚类结果会导致生成的候选公交站点过于密集甚至冗余。

表3指标对比

此外，在城市的某区域内查看结果，通过图9(a)处所示，可以发现ICBS方法生成的簇中心合理的分布在城市区域，而K-Means方法在相同区域生成的站点距离较近、个数较多，如图9(b)以及位置3所示，这样的结果显然冗余且不符合公交线路设计原则。同样观察城市某一区域，通过K-Means得到的每个簇的簇中心是其簇内样本的平均位置，所以得到的结果可能会落到车辆不可达区域，如图9中位置1、2的河流内、建筑内等，而本申请方法聚类时考虑网格的连通度和客流量，生成的簇中心位置更合理。

综上，相比与K-Means方法，ICBS算法更适用于本技术方案的实际应用问题，并且不需要事先确定聚类簇个数即候选公交站点个数，方法会结合乘客可接受的步行范围，也即站点的服务范围来实现候选公交站点在城市区域内的合理布设。

线路累计客流与运行时间是进行公交线路规划时的重要衡量指标，本申请构建的公交线路规划多目标模型也是基于这两个指标。因此，在得到上述候选公交站点后，基于真实出行交通数据统计各站点间的客流转移、行驶时间，为统计线路的相关信息提供了基础。

在一具体的实施方式中，所述步骤4中公交线路规划多目标模型包括：最小化线路运行时间函数以及最大化线路累计客流量函数，

其中所述最小化线路运行时间函数包括：

ΔT_R＝h+T(s_r|R|,s_n) (4-1)

其中所述最大化线路累计客流量函数包括：

(4-3)

（4-4）

式中：ΔD_R为线路中站点的累计客流量，F为两站之间的转移客流量，可从Passenger矩阵中得到。

(1)充足的站点间距；

dist(s_i+1,s_i)＜δ,(i＝1,2,...,n-1) (4-5）

式中：δ为两站点最大间距，设定δ＝1.5km，dist为两站点之间的距离；

(2)车辆行驶方向一直沿着目的地方向；

dist(s_i+1,s₁)＞dist(s_i,s₁),(i＝1,2,...,n-1) (4-7）

dist(s_i+1,s_n)＜dist(s_i,s_n),(i＝1,2,...,n-1) (4-8）

（4-9）

式中：dist为两站点之间的距离、是最小值函数。

在一具体的实施方式中，所述步骤4基于NSGA-Ⅱ算法对模型进行求解，得到最优公交线路集，具体方法过程如下：

客流矩阵Passenger、行驶时间矩阵Traveltime；

始发地s_o和目的地s_d，s_o,s_d∈S；

步骤S4：计算每条线路的目标函数值，公式4-2和公式4-4；

allowSize＝length(P)//候选站点的个数；

sumP＝0//初始化累计概率为0；

startIndex＝Random(allowedSize)+1//随机产生轮盘转动的起始位置；

while sumP＜selectP do；

sumP＝sumP+P[(startIndex-1)％allowedSize]//计算累计概率；

startIndex＝startIndex+1；

end while；

为获得线路规划模型的可行解，并得到综合效益较优的可行路线，基于上一节对NSGA-Ⅱ进行分析，设置相关参数。本申请设定初始种群数为30，最大迭代次数为500，按照算法3步骤进行求解，该实验过程主要验证了NSGA-Ⅱ方法对本申请多目标模型求解过程中，“快速非支配排序”以及“个体拥挤距离计算”思想的适用性。

在一具体的实施方式中，所述步骤4中生成的Pareto最优线路集合中的线路都有多个特征属性供用户进行比较，如站点总个数、覆盖的POI种类和数量等。因此，对这些线路进行排序是一个多属性排序问题。在以往的研究中我们发现，对于多属性排序问题，实现属性权重量化可以帮助用户更好地进行有侧重的排序，并且针对用户的主观排序行为也能理解其行为并推荐更符合需求的线路。因此，本申请引入Ranking SVM方法实现公交线路的属性权重量化以及最优线路集合中线路的排序推荐。

Ranking SVM是利用机器学习方法来解决排序问题，其主要思想是将排序问题转化为二分类问题，标准的SVM算法在某个m维空间中提供了数据项，并提供了一组相应的标签，用于标记每个点所属的类别。对于其中的一个数据项在算法中通常将其表示为一组元组(d_i,y_i)，而在处理二分类问题时，标签y_i∈{-1,1}。输出模型是一个超平面，由中的向量定义，它切入数据的空间并经过优化，使得y_i＝-1的点在超平面的一侧，而y_i＝1的点在另一侧，点到超平面之间负的距离足够大。Ranking SVM将优化超平面的思想应用于具有成对约束的排序问题。除了获得带有相应标签的完整数据点集之外，还要得到有限的一对数据点d_i和d_j，以及一个标签标记两数据点哪个较好。如图10所示，a₁、a₂、a₃分别为数据项d₁、d₂、d₃的某一属性，定义训练样本使得a₁-a₂、a₁-a₃、a₂-a₃为正样本，a₂-a₁、a₃-a₁、a₃-a₂为负样本，然后训练一个二分器(支持向量机)来对这些训练样本进行分类

(1)推导约束

Ranking SVM模型输入的数据是成对数据项的差向量。设有k个数据项{d₁,d₂,...,d_k}，其中每个数据项有m个属性{a₁,a₂,...,a_m}；首先会创建所有成对差值向量组合的集合作为模型训练实例放入Ranking SVM中进行训练并得出各属性的权重结果。对于每一个i,j∈{1,...,k}，其中i≠j。根据公式4-12导出训练元组，其中r(d_i)表示数据项d_i的排名得分，计算公式如4-13所示，w_j表示数据项对应权重。即如果d_i的排名高于d_j，则分类为θ＝1，反之θ＝-1，其中现在将排序问题转化为了一个二分类问题，可以应用Ranking SVM。

(2)排序

排序结果是通过计算两个数据项在所有属性上的差值并构成差向量，将其输入到Ranking SVM分类器中得到。其中，数据点i和j的差向量表示为(d_i-d_j)。基于上述输入，Ranking SVM模型就会预测两个数据项中哪一个的排名较高，具体计算过程如下。首先，模型会计算差向量(d_i-d_j)与模型内部权重w的点积，如果点积w·(d_i-d_j)为正，则向量差值属于正类y＝1，因此d_i的排名在d_j之前。如果点积为负，则向量差值属于负类y＝-1，此时d_j在排序中相对高于d_i。将任意两数据项构建的差向量输入到训练好的Ranking SVM模型中，最终即可得到针对所有数据项的排序结果。

同理，也可根据Ranking SVM模型得到的权重结果结合公式4-13进行各个数据项的排序得分，通过比较得分大小实现排序操作。该种计算方式更加灵活，可以加快排序计算的效率。得到的最终结果与构造差值向量、计算点积并使用Ranking SVM模型预测的结果相同，推导过程如下：w×(d_i-d_j)＝w×d_i-w×d_j。如果w×d_i>w×d_j，则w×(d_i-d_j)>0，因此d_i排名优于d_j，反之d_j排名优于d_i。

(3)贡献值计算

数据项的贡献值有助于帮助用户了解该数据项的排名得分中有多少是由于给定属性影响的，贡献值的计算公式如4-14所示，表示属性a_j对数据项d_i排名得分的归一化贡献。其中l为数据项属性得分最大的属性索引。

通过上述公式可知，贡献值值域为[0,1]，值越高表示该属性对数据14点)的排名分数贡献越大。当属性权重较大时，属性值对数据点的排名得分的贡献较大。当属性权重较小时，属性值对数据点的排名得分的贡献较小。属性权重和数据值都较大时，贡献最大。

线路属性权重量化排序及贡献值计算

本实施例中主要介绍对上节中生成的Pareto最优线路集实现属性权重量化排序以及贡献值计算的过程。

基于上述Ranking SVM原理，本申请围绕生成的公交线路的5个属性实现权重量化，分别为：线路累计客流量(attr1)、线路运行时间(arrt2)、线路长度(attr3)、站点个数(attr4)以及可达POI数量(attr5)。其中，属性1和属性2是在以往公交线路规划研究中需要考虑的重要属性，属性3和4可以反应线路运营的投入成本，属性5从可达性的角度衡量线路可达区域的功能性。这些属性均能够反映规划人员对于线路是否满足乘客需求的考量，因此，本申请把它们作为主要考虑的5个属性并开展后续实验。

首先，在得到Pareto线路集合的同时，本申请统计了各条线路R的5个属性值，如图11中a所示，接着按照累计客流量这一重要属性进行初始化排序来构造训练元组，如图8中b所示，通过Ranking SVM训练可以得到属性权重值。

同时，本申请提供了更改属性权重的接口。当用户得到属性权重量化结果后，如果想增大或减小某属性权重就会向训练实例添加新的训练元组(x,y)，如图11中c所示。其中该向量与上述中的差异向量同理，其中除了表示用户希望更改的属性位置上标记为1，其它都为0；y与上述标签同理。对于用户要求增加权值的属性，构造训练元组(-x,y＝-1)，对于减少属性的权值，构造训练元组(-x,y＝1)，并结合公式4-13和公式4-14进行排序和贡献值计算。

将Pareto最优线路集合通过Ranking SVM实现属性权重量化以及排序，并进行贡献值的计算。首先，得到集合中30条公交线路分别在5个属性上的权重结果，并根据累计客流量这一指标进行初始化排序，进行模型训练得到属性的权重量化结果。

实验得到线路在各个属性上的权值如表4中初始化权重所示，其中“累计客流量”(attr1)权重最大，这表明Ranking SVM很好地预测到了初始化排序的标准，才使得该属性的权值最大。同时为验证增大、减小属性权重的接口，我们向模型中输入构造的训练元组来减小累计客流量的权值，并且增大“行驶时间”(attr2)和“线路长度”(attr3)的权重，即让模型多关注些行驶时间和线路长度，减少对累计客流量的关注。

表4线路属性权重量化结果

重新训练模型得到各个属性上的权值如表4更改权重所示，可以看到attr1的权重降低，attr2和attr3的权重变为负数，其余两个属性权值也有相应的变化。对于公交线路而言，在其他条件一定的情况下，行驶时间和线路长度越短的线路效益最大。因此，attr2和attr3对于与线路排序呈负相关，表明该实验结果符合实际需求，验证了增大、减小权重的准确性。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述方法包括以下步骤：

步骤1：收集城市出租车订单数据和城市兴趣点数据；

2.根据权利要求1所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述步骤2中：数据预处理包括数据脱敏、过滤重复数据，去除主要字段缺失数据、去除位置信息无效数据、或坐标系转换及时间戳计算其中至少一种。

3.根据权利要求1所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述步骤3中，基于步骤2所得数据进行城市热点上下车网格提取的步骤包括：

lon_g＝floor((lon_i-Lon)/step)*step+Lon

lat_g＝floor((lat_i-Lat)/step)*step+Lat

步骤S4：判断网格g_i＝(lon_g,lat_g)∈G是否成立：

4.根据权利要求3所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述步骤3中网格聚类的方法包括：

步骤S3：将g₁作为簇中心加入到集合C中；

5.根据权利要求4所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，GPS轨迹点间的真实空间距离SD的计算方法为：

SD＝Δσ*R (3-1)

6.根据权利要求3所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述步骤4中公交线路规划多目标模型包括：最小化线路运行时间函数以及最大化线路累计客流量函数，

其中所述最小化线路运行时间函数包括：

ΔT_R＝h+T(s_r|R|,s_n) (4-1)

其中所述最大化线路累计客流量函数包括：

（4-4）

式中：ΔD_R为线路中所有站点的累计客流量，F为两站之间的转移客流量，可从Passenger矩阵中得到。

7.根据权利要求6所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述最小化线路运行时间函数以及最大化线路累计客流量函数还具备如下约束条件：

(1)充足的站点间距；

dist(s_i+1,s_i)＜δ,(i＝1,2,...,n-1) (4-5)

(2)车辆行驶方向一直沿着目的地方向；

dist(s_i+1,s₁)＞dist(s_i,s₁),(i＝1,2,...,n-1) (4-7）

式中：dist为两站点之间的距离。

dist(s_i+1,s_n)＜dist(s_i,s_n),(i＝1,2,...,n-1) (4-8)

式中：dist为两站点之间的距离。

（4-9）

式中：dist为两站点之间的距离、是最小值函数。

8.根据权利要求7所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述步骤4基于NSGA-Ⅱ算法对模型进行求解，得到最优公交线路集，具体方法过程如下：

客流矩阵Passenger、行驶时间矩阵Traveltime；

始发地s_o和目的地s_d，s_o,s_d∈S；

步骤S4：计算每条线路的目标函数值，公式4-2和公式4-4；

9.根据权利要求8所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，所述步骤S3中采用轮盘赌概率选择法，步骤如下：

allowSize＝length(P)//候选站点的个数；

sumP＝0//初始化累计概率为0；

startIndex＝Random(allowedSize)+1//随机产生轮盘转动的起始位置；

while sumP＜selectP do：

sumP＝sumP+P[(startIndex-1)％allowedSize]//计算累计概率；

startIndex＝startIndex+1；

end while；

10.根据权利要求1所述的基于GPS数据的公交线路规划与影响因素可视分析方法，其特征在于，针对最优公交线路集的5个属性实现权重量化，分别为：线路累计客流量、线路运行时间、线路长度、站点个数以及可达POI数量，线路累计客流量和线路运行时间为公交线路规划研究中的重要属性，线路长度和站点个数可以反应线路运营的投入成本，可达POI数量从可达性的角度衡量线路可达区域的功能性。