CN113850295B

CN113850295B - 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法

Info

Publication number: CN113850295B
Application number: CN202110992718.3A
Authority: CN
Inventors: 才智; 王佳炜; 郎琨; 李童; 苏醒; 郭黎敏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2024-04-02
Anticipated expiration: 2041-08-27
Also published as: CN113850295A

Abstract

本发明公开了一种基于Weighted‑LeaderRank和GMM聚类的站点选址预测方法，通过地铁站打卡数据与出租车OD数据预测未来地铁线路以及对通过排序后的站点，选取最具代表性的几个地铁站，预测其未来周边站点选址位置。本发明将已建成地铁站点，站与站之间的客流量的关系转换成带权的有向图，然后基于该带权的有向图计算每个节点的Weighted‑LeaderRank值；筛选出处于地铁站点覆盖范围之外的出租车OD数据，对其数据进行GMM聚类，得到聚类结果即未来城市总体新建地铁站点的预测位置。通过提出一种模型评价方法，对模型设置不同的参数并对结果进行对比，最后得到最优的模型，并将其应用于预测代表性地铁站周边新建站点的位置。

Description

一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法

技术领域

本发明属于数据挖掘领域，涉及一种基于Weighted-LeaderRank与混合高斯聚类(GMM)的站点选址预测方法。

背景技术

随着我国城市的发展以及交通网络的不断完善，截至2019年12月，北京市轨道交通路网运营线路达23条、车站405站，其中包括换乘站62站。此外，北京地铁现有在建线路15条。到2020年，北京地铁将形成线网由30条运营，总长1177公里的轨道交通网络。由于我国总体地铁建设起步时间较晚，地铁现有线路并没有满足所有出行需求，在地铁站点覆盖范围之外的地方，人们通常会选择其他出行方式。

Weighted-LeaderRank算法主要应用于网络节点的重要性排序，该算法的核心思想是在含有N个节点的网络中添加一个背景节点(GroundNode)，将原网络变为N+1个节点的强连通网络。Weighted-LeaderRank算法是PageRank算法的改进，最初被应用于网页重要性的排序，即一个网页A的被链接数越多，其网页的重要性越高，且该网页链接指向的网页B的权重也越高。

高斯混合模型(GMM)是一种流行的无监督学习算法，常用于数据的聚类处理，该方法假设数据服从多个高斯分布。GMM的方法与K-means方法相类似，但是由于GMM算法的复杂性，其在聚类效果上表现的更健壮，更有效。目前，GMM模型聚类被广泛应用，如在工业领域，生物领域以及应用于语音聚类与图像的聚类中。

地铁站点的建设有着建设成本高、建成周期长、风险大、建成后不易重建或迁址等属性。所以站点的前期选址工作十分的重要，地铁站点位置的选择是地铁建设过程中重要的一环，甚至对于城市的规划与未来的发展也起着重要的作用。

此外，目前选址主要依据人口密度、区域土地利用特点和交通条件，较少考虑城市居民的出行特点，导致选址与人们的实际需求存在偏差。为此，我们提出了科学合理的选址方法来解决上述问题。

发明内容

本发明提供一种基于Weighted-LeaderRank和混合高斯聚类的站点选址预测方法，通过地铁站打卡数据与出租车OD(乘客上车点与下车点)数据预测未来地铁线路以及对通过排序后的站点，选取最具代表性的几个地铁站，预测其未来周边站点选址位置。

本发明方法的基本原理如下：本发明将已建成地铁站点，站与站之间的客流量的关系转换成带权的有向图，然后基于该带权的有向图计算每个节点的Weighted-LeaderRank值；筛选出处于地铁站点覆盖范围之外的出租车OD数据，对其数据进行GMM聚类，得到聚类结果即未来城市总体新建地铁站点的预测位置。此外通过提出一种模型评价方法，对模型设置不同的参数并对结果进行对比，最后得到最优的模型，并将其应用于预测代表性地铁站周边新建站点的位置。

一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法，其发明包括以下步骤：

步骤一：收集已建地铁站的位置坐标以及地铁乘客AFC打卡数据集，收集出租车GPS数据集，所述数据集包括出租车某时刻的位置坐标、是否载客、车辆信息等。

步骤二：将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵。筛选出地铁运营时间范围内的出租车GPS数据，并转换为OD数据，并基于地铁覆盖范围进行分类。

步骤三：基于Weighted-LeaderRank的站点客流交通网络结构的定义：

定义基于Weighted-LeaderRank站点客流的交通网络有向图为G<V,E>，V是由站点构成的节点集，节点包含该站点的经纬度坐标信息，E是边集，E＝{<i,j>|i,j∈V}，<i,j>表示从节点i到节点j的一条有向边。

步骤四：基于Weighted-LeaderRank客流量模型对已建地铁站的重要指数进行排序，重要指数越大的站点，其站点在地铁网络中的重要性越高，即站点繁忙程度越高。

定义站点i的Weighted-LeaderRank指数的公式为：

其中1式w_ji为站点j流向站点i的客流数，为从站点j流出的总客流，当公式迭代至第t次并趋于收敛时，公式停止计算。

其中2式WLR_i表示节点i的Weighted-LeaderRank值，tc为WLR_i收敛的时刻,N为网络中除去公共节点后的节点个数。

步骤五：将各节点的WLR值按降序进行输出，得到地铁站点重要性排序，其WLR值越大，表示其在地铁网络中的重要性或繁忙程度越高。

步骤六：通过步骤五提取最具代表性的前N个地铁站点与出租车OD数据集，通过GMM模型预测站点选址，设计算法提取出聚类区域，并对区域权值进行排序，筛选前K个站点区域。

对于高斯混合模型是指具有如下形式的概率分布模型：

α_k是系数，α_k≥0，为高斯分布密度，/>为第k个分模型，对于该模型来说θ_k＝(μ_k,σ_k,α_k)。

对于每个子模型我们都有待求的参数μ_k,σ_k,α_k，即每个子模型的期望，协方差、在该混合模型中的权重。通过使用期望最大化(Expectation maximization)算法，来进行迭代从而得到待求参数。

以整个城市为研究对象构建预测模型，并通过对不同的模型预测结果进行评价，得到最适合的预测模型。

步骤七：以某个站点为研究对象，筛选出以该站点为乘车点的出租车OD数据，并通过模型预测其周边的延长站点的选址。

本发明具有以下明显的创新和突出的优势：

本发明基于Weighted-LeaderRank网络节点排序算法，构建地铁客流交通网络，通过对地铁站点重要程度进行排序，筛选出具有代表性的站点；其次通过构建基于GMM算法的预测模型，并通过结合出租车OD数据，预测未来地铁线路趋势以及提取出新建站点区域，最后通过分析提取到的区域，推荐出k个未来新建站点区域。

附图说明

图1为本发明所涉及的地铁站点构建的交通网络链接关系示意图。

图2为本发明提供的出租车GPS数据处理流程图。

图3为本发明提供的基于Weighted-LeaderRank和混合高斯模型聚类的预测未来地铁站点选址的流程图。

图4为本发明提供的预测结果即站点选址预测示意图。

具体实施方式

下面结合相关附图对本发明进行解释和阐述：

本发明采用的数据集是地铁站点打卡(AFC)数据与同时期出租车GPS载客行驶轨迹数据，基于Weighted-LeaderRank算法与混合高斯模型算法(GMM)的算法流程图如附图3所示，其特征在于包含以下几个步骤。

步骤一：收集已建成的地铁站点位置坐标以及乘客AFC打卡数据、出租车GPS轨迹数据，其GPS轨迹数据包括21590辆出租车的车牌号，生成时间，经纬度，速度，车辆状态等，如表1所示。

表1出租车实验数据集

步骤二：设置默认地铁站覆盖范围1km，将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵。对出租车数据如附图2流程所示进行预处理，筛选出地铁运营时间范围内的出租车GPS数据，并转换为OD数据，并基于地铁覆盖范围进行分类：OD都不在地铁覆盖范围内，O或D在地铁覆盖范围内。

步骤三：定义基于Weighted-LeaderRank的站点客流链接的网络结构，读取数据并做预处理，选择数据中的部分信息(卡ID、进站站点、出站站点等)统计站点间的客流量，如附图1所示构建地铁交通网络图。

步骤四：根据构建的基于Weighted-LeaderRank站点—客流链接网络，设置算法中站点的阻尼系数为0.85，采用网络节点排序算法计算各个节点的重要性。

步骤五：得到计算结果，并将结果LR值进行排序并输出。

下面给出一个应用本发明对地铁站点重要性进行计算并排序的实例：

本发明采用的数据集是2013年地铁AFC乘客刷卡数据，我们选取该数据集的部分特征，其中包含了乘客刷卡时间，上下车线路与站点名称。

根据附图1构建地铁—客流交通网络图，根据公式(1)和公式(2)计算地铁站点重要性，从中选取重要性前15条记录的站点，LR值及排名情况，如下表2所示。

表2：本方法基于带权的Weighted-LeaderRank地铁站点重要性排序

步骤六：定义变量count为聚类区域所覆盖到2013年至今所建的地铁站个数，S为所有聚类区域所覆盖的面积，S/count为每个预测站点所占的面积区域。这两个变量的定义目的在于找到合适的参数，使得整个北京市预测到的新建站点个数最多且总预测区域的总面积最小。

构建GMM预测模型。分别对实验数据进行预测，对所有OD数据不在地铁站点覆盖范围之内的OD数据进行聚类，通过算法将聚类区域转化为正规矩形区域。并通过设置不同的聚类算法参数，比较不同的聚类效果，选取聚类总区域面积较小，同时预测未来新建站点准确率较高的聚类模型。

步骤七：通过地铁站点重要性排序，选取最具代表性的几个地铁站点，筛选出乘车点包含该站点的OD数据，并将该数据带入步骤六得到的模型中，预测该站点周边未来新建站点区域。其预测效果示意图如附图4所示，其矩形区域为通过本发明预测的未来新建站点区域，红色区域为实验验证数据集即未来站点的真实位置，绿色区域为已建站点及其覆盖区域。

本发明为新建地铁线路与对现有地铁站点基础上做延长线路缓解站点压力找到潜在的位置区域，其目的在于完善城市公共交通体系，促进区域整体快速发展。我们通过带权的LeaderRank算法与混合高斯模型，从整体与局部分别出租车的OD进行挖掘，提取并推荐出新建轨道交通区域，该方法可为决策者提供出租车基础设施建设规划的有用信息。

Claims

1.一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法，其特征在于：包括以下步骤：

步骤一：收集已建地铁站的位置坐标以及地铁乘客AFC打卡数据集，收集出租车GPS数据集，所述数据集包括出租车某时刻的位置坐标、是否载客、车辆信息；

步骤二：将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵；筛选出地铁运营时间范围内的出租车GPS数据，并转换为OD数据，并基于地铁覆盖范围进行分类；

定义基于Weighted-LeaderRank站点客流的交通网络有向图为G<V,E>，V是由站点构成的节点集，节点包含该站点的经纬度坐标信息，E是边集，E＝{<i,j>|i,j∈V}，<i,j>表示从节点i到节点j的一条有向边；

步骤四：基于Weighted-LeaderRank客流量模型对已建地铁站的重要指数进行排序，重要指数越大的站点，其站点在地铁网络中的重要性越高，即站点繁忙程度越高；

定义站点i的Weighted-LeaderRank指数的公式为：

其中1式w_ji为站点j流向站点i的客流数，为从站点j流出的总客流，当公式迭代至第t次并趋于收敛时，公式停止计算；

其中2式WLR_i表示节点i的Weighted-LeaderRank值，tc为WLR_i收敛的时刻,N为网络中除去公共节点后的节点个数；

步骤五：将各节点的WLR值按降序进行输出，得到地铁站点重要性排序，其WLR值越大，表示其在地铁网络中的重要性或繁忙程度越高；

步骤六：通过步骤五提取最具代表性的前N个地铁站点与出租车OD数据集，通过GMM模型预测站点选址，设计算法提取出聚类区域，并对区域权值进行排序，筛选前K个站点区域；

对于高斯混合模型是指具有如下形式的概率分布模型：

α_k是系数，α_k≥0，为高斯分布密度，/>为第k个分模型，对于该模型来说θ_k＝(μ_k,σ_k,α_k)；

对于每个子模型都有待求的参数μ_k,σ_k,α_k，即每个子模型的期望，协方差、在该混合模型中的权重；通过使用期望最大化算法，来进行迭代从而得到待求参数；以整个城市为研究对象构建预测模型，并通过对不同的模型预测结果进行评价，得到最适合的预测模型；