CN113850295A - 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 - Google Patents

一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 Download PDF

Info

Publication number
CN113850295A
CN113850295A CN202110992718.3A CN202110992718A CN113850295A CN 113850295 A CN113850295 A CN 113850295A CN 202110992718 A CN202110992718 A CN 202110992718A CN 113850295 A CN113850295 A CN 113850295A
Authority
CN
China
Prior art keywords
station
subway
weighted
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110992718.3A
Other languages
English (en)
Other versions
CN113850295B (zh
Inventor
才智
王佳炜
郎琨
李童
苏醒
郭黎敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110992718.3A priority Critical patent/CN113850295B/zh
Publication of CN113850295A publication Critical patent/CN113850295A/zh
Application granted granted Critical
Publication of CN113850295B publication Critical patent/CN113850295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Weighted‑LeaderRank和GMM聚类的站点选址预测方法,通过地铁站打卡数据与出租车OD数据预测未来地铁线路以及对通过排序后的站点,选取最具代表性的几个地铁站,预测其未来周边站点选址位置。本发明将已建成地铁站点,站与站之间的客流量的关系转换成带权的有向图,然后基于该带权的有向图计算每个节点的Weighted‑LeaderRank值;筛选出处于地铁站点覆盖范围之外的出租车OD数据,对其数据进行GMM聚类,得到聚类结果即未来城市总体新建地铁站点的预测位置。通过提出一种模型评价方法,对模型设置不同的参数并对结果进行对比,最后得到最优的模型,并将其应用于预测代表性地铁站周边新建站点的位置。

Description

一种基于Weighted-LeaderRank和GMM聚类的站点选址预测 方法
技术领域
本发明属于数据挖掘领域,涉及一种基于Weighted-LeaderRank与混合高斯聚类(GMM)的站点选址预测方法。
背景技术
随着我国城市的发展以及交通网络的不断完善,截至2019年12月,北京市轨道交通路网运营线路达23条、车站405站,其中包括换乘站62站。此外,北京地铁现有在建线路15条。到2020年,北京地铁将形成线网由30条运营,总长1177公里的轨道交通网络。由于我国总体地铁建设起步时间较晚,地铁现有线路并没有满足所有出行需求,在地铁站点覆盖范围之外的地方,人们通常会选择其他出行方式。
Weighted-LeaderRank算法主要应用于网络节点的重要性排序,该算法的核心思想是在含有N个节点的网络中添加一个背景节点(GroundNode),将原网络变为N+1个节点的强连通网络。Weighted-LeaderRank算法是PageRank算法的改进,最初被应用于网页重要性的排序,即一个网页A的被链接数越多,其网页的重要性越高,且该网页链接指向的网页B的权重也越高。
高斯混合模型(GMM)是一种流行的无监督学习算法,常用于数据的聚类处理,该方法假设数据服从多个高斯分布。GMM的方法与K-means方法相类似,但是由于GMM算法的复杂性,其在聚类效果上表现的更健壮,更有效。目前,GMM模型聚类被广泛应用,如在工业领域,生物领域以及应用于语音聚类与图像的聚类中。
地铁站点的建设有着建设成本高、建成周期长、风险大、建成后不易重建或迁址等属性。所以站点的前期选址工作十分的重要,地铁站点位置的选择是地铁建设过程中重要的一环,甚至对于城市的规划与未来的发展也起着重要的作用。
此外,目前选址主要依据人口密度、区域土地利用特点和交通条件,较少考虑城市居民的出行特点,导致选址与人们的实际需求存在偏差。为此,我们提出了科学合理的选址方法来解决上述问题。
发明内容
本发明提供一种基于Weighted-LeaderRank和混合高斯聚类的站点选址预测方法,通过地铁站打卡数据与出租车OD(乘客上车点与下车点)数据预测未来地铁线路以及对通过排序后的站点,选取最具代表性的几个地铁站,预测其未来周边站点选址位置。
本发明方法的基本原理如下:本发明将已建成地铁站点,站与站之间的客流量的关系转换成带权的有向图,然后基于该带权的有向图计算每个节点的Weighted-LeaderRank值;筛选出处于地铁站点覆盖范围之外的出租车OD数据,对其数据进行GMM聚类,得到聚类结果即未来城市总体新建地铁站点的预测位置。此外通过提出一种模型评价方法,对模型设置不同的参数并对结果进行对比,最后得到最优的模型,并将其应用于预测代表性地铁站周边新建站点的位置。
一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法,其发明包括以下步骤:
步骤一:收集已建地铁站的位置坐标以及地铁乘客AFC打卡数据集,收集出租车GPS数据集,所述数据集包括出租车某时刻的位置坐标、是否载客、车辆信息等。
步骤二:将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵。筛选出地铁运营时间范围内的出租车GPS数据,并转换为OD数据,并基于地铁覆盖范围进行分类。
步骤三:基于Weighted-LeaderRank的站点客流交通网络结构的定义:
定义基于Weighted-LeaderRank站点客流的交通网络有向图为G<V,E>,V是由站点构成的节点集,节点包含该站点的经纬度坐标信息,E是边集,E={<i,j>|i,j∈V},<i,j>表示从节点i到节点j的一条有向边。
步骤四:基于Weighted-LeaderRank客流量模型对已建地铁站的重要指数进行排序,重要指数越大的站点,其站点在地铁网络中的重要性越高,即站点繁忙程度越高。
定义站点i的Weighted-LeaderRank指数的公式为:
Figure BDA0003232970460000021
Figure BDA0003232970460000022
其中1式wji为站点j流向站点i的客流数,
Figure BDA0003232970460000031
为从站点j流出的总客流,当公式迭代至第t次并趋于收敛时,公式停止计算。
其中2式WLRi表示节点i的Weighted-LeaderRank值,tc为WLRi收敛的时刻,N为网络中除去公共节点后的节点个数。
步骤五:将各节点的WLR值按降序进行输出,得到地铁站点重要性排序,其WLR值越大,表示其在地铁网络中的重要性或繁忙程度越高。
步骤六:通过步骤五提取最具代表性的前N个地铁站点与出租车OD数据集,通过GMM模型预测站点选址,设计算法提取出聚类区域,并对区域权值进行排序,筛选前K个站点区域。
对于高斯混合模型是指具有如下形式的概率分布模型:
Figure BDA0003232970460000032
αk是系数,αk≥0,
Figure BDA0003232970460000033
为高斯分布密度,
Figure BDA0003232970460000034
为第k个分模型,对于该模型来说θk=(μkkk)。
Figure BDA0003232970460000035
对于每个子模型我们都有待求的参数μkkk,即每个子模型的期望,协方差、在该混合模型中的权重。通过使用期望最大化(Expectation maximization)算法,来进行迭代从而得到待求参数。
以整个城市为研究对象构建预测模型,并通过对不同的模型预测结果进行评价,得到最适合的预测模型。
步骤七:以某个站点为研究对象,筛选出以该站点为乘车点的出租车OD数据,并通过模型预测其周边的延长站点的选址。
本发明具有以下明显的创新和突出的优势:
本发明基于Weighted-LeaderRank网络节点排序算法,构建地铁客流交通网络,通过对地铁站点重要程度进行排序,筛选出具有代表性的站点;其次通过构建基于GMM算法的预测模型,并通过结合出租车OD数据,预测未来地铁线路趋势以及提取出新建站点区域,最后通过分析提取到的区域,推荐出k个未来新建站点区域。
附图说明
图1为本发明所涉及的地铁站点构建的交通网络链接关系示意图。
图2为本发明提供的出租车GPS数据处理流程图。
图3为本发明提供的基于Weighted-LeaderRank和混合高斯模型聚类的预测未来地铁站点选址的流程图。
图4为本发明提供的预测结果即站点选址预测示意图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
本发明采用的数据集是地铁站点打卡(AFC)数据与同时期出租车GPS载客行驶轨迹数据,基于Weighted-LeaderRank算法与混合高斯模型算法(GMM)的算法流程图如附图3所示,其特征在于包含以下几个步骤。
步骤一:收集已建成的地铁站点位置坐标以及乘客AFC打卡数据、出租车GPS轨迹数据,其GPS轨迹数据包括21590辆出租车的车牌号,生成时间,经纬度,速度,车辆状态等,如表1所示。
表1出租车实验数据集
Figure BDA0003232970460000041
步骤二:设置默认地铁站覆盖范围1km,将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵。对出租车数据如附图2流程所示进行预处理,筛选出地铁运营时间范围内的出租车GPS数据,并转换为OD数据,并基于地铁覆盖范围进行分类:OD都不在地铁覆盖范围内,O或D在地铁覆盖范围内。
步骤三:定义基于Weighted-LeaderRank的站点客流链接的网络结构,读取数据并做预处理,选择数据中的部分信息(卡ID、进站站点、出站站点等)统计站点间的客流量,如附图1所示构建地铁交通网络图。
步骤四:根据构建的基于Weighted-LeaderRank站点—客流链接网络,设置算法中站点的阻尼系数为0.85,采用网络节点排序算法计算各个节点的重要性。
步骤五:得到计算结果,并将结果LR值进行排序并输出。
下面给出一个应用本发明对地铁站点重要性进行计算并排序的实例:
本发明采用的数据集是2013年地铁AFC乘客刷卡数据,我们选取该数据集的部分特征,其中包含了乘客刷卡时间,上下车线路与站点名称。
根据附图1构建地铁—客流交通网络图,根据公式(1)和公式(2)计算地铁站点重要性,从中选取重要性前15条记录的站点,LR值及排名情况,如下表2所示。
表2:本方法基于带权的Weighted-LeaderRank地铁站点重要性排序
Figure BDA0003232970460000051
Figure BDA0003232970460000061
步骤六:定义变量count为聚类区域所覆盖到2013年至今所建的地铁站个数,S为所有聚类区域所覆盖的面积,S/count为每个预测站点所占的面积区域。这两个变量的定义目的在于找到合适的参数,使得整个北京市预测到的新建站点个数最多且总预测区域的总面积最小。
构建GMM预测模型。分别对实验数据进行预测,对所有OD数据不在地铁站点覆盖范围之内的OD数据进行聚类,通过算法将聚类区域转化为正规矩形区域。并通过设置不同的聚类算法参数,比较不同的聚类效果,选取聚类总区域面积较小,同时预测未来新建站点准确率较高的聚类模型。
步骤七:通过地铁站点重要性排序,选取最具代表性的几个地铁站点,筛选出乘车点包含该站点的OD数据,并将该数据带入步骤六得到的模型中,预测该站点周边未来新建站点区域。其预测效果示意图如附图4所示,其矩形区域为通过本发明预测的未来新建站点区域,红色区域为实验验证数据集即未来站点的真实位置,绿色区域为已建站点及其覆盖区域。
本发明为新建地铁线路与对现有地铁站点基础上做延长线路缓解站点压力找到潜在的位置区域,其目的在于完善城市公共交通体系,促进区域整体快速发展。我们通过带权的LeaderRank算法与混合高斯模型,从整体与局部分别出租车的OD进行挖掘,提取并推荐出新建轨道交通区域,该方法可为决策者提供出租车基础设施建设规划的有用信息。

Claims (1)

1.一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法,其特征在于:包括以下步骤:
步骤一:收集已建地铁站的位置坐标以及地铁乘客AFC打卡数据集,收集出租车GPS数据集,所述数据集包括出租车某时刻的位置坐标、是否载客、车辆信息;
步骤二:将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵;筛选出地铁运营时间范围内的出租车GPS数据,并转换为OD数据,并基于地铁覆盖范围进行分类;
步骤三:基于Weighted-LeaderRank的站点客流交通网络结构的定义:
定义基于Weighted-LeaderRank站点客流的交通网络有向图为G<V,E>,V是由站点构成的节点集,节点包含该站点的经纬度坐标信息,E是边集,E={<i,j>|i,j∈V},<i,j>表示从节点i到节点j的一条有向边;
步骤四:基于Weighted-LeaderRank客流量模型对已建地铁站的重要指数进行排序,重要指数越大的站点,其站点在地铁网络中的重要性越高,即站点繁忙程度越高;
定义站点i的Weighted-LeaderRank指数的公式为:
Figure FDA0003232970450000011
Figure FDA0003232970450000012
其中1式wji为站点j流向站点i的客流数,
Figure FDA0003232970450000013
为从站点j流出的总客流,当公式迭代至第t次并趋于收敛时,公式停止计算;
其中2式WLRi表示节点i的Weighted-LeaderRank值,tc为WLRi收敛的时刻,N为网络中除去公共节点后的节点个数;
步骤五:将各节点的WLR值按降序进行输出,得到地铁站点重要性排序,其WLR值越大,表示其在地铁网络中的重要性或繁忙程度越高;
步骤六:通过步骤五提取最具代表性的前N个地铁站点与出租车OD数据集,通过GMM模型预测站点选址,设计算法提取出聚类区域,并对区域权值进行排序,筛选前K个站点区域;
对于高斯混合模型是指具有如下形式的概率分布模型:
Figure FDA0003232970450000021
αk是系数,αk≥0,
Figure FDA0003232970450000022
Figure FDA0003232970450000023
为高斯分布密度,
Figure FDA0003232970450000024
为第k个分模型,对于该模型来说θk=(μkkk);
Figure FDA0003232970450000025
对于每个子模型都有待求的参数μkkk,即每个子模型的期望,协方差、在该混合模型中的权重;通过使用期望最大化算法,来进行迭代从而得到待求参数;以整个城市为研究对象构建预测模型,并通过对不同的模型预测结果进行评价,得到最适合的预测模型;
步骤七:以某个站点为研究对象,筛选出以该站点为乘车点的出租车OD数据,并通过模型预测其周边的延长站点的选址。
CN202110992718.3A 2021-08-27 2021-08-27 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 Active CN113850295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110992718.3A CN113850295B (zh) 2021-08-27 2021-08-27 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110992718.3A CN113850295B (zh) 2021-08-27 2021-08-27 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法

Publications (2)

Publication Number Publication Date
CN113850295A true CN113850295A (zh) 2021-12-28
CN113850295B CN113850295B (zh) 2024-04-02

Family

ID=78976229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110992718.3A Active CN113850295B (zh) 2021-08-27 2021-08-27 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法

Country Status (1)

Country Link
CN (1) CN113850295B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570595A (zh) * 2016-11-10 2017-04-19 深圳市数字城市工程研究中心 一种基于空间大数据的地铁站点选址方法及系统
CN109308543A (zh) * 2018-08-20 2019-02-05 华南理工大学 基于ls-svm和实时大数据的地铁短期客流预测方法
WO2021098619A1 (zh) * 2019-11-19 2021-05-27 中国科学院深圳先进技术研究院 一种短期地铁客流预测方法、系统及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570595A (zh) * 2016-11-10 2017-04-19 深圳市数字城市工程研究中心 一种基于空间大数据的地铁站点选址方法及系统
CN109308543A (zh) * 2018-08-20 2019-02-05 华南理工大学 基于ls-svm和实时大数据的地铁短期客流预测方法
WO2021098619A1 (zh) * 2019-11-19 2021-05-27 中国科学院深圳先进技术研究院 一种短期地铁客流预测方法、系统及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岳真宏;陈峰;王子甲;黄建玲;汪波;: "基于刷卡数据和高斯混合聚类的地铁车站分类", 都市快轨交通, no. 02, 30 April 2017 (2017-04-30), pages 48 - 51 *

Also Published As

Publication number Publication date
CN113850295B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN104318324B (zh) 基于出租车gps记录的机场巴士站点及路线规划方法
CN110298500B (zh) 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法
CN107241512B (zh) 基于手机数据的城际交通出行方式判断方法和设备
CN102867408B (zh) 一种公交出行路线的选择方法
CN107656987B (zh) 一种基于lda模型的地铁站点功能挖掘方法
CN109359682B (zh) 一种基于f-dbscan迭代聚类的机场巴士候选站点筛选方法
CN110555544B (zh) 一种基于gps导航数据的交通需求估计方法
CN107729938B (zh) 一种基于公交接驳辐射区特征的轨道站点分类方法
CN103984994B (zh) 一种城市轨道交通客流高峰持续时间预测方法
WO2023109720A1 (zh) 城市公共交通规划方法
CN110472999B (zh) 基于地铁和共享单车数据的客流模式分析方法及装置
CN111931998B (zh) 一种基于移动定位数据的个体出行模式预测方法及系统
CN110836675A (zh) 一种基于决策树的自动驾驶搜索决策方法
CN112036757A (zh) 基于手机信令和浮动车数据的停车换乘停车场的选址方法
CN114723596A (zh) 一种基于多源交通出行数据和主题模型的城市功能区识别方法
CN109493601B (zh) 一种公交支线设置方法
CN113159371B (zh) 基于跨模态数据融合的未知目标特征建模与需求预测方法
CN112559909B (zh) 一种基于gcn嵌入空间聚类模型的商业区发现方法
CN116882609A (zh) 基于改进轨迹聚类算法的定制公交线路多目标优化方法
CN108960684B (zh) 一种基于不完全轨迹片段的公交乘客闭合出行链挖掘方法
CN107194505A (zh) 一种基于城市大数据预测公共汽车出行量的方法和系统
CN113850295B (zh) 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法
CN115345354A (zh) 基于超图深度网络的城市多方式交通超网络态势预测方法
CN111931968B (zh) 一种应用手机gps数据来优化公共自行车站点布局的方法
CN109558978B (zh) 基于出行距离的区域交通方式划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant