CN113850295B - 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 - Google Patents
一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 Download PDFInfo
- Publication number
- CN113850295B CN113850295B CN202110992718.3A CN202110992718A CN113850295B CN 113850295 B CN113850295 B CN 113850295B CN 202110992718 A CN202110992718 A CN 202110992718A CN 113850295 B CN113850295 B CN 113850295B
- Authority
- CN
- China
- Prior art keywords
- subway
- model
- station
- data
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000004080 punching Methods 0.000 claims abstract description 7
- 230000002093 peripheral effect Effects 0.000 claims abstract description 4
- 239000000203 mixture Substances 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013016 damping Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Weighted‑LeaderRank和GMM聚类的站点选址预测方法,通过地铁站打卡数据与出租车OD数据预测未来地铁线路以及对通过排序后的站点,选取最具代表性的几个地铁站,预测其未来周边站点选址位置。本发明将已建成地铁站点,站与站之间的客流量的关系转换成带权的有向图,然后基于该带权的有向图计算每个节点的Weighted‑LeaderRank值;筛选出处于地铁站点覆盖范围之外的出租车OD数据,对其数据进行GMM聚类,得到聚类结果即未来城市总体新建地铁站点的预测位置。通过提出一种模型评价方法,对模型设置不同的参数并对结果进行对比,最后得到最优的模型,并将其应用于预测代表性地铁站周边新建站点的位置。
Description
技术领域
本发明属于数据挖掘领域,涉及一种基于Weighted-LeaderRank与混合高斯聚类(GMM)的站点选址预测方法。
背景技术
随着我国城市的发展以及交通网络的不断完善,截至2019年12月,北京市轨道交通路网运营线路达23条、车站405站,其中包括换乘站62站。此外,北京地铁现有在建线路15条。到2020年,北京地铁将形成线网由30条运营,总长1177公里的轨道交通网络。由于我国总体地铁建设起步时间较晚,地铁现有线路并没有满足所有出行需求,在地铁站点覆盖范围之外的地方,人们通常会选择其他出行方式。
Weighted-LeaderRank算法主要应用于网络节点的重要性排序,该算法的核心思想是在含有N个节点的网络中添加一个背景节点(GroundNode),将原网络变为N+1个节点的强连通网络。Weighted-LeaderRank算法是PageRank算法的改进,最初被应用于网页重要性的排序,即一个网页A的被链接数越多,其网页的重要性越高,且该网页链接指向的网页B的权重也越高。
高斯混合模型(GMM)是一种流行的无监督学习算法,常用于数据的聚类处理,该方法假设数据服从多个高斯分布。GMM的方法与K-means方法相类似,但是由于GMM算法的复杂性,其在聚类效果上表现的更健壮,更有效。目前,GMM模型聚类被广泛应用,如在工业领域,生物领域以及应用于语音聚类与图像的聚类中。
地铁站点的建设有着建设成本高、建成周期长、风险大、建成后不易重建或迁址等属性。所以站点的前期选址工作十分的重要,地铁站点位置的选择是地铁建设过程中重要的一环,甚至对于城市的规划与未来的发展也起着重要的作用。
此外,目前选址主要依据人口密度、区域土地利用特点和交通条件,较少考虑城市居民的出行特点,导致选址与人们的实际需求存在偏差。为此,我们提出了科学合理的选址方法来解决上述问题。
发明内容
本发明提供一种基于Weighted-LeaderRank和混合高斯聚类的站点选址预测方法,通过地铁站打卡数据与出租车OD(乘客上车点与下车点)数据预测未来地铁线路以及对通过排序后的站点,选取最具代表性的几个地铁站,预测其未来周边站点选址位置。
本发明方法的基本原理如下:本发明将已建成地铁站点,站与站之间的客流量的关系转换成带权的有向图,然后基于该带权的有向图计算每个节点的Weighted-LeaderRank值;筛选出处于地铁站点覆盖范围之外的出租车OD数据,对其数据进行GMM聚类,得到聚类结果即未来城市总体新建地铁站点的预测位置。此外通过提出一种模型评价方法,对模型设置不同的参数并对结果进行对比,最后得到最优的模型,并将其应用于预测代表性地铁站周边新建站点的位置。
一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法,其发明包括以下步骤:
步骤一:收集已建地铁站的位置坐标以及地铁乘客AFC打卡数据集,收集出租车GPS数据集,所述数据集包括出租车某时刻的位置坐标、是否载客、车辆信息等。
步骤二:将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵。筛选出地铁运营时间范围内的出租车GPS数据,并转换为OD数据,并基于地铁覆盖范围进行分类。
步骤三:基于Weighted-LeaderRank的站点客流交通网络结构的定义:
定义基于Weighted-LeaderRank站点客流的交通网络有向图为G<V,E>,V是由站点构成的节点集,节点包含该站点的经纬度坐标信息,E是边集,E={<i,j>|i,j∈V},<i,j>表示从节点i到节点j的一条有向边。
步骤四:基于Weighted-LeaderRank客流量模型对已建地铁站的重要指数进行排序,重要指数越大的站点,其站点在地铁网络中的重要性越高,即站点繁忙程度越高。
定义站点i的Weighted-LeaderRank指数的公式为:
其中1式wji为站点j流向站点i的客流数,为从站点j流出的总客流,当公式迭代至第t次并趋于收敛时,公式停止计算。
其中2式WLRi表示节点i的Weighted-LeaderRank值,tc为WLRi收敛的时刻,N为网络中除去公共节点后的节点个数。
步骤五:将各节点的WLR值按降序进行输出,得到地铁站点重要性排序,其WLR值越大,表示其在地铁网络中的重要性或繁忙程度越高。
步骤六:通过步骤五提取最具代表性的前N个地铁站点与出租车OD数据集,通过GMM模型预测站点选址,设计算法提取出聚类区域,并对区域权值进行排序,筛选前K个站点区域。
对于高斯混合模型是指具有如下形式的概率分布模型:
αk是系数,αk≥0,为高斯分布密度,/>为第k个分模型,对于该模型来说θk=(μk,σk,αk)。
对于每个子模型我们都有待求的参数μk,σk,αk,即每个子模型的期望,协方差、在该混合模型中的权重。通过使用期望最大化(Expectation maximization)算法,来进行迭代从而得到待求参数。
以整个城市为研究对象构建预测模型,并通过对不同的模型预测结果进行评价,得到最适合的预测模型。
步骤七:以某个站点为研究对象,筛选出以该站点为乘车点的出租车OD数据,并通过模型预测其周边的延长站点的选址。
本发明具有以下明显的创新和突出的优势:
本发明基于Weighted-LeaderRank网络节点排序算法,构建地铁客流交通网络,通过对地铁站点重要程度进行排序,筛选出具有代表性的站点;其次通过构建基于GMM算法的预测模型,并通过结合出租车OD数据,预测未来地铁线路趋势以及提取出新建站点区域,最后通过分析提取到的区域,推荐出k个未来新建站点区域。
附图说明
图1为本发明所涉及的地铁站点构建的交通网络链接关系示意图。
图2为本发明提供的出租车GPS数据处理流程图。
图3为本发明提供的基于Weighted-LeaderRank和混合高斯模型聚类的预测未来地铁站点选址的流程图。
图4为本发明提供的预测结果即站点选址预测示意图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
本发明采用的数据集是地铁站点打卡(AFC)数据与同时期出租车GPS载客行驶轨迹数据,基于Weighted-LeaderRank算法与混合高斯模型算法(GMM)的算法流程图如附图3所示,其特征在于包含以下几个步骤。
步骤一:收集已建成的地铁站点位置坐标以及乘客AFC打卡数据、出租车GPS轨迹数据,其GPS轨迹数据包括21590辆出租车的车牌号,生成时间,经纬度,速度,车辆状态等,如表1所示。
表1出租车实验数据集
步骤二:设置默认地铁站覆盖范围1km,将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵。对出租车数据如附图2流程所示进行预处理,筛选出地铁运营时间范围内的出租车GPS数据,并转换为OD数据,并基于地铁覆盖范围进行分类:OD都不在地铁覆盖范围内,O或D在地铁覆盖范围内。
步骤三:定义基于Weighted-LeaderRank的站点客流链接的网络结构,读取数据并做预处理,选择数据中的部分信息(卡ID、进站站点、出站站点等)统计站点间的客流量,如附图1所示构建地铁交通网络图。
步骤四:根据构建的基于Weighted-LeaderRank站点—客流链接网络,设置算法中站点的阻尼系数为0.85,采用网络节点排序算法计算各个节点的重要性。
步骤五:得到计算结果,并将结果LR值进行排序并输出。
下面给出一个应用本发明对地铁站点重要性进行计算并排序的实例:
本发明采用的数据集是2013年地铁AFC乘客刷卡数据,我们选取该数据集的部分特征,其中包含了乘客刷卡时间,上下车线路与站点名称。
根据附图1构建地铁—客流交通网络图,根据公式(1)和公式(2)计算地铁站点重要性,从中选取重要性前15条记录的站点,LR值及排名情况,如下表2所示。
表2:本方法基于带权的Weighted-LeaderRank地铁站点重要性排序
步骤六:定义变量count为聚类区域所覆盖到2013年至今所建的地铁站个数,S为所有聚类区域所覆盖的面积,S/count为每个预测站点所占的面积区域。这两个变量的定义目的在于找到合适的参数,使得整个北京市预测到的新建站点个数最多且总预测区域的总面积最小。
构建GMM预测模型。分别对实验数据进行预测,对所有OD数据不在地铁站点覆盖范围之内的OD数据进行聚类,通过算法将聚类区域转化为正规矩形区域。并通过设置不同的聚类算法参数,比较不同的聚类效果,选取聚类总区域面积较小,同时预测未来新建站点准确率较高的聚类模型。
步骤七:通过地铁站点重要性排序,选取最具代表性的几个地铁站点,筛选出乘车点包含该站点的OD数据,并将该数据带入步骤六得到的模型中,预测该站点周边未来新建站点区域。其预测效果示意图如附图4所示,其矩形区域为通过本发明预测的未来新建站点区域,红色区域为实验验证数据集即未来站点的真实位置,绿色区域为已建站点及其覆盖区域。
本发明为新建地铁线路与对现有地铁站点基础上做延长线路缓解站点压力找到潜在的位置区域,其目的在于完善城市公共交通体系,促进区域整体快速发展。我们通过带权的LeaderRank算法与混合高斯模型,从整体与局部分别出租车的OD进行挖掘,提取并推荐出新建轨道交通区域,该方法可为决策者提供出租车基础设施建设规划的有用信息。
Claims (1)
1.一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法,其特征在于:包括以下步骤:
步骤一:收集已建地铁站的位置坐标以及地铁乘客AFC打卡数据集,收集出租车GPS数据集,所述数据集包括出租车某时刻的位置坐标、是否载客、车辆信息;
步骤二:将地铁AFC打卡数据处理转换为站点到站点的客流量矩阵;筛选出地铁运营时间范围内的出租车GPS数据,并转换为OD数据,并基于地铁覆盖范围进行分类;
步骤三:基于Weighted-LeaderRank的站点客流交通网络结构的定义:
定义基于Weighted-LeaderRank站点客流的交通网络有向图为G<V,E>,V是由站点构成的节点集,节点包含该站点的经纬度坐标信息,E是边集,E={<i,j>|i,j∈V},<i,j>表示从节点i到节点j的一条有向边;
步骤四:基于Weighted-LeaderRank客流量模型对已建地铁站的重要指数进行排序,重要指数越大的站点,其站点在地铁网络中的重要性越高,即站点繁忙程度越高;
定义站点i的Weighted-LeaderRank指数的公式为:
其中1式wji为站点j流向站点i的客流数,为从站点j流出的总客流,当公式迭代至第t次并趋于收敛时,公式停止计算;
其中2式WLRi表示节点i的Weighted-LeaderRank值,tc为WLRi收敛的时刻,N为网络中除去公共节点后的节点个数;
步骤五:将各节点的WLR值按降序进行输出,得到地铁站点重要性排序,其WLR值越大,表示其在地铁网络中的重要性或繁忙程度越高;
步骤六:通过步骤五提取最具代表性的前N个地铁站点与出租车OD数据集,通过GMM模型预测站点选址,设计算法提取出聚类区域,并对区域权值进行排序,筛选前K个站点区域;
对于高斯混合模型是指具有如下形式的概率分布模型:
αk是系数,αk≥0, 为高斯分布密度,/>为第k个分模型,对于该模型来说θk=(μk,σk,αk);
对于每个子模型都有待求的参数μk,σk,αk,即每个子模型的期望,协方差、在该混合模型中的权重;通过使用期望最大化算法,来进行迭代从而得到待求参数;以整个城市为研究对象构建预测模型,并通过对不同的模型预测结果进行评价,得到最适合的预测模型;
步骤七:以某个站点为研究对象,筛选出以该站点为乘车点的出租车OD数据,并通过模型预测其周边的延长站点的选址。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992718.3A CN113850295B (zh) | 2021-08-27 | 2021-08-27 | 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992718.3A CN113850295B (zh) | 2021-08-27 | 2021-08-27 | 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113850295A CN113850295A (zh) | 2021-12-28 |
CN113850295B true CN113850295B (zh) | 2024-04-02 |
Family
ID=78976229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110992718.3A Active CN113850295B (zh) | 2021-08-27 | 2021-08-27 | 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850295B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570595A (zh) * | 2016-11-10 | 2017-04-19 | 深圳市数字城市工程研究中心 | 一种基于空间大数据的地铁站点选址方法及系统 |
CN109308543A (zh) * | 2018-08-20 | 2019-02-05 | 华南理工大学 | 基于ls-svm和实时大数据的地铁短期客流预测方法 |
WO2021098619A1 (zh) * | 2019-11-19 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 一种短期地铁客流预测方法、系统及电子设备 |
-
2021
- 2021-08-27 CN CN202110992718.3A patent/CN113850295B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570595A (zh) * | 2016-11-10 | 2017-04-19 | 深圳市数字城市工程研究中心 | 一种基于空间大数据的地铁站点选址方法及系统 |
CN109308543A (zh) * | 2018-08-20 | 2019-02-05 | 华南理工大学 | 基于ls-svm和实时大数据的地铁短期客流预测方法 |
WO2021098619A1 (zh) * | 2019-11-19 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 一种短期地铁客流预测方法、系统及电子设备 |
Non-Patent Citations (1)
Title |
---|
岳真宏 ; 陈峰 ; 王子甲 ; 黄建玲 ; 汪波 ; .基于刷卡数据和高斯混合聚类的地铁车站分类.都市快轨交通.2017,(第02期),第48-51页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113850295A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104318324B (zh) | 基于出租车gps记录的机场巴士站点及路线规划方法 | |
CN110070713B (zh) | 一种基于双向嵌套lstm神经网络的交通流预测方法 | |
CN107610464B (zh) | 一种基于高斯混合时间序列模型的轨迹预测方法 | |
WO2023056696A1 (zh) | 基于循环神经网络的城市轨道交通短时客流预测方法 | |
CN107656987B (zh) | 一种基于lda模型的地铁站点功能挖掘方法 | |
CN110555544B (zh) | 一种基于gps导航数据的交通需求估计方法 | |
CN109359682A (zh) | 一种基于f-dbscan迭代聚类的机场巴士候选站点筛选方法 | |
Salavati et al. | Applying AHP and clustering approaches for public transportation decisionmaking: a case study of Isfahan city | |
CN110836675A (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
CN114969007A (zh) | 一种基于功能混合度和集成学习的城市功能区识别方法 | |
CN115412857B (zh) | 一种居民出行信息预测方法 | |
Li et al. | Using smart card data trimmed by train schedule to analyze metro passenger route choice with synchronous clustering | |
CN113642757A (zh) | 一种基于人工智能的物联网充电桩建设规划的方法及系统 | |
CN106373384A (zh) | 边远地区客运班车线路实时生成方法 | |
CN114723596A (zh) | 一种基于多源交通出行数据和主题模型的城市功能区识别方法 | |
CN113850295B (zh) | 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 | |
CN116882609A (zh) | 基于改进轨迹聚类算法的定制公交线路多目标优化方法 | |
CN111640294B (zh) | 一种新建地铁线路影响下城市公交线路客流变化预测方法 | |
CN110210667B (zh) | 基于变尺度地理加权回归模型的o-d时空分布预测方法 | |
CN107194505A (zh) | 一种基于城市大数据预测公共汽车出行量的方法和系统 | |
CN115206104B (zh) | 一种基于手机信令数据的城市居民交通出行方式识别方法 | |
CN114742131A (zh) | 基于模式挖掘的城市过度旅游区域识别方法 | |
CN114861975A (zh) | 基于吸引强度的城市旅游交通需求联合预测方法 | |
CN115345354A (zh) | 基于超图深度网络的城市多方式交通超网络态势预测方法 | |
CN111062589B (zh) | 一种基于目的地预测的城市出租车调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |