CN113536493A

CN113536493A - 基于聚类反推的有效路径生成方法及断面客流估算方法

Info

Publication number: CN113536493A
Application number: CN202110698173.5A
Authority: CN
Inventors: 叶茂; 殷世松; 赵一凡; 郭孝洁; 武莹莹; 张子翰; 张人杰; 程慧
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-10-22

Abstract

本发明涉及一种基于聚类反推的有效路径生成方法及断面客流估算方法，有效路径生产方法包括获取相关数据并进行预处理；统计确定乘客乘车时间、乘客候车时间以及进出站走行时间；对比城市轨道列车时刻表获得列车出行时间，计算乘客出行时间数据集D中个数据点的k_dist值并绘制乘客出行时间数据集D的k_dist曲线，选取合适的邻域密度参数；从乘客出行时间数据集D中选取尚未遍历过的对象p，通过密度相连产生相关簇结果直至D中的对象全部遍历完成，确定密度系数并从路径集合L中筛选出k_route条有效路径；确定潜在换乘节点，将各段路径拼接后放入有效路径集合L中。本发明可以实现城市轨道交通出行有效路径的精准生成为高效、安全城市轨道交通智能数据提供依据。

Description

基于聚类反推的有效路径生成方法及断面客流估算方法

技术领域

本发明涉及一种基于聚类反推的有效路径生成方法，本发明还涉及一种基于聚类反推有效路径生成的断面客流估算方法，属于轨道交通技术领域。

背景技术

近年来我国城市轨道交通发展迅速，线网规模不断增加，呈现出复杂化、网络化发展的趋势。轨道交通客运量也与日俱增。为缓解庞大的出行客流所带来的压力，必须对线网进行合理的运营规划和运力分配，有效调配系统资源，及时调整运营策略，保证轨道交通安全高效地完成运输服务任务。因此，准确的有效路径集生成有利于提高运营管理的科学性和准确性，同时能为运营管理者的决策提供重要依据。

伴随着城市轨道交通线网逐渐进入网络化运营环境，大数据等智能化技术为发展城市轨道线网“无缝换乘”提供了基础，可以精准、高效分析复杂网络化条件下轨道交通系统乘客出行特性和规律，成为实现高效、安全城市轨道交通智能数据平台化管理的关键环节。断面客流是轨道交通系统运营管理过程中运力投放和票务清分的重要指标，而精确的有效路径生成是断面客流计算的基础。在网络化条件下，城市轨道交通线网复杂程度高，乘客换乘选择多样，导致有效路径影响因素众多，给影响因素分析和有效路径的确定带来了挑战。

发明内容

本发明的首要目的在于，克服现有技术中存在的问题，提供一种基于聚类反推的有效路径生成方法，可以实现城市轨道交通出行有效路径的精准生成，便于高效分析复杂网络化条件下轨道交通系统乘客出行特性和规律，为高效、安全城市轨道交通智能数据提供依据。

为解决以上技术问题，本发明的一种基于聚类反推的有效路径生成方法，以精准生成的城市轨道交通出行有效路径为基础建立乘客出行仿真模型，获取包括断面客流在内的多种信息并为城轨系统运力投放提供指导。

本发明的基于聚类反推的有效路径生成方法，依次包括以下步骤：

S1，获取相关数据并进行预处理，预处理的相关数据包含AFC数据集合、列车时刻表数据、线网起终时间信息和线网连通情况；

S2，在到达同一站台的前提下，假设乘客进站和出站的用时相同，且乘客到达终点站后会立即出站而非逗留；在此基础上，统计确定乘客乘车时间、乘客候车时间以及进出站走行时间；

S3，对比城市轨道列车时刻表获得列车出行时间，计算乘客出行时间数据集D中个数据点的k_dist值并绘制乘客出行时间数据集D的k_dist曲线，选取合适的邻域密度参数k_custering；

S4，从乘客出行时间数据集D中选取一个尚未遍历过的对象p，在D内搜寻进出站刷卡时间间隔在(N_p-eps，N_p+eps)范围内的对象，确定密度参数eps与minPts；

S5，通过密度相连产生相关簇结果直至D中的对象全部遍历完成，确定密度系数density并从路径集合L中筛选出被视为有效路径的k_route条路径；

S6，确定潜在换乘节点，利用Dijkstra算法，求解出从起点p到终点q的可行路径，通过Dial算法对有效路径的定义来求解路径并更新，根据站点拓扑节点间“边”的关系，提取出各条线路中搜寻换乘站点，并存储在换乘节点集合Transit中；

S7，若Transit中包含节点，遍历Transit中的节点，假设换乘节点集合Transit中存在某一换乘节点为t_i，从t_i点出发，q为终点，利用Dijkstra算法再次计算从t_i到终点q的路径，将各段路径拼接后，一并放入有效路径集合L中。

进一步的，所述列车时刻表数据具体包括：列车出发时刻表shed_depart、到达时刻表shed_inbound，则shed_depart_i表示i站全天所有列车的离站时刻，shed_inbound_i表示i站全天所有列车的到站时刻，其中第k辆列车的离站时刻为shed_depart_i(k)，第k辆列车的到站时刻为shed_depart_i(k)。

进一步的，S2具体包括如下步骤：

S201、确定到达时间差向量，AFC数据集合中的一条乘客出行记录信息包括：起始站为i站，终点站为j站，i站乘客进站时间为T_i，j站乘客出站时间为T_j，当乘客出行为无换乘出行时，假设乘客的乘车过程开始时间为T_start，乘车过程终止时间为T_end，搜寻列车到达j站的时刻表shed_inbound_j，shed_inbound_j的长度为L_shed；定义到达时间差向量

的集合如下：

S202、确定乘客出行列车班次，删除

中所有小于0的元素，按从小到大的顺序，对到达时间差向量c_L×1(j)中的元素进行重新排列，此时

为乘客到达j站的时间；

当

满足

时，k为乘客到达j站所乘坐的列车班次，进而可确定乘客的候车时间，进站时间；此时，T_start为列车k驶离i站的时间shed_depart_i(k)，T_end为列车k到达j站的时间shed_inbound_j(k)；

S203、确定乘客的乘车时间、各站点进出站走行时间和站台候车时间：乘客的乘车时间为T_i-T_j；

乘客在i站的进出站走行时间T_walk_i满足：

对于i站的候车时间T_wait_i满足：T_wait_i＝shed_depart_i(k)-T_i。

进一步的，S3具体包括如下步骤：

S301、确定数据集D中各条乘客出行记录的k_dist值；

定义函数Dist满足：Dist(i，j)＝abs(D[i]-D[j])；

定义行向量x_dist_L×1满足：x_dist_L×1(i)＝{Dist(i，j),1≤j≤L}；

按从大到小的顺序，对行向量x_dist_L×1中的元素进行重新排列，得到排序后k_dist的值行向量为x_sorted_n×1，那么，对于第i个数据，其k_dist值为：k_dist(i)＝x_sorted_n×1[n-k]；

S302、确定k_dist图分割点q；

密度聚类参数k_custering的取值范围为(1，L]，k_custering的取值应能够区分数据集中密集和稀疏的区域，以k_custering为基准得到排序后的k_dist值矩阵x_sorted_n×1，以索引值x为变量，绘制其关于x_sorted_n×1[x]的曲线，x_sorted_n×1(x)中各点为散点，将各点连接得到函数f(x)的曲线，其中f(x)满足：

对于函数f(x)，存在分割点q满足:

S303、确定密度聚类参数k_custering的取值：对[1，L]内选取所有可能的kcustering值，计算得出q后保存为行向量x_q，其长度为L_q，则kcustering的合理取值应为：

进一步的，S4具体包括如下步骤：

S401、确定邻域半径eps的值：对于eps满足:

对数据集D中各个点，在其eps邻域内搜寻核心点并计算数目，假设数据集中第i个数据点，其所对应的eps邻域为eps_n×1(i)，则第i个数据点所对应的域半径eps取值eps_i，

eps_n×1(i)＝{Dist(i，j)＜eps,1≤j≤L}；

S402、确定邻域阈值minPts的值：

进一步的，S6具体包括如下步骤：

S601、计算拓展路径出行费用，假设p，q为路径中两点，dist(x₁,x₂)函数表示路网结构图中用Dijkstra算法计算所得出的x₁，x₂两点之间的最低出行代价，所述最低出行代价采用出行时间、换乘次数和车厢满载率作为依据；

S602、判定拓展路径有效性；根据Dial算法对于有效路径的要求，在进行路径拓展的过程中，每一次节点拓展都必须远离起点并接近终点，即满足有效路径约束条件；那么对于有效路径集L中的有效路径L_n，(i,j)为L_n中的边(i≠p,j≠q)，边(i,j)的节点i和j满足:

当满足上述有效路径条件时，路径的延展被视为是有效的并被保存，进而考虑路径中的换乘节点集合Transit，若Transit中无节点，则认为当前延展路径是当前出行对之间唯一的有效路径。

本发明的另一个目的在于，克服现有技术中存在的问题，提供一种基于聚类反推有效路径生成的断面客流估算方法，包括如下步骤：

T1.根据线网实际连通状况，绘制线网拓扑图，明确城市轨道交通线网各项属性，包括线网启动时间、线网关闭时间、线网高峰开始时间、线网高峰结束时间和列车时刻表；

T2.根据AFC乘客出行数据，以特定乘客出行信息为单位，将客流分时输入线网，乘客从进入网络开始即开始候车动作，当列车时刻表规定时间到达时，结束候车动作并开始路径选择动作；若当前列车已满载，则认为该站的乘客不会进入乘客流程而继续等候，若当前列车尚未满载但无法承载该站所有的候车乘客，则认为乘客以候车时间开始的顺序登车，剩余无法登车的乘客继续等候；

T3.乘客数据进入线网后，根据有效路径集合，在每一个换乘站判定乘客可能的换乘行为，假设该换乘站连通A，B两个站点，若仅有A出现在乘客对应的有效路径集合中，则判定乘客会前往A站；若A，B两站均出现在乘客对应的有效路径集合中，以路径出行时间为依据，利用Logit概率分布模型判定乘客在该换乘站前往各站点的概率，以概率平均分配或最大概率分配的方法配置乘客后，继续仿真流程；

T4.依据仿真时间粒度，对线网运行时段进行分割，乘客到达每一个断面的时间为到达终点前一个断面的时间加上最后一站行程时间的一半；当车辆到达一个断面后，将乘坐该车的所有乘客计入该时段内该断面的断面客流。

相对于现有技术，本发明取得了以下有益效果：(1)从既有乘客出行数据中提取乘客出行特性和换乘相关参数，并在此基础上提供一种用于生成特定出行对间有效路径集的参数自适应模型。

(2)利用一种以线网仿真思想为核心的断面客流估算方法，可针对不同线网设置相关参数，如线网开放和关闭时间，列车到达时刻表等数据对仿真模型进行设置，并给出断面客流的历史或预测数据，进而获取更多乘客的出行数据。

(3)利用非集计方法断面仿真思路，实现断面客流仿真过程中乘客的全程追踪、特定断面客流溯源，进而实现全网所有断面客流量和轨道交通运力的合理管控和调配。

(4)相比于传统有效路径生成算法，在考虑出行路径的时间和空间特征的基础上，从AFC票卡数据出发进行分析，以密度聚类方法为基础，建立出行数据自适应密度聚类模型，进行聚类后依据各聚类簇平均时间搜寻有效路径，从而实现更为精确的有效路径集合的生成。

(5)传统断面客流大多以数值回归和分析为主，缺乏对客流个体出行倾向的分析，本发明中的断面客流生成基于仿真思路，从乘客进站开始依照线网属性进行运动，是本方法具有适应性和可靠性，能够记录乘客仿真运动流程并获取包括断面客流在内的更多出行信息，为票卡清分和运力投放提供更为精准的指导，进而降低线网运营成本，提高经济效益。

附图说明

图1为本发明中基于聚类反推的有效路径生成方法的总流程图；

图2为本发明基于聚类反推的有效路径生成方法中聚类反推方法的简化流程图；

图3为本发明基于聚类反推的有效路径生成方法中生成方法的简化流程图；

图4为本发明断面客流估算方法的流程图；

图5为本发明中各乘客乘车时间集合所对应的k_custering-eps图和k_custering-minPts图；

图6为本发明中区庄至晓港站乘客出行时间密度的折线图；

图7为本发明中断面客流估算曲线图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

如图1至图3所示，本发明的基于聚类反推的有效路径生成方法，依次包括以下步骤：

列车时刻表数据具体包括：列车出发时刻表shed_depart、到达时刻表shed_inbound，则shed_depart_i表示i站全天所有列车的离站时刻，shed_inbound_i表示i站全天所有列车的到站时刻，其中第k辆列车的离站时刻为shed_depart_i(k)，第k辆列车的到站时刻为shed_depart_i(k)。

S2具体包括如下步骤：

的集合如下：

S202、确定乘客出行列车班次，删除

为乘客到达j站的时间；

当

满足

乘客在i站的进出站走行时间T_walk_i满足：

对于i站的候车时间T_wait_i满足：T_wait_i＝shed_depart_i(k)-T_i。

S3具体包括如下步骤：

S301、确定数据集D中各条乘客出行记录的k_dist值；

定义函数Dist满足：Dist(i，j)＝abs(D[i]-D[j])；

定义行向量x_dist_L×1满足：x_dist_L×1(i)＝{Dist(i，j),1≤j≤L}；

S302、确定k_dist图分割点q；

对于函数f(x)，存在分割点q满足:

S4具体包括如下步骤：

S401、确定邻域半径eps的值：对于eps满足:

eps_n×1(i)＝{Dist(i，j)＜eps,1≤j≤L}；

S402、确定邻域阈值minPts的值：

S6，确定潜在换乘节点，利用Dijkstra算法，求解出从起点p到终点q的可行路径，通过Dial算法对有效路径的定义来求解路径并更新，根据站点拓扑节点间“边”的关系，提取出各条线路中搜寻换乘站点，并存储在换乘节点集合Transit中；S6具体包括如下步骤：

S601、计算拓展路径出行费用，假设p，q为路径中两点，dist(x₁,x₂)函数表示路网结构图中用Dijkstra算法计算所得出的x₁，x₂两点之间的最低出行代价，最低出行代价采用出行时间、换乘次数和车厢满载率作为依据；

如图4所示，本发明的基于聚类反推有效路径生成的断面客流估算方法，包括如下步骤：

以广州地铁区庄-晓港断面为例解释基于聚类反推的有效路径生成方法的流程，其中区庄站为五号线、六号线换乘站，晓港站为八号线常规站点。客流输入为2015年6月份的地铁线网数据，时刻表数据和乘客信息数据，包括了从6月1日开始到6月7日共一周的地铁AFC刷卡数据和对应的2015年线网规划数据。各线路中最早运营时间为6:00，最晚运营时间为23:30。筛选进站站点为区庄，出站站点为晓港的乘客出行数据，共搜索出对应数据集1138条，经过S1步骤，获取各站进站走行时间和出站走行时间。根据进站时间和出行时间，计算出行时间后得到区庄-晓港乘客出行时间集合。

根据乘客进出站时间和列车出行时刻表，经过S2步骤，计算得出乘客的进出站走行时间，候车时间以及乘车时间。其中各乘客乘车时间集合根据出行时间集合绘制所对应k_custering-eps图和k_custering-minPts图，如图5所示。k_custering-eps与k_custering-minPts曲线均在[1,120]内较为平稳，取并集[1,120]作为k_custering的取值范围，分别计算对应的k_dist图，计算对应k-dist分割点q,其中，k_custering的取值满足:

计算得k_custering＝19，取此时的k-dist图分割点q所对应的k-dist值作为预期的eps值，取此时的k值作为预期的minPts值。取所有k值下eps和minPts的平均值作为聚类参数输入，minPts需为整数，进行四舍五入操作，最终取eps为63.97，minPts为23。

区庄至晓港站乘客出行时间密度如图6所示，乘客出行时间长度多集中于1250s至2400s之间，少数乘客出行时间在2500s至2750s之间，其余时间段的乘客出行时间密度呈现出平峰特征。该数据集包含3个聚类数据簇，其中数据簇I包含的数据量最大，峰值为4.282，平均值为1.984，密度参数density_I＝4。数据簇II与数据簇III数据量相对较小，峰值分别为0.757和0.461，平均值分别为0.462和0.246，密度参数density_II＝1，density_III＝1，k_route值取整后为6。以此参数值为输入。

通过对提出的密度聚类有效路径分析、Dial算法和不同约束下的BFS算法进行比较分析，以路径调查的结果作为实际值，共生成潜在有效路径13条，如表1所示，其中，累计站间运行时间不包含进站走行，候车阶段，车辆停靠，站间走行和出站走行所耗费的时间。路径1-路径5对应表中的路径1-5，在路径调查结果中被认为是确定的出行有效路径，称为有效路径集合，路径E1-E8则代表在问卷调查中无乘客选择的8条路径，称为潜在路径集合。

有效路径集生成结果

表1

调整兰德系数ARI是聚类模型的性能评估指标，反映了聚类结果、预估数据集的效果和准确性，其值介于[0,1]之间，ARI越接近1表明数据集越接近真实值。以调整兰德系数ARI作为评估标准，Dial算法共生成路径9条，路径生成结果为

[1,2,3,4,5,E1,E2,E3,E4]，其中额外生成路径共4条，兰德系数RI为0.625；BFS算法中采用换乘次数作为约束，当限制换乘次数为2时，路径生成结果为[1,2,3,E5]，其中额外生成路径1条，兰德系数RI为0.5。当限制换乘次数为3时，路径生成结果为[1,2,3,4,5,E1,E4,E5],其中额外生成路径3条，兰德系数RI为0.556。采用密度聚类有效路径方法，路径生成结果为[1,2,3,4,5,E1]，额外路径为1条，兰德系数为0.833。对比结果如表所示，由调整兰德系数表明本发明所采用的密度聚类方法所生成的有效路径相比于传统路径生成方法在精确度方面具有优势。各算法路径生成结果如表2所示。

算法结果与出行调查数据对比

表2

以广州地铁西朗-坑口断面为例解释基于聚类反推有效路径生成的断面客流估算方法的流程，其中西朗站为一号线、广佛线换乘站，坑口站为一号线常规站点。客流输入为2015年4月13日的广州地铁线网数据、全日地铁AFC刷卡数据、时刻表数据和乘客信息数据。仿真时段为全天。

以全网数据为输入得有效路径共65929条，截取西朗-坑口断面相关路径共9318条，以15分钟为时间粒度分时统计断面客流，和广州地铁清分算法进行比较，斯皮尔曼相关度为0.943，两者具有较好的相关性；两种方法的断面客流预测早高峰均位于480分钟处(即8点-8点15分)；晚高峰均位于1110分钟处(即18点30分-18点45分)，以广州地铁断面清分数据为基准，对双峰型客流的早晚高峰值进行研究，广州地铁断面清分数据的早高峰客流估算值为2893人/15分钟，断面客流估算方法的早高峰客流估算值为2641人/15分钟，相对精度为91.3％；广州地铁断面清分数据的客流晚高峰客流估算值为1332人/15分钟，断面客流估算方法的晚高峰客流估算值为1207人/15分钟，相对精度为90.6％；全天数据相对精度为84.4％。广州清分数据和方法预测结果均为估算数据，因此认为本发明方法的估算结果具有实际意义，断面客流估算曲线如图7所示。

该方法采用非集计的运算思路，能够实现断面客流的反向追踪，以区庄至动物园断面为例，该断面位于线网中心，其断面客流组成复杂，区庄至动物园全日断面客流来源车站如表3所示。

区庄至动物园断面客流溯源

表3

相较于传统断面客流估算方法，本发明可以实现客流及个体站间运行轨迹的详细化定位，追踪乘客在站间的潜在运行轨迹，或进而实现全网断面客流的高效调控和运力的精确分配。显然，基于聚类反推的思路，还可以对本发明做出其它不同形式的变化或变动，例如行人候车时间、走行时间密度聚类，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于聚类反推的有效路径生成方法，其特征在于，依次包括以下步骤：

2.根据权利要求1所述的基于聚类反推的有效路径生成方法，其特征在于，所述列车时刻表数据具体包括：列车出发时刻表shed_depart、到达时刻表shed_inbound，则shed_depart_i表示i站全天所有列车的离站时刻，shed_inbound_i表示i站全天所有列车的到站时刻，其中第k辆列车的离站时刻为shed_depart_i(k)，第k辆列车的到站时刻为shed_depart_i(k)。

3.根据权利要求1所述的基于聚类反推的有效路径生成方法，其特征在于，S2具体包括如下步骤：