一种公交车实时车厢满载率的估算方法
技术领域
本发明涉及实施交通技术领域,特别是一种公交车实时车厢满载 率的估算方法。
背景技术
近年来,随着地铁、互联网租赁自行车等方式的快速发展,常规 公交的竞争力有所下滑,北上广深等国内主要城市的公交客流量均出 现了下滑现象,根本的原因在于市民对公交的服务水平和出行品质要 求越来越高。公交车厢满载率是直接关系市民出行服务水平的最直接 指标之一。所谓的“公交车车厢满载率”是指“公交实际载客数与车 厢额定载客数的比值”,是用于反映车厢内拥挤程度的指标。客观、 准确掌握公交车厢满载率是做好公交管理服务的重要前提条件。
目前公交信息化系统(如公交电子支付系统、智能公交调度系统、 公交线网分析系统等)普遍得到使用,公交电子支付数据(部分城市 公交电子支付比例接近95%)、公交报站数据、公交发班调度数据等 公交大数据均已实现实时回传、自动采集分析,且形成了规模体系。 构建一个高效的、连续的、自动计算的公交车厢满载率实时估算方法 很有必要,可为后续的公交运行监测、高满载率线路预警、公交实时 调度优化、公交线网优化等提供有效的数据源和技术手段。特别是 “新冠肺炎”疫情期间,通过大数据分析发现满载率过高的车辆、高 峰时段和热门站点等,可有效提醒公交企业做好发班调整,降低因车 厢人群聚集而带来的感染风险。
现有技术中对于公交满载率的估算主要有两种方法,一种是主要 以人工抽样调查为主,在时效性、系统性、连续性、颗粒度等方面均 存在不足,导致估算值的准确度较差的问题,调查成本也较高;另一 种是基于离线的公交乘客刷卡数据、公交调度数据等,通过对乘客多 天连续跟踪(例如本次出行的后一次出行)的基础上进行推断获取, 时效性和效率性难以满足实时监测、实时公交调度优化的需求。故现 有技术存在准确度和时效性较差的问题。
发明内容
为了克服现有技术的上述缺点,本发明的目的是提供一种公交车 实时车厢满载率的估算方法,具有准确度和时效性较好的优点。
本发明解决其技术问题所采用的技术方案是:
一种公交车实时车厢满载率的估算方法,包括以下步骤:
S1、上车站点匹配:根据实时回传的乘客电子支付数据和公交报 站数据获取上车站点;
S2、推断历史下车站点;
S3、基于K近邻的推断模型推断下车站点:根据所述乘客电子支 付数据和公交报站数据构建当前状态向量,根据历史数据构建包含有 历史下车站点信息的多个历史状态向量,根据所述当前状态向量搜索 出相对应的K个历史状态向量,按照出行频率推断出推断下车站点, 进行步骤S6;若无法搜索出与所述当前状态向量相对应的历史状态 向量,则进行步骤S4;
S4、基于公交小区的下车站点推断模型推断下车站点:根据所述 历史状态向量中获取该乘客的下车交通小区集合A,并根据当前公交 站点的下游站点结合地图数据以获取下游交通小区集合B,当下车交 通小区集合A和下游交通小区集合B存在交集时,则推断该交集的交 通小区与下游站点中最接近的站点作为推断下车站点,进行步骤S6; 若无法推断出推断下车站点,则进行步骤S5;
S5、基于下游站点历史下车客流量分布的推断模型推断下车站点: 按照乘客在某一时段内各个下游站点的下客流量占比随机分配站点, 被随机选中的站点推断为推断下车站点,进行步骤S6;
S6、计算车厢载客人数。
作为本发明的进一步改进:在所述步骤S2具体为:
在历史数据中获取乘客的上车站点,并根据公交线路属性定义乘 客本次所乘线路行车方向上所有站点的集合为本次可能下车站点集 D,在历史数据中获取该乘客后一次乘车的上车站点及该站点的周边 站点,并将该站点及该站点的周边站点定义为后次出行上车区域站点 集O,若本次可能下车站点集D与后次出行上车区域站点集O存在交 集,则推断本次可能下车站点集D中距离后一次乘车的上车站点最近 的站点为历史下车站点。
作为本发明的进一步改进:所述步骤S1具体为:根据实时回传 的包含支付时间的乘客电子支付数据和包含公交报站时间的公交报 站数据,对所述支付时间和公交报站时间进行对比,提取在所述支付 时间前三十分钟内的所有公交报站数据,以离支付时间最近的报站记 录所对应的公交站点作为上车站点。
作为本发明的进一步改进:所述步骤S3具体为:
根据所述乘客电子支付数据和公交报站数据构建当前状态向量, 根据历史数据构建包含有历史下车站点信息的多个历史状态向量,根 据当前状态向量中包含的卡号、线路号和上车站点与历史状态向量匹 配,再根据匹配出的历史状态向量和当前状态向量进行“距离”计算:
根据上述公式计算各历史状态向量和当前状态向量的“距离”, 得到距离最小的K个历史状态向量,则推断上述K个历史状态向量中 出行频率最高的历史下车站点为推断下车站点。
作为本发明的进一步改进:所述步骤S4具体为:
利用地图数据获取与公交站点匹配的交通小区,根据所述历史状 态向量中获取该乘客的下车交通小区集合作为下车交通小区集合A, 并按照频率在所述下车交通小区集合A中进行排序,根据公交线路属 性获取当前公交站点的下游站点集合S,并利用地图数据获取与下游 站点集合S匹配的下游交通小区集合B,求解集合A和B的交集C, 按照频率对交集C中的交通小区进行排序,将频率最高的交通小区推 断为本次出行的推断交通小区,将所述下游站点集合S中交通小区等 于所述推断交通小区的站点推断为推断下车站点。
作为本发明的进一步改进:所述步骤S5具体为:
进行时段划分,从所述历史状态向量中统计不同站点的在不同时 段的下客流量,得到站点下车客流量历史库,根据公交线路属性从所 述站点下车客流量历史库中搜索出各个站点在与乘客电子支付数据 相对应的时段中的下客流量,各站点下车客流量为{N
i+1,N
i+2…N
i+j}, 下车客流量占比为:
利用“轮盘赌”算 法按照下客流量占比随机分配站点,被随机选中的站点推断为推断下 车站点。
作为本发明的进一步改进:所述步骤S6具体为:
根据本趟公交车已经行驶过的公交站点,计算各个站点的上车客 流量和下车客流量,得出累计上车人数和累计下车人数,通过计算累 计上车人数与累计下车人数之差得出车厢乘客数,通过计算车厢满载 率与车厢额定载客数之比得出车厢满载率。
作为本发明的进一步改进:所述步骤S6还包括:车厢乘客数的 计算式为:
与现有技术相比,本发明的有益效果是:
利用“K近邻推断模型+出行小区估计+下游站点下车客流量随机 分布”组合算法推断车厢内所有乘客个体的上、下车站点信息,可以 准确估算公交车厢满载率,真实反映了车厢内的拥挤情况和乘客的舒 适水平,达到了准确度较好的优点。且下车站点的推断仅依托于当前 乘客的信息和乘客历史出行信息,与后续出行无关,因此可用于实时 计算,并达到了时效性较好的优点。
附图说明
图1为本申请实施例中一种公交车实时车厢满载率的估算方法 的流程示意图;
图2为本申请实施例中的数据处理流程示意图;
图3为本申请实施例中上车站点匹配的流程示意图;
图4为本申请实施例中推断历史下车站点的示意图;
图5为本申请实施例中“轮盘赌”算法概率分配示意图。
具体实施方式
现结合附图说明与实施例对本发明进一步说明:
实施例:
一种公交车实时车厢满载率的估算方法,包括以下步骤:
S1、上车站点匹配:根据实时回传的包含支付时间的乘客电子支 付数据和包含公交报站时间的公交报站数据,对支付时间和公交报站 时间进行对比,提取在支付时间前三十分钟内的所有公交报站数据, 以离支付时间最近的报站记录所对应的公交站点作为上车站点。
S2、推断历史下车站点:在历史数据中获取乘客的上车站点,并 根据公交线路属性定义乘客本次所乘线路行车方向上所有站点的集 合为本次可能下车站点集D,在历史数据中获取该乘客后一次乘车的 上车站点及该站点的周边站点,并将该站点及该站点的周边站点定义 为后次出行上车区域站点集O,若本次可能下车站点集D与后次出行 上车区域站点集O存在交集,则推断本次可能下车站点集D中距离后 一次乘车的上车站点最近的站点为历史下车站点。
S3、基于K近邻的推断模型推断下车站点:根据乘客电子支付数 据和公交报站数据构建当前状态向量,根据历史数据构建包含有历史 下车站点信息的多个历史状态向量,根据当前状态向量中包含的卡号、 线路号和上车站点与历史状态向量匹配,再根据匹配出的历史状态向 量和当前状态向量进行“距离”计算:
根据上述公式计算各历史状态向量和当前状态向量的“距离”, 得到距离最小的K个历史状态向量,则推断上述K个历史状态向量中 出行频率最高的历史下车站点为推断下车站点,进行步骤S6;若无 法搜索出与当前状态向量相对应的历史状态向量,则进行步骤S4;
S4、基于公交小区的下车站点推断模型推断下车站点:利用地图 数据获取与公交站点匹配的交通小区,根据历史状态向量中获取该乘 客的下车交通小区集合作为下车交通小区集合A,并按照频率在下车 交通小区集合A中进行排序,根据公交线路属性获取当前公交站点的 下游站点集合S,并利用地图数据获取与下游站点集合S匹配的下游 交通小区集合B,求解集合A和B的交集C,按照频率对交集C中的 交通小区进行排序,将频率最高的交通小区推断为本次出行的推断交 通小区,将下游站点集合S中交通小区等于推断交通小区的站点推断 为推断下车站点,进行步骤S6;若无法推断出推断下车站点,则进 行步骤S5;
S5、基于下游站点历史下车客流量分布的推断模型推断下车站点: 进行时段划分,从历史状态向量中统计不同站点的在不同时段的下客 流量,得到站点下车客流量历史库,根据公交线路属性从站点下车客 流量历史库中搜索出各个站点在与乘客电子支付数据相对应的时段 中的下客流量,各站点下车客流量为{N
i+1,N
i+2…N
i+j},下车客流量占 比为:
利用“轮盘赌”算法按照下客流 量占比随机分配站点,被随机选中的站点推断为推断下车站点,进行 步骤S6;
S6、计算车厢载客人数:根据本趟公交车已经行驶过的公交站点, 计算各个站点的上车客流量和下车客流量,得出累计上车人数和累计 下车人数,通过计算累计上车人数与累计下车人数之差得出车厢乘客 数,通过计算车厢满载率与车厢额定载客数之比得出车厢满载率。车 厢乘客数的计算式为:
在步骤S1中,上车站点匹配主要是依托于实时回传的乘客电子 支付数据、公交报站数据,乘客电子支付数据包含了支付时间信息和 记录所属车辆信息,公交报站数据包含了所属车辆信息和与不同站点 对应的到站时间信息。对支付时间和公交报站时间进行比对,提取在 支付时间前30分钟内的所有报站记录,以离支付时刻最近的报站记 录所对应的公交站点作为上车站点。
公交收费一票制(即上车刷卡扫码买票,下车不买票)情况下, 公交乘客出行信息获取的难点一直在于下车站点时间信息的获取。
在步骤S2中,由于每一张卡可能有多条线路、多个时间段出行, 因此每一张卡可能有多条历史状态向量记录,收集多条历史状态向量 组成“乘客出行状态向量库”。“乘客出行状态向量库”的数据来源于 “基于乘客出行时空分布的公交乘客OD估计”结果。其基本原理是, 在公交出行链闭合(前后两次出行均为公交出行)的假设前提下,利 用乘客的后次乘车上车站点信息推断公交乘客本次出行的下车站点, 具体估计过程为:
定义乘客“本次可能下车站点集D”,包含乘客本次所乘线路行 车方向上所有下游站点的集合为乘客本次的可能下车站点集。
定义乘客的“后次出行上车站点区域O”,包含后次公交出行上 车站点及其周边站点(1公里半径内)的集合。
若O、D两者存在交集,则推断“本次可能下车站点集D”当中 距离后次出行上车站点最近的站为本次下车站点。
“基于乘客出行时空分布的公交乘客OD估计”方法的优点是准 确率比较高,通过定期(每天)开展公交下车站点历史数据推断分析, 可以作为本申请“乘客出行状态向量库”的构建持续提供准确的下车 站点信息,能有效提高公交车满载率估算的准确性。按照“身份标识 (卡或码号)、线路、线路行向、上车站点、上车交通小区、下车站 点、下车交通小区、时间、出行频次”的格式形成包含有历史下车站 点信息的“乘客出行状态向量库”。
在步骤S3中,基于K近邻评估模型的建模思路是,根据广义交 通运行影响因素分析,构建历史状态向量(包括历史上车站点、上车 区域、工作日、刷卡时间、线路和线路行向信息);根据历史状态向 量对历史数据进行归类,构建历史数据库储存各历史状态向量及其所 对应的下车站点信息(下车站点、下车区域、出行频率),历史数据 库记录形式为“历史状态向量—下车站点信息”;理想情况下历史数 据库应该包含了乘客在各个线路、各个站点上车所对应的下车站点信 息,对于实时下车站点的预测,根据当前的工作日信息、刷卡时间、 线路、行向、上车站点进行历史状态向量搜索,搜索出最相似的K个 历史状态向量,再根据所对应的K个下车站点,按照出行频率推断出 下车站点。
所谓的“状态向量”是影响乘客下车站点的各种因素的组合,是 求解“预测状态向量”与“历史状态向量”异同的基础。理论上,状 态向量所涵括的要素越完备,对历史数据的分类就可以越精细,后期 预测精度就越高。目前对于状态向量的要素选择,并没有统一的规则, 因此可根据各要素对下车站点的影响程度判断选取。本实施例中将公 交乘客的出行“状态向量”设计为:身份标识(卡或码号)、线路、 线路行向、上车站点、上车交通小区、下车站点、下车交通小区、时 间、出行频次等。即状态向量为:
P=[卡号,乘坐线路,线路行向,上车站点,上车交通小区,工作日,时间,下车站点,下车交通小区,频率] =[c,l,d,up_stop,up_area,w,t,down_stop,down_area,v]
其中,c为身份标识(卡或码号);l为线路号;d为公交行车方 向;up_stop为上车站点;up_area为上车交通小区;w为工作日;t 为上车时点,刷卡(码)所在时段;down_stop为下车站点;down_area 为下车交通小区;v为出行频率。
根据乘客实时上车站点、线路、出行时间等信息,从“乘客出行 状态向量库”里面匹配与其最相近的、且出行频率最多的状态向量, 以最相近的、频率最多的状态向量作为“邻居”。距离是判定历史状 态向量与预测状态向量相似度的指标,距离越小历史状态向量越相似, 越有可能成为邻居。本文选取最常用的欧氏距离计算方法,具体计算 公式如下。
其中,Pf(wf,tf,df,vf)为预测状态向量;Pi(wi,ti,di,vi)为历史状态 向量i;ω为是各影响因素的权重系数。在计算过程中,将当前状态 向量内的包含的信息代入到预测状态向量内进行计算,从而能对当前 状态向量中的下车站点加以预测,实现下车站点的推断。
此外,由于卡号、线路号、上车站点为唯一标识,且数值化对于 预测结果意义不大,因此主要以文字匹配为主,在“状态向量库”搜 索的过程中,对于卡号、线路号、上车站点需全字匹配。
根据上述公式计算各邻居的距离,从小到大排序,得到距离最小 的K个邻居,则预测下车站点的为K个邻居里面总频率最高的下车站 点作为下车站点。
在步骤S4中,当通过K近邻的推断模型无法搜索到相应历史记 录,即无法推断到下车站点时,采用“基于公交小区的下车站点推断 方法”:
按照土地利用、经济社会特性、行政区划、干道分割等原则将公 交路网分析对象(全市或者局部区域)划分交通小区,交通小区为 5-10平方公里。并根据公交站点所在位置,利用现有的地图数据信 息匹配出每一个公交站点所在的交通小区,即当公交站点位于交通小 区范围内时,则公交站点所在的交通小区为该交通小区。
假定在S3步骤中未推断出推断下车站点的支付记录其卡号为ci、 乘坐线路为li、上车站点为up_stopi、上车站点所在交通小区为up_areai, 根据ci搜索“乘客出行状态向量库”中本乘客上车的、交通小区等于 上车站点up_stopi的出行历史记录,进而可以根据历史记录获得其下 车交通小区集合A{down_area1,down_area2…down_areaj},并按照下车频率从大到小对集合A中的交通小区进行排序。
根据公交线路属性(包含途径站点、站序等信息),获取线路l
i在 站点up_stop
i所有下游站点的站点集合S{stop
i+1,stop
i+2…stop
i+j}及其 交通小区集合B{area
1,area
2…area
j},求解集合A和B的交集C。当
即表示在“乘客出行状态向量库”中可以找到当前站点的 下车交通小区。
根据出行频率对交集C中的交通小区进行排序,以频率最高的交 通小区作为乘客ci在本次出行的下车交通小区down_areai。
搜索下游站点集合S{stopi+1,stopi+2…stopi+j}中,交通小区等于 down_areai的第一站点作为本次出行的推断下车站点,从而实现推断 下车站点的推断。
在步骤S5中,当通过S3步骤和S4步骤均无法推断出下车站点 时(例如历史数据中未包含当前乘客的历史出行信息导致无法推断出 当前乘客的推断下车站点),采用“基于公交小区的下车站点推断方 法”,主要步骤为:
以前一天各线路各公交站点的下车客流量为统计对象,以“小时” 为统计周期,即将一天24小时分成24个时段,每个时段长度为1小 时,统计各线路在全天不同时点的站点下车客流量,得到“站点下车 客流量历史库”。
假定在S3步骤和S4不忠中未推断出推断下车站点的支付记录 其卡号为ci、乘坐线路为li,上车站点为up_stopi,支付时间为t。
根据公交线路属性(包含途径站点、站序等信息),获取线路li在 上车站点up_stopi所有下游站点的站点集合S{stopi+1,stopi+2…stopi+j}。 并根据li从“站点下车客流量历史库”中搜索出各个站点在时点t的 下车客流量,各站点下车客流量为{Ni+1,Ni+2…Ni+j},计算各站点的下 车客流量占比,计算公式如下所示:
其中,ρx为线路li在站点up_stopi下游站点x的下车客流量占比。
按照“下车客流量占比越大,概率越大”的原则,利用“轮盘赌” 算法随机分配本次出行的下车站点。以客流量占比为“轮盘赌”算法 选择概率,从而计算各站点的累积概率;随机选取0-1范围内的一个 随机数,比对随机数与各站点的累积概率,根据随机数所处区间确定 推断下车站点,从而实现推断下车站点的推断。
本申请通过构建乘车出行规律历史库,采用“步骤S3的K近邻 推断模型+步骤S4的出行小区估计+步骤S5的下游站点历史下车客 流量分布”组合推断模型实时推断下车站点,分别对应着组合模型的 第一至第三层,不同层级模型之间按照“可推断则尽量推断”原则进 行分割。而“步骤S3的K近邻推断模型”与“步骤S4的出行小区估 计”使用乘客的状态向量进行推断,推断的信息更细致,匹配度和准 确率都优于“步骤S5的下游站点历史下车客流量分布”,因此起到提 高准确度的作用。而“步骤S5的下游站点历史下车客流量分布”能 够对“步骤S3的K近邻推断模型”与“步骤S4的出行小区估计”无 法推断的乘客的推断下车站点进行推断,从而能起到保证准确性的效 果。
在步骤S6中,推断出本趟公交车在当前时刻之前所有乘客的上、 下车站点信息后,根据本趟公交车已经行驶过的公交站点,计算各个 站点的上车客流量和下车客流量。则“车厢乘客数”为“累计上车人 数”与“累计下车人数”之差。计算公式为:
其中,loadi为当前车辆的车厢乘客数;n为本趟公交车从首发站 出发已经行驶过的站点数;upNumj为本趟公交车的在站点j的上车客 流量;downNumj为本趟公交车的在站点j的下车客流量。再通过计算 车厢满载率与车厢额定载客数之比得出估算的车厢满载率,从而实现 估算车辆满载率的功能。
本实施例具有以下优点:
公交车厢满载率由载客人数确定,本质上是由乘客个体组成。而 公交乘客出行多是围绕居住地、工作场所、娱乐场所周边区域的常发 性出行,出行站点、线路、区域都相对固定,所以通过搜索乘客出行 历史库,利用“K近邻推断模型+出行小区估计+下游站点下车客流量 随机分布”组合算法推断车厢内所有乘客个体的上、下车站点信息, 并通过上下车客流归集计算,可以准确估算公交车厢满载率,真实反 映了车厢内的拥挤情况和乘客的舒适水平,达到了准确度较好的优点。 且下车站点的推断仅依托于当前乘客的信息和乘客历史出行信息,与 后续出行无关,因此可用于实时计算,并达到了时效性较好的优点。
综上所述,本领域的普通技术人员阅读本发明文件后,根据本发 明的技术方案和技术构思无需创造性脑力劳动而作出其他各种相应 的变换方案,均属于本发明所保护的范围。