CN111723871A

CN111723871A - 一种公交车实时车厢满载率的估算方法

Info

Publication number: CN111723871A
Application number: CN202010583167.0A
Authority: CN
Inventors: 韦清波; 刘兵; 兰璐昱; 莫竣杰; 曾江; 卫丽红; 高媛; 郭贵城
Original assignee: Guangzhou Haozhi Traffic Technology Co ltd; GUANGZHOU PUBLIC TRANSPORT DATA MANAGEMENT CENTER
Current assignee: Guangzhou Public Transport Data Management Center Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-09-29
Anticipated expiration: 2040-07-09
Also published as: CN111723871B

Abstract

本发明公开了涉及实施交通技术领域的一种公交车实时车厢满载率的估算方法，解决了准确度和时效性较差的问题。其技术要点是：一种公交车实时车厢满载率的估算方法，其特征在于：包括以下步骤：上车站点匹配；推断历史下车站点；基于K近邻的推断模型推断下车站点；基于公交小区的下车站点推断模型推断下车站点；基于下游站点历史下车客流量分布的推断模型推断下车站点；计算车厢载客人数。利用“K近邻推断模型+出行小区估计+下游站点下车客流量随机分布”组合算法推断车厢内所有乘客个体的上、下车站点信息，达到了准确度较好的优点，并达到了时效性较好的优点。

Description

一种公交车实时车厢满载率的估算方法

技术领域

本发明涉及实施交通技术领域，特别是一种公交车实时车厢满载率的估算方法。

背景技术

近年来，随着地铁、互联网租赁自行车等方式的快速发展，常规公交的竞争力有所下滑，北上广深等国内主要城市的公交客流量均出现了下滑现象，根本的原因在于市民对公交的服务水平和出行品质要求越来越高。公交车厢满载率是直接关系市民出行服务水平的最直接指标之一。所谓的“公交车车厢满载率”是指“公交实际载客数与车厢额定载客数的比值”，是用于反映车厢内拥挤程度的指标。客观、准确掌握公交车厢满载率是做好公交管理服务的重要前提条件。

目前公交信息化系统(如公交电子支付系统、智能公交调度系统、公交线网分析系统等)普遍得到使用，公交电子支付数据(部分城市公交电子支付比例接近95％)、公交报站数据、公交发班调度数据等公交大数据均已实现实时回传、自动采集分析，且形成了规模体系。构建一个高效的、连续的、自动计算的公交车厢满载率实时估算方法很有必要，可为后续的公交运行监测、高满载率线路预警、公交实时调度优化、公交线网优化等提供有效的数据源和技术手段。特别是 “新冠肺炎”疫情期间，通过大数据分析发现满载率过高的车辆、高峰时段和热门站点等，可有效提醒公交企业做好发班调整，降低因车厢人群聚集而带来的感染风险。

现有技术中对于公交满载率的估算主要有两种方法，一种是主要以人工抽样调查为主，在时效性、系统性、连续性、颗粒度等方面均存在不足，导致估算值的准确度较差的问题，调查成本也较高；另一种是基于离线的公交乘客刷卡数据、公交调度数据等，通过对乘客多天连续跟踪(例如本次出行的后一次出行)的基础上进行推断获取，时效性和效率性难以满足实时监测、实时公交调度优化的需求。故现有技术存在准确度和时效性较差的问题。

发明内容

为了克服现有技术的上述缺点，本发明的目的是提供一种公交车实时车厢满载率的估算方法，具有准确度和时效性较好的优点。

本发明解决其技术问题所采用的技术方案是：

一种公交车实时车厢满载率的估算方法，包括以下步骤：

S1、上车站点匹配：根据实时回传的乘客电子支付数据和公交报站数据获取上车站点；

S2、推断历史下车站点；

S3、基于K近邻的推断模型推断下车站点：根据所述乘客电子支付数据和公交报站数据构建当前状态向量，根据历史数据构建包含有历史下车站点信息的多个历史状态向量，根据所述当前状态向量搜索出相对应的K个历史状态向量，按照出行频率推断出推断下车站点，进行步骤S6；若无法搜索出与所述当前状态向量相对应的历史状态向量，则进行步骤S4；

S4、基于公交小区的下车站点推断模型推断下车站点：根据所述历史状态向量中获取该乘客的下车交通小区集合A，并根据当前公交站点的下游站点结合地图数据以获取下游交通小区集合B，当下车交通小区集合A和下游交通小区集合B存在交集时，则推断该交集的交通小区与下游站点中最接近的站点作为推断下车站点，进行步骤S6；若无法推断出推断下车站点，则进行步骤S5；

S5、基于下游站点历史下车客流量分布的推断模型推断下车站点：按照乘客在某一时段内各个下游站点的下客流量占比随机分配站点，被随机选中的站点推断为推断下车站点，进行步骤S6；

S6、计算车厢载客人数。

作为本发明的进一步改进：在所述步骤S2具体为：

在历史数据中获取乘客的上车站点，并根据公交线路属性定义乘客本次所乘线路行车方向上所有站点的集合为本次可能下车站点集 D，在历史数据中获取该乘客后一次乘车的上车站点及该站点的周边站点，并将该站点及该站点的周边站点定义为后次出行上车区域站点集O，若本次可能下车站点集D与后次出行上车区域站点集O存在交集，则推断本次可能下车站点集D中距离后一次乘车的上车站点最近的站点为历史下车站点。

作为本发明的进一步改进：所述步骤S1具体为：根据实时回传的包含支付时间的乘客电子支付数据和包含公交报站时间的公交报站数据，对所述支付时间和公交报站时间进行对比，提取在所述支付时间前三十分钟内的所有公交报站数据，以离支付时间最近的报站记录所对应的公交站点作为上车站点。

作为本发明的进一步改进：所述步骤S3具体为：

根据所述乘客电子支付数据和公交报站数据构建当前状态向量，根据历史数据构建包含有历史下车站点信息的多个历史状态向量，根据当前状态向量中包含的卡号、线路号和上车站点与历史状态向量匹配，再根据匹配出的历史状态向量和当前状态向量进行“距离”计算：

根据上述公式计算各历史状态向量和当前状态向量的“距离”，得到距离最小的K个历史状态向量，则推断上述K个历史状态向量中出行频率最高的历史下车站点为推断下车站点。

作为本发明的进一步改进：所述步骤S4具体为：

利用地图数据获取与公交站点匹配的交通小区，根据所述历史状态向量中获取该乘客的下车交通小区集合作为下车交通小区集合A，并按照频率在所述下车交通小区集合A中进行排序，根据公交线路属性获取当前公交站点的下游站点集合S，并利用地图数据获取与下游站点集合S匹配的下游交通小区集合B，求解集合A和B的交集C，按照频率对交集C中的交通小区进行排序，将频率最高的交通小区推断为本次出行的推断交通小区，将所述下游站点集合S中交通小区等于所述推断交通小区的站点推断为推断下车站点。

作为本发明的进一步改进：所述步骤S5具体为：

进行时段划分，从所述历史状态向量中统计不同站点的在不同时段的下客流量，得到站点下车客流量历史库，根据公交线路属性从所述站点下车客流量历史库中搜索出各个站点在与乘客电子支付数据相对应的时段中的下客流量，各站点下车客流量为{N_i+1，N_i+2…N_i+j}，下车客流量占比为：

利用“轮盘赌”算法按照下客流量占比随机分配站点，被随机选中的站点推断为推断下车站点。

作为本发明的进一步改进：所述步骤S6具体为：

根据本趟公交车已经行驶过的公交站点，计算各个站点的上车客流量和下车客流量，得出累计上车人数和累计下车人数，通过计算累计上车人数与累计下车人数之差得出车厢乘客数，通过计算车厢满载率与车厢额定载客数之比得出车厢满载率。

作为本发明的进一步改进：所述步骤S6还包括：车厢乘客数的计算式为：

与现有技术相比，本发明的有益效果是：

利用“K近邻推断模型+出行小区估计+下游站点下车客流量随机分布”组合算法推断车厢内所有乘客个体的上、下车站点信息，可以准确估算公交车厢满载率，真实反映了车厢内的拥挤情况和乘客的舒适水平，达到了准确度较好的优点。且下车站点的推断仅依托于当前乘客的信息和乘客历史出行信息，与后续出行无关，因此可用于实时计算，并达到了时效性较好的优点。

附图说明

图1为本申请实施例中一种公交车实时车厢满载率的估算方法的流程示意图；

图2为本申请实施例中的数据处理流程示意图；

图3为本申请实施例中上车站点匹配的流程示意图；

图4为本申请实施例中推断历史下车站点的示意图；

图5为本申请实施例中“轮盘赌”算法概率分配示意图。

具体实施方式

现结合附图说明与实施例对本发明进一步说明：

实施例：

一种公交车实时车厢满载率的估算方法，包括以下步骤：

S1、上车站点匹配：根据实时回传的包含支付时间的乘客电子支付数据和包含公交报站时间的公交报站数据，对支付时间和公交报站时间进行对比，提取在支付时间前三十分钟内的所有公交报站数据，以离支付时间最近的报站记录所对应的公交站点作为上车站点。

S2、推断历史下车站点：在历史数据中获取乘客的上车站点，并根据公交线路属性定义乘客本次所乘线路行车方向上所有站点的集合为本次可能下车站点集D，在历史数据中获取该乘客后一次乘车的上车站点及该站点的周边站点，并将该站点及该站点的周边站点定义为后次出行上车区域站点集O，若本次可能下车站点集D与后次出行上车区域站点集O存在交集，则推断本次可能下车站点集D中距离后一次乘车的上车站点最近的站点为历史下车站点。

S3、基于K近邻的推断模型推断下车站点：根据乘客电子支付数据和公交报站数据构建当前状态向量，根据历史数据构建包含有历史下车站点信息的多个历史状态向量，根据当前状态向量中包含的卡号、线路号和上车站点与历史状态向量匹配，再根据匹配出的历史状态向量和当前状态向量进行“距离”计算：

根据上述公式计算各历史状态向量和当前状态向量的“距离”，得到距离最小的K个历史状态向量，则推断上述K个历史状态向量中出行频率最高的历史下车站点为推断下车站点，进行步骤S6；若无法搜索出与当前状态向量相对应的历史状态向量，则进行步骤S4；

S4、基于公交小区的下车站点推断模型推断下车站点：利用地图数据获取与公交站点匹配的交通小区，根据历史状态向量中获取该乘客的下车交通小区集合作为下车交通小区集合A，并按照频率在下车交通小区集合A中进行排序，根据公交线路属性获取当前公交站点的下游站点集合S，并利用地图数据获取与下游站点集合S匹配的下游交通小区集合B，求解集合A和B的交集C，按照频率对交集C中的交通小区进行排序，将频率最高的交通小区推断为本次出行的推断交通小区，将下游站点集合S中交通小区等于推断交通小区的站点推断为推断下车站点，进行步骤S6；若无法推断出推断下车站点，则进行步骤S5；

S5、基于下游站点历史下车客流量分布的推断模型推断下车站点：进行时段划分，从历史状态向量中统计不同站点的在不同时段的下客流量，得到站点下车客流量历史库，根据公交线路属性从站点下车客流量历史库中搜索出各个站点在与乘客电子支付数据相对应的时段中的下客流量，各站点下车客流量为{N_i+1，N_i+2…N_i+j}，下车客流量占比为：

利用“轮盘赌”算法按照下客流量占比随机分配站点，被随机选中的站点推断为推断下车站点，进行步骤S6；

S6、计算车厢载客人数：根据本趟公交车已经行驶过的公交站点，计算各个站点的上车客流量和下车客流量，得出累计上车人数和累计下车人数，通过计算累计上车人数与累计下车人数之差得出车厢乘客数，通过计算车厢满载率与车厢额定载客数之比得出车厢满载率。车厢乘客数的计算式为：

在步骤S1中，上车站点匹配主要是依托于实时回传的乘客电子支付数据、公交报站数据，乘客电子支付数据包含了支付时间信息和记录所属车辆信息，公交报站数据包含了所属车辆信息和与不同站点对应的到站时间信息。对支付时间和公交报站时间进行比对，提取在支付时间前30分钟内的所有报站记录，以离支付时刻最近的报站记录所对应的公交站点作为上车站点。

公交收费一票制(即上车刷卡扫码买票，下车不买票)情况下，公交乘客出行信息获取的难点一直在于下车站点时间信息的获取。

在步骤S2中，由于每一张卡可能有多条线路、多个时间段出行，因此每一张卡可能有多条历史状态向量记录，收集多条历史状态向量组成“乘客出行状态向量库”。“乘客出行状态向量库”的数据来源于 “基于乘客出行时空分布的公交乘客OD估计”结果。其基本原理是，在公交出行链闭合(前后两次出行均为公交出行)的假设前提下，利用乘客的后次乘车上车站点信息推断公交乘客本次出行的下车站点，具体估计过程为：

定义乘客“本次可能下车站点集D”，包含乘客本次所乘线路行车方向上所有下游站点的集合为乘客本次的可能下车站点集。

定义乘客的“后次出行上车站点区域O”，包含后次公交出行上车站点及其周边站点(1公里半径内)的集合。

若O、D两者存在交集，则推断“本次可能下车站点集D”当中距离后次出行上车站点最近的站为本次下车站点。

“基于乘客出行时空分布的公交乘客OD估计”方法的优点是准确率比较高，通过定期(每天)开展公交下车站点历史数据推断分析，可以作为本申请“乘客出行状态向量库”的构建持续提供准确的下车站点信息，能有效提高公交车满载率估算的准确性。按照“身份标识 (卡或码号)、线路、线路行向、上车站点、上车交通小区、下车站点、下车交通小区、时间、出行频次”的格式形成包含有历史下车站点信息的“乘客出行状态向量库”。

在步骤S3中，基于K近邻评估模型的建模思路是，根据广义交通运行影响因素分析，构建历史状态向量(包括历史上车站点、上车区域、工作日、刷卡时间、线路和线路行向信息)；根据历史状态向量对历史数据进行归类，构建历史数据库储存各历史状态向量及其所对应的下车站点信息(下车站点、下车区域、出行频率)，历史数据库记录形式为“历史状态向量—下车站点信息”；理想情况下历史数据库应该包含了乘客在各个线路、各个站点上车所对应的下车站点信息，对于实时下车站点的预测，根据当前的工作日信息、刷卡时间、线路、行向、上车站点进行历史状态向量搜索，搜索出最相似的K个历史状态向量，再根据所对应的K个下车站点，按照出行频率推断出下车站点。

所谓的“状态向量”是影响乘客下车站点的各种因素的组合，是求解“预测状态向量”与“历史状态向量”异同的基础。理论上，状态向量所涵括的要素越完备，对历史数据的分类就可以越精细，后期预测精度就越高。目前对于状态向量的要素选择，并没有统一的规则，因此可根据各要素对下车站点的影响程度判断选取。本实施例中将公交乘客的出行“状态向量”设计为：身份标识(卡或码号)、线路、线路行向、上车站点、上车交通小区、下车站点、下车交通小区、时间、出行频次等。即状态向量为：

P＝[卡号,乘坐线路,线路行向,上车站点,上车交通小区，工作日,时间,下车站点,下车交通小区，频率] ＝[c,l,d,up_stop,up_area,w,t,down_stop,down_area,v]

其中，c为身份标识(卡或码号)；l为线路号；d为公交行车方向；up_stop为上车站点；up_area为上车交通小区；w为工作日；t 为上车时点，刷卡(码)所在时段；down_stop为下车站点；down_area 为下车交通小区；v为出行频率。

根据乘客实时上车站点、线路、出行时间等信息，从“乘客出行状态向量库”里面匹配与其最相近的、且出行频率最多的状态向量，以最相近的、频率最多的状态向量作为“邻居”。距离是判定历史状态向量与预测状态向量相似度的指标，距离越小历史状态向量越相似，越有可能成为邻居。本文选取最常用的欧氏距离计算方法，具体计算公式如下。

其中，P_f(w_f,t_f,d_f,v_f)为预测状态向量；P_i(w_i,t_i,d_i,v_i)为历史状态向量i；ω为是各影响因素的权重系数。在计算过程中，将当前状态向量内的包含的信息代入到预测状态向量内进行计算，从而能对当前状态向量中的下车站点加以预测，实现下车站点的推断。

此外，由于卡号、线路号、上车站点为唯一标识，且数值化对于预测结果意义不大，因此主要以文字匹配为主，在“状态向量库”搜索的过程中，对于卡号、线路号、上车站点需全字匹配。

根据上述公式计算各邻居的距离，从小到大排序，得到距离最小的K个邻居，则预测下车站点的为K个邻居里面总频率最高的下车站点作为下车站点。

在步骤S4中，当通过K近邻的推断模型无法搜索到相应历史记录，即无法推断到下车站点时，采用“基于公交小区的下车站点推断方法”：

按照土地利用、经济社会特性、行政区划、干道分割等原则将公交路网分析对象(全市或者局部区域)划分交通小区，交通小区为 5-10平方公里。并根据公交站点所在位置，利用现有的地图数据信息匹配出每一个公交站点所在的交通小区，即当公交站点位于交通小区范围内时，则公交站点所在的交通小区为该交通小区。

假定在S3步骤中未推断出推断下车站点的支付记录其卡号为c_i、乘坐线路为l_i、上车站点为up_stop_i、上车站点所在交通小区为up_area_i，根据c_i搜索“乘客出行状态向量库”中本乘客上车的、交通小区等于上车站点up_stop_i的出行历史记录，进而可以根据历史记录获得其下车交通小区集合A{down_area₁，down_area₂…down_area_j}，并按照下车频率从大到小对集合A中的交通小区进行排序。

根据公交线路属性(包含途径站点、站序等信息)，获取线路l_i在站点up_stop_i所有下游站点的站点集合S{stop_i+1，stop_i+2…stop_i+j}及其交通小区集合B{area₁，area₂…area_j}，求解集合A和B的交集C。当

即表示在“乘客出行状态向量库”中可以找到当前站点的下车交通小区。

根据出行频率对交集C中的交通小区进行排序，以频率最高的交通小区作为乘客c_i在本次出行的下车交通小区down_area_i。

搜索下游站点集合S{stop_i+1，stop_i+2…stop_i+j}中，交通小区等于 down_area_i的第一站点作为本次出行的推断下车站点，从而实现推断下车站点的推断。

在步骤S5中，当通过S3步骤和S4步骤均无法推断出下车站点时(例如历史数据中未包含当前乘客的历史出行信息导致无法推断出当前乘客的推断下车站点)，采用“基于公交小区的下车站点推断方法”，主要步骤为：

以前一天各线路各公交站点的下车客流量为统计对象，以“小时” 为统计周期，即将一天24小时分成24个时段，每个时段长度为1小时，统计各线路在全天不同时点的站点下车客流量，得到“站点下车客流量历史库”。

假定在S3步骤和S4不忠中未推断出推断下车站点的支付记录其卡号为c_i、乘坐线路为l_i，上车站点为up_stop_i，支付时间为t。

根据公交线路属性(包含途径站点、站序等信息)，获取线路l_i在上车站点up_stop_i所有下游站点的站点集合S{stop_i+1，stop_i+2…stop_i+j}。并根据l_i从“站点下车客流量历史库”中搜索出各个站点在时点t的下车客流量，各站点下车客流量为{N_i+1，N_i+2…N_i+j}，计算各站点的下车客流量占比，计算公式如下所示：

其中，ρ_x为线路l_i在站点up_stop_i下游站点x的下车客流量占比。

按照“下车客流量占比越大，概率越大”的原则，利用“轮盘赌” 算法随机分配本次出行的下车站点。以客流量占比为“轮盘赌”算法选择概率，从而计算各站点的累积概率；随机选取0-1范围内的一个随机数，比对随机数与各站点的累积概率，根据随机数所处区间确定推断下车站点，从而实现推断下车站点的推断。

本申请通过构建乘车出行规律历史库，采用“步骤S3的K近邻推断模型+步骤S4的出行小区估计+步骤S5的下游站点历史下车客流量分布”组合推断模型实时推断下车站点，分别对应着组合模型的第一至第三层，不同层级模型之间按照“可推断则尽量推断”原则进行分割。而“步骤S3的K近邻推断模型”与“步骤S4的出行小区估计”使用乘客的状态向量进行推断，推断的信息更细致，匹配度和准确率都优于“步骤S5的下游站点历史下车客流量分布”，因此起到提高准确度的作用。而“步骤S5的下游站点历史下车客流量分布”能够对“步骤S3的K近邻推断模型”与“步骤S4的出行小区估计”无法推断的乘客的推断下车站点进行推断，从而能起到保证准确性的效果。

在步骤S6中，推断出本趟公交车在当前时刻之前所有乘客的上、下车站点信息后，根据本趟公交车已经行驶过的公交站点，计算各个站点的上车客流量和下车客流量。则“车厢乘客数”为“累计上车人数”与“累计下车人数”之差。计算公式为：

其中，load_i为当前车辆的车厢乘客数；n为本趟公交车从首发站出发已经行驶过的站点数；upNum_j为本趟公交车的在站点j的上车客流量；downNum_j为本趟公交车的在站点j的下车客流量。再通过计算车厢满载率与车厢额定载客数之比得出估算的车厢满载率，从而实现估算车辆满载率的功能。

本实施例具有以下优点：

公交车厢满载率由载客人数确定，本质上是由乘客个体组成。而公交乘客出行多是围绕居住地、工作场所、娱乐场所周边区域的常发性出行，出行站点、线路、区域都相对固定，所以通过搜索乘客出行历史库，利用“K近邻推断模型+出行小区估计+下游站点下车客流量随机分布”组合算法推断车厢内所有乘客个体的上、下车站点信息，并通过上下车客流归集计算，可以准确估算公交车厢满载率，真实反映了车厢内的拥挤情况和乘客的舒适水平，达到了准确度较好的优点。且下车站点的推断仅依托于当前乘客的信息和乘客历史出行信息，与后续出行无关，因此可用于实时计算，并达到了时效性较好的优点。

综上所述，本领域的普通技术人员阅读本发明文件后，根据本发明的技术方案和技术构思无需创造性脑力劳动而作出其他各种相应的变换方案，均属于本发明所保护的范围。

Claims

1.一种公交车实时车厢满载率的估算方法，其特征在于：包括以下步骤：

S2、推断历史下车站点；

S6、计算车厢载客人数。

2.根据权利要求1所述的一种公交车实时车厢满载率的估算方法，其特征在于，在所述步骤S2具体为：

在历史数据中获取乘客的上车站点，并根据公交线路属性定义乘客本次所乘线路行车方向上所有站点的集合为本次可能下车站点集D，在历史数据中获取该乘客后一次乘车的上车站点及该站点的周边站点，并将该站点及该站点的周边站点定义为后次出行上车区域站点集O，若本次可能下车站点集D与后次出行上车区域站点集O存在交集，则推断本次可能下车站点集D中距离后一次乘车的上车站点最近的站点为历史下车站点。

3.根据权利要求1所述的一种公交车实时车厢满载率的估算方法，其特征在于，所述步骤S1具体为：根据实时回传的包含支付时间的乘客电子支付数据和包含公交报站时间的公交报站数据，对所述支付时间和公交报站时间进行对比，提取在所述支付时间前三十分钟内的所有公交报站数据，以离支付时间最近的报站记录所对应的公交站点作为上车站点。

4.根据权利要求1所述的一种公交车实时车厢满载率的估算方法，其特征在于，所述步骤S3具体为：

5.根据权利要求1所述的一种公交车实时车厢满载率的估算方法，其特征在于，所述步骤S4具体为：

6.根据权利要求1所述的一种公交车实时车厢满载率的估算方法，其特征在于，所述步骤S5具体为：

7.根据权利要求1所述的一种公交车实时车厢满载率的估算方法，其特征在于，所述步骤S6具体为：

8.根据权利要求7所述的一种公交车实时车厢满载率的估算方法，其特征在于，所述步骤S6还包括：车厢乘客数的计算式为：