CN111899511A - 一种共线线路avl数据的公交车到站时间预测方法 - Google Patents

一种共线线路avl数据的公交车到站时间预测方法 Download PDF

Info

Publication number
CN111899511A
CN111899511A CN202010768642.1A CN202010768642A CN111899511A CN 111899511 A CN111899511 A CN 111899511A CN 202010768642 A CN202010768642 A CN 202010768642A CN 111899511 A CN111899511 A CN 111899511A
Authority
CN
China
Prior art keywords
data
bus
station
arrival time
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010768642.1A
Other languages
English (en)
Inventor
叶彭姚
杜孟秋
张南
肖炎
邓艺峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202010768642.1A priority Critical patent/CN111899511A/zh
Publication of CN111899511A publication Critical patent/CN111899511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/123Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明属于城市智能公共交通信息处理技术领域,公开了一种共线线路数据的公交车到站时间预测方法,采集智能公交运营基础数据并建立数据库;对采集到的数据进行预处理;搭建预测模型框架;基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。本发明提出了一种基于共线线路运营数据的到站时间预测方法,通过引入其他共线线路的运营信息,以细化车辆间的车头时距间隔,提高历史数据的时效性和可靠性,同时也能将线路车辆间的相互影响纳入考虑,减小了干扰因素对公交到站时间预测带来的影响。

Description

一种共线线路AVL数据的公交车到站时间预测方法
技术领域
本发明属于城市智能公共交通信息处理技术领域,尤其涉及一种共线线路AVL数据的公交车到站时间预测方法。
背景技术
目前,交通问题已经随着社会和经济的发展逐渐成为大中型城市中普遍存在的问题,极大的影响着居民的出行效率,城市的交通问题是由道路交通条件的发展和日益增长的出行需求之间的矛盾造成的,主要体现在交通拥堵、事故频发、污染严重以及通勤距离和时间增加等方面。城市公共交通系统具有节能环保、高效集约、实惠经济等特点,能够为城市居民提供多样化的出行选择,还可以降低环境污染、节约土地资源、减少交通事故。因此,优先发展公共交通、改善公交服务水平、提高公交吸引力是解决上述交通问题的首选途径之一。
许多城市的轨道交通尚未形成体系,而在轨道交通已建成网络的特大级城市中,由于其人口密度巨大,轨道交通也远不能满足城市居民日常出行需求,未来相当长的时间内,常规公交系统仍然是承担城市公共交通客流需求的主要交通方式。然而,常规公交系统的发展还面临诸多问题,如调度方式落后、运营效率低下、智能化系统化不足等。这些问题严重影响了公交客运的服务质量,降低了常规公交的竞争力,直接反映为各大城市较低的常规公交分担率。
大量的研究表明,由于受到道路交通阻抗的外在影响,乘客敏感性转移,对于车内旅行时间的敏感性小于站点等待时间。准确的到站时间预测可以使乘客根据自身出行需求决定出行时间,以减少乘客在站点的等待时间。此外,精确的公交到站时间预测还是公交出行路径诱导、公交运行动态调度管理等的重要前提。但是,由于公交车运行过程中受到各种因素的影响,产生的干扰使得公交车到站时间预测的误差达到200%以上。这些因素主要包括以下三类:第一,国内城市路网结构先天不足,公交线路多集中规划于主次干道上,导致线路的重复系数较高,且同一个站点有多条线路的公交车停靠,公交车在站间运行和站点停靠时线路间的相互影响均较大。第二,较高的发车频率和线路重复系数导致的公交车辆行驶间隔不均匀,会使得历史数据时效性较差,造成单条线路到站时间预测结果出现较大偏差。第三,异质交通流、乘客出行需求时空分布不均匀、交叉口延误、交通事故等带来的干扰,都会导致公交行程时间出现较大波动,从而影响公交车到站时间的预测精度。
通过上述分析,现有技术存在的问题及缺陷为:
现有预测方法预测结果偏差大,预测精度不高。
现有的公交到站时间预测方法仅考虑相同线路的运行信息,而实际运营中多条线路服务于同一通道,在预测中没有充分利用其它线路的运行信息;
现有的预测模型仅考虑相同线路的运行信息,到站时间预测结果准确度低于多线路模型。
解决以上问题及缺陷的难度为:
在数据预处理流程中,所有存在缺失记录的班次全部删除,没有采取合适的算法进行数据补齐。因此,不能有效评估数据缺失情况对预测结果的影响。
虽然本发明提出的基于共线线路的公交到站时间预测模型较之常用的单线预测模型来说精度有所提高,但是,公交车辆在运营过程中会受到很多因素的干扰,如道路条件、交通状况、客流强度等等,这也导致公交到站时间预测的精度难以进一步提升。
解决以上问题及缺陷的意义为:
(1)本发明提出一种多条线路共线运行情况下的公交到站时间预测方法,从公交通道的角度,利用共线线路的公交运营数据作为输入变量进行公交到站时间的预测,以提高预测结果的精度和可靠性。
(2)将该方法预测结果与典型的单条线路到站时间预测方法所得结果进行比较,横向对比验证该方法的有效性。此外,研究还对支持向量机模型、前馈神经网络模型的性能进行了评价和比较,为研究人员和实践者提供有价值的结论。
(3)从乘客出行的角度,精确实时的公交到站时间预测有助于乘客在出行前安排出行的交通方式和路线、准确估计出行时间,合理分配出行,以减少乘客在站的候车时间、缓解焦虑情绪并降低站台拥挤程度。
发明内容
针对现有技术存在的问题,本发明提供了一种共线线路数据的公交车到站时间预测方法。
本发明是这样实现的,一种共线线路数据的公交车到站时间预测方法,包括:
步骤一,采集智能公交运营基础数据并建立数据库;
步骤二,对采集到的数据进行预处理;搭建预测模型框架;
步骤三,基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;
步骤四,利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。
进一步,步骤一中,主要是把采集到的数据统一导入到数据库中,然后进行下面的数据预处理;“建立数据库”是将数据导入数据库,得到含有基础数据的一个数据库。
所述公交运营基础数据包括:公交车自动定位数据即AVL数据或者GPS数据和公交线路站点地理信息数据即GIS数据。
进一步,步骤二中,所述预处理方法包括:
(1)AVL数据与GIS数据关联:利用AVL数据、GIS数据共有的字段ROUTEID和STATIONNUM进行关联,给AVL数据匹配每条线路的站点名称、站点序号、运营方向信息;
(2)公交运行班次划分:
(2.1)将原始数据按日期、线路号、车辆编号和记录时间进行排序,依次比较下一行数据和本行数据的日期、线路号、车辆编号和运行方向字段,当其中任一字段的值发生改变,则运行班次-temp字段值增加1;
(2.2)基于第一次班次划分的结果再划分一次运营班次,根据运营班次-temp字段和站点序号对数据进行排序,比较下一行数据和本行数据的运营班次-temp字段和站点序号字段,当运营班次-temp字段发生改变或下一行数据的站点序号小于本行数据,则运营班次字段值增加1;将得到的运营班次字段将作为最终的公交运营班次值存储于原数据中;
(3)AVL数据处理:
(3.1)重复数据处理:同一班次到离站数据在首末站的重复数据,保留时间最晚的一条数据作为首站点的出站记录,保留时间最早的一条数据作为末站点的到站记录;同一班次到离站数据在中间站点的重复数据,保留同一站点中时间最早和时间最晚的两条数据,分别作为本站的到站和离站记录;
(3.2)异常数据处理:根据异常数据的特点,以运行班次为单位,按进站时间的先后对数据排序,若出现站点次序倒置或站点编号顺序错乱的数据,则标记并删除该数据;
(3.3)缺失数据处理:提取共线运营的不同线路经过的相同站点的到离站数据,再根据各班次总的到离站记录的数量和共线运营的不同线路经过的相同站点的数量来判定该班次数据是否存在缺失;当各班次总的到站或离站记录数小于选取的公交通道站点数,标记并删除该班次的到离站数据。
进一步,步骤二中,所述预测模型框架搭建方法包括:通过模型假设、参数设置、车头时距变量处理和行程时间变量处理进行输入预测模型构建;
1)确定预测目标:
所述预测目标为基于线路j和j′(j≠j′∈J)的车辆运行信息预测线路j(j∈J)的第i辆公交在站点k+μ处的到站时间,即预测线路j(j∈J)的第i辆公交在站点k和站点k+μ之间的行程时间;公式如下:
Figure BDA0002615635180000031
其中,
Figure BDA0002615635180000032
表示第i辆公交在站点k+μ处的到达时间;
Figure BDA0002615635180000033
表示第i辆公交在站点k处的到达时间;
Figure BDA0002615635180000034
表示第i辆公交在站点k和站点k+μ之间的行程时间预测值;
2)进行模型假设;
所述模型假设包括:
a)在公交通道中,超车行为不允许发生;
b)在不同线路的所有车辆中,驾驶员状况均相同;
c)公交车辆之间及车辆和调度中心之间能够实现实时信息的交互;
3)确定车头时距变量:
选择路段起点处的车头时距作为预测模型的输入变量之一,当目标车辆i到达站点k时,已有n辆公交经过了站点k+μ,p为仍在公交通道上行驶的车辆数,则两类车头时距变量的计算公式如下:
Figure BDA0002615635180000035
Figure BDA0002615635180000036
式中:
Figure BDA0002615635180000041
表示目标车辆i和前车i-p-1在站点k处的联合车头时距,其中前车i-p-1属于线路集合J中的任意线路;
Figure BDA0002615635180000042
表示目标车辆i和前车i-p-n在站点k处的车头时距,其中前车i-p-n和目标车辆i为同一线路;
Figure BDA0002615635180000043
为目标车辆i在站点k处的到达时间;
Figure BDA0002615635180000044
为公交i-p-1在站点k处的到达时间;
Figure BDA0002615635180000045
为公交i-p-n在站点k处的到达时间;
4)确定行程时间变量:
利用车头时距的倒数对已经通过的前几辆车的行程时间进行加权,加权平均行程时间的计算公式如下:
Figure BDA0002615635180000046
Figure BDA0002615635180000047
Figure BDA0002615635180000048
式中:
Figure BDA0002615635180000049
表示线路集合J中任意线路前σ辆车的加权平均行程时间;Γ表示权重和;σ为加权时选取的前车数量,该参数在模型预测阶段需先优化;
Figure BDA00026156351800000410
表示公交i-p-m在站点k和站点k+μ之间的行程时间;
Figure BDA00026156351800000411
表示公交i-p-m在站点k+μ处的到达时间;
Figure BDA00026156351800000412
表示公交i-p-m在站点k处的到达时间;
5)选取和目标车辆线路相同的前车的行程时间作为预测模型的输入变量,计算公式如下:
Figure BDA00026156351800000413
式中:
Figure BDA00026156351800000414
表示与公交i线路号相同的车辆i-p-n在站点k和站点k+μ之间的行程时间;
Figure BDA00026156351800000415
Figure BDA00026156351800000416
分别表示公交i-p-n在站点k+μ和站点k处的到达时间;
6)得到基于共线线路的公交行程时间预测模型为:
Figure BDA00026156351800000417
式中:
Figure BDA00026156351800000418
表示公交i在站点k和站点k+μ之间的行程时间预测值;f(·)表示输入变量
Figure BDA00026156351800000419
和输出变量
Figure BDA00026156351800000420
之间待训练的函数关系。
进一步,步骤三中,所述公交车到站时间预测模型构建方法包括:
首先,采用支持向量回归模型进行公交到站时间预测。其中,选取径向基函数作为所用支持向量机模型的核函数,采用网格搜索的方法获取模型参数最优值。
再者,采用神经网络模型进行公交到站时间预测。本发明选取标准的三层前馈神经网络用于公交到站时间的预测,考虑到算法参数数量和收敛速度,量化共轭梯度算法被用作模型的训练算法。针对不同的案例样本,预测模型需要选取不同的参数取值才能使预测结果最优,本发明对预测模型进行敏感性分析以获取参数的最优取值。
最后,选取平均绝对误差、平均绝对百分误差和均方根误差三个指标来评价预测模型的优劣程度;评价指标的计算公式如下:
Figure BDA0002615635180000051
Figure BDA0002615635180000052
Figure BDA0002615635180000053
式中:
Figure BDA0002615635180000054
表示公交i在站点k和站点k+μ之间的实际行程时间;N为观测到的预测样本数量。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
采集智能公交运营基础数据并建立数据库;
对采集到的数据进行预处理;搭建预测模型框架;
基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;
利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
采集智能公交运营基础数据并建立数据库;
对采集到的数据进行预处理;搭建预测模型框架;
基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;
利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。
本发明的另一目的在于提供一种实施所述共线线路数据的公交车到站时间预测方法的城市的公共交通体系。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提出了一种基于共线线路运营数据的到站时间预测方法,通过引入其他线路的运营信息,以细化车辆间的车头时距间隔,提高历史数据的时效性和可靠性,同时也能将线路车辆间的相互影响纳入考虑,减小了干扰因素对公交到站时间预测带来的影响。
本发明基于公交AVL数据提出了一套完整的数据预处理流程,可操作性强可直接应用于其他城市AVL数据处理。本发明提出一种多条线路共线运行情况下的公交到站时间预测方法,从公交通道的角度,利用共线线路的公交运营数据作为输入变量进行公交到站时间的预测,以提高预测结果的精度和可靠性。
本发明的预测结果与典型的单条线路到站时间预测方法所得结果进行比较,横向对比验证该方法的有效性。此外,研究还对支持向量机模型、前馈神经网络模型的性能进行了评价和比较,为研究人员和实践者提供有价值的结论。
对比的技术效果或者实验效果有:
基于支持向量机的多线模型和单线模型预测结果对比
Figure BDA0002615635180000061
基于神经网络的多线模型和单线模型预测结果对比
Figure BDA0002615635180000062
这两个表分别是利用支持向量机和神经网络两种方法进行到站预测的结果;
其中每个表中均有两种模型进行对比(多线、单线模型的不同之处在于输入变量的不同),此处多线模型即为本文的改进之处,以往的预测模型输入变量中仅考虑了相同线路的信息(即单线模型),通过评价指标可以得出,相对于单线模型来说多线模型的预测准确度更高,预测误差小。
本发明两种方法(支持向量机、神经网络)的结果均表明多线模型的预测效果优于单线模型。
本发明提出了基于共线线路AVL数据的公交车到站时间预测方法的一整套流程,包括数据预处理、模型构建、实例验证;而现有技术中着重强调模型的构建过程这一个方面,即主要讨论在已有预测方法中加入其他共线线路信息能够提高预测准确度。
本发明同时利用支持向量机和机器学习两种算法进行多线模型的验证(现有技术已公开发表文献仅采取支持向量机一种算法),结果表明两种算法的多线模型预测结果均优于单线模型,这在一定程度上可以证明该模型具有一定的普遍适用性,即考虑其他共线线路信息的多线模型预测结果优于单线模型。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的共线线路AVL数据的公交车到站时间预测方法流程图。
图2是本发明实施例提供的线路共线示意图。
图3是本发明实施例提供的第一次划分运行班次流程图。
图4是本发明实施例提供的第二次划分运行班次流程图。
图5是本发明实施例提供的基于共线线路的公交到站时间预测模型框架示意图。
图6是本发明实施例提供的公交通道内多条线路车辆的时空轨迹示意图。
图7是本发明实施例提供的多线路到站序列示意图。
图8是本发明实施例提供的支持向量机模型结构示意图。
图9是本发明实施例提供的M-P模型结构示意图。
图10是本发明实施例提供的具有单层隐藏层的感知机网络模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种共线线路AVL数据的公交车到站时间预测方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的共线线路AVL数据的公交车到站时间预测方法包括以下步骤:
S101,采集智能公交运营基础数据并建立数据库;
S102,对采集到的数据进行预处理;搭建预测模型框架;
S103,基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;
S104,利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。
步骤S101中,本发明实施例提供的公交运营基础数据包括:公交车自动定位数据即AVL数据或者GPS数据和公交线路站点地理信息数据即GIS数据。
步骤S102中,本发明实施例提供的预处理方法包括:
(1)AVL数据与GIS数据关联:利用AVL数据、GIS数据共有的字段ROUTEID和STATIONNUM进行关联,给AVL数据匹配每条线路的站点名称、站点序号、运营方向信息;
(2)公交运行班次划分:
(2.1)将原始数据按日期、线路号、车辆编号和记录时间进行排序,依次比较下一行数据和本行数据的日期、线路号、车辆编号和运行方向字段,当其中任一字段的值发生改变,则运行班次-temp字段值增加1;
(2.2)基于第一次班次划分的结果再划分一次运营班次,根据运营班次-temp字段和站点序号对数据进行排序,比较下一行数据和本行数据的运营班次-temp字段和站点序号字段,当运营班次-temp字段发生改变或下一行数据的站点序号小于本行数据,则运营班次字段值增加1;将得到的运营班次字段将作为最终的公交运营班次值存储于原数据中;
(3)AVL数据处理:
(3.1)重复数据处理:同一班次到离站数据在首末站的重复数据,保留时间最晚的一条数据作为首站点的出站记录,保留时间最早的一条数据作为末站点的到站记录;同一班次到离站数据在中间站点的重复数据,保留同一站点中时间最早和时间最晚的两条数据,分别作为本站的到站和离站记录;
(3.2)异常数据处理:根据异常数据的特点,以运行班次为单位,按进站时间的先后对数据排序,若出现站点次序倒置或站点编号顺序错乱的数据,则标记并删除该数据;
(3.3)缺失数据处理:提取共线运营的不同线路经过的相同站点的到离站数据,再根据各班次总的到离站记录的数量和共线运营的不同线路经过的相同站点的数量来判定该班次数据是否存在缺失;当各班次总的到站或离站记录数小于选取的公交通道站点数,标记并删除该班次的到离站数据。
步骤S102中,本发明实施例提供的预测模型框架搭建方法包括:通过模型假设、参数设置、车头时距变量处理和行程时间变量处理进行输入预测模型构建;
1)确定预测目标:
所述预测目标为基于线路j和j′(J≠j′∈J)的车辆运行信息预测线路j(j∈J)的第i辆公交在站点k+μ处的到站时间,即预测线路j(j∈J)的第i辆公交在站点k和站点k+μ之间的行程时间;公式如下:
Figure BDA0002615635180000081
其中,
Figure BDA0002615635180000082
表示第i辆公交在站点k+μ处的到达时间;
Figure BDA0002615635180000083
表示第i辆公交在站点k处的到达时间;
Figure BDA0002615635180000084
表示第i辆公交在站点k和站点k+μ之间的行程时间预测值;
2)进行模型假设;
所述模型假设包括:
a)在公交通道中,超车行为不允许发生;
b)在不同线路的所有车辆中,驾驶员状况均相同;
c)公交车辆之间及车辆和调度中心之间能够实现实时信息的交互;
3)确定车头时距变量:
选择路段起点处的车头时距作为预测模型的输入变量之一,当目标车辆i到达站点k时,已有n辆公交经过了站点k+μ,p为仍在公交通道上行驶的车辆数,则两类车头时距变量的计算公式如下:
Figure BDA0002615635180000085
Figure BDA0002615635180000086
式中:
Figure BDA0002615635180000087
表示目标车辆i和前车i-p-1在站点k处的联合车头时距,其中前车i-p-1属于线路集合J中的任意线路;
Figure BDA0002615635180000088
表示目标车辆i和前车i-p-n在站点k处的车头时距,其中前车i-p-n和目标车辆i为同一线路;
Figure BDA0002615635180000089
为目标车辆i在站点k处的到达时间;
Figure BDA00026156351800000810
为公交i-p-1在站点k处的到达时间;
Figure BDA00026156351800000811
为公交i-p-n在站点k处的到达时间;
4)确定行程时间变量:
利用车头时距的倒数对已经通过的前几辆车的行程时间进行加权,加权平均行程时间的计算公式如下:
Figure BDA0002615635180000091
Figure BDA0002615635180000092
Figure BDA0002615635180000093
式中:
Figure BDA0002615635180000094
表示线路集合J中任意线路前σ辆车的加权平均行程时间;Γ表示权重和;σ为加权时选取的前车数量,该参数在模型预测阶段需先优化;
Figure BDA0002615635180000095
表示公交i-p-m在站点k和站点k+μ之间的行程时间;
Figure BDA0002615635180000096
表示公交i-p-m在站点k+μ处的到达时间;
Figure BDA0002615635180000097
表示公交i-p-m在站点k处的到达时间;
5)选取和目标车辆线路相同的前车的行程时间作为预测模型的输入变量,计算公式如下:
Figure BDA0002615635180000098
式中:
Figure BDA0002615635180000099
表示与公交i线路号相同的车辆i-p-n在站点k和站点k+μ之间的行程时间;
Figure BDA00026156351800000910
Figure BDA00026156351800000911
分别表示公交i-p-n在站点k+μ和站点k处的到达时间;
6)得到基于共线线路的公交行程时间预测模型为:
Figure BDA00026156351800000912
式中:
Figure BDA00026156351800000913
表示公交i在站点k和站点k+μ之间的行程时间预测值;f(·)表示输入变量
Figure BDA00026156351800000914
和输出变量
Figure BDA00026156351800000915
之间待训练的函数关系。
步骤S103中,本发明实施例提供的公交车到站时间预测模型构建方法包括:
首先,采用支持向量回归模型进行公交到站时间预测。其中,选取径向基函数作为所用支持向量机模型的核函数,本发明采用网格搜索的方法获取模型参数的最优值。
再者,采用神经网络模型进行公交到站时间预测。本发明选取标准的三层前馈神经网络用于公交到站时间的预测,考虑到算法参数数量和收敛速度,量化共轭梯度算法被用作模型的训练算法。针对不同的案例样本,预测模型需要选取不同的参数取值才能使预测结果最优,本发明对预测模型进行敏感性分析以获取参数的最优取值。
最后,选取平均绝对误差、平均绝对百分误差和均方根误差三个指标来评价预测模型的优劣程度;评价指标的计算公式如下:
Figure BDA00026156351800000916
Figure BDA00026156351800000917
Figure BDA0002615635180000101
式中:
Figure BDA0002615635180000102
表示公交i在站点k和站点k+μ之间的实际行程时间;N为观测到的预测样本数量。
本发明涉及的模型如下:
(1)支持向量机
支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,分类的方式是找到一个最优的超平面把两个类别分开。作为常见的核学习方法之一,SVM在解决复杂的小样本非线性问题和识别高维模式方面的应用较为广泛。该算法具有两个关键特性:其一是支持向量机对过拟合问题具有较强的抵抗能力,在解决各种时间序列预测问题时具有较好的泛化性能,这是因为SVM算法是基于结构风险最小化原理,能够使泛化误差的上界最小;其二是SVM算法的解是唯一且全局最优的,因SVM模型的训练等价于求解线性约束二次规划问题。
将SVM由分类问题推广至回归问题即为支持向量回归,分类问题中的超平面决策边界就是回归问题的模型,其一般形式为:
Figure BDA0002615635180000103
式中
Figure BDA0002615635180000104
为将输入向量x映射至高维特征空间的非线性转换函数。系数ω和b是由最小化正则风险函数估计得到,该风险函数的一般形式如下:
Figure BDA0002615635180000105
式中‖ω2‖为正则项,可用来控制函数容量。第二项为经验误差,由ε-不敏感损失函数衡量,该损失函数的一般形式如下:
Figure BDA0002615635180000106
该函数定义了一个ε区间,若预测值在该区间内,则损失为0,反之损失则为预测值和ε之间的差值。C为正则化常数,C值越大,经验风险相对于正则化项越重要。C和ε均为使用者自定义的参数。
最小化是一个标准的最优化问题,该问题可通过引入拉格朗日函数解决。定义如下的拉格朗日函数:
Figure BDA0002615635180000107
根据上式分别对ω、b、
Figure BDA0002615635180000108
求偏微分并令它们等于0,得到方程后将其代入下式,得到如下凸二次规划的对偶问题:
Figure BDA0002615635180000111
根据原始条件权重向量等于训练数据的线性组合可得:
Figure BDA0002615635180000112
引入核函数K(xi,yi),代入式(3-14)可得:
Figure BDA0002615635180000113
求解该函数用以得到最优超平面,即支持向量回归模型。其中,函数K(xi,yi)的值等于向量xi和yi在高维特征空间的映射
Figure BDA0002615635180000114
Figure BDA0002615635180000115
的内积,即:
Figure BDA0002615635180000116
常见的核函数主要有线性核函数、多项式核函数和径向基函数(RBF)核函数等,考虑到核函数的参数数量,本发明选取径向基函数作为所用支持向量机模型的核函数。因此,基于支持向量机的多条线路共线运营下的公交到站时间预测模型结构如图8所示。
(2)神经网络
神经网络是受生物学中神经网络的启发,模拟人脑的神经系统对复杂信息的处理机制的一种模糊计算系统,具有大规模并行、分布式处理、自组织、自学习等优点。该系统是建立在一组被称为人工神经元的连接单元或节点上的,这些单元或节点可以向其他神经元传递信号,神经元接收来自其它神经元传递过来的输入信号,这些信号的表达,通常通过神经元之间连接的权重(weight)大小来表示,权重决定了一个节点对另一个节点的影响强度。每个神经元的输出由输入之和的非线性函数来计算,并与当前神经元的阈值进行比较,只有当输出超过该阈值时才向外传送。已有研究提出了较多的神经元模型,其中提出最早且影响最大的是M-P模型,它是前馈神经网络模型的基础。M-P模型结构示意图如图9所示,其输出的通用表达式如下式所示。
Figure BDA0002615635180000117
其中wi为来自第i个神经元的连接权重。xi为来自第i个神经元的输入。θ为当前神经元单元的阈值。n为输入信号数目。f(·)为输出变换函数,通常采用S形函数。
神经网络模型由神经元单元聚集成的多层构成,其基本的拓扑结构包含接收外部数据的输入层和产生最终结果的输出层,在它们之间是零或更多的隐藏层。模型中不同的层可以对其输入执行不同的转换,而一层的神经元只与紧接前一层和紧接后一层的神经元相连。根据网络连接的拓扑结构,神经网络模型可以分为反馈网络和前向网络。反馈网络可以用一个无向的完备图表示,该网络允许同一层或前一层神经元之间相互连接,且网络内的神经元单元之间有反馈。前向网络可以用一个有向无环路图表示,该网络中信号从第一层(输入层)传递到最后一层(输出层),中间遍历各层,但网络中不存在反馈。参照前人的研究,本发明选取的神经网络模型为前向网络中具有三层结构的感知机网络模型,该模型除输入层和输出层外,还含有单层隐藏层,其结构示意图如图10所示。
神经网络模型常用的训练算法有BP(Backpropagation)算法、共轭梯度(Conjugate Gradient)算法、LM(Levenberg Marquardt)算法等,考虑到算法参数数量和收敛速度,本发明选取量化共轭梯度(Scaled Conjugate Gradient)算法作为模型的训练算法。该算法基于共轭梯度法,算法本身不需要参数,且具有较快的收敛速度。
(3)模型评价。
预测公交行程时间的算法较多,但预测算法的好坏必须要有一个统一的衡量标准来判断,由于算法的预测值与真实值之间存在误差,因此一个算法的优劣很大程度上取决于预测值与真实值之间的误差大小。本发明选取了平均绝对误差(MAE)、平均绝对百分误差(MAPE)和均方根误差(RMSE)三个指标来评估预测方法的优劣程度。其中,平均绝对误差反映了预测值和真实值之间差值的绝对大小,而平均绝对百分误差则反映了误差相对于真实值的大小,这两个指标的值越小,模型的预测精度越高。均方根误差则表明了误差的鲁棒性,该指标的值越小,模型预测的波动性越小,模型越稳健。这三个评价指标的计算公式如下:
Figure BDA0002615635180000121
Figure BDA0002615635180000122
Figure BDA0002615635180000123
式中:
Figure BDA0002615635180000124
表示公交i在站点k和站点k+μ之间的实际行程时间;N为观测到的预测样本数量。
(6)公交到站时间预测模型实例分析。本步骤主要是选择合适的多线路公交通道数据,根据步骤(2)进行数据处理和步骤(4)进行输入变量的处理和计算和模型参数标定以及步骤(5)进行模型评价。
在本发明中,确定公交车到站时间预测模型采用支持向量回归模型,其中,函数K(xi,yi)的值等于向量xi和yi在高维特征空间的映射
Figure BDA0002615635180000125
Figure BDA0002615635180000126
的内积,即:
Figure BDA0002615635180000127
下面结合具体实施例对本发明的技术效果作进一步描述。
实施例1:
基于共线线路AVL数据的公交到站时间预测方法,该方法主要分为如下几个步骤:
(1)采集智能公交运营基础数据并建立数据库。该部分数据包括公交车自动定位数据(简称:AVL数据或者GPS数据)和公交线路站点地理信息数据(GIS数据);
(2)根据步骤(1)采集到的数据进行数据预处理流程。其主要包括AVL数据与GIS数据关联,公交运行班次划分,AVL数据处理三个部分;
(2.1)AVL数据与GIS数据关联。利用AVL数据、GIS数据共有的字段ROUTEID和STATIONNUM进行关联,给AVL数据匹配每条线路的站点名称、站点序号、运营方向信息;
(2.2)公交运行班次划分。运行班次的划分主要分为以下两步:首先,将原始数据按日期、线路号、车辆编号和记录时间进行排序,依次比较下一行数据和本行数据的日期、线路号、车辆编号和运行方向字段,当其中任一字段的值发生改变,则运行班次-temp字段值增加1。
第一次运行班次的划分完成之后,由于部分班次的首站数据缺失或数据异常现象的存在,会导致部分已划分的班次里实际包含多个班次的数据,因而需要再基于第一次班次划分的结果再划分一次运营班次。根据运营班次-temp字段和站点序号对数据进行排序,比较下一行数据和本行数据的运营班次-temp字段和站点序号字段,当运营班次-temp字段发生改变或下一行数据的站点序号小于本行数据,则运营班次字段值增加1。第二次运行班次划分的流程图如图4所示,此时得到的运营班次字段将作为最终的公交运营班次值存储于原数据中。
(2.3)AVL数据处理。在步骤(2.2)运行班次划分之后进行数据处理,主要包括重复数据处理、异常数据处理和缺失数据处理。
(2.3.1)重复数据处理
针对同一班次到离站数据在首末站重复的问题,保留时间最晚的一条数据作为首站点的出站记录,保留时间最早的一条数据作为末站点的到站记录;而对于同一班次到离站数据在中间站点重复的问题,保留同一站点中时间最早和时间最晚的两条数据,分别作为本站的到站和离站记录。
(2.3.2)异常数据处理
根据异常数据的特点,以运行班次为单位,按进站时间的先后对数据排序,若出现站点次序倒置或站点编号顺序错乱的数据,则标记并删除该数据。
(2.3.3)缺失数据处理
首先提取共线运营的不同线路经过的相同站点的到离站数据,再根据各班次总的到离站记录的数量和共线运营的不同线路经过的相同站点的数量来判定该班次数据是否存在缺失。考虑到补齐缺失数据本身存在一定误差,且会对后续的公交到站时间预测结果带来影响,因此当各班次总的到站或离站记录数小于选取的公交通道站点数,则标记并删除该班次的到离站数据。
(3)预测模型框架构建。
基于多条线路共线运营情况下的公交到站时间预测可以这样描述:给定上游某一站点处任意一条公交线路目标车辆的到达时间,考虑共线线路的运营信息,通过预测目标车辆站点间的行程时间来实现其在下游某一站点处到达时间的预测。图5为本技术方案提出的公交到站时间预测模型的逻辑框架,该模型的架构包括输入变量处理、模型建立和性能评价三个阶段。
(4)输入变量处理。该部分主要包括模型假设以及参数设置、车头时距变量处理和行程时间变量处理三个步骤。
假设存在一条多条线路共线运行的公交通道,其线路集合为J。图6为J条线路共p+n辆公交在公交通道内的时空轨迹示意图,其中不同线路车辆的运行轨迹以颜色区分。而从时空轨迹示意图中可知,当目标公交到达站点k时,已有n辆公交经过了站点k+μ,p为仍在公交通道上行驶的车辆数。则本研究的目标为基于线路j和j′(j≠j′∈J)的车辆运行信息预测线路j(j∈J)的第i辆公交在站点k+μ处的到站时间,即预测线路j(j∈J)的第i辆公交在站点k和站点k+μ之间的行程时间。
Figure BDA0002615635180000141
式中:
Figure BDA0002615635180000142
表示第i辆公交在站点k+μ处的到达时间;
Figure BDA0002615635180000143
表示第i辆公交在站点k处的到达时间;
Figure BDA0002615635180000144
表示第i辆公交在站点k和站点k+μ之间的行程时间预测值。
在实际研究中,如图6所示的时空轨迹图可通过交通数据采集技术(如AVL)采集到的数据来构建。而从时空轨迹图中获取的诸如车辆间的车头时距和前车的站间行程时间等有效信息可用于目标车辆行程时间的预测。
(4.1)模型假设以及变量解释
在所提出的预测方法中,有如下假设:
a)在公交通道中,超车行为不允许发生。
b)在不同线路的所有车辆中,驾驶员状况均相同。
c)公交车辆之间及车辆和调度中心之间能够实现实时信息的交互。
该预测方法所需变量及变量含义如表4-1所示。
表4-1变量及变量含义
Figure BDA0002615635180000145
Figure BDA00026156351800001511
(4.2)车头时距变量
在相同路段上运营的不同线路的公交车,其在路段起点处的车头时距越小,那么它们在行驶过程中所经历的外部道路交通环境状况就越相似,最后在到达路段终点处所耗费的行程时间也就越接近。此外,通常情况下,最新的交通数据也会为预测提供更加可靠的交通信息。因此,为了表明前车行程时间信息的及时性和可靠性程度,本发明选择路段起点处的车头时距作为预测模型的输入变量之一。图7为共线线路到达站点k时的序列示意图,其中当目标车辆i到达站点k时,已有n辆公交经过了站点k+μ,p为仍在公交通道上行驶的车辆数。考虑到前车所属公交线路的不同,两类车头时距变量的计算公式如下:
Figure BDA0002615635180000151
Figure BDA0002615635180000152
式中:
Figure BDA0002615635180000153
表示目标车辆i和前车i-p-1在站点k处的联合车头时距,其中前车i-p-1属于线路集合J中的任意线路;
Figure BDA0002615635180000154
表示目标车辆i和前车i-p-n在站点k处的车头时距,其中前车i-p-n和目标车辆i为同一线路;
Figure BDA0002615635180000155
为目标车辆i在站点k处的到达时间;
Figure BDA0002615635180000156
为公交i-p-1在站点k处的到达时间;
Figure BDA0002615635180000157
为公交i-p-n在站点k处的到达时间;
(4.3)行程时间变量
通过关于公交走廊上相邻前后两辆车的行程时间关联性的研究可知,无论相邻前后两辆车的线路号是否相同,相邻前后两辆车的行程时间均具有较高的相关性,这也证实了前车的行程时间能够用来反映当前的交通状况。因此,在公交行程时间预测中,前车行程时间常常作为预测模型的核心输入变量。此外,通过融入其它线路公交车的行程时间信息,可以细化目标线路公交车辆的车头时距间隔,更准确和实时的反映道路交通状况的变化。考虑到车头时距越小,目标车辆和前车运营环境相似的概率就会越高,因此,本发明利用车头时距的倒数对已经通过的前几辆车的行程时间进行加权,以提高前车行程时间信息的利用率。加权平均行程时间的计算公式如下:
Figure BDA0002615635180000158
Figure BDA0002615635180000159
Figure BDA00026156351800001510
式中:
Figure BDA0002615635180000161
表示线路集合J中任意线路前σ辆车的加权平均行程时间;Γ表示权重和;σ为加权时选取的前车数量,该参数在模型预测阶段需先优化;
Figure BDA0002615635180000162
表示公交i-p-m在站点k和站点k+μ之间的行程时间;
Figure BDA0002615635180000163
表示公交i-p-m在站点k+μ处的到达时间;
Figure BDA0002615635180000164
表示公交i-p-m在站点k处的到达时间。
虽然上述共线线路的公交车行程时间信息的融入对预测是必要的,但考虑到不同线路车辆在同一站点处的客流需求强度不同,不同线路在同一公交走廊上的停靠站数不同,因此,为了减小其对预测造成的影响,本发明同时选取了和目标车辆线路相同的前车的行程时间作为预测模型的输入变量,该变量的计算公式如下:
Figure BDA0002615635180000165
式中:
Figure BDA0002615635180000166
表示与公交i线路号相同的车辆i-p-n在站点k和站点k+μ之间的行程时间;
Figure BDA0002615635180000167
Figure BDA0002615635180000168
分别表示公交i-p-n在站点k+μ和站点k处的到达时间。
综上所述,基于共线线路的公交行程时间预测方法归纳如下:
Figure BDA0002615635180000169
式中:
Figure BDA00026156351800001610
表示公交i在站点k和站点k+μ之间的行程时间预测值;f(·)表示输入变量
Figure BDA00026156351800001611
和输出变量
Figure BDA00026156351800001612
之间待训练的函数关系。
实施例2:
利用成都市智能公交系统为例,以数据库为数据处理工具,利用常规公交5个工作日(2019.05.06-2019.05.10)的GPS数据、站点GIS数据来对本发明的具体实施方式进行说明。
(1)数据采集。
首先采集成都市公交的GPS数据和GIS数据,下表为采集到的数据样本。
GPS数据样本表
字段 字段含义 数据样本
DATATYPE 数据类型 4
ROUTEID 线路编号 16
PRODUCTID 车辆编号 21038004
STATIONNUM 站点编号 30346
LONGITUDE 经度 104.064591
LATITUDE 纬度 30.619281
ACTDATETIME 定位点记录时间 2019-05-08 19:41:23
GPSSPEED 车辆瞬时速度 1.59
ISARRLFT 到离站标识 1
GPSMILE 运营累计里程 38714006
GIS数据样本表
Figure BDA00026156351800001613
Figure BDA0002615635180000171
GPS原始数据中不包含站点名称、站点序号、运营方向,因此需要通过GPS数据和GIS数据相同字段线路编号和站点编号这两个字段进行关联,给GPS数据添加线路运营方向、站点序号以及站点名称字段。由于GPS数据只是记录了车辆的时空信息,为了后续数据的利用需要通过运行班次的划分步骤来获得车辆相对独立的时空轨迹数据。
(2)数据预处理。
通过公交运行班次的划分以及重复、异常和缺失数据的处理后,即可以得到较为完备的数据。
数据预处理后的样表
字段 字段含义 数据样本
DATATYPE 数据类型 4
ROUTEID 线路编号 16
PRODUCTID 车辆编号 21038004
STATIONNUM 站点编号 30346
LONGITUDE 经度 104.064591
LATITUDE 纬度 30.619281
ACTDATETIME 定位点记录时间 2019-05-08 19:41:23
GPSSPEED 车辆瞬时速度 1.59
ISARRLFT 到离站标识 1
GPSMILE 运营累计里程 38714006
NAME 站点名称 人南立交桥南站
STAORDER 站点序号 7
DIRECTION 运营方向 1
TANGCI 运行班次 38
(3)通道实例数据分析
成都市公交线路2019年5月6日至10日5个工作日的AVL存档数据被用于本发明模型的实例研究。本节选取成都市人民南路和蜀都大道的部分路段作为实例研究对象,其中,人民南路研究路段南向从华西第二第四医院站起至桐梓林站终,北向从人南立交桥南站起至华西第二第四医院站终;蜀都大道研究路段南向从大慈寺站起至水碾河站终,北向从水碾河站起至蜀都大道红星路口站终。两个路段均设有路侧公交专用道,路段的详细信息如下表所示:
实例研究路段相关信息表
Figure BDA0002615635180000172
考虑到交通状态具有时变特征,将数据根据运营时段的不同进行划分,并针对高峰时段分别建立了早高峰(7:00-9:00)和晚高峰时段(17:00-19:00)的预测模型。其中,前四个工作日的高峰时段数据作为模型的训练数据集,最后一天的高峰时段数据作为模型的测试数据集,模型训练集和测试集的样本量大小如下表所示:
研究路段各运营方向高峰时段的模型训练集和测试集样本量
Figure BDA0002615635180000181
(3-1)支持向量机模型预测结果分析
支持向量机的核心是核函数,不同的核函数可以构造不同的支持向量机模型。考虑到核函数的参数数量,本发明选取径向基函数作为所用支持向量机模型的核函数。此外,对于不同的案例样本,模型的三个关键参数的选择也会对预测精度产生影响,这三个关键参数分别为支持向量机参数C、ε和加权前车数量σ。根据已有的基于支持向量机的行程时间预测的研究,建议C和ε的取值范围分别为[2-5,25]和[0.1,0.3],σ的取值范围为[2,10]。为获取参数的最优取值,本发明采用网格搜索的方法在上述范围内检索,最终取得的案例样本的参数最优取值如下表所示。
基于支持向量机的各案例模型参数取值一览表
Figure BDA0002615635180000182
为了评价共线线路的融合数据对模型预测效果的影响,本发明建立了以与目标车辆隶属于同一线路的前车车头时距和行程时间为输入变量的支持向量机预测模型作为比较,即该基准模型的输入变量为
Figure BDA0002615635180000183
Figure BDA0002615635180000184
预测模型算法使用R语言编写,并在主频2.8GHz、八核处理器、8.0G内存、操作系统为Win10的计算机上运行,下表为两个基于支持向量机的到站时间预测模型的预测结果。
基于支持向量机的多线模型和单线模型预测结果对比
Figure BDA0002615635180000185
Figure BDA0002615635180000191
由上表可知,基于共线线路融合数据的支持向量机模型预测结果均优于基于单线路运营数据的预测模型,且八组案例样本中有六组的MAPE值均小于15%,有一组小于10%,这证实了引入其他线路的运营信息有益于增强模型的预测性能。
(3-2)神经网络模型预测结果分析
本发明选取标准的三层前馈神经网络用于公交到站时间的预测,考虑到算法参数数量和收敛速度,量化共轭梯度(Scaled Conjugate Gradient)算法被用作模型的训练算法。针对不同的案例样本,预测模型需要选取不同的参数取值才能使预测结果最优。本发明建立的基于共线线路融合数据的神经网络模型含有隐藏层神经元数量、最大迭代次数和加权前车数量三个参数,三个参数的取值范围分别为[1,25]、[100,1000]、[2,10]。本发明对预测模型进行敏感性分析以获取参数的最优取值,最终取得的案例样本的参数最优取值如下表所示。
基于神经网络的各案例模型参数取值一览表
Figure BDA0002615635180000192
为了探讨共线线路的融合数据对神经网络模型预测效果的影响,本发明还建立了以与目标车辆线路号相同的前车车头时距和行程时间为输入变量的神经网络预测模型作为比较,即该基准模型的输入变量为
Figure BDA0002615635180000193
Figure BDA0002615635180000194
预测模型算法使用R语言编写,并在主频2.8GHz、八核处理器、8.0G内存、操作系统为Win10的计算机上运行,下表为两个基于神经网络的到站时间预测模型的预测结果。
基于神经网络的多线模型和单线模型预测结果对比
Figure BDA0002615635180000195
Figure BDA0002615635180000201
由上表可知,与支持向量机模型预测结果类似,基于共线线路融合数据的神经网络模型预测结果均优于基于单线路运营数据的预测模型,且八组案例样本中有五组的MAPE值均小于15%,有一组小于10%,这也进一步表明了基于共线线路融合数据的预测模型具有良好的预测性能。
(3-3)不同模型预测结果对比
尽管已经证实了基于共线线路融合数据的支持向量机模型和神经网络模型均具有良好的到站时间预测能力,但两种模型的预测结果仍然存在差异。下表为两种模型的到站时间预测结果对比,从评价指标值来看,八组案例样本中有三组支持向量机的预测结果优于神经网络,有三组两种模型的预测效果相当。对八组案例样本在两种模型下的到站时间预测值和真实值进行相关性分析,共有四组支持向量机的预测值与真实值之间的相关性系数优于神经网络,其中除人民南路和蜀都大道南向晚高峰的三个案例样本的置信区间为95%之外,其余样本的置信区间均为99%。下表为两种模型下的到站时间预测值和观测值之间的相关性分析结果。
两种模型下的到站时间预测结果对比
Figure BDA0002615635180000202
两种模型下的到站时间预测值和观测值之间的相关系数和P值一览表
Figure BDA0002615635180000203
通过选取成都市人民南路和蜀都大道的部分路段作为实例研究对象,利用提出的两种预测模型对上述通道上的公交车到站时间进行预测。为了验证预测模型的有效性,使用了以与目标车辆线路号相同的前车车头时距和行程时间为输入变量的两种基准模型分别作为比较。预测结果表明,无论是支持向量机还是前馈神经网络,基于共线线路融合数据的模型预测结果均优于基于单线路运营数据的预测模型。此外,本发明还对支持向量机和前馈神经网络模型的预测性能进行了评价和比较,从到站时间预测值和真实值的相关性分析结果来看,支持向量机模型的预测性能优于前馈神经网络模型。
本发明通过“基于支持向量机的多线模型和单线模型预测结果对比”和“基于神经网络的多线模型和单线模型预测结果对比”的结果可以表明本发明采取多线模型的预测结果优于单线模型,即本发明采取的多线模型的预测结果在现有的单线模型基础上准确度有所提高。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种共线线路数据的公交车到站时间预测方法,其特征在于,所述共线线路数据的公交车到站时间预测方法包括:
采集智能公交运营基础数据并建立数据库;
对采集到的数据进行预处理;搭建预测模型框架;
基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;
利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。
2.如权利要求1所述共线线路数据的公交车到站时间预测方法,其特征在于,所述公交运营基础数据包括:公交车自动定位数据即AVL数据或者GPS数据和公交线路站点地理信息数据即GIS数据。
3.如权利要求1所述共线线路数据的公交车到站时间预测方法,其特征在于,所述预处理方法包括:
(1)AVL数据与GIS数据关联:利用AVL数据、GIS数据共有的字段ROUTEID和STATIONNUM进行关联,给AVL数据匹配每条线路的站点名称、站点序号、运营方向信息;
(2)公交运行班次划分:
(2.1)将原始数据按日期、线路号、车辆编号和记录时间进行排序,依次比较下一行数据和本行数据的日期、线路号、车辆编号和运行方向字段,当其中任一字段的值发生改变,则运行班次-temp字段值增加1;
(2.2)基于第一次班次划分的结果再划分一次运营班次,根据运营班次-temp字段和站点序号对数据进行排序,比较下一行数据和本行数据的运营班次-temp字段和站点序号字段,当运营班次-temp字段发生改变或下一行数据的站点序号小于本行数据,则运营班次字段值增加1;将得到的运营班次字段将作为最终的公交运营班次值存储于原数据中;
(3)AVL数据处理:
(3.1)重复数据处理:同一班次到离站数据在首末站的重复数据,保留时间最晚的一条数据作为首站点的出站记录,保留时间最早的一条数据作为末站点的到站记录;同一班次到离站数据在中间站点的重复数据,保留同一站点中时间最早和时间最晚的两条数据,分别作为本站的到站和离站记录;
(3.2)异常数据处理:根据异常数据的特点,以运行班次为单位,按进站时间的先后对数据排序,若出现站点次序倒置或站点编号顺序错乱的数据,则标记并删除该数据;
(3.3)缺失数据处理:提取共线运营的不同线路经过的相同站点的到离站数据,再根据各班次总的到离站记录的数量和共线运营的不同线路经过的相同站点的数量来判定该班次数据是否存在缺失;当各班次总的到站或离站记录数小于选取的公交通道站点数,标记并删除该班次的到离站数据。
4.如权利要求1所述共线线路数据的公交车到站时间预测方法,其特征在于,所述预测模型框架搭建方法包括:通过模型假设、参数设置、车头时距变量处理和行程时间变量处理进行预测模型构建;
1)确定预测目标:
所述预测目标为基于线路j和j′(j≠J′∈J)的车辆运行信息预测线路j(j∈J)的第i辆公交在站点k+μ处的到站时间,即预测线路j(j∈J)的第i辆公交在站点k和站点k+μ之间的行程时间;公式如下:
Figure FDA0002615635170000021
其中,
Figure FDA0002615635170000022
表示第i辆公交在站点k+μ处的到达时间;
Figure FDA0002615635170000023
表示第i辆公交在站点k处的到达时间;
Figure FDA0002615635170000024
表示第i辆公交在站点k和站点k+μ之间的行程时间预测值;
2)进行模型假设:
所述模型假设包括:
a)在公交通道中,超车行为不允许发生;
b)在不同线路的所有车辆中,驾驶员状况均相同;
c)公交车辆之间及车辆和调度中心之间能够实现实时信息的交互;
3)确定车头时距变量:
选择路段起点处的车头时距作为预测模型的输入变量之一,当目标车辆i到达站点k时,已有n辆公交经过了站点k+μ,p为仍在公交通道上行驶的车辆数,则两类车头时距变量的计算公式如下:
Figure FDA0002615635170000031
Figure FDA0002615635170000032
式中:
Figure FDA0002615635170000033
表示目标车辆i和前车i-p-1在站点k处的联合车头时距,其中前车i-p-1属于线路集合J中的任意线路;
Figure FDA0002615635170000034
表示目标车辆i和前车i-p-n在站点k处的车头时距,其中前车i-p-n和目标车辆i为同一线路;
Figure FDA0002615635170000035
为目标车辆i在站点k处的到达时间;
Figure FDA0002615635170000036
为公交i-p-1在站点k处的到达时间;
Figure FDA0002615635170000037
为公交i-p-n在站点k处的到达时间;
4)确定行程时间变量:
利用车头时距的倒数对已经通过的前几辆车的行程时间进行加权,加权平均行程时间的计算公式如下:
Figure FDA0002615635170000038
Figure FDA0002615635170000039
Figure FDA00026156351700000310
式中:
Figure FDA00026156351700000311
表示线路集合J中任意线路前σ辆车的加权平均行程时间;Γ表示权重和;σ为加权时选取的前车数量,该参数在模型预测阶段需先优化;
Figure FDA00026156351700000312
表示公交i-p-m在站点k和站点k+μ之间的行程时间;
Figure FDA00026156351700000313
表示公交i-p-m在站点k+μ处的到达时间;
Figure FDA00026156351700000314
表示公交i-p-m在站点k处的到达时间;
5)选取和目标车辆线路相同的前车的行程时间作为预测模型的输入变量,计算公式如下:
Figure FDA0002615635170000041
式中:
Figure FDA0002615635170000042
表示与公交i线路号相同的车辆i-p-n在站点k和站点k+μ之间的行程时间;
Figure FDA0002615635170000043
Figure FDA0002615635170000044
分别表示公交i-p-n在站点k+μ和站点k处的到达时间;
6)得到基于共线线路的公交行程时间预测模型为:
Figure FDA0002615635170000045
式中:
Figure FDA0002615635170000046
表示公交i在站点k和站点k+μ之间的行程时间预测值;f(·)表示输入变量
Figure FDA0002615635170000047
和输出变量
Figure FDA0002615635170000048
之间待训练的函数关系。
5.如权利要求1所述共线线路数据的公交车到站时间预测方法,其特征在于,所述公交车到站时间预测模型构建方法包括:
采用支持向量回归模型进行公交到站时间预测;选取径向基函数作为所用支持向量机模型的核函数,采用网格搜索的方法获取模型参数最优值;
采用神经网络模型进行公交到站时间预测;选取标准的三层前馈神经网络用于公交到站时间的预测,采用量化共轭梯度算法对神经网络模型训练;并进行敏感性分析获取参数的最优取值;
选取平均绝对误差、平均绝对百分误差和均方根误差三个指标来评价预测上述两种模型的优劣程度;评价指标的计算公式如下:
Figure FDA0002615635170000049
Figure FDA00026156351700000410
Figure FDA0002615635170000051
式中:
Figure FDA0002615635170000052
表示公交i在站点k和站点k+μ之间的实际行程时间;N为观测到的预测样本数量。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
采集智能公交运营基础数据并建立数据库;
对采集到的数据进行预处理;搭建预测模型框架;
基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;
利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。
7.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
采集智能公交运营基础数据并建立数据库;
对采集到的数据进行预处理;搭建预测模型框架;
基于搭建的预测模型框架,确定预测模型结构,构建公交车到站时间预测模型;
利用构建得到的公交车到站时间预测模型进行公交车到站时间预测。
8.一种实施权利要求1~5任意一项所述共线线路数据的公交车到站时间预测方法的城市的公共交通体系。
CN202010768642.1A 2020-08-03 2020-08-03 一种共线线路avl数据的公交车到站时间预测方法 Pending CN111899511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010768642.1A CN111899511A (zh) 2020-08-03 2020-08-03 一种共线线路avl数据的公交车到站时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010768642.1A CN111899511A (zh) 2020-08-03 2020-08-03 一种共线线路avl数据的公交车到站时间预测方法

Publications (1)

Publication Number Publication Date
CN111899511A true CN111899511A (zh) 2020-11-06

Family

ID=73183581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010768642.1A Pending CN111899511A (zh) 2020-08-03 2020-08-03 一种共线线路avl数据的公交车到站时间预测方法

Country Status (1)

Country Link
CN (1) CN111899511A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470365A (zh) * 2021-09-01 2021-10-01 北京航空航天大学杭州创新研究院 一种面向有缺失数据的公交车到站时间预测方法
CN114189834A (zh) * 2022-02-17 2022-03-15 成都市以太节点科技有限公司 一种轨道交通车地通信监管系统及方法
CN116257164A (zh) * 2023-05-11 2023-06-13 武汉元光科技有限公司 候车用户焦虑响应方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838868A (zh) * 2014-03-21 2014-06-04 东南大学 一种基于多公交线路运行数据融合的城市公交到站时间预测方法
CN105303246A (zh) * 2015-09-07 2016-02-03 天津市市政工程设计研究院 一种多线路公交到站时间预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838868A (zh) * 2014-03-21 2014-06-04 东南大学 一种基于多公交线路运行数据融合的城市公交到站时间预测方法
CN105303246A (zh) * 2015-09-07 2016-02-03 天津市市政工程设计研究院 一种多线路公交到站时间预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李少伟等: "基于GPS轨迹数据的公交到站时间预测方法研究", 《软件工程》 *
霍建州: "基于AVL数据的公交车车头时距稳定性分析", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470365A (zh) * 2021-09-01 2021-10-01 北京航空航天大学杭州创新研究院 一种面向有缺失数据的公交车到站时间预测方法
CN114189834A (zh) * 2022-02-17 2022-03-15 成都市以太节点科技有限公司 一种轨道交通车地通信监管系统及方法
CN114189834B (zh) * 2022-02-17 2022-04-19 成都市以太节点科技有限公司 一种轨道交通车地通信监管系统及方法
CN116257164A (zh) * 2023-05-11 2023-06-13 武汉元光科技有限公司 候车用户焦虑响应方法及系统

Similar Documents

Publication Publication Date Title
Yang et al. Using graph structural information about flows to enhance short-term demand prediction in bike-sharing systems
CN110836675B (zh) 一种基于决策树的自动驾驶搜索决策方法
CN110390349A (zh) 基于XGBoost模型的公交车客流量预测建模方法
CN111899511A (zh) 一种共线线路avl数据的公交车到站时间预测方法
CN110570651A (zh) 一种基于深度学习的路网交通态势预测方法及系统
CN107563566B (zh) 一种基于支持向量机的公交站间运行时间区间预测方法
CN112863182B (zh) 基于迁移学习的跨模态数据预测方法
CN112613225B (zh) 一种基于神经网络元胞传输模型的交叉口交通状态预测方法
CN113538910A (zh) 一种自适应的全链条城市区域网络信号控制优化方法
CN111310294A (zh) 交通管理与控制服务指数的评价指标体系建立及发布方法
Keyarsalan et al. Designing an intelligent ontological system for traffic light control in isolated intersections
CN109489679B (zh) 一种导航路径中的到达时间计算方法
CN116631186B (zh) 基于危险驾驶事件数据的高速公路交通事故风险评估方法、系统
CN112967493A (zh) 一种基于神经网络的车辆通过交叉口行程时间的预测方法
CN115409256A (zh) 基于行程时间预测的拥堵区避让的路径推荐方法
CN115063184A (zh) 电动汽车充电需求建模方法、系统、介质、设备及终端
CN112884014A (zh) 一种基于路段拓扑结构分类的交通速度短时预测方法
Liu et al. Modelling the energy consumption of electric vehicles under uncertain and small data conditions
CN110490365B (zh) 一种基于多源数据融合预测网约车订单量的方法
CN116153125A (zh) 一种基于ida-rnn模型的空间维度公交到达时间预测方法
Xia et al. A distributed EMDN-GRU model on Spark for passenger waiting time forecasting
CN113159371A (zh) 基于跨模态数据融合的未知目标特征建模与需求预测方法
Pan et al. Traffic speed prediction based on time classification in combination with spatial graph convolutional network
CN113345252B (zh) 一种收费站下道流量短时预测方法与装置
CN116187851A (zh) 基于贝叶斯的自动驾驶道路与车路匹配风险指数评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201106