CN109359788A - 一种高速列车初始晚点影响预测模型的建立方法 - Google Patents

一种高速列车初始晚点影响预测模型的建立方法 Download PDF

Info

Publication number
CN109359788A
CN109359788A CN201811489173.9A CN201811489173A CN109359788A CN 109359788 A CN109359788 A CN 109359788A CN 201811489173 A CN201811489173 A CN 201811489173A CN 109359788 A CN109359788 A CN 109359788A
Authority
CN
China
Prior art keywords
late
influencing
initial
initial late
train
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811489173.9A
Other languages
English (en)
Other versions
CN109359788B (zh
Inventor
李忠灿
文超
黄平
汤轶雄
蒋朝哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201811489173.9A priority Critical patent/CN109359788B/zh
Publication of CN109359788A publication Critical patent/CN109359788A/zh
Application granted granted Critical
Publication of CN109359788B publication Critical patent/CN109359788B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及交通运输技术领域,其目的在于提供一种高速列车初始晚点影响预测模型的建立方法。本发明包括初始晚点影响列车数预测模型的建立方法和初始晚点影响总时间预测模型的建立方法。初始晚点影响列车数预测模型的建立方法包括以下步骤:比选不同备选的第一机器学习分类模型,选择最终的第一机器学习分类模型,选定最终的第一机器学习分类模型为初始晚点影响列车数预测模型。初始晚点影响总时间预测模型的建立方法包括以下步骤:比选不同备选的第二机器学习分类模型,选择最终的第二机器学习分类模型,选定最终的第二机器学习分类模型为初始晚点影响总时间预测模型。本发明建模过程方便,利于对初始晚点影响列车数和总时间进行预测。

Description

一种高速列车初始晚点影响预测模型的建立方法
技术领域
本发明涉及交通运输技术领域,特别是涉及一种高速列车初始晚点影响预测模型的建立方法。
背景技术
高速铁路具有安全性好、送达速度快、正点率高、输送能力大、能耗低等一系列优点,高速铁路的发展极大地缓解了运输能力紧张,提升了我国路网的规模与质量,为国民经济的持续快速发展起到了重要支撑作用。
然而,由于高速铁路运行环境复杂,高速列车在运行过程中,不可避免地会受到外界环境、内部系统机械故障以及组织管理的影响,导致列车的实际到达时间(实际出发时间)与计划到达时间(计划出发时间)有偏差,造成列车晚点。当列车晚点是由于自身车辆、设备故障突发事自然环境等因素引起的,被称为初始晚点;而当晚点是由于初始晚点的列车的晚点影响造成的,则称其为连带晚点或二次晚点。严重的晚点可能会在线路、局部网大面积传播,影响列车运行计划的正常执行,降低运输服务质量。
由于研究车站初始晚点影响模型能够有效地预测初始晚点的发生概率以及影响程度,在一定程度上为高速铁路调度指挥理论的深化研究提供基础。而现有技术中,国内外既有列车晚点研究多使用传统数学模型驱动的方法或使用仿真手段解决相关问题。然而,使用这些方法建立相关模型时,需要对晚点致因及分布、晚点传播机理、晚点恢复过程等具有精确的描述与认识。而在实际过程中,大部分研究都需基于一定的假设和前提条件进行,要么对问题简化、要么提前设定晚点分布规律或传播模式,因此所建立的模型和算法对使用范围要求比较严苛,而对运输实际生产的指导性不足。
因此,有必要研究一种解决上述问题的高速列车初始晚点影响预测模型的建立方法。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种高速列车初始晚点影响预测模型的建立方法,建模过程方便,利于在实际生产中对初始晚点影响列车数和总时间进行预测。
本发明采用的技术方案是:
一种高速列车初始晚点影响预测模型的建立方法,其特征在于:包括初始晚点影响列车数预测模型的建立方法和初始晚点影响总时间预测模型的建立方法;其中,初始晚点影响列车数预测模型的建立方法包括以下步骤:
S101:指定待处理车站,提取待处理车站的初始晚点影响列车序列,得到初始晚点影响列车数数据样本;
S102:根据初始晚点影响列车数数据样本得到初始晚点影响列车数S;
S103:确定影响初始晚点影响列车数的因素特征集F;
S104:将影响初始晚点影响列车数的因素特征集F作为特征输入,将初始晚点影响列车数S作为模型输出,初始晚点影响列车数S与影响初始晚点影响列车数的因素特征集F的对应关系为:
S=Φ(F),其中Φ为第一机器学习分类模型;
S105:选择多个备选的第一机器学习分类模型,将影响初始晚点影响列车数的因素特征集F输入对应的多个备选的第一机器学习分类模型,并得到多个最终参数;
S106:分别对多个备选的第一机器学习分类模型的最终参数进行评价并得到评价结果,然后根据评价结果选定其中一第一机器学习分类模型为初始晚点影响列车数预测模型;
初始晚点影响总时间预测模型的建立方法包括以下步骤:
S201:基于步骤S106得到的初始晚点影响列车数预测模型,预测得到预测影响列车数S’,确定影响初始晚点影响总时间的因素特征集G,其中影响初始晚点影响总时间的因素特征集G为影响初始晚点影响列车数的因素特征集F与预测影响列车数S’的集合;将预测影响列车数S’中所有列车晚点的时间之和设为初始晚点影响总时间Y;
S202:将影响初始晚点影响总时间的因素特征集G作为特征输入,将初始晚点影响总时间Y作为模型输出,初始晚点影响总时间Y与影响初始晚点影响总时间的因素特征集G的对应关系为:
其中为第二机器学习分类模型;
S203:选择多个备选的第二机器学习分类模型;将预测影响列车数S’分别输入对应的多个备选的第二机器学习分类模型,并得到多个最终参数;
S204:分别对多个备选的第二机器学习分类模型的最终参数进行评价并得到评价结果,然后根据评价结果选定其中一第二机器学习分类模型为初始晚点影响总时间预测模型。
优选地,在步骤S103中,组成影响初始晚点影响列车数的因素特征集F的因素特征如下:
D:初始晚点列车的到达晚点时间;
B:初始晚点列车是否停站;
T:晚点发生时段;
H:初始晚点列车与后行第一列列车的计划间隔时间;
N:理想状态下冗余时间充分利用时,恢复初始晚点列车到达晚点时间需要影响的列车数;
初始晚点影响列车数S与影响初始晚点影响列车数的因素特征集F的对应关系为S=Φ(D,B,T,H,N)。
优选地,在步骤S103中,影响初始晚点影响列车数的因素特征集F为对初始晚点影响列车数数据样本进行预处理与特征提取后,得到的列车到站时到站顺序未发生变化的初始晚点影响模型的因素特征集,其中预处理为去除异常值,特征提取为将计划运行过程与实际运行过程进行对比,然后通过计算得到。
优选地,在步骤S105中,备选的第一机器学习分类模型为:支持向量机、随机森林、K最近邻分类、XGBOOST算法和Logistics回归。
优选地,在步骤S105中,将初始晚点影响列车数数据样本中70%的数据作为训练集,将初始晚点影响列车数数据样本中剩余的30%的数据作为验证集。
优选地,在步骤S106中,使用python的sklearn库的内置网格搜索方法分别对备选的第一机器学习分类模型求得最优参数;选择准确率、精确率、召回率作为三个第一评价指标来评价每个备选的第一机器学习分类模型的精度。
优选地,在步骤203中,备选的第二机器学习分类模型为:随机森林、XGBOOST算法、支持向量回归、Lasso回归和岭回归五种算法。
优选地,在步骤S204中,使用python的sklearn库的内置网格搜索方法分别对备选的第二机器学习分类模型求得最优参数;选择可决系数、平均绝对误差、模型预测值与实际值之差小于5min所占比例作为三个第二评价指标来评价每个备选的第二机器学习分类模型的精度。
优选地,所述初始晚点影响列车数预测模型的建立方法还包括以下步骤:
S107:依照实绩数据分别对初始晚点影响列车数预测模型和进行时间维度和空间维度适用性的检测。
优选地,所述初始晚点影响总时间预测模型的建立方法还包括以下步骤:
S205:依照实绩数据分别对初始晚点影响总时间预测模型和进行时间维度和空间维度适用性的检测。
与现有技术相比,本发明的有益效果为:
依据初始晚点影响列车数数据样本,以历史实绩数据为基础,分别建立初始晚点影响列车数预测模型及初始晚点影响总时间预测模型,避免基于假设和前提条件进行建模,建模过程方便;同时利于在实际生产中预测初始晚点影响列车数与初始晚点影响总时间,实现车站晚点影响程度的定量预测,实时提供调度决策,为高速铁路调度指挥理论的深化研究提供基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种高速列车初始晚点影响预测模型的建立方法的流程示意图;
图2是本发明中提取的广州北站初始晚点影响列车数数据分布图;
图3是根据本发明中初始晚点影响列车数预测模型得到的初始晚点影响列车数模型特征重要度分布图。
具体实施方式
以下将参照附图,通过实施例方式详细地描述本发明提供的一种高速列车初始晚点影响预测模型的建立方法。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
实施例:
一种高速列车初始晚点影响预测模型的建立方法,包括初始晚点影响列车数预测模型的建立方法和初始晚点影响总时间预测模型的建立方法;其中,初始晚点影响列车数预测模型的建立方法包括以下步骤:
S101:指定待处理车站,提取待处理车站的初始晚点影响列车序列,得到初始晚点影响列车数数据样本。
下面对初始晚点、初始晚点影响列车序列及初始晚点影响列车数数据样本进行详细说明。在列车实际运行中,两列车到达车站的时间最少要保持最小追踪间隔时间,通常两列车追踪间隔时间由最小间隔时间与冗余时间组成。当一列列车发生晚点时,如果其前行列车未发生晚点,或者前行列车发生晚点,但前行列车实际到达时间与该列车的图定到达时间保持了最小间隔时间,则在车站上,该晚点被定义为初始晚点。在晚点传播的链式过程中,列车与列车之间实际间隔时间的冗余时间会吸收一定的晚点时间,经过一段时间的传播,晚点就会停止,这样就形成了一个初始晚点影响列车序列。而在初始晚点影响列车序列中,所有发生晚点的列车的数量即为初始晚点影响列车数,所有列车的晚点时间之和为初始晚点影响总时间。初始晚点影响列车数数据样本包括车次、日期、待处理车站、实际到达时刻、实际出发时刻、图定到达时刻、图定出发时刻、晚点时间等数据。
另外,初始晚点影响列车序列根据晚点传播过程的列车顺序有无变化可以分为两种类别:1)晚点传播过程中列车到站顺序未发生改变。2)晚点传播过程中列车到站顺序发生改变,即列车发生晚点之后经过调度员调整,有越行发生使得列车原有到站运行顺序发生了改变。第二种情况下的晚点传播过程是一个受到外界干扰的过程,其传播的程序较为复杂,需要考虑较多的影响因素。因此,本文只对第一种晚点传播过程进行研究。
作为举例,本文使用广州北站作为待处理车站,并依照2015年至2016年的广州北站初始晚点数据提取初始晚点影响列车序列,得到初始晚点影响列车数数据样本。
S102:根据初始晚点影响列车数数据样本得到初始晚点影响列车数S,本文对广州北站提取初始晚点影响列车序列,得到1230个样本序列;然后对初始晚点影响列车数S进行分类,得到不同初始晚点影响列车数S时的初始晚点影响列车数数据样本的数量;由于初始晚点影响列车数在大于5时,其每一个值对应的样本量较小且分布较为离散,本文将初始晚点影响列车数分成六类(影响列车数为1、2、3、4、5、6及其以上),得到如图2所示的广州北站初始晚点影响列车数数据分布图。
S103:确定影响初始晚点影响列车数的因素特征集F。需要说明的是,影响初始晚点影响列车数的因素特征集F可通过对初始晚点影响模型的物理机理解析进行确定。
在步骤S103中,组成影响初始晚点影响列车数的因素特征集F的因素特征如下:
D:初始晚点列车的到达晚点时间;
B:初始晚点列车是否停站;
T:晚点发生时段;
H:初始晚点列车与后行第一列列车的计划间隔时间;
N:理想状态下冗余时间充分利用时,恢复初始晚点列车到达晚点时间需要影响的列车数。
理想情况下,初始晚点发生后,初始晚点时间D如果小于初始晚点列车与其后行第一列列车的计划间隔时间H初始晚点在理想情况下将不会造成连带晚点,且在初始晚点发生后初始晚点列车与其后行第一列列车的计划间隔时间H可以直接由计划运行图获得,初始晚点列车是否停站B对车站到发线占用车站咽喉区以及到发线时间将会有所不同,而晚点发生时段T隐含了列车的行车密度等列车运行图结构信息,为了使得晚点实现最快的恢复,冗余时间将会被充分利用,在此时将会造成的影响列车数为N。
进一步的,在步骤S103中,影响初始晚点影响列车数的因素特征集F为对初始晚点影响列车数数据样本进行预处理与特征提取后,得到的列车到站时到站顺序未发生变化的初始晚点影响模型的因素特征集,其中预处理为去除异常值,特征提取为将计划运行过程与实际运行过程进行对比,然后通过计算得到。
S104:将影响初始晚点影响列车数的因素特征集F作为特征输入,将初始晚点影响列车数S作为模型输出,初始晚点影响列车数S与影响初始晚点影响列车数的因素特征集F的对应关系为:
S=Φ(F),其中Φ为第一机器学习分类模型;
根据影响初始晚点影响列车数的因素特征集F的因素特征,初始晚点影响列车数S与影响初始晚点影响列车数的因素特征集F的对应关系为S=Φ(D,B,T,H,N)。
S105:选择多个备选的第一机器学习分类模型,将影响初始晚点影响列车数的因素特征集F输入对应的多个备选的第一机器学习分类模型,并得到多个最终参数。其中将初始晚点影响列车数数据样本中70%的数据作为训练集,将初始晚点影响列车数数据样本中剩余的30%的数据作为验证集。
在步骤S105中,备选的第一机器学习分类模型为:支持向量机(SVM)、随机森林(RF)、K最近邻分类(KNN)、XGBOOST算法和Logistics回归。应当理解的是,备选的第一机器学习分类模型均为现有的机器学习分类模型,其对于分类问题都有着很好的效果,本文对五种备选的第一机器学习分类模型进行比选,以获取效果最优的算法模型。
S106:分别对多个备选的第一机器学习分类模型的最终参数进行评价并得到评价结果,然后根据评价结果选定其中一第一机器学习分类模型为初始晚点影响列车数预测模型。
在步骤S106中,使用python的sklearn库的内置网格搜索方法(GridSearchCV)分别对备选的第一机器学习分类模型求得最优参数;选择准确率(Accuracy)、精确率(Precision)、召回率(Recall)作为三个第一评价指标来评价每个备选的第一机器学习分类模型的精度。
其中,准确率(accuracyscore)、精确率(precision)、召回率(recall)的定义如下所示:
假定对某一个初始晚点影响列车数(值为a)进行预测,如果模型预测为a,那就做正(Positive)的判定,如果模型预测不是a,那就做负(Negative)的判定。定义TP(TruePositive)表示做出Positive的判定,且判定结果是正确(True)的样本量,FalsePositive(TP)表示错误的(False)的判定Positive样本量,TrueNegative(TN)表示正确的(True)的判定Negative的样本量,FalseNegative(FN)表示错误的(False)判定Negative的样本量。则准确率、精确率、召回率的表示如下所示:
Accuracy=(TP+TN)/(TP+FP+TN+FN)
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)
准确率Accuracy反映了分类器对整个样本的判定能力,即能将正的判定为正,负的判定为负的能力;精确率Precision反映了被分类器判定的正例中真正的正例样本的比重;召回率Recall反映了被正确判定的正例占总的正例的比重。三者可以很好的评价模型的精度。
本文基于各自最优的参数得到各个备选的第一机器学习分类模型测试集的三个评价指标值如表1至表3所示:
注:*表示各指标最佳值
表1广州北初始晚点影响列车数备选模型准确率Accuracy
注:*表示各指标最佳值
表2广州北初始晚点影响列车数备选模型精度率Precision
注:*表示各指标最佳值
表3广州北初始晚点影响列车数备选模型召回率Recall
综合考虑上述五种备选的第一机器学习分类模型的准确率、精确率和召回率指标,得知XGBOOST算法对于本文的分类有着最优的效果。本文的影响列车数分类为一个六分类问题,XGBOOST算法在测试集上仍然能保持0.785的模型精度,说明其对初始晚点影响列车数模型有着很好的预测,能很好的预测初始晚点发生时的影响列车数,因此,本文使用XGBOOST算法作为广州北站的初始晚点影响列车数预测模型。
进一步的,根据初始晚点影响列车数预测模型,可最终确定影响初始晚点影响列车数的因素特征集F的各因素特征对模型影响的重要度,其重要度的分布图形如图3所示。
由图3可知,晚点时段对于初始晚点影响列车数模型有着最高的重要度,晚点时段隐含了列车的行车密度等列车运行图结构信息,其次是初始晚点列车与后行第一列列车的计划间隔时间和初始晚点列车到达晚点时间,最后是理想状态下冗余时间完全利用时,恢复初始晚点列车到达晚点需要影响的列车数(简称为:理想恢复影响列车数)与初始晚点列车是否停站。上述各指标的重要度可以对初始晚点发生时的影响程度判断和调度决策制定时需要考虑的因素主次关系提供一定的依据。
为对由步骤S106建立的初始晚点影响列车数预测模型进行检验,所述初始晚点影响列车数预测模型的建立方法还包括以下步骤:
S107:依照实绩数据分别对初始晚点影响列车数预测模型和进行时间维度和空间维度适用性的检测。
作为举例,本文使用广州北站2017年2月1日至2017年7月23日的实绩数据对初始晚点影响列车数预测模型进行时间维度适用性的检测;然后,使用衡阳东站作为验证车站,并使用2015-2016年历史实绩数据进行初始晚点影响列车数预测模型的建立,其中70%的样本量作为训练集,30%的样本量作为验证集,比选不同机器学习算法,验证衡阳东建立的初始晚点影响列车数算法模型是否和广州北保持一致,以对初始晚点影响列车数预测模型和进行空间维度适用性的检测。
具体来说,本文将从以下两个方面进行模型的检验:
(1)本文使用广州北站2017年的初始晚点数据对建立的最优算法下的模型进行时间维度上的鲁棒性检验。
(2)针对空间维度上的鲁棒性检验,本文使用2015-2016年衡阳东站的初始晚点数据,与广州北站采用相同的方法,建立衡阳东站最优的初始晚点影响列车数预测模型,验证两个车站的最优模型是否是同一算法。并使用2017年数据检验建立的模型的可靠性。
本文共提取出广州北站2017年初始晚点时间样本189个,将数据导入广州北站建立的影响列车数模型,其检验结果显示如下表4和5所示:
表4广州北影响列车数建模数据与检验数据准确率
表5广州北检验数据精确率与召回率
由上表可知,对于2017年的数据本文建立的数据仍有较好的预测精度,其准确率能到达0.776,且对于每一个分类下的精确率与召回率都保持了较高的精度。因此,有理由相信本文建立的模型对广州北站的初始晚点影响列车数预测有着实际应用价值。
为了验证本文建立的XGBOOST初始晚点影响列车数预测模型对于其他车站是否也有着适用性,本文将采用衡阳东站的数据进行模型的检验。首先,和广州北站相似,本文采用了衡阳东站2015-2016年的数据,通过比选不同机器学习算法模型,建立最优算法下的初始晚点影响列车数模型,然后再使用衡阳东站2017的数据进行模型时间维度的预测精度检验。
本文提取衡阳东站的2015-2016年数据样本量为4182个,2017年的样本量为830个,使用随机森林、SVM、Logistic回归、KNN以及XGBOOST算法建立的各模型的准确率、精确率以及召回率如下表6-8所示:
注:*表示模型精度最高的备选模型
表6衡阳东站初始晚点影响列车数备选算法准确率Accuracy
由上表可知,XGBOOST对衡阳东站的初始晚点影响列车数模型有着最高的准确率,值达到了0.768,且在5个备选模型中处于最优。
注:*表示模型精度最高的备选模型
表7衡阳东初始晚点影响列车数备选算法精度率Precision
注:*表示模型精度最高的备选模型
表8衡阳东初始晚点影响列车数备选算法召回率Recall
由上表可知,综合考虑准确率、精确率与召回率指标,对衡阳东站的初始晚点影响列车数模型,XGBOOST算法扔有着最优的分类效果。因此,本文有理由相信XGBOOST算法对初始晚点时间影响列车数模型有着很好的实际应用价值。
同时,对于衡阳东站2017年的初始晚点影响列车数数据的检验结果如下表9和表10所示:
表9衡阳东初始晚点影响列车数建模数据与检验数据准确率
表10衡阳东站2017年检验数据精确率与召回率
由上表可知,对衡阳东站建立的影响列车数预测模型,2017年的数据仍然有着很好的模型预测结果,其准确率达到了0.702。因此,本文有理由相信XGBOOST模型能够与很好的预测初始晚点影响列车数。
初始晚点影响总时间预测模型的建立方法以初始晚点影响列车数预测模型的建立方法为前提。具体来说,初始晚点影响总时间预测模型的建立方法包括以下步骤:
S201:基于步骤S106得到的初始晚点影响列车数预测模型,预测得到预测影响列车数S’,确定影响初始晚点影响总时间的因素特征集G,其中影响初始晚点影响总时间的因素特征集G为影响初始晚点影响列车数的因素特征集F与预测影响列车数S’的集合;将预测影响列车数S’中所有列车晚点的时间之和设为初始晚点影响总时间Y。
结合上文可知,影响初始晚点影响总时间的因素特征集G的因素特征如下:
D:初始晚点列车的到达晚点时间;
B:初始晚点列车是否停站;
T:晚点发生时段;
H:初始晚点列车与后行第一列列车的计划间隔时间;
N:理想状态下冗余时间充分利用时,恢复初始晚点列车到达晚点时间需要影响的列车数;
S’:通过初始晚点影响列车数预测模型预测得到的影响列车数。
S202:将影响初始晚点影响总时间的因素特征集G作为特征输入,将初始晚点影响总时间Y作为模型输出,初始晚点影响总时间Y与影响初始晚点影响总时间的因素特征集G的对应关系为:
其中为第二机器学习分类模型;
结合上文可知
S203:选择多个备选的第二机器学习分类模型;将预测影响列车数S’分别输入对应的多个备选的第二机器学习分类模型,并得到多个最终参数。
在步骤203中,备选的第二机器学习分类模型为:随机森林(RandomForest)、XGBOOST算法、支持向量回归(SupportVectorRegression)、Lasso回归(LassoRegression)和岭回归(RidgeRegression)五种算法。应当理解的是,备选的第二机器学习分类模型均为现有的机器学习分类模型,其对于回归问题都有着很好的效果,本文对这五种备选的第二机器学习分类模型进行比选,并将通过初始晚点影响总时间预测模型预测得到的影响列车数S’列入原始数据,作为模型输入,使用广州北站2015年至2016年数据中70%的数据作为训练集,使用剩余30%作为验证集,以获取效果最优的算法模型。
S204:分别对多个备选的第二机器学习分类模型的最终参数进行评价并得到评价结果,然后根据评价结果选定其中一第二机器学习分类模型为初始晚点影响总时间预测模型。
在步骤S204中,使用python的sklearn库的内置网格搜索方法(GridSearchCV)分别对备选的第二机器学习分类模型求得最优参数;选择可决系数(R2)、平均绝对误差(MAE)、模型预测值与实际值之差小于5min所占比例(LESSTAHN5)作为三个第二评价指标来评价每个备选的第二机器学习分类模型的精度。
由于影响总时间分布极其离散,数值极大的影响总时间在建模时会影响模型精度,因此,本文经过对数据进行清洗后剔除了影响总时间大于62分钟的数据。对清洗后的数据进行描述统计,得到数据的均值、上四分位数、下四分位数以及众数和中位数。其结果如表11所示:
表11广州北建模数据影响总时间描述性统计
由表11可知,影响总时间均值为15.24min。本文在评价模型优劣时,选择可决系数(R2)、平均绝对误差(MAE)、模型预测值与实际值之差小于5min所占比例(LESSTAHN5)三个指标来衡量模型的优劣,通过对比各个模型指标选择出最优的模型。使用网格搜索方法得到各模型的最优参数,最终得到各模型的R2、MAE、LESSTHAN5指标如表12所示:
注:*表示各指标最佳值
表12广州北初始晚点影响总时间备选模型精度
由上表可知,SVR在R2、MAE和LESSTHAN5精度上都要优于其他模型.因此,本文选择SVR模型作为初始晚点影响总时间预测模型。
进一步的,为对由步骤S204建立的初始晚点影响总时间预测模型进行检验,所述初始晚点影响总时间预测模型的建立方法还包括以下步骤:
S205:依照实绩数据分别对初始晚点影响总时间预测模型和进行时间维度和空间维度适用性的检测。
作为举例,本文同样使用2017年实绩数据对初始晚点影响总时间预测模型进行时间维度适用性的检测;然后在对初始晚点影响列车数预测模型和进行时间维度和空间维度适用性的检测后,建立相应时段最优的影响总时间预测模型,验证该模型使用的机器学习算法是否与广州北站保持一致;最后,使用2017年衡阳东站的实绩数据进一步验证建立的初始晚点影响总时间预测模型在时间上的适用性。
具体来说,本文将从以下两个方面进行模型的检验:
(1)在时间维度上,本文将使用广州北站2017年的初始晚点数据对前一节建立的影响列车数预测模型进行时间维度上的鲁棒性检验。
(2)在空间维度上,本文将使用2015-2016年衡阳东站的初始晚点数据,比选不同机器学习算法,建立衡阳东站最优的初始晚点影响总时间预测模型,验证与广州北站初始晚点影响总时间模型是否为同一算法,并使用2017年数据检验建立的模型的可靠性。
与初始晚点影响列车数采用相同的数据,本文共提取出广州北站2017年初始晚点时间样本189个,对2017年广州北检验数据影响总时间进行描述性统计,得到数据的均值、上四分位数、下四分位数以及众数和中位数。其结果如下表13所示:
表13广州北2017年影响总时间描述性统计
将数据导入广州北站建立的初始晚点影响总时间模型,其结果显示如下表14所示:
表14广州北初始晚点影响列车数建模数据与检验数据准确率
由上表可知,SVR在2017年检验数据上MAE仅为4.717min,且Lessthan5的值达到了78.191%,而2017年广州北站的影响总时间均值为14.159min,说明SVR对于广州北站影响总时间有着较好的预测效果。因此,本文有理由相信SVR在时间维度上对影响总时间预测模型有着较强的可靠性。
为了验证本文建立的SVR初始晚点影响总时间预测模型对于其他车站是否也有着适用性,本文采用了衡阳东站的数据进行模型的检验。首先,和广州北站相同,本文采用了2015-2016年的数据建立了衡阳东站的初始晚点影响总时间模型,然后再使用衡阳东站2017的数据对建立的模型进行了模型时间维度上的检验。
与影响列车数一样,本文在衡阳东站提取的2015-2016年数据样本量为4182个,2017年的样本量为830个。对影响总时间进行描述性统计得到的结果如下表15所示:
表15衡阳东站建模数据影响总时间描述性统计
使用随机森林、XGBOOST回归、支持向量回归、Lasso回归以及岭回归得到各个模型的可决系数(R2)、平均绝对误差(MAE)、模型预测值与真实值小于5min所占比例(LESSTAHN5)三个指标如下表16所示:
注:*表示各指标最佳值
表16衡阳东站初始晚点影响总时间备选模型精度
由上表可知,SVR在MAE与R2都有着最优的优度,而在LESSTHAHN5指标上,随机森林、XGBOOST与SVR有着相同的优度。并且SVR模型的MAE仅为4.23min,相较于平均影响总时间17.011min有着较优的预测精度,虽然R2与LESSTHAHN5指标值相较于前文广州北站有所降低,但这与晚点发生频率有着密不可分的关系。综合考虑这三个模型之后,发现SVR依然是最优的模型。本文有理由相信SVR对初始晚点影响总时间模型在空间维度也有着很强的可靠性。
同时,本文也对衡阳东站2017年初始晚点影响总时间进行了模型预测效果的检验,首先对衡阳东2017年初始晚点影响总时间描述性统计如下表17所示:
表17衡阳东站2017年影响总时间描述性统计
将衡阳东站2017年初始晚点影响总时间数据导入建立的衡阳东初始晚点影响总时间模型之中,得到其预测效果与模型建立效果的对比如下表18所示:
表18广州北初始晚点影响列车数建模数据与检验数据准确率
由上表可知,SVR对于衡阳东2017年检验数据扔有着较优的效果,其MAE为4.948min而均值为14.309min。且在5min以内的准确率仍能达到72.098%。因而,更进一步证明了SVR对初始晚点影响总时间模型在时间维度有着很强的可靠性。
综上,本实施例所提供的一种高速列车初始晚点影响预测模型的建立方法,具有如下效果:
依据初始晚点影响列车数数据样本,以历史实绩数据为基础,分别建立初始晚点影响列车数预测模型及初始晚点影响总时间预测模型,避免基于假设和前提条件进行建模,建模过程方便;同时利于在实际生产中预测初始晚点影响列车数与初始晚点影响总时间,实现车站晚点影响程度的定量预测,实时提供调度决策,为高速铁路调度指挥理论的深化研究提供基础。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种高速列车初始晚点影响预测模型的建立方法,其特征在于:包括初始晚点影响列车数预测模型的建立方法和初始晚点影响总时间预测模型的建立方法;其中,初始晚点影响列车数预测模型的建立方法包括以下步骤:
S101:指定待处理车站,提取待处理车站的初始晚点影响列车序列,得到初始晚点影响列车数数据样本;
S102:根据初始晚点影响列车数数据样本得到初始晚点影响列车数S;
S103:确定影响初始晚点影响列车数的因素特征集F;
S104:将影响初始晚点影响列车数的因素特征集F作为特征输入,将初始晚点影响列车数S作为模型输出,初始晚点影响列车数S与影响初始晚点影响列车数的因素特征集F的对应关系为:
S=Φ(F),
其中Φ为第一机器学习分类模型;
S105:选择多个备选的第一机器学习分类模型,将影响初始晚点影响列车数的因素特征集F输入对应的多个备选的第一机器学习分类模型,并得到多个最终参数;
S106:分别对多个备选的第一机器学习分类模型的最终参数进行评价并得到评价结果,然后根据评价结果选定其中一第一机器学习分类模型为初始晚点影响列车数预测模型;
初始晚点影响总时间预测模型的建立方法包括以下步骤:
S201:基于步骤S106得到的初始晚点影响列车数预测模型,预测得到预测影响列车数S’,确定影响初始晚点影响总时间的因素特征集G,其中影响初始晚点影响总时间的因素特征集G为影响初始晚点影响列车数的因素特征集F与预测影响列车数S’的集合;将预测影响列车数S’中所有列车晚点的时间之和设为初始晚点影响总时间Y;
S202:将影响初始晚点影响总时间的因素特征集G作为特征输入,将初始晚点影响总时间Y作为模型输出,初始晚点影响总时间Y与影响初始晚点影响总时间的因素特征集G的对应关系为:
其中为第二机器学习分类模型;
S203:选择多个备选的第二机器学习分类模型;将预测影响列车数S’分别输入对应的多个备选的第二机器学习分类模型,并得到多个最终参数;
S204:分别对多个备选的第二机器学习分类模型的最终参数进行评价并得到评价结果,然后根据评价结果选定其中一第二机器学习分类模型为初始晚点影响总时间预测模型。
2.根据权利要求1所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:在步骤S103中,组成影响初始晚点影响列车数的因素特征集F的因素特征如下:
D:初始晚点列车的到达晚点时间;
B:初始晚点列车是否停站;
T:晚点发生时段;
H:初始晚点列车与后行第一列列车的计划间隔时间;
N:理想状态下冗余时间充分利用时,恢复初始晚点列车到达晚点时间需要影响的列车数;
初始晚点影响列车数S与影响初始晚点影响列车数的因素特征集F的对应关系为S=Φ(D,B,T,H,N)。
3.根据权利要求2所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:在步骤S103中,影响初始晚点影响列车数的因素特征集F为对初始晚点影响列车数数据样本进行预处理与特征提取后,得到的列车到站时到站顺序未发生变化的初始晚点影响模型的因素特征集,其中预处理为去除异常值,特征提取为将计划运行过程与实际运行过程进行对比,然后通过计算得到。
4.根据权利要求1所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:在步骤S105中,备选的第一机器学习分类模型为:支持向量机、随机森林、K最近邻分类、XGBOOST算法和Logistics回归。
5.根据权利要求1所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:在步骤S105中,将初始晚点影响列车数数据样本中70%的数据作为训练集,将初始晚点影响列车数数据样本中剩余的30%的数据作为验证集。
6.根据权利要求1所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:在步骤S106中,使用python的sklearn库的内置网格搜索方法分别对备选的第一机器学习分类模型求得最优参数;选择准确率、精确率、召回率作为三个第一评价指标来评价每个备选的第一机器学习分类模型的精度。
7.根据权利要求1所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:在步骤203中,备选的第二机器学习分类模型为:随机森林、XGBOOST算法、支持向量回归、Lasso回归和岭回归五种算法。
8.根据权利要求1所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:在步骤S204中,使用python的sklearn库的内置网格搜索方法分别对备选的第二机器学习分类模型求得最优参数;选择可决系数、平均绝对误差、模型预测值与实际值之差小于5min所占比例作为三个第二评价指标来评价每个备选的第二机器学习分类模型的精度。
9.根据权利要求5所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:所述初始晚点影响列车数预测模型的建立方法还包括以下步骤:
S107:依照实绩数据分别对初始晚点影响列车数预测模型和进行时间维度和空间维度适用性的检测。
10.根据权利要求5所述的一种高速列车初始晚点影响预测模型的建立方法,其特征在于:所述初始晚点影响总时间预测模型的建立方法还包括以下步骤:
S205:依照实绩数据分别对初始晚点影响总时间预测模型和进行时间维度和空间维度适用性的检测。
CN201811489173.9A 2018-12-06 2018-12-06 一种高速列车初始晚点影响预测模型的建立方法 Expired - Fee Related CN109359788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811489173.9A CN109359788B (zh) 2018-12-06 2018-12-06 一种高速列车初始晚点影响预测模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811489173.9A CN109359788B (zh) 2018-12-06 2018-12-06 一种高速列车初始晚点影响预测模型的建立方法

Publications (2)

Publication Number Publication Date
CN109359788A true CN109359788A (zh) 2019-02-19
CN109359788B CN109359788B (zh) 2021-08-17

Family

ID=65331457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811489173.9A Expired - Fee Related CN109359788B (zh) 2018-12-06 2018-12-06 一种高速列车初始晚点影响预测模型的建立方法

Country Status (1)

Country Link
CN (1) CN109359788B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993356A (zh) * 2019-03-25 2019-07-09 广东工业大学 一种基于xgboost的交通优化系统及方法
CN110276955A (zh) * 2019-07-18 2019-09-24 中南大学 一种面向出行者个人感知的交通拥堵状态评价方法
CN110843870A (zh) * 2019-11-21 2020-02-28 北京交通大学 一种非正常事件下高铁路网图定能力保持方法
CN111439291A (zh) * 2020-04-23 2020-07-24 中车株洲电力机车研究所有限公司 一种轨道交通系统的晚点在线恢复方法及其系统
CN111932039A (zh) * 2020-09-29 2020-11-13 北京交通大学 一种列车到站晚点预测方法、装置、电子设备及存储介质
CN112580204A (zh) * 2020-12-16 2021-03-30 同济大学 一种铁路区间非正常事件下的列车延误时间预测方法
CN112785056A (zh) * 2021-01-22 2021-05-11 杭州市电力设计院有限公司 一种基于CatBoost和LSTM模型融合的短期负荷预测方法
CN112884233A (zh) * 2021-03-03 2021-06-01 南京理工大学 高速铁路系统多模态融合晚点预测方法
CN113850413A (zh) * 2021-08-18 2021-12-28 中国铁道科学研究院集团有限公司 一种基于深度学习的列车正晚点预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106627677A (zh) * 2016-12-31 2017-05-10 中国铁道科学研究院电子计算技术研究所 铁路旅服系统的目标列车到站时间预测方法及装置
WO2018034142A1 (ja) * 2016-08-18 2018-02-22 日本電気株式会社 航空管制支援システム、航空管制支援方法、及び、記録媒体
CN108764526A (zh) * 2018-04-20 2018-11-06 西南交通大学 一种基于列车运行秩序的列车晚点人工神经网络识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018034142A1 (ja) * 2016-08-18 2018-02-22 日本電気株式会社 航空管制支援システム、航空管制支援方法、及び、記録媒体
CN106627677A (zh) * 2016-12-31 2017-05-10 中国铁道科学研究院电子计算技术研究所 铁路旅服系统的目标列车到站时间预测方法及装置
CN108764526A (zh) * 2018-04-20 2018-11-06 西南交通大学 一种基于列车运行秩序的列车晚点人工神经网络识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FRANCESCO CORMAN 等: "Stochastic prediction of train delays in real-time using Bayesian networks", 《TRANSPORTATION RESEARCH PART C: EMERGING TECHNOLOGIES》 *
ROSELLE THOREAU 等: "Train design features affecting boarding and alighting of passengers", 《JOURNAL OF ADVANCED TRANSPORTATION》 *
刘宇 等: "基于极大代数的城际高速列车晚点传播研究", 《综合运输》 *
庄河 等: "基于高速列车运行实绩的致因-初始晚点时长分布模型", 《铁道学报》 *
黄平 等: "武广高速铁路列车晚点恢复时间预测的随机森林模型", 《铁道学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993356A (zh) * 2019-03-25 2019-07-09 广东工业大学 一种基于xgboost的交通优化系统及方法
CN110276955A (zh) * 2019-07-18 2019-09-24 中南大学 一种面向出行者个人感知的交通拥堵状态评价方法
CN110843870A (zh) * 2019-11-21 2020-02-28 北京交通大学 一种非正常事件下高铁路网图定能力保持方法
CN111439291A (zh) * 2020-04-23 2020-07-24 中车株洲电力机车研究所有限公司 一种轨道交通系统的晚点在线恢复方法及其系统
CN111439291B (zh) * 2020-04-23 2022-01-25 中车株洲电力机车研究所有限公司 一种轨道交通系统的晚点在线恢复方法及其系统
CN111932039A (zh) * 2020-09-29 2020-11-13 北京交通大学 一种列车到站晚点预测方法、装置、电子设备及存储介质
CN112580204A (zh) * 2020-12-16 2021-03-30 同济大学 一种铁路区间非正常事件下的列车延误时间预测方法
CN112785056A (zh) * 2021-01-22 2021-05-11 杭州市电力设计院有限公司 一种基于CatBoost和LSTM模型融合的短期负荷预测方法
CN112884233A (zh) * 2021-03-03 2021-06-01 南京理工大学 高速铁路系统多模态融合晚点预测方法
CN112884233B (zh) * 2021-03-03 2022-10-21 南京理工大学 高速铁路系统多模态融合晚点预测方法
CN113850413A (zh) * 2021-08-18 2021-12-28 中国铁道科学研究院集团有限公司 一种基于深度学习的列车正晚点预测方法及装置

Also Published As

Publication number Publication date
CN109359788B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN109359788A (zh) 一种高速列车初始晚点影响预测模型的建立方法
Maparu et al. Transport infrastructure, economic development and urbanization in India (1990–2011): Is there any causal relationship?
US20140088865A1 (en) Apparatus and method for predicting arrival times in a transportation network
Panchenko et al. Formation of an automated traffic capacity calculation system of rail networks for freight flows of mining and smelting enterprises
CN102496280B (zh) 一种路况信息实时获取方法
Wen et al. A predictive model of train delays on a railway line
US20230400309A1 (en) Methods and internet of things systems for determining safety inspection plans based on smart gas geographic information systems
CN110889562B (zh) 一种基于情景规划的动态城市模型系统
CN103481918A (zh) 一种基于反馈调节的高速铁路列车运行调整方法
CN113704956A (zh) 一种基于数字孪生技术的城市道路在线微观仿真方法及系统
CN103280100A (zh) 融合智能调度数据的公交ic卡乘客换乘站点判断方法
CN109508751A (zh) 高速铁路列车晚点时间预测的深度神经网络模型建模方法
CN110843870A (zh) 一种非正常事件下高铁路网图定能力保持方法
CN112927513B (zh) 一种实时在线交通仿真方法及系统
CN109272168A (zh) 一种城市轨道交通客流变化趋势预测方法
CN109229155B (zh) 一种规避列车运行死锁状态的方法及列车运行全局优化控制方法
CN104036112A (zh) 一种基于支持向量机与专家系统的故障诊断方法
CN109409811A (zh) 一种物流调度方法、装置、计算机设备和存储介质
Wang et al. Prediction and Analysis of Train Passenger Load Factor of High‐Speed Railway Based on LightGBM Algorithm
Zinser et al. Comparison of microscopic and macroscopic approaches to simulating the effects of infrastructure disruptions on railway networks
CN112862196A (zh) 一种基于模糊逻辑理论的地铁站台乘客分布预测系统
Gao et al. An alternative approach for high speed railway carrying capacity calculation based on multiagent simulation
Wang et al. Predicting the effectiveness of supplement time on delay recoveries: a support vector regression approach
Sipilä Simulation of rail traffic: methods for timetable construction, delay modeling and infrastructure evaluation
Shi et al. A train arrival delay prediction model using xgboost and bayesian optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210817