CN114971073A

CN114971073A - 一种跨线列车多站到达晚点预测的方法及装置

Info

Publication number: CN114971073A
Application number: CN202210723029.7A
Authority: CN
Inventors: 许心越; 丁忻; 李建民
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-08-30

Abstract

本发明提供的一种跨线列车多站到达晚点预测的方法及装置，首先获取并处理跨线列车实绩运行数据、外界天气数据和车站配线数据进行处理和清洗；使用69种常见的分布拟合函数对跨线列车的影响列车数量和总晚点时间进行分布拟合，确定跨线列车晚点的影响范围和程度；从6个方面对晚点影响因素进行提取，提取处理的过程基于LSTM、列车的运行顺序和逻辑约束处理因素变量；对传统的DNN模型进行改进，降低深层网络的计算复杂度并避免出现过拟合的现象；最后采用Embedded的方法、使用IDNN模型进行训练，得到影响因素识别和晚点预测的结果。本发明提出的机器学习方法比既有的晚点预测模型预测精度更高、鲁棒性更强、计算速度更快。

Description

一种跨线列车多站到达晚点预测的方法及装置

技术领域

本发明涉及高速铁路跨线列车多站到达晚点预测领域，尤其涉及一种跨线列车多站到达晚点预测的方法及装置。

背景技术

近年来，随着我国高速铁路网络不断延伸，列车运行不可避免地受到设备、人为或者外界环境等因素的影响而产生初始晚点，晚点经过一系列的横向或纵向传播而导致单条或多条线路的多列列车发生连带晚点。对2018年4月至2019年4月武广高速铁路的列车实绩运行数据进行统计，发现列车晚点数据占比高达33.59％，平均晚点时间达到了10.2分钟，列车晚点极大地影响了行车组织和车站运营工作的效率，给高速铁路运输服务质量提升和安全运营带来更多挑战。例如在2021年4月5日，因广珠城际铁路下行区间出现红光带，导致区间行车中断，发生初始晚点，且受清明返程大客流的影响，列车开行对数增加，造成广州南站的股道占用紧张且咽喉能力趋于饱和，初始晚点不断传播扩散，最终使得武广、沪昆和南广等多条高速铁路受到影响，列车在长沙南、南昌以及南宁等车站发生不同程度的晚点，直至4月6日上午各车站才恢复正常行车秩序。

学者们对列车晚点预测问题进行了大量研究，一些预测方法被广泛应用，然而，既有的一些晚点预测方法存在以下缺点：1.DNN用来预测列车延误，神经网络的训练花费了大量的时间，预测精度较低。2.支持向量机模型，该模型的预测精度优于人工神经网络模型，可以较好的解决DNN模型的过度学习问题，但它只适用于较小的聚类样本。3.基于贝叶斯网络的列车延误预测方法，计算量大且耗时。4.深度极值学习机，很好地解决了预测问题的大数据特性。但是，实现这种方法需要使用复杂和先进的存储技术和设备。

此外，既有研究主要针对单条铁路线的列车晚点预测问题进行研究，针对跨线列车的晚点预测还未得到充分的研究，并且由于跨线列车发生晚点后影响的范围更广、列车运行冲突程度较为严重，使得列车晚点受各种因素的影响更显著、晚点传播机理更复杂，因此更有必要针对跨线列车的多站晚点预测问题进行研究。

发明内容

本发明的实施例提供了一种跨线列车多站到达晚点预测的方法及装置，用于解决现有技术中存在的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种跨线列车多站到达晚点预测的方法，包括：

S1获取并处理跨线列车实绩运行数据、外界天气数据和车站配线数据；

S2基于处理后的跨线列车实绩运行数据中的受影响列车数量和总晚点时间，通过极大似然方法进行分布拟合，还通过K-S方法选取最优的分布拟合的函数，获得跨线列车的影响范围和程度；

S3基于跨线列车的影响范围和程度，提取列车晚点影响因素；

S4通过对神经网络模型进行提升深度处理，获得列车晚点预测模型，并通过处理后的处理跨线列车实绩运行数据、外界天气数据和车站配线数据，训练该列车晚点预测模型；

S5基于训练后的列车晚点预测模型，输出预测的列车晚点时间和相应的评价指标。

优选地，步骤S1中：跨线列车实绩运行数据包括跨线车辆在车站的到达出发时间和到发股道编号；外界天气数据包括沿途各车站的历史小时粒度的降雨量、风速风向、晴雨雪；车站配线数据包含车站的股道和道岔的位置及方向、车站里程；

步骤S1具体包括：

S11将跨线列车实绩运行数据、外界天气数据和车站配线数据分别按时间序列进行排列；

S12通过每组时间序列的均值、中位数和相邻数的任意一种分别代替每组时间序列的空值和异常值；

S13基于执行了步骤S12的时间序列建立数据集；

S14通过3σ准则对数据集中的每个变量进行数据清洗，删除纠正异常数据；

S15通过高速铁路列车运行间的相互约束关系，删除或纠正数据集中不合理或相互矛盾的数据；

S16将数据集中的外界天气数据和车站配线数据进行数值化表示。

优选地，步骤S3具体包括：

根据当前列车运行特征、当前列车趋势特征、前行和后行列车特征、外界天气特征、跨线列车作业特征和基础设施特征，通过LSTM对当前列车趋势特征进行压缩处理，通过列车的运行顺序和逻辑约束对前列车运行特征、前行和后行列车特征、外界天气特征、跨线列车作业特征和基础设施特征进行处理，提取列车晚点影响因素。

优选地，步骤S4具体包括：

S41通过叠加多个浅层神经网络替换单个深度神经网络，并降低原始DNN中的隐藏层数量，获得式

式中，

和

分别代表原始DNN和IDNN对输入特征x_m的晚点时间预测值，E表示IDNN晚点预测模型，f_k和α_k分别表示第k个浅层神经网络及其相应的权重系数；

S42将原始DNN中第k(k＜K)个浅层神经网络的输出与第1个浅层神经网络的输入进行拼接，作为第k+1个浅层神经网络的输入数据，获得式

式中，f_t和α_t分别表示第t个浅层神经网络及其相应的权重系数，

表示第t个浅层神经网络的输入数据；

S43在原始DNN反向传播对神经元参数W和b进行更新修正时，通过式

对原始DNN的损失函数进行泰勒展开操作，完成列车晚点预测模型的构建；式中，g_m和h_m分别表示损失函数

展开后一阶导数和二阶导数；

S44通过式

对数据集进行Z-score标准化，按7:3划分训练集和数据集；式中，χ和

分别表示需要原始特征及其均值；σ表示该类特征的标准差；χ_b表示经过标准化后的特征；

S45将训练集输入到列车晚点预测模型，进行第k(k≤K)个浅层神经网络第e(e≤E)次的训练，初始值k＝1，e＝1；

S46通过式

计算前k个神经网络的损失函数和预测结果，通过式

和

更新前k个神经网络的权重系数[W₁,W₂,…,W_k]和偏置系数[b₁,b₂,…,b_k]；式中，lr表示IDNN模型的学习率；

S47令e＝e+1，并判断迭代次数e是否到达每层的最大迭代次数E，若到达则执行步骤S48，反之转步骤S46；

S48令k＝k+1，并判断神经网络个数k是否到达设置的最大神经网络个数K，若到达则选取K个神经网络中取得预测效果最优的神经网络，反之转步骤S46。

优选地，步骤S5具体包括：

S51将包含F个特征的原始特征集

输入集成学习预测模型，F₀＝[1,2,...,F]，获得晚点预测值并计算预测结果的误差RMSE₀；

S52将删除了第f(f∈[1,F])个特征的特征集

输入训练后的列车晚点预测模型，获得第二列车晚点预测值并计算第二列车晚点预测值的误差RMSE_f；

S53多次执行步骤S52获得RMSE_f-1；

S54若RMSE_f大于RMSE_f-1，则令F_f+1＝F_f\[f]；否则令F_f+1＝F_f，并返回执行步骤S52；

S55输出最小均方根误差的列车晚点预测值和相对应的特征子集F_min＝F_ind,ind＝index(min(RMSE_f,f＝0,1,2,...,F)) (8)。

优选地，步骤S5还包括：

将数据集

按车站划分为D₁,D₂,...D_N，输入到训练后的列车晚点预测模型，并通过式

计算获得车站D₂的列车晚点预测值；式中：G_input表示输入预测模型的特征数据；

表示到达晚点时间的预测值；ES表示特征选择与IDNN融合的预测模型；

将数据集中车站s+1,(1＜s≤j)的特征X₂更新为车站s到达晚点时间的预测值，使用车站s的列车晚点预测值更新到达时段、列车开行对数和趋势特征，删除不符合多站预测的特征，获得式

式中，

表示车站n特征集中的样本数据；

表示使用车站n-1的特征集

得到的n站到达晚点预测值；update表示使用晚点预测值对

进行更新；

表示更新结果；

将式

输入到针对车站n+1的到达晚点预测过程中，多次通过式(1)进行多个车站的列车晚点预测。

第二方面，本发明提供一种跨线列车多站到达晚点预测的装置，包括：

数据处理单元，获取并处理跨线列车实绩运行数据、外界天气数据和车站配线数据；

数据分析单元，用于：基于处理后的跨线列车实绩运行数据中的受影响列车数量和总晚点时间，通过极大似然方法进行分布拟合，还通过K-S方法选取最优的分布拟合的函数，获得跨线列车的影响范围和程度；基于跨线列车的影响范围和程度，提取列车晚点影响因素；

模型构建及训练单元，用于：通过对神经网络模型进行提升深度处理，获得列车晚点预测模型；并通过处理后的处理跨线列车实绩运行数据、外界天气数据和车站配线数据，输入到列车晚点预测模型进行学习，通过比较预测晚点时间与实际晚点时间的RMSE，识别出影响跨线列车晚点的关键因素，确定模型最优参数修改模型，得到训练后的晚点预测模型；

模型测试及输出单元，用于测试训练后的列车晚点预测模型，并将预测得到的晚点时间和各项评价指标输出。

由上述本发明的实施例提供的技术方案可以看出，本发明提供的一种跨线列车多站到达晚点预测的方法及装置，该方法由相应的应用架构、流程、计算模型组成。首先获取并处理跨线列车实绩运行数据、外界天气数据和车站配线数据，使用均值或中位数或相邻数值代替空值、异常值以及3σ准则对数据进行处理和清洗；使用69种常见的分布拟合函数对跨线列车的影响列车数量和总晚点时间进行分布拟合，确定跨线列车晚点的影响范围和程度；从6个方面对晚点影响因素进行提取，提取处理的过程基于LSTM、列车的运行顺序和逻辑约束处理因素变量；对传统的DNN模型进行改进，降低深层网络的计算复杂度并避免出现过拟合的现象；最后采用Embedded的方法、使用IDNN模型进行训练，得到影响因素识别和晚点预测的结果。本发明提出的机器学习方法比既有的晚点预测模型预测精度更高、鲁棒性更强、计算速度更快，能够为晚点情况下列车能力评估及列车调整提供更多的数据和决策支持。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种跨线列车多站到达晚点预测的方法的处理流程图；

图2为本发明提供的一种跨线列车多站到达晚点预测的方法的一种优选实施例的流程图；

图3为本发明提供的一种跨线列车多站到达晚点预测的方法的一种优选实施例中车站配线图；

图4为本发明提供的一种跨线列车多站到达晚点预测的方法的一种优选实施例中的问题示意图；

图5为本发明提供的一种跨线列车多站到达晚点预测的方法的一种优选实施例中广深港-武广数据集多站晚点预测MAE对比图；

图6为本发明提供的一种跨线列车多站到达晚点预测的方法的一种优选实施例中沪昆-武广数据集多站晚点预测MAE对比图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

参见图1，本发明提供的一种跨线列车多站到达晚点预测的方法，包括：

进一步的，在本发明提供的优选实施例中，步骤S1中：所述跨线列车实绩运行数据包括跨线车辆在车站的到达出发时间和到发股道编号；外界天气数据包括沿途各车站的历史小时粒度的降雨量、风速风向、晴雨雪；车站配线数据包含车站的股道和道岔的位置及方向、车站里程；

步骤S1具体包括：

S11将所述跨线列车实绩运行数据、外界天气数据和车站配线数据分别按时间序列进行排列；

S13基于执行了步骤S12的时间序列建立数据集；

S16将数据集中的所述外界天气数据和车站配线数据进行数值化表示。

在本发明提供的优选实施例中，步骤S2中：

为了拟合出跨线列车晚点影响范围和程度特征理想的概率分布函数，需要选择多种分布模型作为备选函数，最终选取了alpha、anglit、arcsine、beta、betaprime、bradford等共69种函数，使用极大似然估计法(Maximum Likelihood Estimate)对每种函数的参数进行估计。

以伯尔分布为例，其似然估计法求参过程如下：

设X＝(x₁,x₂,...,x_n)是来自伯尔分布的n个样本，其对数似然函数ln(L)为：

ln(L)一阶偏导求得对数似然方程：

在给定样本下，使似然函数值最大，上式的解即为所求参数的估计值。

K-S拟合优度检验(Kolmogorov-Smirnov Test)是一种非参数检验方法。设随机变量X的实际累积分布函数为F_X(X)，F₀(X)表示待检验分布的理论分布函数。根据假设检验有：

原假设：F_X(X)与F₀(X)没有显著差异，记为H₀；

备择假设：F_X(X)与F₀(X)存在显著差异，记为H₁。

K-S统计量D是指F₀(X)与F_X(X)之差的绝对值的最大值，定义为：

D＝max|F_X(X)-F₀(X)|

本实施例选取检验显著性水平为0.05。在该显著性水平下，样本容量n超过35时，K-S检验容许的分布误差D_α＝0.05计算方式如下：

根据K-S检验准则，若D小于等级临界值D_α＝0.05，则接受原假设H₀，且D值越小，则表明理论分布对实际数据拟合更准确，拟合优度更高。

此外，比较p值与显著性水平α的大小关系，也是作为判断理论分布函数对样本数据的拟合效果的依据。若p值<0.05，则表明F_X(X)和F₀(X)偏离程度太大，拒绝原假设H₀；反之，接受原假设H₀。

使用极大似然估计69种常见的分布拟合函数的参数，之后采用K-S检验对拟合效果进行评价，以最小化K-S检验的D值为目标选取最优的分布拟合函数，对跨线列车的影响列车数量和总晚点时间进行分布拟合，最终依据拟合函数得到跨线列车的影响范围和程度。

步骤S3具体包括：

列车运行特征：

T_i在车站S_n的编码；

T_i在车站S_n的到达晚点时间，单位：分钟(min)；

T_i在车站S_n的到达时段；

T_i在车站S_n的实际停站时间；

T_i在车站S_n的停站时间差，数值上等于列车在该站实际停站时间与图定停站时间之差，单位：分钟(min)；

T_i在下一个区间(S_n,S_n+1)的区间冗余时间；

T_i在下一个区间(S_n,S_n+1)的图定区间运行时间；

T_i在下一个车站S_n+1的历史时段平均到达晚点时间，单位：分钟(min)；

T_i在车站S_n的旅程完成度，数值上等于列车已经过车站数与计划经过车站数之商；

T_i运行当天是否节假日，是取1，反之取0；

列车T_i到达时段内的经过车站S_n的上行方向列车数，单位：列。

当前列车趋势特征：

列车T_i在后方站S_q,q∈[1,n]的到达晚点时间序列；

列车T_i在后方站S_q,q∈[1,n]的停站时间差(即实际和图定停站时间之差)序列；

列车T_i在后方站S_q,q∈[1,n]的区间运行时间差(即实际和图定区间运行时间之差)序列，单位：分钟(min)。

前行和后行列车特征：

前行列车T_i-1的等级，若前行列车为高速列车(G)则取1，为动车组列车(D)取0，当不存在前行列车时则取-1；

前行列车T_i-1在当前站S_n的到达晚点时间，单位为：分钟(min)；

前行列车T_i-1与列车T_i在当前车站S_n的实际到达时刻之差，单位为：分钟(min)；

后行列车T_i+1的等级，若不存在后行列车则取-1；

后行列车T_i+1在当前车站S_n的图定到达时刻与T_i在当前车站S_n的实际到达时刻之差，单位为：分钟(min)；

T_i的等级。

外界天气特征：考虑到外界环境和恶劣天气会对列车的晚点产生影响，将其数值化如下。

T_i到达车站S_n所在时段的外界大气压，单位：千帕(kPa)；

T_i到达车站S_n所在时段的平均降雨量，单位：毫米/小时(mm/h)；

T_i到达车站S_n所在时段的风向，数值取与正北方向顺时针的角度，例东南风向则数值化为135；

T_i到达车站S_n所在时段的风力等级，微风取0，其它等级直接取数值；

T_i到达车站S_n所在时段的外界温度，单位：摄氏度(℃)；

T_i到达车站S_n所在时段的大气湿度；

T_i到达车站S_n所在时段的风速，单位：米/秒(m/s)；

T_i到达车站S_n所在时段的气象。

跨线列车作业特征：

跨线列车T_i在车站S_n+1的车站冗余时间；

跨线列车T_i在车站S_n+1与跨线站的车站里程之比；

跨线列车T_i在车站S_n+1与其它列车的进路冲突数量；

车站S_n+1所属线路的属性，在数值上等于跨线列车所经线路的车站数量、线路长度以及运营速度三个指标归一化的总和。

基础设施特征：

下一站S_n+1的股道数，单位：条；

当前车站S_n至下一车站S_n+1的区间长度，单位：千米(km)；

下一站S_n+1的站台数，单位：个。

在本发明提供的优选实施例中，预测模型是在深度神经网络的基础上进行的改进，一个简易的深度神经网络(Deep Neural Networks,DNN)，模型由输入层、隐藏层和输出层三部分组成，通过每层的神经元将输入特征

和预测目标

进行连接，不同神经网络层之间的神经元是全连接的，对每个神经元进行一系列的线性运算和激活运算最终可以得到目标预测值

计算公式如下

式中：σ表示神经元的激活函数，由于晚点预测是回归问题故选用了ReLU作为激活函数；W^T和b分别表示所有隐藏层神经元的权重系数矩阵和偏置系数矩阵。

DNN模型的主要计算过程如下：过程1：前向传播过程，L表示神经网络中输入层、隐藏层和输出层的总和初始化l＝2，按照计算公式a^[l]＝W^la^[l-1]+b^l逐层的向后计算，最后运算到输出层即l＝L，得到输出层结果a^[L]以及每个神经元之间权重和偏置系数，其中第l个隐藏层、第j个神经元输出结果的计算过程如式

所示。前向传播是通过对所有神经元W和b的组合计算，对目标值进行预测的过程。

a^[l]＝W^la^[l-1]+b^l

式中：W^l表示第l-1层至l层的权重矩阵；a^[l-1]表示第l-1层的神经元输出；b^l表示第l层的偏置矩阵。

式中：

表示第l个隐藏层、第j个神经元的输出；

表示第l-1层、第o个神经元对于第l层、第j个神经元的权重系数，其中输入层无偏置系数；

表示第l个隐藏层、第j个神经元的偏置系数；σ表示激活函数。

过程2：反向传播过程，在前向传播的基础上按公式

和

计算损失函数，依据梯度下降算法从第L-1层逐步至第2层进行预测误差和权重系数W之间梯度的计算，最后按公式

和

对权重系数和偏置系数的更新。

式中：loss表示每个样本的损失函数；Object为所有样本的损失函数之和；

表示第i列车在n+1站到达晚点时间的预测值；

表示第i列车在n+1站到达晚点时间的预测值；W_new和W分别表示更新前后的权重系数；b和b_new分别表示更新前后的偏置系数；lr表示模型的学习率。

过程3：循环迭代训练过程，初始化a^[1]等于输入特征

首先对训练集每个样本前向传播计算得到输出层结果，通过计算输出层损失函数并反向传播计算梯度，依次更新模型的权重系数和偏置系数，若迭代次数已满或如果所有W和b的变化值都小于迭代阈值，完成模型训练过程。

步骤S4具体包括：

S41：将原始DNN中的隐藏层个数降低，通过叠加多个浅层神经网络替换单个深度神经网络，其中浅层指的是更少的隐藏层，目的是降低深层网络的计算复杂度并避免出现过拟合的现象，计算公式由

改为

式中，

和

分别代表原始DNN和IDNN对输入特征x_m的晚点时间预测值；E表示IDNN晚点预测模型；f_k和α_k分别表示第阶浅层神经网络及其相应的权重系数。

S42：将第k(k＜K)个浅层神经网络的输出与第1个浅层神经网络的输入(即模型最初输入的特征

)进行拼接，作为第k+1个浅层神经网络的输入数据，公式为

这样做的目的在于修正隐藏层数减少所带来的弊端；

式中，f_t和α_t分别表示第t个浅层神经网络及其相应的权重系数；

表示第t个浅层神经网络的输入数据。

S43在模型反向传播对参数W和b进行更新修正时，对损失函数进行泰勒展开

以节省模型的训练时间。式中，h_m和g_m分别表示损失函数

展开后一阶导数和二阶导数。

IDNN模型的输入数据

为一个含有M个样本和F维度的数据集，其中x_m与y_m分别代表第m个晚点样本的输入特征和目标值。DNN和IDNN的预测结果可表示为下两式，两者的主要差别在于前者是一个深层神经网络，而后者是K个浅层神经网络的叠加。

式中：

和

分别代表原始DNN和IDNN对晚点样本输入特征x_m的预测值；α_k代表第k层神经网络在整个多层神经网络的权重；f_k(x_m)代表第k个浅层神经网络的输出；f(x_m)表示一个深度神经网络；f_K代表K个神经网络的计算空间。

IDNN在DNN模型的基础上进行修改，将第t-1个神经网络与第t个神经网络进行连接，将第t-1个神经网络隐藏层的计算结果作为第t个神经网络的输入。对公式

和

进行修改，第t个神经网络的损失函数可表示为式

和

此外，为了缩短计算时间，对公式

中的损失函数进行泰勒展开，第t层损失函数可以简化为式

所示。。

式中：

和

分别表示样本x_m在第t和t-1个神经网络的输出，

表示第t-1个神经网络隐藏层的输出与原始的输入特征x_m拼接所形成的新特征，g_m和h_m分别表示损失函数展开后一阶导数和二阶导数。

将基于IDNN模型的跨线列车到达晚点预测的整体流程归纳如下：

S44：对数据集进行Z-score标准化以消除不同特征之间量纲的差异，进一步按7：3划分训练集和测试集；

式中：χ和

分别表示需要原始特征及其均值；σ表示该类特征的标准差；χ_b表示经过标准化后的特征，脚标b用于对χ和

两个变量进行区分，没有特别含义。

S45：开始第k(k≤K)个浅层神经网络第e(e≤E)次的训练，初始k＝1，e＝1；按照公式

前向传播计算模型输出，按照公式

(5)计算第k个网络的损失函数，反向传播计算第k个神经网络每层的梯度，并按公式

和

更新权重W_k和偏置b_k。式中，lr表示IDNN模型的学习率；

为偏导数的数学符号。

S46：修正步骤，按照公式

f_k∈f_K计算前阶神经网络的损失函数和预测结果，计算前k个神经网络的损失函数，并按照公式

和

对前k个神经网络的权重系数[W₁，W₂，...，W_k]和偏置系数[b₁，b₂，...，b_k]进行更新。

S47：令e＝e+1，并判断迭代次数e是否到达每层的最大迭代次数E，若到达则转步骤6，反之转步骤S46。

S48：令k＝k+1，并判断神经网络个数k是否到达设置的最大神经网络个数K，若到达则选取K个神经网络中取得预测效果最优的神经网络并保存模型，反之转步骤S45。

更进一步的，步骤S5包括：

首先，采用Embedded的特征选择策略实现晚点影响因素的识别，Embedded是在机器学习模型训练过程中通过计算各输入特征的权重系数来实现重要特征选择的方法，主要步骤如下：

S51将包含F个特征的原始特征集

输入集成学习预测模型，F₀＝[1，2，...，F]，得到晚点预测值并计算预测结果的误差RMSE₀；

S52将删除了第f(f∈[1，F])个特征的特征集

S53多次执行步骤S52获得RMSE_f-1；

S55输出最小均方根误差的列车晚点预测值和相对应的特征子集F_min＝F_ind，ind＝index(min(RMSE_f，f＝0，1，2，...，F)) (8)。

为了实现跨线列车的多站到达晚点预测，在晚点影响程度确定，IDNN模型构建、Embedded晚点影响因素识别的基础上，需要进行以下步骤

(1)：首先需要将S2得到的受到跨线列车晚点影响的数据集

按车站划分为D₁，D₂，...D_N，当第1个车站的数据输入IDNN+Embedded模块时，其输入的晚点特征都为特征集的真实值，按公式计算得出第2个车站的预测值；

式中：G_input表示输入预测模型的特征数据；

表示到达晚点时间的预测值；ES表示特征选择与集成学习融合的预测模型。

(2)：在进行车站s+1，(1＜s≤j)到达晚点时间的预测时，需要对车站s的特征集进行如下更新：特征X₂更新为车站s到达晚点时间的预测值，使用车站s的晚点预测值更新到达时段、列车开行对数以及趋势特征等因素，并删除X₄(实际停站时间)、X₅(停站时间差)、X₁₆(前行列车到达晚点)和X₁₇(前行列车到达间隔)等不符合多站预测的特征，特征集的更新如式

所示。

式中：

表示车站n特征集中的样本数据；

表示使用车站n-1的特征集

得到的n站到达晚点预测值；update表示使用晚点预测值对

进行更新；

表示更新结果。

(3)：将更新后的特征集输入至车站n+1的到达晚点预测过程中，最终按照(1)的公式循环实现多站晚点预测。

选取了K-近邻算法(K-Nearest Neighbor,KNN)、逻辑斯蒂回归(LogisticsRegression,LR)、深度神经网络(DNN)、梯度提升树(GBDT)、随机森林(RF)和极端梯度提升树(XGBoost)共六种模型作为IDNN模型的基线模型，模型超参数设置如下DNN：隐藏层个数[5,10,15]；GBDT：基学习器个数[64,128,256]；RF：基学习器个数[64,128,256]；XGBoost：基学习器个数[64,128,256]；IDNN：初始权重大小[0.25,0.5,1]；学习率[0.1,0.01,0.001]；训练选取样本数[64,128,256]；隐藏层神经元个数[0.3F,0.5F,1F]；隐藏层个数[1,2,3]。预测结果评价指标如下：

式中：y_m和

分别表示数据集中第m个样本下一站到达晚点的真实时间和预测时间；

表示数据集中真实到达晚点时间的平均值；

表示数据中第m个样本预测晚点时间与真实晚点时间之间差值是否小于c分钟，小于则取1，反之取0。

本发明还提供一个实施例，用于示例性地显示应用本发明提供的方法进行晚点预测的过程和结果。如图2所示，步骤如下：

S1：获取并处理跨线列车实绩运行数据、外界天气数据和车站配线数据

S11：所述跨线列车实绩运行数据包括跨线车辆在车站的到达出发时间和到发股道编号等信息；外界天气数据包括沿途各车站的历史小时粒度的降雨量、风速风向、晴雨雪等信息；车站配线数据包含车站的股道和道岔的位置及方向、车站里程等信息。

S12：对上述高速铁路列车运行相关的数据进行清洗；所述数据清洗包括，按时间序列排列，使用采用该序列的均值或中位数或相邻数值代替空值、异常值；使用3σ准则对数据集中的每个变量进行数据清洗，删除纠正异常数据；通过高速铁路列车运行间的相互约束关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正；将获取的天气数据和车站配线数据进行数值化表示。

表1列车实绩运行数据表

表2外界天气数据表

S2：确定跨线列车晚点的影响范围和影响程度

以伯尔分布为例，其似然估计法求参过程如下：

ln(L)一阶偏导求得对数似然方程：

原假设：F_X(X)与F₀(X)没有显著差异，记为H0；

备择假设：F_X(X)与F₀(X)存在显著差异，记为H1。

D＝max|F_X(X)-F₀(X)|

根据K-S检验准则，若D小于等级临界值D_α＝0.05，则接受原假设H0，且D值越小，则表明理论分布对实际数据拟合更准确，拟合优度更高。

此外，比较p值与显著性水平α的大小关系，也是作为判断理论分布函数对样本数据的拟合效果的依据。若p值<0.05，则表明F_X(X)和F₀(X)偏离程度太大，拒绝原假设H0；反之，接受原假设H0。

表3分布拟合结果表

S3：跨线列车晚点影响因素提取

从当前列车运行特征、当前列车趋势特征、前行和后行列车特征、外界天气特征、跨线列车作业特征和基础设施特征共6个方面，对S2得到的跨线列车晚点影响列车的数据进行晚点影响因素提取，提取处理的过程使用了LSTM对列车趋势特征进行压缩，基于列车的运行顺序和逻辑约束计算其余5类特征。

表3跨线列车晚点影响因素表

S4：提升深度神经网络模型构建

改为

)进行拼接，作为第k+1个浅层神经网络的输入数据，公式为

这样做的目的在于修正隐藏层数减少所带来的弊端；

S5：晚点影响因素识别和晚点时间预测

使用广深港—武广和沪昆—武广两个跨线列车数据集对DNN、GBDT、RF、XGBoost、LR、KNN和IDNN模型的整体预测效果进行对比，各模型的预测结果如表4。由表可知，表中下划线加粗的数据在该个数据集下该评价指标的最优值。通过对比多种评价指标可以看出，除KNN和LR外其余的模型均展现出良好的预测效果，所提出的IDNN模型在两个数据集上的各项评价指标均为最优，其中所提模型在四类场景下取得了最高的R2，分别为0.989、0.982、0.993和0.988，这表明所提出的IDNN模型可以很好地拟合晚点影响因素和列车到达晚点之间的关系。对于MAE和RMSE两个误差指标，所提模型均取得了最低的误差值，其中相较于6种基线模型MAE的均值，IDNN模型在四个数据集上的MAE分别降低了38.91％、44.53％、58.01％和45.15％。这表明IDNN模型能更好地拟合跨线列车晚点影响因素与到达晚点时间的复杂关系，更适用于解决跨线列车的多站到达晚点预测问题。

表4跨线列车晚点影响因素表

综上所述，本发明提供的一种跨线列车多站到达晚点预测的方法及装置，该方法由相应的应用架构、流程、计算模型组成。首先获取并处理跨线列车实绩运行数据、外界天气数据和车站配线数据，使用均值或中位数或相邻数值代替空值、异常值以及3σ准则对数据进行处理和清洗；使用69种常见的分布拟合函数对跨线列车的影响列车数量和总晚点时间进行分布拟合，确定跨线列车晚点的影响范围和程度；从6个方面对晚点影响因素进行提取，提取处理的过程基于LSTM、列车的运行顺序和逻辑约束处理因素变量；对传统的DNN模型进行改进，降低深层网络的计算复杂度并避免出现过拟合的现象；最后采用Embedded的方法、使用IDNN模型进行训练，得到影响因素识别和晚点预测的结果。本发明提出的机器学习方法比既有的晚点预测模型预测精度更高、鲁棒性更强、计算速度更快，能够为晚点情况下列车能力评估及列车调整提供更多的数据和决策支持。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。