CN109635246B

CN109635246B - 一种基于深度学习的多属性数据建模方法

Info

Publication number: CN109635246B
Application number: CN201811488860.9A
Authority: CN
Inventors: 文超; 黄平; 李忠灿; 汤轶雄; 蒋朝哲
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2021-07-13
Anticipated expiration: 2038-12-06
Also published as: CN109635246A

Abstract

本发明涉及交通运输技术领域，其目的在于提供一种基于深度学习的多属性数据建模方法。本发明包括以下步骤：S1：根据当前高速铁路区段的历史运营数据，提取列车晚点的影响因素及列车晚点观测值；S2：判断影响因素的属性；S3：将不同属性的影响因素分别输入Conv‑LSTM模型、LSTM模型和FCNN模型；S4：基于交叉验证分别优化上述各模型的神经元层数及各层神经元数，分别筛选出上述各模型中最小损失函数值的神经元层数及各层神经元数；S5：选定最终的多属性数据模型。本发明建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系，实现对交通工具产生的多属性数据的建模。

Description

一种基于深度学习的多属性数据建模方法

技术领域

本发明涉及交通运输技术领域，特别是涉及一种基于深度学习的多属性数据建模方法。

背景技术

高速铁路具有安全性好、送达速度快、正点率高、输送能力大、能耗低等一系列优点，高速铁路的发展极大地缓解了运输能力紧张，提升了我国路网的规模与质量，为国民经济的持续快速发展起到了重要支撑作用。

然而，由于高速铁路运行环境复杂，高速列车在运行过程中，不可避免地会受到外界环境、内部系统机械故障以及组织管理的影响，导致列车的实际到达时间(实际出发时间)与计划到达时间(计划出发时间)有偏差，造成列车晚点。当列车晚点是由于自身车辆、设备故障突发事自然环境等因素引起的，被称为初始晚点；而当晚点是由于初始晚点的列车的晚点影响造成的，则称其为连带晚点或二次晚点。严重的晚点可能会在线路、局部网大面积传播，影响列车运行计划的正常执行，降低运输服务质量。

移动设备(如高速铁路等交通工具)产生的数据具有多属性特性，包括时空数据、时间序列数据以及静态数据等。常用人工智能算法如前馈神经网络、支持向量机、决策树、贝叶斯网络等均无“时间”以及“空间”概念，利用这些模型建模多属性数据时，均不能有效识别时空数据中的时空依赖性以及时间序列数据中的时间关系。如列车运行产生数据中，列车在各车站的晚点状态为时空关系数据(列车在不同的时刻和不同的地点晚点状态不同，且列车将来状态与过去状态存在关联性)；运行图参数为时间序列数据格式(列车在各站的图定到发时刻与空间位置无关系)；基础设施参数为静态数据(车站股道数等与时间以及空间位置均无依赖关系)。上述提及人工智能算法在处理该问题时将所有数据都视作为静态数据，模型不能有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系。

因此，有必要研究一种能够解决上述问题且能够对交通工具产生的多属性复杂数据进行建模的方法。

发明内容

为了解决现有技术存在的上述问题，本发明提供了一种基于深度学习的多属性数据建模方法。

本发明采用的技术方案是：

一种基于深度学习的多属性数据建模方法，包括以下步骤：

S1：根据当前高速铁路区段的历史运营数据，提取列车晚点的影响因素X_k,k∈{1,2,…,K}及列车晚点观测值，其中K为提取晚点因素个数；

S2：判断影响因素X_k的属性，其中影响因素X_k的属性包括时空特性数据、时间序列数据和静态数据；

S3：根据影响因素X_k的属性的不同，将时空特性数据输入卷积长短期记忆(Conv-LSTM)模型，将时间序列数据输入长短期记忆(LSTM)模型，将静态数据输入全连接神经网络(FCNN)模型；

S4：基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数，筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m₁及各层神经元数n₁、LSTM模型中具有最小损失函数值的神经元层数m₂及各层神经元数n₂、和FCNN模型中具有最小损失函数值的神经元层数m₃及各层神经元数n₃；

S5：选定神经元层数为m₁层且每层为n₁个神经元的Conv-LSTM模型、神经元层数为m₂层且每层为n₂个神经元的LSTM模型、和神经元层数为m₃层且每层为n₃个神经元的FCNN模型为最终的多属性数据模型。

优选的，在步骤S1中，影响因素X_k包括设备因素、计划运行图相关因素和实际运行图相关因素，所述设备因素包括车站股道数X₁和区间长度X₂，所述计划运行图相关因素包括区间计划运行时间X₃、当前站计划出发间隔时间X₄和预测站计划到达间隔时间X₅，所述实际运行图相关因素包括列车已知晚点状态X₆。

优选的，在步骤S2中，影响因素X_k的属性判断标准如下：车站股道数X₁和区间长度X₂为静态数据，区间计划运行时间X₃、当前站计划出发间隔时间X₄和预测站计划到达间隔时间X₅为时间序列数据，列车已知晚点状态X₆为时空特性数据。

优选的，步骤S4的具体步骤如下：

S401：利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合，融合得到一个多维向量；

S402：将融合得到的多维向量传入单FCNN神经元，由单FCNN神经元输出得到模型拟合值

并得到最终融合模型；

S403：根据模型拟合值

及列车晚点观测值y_i确定融合模型的损失函数；

S404：将时空特性数据、时间序列数据和静态数据作为数据集，然后将数据集分为训练集及测试集对融合模型进行训练，分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。

优选的，在步骤S403中，选用模型拟合值

与观测值y_i的均方误差作为损失函数：

其中，y_i为列车晚点观测值，

为模型拟合值，N为样本量；然后利用误差反向传播算法对融合模型进行训练。

优选的，在步骤S404中，将当前高速铁路区段中到达车站的时间排序为前70％的列车的数据集作为训练集，将当前高速铁路区段中到达车站的时间排序为后30％的列车的数据集作为测试集。

优选的，所述的一种基于深度学习的多属性数据建模方法还包括以下步骤：

S6：对最终的多属性数据模型进行评估。

优选的，步骤S6的具体步骤如下：

S601：将人工神经网络(ANN)模型、支持向量回归(SVR)模型、马尔科夫模型(MM)及LSTM模型与FCNN模型的组合模型(LF-Net模型)作为多属性数据模型的对比模型；

S602：同时选用平均绝对误差(MAE)、均方根误差(RMSE)以及平均百分误差(MAPE)作为多属性数据模型和对比模型的评估指标，其中平均绝对误差(MAE)为：

均方根误差(RMSE)为：

平均百分误差(MAPE)为：

其中，y_i为列车晚点观测值，

为模型拟合值，N为样本量。

与现有技术相比，本发明的有益效果为：利用待处理高速铁路区段的历史运营数据，将历史数据进行属性判断后，通过采用Conv-LSTM模型、LSTM模型和FCNN模型三种模型进行建模，使得最终建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系，实现对交通工具产生的多属性数据的建模。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种基于深度学习的多属性数据建模方法的流程示意图；

图2是本发明中作为举例选用的高速铁路线路图；

图3是各模型对武广线预测的均方根误差(RMSE)对比图；

图4是各模型对武广线预测的平均绝对误差(MAE)对比图；

图5是各模型对武广线预测的平均百分误差(MAPE)对比图；

图6是各模型对厦深线预测的均方根误差(RMSE)对比图；

图7是各模型对厦深线预测的平均绝对误差(MAE)对比图；

图8是各模型对厦深线预测的平均百分误差(MAPE)对比图；

图9是CNN模型的工作原理图；

图10是LSTM模型的结构示意图；

图11是时间序列数据输入LSTM转换示意图；

图12是Conv-LSTM输入数据格式转换图。

具体实施方式

以下将参照附图，通过实施例方式详细地描述本发明提供的一种基于深度学习的多属性数据建模方法。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

本实施例提供一种基于深度学习的多属性数据建模方法，如图1所示，包括以下步骤：

S1：根据当前高速铁路区段的历史运营数据，提取列车晚点的影响因素X_k,k∈{1,2,…,K}及列车晚点观测值，其中K为提取晚点因素个数。应当理解的是，在步骤S1前，需基于站点确定一高速铁路区段为研究对象，列车晚点的影响因素X_k的提取需根据高速铁路的晚点情况进行确定。

作为举例，本文所用的列车运行实绩数据来源于中国铁路广州局集团有限公司(以下简称广铁集团)所管辖的武广及厦深高速铁路，其线路图如图2所示。其中武广高速铁路全长1069km，共设18个车站，设计时速350km/h，运营速度310km/h；厦深高速铁路全长514km，共设18个车站，设计时速250km/h，运营速度200km/h。所有列车运行实绩数据均从广铁集团高铁调度中心列车监督系统获得，该系统记录了每天各次列车的车次、到发通过车站、每次列车在每个车站的图定与实际到发通过时刻、最高列车运行速度、平均行车速度等。本文使用的历史运营数据包括武广高速铁路广州南站至衡阳东共9个车站、8个区间以及厦深高速铁路惠东-潮汕站共9个车站，8个区间，从2015年3月到2016年11月的列车运行记录。该时段内，武广高速铁路广州南-衡阳东开行列车57796列，厦深高速惠东-潮汕区段铁路开行列车41186列。

在步骤S1中，影响因素X_k包括但不限制于为设备因素、计划运行图相关因素和实际运行图相关因素，其中所述设备因素包括但不限于为车站股道数X₁和区间长度X₂，所述计划运行图相关因素包括但不限于为区间计划运行时间X₃、当前站计划出发间隔时间X₄和预测站计划到达间隔时间X₅，所述实际运行图相关因素包括但不限于为列车已知晚点状态X₆。

S2：判断影响因素X_k的属性，其中影响因素X_k的属性包括时空特性数据、时间序列数据和静态数据。

在步骤S2中，影响因素X_k的属性判断标准如下：车站股道数X₁和区间长度X₂为静态数据，区间计划运行时间X₃、当前站计划出发间隔时间X₄和预测站计划到达间隔时间X₅为时间序列数据，列车已知晚点状态X₆为时空特性数据。

S3：根据影响因素X_k的属性的不同，将时空特性数据输入卷积长短期记忆(Convolutional Long Short-term Memory,Conv-LSTM)模型，将时间序列数据输入长短期记忆(Long Short-term Memory,LSTM)模型，将静态数据输入全连接神经网络(Fully-connected Neural Network,FCNN)模型。

应当理解的是，Conv-LSTM模型为专门处理具有空间关系的数据的神经网络，LSTM模型为专门处理时间序列的神经网络，FCNN模型为处理静态数据的神经网络。将该模型用于交通问题建模时，时空序列被输入Conv-LSTM模型以识别数据中的时空依赖性，时间序列数据被输入LSTM模型，其他静态数据被输入FCNN模型。如列车晚点状态预测过程中，影响因素X_k可以确定有设备因素(车站股道数X₁，区间长度X₂)、计划运行图相关因素(区间计划运行时间X₃,当前站计划出发间隔时间X₄，预测站计划到达间隔时间X₅)，实际运行图相关因素(列车已知晚点状态X₆)等。当用该模型预测列车晚点状态时，X₁、X₂为静态数据，被输入FCNN模型；X₃、X₄、X₅为时间序列数据，其被输入LSTM模型；X₆为时空关系数据，其被输入Conv-LSTM模型。

S4：基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数，筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m₁及各层神经元数n₁、LSTM模型中具有最小损失函数值的神经元层数m₂及各层神经元数n₂、和FCNN模型中具有最小损失函数值的神经元层数m₃及各层神经元数n₃。

作为举例，本文得到的交叉验证结果如表1和2所示，由表结果可知，在该列车运行数据下模型选用神经元层数为2层的Conv-LSTM模型，每层有50神经元；神经元层数为3层的LSTM模型，每层有70神经元；神经元层数为3层的FCNN模型，每层有30神经元。

神经元类别	1层	2层	3层	4层	5层
						Conv-LSTM	0.578	0.550	0.553	0.553	0.556
LSTM	0.586	0.563	0.550	0.559	0.565
						FCNN	0.568	0.556	0.550	0.554	0.556

表1神经元层数选择

表2每层神经元数选择

步骤S4的具体步骤如下：

S401：利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合，融合得到一个多维向量。需要说明的是，融合过程是将Conv-LSTM模型、LSTM模型和FCNN模型三部分的输出向量融合为一个多维向量；作为举例，如三部分输出的张量分别为[1,2],[3,4],[5,6]，融合后得到的张量即为[1,2,3,4,5,6]。模型融合的作用主要是使得多个多维向量变为一个多维向量，则可将该多维向量输入FCNN神经元，输出得到融合模型。

并得到最终融合模型。

S403：根据模型拟合值

及列车晚点观测值y_i确定融合模型的损失函数。进一步的，在步骤S403中，选用模型拟合值

与列车晚点观测值y_i的均方误差作为损失函数：

其中，y_i为列车晚点观测值，

融合模型的所有神经元激活函数均选用Keras深度学习库中的高级激活函数Prelu，在训练过程中确定非线性系数：

其中，x为神经元权w与输入数据的乘积再加上偏置(w*x+b)。

进一步的，在本步骤后，还包括以下步骤：

对Conv-LSTM输入中的l₁和l₂参数进行优化，设置l₁和l₂备选参数同时为[1,2,3,4,5],基于交叉验证选择最优l₁和l₂，其中l₁表示每张图片里包含的列车数量，l₂为LSTM模型的时间步长，优化结果如表3所示：

参数	1	2	3	4	5
						l<sub>1</sub>	0.576	0.550	0.555	0.560	0.555
l<sub>2</sub>	0.564	0.550	0.562	0.560	0.559

表3l₁和l₂参数选择

S404：将时空特性数据、时间序列数据和静态数据作为数据集，然后将数据集分为训练集及测试集对融合模型进行训练，其中训练基于误差反向传播算法对融合模型进行；然后分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。

在步骤S404中，由于需要考虑列车间相互作用关系，将当前高速铁路区段中到达车站的时间排序为前70％的列车的数据集作为训练集，将当前高速铁路区段中到达车站的时间排序为后30％的列车的数据集作为测试集。

进一步的，为了系统地验证多属性数据模型的应用能力，所述的一种基于深度学习的多属性数据建模方法还包括以下步骤：

S6：对最终的多属性数据模型进行评估。应当理解的是，可选用任意区段的高速铁路，如选用武广高速铁路以及厦深高速两条高速铁路，再根据由步骤S5得到的多属性数据模型对其各站列车晚点进行实时预测测试。

进一步的，步骤S6的具体步骤如下：

均方根误差(RMSE)为：

平均百分误差(MAPE)为：

其中，y_i为列车晚点观测值，

为模型拟合值，N为样本量。

作为举例，本实施例中得到的模型预测结果如图3-8所示。其中图3为各模型对武广线预测的均方根误差(RMSE)对比图、图4为各模型对武广线预测的平均绝对误差(MAE)对比图、图5为各模型对武广线预测的平均百分误差(MAPE)对比图、图6为各模型对厦深线预测的均方根误差(RMSE)对比图、图7为各模型对厦深线预测的平均绝对误差(MAE)对比图、图8为各模型对厦深线预测的平均百分误差(MAPE)对比图，图中，误差指标后缀“@D”表示指标在所有晚点列车测试集上计算得到；后缀“@20％”表示指标在最大20％晚点列车测试集上计算得到。

综上所述，本建模方法利用待处理区段高速铁路的历史运营数据，将历史数据进行属性判断后，通过采用Conv-LSTM模型、LSTM模型和FCNN模型三种模型进行建模，使得最终建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系，实现对交通工具产生的多属性数据的建模。

下面分别对Conv-LSTM模型、LSTM模型和FCNN模型进行介绍。

如图9所示，CNN是专门被提出来识别图像的深度学习算法。卷积神经网络的卷积核是局部连接的，卷积核每次扫过图像的多个像素点而非单个像素点，使得卷积神经网络可以有效地识别图像(图像中各物体的形状、空间位置关系等)。CNN首先将输入具有空间关系的数据(如二维图像)转换为三维格式(长度、宽度、深度)，输入黑白图像其深度为1，输入的彩色图像其深度为3(RGB)。CNN卷积核遍及完整张图片并在其结果上加入偏置项，且输入激活函数以映射其非线性关系得到一个特征平面h^k：

其中，*为卷积核，

W^k为神经元权重，x为输入，m、n为卷积核长和宽，σ(x)为激活函数。

LSTM是循环神经网络(Recurrent Neural Network,RNN)的变形。其具有反馈机制，其任意时间步t的神经元输出结果均是基于当前时间步的输入x_t以及上一时间步神经元的输出结果得到。LSTM是在RNN基础上为了解决时间序列长依赖问题提出的具有门限机制的RNN。LSTM结构如图10所示。LSTM的记忆功能主要通过改变其记忆单元状态c_t来实现。其记忆单元状态由其三个控制门决定(输入控制门、忘记控制门、输出控制门)，通过操控控制门可以使c_t被重新写入、利用以及删除。当输入控制门开启时，输入信息可以进入到c_t；当忘记控制门开启时，c_t可以被忘记(即c_t清零)；当输出控制门开启时，c_t便可以被输出。其中：

i_t＝σ(W_xix_t+W_hih_t-1+W_cie c_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfe c_t-1+b_f)

c_t＝f_te c_t-1+i_te tanh(W_xcx_t+W_hch_t-1+b_c)

O_t＝σ(W_xox_t+W_hoh_t-1+W_coe c_t+b_O)

h_t＝o_te tanh(c_t)

其中，e表示向量元素逐乘；tanh(x)为门限函数，其值域为[0,1]，表示多少信息被进入/忘记/清除。σ(x)为用以处理非线性关系的激活函数。w为神经元权重，b为神经元偏置，x_t为模型t步输入，h_t为模型t步输出，c_t为神经元t步状态。

如图11所示，时间序列输入LSTM前首先被转化为步长相同的序列。在图11中，X代表输入，y代表输出，l序列长度(时间步长)。

CNN与LSTM一个能处理具有空间属性的数据，一个能处理时间属性的数据，但它们均不能处理具有时空关系的数据。因此，本研究考虑使用结合了CNN与LSTM模型优点的Conv-LSTM模型来处理具有时空属性的数据。Conv-LSTM将图片视作为序列，其数学原理如下公式所示：

i_t＝σ(W_xi*x_t+W_hi*h_t-1+W_cie c_t-1+b_i)

f_t＝σ(W_xf*x_t+W_hf*h_t-1+W_cfe c_t-1+b_f)

c_t＝f_te c_t-1+i_te tanh(W_xc*x_t+W_hc*h_t-1+b_c)

O_t＝σ(W_xo*x_t+W_ho*h_t-1+W_coe c_t+b_O)

h_t＝o_te tanh(c_t)

其中，*为卷积运算，⊙为张量的各元素相乘。

时空变量首先被转化为序列形式的图片，如图12所示。其中l₁表示每张图片里包含的列车数量，l₂为LSTM模型的时间步长Conv-LSTM将一系列图片视作为序列(图12中，每张图片中包含4列车，时间步长为3)。Conv-LSTM的中间步输出也为图片格式，其每一步输出的图片均是基于前面步骤的图片的结果。因此，Conv-LSTM同时具有CNN以及LSTM的优点，可以处理时空类型数据。

在FCNN模型中，相邻层之间的神经元为全连接神经元，输入数据信息由输入层传播至输出层。通过计算模型拟合值与列车晚点观测值之间的差异得到拟合误差，通过反向传播误差更新各神经元权重与偏置。FCNN与LSTM的差异在于LSTM输出层以输入层之间反向连接。对于FCNN的输入，将l列车的静态变量横向连接即可(l与图7中l相同)。即若每列车静态变量有S个，那么连接后即为l*S。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的多属性数据建模方法，其特征在于：包括以下步骤：

S1：根据当前高速铁路区段的历史运营数据，提取列车晚点的影响因素X_k,k∈{1,2,…,K}及列车晚点观测值，其中K为提取晚点因素个数；影响因素X_k包括设备因素、计划运行图相关因素和实际运行图相关因素，所述设备因素包括车站股道数X₁和区间长度X₂，所述计划运行图相关因素包括区间计划运行时间X₃、当前站计划出发间隔时间X₄和预测站计划到达间隔时间X₅，所述实际运行图相关因素包括列车已知晚点状态X₆；