CN109635246B - 一种基于深度学习的多属性数据建模方法 - Google Patents

一种基于深度学习的多属性数据建模方法 Download PDF

Info

Publication number
CN109635246B
CN109635246B CN201811488860.9A CN201811488860A CN109635246B CN 109635246 B CN109635246 B CN 109635246B CN 201811488860 A CN201811488860 A CN 201811488860A CN 109635246 B CN109635246 B CN 109635246B
Authority
CN
China
Prior art keywords
model
data
neuron
layer
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811488860.9A
Other languages
English (en)
Other versions
CN109635246A (zh
Inventor
文超
黄平
李忠灿
汤轶雄
蒋朝哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201811488860.9A priority Critical patent/CN109635246B/zh
Publication of CN109635246A publication Critical patent/CN109635246A/zh
Application granted granted Critical
Publication of CN109635246B publication Critical patent/CN109635246B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q50/40

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)

Abstract

本发明涉及交通运输技术领域,其目的在于提供一种基于深度学习的多属性数据建模方法。本发明包括以下步骤:S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素及列车晚点观测值;S2:判断影响因素的属性;S3:将不同属性的影响因素分别输入Conv‑LSTM模型、LSTM模型和FCNN模型;S4:基于交叉验证分别优化上述各模型的神经元层数及各层神经元数,分别筛选出上述各模型中最小损失函数值的神经元层数及各层神经元数;S5:选定最终的多属性数据模型。本发明建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系,实现对交通工具产生的多属性数据的建模。

Description

一种基于深度学习的多属性数据建模方法
技术领域
本发明涉及交通运输技术领域,特别是涉及一种基于深度学习的多属性数据建模方法。
背景技术
高速铁路具有安全性好、送达速度快、正点率高、输送能力大、能耗低等一系列优点,高速铁路的发展极大地缓解了运输能力紧张,提升了我国路网的规模与质量,为国民经济的持续快速发展起到了重要支撑作用。
然而,由于高速铁路运行环境复杂,高速列车在运行过程中,不可避免地会受到外界环境、内部系统机械故障以及组织管理的影响,导致列车的实际到达时间(实际出发时间)与计划到达时间(计划出发时间)有偏差,造成列车晚点。当列车晚点是由于自身车辆、设备故障突发事自然环境等因素引起的,被称为初始晚点;而当晚点是由于初始晚点的列车的晚点影响造成的,则称其为连带晚点或二次晚点。严重的晚点可能会在线路、局部网大面积传播,影响列车运行计划的正常执行,降低运输服务质量。
移动设备(如高速铁路等交通工具)产生的数据具有多属性特性,包括时空数据、时间序列数据以及静态数据等。常用人工智能算法如前馈神经网络、支持向量机、决策树、贝叶斯网络等均无“时间”以及“空间”概念,利用这些模型建模多属性数据时,均不能有效识别时空数据中的时空依赖性以及时间序列数据中的时间关系。如列车运行产生数据中,列车在各车站的晚点状态为时空关系数据(列车在不同的时刻和不同的地点晚点状态不同,且列车将来状态与过去状态存在关联性);运行图参数为时间序列数据格式(列车在各站的图定到发时刻与空间位置无关系);基础设施参数为静态数据(车站股道数等与时间以及空间位置均无依赖关系)。上述提及人工智能算法在处理该问题时将所有数据都视作为静态数据,模型不能有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系。
因此,有必要研究一种能够解决上述问题且能够对交通工具产生的多属性复杂数据进行建模的方法。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种基于深度学习的多属性数据建模方法。
本发明采用的技术方案是:
一种基于深度学习的多属性数据建模方法,包括以下步骤:
S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素Xk,k∈{1,2,…,K}及列车晚点观测值,其中K为提取晚点因素个数;
S2:判断影响因素Xk的属性,其中影响因素Xk的属性包括时空特性数据、时间序列数据和静态数据;
S3:根据影响因素Xk的属性的不同,将时空特性数据输入卷积长短期记忆(Conv-LSTM)模型,将时间序列数据输入长短期记忆(LSTM)模型,将静态数据输入全连接神经网络(FCNN)模型;
S4:基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数,筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m1及各层神经元数n1、LSTM模型中具有最小损失函数值的神经元层数m2及各层神经元数n2、和FCNN模型中具有最小损失函数值的神经元层数m3及各层神经元数n3
S5:选定神经元层数为m1层且每层为n1个神经元的Conv-LSTM模型、神经元层数为m2层且每层为n2个神经元的LSTM模型、和神经元层数为m3层且每层为n3个神经元的FCNN模型为最终的多属性数据模型。
优选的,在步骤S1中,影响因素Xk包括设备因素、计划运行图相关因素和实际运行图相关因素,所述设备因素包括车站股道数X1和区间长度X2,所述计划运行图相关因素包括区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5,所述实际运行图相关因素包括列车已知晚点状态X6
优选的,在步骤S2中,影响因素Xk的属性判断标准如下:车站股道数X1和区间长度X2为静态数据,区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5为时间序列数据,列车已知晚点状态X6为时空特性数据。
优选的,步骤S4的具体步骤如下:
S401:利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合,融合得到一个多维向量;
S402:将融合得到的多维向量传入单FCNN神经元,由单FCNN神经元输出得到模型拟合值
Figure GDA0003047695630000031
并得到最终融合模型;
S403:根据模型拟合值
Figure GDA0003047695630000032
及列车晚点观测值yi确定融合模型的损失函数;
S404:将时空特性数据、时间序列数据和静态数据作为数据集,然后将数据集分为训练集及测试集对融合模型进行训练,分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。
优选的,在步骤S403中,选用模型拟合值
Figure GDA0003047695630000033
与观测值yi的均方误差作为损失函数:
Figure GDA0003047695630000041
其中,yi为列车晚点观测值,
Figure GDA0003047695630000042
为模型拟合值,N为样本量;然后利用误差反向传播算法对融合模型进行训练。
优选的,在步骤S404中,将当前高速铁路区段中到达车站的时间排序为前70%的列车的数据集作为训练集,将当前高速铁路区段中到达车站的时间排序为后30%的列车的数据集作为测试集。
优选的,所述的一种基于深度学习的多属性数据建模方法还包括以下步骤:
S6:对最终的多属性数据模型进行评估。
优选的,步骤S6的具体步骤如下:
S601:将人工神经网络(ANN)模型、支持向量回归(SVR)模型、马尔科夫模型(MM)及LSTM模型与FCNN模型的组合模型(LF-Net模型)作为多属性数据模型的对比模型;
S602:同时选用平均绝对误差(MAE)、均方根误差(RMSE)以及平均百分误差(MAPE)作为多属性数据模型和对比模型的评估指标,其中平均绝对误差(MAE)为:
Figure GDA0003047695630000043
均方根误差(RMSE)为:
Figure GDA0003047695630000044
平均百分误差(MAPE)为:
Figure GDA0003047695630000051
其中,yi为列车晚点观测值,
Figure GDA0003047695630000052
为模型拟合值,N为样本量。
与现有技术相比,本发明的有益效果为:利用待处理高速铁路区段的历史运营数据,将历史数据进行属性判断后,通过采用Conv-LSTM模型、LSTM模型和FCNN模型三种模型进行建模,使得最终建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系,实现对交通工具产生的多属性数据的建模。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于深度学习的多属性数据建模方法的流程示意图;
图2是本发明中作为举例选用的高速铁路线路图;
图3是各模型对武广线预测的均方根误差(RMSE)对比图;
图4是各模型对武广线预测的平均绝对误差(MAE)对比图;
图5是各模型对武广线预测的平均百分误差(MAPE)对比图;
图6是各模型对厦深线预测的均方根误差(RMSE)对比图;
图7是各模型对厦深线预测的平均绝对误差(MAE)对比图;
图8是各模型对厦深线预测的平均百分误差(MAPE)对比图;
图9是CNN模型的工作原理图;
图10是LSTM模型的结构示意图;
图11是时间序列数据输入LSTM转换示意图;
图12是Conv-LSTM输入数据格式转换图。
具体实施方式
以下将参照附图,通过实施例方式详细地描述本发明提供的一种基于深度学习的多属性数据建模方法。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
实施例:
本实施例提供一种基于深度学习的多属性数据建模方法,如图1所示,包括以下步骤:
S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素Xk,k∈{1,2,…,K}及列车晚点观测值,其中K为提取晚点因素个数。应当理解的是,在步骤S1前,需基于站点确定一高速铁路区段为研究对象,列车晚点的影响因素Xk的提取需根据高速铁路的晚点情况进行确定。
作为举例,本文所用的列车运行实绩数据来源于中国铁路广州局集团有限公司(以下简称广铁集团)所管辖的武广及厦深高速铁路,其线路图如图2所示。其中武广高速铁路全长1069km,共设18个车站,设计时速350km/h,运营速度310km/h;厦深高速铁路全长514km,共设18个车站,设计时速250km/h,运营速度200km/h。所有列车运行实绩数据均从广铁集团高铁调度中心列车监督系统获得,该系统记录了每天各次列车的车次、到发通过车站、每次列车在每个车站的图定与实际到发通过时刻、最高列车运行速度、平均行车速度等。本文使用的历史运营数据包括武广高速铁路广州南站至衡阳东共9个车站、8个区间以及厦深高速铁路惠东-潮汕站共9个车站,8个区间,从2015年3月到2016年11月的列车运行记录。该时段内,武广高速铁路广州南-衡阳东开行列车57796列,厦深高速惠东-潮汕区段铁路开行列车41186列。
在步骤S1中,影响因素Xk包括但不限制于为设备因素、计划运行图相关因素和实际运行图相关因素,其中所述设备因素包括但不限于为车站股道数X1和区间长度X2,所述计划运行图相关因素包括但不限于为区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5,所述实际运行图相关因素包括但不限于为列车已知晚点状态X6
S2:判断影响因素Xk的属性,其中影响因素Xk的属性包括时空特性数据、时间序列数据和静态数据。
在步骤S2中,影响因素Xk的属性判断标准如下:车站股道数X1和区间长度X2为静态数据,区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5为时间序列数据,列车已知晚点状态X6为时空特性数据。
S3:根据影响因素Xk的属性的不同,将时空特性数据输入卷积长短期记忆(Convolutional Long Short-term Memory,Conv-LSTM)模型,将时间序列数据输入长短期记忆(Long Short-term Memory,LSTM)模型,将静态数据输入全连接神经网络(Fully-connected Neural Network,FCNN)模型。
应当理解的是,Conv-LSTM模型为专门处理具有空间关系的数据的神经网络,LSTM模型为专门处理时间序列的神经网络,FCNN模型为处理静态数据的神经网络。将该模型用于交通问题建模时,时空序列被输入Conv-LSTM模型以识别数据中的时空依赖性,时间序列数据被输入LSTM模型,其他静态数据被输入FCNN模型。如列车晚点状态预测过程中,影响因素Xk可以确定有设备因素(车站股道数X1,区间长度X2)、计划运行图相关因素(区间计划运行时间X3,当前站计划出发间隔时间X4,预测站计划到达间隔时间X5),实际运行图相关因素(列车已知晚点状态X6)等。当用该模型预测列车晚点状态时,X1、X2为静态数据,被输入FCNN模型;X3、X4、X5为时间序列数据,其被输入LSTM模型;X6为时空关系数据,其被输入Conv-LSTM模型。
S4:基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数,筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m1及各层神经元数n1、LSTM模型中具有最小损失函数值的神经元层数m2及各层神经元数n2、和FCNN模型中具有最小损失函数值的神经元层数m3及各层神经元数n3
作为举例,本文得到的交叉验证结果如表1和2所示,由表结果可知,在该列车运行数据下模型选用神经元层数为2层的Conv-LSTM模型,每层有50神经元;神经元层数为3层的LSTM模型,每层有70神经元;神经元层数为3层的FCNN模型,每层有30神经元。
神经元类别 1层 2层 3层 4层 5层
Conv-LSTM 0.578 0.550 0.553 0.553 0.556
LSTM 0.586 0.563 0.550 0.559 0.565
FCNN 0.568 0.556 0.550 0.554 0.556
表1神经元层数选择
Figure GDA0003047695630000081
Figure GDA0003047695630000091
表2每层神经元数选择
步骤S4的具体步骤如下:
S401:利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合,融合得到一个多维向量。需要说明的是,融合过程是将Conv-LSTM模型、LSTM模型和FCNN模型三部分的输出向量融合为一个多维向量;作为举例,如三部分输出的张量分别为[1,2],[3,4],[5,6],融合后得到的张量即为[1,2,3,4,5,6]。模型融合的作用主要是使得多个多维向量变为一个多维向量,则可将该多维向量输入FCNN神经元,输出得到融合模型。
S402:将融合得到的多维向量传入单FCNN神经元,由单FCNN神经元输出得到模型拟合值
Figure GDA0003047695630000092
并得到最终融合模型。
S403:根据模型拟合值
Figure GDA0003047695630000093
及列车晚点观测值yi确定融合模型的损失函数。进一步的,在步骤S403中,选用模型拟合值
Figure GDA0003047695630000094
与列车晚点观测值yi的均方误差作为损失函数:
Figure GDA0003047695630000095
其中,yi为列车晚点观测值,
Figure GDA0003047695630000096
为模型拟合值,N为样本量;然后利用误差反向传播算法对融合模型进行训练。
融合模型的所有神经元激活函数均选用Keras深度学习库中的高级激活函数Prelu,在训练过程中确定非线性系数:
Figure GDA0003047695630000101
其中,x为神经元权w与输入数据的乘积再加上偏置(w*x+b)。
进一步的,在本步骤后,还包括以下步骤:
对Conv-LSTM输入中的l1和l2参数进行优化,设置l1和l2备选参数同时为[1,2,3,4,5],基于交叉验证选择最优l1和l2,其中l1表示每张图片里包含的列车数量,l2为LSTM模型的时间步长,优化结果如表3所示:
参数 1 2 3 4 5
l<sub>1</sub> 0.576 0.550 0.555 0.560 0.555
l<sub>2</sub> 0.564 0.550 0.562 0.560 0.559
表3l1和l2参数选择
S404:将时空特性数据、时间序列数据和静态数据作为数据集,然后将数据集分为训练集及测试集对融合模型进行训练,其中训练基于误差反向传播算法对融合模型进行;然后分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。
在步骤S404中,由于需要考虑列车间相互作用关系,将当前高速铁路区段中到达车站的时间排序为前70%的列车的数据集作为训练集,将当前高速铁路区段中到达车站的时间排序为后30%的列车的数据集作为测试集。
S5:选定神经元层数为m1层且每层为n1个神经元的Conv-LSTM模型、神经元层数为m2层且每层为n2个神经元的LSTM模型、和神经元层数为m3层且每层为n3个神经元的FCNN模型为最终的多属性数据模型。
进一步的,为了系统地验证多属性数据模型的应用能力,所述的一种基于深度学习的多属性数据建模方法还包括以下步骤:
S6:对最终的多属性数据模型进行评估。应当理解的是,可选用任意区段的高速铁路,如选用武广高速铁路以及厦深高速两条高速铁路,再根据由步骤S5得到的多属性数据模型对其各站列车晚点进行实时预测测试。
进一步的,步骤S6的具体步骤如下:
S601:将人工神经网络(ANN)模型、支持向量回归(SVR)模型、马尔科夫模型(MM)及LSTM模型与FCNN模型的组合模型(LF-Net模型)作为多属性数据模型的对比模型;
S602:同时选用平均绝对误差(MAE)、均方根误差(RMSE)以及平均百分误差(MAPE)作为多属性数据模型和对比模型的评估指标,其中平均绝对误差(MAE)为:
Figure GDA0003047695630000111
均方根误差(RMSE)为:
Figure GDA0003047695630000112
平均百分误差(MAPE)为:
Figure GDA0003047695630000113
其中,yi为列车晚点观测值,
Figure GDA0003047695630000121
为模型拟合值,N为样本量。
作为举例,本实施例中得到的模型预测结果如图3-8所示。其中图3为各模型对武广线预测的均方根误差(RMSE)对比图、图4为各模型对武广线预测的平均绝对误差(MAE)对比图、图5为各模型对武广线预测的平均百分误差(MAPE)对比图、图6为各模型对厦深线预测的均方根误差(RMSE)对比图、图7为各模型对厦深线预测的平均绝对误差(MAE)对比图、图8为各模型对厦深线预测的平均百分误差(MAPE)对比图,图中,误差指标后缀“@D”表示指标在所有晚点列车测试集上计算得到;后缀“@20%”表示指标在最大20%晚点列车测试集上计算得到。
综上所述,本建模方法利用待处理区段高速铁路的历史运营数据,将历史数据进行属性判断后,通过采用Conv-LSTM模型、LSTM模型和FCNN模型三种模型进行建模,使得最终建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系,实现对交通工具产生的多属性数据的建模。
下面分别对Conv-LSTM模型、LSTM模型和FCNN模型进行介绍。
如图9所示,CNN是专门被提出来识别图像的深度学习算法。卷积神经网络的卷积核是局部连接的,卷积核每次扫过图像的多个像素点而非单个像素点,使得卷积神经网络可以有效地识别图像(图像中各物体的形状、空间位置关系等)。CNN首先将输入具有空间关系的数据(如二维图像)转换为三维格式(长度、宽度、深度),输入黑白图像其深度为1,输入的彩色图像其深度为3(RGB)。CNN卷积核遍及完整张图片并在其结果上加入偏置项,且输入激活函数以映射其非线性关系得到一个特征平面hk
Figure GDA0003047695630000131
其中,*为卷积核,
Figure GDA0003047695630000132
Wk为神经元权重,x为输入,m、n为卷积核长和宽,σ(x)为激活函数。
LSTM是循环神经网络(Recurrent Neural Network,RNN)的变形。其具有反馈机制,其任意时间步t的神经元输出结果均是基于当前时间步的输入xt以及上一时间步神经元的输出结果得到。LSTM是在RNN基础上为了解决时间序列长依赖问题提出的具有门限机制的RNN。LSTM结构如图10所示。LSTM的记忆功能主要通过改变其记忆单元状态ct来实现。其记忆单元状态由其三个控制门决定(输入控制门、忘记控制门、输出控制门),通过操控控制门可以使ct被重新写入、利用以及删除。当输入控制门开启时,输入信息可以进入到ct;当忘记控制门开启时,ct可以被忘记(即ct清零);当输出控制门开启时,ct便可以被输出。其中:
it=σ(Wxixt+Whiht-1+Wcie ct-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfe ct-1+bf)
ct=fte ct-1+ite tanh(Wxcxt+Whcht-1+bc)
Ot=σ(Wxoxt+Whoht-1+Wcoe ct+bO)
ht=ote tanh(ct)
Figure GDA0003047695630000133
其中,e表示向量元素逐乘;tanh(x)为门限函数,其值域为[0,1],表示多少信息被进入/忘记/清除。σ(x)为用以处理非线性关系的激活函数。w为神经元权重,b为神经元偏置,xt为模型t步输入,ht为模型t步输出,ct为神经元t步状态。
如图11所示,时间序列输入LSTM前首先被转化为步长相同的序列。在图11中,X代表输入,y代表输出,l序列长度(时间步长)。
CNN与LSTM一个能处理具有空间属性的数据,一个能处理时间属性的数据,但它们均不能处理具有时空关系的数据。因此,本研究考虑使用结合了CNN与LSTM模型优点的Conv-LSTM模型来处理具有时空属性的数据。Conv-LSTM将图片视作为序列,其数学原理如下公式所示:
it=σ(Wxi*xt+Whi*ht-1+Wcie ct-1+bi)
ft=σ(Wxf*xt+Whf*ht-1+Wcfe ct-1+bf)
ct=fte ct-1+ite tanh(Wxc*xt+Whc*ht-1+bc)
Ot=σ(Wxo*xt+Who*ht-1+Wcoe ct+bO)
ht=ote tanh(ct)
其中,*为卷积运算,⊙为张量的各元素相乘。
时空变量首先被转化为序列形式的图片,如图12所示。其中l1表示每张图片里包含的列车数量,l2为LSTM模型的时间步长Conv-LSTM将一系列图片视作为序列(图12中,每张图片中包含4列车,时间步长为3)。Conv-LSTM的中间步输出也为图片格式,其每一步输出的图片均是基于前面步骤的图片的结果。因此,Conv-LSTM同时具有CNN以及LSTM的优点,可以处理时空类型数据。
在FCNN模型中,相邻层之间的神经元为全连接神经元,输入数据信息由输入层传播至输出层。通过计算模型拟合值与列车晚点观测值之间的差异得到拟合误差,通过反向传播误差更新各神经元权重与偏置。FCNN与LSTM的差异在于LSTM输出层以输入层之间反向连接。对于FCNN的输入,将l列车的静态变量横向连接即可(l与图7中l相同)。即若每列车静态变量有S个,那么连接后即为l*S。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于深度学习的多属性数据建模方法,其特征在于:包括以下步骤:
S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素Xk,k∈{1,2,…,K}及列车晚点观测值,其中K为提取晚点因素个数;影响因素Xk包括设备因素、计划运行图相关因素和实际运行图相关因素,所述设备因素包括车站股道数X1和区间长度X2,所述计划运行图相关因素包括区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5,所述实际运行图相关因素包括列车已知晚点状态X6
S2:判断影响因素Xk的属性,其中影响因素Xk的属性包括时空特性数据、时间序列数据和静态数据;
S3:根据影响因素Xk的属性的不同,将时空特性数据输入卷积长短期记忆(Conv-LSTM)模型,将时间序列数据输入长短期记忆(LSTM)模型,将静态数据输入全连接神经网络(FCNN)模型;
S4:基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数,筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m1及各层神经元数n1、LSTM模型中具有最小损失函数值的神经元层数m2及各层神经元数n2、和FCNN模型中具有最小损失函数值的神经元层数m3及各层神经元数n3
S5:选定神经元层数为m1层且每层为n1个神经元的Conv-LSTM模型、神经元层数为m2层且每层为n2个神经元的LSTM模型、和神经元层数为m3层且每层为n3个神经元的FCNN模型为最终的多属性数据模型。
2.根据权利要求1所述的一种基于深度学习的多属性数据建模方法,其特征在于:在步骤S2中,影响因素Xk的属性判断标准如下:车站股道数X1和区间长度X2为静态数据,区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5为时间序列数据,列车已知晚点状态X6为时空特性数据。
3.根据权利要求1所述的一种基于深度学习的多属性数据建模方法,其特征在于:步骤S4的具体步骤如下:
S401:利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合,融合得到一个多维向量;
S402:将融合得到的多维向量传入单FCNN神经元,由单FCNN神经元输出得到模型拟合值
Figure FDA0003047695620000021
并得到最终融合模型;
S403:根据模型拟合值
Figure FDA0003047695620000022
及列车晚点观测值yi确定融合模型的损失函数;
S404:将时空特性数据、时间序列数据和静态数据作为数据集,然后将数据集分为训练集及测试集对融合模型进行训练,分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。
4.根据权利要求3所述的一种基于深度学习的多属性数据建模方法,其特征在于:在步骤S403中,选用模型拟合值
Figure FDA0003047695620000023
与列车晚点观测值yi的均方误差作为损失函数:
Figure FDA0003047695620000024
其中,yi为列车晚点观测值,
Figure FDA0003047695620000025
为模型拟合值,N为样本量;然后利用误差反向传播算法对融合模型进行训练。
5.根据权利要求3所述的一种基于深度学习的多属性数据建模方法,其特征在于:在步骤S404中,将当前高速铁路区段中到达车站的时间排序为前70%的列车的数据集作为训练集,将当前高速铁路区段中到达车站的时间排序为后30%的列车的数据集作为测试集。
6.根据权利要求4所述的一种基于深度学习的多属性数据建模方法,其特征在于:所述的一种基于深度学习的多属性数据建模方法还包括以下步骤:
S6:对最终的多属性数据模型进行评估。
7.根据权利要求6所述的一种基于深度学习的多属性数据建模方法,其特征在于:步骤S6的具体步骤如下:
S601:将人工神经网络模型、支持向量回归模型、马尔科夫模型及LSTM模型与FCNN模型的组合模型作为多属性数据模型的对比模型;
S602:同时选用平均绝对误差、均方根误差以及平均百分误差作为多属性数据模型和对比模型的评估指标,其中平均绝对误差MAE为:
Figure FDA0003047695620000031
均方根误差RMSE为:
Figure FDA0003047695620000032
平均百分误差MAPE为:
Figure FDA0003047695620000033
其中,yi为列车晚点观测值,
Figure FDA0003047695620000034
为模型拟合值,N为样本量。
CN201811488860.9A 2018-12-06 2018-12-06 一种基于深度学习的多属性数据建模方法 Expired - Fee Related CN109635246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811488860.9A CN109635246B (zh) 2018-12-06 2018-12-06 一种基于深度学习的多属性数据建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811488860.9A CN109635246B (zh) 2018-12-06 2018-12-06 一种基于深度学习的多属性数据建模方法

Publications (2)

Publication Number Publication Date
CN109635246A CN109635246A (zh) 2019-04-16
CN109635246B true CN109635246B (zh) 2021-07-13

Family

ID=66071566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811488860.9A Expired - Fee Related CN109635246B (zh) 2018-12-06 2018-12-06 一种基于深度学习的多属性数据建模方法

Country Status (1)

Country Link
CN (1) CN109635246B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195273B2 (en) * 2019-10-11 2021-12-07 International Business Machines Corporation Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory
US11417424B2 (en) 2019-10-11 2022-08-16 International Business Machines Corporation Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory and multiple instance learning
CN112287294B (zh) * 2020-09-10 2024-02-27 河海大学 一种基于深度学习的时空双向土壤含水量插值方法
CN113815679B (zh) * 2021-08-27 2023-01-13 北京交通大学 一种高速列车自主驾驶控制的实现方法
CN117516927B (zh) * 2024-01-05 2024-04-05 四川省机械研究设计院(集团)有限公司 齿轮箱故障检测方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777752A (zh) * 2016-12-30 2017-05-31 华东交通大学 一种高速列车追踪运行曲线优化设定方法
CN107563426A (zh) * 2017-08-25 2018-01-09 清华大学 一种机车运行时序特征的学习方法
CN107705556A (zh) * 2017-09-01 2018-02-16 南京邮电大学 一种基于支持向量机和bp神经网络结合的交通流预测方法
CN108764526A (zh) * 2018-04-20 2018-11-06 西南交通大学 一种基于列车运行秩序的列车晚点人工神经网络识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055131A1 (en) * 2009-08-28 2011-03-03 Hung-Han Chen Method of universal computing device
CN102737508B (zh) * 2012-06-19 2014-03-26 银江股份有限公司 一种融合svm与bp神经网络的城市道路交通状态检测方法
RU2016100024A (ru) * 2013-06-06 2017-07-14 Общество С Ограниченной Ответственностью "Яндекс" Способ создания компьютеризированной модели и способ (варианты) определения значений степени загруженности дорог в отношении географической области
CN108875161B (zh) * 2018-05-31 2022-11-29 长江勘测规划设计研究有限责任公司 基于卷积神经网络深度学习的流量等级预测方法
CN108898838B (zh) * 2018-08-03 2020-08-28 首都经济贸易大学 一种基于lstm模型的机场交通拥堵预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777752A (zh) * 2016-12-30 2017-05-31 华东交通大学 一种高速列车追踪运行曲线优化设定方法
CN107563426A (zh) * 2017-08-25 2018-01-09 清华大学 一种机车运行时序特征的学习方法
CN107705556A (zh) * 2017-09-01 2018-02-16 南京邮电大学 一种基于支持向量机和bp神经网络结合的交通流预测方法
CN108764526A (zh) * 2018-04-20 2018-11-06 西南交通大学 一种基于列车运行秩序的列车晚点人工神经网络识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
High-Speed Railway Bogie Fault Diagnosis Using LSTM Neural Network;Yuanzhe Fu 等;《Proceedings of the 37th Chinese Control Conference》;20181008;第5848-5852页 *
Spatiotemporal Recurrent Convolutional Networks for Traffic Prediction in Transportation Networks;Haiyang Yu 等;《Sensors》;20170630;第1-16页 *
基于高速列车运行实绩的致因-初始晚点时长分布模型;庄河 等;《铁道学报》;20170930;第39卷(第9期);第25-31页 *
武广高速铁路列车晚点恢复时间预测的随机森林模型;黄平 等;《铁道学报》;20180731;第40卷(第7期);第1-9页 *

Also Published As

Publication number Publication date
CN109635246A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635246B (zh) 一种基于深度学习的多属性数据建模方法
US11270579B2 (en) Transportation network speed foreeasting method using deep capsule networks with nested LSTM models
Shi et al. Prediction and analysis of train arrival delay based on XGBoost and Bayesian optimization
Bi et al. Daily tourism volume forecasting for tourist attractions
CN109754605B (zh) 一种基于注意力时态图卷积网络的交通预测方法
Oneto et al. Train delay prediction systems: a big data analytics perspective
CN109697852B (zh) 基于时序交通事件的城市道路拥堵程度预测方法
Melo et al. Gaussian-PSO with fuzzy reasoning based on structural learning for training a Neural Network
Ma et al. Short-term traffic flow forecasting by selecting appropriate predictions based on pattern matching
CN110766942A (zh) 一种基于卷积长短期记忆网络的交通路网拥堵预测方法
JP7271216B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113313947A (zh) 短期交通预测图卷积网络的路况评估方法
CN113704956A (zh) 一种基于数字孪生技术的城市道路在线微观仿真方法及系统
CN113283581B (zh) 多融合图网络协同多通道注意力模型及其应用和应用方法
Pan et al. Road safety performance function analysis with visual feature importance of deep neural nets
Dai et al. Spatio-temporal deep learning framework for traffic speed forecasting in IoT
Karimpour et al. Fuzzy approach in rail track degradation prediction
Li et al. Efficient game-theoretic planning with prediction heuristic for socially-compliant autonomous driving
Yang et al. Dynamic origin-destination matrix estimation based on urban Rail transit AFC data: deep optimization framework with forward passing and backpropagation techniques
Al-Ahmadi et al. A fuzzy cellular automata urban growth model (FCAUGM) for the city of Riyadh, Saudi Arabia. Part 1: Model structure and validation
Xu et al. A taxi dispatch system based on prediction of demand and destination
Lafta et al. Trip generation modeling for a selected sector in Baghdad city using the artificial neural network
Mou et al. Predictive model of train delays in a railway system
Alekseev et al. Forecasting the air transport demand for passengers with neural modelling
CN115080795A (zh) 一种多充电站协同负荷预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210713

Termination date: 20211206

CF01 Termination of patent right due to non-payment of annual fee