CN109635246A - 一种基于深度学习的多属性数据建模方法 - Google Patents
一种基于深度学习的多属性数据建模方法 Download PDFInfo
- Publication number
- CN109635246A CN109635246A CN201811488860.9A CN201811488860A CN109635246A CN 109635246 A CN109635246 A CN 109635246A CN 201811488860 A CN201811488860 A CN 201811488860A CN 109635246 A CN109635246 A CN 109635246A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- layer
- lstm
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 210000002569 neuron Anatomy 0.000 claims abstract description 96
- 238000013499 data model Methods 0.000 claims abstract description 17
- 238000002790 cross-validation Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 230000003068 static effect Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 108010014173 Factor X Proteins 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 230000036962 time dependent Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 9
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 5
- 230000004913 activation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010338 mechanical breakdown Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
Abstract
本发明涉及交通运输技术领域,其目的在于提供一种基于深度学习的多属性数据建模方法。本发明包括以下步骤:S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素及列车晚点观测值;S2:判断影响因素的属性;S3:将不同属性的影响因素分别输入Conv‑LSTM模型、LSTM模型和FCNN模型;S4:基于交叉验证分别优化上述各模型的神经元层数及各层神经元数,分别筛选出上述各模型中最小损失函数值的神经元层数及各层神经元数;S5:选定最终的多属性数据模型。本发明建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系,实现对交通工具产生的多属性数据的建模。
Description
技术领域
本发明涉及交通运输技术领域,特别是涉及一种基于深度学习的多属性数据建模方法。
背景技术
高速铁路具有安全性好、送达速度快、正点率高、输送能力大、能耗低等一系列优点,高速铁路的发展极大地缓解了运输能力紧张,提升了我国路网的规模与质量,为国民经济的持续快速发展起到了重要支撑作用。
然而,由于高速铁路运行环境复杂,高速列车在运行过程中,不可避免地会受到外界环境、内部系统机械故障以及组织管理的影响,导致列车的实际到达时间(实际出发时间)与计划到达时间(计划出发时间)有偏差,造成列车晚点。当列车晚点是由于自身车辆、设备故障突发事自然环境等因素引起的,被称为初始晚点;而当晚点是由于初始晚点的列车的晚点影响造成的,则称其为连带晚点或二次晚点。严重的晚点可能会在线路、局部网大面积传播,影响列车运行计划的正常执行,降低运输服务质量。
移动设备(如高速铁路等交通工具)产生的数据具有多属性特性,包括时空数据、时间序列数据以及静态数据等。常用人工智能算法如前馈神经网络、支持向量机、决策树、贝叶斯网络等均无“时间”以及“空间”概念,利用这些模型建模多属性数据时,均不能有效识别时空数据中的时空依赖性以及时间序列数据中的时间关系。如列车运行产生数据中,列车在各车站的晚点状态为时空关系数据(列车在不同的时刻和不同的地点晚点状态不同,且列车将来状态与过去状态存在关联性);运行图参数为时间序列数据格式(列车在各站的图定到发时刻与空间位置无关系);基础设施参数为静态数据(车站股道数等与时间以及空间位置均无依赖关系)。上述提及人工智能算法在处理该问题时将所有数据都视作为静态数据,模型不能有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系。
因此,有必要研究一种能够解决上述问题且能够对交通工具产生的多属性复杂数据进行建模的方法。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种基于深度学习的多属性数据建模方法。
本发明采用的技术方案是:
一种基于深度学习的多属性数据建模方法,包括以下步骤:
S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素Xk,k∈{1,2,…,K}及列车晚点观测值,其中K为提取晚点因素个数;
S2:判断影响因素Xk的属性,其中影响因素Xk的属性包括时空特性数据、时间序列数据和静态数据;
S3:根据影响因素Xk的属性的不同,将时空特性数据输入卷积循环神经网络(Conv-LSTM)模型,将时间序列数据输入长短期记忆网络(LSTM)模型,将静态数据输入全连接前馈神经网络(FCNN)模型;
S4:基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数,筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m1及各层神经元数n1、LSTM模型中具有最小损失函数值的神经元层数m2及各层神经元数n2、和FCNN模型中具有最小损失函数值的神经元层数m3及各层神经元数n3;
S5:选定神经元层数为m1层且每层为n1个神经元的Conv-LSTM模型、神经元层数为m2层且每层为n2个神经元的LSTM模型、和神经元层数为m3层且每层为n3个神经元的FCNN模型为最终的多属性数据模型。
优选的,在步骤S1中,影响因素Xk包括设备因素、计划运行图相关因素和实际运行图相关因素,所述设备因素包括车站股道数X1和区间长度X2,所述计划运行图相关因素包括区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5,所述实际运行图相关因素包括列车已知晚点状态X6。
优选的,在步骤S2中,影响因素Xk的属性判断标准如下:车站股道数X1和区间长度X2为静态数据,区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5为时间序列数据,列车已知晚点状态X6为时空特性数据。
优选的,步骤S4的具体步骤如下:
S401:利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合,融合得到一个多维向量;
S402:将融合得到的多维向量传入单FCNN神经元,由单FCNN神经元输出得到模型拟合值并得到最终融合模型;
S403:根据模型拟合值及列车晚点观测值yi确定融合模型的损失函数;
S404:将时空特性数据、时间序列数据和静态数据作为数据集,然后将数据集分为训练集及测试集对融合模型进行训练,分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。
优选的,在步骤S403中,选用模型拟合值与观测值yi的均方误差作为损失函数:
其中,yi为列车晚点观测值,为模型拟合值,N为样本量;然后利用误差反向传播算法对融合模型进行训练。
优选的,在步骤S404中,将当前高速铁路区段中到达车站的时间排序为前70%的列车的数据集作为训练集,将当前高速铁路区段中到达车站的时间排序为后30%的列车的数据集作为测试集。
优选的,所述的一种基于深度学习的多属性数据建模方法还包括以下步骤:
S6:对最终的多属性数据模型进行评估。
优选的,步骤S6的具体步骤如下:
S601:将人工神经网络(ANN)模型、支持向量回归(SVR)模型、马尔科夫模型(MM)及LSTM模型与FCNN模型的组合模型(LF-Net模型)作为多属性数据模型的对比模型;
S602:同时选用平均绝对误差(MAE)、均方根误差(RMSE)以及平均百分误差(MAPE)作为多属性数据模型和对比模型的评估指标,其中平均绝对误差(MAE)为:
均方根误差(RMSE)为:
平均百分误差(MAPE)为:
其中,yi为列车晚点观测值,为模型拟合值,N为样本量。
与现有技术相比,本发明的有益效果为:利用待处理高速铁路区段的历史运营数据,将历史数据进行属性判断后,通过采用Conv-LSTM模型、LSTM模型和FCNN模型三种模型进行建模,使得最终建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系,实现对交通工具产生的多属性数据的建模。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于深度学习的多属性数据建模方法的流程示意图;
图2是本发明中作为举例选用的高速铁路线路图;
图3是各模型对武广线预测的均方根误差(RMSE)对比图;
图4是各模型对武广线预测的平均绝对误差(MAE)对比图;
图5是各模型对武广线预测的平均百分误差(MAPE)对比图;
图6是各模型对厦深线预测的均方根误差(RMSE)对比图;
图7是各模型对厦深线预测的平均绝对误差(MAE)对比图;
图8是各模型对厦深线预测的平均百分误差(MAPE)对比图;
图9是CNN模型的工作原理图;
图10是LSTM模型的结构示意图;
图11是时间序列数据输入LSTM转换示意图;
图12是Conv-LSTM输入数据格式转换图。
具体实施方式
以下将参照附图,通过实施例方式详细地描述本发明提供的一种基于深度学习的多属性数据建模方法。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
实施例:
本实施例提供一种基于深度学习的多属性数据建模方法,如图1所示,包括以下步骤:
S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素Xk,k∈{1,2,…,K}及列车晚点观测值,其中K为提取晚点因素个数。应当理解的是,在步骤S1前,需基于站点确定一高速铁路区段为研究对象,列车晚点的影响因素Xk的提取需根据高速铁路的晚点情况进行确定。
作为举例,本文所用的列车运行实绩数据来源于中国铁路广州局集团有限公司(以下简称广铁集团)所管辖的武广及厦深高速铁路,其线路图如图2所示。其中武广高速铁路全长1069km,共设18个车站,设计时速350km/h,运营速度310km/h;厦深高速铁路全长514km,共设18个车站,设计时速250km/h,运营速度200km/h。所有列车运行实绩数据均从广铁集团高铁调度中心列车监督系统获得,该系统记录了每天各次列车的车次、到发通过车站、每次列车在每个车站的图定与实际到发通过时刻、最高列车运行速度、平均行车速度等。本文使用的历史运营数据包括武广高速铁路广州南站至衡阳东共9个车站、8个区间以及厦深高速铁路惠东-潮汕站共9个车站,8个区间,从2015年3月到2016年11月的列车运行记录。该时段内,武广高速铁路广州南-衡阳东开行列车57796列,厦深高速惠东-潮汕区段铁路开行列车41186列。
在步骤S1中,影响因素Xk包括但不限制于为设备因素、计划运行图相关因素和实际运行图相关因素,其中所述设备因素包括但不限于为车站股道数X1和区间长度X2,所述计划运行图相关因素包括但不限于为区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5,所述实际运行图相关因素包括但不限于为列车已知晚点状态X6。
S2:判断影响因素Xk的属性,其中影响因素Xk的属性包括时空特性数据、时间序列数据和静态数据。
在步骤S2中,影响因素Xk的属性判断标准如下:车站股道数X1和区间长度X2为静态数据,区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5为时间序列数据,列车已知晚点状态X6为时空特性数据。
S3:根据影响因素Xk的属性的不同,将时空特性数据输入卷积循环神经网络(Convolutional Long Short-term Memory,Conv-LSTM)模型,将时间序列数据输入长短期记忆网络(Long Short-term Memory,LSTM)模型,将静态数据输入全连接前馈神经网络(Fully-connected Neural Network,FCNN)模型。
应当理解的是,Conv-LSTM模型为专门处理具有空间关系的数据的神经网络,LSTM模型为专门处理时间序列的神经网络,FCNN模型为处理静态数据的神经网络。将该模型用于交通问题建模时,时空序列被输入Conv-LSTM模型以识别数据中的时空依赖性,时间序列数据被输入LSTM模型,其他静态数据被输入FCNN模型。如列车晚点状态预测过程中,影响因素Xk可以确定有设备因素(车站股道数X1,区间长度X2)、计划运行图相关因素(区间计划运行时间X3,当前站计划出发间隔时间X4,预测站计划到达间隔时间X5),实际运行图相关因素(列车已知晚点状态X6)等。当用该模型预测列车晚点状态时,X1、X2为静态数据,被输入FCNN模型;X3、X4、X5为时间序列数据,其被输入LSTM模型;X6为时空关系数据,其被输入Conv-LSTM模型。
S4:基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数,筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m1及各层神经元数n1、LSTM模型中具有最小损失函数值的神经元层数m2及各层神经元数n2、和FCNN模型中具有最小损失函数值的神经元层数m3及各层神经元数n3。
作为举例,本文得到的交叉验证结果如表1和2所示,由表结果可知,在该列车运行数据下模型选用神经元层数为2层的Conv-LSTM模型,每层有50神经元;神经元层数为3层的LSTM模型,每层有70神经元;神经元层数为3层的FCNN模型,每层有30神经元。
神经元类别 | 1层 | 2层 | 3层 | 4层 | 5层 |
Conv-LSTM | 0.578 | 0.550 | 0.553 | 0.553 | 0.556 |
LSTM | 0.586 | 0.563 | 0.550 | 0.559 | 0.565 |
FCNN | 0.568 | 0.556 | 0.550 | 0.554 | 0.556 |
表1神经元层数选择
表2每层神经元数选择
步骤S4的具体步骤如下:
S401:利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合,融合得到一个多维向量。需要说明的是,融合过程是将Conv-LSTM模型、LSTM模型和FCNN模型三部分的输出向量融合为一个多维向量;作为举例,如三部分输出的张量分别为[1,2],[3,4],[5,6],融合后得到的张量即为
[1,2,3,4,5,6]。模型融合的作用主要是使得多个多维向量变为一个多维向量,则可将该多维向量输入FCNN神经元,输出得到融合模型。
S402:将融合得到的多维向量传入单FCNN神经元,由单FCNN神经元输出得到模型拟合值并得到最终融合模型。
S403:根据模型拟合值及列车晚点观测值yi确定融合模型的损失函数。进一步的,在步骤S403中,选用模型拟合值与列车晚点观测值yi的均方误差作为损失函数:
其中,yi为列车晚点观测值,为模型拟合值,N为样本量;然后利用误差反向传播算法对融合模型进行训练。
融合模型的所有神经元激活函数均选用Keras深度学习库中的高级激活函数Prelu,在训练过程中确定非线性系数:
其中,x为神经元权w与输入数据的乘积再加上偏置(w*x+b)。
进一步的,在本步骤后,还包括以下步骤:
对Conv-LSTM输入中的l1和l2参数进行优化,设置l1和l2备选参数同时为[1,2,3,4,5],基于交叉验证选择最优l1和l2,其中l1表示每张图片里包含的列车数量,l2为LSTM模型的时间步长,优化结果如表3所示:
参数 | 1 | 2 | 3 | 4 | 5 |
l<sub>1</sub> | 0.576 | 0.550 | 0.555 | 0.560 | 0.555 |
l<sub>2</sub> | 0.564 | 0.550 | 0.562 | 0.560 | 0.559 |
表3l1和l2参数选择
S404:将时空特性数据、时间序列数据和静态数据作为数据集,然后将数据集分为训练集及测试集对融合模型进行训练,其中训练基于误差反向传播算法对融合模型进行;然后分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。
在步骤S404中,由于需要考虑列车间相互作用关系,将当前高速铁路区段中到达车站的时间排序为前70%的列车的数据集作为训练集,将当前高速铁路区段中到达车站的时间排序为后30%的列车的数据集作为测试集。
S5:选定神经元层数为m1层且每层为n1个神经元的Conv-LSTM模型、神经元层数为m2层且每层为n2个神经元的LSTM模型、和神经元层数为m3层且每层为n3个神经元的FCNN模型为最终的多属性数据模型。
进一步的,为了系统地验证多属性数据模型的应用能力,所述的一种基于深度学习的多属性数据建模方法还包括以下步骤:
S6:对最终的多属性数据模型进行评估。应当理解的是,可选用任意区段的高速铁路,如选用武广高速铁路以及厦深高速两条高速铁路,再根据由步骤S5得到的多属性数据模型对其各站列车晚点进行实时预测测试。
进一步的,步骤S6的具体步骤如下:
S601:将人工神经网络(ANN)模型、支持向量回归(SVR)模型、马尔科夫模型(MM)及LSTM模型与FCNN模型的组合模型(LF-Net模型)作为多属性数据模型的对比模型;
S602:同时选用平均绝对误差(MAE)、均方根误差(RMSE)以及平均百分误差(MAPE)作为多属性数据模型和对比模型的评估指标,其中平均绝对误差(MAE)为:
均方根误差(RMSE)为:
平均百分误差(MAPE)为:
其中,yi为列车晚点观测值,为模型拟合值,N为样本量。
作为举例,本实施例中得到的模型预测结果如图3-8所示。其中图3为各模型对武广线预测的均方根误差(RMSE)对比图、图4为各模型对武广线预测的平均绝对误差(MAE)对比图、图5为各模型对武广线预测的平均百分误差(MAPE)对比图、图6为各模型对厦深线预测的均方根误差(RMSE)对比图、图7为各模型对厦深线预测的平均绝对误差(MAE)对比图、图8为各模型对厦深线预测的平均百分误差(MAPE)对比图,图中,误差指标后缀“@D”表示指标在所有晚点列车测试集上计算得到;后缀“@20%”表示指标在最大20%晚点列车测试集上计算得到。
综上所述,本建模方法利用待处理区段高速铁路的历史运营数据,将历史数据进行属性判断后,通过采用Conv-LSTM模型、LSTM模型和FCNN模型三种模型进行建模,使得最终建立完成的多属性数据模型能够有效识别时间序列的时间依赖关系以及时空数据的时空依赖关系,实现对交通工具产生的多属性数据的建模。
下面分别对Conv-LSTM模型、LSTM模型和FCNN模型进行介绍。
如图9所示,CNN是专门被提出来识别图像的深度学习算法。卷积神经网络的卷积核是局部连接的,卷积核每次扫过图像的多个像素点而非单个像素点,使得卷积神经网络可以有效地识别图像(图像中各物体的形状、空间位置关系等)。CNN首先将输入具有空间关系的数据(如二维图像)转换为三维格式(长度、宽度、深度),输入黑白图像其深度为1,输入的彩色图像其深度为3(RGB)。CNN卷积核遍及完整张图片并在其结果上加入偏置项,且输入激活函数以映射其非线性关系得到一个特征平面hk:
其中,*为卷积核,Wk为神经元权重,x为输入,m、n为卷积核长和宽,σ(x)为激活函数。
LSTM是循环神经网络(Recurrent Neural Network,RNN)的变形。其具有反馈机制,其任意时间步t的神经元输出结果均是基于当前时间步的输入xt以及上一时间步神经元的输出结果得到。LSTM是在RNN基础上为了解决时间序列长依赖问题提出的具有门限机制的RNN。LSTM结构如图10所示。LSTM的记忆功能主要通过改变其记忆单元状态ct来实现。其记忆单元状态由其三个控制门决定(输入控制门、忘记控制门、输出控制门),通过操控控制门可以使ct被重新写入、利用以及删除。当输入控制门开启时,输入信息可以进入到ct;当忘记控制门开启时,ct可以被忘记(即ct清零);当输出控制门开启时,ct便可以被输出。其中:
it=σ(Wxixt+Whiht-1+Wcie ct-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfe ct-1+bf)
ct=fte ct-1+ite tanh(Wxcxt+Whcht-1+bc)
Ot=σ(Wxoxt+Whoht-1+Wcoe ct+bO)
ht=ote tanh(ct)
其中,e表示向量元素逐乘;tanh(x)为门限函数,其值域为[0,1],表示多少信息被进入/忘记/清除。σ(x)为用以处理非线性关系的激活函数。w为神经元权重,b为神经元偏置,xt为模型t步输入,ht为模型t步输出,ct为神经元t步状态。
如图11所示,时间序列输入LSTM前首先被转化为步长相同的序列。在图11中,X代表输入,y代表输出,l序列长度(时间步长)。
CNN与LSTM一个能处理具有空间属性的数据,一个能处理时间属性的数据,但它们均不能处理具有时空关系的数据。因此,本研究考虑使用结合了CNN与LSTM模型优点的Conv-LSTM模型来处理具有时空属性的数据。Conv-LSTM将图片视作为序列,其数学原理如下公式所示:
it=σ(Wxi*xt+Whi*ht-1+Wcie ct-1+bi)
ft=σ(Wxf*xt+Whf*ht-1+Wcfe ct-1+bf)
ct=fte ct-1+ite tanh(Wxc*xt+Whc*ht-1+bc)
Ot=σ(Wxo*xt+Who*ht-1+Wcoe ct+bO)
ht=ote tanh(ct)
其中,*为卷积运算,⊙为张量的各元素相乘。
时空变量首先被转化为序列形式的图片,如图12所示。其中l1表示每张图片里包含的列车数量,l2为LSTM模型的时间步长Conv-LSTM将一系列图片视作为序列(图12中,每张图片中包含4列车,时间步长为3)。Conv-LSTM的中间步输出也为图片格式,其每一步输出的图片均是基于前面步骤的图片的结果。因此,Conv-LSTM同时具有CNN以及LSTM的优点,可以处理时空类型数据。
在FCNN模型中,相邻层之间的神经元为全连接神经元,输入数据信息由输入层传播至输出层。通过计算模型拟合值与列车晚点观测值之间的差异得到拟合误差,通过反向传播误差更新各神经元权重与偏置。FCNN与LSTM的差异在于LSTM输出层以输入层之间反向连接。对于FCNN的输入,将l列车的静态变量横向连接即可(l与图7中l相同)。即若每列车静态变量有S个,那么连接后即为l*S。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于深度学习的多属性数据建模方法,其特征在于:包括以下步骤:
S1:根据当前高速铁路区段的历史运营数据,提取列车晚点的影响因素Xk,k∈{1,2,…,K}及列车晚点观测值,其中K为提取晚点因素个数;
S2:判断影响因素Xk的属性,其中影响因素Xk的属性包括时空特性数据、时间序列数据和静态数据;
S3:根据影响因素Xk的属性的不同,将时空特性数据输入卷积循环神经网络(Conv-LSTM)模型,将时间序列数据输入长短期记忆网络(LSTM)模型,将静态数据输入全连接前馈神经网络(FCNN)模型;
S4:基于交叉验证分别优化Conv-LSTM模型的神经元层数及各层神经元数、LSTM模型的神经元层数及各层神经元数、和FCNN模型的神经元层数及各层神经元数,筛选出Conv-LSTM模型中具有最小损失函数值的神经元层数m1及各层神经元数n1、LSTM模型中具有最小损失函数值的神经元层数m2及各层神经元数n2、和FCNN模型中具有最小损失函数值的神经元层数m3及各层神经元数n3;
S5:选定神经元层数为m1层且每层为n1个神经元的Conv-LSTM模型、神经元层数为m2层且每层为n2个神经元的LSTM模型、和神经元层数为m3层且每层为n3个神经元的FCNN模型为最终的多属性数据模型。
2.根据权利要求1所述的一种基于深度学习的多属性数据建模方法,其特征在于:在步骤S1中,影响因素Xk包括设备因素、计划运行图相关因素和实际运行图相关因素,所述设备因素包括车站股道数X1和区间长度X2,所述计划运行图相关因素包括区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5,所述实际运行图相关因素包括列车已知晚点状态X6。
3.根据权利要求2所述的一种基于深度学习的多属性数据建模方法,其特征在于:在步骤S2中,影响因素Xk的属性判断标准如下:车站股道数X1和区间长度X2为静态数据,区间计划运行时间X3、当前站计划出发间隔时间X4和预测站计划到达间隔时间X5为时间序列数据,列车已知晚点状态X6为时空特性数据。
4.根据权利要求1所述的一种基于深度学习的多属性数据建模方法,其特征在于:步骤S4的具体步骤如下:
S401:利用Keras深度学习库将Conv-LSTM模型、LSTM模型和FCNN模型进行融合,融合得到一个多维向量;
S402:将融合得到的多维向量传入单FCNN神经元,由单FCNN神经元输出得到模型拟合值并得到最终融合模型;
S403:根据模型拟合值及列车晚点观测值yi确定融合模型的损失函数;
S404:将时空特性数据、时间序列数据和静态数据作为数据集,然后将数据集分为训练集及测试集对融合模型进行训练,分别选择Conv-LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、LSTM模型在测试集上损失函数最小的神经元层数及各层神经元数、和FCNN模型在测试集上损失函数最小的神经元层数及各层神经元数。
5.根据权利要求4所述的一种基于深度学习的多属性数据建模方法,其特征在于:在步骤S403中,选用模型拟合值与列车晚点观测值yi的均方误差作为损失函数:
其中,yi为列车晚点观测值,为模型拟合值,N为样本量;然后利用误差反向传播算法对融合模型进行训练。
6.根据权利要求4所述的一种基于深度学习的多属性数据建模方法,其特征在于:在步骤S404中,将当前高速铁路区段中到达车站的时间排序为前70%的列车的数据集作为训练集,将当前高速铁路区段中到达车站的时间排序为后30%的列车的数据集作为测试集。
7.根据权利要求5所述的一种基于深度学习的多属性数据建模方法,其特征在于:所述的一种基于深度学习的多属性数据建模方法还包括以下步骤:
S6:对最终的多属性数据模型进行评估。
8.根据权利要求7所述的一种基于深度学习的多属性数据建模方法,其特征在于:步骤S6的具体步骤如下:
S601:将人工神经网络(ANN)模型、支持向量回归(SVR)模型、马尔科夫模型(MM)及LSTM模型与FCNN模型的组合模型(LF-Net模型)作为多属性数据模型的对比模型;
S602:同时选用平均绝对误差(MAE)、均方根误差(RMSE)以及平均百分误差(MAPE)作为多属性数据模型和对比模型的评估指标,其中平均绝对误差(MAE)为:
均方根误差(RMSE)为:
平均百分误差(MAPE)为:
其中,yi为列车晚点观测值,为模型拟合值,N为样本量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811488860.9A CN109635246B (zh) | 2018-12-06 | 2018-12-06 | 一种基于深度学习的多属性数据建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811488860.9A CN109635246B (zh) | 2018-12-06 | 2018-12-06 | 一种基于深度学习的多属性数据建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635246A true CN109635246A (zh) | 2019-04-16 |
CN109635246B CN109635246B (zh) | 2021-07-13 |
Family
ID=66071566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811488860.9A Expired - Fee Related CN109635246B (zh) | 2018-12-06 | 2018-12-06 | 一种基于深度学习的多属性数据建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635246B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287294A (zh) * | 2020-09-10 | 2021-01-29 | 河海大学 | 一种基于深度学习的时空双向土壤含水量插值方法 |
WO2021070108A1 (en) * | 2019-10-11 | 2021-04-15 | International Business Machines Corporation | Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory |
CN113815679A (zh) * | 2021-08-27 | 2021-12-21 | 北京交通大学 | 一种高速列车自主驾驶控制的实现方法 |
US11417424B2 (en) | 2019-10-11 | 2022-08-16 | International Business Machines Corporation | Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory and multiple instance learning |
CN117516927A (zh) * | 2024-01-05 | 2024-02-06 | 四川省机械研究设计院(集团)有限公司 | 齿轮箱故障检测方法、系统、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055131A1 (en) * | 2009-08-28 | 2011-03-03 | Hung-Han Chen | Method of universal computing device |
CN102737508A (zh) * | 2012-06-19 | 2012-10-17 | 银江股份有限公司 | 一种融合svm与bp神经网络的城市道路交通状态检测方法 |
US20160124906A1 (en) * | 2013-06-07 | 2016-05-05 | Yandex Europe Ag | Methods and systems for representing a degree of traffic congestion using a limited number of symbols |
CN106777752A (zh) * | 2016-12-30 | 2017-05-31 | 华东交通大学 | 一种高速列车追踪运行曲线优化设定方法 |
CN107563426A (zh) * | 2017-08-25 | 2018-01-09 | 清华大学 | 一种机车运行时序特征的学习方法 |
CN107705556A (zh) * | 2017-09-01 | 2018-02-16 | 南京邮电大学 | 一种基于支持向量机和bp神经网络结合的交通流预测方法 |
CN108764526A (zh) * | 2018-04-20 | 2018-11-06 | 西南交通大学 | 一种基于列车运行秩序的列车晚点人工神经网络识别方法 |
CN108875161A (zh) * | 2018-05-31 | 2018-11-23 | 长江勘测规划设计研究有限责任公司 | 基于卷积神经网络深度学习的流量等级预测方法 |
CN108898838A (zh) * | 2018-08-03 | 2018-11-27 | 首都经济贸易大学 | 一种基于lstm模型的机场交通拥堵预测方法及装置 |
-
2018
- 2018-12-06 CN CN201811488860.9A patent/CN109635246B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055131A1 (en) * | 2009-08-28 | 2011-03-03 | Hung-Han Chen | Method of universal computing device |
CN102737508A (zh) * | 2012-06-19 | 2012-10-17 | 银江股份有限公司 | 一种融合svm与bp神经网络的城市道路交通状态检测方法 |
US20160124906A1 (en) * | 2013-06-07 | 2016-05-05 | Yandex Europe Ag | Methods and systems for representing a degree of traffic congestion using a limited number of symbols |
CN106777752A (zh) * | 2016-12-30 | 2017-05-31 | 华东交通大学 | 一种高速列车追踪运行曲线优化设定方法 |
CN107563426A (zh) * | 2017-08-25 | 2018-01-09 | 清华大学 | 一种机车运行时序特征的学习方法 |
CN107705556A (zh) * | 2017-09-01 | 2018-02-16 | 南京邮电大学 | 一种基于支持向量机和bp神经网络结合的交通流预测方法 |
CN108764526A (zh) * | 2018-04-20 | 2018-11-06 | 西南交通大学 | 一种基于列车运行秩序的列车晚点人工神经网络识别方法 |
CN108875161A (zh) * | 2018-05-31 | 2018-11-23 | 长江勘测规划设计研究有限责任公司 | 基于卷积神经网络深度学习的流量等级预测方法 |
CN108898838A (zh) * | 2018-08-03 | 2018-11-27 | 首都经济贸易大学 | 一种基于lstm模型的机场交通拥堵预测方法及装置 |
Non-Patent Citations (4)
Title |
---|
HAIYANG YU 等: "Spatiotemporal Recurrent Convolutional Networks for Traffic Prediction in Transportation Networks", 《SENSORS》 * |
YUANZHE FU 等: "High-Speed Railway Bogie Fault Diagnosis Using LSTM Neural Network", 《PROCEEDINGS OF THE 37TH CHINESE CONTROL CONFERENCE》 * |
庄河 等: "基于高速列车运行实绩的致因-初始晚点时长分布模型", 《铁道学报》 * |
黄平 等: "武广高速铁路列车晚点恢复时间预测的随机森林模型", 《铁道学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021070108A1 (en) * | 2019-10-11 | 2021-04-15 | International Business Machines Corporation | Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory |
US11195273B2 (en) | 2019-10-11 | 2021-12-07 | International Business Machines Corporation | Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory |
CN114503213A (zh) * | 2019-10-11 | 2022-05-13 | 国际商业机器公司 | 使用卷积长短期记忆从弱注释的卷式医学图像检测疾病 |
US11417424B2 (en) | 2019-10-11 | 2022-08-16 | International Business Machines Corporation | Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory and multiple instance learning |
GB2604503A (en) * | 2019-10-11 | 2022-09-07 | Ibm | Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory |
CN114503213B (zh) * | 2019-10-11 | 2024-03-08 | 玛雷迪夫美国公司 | 使用卷积长短期记忆从弱注释的卷式医学图像检测疾病 |
GB2604503B (en) * | 2019-10-11 | 2023-12-20 | Merative Us L P | Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory |
CN112287294B (zh) * | 2020-09-10 | 2024-02-27 | 河海大学 | 一种基于深度学习的时空双向土壤含水量插值方法 |
CN112287294A (zh) * | 2020-09-10 | 2021-01-29 | 河海大学 | 一种基于深度学习的时空双向土壤含水量插值方法 |
CN113815679A (zh) * | 2021-08-27 | 2021-12-21 | 北京交通大学 | 一种高速列车自主驾驶控制的实现方法 |
CN113815679B (zh) * | 2021-08-27 | 2023-01-13 | 北京交通大学 | 一种高速列车自主驾驶控制的实现方法 |
CN117516927A (zh) * | 2024-01-05 | 2024-02-06 | 四川省机械研究设计院(集团)有限公司 | 齿轮箱故障检测方法、系统、设备及存储介质 |
CN117516927B (zh) * | 2024-01-05 | 2024-04-05 | 四川省机械研究设计院(集团)有限公司 | 齿轮箱故障检测方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109635246B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635246A (zh) | 一种基于深度学习的多属性数据建模方法 | |
Noaeen et al. | Reinforcement learning in urban network traffic signal control: A systematic literature review | |
Wu et al. | Distributed agent-based deep reinforcement learning for large scale traffic signal control | |
CN108229685A (zh) | 一种空地一体的无人智能决策方法 | |
CN113704956A (zh) | 一种基于数字孪生技术的城市道路在线微观仿真方法及系统 | |
CN109508751A (zh) | 高速铁路列车晚点时间预测的深度神经网络模型建模方法 | |
Wu et al. | Dynstgat: Dynamic spatial-temporal graph attention network for traffic signal control | |
Wang et al. | Learning performance prediction via convolutional GRU and explainable neural networks in e-learning environments | |
Chen et al. | Applying Artificial Intelligence and Deep Belief Network to predict traffic congestion evacuation performance in smart cities | |
CN110281949B (zh) | 一种自动驾驶统一分层决策方法 | |
Li et al. | Train timetabling with the general learning environment and multi-agent deep reinforcement learning | |
Zhao et al. | A novel approach for traffic signal control: A recommendation perspective | |
Dai et al. | Spatio-temporal deep learning framework for traffic speed forecasting in IoT | |
Hickling et al. | Explainability in deep reinforcement learning: A review into current methods and applications | |
CN116643877A (zh) | 算力资源调度方法、算力资源调度模型的训练方法和系统 | |
Meftah et al. | A virtual simulation environment using deep learning for autonomous vehicles obstacle avoidance | |
CN116257751A (zh) | 基于在线协作与特征融合的蒸馏方法与装置 | |
CN115981302A (zh) | 车辆跟驰换道行为决策方法、装置及电子设备 | |
Shaheen et al. | Role and key applications of artificial intelligence & machine learning in transportation | |
CN112947466B (zh) | 一种面向自动驾驶的平行规划方法、设备及存储介质 | |
CN115719547A (zh) | 基于多重交互行为的交通参与者轨迹预测方法及系统 | |
Yao et al. | Regional attention reinforcement learning for rapid object detection | |
Chen et al. | Train delay prediction based on a multimodal deep-learning method | |
Alajlan et al. | Using neural networks and genetic algorithms for predicting human movement in crowds | |
Reddy et al. | Agent-Driven Traffic Light Sequencing System Using Deep Q-Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210713 Termination date: 20211206 |