CN115222113B - 基于cnn-lstm的铁路区域货运量短期预测方法 - Google Patents
基于cnn-lstm的铁路区域货运量短期预测方法 Download PDFInfo
- Publication number
- CN115222113B CN115222113B CN202210783353.8A CN202210783353A CN115222113B CN 115222113 B CN115222113 B CN 115222113B CN 202210783353 A CN202210783353 A CN 202210783353A CN 115222113 B CN115222113 B CN 115222113B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- freight
- cnn
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000001965 increasing effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000009440 infrastructure construction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000008092 positive effect Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000010206 sensitivity analysis Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000003442 weekly effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000003245 coal Substances 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 241000512668 Eunectes Species 0.000 description 1
- 108010014173 Factor X Proteins 0.000 description 1
- 229910000628 Ferrovanadium Inorganic materials 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- PNXOJQQRXBVKEX-UHFFFAOYSA-N iron vanadium Chemical compound [V].[Fe] PNXOJQQRXBVKEX-UHFFFAOYSA-N 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于CNN‑LSTM的铁路区域货运量短期预测方法,包括如下步骤:步骤一、建立影响因素数据仓库;步骤二、确定关键影响因素;步骤三、对关键影响因素数据与货运量数据进行预处理,并将预处理后的数据进行训练集和测试集的划分;步骤四、构建基于CNN‑LSTM的铁路区域货运量近短期预测模型,设置模型初始参数值,使用训练集对模型进行超参数优化,得到最优模型;步骤五、将测试集导入训练好的最优模型,输出预测结果并评估模型质量。与现有技术相比,本发明的积极效果是:本发明的多变量CNN‑LSTM组合预测模型充分考虑了区域货运量与影响因素的相关性,从而能有效提高铁路区域货运量近短期预测精度。
Description
技术领域
本发明涉及一种基于CNN-LSTM的铁路区域货运量短期预测方法。
背景技术
伴随铁路路网规模的不断扩大、信息技术的飞速发展,铁路货运运营管理模式从粗放型逐步转型为精细型。精细化的铁路货运运营管理模式是铁路企业营利性目标驱动下应对愈加个性化运输服务市场的必然选择,也是铁路社会责任驱使下响应当前社会可持续绿色发展号召的首要选择。目前精细化的铁路货运运营管理主要体现在作业流程的细化和标准化、货站运营作业的优化,以及应用信息系统实现数字化智能化管理控制等,尚未在铁路货运营销领域开展精细化管理,铁路货运量的精细监控对提高铁路运输组织作业效率、提升列车方案开行的经济效益产出有重要意义。因此,有必要对铁路货运量进行预测,一是为铁路行车组织提供决策支持,二是为物流基础设施的配备和铁路物流服务的开展提供信息支持。
以往铁路货运量预测大多以铁路总公司、铁路分公司为单位,对铁路区域货运量预测的研究较少。且现有铁路货运量预测模型中的影响因素选取尚未考虑区域社会经济特征与铁路货运与发送商品之间的关联性,仅孤立地考虑社会经济要素。对于非线性、非平稳、随机性的铁路货运流时序数据,CNN-LSTM模型将CNN的关联特征提取能力和LSTM的时序特征提取能力结合,在铁路货运量短期预测方面的应用为空白。因此,本发明提出一种基于CNN-LSTM的铁路区域货运量短期预测方法,以区域为视角,输入区域与铁路货运量高度关联的特征数据集,并构建CNN-LSTM网络模型,实现多维度特征数据的高精度短期区域货运量预测,是本发明创造的主要内容。
发明内容
为了克服现有技术的上述缺点,本发明提出了一种基于CNN-LSTM的铁路区域货运量短期预测方法。该方法以区域为立足点,考虑铁路货运量与其影响因素的关联特性以及历史货运量本身的序列依赖性,采用灰色关联分析方法确定与铁路区域货运量密切相关的影响因素,构建影响因素数据仓库,基于铁路历史货运数据及其影响因素建立多变量CNN-LSTM组合预测模型。进一步,搜集铁路区域货运量影响因素数据,与铁路货运量、货运价格数据进行统一数据预处理,将处理后的数据输入至构建的CNN-LSTM组合短期预测模型中进行训练,得到区域(市)铁路货运量的周预测结果,并进行模型质量评价,实现对区域铁路货运量高效、精准的周预测。
本发明解决其技术问题所采用的技术方案是:一种基于CNN-LSTM的铁路区域货运量短期预测方法,包括如下步骤:
步骤一、建立影响因素数据仓库,影响因素包含内部影响因素和外部影响因素,其中:内部影响因素来源于指铁路货运系统内部,包括铁路基础设施建设、经营管理水平、铁路从业人员数量、铁路货运运价;外部影响因素包括宏观经济、区域经济、大宗商品、交通运输结构;
步骤二、确定关键影响因素;
步骤三、对关键影响因素数据与货运量数据进行预处理,并将预处理后的数据进行训练集和测试集的划分;
步骤四、构建基于CNN-LSTM的铁路区域货运量近短期预测模型,设置模型初始参数值,使用训练集对模型进行超参数优化,得到最优模型;其中,基于CNN-LSTM的多变量铁路货运量近短期预测模型的基本结构包括输入层、隐含层以及输出层;首先,将数据组织为模型能够识别的形式并通过输入层导入模型;随后核心部分隐含层进行处理,其中CNN层解析货运量与其影响因素之间的关联特征,继而LSTM层提取时序数据在时间维上的特征;然后通过Dense层增加模型的复杂度,并将数据从高维映射到低维,保留有用信息;同时,在每层之后连接一个Dropout层用于增强模型的鲁棒性并防止模型过拟合;最后,通过输出层输出预测值;模型的输入为货运量xt、xt-1、…、xt-λ+1和关键影响因素ft (i)、(i=1,2,3,...k)所构成的二维矩阵,且二维矩阵大小为(λ,k+1);使用训练集对模型进行超参数优化的方法包括如下步骤:
第一步,确定卷积核大小以及池化方式;
第二步,初始化CNN-LSTM模型的权值和偏置;
第三步,将训练集数据导入CNN-LSTM模型,使用前向传播算法计算模型输出结果;
第四步,计算模型的输出结果与真实值之间的误差;
第五步,依据误差使用后向传播算法计算梯度;
第六步,根据梯度大小对参数进行更新;
第七步,重复第三步至第六步,直到满足训练结束条件;
步骤五、将测试集导入训练好的最优模型,输出预测结果并评估模型质量。
与现有技术相比,本发明的积极效果是:
本发明提供了一种高精度的铁路区域货运量近短期预测方法,该方法以区域为立足点,考虑区域社会经济情况、竞争对手情况、铁路货运情况对铁路区域货运量影响的基础上,基于历史时序数据形成铁路区域货运量影响因素指标体系和数据仓库,构建和训练CNN-LSTM模型,实现对区域铁路货运量高效、精准的周预测,由此辅助铁路运营部门提前预知货流量的大小,从而提升区域节点的运力组织能力,提高货物运输组织效率。达到既能合理安排运力,降低成本,又能及时响应市场,提高经济效益的效果。具体优点如下:
1.特征方面,本发明将区域(市)最大货运量运输商品所在行业的人数纳入铁路货运量影响因素特征集,采用灰色关联法筛选出与铁路区域货运量密切相关的影响因素,创新性地构建了铁路区域货运量影响因素指标体系,精准反映了区域行业情况与铁路区域货运量的关联。
2.模型方面,本发明通过构建CNN-LSTM模型高效集成多维数据特征,提取影响因素关联特征、拟合货运量非线性变动特征的性能优越,预测短期铁路区域货运量精度较高。
3.现实层面,基于CNN-LSTM模型的铁路区域货运量短期预测方法能为铁路行车组织、区域物流基础设施的规划以及区域经济政策的制定提供决策支持。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为基于CNN-LSTM模型的铁路区域货运量短期预测技术流程图;
图2为使用滑动窗口进行样本扩充示例;
图3为LSTM神经元结构;
图4为LSTM模型神经元间信息的链式传递;
图5为卷积神经网络结构;
图6为模型输入数据结构;
图7为CNN-LSTM模型结构;
图8为CNN-LSTM模型训练流程图;
图9为基于CNN-LSTM模型的铁路区域货运量近短期预测结果图。
具体实施方式
一种基于CNN-LSTM的铁路区域货运量短期预测方法,如图1所示,包括如下步骤:
步骤一:确定铁路区域货运量影响因素,建立影响因素指标集;包括内部影响因素和外部影响因素,其中外部影响因素又可分为宏观经济、大宗商品、交通运输结构、消费水平以及其他,基于灰色关联分析求解各影响因素与货运量的关联度,并根据关联度阈值选取关键影响因素;
步骤二:建立影响因素数据仓库,从行业数据库、统计数据库、95306调取影响因素指标对应的数据,如国家和区域(省市)经济社会数据、其他交通方式数据以及铁路货运运价数据;
步骤三:将关键影响因素数据与货运量数据进行拼合得到组合序列,并进一步进行数据预处理,包括:归一化、重构为监督学习、划分训练集和测试集,构建多维数据集;
步骤四:构建基于CNN-LSTM的多变量铁路货运量近短期预测模型,设置模型初始参数值,使用训练集对CNN-LSTM多变量预测模型进行超参数优化,得到最优模型;将测试集应用于训练好的预测模型,将预测值进行反归一化处理,使其与真实值处于同一量级,输出预测结果、输出预测误差曲线和真实值与预测值的拟合曲线图评估模型预测质量。
所述步骤一中建立的铁路区域货运量影响因素包含内部影响因素和外部影响因素。内部影响因素来源于指铁路货运系统内部,一般包括铁路基础设施建设、经营管理水平、铁路从业人员数量、铁路货运运价等。外部影响因素包括宏观经济、区域经济、大宗商品、交通运输结构,其中宏观经济包括GDP、第一产业增加值、第二产业增加值、第三产业增加值等;外部影响因素中的大宗商品包括煤炭、石油、钢铁、金属矿石、粮食、化肥等的产量和价格;外部影响因素中的交通运输结构包括公路货运量、水路货运量、航空货运量等;外部影响因素中的区域经济包括人口数量、居民消费水平、发电量、PPI等。需要注意的是,不仅仅局限于这些因素且这些因素也并非缺一不可,而是根据预测区域特征进行灵活增减。
所述步骤一中的灰色关联分析具体步骤如下:
(1)反映系统特征的参考数列为货运量Y,Y=y(k)|k=1,2,3,…n;影响系统特征的比较数列为影响因素Xi,Xi=xi(k)|k=1,2,3…n;i=1,2,3,…m;由于系统中原始数据列的计量单位和数量级不尽相同,为了使各数据列具有可比性,因而采用min-max法对原始数据列进行无量纲化处理,计算公式如下:
式中:min y为原始参考序列Y中的最小值;max y为原始参考序列Y中的最大值。
式中:minxi为原始比较序列Xi中的最小值;maxxi为原始比较序列Xi中的最大值。
(2)计算各个比较数列与参考数列在第k点的关联系数,计算公式如下:
式中:|y(k)-xi(k)|为差序列;mini mink|y(k)-xi(k)|和maxi maxk|y(k)-xi(k)|;ρ为分辨系数,取ρ=0.5。
(3)将各个时刻的关联系数集中为一个值即关联度γi,计算公式如下:
(4)根据关联度γi数值的大小,将关联度进行排序,若γ1<γ2,则参考数列Y与比较数列X2的相关性比X1更强。
所述步骤三中的归一化采用min-max法,并使用滑动窗口将数据转化为监督学习形式。最后将前80%的数据作为训练集,余下的数据则作为测试集。
所述步骤四的基于CNN-LSTM的多变量铁路货运量预测模型其结构包括输入层、隐含层、输出层三层结构。首先,将数据组织为模型能够识别的形式并通过输入层导入模型。随后交给核心部分隐含层处理,其中CNN层解析货运量及其影响因素之间的关联特征,再使用LSTM层提取序列数据在时间上的特征,最后通过Dense层增加模型的复杂度,并将数据从高维映射到低维,保留有用信息。同时,在每层之后连接一个Dropout层用于增强模型的鲁棒性并防止模型过拟合。最后,通过输出层输出预测值。
所述步骤四的模型参数初始化,将卷积核的大小设置为3*3并采用平均池化,采用Adam算法作为模型的优化算法,使用MSE作为损失函数,激活函数采用ReLU,以及采用dropout方法防止模型过拟合。除此之外,还有步长、批量大小、迭代次数、filter数量、LSTM层神经元个数等超参数,分别对各个超参数进行敏感性分析。在对某一个超参数进行敏感性分析时,固定其它超参数的取值不变。
下面结合附图和实施例对本发明的技术方案做进一步说明。以我国某区域的铁路周货运量预测为实施例加以详细说明。应当指出,当本方法运用于不同时间或不同空间范围的铁路货运量预测时,只是数据样本不同,模型的训练与预测方法一致。
本发明是一种基于CNN-LSTM网络的铁路区域货运量近短期预测方法,包括如下步骤:
(1)铁路货运量影响因素范围界定
铁路货运系统作为一个复杂系统,受多源因素影响。而为了实现影响因素的有效分析,对铁路货运量影响因素的范围进行界定是必不可少的。从系统工程的角度来说,铁路货运量影响因素可以分为内部影响因素和外部影响因素。
内部影响因素主要包括铁路货车保有量、营运里程、电气化里程、复线里程等基础设施建设因素,以及铁路从业人员、经营管理水平、铁路货运运价等因素。
外部影响因素又可分为宏观经济、区域经济、大宗商品、交通运输结构、等方面。
(2)影响因素分析与筛选
考虑到铁路货运量的影响因素纷繁众多,且目前尚未形成较为统一的影响因素分析流程。为了兼顾铁路货运量影响因素分析的客观性与全面性,结合定性分析和灰色关联定量分析对货运量的影响因素进行确定。查找相关资料并结合预测背景初步选取铁路货运量影响因素,并将参考数列影响因素{Xi,i=1,2,3,…m}与比较数列货运量Y进行相关性分析,根据数列间的相关性程度筛选关键影响因素作为模型输入。
在本实例中,初步选取了GDP、第一产业增加值、第二产业增加值、第三产业增加值、PPI、CPI、钒铁价格、煤炭价格、铁矿石价格、钢铁价格、工业用电量、公路货运量、等级公路里程、高速公路里程、铁路营运里程、铁路电气化里程、铁路复线里程、当日平均运价、年末总人口、采矿业从业人数共20种影响因素。
利用Python编程软件编码求解各个影响因素与货运量的关联度,并根据关联度进行排序从而得到关联序。为了保证所选影响因素与货运量的强关联性,将关联度值低于0.83的影响因素予以剔除,最终确定了本实例的铁路货运量影响因素:采矿业从业人数、第二产业增加值、年末总人口、当日平均运价、高速公路里程、GDP、PPI。
(3)数据预处理
为保证数据的准确性并进一步将数据转化为模型能够识别的形式,需要对数据进行如下处理:数据降噪、数据重采样、数据拼合、归一化、重构为监督学习以及训练集测试集划分。
(3a)数据降噪
(3a1)去除无效数据
无效数据主要包括两部分:一是数据本身重复所导致的无效性;二是与本发明主题货运量预测相关性不强的货票属性也可视为无效数据。对于重复性的无效数据只需保留一条,其他数据直接删除,对于不需要的属性字段也直接剔除。
(3a2)确保数据一致性
对于发站和到站这类数据,由于各种原因存在站名变更的问题,为了确保数据的一致性,用新站名替代原有旧名。
(3a3)其它问题
除了上述问题外,数据中还存在部分0值以及空值情况,根据不同字段的具体含义采用相应的插值方法或者直接剔除。
(3b)数据重采样
本实例的原始货票数据为不同时刻生成的货票记录,而本实例的目的是以周为粒度进行预测,因此从时间粒度上来说有必要进行重采样。此外,由于获取数据的年份限制,如果严格按照每周进行采样,那么样本数据过少。为了扩充样本,同时又不破坏序列本身的时间先后顺序,本文以宽度为7、步长为1的滑动时间窗对日货运量数据进行滑动采样,如图2所示。
(3c)数据拼合
上文确定了本实例货运量的影响因素,为了实现基于历史货运量数据和影响因素数据的综合回归预测,需要将货运量数据与影响因素数据进行拼合。
(3d)归一化
由于原始数据的计量单位和数量级不尽相同,为了使各数据列具有可比性,使用min-max法对原始数据列进行无量纲化处理。
(3e)训练集测试集划分
建模过程中需要将数据划分为训练集和测试集。其中训练集用于对模型进行训练从而得到较优的模型参数,测试集用于对所确定的模型的性能进行评估。本实例将前80%的数据作为训练集,其他数据则作为测试集。
(4)构建CNN-LSTM网络预测模型
(4a)LSTM模型
RNN虽然在处理序列数据上具有独特的优势,但在后面的发展过程中也逐渐显露出了一些问题。主要包括两方面:一是前向过程中的短时记忆局限,由于网络本身结构的影响,早期的循环神经网络无法将前面时间步的信息很好的传递下去;二是反向过程中的训练困难,学习率的指数效应易产生梯度消失或梯度爆炸,从而进一步导致模型无法训练。针对这两个主要问题,Hochreiter和Schmidhuber在RNN的基础上引入了控制门机理,从而提出了长短期记忆神经网络(Long Short-Term Memory,LSTM)。LSTM模型的结构如图3所示,LSTM模型作为循环神经网络的改进版,通过引入门机制从而使得模型具有“长记忆性”特点。具体来说,一个LSTM神经元由一个细胞状态、一个遗忘门、一个更新门以及一个输出门构成。细胞状态用于记录需要传递的信息,也是LSTM的关键所在。遗忘门则用于对前一个细胞状态信息的过滤,当前一个细胞状态的信息传递过来时,通过遗忘门机制从中剔除不需要的信息。更新门则负责准备好需要导入的新的信息。输出门则将原有细胞状态的遗留信息和更新门准备的新信息进行组合并形成输出信息。这便是一个细胞的总体结构。而在实际应用中,则是将多个细胞首尾相连,组成一个“传送带”,通过信息的链式传递,最终得到我们所需要的信息,如图4所示。
sigmoid函数的取值范围为[0,1],因此可以用于表示信息的保留程度,这也是遗忘门的主要工作机理,通过sigmoid函数决定细胞状态中丢弃的信息,其公式如下:
Γf=σ(wf[a<t-1>,x<t>]+bf)
其中,a<t-1>是(t-1)时刻上一层的输出,x<t>是t时刻本层的输入,wf是各变量的权值,bf是偏置项,σ是sigmoid函数,形式是:σ(x)=(1+e-x)-1。Γf的取值范围为[0,1],表示上一个细胞状态保留信息的值,取值为1表示“全部保留”,取值为0则表示“完全舍弃”。
更新门承担细胞状态信息的更新,包括确定什么信息需要更新以及确定信息更新为什么。步骤如下:
第一步通过更新门sigmoid函数的计算结果Γu,决定需要更新的值;
Γu=σ(wu[a<t-1>,x<t>]+bu])
输出门基于细胞状态,使用sigmoid函数确定输出信息量的多少,并使用tanh函数处理c<t>,Γo和c<t>相乘便得到t时刻的输出值a<t>。公式如下:
Γo=σ(wo[a<t-1>,x<t>]+bo])
a<t>=Γo*c<t>
(4b)CNN模型
卷积神经网络(Convolutional Neural Networks,CNN),常用于交通流预测中的空间特征提取。卷积神经网络的结构如图5所示,一般包括输入层、卷积层、池化层、全连接层,其中卷积层和池化层是核心模块。
和传统全连接层不同,卷积层作为核心模块之一,其模型输入为上一层神经网络的一个组合,通过卷积运算,从而提取原始数据的关联特征。通过卷积计算特征矩阵的大小:
其中nin为输入特征大小;nout为输出特征大小;k为卷积核的大小;p为池化层的大小;s为卷积计算的步长。
(4c)CNN-LSTM模型
(4c1)模型输入
为方便问题描述,首先定义以下变量:时段集合为T,T={1,2,3,…,t,…},τ表示预测时间的粒度,则第t个时间区间包含的时间范围为[(t-1)]*τ,t*τ];在铁路货运系统中,历史货运数据集合为X,X={x1,x2,x3,…xt,…},其中xt表示在t时段内某区域的铁路货运量;货运量的影响因素集合为F(k),F(k)={f1 (k),f2 (k),f3 (k),…,ft (k),,…},ft (k)表示第k个影响因素在第t个时间区间内的值。
本发明的目的是预测下一时刻的货运量xt+1,假定其受到前面λ个影响因素的影响。因此模型的输入为货运量xt、xt-1、…、xt-λ+1和影响因素ft (k)、所构成的二维矩阵,且二维矩阵大小为(k+1,λ),如图6所示。
(4c2)模型结构
多变量CNN-LSTM组合模型的基本结构包括输入层、隐含层以及输出层,如图7所示。首先,将数据组织为模型能够识别的形式并通过输入层导入模型;随后核心部分隐含层进行处理,其中CNN层主要解析货运量与其影响因素之间的关联特征,继而LSTM层主要提取时序数据在时间维上的特征;然后通过Dense层增加模型的复杂度,并将数据从高维映射到低维,保留有用信息;同时,在每层之后连接一个Dropout层用于增强模型的鲁棒性并防止模型过拟合;最后,通过输出层输出预测值。
(4c3)模型训练
在确定好多变量CNN-LSTM模型的结构后,需要对模型进行训练,训练流程如图8所示。
第一步,确定卷积核大小以及池化方式;
第二步,初始化CNN-LSTM模型的权值和偏置;
第三步,将训练集数据导入CNN-LSTM模型,使用前向传播算法计算模型输出结果;
第四步,计算模型的输出结果与真实值之间的误差;
第五步,依据误差使用后向传播算法计算梯度;
第六步,根据梯度大小对参数进行更新,
第七步,重复第3步至第6步,直到满足训练结束条件。
(4c4)模型评价
CNN-LSTM模型评价指标包括:
1)均方根误差(Root Mean Squared Error,RMSE)
均方根误差表示的是货运量预测值与真实值之差平方的均值再开根,其值越小,表示预测效果也越好。计算公式为:
2)平均绝对误差(Mean Absolute Error,MAE)
平均绝对误差表示的是货运量预测值与真实值绝对偏差的均值,其值越小,表示预测效果越好。计算公式为:
3)决定系数(R-Square,R2)
决定系数可分为两部分,其中分子部分表示货运量预测值与真实值的平方差之和;分母部分表示货运量真实值与均值的平方差之和,其取值范围为[0,1],一般来说,值越大,说明预测效果越好。计算公式为:
4)可解释方差(Explained_Variance_Scor,EVS)
用于解释模型的方差得分,取值范围为[0,1],值越大说明自变量越能解释因变量的方差变化,值越小说明效果越不好。计算公式为:
其中,Var表示方差。
(5)模型训练过程
为了更好的保存货运量及各影响因素之间的关联信息,本实例将卷积核的大小设置为3*3并采用平均池化的方式。同时采用Adam算法作为模型的优化算法,使用MSE作为损失函数,激活函数采用ReLU,以及采用dropout方法防止模型过拟合。除此之外,还有步长、批量大小、迭代次数、filter数量、LSTM层神经元数量等超参数,由于其没有较为固定的取值,且取值范围较广。在确保数据的正确性以及网络的合理性后,使用默认的超参数设置,观察损失曲线的变化趋势及下降速度,从而初步确定各个超参数可能的取值。为进一步确定CNN-LSTM模型的最优超参数组合,分别对各个超参数进行敏感性分析。在对某一个超参数进行敏感性分析时,固定其它超参数的取值不变。
通过超参数敏感性分析,当步长、批量大小、迭代次数、filter数量、LSTM层神经元数量分别为6、56、80、112、128时CNN-LSTM模型的表现最好。因此以这一最优超参数组合构建基于CNN-LSTM的铁路货运量近短期预测模型。
(6)实例结果分析
将测试集输入训练完毕的预测模型,输出误差损失曲线以及铁路货运量当前的真实值和预测值的拟合图如图9所示,最后对预测值做反归一化处理,将预测结果数据转化为与原始数据相同数量级的预测值。
本实施例是基于windows10系统的64位处理器,在python3.8.3编程语言下实现的,所用的集成开发环境是anaconda,引入numpy、pandas和keras等第三方库来协助开发,以Tensorflow作为后端,通过keras深度学习库构建了所有模型。实验结果图使用python结合matplotlib库进行绘制。
利用单变量LSTM模型、单变量GRU模型、单变量CNN-LSTM模型、多变量LSTM模型以及多变量GRU模型进行测试集的仿真货运量预测,使用包括MSE、MAE、R2、EVS多个评价指标对预测结果进行评价,具体结果如表1所示。
表1
从表1可知,多变量LSTM模型、多变量GRU模型、多变量CNN-LSTM组合模型在各项评价指标上均优于其对应的单变量模型,并且多变量CNN-LSTM组合预测模型的EVS、R2、MAE、RMSE分别为0.96、0.96、120.75、157.42在各个评价指标中均处于最优。
综上所述,本发明提供了一种高精度的铁路区域货运量近短期预测方法,该方法以区域为立足点,在考虑宏观和区域社会经济情况、交通数据结构情况、铁路货运情况对铁路区域货运量影响的基础上,基于历史时序数据形成铁路区域货运量影响因素指标体系和数据仓库,构建和训练CNN-LSTM模型,实现对区域铁路货运量高效、精准的周预测,由此辅助铁路运营部门提前预知货流量的大小,提高货物运输组织效率。达到既能合理安排运力,降低成本,又能及时响应市场,提高经济效益的效果。
Claims (7)
1.一种基于CNN-LSTM的铁路区域货运量短期预测方法,其特征在于:包括如下步骤:
步骤一、建立影响因素数据仓库,影响因素包含内部影响因素和外部影响因素,其中:内部影响因素来源于指铁路货运系统内部,包括铁路基础设施建设、经营管理水平、铁路从业人员数量、铁路货运运价;外部影响因素包括宏观经济、区域经济、大宗商品、交通运输结构;
步骤二、确定关键影响因素;
步骤三、对关键影响因素数据与货运量数据进行预处理,并将预处理后的数据进行训练集和测试集的划分;
步骤四、构建基于CNN-LSTM的铁路区域货运量近短期预测模型,设置模型初始参数值,使用训练集对模型进行超参数优化,得到最优模型;其中,基于CNN-LSTM的多变量铁路货运量近短期预测模型的基本结构包括输入层、隐含层以及输出层;首先,将数据组织为模型能够识别的形式并通过输入层导入模型;随后核心部分隐含层进行处理,其中CNN层解析货运量与其影响因素之间的关联特征,继而LSTM层提取时序数据在时间维上的特征;然后通过Dense层增加模型的复杂度,并将数据从高维映射到低维,保留有用信息;同时,在每层之后连接一个Dropout层用于增强模型的鲁棒性并防止模型过拟合;最后,通过输出层输出预测值;模型的输入为货运量xt、xt-1、…、xt-λ+1和关键影响因素所构成的二维矩阵,且二维矩阵大小为(λ,k+1);使用训练集对模型进行超参数优化的方法包括如下步骤:
第一步,确定卷积核大小以及池化方式;
第二步,初始化CNN-LSTM模型的权值和偏置;
第三步,将训练集数据导入CNN-LSTM模型,使用前向传播算法计算模型输出结果;
第四步,计算模型的输出结果与真实值之间的误差;
第五步,依据误差使用后向传播算法计算梯度;
第六步,根据梯度大小对参数进行更新;
第七步,重复第三步至第六步,直到满足训练结束条件;
步骤五、将测试集导入训练好的最优模型,输出预测结果并评估模型质量。
2.根据权利要求1所述的基于CNN-LSTM的铁路区域货运量短期预测方法,其特征在于:步骤二所述确定关键影响因素的方法为:
(1)构建反应系统特征的参考数列和影响系统特征的比较数列,并进行无量纲化处理;
(2)计算每个比较数列与参考数列在每个时刻的关联系数;
(3)计算每个比较数列与参考数列在整个时段集合的关联度;
(4)将关联度进行排序并剔除关联度值低于设定值的比较数列,最终得到关键影响因素。
3.根据权利要求1所述的基于CNN-LSTM的铁路区域货运量短期预测方法,其特征在于:步骤三所述对关键影响因素数据与货运量数据进行预处理的方法包括:数据降噪、数据重采样、数据拼合、归一化。
4.根据权利要求3所述的基于CNN-LSTM的铁路区域货运量短期预测方法,其特征在于:数据重采样时以宽度为7、步长为1的滑动时间窗对日货运量数据进行滑动采样。
5.根据权利要求3所述的基于CNN-LSTM的铁路区域货运量短期预测方法,其特征在于:归一化时采用min-max法对原始数据列进行无量纲化处理。
6.根据权利要求1所述的基于CNN-LSTM的铁路区域货运量短期预测方法,其特征在于:将预处理后的80%的数据作为训练集,20%的数据作为测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210783353.8A CN115222113B (zh) | 2022-07-05 | 2022-07-05 | 基于cnn-lstm的铁路区域货运量短期预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210783353.8A CN115222113B (zh) | 2022-07-05 | 2022-07-05 | 基于cnn-lstm的铁路区域货运量短期预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115222113A CN115222113A (zh) | 2022-10-21 |
CN115222113B true CN115222113B (zh) | 2023-06-20 |
Family
ID=83610455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210783353.8A Active CN115222113B (zh) | 2022-07-05 | 2022-07-05 | 基于cnn-lstm的铁路区域货运量短期预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222113B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563706A (zh) * | 2020-03-05 | 2020-08-21 | 河海大学 | 一种基于lstm网络的多变量物流货运量预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232483A (zh) * | 2020-10-15 | 2021-01-15 | 昆明理工大学 | 一种结合cnn和lstm的航班平均票价预测方法 |
-
2022
- 2022-07-05 CN CN202210783353.8A patent/CN115222113B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563706A (zh) * | 2020-03-05 | 2020-08-21 | 河海大学 | 一种基于lstm网络的多变量物流货运量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115222113A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563706A (zh) | 一种基于lstm网络的多变量物流货运量预测方法 | |
CN113096388B (zh) | 一种基于梯度提升决策树的短时交通流量预测方法 | |
CN111814956B (zh) | 一种基于多维度二次特征提取的多任务学习的空气质量预测方法 | |
CN111915073A (zh) | 一种考虑日期属性和天气因素的铁路城际客流短期预测方法 | |
Natali et al. | Learning time-varying graphs from online data | |
CN111626785A (zh) | 一种基于结合注意力的cnn-lstm网络基金价格预测方法 | |
CN110909928B (zh) | 能源负荷短期预测方法、装置、计算机设备及存储介质 | |
CN113807951A (zh) | 一种基于深度学习的交易数据趋势预测方法和系统 | |
CN114065996A (zh) | 基于变分自编码学习的交通流预测方法 | |
CN116703644A (zh) | 一种基于Attention-RNN的短期电力负荷预测方法 | |
CN116311921A (zh) | 一种基于多空间尺度时空Transformer的交通速度预测方法 | |
CN114596726A (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
Xue et al. | Expressway project cost estimation with a convolutional neural network model | |
Almqvist | A comparative study between algorithms for time series forecasting on customer prediction: An investigation into the performance of ARIMA, RNN, LSTM, TCN and HMM | |
CN114819395A (zh) | 一种基于长短期记忆神经网络和支持向量回归组合模型的行业中长期负荷预测方法 | |
Asaei-Moamam et al. | Air quality particulate-pollution prediction applying GAN network and the Neural Turing Machine | |
CN114239990A (zh) | 一种基于时间序列分解和lstm的时间序列数据预测方法 | |
CN113203953B (zh) | 基于改进型极限学习机的锂电池剩余使用寿命预测方法 | |
CN109190800A (zh) | 一种基于spark框架的海面温度预测方法 | |
CN115222113B (zh) | 基于cnn-lstm的铁路区域货运量短期预测方法 | |
CN112529268A (zh) | 一种基于流形学习的中短期负荷预测方法及装置 | |
CN115062764B (zh) | 光照度智能调节与环境参数物联网大数据系统 | |
CN116628444A (zh) | 一种基于改进元学习的水质预警方法 | |
Li et al. | A multiple long short-term model for product sales forecasting based on stage future vision with prior knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |