CN111241466B - 一种基于深度学习的船舶流量预测方法 - Google Patents
一种基于深度学习的船舶流量预测方法 Download PDFInfo
- Publication number
- CN111241466B CN111241466B CN202010041100.4A CN202010041100A CN111241466B CN 111241466 B CN111241466 B CN 111241466B CN 202010041100 A CN202010041100 A CN 202010041100A CN 111241466 B CN111241466 B CN 111241466B
- Authority
- CN
- China
- Prior art keywords
- ship flow
- flow data
- short
- eigenmode function
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 8
- 230000006870 function Effects 0.000 claims abstract description 71
- 238000013528 artificial neural network Methods 0.000 claims abstract description 59
- 230000015654 memory Effects 0.000 claims abstract description 51
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 43
- 230000002159 abnormal effect Effects 0.000 claims abstract description 34
- 230000000295 complement effect Effects 0.000 claims abstract description 24
- 230000007787 long-term memory Effects 0.000 claims description 21
- 230000006403 short-term memory Effects 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 12
- 238000002955 isolation Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 230000007774 longterm Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- IJJWOSAXNHWBPR-HUBLWGQQSA-N 5-[(3as,4s,6ar)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]-n-(6-hydrazinyl-6-oxohexyl)pentanamide Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)NCCCCCC(=O)NN)SC[C@@H]21 IJJWOSAXNHWBPR-HUBLWGQQSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Analysis (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Mathematics (AREA)
- Development Economics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度学习的船舶流量预测方法,基于改进的孤立森林‑互补集合经验模态分解‑长短期记忆神经网络的船舶流量预测方法;首先考虑到原始数据中的噪声和异常点的问题,使用孤立森林算法消除数据中的异常点;其次为了进一步提高预测精度,使用改进的互补集合经验模态分解算法将输入数据分解为不同频率的固有模式函数分量和残余分量,再分别单独使用长短期记忆神经网络预测每个本征模式函数和残差,最后对预测的结果进行叠加重构。本发明不仅提高了预测精度,且对长期或短期的时间序列数据都有较好的适应性。
Description
技术领域
本发明涉及时间序列预测技术领域,具体涉及一种基于深度学习的船舶流量预测方法,特别涉及一种基于改进的IF-CEEMD-LSTM(孤立森林-互补集合经验模态分解-长短期记忆神经网络)的船舶流量预测方法。
背景技术
现代海上贸易的增加,海上船舶流量的预测精确度对保障船舶通行效率和安全、拓宽水运交通领域理论、港口和海事部门对港口建设和发展以及对航道进行有效利用很有必要。但交通流量预测过程比较复杂,受多种因素的影响,有季节、GDP、港口集装箱吞吐量、港口货物吞吐量等。
过去大部分采用传统机器学习的方法建模预测船舶流量,根据船舶流量众多的影响因素中,选取对预测结果影响较大的因素,作为模型数据输入的一部分。现在,根据船舶流量的数据特点,处理其原始数据,减少因数据的复杂度对预测精度影响;其次通过船舶流量的数据本身来揭示影响船舶流量的因素,这样就规避了传统方法的选取因素的不确定性,并且还可以提高预测的精确度。
目前,国内外对船舶流量预测的研究很丰富,主要有神经网络,时间序列模型,支持向量机,和组合预测等。其中神经网络对非线性的数据具有很好的拟合,循环神经网络(RNN)是常用来对时间序列数据的预测,但其存在梯度爆炸或梯度消失的问题,因此由长短期记忆神经网络来处理这一问题。由于单一的模型不能满足预测的精度,现在时间序列的预测方法都是两种模型以上的有效的结合。
针对现有时间序列预测技术精度不高,船舶流量数据非线性和非平稳性的特点以及循环神经网络存在梯度消失等问题,需要研发一种改进IF-CEEMD-LSTM(IF是指Isolation Forest,即孤立森林算法;CEEMD是指改进互补集合经验模态分解;LSTM是指Long Short Term网络,即长短期记忆神经网络)预测的方法,对长期或短期时间序列数据预测都有较好的适应性,在预测中具有优越的性能。
发明内容
本发明的目的在于提供一种基于改进IF-CEEMD-LSTM的船舶流量预测方法,在深度学习的环境下,建立森林孤立算法和互补集合经验模态分解和长短期记忆神经网络的模型,通过森林孤立算法去除原始数据中的异常分量,然后采用互补集合经验模态分解对原始船舶流量数据分解为有限个平稳的本征模函数分量和一个余数分量,结合排列熵算法去除分解后的伪分量,再用优化好参数的长短期记忆神经网络模型对分解后的数据单独进行预测,最后对各个预测分量进行叠加,就是最终的预测的结果;本发明对长或短期时间序列具有较好的适应性,同时也提高了预测精度。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于深度学习的船舶流量预测方法,该方法包含:
步骤S1、采用森林孤立算法去除原始船舶流量数据X(t)的异常点;
步骤S2、对去除异常点的船舶流量数据进行平稳性验证;
步骤S3、对经过步骤S2验证得到的非平稳性的船舶流量数据S(t)进行互补集合经验模态分解,获得有限个平稳的本征模函数分量和一个残余分量;
步骤S4、将步骤S3中得到的所述有限个平稳的本征模函数分量和一个残余分量作为长短期记忆神经网络的输入,对该有限个平稳的本征模函数分量和残余分量分别进行网络预测,并将得到各独立的长短期记忆神经网络的预测分量值进行叠加,得到船舶流量预测结果。
可选地,所述步骤S3中的互补集合经验模态分解包含以下步骤:
步骤S31、通过多次在所述非平稳性的船舶流量数据S(t)中加入一对互补白噪声,依次得到已加白噪声的待分解的一对船舶流量数据;
步骤S32、对所述待分解的一对船舶流量数据分别进行经验模态分解,得到对应的本征模函数分量序列和残余分量;
步骤S33、根据本征模函数分量序列,集成平均本征模函数分量;
步骤S34、将分解后得到的所述平均本征模函数分量进行排列熵算法检查,得到伪分量并去除所述伪分量,再将去除伪分量后的剩余分量进行经验模态分解,得到最终的有限个平稳的本征模函数分量和一个残余分量。
可选地,所述步骤S1中,通过不断地分割原始船舶流量数据集X,用以孤立出异常点,并对去除异常点的船舶流量数据进行归一化处理;
分割原始船舶流量数据集是指通过反复随机选取样本特征,不断地分割原始船舶流量数据集,直到每个样本点均为孤立。
可选地,所述步骤S2中进一步包含:采用ADF检验方法对去除异常点的船舶流量数据的时间序列进行平稳性校验,当所述去除异常点的船舶流量数据的时间序列平稳,则不存在单位根,反之,则存在单位根。
可选地,所述步骤S31中,进一步包含以下过程:
在非平稳性的船舶流量数据S(t)中分别多次加入一对相反且大小相等的白噪声,分别依次得到已添加白噪声后的一对船舶流量数据和/>
式中,ni(t)为添加的白噪声信号,i=1,2,...,Ne,Ne表示添加白噪声的对数。
可选地,所述步骤S32中,将已添加白噪声后的船舶流量数据和/>均作为以下经验模态分解过程中的待分解的船舶流量数据S’(t),分别进行经验模态分解,具体包含:
步骤S32-1、找出待分解的船舶流量数据S’(t)的所有极大值和极小值,用四次Hermite插值去拟合上下包络线,上下包络线分别为m1、m2,取这上下两条包络线的平均值m(t)=(m1+m2)/2,得到新序列h1(t)=S’(t)-m(t);当得到的新序列h1(t)存在正的极小值或者负的极大值,则一直重复此步骤S321,直至找到第一个本征模态数IMF1,得到新数据S’(t)-IMF1;
步骤S32-2、将得到新数据S’(t)-IMF1作为下一循环中步骤S32-1的S’(t),循环执行步骤S32-1,直至将待分解的船舶流量数据S’(t)分解为多个本征模函数分量和一个残余的单调分量R(t),得到公式(1):
S'(t)=IMF1+IMF2+IMF3+···+IMFm+R(t) (1)
将船舶流量数据和/>对应地代入到公式(1)中,进一步得到公式(2)和公式(3):
船舶流量数据和/>通过经验模态分解得到各自的各自得到第一个本征模函数分量分别为IMFi1、IMF′i1(i=1,2,...,Ne),它们的分量序列,分别表示为/>和则;
可选地,所述步骤S33中,进一步包含:
根据步骤S32-2中的由和/>通过EMD分解得出第一个本征模函数分量分别为IMFi1和IMF′i1(i=1,2,...,Ne),集成第一个本征模函数分量,如下:
其中,N表示原始船舶流量序列的长度。
可选地,所述步骤S34中,进一步包含:
步骤S34-1、对于船舶流量数据S(t)时间序列相空间重构后得到的矩阵,该矩阵的每一行都得到一种符号序列,记为S(l)=(j1,j2,...,jm),式中,l=1,2,...,k且k=m!,m维空间映射m!种符号序列(j1,j2,...,jm);
若每种符号序列S(l)出现的概率分别为P1,P2,...,Pk,则船舶流量数据S(t)时间序列的排列熵为:进一步地,对排列熵归一化后得到:0≤Hp=Hp(m)/ln(m!)≤1;
步骤S34-2、执行步骤S34-1,计算第一个平均本征模函数分量I1(t)的排列熵,将第一个平均本征模函数分量I1(t)与排列熵设定值进行比较,判断第一个平均本征模函数分量I1(t)是否为异常信号:当第一个平均本征模函数分量I1(t)大于排列熵设定值,则第一个平均本征模函数I1(t)是异常信号;若第一个平均本征模函数分量I1(t)小于排列熵设定值,则第一个平均本征模函数分量I1(t)不是异常信号;
当判断结果是第一个平均本征模函数分量I1(t)为异常信号,则循环执行步骤S32和S33,直至判断出第p个平均本征模函数分量Ip(t)不是异常信号,p=1,2,...,Ne;Ip(t)为:
S34-3、将已分解的前p-1个平均本征模函数分量从待分解的船舶流量数据S(t)中分离出来,得到r(t)是指分离后的剩余信号;
S34-4、对剩余信号r(t)进行经验模态分解,得到船舶流量数据的最终分解:dl(t)表示最终得到平稳的本征模函数分量;R”(t)表示残余分量。
可选地,所述步骤S4中,进一步包含:
步骤S41、将分解后的本征模函数和残余分量R”(t)反归一化后作为长短期记忆神经网络的输入;
步骤S42、长短期记忆神经网络的输入门It、忘记门Ft、输出门Ot及记忆单元的输入状态表达式分别如下所示:
式中,Xt是t时刻长短期记忆神经网络的输入,包含步骤S34-4中的本征模函数和残余分量R”(t);/>分别为Xt的权重;/> 分别为Ht-1的权重;bi,bf,bo,bc分别为输入门、忘记门、输出门、记忆单元的偏置;σ为sigmoid函数;
长短期记忆神经网络的记忆线的t时刻输出Ct的表达式为:
式中,Ct-1表示长短期记忆神经网络的记忆线的t-1时刻输出;
长短期记忆神经网络的隐藏层的输出Ht如下:
Ht=Ot×tanh(Ct-1)
式中,tanh为双曲线正切函数。
步骤S43、长短期记忆神经网络的输出为:Y(t)=W2×Ht+b;
式中,W2为长短期记忆神经网络的输出层和隐藏层之间的权值矩阵;b为长短期记忆神经网络的输出层的偏向;
步骤S44、通过长短期记忆神经网络输出的各预测分量值进行叠加,得到最终预测的结果:
Y(t)=Y1+Y2+Y3+···+Ym+Yr;
式中,Y1、Y2、Y3……Ym分别是长短期记忆神经网络预测本征模函数的各预测值,Yr是残留分量预测值。
与现有技术相比,本发明的有益效果在于:本发明针对船舶流量数据的非线性非平稳性特点,采用改进互补集合经验模态进行分解(complementary ensemble empiricalmode decomposition,CEEMD),减少了船舶流量数据处理的复杂度,减少了分解后的伪分量,提高了预测时效性;本发明中,由于CEEMD(改进互补集合经验模态分解)用到了EMD(经验模态分解)算法,对EMD算法中采用的三次样条插值改为四次Hermite插值,解决了算法存在的过冲和欠冲的问题;用训练好的长短期记忆神经网路模型去预测,预测精度提高,且该模型对不同时间尺度的时间序列具有较好的适应性。
附图说明
图1为本发明的基于改进的IF-CEEMD-LSTM的船舶流量预测方法流程图;
图2为本发明改进的互补集合经验模态分解图;
图3为本发明长短期记忆神经网络记忆单元。
具体实施方式
使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于改进的IF-CEEMD-LSTM(孤立森林-互补集合经验模态分解-长短期记忆神经网络)的船舶流量预测方法,首先用森林孤立算法去除原始船舶数据中的异常分量后归一化处理;然后在归一化处理后的船舶流量数据中加入一对互补的白噪声后;再对已加入白噪声后的船舶流量数据进行互补集合经验模态分解,得到有限个平稳的本征模函数分量和一个单调的残余分量,并结合排列熵算法去除分解后的伪分量;最后把这些分量送到长短期记忆神经网络单独进行预测,把预测后单独分量的值进行叠加就是最后的预测结果。本发明在深度学习的环境下,建立IF-CEEMD-LSTM的模型,解决了传统方法因素选取不确定及原始数据复杂度影响预测精度问题。
如图1-图3结合所示,具体地,本发明的基于改进的IF-CEEMD-LSTM的船舶流量预测方法包含以下步骤:
步骤S1、数据预处理;
所述步骤S1中进一步包含:采用森林孤立算法(IF)去除原始船舶流量数据X(t)的异常点,得到去除异常点的船舶流量数据S(t);所述孤立森林算法是通过不断地分割原始船舶流量数据集X(t),从而把异常点给孤立出来;而分割原始船舶流量数据集X(t)的依据是反复随机选取样本特征,不断地分割数据集X(t),直到每个样本点都是孤立为止。在此情况下,异常点因为具有不同或者特殊的特征值,因此异常点的路径通常很短,也会比较早被分离出来,去除异常点后再对船舶流量数据S(t)进行归一化处理。
步骤S2、对经过数据预处理后的船舶流量数据S(t)进行平稳性验证;
所述步骤S2中进一步包含:采用ADF检验方法对船舶流量数据S(t)的时间序列进行平稳性校验,当船舶流量数据S(t)的时间序列平稳,则不存在单位根,反之,则存在单位根。
步骤S3、通过步骤S2校验得到的非平稳性的船舶流量数据S(t)进行改进的互补集合经验模态分解(CEEMD),得到有限个平稳的本征模函数分量和一个残余分量。
如图2所示是改进的互补集合经验模态分解图。本发明中的改进的互补集合经验模态分解的算法步骤如下所说;步骤S3中进一步包含以下内容(即改进互补集合经验分解原理如下):
S31、在船舶流量数据S(t)中分别多次加入一对互补(相反且大小相等)的白噪声,则分别得到添加白噪声后的一对船舶流量数据和/> 式中,ni(t)为添加的白噪声信号,i=1,2,...,Ne,Ne表示添加白噪声的对数。
S32、对已添加白噪声后的一对船舶流量数据和/>分别进行EMD分解,分别得到各自的IMF分量序列(也称本征模函数分量序列)。
所述步骤S32进一步包含:将船舶流量数据和/>分别看做下述EMD分解(经验模态分解算法)过程中的待分解的船舶流量数据S’(t),具体如下:
步骤S32-1、找出待分解的船舶流量数据S’(t)的所有极大值和极小值,用四次Hermite插值去拟合其上、下包络线,上、下包络线分别为m1、m2,然后取这上下两条包络线的平均值m(t)=(m1+m2)/2,从而得到新序列h1(t)=S’(t)-m(t);其中,若得到的新序列h1(t)存在正的极小值或者负的极大值,则一直重复此步骤S32-1,直至找到第一本征模态数IMF1,从而得到新数据S’(t)-IMF1;
步骤S32-2、根据得到的新数据S’(t)-IMF1,并将该新数据S’(t)-IMF1作为下一循环的步骤S32-1中的S’(t),循环执行步骤S32-1,直至将最初的待分解的船舶流量数据S’(t)分解为有限个(如m个)IMF分量(本征模函数分量)和一个残余的单调分量R(t),得到公式(1):
S'(t)=IMF1+IMF2+IMF3+···+IMFm+R(t) (1)。
对应地,将船舶流量数据和/>对应地代入到公式(1)中,进一步得到公式(2)和公式(3):
根据公式(2)和公式(3)可知,加入噪声的船舶流量数据和/>由加入不同的成对噪声,可得到/>通过EMD分解各自得到第一个本征模函数分量分别为IMFi1、IMF′i1,它们的分量序列,分别表示为/>和/>(i=1,2,...,Ne)则:
S33、根据步骤S32-2中的由和/>通过EMD分解得出第一个本征模函数分量分别为IMFi1和IMF′i1(i=1,2,...,Ne),集成第一个平均本征模函数分量,如下:
其中,N表示原始船舶流量序列的长度。
步骤S34、对步骤S33得到的分解后的平均IMF分量做排列熵算法检查,在判断步骤S33得到的平均IMF分量是否为异常分量后,去除伪分量后,再对剩下的分量进行EMD分解。
所述步骤S34进一步包含以下过程:
S34-1、对于船舶流量数据S(t)时间序列的相空间重构后得到的矩阵,矩阵的每一行都得到一组符号序列,记为S(l)=(j1,j2,...,jm),式中,l=1,2,...,k且k=m!,即m维空间映射m!种符号序列(j1,j2,...,jm);这里表示的S(l)为符号序列,S(l)是这些排列中一种。
若每种S(l)符号序列出现的概率分别为P1,P2,...,Pk,则船舶流量数据S(t)时间序列的排列熵为:
进一步地,对排列熵归一化后得到:
0≤Hp=Hp(m)/ln(m!)≤1 (8)。
S34-2、执行步骤S34-1,计算平均IMF分量I1(t)的排列熵,检查平均IMF分量I1(t)是不是异常信号:设定平稳信号的排列熵的范围为0.55~0.6(本示例选取的是0.6,但本发明并不局限于该范围),将平均IMF分量I1(t)的排列熵与设定值0.6比较:若大于设定值0.6,则平均IMF分I1(t)是异常信号,若小于设定值0.6,则第一个平均IMF分I1(t)不是异常信号。在所述步骤S34-2中,如果判断结果是平均IMF分I1(t)为异常信号,则循环执行步骤S32和S33,直至判断出第p个平均IMF分量Ip(t)不是异常信号,p=1,2,...,Ne,则Ip(t)为:
S34-3、将已分解的前p-1个平均IMF分量从最初的船舶流量数据S(t)中分离出来,得到r(t)是指船舶流量数据S(t)分离后的剩余信号。
S34-4、再对剩余信号r(t)进行EMD分解,即一直重复上述步骤S32-1,直至找到第一个本征模态数d1,从而得到新数据r(t)-d1作为为下一循环的步骤S32-1中的S’(t),循环执行步骤S32-1,最终将剩余信号r(t)分解为有限个本征模函数分量dl(t)和一个残余单调分量R”(t)为:
即得到船舶流量的最终分解为:
dl(t)表示最终得到IMF分量,它本质上就是本征模数分量,为了与上述本征模数区分,这里用dl(t)表示;R”(t)表示残余分量。
S4、对步骤S34分解后的每个本征模函数和余数分别单独使用长短期记忆神经网络进行预测,将得到各独立的长短期记忆神经网络的预测分量值进行叠加,得到船舶流量预测结果。其中,图3是长短期记忆神经网络的记忆单元示意图。以下进一步阐述长短期记忆神经网路的预测部分。本发明对长短期记忆神经网络(LSTM)的数据输入设置timestep、bach_size、epoch,通过大量的数据对长短期记忆神经网络模型进行训练,选取最优的神经网络参数,达到好的预测效果。
所述步骤S4进一步包含以下:
S41、将船舶流量数据S(t)分解后的本征模函数和残余分量R”(t)反归一化后作为长短期记忆神经网络(LSTM)的输入;
S42、长短期记忆神经网络有输入门It、忘记门Ft、输出门Ot及记忆单元,它们的输入状态的表达式分别为:
式中,Xt是t时刻长短期记忆神经网络的输入,即上述步骤S344的本征模函数和残余分量R(t);/>分别为Xt的权重;/> 分别为Ht-1的权重;bi,bf,bo,bc分别为输入门、忘记门、输出门、记忆单元的偏置;σ为sigmoid函数。
长短期记忆神经网络的记忆线的t时刻输出Ct的表达式为:
式中,Ct-1表示LSTM记忆线的t-1时刻输出。
长短期记忆神经网络的隐藏层的输出Ht如下:
Ht=Ot×tanh(Ct-1) (17);
式中,tanh为双曲线正切函数。
S43、长短期记忆神经网络的输出为:Y(t)=W2×Ht+b(18);
式中,W2为长短期记忆神经网络的输出层和隐藏层之间的权值矩阵;b为长短期记忆神经网络的输出层的偏向。
S44、最后通过长短期记忆神经网络输出的各预测分量值进行叠加就是最后预测的结果:
Y(t)=Y1+Y2+Y3+···+Ym+Yr (19);
式中,Y1、Y2、Y3……Ym分别是长短期记忆神经网络预测本征模函数的各预测值,Yr是残留分量预测值。
综上所述,本发明根据船舶流量数据具有非线性非平稳性特点,采用森林孤立算法对原始数据去除异常点,提高了数据的精准性,进一步提高预测精度;采用的改进互补集合经验模态分解对原始数据分解为平稳的时间序列,去除了伪分量的可能,提高了预测时效性;由于CEEMD用到了EMD算法,对EMD算法中采用的三次样条插值改为四次Hermite插值,解决了算法存在的过冲和欠冲的问题,又提高了IMF分量的准确性;再利用长短期记忆神经网络神经元的记忆特性,选择合适的参数学习和训练数据,能够根据时间序列数据之间隐藏的关联性,进行更好的拟合和预测,也规避了循环神经网的梯度消失或爆炸问题。与传统相比,本发明具有更广泛的实用性,且提高了预测精度。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (8)
1.一种基于深度学习的船舶流量预测方法,其特征在于,该方法包含:
步骤S1、采用森林孤立算法去除原始船舶流量数据X(t)的异常点;
步骤S2、对去除异常点的船舶流量数据进行平稳性验证;
步骤S3、对经过步骤S2验证得到的非平稳性的船舶流量数据S(t)进行互补集合经验模态分解,获得有限个平稳的本征模函数分量和一个残余分量;
步骤S4、将步骤S3中得到的所述有限个平稳的本征模函数分量和一个残余分量作为长短期记忆神经网络的输入,对该有限个平稳的本征模函数分量和残余分量分别进行网络预测,并将得到各独立的长短期记忆神经网络的预测分量值进行叠加,得到船舶流量预测结果;
所述步骤S3中的互补集合经验模态分解包含以下步骤:
步骤S31、通过多次在所述非平稳性的船舶流量数据S(t)中加入一对互补白噪声,依次得到已加白噪声的待分解的一对船舶流量数据;
步骤S32、对所述待分解的一对船舶流量数据分别进行经验模态分解,得到对应的本征模函数分量序列和残余分量;
步骤S33、根据本征模函数分量序列,集成平均本征模函数分量;
步骤S34、将分解后得到的所述平均本征模函数分量进行排列熵算法检查,得到伪分量并去除所述伪分量,再将去除伪分量后的剩余分量进行经验模态分解,得到最终的有限个平稳的本征模函数分量和一个残余分量;
所述步骤S4中,进一步包含:
步骤S41、将分解后的本征模函数和残余分量反归一化后作为长短期记忆神经网络的输入;
步骤S42、分别得到长短期记忆神经网络的输入门It、忘记门Ft、输出门Ot及记忆单元的输入状态表达式;
步骤S43、长短期记忆神经网络的输出为:Y(t)=W2×Ht+b;
式中,W2为长短期记忆神经网络的输出层和隐藏层之间的权值矩阵;b为长短期记忆神经网络的输出层的偏向,Ht为长短期记忆神经网络的隐藏层的输出;
步骤S44、通过长短期记忆神经网络输出的各预测分量值进行叠加,得到最终预测的结果:
Y(t)=Y1+Y2+Y3+…+Ym+Yr;
式中,Y1、Y2、Y3……Ym分别是长短期记忆神经网络预测本征模函数的各预测值,Yr是残留分量预测值。
2.如权利要求1所述的船舶流量预测方法,其特征在于,
所述步骤S1中,通过不断地分割原始船舶流量数据集X,用以孤立出异常点,并对去除异常点的船舶流量数据进行归一化处理;
分割原始船舶流量数据集是指通过反复随机选取样本特征,不断地分割原始船舶流量数据集,直到每个样本点均为孤立。
3.如权利要求1所述的船舶流量预测方法,其特征在于,
所述步骤S2中进一步包含:采用ADF检验方法对去除异常点的船舶流量数据的时间序列进行平稳性校验,当所述去除异常点的船舶流量数据的时间序列平稳,则不存在单位根,反之,则存在单位根。
4.如权利要求1所述的船舶流量预测方法,其特征在于,
所述步骤S31中,进一步包含以下过程:
在非平稳性的船舶流量数据S(t)中分别多次加入一对相反且大小相等的白噪声,分别依次得到已添加白噪声后的一对船舶流量数据和/>
式中,ni(t)为添加的白噪声信号,i=1,2,...,Ne,Ne表示添加白噪声的对数。
5.如权利要求4所述的船舶流量预测方法,其特征在于,
所述步骤S32中,将已添加白噪声后的船舶流量数据和/>均作为以下经验模态分解过程中的待分解的船舶流量数据S’(t),分别进行经验模态分解,具体包含:
步骤S32-1、找出待分解的船舶流量数据S’(t)的所有极大值和极小值,用四次Hermite插值去拟合上下包络线,上下包络线分别为m1、m2,取这上下两条包络线的平均值m(t)=(m1+m2)/2,得到新序列h1(t)=S’(t)-m(t);当得到的新序列h1(t)存在正的极小值或者负的极大值,则一直重复此步骤S321,直至找到第一个本征模态数IMF1,得到新数据S’(t)-IMF1;
步骤S32-2、将得到新数据S’(t)-IMF1作为下一循环中步骤S32-1的S’(t),循环执行步骤S32-1,直至将待分解的船舶流量数据S’(t)分解为多个本征模函数分量和一个残余的单调分量R(t),得到公式(1):
S′(t)=IMF1+IMF2+IMF3+…+IMFm+R(t) (1)
将船舶流量数据和/>对应地代入到公式(1)中,进一步得到公式(2)和公式(3):
船舶流量数据和/>通过经验模态分解得到各自的各自得到第一个本征模函数分量分别为IMFi1、IMF′i1(i=1,2,...,Ne),它们的分量序列,分别表示为/>和则;
6.如权利要求5所述的船舶流量预测方法,其特征在于,
所述步骤S33中,进一步包含:
根据步骤S32-2中的由和/>通过EMD分解得出第一个本征模函数分量分别为IMFi1和IMF′i1(i=1,2,...,Ne),集成第一个本征模函数分量,如下:
其中,N表示原始船舶流量序列的长度。
7.如权利要求6所述的船舶流量预测方法,其特征在于,
所述步骤S34中,进一步包含:
步骤S34-1、对于船舶流量数据S(t)时间序列相空间重构后得到的矩阵,该矩阵的每一行都得到一种符号序列,记为S(l)=(j1,j2,...,jm),式中,l=1,2,...,k且k=m!,m维空间映射m!种符号序列(j1,j2,...,jm);
若每种符号序列S(l)出现的概率分别为P1,P2,...,Pk,则船舶流量数据S(t)时间序列的排列熵为:进一步地,对排列熵归一化后得到:0≤Hp=Hp(m)/ln(m!)≤1;
步骤S34-2、执行步骤S34-1,计算第一个平均本征模函数分量I1(t)的排列熵,将第一个平均本征模函数分量I1(t)与排列熵设定值进行比较,判断第一个平均本征模函数分量I1(t)是否为异常信号:当第一个平均本征模函数分量I1(t)大于排列熵设定值,则第一个平均本征模函数I1(t)是异常信号;若第一个平均本征模函数分量I1(t)小于排列熵设定值,则第一个平均本征模函数分量I1(t)不是异常信号;
当判断结果是第一个平均本征模函数分量I1(t)为异常信号,则循环执行步骤S32和S33,直至判断出第p个平均本征模函数分量Ip(t)不是异常信号,p=1,2,...,Ne;Ip(t)为:
S34-3、将已分解的前p-1个平均本征模函数分量从待分解的船舶流量数据S(t)中分离出来,得到r(t)是指分离后的剩余信号;
S34-4、对剩余信号r(t)进行经验模态分解,得到船舶流量数据的最终分解:dl(t)表示最终得到平稳的本征模函数分量;R”(t)表示残余分量。
8.如权利要求7所述的船舶流量预测方法,其特征在于,
所述步骤S42中长短期记忆神经网络的输入门It、忘记门Ft、输出门Ot及记忆单元的输入状态表达式分别如下所示:
式中,Xt是t时刻长短期记忆神经网络的输入,包含步骤S34-4中的本征模函数和残余分量R”(t);W1 i,W1 f,W1 o,W1 c分别为Xt的权重;/> 分别为Ht-1的权重;bi,bf,bo,bc分别为输入门、忘记门、输出门、记忆单元的偏置;σ为sigmoid函数;
长短期记忆神经网络的记忆线的t时刻输出Ct的表达式为:
式中,Ct-1表示长短期记忆神经网络的记忆线的t-1时刻输出;
长短期记忆神经网络的隐藏层的输出Ht如下:
Ht=Ot×tanh(Ct-1)
式中,tanh为双曲线正切函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010041100.4A CN111241466B (zh) | 2020-01-15 | 2020-01-15 | 一种基于深度学习的船舶流量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010041100.4A CN111241466B (zh) | 2020-01-15 | 2020-01-15 | 一种基于深度学习的船舶流量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241466A CN111241466A (zh) | 2020-06-05 |
CN111241466B true CN111241466B (zh) | 2023-10-03 |
Family
ID=70866010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010041100.4A Active CN111241466B (zh) | 2020-01-15 | 2020-01-15 | 一种基于深度学习的船舶流量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241466B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738520A (zh) * | 2020-06-24 | 2020-10-02 | 中国电子科技集团公司第二十八研究所 | 一种融合孤立森林与长短期记忆网络的系统负载预测方法 |
CN111897851A (zh) * | 2020-07-01 | 2020-11-06 | 中国建设银行股份有限公司 | 异常数据的确定方法、装置、电子设备及可读存储介质 |
CN111882925A (zh) * | 2020-07-27 | 2020-11-03 | 交通运输部水运科学研究所 | 基于信息传播图与递归神经网络的航运交通流预测系统 |
CN111814288B (zh) * | 2020-07-28 | 2023-08-08 | 交通运输部水运科学研究所 | 一种基于信息传播图神经网络方法 |
CN112162860A (zh) * | 2020-09-25 | 2021-01-01 | 中国民航大学 | 基于if-emd-lstm的cpu负载趋势预测方法 |
CN112668611B (zh) * | 2020-12-08 | 2024-02-02 | 湖南工业大学 | 一种基于Kmeans和CEEMD-PE-LSTM的短期光伏发电功率预测方法 |
CN114169237B (zh) * | 2021-11-30 | 2024-05-03 | 南昌大学 | 结合eemd-lstm及孤立森林算法的电力电缆接头温度异常预警方法 |
CN114973665A (zh) * | 2022-05-19 | 2022-08-30 | 南京信息工程大学 | 一种结合数据分解和深度学习的短时交通流预测方法 |
CN115828736A (zh) * | 2022-11-10 | 2023-03-21 | 大连海事大学 | 一种基于eemd-pe-lstm的短时船舶交通流量预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046953A (zh) * | 2015-06-18 | 2015-11-11 | 南京信息工程大学 | 一种短时交通流组合预测方法 |
WO2016101688A1 (zh) * | 2014-12-25 | 2016-06-30 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN107392363A (zh) * | 2017-07-12 | 2017-11-24 | 河海大学 | 一种ceemd和随机森林的短期风功率预测方法 |
CN109802862A (zh) * | 2019-03-26 | 2019-05-24 | 重庆邮电大学 | 一种基于集合经验模态分解的组合型网络流量预测方法 |
CN110111606A (zh) * | 2019-03-18 | 2019-08-09 | 上海海事大学 | 一种基于eemd-iaga-bp神经网络的船舶交通流预测方法 |
CN110163433A (zh) * | 2019-05-21 | 2019-08-23 | 上海海事大学 | 一种船舶流量预测方法 |
CN110222826A (zh) * | 2019-06-11 | 2019-09-10 | 上海海事大学 | 一种基于改进的EEMD-IndRNN船舶流量预测方法 |
-
2020
- 2020-01-15 CN CN202010041100.4A patent/CN111241466B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016101688A1 (zh) * | 2014-12-25 | 2016-06-30 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN105046953A (zh) * | 2015-06-18 | 2015-11-11 | 南京信息工程大学 | 一种短时交通流组合预测方法 |
CN107392363A (zh) * | 2017-07-12 | 2017-11-24 | 河海大学 | 一种ceemd和随机森林的短期风功率预测方法 |
CN110111606A (zh) * | 2019-03-18 | 2019-08-09 | 上海海事大学 | 一种基于eemd-iaga-bp神经网络的船舶交通流预测方法 |
CN109802862A (zh) * | 2019-03-26 | 2019-05-24 | 重庆邮电大学 | 一种基于集合经验模态分解的组合型网络流量预测方法 |
CN110163433A (zh) * | 2019-05-21 | 2019-08-23 | 上海海事大学 | 一种船舶流量预测方法 |
CN110222826A (zh) * | 2019-06-11 | 2019-09-10 | 上海海事大学 | 一种基于改进的EEMD-IndRNN船舶流量预测方法 |
Non-Patent Citations (1)
Title |
---|
基于集合经验模态分解和灰色神经网络的船舶交通流预测;肖进丽等;《武汉理工大学学报(交通科学与工程版)》;20171215(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111241466A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241466B (zh) | 一种基于深度学习的船舶流量预测方法 | |
Hans | Bayesian lasso regression | |
CN110163433B (zh) | 一种船舶流量预测方法 | |
Nasrabadi | Regularized spectral matched filter for target recognition in hyperspectral imagery | |
CN109886464B (zh) | 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法 | |
Juang et al. | Reduced interval type-2 neural fuzzy system using weighted bound-set boundary operation for computation speedup and chip implementation | |
CN114897144A (zh) | 基于复值神经网络的复值时序信号预测方法 | |
Hu et al. | Sapaugment: Learning a sample adaptive policy for data augmentation | |
CN109284662B (zh) | 一种基于迁移学习的水下声音信号分类方法 | |
Regazzoni et al. | A physics-informed multi-fidelity approach for the estimation of differential equations parameters in low-data or large-noise regimes | |
CN112487933B (zh) | 一种基于自动化深度学习的雷达波形识别方法及系统 | |
Schirmann et al. | A comparison of physics-informed data-driven modeling architectures for ship motion predictions | |
CN113762078A (zh) | 基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法 | |
Joseph et al. | GANDALF: gated adaptive network for deep automated learning of features | |
CN113159405B (zh) | 一种基于改进缎蓝园丁鸟算法优化lssvr的风电功率预测方法 | |
CN115619563A (zh) | 一种基于神经网络的股票价格分析方法 | |
Tsakiridis et al. | An evolutionary fuzzy rule-based system applied to real-world Big Data-the GEO-CRADLE and LUCAS soil spectral libraries | |
CN115017445A (zh) | 一种基于ceemdan结合近似熵的螺旋桨状态识别方法 | |
Versteeg et al. | Boosting local causal discovery in high-dimensional expression data | |
Li | Sequential Design of Experiments to Estimate a Probability of Failure. | |
Stepnowski et al. | Adaptive neuro-fuzzy and fuzzy decision tree classifiers as applied to seafloor characterization | |
CN111353633A (zh) | 基于机器学习的密跃层预测方法 | |
CN113688559B (zh) | 一种基于改进选择性进化随机网络的海水淡化系统故障诊断方法 | |
Yuan et al. | Learning to weight filter groups for robust classification | |
Sharma et al. | Effect of Various Regularizers on Model Complexities of Neural Networks in Presence of Input Noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |