CN113641722A - 一种基于变体lstm的长期时间序列数据预测方法 - Google Patents
一种基于变体lstm的长期时间序列数据预测方法 Download PDFInfo
- Publication number
- CN113641722A CN113641722A CN202110819883.9A CN202110819883A CN113641722A CN 113641722 A CN113641722 A CN 113641722A CN 202110819883 A CN202110819883 A CN 202110819883A CN 113641722 A CN113641722 A CN 113641722A
- Authority
- CN
- China
- Prior art keywords
- data
- prediction
- model
- time
- gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于变体LSTM的长期时间序列数据预测方法,通过改进传统LSTM模型建立一种变体LSTM循环神经网络模型,利用变体LSTM循环神经网络模型建立了一种两阶段预测方法,首先,利用历史数据训练变体LSTM网络得到用于预测未来数据的网络模型;其次,将需要预测的时间序列的时长平均分为前半段和后半段,利用训练好的网络模型学习预测出前半段的信号值;然后取历史数据的后半段与预测出的前半段信号值进行合并得到新的训练集,最后利用新的训练集对网络模型的参数进行微调实现网络模型更新,利用更新后的模型预测出后半段的信号值。最终将前后两半段的信号值合并得到预测的时间序列数据。本发明提高了预测进度。
Description
技术领域
本发明属于时间序列数据预测技术领域,具体涉及一种基于变体LSTM的长期时间序列数据预测方法。
背景技术
时间序列数据预测是通过对历史数据的分析模拟出数据的变化规律,然后预测出未来时间点上的数据值。时间序列数据预测在很多领域具有重要的应用。针对时间序列预测问题,许多学者提出很多具有实际应用价值的模型,形成了线性模型和非线性模型两种探究思路。
1927年自回归(Autoregressive,AR)[1]模型的提出,标志着线性时间序列预测分析方法的开始,AR模型打开了时间序列数据分析领域研究者的思路,之后产生了性能更加强健的预测模型,如文献[2]和文献[3]中的滑动平均(MovingAverage,MA)和自回归滑动平均模型(Autoregressive Moving Average,ARMA)。AR模型和MA模型可以用于航天器遥测数据的参数估计,在短期趋势预测上具有一定的效果,但是对于非平稳时间序列的预测效果并不是很理想。为了提高线性模型的预测性能,文献[4]提出了基于马尔科夫的预测模型,将预测问题转化为对低频数据和高频数据的预测。非线性模型具有更加宽泛的应用领域,因此,目前对时间序列数据预测的研究热点主要集中在非线性模型和方法上面。
随着人工智能技术的快速成长,机器学习收到了极大的关注。基于机器学习的预测方法具有较低的复杂度和计算量,不需要预先了解样本数据的背景结构,只需要利用样本数据进行大量的训练就可以很出色地完成预测工作。典型算法主要是基于支持向量机(Support Vector Machines,SVM)和基于神经网络展开的。近年来,基于这两种机器学习的时间序列数据预测方法得到了很好的发展。但是,基于SVM的预测方法在求解时优化速度较慢,于是出现了最小二乘支持向量机(Least squares support vector machine,LS-SVM)[5]。文献[6]研究了惯组误差系数的变化趋势,验证了LS-SVM模型在武器系统试验分析中具有较好的应用前景[7]。LS-SVM模型虽然优化速度快,但是对于样本的分布具有更为严格的要求,且没有很好的稳定性[8]。
对于大规模数据,神经网络具有较好的处理性能,因此基于神经网络的时间序列模型成了近年来的研究热点。人工神经网络(Artificial Neural Network,ANN)[9]、循环神经网络(Recurrent Neural Network,RNN)[10]都在时间序列预测领域表现良好。文献[11]提出基于遗传算法与神经网络模型相结合的时间序列预测模型,实验表明这种模型具有一定的优势。循环神经网络是近几年应用最为广泛的网络模型,它的模型结构具有较强的时序性,能够学习到数据时序上的特性,因此对于长序列预测具有很好的性能。长短期记忆网络(Long Short-Term Memory,LSTM)[12]是为了解决一般RNN的长期依赖问题而专门设计的。LSTM在很多领域的预测模型中都有着突出的表现,可以用于卫星轨道预报,解决了某些复杂系统难以建模的困难,对航天领域的时序数据处理具有一定的帮助。随着大量历史数据可用性的增加以及准确预测的需求,单层LSTM-RNN网络已经不能满足预测精度的要求,因此出现了深度LSTM-RNN网络[13]。LSTM-RNN的出现使得复杂系统的大规模数据预测成了可能。基于神经网络的时间序列数据预测算法是未来研究的主流方向,在未来将得会到更多的应用。
发明内容
本发明的目的是提供一种基于变体LSTM的长期时间序列数据预测方法,提高预测的准确性。
本发明所采用的技术方案是,一种基于变体LSTM的长期时间序列数据预测方法,具体按照以下步骤实施:
步骤1、变体LSTM循环神经网络模型的建立;
步骤2、时间序列数据预测算法。
本发明的特点还在于,
步骤1具体如下:
步骤1.1、将传统LSTM循环神经网络中的遗忘门和输入门合并成一个更新门,更新门使用一个Sigmoid层进行信息的更新,其中,左边的δ表示更新门,右边的δ表示输出门;
步骤1.2、设Bt表示t时刻的细胞状态,kt表示t时刻的隐藏状态,变体LSTM在前向传播的过程中,输入值受上一时刻隐层输出值和记忆单元状态值影响,设{c1,c2,...,cn}表示时间序列数据,在t时刻记忆单元的输入为:
bt=wg·[kt-1,ct]+eg (1)
式(1)中wg是更新门的权重矩阵,[kt-1,ct]表示把两个向量连接成一个长向量,eg是更新门的偏置,设gt为t时刻更新门的非线性映射,使用Sigmoid函数作为激励函数,得到数据进入更新门遗忘的那一部分信息:
gt=δ(bt) (2)
变体LSTM网络中信息更新的另一部分就是将上一时刻的细胞状态Mt-1进行更新,t时刻细胞状态的输入为:
公式(3)中wM表示计算单元状态的权重,eM表示偏置项。
得到t时刻更新后的细胞状态Mt为:
信息更新后数据进入输出门,输出门决定哪一部分信息需要输出:
ut=δ(wo[kt-1,ct]+eo) (5)
kt=ut*tanh(Mt) (6)
公式(5)中wo表示输出门的权重矩阵,eo表示偏置项;
步骤1.3、更新当前序列的索引预测其输出:
公式(7)中D表示输出层的权重矩阵,r表示输出层的偏置;
步骤1.4、得到输出数据后通过与实际数据进行对比,建立损失函数公式8,通过自适应学习率优化算法AdamOptimizer作为反向传播训练算法进行误差的最小化训练,得到最优的权重参数,这里需要学习的参数有3组,更新门的权重矩阵wg和偏置项eg、计算单元状态的权重wM和偏置eM、以及输出门的权重矩阵wo和偏置项eo:
步骤1.5、利用链式法则定义辅助变量:
var表示辅助变量,wg表示更新门的权重矩阵,eg表示更新门的偏置项,wM表示单元状态的权重,eM表示单元状态的偏置项,wo表示输出门的权重矩阵,eo表示输出门的偏置项,[kt-1,ct]表示把两个向量连接成一个长向量;
沿时间反向传播的误差项,就是计算出t-1时刻的误差项σt-1,残差先后作用于输出门,记忆单元和更新门:
由此得到将误差项向前传递到任意p时刻的公式:
残差传递完成后,得到权重和偏置的梯度:
求得局域梯度后,利用Delta法则[14]重新调节各层权值,最后,以减小代价函数为原则重复迭代步骤完成变体LSTM神经网络的训练过程。
步骤2具体如下:
基于所述步骤1建立的变体LSTM循环神经网络,建立两阶段时间序列数据预测算法,针对长时间序列数据的预测问题,将预测任务分为两阶段,第一阶段为模型的训练阶段,包含归一化、模型训练和模型预测三个操作;第二阶段为模型的微调阶段,包含数据集更新、归一化、权重调整和模型预测四个操作,将两部分预测到的结果相结合即可得到预测时间序列数据集;
预测目标:训练数据的时间区间为[1,m],预测未来区间[m+1,m+2n]的信号值,预测的时间戳长度为2n。
步骤2中第一阶段的预测过程具体如下:
步骤2.1.1、数据标准化:
将时间序列数据样本Y={y1,y2,...,yj,...,xm}通过公式(17)进行标准化,j=1,2,...,m,得到标准化后的序列数据X={x1,x2,...,xj,...,xm}:
步骤2.1.2、时间切片:
步骤2.1.3、训练过程:
公式(20)中m表示预测的时间序列的长度,Y′表示预测值,Y表示实际值。
步骤2.1.4、预测过程:
定义D1={w1;e1}表示第一阶段通过学习最终获得的网络参数,S1表示第一阶段建立的时间序列预测模型,通过S1预测得到[m+1,m+n]时间段的信号值Y′1={ym+1,ym+2,...,ym+n},见公式21:
步骤2中第二阶段的预测过程具体如下:
定义D2={w2;e2}表示第二阶段通过学习最终获得的网络参数,S2表示第二阶段更新后的时间序列数据预测模型,使用S2预测得到区间[m+1,m+2n]的信号值Y′2={ym+n+1,ym+n+2,...,ym+2n},见公式22:
步骤2.2.1、更新训练数据:
步骤2.2.2、参数调整:
D2=D1±{Δw;Δe} (24)
步骤2.2.3、预测结果:
预测得到时间序列数据Y′={ym+1,ym+2,...,ym+2n}。
本发明的有益效果是,一种基于变体LSTM的长期时间序列数据预测方法,首先改进传统LSTM模型建立了一种变体LSTM循环神经网络模型;然后利用变体LSTM循环神经网络模型建立了一种两阶段预测方法用于长期时间序列数据的预测。在变体LSTM循环神经网络建立阶段,将传统LSTM网络模型进行简化,公平地考虑历史信息和未来信息对于目前状态的重要性,将输入门和遗忘门合并成一个更新门,通过Sigmoid函数控制信息的更新,使得网络模型每遗忘多少历史信息则添加等量的新信息。相比于传统的LSTM网络模型,变体LSTM模型具有更少的训练参数和更快的训练速度,这对于时间序列数据的实时预测具有重要的意义。在预测阶段,提出了一种两阶段预测方法。首先,利用历史数据训练变体LSTM网络模型;其次,将需要预测的时间序列的时长平均分为前半段和后半段,利用训练好的网络模型学习并预测出前半段的信号值;然后取历史数据的后半段与预测出的前半段信号值进行合并得到新的训练集,最后利用新的训练集对网络模型的参数进行微调实现网络模型更新,利用更新后的模型预测出后半段的信号值。最终将前后两半段的信号值合并得到预测的时间序列数据。这种两阶段预测机制考虑了长期时间序列的不稳定性和多变性,及时更新模型对于提高预测的准确性具有重要的作用。
附图说明
图1为传统LSTM隐层的数据流示意图;
图2为变体LSTM隐层的数据流示意图;
图3为基于变体LSTM网络的时间序列数据预测过程;
图4为更新训练数据的过程;
图5为LSTM和变体LSTM网络训练消耗时间差值结果,其中,(a)表示数据集1,(b)表示数据集2;
图6为变体LSTM训练时损失变化情况,其中,(a)表示数据集1,(b)表示数据集2;
图7为数据集1上不同模型的预测结果,其中,图a-1为本文提出模型的预测结果,图a-2为本文提出模型预测结果的绝对误差,图b-1为LSTM模型的预测结果,图b-2为LSTM模型预测结果的绝对误差,图c-1为LS-SVM模型预测结果,图c-2为LS-SVM模型预测结果的绝对误差,图d-1为BP神经网络模型预测结果,图d-2为BP神经网络模型预测结果的绝对误差,图e-1为AR模型预测结果,图e-2为AR模型预测结果的绝对误差;
图8为数据集2上不同模型的预测结果,其中,图a-1为本文提出模型的预测结果,图a-2为本文提出模型预测结果的绝对误差,图b-1为LSTM模型的预测结果,图b-2LSTM模型预测结果的绝对误差,图c-1为LS-SVM模型预测结果,图c-2为LS-SVM模型预测结果的绝对误差,图d-1为BP神经网络模型预测结果,图d-2为BP神经网络模型预测结果的绝对误差,图e-1为AR模型预测结果,图e-2为AR模型预测结果的绝对误差。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于变体LSTM的长期时间序列数据预测方法,具体按照以下步骤实施:
步骤1、变体LSTM循环神经网络模型的建立;
步骤1具体如下:
如图1所示,传统LSTM循环神经网络:LSTM循环神经网络包含一个具有记忆单元的模块,能够学习到数据时域上的特征,对于时间序列数据具有很好的处理性能,因此在很多领域得到了广泛应用。图1展示了LSTM循环网络的记忆模块,包含三个增殖单元:输入门、遗忘门和输出门,它们分别控制着信息的输入、更新和输出,使得网络具有一定的记忆功能,但同时也使得网络具有较多的学习参数,因此本发明方法对LSTM进行简化,提出了一种变体LSTM循环神经网络模型。
步骤1.1、将传统LSTM循环神经网络中的遗忘门和输入门合并成一个更新门,更新门使用一个Sigmoid层进行信息的更新。如图2所示,图2中图标及意义:表示神经网络层;表示逐点操作;表示矢量传输;表示连接;表示复制,图2展示了变体LSTM网络隐层的数据处理模块,其中,左边的δ表示更新门,右边的δ表示输出门,这样改进的好处是,网络模型每遗忘多少信息,就补充等量的信息,使记忆细胞的记忆量保持平稳状态。这种网络结构相比于传统LSTM具有较简单的记忆单元,较少的学习参数。
步骤1.2、设Bt表示t时刻的细胞状态,kt表示t时刻的隐藏状态,变体LSTM在前向传播的过程中,输入值受上一时刻隐层输出值和记忆单元状态值影响,设{c1,c2,...,cn}表示时间序列数据,在t时刻记忆单元的输入为:
bt=wg·[kt-1,ct]+eg (1)
式(1)中wg是更新门的权重矩阵,[kt-1,ct]表示把两个向量连接成一个长向量,eg是更新门的偏置,设gt为t时刻更新门的非线性映射,使用Sigmoid函数作为激励函数,得到数据进入更新门遗忘的那一部分信息:
gt=δ(bt) (2)
变体LSTM网络中信息更新的另一部分就是将上一时刻的细胞状态Mt-1进行更新,t时刻细胞状态的输入为:
公式(3)中wM表示计算单元状态的权重,eM表示偏置项。
得到t时刻更新后的细胞状态Mt为:
信息更新后数据进入输出门,输出门决定哪一部分信息需要输出:
ut=δ(wo[kt-1,ct]+eo) (5)
kt=ut*tanh(Mt) (6)
公式(5)中wo表示输出门的权重矩阵,eo表示偏置项;
步骤1.3、更新当前序列的索引预测其输出:
公式(7)中D表示输出层的权重矩阵,r表示输出层的偏置;
步骤1.4、得到输出数据后通过与实际数据进行对比,建立损失函数公式8,通过自适应学习率优化算法AdamOptimizer作为反向传播训练算法进行误差的最小化训练,得到最优的权重参数,这里需要学习的参数有3组,更新门的权重矩阵wg和偏置项eg、计算单元状态的权重wM和偏置eM、以及输出门的权重矩阵wo和偏置项eo:
步骤1.5、为了详细表示残差,利用链式法则定义辅助变量:
var表示辅助变量,wg表示更新门的权重矩阵,eg表示更新门的偏置项,wM表示单元状态的权重,eM表示单元状态的偏置项,wo表示输出门的权重矩阵,eo表示输出门的偏置项,[kt-1,ct]表示把两个向量连接成一个长向量;
沿时间反向传播的误差项,就是计算出t-1时刻的误差项σt-1,残差先后作用于输出门,记忆单元和更新门:
由此得到将误差项向前传递到任意p时刻的公式:
残差传递完成后,得到权重和偏置的梯度:
求得局域梯度后,利用Delta法则[14]重新调节各层权值,最后,以减小代价函数为原则重复迭代步骤完成变体LSTM神经网络的训练过程。
步骤2、如图3所示,时间序列数据预测算法具体如下:
步骤1中建立的变体LSTM循环神经网络模型对于时间序列数据的预测具有较好的性能,因此基于所述步骤1建立的变体LSTM循环神经网络,建立两阶段时间序列数据预测算法,针对长时间序列数据的预测问题,将预测任务分为两阶段,第一阶段为模型的训练阶段,包含归一化、模型训练和模型预测三个操作;第二阶段为模型的微调阶段,包含数据集更新、归一化、权重调整和模型预测四个操作,通过将两部分学习预测到的结果相结合即可得到预测时间序列数据集;如图3所示为基于变体LSTM网络的时间序列数据预测过程。
预测目标:训练数据的时间区间为[1,m],预测未来区间[m+1,m+2n]的信号值,预测的时间戳长度为2n。
步骤2中第一阶段的预测过程具体如下:
步骤2.1.1、数据标准化:
将时间序列数据样本Y={y1,y2,...,yj,...,xm}通过公式(17)进行标准化,j=1,2,...,m,得到标准化后的序列数据X={x1,x2,...,xj,...,xm}:
步骤2.1.2、时间切片:
步骤2.1.3、训练过程:
公式(19)中ω表示指数衰减率,控制权重的分布,通常默认值为0.9。s表示指数衰减率,控制梯度的影响,默认值为0.999。表示nt的一阶矩,表示mt的二阶矩,ζ表示学习率,τ=10-8(其作用是避免除数为0),Δφt表示更新后的步长;
公式(20)中m表示预测的时间序列的长度,Y′表示预测值,Y表示实际值。
步骤2.1.4、预测过程:
定义D1={w1;e1}表示第一阶段通过学习最终获得的网络参数,S1表示第一阶段建立的时间序列预测模型,通过S1预测得到[m+1,m+n]时间段的信号值Y′1={ym+1,ym+2,...,ym+n},见公式21:
步骤2中第二阶段的预测过程具体如下:
定义D2={w2;e2}表示第二阶段通过学习最终获得的网络参数,S2表示第二阶段更新后的时间序列数据预测模型,使用S2预测得到区间[m+1,m+2n]的信号值Y′2={ym+n+1,ym+n+2,...,ym+2n},见公式22:
步骤2.2.1、更新训练数据:
步骤2.2.2、参数调整:
D2=D1±{Δw;Δe} (24)
步骤2.2.3、预测结果:
预测得到时间序列数据Y′={ym+1,ym+2,...,ym+2n}。
本发明方法考虑到实时时间序列数据预测的时效性,改进传统LSTM网络模型,将输入门和遗忘门合并成一个更新门,使得网络模型每遗忘多少历史信息则添加等量的新信息。这种机制公平地考虑了历史信息和未来信息对于目前状态的重要性,并简化了学习参数,提高了训练速度,适合长期时间序列数据的预测。本发明考虑到长期时间序列数据的不稳定性和多变性,提出了一种两阶段时间序列数据预测算法,可以提高数据的稳定性和预测的准确性。本发明的方法在长期时间序列数据预测阶段引入了模型更新机制,动态调整模型的参数及时适应数据变化,提高了算法性能。本发明的方法简单高效,精度高,具有较强的鲁棒性。而且,本发明方法的长期时间序列数据预测结果对于飞行器故障预测中的趋势预测和定点预测具有重要意义。
本发明方法的实验结果与分析:
的实验主要对步骤2中提出的基于变体LSTM循环神经网络时间序列预测模型进行评估,通过效率分析和误差计算对模型的整体性能进行了评估,验证了所提出的时间序列预测模型的有效性。本发明对实验中所使用的数据集和实验平台进行了描述,实验数据来自飞行器某设备的温度和转速数据,实验平台使用深度学习的tensorflow框架。
数据集1(转速数据):训练集大小为4565个,预测长度为326个时间戳的信号值。
数据集2(温度数据):训练集大小为4605个,预测长度为322个时间戳的信号值。
实验平台:深度学习平台为tensorflow1.7,接口为anacoda3-5-1.0,电脑硬件配置为i7-6800K CPU,GTX1080Ti GPU,32GB内存。
1.评价指标:
通过仿真实验验证了所提方法的有效性。的实验包括3个部分。首先,通过比较训练时间来验证所提出的变体LSTM网络模型训练速度的提高。其次,通过比较训练损失证明了所提出的两阶段预测模型不会影响训练速度。最后,通过根均方误差(Root-mean-squareerror,RMSE)、平均绝对误差(Mean-absolute error,MAE)和百分比误差(mean-absolute-percentage error,MAPE)(见公式25至27)三个指标来评价所提出模型的预测性能。
2.性能评估与比较:
实验的执行过程是分别在数据集1和数据集2上进行的。首先,在不同的迭代次数下测量和比较变体LSTM网络和原始LSTM网络的训练时间,结果如表1所示。
表1变体LSTM和LSTM网络训练时间对比
从表1可以看出,在相同的迭代次数下,变体LSTM网络的训练时间小于原始网络模型的训练时间。这意味着本发明提出的变体LSTM网络在一定程度上提高了训练效率。为了清楚地说明问题,估计了变体LSTM网络和原始网络模型在不同迭代次数下的训练时间差异,结果如图5所示。在图5中,图5(a)显示了在数据集1上实验的结果,图5(b)显示了在数据集2上实验的结果。从图5(a)和图5(b)中可以看出,随着迭代次数的增加,训练时间差异也在增加。这也印证了变体LSTM网络相比于LSTM网络学习参数较少,训练速度较快的特点。
图6所示的是在不同的迭代次数下变体LSTM网络训练损失的变化情况。在图6中,图6(a)和图6(b)分别显示了在数据集1和数据集2上训练时损失值的变化趋势。可以看出,损失值均以较快的速度收敛。迭代次数在[0,8000]区间表示第一阶段中损失值的变化。迭代次数在[8000,10000]区间表示第二阶段参数调整过程中损失值的变化。可以看出,参数调整时损失值的变化没有大的波动,表明模型更新策略不影响整体训练速度。
表2数据集1上不同模型的预测结果
表3数据集2上不同模型的预测结果
表2和表3分别是在数据集1和数据集2上不同模型的预测结果,分别估计了在数据集1和数据集2上不同时间序列数据预测模型的RMSE,MAE和MAPE,通过这三个评估指标来衡量模型的预测性能。其中比较模型包括LSTM网络模型,最小二乘支持向量机[16](LS-SVM)模型,反向传播神经网络[17](BP-NN)模型和自回归[18](AR)模型。可以看出,与其他模型相比,不论在数据集1还是数据集2上本发明所提出的预测模型对于三个度量指标均具有较低的误差,尤其是MAE和MAPE明显低于其他模型。证明了所提出的模型是一种有效的时间序列预测方法。
图7和图8通过拟合图和绝对误差图的形式清楚地展示了各种预测模型的预测性能。其中图7所示的是在数据集1上实验的结果。图8所示的是在数据集2上实验的结果。在图7中,图a-1为本文提出模型的预测结果,图a-2为本文提出模型预测结果的绝对误差,图b-1为LSTM模型的预测结果,图b-2为LSTM模型预测结果的绝对误差,图c-1为LS-SVM模型预测结果,图c-2为LS-SVM模型预测结果的绝对误差,图d-1为BP神经网络模型预测结果,图d-2为BP神经网络模型预测结果的绝对误差,图e-1为AR模型预测结果,图e-2为AR模型预测结果的绝对误差;可以看出,和基于AR模型和LSSVM模型的预测方法相比,神经网络模型在数据集1上具有更好的表现,当数据波动较曲折时,AR模型和LS-SVM模型无法摸索出数据变化的规律,预测效果是令人不满意的。而本发明所提出的预测模型在拟合效果和预测精度上都明显优于其他模型。图8为数据集2上不同模型的预测结果,其中,图a-1为本文提出模型的预测结果,图a-2为本文提出模型预测结果的绝对误差,图b-1为LSTM模型的预测结果,图b-2LSTM模型预测结果的绝对误差,图c-1为LS-SVM模型预测结果,图c-2为LS-SVM模型预测结果的绝对误差,图d-1为BP神经网络模型预测结果,图d-2为BP神经网络模型预测结果的绝对误差,图e-1为AR模型预测结果,图e-2为AR模型预测结果的绝对误差。可以看出,BP模型和LSSVM模型的预测结果较差,BP模型在开始时具有较好的预测效果,当预测步长增加时,预测性能越来越糟糕;LS_SVM模型能够掌握数据的周期变化,但对于数据的精确预测仍然不具备很好的性能。相比于其他模型,本发明的模型在步长增大时仍具有很好的预测精度,对于数据的变化具有很好的适应能力。综上所述,证明了本发明提出的时间序列数据预测模型是一种有效的预测模型。
参考文献
[1]Priyamvad,R.Wadhvani.Review on various models for time seriesforecasting[C].2017 International Conference on Inventive Computing andInformatics(ICICI),23-24Nov.2017,Coimbatore,India.pp.405-410.
[2]M.Zhou,T.Han.A model of oil price forecasting based onautoregressive and moving average[C].International Conference on Robots&Intelligent System,27-28Aug.2016,Zhangjiajie,China.pp.22-25.
[3]MingGe,Eric C.Kerrigan.Short-termoceanwave forecastingusing anautoregressive moving average model[C].11thInternationalConferenceonControl,31Aug.-2Sept.2016,Belfast,UK.pp.1-6.
[4]戴曾,廖闻剑,彭艳兵.马尔科夫模型改进的时间序列预测算法研究[J].计算机与现代化,2014(11),pp.66-71.
[5]JAK Suykens,J.Vandewalle.Least Squares Support Vector MachineClassifiers[J].Neural Processing Letters,1999,9(3),pp.293-300.
[6]J.Xu,L.Wang,P.Qian.Time Series Prediction Based on LS-SVM[J].Aerospace Control,2008,pp.1290-1298.
[7]M.Qiao,M.Xiao-Ping,J.Lan,et al.Time series short-term gasprediction based on weighted LS-SVM[J].JournalofMining&SafetyEngineering,2011,28(2),pp.310-314.
[8]J.Ni,H.Ma,L.Ren.A time-series forecasting approach based on KPCA-LSSVM for lake water pollution[C].International Conference on Fuzzy SystemsandKnowledge Discovery,29-31 May 2012,Sichuan,China.pp.1044-1048.
[9]S.Crone,N.Kourentzes.Feature selection for time series predictiona combined filter and wrapper approach for neural networks[J].Neurocomputing,2010,(73),pp.1923-1936.
[10]J.Connor,L.Atlas.Recurrent neural networks and time seriesprediction[C].IJCNN-91-Seattle International Joint Conference on NeuralNetworks,8-12 July 1991.
[11]P.Donate,G.Sanchez,et al.Time series forecastingby evolvingartificial neural networks with genetic algorithms,differential evolution andestimation of distribution algorithm[J].Neural Computing&Applications,2013,22(1)pp.11-20.
[12]W.Hu,Y.Tang.TensorFlow Practical experience[M].1th ed.Beijing:Electronics Industry Press,2017,pp.1-12.
[13]A.Sagheer,M.Kotb.Time series forecasting of petroleum productionusing deep LSTM recurrent networks[J].Neurocomputing,2019,(323),pp.203-213.
[14]P.Tomasz.Using evolutionary neural networks to predict spatialorientation of a ship[J].Neurocomputing,2015,14(166),pp.229–243.
[15]D.Kingma,J.Ba.Adam:A Method for Stochastic Optimization[EB/OL]http://arxiv.org/pdf/1421.6980.pdf,2014-12-22/2017-1-30.
[16]J.Xu,L.Wang,P.Qian.Time Series Prediction Based on LS-SVM[J].Aerospace Control,2008,1(26),pp.8-12.
[17]D.Niu,S.Hui,J.Li,et al.Research on short-term power load timeseries forecasting model based on BP neural network[C].2nd InternationalConference on Advanced Computer Control,Shenyang,China,27-29,March,2010,pp.509-512.
[18]E.Parzen,ARARMA models for time series analysis and forecasting[J].Journal of Forecasting,2010,1(1),pp.67-82.
Claims (5)
1.一种基于变体LSTM的长期时间序列数据预测方法,其特征在于,具体按照以下步骤实施:
步骤1、变体LSTM循环神经网络模型的建立;
步骤2、时间序列数据预测算法。
2.根据权利要求1所述的一种基于变体LSTM的长期时间序列数据预测方法,其特征在于,所述步骤1具体如下:
步骤1.1、将传统LSTM循环神经网络中的遗忘门和输入门合并成一个更新门,更新门使用一个Sigmoid层进行信息的更新,其中,左边的δ表示更新门,右边的δ表示输出门;
步骤1.2、设Bt表示t时刻的细胞状态,kt表示t时刻的隐藏状态,变体LSTM在前向传播的过程中,输入值受上一时刻隐层输出值和记忆单元状态值影响,设{c1,c2,...,cn}表示时间序列数据,在t时刻记忆单元的输入为:
bt=wg·[kt-1,ct]+eg (1)
式(1)中wg是更新门的权重矩阵,[kt-1,ct]表示把两个向量连接成一个长向量,eg是更新门的偏置,设gt为t时刻更新门的非线性映射,使用Sigmoid函数作为激励函数,得到数据进入更新门遗忘的那一部分信息:
gt=δ(bt) (2)
变体LSTM网络中信息更新的另一部分就是将上一时刻的细胞状态Mt-1进行更新,t时刻细胞状态的输入为:
公式(3)中wM表示计算单元状态的权重,eM表示偏置项;
得到t时刻更新后的细胞状态Mt为:
信息更新后数据进入输出门,输出门决定哪一部分信息需要输出:
ut=δ(wo[kt-1,ct]+eo) (5)
kt=ut*tanh(Mt) (6)
公式(5)中wo表示输出门的权重矩阵,eo表示偏置项;
步骤1.3、更新当前序列的索引预测其输出:
公式(7)中D表示输出层的权重矩阵,r表示输出层的偏置;
步骤1.4、得到输出数据后通过与实际数据进行对比,建立损失函数公式8,通过自适应学习率优化算法AdamOptimizer作为反向传播训练算法进行误差的最小化训练,得到最优的权重参数,这里需要学习的参数有3组,更新门的权重矩阵wg和偏置项eg、计算单元状态的权重wM和偏置eM、以及输出门的权重矩阵wo和偏置项eo:
步骤1.5、利用链式法则定义辅助变量:
var表示辅助变量,wg表示更新门的权重矩阵,eg表示更新门的偏置项,wM表示单元状态的权重,eM表示单元状态的偏置项,wo表示输出门的权重矩阵,eo表示输出门的偏置项,[kt-1,ct]表示把两个向量连接成一个长向量;
沿时间反向传播的误差项,就是计算出t-1时刻的误差项σt-1,残差先后作用于输出门,记忆单元和更新门:
由此得到将误差项向前传递到任意p时刻的公式:
残差传递完成后,得到权重和偏置的梯度:
求得局域梯度后,利用Delta法则重新调节各层权值,最后,以减小代价函数为原则重复迭代步骤完成变体LSTM神经网络的训练过程。
3.根据权利要求2所述的一种基于变体LSTM的长期时间序列数据预测方法,其特征在于,所述步骤2具体如下:
基于所述步骤1建立的变体LSTM循环神经网络,建立两阶段时间序列数据预测算法,针对长时间序列数据的预测问题,将预测任务分为两阶段,第一阶段为模型的训练阶段,包含归一化、模型训练和模型预测三个操作;第二阶段为模型的微调阶段,包含数据集更新、归一化、权重调整和模型预测四个操作,通过将两部分学习预测到的结果相结合即可得到预测时间序列数据集;
预测目标:训练数据的时间区间为[1,m],预测未来区间[m+1,m+2n]的信号值,预测的时间戳长度为2n。
4.根据权利要求3所述的一种基于变体LSTM的长期时间序列数据预测方法,其特征在于,所述步骤2中第一阶段的预测过程具体如下:
步骤2.1.1、数据标准化:
将时间序列数据样本Y={y1,y2,...,yj,...,xm}通过公式(17)进行标准化,j=1,2,...,m,得到标准化后的序列数据X={x1,x2,...,xj,...,xm}:
步骤2.1.2、时间切片:
步骤2.1.3、训练过程:
公式(20)中m表示预测的时间序列的长度,Y'表示预测值,Y表示实际值;
步骤2.1.4、预测过程:
定义D1={w1;e1}表示第一阶段通过学习最终获得的网络参数,S1表示第一阶段建立的时间序列预测模型,通过S1预测得到[m+1,m+n]时间段的信号值Y1'={ym+1,ym+2,...,ym+n},见公式21:
5.根据权利要求4所述的一种基于变体LSTM的长期时间序列数据预测方法,其特征在于,所述步骤2中第二阶段的预测过程具体如下:
定义D2={w2;e2}表示第二阶段通过学习最终获得的网络参数,S2表示第二阶段更新后的时间序列数据预测模型,使用S2预测得到区间[m+1,m+2n]的信号值Y′2={ym+n+1,ym+n+2,...,ym+2n},见公式22:
步骤2.2.1、更新训练数据:
步骤2.2.2、参数调整:
D2=D1±{Δw;Δe} (24)
步骤2.2.3、预测结果:
预测得到时间序列数据Y'={ym+1,ym+2,...,ym+2n}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110819883.9A CN113641722A (zh) | 2021-07-20 | 2021-07-20 | 一种基于变体lstm的长期时间序列数据预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110819883.9A CN113641722A (zh) | 2021-07-20 | 2021-07-20 | 一种基于变体lstm的长期时间序列数据预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113641722A true CN113641722A (zh) | 2021-11-12 |
Family
ID=78417784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110819883.9A Pending CN113641722A (zh) | 2021-07-20 | 2021-07-20 | 一种基于变体lstm的长期时间序列数据预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641722A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919608A (zh) * | 2021-12-15 | 2022-01-11 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种预报机场能见度的方法及装置 |
CN114706144A (zh) * | 2022-02-24 | 2022-07-05 | 南方海洋科学与工程广东省实验室(湛江) | 海洋环境预报方法、装置、系统及存储介质 |
CN115278792A (zh) * | 2022-06-23 | 2022-11-01 | 重庆邮电大学 | 超密集异构无线网络中感知终端接入偏好的切换判决方法 |
CN115526300A (zh) * | 2022-11-14 | 2022-12-27 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
CN116129375A (zh) * | 2023-04-18 | 2023-05-16 | 华中科技大学 | 一种基于多曝光生成融合的弱光车辆检测方法 |
CN116383749A (zh) * | 2023-04-07 | 2023-07-04 | 北京华云星地通科技有限公司 | 一种热镜温度异常检测方法及系统 |
CN117932280A (zh) * | 2024-03-25 | 2024-04-26 | 之江实验室 | 长序列数据预测方法、装置、计算机设备、介质和产品 |
CN117932280B (zh) * | 2024-03-25 | 2024-06-25 | 之江实验室 | 长序列数据预测方法、装置、计算机设备、介质和产品 |
-
2021
- 2021-07-20 CN CN202110819883.9A patent/CN113641722A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919608A (zh) * | 2021-12-15 | 2022-01-11 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种预报机场能见度的方法及装置 |
CN114706144A (zh) * | 2022-02-24 | 2022-07-05 | 南方海洋科学与工程广东省实验室(湛江) | 海洋环境预报方法、装置、系统及存储介质 |
CN115278792A (zh) * | 2022-06-23 | 2022-11-01 | 重庆邮电大学 | 超密集异构无线网络中感知终端接入偏好的切换判决方法 |
CN115278792B (zh) * | 2022-06-23 | 2024-05-24 | 重庆邮电大学 | 超密集异构无线网络中感知终端接入偏好的切换判决方法 |
CN115526300A (zh) * | 2022-11-14 | 2022-12-27 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
CN115526300B (zh) * | 2022-11-14 | 2023-06-02 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
CN116383749A (zh) * | 2023-04-07 | 2023-07-04 | 北京华云星地通科技有限公司 | 一种热镜温度异常检测方法及系统 |
CN116129375A (zh) * | 2023-04-18 | 2023-05-16 | 华中科技大学 | 一种基于多曝光生成融合的弱光车辆检测方法 |
CN116129375B (zh) * | 2023-04-18 | 2023-07-21 | 华中科技大学 | 一种基于多曝光生成融合的弱光车辆检测方法 |
CN117932280A (zh) * | 2024-03-25 | 2024-04-26 | 之江实验室 | 长序列数据预测方法、装置、计算机设备、介质和产品 |
CN117932280B (zh) * | 2024-03-25 | 2024-06-25 | 之江实验室 | 长序列数据预测方法、装置、计算机设备、介质和产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113641722A (zh) | 一种基于变体lstm的长期时间序列数据预测方法 | |
CN106600059B (zh) | 基于改进rbf神经网络的智能电网短期负荷预测方法 | |
CN104598972A (zh) | 一种大规模数据回归神经网络快速训练方法 | |
Chen et al. | Mngnas: distilling adaptive combination of multiple searched networks for one-shot neural architecture search | |
Tian et al. | Time-delay compensation method for networked control system based on time-delay prediction and implicit PIGPC | |
Han et al. | Network traffic prediction using variational mode decomposition and multi-reservoirs echo state network | |
Tian et al. | An adaptive online sequential extreme learning machine for short-term wind speed prediction based on improved artificial bee colony algorithm | |
Qiao et al. | A self-organizing RBF neural network based on distance concentration immune algorithm | |
CN110471768B (zh) | 一种基于fastPCA-ARIMA的负载预测方法 | |
CN111355633A (zh) | 一种基于pso-delm算法的比赛场馆内手机上网流量预测方法 | |
Wu | Hybrid forecasting model based on support vector machine and particle swarm optimization with adaptive and Cauchy mutation | |
CN114169251A (zh) | 一种超短期风电功率预测方法 | |
CN113052373A (zh) | 一种基于改进elm模型的月径流变化趋势预测方法 | |
CN117319231A (zh) | 一种基于蜣螂算法优化vmd的网络流量预测方法与系统 | |
Zhang et al. | A method based on Lorenz disturbance and variational mode decomposition for wind speed prediction | |
CN116432037A (zh) | 一种在线迁移学习方法、装置、设备和存储介质 | |
CN114564787A (zh) | 用于目标相关翼型设计的贝叶斯优化方法、装置及存储介质 | |
Aishwarya et al. | Prediction of time series data using GA-BPNN based hybrid ANN model | |
Chi et al. | Comparison of two multi-step ahead forecasting mechanisms for wind speed based on machine learning models | |
CN113128666A (zh) | 基于Mo-S-LSTMs模型的时间序列多步预测方法 | |
CN115796327A (zh) | 一种基于vmd和iwoa-f-gru模型的风电功率区间预测方法 | |
Shen et al. | Stock index prediction based on adaptive training and pruning algorithm | |
Jin-Yue et al. | Research on the non-linear function fitting of RBF neural network | |
Lim et al. | Second-order derivative optimization methods in deep learning neural networks | |
CN116954086B (zh) | 一种抽水蓄能机组调节系统智能预测控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |