CN111680786A - 一种基于改进权重门控单元的时序预测方法 - Google Patents
一种基于改进权重门控单元的时序预测方法 Download PDFInfo
- Publication number
- CN111680786A CN111680786A CN202010523091.2A CN202010523091A CN111680786A CN 111680786 A CN111680786 A CN 111680786A CN 202010523091 A CN202010523091 A CN 202010523091A CN 111680786 A CN111680786 A CN 111680786A
- Authority
- CN
- China
- Prior art keywords
- weight
- gating
- information entropy
- unit
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 230000000306 recurrent effect Effects 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 230000015654 memory Effects 0.000 claims abstract description 32
- 230000007787 long-term memory Effects 0.000 claims abstract description 16
- 230000006403 short-term memory Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 230000035772 mutation Effects 0.000 abstract description 20
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000013139 quantization Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 14
- 210000002569 neuron Anatomy 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于时序预测技术领域,公开了一种基于改进权重门控单元的时序预测方法,进行信息熵量化数据不确定性:对原始数据进行分段预处理,再计算信息熵;设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重;建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元;门控权重单元模型的训练与预测。本发明首次使用基于信息熵理论的长短期记忆单元门控改进方法,融合信息熵理论和神经网络理论进行时序预测,针对传统长短期记忆单元难以获取时序中的突变特征问题提出新的方法。
Description
技术领域
本发明属于时序预测技术领域,尤其涉及一种基于改进权重门控单元的时序预测方法。
背景技术
目前,多变量时间序列预测是根据已有的多变量历史数据对未来进行预测,广泛应用于股市、空气质量、故障检测等方面。由于多变量序列间存在的相互依赖关系难以学习、特别是突变数据的变化趋势挖掘困难,导致该类问题的预测精度不高。
多变量时间序列预测问题的早期研究主要是建立诸如加权滑动平均模型、差分整合移动平均自回归模型之类的自回归参数模型进行预测,简单直观,但极易损失变量间的动态依赖信息。近期基于浅层机器学习的非参数模型预测成为多变量时间序列预测问题的主流方法,可有效克服多变量时间序列非线性和变量依赖性强等问题,如支持向量回归,高斯过程回归,BP神经网络等典型模型相较于早期研究都具有更好的性能,但该类方法易过拟合,大大影响预测的精度。
由于早期循环神经网络不能解决长期依赖问题,存在梯度消失和梯度爆炸现象,目前多利用深度学习中的循环神经网络模型解决多变量时序预测问题。Graves等通过在循环神经网络单元中引入记忆单元和门控机制,提出长短期记忆单元及各种变体。其中长短期记忆单元通过门控机制解决循环神经网络的长期依赖问题,这类带有门控机制的循环神经网络模型在多变量时序预测问题上取得较好的结果。目前对于循环神经网络的改进技术多基于长短期记忆单元门控机制的扩展,如Zhou等提出的最小门控单元、Gers等提出的窥视孔连接、Cho等提出的门控循环单元、Liu等提出的混合门单元。上述改进虽然对长短期记忆单元的结构进行了改进优化,但各种长短期记忆单元变体和传统长短期记忆单元实际预测性能趋同。没有从根本上解决长短期记忆单元网络内部门控组件学习突变数据变化趋势困难的问题,因此长短期记忆单元对突变信息的预测效果较差。
通过上述分析,现有技术存在的问题及缺陷为:
(1)多变量时间序列预测问题的早期研究主要是建立诸如加权滑动平均模型、差分整合移动平均自回归模型之类的自回归参数模型进行预测,极易损失变量间的动态依赖信息。
(2)近期基于浅层机器学习的非参数模型预测成为多变量时间序列预测问题的主流方法,易过拟合,大大影响预测的精度。
(3)目前对于循环神经网络的改进技术多基于长短期记忆单元门控机制的扩展,但各种长短期记忆单元变体和传统长短期记忆单元实际预测性能趋同。没有从根本上解决长短期记忆单元网络内部门控组件学习突变数据变化趋势困难的问题,因此长短期记忆单元对突变信息的预测效果较差。
解决以上问题及缺陷的难度为:
早期研究有限制,几乎无法预测高度非线性的数据,加入数学约束会提高运算的复杂度,且无法明显提高精度。目前很少人会使用传统方法进行预测。而浅层机器学习参数很复杂导致算法收敛较慢,这使得通过对模型的优化提升多变量时间预测效果的方式几乎不可能,而且其学习算法采用了经验风险最小化原理,无法保证期望风险最小化,这使得模型容易产生过拟合问题,并且容易陷入局部最优。深度学方法没有根本上解决长短期记忆单元网络内部门控组件学习突变数据变化趋势困难的问题,若果不针对突变数据段做优化,很难进一步提高预测效果。
解决以上问题及缺陷的意义为:
使预测结果更加精确。多变量时序数据广泛存在于社会和科学的各个方面,例如:在股市预测方面更加精准地预测可以减少投资人的经济损失。在故障检测预测方面可以提前预判故障率,提高机器运转的工作效率。在油田开采水淹预测方面可以减少财力损失,保障人身安全。
精确的预测结果能帮助对应的工作人员制定合理生产计划,维持供需平衡,减少风险,同时减少资源浪费和社会生产成本。
综上所述,早期方法无法解决精度问题和局部最优解问题,而当前研究人员使用的时序数据预测模型虽然有一定效果,但还没有从根本上解决长短期记忆单元内部门控组件学习突变数据变化趋势困难的问题。本发明依照传统思路对网络单元的门控机制进行了扩展,提出了新的权重门控单元模型。与同类研究工作不同的是,本发明新引入信息熵技术量化数据的变化程度,并设置基于信息熵的动态调整权重矩阵代替传统遗忘门权重矩阵,学习数据的变化趋势。
发明内容
针对现有技术存在的多变量时间序列预测问题,本发明提供了一种基于改进权重门控单元的时序预测方法。
本发明是这样实现的,一种基于改进权重门控单元的时序预测方法,所述基于改进权重门控单元的时序预测方法包括以下步骤:
步骤一,信息熵量化数据不确定性:对原始数据进行分段预处理,再计算信息熵;所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量。
步骤二,设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重。
步骤三,建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元,所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元。
步骤四,门控权重单元模型的训练与预测。
进一步,步骤一中,所述对原始数据进行分段预处理,再计算信息熵的方法如下:
(I)将原始数据中的预测特征序列记作fi(t),其余的特征序列记为x1(t),x2(t),......,xm(t),其中t为循环神经网络设置的时间步,取值范围为T=[tmin,tmax],m为其余特征个数。
(II)计算信息熵时,若预测特征fi(t)的值域Z=[cmin,cmax]中包含N个数据,按升序划分10等份,对应区间依次为[cmin,c1],[c1,c2],...,[c8,c9],[c9,c10],其中第l个区间记作Zl。
进一步,步骤二中,所述设计新的门控权重单元的方法如下:
(3)门控权重单元剩余得隐含层状态在t时刻过程与长短期记忆单元相同:
Ot=σ(Wo*[ht-1,xt]+bo);
it=σ(Wi*[ht-1,xt]+bi);
at=tanh(Wc*[ht-1,xt]+bc);
Ct=ft⊙Ct-1+it⊙at;
ht=Ot⊙tanh(Ct);
其中,分别代表两个临时遗忘门,分别代表两个临时遗忘门矩阵,ht表示隐含层状态,σ(x)为Sigmoid函数,将数据信息熵映射到区间0~1,表示当前数据的信息量。E为输入数据的信息熵矩阵,由原始数据计算概率H(Zl)后输入信息熵公式计算得到。
进一步,步骤三中,所述建立基于门控权重单元的训练模型的方法如下:
给定包含n个变量序列的时间序列X=(x1,x2,x3,...,xn)T,T表示时间步长,n表示输入维度。基于门控权重单元的时序预测模型表示为:
y^T+1=F(h1,...,hT-1,x1,...,xT);
其中,ht∈R,F(.)为模型需要学习的非线性映射函数,y^T+1是模型的预测目标,为下一个时间点的预测输出。数据序列X=(x1,x2,x3,...,xn)T在整个输入层的输入矩阵表示为(x1,x2,x3,...,xT)∈Rn*T。
进一步,步骤四中,所述门控权重单元模型的训练与预测方法如下:
1)将样本分为两部分,分别用于训练与预测。取一定比例的数据作为训练集,作为权重门控单元模型训练的输入样本,剩余数据作为测试集进行预测对比。
2)余下部分作为此模型的测试集,对该部分样本进行预测。
3)将所得预测值与真实值进行比较,计算准方根误差等指标对模型进行评估。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
对原始数据进行分段预处理,再计算信息熵;所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量;
设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重;
建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元,所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元;
门控权重单元模型的训练与预测。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
对原始数据进行分段预处理,再计算信息熵;所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量;
设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重;
建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元,所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元;
门控权重单元模型的训练与预测。
本发明的另一目的在于提供一种应用所述基于改进权重门控单元的时序预测方法于油田生产预测、股市、故障检测等。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的基于改进权重门控单元的时序预测方法,基于长短期记忆单元(循环神经网络技术)和信息熵技术,通过深度学习技术对多变量时间序列进行预测,基本原理是将数据集中各项特征的时间序列作为原始数据进行预处理,再通过信息熵技术量化数据不确定性并建立门控权重单元网络,最后将时序数据作为预测输入,进行训练和预测。
本发明首次使用基于信息熵理论的长短期记忆单元门控改进方法,融合信息熵理论和神经网络理论进行时序预测,通过信息熵率描述事件分布性以衡量不同概率事件包含的信息量并应用于新的权重门控单元,使网络单元在调节权重参数时能动态自适应挖掘异常突变数据的变化程度特征。
本发明针对传统长短期记忆单元难以获取时序中的突变特征问题提出新的方法,旨在对多变量时间序列做出动态预测,解决传统时序数据预测过程中出现的精度问题,改善预测模型对突变数据段的预测效果。
本发明依照传统思路对网络单元的门控机制进行了扩展,提出了新的权重门控单元模型。与同类研究工作不同的是,本发明新引入信息熵技术量化数据的变化程度,并设置基于信息熵的动态调整权重矩阵代替传统遗忘门权重矩阵,学习数据的变化趋势。
多变量时间序列预测是根据已有的多变量历史数据对未来进行预测,广泛应用于股市、空气质量、故障检测等方面。传统研究采用带门控机制的循环神经网络长短期记忆单元进行预测,但多变量时间序列之间存在相互依赖关系,突变数据段建模预测不精确,导致长短期记忆单元在数据突变段的预测效果较差。本发明提供的新方法使用信息熵率描述事件分布性以衡量不同概率事件包含的信息量并通过在长短期记忆单元的门控机制中加入与信息熵动态关联的权重矩阵,使网络单元在调节权重参数时能动态自适应挖掘异常突变数据的变化程度特征。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于改进权重门控单元的时序预测方法流程图。
图2是本发明实施例提供的基于改进权重门控单元的时序预测方法原理图。
图3是本发明实施例提供的权重门控单元示意图。
图4是本发明实施例提供的基于循环神经网络的时序预测模型框架示意图;
图中:RNN-unit表示门控权重单元。
图5是本发明实施例提供的LSTM模型中神经元节点数量的影响示意图。
图6是本发明实施例提供的不同训练时期权重矩阵Wf1和Wf2的动态变化图;
图6中:图(a)表示训练初期的的Wf1;图(b)表示训练初期的Wf2;图(c)表示训练结束时的Wf1;图(d)表示训练结束时的Wf2。
图7是本发明实施例提供的门控权重单元和各类预测模型的预测曲线图;
图7中:图7(a)表示BAC数据集的“开盘值”预测曲线;图7(b)表示C数据集的“开盘值”预测曲线;图7(c)表示GS数据集的“开盘值”预测曲线;图7(d)表示USV数据集的“湿度”预测曲线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于改进权重门控单元的时序预测方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于改进权重门控单元的时序预测方法包括以下步骤:
S101,信息熵量化数据不确定性:对原始数据进行分段预处理,再计算信息熵;所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量。
S102,设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重。
S103,建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元,所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元。
S104,门控权重单元模型的训练与预测。
下面结合实施例对本发明作进一步描述。
基于门控权重单元算法的多变量时序数据预测新方法综合了信息熵评价不确定性和长短期记忆单元技术,进行时序预测。整个预测工作主要包括以下几个部分:
(1)信息熵量化数据不确定性
信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量。由于多变量时序数据的数据量大,单个数据指标的值得概率不宜计算,导致模型训练困难,因此首先需要对原始数据进行分段预处理,再计算信息熵。
1)将原始数据中的预测特征序列记作fi(t),其余的特征序列记为x1(t),x2(t),......,xm(t),其中t为循环神经网络设置的时间步,取值范围为T=[tmmin,tmmax],m为其余特征个数。
2)计算信息熵时,若预测特征fi(t)的值域Z=[cmin,cmax]中包含N个数据,按升序划分10等份,对应区间依次为[cmin,c1],[c1,c2],...,[c8,c9],[c9,c10],其中第l个区间记作Zl。
(2)设计新的门控权重单元
门控权重单元时序数据预测是一种基于长短期记忆单元(循环神经网络技术)和信息熵技术的方法。该单元引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重(附图3)。
3)门控权重单元剩余得隐含层状态在t时刻过程与长短期记忆单元相同:
Ot=σ(Wo*[ht-1,xt]+bo) (5)
it=σ(Wi*[ht-1,xt]+bi) (6)
at=tanh(Wc*[ht-1,xt]+bc) (7)
Ct=ft⊙Ct-1+it⊙at (8)
ht=Ot⊙tanh(Ct) (9)
其中,分别代表两个临时遗忘门,分别代表两个临时遗忘门矩阵,ht表示隐含层状态,σ(x)为Sigmoid函数,将数据信息熵映射到区间0~1,表示当前数据的信息量。E为输入数据的信息熵矩阵,由原始数据计算概率H(Zl)后输入公式(1)计算得到。
(3)建立基于门控权重单元的训练模型
循环神经网络各种变体改进模型的基本做法是利用不同的改进变体单元替换预测模型框架中的循环神经网络单元(附图4),本设计中循环神经网络神经网络模型中的RNN-unit表示门控权重单元。
给定包含n个变量序列的时间序列X=(x1,x2,x3,...,xn)T,T表示时间步长,n表示输入维度。基于门控权重单元的时序预测模型表示为:
y^T+1=F(h1,...,hT-1,x1,...,xT) (10)
其中,ht∈R,F(.)为模型需要学习的非线性映射函数,y^T+1是模型的预测目标,为下一个时间点的预测输出。数据序列X=(x1,x2,x3,...,xn)T在整个输入层的输入矩阵表示为(x1,x2,x3,...,xT)∈Rn*T。
(4)门控权重单元模型的训练与预测
1)将样本分为两部分,分别用于训练与预测。取一定比例的数据作为训练集,作为权重门控单元模型训练的输入样本,剩余数据作为测试集进行预测对比。
2)余下部分作为此模型的测试集,对该部分样本进行预测。
3)将所得预测值与真实值进行比较,计算准方根误差等指标对模型进行评估。
3、实例
结合4个多变量时序数据集评估新提出的权重门控单元模型,并将其性能与均使用TensorFlow框架实现。建立简单循环神经网络,长短期记忆网络,最小门控单元,权重门控单元4个参考模型评估新模型的性能,分别表示为“Simple-RNN”、“LSTM”、“GRU”、“权重门控单元”。
(1)实例数据
4个多变量时间序列数据集包括3个股市数据集,1个空气湿度指数数据集。所有数据均按前60%为训练集,后40%为测试集划分。
1)3个股票数据集:收录于Kaggle Datesets机器学习库的公开数据集,主要记录各大银行的股票数据,每个数据集有2517条记录,包含5个有效特征(收盘价、开盘价、最低价、最高价、成交量)。两个股票数据集分别记作“BAC”、“GS”、“C”。
2)空气湿度指数预测数据集:收录于UCI机器学习存储库机器学习库的公开数据集,主要记录在雅典)沿海地区的海面湿度数据。该数据集有1672条记录,包含4个有效特征(设备号、湿度、温度、报告时间)。数据缺失时,选择用对应属性平均值补齐。该数据集记作“USV”。
选择平均绝对误差(MAE)和对称平均绝对百分比误差(MAPE)作为评估模型性能的误差指标。并使用均方根误差(RMSE)作为模型训练的损失函数,在训练时依据每个批量计算所得的RMSE值进行反向传播操作。三种度量指标定义如下:
式中,n是样本总数,ypredict是预测值,yactual是真实值。
(2)参数调优
构建权重门控单元预测模型之前,针对各数据集预先调整网络模型的隐含层层数和各层神经元数量。其中隐含层层数的候选集为{1,2,3},神经元数目候选集为{16,32,64,96,128}。选择LSTM网络作为基准。在达到LSTM预测能力极限后,建立基于基准结构的权重门控单元模型。
基准结构在设置超参数时采用“控制变量法”。固定其他参数从候选集{16,32,64,96,128}中依次选择神经元数目并进行试验,结果如图5所示。
随着隐含层神经元数量的增加,模型预测性能逐步提升,并在神经元数量为32或64时达到候选集参数中的最高精度,但神经元数量超过64时会出现过拟合导致精度下降。基准模型不同神经元节点数量的具体性能评价指标如表1所示。后续将隐含层神经元的数量设置为64。
表1 LSTM不同神经元节点数量的精度变化
其中,灰色背景表示的数据是最佳结果。
确定神经元数目后更改隐含层层数,结果如表2所示。结果表明,层数较少的深度学习模型不能满足复杂数据集的精度要求,而较多层数会发生“长期依赖”现象,根据结果将隐含层层数设为2时模型预测效果最优。
表2 LSTM不同隐含层层数的精度变化
其中,颜色背景表示的数据是最佳结果。
为公平起见,所有深度学习模型都使用相同的隐藏层和神经元数量,设置2层隐含层单元,每层包含64个神经元,有且仅有1个神经元的全连接层作为输出层。
(3)权重矩阵分析
为说明权重门控单元两个基于信息熵的权重矩阵Wf1和Wf2的动态调整效果,对训练过程中Wf1和Wf2的变化进行分析。由于权重矩阵维度较大、不易衡量特征向量的变化趋势,因此使用频率直方图表示训练过程中权重矩阵的变化,其中横坐标为新增权重矩阵Wf1和Wf2的取值,纵坐标为权重矩阵值出现次数。以数据集“BAC”为例进行分析,结果如图6所示,其中图(a)与图(b),图(c)与图(d)分别为训练初期和结束训练的Wf1和Wf2的频率分布直方图。对比图(a)、图(c)发现Wf1早期权重部分分布多集中于0,后期部分权重系数上升至1,这说明Wf1捕获到了数据集中少量突变数据的变化特征,并适当增大了其权重系数。对比图(b)、图(d)发现Wf2在训练过程中发生大幅度变化,0附近的权重参数频率从4000下降到3000,0.5和-0.5附近的权重参数频率显著增加,这说明Wf2在训练时发现部分权重向量与突变数据趋势相关,增大了该部分的权重。
分析证实,基于信息熵的权重矩阵Wf1和Wf2在训练过程中识别出突变数据的变化趋势,并做出了相应的权重调整。
(4)模型对比分析
按照调优设置参数对模型进行训练,各模型在4个测试集上结果如表3所示。其中加粗数字表示传统循环神经网络(GRU,LSTM,Simple-RNN)的最优效果,使用灰色背景表示全部模型的最优效果。得到以下结论:
1)循环神经网络方法中,Simple-RNN针对不同数据集效果差异大,数据集越复杂效果越差。
2)传统循环神经网络方法,不同数据集的最优结果并不是由一同种方法得到。分析证实LSTM和GRU具有相似的功能,两者性能相当且稳定性均优于Simple-RNN。
3)与其他3个传统循环神经网络方法对比,新的权重门控单元模型在4个数据集上的MAE,RMSE和MAPE指标精度更高。
表3 各类RNN模型性能比较
灰色颜色背景表示的数据是最佳结果
使用4个数据集预测部分对比曲线如图7(a)、(b)、(c)和(d)所示。显然权重门控单元的神经网络预测结果在4个数据集上与真实值最接近,预测精度更高。传统神经网络方法(GRU,LSTM,Simple-RNN)在数据集C(图7(b))突变数据段(40到50)波峰处的预测值与真实值误差较大,而权重门控单元模型在波峰处的预测值与真实值基本一致,显示出更好的预测效果。这是由于基于信息熵的权重矩阵能够捕获突变数据段的变化趋势。结果证明权重门控单元对局部存在数据突变情况更为敏感,相对于传统神经网络方法精度更高。
(5)实验环境说明
实验操作平台:Intel(R)Core(TM)i5-7300HQCPU@2.50GHz处理器;8GB内存;Windows10家庭版64-bit系统;Python 3.5.6|Visual Studio Code编程环境;NVIDIA GTX1050显卡。本发明使用的神经网络(LSTM、GRU、MF-GRU)编程均使用TensorFlow框架实现。本发明中,实验环境如下表4所示:
表4 实验环境
模型参数表如图5所示:
表5 模型参数设置
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于改进权重门控单元的时序预测方法,其特征在于,所述基于改进权重门控单元的时序预测方法包括以下步骤:
对原始数据进行分段预处理,再计算信息熵;所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量;
设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重;
建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元,所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元;
门控权重单元模型的训练与预测。
2.如权利要求1所述的基于改进权重门控单元的时序预测方法,其特征在于,所述对原始数据进行分段预处理,再计算信息熵的方法如下:
(I)将原始数据中的预测特征序列记作fi(t),其余的特征序列记为x1(t),x2(t),……,xm(t),其中t为循环神经网络设置的时间步,取值范围为T=[tmin,tmax],m为其余特征个数;
(II)计算信息熵时,若预测特征fi(t)的值域Z=[cmin,cmax]中包含N个数据,按升序划分10等份,对应区间依次为[cmin,c1],[c1,c2],…,[c8,c9],[c9,c10],其中第l个区间记作Zl;
3.如权利要求1所述的基于改进权重门控单元的时序预测方法,其特征在于,所述设计新的门控权重单元的方法如下:
(3)门控权重单元剩余得隐含层状态在t时刻过程与长短期记忆单元相同:
Ot=σ(Wo*[ht-1,xt]+bo);
it=σ(Wi*[ht-1,xt]+bi);
at=tanh(Wc*[ht-1,xt]+bC);
Ct=ft⊙Ct-1+it⊙at;
ht=Ot⊙tanh(Ct);
5.如权利要求1所述的基于改进权重门控单元的时序预测方法,其特征在于,所述门控权重单元模型的训练与预测方法如下:
1)将样本分为两部分,分别用于训练与预测;取一定比例的数据作为训练集,作为权重门控单元模型训练的输入样本,剩余数据作为测试集进行预测对比;
2)余下部分作为此模型的测试集,对该部分样本进行预测;
3)将所得预测值与真实值进行比较,计算准方根误差等指标对模型进行评估。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
对原始数据进行分段预处理,再计算信息熵;所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量;
设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重;
建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元,所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元;
门控权重单元模型的训练与预测。
7.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
对原始数据进行分段预处理,再计算信息熵;所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量;
设计新的门控权重单元:引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵,以根据信息熵动态自适应调整特征权重;
建立基于门控权重单元的训练模型:利用不同的改进变体单元替换预测模型框架中的循环神经网络单元,所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元;
门控权重单元模型的训练与预测。
8.一种应用权利要求1~5任意一项所述基于改进权重门控单元的时序预测方法于油田生产预测、股市、故障检测等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010523091.2A CN111680786B (zh) | 2020-06-10 | 2020-06-10 | 一种基于改进权重门控单元的时序预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010523091.2A CN111680786B (zh) | 2020-06-10 | 2020-06-10 | 一种基于改进权重门控单元的时序预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680786A true CN111680786A (zh) | 2020-09-18 |
CN111680786B CN111680786B (zh) | 2023-12-05 |
Family
ID=72454786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010523091.2A Active CN111680786B (zh) | 2020-06-10 | 2020-06-10 | 一种基于改进权重门控单元的时序预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680786B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632127A (zh) * | 2020-12-29 | 2021-04-09 | 国华卫星数据科技有限公司 | 设备运行实时数据采集及时序的数据处理方法 |
CN114519610A (zh) * | 2022-02-16 | 2022-05-20 | 支付宝(杭州)信息技术有限公司 | 信息预测方法以及装置 |
CN116527378A (zh) * | 2023-05-22 | 2023-08-01 | 杭州龙境科技有限公司 | 一种云手机监控管理方法和系统 |
CN117008464A (zh) * | 2023-10-07 | 2023-11-07 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008004457A1 (fr) * | 2006-07-03 | 2008-01-10 | Ritsumeikan University | Procédé de diagnostic d'installation, système de diagnostic d'installation, et programme d'ordinateur |
CN107590567A (zh) * | 2017-09-13 | 2018-01-16 | 南京航空航天大学 | 一种基于信息熵聚类和注意力机制的循环神经网络短期负荷预测方法 |
CN109131452A (zh) * | 2018-08-14 | 2019-01-04 | 西安理工大学 | 一种基于长短时记忆网络的列车状态在线预测方法 |
CN109993282A (zh) * | 2019-03-28 | 2019-07-09 | 北京航空航天大学 | 一种台风波及范围的预测方法 |
CN110631592A (zh) * | 2019-10-28 | 2019-12-31 | 华南理工大学 | 基于lstm模型的室内自主导航agv运动轨迹融合方法 |
CN110782013A (zh) * | 2019-10-22 | 2020-02-11 | 太原理工大学 | 一种基于广义互熵自编码器的火电厂NOx排放量预测方法 |
-
2020
- 2020-06-10 CN CN202010523091.2A patent/CN111680786B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008004457A1 (fr) * | 2006-07-03 | 2008-01-10 | Ritsumeikan University | Procédé de diagnostic d'installation, système de diagnostic d'installation, et programme d'ordinateur |
CN107590567A (zh) * | 2017-09-13 | 2018-01-16 | 南京航空航天大学 | 一种基于信息熵聚类和注意力机制的循环神经网络短期负荷预测方法 |
CN109131452A (zh) * | 2018-08-14 | 2019-01-04 | 西安理工大学 | 一种基于长短时记忆网络的列车状态在线预测方法 |
CN109993282A (zh) * | 2019-03-28 | 2019-07-09 | 北京航空航天大学 | 一种台风波及范围的预测方法 |
CN110782013A (zh) * | 2019-10-22 | 2020-02-11 | 太原理工大学 | 一种基于广义互熵自编码器的火电厂NOx排放量预测方法 |
CN110631592A (zh) * | 2019-10-28 | 2019-12-31 | 华南理工大学 | 基于lstm模型的室内自主导航agv运动轨迹融合方法 |
Non-Patent Citations (4)
Title |
---|
ZAIFA CHEN ET AL.: "Mechanical state prediction based on LSTM neural netwok", 《2017 36TH CHINESE CONTROL CONFERENCE (CCC)》 * |
ZANG YEZE ET AL.: "Stock Price Prediction Based on Information Entropy and Artificial Neural Network", 《2019 5TH INTERNATIONAL CONFERENCE ON INFORMATION MANAGEMENT (ICIM)》 * |
张冬梅: "基于EEMD高斯过程自回归模型的缝洞型油藏开发动态指标预测", 《地质科技情报》, vol. 38, no. 3 * |
张金磊;罗玉玲;付强;: "基于门控循环单元神经网络的金融时间序列预测", 广西师范大学学报(自然科学版), no. 02 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632127A (zh) * | 2020-12-29 | 2021-04-09 | 国华卫星数据科技有限公司 | 设备运行实时数据采集及时序的数据处理方法 |
CN112632127B (zh) * | 2020-12-29 | 2022-07-15 | 国华卫星数据科技有限公司 | 设备运行实时数据采集及时序的数据处理方法 |
CN114519610A (zh) * | 2022-02-16 | 2022-05-20 | 支付宝(杭州)信息技术有限公司 | 信息预测方法以及装置 |
CN116527378A (zh) * | 2023-05-22 | 2023-08-01 | 杭州龙境科技有限公司 | 一种云手机监控管理方法和系统 |
CN116527378B (zh) * | 2023-05-22 | 2023-12-26 | 杭州龙境科技有限公司 | 一种云手机监控管理方法和系统 |
CN117008464A (zh) * | 2023-10-07 | 2023-11-07 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
CN117008464B (zh) * | 2023-10-07 | 2023-12-15 | 广东海洋大学 | 一种基于姿态控制的无人船导航方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111680786B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Du et al. | Application of innovative risk early warning mode under big data technology in Internet credit financial risk assessment | |
CN108280551B (zh) | 一种利用长短期记忆网络的光伏发电功率预测方法 | |
CN111680786A (zh) | 一种基于改进权重门控单元的时序预测方法 | |
CN112036084B (zh) | 一种相似产品寿命迁移筛选方法和系统 | |
CN110705743B (zh) | 一种基于长短期记忆神经网络的新能源消纳电量预测方法 | |
CN110619420B (zh) | 一种基于Attention-GRU的短期住宅负荷预测方法 | |
CN111260136A (zh) | 一种基于arima-lstm组合模型的楼宇短期负荷预测方法 | |
CN112488415A (zh) | 基于经验模态分解和长短时记忆网络的电力负荷预测方法 | |
CN111277434A (zh) | 一种基于vmd和lstm的网络流量多步预测方法 | |
CN109948845A (zh) | 一种配电网负荷长短期记忆神经网络预测方法 | |
Dong et al. | An integrated deep neural network approach for large-scale water quality time series prediction | |
CN113554466B (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN112085254B (zh) | 基于多重分形协同度量门控循环单元的预测方法及模型 | |
CN112734002B (zh) | 一种基于数据层和模型层联合迁移学习的寿命预测方法 | |
CN113705922B (zh) | 一种改进的超短期风电功率预测算法及模型建立方法 | |
CN113409072A (zh) | 一种经验模态分解和分布式gru神经网络及价格预测方法 | |
CN110276483A (zh) | 基于神经网络的制糖原材料预测方法 | |
CN115759415A (zh) | 基于lstm-svr的用电需求预测方法 | |
CN115766125A (zh) | 一种基于lstm和生成对抗网络的网络流量预测方法 | |
CN114819395A (zh) | 一种基于长短期记忆神经网络和支持向量回归组合模型的行业中长期负荷预测方法 | |
Sen | Time Series Prediction based on Improved Deep Learning | |
CN115062528A (zh) | 一种针对工业过程时序数据的预测方法 | |
Wang et al. | A Transformer-based multi-entity load forecasting method for integrated energy systems | |
CN115481788B (zh) | 相变储能系统负荷预测方法及系统 | |
CN114862032B (zh) | 一种基于XGBoost-LSTM的电网负荷预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |