CN111680786A

CN111680786A - 一种基于改进权重门控单元的时序预测方法

Info

Publication number: CN111680786A
Application number: CN202010523091.2A
Authority: CN
Inventors: 张冬梅; 金平; 余想
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-18
Anticipated expiration: 2040-06-10
Also published as: CN111680786B

Abstract

本发明属于时序预测技术领域，公开了一种基于改进权重门控单元的时序预测方法，进行信息熵量化数据不确定性：对原始数据进行分段预处理，再计算信息熵；设计新的门控权重单元：引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵，以根据信息熵动态自适应调整特征权重；建立基于门控权重单元的训练模型：利用不同的改进变体单元替换预测模型框架中的循环神经网络单元；门控权重单元模型的训练与预测。本发明首次使用基于信息熵理论的长短期记忆单元门控改进方法，融合信息熵理论和神经网络理论进行时序预测，针对传统长短期记忆单元难以获取时序中的突变特征问题提出新的方法。

Description

一种基于改进权重门控单元的时序预测方法

技术领域

本发明属于时序预测技术领域，尤其涉及一种基于改进权重门控单元的时序预测方法。

背景技术

目前，多变量时间序列预测是根据已有的多变量历史数据对未来进行预测，广泛应用于股市、空气质量、故障检测等方面。由于多变量序列间存在的相互依赖关系难以学习、特别是突变数据的变化趋势挖掘困难，导致该类问题的预测精度不高。

多变量时间序列预测问题的早期研究主要是建立诸如加权滑动平均模型、差分整合移动平均自回归模型之类的自回归参数模型进行预测，简单直观，但极易损失变量间的动态依赖信息。近期基于浅层机器学习的非参数模型预测成为多变量时间序列预测问题的主流方法，可有效克服多变量时间序列非线性和变量依赖性强等问题，如支持向量回归，高斯过程回归，BP神经网络等典型模型相较于早期研究都具有更好的性能，但该类方法易过拟合，大大影响预测的精度。

由于早期循环神经网络不能解决长期依赖问题，存在梯度消失和梯度爆炸现象，目前多利用深度学习中的循环神经网络模型解决多变量时序预测问题。Graves等通过在循环神经网络单元中引入记忆单元和门控机制，提出长短期记忆单元及各种变体。其中长短期记忆单元通过门控机制解决循环神经网络的长期依赖问题，这类带有门控机制的循环神经网络模型在多变量时序预测问题上取得较好的结果。目前对于循环神经网络的改进技术多基于长短期记忆单元门控机制的扩展，如Zhou等提出的最小门控单元、Gers等提出的窥视孔连接、Cho等提出的门控循环单元、Liu等提出的混合门单元。上述改进虽然对长短期记忆单元的结构进行了改进优化，但各种长短期记忆单元变体和传统长短期记忆单元实际预测性能趋同。没有从根本上解决长短期记忆单元网络内部门控组件学习突变数据变化趋势困难的问题，因此长短期记忆单元对突变信息的预测效果较差。

通过上述分析，现有技术存在的问题及缺陷为：

(1)多变量时间序列预测问题的早期研究主要是建立诸如加权滑动平均模型、差分整合移动平均自回归模型之类的自回归参数模型进行预测，极易损失变量间的动态依赖信息。

(2)近期基于浅层机器学习的非参数模型预测成为多变量时间序列预测问题的主流方法，易过拟合，大大影响预测的精度。

(3)目前对于循环神经网络的改进技术多基于长短期记忆单元门控机制的扩展，但各种长短期记忆单元变体和传统长短期记忆单元实际预测性能趋同。没有从根本上解决长短期记忆单元网络内部门控组件学习突变数据变化趋势困难的问题，因此长短期记忆单元对突变信息的预测效果较差。

解决以上问题及缺陷的难度为：

早期研究有限制，几乎无法预测高度非线性的数据，加入数学约束会提高运算的复杂度，且无法明显提高精度。目前很少人会使用传统方法进行预测。而浅层机器学习参数很复杂导致算法收敛较慢，这使得通过对模型的优化提升多变量时间预测效果的方式几乎不可能，而且其学习算法采用了经验风险最小化原理，无法保证期望风险最小化，这使得模型容易产生过拟合问题，并且容易陷入局部最优。深度学方法没有根本上解决长短期记忆单元网络内部门控组件学习突变数据变化趋势困难的问题，若果不针对突变数据段做优化，很难进一步提高预测效果。

解决以上问题及缺陷的意义为：

使预测结果更加精确。多变量时序数据广泛存在于社会和科学的各个方面，例如：在股市预测方面更加精准地预测可以减少投资人的经济损失。在故障检测预测方面可以提前预判故障率，提高机器运转的工作效率。在油田开采水淹预测方面可以减少财力损失，保障人身安全。

精确的预测结果能帮助对应的工作人员制定合理生产计划，维持供需平衡，减少风险，同时减少资源浪费和社会生产成本。

综上所述，早期方法无法解决精度问题和局部最优解问题，而当前研究人员使用的时序数据预测模型虽然有一定效果，但还没有从根本上解决长短期记忆单元内部门控组件学习突变数据变化趋势困难的问题。本发明依照传统思路对网络单元的门控机制进行了扩展，提出了新的权重门控单元模型。与同类研究工作不同的是，本发明新引入信息熵技术量化数据的变化程度，并设置基于信息熵的动态调整权重矩阵代替传统遗忘门权重矩阵，学习数据的变化趋势。

发明内容

针对现有技术存在的多变量时间序列预测问题，本发明提供了一种基于改进权重门控单元的时序预测方法。

本发明是这样实现的，一种基于改进权重门控单元的时序预测方法，所述基于改进权重门控单元的时序预测方法包括以下步骤：

步骤一，信息熵量化数据不确定性：对原始数据进行分段预处理，再计算信息熵；所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量。

步骤二，设计新的门控权重单元：引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵，以根据信息熵动态自适应调整特征权重。

步骤三，建立基于门控权重单元的训练模型：利用不同的改进变体单元替换预测模型框架中的循环神经网络单元，所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元。

步骤四，门控权重单元模型的训练与预测。

进一步，步骤一中，所述对原始数据进行分段预处理，再计算信息熵的方法如下：

(I)将原始数据中的预测特征序列记作f_i(t)，其余的特征序列记为x₁(t)，x₂(t)，......，x_m(t)，其中t为循环神经网络设置的时间步，取值范围为T＝[t_min，t_max]，m为其余特征个数。

(II)计算信息熵时，若预测特征f_i(t)的值域Z＝[c_min，c_max]中包含N个数据，按升序划分10等份，对应区间依次为[c_min，c₁]，[c₁，c₂]，...，[c₈，c₉]，[c₉，c₁₀]，其中第l个区间记作Z_l。

(III)统计f_i(t)的值落在各区间Z_l的数据量记为

则序列点落在区间Z_l内的概率

(IV)将区间Z_l内的概率

带入熵计算公式得到区间Z_l中任一数据的信息熵H(Z_l)：

进一步，步骤二中，所述设计新的门控权重单元的方法如下：

(1)将原始遗忘门权重矩阵设计为两个新的遗忘门矩阵

分别与已激活信息熵σ(E)和(1-σ(E))对应元素相乘得到临时门控输出

(2)按时间步计算，临时门控输出结果

相加得到整体遗忘门f^t12，门控权重单元使用整体遗忘门f^t12代替长短期记忆单元遗忘门参与计算，其余更新状态的方式与长短期记忆单元保持相同。

(3)门控权重单元剩余得隐含层状态在t时刻过程与长短期记忆单元相同：

O^t＝σ(W^o*[h^t-1，x_t]+b_o)；

i^t＝σ(Wⁱ*[h^t-1，x_t]+b_i)；

a^t＝tanh(W^c*[h^t-1，x_t]+b_c)；

C^t＝f^t⊙C^t-1+i^t⊙a^t；

h^t＝O^t⊙tanh(C_t)；

其中，

分别代表两个临时遗忘门，

分别代表两个临时遗忘门矩阵，h^t表示隐含层状态，σ(x)为Sigmoid函数，将数据信息熵映射到区间0～1，表示当前数据的信息量。E为输入数据的信息熵矩阵，由原始数据计算概率H(Z_l)后输入信息熵公式

计算得到。

进一步，步骤三中，所述建立基于门控权重单元的训练模型的方法如下：

给定包含n个变量序列的时间序列X＝(x¹，x²，x³，...，xⁿ)^T，T表示时间步长，n表示输入维度。基于门控权重单元的时序预测模型表示为：

y^_T+1＝F(h₁，...，h_T-1，x₁，...，x_T)；

其中，h_t∈R，F(.)为模型需要学习的非线性映射函数，y^_T+1是模型的预测目标，为下一个时间点的预测输出。数据序列X＝(x¹，x²，x³，...，xⁿ)^T在整个输入层的输入矩阵表示为(x₁，x₂，x₃，...，x_T)∈R^n*T。

进一步，步骤四中，所述门控权重单元模型的训练与预测方法如下：

1)将样本分为两部分，分别用于训练与预测。取一定比例的数据作为训练集，作为权重门控单元模型训练的输入样本，剩余数据作为测试集进行预测对比。

2)余下部分作为此模型的测试集，对该部分样本进行预测。

3)将所得预测值与真实值进行比较，计算准方根误差等指标对模型进行评估。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

对原始数据进行分段预处理，再计算信息熵；所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量；

设计新的门控权重单元：引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵，以根据信息熵动态自适应调整特征权重；

建立基于门控权重单元的训练模型：利用不同的改进变体单元替换预测模型框架中的循环神经网络单元，所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元；

门控权重单元模型的训练与预测。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

门控权重单元模型的训练与预测。

本发明的另一目的在于提供一种应用所述基于改进权重门控单元的时序预测方法于油田生产预测、股市、故障检测等。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于改进权重门控单元的时序预测方法，基于长短期记忆单元(循环神经网络技术)和信息熵技术，通过深度学习技术对多变量时间序列进行预测，基本原理是将数据集中各项特征的时间序列作为原始数据进行预处理，再通过信息熵技术量化数据不确定性并建立门控权重单元网络，最后将时序数据作为预测输入，进行训练和预测。

本发明首次使用基于信息熵理论的长短期记忆单元门控改进方法，融合信息熵理论和神经网络理论进行时序预测，通过信息熵率描述事件分布性以衡量不同概率事件包含的信息量并应用于新的权重门控单元，使网络单元在调节权重参数时能动态自适应挖掘异常突变数据的变化程度特征。

本发明针对传统长短期记忆单元难以获取时序中的突变特征问题提出新的方法，旨在对多变量时间序列做出动态预测，解决传统时序数据预测过程中出现的精度问题，改善预测模型对突变数据段的预测效果。

本发明依照传统思路对网络单元的门控机制进行了扩展，提出了新的权重门控单元模型。与同类研究工作不同的是，本发明新引入信息熵技术量化数据的变化程度，并设置基于信息熵的动态调整权重矩阵代替传统遗忘门权重矩阵，学习数据的变化趋势。

多变量时间序列预测是根据已有的多变量历史数据对未来进行预测，广泛应用于股市、空气质量、故障检测等方面。传统研究采用带门控机制的循环神经网络长短期记忆单元进行预测，但多变量时间序列之间存在相互依赖关系，突变数据段建模预测不精确，导致长短期记忆单元在数据突变段的预测效果较差。本发明提供的新方法使用信息熵率描述事件分布性以衡量不同概率事件包含的信息量并通过在长短期记忆单元的门控机制中加入与信息熵动态关联的权重矩阵，使网络单元在调节权重参数时能动态自适应挖掘异常突变数据的变化程度特征。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于改进权重门控单元的时序预测方法流程图。

图2是本发明实施例提供的基于改进权重门控单元的时序预测方法原理图。

图3是本发明实施例提供的权重门控单元示意图。

图4是本发明实施例提供的基于循环神经网络的时序预测模型框架示意图；

图中：RNN-unit表示门控权重单元。

图5是本发明实施例提供的LSTM模型中神经元节点数量的影响示意图。

图6是本发明实施例提供的不同训练时期权重矩阵W^f1和W^f2的动态变化图；

图6中：图(a)表示训练初期的的W^f1；图(b)表示训练初期的W^f2；图(c)表示训练结束时的W^f1；图(d)表示训练结束时的W^f2。

图7是本发明实施例提供的门控权重单元和各类预测模型的预测曲线图；

图7中：图7(a)表示BAC数据集的“开盘值”预测曲线；图7(b)表示C数据集的“开盘值”预测曲线；图7(c)表示GS数据集的“开盘值”预测曲线；图7(d)表示USV数据集的“湿度”预测曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于改进权重门控单元的时序预测方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于改进权重门控单元的时序预测方法包括以下步骤：

S101，信息熵量化数据不确定性：对原始数据进行分段预处理，再计算信息熵；所述信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量。

S102，设计新的门控权重单元：引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵，以根据信息熵动态自适应调整特征权重。

S103，建立基于门控权重单元的训练模型：利用不同的改进变体单元替换预测模型框架中的循环神经网络单元，所述循环神经网络神经网络模型中的RNN-unit表示门控权重单元。

S104，门控权重单元模型的训练与预测。

下面结合实施例对本发明作进一步描述。

基于门控权重单元算法的多变量时序数据预测新方法综合了信息熵评价不确定性和长短期记忆单元技术，进行时序预测。整个预测工作主要包括以下几个部分：

(1)信息熵量化数据不确定性

信息熵通过概率描述事件分布以衡量不同概率事件包含的信息量。由于多变量时序数据的数据量大，单个数据指标的值得概率不宜计算，导致模型训练困难，因此首先需要对原始数据进行分段预处理，再计算信息熵。

1)将原始数据中的预测特征序列记作f_i(t)，其余的特征序列记为x₁(t)，x₂(t)，......，x_m(t)，其中t为循环神经网络设置的时间步，取值范围为T＝[t_mmin，t_mmax]，m为其余特征个数。

2)计算信息熵时，若预测特征f_i(t)的值域Z＝[c_min，c_max]中包含N个数据，按升序划分10等份，对应区间依次为[c_min，c₁]，[c₁，c₂]，...，[c₈，c₉]，[c₉，c₁₀]，其中第l个区间记作Z_l。

3)统计f_i(t)的值落在各区间Z_l的数据量记为

则序列点落在区间Z_l内的概率

4)将区间Z_l内的概率

带入熵计算公式得到区间Z_l中任一数据的信息熵H(Z_l)：

(2)设计新的门控权重单元

门控权重单元时序数据预测是一种基于长短期记忆单元(循环神经网络技术)和信息熵技术的方法。该单元引入基于信息熵值的改进权重矩阵代替长短期记忆单元遗忘门矩阵，以根据信息熵动态自适应调整特征权重(附图3)。

1)将原始遗忘门权重矩阵设计为两个新的遗忘门矩阵

2)按时间步计算，临时门控输出结果

3)门控权重单元剩余得隐含层状态在t时刻过程与长短期记忆单元相同：

O^t＝σ(W^o*[h^t-1，x_t]+b_o) (5)

i^t＝σ(Wⁱ*[h^t-1，x_t]+b_i) (6)

a^t＝tanh(W^c*[h^t-1，x_t]+b_c) (7)

C^t＝f^t⊙C^t-1+i^t⊙a^t (8)

h^t＝O^t⊙tanh(C_t) (9)

其中，

分别代表两个临时遗忘门，

分别代表两个临时遗忘门矩阵，h^t表示隐含层状态，σ(x)为Sigmoid函数，将数据信息熵映射到区间0～1，表示当前数据的信息量。E为输入数据的信息熵矩阵，由原始数据计算概率H(Z_l)后输入公式(1)计算得到。

(3)建立基于门控权重单元的训练模型

循环神经网络各种变体改进模型的基本做法是利用不同的改进变体单元替换预测模型框架中的循环神经网络单元(附图4)，本设计中循环神经网络神经网络模型中的RNN-unit表示门控权重单元。

y^_T+1＝F(h₁，...，h_T-1，x₁，...，x_T) (10)

(4)门控权重单元模型的训练与预测

2)余下部分作为此模型的测试集，对该部分样本进行预测。

3、实例

结合4个多变量时序数据集评估新提出的权重门控单元模型，并将其性能与均使用TensorFlow框架实现。建立简单循环神经网络，长短期记忆网络，最小门控单元，权重门控单元4个参考模型评估新模型的性能，分别表示为“Simple-RNN”、“LSTM”、“GRU”、“权重门控单元”。

(1)实例数据

4个多变量时间序列数据集包括3个股市数据集，1个空气湿度指数数据集。所有数据均按前60％为训练集，后40％为测试集划分。

1)3个股票数据集：收录于Kaggle Datesets机器学习库的公开数据集，主要记录各大银行的股票数据，每个数据集有2517条记录，包含5个有效特征(收盘价、开盘价、最低价、最高价、成交量)。两个股票数据集分别记作“BAC”、“GS”、“C”。

2)空气湿度指数预测数据集：收录于UCI机器学习存储库机器学习库的公开数据集，主要记录在雅典)沿海地区的海面湿度数据。该数据集有1672条记录，包含4个有效特征(设备号、湿度、温度、报告时间)。数据缺失时，选择用对应属性平均值补齐。该数据集记作“USV”。

选择平均绝对误差(MAE)和对称平均绝对百分比误差(MAPE)作为评估模型性能的误差指标。并使用均方根误差(RMSE)作为模型训练的损失函数，在训练时依据每个批量计算所得的RMSE值进行反向传播操作。三种度量指标定义如下：

式中，n是样本总数，y_predict是预测值，y_actual是真实值。

(2)参数调优

构建权重门控单元预测模型之前，针对各数据集预先调整网络模型的隐含层层数和各层神经元数量。其中隐含层层数的候选集为{1，2，3}，神经元数目候选集为{16,32,64,96,128}。选择LSTM网络作为基准。在达到LSTM预测能力极限后，建立基于基准结构的权重门控单元模型。

基准结构在设置超参数时采用“控制变量法”。固定其他参数从候选集{16,32,64,96,128}中依次选择神经元数目并进行试验，结果如图5所示。

随着隐含层神经元数量的增加，模型预测性能逐步提升，并在神经元数量为32或64时达到候选集参数中的最高精度，但神经元数量超过64时会出现过拟合导致精度下降。基准模型不同神经元节点数量的具体性能评价指标如表1所示。后续将隐含层神经元的数量设置为64。

表1 LSTM不同神经元节点数量的精度变化

其中，灰色背景表示的数据是最佳结果。

确定神经元数目后更改隐含层层数，结果如表2所示。结果表明，层数较少的深度学习模型不能满足复杂数据集的精度要求，而较多层数会发生“长期依赖”现象，根据结果将隐含层层数设为2时模型预测效果最优。

表2 LSTM不同隐含层层数的精度变化

其中，颜色背景表示的数据是最佳结果。

为公平起见，所有深度学习模型都使用相同的隐藏层和神经元数量，设置2层隐含层单元，每层包含64个神经元，有且仅有1个神经元的全连接层作为输出层。

(3)权重矩阵分析

为说明权重门控单元两个基于信息熵的权重矩阵W^f1和W^f2的动态调整效果，对训练过程中W^f1和W^f2的变化进行分析。由于权重矩阵维度较大、不易衡量特征向量的变化趋势，因此使用频率直方图表示训练过程中权重矩阵的变化，其中横坐标为新增权重矩阵W^f1和W^f2的取值，纵坐标为权重矩阵值出现次数。以数据集“BAC”为例进行分析，结果如图6所示，其中图(a)与图(b)，图(c)与图(d)分别为训练初期和结束训练的W^f1和W^f2的频率分布直方图。对比图(a)、图(c)发现W^f1早期权重部分分布多集中于0，后期部分权重系数上升至1，这说明W^f1捕获到了数据集中少量突变数据的变化特征，并适当增大了其权重系数。对比图(b)、图(d)发现W^f2在训练过程中发生大幅度变化，0附近的权重参数频率从4000下降到3000，0.5和-0.5附近的权重参数频率显著增加，这说明W^f2在训练时发现部分权重向量与突变数据趋势相关，增大了该部分的权重。

分析证实，基于信息熵的权重矩阵W^f1和W^f2在训练过程中识别出突变数据的变化趋势，并做出了相应的权重调整。

(4)模型对比分析

按照调优设置参数对模型进行训练，各模型在4个测试集上结果如表3所示。其中加粗数字表示传统循环神经网络(GRU，LSTM，Simple-RNN)的最优效果，使用灰色背景表示全部模型的最优效果。得到以下结论：

1)循环神经网络方法中，Simple-RNN针对不同数据集效果差异大，数据集越复杂效果越差。

2)传统循环神经网络方法，不同数据集的最优结果并不是由一同种方法得到。分析证实LSTM和GRU具有相似的功能，两者性能相当且稳定性均优于Simple-RNN。

3)与其他3个传统循环神经网络方法对比，新的权重门控单元模型在4个数据集上的MAE，RMSE和MAPE指标精度更高。

表3 各类RNN模型性能比较

灰色颜色背景表示的数据是最佳结果

使用4个数据集预测部分对比曲线如图7(a)、(b)、(c)和(d)所示。显然权重门控单元的神经网络预测结果在4个数据集上与真实值最接近，预测精度更高。传统神经网络方法(GRU，LSTM，Simple-RNN)在数据集C(图7(b))突变数据段(40到50)波峰处的预测值与真实值误差较大，而权重门控单元模型在波峰处的预测值与真实值基本一致，显示出更好的预测效果。这是由于基于信息熵的权重矩阵能够捕获突变数据段的变化趋势。结果证明权重门控单元对局部存在数据突变情况更为敏感，相对于传统神经网络方法精度更高。

(5)实验环境说明

实验操作平台：Intel(R)Core(TM)i5-7300HQCPU@2.50GHz处理器；8GB内存；Windows10家庭版64-bit系统；Python 3.5.6|Visual Studio Code编程环境；NVIDIA GTX1050显卡。本发明使用的神经网络(LSTM、GRU、MF-GRU)编程均使用TensorFlow框架实现。本发明中，实验环境如下表4所示：

表4 实验环境

模型参数表如图5所示：

表5 模型参数设置

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。