CN109816095A

CN109816095A - 基于改进门控循环神经网络的网络流量预测方法

Info

Publication number: CN109816095A
Application number: CN201910031354.5A
Authority: CN
Inventors: 张大方; 张松; 刁祖龙
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-05-28
Anticipated expiration: 2039-01-14
Also published as: CN109816095B

Abstract

本发明公开了一种基于改进门控循环神经网络的网络流量预测方法，利用过去一段时间的网络流量作为网络流量预测模型的输入，输出接下来一段时间内网络流量大小的预测值。本发明的方法能在保证预测精度不下降的前提下大幅度减少循环神经网络预测网络流量时的训练时间，有效节约计算资源。

Description

基于改进门控循环神经网络的网络流量预测方法

技术领域

本发明涉及网络流量预测领域，特别是一种基于改进门控循环神经网络的网络流量预测方法。

背景技术

人工神经网络的研究很早已经出现，它可定义为具有适应性的简单单元组成的广泛互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的反应。最基本的神经网络是前馈神经网络，它包含一个输入层、若干个输出层、一个输出层，每层由若干个输出层组成，层与层之间全连接，现有理论已经证明，它拥有的的这种非线性结构使得它可以无限逼近任何的非线性函数，因此当把它用于时间序列预测时它的精度比传统的线性预测模型要高很多。经过几十年来国内外科研工作者的刻苦钻研，目前已经有很多种前馈神经网络的变体被提出，例如循环神经网络、卷积神经网络、递归神经网络、深度生成模型、玻尔兹曼机、深度信念网络、生成式对抗网络、自编码器等等；其中的循环神经网络由于循环结构的存在，使得它具有“记忆性”，因此特别适用于处理序列问题，例如交通流量以及网络流量的预测等等，但普通的循环神经网络存在收敛困难和无法处理序列的长距离依赖等问题。为了解决这个难题，学者们提出了很多种经过结构改造的循环神经网络，最典型的是长短期记忆单元(LSTM)、门控循环单元(GRU)。

LSTM是RNN的一种极其流行的变体。和普通的RNN相比，它的每个隐藏层神经元包括两个状态：单元状态c和隐藏层状态h。单元状态c用来捕捉序列的长期依赖，隐藏层状态h对短期输入敏感。LSTM的内部包含三个门：输入门、遗忘门、输出门。输入门确定当前时刻的输入有多少保留下来，遗忘门决定上一个时刻的单元状态有多少保留下来，输出门决定有多少单元状态有多少作为隐藏层单元的输出。通过三个门控装置的作用，LSTM能够很好地处理长期依赖问题。

GRU在LSTM的结构上进行了进一步改造。它去掉了LSTM的单元状态，使用隐藏层状态来处理长期依赖；把LSTM的输入门和遗忘门合并成了一个门，叫做更新门；重置门是它的另一个门控装置。更新门决定当前时刻的输入有多少保留下来，重置门决定遗忘过去的信息的程度。因此，它同样可以捕捉到世界序列的长期依赖特性。考虑到更新门和重置门在功能上有重叠，最近提出的的门控循环单元(M-GRU)去除了重置门，只保留了更新门。

然而普通循环神经网络无法捕捉到网络流量的长期相关性，因此预测精度相对较低。而基于LSTM神经网络和M-GRU神经网络的网络流量预测模型要么内部结构很复杂，要么受到隐藏层层数的影响，其训练速度势必大大受到降低。

发明内容

为解决上述技术问题，本发明所采用的技术方案是：一种基于改进门控循环神经网络的网络流量预测方法，利用过去一段时间的网络流量作为网络流量预测模型的输入，输出接下来一段时间内网络流量大小的预测值，所述网络流量预测模型的单向隐藏层表达式为：

F_t＝σ(W_Fx_t+U_Fh_t-1+b_F)；

z_t＝σ((W_zx_t+U_zh_t-1+b_z)；

h_t＝F_t·h'_t+(1-F_t)·x_t；

其中，F_t是快速门；和h_t′是两个不同的候选隐藏层状态，z_t是更新门，h_t是当前时刻隐藏层的输出，h_t-1是上一时刻的隐藏输出，W_F是连接隐藏层输入到快速门的权重矩阵，W_h是连接隐藏层输入和候选隐藏层的权重矩阵，W_z是连接隐藏层输入到更新门的权重矩阵，U_F是连接上一时刻隐藏层输出到快速门F_t的的权重矩阵，U_h是连接上一时刻隐藏层输出到候选隐藏层状态的权重矩阵，U_z是连接上一时刻隐藏层输出到更新门z_t的的权重矩阵，x_t是当前隐藏层输入，b_F、b_h是偏置项，σ()是Sigmoid函数，tanh()是双曲正切函数。

一种基于改进门控循环神经网络的网络流量预测方法，包括以下步骤：

1)用线性归一化方法把原始数据集归一化，然后用留出法把数据集分成训练集和测试集；

2)建立基于改进门控循环神经网络的网络流量预测模型：首先，设置时间间隔Δ和时间窗口n，把Δ内的的网络流量大小作为一个时刻的网络流量输入值，时间窗口代表模型的输入序列的长度；其次，使用节点删除法和扩张法来确定隐藏层神经元个数，再依据经验设置隐藏层层数，把最后一层隐藏层设计成单向，其它隐藏层设置为双向；再次，设置输出层神经元个数为1，并且只接受最后时刻的隐藏层输入；最终，层与层之间带权重全连接后，网络流量预测模型构建完毕；

3)把训练集样本输入到网络流量预测模型，使用基于时间的逆向传播算法，训练网络流量预测模型；

4)把训练好的网络流量模型用于预测，即输入测试集中的样本，记录它在测试集上的预测精度。

步骤2)中，网络流量预测模型的单向隐藏层表达式为：

F_t＝σ(W_Fx_t+U_Fh_t-1+b_F)；

z_t＝σ((W_zx_t+U_zh_t-1+b_z)；

h_t＝F_t·h'_t+(1-F_t)·x_t；

其中，F_t是快速门，和h_t′是两个不同的候选隐藏层状态，z_t是更新门，h_t是当前时刻隐藏层的输出，h_t-1是上一时刻的隐藏输出，W_F是连接隐藏层输入到快速门的权重矩阵，W_h是连接隐藏层输入和候选隐藏层的权重矩阵，W_z是连接隐藏层输入到更新门的权重矩阵，U_F是连接上一时刻隐藏层输出到快速门F_t的的权重矩阵，U_h是连接上一时刻隐藏层输出到候选隐藏层状态的权重矩阵，U_z是连接上一时刻隐藏层输出到更新门z_t的的权重矩阵，x_t是当前隐藏层输入，b_F、b_h是偏置项，σ()是Sigmoid函数，tanh()是双曲正切函数。

与现有技术相比，本发明所具有的有益效果为：本发明的方法能在保证预测精度不下降的前提下大幅度减少循环神经网络预测网络流量时的训练时间，有效节约计算资源；本发明的方法既能像基于最新的门控循环单元神经网络的网络流量预测方法那样捕捉到网络流量的长期相关性，又拥有更快训练速度；与基于长短期记忆单元神经网络的网络流量预测方法和基于最新的门控循环单元神经网络的预测预测方法相比，本发明在预测精度略有提高的同时，训练速度分别提高了78％和30％。

附图说明

图1是本发明所提出的网络流量预测模型SBU-FGRUs的框架图；

图2基本神经元的结构示意图；

图3是基于长短期记忆单元(LSTM)神经网络的预测模型SBU-LSTMs的框架图；

图4是基最新的门控循环神经单元(M-GRU)神经网络的预测模型SBU-LSTMs的框架图；

图5是LSTM内部结构图；

图6是M-GRU内部结构图；

图7是本发明所提出的模型的隐藏单元FGRU内部结构图；

图8是3个对比模型的精度对比的条形图；

图9是3个对比模型的训练时间对比的条形图。

具体实施方式

使用改进门控循环单元循环神经网络模型来预测网络流量，分为四个步骤，第一步是数据预处理，第二步是构建模型，第三步是在训练模型，第四步检验效果。

1.数据预处理

最初获得的网络流量数据通常不符合要求，经过处理后，才能更满足我们的需要。处理的第一步是把数据集归一化，第二步是构造出构造训练集和测试集。

一般而言，训练神经网络时，最终的目的是要找到目标函数的最优解。假如数据样本的特征X₁和X₂的取值范围分别是[1,1000]和[1,10],模型要同时兼顾两方面的影响，它们之间的差异会造成寻找最优解的路径变长，从而加长了训练时间。而把数据归一化以后，此种弊端将会被消除。

常用的归一化方法有两种。第一种是线性归一化方法，以下是归一化的公式：

其中，X是原始特征值，X'是X的归一化后的值，min(X)是原始数据集中X的最小值，max(X)是数据集中X的最小值。

第二种是标准差标准化方法，它的转换公式如下：

其中，X和X′的物理意义和在线性归一化方法中相同。在上面的这个公式中，μ和σ代表原始数据集中所有样本的均值和归一化值，可以看出，标准差方法需要数据满足正态分布，否则归一化效果很可能会很糟糕，因此在本发明中采用线性归一化方法。

归一化后，有了一个更符合需要的数据集，但未被分成训练集和测试集。其中，训练集中的样本用于模型学习网络流量的特性，测试集中的样本验证模型的效果。本发明使用留出法把归一化的数据集划分成互斥的训练集和测试集，即前80％的样本组成训练集，剩余的20％样本作为测试集。

2.构建模型

对数据做好处理后，进一步的工作是构建预测模型。

首先,是确定时间间隔和时间窗口。时间间隔的大小表明了多久的时间段收集的网络流量作为模型的一个时刻的网络流量输入值；时间窗口的大小代表用过去多少个时刻的网络流量大小去预测接下来一段时间内的网络流量大小。一个太窄的时间窗口可能会导致对流量数据的特征提取不充分，一个太宽的时间窗口引发对数据的过分学习，造成不必要的重复工作，浪费资源。而具有非线性特征的网络流量通常具有周期性，显而易见，当时间窗口大概和网络流量数据的周期相等时能最充分的提取数据特征。假设时间间隔和时间窗口分别用Δ和n，则其实际含义是把Δ时间段内收集的网络流量作为的一个时刻的流量输入值，而模型使用过去n个时刻的网络流量值去预测接下来的一个时刻网络流量大小。

其次，是确定隐藏层的神经元个数。神经元是神经网络的基本组成单位，如图2所示，它把输入进行加权求和后进行非线性变换再输出，现有理论已经证明人工神经网络具备了逼近任何非线性函数的能力，是其具有强大的学习能力的根本原因。在设计循环神经网络时，找到合适的隐藏层节点数对神经网络模型的性能具有举足轻重的地位。过大的隐藏层也是导致过拟合现象出现的原因之一，但是目前还没有任何一种完美无瑕的方法，其中的绝大多数方法都假设可以获得任意大的训练样本，这明显不切实际。事实上，从不同的理论公式中推导出来的隐藏层节点数目有天壤之别。为了尽最大努力防止发生过拟合的情况，也为了使预测模型的表现效果更好，本发明采取的最基本原则是：第一，隐层节点数要比训练样本数小。如果不这样做，会导致预测模型的系统误差和训练样本完全缺乏相关性而趋向零，使其毫无泛化能力，不能用于实际生产从而缺乏价值。第二，训练样本数必须数倍于循环神经网络预测模型的连接权重数，否则，所学参数太多，必须要进过对训练样本的轮流学习才能得到一个合适的预测模型。总之，过少的隐层节点数导致预测模型的泛化能力太差；假如隐层节点数太多，预测模型训练速度太慢，最严重的后果是训练时陷入局部最小值，出现过拟合的现象，所以，合理隐层节点数既要考虑误差大小又要考虑预测模型的复杂性，应该用节点删除法和扩张法来做决策。其具体大小在实验分析部分给出。

第三，设计合理的隐藏层层数。对于一个基于循环神经网络的预测模型而言，隐藏层是其发挥强大的学习能力的主体，而找到恰如其当的隐藏层数目极其关键。隐藏层数目和模型的学习能力有很大关系。当隐藏层数目过多时，也会出现过拟合的后果，即预测模型在训练集上的表现很好，但在测试集上的表现却反而降低了，其原因是模型把数据的个别特征当成了总体特征，而层数太少的预测模型的学习能力很弱，预测精度不高。遗憾的是，目前关于层数的设置仍然没有一个足够权威的理论依据出现，因此只能依据经验。通过逐渐添加层数，倘若达到N层时模型的表现效果不再变好，那么就把N-1作为隐藏层数目。

第四，确定每个隐藏层是选择单向还是双向。循环神经网络的隐藏层有单向和双向之分，单向隐藏层是一个前向隐藏层，它只可以捕捉到到输入序列的前向依赖关系。双向隐藏层既包含了一个前向隐藏层，又包含了一个后巷隐藏层，它能够同时捕捉到输入序列的前后向依赖关系，所以它对数据特性的挖掘更充分。后向隐藏层和前向隐藏层具有相同的信息流通公式，但它们的输入序列却是相反的。譬如，假设前向隐藏层从第一个时间步到最后一个时间步的输入是[i₁,i₂,…,i_n]，那对于后向隐藏层而言，输入序列是[i_n,i_n—1,…,i₁]。本发明提出的模型的一个特点是，前面的所有隐藏层都是双向的，只有最后一个隐藏层是单向的。因为输入数据经过前面的双向隐藏层特征提取后，最后一个隐藏层主要作用是预测而不是特征学习，设计成单向在一定程度简化了模型。

第五，构建输出层。输出层的神经元个数取决于预测步长。预测步长表示预测将来多少个时刻的网络流量大小，通常有单步长预测和多步长预测两种说法。顾名思义，单步长预测指的是只预测下一个时刻的网络流量大小，多步长预测是预测接来来多个时刻的网络流量大小。假设X₁X₂X₃X₄X₅分别是第1，2,3,4,5这5个历史时刻的流量值，X₆和X₇第6和第7个时刻的实际流量值，和是第6个时刻和第7个时刻的预测值，采用两个步长预测。简单分析容易发现，的得出并没有考虑到X₆的影响，可见多步长预测的精度不如单步长预测。所以在这项发明中采用单步长预测，也即是，输出层只有一个神经元，接受最后一个时刻的隐藏层输入。

确定了输入层，隐藏层和输出层之后，再把层与层之间带权重全连接，模型构建完毕。

3.训练模型

模型构建好后，进入训练环节。神经网络的训练过程实际上是寻找损失函数的最小值的过程。损失函数度量了预测值和真实值之间的差异，通常简记成其中代表预测值，y代表实际值。一个合适的训练算法应该让模型尽可能学习到网络流量的特征，而且还要兼顾模型训练速度，不能涉及太复杂的计算。深度学习发展到今天，关于训练算法优化工作一直是热门话题，新的训练算法可谓层出不穷，但用于训练循环神经网络的一般是基于时间的逆向传播算法(BPTT算法)，也是本发明所采用的训练算法。其过程如下：

(1)输入若干个训练样本，计算出损失函数；

(2)损失函数向前一层和前一时刻逆向传播，计算出损失函数对每个连接权重的梯度；

(3)根据学习率更新各个权重参数；

(4)反复以上三个操作，直到损失函数的值小于或等于预先设定的值，训练结束。

4.检验模型

模型训练好后，在测试集上检验其效果。测试过程跟预测方式和目标函数有关。

预测方式应该充分考虑到实际情况，以便于模型对网络流量的各种特性的学习。常见的预测方式有迭代预测和非迭代预测两种。非迭代预测只能接受实际数据值的输入，而迭代预测却不止如此，它也把当前的预测值作为输入来预测下一个时刻的网络流量大小。以设计输出层时提到的例子作为说明，迭代预测时，第6个时刻的预测值也被当做输入，而非迭代预测采用的输入是实际值X₆，而无论如何，和X₆总存在差异。可见，迭代预测可能导致数据特征的丢失，因此在本发明中采用非迭代预测。

此外，评价预测模型的效果好坏需要相应指标，这就是目标函数。一般而言，目标函数衡量的是实际值和预测值之间的相差程度，目标函数越小，意味着预测模型的预测误差越小。而每个目标函数的侧重点不一样，因此全面评价一个模型的性能，就不能只采用一个指标。本发明采取的指标是平均绝对误差(MAE)和均方根误差(RMSE)。

选择了预测方式和目标函数后，把测试样本逐个输入模型，计算模型在测试集上的预测精度，即MAE和RMSE。

以下通过实验来分析本发明的方法的性能

为了证实本发明所提出的网络流量预测方法的表现比现有的网络流量预测方法效果更好，实验中对比的三个模型是基于长短期记忆单元(LSTM)神经网络的网络流量预测方法SBU-LSTMs，基于最近提出的门控循环单元(M-GRU)神经网络的网络流量预测方法SBU-M-GRUs,以及本发明所提出的基于改进门控循环网络的网络流量预测方法，即SBU-FGRUs。这三个预测模型的共同点是除了最后一个隐藏层是单向外其它隐藏层均采用双向，其好处在前文已有详细说明。它们的总体框架分别是图3，图4和图1。三个预测模型的基本隐藏层单元分别是LSTM,M-GRU和FGRU,它们都具备长期记忆的能力。

LSTM的内部结构如图5所示。它的计算公式是：

f_t＝σ((W_fx_t+U_fh_t-1+b_f)；

i_t＝σ((W_ix_t+U_ih_t-1+b_i)；

o_t＝σ((W_ox_t+U_oh_t-1+b_o)；

h_t＝o_t·tanh(c_t)；

其中输入门i_t决定需要添加多少信息，遗忘门f_t决定对旧信息的丢弃，输出门o_t决定隐藏层输出，是候选隐藏层状态，c_t是细胞状态，h_t是隐藏层输出，x_t是隐藏层的输入，W_f是连接隐藏层输入到遗忘门的权重矩阵，W_i是连接隐藏层输入到输入门的权重矩阵，W_o是连接隐藏层输入到输出门的权重矩阵，W_h是连接隐藏层输入到候选隐藏层的权重矩阵，而U_f是连接上一时刻隐藏层输出到遗忘门的权重矩阵，U_i是连接上一时刻隐藏层输出到输入门的权重矩阵，U_o是连接上一时刻隐藏层输出到输出门的权重矩阵，U_h是连接上一时刻隐藏层输出到候选隐藏层的权重矩阵，b_f、b_i、b_o、b_h是偏置项，σ()是Sigmoid函数，tanh()是双曲正切函数。

M-GRU的内部结构如图6所示。其计算公式是：

z_t＝σ((W_zx_t+U_zh_t-1+b_z)；

其中，更新门z_t决定有多少信息被添加以及多少旧信息被遗忘，是候选隐藏层状态，h_t是隐藏层输出，W_z是连接隐藏层输入到更新门的权重矩阵，W_h是连接隐藏层输入和候选隐藏层的权重矩阵，U_z是分别连接上一时刻隐藏层输出到更新门的权重矩阵,U_h是分别连接上一时刻隐藏层输出到候选隐藏层的权重矩阵，x_t是隐藏层的输入，b_z和b_h是偏置项，σ()是Sigmoid函数，tanh()是双曲正切函数。

FGRU的内部结构如图7所示。它的计算公式是：

F_t＝σ(W_Fx_t+U_Fh_t-1+b_F)；

z_t＝σ((W_zx_t+U_zh_t-1+b_z)；

h_t＝F_t·h'_t+(1-F_t)·x_t；

其中，F_t是快速门，它可以使信息流通更顺畅，加快预测模型的训练速度，和h_t′是两个不同的候选隐藏层状态，z_t是更新门，作用是控制新信息的添加和旧信息的舍弃，因此FGRU能够保存长期信息，h_t是当前时刻隐藏层的输出，h_t-1是上一时刻的隐藏输出，W_F是连接隐藏层输入到快速门的权重矩阵，W_h是连接隐藏层输入和候选隐藏层的权重矩阵，W_z是连接隐藏层输入到更新门的权重矩阵，U_F是连接上一时刻隐藏层输出到快速门F_t的的权重矩阵，U_h是连接上一时刻隐藏层输出到候选隐藏层状态的权重矩阵，U_z是连接上一时刻隐藏层输出到更新门z_t的的权重矩阵，x_t是当前隐藏层输入，b_F、b_h是偏置项，σ()是Sigmoid函数，tanh()是双曲正切函数。

实验中所获得的数据集是从DataMarket网站下载，它有蒙纳士大学的RobHyndman教授创建。这些数据是采集于2005年6月7日早上的06:57到2005年7月31日上午11:57一条跨太平洋的网络流量，来自于一个私人网络服务提供商，它在欧洲的11个城市设立了因特网中心。

原始数据在用于实验之前先要被归一化。由于所对比的三个预测模型都能铺捉到网络流量的长期相关性，因此在实验中使用过去15个小时的网络流量大小去预测下面1个小时的网络流量大小，也就是，时间间隔Δ是1小时，窗口等于15,。数据经过归一化后，得到的是一个有1223个小本的数据集。用留出法把这个数据集前面的971个样本组成训练集，后面的242个样本作为检验模型效果的测试集。每个样本的形式可以用如下式子表示：

input是样本特征，output是样本标签。

实验所采用的精度对比指标是MAE(平均绝对误差)和RMSE(均方根误差)。假设有n个样本，y_i代表实际值，是预测值，这两个对比指标的计算公式分别如下：

为了使得模型尽可能收敛，学习率被设置成0.007，在进行几个测试后，发现当隐藏层数隐藏单元和隐藏层数分别是10和200时是最合理的。输入样本被转换成三维张量[batch_size,n_steps,D_input]，batch_size代表更新一次权重所需要输入的样本数，n_steps是输入序列的长度，D_input代表时间维度。它们3个的具体值分别是1,15，和1。

图8和图9分别是实验结果的对比图。从图8中可以看出，在RMSE方面，3个预测模型的结果都是差不多的，但是在MAE方面，SBU-M-GRUs和SBU-FGRUs的结果相差不远，但稍微比SBU-LSTMs低。从图9我们可以看到三个模型的训练时间对比结果。很明显，SBU-M-GRUs的训练速度相比SBU-LSTMs大大降低，而SBU-FGRUs的训练速度相比SBU-M-GRUs的更进一步降低了。可见，快速门不只使得FGRUs更容易训练，也在一定程度上提高了本发明提出的预测模型的预测精度。

Claims

1.一种基于改进门控循环神经网络的网络流量预测方法，其特征在于，利用过去一段时间的网络流量作为网络流量预测模型的输入，输出接下来一段时间内网络流量大小的预测值，所述网络流量预测模型的单向隐藏层表达式为：

F_t＝σ(W_Fx_t+U_Fh_t-1+b_F)；

z_t＝σ((W_zx_t+U_zh_t-1+b_z)；

h_t＝F_t·h'_t+(1-F_t)·x_t；

2.一种基于改进门控循环神经网络的网络流量预测方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于改进门控循环神经网络的网络流量预测方法，其特征在于，步骤2)中，网络流量预测模型的单向隐藏层表达式为：

F_t＝σ(W_Fx_t+U_Fh_t-1+b_F)；

z_t＝σ((W_zx_t+U_zh_t-1+b_z)；

h_t＝F_t·h'_t+(1-F_t)·x_t；