CN111970163B

CN111970163B - 一种基于注意力机制的lstm模型的网络流量预测方法

Info

Publication number: CN111970163B
Application number: CN202010618153.8A
Authority: CN
Inventors: 徐倩; 姚振杰; 涂燕晖; 陈一昕
Original assignee: Network Communication and Security Zijinshan Laboratory
Current assignee: Network Communication and Security Zijinshan Laboratory
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-06-21
Anticipated expiration: 2040-06-30
Also published as: CN111970163A

Abstract

本发明提供一种基于注意力机制的LSTM模型的网络流量预测方法，该方法包括以下步骤：步骤1：数据预处理，对所述网络流量数据进行标准化处理，然后将网络流量数据划分为训练数据和测试数据；步骤2：构建模型，构建基于注意力机制的LSTM模型，步骤3：模型训练，将训练数据输入所述基于注意力机制的LSTM模型中，基于Adam优化算法进行迭代训练，得到训练好的模型；步骤4：网络流量预测。该网络流量预测方法在计算当前时刻的输出状态时，综合考虑前面多个时刻的隐藏状态，使得输出序列中每一项的生成概率都受输入多个历史序列隐藏状态的影响，对流量的预测更加准确。

Description

一种基于注意力机制的LSTM模型的网络流量预测方法

技术领域

本发明属于网络流量预测技术领域，具体涉及一种基于注意力机制的LSTM模型的网络流量预测方法。

背景技术

随着互联网技术的飞速发展，手机平板电脑等电子产品逐渐深入人们的生活，各类网络应用更加广泛地被大家所使用。与此同时，网络数据的规模也在不断地壮大，对网络设备的安全性、高效性、稳定性也提出了更高的要求。如何做好网络规划和资源配置成为网络管理员们面临的一个难题。网络流量预测能够根据网络历史流量数据，预测出未来一段时间内的网络流量值，有效地帮助网络管理员应对网络拥塞问题，合理地做好网络资源配置工作，有效避免网络故障的发生。

现有的网络流量预测方法主要分为两类：线性预测方法和非线性预测方法。最为常见的线性预测方法包括Holt-Winters和ARIMA(Autoregressive Integrated MovingAverage model)模型。Holt-Winters方法又可称作三次指数平滑法，其在二次指数平滑的基础上加入了季节性特征，使其既能体现趋势性又能体现季节性，适用于趋势线性且周期固定的非平稳序列。ARIMA模型即为差分自回归移动平均模型，通过将自回归模型AR、移动平均模型MA和差分法结合，来建立时间序列数据预测模型。ARIMA的优点在于模型简单，缺点是只能对变化平稳的数据序列进行预测，对于不稳定的数据无法有效地挖掘数据规律。非线性的方法主要是基于神经网络的方法，常见的非线性方法有多层感知机(MLP,Multilayer Perceptron)、长短时记忆网络(LSTM,Long Short-Term Memory)及其变体等。多层感知机具有多个神经元层，第一层是输入层，中间是隐藏层，最后一层是输出层，层与层之间是全连接的。多层感知机通常通过反向传播(BP,Back Propagation)算法进行训练，由前向传播和反向传播两个过程构成。前向传播指信息从第一层逐渐地向高层进行传递，传递到最后一层后可计算出损失函数。然后通过最小化误差，反向将损失函数从最后一层传播回第一层，从而进行参数的估计。LSTM是一种特殊的RNN(Recurrent NeuralNetwork)。传统的RNN模型在处理长序列时面临训练困难及梯度消失等问题，LSTM中门概念的提出正是用来解决上述问题。门是一种控制信息选择性通过的结构，由一个sigmoid神经网络层和一个点乘操作组成。标准的LSTM模型包含有3个门结构，分别是遗忘门、输入门和输出门。遗忘门决定上一时刻的单元状态有多少保留到当前单元状态。输入门决定当前时刻的输入有多少保留到当前单元状态。输出门决定单元状态有多少作为当前时刻的输出状态。得益于遗忘门、输入门和输出门的信息选择保留方式，使得LSTM能够较好地处理长。时依赖问题。通过对LSTM内部门结构等进行改进，LSTM还衍生出了一些变体，最为常见的变体之一为GRU(Gated Recurrent Unit)。GRU提出将LSTM的遗忘门和输入门合并为一个更新门，用来决定当前时刻的输入有多少保留下来。GRU中还有一个重置门，决定遗忘过去信息的程度。相比于LSTM，GRU只有两个门控单元，使其在保证精确度的前提下更加容易训练。LSTM及其变体在序列预测、文本翻译等许多任务上取得了很好的结果。然而这类方法也存在一个问题，即对于输入数据是按序处理的，在计算当前时刻的输出状态时仅考虑上一时刻的隐藏状态，无法有效地捕获不同时刻序列对于当前时刻序列输出的重要度。特别是当历史序列长度较长时，还容易出现信息丢失的情况，造成预测精度降低。

现有技术存在的问题：

1.LSTM在计算当前时刻(t时刻)的输出状态时，仅考虑上一时刻(t-1时刻)的隐藏状态。无法捕获不同历史时刻序列对于当前时刻序列输出的重要度。

2.当历史序列长度较长时，LSTM中越早处理的历史序列越容易被遗忘，导致出现信息丢失的情况，影响模型性能。

发明内容

针对上述现有技术中存在的问题，本发明提供了一种基于注意力机制的LSTM模型的网络流量预测方法，在计算当前时刻的输出状态时，综合考虑前面多个时刻的隐藏状态，使得输出序列中每一项的生成概率都受输入多个历史序列隐藏状态的影响，对流量的预测更加准确。

为了实现发明目的，本发明一种基于注意力机制的LSTM模型的网络流量预测方法主要包括以下步骤：

步骤1：数据预处理。对网络流量数据进行标准化处理，然后将网络流量数据划分为训练数据和测试数据。

步骤2：构建模型。构建基于注意力机制的LSTM模型。包括以下步骤：首先设置历史序列长度l、待预测序列长度p和注意力窗口长度n。设置基于注意力机制的LSTM模型网络模型参数，包括隐含神经元个数、批量数据大小、学习率、训练次数等，并初始化线性回归的权重矩阵W和偏置b为0～1之间的随机数。然后，构建基础的LSTM模型，再将注意力机制加入其中。最后，根据网络的输出状态获取最后一个时刻的输出值last_output，再根据线性回归模型last_output*W+b计算出网络流量预测值。

步骤3：模型训练。将训练数据输入基于注意力机制的LSTM模型模型中，基于Adam优化算法进行迭代训练，得到训练好的模型。

步骤4：检验模型。将测试数据输入训练好的模型中，得到网络流量预测精度。

步骤1.1：加载网络流量数据集。网络流量数据以CSV文件的形式存储在本地，包含有特定网络链路在各个历史时刻的网络流量数据值。

步骤1.2：计算网络流量数据集中的流量最大值x_max和最小值x_min。

步骤1.3：对原始网络流量数据进行min-max标准化，即

步骤1.4：将数据集划分为训练集和测试集。此处我们设置训练样本数占全部样本数的80％，即前80％的样本作为训练集，剩下20％的样本作为测试集。

步骤2：构建模型。构建基于注意力机制的LSTM模型。

步骤2.1：设置历史序列长度l、待预测序列长度p和注意力窗口长度n。其中历史序列长度l代表用于训练的历史序列长度；待预测序列长度p代表需要预测的时间序列长度；注意力窗口长度n代表在计算当前时刻输出状态时，为前面n个历史时刻序列分配注意力得分。

步骤2.2：设计基于注意力机制的LSTM模型网络模型参数，包括隐含神经元个数、批量数据大小、学习率、最大迭代次数等。

步骤2.3：初始化线性回归的权重矩阵W和偏置b为0～1之间的随机数。

步骤2.4：基于上述设置的LSTM网络相关参数构建BasicLSTMCell单元。

步骤2.5：基于步骤2.4中的LSTM的输出单元及上述设置的注意力窗口长度，利用Tensorflow中的注意力API即AttentionCellWrapper将LSTM单元连接起来。此处实现将LSTM网络与注意力机制相结合，基于前n个历史时刻的隐藏状态与当前细胞状态计算出注意力得分。注意力得分越高代表该时刻的隐藏状态对当前时刻输入的重要度就越高。

步骤2.6：利用unstack函数将数据集按列划分，划分后的数据送入tf.nn.static_rnn函数中，得到输出值集合output和输出状态states。

步骤2.7：根据网络的输出值集合output获取最后一个时刻的输出值last_output。

步骤2.8：根据线性回归模型last_output*W+b计算出网络流量预测值。

步骤3：模型训练。将训练数据输入基于注意力机制的LSTM模型模型中，基于Adam优化算法进行迭代训练，直至得到训练好的模型。

步骤3.1：基于上述设置的批量数据大小，将网络流量数据划分为若干个批次。

步骤3.2：依次将每个批次的数据送入步骤2中定义好的基于注意力机制的LSTM模型模型中，计算出损失函数。

步骤3.3：基于Adam算法进行迭代优化。

步骤3.4：判断损失函数数值是否小于预先设置的数值或者迭代次数是否超出最大迭代次数。若不满足上述条件，则继续重复步骤3.2和3.3；若满足，则跳至步骤3.5。

步骤3.5：迭代结束。得到训练好的基于注意力机制的LSTM模型模型，并将模型保存至本地。

步骤4.1：从本地加载训练好的注意力模型。

步骤4.2：将测试数据送入模型中进行预测，得到流量预测值，计算出预测精度。

有益效果

本专利将注意力机制结合LSTM应用至网络流量预测领域，在计算当前时刻(t时刻)的输出状态时，综合考虑前面n个时刻(t-1,t-2,…,t-n时刻)的隐藏状态，并对其赋予不同的权重，使得输出序列中每一项的生成概率都受输入多个历史序列隐藏状态的影响。使用基于注意力机制的LSTM模型进行网络流量预测后，产生的效果如下：

1、输出序列中每一项的生成概率都受输入多个历史序列隐藏状态的影响；与现有技术相比，基于注意力机制的LSTM对历史序列的隐藏状态分配了不同的注意力系数，从而有效地提升了网络流量预测的精确度。

2、基于注意力机制的LSTM模型中注意力窗口保证了历史序列数据能够长时保留，避免出现信息丢失的情况。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于注意力机制的LSTM模型的模型框架图；

图2为本发明基于基于注意力机制的LSTM模型的网络流量预测流程图；

图3为实施例中网络流量数据集UKERNA示意图；

图4为实施例中网络流量预测RMSE对比图；

图5为实施例中网络流量预测MAE对比图；

图6为实施例中网络流量预测ACC对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图2所示，本实施例提供一种基于注意力机制的LSTM模型的网络流量预测方法，以下通过在真实数据集上进行对比实验，以对本发明的实际效果作进一步说明：该网络流量预测方法包括以下步骤：

步骤1：数据预处理，对所述网络流量数据进行标准化处理，然后将网络流量数据划分为训练数据和测试数据，具体的说，

步骤1.1：加载网络流量数据集，将所述网络流量数据集存储在本地，所述网络流量数据集中包含有特定网络链路在各个历史时刻的网络流量数据值；

步骤1.2：计算所述网络流量数据集中的流量最大值xmax和最小值xmin；步骤1.3：对原始网络流量数据进行min-max标准化，即

其中，x为原始网络流量数据，x_min为网络流量数据中的最小值，x_max为网络流量数据中的最大值，x′为标准化处理后的数值结果。

步骤1.4：将数据集划分为训练集和测试集。本实施例中，我们设置训练样本数占全部样本数的80％，即前80％的样本作为训练集，剩下20％的样本作为测试集。

如图3所示，本实施例提供的实验数据为：实验数据集UKERNA来自英国教育研究网(the United Kingdom Education and Research Network)。数据采集时间自2006年6月14日12:00至2006年7月23日12:00。其中少部分缺失的数据采用线性插值的方法进行填充。为便于模型训练及预测，原始数据被聚合成10分钟的尺度，每个时序节点代表10分钟内的流量均值。这样，数据集中一共有5616条数据。

实验环境：操作系统Ubuntu 18.04 LTS，显卡NVIDIA GeForce RTX 2080，算法框架Tensorflow。

步骤2：构建模型，构建基于注意力机制的LSTM模型，所述基于注意力机制的LSTM模型基于前n个历史时刻的隐藏状态与当前细胞状态计算出相关系数值，通过softmax函数对相关系数进行归一化得到注意力得分，根据网络的输出状态获取最后一个时刻的输出值，再根据线性回归模型计算出网络流量预测值。

注意力机制(Attention Model)最早用于自然语言处理领域的机器翻译中，本质上和人类的选择性视觉注意力机理很类似，后因其有效性被拓展至图像处理、语音识别等领域。注意力机制的核心思想是从大量信息中选择出对当前任务最为关键的信息，并对关键信息投入更多的注意力资源，以获取需要关注的目标信息，同时抑制其他无用信息。对于序列预测任务而言，注意力机制能够帮助选择性地关注历史输入序列，生成目标性更强、性能更好的模型。如图1所示，本实施例中构建基于注意力机制的LSTM模型的具体过程为：

步骤2.1：设置历史序列长度l、待预测序列长度p和注意力窗口长度n；其中历史序列长度l代表用于训练的历史序列长度；待预测序列长度p代表需要预测的时间序列长度；注意力窗口长度n代表在计算当前时刻输出状态时，为前面n个历史时刻序列分配注意力得分；

步骤2.2：设计所述基于注意力机制的LSTM模型的相关参数；所述基于注意力机制的LSTM模型的相关参数包括隐含神经元个数、批量数据大小、学习率、最大迭代次数等。

步骤2.3：初始化线性回归的权重矩阵W和偏置b为0～1之间的随机数；

步骤2.4：基于所述相关参数构建输出单元；

步骤2.5：基于步骤2.4中的LSTM的输出单元及所述注意力窗口长度，利用深度学习框架Tensorflow中的注意力机制API即AttentionCellWrapper将LSTM的输出单元连接起来；

步骤2.6：利用unstack函数将数据集按列划分，将划分后的数据送入tf.nn.static_rnn函数中，得到前n个时刻的输出值集合output和输出状态states；

步骤2.7：根据所述输出值output获取最后一个时刻的输出值last_output；

步骤3：模型训练，将训练数据输入所述基于注意力机制的LSTM模型中，基于Adam优化算法进行迭代训练，得到训练好的模型。

步骤3.1：基于上述设置的批量数据大小，将网络流量数据划分为若干个批次；

步骤3.2：依次将每个批次的数据送入步骤2定义好的所述基于注意力机制的LSTM模型中，计算出损失函数；

步骤3.3：基于Adam算法进行迭代优化；

步骤3.4：判断损失函数数值是否小于预先设置的数值或者迭代次数是否超出最大迭代次数，若不满足上述条件，则继续重复所述步骤3.2和3.3；若满足，则跳至步骤3.5；

步骤3.5：迭代结束，得到训练好的基于注意力机制的LSTM模型，并将模型保存。

参数设置：根据经验，设置历史序列长度为120分钟，待预测序列长度分别为10分钟、20分钟和30分钟。经过大量实验，对模型中的参数进行如下设置：隐含层神经元个数为64，注意力长度为12，批次大小为64，学习率为0.001，最大迭代次数为3000次。

步骤4：网络流量预测，将实时采集的网络流量数据输入所述基于注意力机制的LSTM模型进行网络流量预测。

为了进一步验证本方案对网络流量预测的准确性，所述网络流量预测方法还包括：步骤5：检验模型，将测试数据输入训练好的基于注意力机制的LSTM模型中，得到网络流量预测精度。

步骤5.1：从本地加载训练好的注意力模型。

步骤5.2：将测试数据送入模型中进行预测，得到流量预测值，计算出预测精度。

评价准则：为验证本发明所述流量预测方法的有效性，如图4至图6所示，通过在上述数据集上进行对比实验，根据均方根误差(RMSE)、平均绝对误差(MAE)和精确度(ACC)对实验结果进行评价。其中均方根误差(RMSE)和平均绝对误差(MAE)的值越小，代表模型的性能越好。精确度(ACC)的值越大，模型的性能越优。

实验结果：

表1、2、3分别代表基于注意力机制的LSTM模型和传统LSTM在预测时间尺寸为10分钟、20分钟和30分钟下的实验结果。

表1

表2

表3

实验分析：通过实验结果可以看出，在不同的时间尺度10分钟、20分钟和30分钟下，基于注意力机制的LSTM模型相比于传统LSTM的实验结果都有所提高。这也验证了基于注意力机制的LSTM模型的有效性。因为使用了注意力机制对过去n个时刻计算注意力得分，使模型能够更好地关注对当前时刻较为关键的信息，以实现更为高精度的预测。此外，基于注意力机制的LSTM模型中注意力窗口也保证了历史序列数据能够长时保留，避免出现信息丢失的情况。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于注意力机制的LSTM模型的网络流量预测方法，其特征在于，所述网络流量预测方法包括以下步骤：

步骤1：数据预处理，对所述网络流量数据进行标准化处理，然后将网络流量数据划分为训练数据和测试数据；

步骤2：构建模型，构建基于注意力机制的LSTM模型，所述LSTM模型的输出单元及所述注意力窗口长度，利用深度学习框架Tensorflow中的注意力机制将LSTM的输出单元连接起来；所述基于注意力机制的LSTM模型基于前n个历史时刻的隐藏状态与当前细胞状态计算出相关系数值，利用unstack函数将数据集按列划分，将划分后的数据送入tf.nn.static_rnn函数中，得到前n个时刻的输出值集合output和输出状态states，通过softmax函数对相关系数进行归一化得到注意力得分；

根据网络的输出值集合output获取最后一个时刻的输出值，根据所述输出值output获取最后一个时刻的输出值last_output，根据线性回归模型last_output*W+b计算出网络流量预测值；

步骤3：模型训练，将训练数据输入所述基于注意力机制的LSTM模型中，基于Adam优化算法进行迭代训练，得到训练好的模型；

2.根据权利要求1所述的一种基于注意力机制的LSTM模型的网络流量预测方法，其特征在于，所述步骤1，数据预处理具体通过以下方式实施：

步骤1.2：计算所述网络流量数据集中的流量最大值x_max和最小值x_min；

步骤1.3：对原始网络流量数据进行min-max标准化，即

其中，x为原始网络流量数据，x_min为网络流量数据中的最小值，x_max为网络流量数据中的最大值，x′为标准化处理后的数值结果；

步骤1.4：将数据集划分为训练集和测试集。

3.根据权利要求1所述的一种基于注意力机制的LSTM模型的网络流量预测方法，其特征在于，所述步骤2，构建模型具体通过以下方式实施：

步骤2.2：设计所述基于注意力机制的LSTM模型的相关参数；

步骤2.3：初始化线性回归的权重矩阵W和偏置b为0至1之间的随机数；

步骤2.4：基于所述相关参数构建输出单元；

步骤2.5：基于步骤2.4中的LSTM的输出单元及所述注意力窗口长度，利用深度学习框架Tensorflow中的注意力机制将LSTM的输出单元连接起来；

步骤2.7：根据所述输出值集合output获取最后一个时刻的输出值last_output；

4.根据权利要求3所述的一种基于注意力机制的LSTM模型的网络流量预测方法，其特征在于，所述步骤3，模型训练具体通过以下方式实施：

步骤3.1：基于步骤2.2中设置的批量数据大小，将网络流量数据划分为若干个批次；

步骤3.3：基于Adam算法进行迭代优化；

5.根据权利要求1所述的一种基于注意力机制的LSTM模型的网络流量预测方法，其特征在于，所述网络流量预测方法还包括：

步骤5：检验模型，将测试数据输入训练好的基于注意力机制的LSTM模型中，得到网络流量预测精度。

6.根据权利要求3所述的一种基于注意力机制的LSTM模型的网络流量预测方法，其特征在于，所述基于注意力机制的LSTM模型的相关参数包括隐含神经元个数、批量数据大小、学习率、最大迭代次数。