CN113411216A

CN113411216A - 基于离散小波变换和fa-elm的网络流量预测方法

Info

Publication number: CN113411216A
Application number: CN202110687331.7A
Authority: CN
Inventors: 王堃; 谭源; 张立中; 郑晨; 张军; 陈志刚; 李斌; 夏琨; 徐悦
Original assignee: Central South University; Information and Telecommunication Branch of State Grid Ningxia Electric Power Co Ltd
Current assignee: Central South University; Information and Telecommunication Branch of State Grid Ningxia Electric Power Co Ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-09-17
Anticipated expiration: 2041-06-21
Also published as: CN113411216B

Abstract

本发明提供了一种基于离散小波变换和FA‑ELM的网络流量预测方法，包括：步骤1，构建DWAFE模型，在所述DWAFE模型中设置数据管理员和模型管理员；步骤2，获取多个网络流量数据并将所述网络流量数据发送给所述数据管理员，所述数据管理员将所述网络流量数据进行数据预处理，得到数据预处理后的所述网络流量数据。本发明经过萤火虫算法优化的FA‑ELM模型，克服了ELM稳定性差的缺陷，对非线性数据预测的准确性高，能稳定可靠地应用于各领域的研究中，具有极大的现实意义。本发明提出的DWAFE模型结合了ARIMA模型和FA‑ELM模型各自的优势，做出精准的网络流量预测，根据预测结果计算出指定置信度下的动态阈值区间，从而实现设备运行状态实时感知，为设备故障预警提供强有力的支持。

Description

基于离散小波变换和FA-ELM的网络流量预测方法

技术领域

本发明涉及网络流量预测技术领域，特别涉及一种基于离散小波变换和FA-ELM的网络流量预测方法。

背景技术

自回归差分移动平均模型(ARIMA，Autoregressive Integrated Moving Averagemodel)，时间序列预测中最重要和应用最广泛的模型之一，适合于处理存在线性结构的时间序列，对于非线性数据的预测则差强人意。另外，泛化能力不足是其缺点之一，随着预测时间的延长其预测准确度会显著降低，因此只适合于短期预测。

极限学习机(ELM，Extreme Learning Machine)，对非线性数据有较好的拟合效果和较高的预测精度，对于相对容易拟合的线性数据则其鲁棒性不如ARIMA。且稳定性不足是其最大缺陷，难以可靠地应用于实际生产场景中。

长短期记忆网络(LSTM，Long Short-Term Memory)，一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

发明内容

本发明提供了一种基于离散小波变换和FA-ELM的网络流量预测方法，其目的是为了解决传统的时间序列预测随着预测时间的延长其预测准确度会显著降低，稳定性不足，存在的长期依赖的问题。

为了达到上述目的，本发明的实施例提供了一种基于离散小波变换和FA-ELM的网络流量预测方法，包括：

步骤1，构建DWAFE模型，在所述DWAFE模型中设置数据管理员和模型管理员；

步骤2，获取多个网络流量数据并将所述网络流量数据发送给所述数据管理员，所述数据管理员将所述网络流量数据进行数据预处理，得到数据预处理后的网络流量数据集；

步骤3，对所述网络流量数据集进行离散小波变换，得到一组细节序列和一个趋势序列并发送给所述模型管理员；

步骤4，所述模型管理员采用ADF检验法对所有子序列进行平稳性检验，将子序列分为平稳序列和非平稳序列；

步骤5，通过赤池信息准则和贝叶斯信息准则对每个平稳序列进行定阶，根据每个平稳序列的定阶结果分别构建多个ARIMA模型并进行平稳序列预测，得到多个平稳序列的预测值；

步骤6，对每个非平稳序列通过萤火虫算法搜寻构建ELM模型的最优参数，根据搜寻出的多个最优参数分别构建多个FA-ELM模型并进行非平稳序列预测，得到多个非平稳序列的预测值；

步骤7，将每个平稳序列的预测值和每个非平稳序列的预测值通过离散小波逆变换进行合并，得到网络流量预测结果并作为DWAFE模型的输出，设定所述网络流量预测结果的置信度，并基于网络流量预测结果计算设定的置信度下的动态阈值区间，且将所述动态阈值区间作为触发预警的条件。

其中，所述步骤2具体包括：

步骤21，所述数据管理员接收输入的所述网络流量数据；

步骤22，所述数据管理员对输入的所述网络流量数据进行数据纠错、删除重复项、统一规格和转换构造的数据清洗操作，得到数据预处理后的网络流量数据集。

其中，所述步骤3具体包括：

步骤31，从常用的小波函数中任意选择一个小波函数；

步骤32，使用选择的小波函数对所述网络流量数据集进行一层离散小波变换，得到一个细节序列和一个趋势序列；

步骤33，使用Acorr_Ljungbox方法对趋势序列进行残差检验，得到一个P值，当P值大于0.05时，当前趋势序列为白噪声，停止离散小波变换，当P值小于0.05时，继续对当前趋势序列进行一层离散小波变换，直到残差检验后的P值大于0.05时停止离散小波变换，将当前趋势序列的变换次数作为使用小波函数所需的分解层数；

步骤34，重复以上步骤，选择所需分解层数最小的小波函数。

其中，所述步骤4具体包括：

通过所述模型管理员对一组细节序列和一个趋势序列采用单位根检验方法进行平稳性检验，判断各个序列中是否存在单位根，若当前序列中存在单位根，将当前序列判定为非平稳序列，若当前序列中不存在单位根，将当前序列判定为平稳序列。

其中，所述步骤5具体包括：

步骤51，通过赤池信息准则和贝叶斯信息准则计算ARIMA模型的AR阶数p和MA阶数q，如下所示：

AIC＝2k-2ln(L) (1)

其中，k表示ARIMA模型参数个数，L表示似然函数；

采用贝叶斯信息准则选择最优模型阶数，如下所示：

BIC＝kln(n)-2ln(L) (2)

其中，n表示平稳序列中的网络流量数据的个数；

步骤52，根据AR阶数p和MA阶数q构建候选ARIMA模型，如下所示：

Y_t＝β₀+β₁Y_t-1+β₂Y_t-2+…+β_pY_t-p+ε_t+α₁ε_t-1+α₂ε_t-2+…+α_qε_t-q (3)

其中，(β₀,β₁,…,β_p)表示AR自回归系数，(α₀,α₁,…,α_q)表示MA自回归系数，p表示AR阶数，q表示MA阶数；

步骤53，通过网络流量训练数据对候选ARIMA模型的参数进行估计，确定AR自回归系数和MA自回归系数的值；

步骤54，通过网络流量测试数据验证候选ARIMA模型的拟合效果，

步骤55，对候选ARIMA模型的拟合效果进行判断，当拟合效果较差时重复执行步骤52、步骤53和步骤54，直到候选ARIMA模型的拟合效果好时结束循环。

其中，所述步骤6具体包括：

通过萤火虫算法搜寻每个非平稳序列中的最优参数：步骤61，设定萤火虫数量为N，并随机初始化每个萤火虫的位置，设置介质对光的吸收系数为γ＝1，初始步长α＝0.3，初始吸引度β₀＝1.0，吸引度公式为：

其中，β(γ)表示吸引度，最小吸引度β_min＝0.2，最大吸引度β_max＝1，γ表示介质对光的吸收系数，r表示第i个萤火虫与第j个萤火虫之间的欧式距离；

步骤62，采用指标R²作为适应度，计算每个萤火虫的适应度值，如下所示：

其中，R²表示每个萤火虫的适应度值，R²越接近于1，亮度越大，

表示预测值，y⁽ⁱ⁾表示真实值，

表示均值，i表示第i个萤火虫。

其中，所述步骤6还包括：

步骤63，每个萤火虫向所有比自身亮度高的萤火虫飞行的位置变化，如下所示：

其中，X_i’表示移动后的萤火虫的位置，X_j表示比第i个萤火虫个体亮度更高的第j个萤火虫的位置，rand()表示随机扰动，rand()的取值为[-0.5,0.5]范围内的均匀分布或U(0,1)的标准正态分布，α表示扰动的步长因子，α的取值为[0,1]之间的小数。

其中，所述步骤6还包括：

为增加萤火虫算法的收敛性，令步长α迭代衰减，则第t次迭代的步长计算公式为：

α＝α*0.97^t (7)

其中，t表示迭代次数；

由于亮度最大的萤火虫个体不会向其它萤火虫移动，亮度最大的萤火虫个体的位置更新计算，如下所示：

X’_i＝X_i+α*randUniform(-0.5,0.5) (8)

其中，randUniform()表示(-0.5,0.5)的均匀分布。

其中，所述步骤6还包括：

步骤64，通过式(5)计算萤火虫移动后所处新位置的适应度值，若新位置的适应度值优于移动前位置的适应度值，则移动生效，否则萤火虫将停留在原处；

步骤65，通过在萤火虫算法中设置一个适应度阈值，防止优化后的模型过拟合，每次迭代完成后记录当前最优适应度值，若当前最优适应度值大于设定的适应度阈值或萤火虫算法到达最大迭代次数，则将搜索到的最优萤火虫位置作为解输出，否则将跳到步骤62进行下次迭代；

步骤66，通过萤火虫算法搜寻出的最优参数构建FA-ELM模型。

其中，所述步骤7具体包括：

计算动态阈值区间，如下所示：

其中，ThresholdRange表示动态阈值区间，

表示网络流量预测结果，N表示样本总数，x_i表示第i个样本，u表示样本均值，h表示预测步数，k表示乘子，乘子的取值根据设定的置信度查表得出。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于离散小波变换和FA-ELM的网络流量预测方法，经过萤火虫算法优化的FA-ELM模型在各项指标上都优于原生ELM模型，克服了稳定性差的缺陷，预测的准确性和鲁棒性高，拟合能力和泛化能力更好，能更加稳定可靠地应用于各领域的研究中，具有极大的现实意义。本发明提出的DWAFE模型能够结合ARIMA模型和FA-ELM模型各自的优势，做出精准的网络流量预测，根据预测结果可以计算出指定置信度下的动态阈值区间，实现设备运行状态实时感知，为设备故障预警提供支持。

附图说明

图1为本发明的流程图；

图2为本发明的DWAFE模型流程图；

图3为本发明的萤火虫算法流程图；

图4为本发明的数据自相关分析图；

图5为本发明的离散小波变换结果图；

图6为本发明的FA-ELM模型预测结果图；

图7为本发明的LSTM模型预测结果图；

图8为本发明的ARIMA模型预测结果图；

图9为本发明的DWAFE模型预测结果图；

图10为本发明的DWAFE模型预测值的95％置信度下的动态阈值区间示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的时间序列预测随着预测时间的延长其预测准确度会显著降低，稳定性不足，存在的长期依赖的问题的问题，提供了一种基于离散小波变换和FA-ELM的网络流量预测方法。

如图1至图10所示，本发明的实施例提供了一种基于离散小波变换和FA-ELM的网络流量预测方法，包括：步骤1，构建DWAFE模型，在所述DWAFE模型中设置数据管理员和模型管理员；步骤2，获取多个网络流量数据并将所述网络流量数据发送给所述数据管理员，所述数据管理员将所述网络流量数据进行数据预处理，得到数据预处理后的网络流量数据集；步骤3，对所述网络流量数据集进行离散小波变换，得到一组细节序列和一个趋势序列并发送给所述模型管理员；步骤4，所述模型管理员采用ADF检验法对所有子序列进行平稳性检验，将子序列分为平稳序列和非平稳序列；步骤5，通过赤池信息准则和贝叶斯信息准则对每个平稳序列进行定阶，根据每个平稳序列的定阶结果分别构建多个ARIMA模型并进行平稳序列预测，得到多个平稳序列的预测值；步骤6，对每个非平稳序列通过萤火虫算法搜寻构建ELM模型的最优参数，根据搜寻出的多个最优参数分别构建多个FA-ELM模型并进行非平稳序列预测，得到多个非平稳序列的预测值；步骤7，将每个平稳序列的预测值和每个非平稳序列的预测值通过离散小波逆变换进行合并，得到网络流量预测结果并作为DWAFE模型的输出，设定所述网络流量预测结果的置信度，并基于网络流量预测结果计算设定的置信度下的动态阈值区间，且将所述动态阈值区间作为触发预警的条件。

本发明的上述实施例所述的基于离散小波变换和FA-ELM的网络流量预测方法，DWAFE模型中设置了两个角色，分别是数据管理员和模型管理员。数据管理员负责接收输入数据并对数据进行预处理，预处理流程包含了数据清洗和离散小波变换两个阶段，通过数据清洗得到可用的数据集，通过离散小波变换将原始数据分解为一组细节序列和一个趋势序列。数据管理者处理完成后，由模型管理员对所有子序列进行平稳性检验并创建模型。对于平稳序列，使用AIC、BIC法则确定ARIMA模型的阶数并创建ARIMA模型。赤池信息准则建立在信息熵的基础上，用于进行模型的选择，贝叶斯信息准则同样用于选择最优模型，且考虑了样本数量，当样本数量过多时可以避免模型精度过高造成模型复杂度过高，对于非平稳序列，使用萤火虫算法搜寻到最佳参数后再构建FA-ELM模型。最后，使用离散小波逆变换将各个ARIMA模型和各个FA-ELM模型的预测值合并为最终结果作为DWAFE模型的输出。

其中，所述步骤2具体包括：步骤21，所述数据管理员接收输入的所述网络流量数据；步骤22，所述数据管理员对输入的所述网络流量数据进行数据纠错、删除重复项、统一规格和转换构造的数据清洗操作，得到数据预处理后的网络流量数据集。

其中，所述步骤3具体包括：步骤31，从常用的小波函数中任意选择一个小波函数；步骤32，使用选择的小波函数对所述网络流量数据集进行一层离散小波变换，得到一个细节序列和一个趋势序列；步骤33，使用Acorr_Ljungbox方法对趋势序列进行残差检验，得到一个P值，当P值大于0.05时，当前趋势序列为白噪声，停止离散小波变换，当P值小于0.05时，继续对当前趋势序列进行一层离散小波变换，直到残差检验后的P值大于0.05时停止离散小波变换，将当前趋势序列的变换次数作为使用小波函数所需的分解层数；步骤34，重复以上步骤，选择所需分解层数最小的小波函数。

其中，所述步骤4具体包括：通过所述模型管理员对一组细节序列和一个趋势序列采用单位根检验方法进行平稳性检验，判断各个序列中是否存在单位根，若当前序列中存在单位根，将当前序列判定为非平稳序列，若当前序列中不存在单位根，将当前序列判定为平稳序列。

其中，所述步骤5具体包括：步骤51，通过赤池信息准则和贝叶斯信息准则计算ARIMA模型的AR阶数p和MA阶数q，如下所示：

AIC＝2k-2ln(L) (1)

其中，k表示ARIMA模型参数个数，L表示似然函数；

采用贝叶斯信息准则选择最优模型阶数，如下所示：

BIC＝kln(n)-2ln(L) (2)

其中，n表示平稳序列中的网络流量数据的个数；

步骤52，根据AR阶数p和MA阶数q构建候选ARIMA模型，如下所示：

其中，所述步骤6具体包括：通过萤火虫算法搜寻每个非平稳序列中的最优参数：步骤61，设定萤火虫数量为N，并随机初始化每个萤火虫的位置，设置介质对光的吸收系数为γ＝1，初始步长α＝0.3，初始吸引度β₀＝1.0，吸引度公式为：

表示预测值，y⁽ⁱ⁾表示真实值，

表示均值，i表示第i个萤火虫。

其中，所述步骤6还包括：步骤63，每个萤火虫向所有比自身亮度高的萤火虫飞行的位置变化，如下所示：

其中，所述步骤6还包括：为增加萤火虫算法的收敛性，令步长α迭代衰减，则第t次迭代的步长计算公式为：

α＝α*0.97^t (7)

其中，t表示迭代次数；

X’_i＝X_i+α*randUniform(-0.5,0.5) (8)

其中，randUniform()表示(-0.5,0.5)的均匀分布。

其中，所述步骤6还包括：步骤64，通过式(5)计算萤火虫移动后所处新位置的适应度值，若新位置的适应度值优于移动前位置的适应度值，则移动生效，否则萤火虫将停留在原处；步骤65，通过在萤火虫算法中设置一个适应度阈值，防止优化后的模型过拟合，每次迭代完成后记录当前最优适应度值，若当前最优适应度值大于设定的适应度阈值或萤火虫算法到达最大迭代次数，则将搜索到的最优萤火虫位置作为解输出，否则将跳到步骤62进行下次迭代；步骤66，通过萤火虫算法搜寻出的最优参数构建FA-ELM模型。

本发明的上述实施例所述的基于离散小波变换和FA-ELM的网络流量预测方法，在萤火虫算法中，每个萤火虫的位置代表ELM参数，即权值和偏差的一个可行解，而萤火虫的亮度表示该萤火虫位置的适应度，亮度越高的个体在解空间内的位置越好。萤火虫个体之间，每个萤火虫会向着亮度比自己高的个体飞行来搜寻更优的位置，每只萤火虫对其他萤火虫的吸引度与亮度成正比，与距离成反比。由图3可知，萤火虫算法模拟自然界中萤火虫的行为，经过多次迭代搜寻出最亮的萤火虫位置，最终输出用于训练ELM模型的最优参数。

其中，所述步骤7具体包括：计算动态阈值区间，如下所示：

其中，ThresholdRange表示动态阈值区间，

本发明的上述实施例所述的基于离散小波变换和FA-ELM的网络流量预测方法，本实验采用来自宁夏电力公司某核心路由器的接收流量数据作为数据集，时间跨度为(2020.02.0100:00:00,2020.04.3023:55:00)，采样频率为5分钟，对整体数据进行自相关分析如下：由图4可知，数据中存在以天、月、季度为单位的周期，且以天为单位的周期最为显著。因此，本实验使用一天的数据共288个点作为输入数据，迭代预测未来一小时共12个点的数据。对采集的网络流量数据进行数据清洗，包含数据纠错、删除重复项、统一规格、转换构造等四大步骤。在数据纠错阶段，由于实际场景可能存在网络流量突增或突减，因此保留了样本离群点。在删除重复项阶段，删除重复的数据和属性列。在统一规格阶段，统一保留所有数据两位小数点并将数据标准化到(0,1)范围内。在转换构造阶段，将csv格式的流量数据转换为Series对象。经过上述清洗流程，即可得到最终的可用数据集。

本实验所用环境如表1所示：

表1实验环境表

对常用小波函数进行对比实验，确定以Db1为小波基函数，对数据进行4层分解，结果如图5所示，对图5从上到下进行排序，则顶层为原始信号，第2到第5层图像对应离散小波变换第1次到第4次变换的高频系数，最底层为第4次离散小波变换后的低频系数，单位根检验可以分析时间序列的平稳性，若存在单位根则表示该序列不平稳，由此得出2、3和6为平稳序列，4和5为非平稳序列。

采用R2_score、MAPE、10％ACC、15％ACC和20％ACC作为评价指标。其中：

R2_score：真实值与预测值的拟合程度，越接近1则拟合程度越高；

MAPE：平均绝对百分比误差；

10％ACC：预测值落在“真实值×(1±10％)”范围内的占比；

15％ACC：预测值落在“真实值×(1±15％)”范围内的占比；

20％ACC：预测值落在“真实值×(1±20％)”范围内的占比。

为了探究萤火虫算法(FA)对ELM模型的改进效果，使用原生ELM模型和FA-ELM模型分别进行十次实验。

表2原生ELM模型十次实验数据表

表3 FA-ELM十次实验数据表

由表2和表3可知，FA-ELM模型的平均R2_score为0.591，比原生ELM提升了0.961，说明FA-ELM模型的拟合能力更好。FA-ELM模型的平均MAPE为0.0904，比原生ELM模型提升了0.0728，且FA-ELM模型的10％ACC、15％ACC和20％ACC值都显著高于ELM模型，说明FA-ELM模型预测精度相比ELM模型有了较大的提升。FA-ELM模型十次实验的MAPE稳定在(0.0978,0.0882)范围内，证明FA-ELM模型能够克服ELM模型稳定性差的缺陷，与原生ELM模型相比，改进后的FA-ELM模型在各项指标上都明显占优，在20％ACC指标中更是最多达到了100％的准确率，足见萤火虫算法的优化效果显著。

为了探究DWAFE模型的性能，使用ARIMA模型、FA-ELM模型、LSTM模型和DWAFE模型进行了对比实验，由图6至图9可知，四个对比模型中，DWAFE模型的拟合效果最好，十二个点全部落在15％ACC范围内；ARIMA模型的拟合效果最差，其预测值波动较小、近乎直线；LSTM模型与FA-ELM模型的效果接近，仅次于DWAFE模型。将十次实验结果的各项指标取均值，如表4所示：

表4 DWAFE、ARIMA、FA-ELM、LSTM对比结果表

由表4可知：对比的四个模型中，ARIMA模型的R2_score值最小，说明数据中存在非线性结构，导致ARIMA模型无法很好的拟合；DWAFE模型的R2_score值最接近于1，说明DWAFE模型能够很好的适应数据并做出了最佳的拟合效果。DWAFE模型的平均绝对百分比误差为7.6％，相比ARIMA的12.4％，DWAFE模型能满足更高的精度要求。在各项指标上，FA-ELM模型与LSTM模型的性能相近，位于ARIMA模型与DWAFE模型之间。另外，结合图7可知，随着预测步数的增加，DWAFE模型的预测误差波动较小，说明DWAFE模型有着较好的泛化能力，能够很好的学习训练样本中的趋势和细节变动，能够比较准确地根据历史经验预测数据未来的发展情况。

最后，通过样本均值和各预测值计算出阈值区间，本实验选择95％的置信度，得到阈值区间如10图，在图10中，x线为接收流量真实值，为了便于观测，只画出了索引为(265,300)范围的数据。y线为预测值，描述了未来一小时共12个点的接收流量走向。阴影区域是预测值95％置信度的阈值区间，当网络流量数据的真实值超出阴影区域的上下边界时，判定设备有95％的可能出现了异常，立即发出警报提醒工作人员进行维护。

本发明的上述实施例所述的基于离散小波变换和FA-ELM的网络流量预测方法，通过离散小波变换将网络流量数据分解为细节序列和趋势序列，并依据平稳性的不同分别进行处理。对于平稳序列，使用AIC、BIC法则定阶后再创建ARIMA模型；对于非平稳序列，则使用萤火虫算法搜寻到最佳参数后再构建FA-ELM模型，经过萤火虫算法优化的FA-ELM模型在各项指标上都优于原生ELM模型，克服了稳定性差的缺陷，能更加稳定可靠地应用于各领域的研究中，预测的准确性和鲁棒性高，拟合能力和泛化能力更好，最后，使用离散小波逆变换将各个模型的预测值合并为最终的网络流量预测结果，根据预测值计算95％置信度下的动态阈值区间，应用于各种设备的运行状态感知和故障预警，具有极大的现实意义。所述基于离散小波变换和FA-ELM的网络流量预测方法结合了ARIMA模型和ELM模型各自的优势，做出精准的网络流量预测，实现了设备运行状态实时感知，为设备故障预警提供支持。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。