CN114363195B

CN114363195B - 面向时间和频谱残差卷积网络的网络流量预测预警方法

Info

Publication number: CN114363195B
Application number: CN202210026617.5A
Authority: CN
Inventors: 毕敬; 张翔; 徐康原
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2024-06-07
Anticipated expiration: 2042-01-11
Also published as: CN114363195A

Abstract

本发明涉及一种面向时间和频谱残差卷积网络的网络流量预测预警方法。首先，提取出西班牙维基百科网站一年的流量时序数据，并对该历史数据作对数处理，使用Savitzky‑Golay滤波器进行平滑去噪。其次，对数据进行归一化操作，并采用滑动窗口将归一化后的数据转换成有监督数据。再次，构建集成网络流量预测模型T‑LSTM，通过对网络流量数据的迭代训练，优化模型参数，进而得到预测模型，并获取精度较高的网络流量预测结果。在此基础上，将预测结果通过频谱残差变换成显著性图并向其人工注入点，该点被标记为异常，其它点则标记为正常。最后，用卷积神经网络对新生成的合成数据进行建模，学习判别规则进而实现预警功能。

Description

面向时间和频谱残差卷积网络的网络流量预测预警方法

技术领域

本发明涉及一种面向时间卷积网络的流量预测预警方法。更具体地，涉及一基于T-LSTM的集成流量预测方法和一基于SR-CNN的流量预警方法。

背景技术

在互联网的迅猛发展下，各种网络应用不断涌现，网络行为日益复杂，网络流量更是呈现出了急剧增长的态势，给运营商管理和维护网站提出一个巨大的挑战。运营商必须采取有效的措施来优化网络资源，以提高网络的可靠性。然而，决定合适的网络资源量并不是一件容易的事情，可能会导致供给不足或者供给过剩。供给不足会导致网络资源饱和，限制网络的性能，从而引起用户的不满，另一方面，过度供应会使得大量网络资源被闲置得不到利用，从而增加运营商的成本。网络流量是对网络运行负荷的重要反馈，可以作为网络性能优劣的评估依据。运营商可以通过对历史网络流量数据进行系统地分析，建立精准的流量预测模型，来捕捉未来流量的趋势，并根据预测结果实现流量异常的预警。如此一来，运营商就可以提前知道未来网络的流量需求，并有针对性地调整网络策略，合理地分配网络资源，发现网络异常，从而能够最大程度上防止网络的拥塞阻塞，提高网络资源的利用率，实现网络流量的及时预警以及解决，给用户带去良好的上网体验。因此，网络流量的准确预测预警具有非常大的实际应用价值。

早期，研究者们多采用数学建模的方式来近似地表达时间序列数据，是对时间序列数据的一种线性拟合，无法有效地捕捉网络流量序列中的非线性特征。这些方法假设性很强，在建模前需要操作者具有较多的建模经验，并且大多是确定的模型，很难全面地反映系统全局。为此，研究者们将目光转向了适用于处理复杂的非线性数据的模型上，并证明了这些模型在网络流量序列预测中的适用性。但是他们在处理大数据时则会存在时间和内存消耗过多的问题。神经网络的出现很好地解决了上述问题，神经网络适用于大规模数据，可以自动提取序列数据中的特征，具备很强的泛化能力和容错能力，但是在模型训练过程中很容易陷入局部最优，容易过拟合。然而，上述方法并不具有记忆功能，不能挖掘序列中的时间信息，故预测精度并不十分令人满意。

深度学习凭借其强大的特征自动提取能力和对大规模数据的预处理能力，成为了研究者们讨论的一个热点话题。长短期神经网络(Long Short-Term Memory,LSTM)是一种循环神经网络，天然适合于处理具有时间信息的数据，解决了循环神经网络(RecurrentNeural Network,RNN)中存在的梯度消失和梯度下降问题，在许多建模任务中占据着主导地位。但是，序列建模领域并不仅仅是LSTM的天下，基于卷积神经网络的特殊变体时间卷积网络(Temporal Convolutional Network,TCN)也占有一席之地。TCN对序列数据也具有很好的记忆功能，在一些序列任务上的表现可以和LSTM相媲美，甚至超过LSTM。

因此，本发明考虑将TCN、LSTM和SR-CNN结合，首先，利用TCN可以提取出序列中的高低频信息，捕获时间上的局部依赖，其次，利用LSTM捕获序列中的长期依赖，从而可以有效地提高模型的预测精度，最后通过SR-CNN进行异常检测实现预警。

发明内容

本发明针对现有技术的不足，提供一种基于时间卷积神经网络(TemporalConvolutional Network,TCN)、长短期记忆网络(Long Short-Term Memory Network,LSTM)和频谱残差(Spectral Residual,SR)、卷积神经网络(Convolutional NeuralNetwork,CNN)的网络流量预测预警方法。本发明的目的通过以下技术方案来实现。

一种基于T-LSTM和SR-CNN的网络流量预测预警方法，该方法主要包括如下步骤：

(1)获取西班牙维基百科网站一年的流量时序数据；

(2)对流量时序数据作对数处理，并使用SG滤波平滑降噪预测处理；

(3)对数据作归一化操作，并将其转变为有监督数据；

(4)构建面向时间卷积网络的网络流量预测模型；

(5)将集成了时间卷积网络和长短期记忆网络的流量预测模型进行迭代训练，优化模型参数，得到预测模型；

(6)使用预测模型对下一时刻的流量进行预测，对预测值执行反归一化和对数还原，获得未来的流量预测值；

(7)对流量曲线进行SR变换得到该曲线的显著性图；

(8)通过人工注入异常的方式制造标签，生成新的合成数据；

(9)利用显著性检测模型CNN来对合成数据进行建模，学习判别规则，得到预警模型。

本发明的有益效果如下：

本发明提供一种面向时间和频谱残差卷积网络的网络流量预测预警方法，基于提取的维基百科网站一年的历史流量时序数据，综合考虑时序数据的局部与整体关系，构建集成时间卷积网络和长短期记忆网络的流量预测模型，实现对下一时刻流量的精准预测，具有较高的准确性，并且在预测的基础上能够对未来发生的网络流量异常进行预警，能够非常容易地集成到在线监控系统中，从而可以协助运营商监测网络工作状态的健康程度，保证网络系统的安全运行。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明：

图1为本专利的网络流量预测预警方法的流程图；

图2为SG滤波流程图；

图3为时序数据转有监督数据的过程图；

图4为基于T-LSTM神经网络的网络流量预测模型图；

图5为基于SR-CNN神经网络的网络流量预警模型图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域内的技术人员应当理解，下面所具体描述的内容是均为说明性的而非限制性的，不应以此限制本发明的保护范围。

本发明提出面向时间和频谱残差卷积网络的网络流量预测预警方法，通过对采集的一定时间间隔的流量时序数据进行分析，利用时间卷积网络提取出序列中的高低频信息，捕获序列中的短期依赖，之后利用长短期记忆网络挖掘序列中的长期依赖。如图1所示，预测预警方法包括如下步骤：

步骤S1，获取西班牙维基百科网络一年的流量时序数据；

本发明以维基媒体基金会提供的数据集作为研究对象，通过对该数据集的研究分析，抽取出了西班牙语言的维基百科网站一年的流量数据，它是该网站下所有页面的访问量之和，时间为2015年7月1日00:00:00至2016年7月1日00:00:00，并且每一个时间点代表该时间点之前一小时的网络流量，Webstatscollector采集工具每隔一小时统计一次网络流量，总共9,528条数据。

步骤S2，对流量时序数据作对数处理，并使用SG滤波平滑降噪处理；

由于原始时间序列分布不对称，呈右偏态分布，表示存在一些非常大的极端值，大部分值都集中在分布在你偏左的部分，并且数据的数量级很大，很容易在计算过程中造成数据的运算溢出。所以，本发明对原始序列作对数变换，可以在不改变原始序列性质的前提下，降低数据的数量级，使得数据在一定程度上符合正态分布的特征，从而更加有利于时序数据的预测。具体的对数变换公式如下：

其中，z＝(z₀,z₁,z₂,...,z_T)代表原始时序数据，那么z_i(i＝0,1,2,3,...,T)表示在第i时刻监测到的之前一小时之内的网站访问量。表示取对数之后的数据。

其次，由于流量在采集过程中会出现一些异常情况，比如机器故障导致的数据缺失，举办大型活动出现的流量激增等状况，这些异常情况破坏了时序数据的规律性，从而使得预测精度大打折扣。为此，在获得时序数据后，采用SG滤波器对数据进行平滑去噪，降低噪声的干扰，可以有效地抑制非线性模型过拟合的出现。附图2为SG滤波的实施方法流程图。

SG滤波器其实是一种移动窗口的加权平均算法，但是其加权系数不是简单的常数窗口，而是通过在滑动窗口内对给定高阶多项式的最小二乘拟合得出。SG滤波可以在滤除噪声的同时确保信号的形状、宽度不变。

对于一条序列v的多项式加权系数计算方法：

(1)设滤波器的窗口宽度为n＝2m+1，对于序列v中的任意一组窗口大小为n的数据v(i)，i＝-m,…,0,…,m，采用R次多项式p(i)对窗口内的数据点进行拟合。

其中，α_k是SG函数的第k个系数。

(2)使用最小二乘法最小化误差

从而可以确定多项式中的系数α₀,α₁,...,α_R，接着可以求出窗口中的中心点p(0)＝α₀。因此，只要求出α₀即可求出窗口中的中心点v(0)的最佳拟合p(0)。平移该窗口，就可以使得序列v中的每个点成为该窗口的中心点，最终获得序列v平滑滤波后的数据

SG滤波器中存在两个超参数：窗口大小n和多项式最高次项R。为此，设置了不同的参数组合，最终通过实验确定，当n＝5，R＝3时，SG滤波器可以取得最佳的平滑效果。平滑过滤之后的序列为h＝(h₀,h₁,h₂,...,h_T)。

步骤S3，对数据作归一化操作，并将其转变为有监督数据；

为了保证模型的稳定性、收敛速度以及预测精度，本发明采用最小最大归一化(Min-Max Scaling)，它将数据集中的数据映射到[0,1]之间，数据分布状况和原来保持一致，是对数据的一种线性变化。对上一步处理后的数据h进行归一化，具体公式如下：

其中，x_i表示归一化后的目标值，h_min、h_max分别表示数据中的最小值和最大值。最终得到的序列为

紧接着，将流量时序数据转换成一组特征值和相对应的目标值对。附图3为时序数据转有监督数据的过程，在本发明中，特征值指的是滑动窗口中的输入序列，作为模型的输入数据，目标值则为下一时刻的流量，作为模型的输出。利用滑窗的方式，将长度为w窗口从左向右滑动，每次滑动一个时间步长，以获得新的一行特征值和目标值对，由此可以构建得到有监督数据。然后，将这些数据按照9:1的比例划分训练集和测试集，这里以l时刻的数据作为划分点：

训练集为：

x_t-w+1,...,x_t-3,x_t-2,x_t-1→x_t(t＝w-1,w-2,...,l)；

测试集为：

x_t-w+1,...,x_t-3,x_t-2,x_t-1→x_t(t＝l+1,l+2,...,T)。

步骤S4，构建面向时间卷积网络的网络流量预测模型；

为了充分利用时间卷积神经网络的特征提取能力以及长短期记忆神经网络的长期依赖捕获能力，从而准确地预测下一时刻的网络流量，本发明设计了如附图4所示的模型。该模型结构主要由时间卷积网络和长短时记忆网络两部分组成，首先，使用长度为T＝w-1的历史时间序列数据作为输入，利用时间卷积网络提取出序列中的高低频信息，捕获序列中的短期依赖；其次，将得到的具有丰富特征的时间序列输入长短时记忆网络模型，通过细胞状态间的信息传递获得动态变化，捕捉序列中的长期特征。然后，通过一层全连接层提高模型的非线性能力；最后，通过输出层输出下一时刻的网络流量。具体过程如下：

对于TCN来说，它能够保证网络的输入输出长度相同，并且从未来到过去不存在信息泄露。TCN是一种特殊的一维全卷积神经网络，主要包含三部分：因果卷积、膨胀卷积和残差模块。

TCN引入了因果卷积，解决了正常卷积操作造成未来信息泄露的问题。因果卷积能够确保对于上一层t时刻的值，仅依赖于下一层t时刻及其之前的值。对于输入序列X＝(x₁,…,x_t,…,x_T)和滤波器f:{0,...,L-1}→R，普通的一维卷积层被定义为：

seq＝(F(x₁),F(x₂),...,F(x_T))。

其中，seq为输出序列，L是滤波器大小，F(·)表示卷积运算。

为了使得模型使用较小的网络层数就能够获得很大的感受野，TCN采用了膨胀卷积技术。膨胀卷积是通过一个超参数来跳过部分输入使得滤波器可以作用于大于滤波器本身长度的区域。具体地，当与因果卷积结合时，第r层空洞卷积可以表示为：

seq＝(F(x₁),F(x₂),...,F(x_T))。

其中，d_r为第r层的膨胀因子，可以设定为2^r-1，t-d_rj表示过去的方向。上述公式表示一个时间卷积层，通过堆叠多个时间卷积层构造TCN。为了便于训练深度TCN，将时间卷积层组织成块，并在块之间添加残差连接。TCN的残差模块示例见附图4。残差块内包含两层膨胀因果卷积和ReLu激活函数，并且卷积核的权重都经过了权重归一化。此外，TCN在残差模块内的每个空洞卷积后都添加了Dropout以实现正则化。

本发明的TCN层由两个残差模块构成。第一个残差模块由两个卷积核大小均为5，膨胀卷积系数均为1，卷积核个数均为10的因果空洞卷积组成，而第二个残差模块的膨胀因子为2，其余参数和第一个残差块保持一致。TCN层的输出可以通过一下公式计算得到：

L¹＝ResidualBlock(X,5,1)；

L²＝ResidualBlock(L¹,5,2)。

其中，ResidualBlock(·)表示TCN的残差模块函数，L¹表示序列X经过第一个残差模块的输出，而表示序列L¹经过第二个残差模块的输出。

紧随其后，将经过TCN特征提取过后的序列输入到长短期神经网络LSTM，学习网络流量数据的动态变化捕获长期依赖。

LSTM的细胞单元结构由三个门结构构成，分别是遗忘门、输入门和输出门。遗忘门用来控制上一时刻细胞状态的多少信息需要被遗忘，输入门用来控制当前时刻输入的多少信息需要被添加到当前时刻的细胞状态中，而输出门是用来控制当前时刻细胞状态的多少信息作为输出。本发明将序列L²作为LSTM层的输入，利用LSTM提取该序列中的长期依赖，从而得到最后一个时间步的输出h_T，h_T可通过以下公式计算得到：

其中，f，i，o和代表门控机制中所涉及到的三种门向量和候选向量；Tanh表示双曲正切函数；w_f，w_i，w_o，w_c代表相应权重向量；/>表示向量点乘操作；b_f，b_i，b_o，b_c代表对应偏移量；σ表示Sigmoid函数；h和c分别表示隐藏状态和细胞。

得到输出h_T之后，将其作为全连接层的输入，得到该层输出output。

output＝ReLu(Vh_T+bias)。

其中，V是权重矩阵，bias是偏置向量，ReLu(·)表示ReLu激活函数。

最后，将output作为输出层的输入，从而得到下一时刻的流量预测值

其中，u表示输出层权重参数，q表示偏置参数，linear(·)表示线性函数。

至此，模型构建完毕。

步骤S5，将集成了时空卷积网络和长短期记忆网络的流量预测模型进行迭代训练，优化模型参数，得到最终模型；

模型迭代训练中，模型的超参数选择主要包括：SG滤波器的窗口大小和最高次项、时间滞后、优化器、卷积核大小、卷积核数量、LSTM神经元的数量和TCN残差模块的输出激活函数。训练过程中，采用均方根对数误差(Root Mean Squared Logarithmic Error,RMSLE)来评估模型的好坏，从而不断地优化模型参数，最终获取效果最佳的参数模型。

步骤S6，利用步骤5训练完成后的最终模型对下一时刻的流量进行预测，对预测值执行反归一化和对数还原，从而获得未来的流量预测值。

步骤S7，利用步骤S6得到的流量预测值，将流量曲线进行SR变换，得到该曲线的显著性图。

SR算法在视觉显著性检测任务中有着优异的表现。而对于基于时间序列的网络流量预警而言，我们的目标是去发现序列中的异常部分，也就是视觉中最重要的部分。因此，可以将频谱残差的思想应用在时间序列的异常检测上。这里，假设x是一条时间序列，那么对其进行傅里叶变换，可以得到序列数据的幅度谱和相位谱：

P(f)＝ψ(F(x))。

其中，x表示一条流量时序数据，并且其维度为n×1；F(·)表示傅里叶变换函数；A(f)和P(f)分别表示流量曲线时序数据的幅度谱和相位谱。接着，可以根据幅度谱A(f)计算频谱残差：

D(f)＝log(A(f))；

AD(f)＝h_m(f)·D(f)；

R(f)＝D(f)-AD(f)。

其中，D(f)表示对数幅度谱，是A(f)的对数；AD(f)是D(f)均值滤波平滑处理后的结果，是由D(f)和h_m(f)卷积得到，被称之为平均谱。这里的h_m(f)可以看成是一个滤波器，是由一个m×m的矩阵构成。R(f)表示流量曲线时序数据的频谱残差，是通过对数幅度谱与平均谱的差值计算得到。

最后，利用傅里叶逆变换函数F^-1(·)，将其转变回原空间域，从而得到流量曲线时序数据中的显著性图S(x)。

步骤S8，利用步骤S7得到的显著性图，通过人工注入异常的方式制造标签，生成新的合成数据。

具体为：向经过SR变换后的显著性图人工注入异常，该点被标记为异常，其它点则被标记为正常，最终生成新的合成数据。

步骤S9，利用显著性检测模型CNN来对合成数据进行建模，学习一个判别规则，得到预警模型。

该模型的整体结构由两层一维卷积层和两层全连接层构成，最后使用一层Sigmoid层来输出一个概率。两层卷积层采用的卷积核大小均为ω，不同的是第一层卷积层的通道数设置为ω，而第二层卷积层设置为2ω。由于SR-CNN模型输出的是数据点被判定为异常的概率，因此模型的损失函数选择的是交叉熵(Cross Entropy)。此外，为了加快模型的收敛速度以及学习效果，采用了自适应矩估计算法Adam。

Cross Entropy损失函数的定义如下：

显然，本发明的上述具体实施方式仅仅是为清楚地说明本发明所作的举例，而并非是对本发明实施方式的具体限定。对于本发明所属领域的普通技术人员来讲，在本发明上述说明的实施方式基础上还可以做出其它多样的不同形式变化或变动，这里无法对所有的实施方式予以穷举列出，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种面向时间和频谱残差卷积网络的网络流量预测预警方法，其特征在于，该方法包括如下步骤：

步骤S1，获取西班牙维基百科网站一年的流量时序数据；

以维基媒体基金提供的所有维基项目下的所有的访问量数据集为研究对象，将同一个维基项目下的所有的页面访问量以小时为单位进行聚合，然后按照时间先后顺序连接起来形成一条时间序列；

对时序数据作对数处理，并使用SG滤波平滑降噪，具体过程：

首先，需要对流量时序数据取对数，可以在不改变原始序列性质的前提下，降低数据的数量级，使得数据在一定程度上符合正太分布的特征，具体公式如下：

其中，z＝(z₀,z₁,z₂,...,z_T)代表原始时序数据，那么z_i表示在第i时刻所监测到的之前一小时之内的网站访问量数据，其中i＝0,1,2,3,...,T；表示取对数之后的数据；

其次，对取对数之后的时序数据进行卷积操作，卷积操作发生在每一个窗口上，具体是通过最小二乘法拟合窗口中的数据，从而使得索引位置为0的拟合多项式值取代中心数据点；具体使用一定长度的窗口对序列从左至右进行滑动，步长为1，每滑动到一个窗口，就拟合窗口中的数据点，并求出窗口中的中心点/>的最佳拟合h_i，其中，i＝0,1,2,3,...,T，当窗口移动至时序数据的末尾时，SG滤波操作结束，最终可以得到平滑过滤后的序列h＝(h₀,h₁,h₂,...,h_T)；

步骤S3，对数据作归一化处理，并将其转变为有监督数据；

对数据作归一化处理，并将其转换为有监督数据，具体过程如下：

首先，对上一步处理后的序列h进行归一化，具体公式如下：

其中，表示归一化后的目标值，h_min代表数据中的最小值，h_max代表数据中的最大值，最终得到的归一化序列为/>

其次，将流量时序数据转换成一组特征值和相对应的目标值对；设定一个长度为w的滑动窗口，该窗口包含输入序列和输出序列两部分；那么，特征值指的是滑动窗口中的输入序列，作为模型的输入数据，目标值则为输出序列，作为模型的输出；利用滑窗的方式，将窗口从左向右滑动，每次滑动一个时间步长，以获得新的一行特征值和目标值对，由此可以构建得到有监督数据，形如：其中,t＝w-1,w-2,...,T；这里的模型输入序列是/>模型输出是/>总共有T-w+2条数据，紧接着将这些数据按照9:1的比例划分训练集和测试集，这里以l时刻的数据作为划分点，即l时刻之前划分为训练集，l时刻之后划分为测试集：

训练集为：

测试集为：

步骤S4，构建面向时间卷积网络的网络流量预测模型；

构建面向时间卷积神经网络的网络流量预测模型，具体过程：

面向时间卷积网络的网络流量预测模型结合了时间卷积网络和长短时记忆网络，首先，使用上一步得到的有监督数据作为输入，利用时间卷积网络学习序列中的短期局部依赖，提取出序列中的高低频信息；其次，将时间卷积网络处理过后的时间序列输入长短时记忆模型，通过细胞状态间的信息传递获得动态变化，捕捉序列中的长期依赖；再次，接一个全连接层，以增加模型的非线性能力；最后，接一层输出层，用于输出下一时刻的网络流量；

步骤S5，将集成了时间卷积网络和长短期记忆网络的网络流量预测模型进行迭代训练，优化模型参数，得到预测模型，使用预测模型对下一时刻的流量进行预测，对预测值执行反归一化和对数还原，从而获得未来的流量预测值；

在模型迭代训练中，模型的超参数选择包括：SG滤波器的窗口大小和最高次项，时间滞后，优化器，卷积核大小，卷积核数量，LSTM神经元的数量和TCN残差模块的输出激活函数，训练过程中，采用均方根对数误差(Root Mean Squared Logarithmic Error,RMSLE)来评估模型的好坏，不断地优化模型参数，获取效果最佳的参数模型，最后使用预测模型对下一时刻的流量进行预测，对预测值执行反归一化和对数还原，从而获得未来的流量预测值；

步骤S6，对流量曲线进行频谱残差(Spectral Residual,SR)变换得到该曲线的显著性图；

对流量曲线进行SR变换得到该曲线的显著性图，具体过程如下：

首先，对时间序列进行傅里叶变换，得到序列数据的幅度谱和相位谱，其次，根据幅度谱计算频谱残差，最后利用傅里叶逆变换函数，将其转变回原空间域，从而得到流量曲线数据中的显著性图；

步骤S7，通过人工注入异常的方式制造标签，生成新的合成数据；

通过人工注入异常的方式制造标签，生成新的合成数据；具体为：向经过SR变换后的显著性图人工注入异常，注入点被标记为异常，其它点则被标记为正常，最终生成新的合成数据；

步骤S8，利用显著性检测模型CNN来对合成数据进行建模，学习一个判别规则，得到预警模型；

利用显著性检测模型CNN来对合成数据进行建模，学习一个判别规则，得到预警模型；

该模型的整体结构由两层一维卷积层和两层全连接层构成，最后使用一层Sigmoid层来输出一个概率；两层卷积层采用的卷积核大小均为ω，不同的是第一层卷积层的通道数设置为ω，而第二层卷积层设置为2ω；由于SR-CNN模型输出的是数据点被判定为异常的概率，因此模型的损失函数选择的是交叉熵(Cross Entropy)；此外，为了加快模型的收敛速度以及学习效果，采用了自适应矩估计算法Adam。