CN112468326B

CN112468326B - 基于时间卷积神经网络的访问流量预测方法

Info

Publication number: CN112468326B
Application number: CN202011258625.XA
Authority: CN
Inventors: 毕敬; 张翔
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-11-04
Anticipated expiration: 2040-11-11
Also published as: CN112468326A

Abstract

本发明涉及基于时间卷积神经网络的访问流量预测方法，属于面向访问流量预测的方法。首先，将获取到的访问流量历史数据依照时间顺序进行排序，并对该历史流量数据取对数，然后采用SG滤波平滑预处理。然后，再进行流量数据的归一化处理，将流量时序数据按照预设的滑动窗口大小划分为多个子序列作为特征序列，也就是转为有监督的数据后，输入时间卷积神经网络模型TCN中，预测未来一小时的访问流量值，最终获取精准度较高的访问流量预测结果。

Description

基于时间卷积神经网络的访问流量预测方法

技术领域

本发明涉及一种面向访问流量的预测方法，特别是涉及一种基于时间卷积神经网络的访问流量预测方法。

背景技术

近年来，随着计算技术的不断发展，网络逐渐走进了人们的生活中。面对日益复杂的网络行为以及日益丰富的业务及应用，想要提高网络性能，并不仅仅靠提高网络设备的性能来解决。为了能够全面提升网络性能，增强网络利用率，采取措施捕捉未来网络流量的走势是非常有必要的。实现对网络的实时监控，能够在网络拥塞阻塞之前通过流量数据分析从而将其避免，能有效改善网络质量，增强网络的安全性。准确地流量预测可以平滑延迟敏感的流量，进行带宽业务的动态分配，实现对网络的拥塞控制，全面提高用户体验。因此，流量预测作为网络行为研究的重要领域，在充分利用网络资源以及有效提升用户服务体验方面有非常重要的现实意义。

早期采用的流量预测方法是线性预测模型，由于其理论比较完善，大多数都是利用回归的思想，在建模前需要操作者具有较多的建模经验。线性模型大多数是确定的模型结构，很难全面地反应系统全局，虽然在早期很多领域得到了应用，但是随着人们的不断研究，发现实际中的时间序列往往表现出混沌性、非线性和随机性。因此线性预测模型就存在一定的局限性，它限制了预测的精确度，缺乏对访问流量非线性特征的分析，另一方面，访问流时序数据中常常伴有较大的噪声，导致传统模型在一些特殊环境条件下难以对访问流量进行有效地预测。

随着人工智能和机器学习的不断发展，深度学习越来越成为时间序列预测的主流算法，广泛应用于访问流量预测中。早期，人们采用BP(Back Propagation)神经网络来进行访问流量预测。BP神经网络比较容易建立与训练，它对复杂的数据序列具有一定的表达能力，该方案首先进行数据归一化，然后对BP神经网络进行预训练并对BP神经网络进行优化，最后利用训练好的BP神经网络进行预测。此方案中，主要采用BP神经网络对访问流量数据进行预测，但是BP对流量数据的记忆性比较差，限制了流量预测精度的提升。因为目前大多数访问流量时序数据属于长相关时间序列，即序列中可能存在间隔或延迟相对较长，但对下一时刻值影响较大的重要事件，而BP神经网络很难捕捉到这种跨度很长的关键信息，从而导致预测的精度不足。当然不仅仅是BP神经网络，其它传统的神经网络也无法捕捉到数据中的时间相关性。再后来，随着循环神经网络(Recurrent Neural Networks,RNN)的出现，研究者开始普遍使用RNN以及RNN的变体来解决序列问题，特别是时序预测问题。LSTM(Long Short Term Memory)模型是RNN的变体，它在访问流量预测方面表现出了很好的预测效果，它能够获取时间序列中时间间隔相对较大但是比较重要的信息，能够挖掘时间序列中的长相关因素，那么利用LSTM的思想进行预测会有比较好的预测精度。但是LSTM也存在一定的局限性，首先它耗时太长，必须在当前时刻的数据处理完之后才能处理下一时刻的数据，这也就意味着循环神经网络不能像卷积神经网络(Convolutional NeuralNetworks,CNN)那样进行大规模的并行处理，这也是循环神经网络的一个硬伤。其次，循环神经网络在使用时会占用大量的内存，特别是在输入长序列的情况下，因为它必须要将每步的信息保存下来。再者，循环神经网络会存在梯度爆炸或者消失的问题，这主要是由不同时间段上共用参数导致的。所以需要一种合适的方法来解决上述技术问题。

发明内容

针对以上现有技术的不足，本发明提供一种基于SG(Savitzky Golay)滤波与时间卷积神经网络(Temporal Convolutional Networks,TCN)的访问流量预测方法。包括：基于SG滤波的流量时间序列数据预处理方案；基于TCN模型实现的访问流量单步预测。本发明的目的通过以下技术方案来实现。

一种基于时间卷积神经网络的访问流量预测方法，该方法包括如下的步骤：

1)获取维基百科页面过去一段时间的监测的网络访问量所组成的时间序列数据；

2)对访问流量时序数据取对数；

3)在2)的基础上，将处理后的时序数据进行SG滤波平滑降噪处理；

4)在3)的基础上，将处理后的时序数据进行归一化，再按预设的滑动窗口大小划分为多个子序列，将此序列转化为有监督数据，并划分训练集和测试集；

5)在4)的基础上，将特征序列数据输入TCN模型中，输出未来一个小时的预测值。

6)在5)的基础上，对这些预测值进行反归一化和对数还原，从而获得真正的未来的访问流量预测值。

附图说明

图1一种基于时间卷积神经网络的访问流量预测方法组成示意图；

图2 SG滤波流程图；

图3因果卷积和膨胀卷积案例图；

图4普通残差模块示意图；

图5 TCN残差模块图；

图6 TCN整体结构图。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

下面将参照附图1来描述根据本发明实施例的一种基于SG滤波与TCN的访问流量预测方法的具体步骤如下：

第一步，获取一个维基百科页面过去一段时间的监测的网络访问量所组成的时间序列数据。

由于访问流量监测系统实际的监测频次通常为每30分钟监测一次，在数据预处理阶段，对访问流量数据进行聚合，统一调整为时间间隔为1小时的数据。

第二步，对访问流量时间序列数据取对数。

由于时序数据的数值比较大，分布不均匀，而且基于对数函数在其定义域内是单调增函数，取对数后不会改变数据的相对关系，故对时序数据先作对数处理，降低数据的数值范围，使得数据在一定程度上符合正态分布的特征，从而更加有利于时序预测，并且得到的数据易于消除异方差问题。具体的公式如下：

其中，z为原始时序数据，假设为z＝(z₀,z₁,z₂,...,z_T)，那么z_i(i＝0,1,2,3,...,T)表示在第i时刻监测到的之前一小时之内对维基百科页面的访问量，

为取对数之后的数据，其中

表示第i时刻取完对数后的值。

第三步，将第二步取完对数的访问流量时间序列数据用SG滤波预处理。

由于数据中可能存在噪声点，往往会导致非线性模型的过拟合出现，通过使用SG方法对原始数据进行平滑滤波，降低噪声的干扰，可以有效的抑制非线性模型过拟合的出现。附图2为SG滤波的实施方法流程图。SG滤波的原理如下：

SG滤波被广泛地运用于数据流平滑除噪，它的最大特点在于滤除噪声的同时可以确保信号的形状、宽度不变。它的核心思想是对一定长度窗口内的数据点进行R阶多项式拟合，从而得到拟合后的结果。对它进行离散化处理后，SG其实是一种移动窗口的加权平均算法，但是其加权系数不是简单的常数窗口，而是通过在滑动窗口内对给定高阶多项式的最小二乘拟合得出。

对于一条序列v的多项式加权系数计算方法：

·设滤波器的窗口宽度为n＝2m+1,对于序列v中的任意一组窗口大小为n的数据v(i)，i＝-m,...,0,...,m，采用R次多项式对窗口内的数据点进行拟合，于是可以得到p(i)，即

这样的一组p(i)连成的曲线是比较平滑的。这是由于平滑滤波拟合了数据的低频部分，而将高频部分“平滑”出去了。

·使用最小二乘法最小化误差

从而可以确定多项式中系数a₀,a₁,...,a_R，即可求出窗口中的中心点p(0)＝a₀，因此只要求出a₀即可求出窗口中的中心点v(0)的最佳拟合p(0)。平移这个窗口，就可以使得序列v中的每个点成为该窗口的中心点，最终获得序列v平滑滤波后的数据

经测试，采用窗口宽度n＝5，多项式次数R＝3的SG滤波器平滑去噪效果最佳。为了保证序列

平滑前后的序列长度一致，需要在序列的左右两端分别填充两个值作为初始值，序列左边的两个填充值为序列

第一个时刻的值

序列右边的两个填充值为序列

最后一个时刻的值

填充之后的序列为

然后使用该窗口对序列z^*从左至右进行滑动，步长为1，每滑动到一个窗口，就拟合窗口中的数据点，这样就可以求出窗口中的中心点

的最佳拟合h_i(i＝0,1,2,3,...,T)，最终得到平滑过滤之后的序列h＝(h₀,h₁,h₂,...,h_T)。

第四步，归一化处理，并通过滑动窗口划分特征序列数据。

滤波后的数据要做以下滑动窗口处理，以便模型输入。

1)对上一步处理后的数据h进行归一化。具体的公式如下：

其中，

表示归一化后的目标值，h_i表示需要归一化的数据，h_min代表数据中的最小值，h_max代表数据中的最大值。最终得到的序列为

2)滑动窗口宽度设定为输入时序长度和预测时序长度之和，使用步长为1的滑动窗口截取输入值和预测值。假设窗口宽度为w，则输入时序的长度为w-1，预测时序的长度为1。那么可以得到T-w+2个宽度为w的窗口。

3)将滑动窗口截取的数据分离为输入值和预测值，将其转化为有监督数据，形如：

模型输入序列是

输出是

总共有T-w+2条这样的数据。然后将这些数据划分为训练集和测试集，划分比例为9:1，这里以l时刻的数据作为划分点:

i)训练集形式如下：

ii)测试集形式如下：

第五步，TCN模型预测

本发明使用一种特殊的时间卷积网络模型TCN来分析访问流量，数据经过上一步处理后，输入序列为

TCN可以处理任意长度输入的时序数据，从中提取特征后，再进行未来访问流量的预测。

TCN之所以能够适用于时序预测，就是因为它采用了因果卷积，使得当前时刻t的值仅依赖于上一层t时刻及t时刻之前的值，而不依赖于未来t+1,t+2,…的值，即不存在信息的泄露。因果卷积的定义为：假设滤波器(即卷积核)F＝(f₁,f₂,...,f_k)，序列X＝(x₁,x₂,...,x_k)，其中k表示滤波器的大小，f_i(i＝1,2,...,k)表示施加在序列X中的某一个时刻的数值的权重，x_i表示序列X中第i时刻的数值，则在x_t处的因果卷积为：

附图3左边为一个因果卷积的实例，假设输入层最后两个节点分别为x_t-1,x_t，第一层隐藏层的最后一个节点y_t，滤波器F＝(f₁,f₂)，根据公式有y_t＝f₁x_t-1+f₂x_t。

从附图3的左边这张图中可以看出感受野的大小其实是受限于卷积核以及网络深度的，卷积核越大，感受野就越大。当图中卷积核的大小变为3，即F＝(f₁,f₂,f₃)时，对于输出层h_t感受野就是7，相比卷积核大小为2的感受野4要大。如果想要继续捕捉更长的时间依赖关系，就需要堆叠更多的层。这里TCN采用了膨胀卷积，使得模型可以使用较小的网络层数就能获得很大的感受野，捕获更加久远的信息，这也就解决了序列的长时间依赖问题。

膨胀卷积(Dilatation Rate)是通过一个超参数d来跳过部分输入来使滤波器可以作用于大于滤波器本身长度的区域。等同于通过增加零来从原始滤波器中生成更大的滤波器。它的定义为滤波器F＝(f₁,f₂,...,f_k)，序列X＝(x₁,x₂,...,x_k)。在x_t的DilatationRate等于d的膨胀卷积为：

实践中，通常会让超参数d随着网络层数呈指数型增长。附图3右边这张图为膨胀卷积的一个实例，假设第一层隐藏层最后五个节点分别为x_t-4,x_t-3,x_t-2,x_t-1,x_t，第二层隐藏层的最后一个节点为y_t，滤波器F＝(f₁,f₂,f₃)，根据公式有y_t＝f₁x_t-2d+f₂x_t-d+f₃x_t＝f₁x_t-4+f₂x_t-2+f₃x_t。

卷积神经网络(Convolutional Neural Networks,CNN)能够提取低、中、高特征，网络层数越多，意味着能提取到的不同级别的特征就越丰富，并且越深的网络提取到的特征越抽象，越具有语义信息。但是如果一味地增加深度，必然会导致梯度消失或梯度爆炸。TCN采用权重参数初始化和正则化层避免了上述问题，这样可以训练几十层的网络。但是解决了梯度问题，还会出现另一个问题：网络退化问题。附图4为原始残差网络ResNet的普通残差模块示意图，总共两层，每一层都是全连接层。它由两部分组成，也就是恒等映射(即x，称为Shortcut连接)和残差函数(即F(x))，如果网络到达最优，继续加深网络，F(x)会被逼近为0，只剩下x，理论上网络就一直处于最优状态了，并且网络的性能也不会随着深度增加而降低了。而且Shortcut连接相当于简单执行了恒等映射，不会产生额外的参数，也不会增加计算复杂度，整个网络依旧可以通过端到端的反向传播训练。残差模块往往需要两层以上，单单一层的残差模块并不能起到提升作用。原始的ResNet残差模块中的Shortcut连接指的是恒等映射，但其实Shortcut有两种连接方式：

·同等维度映射(F(x)与x维度相同，w₁、w₂为权重矩阵，b₁、b₂为偏差，σ代表Sigmod函数)：

F(x)＝w₂σ(w₁x+b₁)+b₂,H(x)＝F(x)+x

·不同维度映射(F(x)与x维度不相同，w_s为权重矩阵，b₁、b₂为偏差)：

F(x)＝w₂σ(w₁x+b₁)+b₂,H(x)＝F(x)+w_sx

这里TCN采用了残差模块的思想，使得网络不会出现退化问题。附图5为TCN的残差模块图，它的输入经历了膨胀卷积、权重归一化、激活函数和Dropout(两轮)，作为残差函数F(x)；如果F(x)与x的维度相同，则不需要对x进行1x1卷积，否则需要对x进行1x1卷积，使得F(x)与x的通道数相同，从而让F(x)与x的维度相同，最后在执行对应维度相加操作，得到最终的H(x)。由此将许多个残差模块进行叠加，每一个残差模块作为一层，最终构成了时序预测模型TCN。

这里设置TCN的滤波器的大小默认为7，网络层数为默认为6，学习率默认为0.004，每一层的滤波器个数默认为30，批量训练的尺寸为32，优化器采用自适应矩估计算法(Adaptive moment estimation,Adam)，并且让超参数d随着网络层数呈指数型增长，对每一层的滤波器使用高斯初始化，即从均值为0，方差为1的高斯分布中采样，作为滤波器的初始权值，实验中也采用了梯度裁剪策略，可以使得梯度维持在一个合理的范围之内，当然默认不使用梯度裁剪策略。

在模型参数设置好后，将之前处理好的数据

输入到TCN模型中，TCN模型能够捕捉到长时间的依赖，并且能够提取到有效地特征，从而在不断地迭代之后，就得到了时序预测模型，然后根据该预测模型预测得到未来一个小时的访问流量q_t(t＝w-1,w-2,...,l)。

第六步，对预测值反归一化和对数还原，从而获得真正的未来访问流量值。

对模型生成的预测值q_t(t＝w-1,w-2,...,l)进行反归一化和对数还原，得到p_t(t＝w-1,w-2,...,l)并计算它与未做滤波处理的真实值g_t(t＝w-1,w-2,...,l)的均方根对数误差(Root Mean Squared Logarithmic Error,RMSLE)，以此来评估网络模型的好坏，从而不断调整访问流量预测模型中的各个参数以及测试经调整的所述访问流量预测模型，最终获取效果最佳的参数模型。RMSLE的计算公式如下：

其中，p_t为反归一化和对数还原之后的预测值，g_t为真实值。最终使用训练好的预测模型对测试集

进行测试，以评估模型的泛化能力。

本发明的技术贡献

访问流量预测，旨在能够较为准确地预测出未来网络中的流量变化，为网络规划和维护提供可靠数据。访问流量预测广泛应用于网络的各个领域，其访问流量数据序列本质上是一种非线性时间序列，但由于受着多种不确定因素的影响，具有高度不稳定的特征，这种特征使得访问流量数据难以表达，进而对未来网络的规划和维护变得困难。目前，大多已有的访问流量模型多采用RNN及其变体的方法来进行访问流量的预测，这些方法虽然能够取得相对比较好的预测结果，但是他们却不能像卷积神经网络那样并行地处理数据，耗时长，会占用大量的内存，甚至可能会出现梯度消失或者爆炸的情况。本专利针对上述问题，提出了一种基于时间卷积神经网络的访问流量预测方法。该方法能够在保证预测精度的情况下，克服上述问题。与已有的工作相比，本发明的主要贡献在于以下几个方面：

(1)本发明利用的是图像领域的卷积神经网络，它不像循环神经网络那样，只能在当前时刻的数据处理完之后才能处理下一时刻的数据，而是每一层的权重共享，实现并行计算，极大地缩短了生成预测模型的时间。

(2)本发明采用的时间卷积网络，它采用了因果卷积、膨胀卷积和残差模块，使得时间卷积网络在时序预测方面具有非常灵活的感受野，并且和传统的卷积神经网络一样，不太存在梯度消失和爆炸问题。

(3)本发明利用时间卷积网络进行时序预测，在每一层里面卷积核是共享的，内存使用更低。而循环神经网络需要将每步的信息都保存下来，尤其是在长输入序列的情况下，很容易消耗大量的存储器来存储其多个单元门的部分结果。

本发明对上面提出的一种基于时间卷积神经网络的访问流量预测方法。应当理解，以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，然而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实例技术方案的精神和范围。

Claims

1.一种面向时间卷积神经网络的访问流量预测方法，其特征在于，包括如下步骤：

第一步，获取一个页面过去一段时间的监测的网络访问量所组成的时间序列数据；由于访问流量监测系统实际的监测频次为每30分钟监测一次，在数据预处理阶段，对访问流量数据进行聚合，统一调整为时间间隔为1小时的数据；

第二步，对访问流量时间序列数据取对数；

具体的公式如下：

其中，z为原始时序数据，假设为z＝(z₀,z₁,z₂,...,z_T)，那么z_i(i＝0,1,2,3,...,T)表示在第i时刻监测到的之前一小时之内对页面的访问量，

为取对数之后的数据，其中

表示第i时刻取完对数后的值；

第三步，将第二步取完对数的访问流量时间序列数据用SG滤波预处理；

对于一条序列v的多项式加权系数计算方法：

·设滤波器的窗口宽度为n＝2m+1,对于序列v中的任意一组窗口大小为n的数据v(i)，i＝-m,...,0,...,m，采用R次多项式对窗口内的数据点进行拟合，于是得到p(i)，即

·使用最小二乘法最小化误差

从而确定多项式中系数a₀,a₁,...,a_R，即可求出窗口中的中心点p(0)＝a₀，因此只要求出a₀即可求出窗口中的中心点v(0)的最佳拟合p(0)；平移这个窗口，就使得序列v中的每个点成为该窗口的中心点，最终获得序列v平滑滤波后的数据

经测试，采用窗口宽度n＝5，多项式次数R＝3的SG滤波器平滑去噪；

为了保证序列

第一个时刻的值

序列右边的两个填充值为序列

最后一个时刻的值

填充之后的序列为

然后使用该窗口对序列z^*从左至右进行滑动，步长为1，每滑动到一个窗口，就拟合窗口中的数据点，这样就求出窗口中的中心点

的最佳拟合h_i(i＝0,1,2,3,...,T)，最终得到平滑过滤之后的序列h＝(h₀,h₁,h₂,...,h_T)；

第四步，归一化处理，并通过滑动窗口划分特征序列数据；

滤波后的数据要做以下滑动窗口处理，以便模型输入；

1)对上一步处理后的数据h进行归一化；具体的公式如下：

其中，

表示归一化后的目标值，h_i表示需要归一化的数据，h_min代表数据中的最小值，h_max代表数据中的最大值；最终得到的序列为

2)滑动窗口宽度设定为输入时序长度和预测时序长度之和，使用步长为1的滑动窗口截取输入值和预测值；假设窗口宽度为w，则输入时序的长度为w-1，预测时序的长度为1；那么得到T-w+2个宽度为w的窗口；

模型输入序列是

输出是

总共有T-w+2条这样的数据；然后将这些数据划分为训练集和测试集，划分比例为9:1，这里以l时刻的数据作为划分点:

i)训练集形式如下：

ii)测试集形式如下：

第五步，TCN模型预测

TCN的输入经历了膨胀卷积、权重归一化、激活函数和Dropout，作为残差函数F(x)；如果F(x)与x的维度相同，则不需要对x进行1x1卷积，否则需要对x进行1x1卷积，使得F(x)与x的通道数相同，从而让F(x)与x的维度相同，最后在执行对应维度相加操作，得到最终的H(x)；由此将许多个残差模块进行叠加，每一个残差模块作为一层，最终构成了时序预测模型TCN；

设置TCN的滤波器的大小默认为7，网络层数为默认为6，学习率默认为0.004，每一层的滤波器个数默认为30，批量训练的尺寸为32，优化器采用自适应矩估计算法，并且让超参数d随着网络层数呈指数型增长，对每一层的滤波器使用高斯初始化，即从均值为0，方差为1的高斯分布中采样；

在模型参数设置好后，将之前处理好的数据

输入到TCN模型中，得到了时序预测模型，然后根据该预测模型预测得到未来一个小时的访问流量q_t(t＝w-1,w-2,...,l)。