CN112350899B

CN112350899B - 一种基于图卷积网络融合多特征输入的网络流量预测方法

Info

Publication number: CN112350899B
Application number: CN202110018129.5A
Authority: CN
Inventors: 潘成胜; 朱江; 石怀峰; 杨雯升; 孔志翔
Original assignee: Nanjing University of Science and Technology; Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Science and Technology; Nanjing University of Information Science and Technology
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-06
Anticipated expiration: 2041-01-07
Also published as: CN112350899A

Abstract

本发明公开了一种基于图卷积网络融合多特征输入的网络流量预测方法，步骤为：获取网络流量数据；利用皮尔森相关系数对流量进行相关性分析；采用时空特征提取单元来提取流量间的时空特征；提取历史上每周同一时刻的网络流量数据；特征融合得到预测结果。本发明解决了传统网络流量预测模型存在无法有效提取流量间的时空特性缺陷而导致的预测误差高、精度低的问题。

Description

一种基于图卷积网络融合多特征输入的网络流量预测方法

技术领域

本发明属于信息工程领域，特别涉及了一种网络流量预测方法。

背景技术

随着网络的快速发展，网络流量任务的需求量日益增大，及时准确的流量预测对于网络管理和规划愈发重要，它能够帮助管理者提前制定资源分配策略，从而有效解决即将到来的过载事件。但是，由于流量间复杂的时空关系，导致传统的预测模型难以准确地预测网络流量。

现有的时间序列预测模型分为线性预测模型以及非线性预测模型，网络流量为典型的时间序列，最初有很多线性模型被用来解决它的预测问题。例如历史平均(HA)模型，它使用历史的平均值作为预测。还有自回归滑动平均(ARMA)和以它为基础组合改进的模型，例如M.Laner等利用ARMA模型对远程相关的网络流量简单拟合预测；Rishabh等利用离散小波变化(DWT)将流量数据分解为非线性(近似)和线性(分量)，之后再利用自回归差分移动平均(ARIMA)对非线性分量进行预测。但是，随着网络的发展，网络流量的复杂性及突发性愈发加强，传统的泊松分布、高斯分布等线性模型已不能满足现代网络流量的特点。

随着人工智能的发展，很多机器学习模型被用来预测网络流量，这类非线性预测模型对于非平稳的序列具有很好的预测效果。例如，Qian等提出利用支持向量回归(SVR)模型预测经相空间重构处理后的去噪流量数据。Bie等通过极限学习机(ELM)和结合分解果蝇优化算法的ELM(FOA-ELM)预测流量分解后的低频分量和高频分量。K.Sebastian等利用门控循环单元(GRU)模型来预测基站流量，GRU是循环神经网络(RNN)的一种变体，有一定解决RNN长期依赖的能力。这些模型能很好地提取流量数据的时间特征，但忽略了序列间的空间相关性。

为了更好地提取流量数据的空间特征，Li等提出卷积神经网络(CNN)融合长短期记忆网络(LSTM)的模型进行预测，CNN通过卷积层和池化层能有效地捕捉空间相关性。但是，CNN通常应用于图像这类规则的欧式数据，不能从本质上很好地描述网络复杂拓扑节点间的空间相关性。Q.Zhang等人将图论与神经网络结合起来，定义了图在傅里叶域的滤波器，随后图卷积网络(GCN)被广泛应用在知识图谱以及交通流量的预测上。但传统GCN只能描述网络节点间的连通性，不能捕捉网络节点间的近相关性，进而不能有效提取网络流量的时空相关性。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种基于图卷积网络融合多特征输入的网络流量预测方法。

为了实现上述技术目的，本发明的技术方案为：

一种基于图卷积网络融合多特征输入的网络流量预测方法，其特征在于，包括以下步骤：

(1)获取网络流量数据；

(2)利用皮尔森相关系数对流量进行相关性分析；

(3)采用时空特征提取单元来提取流量间的时空特征；所述时空特征提取单元通过双通道GCN模型提取空间特征，通过GRU模型提取时间特征，时空特征提取单元的输出为

所述双通道GCN模型包括邻接特征提取模块AGCN和相关特征提取模块PGCN；所述邻接特征提取模块AGCN包括两层GCN模型，其输入为网络流量特征矩阵X及其邻接矩阵；所述相关特征提取模块PGCN包括两层GCN模型，其输入为网络流量特征矩阵X及其相关系数矩阵；

(4)提取历史上每周同一时刻的网络流量数据

将

构建成与步骤(3)中

相同尺寸的矩阵；

(5)特征融合得到预测结果：

其中，P₁、P₂为权值，⊙表示哈达玛乘子，

为预测结果。

进一步地，在步骤(3)中，设f(X,A,P)为双通道GCN模型的输出，f(X,A)为邻接特征提取模块AGCN的输出，f(X,P)为相关特征提取模块PGCN的输出，则：

f(X,A,P)＝[f(X,A)|f(X,P)]

其中，“|”表示矩阵的拼接，A为邻接矩阵，P为相关系数矩阵。

进一步地，邻接特征提取模块AGCN的输出f(X,A)的表达式如下：

其中，

I_I为单位矩阵，

为

的第i行第j列的元素，

为对角矩阵

的第i行第i列的元素，W^(l-1)为输入层到隐藏层的权重，W^(l)为隐藏层到输出层的权重,ReLU表示修正线性单元。

进一步地，在步骤(3)中，时空特征提取单元的计算过程如下：

Γ_u＝σ(W_u[f(X^T,A,P),h^T-1]+b_u)

Γ_r＝σ(W_r[f(X^T,A,P),h^T-1]+b_r)

其中，f(X^T,A,P)为T时刻网络流量特征X^T对应的双通道GCN模型的输出，Γ_u为GRU模型中的更新门，Γ_r为GRU模型中的重置门，σ为激活函数，h^T为T时刻隐藏状态，h^T-1为T-1时刻隐藏状态，

为T时刻候选隐藏状态，W_u、W_r、W_c为权重，b_u、b_r、b_c为偏置项。

进一步地，在步骤(5)中，采用PSO算法选出P₁、P₂的最优值。

采用上述技术方案带来的有益效果：

本发明融合了流量的时空特征和周历史信息特征，其中，时空特征由基于邻接特征提取模块AGCN和相关特征提取模块PGCN构成的双通道GCN和GRU提取，解决了传统网络流量预测模型存在无法有效提取流量间的时空特性的缺陷而导致的预测误差高、精度低的问题。分析结果表明，与传统ARIMA模型相比，以10分钟的预测长度为例，本发明的RMSE和Accuracy分别降低了1.694和提高了21.1％，预测效果明显提高，且本发明具有长期预测的能力。

附图说明

图1是网络流量的空间依赖图；

图2是网络流量的周趋势图；

图3是网络流量的日趋势图；

图4是本发明利用皮尔森相关系数对数据进行相关性分析的热度图；

图5是本发明提出的双通道GCN结构图；

图6是GRU模型的结构图；

图7是本发明的整体方法流程图；

图8是本发明利用PSO算法选择权值的结果图；

图9是本发明多步预测后的Accuracy和R²结果图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明提出了一种基于图卷积网络融合多特征输入的网络流量预测方法，能够捕捉网络流量间的时空相关性。

首先要获取原始流量数据，为了验证有效性，本发明选取一个开放的数据集作为实验数据。这个数据集包含米兰市流量网络数据，其下载地址为https://dataverse.harvard.edu/dataset.xhtmlpersistentId＝doi:10.7910/DVN/EGZHFV。数据集的采样频率为10min/次，即一天包含144个采样点。选用9个区域的两组数组进行模型评估：(1)工作日：2013年11月1日-2014年11月29日；(2)节假日：2013年11月3日-2013年12月1日。

图1、图2、图3描述了网络流量的时空相关性。图1中每个节点间的线代表他们之间相互影响的权重，其中，颜色越深代表权重越大。可以看出节点A不同位置的相邻节点对它的影响是不同的，同一个节点在一天内不同时刻对A点的影响也是变化的。A节点一周以及一天内的流量变化分别如图2、3所示，可以看出网络流量在一周内呈现周期性变化；一天内的流量也会随着时间的变化表现出白天高、晚上低的趋势。总之，当前的网络流量会受到前一刻、甚至是历史一周相同时刻的流量的影响，并且在时间和空间维度上都是相互依赖的。因此，有效提取数据的时空特性对于准确地预测网络流量至关重要。

图4是利用皮尔森相关系数对数据进行相关性分析的热度图。图是一种数据格式，通过点、边来描述个体以及个体间的关系。图卷积网络(GCN)是图结构数据在深度学习中的应用，与传统的卷积神经网络(CNN)不同的是，GCN对图信号的卷积操作是在傅里叶域进行。处理图结构首先需要获取拉普拉斯矩阵L＝D-A，将矩阵L归一化可得：

其中，I_I为单位矩阵；D为节点构成的度矩阵，度矩阵为对角矩阵，D_ii＝∑_jA_ij,A_ij为邻接矩阵A中的元素；等式后半部分由拉普拉斯矩阵L分解得到，U＝(u₁,...,u_i)、Λ＝diag([λ₁,...,λ_i])分别为分解后的特征向量及特征值构成的对角矩阵。

频谱卷积可定义为信号和滤波器在傅里叶域的乘积，本发明利用一阶的切比雪夫多项式近似计算(k＝1)，结果如下式所示：

其中，g_θ表示卷积核，θ为模型参数。为避免数值过大导致梯度消失，令

则第l层的输出可表示为：

σ是类似于ReLU、sigmoid的激活函数，W^(l-1)是l-1层的权重参数。因此，给定网络流量特征矩阵X和邻接矩阵A，GCN可以通过输入节点的频谱卷积来提取节点间的空间特征。结合上式，令

输入经两层GCN模型的映射后为：

其中，

分别表示输入层到隐藏层、隐藏层到输出层的权重。这里H为隐藏层单元数，属于超参数。

传统GCN都是根据节点间的连通性来设置邻接矩阵，本发明设置的邻接矩阵元素定义如下：

这种确定流量网络邻接矩阵的方法具有一定的合理性，认为联通节点间的相关程度比不连通的节点高。但是每个目标节点都有多个联通节点，不是每个联通节点对目标节点的影响都相同。为解决这一问题，本发明利用皮尔森相关系数P_X,Y对不同节点间的影响进行分析，P_X,Y的定义如下：

其中，cov(X,Y)为连续变量(X,Y)之间的协方差，σ_X、σ_Y分别为X、Y的标准差。

从图4可以看出，不同网络节点之间具有空间相关性。其次，相邻节点(B,C,D,E)与目标节点A的空间相关性不同，存在相关系数小于0.9的节点，而到A点需要多跳的节点相关系数有大于0.9的。因此，传统设置邻接矩阵的方式不能很好的描述流量网络的空间关系。本发明提出一种新的双通道GCN模型来提取空间特征，其模型结构如图5所示。双通道GCN模型在基础的GCN模型上构建，由邻接特征提取模块AGCN和相关特征提取模块PGCN构成，Concat后的结果为：

f(X,A,P)＝[f(X,A)|f(X,P)]

其中，“|”代表矩阵的拼接，相关特征提取模块的邻接矩阵由皮尔森相关系数矩阵代替，与邻接特征提取模块提取的特征融合，更加全面的提取了网络节点的空间特征。

图6是GRU模型的结构图。其中，h^T-1表示T-1时刻的隐藏状态，X^T表示T时刻的流量特征。T时刻的隐藏状态h^T通过更新门Γ_u来确定是维持上一时刻的隐藏状态h^T-1，还是更新为T时刻的候选隐藏状态

Γ_u通过σ函数来使自身等于近似于0或1的值。Γ_r为重置门，用于控制忽略上一状态信息h^T-1的程度。GRU的结构可以捕捉非常长范围的依赖，能很好的提取长相关性序列的时间特征，非常适用于网络流量这种典型时间序列的预测。

对获取的原始流量数据建立基于图卷积网络融合多特征输入的模型进行预测。其过程具体实现如下：

(1)每组数据为9×288个，其中前80％作为训练集，初次训练选取训练集中10％的数据作为验证集，保存好最佳模型后继续用完整的训练集进行训练，后20％数据作测试集。预测前利用MinMaxScaler函数对样本数据进行归一化操作，使数据规范在[0,1]区间，输出结果前再进行反归一化操作。

(2)为同时提取流量数据的时空相关性，本发明提出一种基于图卷积网络融合多特征输入(MF-GCN)的网络流量预测方法，模型结构如图7所示。将(1)中处理好的数据输入MF-GCN模型，其过程具体实现如下：

(21)首先数据输入时空特征提取单元，下式为具体计算过程，其中，f(X^T,A,P)为输入经GCN提取空间特性后的输出，W、b分别为权重和偏置项，经时空特征提取单元提取后的输出为

Γ_u＝σ(W_u[f(X^T,A,P),h^T-1]+b_u)

Γ_r＝σ(W_r[f(X^T,A,P),h^T-1]+b_r)

(22)由于当前网络流量会受到历史时刻的影响，因此本发明提取历史上每周同一时刻的网络流量信息

将

直接构建成与(21)中输出

同尺寸的矩阵。

(23)特征融合：

使用

加权后的和

作为最终的预测结果，其中，利用PSO算法选出最优权值P₁和P₂。

(3)为了充分验证模型的预测能力，本发明进行了单步预测与多步预测来预测未来10分钟、20分钟和30分钟网络流量。此外，本发明选取了三种评价指标作为评判模型效果好坏的指标，具体如下：

(31)均方根误差(RMSE)，RMSE反映了模型预测误差。RMSE的取值范围为[0,+∞)，越接近于0说明模型越好。具体公式如下：

(32)准确率(Accuracy)，准确率反映了模型预测的精度。准确率的范围为[0,1]，与RMSE相反，准确率的值越接近于1说明模型越好，反之越差：

(33)确定性相关系数(R² score)，R²的取值反应模型的优异程度。范围与准确率相同，具体公式如下：

其中，Y^t表示第t时刻网络流量的实际值，

表示第t时刻网络流量的预测值，

表示数据样本的均值。

本试验优化器选用Adam，学习率设置为0.001，模型训练的迭代次数epoch为2000，批量设置为16，隐藏层数量为64。PSO中惯性因子为0.8，学习因子c₁,c₂都设置为2。

图8显示了PSO在工作日和节假日两个数据集上训练的权值变化，本发明将确定性相关系数(R² score)设置为PSO算法的目标函数，通过50次迭代选出R²最大时的权值P₁、P₂，它们分别代表时空特征提取单元提取后的特征与周历史数据对最终预测结果的贡献程度。从图8可以看出，最终P₁、P₂在两个数据集上的值分别为(0.922，0.175)和(0.856，0.179)。

本发明设计的MF-GCN与传统时序预测模型和机器学习模型对比：

表1不同模型评价指标结果

(1)HA：历史平均模型，使用历史的平均值作为预测，在本发明中使用最后4个时间的平均值来预测下一时刻的值。

(2)ARIMA：自回归整合移动平均模型，广泛应用于时间序列的预测模型之一。

(3)SVR：支持向量回归模型，通过对历史数据的训练得到预测结果，具有训练参数少、效果好的优点。本发明采用线性核函数，惩罚系数设置为0.001。

(4)GRU：门控循环单元，循环神经网络的一种变体，能很好的解决输入长序列后梯度消失的问题。

表1显示了不同模型在不同数据集(工作日、节假日)上对未来10分钟、20分钟和30分钟的预测结果评价。其中，各模型分别训练5次后取平均值作为最终结果，由于ARIMA的R²值太小，*代表结果数据可忽略。分析表1可看出：

(1)MF-GCN模型的预测误差、预测精度以及相关系数都是最优的。以工作日10分钟的预测步长为例，MF-GCN的Accuracy和R²值分别比HA模型高了3.3％和2.7％，RMSE降低了0.533。与ARIMA模型相比，MF-GCN的RMSE和Accuracy分别降低了1.694和提高了21.1％；而与SVR相比，MF-GCN的Accuracy和R²提高了3％和2.4％，由于SVR使用的是线性核函数，因此预测效果较差。可以看出，基于神经网络的模型，不管是MF-GCN还是GRU都比其他对比模型的效果要好，分析是由于HA和ARIMA对与这种长序列不平稳数据的拟合能力差，而神经网络模型对非线性数据的拟合能力较好所导致。

(2)MF-GCN模型具有长期预测能力。随着预测时间的增加，MF-GCN模型的预测效果有所降低，但对比其他模型的预测误差、预测精度等评价指标，MF-GCN模型的预测效果仍然是最好的。图9显示了MF-GCN模型在工作日数据集上随着预测时间的增加，Accuracy和R²的变化，可以看出Accuracy和R²随着预测时间的变化下降。但是下降趋势非常平缓，因此，认为MF-GCN模型受预测时间的影响小，具有稳定的长期预测能力。

(3)对比工作日和节假日两个数据集的预测结果，可以看出MF-GCN模型对于节假日网络流量的预测效果比工作日差。这是由于节假日的网络流量峰值要比工作日的峰值高，流量更具有突变性，因此不容易预测。此外，由于节假日的网络流量不像较为规律的工作日流量，节假日的网络流量随机性更大，因此MF-GCN模型对于工作日的流量预测比节假日的预测更准确。

本发明提出了一种基于图卷积网络融合多特征输入(MF-GCN)的网络流量预测方法，该方法融合了流量的时空特征和周历史信息特征，其中，时空特征由基于邻接特征提取模块AGCN和相关特征提取模块PGCN构成的双通道GCN和GRU提取。在两组真实的数据集上进行训练，结果表明，该模型的预测误差、预测精度和相关系数都优于现有的模型，且具有长期预测的能力。与传统ARIMA模型相比，在工作日数据集上以10分钟的预测长度为例，MF-GCN模型的RMSE和Accuracy分别降低了1.694和提高了21.1％，预测效果明显提高。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。