CN114978931A

CN114978931A - 基于流形学习的网络流量预测方法、装置及存储介质

Info

Publication number: CN114978931A
Application number: CN202210902318.3A
Authority: CN
Inventors: 胡江溢; 严小文; 陶晓峰; 陈良亮; 吕朋朋; 吴少雄; 陆春艳; 杨学良; 熊霞
Original assignee: NARI Group Corp; Nari Technology Co Ltd
Current assignee: NARI Group Corp; Nari Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-08-30
Anticipated expiration: 2042-07-29
Also published as: CN114978931B

Abstract

本发明公开了基于流形学习的网络流量预测方法、装置及存储介质，包括获取网络流量数据；对网络流量数据进行预处理，预处理包括降维以及采用流行学习方法去除共轭点并保持各样本点之间的距离不变；将预处理后的数据输入到训练优化后的网络流量预测模型得到预测的网络流量数据，网络流量预测模型包括依次连接的双向LSTM神经网络、CNN神经网络和全连接网络。本发明能够提供更为精确的用电信息采集网络流量预测。本发明能够提供更为精确的用电信息采集网络流量预测。

Description

基于流形学习的网络流量预测方法、装置及存储介质

技术领域

本发明属于智能电网网络流量预测领域，具体涉及一种基于流形学习的网络流量预测方法、装置及存储介质。

背景技术

为了保证电力通信安全可靠，设计稳健的电力通信网对于电网非常重要。随着国家智能电网的不断发展，智能电网的业务不断增加，导致各种类型的数据增长非常快，使得服务器工作有时较堵，服务器工作效率不高，导致成本增加。为了提升资源的有效配置，提升服务器等效率，对电网进行优化、对网络流量进行预测就显得非常重要。

现阶段，由于电网情况复杂，非线性的网络流量预测方法所预测的性能较好，其中深度网络模型凭借强大的非线性预测能力成为有效的网络流量预测工具。现阶段非线性的预测方法，如LSTM模型的方法等存在维度较高的问题，会导致训练存在问题，导致预测精度有待提高，因此，提高用电信息采集网络流量预测精度是亟需解决的问题。

发明内容

针对上述问题，本发明提出一种基于流形学习的网络流量预测方法、装置及存储介质，能够提供更为精确的用电信息采集网络流量预测。

为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

第一方面，本发明提供了一种基于流形学习的网络流量预测方法，包括：

获取网络流量数据；

对所述网络流量数据进行预处理，所述预处理包括降维以及采用流行学习方法去除共轭点并保持各样本点之间的距离不变；

将预处理后的数据输入到训练优化后的网络流量预测模型得到预测的网络流量数据，所述网络流量预测模型包括依次连接的双向LSTM神经网络、CNN神经网络和全连接网络。

进一步地，对所述网络流量数据进行预处理，包括：

将一天中采集的设定个流量数据点记为一个流量数据向量，第i天的流量数据向量作为第i个样本点，记为

；

计算任意两个样本点第i个样本点

和第j个样本点

之间的欧式距离

，将每个样本点与距其最近的k个近邻点的距离保持不变，每个样本点与除去距其最近的k个近邻点的其他样本点距离变为0，此时得到邻接矩阵D，将第i个样本点

和第j个样本点

之间的欧式距离

作为邻接矩阵D的第i行第j列元素；根据邻接矩阵D获得邻近图G；

以前一天的流量数据向量为根节点，利用Dijkstra算法计算各个样本点到其前一天的流量数据向量的最短路径，得到最短路径树，找出最短路径树上的叶子节点；

将最短路径树上任意两个叶子节点之间的欧式距离设为0，以消除共轭点的影响，更新邻接矩阵得到新邻接矩阵

，并得到新邻近图

；

根据任意样本点

和样本点

之间的欧式距离计算任意两样本点间的路径

，将任意两样本点间的路径

作为内积矩阵B的第i行第j列元素；

对内积矩阵 B进行特征值分解

，得到特征值矩阵

和特征向量矩阵

；

取特征值矩阵

最大的前

列

，和特征向量矩阵

的前

列

，并得到降维后的

维向量

。

再进一步地，任意两样本点间的路径

由如下式子计算：

，

其中N为样本数量。

进一步地，所述CNN神经网络包括依次连接的两个卷积层、一个批归一化层和一个激活层，CNN神经网络的表达式为：

，

其中，

为双向LSTM神经网络中前向网络的输出，

为双向LSTM神经网络中后向网络的输出，

为t时刻CNN神经网络的输出；

为t时刻预处理后的数据输出；

接着CNN神经网络的输出和特征因素连接到一个全连接网络上，全连接网络的输出为最终的预测值，t时刻流量预测表达式为：

，

其中，W和b是全连接网络中的参数，其中

为天气类型、

为时间、

为网络通信终端数量。

进一步地，训练优化网络流量预测模型的方法包括：

设计优化目标函数为：

，

其中

指Frobenius范数，

指向量2范数，λ ₁、λ ₂、λ ₃、λ ₄为四个正则量，

为最小均方误差值函数，

为CNN神经网络的参数，

为双向LSTM神经网络的参数，N为样本数量，

是网络流量预测模型中待优化的参数，其中W和b是全连接网络中的参数。

结合adam优化算法进行参数优化，获得网络流量预测模型中待优化的各个参数。

进一步地，最小均方误差值函数

，表达式为：

，

指输出网络流量值，

指通过网络流量预测模型预测获得的网络流量值。

进一步地，所述双向LSTM包括 4 个门，第一个称为遗忘门，遗忘门的输出

和输入

、

以及遗忘门参数

、

之间的关系为：

，

为sigmoid函数；第二层和第三层分别称为输入层和tanh层，tanh层引入一个新的候选值，第二层

和第二层输入

、

、第二层参数

、

间的关系，以及第三层输出

与第三层输入

、

和第三层网络参数

、

之间的关系分别用下式描述：

，

，

为tanh函数，有了

、

、

和上一个LSTM元胞的输出

后，LSTM元胞的两个输出

和

由下式得到：

，

，

；

其中

、

为第四层的参数，

中间变量。

第二方面，本发明提供了一种基于流形学习的网络流量预测装置，包括：

网络流量数据获取模块，用于获取网络流量数据；

数据预处理模块，用于对所述网络流量数据进行预处理，所述预处理包括降维以及采用流行学习方法去除了共轭点并保持各样本点之间的距离不变；

网络流量预测模块，用于将预处理后的数据输入到训练优化后的网络流量预测模型得到预测的网络流量数据，所述网络流量预测模型包括依次连接的双向LSTM神经网络、CNN神经网络和全连接网络。

进一步地，所述数据预处理模块执行以下步骤：将一天中采集的设定个流量数据点记为一个流量数据向量，第i天的流量数据向量作为第i个样本点，记为

；

计算任意两个样本点第i个样本点

和第j个样本点

之间的欧式距离

和第j个样本点

之间的欧式距离

，并得到新邻近图

；

基于得到的新邻近图

，计算第i个样本点

和第j个样本点

之间更新后的欧式距离

，将第i个样本点

和第j个样本点

之间更新后的欧式距离

作为内积矩阵B的第i行第j列元素；

对内积矩阵 B进行特征值分解

，得到特征值矩阵

和特征向量矩阵

；

取特征值矩阵

最大的前

列

，和特征向量矩阵

的前

列

，并得到降维后的

维向量

。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如以上技术方案任意一种可能的实施方式所提供的方法的步骤。

与现有技术相比，本发明的有益效果：

本发明提出基于流形学习的网络流量预测方法以更好地对原始流量数据进行降维，以使得网络易于训练，并提升流量预测的精度；同时利用双向LSTM神经网络获取网络流量数据的内部特征，得出用电信息采集网络流量预测。通过本发明能够提供更为精确的用电信息采集网络流量预测。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为本发明实施例提供的一种实施例的流形学习数据预处理降维示意图；

图2为本发明一种实施例的网络流量预测模型的示意图；

图3为本发明一种实施例的双向LSTM结构中每一个LSTM元胞结构示意图；

图4为本发明一种实施例的网络流量预测流程图；

图5为本发明一种实施例的网络流量预测性能示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

实施例1

本发明实施例中提供了一种基于流形学习的用电信息采集网络流量预测方法，包括：

获取网络流量数据；

将预处理后的数据输入到训练优化后的网络流量预测模型得到预测的网络流量数据，所述网络流量预测模型（本申请中称为AC-ISOMAP-DL模型）包括依次连接的双向LSTM神经网络、CNN神经网络和全连接网络。

对网络流量数据进行预处的步骤，将高维的数据进行降维且去除了共轭点并保持各数据点之间的距离不变。

双向LSTM神经网络输出端与CNN神经网络相连，CNN神经网络的输出与全连接网络相连,利用训练数据训练获得网络流量预测模型网络中待优化的各个参数，获得优化后的网络流量预测模型。本发明能够提供更为精确的用电信息采集网络流量预测。

将获取到的网络流量数据输入至优化后的网络流量预测模型，获得用电信息采集网络流量。

下面结合具体实施方式对本发明实施例中的方法进行详细说明。

通常情况下，流量数据存在共轭点，如果降维后的维度较高，那么共轭点的影响不是很大，但如果将流形的维度降的过低时，所获得流形将不能很好地描述原来数据点的关系。为了更好地降低流形的维度，从而降低复杂度，提升流量预测的性能，需要对共轭点进行处理。如何消除共轭点使所获得降维后的流形更好地描述原数据是一个重要的问题。

具体实施例中，首先对电网流量数据进行分析。由于电网流量数据会受到干扰等影响，同时降低输入数据的维度，记N天的流量数据为：

，

其中，

( n=1,…,N,)为一个向量，是一天中采集的96个流量数据。此时利用抵抗共轭点的核等距特征映射（如附图1中示出的AC-ISOMAP算法）对网络流量数据进行预处理，即对每一个

去噪并降维获得降维后的数据

， AC-ISOMAP算法共有4步，分别为：

步骤1：计算任意两个样本点

和

之间的欧式距离

，每个样本与距其最近的k个近邻点的距离保持不变即还是

，其他距离变为0，此时得到邻接矩阵D，其第i行第j列元素为

。根据邻接矩阵D其他可以获得邻近图G。考虑到相邻两天数据关联度大，以前一天的流量数据

为根节点，利用Dijkstra算法计算其余各个点到

的最短路径，并得到最短路径树，找出最短路径树上的叶子节点（即终点数据

）。

步骤2：将B个叶子节点（两个数据点）之间的欧式距离为0，以消除共轭点的影响，更新邻接矩阵得到

，并得到新的邻近图

。

步骤3：根据新的图的图

，根据任意样本点

和样本点

之间的欧式距离计算任意两样本点间的路径

，计算内积矩阵B，其中第i行第j列元素

可由如下式子计算。

，

对内积矩阵B进行特征值分解

，得到特征值矩阵

和特征向量矩阵

。

步骤4：取特征值矩阵最大的前

列

，和特征向量矩阵的前

列

，并得到降维后的

维向量

。

降维完以后，可以得到低维的用于描述流量数据的数据，以便于网络模型的描述和训练。为了利用以往的历史数据Z获得最后的流量的预测，还需要通过深度网络模型进行预测。

随着电网业务越来与复杂，电网流量的数据与其影响因素是非线性的关系，且具有记忆特性。本文以BILSTM记忆深度模型为基础，提出一种融合的深度网络结构即网络流量预测模型，并将其引入到用电信息采集网络流量预测分析中。附图2描述了所提的网络流量预测模型的网络结构，网络流量预测模型包括一个BILSTM神经网络(双向LSTM神经网络)，在每一个BILSTM神经网络中，将前向的LSTM层与后向的LSTM层两层进行连接，并将输入历史数据Z同时输入前向的LSTM层和后LSTM层，该双层的结构能够更好地提取出长序列的信息，从而提升模型的性能。另外，将BILSTM神经网络的输出接入到CNN神经网络中进一步提取流量的高阶特征，接着将高阶特征与特征因素包括天气、时间、终端数量等接入全连接网络获得最后的网络预测值，如图2所示，

对于BILSTM神经网络中的每一个LSTM层由传统的LSTM元胞构成，其主要结构如图3所示。每一层LSTM 中有 4 个门，每一个门的输入输出关系可由下面的式子表示。第一个称为遗忘门，第一个门的输出

和输入

，

以及参数

、

之间的关系可通过如下的关系式进行计算：

，

为sigmoid函数。

第二层和第三层分别称为输入层和tanh层，输入层的sigmoid函数决定要更新哪些信息。Tanh层引入一个新的候选值，第二层

和第二层输入

、

、第二层参数

、

间的关系，以及第三层输出

与第三层输入

、

和第三层网络参数

、

之间的关系分别用下式描述：

，

，

为tanh函数。

此时将旧状态更新为新状态，有了

、

、

和上一个LSTM元胞的输出

后，LSTM元胞的两个输出

和

由下式得到：

，

，

；

其中

、

为第四层的参数，

中间变量。

上述的BILSTM存在记忆特性，在此基础上，引入CNN神经网络提取流量的高阶特征，CNN神经网络包括两个Cov+BN+Relu模块（即两个卷积层、一个批归一化层和一个激活层），所述卷积神经网络模块的表达式为：

，

其中，

为BILSTM神经网络中前向网络的输出，

为BILSTM神经网络中后向网络的输出，

为t时刻流行学习的输出。接着CNN神经网络（即卷积神经网络）的输出和特征因素（天气类型

、时间

、终端数量

）连接到一个全连接网络上，全连接网络的输出为最终的预测值，t时刻流量预测表达式为：

，

其中，W和b是全连接网络中的参数。从而进一步提升模型的有效性。N为样本数量，

指输出网络流量值，

指通过网络流量预测模型得到的预测值。基于所述优化目标函数，结合adam优化算法进行参数优化，获得网络流量预测模型中待优化的各个参数。

上述内容描述了网络流量预测模型中的网络流量输出与输入以及参数之间的关系，根据各模块的关系将整个网络的输出（即用电信息采集网络流量）和历史网络流量以及参数的关系描述为：

，

其中

，

那么为CNN神经网络和BILSTM神经网络的参数。有了网络流量预测模型以后，还需要得到参数W，

，

，b才能得到最终的预测模型，同时需要得到W，

，

， b以使输出尽可能的精确。在训练过程中利用深度网络经典的adam算法进行参数的优化。在训练过程中为了防止模型过拟合，设计代价函数时考虑正则化，训练各参数W，

，

， b的优化目标函数为：

，

其中

指Frobenius范数，

指向量2范数，λ ₁、λ ₂、λ ₃、λ ₄为四个正则量，

为最小均方误差值函数，

为CNN神经网络的参数，

为双向LSTM神经网络的参数，N为样本数量，

最小均方误差值函数

，表达式为：

，

其中，

指输出网络流量值，

指通过网络流量预测模型预测获得的网络流量值，N为样本数量。

对于以上的优化问题，可以用传统的优化方法进行求解，本发明通过传统的adam算法进行求解，可以获得参数W,V,b。求得参数以后，便可以获得用电信息采集网络流量预测模型。由上可知，经过网络流量预测模型后可获得用电信息采集网络流量。

主要思想及逻辑思路如图4所示。

利用安徽某一个县一个台区的流量数据作为样本，通过计算流量数据，并分析台区的用电信息采集中的网络流量数据。利用Tensorflow框架执行所提的网络流量预测模型。采用Intel i7-8700处理器和 Nvidia GeForce RTX 2080Ti图形处理器。在训练模型时，批量大小为128，时间序列长度为6，即把提前6天的数据作为一次训练数据。为了更快地获得训练结果，首先对数据进行归一化，将

归一化为：

，

将所提的AC-ISOMAP-DL和网络流量预测中经典的差分整合移动平均自回归模型（Autoregressive Integrated Moving Average mode，ARIMA）和LSTM神经网络模型进行性能的比较。

利用 2021年2月和3月两个月的历史网络流量数据为基础。用电信息采集的数据集经过数据预处理操作如有效性检测、缺失值插补的操作以保证数据质量。在该数据集中，记录了每一天网络流量数据，没15分钟采集一次，一天一共有96个数据，因此

是一个96维的向量。在训练模型时以1月1日到3月20日的历史网络流量数据为训练数据，并预测3月21日0到24小时的网络流量。运用网络流量预测模型预测得到了3月21日0到24小时的流量。附图5比较了网络流量预测模型、ARIMA以及LSTM神经网络模型预测的网络流量。从图中可知，所提的AC-ISOMAP-DL比ARIMA和LSTM神经网络模型相比具有更高地预测精度，深度网络模型LSTM比ARIMA模型的预测值更精确。由于AC-ISOMAP-DL算法将数据进行了去噪降维的处理，是的数据质量更高的同时也便于网络模型的训练，从而能够提供比其他模型更加精确的预测结果，验证了AC-ISOMAP-DL模型的有效性。

为了验证进一步验证所提方案的有效性，考虑了平均绝对百分比误差(Meanabsolute percentage error, MAPE)和均方根误差（Root mean squared error, RMSE）为指标进行比较，两种指标分别计算为如下的式子：

，

，

表1描述了AC-ISOMAP-DL、LSTM以及ARIMA模型所预测的网络流量的误差统计，如图5所示，包括RMSE和MAPE。由表1 可知，AC-ISOMAP-DL模型中的MAPE为4.78%，其RMSE为1.39，而LSTM模型的MAPE为6.51%，其RMSE为5.12；ARIMA模型的MAPE和RMSE最大，分别为9.23%和7.14。可以看出，AC-ISOMAP-DL具有最小的相对误差，能够提供较高的预测精度，较其他模型具有更优越的预测性能。

表1 不同模型预测误差统计

模型	MAPE	RMSE
			AC-ISOMAP-DL	4.78%	1.39
LSTM	6.51%	5.12
			ARIMA	9.23%	7.14

实施例2

基于与实施例1相同的发明构思，本发明实施例中提供了一种基于流形学习的用电信息采集网络流量预测装置，包括：

网络流量数据获取模块，用于获取网络流量数据；

；

计算任意两个样本点第i个样本点

和第j个样本点

之间的欧式距离

和第j个样本点

之间的欧式距离

，并得到新邻近图

；

基于得到的新邻近图

，根据任意样本点

和样本点

之间的欧式距离计算任意两样本点间的路径

，将任意两样本点间的路径

作为内积矩阵B的第i行第j列元素；

对内积矩阵 B进行特征值分解

，得到特征值矩阵

和特征向量矩阵

；

取特征值矩阵

最大的前

列

，和特征向量矩阵

的前

列

，并得到降维后的

维向量

。

实施例3

本发明实施例中本发明提供了一种基于流形学习的用电信息采集网络流量预测系统，包括处理器和存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。