CN110768825A

CN110768825A - 一种基于网络大数据分析的业务流量预测方法

Info

Publication number: CN110768825A
Application number: CN201910984240.2A
Authority: CN
Inventors: 林浩杰; 蒋定德; 齐盛; 朱相楠; 孙嘉璐
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-07

Abstract

该发明公开了一种基于网络大数据分析的业务流量预测方法，属于通信网络大数据分析领域。本发明独立考虑大数据背景下的业务流量的远程依赖和不规则波动行为，利用离散小波变换，将业务流量分为由缩放和离散小波变换系数标记的两个分量。离散小波变换就像一个过滤器，将业务流量分解为低通分量和高通分量；低通分量表示业务流量的长期依赖性，高通分量表示业务流量的强烈和不规则波动。对于短期和不规则波动，假设它们服从由期望和方差组成的高斯分布；通过对已知业务流量数据的最大似然估计来计算这些参数，采用这种方法，可以有效地应对复杂网络大数据背景下的业务流量特征和用户随机加入，复杂关联等问题。

Description

一种基于网络大数据分析的业务流量预测方法

技术领域

本发明属于通信网络大数据分析中业务流量建模与预测技术领域，特别是涉及一种基于网络大数据分析的业务流量预测方法。

背景技术

随着信息技术的高度发展，人们积累的数据量日益增长，如何从海量数据中快速的获得有效数据成为当务之急。大数据是指无法在当前条件下使用常规的工具对数据内容进行检索和管理的数据集，网络业务流量具有数据量大、数据类型繁多、价值密度低、处理速度快等特点。网络大数据分析下的深度学习对面向管理与决策的大数据预测分析研究有重大意义。与无线自组网络相比，基于网络大数据分析的无线网状网络具有更高的容量和更低的成本。业务流量预测对于网络规划和路由配置非常重要，这些配置能够提高用户服务质量。

当前，随着网络服务和应用的多样化，所涉及到的数据量正在呈指数级增长，业务流量表现出长期的依赖性终端行为的特征、多重分形特征以及一些非线性特征，显得十分复杂，已提出的很多方法都不适合处理无线网状骨干网中的业务流量预测问题。基于此，基于网络大数据分析的业务流量预测方法对无线骨干网络的网络架构设计具有重大意义。深度信念网络(Deep Belief Network，DBN)是大数据和机器学习的子领域，它对获取大数据中的价值信息有重大作用，它是许多受限玻尔兹曼机器(Restricted BoltzmannMachines，RBMs)的组合，所有单位的值都是随机变量并遵循伯努利分布或高斯分布。大规模的DBN训练涉及到众多独立的RBM和数以百万计的参数，并且大规模DBN中并行运算占主导地位。通过学习网络大数据下的深度置信网络来构建预测业务流量模型。

发明内容

针对现有技术存在的缺点，本发明提供一种基于网络大数据分析的业务流量预测方法，以达到处理大规模通信网络中的业务流量预测问题的目的。

本发明的技术方案是这样实现的：一种基于网络大数据分析的业务流量预测方法，包括以下步骤：

步骤1：获取业务流量训练集(x₁(t),...,x_K(t))，x_k(t)表示业务流量的时间序列，K表示得的业务流量时间序列的总个数，对业务流量训练集(x₁(t),...,x_K(t))进行离散小波变换，得到缩放系数的训练器集合(c₁,...,c_K)和离散小波变换系数集(d₁,...,d_K)；得到低通和高通近似的组合[c,d]，其中c＝(c₁,...,c_K)，d＝(d₁,...,d_K)；

步骤2：使用训练集的缩放系数集合(c₁,...,c_K)对DBN进行训练，获得输入和输出缩放系数之间的关系以及缩放系数的预测器

步骤3：设步骤1计算得到的离散小波变换系数服从高斯分布，即d_k～N(μ,σ²)，利用最大似然估计MLE计算T/2个离散小波变换系数高斯模型的期望和方差(μ,σ²)，其中T表示离散信号序列的长度；

步骤4：采用步骤3计算的期望为μ、方差为σ²的高斯模型得到离散小波变换系数

步骤5：根据步骤2和步骤4的计算结果，得到预测因子

根据该预测因子

对步骤1的小波变换进行逆变换得到业务流量预测x(T+1)。

进一步的，所述步骤1中对业务流量训练集(x₁(t),...,x_K(t))行DWT离散小波变换方法如下：

其中，c_k,n为缩放系数，d_k,n为离散小波变换系数；公式(1)将业务流量的时间序列分解为缩放系数为c_k,n的低通近似，离散小波变换系数为d_k,n的高通近似，计算所有业务流量的时间序列低通近似的缩放系数集合(c₁,...,c_K)和其中

为刻度尺的缩放函数，为一个小波函数，c_k,n＝c_k。

进一步的，所述步骤2中使用训练集的缩放系数集合(c₁,...,c_K)对DBN进行训练的具体方法为：DBN中有10个隐含层，隐含层之间为全连接，其中输入层和每个隐含层都分别包含T/2个单元，另外，DBN采用可用于预测的逻辑回归模型组成的T/2个单元组成的隐藏层和具有一个单元的输出层组成；通过使用训练集的缩放系数集合(c₁,...,c_K)对DBN进行训练，可以获得输入和输出缩放系数之间的关系以及缩放系数集合

本发明的有益效果：本发明体现了用于网络大数据分析的无线网状骨干网络中的预测功能。独立考虑大数据背景下的业务流量的远程依赖和不规则波动行为，利用离散小波变换(DWT)，将业务流量分为由缩放和离散小波变换系数标记的两个分量。在这种情况下，离散小波变换就像一个过滤器，它将业务流量分解为低通分量和高通分量。低通分量表示业务流量的长期依赖性，高通分量表示业务流量的强烈和不规则波动。长期依赖意味着业务流量随时取决于多个先前的流量数据。然后，通过基于网络大数据分析下的DBN架构预测未来的流量。DBN可以深入了解业务流量的长期依赖性。首先使用来自已知业务流量的数据集来训练DBN，然后确定DBN架构的参数。那时，DBN可以描述各种业务流量元素之间的潜在关系。对于短期和不规则波动，假设它们服从由两个参数(期望和方差)组成的高斯分布。通过对已知业务流量数据的最大似然估计(Maximum Likelihood Estimation，MLE)来计算这些参数，采用这种方法，可以有效地应对复杂网络大数据背景下的业务流量特征和用户随机加入，复杂关联等问题。

附图说明

图1为本发明的预测方法流程图；

图2为受限制的玻尔兹曼机器示意图；

图3为具有两个受限玻尔兹曼机器的深度置信网络示意图；

图4为本发明用于预测的DBN架构示意图；

图5为本发明使用的真实流量数据和预测因子示意图；

(a)为使用DBNG(Deep Belief Network and Gaussian models)算法建立的预测因子示意图；

(b)为使用PCA(Principal Component Analysis)算法建立的预测因子示意图；

(c)为使用Tomogravity算法建立的预测因子示意图；

(d)为使用SRMF(Sparsity Regularized Matrix Factorization method)算法建立的预测因子示意图；

图6为四种算法在空间(SRE，Spatial Relative Errors)和时间(TRE，TemporalRelative Errors)上的相对误差示意图；

图7为四种算法在空间(SRE，Spatial Relative Errors)和时间(TRE，TemporalRelative Errors)上的相对误差的累积分布示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明：

一种基于网络大数据分析的业务流量预测方法，具体步骤如下：

步骤一：输入业务流量训练集(x₁(t),...,x_K(t))，业务流量x_i(t)，对业务流量训练集(x₁(t),...,x_K(t))进行DWT离散小波变换

假设已知业务流量由时间序列x(t)表示，其中t＝1,2,...,T。根据公式

可以表示为：

如果设定比例为1，那么就有：

公式(4)将基于网络大数据分析的业务流量分为两个部分。一个是低通近似(由缩放系数c_1,n表示)，它表现出业务流量x(t)的长期依赖性，另一个是高通近似(由离散小波变换系数d_1,n描述)表达业务流量x(t)的强烈和不规则的波动行为。

可根据式(4)得到业务流量的高通低通近似部分，从而得到缩放系数集合(c₁,...,c_K)

步骤二：使用训练集的缩放系数集合(c₁,...,c_K)作为训练集进行DBN训练

DBN是深度置信网络，是大数据和机器学习的子领域，它对获取大数据中的价值信息有重大作用。它是许多限制玻尔兹曼机器(RBMs)的组合，RBM由两层组成，即由ν和h(由图2中示出)表示的可见和隐藏层组成。层中的每个单元通过无向边连接到另一层的所有单元。同一层中的单元彼此断开连接。图3显示了具有2个RBM的DBN架构的示例。图4是用于预测的DBN架构。DBN是许多RBM的堆栈。所有单位的值都是随机变量。通常，它们遵循伯努利分布或高斯分布。使用缩放系数集合(c₁,...,c_K)作为训练集进行DBN训练，是基于网络大数据分析预测业务流量的重要方法。采用分层贪婪策略。此外，通过最小化训练数据的对数概率log(v)来更新参数。

通过把训练集的缩放系数集合(c₁,...,c_K)作为训练集进行DBN训练，可以获得输入和输出缩放系数之间的关系，得到缩放系数集合

步骤三：对业务流量x(t)进行DWT离散小波变换

可根据式(4)得到x(t)的低通和高通近似的组合[c,d]，即缩放系数和离散小波变换系数。

步骤四：假设离散小波变换系数服从高斯分布，利用最大似然估计MLE计算T/2个离散小波变换系数高斯模型的期望和方差。

对于离散小波变换系数，假设它服从高斯分布。考虑到业务流量x(t)，其离散小波变换系数的数量为T/2，表示为d＝(d₁,d₂,...,d_T/2)，其中每个条目d_i～N(μ,σ²)。利用MLE通过T/2离散小波变换系数计算高斯模型的期望和方差，即

可根据式(5)获得高斯模型的期望μ和方差σ²。

步骤五：获得离散系数的预测器

在获得离散小波变换系数的分布之后，根据该分布产生一个值作为离散小波变换系数的预测值，即通过高斯模型的期望和方差N(μ,σ²)得到离散系数的预测器系数

步骤六：预测业务流量，得到x(T+1)

根据缩放和离散小波变换系数的预测因子

通过逆离散小波变换IDWT(Inverse Discrete Wavelet Transform)预测业务流量，输出业务流量预测器x(T+1)。

实施例

本节将验证本发明所提预测方法的性能。业务流量数据集存在数据量大，流转速度快，类型多和价值量高等特点，在这里要验证本发明预测方法的性能，可以通过模拟小规模数据来进行对比。在模拟实验中，以5分钟的时间尺度对具有2016次的实际业务流量数据集进行采样。前2000次用作训练DBN和构建高斯模型的先验信息。

步骤一所述的输入业务流量训练集(x₁(t),…,x_K(t))，业务流量x_i(t)，对业务流量训练集(x₁(t),…,x_K(t))进行离散小波变换(Inverse Discrete Wavelet Transform，DWT)，具体详细过程如下：

输入在5分钟时间尺度下采样到的2016次的实际业务流量数据集，i从1到K对(x₁(t),…,x_K(t))进行DWT离散小波变换，假设已知业务流量由时间序列x(t)表示，其中t＝1,2,…,T。根据公式：

它可以表示为：

如果设定比例为1，那么就有：

公式(3)将基于网络大数据分析的业务流量分为两个部分。一个是低通近似(由缩放系数c_1,n表示)，它表现出业务流量x(t)的长期依赖性，另一个是高通近似(由离散小波变换系数d_1,n描述)表达业务流量x(t)的强烈和不规则的波动行为。

可根据式(3)得到业务流量的高通低通近似部分，从而得到训练集的缩放系数集合(c₁,...,c_K)。

步骤二所述的使用缩放系数集合(c₁,...,c_K)作为训练集进行DBN训练，具体过程如下：

将步骤一得到缩放系数集合(c₁,...,c_K)进行DBN训练。DBN是深度置信网络，是大数据和机器学习的子领域，它对获取大数据中的价值信息有重大作用。它是许多限制玻尔兹曼机器(RBMs)的组合，RBM由两层组成，即由ν和h(由图2中示出)表示的可见和隐藏层组成。层中的每个单元通过无向边连接到另一层的所有单元。同一层中的单元彼此断开连接。图3显示了具有2个RBM的DBN架构的示例。图4是用于预测的DBN架构。DBN是许多RBM的堆栈。所有单位的值都是随机变量。通常，它们遵循伯努利分布或高斯分布。使用缩放系数集合(c₁,...,c_K)作为训练集进行DBN训练，是基于网络大数据分析预测业务流量的重要方法。采用分层贪婪策略。此外，通过最小化训练数据的对数概率log(v)来更新参数。

通过把缩放系数的训练器(c₁,...,c_K)作为训练集进行DBN训练，可以获得输入和输出缩放系数之间的关系，得到缩放系数的预测器

步骤三所述对业务流量x(t)进行DWT离散小波变换

上面的等式将基于网络大数据分析的业务流量分为两个部分。一个是低通近似(由缩放系数c_1,n表示)，它表现出业务流量x(t)的长期依赖性，另一个是高通近似(由离散小波变换系数d_1,n描述)表达业务流量x(t)的强烈和不规则的波动行为。

可根据式(3)得到x(t)的低通和高通近似的组合[c,d]，即缩放系数和离散小波变换系数。

步骤四所述的假设离散小波变换系数服从高斯分布，利用最大似然估计MLE计算T/2个离散小波变换系数高斯模型的期望和方差，具体过程如下：

可根据式(4)获得高斯模型的期望和方差(μ,σ²)。

步骤五所述获得离散系数的预测器，具体过程如下：

在获得离散小波变换系数的分布之后，根据该分布产生一个值作为离散小波变换系数的预测值，即通过高斯模型的期望和方差N(μ,σ²)得到离散系数的预测器

步骤六所述的预测业务流量，得到x(T+1)，具体过程如下：

根据缩放和离散小波变换系数的预测因子

通过逆离散小波变换IDWT预测业务流量，输出业务流量预测器x(T+1)。

图5，6，7分别表示本发明的方法与业务流量预测领域的三种最先进的方法，即主成分分析(PCA)方法，Tomogravity方法和稀疏正则化矩阵分解方法(SRMF)对业务流量预测的性能比较。图5绘制四种方法真实业务流量与预测值。图5(a)显示了本发明的预测结果。x轴和y轴分别表示预测变量和实际业务流量。从图5(a)可以看出，本发明方法对小型业务流量具有较低的预测偏差。相比之下，本发明对大型业务流量有也积极的预测。对于图5(b)中的PCA方法也会出现同样的情况。对于大型业务流量，它也有积极的预测。对于小型业务流量，PCA具有更大的预测偏差。Tomogravity对大型业务流量一直有积极的预测。对于小型业务流量，Tomogravity显示了一个期望的预测误差。此外，对于大型业务流量，图5(d)中的SRSVD或多或少地具有正或负预测。现在，将空间和时间相对误差称为比较四种方法的度量。空间和时间相对误差定义为

其中，x(n,t)和

是n个端至端的网络业务流和它的预测值。

图6分别表示四种方法的空间相对误差(SRE)和时间相对误差(TRE)，说明DBNG方法的SRE和TRE在四种方法中都是最小的。图7分别表示四种方法的空间相对误差(SRE)和时间相对误差(TRE)的累积分布。它可以更直接地显示预测误差。此外，通过与SRE相比，DBNG在TRE方面有了更为显着的改进。那是因为本发明独立地预测每个流的流量。因此，SRE的改善是由低预测误差引起的。

Claims

1.一种基于网络大数据分析的业务流量预测方法，包括以下步骤：

步骤5：根据步骤2和步骤4的计算结果，得到预测因子

根据该预测因子

对步骤1的小波变换进行逆变换得到业务流量预测x(T+1)；

所述步骤1中对业务流量训练集(x₁(t),...,x_K(t))行DWT离散小波变换方法如下：

其中，c_k,n为缩放系数，d_k,n为离散小波变换系数；公式(1)将业务流量的时间序列分解为缩放系数为c_k,n的低通近似，离散小波变换系数为d_k,n的高通近似，计算所有业务流量的时间序列低通近似的缩放系数集合(c₁,...,c_K)和其中为刻度尺的缩放函数，

为一个小波函数，c_k,n＝c_k。

2.如权利要求1所述的一种基于网络大数据分析的业务流量预测方法，其特征在于所述步骤2中使用训练集的缩放系数集合(c₁,...,c_K)对DBN进行训练的具体方法为：DBN中有10个隐含层，隐含层之间为全连接，其中输入层和每个隐含层都分别包含T/2个单元，另外，DBN采用可用于预测的逻辑回归模型组成的T/2个单元组成的隐藏层和具有一个单元的输出层组成；通过使用训练集的缩放系数集合(c₁,...,c_K)对DBN进行训练，可以获得输入和输出缩放系数之间的关系以及缩放系数集合