CN113316163A

CN113316163A - 基于深度学习的长期网络流量预测方法

Info

Publication number: CN113316163A
Application number: CN202110676466.3A
Authority: CN
Inventors: 潘志文; 徐佳璐; 刘楠; 尤肖虎
Original assignee: Southeast University; Network Communication and Security Zijinshan Laboratory
Current assignee: Southeast University; Network Communication and Security Zijinshan Laboratory
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-08-27
Anticipated expiration: 2041-06-18
Also published as: CN113316163B

Abstract

本发明公开了基于深度学习的长期网络流量预测方法，包括：首先获取区域网络流量序列，统计其在每个时刻内使用的流量值；然后对流量矩阵序列进行预处理，得到Transformer模型的输入数据；其次，建立Transformer模型，对于二维矩阵数据采用Transformer模型进行时间相关性和空间相关性的自适应提取；最后，采用自适应的训练机制进行模型训练。本发明提高了网络流量多步长期预测的准确性，以便于运营商对未来的网络资源提前进行规划，有利于无线资源的合理分配。

Description

基于深度学习的长期网络流量预测方法

技术领域

本发明属于无线通信技术领域，具体涉及了基于深度学习的长期网络流量预测方法。

背景技术

近年来，第五代移动通信技术(5th Generation,5G)得到了迅速的发展，代表着未来网络发展的主要方向，将驱动社会从人与人之间的宽带互联逐步扩展到万物互联，从而更加深刻地影响人类社会的生活和工作方式。移动网络的飞速发展，流量数据的倍增不断影响着网络性能和用户体验，并且对运营商合理配置基站资源，有效保障网络稳定性和用户体验等提出了新的挑战。为了满足巨大的流量需求，网络运营商和管理者必须花费更多的时间和资本来分配管理网络资源，以防止资源供应不足或供应过剩，资源配置不足可能会导致移动用户的不满，而资源过剩会导致频谱等昂贵网络资源的浪费，因此对网络流量预测的研究显得越发重要。得益于机器学习和深度学习技术的飞速发展，深度学习能够自动学习数据内部潜在特征的能力，对于流量数据难以预测的突发性、随机性和非线性天然适用，使得网络流量预测领域取得了突破性的进展。但现有的流量预测模型虽然在短期预测时取得了不错的效果，但是在长期预测时效果欠佳。由于流量序列的突发性，随机性等导致其时空相关性难以动态捕捉，并且误差积累的存在，使得长期预测准确性随着时间的增加急剧下降。

发明内容

发明目的：针对现有技术存在的问题，本发明提出基于深度学习的长期网络流量预测方法，采用Transformer模型进行时空特征的提取和全局依赖关系的建模，并且为了减轻训练数据和测试数据分布不一致的问题，提出了一种自适应的训练机制，根据训练过程中的误差值自适应地进行输入数据选取，以此来保持训练数据和测试数据的平衡，提高长期流量预测的准确性。

技术方案：为了达到上述目的，本发明的基于深度学习的长期网络流量预测方法，包括以下步骤：

步骤1：获取区域网络流量序列，统计区域在每个时刻内使用的流量值：

步骤1.1、将网络覆盖面积划分成n×m个1km×1km的网格区域，记左上角区域坐标为(0,0)，右下角区域坐标为(n-1,m-1)，n和m的取值由网络覆盖面积决定；对每个区域内的各用户网络流量值以时间间隔l_T分钟进行采样，并对各时刻下各用户的采样进行求和，得到每个区域对应的区域流量序列：

其中，上标(x,y)表示对应区域的坐标，

表示在时刻t区域(x,y)内各用户的网络流量值，T为时间维度即流量序列长度；

步骤1.2、对区域流量序列进行尺度压缩和归一化，即对

进行如下处理：

其中，ε为常数，取1×10^-6，

为区域(x,y)在时刻t的对数流量值，μ表示区域(x,y)历史流量的平均值，σ表示区域(x,y)历史流量的标准差，

为区域(x,y)在时刻t的归一化流量；

步骤1.3、构建流量矩阵序列：选取不同时刻区域(x,y)的归一化流量与其周围共(2r+1)×(2r+1)个区域的归一化流量，组成流量矩阵序列

其中任一时刻t的流量矩阵如下：

其中，

r为区域(x,y)附近的区域数量，根据预测需求确定；

步骤2：对流量矩阵序列F^(x,y)进行处理，得到二维矩阵数据X，具体过程如下：

流量矩阵序列F^(x,y)∈R^H×W×T，其中H和W为空间维度，H和W等于2r+1，首先以P×P大小的窗口进行分割，得到N个数据块，记为α_i，其中i＝1,...,N；其中N＝(H×W)/(P×P)，每个数据块α_i的维度为P×P×T；其次，将分割得到的数据块α_i转换成向量β_i即β_i＝vector(α_i)，其中vector(α_i)表示按列排序，将α_i展开成列矢量；然后将N个向量β_i，i＝1,...,N组成二维矩阵数据

其中二维矩阵数据X的第i行为向量β_i的转置；

步骤3：建立Transformer模型，利用Transformer模型对输入的二维矩阵数据X进行时间相关性和空间相关性的自适应提取，具体包括以下步骤：

步骤3.1、对二维矩阵数据X进行线性映射，并与可学习的位置编码向量相加，如下式所示：

其中，Xⁱ为二维矩阵数据X的第i行，表示P×P的小区域内的历史流量信息；E是线性矩阵，通过随机初始化确定，并在训练过程中学习得到；B_pos为位置编码向量，用于表示各个数据块在整个空间区域的位置信息，在模型的训练过程中自动进行位置的学习；d_model为线性映射维度；

整理得到流量特征Z₀：

其中

表示流量特征Z₀的第i维特征；

步骤3.2、采用Transformer编码器对流量特征Z₀进行时空相关性的提取；Transformer编码器由L层相同的注意力模块组成，每层计算方式如下：

Z_l′＝MSA(LN(Z_l-1))+Z_l-1,l＝1...L

Z_l+1＝MLP(LN(Z_l′))+Z_l,l＝1...L

其中，MSA表示多头注意力机制模型，LN表示层标准化，MLP表示全连接前馈神经网络，Z_l表示Transformer编码器第l层所提取的特征；

最终Transformer编码器输出提取到的流量序列特征S为：

S＝LN(Z_L)

步骤3.3、采用Transformer解码器对Transformer编码器提取到的流量序列特征S进行解码，得到最终的流量长期预测输出结果y＝{y₁,y₂,…,y_length}，length表示长期预测的步长；预测时采用自回归的方式，即下一时刻的输入流量值依赖于上一时刻的输出流量值；

步骤4：Transformer模型训练：采用自适应的训练机制进行模型训练，模型训练时采用Adam优化器，具体训练过程如下：

步骤4.1、以步骤2得到的二维矩阵数据X作为训练数据，输入到Transformer模型，得到t时刻的预测流量值y_t；

步骤4.2、计算预测误差：计算预测流量值y_t与训练数据X对应的真实训练数据y_t′之间的绝对百分误差，即

步骤4.3、根据绝对百分误差error的大小决定下一时刻的输入数据：如果误差值大于阈值θ，则采用真实训练数据y_t′；如果误差值小于θ，则采用预测流量值y_t；

步骤4.4、重复以上步骤4.1、步骤4.2、步骤4.3的训练过程，直到Transformer模型收敛。

进一步的，步骤1.2所述μ用下式计算：

所述σ用下式计算：

进一步的，步骤3.2所述注意力模块具体包括：

步骤3.2.1、注意力模块的第一层结构为MSA，包括以下过程：

首先，采用三个全连接层将经过层标准化LN的Z_l映射成查询矩阵

键矩阵

值矩阵

其中d_k表示Q与K的维度，d_v表示V的维度；并进行注意力Attention计算，得到最终提取的时空特征，公式如下：

其中，

为缩放因子，f表示softmax函数；

然后，使用多个不同的线性映射将Q、K和V映射到不同的高维子空间中进行注意力Attention计算，如下式所示：

其中，head_j为在子空间j中计算的注意力Attention信息，

分别为Q、K和V线性映射的可学习权重，h表示子空间的数量；

最后，多头注意力函数合并不同子空间中的注意力信息，获得多头注意力输出，最终使得MSA模型能够在多个特征空间中进行时空相关性的提取，具体如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_j,…,head_h)W^O

其中，Concat表示拼接操作，

为可学习的权重；

步骤3.2.2、注意力模块的第二层结构为全连接前馈神经网络MLP，由两层线性映射以及ReLU激活函数组成，如下：

MLP(Z′_l)＝max(0,Z′_lC₁+b₁)C₂+b₂

其中，C₁和C₂为网络权重，b₁和b₂为网络偏置，均通过训练得到。

进一步的，步骤3.3所述Transformer解码器是由多层注意力模块堆叠构成。

有益效果：与现有技术相比，本发明具有以下有益效果：

本发明基于深度学习技术，采用Transformer模型来提取网络流量序列的时间和空间相关性，并提出了一种自适应的训练机制，减轻了模型在训练和测试过程中数据不一致的问题，提高了网络流量多步长期预测的准确性，以便于运营商对未来的网络资源提前进行规划，做好准备，有利于无线资源的合理分配。

附图说明

图1是本发明流量矩阵的示意图；

图2是本发明所述方法的网络结构示意图；

图3是本发明的流量矩阵分割示意图。

具体实施例

为了详细说明本发明所公开的技术方案，下面结合说明书附图以及具体实施例做进一步的阐述。

本发明提供一种基于深度学习的网络流量长期预测方法。针对网络流量中动态变化的时间相关性和空间相关性，以及在长期网络流量预测中尤为重要的对历史流序列的长期记忆能力，采用Transformer模型进行时空特征的提取和全局依赖关系的建模。并且为了减轻训练数据和测试数据分布不一致的问题，提出了一种自适应的训练机制，根据训练过程中的误差值自适应地进行输入数据选取，以此来保持训练数据和测试数据的平衡，提高长期流量预测的准确性。

步骤1.1、将网络覆盖面积划分成n×m个1km×1km的网格区域，记左上角区域坐标为(0,0)，右下角区域坐标为(n-1,m-1)，n和m的取值由网络覆盖面积决定。对每个区域内的各用户网络流量值以时间间隔l_T分钟(具体取值由各运营商根据预测需求确定)进行采样，并对各用户的采样求和得到每个区域对应的区域流量序列

其中上标(x,y)表示对应区域的坐标，

表示时刻t区域(x,y)内各用户的网络流量值，流量序列长度T的取值由各运营商根据实际数据采集情况确定。本实施例中T取10分钟。

步骤1.2、对区域流量序列进行尺度压缩和归一化，即对

进行如下处理：

其中，ε为常数，可取1×10^-6，

为区域(x,y)在时刻t的对数流量值，

为区域(x,y)在时刻t的归一化流量；μ表示区域(x,y)历史流量的平均值，按下式计算：

σ表示区域(x,y)历史流量的标准差，通过公式

得到。

步骤1.3、构建流量矩阵序列。任一坐标为(x,y)区域的流量值不仅与该区域过去时刻的流量值相关，还与附近r个区域的流量值也存在相关，即区域流量之间存在空间相关性，其中r的取值与模型复杂度和预测精度有关，可根据预测需求确定。为预测t+1时刻区域(x,y)的流量值

选取不同时刻目标区域(x,y)的归一化流量与其周围共(2r+1)×(2r+1)个区域的归一化流量，组成流量矩阵序列

其中任一时刻t的流量矩阵，如图1所示，表达式如下

其中，

本实施例中r取10。

对于步骤1得到的流量矩阵序列F^(x,y)∈R^H×W×T，其中H和W为空间维度(H和W等于2r+1)，T为时间维度(即流量序列的长度)，以P×P大小的窗口进行分割(P的取值可根据仿真确定)，得到N个数据块，记为α_i，其中i＝1,...,N，如图3所示，其中N＝(H×W)/(P×P)，每个数据块α_i的维度为P×P×T。其次，将分割得到的数据块α_i转换成向量β_i，即β_i＝vector(α_i)，vector(α_i)表示按列排序，将α_i展开成列矢量，然后将N个向量β_i(i＝1,...,N)组成二维矩阵数据

其中矩阵的第i行为向量β_i的转置。二维矩阵数据X符合常用于自然语言处理领域的Transformer模型的输入要求，其中数据块个数N即类同于自然语言处理任务中的词序列长度，P²T则类同于每个词的词向量长度。本实施例中P取3。

步骤3：Transformer模型建立，如图2所示。对于二维矩阵数据X采用Transformer模型进行时间相关性和空间相关性的自适应提取。

由于Transformer模型完全依赖于自注意力(Self-Attention)机制对全局依赖关系进行建模，因此在长期网络流量预测中能够提高模型对历史流量序列的长期记忆能力，解决输入流量序列之间的长期依赖关系。

具体的运算过程见下面步骤。

步骤3.1、对输入的二维矩阵数据X进行线性映射，并与可学习的位置编码编码向量相加，如下式所示：

其中，Xⁱ为输入二维矩阵数据X的第i行，表示P×P的小区域内的历史流量信息，E是线性矩阵，通过随机初始化确定，并在训练过程中学习得到，B_pos为位置编码向量，用于表示各个数据块在整个空间区域的位置信息，在模型的训练过程中自动进行位置的学习，d_model为线性映射维度，可通过仿真择优确定；本实施例中d_model取16。

整理得到输出流量特征：

其中，

表示流量特征Z₀的第i维特征。

步骤3.2、采用Transformer编码器对输入的流量特征Z₀进行时空相关性的提取，其中Transformer编码器由L层相同的注意力模块组成，其中注意力模块结构包括第一层多头注意力机制模型和第二层全连接前馈神经网络，L的取值可根据模型的复杂度以及精度，由仿真确定，每层计算方式如下：

Z_l ^′＝MSA(LN(Z_l-1))+Z_l-1,l＝1...L

Z_l+1＝MLP(LN(Z_l′))+Z_l,l＝1...L

其中MSA表示多头注意力机制模型，LN表示层标准化，MLP表示全连接前馈神经网络。本实施例中层数L取3。

最终Transformer编码器的输出流量序列特征S为

S＝LN(Z_L),

其中，Transformer编码器每层的注意力模块具体包括以下步骤：

步骤3.2.1、注意力模块的第一层结构为MSA，包括以下过程：

首先采用三个全连接层将经过层标准化LN的Z_l映射成查询矩阵

键矩阵

值矩阵

其中，

为缩放因子，f表示softmax函数。

然后，使用多个不同的线性映射将Q，K和V映射到不同的高维子空间中进行注意力Attention计算，如下式所示：

其中，

分别为Q、K和V线性映射的可学习权重，head_j即为在子空间j中计算的注意力Attention信息，h表示子空间的数量。

最后，多头注意力函数合并不同子空间中的注意力信息，获得多头注意力机制输出，最终使得MSA模型能够在多个特征空间中进行时空相关性的提取，具体如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_j,…,head_h)W^O

其中，Concat表示拼接操作，

为可学习的权重。

本实施例中，d_k和d_v取64，h取8。

步骤3.2.2、注意力模块的第二层结构为全连接前馈神经网络，它由两层线性映射以及ReLU激活函数组成，如下：

MLP(Z′_l)＝max(0,Z′_lC₁+b₁)C₂+b₂

步骤3.3、采用Transformer解码器对编码器提取到的流量序列特征S进行解码，得到最终的流量长期预测输出结果y＝{y₁,y₂,…,y_length}，length表示长期预测的步长。其中解码器的结构与编码器一致，都是多层注意力模块的堆叠。预测时采用自回归的方式，即下一时刻的输入流量值依赖于上一时刻的输出流量值。

步骤4：Transformer模型训练。为了缓解预测时采用自回归方式带来的训练数据与测试数据不一致的问题，采用自适应的训练机制进行模型训练。

自适应训练机制通过一个阈值θ(θ的取值可由仿真确定)来决定模型的当前输入，当模型的预测值与真实值的绝对百分误差超过阈值θ时，采用真实训练数据作为输入，而小于阈值θ时，则采用模型预测流量值作为输入。因为，即使模型训练到后期逐渐收敛时，也仍然会存在预测准确度不高的时刻，因此直接根据预测准确度作为输入选取的衡量标准，自适应地进行输入选择。模型训练时采用Adam优化器，具体训练过程如下：

步骤4.2、计算预测误差。计算预测流量值y_t与训练数据X对应的真实训练数据y′_t之间的绝对百分误差，即

步骤4.3、根据绝对百分误差error的大小决定下一时刻的输入数据。如果误差值大于θ，则采用真实训练数据y′_t；如果误差值小于θ，则采用预测流量值y_t；

本实施例中阈值θ取0.2。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方案为限，但凡本领域普通技术人员根据发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围。