CN112910711A

CN112910711A - 一种基于自注意力卷积网络的无线业务流量预测方法、设备及介质

Info

Publication number: CN112910711A
Application number: CN202110201150.9A
Authority: CN
Inventors: 张海霞; 沈文鑫; 郭帅帅; 袁东风
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-02-03
Filing date: 2021-02-23
Publication date: 2021-06-04
Anticipated expiration: 2041-02-23
Also published as: CN112910711B

Abstract

本发明涉及一种基于自注意力卷积网络的无线业务流量预测方法、设备及介质，是指：将待预测的原始无线业务流量预处理后输入至训练好的流量预测模型，得到预测的流量数据；本发明利用自注意力卷积网络，对无线业务流量的历史数据与时间特征进行学习与融合，能够有效提取流量数据在大时间尺度下的动态特性。该算法不仅能够有效提升流量预测的准确率，而且能够进行并行化处理，提升了神经网络的训练效率，进而提升流量预测算法的整体性能。

Description

一种基于自注意力卷积网络的无线业务流量预测方法、设备及介质

技术领域

本发明属于通信网络和人工智能技术领域，涉及一种基于自注意力机制的无线业务流量预测方法、设备及介质，可用于通信系统中的网络管理与规划。

背景技术

高效准确的无线业务流量预测对于实现通信网络自动化、资源分配智能化具有重要意义。但是，终端用户的通信行为存在很高的动态性，尤其是在长时间尺度下，用户的通信行为复杂性与时变性都会加剧，增加了无线业务流量预测的难度。

无线业务流量预测问题可以建模为时间序列预测问题。传统的统计学习算法无法对流量数据在时域上的高动态特性进行建模；随着深度学习的技术的进步，现有的流量预测算法普遍采用基于深度神经网络的方法。

例如，中国专利文献CN109257760A中提出了基于LSTM的流量预测算法，根据某一特定区域内的历史通信行为，利用LSTM网络预测未来一段时间该区域的无线业务流量；中国专利文献CN111343650A中采用了CONVLSTM流量预测算法，利用卷积网络刻画流量数据空间分布特征，同时利用LSTM网络对流量数据在时序上的相关性进行刻画；此外还有基于编码-解码网络以及GRU网络的预测方法。然而，这些方法都是基于RNN的循环计算结构刻画流量在时序上的长期依赖性，当流量序列的时间跨度增长时，这些方法并不能从更大的时间尺度中捕获更为复杂的时序相关性，因而在具有高突发性、高时变性的通信场景下，传统的深度学习算法的准确率无法得到进一步提升。

此外，深度学习算法的实现基于不断提升的硬件并行计算能力(GPU,FPGA)，但是基于RNN的结构在神经网络训练时必须进行线性计算，这就使得这些预测算法无法充分利用现有硬件的并行计算能力，这就导致流量预测模型进行大规模部署和分布式训练时的成本增加。

发明内容

本发明提出了一种基于自注意力卷积网络的无线业务流量预测方法，用于解决基于RNN结构的深度学习方法无法捕获流量数据在长时间序列内的复杂相关性问题，以及预测算法难以并行化实现，训练效率不高的问题。

本发明还提供了一种计算机设备及存储介质；

本发明利用自注意力卷积网络，对无线业务流量的历史数据与时间特征进行学习与融合，能够有效提取流量数据在大时间尺度下的动态特性。该算法不仅能够有效提升流量预测的准确率，而且能够进行并行化处理，提升了神经网络的训练效率，进而提升流量预测算法的整体性能。

术语解释：

范数：设向量X＝{x₁,x₂,...,x_n}，则向量X的

范数定义为

范数：设向量X＝{x₁,x₂,...,x_n}，则向量X的

范数定义为

残差卷积层：设输入为张量X，输出为张量O,卷积核为W₁,W₂。残差卷积层对输入进行卷积运算后与输入相加，即：O＝σ(X+W₂*(σ(W₁*X)),式中*表示卷积运算，残差卷积层示意图如图5所示。

本发明的技术方案为：

一种基于自注意力卷积网络的无线业务流量预测方法，是指：将待预测的原始无线业务流量预处理后输入至训练好的流量预测模型，得到预测的流量数据，流量数据是指流量值；

待预测的原始无线业务流量预处理的过程包括：

以小时为时间粒度单位，利用滑动时间窗，对原始无线业务流量进行划分，使每组流量数据时间跨度为T小时；在空间维度上，不同地区拼接成为一个网格，使处于同一时段的不同地区的流量数据以数据矩阵的形式存储在数据库中，得到处理后的每组流量数据D′＝{D₁′,D₂′,...,D_t′...,D_T′}，其中矩阵

H表示网格行数,W表示网格列数，将网格中心作为原点，矩阵D_t′中的元素d_t ^(h,w)′表示坐标为(h,w)地区在第t小时的流量值；将与第t小时的流量数据对应的时间戳信息存储为长度为l_d的一维张量D_date′；将不同地区与流量数据生成相关的特征存储为特征矩阵，将N种特征的特征矩阵拼接为一个3维张量

本发明考虑了处于不同时间节点流量数据的动态特性，提升了神经网络对于大时间尺度流量数据的特征提取能力，此外，本发明对不同时间节点流量数据的特征学习过程进行并行化处理，以达到提升算法的总体性能的目的。

根据本发明优选的，所述流量预测模型包括时间编码网络、自注意力机卷积网络、特征嵌入网络及卷积残差网络；

所述时间编码网络提取时间戳信息中的特征，将所得特征与具有一定时间跨度的流量数据进行融合；所述自注意力机卷积网络对处于不同时间节点的无线流量数据进行相关性分析与特征表征；所述特征嵌入网络对其它相关特征进行特征提取；所述卷积残差网络将所述自注意力机卷积网络的输出结果与所述特征嵌入网络的输出结果表征进行融合后得到下一时段的预测流量Y'。

为了提升无线业务流量预测的整体性能，所述流量预测模型的训练过程如下：

(1)以小时为时间粒度单位，利用滑动时间窗，对原始无线业务流量进行划分，使每组流量数据时间跨度为T小时；

在空间维度上，不同地区拼接成为一个网格，使处于同一时段的不同地区的流量数据以数据矩阵的形式存储在数据库中，得到处理后的每组流量数据D＝{D₁,D₂,...,D_t...,D_T}，其中矩阵

H表示网格行数,W表示网格列数，将网格中心作为原点，矩阵D_t中的元素d_t ^(h,w)表示坐标为(h,w)地区在第t小时的流量值；

(2)将与第t小时的流量值对应的时间戳信息存储为长度为l_d的一维张量D_date；将不同地区与流量数据生成相关的特征存储为特征矩阵，将不同特征矩阵拼接为一个3维张量

N表示相关的特征的数目；

(3)将步骤(1)及步骤(2)得到的时间跨度为T时段的流量数据D、时间戳信息D_date、相关特征矩阵D_cross作为流量预测模型的输入，将第T+1时段的流量数据作为训练目标，构建含有n个训练样本的数据集，将整个数据集划分为训练集、验证集与测试集；

(4)以时间戳信息为输入，构建时间编码网络F_date。所述时间编码网络将时间戳信息D_date与时间跨度为T时段的流量数据D进行融合，将特征融合结果传入到由l_a层自注意力卷积单元构成的所述自注意力机卷积网络，利用自注意力机制对流量数据在时间维度的复杂动态特性进行建模；

(5)所述特征嵌入网络对无线业务流量的相关特征D_cross进行特征提取后得到特征表征O_cross，将O_cross与步骤(4)中所述自注意力机卷积网络的输出作为包含l_r层残差卷积层的残差卷积网络F_r的输入进行特征融合，得到预测流量值；计算预测流量Y'值与实际流量值Y的均方误差，构建神整个流量预测模型的损失函数；

(6)利用随机梯度下降算法，对整个预测神经网络进行监督训练，直至满足训练结束条件。

根据本发明优选的，所述时间戳信息是指对流量生成时段的具体描述，包括星期、小时、是否周末、是否法定节假日、是否通勤高峰。

根据本发明优选的，不同地区与流量数据生成相关的特征包括该地区的道路车流量、基站数量、通信基站数量、商场数量、人口密度；通过第三方的开源API获取不同地区与流量数据生成相关的特征。例如，谷歌地图API，高德地图API。

根据本发明优选的，所述步骤(4)，包括步骤如下：

(a)利用线性映射构建时间编码网络F_date，通过时间编码网络F_date对时间戳信息D_date做进一步表征，时间编码网络F_date输出记作O_date，如式(I)所示：

式(I)中，σ是激活函数，向量

向量

均是线性映射参数，b¹、b²均是线性映射偏置，通过两次映射对时间戳信息进行更为准确的特征表征；

(b)由于自注意力机制，无法充分利用流量数据在时间维度上的先后序列性，为此，本发明将步骤(a)中时间编码信息O_date与对应时段的流量数据D_t进行线性叠加，从而更好地刻画不同时段流量数据时序性，线性叠加结果为X＝{X₁,X₂...X_T}；

(c)第l层自注意力卷积单元，l∈{1,2,...,l_a}，通过卷积运算对每一时刻的流量数据X_t做进一步的特征学习,如式(Ⅱ)-(Ⅳ)所示：

式(Ⅱ)-(Ⅳ)中，

表示第l层自注意力卷积单元的输入，

分别表示含有不同参数的卷积层，通过卷积运算提取不同时段流量数据的特征表征，

表示第t个时段的流量数据在第l层自注意力卷积单元的3种特征表征；

通过式(Ⅱ)-(Ⅳ)的卷积运算，某一特定时段的流量数据被表征为Q,K,V三个张量；

(d)利用不同时段的Q,K值对序列相关性进行模式挖掘，第t时段与第i时段的相关性如式(Ⅴ)所示：

式(Ⅴ)中，ψ是softmax函数，

表示第i时段的特征表征相对与第t时段特征表征的相关系数，通过i∈{1,2,...t}限定第t时段的流量只与第t时段之前产生的流量有关，Q_t、K_i分别就是

(e)根据步骤(d)求取的权重

对不同时段的V张量进行加权求和，如式(Ⅵ)所示：

式(Ⅵ)中，σ()表示激活函数,

表示第l层注意力卷积单元的输出；

根据本发明优选的，所述步骤(5)，具体步骤如下：

(f)通过卷积层对无线业务流量的相关特征D_cross进行特征提取，如式(Ⅶ)所示：

式(Ⅶ)中，*表示卷积运算，W_c ¹，W_c ²是卷积层的卷积核参数，b₁，b₂表示卷积运算的偏置；

(g)利用残差卷积层f_residual对O_cross和

进行特征融合，得到预测的流量数据Y'，如式(Ⅷ)所示：

式(Ⅷ)中，

是自注意力卷积网络S的输出，f_residual ¹、f_residual ²表示含有不同参数的残差卷积层；

根据本发明优选的，在损失函数中添加正则化项作为优化目标，避免神经网络在进行训练时出现过拟合，损失函数L_loss如式(Ⅸ)所示：

式(Ⅸ)中，Y是T+1时段的实际流量数据，θ是整个流量预测模型的训练参数，

为范数函数，p的取值范围为{1,2}，1代表

范数，2代表

范数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于自注意力卷积网络的无线业务流量预测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于自注意力卷积网络的无线业务流量预测方法的步骤。

本发明的有益效果为：

1、本发明基于自注意力卷积网络的无线业务流量预测方法，基于自注意力卷积网络的预测算法准确率得到有效提升，预测值跟真实值相近，误差较小。

2、本发明自注意力卷积网络可以并行化实现，提高了神经网络训练效率，有利于预测模型在分布式系统中的大规模线上部署。

3、本发明可用于提升智能通信系统中的流量预测性能，辅助通信网络进行更合理的资源调度与管理。

附图说明

图1是本发明中基于自注意力卷积网络的无线业务流量预测方法的流程示意图；

图2是本发明自注意力机卷积网络进行相关性分析与特征表征的流程示意图；

图3是本发明实施例6与其它两种现有算法的对比示意图；

图4是本发明实施例6预测值与真实值的对比结果图；

图5为本发明自注意力卷积网络的结构框图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

待预测的原始无线业务流量预处理的过程包括：

实施例2

根据实施例1所述的一种基于自注意力卷积网络的无线业务流量预测方法，其区别在于：

流量预测模型包括时间编码网络、自注意力机卷积网络、特征嵌入网络及卷积残差网络；如图1所示，时间编码网络提取时间戳信息中的特征，将所得特征与具有一定时间跨度的流量数据进行融合；自注意力机卷积网络对处于不同时间节点的无线流量数据进行相关性分析与特征表征；特征嵌入网络对其它相关特征进行特征提取；卷积残差网络将自注意力机卷积网络的输出结果与特征嵌入网络的输出结果表征进行融合后得到下一时段的预测流量Y'。

实施例3

为了提升无线业务流量预测的整体性能，流量预测模型的训练过程如下：

N表示相关的特征的数目；

(4)以时间戳信息为输入，构建时间编码网络F_date。时间编码网络将时间戳信息D_date与时间跨度为T时段的流量数据D进行融合，将特征融合结果传入到由l_a层自注意力卷积单元构成的自注意力机卷积网络，利用自注意力机制对流量数据在时间维度的复杂动态特性进行建模；

(5)特征嵌入网络对无线业务流量的相关特征D_cross进行特征提取后得到特征表征O_cross，将O_cross与步骤(4)中自注意力机卷积网络的输出作为包含l_r层残差卷积层的残差卷积网络F_r的输入进行特征融合，得到预测流量值；计算预测流量Y'值与实际流量值Y的均方误差，构建神整个流量预测模型的损失函数；

在损失函数中添加正则化项作为优化目标，避免神经网络在进行训练时出现过拟合，损失函数L_loss如式(Ⅸ)所示：

为范数函数，p的取值范围为{1,2}，1代表

范数，2代表

范数。

时间戳信息是指对流量生成时段的具体描述，包括星期、小时、是否周末、是否法定节假日、是否通勤高峰。

不同地区与流量数据生成相关的特征包括该地区的道路车流量、基站数量、通信基站数量、商场数量、人口密度；通过第三方的开源API获取不同地区与流量数据生成相关的特征。例如，谷歌地图API，高德地图API。

实施例4

步骤(4)，包括步骤如下：

式(I)中，σ是激活函数，向量

向量

式(Ⅱ)-(Ⅳ)中，

表示第l层自注意力卷积单元的输入，

式(Ⅴ)中，ψ是softmax函数，

(e)根据步骤(d)求取的权重

对不同时段的V张量进行加权求和，如式(Ⅵ)所示：

式(Ⅵ)中，σ()表示激活函数,

表示第l层注意力卷积单元的输出；

实施例5

根据实施例1所述的一种基于自注意力卷积网络的无线业务流量预测方法，其区别在于：步骤(5)，具体步骤如下：

(g)利用残差卷积层f_residual对O_cross和

进行特征融合，得到预测的流量数据Y'，如式(Ⅷ)所示：

式(Ⅷ)中，

是自注意力卷积网络S的输出，f_residual ¹、f_residual ²表示含有不同参数的残差卷积层；具体结构如图5所示。

实施例6

根据实施例1所述的一种基于自注意力卷积网络的无线业务流量预测方法，其区别在于：流量预测模型的训练过程如下：

(1)以小时为时间粒度单位，利用滑动时间窗，对原始无线业务流量进行划分，使每组流量数据时间跨度为T＝6小时；

H表示网格行数,H＝25，W表示网格列数，W＝25，将网格中心作为原点，矩阵D_t中的元素d_t ^(h,w)表示坐标为(h,w)地区在第t小时的流量值；

(2)将与第t小时的流量值对应的时间戳信息存储为长度为l_d的一维张量D_date；l_d＝4；将不同地区与流量数据生成相关的特征存储为特征矩阵，将3种特征矩阵拼接为一个3维张量

N表示相关的特征的数目；N＝3；时间戳信息是指对流量生成时段的具体描述，包括星期、小时、是否周末、是否法定节假日、是否通勤高峰。某一地区与流量生成有关的其它特征可以通过谷歌地图API获取，获取的相关特征包括该地区的车站数量、商场数量，通信基站的数量3种特征。

(3)将步骤(1)及步骤(2)得到的时间跨度为T时段的流量数据D、时间戳信息D_date、相关特征矩阵D_cross作为流量预测模型的输入，将第T+1时段的流量数据作为训练目标，构建含有n个训练样本的数据集，将整个数据集划分为训练集、验证集与测试集，所占比例分别为60％、20％、20％。

(4)以时间戳信息为输入，构建时间编码网络F_date。时间编码网络将时间戳信息D_date与时间跨度为T时段的流量数据D进行融合，将特征融合结果传入到由l_a层自注意力卷积单元构成的所述自注意力机卷积网络，l_a＝4，利用自注意力机制对流量数据在时间维度的复杂动态特性进行建模；

包括步骤如下：

式(I)中，σ是激活函数，向量

向量

式(Ⅱ)-(Ⅳ)中，

表示第l层自注意力卷积单元的输入，

式(Ⅴ)中，ψ是softmax函数，

(e)根据步骤(d)求取的权重

对不同时段的V张量进行加权求和，如式(Ⅵ)所示：

式(Ⅵ)中，σ()表示激活函数,

表示第l层注意力卷积单元的输出；

(5)特征嵌入网络对无线业务流量的相关特征D_cross进行特征提取后得到特征表征O_cross，将O_cross与步骤(4)中所述自注意力机卷积网络的输出作为包含l_r层残差卷积层的残差卷积网络F_r的输入进行特征融合，得到预测流量值；l_r＝5；计算预测流量Y'值与实际流量值Y的均方误差，构建神整个流量预测模型的损失函数；具体步骤如下：

(g)利用残差卷积层f_residual对O_cross和

进行特征融合，得到预测的流量数据Y'，如式(Ⅷ)所示：

式(Ⅷ)中，

(6)利用Adam优化算法，对整个神经网络进行监督训练，直至满足训练结束条件。

本实施例提出的基于自注意力卷积网络的无线业务流量预测的效果图如图3、图4所示。从图3可以看出，随着流量数据时间跨度T从3小时增加到6小时，基于自注意力卷积网络的无线业务流量预测方法准确率得到有效提升。

如图4所示，预测值跟真实值相近，误差较小。同时，如图2所示，自注意力卷积网络可以并行化实现，提高了神经网络训练效率，有利于预测模型在分布式系统中的大规模线上部署。综上所述，本发明可用于提升智能通信系统中的流量预测性能，辅助通信网络进行更合理的资源调度与管理。

实施例7

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-5任一所述基于自注意力卷积网络的无线业务流量预测方法的步骤。

实施例8

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现实施例1-5任一所述基于自注意力卷积网络的无线业务流量预测方法的步骤。

Claims

1.一种基于自注意力卷积网络的无线业务流量预测方法，其特征在于，是指：将待预测的原始无线业务流量预处理后输入至训练好的流量预测模型，得到预测的流量数据，流量数据是指流量值；

待预测的原始无线业务流量预处理的过程包括：以小时为时间粒度单位，利用滑动时间窗，对原始无线业务流量进行划分，使每组流量数据时间跨度为T小时；在空间维度上，不同地区拼接成为一个网格，使处于同一时段的不同地区的流量数据以数据矩阵的形式存储在数据库中，得到处理后的每组流量数据D′＝{D₁′,D₂′,...,D_t′...,D_T′}，其中矩阵