CN113159109B - 一种基于数据驱动的无线网络流量预测方法 - Google Patents

一种基于数据驱动的无线网络流量预测方法 Download PDF

Info

Publication number
CN113159109B
CN113159109B CN202110240274.8A CN202110240274A CN113159109B CN 113159109 B CN113159109 B CN 113159109B CN 202110240274 A CN202110240274 A CN 202110240274A CN 113159109 B CN113159109 B CN 113159109B
Authority
CN
China
Prior art keywords
characteristic
baseline
flow
residual
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110240274.8A
Other languages
English (en)
Other versions
CN113159109A (zh
Inventor
邢旭东
高晖
许文俊
陆月明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110240274.8A priority Critical patent/CN113159109B/zh
Publication of CN113159109A publication Critical patent/CN113159109A/zh
Application granted granted Critical
Publication of CN113159109B publication Critical patent/CN113159109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

精确的流量预测在智能无线网络中至关重要,这使得智能无线网络作可以提高用户的体验质量。本发明提出了一种基于序列波动模式聚类的无线流量预测架构。首先从原始流量中提取波动模式(基线特征),同时保留噪声分量(残差特征)。然后采用一种层次化密度聚类策略对基线特征聚类。进而采用一种基于LSTM的神经网络模型来学习每个聚类簇中的基线特征。同时,在本发明中,我们假设聚类簇中每个采样时刻的残差特征服从正太分布。通过对残差特征做概率参数估计,以保证整个架构的完备程度。本发明使用真实数据进行实验,因此能够更好地适应真实场景。实验结果表明,与对相关照方案相比,本发明所提方案有效地提高了预测性能。

Description

一种基于数据驱动的无线网络流量预测方法
技术领域
本发明涉及一种数据挖掘和建模业务,旨在通过深入对移动运营商后台的历史流量数据进行深入地分析和系统地理论抽象。从数据的角度出发,挖掘基站流量随时间变化的内在规律,归纳和提取城市区域中流量序列的典型波动模式,进而对每种典型模式建立针对性的预测模型。最大限度地保证区域内无线基站流量预测性能,属于大数据分析与深度学习领域。
背景技术
随着移动通信技术的发展和无线信息传输服务的不断普及,近年来移动用户和设备的数量呈爆炸式增长。根据思科的最新数据,2016年至2021年,无线传输流量预计将增长7倍。无线业务的快速增长对移动运营商在合理配置基站资源、提高用户体验等方面提出了更高的要求。可靠的流量预测可以使网络尽早平衡用户之间的物理资源分配,从而保证用户的QoS。如果能够预见到流量拥塞或闲置,进而及时进行相应的资源调整,提高资源利用效率,保证网络稳定,提高用户体验。另外,如果提前预测基站未来将有一段时间处于闲置状态,可以提前适当关闭基站,减少不必要的能量损失。
无线流量预测是网络智能化运维的研究热点之一。通常可以将其建模为一般的时间序列预测问题。其中,季节自回归滑动平均(SARIMA)作为经典的时间序列分析方法被广泛应用。然而,SARIMA缺乏对非线性波动的捕捉能力限制了其性能上限。近年来,深度学习的兴起使得许多学者尝试将神经网络应用于流量预测。其中,一种基于循环神经网络(RNN)的变体结构:长短期记忆网络(LSTM)被广泛应用。此外,也有一些研究引入基于梯度提升法的集成学习模型应用于流量预测,例如XGBoost、LightGBM等。
从本质上讲,流量预测问题是一个时间序列拟合问题,以上研究虽然在一定程度上取得了一些成果,但应用于真实运维场景中仍存在以下问题:(1)缺少对原始数据的预处理,真实的运维数据通常带有大量突发噪声,这些噪声若不加以提取和剥离,会严重限制模型的拟合性能。(2)仅使用单条时间序列建模,即一次训练只能针对一座基站,缺乏对整个服务区域内不同基站流量波动的共性特征进行挖掘和提取,训练开销过大。(3)相对应地,也有一些研究者将全部基站流量数据共同训练一个预测模型,这样又忽视了部分基站流量波动之间的差异性,不同波动规律的流量序列相互影响,限制了模型的拟合性能。
发明内容
有鉴于此,本发明的目的是提供一种基于数据驱动的城市蜂窝网络流量预测方法。需要先从数据库中提取基站的历史流量数据,去除无效记录后,保存记录周期完整的流量数据和对应的基站信息。进而对流量数据进行预处理,剔除原始数据中的残差(residual)分量、保留基线(baseline)特征分量。进而采用基于密度的聚类方法:挖掘不同基站baseline特征之间的相似性和差异性,将波动规律相似的baseline特征对应的基站划分至有限的聚类簇中。最后,针对不同的聚类簇,使用baseline特征和训练对应的流量预测模型,实现对流量波动规律的拟合及预测;将residual分量视为随机变量,根据时间特征将随机变量分组,每组随机变量均视为服从正太分布的样本,采用极大似然估计法获得正态分布参数,实现对不同时刻下噪声分量的预估。
1.蜂窝基站流量数据预处理方法
本发明采用了滑动窗口平均法从原始流量序列中提取baseline分量,再将原始序列于baseline分量做差获取residual分量。设单座基站的原始流量序列由以下一维向量x=(x1,…,xT)表示,其中T表示流量序列的长度。滑动窗口提取baseline分量的方法是:对于任意时间索引1≤t≤T,第t个baseline分量bt的滑动平均值为
其中,正常情况下的滑动窗口长度为2τ+1,即(1)式中的第2子式是计算baseline分量的一般算法,而第1,3子式是处理左右边界时的特殊情况。单座基站的流量序列经滑动窗口法可以得到完整的baseline序列,b=(b1,…,bT)。进一步地,残差序列为r=x-b,即r=(r1,…,rT)
2.基于基线(baseline)特征的基站聚类方法
聚类的目的是使距离相近的特征被划归到同一类中。对于基站的聚类,首先需要对任意两座基站的baseline向量的相似程度加以定义。本发明采用基于序列形态的距离(shape-based distance,SBD),以下简称为“形态距离”或SBD,做为时间序列之间的距离。序列x1和x2之间的形态距离d(x1,x2)被定义为:
d(x1,x2)=1-max(corr(x1,x2)), (2)
(2)式中,函数corr(·,·)用于求两条时间序列的互相关函数,它返回一个一维向量,其中的每个元素均为两条序列的“错位内积”,函数max(·)返回输入序列的最大值。根据(2)式定义易知:0≤d(x1,x2)≤2,d(x1,x2)越接近0,两条序列的形态距离越近,相似度越高。其中两条序列进行“错位内积”的具体计算流程是:首先,基线分量1相对基线分量2静止,基线分量2不断向左平移,每平移一个时间单位两条序列便计算一次内积,没有重叠的部分做“补零”处理,直至两条序列完全重合,进而再次完全错开为止。在量化序列之间相似度的基础上,本发明设计了一种基于密度(DBSCAN)的层次聚类方法实现对baseline特征的聚类。以形态距离作为基线特征的距离度量,通过递归的方式不断地从当前baseline特征集中提取聚集数量最多的聚类簇,实现将波动规律相近的基站划分至同一类别中。同时,每个基站对应的residual特征也根据baseline特征的聚类结果进行划分。
3.训练流量预测模型
本发明首先使用滑动窗口法制备训练数据,设滑动窗口长度为W,通过不断平移窗口截取作为模型输入的baseline特征,相应的下一时刻的采样值作为模型的输出标签。即实现使用历史的W个流量采样预测未来时刻的流量值。其次,本发明设计了一个基于Bi-LSTM网络的深度学习模型,见图5。所有聚类的模型均采用相同的模型结构。
4.残差(residual)分量的处理方法
本发明设计了一种处理residual分量的方法:将residual特征中的每个分量视为服从一维正态分布的随机变量,进而对每个聚类簇中的residual样本采用极大似然估计法计算对应的正态分布参数,已知正态分布的对数似然函数为:
其中,ri表示残差随机变量,n表示样本总数。求(3)式关于μ和σ2的偏导数等于0的方程组,解得:
附图说明
图1为摘要附图。
图2为无线网络流量预测架构示意图。
图3为原始数据的特征提取模块示意图。
图4为基于多层次密度聚类的小区划分模块示意图。
图5为基于Bi-LSTM模型的流量预测模块示意图。
图6为残差特征参数估计模块示意图。
图7为本发明流量预测模型与对照组模型的拟合优度(R2)对比图。
图8为本发明流量预测模型与对照组模型的满足R2阈值基站比率曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图2,无线网络流量预测架构示意图。原始流量序列首先被分解为基线特征和残差特征。然后,通过具有基于层次化密度聚类策略的无监督算法对基线特征进行聚类,从而获得一些基线特征聚类簇。此外,残差特征的分组也遵循基线特征。对于每个簇的特征数据,本发明提出一种基于Bi-LSTM的神经网络模型来拟合基线特征。同时,本发明假设单个簇的残差特征在每个小时下的采样样本服从正态分布。进而通过使用最大似然估计法来求解参数,以获得更准确的性能。
参见图3,原始数据的特征提取模块示意图。设置合理的滑动窗口长度,每个时刻的流量值采用滑动窗口中的流量记录的平均值替换,得到规律明显且平滑的基线分量特征序列。“取反”指取序列元素的相反数,再通过加法器与原始序列相加,实现做减法的表示。即:残差序列是由原始流量序列与基线特征序列相互做差得到。
参见图4,基于多层次密度聚类的小区划分模块示意图。初始化相关参数,调用sci-kit learn中的DBSCAN接口对所有基站的基线特征分量聚类。通过不断放宽eps参数,保证每次聚类的结果能够聚类出足够数量的基站,保证聚类出有限且差异明显的聚类结果。
参见图5,基于Bi-LSTM模型的预测模块示意图。使用过去24小时的数据预测未来1小时的数据。本发明设计了基于Bi-LSTM的神经网络结构。对每个聚类簇的极限特征分别训练各自的预测模型。其中,每个模型均采用相同的结构:输入层由24个神经元构成,下方连接Bi-LSTM层,正向LSTM神经元数和反向LSTM神经元数均为18个。双向LSTM层分别输出18维特征在下一层拼接成36维特征。后续再进入18单元的全连接层,最后到达单神经元的输出层,模型输出结果作为预测基线特征。使用Tensorflow部署和训练模型。
参见图6,残差特征参数估计模块示意图。本发明假设不同时刻的残差特征均服从不同均值和方差的正态分布。对于每个分簇内的残差特征数据,首先将这些数据根据“小时”分组。即0~23时,共24组。然后,对每一组残差样本采用极大似然估计法计算正太分布的均值和方差,建立分时刻概率模型。
参见图7,本发明流量预测模型与对照组模型的拟合优度(R2)对比图。其中,分簇1~分簇8对应的粉色柱对应本发明提出的预测方案。分簇0对应的是层次化聚类后剩余的“离群点”小区。total表示未采用层次化聚类,而将全部数据进行模型训练的情况。我们以total情况下采用基于Bi-LSTM构建的深度神经网络的结果作为参照,即黑色虚线。从中可以明显看出,本发明所提出的通过提取基线特征,进而对基线特征做密度聚类,再使用神经网络拟合得到的模型的方案的拟合优度要明显优于其它对照方案。本发明所提方案能够得到更加良好的预测性能。
参见图8,本发明流量预测模型与对照组模型的满足R2阈值基站比率曲线图。横轴表示R2阈值,纵轴表示单基站预测的拟合优度超过横轴对应阈值的百分比。显然,随着R2阈值增加,对系统性能的要求逐渐严苛,所有方案的曲线均称下降趋势。对比其它方案,本发明的拟合性能曲线(蓝色粗线)均处于最高位置,在85%拟合性能门限要求下仍能够保证超过90%基站的拟合性能,本发明提出流量预测方案能够尽可能地保证绝大多数无线小区的预测结果。
以上所述仅为本发明的一个实例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (1)

1.一种基于数据驱动的城市蜂窝网络流量预测方法,该方法通过从原始流量数据中提取基线特征;进而提出一种层次聚类的思想,将不同基站的基线特征归纳为若干典型的流量波动模式;进而使用不同聚类的典型模式数据训练基于Bi-LSTM的神经网络模型,实现对无线网络的流量预测;所述方法包括以下模块:
(1)原始数据的特征提取:使用滑动窗口平均法对原始流量数据做平滑处理,即对于序列中的任意时刻的采样,首先获取该时刻的流量值与相应的前后各若干固定长度的采样流量值,取这些采样的平均值替换对应时刻的原始数据;随着窗口不断滑动,最终可以得到平滑的且能反映流量平均波动特性的基线特征;此外,通过将原始的流量特征与基线特征做差运算获取残差特征另作处理;
(2)基于多层次密度聚类的小区划分:采用一种基于对比时间序列的形态距离度量不同基站流量特征序列之间的相似度;进而,提出了层次化的密度聚类思想,以形态距离作为距离度量指标,从整个基线特征数据集中提取出当前相似度最高的聚类簇,将剩余的基线特征集作为新的数据,递归地执行密度聚类,不断地提取聚类簇,最终余下的特征集作为离群特征单独作为一个集合;
(3)基于Bi-LSTM模型的预测:对不同的聚类簇中的基线特征集分别训练预测模型,模型结构基于Bi-LSTM的神经网络设计;使用Tensorflow部署和训练模型,实现对流量的波动趋势预测;
(4)残差特征参数估计:对于每个聚类簇中与基线特征对应的残差特征数据,将残差特征根据采样时刻分组,假设每个时刻的特征数据服从正态分布,采用极大似然估计法计算正态分布的参数,实现对残差分量的建模;基于残差分量建立的概率模型作为对基线特征预测结果的补充,进而得到最终预测结果。
CN202110240274.8A 2021-03-04 2021-03-04 一种基于数据驱动的无线网络流量预测方法 Active CN113159109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110240274.8A CN113159109B (zh) 2021-03-04 2021-03-04 一种基于数据驱动的无线网络流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110240274.8A CN113159109B (zh) 2021-03-04 2021-03-04 一种基于数据驱动的无线网络流量预测方法

Publications (2)

Publication Number Publication Date
CN113159109A CN113159109A (zh) 2021-07-23
CN113159109B true CN113159109B (zh) 2024-03-08

Family

ID=76884150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110240274.8A Active CN113159109B (zh) 2021-03-04 2021-03-04 一种基于数据驱动的无线网络流量预测方法

Country Status (1)

Country Link
CN (1) CN113159109B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2613189B (en) * 2021-11-26 2023-11-22 British Telecomm Wireless telecommunications network
CN115334005B (zh) * 2022-03-31 2024-03-22 北京邮电大学 基于剪枝卷积神经网络和机器学习的加密流量识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109640351A (zh) * 2019-01-25 2019-04-16 南京邮电大学 一种基站流量的联合预测方法
CN110348608A (zh) * 2019-06-18 2019-10-18 西安交通大学 一种基于模糊聚类算法改进lstm的预测方法
CN110502806A (zh) * 2019-07-31 2019-11-26 电子科技大学 一种基于lstm网络的无线频谱占用度预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109640351A (zh) * 2019-01-25 2019-04-16 南京邮电大学 一种基站流量的联合预测方法
CN110348608A (zh) * 2019-06-18 2019-10-18 西安交通大学 一种基于模糊聚类算法改进lstm的预测方法
CN110502806A (zh) * 2019-07-31 2019-11-26 电子科技大学 一种基于lstm网络的无线频谱占用度预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习的网络流量分析综述;唐政治 等;《网络新媒体技术》;20200930;第9卷(第5期);全文 *

Also Published As

Publication number Publication date
CN113159109A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113159109B (zh) 一种基于数据驱动的无线网络流量预测方法
CN113221905B (zh) 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
CN109447275B (zh) Udn中基于机器学习的切换方法
CN114241282A (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN110968426A (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
CN110705516B (zh) 一种基于协同网络结构的鞋底花纹图像聚类方法
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN112287990A (zh) 一种基于在线学习的边云协同支持向量机的模型优化方法
CN111738303A (zh) 一种基于层次学习的长尾分布图像识别方法
Lei et al. Learning-based resource allocation: Efficient content delivery enabled by convolutional neural network
CN111582326A (zh) 一种密度峰值聚类算法的簇中心的选取方法以及设备
CN110689092B (zh) 一种基于数据导向的鞋底花纹图像深度聚类方法
CN116012880A (zh) 分布式边缘协同推理的行人重识别方法、系统及装置
Wei et al. Differentiable architecture search-based automatic modulation classification
Ma et al. Cellular Network Traffic Prediction Based on Correlation ConvLSTM and Self-Attention Network
CN116824270A (zh) 一种基于注意力机制改进的小样本车型识别方法
Cai et al. Multi-granularity weighted federated learning in heterogeneous mobile edge computing systems
CN114581470B (zh) 一种基于植物群落行为的图像边缘检测方法
CN113516163B (zh) 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质
CN116151409A (zh) 基于神经网络的城市日需水量预测的方法
CN115292361A (zh) 一种分布式能源异常数据的筛选方法及系统
CN115526331A (zh) 一种基于病变类别感知的数字病理图像的表征学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant