CN112399458A - 一种移动通信网络流量的大数据分析方法 - Google Patents
一种移动通信网络流量的大数据分析方法 Download PDFInfo
- Publication number
- CN112399458A CN112399458A CN202011277931.8A CN202011277931A CN112399458A CN 112399458 A CN112399458 A CN 112399458A CN 202011277931 A CN202011277931 A CN 202011277931A CN 112399458 A CN112399458 A CN 112399458A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- value
- performance index
- network performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种移动通信网络流量的大数据分析方法,涉及移动网络和机器学习的技术领域,包括采集性能指标数值、缺省值填充、数据的抽取与聚合、高斯混合模型聚类、以及测试模型共五个步骤;其中,步骤1‑3是对数据的预处理,在完成了上述三个步骤后,再执行步骤4和5。本发明是根据时间多样性,在处理网络性能指标后,通过机器学习算法得出面向时空多样性的移动网络流量模型,然后用部分网络性能指标验证此模型,评估模型的泛化能力。本发明操作步骤简单、容易实现,具有较好的推广应用前景。
Description
技术领域
本发明涉及移动网络和机器学习的技术领域,具体涉及一种基于聚类的移动网络中面向时间和空间的网络流量分析方法
背景技术
目前,使用移动网络的用户不断增加,这既是运营商的发展机遇,同时也给其带来挑战。为了提高用户的满意度,运营商需要对所提供的移动网络服务不断进行改进和优化。具体来说,首先需要对移动网络质量进行监测并生成相应的监测日志或数据,其次对移动网络质量进行全面有效的评估,最后根据移动网络质量的评估结果,有针对性地加强移动网络的优化建设。
目前,移动网络中,通常使用不同的性能指标来判断当前的网络质量状况,比如语音接通率VOLTE(Voice over Long-Term Evolution),VOLTE语音话务量,数据业务量,连接最大数RRC(Radio Resource Control),触发的RRC连接释放次数CSFB(Circuit SwitchedFallback),重定向到2G的RRC连接释放次数,重定向到 3G的RRC连接释放次数,下行弱覆盖比MR(Measurement Report), MR下行良好覆盖比,VOLTE语音下行丢包,VOLTE下行时延,上行PRB 平均利用率,下行PRB平均利用率,有效RRC连接最大数,ERAB拥塞率,VOLTE语音用户QCI等于1切换成功率,ERAB建立成功率,VOLTE 语音上行丢包率等等。
不同时间段的网络性能指标的值是不一样的,比如白天时间段的数据业务量比晚上高,节假日时段景区的数据业务量会变高。除了时间上的联系,在空间中,基站会部署在不同位置,每个基站从自身的覆盖范围中采集相应的网络性能指标。基站坐落于不同位置,采集到的网络性能指标也有不同的时空多样性。对这些具有时空多样性的网络性能指标,可以利用机器学习算法探索面向时空多样性的移动网络流量模型。
这些网络性能指标也与人们的生活息息相关,网络性能指标的使用可以在一定程度上反映人们的活动轨迹,移动流量的区域密集程度可以反映出城市的热点地区分布。基于这些信息可以分析出很多特征,对基站选址布局、城市区域规划、用户互联网画像等都有重要意义。
随着用户对通话质量的要求不断提升,移动互联网不断发展和完善,国内外各类对基站流量和网络性能指标的分析和建模的项目不断被发布。前人使用机器学习算法来研究移动网络流量,研究对象可以是业务兴趣、移动性等,也可从时间维度,空间维度以及两者的结合进行探索。基于空间维度分析流量特性,如改善毫米波蜂窝网络的下行链路传输中的性能,预测空间依赖性和基站流量带来的长期需求, 以用户为中心的分布式群集和UDN中的基站模式选择问题,基于时间和空间二维度分析流量特性,如利用LSTM模型学习基站流量的时间依赖性和空间相关性,并对未来一段时间做流量预测。
发明内容
本发明提供一种移动通信网络流量的大数据分析方法,它能够快速、且更准确地分析移动网络流量,并且能够用来分析面向时间和面向空间的移动网络流量。
为解决上述问题,本发明采用如下技术方案:
一种移动通信网络流量的大数据分析方法,包括以下步骤:
步骤1,采集性能指标数值:收集移动网络中的场景中的基站的网络性能指标的数据;对于基站记录的性能指标的数据,分别收集其各个网络性能指标的数据;
步骤2,数据的抽取与聚合:剔除各个基站中的网络性能指标的无用数据及干扰数据;
步骤3,对数据进行聚类:采用高斯混合模型进行拟合,并采用期望最大算法进行算法训练;
步骤4,对模型进行测试:选取网络性能指标样本集验证模型,对模型的超参数进行填筑并且对模型的能力进行评估。
进一步地,如果步骤1中性能指标数据缺失或者数值异常,还包括以下步骤:
步骤1.5,缺省值填充:若一个基站的性能指标数据存在缺失值,则计算该性能指标数据在所有基站中的均值,并将该均值作为为缺失值的替补值。
进一步地,所述步骤2中,无用数据为具有相同数值的网络性能指标的数据,干扰数据为超过正常值范围的数据。
进一步地,所述步骤3中,使用了高斯混合分布作参数模型,其公式为:
进一步地,在所述步骤4中,采用轮廓系数对模型的能力进行评估,所述轮廓系数为:
其中,a是与其同类别中其他网络性能指标的平均距离,b是与其距离最近不同类别中网络性能指标的平均距离。
更进一步地,在所述步骤1中,选择12个网络性能指标,分别为ERAB拥塞率、RRC连接最大数、MR下行良好覆盖比例、重定向到3G的RRC连接释放次数、ERAB建立成功率、无线接通率、VOLTE 语音上行丢包率、CSFB触发的RRC连接释放次数、有效RRC连接最大数、VOLTE语音话务量ERL、重定向到2G的RRC连接释放次数和区县位置。本发明分析的网络性能指标以月为跨度,数据的时间跨度较长,网络性能指标有时间多样性,例如季节、周末、节假日、天气变化等。不同时间段的网络性能指标的值是不一样的,比如白天时间段的数据业务量比晚上高,节假日时段景区的数据业务量会变高。根据这些时间特性,分析在不同时间特性下的移动网络流量变化,通过机器学习算法得到面向时间多样性的移动网络流量模型。除了时间上的联系,在空间中,基站会部署在不同位置,每个基站从自身的覆盖范围中采集相应的网络性能指标。基站坐落于不同位置,采集到的网络性能指标也有不同的多样性。对这些具有时空多样性的网络性能指标,可以利用机器学习算法探索面向空间多样性的移动网络流量模型。
附图说明
图1是本发明的移动网络流量的大数据分析方法的操作步骤流程图。
图2是某时段移动网络中的面向时空多样性的移动网络流量聚类一的结果在地图中的示意图。
图3是某时段移动网络中的面向时空多样性的移动网络流量聚类二的结果在地图中的示意图。
图4是某时段移动网络中的面向时空多样性的移动网络流量聚类三的结果在地图中的示意图。
图5是某时段移动网络中的面向时空多样性的移动网络流量聚类四的结果在地图中的示意图。
图6是某时段移动网络中的面向时空多样性的移动网络流量聚类五的结果在地图中的示意图。
具体实施方式
下面用最佳的实施例对本发明做详细的说明。
如图1-6所示,结合本发明实施例,详细介绍基于聚类的面向时空多样性的移动网络流量分析方法的操作步骤流程:
本发明的移动网络流量的大数据分析方法在建模时,根据时间多样性,如季节、节假日、天气等时间,在处理网络性能指标后,通过机器学习算法得出面向时空多样性的移动网络流量模型,然后用部分网络性能指标验证此模型,并且拟采用部分流量数据测试模型,评估模型的泛化能力。对网络性能指标分析处理后,建立面向时空多样性的移动网络流量模型。
本发明的实施例是选取移动网络中的12个性能指标。虽然实际应用中的性能指标数量为数百个、甚至上千个,实施例中则选择使用 12个性能指标,其具体包括:ERAB拥塞率,RRC连接最大数,MR下行良好覆盖比例,重定向到3G的RRC连接释放次数,ERAB建立成功率,无线接通率,VOLTE语音上行丢包率,CSFB触发的RRC连接释放次数,有效RRC连接最大数,VOLTE语音话务量ERL,重定向到2G的 RRC连接释放次数,区县位置;同样也分别对应设置为序号是第1、 2、…、i、…、12个。
步骤1,采集性能指标数值:收集了移动网络中的场景中长时间的具有时空多样性的网络性能指标,包括多维度衡量网络性能的指标。
其中,采集性能指标数值集合X={x1,x2,…,xi,…,xn}中的每个性能指标xi的数值(此实施例中为12个性能指标);分别用x1,x2,…xi,…, xn表示不同维度的网络性能指标;对于每一条基站记录的数据,都应该包含这n个维度的指标,分别用xj1,xj2,…xji,…,xjn表示第j条数据的n维数据。如果某些指标数据缺失或者数值异常,应采取缺省值填充。
步骤2,缺省值填充:本方法采用高斯混合模型(GMM模型)进行聚类,此方法使用了高斯混合分布作参数模型,分析时需要完全数据集,当有些情况下数据无法完整记录。
当存在数据缺失时,直接进行高斯混合模型(GMM模型)进行聚类得到的结果不尽如人意,此时需要用均值替代缺失数据,此时的均值是合理的替补值。具体方法为:若xji为缺失值,就需要先计算xi的均值,以此为xji合理的替补值。通过上述步骤构造出“完整”的数据集后,才可以对数据进行聚类。
步骤3,数据的抽取与聚合:对于某些性能指标,若性能指标xi的所有的数值都相同可以选择剔除,例如所有的xi=m,可以将指标xi剔除,减少训练模型的时间;同时基站收集数据时,会有部分远超过正常值范围(过大过小、不可能出现的值)的数据,要去除这种干扰项指标。在除掉无用及干扰项指标后,就得到待处理的数据集。
步骤4,对数据进行聚类,本方法采用高斯混合模型(GMM模型) 进行聚类,此方法使用了高斯混合分布作参数模型,可将其看做N个性能指标的高斯模型的混合效果,公式为:其混合效果是K个高斯分布的和(K为步骤3后剔除后的性能指标的个数),每个高斯分布都有自己的参数μ和其中μ为数据均值(期望),为数据标准差,另外每个高斯分布都有相应的权重参数,所有的权重参数相加为1。用高斯混合模型(GMM模型)进行拟合,并采用期望最大算法(EM)进行算法训练。
本发明使用模型生成的数据来决定似然值,即通过模型来计算数据的期望值,通过更新参数μ和使期望最大化。不停地迭代此过程直至迭代生成的参数值趋于稳定(具体地,经过两次迭代生成的参数值差距会很小,此时趋于稳定)。
步骤5,对模型进行测试。在训练模型后,选取网络性能指标样本集验证模型,可以对模型的能力进行评估。
验证具体过程如下:
引用轮廓系数(Silhouette Coefficient),对于单个网络性能指标样本,设a是与其同类别中其他网络性能指标样本的平均距离, b是与其距离最近不同类别中网络性能指标样本的平均距离,其轮廓系数为:
对于一个网络性能指标样本集合,其轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],当聚类适当时,有较高的轮廓系数值,当许多点都有低或者负的值,说明分类过多或者过少。
轮廓系数为-1时表示聚类结果不好,为+1时表示簇内实例之间紧凑,为0时表示有簇重叠。
轮廓系数越大,表示簇内实例之间紧凑,簇间距离大。本实施了的轮廓系数计算如下:
1.[1]from sklearn import metrics
2.[2]metrics.silhouette_score(X,labels,metric='eulidean')
3.[OUT]0.6251835381863645
如上所示,此模型的轮廓系数约为0.625。
图2-6分别示出了2018年8月23日一天的各种聚类的情况。本项目的聚类主要是为了观察聚类集群变化,如工作日期间的景区,聚类点较分散,节假日的景区聚类点更密集。如果非要给每一种聚类分类,可以大约分为交通枢纽、风景区、居民区等。具体地,图2示出了风景区(聚类一)的聚类结果在地图中的表示,图3示出了交通枢纽(聚类二)的聚类结果在地图中的表示,图4-6分别示出了居民区 (聚类三至五)的聚类结果在地图中的表示,其中每一个点都表示每一个数据项,每个图片中的点意味着聚类后属于不同的集群。
本发明将时间和空间两个维度相结合,基于时间和空间二维多样性对网络性能指标聚类,从而得到面向时空多样性的移动网络流量模型,具有操作步骤简单、容易实现的优点,并且具有较好的推广应用前景。
本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。
Claims (8)
1.一种移动通信网络流量的大数据分析方法,包括以下步骤:
步骤1,采集性能指标数值:收集移动网络中的场景中的基站的网络性能指标的数据;对于基站记录的性能指标的数据,分别收集其各个网络性能指标的数据;
步骤2,数据的抽取与聚合:剔除各个基站中的网络性能指标的无用数据及干扰数据;
步骤3,对数据进行聚类:采用高斯混合模型进行拟合,并采用期望最大算法进行算法训练;
步骤4,对模型进行测试:选取网络性能指标样本集验证模型,对模型的超参数进行填筑并且对模型的能力进行评估。
2.根据权利要求1所述的移动通信网络流量的大数据分析方法,其特征在于,如果步骤1中性能指标数据缺失或者数值异常,还包括以下步骤:
步骤1.5,缺省值填充:若一个基站的性能指标数据存在缺失值,则计算该性能指标数据在所有基站中的均值,并将该均值作为为缺失值的替补值。
3.根据权利要求1所述的移动通信网络流量的大数据分析方法,其特征在于,所述步骤2中,无用数据为具有相同数值的网络性能指标的数据,干扰数据为超过正常值范围的数据。
7.根据权利要求1所述的移动通信网络流量的大数据分析方法,其特征在于,在所述步骤4中,采用轮廓系数对模型的能力进行评估,所述轮廓系数为:
其中,a是与其同类别中其他网络性能指标的平均距离,b是与其距离最近不同类别中网络性能指标的平均距离。
8.根据权利要求1所述的移动通信网络流量的大数据分析方法,其特征在于,在所述步骤1中,选择12个网络性能指标,分别为ERAB拥塞率、RRC连接最大数、MR下行良好覆盖比例、重定向到3G的RRC连接释放次数、ERAB建立成功率、无线接通率、VOLTE语音上行丢包率、CSFB触发的RRC连接释放次数、有效RRC连接最大数、VOLTE语音话务量ERL、重定向到2G的RRC连接释放次数和区县位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011277931.8A CN112399458A (zh) | 2020-11-16 | 2020-11-16 | 一种移动通信网络流量的大数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011277931.8A CN112399458A (zh) | 2020-11-16 | 2020-11-16 | 一种移动通信网络流量的大数据分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112399458A true CN112399458A (zh) | 2021-02-23 |
Family
ID=74599517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011277931.8A Pending CN112399458A (zh) | 2020-11-16 | 2020-11-16 | 一种移动通信网络流量的大数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112399458A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113285831A (zh) * | 2021-05-24 | 2021-08-20 | 广州大学 | 网络行为知识智能学习方法、装置、计算机设备及存储介质 |
CN113313049A (zh) * | 2021-06-11 | 2021-08-27 | 北京百度网讯科技有限公司 | 超参数的确定方法、装置、设备、存储介质以及计算机程序产品 |
CN113347659A (zh) * | 2021-06-01 | 2021-09-03 | 深圳市大数据研究院 | 流量预测方法及装置 |
-
2020
- 2020-11-16 CN CN202011277931.8A patent/CN112399458A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113285831A (zh) * | 2021-05-24 | 2021-08-20 | 广州大学 | 网络行为知识智能学习方法、装置、计算机设备及存储介质 |
CN113347659A (zh) * | 2021-06-01 | 2021-09-03 | 深圳市大数据研究院 | 流量预测方法及装置 |
CN113347659B (zh) * | 2021-06-01 | 2022-12-23 | 深圳市大数据研究院 | 流量预测方法及装置 |
CN113313049A (zh) * | 2021-06-11 | 2021-08-27 | 北京百度网讯科技有限公司 | 超参数的确定方法、装置、设备、存储介质以及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107920362B (zh) | 一种基于微区域的lte网络性能评估方法 | |
CN112399458A (zh) | 一种移动通信网络流量的大数据分析方法 | |
Wang et al. | An approach for spatial-temporal traffic modeling in mobile cellular networks | |
Zhu et al. | A novel base station analysis scheme based on telecom big data | |
CN111405585B (zh) | 一种基于卷积神经网络的邻区关系预测方法 | |
CN109495897B (zh) | Lte网络问题区域化聚合方法及装置 | |
Jia et al. | Analyzing and relieving the impact of FCD traffic in LTE-VANET heterogeneous network | |
Liu et al. | Traffic big data analysis supporting vehicular network access recommendation | |
CN111866912B (zh) | 基于时间-空间的业务量区域分类和分析方法 | |
JP2023535841A (ja) | 基地局の省エネルギー処理方法及び処理装置 | |
Kuber et al. | Traffic prediction by augmenting cellular data with non-cellular attributes | |
Al-Thaedan et al. | A machine learning framework for predicting downlink throughput in 4G-LTE/5G cellular networks | |
WO2020215282A1 (en) | Method and apparatus for evaluate data traffic depressed by radio issues | |
Pomalo et al. | A data generator for cloud-edge vehicle communication in multi domain cellular networks | |
Yildirim et al. | A statistical comparative performance analysis of mobile network operators | |
Zhang et al. | Cellular QoE prediction for video service based on causal structure learning | |
Abdullah et al. | A machine learning-based technique for the classification of indoor/outdoor cellular network clients | |
Nan et al. | Regional-union based federated learning for wireless traffic prediction in 5G-Advanced/6G network | |
CN109195175B (zh) | 一种基于云计算的移动无线网络优化方法 | |
CN115442819A (zh) | 网络优化方法和通信装置 | |
CN115087023A (zh) | 道路网络的分析方法及装置 | |
CN115442814B (zh) | 连续弱覆盖识别方法、装置、电子设备及存储介质 | |
Muharram et al. | Firefly algorithm-based optimization of base transceiver station placement | |
Fazio et al. | Cell permanence time and mobility analysis in infrastructure networks: Analytical/statistical approaches and their applications | |
Di et al. | Research on Voice Quality Evaluation Method Based on Artificial Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |