CN115714987A - 一种流量区间预测评估方法、装置和存储介质 - Google Patents
一种流量区间预测评估方法、装置和存储介质 Download PDFInfo
- Publication number
- CN115714987A CN115714987A CN202110947784.9A CN202110947784A CN115714987A CN 115714987 A CN115714987 A CN 115714987A CN 202110947784 A CN202110947784 A CN 202110947784A CN 115714987 A CN115714987 A CN 115714987A
- Authority
- CN
- China
- Prior art keywords
- prediction
- interval
- data
- flow
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 194
- 238000012417 linear regression Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
Abstract
本公开涉及流量区间预测评估方法、装置和存储介质。流量区间预测评估方法包括:获取预定时间区间中的每个单位时段的峰值流量数据;将峰值流量数据分类为忙时时段数据和闲时时段数据,并将表示是忙时时段数据还是闲时时段数据的标签附加于峰值流量数据;选择多个预测算法来形成候补预测算法集合;根据峰值流量数据,计算各个候补预测算法的预测结果,并根据各自的预测结果和真实值,计算针对每个候补预测算法的流量偏差率;根据峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间;根据针对每个候补预测算法的预测区间和实际值,计算平均区间准确率,将平均区间准确率最高的候补预测算法作为流量预测算法。
Description
技术领域
本公开总体上涉及网络运营领域和人工智能领域,更具体地涉及一种流量区间预测评估方法、装置和存储介质。
背景技术
运营商在电路运维过程中通常基于历史流量峰值超限的情况,或者基于历史电路流量预测的未来流量进行电路流量带宽的调整。通常基于上述两种情况调整带宽不能满足用户实际应用电路流量的需求,导致用户体验感知下降,甚至导致客户不再租用该运营商的电路。这说明传统的电路流量带宽调整策略存在片面性,需要融入更加智能的技术进行策略的改进。
目前具有多种流量预测相关的研究。在现有技术中,例如有流量预测方法,其中获取预置范围内所有小区的历史总使用流量数据,将所有小区的历史总使用流量数据作为输入,使用第一预测模型对预置范围内所有小区的总使用流量进行预测以获得目标预测值,并根据目标预测值对目标小区的使用流量进行预测得到目标小区的使用流量预测值。另外,还有基站流量预测方法,通过根据用户的移动特性将基站的流量分解为基站内流量和基站间流量,并利用基于基站空间依赖关系建立的流量预测模型进行流量预测。此外,还有基于移动网络流量预测的基站休眠方法,利用时间卷积网络抽取移动网络流量的时间特征,利用三维卷积网络流量抽取移动网络流量的空间特征,然后利用抽取的特征进行准确地预测基站的流量。
现有流量预测技术存在以下问题:1)多数研究输入特征只考虑了流量本身的数据,没有引入时间特征分析,同时没有考虑基于时间特征增加流量特征;2)基于单一的时间序列的预测算法模型准确度较低,没有考虑不同模型的融合方法,同样导致基于该算法模型的预测结果调整带宽不能满足客户的需求;3)针对流量区间预测结果,没有一种准确率评估的方法,仅仅可以评估误差或者误差率,不能很好的评估预测区间的偏移程度。
发明内容
鉴于以上现有技术中的问题,本发明提出一种电路流量区间预测及评估方法、装置和系统,目的在于能够实现电路流量区间的动态实时准确的预测。
在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
根据本公开的一个方面,提供一种流量区间预测评估方法,包括:获取预定时间区间中的每个单位时段的峰值流量数据;将峰值流量数据分类为忙时时段数据和闲时时段数据,并将表示是忙时时段数据还是闲时时段数据的标签附加于所述峰值流量数据;选择多个预测算法来形成候补预测算法集合,该候补预测算法集合包括所述多个预测算法的每一个及其所有组合作为候补预测算法集合;根据所述峰值流量数据,计算各个候补预测算法的预测结果,并根据各自的预测结果和真实值,计算针对每个候补预测算法的流量偏差率;根据所述峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间;根据针对每个候补预测算法的预测区间和实际值,计算平均区间准确率,将平均区间准确率最高的候补预测算法作为流量预测算法。
根据本公开的另一个方面,提供一种流量区间预测评估装置,包括:数据采集模块,采集实时流量数据,获取预定时间区间中的每个单位时段的峰值流量数据;特征工程模块,将所述峰值流量数据分类为忙时时段数据和闲时时段数据,并将表示是忙时时段数据还是闲时时段数据的标签附加于所述峰值流量数据;以及流量区间预测模块,选择多个预测算法来形成候补预测算法集合,该候补预测算法集合包括所述多个预测算法的每一个及其所有组合作为候补预测算法的集合,根据所述峰值流量数据,计算各个候补预测算法的预测结果,并根据各自的预测结果和真实值,计算针对每个候补预测算法的流量偏差率,根据所述峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间,根据针对每个候补预测算法的预测区间和实际值,计算平均区间准确率,将平均区间准确率最高的候补预测算法作为流量预测算法。
根据本公开的又一个方面,提供一种流量区间预测评估装置,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器上的指令,以执行根据本公开的上述方面所述的方法。
根据本公开的又一个方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
图1是示出了根据本发明的实施例的流量区间预测评估方法的流程的流程图。
图2示出了投票回归器的内置流程。
图3是示意性地示出了根据本发明的实施例的流量区间预测评估装置的功能框图的图。
图4是示意性地示出了包括本发明的一个具体应用例的流量区间预测评估装置的电路流量区间预测系统架构的框图。
图5示出了可以实现根据本公开的实施例的计算设备的示例性配置。
具体实施方式
参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
图1是示出了根据本发明的实施例的流量区间预测评估方法的流程的流程图。
如图1所示,在步骤S101中,获取预定时间区间中的每个单位时段的峰值流量数据。在一些实施例中,预定时间区间可以是1年,单位时段可以是1天。在一些实施例中,峰值流量数据可以包括上行和下行日峰值流量数据。在一些实施例中,在单位时段是1天时,可以通过以小时粒度选取1天内最大的流量数据存储于数据库中作为峰值流量数据。此外,在一些实施例中,还可以对所获取的峰值流量数据进行预处理,所述预处理包括缺失值和异常值的处理。例如,对于缺失值和异常值,可以用前10个正常数据的均值进行填充,应当理解填充的方式并不限于此,可以根据需要采用其他方法进行填充。
在步骤S103中,将峰值流量数据分类为忙时时段数据和闲时时段数据,并将表示是忙时时段数据还是闲时时段数据的标签附加于所述峰值流量数据。在一些实施例中,可以计算预定时间区间中的每个单位时段的流量的使用频次和使用量的加权和,将预定时间区间中的每个单位时段的加权和按照从大到小的顺序排列时前预定比例的时段作为忙时时段,将其他时段作为闲时时段,其中预定比例可以根据需要进行设定调整。例如,在一个实施例中,根据一天流量的使用频次和使用量的加权和,将比重前50%(即预定比例)的时段作为忙时时段,将比重后50%的时段作为闲时时段,其中加权公式可以是但不限于:
或者,在另一些实施例中,公式(1)中分母的“当月的流量使用频次”以及“当月的流量使用量”还可以分别被替换为“当年的流量使用频次”以及“当年的流量使用量”。
此外,应当理解,公式(1)仅仅是例示,例如还可以以小时为粒度来判断忙时时段和闲时时段,在该情况下可以采用以下的加权公式:
此外,在一些实施例中,峰值流量数据还可以包括其他信息的标签,例如基于节假日增加标签,包括工作日(标签:0)、调休日(标签:1)、节假日(标签:2),此外,数据字段属性还可以包括客户ID、电路ID、小时最大流入流量、节假日特征等信息。在本步骤中,将流量基于闲时和忙时的时间特征进行分类,并基于节假日时间特征增加流量时间特征,针对不同特征的数据分别制定不同的策略进行自动流量区间预测,能够提高预测精度。
在步骤S105中,选择多个预测算法来形成候补预测算法集合,该候补预测算法集合包括所述多个预测算法的每一个及其所有组合作为候补预测算法的集合。在一个实施例中,预测算法可以包括LightGBM算法、SVM算法和线性回归算法,但应当理解预测算法并不限于这三种算法,可以根据需要选择,例如还可以包括XGBoost算法、CatBoost算法、逻辑回归算法、LSTM算法等预测算法。在预测算法包括LightGBM算法、SVM算法和线性回归算法这三个算法的情况下,所生成的候补预测算法集合包括LightGBM算法、SVM算法、线性回归算法、LightGBM算法+SVM算法、LightGBM算法+线性回归算法、SVM算法+线性回归算法、LightGBM算法+SVM算法+线性回归算法。在一些实施例中,候补预测算法集合的生成可以通过投票回归器实现,基于闲时和忙时数据训练样本集分别在投票回归器中进行预测学习器的融合(包括原始算法),进而确定强预测器。在一些实施例中速,所有的预测算法可以预先保存于投票回归器中,根据用户的选择而被使用。图2示出了投票回归器的内置流程。如图2所示,闲时数据训练集和忙时数据训练集作为输入分别输入到各个学习器(学习器1、学习器2、……学习器n)中,基于各种算法进行随机结合,生成多种强预测器,其中投票回归器中算法结合的方式是运用各个预测算法预测结果的均值作为预测值。基于强预测器进行历史偏差值的计算和实时的流量预测,最终生成流量预测区间,这一点将在后面叙述。流量区间预测装置中加入改进的投票回归器模型,基于不同数据特征对不同的单一学习器模型进行融合策略的制定,进而进行历史预测值的计算,从而能够提高预测准确度。
在步骤S107中,根据峰值流量数据,计算各个候补预测算法的预测结果,并根据各自的预测结果和真实值,计算针对每个候补预测算法的流量偏差率。在一些实施例中,流量偏差率可以通过下式计算得出。
另外,在一些实施例中,在预测结果包括针对多个单位时段(例如三天)的多个预测值(vpre1、vpre2、vpre3)的情况下,各个单位时段的流量偏差率是:
其中,i表示单位时段的序号,i≤m,m为自然数,vpre_i表示第i个单位时段的流量预测值,Vreal_i表示第i个单位时段的流量实际值(即保存的历史数据),此时的流量偏差率s为各个流量偏差率si的平均值,即
根据所述峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间。
在步骤S109中,根据峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间。在一些实施例中,例如,基于本月的峰值流量数据,运用候补预测算法集合中的候补预测算法进行未来3天流量数据的预测,假定预测值分别为a、b和c,此时预测区间为[a*(1-s),a*(1+s)]、[b*(1-s),b*(1+s)]和[c*(1-s),c*(1+s)]。在此,将历史同期预测结果的偏差率代入流量预测结果中,能够实现流量区间的预测。
接着在步骤S111中,根据针对每个候补预测算法的预测区间和实际值,计算平均区间准确率(MIA),将平均区间准确率最高的候补预测算法作为流量预测算法。在一些实施例中,所述平均区间准确率通过下式计算得出,
其中L(Fi)为预测区间最小值,U(Fi)为预测区间最大值,Yi为单位时段的流量实际值,m为预测区间的天数。应当理解,上述的区间准确率的计算方法是示意性的,并不限于此,只要能够反映评估流量预测区间模型的准确性即可。
在一些实施例中,根据历史的峰值流量数据,基于流量预测算法,预测未来的单位时段的峰值的预测区间。进而,还可以根据预测区间,生成带宽调整策略,包括调整的区间,需要调整的设备端口,调整的时间范围等。
根据本发明,通过增加流量特征,运用投票回归器,分别进行闲时忙时流量区间预测,并通过平均区间准确率算法评估不同模型预测区间的准确率,选取最佳模型。基于预测的流量区间,可以制定相应的带宽调整策略对现有的带宽进行相应的动态调整,从而提高用户感知,更好地提升运营商效益。此外,根据本发明,由于结合流量的节假日时间特征数据,能够进一步提高预测精度。
以下,示出本发明的一个具体的应用例,进一步详细说明本发明的主旨和精神。
本应用例基于电路类型为IP无线接入网络(IPRAN,IP Radio Access Network)的流入流量数据,对流量区间进行预测。具体包括如下步骤:
步骤一:在网络管理系统中采集2020年IPRAN网络的上行日峰值流量数据,共计366条数据,对数据进行数据清洗等预处理,对缺失值例如使用前10个数据的均值进行填充,进行流量单位的统一,以小时粒度选取小时内最大的流量数据存储于数据库中。
步骤二:运用加权公式(1)对数据进行闲时和忙时分类,将比重前50%的时段作为忙时时段,将比重后50%的时段作为闲时时段。最终闲时数据和忙时数据分别为183条。基于节假日增加标签,包括工作日(标签:0)、调休日(标签:1)、节假日(标签:2)。另外,数据字段属性包括客户ID、电路ID、小时最大流入流量、节假日特征等信息。
步骤三:本方案实施中选用LightGBM算法、SVM算法和线性回归算法(LinearRegression)算法,并将前三种算法放入投票回归器中,进行算法的随机融合(包括原始算法),结果如下:
算法模型 |
LightGBM |
SVM |
Linear Regression |
LightGBM+SVM |
LightGBM+Linear Regression |
SVM+Linear Regression |
LightGBM+SVM+Linear Regression |
步骤四:确定区间偏差率:选取2020年2月份的忙时的上行流量历史数据分别基于三种算法和三种回归算法的随机结合算法分别进行2020年3月份前三天忙时的上行流量预测。2020年3月份前三天的上行流量日峰值实际值分别为108kb、213kb和136kb,各个模型预测的平均偏差率计算结果如下表:
算法模型 | 平均偏差率S |
LightGBM | 5.3% |
SVM | 8.4% |
Linear Regression | 6.6% |
LightGBM+SVM | 7.45% |
LightGBM+Linear Regression | 6.43% |
SVM+Linear Regression | 8.84% |
LightGBM+SVM+Linear Regression | 7.5% |
这里,平均偏差率S是作为预测区间调整的浮动值,平均偏差率说明了模型预测的偏差程度。
步骤五:计算预测区间,基于2020年3月份的数据对2020年4月份前三天的流入流量日峰值进行预测。以下为基于投票回归器中各个模型预测的流量区间结果:
步骤六:从数据库获取2020年4月1-3号的上行流量峰值真实值,分别为135kb,173kb和235Kb;
步骤七:使用MIA算法计算预测区间的准确率,首先根据公式(5)、(6)计算的εi和最终MIA结果如下表所示:
算法模型 | ε1 | ε<sub>2</sub> | ε<sub>3</sub> | MIA | 选择 |
LightGBM | 99.8% | 99% | 99.7% | 99.5% | |
SVM | 95.5% | 94.6% | 86% | 92% | |
Linear Regression | 99.7% | 99.5% | 99.6% | 99.6% | |
LightGBM+SVM | 96.7% | 95% | 90% | 93.9% | |
LightGBM+Linear Regression | 100% | 99.97% | 99.92% | 99.96% | √ |
SVM+Linear Regression | 94.3% | 95.3% | 82% | 90.53% | |
LightGBM+SVM+Linear Regression | 98.8% | 97.92% | 96.4% | 97.7% |
步骤八:选取最优模型,从步骤七的结果可以确定,LightGBM+Linear Regression模型的MIA值最高,故最终选取此模型作为每月前三天忙时上行流量区间预测的模型。
以上,以上行的峰值流量数据为例进行了说明,当然也可以基于下行的峰值流量数据对下行流量区间进行预测。
此外,在上述例子中以天为粒度进行预测,当然也可以以小时为粒度,基于每小时的峰值流量数据对每小时的流量区间进行预测。
图3是示意性地示出了根据本发明的实施例的流量区间预测评估装置的功能框图的图。
如图3所示,本发明的实施例的流量区间预测评估装置1包括数据采集模块11、特征工程模块12以及流量区间预测模块13。
数据采集模块11采集实时流量数据,获取预定时间区间中的每个单位时段的峰值流量数据。在一些实施例中,预定时间区间可以是1年,单位时段可以是1天。在一些实施例中,峰值流量数据可以包括上行和下行日峰值流量数据。在一些实施例中,在单位时段是1天时,可以通过以小时粒度选取1天内最大的流量数据存储于数据库中作为峰值流量数据。此外,在一些实施例中,数据采集模块11还可以对所获取的峰值流量数据进行预处理,所述预处理包括缺失值和异常值的处理。例如,对于缺失值和异常值,可以用前10个正常数据的均值进行填充,应当理解填充的方式并不限于此,可以根据需要采用其他方法进行填充。此外,预处理也可以由其他模块完成。
特征工程模块12将峰值流量数据分类为忙时时段数据和闲时时段数据,并将表示是忙时时段数据还是闲时时段数据的标签附加于所述峰值流量数据。在一些实施例中,特征工程模块12可以计算预定时间区间中的每个单位时段的流量的使用频次和使用量的加权和,将预定时间区间中的每个单位时段的加权和按照从大到小的顺序排列时前预定比例的时段作为忙时时段,将其他时段作为闲时时段,其中预定比例可以根据需要进行设定调整。例如,在一个实施例中,特征工程模块12根据一天流量的使用频次和使用量的加权和,将比重前50%(即预定比例)的时段作为忙时时段,将比重后50%的时段作为闲时时段,其中加权公式可以是但不限于前述的公式(1)。此外,在一些实施例中,峰值流量数据还可以包括其他信息的标签,例如基于节假日增加标签,包括工作日(标签:0)、调休日(标签:1)、节假日(标签:2),此外,数据字段属性还可以包括客户ID、电路ID、小时最大流入流量、节假日特征等信息。特征工程模块12将流量基于闲时和忙时的时间特征进行分类,并基于节假日时间特征增加流量时间特征,针对不同特征的数据分别制定不同的策略进行自动流量区间预测,能够提高预测精度。
流量区间预测模块13选择多个预测算法来形成候补预测算法集合,该候补预测算法集合包括所述多个预测算法的每一个及其所有组合作为候补预测算法的集合,根据峰值流量数据,计算各个候补预测算法的预测结果,并根据各自的预测结果和真实值,计算针对每个候补预测算法的流量偏差率,根据所述峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间,根据针对每个候补预测算法的预测区间和实际值,计算平均区间准确率,将平均区间准确率最高的候补预测算法作为流量预测算法。在一个实施例中,预测算法可以包括LightGBM算法、SVM算法和线性回归算法,但应当理解预测算法并不限于这三种算法,可以根据需要选择,例如还可以包括XGBoost算法、CatBoost算法、逻辑回归算法、LSTM算法等预测算法。在预测算法包括LightGBM算法、SVM算法和线性回归算法这三个算法的情况下,所生成的候补预测算法集合包括LightGBM算法、SVM算法、线性回归算法、LightGBM算法+SVM算法、LightGBM算法+线性回归算法、SVM算法+线性回归算法、LightGBM算法+SVM算法+线性回归算法。在一个实施例中,流量区间预测模块13可以包括训练样本集子模块、投票回归器子模块、训练强预测器子模块,其中,训练样本集子模块生成闲时数据训练集和忙时数据训练集;投票回归器子模块基于闲时和忙时数据训练样本集分别在投票回归器中进行预测学习器的融合(包括原始算法),如图2所示,闲时数据训练集和忙时数据训练集作为输入分别输入到各个学习器(学习器1、学习器2、……学习器n)中,基于各种算法进行随机结合,生成多种强预测器,其中投票回归器中算法结合的方式是运用各个预测算法预测结果的均值作为预测值。基于强预测器进行历史偏差值的计算和实时的流量预测,最终生成流量预测区间。训练强预测器子模块是用于对强预测器进行训练的子模块。
在一些实施例中,流量偏差率可以通过上述的公式(2)计算得出。另外,在一些实施例中,在预测结果包括针对多个单位时段(例如三天)的多个预测值(vpre1、vpre2、vpre3)的情况下,各个单位时段的流量偏差率可以通过公式(3)求出,根据峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间。在一些实施例中,所述平均区间准确率通过公式(5)、(6)计算得出。
在一些实施例中,根据历史的峰值流量数据,基于流量预测算法,预测未来的单位时段的峰值的预测区间。进而,还可以根据预测区间,生成带宽调整策略,包括调整的区间,需要调整的设备端口,调整的时间范围等。
根据本发明,通过增加流量特征,运用投票回归器,分别进行闲时忙时流量区间预测,并通过平均区间准确率算法评估不同模型预测区间的准确率,选取最佳模型。基于预测的流量区间,可以制定相应的带宽调整策略对现有的带宽进行相应的动态调整,从而提高用户感知,更好地提升运营商效益。此外,根据本发明,由于结合流量的节假日时间特征数据,能够进一步提高预测精度。
图4是示意性地示出了包括本发明的一个具体应用例的流量区间预测评估装置的电路流量区间预测系统架构的框图。
在图4所示的具体应用例中,虚框内的模块为流量区间预测评估装置。
大客户网管系统用于大客户租用网络和电路的实时监控、以及服务级别协议(SLA)业务保障,能够提供客户的流量数据。
数据采集模块用于采集大客户网管系统中的实时流量数据,包括流入流量和流出流量。
数据处理模块用于对采集的流量数据进行数据清洗,包括缺失值和异常值的处理,按照小时粒度的峰值流量数据进行统计。
数据存储模块用于按照一定格式高效快速存储处理后的海量流量数据。
特征工程模块:增加流量特征,如流入流量和流程流量差值特征、小时段时间特征和节假日时间特征等,并根据节假日特征将流量分为闲时和忙时类别,最后统一进行数据的标准化处理。
流量区间预测模块主要对未来时间段的流量进行区间预测,包括用于生成闲时数据训练集和忙时数据训练集的训练样本集子模块、选择多个预测算法来形成候补预测算法集合的投票回归器子模块、用于对强预测器进行训练的训练强预测器子模块、根据各自的预测结果和真实值计算针对每个候补预测算法的流量偏差率的偏差率预测子模块、根据历史峰值流量数据生成预测值的流量预测子模块、根据所述峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间的生成流量区间子模块和将平均区间准确率最高的候补预测算法作为流量预测算法的流量预测区间准确率评估子模块等七个子模块。
带宽调整策略模块用于生成带宽调整策略,包括调整的区间,需要调整的设备端口,调整的时间范围等。
客户体验管理系统(CEM)系统为现有的系统,流量区间预测的结果通过带宽调整策略模块将融入该系统中,便于客维工程师在系统中进行策略的执行。
调整状态接收模块用于接受CEM系统的调整结果状态,并反馈到带宽调整策略模块。
图5示出了能够实现根据本公开的实施例的计算设备1200的示例性配置。
计算设备1200是能够应用本公开的上述方面的硬件设备的实例。计算设备1200可以是被配置为执行处理和/或计算的任何机器。计算设备1200可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(PDA)、智能电话、车载计算机或以上组合。
如图5所示,计算设备1200可以包括可以经由一个或多个接口与总线1202连接或通信的一个或多个元件。总线2102可以包括但不限于,工业标准架构(Industry StandardArchitecture,ISA)总线、微通道架构(Micro Channel Architecture,MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线等。计算设备1200可以包括例如一个或多个处理器1204、一个或多个输入设备1206以及一个或多个输出设备1208。一个或多个处理器1204可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。处理器1202例如可以对应于图3中的流量区间预测评估装置。输入设备1206可以是能够向计算设备输入信息的任何类型的输入设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备1208可以是能够呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。
计算设备1200还可以包括或被连接至非暂态存储设备1214,该非暂态存储设备1214可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备1200还可以包括随机存取存储器(RAM)1210和只读存储器(ROM)1212。ROM 1212可以以非易失性方式存储待执行的程序、实用程序或进程。RAM 1210可提供易失性数据存储,并存储与计算设备1200的操作相关的指令。计算设备1200还可包括耦接至数据链路1218的网络/总线接口1216。网络/总线接口1216可以是能够启用与外部装置和/或网络通信的任何种类的设备或系统,并且可以包括但不限于调制解调器、网络卡、红外线通信设备、无线通信设备和/或芯片集(诸如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设施等)。
本公开可以被实现为装置、系统、集成电路和非瞬时性计算机可读介质上的计算机程序的任何组合。可以将一个或多个处理器实现为执行本公开中描述的部分或全部功能的集成电路(IC)、专用集成电路(ASIC)或大规模集成电路(LSI)、系统LSI,超级LSI或超LSI组件。
本公开包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计算机程序或算法存储在非瞬时性计算机可读介质上,以使诸如一个或多个处理器的计算机执行上述步骤和附图中描述的步骤。例如,一个或多个存储器以可执行指令存储软件或算法,并且一个或多个处理器可以关联执行该软件或算法的一组指令,以根据本公开中描述的实施例提供各种功能。
软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括用于可编程处理器的机器指令,并且可以以高级过程性语言、面向对象编程语言、功能性编程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读介质”是指用于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备,例如磁盘、光盘、固态存储设备、存储器和可编程逻辑设备(PLD),包括将机器指令作为计算机可读信号来接收的计算机可读介质。
举例来说,计算机可读介质可以包括动态随机存取存储器(DRAM)、随机存取存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、紧凑盘只读存储器(CD-ROM)或其他光盘存储设备、磁盘存储设备或其他磁性存储设备,或可以用于以指令或数据结构的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专用处理器访问的任何其它介质。如本文中所使用的,磁盘或盘包括紧凑盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘,其中磁盘通常以磁性方式复制数据,而盘则通过激光以光学方式复制数据。上述的组合也包括在计算机可读介质的范围内。
提供本公开的主题作为用于执行本公开中描述的特征的装置、系统、方法和程序的示例。但是,除了上述特征之外,还可以预期其他特征或变型。可以预期的是,可以用可能代替任何上述实现的技术的任何新出现的技术来完成本公开的部件和功能的实现。
另外,以上描述提供了示例,而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下,可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如,关于某些实施例描述的特征可以在其他实施例中被结合。
另外,在本公开的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性和顺序。
类似地,虽然在附图中以特定次序描绘了操作,但是这不应该被理解为要求以所示的特定次序或者以顺序次序执行这样的操作,或者要求执行所有图示的操作以实现所希望的结果。在某些情况下,多任务处理和并行处理可以是有利的。
Claims (20)
1.一种流量区间预测评估方法,包括:
获取预定时间区间中的每个单位时段的峰值流量数据;
将峰值流量数据分类为忙时时段数据和闲时时段数据,并将表示是忙时时段数据还是闲时时段数据的标签附加于所述峰值流量数据;
选择多个预测算法来形成候补预测算法集合,该候补预测算法集合包括所述多个预测算法的每一个及其所有组合作为候补预测算法集合;
根据所述峰值流量数据,计算各个候补预测算法的预测结果,并根据各自的预测结果和真实值,计算针对每个候补预测算法的流量偏差率;
根据所述峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间;
根据针对每个候补预测算法的预测区间和实际值,计算平均区间准确率,将平均区间准确率最高的候补预测算法作为流量预测算法。
2.根据权利要求1所述的方法,其中,
所述峰值流量数据还包括表示节假日信息的标签。
3.根据权利要求1所述的方法,其中,
所述预测算法包括LightGBM算法、SVM算法和线性回归算法。
5.根据权利要求4所述的方法,其中,
在预测结果包括针对多个单位时段的多个预测值的情况下,流量偏差率是各个时段的流量偏差率的平均值。
7.根据权利要求1所述的方法,其中,
计算预定时间区间中的每个单位时段的流量的使用频次和使用量的加权和,将预定时间区间中的每个单位时段的加权和按照从大到小的顺序排列时前预定比例的时段作为忙时时段,将其他时段作为闲时时段。
8.根据权利要求1所述的方法,其中,
根据历史的峰值流量数据,基于流量预测算法,预测未来的单位时段的预测区间。
9.根据权利要求1所述的方法,还包括对所获取的峰值流量数据进行预处理,所述预处理包括缺失值和异常值的处理。
10.一种流量区间预测评估装置,包括:
数据采集模块,采集实时流量数据,获取预定时间区间中的每个单位时段的峰值流量数据;
特征工程模块,将所述峰值流量数据分类为忙时时段数据和闲时时段数据,并将表示是忙时时段数据还是闲时时段数据的标签附加于所述峰值流量数据;以及
流量区间预测模块,选择多个预测算法来形成候补预测算法集合,该候补预测算法集合包括所述多个预测算法的每一个及其所有组合作为候补预测算法的集合,根据所述峰值流量数据,计算各个候补预测算法的预测结果,并根据各自的预测结果和真实值,计算针对每个候补预测算法的流量偏差率,根据所述峰值流量数据和针对每个候补预测算法的流量偏差率,计算针对每个候补预测算法的预测区间,根据针对每个候补预测算法的预测区间和实际值,计算平均区间准确率,将平均区间准确率最高的候补预测算法作为流量预测算法。
11.根据权利要求10所述的装置,其中,
所述峰值流量数据还包括表示节假日信息的标签。
12.根据权利要求10所述的装置,其中,
所述预测算法包括LightGBM算法、SVM算法和线性回归算法。
14.根据权利要求13所述的装置,其中,
在预测结果包括针对多个单位时段的多个预测值的情况下,流量偏差率是各个时段的流量偏差率的平均值。
16.根据权利要求10所述的装置,其中,
计算预定时间区间中的每个单位时段的流量的使用频次和使用量的加权和,将预定时间区间中的每个单位时段的加权和按照从大到小的顺序排列时前预定比例的时段作为忙时时段,将其他时段作为闲时时段。
17.根据权利要求1所述的装置,其中,
根据历史的峰值流量数据,基于流量预测算法,预测未来的单位时段的预测区间。
18.根据权利要求1所述的装置,还包括对所获取的峰值流量数据进行预处理,所述预处理包括缺失值和异常值的处理。
19.一种流量区间预测评估装置,包括:
存储器,其上存储有指令;以及
处理器,被配置为执行存储在所述存储器上的指令,以执行以根据权利要求1至9中的任一项所述的方法。
20.一种计算机可读存储介质,包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1至9中的任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947784.9A CN115714987A (zh) | 2021-08-18 | 2021-08-18 | 一种流量区间预测评估方法、装置和存储介质 |
PCT/CN2022/112480 WO2023020425A1 (zh) | 2021-08-18 | 2022-08-15 | 一种流量区间预测评估方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947784.9A CN115714987A (zh) | 2021-08-18 | 2021-08-18 | 一种流量区间预测评估方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115714987A true CN115714987A (zh) | 2023-02-24 |
Family
ID=85229866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110947784.9A Pending CN115714987A (zh) | 2021-08-18 | 2021-08-18 | 一种流量区间预测评估方法、装置和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115714987A (zh) |
WO (1) | WO2023020425A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8825061B1 (en) * | 2005-03-22 | 2014-09-02 | Nextel Communications, Inc. | System and method for wireless network planning |
CN110896357B (zh) * | 2018-09-13 | 2022-06-28 | 中国电信股份有限公司 | 流量预测方法、装置和计算机可读存储介质 |
CN113038302B (zh) * | 2019-12-25 | 2022-09-30 | 中国电信股份有限公司 | 流量预测方法及装置、计算机可存储介质 |
CN113055923B (zh) * | 2019-12-27 | 2022-06-17 | 中国移动通信集团湖南有限公司 | 移动网络流量预测方法、装置及设备 |
-
2021
- 2021-08-18 CN CN202110947784.9A patent/CN115714987A/zh active Pending
-
2022
- 2022-08-15 WO PCT/CN2022/112480 patent/WO2023020425A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023020425A1 (zh) | 2023-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106685674B (zh) | 网络事件预测以及建立网络事件预测模型的方法和装置 | |
CN107578332A (zh) | 一种推荐现金商品的方法、装置、设备及存储介质 | |
US11620557B2 (en) | Online trained object property estimator | |
CN105446988B (zh) | 预测类别的方法和装置 | |
US20200120003A1 (en) | System and method for predicting and reducing subscriber churn | |
Wang et al. | Spatial-temporal cellular traffic prediction for 5G and beyond: A graph neural networks-based approach | |
CN111435463A (zh) | 数据处理方法及相关设备、系统 | |
CN109769210A (zh) | 用户活动区域相似度判断方法、装置、计算机设备 | |
CN116186359B (zh) | 一种高校多源异构数据的集成管理方法、系统及存储介质 | |
CN111582488A (zh) | 一种事件推演方法及装置 | |
CN111163482B (zh) | 数据的处理方法、设备及存储介质 | |
CN112330055A (zh) | 一种用户投诉预测方法和装置 | |
CN111798066A (zh) | 一种城市尺度下小区流量多维度预测方法及系统 | |
Guo et al. | Traffic forecasting for mobile networks with multiplicative seasonal ARIMA models | |
CN114625477A (zh) | 一种服务节点容量调整方法、设备及计算机可读存储介质 | |
JP2012253445A (ja) | トラヒック予測方法及び装置及びプログラム | |
CN113837383A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN113379528A (zh) | 风控模型建立方法、装置和风险控制方法 | |
CN115714987A (zh) | 一种流量区间预测评估方法、装置和存储介质 | |
CN108416662B (zh) | 一种数据验证方法及装置 | |
CN113065701A (zh) | 一种轨道交通客流量智能预测方法和装置 | |
CN111310995A (zh) | 基于卷积神经网络的业务预测方法以及装置 | |
CN115225520B (zh) | 一种基于元学习框架的多模态网络流量预测方法及装置 | |
CN112085282B (zh) | 小区流量预测方法及服务器 | |
CN115439180A (zh) | 一种目标对象确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |