CN104581749A

CN104581749A - 一种移动网络数据业务业务量的预测方法和装置

Info

Publication number: CN104581749A
Application number: CN201310472559.XA
Authority: CN
Inventors: 于艳华; 孙云秋; 潘阳发; 宋俊德; 任志军; 孟红薇; 杨金莲
Original assignee: BEIJING BOCO INTER-TELECOM TECHNOLOGY Co Ltd; Beijing University of Posts and Telecommunications; Bright Oceans Inter Telecom Co Ltd
Current assignee: BEIJING BOCO INTER-TELECOM TECHNOLOGY Co Ltd; Beijing University of Posts and Telecommunications; Bright Oceans Inter Telecom Co Ltd
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2015-04-29
Anticipated expiration: 2033-10-11
Also published as: CN104581749B

Abstract

本发明公开了一种移动网络数据业务业务量的预测方法，所述方法包括下述步骤：获取基于时间顺序的移动网络数据业务业务量历史值序列作为样本序列；对所述样本序列进行自相似探测和多重分形探测，根据探测结果确定对所述样本序列的预测方法：若所述样本序列不具有自相似特性，则根据ARMA模型对所述样本序列进行预测，获得预测值；若所述样本序列仅具有自相似特性不具有多重分形特性，则根据FARIMA模型对所述样本序列进行建模预测，获得预测值。同时本发明还公开了一种移动网络数据业务业务量的预测装置。采用本发明能够根据数据业务业务量的实际特点选择恰当的预测模型进行准确预测，填补现有技术中无法准确预测数据业务业务量的空白。

Description

一种移动网络数据业务业务量的预测方法和装置

技术领域

本发明移动通信数据业务领域，具体的涉及移动通信网络数据业务业务量的预测方法。

背景技术

随着3G、WLAN等移动通信技术及通信网络的快速发展和移动智能终端的快速普及，伴随微博、微信等各种互联网新兴业务的迅猛发展，移动通信网络承载的数据业务也急速增长。为了在管理层面紧跟数据业务的快速发展，为了科学地进行网络规划和优化，对网络进行主动性能监控，了解电信网络运营的发展情况和趋势是必不可少的，因此准确地预测移动通信网络数据业务的业务量意义重大。

移动网络中包含有语音业务和数据业务，众所周知，通信语音业务的业务量即话务量(erl)的到达模型是泊松模型，因此其话务量动力学模型是线性的，现有技术中可用综合了趋势和季节性的ARMA模型获得好的预测模型和准确的预测结果。从1990年的研究开始，人们发现数据业务的到达特点和数据业务业务量的分布特点与语音业务有着很大的不同：数据业务中的分组到达不再符合泊松分布，而是遵从Pareto等长尾分布。在发现了Internet数据业务存在自相似特性后，有一些关于如何对Internet数据量如何预测的研究，这些方法包括基于神经网络方法、支持向量机方法、小波分解+灰色预测方法等；因此，Internet网络中的业务量序列不能再简单地用动力学系统中的ARMA模型建模，因为Internet数据量序列中的自相似会导致序列的长相关性，而ARMA模型只适合短相关序列。

移动网络中的数据业务采用的网络、协议和Internet网络有很多相似地方，由于无线信道和无线接入网存在，移动网络和Internet也有很多不一样的地方。移动网络中数据业务业务量与语音业务业务量和internet网络业务量存在相似之处，同时又具备自身的特点，因此对移动网络中数据业务业务量的预测不能单纯套用语音业务量预测和internet数据业务业务量预测的方法，将已有的语音业务量预测和internet数据业务业务量预测方法盲目套用到移动网络数据业务中来，会导致其预测结果的不准确，直接影响移动通信网络的运营维护。

移动通信网络数据业务的高速发展最近几年的事情，目前为止在移动网络数据业务业务量的建模和预测方面的研究还少见。而对于最近迅猛发展的移动互联网的数据流量的特性则缺乏研究进展的报告。随着移动通信业务发展和竞争加剧，各运营商们迫切地需要掌握移动业务量发展趋势，如何对移动网络数据业务业务量进行准确的预测成为亟待解决的问题。

发明内容

本发明目的在于提供一种移动网络数据业务业务量的预测方法和装置，其特征在于，所述方法包括下述步骤：

A：获取基于时间顺序的移动网络数据业务业务量历史值序列作为样本序列；

B：对所述样本序列进行自相似探测和多重分形探测，根据探测结果确定对所述样本序列的预测方法：

若所述样本序列不具有自相似特性，则根据ARMA模型对所述样本序列进行预测，获得预测值；若所述样本序列仅具有自相似特性不具有多重分形特性，则根据FARIMA模型对所述样本序列进行建模预测，获得预测值。

进一步的，

若所述样本序列具有自相似特性和多重分形特性，则消除所述样本序列的多重分形特性后，获得分支样本序列，依照所述步骤B对所述分支样本序列进行预测。

具体的，所述消除所述样本序列的多重分形特性后获得分支样本序列的方法具体为：

依照数据业务业务量时间点分布特性分解所述具有多重分形特性的样本序列，得到多个分支序列；

对所述分支序列进行多重分形探测，若该分支序列已不具有多重分形特性，则不用继续分解；若该分支序列仍具有多重分形特性，则继续对其进行分解和探测，直到获得不具有多重分形特性的分支样本序列为止。

具体的，

获得所述样本序列的自相似指数值H，根据H值确定样本序列的自相似特性；

计算所述具有自相似特性样本序列的多重分形谱，根据其多重分形谱开口△α确定所述样本序列是否具有多重分形特性。

优选的，

当与所述预测值相对应的实际值到达时，计算所述样本序列实际值和其对应预测值的误差值，组成残差序列；

获取所述残差序列的自相关函数ACF并对所述残差序列进行白噪声检验；

将所述实际值加入所述样本序列中组成新样本序列，获取所述新样本序列的自相似指数H’；

根据对所述残差序列的白噪声检验结果与所述新样本序列的自相似指数H’，确定新样本序列的适用预测模型，获得下一时间点的预测值。

进一步的，

所述根据对所述新残差序列的白噪声检验结果与所述新样本序列的自相似指数H’,确定新样本序列的适用预测模型，获得下一时间点的预测值的方法具体为：

若所述新样本序列的自相似指数H’与所述自相似指数H相同，且所述残差序列仍为白噪声，则针对新样本序列使用所述样本序列相同的预测方法对下一时间点的值进行预测；

若所述新样本序列的自相似指数H’与所述自相似指数H相同，且所述新残差序列不是白噪声，则针对新样本序列进行多重分形后，针对所述经过分形后的序列使用所述原样本序列采用的模型对下一时间点的值进行预测；

若所述新样本序列的自相似指数H’与所述自相似指数H不同，则对所述新样本序列进行自相似长相关探测，根据所述探测结果结合所述新的自相似指数H’对新样本序列重新选择相应模型对下一时间点的值进行预测。

具体的，

所述采用FARIMA模型对样本序列进行建模预测，获得预测值的方法具体为：

根据所述FARIMA模型结合所述样本序列X(t)的自相似指数H，计算其分数差分阶数d；

根据以及所述分数差分阶数d对所述样本序列进行分数差分得到序列Y(t)；

对所述分数差分序列Y(t)进行季节探测获得其周期系数，对其进行周期为n的季节差分，得到序列W(t)；

对所述序列W(t)进行ARMA建模预测，得出预测值。

具体的，

所述采用ARMA模型对样本序列进行建模预测，得出预测值的方法具体为：

对所述样本序列X(t)进行季节探测获得其周期系数，对其进行周期为m的季节差分，得到序列M(t)；

对所述序列M(t)进行ARMA(p,q)定阶；

计算所述选定阶数的ARMA(p,q)模型参数；

根据所述确定阶数和模型参数的ARMA(p,q)模型，对所述样本序列X(t)进行预测。

优选的，

当所述各序列的自相似指数值0.5<H<1，确定该序列具有自相似特性；

当所述各序列的多重分形谱开口△α>0.7，确定该序列具有多重分形特性。

优选的，

从移动网络数据库中选取数据业务业务量历史值作为样本，至少选取过去一个月以上的样本数据；

对所述样本数据进行包括补足缺失数据的预处理；

根据数据业务业务量预测需求以时间维度确定样本序列。

本发明还公开了一种移动网络数据业务业务量的预测装置，其特征在于，所述装置包括：

数据获取单元，用于获取基于时间顺序的移动网络数据业务业务量历史值序列作为样本序列；

数据分析单元，用于对所述数据获取单元单元的样本序列进行自相似探测和多重分形探测；

预测单元，用于根据所述数据分析单元探测的所述样本序列特性，选择与其适应的模型并进行数据预测；若所述样本序列不具有自相似特性，则根据ARMA模型对所述样本序列进行预测，获得预测值；若所述样本序列仅具有自相似特性不具有多重分形特性，则根据FARIMA模型对所述样本序列进行建模预测，获得预测值。

进一步的，所述装置还包括：

分形单元，用于若所述数据分析单元探测的所述样本序列具有自相似特性和多重分形特性，则消除所述样本序列的多重分形特性后，获得分支样本序列；将所述分支样本序列发送至数据探测模块进行探测后，所述预测单元对所述分支样本序列进行预测。

具体的，

所述分形单元依照数据业务业务量时间点分布特性分解所述具有多重分形特性的样本序列，得到多个分支序列；

所述数据分析单元对所述分形单元获得的多个分支序列进行多重分形探测，若该分支序列已不具有多重分形特性，则不用继续分解；若该分支序列仍具有多重分形特性，则所述分型单元继续对其进行分解，直到获得不具有多重分形特性的分支样本序列为止。

具体的，所述预测单元进一步包括：

模型选择模块，用于根据所述数据分析单元探测的所述样本序列特性，选择与其适应的模型，发送给相应的模型预测单元进行预测；

FARIMA模型预测单元，用于对具有自相似特性的样本序列采用FARIMA模型对样本序列进行建模预测；

ARMA模型预测单元，用于对不具有自相似特性的样本序列采用ARMA模型对样本序列进行建模预测。

具体的，所述数据分析单元进一步包括：

自相似探测模块，用于计算所述数据获取单元获得所述样本序列的自相似指数值H，根据H值确定样本序列的自相似特性；

多重分形探测模块，用于计算经过所述自相似探测模块探测过的具有自相似特性样本序列的多重分形谱，根据其多重分形谱开口△α确定所述样本序列是否具有多重分形特性。

优选的，

所述数据获取单元还包括：

残差序列获取模块，用于计算所述样本序列实际值和其对应预测值的误差值，获得残差序列；

所述数据获取单元还用于接收与所述预测单元预测值相对应的实际值，加入到所述样本序列中获得新样本序列；

所述数据分析单元还包括：

白噪声检验模块，用于对所述残差序列获取模块获得的残差序列进行白噪声检验；

所述自相似探测模块对所述数据获取单元获取的所述新样本序列计算自相似指数H’；

所述预测单元还包括：

模型适用性确定模块，用于根据所述白噪声检验模块对所述残差序列的白噪声检验结果与所述自相似探测模块计算的新样本序列自相似指数H’，检验并确定所述新样本序列使用的预测模型，发送给相应的模型预测单元进行预测。

具体的，所述模型适用性确定模块完成模型确定的方法为：

若所述自相似探测模块获得的新样本序列自相似指数H’与所述样本序列自相似指数H相同，且所述白噪声检验模块检验的残差序列仍为白噪声，则针对新样本序列使用与所述样本序列相同的预测模型对下一时间点的值进行预测；

若所述自相似探测模块获得的新样本序列的自相似指数H’与所述样本序列自相似指数H相同，且所述白噪声检验模块检验的新残差序列不是白噪声，则所述分形单元针对新样本序列进行多重分形后，针对所述经过分形后的序列使用与所述原样本序列相同的预测模型对下一时间点的值进行预测；

若所述自相似探测模块获得的新样本序列的自相似指数H’与所述样本序列自相似指数H不同，则对所述新样本序列进行多重分形探测，根据所述探测结果结合所述新的自相似指数H’对新样本序列重新选择相应模型对下一时间点的值进行预测。

具体的，所述预测单元采用FARIMA进行建模预测的方法为：

对所述序列W(t)进行ARMA建模预测，得出预测值；

具体的，所述预测单元采用ARMA进行建模预测的方法为：

对所述样本序列X(t)进行季节探测获得其周期系数，对其进行周期为m的季节差分，得到序列；

对所述序列M(t)进行ARMA(p,q)定阶；

计算所述选定阶数的ARMA(p,q)模型参数；

由上述技术方案可知，本发明所述的一种移动网络数据业务业务量的动态预测方法，根据移动网络数据业务业务量的自身特点，通过先对样本序列进行自相似和多重分形探测，根据探测的结果确定该样本序列适用的预测模型，避免对所有样本序列采用同样的预测模型进行预测而产生的较大误差；同时引入动态预测方法，在样本序列中加入新到达实际值，通过自相似指数和白噪声检验确定新样本序列特性是否发生变化，根据检验结果确定适用的预测模型，不用每次都针对新到达数据进行新的建模预测，大大提高了预测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1所示为本发明实施例一的方法流程图；

图2所示为本发明实施例二的方法流程图；

图3所示为本发明实施例二中的多重分形谱开口示意图；

图4所示为本发明实施例三的方法流程图；

图5所示为本发明实施例四的方法流程图；

图6所示为本发明实施例五的方法流程图；

图7所示为本发明实施例六的方法流程图；

图8所示为本发明实施例六中19:00分支序列多重分形谱开口示意图；

图9所示为本发明实施例六中19:00分支序列自相关函数ACF示意图；

图10所示为本发明实施例六中误差序列自相关函数ACF示意图；

图11所示为本发明实施例七移动网络数据业务业务量的预测装置结构示意图。

图12所示为本发明实施例八移动网络数据业务业务量的预测装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案、及优点更加清楚明白，以下参照附图对本发明实施例提供的技术方案进行详细说明。

目前的数据业务业务量的特性研究主要是针对Internet的，缺乏对移动互联网的情况研究。另外，在Internet上的预测方案上，一方面说法不一，有自相似说，也有泊松分布说。而针对自相似时，有FARIMA说，也有FARIMA失效说。在研究运营商实际上下行数据量序列的自相似和多重分形特性时，明确了移动互联网流量序列在SGSN(Serving GPRS SUPPORT NODE,GPRS服务支持节点)粒度上同时存在泊松特性和自相似特性，其特性与忙时还是闲时相关。并针对该特性设计了一种结合FARIMA和ARMA的综合预测方法，在保证预测准确性同时，提高了预测的效率。

请参见图1，为本发明实施例一提供的一种移动网络数据业务业务量的预测方法流程图，该方法包括如下步骤：

步骤S101：获取基于时间顺序的移动网络数据业务业务量历史值序列作为样本序列。

为保证预测结果的准确性，从移动网络数据库中选取数据业务业务量历史值作为样本，至少选取过去一个月以上的样本数据。

对所述样本数据进行包括补足缺失数据的预处理。

根据数据业务业务量预测需求以时间维度确定样本序列。可以小时为粒度、以天为粒度或以一个时间段为粒度，可根据实际需求确定。

移动网络数据业务业务量可以是各网元中Gb口上下行流量数据，基于时间顺序获取数据业务业务量，可以根据具体的业务需求以不同的时间粒度获取数据，实际操作中常以小时为粒度，获取一个时间段内以每个小时为时间点的数据业务业务量构成样本序列。

步骤S102：对所述样本序列进行自相似探测和多重分形探测，根据探测结果确定对所述样本序列的预测方法：

所述的探测结果，是指所探测的样本序列是否具有自相似特性和多重分形特性。由于不具有自相似特性的数据业务业务量样本序列的分布特点接近泊松分布，因此采用ARMA模型进行建模预测。单纯具有自相似特性而不具有多重分形特性的数据业务业务量样本序列，由于其具备的自相似特性，可采用FARIMA模型对其进行建模预测。

本方法中根据样本序列的自身特性，采用不同的模型进行建模预测，比统一采用ARMA模型或统一采用FARIMA模型预测要准确率提高很多。

由于移动网络数据业务业务量庞大，在选取样本序列时，样本序列很可能还具有多重分形特性，在样本序列具有多重分形特性时，会导致预测结果的不准确，因此需要对样本序列进行分解，消除样本序列的多重分形特性后，再采用实施例一所述的方法对其进行预测。

为了对具有多重分形特性的样本序列进行预测，基于本发明实施例一，如图2所示，给出本发明实施例二。

步骤S201：获取基于时间顺序的移动网络数据业务业务量历史值序列作为样本序列。

可根据实际需求以不同时间粒度选取数据作为样本序列。

以运营商SGSN网元为例，采集该网元中Gb口上下行流量数据序列，粒度为小时。取从2012-3-300:00:00开始到2012-9-1823:00:00中每个时间点的数据业务业务量构成样本序列（每个小时为一个时间点）。如表1所示，截取中间的部分数据。Datetime表示获取时间，XXXX表示某网元名称，Iu_PS uplink表示上行流量，Iu_PS downlink表示下行流量。

表1 选取的数据业务业务量样本数据

datetime	SGSN	Iu_PS uplink	Iu_PS downlink
				2012/3/30:00	XXXX	6043812	31784790
2012/3/31:00	XXXX	3690041	20117256
				2012/3/32:00	XXXX	2462286	12803510
2012/3/33:00	XXXX	1920203	8918211
				2012/3/34:00	XXXX	1665541	7275179
2012/3/35:00	XXXX	1908972	8323818
				2012/3/36:00	XXXX	4162745	18831980
2012/3/37:00	XXXX	9204973	41789064
				2012/3/38:00	XXXX	12695816	54225804
2012/3/39:00	XXXX	11256575	47381300
				2012/3/310:00	XXXX	10831573	50574552
2012/3/311:00	XXXX	10395633	48509528
				2012/3/312:00	XXXX	10600992	48410460
2012/3/313:00	XXXX	10574047	46950544
				2012/3/314:00	XXXX	10489228	47261836
……	……	……	……

步骤S202：对所述样本序列进行自相似探测和多重分形探测，判断所述样本序列是否具有自相似特性和多重分形特性，若所述样本序列不具有自相似特性，则进入步骤S203；若所述样本序列仅具有自相似特性不具有多重分形特性，则进入步骤S204；若所述样本序列即具有自相似特性又具有多重分形特性，则进入步骤S205。

通过自相似指数Hurst(H值)确定样本序列探测样本序列的自相似特性。可用方差-时间图(V-T(Variance-Time))法计算整个序列的H值。另外几种常用的Hurst指数估计方法包括重标度极差分析R/S析法、周期图法、Whittle估计方法和基于小波分析的EM估计。为了确保自相似指数的准确性，可采用多种方式分别计算H值，然后取其平均值。

V-T(方差-时间法)Hurst指数计算方法其实也反映了自相似序列的一种本质特点：长相关和方差慢衰减。设时间序列为x(i),i＝1,2，...，N。x(i)表示第i个单位时间内到达的网络字节流量。选取聚合长度为m（m为正整数），并把序列分为大小为m的若干块，然后对每一块计算其均值和方差，得到聚合后的序列，则聚合所得新序列为

x^{m} (k) = 1 / m Σ_{i = (k - 1) m + 1}^{i = km} x (i)

其中k为数据块序号，k=1,2,3……N/m

这个聚合是不重合的，即新序列长度在理想情况下是原长度的1/m。如果原序列x(i)是短相关的，则随着m值的增加，聚合序列的方差急剧衰减或者说新序列越来越平滑，并遵循：var(x^(m))～bm^-1,m-＞∞。但是，若序列存在长相关性，则聚合序列方差将是聚合长度的幂函数形式（因为幂函数有自相似特性，因此该类序列称为自相似的）var(x^(m))～am^-β＝am^2H-2，用最小二乘法拟合得到斜率为-β曲线，从而求得H=1-β/2，当0.5<H<1则可以确定该序列具有自相似特性。

根据上述方法对表1中的样本序列计算自相似指数，得到H=0.85，所述样本序列具有自相似特性。

通过计算该样本序列的多重分形谱，判断样本序列的多重分形特性。

常用的多重分形分析法有MFDFA分析法和MFSA分析法，本文以MSFAF分析法为例完成多重分形分析，MSFA分析法主要利用质量指数、奇异标度指数和多重分形谱等参数来刻画时间序列内部的复杂性和局部特性。

多重分形谱f(α)在对多重分形进行精确的数学刻画的同时，通过f(α)相对α的曲线为多重分形提供了自然而形象的直观描述，其中α确定了奇异性的强度，而f(α)则描述了分布的稠密程度。

用MFSA(Multifractal Spectrum Analysis)方法编写程序计算该序列的多重分形谱f(α)～α[10][11],α为奇异标度指数，f(α)为多重分形谱函数。

按照上述方法对表1中的样本序列进行多重分形探测，如图3所示，纵轴为f(α)，横轴为α，多重分形谱开口△α>0.7，表明该序列不是单纯的自相似，而是存在一定的多重分形特性。

步骤S203：根据ARMA模型对所述样本序列进行预测，获得预测值。

基于自相似探测和多重分形探测的结果，样本序列不具备自相似特性，则说明该样本序列是随机序列只存在短相关的情况，采用适合短相关序列的ARMA模型建模预测即可。

步骤S204：根据FARIMA模型对所述样本序列进行建模预测，获得预测值。

数据业务业务量样本序列的自相似性会导致序列具有长相关性，采用FARIMA模型对自相似特性的样本序列进行预测，可以保证预测结果的准确性。

步骤S205：消除所述样本序列的多重分形特性后，获得分支样本序列，返回步骤S202，对分支序列进行探测，选择相应的模型进行建模预测，获得预测值。

样本序列若即具有自相似特性又具有多重分形特性，说明该样本序列在自相似的基础上，存在多个维度，直接预测会造成预测结果的不准确，因此需要消除样本序列的多重分形特性后，才能保证预测结果的准确性。

目前采用的消除样本序列多重分形特性的方法是：

依照数据业务业务量时间点分布特性分解具有多重分形特性的样本序列，得到多个分支序列；

对分支序列再次进行多重分形探测，若该分支序列已不具有多重分形特性，则不用继续分解；若该分支序列仍具有多重分形特性，则继续对其进行分解和探测，直到获得不具有多重分形特性的分支样本序列为止。

根据移动网络数据业务业务量每天每个小时时刻的业务量所具有的相似性，将表1中的样本序列分解为24个分支序列，对这24个分支序列再次进行多重分形探测，获得每个分支序列的△α值，当△α<0.3则表示该序列不具有多重分形特性。

以上实施例说明了根据自相似探测和多重分形探测的结果，对样本序列选择适合的预测模型进行预测，相比采用一种固定模型对样本序列进行预测的方法来说准确率更高。对具有多重分形特性的样本序列，先消除样本序列的多重分形特性，将其分解为多个分支序列，再对仅具有自相似特性的分支序列进行数据业务业务量预测，进一步提高了预测的准确率。

如图4所示，优选的，为了减小网管在线实时预测的计算压力，给出本发明的实施例三，用以说明采用动态预测方法。

实际应用中，在一段时间内，样本序列的自相似特性和相关特性是比较稳定的，所以所得模型很长时间内不需要重新训练，在移动网络庞大的数据业务业务量基础之上，采用动态预测方法预测数据业务业务量可以极大的提高应用效率。

动态预测方法包括如下步骤：

步骤S301：当与所述预测值相对应的实际值到达时，计算所述样本序列实际值和其对应预测值的误差值，组成残差序列。

每个预测值都由于其对应的实际值，将实际值与预测值之差称为误差值，每一对数值的误差值就组成了残差序列。

步骤S302：获取所述残差序列的自相关函数ACF并对所述残差序列进行白噪声检验。

对残差序列进行白噪声检验，是为了测试在所述序列加入新数值后，其特性是否发生改变。

步骤S303：将所述实际值加入所述样本序列中组成新样本序列，获取所述新样本序列的自相似指数H’。

步骤S304：判断新样本序列的自相似指数H’与所述样本序列自相似指数H是否相同，若相同则进入步骤S305，若不相同则进入步骤S308。

新样本序列的自相似指数和样本序列的自相似指数若相同，则说明新样本序列在自相似特性上并未发生变化，可进入下一步判断。新样本序列的自相似指数发生变化，则说明新样本序列的特性发生变化，需要重新进行训练，选择适当的模型。

步骤S305：根据步骤S302的白噪声检验结果判断所述残差序列是否仍为白噪声，若所述残差序列为白噪声，则进入步骤306，若所述残差序列不为白噪声则进入步骤S307。

在新样本序列的自相似指数没有发生变化的基础上，其残差序列仍为白噪声，则说明新样本序列的特性很稳定，不需要重新进行训练；若其残差序列不是白噪声，则需要对样本序列进行下一步特性的探测。

步骤S306：针对新样本序列使用所述样本序列相同的预测方法对下一时间点的值进行预测。

步骤S307：针对新样本序列进行多重分形后，针对所述经过分形后的分支序列使用所述原样本序列采用的模型对下一时间点的值进行预测。

步骤S308：对所述新样本序列进行多重分形探测，根据所述探测结果结合所述新的自相似指数H’对新样本序列重新选择相应模型对下一时间点的值进行预测。

如图5所示，基于本发明的上文所述，为进一步清楚地说明本发明中如何采用FARIMA模型对样本序列进行建模预测，给出实施例四。

首先对FARIMA模型做一下介绍，FARIMA模型是分数自回归滑动求和平均模型，具备同时描述长相关性和短相关性的能力。FARIMA一般记为FARIMA（p，d，q）。其中d为分数差分阶数，p是自回归项阶数，q是滑动平均阶数。通常记为:

Φ(z^-1)(1-z^-1)^dX_t=Θ(z^-1)ε_t (1)

式中{X_t：t＝...，-1，0，1...}为时间序列，d∈(-0.5，0.5)，{ε_t：t＝...，-1，0，1...}是一零均值方差为σ²的白噪声序列。Φ(z^-1)和Θ(z^-1)分别是p阶自回归（auto regnessive，AR）多项式和q阶滑动平滑（moving average，MA）多项式。

Δ^{d} = {(1 - z^{- 1})}^{d} = Σ_{k = 0}^{\infty} (\begin{matrix} d \\ k \end{matrix}) {(- z^{- 1})}^{k} - - - (2)

Θ(z^-1)=1-θ₁z^-1-θ₂z^-2-，...，-θ_qz^-q （3）

定义Δ＝(1-z^-1)为差分算子，则Δ^d表示分数差分算子，其二项展开式为：

Δ^{d} = {(1 - z^{- 1})}^{d} = Σ_{k = 0}^{\infty} (\begin{matrix} d \\ k \end{matrix}) {(- z^{- 1})}^{k} - - - (4)

当d∈(-0.5，0.5)时FARIMA过程为长相关过程。

存在如下计算方法H=d+1/2。

采用FARIMA模型对具有自相似特性的样本序列进行建模预测额的方法为：

步骤S401：根据所述FARIMA模型结合所述样本序列X(t)的自相似指数H，计算其分数差分阶数d。

移动网络数据业务业务量中选取的自相似样本序列X(t)，采用上文中所述的方法计算样本序列X(t)的自相似指数H值，根据H与d间所存在的关系H=d+1/2，获得分数差分阶数d的值

步骤S402：根据以及所述分数差分阶数d对所述样本序列进行分数差分得到序列Y(t)。

对X(t)序列进行分数差分得到Y（t）。

Y_t＝Δ^dX_t＝(1-B)^dX_t （5）

▽＝1-B称为差分算子。

将公式5展开后，所得序列Y（t）应是已经去掉了自相似长相关特性的一个序列。

步骤S403：对所述分数差分序列Y(t)进行季节探测获得其周期系数，对其进行周期为n的季节差分，得到序列W(t)；

一般情况下，由于移动网络数据业务业务量分布存在每周一循环的周期性，通过自相关函数ACF对Y（t）进行季节探测，获得其周期系数为7。对其进行周期为7的季节差分得到：

W(t)＝(1-B⁷)Y(t)

步骤S404：对所述序列W(t)进行ARMA建模预测，得出预测值。

如图6所示，为了进一步说明采用ARMA模型对不具有自相似特性的序列进行预测，给出本发明的实施例五。

步骤S501:对所述样本序列X(t)进行季节探测获得其周期系数，对其进行周期为m的季节差分，得到序列M(t)。

步骤S502：对所述序列M(t)进行ARMA(p,q)定阶。

在建立ARMA(p,q)模型时，需要确定模型的阶数，确定目前模型定阶的方法中，残差平方和方法的主观性很强，适于粗略估计，无法精确建模。AIC定阶方法在使用时存在所定模型阶数大于实际阶数的问题，BIC定阶方法则存在所定模型阶数小于实际阶数的问题。可利用F检验进行模型定阶，该方法可用程序来实现自动定阶。

步骤S503：计算所述选定阶数的ARMA(p,q)模型参数。

当确定完成ARMA(p,q)的阶数后，采用极大似然估计法求得ARMA(p,q)模型的参数φ和参数θ。

步骤S504：根据所述确定阶数和模型参数的ARMA(p,q)模型，对所述样本序列X(t)进行预测。

将已确定的阶数和模型参数带入ARMA(p,q)模型公式：

y_{t} = Σ_{i = 1}^{p} φ_{i} y_{t - i} - Σ_{j = 1}^{q} θ_{j} ϵ_{t - j} + ϵ_{t}

求得一步预测值。

为了更详细的说明本方法对移动网络数据业务业务量的预测过程，特结合实例给出本发明的实施例六，如图7所示，包括如下步骤：

步骤S601：选取运营商某一SGSN的Gb口上、下行流量数据序列作为样本序列，粒度为小时。

取从2012-3-700:00:00开始到2012-9-1623:00:00中每个时间点的数据业务业务量构成样本序列（每个小时为一个时间点）。如表1内容所示。

步骤S602：对所述样本序列进行自相似探测和多重分形探测。

分别采用方差-时间法和R/S法计算样本序列的Hurst指数，并取平均值，最终获得H=0.8，可见样本序列具有很明显的自相似特性。

再对样本序列进行多重分形探测，采用MFSA方法编写程序计算该序列的多重分形谱，如图3所示，获得多重分形谱开口Δα＞0.7，表明该序列不是单纯的自相似，而是存在明显的多重分形特性。

步骤S603：对样本序列进行分解，将其分解成多个分支序列。

根据数据业务业务量在每天各个小时时间点内分布规律更相似的特点，将原样本序列按照每天中相同小时时间点分解成24个分支序列。

步骤S604：探测每个分支序列的自相似特性和多重分形特性。

计算每个分支序列的Hurst值，如表2所示：

表2从0:00到23:00各时间点上的自相似指数Hurst值

0:00	1:00	2:00	3:00	4:00	5:00	6:00	7:00	8:00	9:00	10:00	11:00
												0.82	0.78	0.73	0.68	0.74	0.8	0.5	0.5	0.5	0.88	0.82	0.79
12:00	13:00	14:00	15:00	16:00	17:00	18:00	19:00	20:00	21:00	22:00	23:00
												0.89	0.9	0.9	0.89	0.85	0.89	0.75	0.85	0.83	0.84	0.85	0.87

从上表中可看出，除了6:00-8:00这3个时间点外，其他各时间点上都是统计上自相似长相关的，而这3个时间点则是随机的，不存在长相关特性。

再分别计算这24个分支序列每个的多重分型特性，以每天19:00的分支序列为例，计算其多重分形谱，如图8所示。这个序列多重分形谱开口很小可以认为存在单纯的自相似性。

步骤S605：应用FARIMA模型对具有自相似特性的分支序列进行预测。

这里以19:00分支序列为例，其他具有自相似特性的分支序列预测方法不再赘述。

步骤S6051：根据19：00分支序列的自相似指数H=0.85获得d=0.35。

步骤S6052：将样本序列进行分数差分。

φ(B)＝(1-B)^0.35

将原序列x(t)代入y(t)＝φ(B)x(t)后，即得到去掉自相似长相关特性的序列y(t)。

步骤S6053：对经过分数差分的序列y(t)进行季节探测，确定周期系统后进行季节差分。

如图9所示，根据计算自相关函数ACF确定序列的周期系数，如图所示，其自相关函数呈现以7为周期的重复性，因此确定该序列的周期系数为7。

将其进行周期为7的季节差分

w(t)＝(1-B⁷)y(t)

步骤S6054：根据ARMA模型对w（t）序列进行建模预测。

为了减小网管在线实时预测的计算压力，采用如下动态预测方法，每当一个新的数据到达时：

a)计算实际值和预测值的误差值，并加入的残差序列InnovationX中，计算残差序列的ACF并判断是否仍然是白噪声。

b)将新到来的实际值加入到样本序列中，并对序列进行自相似指数Hurst计算。

c)如H值不变，且a)中残差序列仍然是白噪声，则继续用之前的模型进行新出现时间点值的分形差分计算，并用之前ARIMA模型预测，得到新的w序列值（季节差分值），并进行周期和分形的Integration运算。

d)若H不变，但白噪声不满足，则需重新进行分形后序列{y}的ARMA建模。

e)若H值发生变化，则需按新的H值进行整个序列的分形差分，获得全新的序列{y}，并进行周期探测和ARIMA重新建模。

因为实际中，在一段时间内，其自相似特性和相关特性是较稳定的，所以所得模型很长时间内不需要重训训练，该动态方法可以极大提高模型应用效率。

根据3月7日到9月16日的数据序列{x1}，预测9月17日-9月24日的数据业务业务量。

首先根据{x1}9月17日19点经过分形和季节差分后得到将其进行差分和分形差分的逆运算，得到重新计算Hurst指数，H＝0.85，表明特征没有变化。将9月17日19:00的误差带入原误差序列，探测误差序列的白噪声情况，得到误差序列的ACF图如图10所示。

该图表明新数据到达没有改变原序列的特性，原模型仍然适用新的序列，用原模型来预测9月18日19:00的下行数据业务业务量，结果见表3。然后用相同方法探测新数据到达后序列Hurst指数值和新误差序列相关系数，发现特性在较长时间内没有变化。表3显示了9月17日到9月24日19:00的数据业务业务量用同一ARMA模型的预测结果。

在9月17到9月24的8天内用相同的模型可以得到8个{w}序列的预测值如下表3所示：

表3ARMA(2,2)预测结果

1	2	3	4	5	6	7	8
								506276	2367751	539666	-1694704	-572191	281985	-4773578	-9035869

进行FARIMA的分形累积(fractal integration)，并进行季节反差分，得到预测值和实际值的对比情况如下表4所示：

表42012年9月17日-9月24日19:00的数据业务业务量(bytes)预测结果分析

预测值	63263746	61738229	67199746	65082606	67023169	60880885	57017372	64815039
									实际值	62757470	64105980	66660080	66777310	67595360	60598900	61790950	64112570
误差	506276	-2367751	539666	-1694704	-572191	-281985	-4773578	702471
									相对误差	0.0081	-0.036	0.008	-0.025	-0.0085	-0.0047	-0.077	0.0109

从表4可以看出，总体预测结果良好，平均绝对百分比误差为MAPE=0.022。

步骤S606：对不具有自相似特性的分支序列直接用ARMA模型建模获得预测值。

这里以7:00分支序列的预测为例，其他不具有自相似特性的分支序列预测方法不再赘述。

采用ARMA模型建模和动态预测方法预测7：00这个分支序列的9月17到9月24的8个时间点的预测值。

首先用自相关函数ACF或谱分析法判断单分支序列的周期特性，因为普遍存在以周(S=7)为单位的周期性。则进行季节差分并得到差分后序列m(t)

m(t)＝(1-B⁷)x(t)。

对序列m(t)进行ARMA建模并进行预测得到下一时间点的预测值。利用该m(t_n+1)进行周期的反差分或者说是Integration运算，即得到下一时间点的预测值x(t_n+1)。

在下一时间点的实际指标值采集上来后，进行模型的适用性检验，并只在必要时进行模型重新训练工作。检验方法上文中所述，在此不再赘述。

用该方法得到7：00这个分支序列的9月17到9月24的8个时间点的预测值，及其与实际值的对比情况如表5。

表52012年9月17日-9月24日7:00的数据业务业务量(bytes)预测结果分析

预测值	48511798	48364599	49375733	50708823	50020961	38263580	34790195	47230662
									实际值	46552148	49215760	49499096	52847304	51165088	37689188	33882436	45645068
误差	1959650	-851161	-123363	-2138481	-1144127	574392	907759	1585594
									相对误差	0.042	-0.017	-0.0024	-0.0404	-0.0223	0.0152	0.026791	0.034737

从表5可以看出，总体预测结果良好，平均绝对百分比误差为MAPE=0.025

本发明实施例七同时还公开了一种移动网络数据业务业务量的预测装置，其结构如图11所示，包括：

数据获取单元1，用于获取基于时间顺序的移动网络数据业务业务量历史值序列作为样本序列。

所述数据获取单元从移动网络数据库中选取数据业务业务量历史值作为样本，至少选取过去一个月以上的样本数据；

对所述样本数据进行包括补足缺失数据的预处理；

根据数据业务业务量预测需求以时间维度确定样本序列。

数据分析单元2，用于对所述数据获取单元1获取的样本序列进行自相似探测和多重分形探测。

所述数据分析单元2获得所述样本序列的自相似指数值H，根据H值确定样本序列的自相似特性。当0.5<H<1时，样本序列具有自相似特性。

所述数据分析单元2计算所述具有自相似特性样本序列的多重分形谱，根据其多重分形谱开口△α确定所述样本序列是否具有多重分形特性。

确定自相似指数值H和计算样本序列多重分形谱的方法，参照本发明方法部分的详细论述。

预测单元3，用于根据所述数据分析单元2探测的所述样本序列特性，选择与其适应的模型并进行数据预测；若所述样本序列不具有自相似特性，则根据ARMA模型对所述样本序列进行预测，获得预测值；若所述样本序列仅具有自相似特性不具有多重分形特性，则根据FARIMA模型对所述样本序列进行建模预测，获得预测值。

为了对具有多重分形特性的样本序列进行分形，所述装置还包括：

分形单元4，用于若所述数据分析单元2探测的所述样本序列具有自相似特性和多重分形特性，则消除所述样本序列的多重分形特性后，获得分支样本序列；将所述分支样本序列发送至数据分析单元2进行探测分析后，所述预测单元3对所述分支样本序列进行预测。

所述分形单元4依照数据业务业务量时间点分布特性分解所述具有多重分形特性的样本序列，得到多个分支序列；

所述数据分析单元2对所述分形单元4获得的多个分支序列进行多重分形探测，若该分支序列已不具有多重分形特性，则不用继续分解；若该分支序列仍具有多重分形特性，则所述分型模块3继续对其进行分解，直到获得不具有多重分形特性的分支样本序列为止。

为了更好的根据样本序列特性选择其适用的模型，并进行预测，预测单元3可进一步包括：

模型选择模块31，用于根据所述数据分析单元探测的所述样本序列特性，选择与其适应的模型，发送给相应的模型预测单元进行预测。

FARIMA模型预测单元32，用于对具有自相似特性的样本序列采用FARIMA模型对样本序列进行建模预测。

采用FARIMA进行建模预测的方法为：

对所述序列W(t)进行ARMA建模预测，得出预测值。

ARMA模型预测单元33，用于对不具有自相似特性的样本序列采用ARMA模型对样本序列进行建模预测。

采用ARMA进行建模预测的方法为：

对所述序列M(t)进行ARMA(p,q)定阶；

计算所述选定阶数的ARMA(p,q)模型参数；

数据获取单元1获取数据业务量历史值序列作为样本序列，由数据分析单元2对样本序列进行自相似探测和多重分形探测，预测单元3根据数据分析单元2的分析结果选择合适的模型对样本序列进行预测，即完成预测过程。

当数据分析单元2分析的结果显示样本序列具有多重分形特性时，则需要分形单元4先对样本序列进行分形操作，消除其多重分形特性，获得分支样本序列，由数据分析单元2再对分支序列进行分析探测后，由预测单元3根据数据分析单元的分析结果选择合适的模型对分支样本序列进行预测，完成预测过程。

为了提高预测的效率，实现动态预测方法，在本发明实施例七的基础上给出本发明的实施例八，用以完成对数据业务业务量的动态预测。如图12所示。

所述数据获取单元1还包括：

残差序列获取模块101，用于计算所述样本序列实际值和其对应预测值的误差值，获得残差序列。

所述数据分析单元2包括：

自相似探测模块201，用于计算所述数据获取单元获得所述样本序列和所述新样本序列的自相似指数值H和H’。

多重分形探测模块202，用于计算经过所述自相似探测模块探测过的具有自相似特性样本序列的多重分形谱，根据其多重分形谱开口△α确定所述样本序列是否具有多重分形特性。

白噪声检验模块203，用于对所述残差序列获取模块101获得的残差序列进行白噪声检验。

所述预测单元3包括：

模型选择模块301，用于根据所述数据分析单元探测的所述样本序列特性，选择与其适应的模型，发送给相应的模型预测单元进行预测；

FARIMA模型预测单元302，用于对具有自相似特性的样本序列采用FARIMA模型对样本序列进行建模预测；

ARMA模型预测单元303，用于对不具有自相似特性的样本序列采用ARMA模型对样本序列进行建模预测。

模型适用性确定模块304，用于根据所述白噪声检验模块对所述残差序列的白噪声检验结果与所述自相似探测模块计算的新样本序列自相似指数H’，检验并确定所述新样本序列使用的预测模型，发送给相应的模型预测单元进行预测。

模型适用性确定模块完成模型确定的方法为：

当有新的实际值到达时，本装置可采用动态预测数据业务业务量。

数据获取单元1获取新到达实际值加入样本序列中，获得新样本序列，残差序列获取模块101，计算样本序列实际值与其对应预测值的误差值，获得残差序列。

自相似探测模块201计算新样本序列的自相似指数H’和样本序列的自相似指数H。

白噪声检验模块203对所述残差序列获取模块获得的残差序列进行白噪声检验。

模型适用性确定模块304根据自相似探测模块和白噪声检验模块给出的结果（即新样本序列自相似指数H’是否与样本序列自相似指数H相同，残差序列是否为白噪声），判断样本序列的预测模型对新样本序列是否适用，如果使用则通过模型选择模块301确定相应的模型预测单元（FARIMA模型预测单元302或ARMA模型预测单元303）进行建模预测；如果不适用，则通过自相似探测模块201和多重分形探测模块202对新样本序列进行探测，按照样本序列的模型选择方法和预测方法，对新样本序列重新选择模型进行建模预测。

关于采用FARIMA建模预测和ARMA建模预测的过程在方法部分已进行详细论述，在此不再赘述。

以上所公开的实施例说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改变换对本领域的专业技术人员来说将是显而易见的，本文中所定义的原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种移动网络数据业务业务量的预测方法，其特征在于，所述方法包括下述步骤：

2.根据权利要求1所述的预测方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述消除所述样本序列的多重分形特性后获得分支样本序列的方法具体为：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据对所述新残差序列的白噪声检验结果与所述新样本序列的自相似指数H’,确定新样本序列的适用预测模型，获得下一时间点的预测值的方法具体为：

7.根据权利要求1-6中任一所述的方法，其特征在于，所述采用FARIMA模型对样本序列进行建模预测，获得预测值的方法具体为：

对所述序列W(t)进行ARMA建模预测，得出预测值。

8.根据权利要求8所述的方法，其特征在于，所述采用ARMA模型对样本序列进行建模预测，得出预测值的方法具体为：

对所述序列M(t)进行ARMA(p,q)定阶；

计算所述选定阶数的ARMA(p,q)模型参数；

9.根据权利要求7所述的方法，其特征在于：

10.根据所述权利要求9所述的方法，其特征在于：

对所述样本数据进行包括补足缺失数据的预处理；

根据数据业务业务量预测需求以时间维度确定样本序列。

11.一种移动网络数据业务业务量的预测装置，其特征在于，所述装置包括：

数据分析单元，用于对所述数据获取单元的样本序列进行自相似探测和多重分形探测；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于：

14.根据权利要求13所述的装置，其特征在于，所述预测单元进一步包括：

15.根据权利要求14所述的装置，其特征在于，所述数据分析单元进一步包括：

16.根据权利要求15所述的装置，其特征在于：

所述数据获取单元还包括：

所述数据分析单元还包括：

所述预测单元还包括：

17.根据权利要求16所述的装置，其特征在于，所述模型适用性确定模块完成模型确定的方法为：

18.根据权利要求11-17中任一所述的装置，其特征在于，所述预测单元采用FARIMA进行建模预测的方法为：

对所述序列W(t)进行ARMA建模预测，得出预测值。

19.根据权利要求11-17中任一所述的装置，其特征在于，所述预测单元采用ARMA进行建模预测的方法为：

对所述序列M(t)进行ARMA(p,q)定阶；

计算所述选定阶数的ARMA(p,q)模型参数；