CN106301957B - 一种网络流量峰值的预测方法及装置 - Google Patents

一种网络流量峰值的预测方法及装置 Download PDF

Info

Publication number
CN106301957B
CN106301957B CN201610866357.7A CN201610866357A CN106301957B CN 106301957 B CN106301957 B CN 106301957B CN 201610866357 A CN201610866357 A CN 201610866357A CN 106301957 B CN106301957 B CN 106301957B
Authority
CN
China
Prior art keywords
probability distribution
parameter
probability
network flow
density function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610866357.7A
Other languages
English (en)
Other versions
CN106301957A (zh
Inventor
丁希晨
肖迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610866357.7A priority Critical patent/CN106301957B/zh
Publication of CN106301957A publication Critical patent/CN106301957A/zh
Application granted granted Critical
Publication of CN106301957B publication Critical patent/CN106301957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Complex Calculations (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种网络流量峰值的预测方法及装置,所述方法包括:采集当前数据采集周期内的网络流量数据;确定所述网络流量数据服从的至少一个概率分布;针对所确定的概率分布中的每一概率分布,估计该概率分布的参数;根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数;确定和所述网络流量数据的拟合优度最高的概率密度函数;利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。应用本发明实施例,对下一数据采集周期的网络流量数据进行了概率上的描述,提高了网络流量峰值预测的准确度。

Description

一种网络流量峰值的预测方法及装置
技术领域
本发明涉及数据预测技术领域,特别涉及一种网络流量峰值的预测方法及装置。
背景技术
随着网络技术的发展,人们越来越多的利用网络观看电视剧或者综艺节目。当新电视剧剧集或者新一期综艺节目上线后,在一段时间内,针对新电视剧剧集或者新一期综艺节目的点击量会增加到一个峰值,对应的网络流量数据就达到了一个峰值,然后随着时间的推进,点击量逐渐下降。如果网络流量数据超出服务器的最大工作能力,会导致部分用户无法访问或者服务器超负荷运转,因此对网络流量数据的峰值进行预测是非常必要的。
目前网络流量峰值预测的常用方法为时间序列分析法,这类方法是根据一段时间周期内的网络流量数据的历史数据随着时间的变化关系进行未来数据的计算和预测。而时间序列分析法只能对确定性的事件进行预测,即应用时间序列分析法的前提条件是网络流量数据的变化趋势必然会延续到未来数据采集周期内。而且在实际应用中,网络流量数据的变化过程不只是与时间相关,还有可能与时间之外的一些因素相关,比如影视内容等一些不规则因素,因此,网络流量数据的变化过程具有一定的概率学上的随机性。
由于时间序列分析法只能对确定性的变化趋势进行预测,而无法对未来数据采集周期内网络流量数据的随机性变化进行概率上的描述,进而应用现有技术对未来网络流量数据的峰值预测的准确度较低。
发明内容
本发明实施例的目的在于提供一种网络流量峰值的预测方法及装置,以提高网络流量峰值预测的准确度。
为达到上述目的,本发明实施例公开了一种网络流量峰值的预测方法,所述方法包括:
采集当前数据采集周期内的网络流量数据;
确定所述网络流量数据服从的至少一个概率分布;
针对所确定的概率分布中的每一概率分布,估计该概率分布的参数;
根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数;
确定和所述网络流量数据的拟合优度最高的概率密度函数;
利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。
较佳的,在所述确定所述网络流量数据服从的至少一个概率分布之前,所述方法还包括:
修正所述网络流量数据中的异常数据;
所述确定所述网络流量数据服从的至少一个概率分布,包括:
确定修正异常数据后的网络流量数据服从的至少一个概率分布。
较佳的,所述确定所述网络流量数据服从的至少一个概率分布,包括:
针对所述网络流量数据,利用至少一种连续性随机概率分布进行拟合,得到每一种连续性随机概率分布对应的拟合结果;
确定每一拟合结果服从的概率分布。
较佳的,所述针对所确定的概率分布中的每一概率分布,估计该概率分布的参数,包括:
针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数。
较佳的,所述针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数,包括:
针对所确定的概率分布中的每一概率分布,根据该概率分布对应的先验共轭概率分布的参数,确定与所述先验共轭概率分布对应的似然函数表达式;
根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数;
判断所述后验概率分布的参数相对于所述先验共轭概率分布的参数的改变量是否小于预设阈值;
若是,将所述后验概率分布的参数确定为所述概率分布的参数;
若否,将所述先验共轭概率分布的参数更改为当前所述后验概率分布的参数,继续执行所述根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数的操作步骤。
较佳的,所述确定和所述网络流量数据的拟合优度最高的概率密度函数,包括:
利用卡方检测法,确定和所述网络流量数据的拟合优度最高的概率密度函数。
为达到上述目的,本发明实施例还提供了一种网络流量峰值的预测装置,所述装置包括:采集模块、第一确定模块、估计模块、第二确定模块、第三确定模块和预测模块,其中,
所述采集模块,用于采集当前数据采集周期内的网络流量数据;
所述第一确定模块,用于确定所述网络流量数据服从的至少一个概率分布;
所述估计模块,用于针对所确定的概率分布中的每一概率分布,估计该概率分布的参数;
所述第二确定模块,用于根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数;
所述第三确定模块,用于确定和所述网络流量数据的拟合优度最高的概率密度函数;
所述预测模块,用于利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。
较佳的,所述装置还包括修正模块,用于修正所述网络流量数据中的异常数据;
所述第一确定模块,具体用于:
确定修正异常数据后的网络流量数据服从的至少一个概率分布。
较佳的,所述第一确定模块,具体用于:
针对所述网络流量数据,利用至少一种连续性随机概率分布进行拟合,得到每一种连续性随机概率分布对应的拟合结果;
确定每一拟合结果服从的概率分布。
较佳的,所述估计模块,具体用于:
针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数。
较佳的,所述估计模块,具体用于:
针对所确定的概率分布中的每一概率分布,根据该概率分布对应的先验共轭概率分布的参数,确定与所述先验共轭概率分布对应的似然函数表达式;
根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数;
判断所述后验概率分布的参数相对于所述先验共轭概率分布的参数的改变量是否小于预设阈值;
若是,将所述后验概率分布的参数确定为所述概率分布的参数;
若否,将所述先验共轭概率分布的参数更改为当前所述后验概率分布的参数,继续执行所述根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数的操作步骤。
较佳的,所述第三确定模块,具体用于:
利用卡方检测法,确定和所述网络流量数据的拟合优度最高的概率密度函数。
本发明实施例提供了一种网络流量峰值的预测方法及装置,所述方法包括:采集当前数据采集周期内的网络流量数据;确定所述网络流量数据服从的至少一个概率分布;针对所确定的概率分布中的每一概率分布,估计该概率分布的参数;根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数;确定和所述网络流量数据的拟合优度最高的概率密度函数;利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。
应用本发明实施例,对下一数据采集周期的网络流量数据进行了概率上的描述,相对于现有技术无法对未来数据采集周期内网络流量数据的变化进行概率上的描述,提高了网络流量峰值预测的准确度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网络流量峰值的预测方法的流程示意图;
图2为本发明实施例提供的拟合占比序列中的数据的结果示意图;
图3为本发明实施例提供的另一种网络流量峰值的预测方法的流程示意图;
图4为本发明实施例提供的一种网络流量峰值的预测装置的结构示意图;
图5为本发明实施例提供的另一种网络流量峰值的预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有技术问题,本发明实施例提供了一种网络流量峰值的预测方法及装置,下面首先就一种网络流量峰值的预测方法进行介绍。
图1为本发明实施例提供的一种网络流量峰值的预测方法的流程示意图,可以包括:
S101:采集当前数据采集周期内的网络流量数据。
通常情况下,本发明实施例可以应用于综艺节目、电视剧等连播剧集的网络流量峰值的预测。
需要说明的是,网络流量为用户针对该连播剧集的访问量。
具体的,假设第3集电视剧上线时刻为21:00,采集(20:30,24:00)时间段内的访问量,其中,(20:30,24:00)时间段为当前数据采集周期。
通常情况下,可以按照每5秒但不仅限于每5秒一个步长,将(20:30,24:00)时间段划分为2520个子周期,将每一子周期内的访问量之和确定为当前子周期的访问量,以此类推,对(20:30,24:00)时间段内的用户访问量进行处理,就形成了2520个数据点,其中,每一数据点对应一个子周期和该子周期内的用户访问量的和。
还可以将(20:30,24:00)时间段按照每5秒一个步长划分为2520个子周期,根据每一子周期的开始时刻的用户访问量和该时刻值确定2520个数据点,还可以根据每一子周期的结束时刻的用户访问量和该时刻值确定2520个数据点。
在实际应用中,还需要对在(20:30,24:00)时间段内确定出的2520个数据点对应的用户访问量进行归一化处理,即确定出每一子周期对应的用户访问量占当前数据采集周期内总用户访问量的比值,其中,归一化采用的公式为:
其中,Y(t)为每一子周期对应的用户访问量占当前数据采集周期内总用户访问量的比值的序列,也可以称之为占比序列;X(t)为每一子周期对应的用户访问量;t=1,2,…,2520。
例如,确定出的占比序列为Y(t),t=1,2,…,2520。
在实际应用中,当前数据采集周期可以包含针对至少一集电视剧或者综艺节目的网络流量数据。
S102:确定所述网络流量数据服从的至少一个概率分布。
具体的,可以针对所述网络流量数据,利用至少一种连续性随机概率分布进行拟合,得到每一种连续性随机概率分布对应的拟合结果;确定每一拟合结果服从的概率分布。
在实际应用中,根据占比序列Y(t)对应的时刻建立一个以时间为横轴,以Y(t)中的比值为纵轴的坐标系。
可以根据坐标系中的峰值和波峰的形状的不同选择至少一种连续形概率分布进行拟合,其中,选择的每一种连续形概率分布要尽可能多的拟合占比序列Y(t)中的比值。
需要说明的是,连续形概率分布包括但不限于截断的高斯正态分布、伽马分布和指数修正的混合高斯分布。
一般来说,网络流量数据的峰值的到达有左偏的趋势,即网络新内容上线后,短期内大量的访问涌入产生点击和网络流量,之后的到达强度在一定时间段内发生衰减,因此,拟合网络流量选取左偏的连续性概率分布更为适合。
假设针对占比序列Y(t)拟合的概率分布服从截断的高斯正态分布。
图2为应用本发明实施例得到的对占比序列中的数据进行拟合的结果示意图,如图2所示,横轴对应的是占比序列Y(t)中数据对应的子周期,纵轴为占比序列Y(t)中数据的大小,实线对应占比序列Y(t)中的数据,虚线对应的是拟合的结果。
通常情况下,连续性概率分布也可以称为概率分布。
S103:针对所确定的概率分布中的每一概率分布,估计该概率分布的参数。
具体的,可以针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数。
具体的,可以针对所确定的概率分布中的每一概率分布,根据该概率分布对应的先验共轭概率分布的参数,确定与所述先验共轭概率分布对应的似然函数表达式;根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数;判断所述后验概率分布的参数相对于所述先验共轭概率分布的参数的改变量是否小于预设阈值;若是,将所述后验概率分布的参数确定为所述概率分布的参数;若否,将所述先验共轭概率分布的参数更改为当前所述后验概率分布的参数,继续执行所述根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数的操作步骤。
在实际应用中,截断的高斯正态分布的参数包括方差σ2和期望参数μ,可以首先固定方差σ2,估计期望参数μ。
假设期望参数μ的先验共轭概率分布也为正态分布,即,μprior=N(μ02),初始化参数为但不仅限于μ0=0,
再确定出与期望参数μ的先验共轭概率分布对应的似然函数表达式,其中似然函数的表达式为截断的正态分布的概率密度表达式。
利用贝叶斯公式posterior∝prior×likehood计算出期望参数μ的后验概率分布,后验概率分布也为截断的高斯正态分布,其中,
posterior为后验概率分布;prior为先验共轭概率分布;likehood为似然概率。
利用公式根据μ的先验概率分布的参数,更新期望参数μ的后验概率分布的参数,其中,
μposterior为后验概率分布的参数;N()为正态分布函数;为Y(t)中所有比值的平均值;σ2为固定的方差;μ0为先验共轭概率分布对应的期望参数的初始值;为方差的初始值。
假设计算期望参数μ的后验概率分布的参数为0.8。
判断后验概率分布的参数相对于先验概率分布的参数改变量大于预设阈值5%,则认为期望参数μ的马尔科夫链是不收敛的。假设0.8与先验概率分布的差值小于预设阈值5%,则认为期望参数μ的马尔科夫链是收敛的。
再以当前期望参数μ的后验概率分布的参数0.8,估计方差σ2的后验概率分布的参数。
假设方差σ2的先验共轭概率分布为逆伽马分布,即初始化参数为但不仅限于α0=0,β0=1。
再确定出与方差σ2的先验共轭概率分布对应的似然函数表达式。
再利用贝叶斯公式posterior∝prior×likehood计算出方差σ2的后验概率分布,后验概率分布也为逆伽马分布,其中,
posterior为后验概率分布;prior为先验共轭概率分布;likehood为似然概率。
利用公式根据方差σ2的先验共轭概率分布的参数,更新方差σ2的后验概率分布的参数,其中,
为后验概率分布的参数;IG()为逆伽马分布函数;α0为逆伽马分布的形状参数;β0为逆伽马分布的尺寸参数;n为当前数据采集周期内采集的数据点的个数;Xi为第i个数据点对应的Y(t)中的比值;μ为固定的期望参数0.8。
假设计算方差σ2的后验概率分布的参数为0.5。
将方差σ2的后验概率分布的参数0.5,期望μ的后验概率分布的参数0.8作为初始值,更新占比序列Y(t)服从截断的高斯正态分布的参数期望μ。
需要强调的是,可以在期望μ收敛后,仅继续估计方差σ2的后验概率分布的参数;也可以在期望μ收敛的情况下,继续估计期望μ和方差σ2的后验概率分布的参数。
S104:根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数。
假设S102中确定出了网络流量数据服从的n个概率分布,根据S103步骤中估计出来的概率分布的参数,确定针对每一概率分布的概率密度函数,假设确定出来的概率密度函数的表达式分别为fi(t),i=1,2,…,n。
S105:确定和所述网络流量数据的拟合优度最高的概率密度函数。
具体的,可以利用卡方检测法,确定和所述网络流量数据的拟合优度最高的概率密度函数。
利用卡方检测法,确定和所述网络流量数据的拟合优度最高的概率密度函数,可以计算每一概率密度函数的卡方值,比较每一概率密度函数的卡方值与其对应的卡方统计量,将卡方值小于卡方统计量的概率密度函数确定为通过卡方检测的概率密度函数,将通过卡方检测的概率密度函数中最小卡方值对应的概率密度函数,确定为和所述网络流量数据的拟合优度最高的概率密度函数(即将卡方值小于卡方统计量的概率密度函数中最小卡方值对应的概率密度函数,确定为和所述网络流量数据的拟合优度最高的概率密度函数。
具体的,在实际应用中,还可以不利用卡方检测法,确定和所述网络流量数据的拟合优度最高的概率密度函数,比如计算每一概率密度函数的卡方值,将最小卡方值对应的概率密度函数,确定为和所述网络流量数据的拟合优度最高的概率密度函数。
在实际应用中,利用公式i=1,2,...,n计算每个概率密度函数fi(t)的卡方值,其中,
χ2为第i个概率密度函数fi(t)的卡方值;N为在当前周期内的网络流量的和;fi(t)为拟合的概率密度函数;Y(t)为每一子周期对应的用户访问量占当前数据采集周期内总用户访问量的比值的序列。
再利用公式df=n-p-1,确定网络流量数据服从的每一概率分布对应的卡方检测的计算自由度,其中,
df为计算自由度,p为针对确定出的每一概率分布对应的估计的参数的个数。
查询在计算自由度和预设p-value(假定值)条件下的卡方统计量chi-value。
假设拟合出来的概率密度函数为f1(t)、f2(t)、f3(t)、f4(t)、f5(t)和f6(t),利用公式i=1,2,...,n确定出来的卡方值分别为5、7、10、16、8和21,每一概率密度函数对应的卡方统计量分别为7、9、8、13、15和13。显然,f1(t)、f2(t)和f5(t)的卡方值小于其对应的卡方统计量,即概率密度函数f1(t)、f2(t)和f5(t)通过了卡方检测,其中,概率密度函数f1(t)的卡方值最小,将概率密度函数f1(t)确定为和所述网络流量数据的拟合优度最高的概率密度函数。
还可以不利用卡方检测法,确定出概率密度函数f1(t)的卡方值最小,将概率密度函数f1(t)确定为和所述网络流量数据的拟合优度最高的概率密度函数。
S106:利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。
具体的,利用S105步骤中确定出来的拟合优度最高的概率密度函数f2(t),预测下一数据采集周期的网络流量峰值。
假设当前数据采集周期内,概率密度函数的峰值位于第1000个子周期处,且在该处的密度函数的峰值为max(t)。
在实际应用中,先利用f2(t)预测下一数据采集周期的总网络流量,假设预测的总网络流量为N′,下一数据采集周期的总网络流量可以与当前数据采集周期的总网络流量相同。
再利用公式pk(t)=N′×max(t)确定出下一数据采集周期的网络流量峰值,其中,
pk(t)为下一数据采集周期的网络流量峰值;N′为下一数据采集周期的总网络流量;max(t)为当前数据采集周期的概率密度峰值。
在下一数据采集周期内,网络流量峰值到达的时间可以与当前数据采集周期内网络流量峰值到达的时间相同。
应用本发明实施例,对下一数据采集周期的网络流量数据进行了概率上的描述,相对于现有技术无法对未来数据采集周期内网络流量数据的变化进行概率上的描述,提高了网络流量峰值预测的准确度。
图3为本发明实施例提供的另一种网络流量峰值的预测方法的流程示意图。图3所示实施例在图1所示实施例的基础上,在S102之前,增加了S107:修正所述网络流量数据中的异常数据,本发明实施例的S102具体可以为S102A:确定修正异常数据后的网络流量数据服从的至少一个概率分布。
具体的,利用公式修正当前数据采集周期内采集到的数据异常点,其中,
X′(tk)为第tk个子周期时,修正后的用户访问量的值;tk为数据异常点对应的子周期;ti为数据异常点所在的时间段的开始时间,tj为数据异常点所在的时间段的结束时间。
应用本发明图3所示实施例,修正了所述网络流量数据中的异常数据,提高了概率分布的拟合的精度,进而提高了预测的准确度。
与上述方法相对应,本发明实施例还提供了一种网络流量峰值的预测装置。
图4为本发明实施例提供的一种网络流量峰值的预测装置的结构示意图,可以包括:采集模块301、第一确定模块302、估计模块303、第二确定模块304、第三确定模块305和预测模块306,其中,
采集模块301,用于采集当前数据采集周期内的网络流量数据。
第一确定模块302,用于确定所述网络流量数据服从的至少一个概率分布。
具体的,第一确定模块302,具体用于:
针对所述网络流量数据,利用至少一种连续性随机概率分布进行拟合,得到每一种连续性随机概率分布对应的拟合结果;
确定每一拟合结果服从的概率分布。
估计模块303,用于针对所确定的概率分布中的每一概率分布,估计该概率分布的参数。
具体的,估计模块303,具体用于:
针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数。
在实际应用中,估计模块303,具体用于:
针对所确定的概率分布中的每一概率分布,根据该概率分布对应的先验共轭概率分布的参数,确定与所述先验共轭概率分布对应的似然函数表达式;
根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数;
判断所述后验概率分布的参数相对于所述先验共轭概率分布的参数的改变量是否小于预设阈值;
若是,将所述后验概率分布的参数确定为所述概率分布的参数;
若否,将所述先验共轭概率分布的参数更改为当前所述后验概率分布的参数,继续执行所述根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数的操作步骤。
第二确定模块304,用于根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数;
具体的,第三确定模块305,用于确定和所述网络流量数据的拟合优度最高的概率密度函数;
第三确定模块305,具体用于:
利用卡方检测法,确定和所述网络流量数据的拟合优度最高的概率密度函数。
预测模块306,用于利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。
应用本发明实施例,对下一数据采集周期的网络流量数据进行了概率上的描述,相对于现有技术无法对未来数据采集周期内网络流量数据的变化进行概率上的描述,提高了网络流量峰值预测的准确度。
图5为本发明实施例提供的另一种网络流量峰值的预测装置的结构示意图。本发明图5所示实施例在图4所示实施例的基础上,增加了修正模块307,用于修正所述网络流量数据中的异常数据.
在实际应用中,第一确定模块302,具体用于:
确定修正异常数据后的网络流量数据服从的至少一个概率分布。
应用本发明图5所示实施例,修正所述网络流量数据中的异常数据,提高了概率分布的拟合的精度,进而提高了预测的准确度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种网络流量峰值的预测方法,其特征在于,所述方法包括:
采集当前数据采集周期内的网络流量数据;
确定所述网络流量数据服从的至少一个概率分布;
针对所确定的概率分布中的每一概率分布,估计该概率分布的参数;
根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数;
确定和所述网络流量数据的拟合优度最高的概率密度函数,其中,通过计算每一概率密度函数的卡方值,比较每一概率密度函数的卡方值与其对应的卡方统计量,将卡方值小于卡方统计量的概率密度函数确定为通过卡方检测的概率密度函数,将通过卡方检测的概率密度函数中最小卡方值对应的概率密度函数,确定为和所述网络流量数据的拟合优度最高的概率密度函数;或者,通过计算每一概率密度函数的卡方值,将最小卡方值对应的概率密度函数,确定为和所述网络流量数据的拟合优度最高的概率密度函数;
利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。
2.根据权利要求1所述的方法,其特征在于,在所述确定所述网络流量数据服从的至少一个概率分布之前,所述方法还包括:
修正所述网络流量数据中的异常数据;
所述确定所述网络流量数据服从的至少一个概率分布,包括:
确定修正异常数据后的网络流量数据服从的至少一个概率分布。
3.根据权利要求1所述的方法,其特征在于,所述确定所述网络流量数据服从的至少一个概率分布,包括:
针对所述网络流量数据,利用至少一种连续性随机概率分布进行拟合,得到每一种连续性随机概率分布对应的拟合结果;
确定每一拟合结果服从的概率分布。
4.根据权利要求1所述的方法,其特征在于,所述针对所确定的概率分布中的每一概率分布,估计该概率分布的参数,包括:
针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数。
5.根据权利要求4所述的方法,其特征在于,所述针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数,包括:
针对所确定的概率分布中的每一概率分布,根据该概率分布对应的先验共轭概率分布的参数,确定与所述先验共轭概率分布对应的似然函数表达式;
根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数;
判断所述后验概率分布的参数相对于所述先验共轭概率分布的参数的改变量是否小于预设阈值;
若是,将所述后验概率分布的参数确定为所述概率分布的参数;
若否,将所述先验共轭概率分布的参数更改为当前所述后验概率分布的参数,继续执行所述根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数的操作步骤。
6.一种网络流量峰值的预测装置,其特征在于,所述装置包括:采集模块、第一确定模块、估计模块、第二确定模块、第三确定模块和预测模块,其中,
所述采集模块,用于采集当前数据采集周期内的网络流量数据;
所述第一确定模块,用于确定所述网络流量数据服从的至少一个概率分布;
所述估计模块,用于针对所确定的概率分布中的每一概率分布,估计该概率分布的参数;
所述第二确定模块,用于根据该概率分布以及该概率分布的参数,确定针对所述网络流量数据的概率密度函数;
所述第三确定模块,用于确定和所述网络流量数据的拟合优度最高的概率密度函数,其中,通过计算每一概率密度函数的卡方值,比较每一概率密度函数的卡方值与其对应的卡方统计量,将卡方值小于卡方统计量的概率密度函数确定为通过卡方检测的概率密度函数,将通过卡方检测的概率密度函数中最小卡方值对应的概率密度函数,确定为和所述网络流量数据的拟合优度最高的概率密度函数;或者,通过计算每一概率密度函数的卡方值,将最小卡方值对应的概率密度函数,确定为和所述网络流量数据的拟合优度最高的概率密度函数;
所述预测模块,用于利用所述拟合优度最高的概率密度函数预测下一数据采集周期的网络流量峰值。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括修正模块,用于修正所述网络流量数据中的异常数据;
所述第一确定模块,具体用于:
确定修正异常数据后的网络流量数据服从的至少一个概率分布。
8.根据权利要求6所述的装置,其特征在于,所述第一确定模块,具体用于:
针对所述网络流量数据,利用至少一种连续性随机概率分布进行拟合,得到每一种连续性随机概率分布对应的拟合结果;
确定每一拟合结果服从的概率分布。
9.根据权利要求6所述的装置,其特征在于,所述估计模块,具体用于:
针对所确定的概率分布中的每一概率分布,利用马尔科夫蒙特卡洛方法估计该概率分布的参数。
10.根据权利要求9所述的装置,其特征在于,所述估计模块,具体用于:
针对所确定的概率分布中的每一概率分布,根据该概率分布对应的先验共轭概率分布的参数,确定与所述先验共轭概率分布对应的似然函数表达式;
根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数;
判断所述后验概率分布的参数相对于所述先验共轭概率分布的参数的改变量是否小于预设阈值;
若是,将所述后验概率分布的参数确定为所述概率分布的参数;
若否,将所述先验共轭概率分布的参数更改为当前所述后验概率分布的参数,继续执行所述根据所述似然函数表达式以及所述先验共轭概率分布的参数,利用贝叶斯公式计算该概率分布的后验概率分布的参数的操作步骤。
CN201610866357.7A 2016-09-29 2016-09-29 一种网络流量峰值的预测方法及装置 Active CN106301957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610866357.7A CN106301957B (zh) 2016-09-29 2016-09-29 一种网络流量峰值的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610866357.7A CN106301957B (zh) 2016-09-29 2016-09-29 一种网络流量峰值的预测方法及装置

Publications (2)

Publication Number Publication Date
CN106301957A CN106301957A (zh) 2017-01-04
CN106301957B true CN106301957B (zh) 2019-09-17

Family

ID=57716261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610866357.7A Active CN106301957B (zh) 2016-09-29 2016-09-29 一种网络流量峰值的预测方法及装置

Country Status (1)

Country Link
CN (1) CN106301957B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526713B (zh) * 2017-07-04 2021-06-11 北京航天易联科技发展有限公司 一种被动式太赫兹人体安检仪成像时间的确定方法和装置
CN109040218A (zh) * 2018-07-25 2018-12-18 山东中创软件商用中间件股份有限公司 一种应用系统活跃度确定方法、装置、设备以及存储介质
CN108965017B (zh) * 2018-07-27 2021-05-25 中国联合网络通信集团有限公司 一种网络流量预测方法和装置
CN112242911B (zh) * 2019-07-17 2022-08-12 腾讯科技(深圳)有限公司 基于网络流量的测试方法及装置、存储介质、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932264A (zh) * 2012-11-02 2013-02-13 曙光云计算技术有限公司 流量溢出的判断方法和装置
CN104348747A (zh) * 2014-05-22 2015-02-11 国网山西省电力公司信息通信分公司 Mpls-vpn网络中流量监控的方法和系统
CN105681125A (zh) * 2015-12-28 2016-06-15 国云科技股份有限公司 一种云平台的虚拟机外网流量统计方法
CN105978733A (zh) * 2016-06-27 2016-09-28 华北理工大学 一种基于韦布尔分布的网络流量建模方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932264A (zh) * 2012-11-02 2013-02-13 曙光云计算技术有限公司 流量溢出的判断方法和装置
CN104348747A (zh) * 2014-05-22 2015-02-11 国网山西省电力公司信息通信分公司 Mpls-vpn网络中流量监控的方法和系统
CN105681125A (zh) * 2015-12-28 2016-06-15 国云科技股份有限公司 一种云平台的虚拟机外网流量统计方法
CN105978733A (zh) * 2016-06-27 2016-09-28 华北理工大学 一种基于韦布尔分布的网络流量建模方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于概率密度分布的城域骨干网网络流量建模研究;苏广文;《西北工业大学学报》;20070415;第25卷(第2期);第164-168页

Also Published As

Publication number Publication date
CN106301957A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106301957B (zh) 一种网络流量峰值的预测方法及装置
Meyer-Brandis et al. Multi-factor jump-diffusion models of electricity prices
Shao et al. A novel model of dam displacement based on panel data
Goldstein et al. Schedule-calibrated occupant behavior simulation
Nassif et al. Regression model for software effort estimation based on the use case point method
CN106033424B (zh) 数据挖掘方法和装置
CN103336771B (zh) 基于滑动窗口的数据相似检测方法
Wang et al. A new stochastic derivative estimator for discontinuous payoff functions with application to financial derivatives
Tunc et al. An extended mixed-integer programming formulation and dynamic cut generation approach for the stochastic lot-sizing problem
Perepelitsa et al. Calculation of centrality bias factors in $ p $+ A collisions based on a positive correlation of hard process yields with underlying event activity
WO2012142052A1 (en) Generation of occupant activities based on recorded occupant behavior
Hilbig One-reason decision making in risky choice? A closer look at the priority heuristic
CN110110704A (zh) 一种车辆卫生监控方法及系统
Huang et al. Power, Lévy, exponential and Gaussian-like regimes in autocatalytic financial systems
Möllering et al. An optimal critical level policy for inventory systems with two demand classes
Wilson et al. From evidence‐based economics to economics‐based evidence: using systematic review to inform the design of future research
CN105589799B (zh) 一种用户游戏行为的检测方法
CN105045910B (zh) 一种应用候选集生成方法、装置及服务设备
CN106559225B (zh) 数据校准的方法与装置
CN107194486A (zh) 一种异常座位数据处理的方法及装置
CN106202620B (zh) 一种会议室自动化设计方法及系统
Baldacci et al. Persistence of fiscal adjustments and expenditure composition in low-income countries
Jordà et al. Empirical simultaneous confidence regions for path-forecasts
CN103716256B (zh) 一种为网络内容服务选取基础设施的方法和装置
Cotton-Barratt Allocating risk mitigation across time

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant