CN107067028B - 基于分布式聚类的网络流量时间序列预测方法 - Google Patents

基于分布式聚类的网络流量时间序列预测方法 Download PDF

Info

Publication number
CN107067028B
CN107067028B CN201710158447.5A CN201710158447A CN107067028B CN 107067028 B CN107067028 B CN 107067028B CN 201710158447 A CN201710158447 A CN 201710158447A CN 107067028 B CN107067028 B CN 107067028B
Authority
CN
China
Prior art keywords
clustering
distributed
time
prediction
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710158447.5A
Other languages
English (en)
Other versions
CN107067028A (zh
Inventor
刘发贵
余信威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710158447.5A priority Critical patent/CN107067028B/zh
Publication of CN107067028A publication Critical patent/CN107067028A/zh
Application granted granted Critical
Publication of CN107067028B publication Critical patent/CN107067028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分布式聚类的网络流量时间序列预测方法。该方法基于聚类的时序预测方法融合了分布式聚类算法和自回归模型,通过对时序数据进行分片处理获得时间片元组,并将时间片元组使用分布式K‑平均算法(k‑means)聚类算法进行分布式聚类处理,对聚类结果中的每个簇进行正态分布拟合而获得了正态分布N(μ,σ2),μ即是初步预测值。预测阶段中,将待预测的时序数据进行预处理获得待预测的时间片前缀元组,分布式地计算距离最近的簇对应的初步预测值,结合自回归模型(Autoregressive model)对初步预测值进行修正而获得更加精确的最终预测值。

Description

基于分布式聚类的网络流量时间序列预测方法
技术领域
本发明涉及网络流量监控技术领域,具体涉及基于分布式聚类的网络流量时间序列预测方法。
背景技术
在网络流量监控领域中,对网络流量时序数据进行分析和预测非常重要。目前已有的解决方案包括差分移动平均自回归模型(Autoregressive Integrated MovingAverage model),多层感知器(Multilayer Perceptron),时间递归神经网络(RecurrentNeural Network),长短期记忆人工神经网络(Long-Short Term Memory),基于聚类时序预测等技术作为可能的解决方案已经有大量的研究。从使用成本、精度、能耗以及可扩展性进行比较和衡量,我们可以分析得到基于聚类的时序预测方法在线上环境具有更好的优越性,聚类方法是数据挖掘中的一个重要的领域,聚类方法极易扩展到分布式系统上,能够成为低成本高效率的优选方案。
主流的时序预测算法包括差分移动平均自回归模型,多层感知器,时间递归神经网络,长短期记忆人工神经网络等技术。这些主流技术在用于时序数据平缓,上升下降稳定的情况下效果较好,在分析预测波动较大,随机性较强的网络流量时序数据时,会造成预测效果和预测精度的持续下降。同时,在实际使用中,时间递归神经网络,长短期记忆人工神经网络等技术计算量大,耗时长,不适合用于实时环境。
发明内容
本发明的目的在于克服现有技术存在的上述不足,提供基于分布式聚类的网络流量时序预测方法,使用基于分布式聚类的预测模型,能够通过横向扩展分布式系统得到性能的提高,成本低,性能好,为了解决预测波动较大的网络流量时序数据,结合自回归模型对预测结果进行修正,极大地减少预测值的误差,提高预测精度。
本发明通过如下技术方案实现。
1.基于分布式聚类的网络流量时序预测方法,其技术方案的实现是分为两个阶段,分别是训练阶段和预测阶段。训练阶段中将历史的数据进行聚类的训练,训练结束后,进入预测阶段,在预测阶段中,将待预测的时间点之间的前缀数据进行计算预测值。
2.在训练阶段中将时间序列训练集数据进行预处理,使用滑动窗口的方法,划分成等长的时间片元组,以方便接下来的聚类处理。接着使用K-平均算法将时间片元组进行聚类,得到若干个聚类产生的簇。在每一个簇内,对数据进行正态拟合得到正态分布N(μ,σ2)。
3.在预测阶段中,将待预测的时间序列的前缀数据进行预处理,从而得到待预测的定长的时间序列前缀元组。使用欧式距离公式进行计算,找到聚类结果中离前缀元组最近的聚类中心μ,即是网络流量的初步的估计预测值。
4.在对多元组<t1,t2,…tn>进行聚类时,使用的是分布式的K-平均算法对时间片元组进行聚类训练得到聚类的结果,而聚类方法的分布式采用映射归纳(Map-Reduce)分布式扩展。
5.使用自回归模型对网络流量的初步预测值μ进行修正,修正的方法是按照给定的比例因子,将预测值μ和待预测的时间点的上一个时间节点的实际值进行线性相加,根据自回归模型对聚类中心μ进行修正获得最终的预测值。
与现有技术相比,本发明具有如下优点和技术效果:
(1)在使用K-平均算法的基础上,结合了自回归模型,使得预测结果更加精准。
基于聚类的时序预测方法融合了K-平均算法和自回归模型。单独使用K-平均算法进行时间序列数据预测结果较差,预测值通常会产生明显较大的偏差,无法使用在实际业务环境中。自回归模型的使用有很大的局限性,必须使用在具有自相关的时间序列数据上,否则无法进行精确的预测值。基于聚类的时间序列预测方法融合了K-平均算法和自回归模型,克服了各自单独使用时所存在的不足和问题,使得预测结果更为精准。
(2)对训练阶段进行分布式计算和处理,保证了对数据进行训练效率,性能高。
基于分布式聚类的时间序列预测方法,在训练阶段中,使用分布式的K-平均算法进行分布式聚类,将数据随机分发到不同的节点进行处理,能够得到处理性能的提高。通过聚类操作后,再分布式地根据聚类训练的结果进行正态拟合,这一过程是同时在不同的节点上执行的,能够保证较高地性能,减少时间的使用。
(3)对预测阶段进行分布式计算和处理,保证了预测过程的效率
基于分布式聚类的时间序列预测方法,在预测阶段中,分布式地将待预测时间点的前缀时序数据进行分布式地预处理,然后分发到节点。在节点接收到前缀时序数据,根据前缀时序数据找到最近的簇,得到初步的预测数值。在整个预测阶段中都是分布式的,因此提高了预测阶段的处理性能。
(4)系统架构采用了映射归纳(map-reduce)分布式框架,易扩展,性能高
基于分布式聚类的时间序列预测方法可以在已有的流量监控服务器的基础上进行部署和搭建,映射归纳(map-reduce)分布式框架对机器的性能要求不高,极易扩展部署到多个节点上,能够提高系统运行的并行化程度,具有成本低,性能高,运行时间少的优点。
附图说明
图1为实例中算法部署模型示意图。
图2为网络流量时序数据预处理示意图。
图3为时间片元组进行分布式聚类示意图。
图4为训练阶段流程图。
图5为预测阶段流程图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图,进行进一步的详细说明,但本发明的实施和保护不限于此。
如图1、图2、图3、图4所示,基于分布式聚类的时间序列数据预测包含三个部分,1、网络流量时序数据切片;2、时间片元组聚类;3、聚类结果正态分布拟合。
本实例的系统的基本组成部分包括数据预处理层,数据分析层,预测值修正层,本算法的系统部署如图1所示,预处理阶段,将时间序列数据根据参数进行切片以元组的形式保存。
1.1网络流量时序数据切片
通过对网络流量时序数据进行切片,划分若干个不同的元组。通过给定的定长参数,记为look_back,将时序数据进行划分时间片,时间片以多元组的形式<t1,t2,…tn>进行保存,tn表示第n个时间点的具体数值,将时间片元组的下一个时间点的值tn+1作为target,从而进行组合得到二元组
Figure BDA0001246854370000031
Figure BDA0001246854370000032
其中ti为第i个时间观测值,target是预测值。
1.2时间片元组聚类
通过步骤1.1得到若干个时间片元组的集合,使用了K-平均算法聚类方法对时间片进行聚类分析。K-平均算法聚类主要分为两个步骤来进行,分别是划分和更新。在划分阶段,将每个元组划分到相应的簇中,使得簇内所有多元组
Figure BDA0001246854370000033
达到簇的聚类中心的平方和达到最小,该平方和记为J。如下公式所示,记第i个聚类中心为
Figure BDA0001246854370000034
记第p个时间序列元组<tp,tp+1,…tp+look_back>为xp,其中每个xp都只被分配到一个确定的簇
Figure BDA0001246854370000035
中,
Figure BDA0001246854370000036
表示第t次迭代的第i个聚类结果的簇,,如果有多个确定的簇,那么可以任意选中一个簇。初始化的时候随机选择k个xp作为初始化的聚类中心
Figure BDA0001246854370000041
Figure BDA0001246854370000042
在更新阶段,重新计算聚类中每一个簇的平均值,获得新的聚类中心,作为新的均值点。
Figure BDA0001246854370000043
这一算法将在对于所有的xp所归属的簇不再发现变化时,判断为收敛。否则判断为不收敛需要继续重复执行以上两个步骤。
Figure BDA0001246854370000044
因为交替进行的两个步骤使得簇内的目标函数值J逐渐减少,最终到达最小值,函数J表示某个簇的所有xp到聚类中心
Figure BDA0001246854370000045
的距离的平方和。并且分配方案只有有限种,所以算法会收敛于某一最优解或者局部最优解。通过聚类得到了保存预测值的集合,记为settarget
1.3聚类结果正态分布拟合
正态分布曲线拟合是一种概率曲线拟合方法,通过步骤1.2我们得到时间片元组的预测值的集合settarget,集合settarget服从数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。通过将聚类簇的集合中的所有数据代入正态拟合曲线公式计算获得μ,σ。μ即是初步估计预测值。
进一步地,通过步骤1.3得到预测值存在较大的误差,为了减少误差,使用自回归模型对预测值进行修正。自回归模型的通用公式如下所示:
Figure BDA0001246854370000046
其中:c是常数项;εt被假设为平均数等于0,标准差等于σ的随机误差值;σ被假设为对于任何的t都不变。从逻辑上理解,Xt的预测值等于一个或落后若干个时间点的线性组合,以及常数项和随机误差。结合之前聚类的结果,该公式可以退化成如下公式。
μ`=(1-α)μ+αti-1
其中,μ`为修正后的预测值,α是给定的比例因子,可以取值0.6到0.9之间,μ是初步预测值,ti-1为i-1时间点实际观测值。
如图4所示,在算法流程的训练阶段,网络流量监控系统将网络流量时序数据通过预处理层进行分片预处理,得到分片时间序列元组,将网络流量时间序列分片元组通过分布式聚类层进行处理,得到聚类结果,将聚类结果进行正态拟合获得估计预测值。如图5所示,在算法流程的预测阶段,从网络流量监控系统接收到待预测的网络流量的前缀时序数据,通过预处理层进行分片预处理,获得定长的前缀时序数据,通过分布式计算找到匹配的聚类簇,获得初步的预测值,结合自回归模型进行误差修正,得到最终的预测值。
本预测方法能够在网络流量监控服务器的基础上进行扩展。如图1所示,架构分为三层分别为数据预处理层、聚类处理层以及拟合修正层。数据预处理层获取来自网络流量监控服务器的时间序列数据,并对时间序列数据进行定长的数据预处理操作。聚类处理层将经过预处理的数据进行聚类分析,并获得初步预测值。拟合修正层能够对预测数据进行修正。
数据预处理层的具体实现是,分布式地从网络流量监控服务器获取时间序列<t1,t2,…tn>,随机切分时间序列数据并分发到不同的计算节点,经过预处理获得定长的时间序列数据元组。
在聚类处理层中,时间序列元组通过map层(映射层)的时候,分布式地计算元组与均值中心距离,将元组分发到距离最近的reduce层(归纳层),reduce层的阶段中分布式地重新计算均值中心。将map和reduce两个阶段的交替执行。由于交替进行的两个步骤都会减小函数
Figure BDA0001246854370000051
的值,因此目标函数会收敛,在reduce层保存稳定收敛的集合结果,如果目标函数暂时不收敛,可以重新选择聚类中心并重新交替以上两个步骤。
在拟合修正层中,通过map层(映射层)分布式地从预处理层获取经过处理的待预测数据的时间点的前缀时间序列数据,在reduce层(归纳层)中分布式地从map层(映射层)获取前缀时间序列数据,通过计算最近的聚类中心并获取了初步的预测值,通过自回归模型对预测值进行修正,获得最终的预测值结果。

Claims (3)

1.一种基于分布式聚类的网络流量时序预测方法,分为两个阶段,分别是训练阶段和预测阶段,其特征在于训练阶段中分布式地将时间序列训练集数据进行预处理,划分成定长的时间片元组,使用K-平均算法聚类算法将时间片元组进行聚类,将聚类结果进行正态拟合得到正态分布N(μ,σ2);
接着在预测阶段中分布式地将待预测的时间序列数据进行处理而得到待预测的时间序列前缀元组,使用欧式距离公式得到前缀元组在聚类结果中最近的聚类中心μ,即是网络流量的初步估计预测值,根据自回归(AR)模型对聚类中心μ进行修正获得最终的预测值;对网络流量时序数据的训练阶段的预处理,根据给定的元组的长度参数,将时序数据进行划分为定长的时间片,时间片以多元组的形式<t1,t2,…tn>进行保存,并将每个时间片元组对应的下一个时间点的值,记为target,将时间片多元组和对应的target进行组合记为二元组<<t1,t2,…tn>,target>;对多元组<t1,t2,…tn>进行分布式聚类,使用K-平均算法聚类算法对时间片元组进行聚类训练得到聚类的结果,聚类方法的分布式采用映射-归纳(Map-Reduce)分布式扩展。
2.根据权利要求1所述的基于分布式聚类的网络流量时序预测方法,其特征在于在预测阶段中,在聚类训练的结果簇中,将<t1,t2,…tn>对应的下一个时间点target数值集合进行正态拟合得到正态分布N(μ,σ2),其中的聚类中心μ就是初步预测值μ。
3.根据权利要求1所述的基于分布式聚类的网络流量时序预测方法,其特征在于使用自回归模型对网络流量的初步预测值μ进行修正,修正的方法是按照给定的比例因子,将预测值μ和待预测的时间点的上一个时间节点的实际值进行相加。
CN201710158447.5A 2017-03-16 2017-03-16 基于分布式聚类的网络流量时间序列预测方法 Active CN107067028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710158447.5A CN107067028B (zh) 2017-03-16 2017-03-16 基于分布式聚类的网络流量时间序列预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710158447.5A CN107067028B (zh) 2017-03-16 2017-03-16 基于分布式聚类的网络流量时间序列预测方法

Publications (2)

Publication Number Publication Date
CN107067028A CN107067028A (zh) 2017-08-18
CN107067028B true CN107067028B (zh) 2021-02-12

Family

ID=59621152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710158447.5A Active CN107067028B (zh) 2017-03-16 2017-03-16 基于分布式聚类的网络流量时间序列预测方法

Country Status (1)

Country Link
CN (1) CN107067028B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242048B (zh) * 2018-11-07 2022-04-08 电子科技大学 基于时间序列的视觉目标分布式聚类方法
CN112636763B (zh) * 2020-12-24 2024-05-17 武汉大学 一种面向多数据流的分布式实时压缩方法
CN114386334B (zh) * 2022-01-19 2022-09-13 浙江大学 一种基于分布式水文径流模拟替代模型的径流滚动预报方法
CN116032359A (zh) * 2022-12-27 2023-04-28 中国联合网络通信集团有限公司 特征网络数据的预测方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795215A (zh) * 2010-01-28 2010-08-04 哈尔滨工程大学 网络流量异常检测方法及检测装置
CN101848160A (zh) * 2010-05-26 2010-09-29 钱叶魁 在线检测和分类全网络流量异常的方法
CN102999633A (zh) * 2012-12-18 2013-03-27 北京师范大学珠海分校 网络信息的云聚类提取方法
CN105183796A (zh) * 2015-08-24 2015-12-23 同济大学 一种基于聚类的分布式链路预测方法
CN105376097A (zh) * 2015-11-30 2016-03-02 沈阳工业大学 网络流量的一种混合预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631040B2 (en) * 2010-02-23 2014-01-14 Sas Institute Inc. Computer-implemented systems and methods for flexible definition of time intervals
WO2012121747A1 (en) * 2011-03-04 2012-09-13 Ultratick, Inc. Predicting the performance of a financial instrument

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795215A (zh) * 2010-01-28 2010-08-04 哈尔滨工程大学 网络流量异常检测方法及检测装置
CN101848160A (zh) * 2010-05-26 2010-09-29 钱叶魁 在线检测和分类全网络流量异常的方法
CN102999633A (zh) * 2012-12-18 2013-03-27 北京师范大学珠海分校 网络信息的云聚类提取方法
CN105183796A (zh) * 2015-08-24 2015-12-23 同济大学 一种基于聚类的分布式链路预测方法
CN105376097A (zh) * 2015-11-30 2016-03-02 沈阳工业大学 网络流量的一种混合预测方法

Also Published As

Publication number Publication date
CN107067028A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107067028B (zh) 基于分布式聚类的网络流量时间序列预测方法
US20190050693A1 (en) Generating labeled data for deep object tracking
CN108074015B (zh) 一种风电功率超短期预测方法及系统
Newling et al. A sub-quadratic exact medoid algorithm
CN110909810A (zh) 基于数据挖掘和变分模态分解的可再生能源短期预测方法
CN109460539B (zh) 一种基于简化容积粒子滤波的目标定位方法
CN112797989B (zh) 一种脉冲星频率参数的快速搜索方法
CN110809066A (zh) IPv6地址生成模型创建方法、装置及地址生成方法
Lee et al. Interpretable tropical cyclone intensity estimation using Dvorak-inspired machine learning techniques
Sen et al. FReNG: Federated Optimization by using Regularized Natural Gradient Descent
CN115803752A (zh) 深度卷积神经网络中的归一化
CN103793438A (zh) 一种基于MapReduce的并行聚类方法
Banerjee et al. Boosting exploration in actor-critic algorithms by incentivizing plausible novel states
CN102663113A (zh) 一种集群目标的动态聚类方法
CN110060514B (zh) 航班调度方法和装置
CN111460368A (zh) 一种并行贝叶斯优化方法
CN106296747A (zh) 基于结构决策图的鲁棒多模型拟合方法
Chen et al. Ensemble of diverse sparsifications for link prediction in large-scale networks
EP4266004A1 (en) User trajectory positioning method, electronic device and computer storage medium
CN115907304A (zh) 一种基于区间层次分析法的评估指标权重优化方法
Yu et al. Analysis and Application of the Spatio-Temporal Feature in Wind Power Prediction.
CN114912627A (zh) 推荐模型训练方法、系统、计算机设备及存储介质
Divya et al. An Efficient Approach to Determine Number of Clusters Using Principal Component Analysis
Goryachih et al. Multidimensional global optimization method using numerically calculated derivatives
Picano et al. Passengers demand forecasting based on chaos theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant