CN105824715A - 基于Storm的CVFDT在CDN运维预测中的算法 - Google Patents

基于Storm的CVFDT在CDN运维预测中的算法 Download PDF

Info

Publication number
CN105824715A
CN105824715A CN201610147855.6A CN201610147855A CN105824715A CN 105824715 A CN105824715 A CN 105824715A CN 201610147855 A CN201610147855 A CN 201610147855A CN 105824715 A CN105824715 A CN 105824715A
Authority
CN
China
Prior art keywords
data
decision tree
bolt
attribute
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610147855.6A
Other languages
English (en)
Other versions
CN105824715B (zh
Inventor
季木
季一木
郎贤波
王汝传
谈海宇
岳栋
张殿超
张永潘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xinyi Technology Co ltd
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610147855.6A priority Critical patent/CN105824715B/zh
Publication of CN105824715A publication Critical patent/CN105824715A/zh
Application granted granted Critical
Publication of CN105824715B publication Critical patent/CN105824715B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于Storm的CVFDT在CDN运维预测中的算法,主要用于CDN运维领域,通过对Storm拓扑进行相应建模,对高强度的应用下的磁盘或者刀片服务器出现故障的可能性进行预判。从而提高用户感受,提升服务质量。同时也为后台人员迁移数据,动态调整负载等等方面提供了一个更可靠的标准。

Description

基于Storm的CVFDT在CDN运维预测中的算法
技术领域
本发明涉及CDN(ContentDeliveryNetwork,内容分发网络)设备故障预测领域,具体是通过基于Storm的CVFDT在CDN运维预测中的算法。
背景技术
在CDN运维领域,当前大数据环境下的数据交互量是多样、高速、海量的,这对服务器磁盘或者刀片服务器的负载带来了巨大的压力,同时温度、湿度以及用户的点播行为等因素都是难以预知的,机器出现故障的概率逐渐增加。如果等到刀片或者磁盘损坏才进行更换,无疑会严重降低使用者的感受,给服务器运维方面带来很大的不利影响。因此当前急需研发一套算法对刀片服务器、磁盘未来是否发生故障做出提前预判,这样后台可以迁移数据、动态调整负载等等手段来提高可用性。
发明内容
为了解决上述问题,本发明提供一种基于Storm的CVFDT在CDN运维预测中的算法,帮助运维人员对服务器磁盘或者刀片服务器的负载情况和故障发生率实现提前预判,为后台迁移数据、动态调整负载等等手段提高可用性。
分布式流计算系统Storm是一套分布式的、可靠的,可容错的用于处理流式数据的系统。它提供的最基本的处理流数据的原语是Spout(消息源)和Bolt(处理逻辑),通常Spout会从外部数据源(队列、数据库等)读取数据,然后封装成元组的形式,之后发送到数据流中。Bolt处理输入的数据流,并产生新的输出数据流。它可以执行过滤、函数操作、连接操作数据库等任何操作。Storm系统的这些原语大大简化了并行实时数据处理,是为了适应用海量数据和大规模计算等新需求而发展出来的模型架构。一方面它在编写和运行大型分布式程序计算方面具有很大的优势,主要是它具有的方便和简捷的特性。另一方面,Storm系统具有良好的容错性和很高的健壮性等特点,这些特点使Storm在研究领域和应用领域都受到了极大的欢迎,并且得到了广泛的应用。
基于Storm的CVFDT在CDN运维预测中的算法,包括以下步骤:
A1、启动storm拓扑,设置数据喷发节点并分配并发数;
A2、将采集的磁盘状态数据读取到训练数据源Spout,训练数据源Spout以流的形式把数据样本传递给预处理Bolt进行处理;
A3、在预处理Bolt中设置数据属性集并分配Bolt的并发数,预处理Bolt将样本属性值和属性集进行匹配,将样本流中属性和类标签完整的数据元组转换成实例类,将处理好的实例数据元组传递给建树Bolt建立预测模型;
A4、建树Bolt存储接收到的实例数据元组,基于Hoeffding不等式建立决策树:达到初始建树条件时,初始化一个窗口W,并基于当前的窗口上初始化一个根节点,当样本集合的最佳属性和次佳属性差值满足Hoeffding不等式时,模型叶子节点自动分裂并不断更新,同时产生相应的替代子树防止概念漂移的发生;树的最底层叶子节点存储类别标记值(YES,NO),YES代表磁盘未来一小时内可能会损坏,NO代表不会损坏;快速决策树算法周期性的将最新的预测模型存入Redis缓存数据库中;
A5、快速决策树算法设置检测有效性的间隔,周期性的检测决策树的每个内部节点及其替代子树的有效性,当用户点播行为或环境的突变影响了磁盘状态数据的分布时,即认为发生了概念漂移,此时当前的预测模型可能与磁盘状态数据不匹配;
A6、窗口W保存实时进入的新的磁盘数据样本,同时删除先进入窗口的旧的磁盘数据样本;重新寻找最佳分裂属性,新的属性成为一个替代子树的根节点,并且依据该根节点建立替代子树;如果后继滑动窗口的样本在替代子树上的分类精度高于原先的决策树,则替代子树取代原先的决策树,以维持滑动窗口的样本和更新后的决策树的一致性;
A7、对服务器后续出现故障的可能性进行预判时,决策树Spout从Redis数据库中读取出决策树模型,传递给分类Bolt,由分类数据Spout喷发出待分类数据,同样先经过预处理Bolt处理后将实例数据元组传递给分类Bolt,分类Bolt调用分类的方法得到元组对应的决策树叶子节点的类别标签即实现了输入的磁盘状态数据未来的预测标记值(YES,NO)。
所述基于Hoeffding不等式建立决策树过程为:使用Hoeffding边界量化叶节点中确定最优分裂属性所需要的样本个数,其中Hoeffding边界描述如下:对一个真值随机变量r,其取值范围为R,假定对r取了n个独立的观察值,并计算了它们的平均值其Hoeffding约束对于可信度1-δ,变量r的真实值至少是其中这里的r是信息增益,R的取值范围是log2#Classes,Classes是类别的数量;Hoeffding树中每个叶节点的内存占用为O(dvc),其中,d为属性数目,v为每个属性可能的最大取值数目,c为类别数目。
本发明能够快速的处理实时的流数据,对服务器状态高效分析并构建出实时精确的预测模型;快速决策树算法分类模型输入海量的服务器状态数据,能迅速得出故障预测结果(YES,NO);预测模型不随着时间变化的背后推动因素失去精确性,解决了概念漂移的问题。
附图说明
图1为本发明实施例基于Storm的CVFDT在CDN运维预测中的算法结构图;
图2为图1中实施例的流程图;
图3为图1中实施例的时序图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1、图2、图3所示,基于Storm的CVFDT在CDN运维预测中的算法的过程是:
1、启动一个拓扑,设置数据喷发节点并分配并发数。
2、将采集的磁盘状态数据读取到训练数据源Spout,训练数据源Spout将以流的形式把数据传递给后继的Bolt进行处理。
3、设置服务器数据集属性和数据预处理Bolt并分配并发数,预处理Bolt将样本属性值和属性集进行匹配,将符合要求的数据元组转换成实例类,随后将处理好的实例数据元组传递给建树Bolt建立预测模型。
4、建树Bolt存储接收到的实例数据元组。初始化根节点,滑动窗口W和分裂间隔、检测有效性间隔等各项参数,并将训练样本((x,y),ID)不断的添加到窗口W中。当满足Hoeffding边界条件时,叶子节点自动分裂并不断更新,同时产生相应的替代子树防止概念漂移的发生。最终的叶子节点将存储类别标记值(YES,NO),YES代表磁盘未来一小时内可能会损坏,NO代表不会损坏。快速决策树算法会周期性的将最新的预测模型存入Redis缓存数据库中,供以后的预测使用。
5、窗口W未满时,服务器状态数据流不断添加至窗口中,当窗口满时,删除样本所经过节点的统计值,并从窗口中删除旧的样本更新窗口,保证了当前窗口上模型的实时性。
6、快速决策树算法设置一个检测有效性的间隔,周期性的检测决策树的每个内部节点及其替代子树,当用户点播行为或环境等背后推动因素的突变影响了磁盘状态数据的分布时,即认为发生了概念漂移,此时当前的预测模型可能与当前的磁盘状态数据产生不匹配的问题。
7、预测模型随着数据流不断更新,当替代子树中的样本数达到f,统计接下来到达的测试样本,来比较在此节点下所有替代子树的精度。如果最佳替代树的精度比原叶节点还高,即发生了概念漂移,原叶子节点将会被最精确的替代子树替代。
8、序列化Bolt将实时更新的决策树转换为二进制格式存入Redis数据库中供读取分类器的Spout使用。
9、当进行预测时,读取分类器Spout从Redis数据库中读取出决策树模型,传递给分类Bolt,由分类数据Spout喷发出待分类数据,同样先经过预处理Bolt处理后将实例数据元组传递给分类Bolt,分类Bolt调用分类的方法得到元组对应的决策树叶子节点的类别标签即实现了输入的磁盘状态数据未来的预测标记值(YES,NO)。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (2)

1.基于Storm的CVFDT在CDN运维预测中的算法,其特征在于,包括以下步骤:
A1、启动storm拓扑,设置数据喷发节点并分配并发数;
A2、将采集的磁盘状态数据读取到训练数据源Spout,训练数据源Spout以流的形式把数据样本传递给预处理Bolt进行处理;
A3、在预处理Bolt中设置数据属性集并分配Bolt的并发数,预处理Bolt将样本属性值和属性集进行匹配,将样本流中属性和类标签完整的数据元组转换成实例类,将处理好的实例数据元组传递给建树Bolt建立预测模型;
A4、建树Bolt存储接收到的实例数据元组,基于Hoeffding不等式建立决策树:达到初始建树条件时,初始化一个窗口W,并基于当前的窗口上初始化一个根节点,当样本集合的最佳属性和次佳属性差值满足Hoeffding不等式时,模型叶子节点自动分裂并不断更新,同时产生相应的替代子树防止概念漂移的发生;树的最底层叶子节点存储类别标记值(YES,NO),YES代表磁盘未来一小时内可能会损坏,NO代表不会损坏;快速决策树算法周期性的将最新的预测模型存入Redis缓存数据库中;
A5、快速决策树算法设置检测有效性的间隔,周期性的检测决策树的每个内部节点及其替代子树的有效性,当用户点播行为或环境的突变影响了磁盘状态数据的分布时,即认为发生了概念漂移,此时当前的预测模型可能与磁盘状态数据不匹配;
A6、窗口W保存实时进入的新的磁盘数据样本,同时删除先进入窗口的旧的磁盘数据样本;重新寻找最佳分裂属性,新的属性成为一个替代子树的根节点,并且依据该根节点建立替代子树;如果后继滑动窗口的样本在替代子树上的分类精度高于原先的决策树,则替代子树取代原先的决策树,以维持滑动窗口的样本和更新后的决策树的一致性;
A7、对服务器后续出现故障的可能性进行预判时,决策树Spout从Redis数据库中读取出决策树模型,传递给分类Bolt,由分类数据Spout喷发出待分类数据,同样先经过预处理Bolt处理后将实例数据元组传递给分类Bolt,分类Bolt调用分类的方法得到元组对应的决策树叶子节点的类别标签即实现了输入的磁盘状态数据未来的预测标记值(YES,NO)。
2.根据权利要求1所述的基于Storm的CVFDT在CDN运维预测中的算法,其特征在于,所述基于Hoeffding不等式建立决策树过程为:使用Hoeffding边界量化叶节点中确定最优分裂属性所需要的样本个数,其中Hoeffding边界描述如下:对一个真值随机变量r,其取值范围为R,假定对r取了n个独立的观察值,并计算了它们的平均值其Hoeffding约束对于可信度1-δ变量r的真实值至少是其中这里的r是信息增益,R的取值范围是log2#Classes,Classes是类别的数量;Hoeffding树中每个叶节点的内存占用为O(dvc),其中,d为属性数目,v为每个属性可能的最大取值数目,c为类别数目。
CN201610147855.6A 2016-03-15 2016-03-15 基于Storm的CVFDT在CDN运维预测中的方法 Expired - Fee Related CN105824715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610147855.6A CN105824715B (zh) 2016-03-15 2016-03-15 基于Storm的CVFDT在CDN运维预测中的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610147855.6A CN105824715B (zh) 2016-03-15 2016-03-15 基于Storm的CVFDT在CDN运维预测中的方法

Publications (2)

Publication Number Publication Date
CN105824715A true CN105824715A (zh) 2016-08-03
CN105824715B CN105824715B (zh) 2018-10-02

Family

ID=56987770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610147855.6A Expired - Fee Related CN105824715B (zh) 2016-03-15 2016-03-15 基于Storm的CVFDT在CDN运维预测中的方法

Country Status (1)

Country Link
CN (1) CN105824715B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171251A (zh) * 2016-12-07 2018-06-15 信阳师范学院 一种能够处理重现的概念的检测方法
CN108536447A (zh) * 2018-04-11 2018-09-14 上海掌门科技有限公司 运维管理方法
CN110196792A (zh) * 2018-08-07 2019-09-03 腾讯科技(深圳)有限公司 故障预测方法、装置、计算设备及存储介质
CN110374907A (zh) * 2019-07-15 2019-10-25 山东浪潮人工智能研究院有限公司 一种基于概念漂移的煤矿风机时序数据采样方法及工具
CN110971687A (zh) * 2019-11-29 2020-04-07 浙江邦盛科技有限公司 一种轨道交通流数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252588A (zh) * 2008-02-22 2008-08-27 蓝汛网络科技(北京)有限公司 一种流媒体内容分发方法、系统及装置
US20080209065A1 (en) * 2007-02-25 2008-08-28 Huawei Technologies Co., Ltd. Method for sending stream media, signaling forwarding device and stream media system
CN101640688A (zh) * 2009-08-20 2010-02-03 中兴通讯股份有限公司 基于cdn的节点主备用控制器切换方法及cdn网络
CN101741643A (zh) * 2009-12-24 2010-06-16 北京世纪互联宽带数据中心有限公司 内容分发网络节点检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080209065A1 (en) * 2007-02-25 2008-08-28 Huawei Technologies Co., Ltd. Method for sending stream media, signaling forwarding device and stream media system
CN101252588A (zh) * 2008-02-22 2008-08-27 蓝汛网络科技(北京)有限公司 一种流媒体内容分发方法、系统及装置
CN101640688A (zh) * 2009-08-20 2010-02-03 中兴通讯股份有限公司 基于cdn的节点主备用控制器切换方法及cdn网络
CN101741643A (zh) * 2009-12-24 2010-06-16 北京世纪互联宽带数据中心有限公司 内容分发网络节点检测方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171251A (zh) * 2016-12-07 2018-06-15 信阳师范学院 一种能够处理重现的概念的检测方法
CN108536447A (zh) * 2018-04-11 2018-09-14 上海掌门科技有限公司 运维管理方法
CN110196792A (zh) * 2018-08-07 2019-09-03 腾讯科技(深圳)有限公司 故障预测方法、装置、计算设备及存储介质
CN110374907A (zh) * 2019-07-15 2019-10-25 山东浪潮人工智能研究院有限公司 一种基于概念漂移的煤矿风机时序数据采样方法及工具
CN110971687A (zh) * 2019-11-29 2020-04-07 浙江邦盛科技有限公司 一种轨道交通流数据处理方法

Also Published As

Publication number Publication date
CN105824715B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN105824715A (zh) 基于Storm的CVFDT在CDN运维预测中的算法
CN110609759B (zh) 一种故障根因分析的方法及装置
CN103336790B (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
CN112529204A (zh) 模型训练方法、装置及系统
CN105335752A (zh) 一种基于主成分分析多变量决策树的接线方式识别方法
CN109787846A (zh) 一种5g网络服务质量异常监测和预测方法及系统
CN108470022A (zh) 一种基于运维管理的智能工单质检方法
US10691692B2 (en) Computer-implemented method of executing a query in a network of data centres
CN112699113B (zh) 时序数据流驱动的工业制造流程运行监测系统
CN106951464A (zh) 基于storm面向用户个性化预警机制大数据计算方法
JP2023504103A (ja) モデル更新システム、モデル更新方法及び関連装置
CN111737325A (zh) 一种基于大数据技术的电力数据分析方法和装置
CN116185758A (zh) 一种基于滑动窗口和关联规则分析的告警数据收敛方法
CN104021180A (zh) 一种组合式软件缺陷报告分类方法
JP7095619B2 (ja) 予測装置、予測方法及びプログラム
CN108664558A (zh) 一种面向大规模用户的网络电视个性化推荐服务方法
Gao et al. Defect analysis of the same batch of substation equipment based on big data analysis algorithm
CN111815066B (zh) 一种基于梯度提升决策树的用户点击预测方法
Taherizadeh et al. Incremental learning from multi-level monitoring data and its application to component based software engineering
CN112487053A (zh) 海量财务数据异常控制提取工作方法
CN113282568B (zh) 一种iot大数据实时时序流分析应用技术方法
CN115293236A (zh) 一种基于混合聚类的电力设备并行故障诊断方法及装置
CN112463853B (zh) 通过云平台进行财务数据行为筛选工作方法
CN112905845B (zh) 离散智能制造应用的多源非结构化数据清洗方法
Huang et al. Forecasting on electricity consumption of tourism industry in Changli County

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190909

Address after: 211804 Jiuhua Village Villagers'Committee 105-10, Xingdian Street, Pukou District, Nanjing City, Jiangsu Province

Patentee after: Nanjing Xinyi Technology Co.,Ltd.

Address before: 210023 Jiangsu city of Nanjing province Ya Dong town of Yuen Road No. 9

Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181002

CF01 Termination of patent right due to non-payment of annual fee