CN111314110B - 一种用于分布式系统的故障预警方法 - Google Patents

一种用于分布式系统的故障预警方法 Download PDF

Info

Publication number
CN111314110B
CN111314110B CN202010053604.8A CN202010053604A CN111314110B CN 111314110 B CN111314110 B CN 111314110B CN 202010053604 A CN202010053604 A CN 202010053604A CN 111314110 B CN111314110 B CN 111314110B
Authority
CN
China
Prior art keywords
fault
distributed system
time
anomaly
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010053604.8A
Other languages
English (en)
Other versions
CN111314110A (zh
Inventor
刘帆
王雪
王元兰
付煜
潘碗碗
陈大立
恽东杰
江柳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010053604.8A priority Critical patent/CN111314110B/zh
Publication of CN111314110A publication Critical patent/CN111314110A/zh
Application granted granted Critical
Publication of CN111314110B publication Critical patent/CN111314110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开的一种用于分布式系统的故障预警方法,包括以下步骤:从分布式系统的时序数据库中获取不同节点的时间序列数据;构建多维时间序列,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注;利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理;构建每个时间点的多维异常分数;采用有监督学习方法进行模型训练,构建单节点故障预测模型;在单节点故障预测模型的基础上构建分布式系统的故障预警模型;采用故障预测模型对获取到的实时数据进行故障预测,输出故障预警结果。本发明提高了预测准确率,保证一定召回率的同时,降低误报率,达到较好的检测效果,从而预判故障并进行告警,提高运维管理效率。

Description

一种用于分布式系统的故障预警方法
技术领域
本发明涉及故障预警方法技术领域,尤其涉及一种用于分布式系统的故障预警方法。
背景技术
分布式系统的预警重点在于及时准确地预测故障的发生,并定位故障所在节点,快速进行问题排查,减少损失。参见图1,图中给出的是传统的分布式系统的故障预警方法,包括以下步骤:1.调用接口收集检测数据;2.采用单一的异常检测方法或者单一的集成学习方法对收集到的检测数据进行处理;3.利用任意一条时间序列预测出异常,即为分布式系统所产生的异常;4.根据预测出的异常直接预测为系统故障。现有的分布系统的故障预警方法实际上是基于度量分析的机器学习异常检测方法,不需要了解系统内部结构,通过调用操作系统提供的接口搜集监测数据,适用范围非常广泛,其优势在于:无需事先知道故障类型并描述其特征。
然而,由于网络环境的动态性与复杂性,现有的基于度量分析的机器学习异常检测方法具有以下缺陷:1.此种直接基于度量分析的异常检测方法通常具有较高的误报率,预测的召回率高,但精确率却很低,导致在应用过程中人工检查精力被分散,成本大幅度上升;2.单一的异常检查方法不一定准确,用不同的异常检测器从不同角度来判断时序异常更有效。
为此,本申请人经过有益的探索和研究,找到了解决上述问题的方法,下面将要介绍的技术方案便是在这种背景下产生的。
发明内容
本发明所要解决的技术问题在于:针对现有技术的不足而提供一种精确度高、减少误报和漏报的用于分布式系统的故障预警方法。
本发明所要解决的技术问题可以采用如下技术方案来实现:
一种用于分布式系统的故障预警方法,包括以下步骤:
从分布式系统的时序数据库中获取不同节点的时间序列数据;
根据获取到的时间序列数据构建多维时间序列,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注;
利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理,并分别输出所述多维时间序列中每个时间点的异常特征;
根据输出的多个异常特征构建每个时间点的多维异常分数;
根据上述每个时间点的多维异常分数,结合每个时间点的故障情况,采用有监督学习方法进行模型训练,从而构建单节点故障预测模型;
在所述单节点故障预测模型的基础上构建分布式系统的故障预警模型;
获取分布式系统所产生的实时数据,并采用所述故障预警模型对获取到的实时数据进行故障预测,输出故障预警结果。
在本发明的一个优选实施例中,通过调用接口的方式从所述分布式系统的时序数据库中获取不同节点的时间序列数据。
在本发明的一个优选实施例中,所述时间序列数据包括CPU的负载信息、内存使用率信息以及存储空间信息。
在本发明的一个优选实施例中,在所述从分布式系统的时序数据库中获取不同节点的时间序列数据之后,还包括以下步骤:
对获取到的不同节点的时间序列数据的有效性进行检验;
若检验为无效数据,则剔除该节点的时间序列数据或者重新获取其它节点的时间序列数据。
在本发明的一个优选实施例中,所述多种异常检测器可以为HTM皮质神经网络异常检测器、期望相似度估计异常检测器、BayesChangPt异常检测器、KNNCAN异常检测器或滑动窗高斯模型异常检测器中的至少两种组合。
在本发明的一个优选实施例中,在所述采用有监督学习方法结合所述多维时间序列中每个时间的多维异常特征序列对所述单节点故障预测模型进行训练之后,还包括以下步骤:
判断所述单节点故障预测模型的训练效果是否达到预定要求;
若判断为未达到预定要求,则对所述单节点故障预测模型进行优化。
由于采用了如上技术方案,本发明的有益效果在于:本发明结合了多种异常检测器,并用集成学习分类预测故障是否发生,改进后的故障预警模型提高了预测准确率,保证一定召回率的同时,降低误报率,达到较好的检测效果,从而预判故障并进行告警,提高运维管理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是传统的分布式系统的故障预警方法的流程示意图。
图2是本发明的分布式系统的故障预警方法的流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
参见图2,图中给出的是一种用于分布式系统的故障预警方法,包括以下步骤:
步骤S10,从分布式系统的时序数据库中获取不同节点的时间序列数据。在本实施例中,通过调用接口的方式从所述分布式系统的时序数据库如influxdb中获取不同节点的时间序列数据。时间序列数据包括CPU的负载信息、内存使用率信息以及存储空间信息等信息,如节点的可用存储(ASN),JVM内存的使用(UJM),CPU的历史负载(HLC),CPU的当前负载(CLU),磁盘IO时间(DIO)。
步骤S20,对获取到的不同节点的时间序列数据的有效性进行检验;若检验为无效数据,即数据无变化或者无意义,则剔除该节点的时间序列数据或者重新获取其它节点的时间序列数据;若检测为有效数据,则进入步骤S30。
步骤S30,根据获取到的时间序列数据构建多维时间序列,即时间相同的点合并到一起,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注,以做到对故障的提前预警。
步骤S40,利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理,并分别输出所述多维时间序列中每个时间点的异常特征。在本实施例中,多种异常检测器可以为HTM皮质神经网络异常检测器、期望相似度估计异常检测器、BayesChangPt异常检测器、KNNCAN异常检测器或滑动窗高斯模型异常检测器中的至少两种组合。
步骤S50,将多种异常检测器输出的异常特征分数,构建成为每个时间点的多维异常分数。
步骤S60,根据上述每个时间点的多维异常分数,结合每个时间点的故障情况,采用有监督学习方法进行模型训练,从而构建单节点故障预测模型。在本实施例中,采用了随机森林的方法对单节点预测模型进行训练与构建。
步骤S70,判断所述单节点故障预测模型的训练效果是否达到预定要求;若判断为未达到预定要求,则对单节点故障预测模型进行优化,即调整异常检测器的参数,调整故障标注等,返回步骤S30;若判断为达到预定要求,则进入步骤S80。
步骤S80,在单节点故障预测模型的基础上构建分布式系统的故障预警模型。在本实施例中,对整个分布式系统的每一个节点的监控数据进行上述的单节点故障预警,对整个分布式系统设置阈值,当预警节点数量大于此阈值时,则对整个分布式系统进行故障预警。
步骤S90,获取分布式系统所产生的实时数据,并采用所述故障预警模型对获取到的实时数据进行故障预测,输出故障预警结果。
本发明将已有的异常检测模型方法,如KNN CAD方法、滑动窗高斯模型、Bayesianonline detector、期望相似性估计、HTM皮质神经网络等检测方法应用到分布式系统单节点预测中,为了规避单模型预测方法误判率高的缺陷,本发明将异常检测层得到的分数,构建为每个时间点的多个异常特征值,在分类层使用有监督学习的方法,将异常检测层各个模型的预测分数通过有监督学习训练,构建故障预判准确度更高异常检测模型,最终进行故障的准确预警。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种用于分布式系统的故障预警方法,其特征在于,包括以下步骤:
从分布式系统的时序数据库中获取不同节点的时间序列数据,所述时间序列数据包括CPU的负载信息、内存使用率信息以及存储空间信息;
根据获取到的时间序列数据构建多维时间序列,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注;
利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理,并分别输出所述多维时间序列中每个时间点的异常特征;所述多种异常检测器可以为HTM皮质神经网络异常检测器、期望相似度估计异常检测器、BayesChangPt异常检测器、KNNCAN异常检测器或滑动窗高斯模型异常检测器中的至少两种组合;
根据输出的多个异常特征构建每个时间点的多维异常分数;
根据上述每个时间点的多维异常分数,结合每个时间点的故障情况,采用有监督学习方法进行模型训练,从而构建单节点故障预测模型;
在所述单节点故障预测模型的基础上构建分布式系统的故障预警模型;
获取分布式系统所产生的实时数据,并采用所述故障预警模型对获取到的实时数据进行故障预测,输出故障预警结果。
2.如权利要求1所述的用于分布式系统的故障预警方法,其特征在于,通过调用接口的方式从所述分布式系统的时序数据库中获取不同节点的时间序列数据。
3.如权利要求1所述的用于分布式系统的故障预警方法,其特征在于,在所述从分布式系统的时序数据库中获取不同节点的时间序列数据之后,还包括以下步骤:
对获取到的不同节点的时间序列数据的有效性进行检验;
若检验为无效数据,则剔除该节点的时间序列数据或者重新获取其它节点的时间序列数据。
4.如权利要求1所述的用于分布式系统的故障预警方法,其特征在于,在所述采用有监督学习方法结合所述多维时间序列中每个时间的多维异常特征序列对所述单节点故障预测模型进行训练之后,还包括以下步骤:
判断所述单节点故障预测模型的训练效果是否达到预定要求;
若判断为未达到预定要求,则对所述单节点故障预测模型进行优化。
CN202010053604.8A 2020-01-17 2020-01-17 一种用于分布式系统的故障预警方法 Active CN111314110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010053604.8A CN111314110B (zh) 2020-01-17 2020-01-17 一种用于分布式系统的故障预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010053604.8A CN111314110B (zh) 2020-01-17 2020-01-17 一种用于分布式系统的故障预警方法

Publications (2)

Publication Number Publication Date
CN111314110A CN111314110A (zh) 2020-06-19
CN111314110B true CN111314110B (zh) 2023-05-02

Family

ID=71148872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010053604.8A Active CN111314110B (zh) 2020-01-17 2020-01-17 一种用于分布式系统的故障预警方法

Country Status (1)

Country Link
CN (1) CN111314110B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297045B (zh) * 2020-07-27 2024-03-08 阿里巴巴集团控股有限公司 分布式系统的监控方法及装置
CN112860525A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 分布式系统中的节点故障预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法
CN109784042A (zh) * 2018-12-29 2019-05-21 北京奇安信科技有限公司 时间序列中异常点的检测方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107703920B (zh) * 2017-10-25 2019-12-17 北京交通大学 基于多元时间序列的列车制动系统的故障检测方法
US20190138938A1 (en) * 2017-11-06 2019-05-09 Cisco Technology, Inc. Training a classifier used to detect network anomalies with supervised learning
CN108415789B (zh) * 2018-01-24 2020-05-22 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN109034470A (zh) * 2018-07-18 2018-12-18 国网冀北电力有限公司信息通信分公司 一种电力通信现场运维故障预测方法
CN109828182B (zh) * 2018-11-29 2021-01-19 广东电网有限责任公司信息中心 一种基于故障分类处理的电网系统故障分析预警方法
CN109635958A (zh) * 2018-12-12 2019-04-16 成都航天科工大数据研究院有限公司 一种基于边缘计算的预测性工业设备维护方法及维护系统
CN109871401B (zh) * 2018-12-26 2021-05-25 北京奇安信科技有限公司 一种时间序列异常检测方法及装置
CN109861857A (zh) * 2019-01-28 2019-06-07 网联清算有限公司 故障检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052528A (zh) * 2017-11-09 2018-05-18 华中科技大学 一种存储设备时序分类预警方法
CN109784042A (zh) * 2018-12-29 2019-05-21 北京奇安信科技有限公司 时间序列中异常点的检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111314110A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
EP3902992B1 (en) Scalable system and engine for forecasting wind turbine failure
US20210397501A1 (en) System and method for unsupervised prediction of machine failures
Song et al. Wind turbine health state monitoring based on a Bayesian data-driven approach
CN106528975B (zh) 一种应用于电路与系统的故障预测与健康管理方法
AU2018201487B2 (en) Method and system for health monitoring and fault signature identification
US11442444B2 (en) System and method for forecasting industrial machine failures
Jiang et al. Efficient fault detection and diagnosis in complex software systems with information-theoretic monitoring
WO2017139046A1 (en) System and method for unsupervised root cause analysis of machine failures
CN116975378B (zh) 一种基于大数据的设备环境监测方法及系统
US11620539B2 (en) Method and device for monitoring a process of generating metric data for predicting anomalies
CN111314110B (zh) 一种用于分布式系统的故障预警方法
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN115114124A (zh) 主机风险的评估方法及评估装置
Li et al. Meteorological radar fault diagnosis based on deep learning
CN112882898A (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
Randrianandraina et al. Wind turbine generator bearing anomaly detection and explanation using rrcf approach
CN118118319B (zh) 一种基于大数据的网络设备智能诊断方法及系统
CN116381419B (zh) 输电线路故障处理方法、装置、计算机设备和存储介质
KR102212022B1 (ko) 양수 수차의 건전성 자동 판정 방법 및 이를 위한 시스템
WO2024098477A1 (zh) 多部件状态融合驱动的系统级健康状态评估方法及设备
Li et al. Health Monitoring Framework for Weather Radar Based on Long Short‐Term Memory Network with a Real Case Study
CN114443398A (zh) 内存故障预测模型的生成方法、检测方法、装置及设备
CN117149486A (zh) 告警和根因定位方法、模型训练方法、装置、设备及介质
CN118261584A (zh) 基于多参量数据的变压器状态评估方法及系统
CN116842438A (zh) 一种用于变压器故障诊断的数字孪生模型构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant