CN111314110A - 一种用于分布式系统的故障预警方法 - Google Patents
一种用于分布式系统的故障预警方法 Download PDFInfo
- Publication number
- CN111314110A CN111314110A CN202010053604.8A CN202010053604A CN111314110A CN 111314110 A CN111314110 A CN 111314110A CN 202010053604 A CN202010053604 A CN 202010053604A CN 111314110 A CN111314110 A CN 111314110A
- Authority
- CN
- China
- Prior art keywords
- fault
- time
- distributed system
- time sequence
- early warning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000001054 cortical effect Effects 0.000 claims description 4
- 230000007257 malfunction Effects 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开的一种用于分布式系统的故障预警方法,包括以下步骤:从分布式系统的时序数据库中获取不同节点的时间序列数据;构建多维时间序列,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注;利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理;构建每个时间点的多维异常分数;采用有监督学习方法进行模型训练,构建单节点故障预测模型;在单节点故障预测模型的基础上构建分布式系统的故障预警模型;采用故障预测模型对获取到的实时数据进行故障预测,输出故障预警结果。本发明提高了预测准确率,保证一定召回率的同时,降低误报率,达到较好的检测效果,从而预判故障并进行告警,提高运维管理效率。
Description
技术领域
本发明涉及故障预警方法技术领域,尤其涉及一种用于分布式系统的故障预警方法。
背景技术
分布式系统的预警重点在于及时准确地预测故障的发生,并定位故障所在节点,快速进行问题排查,减少损失。参见图1,图中给出的是传统的分布式系统的故障预警方法,包括以下步骤:1.调用接口收集检测数据;2.采用单一的异常检测方法或者单一的集成学习方法对收集到的检测数据进行处理;3.利用任意一条时间序列预测出异常,即为分布式系统所产生的异常;4.根据预测出的异常直接预测为系统故障。现有的分布系统的故障预警方法实际上是基于度量分析的机器学习异常检测方法,不需要了解系统内部结构,通过调用操作系统提供的接口搜集监测数据,适用范围非常广泛,其优势在于:无需事先知道故障类型并描述其特征。
然而,由于网络环境的动态性与复杂性,现有的基于度量分析的机器学习异常检测方法具有以下缺陷:1.此种直接基于度量分析的异常检测方法通常具有较高的误报率,预测的召回率高,但精确率却很低,导致在应用过程中人工检查精力被分散,成本大幅度上升;2.单一的异常检查方法不一定准确,用不同的异常检测器从不同角度来判断时序异常更有效。
为此,本申请人经过有益的探索和研究,找到了解决上述问题的方法,下面将要介绍的技术方案便是在这种背景下产生的。
发明内容
本发明所要解决的技术问题在于:针对现有技术的不足而提供一种精确度高、减少误报和漏报的用于分布式系统的故障预警方法。
本发明所要解决的技术问题可以采用如下技术方案来实现:
一种用于分布式系统的故障预警方法,包括以下步骤:
从分布式系统的时序数据库中获取不同节点的时间序列数据;
根据获取到的时间序列数据构建多维时间序列,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注;
利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理,并分别输出所述多维时间序列中每个时间点的异常特征;
根据输出的多个异常特征构建每个时间点的多维异常分数;
根据上述所得的每个时间点的多维异常分数,结合该时间点的故障情况,采用有监督学习方法进行模型训练,从而构建单节点故障预测模型;
在所述单节点故障预测模型的基础上构建分布式系统的故障预警模型;
获取分布式系统所产生的实时数据,并采用所述故障预测模型对获取到的实时数据进行故障预测,输出故障预警结果。
在本发明的一个优选实施例中,通过调用接口的方式从所述分布式系统的时序数据库中获取不同节点的时间序列数据。
在本发明的一个优选实施例中,所述时间序列数据包括CPU的负载信息、内存使用率信息以及存储空间信息。
在本发明的一个优选实施例中,在所述从分布式系统的时序数据库中获取不同节点的时间序列数据之后,还包括以下步骤:
对获取到的不同节点的时间序列数据的有效性进行检验;
若检验为无效数据,则剔除该节点的时间序列数据或者重新获取其它节点的时间序列数据。
在本发明的一个优选实施例中,所述多种异常检测器可以为HTM皮质神经网络异常检测器、期望相似度估计异常检测器、BayesChangPt异常检测器、KNNCAN异常检测器或滑动窗高斯模型异常检测器中的至少两种组合。
在本发明的一个优选实施例中,在所述采用监督学习方法结合所述多维时间序列中每个时间的多维异常特征序列对所述单节点故障预测模型进行训练之后,还包括以下步骤:
判断所述单节点故障预测模型的训练效果是否达到预定要求;
若判断为未达到预定要求,则对所述单节点故障预测模型进行优化。
由于采用了如上技术方案,本发明的有益效果在于:本发明结合了多种异常检测器,并用集成学习分类预测故障是否发生,改进后的故障预警模型提高了预测准确率,保证一定召回率的同时,降低误报率,达到较好的检测效果,从而预判故障并进行告警,提高运维管理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是传统的分布式系统的故障预警方法的流程示意图。
图2是本发明的分布式系统的故障预警方法的流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
参见图2,图中给出的是一种用于分布式系统的故障预警方法,包括以下步骤:
步骤S10,从分布式系统的时序数据库中获取不同节点的时间序列数据。在本实施例中,通过调用接口的方式从所述分布式系统的时序数据库如influxdb中获取不同节点的时间序列数据。时间序列数据包括CPU的负载信息、内存使用率信息以及存储空间信息等信息,如节点的可用存储(ASN),JVM内存的使用(UJM),CPU的历史负载(HLC),CPU的当前负载(CLU),磁盘IO时间(DIO)。
步骤S20,对获取到的不同节点的时间序列数据的有效性进行检验;若检验为无效数据,即数据无变化或者无意义,则剔除该节点的时间序列数据或者重新获取其它节点的时间序列数据;若检测为有效数据,则进入步骤S30。
步骤S30,根据获取到的时间序列数据构建多维时间序列,即时间相同的点合并到一起,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注,以做到对故障的提前预警。
步骤S40,利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理,并分别输出所述多维时间序列中每个时间点的异常特征。在本实施例中,多种异常检测器可以为HTM皮质神经网络异常检测器、期望相似度估计异常检测器、BayesChangPt异常检测器、KNNCAN异常检测器或滑动窗高斯模型异常检测器中的至少两种组合。
步骤S50,将多种异常检测器输出的异常特征分数,构建成为每个时间点的多维异常分数。
步骤S60,根据上述所得的每个时间点的多维异常分数,结合该时间点的故障情况,采用有监督学习方法进行模型训练,从而构建单节点故障预测模型。在本实施例中,采用了随机森林的方法对单节点预测模型进行训练与构建。
步骤S70,判断所述单节点故障预测模型的训练效果是否达到预定要求;若判断为未达到预定要求,则对单节点故障预测模型进行优化,即调整异常检测器的参数,调整故障标注等,返回步骤S30;若判断为达到预定要求,则进入步骤S80。
步骤S80,在单节点故障预测模型的基础上构建分布式系统的故障预警模型。在本实施例中,对整个分布式系统的每一个节点的监控数据进行上述的单节点故障预警,对整个分布式系统设置阈值,当预警节点数量大于此阈值时,则对整个分布式系统进行故障预警。
步骤S90,获取分布式系统所产生的实时数据,并采用所述故障预测模型对获取到的实时数据进行故障预测,输出故障预警结果。
本发明将已有的异常检测模型方法,如KNNCAD方法、滑动窗高斯模型、Bayesianonlinedetector、期望相似性估计、HTM皮质神经网络等检测方法应用到分布式系统单节点预测中,为了规避单模型预测方法误判率高的缺陷,本发明将异常检测层得到的分数,构建为每个时间点的多个异常特征值,在分类层使用有监督学习的方法,将异常检测层各个模型的预测分数通过有监督学习训练,构建故障预判准确度更高异常检测模型,最终进行故障的准确预警。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种用于分布式系统的故障预警方法,其特征在于,包括以下步骤:
从分布式系统的时序数据库中获取不同节点的时间序列数据;
根据获取到的时间序列数据构建多维时间序列,并对多维时间序列中的历史故障点及其前N段时间内的点进行故障标注;
利用多种异常检测器分别对标注好的多维时间序列进行异常检测处理,并分别输出所述多维时间序列中每个时间点的异常特征;
根据输出的多个异常特征构建每个时间点的多维异常分数;
根据上述所得的每个时间点的多维异常分数,结合该时间点的故障情况,采用有监督学习方法进行模型训练,从而构建单节点故障预测模型;
在所述单节点故障预测模型的基础上构建分布式系统的故障预警模型;
获取分布式系统所产生的实时数据,并采用所述故障预测模型对获取到的实时数据进行故障预测,输出故障预警结果。
2.如权利要求1所述的用于分布式系统的故障预警方法,其特征在于,通过调用接口的方式从所述分布式系统的时序数据库中获取不同节点的时间序列数据。
3.如权利要求2所述的用于分布式系统的故障预警方法,其特征在于,所述时间序列数据包括CPU的负载信息、内存使用率信息以及存储空间信息。
4.如权利要求1所述的用于分布式系统的故障预警方法,其特征在于,在所述从分布式系统的时序数据库中获取不同节点的时间序列数据之后,还包括以下步骤:
对获取到的不同节点的时间序列数据的有效性进行检验;
若检验为无效数据,则剔除该节点的时间序列数据或者重新获取其它节点的时间序列数据。
5.如权利要求1所述的用于分布式系统的故障预警方法,其特征在于,所述多种异常检测器可以为HTM皮质神经网络异常检测器、期望相似度估计异常检测器、BayesChangPt异常检测器、KNNCAN异常检测器或滑动窗高斯模型异常检测器中的至少两种组合。
6.如权利要求1所述的用于分布式系统的故障预警方法,其特征在于,在所述采用监督学习方法结合所述多维时间序列中每个时间的多维异常特征序列对所述单节点故障预测模型进行训练之后,还包括以下步骤:
判断所述单节点故障预测模型的训练效果是否达到预定要求;
若判断为未达到预定要求,则对所述单节点故障预测模型进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053604.8A CN111314110B (zh) | 2020-01-17 | 2020-01-17 | 一种用于分布式系统的故障预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053604.8A CN111314110B (zh) | 2020-01-17 | 2020-01-17 | 一种用于分布式系统的故障预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111314110A true CN111314110A (zh) | 2020-06-19 |
CN111314110B CN111314110B (zh) | 2023-05-02 |
Family
ID=71148872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010053604.8A Active CN111314110B (zh) | 2020-01-17 | 2020-01-17 | 一种用于分布式系统的故障预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111314110B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860525A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 分布式系统中的节点故障预测方法及装置 |
CN113297045A (zh) * | 2020-07-27 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 分布式系统的监控方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107703920A (zh) * | 2017-10-25 | 2018-02-16 | 北京交通大学 | 基于多元时间序列的列车制动系统的故障检测方法 |
CN108052528A (zh) * | 2017-11-09 | 2018-05-18 | 华中科技大学 | 一种存储设备时序分类预警方法 |
CN108415789A (zh) * | 2018-01-24 | 2018-08-17 | 西安交通大学 | 面向大规模混合异构存储系统的节点故障预测系统及方法 |
CN109034470A (zh) * | 2018-07-18 | 2018-12-18 | 国网冀北电力有限公司信息通信分公司 | 一种电力通信现场运维故障预测方法 |
CN109635958A (zh) * | 2018-12-12 | 2019-04-16 | 成都航天科工大数据研究院有限公司 | 一种基于边缘计算的预测性工业设备维护方法及维护系统 |
US20190138938A1 (en) * | 2017-11-06 | 2019-05-09 | Cisco Technology, Inc. | Training a classifier used to detect network anomalies with supervised learning |
CN109784042A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 时间序列中异常点的检测方法、装置、电子设备及存储介质 |
CN109828182A (zh) * | 2018-11-29 | 2019-05-31 | 广东电网有限责任公司信息中心 | 一种基于故障分类处理的电网系统故障分析预警方法 |
CN109861857A (zh) * | 2019-01-28 | 2019-06-07 | 网联清算有限公司 | 故障检测方法及装置 |
CN109871401A (zh) * | 2018-12-26 | 2019-06-11 | 北京奇安信科技有限公司 | 一种时间序列异常检测方法及装置 |
-
2020
- 2020-01-17 CN CN202010053604.8A patent/CN111314110B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107703920A (zh) * | 2017-10-25 | 2018-02-16 | 北京交通大学 | 基于多元时间序列的列车制动系统的故障检测方法 |
US20190138938A1 (en) * | 2017-11-06 | 2019-05-09 | Cisco Technology, Inc. | Training a classifier used to detect network anomalies with supervised learning |
CN108052528A (zh) * | 2017-11-09 | 2018-05-18 | 华中科技大学 | 一种存储设备时序分类预警方法 |
CN108415789A (zh) * | 2018-01-24 | 2018-08-17 | 西安交通大学 | 面向大规模混合异构存储系统的节点故障预测系统及方法 |
CN109034470A (zh) * | 2018-07-18 | 2018-12-18 | 国网冀北电力有限公司信息通信分公司 | 一种电力通信现场运维故障预测方法 |
CN109828182A (zh) * | 2018-11-29 | 2019-05-31 | 广东电网有限责任公司信息中心 | 一种基于故障分类处理的电网系统故障分析预警方法 |
CN109635958A (zh) * | 2018-12-12 | 2019-04-16 | 成都航天科工大数据研究院有限公司 | 一种基于边缘计算的预测性工业设备维护方法及维护系统 |
CN109871401A (zh) * | 2018-12-26 | 2019-06-11 | 北京奇安信科技有限公司 | 一种时间序列异常检测方法及装置 |
CN109784042A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 时间序列中异常点的检测方法、装置、电子设备及存储介质 |
CN109861857A (zh) * | 2019-01-28 | 2019-06-07 | 网联清算有限公司 | 故障检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
吕品: "人工智能在网络故障预警的应用", 《电信工程技术与标准化》 * |
王雪: "智能运维下故障预警和故障根因定位问题的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297045A (zh) * | 2020-07-27 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 分布式系统的监控方法及装置 |
CN113297045B (zh) * | 2020-07-27 | 2024-03-08 | 阿里巴巴集团控股有限公司 | 分布式系统的监控方法及装置 |
CN112860525A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 分布式系统中的节点故障预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111314110B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023071217A1 (zh) | 基于深度迁移学习的多工况流程工业故障检测诊断方法 | |
EP3557819B1 (en) | Server failure detection method and system | |
WO2020052147A1 (zh) | 监测设备故障检测方法及装置 | |
CN111143438B (zh) | 一种基于流处理的车间现场数据实时监测与异常检测方法 | |
WO2020215721A1 (zh) | 一种激光雷达的寿命预测方法 | |
US20130060524A1 (en) | Machine Anomaly Detection and Diagnosis Incorporating Operational Data | |
CN112284440B (zh) | 一种传感器数据偏差自适应修正方法 | |
CN115118581B (zh) | 一种基于5g的物联网数据全链路监控和智能保障系统 | |
CN111314110B (zh) | 一种用于分布式系统的故障预警方法 | |
US20190164067A1 (en) | Method and device for monitoring a process of generating metric data for predicting anomalies | |
CN115454778A (zh) | 大规模云网络环境下的时序指标异常智能监控系统 | |
CN111382494A (zh) | 用于检测工业机器的感知数据中的异常的系统及方法 | |
CN111666978B (zh) | 一种it系统运维大数据的智能故障预警系统 | |
KR20230125116A (ko) | 머신러닝 클러스터링 알고리즘과 통계적 기법을 이용해 고장 데이터가 부재한 시스템의 결함 탐지 및 고장 진단 예측 방법 | |
CN117708637A (zh) | 基于改进k均值聚类分析的风电机组叶片故障诊断方法 | |
CN111306051B (zh) | 一种输油泵机组探针式状态监测预警方法、装置及系统 | |
CN115114124A (zh) | 主机风险的评估方法及评估装置 | |
Li et al. | Meteorological radar fault diagnosis based on deep learning | |
CN116907772A (zh) | 桥梁结构监测传感器的自诊断与故障源鉴别方法及系统 | |
CN102270278A (zh) | 基于红外测温的设备故障的预测方法及装置 | |
CN109558258B (zh) | 一种分布式系统根源故障定位的方法及装置 | |
Wang et al. | A novel unsupervised dead-value detection method for monitoring indicators in data center | |
CN117560300B (zh) | 一种智能物联网流量预测与优化系统 | |
CN118118319B (zh) | 一种基于大数据的网络设备智能诊断方法及系统 | |
CN116381419B (zh) | 输电线路故障处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |