CN110245053A - 故障预测诊断方法及系统 - Google Patents
故障预测诊断方法及系统 Download PDFInfo
- Publication number
- CN110245053A CN110245053A CN201910536808.4A CN201910536808A CN110245053A CN 110245053 A CN110245053 A CN 110245053A CN 201910536808 A CN201910536808 A CN 201910536808A CN 110245053 A CN110245053 A CN 110245053A
- Authority
- CN
- China
- Prior art keywords
- monitor control
- monitor
- control index
- abnormal
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002405 diagnostic procedure Methods 0.000 title claims abstract description 21
- 230000002159 abnormal effect Effects 0.000 claims abstract description 109
- 238000012544 monitoring process Methods 0.000 claims abstract description 69
- 238000003745 diagnosis Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013024 troubleshooting Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Mathematical Physics (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供一种故障预测诊断方法及系统。该故障预测诊断方法包括:采集被监控对象上预设的多个监控指标;按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。
Description
技术领域
本发明涉及系统故障诊断分析领域,具体地,涉及一种故障预测诊断方法及系统。
背景技术
目前IT系统规模日益庞大、功能愈加丰富,企业大量核心交易都依赖IT系统处理。在日常的测试及生产活动中,面对海量的运维管理对象,如何能够快速且准确的识别和定位潜在的功能及性能问题,并及时进行处理,对于维护企业正常的经营活动显得至关重要。
目前从业界通常做法来看,主要依赖基于固定阀值的监控报警系统。虽然系统间可以根据系统的差异性配置不同的监控阀值,但是对于单个系统,阀值相对固定。这种方案虽然可以快速的发现问题,但是误报率高、弹性差且无法通过监控事件定位原因。随着自动化运维理念和技术的发展,这种监控方案无法有效驱动后续的运维自动化动作。
测试环境更为特殊,由于资源投入有限,测试环境配置一般都比投产后环境小很多,数据量也与实际存在较大差异,这样就给问题分析和定位带来了更大的挑战。传统的基于阀值报警的问题发现和诊断方法在测试环境明显存在短板,主要体现在误报率和漏报率较高。
发明内容
本发明实施例的主要目的在于提供一种故障预测诊断方法及系统,以根据不同监控对象特点和问题预测诊断故障原因,快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。
为了实现上述目的,本发明实施例提供一种故障预测诊断方法,包括:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;
判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;
根据一个或多个异常监控指标预测诊断故障原因。
本发明实施例还提供一种故障预测诊断系统,包括:
采集单元,用于采集被监控对象上预设的多个监控指标;
第一判断单元,用于按照预设的历史运行趋势判断每个监控指标的风险等级;
定位单元,用于当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;
第二判断单元,用于判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;
故障预测诊断单元,用于根据一个或多个异常监控指标预测诊断故障原因。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;
判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;
根据一个或多个异常监控指标预测诊断故障原因。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;
判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;
根据一个或多个异常监控指标预测诊断故障原因。
本发明实施例的故障预测诊断方法及系统先采集被监控对象上预设的多个监控指标,再按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;然后判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标,最后根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例中故障预测诊断方法的流程图;
图2是本发明第二实施例中故障预测诊断方法的流程图;
图3是本发明实施例中故障预测诊断系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
鉴于现有技术无法有效驱动后续的运维自动化动作,误报率和漏报率较高,本发明实施例提供一种故障预测诊断方法,以根据不同监控对象特点和问题预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。以下结合附图对本发明进行详细说明。
图1是本发明第一实施例中故障预测诊断方法的流程图。如图1所示,故障预测诊断方法包括:
S101:采集被监控对象上预设的多个监控指标。
具体实施时,可以采用开源ZABBIX工具、自主研发的DBMONITOR工具采集监控指标。
S102:按照预设的历史运行趋势判断每个监控指标的风险等级。
具体实施时,可以根据历史采集的数据构建出被监控对象的各个监控指标的历史运行趋势,按照历史最小值、历史平均值、历史最大值和历史最大值的1.5倍由低到高划分为四个风险等级。由于各个被监控对象的特点不同(例如联机事务型或批量作业型),每个监控指标的度量标准是不一样的;同时,由于系统资源的差异,相同的被监控对象在不同资源环境下运行,产生的监控指标也存在很大差异。通过划分风险等级,可以与自身历史运行情况进行比较,过滤低风险等级的监控指标,减少因特点不同和资源差异不同造成的监控指标判断失真现象,提高监控的准确率。
S103:当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标。
S104:判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标。
具体实施时,还可以借助其他人工判断标准判断是否在异常时间段出现异常,以提升监控的准确率和解决效率,降低误报率。如果监控事件对应的全部监控指标或大部分监控指标出现异常,即认为命中监控事件;如果只有单独监控指标出现异常,即认为命中监控指标。例如,如果监控指标的风险等级大于或等于该监控指标对应的阈值风险等级,则判断该监控指标出现异常。
S105:根据一个或多个异常监控指标预测诊断故障原因。
例如,对于数值型的监控指标,可以利用线性拟合模型,以时间为维度,对数值型监控指标的增长趋势进行分析,如果呈现持续增长的趋势,则预测未来将会产生故障。
图1所示的故障预测诊断方法的执行主体可以为计算机。由图1所示的流程可知,本发明实施例的故障预测诊断方法先采集被监控对象上预设的多个监控指标,再按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;然后判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标,最后根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。
图2是本发明第二实施例中故障预测诊断方法的流程图。如图2所示,执行S101之前,还包括:
S201:接收监控需求,按照预设的第一分类规则对监控需求进行分类。
例如,可以根据监控需求的来源将监控需求分为“发现历史生产问题”,“满足生产监控需求”和“满足版本改造测试需求”三个大类。
S202:按照预设的第二分类规则将每类监控需求均分为多个监控事件。
例如,在“发现历史生产问题”大类中,对生产环境发生过的性能问题进行根因分析,将“发现历史生产问题”大类分为9个主要根因,并将9个主要根因定义为监控事件。
S203:将每个监控事件划分为多个监控指标。
例如,“C3:索引分裂”监控事件对应的监控指标为“数据库等待时间”和“会话数量”。
S204:将每个监控事件对应的至少一个监控指标作为被监控对象上预设的监控指标。
具体实施时,可以先定义每个监控指标对应的指标代码,然后选择相应的指标代码作为预设的监控指标。例如,可以选择“数据库等待时间”对应的指标代码“enq:TX-indexcontention”作为预设的监控指标。
为了解决监控指标的机器时间与自然时间不一致的情况,在执行S101之后,还可以包括:接收每个监控指标的机器时间;根据当前自然时间与每个监控指标的机器时间确定每个监控指标的自然时间;按照每个监控指标的自然时间对多个监控指标进行时序编排。此时S102具体包括:按照预设的历史运行趋势判断每个进行时序编排后的监控指标的风险等级。S104具体包括:判断监控事件对应的其余多个监控指标是否在时序编排后的异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标。
具体实施时,被监控对象会定时发送监控指标的机器时间给本发明实施例的故障预测诊断系统,故障预测诊断系统收到机器时间后会与当前自然时间进行比较,并计算一个时间差值,被监控对象两次发送的间隔内采集到的监控指标都会利用这个时间差值与当前自然时间进行换算,保证所有监控指标都能记录发生的自然时间和机器时间。这样可以按照统一时序对不同被监控对象产生的监控指标按照时间维度进行关联分析。
一实施例中,执行S106之后,还可以包括:根据故障原因和预设的响应规则判断是否触发运维自动化操作;当触发运维自动化操作时,执行运维自动化操作,选择相对应的处理方法自动完成故障的修复;如果不触发运维自动化操作,则忽略故障或者转人工处理,最后发送运维自动化操作的处理结果至相关测试和运维人员。
本发明的其中一个具体实施例如下:
1、接收监控需求,按照预设的第一分类规则对监控需求进行分类。
2、按照预设的第二分类规则将每类监控需求均分为多个监控事件,并将每个监控事件划分为多个监控指标。
3、将每个监控事件对应的至少一个监控指标作为被监控对象上预设的监控指标。
4、采集被监控对象上预设的多个监控指标。
5、按照预设的历史运行趋势判断每个监控指标的风险等级。当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段。
例如,发现监控指标出现异常,具体为被监控对象的某一台服务器CPU资源使用率从某一时间点开始出现了持续增长的趋势,并最终冲高到接近99%。此时检查发现该监控指标对应的监控事件为数据库进程执行事件。
6、判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标。
例如,遍历数据库进程执行事件所需的所有监控指标,发现数据库进程执行共包含10个监控指标。对10个监控指标进行检查,判断监控指标是否在时序编排后的异常时间段存在异常。在指标数据来源“会话连接数统计”和“异常等待事件统计”中,发现“出现等待事件的会话数量”和“索引分裂等待事件”这两个监控指标在相同的异常时间段出现异常。以“索引分裂等待事件”监控指标为例,按照该监控指标的历史运行趋势,被监控对象的相同语句在单位时间内发生“索引分裂等待事件”的次数只有15次,而在该异常时间段内,发生“索引分裂等待事件”的最大次数为28次,超过历史版本的1.5倍,此时定义为高风险等级,触发事件报警。
7、根据一个或多个异常监控指标预测诊断故障原因。
例如,根据异常的“出现等待事件的会话数量”监控指标、“索引分裂等待事件”监控指标和CPU资源的使用情况,预测诊断故障原因为索引分裂。
8、根据故障原因和预设的响应规则判断是否触发运维自动化操作;当触发运维自动化操作时,执行运维自动化操作,选择相对应的处理方法自动完成故障的修复;如果不触发运维自动化操作,则忽略故障或者转人工处理,最后发送运维自动化操作的处理结果至相关测试和运维人员。
例如,根据预设的响应规则判断索引分裂故障是否触发运维自动化操作;当触发运维自动化操作时,执行运维自动化操作,选择相对应的处理方法修复索引分裂故障;如果不触发运维自动化操作,则忽略索引分裂故障或者转人工处理,最后发送索引分裂故障的处理结果至相关测试和运维人员。
综上,本发明实施例的故障预测诊断方法先采集被监控对象上预设的多个监控指标,再按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;然后判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标,最后根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,帮助运维人员快速定位问题原因,驱动了后续的运维自动化动作。
基于同一发明构思,本发明实施例还提供了一种故障预测诊断系统。图3是本发明实施例中故障预测诊断系统的结构框图。如图3所示,故障预测诊断系统包括:
采集单元,用于采集被监控对象上预设的多个监控指标;
第一判断单元,用于按照预设的历史运行趋势判断每个监控指标的风险等级;
定位单元,用于当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;
第二判断单元,用于判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;
故障预测诊断单元,用于根据一个或多个异常监控指标预测诊断故障原因。
在其中一种实施例中,还包括:
第一分类单元,用于接收监控需求,按照预设的第一分类规则对监控需求进行分类;
第二分类单元,用于按照预设的第二分类规则将每类监控需求均分为多个监控事件;
划分单元,用于将每个监控事件划分为多个监控指标;
预设监控指标单元,用于将每个监控事件对应的至少一个监控指标作为被监控对象上预设的监控指标。
在其中一种实施例中,还包括:
接收单元,用于接收每个监控指标的机器时间;
自然时间单元,用于根据当前自然时间与每个监控指标的机器时间确定每个监控指标的自然时间;
时序编排单元,用于按照每个监控指标的自然时间对多个监控指标进行时序编排;
第一判断单元具体用于:
按照预设的历史运行趋势判断每个进行时序编排后的监控指标的风险等级。
在其中一种实施例中,还包括:
第三判断单元,用于根据故障原因和预设的响应规则判断是否触发运维自动化操作;
运维单元,用于当触发运维自动化操作时,执行运维自动化操作;
发送单元,用于发送运维自动化操作的处理结果。
综上,本发明实施例的故障预测诊断系统先采集被监控对象上预设的多个监控指标,再按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;然后判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标,最后根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,帮助运维人员快速定位问题原因,驱动了后续的运维自动化动作。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;
判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;
根据一个或多个异常监控指标预测诊断故障原因。
综上,本发明实施例的计算机设备先采集被监控对象上预设的多个监控指标,再按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;然后判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标,最后根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,帮助运维人员快速定位问题原因,驱动了后续的运维自动化动作。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;
判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;
根据一个或多个异常监控指标预测诊断故障原因。
综上,本发明实施例的计算机可读存储介质先采集被监控对象上预设的多个监控指标,再按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;然后判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标,最后根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,帮助运维人员快速定位问题原因,驱动了后续的运维自动化动作。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种故障预测诊断方法,其特征在于,包括:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,所述监控事件包括多个监控指标;
判断所述监控事件对应的其余多个监控指标是否在所述异常时间段出现异常,以确定所述监控事件对应的一个或多个异常的监控指标;
根据所述一个或多个异常监控指标预测诊断故障原因。
2.根据权利要求1所述的故障预测诊断方法,其特征在于,采集被监控对象上预设的多个监控指标之前,包括:
接收监控需求,按照预设的第一分类规则对所述监控需求进行分类;
按照预设的第二分类规则将每类监控需求均分为多个监控事件;
将每个监控事件划分为多个监控指标;
将每个监控事件对应的至少一个监控指标作为被监控对象上预设的监控指标。
3.根据权利要求1所述的故障预测诊断方法,其特征在于,还包括:
接收每个监控指标的机器时间;
根据当前自然时间与每个监控指标的机器时间确定每个监控指标的自然时间;
按照每个监控指标的自然时间对所述多个监控指标进行时序编排;
按照预设的历史运行趋势判断每个监控指标的风险等级,具体包括:
按照预设的历史运行趋势判断每个进行时序编排后的监控指标的风险等级。
4.根据权利要求1所述的故障预测诊断方法,其特征在于,还包括:
根据所述故障原因和预设的响应规则判断是否触发运维自动化操作;
当触发运维自动化操作时,执行运维自动化操作;
发送运维自动化操作的处理结果。
5.一种故障预测诊断系统,其特征在于,包括:
采集单元,用于采集被监控对象上预设的多个监控指标;
第一判断单元,用于按照预设的历史运行趋势判断每个监控指标的风险等级;
定位单元,用于当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,所述监控事件包括多个监控指标;
第二判断单元,用于判断所述监控事件对应的其余多个监控指标是否在所述异常时间段出现异常,以确定所述监控事件对应的一个或多个异常的监控指标;
故障预测诊断单元,用于根据所述一个或多个异常监控指标预测诊断故障原因。
6.根据权利要求5所述的故障预测诊断系统,其特征在于,还包括:
第一分类单元,用于接收监控需求,按照预设的第一分类规则对所述监控需求进行分类;
第二分类单元,用于按照预设的第二分类规则将每类监控需求均分为多个监控事件;
划分单元,用于将每个监控事件划分为多个监控指标;
预设监控指标单元,用于将每个监控事件对应的至少一个监控指标作为被监控对象上预设的监控指标。
7.根据权利要求5所述的故障预测诊断系统,其特征在于,还包括:
接收单元,用于接收每个监控指标的机器时间;
自然时间单元,用于根据当前自然时间与每个监控指标的机器时间确定每个监控指标的自然时间;
时序编排单元,用于按照每个监控指标的自然时间对所述多个监控指标进行时序编排;
所述第一判断单元具体用于:
按照预设的历史运行趋势判断每个进行时序编排后的监控指标的风险等级。
8.根据权利要求5所述的故障预测诊断系统,其特征在于,还包括:
第三判断单元,用于根据所述故障原因和预设的响应规则判断是否触发运维自动化操作;
运维单元,用于当触发运维自动化操作时,执行运维自动化操作;
发送单元,用于发送运维自动化操作的处理结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,所述监控事件包括多个监控指标;
判断所述监控事件对应的其余多个监控指标是否在所述异常时间段出现异常,以确定所述监控事件对应的一个或多个异常的监控指标;
根据所述一个或多个异常监控指标预测诊断故障原因。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
采集被监控对象上预设的多个监控指标;
按照预设的历史运行趋势判断每个监控指标的风险等级;
当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,所述监控事件包括多个监控指标;
判断所述监控事件对应的其余多个监控指标是否在所述异常时间段出现异常,以确定所述监控事件对应的一个或多个异常的监控指标;
根据所述一个或多个异常监控指标预测诊断故障原因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910536808.4A CN110245053A (zh) | 2019-06-20 | 2019-06-20 | 故障预测诊断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910536808.4A CN110245053A (zh) | 2019-06-20 | 2019-06-20 | 故障预测诊断方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110245053A true CN110245053A (zh) | 2019-09-17 |
Family
ID=67888503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910536808.4A Pending CN110245053A (zh) | 2019-06-20 | 2019-06-20 | 故障预测诊断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245053A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110784355A (zh) * | 2019-10-30 | 2020-02-11 | 网宿科技股份有限公司 | 一种故障识别方法及装置 |
CN112580961A (zh) * | 2020-12-15 | 2021-03-30 | 国网电力科学研究院有限公司 | 基于电网信息系统运行风险预警方法及装置 |
CN112799923A (zh) * | 2020-12-24 | 2021-05-14 | 深圳前海微众银行股份有限公司 | 系统异常原因确定方法、装置、设备及存储介质 |
CN112834884A (zh) * | 2021-01-07 | 2021-05-25 | 华翔翔能科技股份有限公司 | 一种油浸式变压器局部放电分析方法及系统 |
CN112860523A (zh) * | 2021-03-16 | 2021-05-28 | 中国工商银行股份有限公司 | 批量作业处理的故障预测方法、装置和服务器 |
CN114488991A (zh) * | 2020-10-27 | 2022-05-13 | 达明机器人股份有限公司 | 机器人安全监控系统及其诊断异常的方法 |
CN114598618A (zh) * | 2020-12-07 | 2022-06-07 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置及设备 |
CN115729783A (zh) * | 2022-11-30 | 2023-03-03 | 中国人民财产保险股份有限公司 | 故障风险监控方法、设备、存储介质及程序产品 |
CN116579762A (zh) * | 2023-04-14 | 2023-08-11 | 广州林旺空调工程有限公司 | 一种冷却塔智慧运维平台 |
CN118445157A (zh) * | 2024-07-08 | 2024-08-06 | 陕西数图行信息科技有限公司 | 一种基于数据分析的监控指标动态调整方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412805A (zh) * | 2013-07-31 | 2013-11-27 | 交通银行股份有限公司 | 一种it故障源诊断方法及系统 |
US20170147819A1 (en) * | 2015-11-20 | 2017-05-25 | Lastline, Inc. | Methods and systems for maintaining a sandbox for use in malware detection |
CN107707376A (zh) * | 2017-06-09 | 2018-02-16 | 贵州白山云科技有限公司 | 一种监控和告警的方法和系统 |
-
2019
- 2019-06-20 CN CN201910536808.4A patent/CN110245053A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412805A (zh) * | 2013-07-31 | 2013-11-27 | 交通银行股份有限公司 | 一种it故障源诊断方法及系统 |
US20170147819A1 (en) * | 2015-11-20 | 2017-05-25 | Lastline, Inc. | Methods and systems for maintaining a sandbox for use in malware detection |
CN107707376A (zh) * | 2017-06-09 | 2018-02-16 | 贵州白山云科技有限公司 | 一种监控和告警的方法和系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110784355A (zh) * | 2019-10-30 | 2020-02-11 | 网宿科技股份有限公司 | 一种故障识别方法及装置 |
CN110784355B (zh) * | 2019-10-30 | 2022-03-08 | 网宿科技股份有限公司 | 一种故障识别方法及装置 |
CN114488991A (zh) * | 2020-10-27 | 2022-05-13 | 达明机器人股份有限公司 | 机器人安全监控系统及其诊断异常的方法 |
CN114598618A (zh) * | 2020-12-07 | 2022-06-07 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置及设备 |
CN112580961B (zh) * | 2020-12-15 | 2022-09-09 | 国网电力科学研究院有限公司 | 基于电网信息系统运行风险预警方法及装置 |
CN112580961A (zh) * | 2020-12-15 | 2021-03-30 | 国网电力科学研究院有限公司 | 基于电网信息系统运行风险预警方法及装置 |
CN112799923A (zh) * | 2020-12-24 | 2021-05-14 | 深圳前海微众银行股份有限公司 | 系统异常原因确定方法、装置、设备及存储介质 |
CN112799923B (zh) * | 2020-12-24 | 2024-07-30 | 深圳前海微众银行股份有限公司 | 系统异常原因确定方法、装置、设备及存储介质 |
CN112834884A (zh) * | 2021-01-07 | 2021-05-25 | 华翔翔能科技股份有限公司 | 一种油浸式变压器局部放电分析方法及系统 |
CN112860523A (zh) * | 2021-03-16 | 2021-05-28 | 中国工商银行股份有限公司 | 批量作业处理的故障预测方法、装置和服务器 |
CN115729783A (zh) * | 2022-11-30 | 2023-03-03 | 中国人民财产保险股份有限公司 | 故障风险监控方法、设备、存储介质及程序产品 |
CN116579762A (zh) * | 2023-04-14 | 2023-08-11 | 广州林旺空调工程有限公司 | 一种冷却塔智慧运维平台 |
CN116579762B (zh) * | 2023-04-14 | 2023-10-20 | 广州林旺空调工程有限公司 | 一种冷却塔智慧运维平台 |
CN118445157A (zh) * | 2024-07-08 | 2024-08-06 | 陕西数图行信息科技有限公司 | 一种基于数据分析的监控指标动态调整方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245053A (zh) | 故障预测诊断方法及系统 | |
CN111209131B (zh) | 一种基于机器学习确定异构系统的故障的方法和系统 | |
CN112162878B (zh) | 数据库故障发现方法、装置、电子设备及存储介质 | |
CN105337765B (zh) | 一种分布式hadoop集群故障自动诊断修复系统 | |
CN104268678B (zh) | 一种以动态可靠性为基础的石化设备预防性维修方法 | |
JP4859558B2 (ja) | コンピュータシステムの制御方法及びコンピュータシステム | |
KR100982034B1 (ko) | 데이터베이스 성능 모니터링 방법 및 시스템 | |
CN103412805A (zh) | 一种it故障源诊断方法及系统 | |
JP2010526352A (ja) | 統計的な分析を利用した性能障害管理システム及びその方法 | |
Bhaduri et al. | Detecting abnormal machine characteristics in cloud infrastructures | |
CN110333995A (zh) | 对工业设备运行状态进行监测的方法及装置 | |
CN106598800A (zh) | 一种硬件故障分析系统和方法 | |
CN109462490B (zh) | 视频监控系统及故障分析方法 | |
JP2015028700A (ja) | 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 | |
CN112631887A (zh) | 异常检测方法、装置、电子设备和计算机可读存储介质 | |
CN104780220A (zh) | 面向证券期货行业大型分布式系统的智能监控系统及监控方法 | |
CN115033463B (zh) | 一种系统异常类型确定方法、装置、设备和存储介质 | |
CN113671909A (zh) | 一种钢铁工控设备安全监测系统和方法 | |
CN103023028A (zh) | 一种基于实体间依赖关系图的电网故障快速定位方法 | |
CN115118581A (zh) | 一种基于5g的物联网数据全链路监控和智能保障系统 | |
CN115529595A (zh) | 一种日志数据的异常检测方法、装置、设备及介质 | |
CN102982037A (zh) | 检测数据库节点健康状况的方法及装置 | |
CN118133952A (zh) | 批量系统的事件影响性确定方法、装置、设备和存储介质 | |
CN113420935A (zh) | 故障定位方法、装置、设备和介质 | |
CN117608904A (zh) | 一种故障定位方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190917 |