CN109684179A - 系统故障的预警方法、装置、设备及存储介质 - Google Patents

系统故障的预警方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109684179A
CN109684179A CN201811023379.2A CN201811023379A CN109684179A CN 109684179 A CN109684179 A CN 109684179A CN 201811023379 A CN201811023379 A CN 201811023379A CN 109684179 A CN109684179 A CN 109684179A
Authority
CN
China
Prior art keywords
parameter
monitored
early warning
anomaly
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811023379.2A
Other languages
English (en)
Other versions
CN109684179B (zh
Inventor
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811023379.2A priority Critical patent/CN109684179B/zh
Priority to PCT/CN2018/122807 priority patent/WO2020048047A1/zh
Publication of CN109684179A publication Critical patent/CN109684179A/zh
Application granted granted Critical
Publication of CN109684179B publication Critical patent/CN109684179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种系统故障的预警方法、装置、设备及计算机可读存储介质,即根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。本发明可将系统的核心指标数据设置为待监控参数,根据预设时间单位对核心监控数据进行实时监控,以便能够及时检测发生异常的核心监控数据,从而对即将发生异常的系统数据进行预警,实现在异常即将发生时进行提前预警,提升系统工作效率。

Description

系统故障的预警方法、装置、设备及存储介质
技术领域
本发明涉及计算机通信领域,尤其涉及一种系统故障的预警方法、装置、设备及计算机可读存储介质。
背景技术
系统故障是指系统不能完成规定功能,或性能退化不满足规定要求的状态。在现有的很多应用系统中,例如数据中心系统,通信系统,卫星系统,车载系统等中,故障都有可能发生。因此,故障预测成为提供系统可靠性的有效方式之一。现有故障告警方式只能在故障发生后,即系统参数超过设定阈值时,才会进行告警,从而给出故障提示信息,以便于运维人员通过人工干预的方式采取相应措施以解决故障,例如迁移故障节点、更换故障节点等。但是,在系统参数已经超过设定阈值时,系统异常问题已经发生,所以现有故障预测方式并不能达到提前预警的目的。
因此,如何解决现有预测技术需要人工核查且不能进行提前预警的问题,成为了目前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种系统故障的预警方法、装置、设备及计算机可读存储介质,旨在解决现有故障预测技术需要人工核查且不能进行提前预警的技术问题。
为实现上述目的,本发明提供一种系统故障的预警方法,所述系统故障的预警方法包括以下步骤:
根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;
获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;
若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。
可选地,所述获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数的步骤包括:
根据所述预设监控模型,获取所述目标系统在所述当前时间单位对应的当前待监控标准参数,作为标准参数;
判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
可选地,所述获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数的步骤包括:
根据所述预设监控模型,获取所述目标系统在其他时间单位对应的其他待监控标准参数,作为标准参数;
判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
可选地,所述根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数的步骤之前,还包括:
获取所述目标系统的历史系统数据,根据预设的时间单位,统计所述历史系统数据中各个时间单位的待监控参数,其中,所述待监控参数包括内存参数、应用参数和业务参数;
将所述待监控参数中的异常监控参数和正常监控参数进行分类存储,并根据异常监控参数和正常监控参数训练生成所述预设监控模型。
可选地,所述若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息的步骤之后,还包括:
根据所述异常参数,在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理;
获取异常处理结果,并将所述异常处理结果反馈至管理端。
可选地,所述若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息的步骤之后,还包括:
获取所述当前时间单位之后若干个时间单位对应的待监控参数;
根据所述预设监控模型中所述若干个时间单位对应的标准参数,判断所述若干个时间单位对应的待监控参数是否持续异常;
若所述若干个时间单位对应的待监控参数持续异常,则根据持续异常的异常参数生成紧急预警消息,并将所述紧急预警消息发送至管理端。
可选地,所述根据所述预设监控模型中所述若干个时间单位对应的标准参数,判断所述若干个时间单位对应的待监控参数是否持续异常的步骤之后,还包括:
若所述若干个时间单位对应的待监控参数不是持续异常,则根据存在的异常参数在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理。
此外,为实现上述目的,本发明还提供一种系统故障的预警装置,其特征在于,所述系统故障的预警装置包括:
参数获取模块,用于根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;
参数监控模块,用于获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;
异常预警模块,用于若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。
此外,为实现上述目的,本发明还提供一种系统故障的预警设备,所述系统故障的预警设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的系统故障的预警程序,其中所述系统故障的预警程序被所述处理器执行时,实现如上述的系统故障的预警方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有系统故障的预警程序,其中所述系统故障的预警程序被处理器执行时,实现如上述的系统故障的预警方法的步骤。
本发明提供一种系统故障的预警方法,即根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。通过上述方式,本发明可将系统的核心指标数据设置为待监控参数,如内存参数、应用参数以及业务参数,根据预设时间单位对核心监控数据进行实时监控,以便能够及时检测发生异常的核心监控数据,从而对即将发生异常的系统数据进行预警,实现在异常即将发生时提前进行预警,提升系统工作效率。
附图说明
图1为本发明实施例方案中涉及的系统故障的预警设备的硬件结构示意图;
图2为本发明系统故障的预警方法第一实施例的流程示意图;
图3为本发明系统故障的预警方法第二实施例的流程示意图;
图4为本发明系统故障的预警方法第三实施例的流程示意图;
图5为本发明系统故障的预警装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的系统故障的预警方法主要应用于系统故障的预警设备,该系统故障的预警设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的系统故障的预警设备的硬件结构示意图。本发明实施例中,系统故障的预警设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对系统故障的预警设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及系统故障的预警程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的系统故障的预警程序,并执行本发明实施例提供的系统故障的预警方法。
本发明实施例提供了一种系统故障的预警方法。
参照图2,图2为本发明系统故障的预警方法第一实施例的流程示意图。
本实施例中,所述系统故障的预警方法包括以下步骤:
步骤S10,根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;
目前,故障预测方法通常是基于规则的预测技术,即是通过采集系统运行信息,并与预警规则进行匹配,若存在与系统运行信息匹配的预设规则,如检测到系统参数在大于某一阈值,说明系统已经出现故障,从而给出故障提示信息,以便于运维人员通过人工干预的方式采取相应措施以解决故障,例如迁移故障节点、更换故障节点等。但是,在检测到系统参数在大于某一阈值后,即表示当前已经发生了系统故障,因此不能及时对故障作出预警,达不到预警效果。因此,如何解决现有预测技术预警不及时的问题,成为了目前亟待解决的技术问题。
本实施例中,为了解决上述问题,提供一种系统故障的预警方法,通过对系统的核心指标数据,如内存参数、应用参数以及业务参数,进行实时监控,以便能够及时对即将发生异常的系统数据进行预警。具体地,采集目标系统的历史系统数据,该历史系统数据可以是目标系统一年或者更长时间的相关历史数据,可以包括:内存参数,如CPU、内存占用数据、磁盘空间数据等,应用参数,如线程数、请求数、日志数量等,以及业务参数,如在线用户数量、事务数以及上传图片数量等。将所述历史系统数据中的各个参数按照预设的时间单位进行统计,预设的时间单位指的是以预先设置的一个时间段作为一个时间单位,该预设的时间单位可以是1分钟、5分钟或者是10分钟等时间集。例如,从00:00开始,00:00-00:01为一时间段,或者00:00-00:05为一时间段。若当前时间为12:02,则当前时间单位为12:00-12:05。具体实施例中,还可以将历史系统数据中的各个参数对应存储至一时序数据库,将上述参数量化并生成一个二维表。其中,二维表的横轴为各个系统参数(CPU,内存占用数据,磁盘空间数据,线程数,请求数,日志数量…),纵轴为每个独立的时间片段(1分钟或者5分钟为一个时间片),二维表中存放每个系统参数在各个时间片段的系统参数数据。将各个系统参数数据进行状态标注,如是否异常,具体可将异常系统参数数据添加异常标识。分别将异常系统参数以及非异常系统参数进行归一化处理,然后根据随机森林算法、处理后的异常系统参数和非异常系统参数对预设监控模型进行训练,从而通过该预设监控模型实现系统参数异常的自动识别。具体实施例中,可将系统异常对应的系统参数变化进行归纳,如网络延迟异常,即当网络开始发生延迟但没有中断时,会导致业务系统的业务量(减少)、异常日志量(增加)、应用线程(增加)等系统参数变化。如内存占用异常,会导致CPU(占用率升高)、内存占用(增大)、磁盘空间占比(增加)等系统参数变化。
进一步地,所述步骤S10之前,还包括:
获取所述目标系统的历史系统数据,根据预设的时间单位,统计所述历史系统数据中各个时间单位的待监控参数,其中,所述待监控参数包括内存参数、应用参数和业务参数;
将所述待监控参数中的异常监控参数和正常监控参数进行分类存储,并根据异常监控参数和正常监控参数训练生成所述预设监控模型。
本实施例中,将历史系统数据中的各个参数对应存储至一时序数据库,将上述参数量化并生成一个二维表。其中,二维表的横轴为各个系统参数(CPU,内存占用数据,磁盘空间数据,线程数,请求数,日志数量…),纵轴为每个独立的时间单位(1分钟或者5分钟为一个时间片),二维表中存放每个系统参数在各个时间片段的系统参数数据。将各个系统参数数据进行状态标注,如是否异常,具体可将异常系统参数数据添加异常标识。分别将异常系统参数以及非异常系统参数进行归一化处理,然后根据随机森林算法、处理后的异常系统参数和非异常系统参数对预设监控模型进行训练,从而通过该预设监控模型实现系统参数异常的自动识别。
步骤S20,获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;
本实施例中,按照上述的预设时间单位,获取当前时间段所述目标系统的当前待监控参数。通过所述预设监控模型,获取所述当前时间段所关联的异常待监控数据以及非异常待监控数据,并将所述当前待监控参数分别与所述异常待监控数据、非异常待监控数据进行比较判断,判断所述当前待监控参数是否异常。具体实施例中,可从横向和纵向两方面进行系统参数的异常监控。横向可以为将各个时间片段对应的待监控参数进行比较,判断是否有异常波动的系统参数。如当网络开始发生延迟但没有中断时,会导致业务系统的业务量(减少)、异常日志量(增加)、应用线程(增加)等系统参数发生异常变化。但是在现有技术中由于上述参数变化并未达到预设变化阈值,因此难以触发告警信息。具体实施例中,若监测到所述系统参数的异常变化符合某一预存异常情况时,将各个异常参数以及对应的标准数据推送至管理端,以便进行异常确认。纵向为将当前时间片段的当前待监控参数与对应时间片段的标准待监控参数进行比对。
步骤S30,若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。
本实施例中,若横向对比数据时发现异常,即判定所述当前待监控参数发生异常波动,或者是纵向对比数据时发生异常,即判定所述当前待监控参数与标准参数存在偏差。可提取出所述当前待监控参数中的异常参数,如减少的业务量、增加的异常系统日志以及增加的应用线程数量,并根据对应的标准参数(可以为标准参数范围),生成预警提醒消息,并将所述预警消息发送至管理端,以便对应的管理人员进行异常确认,以提前对即将发生的系统故障进行处理。
进一步地,所述步骤S30之后,还包括:
根据所述异常参数,在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理;
获取异常处理结果,并将所述异常处理结果反馈至管理端。
本实施例中,可以将一些常用的异常处理策略与异常参数进行关联,并存储至预设策略库中。如针对内存占用异常的异常参数时,即CPU(占用率升高)、内存占用(增大)、磁盘空间占比(增加),可将关闭后台运行的程序,减小内存占用作为对应关联存储的目标修改策略等。在进行异常处理后,获取异常处理后原异常参数对应的监控参数,并将监控参数反馈至管理端,以便管理员判断异常情况是否被解决。
本实施例提供一种系统故障的预警方法,即根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。通过上述方式,本发明可将系统的核心指标数据设置为待监控参数,如内存参数、应用参数以及业务参数,根据预设时间单位对核心监控数据进行实时监控,以便能够及时检测发生异常的核心监控数据,从而对即将发生异常的系统数据进行预警,实现在异常即将发生时进行提前预警,提升系统工作效率。
参照图3,图3为本发明系统故障的预警方法第二实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述步骤S20包括:
步骤S21,根据所述预设监控模型,获取所述目标系统在所述当前时间单位对应的当前待监控标准参数,作为标准参数;
步骤S22,判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
本实施例中,在预设监控模型中设置有每个时间单位对应的预设标准参数,即将各个事件单位的待监控参数进行纵向对比,即将所述当前监控参数与对应的预设标准参数进行对比。若某个时间单位的待监控参数与预设标准参数差异较大,则该时间单位对应的待监控参数可能发生异常,需要进行对应的异常处理或者是从该时间单位开始进行异常参数的持续监控,进一步确认是否持续异常。
进一步地,本实施例中,所述步骤S20还包括:
步骤S23,根据所述预设监控模型,获取所述目标系统在其他时间单位对应的其他待监控标准参数,作为标准参数;
步骤S24,判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
本实施例中,系统在正常运行情况下,各个时间单位对应的待监控参数应处于同一范围标准内。将所述目标系统的当前待监控参数与其他时间单位对应的其他待监控参数进行横向对比。其中,所述其他时间单位是指非当前时间单位,可以是若干个时间单位。即与前后预设个时间单位对应的待监控参数进行对比,若某个时间单位的待监控参数与前后预设个时间单位对应的待监控参数差异较大,则该时间单位对应的待监控参数可能发生异常,需要进行对应的异常处理或者是从该时间单位开始进行异常参数的持续监控,进一步确认是否持续异常。
参照图4,图4为本发明系统故障的预警方法第三实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述步骤S30之后,还包括:
步骤S31,获取所述当前时间单位之后若干个时间单位对应的待监控参数;
步骤S32,根据所述预设监控模型中所述若干个时间单位对应的标准参数,判断所述若干个时间单位对应的待监控参数是否持续异常;
步骤S33,若所述若干个时间单位对应的待监控参数持续异常,则根据持续异常的异常参数生成紧急预警消息,并将所述紧急预警消息发送至管理端。
步骤S34,若所述若干个时间单位对应的待监控参数不是持续异常,则根据存在的异常参数在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理。
本实施例中,为了避免系统产生暂时性异常问题,可在监测到异常参数后,进一步对该时间单位后的预设个时间单位对应的待监控参数进行监控。其中,暂时性异常问题为系统可自行调整的异常问题,或者可根据预设策略库即可解决的异常问题。具体地,在检测到当前待监控参数存在异常参数时,可针对所述异常参数对应的核心指标数据进行持续性监测。获取所述当前时间单位之后预设个时间单位对应的待监控参数,其中,预设个可以是一个、三个或者五个等,可以是对系统核心指标对应的参数进行持续监控,也可以是针对异常参数对应的待监控指标进行持续监控。其中,判断若干个时间单位对应的待监控参数是否持续异常的判断过程是将若干个时间单位中的标准参数和待监控参数按照相同的时间单位一一对应判断的。如将当前时间单位12:00-12:05的待监控参数与模型中12:00-12:05时间单位对应的标准参数进行比对,将下个时间单位的12:05-12:10对应的待监控参数与模型中12:05-12:10时间单位对应的标准参数进行比对,以此类推。即在检测到当前时间单位的某个待监控指标发生异常时,可对该待监控指标进行持续监控,判断是否持续异常。或者对整个系统的核心监控数据,即待监控参数,进行持续监控,并获取所述预设监控模型中所述若干个时间单位对应的标准参数,根据所述若干个时间单位对应的标准参数,判断所述待监控参数是否持续存在异常参数情况。若持续异常,则生成紧急预警,以便管理员及时进行异常处理,避免发生系统故障。若未发生持续异常,即系统当前的异常为暂时性异常,系统可自行调整,可根据该异常参数进行目标修复策略查找,从而自动进行异常处理。
此外,本发明实施例还提供一种系统故障的预警装置。
参照图5,图5为本发明系统故障的预警装置第一实施例的功能模块示意图。
本实施例中,所述系统故障的预警装置包括:
参数获取模块10,用于根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;
参数监控模块20,用于获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;
异常预警模块30,用于若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。
进一步地,所述系统故障的预警装置还包括:
参数统计模块,用于获取所述目标系统的历史系统数据,根据预设的时间单位,统计所述历史系统数据中各个时间单位的待监控参数,其中,所述待监控参数包括内存参数、应用参数和业务参数;
模型建立模块,用于将所述待监控参数中的异常监控参数和正常监控参数进行分类存储,并根据异常监控参数和正常监控参数训练生成所述预设监控模型。
进一步地,所述系统故障的预警装置还包括:
异常修复模块,用于根据所述异常参数,在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理;
结果反馈模块,用于获取异常处理结果,并将所述异常处理结果反馈至管理端。
进一步地,所述参数监控模块20包括:
参数第一获取单元,用于根据所述预设监控模型,获取所述目标系统在所述当前时间单位对应的预设标准参数,作为标准参数;
参数第一判断单元,用于判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
参数第二获取单元,用于根据所述预设监控模型,获取所述目标系统在其他时间单位对应的其他待监控标准参数,作为标准参数;
参数第二判断单元,用于判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
进一步地,所述异常预警模块30还包括:
参数第三获取单元,用于若判定所述当前待监控参数存在所述异常参数,则获取所述当前时间单位之后若干个时间单位对应的待监控参数;
参数第三判断单元,用于根据所述预设监控模型中所述若干个时间单位对应的标准参数,判断所述若干个时间单位对应的待监控参数是否持续异常;
紧急预警单元,用于若所述若干个时间单位对应的待监控参数持续异常,则根据持续异常的异常参数生成紧急预警消息,并将所述紧急预警消息发送至管理端。
异常修复单元,用于若所述若干个时间单位对应的待监控参数不是持续异常,则根据存在的异常参数在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理。
其中,上述系统故障的预警装置中各个模块与上述系统故障的预警方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有系统故障的预警程序,其中所述系统故障的预警程序被处理器执行时,实现如上述的系统故障的预警方法的步骤。
其中,系统故障的预警程序被执行时所实现的方法可参照本发明系统故障的预警方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种系统故障的预警方法,其特征在于,所述系统故障的预警方法包括以下步骤:
根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;
获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;
若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。
2.如权利要求1所述的系统故障的预警方法,其特征在于,所述获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数的步骤包括:
根据所述预设监控模型,获取所述目标系统在所述当前时间单位对应的当前待监控标准参数,作为标准参数;
判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
3.如权利要求1所述的系统故障的预警方法,其特征在于,所述获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数的步骤包括:
根据所述预设监控模型,获取所述目标系统在其他时间单位对应的其他待监控标准参数,作为标准参数;
判断所述当前待监控参数中是否存在与所述标准参数不匹配的异常参数。
4.如权利要求1所述的系统故障的预警方法,其特征在于,所述根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数的步骤之前,还包括:
获取所述目标系统的历史系统数据,根据预设的时间单位,统计所述历史系统数据中各个时间单位的待监控参数,其中,所述待监控参数包括内存参数、应用参数和业务参数;
将所述待监控参数中的异常监控参数和正常监控参数进行分类存储,并根据异常监控参数和正常监控参数训练生成所述预设监控模型。
5.如权利要求1所述的系统故障的预警方法,其特征在于,所述若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息的步骤之后,还包括:
根据所述异常参数,在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理;
获取异常处理结果,并将所述异常处理结果反馈至管理端。
6.如权利要求1至5中任一项所述的系统故障的预警方法,其特征在于,所述若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息的步骤之后,还包括:
获取所述当前时间单位之后若干个时间单位对应的待监控参数;
根据所述预设监控模型中所述若干个时间单位对应的标准参数,判断所述若干个时间单位对应的待监控参数是否持续异常;
若所述若干个时间单位对应的待监控参数持续异常,则根据持续异常的异常参数生成紧急预警消息,并将所述紧急预警消息发送至管理端。
7.如权利要求6所述的系统故障的预警方法,其特征在于,所述根据所述预设监控模型中所述若干个时间单位对应的标准参数,判断所述若干个时间单位对应的待监控参数是否持续异常的步骤之后,还包括:
若所述若干个时间单位对应的待监控参数不是持续异常,则根据存在的异常参数在预设策略库中查找对应的目标修复策略,并根据所述目标修复策略进行异常处理。
8.一种系统故障的预警装置,其特征在于,所述系统故障的预警装置包括:
参数获取模块,用于根据预设的时间单位,获取目标系统在当前时间单位的当前待监控参数;
参数监控模块,用于获取预设监控模型中的标准参数,并根据所述标准参数判断所述当前待监控参数是否存在异常参数;
异常预警模块,用于若判定所述当前待监控参数存在所述异常参数,则根据所述当前待监控参数中的异常参数以及所述标准参数生成预警消息,并上报所述预警消息。
9.一种系统故障的预警设备,其特征在于,所述系统故障的预警设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的系统故障的预警程序,其中所述系统故障的预警程序被所述处理器执行时,实现如权利要求1至7中任一项所述的系统故障的预警方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有系统故障的预警程序,其中所述系统故障的预警程序被处理器执行时,实现如权利要求1至7中任一项所述的系统故障的预警方法的步骤。
CN201811023379.2A 2018-09-03 2018-09-03 系统故障的预警方法、装置、设备及存储介质 Active CN109684179B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811023379.2A CN109684179B (zh) 2018-09-03 2018-09-03 系统故障的预警方法、装置、设备及存储介质
PCT/CN2018/122807 WO2020048047A1 (zh) 2018-09-03 2018-12-21 系统故障的预警方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811023379.2A CN109684179B (zh) 2018-09-03 2018-09-03 系统故障的预警方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109684179A true CN109684179A (zh) 2019-04-26
CN109684179B CN109684179B (zh) 2022-05-17

Family

ID=66185650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811023379.2A Active CN109684179B (zh) 2018-09-03 2018-09-03 系统故障的预警方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN109684179B (zh)
WO (1) WO2020048047A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110221776A (zh) * 2019-05-10 2019-09-10 苏州汇川技术有限公司 异常信息处理方法、系统、装置即计算机可读存储介质
CN110458713A (zh) * 2019-07-05 2019-11-15 中国平安人寿保险股份有限公司 模型监控方法、装置、计算机设备及存储介质
CN110704225A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 监控方法、装置、电子设备及计算机可读存储介质
CN111078446A (zh) * 2019-11-22 2020-04-28 北京达佳互联信息技术有限公司 一种故障信息获取方法、装置、电子设备及存储介质
CN111751724A (zh) * 2020-06-24 2020-10-09 湖北文理学院 电机应用的工况信息监控方法、装置及可读存储介质
CN111782462A (zh) * 2020-06-13 2020-10-16 华青融天(北京)软件股份有限公司 告警方法、装置和电子设备
CN112036581A (zh) * 2019-05-15 2020-12-04 上海杰之能软件科技有限公司 交通工具空调系统的性能检测方法及装置、存储介质、终端
CN112529575A (zh) * 2020-12-14 2021-03-19 深圳市快付通金融网络科技服务有限公司 风险预警方法、设备、存储介质及装置
CN113438113A (zh) * 2021-06-25 2021-09-24 树根互联股份有限公司 基于物联网的设备运行异常的监测维护方法及系统
CN114035555A (zh) * 2021-11-19 2022-02-11 武汉润致新电子科技有限公司 一种plc控制器故障检测系统
CN114237087A (zh) * 2021-11-09 2022-03-25 深圳市移动力量科技有限公司 监控系统预警方法、装置及计算机可读存储介质
CN114513441A (zh) * 2022-04-15 2022-05-17 北京优特捷信息技术有限公司 基于区块链的系统维护方法、装置、设备及存储介质

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414308B (zh) * 2020-03-26 2023-08-22 抖音视界有限公司 应用程序包的处理方法和应用程序的运行方法、装置
CN113721557B (zh) * 2020-05-25 2022-12-20 中国石油化工股份有限公司 基于关联参数的石化装置运行工艺参数监测方法及装置
CN113886213B (zh) * 2020-06-29 2024-06-18 腾讯科技(深圳)有限公司 程序数据处理方法、装置、计算机可读存储介质及设备
CN113948145B (zh) * 2020-07-17 2024-05-14 长鑫存储技术有限公司 封装芯片的测试方法、系统、计算机设备和存储介质
CN111831514A (zh) * 2020-07-21 2020-10-27 深信服科技股份有限公司 一种设备监控方法、装置、设备及存储介质
CN112000582A (zh) * 2020-08-31 2020-11-27 深圳市奇虎智能科技有限公司 服务端自动化测试预警方法、装置、设备及存储介质
CN114627627A (zh) * 2020-12-14 2022-06-14 深圳Tcl新技术有限公司 设备异常处理方法、装置、终端及计算机可读存储介质
CN112764985B (zh) * 2020-12-30 2024-05-17 中国人寿保险股份有限公司上海数据中心 一种数据中心系统智能监控方法
CN113190416A (zh) * 2021-05-27 2021-07-30 中国工商银行股份有限公司 数据库执行计划的预警方法、装置、电子设备和存储介质
CN113608952B (zh) * 2021-06-18 2024-02-27 云南昆钢电子信息科技有限公司 一种基于日志构建支持环境的系统故障处理方法及系统
CN113688014B (zh) * 2021-07-30 2024-02-09 济南浪潮数据技术有限公司 一种srdc整机柜的告警处理方法、装置、设备及介质
CN113849333B (zh) * 2021-09-26 2023-07-14 中国地质大学(武汉) 一种基于WN-Spline基线域算法的数据中心自驱排障方法及系统
CN114385435A (zh) * 2021-12-01 2022-04-22 山东有人物联网股份有限公司 一种程序运维监控方法、装置及计算机可读存储介质
CN114244681B (zh) * 2021-12-21 2023-08-01 深圳Tcl新技术有限公司 设备连接故障预警方法、装置、存储介质及电子设备
CN114675754A (zh) * 2022-01-27 2022-06-28 浪潮(山东)计算机科技有限公司 一种鼠标控制方法、装置、设备及存储介质
CN114429311B (zh) * 2022-02-17 2023-04-07 广州志橙半导体有限公司 一种用于半导体制造流程的动态监控方法及系统
CN115271685B (zh) * 2022-09-27 2023-04-18 卡斯柯信号(北京)有限公司 一种用于铁路行业高精度设备维修周期的监控方法及装置
CN115931416B (zh) * 2023-03-14 2023-06-13 枣庄市天工精密机械有限公司 一种基于数据分析的淋砂机故障检测系统
CN116502957A (zh) * 2023-05-12 2023-07-28 深圳普菲特信息科技股份有限公司 产品生产质量监控方法、系统和可读存储介质
CN116840600B (zh) * 2023-07-05 2024-01-16 河北久维电子科技有限公司 设备异常告警方法及变电站辅助系统综合监控联动平台
CN117639936B (zh) * 2023-12-12 2024-05-24 广西电网有限责任公司贵港供电局 一种基于ip光纤通信的传输方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126881A1 (en) * 2006-07-26 2008-05-29 Tilmann Bruckhaus Method and apparatus for using performance parameters to predict a computer system failure
CN106953766A (zh) * 2017-03-31 2017-07-14 北京奇艺世纪科技有限公司 一种报警方法及装置
CN107247649A (zh) * 2016-10-12 2017-10-13 北京奇虎科技有限公司 检测系统健康状况的方法、装置及网关
US20180039555A1 (en) * 2016-08-04 2018-02-08 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104811344B (zh) * 2014-01-23 2019-04-12 阿里巴巴集团控股有限公司 网络动态业务监控方法及装置
CN105262634A (zh) * 2015-09-06 2016-01-20 浪潮集团有限公司 一种监控阈值的生成方法、装置和系统
CN105450454B (zh) * 2015-12-03 2018-11-23 广州华多网络科技有限公司 一种服务监控告警方法以及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126881A1 (en) * 2006-07-26 2008-05-29 Tilmann Bruckhaus Method and apparatus for using performance parameters to predict a computer system failure
US20180039555A1 (en) * 2016-08-04 2018-02-08 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
CN107247649A (zh) * 2016-10-12 2017-10-13 北京奇虎科技有限公司 检测系统健康状况的方法、装置及网关
CN106953766A (zh) * 2017-03-31 2017-07-14 北京奇艺世纪科技有限公司 一种报警方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110221776A (zh) * 2019-05-10 2019-09-10 苏州汇川技术有限公司 异常信息处理方法、系统、装置即计算机可读存储介质
CN112036581A (zh) * 2019-05-15 2020-12-04 上海杰之能软件科技有限公司 交通工具空调系统的性能检测方法及装置、存储介质、终端
CN112036581B (zh) * 2019-05-15 2024-03-26 上海杰之能软件科技有限公司 交通工具空调系统的性能检测方法及装置、存储介质、终端
CN110458713A (zh) * 2019-07-05 2019-11-15 中国平安人寿保险股份有限公司 模型监控方法、装置、计算机设备及存储介质
CN110458713B (zh) * 2019-07-05 2023-10-13 中国平安人寿保险股份有限公司 模型监控方法、装置、计算机设备及存储介质
CN110704225A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 监控方法、装置、电子设备及计算机可读存储介质
CN111078446B (zh) * 2019-11-22 2023-08-29 北京达佳互联信息技术有限公司 一种故障信息获取方法、装置、电子设备及存储介质
CN111078446A (zh) * 2019-11-22 2020-04-28 北京达佳互联信息技术有限公司 一种故障信息获取方法、装置、电子设备及存储介质
CN111782462A (zh) * 2020-06-13 2020-10-16 华青融天(北京)软件股份有限公司 告警方法、装置和电子设备
CN111782462B (zh) * 2020-06-13 2024-05-24 华青融天(北京)软件股份有限公司 告警方法、装置和电子设备
CN111751724A (zh) * 2020-06-24 2020-10-09 湖北文理学院 电机应用的工况信息监控方法、装置及可读存储介质
CN112529575B (zh) * 2020-12-14 2023-12-22 深圳市快付通金融网络科技服务有限公司 风险预警方法、设备、存储介质及装置
CN112529575A (zh) * 2020-12-14 2021-03-19 深圳市快付通金融网络科技服务有限公司 风险预警方法、设备、存储介质及装置
CN113438113A (zh) * 2021-06-25 2021-09-24 树根互联股份有限公司 基于物联网的设备运行异常的监测维护方法及系统
CN114237087A (zh) * 2021-11-09 2022-03-25 深圳市移动力量科技有限公司 监控系统预警方法、装置及计算机可读存储介质
CN114035555A (zh) * 2021-11-19 2022-02-11 武汉润致新电子科技有限公司 一种plc控制器故障检测系统
CN114513441A (zh) * 2022-04-15 2022-05-17 北京优特捷信息技术有限公司 基于区块链的系统维护方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2020048047A1 (zh) 2020-03-12
CN109684179B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN109684179A (zh) 系统故障的预警方法、装置、设备及存储介质
US9613523B2 (en) Integrated hazard risk management and mitigation system
US8606913B2 (en) Method for adaptively building a baseline behavior model
CN111860900A (zh) 基于bim的数字孪生智慧机房管理方法、装置、设备及介质
US7117119B2 (en) System and method for continuous online safety and reliability monitoring
US7133727B2 (en) System and method for continuous online safety and reliability monitoring
CN109688188A (zh) 监控告警方法、装置、设备及计算机可读存储介质
JP2006343952A (ja) 製造管理装置、製造管理方法および製造管理プログラム
CN105956151A (zh) 基于预案的辅助决策方法、尾矿库监测方法及系统
CN114168444B (zh) 一种基于监控大数据的动态运维报修方法
CN104267346A (zh) 一种发电机励磁系统故障远程诊断方法
CN110275795A (zh) 一种基于告警的运维方法及装置
JP2019008412A (ja) プラント支援評価システム及びプラント支援評価方法
US20220327908A1 (en) Systems and methods for analyzing alarms to address electrical system issues
CN109240243A (zh) 一种产量监控方法、装置、系统、计算机设备和存储介质
CN113610338A (zh) 轨道交通信号系统安全风险评价和风险预警方法及装置
KR20220168849A (ko) 정보통신 설비 점검 시스템 및 방법
RU2549514C2 (ru) Система прогнозирования и оценки безопасности опасного производственного объекта с использованием комплексной модели обеспечения безопасности
KR20140082867A (ko) 원자력 발전소 정비효과 감시 시스템 및 방법
JP2005071136A (ja) 納期管理支援システム、そのプログラム、そのプログラムを記録した記録媒体および製品の納期管理方法
Hayasaka et al. Method for detection of lot defects for maintenance of ICT power supplies and air conditioning equipment and verification results
CN112860803B (zh) 一种对账校验的方法、装置、设备及可读存储介质
CN115907682A (zh) 一种公共建筑智能管理方法、装置、电子设备及存储介质
CN117182447A (zh) 激光设备的修复方法、激光设备修复装置及存储介质
CN117461013A (zh) 用于分析警报以表征电气系统问题的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant