CN111176876B - 一种故障恢复确定方法、装置、设备及可读存储介质 - Google Patents

一种故障恢复确定方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111176876B
CN111176876B CN201911379353.6A CN201911379353A CN111176876B CN 111176876 B CN111176876 B CN 111176876B CN 201911379353 A CN201911379353 A CN 201911379353A CN 111176876 B CN111176876 B CN 111176876B
Authority
CN
China
Prior art keywords
state
recovery
alarm
data
target monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911379353.6A
Other languages
English (en)
Other versions
CN111176876A (zh
Inventor
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Big Data Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Big Data Research Co Ltd filed Critical Guangdong Inspur Big Data Research Co Ltd
Priority to CN201911379353.6A priority Critical patent/CN111176876B/zh
Publication of CN111176876A publication Critical patent/CN111176876A/zh
Application granted granted Critical
Publication of CN111176876B publication Critical patent/CN111176876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障恢复确定方法、装置、设备及可读存储介质,该方法包括以下步骤:对周期性采集得到的监控数据进行分析,获得分析数据;利用分析数据,确定目标监控项的当前状态;其中,当前状态为告警状态、恢复状态或正常状态;当目标监控项的自恢复状态跃迁至正常状态时,生成并输出告警恢复信息。本方法可基于分析数据自动跟踪目标监控项的状态变化,并及时确定故障已恢复,并输出告警恢复信息,以避免系统不断的告警。在告警状态与正常状态之间还设置了一个暂态,钝化了故障恢复确定,可确保告警恢复信息的可靠性。

Description

一种故障恢复确定方法、装置、设备及可读存储介质
技术领域
本发明涉及监控技术领域,特别是涉及一种故障恢复确定方法、装置、设备及可读存储介质。
背景技术
目前,监控系统平台告警的故障恢复技术实现,对于平台监控项的软件硬件恢复正常,主要采用手动方式对监控项进行恢复设置,消除该监控项告警。此类技术实现局限于原有监控平台设计,主要是业务流程是告警信息的捕获输出,而忽略了对监控项故障的自动恢复,使得对监控告警指标的故障恢复处理,只能手动操作对监控项逐一恢复设置,或者重启监控告警装置。
这样,就造成了对平台已做故障修复的监控资源,监控系统无法感知,需要人工干预,就额外造成了大量繁琐的人工劳动量。同时手动恢复设置,还可能存在处理响应偏差,如:平台管理人员处理完故障,未能及时恢复监控项设置,这时平台会一直虚报该监控项告警。
综上所述,如何有效地解决如何确定消除故障告警等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种故障恢复确定方法、装置、设备及可读存储介质,以消除故障告警。
为解决上述技术问题,本发明提供如下技术方案:
一种故障恢复确定方法,包括:
对周期性采集得到的监控数据进行分析,获得分析数据;
利用所述分析数据,确定目标监控项的当前状态;其中,所述当前状态为告警状态、恢复状态或正常状态;
当所述目标监控项的自所述恢复状态跃迁至所述正常状态时,生成并输出告警恢复信息。
优选地,利用所述分析数据,确定目标监控项的当前状态,包括:
当所述分析数据为告警数据时,确定所述目标监控项处于所述告警状态。
优选地,利用所述分析数据,确定目标监控项的当前状态,包括:
在所述告警状态下,所述分析数据非告警数据时跃迁至所述恢复状态。
优选地,利用所述分析数据,确定目标监控项的当前状态,包括:
在所述恢复状态下,所述分析数据为非告警数据时,恢复计数加1;
判断所述恢复计数是否大于等于预设恢复时长系数;
如果是,则跃迁至所述正常状态;如果否,则保持所述恢复状态。
优选地,所述生成并输出告警恢复信息,包括:
生成并输出所述目标监控项的故障恢复信息至外围业务组件;所述故障恢复信息包括恢复项、状态和恢复时间。
优选地,所述生成并输出告警恢复信息,包括:
利用所述告警数据生成并输出所述告警恢复信息。
优选地,在所述对周期性采集得到的监控数据进行分析,获得分析数据之前,还包括:
若所述目标监控项已存在未上报处理的所述告警数据,则将所述目标监控项的当前状态预设为所述恢复状态。
一种故障恢复确定装置,包括:
告警数据生成模块,用于对周期性采集得到的监控数据进行分析,获得分析数据;
故障处理模块,用于利用所述分析数据,确定目标监控项的当前状态;其中,所述当前状态为告警状态、恢复状态或正常状态;
告警恢复确定模块,用于当所述目标监控项的自所述恢复状态跃迁至所述正常状态时,生成并输出告警恢复信息。
一种故障恢复确定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述故障恢复确定方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述故障恢复确定方法的步骤。
应用本发明实施例所提供的方法,对周期性采集得到的监控数据进行分析,获得分析数据;利用分析数据,确定目标监控项的当前状态;其中,当前状态为告警状态、恢复状态或正常状态;当目标监控项的自恢复状态跃迁至正常状态时,生成并输出告警恢复信息。
对周期性采集得到的监控数据进行分析,得到分析数据。然后基于分析数据确定目标监控项的当前状态。具体的,当前状态可为告警状态、恢复状态或正常状态。当目标监控子恢复状态跃迁至正常状态,即可确定目标监控项对应的故障已恢复,则可生成并输出告警恢复信息。相较于目前人工确定故障消除的方式,本方法可基于分析数据自动跟踪目标监控项的状态变化,并及时确定故障已恢复,并输出告警恢复信息,以避免系统不断的告警。且,在本方法中,在告警状态与正常状态之间还设置了一个暂态,钝化了故障恢复确定,可确保告警恢复信息的可靠性。
相应地,本发明实施例还提供了与上述故障恢复确定方法相对应的故障恢复确定装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种故障恢复确定方法的实施流程图;
图2为本发明实施例中一种状态跃迁示意图;
图3为本发明实施例中一种故障恢复确定装置的结构示意图;
图4为本发明实施例中一种故障恢复确定设备的结构示意图;
图5为本发明实施例中一种故障恢复确定设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参考图1,图1为本发明实施例中一种故障恢复确定方法的流程图,该方法包括以下步骤:
S101、对周期性采集得到的监控数据进行分析,获得分析数据。
在本实施例中,可周期性采集监控对象的监控数据,该监控数据可具体为集群下各个节点分别对应的电压、温度等常见监控项进行监控。获得监控数据之后,可对监控数据进行分析,得到分析数据。
其中,分析数据可具体为告警数据和非告警数据。告警数据可具体包括告警监控项、告警状态和告警时间等与告警相关的数据;非告警数据可具体为与告警无关的数据,如设备性能分析数据,当前服务状态数据等。
在本实施例中,可具体结合告警规则、告警处理程序等对监控数据进行分析获得分析数据。对于具体如何获得分析数据,可参见现有的监控数据分析过程,在此不再一一赘述。特别地,对于一个采集周期,分析数据中可仅有告警数据,或仅有非告警数据,也可既包括告警数据和非告警数据。在本实施例中,每一个告警数据可具体对应一个监控项。
需要说明的是,在本实施例主要针对故障恢复的确认,即具体如何确定故障恢复(即生成并输入故障恢复信息),以便确定故障已恢复。对于已出现的故障本身的恢复处理并不做限定,也就是说当前出现故障时,可人工对故障进行处理,也可通过预设自动恢复流程对故障进行自动化恢复。
S102、利用分析数据,确定目标监控项的当前状态。
其中,当前状态为告警状态、恢复状态或正常状态。
其中,目标监控项即监控的任意一个监控项,或者说,在本实施例中,对于需要监控的每一个监控项都可采用针对目标监控项的处理方式进行处理。
在本实施例中,可利用分析数据对每一个目标监控项的当前状态进行监控。具体的,目标监控项的当前状态可具体为告警状态、恢复状态或正常状态。其中,告警状态即为存在故障的状态,恢复状态即为故障恢复处理阶段对应状态,正常状态即目标监控项无故障也未进行故障恢复的状态。
在本实施例中,可预先设置目标监控项的各个状态之间的跃迁规则,即设置相应的状态机结构体。特别地,正常状态的下一状态可为告警状态或正常状态,正常状态的上一状态可为正常状态或恢复状态;告警状态的下一状态可为恢复状态,告警状态的上一状态可为正常状态、恢复状态或告警状态;恢复状态的下一状态可为正常状态和告警状态,恢复状态或恢复状态,恢复状态的上一状态可为告警状态和恢复状态。
下面结合图2,对如何利用分析数据,确定目标监控项的当前状态,进行详细说明。
1、告警状态确定方式:当分析数据为告警数据时,确定目标监控项处于告警状态。此处描述的告警数据即为目标监控项对应的告警数据。或者说,当目标监控项对应的分析数据为告警数据时,则确定目标监控项处于告警状态。特别地,在本实施例中,一旦分析数据为告警数据,无论目标监控当前处于何种状态,均可将当前状态确定为告警状态。
2、恢复状态确定方式:在告警状态下,分析数据非告警数据时跃迁至恢复状态。即,目标监控项在告警状态下,当分析数据确定目标监控项对应的是非告警数据,即可确定目标监控项当前不属于告警状态。为了避免出现偶然性,在分析数据非告警数据时,可将当前对应的告警状态跃迁至恢复状态。也就是说,告警状态至恢复状态进行跃迁的条件为在告警状态下,对应的分析属于非告警数据。
3、恢复状态跃迁变化方式:具体实现过程,包括:
步骤一、在恢复状态下,分析数据为非告警数据时,恢复计数加1;
步骤二、判断恢复计数是否大于等于预设恢复时长系数;
步骤三、如果是,则跃迁至正常状态。
步骤四、如果否,则保持恢复状态。
也就是说,当目标监控项的当前状态为恢复状态时,当分析数据非告警状态时,可对恢复计数进行加1。由于监控数据是周期性采集的,因此分析数据也是周期性分析获得的,在本实施例中,在恢复状态下吗,可对分析数据具体为非告警数据的次数进行统计,已确定是否将目标监控项的当前状态从恢复状态跃迁至正常状态,即确定目标监控项的故障是否已恢复。其中恢复时长系统可预先设置,例如可设置为10,即在10个周期内,分析数据均为非故障数据,此时可确系目标监控项的故障已恢复。特别地,由于监控数据是周期性采集的,因此恢复计数本身与恢复时长具有对应关系,因此,在本实施例中还可基于故障恢复所需耗时设置该恢复时长系数。例如,监控数据的采集周期为5分钟一次,但目标监控项对应的故障至少需要30个分钟的处理过程才能恢复,因此可设置恢复时长系数为6。
当恢复计数大于等于恢复时长系数时,则可确定目标监控项对应的故障已处理/排除,此时将目标监控项的当前状态从恢复状态跃迁至正常状态。若恢复计数小于等于恢复时长系数,则可将目标监控项的当前状态在恢复状态进行自转,即继续保持恢复状态。当然,在恢复状态下,一旦出现故障数据,则可直接将恢复状态跃迁至告警状态。
优选地,在对周期性采集得到的监控数据进行分析,获得分析数据之前,若目标监控项已存在未上报处理的告警数据,则将目标监控项的当前状态预设为恢复状态。如此,便可针对未上报的告警进行故障恢复确定。
S103、当目标监控项的自恢复状态跃迁至正常状态时,生成并输出告警恢复信息。
其中,告警恢复信息即与告警数据对应的故障确认消除的信息。
优选地,可生成并输出目标监控项的故障恢复信息至外围业务组件;故障恢复信息包括恢复项、状态和恢复时间。其中,外围业务组件可具体为需要获知目标监控项的状态信息的业务组件。通过生成包括恢复项、状态和恢复时间的故障恢复信息并发送给外围业务组件,便可及时通知外围业务组件,目标监控项的故障已恢复。
其中,生成并输出告警恢复信息,可具体为利用告警数据生成并输出告警恢复信息。例如,将告警数据中的每一个数据对应的正常数据作为告警恢复信息中的数据。
应用本发明实施例所提供的方法,对周期性采集得到的监控数据进行分析,获得分析数据;利用分析数据,确定目标监控项的当前状态;其中,当前状态为告警状态、恢复状态或正常状态;当目标监控项的自恢复状态跃迁至正常状态时,生成并输出告警恢复信息。
对周期性采集得到的监控数据进行分析,得到分析数据。然后基于分析数据确定目标监控项的当前状态。具体的,当前状态可为告警状态、恢复状态或正常状态。当目标监控子恢复状态跃迁至正常状态,即可确定目标监控项对应的故障已恢复,则可生成并输出告警恢复信息。相较于目前人工确定故障消除的方式,本方法可基于分析数据自动跟踪目标监控项的状态变化,并及时确定故障已恢复,并输出告警恢复信息,以避免系统不断的告警。且,在本方法中,在告警状态与正常状态之间还设置了一个暂态,钝化了故障恢复确定,可确保告警恢复信息的可靠性。
实施例二:
相应于上面的方法实施例,本发明实施例还提供了一种故障恢复确定装置,下文描述的故障恢复确定装置与上文描述的故障恢复确定方法可相互对应参照。
参见图3所示,该装置包括以下模块:
告警数据生成模块101,用于对周期性采集得到的监控数据进行分析,获得分析数据;
故障处理模块102,用于利用分析数据,确定目标监控项的当前状态;其中,当前状态为告警状态、恢复状态或正常状态;
告警恢复确定模块103,用于当目标监控项的自恢复状态跃迁至正常状态时,生成并输出告警恢复信息。
应用本发明实施例所提供的装置,对周期性采集得到的监控数据进行分析,获得分析数据;利用分析数据,确定目标监控项的当前状态;其中,当前状态为告警状态、恢复状态或正常状态;当目标监控项的自恢复状态跃迁至正常状态时,生成并输出告警恢复信息。
对周期性采集得到的监控数据进行分析,得到分析数据。然后基于分析数据确定目标监控项的当前状态。具体的,当前状态可为告警状态、恢复状态或正常状态。当目标监控子恢复状态跃迁至正常状态,即可确定目标监控项对应的故障已恢复,则可生成并输出告警恢复信息。相较于目前人工确定故障消除的方式,本装置可基于分析数据自动跟踪目标监控项的状态变化,并及时确定故障已恢复,并输出告警恢复信息,以避免系统不断的告警。且,在本装置中,在告警状态与正常状态之间还设置了一个暂态,钝化了故障恢复确定,可确保告警恢复信息的可靠性。
在本发明的一种具体实施方式中,故障处理模块102,具体用于当分析数据为告警数据时,确定目标监控项处于告警状态。
在本发明的一种具体实施方式中,故障处理模块102,具体用于在告警状态下,分析数据非告警数据时跃迁至恢复状态。
在本发明的一种具体实施方式中,故障处理模块102,具体用于在恢复状态下,分析数据为非告警数据时,恢复计数加1;判断恢复计数是否大于等于预设恢复时长系数;如果是,则跃迁至正常状态;如果否,则保持恢复状态。
在本发明的一种具体实施方式中,告警恢复确定模块103,具体用于生成并输出目标监控项的故障恢复信息至外围业务组件;故障恢复信息包括恢复项、状态和恢复时间。
在本发明的一种具体实施方式中,告警恢复确定模块103,具体用于利用告警数据生成并输出告警恢复信息。
在本发明的一种具体实施方式中,还包括:
状态预设模块,用于在对周期性采集得到的监控数据进行分析,获得分析数据之前,若目标监控项已存在未上报处理的告警数据,则将目标监控项的当前状态预设为恢复状态。
实施例三:
相应于上面的方法实施例,本发明实施例还提供了一种故障恢复确定设备,下文描述的一种故障恢复确定设备与上文描述的一种故障恢复确定方法可相互对应参照。
参见图4所示,该故障恢复确定设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的故障恢复确定方法的步骤。
具体的,请参考图5,为本实施例提供的一种故障恢复确定设备的具体结构示意图,该故障恢复确定设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在故障恢复确定设备301上执行存储介质330中的一系列指令操作。
故障恢复确定设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
上文所描述的故障恢复确定方法中的步骤可以由故障恢复确定设备的结构实现。
实施例四:
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种故障恢复确定方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的故障恢复确定方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (4)

1.一种故障恢复确定方法,其特征在于,包括:
对周期性采集得到的监控数据进行分析,获得分析数据;
利用所述分析数据,确定目标监控项的当前状态;其中,所述当前状态为告警状态、恢复状态或正常状态;所述告警状态为存在故障的状态,所述恢复状态为故障恢复处理阶段对应状态,所述正常状态为目标监控项无故障也未进行故障恢复的状态;
当所述目标监控项自所述恢复状态跃迁至所述正常状态时,生成并输出告警恢复信息;
其中,利用所述分析数据,确定目标监控项的当前状态,包括:
当所述分析数据为告警数据时,确定所述目标监控项处于所述告警状态;
在所述告警状态下,所述分析数据为非告警数据时,跃迁至所述恢复状态;
在所述恢复状态下,所述分析数据为非告警数据时,恢复计数加1;
判断所述恢复计数是否大于等于预设恢复时长系数;所述恢复时长系数为故障恢复所需耗时与采集周期的比值;
如果是,则跃迁至所述正常状态;如果否,则保持所述恢复状态;
在所述恢复状态下,所述分析数据为告警数据时,确定当前状态为告警状态;
利用所述目标监控项的各个状态之间的跃迁规则,设置状态机结构体,基于所述状态机结构体实现状态跃迁;在所述状态机结构体中正常状态的下一状态为告警状态或正常状态,正常状态的上一状态为正常状态或恢复状态;告警状态的下一状态为恢复状态,告警状态的上一状态为正常状态、恢复状态或告警状态;恢复状态的下一状态为正常状态或告警状态,恢复状态的上一状态可为告警状态或恢复状态;
所述生成并输出告警恢复信息,包括:
生成并输出所述目标监控项的故障恢复信息至外围业务组件;所述故障恢复信息包括恢复项、状态和恢复时间;
利用所述告警数据生成并输出所述告警恢复信息;
在所述对周期性采集得到的监控数据进行分析,获得分析数据之前,还包括:
若所述目标监控项已存在未上报处理的所述告警数据,则将所述目标监控项的当前状态预设为所述恢复状态。
2.一种故障恢复确定装置,其特征在于,包括:
告警数据生成模块,用于对周期性采集得到的监控数据进行分析,获得分析数据;
故障处理模块,用于利用所述分析数据,确定目标监控项的当前状态;其中,所述当前状态为告警状态、恢复状态或正常状态;所述告警状态为存在故障的状态,所述恢复状态为故障恢复处理阶段对应状态,所述正常状态为目标监控项无故障也未进行故障恢复的状态;
告警恢复确定模块,用于当所述目标监控项自所述恢复状态跃迁至所述正常状态时,生成并输出告警恢复信息;
其中,故障处理模块,具体用于当所述分析数据为告警数据时,确定所述目标监控项处于所述告警状态;在所述告警状态下,所述分析数据为非告警数据时,跃迁至所述恢复状态;在所述恢复状态下,所述分析数据为非告警数据时,恢复计数加1;判断所述恢复计数是否大于等于预设恢复时长系数;所述恢复时长系数为故障恢复所需耗时与采集周期的比值;如果是,则跃迁至所述正常状态;如果否,则保持所述恢复状态;在所述恢复状态下,所述分析数据为告警数据时,确定当前状态为告警状态;
所述告警恢复确定模块,具体用于生成并输出所述目标监控项的故障恢复信息至外围业务组件;所述故障恢复信息包括恢复项、状态和恢复时间;
利用所述告警数据生成并输出所述告警恢复信息;
所述故障处理模块,还用于在所述对周期性采集得到的监控数据进行分析,获得分析数据之前,若所述目标监控项已存在未上报处理的所述告警数据,则将所述目标监控项的当前状态预设为所述恢复状态;
利用所述目标监控项的各个状态之间的跃迁规则,设置状态机结构体,基于所述状态机结构体实现状态跃迁;在所述状态机结构体中正常状态的下一状态为告警状态或正常状态,正常状态的上一状态为正常状态或恢复状态;告警状态的下一状态为恢复状态,告警状态的上一状态为正常状态、恢复状态或告警状态;恢复状态的下一状态为正常状态或告警状态,恢复状态的上一状态可为告警状态或恢复状态。
3.一种故障恢复确定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1所述故障恢复确定方法的步骤。
4.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述故障恢复确定方法的步骤。
CN201911379353.6A 2019-12-27 2019-12-27 一种故障恢复确定方法、装置、设备及可读存储介质 Active CN111176876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911379353.6A CN111176876B (zh) 2019-12-27 2019-12-27 一种故障恢复确定方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911379353.6A CN111176876B (zh) 2019-12-27 2019-12-27 一种故障恢复确定方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111176876A CN111176876A (zh) 2020-05-19
CN111176876B true CN111176876B (zh) 2024-04-16

Family

ID=70658281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911379353.6A Active CN111176876B (zh) 2019-12-27 2019-12-27 一种故障恢复确定方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111176876B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1585344A (zh) * 2004-06-12 2005-02-23 中兴通讯股份有限公司 一种振荡告警的处理方法
CN102075380A (zh) * 2010-12-16 2011-05-25 中兴通讯股份有限公司 一种服务器状态检测方法及装置
CN106713007A (zh) * 2016-11-15 2017-05-24 郑州云海信息技术有限公司 一种告警监控系统、用于服务器的告警监控方法及其装置
CN107122271A (zh) * 2017-04-13 2017-09-01 华为技术有限公司 一种恢复节点事件的方法、装置及系统
CN107465575A (zh) * 2017-08-17 2017-12-12 郑州云海信息技术有限公司 一种集群的监控方法及系统
CN109358578A (zh) * 2018-10-17 2019-02-19 北京弘浩千瑞科技有限公司 一种工作效率测试方法
CN109714213A (zh) * 2018-12-29 2019-05-03 上海携程商务有限公司 网站告警的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7770061B2 (en) * 2005-06-02 2010-08-03 Avaya Inc. Fault recovery in concurrent queue management systems
EP2701331B1 (en) * 2011-04-19 2017-03-01 Huawei Technologies Co., Ltd. Method for processing packet when server fails and router thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1585344A (zh) * 2004-06-12 2005-02-23 中兴通讯股份有限公司 一种振荡告警的处理方法
CN102075380A (zh) * 2010-12-16 2011-05-25 中兴通讯股份有限公司 一种服务器状态检测方法及装置
CN106713007A (zh) * 2016-11-15 2017-05-24 郑州云海信息技术有限公司 一种告警监控系统、用于服务器的告警监控方法及其装置
CN107122271A (zh) * 2017-04-13 2017-09-01 华为技术有限公司 一种恢复节点事件的方法、装置及系统
CN107465575A (zh) * 2017-08-17 2017-12-12 郑州云海信息技术有限公司 一种集群的监控方法及系统
CN109358578A (zh) * 2018-10-17 2019-02-19 北京弘浩千瑞科技有限公司 一种工作效率测试方法
CN109714213A (zh) * 2018-12-29 2019-05-03 上海携程商务有限公司 网站告警的方法及系统

Also Published As

Publication number Publication date
CN111176876A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN104778111A (zh) 一种进行报警的方法和装置
CN109088775B (zh) 异常监控方法、装置以及服务器
CA2614860A1 (en) System and method for detecting imbalances in dynamic workload scheduling in clustered environments
CN111459770A (zh) 服务器运行状态的告警方法、装置、服务器及存储介质
US9933772B2 (en) Analyzing SCADA systems
US20180196402A1 (en) Performance optimization in a building automation system
KR101988164B1 (ko) 설비 모니터링 시스템 및 그 방법
CN114567538A (zh) 告警信息处理方法及装置
CN112148561A (zh) 业务系统的运行状态预测方法、装置及服务器
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN111176876B (zh) 一种故障恢复确定方法、装置、设备及可读存储介质
Koutras et al. Applying partial and full rejuvenation in different degradation levels
CN111258854A (zh) 模型训练方法、基于预测模型的报警方法和相关装置
CN111062503A (zh) 一种电网监控告警处理方法、系统、终端及存储介质
US11102091B2 (en) Analyzing SCADA systems
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN112783730B (zh) 一种接口的监测方法、装置、介质及电子设备
CN115118580A (zh) 告警分析方法以及装置
Malefaki et al. Modeling software rejuvenation on a redundant system using Monte Carlo simulation
CN112804104A (zh) 一种预警方法、装置、设备及介质
WO2022015313A1 (en) Generation of alerts of correlated time-series behavior of environments
CN115426247B (zh) 故障节点的处理方法、装置、存储介质及电子设备
CN116185787B (zh) 自学习型的监控告警方法、装置、设备及存储介质
CN114422332B (zh) 网络切片控制方法、装置、处理设备及存储介质
CN112927481B (zh) 一种核电厂的报警过滤方法、系统、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant