CN113765687A - 服务器的故障报警方法、装置、设备及存储介质 - Google Patents

服务器的故障报警方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113765687A
CN113765687A CN202010506588.3A CN202010506588A CN113765687A CN 113765687 A CN113765687 A CN 113765687A CN 202010506588 A CN202010506588 A CN 202010506588A CN 113765687 A CN113765687 A CN 113765687A
Authority
CN
China
Prior art keywords
server
alarm
state information
target server
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010506588.3A
Other languages
English (en)
Other versions
CN113765687B (zh
Inventor
朱绍辉
董俊峰
强群力
刘超千
赵彤
周欢
陈瑛绮
余星
韦鹏程
孟令银
王鹏
陈飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NetsUnion Clearing Corp
Original Assignee
NetsUnion Clearing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NetsUnion Clearing Corp filed Critical NetsUnion Clearing Corp
Priority to CN202010506588.3A priority Critical patent/CN113765687B/zh
Publication of CN113765687A publication Critical patent/CN113765687A/zh
Application granted granted Critical
Publication of CN113765687B publication Critical patent/CN113765687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提出了一种服务器的故障报警方法、装置、设备及存储介质,其中,方法包括:通过监控平台获取服务器的工作模式;根据工作模式确定处于维护模式的目标服务器,其中,监控平台对处于维护模式的服务器不进行故障报警;获取目标服务器的状态信息;在状态信息满足报警条件的情况下,发送与状态信息对应的报警通知。由此,实现了处于维护模式的服务器发生故障时进行报警通知,能够使运维人员及时了解维护模式下的服务器的故障情况。

Description

服务器的故障报警方法、装置、设备及存储介质
技术领域
本申请涉及数据库技术领域,尤其涉及一种服务器的故障报警方法、装置、设备及存储介质。
背景技术
为了保证业务系统正常运行和业务连续性,需要对系统的软硬件进行全方位的监控,以及对服务器的各项参数进行监控预警,目前企业采用监控平台对服务器进行监控。
相关技术中,服务器需要维护时,通常将整台服务器加入维护模式,此时即使服务器发生宕机等严重故障,运维人员也可能无法及时处理,为生产运营带来风险。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种服务器的故障报警方法,以实现处于维护模式的服务器发生故障时进行报警通知,使运维人员及时了解维护模式下的服务器的故障情况。
本申请的第二个目的在于提出一种服务器的故障报警装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
本申请的第五个目的在于提出一种服务器的故障报警系统。
本申请第一方面实施例提出了一种服务器的故障报警方法,包括:
通过监控平台获取服务器的工作模式;
根据所述工作模式确定处于维护模式的目标服务器,其中,所述监控平台对处于所述维护模式的服务器不进行故障报警;
获取所述目标服务器的状态信息;
在所述状态信息满足所述报警条件的情况下,发送与所述状态信息对应的报警通知。
本申请实施例的服务器的故障报警方法,通过旁路监控设备获取目标服务器的状态信息以实现对目标服务器的重要运行状态进行监控,并在状态信息满足报警条件时发送报警通知,实现了在维护模式服务器发生故障时进行告警,能够使运维人员及时了解维护模式下的服务器的故障情况,解决了相关技术中服务器处于维护模式时运维人员不能及时了解服务器运行状态的问题。
另外,根据本申请上述实施例的服务器的故障报警方法还可以具有如下附加技术特征:
可选地,所述获取所述目标服务器的状态信息,包括:确定所述目标服务器的服务器类型;查询预设的对应关系,确定与所述服务器类型对应的状态信息类型;获取所述目标服务器的、与所述状态信息类型相对应的状态信息。
可选地,所述状态信息包括所述目标服务器的服务器运行信息,在获取所述目标服务器的状态信息之后,还包括:根据所述服务器运行信息,判断所述目标服务器是否处于服务器宕机状态;在所述目标服务器处于服务器宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
可选地,所述状态信息包括所述目标服务器的数据库运行信息,在获取所述目标服务器的状态信息之后,还包括:根据所述数据库运行信息,判断所述目标服务器是否处于数据库宕机状态;在所述目标服务器处于数据库宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
可选地,当所述报警条件为多个时,所述发送与所述状态信息对应的报警通知,包括:确定与所述满足的报警条件对应的报警等级;确定与所述报警等级对应的报警通知方式和发送延时时间;根据所述报警通知方式和发送延时时间,发送与所述状态信息对应的报警通知。
本申请第二方面实施例提出了一种服务器的故障报警装置,包括:
获取模块,用于通过监控平台获取服务器的工作模式;
确定模块,用于根据所述工作模式确定处于维护模式的目标服务器,其中,所述监控平台对处于所述维护模式的服务器不进行故障报警;
监控模块,用于获取所述目标服务器的状态信息;
报警模块,用于在所述状态信息满足所述报警条件的情况下,发送与所述状态信息对应的报警通知。
本申请实施例的服务器的故障报警装置,通过旁路监控设备获取处于维护模式的目标服务器的状态信息以实现对目标服务器的重要运行状态进行监控,并在状态信息满足报警条件时发送报警通知,实现了在维护模式服务器发生故障时进行告警,能够使运维人员及时了解维护模式下的服务器的故障情况,解决了相关技术中服务器处于维护模式时运维人员不能及时了解服务器运行状态的问题。
另外,根据本申请上述实施例的服务器的故障报警装置还可以具有如下附加技术特征:
可选地,所述监控模块,具体用于确定所述目标服务器的服务器类型;查询预设的对应关系,确定与所述服务器类型对应的状态信息类型;获取所述目标服务器的、与所述状态信息类型相对应的状态信息。
可选地,所述状态信息包括所述目标服务器的服务器运行信息,所述装置还包括:第一判断模块,用于根据所述服务器运行信息,判断所述目标服务器是否处于服务器宕机状态;在所述目标服务器处于服务器宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
可选地,所述状态信息包括所述目标服务器的数据库运行信息,所述装置还包括:第二判断模块,用于根据所述数据库运行信息,判断所述目标服务器是否处于数据库宕机状态;在当所述目标服务器处于数据库宕机状态时的情况下,判断结果为所述状态信息确定满足所述预设的报警条件。
可选地,当所述报警条件为多个时,所述报警模块具体用于:确定与所述满足的报警条件对应的报警等级;确定与所述报警等级对应的报警通知方式和发送延时时间;根据所述报警通知方式和发送延时时间,发送与所述状态信息对应的报警通知。
本申请第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的服务器的故障报警方法。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的服务器的故障报警方法。
本申请第五方面实施例提出了一种服务器的故障报警系统,包括:
监控平台和旁路监控设备;其中,
所述监控平台用于获取服务器的工作模式,并将所述服务器的工作模式发送至所述旁路监控设备;
所述旁路监控设备用于根据所述工作模式确定处于维护模式的目标服务器,获取所述目标服务器的状态信息,在所述状态信息满足所述报警条件的情况下,发送与所述状态信息对应的报警通知,其中,所述监控平台对处于所述维护模式的服务器不进行故障报警。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1为本申请实施例所提供的一种服务器的故障报警方法的流程示意图;
图2为本申请实施例所提供的另一种服务器的故障报警方法的流程示意图;
图3为本申请实施例所提供的一种服务器的故障报警装置的结构示意图;
图4为本申请实施例所提供的一种服务器的故障报警系统的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
首先结合附图描述对本申请实施例的服务器的故障报警系统。
图4为本申请实施例所提供的一种服务器的故障报警系统的结构示意图,如图4所示,该系统包括:监控平台,服务器集群,旁路监控设备。
本实施例中,监控平台用于对各服务器进行监控告警,以保证业务的正常平稳运行。作为一种示例,监控平台在对各服务器进行监控时,可以获取各服务器的工作模式,工作模式可包括维护模式和运行模式。在运行模式下,监控平台监控各服务器的各项参数,监控平台根据监控的参数确定运行模式的服务器发生故障时,可以针对故障进行报警。当服务器需要维护时,可以由监控平台将该服务器加入维护模式,通常情况下,监控平台对处于维护模式的服务器不进行故障报警。
旁路监控设备周期性的从监控平台获取各服务器的工作模式,根据各服务器的工作模式从各服务器中确定处于维护模式的目标服务器。进而,旁路监控设备获取目标服务器的状态信息,可选地,预先设置服务器类型与状态信息类型的对应关系,旁路监控设备获取目标服务器的服务器类型,查询预设的对应关系,确定与服务器类型对应的状态信息类型,进而,旁路监控设备获取目标服务器的、与状态信息类型相对应的状态信息。进一步,判断状态信息是否满足报警条件,并在状态信息满足报警条件的情况下,发送与状态信息对应的报警通知,从而实现处于维护模式的目标服务器的故障告警。需要说明的是,本申请实施例中对服务器的故障报警方法的解释说明同样适用于本实施例的系统。
本申请实施例的服务器的故障报警系统,通过旁路监控设备监控并获取处于维护模式的目标服务器的状态信息,以实现对目标服务器的重要运行状态进行监控,并在状态信息满足报警条件时发送报警通知,实现了在维护模式服务器发生故障时进行告警,能够使运维人员及时了解维护模式下的服务器的故障情况。
下面参考附图描述本申请实施例的服务器的故障报警方法、装置及设备。
图1为本申请实施例所提供的一种服务器的故障报警方法的流程示意图,如图1所示,该方法包括:
步骤101,通过监控平台获取服务器的工作模式。
步骤103,根据工作模式确定处于维护模式的目标服务器,其中,监控平台对处于维护模式的服务器不进行故障报警。
本申请实施例的服务器的故障报警方法,执行主体为旁路监控设备。
本实施例中,监控平台用于对系统及服务器的各参数进行监控预警,以保证业务的正常平稳运行。旁路监控设备通过获取监控平台所监控的服务器的工作模式,根据工作模式从监控的各服务器中确定处于维护模式的目标服务器。
其中,监控平台对处于维护模式的服务器不进行故障报警,例如对于需要维护的目标服务器,通过监控平台将目标服务器加入维护模式,屏蔽掉因维护带来的不必要的告警。目标服务器可以有一个,也可以有多个。
需要说明的是,对于维护模式下的服务器,服务器的维护内容可以包括软件维护和硬件维护,例如,维护内容包括但不限于操作系统升级、修复安全漏洞、内存测试、除尘、故障修复等,此处不作具体限制。在运行模式下,为了保证业务可靠性,监控平台通常设置大量监控项对服务器进行全方位监控,例如,对服务器的内存信息、磁盘空间、中央处理器负载、错误信息等进行监控,对于处于维护模式的服务器,多项监控项将频繁告警。因此,若不屏蔽告警功能,会存在由于维护内容触发告警导致持续的不必要告警的情况,为运维人员增加工作量,因此监控平台对处于维护模式的服务器通常不进行故障报警。
在实际应用中,由于监控平台对处于维护模式的服务器不进行故障报警,因此在将服务器加入维护模式后,运维人员对此服务器的所有运行状态都不可知,从而为生产带来一定风险。因此,本实施例中,由旁路监控设备确定处于维护模式的目标服务器,以便于通过旁路监控设备实现对处于维护模式的目标服务器进行监控告警。
作为一种示例,当接收到服务器旁路监控请求时,响应于旁路监控请求,旁路监控设备获取监控平台所监控的所有服务器的工作模式,从监控平台所监控的所有服务器中确定处于维护模式的目标服务器,并根据目标服务器生成列表文件,列表文件中包括目标服务器IP地址。
作为另一种示例,旁路监控设备周期性的从监控平台获取各服务器的工作模式,从监控平台所监控的所有服务器中确定处于维护模式的目标服务器,并根据目标服务器生成列表文件。
步骤105,获取目标服务器的状态信息。
本实施例中,旁路监控设备在确定处于维护模式的目标服务器后,监控并获取目标服务器的状态信息。状态信息可以包括目标服务器的服务器运行信息,状态信息也可以包括目标服务器的数据库运行信息。
作为一种示例,旁路监控设备读取列表文件,根据列表文件中目标服务器IP地址远程登录目标服务器,通过旁路监控设备监控目标服务器,获取目标服务器的监控数据,根据监控数据确定目标服务器的状态信息。本示例中,由于服务器处于维护模式时监控平台不进行监控告警,因此对于处于维护模式的目标服务器,通过旁路监控设备监控并获取目标服务器的状态信息以实现对目标服务器的重要运行状态进行监控。
在本申请的一个实施例中,可以预先设置服务器类型与状态信息类型的对应关系,对于不同类型的服务器,可以根据服务器类型和实际应用需要设置对应的状态信息类型,不同的服务器类型对应的状态信息类型可以不同,例如容灾服务器需要的监控项通常较少,而业务服务器需要的监控项通常较多,通过设置服务器类型与状态信息类型的对应关系,实现差异化的监控告警,以满足对于不同类型服务器的实际监控需求,其中,服务器类型例如包括容灾服务器,状态信息类型用于确定需要获取的状态信息。在通过旁路监控设备监控并获取目标服务器的状态信息之前,还可以获取目标服务器的服务器类型,查询预设的对应关系,确定与服务器类型对应的状态信息类型,进而,旁路监控设备获取目标服务器的、与状态信息类型相对应的状态信息。
本实施例中,在获取目标服务器的状态信息后,判断目标服务器是否满足预设的报警条件。
其中,判断状态信息是否满足预设的报警条件的实现方式有多种。
在本申请的一个实施例中,状态信息包括目标服务器的服务器运行信息,报警条件为服务器处于服务器宕机状态,判断状态信息是否满足预设的报警条件,包括:根据服务器运行信息,判断目标服务器是否处于服务器宕机状态,在其中,当目标服务器处于服务器宕机状态时的情况下,确定判断结果为状态信息满足报警条件,否则,确定判断结果为状态信息不满足报警条件。
在本申请的一个实施例中,状态信息包括目标服务器的数据库运行信息,报警条件为服务器处于数据库宕机状态,判断状态信息是否满足预设的报警条件,包括:根据数据库运行信息,判断目标服务器是否处于数据库宕机状态,在目标服务器处于数据库宕机状态的情况下,判断结果为状态信息满足报警条件。作为一种示例,若目标服务器对应多个数据库,多个数据库中若存在宕机状态的数据库,则确定目标服务器处于数据库宕机状态,进而确定判断结果为:状态信息满足报警条件;否则,确定判断结果为:状态信息不满足报警条件。
需要说明的是,上述判断状态信息是否满足预设的报警条件的实现方式仅仅是示例性的,例如还可以获取目标服务器的服务器内存信息,根据服务器内容信息判断是否满足报警条件,例如可以获取目标服务器对应的数据库连接数,根据数据库连接数判断是否满足报警条件,此处不作限制。
可选地,可以通过旁路监控设备获取对于目标服务器重要程度较高的状态信息,例如对于一服务器,数据库是否宕机的重要程度高于数据库同步状态,可通过旁路监控设备获取目标服务器的数据库运行信息,根据数据库运行信息确定目标服务器是否处于数据库宕机状态,从而使运维人员能够及时了解处于维护模式的目标服务器的重要运行状态,在目标服务器发生宕机等重大故障时及时处理,提高旁路监控可靠性,降低生产运营风险。
步骤107,在状态信息满足报警条件的情况下,发送与状态信息对应的报警通知。
本实施例中,若状态信息满足报警条件,则根据预设方式发送与状态信息对应的报警通知。其中,预设方式可以根据需要进行设置,例如调用预设的短信接口以短信的形式向预设终端发送与状态信息对应的报警通知,再例如,调用预设的邮件接口以邮件的形式向预设邮箱发送与状态信息对应的报警通知。
作为一种示例,旁路监控设备监控并获取目标服务器一的服务器运行信息,根据服务器运行信息判断目标服务器一处于服务器宕机状态,则向预设的终端发送服务器一宕机的告警通知。
可选地,若状态信息不满足报警条件,还可以根据目标服务器的状态信息生成监控报告,并将监控报告推送至预设终端。其中,预设终端例如为相关管理人员的移动终端,以使管理人员及时了解服务器在维护模式时的状态信息。
在本申请的一个实施例中,在判断目标服务器是否满足预设的报警条件时,还可以根据目标服务器的状态信息生成故障标记文件,例如目标服务器处于服务器宕机状态时,生成第一故障标记文件,目标服务器处于数据库宕机状态时,生成第二故障标记文件。进而,在每次确定状态信息满足报警条件的情况下,查询是否存在对应的故障标记文件,若存在,则不进行处理;若不存在,则生成对应的故障标记文件,并发送与状态信息对应的报警通知,可以避免重复报警。进一步地,本实施例中,若确定状态信息不满足报警条件,例如根据目标服务器状态信息确定目标服务器正常运行,则查询是否存在对应的故障标记文件,若存在,则删除对应的故障标记文件,由此能够及时更新目标服务器的故障状态。
本申请实施例的服务器的故障报警方法,旁路监控设备通过监控平台获取服务器的工作模式,根据工作模式确定处于维护模式的目标服务器,进而,获取目标服务器的状态信息,并在状态信息满足报警条件的情况下,发送与状态信息对应的报警通知。由此,通过旁路监控设备监控并获取目标服务器的状态信息以实现对目标服务器的重要运行状态进行监控,并在状态信息满足报警条件时发送报警通知,实现了在维护模式服务器发生故障时进行告警,能够使运维人员及时了解维护模式下的服务器的故障情况,解决了相关技术中服务器处于维护模式时运维人员不能及时了解服务器运行状态的问题。
基于上述实施例,进一步地,若报警条件存在多个,可以为多个报警条件设置不同的报警通知方式和报警优先级,以按照优先级顺序通过相应的报警通知方式进行报警通知。
图2为本申请实施例所提供的另一种服务器的故障报警方法的流程示意图,如图2所示,该方法包括:
步骤201,通过监控平台获取服务器的工作模式,根据工作模式确定处于维护模式的目标服务器。
本实施例中,执行主体为旁路监控设备。前述对步骤101、103的解释说明同样适用于本步骤201。
步骤203,旁路监控设备获取目标服务器的状态信息。
本实施例中,还可以预先设置多个监控等级,对于同一目标服务器,不同的监控等级对应的状态信息可以不同。具体地,启动预设的旁路监控设备时,获取用户预先设置的监控等级,根据当前的监控等级查询预设的映射关系,确定与当前的监控等级对应的状态信息。
作为一种示例,对于某一处于维护模式的目标服务器,若当前监控等级为低,通过旁路监控设备监控并获取目标服务器的状态信息,其中,该状态信息用于判断服务器宕机状态和数据库宕机状态;若当前监控等级为高,通过旁路监控设备监控并获取目标服务器的状态信息,其中,该状态信息用于判断服务器宕机状态和数据库宕机状态、以及服务器内存信息和数据库连接数等。
在本申请的一个实施例中,可以针对旁路监控设备设置针对各服务器的访问权限,在开启预设的旁路监控设备,并通过旁路监控设备监控并获取目标服务器的状态信息之前,获取旁路监控设备对于目标服务器的访问权限,若访问权限允许则通过旁路监控设备监控并获取目标服务器的状态信息。
步骤205,判断状态信息是否满足预设的报警条件,在状态信息满足报警条件的情况下,则确定与满足的报警条件对应的报警等级。
本实施例中,不同报警条件对应的重要程度存在不同,例如对于服务器宕机的优先级可以设置高于服务器内存不足的优先级,因此,当报警条件为多个时,可以为不同报警条件设置不同的报警等级。进而,当判断获知状态信息满足报警条件时,获取与满足的报警条件对应的报警等级。其中,报警条件与报警等级可以一一对应,也可以多个报警条件对应于同一报警等级,此处不作限制。
步骤207,确定与报警等级对应的报警通知方式和发送延时时间。
本实施例中,预先为各报警等级设置对应的报警通知方式和发送延时时间。可选地,报警等级与发送延时时间成反比,即报警条件的优先级越高,发送延时时间越短。其中,报警通知方式包括但不限于短信、邮件、语音播报等方式。
步骤209,根据报警通知方式和发送延时时间,发送与状态信息对应的报警通知。
作为一种示例,通过旁路监控设备监控并获取目标服务器的状态信息后,判断获知目标服务器满足服务器宕机的报警条件,以及满足数据库宕机的报警条件,进而获取报警条件对应的报警等级为高级,则根据报警等级高级对应的报警通知方式和发送延时时间,发送服务器宕机和数据库宕机的报警通知。
本申请实施例的服务器的故障报警方法,通过判断状态信息是否满足预设的报警条件,在状态信息满足报警条件的情况下,则确定与满足的报警条件对应的报警等级。进而,确定与报警等级对应的报警通知方式和发送延时时间,根据报警通知方式和发送延时时间,发送与状态信息对应的报警通知。由此,在报警条件存在多个时,通过为多个报警条件设置不同的报警通知方式和报警优先级,以按照优先级顺序通过相应的报警通知方式进行报警通知。此外,应用于容灾服务器,可以节省主备的性能资源,通过旁路监控提高容灾服务器的利用率。
为了实现上述实施例,本申请还提出一种服务器的故障报警装置。
图3为本申请实施例所提供的一种服务器的故障报警装置的结构示意图,如图3所示,该装置包括:获取模块10,确定模块20,监控模块30,报警模块40。
其中,获取模块10,用于通过监控平台获取服务器的工作模式。
确定模块20,用于根据所述工作模式确定处于维护模式的目标服务器,其中,监控平台对处于所述维护模式的服务器不进行故障报警。
监控模块30,用于获取所述目标服务器的状态信息。
报警模块40,用于在所述状态信息满足所述报警条件的情况下,发送与所述状态信息对应的报警通知。
可选地,监控模块30具体用于确定所述目标服务器的服务器类型;查询预设的对应关系,确定与所述服务器类型对应的状态信息类型;获取目标服务器的、与状态信息类型相对应的状态信息。
可选地,状态信息包括目标服务器的服务器运行信息,报警条件为服务器处于服务器宕机状态,该装置还包括:第一判断模块,用于根据所述服务器运行信息,判断所述目标服务器是否处于服务器宕机状态;在所述目标服务器处于服务器宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
可选地,状态信息包括目标服务器的数据库运行信息,报警条件为服务器处于数据库宕机状态,该装置还包括:第二判断模块,用于根据所述数据库运行信息,判断所述目标服务器是否处于数据库宕机状态;在所述目标服务器处于数据库宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
可选地,当报警条件为多个时,报警模块40具体用于:确定与所述满足的报警条件对应的报警等级;确定与所述报警等级对应的报警通知方式和发送延时时间;根据所述报警通知方式和发送延时时间,发送与所述状态信息对应的报警通知。
需要说明的是,前述实施例对服务器的故障报警方法的解释说明同样适用于本实施例的服务器的故障报警装置,此处不再赘述。
本申请实施例的服务器的故障报警装置,通过旁路监控设备监控并获取处于维护模式的目标服务器的状态信息,以实现对目标服务器的重要运行状态进行监控,并在状态信息满足报警条件时发送报警通知,实现了在维护模式服务器发生故障时进行告警,能够使运维人员及时了解维护模式下的服务器的故障情况,解决了相关技术中服务器处于维护模式时运维人员不能及时了解服务器运行状态的问题。
为了实现上述实施例,本申请还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的服务器的故障报警方法。
为了实现上述实施例,本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的服务器的故障报警方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种服务器的故障报警方法,由旁路监控设备执行,其中,包括:
通过监控平台获取服务器的工作模式;
根据所述工作模式确定处于维护模式的目标服务器,其中,所述监控平台对处于所述维护模式的服务器不进行故障报警;
获取所述目标服务器的状态信息;
在所述状态信息满足所述报警条件的情况下,发送与所述状态信息对应的报警通知。
2.如权利要求1所述的方法,其中,所述获取所述目标服务器的状态信息,包括:
确定所述目标服务器的服务器类型;
查询预设的对应关系,确定与所述服务器类型对应的状态信息类型;
获取所述目标服务器的、与所述状态信息类型相对应的状态信息。
3.如权利要求1所述的方法,其中,所述状态信息包括所述目标服务器的服务器运行信息,在获取所述目标服务器的状态信息之后,还包括:
根据所述服务器运行信息,判断所述目标服务器是否处于服务器宕机状态;
在所述目标服务器处于服务器宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
4.如权利要求1所述的方法,其中,所述状态信息包括所述目标服务器的数据库运行信息,在获取所述目标服务器的状态信息之后,还包括:
根据所述数据库运行信息,判断所述目标服务器是否处于数据库宕机状态;
在所述目标服务器处于数据库宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
5.如权利要求1所述的方法,其中,当所述报警条件为多个时,所述发送与所述状态信息对应的报警通知,包括:
确定与满足的所述报警条件对应的报警等级;
确定与所述报警等级对应的报警通知方式和发送延时时间;
根据所述报警通知方式和发送延时时间,发送与所述状态信息对应的报警通知。
6.一种服务器的故障报警系统,其中,包括:
监控平台和旁路监控设备;其中,
所述监控平台用于获取服务器的工作模式,并将所述服务器的工作模式发送至所述旁路监控设备;
所述旁路监控设备用于根据所述工作模式确定处于维护模式的目标服务器,获取所述目标服务器的状态信息,在所述状态信息满足所述报警条件的情况下,发送与所述状态信息对应的报警通知,其中,所述监控平台对处于所述维护模式的服务器不进行故障报警。
7.一种服务器的故障报警装置,其中,包括:
获取模块,用于通过监控平台获取服务器的工作模式;
确定模块,用于根据所述工作模式确定处于维护模式的目标服务器,其中,所述监控平台对处于所述维护模式的服务器不进行故障报警;
监控模块,用于获取所述目标服务器的状态信息;
报警模块,用于在所述状态信息满足所述报警条件的情况下,发送与所述状态信息对应的报警通知。
8.如权利要求7所述的装置,其中,所述状态信息包括所述目标服务器的服务器运行信息,所述装置还包括:
第一判断模块,用于根据所述服务器运行信息,判断所述目标服务器是否处于服务器宕机状态;
在所述目标服务器处于服务器宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
9.如权利要求7所述的装置,其中,所述状态信息包括所述目标服务器的数据库运行信息,所述装置还包括:
第二判断模块,用于根据所述数据库运行信息,判断所述目标服务器是否处于数据库宕机状态;
在所述目标服务器处于数据库宕机状态的情况下,判断结果为所述状态信息满足所述报警条件。
10.一种计算机设备,其中,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一所述的服务器的故障报警方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-5中任一所述的服务器的故障报警方法。
CN202010506588.3A 2020-06-05 2020-06-05 服务器的故障报警方法、装置、设备及存储介质 Active CN113765687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010506588.3A CN113765687B (zh) 2020-06-05 2020-06-05 服务器的故障报警方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010506588.3A CN113765687B (zh) 2020-06-05 2020-06-05 服务器的故障报警方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113765687A true CN113765687A (zh) 2021-12-07
CN113765687B CN113765687B (zh) 2023-08-01

Family

ID=78785040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010506588.3A Active CN113765687B (zh) 2020-06-05 2020-06-05 服务器的故障报警方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113765687B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114884796A (zh) * 2022-06-16 2022-08-09 中国工商银行股份有限公司 故障处理方法、装置、电子设备及存储介质
CN115102838A (zh) * 2022-06-14 2022-09-23 阿里巴巴(中国)有限公司 服务器宕机风险的应急处理方法和装置、电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101385A1 (en) * 2001-11-28 2003-05-29 Inventec Corporation Cross-platform system-fault warning system and method
CN101072123A (zh) * 2007-04-30 2007-11-14 张宇飞 服务器实时监控智能报警系统及其运行方法
US20090172222A1 (en) * 2007-12-28 2009-07-02 Fujitsu Component Limited KVM switch and remote system
WO2015090248A1 (zh) * 2013-12-16 2015-06-25 腾讯科技(深圳)有限公司 服务器的过载保护方法及装置
CN109558272A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 服务器的故障恢复方法和装置
CN109660380A (zh) * 2018-09-28 2019-04-19 深圳壹账通智能科技有限公司 服务器运行状态的监控方法、平台、系统及可读存储介质
US20190179726A1 (en) * 2016-12-08 2019-06-13 Tencent Technology (Shenzhen) Company Limited Monitoring method and apparatus of server, and storage medium
WO2020024376A1 (zh) * 2018-08-01 2020-02-06 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN110874311A (zh) * 2019-10-11 2020-03-10 网联清算有限公司 数据库检测方法、装置、计算机设备和存储介质
CN110888776A (zh) * 2019-11-13 2020-03-17 网联清算有限公司 数据库健康状态检测方法、装置及设备
CN111193616A (zh) * 2019-12-13 2020-05-22 广州朗国电子科技有限公司 自动运维方法、装置、系统、存储介质及自动运维服务器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101385A1 (en) * 2001-11-28 2003-05-29 Inventec Corporation Cross-platform system-fault warning system and method
CN101072123A (zh) * 2007-04-30 2007-11-14 张宇飞 服务器实时监控智能报警系统及其运行方法
US20090172222A1 (en) * 2007-12-28 2009-07-02 Fujitsu Component Limited KVM switch and remote system
WO2015090248A1 (zh) * 2013-12-16 2015-06-25 腾讯科技(深圳)有限公司 服务器的过载保护方法及装置
US20190179726A1 (en) * 2016-12-08 2019-06-13 Tencent Technology (Shenzhen) Company Limited Monitoring method and apparatus of server, and storage medium
CN109558272A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 服务器的故障恢复方法和装置
WO2020024376A1 (zh) * 2018-08-01 2020-02-06 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN109660380A (zh) * 2018-09-28 2019-04-19 深圳壹账通智能科技有限公司 服务器运行状态的监控方法、平台、系统及可读存储介质
CN110874311A (zh) * 2019-10-11 2020-03-10 网联清算有限公司 数据库检测方法、装置、计算机设备和存储介质
CN110888776A (zh) * 2019-11-13 2020-03-17 网联清算有限公司 数据库健康状态检测方法、装置及设备
CN111193616A (zh) * 2019-12-13 2020-05-22 广州朗国电子科技有限公司 自动运维方法、装置、系统、存储介质及自动运维服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102838A (zh) * 2022-06-14 2022-09-23 阿里巴巴(中国)有限公司 服务器宕机风险的应急处理方法和装置、电子设备
CN115102838B (zh) * 2022-06-14 2024-02-27 阿里巴巴(中国)有限公司 服务器宕机风险的应急处理方法和装置、电子设备
CN114884796A (zh) * 2022-06-16 2022-08-09 中国工商银行股份有限公司 故障处理方法、装置、电子设备及存储介质
CN114884796B (zh) * 2022-06-16 2024-01-30 中国工商银行股份有限公司 故障处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113765687B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
US7281040B1 (en) Diagnostic/remote monitoring by email
US9015310B2 (en) Communication system using server agents according to simple network management protocol
US20050044535A1 (en) Method and apparatus for monitoring and updating system software
CN113765687B (zh) 服务器的故障报警方法、装置、设备及存储介质
CN112764956B (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
CN109144789B (zh) 一种重启osd的方法、装置及系统
US7933211B2 (en) Method and system for providing prioritized failure announcements
CN100549975C (zh) 计算机维护帮助系统及分析服务器
CN107453932B (zh) 一种分布式存储系统管理方法及其装置
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
CN102314392A (zh) 一种计算机监控系统及监控告警的方法
CN111198889B (zh) 数据补录方法和装置
CN111565135A (zh) 监控服务器运行的方法、监控服务器和存储介质
CN113568783A (zh) 分布式数据存储系统、管理方法、装置及存储介质
US7206975B1 (en) Internal product fault monitoring apparatus and method
CN110554929A (zh) 数据校验方法、装置、计算机设备及存储介质
CN105897487B (zh) 用于运维系统的设备管理方法和装置
CN112054925A (zh) 一种部署后台服务的方法及装置
CN115632706B (zh) 一种fc链路管理方法、装置、设备及可读存储介质
CN112416731B (zh) 应用于区块链系统的稳定性监测方法及装置
CN110737256A (zh) 一种用于控制变频传动系统的方法及装置
JP2009157597A (ja) 遠隔保守ソフトウェア自動配布システムおよび遠隔保守ソフトウェア自動配布方法
CN112181780A (zh) 容器化平台核心组件的检测及告警方法、装置及设备
CN113808725A (zh) 设备预警系统和方法
CN109672573B (zh) 一种配置文件的部署方法、确定方法、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant