CN115102838A - 服务器宕机风险的应急处理方法和装置、电子设备 - Google Patents

服务器宕机风险的应急处理方法和装置、电子设备 Download PDF

Info

Publication number
CN115102838A
CN115102838A CN202210673888.XA CN202210673888A CN115102838A CN 115102838 A CN115102838 A CN 115102838A CN 202210673888 A CN202210673888 A CN 202210673888A CN 115102838 A CN115102838 A CN 115102838A
Authority
CN
China
Prior art keywords
server
downtime
risk
downtime risk
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210673888.XA
Other languages
English (en)
Other versions
CN115102838B (zh
Inventor
晏彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210673888.XA priority Critical patent/CN115102838B/zh
Publication of CN115102838A publication Critical patent/CN115102838A/zh
Application granted granted Critical
Publication of CN115102838B publication Critical patent/CN115102838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请提出一种服务器宕机风险的应急处理方法和装置、电子设备、非瞬时性计算机可读存储介质,所述应急处理方法包括接收服务器的宕机风险预警,所述宕机风险预警包含宕机风险原因标签;从预设的宕机表中查找与所述宕机风险原因标签相对应的服务器,所述预设的宕机表记录了多台服务器与多种宕机风险原因标签的对应关系;根据查找结果,检测与所述宕机风险原因标签对应的每台服务器的状态;以及基于检测结果确定宕机的服务器,并向宕机的服务器发送快速恢复指令。根据本申请的实施例,当出现宕机风险预警时,通过自动筛选受影响的服务器,对每台服务器执行宕机检测,并对每台宕机的服务器自动执行快速恢复,提高了快速恢复的执行效率。

Description

服务器宕机风险的应急处理方法和装置、电子设备
技术领域
本申请涉及云计算领域,具体而言,涉及一种服务器宕机风险的应急处理方法和装置、电子设备、非瞬时性计算机可读存储介质。
背景技术
当服务器由于掉电或高温等原因出现批量宕机时,监控平台会发出宕机风险预警。目前,为了应对宕机风险预警,需要运营人员人工筛选可能受当前故障影响的服务器,然后逐个判断服务器的状态,以确定每台服务器是否需要执行快速恢复。整个过程需要运营人员去不同的管理平台执行对应的操作,耗时长,工作量大,使得快速恢复宕机服务器的效率较低。
发明内容
本申请旨在一种服务器宕机风险的应急处理方法和装置、电子设备、非瞬时性计算机可读存储介质,以解决服务器发生宕机风险预警时,快速恢复操作效率较低的问题。
根据本申请的一方面,提出一种服务器宕机风险的应急处理方法,包括接收服务器的宕机风险预警,所述宕机风险预警包含宕机风险原因标签;从预设的宕机表中查找与所述宕机风险原因标签相对应的服务器,所述预设的宕机表记录了多台服务器与多种宕机风险原因标签的对应关系;根据查找结果,检测与所述宕机风险原因标签对应的每台服务器的状态;以及基于检测结果确定宕机的服务器,并向宕机的服务器发送快速恢复指令。
根据一些实施例,应急处理方法还包括遍历所述多台服务器,以检测每台服务器的状态;以及根据遍历结果,更新所述故障表。
根据一些实施例,检测与所述宕机风险原因标签对应的每台服务器的状态,包括响应于服务器的心跳异常,向所述服务器请求数据通讯状态;以及响应于所述数据通讯状态异常,确定所述服务器的状态为宕机。
根据一些实施例,检测与所述宕机风险原因标签对应的每台服务器的状态,还包括响应于所述数据通讯状态正常,请求所述服务器的存活时间;以及响应于获取不到所述存活时间,确定所述服务器的状态为异常。
根据一些实施例,检测与所述宕机风险原因标签对应的每台服务器的状态,还包括响应于所述服务器心跳正常,请求所述服务器的存活时间;响应于获取不到所述存活时间,请求所述服务器的数据通讯状态;以及响应于所述服务器的数据通讯异常,确定所述服务器的状态为异常。
根据一些实施例,在所述服务器的状态被确定为异常后,在等待预设时间后,再次检测所述服务器的状态。
根据一些实施例,所述向宕机的服务器发送快速恢复指令,包括利用生产者-消费者多线程设计模式向宕机的服务器发送所述快速恢复指令。
根据本申请的一方面,提出一种服务器宕机风险的应急处理装置,包括宕机风险预警接收单元,用于接收服务器的宕机风险预警,所述宕机风险预警包含宕机风险原因标签;宕机表查询单元,用于从预设的宕机表中查找与所述宕机风险原因标签相对应的服务器,所述预设的宕机表记录了多台服务器与多种宕机风险原因标签的对应关系;服务器状态监测单元,用于根据查找结果,检测与所述宕机风险原因标签对应的每台服务器的状态;以及快速恢复指令发送单元,用于基于检测结果确定宕机的服务器,并向宕机的服务器发送快速恢复指令。
根据本申请的一方面,提出一种电子设备,包括:处理单元;以及存储单元,存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行如前任一所述的应急处理方法。
根据本申请的一方面,提出一种非瞬时性计算机可读存储介质,其上存储有计算机可读指令,当所述指令被处理器执行时,使得所述处理器执行如前中任一所述的应急处理方法。
根据本申请的一些实施例,当出现宕机风险预警时,通过自动筛选受影响的服务器,对每台服务器执行宕机检测。并根据宕机检测结果,对每台宕机的服务器自动执行快速恢复。整个过程耗时较少,使得出现宕机的服务器能够在较短时间内恢复正常状态,提高了快速恢复的执行效率,保障了服务的稳定性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。通过参照附图详细描述其示例实施例,本申请的上述和其他目标、特征及优点将变得更加显而易见。
图1示出根据本申请示例实施例的一种服务器宕机风险的应急处理系统架构图。
图2示出根据本申请示例实施例的一种服务器宕机风险的应急处理方法流程图。
图3示出根据本申请示例实施例的一种利用生产者-消费者多线程设计模式执行服务器快速恢复的示意图。
图4a示出根据本申请示例实施例的一种服务器状态检测方法流程图。
图4b示出根据本申请示例实施例的另一种服务器状态检测方法流程图。
图5示出根据本申请示例实施例的一种服务器宕机风险的应急处理装置。
图6示出根据本申请示例性实施例的一种电子设备。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有这些特定细节中的一个或更多,或者可以采用其它的方式、组元、材料、装置或操作等。在这些情况下,将不详细示出或描述公知结构、方法、装置、实现、材料或者操作。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
如前所述,当服务器出现批量故障时,需要运营人员对服务器执行快速恢复。在执行快速回复时,要运营人员人工筛选可能受当前故障影响的服务器,然后逐个判断服务器的状态,以确定每台服务器是否需要执行快速恢复。并且需要到重启平台对需要恢复的服务器进行远程重启操作。整个过程涉及多个管理平台执行对应的操作,耗时较长,且工作量较大,效率较低。
根据本申请的实施例,当出现宕机风险预警时,通过自动筛选受影响的服务器,对每台服务器执行宕机检测。并根据宕机检测结果,对每台宕机的服务器自动执行快速恢复。整个过程耗时较少,使得出现宕机的服务器能够在较短时间内恢复正常状态,提高了快速恢复的执行效率。
在描述本申请的实施例之前,首先对本申请中出现的术语进行解释。
快速恢复:对由于掉电或高温等原因出现宕机的服务器执行远程重启,使其能正常工作。
宕机检测:对服务器执行远程状态检测,以判断服务器的当前状态,其中,检测的状态包括正常状态、异常状态或宕机状态。
存活时间:判断服务器是否可以进行报文交互。
带内ping:在同一个安全域内对服务器发送测试数据包。
GSOC平台:为服务器高危风险事件运营中心,对高危事件进行线上化运营,承载高危事件的发现、定位及处理。
生产者-消费者多线程设计模式:生产者-消费者多线程设计模式是一种多线程设计模式。在生产者-消费者多线程设计模式中,生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯。生产者生产完数据之后,将数据存储到阻塞队列中,消费者直接从阻塞队列里取出生产者存储的数据。阻塞队列相当于一个缓冲区,平衡了生产者和消费者的处理能力。
下面结合附图,对根据本申请的具体实施例进行详细说明。
图1示出根据本申请示例实施例的一种服务器宕机风险的应急处理系统架构图。如图1所示的应急处理系统,包括预警服务器101、GSOC平台102和多台需要执行状态监测的服务器103a、103b和103c。
预警服务器101用于当服务器103a、103b和103c中出现宕机风险事件时,向GSOC平台102发出宕机风险预警。GSOC平台102用于筛选可能出现宕机的服务器103a、103b和/或103c,并对筛选出的每台服务器执行宕机检测。若服务器103a、103b和/或103c出现宕机,则向服务器103a、103b和/或103c发出执行快速恢复指令。
在此需要说明的是,服务器103a、103b和103c仅是一种示例,此处,对服务器的数量并不做限制。根据一些实施例,当服务器出现批量宕机时,例如,20分钟内同机房同型号出现10台及以上服务器宕机,预警服务器101向GSOC平台102发出宕机预警。图1所示的架构图仅是一种示例,在此不应作为对本申请的一种限制,只要是根据本申请提供的应急处理方法自动确定宕机服务器,并执行快速恢复都在本申请的保护范围内。
根据另一些实施例,宕机风险预警可以由预警服务器101发出,也可以由GSOC平台102执行或由人工触发,在此不做限制。
根据一些实施例,当出现宕机风险预警时,即可由GSOC平台102筛选可能出现宕机的服务器,可以由第三方平台做出筛选后发送给GSOC平台102,或由运维人员人工输入宕机服务器,由GSOC平台102执行服务器状态监测及快速恢复。
根据图1所示的实施例,当出现宕机风险预警时,通过自动筛选受影响的服务器,对每台服务器执行宕机检测。并根据宕机检测结果,对每台宕机的服务器自动执行快速恢复。整个过程耗时较少,使得出现宕机的服务器能够在较短时间内恢复正常状态,提高了快速恢复的执行效率。
图2示出根据本申请示例实施例的一种服务器宕机风险的应急处理方法流程图。下面以图2为例,对根据本申请示例实施例的一种服务器宕机风险的应急处理方法进行详细说明。
如图2所示,在步骤S201,接收服务器的宕机风险预警,宕机风险预警包含宕机风险原因标签。
根据一些实施例,当发生批量宕机风险事件时,报警平台发出宕机风险预警。例如,由于掉电或高温等原因导致20min内同机房同型号出现10台及以上服务器宕机时,报警平台发出宕机风险预警。
根据一些实施例,报警平台通过查询查询服务器的状态,例如,采用agent线程状态查询、带内ping及掉电状态检测等方式,判断是否发生批量宕机事件。
根据本申请的一些实施例,宕机风险预警中包括宕机风险原因标签,以便在步骤S203中根据宕机风险原因标签从宕机表中查找发生宕机的服务器。
在步骤S203,从预设的宕机表中查找与宕机风险原因标签相对应的服务器,以获得需要执行检测的服务器。
根据一些实施例,宕机表记录了多台服务器与多种宕机风险原因标签的对应关系。从步骤S201的宕机风险预警中获得发生宕机的宕机风险原因,然后在步骤S203中查找该宕机风险原因可能引起宕机的服务器。
根据一些实施例,在步骤S203中查找该宕机风险原因可能引起风险的服务器后,还需要判断每台服务器是否满足预设的快速恢复策略。只有满足快速恢复策略的服务器,才执行步骤S205的服务器检测。
快速恢复策略是判断每台服务器是否需要进行快速恢复的方法。例如,当出现由于入风口高温引发的批量宕机事件时,该服务器连续发生3次宕机故障。例如,如表1所示的宕机表包括了每台服务器发生宕机的原因及发生宕机的时间,根据该宕机表可查找可能受影响的服务器,并根据预设的快速恢复策略执行服务器状态检测。
表1
服务器ip 宕机风险原因标签 宕机时间
192.168.1.10 X 2021-01-30
192.168.1.11 Y 2021-02-01
192.168.1.10 X 2021-02-03
192.168.1.12 X 2021-02-15
在步骤S205中,根据步骤S203的查找结果,检测与宕机风险原因标签对应的每台服务器的状态。
根据一些实施例,在步骤S205中,首先查询每台服务器的心跳异常记录,例如,查询最近1小时内的心跳异常记录。若查询的服务器存在心跳异常,采用带内ping的方式判断该服务器的数据通讯状态。若带内ping的方式获取不到返回的测试数据包,则确定该服务器的状态为宕机状态。
根据另一些实施例,若带内ping的方式能够获得返回的测试数据包,还需要查询该服务器的存活时间。若获取不到该服务器的存活时间,则确定该服务器的状态为异常状态。
根据本申请的实施例,在查询到服务器的心跳正常后,还需要查询该服务器的存活时间。若获取不到该服务器的存活时间,采用带内ping的方式判断该服务器的数据通讯状态。若带内ping的方式获取不到返回的测试数据包,则确定该服务器的状态为异常状态。
根据一些实施例,在服务器的状态被确定为异常状态后,在等待预设时间后,例如,等待1分钟,再次检测服务器的状态,以确保宕机的服务器都能执行快速恢复。
在步骤S207,基于步骤S205的服务器状态检测结果确定的宕机服务器,向宕机的服务器发送快速恢复指令。
根据一些实施例,在步骤S207中,利用生产者-消费者多线程设计模式向宕机的服务器发送快速恢复指令。
图3示出根据本申请示例实施例的一种利用生产者-消费者多线程设计模式执行服务器快速恢复的示意图。如图3所示,在步骤S205中若检测的服务器处于宕机状态,则将该服务器的检测结果发送生产者。根据一些实施例,发送给生产者的检测结果带有tag标识,以区别发起宕机检测的检测方。生产者根据将该服务器的检测结果发送到消息队列中,以便不同的消费者通过订阅该消息队列消息,从该消息队列中获取需要执行快速恢复的服务器信息,并对该服务器执行快速恢复。
根据本申请的实施例,GSOC平台既是生产者-消费者多线程设计模式的生产者,又是生产者-消费者多线程设计模式的消费者。例如,GSOC平台作为服务器状态检测的发起方,检测服务器的当前状态。根据检测结果,作为生产者-消费者多线程设计模式的生产者将检测结果放入消息队列中,并同时作为生产者-消费者多线程设计模式的消费者,通过订阅该消息队列消息,从该消息队列中获取需要执行快速恢复的服务器信息,并对该服务器执行快速恢复。
在步骤S207中,利用生产者-消费者多线程设计模式执行服务器快速恢复,使得当服务器需要批量检测时,每台服务器只要完成检测,就能被等待的消费者执行快速恢复,而不用等待全部服务器检测完后,再去执行快速恢复操作,节省了执行快速恢复操作的时间。
在步骤S207中,通过订阅消息队列消息获得需要执行快速恢复的服务器信息,使得当服务器需要进行二次检测时,避免了通过记录任务id进行轮询或者回调的方式获取检测结果,节省了执行快速恢复操作时间,保障了服务的稳定性。
根据本申请的一些实施例,在步骤S205之后,图1所示的方法还包括每隔一定的预设时间,比如在第10n次发生宕机宕机时,遍历未被检测的其他服务器,以检测每台服务器的状态。并根据遍历结果,更新步骤S203中的宕机表。根据图2所示的实施例,当出现宕机风险预警时,通过自动筛选受影响的服务器,对每台服务器执行宕机检测。并根据宕机检测结果,对每台宕机的服务器自动执行快速恢复。整个过程耗时较少,使得出现宕机的服务器能够在较短时间内恢复正常状态,节省了执行快速恢复的操作时间,提高了快速恢复的执行效率。图4a示出根据本申请示例实施例的一种服务器状态检测方法流程图,图4b示出根据本申请示例实施例的另一种服务器状态检测方法流程图。其中,图4a对应的服务器心跳状态异常时的检测方法,图4b对应的服务器心跳状态正常时的检测方法。
下面参照图4a和图4b,对根据本申请示例实施例的一种服务器状态检测方法进行详细说明。
如图4a和图4b所示,在执行服务器状态检测时,首先执行步骤S401,查询每台服务器的心跳异常记录,例如,查询最近1小时内的心跳异常记录。
若查询的服务器存在心跳异常,则执行步骤S403,采用带内ping的方式判断该服务器的数据通讯状态。
在步骤S405中,若带内ping的方式获取不到返回的测试数据包,则确定该服务器的状态为宕机状态。
若带内ping的方式能够获取到返回的测试数据包,则执行步骤S407,查询服务器的存活时间。
在步骤S409中,若获取不到该服务器的存活时间,则确定该服务器的状态为异常状态。
在步骤S401中,若服务器心跳正常,则执行步骤S411,查询服务器的存活时间。
在步骤S413,若获取不到该服务器的存活时间,则执行步骤S415,采用带内ping的方式判断该服务器的数据通讯状态。
在步骤S417,若带内ping的方式获取不到返回的测试数据包,则确定该服务器的状态为异常状态。
根据本申请的一些实施例,在判断服务器为异常状态后,等待预设的时间,例如,1分钟,执行步骤S401,再次检测服务器的当前状态。
根据图4所示的实施例,通过自动对服务器执行宕机检测,并直接提供服务器检测结果,代替了运营人员需要通过多维度状态查询获得服务器当前状态的方式,节省了执行快速恢复的操作时间。
图5示出根据本申请示例实施例的一种服务器宕机风险的应急处理装置,如图5所示的应急处理装置包括宕机风险预警接收单元501、宕机表查询单元503、服务器状态监测单元505和快速恢复指令发送单元507。
宕机风险预警接收单元501用于接收服务器的宕机风险预警,其中,宕机风险预警包含宕机风险原因标签。宕机表查询单元503用于从预设的宕机表中查找与宕机风险原因标签相对应的服务器,其中,预设的宕机表中记录了多台服务器与多种宕机风险原因标签的对应关系。服务器状态监测单元505用于根据查找结果,检测与所述宕机风险原因标签对应的每台服务器的状态。快速恢复指令发送单元507用于基于检测结果确定宕机的服务器,并向宕机的服务器发送快速恢复指令。
图6示出根据本申请示例性实施例的一种电子设备。下面参照图6来描述根据本申请的这种实施方式的电子设备200。图6显示的电子设备200仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,存储单元存储有程序代码,程序代码可以被处理单元210执行,使得处理单元210执行本说明书描述的根据本申请各种示例性实施方式的方法。例如,处理单元210可以执行如图1中所示的方法。
存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的上述方法。
软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现前述功能。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
根据本申请的实施例,提出一种计算机程序,包括计算机程序或指令,该计算机程序或指令被处理器执行时,可以执行以上描述的方法。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。同时,本领域技术人员依据本申请的思想,基于本申请的具体实施方式及应用范围上做出的改变或变形之处,都属于本申请保护的范围。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种服务器宕机风险的应急处理方法,其特征在于,包括:
接收服务器的宕机风险预警,所述宕机风险预警包含宕机风险原因标签;
从预设的宕机表中查找与所述宕机风险原因标签相对应的服务器,所述预设的宕机表记录了多台服务器与多种宕机风险原因标签的对应关系;
根据查找结果,检测与所述宕机风险原因标签对应的每台服务器的状态;以及
基于检测结果确定宕机的服务器,并向宕机的服务器发送快速恢复指令。
2.根据权利要求1所述的应急处理方法,其特征在于,还包括:
遍历所述多台服务器,以检测每台服务器的状态;以及
根据遍历结果,更新所述宕机表。
3.根据权利要求1所述的应急处理方法,其特征在于,检测与所述宕机风险原因标签对应的每台服务器的状态,包括:
响应于服务器的心跳异常,向所述服务器请求数据通讯状态;以及
响应于所述数据通讯状态异常,确定所述服务器的状态为宕机。
4.根据权利要求3所述的应急处理方法,其特征在于,检测与所述宕机风险原因标签对应的每台服务器的状态,还包括:
响应于所述数据通讯状态正常,请求所述服务器的存活时间;以及
响应于获取不到所述存活时间,确定所述服务器的状态为异常。
5.根据权利要求3所述的应急处理方法,其特征在于,检测与所述宕机风险原因标签对应的每台服务器的状态,还包括:
响应于所述服务器心跳正常,请求所述服务器的存活时间;
响应于获取不到所述存活时间,请求所述服务器的数据通讯状态;以及
响应于所述服务器的数据通讯异常,确定所述服务器的状态为异常。
6.根据权利要求4或5所述的应急处理方法,其特征在于,还包括:
在所述服务器的状态被确定为异常后,在等待预设时间后,再次检测所述服务器的状态。
7.根据权利要求1所述的应急处理方法,其特征在于,所述向宕机的服务器发送快速恢复指令,包括:
利用生产者-消费者多线程设计模式向宕机的服务器发送所述快速恢复指令。
8.一种服务器宕机风险的应急处理装置,其特征在于,包括:
宕机风险预警接收单元,用于接收服务器的宕机风险预警,所述宕机风险预警包含宕机风险原因标签;
宕机表查询单元,用于从预设的宕机表中查找与所述宕机风险原因标签相对应的服务器,所述预设的宕机表记录了多台服务器与多种宕机风险原因标签的对应关系;
服务器状态监测单元,用于根据查找结果,检测与所述宕机风险原因标签对应的每台服务器的状态;以及
快速恢复指令发送单元,用于基于检测结果确定宕机的服务器,并向宕机的服务器发送快速恢复指令。
9.一种电子设备,包括:
处理单元;以及
存储单元,存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行如权利要求1-7中任一项所述的应急处理方法。
10.一种非瞬时性计算机可读存储介质,其上存储有计算机可读指令,当所述指令被处理器执行时,使得所述处理器执行如权利要求1-7中任一项所述的应急处理方法。
CN202210673888.XA 2022-06-14 2022-06-14 服务器宕机风险的应急处理方法和装置、电子设备 Active CN115102838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210673888.XA CN115102838B (zh) 2022-06-14 2022-06-14 服务器宕机风险的应急处理方法和装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210673888.XA CN115102838B (zh) 2022-06-14 2022-06-14 服务器宕机风险的应急处理方法和装置、电子设备

Publications (2)

Publication Number Publication Date
CN115102838A true CN115102838A (zh) 2022-09-23
CN115102838B CN115102838B (zh) 2024-02-27

Family

ID=83290147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210673888.XA Active CN115102838B (zh) 2022-06-14 2022-06-14 服务器宕机风险的应急处理方法和装置、电子设备

Country Status (1)

Country Link
CN (1) CN115102838B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115437889A (zh) * 2022-11-08 2022-12-06 统信软件技术有限公司 一种应急处理方法、系统及计算设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859830B1 (en) * 2000-06-23 2005-02-22 Microsoft Corporation Method and system for detecting a dead server
CN102394791A (zh) * 2011-10-26 2012-03-28 浪潮(北京)电子信息产业有限公司 宕机恢复方法和系统
US20170344411A1 (en) * 2016-05-25 2017-11-30 International Business Machines Corporation Equipment failure risk detection and prediction in industrial process
CN108614750A (zh) * 2018-04-27 2018-10-02 中国联合网络通信集团有限公司 宕机数据的恢复方法及装置
CN109062758A (zh) * 2018-07-19 2018-12-21 郑州云海信息技术有限公司 一种服务器系统宕机处理方法、系统、介质及设备
US20190007290A1 (en) * 2017-06-29 2019-01-03 Microsoft Technology Licensing, Llc Automatic recovery engine with continuous recovery state machine and remote workflows
US20190312947A1 (en) * 2018-04-10 2019-10-10 Dell Products L.P. Inter-process communication fault detection and recovery system
CN111309562A (zh) * 2020-02-27 2020-06-19 上海上大鼎正软件股份有限公司 服务器故障的预测方法、装置、设备和存储介质
CN112380089A (zh) * 2020-11-10 2021-02-19 深圳供电局有限公司 一种数据中心监控预警方法及系统
CN113765687A (zh) * 2020-06-05 2021-12-07 网联清算有限公司 服务器的故障报警方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859830B1 (en) * 2000-06-23 2005-02-22 Microsoft Corporation Method and system for detecting a dead server
CN102394791A (zh) * 2011-10-26 2012-03-28 浪潮(北京)电子信息产业有限公司 宕机恢复方法和系统
US20170344411A1 (en) * 2016-05-25 2017-11-30 International Business Machines Corporation Equipment failure risk detection and prediction in industrial process
US20190007290A1 (en) * 2017-06-29 2019-01-03 Microsoft Technology Licensing, Llc Automatic recovery engine with continuous recovery state machine and remote workflows
US20190312947A1 (en) * 2018-04-10 2019-10-10 Dell Products L.P. Inter-process communication fault detection and recovery system
CN108614750A (zh) * 2018-04-27 2018-10-02 中国联合网络通信集团有限公司 宕机数据的恢复方法及装置
CN109062758A (zh) * 2018-07-19 2018-12-21 郑州云海信息技术有限公司 一种服务器系统宕机处理方法、系统、介质及设备
CN111309562A (zh) * 2020-02-27 2020-06-19 上海上大鼎正软件股份有限公司 服务器故障的预测方法、装置、设备和存储介质
CN113765687A (zh) * 2020-06-05 2021-12-07 网联清算有限公司 服务器的故障报警方法、装置、设备及存储介质
CN112380089A (zh) * 2020-11-10 2021-02-19 深圳供电局有限公司 一种数据中心监控预警方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115437889A (zh) * 2022-11-08 2022-12-06 统信软件技术有限公司 一种应急处理方法、系统及计算设备
CN115437889B (zh) * 2022-11-08 2023-03-10 统信软件技术有限公司 一种应急处理方法、系统及计算设备

Also Published As

Publication number Publication date
CN115102838B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN105518629B (zh) 云部署基础结构确认引擎
KR101971013B1 (ko) 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법
CN105099783B (zh) 一种实现业务系统告警应急处置自动化的方法及系统
US11789760B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user
US20110314138A1 (en) Method and apparatus for cause analysis configuration change
JP2017517060A (ja) 障害処理方法、関連装置、およびコンピュータ
CN107660289A (zh) 自动网络控制
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN104268061A (zh) 一种适用于虚拟机的存储状态监控机制
CN109062723A (zh) 服务器故障的处理方法和装置
CN114398354A (zh) 数据监测方法、装置、电子设备及存储介质
CN112306802A (zh) 系统的数据获取方法、装置、介质和电子设备
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN116016123A (zh) 故障处理方法、装置、设备及介质
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
US11263072B2 (en) Recovery of application from error
CN109739724B (zh) 数据监控方法、系统、电子设备和存储介质
EP2495660A1 (en) Information processing device and method for controlling information processing device
US20210027254A1 (en) Maintenance management apparatus, system, method, and non-transitory computer readable medium
CN111324516A (zh) 自动记录异常事件的方法及装置、存储介质、电子设备
CN111901172B (zh) 基于云计算环境下的应用服务监控方法及系统
CN115168137A (zh) 针对定时任务的监控方法及系统、计算机设备及存储介质
JP4850733B2 (ja) ヘルスチェック装置及びヘルスチェック方法及びプログラム
JP3867868B2 (ja) 障害統合管理装置
CN110289977B (zh) 物流仓库系统的故障检测方法及系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant