CN109039729A - 一种云平台的故障检测方法及装置 - Google Patents

一种云平台的故障检测方法及装置 Download PDF

Info

Publication number
CN109039729A
CN109039729A CN201810826852.4A CN201810826852A CN109039729A CN 109039729 A CN109039729 A CN 109039729A CN 201810826852 A CN201810826852 A CN 201810826852A CN 109039729 A CN109039729 A CN 109039729A
Authority
CN
China
Prior art keywords
cloud platform
target element
fault detection
detection method
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810826852.4A
Other languages
English (en)
Inventor
方斌
李宪状
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201810826852.4A priority Critical patent/CN109039729A/zh
Publication of CN109039729A publication Critical patent/CN109039729A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种云平台的故障检测方法,包括:获取目标云平台上部署的目标组件;通过状态查询命令检测目标组件是否处于运行状态;若是,则调用目标组件的接口并获取调用返回值,当调用返回值与预设的阈值不一致时,触发报警机制,从而可及时修复云平台出现的故障;同时,由于本方法监测的是云平台上部署的所有组件,因此可减少云平台的负担和开发人员的工作量,也可以减小监控进程对云平台服务的影响,从而可为用户提供安全、稳定的云服务,提高了用户体验。相应地,本发明公开的一种云平台的故障检测装置、设备及计算机可读存储介质,也同样具有上述技术效果。

Description

一种云平台的故障检测方法及装置
技术领域
本发明涉及云服务技术领域,更具体地说,涉及一种云平台的故障检测方法、装置、设备及计算机可读存储介质。
背景技术
在云计算时代,企业及个人用户通常将数据资源通过云平台统一管理。因此,云平台成为现今社会生活不可分割的一部分。
为了给用户提供良好的体验,可对云平台上的服务进程进行监控和检测,以便及时发现云平台的故障。其中,现有技术一般采用守护进程的方式对云平台上的服务进程进行监控和检测,而由于云平台中的服务进程较多,若每个服务进程均对应一个守护进程,则守护进程的数量较多,如此将增加云平台的负担,也增加了开发人员的工作量;同时,由于守护进行的数量与云平台上的服务进程的数量相同,可能影响相应的服务进程的运行,如此则无法保障对外服务的稳定性,用户体验将大打折扣。
因此,如何在监控和检测云平台故障的同时,保障云平台的稳定性,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种云平台的故障检测方法、装置、设备及计算机可读存储介质,以实现在监控和检测云平台故障的同时,保障云平台的稳定性。
为实现上述目的,本发明实施例提供了如下技术方案:
一种云平台的故障检测方法,包括:
获取目标云平台上部署的目标组件;
通过状态查询命令检测所述目标组件是否处于运行状态;
若是,则调用所述目标组件的接口并获取调用返回值,当所述调用返回值与预设的阈值不一致时,触发报警机制。
其中,当所述目标组件处于非运行状态时,还包括:
通过重启命令重启所述目标组件。
其中,所述触发报警机制,包括:
获取邮件服务器的地址、邮件用户名和对应的密码;
根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息至预设的目的邮件地址。
其中,所述根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息至预设的目的邮件地址,包括:
根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息和所述目标组件的日志信息至预设的目的邮件地址。
其中,当所述调用返回值与预设的阈值不一致,在触发所述报警机制时,还包括:
通过状态查询命令查询所述目标组件中的任务进程的运行状态,并确定出现故障的目标任务进程。
其中,还包括:
通过重启命令重启所述目标任务进程。
一种云平台的故障检测装置,包括:
获取模块,用于获取目标云平台上部署的目标组件;
查询模块,用于通过状态查询命令检测所述目标组件是否处于运行状态;
检测模块,用于当所述目标组件处于运行状态时,调用所述目标组件的接口并获取调用返回值,当所述调用返回值与预设的阈值不一致时,触发报警机制。
其中,还包括:
重启模块,用于通过重启命令重启所述目标组件。
一种云平台的故障检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一项所述的云平台的故障检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的云平台的故障检测方法的步骤。
通过以上方案可知,本发明实施例提供的一种云平台的故障检测方法,包括:获取目标云平台上部署的目标组件;通过状态查询命令检测所述目标组件是否处于运行状态;若是,则调用所述目标组件的接口并获取调用返回值,当所述调用返回值与预设的阈值不一致时,触发报警机制。
可见,该方法在获取到目标云平台上部署的目标组件时,通过状态查询命令检测获取到的目标组件是否处于运行状态;当目标组件处于运行状态时,通过调用该目标组件的接口来判断其是否运行正常;当获取到的调用返回值与预设的阈值不一致时,则表明该目标组件处于异常状态,即该目标组件出现的故障,此时则触发报警机制,以便管理人员及时检修目标组件,从而可及时修复云平台出现的故障;同时,由于本方法监测的是云平台上部署的所有组件,因此可减少云平台的负担和开发人员的工作量,也可以减小监控进程对云平台服务的影响,从而可为用户提供安全、稳定的云服务,提高了用户体验。
相应地,本发明实施例提供的一种云平台的故障检测装置、设备及计算机可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种云平台的故障检测方法流程图;
图2为本发明实施例公开的另一种云平台的故障检测方法流程图;
图3为本发明实施例公开的一种云平台的故障检测装置示意图;
图4为本发明实施例公开的一种云平台的故障检测设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种云平台的故障检测方法、装置、设备及计算机可读存储介质,以实现在监控和检测云平台故障的同时,保障云平台的稳定性。
参见图1,本发明实施例提供的一种云平台的故障检测方法,包括:
S101、获取目标云平台上部署的目标组件;
S102、通过状态查询命令检测目标组件是否处于运行状态;若是,则执行S103;若否,则执行S104;
S103、调用目标组件的接口并获取调用返回值,并执行S105;
S104、通过重启命令重启目标组件;
S105、判断调用返回值与预设的阈值是否一致;若是,则执行S106;若否,则执行S107;
S106、无操作;
S107、触发报警机制。
在本实施例中,检测目标组件是否处于运行状态时,可使用命令文件中的状态查询命令;当目标组件处于运行状态,需要检测其是否运行正常时,可使用命令文件中的调用命令调用目标组件的接口,当获取的调用返回值与预设的阈值一致时,则表明目标组件正常运行且运行正常;当获取的调用返回值与预设的阈值不一致时,则表明目标组件正常运行但运行异常,即目标组件发生故障,此时则触发报警机制,以便管理人员及时检修目标组件。
其中,命令文件中预先设置了多种命令,包括:状态查询命令、调用命令、启动命令、关闭命令以及重启命令。
可见,本实施例提供了一种云平台的故障检测方法,该方法在获取到目标云平台上部署的目标组件时,通过状态查询命令检测获取到的目标组件是否处于运行状态;当目标组件处于运行状态时,通过调用该目标组件的接口来判断其是否运行正常;当获取到的调用返回值与预设的阈值不一致时,则表明该目标组件处于异常状态,即该目标组件出现的故障,此时则触发报警机制,以便管理人员及时检修目标组件,从而可及时修复云平台出现的故障;同时,由于本方法监测的是云平台上部署的所有组件,因此可减少云平台的负担和开发人员的工作量,也可以减小监控进程对云平台服务的影响,从而可为用户提供安全、稳定的云服务,提高了用户体验。
本发明实施例公开了另一种云平台的故障检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。
参见图2,本发明实施例提供的另一种云平台的故障检测方法,包括:
S201、获取目标云平台上部署的目标组件;
S202、通过状态查询命令检测目标组件是否处于运行状态;若是,则执行S203;若否,则执行S204;
S203、调用目标组件的接口并获取调用返回值,并执行S205;
S204、通过重启命令重启目标组件;
S205、判断调用返回值与预设的阈值是否一致;若是,则执行S206;若否,则执行S207;
S206、无操作;
S207、触发报警机制,并执行S208;
S208、通过状态查询命令查询目标组件中的任务进程的运行状态,并确定出现故障的目标任务进程,并执行S209;
S209、通过重启命令重启目标任务进程。
在本实施例中,目标组件包括:服务组件和基础组件。其中,服务组件包括:云资源管理服务、云服务、业务历服务、计量计费服务、运维管理服务、系统管理服务;基础组件包括:mysql数据库服务、zookeeper注册中心服务、rabbitmq消息组件。
其中,服务组件可按照集中式或分布式方式部署于服务器上。当采用集中式部署时,所有服务组件均集中部署于一台服务器;当采用分布式部署时,各服务组件根据应用需要部署于不同服务器。而云平台由服务器上的各个服务组件共同构建完整的云服务。其中,不同的服务组件可通过IP进行配置,并采用IP方式互相访问。
基础组件为云平台正常运行的基础,因此,基础组件应时刻处于运行状态,当基础组件应未处于运行状态时,立即重启该基础组件,以保证云服务正常对外提供。
可见,本实施例提供了另一种云平台的故障检测方法,该方法在获取到目标云平台上部署的目标组件时,通过状态查询命令检测获取到的目标组件是否处于运行状态;当目标组件处于运行状态时,通过调用该目标组件的接口来判断其是否运行正常;当获取到的调用返回值与预设的阈值不一致时,则表明该目标组件处于异常状态,即该目标组件出现的故障,此时则触发报警机制,以便管理人员及时检修目标组件,从而可及时修复云平台出现的故障;同时,由于本方法监测的是云平台上部署的所有组件,因此可减少云平台的负担和开发人员的工作量,也可以减小监控进程对云平台服务的影响,从而可为用户提供安全、稳定的云服务,提高了用户体验。
基于上述任意实施例,需要说明的是,基于本说明书提供的云平台的故障检测方法,可预设周期进行检测,即:按照预设的时间周期获取目标云平台上部署的目标组件,其中,时间周期的长短可根据实际情况进行调整,故本说明书在此不做具体限定。
基于上述任意实施例,需要说明的是,所述触发报警机制,包括:
获取邮件服务器的地址、邮件用户名和对应的密码;
根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息至预设的目的邮件地址。
其中,所述根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息至预设的目的邮件地址,包括:
根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息和所述目标组件的日志信息至预设的目的邮件地址。
具体的,除了通过邮件方式进行报警之外,还可通过短信、窗口提示等方式告知报警信息。其中,报警邮件的内容包括:出现故障的组件名称、日志信息、故障信息等。
基于上述任意实施例,需要说明的是,基于本说明书提供的云平台的故障检测方法,可设计如下故障检测系统,包括:检测端、修复端和报警端。其中:
检测端,用于每五分钟检测一次云平台上的目标组件;
修复端,用于当检测出目标组件异常时,重启目标组件;
报警端,用于当检测出目标组件异常时,通过登录预设的邮件服务器发送报警邮件。邮件中包含目标组件的名称,可便于管理员定位系统异常。
下面对本发明实施例提供的一种云平台的故障检测装置进行介绍,下文描述的一种云平台的故障检测装置与上文描述的一种云平台的故障检测方法可以相互参照。
参见图3,本发明实施例提供的一种云平台的故障检测装置,包括:
获取模块301,用于获取目标云平台上部署的目标组件;
查询模块302,用于通过状态查询命令检测所述目标组件是否处于运行状态;
检测模块303,用于当所述目标组件处于运行状态时,调用所述目标组件的接口并获取调用返回值,当所述调用返回值与预设的阈值不一致时,触发报警机制。
其中,还包括:
重启模块,用于通过重启命令重启所述目标组件。
其中,所述检测模块包括:
获取单元,用于获取邮件服务器的地址、邮件用户名和对应的密码;
执行单元,用于根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息至预设的目的邮件地址。
其中,所述执行单元具体用于:
根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息和所述目标组件的日志信息至预设的目的邮件地址。
其中,还包括:
查询模块,用于通过状态查询命令查询所述目标组件中的任务进程的运行状态,并确定出现故障的目标任务进程。
其中,还包括:
任务进程重启模块,用于通过重启命令重启所述目标任务进程。
下面对本发明实施例提供的一种云平台的故障检测设备进行介绍,下文描述的一种云平台的故障检测设备与上文描述的一种云平台的故障检测方法及装置可以相互参照。
参见图4,本发明实施例提供的一种云平台的故障检测设备,包括:
存储器401,用于存储计算机程序;
处理器402,用于执行所述计算机程序时实现上述任意实施例所述的云平台的故障检测方法的步骤。
下面对本发明实施例提供的一种计算机可读存储介质进行介绍,下文描述的一种计算机可读存储介质与上文描述的一种云平台的故障检测方法、装置及设备可以相互参照。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意实施例所述的云平台的故障检测方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种云平台的故障检测方法,其特征在于,包括:
获取目标云平台上部署的目标组件;
通过状态查询命令检测所述目标组件是否处于运行状态;
若是,则调用所述目标组件的接口并获取调用返回值,当所述调用返回值与预设的阈值不一致时,触发报警机制。
2.根据权利要求1所述的云平台的故障检测方法,其特征在于,当所述目标组件处于非运行状态时,还包括:
通过重启命令重启所述目标组件。
3.根据权利要求1所述的云平台的故障检测方法,其特征在于,所述触发报警机制,包括:
获取邮件服务器的地址、邮件用户名和对应的密码;
根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息至预设的目的邮件地址。
4.根据权利要求3所述的云平台的故障检测方法,其特征在于,所述根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息至预设的目的邮件地址,包括:
根据所述邮件服务器的地址、邮件用户名和对应的密码登录邮件系统,并发送组件故障信息和所述目标组件的日志信息至预设的目的邮件地址。
5.根据权利要求1-4任意一项所述的云平台的故障检测方法,其特征在于,当所述调用返回值与预设的阈值不一致,在触发所述报警机制时,还包括:
通过状态查询命令查询所述目标组件中的任务进程的运行状态,并确定出现故障的目标任务进程。
6.根据权利要求5所述的云平台的故障检测方法,其特征在于,还包括:
通过重启命令重启所述目标任务进程。
7.一种云平台的故障检测装置,其特征在于,包括:
获取模块,用于获取目标云平台上部署的目标组件;
查询模块,用于通过状态查询命令检测所述目标组件是否处于运行状态;
检测模块,用于当所述目标组件处于运行状态时,调用所述目标组件的接口并获取调用返回值,当所述调用返回值与预设的阈值不一致时,触发报警机制。
8.根据权利要求7所述的云平台的故障检测装置,其特征在于,还包括:
重启模块,用于通过重启命令重启所述目标组件。
9.一种云平台的故障检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-6任意一项所述的云平台的故障检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的云平台的故障检测方法的步骤。
CN201810826852.4A 2018-07-25 2018-07-25 一种云平台的故障检测方法及装置 Pending CN109039729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810826852.4A CN109039729A (zh) 2018-07-25 2018-07-25 一种云平台的故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810826852.4A CN109039729A (zh) 2018-07-25 2018-07-25 一种云平台的故障检测方法及装置

Publications (1)

Publication Number Publication Date
CN109039729A true CN109039729A (zh) 2018-12-18

Family

ID=64646147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810826852.4A Pending CN109039729A (zh) 2018-07-25 2018-07-25 一种云平台的故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN109039729A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427303A (zh) * 2019-07-30 2019-11-08 新华三技术有限公司成都分公司 一种故障告警方法及装置
CN110502397A (zh) * 2019-08-16 2019-11-26 浪潮电子信息产业股份有限公司 一种云平台功能模块的处理方法、装置、电子设备及介质
CN110519330A (zh) * 2019-07-23 2019-11-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于arinc661的多显控数据同步方法及系统
CN110674096A (zh) * 2019-08-28 2020-01-10 北京浪潮数据技术有限公司 节点故障排查方法、装置、设备及计算机可读存储介质
CN111224841A (zh) * 2019-12-31 2020-06-02 湖北省楚天云有限公司 一种政务云平台网站应用的运维方法和系统
CN112148420A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 基于容器技术的异常任务处理方法、服务器及云平台
CN112350840A (zh) * 2019-08-08 2021-02-09 中移物联网有限公司 一种故障监测和修复的方法及相关设备
CN113704016A (zh) * 2021-08-26 2021-11-26 北京百度网讯科技有限公司 云功能组件诊断方法、装置、设备、存储介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统
US20170070412A1 (en) * 2015-09-08 2017-03-09 At&T Intellectual Property I, L.P. Low-Impact Proactive Monitoring of Customer Access to Virtualized Network Elements in a Cloud Platform

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统
US20170070412A1 (en) * 2015-09-08 2017-03-09 At&T Intellectual Property I, L.P. Low-Impact Proactive Monitoring of Customer Access to Virtualized Network Elements in a Cloud Platform

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148420B (zh) * 2019-06-28 2024-04-02 杭州海康威视数字技术股份有限公司 基于容器技术的异常任务处理方法、服务器及云平台
CN112148420A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 基于容器技术的异常任务处理方法、服务器及云平台
CN110519330B (zh) * 2019-07-23 2021-10-22 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于arinc661的多显控数据同步方法及系统
CN110519330A (zh) * 2019-07-23 2019-11-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于arinc661的多显控数据同步方法及系统
CN110427303A (zh) * 2019-07-30 2019-11-08 新华三技术有限公司成都分公司 一种故障告警方法及装置
CN112350840A (zh) * 2019-08-08 2021-02-09 中移物联网有限公司 一种故障监测和修复的方法及相关设备
CN110502397A (zh) * 2019-08-16 2019-11-26 浪潮电子信息产业股份有限公司 一种云平台功能模块的处理方法、装置、电子设备及介质
CN110674096A (zh) * 2019-08-28 2020-01-10 北京浪潮数据技术有限公司 节点故障排查方法、装置、设备及计算机可读存储介质
CN110674096B (zh) * 2019-08-28 2022-07-05 北京浪潮数据技术有限公司 节点故障排查方法、装置、设备及计算机可读存储介质
CN111224841B (zh) * 2019-12-31 2021-07-23 湖北省楚天云有限公司 一种政务云平台网站应用的运维方法和系统
CN111224841A (zh) * 2019-12-31 2020-06-02 湖北省楚天云有限公司 一种政务云平台网站应用的运维方法和系统
CN113704016A (zh) * 2021-08-26 2021-11-26 北京百度网讯科技有限公司 云功能组件诊断方法、装置、设备、存储介质及程序产品
CN113704016B (zh) * 2021-08-26 2023-07-28 北京百度网讯科技有限公司 云功能组件诊断方法、装置、设备、存储介质

Similar Documents

Publication Publication Date Title
CN109039729A (zh) 一种云平台的故障检测方法及装置
CN101800675B (zh) 故障监控方法、监控设备及通信系统
CN105610648B (zh) 一种运维监控数据的采集方法及服务器
CN107544839B (zh) 虚拟机迁移系统、方法及装置
CN110888780A (zh) 应用监控方法、装置、设备及存储介质
US20140172371A1 (en) Adaptive fault diagnosis
CN103607297A (zh) 一种计算机集群系统的故障处理方法
EP3239840B1 (en) Fault information provision server and fault information provision method
CN109286529A (zh) 一种恢复RabbitMQ网络分区的方法及系统
JP2020115330A (ja) ソフトウエアアプリケーションプロセスを監視するシステムと方法
CN110618864A (zh) 一种中断任务恢复方法及装置
CN111565135A (zh) 监控服务器运行的方法、监控服务器和存储介质
CN112187511A (zh) 一种定位微服务熔断异常的方法、系统、设备及介质
CN109684176A (zh) 一种告警信息的上报方法、系统及相关组件
CN106506278B (zh) 一种服务可用性监控方法及装置
CN111611057A (zh) 分布式重试方法、装置、电子设备和存储介质
CN111026606A (zh) 基于hystrix熔断器监控的报警方法、装置及计算机设备
CN110312245A (zh) 一种跨国漫游终端的业务监控方法及装置
CN104618461A (zh) 一种基于动码云手机的服务器监控方法
CN115712521A (zh) 一种集群节点故障处理方法、系统及介质
CN110752972A (zh) 一种网卡状态监控方法、装置、设备及介质
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
CN113886122B (zh) 一种系统运行异常处理方法、装置、设备及存储介质
CN112036828B (zh) 一种裸金属的管理方法、装置、设备及介质
CN107590647A (zh) 船舶管理系统的伺服监管系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218