CN113821415A - 一种程序故障的处理方法及相关装置 - Google Patents

一种程序故障的处理方法及相关装置 Download PDF

Info

Publication number
CN113821415A
CN113821415A CN202111399108.9A CN202111399108A CN113821415A CN 113821415 A CN113821415 A CN 113821415A CN 202111399108 A CN202111399108 A CN 202111399108A CN 113821415 A CN113821415 A CN 113821415A
Authority
CN
China
Prior art keywords
snapshot
memory
thread
program
tomcat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111399108.9A
Other languages
English (en)
Inventor
赵路
张益军
王金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Feihu Information Technology Tianjin Co Ltd
Original Assignee
Feihu Information Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Feihu Information Technology Tianjin Co Ltd filed Critical Feihu Information Technology Tianjin Co Ltd
Priority to CN202111399108.9A priority Critical patent/CN113821415A/zh
Publication of CN113821415A publication Critical patent/CN113821415A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种程序故障的处理方法及相关装置,获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器GC占用时长;响应于所述内存占用率、所述GC占用时长或所述tomcat线程池使用率中的至少一项达到预设阈值以上,生成所述当前设备的内存快照和线程快照。本申请中,基于设备的多个指标来对设备的故障情况进行实时监控,当某个指标达到发生故障的阈值时,则可以自动生成当前设备的内存快照和线程快照,便于管理人员及时发现故障、回溯故障,从而提高了程序故障的处理效率。

Description

一种程序故障的处理方法及相关装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种程序故障的处理方法及相关装置。
背景技术
Java服务在运行期间可能会因为各种原因导致服务处理缓慢、重启甚至不可用等。而通常出现这种情况时,普通的业务日志并不能帮助维护人员定位问题,这些问题通常由于死锁或死循环等原因导致。这时通常使用jmap和jstack命令来获取当前的jvm内存快照与线程快照,以分析定位问题原因。但是由于jmap和jstack只能获取当前快照,如果过了问题的出现时间,则无法溯源当时jvm情况。
因此,一种能够及时保存程序故障现场的方案亟待推出。
发明内容
本申请实施例提供了一种程序故障的处理方法及相关装置,用于提高程序故障的处理效率。
第一方面,本申请实施例提供了一种程序故障的处理方法,包括:
获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器(garbagecollection,GC)占用时长;
响应于所述内存占用率、所述GC占用时长或所述tomcat线程池使用率中的至少一项达到预设阈值以上,生成所述当前设备的内存快照和线程快照。
基于第一方面,一种可选的实施方式中,所述生成所述当前设备的内存快照和线程快照,包括:
通过jmap采集所述当前设备的内存快照;
通过jstack采集所述当前设备的线程快照。
基于第一方面,一种可选的实施方式中,所述生成所述当前设备的内存快照和线程快照之后,所述方法还包括:
向管理设备反馈故障消息,所述故障消息包括所述内存快照和所述线程快照。
基于第一方面,一种可选的实施方式中,所述tomcat线程池使用率是通过Micrometer函数所采集到的。
第二方面,本申请实施例提供了一种程序故障处理装置,其特征在于,包括:
获取单元,用于获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器GC占用时长;
生成单元,用于当所述内存占用率、所述GC占用时长或所述tomcat线程池使用率中的至少一项达到预设阈值以上时,生成所述当前设备的内存快照和线程快照。
基于第二方面,一种可选的实施方式中,所述生成单元具体用于:
通过jmap采集所述当前设备的内存快照;
通过jstack采集所述当前设备的线程快照。
基于第二方面,一种可选的实施方式中,所述程序故障处理装置还包括:
反馈单元,用于向管理设备反馈故障消息,所述故障消息包括所述内存快照和所述线程快照。
基于第二方面,一种可选的实施方式中,所述tomcat线程池使用率是通过Micrometer函数所采集到的。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、通信接口及与所述存储器和通信接口耦合的处理器;所述存储器用于存储指令,所述处理器用于执行所述指令,所述通信接口用于在所述处理器的控制下与其他设备进行通信;其中,所述处理器执行所述指令时执行上述任一方面所述的程序故障的处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述任一方面所述的程序故障的处理方法。
第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,当其在计算机上运行时,使得计算机执行上述任一方面所述的程序故障的处理方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请公开了一种程序故障的处理方法及相关装置,获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器GC占用时长;响应于所述内存占用率、所述GC占用时长或所述tomcat线程池使用率中的至少一项达到预设阈值以上,生成所述当前设备的内存快照和线程快照。本申请中,基于设备的多个指标来对设备的故障情况进行实时监控,当某个指标达到发生故障的阈值时,则可以自动生成当前设备的内存快照和线程快照,便于管理人员及时发现故障、回溯故障,从而提高了程序故障的处理效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种程序故障的处理方法的流程示意图;
图2为本申请实施例提供的程序故障处理装置的结构示意图;
图3为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
本申请实施例提供了一种程序故障的处理方法及相关装置,用于提高程序故障的处理效率。
下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1为本申请实施例提供的一种程序故障的处理方法的流程示意图,如图1所示,本申请实施例中程序故障的处理方法包括:
101.获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器(garbagecollection,GC)占用时长。
本申请实施例所提供的程序故障的处理方法,可以用于运行java服务的服务器,对该服务器中所发生的故障进行实时监控。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、大数据或人工智能平台等基础云计算服务的云服务器,具体此处不做限定。
本申请可以通过SpringBoot框架,调用Micrometer函数来获取设备的内存占用率、tomcat线程池使用率和GC占用时长。其中,对于内存占用率和GC占用时长的采集,是Micrometer函数默认提供的功能,无需任何配置即可获取。而tomcat线程池使用率指标需要手动采集,实现SpringBoot提供的扩展接口来定制tomcat线程池。例如,SpringBoot 1.x版本通过EmbeddedServletContainerCustomizer接口来实现,而2.x版本则是通过TomcatConnectorCustomizer接口来实现的。在自定义的线程池初始化时,埋入Micrometer函数来采集“tomcat线程池使用率”。
对于“GC占用时长”这一指标,可以选定当前设备在单位周期内的执行GC的最大耗时,来作为本申请中的“GC占用时长”。Java语言中不需要程序员手动回收内存空间,Java提供了GC来自动清理无用对象回收内存空间。但是,GC操作将暂停所有其他的线程以保证对象清理的正确性。所以GC的占用时长会影响JAVA服务的可用性。因此,本申请中,通过“GC占用时长”这一指标,可以有效地反映出JAVA服务是否有效地执行,若GC占用时长超过阈值,则说明当前的JAVA服务已经收到了影响,存在故障。
对于“内存占用率”这一指标,为了防止误判,比如出现内存占用率突增又下降的情况。所以,本申请实施例中,可以结合多次采集结果,来进行判断是否发生故障。具体的在一个给定的时长周期内,以相同的时间间隔来多次采集内存占用率,若该时长周期内所采集到的多次的“内存占用率”均超过了阈值,则说明该时长周期内的“内存占用率”超过了阈值,存在故障。同理,针对于“内存占用率”这一指标的采集逻辑,也可以应用于“tomcat线程池使用率”的采集,具体此处不再赘述。
102.响应于内存占用率、GC占用时长或tomcat线程池使用率中的至少一项达到预设阈值以上,生成当前设备的内存快照和线程快照。
本申请实施例中,针对内存占用率、GC占用时长和tomcat线程池使用率这三个指标,分别配置了对应的预设阈值,当其中任意一个指标达到预设阈值以上时,则生成当前设备的内存快照和线程快照。
具体的,本申请实施例中,是通过jmap采集当前设备的内存快照,通过jstack采集当前设备的线程快照的。其中,jmap是JDK中提供的一个用来监视进程运行中的Java虚拟机(Java virtual machine,JVM)物理内存的占用情况的工具。通常java程序员通过这个命令来获取jvm的内存快照,查看进程中内存占用情况,以分析程序问题;jstack是JDK自带的一种堆栈跟踪工具。通常java程序员通过这个命令来获取jvm的线程快照,查看进程当前的堆栈信息,以分析当前程序运行状况。
在实际应用中,可以将预先写好的jmap与jstack命令编写成脚本文件,上传至服务器对应的目录。这样,在内存占用率、GC占用时长或tomcat线程池使用率中的至少一项达到预设阈值以上时,只需执行这个脚本文件就可以执行内存快照和线程快照。
进一步的,为了及时提醒管理人员发现故障,本申请实施例中,在设备触发故障,生成内存快照和线程快照之后,还可以向管理设备反馈故障消息,该故障消息包括内存快照和线程快照,便于管理人员及时根据内存快照和线程快照进行分析。
本申请中,基于设备的多个指标来对设备的故障情况进行实时监控,当某个指标达到发生故障的阈值时,则可以自动生成当前设备的内存快照和线程快照,便于管理人员及时发现故障、回溯故障,从而提高了程序故障的处理效率。
在图1所对应的实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体请参阅图2,图2为本申请实施例提供的程序故障处理装置的结构示意图,程序故障处理装置包括:
获取单元201,用于获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器GC占用时长;
生成单元202,用于当所述内存占用率、所述GC占用时长或所述tomcat线程池使用率中的至少一项达到预设阈值以上时,生成所述当前设备的内存快照和线程快照。
基于第二方面,一种可选的实施方式中,所述生成单元202具体用于:
通过jmap采集所述当前设备的内存快照;
通过jstack采集所述当前设备的线程快照。
基于第二方面,一种可选的实施方式中,所述程序故障处理装置还包括:
反馈单元203,用于向管理设备反馈故障消息,所述故障消息包括所述内存快照和所述线程快照。
基于第二方面,一种可选的实施方式中,所述tomcat线程池使用率是通过Micrometer函数所采集到的。
需要说明的是,程序故障处理装置中各模块/单元之间的信息交互、执行过程等内容,与本申请中图2对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供了一种计算机设备,请参阅图3,图3为本申请实施例提供的计算机设备的结构示意图,计算机设备300上可以部署有图2对应实施例中所描述的程序故障处理装置。具体的,计算机设备300由一个或多个服务器实现,计算机设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在计算机设备300上执行存储介质330中的一系列指令操作。
计算机设备300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图1所示实施例描述的方法。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述图1所示实施例描述的方法。
所另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

Claims (10)

1.一种程序故障的处理方法,其特征在于,包括:
获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器GC占用时长;
响应于所述内存占用率、所述GC占用时长或所述tomcat线程池使用率中的至少一项达到预设阈值以上,生成所述当前设备的内存快照和线程快照。
2.根据权利要求1所述的方法,其特征在于,所述生成所述当前设备的内存快照和线程快照,包括:
通过jmap采集所述当前设备的内存快照;
通过jstack采集所述当前设备的线程快照。
3.根据权利要求1所述的方法,其特征在于,所述生成所述当前设备的内存快照和线程快照之后,所述方法还包括:
向管理设备反馈故障消息,所述故障消息包括所述内存快照和所述线程快照。
4.根据权利要求1、2或3所述的方法,其特征在于,所述tomcat线程池使用率是通过Micrometer函数所采集到的。
5.一种程序故障处理装置,其特征在于,包括:
获取单元,用于获取当前设备的内存占用率、tomcat线程池使用率和垃圾收集器GC占用时长;
生成单元,用于当所述内存占用率、所述GC占用时长或所述tomcat线程池使用率中的至少一项达到预设阈值以上时,生成所述当前设备的内存快照和线程快照。
6.根据权利要求5所述的程序故障处理装置,其特征在于,所述生成单元具体用于:
通过jmap采集所述当前设备的内存快照;
通过jstack采集所述当前设备的线程快照。
7.根据权利要求5所述的程序故障处理装置,其特征在于,所述程序故障处理装置还包括:
反馈单元,用于向管理设备反馈故障消息,所述故障消息包括所述内存快照和所述线程快照。
8.根据权利要求5、6或7所述的程序故障处理装置,其特征在于,所述tomcat线程池使用率是通过Micrometer函数所采集到的。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器耦合,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述计算机设备执行如权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至4中任一项所述的方法。
CN202111399108.9A 2021-11-24 2021-11-24 一种程序故障的处理方法及相关装置 Pending CN113821415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111399108.9A CN113821415A (zh) 2021-11-24 2021-11-24 一种程序故障的处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111399108.9A CN113821415A (zh) 2021-11-24 2021-11-24 一种程序故障的处理方法及相关装置

Publications (1)

Publication Number Publication Date
CN113821415A true CN113821415A (zh) 2021-12-21

Family

ID=78918127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111399108.9A Pending CN113821415A (zh) 2021-11-24 2021-11-24 一种程序故障的处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN113821415A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634738A (zh) * 2018-10-19 2019-04-16 深圳平安财富宝投资咨询有限公司 基于微服务的异步处理方法、服务器、存储介质及装置
CN111045908A (zh) * 2019-12-13 2020-04-21 深圳前海环融联易信息科技服务有限公司 系统性能监控方法、装置及计算机设备
US20200280771A1 (en) * 2016-10-14 2020-09-03 Pacific Gas And Electric Company Smart energy metering system and method
US10810110B1 (en) * 2018-01-25 2020-10-20 Intuit Inc. Methods, systems, and articles of manufacture for testing web services using a behavior-driven development domain specific language framework
CN112615759A (zh) * 2020-12-17 2021-04-06 上海哔哩哔哩科技有限公司 全链路压测组件、全链路压测方法及装置
CN113064762A (zh) * 2021-04-09 2021-07-02 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200280771A1 (en) * 2016-10-14 2020-09-03 Pacific Gas And Electric Company Smart energy metering system and method
US10810110B1 (en) * 2018-01-25 2020-10-20 Intuit Inc. Methods, systems, and articles of manufacture for testing web services using a behavior-driven development domain specific language framework
CN109634738A (zh) * 2018-10-19 2019-04-16 深圳平安财富宝投资咨询有限公司 基于微服务的异步处理方法、服务器、存储介质及装置
CN111045908A (zh) * 2019-12-13 2020-04-21 深圳前海环融联易信息科技服务有限公司 系统性能监控方法、装置及计算机设备
CN112615759A (zh) * 2020-12-17 2021-04-06 上海哔哩哔哩科技有限公司 全链路压测组件、全链路压测方法及装置
CN113064762A (zh) * 2021-04-09 2021-07-02 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法

Similar Documents

Publication Publication Date Title
US10152382B2 (en) Method and system for monitoring virtual machine cluster
US10489232B1 (en) Data center diagnostic information
CN107016480B (zh) 任务调度方法、装置及系统
US9841986B2 (en) Policy based application monitoring in virtualized environment
US11526386B2 (en) System and method for automatically scaling a cluster based on metrics being monitored
US20170132063A1 (en) Information system fault scenario information collecting method and system
CN105389243A (zh) 一种容器监控方法和装置
CN111552556B (zh) 一种gpu集群服务管理系统及方法
US11157373B2 (en) Prioritized transfer of failure event log data
CN107491371B (zh) 一种监控部署的方法以及装置
US20100077258A1 (en) Generate diagnostic data for overdue thread in a data processing system
CN105580007A (zh) 监控计算网络
CN112149975B (zh) 一种基于人工智能的apm监控系统及监控方法
US20140164851A1 (en) Fault Processing in a System
CN110865919B (zh) 基于java进程的监控方法、装置和计算机设备
US11544091B2 (en) Determining and implementing recovery actions for containers to recover the containers from failures
CN113821415A (zh) 一种程序故障的处理方法及相关装置
US9274905B1 (en) Configuration tests for computer system
CN115525392A (zh) 容器监控方法、装置、电子设备及存储介质
CN110188008B (zh) 作业调度主备切换方法、装置、计算机设备及存储介质
CN109062718B (zh) 一种服务器及数据处理方法
CN111857689A (zh) 一种框架、框架的功能配置方法、终端及存储介质
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群系统
CN110647419A (zh) 一种故障检测的方法、装置、计算机存储介质及终端
US11720431B1 (en) Identifying and reporting baseboard management controller performance degradation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211221