CN117472621A - 一种故障处理方法、装置、设备及机器可读存储介质 - Google Patents

一种故障处理方法、装置、设备及机器可读存储介质 Download PDF

Info

Publication number
CN117472621A
CN117472621A CN202311282535.8A CN202311282535A CN117472621A CN 117472621 A CN117472621 A CN 117472621A CN 202311282535 A CN202311282535 A CN 202311282535A CN 117472621 A CN117472621 A CN 117472621A
Authority
CN
China
Prior art keywords
target process
reproduction file
data associated
fault
fault reproduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311282535.8A
Other languages
English (en)
Inventor
雷鸣春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd
Original Assignee
New H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd filed Critical New H3C Technologies Co Ltd
Priority to CN202311282535.8A priority Critical patent/CN117472621A/zh
Publication of CN117472621A publication Critical patent/CN117472621A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供一种故障处理方法、装置、设备及机器可读存储介质,该方法包括:响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件;监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件;所述第一指令还包括条件信息,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件。通过本公开的技术方案,捕捉目标进程正常状态下的数据和运行直至为设定状态的数据变化,生成相应的故障复现文件,使得后期可以根据故障复现文件在特定模拟环境下复现目标进程的完整运行状况。

Description

一种故障处理方法、装置、设备及机器可读存储介质
技术领域
本公开涉及通信技术领域,尤其是涉及一种故障处理方法、装置、设备及机器可读存储介质。
背景技术
BMC是服务器集成的一个带外管理子系统,基于IPMI协议,可以远程监控和管理服务器系统。BMC系统有一个ARM内核的处理器,该处理器通过各种总线连接其他部件,比如通过I2C总线连接各种存储卡、网卡等,通过I2C总线读取各种PCIE卡的信息,比如温度信息,卡的型号等信息,对服务器的部件进行带外管理。
用户现场出现一个存储卡故障的日志信息,上报给研发后,需要研发进行定位分析,看具体是什么原因造成的,而研发可能只拿到了用户现场的日志信息,因此要定位具体问题原因有时是困难的,因此经常需要在研发现场搭建用户一样的硬件环境进行复现,但即使硬件环境一样,有时也难以复现出问题,因为即使硬件环境一样只是静态环境一样,动态的环境是难以模拟的。
发明内容
有鉴于此,本公开提供一种故障处理方法、装置及电子设备、机器可读存储介质,以改善上述故障和异常难以复现的问题。
具体地技术方案如下:
本公开提供了一种故障处理方法,应用于BMC设备,所述方法包括:响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件,所述目标进程关联的即时数据包括当前目标进程关联的CPU上下文数据和内存数据;监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息;所述第一指令还包括条件信息,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件;所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程。
作为一种技术方案,所述条件信息包括目标进程发生异常状态事件和/或关联于目标进程的故障日志被生成和/或目标进程关联的运行数据达到特定配置的状态。
作为一种技术方案,所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程,包括:所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境,在特定模拟环境中根据第一故障复现文件配置基础运行数据,根据第二故障复现文件逐步修改运行数据,直至复现达成所示指定条件的事件。
作为一种技术方案,所述监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息,包括:按照代码为粒度或按照二进制指令块为粒度,记录目标进程运行中其关联的CPU上下文数据和内存数据的变化。
本公开同时提供了一种故障处理装置,应用于BMC设备,所述装置包括:第一模块,用于响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件,所述目标进程关联的即时数据包括当前目标进程关联的CPU上下文数据和内存数据;第二模块,用于监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息;第三模块,用于所述第一指令还包括条件信息,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件;所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程。
作为一种技术方案,所述条件信息包括目标进程发生异常状态事件和/或关联于目标进程的故障日志被生成和/或目标进程关联的运行数据达到特定配置的状态。
作为一种技术方案,所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程,包括:所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境,在特定模拟环境中根据第一故障复现文件配置基础运行数据,根据第二故障复现文件逐步修改运行数据,直至复现达成所示指定条件的事件。
作为一种技术方案,所述监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息,包括:按照代码为粒度或按照二进制指令块为粒度,记录目标进程运行中其关联的CPU上下文数据和内存数据的变化。
本公开同时提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的故障处理方法。
本公开同时提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的故障处理方法。
本公开提供的上述技术方案至少带来了以下有益效果:
通过捕捉目标进程正常状态下的数据和运行直至为设定状态的数据变化,生成相应的故障复现文件,使得后期可以根据故障复现文件在特定模拟环境下复现目标进程的完整运行状况,从而复现出现的异常或故障或任意其他设定的状态,为定位问题便捷地提供依据。
附图说明
为了更加清楚地说明本公开实施方式或者现有技术中的技术方案,下面将对本公开实施方式或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施方式,对于本领域普通技术人员来讲,还可以根据本公开实施方式的这些附图获得其他的附图。
图1是本公开一种实施方式中的故障处理方法的流程图;
图2是本公开一种实施方式中的故障处理装置的结构图;
图3是本公开一种实施方式中的电子设备的硬件结构图。
附图标记:第一模块21,第二模块22,第三模块23。
具体实施方式
在本公开实施方式使用的术语仅仅是出于描述特定实施方式的目的,而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施方式可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开提供一种故障处理方法、装置及电子设备、机器可读存储介质,以改善上述技术问题。
具体地技术方案如后述。
在一种实施方式中,本公开提供了一种故障处理方法,应用于BMC设备,所述方法包括:响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件,所述目标进程关联的即时数据包括当前目标进程关联的CPU上下文数据和内存数据;监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息;所述第一指令还包括条件信息,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件;所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程。
具体地,如图1,包括以下步骤:
步骤S11,响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件;
步骤S12,监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件;
步骤S13,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件。
通过捕捉目标进程正常状态下的数据和运行直至为设定状态的数据变化,生成相应的故障复现文件,使得后期可以根据故障复现文件在特定模拟环境下复现目标进程的完整运行状况,从而复现出现的异常或故障或任意其他设定的状态,为定位问题便捷地提供依据。
在一种实施方式中,所述条件信息包括目标进程发生异常状态事件和/或关联于目标进程的故障日志被生成和/或目标进程关联的运行数据达到特定配置的状态。
在一种实施方式中,所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程,包括:所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境,在特定模拟环境中根据第一故障复现文件配置基础运行数据,根据第二故障复现文件逐步修改运行数据,直至复现达成所示指定条件的事件。
在一种实施方式中,所述监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息,包括:按照代码为粒度或按照二进制指令块为粒度,记录目标进程运行中其关联的CPU上下文数据和内存数据的变化。
BMC系统故障的触发因素可以分成两类,一类是系统软件开发过程中引入错误造成的故障,比如代码开发中遗漏释放内存,第二类是由于外部输入触发造成的故障。在一个Linux进程中,进程变化表现在内存中,比如一个I2C输入的错误,最终要从I2C总线把读入到内存中,进程才能处理。
在一种实施方式中,通过触发捕获动作,将BMC系统中发生预计会发生故障的进程内存和CPU上下文信息保存为镜像文件,然后下载日志后,把捕获镜像文件在模拟环境进行回放,从而复现出问题的现场,将一个随机出现的问题变成一种必现的现场环境,从而协助进行相关故障的定位。
具体地,BMC设备通过I2C总线连接到各种PCIE卡等部件,通过I2C给PCIE卡发送命令,PCIE卡上的FW会根据命令回应数据,从而BMC可以获取各种部件的信息,对部件进行带外管理。BMC还通过LPC总线连接PCH,通过GPIO线连接CPLD等部件。
BMC芯片上运行的BMC软件,通过带外命令行触发,可以保存目标进程的CPU上下文和内存镜像,保存到第一故障复现文件中,称为文件A。带外命令中携带了指定的进程信息,以及记录了结束的条件信息,条件可以是当指定故障发生时产生的日志等。
在后续运行过程中,BMC系统监控该进程的CPU上下文和内存镜像的变化做记录,即记录当前CPU上下文和内存镜像的差异数据到第二故障复现文件中,称为文件B。记录的粒度大小可以是一行代码,或者一个二进制指令块等。
BMC系统监控条件信息指定的结束条件是否满足;条件满足,即指定的故障或异常或其他事件发生了,则停止B文件的记录,并给出提示信息,否则持续记录更新B文件。
用户看到提示信息后,通过BMC下载服务器的日志,日志中时会包含A和B文件。根据日志文件包括的A和B文件,在一个特定模拟的环境中,导入目标进程的A文件恢复该进程的初始状态,然后将B文件作为输入,根据B文件的记录,依照时间顺序修改模拟进程中对应的内存数据和CPU上下文数据,实现展现出进程从一个正常状态下运行到异常状态的过程,从而模拟出用户现场的动态环境,将一个问题从随机复现的状态变成一个必现的状态复现出来。
在一种实施方式中,如图2,本公开同时提供了一种故障处理装置,应用于BMC设备,所述装置包括:第一模块,用于响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件,所述目标进程关联的即时数据包括当前目标进程关联的CPU上下文数据和内存数据;第二模块,用于监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息;第三模块,用于所述第一指令还包括条件信息,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件;所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程。
在一种实施方式中,所述条件信息包括目标进程发生异常状态事件和/或关联于目标进程的故障日志被生成和/或目标进程关联的运行数据达到特定配置的状态。
在一种实施方式中,所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程,包括:所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境,在特定模拟环境中根据第一故障复现文件配置基础运行数据,根据第二故障复现文件逐步修改运行数据,直至复现达成所示指定条件的事件。
在一种实施方式中,所述监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息,包括:按照代码为粒度或按照二进制指令块为粒度,记录目标进程运行中其关联的CPU上下文数据和内存数据的变化。
装置实施方式与对应的方法实施方式相同或相似,在此不再赘述。
在一种实施方式中,本公开提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的故障处理方法,从硬件层面而言,硬件架构示意图可以参见图3所示。
在一种实施方式中,本公开提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的故障处理方法。
这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本公开的实施方式可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域技术人员应明白,本公开的实施方式可提供为方法、系统或计算机程序产品。因此,本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且,本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。以上所述仅为本公开的实施方式而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。

Claims (10)

1.一种故障处理方法,其特征在于,应用于BMC设备,所述方法包括:
响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件,所述目标进程关联的即时数据包括当前目标进程关联的CPU上下文数据和内存数据;
监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息;
所述第一指令还包括条件信息,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件;
所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程。
2.根据权利要求1所述的方法,其特征在于,所述条件信息包括目标进程发生异常状态事件和/或关联于目标进程的故障日志被生成和/或目标进程关联的运行数据达到特定配置的状态。
3.根据权利要求1所述的方法,其特征在于,所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程,包括:
所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境,在特定模拟环境中根据第一故障复现文件配置基础运行数据,根据第二故障复现文件逐步修改运行数据,直至复现达成所示指定条件的事件。
4.根据权利要求1所述的方法,其特征在于,所述监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息,包括:
按照代码为粒度或按照二进制指令块为粒度,记录目标进程运行中其关联的CPU上下文数据和内存数据的变化。
5.一种故障处理装置,其特征在于,应用于BMC设备,所述装置包括:
第一模块,用于响应于第一指令,根据第一指令包含的进程信息,对目标进程关联的即时数据进行记录,根据目标进程关联的即时数据生成第一故障复现文件,所述目标进程关联的即时数据包括当前目标进程关联的CPU上下文数据和内存数据;
第二模块,用于监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息;
第三模块,用于所述第一指令还包括条件信息,根据条件信息判断是否达成指定条件,在达成指定条件后,停止更新第一故障复现文件和第二故障复现文件;
所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程。
6.根据权利要求5所述的装置,其特征在于,所述条件信息包括目标进程发生异常状态事件和/或关联于目标进程的故障日志被生成和/或目标进程关联的运行数据达到特定配置的状态。
7.根据权利要求5所述的装置,其特征在于,所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境中复现目标进程的运行过程,包括:
所述第一故障复现文件和第二故障复现文件用于被导入特定模拟环境,在特定模拟环境中根据第一故障复现文件配置基础运行数据,根据第二故障复现文件逐步修改运行数据,直至复现达成所示指定条件的事件。
8.根据权利要求5所述的装置,其特征在于,所述监测目标进程运行,对目标进程关联的运行数据进行记录,根据目标进程关联的运行数据生成第二故障复现文件,所述目标进程关联的运行数据包括目标进程运行中其关联的CPU上下文数据和内存数据的变化信息,包括:
按照代码为粒度或按照二进制指令块为粒度,记录目标进程运行中其关联的CPU上下文数据和内存数据的变化。
9.一种电子设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令,以实现权利要求1-4任一所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-4任一所述的方法。
CN202311282535.8A 2023-09-30 2023-09-30 一种故障处理方法、装置、设备及机器可读存储介质 Pending CN117472621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311282535.8A CN117472621A (zh) 2023-09-30 2023-09-30 一种故障处理方法、装置、设备及机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311282535.8A CN117472621A (zh) 2023-09-30 2023-09-30 一种故障处理方法、装置、设备及机器可读存储介质

Publications (1)

Publication Number Publication Date
CN117472621A true CN117472621A (zh) 2024-01-30

Family

ID=89622973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311282535.8A Pending CN117472621A (zh) 2023-09-30 2023-09-30 一种故障处理方法、装置、设备及机器可读存储介质

Country Status (1)

Country Link
CN (1) CN117472621A (zh)

Similar Documents

Publication Publication Date Title
US8538925B2 (en) System and method for backing up test data
CN114675791B (zh) 一种磁盘处理方法、系统及电子设备
CN110851307A (zh) 振动环境下硬盘性能测试方法、系统、终端及存储介质
CN113672340A (zh) 一种虚拟机的增量备份方法、系统、装置及可读存储介质
US7600151B2 (en) RAID capacity expansion interruption recovery handling method and system
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN117472621A (zh) 一种故障处理方法、装置、设备及机器可读存储介质
CN111597093B (zh) 一种异常处理方法、装置及其设备
CN111522598A (zh) 嵌入式设备的重启信息记录方法及装置
CN115480880A (zh) 一种持续数据保护方法、系统及电子设备
CN106909484B (zh) 一种用于存储环境下模拟坏盘测试的系统及方法
US20100268993A1 (en) Disablement of an exception generating operation of a client system
CN109426589B (zh) 一种文件修复方法及装置
CN111367750A (zh) 一种异常处理方法、装置及其设备
CN110837433A (zh) 性能优化方法、装置及电子设备
CN116578446B (zh) 虚拟机备份方法、装置、系统、电子设备及存储介质
CN112306747B (zh) 一种raid卡故障处理方法及装置
CN114968641A (zh) 一种日志管理方法、装置、设备及机器可读存储介质
US8112591B1 (en) System and method for detection of non-deterministic memory access events
CN115269238A (zh) 一种故障记录方法、装置、设备及机器可读存储介质
CN116820862A (zh) 一种内存故障模拟方法、装置、设备及机器可读存储介质
CN118093362A (zh) 程序测试方法、装置、设备、存储介质及程序产品
CN117421156A (zh) 一种固件管理方法、装置、设备及机器可读存储介质
CN116401118A (zh) 一种文件共享服务Samba监测方法及装置
CN117331738A (zh) 一种基于稳定性问题的日志处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination