CN112015597A - 一种故障隔离方法、装置、设备及计算机可读存储介质 - Google Patents

一种故障隔离方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112015597A
CN112015597A CN202011154430.0A CN202011154430A CN112015597A CN 112015597 A CN112015597 A CN 112015597A CN 202011154430 A CN202011154430 A CN 202011154430A CN 112015597 A CN112015597 A CN 112015597A
Authority
CN
China
Prior art keywords
pcie
data transmission
equipment
error
error reporting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011154430.0A
Other languages
English (en)
Other versions
CN112015597B (zh
Inventor
杨学总
史文举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011154430.0A priority Critical patent/CN112015597B/zh
Publication of CN112015597A publication Critical patent/CN112015597A/zh
Application granted granted Critical
Publication of CN112015597B publication Critical patent/CN112015597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障隔离方法、装置、设备及计算机可读存储介质,本申请可以在计算机设备重启后对导致该次重启的报错的PCIE设备进行数据传输能力的降级,无论报错的PCIE设备的某个数据传输通道数据传输能力损失了多少,在降级之后,PCIE设备对其内部的故障的数据传输通道的数据传输能力的要求便会有可能不大于其剩余能力,如此一来该PCIE设备便不会再报错,计算机设备也得以正常运行原有业务,提高了工作效率;另外,由于预设报错次数与降级等级的对应关系呈正相关关系,表明本申请可以逐步提升对于数据传输能力的降级程度,以便尽可能小的降低报错PCIE设备的数据传输能力,可以最大化地利用PCIE设备的剩余性能。

Description

一种故障隔离方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及计算机设备领域,特别是涉及一种故障隔离方法,本发明还涉及一种故障隔离装置、设备及计算机可读存储介质。
背景技术
计算机设备(例如服务器)上通常会连接一些PCIE(Peripheral ComponentInterconnect Express,高速串行计算机扩展总线标准)设备以增强计算、存储或者网络等功能,在PCIE设备使用的过程中,随着长时间运行以及设备的老化,PCIE设备很可能发生报错的情况,面对PCIE设备的报错,计算机设备通常会通过重启并重新对PCIE设备进行初始化的方式,来尝试修复PCIE设备的问题,但是很有可能无法奏效,也即重启过后PCIE设备的错误依然存在,在这种情况下,由于PCIE设备的报错,计算机设备便会陷入不断重启的状态,无法正常执行原有业务,降低了工作效率。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种故障隔离方法,能够自动消除PCIE设备的报错并使得计算机设备正常运行,提高了工作效率,且最大化地利用了报错PCIE设备的剩余性能;本发明的另一目的是提供一种故障隔离装置、设备及计算机可读存储介质,能够自动消除PCIE设备的报错并使得计算机设备正常运行,提高了工作效率,且最大化地利用了报错PCIE设备的剩余性能。
为解决上述技术问题,本发明提供了一种故障隔离方法,包括:
在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数;
根据预设报错次数与降级等级的对应关系确定出所述报错次数对应的降级等级;
将所述PCIE设备的数据传输能力降低所述降级等级,以便隔离掉所述PCIE设备中的故障通道;
其中,所述预设报错次数与降级等级的对应关系呈正相关关系。
优选地,所述在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数之前,该故障隔离方法还包括:
在计算机设备重启时,获取导致该次重启的报错的PCIE设备的标识;
根据所述标识判断当前是否能够读取到导致该次重启的所述PCIE设备;
若是,则执行在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数的步骤。
优选地,所述导致该次重启的报错的PCIE设备的标识具体为:
基板管理控制器BMC在接收到操作系统发送的报错的PCIE设备的槽位号后,读取并存储的所述槽位号对应的所述PCIE设备的序列号;
则所述导致该次重启的报错的PCIE设备的报错累计次数具体为:
所述BMC根据报错的所述PCIE设备对应的序列号读取次数存储的报错累计次数。
优选地,所述序列号以及所述报错累计次数均被所述BMC存储于带电可擦可编程只读存储器EEPROM。
优选地,所述将所述PCIE设备的数据传输能力降低所述降级等级具体为:
将所述PCIE设备的数据传输带宽或数据传输速率降低所述降级等级。
优选地,所述数据传输带宽以及所述数据传输速率的最低值均为0。
为解决上述技术问题,本发明还提供了一种故障隔离装置,包括:
获取模块,用于在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数;
确定模块,用于根据预设报错次数与降级等级的对应关系确定出所述报错次数对应的降级等级;
初始化模块,用于将所述PCIE设备的数据传输能力降低所述降级等级,以便隔离掉所述PCIE设备中的故障通道;
其中,所述预设报错次数与降级等级的对应关系呈正相关关系。
优选地,所述初始化模块具体用于:
将所述PCIE设备的数据传输带宽或数据传输速率降低所述降级等级。
为解决上述技术问题,本发明还提供了一种故障隔离设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述故障隔离方法的步骤。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述故障隔离方法的步骤。
本发明提供了一种故障隔离方法,本申请可以在计算机设备重启后对导致该次重启的报错的PCIE设备进行数据传输能力的降级,无论报错的PCIE设备的某个数据传输通道数据传输能力损失了多少,在降级之后,PCIE设备对其内部的故障的数据传输通道的数据传输能力的要求便会有可能不大于其剩余能力,如此一来该PCIE设备便不会再报错,计算机设备也得以正常运行原有业务,提高了工作效率;
另外,由于预设报错次数与降级等级的对应关系呈正相关关系,表明本申请可以逐步提升对于数据传输能力的降级程度,以便尽可能小的降低报错PCIE设备的数据传输能力,可以最大化地利用PCIE设备的剩余性能。
本发明还提供了一种故障隔离装置、设备及计算机可读存储介质,具有如上故障隔离方法相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种故障隔离方法的流程示意图;
图2为本发明提供的一种故障隔离装置的结构示意图;
图3为本发明提供的一种故障隔离设备的结构示意图。
具体实施方式
本发明的核心是提供一种故障隔离方法,能够自动消除PCIE设备的报错并使得计算机设备正常运行,提高了工作效率,且最大化地利用了报错PCIE设备的剩余性能;本发明的另一核心是提供一种故障隔离装置、设备及计算机可读存储介质,能够自动消除PCIE设备的报错并使得计算机设备正常运行,提高了工作效率,且最大化地利用了报错PCIE设备的剩余性能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明提供的一种故障隔离方法的流程示意图,该故障隔离方法包括:
步骤S1:在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数;
具体的,考虑到如上背景技术中的技术问题,本申请中在计算机设备因为PCIE设备报错而重启后,可以获取导致该次重启的报错的PCIE设备的报错累计次数,其可以作为后续步骤的数据基础,以便后续步骤实现PCIE设备的故障隔离,使得计算机设备恢复正常工作。
其中,计算机设备可以为多种类型,例如可以为服务器等,本发明实施例在此不做限定。
具体的,本发明实施例可以应用于计算机设备的BIOS(Basic Input OutputSystem,基本输入输出系统)中,从而自动化地实现故障隔离并使得计算机设备恢复正常运行,提高了自动化程度以及工作效率。
步骤S2:根据预设报错次数与降级等级的对应关系确定出报错次数对应的降级等级;
具体的,考虑到PCIE设备报错的原因是因为其中的某条数据传输通道的数据传输能力损失,能力损失的该条数据传输通道的数据传输能力无法满足目前的数据传输要求,因此发生了报错,例如8条数据传输通道中的某条因故障无法进行数据传输,此时若还要求PCIE设备进行X8带宽的数据传输,那么其便会报错,或者例如某条数据传输通道因为器件接触不良导致数据传输速率只支持1Gb每秒,但是此时若要求PCIE设备执行2Gb每秒的数据传输任务,那么PCIE设备也会报错,因此想要进行故障隔离,必须要降低对于PCIE设备的数据传输要求,但是又考虑到对于数据传输能力的降低程度可以有多种,有可能只降低较小程度便可以使得PCIE设备不再报错,因此本发明实施例中可以根据预设报错次数与降级等级的对应关系确定出报错次数对应的降级等级,正相关的关系确保了尽可能小的降低PCIE设备的数据处理能力,以便最大化地保留PCIE设备的性能。
其中,预设报错次数与降级等级的对应关系可以进行自主设定,报错次数与降级等级为正相关即可,具体形式可以为多种,本发明实施例在此不做限定。
步骤S3:将PCIE设备的数据传输能力降低降级等级,以便隔离掉PCIE设备中的故障通道;
其中,预设报错次数与降级等级的对应关系呈正相关关系。
具体的,在本步骤中便可以将PCIE设备的数据传输能力降低降级等级,相当于降低了对于报错的PCIE设备的数据处理要求,从而可能使得对于故障通道的数据处理要求不大于故障通道的数据处理能力,使得PCIE设备不再报错,服务器也得以正常运行。
当然,在执行降低数据处理能力的操作后,对于故障通道的数据处理要求仍有可能大于故障通道的数据处理能力,此种情况下该PCIE设备依旧会报错,且计算机设备依然会自动重启以尝试消除该错误,也即重复执行了上述步骤。
其中,将PCIE设备的数据传输能力降低降级等级可以为BIOS在初始化过程中初始化PCIE设备的数据处理能力,将PCIE设备的数据处理能力初始化为一个较低的等级,便可视作降低了PCIE设备的数据处理能力。
本发明提供了一种故障隔离方法,本申请可以在计算机设备重启后对导致该次重启的报错的PCIE设备进行数据传输能力的降级,无论报错的PCIE设备的某个数据传输通道数据传输能力损失了多少,在降级之后,PCIE设备对其内部的故障的数据传输通道的数据传输能力的要求便会有可能不大于其剩余能力,如此一来该PCIE设备便不会再报错,计算机设备也得以正常运行原有业务,提高了工作效率;
另外,由于预设报错次数与降级等级的对应关系呈正相关关系,表明本申请可以逐步提升对于数据传输能力的降级程度,以便尽可能小的降低报错PCIE设备的数据传输能力,可以最大化地利用PCIE设备的剩余性能。
在上述实施例的基础上:
作为一种优选的实施例,在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数之前,该故障隔离方法还包括:
在计算机设备重启时,获取导致该次重启的报错的PCIE设备的标识;
根据标识判断当前是否能够读取到导致该次重启的PCIE设备;
若是,则执行在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数的步骤。
具体的,在计算机设备重启时,报错的PCIE设备很有可能因为故障直接停止工作,此种情况下计算机设备是无法读取到该报错的PCIE设备的,且此种情况下服务器能够正常运行,因此在这种情况下无需进行也无法进行后续步骤,只有在确保报错的PCIE设备依然能被读取到时,才执行后续的获取其报错累计次数的步骤。
作为一种优选的实施例,导致该次重启的报错的PCIE设备的标识具体为:
BMC(Baseboard Management Controller,基板管理控制器)在接收到操作系统发送的报错的PCIE设备的槽位号后,读取并存储的槽位号对应的PCIE设备的序列号;
则导致该次重启的报错的PCIE设备的报错累计次数具体为:
BMC根据报错的PCIE设备对应的序列号读取次数存储的报错累计次数。
具体的,在PCIE设备报错的时候,其会在两组相关的配置寄存器中记录自身的报错类型以及槽位信息,而操作系统或者BIOS可以将该报错信息发送给BMC,BMC可以根据该报错信息读取槽位号对应的PCIE设备的序列号并且将其存储于存储器中,以便BIOS进行获取并执行故障隔离方法的步骤。
具体的,BMC还会累计该PCIE设备的报错累计次数,并将报错累计次数存储在存储器中便于BIOS获取并执行上述故障隔离方法的步骤。
其中,序列号为每个PCIE设备固有的标识,无需额外设置标识。
当然,除了序列号外,标识还可以为其他多种类型,本发明实施例在此不做限定。
其中,BMC除了接收操作系统发送的报错的PCIE设备的槽位号外,还会接收到操作系统发送的报错PCIE设备的报错类型等信息,BMC会将报错的PCIE设备的报错类型以及槽位号等信息记录到日志中,便于工作人员的后续分析及对报错PCIE设备的维护。
作为一种优选的实施例,序列号以及报错累计次数均被BMC存储于带电可擦可编程只读存储器EEPROM。
具体的,EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器)具有在计算机设备掉电后不丢失数据的特点,能够确保上述故障隔离方法的正常执行。
当然,除了EEPROM外,存储器还可以为其他多种类型,本发明实施例在此不做限定。
作为一种优选的实施例,将PCIE设备的数据传输能力降低降级等级具体为:
将PCIE设备的数据传输带宽或数据传输速率降低降级等级。
具体的,PCIE设备报错的原因是故障通道的数据传输能力受损或者消失,而当前的数据传输参数对于每条通道的数据传输能力的要求高于该故障通道的数据传输能力,因此PCIE设备便会报错,可以通过降低数据传输参数对于每条通道的数据传输能力的要求的方式来使得对于每条通道的数据传输能力的要求不大于故障通道的数据传输能力,从而使得PCIE设备不再报错。
其中,故障通道的数据传输能力的损失可能为最高数据传输速率的下降,例如最大仅支持1Gb每秒的数据传输,或者甚至无法传输数据,而在对数据传输能力进行降级时,可以采用预定的数据传输带宽或数据传输速率降级的方式进行降级,但是对于同一个PCIE设备始终只能采用其中的一种,例如某故障PCIE设备最大仅支持1Gb每秒的数据传输,而当前对于每个数据传输通道的数据传输速率要求为5Gb每秒,若采用数据传输速率降级的方式,可以首先尝试降低至4Gb每秒,这样一来PCIE设备还会报错,以此每次降低1Gb每秒的方式进行循环,直至当前对于每个数据传输通道的数据传输速率要求降低为1Gb每秒时,PCIe设备才不会报错,但是此时对于每个数据传输通道(例如可以为8个)的数据传输速率要求均为1Gb每秒,虽然损失了很大的数据处理能力,但是起码保证了计算机设备能够正常运转,后续等待工作人员对报错的PCIE设备进行维修即可恢复正常。
具体的,采用数据传输带宽的降级方式时,例如某故障PCIE设备最大仅支持1Gb每秒的数据传输,此时可以首先将X8带宽降低为X4带宽,相当于只保留使用了其中一半的数据传输通道,弃用的4个通道中若包含故障的那条通道,那么PCIE设备就会停止报错,当然,弃用的4个通道中若不包含故障的那条通道,可以继续采用降低数据传输带宽的方式来尝试屏蔽掉故障通道,直至PCIE设备不再报错。
作为一种优选的实施例,数据传输带宽以及数据传输速率的最低值均为0。
具体的,无论是哪种降级方式,最终的结果都可以是降低至最低值零,也即彻底禁用报错的PCIE设备,保证计算机设备能够正常运行这个大前提。
请参考图2,图2为本发明提供的一种故障隔离装置的结构示意图,该故障隔离装置包括:
获取模块1,用于在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数;
确定模块2,用于根据预设报错次数与降级等级的对应关系确定出报错次数对应的降级等级;
初始化模块3,用于将PCIE设备的数据传输能力降低降级等级,以便隔离掉PCIE设备中的故障通道;
其中,预设报错次数与降级等级的对应关系呈正相关关系。
作为一种优选的实施例,初始化模块具体用于:
将PCIE设备的数据传输带宽或数据传输速率降低降级等级。
对于本发明实施例提供的故障隔离装置的介绍请参照前述的故障隔离方法的实施例,本发明实施例在此不再赘述。
请参考图3,图3为本发明提供的一种故障隔离设备的结构示意图,该故障隔离设备包括:
存储器4,用于存储计算机程序;
处理器5,用于执行计算机程序时实现如前述实施例中故障隔离方法的步骤。
对于本发明实施例提供的故障隔离设备的介绍请参照前述的故障隔离方法的实施例,本发明实施例在此不再赘述。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述实施例中故障隔离方法的步骤。
对于本发明实施例提供的计算机可读存储介质的介绍请参照前述的故障隔离方法的实施例,本发明实施例在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。还需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种故障隔离方法,其特征在于,包括:
在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数;
根据预设报错次数与降级等级的对应关系确定出所述报错次数对应的降级等级;
将所述PCIE设备的数据传输能力降低所述降级等级,以便隔离掉所述PCIE设备中的故障通道;
其中,所述预设报错次数与降级等级的对应关系呈正相关关系。
2.根据权利要求1所述的故障隔离方法,其特征在于,所述在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数之前,该故障隔离方法还包括:
在计算机设备重启时,获取导致该次重启的报错的PCIE设备的标识;
根据所述标识判断当前是否能够读取到导致该次重启的所述PCIE设备;
若是,则执行在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数的步骤。
3.根据权利要求2所述的故障隔离方法,其特征在于,所述导致该次重启的报错的PCIE设备的标识具体为:
基板管理控制器BMC在接收到操作系统发送的报错的PCIE设备的槽位号后,读取并存储的所述槽位号对应的所述PCIE设备的序列号;
则所述导致该次重启的报错的PCIE设备的报错累计次数具体为:
所述BMC根据报错的所述PCIE设备对应的序列号读取次数存储的报错累计次数。
4.根据权利要求3所述的故障隔离方法,其特征在于,所述序列号以及所述报错累计次数均被所述BMC存储于带电可擦可编程只读存储器EEPROM。
5.根据权利要求1至4任一项所述的故障隔离方法,其特征在于,所述将所述PCIE设备的数据传输能力降低所述降级等级具体为:
将所述PCIE设备的数据传输带宽或数据传输速率降低所述降级等级。
6.根据权利要求5所述的故障隔离方法,其特征在于,所述数据传输带宽以及所述数据传输速率的最低值均为0。
7.一种故障隔离装置,其特征在于,包括:
获取模块,用于在计算机设备重启时,获取导致该次重启的报错的PCIE设备的报错累计次数;
确定模块,用于根据预设报错次数与降级等级的对应关系确定出所述报错次数对应的降级等级;
初始化模块,用于将所述PCIE设备的数据传输能力降低所述降级等级,以便隔离掉所述PCIE设备中的故障通道;
其中,所述预设报错次数与降级等级的对应关系呈正相关关系。
8.根据权利要求7所述的故障隔离装置,其特征在于,所述初始化模块具体用于:
将所述PCIE设备的数据传输带宽或数据传输速率降低所述降级等级。
9.一种故障隔离设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述故障隔离方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述故障隔离方法的步骤。
CN202011154430.0A 2020-10-26 2020-10-26 一种故障隔离方法、装置、设备及计算机可读存储介质 Active CN112015597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011154430.0A CN112015597B (zh) 2020-10-26 2020-10-26 一种故障隔离方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011154430.0A CN112015597B (zh) 2020-10-26 2020-10-26 一种故障隔离方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112015597A true CN112015597A (zh) 2020-12-01
CN112015597B CN112015597B (zh) 2021-04-13

Family

ID=73527880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011154430.0A Active CN112015597B (zh) 2020-10-26 2020-10-26 一种故障隔离方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112015597B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN113176963A (zh) * 2021-04-29 2021-07-27 山东英信计算机技术有限公司 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN113626231A (zh) * 2021-06-29 2021-11-09 浪潮电子信息产业股份有限公司 一种基于bios配置sas raid卡的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576836A (zh) * 2009-06-12 2009-11-11 北京航空航天大学 一种可降级的三机冗余容错系统
CN111488233A (zh) * 2020-04-02 2020-08-04 苏州浪潮智能科技有限公司 一种处理PCIe设备掉带宽问题的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576836A (zh) * 2009-06-12 2009-11-11 北京航空航天大学 一种可降级的三机冗余容错系统
CN111488233A (zh) * 2020-04-02 2020-08-04 苏州浪潮智能科技有限公司 一种处理PCIe设备掉带宽问题的方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN113176963A (zh) * 2021-04-29 2021-07-27 山东英信计算机技术有限公司 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN113176963B (zh) * 2021-04-29 2022-11-11 山东英信计算机技术有限公司 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN113626231A (zh) * 2021-06-29 2021-11-09 浪潮电子信息产业股份有限公司 一种基于bios配置sas raid卡的方法及系统

Also Published As

Publication number Publication date
CN112015597B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN112015597B (zh) 一种故障隔离方法、装置、设备及计算机可读存储介质
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN113360347B (zh) 一种服务器及其控制方法
CN113825164A (zh) 网络故障修复方法、装置、存储介质及电子设备
CN113115351A (zh) 一种网络异常的处理方法、处理装置、终端设备及介质
CN113608908B (zh) 服务器故障处理方法、系统、设备及可读存储介质
CN111352779A (zh) 一种moc卡的ac电源的开关机测试方法及相关组件
CN115632706B (zh) 一种fc链路管理方法、装置、设备及可读存储介质
CN111565135A (zh) 监控服务器运行的方法、监控服务器和存储介质
CN110704228A (zh) 一种固态硬盘异常处理方法及系统
CN113592337A (zh) 故障处理方法、装置、电子设备及存储介质
CN108536545B (zh) 终端设备的信息处理方法和装置
CN107528705B (zh) 故障处理方法及装置
CN103780418A (zh) 服务器自动管理方法及系统
CN104158843A (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN109947628B (zh) 管理控制方法、管理控制系统和服务器
WO2023240944A1 (zh) 数据恢复方法、装置、电子设备及存储介质
WO2022267812A1 (zh) 软件恢复方法、电子设备及存储介质
CN110543376A (zh) 一种安卓系统设备故障自修复方法及安卓系统设备
CN109324834A (zh) 一种分布式存储服务器自动重启的系统及方法
CN107241218B (zh) 一种故障检测方法及装置
US11237892B1 (en) Obtaining data for fault identification
CN115729782A (zh) 一种芯片运行状态监控及自愈方法和系统
US9058264B2 (en) Method for repairing communication abnormality between data card and host and data card
CN113868001A (zh) 一种内存修复结果的检查方法、系统及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant