CN114281639A - 一种存储服务器故障sas物理链路屏蔽装置及方法 - Google Patents

一种存储服务器故障sas物理链路屏蔽装置及方法 Download PDF

Info

Publication number
CN114281639A
CN114281639A CN202111433225.2A CN202111433225A CN114281639A CN 114281639 A CN114281639 A CN 114281639A CN 202111433225 A CN202111433225 A CN 202111433225A CN 114281639 A CN114281639 A CN 114281639A
Authority
CN
China
Prior art keywords
sas
count
link
physical link
storage server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111433225.2A
Other languages
English (en)
Inventor
杨学总
史文举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111433225.2A priority Critical patent/CN114281639A/zh
Publication of CN114281639A publication Critical patent/CN114281639A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及存储服务器故障SAS物理链路屏蔽领域,具体涉及一种存储服务器故障SAS物理链路屏蔽装置及方法,故障链路屏蔽处理器分别与后端监控器、SAS控制器、各个SAS扩展卡通信,获取SAS控制器以及各个SAS扩展卡的状态寄存器内的链路状态计数值,将所获取与链路状态计数值与预设值比对,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,同时将告警信息反馈至后端监控器,后端监控器对对应SAS物理链路进行告警。本发明针对不同配置的存储服务器均可实现SAS物理链路的监控及屏蔽,从而有效的预测故障,保证存储服务器的正常运行及数据安全,同时也可以明确的指示具体故障链路,大大提高运维效率,方便实际业务的使用。

Description

一种存储服务器故障SAS物理链路屏蔽装置及方法
技术领域
本发明涉及存储服务器故障SAS物理链路屏蔽领域,具体涉及一种存储服务器故障SAS物理链路屏蔽装置及方法。
背景技术
存储服务器是指具备大容量存储功能的服务器,当前主流的存储服务器还是以SAS硬盘、SATA硬盘为主,尤其是大容量硬盘方面,如16T、18T。
如图1所示,因当前硬盘大多数为SAS/SATA 接口协议,因此存储服务器的设计是CPU通过PCIE与SAS控制器连接,SAS控制器进行PCIE与SAS/SATA的协议转换,实现对硬盘的访问与控制。Expander 是对SAS控制器的SASPHY的拓展。Expander对应的SASPHY与硬盘连接,通过SAS/SATA 协议与硬盘建立通信,进行读写操作。
可见从SAS控制器到SAS扩展卡,以及SAS扩展卡到具体的硬盘都是通过SAS物理链路(即SAS PHY链路),每个硬盘对应一根SAS PHY链路,这就造成单台服务器随着硬盘数量的增加,对应的SAS PHY链路同步增加。长期运行过程中,即使硬盘状态健康,也可能因SASPHY链路异常导致传输数据报错,有SAS PHY链路本身导致的报错表现情况分散,主要分为SAS控制器超时,SAS控制器重启,硬盘报错,硬盘文件损坏等等,通过复杂的现象定位到SASPHY故障需具备较高的专业知识及长时间的定位,对存储服务器的运维造成极大的困难。
具体地,目前当出现SAS PHY链路故障的时,通过SAS控制器本身会进行修复动作,如重启PHY或者重启SAS看下去本身。同时SAS控制器在OS(操作系统)下的驱动会打印对应的错误码,及SAS的Sub code;通过解析SAS控制器报错产生的Sub code,进一步区分是SASRaid(磁盘阵列)层还是SAS物理层的报错,判断物理层还是Raid层的报错后,进一步分析是命令超时,命令中断,还是FW Bug,SAS协议中针对故障代码做了表格统计,可以通过Subcode判断故障类型,但整个判断过程是对最终结果的反馈,并不会具体定位到根本的故障。同时这种机制会导致整机的传输数据异常,严重时,还会损坏硬盘的文件。
发明内容
为解决上述问题,本发明提供一种存储服务器故障SAS物理链路屏蔽装置及方法,针对不同配置的存储服务器均可实现SAS物理链路的监控及屏蔽,从而有效的预测故障,保证存储服务器的正常运行及数据安全,同时也可以明确的指示具体故障链路,大大提高运维效率,方便实际业务的使用。
第一方面,本发明的技术方案提供一种存储服务器故障SAS物理链路屏蔽装置,包括SAS控制器、至少一个SAS扩展卡和至少一个硬盘,SAS控制器通过SAS物理链路与SAS扩展卡连接,SAS扩展卡通过SAS物理链路与相应硬盘连接,一个SAS扩展卡与SAS控制器之间对应一条SAS物理链路,一个硬盘与相应SAS扩展卡之间对应一条SAS物理链路,其特征在于,该装置还包括:故障链路屏蔽处理器和后端监控器;
故障链路屏蔽处理器分别与后端监控器、SAS控制器、各个SAS扩展卡通信,获取SAS控制器以及各个SAS扩展卡的状态寄存器内的链路状态计数值,将所获取与链路状态计数值与预设值比对,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,同时将告警信息反馈至后端监控器,后端监控器对对应SAS物理链路进行告警。
进一步地,故障链路屏蔽处理器所获取状态寄存器内的链路状态计数值包括无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数;
每条SAS物理链路对应一份链路状态计数值。
进一步地,故障链路屏蔽处理器将所获取与链路状态计数值与预设值比对,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,具体为:
将无效字符计数、差异报错计数、同步丢失计数、重启时序报错计数与各自的初始值进行差值计算;
若任一差值超出预设差值阈值,则判断链路状态计数值异常,通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用;
其中,各自的初始值为该装置所在存储服务器开机或重启时,故障链路屏蔽处理器所获取的无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数。
进一步地,故障屏蔽处理器在存储服务器开机或重启时,获取无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值;判断各个初始值是否超过预设初始值阈值,若任一初始值超过预设初始值阈值,则将对应SAS物理链路禁用,且通知后端对对应SAS物理链路进行报警,同时对存储服务器重启,重启后解除禁用。
进一步地,故障链路屏蔽处理器为MCU芯片,后端监控器为BMC芯片。
第二方面,本发明的技术方案提供一种存储服务器故障SAS物理链路屏蔽方法,包括以下步骤:
获取SAS控制器以及各个SAS扩展卡的状态寄存器内的链路状态计数值;
将所获取与链路状态计数值与预设值比对;
若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,同时通知后端对对应SAS物理链路进行报警。
进一步地,故障链路屏蔽处理器所获取状态寄存器内的链路状态计数值包括无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数;
每条SAS物理链路对应一份链路状态计数值。
进一步地,该方法具体包括以下步骤:
将无效字符计数、差异报错计数、同步丢失计数、重启时序报错计数与各自的初始值进行差值计算;
若任一差值超出预设差值阈值,则判断链路状态计数值异常,通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用;
其中,各自的初始值为存储服务器开机或重启时,故障链路屏蔽处理器所获取的无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数。
进一步地,该方法还包括以下步骤:
存储服务器开机或重启时,获取无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值;
判断各个初始值是否超过预设初始值阈值;
若任一初始值超过预设初始值阈值,则将对应SAS物理链路禁用,且通知后端对对应SAS物理链路进行报警,同时对存储服务器重启,重启后解除禁用。
进一步地,该方法还包括以下步骤:
存储服务器首次开机后,获取全部SAS物理链路地址及SAS物理链路拓扑,形成SAS物理链路拓扑表格。
本发明提供的一种存储服务器故障SAS物理链路屏蔽装置及方法,相对于现有技术,具有以下有益效果:设置故障链路屏蔽处理器和后端监控器,由故障链路屏蔽处理器提取SAS控制器和SAS扩展卡的状态寄存器内的链路状态计数值,通过监控该链路状态计数值判断SAS物理链路的状态是否异常,在异常时禁用SAS物理链路。本发明针对不同配置的存储服务器均可实现SAS物理链路的监控及屏蔽,从而有效的预测故障,保证存储服务器的正常运行及数据安全,同时也可以明确的指示具体故障链路,大大提高运维效率,方便实际业务的使用。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为当前存储服务器SAS拓扑图。
图2为本发明实施例一提供一种存储服务器故障SAS物理链路屏蔽装置结构示意图。
图3为本发明实施例一提供的一种存储服务器故障SAS物理链路屏蔽装置一具体实施例结构示意图。
图4为本发明实施例二提供一种存储服务器故障SAS物理链路屏蔽方法流程示意图。
具体实施方式
以下对本发明涉及的部分英文术语进行解释。
SAS:Serial Attached SCSI,即串行连接SCSI。
PHY:实际物理链路。
MCU:Microcontroller Unit,微控制单元。
BMC:Baseboard Management Controller,基板管理控制器。
UART:Universal Asynchronous Receiver/Transmitter,通用异步收发传输器。
EEPROM:Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
如图1所示为当前存储服务器SAS拓扑图,包括SAS控制器、至少一个SAS扩展卡和至少一个硬盘(即HDD),SAS控制器通过SAS物理链路与SAS扩展卡连接,SAS扩展卡通过SAS物理链路与相应硬盘连接,一个SAS扩展卡与SAS控制器之间对应一条SAS物理链路,一个硬盘与相应SAS扩展卡之间对应一条SAS物理链路。
由于存储服务器长期运行过程中,即使硬盘状态健康,也可能因SAS PHY链路异常导致传输数据报错,有SAS PHY链路本身导致的报错表现情况分散,主要分为SAS控制器超时,SAS控制器重启,硬盘报错,硬盘文件损坏等等,通过复杂的现象定位到SAS PHY链路故障需具备较高的专业知识及长时间的定位,对存储服务器的运维造成极大的困难。
因此,如图2所示,本实施例一提供一种存储服务器故障SAS物理链路屏蔽装置,包括故障链路屏蔽处理器和后端监控器,可实现SAS物理链路的监控及屏蔽,同时也可以明确的指示具体故障链路,大大提高运维效率,方便实际业务的使用。
其中,故障链路屏蔽处理器分别与后端监控器、SAS控制器、各个SAS扩展卡通信,获取SAS控制器以及各个SAS扩展卡的状态寄存器内的链路状态计数值,将所获取与链路状态计数值与预设值比对,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,同时将告警信息反馈至后端监控器,后端监控器对对应SAS物理链路进行告警。
为实现SAS物理链路状态的精确监控,在一些具体实施例中,故障链路屏蔽处理器所获取状态寄存器内的链路状态计数值包括无效字符计数(即invaid word count)、差异报错计数(即disparity Error count)、同步丢失计数(即loss Sync count)和重启时序报错计数(即Resetseq fail count)。
需要说明的是,每条SAS物理链路对应一份链路状态计数值,即针对每条SAS物理链路均获取无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数这四个计数值,通过这四个计数值判断SAS物理链路的状态,确定是否有故障。
相应地,故障链路屏蔽处理器将所获取与链路状态计数值与预设值比对,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,具体为:
将无效字符计数、差异报错计数、同步丢失计数、重启时序报错计数与各自的初始值进行差值计算;
若任一差值超出预设差值阈值,则判断链路状态计数值异常,通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用。
需要说明的是,上述各自的初始值为该装置所在存储服务器开机或重启时,故障链路屏蔽处理器所获取的无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数。随着存储服务器运行时间延长,每出现一次异常,计算累加1,因此将当前获取的计数与初始值进行差值运算,获得出现异常的次数作为判断参数。
对每一条SAS链路,无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数中任一计数的对应差值超过相应预设差值阈值,均启动禁用和报警。
另外,在具体实施时,同样对无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值判断是否合理。具体地,故障屏蔽处理器在存储服务器开机或重启时,获取无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值;判断各个初始值是否超过预设初始值阈值,若任一初始值超过预设初始值阈值,则将对应SAS物理链路禁用,且通知后端对对应SAS物理链路进行报警,同时对存储服务器重启,重启后解除禁用。
如图3所示,在一些具体实施例中,故障链路屏蔽处理器为MCU芯片,后端监控器为BMC芯片。MCU芯片通过UART与SAS控制器、SAS扩展卡通信,通过I2C总线与BMC芯片通信。同时MCU芯片还连接有EEPROM,用于存储无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值。
实施例二
如图4所示,本实施例提供一种存储服务器故障SAS物理链路屏蔽方法,基于上述的存储服务器故障SAS物理链路屏蔽装置实现,该方法由故障链路屏蔽处理器实施,包括以下步骤。
S101,获取SAS控制器以及各个SAS扩展卡的状态寄存器内的链路状态计数值。
其中,链路状态计数值包括无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数。每条SAS物理链路对应一份链路状态计数值。
S102,将所获取与链路状态计数值与预设值比对。
S103,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,同时通知后端对对应SAS物理链路进行报警。
具体地,将无效字符计数、差异报错计数、同步丢失计数、重启时序报错计数与各自的初始值进行差值计算;若任一差值超出预设差值阈值,则判断链路状态计数值异常,通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用。
其中,各自的初始值为存储服务器开机或重启时,故障链路屏蔽处理器所获取的无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数。
在一些具体实施例中,对获取的初始值同样进行阈值检测,以提高检测有效性。具体包括以下步骤:
步骤一,存储服务器开机或重启时,获取无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值;
步骤二,判断各个初始值是否超过预设初始值阈值;
步骤二,若任一初始值超过预设初始值阈值,则将对应SAS物理链路禁用,且通知后端对对应SAS物理链路进行报警,同时对存储服务器重启,重启后解除禁用。
另外,需要说明的是,在一些具体实施例中,上述步骤S103中,将对应SAS物理链路禁用后,再次开机或重启,并解除禁用,重新检测。
为方便各个SAS物理链路的监控,在存储服务器首次开机后,获取全部SAS物理链路地址及SAS物理链路拓扑,形成SAS物理链路拓扑表格,如下表1。之后所检测的无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数填写到表格对应位置,对SAS物理链路进行禁用和后端进行告警时,基于SAS物理链路地址查找到相应SAS物理链路和告警。
表1:SAS物理链路拓扑表
Figure 650352DEST_PATH_IMAGE001
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (10)

1.一种存储服务器故障SAS物理链路屏蔽装置,包括SAS控制器、至少一个SAS扩展卡和至少一个硬盘,SAS控制器通过SAS物理链路与SAS扩展卡连接,SAS扩展卡通过SAS物理链路与相应硬盘连接,一个SAS扩展卡与SAS控制器之间对应一条SAS物理链路,一个硬盘与相应SAS扩展卡之间对应一条SAS物理链路,其特征在于,该装置还包括:故障链路屏蔽处理器和后端监控器;
故障链路屏蔽处理器分别与后端监控器、SAS控制器、各个SAS扩展卡通信,获取SAS控制器以及各个SAS扩展卡的状态寄存器内的链路状态计数值,将所获取与链路状态计数值与预设值比对,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,同时将告警信息反馈至后端监控器,后端监控器对对应SAS物理链路进行告警。
2.根据权利要求1所述的存储服务器故障SAS物理链路屏蔽装置,其特征在于,故障链路屏蔽处理器所获取状态寄存器内的链路状态计数值包括无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数;
每条SAS物理链路对应一份链路状态计数值。
3.根据权利要求2所述的存储服务器故障SAS物理链路屏蔽装置,其特征在于,故障链路屏蔽处理器将所获取与链路状态计数值与预设值比对,若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,具体为:
将无效字符计数、差异报错计数、同步丢失计数、重启时序报错计数与各自的初始值进行差值计算;
若任一差值超出预设差值阈值,则判断链路状态计数值异常,通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用;
其中,各自的初始值为该装置所在存储服务器开机或重启时,故障链路屏蔽处理器所获取的无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数。
4.根据权利要求3所述的存储服务器故障SAS物理链路屏蔽装置,其特征在于,故障屏蔽处理器在存储服务器开机或重启时,获取无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值;判断各个初始值是否超过预设初始值阈值,若任一初始值超过预设初始值阈值,则将对应SAS物理链路禁用,且通知后端对对应SAS物理链路进行报警,同时对存储服务器重启,重启后解除禁用。
5.根据权利要求1-4任一项所述的存储服务器故障SAS物理链路屏蔽装置,其特征在于,故障链路屏蔽处理器为MCU芯片,后端监控器为BMC芯片。
6.一种存储服务器故障SAS物理链路屏蔽方法,其特征在于,包括以下步骤:
获取SAS控制器以及各个SAS扩展卡的状态寄存器内的链路状态计数值;
将所获取与链路状态计数值与预设值比对;
若链路状态计数值异常,则通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用,同时通知后端对对应SAS物理链路进行报警。
7.根据权利要求6所述的存储服务器故障SAS物理链路屏蔽方法,其特征在于,故障链路屏蔽处理器所获取状态寄存器内的链路状态计数值包括无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数;
每条SAS物理链路对应一份链路状态计数值。
8.根据权利要求7所述的存储服务器故障SAS物理链路屏蔽方法,其特征在于,该方法具体包括以下步骤:
将无效字符计数、差异报错计数、同步丢失计数、重启时序报错计数与各自的初始值进行差值计算;
若任一差值超出预设差值阈值,则判断链路状态计数值异常,通知SAS控制器或SAS扩展卡将对应SAS物理链路禁用;
其中,各自的初始值为存储服务器开机或重启时,故障链路屏蔽处理器所获取的无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数。
9.根据权利要求8所述的存储服务器故障SAS物理链路屏蔽方法,其特征在于,该方法还包括以下步骤:
存储服务器开机或重启时,获取无效字符计数、差异报错计数、同步丢失计数和重启时序报错计数的初始值;
判断各个初始值是否超过预设初始值阈值;
若任一初始值超过预设初始值阈值,则将对应SAS物理链路禁用,且通知后端对对应SAS物理链路进行报警,同时对存储服务器重启,重启后解除禁用。
10.根据权利要求9所述的存储服务器故障SAS物理链路屏蔽方法,其特征在于,该方法还包括以下步骤:
存储服务器首次开机后,获取全部SAS物理链路地址及SAS物理链路拓扑,形成SAS物理链路拓扑表格。
CN202111433225.2A 2021-11-29 2021-11-29 一种存储服务器故障sas物理链路屏蔽装置及方法 Withdrawn CN114281639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111433225.2A CN114281639A (zh) 2021-11-29 2021-11-29 一种存储服务器故障sas物理链路屏蔽装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111433225.2A CN114281639A (zh) 2021-11-29 2021-11-29 一种存储服务器故障sas物理链路屏蔽装置及方法

Publications (1)

Publication Number Publication Date
CN114281639A true CN114281639A (zh) 2022-04-05

Family

ID=80870217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111433225.2A Withdrawn CN114281639A (zh) 2021-11-29 2021-11-29 一种存储服务器故障sas物理链路屏蔽装置及方法

Country Status (1)

Country Link
CN (1) CN114281639A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333979A (zh) * 2022-08-12 2022-11-11 济南浪潮数据技术有限公司 一种链路误码处理方法、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333979A (zh) * 2022-08-12 2022-11-11 济南浪潮数据技术有限公司 一种链路误码处理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
US7409594B2 (en) System and method to detect errors and predict potential failures
US9170888B2 (en) Methods and apparatus for virtual machine recovery
CN105589776B (zh) 一种故障定位方法及服务器
CN111414268B (zh) 故障处理方法、装置及服务器
JP2002333935A (ja) 冗長コントローラシステムにコントローラを活線挿入する方法およびシステム
TWI529624B (zh) Method and system of fault tolerance for multiple servers
CN113176963B (zh) 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN112631820A (zh) 软件系统的故障恢复方法及装置
US8782465B1 (en) Managing drive problems in data storage systems by tracking overall retry time
US7757123B1 (en) Managing faults
CN114281639A (zh) 一种存储服务器故障sas物理链路屏蔽装置及方法
US20140053019A1 (en) Reduced-impact error recovery in multi-core storage-system components
US10416913B2 (en) Information processing device that monitors operation of storage utilizing specific device being connected to storage
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN111124785A (zh) 一种硬盘故障检查的方法、装置、设备及存储介质
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
CN114816822A (zh) 一种基于内存故障的服务器管理方法、装置以及系统
CN114253610A (zh) 一种器件老化导致系统无法正常启动的改进办法及装置
CN112988442A (zh) 一种服务器运行阶段传送故障信息的方法和设备
CN111539044A (zh) 服务器电源固件写保护控制方法、装置、设备及存储介质
CN111176909A (zh) 一种磁盘恢复使用的方法、装置及存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220405