CN114003417A - 实现raid卡故障自动转存的方法、装置及存储介质 - Google Patents

实现raid卡故障自动转存的方法、装置及存储介质 Download PDF

Info

Publication number
CN114003417A
CN114003417A CN202111116718.3A CN202111116718A CN114003417A CN 114003417 A CN114003417 A CN 114003417A CN 202111116718 A CN202111116718 A CN 202111116718A CN 114003417 A CN114003417 A CN 114003417A
Authority
CN
China
Prior art keywords
raid card
information
fault
bmc
raid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111116718.3A
Other languages
English (en)
Other versions
CN114003417B (zh
Inventor
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111116718.3A priority Critical patent/CN114003417B/zh
Publication of CN114003417A publication Critical patent/CN114003417A/zh
Application granted granted Critical
Publication of CN114003417B publication Critical patent/CN114003417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1068Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices in sector programmable memories, e.g. flash disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种实现RAID卡故障自动转存的方法及装置,所述方法步骤如下:RAID卡固件及BMC对同时RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;当RAID卡固件检测到RAID卡报错信息时,主动收集RAID卡信息,并保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;当BMC无法获取到RAID卡运行信息时,判断故障类型,并通过底层接口获取RAID卡信息,并转存到指定位置,形成第二故障信息;本发明通过第一和第二故障信息定位故障,并分析故障原因。通过RAID卡固件和BMC,实现及时有效的收集到疑难问题的RAID卡日志,防止RAID卡日志被清掉或被大量重复报错信息覆盖掉。

Description

实现RAID卡故障自动转存的方法、装置及存储介质
技术领域
本发明属于RAID卡检测技术领域,具体涉及一种实现RAID卡故障自动转存的方法、装置及存储介质。
背景技术
RAID作为服务器的核心部件之一,其可靠性和稳定性在单台服务器或存储的应用中至关重要。RAID卡故障可能会导致服务器整机重启、宕机或者掉盘灯异常,而快速分析和定位问题的关键,是获取到故障时刻的日志信息或者关键打印信息。
当前RAID卡故障分析的手段,停留在系统下收集RAID卡日志和系统日志的阶段,手动收集所需日志,存在日志收集不全,日志被冲掉或清掉的问题,且对于系统宕机、崩溃以及RAID卡挂死等故障,只能在试验时复现问题收集串口日志来分析,时效性差,宕机问题更是经常由于无关键日志而无法分析。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种实现RAID卡故障自动转存的方法、装置及存储介质,是非常有必要的。
发明内容
针对现有技术的上述客户端发生宕机、自动重启及RAID卡挂死等严重问题时,无法获取有效的RAID卡日志和故障信息,导致故障无法定位且时效性差缺陷,本发明提供一种实现RAID卡故障自动转存的方法、装置及存储介质,以解决上述技术问题。
第一方面,本发明提供一种实现RAID卡故障自动转存的方法,包括如下步骤:
S1.RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;
S2.当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;
S3.当BMC无法获取到RAID卡运行信息时,BMC判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;
S4.通过第一故障信息和第二故障信息定位故障,并分析故障原因。
进一步地,步骤S1具体步骤如下:
S11.配置RAID卡和BMC通过基于设备管理协议的PCIE进行通信,同时为RAID卡配置备用电源;
S12.RAID卡固件定期进行校验和训读操作,对RAID自身运行状态进行自检,并对操作系统运行状态进行检测;
S13.BMC实时访问RAID卡,获取RAID卡运行数据,检测RAID卡固件运行状态,并定期收集RAID卡日志。备用电源在RAID卡固件故障时,将缓存中RAID卡日志存储到flash。基于设备管理协议的PCIE链路实现RAID卡和BMC的通信。
进一步地,步骤S12具体步骤如下:
S121.RAID卡固件定期进行校验和训读操作,判断操作系统是否挂死;
若否,进入步骤S122;
若是,进入步骤S2;
S122.RAID卡固件定期进行校验和训读操作,判断RAID卡中硬盘是否正常运行,以及硬盘中数据是否准确无异常;
若RAID运行正常,返回步骤S121;
若RAID卡运行有异常,进入步骤S2。当操作系统无响应,或操作系统触发dump时,RAID卡固件无法获取到主机端发送的信息,例如系统对时信息。kdump是在系统崩溃、死锁或者死机的时候用来转储内存运行参数的一个工具和服务。RAID卡固件可对操作系统故障及硬盘类故障进行检测。
进一步地,步骤S13具体步骤如下:
S131.BMC实时访问RAID卡,并判断是否可获取到RAID卡数据;
若是,进入步骤S132;
若否,进入步骤S3;
S132.BMC获取RAID卡传感器数据以及控制器状态、硬盘状态信息,判断RAID卡固件是否正常运行;
若是,进入步骤S133;
若否,进入步骤S3;
S133.BMC定期收集RAID卡日志,并将RAID卡日志转存备份。
进一步地,步骤S2具体步骤如下:
S21.当RAID卡固件检测到操作系统挂死时,收集RAID卡日志及各寄存器的值,再将RAID卡日志和各寄存器的值存储到缓存中,并通过BMC转发到指定位置,形成系统故障信息;
S22.当RAID卡固件检测到硬盘故障掉盘、RAID阵列降级或者RAID卡错误时,收集硬盘环境信息、硬盘本体日志以及SMART日志,并将硬件环境信息、硬盘本体日志、SMART日志以及RAID卡日志保存到缓存中,并通过BMC转发到指定位置,形成硬盘故障信息;
S23.RAID卡固件将系统故障信息和硬盘故障信息,生成第一故障信息。当操作系统故障时,通过RAID固件自动转存RAID卡日志,并在RAID日志中标注系统无响应,防止RAID卡日志信息被清点或者覆盖。
进一步地,步骤S3具体步骤如下:
S31.当BMC无法获取到RAID卡运行信息时,判断缓存日志和BMC转存的故障日志的状态;
当只有缓存日志,而无BMC端转存的故障日志时,进入步骤S32;
当只有BMC端转存的故障日志,而无缓存日志时,进入步骤S33;
S32.判定RAID卡与BMC通信异常,进入步骤S34;
S33.判定RAID卡固件挂死或备用电源异常,进入步骤S34;
S34.BMC通过底层接口获取RAID卡的寄存器的值以及RAID卡各部分状态信息,并将RAID卡的寄存器的值以及RAID卡各部分状态信息转存到指定位置,形成第二故障信息。当BMC无法获取到RAID卡运行信息时,可能是RAID卡固件挂死,以及备用电源异常,而缓存RAID卡日志识别,也可能是BMC与RAID卡的通信出现问题,需要对这两种故障进行区分,对应RAID卡固件挂死,BMC需要通过storlib库底层预留接口获取RAID卡的寄存器的值以及RAID卡各部分状态信息,并将RAID卡的寄存器的值以及RAID卡各部分状态信息转存到指定位置,完成转存标注RAID卡固件挂死无法日志。
进一步地,步骤S4具体步骤如下:
S41.获取第一故障信息和第二故障信息;
S42.获取RAID卡的缓存及flash中存储的数据;
S43.将第一故障信息、第二故障信息与RAID卡缓存及flash中数据进行比对验证,并结合系统日志,定位故障以及分析故障原因。收集完整故障数据后,打包保存并发送到指定位置,完成故障转存并记录处理时间,方便后续日志分析和故障定位。
第二方面,本发明提供一种实现RAID卡故障自动转存的装置,包括:
RAID运行双检测模块,用于RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;
RAID卡自检故障保存模块,用于当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;
BMC获取故障保存模块,用于当BMC无法获取到RAID卡运行信息时,判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;
故障定位分析模块,用于通过第一故障信息和第二故障信息定位故障,并分析故障原因。
进一步地,RAID运行双检测模块包括:
RAID卡与BMC通信设置单元,用于配置RAID卡和BMC通过基于设备管理协议的PCIE进行通信,同时为RAID卡配置备用电源;
RAID卡固件自检单元,用于RAID卡固件定期进行校验和训读操作,对RAID自身运行状态进行自检,并对操作系统运行状态进行检测;
BMC检测RAID卡单元,用于通过BMC实时访问RAID卡,获取RAID卡运行数据,检测RAID卡固件运行状态,并定期收集RAID卡日志;
RAID卡自检故障保存模块包括:
系统故障信息收集单元,用于当RAID卡固件检测到操作系统挂死时,收集RAID卡日志及各寄存器的值,再将RAID卡日志和各寄存器的值存储到缓存中,并通过BMC转发到指定位置,形成系统故障信息;
硬盘故障信息收集单元,用于当RAID卡固件检测到硬盘故障掉盘、RAID阵列降级或者RAID卡错误时,收集硬盘环境信息、硬盘本体日志以及SMART日志,并将硬件环境信息、硬盘本体日志、SMART日志以及RAID卡日志保存到缓存中,并通过BMC转发到指定位置,形成硬盘故障信息;
第一故障信息生成单元,用于RAID卡固件将系统故障信息和硬盘故障信息,生成第一故障信息;
BMC获取故障保存模块包括:
日志状态判断单元,用于当BMC无法获取到RAID卡运行信息时,判断缓存日志和BMC转存的故障日志的状态;
RAID卡与BMC通信异常判定单元,用于当只有缓存日志,而无BMC端转存的故障日志时,判定RAID卡与BMC通信异常;
RAID卡挂死判定单元,用于当只有BMC端转存的故障日志,而无缓存日志时,判定RAID卡固件挂死或备用电源异常;
第二故障信息生成单元,用于BMC通过底层接口获取RAID卡的寄存器的值以及RAID卡各部分状态信息,并将RAID卡的寄存器的值以及RAID卡各部分状态信息转存到指定位置,形成第二故障信息;
故障定位分析模块包括:
故障信息获取单元,用于获取第一故障信息和第二故障信息;
RAID卡中数据获取单元,用于获取RAID卡的缓存及flash中存储的数据;
故障定位单元,用于将第一故障信息、第二故障信息与RAID卡缓存及flash中数据进行比对验证,并结合系统日志,定位故障以及分析故障原因。
第三方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明的有益效果在于,
本发明提供的实现RAID卡故障自动转存的方法、装置及存储介质,通过RAID卡固件和BMC,实现疑难问题的RAID卡日志及时有效的收集,防止RAID卡日志被清掉或被大量重复报错信息覆盖掉,且针对不同问题收集出来不同的日志,最终实现故障的自动转存,从而使得运维和客服人员快速判断故障类型,做出正确的处理方案。本发明形成完成的RAID卡日志链,可以使得后台人员快速准确定位故障原因。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的实现RAID卡故障自动转存的方法实施例1的流程示意图。
图2是本发明的实现RAID卡故障自动转存的方法实施例2的流程示意图。
图3是本发明的实现RAID卡故障自动转存的装置示意图。
图中,1-RAID运行双检测模块;1.1-RAID卡与BMC通信设置单元;1.2-RAID卡固件自检单元;1.3-BMC检测RAID卡单元;2-RAID卡自检故障保存模块;2.1-系统故障信息收集单元;2.2-硬盘故障信息收集单元;2.3-第一故障信息生成单元;3-BMC获取故障保存模块;3.1-日志状态判断单元;3.2-RAID卡与BMC通信异常判定单元;3.3-RAID卡挂死判定单元;3.4-第二故障信息生成单元;4-故障定位分析模块;4.1-故障信息获取单元;4.2-RAID卡中数据获取单元;4.3-故障定位单元。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:
如图1所示,本发明提供一种实现RAID卡故障自动转存的方法,包括如下步骤:
S1.RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;
S2.当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;
S3.当BMC无法获取到RAID卡运行信息时,BMC判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;
S4.通过第一故障信息和第二故障信息定位故障,并分析故障原因。
本发明提供的实现RAID卡故障自动转存的方法,通过RAID卡固件和BMC,实现及时有效的收集到疑难问题的RAID卡日志,防止RAID卡日志被清掉或被大量重复报错信息覆盖掉,且针对不同问题收集出来不同的日志实现故障的自动转存,从而使得运维和客服人员快速判断故障类型,做出正确的处理方案。本发明形成完成的RAID卡日志链,可以使得后台人员快速准确定位故障原因
实施例2:
如图2所示,本发明提供一种实现RAID卡故障自动转存的方法,包括如下步骤:
S1.RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;具体步骤如下:
S11.配置RAID卡和BMC通过基于设备管理协议的PCIE进行通信,同时为RAID卡配置备用电源;
S12.RAID卡固件定期进行校验和训读操作,对RAID自身运行状态进行自检,并对操作系统运行状态进行检测;具体步骤如下:
S121.RAID卡固件定期进行校验和训读操作,判断操作系统是否挂死;
若否,进入步骤S122;
若是,进入步骤S2;
S122.RAID卡固件定期进行校验和训读操作,判断RAID卡中硬盘是否正常运行,以及硬盘中数据是否准确无异常;
若RAID运行正常,返回步骤S121;
若RAID卡运行有异常,进入步骤S2;
S13.BMC实时访问RAID卡,获取RAID卡运行数据,检测RAID卡固件运行状态,并定期收集RAID卡日志;具体步骤如下:
S131.BMC实时访问RAID卡,并判断是否可获取到RAID卡数据;
若是,进入步骤S132;
若否,进入步骤S3;
S132.BMC获取RAID卡传感器数据以及控制器状态、硬盘状态信息,判断RAID卡固件是否正常运行;
若是,进入步骤S133;
若否,进入步骤S3;
S133.BMC定期收集RAID卡日志,并将RAID卡日志转存备份;
S2.当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;具体步骤如下:
S21.当RAID卡固件检测到操作系统挂死时,收集RAID卡日志及各寄存器的值,再将RAID卡日志和各寄存器的值存储到缓存中,并通过BMC转发到指定位置,形成系统故障信息;
S22.当RAID卡固件检测到硬盘故障掉盘、RAID阵列降级或者RAID卡错误时,收集硬盘环境信息、硬盘本体日志以及SMART日志,并将硬件环境信息、硬盘本体日志、SMART日志以及RAID卡日志保存到缓存中,并通过BMC转发到指定位置,形成硬盘故障信息;
S23.RAID卡固件将系统故障信息和硬盘故障信息,生成第一故障信息;
S3.当BMC无法获取到RAID卡运行信息时,BMC判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;具体步骤如下:
S31.当BMC无法获取到RAID卡运行信息时,判断缓存日志和BMC转存的故障日志的状态;
当只有缓存日志,而无BMC端转存的故障日志时,进入步骤S32;
当只有BMC端转存的故障日志,而无缓存日志时,进入步骤S33;
S32.判定RAID卡与BMC通信异常,进入步骤S34;
S33.判定RAID卡固件挂死或备用电源异常,进入步骤S34;
S34.BMC通过底层接口获取RAID卡的寄存器的值以及RAID卡各部分状态信息,并将RAID卡的寄存器的值以及RAID卡各部分状态信息转存到指定位置,形成第二故障信息;
S4.通过第一故障信息和第二故障信息定位故障,并分析故障原因;具体步骤如下:
S41.获取第一故障信息和第二故障信息;
S42.获取RAID卡的缓存及flash中存储的数据;
S43.将第一故障信息、第二故障信息与RAID卡缓存及flash中数据进行比对验证,并结合系统日志,定位故障以及分析故障原因。
实施例3:
如图3所示,本发明提供一种实现RAID卡故障自动转存的装置,包括:
RAID运行双检测模块1,用于RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;
RAID卡自检故障保存模块2,用于当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;
BMC获取故障保存模块3,用于当BMC无法获取到RAID卡运行信息时,判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;
故障定位分析模块4,用于通过第一故障信息和第二故障信息定位故障,并分析故障原因。
本发明提供的实现RAID卡故障自动转存的装置,通过RAID卡固件和BMC配合,实现及时有效的收集到疑难问题的RAID卡日志,防止RAID卡日志被清掉或被大量重复报错信息覆盖掉,且针对不同问题收集出来不同的日志实现故障的自动转存,从而使得运维和客服人员快速判断故障类型,做出正确的处理方案。本发明形成完成的RAID卡日志链,可以使得后台人员快速准确定位故障原因。
实施例4:
如图3所示,本发明提供一种实现RAID卡故障自动转存的装置,包括:
RAID运行双检测模块1,用于RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;RAID运行双检测模块1包括:
RAID卡与BMC通信设置单元1.1,用于配置RAID卡和BMC通过基于设备管理协议的PCIE进行通信,同时为RAID卡配置备用电源;
RAID卡固件自检单元1.2,用于RAID卡固件定期进行校验和训读操作,对RAID自身运行状态进行自检,并对操作系统运行状态进行检测;
BMC检测RAID卡单元1.3,用于通过BMC实时访问RAID卡,获取RAID卡运行数据,检测RAID卡固件运行状态,并定期收集RAID卡日志;
RAID卡自检故障保存模块2,用于当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;RAID卡自检故障保存模块2包括:
系统故障信息收集单元2.1,用于当RAID卡固件检测到操作系统挂死时,收集RAID卡日志及各寄存器的值,再将RAID卡日志和各寄存器的值存储到缓存中,并通过BMC转发到指定位置,形成系统故障信息;
硬盘故障信息收集单元2.2,用于当RAID卡固件检测到硬盘故障掉盘、RAID阵列降级或者RAID卡错误时,收集硬盘环境信息、硬盘本体日志以及SMART日志,并将硬件环境信息、硬盘本体日志、SMART日志以及RAID卡日志保存到缓存中,并通过BMC转发到指定位置,形成硬盘故障信息;
第一故障信息生成单元2.3,用于RAID卡固件将系统故障信息和硬盘故障信息,生成第一故障信息;
BMC获取故障保存模块3,用于当BMC无法获取到RAID卡运行信息时,判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;BMC获取故障保存模块3包括:
日志状态判断单元3.1,用于当BMC无法获取到RAID卡运行信息时,判断缓存日志和BMC转存的故障日志的状态;
RAID卡与BMC通信异常判定单元3.2,用于当只有缓存日志,而无BMC端转存的故障日志时,判定RAID卡与BMC通信异常;
RAID卡挂死判定单元3.3,用于当只有BMC端转存的故障日志,而无缓存日志时,判定RAID卡固件挂死或备用电源异常;
第二故障信息生成单元3.4,用于BMC通过底层接口获取RAID卡的寄存器的值以及RAID卡各部分状态信息,并将RAID卡的寄存器的值以及RAID卡各部分状态信息转存到指定位置,形成第二故障信息;
故障定位分析模块4,用于通过第一故障信息和第二故障信息定位故障,并分析故障原因;故障定位分析模块4包括:
故障信息获取单元4.1,用于获取第一故障信息和第二故障信息;
RAID卡中数据获取单元4.2,用于获取RAID卡的缓存及flash中存储的数据;
故障定位单元4.3,用于将第一故障信息、第二故障信息与RAID卡缓存及flash中数据进行比对验证,并结合系统日志,定位故障以及分析故障原因。
实施例5:
本发明提供一种存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例1或实施例2所述的方法。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种实现RAID卡故障自动转存的方法,其特征在于,包括如下步骤:
S1.RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;
S2.当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;
S3.当BMC无法获取到RAID卡运行信息时,BMC判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;
S4.通过第一故障信息和第二故障信息定位故障,并分析故障原因。
2.如权利要求1所述的实现RAID卡故障自动转存的方法,其特征在于,步骤S1具体步骤如下:
S11.配置RAID卡和BMC通过基于设备管理协议的PCIE进行通信,同时为RAID卡配置备用电源;
S12.RAID卡固件定期进行校验和训读操作,对RAID自身运行状态进行自检,并对操作系统运行状态进行检测;
S13.BMC实时访问RAID卡,获取RAID卡运行数据,检测RAID卡固件运行状态,并定期收集RAID卡日志。
3.如权利要求2所述的实现RAID卡故障自动转存的方法,其特征在于,步骤S12具体步骤如下:
S121.RAID卡固件定期进行校验和训读操作,判断操作系统是否挂死;
若否,进入步骤S122;
若是,进入步骤S2;
S122.RAID卡固件定期进行校验和训读操作,判断RAID卡中硬盘是否正常运行,以及硬盘中数据是否准确无异常;
若RAID运行正常,返回步骤S121;
若RAID卡运行有异常,进入步骤S2。
4.如权利要求2所述的实现RAID卡故障自动转存的方法,其特征在于,步骤S13具体步骤如下:
S131.BMC实时访问RAID卡,并判断是否可获取到RAID卡数据;
若是,进入步骤S132;
若否,进入步骤S3;
S132.BMC获取RAID卡传感器数据以及控制器状态、硬盘状态信息,判断RAID卡固件是否正常运行;
若是,进入步骤S133;
若否,进入步骤S3;
S133.BMC定期收集RAID卡日志,并将RAID卡日志转存备份。
5.如权利要求2所述的实现RAID卡故障自动转存的方法,其特征在于,步骤S2具体步骤如下:
S21.当RAID卡固件检测到操作系统挂死时,收集RAID卡日志及各寄存器的值,再将RAID卡日志和各寄存器的值存储到缓存中,并通过BMC转发到指定位置,形成系统故障信息;
S22.当RAID卡固件检测到硬盘故障掉盘、RAID阵列降级或者RAID卡错误时,收集硬盘环境信息、硬盘本体日志以及SMART日志,并将硬件环境信息、硬盘本体日志、SMART日志以及RAID卡日志保存到缓存中,并通过BMC转发到指定位置,形成硬盘故障信息;
S23.RAID卡固件将系统故障信息和硬盘故障信息,生成第一故障信息。
6.如权利要求1所述的实现RAID卡故障自动转存的方法,其特征在于,步骤S3具体步骤如下:
S31.当BMC无法获取到RAID卡运行信息时,判断缓存日志和BMC转存的故障日志的状态;
当只有缓存日志,而无BMC端转存的故障日志时,进入步骤S32;
当只有BMC端转存的故障日志,而无缓存日志时,进入步骤S33;
S32.判定RAID卡与BMC通信异常,进入步骤S34;
S33.判定RAID卡固件挂死或备用电源异常,进入步骤S34;
S34.BMC通过底层接口获取RAID卡的寄存器的值以及RAID卡各部分状态信息,并将RAID卡的寄存器的值以及RAID卡各部分状态信息转存到指定位置,形成第二故障信息。
7.如权利要求1所述的实现RAID卡故障自动转存的方法,其特征在于,步骤S4具体步骤如下:
S41.获取第一故障信息和第二故障信息;
S42.获取RAID卡的缓存及flash中存储的数据;
S43.将第一故障信息、第二故障信息与RAID卡缓存及flash中数据进行比对验证,并结合系统日志,定位故障以及分析故障原因。
8.一种实现RAID卡故障自动转存的装置,其特征在于,包括:
RAID运行双检测模块(1),用于RAID卡固件及BMC同时对RAID卡运行状态进行检测,判断RAID卡运行状态是否正常;
RAID卡自检故障保存模块(2),用于当RAID卡固件检测到RAID卡报错信息或系统故障信息时,RAID卡固件主动收集RAID卡信息,并将收集的RAID卡信息保存在缓存里,通过BMC转发到指定位置,形成第一故障信息;
BMC获取故障保存模块(3),用于当BMC无法获取到RAID卡运行信息时,判断故障类型,并通过底层接口获取RAID卡信息,并将RAID卡信息转存到指定位置,形成第二故障信息;
故障定位分析模块(4),用于通过第一故障信息和第二故障信息定位故障,并分析故障原因。
9.如权利要求8所述的实现RAID卡故障自动转存的装置,其特征在于,RAID运行双检测模块(1)包括:
RAID卡与BMC通信设置单元(1.1),用于配置RAID卡和BMC通过基于设备管理协议的PCIE进行通信,同时为RAID卡配置备用电源;
RAID卡固件自检单元(1.2),用于RAID卡固件定期进行校验和训读操作,对RAID自身运行状态进行自检,并对操作系统运行状态进行检测;
BMC检测RAID卡单元(1.3),用于通过BMC实时访问RAID卡,获取RAID卡运行数据,检测RAID卡固件运行状态,并定期收集RAID卡日志;
RAID卡自检故障保存模块(2)包括:
系统故障信息收集单元(2.1),用于当RAID卡固件检测到操作系统挂死时,收集RAID卡日志及各寄存器的值,再将RAID卡日志和各寄存器的值存储到缓存中,并通过BMC转发到指定位置,形成系统故障信息;
硬盘故障信息收集单元(2.2),用于当RAID卡固件检测到硬盘故障掉盘、RAID阵列降级或者RAID卡错误时,收集硬盘环境信息、硬盘本体日志以及SMART日志,并将硬件环境信息、硬盘本体日志、SMART日志以及RAID卡日志保存到缓存中,并通过BMC转发到指定位置,形成硬盘故障信息;
第一故障信息生成单元(2.3),用于RAID卡固件将系统故障信息和硬盘故障信息,生成第一故障信息;
BMC获取故障保存模块(3)包括:
日志状态判断单元(3.1),用于当BMC无法获取到RAID卡运行信息时,判断缓存日志和BMC转存的故障日志的状态;
RAID卡与BMC通信异常判定单元(3.2),用于当只有缓存日志,而无BMC端转存的故障日志时,判定RAID卡与BMC通信异常;
RAID卡挂死判定单元(3.3),用于当只有BMC端转存的故障日志,而无缓存日志时,判定RAID卡固件挂死或备用电源异常;
第二故障信息生成单元(3.4),用于BMC通过底层接口获取RAID卡的寄存器的值以及RAID卡各部分状态信息,并将RAID卡的寄存器的值以及RAID卡各部分状态信息转存到指定位置,形成第二故障信息;
故障定位分析模块(4)包括:
故障信息获取单元(4.1),用于获取第一故障信息和第二故障信息;
RAID卡中数据获取单元(4.2),用于获取RAID卡的缓存及flash中存储的数据;
故障定位单元(4.3),用于将第一故障信息、第二故障信息与RAID卡缓存及flash中数据进行比对验证,并结合系统日志,定位故障以及分析故障原因。
10.一种存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1-7任一项所述的方法。
CN202111116718.3A 2021-09-23 2021-09-23 实现raid卡故障自动转存的方法、装置及存储介质 Active CN114003417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111116718.3A CN114003417B (zh) 2021-09-23 2021-09-23 实现raid卡故障自动转存的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111116718.3A CN114003417B (zh) 2021-09-23 2021-09-23 实现raid卡故障自动转存的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114003417A true CN114003417A (zh) 2022-02-01
CN114003417B CN114003417B (zh) 2023-12-26

Family

ID=79921571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111116718.3A Active CN114003417B (zh) 2021-09-23 2021-09-23 实现raid卡故障自动转存的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114003417B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061641A (zh) * 2022-08-16 2022-09-16 新华三信息技术有限公司 一种磁盘故障处理方法、装置、设备以及存储介质
CN116959549A (zh) * 2023-09-20 2023-10-27 四川华鲲振宇智能科技有限责任公司 一种自动化硬盘组阵列方法及设备、介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108459932A (zh) * 2018-03-02 2018-08-28 郑州云海信息技术有限公司 一种管理raid卡的方法、装置以及设备
CN112181740A (zh) * 2020-09-17 2021-01-05 苏州浪潮智能科技有限公司 一种排除故障的方法、装置及存储介质
CN112905415A (zh) * 2021-02-19 2021-06-04 浪潮电子信息产业股份有限公司 一种串口日志文件获取方法、装置及相关组件

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108459932A (zh) * 2018-03-02 2018-08-28 郑州云海信息技术有限公司 一种管理raid卡的方法、装置以及设备
CN112181740A (zh) * 2020-09-17 2021-01-05 苏州浪潮智能科技有限公司 一种排除故障的方法、装置及存储介质
CN112905415A (zh) * 2021-02-19 2021-06-04 浪潮电子信息产业股份有限公司 一种串口日志文件获取方法、装置及相关组件

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061641A (zh) * 2022-08-16 2022-09-16 新华三信息技术有限公司 一种磁盘故障处理方法、装置、设备以及存储介质
CN115061641B (zh) * 2022-08-16 2022-11-25 新华三信息技术有限公司 一种磁盘故障处理方法、装置、设备以及存储介质
CN116959549A (zh) * 2023-09-20 2023-10-27 四川华鲲振宇智能科技有限责任公司 一种自动化硬盘组阵列方法及设备、介质
CN116959549B (zh) * 2023-09-20 2023-11-28 四川华鲲振宇智能科技有限责任公司 一种自动化硬盘组阵列方法及设备、介质

Also Published As

Publication number Publication date
CN114003417B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
CN104991629B (zh) 电源失效侦测系统与其方法
TWI317868B (en) System and method to detect errors and predict potential failures
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
CN103198000A (zh) 一种linux系统下的故障内存位置定位方法
CN100395717C (zh) 硬盘装置损坏监测方法及系统
CN114003417B (zh) 实现raid卡故障自动转存的方法、装置及存储介质
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US20080198489A1 (en) Cartridge drive diagnostic tools
CN110750396A (zh) 一种服务器操作系统兼容性测试方法、装置及存储介质
CN110704287B (zh) Linux系统下RAID卡异常日志收集方法、系统及存储介质
CN111414268A (zh) 故障处理方法、装置及服务器
CN106649020A (zh) 一种存储器机箱烧录信息的检测方法及装置
US20090210751A1 (en) Method, system and program product for non-disruptive i/o adapter diagnostic testing
CN112650612A (zh) 一种内存故障定位方法及装置
CN106648969B (zh) 一种磁盘中损坏数据巡检方法及系统
CN107562565A (zh) 一种验证内存Patrol Scurb功能的方法
JP3711871B2 (ja) Pciバスの障害解析容易化方式
TWI584114B (zh) 電源失效偵測系統與其方法
CN111884830B (zh) 一种基于bmc保留故障现场的方法及装置
CN114253610A (zh) 一种器件老化导致系统无法正常启动的改进办法及装置
CN114064401A (zh) 定位硬盘故障的方法、装置、电子设备及存储介质
CN103390429A (zh) 一种硬盘的在线检测方法及服务器
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
US20180032397A1 (en) Last writers of datasets in storage array errors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant