CN111124729A - 一种故障盘判定方法、装置、设备及计算机可读存储介质 - Google Patents

一种故障盘判定方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111124729A
CN111124729A CN201911287926.2A CN201911287926A CN111124729A CN 111124729 A CN111124729 A CN 111124729A CN 201911287926 A CN201911287926 A CN 201911287926A CN 111124729 A CN111124729 A CN 111124729A
Authority
CN
China
Prior art keywords
error
disk
target
determining
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911287926.2A
Other languages
English (en)
Inventor
李娟�
李强
谢全泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911287926.2A priority Critical patent/CN111124729A/zh
Publication of CN111124729A publication Critical patent/CN111124729A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Abstract

本发明公开了一种故障盘判定方法、装置、设备及计算机可读存储介质,该方法包括:如果磁盘上报错误至磁盘管理系统,则确定上报错误的磁盘为目的磁盘,并获取目的磁盘上报至磁盘管理系统的错误为目的错误;确定目的错误的错误发生阶段及错误类型,并基于错误发生阶段及错误类型对目的错误进行错误恢复;其中,对目的错误进行错误恢复包括重新执行目的错误对应的命令和/或重置目的磁盘;如果错误恢复成功,则确定目的磁盘为正常磁盘,否则,则确定目的磁盘为故障盘,基于预设的分类规则确定目的错误所属的错误类,并将目的磁盘为故障盘的信息及目的错误所属的错误类的信息返回至磁盘管理系统。从而能够降低故障盘判定的误判率。

Description

一种故障盘判定方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及存储系统技术领域,更具体地说,涉及一种故障盘判定方法、装置、设备及计算机可读存储介质。
背景技术
在存储系统服务中,服务的高可用性一直是一个关键的指标;磁盘故障是存储系统服务的硬件问题中最严重的一个,如果出现了磁盘故障,会导致存储系统服务宕机,因此磁盘故障是导致服务不可用的一个重要原因。为提高存储系统服务的高可用性,很多关于故障盘(出现故障的磁盘)监测的方法被应用;现有技术中通常一旦确定某个磁盘发生故障,则随之需要对故障盘进行磁盘更换、磁盘修复以及磁盘数据的迁移备份;此时由于故障盘带来的操作数据丢失,为用户使用的存储服务带来了极大的安全隐患;而且磁盘的更换会造成用户成本的增加,包括数据迁移成本及磁盘更换成本等。因此,在进行故障盘的判定时,降低故障盘的误判率就显得非常重要。
综上所述,如何提供一种降低故障盘误判率的技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种故障盘判定方法、装置、设备及计算机可读存储介质,能够提高故障盘判定的准确性,降低故障盘判定的误判率。
为了实现上述目的,本发明提供如下技术方案:
一种故障盘判定方法,包括:
如果磁盘上报错误至磁盘管理系统,则确定上报错误的磁盘为目的磁盘,并获取所述目的磁盘上报至所述磁盘管理系统的错误为目的错误;
确定所述目的错误的错误发生阶段及错误类型,并基于所述错误发生阶段及所述错误类型对所述目的错误进行错误恢复;其中,对所述目的错误进行错误恢复包括重新执行所述目的错误对应的命令和/或重置所述目的磁盘;
如果错误恢复成功,则确定所述目的磁盘为正常磁盘,否则,则确定所述目的磁盘为故障盘,基于预设的分类规则确定所述目的错误所属的错误类,并将所述目的磁盘为故障盘的信息及所述目的错误所属的错误类的信息返回至所述磁盘管理系统。
优选的,确定出所述目的磁盘及所述目的错误之后,还包括:
统计所述目的磁盘在距离当前时刻最近的预设时间段内发生所述目的错误的频率,如果该频率大于对应的频率阈值,则将所述目的磁盘发生所述目的错误的频率大于对应频率阈值的信息返回给所述磁盘管理系统,否则,则执行确定所述目的错误的错误发生阶段及错误类型的步骤。
优选的,对所述目的错误进行错误恢复之后,还包括:
如果错误恢复失败,则返回执行对所述目的错误进行错误恢复的步骤,直至执行对所述目的错误进行错误恢复的次数达到对应次数阈值为止,如果错误恢复成功,则执行确定所述目的磁盘为正常磁盘的步骤,如果错误恢复仍失败,则执行确定所述目的磁盘为故障盘的步骤。
优选的,基于所述错误发生阶段及所述错误类型对所述目的错误进行错误恢复,包括:
如果所述错误类型为硬件错误,则对所述目的磁盘进行重置,并在重置完成后执行所述目的错误对应的命令;
如果所述错误类型为软件错误,则在所述目的磁盘为正常工作的阶段时,执行所述目的错误对应的命令或者延迟执行所述目的错误对应的命令或者对所述目的磁盘进行重置,在所述目的磁盘为异常工作的阶段时,确定无法对所述目的错误进行恢复,在所述目的磁盘为初始化或者格式化或者升级的阶段时,延迟执行所述目的错误对应的命令。
一种故障盘判定装置,包括:
获取模块,用于:如果磁盘上报错误至磁盘管理系统,则确定上报错误的磁盘为目的磁盘,并获取所述目的磁盘上报至所述磁盘管理系统的错误为目的错误;
恢复模块,用于:确定所述目的错误的错误发生阶段及错误类型,并基于所述错误发生阶段及所述错误类型对所述目的错误进行错误恢复;其中,对所述目的错误进行错误恢复包括重新执行所述目的错误对应的命令和/或重置所述目的磁盘;
确定模块,用于:如果错误恢复成功,则确定所述目的磁盘为正常磁盘,否则,则确定所述目的磁盘为故障盘,基于预设的分类规则确定所述目的错误所属的错误类,并将所述目的磁盘为故障盘的信息及所述目的错误所属的错误类的信息返回至所述磁盘管理系统。
优选的,还包括:
统计模块,用于:确定出所述目的磁盘及所述目的错误之后,统计所述目的磁盘在距离当前时刻最近的预设时间段内发生所述目的错误的频率,如果该频率大于对应的频率阈值,则将所述目的磁盘发生所述目的错误的频率大于对应频率阈值的信息返回给所述磁盘管理系统,否则,则执行确定所述目的错误的错误发生阶段及错误类型的步骤。
优选的,还包括:
循环模块,用于:对所述目的错误进行错误恢复之后,如果错误恢复失败,则返回执行对所述目的错误进行错误恢复的步骤,直至执行对所述目的错误进行错误恢复的次数达到对应次数阈值为止,如果错误恢复成功,则执行确定所述目的磁盘为正常磁盘的步骤,如果错误恢复仍失败,则执行确定所述目的磁盘为故障盘的步骤。
优选的,所述恢复模块包括:
恢复单元,用于:如果所述错误类型为硬件错误,则对所述目的磁盘进行重置,并在重置完成后执行所述目的错误对应的命令;如果所述错误类型为软件错误,则在所述目的磁盘为正常工作的阶段时,执行所述目的错误对应的命令或者延迟执行所述目的错误对应的命令或者对所述目的磁盘进行重置,在所述目的磁盘为异常工作的阶段时,确定无法对所述目的错误进行恢复,在所述目的磁盘为初始化或者格式化或者升级的阶段时,延迟执行所述目的错误对应的命令。
一种故障盘判定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述故障盘判定方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述故障盘判定方法的步骤。
本申请公开的技术特征中,在磁盘上报错误至磁盘管理系统后,获取该错误,并通过错误的错误发生阶段及错误类型对错误进行错误恢复,也即尝试恢复错误,如果能够成功恢复,则说明发生的错误为可恢复的错误且已被恢复,此时确定磁盘是正常的磁盘,否则则确定磁盘为故障盘,确定错误的错误类,并将相应的信息返回给磁盘管理系统,以由磁盘管理系统进行后续错误告警及磁盘剔除等操作;可见,本申请在磁盘发生错误后,会尝试恢复磁盘发生的错误,从而在错误恢复成功时确定磁盘为正常磁盘,错误恢复失败时确定磁盘为故障盘,可以避免磁盘发生的错误为可恢复的错误,但是却被判定为故障盘的情况出现,进而提高了故障盘判定的准确性,降低了故障盘判定的误判率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种故障盘判定方法的第一种流程图;
图2为本发明实施例提供的一种故障盘判定方法中处理错误的示意图;
图3为本发明实施例提供的一种故障盘判定方法的第二种流程图;
图4为本发明实施例提供的一种故障盘判定装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种故障盘判定方法的流程图,可以包括:
S11:如果磁盘上报错误至磁盘管理系统,则确定上报错误的磁盘为目的磁盘,并获取目的磁盘上报至磁盘管理系统的错误为目的错误。
本发明实施例提供的一种故障盘判定方法的执行主体为对应的故障盘判定装置,故障盘判定装置具体可以为判断引擎,该判断引擎可以嵌入到磁盘管理系统中运行,但是其是可独立运行的新增部分,如果磁盘发生错误,则磁盘会将发生的错误上报给磁盘管理系统,对磁盘错误进行剔除之前,先由判断引擎获取该错误,并对该错误进行相应的尝试进行错误恢复的处理,进而基于处理所得的结果,如果确定发生错误的磁盘为正常磁盘,则忽略此错误,否则,则由磁盘管理系统发出错误告警和磁盘剔除命令;此时对磁盘发生的错误进行处理的示意图可以如图2所示;以下以磁盘剔除判定方法的执行主体为判断引擎进行具体说明。
本实施例中目的错误及目的磁盘可以为任一发生的错误及对应的磁盘,具体来说,在存储管理系统获取到磁盘发生的错误后,确定存储管理系统获取的错误为目的错误,具体可以是判断引擎自动去存储管理系统获取其捕获的错误,也可以是存储管理系统将获取到的错误发送至判断引擎。
S12:确定目的错误的错误发生阶段及错误类型,并基于错误发生阶段及错误类型对目的错误进行错误恢复;其中,对目的错误进行错误恢复包括重新执行目的错误对应的命令和/或重置目的磁盘。
在确定出目的磁盘及目的错误后,可以对目的错误进行粗分类,也即确定出目的错误的错误发生阶段及错误类型;其中,错误发生阶段指发生错误的磁盘所处的状态,可以包括磁盘正常工作的阶段、磁盘初始化的阶段、磁盘格式化的阶段、磁盘升级的阶段等,而错误类型也即为错误对应的命令的类型,可以包括读命令、写命令、校验命令等;具体来说,在确定出目的错误的错误发生阶段及错误类型后,则可以基于错误发生阶段及错误类型对目的错误进行错误恢复,而基于错误发生阶段及错误类型对目的错误进行错误恢复的方式可以预先基于对应关系确定的,也即该对应关系中设定有错误发生阶段、错误类型与对目的错误进行错误恢复的方式之间的对应关系,因此只要获知错误发生阶段及错误类型,即可基于上述对应关系确定出与错误发生阶段及错误类型对应的对目的错误进行错误恢复的方式,然后才去确定出的方式对目的错误进行错误恢复;上述对应关系可以是工作人员基于经验得出的,因此,能够使得对目的错误进行错误恢复的方式与目的错误的错误发生阶段及错误类型相符,一定程度上保证能够以正确的方式实现对目的错误的错误恢复。需要说明的是,在基于上述对应关系确定与错误发生阶段及错误类型对应的对目的错误进行错误恢复的方式时,如果查不到与错误发生阶段及错误类型对应的对目的错误进行错误恢复的方式,则说明无法对目的错误进行尝试恢复,因此确定目的磁盘为故障盘,基于预设的分类规则确定目的错误所属的错误类,并将目的磁盘为故障盘的信息及目的错误所属的错误类的信息返回至磁盘管理系统。
另外,对目的错误进行错误恢复的方式可以包括重新执行目的错误对应的命令和/或重置目的磁盘;具体来说,重新执行目的错误对应的命令就是将导致磁盘出现错误的命令(针对磁盘进行某项操作执行对应的命令时磁盘出现错误,则认为该命令为导致磁盘出现错误的命令)重新操作一遍,如执行READ读命令时磁盘出现错误,则认为READ读命令为导致磁盘出现错误的命令,此时执行一遍READ读命令;重置目的磁盘就是将目的磁盘重新启动或者重新格式化等。其中,常见的命令包括读命令READ,写命令WRITE,校验命令VERIFY等。需要说明的是,当磁盘进行大量读写等操作对应命令的时候,很容易出现某个命令暂时失败,此时则为磁盘出现错误,但是再次操作失败的命令或者重置磁盘则可能会恢复正常,因此通过这种方式可以降低误判率。
S13:如果错误恢复成功,则确定目的磁盘为正常磁盘,否则,则确定目的磁盘为故障盘,基于预设的分类规则确定目的错误所属的错误类,并将目的磁盘为故障盘的信息及目的错误所属的错误类的信息返回至磁盘管理系统。
如果错误恢复成功,则目的磁盘此时并不存在错误,其可以正常工作,因此目的磁盘为正常磁盘,如果错误恢复失败,则目的磁盘此时仍存在错误,其无法正常工作,因此目的磁盘为故障盘;如果确定出目的磁盘为故障盘,则为了方便磁盘管理系统对故障盘的处理,可以基于预设的分类规则确定目的错误所属的错误类,此时对目的错误进行的分类是在确定出目的错误的错误发生阶段及错误类型的基础上,结合发生错误的对象、错误发生时间、错误发生次数(还可以包括错误发生的具体扇区位置等)确定出目的错误所属的错误类,从而使得磁盘管理系统可以直观的获知到目的磁盘发生目的错误的情况。另外,基于目的错误的上述信息确定对应的错误类也可以是基于预先设定的错误分类规则确定的,也即可以预先在错误分类规则中设定错误的信息(可以包括错误发生阶段、错误类型、错误发生对象、错误发生时间及错误发生次数等)与错误所属错误类之间的对应关系(这种对应关系可以是基于SCSI错误分类设定的),在确定出错误的信息后,则可以基于上述对应关系确定出错误对应的错误类。其中,错误类具体可以包括介质错误、硬件错误、硬件介质错误、命令存在无效字段、命令冲突、磁盘离线导致命令失败、操作对象不属于当前控制器等。
在一种具体实现方式中,对错误进行分类可以基于SCSI协议实现,具体来说,SCSI协议包含Contingent Allegiance Condition,Contingent Allegiance Condition中定义有SCSI检测数据响应命令,而SCSI检测数据响应命令中包含Request Sense命令,这个命令对应字段能够提供错误的详细信息,如表1所示,此时,字段的取值包括0至9,A至F;而分类所得的错误类对应包括No Sense、Soft error、Recoverd Error、Not Ready、MediumError、Hardware Error、Illegal Request、unit attention、Data Protect、Blank Check、Vendor Specific、Copy Aborted、Aborted Command、Volume Overflow、Miscompare、Completed,文字部分则为相应的详细信息,从而基于SCSI协议快速确定出错误对应的错误类,方便故障盘情况的获知。
表1
Figure BDA0002318550810000071
Figure BDA0002318550810000081
Figure BDA0002318550810000091
本申请公开的技术特征中,在磁盘上报错误至磁盘管理系统后,获取该错误,并通过错误的错误发生阶段及错误类型对错误进行错误恢复,也即尝试恢复错误,如果能够成功恢复,则说明发生的错误为可恢复的错误且已被恢复,此时确定磁盘是正常的磁盘,否则则确定磁盘为故障盘,确定错误的错误类,并将相应的信息返回给磁盘管理系统,以由磁盘管理系统进行后续错误告警及磁盘剔除等操作;可见,本申请在磁盘发生错误后,会尝试恢复磁盘发生的错误,从而在错误恢复成功时确定磁盘为正常磁盘,错误恢复失败时确定磁盘为故障盘,可以避免磁盘发生的错误为可恢复的错误,但是却被判定为故障盘的情况出现,进而提高了故障盘判定的准确性,降低了故障盘判定的误判率。
本发明实施例提供的一种故障盘判定方法,确定出目的磁盘及目的错误之后,还可以包括:
统计目的磁盘在距离当前时刻最近的预设时间段内发生目的错误的频率,如果该频率大于对应的频率阈值,则将目的磁盘发生目的错误的频率大于对应频率阈值的信息返回给磁盘管理系统,否则,则执行确定目的错误的错误发生阶段及错误类型的步骤。
需要说明的是,频率阈值及预设时间段均可以根据实际需要进行设定,预设时间段可以设置为半小时、一小时等,而频率阈值可以设定为百分之五十、百分之六十等;在确定出目的磁盘及目的错误之后,将目的磁盘在距离当前时刻最近的预设时间段内发生目的错误的总次数除以预设时间段得到相应的频率,如果频率大于对应的频率阈值,则说明目的磁盘发生目的错误较为频繁,此时可能是目的磁盘本身或者其他相关设备等存在问题,即使能够对目的错误进行恢复,也可能在后续继续出现这种错误,因此为了避免这种错误的频繁发生,不再进行对目的错误进行恢复等相关步骤,而是将目的磁盘发生目的错误的频率大于对应频率阈值的信息返回给磁盘管理系统,以由磁盘管理系统进行相应的处理,或者由磁盘管理系统将该信息发送至工作人员对应终端,以由工作人员进行相应的处理;如果频率不大于对应的频率阈值,则说明目的磁盘发生目的错误的频率较正常,因此继续执行后续对目的错误进行恢复等相应的步骤。
本发明实施例提供的一种故障盘判定方法,对目的错误进行错误恢复之后,还可以包括:
如果错误恢复失败,则返回执行对目的错误进行错误恢复的步骤,直至执行对目的错误进行错误恢复的次数达到对应次数阈值为止,如果错误恢复成功,则执行确定目的磁盘为正常磁盘的步骤,如果错误恢复仍失败,则执行确定目的磁盘为故障盘的步骤。
其中,次数阈值可以根据实际需要进行设定,如3次等;在对目的错误进行错误恢复失败后,可以返回执行对目的错误进行错误恢复的步骤,进而再判断此次对错误恢复是否成功,如果对错误恢复成功,则确定目的磁盘为正常磁盘,如果非错误恢复失败,则再返回执行对目的错误进行错误恢复的步骤,直至执行对目的错误进行错误恢复的次数达到对应次数阈值为止,如果此时错误恢复仍失败,则可以执行确定目的磁盘为故障盘的步骤,如果此时错误恢复成功,则执行确定目的磁盘为故障盘的步骤;从而通过这种执行对错误恢复的次数的设置,不仅能够使得某些可能在多次尝试之后才能恢复的错误可以恢复成功,从而进一步提高故障盘判定的准确性,还能够避免即使进行多次尝试也无法恢复的错误进行过多次的尝试导致的资源浪费。
需要说明的是,在确定执行对目的错误进行错误恢复的次数时,可以在目的错误发生时则设置一个相应的变量,将该变量的值初始化为0,每执行一次对目的错误进行错误恢复的步骤则将变量的值加1,从而通过变量的值则可以直接获知执行对目的错误进行错误恢复的步骤的次数。
本发明实施例提供的一种故障盘判定方法,基于错误发生阶段及错误类型对目的错误进行错误恢复,可以包括:
如果错误类型为硬件错误,则对目的磁盘进行重置,并在重置完成后执行目的错误对应的命令;
如果错误类型为软件错误,则在目的磁盘为正常工作的阶段时,执行目的错误对应的命令或者延迟执行目的错误对应的命令或者对目的磁盘进行重置,在目的磁盘为异常工作的阶段时,确定无法对目的错误进行恢复,在目的磁盘为初始化或者格式化或者升级的阶段时,延迟执行目的错误对应的命令。
需要说明的是,磁盘、电源及机箱均可能发生错误,本申请实施例中的错误是指磁盘发生的错误;其中,执行目的错误对应命令包括立即执行和延迟执行,而重置目的磁盘也可分为软件层面的协议的重置和硬件层面的对象重启,本实施例中重置目的磁盘具体选择哪种重置可以根据实际需要进行设定,如可以包括两种重置的一种,也可以同时包括两种重置;具体来说,在基于错误发生阶段及错误类型对目的错误进行错误恢复时,可以首先判断错误类型是硬件错误还是软件错误(软件错误及硬件错误均与现有技术中对应概念的含义相同,在此不再过多赘述),如果错误类型是硬件错误,此时可以选择不恢复错误,直接执行确定目的磁盘为故障盘的步骤,也可以选择对目的磁盘进行重置,并在重置完成后执行目的错误对应的命令(选择恢复错误可以是存储系统中存在故障转移的备份策略),以试图通过这种方式实现硬件错误的恢复;如果错误类型为软件错误,则确定目的磁盘的工作状态(也即目的错误发生阶段),如果目的磁盘为正常工作的阶段,则认为目的磁盘比较健康,错误概念应该很低,因此目的错误可能只是偶发的失败,可以选择立即重新执行目的错误对应的命令、延迟执行目的错误及对目的磁盘进行重置中的一种来实现,当然也可以在其中一种错误恢复方式执行完毕但是目的错误仍然存在时,继续执行第二种错误恢复方式,进而在第二种错误恢复方式执行完毕但是目的错误仍然存在时,继续执行第三种错误恢复方式,从而通过这种方式一定程度上保证错误恢复的成功实现;如果目的磁盘为初始化或者格式化或者升级的阶段,对目的磁盘的操作出错概率较大,此时如果直接重新执行目的错误对应命令出错的概率仍很大,因此可以延迟几秒后再重新执行目的错误对应命令,而且,如果目的磁盘处于初始化或者升级或者格式化阶段,相当于已经处于重置阶段,因此此时通常不再执行重置目的磁盘的命令,否则会导致目的磁盘初始化或者升级或者格式化失败;如果目的磁盘为异常工作的阶段,此时目的错误因目的磁盘工作异常因此无法恢复。
对上述技术方案进行举例说明,如果发现一个错误是磁盘上报的,错误的命令是读操作的命令,此时磁盘处于整体格式化状态,那么认为这个错误严重程度较低,因为磁盘在进行格式化时,对于读操作的命令会暂时不响应或者响应很慢,因此可以等待一段时间后再重试这个命令;如果发现一个错误是磁盘上报的,错误的命令是读操作的命令,此时磁盘的状态正常,认为此时的错误不是意外,可以立即重试命令,如果重试三次之内,读操作正常,则认为错误被正常恢复,如果三次命令重试都失败,则认为这个错误暂时无法恢复,会将处理的结果返回给磁盘管理系统,以由磁盘管理系统判断这个错误是否立马生成告警事件还是记录日志;如果发现一个错误是磁盘上报的,错误的命令是读操作的命令,但是此时磁盘的状态异常,认为此时错误不可恢复,会直接跳过错误恢复操作,将处理的结果返回给磁盘管理系统,以由磁盘管理系统判断这个错误是否立马生成告警事件还是记录日志。
综上,本申请在错误类型及错误发生阶段不同时,采用不同的策略实现相应的错误恢复,从而能够一定程度上保证错误有效恢复的同时,还能够避免相应资源的浪费。
另外,基于错误发生阶段及错误类型对目的错误进行错误恢复的具体实现方式也可以为根据实际需要设定的其他方式,均在本发明的保护范围之内;而在延迟执行目的错误对应命令时具体的延迟时间可以基于实际需要进行设定,而不同的命令对应的延迟时间可以不同,这可以是由工作人员基于经验设定的,从而使得延迟的时间的设定符合命令本身的特点,进一步实现错误的有效恢复。
如图3所示为实现本发明实施例提供的一种故障盘判定方法的流程图,当磁盘发生错误时,判断引擎会首先将错误进行粗分类,确定错误发生阶段及错误类型,然后判断能否对错误进行恢复,如果能,则基于错误发生阶段及错误类型对错误进行恢复,如果不能,则对错误进行归并处理,确定对应的错误类;而基于错误发生阶段及错误类型对错误进行恢复,如果恢复成功,则结束,如果恢复失败,则对错误进行归并处理,确定对应的错误类。可见,本申请在进行故障盘判定时,对磁盘发生的错误进行筛选,只有通过判断引擎的错误,才认为对应的磁盘为故障盘,否则,则判定错误可以自行恢复或者说磁盘远没有达到完全不能工作的程度,暂时忽略此错误。通过这种方式,降低故障盘的误判率,提高故障盘的准确率,增加存储系统磁盘错误的容错性,提高服务高可用性,降低用户运维成本,提升用户体验。
本发明实施例还提供了一种故障盘判定装置,如图4所示,可以包括:
获取模块11,用于:如果磁盘上报错误至磁盘管理系统,则确定上报错误的磁盘为目的磁盘,并获取目的磁盘上报至磁盘管理系统的错误为目的错误;
恢复模块12,用于:确定目的错误的错误发生阶段及错误类型,并基于错误发生阶段及错误类型对目的错误进行错误恢复;其中,对目的错误进行错误恢复包括重新执行目的错误对应的命令和/或重置目的磁盘;
确定模块13,用于:如果错误恢复成功,则确定目的磁盘为正常磁盘,否则,则确定目的磁盘为故障盘,基于预设的分类规则确定目的错误所属的错误类,并将目的磁盘为故障盘的信息及目的错误所属的错误类的信息返回至磁盘管理系统。
本发明实施例提供的一种故障盘判定装置,还可以包括:
统计模块,用于:确定出目的磁盘及目的错误之后,统计目的磁盘在距离当前时刻最近的预设时间段内发生目的错误的频率,如果该频率大于对应的频率阈值,则将目的磁盘发生目的错误的频率大于对应频率阈值的信息返回给磁盘管理系统,否则,则执行确定目的错误的错误发生阶段及错误类型的步骤。
本发明实施例提供的一种故障盘判定装置,还可以包括:
循环模块,用于:对目的错误进行错误恢复之后,如果错误恢复失败,则返回执行对目的错误进行错误恢复的步骤,直至执行对目的错误进行错误恢复的次数达到对应次数阈值为止,如果错误恢复成功,则执行确定目的磁盘为正常磁盘的步骤,如果错误恢复仍失败,则执行确定目的磁盘为故障盘的步骤。
本发明实施例提供的一种故障盘判定装置,恢复模块可以包括:
恢复单元,用于:如果错误类型为硬件错误,则对目的磁盘进行重置,并在重置完成后执行目的错误对应的命令;如果错误类型为软件错误,则在目的磁盘为正常工作的阶段时,执行目的错误对应的命令或者延迟执行目的错误对应的命令或者对目的磁盘进行重置,在目的磁盘为异常工作的阶段时,确定无法对目的错误进行恢复,在目的磁盘为初始化或者格式化或者升级的阶段时,延迟执行目的错误对应的命令。
本发明实施例还提供了一种故障盘判定设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项故障盘判定方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如上任一项故障盘判定方法的步骤。
需要说明的是,本发明实施例提供的一种故障盘判定装置、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的一种故障盘判定方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种故障盘判定方法,其特征在于,包括:
如果磁盘上报错误至磁盘管理系统,则确定上报错误的磁盘为目的磁盘,并获取所述目的磁盘上报至所述磁盘管理系统的错误为目的错误;
确定所述目的错误的错误发生阶段及错误类型,并基于所述错误发生阶段及所述错误类型对所述目的错误进行错误恢复;其中,对所述目的错误进行错误恢复包括重新执行所述目的错误对应的命令和/或重置所述目的磁盘;
如果错误恢复成功,则确定所述目的磁盘为正常磁盘,否则,则确定所述目的磁盘为故障盘,基于预设的分类规则确定所述目的错误所属的错误类,并将所述目的磁盘为故障盘的信息及所述目的错误所属的错误类的信息返回至所述磁盘管理系统。
2.根据权利要求1所述的方法,其特征在于,确定出所述目的磁盘及所述目的错误之后,还包括:
统计所述目的磁盘在距离当前时刻最近的预设时间段内发生所述目的错误的频率,如果该频率大于对应的频率阈值,则将所述目的磁盘发生所述目的错误的频率大于对应频率阈值的信息返回给所述磁盘管理系统,否则,则执行确定所述目的错误的错误发生阶段及错误类型的步骤。
3.根据权利要求2所述的方法,其特征在于,对所述目的错误进行错误恢复之后,还包括:
如果错误恢复失败,则返回执行对所述目的错误进行错误恢复的步骤,直至执行对所述目的错误进行错误恢复的次数达到对应次数阈值为止,如果错误恢复成功,则执行确定所述目的磁盘为正常磁盘的步骤,如果错误恢复仍失败,则执行确定所述目的磁盘为故障盘的步骤。
4.根据权利要求3所述的方法,其特征在于,基于所述错误发生阶段及所述错误类型对所述目的错误进行错误恢复,包括:
如果所述错误类型为硬件错误,则对所述目的磁盘进行重置,并在重置完成后执行所述目的错误对应的命令;
如果所述错误类型为软件错误,则在所述目的磁盘为正常工作的阶段时,执行所述目的错误对应的命令或者延迟执行所述目的错误对应的命令或者对所述目的磁盘进行重置,在所述目的磁盘为异常工作的阶段时,确定无法对所述目的错误进行恢复,在所述目的磁盘为初始化或者格式化或者升级的阶段时,延迟执行所述目的错误对应的命令。
5.一种故障盘判定装置,其特征在于,包括:
获取模块,用于:如果磁盘上报错误至磁盘管理系统,则确定上报错误的磁盘为目的磁盘,并获取所述目的磁盘上报至所述磁盘管理系统的错误为目的错误;
恢复模块,用于:确定所述目的错误的错误发生阶段及错误类型,并基于所述错误发生阶段及所述错误类型对所述目的错误进行错误恢复;其中,对所述目的错误进行错误恢复包括重新执行所述目的错误对应的命令和/或重置所述目的磁盘;
确定模块,用于:如果错误恢复成功,则确定所述目的磁盘为正常磁盘,否则,则确定所述目的磁盘为故障盘,基于预设的分类规则确定所述目的错误所属的错误类,并将所述目的磁盘为故障盘的信息及所述目的错误所属的错误类的信息返回至所述磁盘管理系统。
6.根据权利要求5所述的装置,其特征在于,还包括:
统计模块,用于:确定出所述目的磁盘及所述目的错误之后,统计所述目的磁盘在距离当前时刻最近的预设时间段内发生所述目的错误的频率,如果该频率大于对应的频率阈值,则将所述目的磁盘发生所述目的错误的频率大于对应频率阈值的信息返回给所述磁盘管理系统,否则,则执行确定所述目的错误的错误发生阶段及错误类型的步骤。
7.根据权利要求6所述的装置,其特征在于,还包括:
循环模块,用于:对所述目的错误进行错误恢复之后,如果错误恢复失败,则返回执行对所述目的错误进行错误恢复的步骤,直至执行对所述目的错误进行错误恢复的次数达到对应次数阈值为止,如果错误恢复成功,则执行确定所述目的磁盘为正常磁盘的步骤,如果错误恢复仍失败,则执行确定所述目的磁盘为故障盘的步骤。
8.根据权利要求3所述的装置,其特征在于,所述恢复模块包括:
恢复单元,用于:如果所述错误类型为硬件错误,则对所述目的磁盘进行重置,并在重置完成后执行所述目的错误对应的命令;如果所述错误类型为软件错误,则在所述目的磁盘为正常工作的阶段时,执行所述目的错误对应的命令或者延迟执行所述目的错误对应的命令或者对所述目的磁盘进行重置,在所述目的磁盘为异常工作的阶段时,确定无法对所述目的错误进行恢复,在所述目的磁盘为初始化或者格式化或者升级的阶段时,延迟执行所述目的错误对应的命令。
9.一种故障盘判定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述故障盘判定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述故障盘判定方法的步骤。
CN201911287926.2A 2019-12-15 2019-12-15 一种故障盘判定方法、装置、设备及计算机可读存储介质 Withdrawn CN111124729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911287926.2A CN111124729A (zh) 2019-12-15 2019-12-15 一种故障盘判定方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911287926.2A CN111124729A (zh) 2019-12-15 2019-12-15 一种故障盘判定方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111124729A true CN111124729A (zh) 2020-05-08

Family

ID=70498874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911287926.2A Withdrawn CN111124729A (zh) 2019-12-15 2019-12-15 一种故障盘判定方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111124729A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463023A (zh) * 2020-10-18 2021-03-09 苏州浪潮智能科技有限公司 一种读写盘的数据处理方法、装置、设备及可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463023A (zh) * 2020-10-18 2021-03-09 苏州浪潮智能科技有限公司 一种读写盘的数据处理方法、装置、设备及可读介质
CN112463023B (zh) * 2020-10-18 2022-08-19 苏州浪潮智能科技有限公司 一种读写盘的数据处理方法、装置、设备及可读介质

Similar Documents

Publication Publication Date Title
EP0505706B1 (en) Alternate processor continuation of the task of a failed processor
CN108153618B (zh) 硬盘数据恢复方法、装置及硬盘数据恢复设备
CN110989938A (zh) 一种故障盘识别方法、装置、设备及计算机可读存储介质
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
CN103019885A (zh) 基于嵌入式Linux的硬盘坏道监测方法及系统
CN111625387B (zh) 内存错误处理方法、装置及服务器
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN114706708B (zh) 一种用于Linux操作系统的故障分析方法及系统
JP2012525636A (ja) チェンジトラッキングを用いたシステムリカバリ方法
US7574621B2 (en) Method and system for identifying and recovering a file damaged by a hard drive failure
CN101145983B (zh) 一种网管系统的自诊断和自恢复子系统及方法
CN115793963A (zh) 一种硬盘故障处理方法、装置、设备及存储介质
US8621276B2 (en) File system resiliency management
CN111124729A (zh) 一种故障盘判定方法、装置、设备及计算机可读存储介质
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
US20080209254A1 (en) Method and system for error recovery of a hardware device
CN112650624A (zh) 一种集群升级方法、装置、设备及计算机可读存储介质
CN104020963A (zh) 一种防止误判硬盘读写错误的方法和装置
US6229743B1 (en) Method of a reassign block processing time determination test for storage device
CN114415970A (zh) 分布式存储系统的磁盘故障处理方法、装置及服务器
CN109542687B (zh) 一种raid级别转换方法及装置
CN113656358A (zh) 一种数据库日志文件处理方法及系统
CN106599046B (zh) 分布式文件系统的写入方法及装置
CN111427718A (zh) 文件备份方法、恢复方法及装置
CN113868000B (zh) 一种链路故障修复方法、系统及相关组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200508