CN103455395B - 一种硬盘故障的检测方法及装置 - Google Patents

一种硬盘故障的检测方法及装置 Download PDF

Info

Publication number
CN103455395B
CN103455395B CN201310344369.XA CN201310344369A CN103455395B CN 103455395 B CN103455395 B CN 103455395B CN 201310344369 A CN201310344369 A CN 201310344369A CN 103455395 B CN103455395 B CN 103455395B
Authority
CN
China
Prior art keywords
hard disk
place
described hard
fault
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310344369.XA
Other languages
English (en)
Other versions
CN103455395A (zh
Inventor
虞旭林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310344369.XA priority Critical patent/CN103455395B/zh
Publication of CN103455395A publication Critical patent/CN103455395A/zh
Application granted granted Critical
Publication of CN103455395B publication Critical patent/CN103455395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种硬盘故障的检测方法及装置。其中的方法包括:当从硬盘控制器检测到的硬盘组中的其中一个硬盘的第一故障信息与从外接于所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息不一致时,重启所述硬盘;重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息,当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。还公开了相应的硬盘故障的检测装置。采用本发明的硬盘故障的检测方法及装置的技术方案,通过带外的方式便可准确地检测到硬盘的不可预测性故障,检测方便而准确。

Description

一种硬盘故障的检测方法及装置
技术领域
本发明涉及存储技术领域,尤其涉及一种硬盘故障的检测方法及装置。
背景技术
随着技术的发展,服务器上串行高级技术附件(Serial Advanced TechnologyAttachment,SATA)硬盘的单盘容量越来越大,单盘可以存储的硬盘的数据越来越多,而其故障率却并未有显著的下降,当前SATA硬盘的年故障率仍处在一个较高的水平。
针对SATA硬盘故障,可以分为不可预测性故障和可预测性故障,不可预测性故障是指硬盘由于使用不当等因素而导致的瞬间损坏,这种故障发生于瞬间,难以进行有效的监控和防范。可预测性故障是指由于硬盘的长期使用而导致的机械磨损或磁介质表面的退化,这个过程是一个长期的可监控的变化过程。
对于可预测性故障,目前有一套已经设定为工业标准的检测技术,即自我监测、分析及报告技术(Self-Monitoring Analysis and Reporting Technology,S.M.A.R.T),主要用于保障硬盘的数据安全,硬盘通过该技术可以自我监控滋生的温度、读写错误率、坏块数量以及错误日志等。目前对S.M.A.R.T.的检测可以通过标准的协议编写应用程序,在操作系统上层通过应用程序检查硬盘的S.M.A.R.T是否处于Failed状态来判断硬盘的健康状态。
由于不可预测性故障故障的不可预测性,因此只能在设备的设计和使用时按照硬盘的要求使用。但是还是不可避免的会发生这类故障,目前的故障处理方案上操作系统带内监控工具可以监控到硬盘的丢失,监控软件发现硬盘丢失之后会进行硬盘丢失告警,但是无法隔离这种故障。而这类不可预测性故障可能会导致硬盘变得很慢,同时也会存在不停的被硬盘控制器找到再丢失情况,造成系统的不稳定甚至导致系统业务的中断。
对于可预测故障要求必须在有操作系统的情况下进行检测,且需要在操作系统业务下安装硬盘状态监控软件,在大规模集群的服务器上,仅仅增加一个监控软件是不够的,还需要该监控软件定时上报硬盘的健康状态,在大规模部署服务器的数据中心,还需要考虑集中管理问题,因此增加了业务部署的复杂度。而且在标准的S.M.A.R.T技术中仅仅凭借Failed位的状态判断硬盘的好坏过于粗略,难以准确判断硬盘将要故障的趋势。
因此,如何简化硬盘状态的监控操作、检测硬盘的不可预测性故障已成为业界迫切需要解决的问题。
发明内容
有鉴于此,本发明提供一种硬盘故障的检测方法及装置,用以解决现有技术中存在着的硬盘状态监控操作复杂、不能检测到硬盘的不可预测性故障的技术问题。
第一方面,本发明提供了一种硬盘故障的检测方法,包括:
当从硬盘控制器检测到的硬盘组中的其中一个硬盘的第一故障信息与从外接于所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息不一致时,重启所述硬盘;
重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息,当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
在第一种可能的实现方式中,所述确定所述硬盘发生第一类型的故障之后,所述方法还包括:
将所述硬盘从所述硬盘组中隔离。
结合第一方面,在第二种可能的实现方式中,所述方法还包括:
当所述第一故障信息与所述第一在位信息一致或当所述第二故障信息与所述第二在位信息一致时,确定所述硬盘发生第二类型的故障。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定所述硬盘发生第二类型的故障之后,所述方法还包括:
从所述硬盘控制器检测第二类型的故障监控值是否到达预警值;
当检测的结果为是时,发出硬盘故障预警。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述确定所述硬盘发生第二类型的故障之后,所述方法还包括:
当检测的结果为否时,测试所述硬盘组的工作温度是否高于预设温度;
当测试的结果为是时,调节所述硬盘组的风扇转速;
当测试的结果为否时,从所述硬盘控制器获取统计的所述硬盘的坏块数量;
当所述硬盘的坏块数量超出设定值时,发出所述硬盘故障预警。
第二方面,本发明提供了一种硬盘故障的检测装置,包括:
第一获取单元,用于从硬盘控制器获取硬盘组中的其中一个硬盘的第一故障信息,以及从外接于所述硬盘的硬盘在位检测电路获取所述硬盘的第一在位信息;
重启单元,用于当所述第一故障信息与所述第一在位信息不一致时,重启所述硬盘;
第二获取单元,用于重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息;
第一确定单元,用于当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
在第一种可能的实现方式中,所述装置还包括:
隔离单元,用于将所述硬盘从所述硬盘组中隔离。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括:
第二确定单元,用于当所述第一故障信息与所述第一在位信息一致或当所述第二故障信息与所述第二在位信息一致时,确定所述硬盘发生第二类型的故障。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述装置还包括:
检测单元,用于从所述硬盘控制器检测第二类型的故障监控值是否到达预警值;
预警单元,用于当检测的结果为是时,发出硬盘故障预警。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述装置还包括:
测试单元,用于当检测的结果为否时,测试所述硬盘组的工作温度是否高于预设温度;
调节单元,用于当测试的结果为是时,调节所述硬盘组的风扇转速;
第三获取单元,用于当测试的结果为否时,从所述硬盘控制器获取统计的所述硬盘的坏块数量;
所述预警单元还用于当所述硬盘的坏块数量超出设定值时,发出所述硬盘故障预警。
第三方面,提供了一种硬盘故障的检测装置,包括硬盘组和连接所述硬盘组的硬盘控制器,所述硬盘组包括至少一个硬盘,所述硬盘控制器控制所述硬盘组中各硬盘的运行,所述装置还包括:
分别连接所述硬盘组中的每一个硬盘的硬盘在位检测电路,所述硬盘在位检测电路检测所述硬盘的在位信息;
通过第一接口分别与硬盘控制器和所述硬盘在位检测电路连接的第一控制器;
所述第一控制器用于当检测到所述硬盘控制器获取的硬盘组中的其中一个硬盘的第一故障信息与所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息不一致时,重启所述硬盘;
且重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息,当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
在第一种可能的实现方式中,所述硬盘在位检测电路包括第二控制器和至少一个电源控制电路,所述第二控制器连接所述第一接口和所述至少一个电源控制电路,所述至少一个电源控制电路中的每一个电源控制电路连接所述硬盘组中的一个硬盘,所述电源控制电路用于接收所述第一控制器的控制命令,检测所述电源控制电路连接的所述硬盘的在位状态和控制所述硬盘的隔离。
结合第三方面或第三方面的第一种可能的实现方式,在第二种可能的实现方式中,所述硬盘组连接有风扇,所述第一控制器连接所述风扇,并控制所述风扇的转速调节。
结合第三方面或第三方面的第一种可能的实现方式或第三方面的第二种可能的实现方式,在第三种可能的实现方式中,所述第一控制器为底板管理控制器BMC。
采用本发明的硬盘故障的检测方法及装置的技术方案,通过带外的方式便可准确地检测到硬盘的不可预测性故障,检测方便而准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种硬盘故障的检测方法的一个实施例的流程图;
图2为本发明一种硬盘故障的检测方法的另一个实施例的流程图;
图3为本发明的一种硬盘故障的检测装置的一个实施例的结构示意图;
图4为本发明的一种硬盘故障的检测装置的另一个实施例的结构示意图;
图5为本发明的一种硬盘故障的检测装置的又一个实施例的结构示意图;
图6为示例的本发明的一种硬盘故障的检测装置的电路图;
图7为图6中的示例的A模块的电路图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一种硬盘故障的检测方法的一个实施例的流程图。如图1所示,该方法包括以下步骤:
步骤S101,当从硬盘控制器检测到的硬盘组中的其中一个硬盘的第一故障信息与从外接于所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息不一致时,重启所述硬盘。
采用现有的硬盘控制器中的监控软件对硬盘组中的硬盘进行监控,当某个硬盘出现故障时,可以监控到该槽位的硬盘响应很慢或者根本找不到,可以从硬盘控制器获取这一故障信息,但从这一故障信息并不能确定硬盘是否发生了不可预测性故障,是否可恢复,该故障信息的检测触发从外接于该硬盘组的硬盘在位检测电路进一步获得该硬盘的在位信息;外接于该硬盘组的硬盘在位检测电路,为直接对硬盘的电位的检测,可以准确地获知硬盘的在位信息,硬盘在位检测电路检测该硬盘在位;当获取的故障信息和在位信息不一致时,设定该硬盘为疑似故障,对该硬盘进行下电重启恢复操作。
步骤S102,重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息,当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
对该疑似故障的硬盘重启之后,尝试进行恢复,因为对于有的故障,重启之后是可以恢复运行的,而如果重启之后再从硬盘控制器和硬盘在位检测电路重新获得的故障信息和在位信息仍不一致,即硬盘控制器仍检测出该硬盘发生故障,而硬盘在位检测电路则检测出该硬盘电位正常,硬盘在位,则可确定该硬盘不可恢复,发生了不可预测性故障,这类不可预测性故障可能会导致硬盘变得很慢,同时也会存在不停的被硬盘控制器找到再丢失情况,造成系统的不稳定,甚至导致系统业务的中断,因此,需要及时发现该类不可预测性故障,及时进行硬盘隔离。
本发明以现有的硬盘控制器检测到某一硬盘的故障信息为触发条件,通过带外的硬盘在位检测电路检测重启前后的疑似故障硬盘是否在位,来确定该硬盘是否发生了不可预测性故障。
根据本发明实施例提供的一种硬盘故障的检测方法,通过带外的方式便可准确地检测到硬盘的不可预测性故障,检测方便而准确。
图2为本发明一种硬盘故障的检测方法的另一个实施例的流程图。如图2所示,该方法包括以下步骤:
步骤S201,判断从硬盘控制器检测到的硬盘组中的其中一个硬盘的第一故障信息与从外接于所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息是否一致,如果是,则转至步骤S207;否则,转至步骤S202。
采用现有的硬盘控制器中的监控软件对硬盘组中的硬盘进行监控,当某个硬盘出现故障时,可以监控到该槽位的硬盘响应很慢或者根本找不到,可以从硬盘控制器获取这一故障信息,但从这一故障信息并不能确定硬盘是否发生了不可预测性故障,是否可恢复,该故障信息的检测触发从外接于该硬盘组的硬盘在位检测电路进一步获得该硬盘的在位信息;外接于该硬盘组的硬盘在位检测电路,为直接对硬盘的电位的检测,可以准确地获知硬盘的在位信息,硬盘在位检测电路检测该硬盘在位;当获取的故障信息和在位信息不一致时,设定该硬盘为疑似故障。
当获取的故障信息和在位信息一致时,即硬盘控制器监控到该槽位的硬盘响应正常,且通过硬盘在位检测电路检测到的在位信息为该硬盘在位,则转至步骤S207,进入可预测性故障处理流程。
步骤S202,重启所述硬盘。
当获取的故障信息和在位信息不一致时,设定该硬盘为疑似故障,对该硬盘进行下电重启恢复操作。
步骤S203,重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息。
步骤S204,判断所述第二故障信息和所述第二在位信息是否一致,如果是,则转至步骤S207;否则,转至步骤S205。
步骤S205,确定所述硬盘发生第一类型的故障。
步骤S206,将所述硬盘从所述硬盘组中隔离。
步骤S207,确定所述硬盘发生第二类型的故障。
对该疑似故障的硬盘重启之后,尝试进行恢复,因为对于有的故障,重启之后是可以恢复运行的,而如果重启之后再从硬盘控制器和硬盘在位检测电路重新获得的故障信息和在位信息仍不一致,即硬盘控制器仍检测出该硬盘发生故障,而硬盘在位检测电路则检测出该硬盘电位正常,硬盘在位,则可确定该硬盘不可恢复,发生了不可预测性故障,这类不可预测性故障可能会导致硬盘变得很慢,同时也会存在不停的被硬盘控制器找到再丢失情况,造成系统的不稳定,甚至导致系统业务的中断,因此,需要及时发现该类不可预测性故障,及时进行硬盘隔离。不可恢复的硬盘,通过对该故障硬盘下电的方式将该硬盘从硬盘组中隔离,点亮该硬盘的故障灯,日志记录故障,用户拔出该硬盘,当用户拔出该硬盘时,硬盘在位检测电路检测到该硬盘已经不在位了,则打开该硬盘槽位的电源然后清除故障告警。
如果重启之后,重新进行检测,硬盘控制器监控到该槽位的硬盘响应正常,且硬盘在位检测电路能检测到该硬盘的在位,即硬盘故障信息与硬盘在位信息一致,则转至步骤S207,进入可预测性故障处理流程。
步骤S208,从所述硬盘控制器检测第二类型的故障监控值是否到达预警值,如果是,则转至步骤S213;否则,转至步骤S209。
进入可预测性故障处理流程后,首先检测硬盘的故障监控值是否到达预警值。硬盘控制器采用现有的S.M.A.R.T.检测技术对硬盘的故障进行监控,从硬盘控制器可以获知该故障监控值的变化趋势,并预先设置预警值,当获取的该故障监控值到达预警值时,发出硬盘故障预警。
步骤S209,测试所述硬盘组的工作温度是否高于预设温度,如果是,则转至步骤S210;否则,转至步骤S211。
步骤S210,调节所述硬盘组的风扇转速。
步骤S211,从所述硬盘控制器获取统计的所述硬盘的坏块数量。
步骤S212,判断所述硬盘的坏块数量是否超出设定值,如果是,则转至步骤S213;否则,转至步骤S201。
步骤S213,发出硬盘故障预警。
当故障监控值没有到达预警值时,对于进行可预测性硬盘故障预警最重要的两个指标:硬盘的工作温度和坏块数量,可从外部对该硬盘的工作温度进行调节和对该硬盘的坏块数量进行监控。当测试到硬盘组的工作温度高于预设温度时,可调节硬盘组的风扇转速降低该硬盘的工作温度;当从外部监测到硬盘的坏块数量超出设定值时,可发出硬盘故障预警,而无需上层的操作系统参与。
根据本发明实施例提供的一种硬盘故障的检测方法,通过带外的方式便可准确地检测到硬盘的不可预测性故障和可预测性故障,可从带外对可预测性故障的重要指标进行监控和控制,无需上层操作系统的参与,检测和控制方便而准确。
图3为本发明的一种硬盘故障的检测装置的一个实施例的结构示意图。如图3所示,该装置1000包括:
第一获取单元11,用于从硬盘控制器获取硬盘组中的其中一个硬盘的第一故障信息,以及从外接于所述硬盘的硬盘在位检测电路获取所述硬盘的第一在位信息。
重启单元12,用于当所述第一故障信息与所述第一在位信息不一致时,重启所述硬盘。
采用现有的硬盘控制器中的监控软件对硬盘组中的硬盘进行监控,当某个硬盘出现故障时,可以监控到该槽位的硬盘响应很慢或者根本找不到,第一获取单元11可以从硬盘控制器获取这一故障信息,但从这一故障信息并不能确定硬盘是否发生了不可预测性故障,是否可恢复,该故障信息的检测触发第一获取单元11从外接于该硬盘组的硬盘在位检测电路进一步获得该硬盘的在位信息;外接于该硬盘组的硬盘在位检测电路,为直接对硬盘的电位的检测,可以准确地获知硬盘的在位信息,硬盘在位检测电路检测该硬盘在位;当第一获取单元11获取的故障信息和在位信息不一致时,设定该硬盘为疑似故障,重启单元12对该硬盘进行下电重启恢复操作。
第二获取单元13,用于重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息。
第一确定单元14,用于当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
对该疑似故障的硬盘重启之后,尝试进行恢复,因为对于有的故障,重启之后是可以恢复运行的,而如果重启之后第二获取单元13再从硬盘控制器和硬盘在位检测电路重新获得的故障信息和在位信息仍不一致,即硬盘控制器仍检测出该硬盘发生故障,而硬盘在位检测电路则检测出该硬盘电位正常,硬盘在位,则第一确定单元14可确定该硬盘不可恢复,发生了不可预测性故障,这类不可预测性故障可能会导致硬盘变得很慢,同时也会存在不停的被硬盘控制器找到再丢失情况,造成系统的不稳定,甚至导致系统业务的中断,因此,需要及时发现该类不可预测性故障,及时进行硬盘隔离。
本发明以现有的硬盘控制器检测到某一硬盘的故障信息为触发条件,通过带外的硬盘在位检测电路检测重启前后的疑似故障硬盘是否在位,来确定该硬盘是否发生了不可预测性故障。
根据本发明实施例提供的一种硬盘故障的检测装置,通过带外的方式便可准确地检测到硬盘的不可预测性故障,检测方便而准确。
图4为本发明的一种硬盘故障的检测装置的另一个实施例的结构示意图。如图4所示,该装置2000包括:
第一获取单元20,用于从硬盘控制器获取硬盘组中的其中一个硬盘的第一故障信息,以及从外接于所述硬盘的硬盘在位检测电路获取所述硬盘的第一在位信息。
采用现有的硬盘控制器中的监控软件对硬盘组中的硬盘进行监控,当某个硬盘出现故障时,可以监控到该槽位的硬盘响应很慢或者根本找不到,第一获取单元20可以从硬盘控制器获取这一故障信息,但从这一故障信息并不能确定硬盘是否发生了不可预测性故障,是否可恢复,该故障信息的检测触发第一获取单元20从外接于该硬盘组的硬盘在位检测电路进一步获得该硬盘的在位信息;外接于该硬盘组的硬盘在位检测电路,为直接对硬盘的电位的检测,可以准确地获知硬盘的在位信息,硬盘在位检测电路检测该硬盘在位;当获取的故障信息和在位信息不一致时,设定该硬盘为疑似故障。
当获取的故障信息和在位信息一致时,即硬盘控制器监控到该槽位的硬盘响应正常,且通过硬盘在位检测电路检测到的在位信息为该硬盘在位,则第二确定单元25可确定该硬盘发生可预测性故障,进行可预测性故障处理。
重启单元21,用于当所述第一故障信息与所述第一在位信息不一致时,重启所述硬盘。
当获取的故障信息和在位信息不一致时,设定该硬盘为疑似故障,重启单元21对该硬盘进行下电重启恢复操作。
第二获取单元22,用于重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息。
第一确定单元23,用于当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
隔离单元24,用于将所述硬盘从所述硬盘组中隔离。
第二确定单元25,用于当所述第一故障信息与所述第一在位信息一致或当所述第二故障信息与所述第二在位信息一致时,确定所述硬盘发生第二类型的故障。
对该疑似故障的硬盘重启之后,尝试进行恢复,因为对于有的故障,重启之后是可以恢复运行的,而如果重启之后,第二获取单元22再从硬盘控制器和硬盘在位检测电路重新获得的故障信息和在位信息仍不一致,即硬盘控制器仍检测出该硬盘发生故障,而硬盘在位检测电路则检测出该硬盘电位正常,硬盘在位,则可确定该硬盘不可恢复,发生了不可预测性故障,这类不可预测性故障可能会导致硬盘变得很慢,同时也会存在不停的被硬盘控制器找到再丢失情况,造成系统的不稳定,甚至导致系统业务的中断,因此,需要及时发现该类不可预测性故障,及时进行硬盘隔离。不可恢复的硬盘,隔离单元24通过对该故障硬盘下电的方式将该硬盘从硬盘组中隔离,点亮该硬盘的故障灯,日志记录故障,用户拔出该硬盘,当用户拔出该硬盘时,硬盘在位检测电路检测到该硬盘已经不在位了,则打开该硬盘槽位的电源,然后清除故障告警。
如果重启之后,重新进行检测,硬盘控制器监控到该槽位的硬盘响应正常,且硬盘在位检测电路能检测到该硬盘的在位,即硬盘故障信息与硬盘在位信息一致,则第二确定单元25可确定该硬盘发生可预测性故障,进行可预测性故障处理。
检测单元26,用于从所述硬盘控制器检测第二类型的故障监控值是否到达预警值。
预警单元30,用于当检测的结果为是时,发出硬盘故障预警。
进入可预测性故障处理流程后,首先由检测单元26检测硬盘的故障监控值是否到达预警值。硬盘控制器采用现有的S.M.A.R.T.检测技术对硬盘的故障进行监控,从硬盘控制器可以获知该故障监控值的变化趋势,并预先设置预警值,当获取的该故障监控值到达预警值时,预警单元30发出硬盘故障预警。
测试单元27,用于当检测的结果为否时,测试所述硬盘组的工作温度是否高于预设温度。
调节单元28,用于当测试的结果为是时,调节所述硬盘组的风扇转速。
第三获取单元29,用于当测试的结果为否时,从所述硬盘控制器获取统计的所述硬盘的坏块数量。
预警单元30还用于当所述硬盘的坏块数量超出设定值时,发出所述硬盘故障预警。
当故障监控值没有到达预警值时,对于进行可预测性硬盘故障预警最重要的两个指标:硬盘的工作温度和坏块数量,可从外部对该硬盘的工作温度进行调节和对该硬盘的坏块数量进行监控。当测试单元27测试到硬盘组的工作温度高于预设温度时,调节单元28可调节硬盘组的风扇转速降低该硬盘的工作温度;当第三获取单元29从外部监测到硬盘的坏块数量超出设定值时,预警单元30可发出硬盘故障预警,而无需上层的操作系统参与。
根据本发明实施例提供的一种硬盘故障的检测装置,通过带外的方式便可准确地检测到硬盘的不可预测性故障和可预测性故障,可从带外对可预测性故障的重要指标进行监控和控制,无需上层操作系统的参与,检测和控制方便而准确。
图5为本发明的一种硬盘故障的检测装置的又一个实施例的结构示意图。如图5所示,该装置4000包括硬盘组和连接硬盘组的硬盘控制器43,该硬盘组包括一个或多个硬盘,如硬盘1、硬盘2至硬盘N,硬盘控制器43控制硬盘组中各硬盘的运行;还包括分别连接该硬盘组中的每一个硬盘的硬盘在位检测电路44,该硬盘在位检测电路检测各个硬盘的在位信息;还包括通过第一接口42分别与硬盘控制器43和硬盘在位检测电路44连接的第一控制器41;该第一控制器41用于当检测到硬盘控制器43获取的硬盘组中的其中一个硬盘的第一故障信息与该硬盘的硬盘在位检测电路44获取的该硬盘的第一在位信息不一致时,重启该硬盘,且重新从硬盘控制器43获取该硬盘的第二故障信息和从硬盘在位检测电路44获取该硬盘的第二在位信息,当该第二故障信息和第二在位信息不一致时,确定该硬盘发生不可预测性故障。
硬盘在位检测电路44可包括第二控制器和至少一个电源控制电路,该第二控制器连接第一接口42和至少一个电源控制电路,每一个电源控制电路连接硬盘组中的一个硬盘,该电源控制电路用于接收第一控制器41的控制命令,检测电源控制电路连接的硬盘的在位状态和控制硬盘的隔离。
另外,硬盘组还连接有风扇,第一控制器41连接该风扇,可控制该风扇的转速调节。
以图6所示的硬盘故障的检测装置的电路图进行举例说明,在图6中,底板管理控制器51(Baseboard Management Controller,BMC)通过外接接口I2C接口52连接复杂可编程逻辑器件55(Complex Programmable Logic Device,CPLD)和硬盘主机总线适配器53,其中,硬盘主机总线适配器53通过背板54上的SAS(串行连接小型计算机系统接口,Serial Attached SCSI)扩展器56分别连接硬盘组中的各个硬盘(HDD)58,控制HDD58的运行,采用现有的S.M.A.R.T.技术监控HDD58的故障监控值的变化趋势;CPLD55连接多个A模块57,每个A模块57连接一个HDD58,A模块57的具体电路可采用如图7所示的电路,A模块57通过硬盘连接器59与HDD58连接,通过电位的高低检测可获知HDD58的在位信息;BMC51通过I2C接口52可分别从硬盘主机总线适配器53和CPLD55获取硬盘的故障信息和在位信息,当从硬盘主机总线适配器53检测到某一个HDD58的故障信息时,触发BMC51从CPLD55获取该HDD58的在位信息,通过重启前后的两次获取的信息的比较,可确定该HDD58发生的故障类型,即是可预测性故障还是不可预测性故障。
该硬盘组还设置有风扇,BMC51连接该风扇,当硬盘进入可预测性故障处理时,如果故障监控值没有达到预警值,可测验硬盘的工作温度是否超过预定温度,如果是,BMC51可控制调节该风扇的转速;BMC51还可获取硬盘主机总线适配器53统计的硬盘的坏块数量,如果坏块数量达到设定数量,BMC51可控制发出硬盘故障预警。因此,BMC51可从外部对可预测性故障的两个重要指标进行监测和控制,无需上层操作系统的参与,简化了检测过程。
根据本发明实施例提供的一种硬盘故障的检测装置,通过带外的方式便可准确地检测到硬盘的不可预测性故障和可预测性故障,可从带外对可预测性故障的重要指标进行监控和控制,无需上层操作系统的参与,检测和控制方便而准确。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种硬盘故障的检测方法,其特征在于,包括:
当从硬盘控制器检测到的硬盘组中的其中一个硬盘的第一故障信息与从外接于所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息不一致时,重启所述硬盘;
重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息,当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
2.如权利要求1所述的方法,其特征在于,所述确定所述硬盘发生第一类型的故障之后,还包括:
将所述硬盘从所述硬盘组中隔离。
3.如权利要求1所述的方法,其特征在于,还包括:
当所述第一故障信息与所述第一在位信息一致或当所述第二故障信息与所述第二在位信息一致时,确定所述硬盘发生第二类型的故障。
4.如权利要求3所述的方法,其特征在于,所述确定所述硬盘发生第二类型的故障之后,还包括:
从所述硬盘控制器检测第二类型的故障监控值是否到达预警值;
当检测的结果为是时,发出硬盘故障预警。
5.如权利要求4所述的方法,其特征在于,所述确定所述硬盘发生第二类型的故障之后,还包括:
当检测的结果为否时,测试所述硬盘组的工作温度是否高于预设温度;
当测试的结果为是时,调节所述硬盘组的风扇转速;
当测试的结果为否时,从所述硬盘控制器获取统计的所述硬盘的坏块数量;
当所述硬盘的坏块数量超出设定值时,发出所述硬盘故障预警。
6.一种硬盘故障的检测装置,其特征在于,包括:
第一获取单元,用于从硬盘控制器获取硬盘组中的其中一个硬盘的第一故障信息,以及从外接于所述硬盘的硬盘在位检测电路获取所述硬盘的第一在位信息;
重启单元,用于当所述第一故障信息与所述第一在位信息不一致时,重启所述硬盘;
第二获取单元,用于重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息;
第一确定单元,用于当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
7.如权利要求6所述的装置,其特征在于,还包括:
隔离单元,用于将所述硬盘从所述硬盘组中隔离。
8.如权利要求7所述的装置,其特征在于,还包括:
第二确定单元,用于当所述第一故障信息与所述第一在位信息一致或当所述第二故障信息与所述第二在位信息一致时,确定所述硬盘发生第二类型的故障。
9.如权利要求8所述的装置,其特征在于,还包括:
检测单元,用于从所述硬盘控制器检测第二类型的故障监控值是否到达预警值;
预警单元,用于当检测的结果为是时,发出硬盘故障预警。
10.如权利要求9所述的装置,其特征在于,还包括:
测试单元,用于当检测的结果为否时,测试所述硬盘组的工作温度是否高于预设温度;
调节单元,用于当测试的结果为是时,调节所述硬盘组的风扇转速;
第三获取单元,用于当测试的结果为否时,从所述硬盘控制器获取统计的所述硬盘的坏块数量;
所述预警单元还用于当所述硬盘的坏块数量超出设定值时,发出所述硬盘故障预警。
11.一种硬盘故障的检测装置,包括硬盘组和连接所述硬盘组的硬盘控制器,所述硬盘组包括至少一个硬盘,所述硬盘控制器控制所述硬盘组中各硬盘的运行,其特征在于,还包括:
分别连接所述硬盘组中的每一个硬盘的硬盘在位检测电路,所述硬盘在位检测电路检测所述硬盘的在位信息;
通过第一接口分别与硬盘控制器和所述硬盘在位检测电路连接的第一控制器;
所述第一控制器用于当检测到所述硬盘控制器获取的硬盘组中的其中一个硬盘的第一故障信息与所述硬盘的硬盘在位检测电路获取的所述硬盘的第一在位信息不一致时,重启所述硬盘;
且重新从所述硬盘控制器获取所述硬盘的第二故障信息和从所述硬盘在位检测电路获取所述硬盘的第二在位信息,当所述第二故障信息和所述第二在位信息不一致时,确定所述硬盘发生第一类型的故障。
12.如权利要求11所述的装置,其特征在于,所述硬盘在位检测电路包括第二控制器和至少一个电源控制电路,所述第二控制器连接所述第一接口和所述至少一个电源控制电路,所述至少一个电源控制电路中的每一个电源控制电路连接所述硬盘组中的一个硬盘,所述电源控制电路用于接收所述第一控制器的控制命令,检测所述电源控制电路连接的所述硬盘的在位状态和控制所述硬盘的隔离。
13.如权利要求11所述的装置,所述硬盘组连接有风扇,其特征在于,所述第一控制器连接所述风扇,并控制所述风扇的转速调节。
14.如权利要求11-13任意一项所述的装置,其特征在于,所述第一控制器为底板管理控制器BMC。
CN201310344369.XA 2013-08-08 2013-08-08 一种硬盘故障的检测方法及装置 Active CN103455395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310344369.XA CN103455395B (zh) 2013-08-08 2013-08-08 一种硬盘故障的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310344369.XA CN103455395B (zh) 2013-08-08 2013-08-08 一种硬盘故障的检测方法及装置

Publications (2)

Publication Number Publication Date
CN103455395A CN103455395A (zh) 2013-12-18
CN103455395B true CN103455395B (zh) 2016-12-07

Family

ID=49737796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310344369.XA Active CN103455395B (zh) 2013-08-08 2013-08-08 一种硬盘故障的检测方法及装置

Country Status (1)

Country Link
CN (1) CN103455395B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104158843B (zh) * 2014-07-14 2018-01-12 深圳市中博科创信息技术有限公司 分布式文件存储系统的存储单元失效检测方法及装置
CN104850357B (zh) * 2015-05-21 2018-06-01 英业达科技有限公司 硬盘重置装置
CN104834486B (zh) * 2015-05-21 2018-05-04 英业达科技有限公司 硬盘重置装置
TWI587129B (zh) * 2015-06-03 2017-06-11 英業達股份有限公司 硬碟重置裝置
CN107305474B (zh) * 2016-04-21 2020-07-21 佛山市顺德区顺达电脑厂有限公司 能视觉上指示链接关系的储存系统
CN106776387B (zh) * 2016-11-24 2019-10-18 大唐高鸿信安(浙江)信息科技有限公司 硬盘通道扩展装置
CN106649156B (zh) * 2016-12-07 2019-09-17 英业达科技有限公司 服务器
CN107145415A (zh) * 2017-05-05 2017-09-08 郑州云海信息技术有限公司 一种在linux系统下批量测试HDD LED的方法
CN107733702A (zh) * 2017-09-29 2018-02-23 郑州云海信息技术有限公司 集群系统中管理主机运行状态的方法和装置
CN108763048B (zh) * 2018-06-05 2021-01-19 西安交通大学 一种基于粒子滤波的硬盘故障预警与可靠性评估方法
CN108953205B (zh) * 2018-06-29 2020-06-23 深圳市同泰怡信息技术有限公司 服务器风扇转速控制系统及方法
CN109032525A (zh) * 2018-07-26 2018-12-18 广东浪潮大数据研究有限公司 一种自动定位坏盘的方法、装置、设备及存储介质
CN109284207A (zh) * 2018-08-30 2019-01-29 紫光华山信息技术有限公司 硬盘故障处理方法、装置、服务器和计算机可读介质
CN109510742B (zh) * 2019-01-25 2022-02-18 郑州云海信息技术有限公司 一种服务器网卡远程测试方法、装置、终端及存储介质
CN110491438A (zh) * 2019-07-19 2019-11-22 苏州浪潮智能科技有限公司 一种硬盘稳定性跌落测试方法、系统、终端及存储介质
CN112000286B (zh) * 2020-08-13 2023-02-28 北京浪潮数据技术有限公司 一种四控全闪存储系统及其故障处理方法、装置
CN112732477B (zh) * 2021-04-01 2021-06-29 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN113900594A (zh) * 2021-10-12 2022-01-07 天津津航计算技术研究所 一种raid控制卡s·m·a·r·t·信息的预警方法
CN114020561A (zh) * 2021-10-22 2022-02-08 苏州浪潮智能科技有限公司 故障上报方法、系统、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254636A (ja) * 1997-03-11 1998-09-25 Nec Corp ディスクアレイシステム
CN1716428A (zh) * 2004-07-01 2006-01-04 华为技术有限公司 硬盘检测装置及方法
CN1878358A (zh) * 2005-06-09 2006-12-13 华为技术有限公司 实时在位器件的状态检测及处理的方法
CN1896963A (zh) * 2005-07-11 2007-01-17 英业达股份有限公司 硬盘装置损坏监测方法及系统
CN101097531A (zh) * 2006-06-28 2008-01-02 联想(北京)有限公司 一种计算机raid阵列预警系统及方法
CN101359309A (zh) * 2007-08-03 2009-02-04 中兴通讯股份有限公司 串行附接小型计算机系统接口硬盘状态指示装置及方法
CN102147759A (zh) * 2011-03-18 2011-08-10 浪潮电子信息产业股份有限公司 一种raid硬盘掉线的处理方法
CN102902612A (zh) * 2012-09-18 2013-01-30 曙光信息产业股份有限公司 一种适用于龙芯刀片服务器的管理系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254636A (ja) * 1997-03-11 1998-09-25 Nec Corp ディスクアレイシステム
CN1716428A (zh) * 2004-07-01 2006-01-04 华为技术有限公司 硬盘检测装置及方法
CN1878358A (zh) * 2005-06-09 2006-12-13 华为技术有限公司 实时在位器件的状态检测及处理的方法
CN1896963A (zh) * 2005-07-11 2007-01-17 英业达股份有限公司 硬盘装置损坏监测方法及系统
CN101097531A (zh) * 2006-06-28 2008-01-02 联想(北京)有限公司 一种计算机raid阵列预警系统及方法
CN101359309A (zh) * 2007-08-03 2009-02-04 中兴通讯股份有限公司 串行附接小型计算机系统接口硬盘状态指示装置及方法
CN102147759A (zh) * 2011-03-18 2011-08-10 浪潮电子信息产业股份有限公司 一种raid硬盘掉线的处理方法
CN102902612A (zh) * 2012-09-18 2013-01-30 曙光信息产业股份有限公司 一种适用于龙芯刀片服务器的管理系统

Also Published As

Publication number Publication date
CN103455395A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103455395B (zh) 一种硬盘故障的检测方法及装置
US9969508B2 (en) Aircraft LRU data collection and reliability prediction
CN107179957B (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN105468484B (zh) 用于在存储系统中确定故障位置的方法和装置
US8996924B2 (en) Monitoring device, monitoring system and monitoring method
US9176803B2 (en) Collecting data from a system in response to an event based on an identification in a file of the data to collect
CN103019885B (zh) 基于嵌入式Linux的硬盘坏道监测方法及系统
CN106294084A (zh) 一种硬盘状态监测系统
CN112732477B (zh) 一种带外自检故障隔离的方法
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN105335262A (zh) 一种批量服务器部件故障自动计算并预警的方法
CN105740110A (zh) 一种linux系统下硬盘smart信息的检测方法
CN103207825A (zh) 一种用于管理整机柜的故障的方法及装置
CN104320308A (zh) 一种服务器异常检测的方法及装置
US7269764B2 (en) Monitoring VRM-induced memory errors
Huang et al. Characterizing disk health degradation and proactively protecting against disk failures for reliable storage systems
US8234235B2 (en) Security and remote support apparatus, system and method
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN108345519A (zh) 计算机硬盘故障的处理方法及装置
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
CN105955864A (zh) 电源故障处理方法、电源模块、监控管理模块及服务器
CN101140540B (zh) 一种自动监控磁阵故障的方法和系统
JP6996602B1 (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
CN111625185B (zh) 一种磁盘故障监控的方法、系统及相关组件
CN111884830B (zh) 一种基于bmc保留故障现场的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant