CN106294065A - 硬盘故障监测方法、装置及系统 - Google Patents

硬盘故障监测方法、装置及系统 Download PDF

Info

Publication number
CN106294065A
CN106294065A CN201610609204.4A CN201610609204A CN106294065A CN 106294065 A CN106294065 A CN 106294065A CN 201610609204 A CN201610609204 A CN 201610609204A CN 106294065 A CN106294065 A CN 106294065A
Authority
CN
China
Prior art keywords
hard disk
determining
state data
information
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610609204.4A
Other languages
English (en)
Inventor
范瑞展
缪亦奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201610609204.4A priority Critical patent/CN106294065A/zh
Publication of CN106294065A publication Critical patent/CN106294065A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了硬盘故障监测方法、装置及系统,该方法依据硬盘的状态数据,获取硬盘当前的实际消耗寿命,依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,该危险系数表明了该硬盘发生故障的概率信息,从而可以使用户及时发现硬盘的异常,用户还可以依据该危险信息可以预先获知是否需要更换硬盘,从而避免硬盘损坏数据丢失造成的灾难性的后果。

Description

硬盘故障监测方法、装置及系统
技术领域
本申请涉及硬盘技术领域,更具体涉及一种硬盘故障监测方法、装置及系统。
背景技术
硬盘是电子设备中最主要的存储设备,作为电子设备用户的资料和信息的载体,硬盘上往往保存有大量重要资料。大多数硬盘的平均无故障时间已达30000~50000小时以上,然而对于不少用户,特别是商业用户而言,一次普通的硬盘故障便足以造成灾难性后果。及时发现硬盘的异常是保持电子设备稳定运行、保护数据安全的根本前提。
发明内容
有鉴于此,本发明提供了一种硬盘故障监测方法、装置及系统,以克服现有技术中未及时发现硬盘的异常,导致硬盘中数据丢失以及电子设备的稳定性降低的问题。
为实现上述目的,本发明提供如下技术方案:
一种硬盘故障监测方法,包括:
依据硬盘的状态数据,获取所述硬盘当前实际消耗寿命,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
优选地,还包括:
确定出危险系数大于等于第一预设值的源硬盘;
确定出满足预设条件的目的硬盘;
生成硬盘迁移指令,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息。
优选地,还包括:
依据所述危险系数,确定当前所述硬盘的危险等级;
输出与所述危险等级对应的报警信息。
一种硬盘故障监测装置,包括:
获取模块,用于依据硬盘的状态数据,获取所述硬盘当前实际消耗寿命,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
计算模块,用于依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
一种硬盘故障监测系统,包括基板管理控制器、总线、监测器,所述基板管理控制器通过所述总线与所述监测器相连;
所述监测器,用于监测硬盘的状态数据,并将所述状态数据通过所述总线传输至所述基板管理控制器,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
所述基板管理控制器,用于依据所述硬盘的状态数据,获取所述硬盘当前实际消耗寿命,并依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘发生故障的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
优选的,所述基板管理控制器还用于:
确定出危险系数大于等于第一预设值的源硬盘;
确定出满足预设条件的目的硬盘;
生成硬盘迁移指令,并通过所述总线发送至所述监测器,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息;
所述监测器还用于:依据所述硬盘迁移指令,将所述源硬盘的数据迁移至所述目的硬盘。
其中,所述状态数据还包括硬盘的存储空间剩余量,所述基板管理控制器在确定出满足预设条件的目的硬盘时,具体用于:
将存储空间剩余量最大的硬盘确定为所述目的硬盘;
或,从危险系数小于等于第三预设值的硬盘中,确定出存储空间剩余量最大的硬盘,将该硬盘确定为所述目的硬盘;
或,将危险系数最小的硬盘确定为所述目的硬盘。
优选的,所述基板管理控制器还用于:
依据所述危险系数,确定当前所述硬盘的危险等级;
输出与所述危险等级对应的报警信息。
其中,
所述总线为I2C总线,所述监测器为阵列控制器;
或,所述总线为KCS总线,所述监测器内置操作系统和应用软件(software),其中,所述操作系统通过所述应用软件对所述硬盘执行数据迁移操作。
一种硬盘故障监测系统,包括处理器和存储器,其中:
所述存储器,用于存储硬盘的状态数据,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
所述处理器,用于依据所述存储器存储的所述硬盘的状态数据,获取所述硬盘当前实际消耗寿命,并依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘发生故障的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
经由上述的技术方案可知,与现有技术相比,本发明实施例提供了一种硬盘故障监测方法,该方法依据硬盘的状态数据,获取硬盘当前的实际消耗寿命,依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,该危险系数表明了该硬盘发生故障的概率信息,从而可以使用户及时发现硬盘的异常,用户还可以依据该危险信息可以预先获知是否需要更换硬盘,从而避免硬盘损坏数据丢失造成的灾难性的后果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为硬盘的工作环境温度与故障率的关系示意图;
图2为本申请实施例提供的一种硬盘故障监测方法的流程示意图;
图3为本申请实施例提供的一种硬盘故障监测方法中的硬盘中数据的迁移方法的流程示意图;
图4为本申请实施例提供的一种硬盘故障监测方法中的报警示意图;
图5为本申请实施例提供的硬盘故障监测装置的结构示意图;
图6为本申请实施例提供的一种硬盘故障监测系统的结构示意图;
图7为本申请实施例提供的硬盘故障监测系统的一种具体实现方式的结构示意图;
图8为本申请实施例提供的硬盘故障监测系统中的另一实现方式的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:
I2C总线:Inter-Integrated Circuit;
KCS:Keyboard Controller Style;键盘控制器方式;
BMC:Baseboard Management Controller,基板管理控制器。
RAID:Redundant Arrays of Independent Disks,磁盘阵列;
HDD:Hard Disk Drive,硬盘驱动器。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
硬盘在电子设备中是个很重要的存储元件,其寿命与温度有直接的关联性,如图1所示,为硬盘的工作环境温度与发生故障的概率(以下简称故障率)的关系示意图,图1中横坐标表示硬盘的工作环境温度,纵坐标表示硬盘的年故障率(年故障率是指一年发生故障的概率)。
图1中曲线1表示硬盘一年的累计通电时间(Power On Hour,POH)为2400小时,曲线2表示硬盘一年的POH为8760小时。
从图1中可以看出当温度从30°升高到70°时,年故障率(Annualized FailureRate,AFR)成倍上升。
目前对于硬盘健康度都是看坏轨与否来做判断,也就是当硬盘实际发生坏轨後,使用者再更换该硬盘,但是硬盘中存储的数据可能会有丢失的风险。
目前,并没有针对硬盘的寿命进行监控的方法。往往都是等到某个硬盘发生损坏后,BMC记录SEL log(选择日志)后,使用者再更换该硬盘。
本申请实施例提供的硬盘故障监测方法能够获知硬盘当前的危险系数,以便用户可以依据危险系数,判断是否需要对硬盘上的数据进行迁移,从而避免了硬盘中存储的数据被损坏的风险。
如图2所示,为本申请实施例提供的一种硬盘故障监测方法的流程示意图,该方法包括:
步骤S201:依据硬盘的状态数据,获取所述硬盘当前实际消耗寿命。
所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息。
目前硬盘厂商经过多次试验得到,在硬盘的工作负载为50%,工作环境温度为40℃时,AFR为0.73%。也就是硬盘在40℃的工作环境温度,且工作负载为50%时,硬盘的年故障率为0.73%,但是实际使用时,硬盘的工作环境温度不一定是40℃,而且硬盘的负载也会随着电子设备的运作状态来变更,不会一直维持在50%。
而且,对于任一电子设备而言,硬盘的寿命仅仅是针对一个或几个硬盘而言,但是上述0.73%是以上千颗硬盘为样本得到的年故障率。因此,0.73%并不能代表每一个在实际使用中的硬盘的年故障率,所以预先估计每一电子设备中的一个或多个硬盘的寿命是非常重要的。
硬盘当前的实际消耗寿命可以通过如下公式计算,当前实际消耗寿命:
其中,T是指硬盘从开始使用到当前的通电时间,温度(T)表示硬盘在时间T下的实际工作环境温度;负载(T)表示硬盘在时间T下的实际工作负载。
需要注意的是,上述公式并不构成对本申请的限定,本领域技术人员可以根据本发明提供的技术思想结合实际应用需求自行设计。
步骤S202:依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数。
所述危险系数表明了所述硬盘发生故障的概率信息。
硬盘的预设寿命可以是指其中T1表示硬盘厂商规定的时间,例如1年、2年、5年等等。
危险系数X可以为L_real/L_total。
需要注意的是,上述公式并不构成对本申请的限定,本领域技术人员可以根据本发明提供的技术思想结合实际应用需求自行设计。
可以理解的是,硬盘的寿命越接近预设寿命,说明硬盘可能发生故障的概率越大。可以依据该危险系数X来确定是否更换硬盘。
本发明实施例提供了一种硬盘故障监测方法,该方法依据硬盘的状态数据,获取硬盘当前的实际消耗寿命,依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,该危险系数表明了该硬盘发生故障的概率信息,从而可以使用户及时发现硬盘的异常,用户还可以依据该危险信息可以预先获知是否需要更换硬盘,从而避免硬盘损坏数据丢失造成的灾难性的后果。
当电子设备上安装有多个硬盘时,电子设备可以自动将可能发生故障的硬盘中存储的数据迁移至其他硬盘中,在上述硬盘故障监测方法实施例中,还可以包括,将硬盘中存储的数据进行迁移方法,如图3所示,该方法包括:
步骤S301:确定出危险系数大于等于第一预设值的源硬盘。
第一预设值可以依据实际情况而定,例如第一预设值可以为80%、90%,100%等等。
本申请实施例中将电子设备中危险系数大于等于第一预设值的硬盘称为源硬盘。
步骤S302:确定出满足预设条件的目的硬盘。
本申请实施例中将电子设备中满足预设条件的硬盘称为目的硬盘。
状态数据还可以包括硬盘的存储空间剩余量,预设条件可以为:将存储空间剩余量最大的硬盘确定为所述目的硬盘;或,从危险系数小于等于第三预设值的硬盘中,确定出存储空间剩余量最大的硬盘,将该硬盘确定为所述目的硬盘;或,将危险系数最小的硬盘确定为所述目的硬盘。
步骤S303:生成硬盘迁移指令,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息。
可以理解的是,当硬盘的危险系数大于等于第二预设值时,可以输出报警信息。例如当危险系数为30%时,并不发出报警信息,当危险系数为80%或以上才会发出报警信息。第二预设值是依据实际情况而定的,例如可以依据硬盘中存储的数据的重要程度进行设置,重要程度越高,第二预设值越小,该第二预设值可以是用户通过电子设备的显示屏幕自行设置,也可以是电子设备在出厂之前已经预先设置好的。
不论硬盘的危险系数是多少,输出的报警信息可以相同,也可以不同。例如,硬盘的危险系数为80%或100%时,输出的报警信息是一样的,例如在电子设备的显示屏中显示硬盘即将发生故障的信息。或者,硬盘的危险系数为80%或100%时,输出的报警信息不同,具体的,上述硬盘故障监测方法还可以包括:依据所述危险系数,确定当前所述硬盘的危险等级;输出与所述危险等级对应的报警信息。
例如,危险系数为80%-90%为第二危险等级,91%至100%为第一危险等级等等。第一危险等级可以对应红色警报,第二危险等级可以对应黄色警报。
如图4所示,HDD 1表示硬盘,当BMC 41确定出HDD 1的危险系数X为:90%>=X>=80%时,表示HDD 1的寿命快要接近规格,可以输出黄色警报,黄色警报可以为提醒使用者注意HDD 1的健康状况,并且需要准备资料的搬迁以及是否有备用硬盘可供更换等等。
当HDD 1的危险系数X为:100%>=X>=91%时,表示HDD 1已经有损坏的风险,可以输出红色警报,红蛇警报可以是指,提醒使用者进行数据迁移以及更换HDD 1,来避免可能的HDD 1损坏和数据丢失。
本申请实施例除了提供上述硬盘故障监测方法外,还提供了硬盘故障监测装置,硬盘故障监测装置中各个模块的描述请参阅硬盘故障监测方法中,与之对应的各个步骤的描述,在此不在赘述,如图5所示,为本申请实施例提供的硬盘故障监测装置的结构示意图,该装置包括:获取模块501以及计算模块502,其中:
获取模块501,用于依据硬盘的状态数据,获取所述硬盘当前实际消耗寿命,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息。
计算模块502,用于依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
本发明实施例提供了一种硬盘故障监测装置,获取模块501依据硬盘的状态数据,获取硬盘当前的实际消耗寿命,计算模块502依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,该危险系数表明了该硬盘发生故障的概率信息,从而可以使用户及时发现硬盘的异常,用户还可以依据该危险信息可以预先获知是否需要更换硬盘,从而避免硬盘损坏数据丢失造成的灾难性的后果。
当电子设备上安装有多个硬盘时,电子设备可以自动将可能发生故障的硬盘中存储的数据迁移至其他硬盘中,因此上述硬盘故障监测装置还可以包括:
第一确定模块,用于确定出危险系数大于等于第一预设值的源硬盘。
第二确定模块,用于确定出满足预设条件的目的硬盘。
状态数据还可以包括硬盘的存储空间剩余量,预设条件可以为:将存储空间剩余量最大的硬盘确定为所述目的硬盘;或,从危险系数小于等于第三预设值的硬盘中,确定出存储空间剩余量最大的硬盘,将该硬盘确定为所述目的硬盘;或,将危险系数最小的硬盘确定为所述目的硬盘。
生成模块,用于生成硬盘迁移指令,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息。
上述任一硬盘故障监测装置还可以包括:
第三确定模块,用于依据所述危险系数,确定当前所述硬盘的危险等级;输出模块,用于输出与所述危险等级对应的报警信息。
详细可以参见图4的描述,在此不再赘述。
本申请实施例还提供了一种硬盘故障监测系统,如图6所示,该硬盘故障监测系统包括:BMC 41、总线61、监测器62,所述BMC 41通过所述总线61与所述监测器62相连。
所述监测器62,用于监测硬盘的状态数据,并将所述状态数据通过所述总线传输至所述基板管理控制器,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息。
总线61可以为I2C总线或KCS总线等等。
BMC 41,用于依据所述硬盘的状态数据,获取所述硬盘当前实际消耗寿命,并依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘发生故障的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
有的电子设备中包括BMC,但现有技术中电子设备包括的BMC并没有本申请实施例中BMC 41的功能,将本申请实施例中BMC 41的功能内置于现有技术中电子设备包括的BMC的代码中,不需要增加额外的硬件来实现该功能,即不会增加硬件成本。
对监控器63和BMC 41的详细描述可以参见,与图2中硬盘故障监测方法中对应的各个步骤的详细描述,在此不再赘述。
在上述硬盘故障监测系统中,基板管理控制器还用于:确定出危险系数大于等于第一预设值的源硬盘;确定出满足预设条件的目的硬盘;生成硬盘迁移指令,并通过所述总线发送至所述监测器,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息;所述监测器还用于:依据所述硬盘迁移指令,将所述源硬盘的数据迁移至所述目的硬盘。
所述状态数据还包括硬盘的存储空间剩余量,所述基板管理控制器在确定出满足预设条件的目的硬盘时,具体用于:将存储空间剩余量最大的硬盘确定为所述目的硬盘;或,从危险系数小于等于第三预设值的硬盘中,确定出存储空间剩余量最大的硬盘,将该硬盘确定为所述目的硬盘;或,将危险系数最小的硬盘确定为所述目的硬盘。
上述任一所述硬盘故障监测系统,中所述基板管理控制器还用于:依据所述危险系数,确定当前所述硬盘的危险等级;输出与所述危险等级对应的报警信息。
详细可以参见图4的描述,在此不再赘述。
为了本领域技术人员更加理解本申请实施例提供的硬盘故障监测系统,下面举两个具体例子对硬盘故障监测系统的实现过程进行说明。
请参阅图7,为本申请实施例提供的硬盘故障监测系统的一种具体实现方式的结构示意图。
总线61为I2C总线,监测器62可以为RAID中的阵列控制器71。HDD为RAID中的硬盘,为了更加清楚的描述硬盘故障监测系统,图7中将RAID中的阵列控制器71和HDD分离出来。图7中示出了两颗硬盘HDD 1和HDD2,可以理解的是,硬盘的个数可以为1个,此时电子设备就不能自动进行硬盘中存储的数据的迁移了,需要用户自己更换,硬盘的个数可以为2个或多个,此时电子设备可以不自动进行硬盘中存储的数据的迁移,也可以自动进行硬盘中存储的数据的迁移。
对于BMC而言,并不能直接获得硬盘的状态数据,需要阵列控制器71将各个硬盘即HDD 1和HDD 2的状态数据通过I2C总线传输至BMC 41中,BMC 41对于每一硬盘,依据HDD 1(或HDD 2)的状态数据,获取HDD 1(或HDD 2)当前实际消耗寿命L_real1(或L_real2),并依据所述实际消耗寿命与HDD 1(或HDD 2)的预设寿命L_toatl1(或L_toatl2),计算出HDD 1(或HDD 2)发生故障的危险系数X1(或X2)。
BMC 41可以判断X1和X2是否大于第二预设值(例如为80%),假设确定出X1=90%,即大于等于80%,X2=30%,此时,BMC可以输出报警信息,例如黄色警报。
BMC 41若确定危险系数大于等于第一预设值(假设为85%)的硬盘中的数据需要搬迁,则BMC 41能够确定出HDD 1中的数据需要搬迁,BMC 41还可以计算数据迁移的最佳位置,假设确定出的最佳数据迁移位置为HDD2,则会生成硬盘搬迁指令,该硬盘搬迁指令中包括HDD 1的地址信息以及HDD 2的地址信息。阵列控制器71接收到硬盘搬迁指令后,可以将HDD 1中存储的数据搬迁至HDD 2中。
请参阅图8,为本申请实施例提供的硬盘故障监测系统中的另一实现方式的结构示意图。
总线61为KCS总线,监测器62中可以内置操作系统(OS,Operating system)81和应用软件82,操作系统81可以通过应用软件82获得硬盘HDD 1和HDD 2的状态数据,操作系统81还可以通过应用软件82对所述硬盘执行数据迁移操作,以及获取硬盘的状态数据。
操作系统81通过应用软件82获得各个硬盘,例如硬盘HDD 1和HDD 2的状态数据后,可以通过KCS总线(监控器63可以通过基本输入输出系统83(Basic Input OutputSystem,BIOS)与KCS总线相连)传输至BMC 41中。
操作系统81获得状态数据的原理,可以是对指定硬盘的寄存器或盘面扇区进行全面的读写,从而获得硬盘的状态数据。
BMC 41对于每一硬盘,依据HDD 1(或HDD 2)的状态数据,获取HDD 1(或HDD 2)当前实际消耗寿命L_real1(或L_real2),并依据所述实际消耗寿命与HDD 1(或HDD 2)的预设寿命L_toatl1(或L_toatl2),计算出HDD 1(或HDD 2)发生故障的危险系数X1(或X2)。
BMC 41可以判断X1和X2是否大于第二预设值(例如为80%),假设确定出X1=90%,即大于等于80%,X2=30%,此时,BMC可以输出报警信息,例如黄色警报。
BMC 41若确定危险系数大于等于第一预设值(假设为85%)的硬盘中的数据需要搬迁,则BMC 41能够确定出HDD 1中的数据需要搬迁,BMC 41还可以计算数据迁移的最佳位置,假设确定出的最佳数据迁移位置为HDD 2,则会生成硬盘搬迁指令,该硬盘搬迁指令中包括HDD 1的地址信息以及HDD 2的地址信息。该硬盘搬迁指令可以通过KCS总线、BIOS 83传输至监控器63中的操作系统81,操作系统81通过应用程序82,将HDD 1中存储的数据搬迁至HDD 2中。
本申请实施例提供的一种硬盘故障监测系统,该系统可以为电脑、手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等电子设备。
硬盘故障监测系统可以包括存储器、处理器。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如计算危险系数功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如硬盘的状态数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
本申请实施例中的处理器可以依据所述存储器存储的所述硬盘的状态数据,获取所述硬盘当前实际消耗寿命,并依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘发生故障的危险系数。
所述存储器还可以存储有第一预设值、预设条件,所述处理器还可以用于:确定出危险系数大于等于第一预设值的源硬盘;确定出满足预设条件的目的硬盘;生成硬盘迁移指令,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息。
所述处理器还可以用于:将存储空间剩余量最大的硬盘确定为所述目的硬盘;或,从危险系数小于等于第三预设值的硬盘中,确定出存储空间剩余量最大的硬盘,将该硬盘确定为所述目的硬盘;或,将危险系数最小的硬盘确定为所述目的硬盘。
所述存储器还可以存储有危险等级、危险等级与报警信息的对应关系,所述处理器还可以用于:依据所述危险系数,确定当前所述硬盘的危险等级;输出与所述危险等级对应的报警信息。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种硬盘故障监测方法,其特征在于,包括:
依据硬盘的状态数据,获取所述硬盘当前实际消耗寿命,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
2.根据权利要求1所述硬盘故障监测方法,其特征在于,还包括:
确定出危险系数大于等于第一预设值的源硬盘;
确定出满足预设条件的目的硬盘;
生成硬盘迁移指令,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息。
3.根据权利要求1或2所述硬盘故障监测方法,其特征在于,还包括:
依据所述危险系数,确定当前所述硬盘的危险等级;
输出与所述危险等级对应的报警信息。
4.一种硬盘故障监测装置,其特征在于,包括:
获取模块,用于依据硬盘的状态数据,获取所述硬盘当前实际消耗寿命,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
计算模块,用于依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
5.一种硬盘故障监测系统,其特征在于,包括基板管理控制器、总线、监测器,所述基板管理控制器通过所述总线与所述监测器相连;
所述监测器,用于监测硬盘的状态数据,并将所述状态数据通过所述总线传输至所述基板管理控制器,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
所述基板管理控制器,用于依据所述硬盘的状态数据,获取所述硬盘当前实际消耗寿命,并依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘发生故障的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
6.根据权利要求5所述硬盘故障监测系统,其特征在于,所述基板管理控制器还用于:
确定出危险系数大于等于第一预设值的源硬盘;
确定出满足预设条件的目的硬盘;
生成硬盘迁移指令,并通过所述总线发送至所述监测器,所述硬盘迁移指令携带所述源硬盘的地址信息以及目的硬盘的地址信息;
所述监测器还用于:依据所述硬盘迁移指令,将所述源硬盘的数据迁移至所述目的硬盘。
7.根据权利要求6所述硬盘故障监测系统,其特征在于,所述状态数据还包括硬盘的存储空间剩余量,所述基板管理控制器在确定出满足预设条件的目的硬盘时,具体用于:
将存储空间剩余量最大的硬盘确定为所述目的硬盘;
或,从危险系数小于等于第三预设值的硬盘中,确定出存储空间剩余量最大的硬盘,将该硬盘确定为所述目的硬盘;
或,将危险系数最小的硬盘确定为所述目的硬盘。
8.根据权利要求5至7任一所述硬盘故障监测系统,其特征在于,所述基板管理控制器还用于:
依据所述危险系数,确定当前所述硬盘的危险等级;
输出与所述危险等级对应的报警信息。
9.根据权利要求5至7任一所述硬盘故障监测系统,其特征在于,
所述总线为I2C总线,所述监测器为阵列控制器;
或,所述总线为KCS总线,所述监测器内置操作系统和应用软件(software),其中,所述操作系统通过所述应用软件对所述硬盘执行数据迁移操作。
10.一种硬盘故障监测系统,其特征在于,包括处理器和存储器,其中:
所述存储器,用于存储硬盘的状态数据,所述状态数据包括所述硬盘在各时间下的温度信息,以及所述硬盘在各时间下的负载信息;
所述处理器,用于依据所述存储器存储的所述硬盘的状态数据,获取所述硬盘当前实际消耗寿命,并依据所述实际消耗寿命与所述硬盘的预设寿命,计算出所述硬盘发生故障的危险系数,所述危险系数表明了所述硬盘发生故障的概率信息。
CN201610609204.4A 2016-07-28 2016-07-28 硬盘故障监测方法、装置及系统 Pending CN106294065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610609204.4A CN106294065A (zh) 2016-07-28 2016-07-28 硬盘故障监测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610609204.4A CN106294065A (zh) 2016-07-28 2016-07-28 硬盘故障监测方法、装置及系统

Publications (1)

Publication Number Publication Date
CN106294065A true CN106294065A (zh) 2017-01-04

Family

ID=57662687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610609204.4A Pending CN106294065A (zh) 2016-07-28 2016-07-28 硬盘故障监测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN106294065A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980472A (zh) * 2017-03-30 2017-07-25 上海与德科技有限公司 一种emmc健康度判定的方法及装置
CN107515731A (zh) * 2017-07-31 2017-12-26 华中科技大学 一种基于固态盘的进化存储系统及其工作方法
CN107544759A (zh) * 2017-09-19 2018-01-05 郑州云海信息技术有限公司 一种磁盘阵列io分配系统及方法
CN107577582A (zh) * 2017-09-28 2018-01-12 长沙曙通信息科技有限公司 一种存储系统硬盘故障智能预测管理方法
CN108345519A (zh) * 2018-01-31 2018-07-31 河南职业技术学院 计算机硬盘故障的处理方法及装置
CN108958998A (zh) * 2018-06-12 2018-12-07 郑州云海信息技术有限公司 一种linux下服务器硬盘使用时间检测方法及装置
CN109117342A (zh) * 2018-08-13 2019-01-01 郑州云海信息技术有限公司 一种服务器及其硬盘健康状态监测系统
CN109710443A (zh) * 2018-12-24 2019-05-03 平安科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN110598802A (zh) * 2019-09-26 2019-12-20 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
CN110928742A (zh) * 2019-08-08 2020-03-27 北京盛赞科技有限公司 硬盘复检周期确定方法、装置、设备及可读存储介质
CN118312109A (zh) * 2024-06-07 2024-07-09 深圳市源微创新实业有限公司 一种工业级固态硬盘的坏块管理方法、系统、介质和产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
US20120278661A1 (en) * 2011-04-27 2012-11-01 Hon Hai Precision Industry Co., Ltd. Hard disk backplane and hard disk monitoring system
CN103176919A (zh) * 2013-03-07 2013-06-26 洛阳伟信电子科技有限公司 计算机硬盘数据拯救简易设备及方法
CN103176884A (zh) * 2011-12-20 2013-06-26 鸿富锦精密工业(深圳)有限公司 硬盘监视系统及方法
CN104536855A (zh) * 2014-12-03 2015-04-22 曙光信息产业(北京)有限公司 故障检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
US20120278661A1 (en) * 2011-04-27 2012-11-01 Hon Hai Precision Industry Co., Ltd. Hard disk backplane and hard disk monitoring system
CN103176884A (zh) * 2011-12-20 2013-06-26 鸿富锦精密工业(深圳)有限公司 硬盘监视系统及方法
CN103176919A (zh) * 2013-03-07 2013-06-26 洛阳伟信电子科技有限公司 计算机硬盘数据拯救简易设备及方法
CN104536855A (zh) * 2014-12-03 2015-04-22 曙光信息产业(北京)有限公司 故障检测方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980472A (zh) * 2017-03-30 2017-07-25 上海与德科技有限公司 一种emmc健康度判定的方法及装置
CN107515731A (zh) * 2017-07-31 2017-12-26 华中科技大学 一种基于固态盘的进化存储系统及其工作方法
CN107544759B (zh) * 2017-09-19 2021-01-29 苏州浪潮智能科技有限公司 一种磁盘阵列io分配系统及方法
CN107544759A (zh) * 2017-09-19 2018-01-05 郑州云海信息技术有限公司 一种磁盘阵列io分配系统及方法
CN107577582A (zh) * 2017-09-28 2018-01-12 长沙曙通信息科技有限公司 一种存储系统硬盘故障智能预测管理方法
CN108345519A (zh) * 2018-01-31 2018-07-31 河南职业技术学院 计算机硬盘故障的处理方法及装置
CN108958998A (zh) * 2018-06-12 2018-12-07 郑州云海信息技术有限公司 一种linux下服务器硬盘使用时间检测方法及装置
CN109117342A (zh) * 2018-08-13 2019-01-01 郑州云海信息技术有限公司 一种服务器及其硬盘健康状态监测系统
CN109710443A (zh) * 2018-12-24 2019-05-03 平安科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN109710443B (zh) * 2018-12-24 2023-06-16 平安科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN110928742A (zh) * 2019-08-08 2020-03-27 北京盛赞科技有限公司 硬盘复检周期确定方法、装置、设备及可读存储介质
CN110928742B (zh) * 2019-08-08 2023-06-09 北京盛赞科技有限公司 硬盘复检周期确定方法、装置、设备及可读存储介质
CN110598802A (zh) * 2019-09-26 2019-12-20 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
CN110598802B (zh) * 2019-09-26 2021-07-27 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
CN118312109A (zh) * 2024-06-07 2024-07-09 深圳市源微创新实业有限公司 一种工业级固态硬盘的坏块管理方法、系统、介质和产品

Similar Documents

Publication Publication Date Title
CN106294065A (zh) 硬盘故障监测方法、装置及系统
US9026863B2 (en) Replacement of storage responsive to remaining life parameter
JP5160085B2 (ja) ストレージ・デバイスの障害を予測するための装置、システム、および方法
US8839046B2 (en) Arranging data handling in a computer-implemented system in accordance with reliability ratings based on reverse predictive failure analysis in response to changes
US8671330B2 (en) Storage device, electronic device, and data error correction method
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
US20080222449A1 (en) System and Method for Information Handling System Error Recovery
CN107766180B (zh) 存储介质的管理方法、装置及可读存储介质
US9069819B1 (en) Method and apparatus for reliable I/O performance anomaly detection in datacenter
US11921588B2 (en) System and method for data protection during power loss of a storage system
US8370688B2 (en) Identifying a storage device as faulty for a first storage volume without identifying the storage device as faulty for a second storage volume
US9280431B2 (en) Prioritizing backups on a disk level within enterprise storage
US11010250B2 (en) Memory device failure recovery system
US11126486B2 (en) Prediction of power shutdown and outage incidents
CN115039085A (zh) 用于高速缓存和存储器相干系统中的自愈的选择性端点隔离
US8001425B2 (en) Preserving state information of a storage subsystem in response to communication loss to the storage subsystem
US20110107317A1 (en) Propagating Firmware Updates In A Raid Array
US11422723B2 (en) Multi-storage device lifecycle management system
US10747706B2 (en) Server event log storage and retrieval system
CN110851443A (zh) 数据库的存储管理方法、装置、存储介质及电子设备
US10853547B2 (en) System and method to identify critical FPGA card sensors
US10862751B1 (en) Proactive service reminder based on customer configuration
CN118567934A (zh) 服务器状态监控方法、装置、电子设备和存储介质
JP2009175818A (ja) 稼働監視によるシステム内のハードディスクを交替するディスク管理方式

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication