CN105787242A - 一种预测非易失性存储介质发生故障的方法及装置 - Google Patents

一种预测非易失性存储介质发生故障的方法及装置 Download PDF

Info

Publication number
CN105787242A
CN105787242A CN201410822384.5A CN201410822384A CN105787242A CN 105787242 A CN105787242 A CN 105787242A CN 201410822384 A CN201410822384 A CN 201410822384A CN 105787242 A CN105787242 A CN 105787242A
Authority
CN
China
Prior art keywords
volatile memory
memory medium
threshold value
hot standby
failure threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410822384.5A
Other languages
English (en)
Other versions
CN105787242B (zh
Inventor
孔伟康
李定
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410822384.5A priority Critical patent/CN105787242B/zh
Priority to CN201910108992.2A priority patent/CN109933448B/zh
Priority to PCT/CN2015/096690 priority patent/WO2016101786A1/zh
Publication of CN105787242A publication Critical patent/CN105787242A/zh
Application granted granted Critical
Publication of CN105787242B publication Critical patent/CN105787242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种预测非易失性存储介质发生故障的方法及装置:针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:计算任意一非易失性存储介质的状况值,状况值用于表征任意一非易失性存储介质的运行状况;确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时,预测任意一非易失性存储介质将发生故障;状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同,在该方案中,状况值不同的非易失性存储介质分别对应不同的初始预设故障门限值,即状况值不同的非易失性存储介质分别对应不同的报警门槛,因此,提高了预测出的发生故障的非易失性存储介质的准确度。

Description

一种预测非易失性存储介质发生故障的方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种预测非易失性存储介质发生故障的方法及装置。
背景技术
数据存储越来越重要,保证数据可靠性也有非常重要的意义。硬盘仍然是储存数据最常用的存储介质,广泛应用于各类数据中心中,因此,硬盘故障的预测成为现今保证数据可靠性的重要手段,其已经慢慢成为数据中心管理软件中的重要组成部分。数据中心通过检测各个硬盘的运行状况,当硬盘失效或即将失效时启用硬盘报警并隔离,然后开始数据重构。
目前的DFP(DiskFailurePrediction,硬盘故障预测)技术是判断硬盘的某些指标是否达到预设门限值,若不达标,则发出报警,认为硬盘将要故障。而硬盘厂商为了减少返修率,一般设置的报警门槛非常低,导致硬盘整体的故障预测率极低,但是,若参考硬盘厂商的报警门槛的话,预测出的硬盘发生故障的准确度较低。为了提高预测硬盘故障的准确度,使用硬盘的数据中心会重新设定报警门槛,从而提高预测硬盘发生故障的准确度。
上述方法中数据中心的所有硬盘的报警门槛都相同,但是,数据中心的硬盘的状况是不同的,有些硬盘使用时间较长,有些硬盘使用时间较短,因此,上述方法仍然存在准确度较低的缺陷。
发明内容
本发明实施例提供一种预测非易失性存储介质发生故障的方法及装置,用以解决现有技术中存在的预测硬盘发生故障的准确度较低的缺陷。
本发明实施例提供的具体技术方案如下:
第一方面,提供一种预测非易失性存储介质发生故障的方法,包括:
针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:
计算所述任意一非易失性存储介质的状况值,所述状况值用于表征所述任意一非易失性存储介质的运行状况;
确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
结合第一方面,在第一种可能的实现方式中,预测所述任意一非易失性存储介质将发生故障之后,还包括:
确定预测出的将发生故障的所有非易失性存储介质的总数目;
判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作;
接替所述预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所述所有非易失性存储介质的总数目相同。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,确定预测出的将发生故障的所有非易失性存储介质的总数目之后,还包括:
判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时,针对所述任意一非易失性存储介质,分别执行:
降低所述任意一非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值,并
确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时,进一步预测所述任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质,对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
结合第一方面的第二种或者第三种可能的实现方式,在第四种可能的实现方式中,使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后,还包括:
补充预设数量的热备非易失性存储介质;
提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值,得到第二预设故障门限值;
针对提高了第一预设故障门限值的任意一非易失性存储介质,在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时,使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质;
其中,针对每一个对应第二预设故障门限值的非易失性存储介质,第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。
第二方面,提供一种预测非易失性存储介质发生故障的装置,包括:
计算单元,用于针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:计算所述任意一非易失性存储介质的状况值,所述状况值用于表征所述任意一非易失性存储介质的运行状况;
预测单元,用于确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
结合第二方面,在第一种可能的实现方式中,还包括确定单元、判断单元和接替单元:
所述确定单元用于确定预测出的将发生故障的所有非易失性存储介质的总数目;
所述判断单元用于判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目;
所述接替单元用于在所述判断单元判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作;
接替所述预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所述所有非易失性存储介质的总数目相同。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述确定单元还用于:判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时,针对所述任意一非易失性存储介质,分别执行:
降低所述任意一非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值;
所述预测单元用于确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时,进一步预测所述任意一非易失性存储介质将发生故障;
所述接替单元当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质,对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
结合第二方面的第二种或者第三种可能的实现方式,在第四种可能的实现方式中,还包括补充单元,用于补充预设数量的热备非易失性存储介质;提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值,得到第二预设故障门限值;
所述预测单元还用于针对提高了第一预设故障门限值的任意一非易失性存储介质,在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
所述判断单元还用于判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的所述预设数量的热备非易失性存储介质的数目;
所述接替单元还用于在所述判断单元判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时,使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质;
其中,针对每一个对应第二预设故障门限值的非易失性存储介质,第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。
本发明有益效果如下:
现有技术中,数据中心的所有非易失性存储介质对应的报警门槛都是相同的,但是,不同的非易失性存储介质的运行状况可能是不同的,若所有非易失性存储介质均对应的同一个报警门槛的话,预测出的发生故障的非易失性存储介质的准确性较低,本发明实施例中,状况值不同的非易失性存储介质分别对应不同的初始预设故障门限值,也就是说,状况值不同的非易失性存储介质分别对应不同的报警门槛,因此,提高了预测出的发生故障的非易失性存储介质的准确度。
附图说明
图1为本发明实施例中预测非易失性存储介质发生故障的流程图;
图2为本发明实施例中预测硬盘发生故障的实施例;
图3A为本发明实施例中预测非易失性存储介质发生故障的装置的一种结构示意图;
图3B为本发明实施例中预测非易失性存储介质发生故障的装置的另一种结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字母“/”,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本发明优选的实施方式进行详细说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面结合附图对本发明优选的实施方式进行详细说明。
参阅图1所示,本发明实施例中,预测非易失性存储介质发生故障的一种流程如下:
步骤100:针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行;
步骤110:计算任意一非易失性存储介质的状况值,状况值用于表征任意一非易失性存储介质的运行状况;
步骤120:确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时,预测任意一非易失性存储介质将发生故障;状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
数据中心预存有一定数目的热备非易失性存储介质,因此,本发明实施例中,预测任意一非易失性存储介质将发生故障之后,还包括如下操作:
确定预测出的将发生故障的所有非易失性存储介质的总数目;
判定确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时,使用热备非易失性存储介质中的热备非易失性存储介质接替预测出的将发生故障的所有非易失性存储介质的工作;
接替预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所有非易失性存储介质的总数目相同。
例如:数据中心有10个硬盘,预测出共有2个硬盘:硬盘1和硬盘2将发生故障,若数据中心的热备硬盘有3个,则使用3个热备硬盘中的任意两个硬盘接替硬盘1和硬盘2的工作。
当然,在实际应用中,确定的所有非易失性存储介质的总数目可能大于数据中心的热备非易失性存储介质的数目,此时所执行的操作与确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时所执行的操作是不同的,具体实现过程如下:
确定预测出的将发生故障的所有非易失性存储介质的总数目之后,还包括操作:
判定确定的所有非易失性存储介质的总数目大于数据中心的热备非易失性存储介质的数目时,针对任意一非易失性存储介质,分别执行:
降低任意一非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值,并
确定任意一非易失性存储介质的状况值小于降低后的任意一非易失性存储介质对应的第一预设故障门限值时,进一步预测任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时,使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
例如:数据中心有10个硬盘,预测出共有5个硬盘:硬盘1、硬盘2、硬盘3、硬盘4和硬盘5将发生故障,若数据中心的热备硬盘有3个,则降低10个硬盘中每一个硬盘分别所对应的初始预设故障门限值,若降低之前,10个硬盘分别对应的初始预设故障门限值为:X1、X2、X3、X4、X5、X6、X7、X8、X9、X10,第一次降低后的第一预设故障门限值为:Y1、Y2、Y3、Y4、Y5、Y6、Y7、Y8、Y9、Y10,且Y1小于X1,Y2小于X2,Y3小于X3,Y4小于X4,Y5小于X5,Y6小于X6,Y7小于X7,Y8小于X8,Y9小于X9,Y10小于X10,根据第一预设故障门限值后预测出发生故障的硬盘的总数目仍大于热备硬盘数目,则降低第一预设故障门限值,若此时预测出的发生故障的硬盘的总数目仍大于热备硬盘数目时,再降低第一预设故障门限值,直至预测出的发生故障的硬盘的总数目小于或者等于热备硬盘数目时,此时直接使用热备硬盘接替分别根据最终预测出的将发生故障的所有硬盘。
本发明实施例中,可选的,为了降低实现的复杂度,针对数据中心的所有非易失性存储介质中的任意两个非易失性存储介质,对任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
例如:数据中心有5个硬盘:硬盘1、硬盘2、硬盘3、硬盘4、硬盘5,对应的初始预设故障门限值分别为X1、X2、X3、X4、X5,降低初始预设故障门限值得到的第一预设故障门限值分别为70%X1、70%X2、70%X3、70%X4、70%X5。
本发明实施例中,当确定的所有非易失性存储介质的总数目大于数据中心的热备非易失性存储介质的数目时,要降低非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值,这样,可以将部分将发生故障的非易失性存储介质给筛选出来,用现有的热备非易失性存储介质替换先查找出来的将发生故障的非易失性存储介质,然后,补充热备非易失性存储介质,再提高已经降低后的初始预设故障门限值,也就是提高第一预设故障门限值,这样,再将第一次未筛选出来的将发生故障的非易失性存储介质给筛选出来,如此循环,直至将根据初始预设故障门限值判断出来的预测发生故障的非易失性存储介质给筛选出来。具体在实现时,可以采用如下方式:
例如,使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后,还包括如下操作:
补充预设数量的热备非易失性存储介质;
提高数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值,得到第二预设故障门限值;
针对提高了第一预设故障门限值的任意一非易失性存储介质,在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时,预测任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的预设数量的热备非易失性存储介质的数目时,使用补充的预设数量的热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质;
其中,针对每一个对应第二预设故障门限值的非易失性存储介质,第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。例如:数据中心有10个硬盘:硬盘1、硬盘2、硬盘3、硬盘4、硬盘5、硬盘6、硬盘7、硬盘8、硬盘9、硬盘10,对应的初始预设故障门限值分别为X1、X2、X3、X4、X5、X6、X7、X8、X9、X10,热备盘有3个,根据初始预设故障门限值筛选出来的将发生故障的硬盘有8个:硬盘1-硬盘8,将降低初始预设故障门限值,降低初始预设故障门限值得到的第一预设故障门限值分别为50%X1、50%X2、50%X3、50%X4、50%X5、50%X6、50%X7、50%X8、50%X9、50%X10,根据第一预设故障门限值预测出来的发生故障的硬盘有3个:硬盘1、硬盘2和硬盘3,则将热备硬盘替换硬盘1、硬盘2和硬盘3,替换后,补充3个热备硬盘。提高第一预设故障门限值,得到第二预设故障门限值:60%X1、60%X2、60%X3、60%X4、60%X5、60%X6、60%X7、60%X8、60%X9、60%X10,根据第二预设故障门限值预测出来的发生故障的硬盘有3:硬盘4、硬盘5和硬盘6,则将补充的热备硬盘替换硬盘4、硬盘5和硬盘6,然后,再补充3热备硬盘,并提高第二预设故障门限值,得到第三预设故障门限值,80%X1、80%X2、80%X3、80%X4、80%X5、80%X6、80%X7、80%X8、80%X9、80%X10,根据第三预设故障门限值预测出来的发生故障的硬盘有2:硬盘7、硬盘8,则将补充的热备硬盘替换硬盘7、硬盘8,则将补充的热备硬盘替换硬盘7、硬盘8。
本发明实施例中,非易失性存储介质对应的初始预设故障门限值与该非易失性存储介质的上电时间相关,随着上电时间的增加,判断条件是放宽松的,若初始预设故障门限值增加,判断条件是放宽松的话,则随着上电时间的增加,初始预设故障门限值增加,若初始预设故障门限值减小,判断条件是放宽松的话,则随着上电时间的增加,初始预设故障门限值降低。
综上所述,本发明实施例中,针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:计算任意一非易失性存储介质的状况值,状况值用于表征任意一非易失性存储介质的运行状况;确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时,预测任意一非易失性存储介质将发生故障;状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同,在该方案中,状况值不同的非易失性存储介质分别对应不同的初始预设故障门限值,也就是说,状况值不同的非易失性存储介质分别对应不同的报警门槛,因此,提高了预测出的发生故障的非易失性存储介质的准确度。
为了更好地理解本发明实施例,以下给出具体应用场景,针对预测非易失性存储介质发生故障的过程,作出进一步详细描述,架构图如图2所示:
步骤200:数据中心有10个硬盘:硬盘1、硬盘2、……、硬盘10,计算10个硬盘中的每一个硬盘的状况值;
步骤210:针对10个硬盘中的任意一硬盘,将状况值小于对应的初始预设故障门限值的硬盘作为预测出的将发生故障的硬盘,状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同;
步骤220:确定预测出的将发生故障的所有硬盘的总数目,并判断确定出的所有硬盘的总数目是否小于或者等于数据中心的热备硬盘数目;若是,执行步骤230,否则,执行步骤240;
步骤230:使用热备硬盘接替所述预测出的将发生故障的所有硬盘的工作;
在该步骤中,接替所述预测出的将发生故障的所有硬盘工作的热备硬盘的数目与所述所有硬盘的总数目相同。
步骤240:降低10个硬盘分别对应的初始预设故障门限值,得到第一预设故障门限值;
在该步骤中,针对所述数据中心的所有硬盘中的任意两个硬盘,对所述任意两个硬盘分别对应的初始预设故障门限值降低的幅度值相同。
步骤250:判断根据第一预设故障门限值预测出的所有发生故障的硬盘的数目是否小于或者等于数据中心的热备硬盘,若是,执行步骤260,否则,返回步骤240;
步骤260:将热备硬盘接替根据第一预设故障门限值预测出的发生故障的硬盘的工作,并补充预设数量的热备硬盘;
步骤270:提高第一预设故障门限值,得到第二预设故障门限值,将状况值小于对应的第二预设故障门限值的硬盘作为预测出的将发生故障的硬盘;
步骤280:判断预测出的发生故障的硬盘的数目是否为0和/或第二预设故障门限值为初始预设故障门限值,若是,结束流程,否则,返回步骤220。
基于上述相应方法的技术方案,参阅图3A所示,本发明实施例提供一种预测非易失性存储介质发生故障的装置,该装置包括计算单元30、预测单元31,其中:
计算单元30,用于针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:计算任意一非易失性存储介质的状况值,状况值用于表征任意一非易失性存储介质的运行状况;
预测单元31,用于确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时,预测任意一非易失性存储介质将发生故障;
状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
本发明实施例中,进一步的,还包括确定单元、判断单元和接替单元:
确定单元用于确定预测出的将发生故障的所有非易失性存储介质的总数目;
判断单元用于判定确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目;
接替单元用于在判断单元判定确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时,使用热备非易失性存储介质中的热备非易失性存储介质接替预测出的将发生故障的所有非易失性存储介质的工作;
接替预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所有非易失性存储介质的总数目相同。
本发明实施例中,进一步的,确定单元还用于:判定确定的所有非易失性存储介质的总数目大于数据中心的热备非易失性存储介质的数目时,针对任意一非易失性存储介质,分别执行:
降低任意一非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值;
预测单元31用于确定任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第一预设故障门限值时,进一步预测任意一非易失性存储介质将发生故障;
接替单元当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于数据中心的热备非易失性存储介质的数目时,使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
本发明实施例中,可选的,针对数据中心的所有非易失性存储介质中的任意两个非易失性存储介质,对任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
本发明实施例中,进一步的,还包括补充单元,用于补充预设数量的热备非易失性存储介质;提高数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值,得到第二预设故障门限值;
预测单元31还用于针对提高了第一预设故障门限值的任意一非易失性存储介质,在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时,预测任意一非易失性存储介质将发生故障;
判断单元还用于判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的预设数量的热备非易失性存储介质的数目;
接替单元还用于在判断单元判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的预设数量的热备非易失性存储介质的数目时,使用补充的预设数量的热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质;
其中,针对每一个对应第二预设故障门限值的非易失性存储介质,第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。
如图3B所示,为本发明实施例提供的预测非易失性存储介质发生故障的装置的另一种结构示意图,包括至少一个处理器301,通信总线302,存储器303以及至少一个通信接口304。
其中,通信总线302用于实现上述组件之间的连接并通信,通信接口304用于与外部设备连接并通信。
其中,存储器303用于存储有可执行的程序代码,处理器301通过执行这些程序代码,以用于:
针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:
计算任意一非易失性存储介质的状况值,状况值用于表征任意一非易失性存储介质的运行状况;
确定状况值小于与任意一非易失性存储介质对应的初始预设故障门限值时,预测任意一非易失性存储介质将发生故障;
状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
进一步的,本发明实施例中,处理器301还用于,预测任意一非易失性存储介质将发生故障之后,还包括:
确定预测出的将发生故障的所有非易失性存储介质的总数目;
判定确定的所有非易失性存储介质的总数目小于或者等于数据中心的热备非易失性存储介质的数目时,使用热备非易失性存储介质中的热备非易失性存储介质接替预测出的将发生故障的所有非易失性存储介质的工作;
接替预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所有非易失性存储介质的总数目相同。
进一步的,本发明实施例中,处理器301还用于,确定预测出的将发生故障的所有非易失性存储介质的总数目之后,还包括:
判定确定的所有非易失性存储介质的总数目大于数据中心的热备非易失性存储介质的数目时,针对任意一非易失性存储介质,分别执行:
降低任意一非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值,并
确定任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第一预设故障门限值时,进一步预测任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于数据中心的热备非易失性存储介质的数目时,使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
可选的,本发明实施例中,处理器301还用于,针对数据中心的所有非易失性存储介质中的任意两个非易失性存储介质,对任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
进一步的,本发明实施例中,处理器301还用于,使用热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后,还包括:
补充预设数量的热备非易失性存储介质;
提高数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值,得到第二预设故障门限值;
针对提高了第一预设故障门限值的任意一非易失性存储介质,在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时,预测任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的预设数量的热备非易失性存储介质的数目时,使用补充的预设数量的热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质;
其中,针对每一个对应第二预设故障门限值的非易失性存储介质,第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种预测非易失性存储介质发生故障的方法,其特征在于,包括:
针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:
计算所述任意一非易失性存储介质的状况值,所述状况值用于表征所述任意一非易失性存储介质的运行状况;
确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
2.如权利要求1所述的方法,其特征在于,预测所述任意一非易失性存储介质将发生故障之后,还包括:
确定预测出的将发生故障的所有非易失性存储介质的总数目;
判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作;
接替所述预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所述所有非易失性存储介质的总数目相同。
3.如权利要求2所述的方法,其特征在于,确定预测出的将发生故障的所有非易失性存储介质的总数目之后,还包括:
判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时,针对所述任意一非易失性存储介质,分别执行:
降低所述任意一非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值,并
确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时,进一步预测所述任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
4.如权利要求3所述的方法,其特征在于,针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质,对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
5.如权利要求3或4所述的方法,其特征在于,使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质之后,还包括:
补充预设数量的热备非易失性存储介质;
提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值,得到第二预设故障门限值;
针对提高了第一预设故障门限值的任意一非易失性存储介质,在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
当判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时,使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质;
其中,针对每一个对应第二预设故障门限值的非易失性存储介质,第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。
6.一种预测非易失性存储介质发生故障的装置,其特征在于,包括:
计算单元,用于针对数据中心的至少两个非易失性存储介质中的任意一非易失性存储介质,分别执行:计算所述任意一非易失性存储介质的状况值,所述状况值用于表征所述任意一非易失性存储介质的运行状况;
预测单元,用于确定所述状况值小于与所述任意一非易失性存储介质对应的初始预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
状况值不同的任意两个非易失性存储介质分别对应的初始预设故障门限值不同。
7.如权利要求6所述的装置,其特征在于,还包括确定单元、判断单元和接替单元:
所述确定单元用于确定预测出的将发生故障的所有非易失性存储介质的总数目;
所述判断单元用于判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目;
所述接替单元用于在所述判断单元判定确定的所述所有非易失性存储介质的总数目小于或者等于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质中的热备非易失性存储介质接替所述预测出的将发生故障的所有非易失性存储介质的工作;
接替所述预测出的将发生故障的所有非易失性存储介质工作的热备非易失性存储介质的数目与所述所有非易失性存储介质的总数目相同。
8.如权利要求7所述的装置,其特征在于,所述确定单元还用于:判定确定的所述所有非易失性存储介质的总数目大于所述数据中心的热备非易失性存储介质的数目时,针对所述任意一非易失性存储介质,分别执行:
降低所述任意一非易失性存储介质对应的初始预设故障门限值,得到第一预设故障门限值;
所述预测单元用于确定所述任意一非易失性存储介质的状况值小于所述任意一非易失性存储介质对应的第一预设故障门限值时,进一步预测所述任意一非易失性存储介质将发生故障;
所述接替单元当判断出分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目等于或者小于所述数据中心的热备非易失性存储介质的数目时,使用所述热备非易失性存储介质接替分别根据对应的第一预设故障门限值预测出的将发生故障的所有非易失性存储介质。
9.如权利要求8所述的装置,其特征在于,针对所述数据中心的所有非易失性存储介质中的任意两个非易失性存储介质,对所述任意两个非易失性存储介质分别对应的初始预设故障门限值降低的幅度值相同。
10.如权利要求8或9所述的装置,其特征在于,还包括补充单元,用于补充预设数量的热备非易失性存储介质;提高所述数据中心的每一个降低了初始预设故障门限值后的非易失性存储介质分别对应的第一预设故障门限值,得到第二预设故障门限值;
所述预测单元还用于针对提高了第一预设故障门限值的任意一非易失性存储介质,在任意一非易失性存储介质的状况值小于任意一非易失性存储介质对应的第二预设故障门限值时,预测所述任意一非易失性存储介质将发生故障;
所述判断单元还用于判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的所述预设数量的热备非易失性存储介质的数目;
所述接替单元还用于在所述判断单元判断出分别根据对应的第二预设故障门限值预测出的将发生故障的所有非易失性存储介质的总数目,小于或者等于补充的所述预设数量的热备非易失性存储介质的数目时,使用补充的所述预设数量的所述热备非易失性存储介质接替分别根据对应第二预设故障门限值预测出的将发生故障的所有非易失性存储介质;
其中,针对每一个对应第二预设故障门限值的非易失性存储介质,第二预设故障门限值小于或者等于对应非易失性存储介质的初始预设故障门限值。
CN201410822384.5A 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置 Active CN105787242B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410822384.5A CN105787242B (zh) 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置
CN201910108992.2A CN109933448B (zh) 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置
PCT/CN2015/096690 WO2016101786A1 (zh) 2014-12-25 2015-12-08 一种预测非易失性存储介质发生故障的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410822384.5A CN105787242B (zh) 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910108992.2A Division CN109933448B (zh) 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置

Publications (2)

Publication Number Publication Date
CN105787242A true CN105787242A (zh) 2016-07-20
CN105787242B CN105787242B (zh) 2019-02-26

Family

ID=56149223

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910108992.2A Active CN109933448B (zh) 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置
CN201410822384.5A Active CN105787242B (zh) 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910108992.2A Active CN109933448B (zh) 2014-12-25 2014-12-25 一种预测非易失性存储介质发生故障的方法及装置

Country Status (2)

Country Link
CN (2) CN109933448B (zh)
WO (1) WO2016101786A1 (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574754B1 (en) * 2000-02-14 2003-06-03 International Business Machines Corporation Self-monitoring storage device using neural networks
JP2006048789A (ja) * 2004-08-02 2006-02-16 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置
CN1932469A (zh) * 2005-09-16 2007-03-21 通用汽车环球科技运作公司 使用自适应阈值的健康状态监测和故障诊断
CN101764846A (zh) * 2009-12-18 2010-06-30 西南交通大学 一种远程集中式磁盘阵列运行监控系统及其实现方法
CN101872641A (zh) * 2009-12-28 2010-10-27 杭州海康威视数字技术股份有限公司 硬盘录像机中的硬盘失效预警方法及装置
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN104092440A (zh) * 2014-07-21 2014-10-08 阳光电源股份有限公司 光伏系统直流电弧故障检测方法、装置、处理器及其系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480828B2 (en) * 2004-06-10 2009-01-20 International Business Machines Corporation Method, apparatus and program storage device for extending dispersion frame technique behavior using dynamic rule sets
CN100498961C (zh) * 2004-07-01 2009-06-10 华为技术有限公司 硬盘检测装置及方法
US7523359B2 (en) * 2005-03-31 2009-04-21 International Business Machines Corporation Apparatus, system, and method for facilitating monitoring and responding to error events
US7627405B2 (en) * 2006-11-17 2009-12-01 Gm Global Technology Operations, Inc. Prognostic for loss of high-voltage isolation
CN101201786B (zh) * 2006-12-13 2010-05-19 中兴通讯股份有限公司 一种故障日志监控方法及装置
CN101604548B (zh) * 2009-03-26 2012-06-27 成都市华为赛门铁克科技有限公司 一种固态硬盘及数据存储方法
US20120102367A1 (en) * 2010-10-26 2012-04-26 International Business Machines Corporation Scalable Prediction Failure Analysis For Memory Used In Modern Computers
CN102033717B (zh) * 2010-12-07 2013-05-08 清华大学 基于磁盘阵列的数据存储方法及系统
US9146855B2 (en) * 2012-01-09 2015-09-29 Dell Products Lp Systems and methods for tracking and managing non-volatile memory wear
CN103580934B (zh) * 2012-07-18 2018-09-04 深圳市腾讯计算机系统有限公司 一种云业务监测方法和装置
CN103455397A (zh) * 2013-09-06 2013-12-18 杭州华为数字技术有限公司 一种系统自检的方法、设备及系统
CN104020963B (zh) * 2014-06-04 2017-05-17 浙江宇视科技有限公司 一种防止误判硬盘读写错误的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574754B1 (en) * 2000-02-14 2003-06-03 International Business Machines Corporation Self-monitoring storage device using neural networks
JP2006048789A (ja) * 2004-08-02 2006-02-16 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置
CN1932469A (zh) * 2005-09-16 2007-03-21 通用汽车环球科技运作公司 使用自适应阈值的健康状态监测和故障诊断
CN101764846A (zh) * 2009-12-18 2010-06-30 西南交通大学 一种远程集中式磁盘阵列运行监控系统及其实现方法
CN101872641A (zh) * 2009-12-28 2010-10-27 杭州海康威视数字技术股份有限公司 硬盘录像机中的硬盘失效预警方法及装置
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN104092440A (zh) * 2014-07-21 2014-10-08 阳光电源股份有限公司 光伏系统直流电弧故障检测方法、装置、处理器及其系统

Also Published As

Publication number Publication date
CN105787242B (zh) 2019-02-26
CN109933448B (zh) 2021-04-20
WO2016101786A1 (zh) 2016-06-30
CN109933448A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN104376875A (zh) 存储设备寿命预测、确定方法及装置
US20190260634A1 (en) Service state transition method and apparatus
CN106897095A (zh) 应用程序热修复的方法、装置和可读存储介质
CN104613607A (zh) 数据交互方法及装置和空调控制系统
TW201621623A (zh) 內存清理系統、方法及終端設備
CN104781792B (zh) 判断在工业控制系统中的故障的冗余设备单元和方法,工业控制系统和包括冗余设备单元的工业系统
CN104461546A (zh) 基于应用程序的计算设备优化方法及装置
CN107967195A (zh) 一种基于双控存储的故障修复方法及系统
CN103544088A (zh) 一种检测终端功耗异常的方法及装置
CN105577879A (zh) 一种通讯录管理方法及移动终端
JP6077608B2 (ja) Plcログデータを利用した異常発生予測システム
CN104809046A (zh) 一种应用程序联网控制方法和应用程序联网控制装置
KR20110090699A (ko) 시운전 제어 장치 및 그 방법
JP2009064269A5 (zh)
CN104731689A (zh) 一种信息处理方法及电子设备
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
CN112600742A (zh) 一种故障参数处理方法、装置及存储介质
CN109597728B (zh) 测试设备的控制方法及装置、计算机可读存储介质
CN105787242A (zh) 一种预测非易失性存储介质发生故障的方法及装置
CN108141374B (zh) 一种网络亚健康诊断方法及装置
CN115421859B (zh) 配置文件的动态加载方法、装置、计算机设备及存储介质
CN104317645B (zh) 一种应用程序实例监听端口的方法及装置
CN111147542A (zh) 一种免密访问的设置方法、装置、设备及介质
CN102231684A (zh) 接口板状态检测方法、多核中央处理器、接口板及路由器
CN113220554B (zh) 检测程序代码的性能的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant