CN110175100B - 一种存储盘故障预测方法及预测系统 - Google Patents

一种存储盘故障预测方法及预测系统 Download PDF

Info

Publication number
CN110175100B
CN110175100B CN201910307587.3A CN201910307587A CN110175100B CN 110175100 B CN110175100 B CN 110175100B CN 201910307587 A CN201910307587 A CN 201910307587A CN 110175100 B CN110175100 B CN 110175100B
Authority
CN
China
Prior art keywords
failure
fault
storage disk
prediction
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910307587.3A
Other languages
English (en)
Other versions
CN110175100A (zh
Inventor
冯丹
王芳
谢燕文
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Yiyao Information Technology Co ltd
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910307587.3A priority Critical patent/CN110175100B/zh
Publication of CN110175100A publication Critical patent/CN110175100A/zh
Application granted granted Critical
Publication of CN110175100B publication Critical patent/CN110175100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Abstract

本发明公开了一种存储盘故障预测方法及预测系统,属于计算机存储领域,包括:(1)将实时采集到的待预测存储盘的状态数据作为输入,利用已训练好的故障预测模型预测待预测存储盘的故障情况;(2)判断预测结果是否正常,若是,则故障预测结束;若否,则转入步骤(3);(3)对预测结果进行解释分析,以得到待预测存储盘的所有故障缘由集;(4)过滤掉检测率较低或误报率较高的故障缘由集,从而得到由剩余故障缘由集构成的集合S;(5)对集合S中的各故障缘由集中处理开销最小的属性项采取相应的故障处理措施,以解除待预测存储盘的故障,故障预测结束。本发明能够提高存储盘故障预测的准确度和可信度,并减少存储资源浪费。

Description

一种存储盘故障预测方法及预测系统
技术领域
本发明属于计算机存储领域,更具体地,涉及一种存储盘故障预测方法及预测系统。
背景技术
当前,磁盘等存储盘是数据中心存储数据的重要存储设备,存储盘一旦出现故障,在数据没有备份或拷贝的情况下,会造成巨大的数据损失,而在有备份或拷贝的情况下,恢复数据会产生巨大的开销,影响数据的不间断在线服务。
在存储数据时,会导致存储盘故障的故障缘由有很多,常见的故障缘由包括温度、重映射扇区数、通电次数、累计通电时间等。为避免因存储盘故障而造成数据损失或带来巨大的数据恢复开销,数据中心通常会实时采集存储盘的SMART数据以及I/O负载统计数据,然后利用机器学习算法,构建故障预测模型,以预测存储盘的磨损度,从而推测存储盘是否即将故障,即推测存储盘是否在不久的将来会发生故障,并对潜在高危的存储盘采取故障处理举措,例如提前迁移数据或数据服务,从而避免数据损失以及降低故障修复开销。例如,在中国发明专利申请CN201610065807中公开了一种磁盘的故障预测方法和装置,通过磁盘监控技术获取磁盘的样本磁盘数据;采用GBDT算法对样本磁盘数据进行样本训练,得到由多个决策树组成的磁盘预测模型;在接收到待测磁盘的磁盘数据之后,使用由多个决策树组成的磁盘预测模型对待测磁盘的磁盘数据进行处理,确定待测磁盘是否为故障磁盘。
目前,已经有了一些实现对存储盘进行故障预测的方法和系统,但是这些方法和系统只关注预测磁盘是否故障、损耗程度如何,缺少对预测模型的进一步解析,因此,仅能提供单一的故障预测结果,并采取单一的故障处理措施,这容易造成模型过度拟合,导致故障预测结果的准确度和可信度较低,而且可能导致磁盘资源浪费的问题。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种存储盘故障预测方法及预测系统,其目的在于,提高存储盘故障预测的准确度和可信度,并减少存储资源浪费。
为实现上述目的,按照本发明的一个方面,提供了一种存储盘故障预测方法,包括:
(1)将实时采集到的待预测存储盘的状态数据作为输入,利用已训练好的故障预测模型预测待预测存储盘的故障情况;
状态数据包含多个属性项;
(2)判断预测结果是否正常,若是,则不采取故障处理措施,故障预测结束;若否,则转入步骤(3);
(3)对预测结果进行解释分析,以得到导致待预测存储盘故障的一个或多个故障缘由集;
故障缘由集包含状态数据中的一个或多个属性项;
(4)过滤掉检测率低于预设的检测率阈值TD或误报率高于预设的误报率阈值TA的故障缘由集,从而得到由剩余故障缘由集构成的集合S;
(5)对于集合S中的每一个故障缘由集,对其中处理开销最小的属性项采取相应的故障处理措施,从而解除待预测存储盘的故障,故障预测结束;
其中,故障预测模型为一种预测模型,用于根据存储盘的状态数据预测该存储盘的故障情况;故障缘由集的检测率为故障预测模型根据该故障缘由集将故障盘正确预测为故障盘的概率,故障缘由集的误报率为故障预测模型根据该故障缘由集将正常盘错误预测为故障盘的概率。
进一步地,步骤(3)包括:
(31)将待预测存储盘的状态数据作为解释状态I;
(32)初始化一个为空的集合Sf,设置状态I′=I以记录解释分析的起始状态,并初始化序号变量i=1;
(33)将解释状态I的第i个属性项的取值替换为正常盘在该属性项上的平均值,并将替换后的解释状态I作为输入,利用故障预测模型重新预测待预测存储盘的故障情况;
(34)若重新预测的预测结果为正常,则将第i个属性项加入到集合Sf中,并将解释状态I的第i个属性项的取值恢复为替换前的取值,转入步骤(35);否则,保持解释状态I为替换后的结果,转入步骤(35);
(35)若序号变量i等于状态数据所包含的属性项数n,则转入步骤(36);否则,将序号变量i的取值加1,并转入步骤(33);
(36)将集合Sf作为一个故障缘由集,并将状态I′中属于集合Sf的属性项的取值均替换为正常盘在对应属性项上的平均值,将替换后的状态I′作为新的解释状态I;
(37)将解释状态I作为输入,利用故障预测模型重新预测待预测存储盘的故障情况,若预测结果为正常,则操作结束;否则,转入步骤(32),以获得待预测存储盘的下一个故障缘由集。
进一步地,任意一个故障缘由集Sj的检测率获取方法为:
从历史数据中提取各存储盘的状态数据;
将各存储盘的状态数据作为输入,利用故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;
统计所有实际为故障盘的存储盘中被预测为故障盘且其故障缘由集包括所述故障缘由集Sj的存储盘数量TP(Sj),并根据统计结果计算故障缘由集Sj的检测率为:
Figure BDA0002030373190000041
其中,历史数据中各存储盘的状态数据和实际故障情况已知,N为历史数据中实际为故障盘的存储盘总数。
进一步地,任意一个故障缘由集Sj的误报率获取方法为:
从历史数据中提取各存储盘的状态数据;
将各存储盘的状态数据作为输入,利用故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;
统计所有实际为正常盘的存储盘中被预测为故障盘且其故障缘由集包括所述故障缘由集Sj的存储盘数量FP(Sj),并根据统计结果计算故障缘由集Sj的误报率为:
Figure BDA0002030373190000042
其中,历史数据中各存储盘的状态数据和实际故障情况已知,P为所述历史数据中实际为正常盘的存储盘总数。
进一步地,上述存储盘故障预测方法,还包括:
从历史数据中提取各存储盘的状态数据;
将各存储盘的状态数据作为输入,利用故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;
对于状态数据中的任意一个属性项Ii,统计所有被预测为故障盘的存储盘中,实际为故障盘且其任意一个故障缘由集包含属性项Ii的存储盘数量TP(Ii),并根据统计结果计算属性项Ii在存储盘故障预测中的重要性指标为:
Figure BDA0002030373190000051
其中,历史数据中各存储盘的状态数据和实际故障情况已知,N为历史数据中实际为故障盘的存储盘总数。
进一步地,上述存储盘故障预测方法,还包括:
在采集待预测存储盘的状态数据时,过滤掉待预测存储盘的所有属性项中重要性指标低于预设的采集阈值TC的属性项,仅采集剩余的属性项以构成待预测存储盘的状态数据,以减少实际所需采集和存储的数据量,从而保证在能够准确进行存储盘故障预测的同时避免计算资源和存储资源的浪费。
进一步地,上述存储盘故障预测方法,还包括:
在利用故障预测模型进行故障预测之前,先过滤掉输入数据中重要性指标低于预设的预测阈值TF的属性项,由剩余的属性项构成故障模型的新的输入数据,以根据新的输入数据进行故障预测,由此能够简化预测模型,提高预测模型的通用性和预测准确度。
按照本发明的另一方面,提供了一种存储盘故障预测系统,包括:故障预测模块、判定模块、故障解释模块、筛选模块以及故障处理模块;
故障预测模块用于将实时采集到的待预测存储盘的状态数据作为输入,利用已训练好的故障预测模型预测待预测存储盘的故障情况;状态数据包含多个属性项;
判定模块用于判断故障预测模块的预测结果是否正常,并在判定预测结果为正常时结束故障预测;
故障解释模块用于在判定模块判定预测结果为故障时,对预测结果进行解释分析,以得到导致待预测存储盘故障的一个或多个故障缘由集;故障缘由集包含状态数据中的一个或多个属性项;
筛选模块用于过滤掉由故障解释模块获取到的故障缘由集中,检测率低于预设的检测率阈值TD或误报率高于预设的误报率阈值TA的故障缘由集,从而得到由剩余故障缘由集构成的集合S;
故障处理模块用于对于集合S中的每一个故障缘由集,对其中处理开销最小的属性项采取相应的故障处理措施,从而解除待预测存储盘的故障,并结束故障预测;
其中,故障预测模型为一种预测模型,用于根据存储盘的状态数据预测该存储盘的故障情况;故障缘由集的检测率为故障预测模型根据该故障缘由集将故障盘正确预测为故障盘的概率,故障缘由集的误报率为故障预测模型根据该故障缘由集将正常盘错误预测为故障盘的概率。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的存储盘故障预测方法及预测系统,在利用预测模型预测存储盘为故障盘时,并不直接采取相应的故障处理措施,而是通过解释分析获得故障盘的故障缘由集,然后在此基础之上,根据故障缘由集的检测率和误报率进行筛选之后,再对剩余的故障缘由集进行针对性地故障处理,由此能够有效避免过拟合,从而有效提高存储盘故障预测的准确度和可信度,并减少存储资源的浪费。
(2)本发明所提供的存储盘故障预测方法及预测系统,在确定需要进行故障处理的故障缘由集之后,仅其中每一个故障缘由中处理开销最小的属性项采取相应的故障处理措施,由此能够在消除故障的同时,最小化存储盘的故障处理开销。
(3)本发明所提供的存储盘故障预测方法及预测系统,除了可以预测存储盘是正常盘还是故障盘外,还能够通过解释分析获取到会导致存储盘故障的故障缘由集,以及各故障缘由集的检测率和误报率,由此能够促进磁盘故障处理的多样化与智能化。
(4)本发明所提供的存储盘故障预测方法及预测系统,除了可以预测存储盘是正常盘还是故障盘外,还能够通过解释分析获取到各属性项在存储盘故障预测中的重要性指标,进而可以根据属性项的重要性指标优化数据采集和预测模型的训练,使得本发明一方面能够减少所需采集和存储的数据量,另一方面能够简化预测模型,提高预测模型的通用性和预测准确度。
(5)本发明所提供的存储盘故障预测方法及预测系统,不依赖于具体的预测模型,可以方便地使用随机森林,梯度提升决策树,神经网络等常见的预测模型作为故障预测模型,具有良好的通用性。
附图说明
图1为本发明实施例提供的存储盘故障预测方法流程图;
图2为本发明实施例提供的存储盘故障预测系统示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为解决现有的存储盘故障预测方法及系统仅能提供单一的故障预测结果,并采取单一的故障处理措施,容易造成模型过度拟合,从而导致故障预测结果的准确度和可信度较低,而且可能导致磁盘资源浪费的问题,本发明提供了一种存储盘故障预测方法及预测系统,其基本思路在于:先利用预测模型预测存储盘的故障情况;若预测存储盘为故障盘,则进一步对预测结果进行解释分析(explain或interpret),以得到导致存储盘故障的一个或多个故障缘由集;然后根据故障缘由集的检测率和误报率进行过滤,再对剩余的故障缘由集进行针对性地故障处理,由此能够有效避免过拟合,从而有效提高存储盘故障预测的准确度和可信度,并减少存储资源的浪费。
在实际应用中,数据中心的存储盘可为磁盘、固态盘或其他类型的存储盘,也有可能同时包括多种类型的存储盘;对于各种类型的存储盘,本发明所提供的故障预测方法及预测系统均使用。
本发明所提供的存储盘故障预测方法,如图1所示,包括:
(1)将实时采集到的待预测存储盘的状态数据作为输入,利用已训练好的故障预测模型预测待预测存储盘的故障情况;
状态数据包含多个属性项;状态数据可包括存储盘的SMART(Self-MonitoringAnalysis and Reporting Technology自动检测分析及报告技术)属性数据、I/O负载统计数据或其他的属性数据;
故障预测模型为一种预测模型,用于根据存储盘的状态数据预测该存储盘的故障情况;故障预测模型的预测结果为正常或故障,但需要说明的是,在本发明中,故障预测模型的预测结果为故障时,具体被预测的存储盘在未来一个时间段即将发生故障;时间段的长短根据实际应用需求可灵活设置;
根据数据中心实际的存储系统特点,故障预测模型可选用随机森林、梯度提升决策树、神经网络等;
(2)判断预测结果是否正常,若是,则不采取故障处理措施,故障预测结束;若否,则转入步骤(3);
(3)对预测结果进行解释分析,以得到导致待预测存储盘故障的一个或多个故障缘由集;其中,故障缘由集包含状态数据中的一个或多个属性项;各故障缘由集可单独使故障预测模型做出即将发生故障的预测结果,而同一故障缘由集中的各属性项缺一不可,缺一则该故障缘由集不会使故障预测模型做出即将发生故障的预测结果;
在一个可选的实施方式中,步骤(3)具体包括:
(31)将待预测存储盘的状态数据作为解释状态I;
(32)初始化一个为空的集合Sf,设置状态I′=I以记录解释分析的起始状态,并初始化序号变量i=1;
(33)将解释状态I的第i个属性项的取值替换为正常盘在该属性项上的平均值,并将替换后的解释状态I作为输入,利用故障预测模型重新预测待预测存储盘的故障情况;
(34)若重新预测的预测结果为正常,则将第i个属性项加入到集合Sf中,并将解释状态I的第i个属性项的取值恢复为替换前的取值,转入步骤(35);否则,保持解释状态I为替换后的结果,转入步骤(35);
(35)若序号变量i等于状态数据所包含的属性项数n,则转入步骤(36);否则,将序号变量i的取值加1,并转入步骤(33);
(36)将集合Sf作为一个故障缘由集,并将状态I′中属于集合Sf的属性项的取值均替换为正常盘在对应属性项上的平均值,将替换后的状态I′作为新的解释状态I;
(37)将解释状态I作为输入,利用故障预测模型重新预测待预测存储盘的故障情况,若预测结果为正常,则操作结束;否则,转入步骤(32),以获得待预测存储盘的下一个故障缘由集;
(4)过滤掉检测率低于预设的检测率阈值TD或误报率高于预设的误报率阈值TA的故障缘由集,从而得到由剩余故障缘由集构成的集合S;
其中,故障缘由集的检测率为故障预测模型根据该故障缘由集将故障盘正确预测为故障盘的概率,故障缘由集的误报率为故障预测模型根据该故障缘由集将正常盘错误预测为故障盘的概率;
检测率阈值TD按经验设定,可以先按检测率递增的顺序对故障缘由集排序,取排序结果前10%处的故障缘由集的检测率作为检测率阈值TD,从而过滤掉10%的故障缘由集;误报率阈值TA按经验设定,可以先按误报率率递增的顺序对故障缘由集排序,取排序结果前90%处的故障缘由集的误报率作为误报率阈值TA,从而过滤掉10%的故障缘由集;通过过滤掉未经现有故障样例充分验证的故障缘由集(检测率低的故障缘由集),以及经现有故障样例验证后发现不够可靠的故障缘由集(误报率较高的故障缘由集),保证了进行故障预测时根据经过现有故障样例验证可靠的故障缘由集进行判断,由此能够提故障预测的准确率;
在一个可选的实施方式中,任意一个故障缘由集Sj的检测率和误报率的获取方法具体为:
从历史数据中提取各存储盘的状态数据;历史数据中各存储盘的状态数据和实际故障情况已知;
将各存储盘的状态数据作为输入,利用故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;对于被预测为故障盘的存储盘,对其预测结果进行解释分析以得到其故障缘由集的具体方法可参考上述步骤(3)的具体步骤;
通过解释分析得到所有的故障缘由集之后,可以根据解释分析的结果统计如下信息:所有实际为故障盘的存储盘中被预测为故障盘且其故障缘由集包括故障缘由集Sj的存储盘数量TP(Sj),所有实际为故障盘的存储盘中被预测为正常盘或者被预测为故障盘但其故障缘由集不包括故障缘由集Sj的存储盘数量FN(Sj),所有实际为正常盘的存储盘中被预测为故障盘且其故障缘由集包括故障缘由集Sj的存储盘数量FP(Sj),所有实际为正常盘的存储盘中被预测为正常盘或者被预测为故障盘但其故障缘由集不包括故障缘由集Sj的存储盘数量TN(Sj);所统计的信息满足TP(Sj)+FN(Sj)=N,且FP(Sj)+TN(Sj)=P,N为历史数据中实际为故障盘的存储盘总数,P为所述历史数据中实际为正常盘的存储盘总数;
根据统计结果,计算故障缘由集Sj的检测率为:
Figure BDA0002030373190000111
计算故障缘由集Sj的误报率为:
Figure BDA0002030373190000112
(5)对于集合S中的每一个故障缘由集,对其中处理开销最小的属性项采取相应的故障处理措施,从而解除待预测存储盘的故障,故障预测结束;
针对每一个属性项,会有相应的故障处理措施,并且会采取该故障处理措施以消除故障时会产生相应的处理开销;不同属性项的处理开销不同;
例如,将处理开销划分为1、2、3等三个等级,等级越大开销越大;属性项Seek_Error_Rate(SMART 7)表示的是寻道错误率,对应的故障处理措施是磁盘替换,因为由于寻道错误率过高而导致的故障,往往表现为磁头损坏,磁盘无法正常工作,此时处理开销为3;属性项Reallocated_Sector_Count(SMART 5)表示的是重定位扇区计数,对应的故障处理措施是磁盘降级使用,即将不将该磁盘应用于对性能要求高且无冗余保护的场景中,因为重定位扇区计数过高,I/O错误率会上升,但该盘的大部分数据依然能够提供服务,处理开销为2;属性项Temperature_Celsius(SMART 194)表示磁盘运行中的温度,对应的故障处理措施是简单地改善散热,处理开销为1;
在一个可选的实施方式中,具体可维护一张故障处理开销表,将每个属性项映射到相应的故障处理措施,并记录各故障处理措施的处理开销。
为了获得存储盘各属性项对于存储盘故障预测的重要程度,上述存储盘故障预测方法,还包括:
从历史数据中提取各存储盘的状态数据;历史数据中各存储盘的状态数据和实际故障情况已知;
将各存储盘的状态数据作为输入,利用故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;
对于状态数据中的任意一个属性项Ii,统计所有被预测为故障盘的存储盘中,实际为故障盘且其任意一个故障缘由集包含属性项Ii的存储盘数量TP(Ii),并根据统计结果计算属性项Ii在存储盘故障预测中的重要性指标为:
Figure BDA0002030373190000121
其中,N为历史数据中实际为故障盘的存储盘总数。
在获得各属性项的重要性指标后,上述存储盘故障预测方法,还可包括:
在采集待预测存储盘的状态数据时,过滤掉待预测存储盘的所有属性项中重要性指标低于预设的采集阈值TC的属性项,仅采集剩余的属性项以构成待预测存储盘的状态数据;
上述存储盘故障预测方法,还可包括:
在利用故障预测模型进行故障预测之前,先过滤掉输入数据中重要性指标低于预设的预测阈值TF的属性项,由剩余的属性项构成故障模型的新的输入数据,以根据新的输入数据进行故障预测;
其中,采集阈值TC和预测阈值TF可根据经验设定为固定值,例如,设定TC=0.01,TF=0.04;采集阈值TC和预测阈值TF也可根据实际需要,采用其他方法设定,例如,可按选取固定数目的属性项进行模型构建的需求设定,如固定取20个属性项进行模型构建,则将预测阈值设定为检测率排第20的属性项的检测率;同时,预测阈值设定得比采集阈值高,因为采集阈值的设定目的是过滤掉与故障相关性小到可以忽略不记的属性项,而预测阈值的设定是过滤掉对所选用的预测模型而言相关性较小的属性项,但这些属性项可能会被别的预测模型发现出更多的相关性,因此预测阈值的设定比采集阈值高;
通过上述操作,可根据属性项的重要性指标优化数据采集和预测模型的训练,使得本发明一方面能够减少所需采集和存储的数据量,另一方面能够简化预测模型,提高预测模型的通用性和预测准确度。
按照本发明的另一方面,提供了一种存储盘故障预测系统,用于实现上述存储盘故障预测方法,如图2所示,该预测系统包括:故障预测模块、判定模块、故障解释模块、筛选模块以及故障处理模块;
故障预测模块用于将实时采集到的待预测存储盘的状态数据作为输入,利用已训练好的故障预测模型预测待预测存储盘的故障情况;状态数据包含多个属性项;
判定模块用于判断故障预测模块的预测结果是否正常,并在判定预测结果为正常时结束故障预测;
故障解释模块用于在判定模块判定预测结果为故障时,对预测结果进行解释分析,以得到导致待预测存储盘故障的一个或多个故障缘由集;故障缘由集包含状态数据中的一个或多个属性项;
筛选模块用于过滤掉由故障解释模块获取到的故障缘由集中,检测率低于预设的检测率阈值TD或误报率高于预设的误报率阈值TA的故障缘由集,从而得到由剩余故障缘由集构成的集合S;
故障处理模块用于对于集合S中的每一个故障缘由集,对其中处理开销最小的属性项采取相应的故障处理措施,从而解除待预测存储盘的故障,并结束故障预测;
其中,故障预测模型为一种预测模型,用于根据存储盘的状态数据预测该存储盘的故障情况;故障缘由集的检测率为故障预测模型根据该故障缘由集将故障盘正确预测为故障盘的概率,故障缘由集的误报率为故障预测模型根据该故障缘由集将正常盘错误预测为故障盘的概率;
在本发明实施例中,各模块的具体实施方式可参考上述方法实施例中的描述,在此将不再复述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种存储盘故障预测方法,其特征在于,包括:
(1)将实时采集到的待预测存储盘的状态数据作为输入,利用已训练好的故障预测模型预测所述待预测存储盘的故障情况;
所述状态数据包含多个属性项;
(2)判断预测结果是否正常,若是,则不采取故障处理措施,故障预测结束;若否,则转入步骤(3);
(3)对所述预测结果进行解释分析,以得到导致所述待预测存储盘故障的一个或多个故障缘由集;
所述故障缘由集包含所述状态数据中的一个或多个属性项;
所述步骤(3)包括:
(31)将所述待预测存储盘的状态数据作为解释状态I;
(32)初始化一个为空的集合Sf,设置状态I′=I以记录解释分析的起始状态,并初始化序号变量i=1;
(33)将所述解释状态I的第i个属性项的取值替换为正常盘在该属性项上的平均值,并将替换后的解释状态I作为输入,利用所述故障预测模型重新预测所述待预测存储盘的故障情况;
(34)若重新预测的预测结果为正常,则将第i个属性项加入到所述集合Sf中,并将所述解释状态I的第i个属性项的取值恢复为替换前的取值,转入步骤(35);否则,保持所述解释状态I为替换后的结果,转入步骤(35);
(35)若所述序号变量i等于所述状态数据所包含的属性项数n,则转入步骤(36);否则,将所述序号变量i的取值加1,并转入步骤(33);
(36)将所述集合Sf作为一个故障缘由集,并将所述状态I′中属于所述集合Sf的属性项的取值均替换为正常盘在对应属性项上的平均值,将替换后的状态I′作为新的解释状态I;
(37)将所述解释状态I作为输入,利用所述故障预测模型重新预测所述待预测存储盘的故障情况,若预测结果为正常,则操作结束;否则,转入步骤(32),以获得所述待预测存储盘的下一个故障缘由集;
(4)过滤掉检测率低于预设的检测率阈值TD或误报率高于预设的误报率阈值TA的故障缘由集,从而得到由剩余故障缘由集构成的集合S;
(5)对于所述集合S中的每一个故障缘由集,对其中处理开销最小的属性项采取相应的故障处理措施,从而解除所述待预测存储盘的故障,故障预测结束;
其中,所述故障预测模型为一种预测模型,用于根据存储盘的状态数据预测该存储盘的故障情况;故障缘由集的检测率为所述故障预测模型根据该故障缘由集将故障盘正确预测为故障盘的概率,故障缘由集的误报率为所述故障预测模型根据该故障缘由集将正常盘错误预测为故障盘的概率。
2.如权利要求1所述的存储盘故障预测方法,其特征在于,任意一个故障缘由集Sj的检测率获取方法为:
从历史数据中提取各存储盘的状态数据;
将各存储盘的状态数据作为输入,利用所述故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;
统计所有实际为故障盘的存储盘中被预测为故障盘且其故障缘由集包括所述故障缘由集Sj的存储盘数量TP(Sj),并根据统计结果计算所述故障缘由集Sj的检测率为:
Figure FDA0002346505280000021
其中,所述历史数据中各存储盘的状态数据和实际故障情况已知,N为所述历史数据中实际为故障盘的存储盘总数。
3.如权利要求1所述的存储盘故障预测方法,其特征在于,任意一个故障缘由集Sj的误报率获取方法为:
从历史数据中提取各存储盘的状态数据;
将各存储盘的状态数据作为输入,利用所述故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;
统计所有实际为正常盘的存储盘中被预测为故障盘且其故障缘由集包括所述故障缘由集Sj的存储盘数量FP(Sj),并根据统计结果计算所述故障缘由集Sj的误报率为:
Figure FDA0002346505280000031
其中,所述历史数据中各存储盘的状态数据和实际故障情况已知,P为所述历史数据中实际为正常盘的存储盘总数。
4.如权利要求1所述的存储盘故障预测方法,其特征在于,还包括:
从历史数据中提取各存储盘的状态数据;
将各存储盘的状态数据作为输入,利用所述故障预测模型预测对应的存储盘的故障情况;
对于被预测为故障盘的每一个存储盘,对其预测结果进行解释分析,以得到各存储盘故障的故障缘由集,从而得到所有会导致存储盘故障的故障缘由集;
对于所述状态数据中的任意一个属性项Ii,统计所有被预测为故障盘的存储盘中,实际为故障盘且其任意一个故障缘由集包含所述属性项Ii的存储盘数量TP(Ii),并根据统计结果计算所述属性项Ii在存储盘故障预测中的重要性指标为:
Figure FDA0002346505280000041
其中,所述历史数据中各存储盘的状态数据和实际故障情况已知,N为所述历史数据中实际为故障盘的存储盘总数。
5.如权利要求4所述的存储盘故障预测方法,其特征在于,还包括:
在采集所述待预测存储盘的状态数据时,过滤掉所述待预测存储盘的所有属性项中重要性指标低于预设的采集阈值TC的属性项,仅采集剩余的属性项以构成所述待预测存储盘的状态数据。
6.如权利要求4所述的存储盘故障预测方法,其特征在于,还包括:
在利用所述故障预测模型进行故障预测之前,先过滤掉输入数据中重要性指标低于预设的预测阈值TF的属性项,由剩余的属性项构成所述故障预测模型的新的输入数据,以根据新的输入数据进行故障预测。
7.一种存储盘故障预测系统,其特征在于,包括:故障预测模块、判定模块、故障解释模块、筛选模块以及故障处理模块;
所述故障预测模块用于将实时采集到的待预测存储盘的状态数据作为输入,利用已训练好的故障预测模型预测所述待预测存储盘的故障情况;所述状态数据包含多个属性项;
所述判定模块用于判断所述故障预测模块的预测结果是否正常,并在判定所述预测结果为正常时结束故障预测;
所述故障解释模块用于在所述判定模块判定所述预测结果为故障时,对所述预测结果进行解释分析,以得到导致所述待预测存储盘故障的一个或多个故障缘由集;所述故障缘由集包含所述状态数据中的一个或多个属性项;
所述筛选模块用于过滤掉由所述故障解释模块获取到的故障缘由集中,检测率低于预设的检测率阈值TD或误报率高于预设的误报率阈值TA的故障缘由集,从而得到由剩余故障缘由集构成的集合S;
所述故障处理模块用于对于所述集合S中的每一个故障缘由集,对其中处理开销最小的属性项采取相应的故障处理措施,从而解除所述待预测存储盘的故障,并结束故障预测;
其中,所述故障预测模型为一种预测模型,用于根据存储盘的状态数据预测该存储盘的故障情况;故障缘由集的检测率为所述故障预测模型根据该故障缘由集将故障盘正确预测为故障盘的概率,故障缘由集的误报率为所述故障预测模型根据该故障缘由集将正常盘错误预测为故障盘的概率;
所述故障解释模块对所述预测结果进行解释分析,以得到导致所述待预测存储盘故障的一个或多个故障缘由集,包括:
(31)将所述待预测存储盘的状态数据作为解释状态I;
(32)初始化一个为空的集合Sf,设置状态I′=I以记录解释分析的起始状态,并初始化序号变量i=1;
(33)将所述解释状态I的第i个属性项的取值替换为正常盘在该属性项上的平均值,并将替换后的解释状态I作为输入,利用所述故障预测模型重新预测所述待预测存储盘的故障情况;
(34)若重新预测的预测结果为正常,则将第i个属性项加入到所述集合Sf中,并将所述解释状态I的第i个属性项的取值恢复为替换前的取值,转入步骤(35);否则,保持所述解释状态I为替换后的结果,转入步骤(35);
(35)若所述序号变量i等于所述状态数据所包含的属性项数n,则转入步骤(36);否则,将所述序号变量i的取值加1,并转入步骤(33);
(36)将所述集合Sf作为一个故障缘由集,并将所述状态I′中属于所述集合Sf的属性项的取值均替换为正常盘在对应属性项上的平均值,将替换后的状态I′作为新的解释状态I;
(37)将所述解释状态I作为输入,利用所述故障预测模型重新预测所述待预测存储盘的故障情况,若预测结果为正常,则操作结束;否则,转入步骤(32),以获得所述待预测存储盘的下一个故障缘由集。
CN201910307587.3A 2019-04-17 2019-04-17 一种存储盘故障预测方法及预测系统 Active CN110175100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910307587.3A CN110175100B (zh) 2019-04-17 2019-04-17 一种存储盘故障预测方法及预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910307587.3A CN110175100B (zh) 2019-04-17 2019-04-17 一种存储盘故障预测方法及预测系统

Publications (2)

Publication Number Publication Date
CN110175100A CN110175100A (zh) 2019-08-27
CN110175100B true CN110175100B (zh) 2020-05-19

Family

ID=67689480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910307587.3A Active CN110175100B (zh) 2019-04-17 2019-04-17 一种存储盘故障预测方法及预测系统

Country Status (1)

Country Link
CN (1) CN110175100B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158964B (zh) * 2019-11-26 2021-06-08 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111737067A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 一种硬盘故障预测模型解释方法及装置
CN112433896B (zh) * 2020-11-05 2023-12-22 北京浪潮数据技术有限公司 一种服务器磁盘故障预测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542296B1 (en) * 2014-12-01 2017-01-10 Amazon Technologies, Inc. Disk replacement using a predictive statistical model
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN108647136A (zh) * 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN109471765A (zh) * 2018-11-14 2019-03-15 郑州云海信息技术有限公司 一种硬盘质量检测系统及方法
CN109491850A (zh) * 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0221638D0 (en) * 2002-09-17 2002-10-30 Ibm Device system and method for predictive failure analysis
US9710317B2 (en) * 2015-03-30 2017-07-18 Netapp, Inc. Methods to identify, handle and recover from suspect SSDS in a clustered flash array
CN107025153B (zh) * 2016-01-29 2021-02-12 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN108986869B (zh) * 2018-07-26 2021-04-30 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542296B1 (en) * 2014-12-01 2017-01-10 Amazon Technologies, Inc. Disk replacement using a predictive statistical model
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN108647136A (zh) * 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN109471765A (zh) * 2018-11-14 2019-03-15 郑州云海信息技术有限公司 一种硬盘质量检测系统及方法
CN109491850A (zh) * 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置

Also Published As

Publication number Publication date
CN110175100A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
Li et al. Hard drive failure prediction using decision trees
CN108038049B (zh) 实时日志控制系统及控制方法、云计算系统及服务器
CN110175100B (zh) 一种存储盘故障预测方法及预测系统
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
US11734103B2 (en) Behavior-driven die management on solid-state drives
CN111581072A (zh) 一种基于smart和性能日志的磁盘故障预测方法
CN109634790B (zh) 一种基于循环神经网络的磁盘故障预测方法
CN112951311A (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
CN112988437B (zh) 一种故障预测方法、装置及电子设备和存储介质
CN115719283A (zh) 一种智能化会计管理系统
CN113778766A (zh) 基于多维特征的硬盘故障预测模型建立方法及其应用
CN102546235A (zh) 云计算环境下面向web应用的性能诊断方法和系统
CN111858108A (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN115794451A (zh) 基于存储设备健康状态的执行策略预测方法、装置及系统
CN114661505A (zh) 存储部件故障处理方法、装置、设备和存储介质
CN111381990B (zh) 一种基于流特征的磁盘故障预测方法及装置
US20210201201A1 (en) Method and apparatus for determining storage load of application
CN111142898B (zh) 一种基于群体智能模式的数据防泄漏终端升级方法及系统
CN111523609A (zh) 车辆数据处理方法、装置、计算机设备和存储介质
JP2020135739A (ja) 障害予兆検知システム
CN110519102A (zh) 一种服务器故障识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220804

Address after: Room 1205, 12th Floor, No. 33 Wenhua Road, Zhifang Street, Jiangxia District, Wuhan City, Hubei Province 430200 (Xinhe Building)

Patentee after: Hubei Yiyao Information Technology Co.,Ltd.

Address before: 430074 Hubei Province, Wuhan city Hongshan District Luoyu Road No. 1037

Patentee before: HUAZHONG University OF SCIENCE AND TECHNOLOGY