CN110347538B - 一种存储设备故障预测方法和系统 - Google Patents

一种存储设备故障预测方法和系统 Download PDF

Info

Publication number
CN110347538B
CN110347538B CN201910530466.5A CN201910530466A CN110347538B CN 110347538 B CN110347538 B CN 110347538B CN 201910530466 A CN201910530466 A CN 201910530466A CN 110347538 B CN110347538 B CN 110347538B
Authority
CN
China
Prior art keywords
storage device
samples
storage
time
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910530466.5A
Other languages
English (en)
Other versions
CN110347538A (zh
Inventor
冯丹
王芳
谢燕文
张鑫*
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910530466.5A priority Critical patent/CN110347538B/zh
Publication of CN110347538A publication Critical patent/CN110347538A/zh
Application granted granted Critical
Publication of CN110347538B publication Critical patent/CN110347538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种存储设备故障预测方法和系统,属于计算机存储技术领域。包括:S1.采集N个存储设备在不同时间点的SMART属性数据;S2.打乱所有存储设备的顺序,选取第j=1个存储设备;83.该存储设备各时间点的SMART属性数据作为小批次样本,输入故障预测模型进行训练,得到输出结果;S4.根据存储设备的时间点tn的状态、输出结果、LTMIN和LTMAX,动态调整各样本的标签和反馈权重;S5.计算该批次的综合损失Lossj;S6.选取下一个存储设备,重复步骤S3‑S5,直至所有存储设备都取完,计算该周期内所有存储设备的总损失Lossfinal;87.判断Lossfinal是否收敛,若是,得到训练好的预测模型,进入步骤S8,否则,进入步骤S2;S8.将待预测存储设备的当前SMART属性数据输入训练好的预测模型,得到预测结果。

Description

一种存储设备故障预测方法和系统
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种存储设备故障预测方法和系统。
背景技术
磁盘由于单位存储容量价格低、技术成熟等,在数据中心得到广泛的部署,常应用到冷数据存储、长期存储、备份存储等应用中。而磁盘一旦出现故障,在数据没有备份的情况下,会造成巨大的数据损失,而在有备份的情况下,恢复数据会产生巨大的开销,容易引起磁盘和网络的I/O突发,影响在线业务的使用。
通常情况下,数据中心通过采集磁盘的SMART数据以及I/O负载统计数据,利用机器学习模型,构建故障预测模型,以评估磁盘的磨损度,推测磁盘是否在不久的将来会发生故障,并对潜在高危的磁盘采取故障处理举措,提前迁移数据或数据服务,从而避免数据损失以及降低故障修复开销。专利CN108446734A公开了一种基于人工智能的磁盘故障自动预测方法,通过整合不同提前时间区间的训练数据,使用支持向量机的学习模型,构建能够获取不同提前时间精度的分层预测模型。
但是,当前技术关注预测磁盘故障是否即将到来,提前预测时间不定或不准,时间过长导致过早进行磁盘故障处理造成磁盘资源浪费,时间过短导致磁盘故障处理不及时的问题。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术磁盘故障预测方法训练样本的标签难以确定导致构建的模型不稳定,提前预测时间难控的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种存储设备故障预测方法,所述方法包括以下步骤:
S1.接收输入的最小提前时间LTMIN和最大提前时间LTMAX,并实时采集同存储设备系列的N个存储设备在不同时间点的SMART属性数据,保证采集到的数据包括正常存储设备数据和故障存储设备数据;
S2.随机打乱所有存储设备的顺序,按照打乱后的顺序选取第j=1个存储设备;
S3.该存储设备各时间点的SMART属性数据{It1,It2,…Itn}作为小批次样本,每个时间点的SMART属性数据Iti作为一个样本,输入多层感知器的存储设备故障预测模型进行训练,得到输出结果{Ot1,Ot2,…,Otn},tn表示该存储设备最后采集时间;
S4.根据该存储设备的时间点tn的状态、输出结果{Ot1,Ot2,…,Otn}、最小提前时间LTMIN和最大提前时间LTMAX,动态调整该批次中各样本对应的标签{Lt1,Lt2,…,Ltn}和反馈权重{wt1,wt2,…,wtn};
S5.根据输出结果{Ot1,Ot2,…,Otn}、标签{Lt1,Lt2,…,Ltn}和反馈权重{wt1,wt2,…,wtn},计算该批次的综合损失Lossj,并根据综合损失进行后向反馈,调整预测模型各层神经元的权重和偏差;
S6.按照打乱后的顺序选取下一个存储设备,重复步骤S3-S5,直至所有存储设备都取完,计算该周期内所有存储设备的总损失
Figure BSA0000184805760000021
Figure BSA0000184805760000022
S7.判断Lossfinal是否收敛,若是,得到训练好的预测模型,进入步骤S8,否则,进入步骤S2;
S8.将待预测存储设备的当前SMART属性数据输入训练好的预测模型,得到预测结果。
具体地,最小提前时间LTMIN和最大提前时间LTMAX作为时间约束条件,表示期望磁盘故障预测模型能够最少提前LTMIN、最多提前LTMAX预测到存储设备的故障。
具体地,所述多层感知器的存储设备故障预测模型包含一个输入层、一个隐藏层、一个输出层;输入层与磁盘上采集的SMART属性数据相连,神经元个数等于基于SMART属性构建的特征数;输出层包含一个神经元,输出类型为浮点数值,如果输出值超过阈值,则认为该磁盘故障预测模型做出磁盘即将故障的预测结果。
具体地,步骤S4包括以下子步骤:
步骤S401.初始化该批次所有样本的标签和反馈权重为0,进入步骤S402;
步骤S402.获取该磁盘时间点tn的状态,如果该磁盘的状态为正常,则进入步骤S403,否则进入步骤S406;
步骤S403.如果该批次中不存在输出超过阈值α的样本,则进入步骤S404,否则进入步骤S405;
步骤S404.将该批次的样本的反馈权重设为WFTN/该批次样本的数目,进入步骤S410,WFTN表示正确预测正常情况下对应的反馈权重系数;
步骤S405.将该批次中输出超过阈值α的样本的反馈权重设为WFFP/这类样本的数目,进入步骤S410,WFFP表示误报故障情况下对应的反馈权重系数;
步骤S406.将时间在(tn-LTMAX)前的样本,按照S403-S405的步骤计算这些样本的标签和反馈权重,进入步骤S407;
步骤S407.将时间在(tn-LTMAX)后且输出超过阈值α的样本的标签设为1,反馈权重设为WFTP/这类样本的数目,进入步骤S408,WFTP表示正确预测故障情况下对应的反馈权重系数;
步骤S408.如果在(tn-LTMAX)到(tn-LTMIN)间不存在输出超过阈值α的样本,则进入步骤S409,否则进入步骤S410;
步骤S409.将tn-LTMAX到tn-LTMIN间的样本的标签设为1,反馈权重设为WFFN/这类样本的数目,进入步骤S410,WFFN表示漏报故障情况下对应的反馈权重系数;
步骤S410.输出该批次样本对应的标签和反馈权重值,完成一次迭代。
具体地,调高WFTP或WFFN,或者,降低WFFP或WFTN,有助于提高磁盘故障预测的检测率,但会引起误报率的上升;反之,调高WFFP或WFTN,或降低WFTP或WFFN,有助于降低磁盘故障预测的误报率,但会引起检测率的下降。
具体地,通过调整最小LTMIN和最大LTMAX,以提高磁盘故障预测的准确率或降低磁盘故障预测的误报率。
具体地,该批次的综合损失
Figure BSA0000184805760000041
第二方面,本发明实施例一种存储设备故障预测系统,所述预测系统采用第一方面所述的存储设备故障预测方法。
第三方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的存储设备故障预测方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明不对故障盘的样本的标签做具体假设,而是在训练过程中根据单个磁盘的各时间点的SMART构成的小批次样本的实际情况动态地调整,对不同的数据集,能够对样本打上合理的标签,从而稳定地训练出高准度的模型。
2.本发明利用故障样本常在样本时间序列的尾部特性,根据给定的提前预测时间区间的限制,动态地调整样本的标签。最终的效果是相比起现有方法,能够提高在给定的提前时间预测区间的故障检测率,降低其误报率。
附图说明
图1为本发明实施例提供的多层感知器的存储设备故障预测模型训练过程示意图;
图2为本发明实施例提供的步骤S4的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种存储设备故障预测方法,所述方法包括以下步骤:
S1.接收输入的最小提前时间LTMIN和最大提前时间LTMAX,并实时采集同存储设备系列的N个存储设备在不同时间点的SMART属性数据,保证采集到的数据包括正常存储设备数据和故障存储设备数据;
S2.随机打乱所有存储设备的顺序,按照打乱后的顺序选取第j=1个存储设备;
S3.该存储设备各时间点的SMART属性数据{It1,It2,…Itn}作为小批次样本,每个时间点的SMART属性数据Iti作为一个样本,输入多层感知器的存储设备故障预测模型进行训练,得到输出结果{Ot1,Ot2,…,Otn},tn表示该存储设备最后采集时间;
S4.根据该存储设备的时间点tn的状态、输出结果{Ot1,Ot2,…,Otn}、最小提前时间LTMIN和最大提前时间LTMAX,动态调整该批次中各样本对应的标签{Lt1,Lt2,…,Ltn}和权重{wt1,wt2,…,wtn};
S5.计算该批次的综合损失
Figure BSA0000184805760000051
并根据综合损失进行后向反馈,调整预测模型各层神经元的权重和偏差;
S6.按照打乱后的顺序选取下一个存储设备,重复步骤S3-S5,直至所有存储设备都取完,计算该周期内所有存储设备的总损失
Figure BSA0000184805760000061
Figure BSA0000184805760000062
S7.判断Lossfinal是否收敛,若是,得到训练好的预测模型,进入步骤S8,否则,进入步骤S2;
S8.将待预测存储设备的当前SMART属性数据输入训练好的预测模型,得到预测结果。
步骤S1.接收输入的最小提前时间LTMIN和最大提前时间LTMAX,并实时采集同存储设备系列的N个存储设备在不同时间点的SMART属性数据,保证采集到的数据包括正常存储设备数据和故障存储设备数据。
本发明针对的存储设备包括支持SMART技术的HDD、SSD、eMMC等。为了解决提前预测时间不定,时间过长导致过早进行磁盘故障处理造成磁盘资源浪费,时间过短导致磁盘故障处理不及时的问题,本发明提出指定最小提前时间LTMIN和最大提前时间LTMAX作为时间约束条件,表示期望磁盘故障预测模型能够最少提前LTMIN、最多提前LTMAX预测到存储设备的故障。其选取原则:保证有一个充足的时间转移数据,又不至于太长以致浪费磁盘资源。本发明实施例中,LTMIN=3天,LTMAX=21天,表示期望磁盘故障预测模型能够最少提前3天,最多提前21天预测到磁盘的故障。
相比于其他类型的状态数据,SMART属性数据更能精确反应出存储设备的损耗情况。实时采集同存储设备系列的N个存储设备在不同时间点的SMART属性数据,保证采集到的数据包括正常存储设备数据和故障存储设备数据。
步骤S2.随机打乱所有存储设备的顺序,按照打乱后的顺序选取第j=1个存储设备。
为了防止陷入局部最优解,需要在每个周期内一开始,随机打乱所有存储设备的顺序,以仿照随机性。
一个周期包括多个迭代,每个周期内对所有存储设备进行一次训练,每次迭代对选定的一个磁盘进行一次训练,一个磁盘所有时间点的SMART数据构成一轮迭代的训练样本。
步骤S3.该存储设备各时间点的SMART属性数据{It1,It2,…Itn}作为小批次样本,每个时间点的SMART属性数据Iti作为一个样本,输入多层感知器的存储设备故障预测模型进行训练,得到输出结果{Ot1,Ot2,…,Otn},tn表示该存储设备最后采集时间。
如图1所示,磁盘故障预测模型使用三层感知器,包含一个输入层,一个隐藏层,一个输出层,输入层与磁盘上采集的SMART属性数据相连,神经元个数等于基于SMART属性构建的特征数;隐藏层包含等同于输入层神经元个数的神经元,使用sigmoid的激活函数;输出层包含一个神经元,输出类型为浮点数值。如果输出值超过0.5,则认为该磁盘故障预测模型做出磁盘即将故障的预测结果。
步骤S4.根据该存储设备的时间点tn的状态、输出结果{Ot1,Ot2,…,Otn}、最小提前时间LTMIN和最大提前时间LTMAX,动态调整该批次中各样本对应的标签{Lt1,Lt2,…,Ltn}和权重{wt1,wt2,…,wtn}。
磁盘故障预测是多实例的学习问题,正常盘的样本都是正常样本,但故障盘的样本哪些是故障样本,如何选择,对所构建模型的准度有很大影响。测试发现,不同盘的可提前预测时间不定。结果是同种选择方法,在不同公司放出的数据集、或不同的磁盘系列上,甚至多次建模中,预测效果都差异不小,不稳定。因此,本发明不对故障盘的样本的标签做具体假设,而是在训练过程中根据训练数据的实际情况动态地调整,以期达到最佳效果。
输入为本轮迭代中,该批次样本对应的输出值以及本轮迭代中磁盘的最新状态,输出该批次样本对应的标签和反馈权重,标签即真实值,如图2所示,具体包括以下子步骤:
步骤S401.初始化该批次所有样本的标签和反馈权重为0,进入步骤S402。
标签初始化为0,代表默认预测正常;反馈权重的取值范围为[0,1],初始化为0,代表默认不进行反馈。
步骤S402.获取该磁盘时间点tn的状态,如果该磁盘的状态为正常,则进入步骤S403,否则进入步骤S406。
该磁盘时间点tn的状态即为最新状态。
步骤S403.如果该批次中不存在输出超过0.5的样本,则进入步骤S404,否则进入步骤S405。
步骤S404.将该批次的样本的反馈权重设为WFTN/该批次样本的数目,进入步骤S410,WFTN表示正确预测正常情况下对应的反馈权重系数。
步骤S404对应预测这个存储设备正常且实际也是正常的情形,各样本的反馈权重发生变化,变为WFTN/该批次样本的数目。本发明实施例中正常存储设备对应的批次样本数目在1000左右,故障存储设备对应的批次数目在几十左右。
步骤S405.将该批次中输出超过0.5的样本的反馈权重设为WFFP/这类样本的数目,进入步骤S410,WFFP表示误报故障情况下对应的反馈权重系数。
步骤S405对应预测这个存储设备即将故障但实际是正常的情形。输出超过0.5的样本的反馈权重发生变化,变为WFFP/这类样本的数目;输出不超过0.5的样本的反馈权重保持不变,仍然是0。
步骤S406.将时间在(tn-LTMAX)前的样本,按照S403-S405的步骤计算这些样本的标签和反馈权重,进入步骤S407。
对于磁盘最新状态为正常的这一批样本,和磁盘最新状态为故障但时间在tn-LTMAX之前的样本,将这些样本的真实值都设为0,而且,如果有样本对应的输出超过0.5,则将这些样本的反馈权重设为WFFP除以输出超过0.5的样本数,其他样本的反馈权重设为0,否则将这些样本的反馈权重设为WFTN除以这些样本的数目。
步骤S407.将时间在(tn-LTMAX)后且输出超过0.5的样本的标签设为1,反馈权重设为WFTP/这类样本的数目,进入步骤S408,WFTP表示正确预测故障情况下对应的反馈权重系数。
步骤S407对应预测存储设备为故障,且实际是故障的情形。因此需要调整这些预测故障的样本的标签为1,代表故障。
步骤S408.如果在(tn-LTMAX)到(tn-LTMIN)间不存在输出超过0.5的样本,则进入步骤S409,否则进入步骤S410。
步骤S409.将tn-LTMAX到tn-LTMIN间的样本的标签设为1,反馈权重设为WFFN/这类样本的数目,进入步骤S410,WFFN表示漏报故障情况下对应的反馈权重系数。
步骤S409对应预测存储设备为正常,但实际是故障的情形。因此需要调整这些样本的标签为1,代表故障。
步骤S410.输出该批次样本对应的标签和反馈权重值,完成一次迭代。
通过调整权重系数,调节磁盘故障预测的检测率和误报率,比如调高WFTP或WFFN,或降低WFFP或WFTN,有助于提高磁盘故障预测的检测率,但会引起误报率的上升,反之调高WFFP或WFTN,或降低WFTP或WFFN,有助于降低磁盘故障预测的误报率,但会引起检测率的下降。在本发明实例中,考虑到应用场景中,正常盘的数量远多于故障盘的数量,以及正确预测的正常盘数量远多于其他情况的磁盘数量,WFTP=1,WFFN=6,WFFP=6,WFTN=0.1。
可以通过调整最小LTMIN和最大LTMAX,以提高磁盘故障预测的准确率或降低磁盘故障预测的误报率。
步骤S5.计算该批次的综合损失
Figure BSA0000184805760000101
并根据综合损失进行后向反馈,调整预测模型各层神经元的权重和偏差。
每次迭代,将一个磁盘的多个时间点上的样本构建成小批次样本进行训练,通过前向传输和后向反馈,调整三层感知器内神经元的权重和偏差。具体地,后向反馈是一个链式求导的过程,先求导最后一层,然后调整该层的神经元系数(调整后损失值降低),然后再调整下一层,直到把所有层的都调整完毕。
步骤S6.按照打乱后的顺序选取下一个存储设备,重复步骤S3-S5,直至所有存储设备都取完,计算该周期内所有存储设备的总损失
Figure BSA0000184805760000102
Figure BSA0000184805760000103
步骤S7.判断Lossfinal是否收敛,若是,得到训练好的预测模型,进入步骤S8,否则,进入步骤S2。
本发明实施例中,进行40个周期的训练,得出最终的磁盘故障预测模型。
步骤S8.将待预测存储设备的当前SMART属性数据输入训练好的预测模型,得到预测结果。
将待预测磁盘的最新SMART属性数据输入训练好的模型,通过判断输出结果是否大于0.5,若是,则表明在该磁盘将在提前LTMAX到LTMIN内很大概率会故障。
磁盘故障预测是相对特殊的多实例学习问题——故障样本常在样本时间序列的尾部。因此,根据给定的提前预测时间区间的限制,动态地调整样本的标签。最终的效果是相比起现有方法,能够提高在给定的提前时间预测区间的故障检测率,降低其误报率。
一种存储设备故障预测系统,所述系统采用上述存储设备故障预测方法,各模块分别对应各步骤。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种存储设备故障预测方法,其特征在于,所述方法包括以下步骤:
S1.接收输入的最小提前时间LTMIN和最大提前时间LTMAX,并实时采集同存储设备系列的N个存储设备在不同时间点的SMART属性数据,保证采集到的数据包括正常存储设备数据和故障存储设备数据;
S2.随机打乱所有存储设备的顺序,按照打乱后的顺序选取第j=1个存储设备;
S3.该存储设备各时间点的SMART属性数据{It1,It2,…Itn}作为小批次样本,每个时间点的SMART属性数据Iti作为一个样本,输入多层感知器的存储设备故障预测模型进行训练,得到输出结果{Ot1,Ot2,…,Otn},tn表示该存储设备最后采集时间;
S4.根据该存储设备的时间点tn的状态、输出结果{Ot1,Ot2,…,Otn}、最小提前时间LTMIN和最大提前时间LTMAX,动态调整该批次中各样本对应的标签{Lt1,Lt2,…,Ltn}和反馈权重{wt1,wt2,…,wtn};
S5.根据输出结果{Ot1,Ot2,…,Otn}、标签{Lt1,Lt2,…,Ltn}和反馈权重{wt1,wt2,…,wtn},计算该批次的综合损失
Figure FDA0002544129680000011
Figure FDA0002544129680000012
并根据综合损失进行后向反馈,调整预测模型各层神经元的权重和偏差;
S6.按照打乱后的顺序选取下一个存储设备,重复步骤S3-S5,直至所有存储设备都取完,计算一个周期内所有存储设备的总损失
Figure FDA0002544129680000021
其中,一个周期包括多个迭代,每次迭代对选定的一个存储设备进行一次训练,每个周期内对所有存储设备进行一次训练;
S7.判断Lossfinal是否收敛,若是,得到训练好的预测模型,进入步骤S8,否则,进入步骤S2;
S8.将待预测存储设备的当前SMART属性数据输入训练好的预测模型,得到预测结果;
步骤S4包括以下子步骤:
步骤S401.初始化该批次所有样本的标签和反馈权重为0,进入步骤S402;
步骤S402.获取该存储设备时间点tn的状态,如果该存储设备的状态为正常,则进入步骤S403,否则进入步骤S406;
步骤S403.如果该批次中不存在输出超过阈值α的样本,则进入步骤S404,否则进入步骤S405;
步骤S404.将该批次的样本的反馈权重设为WFTN/该批次样本的数目,进入步骤S410,WFTN表示正确预测正常情况下对应的反馈权重系数;
步骤S405.将该批次中输出超过阈值α的样本的反馈权重设为WFFP/这类样本的数目,进入步骤S410,WFFP表示误报故障情况下对应的反馈权重系数;
步骤S406.将时间在(tn-LTMAX)前的样本,按照S403-S405的步骤计算这些样本的标签和反馈权重,进入步骤S407;
步骤S407.将时间在(tn-LTMAX)后且输出超过阈值α的样本的标签设为1,反馈权重设为WFTP/这类样本的数目,进入步骤S408,WFTP表示正确预测故障情况下对应的反馈权重系数;
步骤S408.如果在(tn-LTMAX)到(tn-LTMIN)间不存在输出超过阈值α的样本,则进入步骤S409,否则进入步骤S410;
步骤S409.将tn-LTMAX到tn-LTMIN间的样本的标签设为1,反馈权重设为WFFN/这类样本的数目,进入步骤S410,WFFN表示漏报故障情况下对应的反馈权重系数;
步骤S410.输出该批次样本对应的标签和反馈权重值,完成一次迭代。
2.如权利要求1所述的方法,其特征在于,最小提前时间LTMIN和最大提前时间LTMAX作为时间约束条件,表示期望存储设备故障预测模型能够最少提前LTMIN、最多提前LTMAX预测到存储设备的故障。
3.如权利要求1所述的方法,其特征在于,所述多层感知器的存储设备故障预测模型包含一个输入层、一个隐藏层、一个输出层;输入层与存储设备上采集的SMART属性数据相连,神经元个数等于基于SMART属性构建的特征数;输出层包含一个神经元,输出类型为浮点数值,如果输出值超过阈值α,则认为该存储设备故障预测模型做出存储设备即将故障的预测结果。
4.如权利要求1所述的方法,其特征在于,调高WFTP或WFFN,或者,降低WFFP或WFTN,有助于提高存储设备故障预测的检测率,但会引起误报率的上升;反之,调高WFFP或WFTN,或降低WFTP或WFFN,有助于降低存储设备故障预测的误报率,但会引起检测率的下降。
5.如权利要求1至4任一项所述的方法,其特征在于,通过调整最小LTMIN和最大LTMAX,以提高存储设备故障预测的准确率或降低存储设备故障预测的误报率。
6.一种存储设备故障预测系统,其特征在于,所述预测系统采用权利要求1至5任一项所述的存储设备故障预测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的存储设备故障预测方法。
CN201910530466.5A 2019-06-13 2019-06-13 一种存储设备故障预测方法和系统 Active CN110347538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910530466.5A CN110347538B (zh) 2019-06-13 2019-06-13 一种存储设备故障预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910530466.5A CN110347538B (zh) 2019-06-13 2019-06-13 一种存储设备故障预测方法和系统

Publications (2)

Publication Number Publication Date
CN110347538A CN110347538A (zh) 2019-10-18
CN110347538B true CN110347538B (zh) 2020-08-14

Family

ID=68182383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910530466.5A Active CN110347538B (zh) 2019-06-13 2019-06-13 一种存储设备故障预测方法和系统

Country Status (1)

Country Link
CN (1) CN110347538B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826697B (zh) * 2019-10-31 2023-06-06 深圳市商汤科技有限公司 获取样本的方法及装置、电子设备和存储介质
CN111158964B (zh) * 2019-11-26 2021-06-08 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10969775B2 (en) * 2017-06-23 2021-04-06 Johnson Controls Technology Company Predictive diagnostics system with fault detector for preventative maintenance of connected equipment
CN108681496A (zh) * 2018-05-09 2018-10-19 北京奇艺世纪科技有限公司 磁盘故障的预测方法、装置及电子设备
CN109240867A (zh) * 2018-09-18 2019-01-18 鸿秦(北京)科技有限公司 硬盘故障预测方法
CN109491850A (zh) * 2018-11-21 2019-03-19 北京北信源软件股份有限公司 一种磁盘故障预测方法及装置
CN109739739B (zh) * 2018-12-28 2020-10-02 南京中兴软件有限责任公司 磁盘故障的预测方法、设备及存储介质

Also Published As

Publication number Publication date
CN110347538A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
JP7158586B2 (ja) ハードディスク故障発生時期の予測方法、装置及び記憶媒体
CN106897178B (zh) 一种基于极限学习机的慢盘检测方法及系统
US20190163552A1 (en) System and method for contextual event sequence analysis
EP3859455B1 (en) Learning apparatus, learning method, learning program, determination apparatus, determination method, determination program, and computer readable medium
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
WO2021238258A1 (zh) 一种磁盘故障预测方法和系统
CN109976975B (zh) 一种磁盘容量预测方法、装置、电子设备及存储介质
CN110347538B (zh) 一种存储设备故障预测方法和系统
CN109471698B (zh) 云环境下虚拟机异常行为检测系统和方法
CN112433896B (zh) 一种服务器磁盘故障预测方法、装置、设备及存储介质
US20210201201A1 (en) Method and apparatus for determining storage load of application
CN114943321A (zh) 一种针对硬盘的故障预测方法、装置及设备
CN111400850B (zh) 设备故障分析方法、装置、设备和存储介质
CN112363896A (zh) 日志异常检测系统
CN108334427B (zh) 存储系统中的故障诊断方法及装置
CN114063582B (zh) 用于监控产品测试过程的方法和装置
WO2019019429A1 (zh) 一种虚拟机异常检测方法、装置、设备及存储介质
CN114357858A (zh) 一种基于多任务学习模型的设备劣化分析方法及系统
Xie et al. A model of software fault detection and correction processes considering heterogeneous faults
CN111340975A (zh) 异常数据特征提取方法、装置、设备及存储介质
CN111858108A (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN116541222A (zh) 一种硬盘状态数据生成方法、系统、设备及介质
CN111984514A (zh) 基于Prophet-bLSTM-DTW的日志异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant