CN118245297A - 基于多维度监测数据的ssd寿命预测方法、装置及介质 - Google Patents
基于多维度监测数据的ssd寿命预测方法、装置及介质 Download PDFInfo
- Publication number
- CN118245297A CN118245297A CN202410294049.6A CN202410294049A CN118245297A CN 118245297 A CN118245297 A CN 118245297A CN 202410294049 A CN202410294049 A CN 202410294049A CN 118245297 A CN118245297 A CN 118245297A
- Authority
- CN
- China
- Prior art keywords
- ssd
- monitoring data
- dimensional
- data
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004590 computer program Methods 0.000 claims description 16
- 239000002245 particle Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000003321 amplification Effects 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000002354 daily effect Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005299 abrasion Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- VQLYBLABXAHUDN-UHFFFAOYSA-N bis(4-fluorophenyl)-methyl-(1,2,4-triazol-1-ylmethyl)silane;methyl n-(1h-benzimidazol-2-yl)carbamate Chemical compound C1=CC=C2NC(NC(=O)OC)=NC2=C1.C=1C=C(F)C=CC=1[Si](C=1C=CC(F)=CC=1)(C)CN1C=NC=N1 VQLYBLABXAHUDN-UHFFFAOYSA-N 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Abstract
本发明公开一种基于多维度监测数据的SSD寿命预测方法、装置及介质,该方法步骤包括:对SSD进行状态监控,获取多维度故障监测数据以及无法纠正的错误计数值,多维度故障监测数据包括多种影响SSD寿命的故障参数的监测数据;从获取的多维度故障监测数据中分别提取出关键数据形成多维度故障关键数据;将多维度监测数据、多维度故障关键数据DJ以及无法纠正的错误计数值输入至预先构建的寿命预测模型中对SSD进行寿命预测,得到寿命预测结果输出,寿命预测模型为SSD使用寿命与SSD监控数据中多维度监测数据、多维度故障关键数据以及无法纠正的错误计数值之间的关系模型。本发明具有实现简单、成本低、预测效率以及精度高且灵活性强等优点。
Description
技术领域
本发明涉及SSD(Solid State Drive,固态硬盘)技术领域,尤其涉及一种基于多维度监测数据的SSD寿命预测方法、装置及介质。
背景技术
作为一种高性能存储介质,SSD因其高性能、低功耗、高可靠等特点被广泛应用于高性能计算机系统、数据中心等场景,例如Lustre并行文件系统中的OST(数据存储对象)、MDT(元数据存储对象)等部分均采用了SSD来提高性能。但是,与传统机械硬盘相比,SSD呈现出更复杂的故障机理与独特的故障外在表现形式。以高性能计算机系统中的Lustre并行文件系统为例,由于SSD故障导致的单点故障将使整个存储系统崩溃无法使用,会对系统用户带来无法弥补的损失。因此,对于SSD的故障预测以及寿命管理,在高性能计算机系统中是意义重大且急需解决的问题。
针对SSD的寿命预测,现有技术中通常是利用状态记录软件SMART(Self-Monitoring,Analysis,and Reporting Technology)获取的循环读写次数、写放大系数等数据,基于计算SSD内部闪存单元的平均擦写周期采用单一的静态公式预测出寿命,例如预测的寿命通常是与SSD容量、循环读写次数成正比,与每天写入文件大小、SSD写放大系数成反比。但是,由于存在各种各样复杂的FTL(SSD闪存控制固件)内部操作以及各种涉及SSD可靠性的算法,通过访问SMART直接得到的数据往往并不准确,且单一的静态公式也无法准确地反应设备使用过程中的动态特征,直接使用单一的静态公式就难以精准预测出SSD寿命。另外,循环读写次数、写放大系数等数据均为短时间周期的监测数据,目前预测方法大多都是基于该类型短周期的监测数据,然而,短时间周期的监测数据只能反映较短时间内SSD的健康状况,大多数的SSD故障可能并不会反映在短期的本地信息中,而是隐藏在长期的信息中,利用短期数据就无法直接有效诊断出大部分的SSD故障和错误。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现简单、成本低、预测效率以及精度高、灵活性强的基于多维度监测数据的SSD寿命预测方法、装置及介质。
为解决上述技术问题,本发明提出的技术方案为:
一种基于多维度监测数据的SSD寿命预测方法,步骤包括:
对SSD进行状态监控,获取多维度故障监测数据DL以及SSD在运行过程中监测到的无法纠正的错误计数值UCEr,所述多维度故障监测数据DL包括多种影响SSD寿命的故障参数的累计监测数据;
从获取的所述多维度故障监测数据DL中分别提取出关键数据形成多维度故障关键数据DJ;
将所述多维度故障监测数据DL、所述多维度故障关键数据DJ以及所述无法纠正的错误计数值UCEr输入至预先构建的寿命预测模型中对SSD进行寿命预测,得到寿命预测结果输出,所述寿命预测模型为SSD使用寿命与SSD监控数据中多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr之间的关系模型。
进一步的,所述多维度监测数据包括SMART系统监控到的写入错误、擦除错误、可更正错误、不可纠正的错误、循环冗余校验错误、性能抖动、设备故障中任意多种故障参数的监测数据,所述性能抖动的故障参数根据SSD发生性能异常的数量计算得到,所述设备故障的故障参数为导致工作负载停止的硬盘故障参数。
进一步的,从获取的所述多维度故障监测数据DL中通过多项式拟合的方式提取出关键数据形成多维度故障关键数据DJ,其中从t时刻第i种故障监测数据中提取出的关键数据的计算表达式为:
其中,为在t时刻第i种故障监测数据,w0~wt为权重系数。
进一步的,所述寿命预测模型为:
其中,St是标准化的剩余寿命,UCEr为用于反映无法纠正的错误数目的布尔值, 分别是t时刻第i种故障监测数据、提取出的关键数据,fLi、fJi分别是关于函数变量 的权重方程,wL、wJ是权重参数,S0为SSD最健康寿命值。
进一步的,还包括使用粒子群优化算法对所述寿命预测模型进行参数调优,步骤包括:
初始化粒子群及参数设置后进行循环迭代;
在每一轮迭代中,将寿命预测模型中需要调优的参数wi视作粒子群算法中的个体,首先计算当前个体的速度和方向:
其中,z、c1以及c2为权重参数,为个体i在第k次迭代之后的位置, 为个体i在第k次迭代之后的历史最优解,即在第k次迭代后,第i个粒子搜索得到的最优解,/>为群体在第k次迭代之后的历史最优解,即在第k次迭代后,整个粒子群体中的最优解;
使用当前个体的速度和方向决定第k+1次迭代之后个体的路径,并求得在第k+1次迭代之后的最优解/>当满足迭代条件时输出参数wi的最优解。
进一步的,个体i在第k次迭代之后的历史最优解群体在第k次迭代之后的历史最优解/>的计算方式分别为:
进一步的,还包括将寿命预测结果转换为所需数据格式后进行可视化显示,当寿命预测结果低于预设值时发出预警信息。
一种基于多维度监测数据的SSD寿命预测装置,包括:
状态监控模块,用于对SSD进行状态监控,获取多维度故障监测数据DL以及无法纠正的错误计数值UCEr,所述多维度故障监测数据DL包括多种影响SSD寿命的故障参数的监测数据;
关键数据提取模块,用于从获取的所述多维度故障监测数据DL中分别提取出关键数据形成多维度故障关键数据DJ;
寿命预测模块,用于将所述多维度故障监测数据DL、所述多维度故障关键数据DJ以及所述无法纠正的错误计数值UCEr输入至预先构建的寿命预测模型中对SSD进行寿命预测,得到寿命预测结果输出,所述寿命预测模型为SSD使用寿命与SSD监控数据中多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr之间的关系模型。
一种电子设备,包括处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序以执行如上述方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现如上述方法。
与现有技术相比,本发明的优点在于:本发明通过由多维度故障监测数据、关键数据以及错误计数值共同作为预测数据输入至寿命预测模型中,比直接获取的SMART数据更准确、可靠,结合长周期累计的监测数据与关键数据的组合方式,还能够避免短周期参数在一个SSD整个生命周期中可能会有很大变化的情况,能更全面、准确地反应设备使用过程中的动态特征,还能够避免SSD生命周期不同的阶段对SSD产生不同程度的磨损效果,从而能够更准确地预测SSD寿命。同时,所采用的寿命预测模型是综合多维度故障监测数据、关键数据以及无法纠正的错误计数值确定预测寿命,能够充分融合长时间周期内多维度SSD故障运行信息动态预测出SSD的剩余寿命,可以避免如传统静态公式方式需要计算内部闪存单元的平均擦写周期,还可以避免其他因素及其相关性对于SSD寿命的影响,实现快速、精准的SSD寿命预测。
附图说明
图1是本实施例基于多维度监测数据的SSD寿命预测方法的实现流程示意图。
图2是本实施例实现SSD寿命预测的原理示意图。
图3是本实施例中使用粒子群算法进行参数调优的实现流程示意图。
图4是本发明具体应用实施例中SSD寿命可视化管理界面的效果示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
现有技术中通常是利用状态记录软件SMART获取的循环读写次数、写放大系数等数据,基于计算SSD内部闪存单元的平均擦写周期采用如下的静态公式预测出寿命(以年为单位):
其中,SSD的“循环读写次数”来自硬盘中的状态记录软件,“每天写入文件大小”是一个根据用户日常读写数据量估算的值,“写放大系数”是由SSD特性造成的一个特殊参数,主要由块页机制、垃圾回收、磨损均衡等原因造成,不同SSD的写放大系数也不相同。
按照上述静态公式预测出SSD寿命,一方面SMART获取数据可靠性不高,且循环读写次数、写放大系数等短周期数据只能反映较短时间内SSD的健康状况,不能有效反映SSD的故障和错误,影响预测精度,另一方面上述静态公式无法准确地反应设备使用过程中的动态特征,例如,“每天写入文件大小”在一个SSD整个生命周期中可能会有很大变化。即使某个SSD中有两笔写入数据操作的规格相当,也不能推测它们具有一致的磨损效果。换言之,两项操作发生在生命周期不同的阶段,有可能对SSD产生不同程度的磨损效果。实际中按照上述静态公式预测出的寿命值精度不高,往往会过早地判定设备寿命终止需要报废,导致浪费超过44%的实际使用寿命。
本发明通过获取长时间周期的多维度故障监测数据DL以及无法纠正的错误计数值UCEr,进而利用多维度故障监测数据DL提取出关键数据DJ,由多维度故障监测数据DL、关键数据DJ以及错误计数值UCEr共同作为预测数据输入至寿命预测模型中,比直接获取的SMART数据更准确、可靠,错误计数值UCEr可以有效反映设备故障是否即将到来,结合长周期累计的监测数据与关键数据的组合方式,还能够避免如“每天写入文件大小”等短周期参数在一个SSD整个生命周期中可能会有很大变化的情况,能更全面、准确地反应设备使用过程中的动态特征,还能够避免SSD生命周期不同的阶段对SSD产生不同程度的磨损效果,从而能够更准确地预测SSD寿命。同时,所采用的寿命预测模型是综合多维度故障监测数据DL、关键数据DJ以及无法纠正的错误计数值UCEr动态得到预测寿命,能够充分融合长时间周期内多维度SSD故障运行信息动态预测出SSD的剩余寿命,避免如传统静态公式方式需要计算内部闪存单元的平均擦写周期,还可以避免其他因素及其相关性对于SSD寿命的影响,实现快速、精准的SSD寿命预测。
如图1、2所示,本实施例基于多维度监测数据的SSD寿命预测方法的步骤包括:
步骤S1:对SSD进行状态监控,获取多维度故障监测数据DL以及SSD在运行过程中监测到的无法纠正的错误计数值UCEr,多维度故障监测数据DL包括多种影响SSD寿命的长周期故障参数的累计监测数据;
步骤S2:从获取的多维度故障监测数据DL中分别提取出关键数据形成多维度故障关键数据DJ;
步骤S3:将多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr输入至预先构建的寿命预测模型中对SSD进行寿命预测,得到寿命预测结果输出,寿命预测模型为SSD使用寿命与SSD监控数据中多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr之间的关系模型。
本实施例通过将多种维度的SSD监测数据相结合,在从SMART监控系统中直接获取的多种长周期监控数据DL基础上,同时对监控数据DL进行数据计算、分析提取出关键数据形成多维度故障关键数据DJ,结合多维度的监控数据DL、故障关键数据DJ以及无法纠正的错误计数值UCEr来共同动态预测剩余寿命,能更全面、更准确地预测SSD剩余寿命,解决传统SSD剩余寿命估计所存在的准确性与可靠性不高等问题。
本实施例中,在持续部署工作负载期间,使用SMART系统对闪存状态进行监控,此外,还会监控SSD在读写时发现的性能异常问题。SMART系统总共会汇报近一百个相关属性,但是大部分参数都是短时间周期内的监测数据。在本实施例中具体监控与SSD稳定性最为相关的7种监测时长超过预设阈值的长周期参数:写入错误(PEr)、擦除错误(EEr)、可更正错误(CEr)、不可纠正的错误(UCEr)、循环冗余校验错误(CRC)、性能抖动(Jitter)、设备故障。上述各参数具体如下:
1、写入错误(PEr):SMART包含的一个计数器中记录有上线以来SSD写入某一个闪存页面失败的次数,通过监控该次数得到写入错误故障参数。写入错误通常能够被SSD主动修复,修复的方式是通过淘汰问题页,并启用一个新的页来存放待写入的内容。
2、擦除错误(EEr):SMART包含的一个计数中记录有上线以来,SSD擦除某一个块时失败的次数,通过监控该次数得到擦除错误故障参数。类似于写入错误,出现错误时SSD会主动进行纠正,纠正的方法是通过淘汰掉问题块并启用一个新块。
3、可更正的错误(CEr):SMART的一个计数器中记录有上线以来SSD总共修复了多少个读错误,通过监控该修复的错误即得到可更正的错误故障参数。
4、不可纠正的错误(UCEr):SMART的一个计数器中记录有上线以来SSD总共修复了多少个不可纠正的读错误,通过监控该不可就在的错误即得到不可纠正的错误故障参数。
5、循环冗余校验错误(CRC):SMART的一个计数器中记录有上线以来SSD总共经受了多少次主机与设备之间的传输失败,通过监控该传输失败次数即得到循环冗余校验错误故障参数。
6、性能抖动(Jitter):监控软件通过监测操作系统的性能指标,包含SSD所经历的所有性能异常(包括低吞吐、高延迟)的数量,通过监控该性能异常的数量即得到性能抖动故障参数。
7、设备故障:为导致工作负载停止的硬盘故障,具体涉及到只读(RO),SSD无法访问(DNF)和数据损坏(DC)三种类型。通过监控该硬盘故障即得到设备故障参数。
本实施例中多维度监测数据具体包括写入错误、擦除错误、可更正错误、不可纠正的错误、循环冗余校验错误、性能抖动、设备故障7种故障监测数据。可以理解是,当然也可以根据实际需求选取其中多种参数的组合,或者引入其他更多类型的故障监测数据。
以上7种错误数据记录的是累计数值,只能反映从SSD上线到当前时间的累积量,能很好地反映SSD的稳定性,但是并不能反映状态的变化趋势、期望最大值等信息,因而直接使用这些数值并不能准确地预测SSD寿命。本实施例从SMART监控系统获取大量的SSD监控数据之后,进一步去除冗余无关的数据并提取关键的数据,即提取的错误数据包含两个部分,分别是故障监测累计数据(DL)以及提取出的关键数据(DJ)。DL为上述7种从SMART监控系统中直接获取的故障监测数据,DJ为通过对DL进行数据计算、分析提取到的关键数据,通过将故障监测累计数据(DL)以及关键数据(DJ)组合共同描述SSD在长期运行过程的状态以及变化趋势等,从而更为全面、准确的反映SSD的剩余寿命状态。
本实施例中,关键数据DJ是通过采用多项式拟合的方式从多维度故障监控数据DL中提取出的,通过多项式拟合的方式可以有效获取到监控数据的变化趋势,从而获取SSD在运行过程中故障状态的变化趋势,还可以方便的求得在下一时刻监控数据的拟合值,利用该拟合值可以方便的计算SSD预测寿命,同时提高预测寿命的精度。例如,假设当前提取数据的时间为t,对于某一时刻直接获取的一种故障监控数据通过二项式拟合得到的关键数据为/>计算公式为:
对于每一种监控数据均可以通过上述二项式拟合求得对应的/>通过二项式拟合可以求得某种监控数据的变化趋势,并求得在t时刻该监控数据的拟合值,将拟合预测值与获取的故障监控数据相结合输入至寿命预测模型中,即可以快速、精确地计算SSD寿命。
可以理解的是,除采用二项式拟合方式以外,当然也可以根据实际需求采用其他类型的多项式拟合方式进行关键数据提取,甚至还可以采用除多项式拟合方式以外的方式提取关键数据,例如最小二乘法等等。
本实施例进一步对上述7种监控数据进行重要性判断,结果如表1所示。当无法纠正的错误计数(UCEr)非零时,总可以观察到随之而来的设备故障。因此,UCEr数据的重要性极高,可以预示着即将到来的设备故障。进一步还可以配置一旦UCEr发生,直接生成设备将要出现故障的警告。
表1:监控数据的重要性
数据 | 重要性 |
UCEr | 高 |
PEr突发式增长量 | 中 |
EEr突发式增长量 | 中 |
CEr突发式增长量 | 中 |
磨损情况 | 中 |
CRC | 低 |
性能抖动 | 低 |
根据上述重要性依据,本实施例构建如下公式的寿命预测模型以预测在t时刻SSD的寿命:
其中,St是标准化的剩余寿命,从最健康的S0不断减少到0(即将发生设备故障),负值意味着即将发生的设备故障,S0为SSD最健康寿命值。分别是t时刻第i种故障监测数据、提取出的关键数据,fLi、fJi分别是关于函数变量/>的权重方程,wL、wJ是权重参数,例如可以取100。UCEr是一个布尔值,用于反映无法纠正的错误数目。
利用上述寿命预测模型,如果监测到多维度故障监测数据DL以及关键数据越高则相应的寿命值越低,单次出现不可纠正的错误也将直接减少St,可以综合SSD运行过程中多维度的长周期故障数据准确的描述SSD的故障状态,且使用加权的方式,能够灵活的使重要的数据占比权重更大,提升SSD寿命预测的准确度。
本实施例中权重fLi、fJi设置为一元二次函数,形如f=a*x2+b*x+c。因此在如公式(1)、(2)所述的寿命预测模型中,存在t+8个超参数。为进一步提高预测模型的精度,本实施例进一步使用粒子群优化算法对各超参数进行参数调优,如图3所示,步骤包括:
初始化粒子群及参数设置后进行循环迭代;
在每一轮迭代中,将需要调优的参数wi视作粒子群算法中的个体,首先计算该个体的速度和方向:
其中,z、c1以及c2为权重参数,为个体i在第k次迭代之后的位置,计算方式如下:
为个体i在第k次迭代之后的历史最优解,即在第k次迭代后,第i个粒子搜索得到的最优解,/>为群体在第k次迭代之后的历史最优解,即在第k次迭代后,整个粒子群体中的最优解;
使用的速度和方向决定第k+1次迭代之后个体的路径,并求得/>迭
代条件满足时输出wi的最优解。
上述的具体计算方式为:
利用输出wi的最优解,即可以对公式(1)、(2)进行计算,进一步提高预测的精度与可靠性。
本实施例中,还包括将寿命预测结果转换为所需数据格式(例如百分比、数值等)后进行可视化显示,当寿命预测结果低于预设值时发出预警信息。例如,经过上述预测得到的St得到100-0的标准化的剩余寿命值,然后通过换算,可以将该数据制作成可视化的寿命管理信息,例如当前SSD还剩1年5个月的寿命,或者200个小时的寿命。如图4所示,在具体应用实施例中还可以将SSD的寿命制作成进度条形式,方便用户以及运维人员检查、维修。当剩余寿命为0或者负数时,及时提醒更换相应的SSD,可以在很大程度上提高高性能计算机系统的可靠性。
对于每块SSD都可以通过监控数据,并根据上述方式计算出当前时刻t的剩余寿命,即先对SSD进行状态监控,获取多维度的故障监测数据;根据SSD实际使用情况,去除冗余无关数据后提取出关键数据,再基于多维度的监测数据、关键数据以及无法纠正的错误计数,依据上述寿命预测模型对SSD进行寿命预测,最后基于预测数据对SSD的寿命进行可视化管理。
本实施例通过提取长时间周期数据,可以避免计算内部闪存单元的平均擦写周期,得到比直接从SMART获取数据更为准确的数据,对SSD寿命进行更精确地仿真,避免其他因素及其相关性对于SSD寿命的影响,使SMART获取的数据准确性提高;同时通过采取监控数据与对监控数据进行分析提取出关键数据的组合,能够避免“每天写入文件大小”等短周期数据在一个SSD整个生命周期中可能会有很大变化的情况,能更准确地反应设备使用过程中的动态特征,还能够避免SSD生命周期不同的阶段对SSD产生不同程度的磨损效果,基于长周期的监测数据与能够反映变化趋势等的关键数据分析能够更准确地预测SSD寿命,有效提升SSD寿命预测的准确度。
本实施例还提供基于多维度监测数据的SSD寿命预测装置包括:
状态监控模块,用于对SSD进行状态监控,获取多维度故障监测数据DL以及无法纠正的错误计数值UCEr,多维度故障监测数据DL包括多种影响SSD寿命的故障参数的监测数据;
关键数据提取模块,用于从获取的多维度故障监测数据DL中分别提取出关键数据形成多维度故障关键数据DJ;
寿命预测模块,用于将多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr输入至预先构建的寿命预测模型中对SSD进行寿命预测,得到寿命预测结果输出,寿命预测模型为SSD使用寿命与SSD监控数据中多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr之间的关系模型。
本实施例基于多维度监测数据的SSD寿命预测装置与上述基于多维度监测数据的SSD寿命预测方法为一一对应,在此不再一一赘述。
本实施例进一步提供计算机装置,包括处理器以及存储器,存储器用于存储计算机程序,处理器用于执行计算机程序以执行如上述方法。
可以理解的是,本实施例上述方法可以由单个设备执行,例如一台计算机或服务器等,也可以应用于分布式场景下由多台设备相互配合来完成,在分布式场景的情况下,多台设备中的一台设备可以只执行本实施例上述方法中的某一个或多个步骤,多台设备之间进行交互以完成上述方法。处理器可以采用通用的CPU、微处理器、应用专用集成电路、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本实施例上述方法。存储器可以采用只读存储器ROM、随机存取存储器RAM、静态存储设备以及动态存储设备等形式实现。存储器可以存储操作系统和其他应用程序,在通过软件或者固件来实现本实施例上述方法时,相关的程序代码保存在存储器中,并由处理器来调用执行。
本实施例进一步提供存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现如上述方法。
本领域内的技术人员应明白,本申请的上述实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。
Claims (10)
1.一种基于多维度监测数据的SSD寿命预测方法,其特征在于,步骤包括:
对SSD进行状态监控,获取多维度故障监测数据DL以及SSD在运行过程中监测到的无法纠正的错误计数值UCEr,所述多维度故障监测数据DL包括多种影响SSD寿命的长周期故障参数的累计监测数据;
从获取的所述多维度故障监测数据DL中分别提取出关键数据形成多维度故障关键数据DJ;
将所述多维度故障监测数据DL、所述多维度故障关键数据DJ以及所述无法纠正的错误计数值UCEr输入至预先构建的寿命预测模型中对SSD进行寿命预测,得到寿命预测结果输出,所述寿命预测模型为SSD使用寿命与SSD监控数据中多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr之间的关系模型。
2.根据权利要求1所述的基于多维度监测数据的SSD寿命预测方法,其特征在于,所述多维度监测数据包括SMART系统监控到的写入错误、擦除错误、可更正错误、不可纠正的错误、循环冗余校验错误、性能抖动、设备故障中任意多种长周期故障参数的监测数据,所述性能抖动的故障参数根据SSD发生性能异常的数量计算得到,所述设备故障的故障参数为导致工作负载停止的硬盘故障参数。
3.根据权利要求1所述的基于多维度监测数据的SSD寿命预测方法,其特征在于,从获取的所述多维度故障监测数据DL中通过多项式拟合的方式提取出关键数据形成多维度故障关键数据DJ,其中从t时刻第i种故障监测数据中提取出的关键数据的计算表达式为:
其中,为在t时刻第i种故障监测数据,w0~wt为权重系数。
4.根据权利要求1所述的基于多维度监测数据的SSD寿命预测方法,其特征在于,所述寿命预测模型为:
其中,St是标准化的剩余寿命,UCEr为用于反映无法纠正的错误数目的布尔值, 分别是t时刻第i种故障监测数据、提取出的关键数据,fLi、fJi分别是关于函数变量/> 的权重方程,wL、wJ是权重参数,S0为SSD最健康寿命值。
5.根据权利要求4所述的基于多维度监测数据的SSD寿命预测方法,其特征在于,还包括使用粒子群优化算法对所述寿命预测模型进行参数调优,步骤包括:
初始化粒子群及参数设置后进行循环迭代;
在每一轮迭代中,将寿命预测模型中需要调优的参数wi视作粒子群算法中的个体,首先计算当前个体的速度和方向:
其中,z、c1以及c2为权重参数,为个体i在第k次迭代之后的位置,/> 为个体i在第k次迭代之后的历史最优解,即在第k次迭代后,第i个粒子搜索得到的最优解,/>为群体在第k次迭代之后的历史最优解,即在第k次迭代后,整个粒子群体中的最优解;
使用当前个体的速度和方向决定第k+1次迭代之后个体的路径,并求得在第k+1次迭代之后的最优解/>当满足迭代条件时输出参数wi的最优解。
6.根据权利要求5所述的基于多维度监测数据的SSD寿命预测方法,其特征在于,个体i在第k次迭代之后的历史最优解群体在第k次迭代之后的历史最优解/>的计算方式分别为:
7.根据权利要求1~6中任意一项所述的基于多维度监测数据的SSD寿命预测方法,其特征在于,还包括将寿命预测结果转换为所需数据格式后进行可视化显示,当寿命预测结果低于预设值时发出预警信息。
8.一种基于多维度监测数据的SSD寿命预测装置,其特征在于,包括:
状态监控模块,用于对SSD进行状态监控,获取多维度故障监测数据DL以及无法纠正的错误计数值UCEr,所述多维度故障监测数据DL包括多种影响SSD寿命的故障参数的监测数据;
关键数据提取模块,用于从获取的所述多维度故障监测数据DL中分别提取出关键数据形成多维度故障关键数据DJ;
寿命预测模块,用于将所述多维度故障监测数据DL、所述多维度故障关键数据DJ以及所述无法纠正的错误计数值UCEr输入至预先构建的寿命预测模型中对SSD进行寿命预测,得到寿命预测结果输出,所述寿命预测模型为SSD使用寿命与SSD监控数据中多维度故障监测数据DL、多维度故障关键数据DJ以及无法纠正的错误计数值UCEr之间的关系模型。
9.一种电子设备,包括处理器以及存储器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于执行所述计算机程序以执行如权利要求1~8中任意一项所述方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~8中任意一项所述的方法。
Publications (1)
Publication Number | Publication Date |
---|---|
CN118245297A true CN118245297A (zh) | 2024-06-25 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10147048B2 (en) | Storage device lifetime monitoring system and storage device lifetime monitoring method thereof | |
US20170131948A1 (en) | Visualization of usage impacts on solid state drive life acceleration | |
Schroeder et al. | Reliability of NAND-based SSDs: What field studies tell us | |
Ganguly et al. | A practical approach to hard disk failure prediction in cloud platforms: Big data model for failure management in datacenters | |
JP2022508320A (ja) | ハードディスク故障発生時期の予測方法、装置及び記憶媒体 | |
US20190138415A1 (en) | Method and system for diagnosing remaining lifetime of storages in data center | |
US11429497B2 (en) | Predicting and handling of slow disk | |
EP2026184A1 (en) | Device, method, and program for selecting data storage destination from a plurality of tape recording devices | |
CN111966569A (zh) | 硬盘健康度评估方法和装置、计算机可读存储介质 | |
CN105893168A (zh) | 硬盘健康状况分析方法和装置 | |
US11449376B2 (en) | Method of determining potential anomaly of memory device | |
EP4078380A1 (en) | Behavior-driven die management on solid-state drives | |
US20210225405A1 (en) | Hard disk drive lifetime forecasting | |
CN114758714A (zh) | 一种硬盘故障预测方法、装置、电子设备及存储介质 | |
CN115168168A (zh) | 一种服务器故障预测方法、系统、设备及介质 | |
CN112005223A (zh) | 设备状态评估 | |
Pinciroli et al. | The life and death of SSDs and HDDs: Similarities, differences, and prediction models | |
US10776240B2 (en) | Non-intrusive performance monitor and service engine | |
CN118245297A (zh) | 基于多维度监测数据的ssd寿命预测方法、装置及介质 | |
US20210117125A1 (en) | Server system with solid state drives and associated control method | |
Li et al. | Reliability characterization and failure prediction of 3D TLC SSDs in large-scale storage systems | |
US20230325092A1 (en) | Data Automation and Predictive Modeling for Planning and Procuring Solid State Drive Replacments | |
JP7273669B2 (ja) | ストレージシステム及びその制御方法 | |
JP2014052827A (ja) | 情報処理装置及び情報処理方法 | |
Oakley et al. | Examining the impact of critical attributes on hard drive failure times: Multi‐state models for left‐truncated and right‐censored semi‐competing risks data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |