CN111309502A - 固态硬盘寿命预测方法 - Google Patents
固态硬盘寿命预测方法 Download PDFInfo
- Publication number
- CN111309502A CN111309502A CN202010094520.9A CN202010094520A CN111309502A CN 111309502 A CN111309502 A CN 111309502A CN 202010094520 A CN202010094520 A CN 202010094520A CN 111309502 A CN111309502 A CN 111309502A
- Authority
- CN
- China
- Prior art keywords
- hard disk
- data
- model
- result
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000007787 solid Substances 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3037—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
Abstract
本发明公开了固态硬盘寿命预测方法,包括如下步骤:步骤一、收集数据训练模型。步骤二、验证调试修正所述步骤一中的模型,得到训练后的模型,并得出阈值。步骤三、将待预测硬盘中的数据输入所述步骤二中的训练后的模型中,得出结果;如果所述结果大于所述步骤二中的阈值,则判断该硬盘有问题,发出告警,更新硬盘最新信息;如果所述结果小于所述步骤二中的阈值,则判断该硬盘没有问题,更新硬盘数据。本发明根据用户实际资源使用情况更智能准确的提供预测硬盘使用寿命,且算法简捷灵活,可快速扩展以适应更多资源使用情况。
Description
【技术领域】
本发明属于存储系统技术领域,尤其涉及固态硬盘寿命预测方法。
【背景技术】
大型分布式存储系统中,使用硬盘的品类较多,质量差距较大,且在实际使用过程中每块盘的使用方式不尽相同,因此很容易出现部分盘坏掉导致数据丢失,如果给出一种硬盘寿命预估技术,这样就可以给客户提供了一种防患于未然的技术保障,现有的方案都是根据硬盘设备内嵌的S.M.A.R.T(Self-Monitoring,Analysis and ReportingTechnology)技术,所提供的故障预测准确率仅在30%左右,无法给出明确的预警指示,S.M.A.R.T预测失效的主要原因在于,这个技术框架开始于二十多年前,过于简单,仅基于内部统计数据进行简单地线性静态分析,在负载模式千变万化的实际应用中,完全不具备调整适应能力,精确度大打折扣,不足以给用户提供准确的预测提示,也可能会给用户造成干扰,甚至带来一些经济损失。
【发明内容】
本发明的目的是提供固态硬盘寿命预测方法,根据用户实际资源使用情况更智能准确的提供预测硬盘使用寿命,且算法简捷灵活,可快速扩展以适应更多资源使用情况。
本发明采用以下技术方案:固态硬盘寿命预测方法,该方法包括如下步骤:
步骤一、收集数据训练模型。
步骤二、验证调试修正所述步骤一中的模型,得到训练后的模型,并得出阈值。
步骤三、将待预测硬盘中的数据输入所述步骤二中的训练后的模型中,得出结果;如果所述结果大于所述步骤二中的阈值,则判断该硬盘有问题,发出告警,更新硬盘最新信息;如果所述结果小于所述步骤二中的阈值,则判断该硬盘没有问题,更新硬盘数据。
进一步地,该步骤二的具体过程为:
2.1收集大量正常的硬盘和多个有问题的硬盘作为样本数据;
2.2将所述样本数据导入所述步骤一中的训练后的模型中;
2.3获取模型估算出的结果,对比当前已知的坏硬盘占有率;
2.4如果结果与已知的坏盘占有率误差大于百分之五,对比正常的硬盘和有问题的硬盘的影响因素数据指标,找出哪些因素指标影响比较大,修正模型中各个因素权重值;
2.5直至模型估算值与真实值误差在百分之五的范围内,停止修正训练;
2.6得出阈值,作为判定硬盘是否出现问题的标准。
进一步地,该步骤三的具体过程为:
3.1获取当前系统时间;
3.2判断检测周期是否来临;
3.3如果是,则采集当前系统中的各个硬盘数据;
3.4如果否,跳出等待下次触发访问;
3.5将获取到的数据整理;
3.6将整理好的数据导入模型中,得结果;
3.7如果所述结果大于所述步骤二中的阈值,则判断该硬盘有问题,发出告警,更新硬盘最新信息;
3.8如果上述结果小于所述步骤二中的阈值,则判断该硬盘没有问题,更新硬盘数据。
进一步地,影响因素如下:
y1=x1*Wa1+x2*Wa2+x3*Wa3+……x10*Wa10;
y2=x1*Wb1+x2*Wb2+x3*Wb3+……x10*Wb10;
y3=x1*Wc1+x2*Wc2+x3*Wc3+……x10*Wc10;
y4=x1*Wd1+x2*Wd2+x3*Wd3+……x10*Wd10;
Z=y1*w1+y2*w2+y3*w3+y4*w4;
其中:
y1为影响IOPS的权重之和;
y2为影响坏块数的权重之和;
y3为影响读写速度的权重之和;
y4为影响P/E次数的权重之和;
P/E次数为硬盘擦写次数;
x1......x10为各个因素指标的值;
Wa1.....Wa10,Wb1.....Wb10,Wc1.....Wc10,Wd1.....Wd10为各个因素的权重;
Z为权重之和,即阈值。
本发明的有益效果是:综合了机器学习在工业中使用的优点,根据用户实际资源使用情况的根据历史数据生成预测寿命模型,更准确的提供硬盘寿命预测;使用户对其硬盘资源使用情况有及时,清晰的认识,避免发生数据丢失等严重的问题。此外,本发明算法简洁高效且易于扩展,当用户需要考虑更多资源影响,如引入硬盘利用率等变量,本发明算法只需在公式中引入新的变量即可。
【附图说明】
图1为收集数据训练模型图。
图2为验证调试修正流程图。
图3为系统应用模型流程图。
【具体实施方式】
下面结合附图和具体实施方式对本发明进行详细说明。
本发明实施例公开了固态硬盘寿命预测方法,包括如下步骤:
步骤一、收集数据训练模型,如图1所示。收集各种集群场景各种硬盘的历史数据,包括温度,湿度,系统内存和CPU,网络带宽,硬盘通电时长,异常掉电次数,当前写入量,io大小,写入放大,IOPS,坏块数,读写速度,P/E次数,整理好这些收集的数据,导入设置的模型中,粗略估算出当前模型中各种指标,先搭建成一个简易的模型。
步骤二、验证调试修正上述步骤一中的模型,得到训练后的模型,并得出阈值。如图2所示,具体为:
2.1收集大量正常的硬盘和多个有问题的硬盘作为样本数据;
2.2将所述样本数据导入所述步骤一中的训练后的模型中;
2.3获取模型估算出的结果,对比当前已知的坏硬盘占有率;
2.4如果结果与已知的坏盘占有率误差大于百分之五,对比正常的硬盘和有问题的硬盘的影响因素数据指标,找出哪些因素指标影响比较大,修正模型中各个因素权重值;
2.5直至模型估算值与真实值误差在百分之五的范围内,停止修正训练;
2.6得出阈值,作为判定硬盘是否出现问题的标准。
前提:后台是一个守护进程来检测硬盘寿命,每周检测一次。如图3所示,将待预测硬盘中的数据输入所述步骤二中的训练模型中,得出结果。具体过程为:
3.1获取当前系统时间;
3.2判断检测周期是否来临;
3.3如果是,则采集当前系统中的各个硬盘数据;
3.4如果否,跳出等待下次触发访问;
3.5将获取到的数据整理;
3.6将整理好的数据导入模型中,得结果;
3.7如果所述结果大于所述步骤二中的阈值,则判断该硬盘有问题,发出告警,更新硬盘最新信息;
3.8如果所述结果小于所述步骤二中的阈值,则判断该硬盘没有问题,更新硬盘数据。
上述影响因素如下:
y1=x1*Wa1+x2*Wa2+x3*Wa3+……x10*Wa10;
y2=x1*Wb1+x2*Wb2+x3*Wb3+……x10*Wb10;
y3=x1*Wc1+x2*Wc2+x3*Wc3+……x10*Wc10;
y4=x1*Wd1+x2*Wd2+x3*Wd3+……x10*Wd10;
Z=y1*w1+y2*w2+y3*w3+y4*w4;
其中:
y1为影响IOPS的权重之和;
y2为影响坏块数的权重之和;
y3为影响读写速度的权重之和;
y4为影响P/E次数的权重之和;
P/E次数为硬盘擦写次数;
x1......x10为各个因素指标的值;
Wa1.....Wa10,Wb1.....Wb10,Wc1.....Wc10,Wd1.....Wd10为各个因素的权重;
Z为权重之和,即阈值。
本发明中,综合了各种影响硬盘性能业务的指标进行分析,不仅仅是硬盘自身的S.M.A.R.T指标信息;通过采集各个厂商硬盘所使用环境下的数据,包括室内温度,湿度,系统cpu和内存使用率,网络带宽,IO,硬盘自身的温度,通电时长,异常掉电次数,坏块数,磨损度,写入量这些数据,通过获取更多维度的数据训练模型,将能得到一个对硬盘寿命更加准确预测,从而避免寿命预测的偏差。
Claims (4)
1.固态硬盘寿命预测方法,其特征在于,该方法包括如下步骤:
步骤一、收集数据训练模型;
步骤二、验证调试修正所述步骤一中的模型,得到训练后的模型,并得出阈值;
步骤三、将待预测硬盘中的数据输入所述步骤二中的训练后的模型中,得出结果;如果所述结果大于所述步骤二中的阈值,则判断该硬盘有问题,发出告警,更新硬盘最新信息;如果所述结果小于所述步骤二中的阈值,则判断该硬盘没有问题,更新硬盘数据。
2.根据权利要求1所述的固态硬盘寿命预测方法,其特征在于,所述步骤二的具体过程为:
2.1收集大量正常的硬盘和多个有问题的硬盘作为样本数据;
2.2将所述样本数据导入所述步骤一中的训练后的模型中;
2.3获取模型估算出的结果,对比当前已知的坏硬盘占有率;
2.4如果结果与已知的坏盘占有率误差大于百分之五,对比正常的硬盘和有问题的硬盘的影响因素数据指标,找出哪些因素指标影响比较大,修正模型中各个因素权重值;
2.5直至模型估算值与真实值误差在百分之五的范围内,停止修正训练;
2.6得出阈值,作为判定硬盘是否出现问题的标准。
3.根据权利要求1或2所述的固态硬盘寿命预测方法,其特征在于,所述步骤三的具体过程为:
3.1获取当前系统时间;
3.2判断检测周期是否来临;
3.3如果是,则采集当前系统中的各个硬盘数据;
3.4如果否,跳出等待下次触发访问;
3.5将获取到的数据整理;
3.6将整理好的数据导入模型中,得结果;
3.7如果所述结果大于所述步骤二中的阈值,则判断该硬盘有问题,发出告警,更新硬盘最新信息;
3.8如果所述结果小于所述步骤二中的阈值,则判断该硬盘没有问题,更新硬盘数据。
4.根据权利要求1或2所述的固态硬盘寿命预测方法,其特征在于,所述影响因素如下:
y1=x1*Wa1+x2*Wa2+x3*Wa3+……x10*Wa10;
y2=x1*Wb1+x2*Wb2+x3*Wb3+……x10*Wb10;
y3=x1*Wc1+x2*Wc2+x3*Wc3+……x10*Wc10;
y4=x1*Wd1+x2*Wd2+x3*Wd3+……x10*Wd10;
Z=y1*w1+y2*w2+y3*w3+y4*w4;
其中:
y1为影响IOPS的权重之和;
y2为影响坏块数的权重之和;
y3为影响读写速度的权重之和;
y4为影响P/E次数的权重之和;
P/E次数为硬盘擦写次数;
x1......x10为各个因素指标的值;
Wa1.....Wa10,Wb1.....Wb10,Wc1.....Wc10,Wd1.....Wd10为各个因素的权重;
Z为权重之和,即阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094520.9A CN111309502A (zh) | 2020-02-16 | 2020-02-16 | 固态硬盘寿命预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094520.9A CN111309502A (zh) | 2020-02-16 | 2020-02-16 | 固态硬盘寿命预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111309502A true CN111309502A (zh) | 2020-06-19 |
Family
ID=71145040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010094520.9A Pending CN111309502A (zh) | 2020-02-16 | 2020-02-16 | 固态硬盘寿命预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309502A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506749A (zh) * | 2020-12-04 | 2021-03-16 | 苏州浪潮智能科技有限公司 | 一种硬盘报错信息的现场区分方法和系统 |
CN113361208A (zh) * | 2021-07-02 | 2021-09-07 | 中国科学院空间应用工程与技术中心 | 基于综合健康指标的固态硬盘剩余寿命评估方法 |
CN113553222A (zh) * | 2021-06-21 | 2021-10-26 | 长沙证通云计算有限公司 | 一种存储硬盘检测预警方法及系统 |
CN116701150A (zh) * | 2023-06-19 | 2023-09-05 | 深圳市银闪科技有限公司 | 一种基于物联网的存储数据安全监管系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629364A (zh) * | 2012-03-13 | 2012-08-08 | 凯里供电局 | 一种电力设备状态的量化评分方法 |
CN106951984A (zh) * | 2017-02-28 | 2017-07-14 | 深圳市华傲数据技术有限公司 | 一种系统健康度动态分析预测方法及装置 |
CN107391301A (zh) * | 2017-08-16 | 2017-11-24 | 北京奇虎科技有限公司 | 存储系统的数据管理方法、装置、计算设备及存储介质 |
CN110515752A (zh) * | 2019-08-23 | 2019-11-29 | 浪潮(北京)电子信息产业有限公司 | 一种磁盘设备寿命预测方法及装置 |
-
2020
- 2020-02-16 CN CN202010094520.9A patent/CN111309502A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629364A (zh) * | 2012-03-13 | 2012-08-08 | 凯里供电局 | 一种电力设备状态的量化评分方法 |
CN106951984A (zh) * | 2017-02-28 | 2017-07-14 | 深圳市华傲数据技术有限公司 | 一种系统健康度动态分析预测方法及装置 |
CN107391301A (zh) * | 2017-08-16 | 2017-11-24 | 北京奇虎科技有限公司 | 存储系统的数据管理方法、装置、计算设备及存储介质 |
CN110515752A (zh) * | 2019-08-23 | 2019-11-29 | 浪潮(北京)电子信息产业有限公司 | 一种磁盘设备寿命预测方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506749A (zh) * | 2020-12-04 | 2021-03-16 | 苏州浪潮智能科技有限公司 | 一种硬盘报错信息的现场区分方法和系统 |
CN112506749B (zh) * | 2020-12-04 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种硬盘报错信息的现场区分方法和系统 |
CN113553222A (zh) * | 2021-06-21 | 2021-10-26 | 长沙证通云计算有限公司 | 一种存储硬盘检测预警方法及系统 |
CN113553222B (zh) * | 2021-06-21 | 2022-05-13 | 长沙证通云计算有限公司 | 一种存储硬盘检测预警方法及系统 |
CN113361208A (zh) * | 2021-07-02 | 2021-09-07 | 中国科学院空间应用工程与技术中心 | 基于综合健康指标的固态硬盘剩余寿命评估方法 |
CN113361208B (zh) * | 2021-07-02 | 2023-07-18 | 中国科学院空间应用工程与技术中心 | 基于综合健康指标的固态硬盘剩余寿命评估方法 |
CN116701150A (zh) * | 2023-06-19 | 2023-09-05 | 深圳市银闪科技有限公司 | 一种基于物联网的存储数据安全监管系统及方法 |
CN116701150B (zh) * | 2023-06-19 | 2024-01-16 | 深圳市银闪科技有限公司 | 一种基于物联网的存储数据安全监管系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309502A (zh) | 固态硬盘寿命预测方法 | |
CN108052528B (zh) | 一种存储设备时序分类预警方法 | |
US9424157B2 (en) | Early detection of failing computers | |
US10534361B2 (en) | Industrial asset health model update | |
CN102576326B (zh) | 操作监测设备、操作监测方法和程序存储介质 | |
CN110413227B (zh) | 一种硬盘设备的剩余使用寿命在线预测方法和系统 | |
US8255522B2 (en) | Event detection from attributes read by entities | |
CN111459700A (zh) | 设备故障的诊断方法、诊断装置、诊断设备及存储介质 | |
JP2010526352A (ja) | 統計的な分析を利用した性能障害管理システム及びその方法 | |
CN105468510A (zh) | 对软件质量进行评估与追踪的方法和系统 | |
CN105893231A (zh) | 一种基于smart的预测硬盘亚健康指标的方法及装置 | |
CN112580961B (zh) | 基于电网信息系统运行风险预警方法及装置 | |
CN117035513A (zh) | 一种智慧工业园区能源运行智能监测管理系统及方法 | |
CN107451039B (zh) | 一种对集群中执行设备评价的方法和设备 | |
CN116682479A (zh) | 一种企业级固态硬盘时延指标的测试方法及测试系统 | |
CN110069379B (zh) | 监控指标的筛选方法及筛选装置 | |
CN111614504A (zh) | 基于时间序列和故障树分析的电网调控数据中心业务特性故障定位方法及系统 | |
CN114331688A (zh) | 一种银行柜面系统业务批量运行状态检测方法及装置 | |
CN113805564A (zh) | 一种基于cep的设备故障预警以及诊断系统 | |
CN115981911A (zh) | 内存故障的预测方法、电子设备和计算机可读存储介质 | |
CN117271247B (zh) | 一种ssd固态硬盘测试方法 | |
CN114090394B (zh) | 分布式服务器集群负载异常分析方法 | |
EP4227870A1 (en) | System and method for non-linear signal extraction and structural-drift detection | |
CN113138875B (zh) | 一种故障检测方法、终端以及计算机存储介质 | |
CN116431454B (zh) | 一种大数据的计算机性能控制系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |
|
RJ01 | Rejection of invention patent application after publication |