CN107392320A - 一种使用机器学习预测硬盘故障的方法 - Google Patents

一种使用机器学习预测硬盘故障的方法 Download PDF

Info

Publication number
CN107392320A
CN107392320A CN201710631428.XA CN201710631428A CN107392320A CN 107392320 A CN107392320 A CN 107392320A CN 201710631428 A CN201710631428 A CN 201710631428A CN 107392320 A CN107392320 A CN 107392320A
Authority
CN
China
Prior art keywords
hard disk
data
predicted
failure
smart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710631428.XA
Other languages
English (en)
Inventor
华飞君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710631428.XA priority Critical patent/CN107392320A/zh
Publication of CN107392320A publication Critical patent/CN107392320A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种使用机器学习预测硬盘故障的方法,属于云存储安全技术领域,本发明使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。

Description

一种使用机器学习预测硬盘故障的方法
技术领域
本发明涉及云存储安全技术,尤其涉及一种使用机器学习预测硬盘故障的方法。
背景技术
近年来,云计算技术得到迅猛发展,云计算的安全性和可靠性成为企业和个人关注的焦点。确保数据不丢失,必须首先关注云存储的安全。由于云存储中磁盘的数量规模是极其庞大的,云环境下硬盘是服务器硬件故障率最高的一个部件,如果能提前预测到硬盘故障,对业务体验、完善备件管理都有莫大的收益。自我监测、分析及报告技术(SMART)是ATA标准规定的各磁盘厂商必须遵循的标准条件之一。它通过监控磁盘运行时的电机、磁头、温度等状态信息,并与磁盘厂商设定的安全阈值相比较来判断磁盘的健康状况。
SMART是一种磁盘自我分析检测技术,早在90年代末就基本得到了普及;它是ATA标准规定的各磁盘厂商必须遵循的标准条件之一,也是磁盘厂商普遍采用的故障磁盘预测方法。
每一块硬盘(包括IDE、SCSI)在运行的时候,都会将自身的若干参数记录下来;这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏。此时硬盘依然在工作,如果用户不理睬这个报警继续使用那么硬盘将变得非常不可靠,随时可能故障。
由于S M A R T的阈值判定方法过于简单,在实际运行环境中故障磁盘的检测率通常为3-10%,故障磁盘检测率过低,实际预警效用不大。
通过计算smart数据的变化过滤出有价值的数据,删除海量冗余数据。另外Smart数据包含两百多个属性,但通过统计计算出其中只有12个属性和硬盘故障强相关。
不同的硬盘,由于受厂商,环境,负荷及累计在线时间等因素的影响,相同的属性的值在整个硬盘的寿命区间内可能会显得差异很大,所有的数据如果使用相同的参数进行归一化,会严重影响模型的预测性能。如果对不同的硬盘分别进行训练建模,一则过程复杂,二则会是训练数据大幅减少,导致欠拟合。
发明内容
为了解决以上技术问题,本发明提出了一种使用机器学习预测硬盘故障的方法。通过机器学习使用统计分析后生成的预测模型进行预测,则能将正确率提高到90%以上,极大地提高了预测率。
一种使用机器学习预测硬盘故障的方法,使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。
分别计算各个硬盘的属性值得统计特征,使用这些特征值,对不同的硬盘数据进行归一化预处理。基于归一化处理后的数据,使用随机森林算法进行训练,建立故障预测模型。实时监测硬盘的smart数据,根据属性值从历史数据中寻找出最匹配的硬盘,使用该硬盘各个属性的特征值,进行归一化处理。将归一化处理后的数据输入预测模型,预测硬盘健康状况。
随机森林实现过程
随机森林中的每一棵分类树为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对smart训练集进行划分;在二叉树中,根节点包含全部训练数据,按照节点纯度最小原则,分裂为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则节点继续分裂,直到满足分支停止规则而停止生长。若节点n上的分类数据全部来自于同一类别,则此节点的纯度为0。
假设P(Xj)是节点n上属于Xj 类样本个数占训练总数百分比,具体实现过程如下:
(1)原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个带外数据;
(2)设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量,然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;
(3)每棵树最大限度地生长, 不做任何修剪;
(4)将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
本发明的有益效果是
使用该技术可以提高硬盘故障正确率,帮组运维人员及时备份替换硬盘,避免数据丢失,服务器宕机,减少由此带来的经济损失。
附图说明
图1是本发明的工作原理示意图;
图2是本发明的实施流程图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种使用机器学习预测硬盘故障的方法,使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。
分别计算各个硬盘的属性值得统计特征,使用这些特征值,对不同的硬盘数据进行归一化预处理。基于归一化处理后的数据,使用随机森林算法进行训练,建立故障预测模型。实时监测硬盘的smart数据,根据属性值从历史数据中寻找出最匹配的硬盘,使用该硬盘各个属性的特征值,进行归一化处理;将归一化处理后的数据输入预测模型,预测硬盘健康状况。
将生成的预测模型数据和软件安装到服务器上,采集服务器上各个硬盘的smart数据,通过预测模型预测各个硬盘的健康状况。
本发明将传统的SMART技术和流行的机器学习的随机森林算法相结合,使用统计分析的方法进行硬盘故障预测,改良了传统的仅依靠阀值进行诊断的SMART技术。可将机器学习的方法用于其他硬件故障预测分析。

Claims (4)

1.一种使用机器学习预测硬盘故障的方法,其特征在于,
使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。
2.根据权利要求1所述的方法,其特征在于,
分别计算各个硬盘的属性值得统计特征,使用这些特征值,对不同的硬盘数据进行归一化预处理。
3.根据权利要求2所述的方法,其特征在于,
基于归一化处理后的数据,使用随机森林算法进行训练,建立故障预测模型;实时监测硬盘的smart数据,根据属性值从历史数据中寻找出最匹配的硬盘,使用该硬盘各个属性的特征值,进行归一化处理;将归一化处理后的数据输入预测模型,预测硬盘健康状况。
4.根据权利要求3所述的方法,其特征在于,
将生成的预测模型数据和软件安装到服务器上,采集服务器上各个硬盘的smart数据,通过预测模型预测各个硬盘的健康状况。
CN201710631428.XA 2017-07-28 2017-07-28 一种使用机器学习预测硬盘故障的方法 Pending CN107392320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710631428.XA CN107392320A (zh) 2017-07-28 2017-07-28 一种使用机器学习预测硬盘故障的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710631428.XA CN107392320A (zh) 2017-07-28 2017-07-28 一种使用机器学习预测硬盘故障的方法

Publications (1)

Publication Number Publication Date
CN107392320A true CN107392320A (zh) 2017-11-24

Family

ID=60341372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710631428.XA Pending CN107392320A (zh) 2017-07-28 2017-07-28 一种使用机器学习预测硬盘故障的方法

Country Status (1)

Country Link
CN (1) CN107392320A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153618A (zh) * 2017-12-22 2018-06-12 国网浙江杭州市萧山区供电有限公司 硬盘数据恢复方法、装置及硬盘数据恢复设备
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108446734A (zh) * 2018-03-20 2018-08-24 中科边缘智慧信息科技(苏州)有限公司 基于人工智能的磁盘故障自动预测方法
CN108647136A (zh) * 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN108710555A (zh) * 2018-05-23 2018-10-26 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法
CN108763002A (zh) * 2018-05-25 2018-11-06 郑州云海信息技术有限公司 基于机器学习预测cpu故障的方法及系统
CN108959004A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 磁盘故障预测方法、装置、设备及计算机可读存储介质
CN109032891A (zh) * 2018-07-23 2018-12-18 郑州云海信息技术有限公司 一种云计算服务器硬盘故障预测方法及装置
CN109344017A (zh) * 2018-09-06 2019-02-15 浪潮电子信息产业股份有限公司 一种基于机器学习预测内存故障的方法,设备及可读存储介质
CN109634790A (zh) * 2018-11-22 2019-04-16 华中科技大学 一种基于循环神经网络的磁盘故障预测方法
CN110175100A (zh) * 2019-04-17 2019-08-27 华中科技大学 一种存储盘故障预测方法及预测系统
WO2019169743A1 (zh) * 2018-03-09 2019-09-12 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN110399238A (zh) * 2019-06-27 2019-11-01 浪潮电子信息产业股份有限公司 一种磁盘故障预警方法、装置、设备及可读存储介质
CN110427311A (zh) * 2019-06-26 2019-11-08 华中科技大学 基于时序特征处理与模型优化的磁盘故障预测方法和系统
WO2020000404A1 (en) * 2018-06-29 2020-01-02 Microsoft Technology Licensing, Llc. Multi-factor cloud service storage device error prediction
CN111581072A (zh) * 2020-05-12 2020-08-25 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法
CN111611117A (zh) * 2020-05-22 2020-09-01 浪潮电子信息产业股份有限公司 硬盘故障的预测方法、装置、设备及计算机可读存储介质
CN111656446A (zh) * 2018-01-31 2020-09-11 惠普发展公司,有限责任合伙企业 硬盘驱动寿命预测
CN113986636A (zh) * 2021-11-01 2022-01-28 合肥城市云数据中心股份有限公司 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法
TWI794041B (zh) * 2022-03-09 2023-02-21 英業達股份有限公司 硬碟效能問題分類模型的建立方法、硬碟效能問題分析方法及硬碟效能問題分類模型建立系統

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993010494A1 (en) * 1991-11-19 1993-05-27 Compaq Computer Corporation Method for dynamically measuring computer disk error rates
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN104156562A (zh) * 2014-07-15 2014-11-19 清华大学 银行后台运维系统的故障预测方法及系统
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
US20160357651A1 (en) * 2015-06-02 2016-12-08 Aspeed Technology Inc. System on chip with debug controller and operating method thereof
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993010494A1 (en) * 1991-11-19 1993-05-27 Compaq Computer Corporation Method for dynamically measuring computer disk error rates
CN103197995A (zh) * 2012-01-04 2013-07-10 百度在线网络技术(北京)有限公司 硬盘故障检测方法及装置
CN104156562A (zh) * 2014-07-15 2014-11-19 清华大学 银行后台运维系统的故障预测方法及系统
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
US20160357651A1 (en) * 2015-06-02 2016-12-08 Aspeed Technology Inc. System on chip with debug controller and operating method thereof
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安洲: "基于随机森林的硬盘故障预测算法的研究", 《万方学位论文全文》 *
贾润莹 等: "基于Adaboost和遗传算法的硬盘故障预测模型优化及选择", 《计算机研究与发展》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153618A (zh) * 2017-12-22 2018-06-12 国网浙江杭州市萧山区供电有限公司 硬盘数据恢复方法、装置及硬盘数据恢复设备
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108304287B (zh) * 2018-01-22 2021-05-28 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN111656446A (zh) * 2018-01-31 2020-09-11 惠普发展公司,有限责任合伙企业 硬盘驱动寿命预测
WO2019169743A1 (zh) * 2018-03-09 2019-09-12 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN108446734A (zh) * 2018-03-20 2018-08-24 中科边缘智慧信息科技(苏州)有限公司 基于人工智能的磁盘故障自动预测方法
CN108647136A (zh) * 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN108647136B (zh) * 2018-05-10 2021-05-04 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN108710555A (zh) * 2018-05-23 2018-10-26 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法
CN108763002A (zh) * 2018-05-25 2018-11-06 郑州云海信息技术有限公司 基于机器学习预测cpu故障的方法及系统
CN108959004A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 磁盘故障预测方法、装置、设备及计算机可读存储介质
CN108959004B (zh) * 2018-06-28 2022-02-18 郑州云海信息技术有限公司 磁盘故障预测方法、装置、设备及计算机可读存储介质
WO2020000404A1 (en) * 2018-06-29 2020-01-02 Microsoft Technology Licensing, Llc. Multi-factor cloud service storage device error prediction
US11748185B2 (en) 2018-06-29 2023-09-05 Microsoft Technology Licensing, Llc Multi-factor cloud service storage device error prediction
CN109032891A (zh) * 2018-07-23 2018-12-18 郑州云海信息技术有限公司 一种云计算服务器硬盘故障预测方法及装置
CN109344017A (zh) * 2018-09-06 2019-02-15 浪潮电子信息产业股份有限公司 一种基于机器学习预测内存故障的方法,设备及可读存储介质
CN109634790B (zh) * 2018-11-22 2020-07-10 华中科技大学 一种基于循环神经网络的磁盘故障预测方法
CN109634790A (zh) * 2018-11-22 2019-04-16 华中科技大学 一种基于循环神经网络的磁盘故障预测方法
CN110175100B (zh) * 2019-04-17 2020-05-19 华中科技大学 一种存储盘故障预测方法及预测系统
CN110175100A (zh) * 2019-04-17 2019-08-27 华中科技大学 一种存储盘故障预测方法及预测系统
CN110427311A (zh) * 2019-06-26 2019-11-08 华中科技大学 基于时序特征处理与模型优化的磁盘故障预测方法和系统
CN110399238A (zh) * 2019-06-27 2019-11-01 浪潮电子信息产业股份有限公司 一种磁盘故障预警方法、装置、设备及可读存储介质
CN110399238B (zh) * 2019-06-27 2023-09-22 浪潮电子信息产业股份有限公司 一种磁盘故障预警方法、装置、设备及可读存储介质
CN111581072A (zh) * 2020-05-12 2020-08-25 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法
CN111581072B (zh) * 2020-05-12 2023-08-15 国网安徽省电力有限公司信息通信分公司 一种基于smart和性能日志的磁盘故障预测方法
CN111611117B (zh) * 2020-05-22 2022-06-10 浪潮电子信息产业股份有限公司 硬盘故障的预测方法、装置、设备及计算机可读存储介质
CN111611117A (zh) * 2020-05-22 2020-09-01 浪潮电子信息产业股份有限公司 硬盘故障的预测方法、装置、设备及计算机可读存储介质
CN113986636A (zh) * 2021-11-01 2022-01-28 合肥城市云数据中心股份有限公司 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法
CN113986636B (zh) * 2021-11-01 2024-05-28 合肥城市云数据中心股份有限公司 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法
TWI794041B (zh) * 2022-03-09 2023-02-21 英業達股份有限公司 硬碟效能問題分類模型的建立方法、硬碟效能問題分析方法及硬碟效能問題分類模型建立系統

Similar Documents

Publication Publication Date Title
CN107392320A (zh) 一种使用机器学习预测硬盘故障的方法
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN110264336B (zh) 一种基于大数据的智能案防系统
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN108052528A (zh) 一种存储设备时序分类预警方法
CN111614491B (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN113570200B (zh) 一种基于多维信息的电网运行状态监测方法及系统
CN111858108B (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
CN111581072A (zh) 一种基于smart和性能日志的磁盘故障预测方法
CN104091073A (zh) 虚拟资产不平衡交易数据的采样方法
CN112463553B (zh) 一种基于普通告警关联分析智能告警的系统与方法
CN104252627A (zh) Svm分类器训练样本获取方法、训练方法及其系统
CN114090402A (zh) 一种基于孤立森林的用户异常访问行为检测方法
CN112951311A (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
CN113778766B (zh) 基于多维特征的硬盘故障预测模型建立方法及其应用
CN113342597B (zh) 一种基于高斯混合隐马尔可夫模型的系统故障预测方法
CN109726737B (zh) 基于轨迹的异常行为检测方法及装置
CN110175100B (zh) 一种存储盘故障预测方法及预测系统
CN110493176B (zh) 一种基于非监督机器学习的用户可疑行为分析方法及系统
CN112308341A (zh) 电力数据的处理方法和装置
CN114756420A (zh) 故障预测方法及相关装置
CN113887862A (zh) 一种能源计量业务数据分析方法和系统
Zhou et al. A proactive failure tolerant mechanism for SSDs storage systems based on unsupervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124