CN107392320A - 一种使用机器学习预测硬盘故障的方法 - Google Patents
一种使用机器学习预测硬盘故障的方法 Download PDFInfo
- Publication number
- CN107392320A CN107392320A CN201710631428.XA CN201710631428A CN107392320A CN 107392320 A CN107392320 A CN 107392320A CN 201710631428 A CN201710631428 A CN 201710631428A CN 107392320 A CN107392320 A CN 107392320A
- Authority
- CN
- China
- Prior art keywords
- hard disk
- data
- predicted
- failure
- smart
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种使用机器学习预测硬盘故障的方法,属于云存储安全技术领域,本发明使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。
Description
技术领域
本发明涉及云存储安全技术,尤其涉及一种使用机器学习预测硬盘故障的方法。
背景技术
近年来,云计算技术得到迅猛发展,云计算的安全性和可靠性成为企业和个人关注的焦点。确保数据不丢失,必须首先关注云存储的安全。由于云存储中磁盘的数量规模是极其庞大的,云环境下硬盘是服务器硬件故障率最高的一个部件,如果能提前预测到硬盘故障,对业务体验、完善备件管理都有莫大的收益。自我监测、分析及报告技术(SMART)是ATA标准规定的各磁盘厂商必须遵循的标准条件之一。它通过监控磁盘运行时的电机、磁头、温度等状态信息,并与磁盘厂商设定的安全阈值相比较来判断磁盘的健康状况。
SMART是一种磁盘自我分析检测技术,早在90年代末就基本得到了普及;它是ATA标准规定的各磁盘厂商必须遵循的标准条件之一,也是磁盘厂商普遍采用的故障磁盘预测方法。
每一块硬盘(包括IDE、SCSI)在运行的时候,都会将自身的若干参数记录下来;这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏。此时硬盘依然在工作,如果用户不理睬这个报警继续使用那么硬盘将变得非常不可靠,随时可能故障。
由于S M A R T的阈值判定方法过于简单,在实际运行环境中故障磁盘的检测率通常为3-10%,故障磁盘检测率过低,实际预警效用不大。
通过计算smart数据的变化过滤出有价值的数据,删除海量冗余数据。另外Smart数据包含两百多个属性,但通过统计计算出其中只有12个属性和硬盘故障强相关。
不同的硬盘,由于受厂商,环境,负荷及累计在线时间等因素的影响,相同的属性的值在整个硬盘的寿命区间内可能会显得差异很大,所有的数据如果使用相同的参数进行归一化,会严重影响模型的预测性能。如果对不同的硬盘分别进行训练建模,一则过程复杂,二则会是训练数据大幅减少,导致欠拟合。
发明内容
为了解决以上技术问题,本发明提出了一种使用机器学习预测硬盘故障的方法。通过机器学习使用统计分析后生成的预测模型进行预测,则能将正确率提高到90%以上,极大地提高了预测率。
一种使用机器学习预测硬盘故障的方法,使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。
分别计算各个硬盘的属性值得统计特征,使用这些特征值,对不同的硬盘数据进行归一化预处理。基于归一化处理后的数据,使用随机森林算法进行训练,建立故障预测模型。实时监测硬盘的smart数据,根据属性值从历史数据中寻找出最匹配的硬盘,使用该硬盘各个属性的特征值,进行归一化处理。将归一化处理后的数据输入预测模型,预测硬盘健康状况。
随机森林实现过程
随机森林中的每一棵分类树为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对smart训练集进行划分;在二叉树中,根节点包含全部训练数据,按照节点纯度最小原则,分裂为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则节点继续分裂,直到满足分支停止规则而停止生长。若节点n上的分类数据全部来自于同一类别,则此节点的纯度为0。
假设P(Xj)是节点n上属于Xj 类样本个数占训练总数百分比,具体实现过程如下:
(1)原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个带外数据;
(2)设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量,然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;
(3)每棵树最大限度地生长, 不做任何修剪;
(4)将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
本发明的有益效果是
使用该技术可以提高硬盘故障正确率,帮组运维人员及时备份替换硬盘,避免数据丢失,服务器宕机,减少由此带来的经济损失。
附图说明
图1是本发明的工作原理示意图;
图2是本发明的实施流程图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种使用机器学习预测硬盘故障的方法,使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。
分别计算各个硬盘的属性值得统计特征,使用这些特征值,对不同的硬盘数据进行归一化预处理。基于归一化处理后的数据,使用随机森林算法进行训练,建立故障预测模型。实时监测硬盘的smart数据,根据属性值从历史数据中寻找出最匹配的硬盘,使用该硬盘各个属性的特征值,进行归一化处理;将归一化处理后的数据输入预测模型,预测硬盘健康状况。
将生成的预测模型数据和软件安装到服务器上,采集服务器上各个硬盘的smart数据,通过预测模型预测各个硬盘的健康状况。
本发明将传统的SMART技术和流行的机器学习的随机森林算法相结合,使用统计分析的方法进行硬盘故障预测,改良了传统的仅依靠阀值进行诊断的SMART技术。可将机器学习的方法用于其他硬件故障预测分析。
Claims (4)
1.一种使用机器学习预测硬盘故障的方法,其特征在于,
使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。
2.根据权利要求1所述的方法,其特征在于,
分别计算各个硬盘的属性值得统计特征,使用这些特征值,对不同的硬盘数据进行归一化预处理。
3.根据权利要求2所述的方法,其特征在于,
基于归一化处理后的数据,使用随机森林算法进行训练,建立故障预测模型;实时监测硬盘的smart数据,根据属性值从历史数据中寻找出最匹配的硬盘,使用该硬盘各个属性的特征值,进行归一化处理;将归一化处理后的数据输入预测模型,预测硬盘健康状况。
4.根据权利要求3所述的方法,其特征在于,
将生成的预测模型数据和软件安装到服务器上,采集服务器上各个硬盘的smart数据,通过预测模型预测各个硬盘的健康状况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710631428.XA CN107392320A (zh) | 2017-07-28 | 2017-07-28 | 一种使用机器学习预测硬盘故障的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710631428.XA CN107392320A (zh) | 2017-07-28 | 2017-07-28 | 一种使用机器学习预测硬盘故障的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107392320A true CN107392320A (zh) | 2017-11-24 |
Family
ID=60341372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710631428.XA Pending CN107392320A (zh) | 2017-07-28 | 2017-07-28 | 一种使用机器学习预测硬盘故障的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107392320A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153618A (zh) * | 2017-12-22 | 2018-06-12 | 国网浙江杭州市萧山区供电有限公司 | 硬盘数据恢复方法、装置及硬盘数据恢复设备 |
CN108304287A (zh) * | 2018-01-22 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种磁盘故障检测方法、装置以及相关设备 |
CN108446734A (zh) * | 2018-03-20 | 2018-08-24 | 中科边缘智慧信息科技(苏州)有限公司 | 基于人工智能的磁盘故障自动预测方法 |
CN108647136A (zh) * | 2018-05-10 | 2018-10-12 | 南京道熵信息技术有限公司 | 基于smart信息和深度学习的硬盘损坏预测方法及装置 |
CN108710555A (zh) * | 2018-05-23 | 2018-10-26 | 郑州云海信息技术有限公司 | 一种基于监督学习的服务器错误诊断方法 |
CN108763002A (zh) * | 2018-05-25 | 2018-11-06 | 郑州云海信息技术有限公司 | 基于机器学习预测cpu故障的方法及系统 |
CN108959004A (zh) * | 2018-06-28 | 2018-12-07 | 郑州云海信息技术有限公司 | 磁盘故障预测方法、装置、设备及计算机可读存储介质 |
CN109032891A (zh) * | 2018-07-23 | 2018-12-18 | 郑州云海信息技术有限公司 | 一种云计算服务器硬盘故障预测方法及装置 |
CN109344017A (zh) * | 2018-09-06 | 2019-02-15 | 浪潮电子信息产业股份有限公司 | 一种基于机器学习预测内存故障的方法,设备及可读存储介质 |
CN109634790A (zh) * | 2018-11-22 | 2019-04-16 | 华中科技大学 | 一种基于循环神经网络的磁盘故障预测方法 |
CN110175100A (zh) * | 2019-04-17 | 2019-08-27 | 华中科技大学 | 一种存储盘故障预测方法及预测系统 |
WO2019169743A1 (zh) * | 2018-03-09 | 2019-09-12 | 网宿科技股份有限公司 | 一种服务器故障的检测方法及系统 |
CN110399238A (zh) * | 2019-06-27 | 2019-11-01 | 浪潮电子信息产业股份有限公司 | 一种磁盘故障预警方法、装置、设备及可读存储介质 |
CN110427311A (zh) * | 2019-06-26 | 2019-11-08 | 华中科技大学 | 基于时序特征处理与模型优化的磁盘故障预测方法和系统 |
WO2020000404A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc. | Multi-factor cloud service storage device error prediction |
CN111581072A (zh) * | 2020-05-12 | 2020-08-25 | 国网安徽省电力有限公司信息通信分公司 | 一种基于smart和性能日志的磁盘故障预测方法 |
CN111611117A (zh) * | 2020-05-22 | 2020-09-01 | 浪潮电子信息产业股份有限公司 | 硬盘故障的预测方法、装置、设备及计算机可读存储介质 |
CN111656446A (zh) * | 2018-01-31 | 2020-09-11 | 惠普发展公司,有限责任合伙企业 | 硬盘驱动寿命预测 |
CN113986636A (zh) * | 2021-11-01 | 2022-01-28 | 合肥城市云数据中心股份有限公司 | 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法 |
TWI794041B (zh) * | 2022-03-09 | 2023-02-21 | 英業達股份有限公司 | 硬碟效能問題分類模型的建立方法、硬碟效能問題分析方法及硬碟效能問題分類模型建立系統 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993010494A1 (en) * | 1991-11-19 | 1993-05-27 | Compaq Computer Corporation | Method for dynamically measuring computer disk error rates |
CN103197995A (zh) * | 2012-01-04 | 2013-07-10 | 百度在线网络技术(北京)有限公司 | 硬盘故障检测方法及装置 |
CN104156562A (zh) * | 2014-07-15 | 2014-11-19 | 清华大学 | 银行后台运维系统的故障预测方法及系统 |
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
US20160357651A1 (en) * | 2015-06-02 | 2016-12-08 | Aspeed Technology Inc. | System on chip with debug controller and operating method thereof |
CN107025154A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 磁盘的故障预测方法和装置 |
-
2017
- 2017-07-28 CN CN201710631428.XA patent/CN107392320A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993010494A1 (en) * | 1991-11-19 | 1993-05-27 | Compaq Computer Corporation | Method for dynamically measuring computer disk error rates |
CN103197995A (zh) * | 2012-01-04 | 2013-07-10 | 百度在线网络技术(北京)有限公司 | 硬盘故障检测方法及装置 |
CN104156562A (zh) * | 2014-07-15 | 2014-11-19 | 清华大学 | 银行后台运维系统的故障预测方法及系统 |
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
US20160357651A1 (en) * | 2015-06-02 | 2016-12-08 | Aspeed Technology Inc. | System on chip with debug controller and operating method thereof |
CN107025154A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 磁盘的故障预测方法和装置 |
Non-Patent Citations (2)
Title |
---|
安洲: "基于随机森林的硬盘故障预测算法的研究", 《万方学位论文全文》 * |
贾润莹 等: "基于Adaboost和遗传算法的硬盘故障预测模型优化及选择", 《计算机研究与发展》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153618A (zh) * | 2017-12-22 | 2018-06-12 | 国网浙江杭州市萧山区供电有限公司 | 硬盘数据恢复方法、装置及硬盘数据恢复设备 |
CN108304287A (zh) * | 2018-01-22 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种磁盘故障检测方法、装置以及相关设备 |
CN108304287B (zh) * | 2018-01-22 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 一种磁盘故障检测方法、装置以及相关设备 |
CN111656446A (zh) * | 2018-01-31 | 2020-09-11 | 惠普发展公司,有限责任合伙企业 | 硬盘驱动寿命预测 |
WO2019169743A1 (zh) * | 2018-03-09 | 2019-09-12 | 网宿科技股份有限公司 | 一种服务器故障的检测方法及系统 |
CN108446734A (zh) * | 2018-03-20 | 2018-08-24 | 中科边缘智慧信息科技(苏州)有限公司 | 基于人工智能的磁盘故障自动预测方法 |
CN108647136A (zh) * | 2018-05-10 | 2018-10-12 | 南京道熵信息技术有限公司 | 基于smart信息和深度学习的硬盘损坏预测方法及装置 |
CN108647136B (zh) * | 2018-05-10 | 2021-05-04 | 南京道熵信息技术有限公司 | 基于smart信息和深度学习的硬盘损坏预测方法及装置 |
CN108710555A (zh) * | 2018-05-23 | 2018-10-26 | 郑州云海信息技术有限公司 | 一种基于监督学习的服务器错误诊断方法 |
CN108763002A (zh) * | 2018-05-25 | 2018-11-06 | 郑州云海信息技术有限公司 | 基于机器学习预测cpu故障的方法及系统 |
CN108959004A (zh) * | 2018-06-28 | 2018-12-07 | 郑州云海信息技术有限公司 | 磁盘故障预测方法、装置、设备及计算机可读存储介质 |
CN108959004B (zh) * | 2018-06-28 | 2022-02-18 | 郑州云海信息技术有限公司 | 磁盘故障预测方法、装置、设备及计算机可读存储介质 |
WO2020000404A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc. | Multi-factor cloud service storage device error prediction |
US11748185B2 (en) | 2018-06-29 | 2023-09-05 | Microsoft Technology Licensing, Llc | Multi-factor cloud service storage device error prediction |
CN109032891A (zh) * | 2018-07-23 | 2018-12-18 | 郑州云海信息技术有限公司 | 一种云计算服务器硬盘故障预测方法及装置 |
CN109344017A (zh) * | 2018-09-06 | 2019-02-15 | 浪潮电子信息产业股份有限公司 | 一种基于机器学习预测内存故障的方法,设备及可读存储介质 |
CN109634790B (zh) * | 2018-11-22 | 2020-07-10 | 华中科技大学 | 一种基于循环神经网络的磁盘故障预测方法 |
CN109634790A (zh) * | 2018-11-22 | 2019-04-16 | 华中科技大学 | 一种基于循环神经网络的磁盘故障预测方法 |
CN110175100B (zh) * | 2019-04-17 | 2020-05-19 | 华中科技大学 | 一种存储盘故障预测方法及预测系统 |
CN110175100A (zh) * | 2019-04-17 | 2019-08-27 | 华中科技大学 | 一种存储盘故障预测方法及预测系统 |
CN110427311A (zh) * | 2019-06-26 | 2019-11-08 | 华中科技大学 | 基于时序特征处理与模型优化的磁盘故障预测方法和系统 |
CN110399238A (zh) * | 2019-06-27 | 2019-11-01 | 浪潮电子信息产业股份有限公司 | 一种磁盘故障预警方法、装置、设备及可读存储介质 |
CN110399238B (zh) * | 2019-06-27 | 2023-09-22 | 浪潮电子信息产业股份有限公司 | 一种磁盘故障预警方法、装置、设备及可读存储介质 |
CN111581072A (zh) * | 2020-05-12 | 2020-08-25 | 国网安徽省电力有限公司信息通信分公司 | 一种基于smart和性能日志的磁盘故障预测方法 |
CN111581072B (zh) * | 2020-05-12 | 2023-08-15 | 国网安徽省电力有限公司信息通信分公司 | 一种基于smart和性能日志的磁盘故障预测方法 |
CN111611117B (zh) * | 2020-05-22 | 2022-06-10 | 浪潮电子信息产业股份有限公司 | 硬盘故障的预测方法、装置、设备及计算机可读存储介质 |
CN111611117A (zh) * | 2020-05-22 | 2020-09-01 | 浪潮电子信息产业股份有限公司 | 硬盘故障的预测方法、装置、设备及计算机可读存储介质 |
CN113986636A (zh) * | 2021-11-01 | 2022-01-28 | 合肥城市云数据中心股份有限公司 | 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法 |
CN113986636B (zh) * | 2021-11-01 | 2024-05-28 | 合肥城市云数据中心股份有限公司 | 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法 |
TWI794041B (zh) * | 2022-03-09 | 2023-02-21 | 英業達股份有限公司 | 硬碟效能問題分類模型的建立方法、硬碟效能問題分析方法及硬碟效能問題分類模型建立系統 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107392320A (zh) | 一种使用机器学习预测硬盘故障的方法 | |
CN108986869B (zh) | 一种使用多模型预测的磁盘故障检测方法 | |
CN110264336B (zh) | 一种基于大数据的智能案防系统 | |
CN108647136B (zh) | 基于smart信息和深度学习的硬盘损坏预测方法及装置 | |
CN110413227B (zh) | 一种硬盘设备的剩余使用寿命在线预测方法和系统 | |
CN108052528A (zh) | 一种存储设备时序分类预警方法 | |
CN111614491B (zh) | 一种面向电力监控系统安全态势评估指标选取方法及系统 | |
CN113570200B (zh) | 一种基于多维信息的电网运行状态监测方法及系统 | |
CN111858108B (zh) | 一种硬盘故障预测方法、装置、电子设备和存储介质 | |
CN112214369A (zh) | 基于模型融合的硬盘故障预测模型建立方法及其应用 | |
CN111581072A (zh) | 一种基于smart和性能日志的磁盘故障预测方法 | |
CN104091073A (zh) | 虚拟资产不平衡交易数据的采样方法 | |
CN112463553B (zh) | 一种基于普通告警关联分析智能告警的系统与方法 | |
CN104252627A (zh) | Svm分类器训练样本获取方法、训练方法及其系统 | |
CN114090402A (zh) | 一种基于孤立森林的用户异常访问行为检测方法 | |
CN112951311A (zh) | 一种基于变权重随机森林的硬盘故障预测方法及系统 | |
CN113778766B (zh) | 基于多维特征的硬盘故障预测模型建立方法及其应用 | |
CN113342597B (zh) | 一种基于高斯混合隐马尔可夫模型的系统故障预测方法 | |
CN109726737B (zh) | 基于轨迹的异常行为检测方法及装置 | |
CN110175100B (zh) | 一种存储盘故障预测方法及预测系统 | |
CN110493176B (zh) | 一种基于非监督机器学习的用户可疑行为分析方法及系统 | |
CN112308341A (zh) | 电力数据的处理方法和装置 | |
CN114756420A (zh) | 故障预测方法及相关装置 | |
CN113887862A (zh) | 一种能源计量业务数据分析方法和系统 | |
Zhou et al. | A proactive failure tolerant mechanism for SSDs storage systems based on unsupervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171124 |