CN111381990A - 一种基于流特征的磁盘故障预测方法及装置 - Google Patents

一种基于流特征的磁盘故障预测方法及装置 Download PDF

Info

Publication number
CN111381990A
CN111381990A CN202010180441.XA CN202010180441A CN111381990A CN 111381990 A CN111381990 A CN 111381990A CN 202010180441 A CN202010180441 A CN 202010180441A CN 111381990 A CN111381990 A CN 111381990A
Authority
CN
China
Prior art keywords
disk
data
failure prediction
stream
disk failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010180441.XA
Other languages
English (en)
Other versions
CN111381990B (zh
Inventor
吴佳
李礼
陈佳
苗诗君
余云
杨冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai V&g Information Technology Co ltd
Original Assignee
Shanghai V&g Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai V&g Information Technology Co ltd filed Critical Shanghai V&g Information Technology Co ltd
Priority to CN202010180441.XA priority Critical patent/CN111381990B/zh
Publication of CN111381990A publication Critical patent/CN111381990A/zh
Application granted granted Critical
Publication of CN111381990B publication Critical patent/CN111381990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于流特征的磁盘故障预测方法及装置,包括流特征选择模块和磁盘故障预测模块。包括收集一定历史阶段的磁盘数据作为训练数据集;对磁盘历史数据进行预处理;选取针对目前数据集的最优特征;检测并评估新特征是否需要加入特征集;对已有的特征重新评估,检测是否删除旧特征;将当前阶段最优的特征集定时传递到磁盘故障预测模块;对样本集进行平衡处理;训练磁盘故障预测模型;保证样本的平衡性;利用新样本评估磁盘故障预测模型等步骤。本发明通过实时监测加入的新特征,以及原有特征在目前阶段的数据集中是否有效的情况,更新建立有效的特征集,从而能够建立准确稳定的磁盘故障模型,有效的保证磁盘存储数据的可靠性。

Description

一种基于流特征的磁盘故障预测方法及装置
技术领域
本发明属于计算机数据存储领域,具体涉及一种基于流特征的磁盘故障预测方法及装置。
背景技术
随着信息技术产业的飞速发展,全球信息量呈现爆炸式的增长趋势。当前,人类社会的生活越来越依赖各种数字化的信息。著名咨询机构IDC预测,大数据时代人类的数据量将以每年50%的速度增长。个人计算机时代全球的数据总量约为20PB,互联网时代全球数据总量约为7660PB,大数据时代则达到ZB级别的量级。近年来,云计算、云存储、物联网等新兴技术的发展,更加需要海量存储系统的有力支撑。随着存储容量的爆炸式增长,存储系统的可靠性和可用性问题日益增长。
为了保证数据可靠性,所有的磁盘制造商都采用了S.M.A.R.T.技术来提前进行故障预警。因此可以利用这项技术,在磁盘失效之前能有足够的时间进行数据迁移。S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)是一组磁盘自检测、状态监控分析技术,是由磁盘厂商制定的一组标准。HDD或者SSD通过内部指令系统,对硬盘各组件,例如磁头、马达、盘片等部件的状态进行分析监控,并将相关部件状态通过一组数值记录下来,数值的转化方法由S.M.A.R.T.标准制定,所有记录下来的数据称为S.M.A.R.T.数据。所有记录下来的数据记录在磁盘特定的磁道上面,可以通过特定命令读取。S.M.A.R.T.数据记录标准规定磁盘厂商必须记录一些磁盘部件的状态数据,同时也允许不同厂商记录自己认为重要的一些别的数据项。S.M.A.R.T.标准首先是由Compaq于1995年提交于Small Form Factor委员会,随后便得到主流厂商的支持,现已成为磁盘公用标准得到全面推广,成为ATA-3行业标准。由于制造商为了尽可能的减少误报,目前的S.M.A.R.T.技术采用了简单的阈值算法,通常把阈值设置很低,从而减低了对故障盘的预测准确率,这种技术的预警准确率只有3%-10%,远远达不到要求。为了解决这个问题,目前大量的研究利用S.M.A.R.T.信息,基于统计学习或者机器学习方法,建立磁盘故障预测方案。然而,在磁盘预测问题中,存在一些严重的挑战:
1.样本不平衡。磁盘发生故障的频率十分小,故障盘的数据到达故障发生点之后,就不再产生数据,因此采集到的故障点严格来说只有一个点,前面的点都是正常盘的数据点。因此正常盘的数量远大于故障盘;
2.模型老化问题。基于训练集获得的模型没有覆盖磁盘目前以及之后的运行状态,因此很容易造成模型老化问题。
针对这些问题,已有工作建立的离线或者在线磁盘预测系统,都假定全部的特征是提前给定的,在预测过程中没有考虑到新特征的加入以及不同特征在不同阶段重要性的变化情况。因此,传统的方案并不能建立有效的磁盘故障预测机制。
发明内容
针对现有技术的不足,本发明提供了一种基于流特征的磁盘故障预测方法及装置,目的在于能够建立准确稳定的磁盘故障模型,从而能够有效的保证磁盘存储数据的可靠性。具体采用的技术方案如下:
一种基于流特征的磁盘故障预测方法,包括如下步骤:
(1)在磁盘存储系统中,流特征处理模块首先调用数据接口,收集一定历史阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据集;
(2)流特征处理模块对磁盘历史数据进行预处理;
(3)流特征处理模块分析特征和响应之间的相关关系,选取针对目前数据集的最优特征;
(4)流特征处理模块对磁盘实时数据进行检测,检测新的特征出现,并评估该新特征是否需要加入特征集;同时基于磁盘实时数据,对已有存在的特征进行重新评估,检测是否删除旧的特征;
(5)在运行过程中,流特征处理模块将当前阶段最优的特征集按照一定频率定时传递到磁盘故障预测模块;
(6)磁盘故障预测模块对样本集进行平衡处理,使正负样本比例接近平衡;
(7)磁盘故障预测模块基于平衡处理后的数据集,利用机器学习算法训练磁盘故障预测模型;
(8)磁盘故障预测模块实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;
(9)磁盘故障预测模块利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型;否则,利用新加入的样本集优化磁盘故障预测模型。
进一步,上述的(2)流特征处理模块对磁盘历史数据进行预处理,包括归一化、数据补全。
进一步,上述的(3)流特征处理模块分析特征和响应之间的相关关系,选取针对目前数据集的最优特征,包括利用基于相关系数或基于学习模型的特征排序的特征选择方法。
进一步,上述的(6)磁盘故障预测模块对样本集进行平衡处理,包括利用上采样方法。
进一步,上述的第(7)步骤中的利用机器学习算法,包括利用支持向量机或神经网络的机器学习算法。
一种基于流特征的磁盘故障预测装置,包括流特征选择模块和磁盘故障预测模块;
其中,流特征选择模块,收集磁盘历史数据,并进行预处理;利用特征选择方法选取基于目前数据的最优特征,并作为离线特征数据集;对磁盘实时数据进行检测,检测新的特征出现,并评估新特征是否加入特征集;基于磁盘实时数据,对存在的特征进行评估,检测是否删除旧的特征。
磁盘故障预测模块,通过流特征选择模块的数据导入到所述的磁盘故障预测模块中,基于磁盘数据和特征集,建立磁盘故障预测模型。
本发明的原理及技术方案进一步阐述如下:
如附图1所示,在流特征处理模块中:
(1)在磁盘存储系统中,首先调用数据接口,收集一定阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据;
(2)对磁盘历史数据进行预处理;
(3)利用特征选择方法选取基于目前数据的最优特征,并作为离线特征数据集;
(4)对磁盘实时数据进行检测,检测新的特征出现,并评估该新特征是否需要加入特征集;
(5)基于磁盘实时数据,对存在的特征进行重新评估,检测是否删除旧的特征。
如附图2所示,在磁盘故障预测模块中,流特征处理模块与其进行实时交互,其具体步骤如下:
(1)在运行时,流特征处理模块将某一阶段最优的特征传递到磁盘故障预测模块;
(2)对样本集进行平衡处理,让正负样本比例基本平衡;
(3)基于平衡处理后的数据集,利用机器学习算法,训练磁盘故障预测模型;
(4)实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;
(5)利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型,否则,利用新加入的样本集优化磁盘故障预测模型。
附图说明
图1为本发明的流特征处理模块流程示意图;
图2为本发明的磁盘故障预测模块流程示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的整体思路在于,磁盘数据以及特征是以流的特征出现的,因此数据和特征都是逐渐出现。目前的大量工作,都是假定特征集是完全可见并且预先给定的,建立的磁盘故障机制并没有考虑到新特征的加入带来的影响。本发明通过实时监测加入的新特征,以及原有特征在目前阶段的数据集中是否有效的情况,更新建立有效的特征集,这对建立准确可靠的磁盘故障预测模型至关重要。
由于建立了可靠的磁盘故障预测模型,它可以用来作为故障预警。磁盘故障可以提前被检测,因此数据可以提前转移到正常盘,故障盘可以在故障点发生之前退休,数据可靠性得到极大的保证。
本发明的具体实施步骤如下:
(1)在磁盘存储系统中,流特征处理模块首先调用数据接口,收集一定历史阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据集;
(2)流特征处理模块对磁盘历史数据进行预处理,包括归一化、数据补全等;
(3)流特征处理模块分析特征和响应之间的相关关系,利用比如基于相关系数或基于学习模型的特征排序等特征选择方法选取针对目前数据集的最优特征;
(4)流特征处理模块对磁盘实时数据进行检测,检测新的特征出现,并评估该新特征是否需要加入特征集;同时基于磁盘实时数据,对已有存在的特征进行重新评估,检测是否删除旧的特征;
(5)在运行过程中,流特征处理模块将当前阶段最优的特征集按照一定频率定时传递到磁盘故障预测模块;
(6)磁盘故障预测模块利用上采样方法对样本集进行平衡处理,让正负样本比例基本平衡;
(7)磁盘故障预测模块基于平衡处理后的数据集,利用如支持向量机、神经网络等机器学习算法,训练磁盘故障预测模型;
(8)磁盘故障预测模块实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;
(9)磁盘故障预测模块利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型;否则,利用新加入的样本集优化磁盘故障预测模型。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于流特征的磁盘故障预测方法,其特征在于,包括如下步骤:
(1)在磁盘存储系统中,流特征处理模块首先调用数据接口,收集一定历史阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据集;
(2)流特征处理模块对磁盘历史数据进行预处理;
(3)流特征处理模块分析特征和响应之间的相关关系,选取针对目前数据集的最优特征;
(4)流特征处理模块对磁盘实时数据进行检测,检测新的特征出现,并评估该新特征是否需要加入特征集;同时基于磁盘实时数据,对已有存在的特征进行重新评估,检测是否删除旧的特征;
(5)在运行过程中,流特征处理模块将当前阶段最优的特征集按照一定频率定时传递到磁盘故障预测模块;
(6)磁盘故障预测模块对样本集进行平衡处理,使正负样本比例接近平衡;
(7)磁盘故障预测模块基于平衡处理后的数据集,利用机器学习算法训练磁盘故障预测模型;
(8)磁盘故障预测模块实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;
(9)磁盘故障预测模块利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型;否则,利用新加入的样本集优化磁盘故障预测模型。
2.根据权利要求1所述的一种基于流特征的磁盘故障预测方法,其特征在于,包括:所述的(2)流特征处理模块对磁盘历史数据进行预处理,包括归一化、数据补全。
3.根据权利要求1所述的一种基于流特征的磁盘故障预测方法,其特征在于,包括:所述的(3)流特征处理模块分析特征和响应之间的相关关系,选取针对目前数据集的最优特征,包括利用基于相关系数或基于学习模型的特征排序的特征选择方法。
4.根据权利要求1所述的一种基于流特征的磁盘故障预测方法,其特征在于,包括:所述的(6)磁盘故障预测模块对样本集进行平衡处理,包括利用上采样方法。
5.根据权利要求1所述的一种基于流特征的磁盘故障预测方法,其特征在于,包括:所述的第(7)步骤中的利用机器学习算法,包括利用支持向量机或神经网络的机器学习算法。
6.一种基于流特征的磁盘故障预测装置,其特征在于,包括流特征选择模块和磁盘故障预测模块;
所述的流特征选择模块,收集磁盘历史数据,并进行预处理;利用特征选择方法选取基于目前数据的最优特征,并作为离线特征数据集;对磁盘实时数据进行检测,检测新的特征出现,并评估新特征是否加入特征集;基于磁盘实时数据,对存在的特征进行评估,检测是否删除旧的特征。
所述的磁盘故障预测模块,通过流特征选择模块的数据导入到所述的磁盘故障预测模块中,基于磁盘数据和特征集,建立磁盘故障预测模型。
CN202010180441.XA 2020-03-16 2020-03-16 一种基于流特征的磁盘故障预测方法及装置 Active CN111381990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010180441.XA CN111381990B (zh) 2020-03-16 2020-03-16 一种基于流特征的磁盘故障预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010180441.XA CN111381990B (zh) 2020-03-16 2020-03-16 一种基于流特征的磁盘故障预测方法及装置

Publications (2)

Publication Number Publication Date
CN111381990A true CN111381990A (zh) 2020-07-07
CN111381990B CN111381990B (zh) 2023-10-20

Family

ID=71215397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010180441.XA Active CN111381990B (zh) 2020-03-16 2020-03-16 一种基于流特征的磁盘故障预测方法及装置

Country Status (1)

Country Link
CN (1) CN111381990B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395558A (zh) * 2020-11-27 2021-02-23 广东电网有限责任公司肇庆供电局 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016107402A1 (zh) * 2014-12-31 2016-07-07 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
US20190205193A1 (en) * 2017-12-29 2019-07-04 Huazhong University Of Science And Technology S.m.a.r.t. threshold optimization method used for disk failure detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016107402A1 (zh) * 2014-12-31 2016-07-07 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
US20190205193A1 (en) * 2017-12-29 2019-07-04 Huazhong University Of Science And Technology S.m.a.r.t. threshold optimization method used for disk failure detection
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李新鹏;高欣;何杨;阎博;孙汉旭;李军良;徐建航;刘震宇;庞博;: "不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395558A (zh) * 2020-11-27 2021-02-23 广东电网有限责任公司肇庆供电局 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Also Published As

Publication number Publication date
CN111381990B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN108052528B (zh) 一种存储设备时序分类预警方法
CN110347116B (zh) 一种基于运行数据流的机床状态监测系统与监测方法
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN111581072B (zh) 一种基于smart和性能日志的磁盘故障预测方法
CN112951311B (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
WO2021238258A1 (zh) 一种磁盘故障预测方法和系统
KR102281819B1 (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
CN111782484A (zh) 一种异常检测方法及装置
CN110175100B (zh) 一种存储盘故障预测方法及预测系统
CN112433928A (zh) 一种存储设备的故障预测方法、装置、设备及存储介质
CN111858265A (zh) 一种存储系统的存储故障预测方法、系统及装置
CN111949459A (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN111381990B (zh) 一种基于流特征的磁盘故障预测方法及装置
CN112118127B (zh) 一种基于故障相似度的服务可靠性保障方法
CN111858108B (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN105678557A (zh) 模型生成方法及装置、服务质量的评估方法及装置
Liang et al. Disk Failure Prediction Based on SW-Disk Feature Engineering
CN115269319A (zh) 一种ceph分布式计算机故障诊断方法
CN115617604A (zh) 基于图像模式匹配的磁盘故障预测方法及系统
Wang et al. Hard disk drives failure detection using a dynamic tracking method
US20220019938A1 (en) Unbalanced sample classification method and apparatus
Viermetz et al. Tracking topic evolution in news environments
CN112884015A (zh) 一种面向供水管网分区计量系统日志信息的故障预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant