CN111984511B - 一种基于二分类的多模型磁盘故障预测方法和系统 - Google Patents

一种基于二分类的多模型磁盘故障预测方法和系统 Download PDF

Info

Publication number
CN111984511B
CN111984511B CN202010739160.3A CN202010739160A CN111984511B CN 111984511 B CN111984511 B CN 111984511B CN 202010739160 A CN202010739160 A CN 202010739160A CN 111984511 B CN111984511 B CN 111984511B
Authority
CN
China
Prior art keywords
disk
disks
probability
time sequence
predicting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010739160.3A
Other languages
English (en)
Other versions
CN111984511A (zh
Inventor
王团结
梁鑫辉
曹琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010739160.3A priority Critical patent/CN111984511B/zh
Publication of CN111984511A publication Critical patent/CN111984511A/zh
Application granted granted Critical
Publication of CN111984511B publication Critical patent/CN111984511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于二分类的多模型磁盘故障预测方法和系统。其中,基于二分类的多模型磁盘故障预测方法包括:对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征;对磁盘状态特征进行差分计算,并对差分结果进行时序特征提取,得到磁盘时序特征;将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型;使用多个二分类模型对测试集中磁盘进行剩余寿命概率预测,根据预测到的剩余寿命概率,预测磁盘的故障状态。本发明的技术方案能解决现有技术中磁盘故障预测难度大,长期预测的稳定性差问题。

Description

一种基于二分类的多模型磁盘故障预测方法和系统
技术领域
本发明涉及智能运维技术领域,尤其涉及一种基于二分类的多模型磁盘故障预测方法和系统。
背景技术
磁盘是计算机的主要存储介质,能够存储大量的二进制数据,并且在断电后能够保证数据不丢失。在某些大规模数据中心,硬盘的使用规模已达百万级别。若发生盘类故障,会导致数据中心的整个存储系统甚至整个IT基础设施的稳定性和可靠性下降,最终对整个业务服务造成难以挽回的影响;并且磁盘也是数据中心内故障率最高的部件,不管是磁盘读写速度异常还是数据丢失,其对数据中心造成的后果都十分严重。若能在磁盘发生故障前提前预测到磁盘故障,预先将可能会出现异常的磁盘中的数据及时备份,或者直接替换掉磁盘,将极大减少因磁盘故障而造成的损失,从而对系统运营带来极大便利,并有效提高数据中心可靠性。
为实现上述目的,现有技术中提供了一种磁盘状态检测与预警技术,即SMART(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术)。通过在磁盘硬件内设置检测指令,对磁盘的硬件(如磁头、盘片、马达和电路等)的运行情况进行监控,能够提前预测磁盘故障。具体地,现有技术中是比对SMART和厂商所所设定的预设安全值,若SMART监测到的硬件特征的实测值将要或者已经超出预设安全值的安全范围,就能够通过主机的监控硬件或软件自动向用户做出警告并恢复数据。然而,这种传统的数据恢复方法会引发大量磁盘数据的输入输出,进而影响用户的正常业务。因此利用机器学习技术,检测SMART特征来预测磁盘故障能够让用户在业务不繁忙时处理用户数据,其意义和价值均好于事后的数据恢复。
然而,磁盘的SMART特征稀疏,通常在临近磁盘故障时部分SMART特征才会发生突变,并且大部分与磁盘故障相关的SMART特征值为零。统计分析显示,即使在坏盘发生故障的最后7天,5和187等SMART特征中50%-75%的值也是0;而且坏盘直到剩余寿命的最后1-15天,SMART特征才会出现明显的变化。具体参见如图1和图2,异常的磁盘的SMART5特征数量到磁盘坏掉的最后10天才开始出现变化,直到磁盘坏掉的最后4天才发生明显增长;而SMART187特征直到磁盘坏掉的最后1天才发生变化。这种现象是普遍发生在坏盘上的,也就是越靠近生命周期的末期,越可能发生突变。SMART特征的稀疏性和突变性导致磁盘故障的预测难度很大,预测准确率不高,导致长期预测的稳定性很低。
发明内容
本发明提供了一种基于二分类的多模型磁盘故障预测方法和系统,旨在解决现有技术中磁盘故障的预测难度大,预测准确率不高,长期预测的稳定性差的问题。
为实现上述目的,根据本发明的第一方面,本发明提供了一种基于二分类的多模型磁盘故障预测方法,包括:
对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征;
对磁盘状态特征进行差分计算,并对差分结果进行时序特征提取,得到磁盘时序特征;
将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型;
使用多个二分类模型对测试集中磁盘进行剩余寿命概率预测,根据预测到的剩余寿命概率,预测磁盘的故障状态。
优选地,上述对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征的步骤包括:
对训练集中磁盘进行值域分析和跳变分析,选取得到与磁盘故障相关的多个SMART特征;
根据训练集中磁盘的读写量累积值和磁盘上电时间,计算得到与磁盘读写相关的磁盘IO特征。
优选地,上述对磁盘状态特征进行差分计算,并对差分结果进行时序特征提取,得到磁盘时序特征的步骤,包括:
分别对SMART特征和磁盘IO特征进行一阶差分,得到与磁盘故障变化量相关的SMART特征差分值和磁盘IO特征差分值;
按照预设提取窗口分别对SMART特征差分值和磁盘IO特征差分值进行时序特征提取,得到多个分别与SMART特征差分值和磁盘IO特征差分值对应的磁盘时序特征。
优选地,上述将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型的步骤,包括:
根据磁盘故障发生的时间,将磁盘序列特征输入至XGBoost算法进行机器学习;
使用XGBoost算法计算距离磁盘故障发生的多个预定临近时间内,磁盘剩余寿命小于或等于预定临近时间的二分类模型,其中,预定临近时间越靠近磁盘故障发生时间,二分类模型的预测权重越大。
优选地,上述使用多个二分类模型对测试集中磁盘进行剩余寿命概率预测的步骤,包括:
对多个二分类模型预测的剩余寿命概率进行均值计算,得到测试集中磁盘的最终剩余寿命概率;
判断最终剩余寿命概率是否大于或等于预设寿命概率阈值;
若判定最终剩余寿命概率大于或等于预设寿命概率阈值,则确定磁盘为故障磁盘。
优选地,在根据预测到的剩余寿命概率预测磁盘的故障状态的步骤之后,上述多模型磁盘故障预测方法还包括:
根据预测到的剩余寿命概率,以及预定时间段内的磁盘数量,计算预定时间内的故障磁盘数量。
根据本发明的第二方面,本发明还提供了一种基于二分类的多模型磁盘故障预测系统包括:
采样模块,用于对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征;
差分计算模块,用于对磁盘状态特征进行差分计算;
提取模块,用于对差分结果进行时序特征提取,得到磁盘时序特征;
机器学习模块,用于将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型;
概率预测模块,用于使用多个二分类模型对测试集中磁盘进行剩余寿命概率预测;
故障预测模块,用于根据预测到的剩余寿命概率,预测磁盘的故障状态。
优选地,上述采样模块,包括:
特征选取子模块,用于对训练集中磁盘进行值域分析和跳变分析,选取得到与磁盘故障相关的多个SMART特征;
特征计算子模块,用于根据训练集中磁盘的读写量累积值和磁盘上电时间,计算得到与磁盘读写相关的磁盘IO特征。
优选地,上述差分计算模块具体用于分别对SMART特征和磁盘IO特征进行一阶差分,得到与磁盘故障变化量相关的SMART特征差分值和磁盘IO特征差分值;
提取模块,具体用于按照预设提取窗口分别对SMART特征差分值和磁盘IO特征差分值进行时序特征提取,得到多个分别与SMART特征差分值和磁盘IO特征差分值对应的磁盘时序特征。
优选地,上述概率预测模块,包括:
均值计算子模块,用于对多个二分类模型预测的剩余寿命概率进行均值计算,得到测试集中磁盘的最终剩余寿命概率;
概率判断子模块,用于判断最终剩余寿命概率是否大于或等于预设寿命概率阈值;
故障磁盘确定子模块,用于当概率判断子模块判定最终剩余寿命概率大于或等于预设寿命概率阈值时,确定磁盘为故障磁盘。
本申请提供的基于二分类的多模型磁盘故障预测方案,通过对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征,然后对该磁盘状态特征进行差分计算,就能够了解到相邻时间段内磁盘的故障状态变化,然后对差分结果进行时序特征提取,能够获取预定时段内与磁盘故障状态变化量相关的特征,进而将该磁盘时序特征输入至XGBoost算法进行机器学习,从而得到多个用于预测磁盘剩余寿命概率的二分类模型,二分类模型是根据磁盘属性特征得到的,这样二分类模型是描述一定时间段内的磁盘剩余寿命概率,因为磁盘寿命越靠近磁盘故障日期或检测截止日期,则该磁盘剩余寿命越短,对该磁盘寿命的预测概率(即发生故障的预测概率)将越大,这样通过使用多个二分类模型,就能够准确预测磁盘的剩余寿命概率,进而准确预测磁盘的故障状态。本申请技术方案解决了背景技术中磁盘故障的预测难度大,长期预测的稳定性差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是现有技术提供的一种SMART5随剩余寿命的变化的折线图;
图2是现有技术提供的一种SMART187随剩余寿命变化的折线图;
图3是本发明实施例提供的第一种基于二分类的多模型磁盘故障预测方法的流程示意图;
图4是图3所示实施例提供的一种磁盘状态特征选取方法的流程示意图;
图5是图3所示实施例提供的一种时序特征提取方法的流程示意图;
图6是图3所示实施例提供的一种二分类模型获取方法的流程示意图;
图7是图3所示实施例提供的一种磁盘剩余寿命概率预测方法的流程示意图;
图8是本发明实施例提供的第二种基于二分类的多模型磁盘故障预测方法的流程示意图;
图9是本发明实施例提供的一种基于二分类的多模型磁盘故障预测系统的结构示意图;
图10是图9所示实施例提供的一种采样模块的结构示意图;
图11是图9所示实施例提供的一种概率预测模块的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要技术问题如下:
现有技术是通过SMART技术在磁盘硬件内设置检测指令,对磁盘的硬件(如磁头、盘片、马达和电路等)的运行情况进行监控,提前预测磁盘故障的。然而SMART特征的稀疏性和突变性导致磁盘故障的预测难度很大,预测准确率不高,导致长期预测的稳定性很低。
为解决上述问题,参见图3,图3是本发明实施例提供的第一种基于二分类的多模型磁盘故障预测方法的流程示意图。如图3所示,该基于二分类的多模型磁盘故障预测方法包括以下步骤:
S110:对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征。
磁盘状态特征与磁盘故障高度相关,是通过对训练集中磁盘进行降采样得到的,具体可通过对训练集中磁盘进行值域分析和跳变分析,选取与磁盘故障相关且相对熵KL散度较大的特征值。其中,每一磁盘状态特征包括预定时间段内的多个采样时刻对应的磁盘状态特征值。
具体地,磁盘状态特征选取方法如图4所示,该对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征的步骤,具体包括:
S111:对训练集中磁盘进行值域分析和跳变分析,选取得到与磁盘故障相关的多个SMART特征。
值域是指因变量改变而改变的取值范围,跳变分析具体是指分析各个SMART特征值在预定时间段内的跳变情况,这样选取多次出现在该值域范围外,或者多次出现跳变的SMART特征,就能够确定该SMART特征与磁盘故障相关。其中,本申请实施例选择出5、187、192、193、197、198和199共计7个与磁盘故障相关且相对熵KL散度较大的SMART特征,作为原始特征,这些原始特征反映了磁盘在硬件方面的健康状态信息。
S112:根据训练集中磁盘的读写量累积值和磁盘上电时间,计算得到与磁盘读写相关的磁盘IO特征。
磁盘IO特征是指单位时间内磁盘输入输出IO读写带宽,该磁盘IO特征反映了磁盘读写性能方便的信息,这样通过训练集中磁盘的读写量累积值和磁盘上电时间,就能够得到该磁盘IO特征。
该磁盘IO特征的具体计算公式如下:
Figure BDA0002606185390000061
其中,241raw表示主机写入量,242raw表示主机读取量,9raw表示磁盘的上电时间。
S120:对磁盘状态特征进行差分计算,并对差分结果进行时序特征提取,得到磁盘时序特征。
对磁盘状态特征进行差分,得到的差分结果表示为磁盘故障状态特征的变化量,对差分结果进行时序特征提取,则能够得到预定时段内与磁盘故障状态变化量相关的特征值,如预定时间内差分结果的最小值、最大值、平均值和方差等。
具体如图5所示,该步骤S120:对磁盘状态特征进行差分计算,并对差分结果进行时序特征提取,得到磁盘时序特征,具体包括:
S121:分别对SMART特征和磁盘IO特征进行一阶差分,得到与磁盘故障变化量相关的SMART特征差分值和磁盘IO特征差分值。
如上所述,SMART特征与磁盘故障相关,IO特征与磁盘读写状态相关;通过分别对SMART特征和磁盘IO特征进行一阶差分,能够分别得到SMART特征差分值和磁盘IO特征差分值。SMART特征差分值就反映了磁盘故障的变化量,磁盘IO特征差分值就反映了磁盘读写状态的变化量。以SMART5特征为例,具体公式如下:
5diff=5t-5t-1;其中,5diff表示SMART5的一阶差分,5t表示t时刻SMART5的特征值,5t-1表示t-1时刻SMART5的特征值。
S122:按照预设提取窗口分别对SMART特征差分值和磁盘IO特征差分值进行时序特征提取,得到多个分别与SMART特征差分值和磁盘IO特征差分值对应的磁盘时序特征。
其中,对上述SMART特征差分值和磁盘IO特征差分值进行时序特征提取需要设置提取窗口,即提取的时间段,其中,提取窗口(w)包括:1,3,7,15及30。以上述SMART5为例,通过上述特征提取法提取得到的磁盘时序特征包括最小值、最大值、平均值以及方差;具体如下表所示:
Figure BDA0002606185390000071
Figure BDA0002606185390000081
S130:将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型。
在对训练集中的磁盘进行上述处理,得到磁盘时序特征后,按照好盘:坏盘=5:1的比例进行降采样,输入到XGBoost算法中,就能够得到多个用于预测磁盘剩余寿命概率的多个二分类模型,因为磁盘剩余寿命与上述磁盘故障相关的SMART特征以及磁盘读写性能相关的IO特征有关,因此将上述特征对应的磁盘时序特征输入至该XGBoost算法进行机器学习后,就能够得到预测磁盘剩余寿命的模型。
具体步骤如图6所示,该将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型的步骤具体包括:
S131:根据磁盘故障发生的时间,将磁盘序列特征输入至XGBoost算法进行机器学习。
若是坏盘,则选取磁盘故障发生的时间;若是好盘,则选取磁盘运行的最后时间。这样将磁盘序列特征输入至XGBoost算法进行机器学习,就能够得到用于预测磁盘剩余寿命概率的多个二分类模型。
S132:使用XGBoost算法计算距离磁盘故障发生的多个预定临近时间内,磁盘剩余寿命小于或等于预定临近时间的二分类模型,其中,预定临近时间越靠近磁盘故障发生时间,二分类模型的预测权重越大。
其中,二分类是指分为好盘和坏盘两种类型,得到的多个二分类模型为P(R≤r),其中,R表示磁盘剩余寿命,r表示预定临近时间,r=0,1,2,……,30,r的单位为天数;r=0即表示故障发生的当天,r=1表示故障发生的前一天,……;这样就能够得到30个二分类模型。上述二分类模型P(R≤r)表示磁盘剩余寿命R小于或等于r的预测概率模型。
其中,以r取值7为例,说明子模型P(R≤7)的构建过程:首先是正负样本构建,将训练集中坏盘的最后8天作为正样本,再往前8天作为负样本;好盘取样的最后16天作为负样本,并且验证集采用同样的方法构建正负样本。然后,将正负样本输入XGBoost模型中使用默认参数进行训练,得到P(R≤7)的子模型。
S140:使用多个二分类模型对测试集中磁盘进行剩余寿命概率预测,根据预测到的剩余寿命概率,预测磁盘的故障状态。
预测方法具体如图7所示,该使用多个二分类模型对测试集中磁盘进行剩余寿命概率预测的步骤具体包括:
S141:对多个二分类模型预测的剩余寿命概率进行均值计算,得到测试集中磁盘的最终剩余寿命概率。
该预测剩余寿命概率的公式具体如下:
Figure BDA0002606185390000091
其中:r=0,1,2,……,30,单位为天。
在该预测剩余寿命概率的公式中,
Figure BDA0002606185390000092
表示预测概率,即上述最终剩余寿命概率,R表示磁盘剩余寿命,r为0表示发生故障的当天,r=1即表示发生故障的前一天,……;P(R≤r)表示磁盘剩余寿命R小于或等于r的预测概率模型。这样根据距离磁盘故障发生的天数,建立31个二分类模型,然后对该二分类模型预测的剩余寿命概率进行均值计算,就能够得到磁盘的最终剩余寿命概率。
由该公式可知,上述31个二分类模型对短期故障预测的权重高于对长期故障预测的权重;其中,当r取0时,权重最大;当r取30时权重最小。这种规律是与SMART特征越到生命末期越容易发生突变的特征相吻合。
其中,权重可以看作R取值的重复次数,例如:r=0时,在P(R≤r)模型中R只能为0;当r=1时,在P(R≤r)模型中R能够为0或1;当r=2时,在P(R≤r)模型中R能够为0、1或2;这样在叠加上述预测概率模型,计算
Figure BDA0002606185390000093
时,R=0重复31次,R=1重复30次,……,依次类推。这样就能够使得31个二分类模型对短期故障预测的权重高于对长期故障预测的权重。
S142:判断最终剩余寿命概率是否大于或等于预设寿命概率阈值。
S143:若判定最终剩余寿命概率大于或等于预设寿命概率阈值,则确定磁盘为故障磁盘。
其中,预设寿命概率阈值可设置为0.5,当最终剩余寿命概率大于或等于0.5时,确定该磁盘为故障磁盘。
本申请实施例提供的基于二分类的多模型磁盘故障预测方法,通过对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征,然后对该磁盘状态特征进行差分计算,就能够了解到相邻时间段内磁盘的故障状态变化,然后对差分结果进行时序特征提取,能够获取预定时段内与磁盘故障状态变化量相关的特征,进而将该磁盘时序特征输入至XGBoost算法进行机器学习,从而得到多个用于预测磁盘剩余寿命概率的二分类模型,二分类模型是根据磁盘属性特征得到的,这样二分类模型是描述一定时间段内的磁盘剩余寿命概率,因为磁盘寿命越靠近磁盘故障日期或检测截止日期,则该磁盘剩余寿命越短,对该磁盘寿命的预测概率(即发生故障的预测概率)将越大,这样通过使用多个二分类模型,就能够准确预测磁盘的剩余寿命概率,进而准确预测磁盘的故障状态。本申请技术方案解决了背景技术中磁盘故障的预测难度大,长期预测的稳定性差的问题。
另外如图8所示,作为一种优选的实施例,在上述根据预测到的剩余寿命概率预测磁盘的故障状态的步骤之后,本实施例提供的多模型磁盘故障预测方法还包括以下步骤:
S210:根据预测到的剩余寿命概率,以及预定时间段内的磁盘数量,计算预定时间内的故障磁盘数量。
根据训练集中的磁盘,统计每天坏盘的比例如下:
Figure BDA0002606185390000101
其中,disk_failure_rate为单位时间内的坏盘比例,failuredisk为坏盘总量,alldisk为磁盘总量。这样,根据disk_failure_rate及当天磁盘数量的乘积,即可得到当天依次磁盘数量的上限。按照预测概率值的排序,从初选磁盘中优选前N个磁盘,即可作为最终故障磁盘。
另外,为了实现上述方法,本申请下述各实施例还提供了基于二分类的多模型磁盘故障预测系统,通过下述多模型磁盘故障预测系统能够实现上述方法的功能,因为具体操作步骤上述方法已经提及,因此重复部分不再赘述。
参见图9,图9为本发明实施例提供的一种基于二分类的多模型磁盘故障预测系统的结构示意图。如图9所示,该多模型磁盘故障预测系统包括:
采样模块101,用于对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征。
差分计算模块102,用于对磁盘状态特征进行差分计算。
提取模块103,用于对差分结果进行时序特征提取,得到磁盘时序特征。
机器学习模块104,用于将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型。
概率预测模块105,用于使用多个二分类模型对测试集中磁盘进行剩余寿命概率预测。
故障预测模块106,用于根据预测到的剩余寿命概率,预测磁盘的故障状态。
本申请实施例提供的基于二分类的多模型磁盘故障预测系统,通过对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征,然后对该磁盘状态特征进行差分计算,就能够了解到相邻时间段内磁盘的故障状态变化,然后对差分结果进行时序特征提取,能够获取预定时段内与磁盘故障状态变化量相关的特征,进而将该磁盘时序特征输入至XGBoost算法进行机器学习,从而得到多个用于预测磁盘剩余寿命概率的二分类模型,二分类模型是根据磁盘属性特征得到的,这样二分类模型是描述一定时间段内的磁盘剩余寿命概率,因为磁盘寿命越靠近磁盘故障日期或检测截止日期,则该磁盘剩余寿命越短,对该磁盘寿命的预测概率(即发生故障的预测概率)将越大,这样通过使用多个二分类模型,就能够准确预测磁盘的剩余寿命概率,进而准确预测磁盘的故障状态。本申请技术方案解决了背景技术中磁盘故障的预测难度大,长期预测的稳定性差的问题。
另外,作为一种优选的实施例,如图10所示,上述采样模块101,包括:
特征选取子模块1011,用于对训练集中磁盘进行值域分析和跳变分析,选取得到与磁盘故障相关的多个SMART特征。
特征计算子模块1012,用于根据训练集中磁盘的读写量累积值和磁盘上电时间,计算得到与磁盘读写相关的磁盘IO特征。
另外,作为一种优选的实施例,上述差分计算模块102具体用于分别对SMART特征和磁盘IO特征进行一阶差分,得到与磁盘故障变化量相关的SMART特征差分值和磁盘IO特征差分值;
上述提取模块103,具体用于按照预设提取窗口分别对SMART特征差分值和磁盘IO特征差分值进行时序特征提取,得到多个分别与SMART特征差分值和磁盘IO特征差分值对应的磁盘时序特征。
另外作为一种优选的实施例,如图11所示,上述概率预测模块105,包括:
均值计算子模块1051,用于对多个二分类模型预测的剩余寿命概率进行均值计算,得到测试集中磁盘的最终剩余寿命概率。
概率判断子模块1052,用于判断最终剩余寿命概率是否大于或等于预设寿命概率阈值。
故障磁盘确定子模块1053,用于当概率判断子模块判定最终剩余寿命概率大于或等于预设寿命概率阈值时,确定磁盘为故障磁盘。
综上,本申请上述实施例提供的技术方案,通过特征选择方法优选磁盘故障相关的SMART特征,结合IO带宽特征,进一步通过差分和时序特征提取,衡量了原始SMART特征和IO带宽特征在过去一段时间内的变化量的统计值,同时训练多个模型以增加短期预测值的权重,降低长期预测值的权重,相比传统的多分类和回归算法,本发明的技术方案预测P(R≤r)的效果优于P(R=r),能够有效提升磁盘故障预测的精确率和召回率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于二分类的多模型磁盘故障预测方法,其特征在于,包括:
对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征;
对所述磁盘状态特征进行差分计算,并对差分结果进行时序特征提取,得到磁盘时序特征;
将所述磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型;
使用所述多个二分类模型对测试集中磁盘进行剩余寿命概率预测,根据预测到的剩余寿命概率,预测所述磁盘的故障状态;
所述将磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型的步骤,包括:
根据磁盘故障发生的时间,将所述磁盘序列特征输入至所述XGBoost算法进行机器学习;
使用所述XGBoost算法计算距离磁盘故障发生的多个预定临近时间内,磁盘剩余寿命小于或等于所述预定临近时间的二分类模型,其中,所述预定临近时间越靠近所述磁盘故障发生时间,所述二分类模型的预测权重越大。
2.根据权利要求1所述的多模型磁盘故障预测方法,其特征在于,所述对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征的步骤,包括:
对训练集中磁盘进行值域分析和跳变分析,选取得到与磁盘故障相关的多个SMART特征;
根据训练集中磁盘的读写量累积值和磁盘上电时间,计算得到与磁盘读写相关的磁盘IO特征。
3.根据权利要求2所述的多模型磁盘故障预测方法,其特征在于,所述对所述磁盘状态特征进行差分计算,并对差分结果进行时序特征提取,得到磁盘时序特征的步骤,包括:
分别对所述SMART特征和磁盘IO特征进行一阶差分,得到与磁盘故障变化量相关的SMART特征差分值和磁盘IO特征差分值;
按照预设提取窗口分别对所述SMART特征差分值和磁盘IO特征差分值进行时序特征提取,得到多个分别与所述SMART特征差分值和磁盘IO特征差分值对应的磁盘时序特征。
4.根据权利要求1所述的多模型磁盘故障预测方法,其特征在于,所述使用所述多个二分类模型对测试集中磁盘进行剩余寿命概率预测的步骤,包括:
对所述多个二分类模型预测的剩余寿命概率进行均值计算,得到所述测试集中磁盘的最终剩余寿命概率;
判断所述最终剩余寿命概率是否大于或等于预设寿命概率阈值;
若判定所述最终剩余寿命概率大于或等于预设寿命概率阈值,则确定所述磁盘为故障磁盘。
5.根据权利要求1所述的多模型磁盘故障预测方法,其特征在于,在所述根据预测到的剩余寿命概率,预测所述磁盘的故障状态的步骤之后,所述方法还包括:
根据预测到的剩余寿命概率,以及预定时间段内的磁盘数量,计算所述预定时间内的故障磁盘数量。
6.一种基于二分类的多模型磁盘故障预测系统,其特征在于,包括:
采样模块,用于对训练集中磁盘进行采样,选取与磁盘故障相关的磁盘状态特征;
差分计算模块,用于对所述磁盘状态特征进行差分计算;
提取模块,用于对差分结果进行时序特征提取,得到磁盘时序特征;
机器学习模块,用于将所述磁盘时序特征输入至XGBoost算法进行机器学习,得到用于预测磁盘剩余寿命概率的多个二分类模型;
概率预测模块,用于使用所述多个二分类模型对测试集中磁盘进行剩余寿命概率预测;
故障预测模块,用于根据预测到的剩余寿命概率,预测所述磁盘的故障状态。
7.根据权利要求6所述的多模型磁盘故障预测系统,其特征在于,所述采样模块,包括:
特征选取子模块,用于对训练集中磁盘进行值域分析和跳变分析,选取得到与磁盘故障相关的多个SMART特征;
特征计算子模块,用于根据训练集中磁盘的读写量累积值和磁盘上电时间,计算得到与磁盘读写相关的磁盘IO特征。
8.根据权利要求7所述的多模型磁盘故障预测系统,其特征在于,所述差分计算模块具体用于分别对所述SMART特征和磁盘IO特征进行一阶差分,得到与磁盘故障变化量相关的SMART特征差分值和磁盘IO特征差分值;
所述提取模块,具体用于按照预设提取窗口分别对所述SMART特征差分值和磁盘IO特征差分值进行时序特征提取,得到多个分别与所述SMART特征差分值和磁盘IO特征差分值对应的磁盘时序特征。
9.根据权利要求6所述的多模型磁盘故障预测系统,其特征在于,所述概率预测模块,包括:
均值计算子模块,用于对所述多个二分类模型预测的剩余寿命概率进行均值计算,得到所述测试集中磁盘的最终剩余寿命概率;
概率判断子模块,用于判断所述最终剩余寿命概率是否大于或等于预设寿命概率阈值;
故障磁盘确定子模块,用于当所述概率判断子模块判定所述最终剩余寿命概率大于或等于预设寿命概率阈值时,确定所述磁盘为故障磁盘。
CN202010739160.3A 2020-07-28 2020-07-28 一种基于二分类的多模型磁盘故障预测方法和系统 Active CN111984511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010739160.3A CN111984511B (zh) 2020-07-28 2020-07-28 一种基于二分类的多模型磁盘故障预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010739160.3A CN111984511B (zh) 2020-07-28 2020-07-28 一种基于二分类的多模型磁盘故障预测方法和系统

Publications (2)

Publication Number Publication Date
CN111984511A CN111984511A (zh) 2020-11-24
CN111984511B true CN111984511B (zh) 2022-12-27

Family

ID=73444568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010739160.3A Active CN111984511B (zh) 2020-07-28 2020-07-28 一种基于二分类的多模型磁盘故障预测方法和系统

Country Status (1)

Country Link
CN (1) CN111984511B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112731903B (zh) * 2020-11-27 2022-05-10 成都飞机工业(集团)有限责任公司 一种全电传飞控故障的诊断系统及方法
CN113778791B (zh) * 2021-08-19 2023-07-18 苏州浪潮智能科技有限公司 一种分布式存储磁盘的故障预警方法及系统
CN116627093B (zh) * 2023-04-19 2024-02-27 济南海马机械设计有限公司 一种丁腈手套加工控制方法、系统、设备及存储介质
CN116701150B (zh) * 2023-06-19 2024-01-16 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647456B (zh) * 2019-09-29 2022-12-27 苏州浪潮智能科技有限公司 一种存储设备的故障预测方法、系统及相关装置

Also Published As

Publication number Publication date
CN111984511A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111984511B (zh) 一种基于二分类的多模型磁盘故障预测方法和系统
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN108052528B (zh) 一种存储设备时序分类预警方法
CN111752775B (zh) 一种磁盘故障预测方法和系统
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN109739739B (zh) 磁盘故障的预测方法、设备及存储介质
CN113098723B (zh) 一种故障根因定位方法、装置、存储介质及设备
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN112951311A (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
CN112988550A (zh) 服务器故障预测方法、装置和计算机可读介质
CN111061581A (zh) 一种故障检测方法、装置及设备
CN111858108B (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN113822336A (zh) 一种云硬盘故障预测方法、装置、系统及可读存储介质
CN112652351A (zh) 硬件状态检测方法、装置、计算机设备及存储介质
CN112882898A (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN111400122B (zh) 一种硬盘健康度评估方法及装置
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN115794451A (zh) 基于存储设备健康状态的执行策略预测方法、装置及系统
CN109978038B (zh) 一种集群异常判定方法及装置
CN111367781B (zh) 一种实例处理方法及其装置
CN114398235A (zh) 基于融合学习和假设检验的内存回收趋势预警装置及方法
CN113539352A (zh) 一种固态硬盘隐性故障检测方法及相关设备
CN117093433B (zh) 故障检测方法、装置、电子设备及存储介质
Oakley et al. Examining the impact of critical attributes on hard drive failure times: Multi‐state models for left‐truncated and right‐censored semi‐competing risks data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant