CN114048796A - 一种改进型硬盘故障预测方法及装置 - Google Patents

一种改进型硬盘故障预测方法及装置 Download PDF

Info

Publication number
CN114048796A
CN114048796A CN202111211138.2A CN202111211138A CN114048796A CN 114048796 A CN114048796 A CN 114048796A CN 202111211138 A CN202111211138 A CN 202111211138A CN 114048796 A CN114048796 A CN 114048796A
Authority
CN
China
Prior art keywords
decision tree
hard disk
node
samples
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111211138.2A
Other languages
English (en)
Inventor
邬成博
王琳
蓝科
张国兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN202111211138.2A priority Critical patent/CN114048796A/zh
Publication of CN114048796A publication Critical patent/CN114048796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种改进型硬盘故障预测方法及装置,主要解决现有技术中存在的现有硬盘故障预测模型正负样本的不平衡、决策树易过拟合及随机采样生成的数据子集造成的决策树决策结果准确性差异化的问题。该一种改进型硬盘故障预测方法利用通过基于层次聚类改进的SMOTE算法缓解数据不平衡导致的偏差,使用引入了新的评价标准和限制条件的改进CCP剪枝方法解决决策树过拟合,结合AdaBoost和随机森林学习模型,采用投票法得出预测结果。通过上述方案,本发明达到了更加有效并且准确地进行硬盘故障预测。

Description

一种改进型硬盘故障预测方法及装置
技术领域
本发明涉及硬盘监控技术领域,具体地说,是涉及一种改进型硬盘故障预测方法及装置。
背景技术
随着互联网的快速发展,全球进入了全面信息化时代,信息量也随之经历着爆炸式的增长。面对如此海量数据,如何安全有效地进行数据的储存,是互联网行业正在面临的巨大挑战;以硬盘作为存储媒介的存储系统中,这些硬盘需要大量的服务器来承载,其中任何一台服务器出现故障都会影响存储系统的可用性。为了有效的解决由于硬盘故障而导致的信息安全性问题,减少由信息流失、信息错误带来的损失,可以通过机器学习算法建立硬盘故障预测模型,提前故障的硬盘并采取修理措施,进而提高数据储存的高效性和安全性。
硬盘的故障检测主要通过S.M.A.R.T技术,即“自我监测、分析及报告技术”实现,该技术检测硬盘一些重要健康指标属性,当其中任意一个属性超过了设定的阈值时,则认为硬盘发生故障,并发出用户发送预警信息,用户可以通过收到的预警信息及时对硬盘进行维修或者更换;现有通过机器学习算法建立硬盘故障预测模型面临的问题如下:
1.故障的硬盘数量远远小于正常的硬盘数量,因此硬盘故障是一个概率很小的状况,故障样本远少于正常样本,甚至可能有成百上千倍差距,正负样本的不平衡问题将会对预测模型算法的准确性产生一定的影响。
2.面对大数据量的训练样本集,算法生成的决策树会非常详细,每个属性都加以考虑得话,预测模型的决策树易产生过拟合问题,不能有效且准确的对测试集进行预测。
3.一般采用随机森林算法对训练数据集进行随机抽样形成训练子集,导致决策树子集数据之间差异巨大,数据量的增大也致使随机森林模型的复杂性增加,硬盘预测的效率和准确率下降。
发明内容
本发明的目的在于提供一种改进型硬盘故障预测方法及装置,以解决现有硬盘故障预测模型正负样本的不平衡、决策树易过拟合及随机采样生成的数据子集造成的决策树决策结果准确性差异化的问题。
为了解决上述问题,本发明提供如下技术方案:
一种改进型硬盘故障预测方法包括以下步骤:
S1、输入硬盘的历史S.M.A.R.T训练数据集,利用基于层次聚类改进的SMOTE算法使其中的正负样本数据的数量达到平衡;这里的平衡是大致相等即可,也可完全相等完全平衡;
S2、将步骤S1得到的历史S.M.A.R.T训练数据集等分为N份子数据集;
S3、利用基于Bagging算法的CART决策树算法分别在步骤S2的N份子数据集上构建多个CART决策树;
S4、将步骤S3中每个子数据集上的CART决策树作为弱分类器,反复训练CART决策树预测样本输出,通过AdaBoost算法得到每个子数据集中多个CART决策树弱分类器组成的强分类器;统计得出N份强分类器数据的分类结果;
S5、对步骤S4得到的强分类器进行组合构成随机森林故障预测模型;测试训练集通过随机森林故障预测模型采用投票法得出预测结果。
本发明中AdaBoost算法针对同一个训练数据集训练出不同的弱分类器,并且将弱分类器结合构建强分类器的迭代算法,可以有效的避免随机采样产生的训练子集差异性;基于层次聚类改进的SMOTE采样法,利用改进CCP剪枝方法对决策树剪枝,可以缓解数据不平衡对分类结果造成的偏差,并且避免过拟合现象,结合AdaBoost算法和随机森林算法构成分类器,为硬盘故障预测提供了一种高效且准确的解决方法。
进一步的,步骤S1的具体过程如下:
S101、对输入硬盘的历史S.M.A.R.T训练数据集中的硬盘故障类别样本进行层次聚类,得到簇划分A={A1,A2...AT};
S102、使用SMOTE算法对历史S.M.A.R.T训练数据集中的故障类别样本进行分析和模拟,并将人工模拟的新样本添加到历史S.M.A.R.T训练数据集中,进而使历史S.M.A.R.T训练数据集中正负样本的数量平衡。
进一步的,步骤S101的具体过程如下:
(1)将每个故障类样本归为一类,共得到Nfailure个类,Nfailure为故障类样本的数量,每类仅包含一个对象;计算任两个类与类之间的欧氏距离,即
Figure BDA0003308975690000041
其中dist(X,Y)表示欧氏距离,xi和yi分别表示样本,n表示样本数;
(2)将欧式距离最近的两类合并为一个新类,重新计算新类与所有旧类之间的欧氏距离;根据样本的采样不平衡比例确定采样倍率T,这里T根据最终的平衡要求操作员自己设定即可,直到最后合并成T个类A={A1,A2,…AT}为止。
进一步的,步骤S102的具体过程如下:
(1)对于故障类At(t=1,2,…T)中每一个样本x,以欧氏距离为标准计算它到故障类样本集At中所有样本的距离,得到其k个近邻;
(2)根据样本的采样不平衡比例确定采样倍率T,对于每一个故障类At中样本x,从其k个近邻中随机选择T个样本组成集合Bt
(3)对于任意一个样本xk∈Bt(k=1,2,3…T),按照如下的公式构建新的样本:
xnew=x+rand(0,1)×|x-xk|
其中xnew为新生成的样本实例,rand(0,1)为一个随机生成的从0至1区间内的数的函数;
(4)将人工模拟的新样本xnew添加到数据集Bt(k=1,2,3…T)中,重复步骤(1)–(3),直至数据集中正负样本的数量达到平衡。
进一步的,步骤S3中在每个子数据集上构建多个CART决策树后,采用改进型CCP剪枝方法对CART决策树进行剪枝得到剪枝后的CART决策树;步骤S4中是将剪枝后的CART决策树作为弱分类器。
进一步的,改进型CCP剪枝方法的具体过程如下:
(1)首先,输入CART算法生成的决策树T0
(2)设k=0,T=T0,k表示样本类别;
(3)设初始的表面误差增益率α=+∞;
(4)将决策树T0中叶子结点的值不是训练集的分类的叶子结点设为失败结点;判断叶子节点中的失败结点数是否大于子结点总数的1/3,是则对该结点进行提前剪枝处理,否则不做任何处理;
(5)自下而上地对各个内部节点t计算非叶子节点的表面误差增益率g(t):
Figure BDA0003308975690000051
α=min(α,g(t)),
其中R(t)表示叶子节点的误差代价,R(t)=r(t)*p(t),r(t)为节点的错误率,p(t)为节点数据量的占比;R(T)表示自述的误差代价,
Figure BDA0003308975690000052
ri(t)为子节点i的错误率,pi(t)为节点i的数据节点占比;N(t)表示子树节点个数,α为非叶子节点的表面误差增益率;
(6)自上而下地访问各个内部节点t,判断是否有g(t)=α,有则进行剪枝,并且对叶子节点t以多数表决法决定其分类,得到树T,将树T放进子树集合;否则不做任何处理;
(7)计算决策树的分类精度系数a(T):
a(T)=∑t∈Nlp(t)a'(t),其中
Figure BDA0003308975690000061
定义N'为剪枝样例集中的测试实例总数,n'(t)为剪枝集中进入到决策树的节点t的实例个数,e'(t)为剪枝集中到达节点t并且属于节点t的类别标签实例总数,Nl为决策树T中的所有叶子节点,p(t)为节点数据量的占比;决策树的a(T)越大,说明分类效果越明显,决策树的分类性能越高;a'(t)表示内部节点t的表面误差增益率,N'为剪枝样例集中的测试实例总数;
(7)均衡考虑决策树的叶子节点个数与树深之间的关系,计算决策树的规模系数d(T):
Figure BDA0003308975690000062
其中d(m)为决策树规模系数关于决策树T的叶子节点数m的函数,决策树的叶子节点数节点数量保持在5-10个时的分类效果最为理想,如果决策树中叶子节点小于2个或大于25个则实际应用效果较差,因此
Figure BDA0003308975690000063
其中d(h)为决策树规模系数关于决策树T的最大深度h的函数,决策树的深度通常在2层-5层最恰当,深度小于2层或者深度大于10层在实际应用时效果不太理想,因此
Figure BDA0003308975690000071
决策树的d(T)值越大,说明决策树的复杂程度越适中;
(9)计算决策树的重要性系数I(T)=waa(T)+wdd(T),wa+wd=1,wa为分类精度系数的权重值,wd为规模系数的权重值,假如决策树的复杂程度即d(T)低于设定值,为避免剪枝策略过于倾向于节点少的子树,应当调整降低规模系数的权重值wa,这里调整是根据d(T)值由操作员自己根据实践经验调整;如果没有特殊的倾向性考虑,一般默认均匀分配权值,即统一取值为
Figure BDA0003308975690000072
(10)更新k=k+1,Tk=T,αk=α;
(11)如果T不是由根节点单独构成的树,返回步骤3;
(12)在子树集合{T0,T1,T2,…,Tn}中,选取重要性系数I(Tmax)最大的子树为最优子树Tmax
进一步的,步骤S4的具体过程如下:
4)从样本中选择n组训练数据,设定决策树弱分类器的个数为T,初始化训练样本数据集的权值分布为:
Figure BDA0003308975690000073
其中w1,i表示训练第一个CART决策树时第i个样本的权值;
5)对T个CART决策树进行训练,在训练第t个弱分类器时,进行下列步骤(t=1,2,…,T):
2.1计算训练集上每个样本的真实值与弱分类器预测结果之间的误差,从而得出预测分类误差率et
et=∑iwt,iI(gt(xi)≠yi)i=1,2,…,T:
式中gt(xi)为第t个CART决策树第i个训练数据的预测标签分类结果,yi为第i个样本的实际标签分类结果;当gt(xi)和yi相等时,I(gt(xi)≠yi)取值为0;当gt(xi)和yi不相等时,I(gti)≠yi)取值为1;
2.2根据预测分类误差率et计算弱分类器的权重αt,权值计算公式如下:
Figure BDA0003308975690000081
2.3根据弱分类的权重更新训练样本的权重分布Wt+1=(wt+1,1,wt+1,2,…,wt+1,n)
Figure BDA0003308975690000082
6)在达到规定的迭代次数或者预期的误差率时,则强分类器构建完成;训练出T组弱分类器f(gtt),并计算出各个弱分类器对应的权重系数αt,构建弱分类器的线性组合,得到最终的强分类器h(x):
Figure BDA0003308975690000083
进一步的,步骤S2中是对历史S.M.A.R.T训练数据集使用随机取样的方法,将其等分为N份子数据集。
一种改进型硬盘故障预测方法及装置包括存储器:用于存储可执行指令;处理器:用于执行所述存储器中存储的可执行指令,实现一种改进型硬盘故障预测方法。
与现有技术相比,本发明具有以下有益效果:
(1)本发明在随机森林模型建立前用基于层次聚类改进的SMOTE算法处理历史S.M.A.R.T训练数据样本,得到类间和类内均达到平衡的新数据集,解决了因不平衡数据的分布导致的分布边缘化问题,使样本中的正负样本达到平衡,正负样本数量之间不再有几百乃至上千倍差距,从而减小或避免不平衡对分类结果造成的偏差。
(2)本发明采用改进的CCP剪枝方法对生成的CART决策树进行剪枝,避免决策树对于训练数据集的属性学习过于详细,导致难以有效的对测试集数据进行预测,解决决策树过拟合的问题;通过限制失败结点的数量,对失败结点较多的决策树进行提前剪枝,缓解由于数据不完整导致的正确率降低的问题,与此同时也降低了CCP算法的时间复杂度,减少了时间开销;增加了评价标准对CCP方法进行补充,综合考虑了决策树的分类精度和决策树规模对决策树性能的影响,以免修剪决策树过于粗糙,避免过度剪切。
(3)本发明的模型结合了AdaBoost和随机森林两种集成学习器,得到更有效率的集成分类器;采用AdaBoost算法减弱了因随机抽样导致样本之间差异过大而导致的误差,模型的鲁棒性比较强,解释强,结构简单。模型的训练可以并行化,对于大规模样本的训练具有速度的优势。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明的流程架构示意图。
图2为本发明中改进SMOTE过程流程图。
图3为本发明中CART决策树构建流程图。
图4为本发明中改进CCP剪枝方法。
图5为本发明中AdaBoost算法流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合图1至图5对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
如图1至图5所示,本发明基于改进SMOTE采样法结合AdaBoost和随机森林的模型建立方法对硬盘故障进行分析预测;通过基于层次聚类改进的SMOTE算法缓解数据不平衡导致的偏差,使用引入了新的评价标准和限制条件的改进CCP剪枝方法解决决策树过拟合,结合AdaBoost和随机森林学习模型,更加有效并且准确地进行硬盘故障预测;本发明的方法包括以下步骤:
1.基于层次聚类改进的SMOTE算法解决样本数据不平衡问题
S1:训练模型前,对输入的硬盘的历史S.M.A.R.T训练数据集中的硬盘故障类别样本进行层次聚类,得到簇划分A={A1,A2,…AT};
1)将每个故障类样本归为一类,共得到Nfailure个类,Nfailure为故障类样本的数量,每类仅包含一个对象。计算任两个类与类之间的欧氏距离,即
Figure BDA0003308975690000111
其中,其中dist(X,Y)表示欧氏距离,xi和yi分别表示样本,n表示样本数。
2)将距离最近的两类合并为一个类,重新计算新的类与所有旧类之间的欧氏距离;
3)重复步骤2,根据样本的采样不平衡比例确定采样倍率T,直到最后合并成T个类A={A1,A2,…AT}为止。
S2:使用SMOTE算法对故障类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使数据集中正负样本的数量平衡。SMOTE算法具体步骤如下:
1)对于故障类At(t=1,2,…T)中每一个样本x,以欧氏距离为标准计算它到故障类样本集At中所有样本的距离,得到其k个近邻;
2)根据样本的采样不平衡比例确定采样倍率T,对于每一个故障类At中样本x,从其k个近邻中随机选择T个样本(例如x1,x2,…,xT)组成集合Bt
3)对于任意一个样本xk∈Bt(k=1,2,3…T),按照如下的公式构建新的样本:
xnew=x+rand(0,1)×|x-xk|
其中xnew为新生成的样本实例,rand(0,1)为一个随机生成的从0至1区间内的数的函数;
4)将人工模拟的新样本xnew添加到数据集Bt(k=1,2,3…T)中,重复步骤1)–3),直至数据集中正负样本的数量达到平衡。
2.随机抽样
S3:通过对改进SMOTE算法处理过后的数据集使用随机取样的方法,将数据集等分为N份子数据集。
3.CART决策树的构建与改进CCP剪枝方法
S4:利用基于Bagging算法的CART决策树算法在N份子数据集上构建多个CART决策树.CART决策树生成具体步骤如下:
对给定的子数据集中进行不放回的随机采样抽取出若干样本,每一个样本D为:{(x1,y1),(x2,y2),…,(xM,yM)},其中
Figure BDA0003308975690000121
Figure BDA0003308975690000122
为硬盘的S.M.A.R.T属性特征,F为属性特征个数,i=1,2,…,M,M为样本容量,yi表示对应于样本特征xi的硬盘标签分类结果,故障的磁盘标签置为1,非故障盘的标签置为0。
1)创建根节点,用样本数据集递归建立CART分类树;输入基尼系数的阈值和样本个数阈值;
2)对于当前节点的数据集为D,如果样本个数小于阈值或没有特征,则返回决策子树,当前节点停止递归;
3)计算样本集D的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归,计算样本的基尼系数的表达式为:
Figure BDA0003308975690000123
其中M为样本个数,K为样本类别个数,|Ck|为第k个类别的数量;
4)计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。对于每一个特征A,对其可能取得每一个值a,根据此值将训练样本切分为D1和D2两部分。特征A的条件下,样本D的基尼系数表达式为:
Figure BDA0003308975690000131
其中M1,M2为数据集D1和D2的样本个数;
5)在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征Amin和对应的特征值amin。根据这个最优特征和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点;
6)对左右的子节点递归的调用2-5步骤,生成决策树。
S5:为了缓解过拟合的风险,采用CCP(代价复杂度)剪枝方法对决策树剪枝。CART决策树CCP剪枝方法具体步骤如下:
1)首先,输入CART算法生成的决策树T0
2)设k=0,T=T0,k表示样本类别;
3)设初始的表面误差增益率α=+∞;
4)将决策树中叶子结点的值不是训练集的分类的叶子结点设为失败结点。因为传统的CCP剪枝方法没有对失败结点进行限制,由于数据不完整会导致正确率降低。所以改进后的CCP剪枝法在除根结点以外的其它非叶子结点,如果叶子节点t中的失败结点数大于子结点总数的1/3,则对该结点进行提前剪枝处理;
5)自下而上地对各个内部节点t计算非叶子节点的表面误差增益率g(t):
Figure BDA0003308975690000141
α=min(α,g(t)),
其中R(t)表示叶子节点的误差代价(Gini系数),R(t)=r(t)*p(t),r(t)为节点的错误率,p(t)为节点数据量的占比;R(T)表示自述的误差代价(Gini系数),
Figure BDA0003308975690000142
ri(t)为子节点i的错误率,pi(t)为节点i的数据节点占比;N(t)表示子树节点个数;
6)自上而下地访问各个内部节点t,如果有g(t)=α,进行剪枝。并且对叶子节点t以多数表决法决定其分类,得到树T,将树T放进子树集合;
7)改进的CCP剪枝法综合考虑了决策树的分类精度和决策树规模对决策树性能的影响,以免修剪决策树过于粗糙,避免过度剪切。计算决策树的分类精度系数a(T):
a(T)=∑t∈Nlp(t)a'(t),其中
Figure BDA0003308975690000143
定义N'为剪枝样例集中的测试实例总数,n'(t)为剪枝集中进入到决策树的节点t的实例个数,e'(t)为剪枝集中到达节点t并且属于节点t的类别标签实例总数,Nl为决策树T中的所有叶子节点。决策树的a(T)越大,说明分类效果越明显,决策树的分类性能越高;a'(t)表示内部节点t的表面误差增益率,N'为剪枝样例集中的测试实例总数。
8)均衡考虑决策树的叶子节点个数与树深之间的关系,计算决策树的规模系数d(T):
Figure BDA0003308975690000151
其中d(m)为决策树规模系数关于决策树T的叶子节点数m的函数,根据经验,决策树的叶子节点数节点数量保持在5-10个时的分类效果最为理想,如果决策树中叶子节点小于2个或大于25个则实际应用效果较差,因此
Figure BDA0003308975690000152
其中d(h)为决策树规模系数关于决策树T的最大深度h的函数,决策树的深度通常在2层-5层最恰当,深度小于2层或者深度大于10层在实际应用时效果不太理想,因此
Figure BDA0003308975690000153
决策树的d(T)值越大,说明决策树的复杂程度越适中。
9)计算决策树的重要性系数I(T)=waa(T)+wdd(T),wa+wd=1。wa为分类精度系数的权重值,wd为规模系数的权重值。假如决策树的复杂程度原本就很低,为避免剪枝策略过于倾向于节点少的子树,应当调整降低规模系数的权重值。如果没有特殊的倾向性考虑,一般默认均匀分配权值,即统一取值为
Figure BDA0003308975690000154
10)更新k=k+1,Tk=T,αk=α;
11)如果T不是由根节点单独构成的树,返回步骤3;
12)在子树集合{T0,T1,T2,…,Tn}中,选取重要性系数I(Tmax)最大的子树为最优子树Tmax
4.使用AdaBoost算法组成强分类器
S6:将CART决策树作为弱分类器,反复训练决策树预测样本输出,通过AdaBoost算法得到多个决策树弱分类器组成的强分类器,得到N组强分类器数据的分类结果。基于AdaBoost集成学习的硬盘标签数据值预测步骤如下:
7)从样本中选择n组训练数据,设定决策树弱分类器的个数为T,初始化训练样本数据集的权值分布为:
Figure BDA0003308975690000161
其中w1,i表示训练第一个CART决策树时第i个样本的权值;
8)对T个CART决策树进行训练,在训练第t个弱分类器时,进行下列步骤(t=1,2,…,T):
①计算训练集上每个样本的真实值与弱分类器预测结果之间的误差,从而得出预测分类误差率et
et=∑iwt,iI(gt(xi)≠yi)i=1,2,…,T:
式中gt(xi)为第t个CART决策树第i个训练数据的预测标签分类结果,yi为第i个样本的实际标签分类结果;当gt(xi)和yi相等时,I(gt(xi)≠yi)取值为0;当gt(xi)和yi不相等时,I(gt(xi)≠yi)取值为1;
②根据预测分类误差率et计算弱分类器的权重αt,权值计算公式如下:
Figure BDA0003308975690000162
③根据弱分类的权重更新训练样本的权重分布Wt+1=(wt+1,1,wt+1,2,…,wt+1,n)
Figure BDA0003308975690000171
9)在达到规定的迭代次数或者预期的误差率时,则强分类器构建完成。训练出T组弱分类器f(gtt),并计算出各个弱分类器对应的权重系数αt,构建弱分类器的线性组合,得到最终的强分类器h(x):
Figure BDA0003308975690000172
5.随机森林算法得到预测结果
S7:最后对由AdaBoost得到的决策树进行组合,构成随机森林故障预测模型,即对由AdaBoost得到的N组强分类器数据的分类结果采用投票法的方式得到最后的结果。
实施例2
一种改进型硬盘故障预测方法及装置包括存储器:用于存储可执行指令;处理器:用于执行所述存储器中存储的可执行指令,实现一种改进型硬盘故障预测方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种改进型硬盘故障预测方法,其特征在于,包括以下步骤:
S1、输入硬盘的历史S.M.A.R.T训练数据集,利用基于层次聚类改进的SMOTE算法使其中的正负样本数据的数量达到平衡;
S2、将步骤S1得到的历史S.M.A.R.T训练数据集等分为N份子数据集;
S3、利用基于Bagging算法的CART决策树算法分别在步骤S2的N份子数据集上构建多个CART决策树;
S4、将步骤S3中每个子数据集上的CART决策树作为弱分类器,反复训练CART决策树预测样本输出,通过AdaBoost算法得到每个子数据集中多个CART决策树弱分类器组成的强分类器;统计得出N份强分类器数据的分类结果;
S5、对步骤S4得到的强分类器进行组合构成随机森林故障预测模型;测试训练集通过随机森林故障预测模型采用投票法得出预测结果。
2.根据权利要求1所述的一种改进型硬盘故障预测方法,其特征在于,步骤S1的具体过程如下:
S101、对输入硬盘的历史S.M.A.R.T训练数据集中的硬盘故障类别样本进行层次聚类,得到簇划分A={A1,A2...AT};
S102、使用SMOTE算法对历史S.M.A.R.T训练数据集中的故障类别样本进行分析和模拟,并将人工模拟的新样本添加到历史S.M.A.R.T训练数据集中,进而使历史S.M.A.R.T训练数据集中正负样本的数量平衡。
3.根据权利要求2所述的一种改进型硬盘故障预测方法,其特征在于,步骤S101的具体过程如下:
(1)将每个故障类样本归为一类,共得到Nfailure个类,Nfailure为故障类样本的数量,每类仅包含一个对象;计算任两个类之间的欧氏距离,即
Figure FDA0003308975680000021
其中dist(X,Y)表示欧氏距离,xi和yi分别表示样本,n表示样本数;
(2)将欧式距离最近的两类合并为一个新类,重新计算新类与所有旧类之间的欧氏距离;根据样本的采样不平衡比例确定采样倍率T,直到最后合并成T个类A={A1,A2,...AT}为止。
4.根据权利要求3所述的一种改进型硬盘故障预测方法,其特征在于,步骤S102的具体过程如下:
(1)对于故障类At(t=1,2,...T)中每一个样本x,以欧氏距离为标准计算它到故障类样本集At中所有样本的距离,得到其k个近邻;
(2)根据样本的采样不平衡比例确定采样倍率T,对于每一个故障类At中样本x,从其k个近邻中随机选择T个样本组成集合Bt
(3)对于任意一个样本xk∈Bt(k=1,2,3...T),按照如下的公式构建新的样本:
xnew=x+rand(0,1)×|x-xk|
其中xnew为新生成的样本实例,rand(0,1)为一个随机生成的从0至1区间内的数的函数;
(4)将人工模拟的新样本xnew添加到数据集Bt(k=1,2,3...T)中,重复步骤(1)-(3),直至数据集中正负样本的数量达到平衡。
5.根据权利要求4所述的一种改进型硬盘故障预测方法,其特征在于,步骤S3中在每个子数据集上构建多个CART决策树后,采用改进型CCP剪枝方法对CART决策树进行剪枝得到剪枝后的CART决策树;步骤S4中是将剪枝后的CART决策树作为弱分类器。
6.根据权利要求5所述的一种改进型硬盘故障预测方法,其特征在于,改进型CCP剪枝方法的具体过程如下:
(1)首先,输入CART算法生成的决策树T0
(2)设k=0,T=T0,k表示样本类别;
(3)设初始的表面误差增益率α=+∞;
(4)将决策树T0中叶子结点的值不是训练集的分类的叶子结点设为失败结点;判断叶子节点中的失败结点数是否大于子结点总数的1/3,是则对该结点进行提前剪枝处理,否则不做任何处理;
(5)自下而上地对各个内部节点t计算非叶子节点的表面误差增益率g(t):
Figure FDA0003308975680000031
α=min(α,g(t)),
其中R(t)表示叶子节点的误差代价,R(t)=r(t)*p(t),r(t)为节点的错误率,p(t)为节点数据量的占比;R(T)表示自述的误差代价,
Figure FDA0003308975680000032
ri(t)为子节点i的错误率,pi(t)为节点i的数据节点占比;N(t)表示子树节点个数,α为非叶子节点的表面误差增益率;
(6)自上而下地访问各个内部节点t,判断是否有g(t)=α,有则进行剪枝,并且对叶子节点t以多数表决法决定其分类,得到树T,将树T放进子树集合;否则不做任何处理;
(7)计算决策树的分类精度系数a(T):
a(T)=∑t∈Nlp(t)a′(t),其中
Figure FDA0003308975680000041
定义N′为剪枝样例集中的测试实例总数,n′(t)为剪枝集中进入到决策树的节点t的实例个数,e′(t)为剪枝集中到达节点t并且属于节点t的类别标签实例总数,Nl为决策树T中的所有叶子节点,p(t)为节点数据量的占比;决策树的a(T)越大,说明分类效果越明显,决策树的分类性能越高;a′(t)表示内部节点t的表面误差增益率,N′为剪枝样例集中的测试实例总数;
(7)均衡考虑决策树的叶子节点个数与树深之间的关系,计算决策树的规模系数d(T):
Figure FDA0003308975680000042
其中d(m)为决策树规模系数关于决策树T的叶子节点数m的函数,决策树的叶子节点数节点数量保持在5-10个时的分类效果最为理想,如果决策树中叶子节点小于2个或大于25个则实际应用效果较差,因此
Figure FDA0003308975680000051
其中d(h)为决策树规模系数关于决策树T的最大深度h的函数,决策树的深度通常在2层-5层最恰当,深度小于2层或者深度大于10层在实际应用时效果不太理想,因此
Figure FDA0003308975680000052
决策树的d(T)值越大,说明决策树的复杂程度越适中;
(9)计算决策树的重要性系数I(T)=waa(T)+wdd(T),wa+wd=1,wa为分类精度系数的权重值,wd为规模系数的权重值,假如决策树的复杂程度即d(T)低于设定值,为避免剪枝策略过于倾向于节点少的子树,应当调整降低规模系数的权重值wa;如果没有特殊的倾向性考虑,一般默认均匀分配权值,即统一取值为
Figure FDA0003308975680000053
(10)更新k=k+1,Tk=T,αk=α;
(11)如果T不是由根节点单独构成的树,返回步骤3;
(12)在子树集合{T0,T1,T2,...,Tn}中,选取重要性系数I(Tmax)最大的子树为最优子树Tmax
7.根据权利要求6所述的一种改进型硬盘故障预测方法,其特征在于,步骤S4的具体过程如下:
1)从样本中选择n组训练数据,设定决策树弱分类器的个数为T,初始化训练样本数据集的权值分布为:
W1=(w1,1,w1,2,...,w1,n),
Figure FDA0003308975680000061
其中w1,i表示训练第一个CART决策树时第i个样本的权值;
2)对T个CART决策树进行训练,在训练第t个弱分类器时,进行下列步骤(t=1,2,...,T):
2.1计算训练集上每个样本的真实值与弱分类器预测结果之间的误差,从而得出预测分类误差率et
et=∑iwt,iI(gt(xi)≠yi)i=1,2,...,T:
式中gt(xi)为第t个CART决策树第i个训练数据的预测标签分类结果,yi为第i个样本的实际标签分类结果;当gt(xi)和yi相等时,I(gt(xi)≠yi)取值为0;当gt(xi)和yi不相等时,I(gt(xi)≠yi)取值为1;
2.2根据预测分类误差率et计算弱分类器的权重αt,权值计算公式如下:
Figure FDA0003308975680000062
2.3根据弱分类的权重更新训练样本的权重分布Wt+1=(wt+1,1,wt+1,2,...,wt+1,n)
Figure FDA0003308975680000063
3)在达到规定的迭代次数或者预期的误差率时,则强分类器构建完成;训练出T组弱分类器f(gt,αt),并计算出各个弱分类器对应的权重系数αt,构建弱分类器的线性组合,得到最终的强分类器h(x):
Figure FDA0003308975680000064
8.根据权利要求1所述的一种改进型硬盘故障预测方法,其特征在于,步骤S2中是对历史S.M.A.R.T训练数据集使用随机取样的方法,将其等分为N份子数据集。
9.一种改进型硬盘故障预测方法及装置,其特征在于,包括
存储器:用于存储可执行指令;
处理器:用于执行所述存储器中存储的可执行指令,实现如权利要求1-8任一项所述的一种改进型硬盘故障预测方法。
CN202111211138.2A 2021-10-18 2021-10-18 一种改进型硬盘故障预测方法及装置 Pending CN114048796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111211138.2A CN114048796A (zh) 2021-10-18 2021-10-18 一种改进型硬盘故障预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111211138.2A CN114048796A (zh) 2021-10-18 2021-10-18 一种改进型硬盘故障预测方法及装置

Publications (1)

Publication Number Publication Date
CN114048796A true CN114048796A (zh) 2022-02-15

Family

ID=80205502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111211138.2A Pending CN114048796A (zh) 2021-10-18 2021-10-18 一种改进型硬盘故障预测方法及装置

Country Status (1)

Country Link
CN (1) CN114048796A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408731A (zh) * 2022-10-31 2022-11-29 广汽埃安新能源汽车股份有限公司 一种硬盘hpa的控制系统及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408731A (zh) * 2022-10-31 2022-11-29 广汽埃安新能源汽车股份有限公司 一种硬盘hpa的控制系统及存储介质

Similar Documents

Publication Publication Date Title
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN110460605B (zh) 一种基于自动编码的异常网络流量检测方法
CN104978612A (zh) 基于ahp-rbf的分布式大数据系统风险预测方法
CN110188196B (zh) 一种基于随机森林的文本增量降维方法
CN112199670B (zh) 一种基于深度学习改进iforest对行为异常检测的日志监控方法
CN110866030A (zh) 一种基于无监督学习的数据库异常访问检测方法
CN108550077A (zh) 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN110909125B (zh) 推文级社会媒体谣言检测方法
CN112766537B (zh) 一种短期电负荷预测方法
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN111641608A (zh) 异常用户识别方法、装置、电子设备及存储介质
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN114139636B (zh) 异常作业处理方法及装置
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN113516189B (zh) 基于两阶段随机森林算法的网站恶意用户预测方法
CN114048796A (zh) 一种改进型硬盘故障预测方法及装置
CN114417095A (zh) 一种数据集划分方法及装置
CN115797041A (zh) 基于深度图半监督学习的金融信用评估方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN110909238B (zh) 一种考虑竞争模式的关联挖掘算法
CN113779933A (zh) 商品的编码方法、电子设备及计算机可读存储介质
CN113743620A (zh) 一种基于机器学习的财务数据造假识别方法及系统
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination