CN112951311B - 一种基于变权重随机森林的硬盘故障预测方法及系统 - Google Patents
一种基于变权重随机森林的硬盘故障预测方法及系统 Download PDFInfo
- Publication number
- CN112951311B CN112951311B CN202110411800.2A CN202110411800A CN112951311B CN 112951311 B CN112951311 B CN 112951311B CN 202110411800 A CN202110411800 A CN 202110411800A CN 112951311 B CN112951311 B CN 112951311B
- Authority
- CN
- China
- Prior art keywords
- decision tree
- hard disk
- value
- steps
- info
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000003066 decision tree Methods 0.000 claims abstract description 70
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 7
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 230000002035 prolonged effect Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000036541 health Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C29/00—Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
- G11C29/04—Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
- G11C29/08—Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
- G11C29/12—Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于变权重随机森林的硬盘故障预测方法及系统,属于信息处理技术领域,其特征在于,包括如下步骤:步骤一:数据预处理:决策树的节点分裂信息值可能为0,将分裂信息值与分裂信息平均值之和来代替单一的分裂信息值;步骤二:根据精度A和多样性值K选取决策树Ti;步骤三:根据决策树Ti的分类准确率计算其权重w(Ti);步骤四:构建变权重随机森林模型对硬盘进行预测。本发明提高了故障检测率的同时,大大降低了误报率,与其他现有方案相比具有一定的优越性,为硬盘故障的预测问题提供了新的解决思路。同时,大大延长了故障硬盘的提前预测时间,为之后的有效数据迁移提供了充足的时间,从而达到了保护数据的目的。
Description
技术领域
本发明属于信息处理技术领域,特别是涉及一种基于变权重随机森林的硬盘故障预测方法及系统。
背景技术
如今,越来越多的工业级机构依靠数据中心来存储和处理数据。数据中心的崩溃可能会导致巨大的损失甚至会导致灾难性的后果。据统计,硬盘是数据中心最大的故障源之一,仅硬盘故障就占取数据中心所有硬件故障的71.1%。因此,采取一些措施来处理硬盘故障问题是十分迫切的。
自我检测、分析和报告技术(SMART)普遍应用于硬盘中,以监视和分析硬盘的内部属性。研究表明,通过使用SMART属性来预测即将发生的故障这种主动容灾机制是可行的。为了提高硬盘故障的预测准确度,已经基于SMART属性做出了许多努力,其中就包括分析硬盘驱动器的故障行为,设计用于预测硬盘故障的机器学习算法。这些工作大部分都集中在硬盘故障的主动检测上,可以预先检测硬盘故障,并给出二进制的结果,将硬盘确定为健康盘和故障盘。
近年来,研究者尝试使用其他统计学和机器学习方法结合来解决硬盘故障预测问题。
李静等人使用决策树(DT)和梯度提升回归树(CBRT)两种模型对硬盘进行了故障预测,在168196块硬盘的实际数据集上进行实验,最终DT在误判率低于0.01%的情况下,取得了超过93%的预测准确率,CBRT在不出现误判率的情况下,取得了90%的预测准确率。
王梓杰等人提出一种基于主成分分析(PCA)与随机森林算法的轴承故障趋势预测方法,把预测结果与BP神经网络模型预测的结果进行对比,结果表明随机森林在故障趋势预测上在精度相较于BP神经网络有显著提高,是一种有效的故障趋势预测方法。史干东等人使用随机森林算法对异步电动机转子断条进行故障诊断,经实验得出该方法性能良好。Rajhans Gondane等人使用概率随机森林对不同数据集进行分类实验,在许多基准数据集上报告的实验结果表明,与随机森林相比,提出的概率随机森林能够实现更好的性能。杨冬英为解决在故障诊断中数据不均衡的问题提出了一种精确度加权随机森林算法,经实验得出该算法简化随机森林计算的复杂度,加快程序运行,降低故障诊断的错误率。
发明内容
技术方案,为了解决上述背景技术中的技术问题:
本发明的第一目的是提供一种基于变权重随机森林的硬盘故障预测方法,包括:
步骤一:数据预处理:考虑到决策树的节点分裂信息值可能为0的情况,提出分裂信息值与分裂信息平均值之和来代替单一的分裂信息值。
步骤二:根据精度A和多样性值K选取优秀的决策树。在随机森林预测模型的构建过程中,随着决策树的数量增加,并不会影响整体模型产生过拟合现象,且预测效果并不会随着决策树数量的增加而变得更好。但是当决策树数量增加到一定数量时,会影响随机森林整体模型的运行效率,从而影响最终的分类结果。故而选取性能较优的决策树,去除性能不理想的决策树是十分必要的。
步骤三:根据决策树Ti的分类准确率计算其权重w(Ti)。
步骤四:构建变权重随机森林模型对硬盘进行预测。
优选地:步骤一的计算方法如下:
其中,SplitInfo(D)表示节点D的分裂信息,计算公式为:
Gain(D,vi)表示节点D的信息增益,计算公式为:
gain(D,vi)=info(D)-info(D,vi) (3)
info(D)=-plog2(p)-qlog2(q) (4)
其中,info(D)表示节点D上的信息熵,info(D,vi)表示此次分裂得到的子节点上的信息熵之和;p、q满足条件p+q=1,分别表示包含在节点D内的两类数据样本的分布比例。
本专利的第二发明目的是提供一种基于变权重随机森林的硬盘故障预测系统,包括:
数据预处理模块:考虑到决策树的节点分裂信息值可能为0的情况,提出分裂信息值与分裂信息平均值之和来代替单一的分裂信息值。
选取模块:根据精度A和多样性值K选取优秀的决策树。
权重计算模块:根据决策树Ti的分类准确率计算其权重w(Ti)。
预测模块:构建变权重随机森林模型对硬盘进行预测。
本专利的第三发明目的是提供一种实现上述基于变权重随机森林的硬盘故障预测方法的计算机程序。
本专利的第四发明目的是提供一种实现上述基于变权重随机森林的硬盘故障预测方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于变权重随机森林的硬盘故障预测方法。
本发明的优点及积极效果为:
通过采用上述技术方案,本发明具有如下的技术效果:
本发明针对数据中心大规模硬盘发生故障所造成的灾难性后果问题,提出了一种基于变权重随机森林的硬盘故障预测方法。首先,关于数据集的处理方面,根据GainRatio值选取有效的SMART属性,简化了维度较高、冗余数据较多的复杂原始数据集。然后,根据精度和多样性值选取决策树并对其分配权重,来组成变权重随机森林模型对硬盘进行故障预测。最后,进行可行性分析。实验结果达到93.12%的故障检测率和0.008%的误报率,相较于其他机器学习模型,以使用同一数据集为前提,提高了故障检测率的同时,大大降低了误报率,与其他现有方案相比具有一定的优越性,为硬盘故障的预测问题提供了新的解决思路。同时,大大延长了故障硬盘的提前预测时间,为之后的有效数据迁移提供了充足的时间,从而达到了保护数据的目的。
附图说明
图1为本发明优选实例的流程图;
图2为本发明优选实例中硬盘故障预测决策树分类示例图;
图3为准确率和误报率随决策树个数变化示意图;
图4为准确率和误报率随特征属性数量变化示意图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
请参阅图1和图2,具体方案为:
一种基于变权重随机森林的硬盘故障预测方法,包含下列步骤:
步骤一:数据预处理:考虑到决策树的节点分裂信息值可能为0的情况,提出分裂信息值与分裂信息平均值之和来代替单一的分裂信息值。计算方法如下:
其中,SplitInfo(D)表示节点D的分裂信息,计算公式为:
Gain(D,vi)表示节点D的信息增益,计算公式为:
gain(D,vi)=info(D)-info(D,vi) (3)
info(D)=-plog2(p)-qlog2(q) (4)
其中,info(D)表示节点D上的信息熵,info(D,vi)表示此次分裂得到的子节点上的信息熵之和;p、q满足条件p+q=1,分别表示包含在节点D内的两类数据样本的分布比例。
根据GainRatio值,表1列出了所挑选的基本属性。
表1数据集保留的基本SMART属性
步骤二:根据精度A和多样性值K选取优秀的决策树。
在随机森林预测模型的构建过程中,随着决策树的数量增加,并不会影响整体模型产生过拟合现象,且预测效果并不会随着决策树数量的增加而变得更好。但是当决策树数量增加到一定数量时,会影响随机森林整体模型的运行效率,从而影响最终的分类结果。故而选取性能较优的决策树,去除性能不理想的决策树是十分必要的。
构建随机森林的过程中,以个体的精度和多样性为准选取性能优的决策树。
计算公式如下:
为决策树Ti的精度。
为决策树Ti的多样性值。
然而,此处多样性值K估计的是两棵树Ti和Tj之间的多样性,当计算树Ti与其他树之间的多样性时,将组合分类器的预测视为Tj,将问题转化为计算两棵树之间的多样性。具体计算公式如下:
步骤三:根据决策树Ti的分类准确率计算其权重w(Ti)。计算公式如下:
其中,Accu(Ti)表示决策树Ti的分类准确率,Dtr为准确预测到的故障硬盘数目,Dt为实际上的故障硬盘数目。如公式(11)所示,Accu(Ti)越大,表示决策树Ti的分类效果越好。
步骤四:构建变权重随机森林模型对硬盘进行预测。本发明提出的算法得到的最终预测结果是选取的每棵决策树的预测结果及为其分配的权重进行综合计算的结果。首先将训练数据集输入本文算法来得出每棵决策树的预测结果,然后分别统计经过该算法所得到不同预测结果(健康/故障)的决策树被分配的权重总和,如果预测结果为健康的决策树被分配的权重总和大于结果为故障的决策树被分配的权重总和,那么变权重随机森林算法的预测结果则为健康,反之,本发明算法的预测结果为故障。
一种基于预训练卷积神经网络关系抽取系统,包括:
数据预处理模块:考虑到决策树的节点分裂信息值可能为0的情况,提出分裂信息值与分裂信息平均值之和来代替单一的分裂信息值。
选取模块:根据精度A和多样性值K选取优秀的决策树。
权重计算模块:根据决策树Ti的分类准确率计算其权重w(Ti)。
预测模块:构建变权重随机森林模型对硬盘进行预测。
下面通过具体的实验详细阐述上述技术方案:
本发明的实验环境是:Intel(R)Core(TM)i5-4590CPU,8GB内存,操作系统为Windows7旗舰版,在Matlab环境下进行实验。实验需要Sklearn机器学习库,Pandas,Numpy,Matplotlib科学计算库和绘图库。
本发明实验数据皆来自Backblaze数据集。
数据集与特征选择
本发明数据集来自于Backblaze公开数据集,共选取35491块硬盘,提前为其标识好健康盘和故障盘。关于每块健康盘记录其168h时间内的SMART属性信息,关于每块故障盘记录了其发生故障前600h内的SMART属性信息,健康盘和故障盘的采样间隔都是1h,即每隔1h记录一条SMART属性信息。表2描述了选取的该数据子集的具体信息。
表2实验数据集信息
同前期研究工作的硬盘属性信息选取一样,对于每个硬盘我们从SMART记录中读取23个相对来说有价值的属性信息,但是由于部分属性值在记录周期中并不会随着健康盘或故障盘的变化而发生变化,表明这些属性对预测结果不具有影响性,所以我们忽略这些属性的取值。根据GainRatio值,表1列出了所挑选的基本属性。
表1数据集保留的基本SMART属性
第一列是属性编号,第二列是属性名称,第三列是信息增益比率GainRatio值。信息增益比率越大说明该特征对于减少样本的不确定性程度的能力越大,也就代表这个特征越好根据GainRatio值的大小,依次选取特征属性。
在机器学习中,数据标准化对其稳定性有重要意义,所以将数据进行标准化处理是十分必要的。本发明采用min-max数据标准化方法将数据进行了归一化处理,即将所有特征属性值归一到[-1,1]区域中。采用的数据标准化的公式如下:
其中,x为原始属性值,xmin为属性最小值,xmax为属性最大值,由该公式计算得出的标准化结果xnor在[-1,1]这个闭区间中,从而达到将特征属性值标准化的目的。
首先,将样本集随机划分为30个子样本集。其次,分别划分训练集和测试集来训练30个决策树模型,这样可以提高模型的泛化能力。
为了使实验结果更加具有说服力,本发明使用模型在数据中心的实际应用方式,即按照硬盘运行时间的先后顺序来对训练集和测试集进行划分,而不是简单的随机划分。
按时间序列将数据划分为训练集和测试集。由于健康盘的数量较多,所以在每个健康盘中随机选取3个样本,这样最大程度上消除了数量不平衡这一问题的同时保留了足够多的信息来描述每个硬盘的健康程度,其中将一周内前70%的样本作为训练集,后30%作为测试集;由于故障盘的数量较少,所以选择故障盘内所有样本进行划分,而我们并不清楚故障盘发生故障的先后顺序,所以只能按照7:3的比率来将故障盘随机划分训练集和测试集,即选取70%为训练集,30%为测试集。
评价指标
主要采用故障检测率(failure detection rate,FDR)和误报率(False AlarmRate,FAR)两个评价指标。除此之外,为了使故障硬盘中存储的重要数据可以及时迁移,还采用了每个故障硬盘的提前预测时间(TIA)这一评价指标,表示潜在硬盘故障提前被模型预测出来的时间。
表3分类结果混淆矩阵
FDR表示预测到的故障盘数量与实际上故障盘数量的比值;FAR表示误判为故障盘的健康盘数量与实际上健康盘数量的比值。计算公式如下:
根据表3所示,TP为准确预测健康盘的数量,TN为准确预测故障盘的数量;FP为将故障盘错误预测为健康盘的数量,FN为将健康盘错误预测为故障盘的数量。
实验结果分析
根据实验设计本发明对权重的分配进行控制,图3所示为变权重随机森林的实验结果:准确率FDR和误判率FAR随着随机森林中决策树数量的增加发生的变化。其中决策树的权值随着自身准确率和平均准确率的变化而变化。由于权重值是变化的,故而也会对实验结果产生一定的影响。图3显示的数据是实验中预测效果最好的一组结果.可以看出决策树数量为1时,即决策树模型的预测结果为准确率为91.90%、误报率为0.03%,实验结果较好。但是随着决策、树的数量增加,可以看出实验结果正在逐渐趋于稳定,准确率稳步增加,最终在决策树数量为26时,准确率为93.98%,之后在94%左右浮动,最高为94.33%。误判率呈下降趋势,在决策树量为25时,达到了接近于0的结果,之后随着决策树数量的增加,误判率反而上升。
最终,可以看出当决策树的数量为25时,实验效果最好,即准确率为92.99%,误判率为0.011%,平均预警提前时间为351.54h。
图4显示的数据是在23个属性中选择的属性个数不同时,准确率FDR和误判率FAR的变化。可以看出当选取的特征属性过少时,最终实验结果不是很理想,即在特征属性为10时,准确率为88.95%、误判率为0.12%,准确率不是很高的同时有着很高的误判率,效果明显不理想。随着特征属性数量的增加,准确率再上升,误判率在下降。当特征属性数量为12时,准确率达到了93%左右,误判率接近于0,效果较好,之后随着特征属性数量的增加,准确率和误判率的变化幅度较小,且准确率呈现小幅度上升趋势,在93%上下浮动,但是当特征属性数量增加到18时,准确率有了一个明显的下降,此时准确率为92%左右,之后随着特征属性数量的增加,准确度一直在92%上下徘徊。随着特征属性数量的增加,误判率反而呈现小幅度的上升趋势。最终可以确定本发明选取的12个属性是必要的。
最后,选择递归神经网络、决策树、传统随机森林和变权重随机森林这四个模型对同一数据集进行实验,并将得到的最终结果进行对比。表4列出了这四个模型的最终结果,可以看出在同一数据集上,相较于递归神经网络,决策树的准确率略低,但是其误判率大大低于递归神经网络,平均预警提前时间也较好。本发明介绍的变权重随机森林模型相较于其他三种模型提高了预测准确率的同时,很大程度降低了误判率,近似于0%。此外,得到了较好的平均预警提前时间。
表4各模型结果对比
一种实现上述基于变权重随机森林的硬盘故障预测方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于变权重随机森林的硬盘故障预测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (4)
1.一种基于变权重随机森林的硬盘故障预测方法,其特征在于,包括如下步骤:
步骤一:数据预处理:决策树的节点分裂信息值可能为0,将分裂信息值与分裂信息平均值之和来代替单一的分裂信息值;所述数据预处理的计算方法如下:
其中,SplitInfo(D)表示节点D的分裂信息,计算公式为:
gain(D,vi)表示节点D的信息增益,计算公式为:
gain(D,vi)=info(D)-info(D,vi) (3)
info(D)=-plog2(p)-qlog2(q) (4)
其中,inf o(D)表示节点D上的信息熵,inf o(D,vi)表示此次分裂得到的子节点上的信息熵之和;p、q满足条件p+q=1,分别表示包含在节点D内的两类数据样本的分布比例;
步骤二:根据精度A和多样性值K选取决策树Ti;具体过程包括:
以个体的精度和多样性为准选取性能优的决策树;计算方法如下:
首先找到一个树集TA,其精度高于或等于单棵树平均精度为A的森林T={T1,T2,T3,...,Tn};
为决策树Ti的精度;
然后找到一个树集TD,其多样性高于或等于单棵树平均多样性值是K的森林;
为决策树Ti的多样性值;
步骤三:根据决策树Ti的分类准确率计算其权重w(Ti);权重分配和决策树预测准确率成正比;计算公式如下:
其中,Accu(Ti)表示决策树Ti的分类准确率,Dtr为准确预测到的故障硬盘数目,Dt为实际上的故障硬盘数目;
步骤四:构建变权重随机森林模型对硬盘进行预测。
2.一种基于变权重随机森林的硬盘故障预测系统,其特征在于:包括:
数据预处理模块:决策树的节点分裂信息值可能为0,将分裂信息值与分裂信息平均值之和来代替单一的分裂信息值;所述数据预处理的计算方法如下:
其中,SplitInfo(D)表示节点D的分裂信息,计算公式为:
gain(D,vi)表示节点D的信息增益,计算公式为:
gain(D,vi)=info(D)-info(D,vi) (3)
info(D)=-plog2(p)-qlog2(q) (4)
其中,inf o(D)表示节点D上的信息熵,inf o(D,vi)表示此次分裂得到的子节点上的信息熵之和;p、q满足条件p+q=1,分别表示包含在节点D内的两类数据样本的分布比例;
选取模块:根据精度A和多样性值K选取决策树Ti;具体过程包括:
以个体的精度和多样性为准选取性能优的决策树;计算方法如下:
首先找到一个树集TA,其精度高于或等于单棵树平均精度为A的森林T={T1,T2,T3,...,Tn};
为决策树Ti的精度;
然后找到一个树集TD,其多样性高于或等于单棵树平均多样性值是K的森林;
为决策树Ti的多样性值;
权重计算模块:根据决策树Ti的分类准确率计算其权重w(Ti);权重分配和决策树预测准确率成正比;计算公式如下:
其中,Accu(Ti)表示决策树Ti的分类准确率,Dtr为准确预测到的故障硬盘数目,Dt为实际上的故障硬盘数目;
预测模块:构建变权重随机森林模型对硬盘进行预测。
3.一种实现权利要求1所述基于变权重随机森林的硬盘故障预测方法的信息数据处理终端。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的基于变权重随机森林的硬盘故障预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411800.2A CN112951311B (zh) | 2021-04-16 | 2021-04-16 | 一种基于变权重随机森林的硬盘故障预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411800.2A CN112951311B (zh) | 2021-04-16 | 2021-04-16 | 一种基于变权重随机森林的硬盘故障预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951311A CN112951311A (zh) | 2021-06-11 |
CN112951311B true CN112951311B (zh) | 2023-11-10 |
Family
ID=76232827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110411800.2A Active CN112951311B (zh) | 2021-04-16 | 2021-04-16 | 一种基于变权重随机森林的硬盘故障预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951311B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113986636B (zh) * | 2021-11-01 | 2024-05-28 | 合肥城市云数据中心股份有限公司 | 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法 |
CN115729761B (zh) * | 2022-11-23 | 2023-10-20 | 中国人民解放军陆军装甲兵学院 | 一种硬盘故障预测方法、系统、设备及介质 |
CN116910668B (zh) * | 2023-09-11 | 2024-04-02 | 国网浙江省电力有限公司余姚市供电公司 | 一种避雷器故障预警方法、装置、设备及存储介质 |
CN117520104B (zh) * | 2024-01-08 | 2024-03-29 | 中国民航大学 | 一种预测硬盘异常状态的系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019057363A1 (en) * | 2017-09-21 | 2019-03-28 | Thomson Licensing | APPARATUS AND METHOD FOR PREDICTING RARE FAILURES |
CN111581072A (zh) * | 2020-05-12 | 2020-08-25 | 国网安徽省电力有限公司信息通信分公司 | 一种基于smart和性能日志的磁盘故障预测方法 |
-
2021
- 2021-04-16 CN CN202110411800.2A patent/CN112951311B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019057363A1 (en) * | 2017-09-21 | 2019-03-28 | Thomson Licensing | APPARATUS AND METHOD FOR PREDICTING RARE FAILURES |
CN111581072A (zh) * | 2020-05-12 | 2020-08-25 | 国网安徽省电力有限公司信息通信分公司 | 一种基于smart和性能日志的磁盘故障预测方法 |
Non-Patent Citations (3)
Title |
---|
Large Scale Predictive Analytics for Hard Disk Remaining Useful Life Estimation;P. Anantharaman 等;《2018 IEEE International Congress on Big Data (BigData Congress)》;第251-254页 * |
Random-forest-based failure prediction for hard disk drives;Jing Shen 等;《International Journal of Distributed Sensor Networks》;第14卷(第11期);全文 * |
基于改进随机森林的硬盘故障预测方法研究;张廷雷;《中国优秀硕士学位论文全文数据库(信息科技辑)》(第7期);第4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN112951311A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112951311B (zh) | 一种基于变权重随机森林的硬盘故障预测方法及系统 | |
De Santo et al. | Deep Learning for HDD health assessment: An application based on LSTM | |
CN108986869B (zh) | 一种使用多模型预测的磁盘故障检测方法 | |
Li et al. | Hard drive failure prediction using classification and regression trees | |
Rincón et al. | Disk failure prediction in heterogeneous environments | |
KR101948634B1 (ko) | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 | |
CN112465153A (zh) | 一种基于不平衡集成二分类的磁盘故障预测方法 | |
Shen et al. | Hard disk drive failure prediction for mobile edge computing based on an LSTM recurrent neural network | |
CN113342597B (zh) | 一种基于高斯混合隐马尔可夫模型的系统故障预测方法 | |
Zhang et al. | {HDDse}: Enabling {High-Dimensional} Disk State Embedding for Generic Failure Detection System of Heterogeneous Disks in Large Data Centers | |
CN111767162A (zh) | 一种面向不同型号硬盘的故障预测方法及电子装置 | |
Yang et al. | Zte-predictor: Disk failure prediction system based on lstm | |
CN116610469B (zh) | 一种固态硬盘的综合质量性能测试方法及系统 | |
CN117472679A (zh) | 结合数据流和控制流漂移发现的异常检测方法及系统 | |
CN117194177A (zh) | 一种提高存储系统慢盘检测准确率的方法 | |
Zhou et al. | A proactive failure tolerant mechanism for SSDs storage systems based on unsupervised learning | |
CN116582300A (zh) | 基于机器学习的网络流量分类方法及装置 | |
Wang et al. | Hard disk drives failure detection using a dynamic tracking method | |
CN111381990B (zh) | 一种基于流特征的磁盘故障预测方法及装置 | |
CN115543702A (zh) | 一种多源固态硬盘协同故障诊断方法、系统、设备及介质 | |
Shi et al. | [Retracted] Convolution‐LSTM‐Based Mechanical Hard Disk Failure Prediction by Sensoring SMART Indicators | |
CN117093433B (zh) | 故障检测方法、装置、电子设备及存储介质 | |
Rombach et al. | SmartPred: Unsupervised hard disk failure detection | |
Wu et al. | Disk failure prediction with multiple channel convolutional neural network | |
CN116561689B (zh) | 一种高维数据异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |