CN114048796A

CN114048796A - 一种改进型硬盘故障预测方法及装置

Info

Publication number: CN114048796A
Application number: CN202111211138.2A
Authority: CN
Inventors: 邬成博; 王琳; 蓝科; 张国兵
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-02-15

Abstract

本发明公开了一种改进型硬盘故障预测方法及装置，主要解决现有技术中存在的现有硬盘故障预测模型正负样本的不平衡、决策树易过拟合及随机采样生成的数据子集造成的决策树决策结果准确性差异化的问题。该一种改进型硬盘故障预测方法利用通过基于层次聚类改进的SMOTE算法缓解数据不平衡导致的偏差，使用引入了新的评价标准和限制条件的改进CCP剪枝方法解决决策树过拟合，结合AdaBoost和随机森林学习模型，采用投票法得出预测结果。通过上述方案，本发明达到了更加有效并且准确地进行硬盘故障预测。

Description

一种改进型硬盘故障预测方法及装置

技术领域

本发明涉及硬盘监控技术领域，具体地说，是涉及一种改进型硬盘故障预测方法及装置。

背景技术

随着互联网的快速发展，全球进入了全面信息化时代，信息量也随之经历着爆炸式的增长。面对如此海量数据，如何安全有效地进行数据的储存，是互联网行业正在面临的巨大挑战；以硬盘作为存储媒介的存储系统中，这些硬盘需要大量的服务器来承载，其中任何一台服务器出现故障都会影响存储系统的可用性。为了有效的解决由于硬盘故障而导致的信息安全性问题，减少由信息流失、信息错误带来的损失，可以通过机器学习算法建立硬盘故障预测模型，提前故障的硬盘并采取修理措施，进而提高数据储存的高效性和安全性。

硬盘的故障检测主要通过S.M.A.R.T技术，即“自我监测、分析及报告技术”实现，该技术检测硬盘一些重要健康指标属性，当其中任意一个属性超过了设定的阈值时，则认为硬盘发生故障，并发出用户发送预警信息，用户可以通过收到的预警信息及时对硬盘进行维修或者更换；现有通过机器学习算法建立硬盘故障预测模型面临的问题如下：

1.故障的硬盘数量远远小于正常的硬盘数量，因此硬盘故障是一个概率很小的状况，故障样本远少于正常样本，甚至可能有成百上千倍差距，正负样本的不平衡问题将会对预测模型算法的准确性产生一定的影响。

2.面对大数据量的训练样本集，算法生成的决策树会非常详细，每个属性都加以考虑得话，预测模型的决策树易产生过拟合问题，不能有效且准确的对测试集进行预测。

3.一般采用随机森林算法对训练数据集进行随机抽样形成训练子集，导致决策树子集数据之间差异巨大，数据量的增大也致使随机森林模型的复杂性增加，硬盘预测的效率和准确率下降。

发明内容

本发明的目的在于提供一种改进型硬盘故障预测方法及装置，以解决现有硬盘故障预测模型正负样本的不平衡、决策树易过拟合及随机采样生成的数据子集造成的决策树决策结果准确性差异化的问题。

为了解决上述问题，本发明提供如下技术方案：

一种改进型硬盘故障预测方法包括以下步骤：

S1、输入硬盘的历史S.M.A.R.T训练数据集，利用基于层次聚类改进的SMOTE算法使其中的正负样本数据的数量达到平衡；这里的平衡是大致相等即可，也可完全相等完全平衡；

S2、将步骤S1得到的历史S.M.A.R.T训练数据集等分为N份子数据集；

S3、利用基于Bagging算法的CART决策树算法分别在步骤S2的N份子数据集上构建多个CART决策树；

S4、将步骤S3中每个子数据集上的CART决策树作为弱分类器，反复训练CART决策树预测样本输出，通过AdaBoost算法得到每个子数据集中多个CART决策树弱分类器组成的强分类器；统计得出N份强分类器数据的分类结果；

S5、对步骤S4得到的强分类器进行组合构成随机森林故障预测模型；测试训练集通过随机森林故障预测模型采用投票法得出预测结果。

本发明中AdaBoost算法针对同一个训练数据集训练出不同的弱分类器，并且将弱分类器结合构建强分类器的迭代算法，可以有效的避免随机采样产生的训练子集差异性；基于层次聚类改进的SMOTE采样法，利用改进CCP剪枝方法对决策树剪枝，可以缓解数据不平衡对分类结果造成的偏差，并且避免过拟合现象，结合AdaBoost算法和随机森林算法构成分类器，为硬盘故障预测提供了一种高效且准确的解决方法。

进一步的，步骤S1的具体过程如下：

S101、对输入硬盘的历史S.M.A.R.T训练数据集中的硬盘故障类别样本进行层次聚类，得到簇划分A＝{A₁,A₂...A_T}；

S102、使用SMOTE算法对历史S.M.A.R.T训练数据集中的故障类别样本进行分析和模拟，并将人工模拟的新样本添加到历史S.M.A.R.T训练数据集中，进而使历史S.M.A.R.T训练数据集中正负样本的数量平衡。

进一步的，步骤S101的具体过程如下：

(1)将每个故障类样本归为一类,共得到N_failure个类，N_failure为故障类样本的数量，每类仅包含一个对象；计算任两个类与类之间的欧氏距离，即

其中dist(X,Y)表示欧氏距离，x_i和y_i分别表示样本，n表示样本数；

(2)将欧式距离最近的两类合并为一个新类，重新计算新类与所有旧类之间的欧氏距离；根据样本的采样不平衡比例确定采样倍率T，这里T根据最终的平衡要求操作员自己设定即可，直到最后合并成T个类A＝{A₁,A₂,…A_T}为止。

进一步的，步骤S102的具体过程如下：

(1)对于故障类A_t(t＝1,2,…T)中每一个样本x，以欧氏距离为标准计算它到故障类样本集A_t中所有样本的距离，得到其k个近邻；

(2)根据样本的采样不平衡比例确定采样倍率T，对于每一个故障类A_t中样本x，从其k个近邻中随机选择T个样本组成集合B_t；

(3)对于任意一个样本x_k∈B_t(k＝1,2,3…T)，按照如下的公式构建新的样本：

x_new＝x+rand(0,1)×|x-x_k|

其中x_new为新生成的样本实例，rand(0,1)为一个随机生成的从0至1区间内的数的函数；

(4)将人工模拟的新样本x_new添加到数据集B_t(k＝1,2,3…T)中,重复步骤(1)–(3)，直至数据集中正负样本的数量达到平衡。

进一步的，步骤S3中在每个子数据集上构建多个CART决策树后，采用改进型CCP剪枝方法对CART决策树进行剪枝得到剪枝后的CART决策树；步骤S4中是将剪枝后的CART决策树作为弱分类器。

进一步的，改进型CCP剪枝方法的具体过程如下：

(1)首先，输入CART算法生成的决策树T₀；

(2)设k＝0，T＝T₀，k表示样本类别；

(3)设初始的表面误差增益率α＝+∞；

(4)将决策树T₀中叶子结点的值不是训练集的分类的叶子结点设为失败结点；判断叶子节点中的失败结点数是否大于子结点总数的1/3，是则对该结点进行提前剪枝处理，否则不做任何处理；

(5)自下而上地对各个内部节点t计算非叶子节点的表面误差增益率g(t):

α＝min(α,g(t)),

其中R(t)表示叶子节点的误差代价，R(t)＝r(t)*p(t)，r(t)为节点的错误率，p(t)为节点数据量的占比；R(T)表示自述的误差代价，

r_i(t)为子节点i的错误率，p_i(t)为节点i的数据节点占比；N(t)表示子树节点个数，α为非叶子节点的表面误差增益率；

(6)自上而下地访问各个内部节点t，判断是否有g(t)＝α，有则进行剪枝，并且对叶子节点t以多数表决法决定其分类，得到树T，将树T放进子树集合；否则不做任何处理；

(7)计算决策树的分类精度系数a(T)：

a(T)＝∑_t∈Nlp(t)a'(t)，其中

定义N'为剪枝样例集中的测试实例总数,n'(t)为剪枝集中进入到决策树的节点t的实例个数，e'(t)为剪枝集中到达节点t并且属于节点t的类别标签实例总数,Nl为决策树T中的所有叶子节点，p(t)为节点数据量的占比；决策树的a(T)越大，说明分类效果越明显，决策树的分类性能越高；a'(t)表示内部节点t的表面误差增益率，N'为剪枝样例集中的测试实例总数；

(7)均衡考虑决策树的叶子节点个数与树深之间的关系，计算决策树的规模系数d(T)：

其中d(m)为决策树规模系数关于决策树T的叶子节点数m的函数，决策树的叶子节点数节点数量保持在5-10个时的分类效果最为理想，如果决策树中叶子节点小于2个或大于25个则实际应用效果较差，因此

其中d(h)为决策树规模系数关于决策树T的最大深度h的函数，决策树的深度通常在2层-5层最恰当，深度小于2层或者深度大于10层在实际应用时效果不太理想，因此

决策树的d(T)值越大，说明决策树的复杂程度越适中；

(9)计算决策树的重要性系数I(T)＝w_aa(T)+w_dd(T),w_a+w_d＝1，w_a为分类精度系数的权重值，w_d为规模系数的权重值，假如决策树的复杂程度即d(T)低于设定值，为避免剪枝策略过于倾向于节点少的子树，应当调整降低规模系数的权重值w_a，这里调整是根据d(T)值由操作员自己根据实践经验调整；如果没有特殊的倾向性考虑，一般默认均匀分配权值，即统一取值为

(10)更新k＝k+1，T_k＝T，α_k＝α；

(11)如果T不是由根节点单独构成的树，返回步骤3；

(12)在子树集合{T₀,T₁,T₂,…,T_n}中，选取重要性系数I(T_max)最大的子树为最优子树T_max。

进一步的，步骤S4的具体过程如下：

4)从样本中选择n组训练数据，设定决策树弱分类器的个数为T，初始化训练样本数据集的权值分布为：

其中w_1,i表示训练第一个CART决策树时第i个样本的权值；

5)对T个CART决策树进行训练，在训练第t个弱分类器时，进行下列步骤(t＝1,2,…,T)：

2.1计算训练集上每个样本的真实值与弱分类器预测结果之间的误差，从而得出预测分类误差率e_t：

e_t＝∑_iw_t,iI(g_t(x_i)≠y_i)i＝1,2,…,T：

式中g_t(x_i)为第t个CART决策树第i个训练数据的预测标签分类结果，y_i为第i个样本的实际标签分类结果；当g_t(x_i)和y_i相等时，I(g_t(x_i)≠y_i)取值为0；当g_t(x_i)和y_i不相等时，I(g_t(σ_i)≠y_i)取值为1；

2.2根据预测分类误差率e_t计算弱分类器的权重α_t，权值计算公式如下：

2.3根据弱分类的权重更新训练样本的权重分布W_t+1＝(w_t+1,1,w_t+1,2,…,w_t+1,n)

6)在达到规定的迭代次数或者预期的误差率时，则强分类器构建完成；训练出T组弱分类器f(g_t,α_t),并计算出各个弱分类器对应的权重系数α_t，构建弱分类器的线性组合,得到最终的强分类器h(x):

进一步的，步骤S2中是对历史S.M.A.R.T训练数据集使用随机取样的方法，将其等分为N份子数据集。

一种改进型硬盘故障预测方法及装置包括存储器：用于存储可执行指令；处理器：用于执行所述存储器中存储的可执行指令，实现一种改进型硬盘故障预测方法。

与现有技术相比，本发明具有以下有益效果：

(1)本发明在随机森林模型建立前用基于层次聚类改进的SMOTE算法处理历史S.M.A.R.T训练数据样本，得到类间和类内均达到平衡的新数据集，解决了因不平衡数据的分布导致的分布边缘化问题，使样本中的正负样本达到平衡，正负样本数量之间不再有几百乃至上千倍差距，从而减小或避免不平衡对分类结果造成的偏差。

(2)本发明采用改进的CCP剪枝方法对生成的CART决策树进行剪枝，避免决策树对于训练数据集的属性学习过于详细，导致难以有效的对测试集数据进行预测，解决决策树过拟合的问题；通过限制失败结点的数量，对失败结点较多的决策树进行提前剪枝，缓解由于数据不完整导致的正确率降低的问题，与此同时也降低了CCP算法的时间复杂度，减少了时间开销；增加了评价标准对CCP方法进行补充，综合考虑了决策树的分类精度和决策树规模对决策树性能的影响，以免修剪决策树过于粗糙，避免过度剪切。

(3)本发明的模型结合了AdaBoost和随机森林两种集成学习器，得到更有效率的集成分类器；采用AdaBoost算法减弱了因随机抽样导致样本之间差异过大而导致的误差，模型的鲁棒性比较强，解释强，结构简单。模型的训练可以并行化，对于大规模样本的训练具有速度的优势。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明的流程架构示意图。

图2为本发明中改进SMOTE过程流程图。

图3为本发明中CART决策树构建流程图。

图4为本发明中改进CCP剪枝方法。

图5为本发明中AdaBoost算法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合图1至图5对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

如图1至图5所示，本发明基于改进SMOTE采样法结合AdaBoost和随机森林的模型建立方法对硬盘故障进行分析预测；通过基于层次聚类改进的SMOTE算法缓解数据不平衡导致的偏差，使用引入了新的评价标准和限制条件的改进CCP剪枝方法解决决策树过拟合，结合AdaBoost和随机森林学习模型，更加有效并且准确地进行硬盘故障预测；本发明的方法包括以下步骤：

1.基于层次聚类改进的SMOTE算法解决样本数据不平衡问题

S1：训练模型前，对输入的硬盘的历史S.M.A.R.T训练数据集中的硬盘故障类别样本进行层次聚类，得到簇划分A＝{A₁,A₂,…A_T}；

1)将每个故障类样本归为一类,共得到N_failure个类，N_failure为故障类样本的数量，每类仅包含一个对象。计算任两个类与类之间的欧氏距离，即

其中，其中dist(X,Y)表示欧氏距离，x_i和y_i分别表示样本，n表示样本数。

2)将距离最近的两类合并为一个类，重新计算新的类与所有旧类之间的欧氏距离；

3)重复步骤2，根据样本的采样不平衡比例确定采样倍率T，直到最后合并成T个类A＝{A₁,A₂,…A_T}为止。

S2：使用SMOTE算法对故障类别样本进行分析和模拟，并将人工模拟的新样本添加到数据集中，进而使数据集中正负样本的数量平衡。SMOTE算法具体步骤如下：

1)对于故障类A_t(t＝1,2,…T)中每一个样本x，以欧氏距离为标准计算它到故障类样本集A_t中所有样本的距离，得到其k个近邻；

2)根据样本的采样不平衡比例确定采样倍率T，对于每一个故障类A_t中样本x，从其k个近邻中随机选择T个样本(例如x₁,x₂,…,x_T)组成集合B_t；

3)对于任意一个样本x_k∈B_t(k＝1,2,3…T)，按照如下的公式构建新的样本：

x_new＝x+rand(0,1)×|x-x_k|

4)将人工模拟的新样本x_new添加到数据集B_t(k＝1,2,3…T)中,重复步骤1)–3)，直至数据集中正负样本的数量达到平衡。

2.随机抽样

S3：通过对改进SMOTE算法处理过后的数据集使用随机取样的方法，将数据集等分为N份子数据集。

3.CART决策树的构建与改进CCP剪枝方法

S4：利用基于Bagging算法的CART决策树算法在N份子数据集上构建多个CART决策树.CART决策树生成具体步骤如下:

对给定的子数据集中进行不放回的随机采样抽取出若干样本，每一个样本D为：{(x₁,y₁),(x₂,y₂),…,(x_M,y_M)}，其中

为硬盘的S.M.A.R.T属性特征，F为属性特征个数，i＝1,2,…,M，M为样本容量，y_i表示对应于样本特征x_i的硬盘标签分类结果，故障的磁盘标签置为1，非故障盘的标签置为0。

1)创建根节点，用样本数据集递归建立CART分类树；输入基尼系数的阈值和样本个数阈值；

2)对于当前节点的数据集为D，如果样本个数小于阈值或没有特征，则返回决策子树，当前节点停止递归；

3)计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归，计算样本的基尼系数的表达式为：

其中M为样本个数，K为样本类别个数，|C_k|为第k个类别的数量；

4)计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。对于每一个特征A，对其可能取得每一个值a，根据此值将训练样本切分为D₁和D₂两部分。特征A的条件下，样本D的基尼系数表达式为：

其中M₁,M₂为数据集D₁和D₂的样本个数；

5)在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A_min和对应的特征值a_min。根据这个最优特征和最优特征值，把数据集划分成两部分D₁和D₂，同时建立当前节点的左右节点；

6)对左右的子节点递归的调用2-5步骤，生成决策树。

S5：为了缓解过拟合的风险，采用CCP(代价复杂度)剪枝方法对决策树剪枝。CART决策树CCP剪枝方法具体步骤如下:

1)首先，输入CART算法生成的决策树T₀；

2)设k＝0，T＝T₀，k表示样本类别；

3)设初始的表面误差增益率α＝+∞；

4)将决策树中叶子结点的值不是训练集的分类的叶子结点设为失败结点。因为传统的CCP剪枝方法没有对失败结点进行限制，由于数据不完整会导致正确率降低。所以改进后的CCP剪枝法在除根结点以外的其它非叶子结点，如果叶子节点t中的失败结点数大于子结点总数的1/3，则对该结点进行提前剪枝处理；

5)自下而上地对各个内部节点t计算非叶子节点的表面误差增益率g(t):

α＝min(α,g(t)),

其中R(t)表示叶子节点的误差代价(Gini系数)，R(t)＝r(t)*p(t)，r(t)为节点的错误率，p(t)为节点数据量的占比；R(T)表示自述的误差代价(Gini系数)，

r_i(t)为子节点i的错误率，p_i(t)为节点i的数据节点占比；N(t)表示子树节点个数；

6)自上而下地访问各个内部节点t，如果有g(t)＝α，进行剪枝。并且对叶子节点t以多数表决法决定其分类，得到树T，将树T放进子树集合；

7)改进的CCP剪枝法综合考虑了决策树的分类精度和决策树规模对决策树性能的影响，以免修剪决策树过于粗糙，避免过度剪切。计算决策树的分类精度系数a(T)：

a(T)＝∑_t∈Nlp(t)a'(t)，其中

定义N'为剪枝样例集中的测试实例总数,n'(t)为剪枝集中进入到决策树的节点t的实例个数，e'(t)为剪枝集中到达节点t并且属于节点t的类别标签实例总数,Nl为决策树T中的所有叶子节点。决策树的a(T)越大，说明分类效果越明显，决策树的分类性能越高；a'(t)表示内部节点t的表面误差增益率，N'为剪枝样例集中的测试实例总数。

8)均衡考虑决策树的叶子节点个数与树深之间的关系，计算决策树的规模系数d(T)：

其中d(m)为决策树规模系数关于决策树T的叶子节点数m的函数，根据经验，决策树的叶子节点数节点数量保持在5-10个时的分类效果最为理想，如果决策树中叶子节点小于2个或大于25个则实际应用效果较差，因此

决策树的d(T)值越大，说明决策树的复杂程度越适中。

9)计算决策树的重要性系数I(T)＝w_aa(T)+w_dd(T),w_a+w_d＝1。w_a为分类精度系数的权重值，w_d为规模系数的权重值。假如决策树的复杂程度原本就很低，为避免剪枝策略过于倾向于节点少的子树，应当调整降低规模系数的权重值。如果没有特殊的倾向性考虑，一般默认均匀分配权值，即统一取值为

10)更新k＝k+1，T_k＝T，α_k＝α；

11)如果T不是由根节点单独构成的树，返回步骤3；

12)在子树集合{T₀,T₁,T₂,…,T_n}中，选取重要性系数I(T_max)最大的子树为最优子树T_max。

4.使用AdaBoost算法组成强分类器

S6：将CART决策树作为弱分类器，反复训练决策树预测样本输出，通过AdaBoost算法得到多个决策树弱分类器组成的强分类器，得到N组强分类器数据的分类结果。基于AdaBoost集成学习的硬盘标签数据值预测步骤如下：

7)从样本中选择n组训练数据，设定决策树弱分类器的个数为T，初始化训练样本数据集的权值分布为：

其中w_1,i表示训练第一个CART决策树时第i个样本的权值；

8)对T个CART决策树进行训练，在训练第t个弱分类器时，进行下列步骤(t＝1,2,…,T)：

①计算训练集上每个样本的真实值与弱分类器预测结果之间的误差，从而得出预测分类误差率e_t：

e_t＝∑_iw_t,iI(g_t(x_i)≠y_i)i＝1,2,…,T：

式中g_t(x_i)为第t个CART决策树第i个训练数据的预测标签分类结果，y_i为第i个样本的实际标签分类结果；当g_t(x_i)和y_i相等时，I(g_t(x_i)≠y_i)取值为0；当g_t(x_i)和y_i不相等时，I(g_t(x_i)≠y_i)取值为1；

②根据预测分类误差率e_t计算弱分类器的权重α_t，权值计算公式如下：

③根据弱分类的权重更新训练样本的权重分布W_t+1＝(w_t+1,1,w_t+1,2,…,w_t+1,n)

9)在达到规定的迭代次数或者预期的误差率时，则强分类器构建完成。训练出T组弱分类器f(g_t,α_t),并计算出各个弱分类器对应的权重系数α_t，构建弱分类器的线性组合,得到最终的强分类器h(x):

5.随机森林算法得到预测结果

S7：最后对由AdaBoost得到的决策树进行组合，构成随机森林故障预测模型，即对由AdaBoost得到的N组强分类器数据的分类结果采用投票法的方式得到最后的结果。

实施例2

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种改进型硬盘故障预测方法，其特征在于，包括以下步骤：

S1、输入硬盘的历史S.M.A.R.T训练数据集，利用基于层次聚类改进的SMOTE算法使其中的正负样本数据的数量达到平衡；

2.根据权利要求1所述的一种改进型硬盘故障预测方法，其特征在于，步骤S1的具体过程如下：

3.根据权利要求2所述的一种改进型硬盘故障预测方法，其特征在于，步骤S101的具体过程如下：

(1)将每个故障类样本归为一类，共得到N_failure个类，N_failure为故障类样本的数量，每类仅包含一个对象；计算任两个类之间的欧氏距离，即

其中dist(X，Y)表示欧氏距离，x_i和y_i分别表示样本，n表示样本数；

(2)将欧式距离最近的两类合并为一个新类，重新计算新类与所有旧类之间的欧氏距离；根据样本的采样不平衡比例确定采样倍率T，直到最后合并成T个类A＝{A₁，A₂，...A_T}为止。

4.根据权利要求3所述的一种改进型硬盘故障预测方法，其特征在于，步骤S102的具体过程如下：

(1)对于故障类A_t(t＝1，2，...T)中每一个样本x，以欧氏距离为标准计算它到故障类样本集A_t中所有样本的距离，得到其k个近邻；

(3)对于任意一个样本x_k∈B_t(k＝1，2，3...T)，按照如下的公式构建新的样本：

x_new＝x+rand(0，1)×|x-x_k|

其中x_new为新生成的样本实例，rand(0，1)为一个随机生成的从0至1区间内的数的函数；

(4)将人工模拟的新样本x_new添加到数据集B_t(k＝1，2，3...T)中，重复步骤(1)-(3)，直至数据集中正负样本的数量达到平衡。

5.根据权利要求4所述的一种改进型硬盘故障预测方法，其特征在于，步骤S3中在每个子数据集上构建多个CART决策树后，采用改进型CCP剪枝方法对CART决策树进行剪枝得到剪枝后的CART决策树；步骤S4中是将剪枝后的CART决策树作为弱分类器。

6.根据权利要求5所述的一种改进型硬盘故障预测方法，其特征在于，改进型CCP剪枝方法的具体过程如下：

(1)首先，输入CART算法生成的决策树T₀；

(2)设k＝0，T＝T₀，k表示样本类别；

(3)设初始的表面误差增益率α＝+∞；

(5)自下而上地对各个内部节点t计算非叶子节点的表面误差增益率g(t)：

α＝min(α，g(t))，

(7)计算决策树的分类精度系数a(T)：

a(T)＝∑_t∈Nlp(t)a′(t)，其中

定义N′为剪枝样例集中的测试实例总数，n′(t)为剪枝集中进入到决策树的节点t的实例个数，e′(t)为剪枝集中到达节点t并且属于节点t的类别标签实例总数，Nl为决策树T中的所有叶子节点，p(t)为节点数据量的占比；决策树的a(T)越大，说明分类效果越明显，决策树的分类性能越高；a′(t)表示内部节点t的表面误差增益率，N′为剪枝样例集中的测试实例总数；

决策树的d(T)值越大，说明决策树的复杂程度越适中；

(9)计算决策树的重要性系数I(T)＝w_aa(T)+w_dd(T)，w_a+w_d＝1，w_a为分类精度系数的权重值，w_d为规模系数的权重值，假如决策树的复杂程度即d(T)低于设定值，为避免剪枝策略过于倾向于节点少的子树，应当调整降低规模系数的权重值w_a；如果没有特殊的倾向性考虑，一般默认均匀分配权值，即统一取值为