CN113986636A

CN113986636A - 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法

Info

Publication number: CN113986636A
Application number: CN202111279308.0A
Authority: CN
Inventors: 李晓洁; 刘胜军; 谢飞; 谢贻富; 李海松
Original assignee: Hefei City Cloud Data Center Co ltd
Current assignee: Hefei City Cloud Data Center Co ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-01-28
Anticipated expiration: 2041-11-01
Also published as: CN113986636B

Abstract

本发明涉及一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法，与现有技术相比解决了硬盘故障预测无法满足实际使用需求的缺陷。本发明包括以下步骤：训练数据集的建立；故障预测模型的构建；故障预测模型的训练；待预测数据的获取；预测结果的获得。本发明根据真实数据中心硬盘SMART数据的特点，利用随机森林算法建立高效的硬盘故障预测模型，并对其进行改进，使得预测模型更贴合真实数据中心硬盘故障预测的场景，提高了数据中心硬盘故障预测的准确率和效率。

Description

一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法

技术领域

本发明涉及数据中心硬盘技术领域，具体来说是一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法。

背景技术

硬盘故障会导致大量重要数据丢失,这不仅会影响到数据中心正常运行,而且可能会产生巨额的修复成本。通过对存储数据的硬盘进行故障预测是保证数据中心数据存储安全的一种有效、经济的方法，可以提前发现即将故障的硬盘，并对硬盘中的数据和应用进行迁移，从而最大限度减少由硬盘故障造成的损失。

硬盘的自监测分析报告技术(Self-Monitoring Analysis and ReportingTechnology,SMART)能够对硬盘工作状态进行分析,并侦测硬盘各属性。硬盘的S.M.A.R.T.数据作为训练数据存在以下特点：其一，数据项过多。硬盘的SMART数据多达数百种。我们在对其进行硬盘故障预测的时候，需要对若干干扰及无效数据做剪除。其二，动态变化。数据中心由于对外提供服务的属性，硬盘环境存在根据业务需求弹性插拔的使用场景，对算法预测模型就产生了有初始模型、增量变化的实际需求。

近年来随机森林与RNN、LSTM、CART决策树以及BP神经网络等机器学习方法被用于预测硬盘剩余寿命,并取得了较好的预测结果。这些方法在硬盘故障预测准确率和误报率方面，相比于硬盘本身的阈值预警算法有了很大的改善，但也存在一些缺点。

首先，部分研究使用的数据集都比较小，与真实数据中心的场景存在差距，因此，当相同的算法应用到数据量较大的真实环境时，硬盘故障预测的准确率和效率都很难达到预期的效果；其次，基于机器学习的硬盘故障预测算法对正常硬盘的预测准确性较高，而对故障硬盘预测的准确性相对较低，即对缩减故障预测错误的预测能力难度更高；最后，多数研究进行硬盘故障预测时，都是通过对硬盘SMART数据进行一次建模，然后进行故障预测，当有新的数据加入时，需要重新建模，一方面模型的更换会耗费大量的时间，另一方面没有考虑模型随时间老化的问题，导致硬盘故障预测的效率和准确率下降。

因此，如何开发出一种能够满足实景应用、针对数据中心的硬盘故障预测方法已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中硬盘故障预测无法满足实际使用需求的缺陷，提供一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法，包括以下步骤：

11)训练数据集的建立：获取数据中心硬盘SMART数据，对其进行预处理，将其作为训练数据集，再通过Bagging采样生成多个子数据集；

12)故障预测模型的构建：设定随机森林模型，计算随机森林中决策树进行预测时正常硬盘和故障硬盘预测的准确率，最后选择正常硬盘和故障硬盘预测准确率均高于80％的决策树进行保留；

13)故障预测模型的训练：将训练数据集输入故障预测模型进行增量学习算法和贪心算法再训练，得到训练后的故障预测模型；

14)待预测数据的获取：获取待预测的硬盘SMART数据，并对其进行预处理；

15)预测结果的获得：将预处理后的数据输入训练后的故障预测模型，对故障预测模型进行再次训练，并得到数据中心硬盘SMART数据的故障预测结果。

所述训练数据集的建立包括以下步骤：

21)获取数据中心硬盘SMART数据；

22)使用Pearson相关系数来计算硬盘SMART数据任意两个属性之间的线性相关性r，其公式如下：

其中，x_i、y_i为变量X、Y的取值，

为变量X、Y的平均值，n为变量X、Y取值的个数，r_xy为x和y两个属性的Pearson相关系数；

23)形成无向图：

用n节点无向图来描述SMART数据属性之间的相关性，无向图中节点代表SMART数据属性，若两个SMART数据属性强相关则节点间通过无向边进行连接，同时使用邻接矩阵Ann来刻画无向图，其表达式如下所示：

其中，A[i][j]为该硬盘的SMART数据属性节点邻接矩阵；

每个SMART属性节点的权重为无向图中节点的度，其节点权重W[i]的计算如下所示：

选择权重最大的SMART属性节点，同时删除与此节点连接的节点，并重新计算无向图中各节点的权重，重复选择SMART属性节点，直到无向图中无节点时终止；

若节点的权重值相同，则计算选择属性与分类值的相关系数，选择与类别属性相关性强的节点并删除与此节点连接的节点；

24)将形成无向图的SMART数据作为训练数据集；

25)设定通过Bagging采样，使用改进的SMOTE算法对训练数据集中的SMART数据进行均衡，将训练数据样本生成多个子数据集：

251)计算少数类样本集中样本的K个最近邻样本；将K个样本分为噪声样本、危险样本和安全样本；其中，噪声样本的所有最近邻样本的类别都与该样本点类别不同，危险样本的最近邻样本至少一半与该样本类别相同，安全样本的所有最近邻样本的类别与该样本点类别相同；

252)选择危险样本点和安全样本点进行插值操作，生成一个新的少数类样本；

253)通过多次随机插值的方式使数据集中的多数类样本和少数类样本的数量达到平衡，插值的计算如以下公式：

K_new＝K+rand(0,1)×(K′-K)，

K_new为新生成的样本实例，rand(0,1)为0-1的随机值，K′为少数类样本K的近邻样本。

所述故障预测模型的构建包括以下步骤：

31)利用CART决策树算法在生成的子数据集上构建CART决策树；

32)对子数据集做剪枝处理：使用PEP算法对随机森林中的决策树进行剪枝操作；

33)计算随机森林中决策树进行预测时正常硬盘和故障硬盘预测的准确率，最后选择正常硬盘和故障硬盘预测准确率均高于80％的决策树进行保留；

34)利用随机森林算法对决策树进行组合构成随机森林故障预测模型：

341)为决策树分配决策权重，准确率越高的决策树具有越高决策权重；

342)对随机森林模型中的决策分配决策权重，决策树的决策权重的计算如下所示，Accu(T_t)表示决策树T_t在训练集上预测的准确率，

其中，w(T_i)为决策权重，Accu(T_i)为训练集准确率；

35)设定利用构成的随机森林故障预测模型验证硬盘故障：

351)设定将预测样本输入随机森林算法获取每棵决策树的预测结果；

352)统计随机森林中不同预测结果的决策树权重总和；

353)如果结果为正常的决策树权重总和大于结果为故障的决策树权重总和，则随机森林算法的预测结果则为正常。相反，随机森林算法的预测结果为故障。

所述故障预测模型的训练包括以下步骤：

41)将训练数据集输入故障预测模型；

42)通过对输入新增的样本进行筛选，仅选择在预测过程中出现错误的样本作为典型样本，对决策树进行更新，减小增量学习的算法时间开销；

43)贪心算法再训练：

431)新增数据到来时，通过初始的随机森林故障预测模型，得到预测状态；

432)当节点中新增数据改变节点的类别时，对结点中数据进行分割，对决策树中的节点信息进行更新。

所述对子数据集做剪枝处理包括以下步骤：

51)对随机森林中的CART决策树进行剪枝,使用PEP算法对随机森林中的决策树进行剪枝操作；

52)设N_t表示决策树中的任意一个非叶子节点，T_t表示决策树中以节点N_t为根节点的子树，N_l(T_t)表示子树T_t中所有叶子节点的集合，|N_l(T_t)|表示子树T_t中叶子节点的个数，n(N_t)表示决策树的节点N_t中包含样本的数量，e(N_t)表示决策树的节点N_t中不属于该节点所标识类别的样本数；

如果决策树中的非叶子节点N_t以及以此节点为根节点的子树T_t满足判断式条件，则对以节点N_t为根节点的子树T_t做剪枝操作，其判断式如下所示：

e′(N_t)≤e′(T_t)+SE(e′(T_t))，

其中，e′(N_t)、e′(T_t)、SE(e′(T_t))的计算公式分别如下：

其中，e′(T_t)为剪枝后的错误数目，e′(T_t)为剪枝前的错误数目，s为t节点的叶子节点，SE(e′(T_t))为剪枝前错误数的标准差。

有益效果

本发明的一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法，与现有技术相比根据真实数据中心硬盘SMART数据的特点，利用随机森林算法建立高效的硬盘故障预测模型，并对其进行改进，使得预测模型更贴合真实数据中心硬盘故障预测的场景，提高了数据中心硬盘故障预测的准确率和效率。

本发明针对硬盘SMART数据存在的正常和故障样本不平衡现象，使用改进的SMOTE算法对训练样本数据集进行了平衡化处理，降低训练数据不均衡对随机森林预测模型性能的影响；针对硬盘SMART数据的数据量巨大的特点，采用剪枝策略，决策树选择和分配决策权重来对整个随机森林模型进行简化，保证其处理大量数据时具有较高的效率；同时，还制定了一种随机森林算法的增量学习策略，解决硬盘故障预测过程中增量学习的问题，使故障预测模型适应真实场景下硬盘故障预测过程中增加新的样本实例的情况。

附图说明

图1为本发明的方法顺序图；

图2为本发明所涉及的算法逻辑图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1和图2所示，本发明所述的一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法，包括以下步骤：

第一步，训练数据集的建立：获取数据中心硬盘SMART数据，对其进行预处理，将其作为训练数据集，再通过Bagging采样生成多个子数据集。

在实验室环节，首先选择硬盘的历史S.M.A.R.T.数据建立训练数据集和测试数据集，训练数据集用于训练故障预测模型，测试数据用于测试故障预测模型的性能，并对模型进行评估和优化。训练模型前通过SMOTE改进算法对训练数据集进行平衡化处理，使数据集中正负样本的数量相同；然后通过Bagging采样，生成多个子数据集。

其具体步骤如下：

(1)获取数据中心硬盘SMART数据。

(2)使用Pearson相关系数来计算硬盘SMART数据任意两个属性之间的线性相关性r，其公式如下：

其中，x_i、y_i为变量X、Y的取值，

为变量X、Y的平均值，n为变量X、Y取值的个数，r_xy为x和y两个属性的Pearson相关系数。

(3)形成无向图：

其中，A[i][j]为该硬盘的SMART数据属性节点邻接矩阵；

若节点的权重值相同，则计算选择属性与分类值的相关系数，选择与类别属性相关性强的节点并删除与此节点连接的节点。

(4)将形成无向图的SMART数据作为训练数据集.

(5)设定通过Bagging采样，使用改进的SMOTE算法对训练数据集中的SMART数据进行均衡，将训练数据样本生成多个子数据集：

A1)计算少数类样本集中样本的K个最近邻样本；将K个样本分为噪声样本、危险样本和安全样本；其中，噪声样本的所有最近邻样本的类别都与该样本点类别不同，危险样本的最近邻样本至少一半与该样本类别相同，安全样本的所有最近邻样本的类别与该样本点类别相同；

A2)选择危险样本点和安全样本点进行插值操作，生成一个新的少数类样本；

A3)通过多次随机插值的方式使数据集中的多数类样本和少数类样本的数量达到平衡，插值的计算如以下公式：

K_new＝K+rand(0,1)×(K′-K)，

第二步，故障预测模型的构建：设定随机森林模型，计算随机森林中决策树进行预测时正常硬盘和故障硬盘预测的准确率，最后选择正常硬盘和故障硬盘预测准确率均高于80％的决策树进行保留。

在此，针对硬盘SMART数据数据量巨大的特点，采用剪枝策略，决策树选择和分配决策权重来对整个随机森林模型进行简化，保证其处理大量数据时具有较高的效率。其具体步骤如下：

(1)利用CART决策树算法在生成的子数据集上构建CART决策树。

(2)对子数据集做剪枝处理：使用PEP算法对随机森林中的决策树进行剪枝操作。

其中，对子数据集做剪枝处理包括以下步骤：

首先，对随机森林中的CART决策树进行剪枝,使用PEP算法对随机森林中的决策树进行剪枝操作；

其次，设N_t表示决策树中的任意一个非叶子节点，T_t表示决策树中以节点N_t为根节点的子树，N_l(T_t)表示子树T_t中所有叶子节点的集合，|N_l(T_t)|表示子树T_t中叶子节点的个数，n(N_t)表示决策树的节点N_t中包含样本的数量，e(N_t)表示决策树的节点N_t中不属于该节点所标识类别的样本数；

e′(N_t)≤e′(T_t)+SE(e′(T_t))，

其中，e′(N_t)、e′(T_t)、SE(e′(T_t))的计算公式分别如下：

在随机森林故障预测模型构建过程中，对模型进行了优化。首先，在CART决策树建立的过程中需要根据剪枝算法对决策树进行前剪枝和后剪枝操作，尽可能剪除决策树中不可行的路径分支，或者限制决策树中无限增长的分支，在保证模型预测准确率的条件下，降低模型的开销和复杂度，进而提高模型预测的效率。其次，使用测试数据对随机森林中决策树进行测试，计算决策树进行预测时正常硬盘和故障硬盘预测的准确率，选择正常硬盘和故障硬盘预测准确率均高于80％的决策树进行保留，同时根据决策树预测时的整体准确率分配决策的投票权重。

(3)计算随机森林中决策树进行预测时正常硬盘和故障硬盘预测的准确率，最后选择正常硬盘和故障硬盘预测准确率均高于80％的决策树进行保留。

(4)利用随机森林算法对决策树进行组合构成随机森林故障预测模型：

B1)为决策树分配决策权重，准确率越高的决策树具有越高决策权重；

B2)对随机森林模型中的决策分配决策权重，决策树的决策权重的计算如下所示，Accu(T_t)表示决策树T_t在训练集上预测的准确率，

其中，w(T_i)为决策权重，Accu(T_i)为训练集准确率。

在利用硬盘故障预测模型进行预测时，输入硬盘的S.M.A.R.T.数据，在根据待预测数据的各个属性值在决策树节点上选择的分支进行遍历，记录到达决策树中叶子节点的标签，获取随机森林中决策树的预测结果，最后对随机森林中所有的决策树的结果进行统计，综合决策树的决策权重，选择权重总和最高的分类结果作为最终故障预测模型的结果。

(5)设定利用构成的随机森林故障预测模型验证硬盘故障：

C1)设定将预测样本(待预测预处理后的硬盘SMART数据)输入随机森林算法获取每棵决策树的预测结果；

C2)统计随机森林中不同预测结果的决策树权重总和；

C3)如果结果为正常的决策树权重总和大于结果为故障的决策树权重总和，则随机森林算法的预测结果则为正常。相反，随机森林算法的预测结果为故障。

第三步，故障预测模型的训练：将训练数据集输入故障预测模型进行增量学习算法和贪心算法再训练，得到训练后的故障预测模型。

在训练过程中，还考虑到解决故障预测过程中模型随时间老化的问题，通过在随机森林故障预测模型中添加增量学习的方法，对新增的典型样本进行学习，保证随机森林故障预测模型在故障预测过程中的持续性。制定一种随机森林算法的增量学习策略，解决硬盘故障预测过程中增量学习的问题，使故障预测模型适应真实场景下硬盘故障预测过程中增加新的样本实例的情况。

其具体步骤如下：

(1)将训练数据集输入故障预测模型。

(2)通过对输入新增的样本进行筛选，仅选择在预测过程中出现错误的样本作为典型样本，对决策树进行更新，减小增量学习的算法时间开销。

(3)贪心算法再训练：

D1)新增数据到来时，通过初始的随机森林故障预测模型，得到预测状态；

D2)当节点中新增数据改变节点的类别时，对结点中数据进行分割，对决策树中的节点信息进行更新。

第四步，待预测数据的获取：获取待预测的硬盘SMART数据，并对其进行预处理。

第五步，预测结果的获得：将预处理后的数据输入训练后的故障预测模型，对故障预测模型进行再次训练，并得到数据中心硬盘SMART数据的故障预测结果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。