CN109657795B

CN109657795B - 一种基于属性选择的硬盘故障预测方法

Info

Publication number: CN109657795B
Application number: CN201811514273.2A
Authority: CN
Inventors: 谭支鹏; 单凯; 冯丹; 张鑫; 钱佳兴; 涂诗云
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2022-06-21
Anticipated expiration: 2038-12-12
Also published as: CN109657795A

Abstract

本发明提供了一种基于属性选择的硬盘故障预测方法，首先采用计算Cohen’s d的方法和假设检验方法在健康硬盘和故障硬盘中选择出具有显著性分布差异的属性；其次通过遗传算法进一步的筛选出对分类预测有良好效果的属性；最后通过这种属性选择方法达到数据降维和提高预测准确率、检测率的目的。

Description

一种基于属性选择的硬盘故障预测方法

技术领域

本发明属于计算机信息存储领域，涉及一种基于属性选择的硬盘故障预测方法。

背景技术

在云计算和大数据的背景下，大型企业依靠云数据中心为用户提供服务。随着用户和数据的增加，数据中心中的计算机系统页也变得越来越复杂，这种复杂性使得计算机系统更容易受到各种异常的影响。HDD等外部设备作为主要的存储设备，其故障对数据中心的可靠性和可用性产生非常大的影响。因此，对硬盘故障的分析和预测对于维护数据中心中的可靠性和可用性有积极作用。

随着机器学习和数据挖掘等代表性的人工智能技术的发展，给硬盘故障预测带来了新的工具，其中机器学习中的分类算法非常适合解决硬盘故障预测的问题。在数据挖掘过程中，对原始数据的预处理是非常重要一步，不仅可以将数据处理成分类算法可以识别的数据格式，还可以有助于去除数据中的冗余和噪声，提高预测准确率等。其中数据选择作为一种十分重要的数据预处理技术，有助于去除数据的冗余，约简数据量，去除数据噪声，防止分类模型过拟合。

经典的选择技术分为包裹法和过滤法。过滤法就是一种独立与机器学习算法的属性选择方法，其优点就是速度快，可以对高维的数据实现快速地降维，但是其缺点也很明显，就是对机器学习算法的支持不够好，也就是可能会降低分类模型的准确率，典型算法就是relief算法。包裹法就是将分类模型的预测结果作为属性选择的评价指标，这种方法的优点就是和分类模型紧密结合，使得预测结果比较好，缺点就是需要进行多次的训练和预测，时间和空间的开销比较大，典型算法就是lvw算法。最后还有一种嵌入式的属性选择方法，将属性选择和学习器的训练过程融为一体，两者在同一过程中完成，这种方法用的较少。

无论是包裹法还是过滤法都是较为通用的属性选择算法，并没有针对一种具体的问题进行研究，因此在针对硬盘故障预测的问题中属性选择算法的效果还有进一步提高的余地。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于属性选择的硬盘故障预测方法，旨在解决现有数据选择技术存在的分类模型准确率低、快速降维困难的问题。

为实现上述目的，本发明提供了一种硬盘故障预测方法，包括：

d1:选取健康硬盘和故障硬盘，建立健康硬盘的数据集health和故障硬盘的数据集fail；

d2:从数据集health和数据集fail中抽取待考察的属性数据集，分别记为数据集dist1和dist2；

d3:以数据集dist1和dist2作为计算属性Cohen’s d的输入，计算数据集dist1和dist2间Cohen’s d；

d4:再次在数据集dist1和dist2中进行无重复抽样，抽样构成样本sampling_dist；

d5:以属性数据集间的均值比较效应量Cohen’s d和新样本sampling_dist作为输入，计算属性对应的假定值p value；

d6:对比假定值和显著水平alpha的数值大小，判断健康硬盘和故障硬盘具有的属性是否具有显著性差异；

d7:重复步骤d2～d6，直至遍历完硬盘数据集中所有属性，获取筛选后的属性集合；

d8:设置初始化种群大小n_population，种群中每条染色体的长度chrom_len均为通过对Cohen’s d的计算初步筛选得到的属性数量，并对每条染色体的基因随机取值0或1，0代表不选择对应的属性，1代表选择所对应的属性；

d9:根据每条染色体对应的属性集合建立机器学习模型，并采用机器学习模型在验证集上测试，获取每条染色体的分类评价指标值AUC作为适应度输出，AUC值的范围为[0，1]；

d10:对染色体进行轮盘赌方法选择，保留m₂条染色体；

d11:种群中的染色体随机交叉生成(n_population-m₂)条染色体，还原种群大小；

d12:选择一定比例的染色体进行变异，构建新一代种群；

d13:迭代n_iter次步骤(d9)～(d12)，筛选最终种群中适应度值最大的染色体，染色体中基因的取值代表了最后的属性选择结果。

通过本发明所构思的以上技术方案，与现有技术相比，由于本发明首先利用Cohen’s d计算法和假设检验的方法选择出在健康硬盘和故障硬盘中具有显著性分布差异的属性，然后通过遗传算法进一步的筛选出对分类预测有良好效果的属性，能够取得以下有益效果：

(1)采用计算Cohen’s d的方法初步筛选具有显著分布差异的属性，再通过遗传算法进一步筛选属性，很好的达到了数据降维的效果；

(2)在初步筛选属性中采用Cohen’s d统计量和假设检验的方法，同时采用遗传算法搜索整个组合空间中的较佳解，提高了预测准确率和检测率。

附图说明

图1是本发明提供的属性选择方法的整体示意图；

图2是Cohen’s d方法进行属性选择示意图；

图3是遗传算法进行属性选择的示意图；

图4是染色体交叉生成新染色体的示意图；

图5是染色体变异的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为实现上述目的，如图1所示，本发明提供了一种基于属性选择的硬盘故障预测方法，包括：

(1)建立健康硬盘的数据集health和故障硬盘的数据集fail，并初次筛选具有显著性分布差异的属性，如图2所示，具体步骤包括：

d1:选取健康硬盘和故障硬盘，建立健康硬盘的数据集health和故障硬盘的数据集fail，如表1给出了failure＝0的health数据集，相应的当failure＝1代表fail数据集；

表1

如表1所示，假设待考察的属性为smart_1_normalized，所述health数据集中smart_1_normalized属性对应的所在列数据成为数据集dist1，fail数据集中smart_1_normalized属性对应的列数据称为dist2，因此，当待考察的属性是唯一的情况，dist1和dist2均为列向量，维度分别是(n₁，1)，(n₂，1)，其中n₁代表健康硬盘数据集样本的个数，n₂代表故障硬盘数据集样本的个数；

d3:以数据集dist1和dist2作为输入，计算数据集dist1和dist2间的均值比较效应量Cohen’s d，记为observed_d；

优选地，以smart_1_normalized属性为例，该属性的Cohen’s d计算公式为：

其中，

为健康硬盘所有表征该属性的数据均值，

为故障硬盘所有表征该属性的数据均值，μ₁和μ₂代表两个样本中表征该属性的数据均值，n₁为样本中包含健康硬盘的样本个数，n₂为样本中包含故障硬盘的样本个数，x_1,i为健康硬盘数据中第i个样本对应的该属性数据，x_2,j为故障硬盘数据中第j个样本对应的该属性数据；

通过计算得到的Cohen距离可以判断属性数值分布之间是否有显著性差异，详细判断标准件表2，从表2可以看出，某属性对应的Cohen’s d值越大，数据分布的差异越大，越容易区别健康硬盘和故障硬盘；

表2

Effect size	d	Reference
			Very small	0.01	Sawilowsky,2009
Small	0.20	Cohen,1998
			Medium	0.50	Cohen,1998
Large	0.80	Cohen,1998
			Very large	1.20	Sawilowsky,2009
Huge	2.0	Sawilowsky,2009

d4:再次在数据集dist1和dist2中进行抽样，抽样构成样本sampling_dist；

通常情况下，得到各属性对应的Cohen’s d值便可评估属性是否具有显著性分布的差异来表征健康硬盘和故障硬盘，该步通过假设检验进一步对属性进行判断，可提高整个方法的预测准确性；

优选地，以smart_1_normalized属性为例，该步假设检验需要有三个输入变量，即：数据集dist1和dist2，及迭代次数，其中，迭代次数为人为规定，此处默认为1000；

对dist1和dist2进行无重复抽样n_iters次，将每次的结果都保存进sampling_dist中，得到该属性对应的sampling_dist；

d5:以距离值observed_d和新样本sampling_dist作为输入，计算属性对应的假定值p value；

优选地，以smart_1_normalized属性为例，该属性对应的p value值为该属性对应的sampling_dist中大于observed_d的数据个数与sampling_dist向量长度之间的比值；

d6:对比p value和显著性水平alpha，判断健康硬盘和故障硬盘具有的各属性是否具有显著性差异，

优选地，人为定义的显著性水平alpha一般取值为0.001，0.05，或0.1，若p value小于alpha，则说明该属性有显著性差异；若p value大于alpha则说明该属性不具有显著性差异；若p value等于alpha，则不能通过此种方法判断出是否有显著性差异，将对应属性保留，交由下一步处理；

(2)使用遗传算法对上述获取的具有显著性分布的属性进一步筛选，如图3所示，具体步骤包括：

d7:重复步骤d2～d6，直至遍历完硬盘中所有属性，获取筛选后的属性集合；

d8:设置初始化种群大小n_population，种群中每条染色体的长度chrom_len均为Cohen’s d初步筛选得到的属性数量，并对每条染色体的基因随机取值0或1，0代表不选择对应的属性，1代表选择所对应的属性；

优选地，假设上述初步筛选获取了a1，…，a7，…，a15个有显著差异的属性，则该步每条染色体长度均为15，并随机给染色体基因赋值0或1，但是15个属性对应有2¹⁵种排列组合，相应的若有30个属性，则对应1073741824种属性，对应的染色种类数据及其庞大，极易引发指数爆炸问题，倘若采用穷举法解决上述问题的时间复杂度为O(2ⁿ)，计算机不可能接受这种算法，因此采用遗传法初始化种群大小，假设n_population＝30，随机对每条染色体中的基因赋值，1代表选用这种属性，0代表不选用，即：

d9:根据每条染色体对应的属性集合建立机器学习模型，并采用学习模型在验证集上进行测试，获取分类评价指标值AUC作为适应度输出，AUC值的范围为[0，1]；

d10:对染色体进行轮盘赌方法选择，保留m₂条染色体；；

优选地，轮盘赌方法是模拟正常的生物种群进化，需要淘汰发生随机事件的染色体，具体步骤如下：

(d10.1)计算种群中每条染色体的对应的适应度f(x_j)(j＝1，2，…，i，…，M),M为种群大小；

(d10.2)计算每条染色体被遗传到下一代种群中的概率：

(d10.3)计算每条染色体的累积概率：

(d10.4)在[0,1]区间内产生一个均匀分布的随机数r；

(d10.5)若r<q[1]，则保留第1个染色体，依次对比第k个染色体，满足q[k-1]＜r≤q[k]条件保留；

(d10.6)重复步骤(d10.4)～(d10.5)，保留m₂条染色体；

优选地，如图4所示，任选两条染色体从交叉点开始两条染色体中的基因进行交换，生成新的染色体；

d12:选择一定比例的染色体进行变异，构建新一代种群；

如图5所示，对种群中指定比例的染色体进行变异，任意一条染色体随机选择一位或者多位基因，将变异点处的基因由0变换为1或者由1变换为0，生成新的染色体；

通过两种形式形成新的种群，种群大小恢复为初始化的种群大小；

d13:迭代n_iter次步骤(d9)～(d12)，筛选最终的染色体最终种群中适应度值最大的染色体，染色体中基因的取值代表了最后的属性选择结果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于属性选择的硬盘故障预测方法，其特征在于，包括:

(1)计算健康硬盘和故障硬盘中待考察属性数据集间的均值比较效应量Cohen’s d，并对属性数据集多次无重复抽样构建新的样本，获取该属性对应的假定值；

(2)对比属性假定值与显著性水平的数值大小，判断该属性是否可以预测硬盘故障；

(3)重复步骤(1)～(2)，遍历硬盘数据集中所有属性，初步筛选可预测硬盘故障的属性集合，实现数据的初步降维；

(4)初始化种群大小，根据筛选得到的属性数量设定种群中每条染色体长度，随机对染色体中的基因赋值；

(5)计算各染色体对应的分类评价指标值，采用轮盘赌方法保留m₂条染色体，再通过染色体交叉、变异，构建初始种群大小的新一代种群；

(6)迭代法重复步骤(5)，获取最终选择的染色体，染色体中包含的属性组合作为预测故障硬盘的依据。

2.如权利要求1所述的硬盘故障预测方法，其特征在于，步骤(1)具体包括如下步骤：

(1.1)选取健康硬盘和故障硬盘，得到健康硬盘的数据集和故障硬盘的数据集；

(1.2)从所述两组数据集中分别抽取待考察的属性数据集；

(1.3)对所述两组属性数据集进行均值比较；

(1.4)再次从所述两组属性数据集中无重复提取构建新的样本，结合所述获取的均值比较效应量作为输入，计算属性对应的假定值。

3.如权利要求1或2所述的硬盘故障预测方法，其特征在于，所述步骤(2)中判断各属性是否具有显著性差异的方法为：

若属性的假定值小于显著性水平，则该属性在健康硬盘与故障硬盘间有显著性差异；

若属性的假定值大于显著性水平，则该属性在健康硬盘与故障硬盘间无显著性差异；

若属性的假定值等于显著性水平，则不能检验是否该属性在健康硬盘与故障硬盘间有无显著性差异，则保留该属性，转至步骤(4)继续筛选。

4.如权利要求1所述的硬盘故障预测方法，其特征在于，所述步骤(5)具体包括如下步骤：

(5.1)根据每条染色体对应的属性集合建立机器学习模型，并采用机器学习模型在验证集上进行测试，获取每条染色体的分类评价指标值AUC作为适应度输出，AUC值的范围为[0，1]；

(5.2)采用轮盘赌方法选择染色体，保留m₂条染色体；

(5.3)种群中的染色体随机交叉生成新染色体，还原初始化种群大小；

(5.4)选择一定比例的染色体进行变异，构建新一代种群。

5.如权利要求4所述的硬盘故障预测方法，其特征在于，所述显著性水平取值为0.001，0.05或0.1。

6.如权利要求1或2所述的硬盘故障预测方法，其特征在于，属性数据集间的均值比较效应量计算公式为：

其中，

为健康硬盘中所有表征该属性的数据均值，

为故障硬盘中所有表征该属性的数据均值，μ₁和μ₂分别代表两个样本中表征该属性的数据均值，n₁为样本中包含健康硬盘的样本个数，n₂为样本中包含故障硬盘的样本个数，x_1,i为健康硬盘数据中第i个样本对应的该属性数据，x_2,j为故障硬盘数据中第j个样本对应的该属性数据。

7.如权利要求1所述的硬盘故障预测方法，其特征在于，所述轮盘赌方法具体如下：

a、计算种群中每条染色体对应的适应度f(x_j)，其中，j＝1，2，…，i，…，M，M为种群大小；

b、计算每条染色体被遗传到下一代种群中的概率：

c、计算每条染色体的累积概率：

d、在[0，1]区间内产生一个均匀分布的随机数r；

e、若r<q[1]，则保留第1个染色体，否则，依次对比第k个染色体，满足q[k-1]＜r≤q[k]条件保留；

f、重复步骤(d)～(e)，保留m₂条染色体。