CN114116292B

CN114116292B - 一种融合ap聚类与宽度学习系统的硬盘故障预测方法

Info

Publication number: CN114116292B
Application number: CN202210096818.2A
Authority: CN
Inventors: 刘发贵; 彭玲霞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-24
Anticipated expiration: 2042-01-27
Also published as: CN114116292A

Abstract

本发明公开一种融合AP聚类与宽度学习系统的硬盘故障预测方法。所述方法包括以下步骤：过滤出单一型号的硬盘的全部样本并进行处理，将该型号的所有硬盘分为故障盘和健康盘；采用基于AP聚类算法的样本标记方法，重新标记故障盘中的一部分健康样本为伪故障样本；随机挑选一部分健康盘，获取部分健康样本；划分训练集、测试集；构建故障预测模型，使用训练集训练故障预测模型，使用测试集评估故障预测模型的好坏；当该单一型号硬盘新采集的数据到来时，使用训练好的故障预测模型，预测这些硬盘在未来一段时间内是否会出现故障，得到预测结果。本发明通过增量学习过程快速迭代更新网络结构，解决模型老化问题。

Description

一种融合AP聚类与宽度学习系统的硬盘故障预测方法

技术领域

本发明属于云数据存储技术领域，尤其涉及一种融合AP聚类算法与宽度学习系统的硬盘故障预测方法。

背景技术

随着云计算技术的发展，为其提供软硬件资源和信息存储的云数据中心的规模也越来越大，结构也变得越来越复杂，使得云数据中心对资源和信息存储的可靠性要求也越来越高。硬盘作为云数据中心的主要存储设备，一旦出现不可修复的故障，将引发一系列更严重的后果，造成巨大的损失。基于硬盘的SMART属性，结合机器学习算法来预测硬盘在未来一段时间内是否会出现故障的研究方法已经取得了很好的成果。

如今云数据中心的硬盘数量可以达到几十万个，其中出现过或者已经出现了故障的硬盘相对于从未出现过故障的硬盘来说相当少，例如在Alibaba公开的数据集中，故障盘和健康盘的比例不到0.003%，就是说故障硬盘与健康硬盘的数量本身就存在极端的不平衡，并且故障盘在出现故障后往往就采集不到它的数据了，导致采集的故障样本就更少了。所以，在研究硬盘的故障预测问题中，常会面临一个正负样本极端不平衡的情况。在处理这种数据不平衡问题时，一个基本策略就是对数据集进行“再缩放”，现有技术大致可以分为两种：一是对负样本（这里指健康样本）进行“欠采样”（undersampling），即减少负样本量，使得正负样本数量达到合适的比例，其代表性算法EasyEnsemble就是利用集成学习机制，将负样本划分为若干个集合供多个不同的学习器使用，通过对每个学习器进行欠采样，来防止重要信息的丢失（Liu X Y , Wu J , Zhou Z H . Exploratory Undersampling forClass-Imbalance Learning[J]. IEEE Transactions on Systems Man & CyberneticsPart B, 2009, 39(2):539-550.），“欠采样”过程还可以通过一些聚类算法将负样本分为多个簇，然后从每个簇中再筛选几个样本，如聚类中心，作为各个簇的代表，最后用筛选出的样本来表征全部负样本的特征（Shen J , Wan J , Lim J , et al. Random-forest-based failure prediction for hard disk drives[J]. International Journal ofDistributed Sensor Networks, 2018, 14(11).），然而，在使用“欠采样”技术时，要注意在丢弃样本时还可能丢失一些重要信息，导致较高的误报率。二是对正样本（这里指健康样本）进行“过采样”（oversampling），即增加正样本量，使得正负样本数量达到合适的比例，其代表性算法SMOTE就是通过对原始的正样本进行插值来生成额外的正样本（SMOTE:Synthetic Minority Over-sampling Technique[J]. Journal of ArtificialIntelligence Research, 2002, 16(1):321-357.），或者使用原始的正样本去训练一个生成对抗网络来生成新的正样本（Shi C , Wu Z , Lv X , et al. DGTL-Net: A DeepGenerative Transfer Learning Network for Fault Diagnostics on New Hard Disks[J]. Expert Systems with Applications, 2020, 169(16):114379.）。

传统的硬盘可靠性研究是在故障发生以后，再通过增加的数据冗余等方式来进行数据恢复，主要包括副本、备份等，这种方法的出发点在于能够“容忍”故障的发生，在故障发生之后再采取相应的措施恢复或重构故障盘的数据，使得存储系统仍然能够提供可靠的数据访问服务，但这种方法还会带来一些不利因素，它会影响到硬盘的读写性能，增加故障发生的可能性，降低存储系统的整体性能。因此，近年来硬盘的可靠性研究，出发点在于“预测”未来一段时间内硬盘是否会故障，来提前将数据迁移或备份，来避免故障真正发生时造成的巨大损失。如今的大多数硬盘都含有内置的SMART（Self-Monitoring Analysis andReporting Technology）技术，它可以监控单个硬盘的内部属性，称为SMART属性，并通过设定的阈值来预测即将发生的故障，但由于阈值化算法的预测性能不佳，硬盘的生产厂商对阈值的设定也十分严谨，导致基于阈值化方法的故障检出率（FDR）只有3%-10%（Murray,Joseph F , Hughes, et al. Machine Learning Methods for Predicting Failures inHard Drives: A Multiple-Instance Application.[J]. Journal of Machine LearningResearch, 2005.）。现有的研究方法，大致过程就是将采集的SMART属性数据与机器学习的方法相结合进行预测。比如Xiao等人提出的基于在线随机森林（Xiao J, Xiong Z, Wu S,et al. Disk failure prediction in data centers via online learning[C]//Proceedings of the 47th International Conference on Parallel Processing.2018: 1-10.）、Li等人提出的基于决策树（Li J, Stones R J, Wang G, et al. Harddrive failure prediction using decision trees[J]. Reliability Engineering &System Safety, 2017, 164: 55-65.）、以及基于梯度增强回归树（Li J, Ji X, Jia Y,et al. Hard drive failure prediction using classification and regressiontrees[C]//2014 44th Annual IEEE/IFIP International Conference on DependableSystems and Networks. IEEE, 2014: 383-394.）、Lu等人提出的基于CNN-LSTM（Lu S,Luo B, Patel T, et al. Making Disk Failure Predictions SMARTer![C]//18th{USENIX} Conference on File and Storage Technologies ({FAST} 20). 2020: 151-167.）、Xu等人提出的基于代价敏感学习（Xu Y, Sui K, Yao R, et al. Improvingservice availability of cloud systems by predicting disk error[C]//2018{USENIX} Annual Technical Conference ({USENIX}{ATC} 18). 2018: 481-494.）等等方法。

总的来看，现有的研究方法仍然存在一些问题，具体如下：

（1）极端的样本不平衡：大型数据中心的健康硬盘远多于故障硬盘，导致采集到的故障样本少之又少，然而机器学习的方法又需要大量的样本进行训练学习，因此如何获取更多的故障样本是一个值得思考的问题；

（2）许多基于深度学习的方法尽管有了很大的发展，但越高的精度伴随着的是越来越复杂的网络结构和越来越耗时的网络训练过程；

（3）硬盘从健康状态到出现故障这是一个渐进的过程，这意味着依赖离线训练的深度学习模型将无法适应即将到来的新数据，即存在模型老化问题。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种融合AP聚类算法与宽度学习系统的硬盘故障预测方法。基于AP聚类算法的自适应样本标记方法，可以根据采集的故障硬盘的历史SMART数据来提前感知样本中的异常，然后将这部分原始标签为‘0’的样本的标签重新标记为‘1’。基于宽度学习的硬盘故障预测模型拥有高效的建模特性，它可以在新样本到达时无需重新训练整个网络，而是通过其增量学习过程快速迭代更新网络结构以适应新样本，解决模型老化问题。

本发明的目的至少通过如下技术方案之一实现。

一种融合AP聚类与宽度学习系统的硬盘故障预测方法，包括以下步骤：

S1、从数据集中过滤出单一型号的硬盘的全部样本，每个样本包括硬盘的基本信息、SMART属性数据以及样本标签；对SMART属性数据进行缺失值处理，按各序列号硬盘在采样周期内是否存在标签为‘1’的样本，将该型号的所有硬盘分为故障盘和健康盘；

S2、针对每一个故障盘，采用基于AP聚类算法的样本标记方法，重新标记故障盘中的一部分健康样本为伪故障样本，增加故障样本量；

S3、针对所有健康盘，根据故障盘的总数，随机挑选一部分健康盘，然后获取这部分健康盘的部分健康样本；

S4、以硬盘为划分单位划分训练集、测试集；

S5、构建宽度学习系统作为故障预测模型，使用S4中的训练集训练故障预测模型，使用测试集评估故障预测模型的好坏，得到训练好的故障预测模型；

S6、当该单一型号硬盘新采集的数据到来时，使用步骤S5中的训练好的故障预测模型，预测这些硬盘在未来一段时间内是否会出现故障，得到预测结果。

进一步地，步骤S1中，从包括多种型号的硬盘数据的数据集中选取出单一型号的硬盘数据作为研究对象；

硬盘的基本信息包括硬盘的型号、序列号以及采样日期；SMART属性数据包括多个含有唯一ID标识的SMART属性，每一个SMART属性包括各自的原始值和规范化值，例如smart_1_raw表示ID为1的SMART属性的原始值，smart_1_normalized表示ID为1的SMART属性的规范化值；样本标签用‘0’和‘1’表示，分别代表采样时硬盘未发生故障和硬盘发生了故障；

所述对SMART属性数据进行缺失值处理，具体如下：

按行处理：若某个样本的全部SMART属性数据都缺失，则将该样本丢弃；

按列处理：若所有样本的某一列SMART属性的数据全部缺失，则将该列SMART属性删除；

所述采样周期指各个硬盘从最早采集到的一条样本到最新采集的一条样本之间的一段时间；硬盘在采样周期内出现过故障，则称之为故障盘，反之，则称为健康盘；记故障盘的总数为

，健康盘的总数为

。

进一步地，AP聚类算法的核心思想，是通过在不同样本点之间不断地传递信息，选出最终的聚类中心，完成聚类；使用时不需要为AP聚类算法指定最终聚类簇的个数，并且聚类中心是选自真实的样本点，而不是新生成的点；使用AP聚类算法前，需要先计算不同点之间的相似度，得到一个相似度矩阵

，处于相似度矩阵

对角线上的元素被称为每个点的参考度

，如

，它表示点

作为聚类中心的可能程度，并且其初始值会影响最终的聚类簇数目，通常参考度越大，形成的聚类簇的数目也会越大；

步骤S2具体包括以下步骤：

S2.1、令

，

为故障盘的总数；

S2.2、获取序列号与第

个故障盘相同的全部样本，若获取的样本满足要求，则进行步骤S2.3，否则若

，返回步骤S2.2，若

，则跳至步骤S3；

S2.3、对步骤S2.2中获取的故障盘样本的SMART属性数据进行数据预处理，获取原始样本，得到数据预处理后的二维样本；

S2.4、对数据预处理后的二维样本进行AP聚类，得到聚类后每个二维样本的簇标签，并修改原始样本的簇标签；

S2.5、根据得到的原始样本的簇标签进行样本标记，得到伪故障样本，若

，返回步骤S2.2，若

，则进行步骤S3。

进一步地，步骤S2.2中，对于当前处理的第

个故障盘，获取序列号与第

个故障盘相同的全部样本，用

表示获取的样本总数，

；用

表示获取的故障样本总数，

；

若

，则表示第

个故障盘没有健康样本，若

，返回步骤S2.2，继续处理第

个故障盘，若

，则跳至步骤S3；若

，则表示第

个故障盘有健康样本和故障样本，则进行步骤S2.3。

进一步地，步骤S2.3中，将第

个故障盘的第

个故障样本表示为

，对所有

的

，进行步骤S2.3~步骤S2.5的操作：

S2.3.1、确定

的采样日期

，回溯在

之前的

天的全部样本，其中

为自定义参数，

的建议取值范围为

，得到包括

在内的

条原始样本

，当第

个故障盘在采样日期

之前采集到的样本不足

条时，取在采样日期

之前实际采集到的所有样本；

S2.3.2、对原始样本

的SMART属性数据进行缺失值填补，用0补全，得到填补后的样本

；

S2.3.3、使用主成分分析方法（PCA），将填补后的样本

的多维SMART属性数据降到二维，并进行标准化，最后得到数据预处理后的

条二维样本

。

进一步地，步骤S2.4具体包括以下步骤：

S2.4.1、根据以下公式计算AP聚类算法的参考度初始值

：

其中，

表示原始样本

的实际样本量，

是给定的参考度，由于AP聚类算法最终的聚类簇数目主要受参考度的影响，那么可根据指定的回溯天数

给定一个大概的参考度，能使聚类后得到的聚类簇数目适量即可；由于在指定回溯天数

时，有些故障盘的样本总数

小于

，那么，当给定一个参考度

时，可能造成聚类簇数目太少或太多，通过计算

可以控制

差异较大时，得到适量的聚类簇；

表示原始样本

的样本标签，c为常数，

为计算系数；计算系数

可以令故障样本具有比健康样本更大的参考度初始值，使得故障样本更具有吸引力，更有可能被选为最终的聚类中心；

S2.4.2、使用参考度初始值为

的AP聚类算法对二维样本

进行聚类，得到二维样本

的簇标签

；

S2.4.3、由于经主成分分析方法（PCA）降维后的数据，其行序保持不变，因此给步骤S2.3.1中的原始样本

中的

条健康样本和1条故障样本都包括有一个样本标签

和一个簇标签

；

根据簇标签

，从原始样本

中的

条健康样本中，筛选出与原始样本

中的1条故障样本分布在同一个簇中的健康样本；

然后，再把这部分健康样本的样本标签

重新设置为1，并称这部分健康样本为伪故障样本；

最后，将原始样本

中未被标记的健康样本全部丢弃。

进一步地，步骤S3中，根据以下公式计算要挑选的健康盘的数量

：

其中，

是故障盘的总数，

是给定的挑选比例；

从

个健康盘的所有样本中，挑选出采样周期内最新的

个样本，

是自定义参数。

进一步地，步骤S4中，以硬盘为划分单位，按照给定比例

，

，随机挑选

个故障盘和

个健康盘，其中符号

表示向下取整，

为故障盘的总数，

为健康盘的总数；

然后将挑选的

个故障盘的故障样本作为训练集的正样本，挑选的

个健康盘的健康样本作为训练集的负样本，得到最终的训练集；将挑选剩余的故障盘的故障样本作为测试集的正样本，挑选剩余的健康盘的健康样本作为测试集的负样本，得到最终的测试集。

进一步地，步骤S5中，故障预测模型包括输入层、特征层、增强层和输出层；其中，特征层包括

组特征节点；增强层包括

组增强节点；输出层的输入包括特征层的输出和增强层的输出；最后由输出层输出故障预测模型的预测结果；步骤S5的具体步骤如下：

S5.1、将S4中的训练集的样本作为故障预测模型的输入

，输入到特征层，根据以下公式计算每组特征节点的输出和特征层的输出：

其中，

和

分别是随机生成的特征层权重矩阵和特征层偏置项，

是特征层的激活函数，

为第

组特征节点的输出，

是特征层的输出；

S5.2、将特征层的输出

作为增强层的输入，根据以下公式计算每组增强节点的输出和增强层的输出：

其中，

和

分别是随机生成的增强层权重矩阵和增强层偏置项，

是增强层的激活函数，

为第

组增强节点的输出，

是增强层的输出；

S5.3、将特征层的输出

和增强层的输出

作为输出层的输入，根据以下公式计算输出层的输入矩阵

：

S5.4、故障预测模型的输出

由以下公式表示：

其中，

是输出层的输入矩阵，

是输出层的权重矩阵，

是步骤S4中训练集的样本标签。

根据公式(9)和(10)，输出层的权重矩阵

的计算公式如下：

其中，

是

的伪逆，

是约束项，

是单位矩阵，

是

的的转置，公式(12)根据伪逆算法计算得出。

将步骤S5.1~步骤S5.4作为故障预测模型的一轮训练；在训练阶段，训练前，初始化参数

、

；训练中，得到参数

、

、

、

、

；训练完后，保存参数

、

、

、

、

、

；在测试阶段，用参数

、

、

、

、

来初始化本轮训练完的故障预测模型，并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入，得到本轮训练完的故障预测模型的输出，即为预测结果；根据预测结果和测试集中的样本标签，评估本轮训练完的故障预测模型是否达到精度要求；当不满足精度要求时，调整参数

、

，进行新的一轮训练；当精度达到要求，或达到最大训练次数时，停止训练；使用停止训练时保存的参数

、

、

、

、

、

初始化的故障预测模型，得到训练好的故障预测模型；

当有相同型号不同序列号的硬盘新增数据到达时，在训练好的故障预测模型的基础上，进行增量学习，更新输出层的权重矩阵

，而不需要重新训练整个故障预测模型；如果没有新增数据，则无需进行增量学习；

故障预测模型的增量学习具体包括以下步骤：

S5.5、记新增数据为

，则故障预测模型的输入从

扩展为

，记

为新增数据

的样本标签，特征层的新增输出

、增强层的新增输出

、以及输出层的新增输入

，根据以下公式计算：

S5.6、根据以下公式更新输出层的输入矩阵：

其中

是更新前输出层的输入矩阵，

是输出层的新增输入

的转置，

是更新后的输出层的输入矩阵；

S5.7、根据以下公式计算

的伪逆

：

其中，

由公式(12)得到；

为第一过渡矩阵，

为

的转置；

为第二过渡矩阵，

为

的伪逆，根据伪逆算法计算；

为第三过渡矩阵，

为

的转置；

S5.8，根据以下公式，更新输出层的权重矩阵

：

其中，

是更新前输出层的权重矩阵，

是

的转置；

完成增量学习后，故障预测模型由参数

、

、

、

、

和

进行初始化。

与现有技术相比，本发明具有如下的优点与技术效果：

本发明核心在于，融合了一种基于AP聚类算法的样本标记方法和宽度学习系统，来对云数据中心的硬盘进行故障预测。基于AP聚类算法的样本标记方法，通过给故障样本和健康样本设置不同的参考度初始值，使得故障样本更有可能被选为聚类中心，然后将故障样本“吸引到”的健康样本重新标记为伪故障样本，即该方法可以在不生成新的样本的前提下，自适应选择一部分真实采集的负样本，将其重新标记为伪正样本，保留了原始样本的数据分布特征，同时增加了故障样本量，解决正负样本不平衡问题。基于宽度学习系统的故障预测模型，具有高效的建模特性，在处理不同型号硬盘数据时，可以通过伪逆算法快速学习并更新网络权重，在处理同型号硬盘的新数据时，无需重新训练整个网络，通过增量学习过程可以快速迭代更新网络结构，适应新样本，解决模型老化问题。

附图说明

图1为本发明具体实施例中一种融合AP聚类与宽度学习系统的硬盘故障预测方法的步骤示意图；

图2 为本发明具体实施例中获取故障盘原始样本的示意图；

图3为本发明具体实施例中二维样本

的数据分布示意图；

图4为本发明具体实施例中对二维样本

进行AP聚类后形成的簇的示意图；

图5为本发明具体实施例中将部分健康样本重新标记为故障样本的示意图；

图6为本发明具体实施例中获取健康盘的最新样本的示意图；

图7为本发明具体实施例中划分训练集和测试集的示意图；

图8为本发明具体实施例中基于宽度学习系统的故障预测模型示意图；

图9为本发明具体实施例中宽度学习系统的增量学习过程示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图，进行进一步的详细说明，但本发明的实施和保护不限于此。

实施例：

一种融合AP聚类与宽度学习系统的硬盘故障预测方法，如图1所示，包括以下步骤：

S1、本实施例中，从公共数据集Backblaze中选出2019年采集的型号为“ST12000NM0007”的硬盘的全部样本作为研究对象；

所述对SMART属性数据进行缺失值处理，具体如下：

按列处理：若所有样本的某一列SMART属性的数据全部缺失，则将该SMART属性列删除；

，健康盘的总数为

。

S2、针对每一个故障盘，采用基于AP聚类算法的样本标记方法，重新标记故障盘中的一部分健康样本为伪故障样本，增加故障样本量，具体包括以下步骤：

S2.1、令

，

为故障盘的总数；

S2.2、如图2所示，对于当前处理的第

个故障盘，获取序列号与第

个故障盘相同的全部样本，用

表示获取的样本总数，

；用

表示获取的故障样本总数，

；

若

，则表示第

个故障盘没有健康样本，若

，返回步骤S2.2，继续处理第

个故障盘，若

，则跳至步骤S3；若

，则表示第

个故障盘有健康样本和故障样本，则进行步骤 S2.3。

S2.3、将第

个故障盘的第

个故障样本表示为

，对所有

的

，进行步骤S2.3~步骤S2.5的操作：

S2.3.1、如图2所示，确定

的采样日期

，回溯在

之前的

天的全部样本，其中，

为30，得到包括

在内的

条原始样本

，当第

个故障盘在采样日期

之前采集到的样本不足

条时，取在采样日期

之前实际采集到的所有样本；

S2.3.2、对原始样本

；

S2.3.3、使用主成分分析方法（PCA），将填补后的样本

条二维样本

，数据预处理后的

条二维样本

的数据分布图如图3所示。

S2.4、对数据预处理后的二维样本进行AP聚类，得到聚类后每个二维样本的簇标签，并修改原始样本的簇标签，具体包括以下步骤：

S2.4.1、根据以下公式计算AP聚类算法的参考度初始值

：

其中，

表示原始样本

的实际样本量，

；本实施例中，

；

表示原始样本

的样本标签，c为常数，

为计算系数；计算系数

S2.4.2、使用参考度初始值为

的AP聚类算法对二维样本

进行聚类，聚类后形成的簇如图4所示，得到二维样本

的簇标签

；

增加与二维样本

相同的簇标签

。

S2.5、经过步骤S2.3和步骤S2.4处理后，原始样本

中的

条健康样本和1条故障样本都包括有一个样本标签

和一个簇标签

；

根据簇标签

，从原始样本

中的

条健康样本中，筛选出与原始样本

中的1条故障样本分布在同一个簇中的健康样本；

然后，再把这部分健康样本的样本标签

重新设置为1，并称这部分健康样本为伪故障样本；

最后，将原始样本

中未被标记的健康样本全部丢弃；由于原始样本

是高维数据，在二维平面无法作图，因此如图5所示，使用

的簇标签来示范样本标记过程；

若

，返回步骤S2.3，若

，

，返回步骤S2.2，若

，

，则进行步骤S3。

根据以下公式计算要挑选的健康盘的数量

：

其中，

是故障盘的总数，取

；

如图6所示，从

个健康盘的所有样本中，挑选出采样周期内最新的

个样本，取

。

S4、以硬盘为划分单位划分训练集和测试集；

如图7所示，以硬盘为划分单位，按给定比例

，随机挑选

个故障盘和

个健康盘，其中符号

表示向下取整。

然后将挑选的

个故障盘的故障样本作为训练集的正样本，挑选的

S5、构建宽度学习系统作为如图8所示的故障预测模型，使用步骤S4中的训练集进行训练，使用测试集评估模型的好坏，得到训练好的故障预测模型；

故障预测模型包括输入层、特征层、增强层和输出层；其中，特征层包括

组特征节点；增强层包括

S5.1、将S4中的训练集的样本作为故障预测模型的输入

其中，

和

分别是随机生成的特征层权重矩阵和特征层偏置项，

是特征层的激活函数，

为第

组特征节点的输出，

是特征层的输出；

S5.2、将特征层的输出

其中，

和

分别是随机生成的增强层权重矩阵和增强层偏置项，

是增强层的激活函数，

为第

组增强节点的输出，

是增强层的输出；

S5.3、将特征层的输出

和增强层的输出

作为输出层的输入，根据以下公式计算输出层的输入矩阵

：

S5.4、故障预测模型的输出

由以下公式表示：

其中，

是输出层的输入矩阵，

是输出层的权重矩阵，

是步骤S4中训练集的样本标签。

根据公式(9)和(10)，输出层的权重矩阵

的计算公式如下：

其中，

是

的伪逆，

是约束项，

是单位矩阵，

是

的的转置，公式(12)根据伪逆算法计算得出。

、

；训练过程中参数

和

的值从10到100，以5的步长递增，进行网格搜索调参，找到符合精度要求时的参数

、

，得到参数

、

、

、

、

；训练完后，保存参数

、

、

、

、

、

；在测试阶段，用参数

、

、

、

、

、

、

、

、

初始化的故障预测模型，得到训练好的故障预测模型；

故障预测模型的增量学习如图9所示，具体包括以下步骤：

S5.5、记新增数据为

，则故障预测模型的输入从

扩展为

，记

为新增数据

的样本标签，那么特征层的新增输出

、增强层的新增输出

、以及输出层的新增输入

，可根据以下公式计算：

S5.6、根据以下公式更新输出层的输入矩阵：

其中

是更新前输出层的输入矩阵，

是输出层的新增输入

的转置，

是更新后的输出层的输入矩阵；

S5.7、根据以下公式计算

的伪逆

：

其中，

由公式(12)得到；

为第一过渡矩阵，

为

的转置；

为第二过渡矩阵，

为

的伪逆，同样由伪逆算法计算，如公式(12)；

第三过渡矩阵，

为

的转置；

S5.8，根据以下公式，更新输出层的权重矩阵

：

其中，

是更新前输出层的权重矩阵，

是

的转置；

完成增量学习后，故障预测模型由参数

、

、

、

、

和

进行初始化。

以上公开的本申请优选实施例只是用于帮助理解本发明及核心思想。对于本领域的一般技术人员，依据本发明的思想，在具体应用场景和实施操作上均会有改变之处，本说明书不应理解对本发明的限制。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，包括以下步骤：

S2、针对每一个故障盘，采用基于AP聚类算法的样本标记方法，标记故障盘中的一部分健康样本为伪故障样本，增加故障样本量；

S4、以硬盘为划分单位划分训练集、测试集：以硬盘为划分单位，按照给定比例ratio′，ratio′∈[0.5，1)，随机挑选

个故障盘和

个健康盘，其中符号

表示向下取整，C_f为故障盘的总数，C_h为健康盘的总数；

然后将挑选的

个故障盘的故障样本作为训练集的正样本，挑选的

个健康盘的健康样本作为训练集的负样本，得到最终的训练集；将挑选剩余的故障盘的故障样本作为测试集的正样本，挑选剩余的健康盘的健康样本作为测试集的负样本，得到最终的测试集；

S6、当该单一型号硬盘新采集的数据到来时，使用步骤S5中的训练好的故障预测模型，预测新采集的单一型号硬盘在未来一段时间内是否会出现故障，得到预测结果。

2.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S1中，从包括多种型号的硬盘数据的数据集中选取出单一型号的硬盘数据作为研究对象；

硬盘的基本信息包括硬盘的型号、序列号以及采样日期；SMART属性数据包括多个含有唯一ID标识的SMART属性，每一个SMART属性包括各自的原始值和规范化值；样本标签用‘0’和‘1’表示，分别代表采样时硬盘未发生故障和硬盘发生了故障；

所述对SMART属性数据进行缺失值处理，具体如下：

所述采样周期指各个硬盘从最早采集到的一条样本到最新采集的一条样本之间的一段时间；硬盘在采样周期内出现过故障，则称之为故障盘，反之，则称为健康盘；记故障盘的总数为C_f，健康盘的总数为C_H。

3.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S2具体包括以下步骤：

S2.1、令i＝1，i∈(0，C_f]，C_f为故障盘的总数；

S2.2、获取序列号与第i个故障盘相同的全部样本，若获取的样本满足要求，则进行步骤S2.3，否则若i≠C_f，i＝i+1，返回步骤S2.2，若i＝C_f，则跳至步骤S3；

S2.5、根据得到的原始样本的簇标签进行样本标记，得到伪故障样本，若i≠C_f，i＝i+1，返回步骤S2.2，若i＝C_f，则进行步骤S3。

4.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S2.2中，对于当前处理的第i个故障盘，获取序列号与第i个故障盘相同的全部样本，用Total_i表示获取的样本总数，Total_i≥1；用failure_i表示获取的故障样本总数，failure_i∈[1，Total_i]；

若failure_i＝Total_i，则表示第i个故障盘没有健康样本，若i≠C_f，i＝i+1，返回步骤S2.2，继续处理第(i+1)个故障盘，若i＝C_f，则跳至步骤S3；若failure_i<Total_i，则表示第i个故障盘有健康样本和故障样本，则进行步骤S2.3。

5.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S2.3中，将第i个故障盘的第j个故障样本表示为s_i，j，j∈[1，failure_i]，对所有j≤failure_i的s_i，j，进行步骤S2.3～步骤S2.5的操作：

S2.3.1、确定S_i，j的采样日期d，回溯在d之前的N-1天的全部样本，其中N为自定义参数，得到包括S_i，j在内的N条原始样本

当第i个故障盘在采样日期d之前采集到的样本不足N-1条时，取在采样日期d之前实际采集到的所有样本；

S2.3.2、对原始样本

S2.3.3、使用主成分分析方法(PCA)，将填补后的样本

的多维SMART属性数据降到二维，并进行标准化，最后得到数据预处理后的N条二维样本

6.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S2.4具体包括以下步骤：

S2.4.1、根据以下公式计算AP聚类算法的参考度初始值preference_new：

α＝Y+c，c≠0，-1； (2)

其中，R表示原始样本

的实际样本量，R≤N；preference是给定的参考度；Y表示原始样本

的样本标签，c为常数，α为计算系数；

S2.4.2、使用参考度初始值为preference_new的AP聚类算法对二维样本

进行聚类，得到二维样本

的簇标签Y′；

S2.4.3、给步骤S2.3.1中的原始样本

增加与二维样本

相同的簇标签Y′。

7.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S2.5中，经过步骤S2.3和步骤S2.4处理后，原始样本

中的N-1条健康样本和1条故障样本都包括有一个样本标签Y和一个簇标签Y′；

根据簇标签Y′，从原始样本

中的N-1条健康样本中，筛选出与原始样本

中的1条故障样本分布在同一个簇中的健康样本；

然后，再把这部分健康样本的样本标签Y重新设置为1，并称这部分健康样本为伪故障样本；

最后，将原始样本

中未被标记的健康样本全部丢弃。

8.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S3中，根据以下公式计算要挑选的健康盘的数量C_h：

C_h＝C_f*ratio； (4)

其中，C_f是故障盘的总数，ratio是给定的挑选比例；

从C_h个健康盘的所有样本中，挑选出采样周期内最新的L个样本，L是自定义参数。

9.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法，其特征在于，步骤S5中，故障预测模型包括输入层、特征层、增强层和输出层；其中，特征层包括n特征节点；增强层包括m组增强节点；输出层的输入包括特征层的输出和增强层的输出；最后由输出层输出故障预测模型的预测结果；步骤S5的具体步骤如下：

S5.1、将S4中的训练集的样本作为故障预测模型的输入X，输入到特征层，根据以下公式计算每组特征节点的输出和特征层的输出：

Zⁿ＝[Z₁，Z₂，...，Z_n]； (6)

其中，

和

分别是随机生成的特征层权重矩阵和特征层偏置项，

是特征层的激活函数，Z_p为第p组特征节点的输出，Zⁿ是特征层的输出；

S5.2、将特征层的输出Zⁿ作为增强层的输入，根据以下公式计算每组增强节点的输出和增强层的输出：

H^m＝[H₁，H₂，...，H_m]： (8)

其中，

和

分别是随机生成的增强层权重矩阵和增强层偏置项，ξ(.)是增强层的激活函数，H_q为第q组增强节点的输出，H^m是增强层的输出；

S5.3、将特征层的输出Zⁿ和增强层的输出H^m作为输出层的输入，根据以下公式计算输出层的输入矩阵A：

A＝[Z₁，Z₂，...，Z_n|H₁，H₂，...，H_m]＝[Zⁿ|H^m]； (9)

S5.4、故障预测模型的输出Y由以下公式表示：

Y＝AW^m (10)

其中，A输出层的输入矩阵，W^m是输出层的权重矩阵，Y是步骤S4中训练集的样本标签；

根据公式(9)和(10)，输出层的权重矩阵W^m的计算公式如下：

W^m＝A⁺Y； (11)

其中，A⁺是A的伪逆，λ是约束项，I是单位矩阵，A^T是A的转置，公式(12)根据伪逆算法计算得出；

将步骤S5.1～步骤S5.4作为故障预测模型的一轮训练；在训练阶段，训练前，初始化参数n、m；训练中，得到参数

W^m；训练完后，保存参数n、m、

W^m；在测试阶段，用参数

W^m来初始化本轮训练完的故障预测模型，并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入，得到本轮训练完的故障预测模型的输出，即为预测结果；根据预测结果和测试集中的样本标签，评估本轮训练完的故障预测模型是否达到精度要求；当不满足精度要求时，调整参数n、m，进行新的一轮训练；当精度达到要求，或达到最大训练次数时，停止训练；使用停止训练时保存的参数n、m、