CN114116292B - 一种融合ap聚类与宽度学习系统的硬盘故障预测方法 - Google Patents

一种融合ap聚类与宽度学习系统的硬盘故障预测方法 Download PDF

Info

Publication number
CN114116292B
CN114116292B CN202210096818.2A CN202210096818A CN114116292B CN 114116292 B CN114116292 B CN 114116292B CN 202210096818 A CN202210096818 A CN 202210096818A CN 114116292 B CN114116292 B CN 114116292B
Authority
CN
China
Prior art keywords
samples
sample
fault
hard disk
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210096818.2A
Other languages
English (en)
Other versions
CN114116292A (zh
Inventor
刘发贵
彭玲霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210096818.2A priority Critical patent/CN114116292B/zh
Publication of CN114116292A publication Critical patent/CN114116292A/zh
Application granted granted Critical
Publication of CN114116292B publication Critical patent/CN114116292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种融合AP聚类与宽度学习系统的硬盘故障预测方法。所述方法包括以下步骤:过滤出单一型号的硬盘的全部样本并进行处理,将该型号的所有硬盘分为故障盘和健康盘;采用基于AP聚类算法的样本标记方法,重新标记故障盘中的一部分健康样本为伪故障样本;随机挑选一部分健康盘,获取部分健康样本;划分训练集、测试集;构建故障预测模型,使用训练集训练故障预测模型,使用测试集评估故障预测模型的好坏;当该单一型号硬盘新采集的数据到来时,使用训练好的故障预测模型,预测这些硬盘在未来一段时间内是否会出现故障,得到预测结果。本发明通过增量学习过程快速迭代更新网络结构,解决模型老化问题。

Description

一种融合AP聚类与宽度学习系统的硬盘故障预测方法
技术领域
本发明属于云数据存储技术领域,尤其涉及一种融合AP聚类算法与宽度学习系统的硬盘故障预测方法。
背景技术
随着云计算技术的发展,为其提供软硬件资源和信息存储的云数据中心的规模也越来越大,结构也变得越来越复杂,使得云数据中心对资源和信息存储的可靠性要求也越来越高。硬盘作为云数据中心的主要存储设备,一旦出现不可修复的故障,将引发一系列更严重的后果,造成巨大的损失。基于硬盘的SMART属性,结合机器学习算法来预测硬盘在未来一段时间内是否会出现故障的研究方法已经取得了很好的成果。
如今云数据中心的硬盘数量可以达到几十万个,其中出现过或者已经出现了故障的硬盘相对于从未出现过故障的硬盘来说相当少,例如在Alibaba公开的数据集中,故障盘和健康盘的比例不到0.003%,就是说故障硬盘与健康硬盘的数量本身就存在极端的不平衡,并且故障盘在出现故障后往往就采集不到它的数据了,导致采集的故障样本就更少了。所以,在研究硬盘的故障预测问题中,常会面临一个正负样本极端不平衡的情况。在处理这种数据不平衡问题时,一个基本策略就是对数据集进行“再缩放”,现有技术大致可以分为两种:一是对负样本(这里指健康样本)进行“欠采样”(undersampling),即减少负样本量,使得正负样本数量达到合适的比例,其代表性算法EasyEnsemble就是利用集成学习机制,将负样本划分为若干个集合供多个不同的学习器使用,通过对每个学习器进行欠采样,来防止重要信息的丢失(Liu X Y , Wu J , Zhou Z H . Exploratory Undersampling forClass-Imbalance Learning[J]. IEEE Transactions on Systems Man & CyberneticsPart B, 2009, 39(2):539-550.),“欠采样”过程还可以通过一些聚类算法将负样本分为多个簇,然后从每个簇中再筛选几个样本,如聚类中心,作为各个簇的代表,最后用筛选出的样本来表征全部负样本的特征(Shen J , Wan J , Lim J , et al. Random-forest-based failure prediction for hard disk drives[J]. International Journal ofDistributed Sensor Networks, 2018, 14(11).),然而,在使用“欠采样”技术时,要注意在丢弃样本时还可能丢失一些重要信息,导致较高的误报率。二是对正样本(这里指健康样本)进行“过采样”(oversampling),即增加正样本量,使得正负样本数量达到合适的比例,其代表性算法SMOTE就是通过对原始的正样本进行插值来生成额外的正样本(SMOTE:Synthetic Minority Over-sampling Technique[J]. Journal of ArtificialIntelligence Research, 2002, 16(1):321-357.),或者使用原始的正样本去训练一个生成对抗网络来生成新的正样本(Shi C , Wu Z , Lv X , et al. DGTL-Net: A DeepGenerative Transfer Learning Network for Fault Diagnostics on New Hard Disks[J]. Expert Systems with Applications, 2020, 169(16):114379.)。
传统的硬盘可靠性研究是在故障发生以后,再通过增加的数据冗余等方式来进行数据恢复,主要包括副本、备份等,这种方法的出发点在于能够“容忍”故障的发生,在故障发生之后再采取相应的措施恢复或重构故障盘的数据,使得存储系统仍然能够提供可靠的数据访问服务,但这种方法还会带来一些不利因素,它会影响到硬盘的读写性能,增加故障发生的可能性,降低存储系统的整体性能。因此,近年来硬盘的可靠性研究,出发点在于“预测”未来一段时间内硬盘是否会故障,来提前将数据迁移或备份,来避免故障真正发生时造成的巨大损失。如今的大多数硬盘都含有内置的SMART(Self-Monitoring Analysis andReporting Technology)技术,它可以监控单个硬盘的内部属性,称为SMART属性,并通过设定的阈值来预测即将发生的故障,但由于阈值化算法的预测性能不佳,硬盘的生产厂商对阈值的设定也十分严谨,导致基于阈值化方法的故障检出率(FDR)只有3%-10%(Murray,Joseph F , Hughes, et al. Machine Learning Methods for Predicting Failures inHard Drives: A Multiple-Instance Application.[J]. Journal of Machine LearningResearch, 2005.)。现有的研究方法,大致过程就是将采集的SMART属性数据与机器学习的方法相结合进行预测。比如Xiao等人提出的基于在线随机森林(Xiao J, Xiong Z, Wu S,et al. Disk failure prediction in data centers via online learning[C]//Proceedings of the 47th International Conference on Parallel Processing.2018: 1-10.)、Li等人提出的基于决策树(Li J, Stones R J, Wang G, et al. Harddrive failure prediction using decision trees[J]. Reliability Engineering &System Safety, 2017, 164: 55-65.)、以及基于梯度增强回归树(Li J, Ji X, Jia Y,et al. Hard drive failure prediction using classification and regressiontrees[C]//2014 44th Annual IEEE/IFIP International Conference on DependableSystems and Networks. IEEE, 2014: 383-394.)、Lu等人提出的基于CNN-LSTM(Lu S,Luo B, Patel T, et al. Making Disk Failure Predictions SMARTer![C]//18th{USENIX} Conference on File and Storage Technologies ({FAST} 20). 2020: 151-167.)、Xu等人提出的基于代价敏感学习(Xu Y, Sui K, Yao R, et al. Improvingservice availability of cloud systems by predicting disk error[C]//2018{USENIX} Annual Technical Conference ({USENIX}{ATC} 18). 2018: 481-494.)等等方法。
总的来看,现有的研究方法仍然存在一些问题,具体如下:
(1)极端的样本不平衡:大型数据中心的健康硬盘远多于故障硬盘,导致采集到的故障样本少之又少,然而机器学习的方法又需要大量的样本进行训练学习,因此如何获取更多的故障样本是一个值得思考的问题;
(2)许多基于深度学习的方法尽管有了很大的发展,但越高的精度伴随着的是越来越复杂的网络结构和越来越耗时的网络训练过程;
(3)硬盘从健康状态到出现故障这是一个渐进的过程,这意味着依赖离线训练的深度学习模型将无法适应即将到来的新数据,即存在模型老化问题。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种融合AP聚类算法与宽度学习系统的硬盘故障预测方法。基于AP聚类算法的自适应样本标记方法,可以根据采集的故障硬盘的历史SMART数据来提前感知样本中的异常,然后将这部分原始标签为‘0’的样本的标签重新标记为‘1’。基于宽度学习的硬盘故障预测模型拥有高效的建模特性,它可以在新样本到达时无需重新训练整个网络,而是通过其增量学习过程快速迭代更新网络结构以适应新样本,解决模型老化问题。
本发明的目的至少通过如下技术方案之一实现。
一种融合AP聚类与宽度学习系统的硬盘故障预测方法,包括以下步骤:
S1、从数据集中过滤出单一型号的硬盘的全部样本,每个样本包括硬盘的基本信息、SMART属性数据以及样本标签;对SMART属性数据进行缺失值处理,按各序列号硬盘在采样周期内是否存在标签为‘1’的样本,将该型号的所有硬盘分为故障盘和健康盘;
S2、针对每一个故障盘,采用基于AP聚类算法的样本标记方法,重新标记故障盘中的一部分健康样本为伪故障样本,增加故障样本量;
S3、针对所有健康盘,根据故障盘的总数,随机挑选一部分健康盘,然后获取这部分健康盘的部分健康样本;
S4、以硬盘为划分单位划分训练集、测试集;
S5、构建宽度学习系统作为故障预测模型,使用S4中的训练集训练故障预测模型,使用测试集评估故障预测模型的好坏,得到训练好的故障预测模型;
S6、当该单一型号硬盘新采集的数据到来时,使用步骤S5中的训练好的故障预测模型,预测这些硬盘在未来一段时间内是否会出现故障,得到预测结果。
进一步地,步骤S1中,从包括多种型号的硬盘数据的数据集中选取出单一型号的硬盘数据作为研究对象;
硬盘的基本信息包括硬盘的型号、序列号以及采样日期;SMART属性数据包括多个含有唯一ID标识的SMART属性,每一个SMART属性包括各自的原始值和规范化值,例如smart_1_raw表示ID为1的SMART属性的原始值,smart_1_normalized表示ID为1的SMART属性的规范化值;样本标签用‘0’和‘1’表示,分别代表采样时硬盘未发生故障和硬盘发生了故障;
所述对SMART属性数据进行缺失值处理,具体如下:
按行处理:若某个样本的全部SMART属性数据都缺失,则将该样本丢弃;
按列处理:若所有样本的某一列SMART属性的数据全部缺失,则将该列SMART属性删除;
所述采样周期指各个硬盘从最早采集到的一条样本到最新采集的一条样本之间 的一段时间;硬盘在采样周期内出现过故障,则称之为故障盘,反之,则称为健康盘;记故障 盘的总数为
Figure DEST_PATH_IMAGE001
,健康盘的总数为
Figure DEST_PATH_IMAGE002
进一步地,AP聚类算法的核心思想,是通过在不同样本点之间不断地传递信息,选 出最终的聚类中心,完成聚类;使用时不需要为AP聚类算法指定最终聚类簇的个数,并且聚 类中心是选自真实的样本点,而不是新生成的点;使用AP聚类算法前,需要先计算不同点之 间的相似度,得到一个相似度矩阵
Figure DEST_PATH_IMAGE003
,处于相似度矩阵
Figure 941052DEST_PATH_IMAGE003
对角线上的元素被称为每个点的参 考度
Figure DEST_PATH_IMAGE004
,如
Figure DEST_PATH_IMAGE005
,它表示点
Figure DEST_PATH_IMAGE006
作为聚类中心的可能程度,并且其初始值会影响 最终的聚类簇数目,通常参考度越大,形成的聚类簇的数目也会越大;
步骤S2具体包括以下步骤:
S2.1、令
Figure DEST_PATH_IMAGE007
Figure 25505DEST_PATH_IMAGE001
为故障盘的总数;
S2.2、获取序列号与第
Figure DEST_PATH_IMAGE008
个故障盘相同的全部样本,若获取的样本满足要求,则进 行步骤S2.3,否则若
Figure DEST_PATH_IMAGE009
,返回步骤S2.2,若
Figure DEST_PATH_IMAGE010
,则跳至步骤S3;
S2.3、对步骤S2.2中获取的故障盘样本的SMART属性数据进行数据预处理,获取原始样本,得到数据预处理后的二维样本;
S2.4、对数据预处理后的二维样本进行AP聚类,得到聚类后每个二维样本的簇标签,并修改原始样本的簇标签;
S2.5、根据得到的原始样本的簇标签进行样本标记,得到伪故障样本,若
Figure 223485DEST_PATH_IMAGE009
,返回步骤S2.2,若
Figure 824887DEST_PATH_IMAGE010
,则进行步骤S3。
进一步地,步骤S2.2中,对于当前处理的第
Figure 364891DEST_PATH_IMAGE008
个故障盘,获取序列号与第
Figure 190283DEST_PATH_IMAGE008
个故障盘 相同的全部样本,用
Figure DEST_PATH_IMAGE011
表示获取的样本总数,
Figure DEST_PATH_IMAGE012
;用
Figure DEST_PATH_IMAGE013
表示获取的故 障样本总数,
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
,则表示第
Figure 765025DEST_PATH_IMAGE008
个故障盘没有健康样本,若
Figure 191021DEST_PATH_IMAGE009
,返回步骤S2.2,继续处理第
Figure DEST_PATH_IMAGE016
个故障盘,若
Figure 208304DEST_PATH_IMAGE010
,则跳至步 骤S3;若
Figure DEST_PATH_IMAGE017
,则表示第
Figure 130562DEST_PATH_IMAGE008
个故障盘有健康样本和故障样本,则进行步 骤S2.3。
进一步地,步骤S2.3中,将第
Figure 91083DEST_PATH_IMAGE008
个故障盘的第
Figure DEST_PATH_IMAGE018
个故障样本表示为
Figure DEST_PATH_IMAGE019
,对所有
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
,进行步骤S2.3~步骤S2.5的 操作:
S2.3.1、确定
Figure 247605DEST_PATH_IMAGE021
的采样日期
Figure DEST_PATH_IMAGE022
,回溯在
Figure 93027DEST_PATH_IMAGE022
之前的
Figure DEST_PATH_IMAGE023
天的全部样本,其中
Figure DEST_PATH_IMAGE024
为自 定义参数,
Figure 312086DEST_PATH_IMAGE024
的建议取值范围为
Figure DEST_PATH_IMAGE025
,得到包括
Figure 40132DEST_PATH_IMAGE021
在内的
Figure 318185DEST_PATH_IMAGE024
条原始样本
Figure DEST_PATH_IMAGE026
,当第
Figure 627900DEST_PATH_IMAGE008
个故 障盘在采样日期
Figure 712136DEST_PATH_IMAGE022
之前采集到的样本不足
Figure 381670DEST_PATH_IMAGE023
条时,取在采样日期
Figure 920537DEST_PATH_IMAGE022
之前实际采集到的所 有样本;
S2.3.2、对原始样本
Figure DEST_PATH_IMAGE027
的SMART属性数据进行缺失值填补,用0补全,得到填补后 的样本
Figure DEST_PATH_IMAGE028
S2.3.3、使用主成分分析方法(PCA),将填补后的样本
Figure 423626DEST_PATH_IMAGE028
的多维SMART属性数据降 到二维,并进行标准化,最后得到数据预处理后的
Figure 389747DEST_PATH_IMAGE024
条二维样本
Figure DEST_PATH_IMAGE029
进一步地,步骤S2.4具体包括以下步骤:
S2.4.1、根据以下公式计算AP聚类算法的参考度初始值
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
其中,
Figure DEST_PATH_IMAGE032
表示原始样本
Figure DEST_PATH_IMAGE033
的实际样本量,
Figure DEST_PATH_IMAGE034
是给定的参考度, 由于AP聚类算法最终的聚类簇数目主要受参考度的影响,那么可根据指定的回溯天数
Figure 323677DEST_PATH_IMAGE024
给 定一个大概的参考度,能使聚类后得到的聚类簇数目适量即可;由于在指定回溯天数
Figure 677953DEST_PATH_IMAGE024
时, 有些故障盘的样本总数
Figure DEST_PATH_IMAGE035
小于
Figure 962261DEST_PATH_IMAGE024
,那么,当给定一个参考度
Figure 122720DEST_PATH_IMAGE004
时,可能造成聚类 簇数目太少或太多,通过计算
Figure DEST_PATH_IMAGE036
可以控制
Figure 226899DEST_PATH_IMAGE032
差异较大时,得到适量的聚类簇;
Figure DEST_PATH_IMAGE037
表示原始样本
Figure 337198DEST_PATH_IMAGE033
的样本标签,c为常数,
Figure DEST_PATH_IMAGE038
为计算系数;计算系数
Figure 269820DEST_PATH_IMAGE038
可以令故障样本具有比 健康样本更大的参考度初始值,使得故障样本更具有吸引力,更有可能被选为最终的聚类 中心;
S2.4.2、使用参考度初始值为
Figure 120620DEST_PATH_IMAGE030
的AP聚类算法对二维样本
Figure 263762DEST_PATH_IMAGE029
进 行聚类,得到二维样本
Figure 694262DEST_PATH_IMAGE029
的簇标签
Figure DEST_PATH_IMAGE039
S2.4.3、由于经主成分分析方法(PCA)降维后的数据,其行序保持不变,因此给步 骤S2.3.1中的原始样本
Figure 218741DEST_PATH_IMAGE033
中的
Figure 642374DEST_PATH_IMAGE023
条健康样本和1条故障样本都包括有一个样本标签
Figure 57830DEST_PATH_IMAGE037
和一个簇标签
Figure 545882DEST_PATH_IMAGE039
根据簇标签
Figure 730394DEST_PATH_IMAGE039
,从原始样本
Figure 403557DEST_PATH_IMAGE033
中的
Figure 243992DEST_PATH_IMAGE023
条健康样本中,筛选出与原始样本
Figure 270155DEST_PATH_IMAGE033
中 的1条故障样本分布在同一个簇中的健康样本;
然后,再把这部分健康样本的样本标签
Figure 778016DEST_PATH_IMAGE037
重新设置为1,并称这部分健康样本为伪 故障样本;
最后,将原始样本
Figure 965738DEST_PATH_IMAGE033
中未被标记的健康样本全部丢弃。
进一步地,步骤S3中,根据以下公式计算要挑选的健康盘的数量
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
其中,
Figure 22032DEST_PATH_IMAGE001
是故障盘的总数,
Figure DEST_PATH_IMAGE042
是给定的挑选比例;
Figure 815936DEST_PATH_IMAGE040
个健康盘的所有样本中,挑选出采样周期内最新的
Figure DEST_PATH_IMAGE043
个样本,
Figure 372776DEST_PATH_IMAGE043
是自定义参数。
进一步地,步骤S4中,以硬盘为划分单位,按照给定比例
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
,随机挑选
Figure DEST_PATH_IMAGE046
个故障盘和
Figure DEST_PATH_IMAGE047
个健康盘,其中符 号
Figure DEST_PATH_IMAGE048
表示向下取整,
Figure 946930DEST_PATH_IMAGE001
为故障盘的总数,
Figure 27537DEST_PATH_IMAGE040
为健康盘的总数;
然后将挑选的
Figure 395503DEST_PATH_IMAGE046
个故障盘的故障样本作为训练集的正样本,挑选的
Figure DEST_PATH_IMAGE049
个健康盘的健康样本作为训练集的负样本,得到最终的训练集;将挑选剩余 的故障盘的故障样本作为测试集的正样本,挑选剩余的健康盘的健康样本作为测试集的负 样本,得到最终的测试集。
进一步地,步骤S5中,故障预测模型包括输入层、特征层、增强层和输出层;其中, 特征层包括
Figure DEST_PATH_IMAGE050
组特征节点;增强层包括
Figure DEST_PATH_IMAGE051
组增强节点;输出层的输入包括特征层的输出和增 强层的输出;最后由输出层输出故障预测模型的预测结果;步骤S5的具体步骤如下:
S5.1、将S4中的训练集的样本作为故障预测模型的输入
Figure DEST_PATH_IMAGE052
,输入到特征层,根据以 下公式计算每组特征节点的输出和特征层的输出:
Figure DEST_PATH_IMAGE053
其中,
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
分别是随机生成的特征层权重矩阵和特征层偏置项,
Figure DEST_PATH_IMAGE056
是特征 层的激活函数,
Figure DEST_PATH_IMAGE057
为第
Figure DEST_PATH_IMAGE058
组特征节点的输出,
Figure DEST_PATH_IMAGE059
是特征层的输出;
S5.2、将特征层的输出
Figure 330089DEST_PATH_IMAGE059
作为增强层的输入,根据以下公式计算每组增强节点的 输出和增强层的输出:
Figure DEST_PATH_IMAGE060
其中,
Figure DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
分别是随机生成的增强层权重矩阵和增强层偏置项,
Figure DEST_PATH_IMAGE063
是增强 层的激活函数,
Figure DEST_PATH_IMAGE064
为第
Figure DEST_PATH_IMAGE065
组增强节点的输出,
Figure DEST_PATH_IMAGE066
是增强层的输出;
S5.3、将特征层的输出
Figure 930720DEST_PATH_IMAGE059
和增强层的输出
Figure 233044DEST_PATH_IMAGE066
作为输出层的输入,根据以下公式计 算输出层的输入矩阵
Figure DEST_PATH_IMAGE067
Figure DEST_PATH_IMAGE068
S5.4、故障预测模型的输出
Figure 94383DEST_PATH_IMAGE037
由以下公式表示:
Figure DEST_PATH_IMAGE069
其中,
Figure 914832DEST_PATH_IMAGE067
是输出层的输入矩阵,
Figure DEST_PATH_IMAGE070
是输出层的权重矩阵,
Figure 719933DEST_PATH_IMAGE037
是步骤S4中训练集的 样本标签。
根据公式(9)和(10),输出层的权重矩阵
Figure 775133DEST_PATH_IMAGE070
的计算公式如下:
Figure DEST_PATH_IMAGE071
其中,
Figure DEST_PATH_IMAGE072
Figure 652214DEST_PATH_IMAGE067
的伪逆,
Figure DEST_PATH_IMAGE073
是约束项,
Figure DEST_PATH_IMAGE074
是单位矩阵,
Figure DEST_PATH_IMAGE075
Figure 993414DEST_PATH_IMAGE067
的的转置,公式(12)根据 伪逆算法计算得出。
将步骤S5.1~步骤S5.4作为故障预测模型的一轮训练;在训练阶段,训练前,初始 化参数
Figure 232066DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE076
;训练中,得到参数
Figure 258052DEST_PATH_IMAGE054
Figure 48809DEST_PATH_IMAGE055
Figure DEST_PATH_IMAGE077
Figure 289254DEST_PATH_IMAGE062
Figure 984895DEST_PATH_IMAGE070
;训练完后,保存参数
Figure 483528DEST_PATH_IMAGE050
Figure 66257DEST_PATH_IMAGE076
Figure 966736DEST_PATH_IMAGE054
Figure 101787DEST_PATH_IMAGE055
Figure 618875DEST_PATH_IMAGE077
Figure 942978DEST_PATH_IMAGE062
Figure 963542DEST_PATH_IMAGE070
;在测试阶段,用参数
Figure 613153DEST_PATH_IMAGE054
Figure 86379DEST_PATH_IMAGE055
Figure 479752DEST_PATH_IMAGE077
Figure 823664DEST_PATH_IMAGE062
Figure 551449DEST_PATH_IMAGE070
来初始化本轮训练完的故障预测 模型,并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入,得到本轮训练完的 故障预测模型的输出,即为预测结果;根据预测结果和测试集中的样本标签,评估本轮训练 完的故障预测模型是否达到精度要求;当不满足精度要求时,调整参数
Figure 258110DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE078
,进行新的一轮 训练;当精度达到要求,或达到最大训练次数时,停止训练;使用停止训练时保存的参数
Figure 130208DEST_PATH_IMAGE050
Figure 515577DEST_PATH_IMAGE051
Figure 556475DEST_PATH_IMAGE054
Figure 735784DEST_PATH_IMAGE055
Figure 470960DEST_PATH_IMAGE077
Figure 320623DEST_PATH_IMAGE062
Figure 404858DEST_PATH_IMAGE070
初始化的故障预测模型,得到训练好的故障预测模型;
当有相同型号不同序列号的硬盘新增数据到达时,在训练好的故障预测模型的基 础上,进行增量学习,更新输出层的权重矩阵
Figure 136710DEST_PATH_IMAGE070
,而不需要重新训练整个故障预测模型; 如果没有新增数据,则无需进行增量学习;
故障预测模型的增量学习具体包括以下步骤:
S5.5、记新增数据为
Figure DEST_PATH_IMAGE079
,则故障预测模型的输入从
Figure DEST_PATH_IMAGE080
扩展为
Figure DEST_PATH_IMAGE081
,记
Figure DEST_PATH_IMAGE082
为新增数 据
Figure 890558DEST_PATH_IMAGE079
的样本标签,特征层的新增输出
Figure DEST_PATH_IMAGE083
、增强层的新增输出
Figure DEST_PATH_IMAGE084
、以及输出层的新增输入
Figure DEST_PATH_IMAGE085
,根据以下公式计算:
Figure DEST_PATH_IMAGE086
S5.6、根据以下公式更新输出层的输入矩阵:
Figure DEST_PATH_IMAGE087
其中
Figure 762040DEST_PATH_IMAGE067
是更新前输出层的输入矩阵,
Figure DEST_PATH_IMAGE088
是输出层的新增输入
Figure 403193DEST_PATH_IMAGE085
的转置,
Figure DEST_PATH_IMAGE089
是更新 后的输出层的输入矩阵;
S5.7、根据以下公式计算
Figure DEST_PATH_IMAGE090
的伪逆
Figure DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE092
其中,
Figure DEST_PATH_IMAGE093
由公式(12)得到;
Figure DEST_PATH_IMAGE094
为第一过渡矩阵,
Figure DEST_PATH_IMAGE095
Figure 937572DEST_PATH_IMAGE094
的转置;
Figure DEST_PATH_IMAGE096
为第二过渡矩阵,
Figure DEST_PATH_IMAGE097
Figure 715951DEST_PATH_IMAGE096
的伪逆,根据伪逆算法计算;
Figure DEST_PATH_IMAGE098
为第三过渡矩阵,
Figure DEST_PATH_IMAGE099
Figure DEST_PATH_IMAGE100
的转置;
S5.8,根据以下公式,更新输出层的权重矩阵
Figure DEST_PATH_IMAGE101
Figure DEST_PATH_IMAGE102
其中,
Figure 556518DEST_PATH_IMAGE070
是更新前输出层的权重矩阵,
Figure DEST_PATH_IMAGE103
Figure DEST_PATH_IMAGE104
的转置;
完成增量学习后,故障预测模型由参数
Figure 394940DEST_PATH_IMAGE050
Figure 27348DEST_PATH_IMAGE051
Figure 513212DEST_PATH_IMAGE054
Figure 593905DEST_PATH_IMAGE055
Figure 382388DEST_PATH_IMAGE077
Figure 236513DEST_PATH_IMAGE062
Figure 667013DEST_PATH_IMAGE101
进行初始化。
与现有技术相比,本发明具有如下的优点与技术效果:
本发明核心在于,融合了一种基于AP聚类算法的样本标记方法和宽度学习系统,来对云数据中心的硬盘进行故障预测。基于AP聚类算法的样本标记方法,通过给故障样本和健康样本设置不同的参考度初始值,使得故障样本更有可能被选为聚类中心,然后将故障样本“吸引到”的健康样本重新标记为伪故障样本,即该方法可以在不生成新的样本的前提下,自适应选择一部分真实采集的负样本,将其重新标记为伪正样本,保留了原始样本的数据分布特征,同时增加了故障样本量,解决正负样本不平衡问题。基于宽度学习系统的故障预测模型,具有高效的建模特性,在处理不同型号硬盘数据时,可以通过伪逆算法快速学习并更新网络权重,在处理同型号硬盘的新数据时,无需重新训练整个网络,通过增量学习过程可以快速迭代更新网络结构,适应新样本,解决模型老化问题。
附图说明
图1为本发明具体实施例中一种融合AP聚类与宽度学习系统的硬盘故障预测方法的步骤示意图;
图2 为本发明具体实施例中获取故障盘原始样本的示意图;
图3为本发明具体实施例中二维样本
Figure 212000DEST_PATH_IMAGE029
的数据分布示意图;
图4为本发明具体实施例中对二维样本
Figure 702543DEST_PATH_IMAGE029
进行AP聚类后形成的簇的示意图;
图5为本发明具体实施例中将部分健康样本重新标记为故障样本的示意图;
图6为本发明具体实施例中获取健康盘的最新样本的示意图;
图7为本发明具体实施例中划分训练集和测试集的示意图;
图8为本发明具体实施例中基于宽度学习系统的故障预测模型示意图;
图9为本发明具体实施例中宽度学习系统的增量学习过程示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图,进行进一步的详细说明,但本发明的实施和保护不限于此。
实施例:
一种融合AP聚类与宽度学习系统的硬盘故障预测方法,如图1所示,包括以下步骤:
S1、本实施例中,从公共数据集Backblaze中选出2019年采集的型号为“ST12000NM0007”的硬盘的全部样本作为研究对象;
硬盘的基本信息包括硬盘的型号、序列号以及采样日期;SMART属性数据包括多个含有唯一ID标识的SMART属性,每一个SMART属性包括各自的原始值和规范化值,例如smart_1_raw表示ID为1的SMART属性的原始值,smart_1_normalized表示ID为1的SMART属性的规范化值;样本标签用‘0’和‘1’表示,分别代表采样时硬盘未发生故障和硬盘发生了故障;
所述对SMART属性数据进行缺失值处理,具体如下:
按行处理:若某个样本的全部SMART属性数据都缺失,则将该样本丢弃;
按列处理:若所有样本的某一列SMART属性的数据全部缺失,则将该SMART属性列删除;
所述采样周期指各个硬盘从最早采集到的一条样本到最新采集的一条样本之间 的一段时间;硬盘在采样周期内出现过故障,则称之为故障盘,反之,则称为健康盘;记故障 盘的总数为
Figure 309543DEST_PATH_IMAGE001
,健康盘的总数为
Figure 606051DEST_PATH_IMAGE002
S2、针对每一个故障盘,采用基于AP聚类算法的样本标记方法,重新标记故障盘中的一部分健康样本为伪故障样本,增加故障样本量,具体包括以下步骤:
S2.1、令
Figure DEST_PATH_IMAGE105
Figure 8474DEST_PATH_IMAGE001
为故障盘的总数;
S2.2、如图2所示,对于当前处理的第
Figure 189358DEST_PATH_IMAGE008
个故障盘,获取序列号与第
Figure 558022DEST_PATH_IMAGE008
个故障盘相同的 全部样本,用
Figure 76464DEST_PATH_IMAGE011
表示获取的样本总数,
Figure DEST_PATH_IMAGE106
;用
Figure DEST_PATH_IMAGE107
表示获取的故障样本总 数,
Figure DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE109
,则表示第
Figure 283909DEST_PATH_IMAGE008
个故障盘没有健康样本,若
Figure 104536DEST_PATH_IMAGE009
,返回步骤S2.2,继续处理第
Figure 697847DEST_PATH_IMAGE016
个故障盘,若
Figure 285559DEST_PATH_IMAGE010
,则跳至步 骤S3;若
Figure DEST_PATH_IMAGE110
,则表示第
Figure 373558DEST_PATH_IMAGE008
个故障盘有健康样本和故障样本,则进行步骤 S2.3。
S2.3、将第
Figure 642384DEST_PATH_IMAGE008
个故障盘的第
Figure 454482DEST_PATH_IMAGE018
个故障样本表示为
Figure DEST_PATH_IMAGE111
,对所有
Figure DEST_PATH_IMAGE112
Figure 43288DEST_PATH_IMAGE021
,进行步骤S2.3~步骤S2.5的操作:
S2.3.1、如图2所示,确定
Figure 525741DEST_PATH_IMAGE021
的采样日期
Figure 446028DEST_PATH_IMAGE022
,回溯在
Figure 279511DEST_PATH_IMAGE022
之前的
Figure 185588DEST_PATH_IMAGE023
天的全部样本, 其中,
Figure 522547DEST_PATH_IMAGE024
为30,得到包括
Figure 410474DEST_PATH_IMAGE021
在内的
Figure 200094DEST_PATH_IMAGE024
条原始样本
Figure 441020DEST_PATH_IMAGE026
,当第
Figure 898065DEST_PATH_IMAGE008
个故障盘在采样日期
Figure 956893DEST_PATH_IMAGE022
之前采集 到的样本不足
Figure 764968DEST_PATH_IMAGE023
条时,取在采样日期
Figure 75165DEST_PATH_IMAGE022
之前实际采集到的所有样本;
S2.3.2、对原始样本
Figure 917874DEST_PATH_IMAGE026
的SMART属性数据进行缺失值填补,用0补全,得到填补后 的样本
Figure 6658DEST_PATH_IMAGE028
S2.3.3、使用主成分分析方法(PCA),将填补后的样本
Figure 98766DEST_PATH_IMAGE028
的多维SMART属性数据降 到二维,并进行标准化,最后得到数据预处理后的
Figure 947075DEST_PATH_IMAGE024
条二维样本
Figure 113133DEST_PATH_IMAGE029
,数据预处理后的
Figure 513763DEST_PATH_IMAGE024
条 二维样本
Figure 765271DEST_PATH_IMAGE029
的数据分布图如图3所示。
S2.4、对数据预处理后的二维样本进行AP聚类,得到聚类后每个二维样本的簇标签,并修改原始样本的簇标签,具体包括以下步骤:
S2.4.1、根据以下公式计算AP聚类算法的参考度初始值
Figure 886112DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE113
其中,
Figure 937087DEST_PATH_IMAGE032
表示原始样本
Figure 496900DEST_PATH_IMAGE033
的实际样本量,
Figure DEST_PATH_IMAGE114
;本实施例中,
Figure DEST_PATH_IMAGE115
Figure 645159DEST_PATH_IMAGE037
表示原始样本
Figure 784672DEST_PATH_IMAGE033
的样本标签,c为常数,
Figure 648024DEST_PATH_IMAGE038
为计算系数;计算系数
Figure 644318DEST_PATH_IMAGE038
可以令故障样本具有 比健康样本更大的参考度初始值,使得故障样本更具有吸引力,更有可能被选为最终的聚 类中心;
S2.4.2、使用参考度初始值为
Figure 350979DEST_PATH_IMAGE030
的AP聚类算法对二维样本
Figure 887658DEST_PATH_IMAGE029
进 行聚类,聚类后形成的簇如图4所示,得到二维样本
Figure 605516DEST_PATH_IMAGE029
的簇标签
Figure 772711DEST_PATH_IMAGE039
S2.4.3、由于经主成分分析方法(PCA)降维后的数据,其行序保持不变,因此给步 骤S2.3.1中的原始样本
Figure 232247DEST_PATH_IMAGE033
增加与二维样本
Figure 713563DEST_PATH_IMAGE029
相同的簇标签
Figure 551507DEST_PATH_IMAGE039
S2.5、经过步骤S2.3和步骤S2.4处理后,原始样本
Figure 92866DEST_PATH_IMAGE033
中的
Figure 25050DEST_PATH_IMAGE023
条健康样本和1条 故障样本都包括有一个样本标签
Figure 587354DEST_PATH_IMAGE037
和一个簇标签
Figure 291523DEST_PATH_IMAGE039
根据簇标签
Figure 992064DEST_PATH_IMAGE039
,从原始样本
Figure 680053DEST_PATH_IMAGE033
中的
Figure 780469DEST_PATH_IMAGE023
条健康样本中,筛选出与原始样本
Figure 135883DEST_PATH_IMAGE033
中 的1条故障样本分布在同一个簇中的健康样本;
然后,再把这部分健康样本的样本标签
Figure 741746DEST_PATH_IMAGE037
重新设置为1,并称这部分健康样本为伪 故障样本;
最后,将原始样本
Figure 120293DEST_PATH_IMAGE033
中未被标记的健康样本全部丢弃;由于原始样本
Figure 24400DEST_PATH_IMAGE033
是高维 数据,在二维平面无法作图,因此如图5所示,使用
Figure 703162DEST_PATH_IMAGE029
的簇标签来示范样本标记过程;
Figure DEST_PATH_IMAGE116
,返回步骤S2.3,若
Figure DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE118
,返回 步骤S2.2,若
Figure 766014DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE119
,则进行步骤S3。
S3、针对所有健康盘,根据故障盘的总数,随机挑选一部分健康盘,然后获取这部分健康盘的部分健康样本;
根据以下公式计算要挑选的健康盘的数量
Figure 685385DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE120
其中,
Figure 582514DEST_PATH_IMAGE001
是故障盘的总数,取
Figure DEST_PATH_IMAGE121
如图6所示,从
Figure 841414DEST_PATH_IMAGE040
个健康盘的所有样本中,挑选出采样周期内最新的
Figure 343675DEST_PATH_IMAGE043
个样本,取
Figure DEST_PATH_IMAGE122
S4、以硬盘为划分单位划分训练集和测试集;
如图7所示,以硬盘为划分单位,按给定比例
Figure DEST_PATH_IMAGE123
,随机挑选
Figure 628639DEST_PATH_IMAGE046
个故障盘和
Figure DEST_PATH_IMAGE124
个健康盘,其中符号
Figure 877478DEST_PATH_IMAGE048
表示向下取整。
然后将挑选的
Figure DEST_PATH_IMAGE125
个故障盘的故障样本作为训练集的正样本,挑选的
Figure 456796DEST_PATH_IMAGE049
个健康盘的健康样本作为训练集的负样本,得到最终的训练集;将挑选剩余 的故障盘的故障样本作为测试集的正样本,挑选剩余的健康盘的健康样本作为测试集的负 样本,得到最终的测试集。
S5、构建宽度学习系统作为如图8所示的故障预测模型,使用步骤S4中的训练集进行训练,使用测试集评估模型的好坏,得到训练好的故障预测模型;
故障预测模型包括输入层、特征层、增强层和输出层;其中,特征层包括
Figure 395538DEST_PATH_IMAGE050
组特征节 点;增强层包括
Figure 767132DEST_PATH_IMAGE051
组增强节点;输出层的输入包括特征层的输出和增强层的输出;最后由输 出层输出故障预测模型的预测结果;步骤S5的具体步骤如下:
S5.1、将S4中的训练集的样本作为故障预测模型的输入
Figure 262137DEST_PATH_IMAGE052
,输入到特征层,根据以 下公式计算每组特征节点的输出和特征层的输出:
Figure 504418DEST_PATH_IMAGE126
其中,
Figure 348482DEST_PATH_IMAGE054
Figure 207372DEST_PATH_IMAGE055
分别是随机生成的特征层权重矩阵和特征层偏置项,
Figure 506068DEST_PATH_IMAGE056
是特征 层的激活函数,
Figure 134014DEST_PATH_IMAGE057
为第
Figure 414559DEST_PATH_IMAGE058
组特征节点的输出,
Figure 229587DEST_PATH_IMAGE059
是特征层的输出;
S5.2、将特征层的输出
Figure 863132DEST_PATH_IMAGE059
作为增强层的输入,根据以下公式计算每组增强节点的 输出和增强层的输出:
Figure DEST_PATH_IMAGE127
其中,
Figure 829074DEST_PATH_IMAGE061
Figure 292DEST_PATH_IMAGE062
分别是随机生成的增强层权重矩阵和增强层偏置项,
Figure 568196DEST_PATH_IMAGE063
是增强 层的激活函数,
Figure 208694DEST_PATH_IMAGE064
为第
Figure 811232DEST_PATH_IMAGE065
组增强节点的输出,
Figure 433579DEST_PATH_IMAGE066
是增强层的输出;
S5.3、将特征层的输出
Figure 223199DEST_PATH_IMAGE059
和增强层的输出
Figure 667388DEST_PATH_IMAGE066
作为输出层的输入,根据以下公式计 算输出层的输入矩阵
Figure 593275DEST_PATH_IMAGE067
Figure 964603DEST_PATH_IMAGE128
S5.4、故障预测模型的输出
Figure 975940DEST_PATH_IMAGE037
由以下公式表示:
Figure 754978DEST_PATH_IMAGE069
其中,
Figure 800950DEST_PATH_IMAGE067
是输出层的输入矩阵,
Figure 762170DEST_PATH_IMAGE070
是输出层的权重矩阵,
Figure 791962DEST_PATH_IMAGE037
是步骤S4中训练集的 样本标签。
根据公式(9)和(10),输出层的权重矩阵
Figure 374691DEST_PATH_IMAGE070
的计算公式如下:
Figure DEST_PATH_IMAGE129
其中,
Figure 10857DEST_PATH_IMAGE072
Figure 665348DEST_PATH_IMAGE067
的伪逆,
Figure 436296DEST_PATH_IMAGE073
是约束项,
Figure 37697DEST_PATH_IMAGE074
是单位矩阵,
Figure 335559DEST_PATH_IMAGE075
Figure 95705DEST_PATH_IMAGE067
的的转置,公式(12)根据 伪逆算法计算得出。
将步骤S5.1~步骤S5.4作为故障预测模型的一轮训练;在训练阶段,训练前,初始 化参数
Figure 822791DEST_PATH_IMAGE050
Figure 227883DEST_PATH_IMAGE076
;训练过程中参数
Figure 380252DEST_PATH_IMAGE050
Figure 845387DEST_PATH_IMAGE076
的值从10到100,以5的步长递增,进行网格搜索调参, 找到符合精度要求时的参数
Figure 325348DEST_PATH_IMAGE050
Figure 862027DEST_PATH_IMAGE076
,得到参数
Figure 868902DEST_PATH_IMAGE054
Figure 770518DEST_PATH_IMAGE055
Figure 737775DEST_PATH_IMAGE077
Figure 484670DEST_PATH_IMAGE062
Figure 814893DEST_PATH_IMAGE070
;训练完后,保存参数
Figure 887410DEST_PATH_IMAGE050
Figure 545225DEST_PATH_IMAGE076
Figure 361390DEST_PATH_IMAGE054
Figure 811699DEST_PATH_IMAGE055
Figure 786609DEST_PATH_IMAGE077
Figure 209018DEST_PATH_IMAGE062
Figure 285997DEST_PATH_IMAGE070
;在测试阶段,用参数
Figure 375831DEST_PATH_IMAGE054
Figure 348790DEST_PATH_IMAGE055
Figure 789655DEST_PATH_IMAGE077
Figure 935903DEST_PATH_IMAGE062
Figure 880244DEST_PATH_IMAGE070
来初始化本轮训练 完的故障预测模型,并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入,得到 本轮训练完的故障预测模型的输出,即为预测结果;根据预测结果和测试集中的样本标签, 评估本轮训练完的故障预测模型是否达到精度要求;当不满足精度要求时,调整参数
Figure 211604DEST_PATH_IMAGE050
Figure 874186DEST_PATH_IMAGE076
, 进行新的一轮训练;当精度达到要求,或达到最大训练次数时,停止训练;使用停止训练时 保存的参数
Figure 292967DEST_PATH_IMAGE050
Figure 91814DEST_PATH_IMAGE076
Figure 594076DEST_PATH_IMAGE054
Figure 212795DEST_PATH_IMAGE055
Figure 700846DEST_PATH_IMAGE077
Figure 820112DEST_PATH_IMAGE062
Figure 758854DEST_PATH_IMAGE070
初始化的故障预测模型,得到训练好的故障预测 模型;
当有相同型号不同序列号的硬盘新增数据到达时,在训练好的故障预测模型的基 础上,进行增量学习,更新输出层的权重矩阵
Figure 599289DEST_PATH_IMAGE070
,而不需要重新训练整个故障预测模型; 如果没有新增数据,则无需进行增量学习;
故障预测模型的增量学习如图9所示,具体包括以下步骤:
S5.5、记新增数据为
Figure 359873DEST_PATH_IMAGE079
,则故障预测模型的输入从
Figure 867734DEST_PATH_IMAGE080
扩展为
Figure 836432DEST_PATH_IMAGE081
,记
Figure 619623DEST_PATH_IMAGE082
为新增数 据
Figure 180968DEST_PATH_IMAGE079
的样本标签,那么特征层的新增输出
Figure 808914DEST_PATH_IMAGE083
、增强层的新增输出
Figure 823880DEST_PATH_IMAGE084
、以及输出层的新增输 入
Figure 170066DEST_PATH_IMAGE085
,可根据以下公式计算:
Figure 538032DEST_PATH_IMAGE130
S5.6、根据以下公式更新输出层的输入矩阵:
Figure DEST_PATH_IMAGE131
其中
Figure 503974DEST_PATH_IMAGE067
是更新前输出层的输入矩阵,
Figure 209281DEST_PATH_IMAGE088
是输出层的新增输入
Figure 499886DEST_PATH_IMAGE085
的转置,
Figure 683261DEST_PATH_IMAGE089
是更新 后的输出层的输入矩阵;
S5.7、根据以下公式计算
Figure 31939DEST_PATH_IMAGE090
的伪逆
Figure 376988DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE132
其中,
Figure 626661DEST_PATH_IMAGE093
由公式(12)得到;
Figure 172367DEST_PATH_IMAGE094
为第一过渡矩阵,
Figure 95323DEST_PATH_IMAGE095
Figure 142432DEST_PATH_IMAGE094
的转置;
Figure 407630DEST_PATH_IMAGE096
为第二过渡矩阵,
Figure 667228DEST_PATH_IMAGE097
Figure 459340DEST_PATH_IMAGE096
的伪逆,同样由伪逆算法计算,如公式(12);
Figure 677350DEST_PATH_IMAGE098
第三过渡矩阵,
Figure 164265DEST_PATH_IMAGE099
Figure 227554DEST_PATH_IMAGE100
的转置;
S5.8,根据以下公式,更新输出层的权重矩阵
Figure 874172DEST_PATH_IMAGE101
Figure 997505DEST_PATH_IMAGE133
其中,
Figure 34032DEST_PATH_IMAGE070
是更新前输出层的权重矩阵,
Figure 166592DEST_PATH_IMAGE103
Figure 198875DEST_PATH_IMAGE104
的转置;
完成增量学习后,故障预测模型由参数
Figure 224600DEST_PATH_IMAGE050
Figure 951685DEST_PATH_IMAGE051
Figure 91198DEST_PATH_IMAGE054
Figure 977988DEST_PATH_IMAGE055
Figure 177544DEST_PATH_IMAGE077
Figure 391926DEST_PATH_IMAGE062
Figure 866288DEST_PATH_IMAGE101
进行初始化。
S6、当该单一型号硬盘新采集的数据到来时,使用步骤S5中的训练好的故障预测模型,预测这些硬盘在未来一段时间内是否会出现故障,得到预测结果。
以上公开的本申请优选实施例只是用于帮助理解本发明及核心思想。对于本领域的一般技术人员,依据本发明的思想,在具体应用场景和实施操作上均会有改变之处,本说明书不应理解对本发明的限制。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (9)

1.一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,包括以下步骤:
S1、从数据集中过滤出单一型号的硬盘的全部样本,每个样本包括硬盘的基本信息、SMART属性数据以及样本标签;对SMART属性数据进行缺失值处理,按各序列号硬盘在采样周期内是否存在标签为‘1’的样本,将该型号的所有硬盘分为故障盘和健康盘;
S2、针对每一个故障盘,采用基于AP聚类算法的样本标记方法,标记故障盘中的一部分健康样本为伪故障样本,增加故障样本量;
S3、针对所有健康盘,根据故障盘的总数,随机挑选一部分健康盘,然后获取这部分健康盘的部分健康样本;
S4、以硬盘为划分单位划分训练集、测试集:以硬盘为划分单位,按照给定比例ratio′,ratio′∈[0.5,1),随机挑选
Figure FDA0003561734720000011
个故障盘和
Figure FDA0003561734720000012
个健康盘,其中符号
Figure FDA0003561734720000013
表示向下取整,Cf为故障盘的总数,Ch为健康盘的总数;
然后将挑选的
Figure FDA0003561734720000014
个故障盘的故障样本作为训练集的正样本,挑选的
Figure FDA0003561734720000015
个健康盘的健康样本作为训练集的负样本,得到最终的训练集;将挑选剩余的故障盘的故障样本作为测试集的正样本,挑选剩余的健康盘的健康样本作为测试集的负样本,得到最终的测试集;
S5、构建宽度学习系统作为故障预测模型,使用S4中的训练集训练故障预测模型,使用测试集评估故障预测模型的好坏,得到训练好的故障预测模型;
S6、当该单一型号硬盘新采集的数据到来时,使用步骤S5中的训练好的故障预测模型,预测新采集的单一型号硬盘在未来一段时间内是否会出现故障,得到预测结果。
2.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S1中,从包括多种型号的硬盘数据的数据集中选取出单一型号的硬盘数据作为研究对象;
硬盘的基本信息包括硬盘的型号、序列号以及采样日期;SMART属性数据包括多个含有唯一ID标识的SMART属性,每一个SMART属性包括各自的原始值和规范化值;样本标签用‘0’和‘1’表示,分别代表采样时硬盘未发生故障和硬盘发生了故障;
所述对SMART属性数据进行缺失值处理,具体如下:
按行处理:若某个样本的全部SMART属性数据都缺失,则将该样本丢弃;
按列处理:若所有样本的某一列SMART属性的数据全部缺失,则将该列SMART属性删除;
所述采样周期指各个硬盘从最早采集到的一条样本到最新采集的一条样本之间的一段时间;硬盘在采样周期内出现过故障,则称之为故障盘,反之,则称为健康盘;记故障盘的总数为Cf,健康盘的总数为CH
3.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2具体包括以下步骤:
S2.1、令i=1,i∈(0,Cf],Cf为故障盘的总数;
S2.2、获取序列号与第i个故障盘相同的全部样本,若获取的样本满足要求,则进行步骤S2.3,否则若i≠Cf,i=i+1,返回步骤S2.2,若i=Cf,则跳至步骤S3;
S2.3、对步骤S2.2中获取的故障盘样本的SMART属性数据进行数据预处理,获取原始样本,得到数据预处理后的二维样本;
S2.4、对数据预处理后的二维样本进行AP聚类,得到聚类后每个二维样本的簇标签,并修改原始样本的簇标签;
S2.5、根据得到的原始样本的簇标签进行样本标记,得到伪故障样本,若i≠Cf,i=i+1,返回步骤S2.2,若i=Cf,则进行步骤S3。
4.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2.2中,对于当前处理的第i个故障盘,获取序列号与第i个故障盘相同的全部样本,用Totali表示获取的样本总数,Totali≥1;用failurei表示获取的故障样本总数,failurei∈[1,Totali];
若failurei=Totali,则表示第i个故障盘没有健康样本,若i≠Cf,i=i+1,返回步骤S2.2,继续处理第(i+1)个故障盘,若i=Cf,则跳至步骤S3;若failurei<Totali,则表示第i个故障盘有健康样本和故障样本,则进行步骤S2.3。
5.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2.3中,将第i个故障盘的第j个故障样本表示为si,j,j∈[1,failurei],对所有j≤failurei的si,j,进行步骤S2.3~步骤S2.5的操作:
S2.3.1、确定Si,j的采样日期d,回溯在d之前的N-1天的全部样本,其中N为自定义参数,得到包括Si,j在内的N条原始样本
Figure FDA0003561734720000031
当第i个故障盘在采样日期d之前采集到的样本不足N-1条时,取在采样日期d之前实际采集到的所有样本;
S2.3.2、对原始样本
Figure FDA0003561734720000032
的SMART属性数据进行缺失值填补,用0补全,得到填补后的样本
Figure FDA0003561734720000033
S2.3.3、使用主成分分析方法(PCA),将填补后的样本
Figure FDA0003561734720000034
的多维SMART属性数据降到二维,并进行标准化,最后得到数据预处理后的N条二维样本
Figure FDA0003561734720000035
6.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2.4具体包括以下步骤:
S2.4.1、根据以下公式计算AP聚类算法的参考度初始值preferencenew
Figure FDA0003561734720000036
α=Y+c,c≠0,-1; (2)
Figure FDA0003561734720000037
其中,R表示原始样本
Figure FDA0003561734720000038
的实际样本量,R≤N;preference是给定的参考度;Y表示原始样本
Figure FDA0003561734720000039
的样本标签,c为常数,α为计算系数;
S2.4.2、使用参考度初始值为preferencenew的AP聚类算法对二维样本
Figure FDA0003561734720000041
进行聚类,得到二维样本
Figure FDA0003561734720000042
的簇标签Y′;
S2.4.3、给步骤S2.3.1中的原始样本
Figure FDA0003561734720000043
增加与二维样本
Figure FDA0003561734720000044
相同的簇标签Y′。
7.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2.5中,经过步骤S2.3和步骤S2.4处理后,原始样本
Figure FDA0003561734720000045
中的N-1条健康样本和1条故障样本都包括有一个样本标签Y和一个簇标签Y′;
根据簇标签Y′,从原始样本
Figure FDA0003561734720000046
中的N-1条健康样本中,筛选出与原始样本
Figure FDA0003561734720000047
中的1条故障样本分布在同一个簇中的健康样本;
然后,再把这部分健康样本的样本标签Y重新设置为1,并称这部分健康样本为伪故障样本;
最后,将原始样本
Figure FDA0003561734720000048
中未被标记的健康样本全部丢弃。
8.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S3中,根据以下公式计算要挑选的健康盘的数量Ch
Ch=Cf*ratio; (4)
其中,Cf是故障盘的总数,ratio是给定的挑选比例;
从Ch个健康盘的所有样本中,挑选出采样周期内最新的L个样本,L是自定义参数。
9.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S5中,故障预测模型包括输入层、特征层、增强层和输出层;其中,特征层包括n特征节点;增强层包括m组增强节点;输出层的输入包括特征层的输出和增强层的输出;最后由输出层输出故障预测模型的预测结果;步骤S5的具体步骤如下:
S5.1、将S4中的训练集的样本作为故障预测模型的输入X,输入到特征层,根据以下公式计算每组特征节点的输出和特征层的输出:
Figure FDA0003561734720000051
Zn=[Z1,Z2,...,Zn]; (6)
其中,
Figure FDA0003561734720000052
Figure FDA0003561734720000053
分别是随机生成的特征层权重矩阵和特征层偏置项,
Figure FDA0003561734720000054
是特征层的激活函数,Zp为第p组特征节点的输出,Zn是特征层的输出;
S5.2、将特征层的输出Zn作为增强层的输入,根据以下公式计算每组增强节点的输出和增强层的输出:
Figure FDA0003561734720000055
Hm=[H1,H2,...,Hm]: (8)
其中,
Figure FDA0003561734720000056
Figure FDA0003561734720000057
分别是随机生成的增强层权重矩阵和增强层偏置项,ξ(.)是增强层的激活函数,Hq为第q组增强节点的输出,Hm是增强层的输出;
S5.3、将特征层的输出Zn和增强层的输出Hm作为输出层的输入,根据以下公式计算输出层的输入矩阵A:
A=[Z1,Z2,...,Zn|H1,H2,...,Hm]=[Zn|Hm]; (9)
S5.4、故障预测模型的输出Y由以下公式表示:
Y=AWm (10)
其中,A输出层的输入矩阵,Wm是输出层的权重矩阵,Y是步骤S4中训练集的样本标签;
根据公式(9)和(10),输出层的权重矩阵Wm的计算公式如下:
Wm=A+Y; (11)
Figure FDA0003561734720000058
其中,A+是A的伪逆,λ是约束项,I是单位矩阵,AT是A的转置,公式(12)根据伪逆算法计算得出;
将步骤S5.1~步骤S5.4作为故障预测模型的一轮训练;在训练阶段,训练前,初始化参数n、m;训练中,得到参数
Figure FDA0003561734720000059
Wm;训练完后,保存参数n、m、
Figure FDA0003561734720000061
Wm;在测试阶段,用参数
Figure FDA0003561734720000062
Wm来初始化本轮训练完的故障预测模型,并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入,得到本轮训练完的故障预测模型的输出,即为预测结果;根据预测结果和测试集中的样本标签,评估本轮训练完的故障预测模型是否达到精度要求;当不满足精度要求时,调整参数n、m,进行新的一轮训练;当精度达到要求,或达到最大训练次数时,停止训练;使用停止训练时保存的参数n、m、
Figure FDA0003561734720000063
Wm初始化的故障预测模型,得到训练好的故障预测模型;
当有相同型号不同序列号的硬盘新增数据到达时,在训练好的故障预测模型的基础上,进行增量学习,更新输出层的权重矩阵Wm,而不需要重新训练整个故障预测模型;如果没有新增数据,则无需进行增量学习;
故障预测模型的增量学习具体包括以下步骤:
S5.5、记新增数据为Xa,则故障预测模型的输入从X扩展为[X|Xa],记Ya为新增数据Xa的样本标签,特征层的新增输出
Figure FDA0003561734720000064
增强层的新增输出
Figure FDA0003561734720000065
以及输出层的新增输入Aa,根据以下公式计算:
Figure FDA0003561734720000066
Figure FDA0003561734720000067
Figure FDA0003561734720000068
S5.6、根据以下公式更新输出层的输入矩阵:
Figure FDA0003561734720000069
其中A是更新前输出层的输入矩阵,
Figure FDA00035617347200000610
是输出层的新增输入Aa的转置,Ax是更新后的输出层的输入矩阵;
S5.7、根据以下公式计算Ax的伪逆
Figure FDA00035617347200000611
Figure FDA0003561734720000071
Figure FDA0003561734720000072
Figure FDA0003561734720000073
Figure FDA0003561734720000074
其中,A+由公式(12)得到;B为第一过渡矩阵,BT为B的转置;C为第二过渡矩阵,C+为C的伪逆,根据伪逆算法计算;D为第三过渡矩阵,DT为D的转置;
S5.8,根据以下公式,更新输出层的权重矩阵Wx
Figure FDA0003561734720000075
其中,Wm是更新前输出层的权重矩阵,
Figure FDA0003561734720000076
是Ya的转置;
完成增量学习后,故障预测模型由参数n、m、
Figure FDA0003561734720000077
和Wx进行初始化。
CN202210096818.2A 2022-01-27 2022-01-27 一种融合ap聚类与宽度学习系统的硬盘故障预测方法 Active CN114116292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210096818.2A CN114116292B (zh) 2022-01-27 2022-01-27 一种融合ap聚类与宽度学习系统的硬盘故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210096818.2A CN114116292B (zh) 2022-01-27 2022-01-27 一种融合ap聚类与宽度学习系统的硬盘故障预测方法

Publications (2)

Publication Number Publication Date
CN114116292A CN114116292A (zh) 2022-03-01
CN114116292B true CN114116292B (zh) 2022-05-24

Family

ID=80361961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210096818.2A Active CN114116292B (zh) 2022-01-27 2022-01-27 一种融合ap聚类与宽度学习系统的硬盘故障预测方法

Country Status (1)

Country Link
CN (1) CN114116292B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680114B (zh) * 2023-08-04 2023-10-31 浙江鹏信信息科技股份有限公司 Lvm故障数据快速恢复方法、系统和计算机可读存储介质
CN117421145B (zh) * 2023-12-18 2024-03-01 苏州元脑智能科技有限公司 一种异构硬盘系统故障预警方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
JP6783443B2 (ja) * 2015-04-06 2020-11-11 国立研究開発法人産業技術総合研究所 情報処理装置、情報処理システム、情報処理方法、プログラム、及び記録媒体
CN106769052B (zh) * 2017-03-21 2018-12-21 桂林电子科技大学 一种基于聚类分析的机械系统滚动轴承智能故障诊断方法
CN108960422B (zh) * 2018-06-19 2022-04-15 河南工业大学 一种基于主成分分析的宽度学习方法
US10810076B1 (en) * 2018-08-28 2020-10-20 Palantir Technologies Inc. Fault clustering for remedial action analysis
CN111158964B (zh) * 2019-11-26 2021-06-08 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111949459B (zh) * 2020-08-10 2022-02-01 南京航空航天大学 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN112214369A (zh) * 2020-10-23 2021-01-12 华中科技大学 基于模型融合的硬盘故障预测模型建立方法及其应用
CN113419519B (zh) * 2021-07-14 2022-05-13 北京航空航天大学 基于宽度学习的机电产品系统或设备实时故障诊断方法
CN113741394B (zh) * 2021-09-06 2023-08-15 河海大学 一种基于半监督式增量学习的工业设备故障诊断系统

Also Published As

Publication number Publication date
CN114116292A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN114116292B (zh) 一种融合ap聚类与宽度学习系统的硬盘故障预测方法
CN113343633B (zh) 动力锂电池热失控故障分类及风险预测方法、系统
CN111367961A (zh) 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
CN106897178B (zh) 一种基于极限学习机的慢盘检测方法及系统
CN108647136A (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN107153759B (zh) 一种多源数据融合的航空涡扇发动机剩余寿命预测方法
CN110471820B (zh) 一种基于循环神经网络的云存储系统磁盘故障预测方法
CN114297036B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN109471698B (zh) 云环境下虚拟机异常行为检测系统和方法
CN107977748B (zh) 一种多变量扭曲时间序列预测方法
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN112749041B (zh) 虚拟化网络功能备份策略自决策方法、装置及计算设备
CN110196792A (zh) 故障预测方法、装置、计算设备及存储介质
CN114169396B (zh) 用于飞行器故障诊断的训练数据生成模型构建方法及应用
Yang et al. Zte-predictor: Disk failure prediction system based on lstm
CN111414289A (zh) 一种基于迁移学习的磁盘故障预测方法及装置
CN114818353A (zh) 一种基于故障特征关系图谱的列控车载设备故障预测方法
CN117390407B (zh) 变电站设备的故障识别方法、系统、介质和设备
CN111027591A (zh) 一种面向大规模集群系统的节点故障预测方法
CN111858108B (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN111695631B (zh) 基于sae的检定故障特征提取方法、装置、设备以及介质
CN108415819A (zh) 一种硬盘故障追踪方法和装置
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
CN112434733B (zh) 一种小样本硬盘故障数据生成方法、存储介质及计算设备
Jiao et al. A health indicator construction method based on deep belief network for remaining useful life prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant