CN114116292B - 一种融合ap聚类与宽度学习系统的硬盘故障预测方法 - Google Patents
一种融合ap聚类与宽度学习系统的硬盘故障预测方法 Download PDFInfo
- Publication number
- CN114116292B CN114116292B CN202210096818.2A CN202210096818A CN114116292B CN 114116292 B CN114116292 B CN 114116292B CN 202210096818 A CN202210096818 A CN 202210096818A CN 114116292 B CN114116292 B CN 114116292B
- Authority
- CN
- China
- Prior art keywords
- samples
- sample
- fault
- hard disk
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种融合AP聚类与宽度学习系统的硬盘故障预测方法。所述方法包括以下步骤:过滤出单一型号的硬盘的全部样本并进行处理,将该型号的所有硬盘分为故障盘和健康盘;采用基于AP聚类算法的样本标记方法,重新标记故障盘中的一部分健康样本为伪故障样本;随机挑选一部分健康盘,获取部分健康样本;划分训练集、测试集;构建故障预测模型,使用训练集训练故障预测模型,使用测试集评估故障预测模型的好坏;当该单一型号硬盘新采集的数据到来时,使用训练好的故障预测模型,预测这些硬盘在未来一段时间内是否会出现故障,得到预测结果。本发明通过增量学习过程快速迭代更新网络结构,解决模型老化问题。
Description
技术领域
本发明属于云数据存储技术领域,尤其涉及一种融合AP聚类算法与宽度学习系统的硬盘故障预测方法。
背景技术
随着云计算技术的发展,为其提供软硬件资源和信息存储的云数据中心的规模也越来越大,结构也变得越来越复杂,使得云数据中心对资源和信息存储的可靠性要求也越来越高。硬盘作为云数据中心的主要存储设备,一旦出现不可修复的故障,将引发一系列更严重的后果,造成巨大的损失。基于硬盘的SMART属性,结合机器学习算法来预测硬盘在未来一段时间内是否会出现故障的研究方法已经取得了很好的成果。
如今云数据中心的硬盘数量可以达到几十万个,其中出现过或者已经出现了故障的硬盘相对于从未出现过故障的硬盘来说相当少,例如在Alibaba公开的数据集中,故障盘和健康盘的比例不到0.003%,就是说故障硬盘与健康硬盘的数量本身就存在极端的不平衡,并且故障盘在出现故障后往往就采集不到它的数据了,导致采集的故障样本就更少了。所以,在研究硬盘的故障预测问题中,常会面临一个正负样本极端不平衡的情况。在处理这种数据不平衡问题时,一个基本策略就是对数据集进行“再缩放”,现有技术大致可以分为两种:一是对负样本(这里指健康样本)进行“欠采样”(undersampling),即减少负样本量,使得正负样本数量达到合适的比例,其代表性算法EasyEnsemble就是利用集成学习机制,将负样本划分为若干个集合供多个不同的学习器使用,通过对每个学习器进行欠采样,来防止重要信息的丢失(Liu X Y , Wu J , Zhou Z H . Exploratory Undersampling forClass-Imbalance Learning[J]. IEEE Transactions on Systems Man & CyberneticsPart B, 2009, 39(2):539-550.),“欠采样”过程还可以通过一些聚类算法将负样本分为多个簇,然后从每个簇中再筛选几个样本,如聚类中心,作为各个簇的代表,最后用筛选出的样本来表征全部负样本的特征(Shen J , Wan J , Lim J , et al. Random-forest-based failure prediction for hard disk drives[J]. International Journal ofDistributed Sensor Networks, 2018, 14(11).),然而,在使用“欠采样”技术时,要注意在丢弃样本时还可能丢失一些重要信息,导致较高的误报率。二是对正样本(这里指健康样本)进行“过采样”(oversampling),即增加正样本量,使得正负样本数量达到合适的比例,其代表性算法SMOTE就是通过对原始的正样本进行插值来生成额外的正样本(SMOTE:Synthetic Minority Over-sampling Technique[J]. Journal of ArtificialIntelligence Research, 2002, 16(1):321-357.),或者使用原始的正样本去训练一个生成对抗网络来生成新的正样本(Shi C , Wu Z , Lv X , et al. DGTL-Net: A DeepGenerative Transfer Learning Network for Fault Diagnostics on New Hard Disks[J]. Expert Systems with Applications, 2020, 169(16):114379.)。
传统的硬盘可靠性研究是在故障发生以后,再通过增加的数据冗余等方式来进行数据恢复,主要包括副本、备份等,这种方法的出发点在于能够“容忍”故障的发生,在故障发生之后再采取相应的措施恢复或重构故障盘的数据,使得存储系统仍然能够提供可靠的数据访问服务,但这种方法还会带来一些不利因素,它会影响到硬盘的读写性能,增加故障发生的可能性,降低存储系统的整体性能。因此,近年来硬盘的可靠性研究,出发点在于“预测”未来一段时间内硬盘是否会故障,来提前将数据迁移或备份,来避免故障真正发生时造成的巨大损失。如今的大多数硬盘都含有内置的SMART(Self-Monitoring Analysis andReporting Technology)技术,它可以监控单个硬盘的内部属性,称为SMART属性,并通过设定的阈值来预测即将发生的故障,但由于阈值化算法的预测性能不佳,硬盘的生产厂商对阈值的设定也十分严谨,导致基于阈值化方法的故障检出率(FDR)只有3%-10%(Murray,Joseph F , Hughes, et al. Machine Learning Methods for Predicting Failures inHard Drives: A Multiple-Instance Application.[J]. Journal of Machine LearningResearch, 2005.)。现有的研究方法,大致过程就是将采集的SMART属性数据与机器学习的方法相结合进行预测。比如Xiao等人提出的基于在线随机森林(Xiao J, Xiong Z, Wu S,et al. Disk failure prediction in data centers via online learning[C]//Proceedings of the 47th International Conference on Parallel Processing.2018: 1-10.)、Li等人提出的基于决策树(Li J, Stones R J, Wang G, et al. Harddrive failure prediction using decision trees[J]. Reliability Engineering &System Safety, 2017, 164: 55-65.)、以及基于梯度增强回归树(Li J, Ji X, Jia Y,et al. Hard drive failure prediction using classification and regressiontrees[C]//2014 44th Annual IEEE/IFIP International Conference on DependableSystems and Networks. IEEE, 2014: 383-394.)、Lu等人提出的基于CNN-LSTM(Lu S,Luo B, Patel T, et al. Making Disk Failure Predictions SMARTer![C]//18th{USENIX} Conference on File and Storage Technologies ({FAST} 20). 2020: 151-167.)、Xu等人提出的基于代价敏感学习(Xu Y, Sui K, Yao R, et al. Improvingservice availability of cloud systems by predicting disk error[C]//2018{USENIX} Annual Technical Conference ({USENIX}{ATC} 18). 2018: 481-494.)等等方法。
总的来看,现有的研究方法仍然存在一些问题,具体如下:
(1)极端的样本不平衡:大型数据中心的健康硬盘远多于故障硬盘,导致采集到的故障样本少之又少,然而机器学习的方法又需要大量的样本进行训练学习,因此如何获取更多的故障样本是一个值得思考的问题;
(2)许多基于深度学习的方法尽管有了很大的发展,但越高的精度伴随着的是越来越复杂的网络结构和越来越耗时的网络训练过程;
(3)硬盘从健康状态到出现故障这是一个渐进的过程,这意味着依赖离线训练的深度学习模型将无法适应即将到来的新数据,即存在模型老化问题。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种融合AP聚类算法与宽度学习系统的硬盘故障预测方法。基于AP聚类算法的自适应样本标记方法,可以根据采集的故障硬盘的历史SMART数据来提前感知样本中的异常,然后将这部分原始标签为‘0’的样本的标签重新标记为‘1’。基于宽度学习的硬盘故障预测模型拥有高效的建模特性,它可以在新样本到达时无需重新训练整个网络,而是通过其增量学习过程快速迭代更新网络结构以适应新样本,解决模型老化问题。
本发明的目的至少通过如下技术方案之一实现。
一种融合AP聚类与宽度学习系统的硬盘故障预测方法,包括以下步骤:
S1、从数据集中过滤出单一型号的硬盘的全部样本,每个样本包括硬盘的基本信息、SMART属性数据以及样本标签;对SMART属性数据进行缺失值处理,按各序列号硬盘在采样周期内是否存在标签为‘1’的样本,将该型号的所有硬盘分为故障盘和健康盘;
S2、针对每一个故障盘,采用基于AP聚类算法的样本标记方法,重新标记故障盘中的一部分健康样本为伪故障样本,增加故障样本量;
S3、针对所有健康盘,根据故障盘的总数,随机挑选一部分健康盘,然后获取这部分健康盘的部分健康样本;
S4、以硬盘为划分单位划分训练集、测试集;
S5、构建宽度学习系统作为故障预测模型,使用S4中的训练集训练故障预测模型,使用测试集评估故障预测模型的好坏,得到训练好的故障预测模型;
S6、当该单一型号硬盘新采集的数据到来时,使用步骤S5中的训练好的故障预测模型,预测这些硬盘在未来一段时间内是否会出现故障,得到预测结果。
进一步地,步骤S1中,从包括多种型号的硬盘数据的数据集中选取出单一型号的硬盘数据作为研究对象;
硬盘的基本信息包括硬盘的型号、序列号以及采样日期;SMART属性数据包括多个含有唯一ID标识的SMART属性,每一个SMART属性包括各自的原始值和规范化值,例如smart_1_raw表示ID为1的SMART属性的原始值,smart_1_normalized表示ID为1的SMART属性的规范化值;样本标签用‘0’和‘1’表示,分别代表采样时硬盘未发生故障和硬盘发生了故障;
所述对SMART属性数据进行缺失值处理,具体如下:
按行处理:若某个样本的全部SMART属性数据都缺失,则将该样本丢弃;
按列处理:若所有样本的某一列SMART属性的数据全部缺失,则将该列SMART属性删除;
进一步地,AP聚类算法的核心思想,是通过在不同样本点之间不断地传递信息,选
出最终的聚类中心,完成聚类;使用时不需要为AP聚类算法指定最终聚类簇的个数,并且聚
类中心是选自真实的样本点,而不是新生成的点;使用AP聚类算法前,需要先计算不同点之
间的相似度,得到一个相似度矩阵,处于相似度矩阵对角线上的元素被称为每个点的参
考度,如,它表示点作为聚类中心的可能程度,并且其初始值会影响
最终的聚类簇数目,通常参考度越大,形成的聚类簇的数目也会越大;
步骤S2具体包括以下步骤:
S2.3、对步骤S2.2中获取的故障盘样本的SMART属性数据进行数据预处理,获取原始样本,得到数据预处理后的二维样本;
S2.4、对数据预处理后的二维样本进行AP聚类,得到聚类后每个二维样本的簇标签,并修改原始样本的簇标签;
S2.3.1、确定的采样日期,回溯在之前的天的全部样本,其中为自
定义参数,的建议取值范围为,得到包括在内的条原始样本,当第个故
障盘在采样日期之前采集到的样本不足条时,取在采样日期之前实际采集到的所
有样本;
进一步地,步骤S2.4具体包括以下步骤:
其中,表示原始样本的实际样本量,是给定的参考度,
由于AP聚类算法最终的聚类簇数目主要受参考度的影响,那么可根据指定的回溯天数给
定一个大概的参考度,能使聚类后得到的聚类簇数目适量即可;由于在指定回溯天数时,
有些故障盘的样本总数小于,那么,当给定一个参考度时,可能造成聚类
簇数目太少或太多,通过计算可以控制差异较大时,得到适量的聚类簇;
表示原始样本的样本标签,c为常数,为计算系数;计算系数可以令故障样本具有比
健康样本更大的参考度初始值,使得故障样本更具有吸引力,更有可能被选为最终的聚类
中心;
然后将挑选的个故障盘的故障样本作为训练集的正样本,挑选的个健康盘的健康样本作为训练集的负样本,得到最终的训练集;将挑选剩余
的故障盘的故障样本作为测试集的正样本,挑选剩余的健康盘的健康样本作为测试集的负
样本,得到最终的测试集。
进一步地,步骤S5中,故障预测模型包括输入层、特征层、增强层和输出层;其中,
特征层包括组特征节点;增强层包括组增强节点;输出层的输入包括特征层的输出和增
强层的输出;最后由输出层输出故障预测模型的预测结果;步骤S5的具体步骤如下:
将步骤S5.1~步骤S5.4作为故障预测模型的一轮训练;在训练阶段,训练前,初始
化参数、;训练中,得到参数、、、、;训练完后,保存参数、、、、、、;在测试阶段,用参数、、、、来初始化本轮训练完的故障预测
模型,并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入,得到本轮训练完的
故障预测模型的输出,即为预测结果;根据预测结果和测试集中的样本标签,评估本轮训练
完的故障预测模型是否达到精度要求;当不满足精度要求时,调整参数、,进行新的一轮
训练;当精度达到要求,或达到最大训练次数时,停止训练;使用停止训练时保存的参数、、、、、、初始化的故障预测模型,得到训练好的故障预测模型;
故障预测模型的增量学习具体包括以下步骤:
S5.6、根据以下公式更新输出层的输入矩阵:
与现有技术相比,本发明具有如下的优点与技术效果:
本发明核心在于,融合了一种基于AP聚类算法的样本标记方法和宽度学习系统,来对云数据中心的硬盘进行故障预测。基于AP聚类算法的样本标记方法,通过给故障样本和健康样本设置不同的参考度初始值,使得故障样本更有可能被选为聚类中心,然后将故障样本“吸引到”的健康样本重新标记为伪故障样本,即该方法可以在不生成新的样本的前提下,自适应选择一部分真实采集的负样本,将其重新标记为伪正样本,保留了原始样本的数据分布特征,同时增加了故障样本量,解决正负样本不平衡问题。基于宽度学习系统的故障预测模型,具有高效的建模特性,在处理不同型号硬盘数据时,可以通过伪逆算法快速学习并更新网络权重,在处理同型号硬盘的新数据时,无需重新训练整个网络,通过增量学习过程可以快速迭代更新网络结构,适应新样本,解决模型老化问题。
附图说明
图1为本发明具体实施例中一种融合AP聚类与宽度学习系统的硬盘故障预测方法的步骤示意图;
图2 为本发明具体实施例中获取故障盘原始样本的示意图;
图5为本发明具体实施例中将部分健康样本重新标记为故障样本的示意图;
图6为本发明具体实施例中获取健康盘的最新样本的示意图;
图7为本发明具体实施例中划分训练集和测试集的示意图;
图8为本发明具体实施例中基于宽度学习系统的故障预测模型示意图;
图9为本发明具体实施例中宽度学习系统的增量学习过程示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图,进行进一步的详细说明,但本发明的实施和保护不限于此。
实施例:
一种融合AP聚类与宽度学习系统的硬盘故障预测方法,如图1所示,包括以下步骤:
S1、本实施例中,从公共数据集Backblaze中选出2019年采集的型号为“ST12000NM0007”的硬盘的全部样本作为研究对象;
硬盘的基本信息包括硬盘的型号、序列号以及采样日期;SMART属性数据包括多个含有唯一ID标识的SMART属性,每一个SMART属性包括各自的原始值和规范化值,例如smart_1_raw表示ID为1的SMART属性的原始值,smart_1_normalized表示ID为1的SMART属性的规范化值;样本标签用‘0’和‘1’表示,分别代表采样时硬盘未发生故障和硬盘发生了故障;
所述对SMART属性数据进行缺失值处理,具体如下:
按行处理:若某个样本的全部SMART属性数据都缺失,则将该样本丢弃;
按列处理:若所有样本的某一列SMART属性的数据全部缺失,则将该SMART属性列删除;
S2、针对每一个故障盘,采用基于AP聚类算法的样本标记方法,重新标记故障盘中的一部分健康样本为伪故障样本,增加故障样本量,具体包括以下步骤:
S2.4、对数据预处理后的二维样本进行AP聚类,得到聚类后每个二维样本的簇标签,并修改原始样本的簇标签,具体包括以下步骤:
其中,表示原始样本的实际样本量,;本实施例中,
;表示原始样本的样本标签,c为常数,为计算系数;计算系数可以令故障样本具有
比健康样本更大的参考度初始值,使得故障样本更具有吸引力,更有可能被选为最终的聚
类中心;
S3、针对所有健康盘,根据故障盘的总数,随机挑选一部分健康盘,然后获取这部分健康盘的部分健康样本;
S4、以硬盘为划分单位划分训练集和测试集;
然后将挑选的个故障盘的故障样本作为训练集的正样本,挑选的个健康盘的健康样本作为训练集的负样本,得到最终的训练集;将挑选剩余
的故障盘的故障样本作为测试集的正样本,挑选剩余的健康盘的健康样本作为测试集的负
样本,得到最终的测试集。
S5、构建宽度学习系统作为如图8所示的故障预测模型,使用步骤S4中的训练集进行训练,使用测试集评估模型的好坏,得到训练好的故障预测模型;
故障预测模型包括输入层、特征层、增强层和输出层;其中,特征层包括组特征节
点;增强层包括组增强节点;输出层的输入包括特征层的输出和增强层的输出;最后由输
出层输出故障预测模型的预测结果;步骤S5的具体步骤如下:
将步骤S5.1~步骤S5.4作为故障预测模型的一轮训练;在训练阶段,训练前,初始
化参数、;训练过程中参数和的值从10到100,以5的步长递增,进行网格搜索调参,
找到符合精度要求时的参数、,得到参数、、、、;训练完后,保存参数、、、、、、;在测试阶段,用参数、、、、来初始化本轮训练
完的故障预测模型,并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入,得到
本轮训练完的故障预测模型的输出,即为预测结果;根据预测结果和测试集中的样本标签,
评估本轮训练完的故障预测模型是否达到精度要求;当不满足精度要求时,调整参数、,
进行新的一轮训练;当精度达到要求,或达到最大训练次数时,停止训练;使用停止训练时
保存的参数、、、、、、初始化的故障预测模型,得到训练好的故障预测
模型;
故障预测模型的增量学习如图9所示,具体包括以下步骤:
S5.6、根据以下公式更新输出层的输入矩阵:
S6、当该单一型号硬盘新采集的数据到来时,使用步骤S5中的训练好的故障预测模型,预测这些硬盘在未来一段时间内是否会出现故障,得到预测结果。
以上公开的本申请优选实施例只是用于帮助理解本发明及核心思想。对于本领域的一般技术人员,依据本发明的思想,在具体应用场景和实施操作上均会有改变之处,本说明书不应理解对本发明的限制。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (9)
1.一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,包括以下步骤:
S1、从数据集中过滤出单一型号的硬盘的全部样本,每个样本包括硬盘的基本信息、SMART属性数据以及样本标签;对SMART属性数据进行缺失值处理,按各序列号硬盘在采样周期内是否存在标签为‘1’的样本,将该型号的所有硬盘分为故障盘和健康盘;
S2、针对每一个故障盘,采用基于AP聚类算法的样本标记方法,标记故障盘中的一部分健康样本为伪故障样本,增加故障样本量;
S3、针对所有健康盘,根据故障盘的总数,随机挑选一部分健康盘,然后获取这部分健康盘的部分健康样本;
S4、以硬盘为划分单位划分训练集、测试集:以硬盘为划分单位,按照给定比例ratio′,ratio′∈[0.5,1),随机挑选个故障盘和个健康盘,其中符号表示向下取整,Cf为故障盘的总数,Ch为健康盘的总数;
然后将挑选的个故障盘的故障样本作为训练集的正样本,挑选的个健康盘的健康样本作为训练集的负样本,得到最终的训练集;将挑选剩余的故障盘的故障样本作为测试集的正样本,挑选剩余的健康盘的健康样本作为测试集的负样本,得到最终的测试集;
S5、构建宽度学习系统作为故障预测模型,使用S4中的训练集训练故障预测模型,使用测试集评估故障预测模型的好坏,得到训练好的故障预测模型;
S6、当该单一型号硬盘新采集的数据到来时,使用步骤S5中的训练好的故障预测模型,预测新采集的单一型号硬盘在未来一段时间内是否会出现故障,得到预测结果。
2.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S1中,从包括多种型号的硬盘数据的数据集中选取出单一型号的硬盘数据作为研究对象;
硬盘的基本信息包括硬盘的型号、序列号以及采样日期;SMART属性数据包括多个含有唯一ID标识的SMART属性,每一个SMART属性包括各自的原始值和规范化值;样本标签用‘0’和‘1’表示,分别代表采样时硬盘未发生故障和硬盘发生了故障;
所述对SMART属性数据进行缺失值处理,具体如下:
按行处理:若某个样本的全部SMART属性数据都缺失,则将该样本丢弃;
按列处理:若所有样本的某一列SMART属性的数据全部缺失,则将该列SMART属性删除;
所述采样周期指各个硬盘从最早采集到的一条样本到最新采集的一条样本之间的一段时间;硬盘在采样周期内出现过故障,则称之为故障盘,反之,则称为健康盘;记故障盘的总数为Cf,健康盘的总数为CH。
3.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2具体包括以下步骤:
S2.1、令i=1,i∈(0,Cf],Cf为故障盘的总数;
S2.2、获取序列号与第i个故障盘相同的全部样本,若获取的样本满足要求,则进行步骤S2.3,否则若i≠Cf,i=i+1,返回步骤S2.2,若i=Cf,则跳至步骤S3;
S2.3、对步骤S2.2中获取的故障盘样本的SMART属性数据进行数据预处理,获取原始样本,得到数据预处理后的二维样本;
S2.4、对数据预处理后的二维样本进行AP聚类,得到聚类后每个二维样本的簇标签,并修改原始样本的簇标签;
S2.5、根据得到的原始样本的簇标签进行样本标记,得到伪故障样本,若i≠Cf,i=i+1,返回步骤S2.2,若i=Cf,则进行步骤S3。
4.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2.2中,对于当前处理的第i个故障盘,获取序列号与第i个故障盘相同的全部样本,用Totali表示获取的样本总数,Totali≥1;用failurei表示获取的故障样本总数,failurei∈[1,Totali];
若failurei=Totali,则表示第i个故障盘没有健康样本,若i≠Cf,i=i+1,返回步骤S2.2,继续处理第(i+1)个故障盘,若i=Cf,则跳至步骤S3;若failurei<Totali,则表示第i个故障盘有健康样本和故障样本,则进行步骤S2.3。
5.根据权利要求3所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S2.3中,将第i个故障盘的第j个故障样本表示为si,j,j∈[1,failurei],对所有j≤failurei的si,j,进行步骤S2.3~步骤S2.5的操作:
S2.3.1、确定Si,j的采样日期d,回溯在d之前的N-1天的全部样本,其中N为自定义参数,得到包括Si,j在内的N条原始样本当第i个故障盘在采样日期d之前采集到的样本不足N-1条时,取在采样日期d之前实际采集到的所有样本;
8.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S3中,根据以下公式计算要挑选的健康盘的数量Ch:
Ch=Cf*ratio; (4)
其中,Cf是故障盘的总数,ratio是给定的挑选比例;
从Ch个健康盘的所有样本中,挑选出采样周期内最新的L个样本,L是自定义参数。
9.根据权利要求1所述的一种融合AP聚类与宽度学习系统的硬盘故障预测方法,其特征在于,步骤S5中,故障预测模型包括输入层、特征层、增强层和输出层;其中,特征层包括n特征节点;增强层包括m组增强节点;输出层的输入包括特征层的输出和增强层的输出;最后由输出层输出故障预测模型的预测结果;步骤S5的具体步骤如下:
S5.1、将S4中的训练集的样本作为故障预测模型的输入X,输入到特征层,根据以下公式计算每组特征节点的输出和特征层的输出:
Zn=[Z1,Z2,...,Zn]; (6)
S5.2、将特征层的输出Zn作为增强层的输入,根据以下公式计算每组增强节点的输出和增强层的输出:
Hm=[H1,H2,...,Hm]: (8)
S5.3、将特征层的输出Zn和增强层的输出Hm作为输出层的输入,根据以下公式计算输出层的输入矩阵A:
A=[Z1,Z2,...,Zn|H1,H2,...,Hm]=[Zn|Hm]; (9)
S5.4、故障预测模型的输出Y由以下公式表示:
Y=AWm (10)
其中,A输出层的输入矩阵,Wm是输出层的权重矩阵,Y是步骤S4中训练集的样本标签;
根据公式(9)和(10),输出层的权重矩阵Wm的计算公式如下:
Wm=A+Y; (11)
其中,A+是A的伪逆,λ是约束项,I是单位矩阵,AT是A的转置,公式(12)根据伪逆算法计算得出;
将步骤S5.1~步骤S5.4作为故障预测模型的一轮训练;在训练阶段,训练前,初始化参数n、m;训练中,得到参数Wm;训练完后,保存参数n、m、Wm;在测试阶段,用参数Wm来初始化本轮训练完的故障预测模型,并将步骤S4中的测试集作为本轮训练完的故障预测模型的输入,得到本轮训练完的故障预测模型的输出,即为预测结果;根据预测结果和测试集中的样本标签,评估本轮训练完的故障预测模型是否达到精度要求;当不满足精度要求时,调整参数n、m,进行新的一轮训练;当精度达到要求,或达到最大训练次数时,停止训练;使用停止训练时保存的参数n、m、Wm初始化的故障预测模型,得到训练好的故障预测模型;
当有相同型号不同序列号的硬盘新增数据到达时,在训练好的故障预测模型的基础上,进行增量学习,更新输出层的权重矩阵Wm,而不需要重新训练整个故障预测模型;如果没有新增数据,则无需进行增量学习;
故障预测模型的增量学习具体包括以下步骤:
S5.6、根据以下公式更新输出层的输入矩阵:
其中,A+由公式(12)得到;B为第一过渡矩阵,BT为B的转置;C为第二过渡矩阵,C+为C的伪逆,根据伪逆算法计算;D为第三过渡矩阵,DT为D的转置;
S5.8,根据以下公式,更新输出层的权重矩阵Wx:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096818.2A CN114116292B (zh) | 2022-01-27 | 2022-01-27 | 一种融合ap聚类与宽度学习系统的硬盘故障预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096818.2A CN114116292B (zh) | 2022-01-27 | 2022-01-27 | 一种融合ap聚类与宽度学习系统的硬盘故障预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114116292A CN114116292A (zh) | 2022-03-01 |
CN114116292B true CN114116292B (zh) | 2022-05-24 |
Family
ID=80361961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210096818.2A Active CN114116292B (zh) | 2022-01-27 | 2022-01-27 | 一种融合ap聚类与宽度学习系统的硬盘故障预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114116292B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680114B (zh) * | 2023-08-04 | 2023-10-31 | 浙江鹏信信息科技股份有限公司 | Lvm故障数据快速恢复方法、系统和计算机可读存储介质 |
CN117421145B (zh) * | 2023-12-18 | 2024-03-01 | 苏州元脑智能科技有限公司 | 一种异构硬盘系统故障预警方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
JP6783443B2 (ja) * | 2015-04-06 | 2020-11-11 | 国立研究開発法人産業技術総合研究所 | 情報処理装置、情報処理システム、情報処理方法、プログラム、及び記録媒体 |
CN106769052B (zh) * | 2017-03-21 | 2018-12-21 | 桂林电子科技大学 | 一种基于聚类分析的机械系统滚动轴承智能故障诊断方法 |
CN108960422B (zh) * | 2018-06-19 | 2022-04-15 | 河南工业大学 | 一种基于主成分分析的宽度学习方法 |
US10810076B1 (en) * | 2018-08-28 | 2020-10-20 | Palantir Technologies Inc. | Fault clustering for remedial action analysis |
CN111158964B (zh) * | 2019-11-26 | 2021-06-08 | 北京邮电大学 | 一种磁盘故障预测方法、系统、装置及存储介质 |
CN111949459B (zh) * | 2020-08-10 | 2022-02-01 | 南京航空航天大学 | 一种基于迁移学习和主动学习的硬盘故障预测方法及系统 |
CN112214369A (zh) * | 2020-10-23 | 2021-01-12 | 华中科技大学 | 基于模型融合的硬盘故障预测模型建立方法及其应用 |
CN113419519B (zh) * | 2021-07-14 | 2022-05-13 | 北京航空航天大学 | 基于宽度学习的机电产品系统或设备实时故障诊断方法 |
CN113741394B (zh) * | 2021-09-06 | 2023-08-15 | 河海大学 | 一种基于半监督式增量学习的工业设备故障诊断系统 |
-
2022
- 2022-01-27 CN CN202210096818.2A patent/CN114116292B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114116292A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114116292B (zh) | 一种融合ap聚类与宽度学习系统的硬盘故障预测方法 | |
CN113343633B (zh) | 动力锂电池热失控故障分类及风险预测方法、系统 | |
CN111367961A (zh) | 基于图卷积神经网络的时序数据事件预测方法、系统及其应用 | |
CN106897178B (zh) | 一种基于极限学习机的慢盘检测方法及系统 | |
CN108647136A (zh) | 基于smart信息和深度学习的硬盘损坏预测方法及装置 | |
CN107153759B (zh) | 一种多源数据融合的航空涡扇发动机剩余寿命预测方法 | |
CN110471820B (zh) | 一种基于循环神经网络的云存储系统磁盘故障预测方法 | |
CN114297036B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN109471698B (zh) | 云环境下虚拟机异常行为检测系统和方法 | |
CN107977748B (zh) | 一种多变量扭曲时间序列预测方法 | |
CN111949459B (zh) | 一种基于迁移学习和主动学习的硬盘故障预测方法及系统 | |
CN112749041B (zh) | 虚拟化网络功能备份策略自决策方法、装置及计算设备 | |
CN110196792A (zh) | 故障预测方法、装置、计算设备及存储介质 | |
CN114169396B (zh) | 用于飞行器故障诊断的训练数据生成模型构建方法及应用 | |
Yang et al. | Zte-predictor: Disk failure prediction system based on lstm | |
CN111414289A (zh) | 一种基于迁移学习的磁盘故障预测方法及装置 | |
CN114818353A (zh) | 一种基于故障特征关系图谱的列控车载设备故障预测方法 | |
CN117390407B (zh) | 变电站设备的故障识别方法、系统、介质和设备 | |
CN111027591A (zh) | 一种面向大规模集群系统的节点故障预测方法 | |
CN111858108B (zh) | 一种硬盘故障预测方法、装置、电子设备和存储介质 | |
CN111695631B (zh) | 基于sae的检定故障特征提取方法、装置、设备以及介质 | |
CN108415819A (zh) | 一种硬盘故障追踪方法和装置 | |
CN116149895A (zh) | 大数据集群性能预测方法、装置和计算机设备 | |
CN112434733B (zh) | 一种小样本硬盘故障数据生成方法、存储介质及计算设备 | |
Jiao et al. | A health indicator construction method based on deep belief network for remaining useful life prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |