CN111782491A - 一种磁盘故障预测方法、装置、设备及存储介质 - Google Patents

一种磁盘故障预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111782491A
CN111782491A CN201911122229.1A CN201911122229A CN111782491A CN 111782491 A CN111782491 A CN 111782491A CN 201911122229 A CN201911122229 A CN 201911122229A CN 111782491 A CN111782491 A CN 111782491A
Authority
CN
China
Prior art keywords
model
failure prediction
disk failure
disk
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911122229.1A
Other languages
English (en)
Other versions
CN111782491B (zh
Inventor
周可
江天明
王桦
李春花
关云川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911122229.1A priority Critical patent/CN111782491B/zh
Publication of CN111782491A publication Critical patent/CN111782491A/zh
Application granted granted Critical
Publication of CN111782491B publication Critical patent/CN111782491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3485Performance evaluation by tracing or monitoring for I/O devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种磁盘故障预测方法、装置、设备及存储介质,所述磁盘故障预测方法包括:数据预处理、磁盘故障预测模型的训练及预测;所述数据预处理包括:将收集到的SMART数据预处理为图像形式的二维表示;所述磁盘故障预测模型的训练及预测包括:利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,所述模型训练采用基于对抗式生成网络的磁盘故障预测模型。本发明的磁盘故障预测方法可以对磁盘使用的整个生命周期的故障进行有效预测。

Description

一种磁盘故障预测方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术,具体涉及一种磁盘故障预测方法、装置、设备及存储介质。
背景技术
基于机器学习的磁盘故障预测方法借助于机器学习算法的强大学习能力,取得了令人满意的预测效果。但是,目前用于磁盘故障预测的机器学习方法均为有监督学习方法,这就需要收集大量的健康磁盘和故障磁盘的SMART(Self-Monitoring Analysis andReporting Technology)数据,并对这些数据进行特征提取处理。这一现状给磁盘故障预测的实际使用带来了诸多阻碍,主要有如下三点:第一,特征提取过程严重依赖领域知识且直接影响故障预测效果。第二,在数据中心中,相对于健康磁盘来说,磁盘故障的发生属于小概率事件,收集足够量供模型训练的故障磁盘数据需要长时间的积累。而在磁盘投入使用的早期和小规模的磁盘存储系统中,磁盘故障的数目更是稀少,这就限制了磁盘故障预测方法在这两种场景下的使用。第三,随着磁盘的运行,磁盘的SMART分布会发生变化,为了应对磁盘故障对长时间段使用的磁盘进行持续地预测,这就需要进行模型更新,而有监督学习方法的模型更新操作繁重。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种磁盘故障预测方法,所述方法为一种半监督式的基于深度对抗生成网络的磁盘故障预测方法SPA(Semi-supervisedmethod for lifelong disk failure Prediction via Adversarial training),可以对磁盘使用的整个生命周期的故障进行有效预测。
本发明为解决上述技术问题所采用的技术方案为:
本发明一方面提供了一种磁盘故障预测方法,所述磁盘故障预测方法包括:数据预处理、磁盘故障预测模型的训练及预测;
所述数据预处理包括:将收集到的SMART数据预处理为图像形式的二维表示;
所述磁盘故障预测模型的训练及预测包括:利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,所述模型训练采用基于对抗式生成网络的磁盘故障预测模型。
其中,所述数据预处理包括:将SMART属性特征按相关性从高到低进行排序,采用前k个特征来构建训练和测试的数据集合,并在训练数据集上训练随机森林模型,通过比较随机森林模型在测试集上的预测准确性来确定k的值;优选的,所述k的值为12。
其中,所述将收集到的SMART数据预处理为图像形式的二维表示包括:将一维SMART属性转化为二维SMART属性输入块,所述一维SMART属性是指一块磁盘在特定时间点上选择的M个SMART特征采样值的集合,二维SMART属性表示T时间范围内的一组一维SMART属性的集合。
其中,所述将一维SMART属性转化为二维SMART属性输入块的构造过程为:首先将其一维SAMRT属性按照时间次序进行堆叠,然后利用固定大小的滑动窗口对堆叠的一维SMART属性进行分块,最终得到大小为M*T的二维SAMRT属性,即M个特征在时间段T上的采样。
其中,所述基于深度对抗式生成网络的磁盘故障预测模型由编码器-解码器-编码器子网络组成,所述网络均利用卷积神经网络。
其中,所述磁盘故障预测模型的训练只将健康磁盘的样本用于训练,将健康样本x作为输入,并使用对抗生成网络中的自动编码器生成尽可能接近健康样本的生成样本x′。
其中,所述磁盘故障预测模型的训练包括:
用于图像生成的自动编码器网络学习输入样本x的特征表示z;
编码器GE对原始输入图片x进行编码,
解码器GD对编码后的图片特征z进行解码,解码到重构图片x′;
编码器E学习重构样本x′的表示z′;
利用z和z′之间的差异来衡量样本生成的有效性,两者差异越小,样本生成越好。
其中,所述磁盘故障预测包括:如果异常检测值大于某一阈值时,表示样本异常,即该磁盘将发生故障,所述异常检测值为z和z′两者之差A(X)=||z-z′||1
其中,所述磁盘故障预测方法还包括利用卷积神经网络的微调特性对已有的旧模型进行更新。
本发明一方面还提供一种磁盘故障预测装置,所述磁盘故障预测装置包括:数据预处理模块、磁盘故障预测模型的训练及预测模块;
所述数据预处理模块用于将收集到的SMART数据预处理为图像形式的二维表示;
所述磁盘故障预测模型的训练及预测模块用于利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,所述模型训练采用基于对抗式生成网络的磁盘故障预测模型。
本发明一方面还提供一种终端设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如上所述的磁盘故障预测方法。
本发明一方面还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如上所述的磁盘故障预测方法。
本发明提出的半监督式的基于深度对抗生成网络的磁盘故障预测方法,相较于传统的基于有监督模型的磁盘故障预测方法,本发明至少有如下优势:一方面,基于深度学习强大的特征提取特性,SPA能够对SMART数据特征进行自动提取,避免了手工提取特征,进而使得模型能够进行端到端的学习。另一方面,基于半监督式的模型训练方式,SPA能够只使用健康磁盘数据进行模型训练,避免了数据不均衡问题。另一方面,基于深度学习的模型微调特征,SPA能够实现有效且轻量化的模型更新。
附图说明
图1为本发明的磁盘故障预测方法的框架图。
图2为本发明构建二维SAMRT属性的示意图。
图3为本发明基于对抗式生成网络的磁盘故障预测模型的框架图。
图4为对抗自编码网络(Adversarial Auto-Encoders,AAE)用对抗的方式来对自编码网络进行训练的结构示意图。
图5为与现有方法进行对比大数据集STA和小数据集STB上的故障检测率结果示意图。
图6为数据集STA和STB在不同时间范围T下的故障检测率结果示意图。
图7为模型更新和模型不更新在数据集STA和STB上的误报率结果示意图。
图8为模型更新和模型不更新在数据集STA和STB上的故障检测率结果示意图。
图9为本发明实施例提供的磁盘故障预测装置的框图。
图10为本发明实施例提供的终端设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明的实施例中,如图1所示,磁盘故障预测方法包括三部分:数据预处理、基于对抗式生成网络的磁盘故障预测模型的训练和预测。首先,收集到的SMART数据被预处理为图像形式的二维表示;其后,基于对抗式生成网络的磁盘故障预测模型利用这些处理后的数进行模型训练;最后,训练好的模型对后续到来的SMART数据进行在线预测。
本发明的实施例中数据预处理包括:特征选择、数据归一化、构建二维SMART属性。
本发明的实施例中特征选择的目的是去除冗余和不相关的特征,并选择与预测结果相关的特征。这种预处理不仅能够减少模型训练和预测的时间,而且能够提高预测性能。在本实施例中使用的数据集中的每个磁盘,均报告24个SMART属性。对于每个属性,包含两个与磁盘当前健康状态的属性值,即原始值和规范化值(其中规范化值为原始值规范化而来,规范化方法由磁盘生产厂家自定义)。将每个SMART属性值视为一个特征,故而有48个特征可供选择。本实施例中首先使用皮尔森相关系数网来度量特征与预测值间的相关性,并将特征按相关性从高到低进行排序。然后用不同数量的前k个特征的数据来构建训练集和测试集,并在训练集上训练随机森林模型,通过比较随机森林模型在测试集上的预测准确性来确定k的值。最终选定的12个最相关的特征如表1所示。
表1筛选的SMART属性列表
Figure BDA0002275755170000061
由于不同的SMART属性具有不同的值区间,为了保证它们之间的公平比较,本发明对SMART属性值进行归一化处理。在本实施例中使用的归一化计算如下:
Figure BDA0002275755170000071
其中x是特征的原始值,x′表示归一化后的值,xmax和xmin分别是数据集中特征的最大值和最小值。
本发明实施例构建基于对抗式生成网络的磁盘故障预测模型包括重新格式化SMART属性的输入格式。在卷积神经网络的输入中采用了二维数据块,即类图像表示,能够很好地挖掘出时间序列数据的时间局部性特征,本发明的一个实施例中将一维SMART属性转化为二维SMART属性输入块,以保持时间序列SMART数据的时间局部性。如图2所示,一维SMART属性是指一块磁盘在特定时间点上选择的M个SMART特征采样值的集合,二维SMART属性表示T时间范围内的一组一维SMART属性的集合。其构造过程为,首先将其一维SAMRT属性按照时间次序进行堆叠,然后利用固定大小的滑动窗口对堆叠的一维SMART属性进行分块,最终得到大小为M*T的二维SAMRT属性,即M个特征在时间段T上的采样。
本发明实施例中二维SMART属性的构造,能够有效利用卷积神经网络的特征提取的特性。由于二维SMART属性的构造只涉及按时间先后次序对一维SMART属性进行堆叠,因此其构造简单且轻量化。另外,由于SPA的训练只利用到健康磁盘的SMART数据,在训练阶段只需要对健康磁盘构造二维SMART属性。
本发明的实施例基于深度对抗式生成网络的磁盘故障预测SPA从异常检测的角度来处理磁盘故障预测,本发明的一个实施例基于深度对抗式生成网络的磁盘故障预测框架由编码器-解码器-编码器子网络组成,其中网络均利用到卷积神经网络,其框架图如图3所示。该实施例中框架基于深度对抗式生成网络的磁盘故障预测框架利用了深度对抗式生成网络的生成特性和判别特性,并对生成器进行了新的设计,加上了一个新的编码器E。在该框架中,将健康样本x作为输入,并使用对抗生成网络中的自动编码器生成尽可能接近健康样本的生成样本x′。其自编码网络的过程如图4所示,用于图像生成的自动编码器网络可以学习输入样本x的特征表示z。编码器GE用来对原始输入图片x进行编码,解码器GD用来对编码后的图片特征z进行解码,解码到重构图片x′。为了检测异常,本实施例中添加了一个编码器E来学习重构样本x′的表示z′。利用z和z′之间的差异来衡量样本生成的有效性,两者差异越小,样本生成越好。因为只有健康磁盘的样本用于训练,模型学习健康磁盘样本的分布,使得健康磁盘样本的差异更小。但用于磁盘故障预测时,如果输入的是来自故障磁盘的样本,由于故障样本偏离健康样本的分布,z和z′差异会更显著。因此,两者之差A(X)=||z-z′||1用于表示异常检测,即当其值大于某一阈值时,表示样本异常,即该磁盘将发生故障。
本发明的一个实施例中磁盘故障预测方法还包括模型更新。在磁盘故障预测场景中,SMART属性的底层分布会随时间逐渐变化。因此,先前训练的旧模型面临着模型老化的问题,即先前训练的模型将失去对新到来的SMART数据进行预测的有效性。本发明SPA利用卷积神经网络的微调特性对已有的旧模型进行更新。微调是一种将信息从一个数据集传输到另一个数据集的通常技术。微调通过将旧模型在新到来的数据上进行重新训练,来更新模型参数,即实现模型更新。在微调中,旧的模型并没有被抛弃,而是继续使用,它抛弃的是已经经过模型训练的旧数据。这点与已有的离线模型的更新方式是截然不同的。在累积更新策略和一个月替换策略中,两种方法均会对旧模型进行丢弃,重新训练全新的模型。而且对于累积更新策略来说,需要对全部收集的数据进行保留。故而,在这两种更新策略中,模型更新过程是繁重的。
然而,由于训练样本不断到达,且磁盘状态不确定,样本标记非常具有挑战性。本发明对自动在线标签方法进行了改进。具体来说,使用固定长度的先进先出队列Qi来存储磁盘Di的样本并保持样本未标记。样本标记过程为:当Di发生故障后,队列Qi中的所有样本都将标记为阳性;如果Di仍在运行,则Qi输出最旧的样本,然后将其标记为健康样本,并用新的样本替换它们。与传统的正样本和负样本都用于训练模型不同的是,本发明SPA中半监督方法只使用负样本。另一个区别是微调会放松更新频率,即SPA使用批量样本而不是每个新样本更新模型。具体来说,SPA每月更新一次模型,并使用数据集在这段时间内维护注释数据。当数据集S已满时,将它们构造成二维智能属性块,即类似图像的表示,如图2所示。在本发明的实现中,模型更新间隔与预测时间间隔是不等的,SPA仍可以实现对当前收集的每个样本进行预测。
本发明的目标是使用磁盘报告的SMART数据,来预测磁盘是否会在规定的时间间隔内发生故障。为简便起见,将预测时间间隔设定在错误事件发生前的七天。另外,不同于现有技术的方法的重要一点是,本发明将预测问题转化为异常检测问题,而不是传统的二类分类问题,能够避免磁盘故障中天然存在的数据不均衡问题,从而解决模型冷启动问题。另外,引入的深度神经网络的微调特性能够解决模型老化问题。最终,本发明的SPA能够满足对磁盘在整个生命周期中发生故障的有效预测。
实验评估
(一)数据集
为了对本发明SPA进行评估,实验使用Backblaze公开的采集于实际数据中心的数据集,该数据集的时间跨度为12个月,从2017年1月到2017年12月。从这个数据集中,选择了两个型号的磁盘:希捷的ST4000DM000和ST8000DM002,依据他们所包含的数据大小,分别表示为大数据集STA和小数据集STB。数据集概要如表2所示,其中故障磁盘表示2017年更换的磁盘。
表2数据集
Figure BDA0002275755170000101
(二)实验设置
为了对本发明SPA模型的预测效果进行评估,将每个数据集中的磁盘按7∶3的比例随机分为训练集和测试集,并保证训练训练集中的样本采集时间先于预测集中的样本采集时间,然后分别构建模型进行训练及测试。为了证明SPA相较于已有的有监督模型的优越性,将其与三种常被用于磁盘故障预测的二类分类算法进行了比较,包括随机森林(RF),支持向量机(SVM)和多层感知机(BP)。其中,由于其良好的预测性能,随机森林被认为是当前最优的磁盘故障预测方法。这三种方法的设置如下,对于随机森林,使用不同数量的树进行实验,经测试,在树的数目为150棵的时候,其效果最佳,故使用150棵树得到的实验结果作为本实验中随机森林的最终结果。对于支持向量机,使用libsvm库,并使用线性内核进行实验。对于多层感知机,使用3层网络,其中隐藏层中有64个节点,使用ReLU函数作为激活函数,并将最大迭代次数设置为1000,学习率设置为0.01,采用Adam进行优化。
在与基于有监督模型的磁盘故障预测方法进行对比之前,为了保证公平性,分别对它们进行了如下处理。第一点,由于有监督模型中需要同时用到健康磁盘的数据和故障磁盘的数据进行模型训练,故而存在数据不均衡问题。均衡训练数据集对于有监督的机器学习方法是至关重要,因为不平衡会导致有监督学习方法出现较差的预测效果。为了缓解有监督方法存在的数据不均衡问题,对不均衡训练数据集中的健康磁盘样本进行降采样,得到均衡训练集。具体地,对健康样本采用不同比值的降采样,最终得到故障样本与健康样本比值为1∶1到1∶50不等的数据集。在最后的训练集中,由于在比值为1∶5的数据集上得到的预测效果最佳,故对于有监督模型,将这一比值固定为1∶5。第二点,由于离线的有监督模型存在模型老化的问题,故而对离线模型也进行了定期更新处理。具体地,在收集到目前为止的所有数据上对离线模型进行重新训练,即累积更新策略。
对于SPA,将其潜在变量z的大小设置为100。对于二维SMART属性的大小,依据卷积神经网络常用的方形图像表示形式,选择将切分时间范围T设置为与特征数M相同的值,即12。由于SPA只需利用健康样本来进行训练,所以省去了为解决不均衡样本而做的重采用。为了解决模型老化问题,SPA利用最近一个月收集的训练数据对模型进行了微调,并每月在测试集上评估模型的预测性能。与在线学习模式不同的是,在线学习模式需要对每个新到来的进行模型更新,而SPA是每月更新模型。为了更贴合实际的应用场景,即样本是连续到来的,SPA每个月使用新到来的数据对模型进行更新,并用更新后的模型对下一个月的数据进行测试,然后统计测试效果(即故障检测率和误报率)。
(三)实验结果
(1)与现有方法进行对比
图5显示了这些方法在大数据集STA和小数据集STB上的故障检测率(FDR)。为了便于比较,将误报率限定为1.0%左右,然后对该限制下的故障检测率进行测量。在这两个数据集的模型预测开始阶段,由于缺乏有效样本,所有有监督的方法都表现出较差的预测效果。在STB数据集上,反向传播网络和支持向量机甚至在预测的前期出现了FAR调整不到1%左右的情形,即在第二个月份,无论如何调整预测阈值,BP和SVM都没能达到FAR接近1%的水平。
由图5可以看出,本发明SPA在模型预测一开始就达到了较高的故障检测率,这表明SPA在磁盘投入使用的前期也能够对其进行很好的预测保护。取得好的预测效果的原因是,SPA只是在健康样本上进行培训,而健康样本即使在磁盘投入使用的前期阶段也十分充足的。另外,在模型长期使用的过程中,SPA也优于有监督模型。在监督学习方法只能够对已知的磁盘故障模式进行检测,而本发明基于异常检测方法的SPA能够检测到未知或未发现的异常情况。本发明SPA中用到了二维SMART属性和深度卷积神经网络,能够很好地提取时间序列特征。由此可以得出结论,本发明SPA方法优于使用一维SMART属性的基于有监督机器学习的方法,并证明了其在磁盘早期和长期使用中的有效性,以及在大尺寸和小尺寸数据集上的有效性。
(2)二维图像表征的有效性
为了验证本发明所提出的二维SMART属性表示的有效性,评估了不同时间范围T(包括1、4、8和12,以天为单位)的二维SMART属性表示对预测结果的影响。具体来说,因为本发明使用的数据的SMART数据是按天进行收集的,故T=1表示没有利用时间序列数据的特殊情况,即是一维SMART属性;T=4表示利用了连续4天的一维SMART属性进行堆叠得到的二维SMART属性表示,其余情况依此类推。
图6显示了数据集STA和STB在不同时间范围T下的故障检测率。如图所见,在这两个数据中,T=1的取得了令人满意的预测效果,这证明了基于对抗式生成网络策略的有效性。同时,也观察到,用其他T值训练的模型始终优于它T=1的情形。这些结果证明了二维SMART属性表示的有效性,因为它们有效利用了SMART数据的时间序列特征。当比较不同T值下的性能时,发现基于T=12训练的模型始终优于其他T值训练的模型,即正好是正方形图像时预测效果最佳。在下面的实验中将T设置为12。
(3)模型更新的有效性
为了评估SPA的半监督方法的模型更新的有效性,比较了有更新和无更新训练的模型来对预测效果进行测试,其中无更新模型表示始终使用第一个月的数据训练的模型。
图7显示了模型更新和模型不更新在数据集STA和STB上的误报率(FAR)。这些误报率是在将故障检测率(FDR)限制在85%左右的情况下进行测量的。可以看出,当故障检测率被设置在85%左右时,对于有更新的模型,本发明SPA可以实现误报率为0%的效果。也就是说,有更新模型能够在不产生任何错误警报的情况下检测到85%的故障磁盘。同时也可以发现,有更新的模型的预测效果是要优于没有进行更新的模型的预测效果的。此外,图8显示了模型更新和模型不更新在数据集STA和STB上的故障检测率(FDR)。这些故障检测率是在将误报率(FAR)限制在1%左右的情况下进行测量的。
如图7及图8所示,尽管不更新模型时,误报率和故障检测率是可接受的,但与更新模型情形下的误报率和故障检测率总是更佳的。另外,从图中可以观察到有更新模型的稳定性也优于无更新模型。其原因是,无更新模型只训练第一个月收集的样本,这妨碍了它们适应即将到来的数据的持续更新。这些结果表明模型更新在异常检测中是有效的。
本发明一方面将磁盘故障预测问题转化为异常检测问题,有效地避免了磁盘故障预测中数据不均衡问题;一方面使用的深度网络能够对数据SMART数据的时间序列特征进行自动提取,省去了繁重的手工特征提取过程,其能够获取到更优于前者的特征;一方面利用卷积神经网络(Convolutional Neural Network,CNN)的微调(fine-tune)特性,能够实现模型更新。最终,在来自于实际使用场景磁盘的SMART数据上实验结果表明,SPA可以实现对磁盘使用的整个生命周期的故障进行有效预测。
请参照图9,图9示出了本发明实施例提供的磁盘故障预测装置200的框图。磁盘故障预测装置200包括:数据预处理模块201、磁盘故障预测模型的训练及预测模块202;
数据预处理模块201用于将收集到的SMART数据预处理为图像形式的二维表示;
磁盘故障预测模型的训练及预测模块202用于利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,本实施例中模型训练采用基于对抗式生成网络的磁盘故障预测模型。
在一个实施例中,数据预处理模块进行以下处理,包括:将SMART属性特征按相关性从高到低进行排序,采用前k个特征来构建训练和测试的数据集合,并在训练数据集上训练随机森林模型,通过比较随机森林模型在测试集上的预测准确性来确定k的值;优选的,k的值为12。
在一个实施例中,数据预处理模块进行以下处理:将收集到的SMART数据预处理为图像形式的二维表示包括:将一维SMART属性转化为二维SMART属性输入块,一维SMART属性是指一块磁盘在特定时间点上选择的M个SMART特征采样值的集合,二维SMART属性表示T时间范围内的一组一维SMART属性的集合。
具体的,将一维SMART属性转化为二维SMART属性输入块的构造过程为:首先将其一维SAMRT属性按照时间次序进行堆叠,然后利用固定大小的滑动窗口对堆叠的一维SMART属性进行分块,最终得到大小为M*T的二维SAMRT属性,即M个特征在时间段T上的采样。
在一个实施例中,基于深度对抗式生成网络的磁盘故障预测框架由编码器-解码器-编码器子网络组成,所述网络均利用卷积神经网络。
在一个实施例中,磁盘故障预测模型的训练只将健康磁盘的样本用于训练,将健康样本x作为输入,并使用对抗生成网络中的自动编码器生成尽可能接近健康样本的生成样本x′。
在一个实施例中,磁盘故障预测模型的训练包括:
用于图像生成的自动编码器网络学习输入样本x的特征表示z;
编码器GE对原始输入图片x进行编码,
解码器GD对编码后的图片特征z进行解码,解码到重构图片x′;
编码器E学习重构样本x′的表示z′;
利用z和z′之间的差异来衡量样本生成的有效性,两者差异越小,样本生成越好。
在一个实施例中,磁盘故障预测包括:如果异常检测值大于某一阈值时,表示样本异常,即该磁盘将发生故障,所述异常检测值为z和z′两者之差A(X)=||z-z′||1
在一个实施例中,磁盘故障预测还包括利用卷积神经网络的微调特性对已有的旧模型进行更新。
请参照图10,图10示出了本发明实施例提供的一种终端设备300的框图。本发明的实施例还提供一种终端设备300,包括:处理器301和存储器302。处理器和存储器相连,其中,存储器用于存储程序代码,处理器用于调用所述程序代码,以执行如上所述的磁盘故障预测方法。终端设备300可以是,但不限于服务器、台式计算机、笔记本电脑等。其中,该终端设备300还包括通信单元303。通信单元303,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
其中,存储器302可以用于存储处理器301的执行指令,存储器302可以由任何类型的易失性或非易失性存储终端或者它们的组合实现。当存储器302中的执行指令由处理器301执行时,使得终端设备300能够执行以下上述方法实施例中的部分或全部步骤。
处理器301为存储终端的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器302内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行终端设备的各种功能和/或处理数据。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如上所述的磁盘故障预测方法。
综上所述,本发明实施例提供的一种磁盘故障预测方法、装置、终端设备及存储介质,所述方法包括:数据预处理、磁盘故障预测模型的训练及预测;所述数据预处理包括:将收集到的SMART数据预处理为图像形式的二维表示;所述磁盘故障预测模型的训练及预测包括:利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,所述模型训练采用基于对抗式生成网络的磁盘故障预测模型。本发明的磁盘故障预测方法可以对磁盘使用的整个生命周期的故障进行有效预测。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种磁盘故障预测方法,其特征在于:所述磁盘故障预测方法包括:数据预处理、磁盘故障预测模型的训练及预测;
所述数据预处理包括:将收集到的SMART数据预处理为图像形式的二维表示;
所述磁盘故障预测模型的训练及预测包括:利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,所述模型训练采用基于对抗式生成网络的磁盘故障预测模型。
2.如权利要求1所述的磁盘故障预测方法,其特征在于,所述数据预处理包括:将SMART属性特征按相关性从高到低进行排序,采用包含前k个特征的数据来构建训练集和测试集,并在训练集上训练随机森林模型,通过比较随机森林模型在测试集上的预测准确性来确定k的值;优选的,所述k的值为12。
3.如权利要求1所述的磁盘故障预测方法,其特征在于,所述将收集到的SMART数据预处理为图像形式的二维表示包括:将一维SMART属性转化为二维SMART属性输入块,所述一维SMART属性是指一块磁盘在特定时间点上选择的M个SMART特征采样值的集合,二维SMART属性表示T时间范围内的一组一维SMART属性的集合。
4.如权利要求3所述的磁盘故障预测方法,其特征在于,所述将一维SMART属性转化为二维SMART属性输入块的构造过程为:首先将其一维SAMRT属性按照时间次序进行堆叠,然后利用固定大小的滑动窗口对堆叠的一维SMART属性进行分块,最终得到大小为M*T的二维SAMRT属性,即M个特征在时间段T上的采样。
5.如权利要求1所述的磁盘故障预测方法,其特征在于,所述基于深度对抗式生成网络的磁盘故障预测模型由编码器-解码器-编码器子网络组成,所述网络均利用卷积神经网络。
6.如权利要求5所述的磁盘故障预测方法,其特征在于,所述磁盘故障预测模型的训练只将健康磁盘的样本用于训练,将健康样本x作为输入,并使用对抗生成网络中的自动编码器生成尽可能接近健康样本的生成样本x'。
7.如权利要求6所述的磁盘故障预测方法,其特征在于,所述磁盘故障预测模型的训练包括:
用于图像生成的自动编码器网络学习输入样本x的特征表示z;
编码器GE对原始输入图片x进行编码,
解码器GD对编码后的图片特征z进行解码,解码到重构图片x';
编码器E学习重构样本x'的表示z';
利用z和z'之间的差异来衡量样本生成的有效性,两者差异越小,样本生成越好。
8.如权利要求7所述的磁盘故障预测方法,其特征在于,所述磁盘故障预测方法包括:如果异常检测值A(X)大于某一阈值时,表示样本异常,即该磁盘将发生故障,所述异常检测值为z和z'两者之差A(X)=||z-z'||1
9.如权利要求7所述的磁盘故障预测方法,其特征在于,所述磁盘故障预测方法还包括利用卷积神经网络的微调特性对已有的旧模型进行更新。
10.一种磁盘故障预测装置,其特征在于:所述磁盘故障预测装置包括:数据预处理模块、磁盘故障预测模型的训练及预测模块;
所述数据预处理模块用于将收集到的SMART数据预处理为图像形式的二维表示;
所述磁盘故障预测模型的训练及预测模块用于利用处理后的数据进行模型训练,采用训练好的模型对后续的SMART数据进行在线预测,所述模型训练采用基于对抗式生成网络的磁盘故障预测模型。
11.一种终端设备,其特征在于:包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-9任一项所述的方法。
12.一种计算机存储介质,其特征在于:所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-9任一项所述的方法。
CN201911122229.1A 2019-11-15 2019-11-15 一种磁盘故障预测方法、装置、设备及存储介质 Active CN111782491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911122229.1A CN111782491B (zh) 2019-11-15 2019-11-15 一种磁盘故障预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911122229.1A CN111782491B (zh) 2019-11-15 2019-11-15 一种磁盘故障预测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111782491A true CN111782491A (zh) 2020-10-16
CN111782491B CN111782491B (zh) 2022-03-22

Family

ID=72755735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911122229.1A Active CN111782491B (zh) 2019-11-15 2019-11-15 一种磁盘故障预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111782491B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559305A (zh) * 2020-11-10 2021-03-26 深圳前海有电物联科技有限公司 不间断电源系统内部关键模块性能预测方法、装置和设备
CN113076217A (zh) * 2021-04-21 2021-07-06 扬州万方电子技术有限责任公司 基于国产平台的磁盘故障预测方法
CN113284600A (zh) * 2021-05-08 2021-08-20 武汉联影医疗科技有限公司 故障预测方法、装置、计算机设备和存储介质
WO2022166481A1 (zh) * 2021-02-08 2022-08-11 华为技术有限公司 一种针对硬盘的故障预测方法、装置及设备
US11994934B2 (en) 2021-11-09 2024-05-28 Samsung Electronics Co., Ltd. Failure prediction method and device for a storage device

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257921A (zh) * 2013-04-16 2013-08-21 西安电子科技大学 一种基于改进随机森林算法的软件故障预测系统及其方法
KR101843066B1 (ko) * 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108959004A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 磁盘故障预测方法、装置、设备及计算机可读存储介质
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
CN109102005A (zh) * 2018-07-23 2018-12-28 杭州电子科技大学 基于浅层模型知识迁移的小样本深度学习方法
CN109284786A (zh) * 2018-10-10 2019-01-29 西安电子科技大学 基于分布和结构匹配生成对抗网络的sar图像地物分类方法
CN109634790A (zh) * 2018-11-22 2019-04-16 华中科技大学 一种基于循环神经网络的磁盘故障预测方法
CN109828549A (zh) * 2019-01-28 2019-05-31 中国石油大学(华东) 一种基于深度学习的工业互联网设备故障预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257921A (zh) * 2013-04-16 2013-08-21 西安电子科技大学 一种基于改进随机森林算法的软件故障预测系统及其方法
KR101843066B1 (ko) * 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108959004A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 磁盘故障预测方法、装置、设备及计算机可读存储介质
CN109102005A (zh) * 2018-07-23 2018-12-28 杭州电子科技大学 基于浅层模型知识迁移的小样本深度学习方法
CN108986869A (zh) * 2018-07-26 2018-12-11 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
CN109284786A (zh) * 2018-10-10 2019-01-29 西安电子科技大学 基于分布和结构匹配生成对抗网络的sar图像地物分类方法
CN109634790A (zh) * 2018-11-22 2019-04-16 华中科技大学 一种基于循环神经网络的磁盘故障预测方法
CN109828549A (zh) * 2019-01-28 2019-05-31 中国石油大学(华东) 一种基于深度学习的工业互联网设备故障预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DAN LI ET AL.: "MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks.", 《ARXIV》 *
F. D. D. S. LIMA ET AL.: "Predicting Failures in Hard Drives with LSTM Networks", 《2017 BRAZILIAN CONFERENCE ON INTELLIGENT SYSTEMS (BRACIS)》 *
JIANGUO ZHANG ET AL.: "Layerwise Perturbation-Based Adversarial Training for Hard Drive Health Degree Prediction", 《2018 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》 *
KUNTAL GANGULY: "《GAN实战生成对抗网络》", 30 June 2018, 电子工业出版社 *
熊壮: "基于在线学习的磁盘故障预测技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
董勇等: "面向磁盘故障预测的机器学习方法比较", 《计算机工程与科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559305A (zh) * 2020-11-10 2021-03-26 深圳前海有电物联科技有限公司 不间断电源系统内部关键模块性能预测方法、装置和设备
WO2022166481A1 (zh) * 2021-02-08 2022-08-11 华为技术有限公司 一种针对硬盘的故障预测方法、装置及设备
CN113076217A (zh) * 2021-04-21 2021-07-06 扬州万方电子技术有限责任公司 基于国产平台的磁盘故障预测方法
CN113076217B (zh) * 2021-04-21 2024-04-12 扬州万方科技股份有限公司 基于国产平台的磁盘故障预测方法
CN113284600A (zh) * 2021-05-08 2021-08-20 武汉联影医疗科技有限公司 故障预测方法、装置、计算机设备和存储介质
US11994934B2 (en) 2021-11-09 2024-05-28 Samsung Electronics Co., Ltd. Failure prediction method and device for a storage device

Also Published As

Publication number Publication date
CN111782491B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN111782491B (zh) 一种磁盘故障预测方法、装置、设备及存储介质
Vilalta et al. Predicting rare events in temporal domains
US11263566B2 (en) Seasonality validation and determination of patterns
US20190379589A1 (en) Pattern detection in time-series data
JP6725700B2 (ja) 異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体
CN111031051B (zh) 一种网络流量异常检测方法及装置、介质
EP3948604B1 (en) Computer security
US11777824B2 (en) Anomaly detection method and apparatus
Niranjan et al. ERCR TV: Ensemble of random committee and random tree for efficient anomaly classification using voting
US11436320B2 (en) Adaptive computer security
EP3948603B1 (en) Pre-emptive computer security
CN114090393B (zh) 一种告警级别的确定方法、装置及设备
EP3549366A1 (en) Forcasting time series data
CN114048362A (zh) 基于区块链的电力数据异常检测方法、装置和系统
van Dijk et al. A skeleton-based approach to learning Bayesian networks from data
CN117315331A (zh) 一种基于gnn和lstm的动态图异常检测方法及系统
US20170303014A1 (en) System for providing functionality based on sensor data
Abed et al. Efficient failure prediction in autonomic networks based on trend and frequency analysis of anomalous patterns
Jaber et al. Anticipative and dynamic adaptation to concept changes
CN116318386A (zh) 光模块的失效预测方法及其系统、存储介质
Vallim et al. Unsupervised density-based behavior change detection in data streams
Kassan et al. Robustness analysis of hybrid machine learning model for anomaly forecasting in radio access networks
Karimi et al. Distinguishing causal and acausal temporal relations
Anh et al. A novel approach for anomaly detection in automatic meter intelligence system using machine learning and pattern recognition
Xu et al. Semi-supervised variational temporal convolutional network for IoT communication multi-anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant