CN111124732A - 一种磁盘故障的预测方法、系统、设备及存储介质 - Google Patents

一种磁盘故障的预测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN111124732A
CN111124732A CN201911330468.6A CN201911330468A CN111124732A CN 111124732 A CN111124732 A CN 111124732A CN 201911330468 A CN201911330468 A CN 201911330468A CN 111124732 A CN111124732 A CN 111124732A
Authority
CN
China
Prior art keywords
disk
data
time
training sample
smart data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911330468.6A
Other languages
English (en)
Inventor
段谊海
胡雷钧
张东
郭锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201911330468.6A priority Critical patent/CN111124732A/zh
Publication of CN111124732A publication Critical patent/CN111124732A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种磁盘故障的预测方法,包括:采集磁盘多个时刻的SMART数据;根据采集的SMART数据,构建出用于进行训练的各个训练样本;基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签;将添加了标签的各个训练样本输入至预设的预测模型中实现对预测模型的训练;将磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签,作为磁盘的故障预测结果。应用本申请的方案,可以及早地发现磁盘可能出现的故障情况产生预警,降低磁盘故障对业务运行的影响。本申请还提供了一种磁盘故障的预测系统、设备及存储介质,具有相应技术效果。

Description

一种磁盘故障的预测方法、系统、设备及存储介质
技术领域
本发明涉及存储技术领域,特别是涉及一种磁盘故障的预测方法、系统、设备及存储介质。
背景技术
随着互联网的飞速发展,数据中心承载着各种数据的采集、存储以及分析等功能。并且,随着业务的不断增加,业务主机在运行过程中经常会出现各种各样的软件或者硬件故障的情况,影响业务的稳定运行。其中,磁盘故障是数据中心最常见,也是最频繁的故障,磁盘故障影响着业务的正常运行,甚至会导致主机直接宕机。
目前,通常会对磁盘进行实时的故障检测,及时发现磁盘当前出现的故障情况,并且及时进行处理。此外,也会采用一些冗余机制来降低磁盘故障之后对业务的影响。但是,这样的方式只能在一定程度上降低磁盘故障对业务运行造成的影响。
综上所述,如何更加有效地降低磁盘故障对业务运行造成的影响,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种磁盘故障的预测方法、系统、设备及存储介质,以更加有效地降低磁盘故障对业务运行造成的影响。
为解决上述技术问题,本发明提供如下技术方案:
一种磁盘故障的预测方法,包括:
采集磁盘多个时刻的SMART数据;
根据采集的SMART数据,构建出用于进行训练的各个训练样本;
基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签;
将添加了标签的各个训练样本输入至预设的预测模型中实现对所述预测模型的训练;
将磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签,作为磁盘的故障预测结果。
优选的,所述采集磁盘多个时刻的SMART数据,包括:
依次采集磁盘在N个时刻的SMART数据;N为不小于2的正整数;
所述根据采集的SMART数据,构建出用于进行训练的各个训练样本,包括:
针对第2时刻至第N时刻中的任意时刻的SMART数据,将该时刻的数据与历史平均数据做差,得到差值矩阵,并将该时刻的数据与前一时刻的数据做差,得到磁盘波动矩阵;
利用该时刻的所述差值矩阵与该时刻的所述磁盘波动矩阵构造出输入矩阵,作为构建出的一个训练样本。
优选的,所述利用该时刻的所述差值矩阵与该时刻的所述磁盘波动矩阵构造出输入矩阵,包括:
将该时刻的所述差值矩阵以及该时刻的所述磁盘波动矩阵均进行归一化处理;
利用归一化处理之后的差值矩阵以及归一化处理之后的磁盘波动矩阵构造出输入矩阵。
优选的,所述基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签,包括:
针对任意一个训练样本,按照
Figure BDA0002329429350000021
的添加规则,为每一个训练样本添加相对应的标签;
其中,T表示该训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,T=0表示该训练样本中的数据的采集时刻为故障时刻;a,b,c,d,e均为预设参数,且a<b<c<d<e<f。
优选的,所述采集磁盘多个时刻的SMART数据,包括:
采集磁盘多个时刻的SMART数据,且针对采集到的任意时刻的SMART数据,该SMART数据中包括:磁盘转速,错误读取率,寻轨出错率,加电次数总和,磁盘读取次数总和,磁盘温度。
优选的,在获得待测的SMART数据的标签,作为磁盘的故障预测结果之后,还包括:
当获得的待测的SMART数据的标签为表示故障的标签时,输出磁盘预警警报。
优选的,所述预测模型为SVM预测模型,所述SVM预测模型中包括K×(K-1)/2个SVM分类器,K为标签的种类。
一种磁盘故障的预测系统,包括:
初始数据采集模块,用于采集磁盘多个时刻的SMART数据;
样本构建模块,用于根据采集的SMART数据,构建出用于进行训练的各个训练样本;
标签添加模块,用于基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签;
训练模块,用于将添加了标签的各个训练样本输入至预设的预测模型中实现对所述预测模型的训练;
故障预测模块,用于将磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签,作为磁盘的故障预测结果。
一种磁盘故障的预测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现上述任一项所述的磁盘故障的预测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的磁盘故障的预测方法的步骤。
本申请的方案中,对磁盘进行故障预测,有利于及早地发现磁盘可能出现的故障情况,产生预警。具体的,采集磁盘多个时刻的SMART数据,根据采集的SMART数据,构建出用于进行训练的各个训练样本之后,由于本申请的方案需要进行磁盘预测,因此,在为每一个训练样本添加标签时,是基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签。可以看出,不同的标签反映了磁盘距离未来发生故障时刻的远近情况,也即反映出了磁盘接下来发生故障的概率情况。因此,将待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签之后,待测的SMART数据的标签便可以体现出对于获得待测的SMART数据的这一时刻而言,在该时刻之后磁盘发生故障情况的可能性,即本申请的方案实现了磁盘的故障预测。而由于可以进行故障预测,因此可以及早地发现磁盘可能出现的故障情况,产生预警,也就可以有效地降低磁盘故障对业务运行造成的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种磁盘故障的预测方法的实施流程图;
图2为本发明中一种磁盘故障的预测系统的结构示意图;
图3为本发明中一种磁盘故障的预测设备的结构示意图。
具体实施方式
本发明的核心是提供一种磁盘故障的预测方法,可以及早地发现磁盘可能出现的故障情况,产生预警,也就可以有效地降低磁盘故障对业务运行造成的影响。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明中一种磁盘故障的预测方法的实施流程图,该磁盘故障的预测方法可以包括以下步骤:
步骤S101:采集磁盘多个时刻的SMART数据。
SMART(Self-Monitoring Analysis and Reporting Technology,硬盘自我监测分析及报告技术)数据中包括多项,例如磁盘温度,磁盘转速,错误读取率等。本申请的SMART数据中具体包括的项目内容可以根据实际需要进行设定和调整,但需要说明的是,当选定了SMART数据中包括的项目内容之后,在各个时刻采集出的磁盘的SMART数据,以及后续用于进行磁盘故障预测的SMART数据,均需要符合选定的项目内容,即需要具有相同的项目内容。
采集磁盘多个时刻的SMART数据时,通常可以实时采集,或者按照预测的采集间隔进行采集。并且可以理解的是,由于本申请的方案需要进行磁盘的故障预测,因此,采集出的磁盘多个时刻的SMART数据,应当包括在磁盘发生故障的时刻采集出的磁盘的SMART数据,也应当包括在磁盘未发生故障的时刻采集出的磁盘的SMART数据,从而使得本申请的方案的预测结果较为准确。
步骤S102:根据采集的SMART数据,构建出用于进行训练的各个训练样本。
例如,采集了多个时刻的SMART数据之后,每个时刻的SMART数据例如均包括A,B,C,D四项,依次表示磁盘转速,错误读取率,寻轨出错率,磁盘温度。在一种具体实施方式中,可以直接将每一时刻采集到的SMART数据作为一个训练样本,即该种实施方式中,[A,B,C,D]便是一个训练样本的内容。这样的方式中,训练样本的构建较为简单。
在本发明的一种具体实施方式中,至少采集了3个时刻的SMART数据,即步骤S101可以具体为:依次采集磁盘在N个时刻的SMART数据;N为不小于2的正整数;
该种实施方式中,步骤S102可以具体包括以下两个步骤:
步骤一:针对第2时刻至第N时刻中的任意时刻的SMART数据,将该时刻的数据与历史平均数据做差,得到差值矩阵,并将该时刻的数据与前一时刻的数据做差,得到磁盘波动矩阵;
步骤二:利用该时刻的差值矩阵与该时刻的磁盘波动矩阵构造出输入矩阵,作为构建出的一个训练样本。
该种实施方式中,差值矩阵可以反映出该时刻的SMART数据的绝对情况,磁盘波动矩阵则可以反映出该时刻的SMART数据的相对变化情况。由于本申请的方案需要进行磁盘的故障预测,而磁盘波动矩阵有利于反映出磁盘的SMART数据的变化趋势,因此该种实施方式中的训练样本的设置,可以有效地提高预测结果的准确性。
不妨仍然假设在每个时刻采集的SMART数据均包括A,B,C,D这四项,并且用A0,B0,C0以及D0依次表示这四项数据的历史平均数据,i可以为2至N中的任意取值。则针对第i时刻的SMART数据,得到的差值矩阵可以表示为[Ai-A0,Bi-B0,Ci-C0,Di-D0],而得到的磁盘波动矩阵则可以表示为[Ai-A(i-1),Bi-B(i-1),Ci-C(i-1),Di-D(i-1)]。该例子中,第i时刻的SMART数据包括Ai,Bi,Ci以及Di,相应的,第i-1时刻的SMART数据包括A(i-1),B(i-1),C(i-1)以及D(i-1)。
此外,历史平均数据可以预先根据长期的统计而获得,或者直接将采集的各个时刻的SMART数据通过取平均值的方式确定出历史平均数据。
在得到差值矩阵以及磁盘波动矩阵之后,便可以利用该差值矩阵以及该磁盘波动矩阵构造出输入矩阵,作为构建出的一个训练样本。
例如,针对第i时刻的SMART数据,将第i时刻的数据与历史平均数据做差,得到差值矩阵,并将第i时刻的数据与前一时刻的数据做差,得到磁盘波动矩阵之后,便可以利用第i时刻的差值矩阵与第i时刻的磁盘波动矩阵构造出输入矩阵,作为构建出对应于第i时刻的一个训练样本。
而在利用差值矩阵以及磁盘波动矩阵构造出输入矩阵时,一种方式是直接构造,即不进行数据处理,这样的方式较为简单方便。例如前述实施方式中,针对第i时刻的SMART数据,得到的差值矩阵可以表示为[Ai-A0,Bi-B0,Ci-C0,Di-D0],而得到的磁盘波动矩阵则可以表示为[Ai-A(i-1),Bi-B(i-1),Ci-C(i-1),Di-D(i-1)]。则构造出的输入矩阵可以表示为:[Ai-A0,Bi-B0,Ci-C0,Di-D0,Ai-A(i-1),Bi-B(i-1),Ci-C(i-1),Di-D(i-1)]。
还需要说明的是,本申请的例子中,各个矩阵都是行矩阵,其他实施方式中也可以为列矩阵,并不影响本发明的实施。
进一步地,在本发明的一种具体实施方式中,上述步骤二中描述的利用该时刻的差值矩阵与该时刻的磁盘波动矩阵构造出输入矩阵,可以具体包括:
将该时刻的差值矩阵以及该时刻的磁盘波动矩阵均进行归一化处理;
利用归一化处理之后的差值矩阵以及归一化处理之后的磁盘波动矩阵构造出输入矩阵。
相较于前述例子中不对差值矩阵以及磁盘波动矩阵进行处理,直接构造出输入矩阵的方式,该种实施方式中,对差值矩阵以及磁盘波动矩阵均进行了归一化处理。通过归一化处理,能够减少数值太大的特征对数值较小的特征的影响,并且也有利于降低后续进行训练的耗时。归一化处理的具体实现则可以根据实际需要进行设定和调整,并不影响本发明的实施。例如一种具体场合中,可以将矩阵中的各个数据均归一化到[-1,1]这个范围中。
步骤S103:基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签。
得到了各个训练样本之后,还需要为每一个训练样本添加相对应的标签。而由于本申请需要进行故障的预测,因此,本申请基于每一个训练样本中的数据的采集时刻,与该采集时刻之后的故障发生时刻之间的间隔时长,来为每一个训练样本添加相对应的标签。
可以理解的是,当该间隔时长越长时,说明磁盘距离后续发生故障的时刻越远,也就可以反映出当前的磁盘在短时间内不容易发生故障。反之,磁盘距离后续发生故障的时刻越近时,说明后续发生故障的概率较高。
在本发明的一种具体实施方式中,步骤S103可以具体包括:
针对任意一个训练样本,按照
Figure BDA0002329429350000071
的添加规则,为每一个训练样本添加相对应的标签;
其中,T表示该训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,T=0表示该训练样本中的数据的采集时刻为故障时刻;a,b,c,d,e均为预设参数,且a<b<c<d<e<f。
该种实施方式中,根据实际经验设置了6种标签,在其他实施方式中,可以根据需要选用其他数量。例如设置为5种、7种等。
a,b,c,d,e均为预设参数,具体取值也可以根据需要进行设定,例如在本发明的一种具体实施方式中,a设置为5天,b设置为10天,c设置为20天,d设置为30天,e设置为60天。
例如,在每天的中午12点进行磁盘的SMART数据的采集,一共采集了92天。需要强调的是,该例子中采集磁盘的SMART数据的周期为1天,是为了描述方便,在实际应用中,采集周期通常会设置为几秒或者几分钟。
并且该例子中的训练样本,采用前述实施方式中描述的利用差值矩阵以及磁盘波动矩阵构造出输入矩阵,从而构建出训练样本的方式,则一共可以得到91个训练样本,依次对应于第2天至第92天。
假设在这92天中,磁盘在第13天以及第80天发生了故障,其他时候无故障,则按照a设置为5天,b设置为10天,c设置为20天,d设置为30天,e设置为60天的实施方式。
则第2天所对应的训练样本中的数据的采集时刻为2,该采集时刻之后的故障发生时刻为13,则二者的间隔时长为13-2=11,因此,第2天所对应的训练样本被添加的标签为:第三标签。
相应的,第3天所对应的训练样本中的数据的采集时刻为3,该采集时刻之后的故障发生时刻为13,则二者的间隔时长为13-3=10,因此,第3天所对应的训练样本被添加的标签为:第三标签。
第4天所对应的训练样本中的数据的采集时刻为4,该采集时刻之后的故障发生时刻为13,则二者的间隔时长为13-4=9,因此,第4天所对应的训练样本被添加的标签为:第二标签。
同理,第5天至第8天各自对应的训练样本中被添加的标签均为第二标签。
第9天所对应的训练样本中的数据的采集时刻为9,该采集时刻之后的故障发生时刻为13,则二者的间隔时长为13-9=4,因此,第9天所对应的训练样本被添加的标签为:第一标签。
同理,第10天至第13天各自对应的训练样本被添加的标签均为第一标签。
可以理解的是,该种实施方式中的第一标签即表示最有可能发生磁盘故障,也可以称为故障标签。并且还需说明的是,间隔时长为0时,即表示检测出SMART数据的时刻便是故障时刻。
第14天所对应的训练样本中的数据的采集时刻为14,该采集时刻之后的故障发生时刻为80,则二者的间隔时长为80-14=66,因此,第14天所对应的训练样本被添加的标签为:第六标签。
与前文同理,第15天至第80天各自对应的训练样本按照该训练样本中的数据的采集时刻与第80天这一故障发生时刻之间的间隔时长,相适应地添加各个训练样本的标签即可,此处不再展开说明。
而对于第81天至第92天对应的训练样本,由于后续无故障情况,因此可以均添加为第六标签,或者,在进行各个时刻的SMART数据的采集时,便以最后一次故障时刻作为截止采集的时刻,并不影响本发明的实施。
步骤S104:将添加了标签的各个训练样本输入至预设的预测模型中实现对预测模型的训练。
预测模型可以根据实际情况进行设定,例如预测模型为SVM预测模型。
由于SVM(support vector machines,支持向量机)方法是面向两类问题的,对于多类问题,可以通过建立多个SVM分类器的方式加以解决。例如有3个类别时,每两类之间需要建立一个SVM,则共需要3个SVM分类器,然后采用投票的方式实现分类。即对于输入的待测数据而言,使其通过所有的SVM分类器,最后票数最多的类别即为检出的类别。
本申请的方案中由于有K个标签,因此,SVM预测模型中可以包括K×(K-1)/2个SVM分类器,K为标签的种类。通常,K为正整数且至少为3。例如前述方式中有6种标签。
SVM方法是从线性可分情况下的最优分类面提出的,最优分类面就是要求分类线不但能将两类样本无错误的分开,而且要使两类之间的距离最大。因此,本申请采用SVM预测模型,有利于提高预测结果的准确性。
SVM的原理如下:
线性可分样本集为(xi,yi),i=1,2,3…,n,x∈Rd,y∈{+1,-1}表示类别标号。d维空间中线性判别函数的一般形式为g(x)=ωTX+b,分类面方程为:ωTX+b=0。如果分类面针对所有样本均正确分类,则满足:
yiTXi+b)-1≥0。i=1,2,3…,n
分类间隔最大等价于||ω||2最小,因此最优分类问题可转化为约束优化问题,即在yiTXi+b)-1≥0的约束下,求解出函数式
Figure BDA0002329429350000101
的最小值。由拉格朗日乘子法可以变为对偶问题:
Figure BDA0002329429350000104
yTα=0
其中,
Figure BDA0002329429350000102
Qij=yiyjK(Xi,Xj),K(Xi,Xj)=<Xi,Xj>。
在线性不可分的情况下,需要在条件式yiTXi+b)-1≥0中增加一个松弛项ξ,则约束优化问题变为:
Figure BDA0002329429350000103
步骤S105:将磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签,作为磁盘的故障预测结果。
不同的标签反映了磁盘距离未来发生故障时刻的远近情况,也即反映出了磁盘接下来发生故障的概率情况。
例如,磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签为前述实施方式中的第一标签时,说明磁盘有很大概率会在5天内发生故障,因此可以输出磁盘预警警报。
即,在本发明的一种具体实施方式中,在获得步骤S105之后,还可以包括:
当获得的待测的SMART数据的标签为表示故障的标签时,输出磁盘预警警报。前述实施方式中第一标签即为表示故障的标签,第六标签即为表示磁盘最安全的标签。当然,其他实施方式中可以有其他数量的标签种类,但可以理解的是,至少需要一个用于表示故障的标签,也至少需要一个用于表示磁盘安全稳定地运行的标签。
在本发明的一种具体实施方式中,采集磁盘多个时刻的SMART数据,包括:
采集磁盘多个时刻的SMART数据,且针对采集到的任意时刻的SMART数据,该SMART数据中包括:磁盘转速,错误读取率,寻轨出错率,加电次数总和,磁盘读取次数总和,磁盘温度。
实际应用中,SMART数据中具有20多项甚至更多的数据,如果均用于进行本申请的故障预测,会使得训练样本的维度特别高,导致学习时间特别长。并且,申请人考虑到,当维度达到一定数量时,继续增加维度对于精确度的提升有限,因此,该种实施方式中采用6个维度的方案,即该SMART数据中包括:磁盘转速,错误读取率,寻轨出错率,加电次数总和,磁盘读取次数总和,磁盘温度,在能够较为准确地进行磁盘的故障预测的基础上,又有利于保障训练时间不会过长。
当然,其他场合中,SMART数据中包括的数据项目即维度数也可以根据需要进行相应的调整。
本申请的方案中,对磁盘进行故障预测,有利于及早地发现磁盘可能出现的故障情况,产生预警。具体的,采集磁盘多个时刻的SMART数据,根据采集的SMART数据,构建出用于进行训练的各个训练样本之后,由于本申请的方案需要进行磁盘预测,因此,在为每一个训练样本添加标签时,是基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签。可以看出,不同的标签反映了磁盘距离未来发生故障时刻的远近情况,也即反映出了磁盘接下来发生故障的概率情况。因此,将待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签之后,待测的SMART数据的标签便可以体现出对于获得待测的SMART数据的这一时刻而言,在该时刻之后磁盘发生故障情况的可能性,即本申请的方案实现了磁盘的故障预测。而由于可以进行故障预测,因此可以及早地发现磁盘可能出现的故障情况,产生预警,也就可以有效地降低磁盘故障对业务运行造成的影响。
相应于上面的方法实施例,本发明实施例还提供了一种磁盘故障的预测系统,下文描述的磁盘故障的预测系统与上文描述的一种磁盘故障的预测方法可相互对应参照。
参见图2所示,为本发明中一种磁盘故障的预测系统的结构示意图,包括:
初始数据采集模块201,用于采集磁盘多个时刻的SMART数据;
样本构建模块202,用于根据采集的SMART数据,构建出用于进行训练的各个训练样本;
标签添加模块203,用于基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签;
训练模块204,用于将添加了标签的各个训练样本输入至预设的预测模型中实现对预测模型的训练;
故障预测模块205,用于将磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签,作为磁盘的故障预测结果。
在本发明的一种具体实施方式中,初始数据采集模块201,具体用于:
依次采集磁盘在N个时刻的SMART数据;N为不小于2的正整数;
样本构建模块202,具体用于:
针对第2时刻至第N时刻中的任意时刻的SMART数据,将该时刻的数据与历史平均数据做差,得到差值矩阵,并将该时刻的数据与前一时刻的数据做差,得到磁盘波动矩阵;
利用该时刻的差值矩阵与该时刻的磁盘波动矩阵构造出输入矩阵,作为构建出的一个训练样本。
在本发明的一种具体实施方式中,样本构建模块202,具体用于:
针对第2时刻至第N时刻中的任意时刻的SMART数据,将该时刻的数据与历史平均数据做差,得到差值矩阵,并将该时刻的数据与前一时刻的数据做差,得到磁盘波动矩阵;
将该时刻的差值矩阵以及该时刻的磁盘波动矩阵均进行归一化处理;
利用归一化处理之后的差值矩阵以及归一化处理之后的磁盘波动矩阵构造出输入矩阵,作为构建出的一个训练样本。
在本发明的一种具体实施方式中,标签添加模块203,具体用于:
针对任意一个训练样本,按照
Figure BDA0002329429350000131
的添加规则,为每一个训练样本添加相对应的标签;
其中,T表示该训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,T=0表示该训练样本中的数据的采集时刻为故障时刻;a,b,c,d,e均为预设参数,且a<b<c<d<e<f。
在本发明的一种具体实施方式中,初始数据采集模块201,具体用于:
采集磁盘多个时刻的SMART数据,且针对采集到的任意时刻的SMART数据,该SMART数据中包括:磁盘转速,错误读取率,寻轨出错率,加电次数总和,磁盘读取次数总和,磁盘温度。
在本发明的一种具体实施方式中,还包括:
预警警报输出模块,用于当获得的待测的SMART数据的标签为表示故障的标签时,输出磁盘预警警报。
在本发明的一种具体实施方式中,预测模型为SVM预测模型,SVM预测模型中包括K×(K-1)/2个SVM分类器,K为标签的种类。
相应于上面的方法和系统实施例,本发明实施例还提供了一种磁盘故障的预测设备以及一种计算机可读存储介质,可与上文相互对应参照。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中的磁盘故障的预测方法的步骤。这里所说的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
可参阅图3,该磁盘故障的预测设备可以包括:
存储器301,用于存储计算机程序;
处理器302,用于执行计算机程序以实现上述任一实施例中的磁盘故障的预测方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种磁盘故障的预测方法,其特征在于,包括:
采集磁盘多个时刻的SMART数据;
根据采集的SMART数据,构建出用于进行训练的各个训练样本;
基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签;
将添加了标签的各个训练样本输入至预设的预测模型中实现对所述预测模型的训练;
将磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签,作为磁盘的故障预测结果。
2.根据权利要求1所述的磁盘故障的预测方法,其特征在于,所述采集磁盘多个时刻的SMART数据,包括:
依次采集磁盘在N个时刻的SMART数据;N为不小于2的正整数;
所述根据采集的SMART数据,构建出用于进行训练的各个训练样本,包括:
针对第2时刻至第N时刻中的任意时刻的SMART数据,将该时刻的数据与历史平均数据做差,得到差值矩阵,并将该时刻的数据与前一时刻的数据做差,得到磁盘波动矩阵;
利用该时刻的所述差值矩阵与该时刻的所述磁盘波动矩阵构造出输入矩阵,作为构建出的一个训练样本。
3.根据权利要求2所述的磁盘故障的预测方法,其特征在于,所述利用该时刻的所述差值矩阵与该时刻的所述磁盘波动矩阵构造出输入矩阵,包括:
将该时刻的所述差值矩阵以及该时刻的所述磁盘波动矩阵均进行归一化处理;
利用归一化处理之后的差值矩阵以及归一化处理之后的磁盘波动矩阵构造出输入矩阵。
4.根据权利要求1所述的磁盘故障的预测方法,其特征在于,所述基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签,包括:
针对任意一个训练样本,
Figure FDA0002329429340000021
的添加规则,为每一个训练样本添加相对应的标签;
其中,T表示该训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,T=0表示该训练样本中的数据的采集时刻为故障时刻;a,b,c,d,e均为预设参数,且a<b<c<d<e<f。
5.根据权利要求1至4任一项所述的磁盘故障的预测方法,其特征在于,所述采集磁盘多个时刻的SMART数据,包括:
采集磁盘多个时刻的SMART数据,且针对采集到的任意时刻的SMART数据,该SMART数据中包括:磁盘转速,错误读取率,寻轨出错率,加电次数总和,磁盘读取次数总和,磁盘温度。
6.根据权利要求1所述的磁盘故障的预测方法,其特征在于,在获得待测的SMART数据的标签,作为磁盘的故障预测结果之后,还包括:
当获得的待测的SMART数据的标签为表示故障的标签时,输出磁盘预警警报。
7.根据权利要求1所述的磁盘故障的预测方法,其特征在于,所述预测模型为SVM预测模型,所述SVM预测模型中包括K×(K-1)/2个SVM分类器,K为标签的种类。
8.一种磁盘故障的预测系统,其特征在于,包括:
初始数据采集模块,用于采集磁盘多个时刻的SMART数据;
样本构建模块,用于根据采集的SMART数据,构建出用于进行训练的各个训练样本;
标签添加模块,用于基于训练样本中的数据的采集时刻与该采集时刻之后的故障发生时刻之间的间隔时长,为每一个训练样本添加相对应的标签;
训练模块,用于将添加了标签的各个训练样本输入至预设的预测模型中实现对所述预测模型的训练;
故障预测模块,用于将磁盘的待测的SMART数据输入至经过训练的预测模型中,获得待测的SMART数据的标签,作为磁盘的故障预测结果。
9.一种磁盘故障的预测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的磁盘故障的预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的磁盘故障的预测方法的步骤。
CN201911330468.6A 2019-12-20 2019-12-20 一种磁盘故障的预测方法、系统、设备及存储介质 Withdrawn CN111124732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330468.6A CN111124732A (zh) 2019-12-20 2019-12-20 一种磁盘故障的预测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330468.6A CN111124732A (zh) 2019-12-20 2019-12-20 一种磁盘故障的预测方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111124732A true CN111124732A (zh) 2020-05-08

Family

ID=70501542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330468.6A Withdrawn CN111124732A (zh) 2019-12-20 2019-12-20 一种磁盘故障的预测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111124732A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858283A (zh) * 2020-07-24 2020-10-30 山东海量信息技术研究院 一种边缘数据中心的硬盘故障预处理方法及相关组件
CN112328453A (zh) * 2020-11-10 2021-02-05 星辰天合(北京)数据科技有限公司 基于软件定义存储的磁盘状态分析方法及装置、电子设备
CN113076217A (zh) * 2021-04-21 2021-07-06 扬州万方电子技术有限责任公司 基于国产平台的磁盘故障预测方法
CN114358421A (zh) * 2022-01-04 2022-04-15 中国建设银行股份有限公司 磁盘故障预测方法、装置、存储介质和电子设备
WO2023116111A1 (zh) * 2021-12-22 2023-06-29 郑州云海信息技术有限公司 一种磁盘故障预测方法及装置
CN117912534A (zh) * 2024-03-20 2024-04-19 济南浪潮数据技术有限公司 一种磁盘状态预测方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110399238A (zh) * 2019-06-27 2019-11-01 浪潮电子信息产业股份有限公司 一种磁盘故障预警方法、装置、设备及可读存储介质
CN110427311A (zh) * 2019-06-26 2019-11-08 华中科技大学 基于时序特征处理与模型优化的磁盘故障预测方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110427311A (zh) * 2019-06-26 2019-11-08 华中科技大学 基于时序特征处理与模型优化的磁盘故障预测方法和系统
CN110399238A (zh) * 2019-06-27 2019-11-01 浪潮电子信息产业股份有限公司 一种磁盘故障预警方法、装置、设备及可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858283A (zh) * 2020-07-24 2020-10-30 山东海量信息技术研究院 一种边缘数据中心的硬盘故障预处理方法及相关组件
CN112328453A (zh) * 2020-11-10 2021-02-05 星辰天合(北京)数据科技有限公司 基于软件定义存储的磁盘状态分析方法及装置、电子设备
CN113076217A (zh) * 2021-04-21 2021-07-06 扬州万方电子技术有限责任公司 基于国产平台的磁盘故障预测方法
CN113076217B (zh) * 2021-04-21 2024-04-12 扬州万方科技股份有限公司 基于国产平台的磁盘故障预测方法
WO2023116111A1 (zh) * 2021-12-22 2023-06-29 郑州云海信息技术有限公司 一种磁盘故障预测方法及装置
CN114358421A (zh) * 2022-01-04 2022-04-15 中国建设银行股份有限公司 磁盘故障预测方法、装置、存储介质和电子设备
CN117912534A (zh) * 2024-03-20 2024-04-19 济南浪潮数据技术有限公司 一种磁盘状态预测方法、装置、电子设备及存储介质
CN117912534B (zh) * 2024-03-20 2024-06-07 济南浪潮数据技术有限公司 一种磁盘状态预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111124732A (zh) 一种磁盘故障的预测方法、系统、设备及存储介质
US10805151B2 (en) Method, apparatus, and storage medium for diagnosing failure based on a service monitoring indicator of a server by clustering servers with similar degrees of abnormal fluctuation
Sun et al. System-level hardware failure prediction using deep learning
Bodik et al. Fingerprinting the datacenter: automated classification of performance crises
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
US7930593B2 (en) Segment-based technique and system for detecting performance anomalies and changes for a computer-based service
US8453027B2 (en) Similarity detection for error reports
Lim et al. Identifying recurrent and unknown performance issues
CN112596964B (zh) 磁盘故障的预测方法及装置
AU2019275633B2 (en) System and method of automated fault correction in a network environment
WO2022001125A1 (zh) 一种存储系统的存储故障预测方法、系统及装置
US20180307218A1 (en) System and method for allocating machine behavioral models
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN111061581B (zh) 一种故障检测方法、装置及设备
Wang et al. Failure prediction of hard disk drives based on adaptive Rao–Blackwellized particle filter error tracking method
CN115793990B (zh) 存储器健康状态确定方法、装置、电子设备及存储介质
CN113723861A (zh) 异常用电行为检测方法、装置、计算机设备和存储介质
CN115705274A (zh) 硬盘故障预测方法、装置、计算机可读介质及电子设备
US20220222580A1 (en) Deterioration detection method, non-transitory computer-readable storage medium, and information processing device
JP7393034B2 (ja) 情報提供システム、情報提供方法およびプログラム
US11520831B2 (en) Accuracy metric for regular expression
US20230179501A1 (en) Health index of a service
EP3163463A1 (en) A correlation estimating device and the related method
Huang et al. Achieving scalable automated diagnosis of distributed systems performance problems
Xu et al. Convtrans-tps: A convolutional transformer model for disk failure prediction in large-scale network storage systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200508

WW01 Invention patent application withdrawn after publication