CN110673997A - 磁盘故障的预测方法及装置 - Google Patents
磁盘故障的预测方法及装置 Download PDFInfo
- Publication number
- CN110673997A CN110673997A CN201910844432.3A CN201910844432A CN110673997A CN 110673997 A CN110673997 A CN 110673997A CN 201910844432 A CN201910844432 A CN 201910844432A CN 110673997 A CN110673997 A CN 110673997A
- Authority
- CN
- China
- Prior art keywords
- prediction model
- sample
- data
- unit
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种磁盘故障的预测方法及装置,其方法包括:对获取到的数据集进行预处理,得到样本特征集;根据所述样本特征集,生成时间序列样本集;对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集;选择所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。通过小波变换具有的时‑频多分辨功能的特点,达到当时间序列为非平稳或非线性的时间序列时,提高对磁盘故障预测的准确率的目的。
Description
技术领域
本发明涉及数据存储技术领域,特别涉及一种磁盘故障的预测方法及装置。
背景技术
随着互联网的发展,云计算和大数据越来越受到大众的重视,而存储系统是大数据集群的重要组成部分,一般情况下存储系统由一个或多个磁盘组成,而磁盘很容易受到软硬件故障的影响。一旦磁盘发生故障,将可能导致用户数据丢失或损坏,给用户和服务供应商,造成巨大的损失。
目前,大部分的磁盘在对故障进行预测时,一般采用的故障预测算法都是基于磁盘的硬盘保护技术(Self-MonitoringAnalysisandReporting Technology,SMART)中选择部分属性进行分析,而采用SMART进行预测时,由于机器学习在分类问题上的突出表现,所以使用机器学习来预测磁盘故障为目前主流的方法。但是,由于磁盘SMART属性数据集是一种时间序列,具有非平稳性和非线性特点,导致在采用机器学习来预测磁盘故障的过程中,对磁盘故障预测的准确率较低。
发明内容
有鉴于此,本发明实施例提供一种磁盘故障的预测方法及装置,用于当时间序列为非平稳或非线性的时间序列时,提高对磁盘故障预测的准确率。
为实现上述目的,本发明实施例提供如下技术方案:
一种的磁盘故障的预测方法,包括:
对获取到的数据集进行预处理,得到样本特征集;
根据所述样本特征集,生成时间序列样本集;其中,所述时间序列样本集中包括所述样本特征集中处于预设时间段内的样本特征;
对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;
将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集;
选择所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。
可选的,所述对数据集进行预处理,得到样本特征集,包括:
根据磁盘的时间顺序对获取到的数据集进行升序排列,得到待处理数据集;
将所述待处理数据集输入至预设的树形分类器,由所述树形分类器从所述待处理数据集中的多个属性数据中选择权重最高的预设个数的属性数据作为样本特征集。
可选的,所述得到待处理数据集之前,还包括:
判断磁盘中的数据是否出现空值;
若判断出所述磁盘中的数据出现空值,则采用零值填充;
若判断出所述磁盘中的数据没有出现空值,则判断所述磁盘中的数据记录次数是否低于预设记录次数;
若判断出所述磁盘中的数据记录次数低于预设记录次数,则删除所述数据记录次数低于预设记录次数的磁盘。
可选的,所述磁盘故障预测模型的训练方法,包括:
根据预设的初始样本参数,建立初始预测模型,并将所述初始预测模型确定为当前预测模型;
将所述故障预测样本集中的训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
比较所述当前预测模型输出的当前预测值和所述训练样本集中对应的真实值,得到比较结果;
根据所述比较结果,判断所述当前预测模型的预测准确率是否满足准确率要求;
若判断出所述当前预测模型的准确率不能满足所述准确率要求,则更新当前预测模型中的样本参数,得到更新后的预测模型;
将所述更新后的预测模型作为当前预测模型,返回执行所述将所述训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
若判断出所述当前预测模型的准确率满足所述准确率要求,则将所述当前预测模型确定为所述磁盘故障预测模型。
可选的,所述将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集之后,还包括:
对所述故障预测样本集进行归一化处理,得到归一化的故障预测样本集;
将所述归一化的故障预测样本集按照预设的比例划分,得到所述测试样本集和所述训练样本集。
一种磁盘故障的预测装置,包括:
预处理单元,用于对获取到的数据集进行预处理,得到样本特征集;
生成单元,用于根据所述样本特征集,生成时间序列样本集;其中,所述时间序列样本集中包括所述样本特征集中处于预设时间段内的样本特征;
小波变换单元,用于对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;
组合单元,用于将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集;
执行单元,用于选择所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。
可选的,所述预处理单元,包括:
排序单元,用于根据磁盘的时间顺序对获取到的数据集进行升序排列,得到待处理数据集;
选取单元,用于将所述待处理数据集输入至预设的树形分类器,由所述树形分类器从所述待处理数据集中的多个属性数据中选取权重最高的预设个数的属性数据作为样本特征集。
可选的,所述磁盘故障的预测装置,还包括:
第一判断单元,用于判断磁盘中的数据是否出现空值;
填充单元,用于若所述第一判断单元判断出,所述磁盘中的数据出现空值,则采用零值填充;
第二判断单元,用于若所述第一判断单元判断出,所述磁盘中的数据没有出现空值,则判断所述磁盘中的数据记录次数是否低于预设记录次数;
删除单元,用于若所述第二判断单元判断出,所述磁盘中的数据记录次数低于预设记录次数,则删除所述数据记录次数低于预设记录次数的磁盘。
可选的,所述磁盘预测模型的训练单元,包括:
初始建立单元,用于根据预设的初始样本参数,建立初始预测模型,并将所述初始预测模型确定为当前预测模型;
输入单元,将所述故障预测样本集中的训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
比较单元,用于比较所述当前预测模型输出的当前预测值和所述训练样本集中对应的真实值,得到比较结果;
第三判断单元,用于根据所述比较结果,判断所述当前预测模型的预测准确率是否满足准确率要求;
更新单元,用于若所述第三判断单元判断出,所述当前预测模型的准确率不能满足所述准确率要求,则更新当前预测模型中的样本参数,得到更新后的预测模型;
返回单元,用于将所述更新后的预测模型作为当前预测模型,返回执行所述将所述训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
确定单元,用于若所述第三判断单元判断出,所述当前预测模型的准确率满足所述准确率要求,则将所述当前预测模型确定为所述磁盘故障预测模型。
可选的,所述磁盘故障的预测装置,还包括:
归一化单元,用于对所述故障预测样本集进行归一化处理,得到归一化的故障预测样本集;
划分单元,用于将所述归一化的故障预测样本集按照预设的比例划分,得到所述测试样本集和所述训练样本集。
由以上方案可知,本发明提供的一种磁盘故障的预测方法及装置中,利用对获取到的数据集进行预处理,得到样本特征集;根据所述样本特征集,生成时间序列样本集;其中,所述时间序列样本集中包括所述样本特征集中处于预设时间段内的样本特征;然后对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;并将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集;最后,选择所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。通过小波变换具有的时-频多分辨功能的特点,达到当时间序列为非平稳或非线性的时间序列时,提高对磁盘故障预测的准确率的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种磁盘故障的预测方法的具体流程图;
图2为本发明另一实施例提供的一种磁盘故障的预测方法的具体流程图;
图3为本发明另一实施例提供的一种磁盘故障的预测方法的具体流程图;
图4为本发明另一实施例提供的一种磁盘故障的预测方法的具体流程图;
图5为本发明另一实施例提供的一种磁盘故障预测模型的训练方法的具体流程图;
图6为本发明另一实施例提供的一种磁盘故障的预测装置的示意图;
图7为本发明另一实施例提供的一种磁盘故障的预测装置的示意图;
图8为本发明另一实施例提供的一种磁盘故障的预测装置的示意图;
图9为本发明另一实施例提供的一种磁盘故障的预测装置的示意图;
图10为本发明另一实施例提供的一种磁盘故障预测模型的训练单元的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种磁盘故障的预测方法,如图1所示,该方法包括以下步骤:
S101、对获取到的数据集进行预处理,得到样本特征集。
其中,获取到的数据集为Backblaze采集的2014年至2018年的数据集,backblaze是一家云存储服务商,采集了不同型号的消费级磁盘的硬盘保护技术(Self-MonitoringAnalysis and Reporting Technology,SMART)信息,采集的频率为一天一次。
具体的,根据选定的磁盘模式和选择的SMART属性,对数据集进行预处理,得到样本特征集;以ST4000DM000模式的磁盘为例,选择磁盘中ID为1(底层数据读取错误率)、3(主磁头的启动时间)、5(重映射扇区计数)、7(自检错误率)、9(启用时间)、187(无法恢复的错误事件)、189(高飞写)、194(温度)、195(硬件ECC恢复)和197(被挂起的扇区数)的归一化值以及5、197的原值共计12个SMART属性进行后续的对磁盘故障进行预测,其中,属性即为检测项目名称。
需要说明的是,ID的检测代码不是唯一的,厂商可以根据需要,使用不同的ID代码或根据检测参数的多少增减ID代码的数量,例如,西数公司的产品ID检测代码为“04”,检测的参数是Start/Stop Count(加电次数),而富士通公司的产品ID检测代码“04”,对应的检测参数却为“Number of times the spindle motor is activated”(电机激活时间)。
可选的,本发明的另一实施例中,步骤S101的一种实施方式,如图2所示,包括:
S201、根据磁盘的时间顺序对获取到的数据集进行升序排列,得到待处理数据集。
具体的,将获取到的数据集按照存储至磁盘中的时间顺序,进行升序排列,得到待处理数据集。
S202、将待处理数据集输入至预设的树形分类器,由树形分类器从待处理数据集中的多个属性数据中选择权重最高的预设个数的属性数据作为样本特征集。
其中,树形分类器可以是超树分类器。超树分类器的参数设定一般为n_estimators=100,max_depth=10,min_samples_leaf=5。
需要说明的是,待处理数据集中的多个属性一般为12个,即上述的磁盘中ID为1(底层数据读取错误率)、3(主磁头的启动时间)、5(重映射扇区计数)、7(自检错误率)、9(启用时间)、187(无法恢复的错误事件)、189(高飞写)、194(温度)、195(硬件ECC恢复)和197(被挂起的扇区数)的归一化值以及5、197的原值;而在选择权重最高的预设个数的属性作为样本特征集时,预设个数可以根据实际的应用场景以及专家组的后续研究结果进行更改,此处不做限定。
可选的,本发明的另一实施例中,在步骤S201之前的一种实施方式,如图3所示,包括:
S301、判断磁盘中的数据是否出现空值。
其中,在数据库中,空值表示值未知,不适用或以后添加数据的值。
具体的,若判断出所述磁盘中的数据出现空值,即磁盘中的某些数据的值为未知时,则执行步骤S302;若判断出所述磁盘中的数据没有出现空值,即磁盘中的每一个数据都是已知数据时,则执行步骤S303。
S302、采用零值填充。
其中,零值为数值为零的值,在本实施例的实现过程中,当出现空值时,将这个未知的数据,赋予一个为零的值,使其变成已知数据。
S303、判断磁盘中的数据记录次数是否低于预设记录次数。
其中,预设记录次数可以根据实际的应用场景以及专家组的后续研究结果进行更改,此处不做限定。目前来说,一般设定为50个记录次数。
具体的,若判断出磁盘中的数据记录次数低于预设记录次数,则执行步骤S304。
S304、删除数据记录次数低于预设记录次数的磁盘。
需要说明的是,由于记录次数过低,在后续进行预测时,可能会影响预测结果的准确度,故将数据记录次数低于预设记录次数的磁盘数据删除。
S102、根据样本特征集,生成时间序列样本集。
其中,时间序列样本集中包括样本特征集中处于预设时间段内的样本特征。
需要说明的是,一般情况下以50天的记录作为一个时间序列,针对正常磁盘,选择最后一个时间点及前49天,共50天的记录作为一个时间序列,并将此时间序列标记为0;针对故障磁盘,选择故障时间点及前49天,共50天的记录作为一个时间序列,并标记为1。
还需要说明的是,以样本特征个数为11和记录次数为50为例,对每一个磁盘生成一个时间序列样本时,维度为50×11。
在本实施例的具体实现过程中,将上述每一个样本特征生成的时间序列样本,组成一个集合得到时间序列样本集。
S103、对时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数。
其中,可以对时间序列样本集中的每一个单位时间内的所有样本特征进行小波变换,还可以对时间序列样本集中的每一个单位时间内的部分样本特征进行小波变换,可以根据专家组或科研人员以及实施过程中的具体情况进行自行选择。
具体的,以样本特征个数为11和记录次数为50为例,可以定义db1小波变换的level=5,集合时间序列样本S∈R50×11,需进行变换的特征F的ID为{0,3,5,7,9},对每一个f∈F,使用db1小波对Sf进行变换,获得细节系数集合D。需要说明的是,需要进行变换的特征F是可以根据实际情况进行更换的不仅仅限于ID为{0,3,5,7,9}。
S104、将细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集。
具体的,组合细节系数集中的细节系数和时间序列样本的最后一行,获得1×266的列向量样本,即故障预测样本集。
可选的,本发明的另一实施例中,在步骤S104之后的一种实施方式,如图4所示,包括:
S401、对故障预测样本集进行归一化处理,得到归一化的故障预测样本集。
对故障预测样本集进行归一化处理,使得故障预测样本集中的数据在范围[-1,1]之间,得到归一化的故障预测样本集。
S402、将归一化的故障预测样本集按照预设的比例划分,得到测试样本集和训练样本集。
其中,预设比例可以是7:3,也可以为其他比例,可以根据实际情况进行变更,此处不做限定。
具体的,针对非故障盘数和故障盘数的训练数据集与测试数据集可以如表1所示,但不限于表1所示的内容。
数据集划分 | 非故障盘数 | 故障盘数 |
训练数据集 | 73161 | 1670 |
测试数据集 | 31354 | 716 |
表1
S105、选择故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值。
其中,磁盘故障预测模型为一种改进的梯度提升树算法。
可选的,本发明的另一实施例中,磁盘故障预测模型的一种训练方法,如图5所示,包括:
S501、根据预设的初始样本参数,建立初始预测模型,并将初始预测模型确定为当前预测模型。
其中,预设的初始预测模型的样本参数可以如表2所示,但不限与表2中数据,可以根据实际情况进行调整。
表2
S502、将故障预测样本集中的训练样本集中的数据输入至当前预测模型中,得到当前预测值。
S503、比较当前预测模型输出的当前预测值和训练样本集中对应的真实值,得到比较结果。
S504、根据比较结果,判断当前预测模型的预测准确率是否满足准确率要求。
其中,准确率要求可以如表3所示,但不限与表3中数据,可以根据实际情况进行调整。
指标名 | 指标值 | 指标说明 |
ACC | 98.98% | 预测准确率 |
Recall | 64.80% | 召回率 |
F1-Score | 74.00% | Precision和Recall的加权调和平均 |
Precesion | 86.25% | 预测精度 |
FDR | 64.80% | 故障检测率 |
FAR | 0.236% | 错误警报率 |
表3
具体的,若判断出当前预测模型的准确率不能满足准确率要求,则执行步骤S505;若判断出当前预测模型的准确率满足准确率要求,则执行步骤S507。
S505、更新当前预测模型中的样本参数,得到更新后的预测模型。
S506、将更新后的预测模型作为当前预测模型,并返回执行步骤S502;
S507、将当前预测模型确定为磁盘故障预测模型。
由以上方案可知,本发明提供的一种磁盘故障的预测方法中,利用对获取到的数据集进行预处理,得到样本特征集;根据所述样本特征集,生成时间序列样本集;其中,所述时间序列样本集中包括所述样本特征集中处于预设时间段内的样本特征;然后对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;并将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集;最后,选择所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。通过小波变换具有的时-频多分辨功能的特点,达到当时间序列为非平稳或非线性的时间序列时,提高对磁盘故障预测的准确率的目的。
本发明实施例提供了一种磁盘故障的预测装置,如图6所示,包括:
预处理单元601,用于对获取到的数据集进行预处理,得到样本特征集。
可选的,本发明的另一实施例中,预处理单元601的一种实施方式,如图7所示,包括:
排序单元701,用于根据磁盘的时间顺序对获取到的数据集进行升序排列,得到待处理数据集。
选取单元702,用于将待处理数据集输入至预设的树形分类器,由树形分类器从待处理数据集中的多个属性数据中选取权重最高的预设个数的属性数据作为样本特征集。
本发明上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
可选的,本发明的另一实施例中,预处理单元601的一种实施方式,如图8所示,还包括:
第一判断单元801,用于判断磁盘中的数据是否出现空值。
填充单元802,用于若第一判断单元801判断出,磁盘中的数据出现空值,则采用零值填充。
第二判断单元803,用于若第一判断单元801判断出,磁盘中的数据没有出现空值,则判断磁盘中的数据记录次数是否低于预设记录次数。
删除单元804,用于若第二判断单元803判断出,磁盘中的数据记录次数低于预设记录次数,则删除数据记录次数低于预设记录次数的磁盘。
本发明上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
生成单元602,用于根据样本特征集,生成时间序列样本集。
其中,时间序列样本集中包括样本特征集中处于预设时间段内的样本特征。
小波变换单元603,用于对时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数。
组合单元604,用于将细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集。
可选的,本发明的另一实施例中,磁盘故障的预测装置,如图9所示,还包括:
归一化单元901,用于对故障预测样本集进行归一化处理,得到归一化的故障预测样本集。
划分单元902,用于将归一化的故障预测样本集按照预设的比例划分,得到测试样本集和训练样本集。
本发明上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图4所示,此处不再赘述。
执行单元605,用于将测试样本集输入至磁盘故障预测模型中,得到预测值。
其中,磁盘故障预测模型为一种改进的梯度提升树算法。
本发明上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
可选的,本发明的另一实施例中,磁盘故障预测模型的训练单元,如图10所示,包括:
初始建立单元1001,用于根据预设的初始样本参数,建立初始预测模型,并将初始预测模型确定为当前预测模型。
输入单元1002,将故障预测样本集中的训练样本集中的数据输入至当前预测模型中,得到当前预测值。
比较单元1003,用于比较当前预测模型输出的当前预测值和训练样本集中对应的真实值,得到比较结果。
第三判断单元1004,用于根据比较结果,判断当前预测模型的预测准确率是否满足准确率要求。
更新单元1005,用于若第三判断单元1004判断出,当前预测模型的准确率不能满足准确率要求,则更新当前预测模型中的样本参数,得到更新后的预测模型。
返回单元1006,用于将更新后的预测模型作为当前预测模型,返回输入单元1002执行将训练样本集中的数据输入至当前预测模型中,得到当前预测值。
确定单元1007,用于若第三判断单元1004判断出,当前预测模型的准确率满足准确率要求,则将当前预测模型确定为磁盘故障预测模型。
本发明上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图5所示,此处不再赘述。
由以上方案可知,本发明提供的一种磁盘故障的预测装置中,利用预处理单元601对获取到的数据集进行预处理,得到样本特征集;利用生成单元602根据所述样本特征集,生成时间序列样本集;其中,所述时间序列样本集中包括所述样本特征集中处于预设时间段内的样本特征;再利用小波变换单元603对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;利用组合单元604将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合获得故障预测样本集;最后,利用执行单元605将所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。通过小波变换具有的时-频多分辨功能的特点,达到当时间序列为非平稳或非线性的时间序列时,提高对磁盘故障预测的准确率的目的。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种磁盘故障的预测方法,其特征在于,包括:
对获取到的数据集进行预处理,得到样本特征集;
根据所述样本特征集,生成时间序列样本集;其中,所述时间序列样本集中包括所述样本特征集中处于预设时间段内的样本特征;
对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;
将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集;
选择所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。
2.根据权利要求1所述的方法,其特征在于,所述对数据集进行预处理,得到样本特征集,包括:
根据磁盘的时间顺序对获取到的数据集进行升序排列,得到待处理数据集;
将所述待处理数据集输入至预设的树形分类器,由所述树形分类器从所述待处理数据集中的多个属性数据中选择权重最高的预设个数的属性数据作为样本特征集。
3.根据权利要求2所述的方法,其特征在于,所述得到待处理数据集之前,还包括:
判断磁盘中的数据是否出现空值;
若判断出所述磁盘中的数据出现空值,则采用零值填充;
若判断出所述磁盘中的数据没有出现空值,则判断所述磁盘中的数据记录次数是否低于预设记录次数;
若判断出所述磁盘中的数据记录次数低于预设记录次数,则删除所述数据记录次数低于预设记录次数的磁盘。
4.根据权利要求1所述的方法,其特征在于,所述磁盘故障预测模型的训练方法,包括:
根据预设的初始样本参数,建立初始预测模型,并将所述初始预测模型确定为当前预测模型;
将所述故障预测样本集中的训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
比较所述当前预测模型输出的当前预测值和所述训练样本集中对应的真实值,得到比较结果;
根据所述比较结果,判断所述当前预测模型的预测准确率是否满足准确率要求;
若判断出所述当前预测模型的准确率不能满足所述准确率要求,则更新当前预测模型中的样本参数,得到更新后的预测模型;
将所述更新后的预测模型作为当前预测模型,返回执行所述将所述训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
若判断出所述当前预测模型的准确率满足所述准确率要求,则将所述当前预测模型确定为所述磁盘故障预测模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集之后,还包括:
对所述故障预测样本集进行归一化处理,得到归一化的故障预测样本集;
将所述归一化的故障预测样本集按照预设的比例划分,得到所述测试样本集和所述训练样本集。
6.一种磁盘故障的预测装置,其特征在于,包括:
预处理单元,用于对获取到的数据集进行预处理,得到样本特征集;
生成单元,用于根据所述样本特征集,生成时间序列样本集;其中,所述时间序列样本集中包括所述样本特征集中处于预设时间段内的样本特征;
小波变换单元,用于对所述时间序列样本集中的每一个单位时间内的样本特征进行小波变换,得到每一个单位时间内的样本特征对应的细节系数;
组合单元,用于将所述细节系数与时间序列样本中的最后一个单位时间的样本特征进行组合,获得故障预测样本集;
执行单元,用于选择所述故障预测样本集中的测试样本集输入至磁盘故障预测模型中,得到预测值;其中,所述磁盘故障预测模型为一种改进的梯度提升树算法。
7.根据权利要求6所述的装置,其特征在于,所述预处理单元,包括:
排序单元,用于根据磁盘的时间顺序对获取到的数据集进行升序排列,得到待处理数据集;
选取单元,用于将所述待处理数据集输入至预设的树形分类器,由所述树形分类器从所述待处理数据集中的多个属性数据中选取权重最高的预设个数的属性数据作为样本特征集。
8.根据权利要求7所述的装置,其特征在于,还包括:
第一判断单元,用于判断磁盘中的数据是否出现空值;
填充单元,用于若所述第一判断单元判断出,所述磁盘中的数据出现空值,则采用零值填充;
第二判断单元,用于若所述第一判断单元判断出,所述磁盘中的数据没有出现空值,则判断所述磁盘中的数据记录次数是否低于预设记录次数;
删除单元,用于若所述第二判断单元判断出,所述磁盘中的数据记录次数低于预设记录次数,则删除所述数据记录次数低于预设记录次数的磁盘。
9.根据权利要求6所述的装置,其特征在于,所述磁盘预测模型的训练单元,包括:
初始建立单元,用于根据预设的初始样本参数,建立初始预测模型,并将所述初始预测模型确定为当前预测模型;
输入单元,将所述故障预测样本集中的训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
比较单元,用于比较所述当前预测模型输出的当前预测值和所述训练样本集中对应的真实值,得到比较结果;
第三判断单元,用于根据所述比较结果,判断所述当前预测模型的预测准确率是否满足准确率要求;
更新单元,用于若所述第三判断单元判断出,所述当前预测模型的准确率不能满足所述准确率要求,则更新当前预测模型中的样本参数,得到更新后的预测模型;
返回单元,用于将所述更新后的预测模型作为当前预测模型,返回执行所述将所述训练样本集中的数据输入至所述当前预测模型中,得到当前预测值;
确定单元,用于若所述第三判断单元判断出,所述当前预测模型的准确率满足所述准确率要求,则将所述当前预测模型确定为所述磁盘故障预测模型。
10.根据权利要求9所述的装置,其特征在于,还包括:
归一化单元,用于对所述故障预测样本集进行归一化处理,得到归一化的故障预测样本集;
划分单元,用于将所述归一化的故障预测样本集按照预设的比例划分,得到所述测试样本集和所述训练样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910844432.3A CN110673997B (zh) | 2019-09-06 | 2019-09-06 | 磁盘故障的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910844432.3A CN110673997B (zh) | 2019-09-06 | 2019-09-06 | 磁盘故障的预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110673997A true CN110673997A (zh) | 2020-01-10 |
CN110673997B CN110673997B (zh) | 2023-01-10 |
Family
ID=69076188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910844432.3A Active CN110673997B (zh) | 2019-09-06 | 2019-09-06 | 磁盘故障的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110673997B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596964A (zh) * | 2020-12-15 | 2021-04-02 | 中国建设银行股份有限公司 | 磁盘故障的预测方法及装置 |
CN115687038A (zh) * | 2022-08-23 | 2023-02-03 | 江苏臻云技术有限公司 | 一种基于大数据的硬盘故障预测系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016018372A (ja) * | 2014-07-08 | 2016-02-01 | 富士通株式会社 | プログラム、予測装置及び予測方法 |
JP2016091312A (ja) * | 2014-11-05 | 2016-05-23 | 株式会社東芝 | 異常診断装置及び異常診断方法 |
CN108802525A (zh) * | 2018-06-06 | 2018-11-13 | 浙江宇天科技股份有限公司 | 基于小样本的设备故障智能预测方法 |
CN108875841A (zh) * | 2018-06-29 | 2018-11-23 | 国家电网有限公司 | 一种抽蓄机组振动趋势预测方法 |
-
2019
- 2019-09-06 CN CN201910844432.3A patent/CN110673997B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016018372A (ja) * | 2014-07-08 | 2016-02-01 | 富士通株式会社 | プログラム、予測装置及び予測方法 |
JP2016091312A (ja) * | 2014-11-05 | 2016-05-23 | 株式会社東芝 | 異常診断装置及び異常診断方法 |
CN108802525A (zh) * | 2018-06-06 | 2018-11-13 | 浙江宇天科技股份有限公司 | 基于小样本的设备故障智能预测方法 |
CN108875841A (zh) * | 2018-06-29 | 2018-11-23 | 国家电网有限公司 | 一种抽蓄机组振动趋势预测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596964A (zh) * | 2020-12-15 | 2021-04-02 | 中国建设银行股份有限公司 | 磁盘故障的预测方法及装置 |
CN112596964B (zh) * | 2020-12-15 | 2024-05-17 | 中国建设银行股份有限公司 | 磁盘故障的预测方法及装置 |
CN115687038A (zh) * | 2022-08-23 | 2023-02-03 | 江苏臻云技术有限公司 | 一种基于大数据的硬盘故障预测系统及方法 |
CN115687038B (zh) * | 2022-08-23 | 2023-09-26 | 江苏臻云技术有限公司 | 一种基于大数据的硬盘故障预测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110673997B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7169369B2 (ja) | 機械学習アルゴリズムのためのデータを生成する方法、システム | |
US10789225B2 (en) | Column weight calculation for data deduplication | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN104765745B (zh) | 对数据库中的加载数据进行逻辑验证的方法和系统 | |
CN112465153A (zh) | 一种基于不平衡集成二分类的磁盘故障预测方法 | |
CN111858108B (zh) | 一种硬盘故障预测方法、装置、电子设备和存储介质 | |
CN110673997B (zh) | 磁盘故障的预测方法及装置 | |
CN113837596A (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN112395179B (zh) | 一种模型训练方法、磁盘预测方法、装置及电子设备 | |
CN111045916B (zh) | 自动化软件缺陷验证 | |
CN111309718A (zh) | 一种配网电压数据缺失填补方法及装置 | |
JP6419667B2 (ja) | テストdbデータ生成方法及び装置 | |
CN115269288A (zh) | 故障确定方法、装置、设备和存储介质 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
US20220365841A1 (en) | Repair support system and repair support method | |
CN114372689A (zh) | 一种基于动态规划的路网运行特征变点识别方法 | |
JP2009245353A (ja) | 情報処理システムおよび情報処理方法 | |
US12061868B2 (en) | Automated calculation predictions with explanations | |
CN116610484B (zh) | 一种模型训练方法、故障预测方法、系统、设备以及介质 | |
US20240152133A1 (en) | Threshold acquisition apparatus, method and program for the same | |
CN113723522B (zh) | 异常用户的识别方法、装置、电子设备以及存储介质 | |
CN114896588B (zh) | 主机用户异常行为检测方法、装置、存储介质及电子设备 | |
US8780471B2 (en) | Linking errors to particular tapes or particular tape drives | |
CN117785250A (zh) | 系统变更的质控方法、装置、计算机设备和存储介质 | |
CN113921043A (zh) | 基于语音记录的质检方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |