CN113822336A - 一种云硬盘故障预测方法、装置、系统及可读存储介质 - Google Patents

一种云硬盘故障预测方法、装置、系统及可读存储介质 Download PDF

Info

Publication number
CN113822336A
CN113822336A CN202110962511.1A CN202110962511A CN113822336A CN 113822336 A CN113822336 A CN 113822336A CN 202110962511 A CN202110962511 A CN 202110962511A CN 113822336 A CN113822336 A CN 113822336A
Authority
CN
China
Prior art keywords
smart information
hard disk
cloud hard
historical
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110962511.1A
Other languages
English (en)
Inventor
雷跃辉
沈新新
江治林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202110962511.1A priority Critical patent/CN113822336A/zh
Publication of CN113822336A publication Critical patent/CN113822336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种云硬盘故障预测方法、装置、系统及计算机可读存储介质,包括:获取当前时刻的SMART信息;采用预先建立的云硬盘故障预测模型对当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,云硬盘故障预测模型的建立过程为:采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;将各个原始历史SMART信息中的各个重要特征保留,得到SMART信息样本集;采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型;本发明中所建立的云硬盘故障预测模型的更加精确,有利于提高云硬盘故障预测准确率,预测效果更好。

Description

一种云硬盘故障预测方法、装置、系统及可读存储介质
技术领域
本发明涉及云计算技术领域,特别是涉及一种云硬盘故障预测方法、装置、系统及计算机可读存储介质。
背景技术
近年来,云计算技术的安全性及可靠性成为众多企业关注的焦点,云硬盘(Elastic Volume Service,EVS)可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务。云计算的基础是云存储,全世界接近90%的数据存储在数据中心的磁盘中,由于磁盘存储自身的机制,磁盘一旦损坏,存储在其中的数据将永久性丢失。尽管随着磁盘制造工艺的进步,磁盘发生故障的概率越来越低,但由于云存储中磁盘的数量规模极其庞大,云环境下的磁盘故障依然多发的。因此,对磁盘进行早期的故障预测是十分必要的。
传统的预测方法,是凭经验确定出需要检测的特征,并通过机器学习算法对云硬盘的故障程度进行预测,但是通过该方式对云硬盘的故障程度进行预测,准确率低,预测效果差。
鉴于此,如何提供一种解决上述技术问题的云硬盘故障预测方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种云硬盘故障预测方法,在使用过程中所建立的云硬盘故障预测模型的更加精确,有利于提高云硬盘故障预测准确率,预测效果更好。
为解决上述技术问题,本发明实施例提供了一种云硬盘故障预测方法,包括:
获取当前时刻的SMART信息;
采用预先建立的云硬盘故障预测模型对所述当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,所述云硬盘故障预测模型的建立过程为:
采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;
将各个所述原始历史SMART信息中的各个所述重要特征保留,得到SMART信息样本集;
采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型。
可选的,在所述采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征之前,还包括:
对每个原始历史SMART信息进行数值化和归一化处理,得到各个第一历史SMART信息;
则,所述采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征的过程为:
采用随机森林算法对各个所述第一历史SMART信息进行特征选择,确定出各个重要特征。
可选的,在对所述对每个历史SMART信息进行数值化和归一化处理之前,还包括:
对每个原始历史SMART信息中存在缺失值的历史SMART信息进行缺失值填补处理,得到处理后的每个第二历史SMART信息;
则,所述对每个原始历史SMART信息进行数值化和归一化处理的过程为:
对每个所述第二历史SMART信息进行数值化和归一化处理。
可选的,所述对每个原始历史SMART信息中存在缺失值的历史SMART信息进行缺失值填补处理的过程为:
从每个所述原始历史SMART信息确定出存在缺失值的目标原始历史SMART信以及对应的目标特征;
根据与所述目标原始历史SMART信息对应的上一时刻的原始历史SMART信息以及下一时刻的原始历史SMART信息中与所述目标特征对应的特征值计算出所述目标原始历史SMART信息的目标特征的缺失值;
将所述缺失值作为所述目标原始历史SMART信息的目标特征的特征值进行填写。
可选的,在所述采用随机森林算法对各个所述第一历史SMART信息进行特征选择,确定出各个重要特征之后,还包括:
依据与每个所述第一历史SMART信息各自对应的状态等级,从各个所述第一历史SMART信息中确定出各个正常的第一历史SMART信息以及各个非正常的第一历史SMART信息;其中,所述各个非正常的第一历史SMART信息构成负样本集,所述非正常的第一历史SMART信息为负样本;
针对所述负样本集中的每个负样本,计算出所述负样本至其他每个负样本的欧氏距离,并依据各个所述欧氏距离确定出与所述负样本相关的各个临近负样本;
从与所述负样本对应的各个临近负样本中选择出预设数量的目标临近负样本;
依据所述负样本及与其对应的各个目标临近负样本构建出与每个所述目标临近负样本各自对应的新负样本;
将各个所述新负样本及各个正常的第一历史SMART信息构成的样本集作为新的SMART信息样本集;
则,采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型的过程为:
采用机器学习算法对所述新的SMART信息样本集进行训练,得到云硬盘故障预测模型。
可选的,所述依据所述负样本及与其对应的各个目标负样本构建出与每个所述目标负样本各自对应的新负样本的过程为:
根据计算关系式
Figure BDA0003222596360000031
计算出与每个所述目标负样本对应的新负样本;其中,
Figure BDA0003222596360000032
表示第j个目标临近负样本,xnewj表示第j个新负样本,x表示负样本。
可选的,所述采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型的过程为:
采用Xgboost算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型。
本发明实施例还提供了一种云硬盘故障预测装置,包括:
获取模块,用于获取当前时刻的SMART信息;
预测模块,用于采用预先建立的云硬盘故障预测模型对所述当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,用于建立云硬盘故障预测模型的建立模块包括:
选择单元,用于采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;
筛选单元,用于将各个所述原始历史SMART信息中的各个所述重要特征保留,得到SMART信息样本集;
训练单元,用于采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型。
可选的,所述建立模块还包括:
预处理单元,用于对每个原始历史SMART信息进行数值化和归一化处理,得到各个第一历史SMART信息;
则,所述训练单元,具体用于采用随机森林算法对各个所述第一历史SMART信息进行特征选择,确定出各个重要特征。
本发明实施例还提供了一种云硬盘故障预测系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述云硬盘故障预测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述云硬盘故障预测方法的步骤。
本发明实施例提供了一种云硬盘故障预测方法、装置、系统及计算机可读存储介质,包括:获取当前时刻的SMART信息;采用预先建立的云硬盘故障预测模型对当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,云硬盘故障预测模型的建立过程为:采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;将各个原始历史SMART信息中的各个重要特征保留,得到SMART信息样本集;采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型。
可见,本发明实施例中在建立云硬盘故障预测模型时先通过随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征,并根据各个重要特征对各个原始历史SMART信息中的特征进行筛选,保留每个原始历史SMART信息中的各个重要特征从而得到SMART信息样本集,然后再采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型,在对云硬盘进行故障预测时,通过所建立的云硬盘故障预测模型对当前时刻的SMART信息进行分析,即可得到包含云硬盘状态等级的预测结果,本发明中所建立的云硬盘故障预测模型的更加精确,有利于提高云硬盘故障预测准确率,预测效果更好。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种云硬盘故障预测方法的流程示意图;
图2为本发明实施例提供的一种云硬盘故障预测模型的建立过程的流程示意图;
图3为本发明实施例提供的一种云硬盘故障预测装置的结构示意图;
图4为本发明实施例提供的一种云硬盘故障预测模型的建立模块的结构示意图。
具体实施方式
本发明实施例提供了一种云硬盘故障预测方法,在使用过程中所建立的云硬盘故障预测模型的更加精确,有利于提高云硬盘故障预测准确率,预测效果更好。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种云硬盘故障预测方法的流程示意图。该方法包括:
S110:获取当前时刻的SMART信息;
具体的,获取云硬盘在当前时刻的SMART(Self-Monitoring Analysis andReporting Technology,自我监测、分析及报告技术)信息,其中,SMART信息是一种自动的硬盘状态检测与预警系统和规范,通过在硬盘硬件内的检测指令对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较,若监控情况将或已超出预设安全值的安全范围,就可以通过主机的监控硬件或软件自动向用户做出警告并进行轻微的自动修复,以提前保障硬盘数据的安全,硬盘自己有个硬件检测模块,这个模块就叫SMART,从这个模块读取的硬盘状态就是SMART信息。
S120:采用预先建立的云硬盘故障预测模型对当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,如图2所示,云硬盘故障预测模型的建立过程为:
S210:采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;
S220:将各个原始历史SMART信息中的各个重要特征保留,得到SMART信息样本集;
S230:采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型。
需要说明的是,本发明实施例中预先建立云硬盘故障预测模型,具体的先从云硬盘SMART信息数据库集中获取各个原始历史SMART信息,由于云硬盘SMART信息中数据库集中的样本数据包含无关特征和冗余特征,当数据集的特征较多时,所建立的模型容易产生过拟合,影响训练模型的学习效果,因此,本发明实施例中采用所及森林算法对SMART各个原始历史SMART信息进行特征选择,确定出各个重要特征,将各个原始历史SMART信息中的各个重要特征保留,将其他的特征删除,从而得到各个处理后的原始历史SMART信息,并由这些SMART信息构成SMART信息样本集,然后再采样机器学习算法对这些SMART信息样本集进行训练,得到云硬盘故障预测模型。
其中,本发明实施例中所采用的随机森林算法是一种实现简单的分类回归技术,有比较小的计算开销,适用于非线性数据建模、分析变量特征性等。随机森林算法由装袋算法(Bagging)扩展而来,通过分类器组合,集合多个模型提高算法的分类精度,随机森林在生成决策树的过程中,随机引入特征选择策略,最终结果根据投票规则确定出。
具体的,本发明实施例中在对云硬盘进行故障预测时,采样上述建立好的云硬盘故障预测模型对当前时刻的SMART信息进行处理,得到与当前时刻的SMART信息对应的预测结果,其中,该预测结果中包括云硬盘状态等级,例如健康、亚健康或损坏等等级。
进一步的,在上述S210中采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征之前,该方法还可以包括:
对每个原始历史SMART信息进行数值化和归一化处理,得到各个第一历史SMART信息;
则相应的,采用随机森林算法对各个第一历史SMART信息进行特征选择,确定出各个重要特征。
需要说明的是,由于云硬盘SMART信息中必然存在大量的缺失值,若直接删除带有缺失值的数据或直接使用带有缺失值的数据会影响模型训练结果以及诊断模型的正确性,因此在对各个原始历史SMART信息进行数值化和归一化处理之前,可以对每个原始历史SMART信息中存在缺失值的历史SMART信息进行缺失值填补处理,得到处理后的每个第二历史SMART信息;然后对每个第二历史SMART信息进行数值化和归一化处理。
其中,针对每个原始历史SMART信息,先从每个原始历史SMART信息确定出存在缺失值的目标原始历史SMART信以及该目标原始历史SMART信息中存在缺失值的目标特征,然后根据与该目标原始历史SMART信息对应的上一时刻的原始历史SMART信息及下一时刻的原始历史SMART信息中与该目标特征对应的特征值计算出该目标原始历史SMART信息中该目标特征的缺失值,然后将该缺失值对该目标原始历史SMART信息中的该目标特征的特征值,并对其进行缺失值填写,其中,具体可以通过求平均值的方式将计算出的平均值作为缺失值对该目标原始历史SMART信息中存在缺失值的目标特征进行缺失值填写。
进一步的,在上述采用随机森林算法对各个第一历史SMART信息进行特征选择,确定出各个重要特征之后,该方法还可以包括:
依据与每个第一历史SMART信息各自对应的状态等级,从各个第一历史SMART信息中确定出各个正常的第一历史SMART信息以及各个非正常的第一历史SMART信息;其中,各个非正常的第一历史SMART信息构成负样本集,非正常的第一历史SMART信息为负样本;
针对负样本集中的每个负样本,计算出负样本至其他每个负样本的欧氏距离,并依据各个欧氏距离确定出与负样本相关的各个临近负样本;
从与负样本对应的各个临近负样本中选择出预设数量的目标临近负样本;
依据负样本及与其对应的各个目标临近负样本构建出与每个目标临近负样本各自对应的新负样本;
将各个新负样本及各个正常的第一历史SMART信息构成的样本集作为新的SMART信息样本集;
则,上述S230采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型的过程,具体可以为:
采用机器学习算法对新的SMART信息样本集进行训练,得到云硬盘故障预测模型。
需要说明的是,由于云硬盘SMART数据集中绝大数为正常的SMART信息,处于亚健康和故障的SMART信息较少,因此需要对正负样本进行均衡化处理,以便提高所建立的模型的准确度。具体的,根据SMART信息对应的状态等级能够确定出该SMART信息属于正样本,还是负样本,其中,正常的SMART信息为正样本,亚健康和故障的SMART信息为负样本,本发明实施例中具体可以依据与每个第一历史SMART信息各自对应的状态等级,将各个正常的第一历史SMART信息作为正样本集,将各个非正常(亚健康和故障)的第一历史SMART信息作为负样本集,为了对负样本集进行扩充,针对负样本集中的每个负样本,均计算出该负样本与负样本集中的其他各个负样本之间的欧式距离,然后根据欧式距离的大小筛选出小于预设距离值的各个临近负样本,从与负样本对应的各个临近负样本中选择出预设数量的目标临近负样本,该预设数量可以根据正样本数和负样本数的比值确定出,也即确定出需要将负样本扩展多少倍,例如正样本数除以负样本数取整后得到N,则说明需要负样本扩充N倍,然后在依据负样本及与其对应的各个目标临近负样本构建出与每个目标临近负样本各自对应的新负样本,并将各个新负样本及各个正常的第一历史SMART信息构成的样本集作为新的SMART信息样本集,然后采用机器学习算法对新的SMART信息样本集进行训练,得到云硬盘故障预测模型。例如,针对其中一个负样本,选择出的临近负样本为k个,并从这k个临近负样本中选择出N个目标临近负样本,然后再分别根据该负样本和每个目标临界负样本计算出一个新的负样本(也即新负样本),针对每个负样本得到多个新负样本,所有的新负样本构成新的负样本集。
其中,上述依据负样本及与其对应的各个目标负样本构建出与每个目标负样本各自对应的新负样本的过程,具体可以为:
根据计算关系式
Figure BDA0003222596360000091
计算出与每个目标负样本对应的新负样本;其中,
Figure BDA0003222596360000092
表示第j个目标临近负样本,xnewj表示第j个新负样本,x表示负样本。
其中,j∈[1,N],N为与负样本对应的目标临近负样本,针对不同的负样本N可能不同。当然,也可以通过其他的方式计算出每个负样本各自对应的新负样本。
进一步的,上述S230采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型的过程,具体可以为:
采用Xgboost算法对SMART信息样本集进行训练,得到云硬盘故障预测模型。
需要说明的是,Xgboost算法一种改进的梯度增强算法,属于机器学习算法的一种,对于处理高维数据、降维、特征提取等,其精度高于传统算法。XGBoost的创新之处在于利用二阶泰勒展开优化目标函数,在目标函数中引进正则化项,正则化项中加入叶子节点权重和树的深度,以此来控制模型复杂度、防止过拟合。它将多个弱分类器合并为一个强分类器,通常基分类器是一个分类回归树(CART)。
具体的,可以先将Xgboost库函数导入,导入基础函数库numpy、sklearn、xgboost等;SMART信息样本的载入,并且为了正确评估模型性能,将SMART信息样本划分为训练集和测试集,并在训练集上训练模型,在测试集上验证模型性能,具体可以利用sklearn.model_selection.train_test_split函数将数据集分为训练集与测试集的比例设置为4:1;在库函数中导入XGBoost函数(from xgboost.sklearn import XGBClassifier),利用函数XGBClassifier().fit(x_train,y_trian)在训练集上训练XGBoost模型;在测试集对所训练的模型进行验证,具体可以利用accuracy(准确度)(预测正确的样本数目占总预测样本数目的比例)评估模型效果,查看混淆矩阵(预测值和真实值的各类情况统计矩阵);调整超参数获得更好的效果,具体的调整学习率(learning_rate)、树的深度(max_depth)等,其中,调节模型参数的方法有贪心算法、网格调参、贝叶斯调参等,实际应用中可以采用网格调参,它的基本思想是穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果,从而得到训练好的云硬盘故障预测模型。
可见,本发明实施例中在建立云硬盘故障预测模型时先通过随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征,并根据各个重要特征对各个原始历史SMART信息中的特征进行筛选,保留每个原始历史SMART信息中的各个重要特征从而得到SMART信息样本集,然后再采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型,在对云硬盘进行故障预测时,通过所建立的云硬盘故障预测模型对当前时刻的SMART信息进行分析,即可得到包含云硬盘状态等级的预测结果,本发明中所建立的云硬盘故障预测模型的更加精确,有利于提高云硬盘故障预测准确率,预测效果更好。
在上述实施例的基础上,本发明实施例还提供了一种云硬盘故障预测装置,具体请参照图2,该装置包括:
获取模块21,用于获取当前时刻的SMART信息;
预测模块22,用于采用预先建立的云硬盘故障预测模型对当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,如图4所示,用于建立云硬盘故障预测模型的建立模块包括:
选择单元31,用于采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;
筛选单元32,用于将各个原始历史SMART信息中的各个重要特征保留,得到SMART信息样本集;
训练单元33,用于采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型。
进一步的,建立模块还包括:
预处理单元,用于对每个原始历史SMART信息进行数值化和归一化处理,得到各个第一历史SMART信息;
则,训练单元,具体用于采用随机森林算法对各个第一历史SMART信息进行特征选择,确定出各个重要特征。
需要说明的是,本发明实施例中所提供的云硬盘故障预测装置具有与上述实施例中所提供的云硬盘故障预测方法相同的有益效果,并且对于本发明实施例中所涉及到的云硬盘故障预测方法的具体介绍请参照上述实施例,本发明在此不再赘述。
在上述实施例的基础上,本发明实施例还提供了一种云硬盘故障预测系统,该系统包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述云硬盘故障预测方法的步骤。
例如,本发明实施例中的处理器具体可以用于实现获取当前时刻的SMART信息;采用预先建立的云硬盘故障预测模型对当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,云硬盘故障预测模型的建立过程为:采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;将各个原始历史SMART信息中的各个重要特征保留,得到SMART信息样本集;采用机器学习算法对SMART信息样本集进行训练,得到云硬盘故障预测模型。
在上述实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述云硬盘故障预测方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种云硬盘故障预测方法,其特征在于,包括:
获取当前时刻的SMART信息;
采用预先建立的云硬盘故障预测模型对所述当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,所述云硬盘故障预测模型的建立过程为:
采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;
将各个所述原始历史SMART信息中的各个所述重要特征保留,得到SMART信息样本集;
采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型。
2.根据权利要求1所述的云硬盘故障预测方法,其特征在于,在所述采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征之前,还包括:
对每个原始历史SMART信息进行数值化和归一化处理,得到各个第一历史SMART信息;
则,所述采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征的过程为:
采用随机森林算法对各个所述第一历史SMART信息进行特征选择,确定出各个重要特征。
3.根据权利要求2所述的云硬盘故障预测方法,其特征在于,在对所述对每个历史SMART信息进行数值化和归一化处理之前,还包括:
对每个原始历史SMART信息中存在缺失值的历史SMART信息进行缺失值填补处理,得到处理后的每个第二历史SMART信息;
则,所述对每个原始历史SMART信息进行数值化和归一化处理的过程为:
对每个所述第二历史SMART信息进行数值化和归一化处理。
4.根据权利要求3所述的云硬盘故障预测方法,其特征在于,所述对每个原始历史SMART信息中存在缺失值的历史SMART信息进行缺失值填补处理的过程为:
从每个所述原始历史SMART信息确定出存在缺失值的目标原始历史SMART信以及对应的目标特征;
根据与所述目标原始历史SMART信息对应的上一时刻的原始历史SMART信息以及下一时刻的原始历史SMART信息中与所述目标特征对应的特征值计算出所述目标原始历史SMART信息的目标特征的缺失值;
将所述缺失值作为所述目标原始历史SMART信息的目标特征的特征值进行填写。
5.根据权利要求2所述的云硬盘故障预测方法,其特征在于,在所述采用随机森林算法对各个所述第一历史SMART信息进行特征选择,确定出各个重要特征之后,还包括:
依据与每个所述第一历史SMART信息各自对应的状态等级,从各个所述第一历史SMART信息中确定出各个正常的第一历史SMART信息以及各个非正常的第一历史SMART信息;其中,所述各个非正常的第一历史SMART信息构成负样本集,所述非正常的第一历史SMART信息为负样本;
针对所述负样本集中的每个负样本,计算出所述负样本至其他每个负样本的欧氏距离,并依据各个所述欧氏距离确定出与所述负样本相关的各个临近负样本;
从与所述负样本对应的各个临近负样本中选择出预设数量的目标临近负样本;
依据所述负样本及与其对应的各个目标临近负样本构建出与每个所述目标临近负样本各自对应的新负样本;
将各个所述新负样本及各个正常的第一历史SMART信息构成的样本集作为新的SMART信息样本集;
则,采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型的过程为:
采用机器学习算法对所述新的SMART信息样本集进行训练,得到云硬盘故障预测模型。
6.根据权利要求5所述的云硬盘故障预测方法,其特征在于,所述依据所述负样本及与其对应的各个目标负样本构建出与每个所述目标负样本各自对应的新负样本的过程为:
根据计算关系式,计算出与每个所述目标负样本对应的新负样本;其中,表示第j个目标临近负样本,表示第j个新负样本,表示负样本。
7.根据权利要求1至6任意一项所述的云硬盘故障预测方法,其特征在于,所述采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型的过程为:
采用Xgboost算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型。
8.一种云硬盘故障预测装置,其特征在于,包括:
获取模块,用于获取当前时刻的SMART信息;
预测模块,用于采用预先建立的云硬盘故障预测模型对所述当前时刻的SMART信息进行分析,得到包含云硬盘状态等级的预测结果;其中,用于建立云硬盘故障预测模型的建立模块包括:
选择单元,用于采用随机森林算法对各个原始历史SMART信息进行特征选择,确定出各个重要特征;
筛选单元,用于将各个所述原始历史SMART信息中的各个所述重要特征保留,得到SMART信息样本集;
训练单元,用于采用机器学习算法对所述SMART信息样本集进行训练,得到云硬盘故障预测模型。
9.一种云硬盘故障预测系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述云硬盘故障预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述云硬盘故障预测方法的步骤。
CN202110962511.1A 2021-08-20 2021-08-20 一种云硬盘故障预测方法、装置、系统及可读存储介质 Pending CN113822336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110962511.1A CN113822336A (zh) 2021-08-20 2021-08-20 一种云硬盘故障预测方法、装置、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110962511.1A CN113822336A (zh) 2021-08-20 2021-08-20 一种云硬盘故障预测方法、装置、系统及可读存储介质

Publications (1)

Publication Number Publication Date
CN113822336A true CN113822336A (zh) 2021-12-21

Family

ID=78923025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110962511.1A Pending CN113822336A (zh) 2021-08-20 2021-08-20 一种云硬盘故障预测方法、装置、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN113822336A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904916A (zh) * 2023-02-08 2023-04-04 天翼云科技有限公司 一种硬盘故障预测的方法、装置、电子设备以及存储介质
CN117520104A (zh) * 2024-01-08 2024-02-06 中国民航大学 一种预测硬盘异常状态的系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904916A (zh) * 2023-02-08 2023-04-04 天翼云科技有限公司 一种硬盘故障预测的方法、装置、电子设备以及存储介质
CN117520104A (zh) * 2024-01-08 2024-02-06 中国民航大学 一种预测硬盘异常状态的系统
CN117520104B (zh) * 2024-01-08 2024-03-29 中国民航大学 一种预测硬盘异常状态的系统

Similar Documents

Publication Publication Date Title
CN111967502B (zh) 一种基于条件变分自编码器的网络入侵检测方法
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN109408389B (zh) 一种基于深度学习的代码缺陷检测方法及装置
CN108052528A (zh) 一种存储设备时序分类预警方法
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
CN111950660A (zh) 一种人工智能训练平台的告警预测方法及装置
CN113822336A (zh) 一种云硬盘故障预测方法、装置、系统及可读存储介质
CN116610469B (zh) 一种固态硬盘的综合质量性能测试方法及系统
CN117034143B (zh) 一种基于机器学习的分布式系统故障诊断方法及装置
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN111767162B (zh) 一种面向不同型号硬盘的故障预测方法及电子装置
CN111858265A (zh) 一种存储系统的存储故障预测方法、系统及装置
CN116306806A (zh) 故障诊断模型确定方法、装置及非易失性存储介质
CN113988044B (zh) 错题原因类别的判定方法
CN111461923A (zh) 一种基于深度卷积神经网络的窃电监测系统和方法
CN111091863A (zh) 一种存储设备故障检测方法及相关装置
CN114169460A (zh) 样本筛选方法、装置、计算机设备和存储介质
CN115729761B (zh) 一种硬盘故障预测方法、系统、设备及介质
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN113239075B (zh) 一种施工数据自检方法及系统
CN115333973A (zh) 设备异常检测方法、装置、计算机设备和存储介质
CN111816404B (zh) 一种消磁方法及系统
CN109657795B (zh) 一种基于属性选择的硬盘故障预测方法
CN109978038B (zh) 一种集群异常判定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination