CN112737834A - 一种云硬盘故障预测方法、装置、设备及存储介质 - Google Patents

一种云硬盘故障预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112737834A
CN112737834A CN202011566746.0A CN202011566746A CN112737834A CN 112737834 A CN112737834 A CN 112737834A CN 202011566746 A CN202011566746 A CN 202011566746A CN 112737834 A CN112737834 A CN 112737834A
Authority
CN
China
Prior art keywords
hard disk
cloud
cloud hard
disk
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011566746.0A
Other languages
English (en)
Inventor
杨勇
亓开元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN202011566746.0A priority Critical patent/CN112737834A/zh
Publication of CN112737834A publication Critical patent/CN112737834A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种云硬盘故障预测方法,包括:从云硬盘的SMART信息中采集特征数据;将特征数据输入预先训练的LSTM模型,通过LSTM模型对特征数据进行处理,得到云硬盘的故障预测结果;其中,故障预测结果包括:云硬盘属于每种故障状态的概率值。可见,在本方案中,通过预先训练的LSTM模型及SMART信息中的特征数据对云硬盘故障进行预测,能得到预测准确率更高的故障预测结果,并且将该故障预测结果提供给服务器机房运维工程师,可以在提升云硬盘故障判断的效率和准确率的基础上,进一步提高运维效率;本发明还公开了一种云硬盘故障预测装置、设备及存储介质,同样能得到上述技术效果。

Description

一种云硬盘故障预测方法、装置、设备及存储介质
技术领域
本发明涉及硬盘故障预测技术领域,更具体地说,涉及一种云硬盘故障预测方法、装置、设备及存储介质。
背景技术
云硬盘(Elastic Volume Service,EVS)可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,因此及时准确的预测云硬盘的故障程度是十分必要的,以便在云硬盘出现问题时及时更换。传统的预测方法,是通过机器学习算法对云硬盘的故障程度进行预测,但是通过该方式对云硬盘的故障程度进行预测,准确率低,预测效果差。因此,如何对云硬盘的故障进行准确预测,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种云硬盘故障预测方法、装置、设备及存储介质,以提高对云硬盘故障预测的准确率。
为实现上述目的,本发明提供一种云硬盘故障预测方法,包括:
从云硬盘的SMART信息中采集特征数据;
将所述特征数据输入预先训练的LSTM模型,通过所述LSTM模型对所述特征数据进行处理,得到所述云硬盘的故障预测结果;其中,所述故障预测结果包括:所述云硬盘属于每种故障状态的概率值。
其中,所述从云硬盘的SMART信息中采集特征数据,包括:
以预定时长为采集周期,从云硬盘的SMART信息中采集特征数据。
其中,所述特征数据包括:磁头状态信息、硬盘启动时间、磁盘坏区信息、磁头寻道错误率、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误、硬盘温度、读阻塞的扇区数、主轴电机频繁重启次数。
其中,所述云硬盘属于每种故障状态的概率值,包括:
所述云硬盘属于健康状态的第一概率值,所述云硬盘属于亚健康状态的第二概率值,所述云硬盘属于损坏状态的第三概率值。
其中,所述得到所述云硬盘的故障预测结果之后,还包括:
判断所述云硬盘属于损坏状态的第三概率值是否大于预定阈值;
若是,则生成云硬盘故障提醒信息。
其中,所述得到所述云硬盘的故障预测结果之后,还包括:
基于所述故障预测结果以及与所述云硬盘的基础信息,确定所述云硬盘的更换结果;所述更换结果为需要更换或者无需更换。
其中,所述基础信息包括以下信息中的至少一者:与所述云硬盘对应的服务器类型、上架年限、服务器健康程度、业务模块类型、硬盘性能参数。
为实现上述目的,本发明进一步提供一种云硬盘故障预测装置,包括:
数据采集模块,用于从云硬盘的SMART信息中采集特征数据;
故障预测模块,用于将所述特征数据输入预先训练的LSTM模型,通过所述LSTM模型对所述特征数据进行处理,得到所述云硬盘的故障预测结果;其中,所述故障预测结果包括:所述云硬盘属于每种故障状态的概率值。
为实现上述目的,本发明进一步提供一种电子设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述云硬盘故障预测方法的步骤。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述云硬盘故障预测方法的步骤。
通过以上方案可知,本发明实施例提供的一种云硬盘故障预测方法,包括:从云硬盘的SMART信息中采集特征数据;将特征数据输入预先训练的LSTM模型,通过LSTM模型对特征数据进行处理,得到云硬盘的故障预测结果;其中,故障预测结果包括:云硬盘属于每种故障状态的概率值。
可见,在本方案中,通过预先训练的LSTM模型及SMART信息中的特征数据对云硬盘故障进行预测,能得到预测准确率更高的故障预测结果,并且将该故障预测结果提供给服务器机房运维工程师,可以在提升云硬盘故障判断的效率和准确率的基础上,进一步提高运维效率。本发明还公开了一种云硬盘故障预测装置、设备及存储介质,同样能得到上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种云硬盘故障预测方法流程示意图;
图2为本发明实施例公开的一种LSTM模型的数据处理流程图;
图3为本发明实施例公开的另一种云硬盘故障预测方法流程图;
图4为本发明实施例公开的一种云硬盘故障预测装置结构示意图;
图5为本发明实施例公开的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种云硬盘故障预测方法、装置、设备及存储介质,以提高对云硬盘故障预测的准确率。
参见图1,为本发明实施例提供的一种云硬盘故障预测方法流程图;该云硬盘故障预测方法包括:
S101、从云硬盘的SMART信息中采集特征数据;
具体来说,本申请中的SMART信息为通过自我监测、分析及报告技术(Self-Monitoring Analysis and Reporting Technology)获取的磁盘数据。该特征数据为:以预定时长为采集周期,从云硬盘的SMART信息中采集的特征数据。例如:若采集周期为5天,在每隔5天便从SMART信息中采集特征数据。并且,该特征数据为从SMART信息中预先确定的不同特征的数据,可根据实际的需求设定所要采集的特征数据的类型。在本实施例中,从一百多个维度的SMART信息中提炼出和故障密切相关的12个特征作为基础数据,因此,在本方案中,该特征数据包括:磁头状态信息、硬盘启动时间、磁盘坏区信息、磁头寻道错误率、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误、硬盘温度、读阻塞的扇区数、主轴电机频繁重启次数中的至少一者。
需要说明的是,本方案在进行故障预测时,可从云硬盘的SMART中采集不同数量的特征数据作为输入LSTM模型的数据,该数量并不限定,选择的特征数据越多,预测准确率越高。并且,获取上述12维特征数据后,需要对特征数据进行预处理后再输入LSTM模型,该预处理操作具体可以为归一化处理等等。
S102、将特征数据输入预先训练的LSTM模型,通过LSTM模型对特征数据进行处理,得到云硬盘的故障预测结果;其中,故障预测结果包括:云硬盘属于每种故障状态的概率值。
其中,LSTM(Long Short-Term Memory,长短期记忆网络)模型是循环神经网络(Recurrent Neural Network,RNN)的变种,主要增加了长短记忆的功能。其每个时刻有3个输入,分别是当前时刻网络的输入值Xt、上一时刻LSTM的输出值h(t-1)、上一时刻的单元状态C(t-1),两个输出:当前时刻LSTM输出值ht、当前时刻的单元状态Ct。实现长短记忆功能的重要结构是3个门,2种记忆。3个门分别是输入门,遗忘门,输出门。两种记忆分别是长记忆、短记忆。在此,对LSTM模型的输入参数进行说明:
1、Inputs:输入的训练或测试数据,一般格式为[batch_size,max_time,embed_size],其中batch_size是输入的这批数据的数量,max_time是这批数据中序列的最长长度,embed_size表示嵌入特征向量的维度。
2、Sequence_length:是一个list,假设输入了三句话,且三句话的长度分别为5,10,25,那么sequence_lenght=[5,10,25]。
3、输出值元祖(outputs,states):
a)Outputs:outputs就是每个cell的一个输出;
b)States:states表示最终的状态,也就是序列中最后一个cell输出的状态。一般情况下states的形状为[batch_size,cell.output_size],但当输入的cell为BasicLSTMcell时,state的形状为[2,batch_size,cell.output_size],其中2也对应着LSTM中的cell state和hidden state。
在LSTM模型的训练过程,首先需要确定训练数据,在本实施例中,分别统计一个月内3种类型磁盘(健康、亚健康、损坏)其对应的每天的12个维度的SMART值,将该12个维度的SMART值作为训练数据,该训练数据具体为:磁头状态信息、硬盘启动时间、磁盘坏区信息、磁头寻道错误率、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误、硬盘温度、读阻塞的扇区数、主轴电机频繁重启次数。获取训练数据后,将每个维度特征做归一化处理,放入到LSTM模型进行训练,max_time时间步长为30,其单位为天。
需要说明的是,本方案之所以选择LSTM模型,是因为其在时间维度上有长短记忆的功能,符合数据按时间采集的逻辑。参见图2,为本发明实施例提供的一种LSTM模型的数据处理流程图,可见,LSTM模型的每个时刻有3个输入,分别是当前时刻网络的输入值Xt、上一时刻LSTM的输出值h(t-1)、上一时刻的单元状态C(t-1),每个样本的embeding维度为12,LSTM模型中的神经元个数选择128,LSTM模型最后一个cell输出的output的维度也为128,在LSTM上再加两层全连接,最终将结果输出为3维向量,与初始的3维label向量,做多分类的交叉熵损失函数计算,再通过梯度下降算法,优化损失函数,依据准确率和召回率的指标,来终止模型的训练,并最终确定LSTM模型及两个全连接神经网络中的参数。
通过上述方式确定模型结构及训练数据后,在训练过程中,可以通过参数调整来优化模型的效果,一般有如下6种方法:
1、当网络过拟合时,可以采用正则化与丢弃dropout以及BN层(batchnormalization),正则化中包含L1正则化和L2正则化。
2、当网络欠拟合时,可采用降低正则化;增加网络深度;增加神经元个数;增加训练集的数据量。
3、设置early stopping,根据验证集上的性能去评估何时应该提早停止。
4、尝试不同的优化算法,RMSProp、AdaGrad、momentum通常都是较好选择。
5、调整学习率,可以采用余弦退火或衰减学习率。
6、进行不同模型的融合。
需要说明的是,在机器学习中,一种模型可能需要包括多种步骤进行调优,每个步骤可能有多种参数和多种算法供用户选择,在对机器学习模型调优时,可根据上述步骤1~5不断调整各步骤的参数、算法,并确定最优的组合方式,并通过步骤6对上述确定的最优的组合方式进行融合,从而选择最合适的算法和参数,形成硬盘故障预测的LSTM模型。在确定最优的算法及参数时,是在LSTM模型输入训练数据和验证数据后,通过损失函数loss确定是否终止模型训练,若符合终止条件,则停止训练,并使用训练后的LSTM模型进行硬盘故障的预测。这种通过大量数据对LSTM模型训练,以及在训练过程中对LSTM模型的算法及参数调优的方式,可以进一步提高LSTM模型故障预测的准确率。
在本方案中,将12维特征数据输入LSTM模型后,可以输出三维向量,通过该三维向量即可得到三种分类结果,在本方案中,LSTM模型输出的故障预测结果包括:云硬盘属于健康状态的第一概率值,云硬盘属于亚健康状态的第二概率值,云硬盘属于损坏状态的第三概率值。例如:云硬盘属于健康状态的第一概率值为:10%,云硬盘属于亚健康状态的第二概率值为:30%,云硬盘属于损坏状态的第三概率值为:60%。并且,本方案得到云硬盘的故障预测结果之后,还可以判断云硬盘属于损坏状态的第三概率值是否大于预定阈值;若是,则说明云硬盘出现较大的故障,则生成云硬盘故障提醒信息,以便及时提醒维修人员检查维修。
综上所述,在本方案中,具体使用LSTM深度学习算法对openstack云计算框架下存储中的硬盘故障进行模型预测,该方式与传统机器学习算法相比,使用LSTM深度神经网络算法在模型的预测性能上有更好的结果,并且,由于本方案使用了更多的数据,以及LSTM网络结构天然适用时序数据,因而在预测准确率大幅提升。
参见图3,为本发明实施例提供的另一种云硬盘故障预测方法流程图;该云硬盘故障预测方法包括:
S201、从云硬盘的SMART信息中采集特征数据;
S202、将特征数据输入预先训练的LSTM模型,通过LSTM模型对特征数据进行处理,得到云硬盘的故障预测结果;其中,故障预测结果包括:云硬盘属于每种故障状态的概率值;
S203、基于故障预测结果以及与云硬盘的基础信息,确定云硬盘的更换结果;更换结果为需要更换或者无需更换。
其中,通过LSTM模型得到云硬盘的故障预测结果后,可了解云硬盘属于每种故障状态的概率值,如:云硬盘属于健康状态的第一概率值为:10%,云硬盘属于亚健康状态的第二概率值为:30%,云硬盘属于损坏状态的第三概率值为:60%。需要说明的是,若LSTM模型预测云硬盘的损坏概率为60%,但这并不能说明这块硬盘就一定损坏了,损坏概率为60%只能说明:结合之前的统计数据,这块硬盘很有可能已经出现问题了。但是在服务器生命周期中,硬盘性能的下降也是一个正常现象,有些时候并不需要特别处理,比如:对于已经做了RAID(Redundant Arrays of Independent Disks,磁盘阵列)的硬盘,对于承载非关键数据的服务器及使用年限已经很长的服务器的硬盘,有时候综合判断后也并不需要针对这类硬盘进行处理,
因此,在本实施例中,通过LSTM模型得到云硬盘的故障预测结果后,还可以将上述故障预测结果发送至运维同事,以便结合与云硬盘对应的服务器类型、上架年限、服务器健康程度、业务模块类型、硬盘性能参数中的至少一者,对云硬盘进一步分析,帮助运维同事选择损坏概率高的硬盘做进一步筛查,得到云硬盘的更换结果,该更换结果为需要更换或者无需更换;如:故障预测结果为损坏概率为60%,但是该云硬盘的上架年限已经很高,存在正常的性能损耗,在这种情况下,得到的云硬盘更换结果为:需要更换。
综上可见,本方案得到故障预测结果后,还可以结合云硬盘的其他维度特征的基础信息,快速判断硬盘的故障程度,以确定是否需要对该云硬盘进行更换处理,通过该方式,可以在提升云硬盘故障判断的效率和准确率的基础上,进一步提高运维效率。
下面对本发明实施例提供的云硬盘故障预测装置、设备及存储介质进行介绍,下文描述的云硬盘故障预测装置、设备及存储介质与上文描述的硬盘故障预测方法可以相互参照。
参见图4,本发明实施例提供的一种云硬盘故障预测装置结构示意图,包括:
数据采集模块100,用于从云硬盘的SMART信息中采集特征数据;
故障预测模块200,用于将特征数据输入预先训练的LSTM模型,通过LSTM模型对所述特征数据进行处理,得到所述云硬盘的故障预测结果;其中,所述故障预测结果包括:所述云硬盘属于每种故障状态的概率值。
其中,所述数据采集模块具体用于:以预定时长为采集周期,从云硬盘的SMART信息中采集特征数据。
其中,所述特征数据包括:磁头状态信息、硬盘启动时间、磁盘坏区信息、磁头寻道错误率、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误、硬盘温度、读阻塞的扇区数、主轴电机频繁重启次数。
其中,所述故障预测模块具体用于通过LSTM模型获取所述云硬盘属于健康状态的第一概率值,所述云硬盘属于亚健康状态的第二概率值,所述云硬盘属于损坏状态的第三概率值。
其中,所述装置还包括:
判断模块,用于判断所述云硬盘属于损坏状态的第三概率值是否大于预定阈值;
提醒模块,用于在所述第三概率值大于预定阈值时,生成云硬盘故障提醒信息。
其中,所述装置还包括:
更换结果确定模块,用于基于所述故障预测结果以及与所述云硬盘的基础信息,确定所述云硬盘的更换结果;该更换结果为需要更换或者无需更换。
其中,所述基础信息包括以下信息中的至少一者:与所述云硬盘对应的服务器类型、上架年限、服务器健康程度、业务模块类型、硬盘性能参数。
参见图5,为本发明实施例提供的一种电子设备结构示意图,包括:
存储器11,用于存储计算机程序;
处理器12,用于执行所述计算机程序时实现上述任意方法实施例所述的云硬盘故障预测方法的步骤。
在本实施例中,设备可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器11、处理器12和总线13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据,例如执行故障预测方法的程序代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行故障预测方法的程序代码等。
该总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口15,用户接口15可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口15还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有组件11-15的设备,本领域技术人员可以理解的是,图5示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的云硬盘故障预测方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种云硬盘故障预测方法,其特征在于,包括:
从云硬盘的SMART信息中采集特征数据;
将所述特征数据输入预先训练的LSTM模型,通过所述LSTM模型对所述特征数据进行处理,得到所述云硬盘的故障预测结果;其中,所述故障预测结果包括:所述云硬盘属于每种故障状态的概率值。
2.根据权利要求1所述的云硬盘故障预测方法,其特征在于,所述从云硬盘的SMART信息中采集特征数据,包括:
以预定时长为采集周期,从云硬盘的SMART信息中采集特征数据。
3.根据权利要求2所述的云硬盘故障预测方法,其特征在于,所述特征数据包括:磁头状态信息、硬盘启动时间、磁盘坏区信息、磁头寻道错误率、已分配坏块数、非安全下电次数、硬件重启次数、硬盘总工作时间、不可恢复错误、硬盘温度、读阻塞的扇区数、主轴电机频繁重启次数。
4.根据权利要求1所述的云硬盘故障预测方法,其特征在于,所述云硬盘属于每种故障状态的概率值,包括:
所述云硬盘属于健康状态的第一概率值,所述云硬盘属于亚健康状态的第二概率值,所述云硬盘属于损坏状态的第三概率值。
5.根据权利要求4所述的云硬盘故障预测方法,其特征在于,所述得到所述云硬盘的故障预测结果之后,还包括:
判断所述云硬盘属于损坏状态的第三概率值是否大于预定阈值;
若是,则生成云硬盘故障提醒信息。
6.根据权利要求1至5中任意一项所述的云硬盘故障预测方法,其特征在于,所述得到所述云硬盘的故障预测结果之后,还包括:
基于所述故障预测结果以及与所述云硬盘的基础信息,确定所述云硬盘的更换结果;所述更换结果为需要更换或者无需更换。
7.根据权利要求6所述的云硬盘故障预测方法,其特征在于,所述基础信息包括以下信息中的至少一者:与所述云硬盘对应的服务器类型、上架年限、服务器健康程度、业务模块类型、硬盘性能参数。
8.一种云硬盘故障预测装置,其特征在于,包括:
数据采集模块,用于从云硬盘的SMART信息中采集特征数据;
故障预测模块,用于将所述特征数据输入预先训练的LSTM模型,通过所述LSTM模型对所述特征数据进行处理,得到所述云硬盘的故障预测结果;其中,所述故障预测结果包括:所述云硬盘属于每种故障状态的概率值。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的云硬盘故障预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的云硬盘故障预测方法的步骤。
CN202011566746.0A 2020-12-25 2020-12-25 一种云硬盘故障预测方法、装置、设备及存储介质 Pending CN112737834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011566746.0A CN112737834A (zh) 2020-12-25 2020-12-25 一种云硬盘故障预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011566746.0A CN112737834A (zh) 2020-12-25 2020-12-25 一种云硬盘故障预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112737834A true CN112737834A (zh) 2021-04-30

Family

ID=75616487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011566746.0A Pending CN112737834A (zh) 2020-12-25 2020-12-25 一种云硬盘故障预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112737834A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485648A (zh) * 2021-07-14 2021-10-08 华能吉林发电有限公司 基于云平台的存储资源控制系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893231A (zh) * 2016-05-06 2016-08-24 思创数码科技股份有限公司 一种基于smart的预测硬盘亚健康指标的方法及装置
CN111091863A (zh) * 2019-11-29 2020-05-01 浪潮(北京)电子信息产业有限公司 一种存储设备故障检测方法及相关装置
WO2020114313A1 (zh) * 2018-12-05 2020-06-11 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质
CN111858265A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 一种存储系统的存储故障预测方法、系统及装置
CN111966569A (zh) * 2019-05-20 2020-11-20 中国电信股份有限公司 硬盘健康度评估方法和装置、计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893231A (zh) * 2016-05-06 2016-08-24 思创数码科技股份有限公司 一种基于smart的预测硬盘亚健康指标的方法及装置
WO2020114313A1 (zh) * 2018-12-05 2020-06-11 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质
CN111966569A (zh) * 2019-05-20 2020-11-20 中国电信股份有限公司 硬盘健康度评估方法和装置、计算机可读存储介质
CN111091863A (zh) * 2019-11-29 2020-05-01 浪潮(北京)电子信息产业有限公司 一种存储设备故障检测方法及相关装置
CN111858265A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 一种存储系统的存储故障预测方法、系统及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485648A (zh) * 2021-07-14 2021-10-08 华能吉林发电有限公司 基于云平台的存储资源控制系统

Similar Documents

Publication Publication Date Title
CN108052528B (zh) 一种存储设备时序分类预警方法
TWI510916B (zh) 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
WO2022089202A1 (zh) 故障识别模型训练方法、故障识别方法、装置及电子设备
CN115330275B (zh) 一种退役电池的梯次利用方法及装置
CN112306835B (zh) 用户数据监控分析方法、装置、设备及介质
CN114943321A (zh) 一种针对硬盘的故障预测方法、装置及设备
CN110674636B (zh) 一种用电行为分析方法
CN111950660A (zh) 一种人工智能训练平台的告警预测方法及装置
CN111881000A (zh) 一种故障预测方法、装置、设备及机器可读介质
CN110968564A (zh) 一种数据处理方法及数据状态预测模型的训练方法
CN117556331B (zh) 基于ai增强的空压机维护决策方法及系统
CN112737834A (zh) 一种云硬盘故障预测方法、装置、设备及存储介质
CN114528942A (zh) 工程机械的数据样本库的构建、故障预测方法及工程机械
CN111858108A (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN111651652B (zh) 基于人工智能的情感倾向识别方法、装置、设备及介质
WO2021115269A1 (zh) 用户集群的预测方法、装置、计算机设备和存储介质
CN112395167A (zh) 一种作业故障预测方法、装置及电子设备
CN113487316B (zh) 分布式支付系统安全处理方法及装置
CN113407859B (zh) 一种资源推荐方法、装置、电子设备及存储介质
CN112733897B (zh) 确定多维样本数据的异常原因的方法和设备
CN116662818B (zh) 异常换电用户识别方法、系统、设备和可读存储介质
CN117216650A (zh) 一种目标对象风险行为预警方法及相关设备
CN114493697A (zh) 农产品价格预测的方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430

RJ01 Rejection of invention patent application after publication