CN108647136B - 基于smart信息和深度学习的硬盘损坏预测方法及装置 - Google Patents

基于smart信息和深度学习的硬盘损坏预测方法及装置 Download PDF

Info

Publication number
CN108647136B
CN108647136B CN201810441294.XA CN201810441294A CN108647136B CN 108647136 B CN108647136 B CN 108647136B CN 201810441294 A CN201810441294 A CN 201810441294A CN 108647136 B CN108647136 B CN 108647136B
Authority
CN
China
Prior art keywords
data
neural network
hard disk
damaged
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810441294.XA
Other languages
English (en)
Other versions
CN108647136A (zh
Inventor
田海蓉
胡晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Daoshang Information Technology Co ltd
Original Assignee
Nanjing Daoshang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Daoshang Information Technology Co ltd filed Critical Nanjing Daoshang Information Technology Co ltd
Priority to CN201810441294.XA priority Critical patent/CN108647136B/zh
Publication of CN108647136A publication Critical patent/CN108647136A/zh
Application granted granted Critical
Publication of CN108647136B publication Critical patent/CN108647136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于SMART信息和深度学习的硬盘损坏预测方法及装置,该方法包括:收集不同硬盘在不同时间段的SMART信息作为原始样本数据,并从中选取静态数据和时间序列数据两类训练样本数据;对训练样本数据进行筛选,提取出与硬盘故障相关的有效参数集,并标注得到标注训练数据;分别构建至少一个神经网络模型对标注静态数据和标注时间序列数据进行深度学习,得到相应的优化模型参数的神经网络模型;根据设定的定时策略获取存储系统中硬盘的SMART信息数据,提取有效参数集输入神经网络模型预测硬盘是否即将损坏。本发明能够准确地在机械硬盘即将损坏之前及时发现,以便在硬盘失效之前及时更换,可大幅度提高数据中心的高可用性和数据安全性。

Description

基于SMART信息和深度学习的硬盘损坏预测方法及装置
技术领域
本发明涉及存储安全技术领域,特别是涉及一种基于硬盘SMART信息和深度学习的硬盘即将损坏的预测方法及装置。
背景技术
磁盘阵列或存储系统使用大量的机械硬盘,而机械硬盘(下面统称为硬盘)在整个存储系统中属于最容易受损的部件,尽管RAID技术可以有效应对硬盘损坏,但硬盘损坏仍然对系统的可靠性和高可用性带来巨大的影响。
硬盘的故障一般分为两种:可预测的(predictable)和不可预测的(unpredictable)。后者偶而会发生,也没有办法去预防它,例如芯片突然失效,机械撞击等。但像电机轴承磨损、盘片磁介质性能下降等都属于可预测的情况,可以在几天甚至几星期前就发现这种不正常的现象。如何能准确预测硬盘损坏,对存储系统的维护和安全起到关键性作用。
SMART,全称为“Self-Monitoring Analysis and Reporting Technology”,即“自我监测、分析及报告技术”,是一种自动的硬盘状态检测与预警系统和规范。通过在硬盘硬件内的检测指令对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较,若监控情况将或已超出预设安全值的安全范围,就可以通过主机的监控硬件或软件自动向用户作出警告。
SMART信号涉及硬盘工作及磨损状态数十种(超过30)参数,磁盘阵列厂家通常针对每个参数设定一个门阀值进行预警,这种方法虽然简单,但不能准确反映硬盘全局的健康状态,容易导致误报或不报,对磁盘阵列或存储系统的安全无法起到保护作用。
随着人工智能在计算机应用领域的发展,深度学习在各方面的应用越来越多,其效果较之传统算法也越来越显著。深度学习可以在提供大量可靠的数据情况下自动地学习模式的特征,并可以达到很好的分类精度。所以如何将使用人工智能深度学习方法有效应用到硬盘即将损坏的自动预测中是本发明的主要研究内容。
发明内容
发明目的:针对现有技术的不足,本发明目的在于提供一种基于硬盘SMART信息和深度学习的硬盘即将损坏的预测方法及装置,能够准确地在机械硬盘即将损坏之前及时发现,以便在硬盘失效之前及时更换,可大幅度提高数据中心的高可用性和数据安全性。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种基于SMART信息和深度学习的硬盘损坏预测方法,包括如下步骤:
(1)收集不同硬盘在不同时间段的SMART信息数据作为原始样本数据,并从中选取两类训练样本数据,包括静态数据和时间序列数据;所述静态数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间点的SMART信息数据,所述时间序列数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间段内的SMART信息数据序列;所述健康状态为距离损坏时间点的时间大于设定的即将损坏天数阈值,即将损坏状态为距离损坏时间点的时间小于设定的即将损坏天数阈值;
(2)对训练样本数据进行筛选,从SMART信息数据中提取与硬盘故障相关的有效参数集,并进行健康和即将损坏类别标注得到标注训练数据;
(3)分别构建至少一个神经网络模型对标注静态数据和标注时间序列数据进行深度学习,得到相应的优化模型参数的神经网络模型;
(4)根据设定的定时策略获取存储系统中硬盘的SMART信息数据,得到静态预测数据和时间序列预测数据,并提取出有效参数集作为步骤(3)得到的相应神经网络模型的输入,根据神经网络模型的输出结果进行综合判断,得到相应硬盘是否即将损坏的预测结果。
作为优选,步骤(2)中提取的与硬盘故障相关的有效参数集包括硬盘基本信息、寻道信息、计数信息和错误信息。
作为优选,步骤(3)中分别构建一个神经网络模型对标注静态数据进行深度学习,构建两个不同神经网络模型对标注时间序列数据进行深度学习;所构建的神经网络模型类型包括卷积神经网络模型CNN、循环神经网络模型RNN和长短期记忆网络模型LSTM中的一种或多种。
作为优选,步骤(4)中根据神经网络模型的输出结果进行综合判断,得到相应硬盘是否即将损坏的预测结果的方法为:
若根据用于预测静态数据的神经网络模型得到的结果是健康,则:若所有用于预测时间序列数据的神经网络模型得到的结果全是即将损坏,且预测的概率都大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏;
若根据用于预测静态数据的神经网络模型的输出结果判断是即将损坏,则:若存在一个用于预测时间序列数据的神经网络模型结果中为即将损坏,且其预测的概率大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏。
一种基于SMART信息和深度学习的硬盘损坏预测装置,包括:
样本收集模块,用于收集不同硬盘在不同时间段的SMART信息数据作为原始样本数据,并从中选取两类训练样本数据,包括静态数据和时间序列数据;所述静态数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间点的SMART信息数据,所述时间序列数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间段内的SMART信息数据序列;所述健康状态为距离损坏时间点的时间大于设定的即将损坏天数阈值,即将损坏状态为距离损坏时间点的时间小于设定的即将损坏天数阈值;
预处理模块,用于对训练样本数据进行筛选,从SMART信息数据中提取与硬盘故障相关的有效参数集,并进行健康和即将损坏类别标注得到标注训练数据;
训练模块,用于分别构建至少一个神经网络模型对标注静态数据和标注时间序列数据进行深度学习,得到相应的优化模型参数的神经网络模型;
以及,预测模块,用于根据设定的定时策略获取存储系统中硬盘的SMART信息数据,得到静态预测数据和时间序列预测数据,并提取出有效参数集作为训练模块得到的相应神经网络模型的输入,根据神经网络模型的输出结果进行综合判断,得到相应硬盘是否即将损坏的预测结果。
有益效果:本发明通过采集硬盘SMART信息从中提取出有效信息,结合深度学习的方法,可以提高硬盘损坏预测的准确度。采用某种定时策略,可以按天或按小时监控并获取存储系统中每个硬盘的SMART信息来进行预测,准确地在机械硬盘即将损坏之前及时发现,以便在硬盘失效之前及时更换,可大幅度提高数据中心的高可用性和数据安全性。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的装置结构示意图。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步说明。
如图1所示,本发明实施例公开的一种基于硬盘SMART信息和深度学习的硬盘损坏预测方法,主要包括如下步骤:
步骤一:收集样本数据。本发明主要依据硬盘SMART信息数据来预判硬盘是否即将损坏,所以在这一步需要收集不同硬盘在不同时间段(从健康到损坏)的SMART信息数据作为原始样本数据。SMART信号涉及硬盘工作及磨损状态数十种(超过30)参数,而磁盘阵列厂家也有很多种。为了减轻工作的复杂程度以及提高结果的准确度,本发明实施例中,我们主要选择HGST、Seagate和WestDigital三家厂商的机械硬盘来收集其对应的SMART信息。在实际应用中,我们主要使用的操作系统为Windows系统和Linux系统。在Windows系统中,可以使用DiskGenius、DiskSmartView等软件来查询硬盘SMART信息。在Linux系统中,可以用smartmontools工具来监控硬盘的健康状态,我们可以用它来收集SMART信息数据。本实施例以Linux系统(取centos系统)为例来收集SMART信息。具体操作步骤为:
(1)安装smartmontools工具
在centos系统终端使用命令yum-y install smartmontools就可以将smartmontools工具安装在centos系统上了。
(2)查看SMART信息
安装smartmontools工具以后,可以使用smartctl命令来查看SMART信息。以设备文件名/dev/sda(假设/dev/sda的硬盘为HGST)为例,在终端输入其命令如下:
smartctl-a/dev/sda
可以得到以下SMART信息:
Figure BDA0001656048930000041
Figure BDA0001656048930000051
在具体实施时,可以分别选择HGST、Seagate和WestDigital三家厂商的不同机械硬盘,收集每个机械硬盘在不同时间段的不同时间点的SMART信息数据,并从中选取静态数据和时间序列数据两类训练样本数据。对于静态数据,收集不同硬盘分别在健康状态(距离损坏时间点的时间大于设定的即将损坏天数阈值,如7天、15天等,可自行设定)下和即将损坏(距离损坏时间点的时间小于设定的即将损坏天数阈值,如7天、15天等,可自行设定)状态下的不同时间点的SMART信息数据。本例中分别取300个硬盘状态为健康的数据集,取200个硬盘状态为即将损坏的数据集。
对于时间序列的数据收集,需要对硬盘的SMART信息进行监控,每分钟记录一次直到硬盘损坏。时间序列SMART数据的样本也同样分类为两种,健康状态和即将损坏状态,小于7天(或者15天,为自行设置的阈值)即将损坏的为即将损坏状态,大于7天即将损坏的为健康状态。标记样本的方法如下:首先找到硬盘损坏对应的那天(如2018年4月27日),对于第一种(小于7天的),收集从2018年4月20日到2018年4月27日之间的SMART信息。以10分钟为例,即每组数据中的时间长度为10分钟,里面的数据为每隔1分钟收集一次的数据。我们对每个厂商的机械硬盘分别取300组数据。对于第二种(大于7天的),收集2018年4月20日之前的SMART信息。以10分钟为例,即每组数据中的时间长度为10分钟,里面的数据为每隔1分钟收集一次的数据。我们对每个厂商的机械硬盘分别取300组数据。上述选取的两类样本数据总量实际操作时可根据试验条件和识别效果合理选取。
步骤二:预处理样本数据。由步骤一得到的原始SMART信息我们发现,SMART信息包括磁盘运行过程中的各种状态参数,如型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。有些数据跟硬盘是否损坏完全没有关系,所以在这一步首先需要对SMART信息进行筛选,从中提取出与硬盘故障相关的有效信息,如上面示例中的Current DriveTemperature、Drive Trip Temperature、Specified cycle count over devicelifetime、Accumulated start-stop cycles、Error counter log等,当然,有效信息不止这几个参数,通常包括硬盘基本信息(如型号、容量、温度、扇区等)、寻道信息(寻道时间、寻道性能等)、计数信息(启动/停止计数、通电时间累计、磁盘通电次数、重定位磁区计数、电机起转重试、磁头校准重试、重定位事件计数、等候重定位的扇区计数、无法校正的扇区计数、ECC错误计数等)和错误信息(底层数据读取错误率、终端校验出错、逻辑读取错误率、写入错误率等)。实际操作时可从上述下参数项中选取,也可根据分类识别效果进行取舍。筛选出SMART信息的有效参数集后进行标注,产生两个大类的标注训练数据。一类是静态数据,标注为健康和即将损坏,即对每个硬盘,采用某个时间节点的SMART参数集,并标注在对应的时刻该硬盘是健康还是即将损坏。另一类是时间序列SMART数据,也同样是根据硬盘损坏的时间点来标记某时间段内的序列数据是健康还是即将损坏。
步骤三:深度学习。使用人工智能神经网络模型如CNN,RNN,LSTM等对步骤二产生的两大类标注数据分别进行深度学习训练,进而得到一个或多个训练模型。这些训练模型能够根据某个硬盘SMART数据,来判断该硬盘是否即将损坏。本实施例中构建一个卷积神经网络模型CNN(模型1)对静态数据进行深度学习,构建一个循环神经网络模型RNN(模型2)和长短期记忆网络模型LSTM(模型3)分别对时间序列数据进行深度学习。所采用的神经网络模型输入为有效参数集构成的词向量,向量维度为参数集的项数,输出对应为所标注的类别。网络模型均是现有成熟技术,此处不再赘述。下面对本例中使用的神经网络模型的结构和配置做简要说明,但本领域技术人员可以理解的是,本发明的技术方案不局限于该具体的模型结构和参数,也不局限于具体的神经网络类型,能够基于训练数据集进行自主学习和分类的网络模型均适用于本发明,在具体实施时,可以根据实际数据情况根据预测结果进行选择与调整。
本例中的CNN包括依次相连的输入层、卷积层C1、采样层S2、卷积层C3、采样层S4、卷积层C5和输出层,其中,输入层到C1、S4到C5、C5到输出层都是全连接,C1到S2、C3到S4是一一对应的连接,为了消除网络的对称性,S2到C3去掉了一部分连接。在CNN的输入层中,词向量维度为有效参数集大小,相对应20个SMART有效信息。输出结果为健康和即将损坏,类别数为2。每个卷积层中设置128个5*5的卷积核。设置参数dropout为0.5,学习率为1e-3,每批训练大小为64,迭代次数为100。在训练的过程中,不断调整参数,使效果达到最佳,进而得到最佳模型。
本例中RNN输入层输入词向量维度为有效参数集大小,每组数据的时间长度为10分钟,每隔1分钟收集一次的数据,所以输入序列为U10={u1,u2,……u10}。输出结果为健康和即将损坏两种情况的分类,类别数为2。训练时设置参数学习率为0.001,每批训练大小为128,迭代次数为100,隐藏层单元数目为2000。在训练的过程中,不断调整参数,使效果达到最佳,进而得到最佳模型。
本例中LSTM的输入同RNN一样,将输入重构为LSTM预期的3D格式,即[样本,时间步长,特征]。输出结果为健康和即将损坏两种情况的分类,设置类别数为2。使用[1,50,100,1]的网络结构,设置参数LSTM的层数为2,第一层具有50个神经元,第二层具有100个神经元,将输入层输入具有50个神经元的LSTM层,然后将其反馈送到另一个LSTM层(100个神经元),然后以具有线性激活函数功能的1个神经元的完全连接的正常层进行馈送,用于给出下一个时间步长的预测。训练时设置参数学习率为0.0001,每批训练大小为128,迭代次数为100,在训练的过程中,不断调整参数,使效果达到最佳,进而得到最佳模型。
步骤四:预测硬盘是否即将损坏。采用某种定时策略,按天或按小时,监控并获取存储系统中每个硬盘的SMART信息(参数集),将有效参数集作为训练得到的深度学习模型的输入,从而得到该硬盘是否即将损坏的预测。以每6小时(可自行设定)为例,使用smartmontools工具监控存储系统中的硬盘,获取当时的SMART信息,得到静态预测数据和时间序列预测数据,提取出有效信息作为上面训练得到的深度学习模型(模型1、模型2和模型3)的输入,根据各模型的输出结果进行综合判断从而得到该硬盘是否即将损坏的预测结果。如果预测结果是即将损坏那么我们需要及时替换即将损坏的硬盘,保护硬盘数据不受影响,从而提高系统的可靠性和高可用性。综合判断规则为:
若根据用于预测静态数据的神经网络模型得到的结果是健康,则:若所有用于预测时间序列数据的神经网络模型得到的结果全是即将损坏,且预测的概率都大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏;
若根据用于预测静态数据的神经网络模型的输出结果判断是即将损坏,则:若存在一个用于预测时间序列数据的神经网络模型结果中为即将损坏,且其预测的概率大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏。
例如,对于本例中的3个模型,最终结果的判断可参考如下规则:
设模型1、模型2和模型3的预测结果分别是(R1,P1),(S1,SP1),(S2,SP2),其中R为健康或者即将损坏,P为预测的概率;S为健康或者即将损坏,SP为预测的概率。这三个结果的选取如下:首先看模型1的结果,根据模型1结果的情况做一下分析。
(一)模型1的结果是健康的情况:
(1)如果模型2与模型3的S都是健康,我们取结果为不会即将损坏。
(2)如果模型2与模型3的S都是即将损坏,如果SP1和SP2都大于90%(可设置),我们取结果为会即将损坏;如果SP1和SP2都不大于90%(可设置),我们取结果为不会即将损坏。如果SP1和SP2一个大于90%(可设置),一个小于90%(可设置),我们取结果为不会即将损坏。
(3)如果模型2与模型3中有一个为健康,有一个为即将损坏,我们取结果为不会即将损坏。
(二)模型1的结果是即将损坏的情况:
(1)如果模型2与模型3的S都是健康,我们取结果为不会即将损坏。
(2)如果模型2与模型3的S都是即将损坏,我们取结果为会即将损坏。
(3)如果模型2与模型3中有一个为健康,有一个为即将损坏,当其中为即将损坏的预测概率SP大于90%(可设置),我们取结果为会即将损坏,其他情况为不会即将损坏。
如附图2所示,本发明实施例公开的一种基于SMART信息和深度学习的硬盘损坏预测装置主要包括样本收集模块、预处理模块、训练模块和预测模块。其中样本收集模块,用于收集不同硬盘在不同时间段的SMART信息数据作为原始样本数据,并从中选取静态数据和时间序列数据两类训练样本数据;预处理模块,用于对训练样本数据进行筛选,从SMART信息数据中提取与硬盘故障相关的有效参数集,并进行标注得到标注训练数据;训练模块,用于分别构建至少一个神经网络模型对标注静态数据和标注时间序列数据进行深度学习,得到相应的优化模型参数的神经网络模型;本例中,采用CNN对标注静态数据进行深度学习,分别采用RNN和LSTM对标注时间序列数据进行深度学习;预测模块,用于根据设定的定时策略获取存储系统中硬盘的SMART信息数据,输入到识别模块进行预测,识别模块提取出待预测的SMART信息中的有效参数集作为训练模块得到的相应神经网络模型(模型1、模型2、模型3)的输入,根据神经网络模型的输出结果进行综合判断,得到相应硬盘是否即将损坏的预测结果。
上述装置实施例可以用于执行上述方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

Claims (4)

1.一种基于SMART信息和深度学习的硬盘损坏预测方法,其特征在于,包括如下步骤:
(1)收集不同硬盘在不同时间段的SMART信息数据作为原始样本数据,并从中选取两类训练样本数据,包括静态数据和时间序列数据;所述静态数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间点的SMART信息数据,所述时间序列数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间段内的SMART信息数据序列;所述健康状态为距离损坏时间点的时间大于设定的即将损坏天数阈值,即将损坏状态为距离损坏时间点的时间小于设定的即将损坏天数阈值;
(2)对训练样本数据进行筛选,从SMART信息数据中提取与硬盘故障相关的有效参数集,并进行健康和即将损坏类别标注得到标注训练数据;
(3)构建至少一个神经网络模型对标注静态数据进行深度学习,以及构建至少两个神经网络模型对标注时间序列数据进行深度学习,得到相应的优化模型参数的神经网络模型;
(4)根据设定的定时策略获取存储系统中硬盘的SMART信息数据,得到静态预测数据和时间序列预测数据,并提取出有效参数集作为步骤(3)得到的相应神经网络模型的输入,根据神经网络模型的输出结果进行综合判断,得到相应硬盘是否即将损坏的预测结果;具体判断方法为:
若根据用于预测静态数据的神经网络模型得到的结果是健康,则:若所有用于预测时间序列数据的神经网络模型得到的结果全是即将损坏,且预测的概率都大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏;
若根据用于预测静态数据的神经网络模型的输出结果判断是即将损坏,则:若存在一个用于预测时间序列数据的神经网络模型结果中为即将损坏,且其预测的概率大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏。
2.根据权利要求1所述的基于SMART信息和深度学习的硬盘损坏预测方法,其特征在于,步骤(2)中提取的与硬盘故障相关的有效参数集包括硬盘基本信息、寻道信息、计数信息和错误信息。
3.根据权利要求1所述的基于SMART信息和深度学习的硬盘损坏预测方法,其特征在于,步骤(3)中分别构建一个神经网络模型对标注静态数据进行深度学习,构建两个不同神经网络模型对标注时间序列数据进行深度学习;所构建的神经网络模型类型包括卷积神经网络模型CNN、循环神经网络模型RNN和长短期记忆网络模型LSTM中的一种或多种。
4.一种基于SMART信息和深度学习的硬盘损坏预测装置,其特征在于,包括:
样本收集模块,用于收集不同硬盘在不同时间段的SMART信息数据作为原始样本数据,并从中选取两类训练样本数据,包括静态数据和时间序列数据;所述静态数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间点的SMART信息数据,所述时间序列数据包括不同硬盘分别在健康状态下和即将损坏状态下的不同采集时间段内的SMART信息数据序列;所述健康状态为距离损坏时间点的时间大于设定的即将损坏天数阈值,即将损坏状态为距离损坏时间点的时间小于设定的即将损坏天数阈值;
预处理模块,用于对训练样本数据进行筛选,从SMART信息数据中提取与硬盘故障相关的有效参数集,并进行健康和即将损坏类别标注得到标注训练数据;
训练模块,用于构建至少一个神经网络模型对标注静态数据进行深度学习,以及构建至少两个神经网络模型对标注时间序列数据进行深度学习,得到相应的优化模型参数的神经网络模型;
以及,预测模块,用于根据设定的定时策略获取存储系统中硬盘的SMART信息数据,得到静态预测数据和时间序列预测数据,并提取出有效参数集作为训练模块得到的相应神经网络模型的输入,根据神经网络模型的输出结果进行综合判断,得到相应硬盘是否即将损坏的预测结果;具体判断方法为:
若根据用于预测静态数据的神经网络模型得到的结果是健康,则:若所有用于预测时间序列数据的神经网络模型得到的结果全是即将损坏,且预测的概率都大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏;
若根据用于预测静态数据的神经网络模型的输出结果判断是即将损坏,则:若存在一个用于预测时间序列数据的神经网络模型结果中为即将损坏,且其预测的概率大于设定的阈值,则认为即将损坏,其它情况认为不会即将损坏。
CN201810441294.XA 2018-05-10 2018-05-10 基于smart信息和深度学习的硬盘损坏预测方法及装置 Active CN108647136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810441294.XA CN108647136B (zh) 2018-05-10 2018-05-10 基于smart信息和深度学习的硬盘损坏预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810441294.XA CN108647136B (zh) 2018-05-10 2018-05-10 基于smart信息和深度学习的硬盘损坏预测方法及装置

Publications (2)

Publication Number Publication Date
CN108647136A CN108647136A (zh) 2018-10-12
CN108647136B true CN108647136B (zh) 2021-05-04

Family

ID=63754045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810441294.XA Active CN108647136B (zh) 2018-05-10 2018-05-10 基于smart信息和深度学习的硬盘损坏预测方法及装置

Country Status (1)

Country Link
CN (1) CN108647136B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828869B (zh) * 2018-12-05 2020-12-04 南京中兴软件有限责任公司 预测硬盘故障发生时间的方法、装置及存储介质
CN109857607A (zh) * 2018-12-24 2019-06-07 北京大学 一种NAND Flash固态硬盘的可靠性检测方法及装置
CN110119344B (zh) * 2019-04-10 2023-09-01 深圳市科新精密电子有限公司 基于s.m.a.r.t参数的硬盘健康状态分析方法
CN110175100B (zh) * 2019-04-17 2020-05-19 华中科技大学 一种存储盘故障预测方法及预测系统
CN111966569A (zh) * 2019-05-20 2020-11-20 中国电信股份有限公司 硬盘健康度评估方法和装置、计算机可读存储介质
CN110427311B (zh) * 2019-06-26 2020-07-28 华中科技大学 基于时序特征处理与模型优化的磁盘故障预测方法和系统
CN110471820B (zh) * 2019-08-05 2023-01-17 南开大学 一种基于循环神经网络的云存储系统磁盘故障预测方法
CN111091863A (zh) * 2019-11-29 2020-05-01 浪潮(北京)电子信息产业有限公司 一种存储设备故障检测方法及相关装置
CN111078440B (zh) * 2019-12-06 2022-03-08 腾讯科技(深圳)有限公司 一种磁盘错误检测方法、装置及存储介质
CN111008119A (zh) * 2019-12-13 2020-04-14 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN111324304A (zh) * 2020-02-14 2020-06-23 西安奥卡云数据科技有限公司 一种基于ssd硬盘寿命预测的数据保护方法及装置
CN111858265A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 一种存储系统的存储故障预测方法、系统及装置
CN111858283A (zh) * 2020-07-24 2020-10-30 山东海量信息技术研究院 一种边缘数据中心的硬盘故障预处理方法及相关组件
CN112003735B (zh) * 2020-07-28 2021-11-09 四川大学 一种感知风险的深度学习驱动的极限传输容量调整方法
CN113392739B (zh) * 2021-06-02 2022-09-30 中南民族大学 滚动轴承状态的监测方法、装置、设备及存储介质
CN113553222B (zh) * 2021-06-21 2022-05-13 长沙证通云计算有限公司 一种存储硬盘检测预警方法及系统
CN113608830A (zh) * 2021-07-13 2021-11-05 全球能源互联网研究院有限公司 基于故障预测的vnf迁移方法及装置
TWI818463B (zh) * 2022-03-09 2023-10-11 英業達股份有限公司 硬碟效能問題分類模型的建立方法、硬碟效能問題分析方法及硬碟效能問題分類模型建立系統
CN115793990B (zh) * 2023-02-06 2023-06-23 天翼云科技有限公司 存储器健康状态确定方法、装置、电子设备及存储介质
CN116701150B (zh) * 2023-06-19 2024-01-16 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068901A (zh) * 2015-07-27 2015-11-18 浪潮电子信息产业股份有限公司 一种磁盘检测的方法
WO2017129032A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN107479836A (zh) * 2017-08-29 2017-12-15 郑州云海信息技术有限公司 磁盘故障监控方法、装置以及存储系统
CN107766191A (zh) * 2017-11-03 2018-03-06 郑州云海信息技术有限公司 Linux 系统的自动巡检存储信息及健康状态的测试方法
EP3306475A2 (en) * 2016-09-16 2018-04-11 NetScout Systems Texas, Inc. System and method for predicting disk failure

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068901A (zh) * 2015-07-27 2015-11-18 浪潮电子信息产业股份有限公司 一种磁盘检测的方法
WO2017129032A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107025153A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
EP3306475A2 (en) * 2016-09-16 2018-04-11 NetScout Systems Texas, Inc. System and method for predicting disk failure
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN107479836A (zh) * 2017-08-29 2017-12-15 郑州云海信息技术有限公司 磁盘故障监控方法、装置以及存储系统
CN107766191A (zh) * 2017-11-03 2018-03-06 郑州云海信息技术有限公司 Linux 系统的自动巡检存储信息及健康状态的测试方法

Also Published As

Publication number Publication date
CN108647136A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN108052528B (zh) 一种存储设备时序分类预警方法
CN109739739B (zh) 磁盘故障的预测方法、设备及存储介质
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
WO2021238258A1 (zh) 一种磁盘故障预测方法和系统
US9396061B1 (en) Automated repair of storage system components via data analytics
CN108460397B (zh) 设备故障类型的分析方法、装置、储存介质和电子设备
CN111984511B (zh) 一种基于二分类的多模型磁盘故障预测方法和系统
CN111459692B (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
CN111813585A (zh) 慢盘的预测和处理
CN113762344A (zh) 机床主轴的故障识别方法、故障识别模型训练方法及装置
CN112951311A (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
CN114758714A (zh) 一种硬盘故障预测方法、装置、电子设备及存储介质
CN111061581B (zh) 一种故障检测方法、装置及设备
CN111091863A (zh) 一种存储设备故障检测方法及相关装置
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN111858108A (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
EP3072046B1 (en) Latency tolerant fault isolation
US10776240B2 (en) Non-intrusive performance monitor and service engine
Berenji et al. Dynamic case based reasoning in fault diagnosis and prognosis
CN113539352A (zh) 一种固态硬盘隐性故障检测方法及相关设备
CN115982622B (zh) 核反应堆冷却剂系统运行瞬态快速识别方法、装置及系统
Svendsen Online failure prediction in UNIX systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant