CN109828869B - 预测硬盘故障发生时间的方法、装置及存储介质 - Google Patents
预测硬盘故障发生时间的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109828869B CN109828869B CN201811484874.3A CN201811484874A CN109828869B CN 109828869 B CN109828869 B CN 109828869B CN 201811484874 A CN201811484874 A CN 201811484874A CN 109828869 B CN109828869 B CN 109828869B
- Authority
- CN
- China
- Prior art keywords
- hard disk
- data
- training
- data set
- state data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/36—Monitoring, i.e. supervising the progress of recording or reproducing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1076—Parity data used in redundant arrays of independent storages, e.g. in RAID systems
- G06F11/1092—Rebuilding, e.g. when physically replacing a failing disk
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/076—Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1008—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
- G06F11/1048—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本公开提供一种预测硬盘故障发生时间的方法、装置及存储介质,用以解决相关技术无法对硬盘发生故障的时间进行预测的问题。该方法包括:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率。本公开能够对硬盘发生故障的时间进行预测。
Description
技术领域
本公开涉及计算机技术领域,特别是涉及一种预测硬盘故障发生时间的方法、装置及存储介质。
背景技术
据国内外统计资料显示,硬盘是当前数据中心最主要的故障源。相关报告中指出:“在一个拥有4000个节点的数据中心,平均每6小时就会有一个硬盘发生故障”。硬盘故障如此频繁的发生势必会导致业务中断以及数据丢失等严重后果。如果能提前预测到硬盘故障的发生,将对数据中心的运营带来极大地便利。目前,相关技术中的硬盘故障预测技术在一味追求提升检出率的情况下,导致误检率偏高,因此很多健康硬盘会被误判为故障硬盘。且相关硬盘故障预测技术仅能预测硬盘是否会发生故障,而无法预测故障可能发生的时间,导致预测的故障距离真正故障时间较长(短则一两周,长则一两个月),因此浪费硬盘生命周期,无法有效指导换盘。且在对硬盘的故障进行预测时受限于处理数据体量大、处理器处理能力有限等原因,导致需要较长的时间才能得出预测结果(短则十几分钟,长则数小时),因此硬盘故障预测效率较低。
发明内容
本公开提供一种硬盘故障发生时间的预测方法、装置及存储介质,用以解决相关技术中无法对硬盘发生故障的时间进行预测的问题。
根据本公开的一个方面,提供了一种硬盘故障发生时间的预测方法,包括:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
可选地,根据采集到的各硬盘的各项状态数据确定各硬盘中濒临故障的硬盘,包括:将采集到的所述各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘。
可选地,所述状态数据包括:硬盘的SMART信息和/或硬盘的读/写I/O信息。
可选地,所述SMART信息包括以下至少一项:硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件错误检查和纠正ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;所述I/O信息至少包括:写入块数。
可选地,所述方法还包括:在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。
可选地,所述方法还包括:使用新采集到的各硬盘的状态数据更新所述原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第三预设时间段内采集到的所述状态数据。
根据本公开的第二个方面,提供了一种预测硬盘故障发生时间的装置,包括:筛选模块,用于根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算模块,用于计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;输入模块,用于将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
可选地,所述筛选模块包括:输入单元,用于将采集到的所述各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;确定单元,用于将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘。
可选地,所述状态数据包括:硬盘的SMART信息和/或硬盘的读/写I/O信息。
可选地,所述SMART信息包括以下至少一项:硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件错误检查和纠正ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;所述I/O信息至少包括:写入块数。
可选地,所述装置还包括:合并模块,用于在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;第一标记模块,用于将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。
可选地,所述装置还包括:更新模块,用于使用新采集到的各硬盘的状态数据更新所述原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第二预设时间段内采集到的所述状态数据。
根据本公开的第三个方面,提供了一种预测硬盘故障发生时间的装置,包括:处理器;用于存储处理器可执行指令的存储器;当所述指令被处理器执行时,执行如下操作:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
根据本公开的第四个方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行根据本公开第一个方面所述的方法。
本发明有益效果如下:
本公开实施例的预测硬盘故障发生时间的方法,将基于第一预设时间段内采集到的濒临故障的硬盘的各项状态数据计算得到各条状态数据的变化量以及离散量,从而得到第一预测数据集,将该第一预测数据集输入第一训练模块可也测出各硬盘在未来的第二预设时间段内发生故障的概率,从而实现了预测硬盘发生故障的时间的目的。
附图说明
图1是根据一示例性实施例示出的一种预测硬盘故障发生时间的方法的流程图;
图2是根据一示例性实施例示出的一种预测硬盘故障发生时间的方法的流程图;
图3是根据一示例性实施例示出的一种预测硬盘故障发生时间的方法的流程图;
图4是根据一示例性实施例示出的一种预测硬盘故障发生时间的装置的框图;
图5是根据一示例性实施例示出的一种预测硬盘故障发生时间的装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1是根据一示例性实施例示出的一种预测硬盘故障发生时间的方法的流程图,如图1所示,该方法包括如下步骤:
步骤101:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;
在本公开的预测硬盘故障发生时间的方法的一个示例性实施场景中,该方法可应用于对数据中心的大量硬盘进行故障预测,硬盘例如可以是SATA(Serial AdvancedTechnology Attachment,串行ATA接口规范)接口的硬盘。在上述步骤101中,可以以固定的时间间隔N采集数据中心的所有硬盘的状态数据,N的取值可以为3小时,用来采集硬盘状态数据的采集工具可以是开源工具包smartmontools、指令iostat中的一种。可将一段连续时间M内的采集的硬盘的状态数据作为原始数据集,M的取值例如是60天。假设数据中心共有g块硬盘,那么原始数据集共计g*M/N条样本数据(以下也简称样本)。在本公开的预测硬盘故障发生时间的方法中,采集各硬盘的状态数据的操作可持续地进行,以提供最新的样本。
举例说明,假设数据中心共有20000块硬盘,根据一段时间内采集到的该20000块硬盘的各项状态数据确定出濒临故障的硬盘有20块,故从20000块硬盘中筛选出了濒临故障的该20块硬盘,则可仅对该20块硬盘进行故障时间的预测,即在执行了上述步骤101之后,可仅针对步骤101中筛选出的濒临故障的硬盘执行后续步骤102以及步骤103,减少了需进行故障时间预测的硬盘的个数,降低了需处理的数据量,显著提高了对硬盘故障时间的预测的效率。
在一种可实现方式中,硬盘的状态数据可包括:硬盘的SMART(Self-MonitoringAnalysis and Reporting Technology,自我监测、分析及报告技术)信息和/或硬盘的I/O(Input/Output,输入/输出)信息。其中,所述SMART信息包括以下至少一项:硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件ECC(Error Correcting Code,错误检查和纠正)修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;所述I/O信息至少包括:写入块数(blk_written)。例如,硬盘的SMART信息可至少包括以下3个条目的NORMAL值:#5(Reallocated Sector Count,硬盘重映射的扇区个数)、#187(Reported Uncorrectable Errors,硬件不可修复的错误计数)以及#195(Hardware ECCRecovered,硬件ECC修复的错误计数)。又例如,硬盘的SMART信息可以下6个条目的NORMAL值:#1(Raw Read Error Rate,原始读出错率)、#5(Reallocated Sector Count,硬盘重映射的扇区个数)、#7(Seek Error Rate,磁头寻道出错率)、#187(Reported UncorrectableErrors,硬件不可修复的错误计数)、#189(High Fly Write,磁头离盘片过高导致写失败的次数)以及#195(Hardware ECC Recovered,硬件ECC修复的错误计数),再加上I/O信息的一个条目,硬盘的状态数据可共有7个条目。
步骤102:计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;
上述第一预设时间段的例如7天,在步骤102中,例如,可以仅获取最近7天内采集到的数据中心的各硬盘的各项状态数据。
其中,第一预测数据集中可包括硬盘的多种的状态数据(例如上述7个条目对应的7种状态数据),每种状态数据分别包括在第一预设时间段内不同的时间采集到的多条数据;第一预测数据集中也可仅包括硬盘的一种状态数据,该种情况下,在步骤102中,可直接计算在第一预设时间段内采集到的濒临故障的硬盘的该种状态数据中各条数据的变化量以及离散量。
上述离散量可以体现硬盘的一条状态数据与总体均数之间的差异,该离散量可以为方差或标准差,变化量可体现硬盘的一条状态数据在第一预设时间段内的变化程度。
步骤103:将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
其中,第一预设时间段可大于第二预设时间段,或者二者也可相等。
其中,可将硬盘在发生故障之前的一个时间段之内的状态数据确定为故障硬盘对应的数据;将硬盘在发生故障之前的一个时间段之外的状态数据确定为非故障硬盘对应的数据,或者直接删除该部分数据;将未发生故障的硬盘的状态数据确定为非故障硬盘对应的数据。
其中,上述第一人工智能算法可包括:逻辑回归算法、人工神经网络算法、随机森林算法中的任意一种算法,例如可选择逻辑回归算法对第一训练数据集进行训练,得到第一训练模型。
本公开实施例的预测硬盘故障发生时间的方法,将基于第一预设时间段内采集到的濒临故障的硬盘的各项状态数据计算得到各条状态数据的变化量以及离散量,从而得到第一预测数据集,将该第一预测数据集输入第一训练模块可也测出各硬盘在未来的第二预设时间段内发生故障的概率,从而实现了预测硬盘发生故障的时间的目的。
在一个例子中,在存在濒临故障硬盘的情况时,可触发执行上述步骤102以及步骤103,假设存在濒临故障的硬盘为h块,h≤g。将该h个硬盘在最近7天(为上述第一预设时间段的一个示例)的样本进行合并,得到h个样本,每个样本有7个条目,将各硬盘的最近7天的样本中每个条目分别求方差(为上述离散量的一个示例)和变化量,则每个样本有14个条目,将计算得到的该方差以及变化量作为第一预测数据集,逐一将该h个样本对应的方差以及变化量输入预先训练得到的第一训练模型,可逐一得到各硬盘在未来7天发生故障的概率。
其中,对h块濒临故障的硬盘,逐一进行故障时间预测的过程可包括:
{对于第1块濒临故障硬盘,将该硬盘对应的方差以及变化量输入第一训练模型,得出其在未来7天发生故障的概率为p_1。
……(以此类推,不再赘述)
对于第h块濒临故障硬盘,将该硬盘对应的方差以及变化量输入第一训练模型,得出其在未来7天发生故障的概率为p_h。
综合上述过程得到的硬盘在未来七天发生故障的概率结果,如果得出某硬盘在未来7天发生故障的概率大于第一阈值,该第一阈值的取值范围可以是50%-90%,例如该第一阈值为80%,则认为该硬盘将在未来7天发生故障,可将该硬盘加入换盘告警列表。运维人员可根据该换盘告警列表进行换盘处理操作。换盘处理操作可逐一进行,例如,按照硬盘故障概率由高至低的顺序进行换盘。在进行换盘处理操作时,可将故障硬盘中的数据全部拷贝至新加入的硬盘,使得系统硬盘的个数保持不变。
在一种可实现方式中,其中,可以使用以下任一公式求上述变化量:
由于硬盘是在其使用过程中逐渐发生恶化的,因此,仅将一次采集的一个硬盘的状态数据作为一个样本来预测硬盘故障,会忽略硬盘使用过程中逐渐恶化的因素。故本发明实施例的方法可基于一段时间内(即上述第一预设时间段)采集到的多条样本来预测硬盘发生故障的时间。例如,在硬盘逐渐恶化的过程中,发现硬盘#187是剧烈震荡的,那么可将最近一段时间,例如最近14天(为上述第一预设时间段的一个示例)内硬盘#187的所有样本抽出,合并为一个样本,确定出该样本中数据的变化程度(包括上述变化量以及离散量),基于该变化程度预测硬盘在未来一段时间,例如未来5天(为上述第二预设时间段的一个示例)发生故障的概率。下结合图2对基于一段时间段采集到的样本对硬盘发生故障的时间进行预测的方法进行说明,图2是根据一示例性实施例示出的一种预测硬盘故障发生时间的方法的流程图,如图2所示,该方法在图1所示的方法的基础上还可包括:
步骤201:在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;合并得到的该项数据中可包括在第一预设时段内的不同时间采集到的数据;
其中,在每次采集硬盘的多种不同状态数据的情况下,在步骤201中,可将在第一预设时间段内采集的各硬盘的状态数据中属于同一种状态数据的状态数据组合为一项状态数据。
步骤202:将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。
其中,步骤201以及步骤202可在步骤101以及步骤102之前执行,也可在步骤101以及步骤102之后执行,图2中仅示出了步骤201在步骤101之前执行的一种示例情况。
在获得该第一训练数据集后,可基于第一人工智能算法对该数据集进行训练,即可得到上述第一训练模型。
在一种可实现方式中,根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘可包括:将采集到的所述各硬盘的各项状态数据(以下也称第二测试数据集)输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘,该第二阈值例如为80%。
以下通过一个例子对从多个硬盘中筛选出濒临故障的硬盘的处理过程进行说明。在该例子中,可将上述g块硬盘在3天中每块硬盘产生的多个样本作为第二预测数据集。如果样本个数太少,则难以有效采集到硬盘的恶化状态;如果样本个数太多,则增大了处理量。样本数量可选择20-40条为宜,例如,选择样本数量为24个。
对全体g块硬盘,逐一进行预测:
{对于第一块硬盘,逐条样本进行预测:
{将第一条样本输入第二训练模型,得出分类结果。
将第一块硬盘的第二条样本输入第二训练模块,得出分类结果。
……(以此类推,不再赘述)
对第24条样本,输入第二训练模型,得出分类结果。
综合上述24个分类结果。如果该硬盘具有超过t个分类结果为的类型为濒临故障,则确定预测结果为该硬盘濒临故障。其中,t的取值范围可以为[12,22],例如t的取值可以为18。如果该硬盘的濒临故障的分类结果不超过t个,则判定该硬盘为健康硬盘。
}
对于第二块硬盘,逐条样本进行预测
……(以此类推,不再赘述)
对于第g块硬盘,逐条样本进行预测。
}
上述例子以投票的方式对濒临故障的硬盘进行判断,可筛选出数据中心的硬盘中濒临故障的硬盘。
将上述过程中被判定为濒临故障的硬盘添加入濒临故障硬盘列表。从而成功预测出了即将出现故障的硬盘。
其中,上述用于对第二训练数据集进行训练的第二人工智能算法例如可以是支持向量机算法、贝叶斯算法、梯度推进机算法中的任意一种算法。
在一种可实现方式中,获得第二训练数据集可包括:以第一预设周期采集所述各硬盘的状态数据,该第一预设周期例如3个小时,得到原始数据集;对所述原始数据集中的各项状态数据进行标记,将硬盘在发生故障前的第三预设时间段之内的状态数据标记为正样本数据,将硬盘在发生故障前的第三预设时间段之外的状态数据标记为负样本数据,或删除硬盘在发生故障前的第三预设时间段之外的状态数据,将属于未发生故障的硬盘的状态数据标记为负样本数据,得到上述第二训练数据集。例如,对原始数据集的所有样本进行标记:对健康硬盘的每条样本标记为负样本;对故障盘在故障前K时间之内的样本标记为正样本;对故障硬盘在故障前K时间之外的样本标记为负样本或丢弃该样本。K的取值例如是7天,最终形成第二训练数据集。
在一个例子中,获得第一训练数据集的过程可包括:对上述原始数据集进行缩减,可仅保留各硬盘最近7天的样本。分别将各硬盘在该7天内的样本进行合并,得到g个样本,每个样本具有7种状态数据,分别各种状态数据中的各条数据求离散量以及变化量。最后对健康硬盘的离散量以及变化量标记为负样本,将故障硬盘的离散量以及变化量标记为正样本,形成第二训练数据集。在一种可实现方式中,本公开的预测硬盘故障发生时间的方法还可包括:使用新采集到的各硬盘的状态数据更新所述原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第三预设时间段内采集到的所述状态数据。例如,以第二预设周期周期性地使用最近一个所述第二预设周期内采集到的所述状态数据替换所述原始数据集中最早的所述第二预设周期内采集到的所述状态数据,其中,第二预设周期例如7天,故在本实施例中,可使用最近7天采集到的状态数据替换原始数据集中最早的7天所采集到的状态数据,从而对原始数据集进行更新。
以下通过一个例子对本公开的预测硬盘故障发生时间的方法进行说明,在该例子中,数据中心有4800块硬盘。每隔3小时对这4800块硬盘进行一次SMART信息的采集和IO的采集。每块硬盘的每次采集形成1个样本。采集在第60天结束时,共产生2304000条样本作为原始数据集。假设在数据采集期间,共出现故障盘70块。
将4730块健康硬盘的共计2270400条样本标记为负样本,将70块故障盘在故障前7天的共计3920条样本标记为正样本,其余样本丢弃,得到第二训练数据集。针对第二训练数据集采用支持向量机算法的模型训练,得到第二练模型。
逐一对每一块硬盘最近3天共计24条的样本输入第二训练模型,每个硬盘均会得出24条分类结果。如果一块硬盘具有超过18条分类结果认定濒临故障,则认为该硬盘濒临故障,加入濒临故障硬盘列表,共计23块硬盘。
将4800块硬盘的最近7天的样本合并,每个样本的每个条目求7天内的方差和变化量。共计4800条样本,每条样本有14个条目。将4730块健康硬盘标的状态数据记为负样本,将70块故障硬盘的状态数据标记为正样本,得到第一训练数据集。针对第一训练数据集采用逻辑回归算法的模型训练,得到第一训练模型。
将濒临故障硬盘列表中的23块硬盘的最近7天的样本合并,每个条目求7天内的方差和变化量,得到23条样本。逐一将23条样本输入第一训练模型,逐一得到各硬盘在未来7天发生故障的概率。其中,当硬盘的该概率大于80%者,将硬盘加入换盘告警列表,假设被加入换盘告警列表的硬盘共有4块。则可由运维人员对该4块硬盘执行换盘操作。将最新的7天的采集的各硬盘的状态数据加入原始数据集,替代原始数据集中最早7天检测到的状态数据。
图3是根据一示例性实施例示出的一种预测硬盘故障发生时间的装置的框图,如图3所示,该装置30包括如下组成部分:
筛选模块31,用于根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;
计算模块32,用于计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;
输入模块33,用于将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
在一种可实现方式中,所述筛选模块可包括:输入单元,用于将采集到的所述各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;确定单元,用于将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘。
图4是根据一示例性实施例示出的一种预测硬盘故障发生时间的装置的框图,如图4所示,该装置在图3所示的装置的基础上还可包括:合并模块41,用于在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;第一标记模块42,用于将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。
在一种可实现方式中,所述状态数据可包括:硬盘的SMART信息和/或硬盘的I/O信息。
在一种可实现方式中,所述SMART信息可包括以下至少一项:硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;所述I/O信息至少包括:写入块数。
在一种可实现方式中,所述装置还可包括:更新模块,用于使用新采集到的各硬盘的状态数据更新所述原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第三预设时间段内采集到的所述状态数据。
图5是根据一示例性实施例示出的一种预测硬盘故障发生时间的装置600的框图。例如,装置600可以被提供为一服务器。参照图5,装置600包括处理器622,其数量可以为一个或多个,以及存储器632,用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器622可以被配置为执行该计算机程序,以执行上述的预测硬盘故障发生时间的方法。
另外,装置600还可以包括电源组件626和通信组件650,该电源组件626可以被配置为执行装置600的电源管理,该通信组件650可以被配置为实现装置600的通信,例如,有线或无线通信。此外,该装置600还可以包括输入/输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的非临时性计算机可读存储介质,例如包括程序指令的存储器632,上述程序指令可由装置600的处理器622执行以完成上述的预测硬盘故障发生时间的方法。
尽管为示例目的,已经公开了本公开的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本公开的范围应当不限于上述实施例。
Claims (14)
1.一种预测硬盘故障发生时间的方法,其特征在于,包括:
将采集到的各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,其中,所述第二人工智能算法包括贝叶斯算法或梯度推进机算法,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;
将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘;
计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;
将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,其中,所述第一人工智能算法包括人工神经网络算法或随机森林算法,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
2.根据权利要求1所述的方法,其特征在于,所述状态数据包括:
硬盘的SMART信息和/或硬盘的读/写I/O信息。
3.根据权利要求2所述的方法,其特征在于,所述SMART信息包括以下至少一项:
硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件错误检查和纠正ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;
所述I/O信息至少包括:写入块数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;
将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
使用新采集到的各硬盘的状态数据更新原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第三预设时间段内采集到的所述状态数据。
7.一种预测硬盘故障发生时间的装置,其特征在于,包括:
输入单元,用于将采集到的各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,其中,所述第二人工智能算法包括贝叶斯算法或梯度推进机算法,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;
确定单元,用于将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘;
计算模块,用于计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;
输入模块,用于将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,其中,所述第一人工智能算法包括人工神经网络算法或随机森林算法,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
8.根据权利要求7所述的装置,其特征在于,所述状态数据包括:
硬盘的SMART信息和/或硬盘的读/写I/O信息。
9.根据权利要求8所述的装置,其特征在于,所述SMART信息包括以下至少一项:
硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件错误检查和纠正ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;
所述I/O信息至少包括:写入块数。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
合并模块,用于在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;
第一标记模块,用于将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
更新模块,用于使用新采集到的各硬盘的状态数据更新原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第三预设时间段内采集到的所述状态数据。
13.一种预测硬盘故障发生时间的装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
当所述指令被处理器执行时,执行如下操作:
将采集到的各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,其中,所述第二人工智能算法包括贝叶斯算法或梯度推进机算法,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;
将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘;
计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;
将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,其中,所述第一人工智能算法包括人工神经网络算法或随机森林算法,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。
14.一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行根据权利要求1至6任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811484874.3A CN109828869B (zh) | 2018-12-05 | 2018-12-05 | 预测硬盘故障发生时间的方法、装置及存储介质 |
PCT/CN2019/121647 WO2020114313A1 (zh) | 2018-12-05 | 2019-11-28 | 预测硬盘故障发生时间的方法、装置及存储介质 |
US17/600,551 US11656943B2 (en) | 2018-12-05 | 2019-11-28 | Method and apparatus for predicting hard disk fault occurrence time, and storage medium |
JP2021531832A JP7158586B2 (ja) | 2018-12-05 | 2019-11-28 | ハードディスク故障発生時期の予測方法、装置及び記憶媒体 |
EP19892295.7A EP3879405A4 (en) | 2018-12-05 | 2019-11-28 | METHOD AND DEVICE FOR PREDICTING THE FAILURE RATE OF A HARD DISK AND STORAGE MEDIA |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811484874.3A CN109828869B (zh) | 2018-12-05 | 2018-12-05 | 预测硬盘故障发生时间的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109828869A CN109828869A (zh) | 2019-05-31 |
CN109828869B true CN109828869B (zh) | 2020-12-04 |
Family
ID=66858675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811484874.3A Active CN109828869B (zh) | 2018-12-05 | 2018-12-05 | 预测硬盘故障发生时间的方法、装置及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11656943B2 (zh) |
EP (1) | EP3879405A4 (zh) |
JP (1) | JP7158586B2 (zh) |
CN (1) | CN109828869B (zh) |
WO (1) | WO2020114313A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109828869B (zh) * | 2018-12-05 | 2020-12-04 | 南京中兴软件有限责任公司 | 预测硬盘故障发生时间的方法、装置及存储介质 |
CN110413227B (zh) * | 2019-06-22 | 2021-06-11 | 华中科技大学 | 一种硬盘设备的剩余使用寿命在线预测方法和系统 |
CN111008119A (zh) * | 2019-12-13 | 2020-04-14 | 浪潮电子信息产业股份有限公司 | 一种硬盘预测模型的更新方法、装置、设备及介质 |
US10733512B1 (en) * | 2019-12-17 | 2020-08-04 | SparkCognition, Inc. | Cooperative use of a genetic algorithm and an optimization trainer for autoencoder generation |
CN111414286B (zh) * | 2020-03-06 | 2021-11-09 | 同济大学 | 一种基于深度学习的不平衡硬盘数据的故障诊断方法 |
CN111858108B (zh) * | 2020-06-23 | 2024-05-10 | 新华三技术有限公司 | 一种硬盘故障预测方法、装置、电子设备和存储介质 |
CN111858283A (zh) * | 2020-07-24 | 2020-10-30 | 山东海量信息技术研究院 | 一种边缘数据中心的硬盘故障预处理方法及相关组件 |
CN112308126B (zh) * | 2020-10-27 | 2024-08-23 | 深圳前海微众银行股份有限公司 | 故障识别模型训练方法、故障识别方法、装置及电子设备 |
CN114595085A (zh) * | 2020-12-03 | 2022-06-07 | 中兴通讯股份有限公司 | 磁盘失效预测方法、预测模型训练方法、电子设备 |
CN112737834A (zh) * | 2020-12-25 | 2021-04-30 | 北京浪潮数据技术有限公司 | 一种云硬盘故障预测方法、装置、设备及存储介质 |
CN113295635A (zh) * | 2021-05-27 | 2021-08-24 | 河北先河环保科技股份有限公司 | 一种基于动态更新数据集的水质污染报警方法 |
CN113688564B (zh) * | 2021-07-30 | 2024-02-27 | 济南浪潮数据技术有限公司 | 一种预测ssd硬盘剩余寿命的方法、装置、终端及存储介质 |
CN113590406A (zh) * | 2021-08-16 | 2021-11-02 | 湖南博匠信息科技有限公司 | 一种基于电变量进行固态硬盘故障检测的方法及系统 |
CN115687038B (zh) * | 2022-08-23 | 2023-09-26 | 江苏臻云技术有限公司 | 一种基于大数据的硬盘故障预测系统及方法 |
CN116701150B (zh) * | 2023-06-19 | 2024-01-16 | 深圳市银闪科技有限公司 | 一种基于物联网的存储数据安全监管系统及方法 |
CN116610484B (zh) * | 2023-07-19 | 2023-11-03 | 苏州浪潮智能科技有限公司 | 一种模型训练方法、故障预测方法、系统、设备以及介质 |
CN117170998B (zh) * | 2023-11-03 | 2024-03-01 | 凌雄技术(深圳)有限公司 | 一种智能化设备生命周期管理系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260279A (zh) * | 2015-11-04 | 2016-01-20 | 四川效率源信息安全技术股份有限公司 | 基于smart数据动态诊断硬盘故障的方法和装置 |
WO2017129032A1 (zh) * | 2016-01-29 | 2017-08-03 | 阿里巴巴集团控股有限公司 | 磁盘的故障预测方法和装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015184823A (ja) * | 2014-03-20 | 2015-10-22 | 株式会社東芝 | モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム |
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
TWI510916B (zh) * | 2015-02-05 | 2015-12-01 | 緯創資通股份有限公司 | 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法 |
US10191668B1 (en) * | 2016-06-27 | 2019-01-29 | EMC IP Holding Company LLC | Method for dynamically modeling medium error evolution to predict disk failure |
US10310749B2 (en) * | 2016-09-16 | 2019-06-04 | Netscout Systems Texas, Llc | System and method for predicting disk failure |
US10216558B1 (en) * | 2016-09-30 | 2019-02-26 | EMC IP Holding Company LLC | Predicting drive failures |
JP2019053474A (ja) * | 2017-09-14 | 2019-04-04 | 先智雲端數據股▲分▼有限公司ProphetStor Data Services, Inc. | クラウドベースサービスのデータ保護方法 |
CN108073486B (zh) * | 2017-12-28 | 2022-05-10 | 新华三大数据技术有限公司 | 一种硬盘故障的预测方法和装置 |
CN108228377B (zh) * | 2017-12-29 | 2020-07-07 | 华中科技大学 | 一种面向磁盘故障检测的smart阈值优化方法 |
CN108446734A (zh) * | 2018-03-20 | 2018-08-24 | 中科边缘智慧信息科技(苏州)有限公司 | 基于人工智能的磁盘故障自动预测方法 |
CN108647136B (zh) * | 2018-05-10 | 2021-05-04 | 南京道熵信息技术有限公司 | 基于smart信息和深度学习的硬盘损坏预测方法及装置 |
CN109491850A (zh) * | 2018-11-21 | 2019-03-19 | 北京北信源软件股份有限公司 | 一种磁盘故障预测方法及装置 |
CN109828869B (zh) * | 2018-12-05 | 2020-12-04 | 南京中兴软件有限责任公司 | 预测硬盘故障发生时间的方法、装置及存储介质 |
-
2018
- 2018-12-05 CN CN201811484874.3A patent/CN109828869B/zh active Active
-
2019
- 2019-11-28 WO PCT/CN2019/121647 patent/WO2020114313A1/zh unknown
- 2019-11-28 JP JP2021531832A patent/JP7158586B2/ja active Active
- 2019-11-28 EP EP19892295.7A patent/EP3879405A4/en active Pending
- 2019-11-28 US US17/600,551 patent/US11656943B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260279A (zh) * | 2015-11-04 | 2016-01-20 | 四川效率源信息安全技术股份有限公司 | 基于smart数据动态诊断硬盘故障的方法和装置 |
WO2017129032A1 (zh) * | 2016-01-29 | 2017-08-03 | 阿里巴巴集团控股有限公司 | 磁盘的故障预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020114313A1 (zh) | 2020-06-11 |
CN109828869A (zh) | 2019-05-31 |
EP3879405A4 (en) | 2022-01-19 |
US11656943B2 (en) | 2023-05-23 |
JP7158586B2 (ja) | 2022-10-21 |
EP3879405A1 (en) | 2021-09-15 |
JP2022508320A (ja) | 2022-01-19 |
US20220206898A1 (en) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109828869B (zh) | 预测硬盘故障发生时间的方法、装置及存储介质 | |
CN108647136B (zh) | 基于smart信息和深度学习的硬盘损坏预测方法及装置 | |
Li et al. | Hard drive failure prediction using decision trees | |
Ganguly et al. | A practical approach to hard disk failure prediction in cloud platforms: Big data model for failure management in datacenters | |
US20150205657A1 (en) | Predicting failure of a storage device | |
WO2021238258A1 (zh) | 一种磁盘故障预测方法和系统 | |
EP4078380B1 (en) | Behavior-driven die management on solid-state drives | |
KR20210108874A (ko) | 기계 학습을 사용하여 스토리지 장치 장애를 예측하는 시스템 및 장치 | |
CN112579327B (zh) | 一种故障检测方法、装置及设备 | |
US20180150036A1 (en) | Systems and methods for concept drift learning with alternating learners | |
US20230034061A1 (en) | Method for managing proper operation of base station and system applying the method | |
JP7273669B2 (ja) | ストレージシステム及びその制御方法 | |
CN113778766B (zh) | 基于多维特征的硬盘故障预测模型建立方法及其应用 | |
CN115964211A (zh) | 一种根因定位方法、装置、设备和可读介质 | |
CN114327241A (zh) | 管理磁盘的方法、电子设备和计算机程序产品 | |
CN114357858A (zh) | 一种基于多任务学习模型的设备劣化分析方法及系统 | |
Yang et al. | Zte-predictor: Disk failure prediction system based on lstm | |
US20200310897A1 (en) | Automatic optimization fault feature generation method | |
CN115118580B (zh) | 告警分析方法以及装置 | |
CN114237098B (zh) | 一种电气产品的智能化数字管理系统 | |
JP2020135739A (ja) | 障害予兆検知システム | |
CN116610484B (zh) | 一种模型训练方法、故障预测方法、系统、设备以及介质 | |
CN111382041A (zh) | 一种故障检测、数据处理方法、装置及设备 | |
US8780471B2 (en) | Linking errors to particular tapes or particular tape drives | |
US20230008268A1 (en) | Extrapolated usage data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190620 Address after: 210012 No. 68, Bauhinia Road, Ningnan street, Yuhuatai District, Nanjing, Jiangsu Applicant after: Nanjing Zhongxing Software Co., Ltd. Address before: 518000 Zhongnan communication tower, South China Road, Nanshan District high tech Industrial Park, Shenzhen, Guangdong Applicant before: ZTE Corporation |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |