CN111767162A

CN111767162A - 一种面向不同型号硬盘的故障预测方法及电子装置

Info

Publication number: CN111767162A
Application number: CN202010428826.3A
Authority: CN
Inventors: 杨洪章; 杨雅辉; 吴中海
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-10-13
Anticipated expiration: 2040-05-20
Also published as: CN111767162B

Abstract

本发明公开了一种面向不同型号硬盘的故障预测方法及电子装置，该方法步骤包括获取待预测硬盘的类别、SMART信息及IO信息，查找共性故障预测模型；若查找到共性故障预测模型，将待预测硬盘的SMART信息及IO信息输入共性故障预测模型，初次判断该待预测硬盘是否正常；若未查找到共性故障预测模型或初次判断正常，根据待预测硬盘的类别，将待预测硬盘的SMART信息及IO信息输入相应的类别故障预测模型，二次判断该待预测硬盘是否正常；若初次判断不正常或二次判断不正常，则该待预测硬盘即将发生故障。本发明创造性地建立二级预测建模机制，能同时兼顾不同品牌、型号硬盘的共性故障特征和个性故障特征，为数据中心不同品牌、型号的硬盘建立统一的故障预测模型。

Description

一种面向不同型号硬盘的故障预测方法及电子装置

技术领域

本发明涉及计算机存储及可靠性领域，具体为一种面向不同型号硬盘的故障预测方法及电子装置。

背景技术

近年来，通过采集硬盘SMART信息，建立模型从而对硬盘故障进行预测成为研究热点。然而，不同型号的硬盘，其SMART信息会有一定差异，主要表现在同一编号的SMART项含义不同，或同一含义的SMART项其编号不同。例如，Seagate品牌ST4000DM000型号的194编号的SMART项含义为温度(Temperature)，而HGST品牌HUH728080ALE600型号的231编号SMART项含义为温度(Temperature)，再如，Intel品牌DC S3710型号的184编号SMART项含义为原始坏块数(Init Bad Block Count)，而Seagate品牌ST4000DM000型号的184编号SMART项含义为点到点错误检测计数(End to End Error Detection Count)。正因如此，现有技术往往仅针对单一品牌单一型号的硬盘进行单独建模，这样做的好处在于：能保证各SMART项的含义相同，训练出来的模型是有意义的。但这样做的坏处在于：在一个大型数据中心，往往是多种品牌、型号的硬盘混杂在一起的，这就不得不为每一种型号的硬盘单独训练模型，而各品牌、各型号硬盘的数量往往是不均衡的，对于数量少的硬盘型号，样本太小，训练出的模型其预测准确性低。

虽然中国专利申请CN108647136A公开了一种基于SMART信息和深度学习的硬盘损坏预测方法及装置，通过提取SMART信息中的有效信息，对硬盘进行损坏预测。中国专利申请CN110413227A公开了一种硬盘设备的剩余使用寿命在线预测方法和系统，以硬盘设备的SMART信息和I/O状态信息为依据，进行硬盘设备的剩余使用寿命在线预测。但上述方法都不能能为不同品牌、型号的硬盘建立一套通用的预测模型，从而进行统一管理。

因此迫切地需要提出新的硬盘故障预测方法，能为不同品牌、型号的硬盘建立一套通用的故障预测模型，从而解决上述问题。

发明内容

为克服现有技术的不足，本发明公开了一种面向不同型号硬盘的故障预测方法及电子装置，能为数据中心不同型号的硬盘，建立统一的故障预测模型。

一种面向不同型号硬盘的故障预测方法，适用于包含k种硬盘的数据中心，其步骤包括：

1)获取待预测硬盘的类别、SMART信息及IO信息，查找共性故障预测模型；

2)若查找到共性故障预测模型，将待预测硬盘的SMART信息及IO信息输入共性故障预测模型，初次判断该待预测硬盘是否正常；

3)若未查找到共性故障预测模型或初次判断正常，根据待预测硬盘的类别，将SMART信息及IO信息输入相应的类别故障预测模型，二次判断该待预测硬盘是否正常；

4)若初次判断不正常或二次判断不正常，则该待预测硬盘即将发生故障。

其中，通过以下步骤得到共性故障预测模型：

1)采集一或多次数据中心的硬盘SMART信息及IO信息，获取各硬盘SMART项与故障盘数量；

2)根据获取的故障盘数量与采集次数，对各SMART信息及IO信息进行正负样本标记；

3)获取t种硬盘的SMART项交集中SMART项数量大于设定阀值的相应SMART信息，并将相应SMART信息、相应IO信息及相应正负样本标记进行第一机器模型训练，得到共性故障预测模型，2≤t≤k；

通过分别将各种硬盘的SMART信息和IO信息进行第二机器模型训练，得到k个类别故障预测模型。

进一步地，通过smartctl命令采集SMART信息，通过iostat命令采集IO信息。

进一步地，通过以下步骤对SMART信息与IO信息进行正负样本标记：

1)将最后u次采集的故障盘SMART信息及IO信息，标记为正样本；

2)将其它采集的SMART信息及IO信息标记为负样本。

进一步地，计算任意t种硬盘的SMART项交集中SMART项数量前，通过以下步骤对SMART项交集进行预处理：

1)计算SMART项交集中每一个SMART项在全部SMART项中的方差；

2)将方差为0的SMART项从SMART项交集中移除，得到预处理SMART项交集。

进一步地，通过以下步骤计算任意t种硬盘的SMART项交集中SMART项数量：

1)计算各种硬盘的SMART项交集中SMART项数量；

2)从SMART项交集中去除i种硬盘对应的SMART项，计算

个SMART项子交集中SMART项数量，1≤i≤k-1；

3)通过SMART项交集中SMART项数量与各SMART项子交集中SMART项数量，得到任意t种硬盘的SMART项交集中SMART项数量。

进一步地，当计算SMART项交集中SMART项数量或任一SMART项子交集中SMART项数量大于设定阀值时，停止计算剩余SMART项子交集中SMART项数量。

进一步地，进行第一机器模型训练的数据还包括SMART项权重x＝(g-2)/j、IO项权重y＝1-x，g为大于设定阀值的SMART项交集中的SMART项数量，j为各硬盘SMART项并集中的SMART项数量。

进一步地，训练第一机器模型的算法包括逻辑回归、决策树、XGBOOST、LSTM或支持向量机；训练第二机器模型的算法包括逻辑回归、决策树、XGBOOST、LSTM或支持向量机。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有方法相比，本发明具有以下优点：

1)创造性地建立二级预测建模机制，能够同时兼顾了不同品牌、型号硬盘的共性故障特征和个性故障特征，第一轮预测把具有共性坏盘特征的坏盘找出来，第二轮预测把具有个性坏盘特征的坏盘找出来；

2)对k个不同型号硬盘的SMART信息求交集H和并集J，克服了现有技术无法为数据中心不同型号的硬盘建立统一的故障预测模型的弊端；

3)使用分割操作，将确实无法建立统一模型的型号品牌剔除；

4)对于剔除较多的SMART项的情况，损失了较多信息，适当增加IO的权重，能够提升准确性；

5)能为数据中心不同品牌、型号的硬盘建立统一的故障预测模型，避免对于数量少的硬盘型号，样本太小，训练出的模型其预测准确性低的情况。

附图说明

图1本发明方法的流程.

具体实施方式

为使本发明的目的、原理、技术方案和优点更加清晰明白，以下将结合具体实施例，并参照附图对本发明做详细的说明。

本发明的一种面向不同型号硬盘的故障预测方法，包括以下步骤：

步骤1：采集不同型号硬盘的SMART信息(Self-Monitoring Analysis andReporting Technology，自我监测、分析及报告技术)和IO信息(Input/Output，输入/输出)，并标记样本。

将该数据中心的硬盘总数量记为sum，其中共有k个不同的型号，其中型号Model₁的硬盘数量记为count₁块，型号Model₂的硬盘数量记为count₂块……型号Model_k的硬盘数量记为count_k块。在该数据中心采集p次全体sum块硬盘的SMART信息和IO信息。在p次采集期间，共出现故障盘e块。由于硬盘的故障不是一蹴而就的，会经历由健康至故障的一个过程，因此将e块故障盘的最后u次采集标记为正样本(共计e*u条)，将剩余样本标记为负样本(共计p*sum-e*u条)，其中p≥u≥1。u的典型取值包括但不限于：1、2、5、7、10、15、20、30、40、50、100等。优选地，p的取值应大于等于7。

其中，采集SMART信息一般通过smartctl命令，采集IO信息一般通过iostat命令，这两个命令均为本领域的公知常识。

步骤2：对k个不同型号硬盘的SMART信息求交集H和并集J。

依次读取k个不同型号硬盘的SMART信息，求其交集记为集合H_k，求其并集记为J_k。

步骤3：将方差为0的SMART项从集合H中剔除，记为集合G。

在集合H_k中，依次遍历每一个SMART项，求其在sum*p条样本信息中的方差，将方差为0的SMART项从集合H_k中剔除，记为集合G_k。如果集合G_k的SMART项小于3，则进入步骤4，否则进入步骤5。

步骤4：对k个不同型号进行分割操作。

首先从k个不同型号中去掉1个型号，针对这k-1个型号重做步骤2和步骤3，生成C_k ¹个G_k-1集合。如果在G_k-1集合中，存在SMART项大于等于3的集合，则停止分割，将SMART项最多的G_k-1集合作为集合G(如果有多个则随机选择一个)，进入步骤5。否则，进一步分割，对k-2个型号重做步骤2和步骤3，生成C_k ²个G_k-2集合。如果在G_k-2集合中，存在SMART项大于等于3的集合，则停止分割，将SMART项最多的G_k-2集合作为集合G(如果有多个则随机选择一个)，进入步骤5。否则，进一步分割，对k-3个型号重做步骤2和步骤3，以此类推，不再赘述，直至对2个型号的任意组合都尝试过仍然无G集合的SMART项大于等于3，则进入步骤8。

步骤5：集合G和IO信息汇总成为模型训练的全体特征P；集合G在模型训练时的权重为x，其中x＝(G中SMART项数量-2)/J中SMART项数量。IO信息在模型训练时的权重为y，其中y＝1-x。

步骤6：使用全体特征P进行训练，形成预测模型Q。

使用上述特征P及特征的权重x与y，以及样本的标记，对sum*p条样本进行模型训练，形成预测模型Q。训练算法包括但不限于：逻辑回归、决策树、XGBOOST、LSTM、支持向量机等。

步骤7：将硬盘SMART信息和IO信息作为模型Q的输入，得到第一轮预测结果。对该数据中心任意1块硬盘采集1条SMART信息和IO信息，将SMART信息中取出集合G中的特征，连同IO信息一同输入模型Q，则可得到输出结果。如果输出结果为正样本，则意味该硬盘即将故障，流程结束。如果输出结果为负样本，则意味该盘为健康或暂无法分辨是否将要发生故障，进入步骤8。

步骤8：针对k个型号硬盘各自的SMART信息和IO信息进行训练，形成预测模型T₁、T₂、T₃、……、T_k，训练算法包括但不限于：逻辑回归、决策树、XGBOOST、LSTM、支持向量机等。

步骤9：根据硬盘型号，选择相对应的模型T，再次将其硬盘SMART信息和IO信息作为输入，从而得到第二轮预测结果。如果输出结果为正样本，则意味该硬盘即将故障。如果输出结果为负样本，则意味该盘为健康。流程结束。

在模型的训练中，一种极端的情况是：一旦连续10次出现第二轮未预测出正样本，则不需要步骤8和步骤9了(该数据中心仅需预测模型Q，就能完成不同型号硬盘的故障预测)。还有另一种极端的情况：在步骤3中，任意两个型号都没有交集SMART超过3个，此时也就不需要步骤5、6、7了(该数据中心仅需预测模型T₁、T₂、T₃、……、T_k，就能完成不同型号硬盘的故障预测)。

本发明将预测分成两轮进行的原理如下：传统技术对数据中心的不同型号硬盘分别建模，虽然整个数据中心的正样本很多，但具体到某一种型号上，其正样本数量就太少了，这会导致预测不准。本发明采用统一建模的方法，对SMART信息求交集，能够在一套模型中充分利用全体正样本，从而能够发现共性坏盘特征，但由于仅保留了共性SMART，对各品牌硬盘的特有的SMART忽视了，无法发现个性的坏盘表现，因此使用第二轮预测，对各硬盘分别进行建模，从而对第一轮预测形成一个互补。综上所述，第一轮预测把具有共性坏盘特征的坏盘找出来，第二轮预测把具有个性坏盘特征的坏盘找出来。

下述为三个实际应用场景的本发明实施方式。

实施用例1：

(1)采集某视频数据中心的2102块硬盘的SMART信息和IO信息。在这2102块硬盘中，共有3个型号：1)Seagate品牌ST4000DM000型号共有1000块；2)Seagate品牌ST2000DM000型号共有900块；3)HGST品牌HUH728080ALE600型号共有202块。以上3个型号硬盘的SMART信息如表1所示，IO信息如表2所示。

表1

表2

共采集300次全体2102块硬盘的SMART信息和IO信息，期间出现故障盘192块，其中三种型号硬盘的故障盘分别为：100块，90块，2块。将这192块故障盘最后20条采集标记为正样本，将其余样本标记为负样本。各品牌硬盘的情况汇总如表3所示。

表3

(2)对三种型号硬盘的SMART信息求交集H和并集J，结果如表4所示。

表4

(3)遍历表4交集的11项SMART，求其在300*2102条样本的方差，发现Raw_Read_Error_Rate、Spin_Up_Time、Start_Stop_Count、Reallocated_Sector_Ct、Seek_Error_Rate这5项的方差为0，则将其剔除后，生成集合G(见表5)，集合G的SMART项为6项。

表5

(4)因集合G的SMART项大于3，故无需进行分割操作。

(5)计算集合G在模型训练中的权重为x＝(6-2)/21＝0.19，计算IO信息在模型训练中的权重为y＝1-0.19＝0.81。集合G和IO信息汇总成为模型训练的全体特征P，如表5所示。

表5

(6)使用表5中的特征及权重对630600条样本进行模型训练，使用算法为LSTM，形成预测模型Q。

(7)采集该数据中心一块Seagate品牌ST4000DM000型号硬盘的SMART信息和IO信息，从其21个SMART信息中取出Power_On_Hours、Spin_Retry_Count、Power_Cycle_Count、Hardware_ECC_Recovered、Current_Pending_Sector、Temperature这六个特征，连同全体IO信息，输入模型Q，得出输出结果为负样本。

(8)针对3个型号硬盘各自的SMART信息和IO信息进行训练，使用算法为决策树，生成预测模型T1、T2、T3，如表6所示。

表6

(9)将步骤7中采集的SMART信息和IO信息全部输入模型T1，输出结果为正样本，则预测该块硬盘即将发生故障，本实施用例结束。

实施用例2：

(1)采集某视频数据中心的200块硬盘的SMART信息和IO信息。在这200块硬盘中，共有3个型号：1)Seagate品牌ST4000DM000型号共有100块；2)Seagate品牌ST2000DM000型号共有50块；3)Intel品牌DC S3710型号共有50块。以上3个型号硬盘的SMART信息如表7所示，IO信息如表8所示。

表7

表8

共采集100次全体200块硬盘的SMART信息和IO信息，期间出现故障盘12块，其中三种型号硬盘的故障盘分别为：10块、1块、1块。将这12块故障盘最后1条采集标记为正样本，将其余样本标记为负样本。各品牌硬盘的情况汇总如表9所示。

表9

(2)对三种型号硬盘的SMART信息求交集H和并集J，结果如表10所示。

表10

(3)遍历表10交集的8项SMART，求其在20000条样本的方差，发现Raw_Read_Error_Rate、Spin_Up_Time、Start_Stop_Count、Reallocated_Sector_Ct、Seek_Error_Rate、Power_On_Hours这6项的方差为0，则将其剔除后，生成集合G(见表11)，集合G的SMART项为2项。

表11

(4)因集合G的SMART项小于3，故需进行分割操作。从3个型号中去掉1个型号，生成3个子集合，分别再次执行步骤(2)和步骤(3)，其结果如表12所示。很显然，只有第一个子集合(Seagate品牌ST4000DM000型号+Seagate品牌ST2000DM000)的G为SMART项大于等于3，分割结束。

表12

(5)计算集合G在模型训练中的权重为x＝(13-2)/21＝0.52，计算IO信息在模型训练中的权重为y＝1-0.52＝0.48。集合G和IO信息汇总成为模型训练的全体特征P，如表13所示。

表13

(6)使用表13中的特征及权重对20000条样本进行模型训练，使用算法为XGBOOST，形成预测模型Q。

(7)采集该数据中心一块Seagate品牌ST4000DM000型号硬盘的SMART信息和IO信息，从其21个SMART信息中取出表13中的13个SMART特征和18个IO信息，输入模型Q，得出输出结果为正样本，则该盘即将故障，本用例结束。

实施用例3：

(1)采集某视频数据中心的200块硬盘的SMART信息和IO信息。在这200块硬盘中，共有3个型号：(1)Seagate品牌ST4000DM000型号共有100块；(2)Western Digita品牌WD4000FYYZ型号共有20块；(3)Intel品牌DC S3710型号共有80块。以上3个型号硬盘的SMART信息如表14所示，IO信息如表15所示。

表14

表15

共采集10次全体200块硬盘的SMART信息和IO信息，期间出现故障盘3块，其中三种型号硬盘的故障盘分别为：1块、1块、1块。将这3块故障盘最后3条采集标记为正样本，将其余样本标记为负样本。各品牌硬盘的情况汇总如表16所示。

表16

(2)对三种型号硬盘的SMART信息求交集H和并集J，结果如表17所示。

表17

(3)遍历表17交集的8项SMART，求其在2000条样本的方差，发现Raw_Read_Error_Rate、Spin_Up_Time、Start_Stop_Count、Reallocated_Sector_Ct、Seek_Error_Rate、Power_On_Hours这6项的方差为0，则将其剔除后，生成集合G(见表11)，集合G的SMART项为2。

表18

(4)因集合G的SMART项小于3，故需进行分割操作。从3个型号中去掉1个型号，生成3个子集合，分别再次执行步骤(2)和步骤(3)，其结果如表19所示。很显然，无子集合的G为SMART项大于等于3，分割失败。

表19

(5)针对3个型号硬盘各自的SMART信息和IO信息进行训练，使用算法为逻辑回归，生成预测模型T1、T2、T3，如表20所示。

表20

(6)采集该数据中心一块Seagate品牌ST4000DM000型号硬盘的SMART信息和IO信息，输入模型T1，得出输出结果为正样本，则该盘即将故障，本用例结束.

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向不同型号硬盘的故障预测方法，适用于包含k种硬盘的数据中心，其步骤包括：

3)若未查找到共性故障预测模型或初次判断正常，根据待预测硬盘的类别，将待预测硬盘的SMART信息及IO信息输入相应的类别故障预测模型，二次判断该待预测硬盘是否正常；

其中，通过以下步骤得到共性故障预测模型：

2.如权利要求1所述的方法，其特征在于，通过smartctl命令采集SMART信息，通过iostat命令采集IO信息。

3.如权利要求1所述的方法，其特征在于，通过以下步骤对SMART信息与IO信息进行正负样本标记：

1)将最后u次采集的故障盘SMART信息及IO信息，标记为正样本；

2)将其它采集的SMART信息及IO信息标记为负样本。

4.如权利要求1所述的方法，其特征在于，计算任意t种硬盘的SMART项交集中SMART项数量前，通过以下步骤对SMART项交集进行预处理：

1)计算SMART项交集中每一个SMART项在全部SMART项中的方差；

5.如权利要求1所述的方法，其特征在于，通过以下步骤计算任意t种硬盘的SMART项交集中SMART项数量：

1)计算各种硬盘的SMART项交集中SMART项数量；

2)从SMART项交集中去除i种硬盘对应的SMART项，计算

个SMART项子交集中SMART项数量，1≤i≤k-1；

6.如权利要求5所述的方法，其特征在于，当计算SMART项交集中SMART项数量或任一SMART项子交集中SMART项数量大于设定阀值时，停止计算剩余SMART项子交集中SMART项数量。

7.如权利要求1所述的方法，其特征在于，进行第一机器模型训练的数据还包括SMART项权重x＝(g-2)/j、IO项权重y＝1-x，g为大于设定阀值的SMART项交集中的SMART项数量，j为各硬盘SMART项并集中的SMART项数量。

8.如权利要求1所述的方法，其特征在于，训练第一机器模型的算法包括逻辑回归、决策树、XGBOOST、LSTM或支持向量机；训练第二机器模型的算法包括逻辑回归、决策树、XGBOOST、LSTM或支持向量机。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序执行上述权利要求1-8中任一方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述权利要求1-8中任一方法。