CN114385465A

CN114385465A - 一种故障预测方法、设备及存储介质

Info

Publication number: CN114385465A
Application number: CN202111536685.8A
Authority: CN
Inventors: 陈扬东; 饶俊明; 卢道和; 郑晓腾; 夏敏捷; 刘生庆; 魏江鑫
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-22

Abstract

本申请公开一种故障预测方法，该方法包括：获取待分析存储装置的目标属性参数的目标属性值；其中，所述目标属性参数包括可直接获取到的所述待分析存储装置属性参数；通过已训练好的第一故障预测模型，对所述目标属性值进行预测，得到所述待分析存储装置对应的至少一个第一故障预测结果；基于至少一个所述第一故障预测结果，确定所述待分析存储装置的目标预测结果；其中，所述目标预测结果用于指示所述待分析存储装置处于故障状态或处于非故障状态。本申请还公开一种故障预测设备和存储介质。

Description

一种故障预测方法、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种故障预测方法、设备及存储介质。

背景技术

随着计算机技术的飞速发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性和实时性要求，也对技术提出了更高的要求。随着互联网新兴技术的爆炸式发展，各种应用服务越来越丰富，随之产生的数据日益增长，对数据的存储要求也越来越高。目前，存储数据时的主流存储设备依然为硬盘。但是，硬盘在使用过程中容易出现故障，容易造成严重的影响。目前，为了保障数据的存储安全，通常对硬盘的自我监测分析和报告技术(Self-Monitoring Analysis andReporting Technology，S.M.A.R.T)数据进行监控，并根据监控到硬盘的S.M.A.R.T数据做出故障预测判断。

但目前在硬盘使用过程中，是将硬盘挂载于阵列卡卡中来实现的。而阵列卡处于不同厂商以及不同的标准协议，并未开放硬盘S.M.A.R.T属性的直接读取，导致预测判断过程中，可以采集到硬盘的S.M.A.R.T数据的样本较少，造成得到的最终预测模型只能对部分厂商提供的硬盘数据进行分析，导致最终预测模型的使用场景较小，最终得到的预测效果较差。

申请内容

为解决上述技术问题，本申请实施例期望提供一种故障预测方法、设备及存储介质，解决了目前由于不能采集到全面的硬盘的S.M.A.R.T数据而不能准确对每一厂商提供的硬盘的状态进行预测分析的问题，实现了一种无需基于硬盘的S.M.A.R.T数据对每一厂商提供的硬盘进行预测分析的方法，保证了预测效果，有效降低了硬盘出现故障时造成的损失。

本申请的技术方案是这样实现的：

第一方面，一种故障预测方法，所述方法包括：

获取待分析存储装置的目标属性参数的目标属性值；其中，所述目标属性参数包括可直接获取到的所述待分析存储装置的属性参数；

通过已训练好的第一故障预测模型，对所述目标属性值进行预测，得到所述待分析存储装置对应的至少一个第一故障预测结果；

基于至少一个所述第一故障预测结果，确定所述待分析存储装置的目标预测结果；其中，所述目标预测结果用于指示所述待分析存储装置处于故障状态或处于非故障状态。

第二方面，一种故障预测设备，所述设备包括：存储器、处理器和通信总线；其中：

所述存储器，用于存储可执行指令；

所述通信总线，用于实现所述处理器和所述存储器之间的通信连接；

所述处理器，用于执行所述存储器中存储的故障预测程序，实现如上述任一项所述的故障预测方法的步骤。

第三方面，一种存储介质，所述存储介质上存储有故障预测程序，所述故障预测程序被处理器执行时实现如上述任一项所述的故障预测方法的步骤。

本申请实施例中，通过获取待分析存储装置的目标属性参数的目标属性值后，通过已训练好的第一故障预测模型，对目标属性值进行预测，得到待分析存储装置对应的至少一个第一故障预测结果，并基于至少一个第一故障预测结果，确定待分析存储装置的目标预测结果。这样，通过已训练好的第一故障预测模型，对包括待分析存储装置可以直接获取到的属性参数的目标属性参数的目标属性值来进行预测，解决了目前由于不能采集到全面的硬盘的S.M.A.R.T数据而不能准确对每一厂商提供的硬盘的状态进行预测分析的问题，实现了一种无需基于硬盘的S.M.A.R.T数据对每一厂商提供的硬盘进行预测分析的方法，保证了预测效果，有效降低了硬盘出现故障时造成的损失。

附图说明

图1为本申请实施例提供的一种故障预测方法的流程示意图；

图2为本申请实施例提供的另一种故障预测方法的流程示意图；

图3为本申请实施例提供的又一种故障预测方法的流程示意图；

图4为本申请实施例提供的一种故障预测实现流程示意图；

图5为本申请另一实施例提供的一种故障预测方法的流程示意图；

图6为本申请实施例提供的一种决策树模型示意图；

图7为本申请另一实施例提供的另一种故障预测方法的流程示意图；

图8为本申请实施例提供的一种故障预测设备对应的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请的实施例提供一种故障预测方法，参照图1所示，方法应用于故障预测设备，该方法包括以下步骤：

步骤101、获取待分析存储装置的目标属性参数的目标属性值。

其中，目标属性参数包括可直接获取到的待分析存储装置的属性参数。

在本申请实施例中，待分析存储装置可以是用于实现存储功能的装置，例如可以是硬盘、磁盘、阵列卡，甚至还可以远程访问的远程存储设备等。目标属性参数可以是表明待分析存储装置存储性能，且故障预测设备可以直接读取到的参数。待分析存储装置可以是存储故障预测设备中设置的存储装置，也可以是其他电子设备中设置的存储装置，故障预测设备可以对其他电子设备中的存储装置的状态进行预测分析。

步骤102、通过已训练好的第一故障预测模型，对目标属性值进行预测，得到待分析存储装置对应的至少一个第一故障预测结果。

在本申请实施例中，第一故障预测模型可以是预先通过模型训练得到的，用于对存储装置的状态进行预测的模型。第一故障预测模型中包括至少一个可以用于对存储装置的目标属性参数进行判断分析，以确定存储装置的状态的策树模型，这样，通过第一故障预测模型对待分析存储装置目标属性参数的目标属性值进行预测时，可以得到待分析存储装置对应的至少一个第一故障预测结果。第一故障预测模型预测得到的第一故障预测结果的数量与第一故障预测模型包括的决策树模型的数量相同。

步骤103、基于至少一个第一故障预测结果，确定待分析存储装置的目标预测结果。

其中，目标预测结果用于指示待分析存储装置处于故障状态或处于非故障状态。

在本申请实施例中，存储装置预测设备对第一故障预测模型对待分析存储装置进行预测得到的至少一个第一故障预测结果进行分析，来确定得到待分析存储装置的最终的目标预测结果。

基于前述实施例，本申请的实施例提供一种故障预测方法，参照图2所示，方法应用于故障预测设备，该方法包括以下步骤：

步骤201、获取待分析存储装置的目标属性参数的目标属性值。

其中，目标属性参数包括可直接获取到的待分析存储装置的属性参数。目标属性参数包括以下参数至少之一：逻辑磁盘缓存策略参数、固件状态参数、磁盘状态参数、预测错误计数参数、介质错误计数参数、其他错误计数参数和磁盘温度参数。

在本申请实施例中，逻辑磁盘缓存策略参数、固件状态参数、磁盘状态参数、预测错误计数参数、介质错误计数参数、其他错误计数参数和磁盘温度参数这些参数时可以直接读取到的硬盘属性参数。

以待分析存储装置为服务器中安装的硬盘，故障预测设备为与服务器具有通信连接的电子设备为例进行说明，电子设备接收服务器发送的待分析存储装置的目标属性参数的目标属性值。

在一些应用场景下，待分析存储装置的目标属性参数的目标属性值还可以是针对待分析存储装置的目标属性参数的原始属性值进行预处理后得到的，例如获取到待分析存储装置的目标属性参数的原始属性值后，对该原始属性值进行归一化处理，以保证属性值均处于同一范围内，提高后续分析的准确性。

步骤202、获取样本存储装置的第一预设数量组第一历史样本数据。

其中，每一组第一历史样本数据包括样本存储装置的目标属性参数对应的历史属性值和对应的样本存储装置的实际结果。

在本申请实施例中，第一预设数量为根据大量实验得到的经验值，其越大表明样本越多，训练得到的第一故障预测模型越准确。样本存储装置的实际结果可以是指样本存储装置的目标属性参数为对应的历史属性值时，样本存储装置处于故障状态还是处于非故障状态。第一预设数量组第一历史样本数据可以是经过归一化处理后的样本数据。

步骤203、对第一预设数量组第一历史样本数据进行模型训练分析处理，得到第一故障预测模型。

在本申请实施例中，可以采用目标决策树算法来对第一预设数量组第一历史样本数据进行模型训练分析处理，其中，目标决策树算法可以是分类与回归树(Classificatioin and Regression Tree，CART)算法。

采用CART算法对第一预设数量组第一历史样本数据进行模型训练，得到第一故障预测模型。

其中，需说明的是，步骤202～203可以在步骤201之前执行，步骤202～203也可以作为一个独立的实施例来执行。步骤202～203作为独立的实施例来执行时，预先执行步骤202～203，得到第一故障预测模型，以便后续需要使用第一故障预测模型时即可调用第一故障预测模型。

步骤204、通过已训练好的第一故障预测模型，对目标属性值进行预测，得到待分析存储装置对应的至少一个第一故障预测结果。

在本申请实施例中，通过已训练好的第一故障预测模型对待分析存储装置的目标属性参数的目标属性值进行预测，得到至少一个第一故障预测结果。

步骤205、基于至少一个第一故障预测结果，确定待分析存储装置的目标预测结果。

在本申请实施例中，故障预测设备可以是从至少一个第一故障预测结果中确定结果相同且所占比例最高的第一故障预测结果为目标预测结果，也可以是采用其他处理方法对至少一个第一故障预测结果进行分析处理，从而从至少一个第一故障预测结果中选择处一个结果作为目标预测结果。

这样，通过采用目标决策树算法对样本存储装置的大量第一历史样本数据进行模型训练得到额第一故障预测模型，来对待分析存储装置可直接采集到的目标属性参数的目标属性参数值来进行预测分析，确定得到待分析存储装置的目标预测结果，实现了通过第一故障预测模型对任意厂商的待分析存储装置均可以进行预测分析的过程，有效保证了对待分析存储装置的预测效率。

基于前述实施例，在本申请其他实施例中，步骤203可以由步骤203a～203d来实现：

步骤203a、对第一预设数量组第一历史样本数据进行分组，得到待训练样本数据集和测试样本数据集。

在本申请实施例中，对第一预设数量组第一历史样本数据进行训练样本数据和测试样本分组处理，得到用于进行模型训练的待训练样本数据集和对训练的模型进行测试的测试样本数据集。对第一预设数量组第一历史样本数据进行训练样本数据和测试样本分组处理时，可以是从第一预设数量组第一历史样本数据中随机抽取一定数量组样本得到测试样本数据集，其余部分即可作为待训练样本数据集。

步骤203b、对待训练样本数据集中的元素进行分组，得到第二预设数量个子样本数据集。

在本申请实施例中，第二预设数量可以是根据大量实验得到的经验值，也可以是根据实际需求设置得到的，子样本数据集中的样本数量也可以是根据待训练样本数据集中的样本数量来确定得到的经验值。对待训练样本数据集中的元素进行分组时，可以采用随机分组的形式，将待训练样本数据随机分组为第二预设数量个包括一定数量样本数据的子样本数据集，还可以采用预设采样方法例如集成学习(Bootstrap Aggregating，Bagging)采样方法对待训练样本数据集中的元素进行采样分组，得到第二预设数量个子样本数据集。

步骤203c、对第二预设数量个子样本数据集进行决策树模型训练处理，确定至少一个第一参考决策树模型。

在本申请实施例中，可以采用目标决策树算法对第二预设数量个子样本数据集进行决策树模型训练处理，即采用CART算法对第二预设数量个子样本数据集进行决策树模型训练处理，得到至少一个第一参考决策树模型，第一参考决策树模型为CART决策树模型。

步骤203d、采用测试样本数据集对至少一个第一参考决策树模型进行测试处理，确定第一故障预测模型。

在本申请实施例中，采用测试样本数据集对训练得到的至少一个第一参考决策树模型进行测试处理，得到对应的测试结果后，根据测试结果与测试样本数据集中的样本存储装置的实际结果进行比较，根据比较结果确定第一故障预测模型。通过采用目标决策树算法对用于进行模型训练的待训练样本数据集进行模型训练，构建得到对应的模型后，采用用于对训练构建得到的模型进行性能测试的测试样本数据集对构建得到的对应的模型进行性能测试，若测试通过，即可得到第一故障预测模型，否则继续采用待训练样本数据集对对应的模型进行模型训练，直至最终得到的模型通过测试样本数据集的性能测试。

这样，通过将历史样本数据分为模型训练数据和测试数据来进行模型训练过程，有效保证了构建得到的第一故障预测模型的准确性。

基于前述实施例，在本申请其他实施例中，步骤203c可以由步骤a11～a12来实现：

步骤a11、对第二预设数量个子样本数据集进行决策树模型训练处理，确定至少一个第二参考决策树模型。

在本申请实施例中，可以采用目标决策树算法对第二预设数量个子样本数据集进行决策树模型训练处理，即采用CART算法对第二预设数量个子样本数据集进行决策树模型训练处理，得到根据对应的子样本数据集构建得到的至少一个第二参考决策树模型。

步骤a12、对至少一个第二参考决策树模型中每一第二参考决策树模型进行剪枝处理，确定至少一个第一参考决策树模型。

在本申请实施例中，可以采用目标剪枝算法来实现对至少一个第二参考决策树模型中每一第二参考决策树模型的剪枝处理过程，目标剪枝算法包括前剪枝算法和/后剪枝算法。进一步的，目标剪枝算法包括的后剪枝算法可以是悲观剪枝算法(PEP，PessimisticError Pruning)。

这样，通过采用目标剪枝算法对确定得到的至少一个第二参考决策树模型中的每一第二参考决策树模型进行剪枝处理，有效降低了生成的决策树模型的复杂度，并避免了决策树模型出现过拟合现象，提高了决策树模型预测的准确性。

基于前述实施例，在本申请其他实施例中，步骤204d可以由步骤b11～b14来实现：

步骤b11、采用测试样本数据集对至少一个第一参考决策树模型中的每一第一参考决策树模型进行测试，得到至少一个测试结果集。

在本申请实施例中，假设得到3个第一参考决策树模型A1、A2和A3时，采用测试样本数据集对第一参考决策树模型A1进行测试，得到第一参考决策树模型A1对应的测试结果集B1，采用测试样本数据集对第一参考决策树模型A2进行测试，得到第一参考决策树模型A2对应的测试结果集B2，采用测试样本数据集对第一参考决策树模型A3进行测试，得到第一参考决策树模型A3对应的测试结果集，如此，可以得到3个测试结构集B3。

步骤b12、基于至少一个测试结果集和测试样本数据集，统计每一第一参考决策树模型进行测试时，测试结果为故障状态时的第一准确率和测试结果为非故障状态时的第二准确率。

在本申请实施例中，由于存储装置在使用过程中仅包括两种状态，即故障状态和非故障状态。将每一测试结果集中的每一测试结果与测试样本数据集中对应的实际结果进行统计分析，即可统计得到测试结果为故障状态时的第一准确率和测试结果为非故障状态时的第二准确率。统计测试样本数据集中测试结果和实际结果均为故障状态的测试样本数据的第一数量，统计测试样本数据集中测试结果和实际结果均为非故障状态的测试样本数据的第二数量，同时测试样本数据集包括的测试样本数据的全部数量为第三数量，如此，第一准确率可以记为第一数量与第三数量的比值，第二准确率可以记为第二数量与第三数量的比值。

示例性的，假设测试样本数据集包括三个样本数据c1、c2和c3，对应的实际结果依次为故障状态、非故障状态和非故障状态时，对应的测试样本数据集可以表示为((c1，故障状态)，(c2，非故障状态)，(c3，非故障状态))，采用三个样本数据c1、c2和c3分别对第一参考决策树模型A1、A2和A3进行测试后，与三个样本数据c1、c2和c3对应的测试结果集B1假设为(故障状态，非故障状态，非故障状态)，此时，测试结果和实际结果均为故障状态的样本数据为c1，测试结果和实际结果均为非故障状态的样本数据为c2和c3，如此，可以确定第一参考决策树模型A1中的第一准确率为三分之一，第二准确率为三分之一二。同理，测试结果集B2假设为(非故障状态，非故障状态，非故障状态)时，对应的第一准确率为0，第二准确率为三分之二；测试结果集B3假设为(非故障状态，非故障状态，故障状态)时，对应的第一准确率为0，第二准确率为三分之一。

步骤b13、从至少一个第一参考决策树模型中，确定第一准确率大于或等于第一阈值，且第二准确率大于或等于第二阈值的决策树模型，得到至少一个第一目标决策树模型。

在本申请实施例中，第一阈值和第二阈值均是根据大量实验得到的经验值，也可以是用户根据实际需求进行设定得到的需求之，第一阈值可以与第二阈值相同，也可以不同。从至少一个第一参考决策树模型中，确定第一准确率和第二准确率均较高的决策树模型，得到至少一个第一目标决策树模型。

步骤b14、确定第一故障预测模型为至少一个第一目标决策树模型。

在本申请实施例中，将确定得到的至少一个第一目标决策树模型作为第一故障预测模型。

这样，通过选择第一正确率和第二正确率均较高的第一参考决策树模型来作为最终用于预测的第一故障预测模型，有效保证了第一故障预测模型的准确性和稳定的预测性能，提高了第一故障预测模型的预测准确率。

基于前述实施例，在本申请其他实施例中，步骤205可以由步骤205a～205e来实现：

步骤205a、确定每一第一目标决策树模型对应的权重系数，得到至少一个权重系数。

在本申请实施例中，每一第一目标决策树模型对应的权重系数可以是根据实际模型训练场景确定得到的经验值，也可以是根据每一第一目标决策树模型对应的第一准确率和第二准确率确定得到的。

步骤205b、基于至少一个第一故障预测结果，对至少一个第一目标决策树模型按照相同的故障预测结果进行分组，得到至少一组分组结果。

在本申请实施例中，基于至少一个第一目标决策树模型对待分析存储装置的第一故障预测结果，对至少一个第一目标决策树模型进行分组，得到至少一个分组结果。在第一故障预测结果为故障状态或非故障状态时，将第一故障预测结果为故障状态的第一目标决策树模型确定为一组分组结果，将第一故障预测结果为非故障状态的第一目标决策树模型确定为一组分组结果，从而得到两组分组结果。

步骤205c、采用预设算法对每一组分组结果对应的权重系数进行计算处理，得到至少一个参考计算结果。

在本申请实施例中，预设算法可以是简单的求和算法，也可以是求平均值算法等。示例性的，对每一组分组结果对应的权重系数进行累计和计算，得到至少一个参考计算结果，在第一预测故障结果为故障状态或非故障状态两种结果时，对应的得到的是两个参考计算结果。

步骤205d、从至少一个参考计算结果中，确定目标计算结果。

在本申请实施例中，在权重系数越大，表明预测结果越准确时，从至少一个参考计算结果中，选择参考计算结果最大的参考计算结果为目标计算结果。

步骤205e、确定目标预测结果为目标计算结果对应的第一故障预测结果。

在本申请实施例中，假设目标计算结果与第一故障预测结果非故障状态对应，因此可以确定待分析存储装置的目标预测结果为非故障状态。

这样，根据权重系数对待分析存储装置的多个第一故障预测结果进行量化分析，充分考虑了不同第一目标决策树模型的影响，提高了最终得到的目标预测结果的可靠性。

基于前述实施例，在本申请其他实施例中，参照图3所示，故障预测设备执行步骤205之后，还用于执行步骤206～209：

步骤206、确定新增的参考数量组第二历史样本数据。

在本申请实施例中，新增的参考数量组第二历史样本数据可以是得到第一预测故障模型后，新增的包括存储装置的实际结果的第二历史样本数据。参考数量为实际情况中增长的样本的数量，由实际情况决定。

步骤207、若参考数量组第二历史样本数据包括的参考属性参数与目标属性参数相同，采用第一故障预测模型对参考数量组第二历史样本数据进行预测，得到参考数量个第二故障预测结果。

在本申请实施例中，若参考数量组第二历史样本数据包括的参考属性参数与目标属性参数不同，则基于参考数量组第二历史样本数据参照步骤202～203的实现过程进行模型训练，得到对应的故障预测模型。

若参考数量组第二历史样本数据包括的参考属性参数与目标属性参数相同，通过新增的参考数量组第二历史样本数据来对第一故障预测模型进行更新，以保证最终得到的第一故障预测模型的准确性。第一故障预测模型对参考数量组第二历史样本数据进行预测处理的过程与第一故障预测模型对前述待分析存储装置的目标属性值进行预测的过程相同，此处不再详细赘述。

步骤208、从参考数量组第二历史样本数据中，确定实际结果与对应的第二故障预测结果不同的第二历史样本数据，得到至少一个目标样本数据。

其中，每一组第二历史样本数据包括样本存储装置的目标属性参数对应的历史属性值和对应的样本存储装置的实际结果。

在本申请实施例中，将每一第二故障预测结果与对应的第二历史样本数据中包括的实际结果进行比较分析，确定出第二故障预测结果与对应的第二历史样本数据包括的实际结果不同的第二历史样本数据，得到至少一个目标样本数据。

在一些应用场景下，每一第二故障预测结果也可以与参考数量组第二历史样本数据中的实际结果均相同，此时，没有目标样本数据，该情况下，无需对第一故障预测模型进行更新。

步骤209、基于至少一个目标样本数据更新第一故障预测模型，得到第二故障预测模型。

在本申请实施例中，通过确定的至少一个目标样本数据对第一故障预测模型进行更新处理，得到第二故障预测模型。

这样，通过对新增的样本数据进行选择处理，有效减少了对新增样本的处理资源消耗，能利用己有的第一故障预测模型，对新增部分进行快速地学习，减小增量学习的算法时间开销，并随着样本集的积累逐步提高了学习精度。

基于前述实施例，在本申请其他实施例中，步骤209可以由步骤209a～209d来实现：

步骤209a、添加至少一个目标样本数据至每一第一目标决策树模型的根节点，得到至少一个第二目标决策树模型。

在本申请实施例中，将确定得到的至少一个目标样本数据添加至第一预测故障模型包括的至少一个第一目标决策树模型的根节点中，以便后续从每一第一目标决策树模型的根节点进行分析。

步骤209b、从每一第二目标决策树模型的根节点开始，对每一第二目标决策树模型的节点包括的样本数据进行分割处理，直至每一第二目标决策树模型的节点为叶子节点，得到至少一个第三目标决策树模型。

在本申请实施例中，可以采用目标模型更新算法来对对每一第二目标决策树模型的节点包括的样本数据进行分割处理，其中，目标模型更新算法可以是贪心算法，这样，利用贪心算法对每一第二目标决策树模型分支路上的决策点进行重新确定，直至每一第二目标决策树模型的节点不能进行决策，成为叶子节点，如此，对至少一个第二目标决策树进行处理，得到至少一个第三目标决策树。

步骤209c、确定第二故障预测模型为至少一个第三目标决策树模型。

步骤209d、更新第一故障预测模型为第二故障预测模型。

在本申请实施例中，确定得到第二故障预测模型后，将第一故障预测模型更新为第二故障预测模型，以进行采用更新后的第一故障预测模型继续进行预测处理。

这样，通过对增量样本数据进行处理，以对第一故障预测模型进行更新，实现了具备增量学习的能力，保证了第一故障预测模型的实时性以及准确性，随着样本量的增长，大大提高了第一故障预测模型的预测精度。

基于前述实施例，本申请实施例提供一种故障预测实现流程，针对待分析存储装置为硬盘时，参照图4所示，该流程包括训练阶段和预测阶段。其中：在训练阶段，获取大量历史样本数据，即前述第一预设数量组第一历史样本数据后，将大量历史样本数据分成训练数据集即前述待训练样本数据集，和测试数据集即前述测试样本数据集，对训练数据集进行模型训练，并对训练得到的模型采用测试数据集进行性能测试和评估后，得到故障预测模型即前述第一故障预测模型；在预测阶段，获取到待分析硬盘的预测数据即前述目标属性参数的目标属性值后，采用故障预测模型进行预测，得到故障预测结果。

其中，历史样本数据中包括硬盘关键指标数据即前述目标属性参数，以包括以下7个参数为例进行说明：逻辑磁盘缓存策略参数、固件状态参数、磁盘状态参数、预测错误计数参数、介质错误计数参数、其他错误计数参数和温度参数。由于上述7个硬盘关键指标数据代表了硬盘运行过程中的不同监测硬盘关键指标数据，不同硬盘的硬盘关键指标数据的属性值所代表的含义、硬盘关键指标数据的属性值的量纲和硬盘关键指标数据的属性值的范围可能不同，所以在建立故障预测模型即前述第一故障预测模型前，对采集到的大量原始样本数据进行归一化处理得到历史样本数据。归一化处理方法例如可以是最小(min)-最大(max)标准化方法，这样，大量原始样本数据通过线性变换后，硬盘关键指标数据的属性值的取值范围处为[0，1]内，min-max标准化方法对应的归一公示公式可以记为：x_nomal＝(x-x_min)/(x_max-x_min)；其中，x表示大量原始样本数据中某一硬盘关键指标数据对应的属性值，x_nomal为该某一硬盘关键指标数据对应的属性值进行归一化处理后对应的归一化属性值，x_min为大量原始样本数据中该某一硬盘关键指标数据对应的所有属性值中的最小值，x_max为大量原始样本数据中该某一硬盘关键指标数据对应的所有属性值中的最大值。

故障预测设备对训练数据集进行模型训练的具体过程可以参照图5所示，具体包括以下实现步骤：

步骤301、采用Bagging采样方法对训练数据集中的样本数据进行采样处理，生成多个子样本数据集。

步骤302、利用CART决策树算法，基于多个子样本数据集构建CART决策树。

步骤303、利用随机森林算法对构建得到的CART决策树进行组合，构成随机森林故障预测模型。

其中，随机森林故障预测模型与前述第一故障预测模型对应。

示例性的，随机森林故障预测模型中的一个第一目标决策树模型可以参照图6所示，图6中的第一目标决策树模型是对硬盘D1、硬盘D2、硬盘D3和硬盘D4的硬盘关键指标数据采用随机森林算法构建得到的，其中，图6中D1和D4所在的叶子节点所处的预测结果为故障状态，可以将叶子节点D1和D4的标签设置为故障状态，D3和D2所在叶子节点所处的预测结果为正常状态，可以将叶子节点D3和D2的标签设置为正常状态。

在本申请其他实施例中，步骤303可以由步骤303a～303d来实现：

步骤303a、采用剪枝算法对决策树进行剪枝操作，得到剪枝后的CART决策树。

其中，剪枝操作是决策树构建的必要过程，通过剪枝操作一方面可以降低决策树的复杂度，另一方面可以避免决策树的过拟合现象，提高决策树预测的准确性。决策树的基本剪枝算法主要包括前剪枝和后剪枝，前剪枝算法主要是通过限制树的高度，限制树中叶子节点的个数等限制决策树的过分生长；后剪枝算法则是在训练数据集上生成一棵完整的决策树，然后将决策树中非叶节点的子树替换为相应的叶节点，如果决策树的性能不下降，则将该子树替换为叶节点。前剪枝算法的相关设置在决策树建立之前，后剪枝算法的执行是在决策树建立之后，综合了更多决策树的全局信息。在本申请实施例中，可以采用悲观剪枝算法对构建得到的决策树进行剪枝操作，悲观剪枝算法是不需要单独的剪枝数据集的自上而下的后剪枝算法，主要根据训练数据集得到错误估计，来进行剪枝操作。悲观剪枝算法实现过程中，假设N_t表示决策树中的任意一个非叶子节点，T_t表示决策树中以节点N_t为根节点的子树，N_l(T_t)表示子树T_t中所有叶子节点的集合，|N_l(T_t)|表示子树T_t中叶子节点的个数，n(N_t)表示决策树的节点N_t中包含样本的数量，e(N_t)表示决策树的节点N_t中不属于节点N_t所标识类别的样本数。如果决策树中的非叶子节点N_t以及以此节点为根节点的子树T_t满足式公式e′(N_t)≤e′(T_t)+SE(e′(T_t))时，对以节点N_t为根节点的子树T_t做剪枝操作。上述公式中：

步骤303b、采用测试数据集中的测试样本数据，对剪枝后的CART决策树进行测试，得到测试结果。

步骤303c、基于测试结果，统计测试结果为正常硬盘时对应的第一准确率和测试结果为故障状态时的第二准确率。

其中，测试结果为正常状态与前述非故障状态对应。在统计第一准确率和第二准确率过程中，可以通过混淆矩阵来实现统计过程。混淆矩阵如表1所示，是对每一样本的测试结果和实际结果进行统计得到的，在表1中：TP用于表示测试结果为故障状态，且实际结果也为故障状态的样本数量；FP用于表示测试结果为正常状态，且实际结果为故障状态的样本数量；FN用于测试结果为故障状态，且实际结果为正常状态的样本数量，TN用于表示测试结果为正常状态，且实际结果也为正常状态的样本数量。其中，在数据均衡的情况下，准确率的值越高，表明故障预测模型的预测质量越高。

表1

如此，第一准确率x1对应的计算公式可以记为：x1＝TP/(TP+FP+FN+TN)，第二准确率x2对应的计算公式可以记为：x2＝TN/(TP+FP+FN+TN)。

步骤303d、选择第一准确率和第二准确率均高于80％的剪枝后的CART决策树，得到随机森林故障预测模型。

如此，得到随机森林故障预测模型后，利用随机森林故障预测模型进行预测时，输入待分析硬盘的硬盘关键指标数据，根据待分析硬盘的硬盘关键指标数据在决策树节点进行遍历，记录到达随机森林故障预测模型中包括的每一决策树模型中叶子节点的标签例如故障状态或正常状态，从而获得随机森林故障预测模型的预测结果，最后对随机森林故障预测模型中所有决策树模型的预测结果进行统计，综合每一决策树模型的决策权重，选择权重总和最高的分类结果作为随机森林故障预测模型预测的最终结果，即前述目标预测结果。

其中，确定每一决策树模型的决策权重的具体实现过程可以为：根据随机森林故障预测模型在训练数据集上的预测准确性，为每一决策树模型分配决策权重，准确率越高的决策树模型具有越高决策权重。每一决策树模型的决策权重可以记为

Accu(T_i)表示决策树T_i在训练数据集上预测的准确率，为决策树T_i的第一准确率和第二准确率的和值，n为随机森林故障预测模型包括的决策树模型的总数。

选择权重总和最高的分类结果作为随机森林故障预测模型预测的最终结果的具体实现过程为：对随机森林故障预测模型中所有决策树模型的预测结果按照故障状态和正常状态进行分类，得到两类预测结果，计算每一类预测结果对应的决策树模型对应的决策权重的累计和，若正常状态类预测结果对应的累加和值大于故障状态类预测结果对应的累加和值，确定最终结果为正常状态，若正常状态类预测结果对应的累加和值小于故障状态类预测结果对应的累加和值，确定最终结果为故障状态。

硬盘的数据每天都在不断的更新，传统随机森林算法在每次训练的开始需要一次性地将所有数据读入内存，当数据量过大时，需要对数据集中的数据进行选择，才能完成训练任务，破坏了数据的完整性；同时，当面对训练数据并非一次性完整获得而是不断新增的场景，当有新数据样本加入时，算法将不得不通过新数据和历史数据进行融合，重新建立模型来给出最新的预测结果，导致算法的效率降低，因此，故障预测设备可以用于采用新增数据对随机森林故障预测模型进行更新，具体实现过程参照图7所示，故障预测设备在执行步骤303之后，还可以用于执行步骤304～305：

步骤304、确定新增数据样本集。

步骤305、采用贪心算法，基于新增数据样本集对随机森林故障预测模型进行更新处理，得到更新后的随机森林故障预测模型。

其中，步骤305的具体实现过程可以为：采用随机森林故障预测模型对新增数据样本集进行预测处理，得到新增数据样本集中样本数据的预测结果；从新增数据样本集中选取预测结果与实际结果不同的目标样本数据；若存在至少一个目标样本数据，将至少一个目标样本数据存储至随机森林故障预测模型包括的每一决策树模型的根节点中，采用贪心算法从每一决策树模型的根节点开始进行处理，针对每一更新后的节点，若新增数据改变了更新后的节点的类别，对该更新后的节点中的数据进行分割，如此，直至得到对应的叶子节点。

贪心算法从每一决策树模型的根节点开始进行处理的过程中，贪心算法需要重新确定每一决策树模型中分支路径上每个决策节点的最优分裂属性和分裂属性值。其中，最优分裂属性和分裂属性值是CART决策树基于基尼指数决定，一般选择基尼指数最小的属性作为节点的分裂属性。假设数据样本集为D，分割属性为A，则基尼指数表示样本集合中一个随机选中的样本被错误分类的概率，基尼指数

其中，|D|表示数据样本集D中包括的样本数据的个数，n表示数据样本集D被属性A分割后的数据子集个数，|D_j|表示数据样本集D被属性A分割后的数据子集中第j个数据子集D_j中数据的个数，Gini(D_j)表示第j个数据子集D_j的基尼指数，可以通过公式

计算得到，其中，k表示第j个数据子集D_j中类别的总数，|C_i|表示第j个数据子集D_j中类别为C_i的数据个数。

对新增样本数据进行随机森林故障预测模型进行更新的实现代码可以如下所示：

这样，通过选取硬盘的硬盘关键指标数据，通过改进随机森林算法即CART算法建立硬盘故障预测模型。同时采用PEP算法对随机森林故障预测模型中的决策树模型进行选择和剪枝操作，并采用决策权重的形式分配决策树对预测结果的影响，降低了随机森林故障预测模型的规模，提高算法的准确性。并提出了随机森林增量学习策略，可以在新的样本数据加入时，对随机森林故障预测模型进行更新，有效保证了更新后的随机森林孤战预测模型在预测准确性方面、时间复杂度和空间复杂度方面的性能的提高。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

基于前述实施例，本申请的实施例提供一种故障预测设备，参照图8所示，该故障预测设备4可以包括：存储器41、处理器42和通信总线43，其中：

存储器41，用于存储可执行指令；

通信总线43，用于实现处理器42和存储器41之间的通信连接；

处理器42，用于执行存储器41中存储的故障预测程序，以实现以下步骤：

获取待分析存储装置的目标属性参数的目标属性值；其中，目标属性参数包括可直接获取到的待分析存储装置的属性参数；

通过已训练好的第一故障预测模型，对目标属性值进行预测，得到待分析存储装置对应的至少一个第一故障预测结果；

基于至少一个第一故障预测结果，确定待分析存储装置的目标预测结果；其中，目标预测结果用于指示待分析存储装置处于故障状态或处于非故障状态。

在本申请其他实施例中，目标属性参数包括以下参数至少之一：逻辑磁盘缓存策略参数、固件状态参数、磁盘状态参数、预测错误计数参数、介质错误计数参数、其他错误计数参数和磁盘温度参数。

在本申请其他实施例中，处理器执行步骤通过已训练好的至少一个第一故障预测模型，对目标属性参数进行预测，得到待分析存储装置对应的至少一个第一故障预测结果之前，还用于执行以下步骤：

获取样本存储装置的第一预设数量组第一历史样本数据；其中，每一组第一历史样本数据包括样本存储装置的目标属性参数对应的历史属性值和对应的样本存储装置的实际结果；

对第一预设数量组第一历史样本数据进行模型训练分析处理，得到第一故障预测模型。

在本申请其他实施例中，处理器执行步骤对第一预设数量组第一历史样本数据进行模型训练分析处理，得到第一故障预测模型时，可以通过以下步骤来实现：

对第一预设数量组第一历史样本数据进行分组，得到待训练样本数据集和测试样本数据集；

对待训练样本数据集中的元素进行分组，得到第二预设数量个子样本数据集；

对第二预设数量个子样本数据集进行决策树模型训练处理，确定至少一个第一参考决策树模型；

采用测试样本数据集对至少一个第一参考决策树模型进行测试处理，确定第一故障预测模型。

在本申请其他实施例中，处理器执行步骤对第二预设数量个子样本数据集进行决策树模型训练处理，确定至少一个第一参考决策树模型时，可以通过以下步骤来实现：

对第二预设数量个子样本数据集进行决策树模型训练处理，确定至少一个第二参考决策树模型；

对至少一个第二参考决策树模型中每一第二参考决策树模型进行剪枝处理，确定至少一个第一参考决策树模型。

在本申请其他实施例中，处理器执行步骤采用测试样本数据集对至少一个第一参考决策树模型进行测试，确定第一故障预测模型时，可以通过以下步骤来实现：

采用测试样本数据集对至少一个第一参考决策树模型中的每一第一参考决策树模型进行测试，得到至少一个测试结果集；

基于至少一个测试结果集和测试样本数据集，统计每一第一参考决策树模型进行测试时，测试结果为故障状态时的第一准确率和测试结果为非故障状态时的第二准确率；

从至少一个第一参考决策树模型中，确定第一准确率大于或等于第一阈值，且第二准确率大于或等于第二阈值的决策树模型，得到至少一个第一目标决策树模型；

确定第一故障预测模型为至少一个第一目标决策树模型。

在本申请其他实施例中，处理器执行步骤基于至少一个第一故障预测结果，确定待分析存储装置的目标预测结果时，可以通过以下步骤来实现：

确定每一第一目标决策树模型对应的权重系数，得到至少一个权重系数；

基于至少一个第一故障预测结果，对至少一个第一目标决策树模型按照相同的故障预测结果进行分组，得到至少一组分组结果；

采用预设算法对每一组分组结果对应的权重系数进行计算处理，得到至少一个参考计算结果；

从至少一个参考计算结果中，确定目标计算结果；

确定目标预测结果为目标计算结果对应的第一故障预测结果。

在本申请其他实施例中，处理器还可以用于执行以下步骤：

确定新增的参考数量组第二历史样本数据；

若参考数量组第二历史样本数据包括的参考属性参数与目标属性参数相同，采用第一故障预测模型对参考数量组第二历史样本数据进行预测，得到参考数量个第二故障预测结果；

从参考数量组第二历史样本数据中，确定实际结果与对应的第二故障预测结果不同的第二历史样本数据，得到至少一个目标样本数据；其中，每一组第二历史样本数据包括样本存储装置的目标属性参数对应的历史属性值和对应的样本存储装置的实际结果；

基于至少一个目标样本数据更新第一故障预测模型，得到第二故障预测模型。

在本申请其他实施例中，处理器执行步骤基于至少一个目标样本数据更新第一故障预测模型，得到第二故障预测模型时，可以通过以下步骤来实现：

添加至少一个目标样本数据至每一第一目标决策树模型的根节点，得到至少一个第二目标决策树模型；

从每一第二目标决策树模型的根节点开始，对每一第二目标决策树模型的节点包括的样本数据进行分割处理，直至每一第二目标决策树模型的节点为叶子节点，得到至少一个第三目标决策树模型；

确定第二故障预测模型为至少一个第三目标决策树模型。

需要说明的是，本申请实施例中一个或者多个程序可被一个或者多个处理器的步骤的解释说明，可以参照图1～3对应的实施例提供的方法实现过程，此处不再赘述。

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，简称为存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如图1～3对应的实施例提供的故障预测方法实现过程，此处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种故障预测方法，其特征在于，所述方法包括：

获取待分析存储装置的目标属性参数的目标属性值；其中，所述目标属性参数包括可直接获取的所述待分析存储装置的属性参数；

2.根据权利要求1所述的方法，其特征在于，所述目标属性参数包括以下参数至少之一：逻辑磁盘缓存策略参数、固件状态参数、磁盘状态参数、预测错误计数参数、介质错误计数参数、其他错误计数参数和磁盘温度参数。

3.根据权利要求1或2所述的方法，其特征在于，所述通过已训练好的至少一个第一故障预测模型，对所述目标属性参数进行预测，得到所述待分析存储装置对应的至少一个第一故障预测结果之前，所述方法还包括：

获取样本存储装置的第一预设数量组第一历史样本数据；其中，每一组所述第一历史样本数据包括所述样本存储装置的目标属性参数对应的历史属性值和对应的所述样本存储装置的实际结果；

对所述第一预设数量组所述第一历史样本数据进行模型训练分析处理，得到所述第一故障预测模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一预设数量组所述第一历史样本数据进行模型训练分析处理，得到所述第一故障预测模型，包括：

对所述第一预设数量组所述第一历史样本数据进行分组，得到待训练样本数据集和测试样本数据集；

对所述待训练样本数据集中的元素进行分组，得到第二预设数量个子样本数据集；

对所述第二预设数量个所述子样本数据集进行决策树模型训练处理，确定至少一个第一参考决策树模型；

采用所述测试样本数据集对至少一个所述第一参考决策树模型进行测试处理，确定所述第一故障预测模型。

5.根据权利要求4所述的方法，其特征在于，所述对所述第二预设数量个所述子样本数据集进行决策树模型训练处理，确定至少一个第一参考决策树模型，包括：

对所述第二预设数量个所述子样本数据集进行决策树模型训练处理，确定至少一个第二参考决策树模型；

对至少一个所述第二参考决策树模型中每一所述第二参考决策树模型进行剪枝处理，确定至少一个所述第一参考决策树模型。

6.根据权利要求4或5所述的方法，其特征在于，所述采用所述测试样本数据集对至少一个所述第一参考决策树模型进行测试，确定所述第一故障预测模型，包括：

采用所述测试样本数据集对至少一个所述第一参考决策树模型中的每一所述第一参考决策树模型进行测试，得到至少一个测试结果集；

基于至少一个所述测试结果集和所述测试样本数据集，统计每一所述第一参考决策树模型进行测试时，测试结果为故障状态时的第一准确率和测试结果为非故障状态时的第二准确率；

从至少一个所述第一参考决策树模型中，确定所述第一准确率大于或等于第一阈值，且所述第二准确率大于或等于第二阈值的决策树模型，得到至少一个第一目标决策树模型；

确定所述第一故障预测模型为至少一个所述第一目标决策树模型。

7.根据权利要求6所述的方法，其特征在于，所述基于至少一个所述第一故障预测结果，确定所述待分析存储装置的目标预测结果，包括：

确定每一所述第一目标决策树模型对应的权重系数，得到至少一个权重系数；

基于至少一个所述第一故障预测结果，对至少一个所述第一目标决策树模型按照相同的故障预测结果进行分组，得到至少一组分组结果；

采用预设算法对每一组所述分组结果对应的所述权重系数进行计算处理，得到至少一个参考计算结果；

从至少一个所述参考计算结果中，确定目标计算结果；

确定所述目标预测结果为所述目标计算结果对应的第一故障预测结果。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

确定新增的参考数量组第二历史样本数据；

若所述参考数量组所述第二历史样本数据包括的参考属性参数与所述目标属性参数相同，采用所述第一故障预测模型对所述参考数量组所述第二历史样本数据进行预测，得到参考数量个第二故障预测结果；

从所述参考数量组第二历史样本数据中，确定实际结果与对应的所述第二故障预测结果不同的第二历史样本数据，得到至少一个目标样本数据；其中，每一组所述第二历史样本数据包括所述样本存储装置的目标属性参数对应的历史属性值和对应的所述样本存储装置的所述实际结果；

基于至少一个所述目标样本数据更新所述第一故障预测模型，得到第二故障预测模型。

9.根据权利要求8所述的方法，其特征在于，所述基于至少一个所述目标样本数据更新所述第一故障预测模型，得到第二故障预测模型，包括：

添加至少一个所述目标样本数据至每一所述第一目标决策树模型的根节点，得到至少一个第二目标决策树模型；

从每一所述第二目标决策树模型的根节点开始，对每一所述第二目标决策树模型的节点包括的样本数据进行分割处理，直至每一所述第二目标决策树模型的节点为叶子节点，得到至少一个第三目标决策树模型；

确定所述第二故障预测模型为至少一个所述第三目标决策树模型；

更新所述第一故障预测模型为所述第二故障预测模型。

10.一种故障预测设备，其特征在于，所述设备包括：存储器、处理器和通信总线；其中：

所述存储器，用于存储可执行指令；

所述处理器，用于执行所述存储器中存储的故障预测程序，实现如权利要求1至9中任一项所述的故障预测方法的步骤。

11.一种存储介质，其特征在于，所述存储介质上存储有故障预测程序，所述故障预测程序被处理器执行时实现如权利要求1至9中任一项所述的故障预测方法的步骤。