CN116610484B

CN116610484B - 一种模型训练方法、故障预测方法、系统、设备以及介质

Info

Publication number: CN116610484B
Application number: CN202310890159.4A
Authority: CN
Inventors: 荆亚; 段谊海
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-03
Anticipated expiration: 2043-07-19
Also published as: CN116610484A

Abstract

本发明公开了一种模型训练方法、故障预测方法、系统、设备以及介质，涉及存储领域，包括以下步骤：构建硬盘故障训练样本集，所述样本集包含对应于故障状态的正样本和对应于健康状态的负样本；以所述样本集中每一个正样本为中心构建包括k个样本的邻域并判断所述k个样本是否满足预设条件；响应于所述k个样本满足预设条件，将所述k个样本中的负样本修正为正样本并利用修正后的样本集训练预测模型；基于训练结果调整k的大小并返回构建邻域的步骤，直到所述预测模型符合预期。本发明提出的方案以每一个正样本构建邻域，从而对数据集中的样本的标签进行修正，并利用修正后的样本集训练模型，提升了模型的准确度。

Description

一种模型训练方法、故障预测方法、系统、设备以及介质

技术领域

本发明涉及存储领域，具体涉及一种模型训练方法、故障预测方法、系统、设备以及介质。

背景技术

数据的存储需求与日倍增，大规模海量数据存储中心是必不可少的基础性设施。大型数据中心采用传统的机械硬盘作为存储介质，在服务器硬件故障中，硬盘故障占比达到48%+，是影响服务器运行可靠性的重要因素。因此，业界期望使用机器学习技术来构建硬盘故障预测的模型，更准确地提前感知硬盘故障，降低运维成本，提升业务体验。

而通过机器学习对模型进行训练需要大量的数据，并且在构建训练集的每一个样本时，均需要对样本设置标签，现有的标签设置方法只是简单根据硬盘是否故障来区分正负样本，这样构建得到的训练集不够精准，训练得到的模型也不够准确。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种硬盘故障预测模型训练方法，包括以下步骤：

构建硬盘故障训练样本集，所述样本集包含对应于故障状态的正样本和对应于健康状态的负样本；

以所述样本集中每一个正样本为中心构建包括k个样本的邻域并判断所述k个样本是否满足预设条件；

响应于所述k个样本满足预设条件，将所述k个样本中的负样本修正为正样本并利用修正后的样本集训练预测模型；

基于训练结果调整k的大小并返回构建邻域的步骤，直到所述预测模型符合预期。

在一些实施例中，所述构建硬盘故障训练样本集的步骤，进一步包括：

统计出现所述故障状态的硬盘在故障前预设时间段内每一个特征的值的第一概率分布以及统计对应于所述健康状态的硬盘在预设时间段内每一个特征的值的第二概率分布；

计算每一个特征对应的所述第一概率分布和第二概率分布之间的散度；

根据所述散度的大小确定构建样本的若干个特征。

在一些实施例中，所述根据所述散度的大小确定构建样本的若干个特征的步骤，进一步包括：

根据所述散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

在一些实施例中，还包括：

将硬盘在出现所述故障状态时采集到的若干个特征的值作为一个正样本，未出现所述故障状态时每次采集到的若干个特征的值作为一个负样本。

在一些实施例中，还包括：

将对应于所述健康状态的硬盘每次采集到的若干个特征的值作为一个负样本。

统计若干个出现所述故障状态的硬盘在故障前预设时间段内每一个特征的值的第三概率分布以及统计若干个对应于所述健康状态的硬盘在预设时间段内每一个特征的值的第四概率分布；

计算每一个特征对应的第三概率分布与第四概率分布之间的散度以得到每一个特征对应的多个散度；

将每一个特征对应的多个散度进行加权计算得到最终的散度；

根据所述最终的散度的大小确定构建样本的若干个特征。

在一些实施例中，所述将每一个特征对应的多个散度进行加权计算得到最终的散度的步骤，进一步包括：

计算每一个特征对应的多个散度的平均值并将所述平均值作为最终的散度。

在一些实施例中，所述根据所述最终的散度的大小确定构建样本的若干个特征的步骤，进一步包括：

根据所述最终的散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

在一些实施例中，所述以所述样本集中每一个正样本为中心构建包括k个样本的邻域的步骤，进一步包括：

分别计算每一个所述正样本与剩余所有样本之间的欧式距离并基于所述欧式距离从小到大排序所述剩余所有样本以确定前k个样本。

在一些实施例中，所述响应于所述k个样本满足预设条件，将所述k个样本中的负样本修正为正样本的步骤，进一步包括：

确定每一个所述正样本对应的前k个样本中正样本的占比；

若正样本的占比大于阈值，则将所述前k个样本中的负样本修正为正样本。

在一些实施例中，所述利用修正后的样本训练预测模型的步骤，进一步包括：

基于同一个硬盘的对应的多个样本构建矩阵，其中，矩阵的列为同一个特征在不同时间采集得到的值，每一个行构成一个样本；

对每一列分别进行窗口权重平滑取值并将得到的值依次作为新的列加入矩阵的最后一列之后以得到第二矩阵；

将所述第二矩阵的每一行重新构成一个样本，重新构成的样本的标记与原始样本的标记相同；

利用重新构成的样本训练预测模型。

在一些实施例中，所述对每一列分别进行窗口权重平滑取值并将得到的值依次作为新的列加入矩阵的最后一列之后以得到第二矩阵的步骤，进一步包括：

根据公式对每一列分别进行窗口权重平滑取值；

其中，i取值为0到（n-2），n为窗口大小，m为行编号，w为权重。

将所述第二矩阵的前（n-1）行删除。

在一些实施例中，所述基于训练结果调整k的大小并返回构建邻域的步骤，直到所述预测模型符合预期的步骤，进一步包括：

基于训练结果调整k、n和w取值并返回构建邻域的步骤，直到所述预测模型符合预期。

在一些实施例中，所述基于训练结果调整k、n和w取值并返回构建邻域的步骤，直到所述预测模型符合预期的步骤，进一步包括：

每次调整k、n和w取值时，分别固定任意两个参数，调整另一个参数。

构建测试集；

直接利用所述测试集中的每一个样本对训练后的所述预测模型进行测试以确定所述预测模型是否符合预期。

在一些实施例中，还包括：

判断所述预测模型的准确率和误报率是否满足阈值；

响应于满足阈值，则确定所述预测模型符合预期。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种硬盘故障预测方法，包括：

基于如上所述的任一种所述硬盘故障预测模型训练方法训练预测模型；

利用训练后的所述预测模型对硬盘进行故障预测。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种硬盘故障预测系统，包括：

训练模块，配置为基于如上所述的任一种所述硬盘故障预测模型训练方法训练预测模型；

预测模块，配置为利用训练后的所述预测模型对硬盘进行故障预测。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时执行如上所述的任一种硬盘故障预测模型训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种硬盘故障预测模型训练方法的步骤。

本发明具有以下有益技术效果之一：本发明提出的方案以每一个正样本构建邻域，从而对数据集中的样本的标签进行修正，并利用修正后的样本集训练模型，提升了模型的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的硬盘故障预测模型训练方法的流程示意图；

图2为本发明的实施例提供的硬盘故障预测系统的结构示意图；

图3为本发明的实施例提供的计算机设备的结构示意图；

图4为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种硬盘故障预测模型训练方法，如图1所示，其可以包括步骤：

S1，构建硬盘故障训练样本集，所述样本集包含对应于故障状态的正样本和对应于健康状态的负样本；

S2，以所述样本集中每一个正样本为中心构建包括k个样本的邻域并判断所述k个样本是否满足预设条件；

S3，响应于所述k个样本满足预设条件，将所述k个样本中的负样本修正为正样本并利用修正后的样本集训练预测模型；

S4，基于训练结果调整k的大小并返回构建邻域的步骤，直到所述预测模型符合预期。

本发明提出的方案以每一个正样本构建邻域，从而对数据集中的样本的标签进行修正，并利用修正后的样本集训练模型，提升了模型的准确度。

根据所述散度的大小确定构建样本的若干个特征。

根据所述散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

具体的，可以统计出现故障状态的硬盘在故障前的预设时间段内每一个特征的值的第一概率分布，例如若特征A在一段时间内的采集到的值为（a、b、a、c、b、a、c……），则分布统计值为a时的概率，值为b时的概率，值为c时的概率，得到第一概率分布。同样的，统计处于健康状态的硬盘在预设时间段内每一个特征的值的第二概率分布，然后计算同一个特征的两个概率分布之间的散度（例如KL散度），根据散度的大小选择相应的特征构建样本，在本发明的实施例中，可以选择散度较大的前7项smart特征构建样本。因在发明的实施例中，是比较出现故障状态的硬盘和未出现故障状态的硬盘的同一个特征的值的两个概率分布之间的散度，因此当散度越大，说明该特征与硬盘的故障状态越相关，从而构建出的样本集越精准。

在一些实施例中，在进行特征项筛选前，可以先对数据集进行异常值过滤、Nan(非数)删除等预处理。

在一些实施例中，还包括：

具体的，可以将硬盘在出现故障状态时采集到的若干个特征的值作为一个正样本，在故障前每次采集到的若干个特征的值均作为一个负样本，即在本发明的实施例中，初始的正样本为硬盘发生故障时采集到的特征的值，只要其未发生故障即处于健康状态，每次采集到的若干个特征的值作为一个负样本。

根据所述最终的散度的大小确定构建样本的若干个特征。

根据所述最终的散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

具体的，可以统计多个出现故障状态的硬盘在故障前的预设时间段内每一个特征的值的第三概率分布，例如统计3个出现故障状态的硬盘在故障前的预设时间段内每一个特征的值的第三概率分布，这样每一个特征均有3个第三概率分布，同样的，统计多个处于健康状态的硬盘在预设时间段内每一个特征的值的第四概率分布，例如统计3个（或其他数量）处于健康状态的硬盘在预设时间段内每一个特征的值的第四概率分布，这样每一个特征均有3个第四概率分布，然后计算同一个特征的两个概率分布之间的散度（例如KL散度）得到多个散度，最后进行加权计算得到最终的散度。例如，同一个特征有3个第三概率分布和3个第四概率分布，分别利用每一个第三概率分布与每一个第四概率分布计算散度，得到9个散度，最后对9个散度进行加权计算，在本发明的一些实施例中，可以对9个散度计算平均值，将平均值作为最终的散度。同样可以选择散度较大的前7项smart特征构建样本。因在发明的实施例中，是比较出现故障状态的硬盘和未出现故障状态的硬盘的同一个特征的值的两个概率分布之间的散度，因此当散度越大，说明该特征与硬盘的故障状态越相关，从而构建出的样本集越精准。

确定每一个所述正样本对应的前k个样本中正样本的占比；

具体的，对于构建的样本集，其分别有正样本（标签为1，对应于故障状态时采集到的样本）、负样本（标签为0，对应于健康状态时采集到的样本），在训练集数据中遍历选取正样本数据点，分别计算其与剩余所有样本之间的距离（例如欧式距离），选择与其欧式距离最近的k个样本，然后分析这k个样本中正负样本的占比情况，若这k个样本中正样本数据比重大，则修改该k个数据中负样本的标签为1，以此对训练数据集进行标签修正。同时，使用测试数据集（测试集不进行标签修正）测试模型预测效果，可以分别调整邻域范围k取值为5、7、9、14、21验证，选择最合适的修正邻域范围。

利用重新构成的样本训练预测模型。

具体的，对于利用同一个硬盘采集到的多个样本构建矩阵，矩阵的每一行为一个样本，每一列为同一个特征在不同样本中的取值，也即不同时间采集到的数据。接着对每一列分别进行窗口权重平滑取值并将得到的值依次作为新的列依次加入矩阵的最后一列之后以得到第二矩阵，例如，原矩阵具有7列数据，对第一列进行窗口权重平滑取值得到新的一列数据，并作为第8列数据加入到最后一列，对第二列进行窗口权重平滑取值得到新的一列数据，并作为第9列数据加入到最后一列，以此类推，得到14列的第二矩阵，因此重新构成的每一个样本均包括14个数据。

根据公式对每一列分别进行窗口权重平滑取值；

将所述第二矩阵的前（n-1）行删除。

具体的，对于数据列为，假设矩阵的行为100，即x为100，滑动窗口大小为5，即n为5，权重为0.8，即w为0.8，则新得到的列中第100行的数据为y₁₀₀=0.8⁰*(a₁₀₀-a₉₉)+0.8¹*(a₉₉-a₉₈)+0.8²*(a₉₈-a₉₇)+0.8³*(a₉₇-a₉₆)，窗口内的数据为，窗口内数据平滑差值权重依次为，可计算第100行的数据/>的值。同理计算y₉₉=0.8⁰*(a₉₉-a₉₈)+0.8¹*(a₉₈-a₉₇)+0.8²*(a₉₇-a₉₆)+0.8³*(a₉₆-a₉₅)，窗口内的数据为，窗口内数据平滑差值权重依次为，可计算第99行/>的值，同理依据上述规则平滑窗口的位置，可算的新特征列/>并作为最后一列。由于计算得到的新的列没有前4个数据，因此在将所有的列均进行窗口权重平滑取值后，将第二矩阵的前4行删除。

具体的，可以基于训练结果调整k、n和w取值，即调整邻域大小、窗口大小和权值大小，并返回构建邻域的步骤，直到所述预测模型符合预期。在一些实施例中，可以分别固定参数k，窗口n，权重w三个参数中的2个，调整另一个参数，重复多次后，寻找最佳预测效果的组合。

构建测试集；

在一些实施例中，还包括：

判断所述预测模型的准确率和误报率是否满足阈值；

响应于满足阈值，则确定所述预测模型符合预期。

具体的，可以利用测试集对训练后的模型进行测试，并根据准确率和误报率确定模型是否符合预期。

本方案提出的方案通过计算正样本的邻域，从而对训练集中的样本标签进行校正，并使用平滑权重方式提取新的特征列，相比于其他数据处理方案，本方案模型的准确度能够提升约10%，误报率降低约2%，模型表现效果显著。

基于训练结果调整k的大小并返回构建邻域的步骤，直到所述预测模型符合预期；

利用训练后的所述预测模型对硬盘进行故障预测。

根据所述散度的大小确定构建样本的若干个特征。

根据所述散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

在一些实施例中，还包括：

根据所述最终的散度的大小确定构建样本的若干个特征。

根据所述最终的散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

确定每一个所述正样本对应的前k个样本中正样本的占比；

利用重新构成的样本训练预测模型。

根据公式对每一列分别进行窗口权重平滑取值；

将所述第二矩阵的前（n-1）行删除。

构建测试集；

在一些实施例中，还包括：

判断所述预测模型的准确率和误报率是否满足阈值；

响应于满足阈值，则确定所述预测模型符合预期。

基于同一发明构思，根据本发明的另一个方面，如图2所示，本发明的实施例还提供了一种硬盘故障预测系统400，包括：

训练模块401，配置为基于如上所述的任一种所述硬盘故障预测模型训练方法训练预测模型；

预测模块402，配置为利用训练后的所述预测模型对硬盘进行故障预测。

基于同一发明构思，根据本发明的另一个方面，如图3所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种硬盘故障预测模型训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图4所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序610，计算机程序610被处理器执行时执行如上的任一种硬盘故障预测模型训练方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质（例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，硬盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种硬盘故障预测模型训练方法，其特征在于，包括以下步骤：

所述构建硬盘故障训练样本集的步骤，进一步包括：

根据所述散度的大小确定构建样本的若干个特征。

2.如权利要求1所述的方法，其特征在于，所述根据所述散度的大小确定构建样本的若干个特征的步骤，进一步包括：

根据所述散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

3.如权利要求1所述的方法，其特征在于，还包括：

将硬盘在出现所述故障状态时采集到的所述若干个特征的值作为一个正样本，未出现所述故障状态时每次采集到的所述若干个特征的值作为一个负样本。

4.如权利要求3所述的方法，其特征在于，还包括：

将对应于所述健康状态的硬盘每次采集到的所述若干个特征的值作为一个负样本。

5.如权利要求1所述的方法，其特征在于，所述构建硬盘故障训练样本集的步骤，进一步包括：

根据所述最终的散度的大小确定构建样本的若干个特征。

6.如权利要求5所述的方法，其特征在于，所述将每一个特征对应的多个散度进行加权计算得到最终的散度的步骤，进一步包括：

7.如权利要求5所述的方法，其特征在于，所述根据所述最终的散度的大小确定构建样本的若干个特征的步骤，进一步包括：

根据所述最终的散度从大到小对每一个特征进行排序；

选择前m个特征作为构建样本的若干个特征。

8.如权利要求1所述的方法，其特征在于，所述以所述样本集中每一个正样本为中心构建包括k个样本的邻域的步骤，进一步包括：

9.如权利要求8所述的方法，其特征在于，所述响应于所述k个样本满足预设条件，将所述k个样本中的负样本修正为正样本的步骤，进一步包括：

确定每一个所述正样本对应的前k个样本中正样本的占比；

10.如权利要求1所述的方法，其特征在于，所述利用修正后的样本训练预测模型的步骤，进一步包括：

利用所述重新构成的样本训练预测模型。

11.如权利要求10所述的方法，其特征在于，所述对每一列分别进行窗口权重平滑取值并将得到的值依次作为新的列加入矩阵的最后一列之后以得到第二矩阵的步骤，进一步包括：

根据公式对每一列分别进行窗口权重平滑取值；

其中，i取值为0到（n-2），n为窗口大小，m为行编号，w为权重，其中，为新的列中第m行的数据，/>为每一列中第m-i行的数据。

12.如权利要求11所述的方法，其特征在于，所述对每一列分别进行窗口权重平滑取值并将得到的值依次作为新的列加入矩阵的最后一列之后以得到第二矩阵的步骤，进一步包括：

将所述第二矩阵的前（n-1）行删除。

13.如权利要求11所述的方法，其特征在于，所述基于训练结果调整k的大小并返回构建邻域的步骤，直到所述预测模型符合预期的步骤，进一步包括：

14.如权利要求13所述的方法，其特征在于，所述基于训练结果调整k、n和w取值并返回构建邻域的步骤，直到所述预测模型符合预期的步骤，进一步包括：

15.如权利要求1所述的方法，其特征在于，所述利用修正后的样本训练预测模型的步骤，进一步包括：

构建测试集；

16.如权利要求15所述的方法，其特征在于，还包括：

判断所述预测模型的准确率和误报率是否满足阈值；

响应于满足阈值，则确定所述预测模型符合预期。

17.一种硬盘故障预测方法，其特征在于，包括：

利用如权利要求1-16任一项权利要求所述的方法训练预测模型；

利用训练后的所述预测模型对硬盘进行故障预测。

18.一种硬盘故障预测系统，其特征在于，包括：

训练模块，配置为基于如权利要求1-16任一项权利要求所述的方法训练预测模型；

19.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-16任意一项所述的方法的步骤。

20.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-16任意一项所述的方法的步骤。