CN117251114A

CN117251114A - 模型训练方法、磁盘寿命预测方法、相关装置及设备

Info

Publication number: CN117251114A
Application number: CN202311286640.9A
Authority: CN
Inventors: 王雄; 曹紫莹; 许云中; 高志军; 陈晓帆; 周旭
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-19

Abstract

本申请公开了一种模型训练方法、磁盘寿命预测方法、模型训练装置、磁盘寿命预测装置、第一设备、第二设备及存储介质。其中，模型训练方法包括：确定训练数据集，所述训练数据集包含多个样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个自我监测分析和报告技术(SMART)指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；基于所述训练数据集，训练第一模型，所述第一模型用于预测目标磁盘的剩余使用寿命。

Description

模型训练方法、磁盘寿命预测方法、相关装置及设备

技术领域

本申请涉及深度学习技术领域，尤其涉及一种模型训练方法、磁盘寿命预测方法、相关装置及设备。

背景技术

在现代大规模存储系统中，磁盘(也可以称为硬盘)故障是制约系统稳定性的最主要因素之一。磁盘故障会导致用户数据丢失或损坏，系统读写性能降低，严重时还会导致系统故障和/或业务中断，造成极大的经济损失。

相关技术中，磁盘厂商可以采用自监测分析和报告技术(SMART，Self-MonitoringAnalysis and Reporting Technology)来监测磁盘的健康状态，并可以基于特定的设计规则制定故障检测手段来检测磁盘故障。

然而，对于如何实现磁盘故障的精准预测，相关技术尚未有有效解决方案。

发明内容

为解决相关技术问题，本申请实施例提供一种模型训练方法、磁盘寿命预测方法、相关装置及设备。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种模型训练方法，包括：

确定训练数据集，所述训练数据集包含多个样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；

基于所述训练数据集，训练第一模型，所述第一模型用于预测目标磁盘的剩余使用寿命。

上述方案中，所述多个样本包括多个正样本和多个负样本，所述正样本与发生故障的磁盘关联，所述负样本与从未发生故障的磁盘关联；所述确定训练数据集，包括：

针对每个正样本，确定正样本对应的第二日期和所述第一日期之间间隔的天数，所述第二日期是关联的磁盘发生故障的日期；在确定的天数小于第一阈值的情况下，将确定的天数确定为正样本对应的标签；在确定的天数大于或等于所述第一阈值的情况下，将所述第一阈值确定为正样本对应的标签；

将所述第一阈值确定为每个负样本对应的标签。

上述方案中，所述基于所述训练数据集，训练第一模型，包括：

基于所述训练数据集，采用约登指数(英文可以表达为Youden's index或Youden's Jstatistic，简称为J-index)法，从所述第一时序数据关联的多个SMART指标中选择M个SMART指标，并从所述第二时序数据关联的多个性能指标中选择N个性能指标，M和N为大于0的整数；

根据选择的M个SMART指标和N个性能指标，对所述训练数据集的每个样本进行时序特征的提取，得到每个样本对应的特征向量；

将所述训练数据集的每个样本对应的特征向量作为输入数据，训练所述第一模型。

上述方案中，所述第一模型包含第一层、第二层、第三层和第四层，所述第一层用于对输入的特征向量进行升维，所述第二层用于对所述第一层输出的特征向量进行位置编码(英文可以表达为Positional Encoding)，所述第三层用于采用基于批量标准化(BatchNorm，Batch Normalization)的转换器(Transformer)网络对所述第二层输出的特征向量进行处理，所述第四层用于采用双重回归的方式对所述第三层输出的特征向量进行分类以确定对应磁盘的剩余使用寿命；所述将所述训练数据集的每个样本对应的特征向量作为输入数据，训练所述第一模型，包括：

将所述训练数据集的每个样本对应的特征向量作为所述第一层的输入数据，对所述第一层、第二层、第三层和第四层进行训练。

上述方案中，在训练所述第一模型之前，所述方法还包括：

执行以下至少之一，以对所述第一模型进行初始化：

将Pseudo-Huber损失函数确定为所述第一模型的损失函数；

将均方根传播(RMSProp，Root Mean Square Propagation)算法确定为所述第一模型的优化算法；

将渗漏整流线性单元(Leaky ReLU，Leaky Rectified Linear Unit)函数确定为所述第一模型的激活函数；

确定所述第一模型的网络结构；

确定所述第一模型的学习率；

确定所述第一模型的随机失活(Dropout)参数。

本申请实施例还提供一种磁盘寿命预测方法，包括：

采集目标磁盘的待检测数据，所述待检测数据包含第一时序数据和第二时序数据，所述第一时序数据与所述目标磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述目标磁盘的服务器的多个性能指标关联；

利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，所述第一模型是采用上述任一模型训练方法训练的。

上述方案中，所述利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，包括：

根据所述多个SMART指标中的M个SMART指标和所述多个性能指标中的N个性能指标，对所述待检测数据进行时序特征的提取，得到所述目标磁盘对应的特征向量，M和N为大于0的整数；

将所述目标磁盘对应的特征向量输入所述第一模型，以使所述第一模型输出所述目标磁盘的剩余使用寿命。

本申请实施例还提供一种模型训练装置，包括：

第一处理单元，用于确定训练数据集，所述训练数据集包含多个样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；

第二处理单元，用于基于所述训练数据集，训练第一模型，所述第一模型用于预测目标磁盘的剩余使用寿命。

本申请实施例还提供一种磁盘寿命预测装置，包括：

采集单元，用于采集目标磁盘的待检测数据，所述待检测数据包含第一时序数据和第二时序数据，所述第一时序数据与所述目标磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述目标磁盘的服务器的多个性能指标关联；

预测单元，用于利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，所述第一模型是采用上述任一模型训练方法训练的。

本申请实施例还提供一种第一设备，包括：第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器，

其中，所述第一处理器用于运行所述计算机程序时，执行上述任一模型训练方法的步骤。

本申请实施例还提供一种第二设备，包括：第二处理器和用于存储能够在处理器上运行的计算机程序的第二存储器，

其中，所述第二处理器用于运行所述计算机程序时，执行上述任一磁盘寿命预测方法的步骤。

本申请实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤，或者实现上述任一磁盘寿命预测方法的步骤。

本申请实施例提供的模型训练方法、磁盘寿命预测方法、相关装置及设备，模型训练方法包括：确定训练数据集，所述训练数据集包含多个样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；基于所述训练数据集，训练第一模型，所述第一模型用于预测目标磁盘的剩余使用寿命。本申请实施例提供的方案，基于训练数据集包含的多个样本及每个样本对应的标签训练用于预测目标磁盘的剩余使用寿命的模型(即上述第一模型)，由于每个样本包括一块磁盘在特定日期(即上述第一日期)关联的、与磁盘的多个SMART指标关联的时序数据(即上述第一时序数据)和与挂载有磁盘的服务器的多个性能指标关联的时序数据(即上述第二时序数据)，并且，标签表征磁盘在特定日期的剩余使用寿命，而磁盘发生故障时会耗尽使用寿命，所以该模型能够结合磁盘的SMART指标及对应服务器的性能指标实现对磁盘的剩余使用寿命的精准预测，即对磁盘在特定时间范围内是否会发生故障进行精准预测；换句话说，利用该模型能够实现磁盘故障的精准预测，并能够实现磁盘的健康评估(可以理解为对磁盘使用寿命的评估)，如此，后续按照特定周期、周期性地(也可以理解为实时地)利用该模型预测目标磁盘的剩余使用寿命，能够完整、动态地描述磁盘健康状况/状态(也可以理解为运行状况/状态)的变化趋势，提前感知磁盘故障，从而能够提前更换寿命即将耗尽的亚健康磁盘以避免数据丢失或损坏，并避免系统故障和/或业务中断，从而能够确保存储系统的稳定运行，降低运维成本，提升基于该存储系统的大规模云平台的服务可靠性。

附图说明

图1为本申请实施例模型训练方法的流程示意图；

图2为本申请实施例磁盘寿命预测方法的流程示意图；

图3为本申请应用示例磁盘寿命预测框架结构示意图；

图4为本申请应用示例磁盘寿命预测网络(即第一模型)结构示意图；

图5为本申请实施例模型训练装置结构示意图；

图6为本申请实施例磁盘寿命预测装置结构示意图；

图7为本申请实施例第一设备结构示意图。

图8为本申请实施例第二设备结构示意图。

具体实施方式

下面结合附图及实施例对本申请再作进一步详细的描述。

相关技术中，可以训练基于机器学习或深度学习的故障预测模型来提前预测磁盘故障。然而，传统的基于机器学习或深度学习的故障预测模型本质上是分类模型，即判断磁盘在未来一段时间范围内是否会发生故障，这种浅层学习将对磁盘故障的预测粗暴地定义为二分类问题，无法描述磁盘健康状况的变化趋势，故障程度难以界定，且误报率较高，无法满足存储系统日渐严格的、提前预测磁盘故障的需求；换句话说，相关技术中的故障预测模型存在二分类判定引起的误报和故障程度难以界定等问题，对于如何实现磁盘故障的精准预测，相关技术尚未有有效解决方案。

基于此，在本申请的各种实施例中，基于训练数据集包含的多个样本及每个样本对应的标签训练用于预测目标磁盘的剩余使用寿命的模型，由于每个样本包括一块磁盘在特定日期关联的、与磁盘的多个SMART指标关联的时序数据和与挂载有磁盘的服务器的多个性能指标关联的时序数据，并且，标签表征磁盘在特定日期的剩余使用寿命，而磁盘发生故障时会耗尽使用寿命，所以该模型能够结合磁盘的SMART指标及对应服务器的性能指标实现对磁盘的剩余使用寿命的精准预测，即对磁盘在特定时间范围内是否会发生故障进行精准预测；换句话说，利用该模型能够实现磁盘故障的精准预测，并能够实现磁盘的健康评估(可以理解为对磁盘使用寿命的评估)，如此，后续按照特定周期、周期性地(也可以理解为实时地)利用该模型预测目标磁盘的剩余使用寿命，能够完整、动态地描述磁盘健康状况/状态(也可以理解为运行状况/状态)的变化趋势，提前感知磁盘故障，从而能够提前更换寿命即将耗尽的亚健康磁盘以避免数据丢失或损坏，并避免系统故障和/或业务中断，从而能够确保存储系统的稳定运行，降低运维成本，提升基于该存储系统的大规模云平台的服务可靠性。

本申请实施例提供了一种模型训练方法，应用于第一设备，如图1所示，该方法包括：

步骤101：确定训练数据集，所述训练数据集包含多个(即至少两个)样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能(英文可以表达为Performance)指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；

步骤102：基于所述训练数据集，训练第一模型，所述第一模型用于预测目标磁盘的剩余使用寿命。

其中，实际应用时，所述第一设备可以包括服务器等电子设备。并且，所述第一设备可以部署在基础设施即服务(IaaS，Infrastructure as a Service)层的存储系统的运维和/或管理中心；可以理解，所述第一设备具有采集存储系统中的每块磁盘及每个服务器的时序数据(即上述第一时序数据、第二时序数据)的能力。另外，IaaS层是指基础设施层，通常部署有海量的服务器，可以提供中央处理器(CPU)、内存、存储、网络和其他基本的计算资源。

实际应用时，所述样本也可以称为样本数据；所述第一时序数据也可以称为磁盘数据或SMART信息等；所述第二时序数据也可以称为性能数据或IaaS层性能数据等；本申请实施例对各种名称不作限定，只要实现其功能即可。

实际应用时，所述SMART指标是指记录磁盘生命周期相关的重要安全指标，可以包括由嵌入磁盘驱动器的固件所提供的硬件级的传感器数据；换句话说，SMART指标是由磁盘自身提供的指标，挂载有该磁盘的服务器可以通过一些组件/插件，或者通过磁盘提供的接口/功能来读取磁盘的SMART指标，比如磁盘的温度、磁盘的转速、磁盘的通电时间、计数等。另外，所述第一时序数据关联的SMART指标的具体数量可以根据需求来设置，比如70个、80个等，本申请实施例对此不作限定。

实际应用时，所述性能指标可以包括CPU使用率、CPU负载、内核状态、内存使用率、网络流量、输入和输出(IO)数据(比如磁盘的IO时延等)、以及服务响应速率等；可以理解，所述性能指标能够反映服务器的运行状态。另外，所述第二时序数据关联的性能指标的具体数量可以根据需求来设置，比如100个、200个、500个、1000个等，本申请实施例对此不作限定。

实际应用时，所述磁盘的剩余使用寿命的表现形式可以根据需求来设置；示例性地，所述磁盘的剩余使用寿命可以表现为剩余使用天数，当磁盘发生故障时，磁盘的剩余使用寿命为0。

实际应用时，虽然常规的故障预测只需要对样本数据加以区分(即区分正样本和负样本)来标注0或1，但在本申请实施例中，为了预测磁盘的剩余使用寿命，在所述磁盘的剩余使用寿命表现为剩余使用天数的情况下，需要针对每一块磁盘的样本数据，将当前实时的样本数据距离故障日期(后续描述中记作第二日期)的天数作为标签。考虑到在特定时间范围外(比如30天开外)的样本数据与磁盘的故障特征几乎没有相关性，所以可以针对标签设置一个阈值(后续描述中记作第一阈值)，在当前实时的样本数据距离第二日期的天数小于第一阈值的情况下，直接将当前实时的样本数据距离第二日期的天数确定为样本的标签；在当前实时的样本数据距离第二日期的天数大于或等于第一阈值的情况下，将第一阈值确定为样本的标签。

基于此，在一实施例中，所述多个样本包括多个正样本和多个负样本，所述正样本与发生故障的磁盘关联，所述负样本与从未发生故障的磁盘关联；所述确定训练数据集，可以包括：

将所述第一阈值确定为每个负样本对应的标签。

其中，实际应用时，所述第一阈值的取值可以根据需求来设置，比如30。示例性地，在所述第一阈值取值为30的情况下，当样本对应的第一日期为2023年1月13日、第二日期为2023年1月30日时，该样本的标签为17；当样本对应的第一日期为2023年4月20日、第二日期为2023年5月25日时，该样本的标签为30。

实际应用时，可以理解，所述第一阈值对应了一个时间范围，所述第一模型能够预测目标磁盘在该时间范围内是否会发生故障；示例性地，在所述第一阈值取值为30的情况下，当利用所述第一模型预测到目标磁盘的剩余使用寿命为30时，说明目标磁盘在30天内不会发生故障；当利用所述第一模型预测到目标磁盘的剩余使用寿命为15时，说明目标磁盘在30天内会发生故障。

实际应用时，所述第一时序数据关联的多个SMART指标中可能存在与磁盘的故障特征几乎没有相关性的SMART指标，所述第二时序数据关联的多个性能指标中也可能存在与磁盘的故障特征几乎没有相关性的性能指标。因此，需要采用特定的方式，从所述第一时序数据关联的多个SMART指标中选择与磁盘的故障特征存在较强相关性的SMART指标，并从所述第二时序数据关联的多个性能指标中选择与磁盘的故障特征存在较强相关性的性能指标，该方式可以根据需求来设置，比如约登指数(英文可以表达为Youden's index或Youden'sJ statistic，简称为J-index)法等。

基于此，在一实施例中，所述基于所述训练数据集，训练第一模型，可以包括：

基于所述训练数据集，采用约登指数法，从所述第一时序数据关联的多个SMART指标中选择M个SMART指标，并从所述第二时序数据关联的多个性能指标中选择N个性能指标，M和N为大于0的整数；

其中，实际应用时，M和N的大小可以相同或不同，M和N的取值具体可以根据需求来设置。示例性地，M的取值可以为14，N的取值可以为16。

实际应用时，考虑到各磁盘的厂商、型号、或规格等属性可能存在差异，服务器的性能指标的量纲也可能存在差异，所以对所述训练数据集的每个样本进行时序特征的提取后，可以根据时序特征的结构和/或分布等特点，采用归一化、差分、斜率等方式消除样本数据之间的差异(比如量纲差异等)。

实际应用时，所述第一模型所采用的具体网络结构可以根据需求来设置。示例性地，所述第一模型可以基于Transformer网络结构实现；其中，Transformer网络是一种通常被应用于语言翻译的序列模型，仅由注意(Attention)网络和前馈神经网络组成，可以被用来建模时序数据上下文信息；Attention是机器学习中的一种数据处理方法/机制，可以广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中，能够学习到更好的序列信息；基于Transformer网络结构实现所述第一模型，能够提高所述第一模型的性能。

基于此，在一实施例中，所述第一模型包含第一层、第二层、第三层和第四层，所述第一层用于对输入的特征向量进行升维，所述第二层用于对所述第一层输出的特征向量进行位置编码(英文可以表达为Positional Encoding)，所述第三层用于采用基于BatchNorm的Transformer网络对所述第二层输出的特征向量进行处理，所述第四层用于采用双重回归的方式对所述第三层输出的特征向量进行分类以确定对应磁盘的剩余使用寿命；所述将所述训练数据集的每个样本对应的特征向量作为输入数据，训练所述第一模型，可以包括：

实际应用时，所述第一层、第二层、第三层和第四层相关的具体参数可以根据需求来设置，本申请实施例对此不作限定，只要实现其功能即可。

在一实施例中，在训练所述第一模型之前，该方法还可以包括：

执行以下至少之一，以对所述第一模型进行初始化：

将Pseudo-Huber损失函数确定为所述第一模型的损失函数；

将RMSProp算法确定为所述第一模型的优化算法；

将Leaky Relu函数确定为所述第一模型的激活函数；

确定所述第一模型的网络结构；

确定所述第一模型的学习率；

确定所述第一模型的Dropout参数。

实际应用时，所述第一模型的学习率可以根据需求来设置，比如0.005、0.01等；所述第一模型的Dropout参数也可以根据需求来设置，比如0.3、0.4等。所述第一模型相关的具体参数均可以根据需求来设置，本申请实施例对此不作限定，只要实现其功能即可。

实际应用时，将Pseudo-Huber损失函数确定为所述第一模型的损失函数后，针对异常值鲁棒，可以通过delta参数剪裁梯度值，从而可以限制异常值对所述第一模型的性能的影响。

实际应用时，由于RMSProp是一种自适应学习率方法，在非凸条件下结果更好；将RMSProp算法确定为所述第一模型的优化算法后，可以通过改变梯度累积为指数衰减的移动平均以丢弃遥远的历史信息，从而能够加速所述第一模型的优化过程，例如减少达到最优值所需的迭代次数。

实际应用时，将Leaky Relu函数确定为所述第一模型的激活函数，能够避免陷入激活层的梯度饱和区，从而能够降低所述第一模型的收敛速度。

相应地，本申请实施例还提供了一种磁盘寿命预测方法，应用于第二设备，如图2所示，该方法包括：

步骤201：采集目标磁盘的待检测数据，所述待检测数据包含第一时序数据和第二时序数据，所述第一时序数据与所述目标磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述目标磁盘的服务器的多个性能指标关联；

步骤202：利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，所述第一模型是采用上述一个或多个技术方案提供的模型训练方法训练的。

其中，实际应用时，所述第二设备可以包括服务器等电子设备；并且，所述第二设备与所述第一设备可以相同或不同，即所述第二设备与所述第一设备可以是同一电子设备，也可以是两个不同的电子设备。可以理解，在所述第二设备与所述第一设备是两个不同的电子设备的情况下，所述第二设备能够与所述第一设备进行信息交互，比如，所述第一设备可以向所述第二设备传输训练/优化后的所述第一模型；再比如，所述第二设备可以将一段时间范围(时间范围的取值具体可以根据需求来设置)内所述第一模型的预测结果(即所述第一模型的输出数据)与对应的待检测数据关联后传输给所述第一设备，以供所述第一设备优化所述第一模型。

实际应用时，为了使用所述第一模型，需要采用与模型训练过程相同的特征提取方式对所述待检测数据进行时序特征的提取。

基于此，在一实施例中，所述利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，可以包括：

本申请实施例提供的模型训练方法和磁盘寿命预测方法，确定训练数据集，所述训练数据集包含多个样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；基于所述训练数据集，训练第一模型，所述第一模型用于预测目标磁盘的剩余使用寿命。本申请实施例提供的方案，基于训练数据集包含的多个样本及每个样本对应的标签训练用于预测目标磁盘的剩余使用寿命的模型(即上述第一模型)，由于每个样本包括一块磁盘在特定日期(即上述第一日期)关联的、与磁盘的多个SMART指标关联的时序数据(即上述第一时序数据)和与挂载有磁盘的服务器的多个性能指标关联的时序数据(即上述第二时序数据)，并且，标签表征磁盘在特定日期的剩余使用寿命，而磁盘发生故障时会耗尽使用寿命，所以该模型能够结合磁盘的SMART指标及对应服务器的性能指标实现对磁盘的剩余使用寿命的精准预测，即对磁盘在特定时间范围内是否会发生故障进行精准预测；换句话说，利用该模型能够实现磁盘故障的精准预测，并能够实现磁盘的健康评估(可以理解为对磁盘使用寿命的评估)，如此，后续按照特定周期、周期性地(也可以理解为实时地)利用该模型预测目标磁盘的剩余使用寿命，能够完整、动态地描述磁盘健康状况/状态(也可以理解为运行状况/状态)的变化趋势，提前感知磁盘故障，从而能够提前更换寿命即将耗尽的亚健康磁盘以避免数据丢失或损坏，并避免系统故障和/或业务中断，从而能够确保存储系统的稳定运行，降低运维成本，提升基于该存储系统的大规模云平台的服务可靠性。

另外，本申请实施例提供的方案，所述磁盘的剩余使用寿命可以表现为剩余使用天数，从而可以根据磁盘的剩余使用天数的大小来界定磁盘的故障程度，即磁盘的剩余使用天数越多，磁盘的故障程度越低；从而至少能够解决相关技术中的故障预测模型所存在的二分类判定引起的误报和故障程度难以界定等问题，实现磁盘故障的精准预测。

下面结合应用示例对本申请再作进一步详细的描述。

在本应用示例中，针对相关技术中的故障预测模型所存在的二分类判定引起的误报和故障程度难以界定等问题，提供一种精准的、基于Transformer网络/结构的磁盘寿命预测算法，也可以理解为一种磁盘寿命预测框架。具体地，根据样本数据的故障日期(即上述第二日期)和样本数据的当前日期(即上述第一日期)之间间隔的天数进行样本标签化，结合磁盘的SMART信息(即上述第一时序数据)和服务器的IaaS层性能数据(即上述第二时序数据)，提取对磁盘寿命影响显著的相关特征，并基于Attention网络(即Transformer网络)进行时空特征挖掘，从而实现精准的磁盘剩余使用寿命的预测，即预测一块磁盘剩余的安全使用时间，也即预测一块磁盘距离发生故障的天数。

在本应用示例中，如图3所示，所述磁盘寿命预测框架包括数据构建模块、样本标注模块、特征选择模块、特征变换模块、模型初始化模块、时序特征提取模块(也可以称为模型训练模块)和寿命分布预测模块。

其中，针对所述数据构建模块，由于基于深度学习的磁盘寿命预测需要海量的、多厂商的、多型号的磁盘数据(即上述第一时序数据)；并且，磁盘的寿命也会受到载体主机(即挂载有该磁盘的服务器)的性能影响，比如CPU使用率、CPU负载、内核状态、内存使用率、网络流量、IO数据(比如磁盘的IO时延等)、以及服务响应速率等相关性能数据(即上述第二时序数据)；其中，经实验效果证明，更多的性能监控指标有益于磁盘使用寿命的精准评估，比如CPU使用率、CPU负载、内核状态、内存使用率、网络流量、IO数据(比如磁盘的IO时延等)、以及服务响应速率等。因此，所述数据构建模块需要采集大量的磁盘SMART数据和性能数据(可以表示为IaaS-Performance数据)作为样本数据，以供后续模型训练使用。

针对所述样本标注模块，虽然常规的故障预测只需要对样本数据加以区分(即区分正样本和负样本)来标注0或1，但在本应用示例中，所述样本标注模块需要针对每一块磁盘对应的样本数据，将当前实时数据(即样本数据)距离故障日期(即上述第二日期)的天数作为标签，比如故障磁盘的更换日期(即磁盘的故障日期)为2023年1月30日，则在2023年1月13日时将样本标注为17(即标签为17)；经实验论证30(即上述第一阈值)天开外的磁盘的监控数据与磁盘的故障特征没有相关性，即无法通过已有的磁盘数据预测磁盘剩余使用寿命超过30天，所以如果当前实时数据距离故障日期的天数超过30天，则将标签标注为30，即默认的最大标签为30。

针对所述特征选择模块，由于磁盘的SMART指标和主机(即挂载有该磁盘的服务器)的IaSS层资源指标(即上述性能指标)的种类繁多，大部分指标特征对磁盘使用寿命没有明显价值，甚至会干预预测结果。因此，所述特征选择模块可以采用J-index进行特征筛选，并可以根据需求为每个特征设置一系列候选阈值，比如步长为0.01，从0到1，分别计算在该阈值下故障磁盘和健康磁盘的百分比，J-index值越大，代表该特征更容易区分故障磁盘和健康磁盘，从而可以选出前20个特征，包含14个SMART指标特征(即上述M个SMART指标)和16个性能指标特征(即上述N个性能指标)。

所述特征变换模块用于将部分时序累加特征采取差分的方式或者计算梯度的方式消除量纲，或者改变部分特征值的分布，从而消除样本数据之间的差异(比如量纲差异等)。

所述模型初始化模块用于定义损失函数、优化器、网络结构、激活函数、学习率、Dropout参数等。其中，损失函数可以采用Pseudo-Huber函数，针对异常值鲁棒，可以通过delta参数剪裁梯度值，从而可以限制异常值对模型性能的影响。优化器可以采用RMSProp，是一种自适应学习率方法，在非凸条件下结果更好，可以通过改变梯度累积为指数衰减的移动平均以丢弃遥远的历史信息，从而能够加速模型优化过程，例如减少达到最优值所需的迭代次数。激活函数可以采用Leaky Relu函数，能够避免陷入激活层的梯度饱和区，从而能够降低模型的收敛速度。

所述时序特征提取模块(也可以称为模型训练模块)用于采用Transformer网络作为骨干网进行时序特征的提取，并基于磁盘时序特征及IaaS层性能资源指标的数据维度和数据值域的分布(即基于每个样本在特征变换后的特征向量)，进行磁盘寿命预测网络(即上述第一模型)结构的优化，即进行模型训练。其中，所述磁盘寿命预测网络的结构如图4所示。首先，通过全连接(FC)层和卷积(即上述第一层)可以将输入特征(即每个样本在特征变换后的特征向量，在图4中表示为Input)进行升维，升维可以在数据中添加更多的非线性特征和特征关联信息；之后，位置编码层(即上述第二层)可以进行位置编码，以保持数据的时空特征；之后，可以将位置编码后的特征输入到Transformer层(即上述第三层)，通过采用BatchNorm代替常规的层标准化(LayerNorm，Layer Normalization)来减轻时间序列中异常值的影响，同时使每一层神经网络的输入分布稳定，在此基础上可以使用较大的学习率，从而加速模型的训练速度，避免梯度消失等情况；最后，可以将Transformer层输出的时空特征输入到双重回归层(即上述第四层)，每个回归层关联FC层、BatchNorm、Dropout等结构，双重回归层最后的输出(Output)即为对应磁盘的剩余使用寿命，若输出等于30则代表该磁盘暂无健康隐患。

所述寿命分布预测模块用于利用图4所示的磁盘寿命预测网络(即上述第一模型)预测目标磁盘的剩余使用寿命。

本应用示例提供的方案，根据磁盘SMART监控指标和服务器性能指标的时序特征，采用基于Transformer的深度神经网络和回归策略，针对磁盘的剩余使用寿命进行精准预测，同时能够给出磁盘的健康评估(即磁盘剩余使用天数)，并且，能够完整、动态地描述磁盘的健康运行状态/状况，提前感知磁盘故障，并能够提前更换寿命即将耗尽的亚健康磁盘，从而能够避免数据丢失或损坏，并避免系统故障和/或业务中断，从而能够确保存储系统的稳定运行，降低运维成本，提升基于该存储系统的大规模云平台的服务可靠性。

为了实现本申请实施例的模型训练方法，本申请实施例还提供了一种模型训练装置，如图5所示，该装置包括：

第一处理单元501，用于确定训练数据集，所述训练数据集包含多个样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；

第二处理单元502，用于基于所述训练数据集，训练第一模型，所述第一模型用于预测目标磁盘的剩余使用寿命。

其中，在一实施例中，所述多个样本包括多个正样本和多个负样本，所述正样本与发生故障的磁盘关联，所述负样本与从未发生故障的磁盘关联；所述第一处理单元501，具体用于：

将所述第一阈值确定为每个负样本对应的标签。

在一实施例中，所述第二处理单元502，具体用于：

在一实施例中，所述第一模型包含第一层、第二层、第三层和第四层，所述第一层用于对输入的特征向量进行升维，所述第二层用于对所述第一层输出的特征向量进行位置编码，所述第三层用于采用基于BatchNorm的Transformer网络对所述第二层输出的特征向量进行处理，所述第四层用于采用双重回归的方式对所述第三层输出的特征向量进行分类以确定对应磁盘的剩余使用寿命；

相应地，所述第二处理单元502，还用于将所述训练数据集的每个样本对应的特征向量作为所述第一层的输入数据，对所述第一层、第二层、第三层和第四层进行训练。

在一实施例中，在训练所述第一模型之前，所述第二处理单元502，还用于执行以下至少之一，以对所述第一模型进行初始化：

将Pseudo-Huber损失函数确定为所述第一模型的损失函数；

将RMSProp算法确定为所述第一模型的优化算法；

将Leaky Relu函数确定为所述第一模型的激活函数；

确定所述第一模型的网络结构；

确定所述第一模型的学习率；

确定所述第一模型的Dropout参数。

其中，所述第一处理单元501的功能相当于上述应用示例的磁盘寿命预测框架中数据构建模块和样本标注模块的功能；所述第二处理单元502的功能相当于上述应用示例的磁盘寿命预测框架中特征选择模块、特征变换模块、模型初始化模块和时序特征提取模块的功能。

实际应用时，所述第一处理单元501和第二处理单元502可由模型训练装置中的处理器实现。

需要说明的是：上述实施例提供的模型训练装置在进行模型训练时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块(比如上述应用示例的磁盘寿命预测框架中的数据构建模块、样本标注模块、特征选择模块、特征变换模块、模型初始化模块和时序特征提取模块)，以完成以上描述的全部或者部分处理。另外，上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

为了实现本申请实施例的磁盘寿命预测方法，本申请实施例还提供了一种磁盘寿命预测装置，如图6所示，该装置包括：

采集单元601，用于采集目标磁盘的待检测数据，所述待检测数据包含第一时序数据和第二时序数据，所述第一时序数据与所述目标磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述目标磁盘的服务器的多个性能指标关联；

预测单元602，用于利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，所述第一模型是采用上述一个或多个技术方案提供的模型训练方法训练的。

其中，在一实施例中，所述预测单元602，具体用于：

其中，所述采集单元601和预测单元602的功能相当于上述应用示例的磁盘寿命预测框架中寿命分布预测模块的功能。

实际应用时，所述采集单元601可由磁盘寿命预测装置中的处理器结合通信接口实现；所述预测单元602可由磁盘寿命预测装置中的处理器实现。

需要说明的是：上述实施例提供的磁盘寿命预测装置在进行磁盘寿命预测时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块(比如上述应用示例的磁盘寿命预测框架中的寿命分布预测模块)，以完成以上描述的全部或者部分处理。另外，上述实施例提供的磁盘寿命预测装置与磁盘寿命预测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本申请实施例的模型训练方法，本申请实施例还提供了一种第一设备，如图7所示，该第一设备700包括：

第一通信接口701，能够与其他电子设备(比如上述第二设备等)进行信息交互；

第一处理器702，与所述第一通信接口701连接，以实现与其他电子设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的模型训练方法；

第一存储器703，所述计算机程序存储在所述第一存储器703上。

具体地，所述第一处理器702，用于：

其中，在一实施例中，所述多个样本包括多个正样本和多个负样本，所述正样本与发生故障的磁盘关联，所述负样本与从未发生故障的磁盘关联；所述第一处理器702，还用于：

将所述第一阈值确定为每个负样本对应的标签。

在一实施例中，所述第一处理器702，还用于：

相应地，所述第一处理器702，还用于将所述训练数据集的每个样本对应的特征向量作为所述第一层的输入数据，对所述第一层、第二层、第三层和第四层进行训练。

在一实施例中，所述第一处理器702，还用于执行以下至少之一，以对所述第一模型进行初始化：

将Pseudo-Huber损失函数确定为所述第一模型的损失函数；

将RMSProp算法确定为所述第一模型的优化算法；

将Leaky Relu函数确定为所述第一模型的激活函数；

确定所述第一模型的网络结构；

确定所述第一模型的学习率；

确定所述第一模型的Dropout参数。

需要说明的是：所述第一处理器702的具体处理过程可参照上述方法理解，这里不再赘述。

当然，实际应用时，第一设备700中的各个组件通过总线系统704耦合在一起。可理解，总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统704。

本申请实施例中的第一存储器703用于存储各种类型的数据以支持第一设备700的操作。这些数据的示例包括：用于在第一设备700上操作的任何计算机程序。

上述本申请实施例揭示的方法可以应用于所述第一处理器702中，或者由所述第一处理器702实现。所述第一处理器702可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述第一处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。所述第一处理器702可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述第一处理器702可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于第一存储器703，所述第一处理器702读取第一存储器703中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，第一设备700可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现，用于执行前述方法。

基于上述程序模块的硬件实现，且为了实现本申请实施例的磁盘寿命预测方法，本申请实施例还提供了一种第二设备，如图8所示，该第二设备800包括：

第二通信接口801，能够与其他电子设备(比如上述第一设备和/或挂载有目标磁盘的服务器等)进行信息交互；

第二处理器802，与所述第二通信接口801连接，以实现与其他电子设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的磁盘寿命预测方法；

第二存储器803，所述计算机程序存储在所述第二存储器803上。

具体地，所述第二处理器802，用于：

通过所述第二通信接口801采集目标磁盘的待检测数据，所述待检测数据包含第一时序数据和第二时序数据，所述第一时序数据与所述目标磁盘的多个SMART指标关联，所述第二时序数据与挂载有所述目标磁盘的服务器的多个性能指标关联；

利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，所述第一模型是采用上述一个或多个技术方案提供的模型训练方法训练的。

其中，在一实施例中，所述第二处理器802，还用于：

需要说明的是：所述第二处理器802的具体处理过程可参照上述方法理解，这里不再赘述。

当然，实际应用时，第二设备800中的各个组件通过总线系统804耦合在一起。可理解，总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统804。

本申请实施例中的第二存储器803用于存储各种类型的数据以支持第二设备800的操作。这些数据的示例包括：用于在第二设备800上操作的任何计算机程序。

上述本申请实施例揭示的方法可以应用于所述第二处理器802中，或者由所述第二处理器802实现。所述第二处理器802可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述第二处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。所述第二处理器802可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述第二处理器802可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于第二存储器803，所述第二处理器802读取第二存储器803中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，第二设备800可以被一个或多个ASIC、DSP、PLD、CPLD、FPGA、通用处理器、控制器、MCU、Microprocessor、或其他电子元件实现，用于执行前述方法。

可以理解，本申请实施例的存储器(第一存储器703、第二存储器803)可以是易失性存储器或者非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，ProgrammableRead-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically ErasableProgrammable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic randomaccess memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static RandomAccess Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic RandomAccess Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced SynchronousDynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLinkDynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct RambusRandom Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其他适合类型的存储器。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的第一存储器703，上述计算机程序可由第一设备700的第一处理器702执行，以完成前述模型训练方法所述步骤。再比如包括存储计算机程序的第二存储器803，上述计算机程序可由第二设备800的第二处理器802执行，以完成前述磁盘寿命预测方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种模型训练方法，其特征在于，包括：

确定训练数据集，所述训练数据集包含多个样本及每个样本对应的标签，所述样本包括一块磁盘在第一日期关联的第一时序数据和第二时序数据，所述第一时序数据与所述磁盘的多个自我监测分析和报告技术SMART指标关联，所述第二时序数据与挂载有所述磁盘的服务器的多个性能指标关联，所述标签表征所述磁盘在所述第一日期的剩余使用寿命；

2.根据权利要求1所述的方法，其特征在于，所述多个样本包括多个正样本和多个负样本，所述正样本与发生故障的磁盘关联，所述负样本与从未发生故障的磁盘关联；所述确定训练数据集，包括：

将所述第一阈值确定为每个负样本对应的标签。

3.根据权利要求1所述的方法，其特征在于，所述基于所述训练数据集，训练第一模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一模型包含第一层、第二层、第三层和第四层，所述第一层用于对输入的特征向量进行升维，所述第二层用于对所述第一层输出的特征向量进行位置编码，所述第三层用于采用基于批量标准化BatchNorm的转换器Transformer网络对所述第二层输出的特征向量进行处理，所述第四层用于采用双重回归的方式对所述第三层输出的特征向量进行分类以确定对应磁盘的剩余使用寿命；所述将所述训练数据集的每个样本对应的特征向量作为输入数据，训练所述第一模型，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，在训练所述第一模型之前，所述方法还包括：

执行以下至少之一，以对所述第一模型进行初始化：

将Pseudo-Huber损失函数确定为所述第一模型的损失函数；

将均方根传播RMSProp算法确定为所述第一模型的优化算法；

将渗漏整流线性单元Leaky Relu函数确定为所述第一模型的激活函数；

确定所述第一模型的网络结构；

确定所述第一模型的学习率；

确定所述第一模型的随机失活Dropout参数。

6.一种磁盘寿命预测方法，其特征在于，包括：

利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，所述第一模型是采用权利要求1至5任一项所述的模型训练方法训练的。

7.根据权利要求6所述的方法，其特征在于，所述利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，包括：

8.一种模型训练装置，其特征在于，包括：

9.一种磁盘寿命预测装置，其特征在于，包括：

预测单元，用于利用第一模型和所述待检测数据，预测所述目标磁盘的剩余使用寿命，所述第一模型是采用权利要求1至5任一项所述的模型训练方法训练的。

10.一种第一设备，其特征在于，包括：第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器，

其中，所述第一处理器用于运行所述计算机程序时，执行权利要求1至5任一项所述方法的步骤。

11.一种第二设备，其特征在于，包括：第二处理器和用于存储能够在处理器上运行的计算机程序的第二存储器，

其中，所述第二处理器用于运行所述计算机程序时，执行权利要求6或7所述方法的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤，或者实现权利要求6或7所述方法的步骤。