CN115543762A

CN115543762A - 一种磁盘smart数据扩充方法、系统及电子设备

Info

Publication number: CN115543762A
Application number: CN202211518296.7A
Authority: CN
Inventors: 贾上坤; 郭坤
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2022-12-30

Abstract

本申请公开了一种磁盘SMART数据扩充方法、系统及电子设备，所属的技术领域为人工智能技术。磁盘SMART数据扩充方法，包括：从磁盘数据集中提取故障盘SMART数据；将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；若接收到数据扩充请求，则利用所述生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到扩充SMART数据。本申请能够对故障盘的SMART数据进行扩充，提高数据分布的均衡性。

Description

一种磁盘SMART数据扩充方法、系统及电子设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种磁盘SMART数据扩充方法、系统及电子设备。

背景技术

随着技术的飞速发展，人们进入了信息化和网络化时代，给生活带来便利的同时，也伴随着数据量的爆发式增长，数据的安全性面临着巨大的挑战，而磁盘作为数据的存储仓库，其可靠性一直是运维人员较为关注的问题。

为了对磁盘中的故障进行检测，本领域中通常利用故障预测模型对磁盘的SMART（Self-Monitoring Analysis and Reporting Technology，自我监控、分析和报告技术）数据进行故障预测。但是实际所生产的过程中，磁盘的良品率较高，故障样本不够充分，导致SMART数据的样本分布极不均衡，即健康盘的SMART数据量远远高于故障盘的SMART数据量。数据分布的不均衡性，使用小样本数据训练故障预测模型会出现过拟合问题，导致故障预测模型不能够有效地学习模型参数，导致的泛化性能差。

因此，如何对故障盘的SMART数据进行扩充，提高数据分布的均衡性是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种磁盘SMART数据扩充方法、一种磁盘SMART数据扩充系统、一种电子设备及一种存储介质，能够对故障盘的SMART数据进行扩充，提高数据分布的均衡性。

为解决上述技术问题，本申请提供一种磁盘SMART数据扩充方法，该磁盘SMART数据扩充方法包括：

从磁盘数据集中提取故障盘SMART数据；

将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；

若接收到数据扩充请求，则利用所述生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到扩充SMART数据。

可选的，从磁盘数据集中提取故障盘SMART数据，包括：

确定磁盘数据集中的原始SMART数据，对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据。

可选的，对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据，包括：

对所述原始SMART数据执行数据分类操作，并建立每一类别对应的SMART数据文件；

对所述SMART数据文件进行特征筛选，以便在所述SMART数据文件中保留磁盘故障相关特征；

对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签；

以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建二维数据图；

将所述二维数据图中添加有所述故障盘标签的二维时序数据设置为所述故障盘SMART数据。

可选的，在对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签之前，还包括：

对所述SMART数据文件执行数据补全操作。

可选的，对所述原始SMART数据执行数据分类操作，包括：

按照磁盘型号对所述原始SMART数据执行数据分类操作。

根据当前时间t₀和目标时长Δt确定所述预设时间段[t₀-Δt，t₀]。

可选的，以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建二维数据图，包括：

以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建多张所述二维数据图；其中，所述每一张所述二维数据图包括所有所述磁盘故障相关特征与时间的对应关系，任意两张二维数据图对应的时间不相同。

可选的，在将所述故障盘SMART数据输入生成对抗网络模型之前，还包括：

根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型；其中，所述生成对抗网络模型为深度卷积生成对抗网络DCGAN。

可选的，在根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型之前，还包括：

确定所述生成器的网络结构；

其中，所述生成器的网络结构依次包括数据输入层、全连接层、转置卷积块结构和数据输出层；所述转置卷积块结构包括转置卷积层、批标准化层和激活函数层。

确定所述判别器的网络结构；

其中，所述判别器的网络结构依次包括数据输入层、卷积块结构、全连接层和数据输入层；所述卷积块结构包括卷积层、批标准化层和激活函数层。

根据所述生成器的目标函数和所述判别器的目标函数设置所述生成对抗网络模型的目标函数。

为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数。

可选的，为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数之后，还包括：

通过梯度下降法更新所述损失函数的网络权重和网络偏置。

可选的，利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器，包括：

步骤1：初始化所述生成对抗网络模型的所述生成器和所述判别器的网络参数；

步骤2：从所述故障盘SMART数据中选取训练样本；

步骤3：固定所述生成器的网络参数，将随机噪声输入所述生成器得到第一生成样本，将所述训练样本和所述生成样本输入所述判别器得到第一判别结果，根据所述第一判别结果调整所述判别器的网络参数；

步骤4：固定所述判别器的网络参数，将随机噪声输入所述生成器得到第二生成样本，将所述第二生成样本输入所述判别器得到第二判别结果，根据所述第二判别结果调整所述生成器的网络参数；

步骤5：判断所述生成对抗网络模型是否达到纳什均衡；若是，则判定训练完毕；若否，则进入步骤2。

可选的，根据所述第一判别结果调整所述判别器的网络参数，包括：

根据所述第一判别结果确定所述判别器的损失函数值，根据所述判别器的损失函数值调整所述判别器的网络参数。

可选的，根据所述第二判别结果调整所述生成器的网络参数，包括：

根据所述第二判别结果确定所述生成器的损失函数值，根据所述生成器的损失函数值调整所述生成器的网络参数。

可选的，在得到扩充SMART数据之后，还包括：

利用所述扩充SMART数据训练磁盘故障预测模型；

将目标磁盘的磁盘SMART数据输入所述磁盘故障预测模型，以便所述磁盘故障预测模型判断所述目标磁盘是否存在故障。

本申请还提供了一种生成对抗网络模型的训练方法，包括：

从磁盘数据集中提取故障盘SMART数据；

其中，利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器的过程包括：

步骤2：从所述故障盘SMART数据中选取训练样本；

本申请还提供了一种磁盘SMART数据扩充系统，该系统包括：

预处理模块，用于从磁盘数据集中提取故障盘SMART数据；

模型训练模块，用于将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；

数据扩充模块，用于若接收到数据扩充请求，则利用所述生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到扩充SMART数据。

本申请还提供了一种生成对抗网络模型的训练系统，包括：

数据提取模块，用于从磁盘数据集中提取故障盘SMART数据；

迭代训练模块，用于将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；

其中，所述迭代训练模块利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器的过程包括：

步骤2：从所述故障盘SMART数据中选取训练样本；

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述磁盘SMART数据扩充方法或生成对抗网络模型的训练方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述磁盘SMART数据扩充方法或生成对抗网络模型的训练方法执行的步骤。

本申请提供了一种磁盘SMART数据扩充方法，包括：从磁盘数据集中提取故障盘SMART数据；将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；若接收到数据扩充请求，则利用所述生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到扩充SMART数据。

本申请将故障盘SMART数据输入生成对抗网络模型，利用生成对抗网络模型中的生成器和判别器基于故障盘SMART数据进行交替迭代训练，不断增强生成器和判别器的性能，以使训练后的生成器能够生成大量丰富性高的SMART数据。在收到数据扩充请求后，本申请利用生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到相应的扩充数据。由此可见，本申请能够对故障盘的SMART数据进行扩充，提高数据分布的均衡性。本申请同时还提供了一种磁盘SMART数据扩充系统、一种生成对抗网络模型的训练方法、一种生成对抗网络模型的训练系统一种电子设备和一种存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种磁盘SMART数据扩充方法的流程图；

图2为本申请实施例所提供的基于DCGAN的磁盘SMART数据扩充原理示意图；

图3为本申请实施例所提供的一种生成器的网络架构图；

图4为本申请实施例所提供的一种判别器的网络架构图；

图5为本申请实施例所提供的一种DCGAN中生成器各层结构示意图；

图6为本申请实施例所提供的一种DCGAN中判别器各层结构示意图；

图7为本申请实施例所提供的一种DCGAN的训练原理示意图；

图8为本申请实施例所提供的一种磁盘SMART数据扩充系统的结构示意图；

图9为本申请实施例所提供的一种电子设备的结构示意图；

图10为本申请实施例所提供的一种存储介质的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种磁盘SMART数据扩充方法的流程图。

具体步骤可以包括：

S101：从磁盘数据集中提取故障盘SMART数据；

其中，本实施例可以应用于运行有生成对抗网络模型的电子设备，上述磁盘数据集可以包括多个磁盘在一定时长内产生的SMART数据，本实施例也可以只将开源磁盘数据集作为本步骤提到的磁盘数据集。

在得到磁盘数据集后，本实施例可以从磁盘数据集中提取故障盘SMART数据，上述故障盘SMART至磁盘中出现故障时产生的SMART数据。

作为一种可行的实施方式，本实施例可以通过对磁盘数据集执行预处理操作，得到故障盘SMART数据。具体的，上述预处理操作包括：数据分类、特征筛选、数据补全、标签设置、二维构建、故障盘筛选等操作。

S102：将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；

其中，在本步骤之前存在搭建生成对抗网络模型GAN（Generative AdversarialNetwork）的操作，在此基础上可以分别对生成器和判别器进行参数优化和迭代训练，即：利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器，直至生成对抗网络模型达到纳什平衡。

进一步的，在将所述故障盘SMART数据输入生成对抗网络模型之前，还可以根据所述生成器的目标函数和所述判别器的目标函数设置所述生成对抗网络模型的目标函数。相应的，在将所述故障盘SMART数据输入生成对抗网络模型之前，还可以为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数。在为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数之后，还可以通过梯度下降法更新所述损失函数的网络权重和网络偏置。

S103：若接收到数据扩充请求，则利用所述生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到扩充SMART数据。

在得到扩充SMART数据之后，还可以利用所述扩充SMART数据训练磁盘故障预测模型；将目标磁盘的磁盘SMART数据输入所述磁盘故障预测模型，以便所述磁盘故障预测模型判断所述目标磁盘是否存在故障。

其中，在接收到数据扩充请求后，可以根据数据扩充请求确定初始的故障盘SMART数据，将初始的故障盘SMART数据输入生成对抗网络模型的生成器进行磁盘SMART数据扩充操作，得到扩充SMART数据，进而可以利用初始的故障盘SMART数据、扩充SMART数据以及正常盘SMART数据训练磁盘故障预测模型。若接收到目标磁盘的实际SMART数据，则可以将实际SMART数据输入训练后的磁盘故障预测模型，以便判断目标磁盘是否存在故障。

本实施例将故障盘SMART数据输入生成对抗网络模型，利用生成对抗网络模型中的生成器和判别器基于故障盘SMART数据进行交替迭代训练，不断增强生成器和判别器的性能，以使训练后的生成器能够生成大量丰富性高的SMART数据。在收到数据扩充请求后，本实施例利用生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到相应的扩充数据。由此可见，本实施例能够对故障盘的SMART数据进行扩充，提高数据分布的均衡性。

作为对于图1对应实施例的进一步介绍，可以通过以下方式从磁盘数据集中提取故障盘SMART数据：确定磁盘数据集中的原始SMART数据，对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据。磁盘数据集中包括磁盘的所有数据，上述过程先将磁盘数据集中的SMART数据提取出来，得到原始SMART数据，再对原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据。

具体的，上述数据预处理操作的过程包括以下步骤：

步骤A1：对所述原始SMART数据执行数据分类操作，并建立每一类别对应的SMART数据文件；

具体的，本实施例可以按照磁盘型号对所述原始SMART数据执行数据分类操作，进而得到每一磁盘型号对应的SMART数据文件。

步骤A2：对所述SMART数据文件进行特征筛选，以便在所述SMART数据文件中保留磁盘故障相关特征；

步骤A3：对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签；

具体的，本步骤可以根据当前时间t₀和目标时长Δt确定所述预设时间段[t₀-Δt，t₀]，例如可以对最近N天内的磁盘故障相关特征添加故障盘标签，上述N可以为7。

步骤A4：以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建二维数据图；

具体的，本步骤可以以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建多张所述二维数据图；其中，所述每一张所述二维数据图包括所有所述磁盘故障相关特征与时间的对应关系，任意两张二维数据图对应的时间不相同。

步骤A5：将所述二维数据图中添加有所述故障盘标签的二维时序数据设置为所述故障盘SMART数据。

进一步的，SMART数据文件中的磁盘故障相关特征可能存在缺失（例如缺少某一天的SMART数据），为了保证数据的完整性，在上述步骤A2之后、步骤A3之前，可以对所述SMART数据文件执行数据补全操作。

作为对于图1对应实施例的进一步介绍，在将所述故障盘SMART数据输入生成对抗网络模型之前，还可以根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型；其中，所述生成对抗网络模型为深度卷积生成对抗网络DCGAN（Deep ConvolutionalGenerative Adversarial Networks）。

进一步的，在根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型之前，还可以确定所述生成器的网络结构；其中，所述生成器的网络结构依次包括数据输入层、全连接层（FC，Fully Connected）、转置卷积块结构和数据输出层；所述转置卷积块结构包括转置卷积层、批标准化层和激活函数层。

进一步的，在根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型之前，还可以确定所述判别器的网络结构；其中，所述判别器的网络结构依次包括数据输入层、卷积块结构、全连接层和数据输入层；所述卷积块结构包括卷积层、批标准化层和激活函数层。

作为对于图1对应实施例的进一步介绍，交替迭代训练所述生成对抗网络模型的生成器和判别器的过程包括以下步骤：

步骤B1：初始化所述生成对抗网络模型的所述生成器和所述判别器的网络参数；

步骤B2：从所述故障盘SMART数据中选取训练样本；

步骤B3：固定所述生成器的网络参数，将随机噪声输入所述生成器得到第一生成样本，将所述训练样本和所述生成样本输入所述判别器得到第一判别结果，根据所述第一判别结果调整所述判别器的网络参数；

具体的，上述实施例可以通过以下方式调整判别器的网络参数：根据所述第一判别结果确定所述判别器的损失函数值，根据所述判别器的损失函数值调整所述判别器的网络参数。

步骤B4：固定所述判别器的网络参数，将随机噪声输入所述生成器得到第二生成样本，将所述第二生成样本输入所述判别器得到第二判别结果，根据所述第二判别结果调整所述生成器的网络参数；

具体的，上述实施例可以通过以下方式调整所述生成器的网络参数：根据所述第二判别结果确定所述生成器的损失函数值，根据所述生成器的损失函数值调整所述生成器的网络参数。

步骤B5；判断所述生成对抗网络模型是否达到纳什均衡；若是，则判定训练完毕；若否，则进入步骤B2。

下面提供一种生成对抗网络模型的训练方法，其过程包括以下步骤：从磁盘数据集中提取故障盘SMART数据；将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；

步骤2：从所述故障盘SMART数据中选取训练样本；

本实施例将故障盘SMART数据输入生成对抗网络模型，利用生成对抗网络模型中的生成器和判别器基于故障盘SMART数据进行交替迭代训练，不断增强生成器和判别器的性能，以使训练后的生成器能够生成大量丰富性高的SMART数据。本实施例训练得到的生成器能够对故障盘的SMART数据进行扩充，提高数据分布的均衡性。

上述生成器的网络结构依次包括数据输入层、全连接层、转置卷积块结构和数据输出层；所述转置卷积块结构包括转置卷积层、批标准化层和激活函数层。上述判别器的网络结构依次包括数据输入层、卷积块结构、全连接层和数据输入层；所述卷积块结构包括卷积层、批标准化层和激活函数层。

在将所述故障盘SMART数据输入生成对抗网络模型之前，还可以根据所述生成器的目标函数和所述判别器的目标函数设置所述生成对抗网络模型的目标函数，还可以为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数。

在为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数之后，还可以通过梯度下降法更新所述损失函数的网络权重和网络偏置。具体的，可以根据所述第一判别结果确定所述判别器的损失函数值，根据所述判别器的损失函数值调整所述判别器的网络参数，还可以根据所述第二判别结果确定所述生成器的损失函数值，根据所述生成器的损失函数值调整所述生成器的网络参数。

上述从磁盘数据集中提取故障盘SMART数据的过程包括：确定磁盘数据集中的原始SMART数据，对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据。

上述对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据的过程包括：对所述原始SMART数据执行数据分类操作，并建立每一类别对应的SMART数据文件；对所述SMART数据文件进行特征筛选，以便在所述SMART数据文件中保留磁盘故障相关特征；对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签；以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建二维数据图；将所述二维数据图中添加有所述故障盘标签的二维时序数据设置为所述故障盘SMART数据。在对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签之前，还可以对所述SMART数据文件执行数据补全操作。

上述对所述原始SMART数据执行数据分类操作包括：按照磁盘型号对所述原始SMART数据执行数据分类操作。

在对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签之前，还可以根据当前时间t₀和目标时长Δt确定所述预设时间段[t₀-Δt，t₀]。

上述构建二维数据图的过程包括：以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建多张所述二维数据图；其中，所述每一张所述二维数据图包括所有所述磁盘故障相关特征与时间的对应关系，任意两张二维数据图对应的时间不相同。

通过上述生成器获得扩充SMART数据之后，还可以利用所述扩充SMART数据训练磁盘故障预测模型；将目标磁盘的磁盘SMART数据输入所述磁盘故障预测模型，以便所述磁盘故障预测模型判断所述目标磁盘是否存在故障。

下面通过在实际应用中的实施例说明上述实施例描述的流程。

本领域中，提高磁盘可靠性的手段主要有两种：一是可以通过容错技术以及后备系统等相关手段来提高磁盘本身的可靠性；二是可以检测磁盘状态，利用模型对故障进行预测，通过及时更换故障盘来避免不必要的损失。自我监控、分析和报告技术(Self-Monitoring Analysis and Reporting Technology, SMART)便是一种自动的磁盘状态检测与预警系统和规范。该技术通过检测指令监控、记录磁盘的硬件性能，如原始数据读取率、重新分配扇区数、磁盘校准重试次数、多区域错误率等属性，并通过比较阈值来检测磁盘的健康状态。目前，以大数据为基础的深度学习方法成为了磁盘数据分析的有力工具。使用SMART数据，利用深度学习方法可以对磁盘进行故障预测，以此来提高磁盘的可靠性，确保数据安全。然而，训练深度神经网络模型需要大量的样本，在实际生产过程中，磁盘的良品率较高，故障样本不够充分，导致SMART数据的样本分布极不均衡，即健康盘的SMART数据量远远高于故障盘的SMART数据量，例如Backblaze发布的开源磁盘数据集，其中2017年度ST8000NM0055型号磁盘的健康盘SMART数据样本量高达两百多万，而故障盘的SMART数据仅有500多个样本。这种数据分布的不均衡性，严重限制了深度学习模型性能的提升：使用小样本数据训练神经网络模型会出现过拟合问题，不能够有效地学习模型参数，导致模型的泛化性能差。因此，如何利用少量故障盘的SMART数据扩充得到大量标注数据，成为磁盘故障预测领域亟待解决的问题。

扩充故障盘SMART数据可以参考图像数据扩充方法，虽然SMART数据是一维数据，但是其具有明显的时间属性，因此可以在时间尺度上增加维度，形成二维时序数据。传统的图像数据扩充方法主要利用旋转、缩放、模糊处理、裁剪、添加噪声等基本图像处理方式，但这些只能对现有数据进行扩充，没有生成新的特征信息，生成的新样本具有很强的依赖性，扩充后的数据集多样性差，对磁盘故障预测的提升有限。此外，旋转、剪切等处理方式还会破坏SMART数据原有的时间属性。因此，传统图像数据扩充方式不太适用于SMART数据。近年来，生成对抗网络(Generative Adversarial Network, GAN)的出现为数据扩充提供了新的技术手段和解决方案。GAN的灵感来源于零和博弈，主要有生成器和判别器两部分组成，生成器的目的是力求生成真实度较高的样本使判别器无法区分真实的样本和生成的样本，判别器的目的是尽可能区分出真实的样本和生成的样本，两者在训练过程中相互对抗，不断竞争，最终达到一个纳什均衡的状态。GAN具有比传统方法更强大的特征学习能力和表达能力，是目前最好的一种生成模型。将GAN和卷积神经网络相结合衍生出来的深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Network, DCGAN)可以利用卷积层强大的特征提取能力进一步提高生成样本的质量。

综上所述，为了解决磁盘SMART数据样本不均衡的问题，提升故障盘SMART数据的样本数量和丰富性，本实施例提供一种基于DCGAN的磁盘SMART数据扩充方法。该方法由数据预处理、网络原理及模型构建、网络参数优化及训练三个步骤组成。

在数据预处理步骤中，首先按照磁盘型号对SMART数据进行分类；其次进行特征筛选，确定与故障预测相关性最高的SMART特征；然后对空缺数据进行补全；接着进行标签设置，将可能发生故障的SMART数据的标签设置成故障盘并构建二维时序SMART数据，最后提取出故障盘SMART数据，作为模型真实输入样本。

在网络原理及模型构建步骤中，首先对网络的原理进行介绍，然后分别对生成器和判别器进行建模，确定网络结构。

在网络参数优化及训练步骤中，通过确定损失函数以及优化策略对网络进行训练，从而生成故障盘SMART数据，解决利用深度学习预测磁盘故障时故障盘训练样本紧缺和丰富性不足的问题，提升后期磁盘故障预测模型的精度。

本实施例对原始SMART数据进行预处理，得到故障盘二维时序SMART数据，根据生成对抗的思想，分别构建生成器网络和判别器网络，从而组合成DCGAN模型，设置模型损失函数，利用梯度下降法反向传播更新网络参数，交替迭代训练判别器和生成器网络，优化网络性能，使模型达到纳什平衡的状态。利用训练好的生成器生成故障盘SMART数据，解决磁盘SMART数据分布不均衡的问题，提高数据质量，有助于提升后续磁盘故障预测模型的性能。本实施例通过对原始SMART数据进行预处理，获取DCGAN模型所需要的故障盘SMART数据。根据磁盘型号对原始SMART数据进行划分，有助于生成特定型号的故障盘SMART数据；根据特征与磁盘故障的相关性，选取16个与磁盘故障相关性最高的特征作为候选特征；利用前向填充方法补全缺失数据，解决特征缺失问题；对潜在故障盘按照故障盘进行处理，有利于生成特征更加丰富的故障盘SMART数据；在时间尺度上增加维度，使一维SMART数据扩展成二维时序SMART数据；根据标签筛选出故障盘二维时序SAMRT数据作为真实样本，组成训练集供后续模型使用。

本实施例分别搭建生成器网络和判别器网络，其中两者均是6层的卷积神经网络，生成器和判别器组成DCGAN模型，设置模型的损失函数，交替迭代训练判别器和生成器。通过反向传播，利用梯度下降法优化网络参数，使判别器和生成器在竞争对抗中提升各自的网络性能，最终模型稳定达到纳什平衡状态，利用训练好的生成器可以生成高质量的故障盘SMART数据，从而扩充样本量。本实施例利用DCGAN模型对故障盘SMART数据样本量进行扩充。DCGAN模型能够结合生成对抗网络优秀的数据生成能力和卷积神经网络强大的图像特征提取能力，有助于提升模型训练过程中的稳定性和生成数据的质量。相对于传统图像数据扩充方式，该方法通过生成器和判别器之间的相互竞争来提升模型性能，能够生成特征更为丰富的样本，有效解决了故障盘SMART数据样本量不足的问题，有助于提升磁盘故障预测模型的性能。

请参见图2，图2为本申请实施例所提供的基于DCGAN的磁盘SMART数据扩充原理示意图，图2中示出了数据预处理过程、模型构建与参数训练过程、以及数据扩充过程。在数据预处理过程中，对原始SMART数据执行数据分类、特征筛选、数据补全、标签设置、二维构建和故障盘筛选，得到故障盘SMART数据集。在模型构建与参数训练过程中，从故障盘SMART数据集中确定真实数据，将随机噪声输入生成器得到生成数据，将生成数据和真实数据输入判别器。

如图2所示，本实施例首先对原始SMART数据进行预处理。预处理过程包括数据分类、特征筛选、数据补全、标签设置、二维构建、故障盘筛选等步骤。数据分类将根据磁盘型号对SMART进行分组；特征筛选是为了确定与磁盘故障预测最相关的SMART特征；数据补全则是解决数据采集中断的问题；标签设置把有可能出现故障的磁盘设置为故障盘；二维构建通过增加SMART数据的时间尺度，将一维数据扩展成二维时序数据；故障盘筛选通过标签确定故障盘的样本，形成故障盘SMART数据集，供后续模型使用。数据预处理后，进行模型搭建：根据DCGAN模型的原理，分别对生成器网络和判别器网络进行建模，确定网络结构；最后，将故障盘SMART数据集输入到模型中，对模型进行参数优化和迭代训练，不断增强生成器网络和判别器网络的性能，使网络达到一种纳什平衡的状态。最后，使用训练好的生成器网络能够生成足够真实的故障盘SMART数据，从而达到数据扩充的目的，为后续磁盘故障预测提供样本分布均衡且足够丰富的SMART数据。

下面介绍数据预处理的具体流程：

1）数据分类：本实施例使用的数据来源于Backblaze发布的开源磁盘数据集，Backblaze数据集包含许多型号的SMART数据，为生成指定类型的故障盘SMART数据，首先根据型号对SMART数据进行筛选，并为每个型号的所有磁盘建立SMART数据文件，文件包含该序列号磁盘所有记录的SMART数据。

2）特征筛选：SMART数据中并非所有特征都与磁盘故障预测相关，有些特征并不是机器学习的可用特征，为了提高效率，从SMART众多属性中选取与磁盘故障相关性最高的属性作为候选特征，通过查阅磁盘故障预测的相关文献，发现SMART 中属性ID为1、3、4、5、7、9、10、12、187、188、193、194、197、198、241、242的这16个特征与故障的相关性最高，特征含义如表1所示。SMART数据的每个特征都含有两个值：normal value和raw value。其中rawvalue是记录该特征的原始值，normal value是把原始值经过标准的规整计算，得到的一组数值范围为0到255的数值。通过查阅相关的文献可以得知，使用哪个值作为磁盘故障预测的特征值并没有统一的规定，因此，为了保证生成数据的丰富性，本实施例的数据中包含这两个值。

表1 候选特征说明表

3）数据补全：SMART数据采集有时出现某些天中断的现象，引发数据缺漏的问题。对于空缺的数据，可以采用前向补全的方式进行填充，从而保证数据的连续性。

4）标签设置：本实施例可以将故障盘最后7天的SMART数据都为潜在故障样本，这表示着该磁盘随时可能发生故障，因此将故障盘最后七天的SMART数据重新标注为坏盘。

5）二维构建：SMART数据带有明显的时间属性，将SMART数据作为第一个维度，时间作为第二个维度，构建出二维数据图。由于筛选出16个SMART特征作为候选特征（即磁盘故障相关特征）且每个特征包含原始值和规范值两个数值，因此在特征维度上包含32列，时间维度上仍以32为滑动窗口，取第1至32行作为第一张图，第2至33行作为第二张图……以此类推。不包含故障盘SMART数据的二维图标签为健康盘，否则为故障盘。如果在二维数据构建过程中，某些磁盘的样本数据量少于32，则舍弃该盘，不纳入数据集。

6）故障盘筛选：二维时序数据构建完成后，数据集中包含了健康盘和故障盘，需要根据标签从数据集中筛选出故障盘数据，作为模型的真实样本。

网络原理及模型构建：GAN模型的一般框架如附图1中的模型构建与参数训练部分。模型主要包含两部分：生成器D和判别器G。假设真实数据为x，真实数据分布为P_data(x)，随机噪声为z，随机噪声分布为P_z(z)。生成器接受随机噪声z，生成数据G(z)。判别器接受真实数据x或生成数据G(z)，输出对图像的判别结果，即该图像是真实数据还是生成数据，两者在训练过程中相互竞争，互相对抗，不断提升各自的性能，最终达到纳什平衡。DCGAN是GAN网络的衍生模型，自提出后受到广泛应用，依靠卷积神经网络优秀的特征提取能力，可以提升生成数据的质量。相对于GAN，DCGAN的更新主要有：不使用池化层，用步幅卷积层代替；在生成器和判别器中都使用Batch Normalization层；生成器的激活函数除了输出层使用Tanh，其余全部使用ReLU，判别器的激活函数都使用LeakyReLU，这些更新对于稳定GAN网络的训练具有帮助，在实验中取得了很好的性能。

请参见图3，图3为本申请实施例所提供的一种生成器的网络架构图，生成器网络结构采用6层的卷积神经网络。第一层为Input数据输入层，第二层为全连接层(FullyConnected, FC)，然后是连续3个转置卷积块结构DeCov1（第一转置卷积块结构）、DeCov2（第二转置卷积块结构）和DeCov3（第三转置卷积块结构），转置卷积块结构包括转置卷积层、Batch Normalization（BN，批量归一化）层和激活函数层，其中最后一个转置卷积块结构的激活函数层使用的Tanh激活函数，其余使用ReLU激活函数，最后是Output数据输出层，生成和真实数据尺寸一致的数据。图3中Reshape表示Reshape函数，用于将指定的矩阵变换成特定维数矩阵，输入层的输入为随机噪声，第一转置卷积块结构DeCov1的尺寸为4×4×512，第二转置卷积块结构DeCov2的尺寸为8×8×256，第三转置卷积块结构DeCov3的尺寸为16×16×128，输出层的尺寸为32×32×1。

请参见图4，图4为本申请实施例所提供的一种判别器的网络架构图，判别器网络结构也是采用6层的卷积神经网络。第一层是Input数据输入层，接着是连续3个卷积块结构（第一卷积块结构、第二卷积块结构和第三卷积块结构），卷积块结构包括卷积层、BatchNormalization层和激活函数层，其中卷积块结构的激活函数层全部使用LeakyReLU激活函数，然后是全连接FC层，最后是Output数据输出层，输出判别器的判别结果。图4中Reshape表示Reshape函数，用于将指定的矩阵变换成特定维数矩阵，输入层的输入为随机噪声，第一卷积块结构Cov1的尺寸为4×4×512，第二卷积块结构Cov2的尺寸为8×8×256，第三卷积块结构Cov3的尺寸为16×16×128，输入层的尺寸为32×32×1。

请参见图5，图5为本申请实施例所提供的一种DCGAN中生成器各层结构示意图，图5中示出了随机噪声、全连接FC层、5×5转置卷积、批量归一化BN层、激活函数ReLU、激活函数Tanh以及32×32图像。请参见图6，图6为本申请实施例所提供的一种DCGAN中判别器各层结构示意图，图6中示出了生成样本、真实样本、5×5卷积、批量归一化BN层、激活函数LeakyReLU、全连接FC层、判别样本类别。

关于网络参数优化及训练的说明如下：

生成器和判别器是两个相互独立的网络模型，训练模型的方法是单独交替迭代更新优化，优化过程是一个“二元极大极小博弈”的问题。网络的最终优化的目标函数V为：

（1）

上式中，

表示期望，第一个期望

表示所有数据都是真实数据

时

的期望，第二个期望

表示所有数据都是生成数据

时

的期望。

目标函数的优化过程本质上是两个优化问题，分为两个过程，先优化判别器

，再优化生成器

。因此可以将式(1)拆解为两个目标函数。对于判别器

，其目标函数为：

（2）

对于生成器

，其目标函数为：

（3）

在模型优化过程中，首先从判别器的角度，令目标函数式(2)最大化，再从生成器的角度，令目标函数式(3)最小化，在训练过程中固定一方的网络参数，去训练另一方的网络参数，通过不断迭代更新，判别器和生成器不断竞争、相互对抗，使另一方的误差变大，最后，生成器

可以学到真实样本的分布

，当生成器生成的样本分布

等于真实数据的样本分布时，即

时，全局得到最优解。

模型的损失函数

是每个批次

的损失函数求和再平均后得到，如下所示：

（4）

式中，

为总批次数，

为某一批次的样本，

为第

批次样本的模型预测结果，

为第

批次样本的理想输出结果。

为了找到能够使损失函数达到最优时的网络权重

和偏置

，一般使用梯度下降法更新

，

，如式(5)和式(6)所示：

（5）

（6）

式中，

为学习速率，

为损失函数，

为当前的权重，

为更新后的权重，

为当前的偏置，

为更新后的偏置，n表示更新的次数。

请参见图7，图7为本申请实施例所提供的一种DCGAN的训练原理示意图，该过程具体包括如下步骤：

步骤C1：初始化判别器和生成器网络参数；

步骤C2：生成随机噪声；

步骤C3：训练样本预处理并随机选取一个批次的训练样本；

步骤C4：将训练样本与随机噪声输入到网络；

步骤C5：判断是否达到判别器迭代优化次数；若是，则进入步骤C6；若否，则反向传播更新判别器参数，计算判别器损失并进入步骤C3；

步骤C6：将随机噪声输入到网络；

步骤C7：判断是否达到生成器迭代优化次数；若是，则进入步骤C8；若否，则计算生成器损失，反向传播更新生成器参数，并进入步骤C2；

步骤C8：判断是否达到Epoch（迭代）次数；若是，则结束流程；若否，则进入步骤C2。

模型的训练过程如附图7所示。训练的总体思路为首先固定生成器，训练判别器；然后固定判别器，训练生成器；最后不断交替、反复执行，使模型性能达到最优。具体地，首先对判别器和生成器的权重参数

，偏置参数

进行初始化，设置初始化学习率

；然后生成符合高斯分布的随机噪声，对真实故障盘SMART样本数据进行预处理组成训练样本并随机选取一批次训练样本，将选取的训练样本与随机噪声输入到DCGAN模型中，分别训练判别器和生成器。在训练判别器过程中固定生成器的网络参数，将随机噪声输入到生成器中生成样本，然后将训练样本和生成样本输入到判别器中，计算判别器损失函数，通过梯度下降法更新判别器的网络参数，提升判别器性能；在训练生成器过程中固定判别器的网络参数，将随机噪声输入到生成器中生成样本，将生成样本输入到判别器中，并根据判别结果计算生成器的损失函数，利用梯度下降法更新生成器的网络参数，提升生成器性能。通过不断重复生成器和训练器的训练过程，两者相互对抗竞争，不断提升各自的性能，最终达到纳什平衡状态。

DCGAN网络训练完成后，生成器性能将达到最优，可以将随机噪声输入到生成器中，生成高质量的故障盘SMART数据，提升故障盘SMART数据的样本数量和丰富性，从而解决SMART样本数据分布不均衡的问题，提高后续磁盘故障预测模型的性能。

上述实施例对磁盘SMART数据进行预处理，得到二维时序故障盘SMART数据，构建DCGAN模型，并通过模型生成高质量的故障盘SMART数据，解决磁盘SMART数据分布不均衡的问题，提升后续磁盘故障预测模型的性能。首先对磁盘SMART数据按照型号进行划分，有利于生成具有特定型号特性的故障盘SMART数据；然后筛选出与磁盘故障相关性最高的特征作为候选特征，可以降低数据量，提高数据生成效率；通过前向填充补全空缺数据，解决数据缺漏问题；对于潜在故障磁盘按照故障盘处理，有助于生成更加丰富的故障盘SMART数据；通过在时间尺度上增加维度，将一维SMART数据扩展成二维图像数据，可以尽可能保证生成样本的真实性；根据标签筛选出故障盘二维SMART数据。得到故障盘二维时序SMART数据后，根据生成对抗原理，构建DCGAN模型，设置损失函数，交替迭代训练判别器和生成器网络，通过梯度下降法优化网络参数，使模型性能达到最优。最后，利用训练好的生成器网络，可以生成故障盘SMART数据，从而提高故障盘SMART数据的丰富性和磁盘故障预测模型的性能。

由于磁盘良品率较高，使得磁盘SMART样本分布极不均衡，出现健康盘的SMART数据的样本量远高于故障盘的样本量的情况。本实施例使用深度学习方法对磁盘故障进行预测时，由于故障盘SMART数据样本量小、丰富性不足，导致模型无法充分学习坏盘特性，模型的性能受到限制。而如今还缺乏高效的故障盘SMART数据扩充方法。本实施例具备以下有益效果：

本实施例将磁盘SMART数据按照型号进行划分，会使得生成的数据更加具有针对性；筛选出与磁盘故障最相关的特征，可以降低数据量，提高数据生成效率；对缺失数据进行补全，可以解决SMART特征缺失问题。

本实施例对于有可能发生故障的磁盘按照故障盘处理，生成的数据丰富性更强；将一维磁盘SMART数据扩展成二维图像数据，可以最大程度上保留SMART数据的时间属性，使后续生成的样本数据更加真实。

本实施例根据生成对抗原理分别构建生成器网络和判别器网络，使用DCGAN模型进行故障盘SMART数据扩充，可以有效利用卷积神经网络优秀的图像特征提取能力，提升原始GAN模型训练的稳定性以及生成故障盘SMART数据的质量。

请参见图8，图8为本申请实施例所提供的一种磁盘SMART数据扩充系统的结构示意图，该系统可以包括：

预处理模块801，用于从磁盘数据集中提取故障盘SMART数据；

模型训练模块802，用于将所述故障盘SMART数据输入生成对抗网络模型，并利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器；

数据扩充模块803，用于若接收到数据扩充请求，则利用所述生成对抗网络模型的生成器执行磁盘SMART数据扩充操作，得到扩充SMART数据。

进一步的，预处理模块801从磁盘数据集中提取故障盘SMART数据的过程包括：确定磁盘数据集中的原始SMART数据，对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据。

进一步的，预处理模块801对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据的过程包括：对所述原始SMART数据执行数据分类操作，并建立每一类别对应的SMART数据文件；对所述SMART数据文件进行特征筛选，以便在所述SMART数据文件中保留磁盘故障相关特征；对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签；以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建二维数据图；将所述二维数据图中添加有所述故障盘标签的二维时序数据设置为所述故障盘SMART数据。

进一步的，还包括：

预处理模块801还用于在对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签之前，对所述SMART数据文件执行数据补全操作。

进一步的，预处理模块801对所述原始SMART数据执行数据分类操作的过程包括：按照磁盘型号对所述原始SMART数据执行数据分类操作。

进一步的，预处理模块801还用于在对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签之前，根据当前时间t₀和目标时长Δt确定所述预设时间段[t₀-Δt，t₀]。

进一步的，预处理模块801以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建二维数据图的过程包括：以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建多张所述二维数据图；其中，所述每一张所述二维数据图包括所有所述磁盘故障相关特征与时间的对应关系，任意两张二维数据图对应的时间不相同。

进一步的，还包括：

模型搭建模块，用于在将所述故障盘SMART数据输入生成对抗网络模型之前，根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型；其中，所述生成对抗网络模型为深度卷积生成对抗网络DCGAN。

进一步的，还包括：

生成器确定模块，用于在根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型之前，确定所述生成器的网络结构；

进一步的，还包括：

判别器确定模块，用于在根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型之前，确定所述判别器的网络结构；

进一步的，还包括：

目标函数设置模块，用于在将所述故障盘SMART数据输入生成对抗网络模型之前，根据所述生成器的目标函数和所述判别器的目标函数设置所述生成对抗网络模型的目标函数。

进一步的，还包括：

损失函数设置模块，用于在将所述故障盘SMART数据输入生成对抗网络模型之前，为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数。

进一步的，还包括：

参数更新模块，用于为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数之后，通过梯度下降法更新所述损失函数的网络权重和网络偏置。

进一步的，模型训练模块802利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器的过程包括：步骤1：初始化所述生成对抗网络模型的所述生成器和所述判别器的网络参数；步骤2：从所述故障盘SMART数据中选取训练样本；步骤3：固定所述生成器的网络参数，将随机噪声输入所述生成器得到第一生成样本，将所述训练样本和所述生成样本输入所述判别器得到第一判别结果，根据所述第一判别结果调整所述判别器的网络参数；步骤4：固定所述判别器的网络参数，将随机噪声输入所述生成器得到第二生成样本，将所述第二生成样本输入所述判别器得到第二判别结果，根据所述第二判别结果调整所述生成器的网络参数；步骤5：判断所述生成对抗网络模型是否达到纳什均衡；若是，则判定训练完毕；若否，则进入步骤2。

进一步的，模型训练模块802根据所述第一判别结果调整所述判别器的网络参数的过程包括：根据所述第一判别结果确定所述判别器的损失函数值，根据所述判别器的损失函数值调整所述判别器的网络参数。

进一步的，模型训练模块802根据所述第二判别结果调整所述生成器的网络参数的过程包括：根据所述第二判别结果确定所述生成器的损失函数值，根据所述生成器的损失函数值调整所述生成器的网络参数。

进一步的，还包括：

故障判断模块，用于在得到扩充SMART数据之后，利用所述扩充SMART数据训练磁盘故障预测模型；还用于将目标磁盘的磁盘SMART数据输入所述磁盘故障预测模型，以便所述磁盘故障预测模型判断所述目标磁盘是否存在故障。

本实施例还提供一种生成对抗网络模型的训练系统，包括：

数据提取模块，用于从磁盘数据集中提取故障盘SMART数据；

步骤2：从所述故障盘SMART数据中选取训练样本；

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。图9为本申请实施例所提供的一种电子设备的结构示意图，如图9所示，电子设备包括：

通信接口901，能够与其它设备比如网络设备等进行信息交互；

处理器902，与通信接口901连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的磁盘SMART数据扩充方法或生成对抗网络模型的训练方法。而所述计算机程序存储在存储器903上。

当然，实际应用时，电子设备中的各个组件通过总线系统904耦合在一起。可理解，总线系统904用于实现这些组件之间的连接通信。总线系统904除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线系统904。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：半导体存储芯片、U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。图10为本申请实施例所提供的一种存储介质的结构示意图，该存储介质可以为非易失或非瞬时的存储芯片，具体包括译码驱动、存储矩阵、读写电路、地址线、数据线、片选线和读/写控制线。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种磁盘SMART数据扩充方法，其特征在于，包括：

从磁盘数据集中提取故障盘SMART数据；

2.根据权利要求1所述磁盘SMART数据扩充方法，其特征在于，从磁盘数据集中提取故障盘SMART数据，包括：

3.根据权利要求2所述磁盘SMART数据扩充方法，其特征在于，对所述原始SMART数据执行数据预处理操作，得到所述故障盘SMART数据，包括：

4.根据权利要求3所述磁盘SMART数据扩充方法，其特征在于，在对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签之前，还包括：

对所述SMART数据文件执行数据补全操作。

5.根据权利要求3所述磁盘SMART数据扩充方法，其特征在于，对所述原始SMART数据执行数据分类操作，包括：

按照磁盘型号对所述原始SMART数据执行数据分类操作。

6.根据权利要求3所述磁盘SMART数据扩充方法，其特征在于，在对所述SMART数据文件中处于预设时间段的磁盘故障相关特征添加故障盘标签之前，还包括：

7.根据权利要求3所述磁盘SMART数据扩充方法，其特征在于，以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建二维数据图，包括：

以所述磁盘故障相关特征为第一个维度、以时间为第二个维度构建多张所述二维数据图；其中，每一张所述二维数据图包括所有所述磁盘故障相关特征与时间的对应关系，任意两张二维数据图对应的时间不相同。

8.根据权利要求1所述磁盘SMART数据扩充方法，其特征在于，在将所述故障盘SMART数据输入生成对抗网络模型之前，还包括：

9.根据权利要求8所述磁盘SMART数据扩充方法，其特征在于，在根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型之前，还包括：

确定所述生成器的网络结构；

10.根据权利要求8所述磁盘SMART数据扩充方法，其特征在于，在根据所述生成器和所述判别器的网络结构搭建所述生成对抗网络模型之前，还包括：

确定所述判别器的网络结构；

11.根据权利要求1所述磁盘SMART数据扩充方法，其特征在于，在将所述故障盘SMART数据输入生成对抗网络模型之前，还包括：

12.根据权利要求1所述磁盘SMART数据扩充方法，其特征在于，在将所述故障盘SMART数据输入生成对抗网络模型之前，还包括：

13.根据权利要求12所述磁盘SMART数据扩充方法，其特征在于，在为所述生成对抗网络模型的所述生成器和所述判别器设置对应的损失函数之后，还包括：

通过梯度下降法更新所述损失函数的网络权重和网络偏置。

14.根据权利要求1所述磁盘SMART数据扩充方法，其特征在于，利用所述故障盘SMART数据交替迭代训练所述生成对抗网络模型的生成器和判别器，包括：

步骤2：从所述故障盘SMART数据中选取训练样本；

15.根据权利要求14所述磁盘SMART数据扩充方法，其特征在于，根据所述第一判别结果调整所述判别器的网络参数，包括：

16.根据权利要求14所述磁盘SMART数据扩充方法，其特征在于，根据所述第二判别结果调整所述生成器的网络参数，包括：

17.根据权利要求1所述磁盘SMART数据扩充方法，其特征在于，在得到扩充SMART数据之后，还包括：

利用所述扩充SMART数据训练磁盘故障预测模型；

18.一种生成对抗网络模型的训练方法，其特征在于，包括：

从磁盘数据集中提取故障盘SMART数据；

步骤2：从所述故障盘SMART数据中选取训练样本；

19.一种磁盘SMART数据扩充系统，其特征在于，包括：

预处理模块，用于从磁盘数据集中提取故障盘SMART数据；

20.一种生成对抗网络模型的训练系统，其特征在于，包括：

数据提取模块，用于从磁盘数据集中提取故障盘SMART数据；

步骤2：从所述故障盘SMART数据中选取训练样本；

21.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至17任一项所述磁盘SMART数据扩充方法或权利要求18所述生成对抗网络模型的训练方法的步骤。

22.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至17任一项所述磁盘SMART数据扩充方法或权利要求18所述生成对抗网络模型的训练方法的步骤。