CN111414286B

CN111414286B - 一种基于深度学习的不平衡硬盘数据的故障诊断方法

Info

Publication number: CN111414286B
Application number: CN202010151485.XA
Authority: CN
Inventors: 李莉; 刘宇广; 林国义
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2021-11-09
Anticipated expiration: 2040-03-06
Also published as: CN111414286A

Abstract

本发明涉及一种基于深度学习的不平衡硬盘数据的故障诊断方法，包括以下步骤：1)原始硬盘数据进行预处理与三维重构；2)对三维重构后的硬盘数据进行数据类别平衡处理，并划分得到深度学习网络的训练集和测试集；3)构建深度学习网络并通过训练集进行训练，最后采用训练好的深度学习网络进行故障预测，判断硬盘数据是否故障。与现有技术相比，本发明具有准确率高、应用泛化性高、环境要求低、风险预测等优点。

Description

一种基于深度学习的不平衡硬盘数据的故障诊断方法

技术领域

本发明涉及计算机故障诊断领域，尤其是涉及一种基于深度学习的不平衡硬盘数据的故障诊断方法。

背景技术

当设备停机时，可能会延误整个工厂的生产线,更重要的是，如果采用专家检查机器会浪费很多时间，因此，机器需要配备传感器和日志功能，在一段时间内收集大量机器的历史数据，并使用机器学习来预测停机时间。

许多工业机器现在都可以使用IoT了，这意味着每台机器上的传感器和日志功能可以传输到一个中心集线器进行分析，这使得机器学习算法的强大使用成为可能，以中国变电站为例，利用热成像技术和深度学习技术可以实现80％以上的早期故障检测。

数据不平衡问题在各个领域都很常见，通常，当大多数类样本的比例为100:1时，我们可以称之为不平衡数据问题。因此，分类器的分类精度在大部分类中较高，在少数类中较低。现在较为常用的为采用机器学习模型SVM对数据进行分类，但由于模型深度不足，在应对复杂问题或者样本极不均衡的问题时，表现并不是很出色。此时，对复杂问题泛化能力较强的深度学习模型有较大的应用前景。

在基于深度学习在预测性维护的应用中，视觉信息是现实生活中最为简单又最为详细的外部信息，具有应用场景要求低、成本低、精确度较高、可应用性强、应用范围广等多项优势。

以过采样的方式平衡数据集并采用深度学习模型预测是一项具有挑战性的工作，尽管之前已经有很多研究工作来解决不平衡的数据集产生的问题，但是一直未能有较好的准确率很对故障侦测的准确率。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的不平衡硬盘数据的故障诊断方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的不平衡硬盘数据的故障诊断方法，包括以下步骤：

1)原始硬盘数据进行预处理与三维重构；

2)对三维重构后的硬盘数据进行数据类别平衡处理，并划分得到深度学习网络的训练集和测试集；

3)构建深度学习网络并通过训练集进行训练，最后采用训练好的深度学习网络进行故障预测，判断硬盘数据是否故障。

所述的步骤1)具体包括以下步骤：

11)对原始硬盘数据进行特征缺失值补全和异常值矫正处理；

12)对预处理后的数据进行三维重构。

所述的步骤12)中，三维重构具体为：

提取预处理后的数据中的硬盘型号并将其作为新的维度，同时将提取硬盘型号后剩余数据中的时间数据转换为对应型号硬盘的已工作时间，并将此已工作时间作为有用特征之一。

所述的步骤2)具体包括以下步骤：

21)提取三维重构后的硬盘数据中的主要相关特征，得到不平衡样本的数据集；

22)对不平衡样本的数据集进行划分，形成包含故障数据样本的训练集和测试集；

23)对训练集中的故障数据样本进行过采样平衡处理，用以防止训练过拟合。

所述的步骤21)中，采用Auto-encoder对提取出的特征进行降维处理，得到主要相关特征。

所述的步骤22)中，不平衡样本的数据集中包含大量的正常数据样本和极少量的故障数据样本，将不平衡样本的数据集中的样本合并后打乱顺序，形成训练集和测试集，使得训练集和测试集中均包含故障数据样本。

所述的步骤23)中，采用SOMTE算法对训练集中的故障数据样本进行过采样，具体表达式为：

其中，x_new为过采样后的新故障数据样本，x为原故障数据样本，

为原故障数据样本的相邻样本，rand(0,1)为0-1随机取值函数。

所述的步骤3)中，深度学习网络采用结合以Cross-Entropy-Loss为损失函数的预先训练以及以(1-accuracy)为损失函数训练的训练方式，用以降低深度学习网络的损失，提高准确率。

该方法还包括以下步骤：

4)对硬盘数据故障概率进行预测，具体包括以下步骤：

41)获取硬盘故障对应的型号和时间点；

42)以该时间点为基准向前分段，每向前七天的硬盘数据作为一个bag，共七个bags，并将每个bag中的数据标签修改为故障；

43)将所有bag中的数据作为深度学习网络的输入数据进行训练，并使用训练好的深度学习网络进行预测，得到硬盘发生故障在每个bag内的概率以及对应的风险概率曲线。

与现有技术相比，本发明具有以下优点：

一、准确率高：相比现有的SVM分类方法，本发明采用基于过拟合机器学习和深度学习的方法准确率有较大提高，且对于类别较少的样本诊断的准确率明显提高。

二、应用泛化性高：相比现有的机器学习技术，基于深度学习方法可以说是一种更为复杂深度的模型，具有不受外界条件的干扰，对噪声抗性强、鲁棒性高等特点。

三、环境要求低：本方法在实际应用中，无需提前对数据进行降噪处理或者数据特征预处理。该方法可直接由原始数据处理得到结果。

四、可进行风险预测：相比现有模型，本方法增加了对故障发生风险的预测，保证工作人员提前了解硬盘工作状态以更有效检测。

附图说明

图1为本发明方法的模型架构。

图2为本发明的步骤流程图。

图3为fengxian预测曲线结果，其中，图(3a)为风险预测曲线图，图(3b)为风险预测柱状图。

具体实施方式

下面结合图例、表格和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例：

由于硬盘型号是厂家指定的，本发明根据不同的型号训练不同的模型，Capacity_bytes是每个硬盘的容量，S.M.A.R.T.数字是一些自我监控的分析和报告技术，可以代表硬盘的特性。硬盘数据以日期的形式分布，更重要的是，每个硬盘驱动器有近120个特性，而在每个特性中，缺失的值是总数的一半。在此基础上，本发明采用对原始数据进行三维重构，并以特征工程Auto-encoder和缺失的值的处理方法对数据特征进行预处理，本发明采用了针对极不平衡样本的样本划分方法，将处理后的训练集采用SMOTE方式处理以平衡其不平衡的样本数，最后通过Cross-Entropy-Loss和(1-accuracy)结合的方式得到准确率更高的模型。

如图1和2所示，本发明提供一种基于深度学习实现对不平衡硬盘数据诊断方法，具体包括以下步骤：

步骤S1：原始数据预处理与三维重构，具体为：

步骤S11：对硬盘数据进行特征的缺失的值补全、异常值矫正处理；

步骤S12：对预处理后的数据进行三维重构，具体包括以下步骤：

首先提取其中硬盘型号并将其作为新的维度，并按照所分维度训练相应模型进行预测，然后对硬盘型号提取后的数据的时间维度进行处理，将其换算为相应硬盘已工作的时间，并默认硬盘已工作时间为其有用特征；

步骤S2：采取针对极不平衡样本的数据集划分方法并对于处理后的数据进行数据类别平衡处理，具体为：

步骤S21：对三维重构后的数据进行特征提取与排序处理，即，采用Auto-encoder(自编码网络)对多维特征进行降维处理，以此得到能代表原始数据的主要相关特征。

步骤S22：对硬盘数据进行针对不平衡样本的数据集划分方法，则有：

采用将样本数较多的样本集(正常数据样本)与样本数较少的样本集(故障数据样本)分别地划分为训练集和测试集，重新合并后打乱顺序成为所需训练集和测试集，以此保证训练集和测试集中都有故障数据样本；

步骤S23：对训练集的样本数故障数据样本进行过采样处理，对于数据的过采样处理是训练针对不平衡样本的深度学习模型至关重要的一个步骤，数据的过采样的好坏直接影响到深度学习模型最终的预测和结果。

过采样是处理不平衡数据集的一种重要手段，它重复正比例数据，但实际上没有为模型引入更多数据，过分强调正比例数据，可能会放大正比例噪音对模型的影响。由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别而不够泛化。过采样在避免过拟合的情况下可以提高模型的泛化能力并解决不平衡数据集的问题，它包括如SMOTE,Informed Under-sampling,Cost-Sensitive Learning,Ada-Cost等方法，其中SOMTE算法的基本思想是对少数样本进行分析，然后根据少数样本人为地向数据集中添加新的样本，其流程如下：

1.对于一个少数类的每个样本x，根据欧几里得距离，在一个少数类的S_min中计算它到所有样本的距离，得到它的k近邻；

2.根据样本的不平衡比例，设定采样比例，确定采样倍率n，对于每一个小数量的样本x，从其k近邻中随机选取若干个样本，选取的近邻假设为

3.对于每个随机选择的邻居

根据公式

用原样本构造新样本。

本发明从过采样的方式平衡数据集入手，依靠深度学习模型实现对硬盘故障的诊断，在本例中应用SMOTE，能有效进行过采样，得到较为平衡的数据集，SMOTE过采样函数表达式为：

步骤S3：构建深度学习网络进行训练预测，并提高对故障诊断的准确率，尽可能提高对故障数据样本的诊断准确率，本例采用以Cross-Entropy-Loss为损失函数的预先训练同以(1-accuracy)为损失函数的训练相结合的方式，以降低损失并提高准确率，其中，(1-accuracy)的含义为：诊断错误的数量占总体的百分比，Cross-Entropy-Loss函数表达式为：

其中，P为理想结果即正确标签向量和q为神经网络输出结果即经过softmax转换后的结果向量，N为训练样本数量；

步骤S4：构建Bagging模型对硬盘故障概率进行预测，具体为：

步骤S41：寻找硬盘故障对应型号及时间点；

步骤S42：以该时间点为准，每七天为一个bag，划分七个bags，由于故障的发生为一个连续且有征兆的事件，故本模型并将原始训练数据中的每个bag的数据对应的标签由0即正常数据改为1即人为假设为错误数据，并以此作为深度神经网络的训练集；

步骤S43：构建深度神经网络，以步骤S42处理后数据为输入训练深度学习模型；

步骤S44：以测试集评价该模型，获得预测硬盘发生故障在每个bags的概率以获得其风险概率曲线。

通过数据重构，步骤S1得到51个模型。本文以ST10000NM0086型为例。接下来，数据预处理填充空特征值，并通过自动编码器查找最多26个特征。基于这些数据，SMOTE生成了新的例子来平衡随机状态为65的不平衡比。深度学习模型如表1所示，该模型采用乙状结肠功能作为其激活功能，而不是elu或relu功能，以保证神经的活力，通过参数调整得到输入输出个数，最后一层是软max层，以便完成分类。

表1深度学习模型

Layer	1	2	3	4	5	6	7
								Input	26	22	18	14	8	4	2
Output	22	18	14	8	4	2	2
								Activation	sigmoid	sigmoid	sigmoid	sigmoid	sigmoid	sigmoid	\
Type	FC	FC	FC	FC	FC	FC	SoftMax

本发明采用了预训练的方法。通过实验，采用交叉熵损失作为预训练的损失函数，并采用(1-准确度)*100％作为训练损失，以提高训练的准确度。训练前阶段为2，训练阶段为4。批量采用10000，训练数据总数为259278，学习率为0.00003。最终结果如图3和表2所示。

表2准确率比较结果

Claims

1.一种基于深度学习的不平衡硬盘数据的故障诊断方法，其特征在于，包括以下步骤：

1)原始硬盘数据进行预处理与三维重构，具体包括以下步骤：

11)对原始硬盘数据进行特征缺失值补全和异常值矫正处理；

12)对预处理后的数据进行三维重构，三维重构具体为：

提取预处理后的数据中的硬盘型号并将其作为新的维度，同时将提取硬盘型号后剩余数据中的时间数据转换为对应型号硬盘的已工作时间，并将此已工作时间作为有用特征之一；

2)对三维重构后的硬盘数据进行数据类别平衡处理，并划分得到深度学习网络的训练集和测试集，具体包括以下步骤：

21)提取三维重构后的硬盘数据中的主要相关特征，得到不平衡样本的数据集，采用Auto-encoder对提取出的特征进行降维处理，得到主要相关特征；

22)对不平衡样本的数据集进行划分，形成包含故障数据样本的训练集和测试集，不平衡样本的数据集中包含大量的正常数据样本和极少量的故障数据样本，将不平衡样本的数据集中的样本合并后打乱顺序，形成训练集和测试集，使得训练集和测试集中均包含故障数据样本；

23)对训练集中的故障数据样本进行过采样平衡处理，用以防止训练过拟合，采用SOMTE算法对训练集中的故障数据样本进行过采样，具体表达式为：

为原故障数据样本的相邻样本，rand(0，1)为0-1随机取值函数；

3)构建深度学习网络并通过训练集进行训练，最后采用训练好的深度学习网络进行故障预测，判断硬盘数据是否故障，深度学习网络采用结合以Cross-Entropy-Loss为损失函数的预先训练以及以(1-accuracy)为损失函数训练的训练方式，用以降低深度学习网络的损失，提高准确率；

4)对硬盘数据故障概率进行预测，具体包括以下步骤：

41)获取硬盘故障对应的型号和时间点；