CN109871862A

CN109871862A - 一种基于合成少数类过采样和深度学习的故障预测方法

Info

Publication number: CN109871862A
Application number: CN201811619342.6A
Authority: CN
Inventors: 房红征; 任帅; 杨浩; 熊毅; 隋景峰; 余家豪; 罗凯; 樊焕贞; 王菲
Original assignee: Beijing Aerospace Measurement and Control Technology Co Ltd
Current assignee: Beijing Aerospace Measurement and Control Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-06-11

Abstract

本发明提供一种基于合成少数类过采样和深度学习的故障预测方法，首先用K‑Means方法对样本集中的少数类样本进行聚类，并删除聚类后的噪声类簇，而后在每一个类簇中利用KNN方法将类簇分为噪声类样本、故障类样本以及风险类样本，并删除其中的噪声类样本，最后在每一个类簇中输入一个随机数并根据随机数与类簇中故障类样本以及风险类样本的比例关系选择某个样本作为输出样本，实现SMOTE方法过采样，然后再通过倍增操作增加了少数类样本的数量，使得最终得到的融合样本中的样本类别更均衡，也就使得采集的特征数据均衡，从而便于开展模型训练，最大化的挖掘出数据背后的规律，实现较好的故障预测效果。

Description

一种基于合成少数类过采样和深度学习的故障预测方法

技术领域

本发明属于故障预测与检测领域，尤其涉及一种基于合成少数类过采样和深度学习的故障预测方法。

背景技术

飞行器、轨道交通装备等复杂装备长期运行在各种环境中，受复杂环境、工作状态及载荷等多因素影响，其功能和性能可能会发生异常变化，而这些异常变化通常可以通过故障预测方法反映出来。但是在实际应用中，得到的原始数据对象往往是非均衡的，即某个类别的样本数目要远多于其他类，因此当机电设备(如热控功能系统等的泵、电机等)正常数据与故障数据不均衡时，应用传统的数据驱动的方法就难以有效进行预测。

在不均衡数据中，一般将数目比较多的类称为多数类，而对应数目较少的类则称为少数类。传统的分类器在处理非均衡数据时，通常训练得到的分类器对于多数类具有偏向性，即对多数类的预测正确率较高，而对少数类的正确率则很相对偏低。目前对于非均衡数据集的处理方法通常可以分为两类：一种是基于数据层面的方法，即通过改变数据集的分布，使得非平衡数据集变成均衡的数据集。另一种是基于方法层面的方法，它通过改变少数类中误分类样本的权重，从而获得更好的分类效果。

目前基于方法层面的方法，主要包括代价敏感(Cost-Sensitive)学习、集成学习、单类学习和面向单个正类的学习等方法。基于数据层面的方法，一般采用随机过采样或随机欠采样方式对数据集进行再采样处理，旨在通过改变非均衡数据集的分布以提高后续分类模型的分类性能，主要包括SMOTE(Synthetic Minority Oversampling Technique，合成少数类过采样技术)等。SMOTE方法的本质是在少数类样本与某个近邻同类样本的连线上进行再采样，以此弥补随机过采样方法的不足。但由于少数类样本在合成新样本的过程中将近邻均视为同类，忽略了少数类样本周围多数类样本的分布特点。因此SMOTE在选择近邻时存在一定的盲目性，而且该方法无法克服非均衡数据集的数据分布问题，容易导致分布边缘化。

此外，针对飞行器、轨道交通装备等领域的机电设备(如热控功能系统的泵、电机等)，数据主要来源于工业传感器数据，主要特点是特征参数维度高，按一定的采样率采集数据，如果要充分利用传感器采集的类型数据，需要既考虑数据之间的时序联系，也要考虑当前时间点的特征之间的联系。

发明内容

为解决上述问题，本发明提供一种基于合成少数类过采样和深度学习的故障预测方法，通过倍增少数类样本的方式，使得最终得到的融合样本中的样本类别更均衡，便于开展模型训练，最大化的挖掘出数据背后的规律，实现较好的故障预测效果。

一种基于合成少数类过采样和深度学习的故障预测方法，包括以下步骤：

S1：获取故障原始数据，统计故障原始数据中各故障样本类别的样本数目，若样本数目大于预设阈值，则该故障样本类别为多数类，若不大于，则该故障样本类别为少数类；

S2：采用K-Means方法对少数类中的样本进行聚类，得到类簇，其中类簇的数量用R表示；

S3：采用离差平方和法，分别获取步骤S2中各类簇与所述多数类的距离，将距离最小者对应的类簇作为噪声类簇，并将噪声类簇从步骤S2中的类簇中删除，剩余R-1个类簇；

S4：采用KNN法，将步骤S3中剩余的每一个类簇中的样本划分为噪声类样本、故障类样本以及风险类样本，然后将各类簇中的噪声类样本删除，得到R-1个更新类簇；

S5：依次对各更新类簇分别执行风险故障选择操作，得到各更新类簇的输出样本，其中，所述风险故障选择操作具体为：

设定一个随机数α∈[0,1]，并将更新类簇中故障类样本的数量表示为s，风险类样本的数量表示为d，且令

若则选择风险类样本作为输出样本，否则选择故障类样本作为输出样本；

S6：依次将步骤S5中各更新类簇的输出样本中的每一个样本作为中心样本，然后基于中心样本执行倍增操作，得到各中心样本的倍增样本，则各输出样本中各样本对应的倍增样本的集合为倍增样本集合，其中，所述倍增操作的具体步骤为：

在中心样本的K个最近邻样本点中随机选择N个近邻样本，其中N至少为2；

所述N个近邻样本分别与中心样本进行随机的线性插值，得到的N个更新样本为所述倍增样本；

S7：将各个倍增样本集合、步骤S4中所述的剩余类簇以及步骤S1中所述的多数类进行样本融合，得到融合样本；

S8：将融合样本按照设定比例分为训练样本和测试样本，然后采用训练样本训练CNN与LSTM的组合分类器，再采用训练好的CNN与LSTM的组合分类器对测试样本进行故障预测。

进一步地，步骤S2所述的采用K-Means方法对少数类中的样本进行聚类，得到R个类簇，具体为：

S201：假设少数类样本集合P为{x⁽¹⁾,…x⁽ⁱ⁾…,x^(m)}，其中，x⁽ⁱ⁾表示第i个样本，i＝1,2,…,m，m表示少数类样本集合P中样本的数量；

S202：从少数类样本集合P中随机选取R个样本作为聚类质心，然后根据R个聚类质心进行聚类操作，得到R个类簇，其中，所述聚类操作具体为：分别获取未被选作聚类质心的剩余样本与各聚类质心的欧式距离，对于每一个剩余样本，将与其欧式距离最短的聚类质心作为自身所在类簇的聚类中心，则得到R个类簇；

S203：分别对每个类簇执行质心更新操作，得到R个更新质心，其中，所述质心更新操作具体为：

将类簇中各样本与当前的聚类质心的欧式距离进行求和，所得和值再除以该类簇中所有样本的个数，得到该类簇的更新质心；

S204：判断更新质心与更新之前的聚类质心是否相同：

若相同，则将R个更新质心作为最终的聚类质心，并根据最终的聚类质心进行聚类操作，得到最终的R个类簇；

若不相同，则将R个更新质心代替步骤S202中的聚类质心，然后重复步骤S202～S204，直到当前的更新质心与上一次质心更新操作得到的更新质心相同。

进一步地，步骤S4所述的采用KNN法，将剩余类簇的每一个类簇中的样本划分为噪声类样本、故障类样本以及风险类样本，具体为：

S401：将剩余类簇表示为s_j，j＝1,2,…,R-1，多数类表示为S_maj；

S402：对剩余类簇中的各个样本p_k执行划分操作，得到各样本p_k的所属类别，其中，所述划分操作具体为：

获取样本p_k的M近邻集合S_{k:M_NN}，若则样本p_k为风险类样本，若S_{k:M_NN}∩S_maj＝M，则样本p_k为噪声类样本，若则样本p_k为故障类样本。

进一步地，步骤S1中获取故障原始数据后，对故障原始数据进行预处理，以此去除故障原始数据中的无效数据和重复数据。

有益效果：

本发明提供一种基于合成少数类过采样和深度学习的故障预测方法，针对飞行器、轨道交通装备等机电设备采集数据在不同故障模式下数据样本不均衡、有效故障样本少的问题，首先用K-Means方法对样本集中的少数类样本进行聚类，并删除聚类后的噪声类簇，而后在每一个类簇中利用KNN方法将类簇分为噪声类样本、故障类样本以及风险类样本，并删除其中的噪声类样本，最后在每一个类簇中输入一个随机数并根据随机数与类簇中故障类样本以及风险类样本的比例关系选择某个样本作为输出样本，实现SMOTE方法过采样，然后再通过倍增操作增加了少数类样本的数量，使得最终得到的融合样本中的样本类别更均衡，也就使得采集的特征数据均衡，从而便于开展模型训练，最大化的挖掘出数据背后的规律，实现较好的故障预测效果，解决了故障样本少的情况下无法开展深度学习预测分析的问题，以及传统SMOTE方法的近邻选择盲目性，减少非均衡数据集的分布边缘化问题，对于辅助飞行器、轨道交通装备等机电设备在轨异常状态的捕获和排除决策具有较为重要的意义。

附图说明

图1为本发明提供的一种机电设备非均衡数据分类的K-Means-SMOTE改进型再采样方法的流程图；

图2为本发明提供的一种基于合成少数类过采样和深度学习的故障预测方法的流程图；

图3为本发明提供的机电设备CNN+LSTM的组合的深度学习模型构建的流程示意图；

图4为本发明提供的针对机电设备典型故障(“泵转速输出故障”)的改进SMOTE采样的深度学习预测示例中的实际数据示意图；

图5为本发明提供的针对机电设备典型故障(“泵转速输出故障”)的改进SMOTE采样的深度学习预测示例的预测结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

为了解决现有技术中，缺少一种解决故障样本少的情况下无法开展深度学习预测分析以及传统SMOTE方法的近邻选择盲目性、减少非均衡数据集的分布边缘化等问题，导致机电设备在运行出现异常时，无法对出现问题的设备或部件进行有效的预测等问题，本实施例提供了一种基于合成少数类过采样和深度学习的故障预测方法。参见图1，该图为本实施例提供的一种机电设备非均衡数据分类的K-Means-SMOTE改进型再采样方法的流程图。该方法首先用K-Means方法对样本集中的少数类样本进行聚类，并删除聚类后每个类簇质心距离多数类样本最近的噪声样本类，而后在每一个类簇中利用KNN方法将类簇分为三类并删除噪声样本类。最后在每一个类簇中输入一个随机数并根据随机数与类簇中样本集类型的占比关系选择某个样本集进行SMOTE方法过采样。

参见图2，本实施例提供的一种基于合成少数类过采样和深度学习的故障预测方法的流程图。一种基于合成少数类过采样和深度学习的故障预测方法，包括以下步骤：

S1：获取故障原始数据，统计故障原始数据中各故障样本类别的样本数目，若样本数目大于预设阈值，则该故障样本类别为多数类，若不大于，则该故障样本类别为少数类。

可选的，在统计故障原始数据中各故障样本类别的样本数目前，对故障原始数据进行预处理，清洗数据以去除无效数据和重复数据。

S2：采用K-Means方法对少数类中的样本进行聚类，得到类簇，其中类簇的数量用R表示。

具体的，包括以下步骤：

S201：假设少数类样本集合P为{x⁽¹⁾,…x⁽ⁱ⁾…,x^(m)}，其中，x⁽ⁱ⁾表示第i个样本，i＝1,2,…,m，m表示少数类样本集合P中样本的数量。

S202：从少数类样本集合P中随机选取R个样本作为聚类质心，然后根据R个聚类质心进行聚类操作，得到R个类簇，其中，所述聚类操作具体为：分别获取未被选作聚类质心的剩余样本与各聚类质心的欧式距离，对于每一个剩余样本，将与其欧式距离最短的聚类质心作为自身所在类簇的聚类中心，则得到R个类簇。

例如，随机选取3个样本点p₁，p₂和p₃作为聚类质心，然后对少数类样本集中每个样本x(i)，根据如下公式计算该样本x(i)与三个质心的欧式距离

其中，c^(t)为簇，t＝1,2,3。

S204：判断更新质心与更新之前的聚类质心是否相同：

S3：采用离差平方和法，分别获取步骤S2中各类簇与所述多数类的距离，将距离最小者对应的类簇作为噪声类簇，并将噪声类簇从步骤S2中的类簇中删除，剩余R-1个类簇。

S4：采用KNN(K-Nearest Neighbor)法，将步骤S3中剩余的每一个类簇中的样本划分为噪声类样本、故障类样本以及风险类样本，然后将各类簇中的噪声类样本删除，得到R-1个更新类簇。

具体的，包括以下步骤：

若则选择风险类样本作为输出样本，否则选择故障类样本作为输出样本。

所述N个近邻样本分别与中心样本进行随机的线性插值，得到的N个更新样本为所述倍增样本。

需要说明的是，线性插值的方法为：

假设N个近邻样本记为y₁,y₂,…,y_N；

在样本x⁽ⁱ⁾与y_q(q＝1,2,…,N)之间进行随机的线性插值，构造新的更新样本d_q＝x⁽ⁱ⁾+α(y_q-x⁽ⁱ⁾)。

S7：将各个倍增样本集合、步骤S4中所述的剩余类簇以及步骤S1中所述的多数类进行样本融合，得到融合样本。

需要说明的是，图2示出了机电设备CNN+LSTM的组合的深度学习模型构建的流程示意图，针对机电设备的工业传感器数据，主要特点是特征参数维度高，按一定的采样率采集数据，如果要充分利用传感器采集的类型数据，需要即考虑数据之间的时序联系，也要考虑当前时间点的特征之间的联系。合适的模型结构可以使用CNN+LSTM结合起来，进而搭建组合的深度学习模型。其中先进行卷积层CNN，可以通过卷积+池化的方法提取出某个时间点特征之间的空间信息，然后使用LSTM来提取时序数据的时间维度信息，结合起来能够获取空间和时间两个维度的信息，最大化的挖掘出数据背后的规律，实现较好的故障预测效果。包括：

卷积层：对整体数据做卷积，通过多个卷积核来提取不同角度的空间信息；

池化层：减少模型的参数维度，提高模型训练的效率；

LSTM层1：提取时间序列数据的时间维度信息；

LSTM层2：进一步提取时间序列数据的时间维度信息；

全连接层1：将所有参数展开，便于输出；

全连接层2：构建深度神经网络，提高模型非线性拟合能力；

全连接层3：增加全连接层数，进一步提高模型非线性拟合能力。

由此可见，本实施例提供一种基于合成少数类过采样和深度学习的故障预测方法，首先，针对机电设备待检测时间段内的数据采用改进型K-Means-SMOTE方法进行初始化、聚类，标记子类样本集找出噪声样本集，在少数类样本集中去除新噪声样本，对少数类样本的每个类簇进行再分类，删除少数类每一个类簇中的噪声类样本集合，合成新样本并合并数据；其次，采用CNN+LSTM结合的方法，搭建组合的深度学习模型，先进性卷积层CNN，再使用LSTM来提取时序数据的时间维度信息，建立能够获取空间和时间两个维度的信息的深度学习模型；最后，针对改进SMOTE再采样的机电设备待预测数据，利用组合的CNN+LSTM深度学习预测模型进行预测，给出预测结果。

实施例二

下面，结合具体实例对上述过程进行具体说明。

具体的，以某机电设备故障(“泵转速输出故障预测”)为例进行基于深度学习的故障预测。

1)对故障原始数据进行预处理，清洗数据以去除无效数据和重复数据，导入处理后的数据，并将其分为多数类样本和少数类样本，建立参数正常状态样本；采用K-Means方法对少数类样本进行聚类；

2)找出噪声类簇，在少数类样本集P中去除新噪声类簇；

3)对少数类样本的每个剩余类簇进行再分类，删除少数类每一个剩余类簇中的噪声类样本；

4)合成新样本并合并数据，合并后数据如图3“针对机电设备典型故障(“泵转速输出故障”)的改进SMOTE采样的深度学习预测示例”中的实际数据。

5)搭建LSTM+CNN组合的深度学习模型，其中先进行卷积层CNN，可以通过卷积+池化的方法提取出某个时间点特征之间的空间信息，然后使用LSTM来提取时序数据的时间维度信息，包括卷积层、池化层、LSTM层1、LSTM层2、全连接层1、全连接层2、全连接层3等模型构建。如图4“针对机电设备典型故障(“泵转速输出故障”)的CNN+LSTM的组合的深度学习模型训练集准确度示例”所示。

6)针对改进SMOTE再采样的机电设备待预测数据，利用组合的CNN+LSTM深度学习预测模型进行预测，给出预测结果，如图4“针对机电设备典型故障(“泵转速输出故障”)的改进SMOTE采样的深度学习预测示例”所示。

本实施例通过增加机电设备(如飞行器中热控功能系统的泵、电机等)故障预测中的少数故障样本，有效地增加故障特征数据，提高预测模型的训练效率，结合CNN和LSTM获取空间和时间两个维度的信息，最大化的挖掘出数据背后的规律，实现较好的故障诊断和预测效果。

由此可见，本实施例公开的一种非均衡数据改进SMOTE采样的机电设备深度学习预测方法，首先，针对故障不平衡数据进行处理，提出改进型SMOTE过采样方法，采用K-Means方法对样本集中的少数类样本进行聚类，在每一个类簇中输入一个随机数并根据随机数与类簇中样本集类型的占比关系选择某个样本集进行SMOTE方法过采样；其次，搭建卷积神经网络CNN+长短期记忆网络LSTM的混合深度学习模型进行故障预测，先通过卷积+池化的方法提取出某个时间点特征之间的空间信息，然后使用LSTM来提取时序数据的时间维度信息，结合空间和时间两个维度的信息进行预测。本实施例解决了机电设备故障样本少的情况下无法开展深度学习预测分析以及传统SMOTE方法的近邻选择盲目性、减少非均衡数据集的分布边缘化等问题。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于合成少数类过采样和深度学习的故障预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于合成少数类过采样和深度学习的故障预测方法，其特征在于，步骤S2所述的采用K-Means方法对少数类中的样本进行聚类，得到R个类簇，具体为：

S204：判断更新质心与更新之前的聚类质心是否相同：

3.如权利要求1所述的一种基于合成少数类过采样和深度学习的故障预测方法，其特征在于，步骤S4所述的采用KNN法，将剩余类簇的每一个类簇中的样本划分为噪声类样本、故障类样本以及风险类样本，具体为：

4.如权利要求1所述的一种基于合成少数类过采样和深度学习的故障预测方法，其特征在于，步骤S1中获取故障原始数据后，对故障原始数据进行预处理，以此去除故障原始数据中的无效数据和重复数据。