CN111881988B

CN111881988B - 基于少数类过采样方法的异质不平衡数据故障检测方法

Info

Publication number: CN111881988B
Application number: CN202010763063.8A
Authority: CN
Inventors: 刘杰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-06-14
Anticipated expiration: 2040-07-31
Also published as: CN111881988A

Abstract

本发明供一种基于少数类过采样方法的异质不平衡数据故障检测方法，其包括获取机电设备健康状态相关的所监测的不平衡数据集T＝{T_‑，T₊}，以等概率从少数类故障数据集T₊随机选择一个样本x⁺；基于异质数值差异指标或平均数值型变量距离在少数类故障数据集T₊中找到x⁺的k个近邻样本；从k个近邻样本中选择一个x⁺的最近邻样本

基于

计算人工生成样本

的数值型变量和标称型变量取值；基于

对机电设备进行故障检测。本发明中提出两个距离测度计算方法，所生成的少数类样本在标称型变量的取值不超出其原本的值域范围，且将标称型变量转化为数值型变量，可大大增加分类模型的选择的可能性，从而提高机电设备故障检测的准确性，并确保机电设备的安全运行。

Description

基于少数类过采样方法的异质不平衡数据故障检测方法

技术领域

本发明涉及计算机仿真技术领域，特别涉及一种基于少数类过采样方法的异质不平衡数据故障检测方法。

背景技术

检测关键部件的任何可能故障对提高工程系统的安全性和可用性是非常重要的。数据驱动模型和智能传感器的发展大大扩展了故障诊断研究的应用领域。然而，不平衡数据为数据驱动故障检测方法带来很大的挑战。在不平衡数据中，某一类或少数类的数据量远远小于其它类或称多数类样本的数据量。不平衡数据往往使得数据驱动模型的最优决策面向多数类偏移，降低模型在少数类样本上的分类准确性。

在故障检测问题中，由于系统可靠性提高和故障率降低，收集到的绝大多数监测数据是关于目标系统的健康状态，而故障数据只占很小的一部分。比如，轨道卫星软件故障数据只占所有监测数据的0.41％。高铁制动系统一年间28837个监测数据中，只有159个与故障相关。因此，类间不平衡性会大大降低故障检出率和数据驱动模型的效能，这在工业中是不希望接受的。

针对不平衡数据问题所提出来的众多分类方法中，少数类过采样方法是其中重要的一类。这类方法利用真实的少数类样本生成人工少数类样本，以平衡多数类与少数类先验分布不平衡问题。

然而，目前关于不平衡数据的研究没有充分考虑异质变量对分类结果的影响。异质变量是指数据变量的类型不同。在故障诊断问题中，监测变量可能是数值型或标称型或称离散型。以汽车发动机监测参数为例，压缩比、RPM峰值、马力等是连续数值变量，而气缸数、发动机类型、燃油系统类型等是离散变量或标称型变量。在实际的故障检测问题中，异质变量问题是无法避免的。

现有少数类过采样方法在连续型数值数据上表现很好，但在处理异质不平衡数据时，往往需要将标称型数据转化为连续性数据。比如，一个取值为红、橙、黑、黄的标称型变量，可以被转化为数值为0.1、0.2、0.3、0.4的数值型变量。这种转换非常简便，但存在如下技术问题：

(1)很难确定标称型变量转化为数值型变量后的取值范围。

少数类过采样方法使用欧表达式距离为两个样本相似度的度量指标，很难确定标称型数据的取值范围。较大的取值范围会造成标称型数据在距离计算中起到主导作用。而较小的取值范围容易造成其它变量在距离计算中起主导作用。比如，假设所有数值型变量的取值范围为[0,1]，若标称型变量的取值范围为[0,100]，那么其在之后的距离计算中将起到主导作用。反之，若其取值范围为[0,0.1]，那么数值型变量将在距离计算中起主导作用。即使可以为标称型变量确定一个合理的取值范围，其离散的本质仍然会造成离散变量两个数值间的距离与数值型变量不相同。

(2)即使可以确定标称型变量的取值范围，标称型变量的两个取值间的距离也不能令人信服。

将标称型变量转化为数值型数据后，标称型数值通常要进行排序和归一化，而这两个数据处理方式在原有的标称型变量下是不存在的。在之前的案例中，为何红色和橙色之间的距离

比红色和黑色之间的距离

小，同时，为何黄色比黑色‘大’。另外一个例子是设备的健康状态，可以是健康、退化和失效。这些取值是由程度大小之分，但是我们在将其转化为数值型数据后，很难确定两个值之间距离的大小。

(3)在人工生成的样本中，标称型变量的取值可能会超出其原有的值域范围。

以前一示例为例，如果选择的一对少数类样本所对应的同一个标称型变量的取值分别为红(0.1)和黄(0.4)，那么人工生成少数类样本中，该标称型变量的取值可以取区间[0.1,0.4]内的任何值。然而，该标称型变量的可能取值只有0.1、0.2、0.3、0.4，其它取值在该标称型变量下没有任何意义。即现有技术中，标称型数据仍然被粗暴的转化为数值型数据，进而很可能导致人工生成样本中标称变量的取值超出其值域范围。

因此，由于现有的故障预测方法存在上述缺陷，在机电设备故障预测时，导致检测不准确，影响了设备的安全性。

发明内容

本发明针对上述现有技术中的缺陷，提出了两种针对异质不平衡数据的少数类过采样方法。这些方法是SMOTE的变种，记为SMOTE-Heterogeneous 1和SMOTE-Heterogeneous2。这两个方法的差异在于度量异质样本相似度/距离的测度不同。这些方法的目的是相同的，即通过人工生成少数类样本来平衡多数类与少数类样本数量/分布的差异。本申请所提出的方法的主要步骤包括选择真实少数类样本x⁺、选择少数类中x⁺的一个最近邻样本以及计算人工生成少数类样本坐标。

本发明的具体方案如下：

本发明提出的一种基于少数类过采样方法的异质不平衡数据故障检测方法，其包括以下步骤：

步骤S1，获取机电设备健康状态相关的所监测到的不平衡数据集T＝{T_-,T₊}，其中，所述不平衡数据集T包括N_-个与设备正常运行状态相关样本的多数类T_-和一个包含N₊个与设备故障相关样本的少数类T₊，且N_->N₊，令N＝N_-+N₊，样本表示为{x,y}，其中x＝[x₁,x₂,…,x_a]是包含a个与设备运行工况相关的数值型和/或标称型监测变量的输入向量，y＝{-1,+1}为类标签，其中-1代表设备处于正常运行状态，+1代表设备发生故障，每一个标称型变量x_n能取M_n,i个离散值，i∈[1,2,…,a]；

步骤S2，以等概率从少数类故障数据集T₊随机选择一个样本x⁺；

步骤S3，基于异质数值差异指标HVDM或平均数值型变量距离在所述少数类故障数据集T₊中找到样本x⁺的k个近邻样本；其中，所述异质数值差异指标HVDM的表达式(2)为：

其中，HVDM为异质数值差异指标；d_i(x_1,i,x_2,i)为机电设备两个输入变量取值x_1,i,x_2,i之间的距离；x₁、x₂为两个输入向量；

或者，所述平均数值型变量距离的确定方法为：

在利用表达式(2)计算两个输入向量x₁和x₂之间的距离时，输入变量之间距离d_i(x₁,x₂)的确定方法如下：

其中，|x₁-x₂|是一个数值型变量两个值之间的绝对差值；

当第i个变量为标称型时，标称型变量的两个值之间的距离是所有数值型变量绝对插值的平均值，其中，x_l,j是训练集中第j个样本中第l个数值型变量的值；mean代表均值，x_l∈numerical代表所有数值型变量集合中的任一变量；

步骤S4，从所述k个近邻样本中选择一个x⁺的最近邻样本

步骤S5，基于所述最近邻样本

计算人工生成样本的数值型变量和标称型变量

步骤S6，基于所述数值型变量和标称型变量

对所述机电设备进行故障检测，获得故障检测结果。

可优选的是，在所述异质数值差异指标HVDM的表达式(2)中，所述两个输入向量x₁和x₂之间的距离d_i(x_1,i,x_2,i)是根据表达式(3)计算获得，

其中：

σ_i是第i个变量的标准差；

分别为不平衡数据集T中第i个变量取值为输入向量x₁、x₂的样本数；

分别为少数类中第i个变量取值为输入向量x₁、x₂的样本个数。

进一步，所述基于所述最近邻样本

计算人工生成样本的数值型变量和标称型变量

的计算表达式(1)为：

如果

为数值型变量，则

其中，α是介于0和1之间的随机数；

如果

为标称型变量，则：假设x⁺和

分别为随机选择的少数类故障样本及其最近邻故障样本之一，x⁺和

在一个标称型变量的取值是在包含有限个值的值域S内，分别为x⁺和

新生成的人工样本

在该标称型变量上的取值能为S内的任何值

且其概率正比于联合条件概率

确定方法如下：

其中：

是在给定少数类样本及其最近邻样本之一在第i个标称型变量取值分别为x⁺和

的情况下，二者最近邻在该标称型变量取值为

的联合条件概率；

是在给定少数类样本第i个标称型变量取值为x⁺的情况下，其最近邻在该标称型变量取值为

的条件概率；

是在给定少数类样本第i个标称型变量取值为

的情况下，其最近邻在该标称型变量取值为

的条件概率；

第i个标称型变量取值为x⁺的少数类样本数量；

第i个标称型变量取值为x⁺的少数类样本的最近邻中在该变量取值为

的少数类样本数量；

是第i个标称型变量取值为

的少数类样本数量；

是第i个标称型变量取值为

的少数类样本的最近邻中在该变量取值为

的少数类样本数量。

可优选的是，将所述标称型变量

转换为数值型变量再进行故障检测，转换表达式为：

假设标称型变量

是一个包含m个取值的值域S＝{v_i,1,v_i,2,…,v_i,m}所对应的标称型变量，采用以下编码方法将一个标称型值编码为一个大小为m的向量

该向量只有一个元素为非零值b，如下所示：

其中，b为表达式(4)中参数

除以

为编码后的标称型变量值v_i,1所对应的向量；

f(v_i,j)为标称型变量编码函数。

可优选的是，所述机电设备为高速列车的制动系统。

与现有技术相比较，本发明具有以下有益效果：

本发明的基于少数类过采样方法的异质不平衡数据故障检测方法，其包括：步骤S1，获取机电设备健康相关的所监测的不平衡数据集T＝{T_-,T₊}，其中，所述据集T包括N_-个与设备正常运行工况相关监测样本的多数类T_-和一个包含N₊个与设备故障相关监测样本的少数类T₊，且N_->N₊，令N＝N_-+N₊，样本表示为{x,y}，其中x＝[x₁,x₂,…,x_a]是包含a个数值型和/或标称型监测变量的输入向量，y＝{-1,+1}为类标签，-1代表设备正常运行，+1代表设备故障，每一个标称型变量x_n可以取M_n,i个离散值，i∈[1,2,…,a]；步骤S2，以等概率从少数类T₊随机选择一个样本x⁺；步骤S3，基于异质数值差异指标或平均数值型变量距离在所述少数类T₊中找到样本x⁺的k个近邻样本；步骤S4，从所述k个近邻样本中选择一个x⁺的最近邻样本

步骤S5，基于所述最近邻样本

计算人工生成样本的数值型变量和标称型变量

步骤S6，基于所述数值型变量和标称型变量

对所述机电设备进行故障检测，获得故障检测结果。

本发明中提出了两个距离测度计算方法，并基于此提出了两个针对异质不平衡数据的少数类过采样方法；本发明利用一对真实少数类故障样本生成人工少数类故障样本时，所生成的少数类样本在标称型变量的取值不超出其原本的值域范围，否则将无法解释该少数样本的内涵；本发明将标称型变量转化为数值型变量，可以大大增加分类模型的选择的可能性，从而提高了机电设备故障预测的准确性，确保了机电设备的安全运行。在本发明的一个优选实施例中，本发明的方法被用于高铁制动系统故障检测过程，证明了其故障检测的准确性高于现有的方法。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1为本发明的基于少数类过采样方法的异质不平衡数据故障检测方法的流程图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明旨在提供一种基于少数类过采样方法的异质不平衡数据故障检测方法，其包括以下步骤：

步骤S1，获取机电设备故障相关的所监测的不平衡数据集T＝{T_-,T₊}，其中，据集T包括N_-个样本的多数类T_-和一个包含N₊个样本的少数类T₊，且N_->N₊，令N＝N_-+N₊，样本表示为{x,y}，其中x＝[x₁,x₂,…,x_a]是包含a个数值型和/或标称型变量的输入向量，y＝{-1,+1}为类标签，每一个标称型变量x_n可以取M_n,i个离散值，i∈[1,2,…,a]。

在本发明中，机电设备优选是指高速列车的制动系统。制动系统由机电、电力、电子等部件组成，而任何部件都可能发生故障，因此准确的检测可能的故障是非常重要的。

在本发明的一个优选实施方式中，本发明所利用的监测数据是一辆高铁客车运行一年的制动系统监测数据，共包含7307个数据样本。这些数据中，只有308个与制动系统故障相关，故不平衡比(IR)达到了236。同时，该监测数据共包含43个变量。这些变量既包含数值型变量如列车定位信息、制动力、列车运行速度等，也包含标称型变量如列车运行状态、紧急制动状态等。

步骤S2，以等概率从少数类T₊随机选择一个样本x⁺；选择方法可以采用等概率的随机函数进行选择。

步骤S3，基于异质数值差异指标或平均数值型变量距离在少数类T₊中找到样本x⁺的k个近邻样本。

在一实施例中，异质数值差异指标HVDM的表达式为：

其中d_i(x_1,i,x_2,i)是根据表达式(3)计算所得，

其中：

σ_i是第i个变量的标准差；

分别为不平衡数据集T中第i个变量取值为x₁、x₂的样本个数；

分别为少数类中第i个变量取值为x₁、x₂的样本个数。

从表达式(3)可以看出，两个数值型变量取值间的距离为二者的绝对差除以该变量四倍的标准差，可以有效的控制异常值的不利影响，且距离的取值范围为0到1。标称型变量两个取值间的距离为

其中C为数据集中类别个数。本发明主要研究二分类情况，该表达式可以简化为表达式(3)的形式，其取值范围亦为0到1。

在另一个实施例中，平均数值型变量距离的计算表达式为：

在利用表达式(2)计算两个输入向量x₁和x₂之间的距离时，输入变量之间距离的计算方法如下：

其中：

|x₁-x₂|是一个数值型变量两个值之间的绝对差值；

一个标称型变量的两个值之间的距离是所有数值型变量绝对插值的平均值，其中x_l,j是训练集中第j个样本中第l个数值型变量的值。

通过计算平均数值型变量差值，可以在一定程度上避免标称型变量在距离计算中有过高或过低的权重。如果输入向量不含有数值型变量，任意标称型变量两个取值间的距离设定为0.5。

在随机选择一个少数类样本x⁺后，需要找到其在少数类内的k个最近邻样本，并从中随机选择一个来生成人工合成少数类样本。寻找最近邻的过程就是根据某一测度度量样本间相似程度的过程。较小的距离意味着与样本x⁺更近。

本发明提出了计算一对输入向量间的距离，尤其是两个标称型变量值之间的距离，一个方式是使用HVDM，另外一个方式是平均数值型变量距离，即本发明提出了两个适用于含有异质变量样本的距离测度，使得选择样本与x⁺更近，这样使人工生成的样本更接近实际样本，提高了故障预测的准确性，这是本发明的一个重要发明点。

步骤S4，从k个近邻样本中选择一个x⁺的最近邻样本

选择方法可以采用等概率的随机函数进行选择，当然也可以采用距离判断的方式。

步骤S5，基于最近邻样本

计算人工生成样本的数值型变量和标称型变量

在一个实施例中，基于最近邻样本

计算人工生成样本的数值型变量和标称型变量

的计算表达式为：

如果

为数值型变量，则

(1)，其中，α是介于0和1之间的随机数；

如果

为标称型变量，则：假设x⁺和

分别为随机选择的少数类样本及其最近邻样本之一，x⁺和

在一个标称型变量的取值在包含有限个值的值域S内，分别为x⁺和

新生成的人工样本

在该标称型变量上的取值可能为S内的任何值

且其概率正比于联合条件概率

计算方法如下：

其中：

是在给定少数类样本第i个标称型变量取值为x⁺，其最近邻在该标称型变量取值为

的条件概率；

第i个标称型变量取值为x⁺的少数类样本数量；

的少数类样本数量。因此，可以根据在该标称型变量的取值为

的联合条件概率，随机生人工生成少数类样本在该变量的取值。通过上述操作，本发明利用一对真实少数类样本生成人工少数类样本时，所生成的少数类样本在标称型变量的取值不超出其原本的值域范围，使得生成的样本更能接近实际样本，进一步地提高了机电设备故障的准确性，这是本发明的另一个重要发明点。

步骤S6，基于数值型变量和标称型变量

对机电设备进行故障检测，获得故障检测结果。

在一个实施例中，本发明在过采样后的训练数据集仍然是异质的。若将标称型变量转化为数值型，则可以利用很多传统的模型进行分类建模。然而，如前所述，传统的将标称型数值转化为单一值的方法缺陷较大。因此，将标称型变量

转换为数值型变量再进行故障检测，转换方式为：

假设标称型变量

该向量只有一个元素为非零值b，如下所示：

其中，b为

除以

本发明提出的转换方法将标称型变量转化为数值型时，可以保证标称型变量任何两个取值之间的距离是相等的，且转换后的数值范围不会超出值域范围，进而可以大大增加分类模型的选择的可能性，提高了机电设备故障预测的准确性，这是本发明的另一个重要发明点。

本发明的方法在高铁制动系统中的验证实验中，本发明首先采用KEEL数据库中的10个公开的异质不平衡数据集来验证所提出方法。所使用的数据集的特征如表1所示。可以发现，有6个数据集是同时包含标称型和数值型变量，而剩余4个数据集只包含标称型变量。在结果展示时，这些数据集将按标称型变量百分递增顺序进行排列。

表1 KEEL数据库中的10个公开异质不平衡数据集的特征

	#变量数量(数值型/标称型)	#样本个数	不平衡比(IR)
				数据1	8(7/1)	2338	39.31
数据2	8(7/1)	1622	49.69
				数据3	8(7/1)	1916	72.69
数据4	41(26/15)	2233	73.43
				数据5	41(26/15)	1610	75.67
数据6	41(26/15)	2225	100.14
				数据7	11(0/11)	1066	23.79
数据8	6(0/6)	2244	27.77
				数据9	6(0/6)	29.1	26.63
数据10	6(0/6)	1460	53.07

对比方法为传统少数类过采样方法，包括人工少数类过采样技术(SMOTE),自适应半监督加权过采样方法(A-SUWO),边界少数类样本过采样技术(Borderline-SMOTE),基于聚类的少数类过采样方法(Cluster-SMOTE),以及基于少数类样本安全水平的过采样方法(Safe-Level SMOTE)时本案例验证中的对比方法。同时，对比方法还包括利用HVDM度量两个样本间相似度的基于迭代区分滤波器的过采样方法(IPF-SMOTE)和SMOTE-HVDM方法。本申请提出了两种距离测度，故基于两种距离测度所提出的方法分别记作SMOTE-heterogeneous 1和SMOTE-heterogeneous 2。分类方法为常见的分类和回归树(CART)。

所有方法均采用5折交叉验证进行训练和测试。故障检测性能指标包括接收者曲线下面积(AUC值)、F测度和G均值。实验结果为5折交叉验证的平均值。在模型训练的过程中，最优的模型为交叉验证中准确度最高的模型。

实验结果如表2、3、4所示。从结果中，可以得到如下的结论。

首先，A-SUWO,Borderline-SMOTE,Cluster-SMOTE,safe-Level SMOTE,和SMOTE对数据中标称型变量的比例非常敏感。比如，A-SUWO在只包一个标称型变量的数据集数据1上的AUC值为0.7934,而在只包含标称型变量的数据集数据9上的AUC值则降为0.5000。有两个原因可以解释传统少数类过采样方法在异质不平衡数据集上性能不理想的状况：1)欧表达式距离不适用于度量含有标称型变量的样本间相似度；2)传统方法生成的少数类样本的标称型变量取值可能会超出原始的值域。

其次，采用的HVDM作为寻找最近邻样本时距离测度的IPF-SMOTE和SMOTE-HVDM方法比传统的不考虑变量异质性的方法实验结果号。IPF-SMOTE和SMOTE-HVDM对数据集中标称型变量的比例不太敏感，其准确度未随着标称型变量比例的升高而急剧下降。需要指出的是，IPF-SMOTE和SMOTE-IPF在生成少数类样本时，仍然可能使得其在标称型变量的取值超出变量的值域范围。然而，采用HVDM作为距离测度后，其性能已经比传统方法有一定的优势。

最后，从所有方法的平均排名看，本申请所提出的方法在实验中比对比方法要高很多。表5中统计分析方法-有符号秩检验方法的分析结果也表明，本申请所提出的两个方法明显优于对比方法。只有在与SMOTE-HVDM对比时，本申请所提出的方法在AUC值和G均值没有显著优势。

从以上分析看，在公开数据集上的实验很好的验证了本申请所提出方法的有效性。

表2 公开数据集上平均AUC值

表3 公开数据集上平均F测度值。

表4 公开数据集上平均G均值

表5 在公开数据集上的统计对比分析结果

根据在公开数据集上的结果，实验验证部分对比IPF-SMOTE，SMOTE-HVDM和本发明所提出的方法在制动系统故障检测上的性能。

实验结果如表6所示。可以看出，本发明所提出的方法较对比方法有明显的优势，而且其生成的少数类样本也更符合变量的工程含义。

表6 制动系统故障检测结果

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。