CN111881988B - 基于少数类过采样方法的异质不平衡数据故障检测方法 - Google Patents

基于少数类过采样方法的异质不平衡数据故障检测方法 Download PDF

Info

Publication number
CN111881988B
CN111881988B CN202010763063.8A CN202010763063A CN111881988B CN 111881988 B CN111881988 B CN 111881988B CN 202010763063 A CN202010763063 A CN 202010763063A CN 111881988 B CN111881988 B CN 111881988B
Authority
CN
China
Prior art keywords
variable
nominal
samples
value
numerical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010763063.8A
Other languages
English (en)
Other versions
CN111881988A (zh
Inventor
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010763063.8A priority Critical patent/CN111881988B/zh
Publication of CN111881988A publication Critical patent/CN111881988A/zh
Application granted granted Critical
Publication of CN111881988B publication Critical patent/CN111881988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60TVEHICLE BRAKE CONTROL SYSTEMS OR PARTS THEREOF; BRAKE CONTROL SYSTEMS OR PARTS THEREOF, IN GENERAL; ARRANGEMENT OF BRAKING ELEMENTS ON VEHICLES IN GENERAL; PORTABLE DEVICES FOR PREVENTING UNWANTED MOVEMENT OF VEHICLES; VEHICLE MODIFICATIONS TO FACILITATE COOLING OF BRAKES
    • B60T17/00Component parts, details, or accessories of power brake systems not covered by groups B60T8/00, B60T13/00 or B60T15/00, or presenting other characteristic features
    • B60T17/18Safety devices; Monitoring
    • B60T17/22Devices for monitoring or checking brake systems; Signal devices
    • B60T17/228Devices for monitoring or checking brake systems; Signal devices for railway vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Complex Calculations (AREA)

Abstract

本发明供一种基于少数类过采样方法的异质不平衡数据故障检测方法,其包括获取机电设备健康状态相关的所监测的不平衡数据集T={T,T+},以等概率从少数类故障数据集T+随机选择一个样本x+;基于异质数值差异指标或平均数值型变量距离在少数类故障数据集T+中找到x+的k个近邻样本;从k个近邻样本中选择一个x+的最近邻样本
Figure DDA0002613614990000011
基于
Figure DDA0002613614990000012
计算人工生成样本
Figure DDA0002613614990000013
的数值型变量和标称型变量取值;基于
Figure DDA0002613614990000014
对机电设备进行故障检测。本发明中提出两个距离测度计算方法,所生成的少数类样本在标称型变量的取值不超出其原本的值域范围,且将标称型变量转化为数值型变量,可大大增加分类模型的选择的可能性,从而提高机电设备故障检测的准确性,并确保机电设备的安全运行。

Description

基于少数类过采样方法的异质不平衡数据故障检测方法
技术领域
本发明涉及计算机仿真技术领域,特别涉及一种基于少数类过采样方法的异质不平衡数据故障检测方法。
背景技术
检测关键部件的任何可能故障对提高工程系统的安全性和可用性是非常重要的。数据驱动模型和智能传感器的发展大大扩展了故障诊断研究的应用领域。然而,不平衡数据为数据驱动故障检测方法带来很大的挑战。在不平衡数据中,某一类或少数类的数据量远远小于其它类或称多数类样本的数据量。不平衡数据往往使得数据驱动模型的最优决策面向多数类偏移,降低模型在少数类样本上的分类准确性。
在故障检测问题中,由于系统可靠性提高和故障率降低,收集到的绝大多数监测数据是关于目标系统的健康状态,而故障数据只占很小的一部分。比如,轨道卫星软件故障数据只占所有监测数据的0.41%。高铁制动系统一年间28837个监测数据中,只有159个与故障相关。因此,类间不平衡性会大大降低故障检出率和数据驱动模型的效能,这在工业中是不希望接受的。
针对不平衡数据问题所提出来的众多分类方法中,少数类过采样方法是其中重要的一类。这类方法利用真实的少数类样本生成人工少数类样本,以平衡多数类与少数类先验分布不平衡问题。
然而,目前关于不平衡数据的研究没有充分考虑异质变量对分类结果的影响。异质变量是指数据变量的类型不同。在故障诊断问题中,监测变量可能是数值型或标称型或称离散型。以汽车发动机监测参数为例,压缩比、RPM峰值、马力等是连续数值变量,而气缸数、发动机类型、燃油系统类型等是离散变量或标称型变量。在实际的故障检测问题中,异质变量问题是无法避免的。
现有少数类过采样方法在连续型数值数据上表现很好,但在处理异质不平衡数据时,往往需要将标称型数据转化为连续性数据。比如,一个取值为红、橙、黑、黄的标称型变量,可以被转化为数值为0.1、0.2、0.3、0.4的数值型变量。这种转换非常简便,但存在如下技术问题:
(1)很难确定标称型变量转化为数值型变量后的取值范围。
少数类过采样方法使用欧表达式距离为两个样本相似度的度量指标,很难确定标称型数据的取值范围。较大的取值范围会造成标称型数据在距离计算中起到主导作用。而较小的取值范围容易造成其它变量在距离计算中起主导作用。比如,假设所有数值型变量的取值范围为[0,1],若标称型变量的取值范围为[0,100],那么其在之后的距离计算中将起到主导作用。反之,若其取值范围为[0,0.1],那么数值型变量将在距离计算中起主导作用。即使可以为标称型变量确定一个合理的取值范围,其离散的本质仍然会造成离散变量两个数值间的距离与数值型变量不相同。
(2)即使可以确定标称型变量的取值范围,标称型变量的两个取值间的距离也不能令人信服。
将标称型变量转化为数值型数据后,标称型数值通常要进行排序和归一化,而这两个数据处理方式在原有的标称型变量下是不存在的。在之前的案例中,为何红色和橙色之间的距离
Figure BDA0002613614970000021
比红色和黑色之间的距离
Figure BDA0002613614970000022
小,同时,为何黄色比黑色‘大’。另外一个例子是设备的健康状态,可以是健康、退化和失效。这些取值是由程度大小之分,但是我们在将其转化为数值型数据后,很难确定两个值之间距离的大小。
(3)在人工生成的样本中,标称型变量的取值可能会超出其原有的值域范围。
以前一示例为例,如果选择的一对少数类样本所对应的同一个标称型变量的取值分别为红(0.1)和黄(0.4),那么人工生成少数类样本中,该标称型变量的取值可以取区间[0.1,0.4]内的任何值。然而,该标称型变量的可能取值只有0.1、0.2、0.3、0.4,其它取值在该标称型变量下没有任何意义。即现有技术中,标称型数据仍然被粗暴的转化为数值型数据,进而很可能导致人工生成样本中标称变量的取值超出其值域范围。
因此,由于现有的故障预测方法存在上述缺陷,在机电设备故障预测时,导致检测不准确,影响了设备的安全性。
发明内容
本发明针对上述现有技术中的缺陷,提出了两种针对异质不平衡数据的少数类过采样方法。这些方法是SMOTE的变种,记为SMOTE-Heterogeneous 1和SMOTE-Heterogeneous2。这两个方法的差异在于度量异质样本相似度/距离的测度不同。这些方法的目的是相同的,即通过人工生成少数类样本来平衡多数类与少数类样本数量/分布的差异。本申请所提出的方法的主要步骤包括选择真实少数类样本x+、选择少数类中x+的一个最近邻样本以及计算人工生成少数类样本坐标。
本发明的具体方案如下:
本发明提出的一种基于少数类过采样方法的异质不平衡数据故障检测方法,其包括以下步骤:
步骤S1,获取机电设备健康状态相关的所监测到的不平衡数据集T={T-,T+},其中,所述不平衡数据集T包括N-个与设备正常运行状态相关样本的多数类T-和一个包含N+个与设备故障相关样本的少数类T+,且N->N+,令N=N-+N+,样本表示为{x,y},其中x=[x1,x2,…,xa]是包含a个与设备运行工况相关的数值型和/或标称型监测变量的输入向量,y={-1,+1}为类标签,其中-1代表设备处于正常运行状态,+1代表设备发生故障,每一个标称型变量xn能取Mn,i个离散值,i∈[1,2,…,a];
步骤S2,以等概率从少数类故障数据集T+随机选择一个样本x+
步骤S3,基于异质数值差异指标HVDM或平均数值型变量距离在所述少数类故障数据集T+中找到样本x+的k个近邻样本;其中,所述异质数值差异指标HVDM的表达式(2)为:
Figure BDA0002613614970000031
其中,HVDM为异质数值差异指标;di(x1,i,x2,i)为机电设备两个输入变量取值x1,i,x2,i之间的距离;x1、x2为两个输入向量;
或者,所述平均数值型变量距离的确定方法为:
在利用表达式(2)计算两个输入向量x1和x2之间的距离时,输入变量之间距离di(x1,x2)的确定方法如下:
Figure BDA0002613614970000032
其中,|x1-x2|是一个数值型变量两个值之间的绝对差值;
当第i个变量为标称型时,标称型变量的两个值之间的距离是所有数值型变量绝对插值的平均值,其中,xl,j是训练集中第j个样本中第l个数值型变量的值;mean代表均值,xl∈numerical代表所有数值型变量集合中的任一变量;
步骤S4,从所述k个近邻样本中选择一个x+的最近邻样本
Figure BDA0002613614970000033
步骤S5,基于所述最近邻样本
Figure BDA0002613614970000034
计算人工生成样本的数值型变量和标称型变量
Figure BDA0002613614970000035
步骤S6,基于所述数值型变量和标称型变量
Figure BDA0002613614970000036
对所述机电设备进行故障检测,获得故障检测结果。
可优选的是,在所述异质数值差异指标HVDM的表达式(2)中,所述两个输入向量x1和x2之间的距离di(x1,i,x2,i)是根据表达式(3)计算获得,
Figure BDA0002613614970000041
其中:
σi是第i个变量的标准差;
Figure BDA0002613614970000042
分别为不平衡数据集T中第i个变量取值为输入向量x1、x2的样本数;
Figure BDA0002613614970000043
分别为少数类中第i个变量取值为输入向量x1、x2的样本个数。
进一步,所述基于所述最近邻样本
Figure BDA0002613614970000044
计算人工生成样本的数值型变量和标称型变量
Figure BDA0002613614970000045
的计算表达式(1)为:
如果
Figure BDA0002613614970000046
为数值型变量,则
Figure BDA0002613614970000047
其中,α是介于0和1之间的随机数;
如果
Figure BDA0002613614970000048
为标称型变量,则:假设x+
Figure BDA0002613614970000049
分别为随机选择的少数类故障样本及其最近邻故障样本之一,x+
Figure BDA00026136149700000410
在一个标称型变量的取值是在包含有限个值的值域S内,分别为x+
Figure BDA00026136149700000411
新生成的人工样本
Figure BDA00026136149700000412
在该标称型变量上的取值能为S内的任何值
Figure BDA00026136149700000413
且其概率正比于联合条件概率
Figure BDA00026136149700000414
确定方法如下:
Figure BDA00026136149700000415
其中:
Figure BDA00026136149700000416
是在给定少数类样本及其最近邻样本之一在第i个标称型变量取值分别为x+
Figure BDA00026136149700000417
的情况下,二者最近邻在该标称型变量取值为
Figure BDA00026136149700000418
的联合条件概率;
Figure BDA00026136149700000419
是在给定少数类样本第i个标称型变量取值为x+的情况下,其最近邻在该标称型变量取值为
Figure BDA00026136149700000420
的条件概率;
Figure BDA00026136149700000421
是在给定少数类样本第i个标称型变量取值为
Figure BDA00026136149700000422
的情况下,其最近邻在该标称型变量取值为
Figure BDA00026136149700000423
的条件概率;
Figure BDA00026136149700000424
第i个标称型变量取值为x+的少数类样本数量;
Figure BDA00026136149700000425
第i个标称型变量取值为x+的少数类样本的最近邻中在该变量取值为
Figure BDA00026136149700000426
的少数类样本数量;
Figure BDA00026136149700000427
是第i个标称型变量取值为
Figure BDA00026136149700000428
的少数类样本数量;
Figure BDA00026136149700000429
是第i个标称型变量取值为
Figure BDA00026136149700000430
的少数类样本的最近邻中在该变量取值为
Figure BDA00026136149700000431
的少数类样本数量。
可优选的是,将所述标称型变量
Figure BDA0002613614970000051
转换为数值型变量再进行故障检测,转换表达式为:
假设标称型变量
Figure BDA0002613614970000052
是一个包含m个取值的值域S={vi,1,vi,2,…,vi,m}所对应的标称型变量,采用以下编码方法将一个标称型值编码为一个大小为m的向量
Figure BDA0002613614970000053
该向量只有一个元素为非零值b,如下所示:
Figure BDA0002613614970000054
其中,b为表达式(4)中参数
Figure BDA0002613614970000055
除以
Figure BDA0002613614970000056
Figure BDA0002613614970000057
为编码后的标称型变量值vi,1所对应的向量;
f(vi,j)为标称型变量编码函数。
可优选的是,所述机电设备为高速列车的制动系统。
与现有技术相比较,本发明具有以下有益效果:
本发明的基于少数类过采样方法的异质不平衡数据故障检测方法,其包括:步骤S1,获取机电设备健康相关的所监测的不平衡数据集T={T-,T+},其中,所述据集T包括N-个与设备正常运行工况相关监测样本的多数类T-和一个包含N+个与设备故障相关监测样本的少数类T+,且N->N+,令N=N-+N+,样本表示为{x,y},其中x=[x1,x2,…,xa]是包含a个数值型和/或标称型监测变量的输入向量,y={-1,+1}为类标签,-1代表设备正常运行,+1代表设备故障,每一个标称型变量xn可以取Mn,i个离散值,i∈[1,2,…,a];步骤S2,以等概率从少数类T+随机选择一个样本x+;步骤S3,基于异质数值差异指标或平均数值型变量距离在所述少数类T+中找到样本x+的k个近邻样本;步骤S4,从所述k个近邻样本中选择一个x+的最近邻样本
Figure BDA0002613614970000058
步骤S5,基于所述最近邻样本
Figure BDA0002613614970000059
计算人工生成样本的数值型变量和标称型变量
Figure BDA00026136149700000510
步骤S6,基于所述数值型变量和标称型变量
Figure BDA00026136149700000511
对所述机电设备进行故障检测,获得故障检测结果。
本发明中提出了两个距离测度计算方法,并基于此提出了两个针对异质不平衡数据的少数类过采样方法;本发明利用一对真实少数类故障样本生成人工少数类故障样本时,所生成的少数类样本在标称型变量的取值不超出其原本的值域范围,否则将无法解释该少数样本的内涵;本发明将标称型变量转化为数值型变量,可以大大增加分类模型的选择的可能性,从而提高了机电设备故障预测的准确性,确保了机电设备的安全运行。在本发明的一个优选实施例中,本发明的方法被用于高铁制动系统故障检测过程,证明了其故障检测的准确性高于现有的方法。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1为本发明的基于少数类过采样方法的异质不平衡数据故障检测方法的流程图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明旨在提供一种基于少数类过采样方法的异质不平衡数据故障检测方法,其包括以下步骤:
步骤S1,获取机电设备故障相关的所监测的不平衡数据集T={T-,T+},其中,据集T包括N-个样本的多数类T-和一个包含N+个样本的少数类T+,且N->N+,令N=N-+N+,样本表示为{x,y},其中x=[x1,x2,…,xa]是包含a个数值型和/或标称型变量的输入向量,y={-1,+1}为类标签,每一个标称型变量xn可以取Mn,i个离散值,i∈[1,2,…,a]。
在本发明中,机电设备优选是指高速列车的制动系统。制动系统由机电、电力、电子等部件组成,而任何部件都可能发生故障,因此准确的检测可能的故障是非常重要的。
在本发明的一个优选实施方式中,本发明所利用的监测数据是一辆高铁客车运行一年的制动系统监测数据,共包含7307个数据样本。这些数据中,只有308个与制动系统故障相关,故不平衡比(IR)达到了236。同时,该监测数据共包含43个变量。这些变量既包含数值型变量如列车定位信息、制动力、列车运行速度等,也包含标称型变量如列车运行状态、紧急制动状态等。
步骤S2,以等概率从少数类T+随机选择一个样本x+;选择方法可以采用等概率的随机函数进行选择。
步骤S3,基于异质数值差异指标或平均数值型变量距离在少数类T+中找到样本x+的k个近邻样本。
在一实施例中,异质数值差异指标HVDM的表达式为:
Figure BDA0002613614970000071
其中di(x1,i,x2,i)是根据表达式(3)计算所得,
Figure BDA0002613614970000072
其中:
σi是第i个变量的标准差;
Figure BDA0002613614970000073
分别为不平衡数据集T中第i个变量取值为x1、x2的样本个数;
Figure BDA0002613614970000074
分别为少数类中第i个变量取值为x1、x2的样本个数。
从表达式(3)可以看出,两个数值型变量取值间的距离为二者的绝对差除以该变量四倍的标准差,可以有效的控制异常值的不利影响,且距离的取值范围为0到1。标称型变量两个取值间的距离为
Figure BDA0002613614970000075
其中C为数据集中类别个数。本发明主要研究二分类情况,该表达式可以简化为表达式(3)的形式,其取值范围亦为0到1。
在另一个实施例中,平均数值型变量距离的计算表达式为:
在利用表达式(2)计算两个输入向量x1和x2之间的距离时,输入变量之间距离的计算方法如下:
Figure BDA0002613614970000076
其中:
|x1-x2|是一个数值型变量两个值之间的绝对差值;
一个标称型变量的两个值之间的距离是所有数值型变量绝对插值的平均值,其中xl,j是训练集中第j个样本中第l个数值型变量的值。
通过计算平均数值型变量差值,可以在一定程度上避免标称型变量在距离计算中有过高或过低的权重。如果输入向量不含有数值型变量,任意标称型变量两个取值间的距离设定为0.5。
在随机选择一个少数类样本x+后,需要找到其在少数类内的k个最近邻样本,并从中随机选择一个来生成人工合成少数类样本。寻找最近邻的过程就是根据某一测度度量样本间相似程度的过程。较小的距离意味着与样本x+更近。
本发明提出了计算一对输入向量间的距离,尤其是两个标称型变量值之间的距离,一个方式是使用HVDM,另外一个方式是平均数值型变量距离,即本发明提出了两个适用于含有异质变量样本的距离测度,使得选择样本与x+更近,这样使人工生成的样本更接近实际样本,提高了故障预测的准确性,这是本发明的一个重要发明点。
步骤S4,从k个近邻样本中选择一个x+的最近邻样本
Figure BDA0002613614970000081
选择方法可以采用等概率的随机函数进行选择,当然也可以采用距离判断的方式。
步骤S5,基于最近邻样本
Figure BDA0002613614970000082
计算人工生成样本的数值型变量和标称型变量
Figure BDA0002613614970000083
在一个实施例中,基于最近邻样本
Figure BDA0002613614970000084
计算人工生成样本的数值型变量和标称型变量
Figure BDA0002613614970000085
的计算表达式为:
如果
Figure BDA0002613614970000086
为数值型变量,则
Figure BDA0002613614970000087
(1),其中,α是介于0和1之间的随机数;
如果
Figure BDA0002613614970000088
为标称型变量,则:假设x+
Figure BDA0002613614970000089
分别为随机选择的少数类样本及其最近邻样本之一,x+
Figure BDA00026136149700000810
在一个标称型变量的取值在包含有限个值的值域S内,分别为x+
Figure BDA00026136149700000811
新生成的人工样本
Figure BDA00026136149700000812
在该标称型变量上的取值可能为S内的任何值
Figure BDA00026136149700000813
且其概率正比于联合条件概率
Figure BDA00026136149700000814
计算方法如下:
Figure BDA00026136149700000815
其中:
Figure BDA00026136149700000816
是在给定少数类样本第i个标称型变量取值为x+,其最近邻在该标称型变量取值为
Figure BDA00026136149700000817
的条件概率;
Figure BDA00026136149700000818
第i个标称型变量取值为x+的少数类样本数量;
Figure BDA00026136149700000819
第i个标称型变量取值为x+的少数类样本的最近邻中在该变量取值为
Figure BDA00026136149700000820
的少数类样本数量。因此,可以根据在该标称型变量的取值为
Figure BDA00026136149700000821
的联合条件概率,随机生人工生成少数类样本在该变量的取值。通过上述操作,本发明利用一对真实少数类样本生成人工少数类样本时,所生成的少数类样本在标称型变量的取值不超出其原本的值域范围,使得生成的样本更能接近实际样本,进一步地提高了机电设备故障的准确性,这是本发明的另一个重要发明点。
步骤S6,基于数值型变量和标称型变量
Figure BDA00026136149700000822
对机电设备进行故障检测,获得故障检测结果。
在一个实施例中,本发明在过采样后的训练数据集仍然是异质的。若将标称型变量转化为数值型,则可以利用很多传统的模型进行分类建模。然而,如前所述,传统的将标称型数值转化为单一值的方法缺陷较大。因此,将标称型变量
Figure BDA0002613614970000091
转换为数值型变量再进行故障检测,转换方式为:
假设标称型变量
Figure BDA0002613614970000092
是一个包含m个取值的值域S={vi,1,vi,2,…,vi,m}所对应的标称型变量,采用以下编码方法将一个标称型值编码为一个大小为m的向量
Figure BDA0002613614970000093
该向量只有一个元素为非零值b,如下所示:
Figure BDA0002613614970000094
其中,b为
Figure BDA0002613614970000095
除以
Figure BDA0002613614970000096
本发明提出的转换方法将标称型变量转化为数值型时,可以保证标称型变量任何两个取值之间的距离是相等的,且转换后的数值范围不会超出值域范围,进而可以大大增加分类模型的选择的可能性,提高了机电设备故障预测的准确性,这是本发明的另一个重要发明点。
本发明的方法在高铁制动系统中的验证实验中,本发明首先采用KEEL数据库中的10个公开的异质不平衡数据集来验证所提出方法。所使用的数据集的特征如表1所示。可以发现,有6个数据集是同时包含标称型和数值型变量,而剩余4个数据集只包含标称型变量。在结果展示时,这些数据集将按标称型变量百分递增顺序进行排列。
表1 KEEL数据库中的10个公开异质不平衡数据集的特征
#变量数量(数值型/标称型) #样本个数 不平衡比(IR)
数据1 8(7/1) 2338 39.31
数据2 8(7/1) 1622 49.69
数据3 8(7/1) 1916 72.69
数据4 41(26/15) 2233 73.43
数据5 41(26/15) 1610 75.67
数据6 41(26/15) 2225 100.14
数据7 11(0/11) 1066 23.79
数据8 6(0/6) 2244 27.77
数据9 6(0/6) 29.1 26.63
数据10 6(0/6) 1460 53.07
对比方法为传统少数类过采样方法,包括人工少数类过采样技术(SMOTE),自适应半监督加权过采样方法(A-SUWO),边界少数类样本过采样技术(Borderline-SMOTE),基于聚类的少数类过采样方法(Cluster-SMOTE),以及基于少数类样本安全水平的过采样方法(Safe-Level SMOTE)时本案例验证中的对比方法。同时,对比方法还包括利用HVDM度量两个样本间相似度的基于迭代区分滤波器的过采样方法(IPF-SMOTE)和SMOTE-HVDM方法。本申请提出了两种距离测度,故基于两种距离测度所提出的方法分别记作SMOTE-heterogeneous 1和SMOTE-heterogeneous 2。分类方法为常见的分类和回归树(CART)。
所有方法均采用5折交叉验证进行训练和测试。故障检测性能指标包括接收者曲线下面积(AUC值)、F测度和G均值。实验结果为5折交叉验证的平均值。在模型训练的过程中,最优的模型为交叉验证中准确度最高的模型。
实验结果如表2、3、4所示。从结果中,可以得到如下的结论。
首先,A-SUWO,Borderline-SMOTE,Cluster-SMOTE,safe-Level SMOTE,和SMOTE对数据中标称型变量的比例非常敏感。比如,A-SUWO在只包一个标称型变量的数据集数据1上的AUC值为0.7934,而在只包含标称型变量的数据集数据9上的AUC值则降为0.5000。有两个原因可以解释传统少数类过采样方法在异质不平衡数据集上性能不理想的状况:1)欧表达式距离不适用于度量含有标称型变量的样本间相似度;2)传统方法生成的少数类样本的标称型变量取值可能会超出原始的值域。
其次,采用的HVDM作为寻找最近邻样本时距离测度的IPF-SMOTE和SMOTE-HVDM方法比传统的不考虑变量异质性的方法实验结果号。IPF-SMOTE和SMOTE-HVDM对数据集中标称型变量的比例不太敏感,其准确度未随着标称型变量比例的升高而急剧下降。需要指出的是,IPF-SMOTE和SMOTE-IPF在生成少数类样本时,仍然可能使得其在标称型变量的取值超出变量的值域范围。然而,采用HVDM作为距离测度后,其性能已经比传统方法有一定的优势。
最后,从所有方法的平均排名看,本申请所提出的方法在实验中比对比方法要高很多。表5中统计分析方法-有符号秩检验方法的分析结果也表明,本申请所提出的两个方法明显优于对比方法。只有在与SMOTE-HVDM对比时,本申请所提出的方法在AUC值和G均值没有显著优势。
从以上分析看,在公开数据集上的实验很好的验证了本申请所提出方法的有效性。
表2 公开数据集上平均AUC值
Figure BDA0002613614970000101
Figure BDA0002613614970000111
表3 公开数据集上平均F测度值。
Figure BDA0002613614970000112
Figure BDA0002613614970000121
表4 公开数据集上平均G均值
Figure BDA0002613614970000122
表5 在公开数据集上的统计对比分析结果
Figure BDA0002613614970000123
Figure BDA0002613614970000131
根据在公开数据集上的结果,实验验证部分对比IPF-SMOTE,SMOTE-HVDM和本发明所提出的方法在制动系统故障检测上的性能。
实验结果如表6所示。可以看出,本发明所提出的方法较对比方法有明显的优势,而且其生成的少数类样本也更符合变量的工程含义。
表6 制动系统故障检测结果
Figure BDA0002613614970000132
Figure BDA0002613614970000141
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于少数类过采样方法的异质不平衡数据故障检测方法,其特征在于,其包括以下步骤:
步骤S1,获取机电设备健康状态相关的所监测到的不平衡数据集T={T-,T+},其中,所述不平衡数据集T包括N-个与设备正常运行状态相关样本的多数类T-和一个包含N+个与设备故障相关样本的少数类T+,且N->N+,令N=N-+N+,样本表示为{x,y},其中x=[x1,x2,…,xa]是包含a个与设备运行工况相关的数值型和/或标称型监测变量的输入向量,y={-1,+1}为类标签,其中-1代表设备处于正常运行状态,+1代表设备发生故障,每一个标称型变量xn能取Mn,i个离散值,i∈[1,2,…,a];
步骤S2,以等概率从少数类故障数据集T+随机选择一个样本x+
步骤S3,基于异质数值差异指标HVDM或平均数值型变量距离在所述少数类故障数据集T+中找到样本x+的k个近邻样本;其中,所述异质数值差异指标HVDM的表达式(2)为:
Figure FDA0003606585430000011
其中,HVDM为异质数值差异指标;di(x1,i,x2,i)为机电设备两个输入变量取值x1,i,x2,i之间的距离;x1、x2为两个输入向量;
或者,所述平均数值型变量距离的确定方法为:
在利用表达式(2)计算两个输入向量x1和x2之间的距离时,输入变量之间距离di(x1,x2)的确定方法如下:
Figure FDA0003606585430000012
其中,|x1-x2|是一个数值型变量两个值之间的绝对差值;
当第i个变量为标称型时,标称型变量的两个值之间的距离是所有数值型变量绝对插值的平均值,其中,xl,j是训练集中第j个样本中第l个数值型变量的值;mean代表均值,xl∈numerical代表所有数值型变量集合中的任一变量;
步骤S4,从所述k个近邻样本中选择一个x+的最近邻样本
Figure FDA0003606585430000013
步骤S5,基于所述最近邻样本
Figure FDA0003606585430000014
计算人工生成样本的数值型变量和标称型变量
Figure FDA0003606585430000015
步骤S6,基于所述数值型变量和标称型变量
Figure FDA0003606585430000016
对所述机电设备进行故障检测,获得故障检测结果;
所述基于所述最近邻样本
Figure FDA0003606585430000017
计算人工生成样本的数值型变量和标称型变量
Figure FDA0003606585430000018
的计算表达式(1)为:
如果
Figure FDA0003606585430000019
为数值型变量,则
Figure FDA00036065854300000110
其中,α是介于0和1之间的随机数;
如果
Figure FDA0003606585430000021
为标称型变量,则:假设x+
Figure FDA0003606585430000022
分别为随机选择的少数类故障样本及其最近邻故障样本之一,x+
Figure FDA0003606585430000023
在一个标称型变量的取值是在包含有限个值的值域S内,分别为x+
Figure FDA0003606585430000024
新生成的人工样本
Figure FDA0003606585430000025
在该标称型变量上的取值能为S内的任何值
Figure FDA0003606585430000026
且其概率正比于联合条件概率
Figure FDA0003606585430000027
确定方法如下:
Figure FDA0003606585430000028
其中:
Figure FDA0003606585430000029
是在给定少数类样本及其最近邻样本之一在第i个标称型变量取值分别为x+
Figure FDA00036065854300000210
的情况下,二者最近邻在该标称型变量取值为
Figure FDA00036065854300000211
的联合条件概率;
Figure FDA00036065854300000212
是在给定少数类样本第i个标称型变量取值为x+的情况下,其最近邻在该标称型变量取值为
Figure FDA00036065854300000213
的条件概率;
Figure FDA00036065854300000214
是在给定少数类样本第i个标称型变量取值为
Figure FDA00036065854300000215
的情况下,其最近邻在该标称型变量取值为
Figure FDA00036065854300000216
的条件概率;
Figure FDA00036065854300000229
第i个标称型变量取值为x+的少数类样本数量;
Figure FDA00036065854300000217
第i个标称型变量取值为x+的少数类样本的最近邻中在该变量取值为
Figure FDA00036065854300000218
的少数类样本数量;
Figure FDA00036065854300000219
是第i个标称型变量取值为
Figure FDA00036065854300000220
的少数类样本数量;
Figure FDA00036065854300000221
是第i个标称型变量取值为
Figure FDA00036065854300000222
的少数类样本的最近邻中在该变量取值为
Figure FDA00036065854300000223
的少数类样本数量;
将所述标称型变量
Figure FDA00036065854300000224
转换为数值型变量再进行故障检测,转换表达式为:
假设标称型变量
Figure FDA00036065854300000225
是一个包含m个取值的值域S={vi,1,vi,2,…,vi,m}所对应的标称型变量,采用以下编码方法将一个标称型值编码为一个大小为m的向量θi,j,该向量只有一个元素为非零值b,如下所示:
Figure FDA00036065854300000226
其中,b为表达式(4)中参数
Figure FDA00036065854300000227
除以
Figure FDA00036065854300000228
θi,1为编码后的标称型变量值vi,1所对应的向量;
f(vi,j)为标称型变量编码函数。
2.根据权利要求1所述的基于少数类过采样方法的异质不平衡数据故障检测方法,其特征在于,在所述异质数值差异指标HVDM的表达式(2)中,所述两个输入向量x1和x2之间的距离di(x1,i,x2,i)是根据表达式(3)计算获得,
Figure FDA0003606585430000031
其中:
σi是第i个变量的标准差;
Figure FDA0003606585430000032
分别为不平衡数据集T中第i个变量取值为输入向量x1、x2的样本数;
Figure FDA0003606585430000033
分别为少数类中第i个变量取值为输入向量x1、x2的样本个数。
3.根据权利要求1所述的基于少数类过采样方法的异质不平衡数据故障检测方法,其特征在于,所述机电设备为高速列车的制动系统。
CN202010763063.8A 2020-07-31 2020-07-31 基于少数类过采样方法的异质不平衡数据故障检测方法 Active CN111881988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010763063.8A CN111881988B (zh) 2020-07-31 2020-07-31 基于少数类过采样方法的异质不平衡数据故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010763063.8A CN111881988B (zh) 2020-07-31 2020-07-31 基于少数类过采样方法的异质不平衡数据故障检测方法

Publications (2)

Publication Number Publication Date
CN111881988A CN111881988A (zh) 2020-11-03
CN111881988B true CN111881988B (zh) 2022-06-14

Family

ID=73205041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010763063.8A Active CN111881988B (zh) 2020-07-31 2020-07-31 基于少数类过采样方法的异质不平衡数据故障检测方法

Country Status (1)

Country Link
CN (1) CN111881988B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032726B (zh) * 2021-02-25 2023-11-24 北京化工大学 基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228716A (zh) * 2017-12-05 2018-06-29 华南理工大学 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN108596409A (zh) * 2018-07-16 2018-09-28 江苏智通交通科技有限公司 提升交通危险人员事故风险预测精度的方法
CN109871862A (zh) * 2018-12-28 2019-06-11 北京航天测控技术有限公司 一种基于合成少数类过采样和深度学习的故障预测方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228716A (zh) * 2017-12-05 2018-06-29 华南理工大学 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN108596409A (zh) * 2018-07-16 2018-09-28 江苏智通交通科技有限公司 提升交通危险人员事故风险预测精度的方法
CN109871862A (zh) * 2018-12-28 2019-06-11 北京航天测控技术有限公司 一种基于合成少数类过采样和深度学习的故障预测方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jie Liu.A minority oversampling approach for fault detection with heterogeneous imbalanced data.《Expert SystemsWithApplications》.2021, *
Xuebing Yang 等.AMDO: An Over-Sampling Technique for Multi-Class Imbalanced Problems.《IEEE Transactions on Knowledge and Data Engineering》.2018, *
郭建威.基于集成学习的不平衡样本分类问题研究.《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2019, *

Also Published As

Publication number Publication date
CN111881988A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN110132598B (zh) 旋转设备滚动轴承故障噪声诊断算法
CN108318249B (zh) 一种旋转机械轴承的故障诊断方法
CN104712542B (zh) 一种基于物联网的往复压缩机敏感特征提取与故障诊断方法
CN110070060B (zh) 一种轴承设备的故障诊断方法
CN115187832A (zh) 一种基于深度学习与格拉姆角场图像的能源系统故障诊断方法
CN111598150A (zh) 一种计及运行状态等级的变压器故障诊断方法
CN113188807B (zh) 一种abs结果自动判定算法
CN108959795A (zh) 一种试验场载荷谱标准化方法
CN106339720B (zh) 一种汽车发动机的失效检测方法
CN103471865A (zh) 基于线性判别法的列车悬挂系统故障分离方法
CN110147648A (zh) 基于独立成分分析和稀疏去噪自编码器的汽车传感器故障检测方法
Cho et al. CPS approach to checking norm operation of a brake-by-wire system
CN113298162A (zh) 一种基于K-means算法的桥梁健康监测方法及系统
CN111160457A (zh) 基于软一类极限学习机的涡轴发动机故障检测方法
CN110991471A (zh) 一种高速列车牵引系统故障诊断方法
CN111881988B (zh) 基于少数类过采样方法的异质不平衡数据故障检测方法
CN114548272A (zh) 一种离心泵空化状态识别方法
CN113485301B (zh) 自动驾驶汽车控制系统的预期功能安全性能的量化评价方法
CN115375026A (zh) 一种多故障模式下的航空发动机寿命预测方法
CN116168720A (zh) 一种电机声音异常故障诊断方法、系统、及可存储介质
CN114705432A (zh) 防爆电机轴承健康状态评估方法及系统
CN112381027B (zh) 基于列车轴箱垂向加速度信号的车轮多边形波深估计方法
CN114118174A (zh) 一种滚动轴承故障诊断方法及系统
CN113157561A (zh) 一种数控系统软件模块的缺陷预测方法
CN112906672A (zh) 钢轨缺陷识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant