CN111626336A - 一种基于不平衡数据集的地铁故障数据分类方法 - Google Patents

一种基于不平衡数据集的地铁故障数据分类方法 Download PDF

Info

Publication number
CN111626336A
CN111626336A CN202010358455.6A CN202010358455A CN111626336A CN 111626336 A CN111626336 A CN 111626336A CN 202010358455 A CN202010358455 A CN 202010358455A CN 111626336 A CN111626336 A CN 111626336A
Authority
CN
China
Prior art keywords
sample
samples
data set
synthesized
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010358455.6A
Other languages
English (en)
Other versions
CN111626336B (zh
Inventor
张永
左婷婷
谢志鸿
方立超
单梁
徐志良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010358455.6A priority Critical patent/CN111626336B/zh
Publication of CN111626336A publication Critical patent/CN111626336A/zh
Application granted granted Critical
Publication of CN111626336B publication Critical patent/CN111626336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于不平衡数据集的地铁故障数据分类方法。该方法包括以下步骤:输入原不平衡数据集,并将不平衡数据集划分为训练数据集与测试数据集;将训练数据集分为正类样本集和负类样本集,其中正类样本集为少数类样本、负类样本集为多数类样本;利用K‑Means聚类算法,将正类样本集划分为K个不同的簇;针对每个簇,使用改进的SMOTE算法对数据集采样,最终得到一个平衡数据集;将SVM作为弱分类器,并以AdaBoost算法构建集成分类器;使用测试数据集对集成分类器的性能进行评估。本发明能够在保证整体正确率的同时,有效提高不平衡数据集中少数类样本的识别率,在非均衡数据集的分类预测中具有更好的效果。

Description

一种基于不平衡数据集的地铁故障数据分类方法
技术领域
本发明属于数据挖掘技术领域,特别是一种基于不平衡数据集的地铁故障数据分类方法。
背景技术
地铁在长时间运行过程中,设备出现故障的几率很高,若是不能及时处理,会造成很大损失,因此及时、有效地对地铁进行故障诊断显得日益重要。在故障诊断中,故障数据分类是其关键技术。分类方法广泛应用于预测领域,而大多数分类方法都要求数据的分布较为均匀。若数据的分布严重不平衡时,少数类数据很有可能被当作噪声处理。现实生活中的数据往往呈现不平衡分布的特点,即在数据集中,不同类别的样本数量相差很大。数量较多的样本为多类样本,数量较少的样本称为少类样本。在大多数情况下,对少数类样本的错分往往会带来更大的损失,因此对少类样本的研究更具有价值意义。
目前,国内外学者主要从三个方面对不平衡数据集分类进行研究,即数据层面、算法层面以及综合层面。数据层面的方法是指通过重采样技术使数据集达到平衡,根据采样对象的不同可以分为过采样、欠采样以及混合采样。算法层面的方法使模型在训练过程中更加注重于少类样本的识别,主要方法有代价敏感学习、集成学习和单类学习。综合层面的方法将重采样技术与分类算法相结合,提高分类器性能。
武汉大学提出的专利申请“一种基于数据欠采样和集成学习的软件缺陷数目预测方法”(申请号:201710548391.4,公开号:CN 107391452A)中,利用随机欠采样技术删除缺陷数据集中缺陷数目为零的软件模块,得到相对平衡的新数据集,然后利用相对平衡的缺陷数据集训练出若干个弱的软件缺陷数目预测模型,最后集成这些弱的软件缺陷数目预测模型来预测待预测的软件模块的缺陷数目。该方法存在的不足之处是:欠采样技术在删除样本的同时,容易将含有重要信息的样本删除。
王和勇、繁泓坤等在文献“SMOTE和Biased-SVM相结合的不平衡数据分类”中,对不平衡数据集使用Biased-SVM方法,然后使用SMOTE算法对正类样本采样从而获得平衡数据集,最后再使用Biased-SVM方法进行分类,该方法存在的不足之处是:
传统的SMOTE算法对样本的空间分布考虑不足,并缺少对合成样本的判断规则,导致合成的正类样本侵入负类样本的分布空间,影响数据分类效果。
发明内容
本发明的目的在于提供一种基于不平衡数据集的地铁故障数据分类方法,在保证整体正确率的同时,有效提高不平衡数据中对少数类样本的识别率。
实现本发明目的的技术解决方案为:一种基于不平衡数据集的地铁故障数据分类方法,该方法包括以下步骤:
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;
步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;
步骤8、使用平衡数据集对集成分类器模型进行训练;
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。
进一步地,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain
进一步地,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck
4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。
进一步地,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;
5.2)判断合成的新的正类样本是否符合近邻样本规则,若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
进一步地,步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew
5.1.2)对于正类样本集Nmin中的每个数据样本xi,计算xi的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用下式合成新的正类样本xnew
xnew=xi+rand(0,1)×(xij-xi)
将新的正类样本xnew加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)~步骤5.1.3),直至完成T个合成样本的采样。
进一步地,步骤5.2)中所述近邻样本规则,定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
进一步地,步骤7所述选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin,步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且当前循环次数t<T时循环以下步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht
7.3.2)计算ht在训练集上的分类误差率
Figure BDA0002474257720000041
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);否则进入7.3.4);
7.3.4)计算弱分类器Ct的权值
Figure BDA0002474257720000042
7.3.5)更新样本权值
Figure BDA0002474257720000043
其中
Figure BDA0002474257720000044
为归一化因子;
7.4)输出最后的强分类器
Figure BDA0002474257720000045
进一步地,步骤9所述使用测试数据集DTest对步骤8训练好的模型进行性能评估,具体为:
使用的评价指标为AUC值和g-mean值,计算方式如下:
Figure BDA0002474257720000051
Figure BDA0002474257720000052
Figure BDA0002474257720000053
Figure BDA0002474257720000054
其中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体由下面的二分类混淆矩阵表示:
Figure BDA0002474257720000055
本发明与现有技术相比,其显著优点为:(1)通过改进的SMOTE算法对不平衡数据集中的少类样本进行过采样,利用AdaBoost算法集成多个SVM分类器,实现不平衡数据集上更好的分类效果与模型泛化能力;(2)有效提高了不平衡数据集中少数类样本的识别率,在非均衡数据集的分类预测中具有更好的效果,能够高效、准确地完成地铁故障数据分类。
附图说明
图1是本发明基于不平衡数据集的地铁故障数据分类方法的流程图;
图2是本发明一个实施例在公共数据集上取得的AUC值示意图。
图3是本发明一个实施例在公共数据集上取得的G-means值示意图。
具体实施方式
结合图1,本发明基于不平衡数据集的地铁故障数据分类方法,该方法包括以下步骤:
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;
步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;
步骤8、使用平衡数据集对集成分类器模型进行训练;
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。
进一步地,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain
进一步地,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck
4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。
进一步地,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;
5.2)判断合成的新的正类样本是否符合近邻样本规则(Nearest Neighbor Rule,NNR),若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
进一步地,步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew
5.1.2)对于正类样本集Nmin中的每个数据样本xi,计算xi的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用下式合成新的正类样本xnew
xnew=xi+rand(0,1)×(xij-xi)
将新的正类样本xnew加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)~步骤5.1.3),直至完成T个合成样本的采样。
进一步地,步骤5.2)中所述近邻样本规则,定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
进一步地,步骤7所述选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin,步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且当前循环次数t<T时循环以下步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht
7.3.2)计算ht在训练集上的分类误差率
Figure BDA0002474257720000081
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);否则进入7.3.4);
7.3.4)计算弱分类器Ct的权值
Figure BDA0002474257720000082
7.3.5)更新样本权值
Figure BDA0002474257720000083
其中
Figure BDA0002474257720000084
为归一化因子;
7.4)输出最后的强分类器
Figure BDA0002474257720000085
进一步地,步骤9所述使用测试数据集DTest对步骤8训练好的模型进行性能评估,具体为:
使用的评价指标为AUC值和g-mean值,计算方式如下:
Figure BDA0002474257720000086
Figure BDA0002474257720000087
Figure BDA0002474257720000088
Figure BDA0002474257720000089
其中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体由下面的二分类混淆矩阵表示:
Figure BDA00024742577200000810
下面结合附图及具体实施例对本发明进行详细说明。
实施例
步骤1,从广州地铁运行数据中获取实验所需的不平衡数据集D;
步骤2,将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集,其他4份样本作为训练数据集。
步骤3,将DTrain中的数据样本划分为正类样本集Nmin(少数类样本)和负类样本集Nmaj(多数类样本),并计算待采样样本的数量:T=Nmaj-Nmin
步骤4,使用k-Means聚类算法对正类数据集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k。K-Means聚类算法具体步骤如下:
4.1)输入数据为正类样本数据集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck
4.3)对于数据集Nmin中的每个数据样本,分别计算其距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)待将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)和步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数。聚类完毕。
步骤5,针对每个簇,使用改进的SMOTE算法对数据集采样,直至采样完成。具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新样本;
5.2)判断合成的样本是否符合近邻样本规则(NNR),若符合,将合成样本加入训练数据集,否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
其中,步骤5.1)中SMOTE算法的具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew
5.1.2)对于数据集Nmin中的每个数据样本xi,计算它的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用公式
xnew=xi+rand(0,1)×(xij-xi)合成新的正类样本xnew,将新样本加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)和步骤5.1.3),直至完成T个合成样本的采样。
其中,步骤5.2)中的近邻样本规则(NNR)定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
步骤6,将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7,选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin和步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且t<T时循环步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht
7.3.2)计算ht在训练集上的分类误差率
Figure BDA0002474257720000101
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);
7.3.4)计算弱分类器Ct的权值,
Figure BDA0002474257720000102
7.3.5)更新样本权值
Figure BDA0002474257720000103
其中
Figure BDA0002474257720000104
为归一化因子;
7.4)输出最后的强分类器
Figure BDA0002474257720000111
步骤8,使用测试数据集对步骤8训练好的模型进行性能评估。模型评估使用的评价指标为AUC值和g-mean值,它们的计算方式如下所示:
Figure BDA0002474257720000112
Figure BDA0002474257720000113
Figure BDA0002474257720000114
Figure BDA0002474257720000115
其中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体可由下面的二分类混淆矩阵表示。
Figure BDA0002474257720000116
本发明的效果将通过如下仿真实验进行详细说明。
1.仿真环境
本实验采用KEEL软件及Python编程语言,实验环境为Windows操作系统。
2.仿真内容与结果分析
本发明实验所涉及的数据均来自广州地铁运行数据,样本信息及不平衡率如表1。
表1实验数据集
Figure BDA0002474257720000117
与本发明进行对比的采样方法分别为MSMOTEBoost、SMOTEBagging、SMOTEBoost、SMOTE、Borderline-SMOTE和ROS。试验中,设置聚类的簇数K=100。设置近邻样本规则(NNR)中的近邻样本个数为5,即当距离合成样本最近的5个点均为负类时,将该合成样本删除。评估指标采用AUC和g-means,仿真结果如表2-表5所示(注:加粗数据为对应的分类算法在该评估指标上取得的最大值)。
将表2-表5的结果绘制成曲线图,如图2和图3所示。
表2 vehicle0实验结果
Figure BDA0002474257720000121
表3 glass2实验结果
Figure BDA0002474257720000122
表4 glass4实验结果
Figure BDA0002474257720000123
表5 poker-8-9_vs_6实验结果
Figure BDA0002474257720000124
结合表2~表5、图2~3可知,基于改进的SMOTE算法与SVM的不平衡数据分类方法,通过改进的SMOTE算法对合成样本进行筛选,使合成的样本分布更为均匀。然后将改进的SMOTE算法与SVM相结合,建立分类模型。实验结果表明,该算法能有效提高对正类样本的分类精度,高效、准确地完成地铁故障数据分类。

Claims (8)

1.一种基于不平衡数据集的地铁故障数据分类方法,其特征在于,该方法包括以下步骤:
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;
步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;
步骤8、使用平衡数据集对集成分类器模型进行训练;
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。
2.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain
3.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck
4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。
4.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;
5.2)判断合成的新的正类样本是否符合近邻样本规则,若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
5.根据权利要求4所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew
5.1.2)对于正类样本集Nmin中的每个数据样本xi,计算xi的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用下式合成新的正类样本xnew
xnew=xi+rand(0,1)×(xij-xi)
将新的正类样本xnew加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)~步骤5.1.3),直至完成T个合成样本的采样。
6.根据权利要求4所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤5.2)中所述近邻样本规则,定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
7.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤7所述选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin,步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且当前循环次数t<T时循环以下步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht
7.3.2)计算ht在训练集上的分类误差率
Figure FDA0002474257710000031
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);否则进入7.3.4);
7.3.4)计算弱分类器Ct的权值
Figure FDA0002474257710000032
7.3.5)更新样本权值
Figure FDA0002474257710000033
其中
Figure FDA0002474257710000034
为归一化因子;
7.4)输出最后的强分类器
Figure FDA0002474257710000035
8.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤9所述使用测试数据集DTest对步骤8训练好的模型进行性能评估,具体为:
使用的评价指标为AUC值和g-mean值,计算方式如下:
Figure FDA0002474257710000041
Figure FDA0002474257710000042
Figure FDA0002474257710000043
Figure FDA0002474257710000044
其中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体由下面的二分类混淆矩阵表示:
表1
Figure FDA0002474257710000045
CN202010358455.6A 2020-04-29 2020-04-29 一种基于不平衡数据集的地铁故障数据分类方法 Active CN111626336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010358455.6A CN111626336B (zh) 2020-04-29 2020-04-29 一种基于不平衡数据集的地铁故障数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010358455.6A CN111626336B (zh) 2020-04-29 2020-04-29 一种基于不平衡数据集的地铁故障数据分类方法

Publications (2)

Publication Number Publication Date
CN111626336A true CN111626336A (zh) 2020-09-04
CN111626336B CN111626336B (zh) 2023-08-22

Family

ID=72259123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010358455.6A Active CN111626336B (zh) 2020-04-29 2020-04-29 一种基于不平衡数据集的地铁故障数据分类方法

Country Status (1)

Country Link
CN (1) CN111626336B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112067053A (zh) * 2020-09-07 2020-12-11 北京理工大学 一种面向少数类识别的多策略联合故障诊断方法
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN112217822A (zh) * 2020-10-13 2021-01-12 浙江工商大学 一种针对入侵数据的检测方法
CN112235293A (zh) * 2020-10-14 2021-01-15 西北工业大学 一种面向恶意流量检测正负样本均衡生成的过采样方法
CN112800917A (zh) * 2021-01-21 2021-05-14 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN113052136A (zh) * 2021-04-22 2021-06-29 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN113469252A (zh) * 2021-07-02 2021-10-01 河海大学 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN113553580A (zh) * 2021-07-12 2021-10-26 华东师范大学 针对非平衡数据的入侵检测方法
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法
CN114706751A (zh) * 2022-03-09 2022-07-05 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN116668186A (zh) * 2023-07-18 2023-08-29 哈尔滨工业大学 一种基于多视角特征和集成学习的加密代理协议识别的方法
CN116910660A (zh) * 2023-09-07 2023-10-20 山东省计算中心(国家超级计算济南中心) 面向不平衡数据的自步半监督集成分类器训练方法及系统
CN118070138A (zh) * 2024-04-22 2024-05-24 贵州大学 不平衡样本下汽轮机转子故障诊断方法、存储介质和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190048119A (ko) * 2017-10-30 2019-05-09 부산대학교 산학협력단 Fcm과 smote를 이용한 클래스 불균형 문제 해결을 위한 장치 및 방법
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法
CN111062425A (zh) * 2019-12-10 2020-04-24 中国人民解放军海军工程大学 基于c-k-smote算法的不平衡数据集处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190048119A (ko) * 2017-10-30 2019-05-09 부산대학교 산학협력단 Fcm과 smote를 이용한 클래스 불균형 문제 해결을 위한 장치 및 방법
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法
CN111062425A (zh) * 2019-12-10 2020-04-24 中国人民解放军海军工程大学 基于c-k-smote算法的不平衡数据集处理方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112067053A (zh) * 2020-09-07 2020-12-11 北京理工大学 一种面向少数类识别的多策略联合故障诊断方法
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN112217822B (zh) * 2020-10-13 2022-05-27 浙江工商大学 一种针对入侵数据的检测方法
CN112217822A (zh) * 2020-10-13 2021-01-12 浙江工商大学 一种针对入侵数据的检测方法
CN112235293A (zh) * 2020-10-14 2021-01-15 西北工业大学 一种面向恶意流量检测正负样本均衡生成的过采样方法
CN112800917A (zh) * 2021-01-21 2021-05-14 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN112800917B (zh) * 2021-01-21 2022-07-19 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN113052136B (zh) * 2021-04-22 2023-10-10 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN113052136A (zh) * 2021-04-22 2021-06-29 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN113469252A (zh) * 2021-07-02 2021-10-01 河海大学 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN113553580A (zh) * 2021-07-12 2021-10-26 华东师范大学 针对非平衡数据的入侵检测方法
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法
CN114706751A (zh) * 2022-03-09 2022-07-05 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN114706751B (zh) * 2022-03-09 2023-09-15 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN116668186A (zh) * 2023-07-18 2023-08-29 哈尔滨工业大学 一种基于多视角特征和集成学习的加密代理协议识别的方法
CN116668186B (zh) * 2023-07-18 2024-02-02 哈尔滨工业大学 一种基于多视角特征和集成学习的加密代理协议识别的方法
CN116910660A (zh) * 2023-09-07 2023-10-20 山东省计算中心(国家超级计算济南中心) 面向不平衡数据的自步半监督集成分类器训练方法及系统
CN116910660B (zh) * 2023-09-07 2024-01-23 山东省计算中心(国家超级计算济南中心) 面向不平衡数据的自步半监督集成分类器训练方法及系统
CN118070138A (zh) * 2024-04-22 2024-05-24 贵州大学 不平衡样本下汽轮机转子故障诊断方法、存储介质和设备

Also Published As

Publication number Publication date
CN111626336B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111626336A (zh) 一种基于不平衡数据集的地铁故障数据分类方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN110674846A (zh) 基于遗传算法和k-means聚类的不平衡数据集过采样方法
CN113393911A (zh) 一种基于深度学习的配体化合物快速预筛选模型
CN110287985B (zh) 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN112801140A (zh) 一种基于飞蛾扑火优化算法的XGBoost乳腺癌快速诊断方法
Li et al. Support cluster machine
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN113298184B (zh) 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN109947945B (zh) 基于词向量和集成svm的文本数据流分类方法
CN111009065A (zh) 基于聚类算法的人脸识别门禁系统优化方法及系统
Liu et al. Improving genetic classifiers with a boosting algorithm
CN113688879B (zh) 一种基于置信度分布外检测的广义零样本学习分类方法
CN110533080B (zh) 一种基于模糊规则集的乳腺癌细胞图像分类方法
CN113837271A (zh) 一种基于特征选择的分类改进算法
CN108229512B (zh) 一种基于非负表示系数的两阶段识别方法
CN106778775B (zh) 一种基于sift特征软匹配的图像分类方法
CN110647671A (zh) 一种基于AAE-DWMIL-LearnNSE的数据流分类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant