CN111626336A - 一种基于不平衡数据集的地铁故障数据分类方法 - Google Patents
一种基于不平衡数据集的地铁故障数据分类方法 Download PDFInfo
- Publication number
- CN111626336A CN111626336A CN202010358455.6A CN202010358455A CN111626336A CN 111626336 A CN111626336 A CN 111626336A CN 202010358455 A CN202010358455 A CN 202010358455A CN 111626336 A CN111626336 A CN 111626336A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- data set
- synthesized
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 28
- 238000003064 k means clustering Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000012952 Resampling Methods 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 239000000523 sample Substances 0.000 description 96
- 230000007547 defect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于不平衡数据集的地铁故障数据分类方法。该方法包括以下步骤:输入原不平衡数据集,并将不平衡数据集划分为训练数据集与测试数据集;将训练数据集分为正类样本集和负类样本集,其中正类样本集为少数类样本、负类样本集为多数类样本;利用K‑Means聚类算法,将正类样本集划分为K个不同的簇;针对每个簇,使用改进的SMOTE算法对数据集采样,最终得到一个平衡数据集;将SVM作为弱分类器,并以AdaBoost算法构建集成分类器;使用测试数据集对集成分类器的性能进行评估。本发明能够在保证整体正确率的同时,有效提高不平衡数据集中少数类样本的识别率,在非均衡数据集的分类预测中具有更好的效果。
Description
技术领域
本发明属于数据挖掘技术领域,特别是一种基于不平衡数据集的地铁故障数据分类方法。
背景技术
地铁在长时间运行过程中,设备出现故障的几率很高,若是不能及时处理,会造成很大损失,因此及时、有效地对地铁进行故障诊断显得日益重要。在故障诊断中,故障数据分类是其关键技术。分类方法广泛应用于预测领域,而大多数分类方法都要求数据的分布较为均匀。若数据的分布严重不平衡时,少数类数据很有可能被当作噪声处理。现实生活中的数据往往呈现不平衡分布的特点,即在数据集中,不同类别的样本数量相差很大。数量较多的样本为多类样本,数量较少的样本称为少类样本。在大多数情况下,对少数类样本的错分往往会带来更大的损失,因此对少类样本的研究更具有价值意义。
目前,国内外学者主要从三个方面对不平衡数据集分类进行研究,即数据层面、算法层面以及综合层面。数据层面的方法是指通过重采样技术使数据集达到平衡,根据采样对象的不同可以分为过采样、欠采样以及混合采样。算法层面的方法使模型在训练过程中更加注重于少类样本的识别,主要方法有代价敏感学习、集成学习和单类学习。综合层面的方法将重采样技术与分类算法相结合,提高分类器性能。
武汉大学提出的专利申请“一种基于数据欠采样和集成学习的软件缺陷数目预测方法”(申请号:201710548391.4,公开号:CN 107391452A)中,利用随机欠采样技术删除缺陷数据集中缺陷数目为零的软件模块,得到相对平衡的新数据集,然后利用相对平衡的缺陷数据集训练出若干个弱的软件缺陷数目预测模型,最后集成这些弱的软件缺陷数目预测模型来预测待预测的软件模块的缺陷数目。该方法存在的不足之处是:欠采样技术在删除样本的同时,容易将含有重要信息的样本删除。
王和勇、繁泓坤等在文献“SMOTE和Biased-SVM相结合的不平衡数据分类”中,对不平衡数据集使用Biased-SVM方法,然后使用SMOTE算法对正类样本采样从而获得平衡数据集,最后再使用Biased-SVM方法进行分类,该方法存在的不足之处是:
传统的SMOTE算法对样本的空间分布考虑不足,并缺少对合成样本的判断规则,导致合成的正类样本侵入负类样本的分布空间,影响数据分类效果。
发明内容
本发明的目的在于提供一种基于不平衡数据集的地铁故障数据分类方法,在保证整体正确率的同时,有效提高不平衡数据中对少数类样本的识别率。
实现本发明目的的技术解决方案为:一种基于不平衡数据集的地铁故障数据分类方法,该方法包括以下步骤:
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest;
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin;
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;
步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;
步骤8、使用平衡数据集对集成分类器模型进行训练;
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。
进一步地,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain。
进一步地,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck;
4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。
进一步地,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;
5.2)判断合成的新的正类样本是否符合近邻样本规则,若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
进一步地,步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew;
5.1.2)对于正类样本集Nmin中的每个数据样本xi,计算xi的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用下式合成新的正类样本xnew:
xnew=xi+rand(0,1)×(xij-xi)
将新的正类样本xnew加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)~步骤5.1.3),直至完成T个合成样本的采样。
进一步地,步骤5.2)中所述近邻样本规则,定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
进一步地,步骤7所述选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin,步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且当前循环次数t<T时循环以下步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht;
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);否则进入7.3.4);
进一步地,步骤9所述使用测试数据集DTest对步骤8训练好的模型进行性能评估,具体为:
使用的评价指标为AUC值和g-mean值,计算方式如下:
其中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体由下面的二分类混淆矩阵表示:
本发明与现有技术相比,其显著优点为:(1)通过改进的SMOTE算法对不平衡数据集中的少类样本进行过采样,利用AdaBoost算法集成多个SVM分类器,实现不平衡数据集上更好的分类效果与模型泛化能力;(2)有效提高了不平衡数据集中少数类样本的识别率,在非均衡数据集的分类预测中具有更好的效果,能够高效、准确地完成地铁故障数据分类。
附图说明
图1是本发明基于不平衡数据集的地铁故障数据分类方法的流程图;
图2是本发明一个实施例在公共数据集上取得的AUC值示意图。
图3是本发明一个实施例在公共数据集上取得的G-means值示意图。
具体实施方式
结合图1,本发明基于不平衡数据集的地铁故障数据分类方法,该方法包括以下步骤:
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest;
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin;
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;
步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;
步骤8、使用平衡数据集对集成分类器模型进行训练;
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。
进一步地,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain。
进一步地,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck;
4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。
进一步地,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;
5.2)判断合成的新的正类样本是否符合近邻样本规则(Nearest Neighbor Rule,NNR),若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
进一步地,步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew;
5.1.2)对于正类样本集Nmin中的每个数据样本xi,计算xi的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用下式合成新的正类样本xnew:
xnew=xi+rand(0,1)×(xij-xi)
将新的正类样本xnew加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)~步骤5.1.3),直至完成T个合成样本的采样。
进一步地,步骤5.2)中所述近邻样本规则,定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
进一步地,步骤7所述选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin,步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且当前循环次数t<T时循环以下步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht;
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);否则进入7.3.4);
进一步地,步骤9所述使用测试数据集DTest对步骤8训练好的模型进行性能评估,具体为:
使用的评价指标为AUC值和g-mean值,计算方式如下:
其中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体由下面的二分类混淆矩阵表示:
下面结合附图及具体实施例对本发明进行详细说明。
实施例
步骤1,从广州地铁运行数据中获取实验所需的不平衡数据集D;
步骤2,将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集,其他4份样本作为训练数据集。
步骤3,将DTrain中的数据样本划分为正类样本集Nmin(少数类样本)和负类样本集Nmaj(多数类样本),并计算待采样样本的数量:T=Nmaj-Nmin;
步骤4,使用k-Means聚类算法对正类数据集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k。K-Means聚类算法具体步骤如下:
4.1)输入数据为正类样本数据集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck;
4.3)对于数据集Nmin中的每个数据样本,分别计算其距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)待将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)和步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数。聚类完毕。
步骤5,针对每个簇,使用改进的SMOTE算法对数据集采样,直至采样完成。具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新样本;
5.2)判断合成的样本是否符合近邻样本规则(NNR),若符合,将合成样本加入训练数据集,否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
其中,步骤5.1)中SMOTE算法的具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew;
5.1.2)对于数据集Nmin中的每个数据样本xi,计算它的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用公式
xnew=xi+rand(0,1)×(xij-xi)合成新的正类样本xnew,将新样本加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)和步骤5.1.3),直至完成T个合成样本的采样。
其中,步骤5.2)中的近邻样本规则(NNR)定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
步骤6,将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7,选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin和步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且t<T时循环步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht;
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);
步骤8,使用测试数据集对步骤8训练好的模型进行性能评估。模型评估使用的评价指标为AUC值和g-mean值,它们的计算方式如下所示:
其中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体可由下面的二分类混淆矩阵表示。
本发明的效果将通过如下仿真实验进行详细说明。
1.仿真环境
本实验采用KEEL软件及Python编程语言,实验环境为Windows操作系统。
2.仿真内容与结果分析
本发明实验所涉及的数据均来自广州地铁运行数据,样本信息及不平衡率如表1。
表1实验数据集
与本发明进行对比的采样方法分别为MSMOTEBoost、SMOTEBagging、SMOTEBoost、SMOTE、Borderline-SMOTE和ROS。试验中,设置聚类的簇数K=100。设置近邻样本规则(NNR)中的近邻样本个数为5,即当距离合成样本最近的5个点均为负类时,将该合成样本删除。评估指标采用AUC和g-means,仿真结果如表2-表5所示(注:加粗数据为对应的分类算法在该评估指标上取得的最大值)。
将表2-表5的结果绘制成曲线图,如图2和图3所示。
表2 vehicle0实验结果
表3 glass2实验结果
表4 glass4实验结果
表5 poker-8-9_vs_6实验结果
结合表2~表5、图2~3可知,基于改进的SMOTE算法与SVM的不平衡数据分类方法,通过改进的SMOTE算法对合成样本进行筛选,使合成的样本分布更为均匀。然后将改进的SMOTE算法与SVM相结合,建立分类模型。实验结果表明,该算法能有效提高对正类样本的分类精度,高效、准确地完成地铁故障数据分类。
Claims (8)
1.一种基于不平衡数据集的地铁故障数据分类方法,其特征在于,该方法包括以下步骤:
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest;
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin;
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;
步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;
步骤8、使用平衡数据集对集成分类器模型进行训练;
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。
2.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain。
3.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck;
4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。
4.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;
5.2)判断合成的新的正类样本是否符合近邻样本规则,若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。
5.根据权利要求4所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,具体步骤如下:
5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew;
5.1.2)对于正类样本集Nmin中的每个数据样本xi,计算xi的k个同类近邻样本;
5.1.3)在k个同类近邻样本中选择一个样本xij,使用下式合成新的正类样本xnew:
xnew=xi+rand(0,1)×(xij-xi)
将新的正类样本xnew加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;
5.1.4)重复步骤5.1.2)~步骤5.1.3),直至完成T个合成样本的采样。
6.根据权利要求4所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤5.2)中所述近邻样本规则,定义如下:
对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。
7.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤7所述选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:
7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin,步长estep和最大循环次数T;
7.2)初始化样本权重值w1(i)=1/m;
7.3)当e>emin且当前循环次数t<T时循环以下步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):
7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht;
7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1);否则进入7.3.4);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010358455.6A CN111626336B (zh) | 2020-04-29 | 2020-04-29 | 一种基于不平衡数据集的地铁故障数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010358455.6A CN111626336B (zh) | 2020-04-29 | 2020-04-29 | 一种基于不平衡数据集的地铁故障数据分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626336A true CN111626336A (zh) | 2020-09-04 |
CN111626336B CN111626336B (zh) | 2023-08-22 |
Family
ID=72259123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010358455.6A Active CN111626336B (zh) | 2020-04-29 | 2020-04-29 | 一种基于不平衡数据集的地铁故障数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626336B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112067053A (zh) * | 2020-09-07 | 2020-12-11 | 北京理工大学 | 一种面向少数类识别的多策略联合故障诊断方法 |
CN112115992A (zh) * | 2020-09-10 | 2020-12-22 | 西北工业大学 | 基于聚类过采样与实例硬度阈值的数据重采样方法 |
CN112217822A (zh) * | 2020-10-13 | 2021-01-12 | 浙江工商大学 | 一种针对入侵数据的检测方法 |
CN112235293A (zh) * | 2020-10-14 | 2021-01-15 | 西北工业大学 | 一种面向恶意流量检测正负样本均衡生成的过采样方法 |
CN112800917A (zh) * | 2021-01-21 | 2021-05-14 | 华北电力大学(保定) | 一种断路器不平衡监测数据集过采样方法 |
CN113052136A (zh) * | 2021-04-22 | 2021-06-29 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN113469252A (zh) * | 2021-07-02 | 2021-10-01 | 河海大学 | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 |
CN113553580A (zh) * | 2021-07-12 | 2021-10-26 | 华东师范大学 | 针对非平衡数据的入侵检测方法 |
CN114579631A (zh) * | 2022-01-26 | 2022-06-03 | 苏州大学 | 基于概率加权过采样的社区矫正率预测系统及方法 |
CN114706751A (zh) * | 2022-03-09 | 2022-07-05 | 南京理工大学紫金学院 | 一种基于改进smote的软件缺陷预测方法 |
CN116668186A (zh) * | 2023-07-18 | 2023-08-29 | 哈尔滨工业大学 | 一种基于多视角特征和集成学习的加密代理协议识别的方法 |
CN116910660A (zh) * | 2023-09-07 | 2023-10-20 | 山东省计算中心(国家超级计算济南中心) | 面向不平衡数据的自步半监督集成分类器训练方法及系统 |
CN118070138A (zh) * | 2024-04-22 | 2024-05-24 | 贵州大学 | 不平衡样本下汽轮机转子故障诊断方法、存储介质和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190048119A (ko) * | 2017-10-30 | 2019-05-09 | 부산대학교 산학협력단 | Fcm과 smote를 이용한 클래스 불균형 문제 해결을 위한 장치 및 방법 |
CN110674846A (zh) * | 2019-08-29 | 2020-01-10 | 南京理工大学 | 基于遗传算法和k-means聚类的不平衡数据集过采样方法 |
CN111062425A (zh) * | 2019-12-10 | 2020-04-24 | 中国人民解放军海军工程大学 | 基于c-k-smote算法的不平衡数据集处理方法 |
-
2020
- 2020-04-29 CN CN202010358455.6A patent/CN111626336B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190048119A (ko) * | 2017-10-30 | 2019-05-09 | 부산대학교 산학협력단 | Fcm과 smote를 이용한 클래스 불균형 문제 해결을 위한 장치 및 방법 |
CN110674846A (zh) * | 2019-08-29 | 2020-01-10 | 南京理工大学 | 基于遗传算法和k-means聚类的不平衡数据集过采样方法 |
CN111062425A (zh) * | 2019-12-10 | 2020-04-24 | 中国人民解放军海军工程大学 | 基于c-k-smote算法的不平衡数据集处理方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112067053A (zh) * | 2020-09-07 | 2020-12-11 | 北京理工大学 | 一种面向少数类识别的多策略联合故障诊断方法 |
CN112115992A (zh) * | 2020-09-10 | 2020-12-22 | 西北工业大学 | 基于聚类过采样与实例硬度阈值的数据重采样方法 |
CN112217822B (zh) * | 2020-10-13 | 2022-05-27 | 浙江工商大学 | 一种针对入侵数据的检测方法 |
CN112217822A (zh) * | 2020-10-13 | 2021-01-12 | 浙江工商大学 | 一种针对入侵数据的检测方法 |
CN112235293A (zh) * | 2020-10-14 | 2021-01-15 | 西北工业大学 | 一种面向恶意流量检测正负样本均衡生成的过采样方法 |
CN112800917A (zh) * | 2021-01-21 | 2021-05-14 | 华北电力大学(保定) | 一种断路器不平衡监测数据集过采样方法 |
CN112800917B (zh) * | 2021-01-21 | 2022-07-19 | 华北电力大学(保定) | 一种断路器不平衡监测数据集过采样方法 |
CN113052136B (zh) * | 2021-04-22 | 2023-10-10 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN113052136A (zh) * | 2021-04-22 | 2021-06-29 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN113469252A (zh) * | 2021-07-02 | 2021-10-01 | 河海大学 | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 |
CN113553580A (zh) * | 2021-07-12 | 2021-10-26 | 华东师范大学 | 针对非平衡数据的入侵检测方法 |
CN114579631A (zh) * | 2022-01-26 | 2022-06-03 | 苏州大学 | 基于概率加权过采样的社区矫正率预测系统及方法 |
CN114706751A (zh) * | 2022-03-09 | 2022-07-05 | 南京理工大学紫金学院 | 一种基于改进smote的软件缺陷预测方法 |
CN114706751B (zh) * | 2022-03-09 | 2023-09-15 | 南京理工大学紫金学院 | 一种基于改进smote的软件缺陷预测方法 |
CN116668186A (zh) * | 2023-07-18 | 2023-08-29 | 哈尔滨工业大学 | 一种基于多视角特征和集成学习的加密代理协议识别的方法 |
CN116668186B (zh) * | 2023-07-18 | 2024-02-02 | 哈尔滨工业大学 | 一种基于多视角特征和集成学习的加密代理协议识别的方法 |
CN116910660A (zh) * | 2023-09-07 | 2023-10-20 | 山东省计算中心(国家超级计算济南中心) | 面向不平衡数据的自步半监督集成分类器训练方法及系统 |
CN116910660B (zh) * | 2023-09-07 | 2024-01-23 | 山东省计算中心(国家超级计算济南中心) | 面向不平衡数据的自步半监督集成分类器训练方法及系统 |
CN118070138A (zh) * | 2024-04-22 | 2024-05-24 | 贵州大学 | 不平衡样本下汽轮机转子故障诊断方法、存储介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111626336B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626336A (zh) | 一种基于不平衡数据集的地铁故障数据分类方法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN110674846A (zh) | 基于遗传算法和k-means聚类的不平衡数据集过采样方法 | |
CN113393911A (zh) | 一种基于深度学习的配体化合物快速预筛选模型 | |
CN110287985B (zh) | 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法 | |
WO2021189830A1 (zh) | 样本数据优化方法、装置、设备及存储介质 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN112801140A (zh) | 一种基于飞蛾扑火优化算法的XGBoost乳腺癌快速诊断方法 | |
Li et al. | Support cluster machine | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
CN113298184B (zh) | 用于小样本图像识别的样本抽取、扩充方法及存储介质 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN111950652A (zh) | 一种基于相似度的半监督学习数据分类算法 | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
CN109947945B (zh) | 基于词向量和集成svm的文本数据流分类方法 | |
CN111009065A (zh) | 基于聚类算法的人脸识别门禁系统优化方法及系统 | |
Liu et al. | Improving genetic classifiers with a boosting algorithm | |
CN113688879B (zh) | 一种基于置信度分布外检测的广义零样本学习分类方法 | |
CN110533080B (zh) | 一种基于模糊规则集的乳腺癌细胞图像分类方法 | |
CN113837271A (zh) | 一种基于特征选择的分类改进算法 | |
CN108229512B (zh) | 一种基于非负表示系数的两阶段识别方法 | |
CN106778775B (zh) | 一种基于sift特征软匹配的图像分类方法 | |
CN110647671A (zh) | 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |