CN111626336A

CN111626336A - 一种基于不平衡数据集的地铁故障数据分类方法

Info

Publication number: CN111626336A
Application number: CN202010358455.6A
Authority: CN
Inventors: 张永; 左婷婷; 谢志鸿; 方立超; 单梁; 徐志良
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-04
Anticipated expiration: 2040-04-29
Also published as: CN111626336B

Abstract

本发明公开了一种基于不平衡数据集的地铁故障数据分类方法。该方法包括以下步骤：输入原不平衡数据集，并将不平衡数据集划分为训练数据集与测试数据集；将训练数据集分为正类样本集和负类样本集，其中正类样本集为少数类样本、负类样本集为多数类样本；利用K‑Means聚类算法，将正类样本集划分为K个不同的簇；针对每个簇，使用改进的SMOTE算法对数据集采样，最终得到一个平衡数据集；将SVM作为弱分类器，并以AdaBoost算法构建集成分类器；使用测试数据集对集成分类器的性能进行评估。本发明能够在保证整体正确率的同时，有效提高不平衡数据集中少数类样本的识别率，在非均衡数据集的分类预测中具有更好的效果。

Description

一种基于不平衡数据集的地铁故障数据分类方法

技术领域

本发明属于数据挖掘技术领域，特别是一种基于不平衡数据集的地铁故障数据分类方法。

背景技术

地铁在长时间运行过程中，设备出现故障的几率很高，若是不能及时处理，会造成很大损失，因此及时、有效地对地铁进行故障诊断显得日益重要。在故障诊断中，故障数据分类是其关键技术。分类方法广泛应用于预测领域，而大多数分类方法都要求数据的分布较为均匀。若数据的分布严重不平衡时，少数类数据很有可能被当作噪声处理。现实生活中的数据往往呈现不平衡分布的特点，即在数据集中，不同类别的样本数量相差很大。数量较多的样本为多类样本，数量较少的样本称为少类样本。在大多数情况下，对少数类样本的错分往往会带来更大的损失，因此对少类样本的研究更具有价值意义。

目前，国内外学者主要从三个方面对不平衡数据集分类进行研究，即数据层面、算法层面以及综合层面。数据层面的方法是指通过重采样技术使数据集达到平衡，根据采样对象的不同可以分为过采样、欠采样以及混合采样。算法层面的方法使模型在训练过程中更加注重于少类样本的识别，主要方法有代价敏感学习、集成学习和单类学习。综合层面的方法将重采样技术与分类算法相结合，提高分类器性能。

武汉大学提出的专利申请“一种基于数据欠采样和集成学习的软件缺陷数目预测方法”(申请号：201710548391.4，公开号：CN 107391452A)中，利用随机欠采样技术删除缺陷数据集中缺陷数目为零的软件模块，得到相对平衡的新数据集，然后利用相对平衡的缺陷数据集训练出若干个弱的软件缺陷数目预测模型，最后集成这些弱的软件缺陷数目预测模型来预测待预测的软件模块的缺陷数目。该方法存在的不足之处是：欠采样技术在删除样本的同时，容易将含有重要信息的样本删除。

王和勇、繁泓坤等在文献“SMOTE和Biased-SVM相结合的不平衡数据分类”中，对不平衡数据集使用Biased-SVM方法，然后使用SMOTE算法对正类样本采样从而获得平衡数据集，最后再使用Biased-SVM方法进行分类，该方法存在的不足之处是：

传统的SMOTE算法对样本的空间分布考虑不足，并缺少对合成样本的判断规则，导致合成的正类样本侵入负类样本的分布空间，影响数据分类效果。

发明内容

本发明的目的在于提供一种基于不平衡数据集的地铁故障数据分类方法，在保证整体正确率的同时，有效提高不平衡数据中对少数类样本的识别率。

实现本发明目的的技术解决方案为：一种基于不平衡数据集的地铁故障数据分类方法，该方法包括以下步骤：

步骤1、从地铁运行数据中获取实验所需的不平衡数据集D；

步骤2、将数据集D划分为训练数据集D_Train和测试数据集D_Test；

步骤3、将D_Train中的数据样本划分为正类样本集N_min和负类样本集N_maj，其中N_min为少数类样本、N_maj为多数类样本，并计算待采样样本的数量：T＝N_maj-N_min；

步骤4、使用k-Means聚类算法对正类样本集N_min进行聚类，得到k个簇C_i,i＝1,2,...,k；

步骤5、针对每个簇，使用具有近邻样本规则约束的SMOTE算法进行采样，直至采样完成；

步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集；

步骤7、选择SVM分类器作为AdaBoost算法的基分类器，构建集成分类器；

步骤8、使用平衡数据集对集成分类器模型进行训练；

步骤9、使用测试数据集D_Test对步骤8训练好的模型进行性能评估，并完成地铁故障数据的分类。

进一步地，步骤2所述将数据集D划分为训练数据集D_Train和测试数据集D_Test，具体步骤如下：

2.1)将不平衡数据集随机分为样本数一致的5份；

2.2)从5份样本中任意选择1份作为测试数据集D_Test，其他4份样本作为训练数据集D_Train。

进一步地，步骤4所述使用k-Means聚类算法对正类样本集N_min进行聚类，具体步骤如下：

4.1)输入数据为正类样本集N_min和待聚类簇的个数k；

4.2)随机产生k个初始簇心：c₁,c₂,...,c_k；

4.3)对于正类样本集N_min中的每个数据样本，分别计算样本距离步骤4.2)中k个簇心的距离，并将该样本划分到距离最近的簇心所属的簇中；

4.4)将所有数据划分到相应的簇中后，计算各个簇中数据样本的均值，并以此均值作为新的簇心，完成对c₁,c₂,...,c_k的更新；

4.5)重复步骤4.3)～步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数，聚类完毕。

进一步地，步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样，具体步骤如下：

5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样，合成新的正类样本；

5.2)判断合成的新的正类样本是否符合近邻样本规则，若符合，将合成样本加入训练数据集；否则将该合成样本删除，返回步骤5.1)重新采样；

5.3)判断合成的新的正类样本数量是否达到待采样样本数量T，若是则采样过程完成，否则返回步骤5.1)继续采样。

进一步地，步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样，具体步骤如下：

5.1.1)输入数据为不平衡数据集D，待合成的样本数T，近邻参数k，空集合D_new；

5.1.2)对于正类样本集N_min中的每个数据样本x_i，计算x_i的k个同类近邻样本；

5.1.3)在k个同类近邻样本中选择一个样本x_ij，使用下式合成新的正类样本x_new：

x_new＝x_i+rand(0,1)×(x_ij-x_i)

将新的正类样本x_new加入D_new，其中rand(0，1)用于产生0-1之间的随机数；

5.1.4)重复步骤5.1.2)～步骤5.1.3)，直至完成T个合成样本的采样。

进一步地，步骤5.2)中所述近邻样本规则，定义如下：

对SMOTE算法合成的每个正类样本，判断该合成样本的k个近邻样本的类别，若近邻样本均属于正类，将合成样本加入训练集；若近邻样本均属于负类，则将该样本删除，返回步骤5.1)重新采样。

进一步地，步骤7所述选择SVM分类器作为AdaBoost算法的基分类器，构建集成分类器，具体步骤如下：

7.1)输入训练样本集，包含m个样本(x₁,y₁)，(x₂,y₂)...(x_m,y_m)，其中x_i为样本点，y_i∈{-1,1}为样本的标签信息，输入RBFSVM的参数e初始值e_ini，e的最小值e_min，步长e_step和最大循环次数T；

7.2)初始化样本权重值w₁(i)＝1/m；

7.3)当e＞e_min且当前循环次数t＜T时循环以下步骤7.3.1)～步骤7.3.5)，否则进入步骤7.4)：

7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器C_t得到h_t；

7.3.2)计算h_t在训练集上的分类误差率

7.3.3)如果x_t＞0.5，则e＝e-e_step，t＝t+1，返回至步骤7.3.1)；否则进入7.3.4)；

7.3.4)计算弱分类器C_t的权值

7.3.5)更新样本权值

其中

为归一化因子；

7.4)输出最后的强分类器

进一步地，步骤9所述使用测试数据集D_Test对步骤8训练好的模型进行性能评估，具体为：

使用的评价指标为AUC值和g-mean值，计算方式如下：

其中，TP表示正类样本被正确分类为正类的样本个数，FN表示正类样本被错误分类为负类的样本个数，TN表示负类样本被正确分类为负类的样本个数，FP表示负类样本被错误分类为正类的样本个数，具体由下面的二分类混淆矩阵表示：

本发明与现有技术相比，其显著优点为：(1)通过改进的SMOTE算法对不平衡数据集中的少类样本进行过采样，利用AdaBoost算法集成多个SVM分类器，实现不平衡数据集上更好的分类效果与模型泛化能力；(2)有效提高了不平衡数据集中少数类样本的识别率，在非均衡数据集的分类预测中具有更好的效果，能够高效、准确地完成地铁故障数据分类。

附图说明

图1是本发明基于不平衡数据集的地铁故障数据分类方法的流程图；

图2是本发明一个实施例在公共数据集上取得的AUC值示意图。

图3是本发明一个实施例在公共数据集上取得的G-means值示意图。

具体实施方式

结合图1，本发明基于不平衡数据集的地铁故障数据分类方法，该方法包括以下步骤：

步骤1、从地铁运行数据中获取实验所需的不平衡数据集D；

步骤8、使用平衡数据集对集成分类器模型进行训练；

2.1)将不平衡数据集随机分为样本数一致的5份；

4.1)输入数据为正类样本集N_min和待聚类簇的个数k；

4.2)随机产生k个初始簇心：c₁,c₂,...,c_k；

5.2)判断合成的新的正类样本是否符合近邻样本规则(Nearest Neighbor Rule,NNR)，若符合，将合成样本加入训练数据集；否则将该合成样本删除，返回步骤5.1)重新采样；

x_new＝x_i+rand(0,1)×(x_ij-x_i)

进一步地，步骤5.2)中所述近邻样本规则，定义如下：

7.2)初始化样本权重值w₁(i)＝1/m；

7.3.2)计算h_t在训练集上的分类误差率

7.3.4)计算弱分类器C_t的权值

7.3.5)更新样本权值

其中

为归一化因子；

7.4)输出最后的强分类器

使用的评价指标为AUC值和g-mean值，计算方式如下：

下面结合附图及具体实施例对本发明进行详细说明。

实施例

步骤1，从广州地铁运行数据中获取实验所需的不平衡数据集D；

步骤2，将数据集D划分为训练数据集D_Train和测试数据集D_Test，具体步骤如下：

2.1)将不平衡数据集随机分为样本数一致的5份；

2.2)从5份样本中任意选择1份作为测试数据集，其他4份样本作为训练数据集。

步骤3，将D_Train中的数据样本划分为正类样本集N_min(少数类样本)和负类样本集N_maj(多数类样本)，并计算待采样样本的数量：T＝N_maj-N_min；

步骤4，使用k-Means聚类算法对正类数据集N_min进行聚类，得到k个簇C_i,i＝1,2,...,k。K-Means聚类算法具体步骤如下：

4.1)输入数据为正类样本数据集N_min和待聚类簇的个数k；

4.2)随机产生k个初始簇心：c₁,c₂,...,c_k；

4.3)对于数据集N_min中的每个数据样本，分别计算其距离步骤4.2)中k个簇心的距离，并将该样本划分到距离最近的簇心所属的簇中；

4.4)待将所有数据划分到相应的簇中后，计算各个簇中数据样本的均值，并以此均值作为新的簇心，完成对c₁,c₂,...,c_k的更新；

4.5)重复步骤4.3)和步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数。聚类完毕。

步骤5，针对每个簇，使用改进的SMOTE算法对数据集采样，直至采样完成。具体步骤如下：

5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样，合成新样本；

5.2)判断合成的样本是否符合近邻样本规则(NNR)，若符合，将合成样本加入训练数据集，否则将该合成样本删除，返回步骤5.1)重新采样；

5.3)判断合成样本数量是否达到待采样样本数量T，若是则采样过程完成，否则返回步骤5.1)继续采样。

其中，步骤5.1)中SMOTE算法的具体步骤如下：

5.1.1)输入数据为不平衡数据集D，待合成的样本数T，近邻参数k,空集合D_new；

5.1.2)对于数据集N_min中的每个数据样本x_i，计算它的k个同类近邻样本；

5.1.3)在k个同类近邻样本中选择一个样本x_ij，使用公式

x_new＝x_i+rand(0,1)×(x_ij-x_i)合成新的正类样本x_new，将新样本加入D_new，其中rand(0，1)用于产生0-1之间的随机数；

5.1.4)重复步骤5.1.2)和步骤5.1.3)，直至完成T个合成样本的采样。

其中，步骤5.2)中的近邻样本规则(NNR)定义如下：

步骤6，将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集；

步骤7，选择SVM分类器作为AdaBoost算法的基分类器，构建集成分类器，具体步骤如下：

7.1)输入训练样本集，包含m个样本(x₁,y₁)，(x₂,y₂)...(x_m,y_m)，其中x_i为样本点，y_i∈{-1,1}为样本的标签信息，输入RBFSVM的参数e初始值e_ini，e的最小值e_min和步长e_step和最大循环次数T；

7.2)初始化样本权重值w₁(i)＝1/m；

7.3)当e＞e_min且t＜T时循环步骤7.3.1)～步骤7.3.5)，否则进入步骤7.4)：

7.3.2)计算h_t在训练集上的分类误差率

7.3.3)如果x_t＞0.5，则e＝e-e_step，t＝t+1，返回至步骤7.3.1)；

7.3.4)计算弱分类器C_t的权值，

7.3.5)更新样本权值

其中

为归一化因子；

7.4)输出最后的强分类器

步骤8，使用测试数据集对步骤8训练好的模型进行性能评估。模型评估使用的评价指标为AUC值和g-mean值，它们的计算方式如下所示：

其中，TP表示正类样本被正确分类为正类的样本个数，FN表示正类样本被错误分类为负类的样本个数，TN表示负类样本被正确分类为负类的样本个数，FP表示负类样本被错误分类为正类的样本个数，具体可由下面的二分类混淆矩阵表示。

本发明的效果将通过如下仿真实验进行详细说明。

1.仿真环境

本实验采用KEEL软件及Python编程语言，实验环境为Windows操作系统。

2.仿真内容与结果分析

本发明实验所涉及的数据均来自广州地铁运行数据，样本信息及不平衡率如表1。

表1实验数据集

与本发明进行对比的采样方法分别为MSMOTEBoost、SMOTEBagging、SMOTEBoost、SMOTE、Borderline-SMOTE和ROS。试验中，设置聚类的簇数K＝100。设置近邻样本规则(NNR)中的近邻样本个数为5，即当距离合成样本最近的5个点均为负类时，将该合成样本删除。评估指标采用AUC和g-means,仿真结果如表2-表5所示(注：加粗数据为对应的分类算法在该评估指标上取得的最大值)。

将表2-表5的结果绘制成曲线图，如图2和图3所示。

表2 vehicle0实验结果

表3 glass2实验结果

表4 glass4实验结果

表5 poker-8-9_vs_6实验结果

结合表2～表5、图2～3可知，基于改进的SMOTE算法与SVM的不平衡数据分类方法，通过改进的SMOTE算法对合成样本进行筛选，使合成的样本分布更为均匀。然后将改进的SMOTE算法与SVM相结合，建立分类模型。实验结果表明，该算法能有效提高对正类样本的分类精度，高效、准确地完成地铁故障数据分类。