CN111967520A

CN111967520A - 一种基于改进的smote算法的不平衡数据处理方法

Info

Publication number: CN111967520A
Application number: CN202010832796.2A
Authority: CN
Inventors: 王国涛; 吕冰泽; 孙志刚; 梁晓雯; 燕会臻
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-20

Abstract

一种基于改进的SMOTE算法的不平衡数据处理方法，涉及机器学习技术领域，针对现有不平衡数据集处理方法中由于不能够避免处理过程中产生噪声数据样本，并且可能使新生成的数据样本分布在原数据集中的少数数据样本的中心，进而导致分类效果差的问题。本发明使用支持向量机和K‑means算法的结合去除数据集中的噪声数据，通过限制样本生成范围的半径，即将样本点与近邻点之间生成数据，扩大到样本点与近邻点的连线和延长线上生成数据，提高了数据生成的质量，使分类效果更好。

Description

一种基于改进的SMOTE算法的不平衡数据处理方法

技术领域

本发明涉及机器学习技术领域，具体为一种基于改进的SMOTE算法的不平衡数据处理方法。

背景技术

许多实际应用领域都存在数据集不平衡的问题，例如异常检测、医学诊断或人脸识别等。数据的不平衡会削弱分类算法的判断能力，因为算法在分类过程中追求的是整体的分类精度。为了解决数据集分类时不平衡的问题，研究人员在数据和算法层面进行改进。数据层面的改进方法是从数据本身出发，通过复制或删除样本的方法使数据集中各类别样本数量达到平衡。而算法层面的改进方法主要是引入其他算法，如代价敏感学习方法。

重采样技术就是在数据层面来解决数据不平衡问题的方法，主要有多数类样本欠采样和少数类样本过采样两种方式，达到删除或者增加样本使两类别样本集在数量上达到平衡的目的。其中，随机对多数样本删除使两类别样本数量趋于平衡的方法为欠采样；通过复制少数类样本增加其数目达到与多数类样本数量相同的方法为过采样。并由此衍生出一种混合采样的方式，即将过采样和欠采样算法结合使用，最终使两类样本数据数量达到平衡。

代价敏感学习是在算法层面对数据不平衡问题的解决方法。代价敏感学习的主要思想是将代价惩罚加到学习过程中去，通常是给少数样本一个较大的惩罚，使其在学习过程中受到更大的重视。虽然这可以提高少数类分类的准确率，但在实际应用中仍然存在一些问题。首先，在实际应用中，需要给每个类别设定的错分代价应该是不同的，这需要一定的先验知识，才能保证每个类别设定的权值能够很好的代表本类别的错分代价。但在现实中，权值的设定并不容易。其次，一些分类器不能直接使用该学习方法，需要通过一些策略间接实现，所以代价敏感学习不具有普遍应用性。

SMOTE算法虽然在一定程度上可以避免过拟合问题，但仍存在以下缺点：一是样本中若有偏离点或者噪声，对这些样本进行插值时，生成的样本质量会比较差，而且可能引入新的噪声，不利于数据分类；二是算法生成的新样本可能会分布于原始数据分布的边缘，导致样本之间分界线不易区分；三是新样本仅仅在两个样本之间生成，样本生成区域范围小，容易导致过拟合现象产生。

鉴于SMOTE算法还存在一些弊端，为了使算法能有效处理不平衡数据集，很多科研人员都对SMOTE算法进行了一定程度的改进。经文献检索发现，改进的Cluster-SMOTE算法先使用K-means算法对少数类聚类，然后再对少数类使用SMOTE算法。但该方法主要目标是在少数类簇内生成新的样本，但是并没有明确如何确定最佳簇数，也没有指定每个簇内生成多少个样本。Santos等提出CB-SMOTE算法，使新生成样本的类别由该样本和其最近邻样本的类别共同决定。Sharma等证明了当只有少数类样本时，SMOTE算法性能表现不佳，进而提出了一种新的过采样方法，称为“通过多数进行采样(SWIM)”，该方法利用多数类样本的分布来生成面向分布的少数类样本。为了避免产生噪声，相关文献提出在应用SMOTE算法之前，使用CURE算法清除异常值的数据的名为CURE-SMOTE的方法，这种方法虽然避免了噪声的产生，但忽略了少数类样本内部可能的不平衡。董燕杰提出Random-SMOTE算法，由样本点与其两个近邻样本点构成的三角区域内插值，使样本生成的范围扩大，但算法运算过程相对复杂。刘东启通过复合使用SVM算法，并将不同错分代价和自适应合成采样算法结合后，对数据集不平衡问题分隔超平面的平移现象进行了改善。曹正凤提出了C-SMOTE算法，在正类样本中心生成新样本，克服了SMOTE算法在数据生成时随机化的问题。

目前很多改进不平衡数据集过采样的新算法，虽然都设法解决现有过采样算法的一些弱点，但却不能够避免产生噪声并同时使生成的样本分布在少数样本数据中心，因为越靠近数据中心的样本，越具有该类样本突出的特征，对于分类有更大的贡献。

发明内容

本发明的目的是：针对现有不平衡数据集处理方法中由于不能够避免处理过程中产生噪声数据样本，并且可能使新生成的数据样本分布在原数据集中的少数数据样本的中心，进而导致分类效果差的问题，提出一种基于改进的SMOTE算法的不平衡数据处理方法。

本发明为了解决上述技术问题采取的技术方案是：

一种基于改进的SMOTE算法的不平衡数据处理方法，包括以下步骤：

步骤一：利用支持向量机算法对数据集进行初步分类，分离出错误分类的少数类样本，然后遍历错误分类样本中每个样本点，统计选定样本的K个近邻样本中的同类样本的数目K*，若K*为零，则该样本判定为噪声样本，将其删除；

步骤二：利用K-means聚类算法对去除噪声后的少数类样本进行聚类处理，得到少数类样本的中心点x_i，然后求得当前样本点到中心点x_i的欧几里得距离d，并计算所有距离的平均值d_mean，然后生成新样本，使生成的样本数量与原数据集中两类样本之间数量的差值相等后输出数据集；

生成新样本的具体步骤为：

步骤A：将平均距离d_mean与d之间的比例，记做M；

步骤B：统计少数类样本u_i的近邻样本的属性值，即近邻样本中同类样本的数量a，当同类样本的数量a大于近邻样本总数的一半时，则降低新样本生成的倍率，即M，当同类样本的数量a不大于近邻样本总数的一半时，则提高新样本生成的倍率；

步骤C：根据每个少类样本、少数类样本中心、欧式距离d及所有距离的平均值d_mean生成新样本。

本发明的有益效果是：本发明使用支持向量机和K-means算法的结合去除数据集中的噪声数据，通过限制样本生成范围的半径，即将样本点与近邻点之间生成数据，扩大到样本点与近邻点的连线和延长线上生成数据，提高了数据生成的质量，使分类效果更好。

附图说明

图1是本发明实施例的不同算法对不平衡数据处理所得的G-means值；

图2是本发明实施例的不同算法对不平衡数据处理所得的F-measure值；

图3是本发明实施例的不同算法对不平衡数据处理所得的AUC值；

图4是本发明实施例的不同算法对不平衡数据处理所得的OOB error。

具体实施方式

具体实施方式一：本发明的目的是提供一种基于改进的SMOTE算法的不平衡数据集处理方法，首先使用支持向量机和K-means聚类的结合对数据集进行去噪，然后改变新样本生成的公式，将SMOTE方法在样本点与近邻点之间生成的数据，扩大到样本点与近邻点的连线和延长线上生成数据。由于使用的K-means聚类和SMOTE算法都具有普遍适用性，因此本发明的改进的SMOTE方法，即LR-SMOTE方法比较容易实现。

本发明是通过以下的技术方案实现的，本发明包括两个部分：

第一、传统SMOTE算法的不平衡数据集处理方法

数据不平衡包括相对不平衡和绝对不平衡，当少数类数量相较于多数类数量较小时被称为相对不平衡；绝对不平衡是指少数类的数量本身就比较少，当少数类的数量很少时，传统的分类算法无法训练出合格的分类模型。

进一步的，在数据层面的改进，是一种不需要被特定领域和分类器模型所限制的方法，相比于为了适应特定分类器而改进算法更具有普遍适用性。

可选的，SMOTE(Synthetic Minority Oversampling Technique)算法是一种在随机过采样的基础上进行一定优化的数据不平衡处理方法，其处理过程如下：

步骤一：在少数类样本中随机抽取样本x_i，计算从x_i到所有同类样本的欧氏距离来寻找其K个近邻样本。

步骤二：设置采样倍率N，随机抽取样本x_i的K个近邻样本中的一个，记为x_i′。

步骤三：对于选定近邻样本x_i′与x_i按x_new＝x_i+rand(0,1)×(x′_i-x_i)进行插值。

第二、在传统SMOTE算法基础上改进的LR-SMOTE不平衡数据集处理方法

针对SMOTE算法可能会生成离群点，数据中噪声的存在会降低新生成样本质量的问题，本发明在传统SMOTE算法的基础上提出改进的LR-SMOTE算法。

SMOTE算法最大的不足是在生成数据时，数据生成的空间没有一个限制范围，在两个数据点之间随机生成。若样本中存在噪声样本或者离群样本，这就可能会导致新生成的样本为噪声点或者是离群点，本发明的改进的LR-SMOTE算法克服了上述缺点。

进一步的，本发明的LR-SMOTE算法主要分为以下步骤：去噪，过采样，过滤。首先采用支持向量机算法对数据集初步进行分类，分离出错分的少数类样本，进行噪声点识别。判断每个错误分类的少数类样本的近邻样本类别，除去少数类中的噪声点。

可选的，在近邻样本的选择中，传统SMOTE算法倾向于选择3个近邻样本，但是这样在判断过程中产生误判的概率比较大。

优选的，本发明选定样本的类别由其5个近邻样本的类别决定。

进一步的，在去除噪声之后，采用K-means聚类算法对少数类样本进行聚类处理，得出少数类样本的中心点，通过求得当前样本点到中心点的欧几里得距离，并计算平均距离，最后利用改进后的样本生成公式合成新样本。

进一步的，对本发明的上述主要处理过程进行具体的算法步骤描述。其中，本发明采用支持向量机算法对实验获取的数据集分类，将错误分类的少数类样本组成一个样本集合。通过遍历错分样本集合中每个样本点，统计选定样本的K个近邻样本中的同类样本的数目K*，若K*为零，则该样本判为噪声样本，并将其删除。具体步骤如下：

步骤一：在去除噪声后的少类样本中，采用K-means聚类找出样本中心点x_i。

步骤二：计算中心点到每个少类样本的欧式距离d，并求得所有距离的平均值d_mean。

步骤三：计算平均距离d_mean与d之间的比例，记做M。

步骤四：生成新样本，具体过程如下：

①统计少数类样本u_i的近邻样本的属性值，即近邻样本中同类样本的数量a，当a值比较大，表明该少数类样本处于同类样本密度较大区域，则降低新样本生成的倍率，终止条件是，提高生成倍率的样本和降低生成倍率的样本，他们生成的样本总和等于多数类减少数类的差值时停止。避免产生冗余个体，反之，则该样本应有较大权重，生成更多样本。

②新样本按公式(1)生成：

x_new＝u_i+rand(0,M)*(x_i-u_i) (1)

其中，x_new为新生成的样本，u_i为每一个少数类样本，x_i是少数类样本中心，rand(0,M)是在0到M之间生成的一个随机数。

步骤五：重复步骤三、四，直到新生成样本数量为原数据集中两类样本之间数量的差值。若合成的新样本数量比该差值大，则在新生成的样本中去除新生成的边界样本，直到多数类和少数类的样本数量平衡。

步骤六：输出平衡后的数据集。

进一步的，在新样本的生成过程中，将原始的rand(0,1)改为rand(0,M)。其中，M为距离平均值d_mean与d的比值，M可能大于1，也可能小于1。因此，新样本的生成可能在样本中心和选定样本的连线上，或者在其延长线上，这就扩大了新样本的生成范围。

进一步的，新样本是根据样本中心点与每个样本之间的函数关系生成的，而不是在少数类样本群中随意插值，因此，本发明的人工合成的新样本会更加靠近数据集中心，同时更具有少数类样本点特征。

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明的概念。

实施例：实际检测数据集和UCI数据集的不平衡处理。

本发明的实施例采用6组来自于实际工程中的检测结果数据集和四组UCI数据库中的数据集，表1对数据进行描述。表中包含样本总数，特征数，少数类和多数类样本数量和不平衡率。数据集的大小范围从306个数据到2604个数据，不平衡率从1.89到16.4。对于数据集Abalone，将数据集中第9类作为多数类，第18类为少数类。为了检验本发明的改进的SMOTE算法，即LR-SMOTE算法所取得的效果，在相同的条件下分别对原始数据，经过传统SMOTE算法和经过改进的LR-SMOTE算法处理后的数据集，采用随机森林算法和支持向量机算法进行分类。

进一步的，实施例采用十折交叉验证进行，每组数据集重复实验10次，来消除数据在随机分组时可能发生的偏差，故每个数据集都会产生10×10＝100次实验数据集。实施例用来评估实验结果的各项评价指标也是取100次实验结果的均值。实施例使用6组自建数据集和4组标准数据集进行实验，这些数据集具有不同程度的不平衡度和数据集大小，这将产生总数为10×100＝1000衍生的实验数据集。实施例中采用默认参数的支持向量机算法分别对原始数据集，经过传统的SMOTE算法和经过改进的LR-SMOTE算法平衡的数据集分类，得到各项的指标值如表2和表3所示，并可以得出以下结论：

(1)通过对各项指标的平均值进行比较发现，本发明经过改进的LR-SMOTE方法优于传统SMOTE方法。

(2)少数类样本的召回率，使用支持向量机算法进行分类时，在数据集1上只有0.02，经过传统的SMOTE算法过采样后，有一定程度的提升，再通过本发明经过改进的LR-SMOTE算法生成数据后，召回率有所提升。

(3)在使用本发明经过改进的LR-SMOTE算法处理后，综合评价指标的F-measure值相比于原始数据有很大程度的提高。

为了进一步验证本发明经过改进的LR-SMOTE算法与已有的其他过采样算法分类的效果，用随机森林算法对UCI数据库中3组不平衡数据集测试。同时选择了原始SMOTE算法和改进后的C-SMOTE、Kmeans-SMOTE、CURE-SMOTE过采样算法在不同评价指标上进行对比。数据集在不同方法下的不同分类指标值如表4至表7所示。

由各项指标和不同算法的对比验证表明，改进的过采样LR-SMOTE算法能够有效的生成新样本，从而提高各项分类评价指标，同时能够比较好的处理多余物数据集。

表1数据集基本信息

表2 SVM算法对数据集处理结果

表3 SVM算法对UCI数据集处理结果

表4各算法处理所得的G-means值

表5各算法处理的F-measure值

表6各算法处理所得的AUC值

表7不同算法处理所得的OOB error

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于包括以下步骤：

生成新样本的具体步骤为：

步骤A：将平均距离d_mean与d之间的比例，记做M；

2.根据权利要求1所述的一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于所述步骤C中生成新样本的公式为：

x_new＝u_i+rand(0，M)*(x_i-u_i)

其中，x_new为新生成的样本，u_i为每一个少数类样本，x_i是少数类样本中心，

rand(0，M)是在0到M之间生成的一个随机数。

3.根据权利要求2所述的一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于所述步骤二中使生成的样本数量与原数据集中两类样本之间数量的差值相等后输出数据集的具体步骤为：当新生成样本数量等于原数据集中两类样本之间数量的差值时，输出此时的数据集，当合成的新样本数量大于差值时，则在新生成的样本中去除新生成的边界样本，直到多数类和少数类的样本数量相等后，输出此时的数据集。

4.根据权利要求1所述的一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于所述K为5。