CN111782904A

CN111782904A - 一种基于改进smote算法的非平衡数据集处理方法及系统

Info

Publication number: CN111782904A
Application number: CN201911258231.1A
Authority: CN
Inventors: 李刚; 李野; 杨光; 董得龙; 孔祥玉; 宗淑敏; 孙虹; 卢静雅; 刘浩宇; 翟术然; 张兆杰; 许迪; 赵紫敬; 乔亚男; 吕伟嘉; 顾强; 何泽昊; 季浩; 白涛
Original assignee: Tianjin University; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Current assignee: Tianjin University; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-10-16
Anticipated expiration: 2039-12-10
Also published as: CN111782904B

Abstract

本发明涉及一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：首先计算少数类样本的重心点，其次构建一个少数类小区域的重心点，然后将少数类样本与集合M的每个样本分别进行随机线性插值，合成新的少数类样本并添加到数据集中；最后判断新数据集的非平衡率，若还是过小则重复以上步骤否则停止。改进后的SMOTE算法可以克服传统SMOTE算法处理噪声和边缘性样本的问题，相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高。

Description

一种基于改进SMOTE算法的非平衡数据集处理方法及系统

技术领域

本发明属于电力数据处理领域，涉及一种非平衡数据集处理方法，特别是一种基于改进SMOTE算法的非平衡数据集处理方法。

背景技术

近年来，随着信息产业的快速发展，人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息，如何对其进行更高层次的分析，以便更好地利用这些数据，变得越来越重要。传统的数据管理方法可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中潜在的、有用的关系和规则。为了挖掘数据背后隐藏的知识，解决“数据爆炸但知识贫乏”问题，人们努力寻求各种新方法和技术，以便使数据能够转化成有用的信息和知识。数据挖掘在这种背景下应运而生了。

数据挖掘领域的研究日趋成熟，其中许多研究把方法和模型建立在理想的数据而不是现实的数据集上。但现实中的数据是错综复杂的，总体而言，他们不可避免的存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况，这样的数据简称为“脏数据”，它们成为数据挖掘的一大障碍。要在基于历史的、现存的数据基础上去为将来的企业发展作决策或预测时，数据的质量问题就变得很关键。根据“垃圾进，垃圾出”原理，错误的数据会导致昂贵的操作费用和漫长的响应时间，影响从数据集中抽取的模式的正确性和导出规则的准确性，使得决策支持系统产生错误的分析结果，将会误导决策，影响信息服务的质量。因此，在从数据库中挖掘知识之前必须对其进行一系列的预处理工作。

对数据集进行改造方法的实现则是对数据集进行增减。它的基本思想是增加或者减少不平衡数据集样本的个数，从而改变数据集的分布来消除或减小数据的不平衡。主要有欠采样技术和过采样技术。

欠采样技术将多数类样本进行适当删减，从而使数据集趋于平衡。常用的方法是随机欠采样技术，它通过随机选取的方式，将部分多数类样本删除从而减小其规模，其存在的缺点是伴随着多数类样本的删除其携带的某些重要信息也会随之丢失，从而造成分类器分类性能的下降。

过采样技术则与欠采样技术相对，该方法通过增加少数类样本数量最终达到改善非平衡数据集的目的。最简单的一种方法是随机过采样。它通过随机选择的方式，将部分少数类样本复制添加到原始数据集中从而提高少数类样本的比例；这种方法的缺点是添加的少数类样本与原始数据集的部分样本重合，可能导致过拟合现象的发生。

采用SMOTE算法进行不平衡数据集的处理，SMOTE算法在近邻数k的选择上没有可依据的标准，具有一定的盲目性。在SMOTE算法中，对近邻k的值没有太大限制，但当数据集中存在噪声时，合适的k值有可能不会使得某些新样本也成为噪声。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于改进SMOTE算法的非平衡数据集处理方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于改进SMOTE算法的非平衡数据集处理方法，包括如下步骤：

步骤一，首先使用聚类算法将样本集划分为特定数目的类簇，根据需要合成样本的数目，以及各类簇中所包含样本数量，得出各类簇所占权重以及需要合成的样本数目；通过轮盘赌的方式进行样本的选择，记为集合X；计算少数类样本的重心点；若设定向上采样倍率为m，则从集合X中随机抽取m个样本，近邻数k>m记为集合M，构建一个少数类小区域的重心点，记为X_c；

步骤二，将少数类样本与集合M的每个样本分别进行随机线性插值，合成新的少数类样本并添加到数据集中；

步骤三，判断新数据集的非平衡率，若还是过小则重复以上步骤否则获得新的数据集。

本发明的优点和积极效果是：

1、本基于改进SMOTE算法的非平衡数据集处理方法，采用减法聚类为样本进行划分样本数目，减法聚类方法是把是把所有的样本点作为聚类中心点的候选点，是一种快速而独立的近似聚类方法，计算量与样本点的数目成简单的线性关系，且与所考虑问题的维数无关。减法聚类克服了聚类中心具有主观性的缺点。

2、本基于改进SMOTE算法的非平衡数据集处理方法，可以克服传统SMOTE算法处理噪声和边缘性样本的问题，相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高，该方法在少数类样本的邻近区域合成新样本，并将其作为新增少数类样本添加到原始数据集中。改进的SMOTE通过提高少数类样本在非平衡数据集中的比例，有效扩大了分类决策的区域。同时由于合成新样本与少数类样本的差异性，因此可以防止分类器出现过度拟合。改进的SMOTE算法从一定程度上克服了噪声数据点的干扰。

3、本基于改进SMOTE算法的非平衡数据集处理方法，有效地避免了随机过采样技术在添加新样本时的局限性和盲目性。它利用线性插值的基本数学理论合成的新样本，这些新样本拥有了少数类样本的某些特性，在不会与原数据集中的样本重合的情况下增加了少数类样本的数量，扩大了分类决策的区域的同时又改善了数据集的非平衡性。

附图说明

图1是本发明的流程图；

图2是本发明减法聚类确定聚类数目的流程图。

具体实施方式

以下结合附图对本发明的实施例做进一步详述：

一种基于改进SMOTE算法的非平衡数据集处理方法，其创新之处在于：包括如下步骤：

步骤三，判断新数据集的非平衡率，即少数类数目占全体样本数目的比例，若还是过小则重复以上步骤否则获得新的数据集。

为了克服随机过采样技术导致的过拟合这一问题，本发明提出了新型过采样技术(Synthetic Minority Over-sampling TechniqueSMOTE)来合成增加少数类样本。 SMOTE算法的基本思想是通过建立应变量Y和自变量X的模型来预测确实变量Y中的缺失数据：

本发明对SMOTE算法进行改进提出一种基于重心的SMOTE算法。基于重心的 SMOTE算法的依据有以下两点理论：

(1)根据物理学和几何学的原理，属于同一个类的样本应该有一个共同的重心，这个重心往往表征了这类样本的独有特性。

(2)由样本重心与两个同类样本建立的区域应该是该类样本的共有区域，即在这个区域空间内的样本都应该是属于同一类。

因此，基于以上两点理论，若在共同区域内合成新的样本，那么这些新的样本既跟原始样本有差异，但同时又可以保留住同类样本的一些固有特性；从而有效的克服了SMOTE算法在噪声样本中因为近邻的选择而合成噪声新样本的问题。又因为在建立共同区域时是随机选择两个同类样本和重心点的，因此同时选中两个边缘样本的概率大大降低，有效克服了由边缘性样本造成的模糊类别界限的问题。改进的SMOTE算法通过两次计算区域的重心，从而使得新合成的样本具有一定的区域性，也更能集成少数类样本的某些共同特性。

1、本发明采用减法聚类对样本集进行子簇的划分

采用减法聚类，聚类中心的顺序由密度指标决定，密度指标越大则出现得越早，也越有可能是合理的改进的FCM初始聚类中心。因此，当聚类数为c时，只需以减法聚类产生的前c个聚类中心作为新的初始中心，不用再重新进行初始化，从提高了聚类的效率。

FCM把n个数据向量x_i(i＝1,2,…,n)分为c个模糊组，若记样本集为U，聚类中心为V。

(1)计算每个数据点的密度指标

式中r_a是一个正数，定义了该点的邻域半径。

半径以外的数据点对该点的密度指标贡献甚微，取

选择具有最高密度指标的数据点为第一个聚类中心，令x_c1为选中的点，D_c1为其密度指标。

(2)根据第k次选出的聚类中心，对每个数据点的密度指标进行修正

式中r_b—一个正数，定义了一个密度指标函数减少的领域，为避免出现相距很近的聚类中心，这里取r_b＝1.2r_a。选取密度指标最高的数据点x_ck+1作为新的聚类中心。

(3)判断退出条件否成立

若不成立，则转到步骤(2)。式中δ＜1是事先给定的参数，此参数决定了最终产生的初始聚类中心数目，δ越小，则产生的聚类数越多。

2.分配样本权重

根据子簇中样本数目为其分配不同的采样权重记作W(i)，则有：某一类簇中样本数目越多，则W(i)越小，即过采样权重越小，合成样本数目就越小，最终实现同类样本之间的平衡分布。根据需要合成样本的数目，以及各类簇中所包含样本数量，得出各类簇所占权重以及需要合成的样本数目，通过轮盘赌的方式进行样本的选择，记为集合X。

3.改进的SMOTE算法

多数类样本集合表示为Y:Y＝{Y₁,Y₂,...,Y_l}，则基于重心的SMOTE算法的具体步骤如下：

步骤1：计算少数类样本的重心点，记为Xg。这里采用向量和欧氏距离的计算方式得到少数类样本的重心点：

根据公式可以计算出少数类样本的重心点X_g。

步骤2：构建一个少数类小区域的重心点，记为X_c。从少数类样本集合X中随机选取两个样本，分别记为X_r1，X_r2。通过三个样本X_g，X_r1，X_r2求取该小区域的重心点X_c。公式如下：

通过这个公式可以求取到少数类小区域的重心，从而使得新生成的样本有一个靠近的区域中心方向。

步骤3：合成新的样本p_i。为了保证新合成的样本向小区域中心X_c靠近，因此对SMOTE算法的新样本合成公式进行了改进。公式如下：

p_i＝X_i+rand(0,1)*(X_c-X_i) (6)

其中，X_i(i＝r₁,r₂)为步骤2中随机选择的两个少数类样本；p_i(i＝r₁,r₂)为合成的新样本；rand(0，1)取值同上为(0，1)之间的一个随机数。

步骤4：综合Tomek link实现数据扩充的算法。假设我们利用上述的算法产生了两个新数据点Pr1和Pr2，认为新产生的数据点与其他样本点距离最近的点，构成一对Tomeklink。当以新产生点为中心，Tomek link的距离为范围半径，去框定一个空间，空间内的少数类的个数<最低阈值的时候，认为新产生点为“垃圾点”，应该剔除或者再次进行基于重心的SMOTE训练；空间内的少数类的个数>＝最低阈值的时候，在进行保留并纳入SMOTE训练的初始少类样本集合X_new中去抽样。

步骤5：计算非平衡率。计算数集的非平衡率R，公式如下：

如果非平衡率小于目标值则继续重复步骤2，3，4以获得更多的合成样本；若非平衡率达到目标值则合成新样本结束，获得最终的数据集。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：包括如下步骤：

步骤一，首先使用聚类算法将样本集划分为特定数目的类簇，根据需要合成样本的数目，以及各类簇中所包含样本数量，得出各类簇所占权重以及需要合成的样本数目；

步骤二，通过轮盘赌的方式进行样本的选择，记为少数类样本集合X:X＝{x₁,x₂,...,x_n}；

步骤三，计算步骤二得出的少数类样本集合X的重心点；

步骤四，对于少数类样本集合X中的每一个样本x₁,x₂,...x_n，以欧式距离为标准计算其到少数类样本集中所有样本的距离得到其k近邻，设定向上采样倍率为m，从集合X中随机抽取m组样本

近邻数k>m记为集合

构建一个少数类小区域的重心点，记为X_c；

步骤五，根据公式p_i＝X_i+rand(0,1)*(X_c-X_i)合成新的少数类样本p_i，

将集合M中的样本

与新合成样本p_i分别进行随机线性插值，并判断少数类样本的个数是否小于设定的最低阀值，若不小于，则合成新的少数类样本p_i并将该少数类样本p_i添加到数据集中，形成新数据集；若小于，则回到步骤四；

步骤六，判断新数据集的非平衡率是否小于目标值，若小于则回到步骤四，否则得到最终的数据集。

2.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：所述使用聚类算法将样本集划分为特定数目的类簇的方法,包括如下步骤：

步骤(1)：根据公式计算每个数据点的密度指标

式中r_a是一个正数，定义了该点的邻域半径；

步骤(2)：根据公式根据第k次选出的聚类中心，对每个数据点的密度指标进行修正

式中r_b—一个正数，定义了一个密度指标函数减少的领域，选取密度指标最高的数据点x_ck+1作为新的聚类中心；

步骤(3)：根据以下判断条件判断退出条件否成立

若不成立，则转到步骤(2)，式中δ是事先给定的参数，且δ＜1。

3.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：计算步骤二得出的少数类样本集的重心点的方法为：

采用向量和欧氏距离的计算方式得到少数类样本的重心点：

根据公式可以计算出少数类样本的重心点X_g。

4.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：所述构建一个少数类小区域的重心点的方法为：从少数类样本集合X中随机选取两个样本，分别记为X_r1，X_r2，通过三个样本X_g，X_r1，X_r2求取该小区域的重心点X_c，公式如下：

5.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：所述合成新的少数类样本p_i的公式为：

p_i＝X_i+rand(0,1)*(X_c-X_i) (6)

其中，X_i(i＝r₁,r₂)为步骤二中随机选择的两个少数类样本；p_i(i＝r₁,r₂)为合成的新样本；rand(0，1)取值同上为(0，1)之间的一个随机数。

6.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：所述的非平衡率为少数类样本数目占全体样本数目的比例，公式如下：

7.一种基于改进SMOTE算法的非平衡数据集处理系统，其特征在于：包括

类簇划分模块，用于利用聚类算法将样本集划分为特定数目的类簇；

权重技术模块，用于根据类簇中所包含的样本数量计算各类簇所占权重；

样本选择模块，用于通过轮盘赌的方式进行样本的选择；

少数类样本重心点计算模块，用于根据公式计算少数类样本的重心点；

少数类小区域重心点构建模块，用于根据公式计算构建少数类小区域重心点；

少数类样本个数判断模块，用于判断少数类样本的个数是否小于设定的最低阀值，若不小于，则合成新的少数类样本并将该少数类样本添加到数据集中，形成新数据集；

非平衡率判断模块，用于判断新数据集的非平衡率是否小于目标值，若不小于则得到最终的数据集。

8.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统，其特征在于：所述少数类样本重心点计算模块所依据的计算公式为：

9.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统，其特征在于：所述少数类小区域重心点所依据的公式为：

10.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统，其特征在于：所述非平衡率判断模块中非平衡率的计算依据如下公式：