CN108764366A

CN108764366A - 针对非均衡数据的特征选择和聚类抽样集成二分类方法

Info

Publication number: CN108764366A
Application number: CN201810578185.2A
Authority: CN
Inventors: 杜庆波; 阴法明
Original assignee: Nanjing College of Information Technology
Current assignee: Nanjing College of Information Technology
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2018-11-06

Abstract

本发明提供的针对非均衡数据的特征选择和聚类抽样集成二分类方法，步骤包括：将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除，得到训练集D；基于改进的RELIEF‑F方法实现特征选择，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}；对训练集D中的数据进行聚类，将训练集D分成K个簇；构建均衡的训练数据集，得到K个均衡的子训练集D₁,...,D_K；对D₁,...,D_K分别训练K个基分类器，完成训练过程；在新数据到来后，分别通过K个训练好的基分类器得到识别结果，再通过投票法，用少数服从多数的原则，来确定测试样本的类别。该针对非均衡数据的特征选择和聚类抽样集成二分类方法可以有效地提升非均衡数据集的分类准确性。

Description

针对非均衡数据的特征选择和聚类抽样集成二分类方法

技术领域

本发明属于非均衡数据分类技术领域，尤其是一种针对非均衡数据的特征选择和聚类抽样集成二分类方法。

背景技术

分类问题作为机器学习领域重要的研究课题之一而受到广泛的关注，传统的分类方法都是用来处理均衡数据的分类问题，然而在实际生活中，数据往往是非均衡的，例如医学诊断、文本分类、网络入侵、故障检测等等。当传统方法用来处理非均衡数据时，数据的非均衡分布特性不符合传统方法的要求并且会影响方法的泛化能力，因此，对非均衡数据分类研究已成为数据挖掘领域的热点和难点问题。

目前，对于非均衡数据分类的研究大致可分为两个层面：数据层面和方法层面。数据层面的方法主要是通过改变非均衡数据的分布，使之变成均衡分布，常用的方法包括少数类的过采样方法、多数类的欠采样以及过采样和欠采样的集合方法等等。方法层面的方法主要通过对传统方法的改进，使其能够适用于非均衡数据，常用的方法包括代价敏感学习方法、单类学习方法、集成方法以及特征选择方法等。

现有的基于聚类抽样的集成方法中，通常先经过K-Means方法先对训练数据进行聚类，然后按照一定的规则从各个数据簇中抽取相同数量的多数类和少数类样本，共同组成均衡的子训练集用于训练弱分类器，最终构成一个强分类器。但是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响，因而导致非均衡数据的分类效果不是很理想。

发明内容

本发明要解决的技术问题是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响，导致非均衡数据的分类效果不是很理想。

为了解决上述技术问题，本发明提供了一种针对非均衡数据的特征选择和聚类抽样集成二分类方法，包括如下步骤：

步骤1，将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除，得到训练集D；

步骤2，基于改进的RELIEF-F方法实现特征选择，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}；

步骤3，对训练集D中的数据进行聚类，从而将训练集D分成K个簇；

步骤4，构建均衡的训练数据集，得到K个均衡的子训练集D₁,...,D_K；

步骤5，对D₁,...,D_K分别训练K个基分类器，完成训练过程；

步骤6，在新数据到来后，分别通过K个训练好的基分类器得到识别结果，再通过投票法，用少数服从多数的原则，来确定测试样本的类别。

进一步地，步骤2中，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}的具体步骤为：

步骤2.1，初始化特征权重，随机选择训练集D中的一个样本x_i，分别选取该样本的V个最近邻同类样本和异类样本，按照下式计算特征权重：

式中，w(j)表示第j个特征的权重，x_i(j)表示样本i第j维特征的数值，d(x_i(j),NM_i(j))表示两个样本关于j维特征的距离，M表示样本随机抽取的次数，k是预先给定的近邻数，class(x_i(j))表示样本x_i的类别，c表示类别，p(c)表示类别c的先验概率；

步骤2.2，重复步骤2.1，遍历子训练集D中的所有样本，更新特征权重，从而得到特征权重集合W＝{w(1),...,w(j),...,w(J)}。

进一步地，步骤3中，将训练集D分成K个簇的具体步骤为：

步骤3.1，将训练集D作为一个簇，使用二分K均值方法将该簇一分为二，然后根据下式计算误差平方和E：

上式中，E是数据库中样本的平方误差的总和，clu_k表示簇k，x_i是数据样本，x_i∈clu_k表示x_i在簇k中，e_k是簇k的中心，dist(.)为基于欧式距离和特征权重的相似度，其定义为：

其中，w(j)为步骤2得到的第j个特征的权重，e_k(j)表示簇k中心的第j维特征的数值；

步骤3.2，分别计算两个簇的总误差平方和E，对总误差平方和E较小的那个簇进行划分，以此类推，直到簇的个数达到K，从而将训练集D分成K个簇。

进一步地，步骤4中，得到K个均衡的子训练集D₁,...,D_K的具体步骤为：

步骤4.1，从训练数据集D中选取全部的少数类样本；

步骤4.2，依次计算各个簇中多数类样本与少数类样本的比值，用P_k表示第k个簇中多数类与少数类样本数量的比值，对于每个簇，按照下式计算各个簇中抽取的多数类样本的数量，

式中，S_k表示第k个簇中应该抽取的多数类样本的数量，S表示数据集D中的全部多数类样本数量；

步骤4.3，从当前簇k中所抽出相应数量的多数类样本与全部的少数类样本构成均衡的训练数据集D_k；

步骤4.4，重复步骤4.3对簇进行遍历，从而构成K个均衡的子训练集D₁,...,D_K。

进一步地，步骤5中，基分类器为朴素贝叶斯、支持向量机或随机森林。

本发明的有益效果在于：

(1)本发明很好地解决了RELIEF-F方法偏向多数类样本的问题，不仅可以保证数据的多样性、均衡性以及完整性，还能更加充分体现少数类样本的特性。

(2)本发明将数据的特征权重和聚类方法相结合，在计算样本相似度的时候考虑特征属性的权重，使得聚类的样本簇更加合理。

(3)本发明提出的基于特征选择和聚类抽样的集成方法，通过基于聚类抽样的方法按照一定的比例从各个簇中抽取多数类样本来改进训练数据集的非均衡性，使得训练数据集基本保持均衡。

附图说明

图1为本发明的基于特征选择和聚类抽样的集成方法的流程图。

图2为三种不同的基分类器在数据集上的AUC值对比。

具体实施方式

如图1所示，本发明公开的针对非均衡数据的特征选择和聚类抽样集成二分类方法，包括如下步骤：

步骤2，基于改进的RELIEF-F方法实现特征选择，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}，具体步骤为：

步骤2.1，初始化特征权重，随机选择训练集D中的一个样本，分别选取该样本的V个最近邻同类样本和异类样本，按照下式计算特征权重：

式中，w(j)表示第j个特征的权重，x_i(j)表示样本第j维特征的数值，d(x_i(j),NM_i(j))表示两个样本关于j维特征的距离，M表示样本随机抽取的次数，k是预先给定的近邻数，class(x_i(j))表示样本x_i的类别，c表示类别，p(c)表示类别c的先验概率，这里取0.5；

步骤2.2，重复步骤2.1，遍历子训练集D中的所有样本，更新特征权重，从而得到特征权重集合W＝{w(1),...,w(j),...,w(J)}；

步骤3，对训练集D中的数据进行聚类，从而将训练集D分成K个簇，具体步骤为：

步骤3.2，分别计算两个簇的总误差平方和E，对总误差平方和E较小的那个簇进行划分，以此类推，直到簇的个数达到K，从而将训练集D分成K个簇；

步骤4，构建均衡的训练数据集，得到K个均衡的子训练集D₁,...,D_K，具体步骤为：

步骤4.1，从训练数据集D中选取全部的少数类样本；

步骤4.4，重复步骤4.3对簇进行遍历，从而构成K个均衡的子训练集D₁,...,D_K；

步骤5，对D₁,...,D_K分别训练K个基分类器，完成训练过程，基分类器为朴素贝叶斯、支持向量机或随机森林；

实验例：

将采用本发明所提出的针对非均衡数据的特征选择和聚类抽样集成二分类方法与传统的SMOTE方法进行对比，在本实验中，设定Relief‐F方法中近邻的个数为3，即k＝3，同时基分类器的个数为各训练集中多数类样本与少数类样本的数量之比，基分类器分别为朴素贝叶斯、SVM和随机森林，数据依然为来自KEEL数据中心的15个实验标准数据集，实验采用5折交叉检验，本实验使用AUC值作为评价指标。

表1

表1为基分类器是朴素贝叶斯时传统方法和本发明方法在各个数据集上的AUC值比较。在15个标准数据集中，有13个数据集上表现良好，其中在数据集glass06vs5上，方法的表现最好，改进前与改进后方法的AUC值都为1。在数据集ecolio146vs5上，方法改进后比改进前的性能提升最大，改进前的AUC值为0.4902，改进后的AUC值为0.7402，提升了0.25。但是改进后的方法在数据集ecoli3和ecoli0346vs5上表现不好，性能出现了稍微的下降。方法在所有数据集的结果表明，改进后的方法的性能优于改进前的方法，AUC值平均提高了约9.47％。

表2

表2为基分类器是支持向量机(SVM)时传统方法和本发明方法在各个数据集上的AUC值比较。从图中可以看出，以SVM为基分类器的方法在各个数据集上表现良好，其中在数据集glass06vs5上方法的表现最好。在数据集YEAST1289VS7上，方法改进后比改进前的性能提升最大，改进前的AUC值为0.5409，改进后的AUC值为0.6557，提升了0.1148。但是改进后的方法在3个数据集上表现不好，性能出现了稍微的下降。

表3

表3为基分类器是随机森林时传统方法和本发明方法在各个数据集上的AUC值比较。从上图可以看出，以随机森林为基分类器的方法的实验对比结果，其中在数据集glass06vs5上改进后的方法表现最佳，在11个数据集上改进后的方法性能有了明显的提升。从AUC均值来看，从改进前的0.8063提升到0.8279，提升了2.68％。

以上分别以朴素贝叶斯、SVM和随机森林为基分类器进行了实验，而后使用三个不同的基分类器进行对比实验，对比结果如图2所示，从图中可以清楚的看出，基于特征选择和聚类抽样的集成算法在数据集上ecoli046vs5和glass06vs5上表现都很好，对于数据集ecoli01vs5、ecoli3、pageblock13vs4、yeast1vs7、YEAST2VS8来说，以随机森林为基分类器的改进算法的性能明显优于其他两种基分类器，而在数据集ecolio146vs5、ecolio234vs5和YEAST1289VS7上，以SVM为基分类器的算法的性能较好。

Claims

1.针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，包括如下步骤：

步骤5，对D₁,...,D_K分别训练K个基分类器，完成训练过程；

2.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，步骤2中，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}的具体步骤为：

式中，w(j)表示第j个特征的权重，x_i(j)表示样本第j维特征的数值，d(x_i(j),NM_i(j))表示两个样本关于j维特征的距离，M表示样本随机抽取的次数，k是预先给定的近邻数，class(x_i(j))表示样本x_i的类别，c表示类别，p(c)表示类别c的先验概率；

3.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，步骤3中，将训练集D分成K个簇的具体步骤为：

4.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，步骤4中，得到K个均衡的子训练集D₁,...,D_K的具体步骤为：

步骤4.1，从训练数据集D中选取全部的少数类样本；

5.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，步骤5中，基分类器为朴素贝叶斯、支持向量机或随机森林。