CN104573708A

CN104573708A - 组合降采样极限学习机

Info

Publication number: CN104573708A
Application number: CN201410802451.7A
Authority: CN
Inventors: 闵行; 褚晶辉; 吕卫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2015-04-29

Abstract

本发明涉及一种组合降采样极限学习机，包括：对于一个类数据不平衡的训练样本，首先对其中的多数样本(FP？data)进行随机降采样，根据多数样本和少数样本的比值N，将其分割成N个多数类子样本；将N个多数类子样本分别与少数样本组合成N个训练子集；用得到的N个训练子集训练N个极限学习机，得到N个分类器；将测试样本分别N个分类器，每个分类器得出一个分类结果；每个分类器的投票权重相同，设置一个决策阈值D，将分类结果组合后与决策阈值D相比较，决定最终分类结果。本发明具有较高的分类效率和简便的参数调整方法。

Description

组合降采样极限学习机

所属技术领域

本发明涉及模式识别技术，具体涉及针对不平衡数据集的一种分类器。

背景技术

随着信息智能技术的飞速发展，机器学习技术蓬勃发展，其应用领域方向更加广泛，技术发展更加深入，分类是机器学习和数据挖掘中重要的知识获取手段之一。目前已有许多分类算法如支持向量机(SVM)和神经网络等在各个领域得到了广泛应用。但现有的分类算法通常假定用于训练的数据集是平衡的，即各类所含的样例数大致相等。而绝大多的实际情况并非如此，特别是在医学领域，临床病例中，正例(即患病例)远远少于负例(即正常例)。在以下的论述中，我们将默认少数样本为正样本，多数样本为负样本。在数据不平衡时，分类器会过多的关注多数类，而对少数类的分类灵敏度下降，但少数类的识别率往往是我们所主要关注的。

针对数据不平衡这一实际问题科研人员提出了多种解决方法，根据操作对象可分为两大类，即对样本的重采样法，和集成分类器法。

(1)最常见的样本重采样方法是降采样，通过对多数数据进行降采样，使正负例达到平衡。专利“基于欠抽样面向不平衡数据集的交通事件自动检测方法”(CN103927874A)就在实际交通事件自动检测算法中使用了欠抽样的方法，以得到新的相对平衡的训练集来训练支持向量机。但该方法抛弃了一些负样本，对样本选择的依赖性较强。

(2)另外一种样本重采样方法为过采样法，即通过人工构造少数类样本，是少数类样本与多数类样本数量达到平衡。专利“基于粒子群支持向量机的雷电近邻预测方法”(CN103679263A)在使用支持向量机对雷电临近预测时针对有雷电样本与无雷电样本的不平衡性，就通过对正样本(雷电样本)内部随机插值的过采样方法，使SVM训练样本中的正负样本数量达到平衡。而文献[1]也提出了一种样本过采样法，即SMOTE(Synthetic Minority Over-sampling Technique)：对少数数据过采样，然后使用支持向量机分类方法分类。通过过采样方法得到的样本是通过对已有的少数样本按照一定规则进行内部差值得到的，可能与真实样本的分布情况不符，且过采样增加了处理数据量，学习难度增大，耗时更长。

(3)集成分类器法是一种通过集成多个基分类器共同决策的机器学习技术，文献^[2]提出了一种组合降采样支持向量机EUS-SVM(Ensemble of Under-Sampled SVMs)：将多数数据随机分为N组，每组数据量与少数数据大致相同，每组均与少数数据组合并成一组训练样本，分别送入N个支持向量机(SVM：Support Vector Machine)基分类器中对分类器进行训练。完成训练后，对于每个输入的测试样本，每个分类器都将得出一个分类结果，随后将这N个分类结果组合，并根据一定的判别准则判定样本最终类型。该方法在SVM学习机的基础上，采取了组合降采样结构，降低了单分类器的错误率，提高了分类功能的稳定性和对少数样本的识别能力，但由于有多个SVM并联，耗时量大大增加。

从以上分析可以看出，样本重采样法较难还原样本的真实分布，而集成分类器法由于组合了多个分类器，则需要分类器的分类效率较高，训练消耗较小。EUS-SVM虽然克服了单纯降采样的样本选择依赖性和不稳定性，在不平衡样本上能够取得较好的少数样本检出率，但SVM作为基分类器，其训练耗时较长，参数设置较为复杂，当训练数据量较大，或少数、多数样本比例比较悬殊需要集合多个基分类器时，EUS-SVM需要训练多个SVM分类器，其分类效率则较为堪忧。

通过上述总结我们可以看出，各种改进算法在解决样本不均衡问题的同时还存在一些不足之处。

参考文献：

[1]Nitesh V.Chawla,Kevin W.Bowyer,Lawrence O.Hall,W.Philip Kegelmeyer,SMOTE:Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research 16(2002)321-357.

[2]Pilsung Kang,Sungzoon Cho,Ensemble of Under-Sampled SVMs for Data ImbalanceProblems,International Conference on Neural Information Processing,2006.

发明内容

本发明旨在克服现有技术的上述不足，提供一种针对不平衡类数据集的组合学习机，克服样本重采样的样本依赖性，并具有较高的分类效率和简便的参数调整方法。本发明的技术方案如下：

一种组合降采样极限学习机，包括下面的几个方面：

(1)对于一个类数据不平衡的训练样本，首先对其中的多数样本(FP data)进行随机降采样，根据多数样本和少数样本的比值N，将其分割成N个多数类子样本FP_i(i＝1,...,N)；

(2)将N个多数类子样本分别与少数样本组合成N个训练子集Train_i(i＝1,...,N)；

(3)用(2)得到的N个训练子集训练N个极限学习机，得到N个分类器；

(4)将测试样本分别送入(3)得到的N个分类器，每个分类器得出一个分类结果。

(5)每个分类器的投票权重相同，设置一个决策阈值D，将分类结果组合后与决策阈值D相比较，决定最终分类结果；通过调节决策阈值D，调整分类器对少数样本的关注程度，D越小则对少数样本的关注度越高。

本发明结合了组合降采样支持向量机(EUS-SVM)的组合结构和ELM算法的优点，保证所有样本均为原始真实样本，分类器功能更加稳定，降低了单个分类器的分类偏差，且可以通过对决策阈值D的调节来调整对正样本的关注度。经实验比较，本发明在保证高准确度的情况下拥有耗时短,效率高的绝对优势。

附图说明

图1是EUS-SVM结构图。

图2是EUS-ELM结构图。

具体实施方式

本发明受EUS-SVM方法的启发，继承其组合降采样结构，使用极限学习机ELM(Extreme LearningMachine)替代组合结构中的SVM作为基分类器，提出了一种新的针对不平衡数据集的学习机(EUS-ELM)。

极限学习机(ELM)是一种基于源于BP神经网络的简单学习算法，在训练前只需要设置网络隐层节点个数，算法执行过程中不需要调整网络的输入权值以及隐层单元的偏置，并且产生唯一的最优解，参数选择容易、学习速度快且泛化性能好。使用ELM作为组合分类器中的基分类器，可以大大提升分类效率，而且参数选择更加简便(可参见：M.Heath,K.Bowyer,D.Kopans,The Digital Database for ScreeningMammography,in Proceedings of the Fifth International Workshop on Digital Mammography,212-218,Medical Physics Publishing,2001)。

下面结合附图和实施例对发明作进一步详细的说明。

(1)取得测试和训练数据：数字乳腺X线图像(DDSM:Digital Database for ScreeningMammography)^[1]中取得的疑似肿瘤样本。样本数为1549，其中有401个经医师确诊并标记的肿瘤正样本，正负样本比例约为1：4。对每个样本提取尺寸，形状和纹理信息等共34维特征。随机选取1/4的正样本和负样本作为测试样本，其余3/4作为训练样本。

(2)对多数样本，即负样本(FP data)进行随机降采样，将其分割成4个子样本FP_i(i＝1,...,4)。并将这4个子样本分别与少数样本TP data组合成4个训练集Train_i(i＝1,...,4)。

(3)使用这4个训练样本分别训练4个ELM学习机，其激励函数选择Sigmoidal函数，并在[10,100]范围内以10为步进采用10折交叉验证搜索最佳节点数。

(4)将4个学习机并联，如图2所示，并设定决策阈值D。这里我们认为这四个分类器重要性相同，投票的权重一致。因此，我们设计一种简单的决策阈值方法，设置一个决策值D，对于一个测试样本，第i个学习机投出的结果为Score_i(为正样时记为1，负样时为0)，当时，这个样本被认为是一个正样本，否则为一个负样本。通过调节决策值D，可以调整分类器对少数样本(正样)的关注程度，D越小则对正样的关注度越高。这里，由于正负样本的比例为1:4，并且有4个学习机，D∈[1,2,3,4]。

(5)当四个学习机完成训练后，将测试样本分别送入得到的4个训练器，每个训练器都将得出一个分类结果，根据(4)中的决策方法得出测试样本的最终分类结果。

表1，表2和表3分别列出了直接在不平衡数据集上使用SVM分类，随机降采样SVM分类，SMOTE-SVM分类，EUS-SVM和EUS-ELM在决策值分别为1,2,3,4情况下分类性能的对比结果。我们采用以下几个指标来评判分类效果及分类效率。

耗时＝训练时间+测试时间

表1 直接在不平衡数据集上进行SVM分类，对多数样本随机降采样SVM分类，及SMOTE-SVM在不平衡数据集上的分类效果：

表2 EUS-SVM在不平衡数据集上的分类效果：

表3 EUS-ELM在不平衡数据集上的分类效果：

从表中数据可以看出，在不平衡数据集上直接使用分类器时，分类器会过度关注多数样本，导致对少数样本的敏感性不足；降采样SVM在分类效果上明显优于在不平衡数据集上使用分类器，但其分类效果对降采样时对多数样本的选择依赖性较大，特别是多数和少数样本比例越悬殊时，降采样多数样本引起的不稳定性就越高；SMOTE-SVM少数样本进行了最近4邻域插值，使正样本在数量上与负样本平衡，但从分类表现上来看，SMOTE-SVM的效果相比直接在不平衡样本上使用SVM并没有很大提高，这是由于人为产生的正样本很难与与实际分布情况不符，并不能大幅度提高分类器的性能。因此在使用SMOTE-SVM时，一定要根据样本的分布设计过采样算法，但样本的分布是很难估计的。此外，由于增加了样本，其分类的耗时也大大增加了。

服从组合降采样结构的EUS-SVM和EUS-ELM的分类效果基本相当，当D＝2，3时，分类效果总体高于前几种分类方法。这种结构平衡了分类器对多数和少数样本的关注度，避免了改变样本的空间分布。此外，在实际应用中，不同情况下往往对分类器特性的需求也不同，有时需要分类器各项指标(准确率，灵敏度，特异性)较为均衡。而有时，尤其是在医学应用中，为避免对病灶的漏检，往往需要对阳性样本给予更多关注。本设计通过调节决策值D，可以调节分类器对正样本和负样本的关注度。在使用这两种分类器时，用户可以根据实际要求，调节决策值D，从而获得不同的分类性能。

对比EUS-SVM和EUS-ELM，的该算法的各项指标与EUS-SVM相当，但EUS-ELM的耗时只有约为EUS-SVM的近1/7。由于组合降采样结构需要根据正负样本比例并联不同数量的分类器，当正负样本比例悬殊(正样本远远小于负样本)时，可能需要并联多个分类器，这时分类器的分类效率就十分重要了，这种情况下使用EUS-ELM可以在保证分类效果的同时大大降低耗时,而且参数选择简便，因此EUS-ELM在解决不平衡样本分类上拥有很好的应用前景。

Claims

1.一种组合降采样极限学习机，包括下面的几个方面：

(2)对于一个类数据不平衡的训练样本，首先对其中的多数样本(FP data)进行随机降采样，根据多数样本和少数样本的比值N，将其分割成N个多数类子样本FP_i(i＝1,...,N)；

(3)将N个多数类子样本分别与少数样本组合成N个训练子集Train_i(i＝1,...,N)；

(4)用(2)得到的N个训练子集训练N个极限学习机，得到N个分类器；

(5)将测试样本分别送入(3)得到的N个分类器，每个分类器得出一个分类结果。

(6)每个分类器的投票权重相同，设置一个决策阈值D，将分类结果组合后与决策阈值D相比较，决定最终分类结果；通过调节决策阈值D，调整分类器对少数样本的关注程度，D越小则对少数样本的关注度越高。