CN104573708A - 组合降采样极限学习机 - Google Patents

组合降采样极限学习机 Download PDF

Info

Publication number
CN104573708A
CN104573708A CN201410802451.7A CN201410802451A CN104573708A CN 104573708 A CN104573708 A CN 104573708A CN 201410802451 A CN201410802451 A CN 201410802451A CN 104573708 A CN104573708 A CN 104573708A
Authority
CN
China
Prior art keywords
sample
sorter
training
sampled
extreme learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410802451.7A
Other languages
English (en)
Inventor
闵行
褚晶辉
吕卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410802451.7A priority Critical patent/CN104573708A/zh
Publication of CN104573708A publication Critical patent/CN104573708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明涉及一种组合降采样极限学习机,包括:对于一个类数据不平衡的训练样本,首先对其中的多数样本(FP?data)进行随机降采样,根据多数样本和少数样本的比值N,将其分割成N个多数类子样本;将N个多数类子样本分别与少数样本组合成N个训练子集;用得到的N个训练子集训练N个极限学习机,得到N个分类器;将测试样本分别N个分类器,每个分类器得出一个分类结果;每个分类器的投票权重相同,设置一个决策阈值D,将分类结果组合后与决策阈值D相比较,决定最终分类结果。本发明具有较高的分类效率和简便的参数调整方法。

Description

组合降采样极限学习机
所属技术领域
本发明涉及模式识别技术,具体涉及针对不平衡数据集的一种分类器。
背景技术
随着信息智能技术的飞速发展,机器学习技术蓬勃发展,其应用领域方向更加广泛,技术发展更加深入,分类是机器学习和数据挖掘中重要的知识获取手段之一。目前已有许多分类算法如支持向量机(SVM)和神经网络等在各个领域得到了广泛应用。但现有的分类算法通常假定用于训练的数据集是平衡的,即各类所含的样例数大致相等。而绝大多的实际情况并非如此,特别是在医学领域,临床病例中,正例(即患病例)远远少于负例(即正常例)。在以下的论述中,我们将默认少数样本为正样本,多数样本为负样本。在数据不平衡时,分类器会过多的关注多数类,而对少数类的分类灵敏度下降,但少数类的识别率往往是我们所主要关注的。
针对数据不平衡这一实际问题科研人员提出了多种解决方法,根据操作对象可分为两大类,即对样本的重采样法,和集成分类器法。
(1)最常见的样本重采样方法是降采样,通过对多数数据进行降采样,使正负例达到平衡。专利“基于欠抽样面向不平衡数据集的交通事件自动检测方法”(CN103927874A)就在实际交通事件自动检测算法中使用了欠抽样的方法,以得到新的相对平衡的训练集来训练支持向量机。但该方法抛弃了一些负样本,对样本选择的依赖性较强。
(2)另外一种样本重采样方法为过采样法,即通过人工构造少数类样本,是少数类样本与多数类样本数量达到平衡。专利“基于粒子群支持向量机的雷电近邻预测方法”(CN103679263A)在使用支持向量机对雷电临近预测时针对有雷电样本与无雷电样本的不平衡性,就通过对正样本(雷电样本)内部随机插值的过采样方法,使SVM训练样本中的正负样本数量达到平衡。而文献[1]也提出了一种样本过采样法,即SMOTE(Synthetic Minority Over-sampling Technique):对少数数据过采样,然后使用支持向量机分类方法分类。通过过采样方法得到的样本是通过对已有的少数样本按照一定规则进行内部差值得到的,可能与真实样本的分布情况不符,且过采样增加了处理数据量,学习难度增大,耗时更长。
(3)集成分类器法是一种通过集成多个基分类器共同决策的机器学习技术,文献[2]提出了一种组合降采样支持向量机EUS-SVM(Ensemble of Under-Sampled SVMs):将多数数据随机分为N组,每组数据量与少数数据大致相同,每组均与少数数据组合并成一组训练样本,分别送入N个支持向量机(SVM:Support Vector Machine)基分类器中对分类器进行训练。完成训练后,对于每个输入的测试样本,每个分类器都将得出一个分类结果,随后将这N个分类结果组合,并根据一定的判别准则判定样本最终类型。该方法在SVM学习机的基础上,采取了组合降采样结构,降低了单分类器的错误率,提高了分类功能的稳定性和对少数样本的识别能力,但由于有多个SVM并联,耗时量大大增加。
从以上分析可以看出,样本重采样法较难还原样本的真实分布,而集成分类器法由于组合了多个分类器,则需要分类器的分类效率较高,训练消耗较小。EUS-SVM虽然克服了单纯降采样的样本选择依赖性和不稳定性,在不平衡样本上能够取得较好的少数样本检出率,但SVM作为基分类器,其训练耗时较长,参数设置较为复杂,当训练数据量较大,或少数、多数样本比例比较悬殊需要集合多个基分类器时,EUS-SVM需要训练多个SVM分类器,其分类效率则较为堪忧。
通过上述总结我们可以看出,各种改进算法在解决样本不均衡问题的同时还存在一些不足之处。
参考文献:
[1]Nitesh V.Chawla,Kevin W.Bowyer,Lawrence O.Hall,W.Philip Kegelmeyer,SMOTE:Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research 16(2002)321-357.
[2]Pilsung Kang,Sungzoon Cho,Ensemble of Under-Sampled SVMs for Data ImbalanceProblems,International Conference on Neural Information Processing,2006.
发明内容
本发明旨在克服现有技术的上述不足,提供一种针对不平衡类数据集的组合学习机,克服样本重采样的样本依赖性,并具有较高的分类效率和简便的参数调整方法。本发明的技术方案如下:
一种组合降采样极限学习机,包括下面的几个方面:
(1)对于一个类数据不平衡的训练样本,首先对其中的多数样本(FP data)进行随机降采样,根据多数样本和少数样本的比值N,将其分割成N个多数类子样本FPi(i=1,...,N);
(2)将N个多数类子样本分别与少数样本组合成N个训练子集Traini(i=1,...,N);
(3)用(2)得到的N个训练子集训练N个极限学习机,得到N个分类器;
(4)将测试样本分别送入(3)得到的N个分类器,每个分类器得出一个分类结果。
(5)每个分类器的投票权重相同,设置一个决策阈值D,将分类结果组合后与决策阈值D相比较,决定最终分类结果;通过调节决策阈值D,调整分类器对少数样本的关注程度,D越小则对少数样本的关注度越高。
本发明结合了组合降采样支持向量机(EUS-SVM)的组合结构和ELM算法的优点,保证所有样本均为原始真实样本,分类器功能更加稳定,降低了单个分类器的分类偏差,且可以通过对决策阈值D的调节来调整对正样本的关注度。经实验比较,本发明在保证高准确度的情况下拥有耗时短,效率高的绝对优势。
附图说明
图1是EUS-SVM结构图。
图2是EUS-ELM结构图。
具体实施方式
本发明受EUS-SVM方法的启发,继承其组合降采样结构,使用极限学习机ELM(Extreme LearningMachine)替代组合结构中的SVM作为基分类器,提出了一种新的针对不平衡数据集的学习机(EUS-ELM)。
极限学习机(ELM)是一种基于源于BP神经网络的简单学习算法,在训练前只需要设置网络隐层节点个数,算法执行过程中不需要调整网络的输入权值以及隐层单元的偏置,并且产生唯一的最优解,参数选择容易、学习速度快且泛化性能好。使用ELM作为组合分类器中的基分类器,可以大大提升分类效率,而且参数选择更加简便(可参见:M.Heath,K.Bowyer,D.Kopans,The Digital Database for ScreeningMammography,in Proceedings of the Fifth International Workshop on Digital Mammography,212-218,Medical Physics Publishing,2001)。
下面结合附图和实施例对发明作进一步详细的说明。
(1)取得测试和训练数据:数字乳腺X线图像(DDSM:Digital Database for ScreeningMammography)[1]中取得的疑似肿瘤样本。样本数为1549,其中有401个经医师确诊并标记的肿瘤正样本,正负样本比例约为1:4。对每个样本提取尺寸,形状和纹理信息等共34维特征。随机选取1/4的正样本和负样本作为测试样本,其余3/4作为训练样本。
(2)对多数样本,即负样本(FP data)进行随机降采样,将其分割成4个子样本FPi(i=1,...,4)。并将这4个子样本分别与少数样本TP data组合成4个训练集Traini(i=1,...,4)。
(3)使用这4个训练样本分别训练4个ELM学习机,其激励函数选择Sigmoidal函数,并在[10,100]范围内以10为步进采用10折交叉验证搜索最佳节点数。
(4)将4个学习机并联,如图2所示,并设定决策阈值D。这里我们认为这四个分类器重要性相同,投票的权重一致。因此,我们设计一种简单的决策阈值方法,设置一个决策值D,对于一个测试样本,第i个学习机投出的结果为Scorei(为正样时记为1,负样时为0),当时,这个样本被认为是一个正样本,否则为一个负样本。通过调节决策值D,可以调整分类器对少数样本(正样)的关注程度,D越小则对正样的关注度越高。这里,由于正负样本的比例为1:4,并且有4个学习机,D∈[1,2,3,4]。
(5)当四个学习机完成训练后,将测试样本分别送入得到的4个训练器,每个训练器都将得出一个分类结果,根据(4)中的决策方法得出测试样本的最终分类结果。
表1,表2和表3分别列出了直接在不平衡数据集上使用SVM分类,随机降采样SVM分类,SMOTE-SVM分类,EUS-SVM和EUS-ELM在决策值分别为1,2,3,4情况下分类性能的对比结果。我们采用以下几个指标来评判分类效果及分类效率。
耗时=训练时间+测试时间
表1 直接在不平衡数据集上进行SVM分类,对多数样本随机降采样SVM分类,及SMOTE-SVM在不平衡数据集上的分类效果:
表2 EUS-SVM在不平衡数据集上的分类效果:
表3 EUS-ELM在不平衡数据集上的分类效果:
从表中数据可以看出,在不平衡数据集上直接使用分类器时,分类器会过度关注多数样本,导致对少数样本的敏感性不足;降采样SVM在分类效果上明显优于在不平衡数据集上使用分类器,但其分类效果对降采样时对多数样本的选择依赖性较大,特别是多数和少数样本比例越悬殊时,降采样多数样本引起的不稳定性就越高;SMOTE-SVM少数样本进行了最近4邻域插值,使正样本在数量上与负样本平衡,但从分类表现上来看,SMOTE-SVM的效果相比直接在不平衡样本上使用SVM并没有很大提高,这是由于人为产生的正样本很难与与实际分布情况不符,并不能大幅度提高分类器的性能。因此在使用SMOTE-SVM时,一定要根据样本的分布设计过采样算法,但样本的分布是很难估计的。此外,由于增加了样本,其分类的耗时也大大增加了。
服从组合降采样结构的EUS-SVM和EUS-ELM的分类效果基本相当,当D=2,3时,分类效果总体高于前几种分类方法。这种结构平衡了分类器对多数和少数样本的关注度,避免了改变样本的空间分布。此外,在实际应用中,不同情况下往往对分类器特性的需求也不同,有时需要分类器各项指标(准确率,灵敏度,特异性)较为均衡。而有时,尤其是在医学应用中,为避免对病灶的漏检,往往需要对阳性样本给予更多关注。本设计通过调节决策值D,可以调节分类器对正样本和负样本的关注度。在使用这两种分类器时,用户可以根据实际要求,调节决策值D,从而获得不同的分类性能。
对比EUS-SVM和EUS-ELM,的该算法的各项指标与EUS-SVM相当,但EUS-ELM的耗时只有约为EUS-SVM的近1/7。由于组合降采样结构需要根据正负样本比例并联不同数量的分类器,当正负样本比例悬殊(正样本远远小于负样本)时,可能需要并联多个分类器,这时分类器的分类效率就十分重要了,这种情况下使用EUS-ELM可以在保证分类效果的同时大大降低耗时,而且参数选择简便,因此EUS-ELM在解决不平衡样本分类上拥有很好的应用前景。

Claims (1)

1.一种组合降采样极限学习机,包括下面的几个方面:
(2)对于一个类数据不平衡的训练样本,首先对其中的多数样本(FP data)进行随机降采样,根据多数样本和少数样本的比值N,将其分割成N个多数类子样本FPi(i=1,...,N);
(3)将N个多数类子样本分别与少数样本组合成N个训练子集Traini(i=1,...,N);
(4)用(2)得到的N个训练子集训练N个极限学习机,得到N个分类器;
(5)将测试样本分别送入(3)得到的N个分类器,每个分类器得出一个分类结果。
(6)每个分类器的投票权重相同,设置一个决策阈值D,将分类结果组合后与决策阈值D相比较,决定最终分类结果;通过调节决策阈值D,调整分类器对少数样本的关注程度,D越小则对少数样本的关注度越高。
CN201410802451.7A 2014-12-19 2014-12-19 组合降采样极限学习机 Pending CN104573708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410802451.7A CN104573708A (zh) 2014-12-19 2014-12-19 组合降采样极限学习机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410802451.7A CN104573708A (zh) 2014-12-19 2014-12-19 组合降采样极限学习机

Publications (1)

Publication Number Publication Date
CN104573708A true CN104573708A (zh) 2015-04-29

Family

ID=53089728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410802451.7A Pending CN104573708A (zh) 2014-12-19 2014-12-19 组合降采样极限学习机

Country Status (1)

Country Link
CN (1) CN104573708A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184107A (zh) * 2015-10-20 2015-12-23 沈阳国际旅行卫生保健中心 一种人体循环系统健康风险预警系统
CN105232054A (zh) * 2015-10-20 2016-01-13 沈阳国际旅行卫生保健中心 一种人体内分泌系统健康风险预警系统
CN105303041A (zh) * 2015-10-20 2016-02-03 沈阳国际旅行卫生保健中心 一种人体消化系统健康风险预警系统
CN105975611A (zh) * 2016-05-18 2016-09-28 天津大学 自适应组合降采样增强学习机
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106228197A (zh) * 2016-08-15 2016-12-14 南京信息工程大学 一种基于自适应极限学习机的卫星图像云量识别方法
CN108229507A (zh) * 2016-12-14 2018-06-29 中国电信股份有限公司 数据分类方法以及装置
CN108256583A (zh) * 2018-01-25 2018-07-06 北京东方科诺科技发展有限公司 一种基于匹配学习的多标签分类学习方法
CN108563556A (zh) * 2018-01-10 2018-09-21 江苏工程职业技术学院 基于差分演化算法的软件缺陷预测优化方法
CN109492516A (zh) * 2018-09-01 2019-03-19 哈尔滨工程大学 一种基于dgru神经网络的uuv集群行为识别方法
CN109614967A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN110276411A (zh) * 2019-06-28 2019-09-24 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN113271849A (zh) * 2018-11-29 2021-08-17 私募蛋白质体公司 结合类别不平衡集降采样与生存分析的疾病风险确定方法
US11126642B2 (en) 2019-07-29 2021-09-21 Hcl Technologies Limited System and method for generating synthetic data for minority classes in a large dataset

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080301069A1 (en) * 2007-05-30 2008-12-04 Keke Chen System and method for learning balanced relevance functions from expert and user judgments
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080301069A1 (en) * 2007-05-30 2008-12-04 Keke Chen System and method for learning balanced relevance functions from expert and user judgments
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PILSUNG KANG AND SUNGZOON CHO,KING ET AL.: "EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems", 《(EDS.): ICONIP 2006, PART I, LNCS 4232》 *
蔡磊、程国建、潘华贤: "极限学习机在岩性识别中的应用", 《计算机工程与设计》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184107A (zh) * 2015-10-20 2015-12-23 沈阳国际旅行卫生保健中心 一种人体循环系统健康风险预警系统
CN105232054A (zh) * 2015-10-20 2016-01-13 沈阳国际旅行卫生保健中心 一种人体内分泌系统健康风险预警系统
CN105303041A (zh) * 2015-10-20 2016-02-03 沈阳国际旅行卫生保健中心 一种人体消化系统健康风险预警系统
CN105975611A (zh) * 2016-05-18 2016-09-28 天津大学 自适应组合降采样增强学习机
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106228197A (zh) * 2016-08-15 2016-12-14 南京信息工程大学 一种基于自适应极限学习机的卫星图像云量识别方法
CN108229507A (zh) * 2016-12-14 2018-06-29 中国电信股份有限公司 数据分类方法以及装置
CN108563556A (zh) * 2018-01-10 2018-09-21 江苏工程职业技术学院 基于差分演化算法的软件缺陷预测优化方法
CN108256583A (zh) * 2018-01-25 2018-07-06 北京东方科诺科技发展有限公司 一种基于匹配学习的多标签分类学习方法
CN109492516A (zh) * 2018-09-01 2019-03-19 哈尔滨工程大学 一种基于dgru神经网络的uuv集群行为识别方法
CN109614967A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN109614967B (zh) * 2018-10-10 2020-07-17 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN113271849A (zh) * 2018-11-29 2021-08-17 私募蛋白质体公司 结合类别不平衡集降采样与生存分析的疾病风险确定方法
CN110276411A (zh) * 2019-06-28 2019-09-24 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
CN110276411B (zh) * 2019-06-28 2022-11-18 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
US11126642B2 (en) 2019-07-29 2021-09-21 Hcl Technologies Limited System and method for generating synthetic data for minority classes in a large dataset
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112560900B (zh) * 2020-09-08 2023-01-20 同济大学 一种面向样本不均衡的多疾病分类器设计方法

Similar Documents

Publication Publication Date Title
CN104573708A (zh) 组合降采样极限学习机
Lee et al. Cfa: Coupled-hypersphere-based feature adaptation for target-oriented anomaly localization
Zhang et al. Empowering one-vs-one decomposition with ensemble learning for multi-class imbalanced data
Dong et al. A new over-sampling approach: random-SMOTE for learning from imbalanced data sets
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN106096727A (zh) 一种基于机器学习的网络模型构造方法及装置
CN105354578B (zh) 一种多目标物体图像匹配方法
CN104598586B (zh) 大规模文本分类的方法
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN101853389A (zh) 多类目标的检测装置及检测方法
CN105005789B (zh) 一种基于视觉词汇的遥感图像地物分类方法
CN108460421A (zh) 不平衡数据的分类方法
CN107832412B (zh) 一种基于文献引用关系的刊物聚类方法
CN108268526A (zh) 一种数据分类方法和装置
CN102495901B (zh) 通过局部均值保持实现类数据平衡的方法
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN101980251A (zh) 二叉树多类支持向量机遥感分类方法
CN108573274A (zh) 一种基于数据稳定性的选择性聚类集成方法
CN107273916A (zh) 隐写算法未知的信息隐藏检测方法
CN109784496A (zh) 一种面向不平衡数据集的分类方法
CN106599924A (zh) 一种基于三支决策的分类器构建方法
Wang et al. Soft focal loss: Evaluating sample quality for dense object detection
CN104463207A (zh) 知识自编码网络及其极化sar影像地物分类方法
Cao et al. Imbalanced data classification using improved clustering algorithm and under-sampling method
Banu et al. A study of feature selection approaches for classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150429

WD01 Invention patent application deemed withdrawn after publication