CN103631753A - 递减子空间集成学习算法 - Google Patents

递减子空间集成学习算法 Download PDF

Info

Publication number
CN103631753A
CN103631753A CN201310654010.2A CN201310654010A CN103631753A CN 103631753 A CN103631753 A CN 103631753A CN 201310654010 A CN201310654010 A CN 201310654010A CN 103631753 A CN103631753 A CN 103631753A
Authority
CN
China
Prior art keywords
sample
confidence
sorter
degree
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310654010.2A
Other languages
English (en)
Inventor
陈科
周羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Polytechnic University
Original Assignee
Tianjin Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Polytechnic University filed Critical Tianjin Polytechnic University
Priority to CN201310654010.2A priority Critical patent/CN103631753A/zh
Publication of CN103631753A publication Critical patent/CN103631753A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种新的不断以子样本集进行进程学习的算法,属于数据挖掘领域。本发明是借鉴boosting算法思想产生的递减子空间集成学习算法。在一次分类过程中,本发明通过对原始数据进行筛选,使下一层分类器更好的排除一些不必要的训练数据特征,并将关键放在关键的训练数据上面从而获得较高的分类精度。本发明重点是解决现在提高单个分类器准确率的问题。

Description

递减子空间集成学习算法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种新的基于boosting的递减子空间集成学习算法。 
背景技术
集成学习是使用一系列基分类器进行学习,并使用某种规则将基分类器的学习结果进行整合从而获得比单个分类器更优的学习效果的一种机器学习方法。由于能够显著提高学习系统的泛化性能,集成学习已成为模式识别和机器学习领域的研究热点。常用的集成学习方法包括AdaBoost、Bagging、CVParameterSelection、RandomSubSpace、Rotation Forest等。在这些方法中,Bagging与RandomSubSpace通过调整训练空间的样本来生成基分类器。Rotation Forest则对特征空间进行操作,通过对特征空间的随机划分与特征提取来生成基分类器。CVParameterSelection通过对参数的调整获得多样化的基分类器;而Adaboost以其简单、适应性强成为目前最为流行的一种集成学习方法。AdaBoost(Adaptive Boosting)是对boosting算法的改进,它的核心思想是降低被准确分类的样本出现在下一轮迭代时训练集中的概率(权重)和提高错误分类的样本出现在训练集中的概率(权重)。通过这个思想,AdaBoost有效的实现了将识别率不高的弱分类器组合为识别率较高的强分类器。 
本文将借鉴Bagging与RandomSubSpace的思想,通过对训练样本空间的调整来生成一系列基分类器。而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence)。置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握。通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集,我们把该方法称为递减子空间集成学习方法。由于我们的方法借鉴了Bagging与AdaBoost的思想,我们先它们做简要的回顾。 
Bagging算法:给定一个弱分类器C和一个训练集D,Bagging通过对D中样本的选取来生成多样化的模型。具体操作如下:从D中可重复随机选取若干样本构成训练集,训练集的规模通常与D的规模相当,这种选取方式使得某些样本可以在新的训练集中出现多次,而另一些样本则可能不出现;在新构造的训练集上训练分类器C,得到分类模型。重复上述操作n次,则可以得到n个不同的分类模型。最终采用投票规则对n模型的预测结果进行综合。Bagging方法通过重新选取训练集增加了弱分类器集成的差异度,从而提高了泛化能力。 
Adaboost算法:AdaBoost方法是一种迭代方法,在每一轮迭代中加入一个新的弱分类器,直到达到某个预定的终止条件。在每次迭代中,每个训练样本都被赋予一个权重,表明它在训练集中分布的相对比例。如果某个样本已经被准确地分类,那么在构造下一个分类器时(即下一次迭代),它的权值被降低;相反,如果某个样本未能被准确分类,它的权重就相应提高。这种方式使得AdaBoost方法能“聚焦于”那些较难被分类的样本上。 
用 W k (i) 表示第k次迭代时样本i的权重,x i 和 y i 分别表示第i个样本的特征与类标签,则AdaBoost的算法描述如下: 
1.     初始化W k (i)=1/ni=1,...,n
2.     k ← 0
3.     do  k ← k+1
4.     训练使用按照 W k (i) 采样的弱学习器 C k
5.     E k  ←测量的 C k  的训练误差
6.     
Figure 103003DEST_PATH_IMAGE001
7.     
Figure 828514DEST_PATH_IMAGE002
8.     until  k=k max
9.     return  C k α k k=1,...,k max (带权值的分类器)
10.  end
其中Z k 为归一化参数,C k α k 为每次迭代得到的模型和相应的权值。
发明内容
本发明公开了一种递减子空间集成学习算法,所述算法的输入包括训练集D train ,测试集D test ,校验集D valid ,输出包括一列分类器C 0 , C 1 ,…,C k’ 以及相应的置信度阈值l 0 , l 1 ,…,l k 其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述算法流程为: 
(1)       把D train 作为D 0 输入;
(2)             把0赋值给k ;
(3)             循环开始,把k+1赋值给k
(4)             在 D k 上训练,得到分类器 C k
(5)             用C k 测试D k 中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T 1T 2,…, T m 的概率分别为p 1, p 2,…, p m , 则分类器C对样本s预测的置信度定义为p 1, p 2,…, p m 的最大值。设置最低的置信度水平l k ,把置信度水平高于l k 的样本从D k 中删除,得到D k+1
(6)             满足D k 中样本的个数Sizeof(D k )<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数,而λ为常数;
(7)             把迭代的次数赋值给n;
(8)             循环开始,k从0 到 n
(9)                计算使用分类器组C 0 , C 1 ,…,C k D valid 上的错误率E k ,对于检验集或测试集中的样本,依次使用C 0 , C 1 ,…,C k 进行预测,若存在某个C i 预测的置信度高于l i ,则C i 的预测被采用,其后的分类器不需再使用;若不存在任何C i 预测的置信度高于l i ,则该样本采用C k 的预测。
(10)            保存最低的错误率’与k’
(11)            返回 k’, C 0 , C 1 ,…,C k’ 以及l 0 , l 1 ,…,l k’
(12) 算法结束。
将(C n ,D train ,D test ,D valid 置信度,l k ,终止条件,预测样本的筛选)公开,其中: 
1)        C n  表示第n次迭代中学习得到的分类器;
2)        D train 表示训练集;
3)        D test 表示测试集;
4)        D valid 表示校验集;
5)        l k 按如下方式计算:我们设定比例a%(0<a<100),把D k 中样本的置信度降序排列,D k 可以按比例a%分割为两部分,其一是置信度较高的a%样本,其二是置信度较低的1- a%样本,分割两部分样本的阈值即设置为l k
K-fold cross-validation, 也称为K折叠交叉验证,是检验分类器性能的一种经典方法。本文严格遵循K折叠交叉验证的思想,但局部有所调整。我们首先采用10折叠交叉验证的思想对原样本集进行了划分,但与标准的10折叠交叉验证不同,我们仅使用8份数据来训练,1份数据用作子空间集成学习算法参数的校验,剩下的1份数据作为测试集。这使得训练集、校验集、测试集互相独立,也使得子空间集成学习方法不受训练集的干扰,从而避免了过度拟合。以下的算法描述,可以看作在一次折叠上进行,即需要定义训练集、校验集、测试集各一个。
本发明公开的递减子空间集成学习算法,主要应用在分类。分类的定义是给定一个数据集D={t1,t2,…,tn}和一组类C={C1,C2,…,Cn},分类问题就是去确定一个映射f:D->C,每个元组ti被分配到一个类中。类Cj包含映射到该类中的所有数据元组,即Cj={ti |f(ti)=Cj,1<=i<=n,且ti∈D}。分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;通过患者个人输入和体检得到的与甲状腺有关的各项信息来判断是否患有甲状腺疾病;文献检索和搜索引擎中的自动文本分类计数;安全领域有基于分类技术的入侵检测等等。 
递减子空间集成学习算法将通过对训练样本空间的调整来生成多样化的分类器,他能提高普通分类器的识别准确率。不同于AdaBoost对训练样本的权值进行调整,递减子空间集成学习算法则不断地把最有把握正确预测的那些样本从训练集中移除。 
本发明公开的递减子空间集成学习算法与AdaBoost有两点显著不同:第一,AdaBoost需要查看类标签才能调整权值,而递减子空间集成学习算法只关注分类模型对每个预测的置信度,而不需要查看样本的类标签。 
第二,AdaBoost算法不会删除任何样本,所调整的只是它们的权值,而递减子空间集成学习算法会删除那些置信度较高的样本,因而会形成一系列递减的样本子空间。 
第三,AdaBoost算法只关注样本分类正确或者错误,而递减子空间集成学习算法关注的是样本分类置信度的高低。我们重点是解决现在提高单个分类器准确率的问题。 
附图说明
图1是算法执行过程的原理示意图。 
具体实施方式
下面结合实施例进一步描述本发明。本发明的范围不受这些实施例的限制,本发明的范围在权利要求书中提出。 
实施例1 
下文中,详细地描述本发明的对UCI数据库中8组数据的测试结果以及同其他集成方法相比性能的改进。在测试的8个数据集上,递减子空间集成学习算法中引入的两个参数a与λ均设置为2,此参数给出的结果相对于其它参数的结果有微小的提高。
本文提出的算法与目前最为流行的AdaBoost 以及Bagging在5种基分类器上进行了比较。这5种基分类器包括Na?ve Bayes,Support Vector Machine (SVM), Logistic Regression, Decision Stump以及 J48决策树。其中Naivebayes与SVM的预测效果依赖于所选择的参数。这两个分类方法我们均设计了两个版本。对于Na?ve Bayes我们分别选择使用核估计(Kernel Estimator)与不使用核估计生成两个版本;而对于Support Vector Machine,一个版本选用了默认参数(线性模型),另一个版本选用最优参数下的RBF核。 
在优化SVM的参数时,我们选择了RBF核。我们首先优化参数gamma,gamma的取值从0.001到8.192按2倍关系递增。在找到最优的gamma以后,我们分别测试c = 0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 50, 100,并选择产生最优结果的c,最优的参数如表2所示。 
本文所提出方法与AdaBoost 以及Bagging在UCI的8个数据集上进行了比较。在计算以上提及的两个方法分类的正确率的时候采用了和子样本集集成学习算法同样的可调参的十折叠形式,只不过没有了调参集,用分割出来的8个子样本作为训练集,1个子样本作为测试集。当所有的原样本都作为测试集出现过后,取十次正确率的平均值作为总的正确率; 
    
    
常规的方法:AdaBoost,Bagging
本文的方法:递减子空间集成学习算法
结论:
(1)递减子空间集成学习算法与AdaBoost在UCI的8个数据集上进行了比较。当使用Na?ve Bayes (不使用核估计)和 Decision Stump作为基分类器时,递减子空间集成学习算法相较于AdaBoost在错误率上有显著降低,分别降低了5.5%与2.4%。当以SVM(最优参数)与Na?ve Bayes (使用核估计)为基分类器时,递减子空间集成学习算法相较于AdaBoost在错误率上仍有明显的差异,分别降低了1.2%与1%。当以Logistic regression作为基分类器时,本文提出的集成算法与AdaBoost的错误率相差不大,仅高出0.2%。当使用SVM(线性模型)与Decision Table作为基分类器时,本文提出的集成算法相较于AdaBoost的错误率反而增加了,分别增加0.7%与1.5%。总体而言,递减子空间集成学习算法相较于AdaBoost在5种基分类器上降低了错误率,在2种基分类器上增加了错误率。此外,错误率降低的幅度(0.2%~5.5%)相较于增加的幅度(0.7%~1.5%)更大一些。我们也注意到,在7种分类器中性能最优的分类器上(SVM设置最优参数的错误率为6.8%),本文提出的集成算法实现了比AdaBoost更低的错误率。
(2)类似地,递减子空间集成学习算法与Bagging也在UCI的8个数据集上进行了比较。当以Na?ve Bayes (不使用核估计)、Na?ve Bayes (使用核估计)、Decision Stump、SVM(最优参数)作为基分类器时,递减子空间集成学习算法相较于Bagging在错误率上有显著降低,分别降低了9.2%、6.1%、5.3%、3.2%。当以Decision Table、Logistic Regression、SVM(线性模型)作为基分类器时,递减子空间集成学习算法与Bagging产生的错误率相差不大,分别为0.9%、0.1%、-0.2%。总体而言,本文提出的集成算法相较于Bagging在6种基分类器上降低了错误率,仅在一种基分类器上增加了错误率且差异不显著。我们也注意到,在7种分类器中性能最优的分类器上(SVM最优参数的错误率为6.8%),本文提出的集成算法实现了比Bagging更低的错误率。 
实施例2 
本发明算法用于预测甲状腺疾病的实际使用例子。
某医院在筛选甲状腺疾病人时需要检测和收集以下29项信息,包括个人信息和一些理化指标,如表3所示。这些收集的信息可以作为本文中分类方法的输入,而分类方法将预测一个体检者是否患有甲状腺疾病 
Figure 485443DEST_PATH_IMAGE006
    
Figure 2013106540102100002DEST_PATH_IMAGE004
Figure 2013106540102100002DEST_PATH_IMAGE005
某医院收集了3772份体检者的信息,现需要设计一个分类模型来预测新的体检者的健康状况。
这里我们采用集成学习算法来根据给定的3772份体检的信息和体检者的健康状况来生成分类器,选择了实例1中提到的8种基分类器,再用这些数据自身做测试,用来评估分类器的可靠性。 
输入:3772个数据集,每个数据集包括个人信息和体检信息以及体检者的健康状况) 
算法:常规的方法:AdaBoost,Bagging
本文提出的方法:递减子空间集成学习算法
        输出:以自身数据集做测试的错误率,结果如表5所示
Figure 2013106540102100002DEST_PATH_IMAGE006
结论:
(1)递减子空间集成学习算法比常规算法能更好地识别潜在的甲状腺病人,识别的错误率降低了0.2%-4%。
  
提供对本发明示例性实施方式的前述描述是为了说明该改进后的算法对比已存在的前述集成算法在整体的性能上是有优势的。由此使得本领域的其他技术人员能够理解适用于预计的特定用途的本发明的各种实施方式和各种改进方案。本发明的范围由所附权利要求及其等同形式所限定。

Claims (2)

1.递减子空间集成学习算法,所述算法的输入包括训练集D train ,测试集D test ,校验集D valid ,输出包括一列分类器C 0 , C 1 ,…,C k’ 以及相应的置信度阈值l 0 , l 1 ,…,l k’
    其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为:
(1)把D train 作为D 0 输入;
(2)把0赋值给k ;
(3)循环开始,把k+1赋值给k
(4)在 D k 上训练,得到分类器 C k
(5)用C k 测试D k 中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T 1T 2,…, T m 的概率分别为p 1, p 2,…, p m , 则分类器C对样本s预测的置信度定义为p 1, p 2,…, p m 的最大值;设置最低的置信度水平l k ,把置信度水平高于l k 的样本从D k 中删除,得到D k+1
(6)满足D k 中样本的个数Sizeof(D k )<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数,而λ为常数;
(7)把迭代的次数赋值给n;
(8)循环开始,k从0 到 n
(9)计算使用分类器组C 0 , C 1 ,…,C k D valid 上的错误率E k ,对于检验集或测试集中的样本,依次使用C 0 , C 1 ,…,C k 进行预测,若存在某个C i 预测的置信度高于l i ,则C i 的预测被采用,其后的分类器不需再使用;若不存在任何C i 预测的置信度高于l i ,则该样本采用C k 的预测;(10)保存最低的错误率’与k’
(11)返回 k’, C 0 , C 1 ,…,C k’ 以及l 0 , l 1 ,…,l k’
(12)算法结束。
2.根据权利要求1所述的方法,其特征在于,所述方案中是将(C n ,D train ,D test ,D valid ,l k ,终止条件,预测样本的筛选)公开,其中,
C n  表示第n次迭代中学习得到的分类器;
D train 表示训练集;
D test 表示测试集;
D valid 表示校验集;
l k 按如下方式计算:我们设定比例a%(0<a<100),把D k 中样本的置信度降序排列,D k 可以按比例a%分割为两部分,其一是置信度较高的a%样本,其二是置信度较低的1- a%样本,分割两部分样本的阈值即设置为l k
CN201310654010.2A 2013-12-09 2013-12-09 递减子空间集成学习算法 Pending CN103631753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310654010.2A CN103631753A (zh) 2013-12-09 2013-12-09 递减子空间集成学习算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310654010.2A CN103631753A (zh) 2013-12-09 2013-12-09 递减子空间集成学习算法

Publications (1)

Publication Number Publication Date
CN103631753A true CN103631753A (zh) 2014-03-12

Family

ID=50212831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310654010.2A Pending CN103631753A (zh) 2013-12-09 2013-12-09 递减子空间集成学习算法

Country Status (1)

Country Link
CN (1) CN103631753A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809191A (zh) * 2016-03-07 2016-07-27 四川大学 一种融合Bagging的随机树慢性肾病分期预测算法
CN107368892A (zh) * 2017-06-07 2017-11-21 无锡小天鹅股份有限公司 基于机器学习的模型训练方法和装置
CN107818339A (zh) * 2017-10-18 2018-03-20 桂林电子科技大学 一种人类活动识别的方法
CN108268934A (zh) * 2018-01-10 2018-07-10 北京市商汤科技开发有限公司 基于深度学习的推荐方法和装置、电子设备、介质、程序
CN111598049A (zh) * 2020-05-29 2020-08-28 中国工商银行股份有限公司 作弊识别方法和装置、电子设备、以及介质
US10832162B2 (en) 2016-09-08 2020-11-10 International Business Machines Corporation Model based data processing
US11551155B2 (en) 2018-11-09 2023-01-10 Industrial Technology Research Institute Ensemble learning predicting method and system

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809191A (zh) * 2016-03-07 2016-07-27 四川大学 一种融合Bagging的随机树慢性肾病分期预测算法
US10832162B2 (en) 2016-09-08 2020-11-10 International Business Machines Corporation Model based data processing
CN107368892A (zh) * 2017-06-07 2017-11-21 无锡小天鹅股份有限公司 基于机器学习的模型训练方法和装置
CN107368892B (zh) * 2017-06-07 2020-06-16 无锡小天鹅电器有限公司 基于机器学习的模型训练方法和装置
CN107818339A (zh) * 2017-10-18 2018-03-20 桂林电子科技大学 一种人类活动识别的方法
CN108268934A (zh) * 2018-01-10 2018-07-10 北京市商汤科技开发有限公司 基于深度学习的推荐方法和装置、电子设备、介质、程序
US11379901B2 (en) 2018-01-10 2022-07-05 Beijing Sensetime Technology Development Co., Ltd Methods and apparatuses for deep learning-based recommendation, electronic devices, and media
US11551155B2 (en) 2018-11-09 2023-01-10 Industrial Technology Research Institute Ensemble learning predicting method and system
CN111598049A (zh) * 2020-05-29 2020-08-28 中国工商银行股份有限公司 作弊识别方法和装置、电子设备、以及介质
CN111598049B (zh) * 2020-05-29 2023-10-10 中国工商银行股份有限公司 作弊识别方法和装置、电子设备、以及介质

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN103631753A (zh) 递减子空间集成学习算法
CN106599913B (zh) 一种基于聚类的多标签不平衡生物医学数据分类方法
CN103150580B (zh) 一种高光谱图像半监督分类方法及装置
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN105389593A (zh) 基于surf特征的图像物体识别方法
CN103077399B (zh) 基于集成级联架构的生物显微图像分类方法
CN103473556B (zh) 基于拒识子空间的分层支持向量机分类方法
CN105320967A (zh) 基于标签相关性的多标签AdaBoost集成方法
CN109933619A (zh) 一种半监督分类预测方法
CN105975611A (zh) 自适应组合降采样增强学习机
CN108877947A (zh) 基于迭代均值聚类的深度样本学习方法
CN106250913B (zh) 一种基于局部典型相关分析的分类器集成车牌识别方法
CN100416599C (zh) 一种遥感影像的人工免疫非监督分类方法
CN103810482A (zh) 一种多信息融合分类及识别方法
Zhou et al. Credit card fraud identification based on principal component analysis and improved AdaBoost algorithm
Safdari et al. A hierarchical feature learning for isolated Farsi handwritten digit recognition using sparse autoencoder
CN110276395A (zh) 基于正则化动态集成的不平衡数据分类方法
CN111126444A (zh) 分类器集成方法
Shekhar et al. Human Activity Recognition with Smartphone using Classical Machine Learning Models
CN116778205A (zh) 柑橘病害等级识别方法、设备、存储介质及装置
Tanwar et al. An optimized deep learning model for grassy shoot disease prediction in sugarcane
CN103514454B (zh) 基于在线学习支持向量机性别分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140312