CN102184422A - 一种平均错分代价最小化的分类器集成方法 - Google Patents

一种平均错分代价最小化的分类器集成方法 Download PDF

Info

Publication number
CN102184422A
CN102184422A CN2011101262309A CN201110126230A CN102184422A CN 102184422 A CN102184422 A CN 102184422A CN 2011101262309 A CN2011101262309 A CN 2011101262309A CN 201110126230 A CN201110126230 A CN 201110126230A CN 102184422 A CN102184422 A CN 102184422A
Authority
CN
China
Prior art keywords
weak classifier
sample
training
cost
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101262309A
Other languages
English (en)
Other versions
CN102184422B (zh
Inventor
付忠良
赵向辉
姚宇
李昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Information Technology Co Ltd of CAS
Original Assignee
Chengdu Information Technology Co Ltd of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Information Technology Co Ltd of CAS filed Critical Chengdu Information Technology Co Ltd of CAS
Priority to CN201110126230.9A priority Critical patent/CN102184422B/zh
Publication of CN102184422A publication Critical patent/CN102184422A/zh
Application granted granted Critical
Publication of CN102184422B publication Critical patent/CN102184422B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Sorting Of Articles (AREA)

Abstract

本发明公开了一种平均错分代价最小化的分类器集成方法,该方法包括如下步骤:S1、获取训练样本集;S2、初始化样本权值并赋初值,S3、迭代T次后,训练得到T个最佳弱分类器,包括如下步骤:S31、基于有权值的训练样本集S训练弱分类器;S32、根据步骤S31的结果来调整样本权值,S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4;S4、组合T个最佳弱分类器得到最佳组合分类器,本发明相对于现有技术,可真正实现分类结果向错分代价小的类集中,并在不直接要求各个分类器相互独立的条件下,确保训练错误率随着训练的分类器的个数增加而降低,解决了目前已有的代价敏感学习方法只能向错分代价总和最小的类集中的问题。

Description

一种平均错分代价最小化的分类器集成方法
技术领域
本发明涉及机器学习和模式识别方法,特别涉及一种平均错分代价最小化的分类器集成方法,具体涉及到多分类代价敏感学习的分类器集成方法和多标签分类问题的分类器集成方法。
背景技术
目前的分类方法一般都追求分类准确率,即分类错误率最小,其基于所有类被错分的代价相等。当不同类被错分的代价不等时,便引出了代价敏感分类问题,此时要求设计的分类器满足错分代价最小而非分类错误率最小。目前已有不少代价敏感学习方法,如Domingos等人于1999年在文章《MetaCost:A general method for making classifiers cost-sensitive》中采用元代价处理方法把一般的分类模型转换成代价敏感分类模型的方法,Elkan和Bruka等人在文章《The foundations of cost-sensitive learning》和《A support for decision making:Cost-sensitive learning system》中也指出用错分代价调整样本初始分布来解决代价敏感分类的集成学习方法,以及Ling等人于2006年在文章《Test strategies for cost-sensitive decision trees》中提出的一些最小代价决策分类法等。Ling等人于2007年在文章《A comparative study of cost-sensitive classifiers》,叶志飞等人于2009年在文章《不平衡分类问题研究综述》中都对目前已有的众多代价敏感学习算法进行了比较。在众多代价敏感学习方法中,基于AdaBoost引入错分代价的代价敏感学习方法,因AdaBoost算法自身具有的显著性能,在代价敏感学习方法中受到了更多的重视和关注。
目前的代价敏感学习方法主要针对二分类问题,已有的多分类问题的代价敏感学习方法只能区分错分代价总和而无法区分错分成不同类代价的差异。郝红卫等人在专利CN101154266A中提出了一种分类器动态选择与循环集成方法,高常鑫等人在专利CN100587708C中阐述了一种分类器集成方法,Zhu和Fu等人于2009年分别在文章《Multi-class AdaBoost》和《Effictive property and best combination of classifiers linear combination》中考虑了直接用于多分类问题的集成学习方法,但都没有引入代价。
对多分类的代价敏感分类,目前通常做法是把问题转换成多级二分类问题来处理,为此必须进行错分代价的合并,但只能考虑每一类被错分的代价总和而无法区分被错分成不同类的代价。合并错分代价完全掩盖了不同错分代价的差异,无法获得真正的错分代价最小化分类器。
多标签分类问题是一种比较复杂的分类问题,它不同于两类分类问题,它允许问题中存在多个类别(或称为标签);不同于多类分类问题,它允许样本同时属于多个类别;它不同于单标签分类问题(包括两类问题和多类问题),在单标签分类问题中,标签(类别)与标签之间都是相互排斥的,每个样本只能属于唯一的一个类别,而在多标签分类问题中,标签与标签之间是相瓦关联的,允许问题中的部分样本同时属于多个标签。由于多标签分类问题的复杂性和广泛的应用价值,引起了越来越多国内外研究者的关注,并取得了一定的成果。
目前,对于多标签分类问题在许多文献资料中都有相关的研究,已形成多种解决多标签分类问题的方法,根据总体设计思路不同,一般分为两种:一种是基于数据分解的多标签分类方法;一种是基于单个优化问题的多标签分类方法。其中,基于数据分解的多标签分类方法实质上是将多标签分类问题分解为多个单标签分类子问题,然后使用现有的单标签分类方法处理这些子问题,再将所有子问题的解集成,最终得到总的多标签分类问题的解。再者是基于单个优化问题的多标签分类方法,它通过对一般的分类方法进行改造,只建立一个最优化问题直接处理数据集中的所有样本,从而完成能够直接处理多标签分类问题的任务。在多标签数据集中的样本拥有多个标签,怎样建立和求解这样的最优化问题是要解决的重要问题,它没有改变数据集的结构,没有破坏类别之间的关联关系,反映了多标签分类的特殊性质,但该方法的实现有一定的难度。总的来说,构造多标签分类问题的集成学习方法是很难的。
发明内容
针对现有技术存在的问题,本发明的主要目的在于提供一种平均错分代价最小化的分类器集成方法,该方法能够真正实现分类结果偏向错分代价较小的类,并在不直接要求各个分类器相互独立的条件下,确保训练错误率随着训练的分类器的个数增加而降低。
为实现上述目的,本发明的技术方案构思原理如下:
本发明采取把用符号函数表示的错分代价的极值问题转换成用指数函数表示的极值问题,并基于递推思想,得到了一种平均错分代价最小化的分类器集成方法。
对训练样本集S={(x1,y1),...,(xm,ym)},考虑K分类问题,yi∈{1,2,...,K}。弱分类器ht(x)输出标签l的置信度为ht(x,l),l=1,...,K.(x,y)∈S简记为x∈S。
集成学习方法通常指通过某种方式得到T个弱分类器ht(x),t=1,...,T,然后进行组合得到分类性能更好的组合分类器。线性组合最常用,令
Figure BDA0000061250750000031
Figure BDA0000061250750000032
l=1,...,K,组合分类器
Figure BDA0000061250750000033
即输出累积置信度最大对应标签。C=c(i,j)K×K为代价矩阵,c(i,j)表示i类被错分成j类的代价,c(i,j)≥0,c(i,i)=0。集成学习方法就是训练ht(x)使平均错分代价最小,即希望式(1)取到最小值。
ϵ cs = Σ i = 1 m ( ω i Σ l = 1 K c ( y i , l ) [ [ H ( x i ) = l ] ] ) - - - ( 1 )
其中ωi=1/m,条件π满足时
Figure BDA0000061250750000042
为1否则为0。
由于式(1)的取值不仅取决于具体的弱分类器ht(x),而且还取决于参与组合的弱分类器的个数T,当T值一定,如何训练T个弱分类器ht(x)(t=1,...,T)使式(1)取到最小值是一个在全分类器空间的寻优问题,这是一个非常困难的问题。既然最终目的是使平均错分代价εcs尽量小,如果能通过增加弱分类器个数来减小εcs,并且随着T趋于无穷而εcs趋于零,则对每增加单个ht(x)能否使得式(1)取到最小值就显得不重要了。下面的方法正是采取先对式(1)放大,对放大后的表达式在分类器空间寻优如果有好的方法,如果其仍然能随T增加而εcs减小,并满足limT→∞εcs=0,该方法就是一种可行的集成学习方法。
Figure BDA0000061250750000043
为f(x)输出置信度平均值,有如果H(xi)=k,则
Figure BDA0000061250750000045
此时
Figure BDA0000061250750000046
于是有由于
Figure BDA0000061250750000048
Figure BDA0000061250750000049
Figure BDA00000612507500000410
因此
ϵ cs = Σ i = 1 m ( ω i Σ l = 1 K c ( y i , l ) [ [ H ( x i ) = l ] ] ) ≤ Σ i = 1 m ( ω i Σ l = 1 K c ( y i , l ) exp ( f ( x i , l ) - f ‾ ( x i ) ) ) = Z 0 Σ i = 1 m Σ l = 1 K ( ω i , l 1 Π t = 1 T exp ( h t ( x i , l ) - h t ‾ ( x i ) ) ) - - - ( 2 )
其中
Figure BDA00000612507500000412
Z0
Figure BDA00000612507500000413
的归一化因子。根据前面的分析,如何训练ht(x)使式(1)尽量小可转为训练ht(x)使式(2)尽量小,而式(2)的最小值点可逐个训练ht(x)来实现。
先训练ht(x),式(2)变一种形式
Z 0 Σ i = 1 m Σ l = 1 K ( ω i , l 1 exp ( h 1 ( x i , l ) - h 1 ‾ ( x i ) ) Π t = 2 T exp ( h t ( x i , l ) - h t ‾ ( x i ) ) ) - - - ( 3 )
Figure BDA00000612507500000415
i=1,...,m,l=1,...,K,其正是除ht(x)外其余T-1个弱分类器构成的组合分类器
Figure BDA00000612507500000416
针对xi输出标签l的累积置信度与平均累积置信度之差的指数函数值。如果该分类器能正确分类xi,temp(i,yi)将最大,即temp(i,yi)≥temp(i,l)。因此,在无其它先验信息条件下,除temp(i,yi)可能取到最大值外,其它temp(i,l)(l≠yi)可假设近似相等,但
Figure BDA0000061250750000051
于是式(3)极小值点可用式(4)极小值点近似代替。
Σ i = 1 m Σ l = 1 K ( ω i , l 1 exp ( h 1 ( x i , l ) - h 1 ‾ ( x i ) ) ) - - - ( 4 )
下面来求式(4)的极小值点。
每个弱分类器ht(x)的实质是对目标空间的一个划分,对位于同一划分段内的目标输出相同的置信度。该划分对样本集也有一个划分
Figure BDA0000061250750000053
i≠j时,
Figure BDA0000061250750000054
Figure BDA0000061250750000055
ht(xi)输出l类标签的置信度为ht(xi,l),由于ht(xi,l)与xi所位于的划分段有关,即与
Figure BDA0000061250750000056
有关,当
Figure BDA0000061250750000057
ht(xi)输出l类标签的置信度记为l=1,...,K,j=1,...,nt。记l=1,...,K,j=1,...,n1,i=1,...,m。于是有
Σ i = 1 m Σ l = 1 K ( ω i , l 1 exp ( h 1 ( x i , l ) - h 1 ‾ ( x i ) ) ) = Σ j = 1 n t Σ l = 1 K ( p 1 j , l exp ( α 1 j , l - 1 K Σ k = 1 K α 1 j , k ) ) ≥ K Σ j = 1 n 1 ( Π k = 1 K p 1 j , k ) 1 / K - - - ( 5 )
由算术平均大于等于几何平均且各项相等时取到极小值,可得式(4)的极小值点为
α 1 j , l = - ln ( p 1 j , l ) , l=1,...,K,j=1,...,n1                   (6)
因此,训练h1(x)使式(4)极小转变成了寻找使
Figure BDA00000612507500000512
取得最小值时样本集的一个划分需要说明的是,对β>0,
Figure BDA00000612507500000514
都是式(4)的极小值点。对
Figure BDA00000612507500000515
而言,所有标签的置信度加减同一常数不影响结果,因此取作为式(2)的近似极小值点,此时极小值为Z0Z1
训练得到h1(x)后,令
ω i , l 2 = ω i , l 1 Z 1 exp ( h 1 ( x i , l ) - 1 K Σ k = 1 K h 1 ( x i , k ) ) - - - ( 7 )
其中,Z1
Figure BDA00000612507500000518
归一化因子。
再训练h2(x),此时式(2)为
Z 0 Z 1 Σ i = 1 m Σ l = 1 K ( ω i , l 2 exp ( h 2 ( x i , l ) - h 2 ‾ ( x i ) ) Π t = 3 T exp ( h t ( x i , l ) - h t ‾ ( x i ) ) ) - - - ( 8 )
同样,记i=1,...,m,l=1,...,K,其正是除h1(x)和h2(x)外其余T-2个弱分类器构成的组合分类器的输出置信度函数。类似前面的分析,在无其它先验信息条件下,除temp(i,yi)可能取到最大值外,其它temp(i,l)(l≠yi)可假设近似相等,但
Figure BDA0000061250750000063
于是式(8)极小值点近似为式(9)极小值点。
Σ i = 1 m Σ l = 1 K ( ω i , l 2 exp ( h 2 ( x i , l ) - h 2 ‾ ( x i ) ) ) - - - ( 9 )
式(9)类似式(4),类似分析得式(9)极小值点
α 2 j , l = - ln ( p 2 j , l ) , l=1,...,K,j=1,...,n2               (10)
其中
Figure BDA0000061250750000066
l=1,...,K,j=1,...,n2,i=1,...,m。此时式(2)的近似极小值为Z0Z1Z2,其中
Figure BDA0000061250750000067
训练h2(x)转变成了寻找使Z2取得最小值时样本集的一个划分
Figure BDA0000061250750000068
类似地逐个训练各个弱分类器,于是得到一种多分类代价敏感学习的分类器集成方法,该方法包括如下步骤:
S1、获取训练样本集;
S2、初始化样本权值并赋初值;
S3、迭代T次后,训练得到T个最佳弱分类器;
S4、组合T个最佳弱分类器得到最佳组合分类器,
所述步骤S2给训练样本赋初值的方法为:
Figure BDA0000061250750000069
其中,i=1,...,m,l=1,...,K,yi∈{1,2,...,K},Z0
Figure BDA00000612507500000610
的归一化因子,c(yi,l)表示yi类被错分成l类的代价,m为训练样本数;
所述步骤S3具体包括如下步骤:
S31、基于有权值
Figure BDA00000612507500000611
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311、对应样本集S的划分,
Figure BDA00000612507500000612
计算
Figure BDA00000612507500000613
其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,表示
Figure BDA0000061250750000072
划分段内l标签子集不包含xi的概率;
S312、定义弱分类器ht(x),当时,有
Figure BDA0000061250750000074
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313、选取弱分类器ht(x),使
Figure BDA0000061250750000075
最小,其中,Zt代表样本权值调整后的归一化因子;
S32、根据步骤S31的结果来调整样本权值,
S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4。
更进一步地,组合T个最佳弱分类器得到最佳组合分类器的方法为:
Figure BDA0000061250750000077
其中
上述多分类代价敏感学习的分类器集成方法中,令c(i,i)=0,c(i,j)=1(i≠j),即代价相等且K>2时,该方法简化为一种新的多分类的连续AdaBoost集成学习方法,通过如下步骤实现:
S1、获取训练样本集;
S2、初始化样本权值并赋初值;
S3、迭代T次后,训练得到T个最佳弱分类器;
S4、组合T个最佳弱分类器得到最佳组合分类器,
所述步骤S2给训练样本赋初值的方法为:
Figure BDA0000061250750000079
i=1,...,m,l=1,...,K,Z0是归一化因子,其中c(i,i)=0,当i≠j时c(i,j)=1;
所述步骤S3具体包括如下步骤:
S31、基于有权值
Figure BDA00000612507500000710
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311、对应样本集S的划分,
Figure BDA00000612507500000711
计算其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure BDA0000061250750000081
相当于
Figure BDA0000061250750000082
划分段内l标签子集不包含xi的概率;
S312、定义弱分类器ht(x),当
Figure BDA0000061250750000083
时,有
Figure BDA0000061250750000084
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313、选取弱分类器ht(x),使
Figure BDA0000061250750000085
最小,其中,Zt代表样本权值调整后的归一化因子;
S32、根据步骤S31的结果来调整样本权值,
Figure BDA0000061250750000086
S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4。
更进一步地,组合T个最佳弱分类器得到最佳组合分类器的方法为:其中
Figure BDA0000061250750000088
在多标签分类问题中,此时样本集为S={(x1,Y1),...,(xm,Ym)},其中,L={1,2,...,K}。Yi=L和
Figure BDA00000612507500000810
是两种特例。用|Yi|表示集合Yi内元素个数,|Yi|=1便是单标签分类,|Yi|>1就是多标签分类,此时ht(x)输出一个标签集,为了区别,记为{ht(xi)}。组合分类器可定义为:
Figure BDA00000612507500000811
即累积置信度比平均累积置信度大对应的标签作为H(x)的输出标签集。对r标签集分类问题,H(x)可定义为累积置信度最大的前r个对应标签。
显然,构造分类器的目的仍然是希望分类错误率最小,但不同的分类错误定义可得不同的方法。{ht(xi)}≠Yi就可认为分类错误,但同样是{ht(xi)}≠Yi
Figure BDA00000612507500000812
Figure BDA00000612507500000813
具有本质区别。
Figure BDA00000612507500000814
表示分类预测出部分正确标签,而
Figure BDA00000612507500000815
表明分类预测完全错误,这种现象在单标签分类问题中不存在,因为单标签分类属于二值判断问题。对{ht(xi)}≠Yi的各种情况,最需要关注的有
Figure BDA00000612507500000816
Figure BDA00000612507500000817
为此定义θi=|{ht(xi)}-Yi|,γi=|Yi-{ht(xi)}|,βi=coverθi+cdefγi,其中cover+cdef=1,cover和cdef为两个常数,分别代表分类预测标签多于实际标签的单个标签代价和分类预测标签少于实际标签的单个标签代价。对应上述三种分类错误度量,度量分类器的好坏也有三种,仍然称之为分类错误率。分别是
Figure BDA0000061250750000091
Figure BDA0000061250750000093
其中ωi=1/(mK),于是0≤εθ≤1,0≤εγ≤1,0≤εβ≤1。根据分类错误率含义,称εθ最小化的方法为“过预测标签最少化方法”。
Figure BDA0000061250750000094
即当l∈Yi,Cθ(i,l)=0,其余Cθ(i,l)=1,i=1,...,m,l=1,...,K。于是
ϵ θ = Σ i = 1 m ( ω i Σ l = 1 K C θ ( i , l ) [ [ f ( x i , l ) ≥ f ‾ ( x i ) ] ] ) ≤ Σ i = 1 m ( ω i Σ l = 1 K C θ ( i , l ) exp ( f ( x i , l ) - f ‾ ( x i ) ) )
= Z 0 Σ i = 1 m Σ l = 1 K ( ω i , l 1 Π t = 1 T exp ( h t ( x i , l ) - h t ‾ ( x i ) ) ) - - - ( 11 )
其中
Figure BDA0000061250750000097
Z0
Figure BDA0000061250750000098
的归一化因子。式(11)与式(2)类似,按照前面类似的推导,可得式(11)取到近似极小值的集成学习方法,即一种过预测标签最少化Adaboost集成学习方法。
Figure BDA0000061250750000099
最小化的方法称为“欠预测标签最少化方法”。令
Figure BDA00000612507500000910
即当l∈Yi,Cγ(i,l)=1,其余Cγ(i,l)=0,i=1,...,m,l=1,...,K。于是
&epsiv; &gamma; = &Sigma; i = 1 m ( &omega; i &Sigma; l = 1 K C &gamma; ( i , l ) [ [ f ( x i , l ) < f &OverBar; ( x i ) ] ] ) &le; &Sigma; i = 1 m ( &omega; i &Sigma; l = 1 K C &gamma; ( i , l ) exp ( - f ( x i , l ) + f &OverBar; ( x i ) ) )
= Z 0 &Sigma; i = 1 m &Sigma; l = 1 K ( &omega; i , l 1 &Pi; t = 1 T exp ( - h t ( x i , l ) + h t &OverBar; ( x i ) ) ) - - - ( 12 )
其中
Figure BDA00000612507500000913
Z0
Figure BDA00000612507500000914
的归一化因子。当把-ht(x)当成ht(x)时,式(12)与式(2)类似,按照前面类似的推导,可得式(12)取到近似极小值的集成学习方法,即一种欠预测标签最少化AdaBoost集成学习方法。
由εβ=coverεθ+cdefεγ,Cγ(i,l)+Cθ(i,l)≡1,于是 &epsiv; &beta; = &Sigma; i = 1 m ( &omega; i ( c over &theta; i + c def &gamma; i ) ) = &Sigma; i = 1 m ( &omega; i c over | { h t ( x i ) } - Y i | + &omega; i c def | Y i - { h t ( x i ) } | )
= &Sigma; i = 1 m ( &omega; i c over &Sigma; l = 1 K C &theta; ( i , l ) [ [ f ( x i , l ) &GreaterEqual; f &OverBar; ( x i ) ] ] + &omega; i c def &Sigma; l = 1 K C &gamma; ( i , l ) [ [ f ( x i , l ) < f &OverBar; ( x i ) ] ] ) &le; &Sigma; i = 1 m ( &omega; i c over &Sigma; l = 1 K C &theta; ( i , l ) exp ( f ( x i , l ) - f &OverBar; ( x i ) ) )
+ &Sigma; i = 1 m ( &omega; i c def &Sigma; l = 1 K C &gamma; ( i , l ) exp ( - f ( x i , l ) + f &OverBar; ( x i ) ) )
想采用前面类似分析方法得到该式的极值点很困难。因为εβ=coverεθ+cdefεγ,一种简单做法是用εθ和εγ的极值点的加权平均作为εβ的极值点,即
Figure BDA00000612507500000918
弱分类器的选取仍然采取把代入εβ后最小化式策略,于是可得到一种多标签分类问题AdaBoost集成学习方法。
根据以上分析,本发明方法提供的一种过预测标签最少化Adaboost集成学习方法,通过如下步骤实现:
S1、获取训练样本集;
S2a、初始化样本权值并赋初值;
S3a、迭代T次后,训练得到T个最佳弱分类器;
S4a、组合T个最佳弱分类器得到最佳组合分类器,
所述步骤S2a给训练样本赋初值的方法为:
Figure BDA0000061250750000101
其中,i=1,...,m,l=1,...,K,Z0
Figure BDA0000061250750000102
的归一化因子,Cθ(i,l)表示过预测标签最少化时,i类被错分成l类的代价矩阵;
所述步骤S3a具体包括如下步骤:
S31a、基于有权值
Figure BDA0000061250750000103
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311a、对应样本集S的划分,
Figure BDA0000061250750000104
计算
Figure BDA0000061250750000105
其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure BDA0000061250750000106
表示划分段
Figure BDA0000061250750000107
内并标签集包含除标签l外的标签的样本的概率;
S312a、定义弱分类器ht(x),当
Figure BDA0000061250750000108
时,有
Figure BDA0000061250750000109
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313a、选取弱分类器ht(x),使
Figure BDA00000612507500001010
最小,其中,Zt代表样本权值调整后的归一化因子;
S32a、根据步骤S31a的结果来调整样本权值, &omega; i , l t + 1 = ( &omega; i , l t / Z t ) exp ( h t ( x i , l ) - ( 1 / K ) &Sigma; k = 1 K h t ( x i , k ) ) ;
S33a、判断t是否小于T,若是,则令t=t+1,返回步骤S31a,若否,则进入步骤S4a。
更进一步地,组合T个最佳弱分类器得到最佳组合分类器的方法为:
Figure BDA0000061250750000111
其中
Figure BDA0000061250750000112
Figure BDA0000061250750000113
本发明方法提供的一种欠预测标签最少化AdaBoost集成学习方法,通过如下步骤实现:
S1、获取训练样本集;
S2b、初始化样本权值并赋初值;
S3b、迭代T次后,训练得到T个最佳弱分类器;
S4b、组合T个最佳弱分类器得到最佳组合分类器,
所述步骤S2b给训练样本赋初值的方法为:
Figure BDA0000061250750000114
其中,i=1,...,m,l=1,...,K,Z0是归一化因子,Cγ(i,l)表示欠预测标签最少化时,i类被错分成l类的代价矩阵;
所述步骤S3b具体包括如下步骤:
S31b、基于有权值
Figure BDA0000061250750000115
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311b、对应样本集S的划分
Figure BDA0000061250750000116
计算
Figure BDA0000061250750000117
其中,j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure BDA0000061250750000118
表示划分段
Figure BDA0000061250750000119
内并标签集包含标签l的样本的概率;
S312b、定义弱分类器ht(x),当
Figure BDA00000612507500001110
时,
Figure BDA00000612507500001111
其中,j=1,...,nt,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313b、选取弱分类器ht(x),使
Figure BDA00000612507500001112
最小化;
S32b、根据步骤S31b的结果来调整样本权值, &omega; i , l t + 1 = ( &omega; i , l t / Z t ) exp ( - h t ( x i , l ) + ( 1 / K ) &Sigma; k = 1 K h t ( x i , k ) ) ;
S33b、判断t是否小于T,若是,则令t=t+1,返回步骤S31b,若否,则进入步骤S4b。
更进一步地,组合T个最佳弱分类器得到最佳组合分类器的方法为:
Figure BDA0000061250750000121
其中
Figure BDA0000061250750000122
Figure BDA0000061250750000123
本发明方法提供的一种多标签分类问题AdaBoost集成学习方法,通过如下步骤实现:
S1、获取训练样本集;
S2c、初始化样本权值并赋初值;
S3c、迭代T次后,训练得到T个最佳弱分类器;
S4c、组合T个最佳弱分类器得到最佳组合分类器,
所述步骤S2c给训练样本赋初值的方法为:
Figure BDA0000061250750000124
Figure BDA0000061250750000125
i=1,...,m,l=1,...,K,Z0
Figure BDA0000061250750000126
归一化因子;
所述步骤S3c具体包括如下步骤:
S31c、基于有权值
Figure BDA0000061250750000127
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311c、对应样本集S的划分
Figure BDA0000061250750000128
计算
Figure BDA0000061250750000129
Figure BDA00000612507500001210
其中,j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure BDA00000612507500001211
表示划分段
Figure BDA00000612507500001212
内并标签集包含除标签l外的标签的样本的概率,
Figure BDA00000612507500001213
表示划分段
Figure BDA00000612507500001214
内并标签集包含标签l的样本的概率;
S312c、定义弱分类器ht(x),当
Figure BDA00000612507500001215
时,其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度,cover和cdef为两个常数,cover代表分类预测标签多于实际标签的单个标签代价,cdef代表分类预测标签少于实际标签的单个标签代价,且cover+cdef=1;
S313c、选取弱分类器ht(x),使最小化,其中,
Figure BDA00000612507500001218
S32c、根据步骤S31c的结果来调整样本权值, &omega; i , l 1 , t + 1 = ( &omega; i , l 1 , t / Z t ) exp ( h t ( x i , l ) - ( 1 / K ) &Sigma; k = 1 K h t ( x i , k ) ) , &omega; i , l 2 , t + 1 = ( &omega; i , l 2 , t / Z t ) exp ( - h t ( x i , l ) + ( 1 / K ) &Sigma; k = 1 K h t ( x i , k ) ) ;
S33c、判断t是否小于T,若是,则令t=t+1,返回步骤S31c,若否,则进入步骤S4c。
更进一步地,组合T个最佳弱分类器得到最佳组合分类器的方法为:其中
Figure BDA0000061250750000133
本发明相对于现有技术,具有以下有益效果:1、构造出了一种可直接用于多分类问题的代价敏感分类集成学习方法,该方法可真正确保分类结果向错分代价小的类集中,解决了目前已有的代价敏感学习方法只能向错分代价总和最小的类集中这一问题。2、当上述方法中代价相等时得到了一种新的多分类的连续AdaBoost集成学习方法,其与基于Bayes统计推断得到的多分类的连续AdaBoost算法解决问题的角度不同,该方法可确保训练错误率随着训练的分类器个数增加而降低,而且并不直接要求各个分类器相互独立。3、基于构造平均错分代价最小化的分类器集成方法的思路,得到一套比较难构造的多标签分类集成学习方法,即本发明提到的一种过预测标签最少化Adaboost集成学习方法、一种欠预测标签最少化AdaBoost集成学习方法和一种多标签分类问题AdaBoost集成学习方法,不仅考虑了组合分类器分类错误率最小化,而且能区分组合分类器输出标签多于实际标签和少于实际标签,通过调整cover和cdef的值可选择学习方法的侧重点。4、本发明方法易于实现,可提高多分类器系统的效率,具有更好的分类效果。
附图说明
图1为本发明实施例一的一种多分类代价敏感学习的分类器集成方法流程图
图2为本发明实施例四的一种过预测标签最少化Adaboost集成学习方法流程图
图3为本发明实施例五的一种欠预测标签最少化AdaBoost集成学习方法流程图
图4本发明实施例六一种多标签分类问题AdaBoost集成学习方法流程图
具体实施方式
下面结合附图,详细说明本发明的具体实施方式。
实施例一
下面结合图1说明本发明提供的一种多分类代价敏感学习的分类器集成方法具体流程步骤,该方法包括如下步骤:
S1、获取训练样本集S;
S2、初始化样本权值并赋初值,其中,i=1,...,m,l=1,...,K,yi∈{1,2,...,K},Z0
Figure BDA0000061250750000142
的归一化因子,c(yi,l)表示yi类被错分成l类的代价,m为训练样本数;
S3、迭代T次,训练得到T个最佳弱分类器,通过步骤S31~S33来实现:
S31、基于有权值
Figure BDA0000061250750000143
的训练样本集S训练弱分类器,t=1,...,T,通过步骤S311~S313来实现:S311、对应样本集S的划分,计算
Figure BDA0000061250750000145
其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure BDA0000061250750000146
表示划分段内l标签子集不包含xi的概率;S312、定义弱分类器ht(x),当
Figure BDA0000061250750000148
时,有
Figure BDA0000061250750000149
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;S313、选取弱分类器ht(x),使
Figure BDA00000612507500001410
最小,其中,Zt代表样本权值调整后的归一化因子;
S32、根据步骤S31的结果来调整样本权值,
Figure BDA00000612507500001411
S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4;
S4、组合T个最佳弱分类器得到最佳组合分类器,方法为:
Figure BDA00000612507500001412
其中
上述方法的平均错分代价为
Figure BDA00000612507500001414
因为
Figure BDA00000612507500001415
是归一化的,即所以
Z t = K &Sigma; j = 1 n t ( &Pi; k = 1 K p t j , k ) 1 / K &le; &Sigma; j = 1 n t &Sigma; k = 1 K p t j , k = 1
当且仅当
Figure BDA0000061250750000152
k,l∈{1,...,K},上式的等号成立。而对每个j∈{1,...,nt}都满足该条件的几率很小,除非每个划分段内各类样本分布完全平衡一样,即便如此,都还可以调整划分来破坏该平衡.因此通常都有Zt<1,于是,即使对弱分类器不作特殊要求,使用本方法得到的组合分类器的平均错分代价随着弱分类器的个数增加而逐渐减小。
针对多分类代价敏感学习的分类器集成方法,如果训练每个弱分类器都考虑代价,则只需修改该方法中的权值调整公式为
Figure BDA0000061250750000153
其中Z′t
Figure BDA0000061250750000154
的归一化因子。
本发明方法一的算法时间复杂度与弱分类器的构造方法有关,并且其时间复杂度和空间复杂度与已有的AdaBoost算法一样。当基于样本单属性构造分类器,时间复杂度就为0(mdT),其中m为训练样本数,d为样本属性个数,T为弱分类器个数。因此本发明是一个比较快的方法。
实施例二
利用本发明的多分类代价敏感学习的分类器集成方法可以实现一种多分类连续AdaBoost集成学习方法,其与实施例一相同之处不再重复,其不同之处在于:
步骤S2给训练样本赋初值时的方法为:
Figure BDA0000061250750000155
i=1,...,m,l=1,...,K,Z0是归一化因子,其中c(i,i)=0,当i≠j时c(i,j)=1。此时平均错分代价简化为训练错误率,实施例一所述的多分类代价敏感学习的分类器集成方法简化为一种新的多分类的连续AdaBoost集成学习方法。
本发明方法对每个样本引入了K个权值,考虑目标能否被正确分类时,关注的是其对立面。
Figure BDA0000061250750000156
相当于
Figure BDA0000061250750000157
划分段内l标签子集不包含xi的概率。取
Figure BDA0000061250750000158
Figure BDA0000061250750000159
相当于后验概率仍采用乘积方式。本发明方法输出“在标签类中不出现xi的后验概率”最小对应的标签。也就是说,本发明方法从“某标签类中不出现目标”的概率最小化来处理问题,而现有技术中基于Bayes统计推断的多分类的连续AdaBoost集成学习方法是从“某标签类中出现目标”的概率最大化来处理问题,二者解决问题的角度不同。
基于Bayes统计推断的多分类连续AdaBoost集成学习方法对弱分类器是有条件要求的,不仅要求相互独立条件,而且还要求各个弱分类器输出正确标签的概率大于1/K,输出其它标签的概率小于1/K,而本发明方法并不要求各个弱分类器相互独立,因此,本发明方法受到的限制更少。
实施例三
下面将本发明提出的一种多分类代价敏感学习的分类器集成方法和一种多分类连续AdaBoost集成学习方法用于实际运用中,并与现有的基于Bayes统计推断的多分类的连续AdaBoost集成学习方法进行比较。
数据选取了UCI数据集上的wine数据集和随机数据集(Random data),wine数据有3类标签,随机数据集随机生成。实验用随机数据采用MATLAB中的随机矩阵生成函数rand(n)生成n×n矩阵,截取前d列可得到含d个属性的n个样本,再把样本分成3类便得到了一个随机的3分类数据集。随机数据集的类之间无明显差异和各类的内部无明显规律特性决定了其代表性。具体数据集见表1。
表1
 数据集   样本数   样本属性数  1类样本数  2类样本数  3类样本数   训练集∶测试集
 Random data   178   24  59  71  48   6∶4
 Wine   178   14  59  71  48   6∶4
弱分类器基于单个属性来构造,对属性值进行5段划分,4个分段阈值获取方式为:统计三类样本的中心,和两两相邻中心的平均值(2个),基于这5个值计算其两两相邻值之平均值,得到4个分段阈值。需要指出的是,基于Bayes统计推断的多分类的连续AdaBoost集成学习方法的每个样本就一个权值,可直接计算类加权中心。而本发明提出的一种多分类代价敏感学习的分类器集成方法和一种多分类连续AdaBoost集成学习方法的每个样本有3个权值,计算类中心时采用了3个权值之和的倒数为加权系数。如前面的分析,本发明方法考虑的是正确标签的对立面,所以采用权值倒数。
随机同比例从试验数据集中抽取训练数据集用于训练分类器,测试剩余的数据集(测试数据集)。为了验证各方法的稳定性,采取多次试验后计算平均代价和代价方差,方差可反映各方法的稳定性。实验中训练30个弱分类器组合,重复20次统计均值和方差。当然,也可训练更多弱分类器或重复更多次,实验结论类似,但弱分类器太少将难以发挥分类器的组合效果。
为了模拟本发明方法对不同错分代价的反应,采取调整代价矩阵C=c(i,j)3×3来实现。具体变化情况和对应的实验结果见表2至表9。其中Cost-MCPBoost指本发明提出的多分类代价敏感学习的分类器集成方法,而Cost-UBoost指现有技术的基于Bayes统计推断的多分类的连续AdaBoost集成学习方法。
表2
Figure BDA0000061250750000171
表3
Figure BDA0000061250750000172
表4
Figure BDA0000061250750000173
表5
Figure BDA0000061250750000181
表6
Figure BDA0000061250750000182
表7
Figure BDA0000061250750000183
表8
Figure BDA0000061250750000184
表9
Figure BDA0000061250750000185
下面对以上数据结果进行分析:
表2-表6是在随机数据集上的实验,为更直观比较,比较其最后一行代价矩阵:
0 11 1 11 0 1 1 11 0 ( a ) 0 1 11 11 0 1 1 11 0 ( b ) 0 11 1 1 0 1 1 11 0 ( c ) 0 1 11 1 0 1 1 11 0 ( d ) 0 1 11 1 0 1 11 1 0 ( e )
代价矩阵(a)-(e)分别对应表2-表6对应的代价,其c(i,j)=1处不变,c(i,j)=11处由1递增到11,用以验证代价变化时各方法结果的变化。
先分析表2,表的每一行,每个类被错分的代价和是一样的,即c(i,1)+c(i,2)+c(i,3)相等,Cost-UBoost因为只能考虑错分代价和,例如对1类,只能考虑1类被错分的代价,而无法区分被错分成2类和3类的代价的不同,因此,将把它作为无错分代价的分类问题来处理。Cost-MCPBoost,则可以区分错分成不同类的代价差异。表2数据表明,随着被错分成其他两类的代价差异越来越大(表的纵向来体现),Cost-MCPBoost的平均错分代价几乎不变,而Cost-UBoost的平均错分代价则成倍的增加。表2最后一行数据表明,当被错分成其他两类的代价相差10倍时,Cost-MCPBoost得到的平均错分代价比Cost-UBoost低近5倍。并且,比较纵向数据还发现,Cost-MCPBoost似乎对错分代价的增加并不敏感,这似乎难以理解。但详细分析发现,这一现象正好进一步说明了Cost-MCPBoost的科学性。表2的代价矩阵形如(a),按照这种代价矩阵,1类如果被错分,好的方法应该尽量让其错分到3类,因为始终有c(1,3)=1。同样,2类被错分也尽量错分到3类,因为c(2,3)=1,而错分到3类的代价始终没变,因此,错分代价也应该不变,表2数据表明Cost-MCPBoost可以做到这一点。而5倍的效果差异正是平均错分代价的差异,因为,尽管错分的两类的代价相差11倍(表的最后一行),但错分的平均代价则为(1+11)/(1+1)=6倍,相差5倍。
再来分析表3,其代价矩阵形如(b),按照上述分析,由于每一列的代价总和是一样的,因此要把错分类偏向于某个错分代价小的类就做不到了,向1类、2类或3类偏向,错分代价都会增加。表3数据表明,此时,Cost-MCPBoost与Cost-UBoost效果一样,组合分类器的错分代价随着各类错分代价增加而同步增加。
在表4-表6中,c(2,1)+c(2,2)+c(2,3)=2,即2类被错分的代价始终不变,而1类和3类的错分代价逐渐增加,其代价矩阵形如(c)-(e)。无论何种情况,实验数据表明,Cost-MCPBoost的效果与表2实验效果一样,能够把目标错分到代价小的类上。当代价变化时,Cost-UBoost则有不同结果。
对于表4,只有错分成2类的代价增加,即对应代价矩阵(c)只有第2列累积和增加。因此,Cost-UBoost通过错分代价来调整样本权值,可促使其集中在1类和3类的错分上(2类错分代价不变),于是可在1类和3类之间相互错分,但不错分为2类,这样,Cost-UBoost与Cost-MCPBoost的效果一样。对于表5,就做不到在1类和3类之间相互错分了,于是Cost-UBoost的错分代价将随着各类的错分代价增加而增加,但比表2对应的代价少一倍。对于表6,分类结果完全无法在1类和3类之间平衡,而2类错分代价小,1类和3类的错分代价大,于是Cost-UBoost得到的效果与表2实验结果一样,效果很差。
可见,在随机数据集上的实验表明,除了错分代价矩阵纵向代价和相等这种平衡错分代价情况,本发明方法均能得到很好的效果。在随机生产的3分类数据集上的实验还表明,当被错分成一类的代价是被错分成另一类的代价的n倍时,Cost-MCPBoost得到的平均错分代价是目前常用的Cost-UBoost方法的2/(n+1)倍,当n较大时,本发明提出的多分类代价敏感学习的分类器集成方法的优势特别明显。比较表2-表6多次实验后得到的错分代价的方差,数据表明Cost-MCPBoost比Cost-UBoost更稳定。
表7-表9是在Wine数据集上的实验,数据表明,当目标被错分,Cost-MCPBoost能够促使目标错分到代价小的类上。当代价都相等,即各表的第一行对应的实验,数据充分表明了本发明提出的一种多分类的连续AdaBoost集成学习方法是有效的。更进一步,即使代价矩阵纵向代价和一样,此时表7的数据也表明,Cost-MCPBoost比Cost-UBoost有本质的改进。
实施例四
下面结合图2说明本发明提供的一种过预测标签最少化Adaboost集成学习方法具体流程步骤,该方法包括如下步骤:
S1、获取训练样本集;
S2a、初始化样本权值并赋初值,
Figure BDA0000061250750000201
其中,i=1,...,m,l=1,...,K,Z0是归一化因子,Cθ(i,l)表示过预测标签最少化时,i类被错分成l类的代价矩阵;
S3a、迭代T次后,训练得到T个最佳弱分类器,通过步骤S31a~S33a来实现:
S31a、基于有权值
Figure BDA0000061250750000211
的训练样本集S训练弱分类器,t=1,...,T,通过步骤S311a~S313a来实现:
S311a、对应样本集S的划分,计算
Figure BDA0000061250750000213
其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,表示划分段
Figure BDA0000061250750000215
内并标签集包含除标签l外的标签的样本的概率;S312a、定义弱分类器ht(x),当时,有
Figure BDA0000061250750000217
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;S313a、选取弱分类器ht(x),使
Figure BDA0000061250750000218
最小,其中,Zt代表样本权值调整后的归一化因子;
S32a、根据步骤S31a的结果来调整样本权值, &omega; i , l t + 1 = ( &omega; i , l t / Z t ) exp ( h t ( x i , l ) - ( 1 / K ) &Sigma; k = 1 K h t ( x i , k ) ) ;
S33a、判断t是否小于T,若是,则令t=t+1,返回步骤S31a,若否,则进入步骤S4a;
S4a、组合T个最佳弱分类器得到最佳组合分类器,
Figure BDA00000612507500002110
其中 f ( x , l ) = &Sigma; t = 1 T h t ( x , l ) , f &OverBar; ( x ) = ( 1 / K ) &Sigma; l = 1 K f ( x , l ) .
实施例五
下面结合图3说明本发明提供的一种欠预测标签最少化AdaBoost集成学习方法具体流程步骤,该方法包括如下步骤:
S1、获取训练样本集;
S2b、初始化样本权值并赋初值,
Figure BDA00000612507500002113
其中,i=1,...,m,l=1,...,K,Z0是归一化因子,Cγ(i,l)表示欠预测标签最少化时,i类被错分成l类的代价矩阵;
S3b、迭代T次后,训练得到T个最佳弱分类器,通过步骤S31b~S33b来实现:
S31b、基于有权值
Figure BDA00000612507500002114
的训练样本集S训练弱分类器,t=1,...,T,通过步骤S311b~S313b来实现:S311b、对应样本集S的划分
Figure BDA00000612507500002115
计算
Figure BDA00000612507500002116
其中,j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure BDA00000612507500002117
表示划分段
Figure BDA00000612507500002118
内并标签集包含标签l的样本的概率;S312b、定义弱分类器ht(x),当
Figure BDA0000061250750000221
时,
Figure BDA0000061250750000222
其中,j=1,...,nt,ht(x,l)为弱分类器ht(x)输出标签l的置信度;S313b、选取弱分类器ht(x),使
Figure BDA0000061250750000223
最小化;
S32b、根据步骤S31b的结果来调整样本权值, &omega; i , l t + 1 = ( &omega; i , l t / Z t ) exp ( - h t ( x i , l ) + ( 1 / K ) &Sigma; k = 1 K h t ( x i , k ) ) ;
S33b、判断t是否小于T,若是,则令t=t+1,返回步骤S31b,若否,则进入步骤S4b;
S4b、组合T个最佳弱分类器得到最佳组合分类器,
Figure BDA0000061250750000225
其中 f ( x , l ) = &Sigma; t = 1 T h t ( x , l ) , f &OverBar; ( x ) = ( 1 / K ) &Sigma; l = 1 K f ( x , l ) .
实施例六
下面结合图4说明本发明提供的一种多标签分类问题AdaBoost集成学习方法具体流程步骤,该方法包括如下步骤:
S1、获取训练样本集;
S2c、初始化样本权值并赋初值,
Figure BDA0000061250750000229
i=1,...,m,l=1,...,K,Z0
Figure BDA00000612507500002210
归一化因子;
S3c、迭代T次后,训练得到T个最佳弱分类器,通过步骤S31c~S33c来实现:
S31c、基于有权值
Figure BDA00000612507500002211
的训练样本集S训练弱分类器,t=1,...,T,通过步骤S311c~S313c来实现:S311c、对应样本集S的划分
Figure BDA00000612507500002212
计算
Figure BDA00000612507500002213
其中,j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure BDA00000612507500002215
表示划分段
Figure BDA00000612507500002216
内并标签集包含除标签l外的标签的样本的概率,
Figure BDA00000612507500002217
表示划分段
Figure BDA00000612507500002218
内并标签集包含标签l的样本的概率;S312c、定义弱分类器ht(x),当
Figure BDA00000612507500002219
时,
Figure BDA00000612507500002220
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度,cover和cdef为两个常数,cover代表分类预测标签多于实际标签的单个标签代价,cdef代表分类预测标签少于实际标签的单个标签代价,且cover+cdef=1;S313c、选取弱分类器ht(x),使
Figure BDA0000061250750000231
最小化,其中,
Figure BDA0000061250750000232
S32c、根据步骤S31c的结果来调整样本权值,
Figure BDA0000061250750000233
Figure BDA0000061250750000234
其中,
Figure BDA0000061250750000235
表示第t+1轮循环时,xi的标签集不含l的概率,表示第t+1轮循环时,xi的标签集含l的概率;
S33c、判断t是否小于T,若是,则令t=t+1,返回步骤S31c,若否,则进入步骤S4c;
S4c、组合T个最佳弱分类器得到最佳组合分类器,
Figure BDA0000061250750000237
其中 f ( x , l ) = &Sigma; t = 1 T h t ( x , l ) , f &OverBar; ( x ) = ( 1 / K ) &Sigma; l = 1 K f ( x , l ) .
本发明方法不仅考虑了组合分类器分类错误率最小化,而且能区分组合分类器输出标签多于实际标签和少于实际标签,通过调整cover和cdef的值可选择学习方法的侧重点。当cover=1,cdef=0,本发明方法简化为εθ极小化的集成学习方法,即过预测标签最少化Adaboos t集成学习方法;当cover=0,cdef=1,该方法简化为εγ极小化的集成学习方法,即欠预测标签最少化AdaBoost集成学习方法。
以上介绍了一种多分类代价敏感学习的分类器集成方法,以及利用该方法实现的一种多分类连续AdaBoost集成学习方法、一种过预测标签最少化Adaboost集成学习方法、一种欠预测标签最少化AdaBoost集成学习方法和一种多标签分类问题AdaBoost集成学习方法。本发明并不限定于以上实施例,任何未脱离本发明技术方案,即仅仅对其进行本领域普通技术人员所知悉的改进或变更,均属于本发明的保护范围之内。

Claims (10)

1.一种多分类代价敏感学习的分类器集成方法,包括以下步骤:
S1、获取训练样本集;
S2、初始化样本权值并赋初值;
S3、迭代T次后,训练得到T个最佳弱分类器;
S4、组合T个最佳弱分类器得到最佳组合分类器,
其特征在于:
所述步骤S2给训练样本赋初值的方法为:
Figure FDA0000061250740000011
其中,i=1,...,m,l=1,...,K,yi∈{1,2,...,K},Z0
Figure FDA0000061250740000012
的归一化因子,c(yi,l)表示yi类被错分成l类的代价,m为训练样本数;
所述步骤S3具体包括如下步骤:
S31、基于有权值
Figure FDA0000061250740000013
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311、对应样本集S的划分,
Figure FDA0000061250740000014
计算
Figure FDA0000061250740000015
其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,表示划分段内l标签子集不包含xi的概率;
S312、定义弱分类器ht(x),当时,有
Figure FDA0000061250740000019
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313、选取弱分类器ht(x),使最小,其中,Zt代表样本权值调整后的归一化因子;
S32、根据步骤S31的结果来调整样本权值,
Figure FDA00000612507400000111
S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4。
2.根据权利要求1所述的方法,其特征在于:所述步骤S4得到最佳组合分类器的方法为:
Figure FDA00000612507400000112
其中
Figure FDA00000612507400000113
3.一种利用权利要求1所述的方法实现的多分类连续AdaBoost集成学习方法,包括以下步骤:
S1、获取训练样本集;
S2、初始化样本权值并赋初值;
S3、迭代T次后,训练得到T个最佳弱分类器;
S4、组合T个最佳弱分类器得到最佳组合分类器,
其特征在于:
所述步骤S2给训练样本赋初值的方法为:
Figure FDA00000612507400000114
i=1,...,m,l=1,...,K,Z0是归一化因子,其中c(i,i)=0,当i≠j时c(i,j)=1;
所述步骤S3具体包括如下步骤:
S31、基于有权值的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311、对应样本集S的划分,
Figure FDA0000061250740000022
计算其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,相当于
Figure FDA0000061250740000025
划分段内l标签子集不包含xi的概率;
S312、定义弱分类器ht(x),当时,有
Figure FDA0000061250740000027
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313、选取弱分类器ht(x),使
Figure FDA0000061250740000028
最小,其中,Zt代表样本权值调整后的归一化因子;
S32、根据步骤S31的结果来调整样本权值,
Figure FDA0000061250740000029
S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4。
4.根据权利要求3所述的方法,其特征在于:所述步骤S4得到最佳组合分类器的方法为:
Figure FDA00000612507400000210
其中
Figure FDA00000612507400000211
5.一种利用权利要求1所述的方法实现的过预测标签最少化Adaboost集成学习方法,包括以下步骤:
S1、获取训练样本集;
S2a、初始化样本权值并赋初值;
S3a、迭代T次后,训练得到T个最佳弱分类器;
S4a、组合T个最佳弱分类器得到最佳组合分类器,
其特征在于:
所述步骤S2a给训练样本赋初值的方法为:
Figure FDA00000612507400000212
其中,i=1,...,m,l=1,...,K,Z0是归一化因子,Cθ(i,l)表示过预测标签最少化时,i类被错分成l类的代价矩阵;
所述步骤S3a具体包括如下步骤:
S31a、基于有权值
Figure FDA00000612507400000213
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311a、对应样本集S的划分,
Figure FDA00000612507400000214
计算
Figure FDA00000612507400000215
其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure FDA00000612507400000216
表示划分段
Figure FDA00000612507400000217
内并标签集包含除标签l外的标签的样本的概率;
S312a、定义弱分类器ht(x),当
Figure FDA00000612507400000218
时,有
Figure FDA00000612507400000219
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313a、选取弱分类器ht(x),使
Figure FDA00000612507400000220
最小,其中,Zt代表样本权值调整后的归一化因子;
S32a、根据步骤S31a的结果来调整样本权值,
Figure FDA0000061250740000031
S33a、判断t是否小于T,若是,则令t=t+1,返回步骤S31a,若否,则进入步骤S4a。
6.根据权利要求5所述的方法,其特征在于:所述步骤S4a得到最佳组合分类器的方法为:
Figure FDA0000061250740000032
其中
Figure FDA0000061250740000034
7.一种利用权利要求1所述的方法实现的欠预测标签最少化AdaBoost集成学习方法,包括以下步骤:
S1、获取训练样本集;
S2b、初始化样本权值并赋初值;
S3b、迭代T次后,训练得到T个最佳弱分类器;
S4b、组合T个最佳弱分类器得到最佳组合分类器,
其特征在于:
所述步骤S2b给训练样本赋初值的方法为:
Figure FDA0000061250740000035
其中i=1,...,m  l=1,...,K,Z0是归一化因子,Cγ(i,l)表示欠预测标签最少化时,i类被错分成l类的代价矩阵;
所述步骤S3b具体包括如下步骤:
S31b、基于有权值
Figure FDA0000061250740000036
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311b、对应样本集S的划分
Figure FDA0000061250740000037
计算其中,j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure FDA0000061250740000039
表示划分段
Figure FDA00000612507400000310
内并标签集包含标签l的样本的概率;
S312b、定义弱分类器ht(x),当
Figure FDA00000612507400000311
时,
Figure FDA00000612507400000312
其中,j=1,...,nt,ht(x,l)为弱分类器ht(x)输出标签l的置信度;
S313b、选取弱分类器ht(x),使
Figure FDA00000612507400000313
最小化;
S32b、根据步骤S31b的结果来调整样本权值,
Figure FDA00000612507400000314
S33b、判断t是否小于T,若是,则令t=t+1,返回步骤S31b,若否,则进入步骤S4b。
8.根据权利要求7所述的方法,其特征在于:所述步骤S4b得到最佳组合分类器的方法为:
Figure FDA00000612507400000315
其中
Figure FDA00000612507400000316
Figure FDA00000612507400000317
9.一种利用权利要求1所述的方法实现的多标签分类问题AdaBoost集成学习方法,包括以下步骤:
S1、获取训练样本集;
S2c、初始化样本权值并赋初值;
S3c、迭代T次后,训练得到T个最佳弱分类器;
S4c、组合T个最佳弱分类器得到最佳组合分类器,
其特征在于:
所述步骤S2c给训练样本赋初值的方法为:
Figure FDA0000061250740000042
i=1,...,m,l=1,...,K,Z0
Figure FDA0000061250740000043
归一化因子;
所述步骤S3c具体包括如下步骤:
S31c、基于有权值
Figure FDA0000061250740000044
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:
S311c、对应样本集S的划分
Figure FDA0000061250740000045
计算
Figure FDA0000061250740000046
Figure FDA0000061250740000047
其中,j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,
Figure FDA0000061250740000048
表示划分段内并标签集包含除标签l外的标签的样本的概率,
Figure FDA00000612507400000410
表示划分段
Figure FDA00000612507400000411
内并标签集包含标签l的样本的概率;
S312c、定义弱分类器ht(x),当
Figure FDA00000612507400000412
时,
Figure FDA00000612507400000413
其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度,cover和cdef为两个常数,cover代表分类预测标签多于实际标签的单个标签代价,cdef代表分类预测标签少于实际标签的单个标签代价,且cover+cdef=1;
S313c、选取弱分类器ht(x),使
Figure FDA00000612507400000414
最小化,其中, U j = ( &Pi; l = 1 K p t j , l ) c over / K ( &Pi; l = 1 K q t j , l ) - c def / K ;
S32c、根据步骤S31c的结果来调整样本权值,
Figure FDA00000612507400000416
&omega; i , l 2 , t + 1 = ( &omega; i , l 2 , t / Z t ) exp ( - h t ( x i , l ) + ( 1 / K ) &Sigma; k = 1 K h t ( x i , k ) ) ;
S33c、判断t是否小于T,若是,则令t=t+1,返回步骤S31c,若否,则进入步骤S4c。
10.根据权利要求9所述的方法,其特征在于:所述步骤S4c得到最佳组合分类器的方法为:
Figure FDA00000612507400000418
其中
Figure FDA00000612507400000420
CN201110126230.9A 2011-05-15 2011-05-15 一种平均错分代价最小化的分类器集成方法 Expired - Fee Related CN102184422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110126230.9A CN102184422B (zh) 2011-05-15 2011-05-15 一种平均错分代价最小化的分类器集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110126230.9A CN102184422B (zh) 2011-05-15 2011-05-15 一种平均错分代价最小化的分类器集成方法

Publications (2)

Publication Number Publication Date
CN102184422A true CN102184422A (zh) 2011-09-14
CN102184422B CN102184422B (zh) 2012-12-05

Family

ID=44570595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110126230.9A Expired - Fee Related CN102184422B (zh) 2011-05-15 2011-05-15 一种平均错分代价最小化的分类器集成方法

Country Status (1)

Country Link
CN (1) CN102184422B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945255A (zh) * 2012-10-18 2013-02-27 浙江大学 跨媒体多视角非完美标签学习方法
CN103049759A (zh) * 2012-12-14 2013-04-17 上海邮政科学研究院 一种用于邮政分拣系统的邮政编码识别方法
CN104573709A (zh) * 2014-12-24 2015-04-29 深圳信息职业技术学院 基于设置总的错分率的可控置信机器算法
CN105320967A (zh) * 2015-11-04 2016-02-10 中科院成都信息技术股份有限公司 基于标签相关性的多标签AdaBoost集成方法
CN108664924A (zh) * 2018-05-10 2018-10-16 东南大学 一种基于卷积神经网络的多标签物体识别方法
CN111181939A (zh) * 2019-12-20 2020-05-19 广东工业大学 一种基于集成学习的网络入侵检测方法及装置
CN112668786A (zh) * 2020-12-30 2021-04-16 神华信息技术有限公司 一种矿车车辆安全评估预测方法、终端设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《四川大学学报( 工程科学版)》 20100331 赵向辉等 《面向目标的带先验概率的AdaBoost 算法》 第42卷, 第2期 *
《四川大学学报( 工程科学版)》 20110331 付忠良等 《分类器动态组合及基于分类器组合的集成学习算法》 第43卷, 第2期 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945255A (zh) * 2012-10-18 2013-02-27 浙江大学 跨媒体多视角非完美标签学习方法
CN102945255B (zh) * 2012-10-18 2016-06-22 浙江大学 跨媒体多视角非完美标签学习方法
CN103049759A (zh) * 2012-12-14 2013-04-17 上海邮政科学研究院 一种用于邮政分拣系统的邮政编码识别方法
CN103049759B (zh) * 2012-12-14 2015-11-18 上海邮政科学研究院 一种用于邮政分拣系统的邮政编码识别方法
CN104573709A (zh) * 2014-12-24 2015-04-29 深圳信息职业技术学院 基于设置总的错分率的可控置信机器算法
CN104573709B (zh) * 2014-12-24 2018-08-03 深圳信息职业技术学院 基于设置总的错分率的可控置信机器算法
CN105320967A (zh) * 2015-11-04 2016-02-10 中科院成都信息技术股份有限公司 基于标签相关性的多标签AdaBoost集成方法
CN108664924A (zh) * 2018-05-10 2018-10-16 东南大学 一种基于卷积神经网络的多标签物体识别方法
CN111181939A (zh) * 2019-12-20 2020-05-19 广东工业大学 一种基于集成学习的网络入侵检测方法及装置
CN111181939B (zh) * 2019-12-20 2022-02-25 广东工业大学 一种基于集成学习的网络入侵检测方法及装置
CN112668786A (zh) * 2020-12-30 2021-04-16 神华信息技术有限公司 一种矿车车辆安全评估预测方法、终端设备和存储介质
CN112668786B (zh) * 2020-12-30 2023-09-26 国能信息技术有限公司 一种矿车车辆安全评估预测方法、终端设备和存储介质

Also Published As

Publication number Publication date
CN102184422B (zh) 2012-12-05

Similar Documents

Publication Publication Date Title
CN102184422B (zh) 一种平均错分代价最小化的分类器集成方法
Bansal et al. Improved k-mean clustering algorithm for prediction analysis using classification technique in data mining
Sarfraz et al. Efficient parameter-free clustering using first neighbor relations
CN102332012B (zh) 基于类别之间相关性学习的中文文本分类方法
CN102663100B (zh) 一种两阶段混合粒子群优化聚类方法
Li et al. Using discriminant analysis for multi-class classification: an experimental investigation
Govaert et al. Block clustering with Bernoulli mixture models: Comparison of different approaches
US8499022B1 (en) Combining multiple clusterings by soft correspondence
Prabhu et al. Improving the performance of k-means clustering for high dimensional data set
CN103365997A (zh) 一种基于集成学习的观点挖掘方法
CN103678274A (zh) 一种基于改进互信息和熵的文本分类特征提取方法
CN104346459A (zh) 一种基于术语频率和卡方统计的文本分类特征选择方法
CN105976070A (zh) 基于重点元素的矩阵分解及微调方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN102004796B (zh) 一种网页文本的无阻滞层次分类方法与装置
CN103324929A (zh) 基于子结构学习的手写中文识别方法
Singh et al. Feature selection based classifier combination approach for handwritten Devanagari numeral recognition
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN103123685A (zh) 文本模式识别方法
CN104361337A (zh) 计算和存储空间受限下的稀疏核主成分分析方法
CN105760471A (zh) 基于组合凸线性感知器的两类文本分类方法
CN101410831A (zh) 对于对象的顺序稳定的分类的线性无监督方法
Wang et al. Gaebic: a novel biclustering analysis method for mirna-targeted gene data based on graph autoencoder
CN102663040A (zh) 基于正负对约束数据的kl距离训练得到属性列权重的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: CHENGDU INFORMATION TECHNOLOGY OF CHINESE ACADEMY

Free format text: FORMER NAME: CHENGDU INFORMATION TECHNOLOGY CO., LTD., CAS

CP01 Change in the name or title of a patent holder

Address after: 610041, No. 11, building 5, high tech building, East Road, Chengdu hi tech Zone, Sichuan

Patentee after: CHENGDU INFORMATION TECHNOLOGY OF CHINESE ACADEMY OF SCIENCE Co.,Ltd.

Address before: 610041, No. 11, building 5, high tech building, East Road, Chengdu hi tech Zone, Sichuan

Patentee before: Chengdu Information Technology Co.,Ltd. CAS

C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: 1803, room 18, building 1, building 360, crystal Road, No. 610017, Hui Lu, Chengdu hi tech Zone, Sichuan

Patentee after: CHENGDU INFORMATION TECHNOLOGY OF CHINESE ACADEMY OF SCIENCE Co.,Ltd.

Address before: 610041, No. 11, building 5, high tech building, East Road, Chengdu hi tech Zone, Sichuan

Patentee before: CHENGDU INFORMATION TECHNOLOGY OF CHINESE ACADEMY OF SCIENCE Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121205

CF01 Termination of patent right due to non-payment of annual fee