CN102163239B - 一种基于浮动分类阈值的分类器集成方法 - Google Patents

一种基于浮动分类阈值的分类器集成方法 Download PDF

Info

Publication number
CN102163239B
CN102163239B CN201110121230.XA CN201110121230A CN102163239B CN 102163239 B CN102163239 B CN 102163239B CN 201110121230 A CN201110121230 A CN 201110121230A CN 102163239 B CN102163239 B CN 102163239B
Authority
CN
China
Prior art keywords
sample
weights
classification
weak classifier
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110121230.XA
Other languages
English (en)
Other versions
CN102163239A (zh
Inventor
付忠良
赵向辉
姚宇
张丹普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Information Technology Co Ltd of CAS
Original Assignee
Chengdu Information Technology Co Ltd of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Information Technology Co Ltd of CAS filed Critical Chengdu Information Technology Co Ltd of CAS
Priority to CN201110121230.XA priority Critical patent/CN102163239B/zh
Publication of CN102163239A publication Critical patent/CN102163239A/zh
Application granted granted Critical
Publication of CN102163239B publication Critical patent/CN102163239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于浮动分类阈值的分类器集成方法,该方法通过迭代T次,训练得到T个最佳弱分类器,然后组合T个最佳弱分类器得到最佳组合分类器。当针对二分类问题时,训练T个最佳弱分类器包括:(3.1)基于有权值的训练样本集S训练弱分类器,t=1,...,T;(3.2)根据步骤(3.1)的结果调整样本权值(3.3)判断t是否小于T,若是,则令t=t+1,并返回(3.1),直至t=T;当针对多分类问题时,训练T个最佳弱分类器包括:(3.1)基于有权值的训练样本集S训练弱分类器,t=1,...,T;(3.2)根据步骤(3.1)的结果调整样本权值(3.3)判断t是否小于T,若是,则令t=t+1,并返回(3.1),直至t=T。本发明相对于现有技术,能克服固定分类阈值分类器对分类边界附近点分类不稳定的这一缺点。

Description

一种基于浮动分类阈值的分类器集成方法
技术领域
本发明属于机器学习和模式识别方法,特别是涉及一种基于浮动分类阈值的分类器集成方法来提高分类器的性能。
背景技术
通过多个分类器的组合来提升分类精度一直是集成学习研究的主要内容,弱学习定理有力地支撑了这种研究思路的可行性。其中,基于Boosting思想的AdaBoost(adaptive boosting,自适应增强算法)和连续AdaBoost算法是目前被研究和应用得最多的集成学习算法之一,其良好的性能和使用简单的特性吸引了大量研究者对其进行改进与完善。刘大有等人在专利CN101251851A中提出了基于增量朴素贝叶斯网多分类器集成方法;高常鑫等人在专利CN100587708C中阐述了一种分类器集成方法;Zhu和Fu等人于2009年分别在文章《Multi-classAdaBoost》和《Effictive property and best combination of classifiers linearcombination》中考虑了直接用于多分类问题的集成学习方法。在集成学习方法中,特别是连续AdaBoost算法,作为AdaBoost算法的扩展,其可以输出连续的置信度,因而能更好地刻画分类边界并受到了更多的重视。在连续AdaBoost算法中,待分类目标经过各个弱分类器分类后并不输出具体的类别标签,而是输出类别标签的置信度。组合分类器对各标签的置信度进行累加,最后输出累计置信度最大的标签。对待分类目标,弱分类器的输出值完全由该目标在该弱分类器对样本空间的划分的情况决定。如采用二段划分的二分类器,常采用正类样本均值和反类样本均值的平均值作为分段划分阈值,当目标位于正类样本均值所在的划分段内,对AdaBoost算法,弱分类器将输出正类标签,而连续AdaBoost算法,弱分类器将输出两个标签的置信度,并且正类标签的置信度一般大于反类标签的置信度。当目标位于反类样本均值所在的划分段内,对AdaBoost算法,弱分类器将输出反类标签,而连续AdaBoost算法,弱分类器将输出两个标签的置信度,并且正类标签的置信度一般小于反类标签的置信度。
然而,不管是AdaBoost算法还是连续AdaBoost算法,其得到的各个弱分类器的分段阈值都是确定的,待分类目标只能与固定的分段阈值比较。于是,当目标位于分段阈值附近时,目标值较小的变化都会导致输出两个完全不一样的结果,这一现象显然不太合理。换句话说,它们对弱分类器的分段阈值是敏感的,对位于分段阈值附近的目标的分类是不稳定的。
发明内容
针对现有技术存在的问题,本发明的主要目的在于提供一种能克服固定分类阈值分类器对分类边界附近点分类不稳定的问题的基于浮动分类阈值的分类器集成方法。
为实现上述目的,当针对二分类问题时,本发明提供一种基于浮动分类阈值的分类器集成方法的实施例,该方法包括如下步骤:
(1)获取训练样本集S;
(2)初始化样本权值并赋初值,
(3)迭代T次,训练得到T个最佳弱分类器;
(4)组合T个最佳弱分类器得到最佳组合分类器,
该步骤(3)包括如下步骤:
(3.1)基于有权值
Figure BDA0000060528180000031
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:①对应训练样本集S的划分,定义一个区间
Figure BDA0000060528180000032
i=1,...,m;②定义弱分类器ht(x),令
Figure BDA0000060528180000033
Figure BDA0000060528180000034
l=1,-1,其中xi代表第i个样本的具体值,yi代表第i个样本的类别,代表
Figure BDA0000060528180000036
中l类样本权值之和,l代表二分类问题中类别为1和-1的类;③选取弱分类器ht(x),使
Figure BDA0000060528180000037
最小,其中Zt代表样本权值调整后的归一化因子;
(3.2)根据步骤(3.1)的结果调整样本权值
Figure BDA0000060528180000038
(3.3)判断t是否小于T,若是,则令t=t+1,并返回步骤(3.1),若否,则进入步骤(4)。
更进一步地,组合T个最佳弱分类器得到最佳组合分类器的方法为:H(x)=sgn(f(x)),其中
Figure BDA0000060528180000039
当针对多分类问题时,本发明提供一种基于浮动分类阈值的分类器集成方法的实施例,该方法包括如下步骤:
(1)获取训练样本集S;
(2)初始化样本权值并赋初值,
Figure BDA00000605281800000310
i=1,...,m;
(3)迭代T次,训练得到T个最佳弱分类器;
(4)组合T个最佳弱分类器得到最佳组合分类器,
该步骤(3)包括如下步骤:
(3.1)基于有权值
Figure BDA00000605281800000311
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:①对应训练样本集S的划分,定义一个区间
Figure BDA00000605281800000312
i=1,...,m;②定义弱分类器ht(x),令
Figure BDA0000060528180000041
l=1,...,K,其中xi代表第i个样本的具体值,yi代表第i个样本的类别,
Figure BDA0000060528180000043
代表
Figure BDA0000060528180000044
中l类样本权值之和,l代表多分类问题中的类别;③选取弱分类器ht(x),使
Figure BDA0000060528180000045
最小,其中Zt代表样本权值调整后的归一化因子;
(3.2)根据步骤(3.1)的结果调整样本权值
ω i t + 1 = ω i t Z t exp ( - h t ( x i , y i ) + 1 K Σ l = 1 K h t ( x i , l ) ) ;
(3.3)判断t是否小于T,若是,则令t=t+1,并返回步骤(3.1),若否,则进入步骤(4)。
更进一步地,组合T个最佳弱分类器得到最佳组合分类器的方法为:
H ( x ) = arg max l { f ( x , l ) } , 其中 f ( x , l ) = Σ t = 1 T h t ( x , l ) .
本发明相对于现有技术,对各个弱分类器采取浮动分类阈值,各个弱分类器的输出值不是根据分类阈值而是根据训练样本的分布而确定,能克服固定分类阈值分类器对分类边界附近点分类不稳定的这一缺点,把只针对分类器的组合扩展到了针对分布的组合,因而可以更好地刻画分类边界。
附图说明
图1为本发明的基于浮动分类阈值的分类器集成方法的流程图
图2为本发明的实施例一针对二分类问题时步骤S3的流程图
图3为本发明的实施例一针对二分类问题时步骤S31的流程图
图4为本发明的实施例二针对多分类问题时步骤S3的流程图
图5为本发明的实施例二针对多分类问题时步骤S41的流程图
图6为在Ionosphere数据集上的测试错误率对比
图7为在Sonar数据集上的测试错误率对比
图8为在WDBC数据集上的测试错误率对比
图9为在Pima数据集上的测试错误率对比
图10为在SPECT数据集上的测试错误率对比
具体实施方式
下面结合附图,详细说明本发明的具体实施方式。
实施例一
下面结合图1、图2、图3具体说明本发明的针对二分类问题时该基于浮动分类阈值的分类器集成方法的具体流程步骤。
使用现有的连续AdaBoost算法时,设训练样本集S={(x1,y1),(x2,y2),..,(xm,ym)},yi∈{-1,+1},i=1,...,m,此处xi代表第i个样本的具体值,yi代表第i个样本的类别。(yi,yi)∈S简单记为xi∈S。对样本空间S进行一个nt段划分:
Figure BDA0000060528180000051
当i≠j时,
Figure BDA0000060528180000052
弱分类器ht(x)实际上对应于样本空间的一个nt段划分,当目标位于划分段
Figure BDA0000060528180000053
时,根据该段内1类和-1类样本发生的概率
Figure BDA0000060528180000054
Figure BDA0000060528180000055
弱分类器ht(x)将输出
Figure BDA0000060528180000056
显然,位于同一划分段内的目标,弱分类器输出值是一样的。当目标位于分段阈值附近时,目标值较小的变化将导致弱分类器输出两个不同的值,即当目标位于弱分类器的分段阈值附近时,分类结果是不稳定的。
为了克服这种不合理现象,一种可行办法就是弱分类器ht(x)的输出值,不是由目标位于弱分类器的划分段
Figure BDA0000060528180000057
内的两类样本的发生概率
Figure BDA0000060528180000058
Figure BDA0000060528180000059
决定,而是以包含该目标值的一个区域段内的两类样本的发生概率来决定。ht(x)的输出值仍然为
Figure BDA0000060528180000061
Figure BDA0000060528180000062
Figure BDA0000060528180000063
不是
Figure BDA0000060528180000064
内的两类样本发生概率,而是以x为中心的一个区域段内的两类样本发生概率。根据统计学中的极大似然思想,已经发生的事件应该具有大的概率,如果用区域中间值来体现具有大的概率,上述做法便体现了极大似然思想。
称包含目标x的区域为目标中心区域,则选取怎样的目标中心区域来计算两类样本发生的概率,从而确定弱分类器的分类输出值,便是一个重要的问题。为便于计算,对二分类问题,一些简单可行的措施可以有:
1.目标中心区域为以该目标为中心,区域宽度为样本值变化幅度的一半。当目标靠近两端时,目标中心区域可选取包含该目标对应半宽区域。
2.根据极大似然原则,目标中心区域的宽度可以动态,比如以该目标值为中心,逐步向两边扩展,直至两类样本发生概率之差值最大。
对于第1种措施,其相当于固定目标中心区域宽度,计算简单,目标位于区域中间,其能很好地体现极大似然思想。而对于第2种措施,当两类样本分布是标准正态分布时,不难验证,其得到的目标中心区域将正好是最优阈值对样本的两段划分,这便与连续AdaBoost算法完全一样了,失去了浮动阈值分类器作用。如果对措施2进行一点限制,比如区域向两边扩展时,向两类样本发生概率之差值增长最大方向扩展,然后再向另一方向扩展,并同时限制区域宽度不超过样本值变化幅度的一半,则就具有浮动阈值的特点了。
根据前面的分析,该针对二分类问题时的基于浮动分类阈值的分类器集成方法具体包括如下步骤:
S1、获取训练样本集S;
S2、初始化样本权值并赋初值,
Figure BDA0000060528180000065
S3、迭代T次,训练得到T个最佳弱分类器,通过步骤S31~S33来实现:
S31、基于有权值
Figure BDA0000060528180000071
的训练样本集S训练弱分类器,t=1,...,T,通过步骤S311~S313来实现:S311、对应训练样本集S的划分,定义一个区间
Figure BDA0000060528180000072
S312、定义弱分类器ht(x),令
Figure BDA0000060528180000073
l=1,-1,其中xi代表第i个样本的具体值,yi代表第i个样本的类别,
Figure BDA0000060528180000075
代表
Figure BDA0000060528180000076
中l类样本权值之和,l代表二分类问题中类别为1和-1的类;S313、选取弱分类器ht(x),使
Figure BDA0000060528180000077
最小,其中Zt代表样本权值调整后的归一化因子;
S32、根据步骤S31的结果调整样本权值
Figure BDA0000060528180000078
S33、判断t是否小于T,若是,则令t=t+1,并返回步骤S31,若否,则进入步骤S4;
S4、组合T个最佳弱分类器得到最佳组合分类器,方法为:H(x)=sgn(f(x)),其中
Figure BDA0000060528180000079
本发明与连续AdaBoost算法相比,其一,在弱分类器选取策略上,本发明直接采用了最小化权值调整后的归一化因子,最小化权值调整后的归一化因子是方法的实质;其二,在弱分类器的划分上,连续AdaBoost算法的ht(x)对应一个nt段划分,即
Figure BDA00000605281800000710
i≠j时,
Figure BDA00000605281800000711
ht(x)输出值定义为其中
Figure BDA00000605281800000713
Figure BDA00000605281800000714
为xi所位于的划分段
Figure BDA00000605281800000715
内正类样本累积权值与反类样本累积权值。而在本发明中,ht(x)对应的不是一个划分了,ht(x)输出值有类似公式
Figure BDA00000605281800000717
变成包含xi(一般以xi为中心)的样本空间的一个子集的正类样本累积权值与反类样本累积权值。即每一个xi得到样本空间S的一个子集但i≠j时,允许
Figure BDA00000605281800000720
其三,本发明能够根据ht(x)输出值近似得到样本空间的分布,而不只是简单的正反类样本在划分段内的分布差异。因此,本发明实际上已经把连续AdaBoost算法只能针对弱分类器的组合,扩展到了针对样本分布的组合。
实施例二
下面结合图1、图4、图5具体说明本发明的针对多分类问题时该基于浮动分类阈值的分类器集成方法的具体流程步骤。
在二分类问题中,利用了1和-1来表示两类标签。因此,弱分类器ht(x)的输出值直接为两类标签置信度的差值,即
Figure BDA0000060528180000081
时,
Figure BDA0000060528180000082
组合分类器则根据累积置信度差值的符号来输出类别。在多分类问题中,各个弱分类器只能输出对应类别标签的置信度,组合分类器就是累积同标签的置信度,最后输出累积置信度最大对应的标签。记ht(x,l)为ht(x)输出标签l(=1,...,K)的置信度,组合分类器
Figure BDA0000060528180000083
其中
Figure BDA0000060528180000084
对多分类(K分类)问题,定义训练样本集S={(x1,y1),(x2,y3),...,(xm,ym)}中的标签yi∈{1,...,K},i=1,...,m。与二分类问题一样,样本权值的调整与弱分类器的选取策略,均是为了使得选取的弱分类器尽量相互独立。弱分类器选取策略仍然是样本权值调整后的归一化因子,而样本权值的调整则根据被检测目标的置信度与平均置信度之差值来调整。因为当被检测目标的置信度最大,则将被正确分类,即
Figure BDA0000060528180000085
的大小,可近似度量样本(xi,yi)被正确分类的可能性。负指数函数,正好可以体现集成学习算法中样本权值调整的重要原则:被正确分类的样本的权值减少,被错误分类的样本的权值增加。
因此,该针对多分类问题时的基于浮动分类阈值的分类器集成方法具体包括如下步骤:
S1、获取训练样本集S;
S2、初始化样本权值并赋初值,
Figure BDA0000060528180000086
S3、迭代T次,训练得到T个最佳弱分类器,通过步骤S41~S43来实现:
S41、基于有权值
Figure BDA0000060528180000091
的训练样本集S训练弱分类器,t=1,...,T,通过步骤S411~S413来实现:S411、对应训练样本集S的划分,定义一个区间
Figure BDA0000060528180000092
S412、定义弱分类器ht(x),令
Figure BDA0000060528180000093
Figure BDA0000060528180000094
l=1,...,K,其中xi代表第i个样本的具体值,yi代表第i个样本的类别,代表
Figure BDA0000060528180000096
中l类样本权值之和,l代表多分类问题中的类别;S413、选取弱分类器ht(x),使
Figure BDA0000060528180000097
最小,其中Zt代表样本权值调整后的归一化因子;
S42、根据步骤S41的结果调整样本权值
Figure BDA0000060528180000098
S43、判断t是否小于T,若是,则令t=t+1,并返回步骤S41,若否,则进入步骤S4;
S4、组合T个最佳弱分类器得到最佳组合分类器,方法为:
H ( x ) = arg max l { f ( x , l ) } , 其中 f ( x , l ) = Σ t = 1 T h t ( x , l ) .
需要注意的是,在本方法中,
Figure BDA00000605281800000911
但i≠j时,允许这是浮动阈值与固定阈值的重要区别。在多分类问题中,仍然存在目标中心区域如何选取问题。因为本方法的真实目的是体现极大似然原则。因此,目标中心区域的选取仍然要体现这一思想。仍然可以采取目标位于所选区域的中间,以此体现极大似然思想,而区域的宽度,则可以是样本值变化幅度的一半,或1/K。
下面将本发明的基于浮动分类阈值的分类器集成方法用于实际运用中,并与现有的连续AdaBoost算法进行比较。
如果严格按照本方法来计算将是复杂的:首先,对不同的样本,需要统计不同的目标中心区域的各类样本累积权值。每个样本的每个属性值都要统计对应的目标中心区域,其几乎都需要遍历一次样本,计算量比较大;其次,在训练弱分类器时,对任一样本都要统计以其为中心的目标中心区域的各类样本的累积权值,以便得到对应的弱分类器输出,在得到各个弱分类器后,用于待分类目标的分类检测时,则又要根据待检测目标值,统计以该值为中心的目标中心区域内的各类样本的累积权值,计算量也很大。因此,本发明在用于实际运用中时,需要解决这两个计算步骤的耗时问题。
针对第一个问题,可参照AdaBoost算法用于人脸检测时的方法,因为在AdaBoost算法用于人脸检测时,其中引入的Harr-like特征也是一个很耗时的特征。在引入积分图概念后,可以通过积分图来完成任意矩形区域的累积灰度值的快速计算,于是AdaBoost算法用于人脸检测真正可行。按照类似的思想,为了统计任意区间内的各类样本的累积权值,可先统计大于给定样本值的各类样本的累积权值(相当于最大样本值到该样本值之间的各类样本累积权值),这只需遍历一次样本。然后,任意中间一段区域的各类样本累积权值,可以由该区间的两个边界点对应的上述统计值之差得到。可以由该方法来解决第一个计算步骤的耗时问题;针对第二个问题,事实上,并没有必要精细到样本取值变化范围内的任一值来统计目标中心区域的各类样本累积权值,也就是说,当两个目标值相差很小时,弱分类器输出值可以一样。这便可以解决第二个问题。
于是,可以按照下面的方法来计算弱分类器的输出值。为叙述简单,仍然用xi直接代表样本的某个属性值。记xi的最大值和最小值分别为
Figure BDA0000060528180000101
确定弱分类器对样本值的分辨率为(vmax-vmin)/n,即当两个目标的值相差小于(vmax-vmin)/n时,弱分类器输出同样的值,n≥2。把样本空间按样本值大小n等分,S=S1U...USn,并设S1包含vmax,Sn包含vmin。则定义弱分类器ht(x):任意xi∈Sj,令
Figure BDA0000060528180000111
Figure BDA0000060528180000112
l=1,...,K。其中Ri为包含Sj的相邻的一些Sk组成,即
Figure BDA0000060528180000113
比如按照前面介绍的第一种目标中心区域确定方法,则k取值范围为max(1,j-Δ):min(n,j+Δ)。当Δ=n/4,相当于目标中心区域为样本值变化范围的一半,Δ=1/(2K)时,目标中心区域为样本值变化范围的1/K。
当然,对于非数字属性的分类问题,将哪些样本作为相邻样本考虑,这是一个重要问题,不同的考虑方法,将会得到不同的分类方法。
前面从理论上分析了本发明比连续AdaBoost算法会有更好的效果。下面通过实验与现有的连续AdaBoost算法进行比较。
实验工具软件是MATLAB 7.8。实验数据选取了UCI中的Ionosphere,Sonar,Wisconsin Diagnostic Breast Cancer(WDBC),Pima,SPECT数据集,这几个数据集可从网址:http://archive.ics.uci.edu/ml/datasets.html下载。
本实验中的训练集和测试集按不同标签类同比例随机划分,重复多次计算测试错误率的均值和方差,均值反映方法的效果,方差反映方法的稳定性。实验中对数据集中训练集与测试集按照对等的比例划分,表1为本实验所选UCI实验数据集的情况。表1中“正例、反例”一列给出了各样本数据正类和反类的选择方法,“训练集、测试集”一列给出了训练集和测试集的选择方法。实验中重复抽样属性集的大小n选为与原始属性集相同,即表1中的“属性个数”一列给出的数值。
实验中采用的弱学习算法为决策树算法,对本发明和连续的AdaBoost算法在同样的数据集上用同样的参数进行对比实验。实验中对数据集分别进行30和40次随机迭代实验,得出应用各种方法对测试集数据的测试错误率的均值和方差。表2即为在实验数据集上的测试错误率均值和方差的对比,对应于表2的示意图如图6至图10所示(图中Ordinary AdaBoost代表现有的连续AdaBoost算法,Floating Threshold AdaBoost代表本发明,横坐标代表迭代实验次数,纵坐标代表测试错误率)。
特别指出,采取同比例随机划分训练集和测试集,可验证各方法的效果。划分的随机性能反映方法对训练集的适应性,针对固定训练集和测试集来验证是不科学的。而同比例划分,正好反映了学习算法的适用条件,一般的学习算法都有一个潜在假设,即训练集与测试集(或目标空间)是同分布的,也只有这样,通过降低训练错误率才能降低测试错误率,如果二者分布不同,分析结论将不一样。
表3
Figure BDA0000060528180000121
表4
Figure BDA0000060528180000122
实验结果表明,本发明确实比连续AdaBoost算法效果好。如表2所示,测试错误率的方差都很小,证明本发明具有稳定性;另外,本发明的测试错误率比AdaBoost算法低。而随着训练集比例增加,二者的测试错误率均呈现逐渐降低的趋势,而测试错误率方差,则呈现相反的趋势,这与常识吻合。
以上介绍了基于浮动分类阈值的分类器集成方法。本发明并不限定于以上实施例,任何未脱离本发明技术方案,即仅仅对其进行本领域普通技术人员所知悉的改进或变更,均属于本发明的保护范围之内。

Claims (4)

1.一种基于浮动分类阈值的分类器集成方法,用于人脸检测,所述方法包括如下步骤:
(1)获取训练样本集S,所述训练样本集S为人脸检测数据集;
(2)初始化样本权值并赋初值,
Figure FDA00004167488600000111
i=1,...,m;
(3)迭代T次,训练得到T个最佳弱分类器;
(4)组合T个最佳弱分类器得到最佳组合分类器,
其特征在于,当针对二分类问题时,所述步骤(3)包括如下步骤:
(3.1)基于有权值
Figure FDA00004167488600000112
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:①对应训练样本集S的划分,定义一个区间
Figure FDA00004167488600000113
i=1,...,m;②定义弱分类器ht(x),令 h t ( x i ) = 0.5 × ln ( p t i , 1 / p t i , - 1 ) , p t i , l = Σ i : ( x i ∈ S i t , y i = l ) ω i t , l=1,-1,其中xi代表第i个样本的具体值,yi代表第i个样本的类别,
Figure FDA0000416748860000012
代表
Figure FDA0000416748860000013
中l类样本权值之和,l代表二分类问题中类别为1和-1的类,即
Figure FDA0000416748860000014
Figure FDA0000416748860000015
为包含xi,以xi为中心样本空间的一个子集的正类样本累积权值与反类样本累积权值,每一个xi得到样本空间S的一个子集
Figure FDA0000416748860000016
但i≠j时,允许③选取弱分类器ht(x),使
Figure FDA0000416748860000018
最小,其中Zt代表样本权值调整后的归一化因子;
(3.2)根据步骤(3.1)的结果调整样本权值
Figure FDA0000416748860000019
(3.3)判断t是否小于T,若是,则令t=t+1,并返回步骤(3.1),若否,则进入步骤(4)。
2.根据权利要求1所述的基于浮动分类阈值的分类器集成方法,其特征在于,所述组合T个最佳弱分类器得到最佳组合分类器的方法为:H(x)=sgn(f(x)),其中 f ( x ) = Σ t = 1 T h t ( x ) .
3.一种基于浮动分类阈值的分类器集成方法,用于人脸检测,所述方法包括如下步骤:
(1)获取训练样本集S,所述训练样本集S为人脸检测数据集;
(2)初始化样本权值并赋初值,
Figure FDA0000416748860000021
i=1,...,m;
(3)迭代T次,训练得到T个最佳弱分类器;
(4)组合T个最佳弱分类器得到最佳组合分类器,
其特征在于,当针对多分类问题时,所述步骤(3)包括如下步骤:
(3.1)基于有权值
Figure FDA0000416748860000022
的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:①对应训练样本集S的划分,定义一个区间
Figure FDA0000416748860000023
i=1,...,m;②定义弱分类器ht(x),令 h t ( x i , l ) = ln ( p t i , l ) , p t i , l = Σ i : ( x i ∈ S i t , y i = l ) ω i t , l=1,...,K,其中xi代表第i个样本的具体值,yi代表第i个样本的类别,
Figure FDA0000416748860000025
代表
Figure FDA0000416748860000026
中l类样本权值之和,l代表多分类问题中的类别,即
Figure FDA0000416748860000027
为包含xi,以xi为中心样本空间的一个子集的正类样本累积权值与反类样本累积权值,每一个xi得到样本空间S的一个子集
Figure FDA0000416748860000028
S = S 1 t ∪ S 2 t ∪ . . . ∪ S m t , 但i≠j时,允许
Figure FDA00004167488600000210
③选取弱分类器ht(x),使
Figure FDA00004167488600000211
最小,其中Zt代表样本权值调整后的归一化因子;
(3.2)根据步骤(3.1)的结果调整样本权值
Figure FDA00004167488600000212
(3.3)判断t是否小于T,若是,则令t=t+1,并返回步骤(3.1),若否,则进入步骤(4)。
4.根据权利要求3所述的基于浮动分类阈值的分类器集成方法,其特征在于,所述组合T个最佳弱分类器得到最佳组合分类器的方法为: H ( x ) = arg max l { f ( x , l ) } , 其中 f ( x , l ) = Σ t = 1 T h t ( x , l ) .
CN201110121230.XA 2011-05-11 2011-05-11 一种基于浮动分类阈值的分类器集成方法 Active CN102163239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110121230.XA CN102163239B (zh) 2011-05-11 2011-05-11 一种基于浮动分类阈值的分类器集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110121230.XA CN102163239B (zh) 2011-05-11 2011-05-11 一种基于浮动分类阈值的分类器集成方法

Publications (2)

Publication Number Publication Date
CN102163239A CN102163239A (zh) 2011-08-24
CN102163239B true CN102163239B (zh) 2014-04-23

Family

ID=44464466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110121230.XA Active CN102163239B (zh) 2011-05-11 2011-05-11 一种基于浮动分类阈值的分类器集成方法

Country Status (1)

Country Link
CN (1) CN102163239B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761210B (zh) * 2014-01-02 2018-02-13 Tcl集团股份有限公司 一种多分类器阈值的设置方法
CN103942565B (zh) * 2014-04-11 2016-03-30 天津大学 基于迭代二分级联分类器的快速物体检测方法
CN104573709B (zh) * 2014-12-24 2018-08-03 深圳信息职业技术学院 基于设置总的错分率的可控置信机器算法
CN104598923B (zh) * 2015-01-08 2018-06-22 深圳信息职业技术学院 基于score输出值百分比的可控置信机器分类方法
CN104820825B (zh) * 2015-04-27 2017-12-22 北京工业大学 基于Adaboost算法的人脸识别优化方法
CN107818339A (zh) * 2017-10-18 2018-03-20 桂林电子科技大学 一种人类活动识别的方法
CN108021940B (zh) * 2017-11-30 2023-04-18 中国银联股份有限公司 基于机器学习的数据分类方法及系统
CN109547546B (zh) * 2018-11-12 2020-06-05 网宿科技股份有限公司 一种请求任务的调度方法及调度中心服务器
CN110929617B (zh) * 2019-11-14 2023-05-30 绿盟科技集团股份有限公司 一种换脸合成视频检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
付忠良等.《AdaBoost 算法的推广———一组集成学习算法》.《四川大学学报( 工程科学版)》.2010,第42卷(第6期),第91-98页. *
付忠良等.《分类器动态组合及基于分类器组合的集成学习算法》.《四川大学学报( 工程科学版)》.2011,第43卷(第2期),第58-65页. *
赵向辉等.《面向目标的带先验概率的AdaBoost 算法》.《四川大学学报( 工程科学版)》.2010,第42卷(第2期),第139-144页. *

Also Published As

Publication number Publication date
CN102163239A (zh) 2011-08-24

Similar Documents

Publication Publication Date Title
CN102163239B (zh) 一种基于浮动分类阈值的分类器集成方法
Berry et al. Functional summaries of persistence diagrams
CN104007431B (zh) 基于dpLVSVM模型的雷达HRRP的目标识别方法
CN104408481B (zh) 基于深度小波神经网络的极化sar图像分类方法
CN101894275B (zh) 一种弱监督的sar图像分类方法
CN102402685B (zh) 基于Gabor特征的三马尔可夫场SAR图像分割方法
CN105069796B (zh) 基于小波散射网络的sar图像分割方法
CN105261004A (zh) 基于均值漂移和邻域信息的模糊c均值图像分割方法
CN108122008A (zh) 基于稀疏表示和多特征决策级融合的sar图像识别方法
CN105005789B (zh) 一种基于视觉词汇的遥感图像地物分类方法
CN106778687A (zh) 基于局部评估和全局优化的注视点检测方法
CN101630367A (zh) 基于多分类器的手写体字符识别拒识方法
CN104751166A (zh) 基于光谱角和欧氏距离的遥感影像分类方法
CN103886336A (zh) 基于稀疏自动编码器的极化sar图像分类方法
CN105913081A (zh) 基于改进的PCAnet的SAR图像分类方法
CN104751469A (zh) 基于核模糊c均值聚类的图像分割方法
CN101196564A (zh) 拉普拉斯正则化最小二乘合成孔径雷达自动目标识别方法
CN104732552B (zh) 基于非平稳条件场的sar图像分割方法
CN104239901A (zh) 基于模糊粒子群和目标分解的极化sar图像分类方法
CN105989375A (zh) 对手写字符图像进行分类的分类器、分类装置和分类方法
CN104850867A (zh) 一种基于直觉模糊c均值聚类的目标识别方法
CN110969121A (zh) 一种基于深度学习的高分辨率雷达目标识别算法
CN104820841A (zh) 基于低阶互信息和光谱上下文波段选择的高光谱分类方法
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN103886335A (zh) 基于模糊粒子群和散射熵的极化sar图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 610041, No. 11, building 5, high tech building, East Road, Chengdu hi tech Zone, Sichuan

Applicant after: Chengdu Information Technology of Chinese Academy of Sciences Co., Ltd.

Address before: 610041, No. 11, building 5, high tech building, East Road, Chengdu hi tech Zone, Sichuan

Applicant before: Chengdu Information Technology Co., Ltd., CAS

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHENGDU INFORMATION TECHNOLOGY CO., LTD., CAS TO: CHENGDU INFORMATION TECHNOLOGY OF CHINESE ACADEMY OF SCIENCES CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Room 18, building 1, building No. 360, No. 610041, Fai Road, high tech Zone, Sichuan, Chengdu, China

Patentee after: Chengdu Information Technology of Chinese Academy of Sciences Co., Ltd.

Address before: 610000, No. 11, building 5, high tech building, East Road, Chengdu hi tech Zone, Sichuan

Patentee before: Chengdu Information Technology of Chinese Academy of Sciences Co., Ltd.