CN102129565A - 基于冗余特征消减AdaBoost分类器的物体检测方法 - Google Patents

基于冗余特征消减AdaBoost分类器的物体检测方法 Download PDF

Info

Publication number
CN102129565A
CN102129565A CN2011100493772A CN201110049377A CN102129565A CN 102129565 A CN102129565 A CN 102129565A CN 2011100493772 A CN2011100493772 A CN 2011100493772A CN 201110049377 A CN201110049377 A CN 201110049377A CN 102129565 A CN102129565 A CN 102129565A
Authority
CN
China
Prior art keywords
feature
sorter
training
input
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100493772A
Other languages
English (en)
Other versions
CN102129565B (zh
Inventor
闻佳
李超
余建
郭信谊
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2011100493772A priority Critical patent/CN102129565B/zh
Publication of CN102129565A publication Critical patent/CN102129565A/zh
Application granted granted Critical
Publication of CN102129565B publication Critical patent/CN102129565B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于冗余特征消减AdaBoost分类器的物体检测方法,(1)分类器训练:在初次使用AdaBoost分类器之前需要使用一个丰富完备特征集和大量的训练样本对分类器进行训练,使用了基于权重的冗余特征消减对传统训练过程进行了改进;(2)物体特征提取:使用特征提取算法提取需要检测的物体的特征,如haar特征;(3)输入特征:将在(2)中得到的特征输入训练完毕的分类器;(4)得到检测结果:分类器对输入的特征进行二元分类,确定输入的特征是否属于待检测的物体,输出检测结果。

Description

基于冗余特征消减AdaBoost分类器的物体检测方法
技术领域
本发明一种基于冗余特征消减AdaBoost分类器(Adaboost basedweighted features redundancy elimination algorithm简称AdaBoostWrea)的物体检测方法,涉及一种物体的检测方法,特别是一种使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法。
背景技术
物体检测是模式识别中的二元分类问题,同时也是一个具有挑战性的计算机视觉问题,有时也被划分为机器学习领域的研究内容。物体检测可被广泛的应用于多个领域,如智能监控中的行人检测、人脸检测,在视频中检索相似图像等等。尽管已经有大量的文献对其进行了全面深入的探究,几个关键的问题至今没有被充分的阐述,甚至有些没有解决,因此仍是当前的一个热点研究领域之一。
物体检测系统,或更准确的说,一个模式分类系统一般有以下几个要素组成:传感器接收图像或视频等,特征生成,特征选择,分类器设计,检测系统评估。传感器用于为后续步骤捕获原始模式,如图像或视频帧;特征生成是为更好的表示目标物体而设计的某种特征评估方法;特征选择是选择最主要的特征以减少特征个数,去掉冗余和无关特征,并尽可能多的保留具有分类识别信息的特征,分类器设计根据训练样本使用某种分类器算法生成检测物体的分类器,AdaBoost分类器在物体检测中有着广泛的应用。在这几个阶段中,特征选择是一个不可或缺的步骤,它能够非常有效的降低特征空间维度,加强学习效率,提高预测精度,并减少学习的复杂度。
根据特征的分类辨识力,一个完整的特征集合可以在概念上分成四个完全独立的基本类别,它们分别是:不相关特征,冗余特征(或者叫部分弱相关特征),弱相关但不冗余特征以及强相关特征。因此根据传统AdaBoost特征选择过程,我们发现所有不相关的和冗余特征都会贯穿于AdaBoost特征选择主过程中,这样一来不相关和冗余特征的存在将耗费大量的计算时间,显著降低了学习的速度,并且当一个特征被选中后,另一个与其不相关或冗余特征也可能被选中。这样就可能由于无关特征和冗余特征的存在而使学习算法产生分类器对训练样本过拟合现象(即训练样本得到的输出和期望输出基本一致,但是测试样本输出和测试样本的期望输出相差却很大)。
发明内容
本发明的技术解决问题:针对现有技术不足,提出一种使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法,能够在AdaBoost特征选择过程中消减冗余特征,加快分类器学习的速度,减少时间消耗,降低样本过拟合现象的发生的可能性,提高了整体性能。从而使物体检测更加精确,更加快速。
本发明的技术解决方案:一种基于冗余特征消减AdaBoost分类器的物体检测方法,包括以下步骤:
步骤1分类器训练:在初次使用AdaBoost分类器之前需要使用一个丰富完备特征集和大量的训练样本对分类器进行训练,同时进行特征选择;
步骤2物体特征提取:使用特征提取算法提取需要检测的物体的特征,如haar特征;
步骤3输入特征:将在步骤(2)中得到的特征输入步骤(1)训练完毕的分类器;
步骤4得到检测结果:分类器对输入的特征进行二元分类,确定输入的特征是否属于待检测的物体,输出检测结果。
其中,所述步骤1分类器训练如下进行:
1)输入:一个特征集合F={f1,...,fK}以及S={(x1,y1),.....,(xN,yN)}这是一个带有标签的训练集合,其中yi={0,1}分别对应正样本与负样本,一个组合分类器h和一个给定的循环次数T,消除系数λ,以及关联阈值γ。
2)初始化:数据集
Figure BDA0000048393320000031
初始化训练样本权重:当yi=0,
Figure BDA0000048393320000032
当yj=1时,
Figure BDA0000048393320000033
其中m和l分别代表负样本和正样本的个数,特征权重D:d1,i=1.0,特征阈值θ=0.0,以及消除速率
Figure BDA0000048393320000034
3)进行T次循环,每次循环过程如下:
①归一化权重:
Figure BDA0000048393320000035
,使wt成为概率分布;
②For对每个在F中且权值dj>θ的特征fj,训练分类器hj(每个分类器只能使用一个特征)。估计wt的错误率εj=∑iwt,i|hj(xi)-yi|;
③用最小错误率εt选择分类器ht,同时G←G∪{ft};
④执行elimination redundance(F,S,Dt,wt,Gt,ft,h,l,θ,γ)过程,即执行冗余特征消减过程;
⑤在ei=0处,更新权值
Figure BDA0000048393320000036
若样本xi分类正确,则ei=1,并且
Figure BDA0000048393320000037
4)输出:强分类器
Figure BDA0000048393320000038
其中
Figure BDA0000048393320000039
同时选择了G中的T个特征。
其中,所述步骤4得到检测结果如下:
将获得的物体特征输入至分类器后,由于检测问题属于二元分类问题,所以将输出0或1的布尔值,表明检测的物体是否为目标物体。
本发明与现有技术相比的优点在于:
(1)引入最优特征的分辨力准则,将特征集合分为不相关特征,冗余特征,弱相关但不冗余特征以及强相关特征,使用最优特征子集来来衡量特征集合中各个特征的重要程度。
(2)与传统AdaBoost特征选择过程不同,该方法在训练分类器的过程中逐步消除那些与已选特征子集相互冗余的特征以及那些与分类不相关的特征。
(3)本发明具有较高的实时性和处理速度,本发明方法简洁、实用,有较高的效率。
附图说明
图1为本发明的使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法流程图;
图2为本发明的AdaBoost分类器训练流程图;
图3为本发明的AdaBoost分类器训练过程中冗余特征消减流程图;
具体实施方式
下面结合物体的haar特征检测过程对本文提出的方法作进一步说明:
本发明使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法,如图1所示,具体包含以下步骤:
步骤一,分类器训练,如图2所示。
(1)输入:一个特征集合F={f1,...,fK}以及S={(x1,y1),.....,(xN,yN)}这是一个带有标签的训练集合,其中yi={0,1}分别对应正样本与负样本,一个组合分类器h和一个给定的循环次数T,消除系数λ,以及关联阈值γ。
(2)初始化:数据集初始化训练样本权重:当yi=0,
Figure BDA0000048393320000042
当yj=1时,
Figure BDA0000048393320000043
其中m和l分别代表负样本和正样本的个数,特征权重D:d1,i=1.0,特征阈值θ=0.0,以及消除速率
Figure BDA0000048393320000044
(3)进行T次循环,每次循环过程如下:
①归一化权重:
Figure BDA0000048393320000051
使wt成为概率分布;
②For对每个在F中且权值dj>θ的特征fj,训练分类器hj(每个分类器只能使用一个特征)。估计wt的错误率εj=∑iwt,i|hj(xi)-yi|;
③用最小错误率εt选择分类器ht,同时G←G∪{ft};
④执行elimination redundance(F,S,Dt,wt,Gt,ft,h,l,θ,γ)过程,即执行冗余特征消减过程;
⑤在ei=0处,更新权值
Figure BDA0000048393320000052
若样本xi分类正确,则ei=1,并且
(4)输出:强分类器
Figure BDA0000048393320000054
其中
Figure BDA0000048393320000055
同时
选择了G中的T个特征。
以上是分类器训练的整体过程,这里将对本发明中的冗余特征消减过程即步骤中所提到的elimination redundance(F,S,Dt,wt,Gt,ft,h,l,θ,γ)的具体实施进行叙述。为描述方便,本发明给出如下两个定义:
定义一:(F-correlation)任意两个特征fi和fj(i≠j)的相关性,被称为F-correlation,用C(fi,fj)来表示,其相关系数ci,j的定义如下:
C ( f i , f j ) ← c i , j = Σ s = 0 N w s | ζ ( h i ( x s ) , y s ) - ξ ( h j ( x s ) , y s ) |
其中w是训练样本的权重分布, hi和hj是分别对应于特征fi和特征fj训练出的学习结果假设(即弱分类器),而返回值为0或1的二元函数ζ(h,y)则用于判断训练出的假设h对样本xs的分类结果能否同标注的结果y相匹配。对于二元分类问题,如下公式更加简洁:
C ( f i , f j ) ← c i , j = Σ s = 0 N w s | h i ( x s ) - h j ( x s ) |
也就是说ci,j代表了这两个特征之间辨别力的差异程度,ci,j的值越大,两个特征之间的差异程度越大。相反,两个特征越相近,ci,j的值越小。换句话说,ci,j表示了两个特征fi和fj分类能力的相似程度。
定义二:(G-correlation)任意特征fi和一个特征集G之间的相关性,被称为G-correlation,用C(fi,G)来表示,其相关系数ci,G定义如下:
C ( f i , G ) ← c i , G = C ( f i , f j ) ⊗ C ( f i , G ′ ) , f j ∉ G ′ , G=G′∪{fj}
Figure BDA0000048393320000063
其中
Figure BDA0000048393320000064
是一个累积操作符,它通过一种递归的方法将F-correlation和G-correlation两种相关性融合在一起。它可以是乘法运算符也可以是指数运算符。符号|Θ|表示一个单位值(标量或矢量),根据具体使用的运算操作
Figure BDA0000048393320000065
,|Θ|的值也将不同,举例来说,1(标量或矢量)可以作为具有乘法语义的单位值,而0则可作为指数操作语义的单位值。这里G-correlation的含义可以理解为一种判断特征fi跟已选特征子集G中的特征相比,能否提供更多额外的与分类相关的信息的度量方式。
基于特征选择过程及特征之间的相关性具有马尔可夫性质的假设,和简化计算复杂度及流程的目的,我们提出了一个名为布尔型冗余特征消减算法(Boolean elimination redundancy algorithm),也就是说,算法只关注候选特征和新选择的特征直接的相关性F-correlation,而不关注同之前选择的特征子集G之间的相关性G-correlation。因此,我们只需要计算F-correlation。另外布尔型冗余特征消减算法假定所有特征的权重值为布尔值,di∈{0,1}且θ=0。布尔消减冗余算法的过程如图8所示,出于计算复杂度的考虑,现在该方法只适用于二分类问题,过程如下,如图3所示:
输入:输入变量为elimination_redundance(F,S,Dt,wt,Gt,ft,h,l,θ,γ)中所示,其中,F代表特征集合,S代表带有标签的训练集合,Dt代表特征权重,wt代表样本权重,G是数据集,ft代表特征,h代表当前分类器,l代表负样本数,θ代表特征阈值,γ代表关联阈值。
。特别的,ft是在该阶段刚刚挑选的特征,关联阈值为γ;
(1)初始化:将ft权值置为dt=0,置关联序列R为空,即
(2)对
Figure BDA0000048393320000072
权值dj>0的进行如下操作:
①计算ft与fj的关联值,
Figure BDA0000048393320000073
②将ct,j插入序列R中,并以升序排列;
(3)当j<l,ct,j≤γ时将特征权值置为:dj=0,其中j是对应特征fj的序号。
步骤二,物体特征提取:对需要检测的物体进行处理,使用特征提取算法提取出需要的特征,如haar特征;
步骤三,输入特征:将在步骤二中得到的特征输入训练完毕的分类器;
步骤四,得到检测结果:分类器对输入的特征进行二元分类,确定输入的特征是否属于待检测的物体,输出检测结果。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
尽管为说明目的公开了本发明的最佳实施例和附图,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。

Claims (3)

1.基于冗余特征消减AdaBoost分类器的物体检测方法,其特征在于包括以下步骤:
(1)分类器训练:在初次使用AdaBoost分类器之前,使用基于权重的冗余特征消减对传统训练过程进行改进,对分类器进行训练,同时进行特征选择;
(2)物体特征提取:使用特征提取算法提取需要检测的物体的特征,;
(3)输入特征:将在步骤(2)中得到的特征输入步骤(1)训练完毕的分类器;
(4)得到检测结果:分类器对输入的特征进行二元分类,确定输入的特征是否属于待检测的物体,输出检测结果。
2.根据权利要求1所述的基于冗余特征消减AdaBoost分类器,其特征在于:所述步骤(1)基于冗余特征消减AdaBoost分类器的分类器训练方法如下:
1)输入:一个特征集合F={f1,...,fK}以及
S={(x1,y1),.....,(xN,yN)}这是一个带有标签的训练集合,其中
yi={0,1}分别对应正样本与负样本,一个组合分类器h和一个给定的循环次数T,消除系数λ,以及关联阈值γ;
2)初始化:数据集
Figure FDA0000048393310000021
初始化训练样本权重:当yi=0,
Figure FDA0000048393310000022
当yj=1时,其中m和l分别代表负样本和正样本的个数,特征权重D:d1,i=1.0,特征阈值θ=0.0,以及消除速率
Figure FDA0000048393310000024
3)进行T次循环,每次循环过程如下:
①归一化权重:
Figure FDA0000048393310000025
使wt成为概率分布;
②For对每个在F中且权值dj>θ的特征fj,训练分类器hj;估计wt的错误率εj=∑iwt,i|hj(xi)-yi|;
③用最小错误率εt选择分类器ht,同时G←G∪{ft};
④执行elimination_redundance(F,S,Dt,wt,Gt,ft,h,l,θ,γ)过程,即执行冗余特征消减过程;
⑤在ei=0处,更新权值若样本xi分类正确,则ei=1,并且
Figure FDA0000048393310000027
4)输出:强分类器其中
Figure FDA0000048393310000029
同时选择了G中的T个特征。
3.根据权利要求2所述的基于冗余特征消减AdaBoost分类器,其特征在于:所述步骤3)中的执行elimination_redundance(F,S,Dt,wt,Gt,ft,h,l,θ,γ)冗余特征消减过程如下:
(1)输入:输入变量为elimination_redundance(F,S,Dt,wt,Gt,ft,h,l,θ,γ)中所示,其中,F代表特征集合,S代表带有标签的训练集合,Dt代表特征权重,wt代表样本权重,G是数据集,ft代表特征,h代表当前分类器,l代表负样本数,θ代表特征阈值,γ代表关联阈值;
(2)初始化:将ft权值置为dt=0,置关联序列R为空,即
Figure FDA0000048393310000031
(3)对
Figure FDA0000048393310000032
权值dj>0的进行如下操作:
①计算ft与fj的关联值,
②将ct,j插入序列R中,并以升序排列;
(4)当j<l,ct,j≤γ时将特征权值置为:dj=0,其中j是对应特征fj的序号。
CN2011100493772A 2011-03-01 2011-03-01 基于冗余特征消减AdaBoost分类器的物体检测方法 Expired - Fee Related CN102129565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100493772A CN102129565B (zh) 2011-03-01 2011-03-01 基于冗余特征消减AdaBoost分类器的物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100493772A CN102129565B (zh) 2011-03-01 2011-03-01 基于冗余特征消减AdaBoost分类器的物体检测方法

Publications (2)

Publication Number Publication Date
CN102129565A true CN102129565A (zh) 2011-07-20
CN102129565B CN102129565B (zh) 2013-11-13

Family

ID=44267645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100493772A Expired - Fee Related CN102129565B (zh) 2011-03-01 2011-03-01 基于冗余特征消减AdaBoost分类器的物体检测方法

Country Status (1)

Country Link
CN (1) CN102129565B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法
CN103699907A (zh) * 2014-01-04 2014-04-02 复旦大学 基于机器学习的农药喷洒检测方法
CN103745238A (zh) * 2013-11-15 2014-04-23 中国科学院遥感与数字地球研究所 基于AdaBoost和主动形状模型的受电弓识别方法
CN103886097A (zh) * 2014-04-04 2014-06-25 华侨大学 基于自适应提升算法的中文微博观点句识别特征的提取方法
CN104700115A (zh) * 2014-07-30 2015-06-10 北京航空航天大学 基于稀疏提升集成分类器的火星探测器软着陆过程中陨石坑的检测方法
CN106339684A (zh) * 2016-08-26 2017-01-18 北汽福田汽车股份有限公司 一种行人检测的方法、装置及车辆
CN116805926A (zh) * 2023-08-21 2023-09-26 上海飞旗网络技术股份有限公司 网络业务类型识别模型训练方法、网络业务类型识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187977A (zh) * 2007-12-18 2008-05-28 北京中星微电子有限公司 一种人脸认证的方法和装置
CN101937510A (zh) * 2010-09-14 2011-01-05 南京信息工程大学 基于类Haar和AdaBoost分类器的快速增量学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187977A (zh) * 2007-12-18 2008-05-28 北京中星微电子有限公司 一种人脸认证的方法和装置
CN101937510A (zh) * 2010-09-14 2011-01-05 南京信息工程大学 基于类Haar和AdaBoost分类器的快速增量学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PAUL VIOLA,MICHAEL J.JONES: "Robust Real-Time Face Detection", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法
CN102346829B (zh) * 2011-09-22 2013-09-18 重庆大学 基于集成分类的病毒检测方法
CN103745238A (zh) * 2013-11-15 2014-04-23 中国科学院遥感与数字地球研究所 基于AdaBoost和主动形状模型的受电弓识别方法
CN103745238B (zh) * 2013-11-15 2018-04-24 中国科学院遥感与数字地球研究所 基于AdaBoost和主动形状模型的受电弓识别方法
CN103699907A (zh) * 2014-01-04 2014-04-02 复旦大学 基于机器学习的农药喷洒检测方法
CN103699907B (zh) * 2014-01-04 2017-02-15 复旦大学 基于机器学习的农药喷洒检测方法
CN103886097A (zh) * 2014-04-04 2014-06-25 华侨大学 基于自适应提升算法的中文微博观点句识别特征的提取方法
CN104700115A (zh) * 2014-07-30 2015-06-10 北京航空航天大学 基于稀疏提升集成分类器的火星探测器软着陆过程中陨石坑的检测方法
CN104700115B (zh) * 2014-07-30 2017-12-05 北京航空航天大学 基于稀疏提升集成分类器的火星探测器软着陆过程中陨石坑的检测方法
CN106339684A (zh) * 2016-08-26 2017-01-18 北汽福田汽车股份有限公司 一种行人检测的方法、装置及车辆
CN116805926A (zh) * 2023-08-21 2023-09-26 上海飞旗网络技术股份有限公司 网络业务类型识别模型训练方法、网络业务类型识别方法
CN116805926B (zh) * 2023-08-21 2023-11-17 上海飞旗网络技术股份有限公司 网络业务类型识别模型训练方法、网络业务类型识别方法

Also Published As

Publication number Publication date
CN102129565B (zh) 2013-11-13

Similar Documents

Publication Publication Date Title
CN102129565B (zh) 基于冗余特征消减AdaBoost分类器的物体检测方法
CN108960319B (zh) 一种面向全局的机器阅读理解建模中的候选答案筛选方法
US7769759B1 (en) Data classification based on point-of-view dependency
CN105069483B (zh) 一种对分类数据集进行测试的方法
CN112149420A (zh) 实体识别模型训练方法、威胁情报实体提取方法及装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN104915673A (zh) 一种基于视觉词袋模型的目标分类方法和系统
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN115811440B (zh) 一种基于网络态势感知的实时流量检测方法
CN116633601A (zh) 一种基于网络流量态势感知的检测方法
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
Mustapha et al. Age group classification using convolutional neural network (cnn)
CN115221864A (zh) 一种多模态假新闻检测方法及系统
Aljabri et al. Fake news detection using machine learning models
Garcıa et al. On the suitability of numerical performance measures for class imbalance problems
Ismaili et al. A supervised methodology to measure the variables contribution to a clustering
Li et al. A hybrid method of unsupervised feature selection based on ranking
AlDahoul et al. Local receptive field-extreme learning machine based adult content detection
Liang et al. Automatic security classification based on incremental learning and similarity comparison
CN104778478A (zh) 一种手写数字识别方法
Menon et al. An insight into the relevance of word ordering for text data analysis
Athidhi et al. YOLOv7-based model for detecting safety helmet wear on construction sites
Jothi et al. Machine learning approach to document classification using concept based features
Kanchana et al. Deep Fake BERT: Efficient Online Fake News Detection System
Gupta et al. A robust system to detect and explain public mask wearing behavior

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131113

Termination date: 20160301

CF01 Termination of patent right due to non-payment of annual fee