CN102129565A

CN102129565A - 基于冗余特征消减AdaBoost分类器的物体检测方法

Info

Publication number: CN102129565A
Application number: CN2011100493772A
Authority: CN
Inventors: 闻佳; 李超; 余建; 郭信谊; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-03-01
Filing date: 2011-03-01
Publication date: 2011-07-20
Anticipated expiration: 2031-03-01
Also published as: CN102129565B

Abstract

一种基于冗余特征消减AdaBoost分类器的物体检测方法，(1)分类器训练：在初次使用AdaBoost分类器之前需要使用一个丰富完备特征集和大量的训练样本对分类器进行训练，使用了基于权重的冗余特征消减对传统训练过程进行了改进；(2)物体特征提取：使用特征提取算法提取需要检测的物体的特征，如haar特征；(3)输入特征：将在(2)中得到的特征输入训练完毕的分类器；(4)得到检测结果：分类器对输入的特征进行二元分类，确定输入的特征是否属于待检测的物体，输出检测结果。

Description

基于冗余特征消减AdaBoost分类器的物体检测方法

技术领域

本发明一种基于冗余特征消减AdaBoost分类器(Adaboost basedweighted features redundancy elimination algorithm简称AdaBoostWrea)的物体检测方法，涉及一种物体的检测方法，特别是一种使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法。

背景技术

物体检测是模式识别中的二元分类问题，同时也是一个具有挑战性的计算机视觉问题，有时也被划分为机器学习领域的研究内容。物体检测可被广泛的应用于多个领域，如智能监控中的行人检测、人脸检测，在视频中检索相似图像等等。尽管已经有大量的文献对其进行了全面深入的探究，几个关键的问题至今没有被充分的阐述，甚至有些没有解决，因此仍是当前的一个热点研究领域之一。

物体检测系统，或更准确的说，一个模式分类系统一般有以下几个要素组成：传感器接收图像或视频等，特征生成，特征选择，分类器设计，检测系统评估。传感器用于为后续步骤捕获原始模式，如图像或视频帧；特征生成是为更好的表示目标物体而设计的某种特征评估方法；特征选择是选择最主要的特征以减少特征个数，去掉冗余和无关特征，并尽可能多的保留具有分类识别信息的特征，分类器设计根据训练样本使用某种分类器算法生成检测物体的分类器，AdaBoost分类器在物体检测中有着广泛的应用。在这几个阶段中，特征选择是一个不可或缺的步骤，它能够非常有效的降低特征空间维度，加强学习效率，提高预测精度，并减少学习的复杂度。

根据特征的分类辨识力，一个完整的特征集合可以在概念上分成四个完全独立的基本类别，它们分别是：不相关特征，冗余特征(或者叫部分弱相关特征)，弱相关但不冗余特征以及强相关特征。因此根据传统AdaBoost特征选择过程，我们发现所有不相关的和冗余特征都会贯穿于AdaBoost特征选择主过程中，这样一来不相关和冗余特征的存在将耗费大量的计算时间，显著降低了学习的速度，并且当一个特征被选中后，另一个与其不相关或冗余特征也可能被选中。这样就可能由于无关特征和冗余特征的存在而使学习算法产生分类器对训练样本过拟合现象(即训练样本得到的输出和期望输出基本一致，但是测试样本输出和测试样本的期望输出相差却很大)。

发明内容

本发明的技术解决问题：针对现有技术不足，提出一种使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法，能够在AdaBoost特征选择过程中消减冗余特征，加快分类器学习的速度，减少时间消耗，降低样本过拟合现象的发生的可能性，提高了整体性能。从而使物体检测更加精确，更加快速。

本发明的技术解决方案：一种基于冗余特征消减AdaBoost分类器的物体检测方法，包括以下步骤：

步骤1分类器训练：在初次使用AdaBoost分类器之前需要使用一个丰富完备特征集和大量的训练样本对分类器进行训练，同时进行特征选择；

步骤2物体特征提取：使用特征提取算法提取需要检测的物体的特征，如haar特征；

步骤3输入特征：将在步骤(2)中得到的特征输入步骤(1)训练完毕的分类器；

步骤4得到检测结果：分类器对输入的特征进行二元分类，确定输入的特征是否属于待检测的物体，输出检测结果。

其中，所述步骤1分类器训练如下进行：

1)输入：一个特征集合F＝{f₁，...，f_K}以及S＝{(x₁，y₁)，.....，(x_N，y_N)}这是一个带有标签的训练集合，其中y_i＝{0，1}分别对应正样本与负样本，一个组合分类器h和一个给定的循环次数T，消除系数λ，以及关联阈值γ。

2)初始化：数据集

初始化训练样本权重：当y_i＝0，

当y_j＝1时，

其中m和l分别代表负样本和正样本的个数，特征权重D：d_1，i＝1.0，特征阈值θ＝0.0，以及消除速率

3)进行T次循环，每次循环过程如下：

①归一化权重：

，使w_t成为概率分布；

②For对每个在F中且权值d_j＞θ的特征f_j，训练分类器h_j(每个分类器只能使用一个特征)。估计w_t的错误率ε_j＝∑_iw_t，i|h_j(x_i)-y_i|；

③用最小错误率ε_t选择分类器h_t，同时G←G∪{f_t}；

④执行elimination redundance(F，S，D_t，w_t，G_t，f_t，h，l，θ，γ)过程，即执行冗余特征消减过程；

⑤在e_i＝0处，更新权值

若样本x_i分类正确，则e_i＝1，并且

4)输出：强分类器

其中

同时选择了G中的T个特征。

其中，所述步骤4得到检测结果如下：

将获得的物体特征输入至分类器后，由于检测问题属于二元分类问题，所以将输出0或1的布尔值，表明检测的物体是否为目标物体。

本发明与现有技术相比的优点在于：

(1)引入最优特征的分辨力准则，将特征集合分为不相关特征，冗余特征，弱相关但不冗余特征以及强相关特征，使用最优特征子集来来衡量特征集合中各个特征的重要程度。

(2)与传统AdaBoost特征选择过程不同，该方法在训练分类器的过程中逐步消除那些与已选特征子集相互冗余的特征以及那些与分类不相关的特征。

(3)本发明具有较高的实时性和处理速度，本发明方法简洁、实用，有较高的效率。

附图说明

图1为本发明的使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法流程图；

图2为本发明的AdaBoost分类器训练流程图；

图3为本发明的AdaBoost分类器训练过程中冗余特征消减流程图；

具体实施方式

下面结合物体的haar特征检测过程对本文提出的方法作进一步说明：

本发明使用基于权重的冗余特征消减AdaBoost分类器的物体检测方法，如图1所示，具体包含以下步骤：

步骤一，分类器训练，如图2所示。

(1)输入：一个特征集合F＝{f₁，...，f_K}以及S＝{(x₁，y₁)，.....，(x_N，y_N)}这是一个带有标签的训练集合，其中y_i＝{0，1}分别对应正样本与负样本，一个组合分类器h和一个给定的循环次数T，消除系数λ，以及关联阈值γ。

(2)初始化：数据集初始化训练样本权重：当y_i＝0，

当y_j＝1时，

(3)进行T次循环，每次循环过程如下：

①归一化权重：

使w_t成为概率分布；

③用最小错误率ε_t选择分类器h_t，同时G←G∪{f_t}；

⑤在e_i＝0处，更新权值

若样本x_i分类正确，则e_i＝1，并且

(4)输出：强分类器

其中

同时

选择了G中的T个特征。

以上是分类器训练的整体过程，这里将对本发明中的冗余特征消减过程即步骤中所提到的elimination redundance(F，S，D_t，w_t，G_t，f_t，h，l，θ，γ)的具体实施进行叙述。为描述方便，本发明给出如下两个定义：

定义一：(F-correlation)任意两个特征f_i和f_j(i≠j)的相关性，被称为F-correlation，用C(f_i，f_j)来表示，其相关系数c_i，j的定义如下：

C (f_{i}, f_{j}) &LeftArrow; c_{i, j} = Σ_{s = 0}^{N} w_{s} | ζ (h_{i} (x_{s}), y_{s}) - ξ (h_{j} (x_{s}), y_{s}) |

其中w是训练样本的权重分布， h_i和h_j是分别对应于特征f_i和特征f_j训练出的学习结果假设(即弱分类器)，而返回值为0或1的二元函数ζ(h，y)则用于判断训练出的假设h对样本x_s的分类结果能否同标注的结果y相匹配。对于二元分类问题，如下公式更加简洁：

C (f_{i}, f_{j}) &LeftArrow; c_{i, j} = Σ_{s = 0}^{N} w_{s} | h_{i} (x_{s}) - h_{j} (x_{s}) |

也就是说c_i，j代表了这两个特征之间辨别力的差异程度，c_i，j的值越大，两个特征之间的差异程度越大。相反，两个特征越相近，c_i，j的值越小。换句话说，c_i，j表示了两个特征f_i和f_j分类能力的相似程度。

定义二：(G-correlation)任意特征f_i和一个特征集G之间的相关性，被称为G-correlation，用C(f_i，G)来表示，其相关系数c_i，G定义如下：

C (f_{i}, G) &LeftArrow; c_{i, G} = C (f_{i}, f_{j}) &CircleTimes; C (f_{i}, G^{'}),

f_{j} &NotElement; G^{'},

G＝G′∪{f_j}

其中

是一个累积操作符，它通过一种递归的方法将F-correlation和G-correlation两种相关性融合在一起。它可以是乘法运算符也可以是指数运算符。符号|Θ|表示一个单位值(标量或矢量)，根据具体使用的运算操作

，|Θ|的值也将不同，举例来说，1(标量或矢量)可以作为具有乘法语义的单位值，而0则可作为指数操作语义的单位值。这里G-correlation的含义可以理解为一种判断特征f_i跟已选特征子集G中的特征相比，能否提供更多额外的与分类相关的信息的度量方式。

基于特征选择过程及特征之间的相关性具有马尔可夫性质的假设，和简化计算复杂度及流程的目的，我们提出了一个名为布尔型冗余特征消减算法(Boolean elimination redundancy algorithm)，也就是说，算法只关注候选特征和新选择的特征直接的相关性F-correlation，而不关注同之前选择的特征子集G之间的相关性G-correlation。因此，我们只需要计算F-correlation。另外布尔型冗余特征消减算法假定所有特征的权重值为布尔值，d_i∈{0，1}且θ＝0。布尔消减冗余算法的过程如图8所示，出于计算复杂度的考虑，现在该方法只适用于二分类问题，过程如下，如图3所示：

输入：输入变量为elimination_redundance(F，S，D_t，w_t，G_t，f_t，h，l，θ，γ)中所示，其中，F代表特征集合，S代表带有标签的训练集合，Dt代表特征权重，wt代表样本权重，G是数据集，ft代表特征，h代表当前分类器，l代表负样本数，θ代表特征阈值，γ代表关联阈值。

。特别的，f_t是在该阶段刚刚挑选的特征，关联阈值为γ；

(1)初始化：将f_t权值置为d_t＝0，置关联序列R为空，即

(2)对

权值d_j＞0的进行如下操作：

①计算f_t与f_j的关联值，

②将c_t，j插入序列R中，并以升序排列；

(3)当j＜l，c_t，j≤γ时将特征权值置为：d_j＝0，其中j是对应特征fj的序号。

步骤二，物体特征提取：对需要检测的物体进行处理，使用特征提取算法提取出需要的特征，如haar特征；

步骤三，输入特征：将在步骤二中得到的特征输入训练完毕的分类器；

步骤四，得到检测结果：分类器对输入的特征进行二元分类，确定输入的特征是否属于待检测的物体，输出检测结果。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

尽管为说明目的公开了本发明的最佳实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。

Claims

1.基于冗余特征消减AdaBoost分类器的物体检测方法，其特征在于包括以下步骤：

(1)分类器训练：在初次使用AdaBoost分类器之前，使用基于权重的冗余特征消减对传统训练过程进行改进，对分类器进行训练，同时进行特征选择；

(2)物体特征提取：使用特征提取算法提取需要检测的物体的特征，；

(3)输入特征：将在步骤(2)中得到的特征输入步骤(1)训练完毕的分类器；

(4)得到检测结果：分类器对输入的特征进行二元分类，确定输入的特征是否属于待检测的物体，输出检测结果。

2.根据权利要求1所述的基于冗余特征消减AdaBoost分类器，其特征在于：所述步骤(1)基于冗余特征消减AdaBoost分类器的分类器训练方法如下：

1)输入：一个特征集合F＝{f₁，...，f_K}以及

S＝{(x₁，y₁)，.....，(x_N，y_N)}这是一个带有标签的训练集合，其中

y_i＝{0，1}分别对应正样本与负样本，一个组合分类器h和一个给定的循环次数T，消除系数λ，以及关联阈值γ；

2)初始化：数据集

初始化训练样本权重：当y_i＝0，

当y_j＝1时，其中m和l分别代表负样本和正样本的个数，特征权重D：d_1，i＝1.0，特征阈值θ＝0.0，以及消除速率

3)进行T次循环，每次循环过程如下：

①归一化权重：

使w_t成为概率分布；

②For对每个在F中且权值d_j＞θ的特征f_j，训练分类器h_j；估计w_t的错误率ε_j＝∑_iw_t，i|h_j(x_i)-y_i|；

③用最小错误率ε_t选择分类器h_t，同时G←G∪{f_t}；

④执行elimination_redundance(F，S，D_t，w_t，G_t，f_t，h，l，θ，γ)过程，即执行冗余特征消减过程；

⑤在e_i＝0处，更新权值若样本x_i分类正确，则e_i＝1，并且

4)输出：强分类器其中

同时选择了G中的T个特征。

3.根据权利要求2所述的基于冗余特征消减AdaBoost分类器，其特征在于：所述步骤3)中的执行elimination_redundance(F，S，D_t，w_t，G_t，f_t，h，l，θ，γ)冗余特征消减过程如下：

(1)输入：输入变量为elimination_redundance(F，S，D_t，w_t，G_t，f_t，h，l，θ，γ)中所示，其中，F代表特征集合，S代表带有标签的训练集合，D_t代表特征权重，w_t代表样本权重，G是数据集，f_t代表特征，h代表当前分类器，l代表负样本数，θ代表特征阈值，γ代表关联阈值；

(2)初始化：将f_t权值置为d_t＝0，置关联序列R为空，即

(3)对

权值d_j＞0的进行如下操作：

①计算f_t与f_j的关联值，

②将c_t，j插入序列R中，并以升序排列；

(4)当j＜l，c_t，j≤γ时将特征权值置为：d_j＝0，其中j是对应特征f_j的序号。