CN101937510A

CN101937510A - 基于类Haar和AdaBoost分类器的快速增量学习方法

Info

Publication number: CN101937510A
Application number: CN 201010280839
Authority: CN
Inventors: 文学志; 方巍; 郑钰辉
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2010-09-14
Filing date: 2010-09-14
Publication date: 2011-01-05
Anticipated expiration: 2030-09-14
Also published as: CN101937510B

Abstract

本发明提供一种基于类Haar和AdaBoost分类器的快速增量学习方法，属于图像检测技术领域。本发明对于新增加的未正确识别的训练样本集，在不损失已有学习效果的前提下，增加一些关键的类Haar特征信息，而不是重新寻找关键类Haar特征信息，以提高训练的速度。本发明利用所提出的增量学习方法较好地解决了快速提升基于类Haar特征和AdaBoost分类器方法的识别性能问题，将其应用于车辆图像检测实验，与传统增量学习方法相比，在两者提升识别性能相近的情形下，明显减少了学习机的学习时间。

Description

基于类Haar和AdaBoost分类器的快速增量学习方法

技术领域：

本发明涉及一种基于类Haar和AdaBoost分类器的快速增量学习方法，属于图像检测技术领域。

背景技术：

在基于机器学习识别方法中，基于类Haar特征与AdaBoost分类器的识别方法由于其识别性能好、检测速度快、能够满足实时性应用要求在车辆识别、人脸检测等领域获得了成功应用，但AdaBoost分类器相比较SVM(Support Vector Machines，支持向量机)等分类器，其训练过程非常耗时，而学习机的识别性能是一个累积提升的过程，增量学习是提高学习机性能的最直接、最有效的方式，然而，基于类Haar特征与AdaBoost分类器的方法本身具有计算量大、耗时长，其传统增量学习方法是将上一次学习完毕的学习机对新增加的训练样本集进行识别，将未正确识别的样本集与上一次学习所用训练样本集混合在一起作为新的训练样本训练集重新进行学习，使得训练所需时间越来越长，导致学习机不能灵活的扩展，大大限制了该识别方法的应用前景。

发明内容

本发明的所要解决的技术问题是针对现有基于类Haar特征与AdaBoost分类器的方法AdaBoost方法增量学习过程中存在的计算量大、耗时长问题，提出一种快速增量学习方法

本发明为实现上述发明目的采用如下技术方案：

一种基于类Haar和AdaBoost分类器的快速增量学习方法，所述快速增量学习方法对于未正确识别的新增加的训练样本集，采用原始训练样本集所得到的关键类Haar特征集为基础，通过增加新的关键类Haar特征来完成学习机的增量学习，具体步骤如下：

设新增加的未正确识别训练样本集合为Δ，样本集合Δ的样本数量为m，Δ与原始训练样本集合的并集为Ω，样本并集Ω的样本总数为n，基于原始训练样本集合得到的关键类Haar特征集为Γ；样本集合Δ的初始权值为u₁(i)＝1/m，其中i＝1，2，…，m；样本并集Ω的初始权值为v₁(i′)＝1/(n)，其中i′＝1，2，…，n；m、n均为自然数；

A、归一化样本并集Ω的权值：

v_{t} (i^{'}) = v_{t} (i^{'}) / Σ_{t = 1}^{n} v_{t} (i^{'});

B、基于样本集合Δ寻找关键特征：

1)归一化样本集合Δ的权值：

其中t代表迭代次数，t＝1，2，…，T，T为自然数；

2)在样本集合Δ上构造弱分类器集合，采用(1)式寻找分类误差最小的弱分类器φ_i和关键类Haar特征δ，

ϵ_{t} = \frac{1}{2} Σ_{i = 1}^{m} u_{t} (i) | φ_{t} (δ (x_{i})) - y_{i} |, - - - (1)

其中ε_t代表分类误差，φ_t(δ(x_i))表示对样本x_i上的关键特征δ的分类结果，y_i代表样本x_i的真实类别；

C、判断关键类Haar特征δ是否属于采用原始训练样本集所得到的关键类Haar特征集；当结果为是，进入下一步骤；当结果为否，则将所述关键类Haar特征δ添加进原始训练样本集所得到的关键类Haar特征集Γ，进入下一步骤；

D、在所述样本并集Ω和C步骤得到的关键类Haar特征集Γ上，构造弱分类器集合，并采用(2)式寻找误差最小的弱分类器f_t和关键类Haar特征η，

E_{t} = \frac{1}{2} Σ_{i = 1}^{m + n} v_{t} (i^{'}) | f_{t} (η (x_{i^{'}})) - y_{i^{'}} |, - - - (2)

其中E_t代表分类误差，f_t(η(x_i′))表示弱分类器f_t对样本x_i′上的关键特征η的分类结果；

E、在所述样本并集Ω上计算分类权值

α_t代表分类权值；

F、更新样本并集Ω的权值：f_t(x_i′)表示弱分类器f_t对样本x_i′的分类结果，e为自然对数底且e为常数；

G、更新样本集合Δ的权值：

u_t(i)＝exp(-y_iψ_t(x_i))，其中ψ_t(x_i)＝p_t(θ_t-δ(x_i))，p_t∈{-1，+1}表示分类方向，δ(x_i)表示样本x_i上的关键类Haar特征值，θ_t为弱分类器在类Haar特征δ上的分类阈值；

H、如果在样本并集Ω上由弱分类器组成的强分类器F(x)＝sign(∑α_tf_t(x))对样本并集Ω的识别效果达到期望值，则输出分类器以及所选取的关键类Haar特征集；否则，返回A步骤。

进一步的，本发明的基于类Haar和AdaBoost分类器的快速增量学习方法的步骤B的第1)步中T值为600。

进一步的，本发明的基于类Haar和AdaBoost分类器的快速增量学习方法的步骤H中所述的期望值定义为99％。

进一步的，分类阈值θ_t的计算方法如下：

为叙述方便，设类Haar特征δ在样本集合Δ上得到的特征值按由小到大排序得到的特征向量为SortVec，设排完序后对应的类别标签向量变为Lab；

1)构造候选分类位置集：从左向右察看所有类别标签出现变化的位置对，判断所述出现变化的位置对所对应的特征值是否相同；

A.若特征值不同，将所述位置对的第一个位置放入候选分类位置集中；

B.若特征值相同，首先向左查找与所述相同特征值不同的第一个特征值，判断该特征值对应的位置是否已包含在候选分类位置集中，若该特征值对应的位置没有包含在候选分类位置集中，则将该特征值对应的位置加入候选分类位置集中；然后再向右查找与所述相同特征值不同的第一个特征值，断该特征值对应的位置是否已包含在候选分类位置集中，若该特征值对应的位置没有包含在候选分类位置集中，则将该特征值对应的位置加入候选分类位置集中；记得到的候选分类位置集为L＝{l₁，l₂，…，l_k′}，其中k′为候选分类位置的个数，每一个候选分类位置用特征值对{SortVec(i-1)，SortVec(i)}来表示，记为l_j，j＝1，2，…，k′；

2)求最佳分类位置：从步骤1)得到的候选分类位置集L中选取一个使得分类错误最小的分类位置作为最佳分类位置τ，τ∈L；

3)设置分类阈值：设当特征值小于等于SortVec[τ-1]时，类别输出为Label；设当特征值大于等于SortVec[τ]时，类别输出为-Label，其中，Label∈{-1，+1}；

C.当特征值小于等于SortVec[τ-1]时，类别输出为Label的先验概率P₁为：

P_{1} (Label | SortVec [i] \leq SortVec [τ - 1]) = \frac{\underset{y_{i} = Label}{Σ} u_{i}}{\underset{i \leq τ - 1}{Σ} u_{i}} - - - (3)

D.当特征值大于等于SortVec[τ]时，类别输出为-Label的先验概率P₂为：

P_{2} (- Label | SortVec [i] &GreaterEqual; SortVec [τ]) = \frac{\underset{y_{i} = - Label}{Σ} u_{i}}{\underset{i &GreaterEqual; τ}{Σ} u_{i}} - - - (4)

其中，u_i为第i个训练样本的权值，y_i为第i个训练样本的真实标签；

E.当P₁≠0并且P₂≠0时，分类阈值θ_t设置方法如下：

θ_{i} = SortVec [τ - 1] + \frac{P_{1} * | SortVec [τ - 1] - SortVec [τ] |}{P_{1} + P_{2}} - - - (5)

当P₁＝0或P₂＝0时，可以将其理解成这样一个学习过程，即在训练期间弱分类器只学会识别一种类别，而通过实验发现，在特征分布正常的情况下，上面两种极端情况即使出现了，将其用于分类也无法得到最佳分类效果，总能找到比它分类效果更好的情形，因此不用考虑。

本发明采用上述技术方案，具有以下有益效果：

本发明利用所提出的增量学习方法较好地解决了快速提升基于类Haar特征和AdaBoost分类器方法的识别性能问题，将其应用于车辆图像检测实验，与传统增量学习方法相比，在两者提升识别性能相近的情形下，明显减少了学习机的学习时间。

附图说明：

图1是本发明的快速增量学习方法的流程图。

具体实施方案：

下面结合附图对技术方案的实施作进一步的详细描述：

如图1所示，为了便于描述，设新增加的未正确识别训练样本集合为Δ，样本数量为m；新增加的未正确识别训练样本集合与原始训练样本集合的并集为Ω，样本总数为n，基于原始训练样本集得到的特征集合Γ；样本集Δ的初始权值为u₁(i)＝1/m(i＝1，2，…，m)，样本集Ω的初始权值为v₁(i′)＝1/(n)(i′＝1，2，…，n)。

下面详细介绍图1中的快速增量学习方法。

1.归一化Ω的权值：

v_{t} (i^{'}) = v_{t} (i^{'}) / Σ_{i = 1}^{n} v_{t} (i^{'})

i＝1，2，…，n；

2.基于Δ寻找关键特征：

1)归一化Δ的权值：

i＝1，2，…，m，t＝1，2，…，T，其中t代表迭代次数；

2)在样本集合Δ上构造弱分类器集合，寻找分类误差最小的弱分类器φ_t和特征δ

φ_{t} : ϵ_{t} = \frac{1}{2} Σ_{i = 1}^{m} u_{t} (i) | δ (x_{i}) - y_{i} |

其中ε_t代表误差。

3.如果

则δ→Γ；

4.在样本集合Ω和特征集合Γ上，构造弱分类器集合，寻找误差最小的弱分类器f_t和特征η，

f_{t} : E_{t} = \frac{1}{2} Σ_{i^{'} = 1}^{n} v_{t} (i^{'}) | η (x_{i^{'}}) - y_{i^{'}} |

其中E_t代表误差。

5.在样本集合Ω上计算

α_{t} = \frac{1}{2} \ln ((1 - E_{t}) / E_{t});

6.更新样本集合Ω的权值

v_{t + 1} (i^{'}) = v_{i} (i^{'}) * e^{α_{t} * (1 - | f_{t} (x_{i^{'}}) - y_{i^{'}} |)}

7.更新样本集合Δ的权值：

u_t(i)＝exp(-y_iψ_t(x_i))

其中ψ_t(x_i)＝p_t(θ_t-δ(x_i))

8.如果在样本集Ω上由弱分类器组成的强分类器F(x)＝sign(∑α_tf_t(x))对Ω的识别效果达到期望值，则输出分类器以及所选取的关键类Haar特征集；否则，返回第1步。

本发明的主要思想是：对于新增加的未正确识别的训练样本集，在不损失已有学习效果的前提下，增加一些关键的类Haar特征信息，而不是重新寻找关键类Haar特征信息，以提高训练的速度。

Claims

1.一种基于类Haar和AdaBoost分类器的快速增量学习方法，其特征在于：所述快速增量学习方法对于未正确识别的新增加的训练样本集，采用原始训练样本集所得到的关键类Haar特征集为基础，通过增加新的关键类Haar特征来完成学习机的增量学习，具体步骤如下：

设新增加的未正确识别训练样本集合为Δ，样本集合Δ的样本数量为m，样本集合Δ与原始训练样本集合的并集为Ω，样本并集Ω的样本总数为n，基于原始训练样本集合得到的关键类Haar特征集为Γ；样本集合Δ的初始权值为u₁(i)＝1/m，其中i＝1，2，…，m；样本并集Ω的初始权值为v₁(i′)＝1/(n)，其中i′＝1，2，…，n；m、n均为自然数；

A、归一化样本并集Ω的权值：

v_{t} (i^{'}) = v_{t} (i^{'}) / Σ_{t = 1}^{n} v_{t} (i^{'});

B、基于样本集合Δ寻找关键特征：

1)归一化样本集合Δ的权值：

其中t代表迭代次数，t＝1，2，…，T，T为自然数；

2)在样本集合Δ上构造弱分类器集合，采用(1)式寻找分类误差最小的弱分类器φ_t和关键类Haar特征δ，

ϵ_{t} = \frac{1}{2} Σ_{i = 1}^{m} u_{t} (i) | φ_{t} (δ (x_{i})) - y_{i} |, - - - (1)

C、若关键类Haar特征δ属于采用原始训练样本集所得到的关键类Haar特征集；直接进入下一步骤；否则，则将所述关键类Haar特征δ添加进基于原始训练样本集所得到的关键类Haar特征集Γ，进入下一步骤；

E_{t} = \frac{1}{2} Σ_{t = 1}^{m + n} v_{t} (i^{'}) | f_{t} (η (x_{i^{'}})) - y_{i^{'}} |, - - - (2)

E、在所述样本并集Ω上计算分类权值

α_t代表分类权值；

G、更新样本集合Δ的权值：

u_t(i)＝exp(-y_iψ_t(x_i))，其中ψ_t(x_i)＝p_t(θ_t-δ(x_i))，p_t∈{-1，+1}表示分类方向，θ_t为弱分类器在类Haar特征δ上的分类阈值，δ(x_i)表示样本x_i上的关键类Haar特征；

2.根据权利要求1所述的基于类Haar和AdaBoost分类器的快速增量学习方法，其特征在于：步骤B的第1)步中T值为600。

3.根据权利要求1所述的基于类Haar和AdaBoost分类器的快速增量学习方法，其特征在于：所述步骤H中所述的期望值定义为99％。