CN105654124A

CN105654124A - 一种加快Adboost训练速度与收敛速度的方法

Info

Publication number: CN105654124A
Application number: CN201511005415.9A
Authority: CN
Inventors: 田雨农; 吴子章; 周秀田; 于维双; 陆振波
Original assignee: Dalian Roiland Technology Co Ltd
Current assignee: Dalian Roiland Technology Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-08
Anticipated expiration: 2035-12-29
Also published as: CN105654124B

Abstract

一种加快Adboost训练速度与收敛速度的方法，包括：引入边界条件调节权重的步骤；利用级联分类器之间集合关系减少重复计算的步骤；利用并行计算加速排序的步骤。在边界条件下，加快了训练程序的收敛速度，从而节省了大量训练开销，同时也减轻了使用分类器进行检测时的性能损耗。

Description

一种加快Adboost训练速度与收敛速度的方法

技术领域

本发明属于目标检测领域，具体说是一种加快Adboost训练速度与收敛速度的方法。

背景技术

随着Adboost算法在人脸检测、行人检测、车辆检测及其他目标检测中的广泛应用，其算法的训练速度与收敛速度也逐步受到了越来越多的关注与研究。例如，有些改进算法中将权重调整偏向于分对的样本，这样促使训练的分类器具有相对更高的正样本检出能力；而有些算法中将权重调整偏向于分错的样本，这样则使训练得到的分类器对分错的样本具有更高的敏感性，也就相对降低了误识别率。然而正样本的检出率与负样本的误识别率本身就是一对矛盾，二者难以兼得。目前，现有的大多数改进算法主要针对如何将样本特征降维从而降低训练的计算代价，或采用分布式计算的方式解决级联分类器训练消耗资源多的问题。

发明内容

本发明提供了一种加快Adboost训练速度与收敛速度的方法，在边界条件下，加快了训练程序的收敛速度，从而节省了大量训练开销，同时也减轻了使用分类器进行检测时的性能损耗。

为实现上述目的，本发明的技术方案是，一种加快Adboost训练速度与收敛速度的方法，包括：引入边界条件调节权重的步骤；利用级联分类器之间集合关系减少重复计算的步骤；利用并行计算加速排序的步骤。

进一步的，所述的引入边界条件调节权重的步骤，首先，定义两种边界条件：边界条件1，负样本的误识别率满足退出条件，正样本的检出率接近于退出条件；边界条件2，负样本的误识别率接近于退出条件，正样本的检出率满足退出条件；在保持权重总和不变的前提下，将满足一定条件的权重调整引入反馈，从而有方向性地增大分错的正样本的的权重比例，使正样本的检出率更加容易达到要求；

进一步的，所述接近于退出条件是指相差0.1％以内；

进一步的，对于弱分类器的权重调节过程，步骤如下：

S1：首先，对样本权重进行初始化；

S2：然后，进行弱分类器的训练，将训练得到的弱分类器作用于样本，检测哪些样本被正确分类，哪些被错误分类；

S3：对于错误分类的样本其权重增加，正确分类的样本权重减少，然后进行权重归一化；

S4：计算正样本的检出率与负样本的误识别率，判断是否满足预先设定好的退出条件。

进一步的，在步骤S4中，如果满足就直接退出本级强分类器的训练；否则：

判断是否满足边界条件1，如果满足则增大分错的正样本权重比例并进行权重归一化；

判断是否满足边界条件2，如果满足则增大分错的负样本权重比例并进行权重归一化；

既不满足边界条件1也不满足边界条件2则进入下一级弱分类器的训练。

进一步的，利用级联分类器减少重复计算的步骤为，在每一级强分类器的第一个弱分类器中对样本进行各个特征维度的排序，并且将排序结果记录下来。

进一步的，同时，记录下排序的样本的索引信息。

作为更进一步的，利用级联分类器之间集合关系减少重复计算的步骤为，将原样本的特征维度进行拆分，根据训练程序所在环境的处理器情况拆分为S份，针对每一份特征维度都启用一个线程进行排序、计算每个样本的分错样本权重和，然后再将各个线程计算的结果进行合并，即可找出全局最小的分错样本权重之和。

作为更进一步的，对特征维度进行拆分得到的每一个线程进行样本层面的拆分与并行计算，根据训练程序所在环境的处理器情况，启动相应数量的线程并且绑定到不同的cpu上进行计算每个维度的分错样本权重和，然后再将各个线程计算的结果进行合并，即可找出所有维度中最小的分错样本权重之和。

作为更进一步的，上述训练程序所在环境16核cpu内存32G的服务器上。

本发明由于采用以上技术方案，能够取得如下的技术效果：

(1)通过引入控制理论中的反馈调节思想，在边界条件下，加快了训练程序的收敛速度，从而节省了大量训练开销，同时也减轻了使用分类器进行检测时的性能损耗。

(2)本发明利用同一个强分类器中，训练样本不会增加的事实，将第一个弱分类器的排序结果及其样本索引记录下来，当进行后续弱分类器训练的时候使用索引查表的方式进行排序结果查询，促使每级强分类器只需要在第一个弱分类器中进行排序，进而极大地降低了训练的成本开销。

(3)本发明根据不同的训练环境对特征维度与样本分别进行两级并行任务拆分与计算，充分利用计算环境的计算能力，使总体的训练时间成倍下降。

附图说明

本发明共有附图4幅：

图1为调节权重流程框图；

图2为弱分类器间继承排序结果示意图；

图3为特征维度的拆分与并行计算的示意图；

图4为样本排序的拆分与并行计算的示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步的具体说明。

实施例1

一种加快Adboost训练速度与收敛速度的方法，包括：引入边界条件调节权重的步骤；利用级联分类器之间集合关系减少重复计算的步骤；利用并行计算加速排序的步骤。

所述的引入边界条件调节权重的步骤，首先，定义两种边界条件：边界条件1，负样本的误识别率满足退出条件，正样本的检出率接近于退出条件(相差0.1％以内)；边界条件2，负样本的误识别率接近于退出条件(相差0.1％以内)，正样本的检出率满足退出条件；在保持权重总和不变的前提下，将满足一定条件下(比如分错样本的比例仅为万分之几，正样本的检出率为99.5％，而实际要求达到99.6％才会退出本级弱分类器的训练)的权重调整引入反馈，从而有方向性地增大分错的正样本的的权重比例，使正样本的检出率更加容易达到要求；

对于弱分类器的权重调节过程，步骤如下：

S1：首先，对样本权重进行初始化；一般都付给相同的权重值。

S4：计算正样本的检出率与负样本的误识别率，判断是否满足预先设定好的退出条件，如果满足就直接退出本级强分类器的训练；否则：判断是否满足边界条件1，如果满足则增大分错的正样本权重比例并进行权重归一化；判断是否满足边界条件2，如果满足则增大分错的负样本权重比例并进行权重归一化；既不满足边界条件1也不满足边界条件2则进入下一级弱分类器的训练。

利用级联分类器减少重复计算的步骤为，利用Adboost中级联分类器中各个强分类器训练的特点，在每一级强分类器的第一个弱分类器中对样本进行各个特征维度的排序，并且将排序结果记录下来；同时，记录下排序的样本的索引信息。这样当进入第二个弱分类器的时候，虽然一部分样本被筛选掉了，但是仍然可以通过之前记录的索引信息追踪到样本在各个特征维度的排序结果，从而就不再需要排序了。弱分类器间继承排序结果的过程，如图2所示。

本发明根据弱分类器训练过程中，需要从不同特征维度上对样本进行排序，从而找出具有最小分错样本权重之和的特定维度及其特征值即阈值。本发明将原样本的特征维度进行拆分，根据训练程序所在环境(PC电脑或服务器)的处理器情况拆分为S份，针对每一份特征维度都启用一个线程进行排序、计算每个样本的分错样本权重和，然后再将各个线程计算的结果进行合并，即可找出全局最小的分错样本权重之和。对特征维度进行拆分得到的每一个线程，本发明又进行进一步的样本层面的拆分与并行计算，如图4所示。同样是根据训练程序所在环境的处理器情况，启动相应数量的线程并且绑定到不同的cpu上进行计算每个维度的分错样本权重和，然后再将各个线程计算的结果进行合并，即可找出所有维度中最小的分错样本权重之和。

上述训练程序所在环境16核cpu内存32G的服务器上，利用上述三点改进，本发明对5820维特征的500000样本训练，改进后的训练时间约是改进前训练时间的1/200。

本发明通过引入控制理论中的反馈调节思想，在边界条件下，加入两次权重调整进行反馈调节，使权重比例进行有倾向性的倾斜，从而加快了训练程序的收敛速度，利用同一个强分类器中，训练样本不会增加的即成事实，将第一个弱分类器的排序结果及其样本索引记录下来，当进行后续弱分类器训练的时候使用索引查表的方式进行排序结果查询。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种加快Adboost训练速度与收敛速度的方法，其特征在于，包括：引入边界条件调节权重的步骤；利用级联分类器之间集合关系减少重复计算的步骤；利用并行计算加速排序的步骤。

2.根据权利要求1所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，所述的引入边界条件调节权重的步骤，首先，定义两种边界条件：边界条件1，负样本的误识别率满足退出条件，正样本的检出率接近于退出条件；边界条件2，负样本的误识别率接近于退出条件，正样本的检出率满足退出条件；在保持权重总和不变的前提下，将满足一定条件的权重调整引入反馈，从而有方向性地增大分错的正样本的的权重比例，使正样本的检出率更加容易达到要求。

3.根据权利要求2所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，所述接近于退出条件是指相差0.1％以内。

4.根据权利要求2所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，对于弱分类器的权重调节过程，步骤如下：

S1：首先，对样本权重进行初始化；

5.根据权利要求4所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，在步骤S4中，如果满足就直接退出本级强分类器的训练；否则：

6.根据权利要求1所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，利用级联分类器之间集合关系减少重复计算的步骤为，在每一级强分类器的第一个弱分类器中对样本进行各个特征维度的排序，并且将排序结果记录下来。

7.根据权利要求6所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，同时，记录下排序的样本的索引信息。

8.根据权利要求1所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，利用并行计算加速排序的步骤为，将原样本的特征维度进行拆分，根据训练程序所在环境的处理器情况拆分为S份，针对每一份特征维度都启用一个线程进行排序、计算每个样本的分错样本权重和，然后再将各个线程计算的结果进行合并，即可找出全局最小的分错样本权重之和。

9.根据权利要求8所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，对特征维度进行拆分得到的每一个线程进行样本层面的拆分与并行计算，根据训练程序所在环境的处理器情况，启动相应数量的线程并且绑定到不同的cpu上进行计算每个维度的分错样本权重和，然后再将各个线程计算的结果进行合并，即可找出所有维度中最小的分错样本权重之和。

10.根据权利要求8或9所述的一种加快Adboost训练速度与收敛速度的方法，其特征在于，上述训练程序所在环境是16核cpu内存32G的服务器上。