CN109740637B

CN109740637B - 训练adaboost级联分类器的优化方法

Info

Publication number: CN109740637B
Application number: CN201811517692.1A
Authority: CN
Inventors: 张羽; 张昊
Original assignee: Tianjin Jinhang Institute of Technical Physics
Current assignee: Tianjin Jinhang Institute of Technical Physics
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2023-08-15
Anticipated expiration: 2038-12-12
Also published as: CN109740637A

Abstract

本发明属于分类器训练技术领域，具体涉及一种训练adaboost级联分类器的优化方法。本发明提出的训练adaboost级联分类器的优化方法通过提出的样本筛选方法在保证检测性能的同时明显减少了弱分类器的数量，避免了随机使用训练样本带来的弱分类器数量冗余的问题，从而提高了在应用平台上的实时性能。

Description

训练adaboost级联分类器的优化方法

技术领域

本发明属于分类器训练技术领域，具体涉及一种训练adaboost级联分类器的优化方法。

背景技术

1995年，Freund和Schapire提出了AdaBoost算法[1]。AdaBoost全称为AdaptiveBoosting，作者说取名叫作AdaBoost是因为这个算法和以前的Boosting算法都不同(原先的Boosting算法需要预先知道假设的错误率下限)，它根据弱学习的反馈适应性地(adaptively)调整假设的错误率——也就是说，AdaBoost算法不需要任何关于弱学习器性能的先验知识，加上它和原来Boosting算法的效率一样，因此可以非常容易地应用到实际问题中。AdaBoost算法提出后在机器学习领域受到了极大的关注，实验结果显示无论是应用于人造数据还是真实数据，AdaBoost都能显著提高学习精度。

级联分类器的设计可以看做是由一系列的强分类器的串联组成，整个检测流程如图1所示。这种级联分类器设计思路就需要指定各个参加级联的强分类器具备相应的结构，所谓相应的结构的第一点要求是前面分类器的结构简单也即强分类器中包含尽可能少的弱分类器，这样才能提高检测速度。第二点要求是检测率高，能够滤除那些与目标差异较大的负样本。那么对于参与训练的负样本的选择就需要尽可能选择与正样本差异大且多样化的负样本，才能得到满足分类器级联设计思想的强分类器。第三点要求是级联的下一级分类器是对上一级分类器无法分辨的样本进行再次准确分类，因此用于下级分类器的样本就要求是上一级分辨正确的正样本和分辨错误的负样本来做本级训练的正样本和负样本，这样才可以达到层层精确筛选的目的，非目标样本应尽可能在较早级联层次得到滤除，只有通过所有级分类器的样本才被认定为正样本即目标区域。

在级联的检测器中不断增加更多的强分类器可以很快排除背景区域，从而节约出时间用于那些更像真实目标的待判别目标进行计算。在级联结构中，前面几级的分类器相对来说结构比较简单，使用的特征数较少，但检测率很高，同时能够尽可能地滤除那些与目标差异较大的负样本。后面级的分类器则使用更多的特征和更复杂的结构，从而可以将那些与目标相似的负样本与目标物体区分开。

级联的AdaBoost分类器训练方法是通过在级联的检测器中不断增加更多的强分类器来降低系统的误报率，同时还需要保持较高的检测率来达到系统的性能要求。在实际应用中，系统的性能要求除了检测率和误报率的要求以外，还要求检测的实时性能。如果实时性不达到要求，那么无法在实际系统中应用。基于adaboost强分类器的级联分类器设计是一种成熟的分类器，研究人员对其检测性能做了大量的研究，而实时性能却在学术界研究的却不是很广泛。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题：如何提高adaboost级联分类器的实时性能。

(二)技术方案

为解决现有技术问题，本发明提供一种训练adaboost级联分类器的优化方法，该方法包括：

步骤1：选标准正样本和标准负样本训练级联分类器的第一级；

步骤2：根据级联分类器的上一级的判别样本的响应值筛选用于训练下一级分类器的正负样本。

步骤3：对每级分类器多次筛选训练样本训练得到多个分类器,根据检测性能评价曲线和弱分类器数量联合筛选出每级最优分类器。

步骤4：重复步骤2和3得到最优的级联分类器。

(三)有益效果

本发明专利针对adaboost级联分类器的实时性能的提高方法进行了重点研究，在不损失检测性能的前提下，提出了一种能够提高adaboost级联分类器实时性的训练方法，使其在实际系统中可以得到更加广泛的应用。

通过本发明提供的方法进行adaboost级联分类器的训练，可以减少强分类器中的弱分类器数量，进而提高adaboost级联分类器的实时性能。

附图说明

图1为级联示意图。

图2为样本库示例示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

步骤4：重复步骤2和3得到最优的级联分类器。

实施例1

本实施例中，

1、挑选标准正样本和标准负样本训练级联分类器的第一级。

在基于adaboost的级联分类器实时性分析中，会发现第一级对于级联分类器检测目标的实时性能的影响是最强的。大部分的伪目标在经过级联分类器的第一级时都将被排除掉。所有的待判别目标也都需要经过第一级分类器的判别，判别为伪目标的待检测目标将直接被虑除掉，判别为真目标的待判别目标将进入下一级分类器继续判别。因为所有的待检测目标都要经过第一级分类器的判别，所以进入第一级分类器的待判别目标是最多的，因此对级联分类器的实时检测性能也影响最大。另外，级联分类器的第一级分类器所包含的弱分类器的数量，也对实时性能影响巨大，因为所有的目标都要经过弱分类器的判别，弱分类器的数量越少，那么第一级判别所需要消耗的时间就会越短。明白了级联分类器第一级检测对实时性能影响的意义，针对此特性，提出了对第一级分类器实时性能优化的方向。的目标就是利用最少的弱分类器排除尽可能多的伪目标，使得进入下一级的待检测目标尽可能少。这样第一级的弱分类器数量少使得第一级的检测耗时少，进入下一级的待检测目标数量少也使得后续级的检测耗时少。那么，如何达到使得第一级分类器的所使用的弱分类器数量少又使得其能够排除尽可能多的伪目标呢？经过分析发现要想达到此目标，那么第一级分类器排除的伪目标应该是和真实目标差异比较大的，并且在现实检测中大量存在的。伪目标和真实目标差异比较大，那么利用较少的明显特征就可以区别它们。第一级分类器训练的目标就是沿着此方向进行。然而一般训练中，由于训练样本数量巨大，在挑选训练样本往往采用随机筛选的方式，这样在训练第一级分类器的正样本中往往包含了很多模糊的、不太容易区分的正样本。在负样本中也往往包含了很多与正样本区分不大的伪目标样本。以红外行人检测为例，训练样本库往往包含如图2所示的情形。为了达到训练收敛条件，训练所得到第一级分类器就包含了较多的弱分类器。而这样就违背了第一级分类器训练的目标，不利于实时性能的提高。针对问题提出的改进方法就是将样本库中模糊的少见的正样本和与正样本区别不明显的负样本去除，以此为指导原则筛选第一级分类器训练的样本库进行训练。并且在此基础上再对样本库进行随机划分，进行多次训练，得到多个一级分类器。对得到的第一级分类器进行弱分类器数量和检测性能的综合评价来确定最优的第一级分类器。

2、根据级联分类器的上一级的判别样本的响应值筛选用于训练下一级分类器的正负样本。

传统的训练级联分类器的方法通常将训练级联分类器的每一级所用的正样本锁定，第一级分类器训练所使用的负样本是随机挑选的。下一级分类器训练所使用的负样本是上一级分类器所不能正确辨别的伪目标样本。然而，分类器在辨别目标真伪的时候实际上是存在难易之分的。的分类器设计思路是将越容易辨别的目标就应该在越靠前一级的分类器上能够辨别。越难辨别的目标应该使用更多级的分类器也就是更多的弱分类器进行辨别。在现实世界中也是越难辨别的目标也相对越少。按照此结构思路设计出来的级联分类器才能在实际应用检测中达到检测耗时最少的目的。而锁定正样本，随机筛选所使用的负样本的方式违背了在实际应用中检测目标难易的规律，所得到的级联分类器通常不能满足此检测规律，因而在实时性能方面也就不能达到更优。针对传统样本库建立的缺点和现实检测世界样本分布的特点，提出了样本库筛选的办法。针对第一级分类器的样本库的正负样本筛选办法在步骤1已经详细说明。针对后续级的样本库的正负样本的筛选办法将在本步骤中做详细说明。首选要对当前所得到的级联分类器的检测能力做个评估，也就是使用当前的级联分类器对待检测目标进行辨别，在得到检测性能也就是检测率和误报率的同时，对漏检测目标和误检测目标再进行一次分类。将漏检测目标和误检测目标按照级联分类器的判别输出值进行排序。漏检测目标是指待检测目标是真实目标，而分类器却将其判别为伪目标。误检测目标是指待检测目标是伪目标，而分类器却将其判别为真实目标。对于分类器判别来讲，它将待检测目标判别为伪目标或者真实目标时，分类器的输出代表了它判别为此类目标的置信程度。置信程度越高，那么判别相对来说越准确，反之则对当前的判别结果把握不大。置信程度越低也说明了当前待判别样本对当前分类器来说判别难度相对较大。因此利用此置信度输出来对漏检目标和误检测目标进行排序，实际上也就是对样本按照了其判别难以程度进行了排序。那么在训练下一级分类器时，样本筛选就可以避免采用随机筛选的方式。按照样本的排序可以选取一定数量的漏检样本加入到原来的正样本库中作为下一级分类器训练所使用的正样本，选取一定数量的误检样本作为负样本作为下一级分类器训练所使用的负样本来训练下一级分类器，所得到的分类器就能按照的级联分类器构建思路得到。这个正负样本的数量是个可变参数，变换此参数可以得到不同分类器，因而可供进行选择和比较它们的性能。

3、对每级分类器多次筛选训练样本训练得到多个分类器,根据检测性能评价曲线和弱分类器数量联合筛选出每级最优分类器。

经过步骤2，对于级联分类器的每一级都可以得到多个可供选择的当前级强分类器，在训练下一级分类器之前必须首先确定所采用的当前级强分类器才能开始进行下一级强分类器的训练样本库的筛选。因为的方法给予了实时性能更多的关注，因为实时性能的优劣必须是的参考之一。通常在每一级分类器中弱分类器的数量代表了实时性能的差异。因而在选择每一级强分类器时，在参考检测性能即检测率和误报率的基础上，弱分类器的数量越少，那么分类器的实时性能更优。

4、重复步骤2和3得到最优的级联分类器。

从级联分类器的第二级训练开始，就可以采用步骤2和步骤3的方式获取级联分类器的每一级强分类器，直到得到满足系统检测性能要求所有级强分类器。这样得到的级联分类器不但在检测性能方面满足系统要求，而且在实时性能方面也得到了优化。

本发明提出的训练adaboost级联分类器的优化方法通过提出的样本筛选方法在保证检测性能的同时明显减少了弱分类器的数量，避免了随机使用训练样本带来的弱分类器数量冗余的问题，从而提高了在应用平台上的实时性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种训练adaboost级联分类器的优化方法，其特征在于，该方法包括：

步骤2：根据级联分类器的上一级的判别样本的响应值筛选用于训练下一级分类器的正负样本；

步骤3：对每级分类器多次筛选训练样本训练得到多个分类器,根据检测性能评价曲线和弱分类器数量联合筛选出每级最优分类器；

步骤4：重复步骤2和3得到最优的级联分类器；

其中，针对后续级的样本库的正负样本的筛选办法如下：

首先对当前所得到的级联分类器的检测能力做评估，也就是使用当前的级联分类器对待检测目标进行辨别，在得到检测性能也就是检测率和误报率的同时，对漏检测目标和误检测目标再进行一次分类；

将漏检测目标和误检测目标按照级联分类器的判别输出值进行排序；

其中，利用置信度输出来对漏检目标和误检测目标进行排序，实际上就是对样本按照了其判别难易程度进行排序；

按照样本的排序选取一定数量的漏检样本加入到原来的正样本库中作为下一级分类器训练所使用的正样本，选取一定数量的误检样本作为负样本作为下一级分类器训练所使用的负样本来训练下一级分类器。