CN105654124A - 一种加快Adboost训练速度与收敛速度的方法 - Google Patents

一种加快Adboost训练速度与收敛速度的方法 Download PDF

Info

Publication number
CN105654124A
CN105654124A CN201511005415.9A CN201511005415A CN105654124A CN 105654124 A CN105654124 A CN 105654124A CN 201511005415 A CN201511005415 A CN 201511005415A CN 105654124 A CN105654124 A CN 105654124A
Authority
CN
China
Prior art keywords
sample
speed
training
adboost
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511005415.9A
Other languages
English (en)
Other versions
CN105654124B (zh
Inventor
田雨农
吴子章
周秀田
于维双
陆振波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Roiland Technology Co Ltd
Original Assignee
Dalian Roiland Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Roiland Technology Co Ltd filed Critical Dalian Roiland Technology Co Ltd
Priority to CN201511005415.9A priority Critical patent/CN105654124B/zh
Publication of CN105654124A publication Critical patent/CN105654124A/zh
Application granted granted Critical
Publication of CN105654124B publication Critical patent/CN105654124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种加快Adboost训练速度与收敛速度的方法,包括:引入边界条件调节权重的步骤;利用级联分类器之间集合关系减少重复计算的步骤;利用并行计算加速排序的步骤。在边界条件下,加快了训练程序的收敛速度,从而节省了大量训练开销,同时也减轻了使用分类器进行检测时的性能损耗。

Description

一种加快Adboost训练速度与收敛速度的方法
技术领域
本发明属于目标检测领域,具体说是一种加快Adboost训练速度与收敛速度的方法。
背景技术
随着Adboost算法在人脸检测、行人检测、车辆检测及其他目标检测中的广泛应用,其算法的训练速度与收敛速度也逐步受到了越来越多的关注与研究。例如,有些改进算法中将权重调整偏向于分对的样本,这样促使训练的分类器具有相对更高的正样本检出能力;而有些算法中将权重调整偏向于分错的样本,这样则使训练得到的分类器对分错的样本具有更高的敏感性,也就相对降低了误识别率。然而正样本的检出率与负样本的误识别率本身就是一对矛盾,二者难以兼得。目前,现有的大多数改进算法主要针对如何将样本特征降维从而降低训练的计算代价,或采用分布式计算的方式解决级联分类器训练消耗资源多的问题。
发明内容
本发明提供了一种加快Adboost训练速度与收敛速度的方法,在边界条件下,加快了训练程序的收敛速度,从而节省了大量训练开销,同时也减轻了使用分类器进行检测时的性能损耗。
为实现上述目的,本发明的技术方案是,一种加快Adboost训练速度与收敛速度的方法,包括:引入边界条件调节权重的步骤;利用级联分类器之间集合关系减少重复计算的步骤;利用并行计算加速排序的步骤。
进一步的,所述的引入边界条件调节权重的步骤,首先,定义两种边界条件:边界条件1,负样本的误识别率满足退出条件,正样本的检出率接近于退出条件;边界条件2,负样本的误识别率接近于退出条件,正样本的检出率满足退出条件;在保持权重总和不变的前提下,将满足一定条件的权重调整引入反馈,从而有方向性地增大分错的正样本的的权重比例,使正样本的检出率更加容易达到要求;
进一步的,所述接近于退出条件是指相差0.1%以内;
进一步的,对于弱分类器的权重调节过程,步骤如下:
S1:首先,对样本权重进行初始化;
S2:然后,进行弱分类器的训练,将训练得到的弱分类器作用于样本,检测哪些样本被正确分类,哪些被错误分类;
S3:对于错误分类的样本其权重增加,正确分类的样本权重减少,然后进行权重归一化;
S4:计算正样本的检出率与负样本的误识别率,判断是否满足预先设定好的退出条件。
进一步的,在步骤S4中,如果满足就直接退出本级强分类器的训练;否则:
判断是否满足边界条件1,如果满足则增大分错的正样本权重比例并进行权重归一化;
判断是否满足边界条件2,如果满足则增大分错的负样本权重比例并进行权重归一化;
既不满足边界条件1也不满足边界条件2则进入下一级弱分类器的训练。
进一步的,利用级联分类器减少重复计算的步骤为,在每一级强分类器的第一个弱分类器中对样本进行各个特征维度的排序,并且将排序结果记录下来。
进一步的,同时,记录下排序的样本的索引信息。
作为更进一步的,利用级联分类器之间集合关系减少重复计算的步骤为,将原样本的特征维度进行拆分,根据训练程序所在环境的处理器情况拆分为S份,针对每一份特征维度都启用一个线程进行排序、计算每个样本的分错样本权重和,然后再将各个线程计算的结果进行合并,即可找出全局最小的分错样本权重之和。
作为更进一步的,对特征维度进行拆分得到的每一个线程进行样本层面的拆分与并行计算,根据训练程序所在环境的处理器情况,启动相应数量的线程并且绑定到不同的cpu上进行计算每个维度的分错样本权重和,然后再将各个线程计算的结果进行合并,即可找出所有维度中最小的分错样本权重之和。
作为更进一步的,上述训练程序所在环境16核cpu内存32G的服务器上。
本发明由于采用以上技术方案,能够取得如下的技术效果:
(1)通过引入控制理论中的反馈调节思想,在边界条件下,加快了训练程序的收敛速度,从而节省了大量训练开销,同时也减轻了使用分类器进行检测时的性能损耗。
(2)本发明利用同一个强分类器中,训练样本不会增加的事实,将第一个弱分类器的排序结果及其样本索引记录下来,当进行后续弱分类器训练的时候使用索引查表的方式进行排序结果查询,促使每级强分类器只需要在第一个弱分类器中进行排序,进而极大地降低了训练的成本开销。
(3)本发明根据不同的训练环境对特征维度与样本分别进行两级并行任务拆分与计算,充分利用计算环境的计算能力,使总体的训练时间成倍下降。
附图说明
本发明共有附图4幅:
图1为调节权重流程框图;
图2为弱分类器间继承排序结果示意图;
图3为特征维度的拆分与并行计算的示意图;
图4为样本排序的拆分与并行计算的示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步的具体说明。
实施例1
一种加快Adboost训练速度与收敛速度的方法,包括:引入边界条件调节权重的步骤;利用级联分类器之间集合关系减少重复计算的步骤;利用并行计算加速排序的步骤。
所述的引入边界条件调节权重的步骤,首先,定义两种边界条件:边界条件1,负样本的误识别率满足退出条件,正样本的检出率接近于退出条件(相差0.1%以内);边界条件2,负样本的误识别率接近于退出条件(相差0.1%以内),正样本的检出率满足退出条件;在保持权重总和不变的前提下,将满足一定条件下(比如分错样本的比例仅为万分之几,正样本的检出率为99.5%,而实际要求达到99.6%才会退出本级弱分类器的训练)的权重调整引入反馈,从而有方向性地增大分错的正样本的的权重比例,使正样本的检出率更加容易达到要求;
对于弱分类器的权重调节过程,步骤如下:
S1:首先,对样本权重进行初始化;一般都付给相同的权重值。
S2:然后,进行弱分类器的训练,将训练得到的弱分类器作用于样本,检测哪些样本被正确分类,哪些被错误分类;
S3:对于错误分类的样本其权重增加,正确分类的样本权重减少,然后进行权重归一化;
S4:计算正样本的检出率与负样本的误识别率,判断是否满足预先设定好的退出条件,如果满足就直接退出本级强分类器的训练;否则:判断是否满足边界条件1,如果满足则增大分错的正样本权重比例并进行权重归一化;判断是否满足边界条件2,如果满足则增大分错的负样本权重比例并进行权重归一化;既不满足边界条件1也不满足边界条件2则进入下一级弱分类器的训练。
利用级联分类器减少重复计算的步骤为,利用Adboost中级联分类器中各个强分类器训练的特点,在每一级强分类器的第一个弱分类器中对样本进行各个特征维度的排序,并且将排序结果记录下来;同时,记录下排序的样本的索引信息。这样当进入第二个弱分类器的时候,虽然一部分样本被筛选掉了,但是仍然可以通过之前记录的索引信息追踪到样本在各个特征维度的排序结果,从而就不再需要排序了。弱分类器间继承排序结果的过程,如图2所示。
本发明根据弱分类器训练过程中,需要从不同特征维度上对样本进行排序,从而找出具有最小分错样本权重之和的特定维度及其特征值即阈值。本发明将原样本的特征维度进行拆分,根据训练程序所在环境(PC电脑或服务器)的处理器情况拆分为S份,针对每一份特征维度都启用一个线程进行排序、计算每个样本的分错样本权重和,然后再将各个线程计算的结果进行合并,即可找出全局最小的分错样本权重之和。对特征维度进行拆分得到的每一个线程,本发明又进行进一步的样本层面的拆分与并行计算,如图4所示。同样是根据训练程序所在环境的处理器情况,启动相应数量的线程并且绑定到不同的cpu上进行计算每个维度的分错样本权重和,然后再将各个线程计算的结果进行合并,即可找出所有维度中最小的分错样本权重之和。
上述训练程序所在环境16核cpu内存32G的服务器上,利用上述三点改进,本发明对5820维特征的500000样本训练,改进后的训练时间约是改进前训练时间的1/200。
本发明通过引入控制理论中的反馈调节思想,在边界条件下,加入两次权重调整进行反馈调节,使权重比例进行有倾向性的倾斜,从而加快了训练程序的收敛速度,利用同一个强分类器中,训练样本不会增加的即成事实,将第一个弱分类器的排序结果及其样本索引记录下来,当进行后续弱分类器训练的时候使用索引查表的方式进行排序结果查询。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种加快Adboost训练速度与收敛速度的方法,其特征在于,包括:引入边界条件调节权重的步骤;利用级联分类器之间集合关系减少重复计算的步骤;利用并行计算加速排序的步骤。
2.根据权利要求1所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,所述的引入边界条件调节权重的步骤,首先,定义两种边界条件:边界条件1,负样本的误识别率满足退出条件,正样本的检出率接近于退出条件;边界条件2,负样本的误识别率接近于退出条件,正样本的检出率满足退出条件;在保持权重总和不变的前提下,将满足一定条件的权重调整引入反馈,从而有方向性地增大分错的正样本的的权重比例,使正样本的检出率更加容易达到要求。
3.根据权利要求2所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,所述接近于退出条件是指相差0.1%以内。
4.根据权利要求2所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,对于弱分类器的权重调节过程,步骤如下:
S1:首先,对样本权重进行初始化;
S2:然后,进行弱分类器的训练,将训练得到的弱分类器作用于样本,检测哪些样本被正确分类,哪些被错误分类;
S3:对于错误分类的样本其权重增加,正确分类的样本权重减少,然后进行权重归一化;
S4:计算正样本的检出率与负样本的误识别率,判断是否满足预先设定好的退出条件。
5.根据权利要求4所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,在步骤S4中,如果满足就直接退出本级强分类器的训练;否则:
判断是否满足边界条件1,如果满足则增大分错的正样本权重比例并进行权重归一化;
判断是否满足边界条件2,如果满足则增大分错的负样本权重比例并进行权重归一化;
既不满足边界条件1也不满足边界条件2则进入下一级弱分类器的训练。
6.根据权利要求1所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,利用级联分类器之间集合关系减少重复计算的步骤为,在每一级强分类器的第一个弱分类器中对样本进行各个特征维度的排序,并且将排序结果记录下来。
7.根据权利要求6所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,同时,记录下排序的样本的索引信息。
8.根据权利要求1所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,利用并行计算加速排序的步骤为,将原样本的特征维度进行拆分,根据训练程序所在环境的处理器情况拆分为S份,针对每一份特征维度都启用一个线程进行排序、计算每个样本的分错样本权重和,然后再将各个线程计算的结果进行合并,即可找出全局最小的分错样本权重之和。
9.根据权利要求8所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,对特征维度进行拆分得到的每一个线程进行样本层面的拆分与并行计算,根据训练程序所在环境的处理器情况,启动相应数量的线程并且绑定到不同的cpu上进行计算每个维度的分错样本权重和,然后再将各个线程计算的结果进行合并,即可找出所有维度中最小的分错样本权重之和。
10.根据权利要求8或9所述的一种加快Adboost训练速度与收敛速度的方法,其特征在于,上述训练程序所在环境是16核cpu内存32G的服务器上。
CN201511005415.9A 2015-12-29 2015-12-29 一种加快Adaboost训练速度与收敛速度的方法 Active CN105654124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511005415.9A CN105654124B (zh) 2015-12-29 2015-12-29 一种加快Adaboost训练速度与收敛速度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511005415.9A CN105654124B (zh) 2015-12-29 2015-12-29 一种加快Adaboost训练速度与收敛速度的方法

Publications (2)

Publication Number Publication Date
CN105654124A true CN105654124A (zh) 2016-06-08
CN105654124B CN105654124B (zh) 2020-03-24

Family

ID=56478036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511005415.9A Active CN105654124B (zh) 2015-12-29 2015-12-29 一种加快Adaboost训练速度与收敛速度的方法

Country Status (1)

Country Link
CN (1) CN105654124B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087444A (zh) * 2020-09-04 2020-12-15 腾讯科技(深圳)有限公司 账号识别方法和装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464954A (zh) * 2007-12-21 2009-06-24 三星电子株式会社 训练多类Boosting分类器的方法
US7689033B2 (en) * 2003-07-16 2010-03-30 Microsoft Corporation Robust multi-view face detection methods and apparatuses
CN101887524A (zh) * 2010-07-06 2010-11-17 湖南创合制造有限公司 基于视频监控的行人检测方法
CN102646198A (zh) * 2012-02-21 2012-08-22 温州大学 具有层次结构的混合线性svm分类器的模式识别方法
CN102999765A (zh) * 2012-11-09 2013-03-27 江苏大学 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法
CN103186774A (zh) * 2013-03-21 2013-07-03 北京工业大学 一种基于半监督学习的多姿态人脸表情识别方法
CN103513965A (zh) * 2013-10-29 2014-01-15 浪潮电子信息产业股份有限公司 一种异构系统的并行AdaBoost特征提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689033B2 (en) * 2003-07-16 2010-03-30 Microsoft Corporation Robust multi-view face detection methods and apparatuses
CN101464954A (zh) * 2007-12-21 2009-06-24 三星电子株式会社 训练多类Boosting分类器的方法
CN101887524A (zh) * 2010-07-06 2010-11-17 湖南创合制造有限公司 基于视频监控的行人检测方法
CN102646198A (zh) * 2012-02-21 2012-08-22 温州大学 具有层次结构的混合线性svm分类器的模式识别方法
CN102999765A (zh) * 2012-11-09 2013-03-27 江苏大学 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法
CN103186774A (zh) * 2013-03-21 2013-07-03 北京工业大学 一种基于半监督学习的多姿态人脸表情识别方法
CN103513965A (zh) * 2013-10-29 2014-01-15 浪潮电子信息产业股份有限公司 一种异构系统的并行AdaBoost特征提取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087444A (zh) * 2020-09-04 2020-12-15 腾讯科技(深圳)有限公司 账号识别方法和装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN105654124B (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN106557485B (zh) 一种选取文本分类训练集的方法及装置
CN102682760B (zh) 重叠语音检测方法和系统
CN107506865B (zh) 一种基于lssvm优化的负荷预测方法及系统
CN103020122A (zh) 一种基于半监督聚类的迁移学习方法
CN102147866A (zh) 基于训练自适应增强和支持矢量机的目标识别方法
CN108021908B (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN102346829A (zh) 基于集成分类的病毒检测方法
CN104463128A (zh) 用于人脸识别的眼镜检测方法及系统
CN105373800A (zh) 分类方法及装置
CN110874604A (zh) 模型训练方法及终端设备
CN105574547A (zh) 适应动态调整基分类器权重的集成学习方法及装置
CN109002890A (zh) 卷积神经网络模型的建模方法及装置
CN107886130A (zh) 一种基于聚类和相似度加权的kNN快速分类方法
CN105139282A (zh) 一种电网指标数据处理方法、装置以及计算设备
CN104091178A (zh) 基于hog特征人体感知分类器的训练方法
CN111444930B (zh) 一种确定二分类模型的预测效果的方法及装置
CN106295635A (zh) 车牌识别方法及系统
CN106611021B (zh) 一种数据处理方法和设备
CN110751278A (zh) 一种神经网络比特量化方法和系统
CN110378389A (zh) 一种Adaboost分类器计算机创建装置
CN105654124A (zh) 一种加快Adboost训练速度与收敛速度的方法
CN105868272A (zh) 多媒体文件分类方法及装置
CN111091140B (zh) 目标分类方法、装置及可读存储介质
CN103176975B (zh) 一种购买词聚类方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant