CN104063713B

CN104063713B - 一种基于随机蕨分类器的半自主在线学习方法

Info

Publication number: CN104063713B
Application number: CN201410317479.1A
Authority: CN
Inventors: 罗大鹏; 韩家宝; 魏龙生; 王勇; 马丽
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2017-11-17
Anticipated expiration: 2034-07-04
Also published as: CN104063713A

Abstract

本发明提供基于随机蕨分类器的半自主在线学习方法，包括以下步骤：1)准备初始训练分类器的样本集；2)随机蕨分类器初始训练；3)获得在线学习样本；4)随机蕨分类器的在线训练。本发明提出了随机蕨分类器的在线学习算法使目标检测系统能够逐步提高其性能，最终达到检测精度要求；此外，通过人工判断获取在线学习样本的方法保证了在线学习样本类别标注的正确性；相对于传统的分类器训练方法，本发明不需要事先准备大量的正负训练样本，减轻了人工标注的工作量，并可验证随机蕨分类器的分类性能。

Description

一种基于随机蕨分类器的半自主在线学习方法

技术领域

本发明属于模式识别方法，具体涉及一种通过在线学习算法训练分类器，以提高分类器性能的方法。

背景技术

在线学习属于增量学习的研究范畴，在这一类方法中分类器对每个样本只学一次，而不是重复的学习，这样在线学习算法运行过程中不需要大量的存储空间来存储训练样本，分类器每获得一个样本，即对其进行在线学习，通过在线学习使分类器在使用过程中仍然能根据新样本自我更新和改进，进一步提高分类效果。

早期的在线学习算法有Winnow算法，统一线性预测算法等，2001年学者Oza将这些算法与boosting算法进行结合，提出了在线boosting算法(该算法引自“Online baggingand boosting”N.Oza and S.Russell，In Proc.Artificial Intelligence andStatistics,105-112,2001)，在Oza的方法中，强分类器是一定数量的弱分类器的加权和，这些弱分类器都是从弱分类器集合中挑选出来的。在线学习时，每个训练样本逐一的更新弱分类器集合中的每个弱分类器，包括调整正负样本的分类阈值以及该分类器的权重，使好的弱分类器权重越来越高，而较差的弱分类器权重越来越低，从而每次在线学习一个样本就可以挑选出一个当前权重最高的弱分类器加入强分类器中使最终训练出来的分类器有较强的分类能力。但是，在线boosting算法的弱分类器集合中每个弱分类器都要对新样本进行在线学习，当弱分类器个数较多时，在线学习速度必然会变慢。Grabner对在线boosting算法进行了改进，使其也象Adaboost算法一样可以进行特征选择，并且这种特征选择以及对分类器的更新都是在线进行的，称为在线Adaboost(该算法引自“On-lineboosting and vision”H.Grabner and H.Bischof，In Proc.CVPR,(1):260-267,2006)。但是在线Adaboost用特征选择算子代替一般的弱分类器合成强分类器，特征选择算子数以及特征选择算子对应的弱分类器数都是固定的，相应的在线学习分类器结构比较僵化。当发现其分类能力无法满足检测性能的要求时，即使持续的在线学习下去也无法提高检测精度。

发明内容

本发明要解决的技术问题是：提供一种基于随机蕨分类器的半自主在线学习方法，能够提高分类性能。

本发明为解决上述技术问题所采取的技术方案为：一种基于随机蕨分类器的半自主在线学习方法，其特征在于：它包括以下步骤：

1)准备初始训练分类器的样本集：

针对待检测目标类，在视频图像的第一帧中框选出一个目标，对该目标图片进行仿射变换得到的图片作为正样本；以不含有目标的背景图像区域作为负样本；如此随机的获取一定数量的正样本和负样本作为初始训练分类器的样本集；

2)随机蕨分类器初始训练：

使用准备好的初始训练分类器的样本集对随机蕨分类器进行初始训练，初始训练好的随机蕨分类器即为当前目标检测器，遍历待检测的视频图像进行目标检测；

3)获得在线学习样本：

对于步骤2)中得到的检测后的视频图像，采用人工判断其检测结果的正确性，对于正确的检测结果人工标注为正样本，否则为负样本，对漏检的视频图像标注为正样本；判断后的正负样本为在线学习样本；

4)随机蕨分类器的在线训练：

使用步骤3)获得的正负样本对随机蕨分类器进行在线学习，逐渐提高其分类精度。

按上述方法，步骤2)的具体方法如下：

2.1)构造随机蕨：

对样本集中的单个样本上随机取s对特征点作为一组随机蕨，每个样本取特征点的位置相同，每对特征点进行像素值的比较，每对特征点中前一个特征点像素值大则取特征值为1，反之则取特征值为0，s对特征点比较后得到的s个特征值按照随机的顺序构成一个s位的二进制数，即为该组随机蕨的随机蕨数值，每个样本的随机蕨中特征值的顺序一致；

2.2)计算随机蕨数值在正负样本类上的后验概率：

随机蕨中，有一部分为正样本得到的，其它为负样本得到的；随机蕨数值的取值种类有2s个；

统计每种随机蕨数值的取值的正样本个数，从而获得随机蕨数值在正样本类C₁上的后验概率分布P(F_l|C₁)；同理获得随机蕨数值在负样本类C₀上的后验概率分布P(F_l|C₀)；联合所有随机蕨对初始训练分类器的样本集进行分类，即为随机蕨分类器；

2.3)采用随机蕨分类器在每帧视频图像中进行目标检测：

遍历待检测的每帧视频图像，在每帧视频图像中提取相同大小的图像块作为待测样本，待测样本的大小与步骤1)中正样本的大小相等，计算每个待测样本的随机蕨数值，从而得到相应的后验概率，最后由随机蕨分类器计算其类别；

对于类别为正样本的图像块，则作为目标被检测出来。

按上述方法，步骤4)随机蕨分类器的在线学习通过更新后验概率分布实现。

按上述方法，步骤4)的具体方法如下：

4.1)将步骤3)获得的正负样本作为在线学习样本；设一个在线学习样本为(f_new，c_k)，其中f_new为随机蕨s位的二进制数，c_k为样本类别，计算该在线学习样本的随机蕨数值；

4.2)对步骤2.1)样本集中类别为c_k的样本总数加1，类别为c_k的与该在线学习样本的随机蕨数值相同的样本数加1；其它随机蕨数值的样本数不变；

4.3)根据更新后的样本数，重新计算随机蕨数值在该样本类上的后验概率分布；

4.4)每新增一个在线学习样本，便重复4.1)至4.3)对后验概率分布进行更新一次。

一种利用上述基于随机蕨分类器的半自主在线学习方法实现的目标检测方法，其特征在于：当基于随机蕨分类器的半自主在线学习方法的步骤3)人工判断其结果为全部正确时，采用随机蕨分类器对目标进行检测。

本发明的有益效果为：本发明提出了随机蕨分类器的在线学习算法使目标检测系统能够逐步提高其性能，最终达到检测精度要求；此外，通过人工判断获取在线学习样本的方法保证了在线学习样本类别标注的正确性；相对于传统的分类器训练方法，本发明不需要事先准备大量的正负训练样本，减轻了人工标注的工作量，并可验证随机蕨分类器的分类性能。

附图说明

图1为本发明一实施例的流程框图。

图2为分层描述的随机蕨分类器在线训练结构图。

图3为两组实验数据的效果图，图3(a)为初始训练分类器对目标检测的效果图，图3(b)为训练了一定时间后的随机蕨分类器对目标检测的效果图。

图4为不同背景下对目标检测的效果图。

图5为不同类型目标下对目标检测的效果图。

具体实施方式

下面结合具体实例和附图对本发明做进一步说明。

图1为本发明一实施例的流程框图，包括以下步骤：

1)准备初始训练分类器的样本集：

针对待检测目标类，在视频图像的第一帧中框选出一个目标，对该目标图片进行仿射变换得到的图片作为正样本；以不含有目标的背景图像区域作为负样本；如此随机的获取一定数量的正样本和负样本作为初始训练分类器的样本集。

所述的样本集中的样本在本实施例中就是相同大小的图像块，一般尺寸为15×15(像素)，若图像块中含有待检测的目标则该样本为正样本，没有则为负样本。

2)随机蕨分类器初始训练：

使用准备好的初始训练分类器的样本集对随机蕨分类器进行初始训练，初始训练好的随机蕨分类器即为当前目标检测器，遍历待检测的视频图像进行目标检测。

具体方法如下：

2.1)构造随机蕨：

对样本集中的单个样本上随机取s对特征点作为一组随机蕨(本实施例选5对)，每个样本取特征点的位置相同，每对特征点进行像素值的比较，每对特征点中前一个特征点像素值大则取特征值为1，反之则取特征值为0，s对特征点比较后得到的s个特征值按照随机的顺序构成一个s位的二进制数，即为该组随机蕨的随机蕨数值，每个样本的随机蕨中特征值的顺序一致；

2.2)计算随机蕨数值在正负样本类上的后验概率：

随机蕨中，有一部分为正样本得到的，其它为负样本得到的；每个样本的随机蕨F_l包含的特征可联合在一起形成一个十进制数，由于该十进制数通过S位二进制码获得，因此随机蕨数值的取值种类有2^s个，即有2^s种可能(本实施例中为2⁵种可能)；

2.3)采用随机蕨分类器在每帧视频图像中进行目标检测：

对于类别为正样本的图像块，则作为目标被检测出来。

3)获得在线学习样本：

对于步骤2)中得到的检测后的视频图像，采用人工判断其检测结果的正确性，对于正确的检测结果人工标注为正样本(本实施例中用鼠标点击进行标注)，否则为负样本，对漏检的视频图像标注为正样本；判断后的正负样本为在线学习样本；

4)随机蕨分类器的在线训练：

使用步骤3)获得的正负样本，通过更新后验概率分布实现对随机蕨分类器进行在线学习，逐渐提高其分类精度。

具体方法如下：

4.1)将步骤3)获得的正负样本作为在线学习样本；设一个在线学习样本为(f_new，c_k)，其中f_new为随机蕨s位的二进制数(本实施例中f_new为00101，即十进制数5)，c_k为样本类别，计算该在线学习样本的随机蕨数值；

4.2)如图2所示，对步骤2.1)样本集中类别为c_k的样本总数加1，类别为c_k的与该在线学习样本的随机蕨数值相同的样本数加1；其它随机蕨数值的样本数不变(本实施例中，类别为c_k的样本总数M加1，随机蕨F_l的数值为5的样本数N加1，其它数值的样本数N_other不变)；

4.3)根据更新后的样本数，重新计算随机蕨数值在该样本类上的后验概率分布(本实施例中，随机蕨F_l的数值为5的后验概率变为其它数值的后验概率值变为)；

一种利用上述基于随机蕨分类器的半自主在线学习方法实现的目标检测方法，当基于随机蕨分类器的半自主在线学习方法的步骤3)人工判断其结果为全部正确时，采用随机蕨分类器对目标进行检测。

通过在交通领域进行试验，如图3所示(实际目标检测过程中，我们使用几种不同尺度在视频图像中进行目标检测，不同尺度对应的图像框大小不同，因此可以检测到即框选出不同大小的图像块)，图3(a)为初始训练分类器对目标检测的效果图，图3(b)为训练了一定时间后的随机蕨分类器对目标检测的效果图，从图中可以发现初始训练分类器对目标检测的效果较低，经过训练之后对目标检测的效果高了很多。如图3和图4所示，背景不同的情况下，对目标检测的效果依然很高，说明目标检测对背景要求不高。如图3和图5所示，图5的目标为行人，图3为行车，虽然目标和背景均不同，但是目标检测效果依然很高，说明目标检测系统的适应性很强。

下表为的数据显示了随机蕨分类器在线检测的虚警、漏检和正确检测的数量趋势和检测到的正确百分比，虚警即错误的检测，框选出的图像块中未含目标；漏检即视频图像中有目标未被款选出来；正确数即框选出的图像块是正确的检测，包含一个目标。显然，随机蕨分类器的性能在不断变好。

	前期100帧	中期100帧	后期100帧
				虚警数	50	260	90
漏检数	220	110	60
				正确数	130	510	1300
正确百分比	32.5％	58.0％	89.7％

Claims

1.一种基于随机蕨分类器的半自主在线学习方法，其特征在于：它包括以下步骤：

1)准备初始训练分类器的样本集：

2)随机蕨分类器初始训练：

步骤2)的具体方法如下：

2.1)构造随机蕨：

2.2)计算随机蕨数值在正负样本类上的后验概率：

随机蕨中，有一部分为正样本得到的，其它为负样本得到的；随机蕨数值的取值种类有2^s个；

2.3)采用随机蕨分类器在每帧视频图像中进行目标检测：

对于类别为正样本的图像块，则作为目标被检测出来；

3)获得在线学习样本：

4)随机蕨分类器的在线训练：

使用步骤3)获得的正负样本对随机蕨分类器进行在线学习，逐渐提高其分类精度；

步骤4)的具体方法如下：

4.4)每新增一个在线学习样本，便重复4.1)至4.3)对后验概率分布进行更新一次；

步骤4)随机蕨分类器的在线学习通过更新后验概率分布实现。

2.一种利用权利要求1所述的基于随机蕨分类器的半自主在线学习方法实现的目标检测方法，其特征在于：当基于随机蕨分类器的半自主在线学习方法的步骤3)人工判断其结果为全部正确时，采用随机蕨分类器对目标进行检测。