CN101655914A - 训练装置、训练方法及检测方法 - Google Patents

训练装置、训练方法及检测方法 Download PDF

Info

Publication number
CN101655914A
CN101655914A CN200810210103A CN200810210103A CN101655914A CN 101655914 A CN101655914 A CN 101655914A CN 200810210103 A CN200810210103 A CN 200810210103A CN 200810210103 A CN200810210103 A CN 200810210103A CN 101655914 A CN101655914 A CN 101655914A
Authority
CN
China
Prior art keywords
sorter
training
image
feature
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810210103A
Other languages
English (en)
Other versions
CN101655914B (zh
Inventor
梅树起
吴伟国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony China Ltd
Original Assignee
Sony China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony China Ltd filed Critical Sony China Ltd
Priority to CN200810210103.5A priority Critical patent/CN101655914B/zh
Publication of CN101655914A publication Critical patent/CN101655914A/zh
Application granted granted Critical
Publication of CN101655914B publication Critical patent/CN101655914B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了训练装置、训练方法及检测方法,其中,该训练装置包括:样本采集单元,用于采集预定数目的物体图像集和背景图像集;特征提取单元,用于提取由样本采集单元采集的物体图像集和背景图像集的特征;以及训练单元,用于使用由特征提取单元提取的特征进行训练,以获得分类器,其中,特征包括类小波特征和梯度方位直方图特征。分类器采用了特定的级联结构,将Haar-like特征与HOG特征结合在一起使用,同时发挥了Haar-like特征计算快捷和HOG特征分辨力强大的优势,在不显著增加计算成本的同时大大提高了所获得的分类器的性能。

Description

训练装置、训练方法及检测方法
技术领域
本发明涉及物体检测技术,尤其涉及在静态图像或视频图像中确定是否存在物体并给出物体在图像或视频中的位置的训练装置、训练方法及检测方法。
背景技术
在图像和视频中进行物体检测的技术使用各种特征训练分类器,试图在图像和视频中找到大小和外观各异的物体的位置和尺寸。以汽车为例,汽车检测技术是物体检测领域的一个分支,许多用于其他物体检测的技术也可以用于进行汽车的检测。汽车检测技术所面临的问题是多种多样的,例如:汽车包括各种不同的种类(轿车、卡车、巴士等),而车与车之间又存在外观上的细微差别;遮挡也是一个十分普遍的问题,遮挡可能在各种情况下发生,被遮挡的可能是汽车的任意部分;以及光影的变化可能使得同一辆车呈现不确定的外观,而视角的变化所引起的成像差异则使得检测空间变得更加庞大。
在图像和视频中检测汽车的技术主要包括所使用的特征、分类器的设计和检测器的设计三个部分。
目前在物体检测技术中已经出现多种多样的特征,例如角点(Corner)、边缘、图像块(Patch)、特征点描述子、小波或类小波(Haar-like)、梯度方位直方图(Histogram of Oriented Gradient,HOG)等。Patch和特征点描述子是较为底层的特征,它们对所检测物体的描述比较直接,当物体的类内差异较大时其鲁棒性较差;Haar-like特征和HOG等则是相对抽象一些的特征,其计算可以在多个尺度上进行,从而对物体的类内差异有更好的适应性。目前,大多数特征在使用时都有十分固定的位置参数,即隐含特征在图像中的位置信息,但同时也使得特征对视角的变化更为敏感。另外,大多数特征都是在图像样本的某个局部区域上进行计算,而没有考虑多个同类特征之间进行融合的情况,不同种类特征的同时使用也鲜有讨论。
分类器的设计大致可以分为以下几种方式:将所检测的目标作为一个整体看待,将所用到的特征进行组合,然后使用单一分类器(例如,支持向量机、朴素贝叶斯分类器等)进行分类;将物体看作由多个“部分”构成,分类器的设计为两级,第一级的多个局部分类器分别用于检测物体的各个“部分”,所有第一级分类器的输出作为第二级分类器的输入来判断是否有整体的存在;以及仍然将物体看作整体,但分类器作多级(两级以上)设计,每级分类器(一般使用Adaboost方法)均负责一部分负样本的剔除,能够通过所有级分类器的样本才能被归为正样本,这就是著名的级联(Cascade)结构。
然而,上述三种方式都存在在一定的缺点。对于第一种方式来说,由于将目标作为一个整体来看待,所以在进行测试时处理速度相对比较慢。第二种方式与其他两种相比对遮挡有更好的适应性,但多个局部分类器的使用产生了更多的虚假响应,从而带来了新的问题。第三种方式的逐级淘汰模式大大缩短了检测时间,因此得到了更多的应用,但其计算比较复杂。分类器的设计完成后,就可以搜集正负样本进行分类器的训练,从而确定分类器的参数。
检测器的主体部分是如何使用训练好的分类器,在使用分类器时一般有两种方式。第一种是逐步缩小图像的尺寸,每改变一次图像的尺寸,都使用固定尺寸的窗口按照一定的顺序遍历图像,将每次所得窗口内的图像部分输入分类器进行分类;第二种是不改变图像的尺寸,而逐步扩大窗口的尺寸,使用不同尺寸的窗口遍历图像。第一种方式是尽量保持检测过程与训练过程中的条件相当,因此可能保证分类器的性能得到最大发挥,第二种方式可能会降低分类器的性能,但可以大大加快检测的速度。分类器会对图像中某个特定的模式产生多重响应,如何合并和去除这些响应被称为后处理问题。在分类器的训练和检测中,为了加速过程的进行,积分图像技术被大量使用。检测器的最终性能取决于训练样本的挑选、所使用的特征、分类器的设计和训练、检测窗口的产生方式和遍历方式以及后处理等多重因素。
衡量检测性能的指标包括检测率(所有正样本中被正确检测出的数量)、误检率(被误当作正样本检测出的负样本占检测总窗口的比率)、检测精度(所有实际检测出的样本中,正样本所占的比例)等。检测率和检测精度越高,误检率越低,检测性能越好。为了对检测性能进行比较完整的衡量,通常会进行多次实验并产生系统的运行特性曲线或检测精度对比曲线,根据曲线的形状进行更准确的比较。
尽管已经存在各种各样在图形中检测汽车的方法,但其检测性能仍然存在很大的提升空间。更好的方法可以通过变更特征或变更特征的使用方式、改进分类器的结构、减少训练时间和检测时间等多种途径获得。
Haar-like特征和HOG特征是两种得到广泛关注的特征,它们都在Cascade分类器结构下得到应用,同时获得了不错的性能和检测速度。
Haar-like特征的优势是可以方便的构建积分图像,计算简单快速,能够快速的进行训练;检测时采用逐级扩大检测窗口而不是缩小图像的方式获得了更快的速度,但是这种逐级扩大检测窗口的方式会略微降低检测率。另一方面,Haar-like特征是一种较弱的特征,在Cascade分类器的训练中为了降低误检率而使用了很多级分类器,但这也同时降低了分类器的检测率。
与Haar-like特征相比,HOG特征是一种较强的特征,其计算也更复杂,因此训练使用HOG特征的Cascade分类器所需要的时间比训练具有相似性能的使用Haar-like特征的Cascade的时间多的多。
综上所述,需要能够获得更少的训练时间成本和更好的检测性能的训练装置、训练方法和检测方法。
发明内容
本发明的目的在于解决现有技术中所存在的问题。
根据本发明的一个方面,提供了一种训练装置,用于通过训练获得用于区分物体和背景的分类器,该训练装置包括:样本采集单元,用于采集预定数目的物体图像集和背景图像集;特征提取单元,用于提取由样本采集单元采集的物体图像集和背景图像集的特征;以及训练单元,用于使用由特征提取单元提取的特征进行训练,以获得分类器,其中,特征包括类小波特征和梯度方位直方图特征。
在上述训练装置中,分类器采用由多个级分类器串联而成的级联结构,每一个级分类器均包括:第一子级分类器,使用类小波特征;以及第二子级分类器,使用梯度方位直方图特征,其中,第一子级分类器和第二子级分类器串联连接。
优选地,第一子级分类器的训练在所述第二子级分类器的训练之前,并且将第二子级分类器的期望检测率在训练之前被预先设为100%。
在训练第n个级分类器时,训练第n个级分类器中的第一子级分类器所需的正样本集和负样本集通过样本搜索分类器在物体图像集和背景图像集中搜索而得到,其中,样本搜索分类器由前n-1个级分类器中的第一子级分类器所组成;以及训练第n个级分类器中的第二子级分类器的负样本集与第n个级分类器中的第一子级分类器所使用的负样本集相同,而第n个级分类器中的第二子级分类器的正样本集为样本搜索分类器在物体图像集中搜索得到的正样本集被训练得到的第n个级分类器中的第一子级分类器重新筛选后的正样本集。
样本搜索分类器对物体图像集中的图像进行分类,所有被分类为正样本的图像组成训练第n个级分类器中的第一子级分类器所需的正样本集。
使用固定尺寸的窗口对背景图像集中的背景图像进行遍历,然后使用样本搜索分类器对每个窗口图像进行分类,如果分类结果为正,则当前窗口图像成为负样本图像,遍历结束后按比例缩小背景图像的尺寸,然后重复上述过程直至收集到预定数目的负样本图像组成训练第n个级分类器中的第一子级分类器所需的负样本集。
此外,训练装置还包括训练退出确定单元,用于当检测分类器的性能达到期望性能或者训练达到预定的训练级数时,则确定退出训练。
类小波特征包括相邻结构的特征集和分离结构的特征集,其中,相邻结构的特征集定义图像中特定连通区域内部的灰度关系,而分离结构的特征集定义图像中两个不相邻区域的灰度关系。
优选地,所述物体图像集中的所有图像的尺寸相同,而所述背景图像集中的图像尺寸是任意的。
可以使用任意一种Boosting方法对第一子级分类器和第二子级分类器进行训练,例如,Real-Adaboost、Gentle-Adaboost等。
根据本发明的另一方面,提供了一种训练方法,用于通过训练获得用于区分物体和背景的分类器,该训练方法包括以下步骤:样本采集步骤,采集预定数目的物体图像集和背景图像集;特征提取步骤,提取在样本采集步骤中采集的物体图像集和背景图像集的特征;以及训练步骤,使用在特征提取步骤中提取的特征进行训练,以获得分类器,其中,特征包括类小波特征和梯度方位直方图特征。
在上述训练方法中,分类器采用由多个级分类器串联而成的级联结构,每一个级分类器均包括:第一子级分类器,使用类小波特征;以及第二子级分类器,使用梯度方位直方图特征,其中,第一子级分类器和第二子级分类器串联连接。
优选地,第一子级分类器的训练在第二子级分类器的训练之前,并且将第二子级分类器的期望检测率在训练之前被预先设为100%。
在训练第n个级分类器时,训练第n个级分类器中的第一子级分类器所需的正样本集和负样本集通过样本搜索分类器在物体图像集和背景图像集中搜索而得到,其中,样本搜索分类器由前n-1个级分类器中的第一子级分类器所组成;以及训练第n个级分类器中的第二子级分类器的负样本集与第n个级分类器中的第一子级分类器所使用的负样本集相同,而第n个级分类器中的第二子级分类器的正样本集为样本搜索分类器在物体图像集中搜索得到的正样本集被训练得到的第n个级分类器中的第一子级分类器重新筛选后的正样本集。
样本搜索分类器对物体图像集中的所有图像进行分类,所有被分类为正样本的图像组成训练第n个级分类器中的第一子级分类器所需的正样本集。
使用固定尺寸的窗口对背景图像集中的背景图像进行遍历,然后使用样本搜索分类器对每个窗口图像进行分类,如果分类结果为正,则当前窗口图像成为负样本图像,遍历结束后按比例缩小背景图像的尺寸,然后重复上述过程直至收集到预定数目的负样本图像组成训练第n个级分类器中的第一子级分类器所需的负样本集。
此外,训练方法还包括训练退出确定步骤,其中,当分类器的性能达到期望性能或者训练达到预定的训练级数时,则确定退出训练。
类小波特征包括相邻结构的特征集和分离结构的特征集,其中,相邻结构的特征集定义图像中特定连通区域内部的灰度关系,而分离结构的特征集定义图像中两个不相邻区域的灰度关系。
优选地,物体图像集中的所有图像的尺寸相同,而背景图像集中的图像尺寸是任意的。
可以使用任意一种Boosting方法对第一子级分类器和第二子级分类器进行训练,例如,Real-Adaboost、Gentle-Adaboost等。
根据本发明的再一方面,提供了一种检测方法,用于在图像或视频中进行物体检测,利用上述训练装置或上述训练方法所获得的分类器来检测在输入的图像或是视频中是否存在物体,并给出物体的存在位置。
此外,检测方法还包括以下步骤:窗口遍历步骤,通过预定的窗口遍历模式对输入的图像或视频进行遍历;以及后处理步骤,用于对在窗口遍历步骤中得到的窗口进行后处理,从而得到最终的检测结果。
优选地,窗口遍历模式为:选择固定尺寸的窗口遍历输入的图像或视频,遍历结束后按一定比例缩小或放大图像或视频的尺寸,然后再使用固定尺寸的窗口重新遍历图像或视频,其中,使用分类器对每个窗口图像进行分类,如果分类结果为正,则记录当前窗口的尺寸和位置,并按照缩放所述图像或视频的比例将当前窗口的尺寸和位置映射回到原来的图像或视频的坐标空间,得到物体在图像或视频中的尺寸和位置。
可选地,窗口遍历模式为:使用窗口遍历图像或视频,然后保持图像或视频的尺寸不变,按一定比例缩小或放大窗口的尺寸来重新遍历图像或视频,其中,使用所述分类器对每个窗口图像进行分类,如果分类结果为正,直接记录当前窗口的尺寸和位置。
另外,后处理步骤还包括:窗口合并步骤,将在窗口遍历步骤中得到的窗口按照相邻原则进行合并;以及阈值过滤步骤,设定一个阈值,将在窗口合并步骤中相邻窗口的数目小于阈值的合并结果舍弃,从而得到最终的检测结果。
在本发明中,分类器采用了特定的级联结构,将Haar-like特征与HOG特征结合在一起使用,利用Haar-like特征快速地搜索负样本,而更为强大的HOG特征的加入又大大提高了所得分类器的性能。
此外,由于HOG子级分类器不参与负样本集的挑选,因此,大大节省了计算成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是示出根据本发明的训练装置的框图;
图2是示出根据本发明实施例的Haar-like特征的示意图;
图3是示出根据本发明实施例HOG特征的示意图;
图4是示出根据本发明实施例的Cascade分类器的结构框图;
图5是示出根据本发明的训练方法的流程图;
图6是示出根据本发明实施例的Cascade分类器的训练过程的示意图;
图7是示出在根据本发明实施例的Cascade分类器中的各个子级分类器的训练过程的流程图;
图8是示出根据本发明实施例的完整系统的框架;
图9是示出根据本发明实施例的检测方法的流程图;
图10是示出本发明实施例所使用的扩展Haar-like特征对分类器性能的提高的示意图;以及
图11是示出本发明实施例的Cascade分类器与单独使用Haar-like特征的Cascade分类器的性能对比的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
注意,在本发明的实施例中,以汽车检测为例,但本发明不限于汽车检测,也可以用于其他物体的检测,例如人脸、人体等等。
图1是示出根据本发明的训练模块的框图。
根据本发明的训练装置包括:样本采集单元102,用于采集预定数目的物体图像集和背景图像集;特征提取单元104,用于提取由样本采集单元102采集的物体图像集和背景图像集的特征;以及训练单元106,用于使用由特征提取单元104提取的特征进行训练,以获得分类器。其中,特征包括类小波特征和梯度方位直方图特征。
接下来,结合图2和图3描述Haar-like特征和HOG特征。图2是示出根据本发明实施例的Haar-like特征的示意图;以及图3是示出根据本发明实施例HOG特征的示意图。
Haar-like特征原型如图2所示。Haar-like特征是定义在图像中的一个矩形,它包括两部分,在图中分别以白色和黑色表示,矩形的方位分为直立和45度倾斜两种。Haar-like特征原型具有四个参数:矩形在图像中的位置(x,y)和矩形的尺寸(宽度w和高度h),随着矩形的位置、尺寸和宽高比的变化,可以生成数以万计的具体Haar-like特征作用于图像。
本实施例所用的Haar-like特征包括两种结构,图2(a)所示为相邻结构,图2(b)所示为分离结构。图2(a)的特征集描述了图像中某个局部连通区域内部的灰度关系,而图2(b)的特征集合则描述了图像中两个不相邻区域的灰度关系。
Haar-like特征的取值为一个标量,将白色区域内所有像素的灰度值总和定义为Sum(W),将黑色区域内的灰度值总和定义为Sum(B),则Haar-like特征值由下式进行计算:
featurei=Sum(W)-Sum(B)
本实施例所用的HOG特征的定义和计算如图3所示。
如图3所示,HOG特征建立在图像中的一个矩形区域上,其被称为Block,Block在图像中的位置和尺寸任意;Block内部分为四个子区域,子区域称为Cell。
在每个Cell区域中建立梯度方位直方图:直方图的横轴为梯度方位,在此将0~360度的方位范围划分为18个区间,每20度为一个区间;直方图的纵轴为Cell区域内满足某个方位区间的像素梯度幅值的累加;将每个Cell直方图用一个18维的向量表示。
HOG特征取值为一个向量,其计算方式如下:将四个Cell直方图向量联结成一个72维向量v;将向量归一化:v′=v/‖v‖2,其中‖v‖2为向量的2-范数;将归一化后的向量中所有大于0.2的分量置为0.2,然后重新进行归一化。
图4是示出根据本发明实施例的Cascade分类器的结构框图。
如图4所示,本实施例采用的分类器为级联结构设计(Cascade),它由多个“级分类器”SC串联组成。Cascade的每个“级分类器”SC又由一对“子级分类器”SCA和SCB串联而成。“子级分类器”是使用AdaBoost算法在大量可用特征中挑选少量特征组合成的一个高效率的分类器;SCA使用Haar-like特征,所得分类器称为Haar-Adaboost,而SCB使用HOG特征,所得分类器称为HOG-Adaboost。
图5是示出根据本发明的训练方法的流程图。
参照图5,本发明的训练方法包括步骤:S502,样本采集步骤,采集预定数目的物体图像集和背景图像集;S504,特征提取步骤,提取在样本采集步骤中采集的物体图像集和背景图像集的特征;以及S506,训练步骤,使用在特征提取步骤中提取的特征进行训练,以获得分类器,其中,特征包括类小波特征和梯度方位直方图特征。
本发明所使用的Cascade分类器的训练过程如图6所示。
首先,准备训练所需的正样本集P0(汽车图像)和负样本集N0(来自背景图像)。
设定t=0,1,……n,训练第t级分类器,训练过程如下:
使用正样本集Pt和负样本集Nt训练Haar-Adaboost(训练过程如稍后描述的图7中所示),并将所得Haar-Adaboost加入Haar-Adaboost集合;
然后,使用所得Haar-Adaboost对其训练时所使用的正样本集Pt进行筛选,剔除分类错误的正样本得到新的正样本集;
使用新的正样本集和负样本集Nt训练HOG-Adaboost(训练过程如稍后描述的图7中所示),特别注意,训练前预先将HOG-Adaboost的期望检测率设为100%;
接下来,将Haar-Adaboost和HOG-Adaboost串联得到第t级分类器;
测试当前Cascade的性能,如果达到期望性能或达到预定训练级数,则训练退出;
然后,使用已有的Haar-Adaboost集合在背景图像中搜索新的负样本集Nt+1
下面将参照图7描述在根据本发明实施例的Cascade分类器中的各个子级分类器的训练过程的流程图。
首先,设定期望的训练目标,例如设定最终所得分类器在当前训练样本集上的期望检测率(Hit rate)为99.8%,期望误检率为30%;设定训练样本的初始权值;
然后,生成特征池,特征池中为某种类型的特征原型在给定样本尺寸的图像上所能形成的所有具体特征,例如在45×30(像素)的图像中可以生成近两百万个Haar-like特征或者数千个HOG特征;
然后进行特征提取,对于给定的训练样本图像,依次计算所有特征在图像中的取值,为了减少计算复杂度也可以在所有特征中随机挑选部分特征进行计算;
接着挑选最优弱分类器,根据所使用的特征的特性设计合适的弱分类器,每个弱分类器可以只使用一个特征,也可以使用多个特征;使用所有弱分类器对当前权值分布条件下的训练样本进行分类,挑选出分类误差最小的弱分类器;
根据最优弱分类器对所有样本的分类误差更新样本的权值;
组合目前所得所有弱分类器为一个强分类器H(x),并测试其在当前训练集上的检测率和误检率;
如果H(x)已经达到期望训练目标则结束训练,否则返回进行特征提取。
图8是示出根据本发明实施例的检测系统的框架。
参照图8,检测系统包括训练模块和检测模块两部分。训练模块的结构和训练过程在前面已经进行详细的描述,为了简化说明,此处省略其描述。检测模块主要包括窗口遍历和后处理两部分,其处理流程如图9所示。
在窗口遍历过程中,对任意给定的检测图像,使用与训练样本尺寸相同的窗口对当前图像进行从左向右、从上到下的扫描;对扫描过程中得到的每个窗口图像,应用训练所得的Cascade分类器进行分类,并记录分类器输出为正的窗口的位置以及当前图像相对于原图的尺寸比例因子。
窗口遍历结束后,按照一定的比例因子将图像缩小,重新进行上述窗口遍历和窗口图像判定过程。重复以上过程,直到当图像缩小到窗口遍历无法进行(图像的高度小于窗口高度,或图像的宽度小于窗口宽度)为止。将所有正响应窗口按照其对应的图像与原图像的尺寸比例因子映射到原图像,得到所有正响应在原图像中的位置和尺寸。
注意,在窗口遍历过程中,遍历的顺序和方式是任意的,可以是从左到右、从上到下,也可以是从右到左、从下到上,以及窗口平移的步长也是任意的,可以是逐像素,也可以是隔多个像素,或者与当前窗口的尺寸成比例关系。
此外,遍历模式也不限于上述模式,还可以采用保持图像的尺寸不变,按一定比例缩小或放大窗口的尺寸对图像进行遍历的模式。如果使用该遍历模式,则不需要将所有正响应窗口按照其对应的图像与原图像的尺寸比例因子映射到原图像,而是直接记录正响应在图像中的位置和尺寸。
在后处理过程中,在图像中的同一目标(汽车)附近会产生多重响应,将邻近的多重响应合并为一个输出响应,这里的“邻近”定义为:1、响应窗口中心的位置相邻(邻域的大小视情况而定);2、响应窗口的尺寸相近(区间大小视情况而定);
然后,设定一个阈值,如果合并一组窗口时,此组窗口的数量小于所设阈值,则舍弃此合并结果。
图10是示出本发明实施例所使用的扩展Haar-like特征对检测率的提高的示意图;以及图11是示出本发明实施例的Cascade分类器与单独使用Haar-like特征的Cascade分类器的性能对比的示意图。
从图10中可以看出,本发明所添加的Haar-like特征集(图2(b)所示)增强了原Haar-like特征集(图2(a)所示)的分类性能。在错检率小于10e-4时,检测率得到了提高。
此外,从图11可以看出,本发明同时用两种特征进行训练和检测的方法比单独使用Haar-like特征的级联式分类器具有更好的分类性能。与单独使用HOG特征的级联式分类器相比,当具有相近分类性能时本发明的方法所需训练时间成本要低得多。实验表明,为得到具有相似分类性能的分类器,HOG-Cascade的训练时间大概是本发明Cascade训练时间的3到6倍。
在本发明中,分类器采用了特定的级联结构,将Haar-like特征与HOG特征结合在一起使用,同时发挥了Haar-like特征计算快捷和HOG特征分辩力强大的优势,在不显著增加计算成本的同时大大提高了所获得的分类器的性能。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (25)

1.一种训练装置,用于通过训练获得用于区分物体和背景的分类器,其特征在于,所述训练装置包括:
样本采集单元,用于采集预定数目的物体图像集和背景图像集;
特征提取单元,用于提取由所述样本采集单元采集的所述物体图像集和所述背景图像集的特征;以及
训练单元,用于使用由所述特征提取单元提取的所述特征进行训练,以获得所述分类器,
其中,所述特征包括类小波特征和梯度方位直方图特征。
2.根据权利要求1所述的训练装置,其特征在于,所述分类器采用由多个级分类器串联而成的级联结构,每一个级分类器均包括:
第一子级分类器,使用所述类小波特征;以及
第二子级分类器,使用所述梯度方位直方图特征,其中
所述第一子级分类器和所述第二子级分类器串联连接。
3.根据权利要求2所述的训练装置,其特征在于,所述第一子级分类器的训练在所述第二子级分类器的训练之前,并且所述第二子级分类器的期望检测率在训练之前被预先设为100%。
4.根据权利要求3所述的训练装置,其特征在于,在训练第n个级分类器时,
训练所述第n个级分类器中的第一子级分类器所需的正样本集和负样本集通过样本搜索分类器在所述物体图像集和所述背景图像集中搜索而得到,其中,所述样本搜索分类器由前n-1个级分类器中的第一子级分类器所组成,以及
训练所述第n个级分类器中的第二子级分类器的负样本集与所述第n个级分类器中的第一子级分类器所使用的负样本集相同,而所述第n个级分类器中的第二子级分类器的正样本集为所述样本搜索分类器在所述物体图像集中搜索得到的正样本集被训练得到的所述第n个级分类器中的第一子级分类器重新筛选后的正样本集。
5.根据权利要求4所述的训练装置,其特征在于,所述样本搜索分类器对所述物体图像集中的所有图像进行分类,其中,所有被分类为正样本的图像组成训练所述第n个级分类器中的第一子级分类器所需的正样本集。
6.根据权利要求4所述的训练装置,其特征在于,使用固定尺寸的窗口对所述背景图像集中的背景图像进行遍历,然后使用所述样本搜索分类器对每个窗口图像进行分类,如果分类结果为正,则当前窗口图像成为负样本图像,遍历结束后按比例缩小背景图像的尺寸,然后重复对背景图像的遍历过程和所述样本搜索分类器的分类过程,直至收集到预定数目的负样本图像组成训练所述第n个级分类器中的第一子级分类器所需的负样本集。
7.根据权利要求要求4所述的训练装置,其特征在于,还包括:训练退出确定单元,用于当所述分类器的性能达到期望性能或者训练达到预定的训练级数时,则确定退出训练。
8.根据权利要求1至7中任一项所述的训练装置,其特征在于,所述类小波特征包括相邻结构的特征集和分离结构的特征集,其中,所述相邻结构的特征集定义图像中特定连通区域内部的灰度关系,而所述分离结构的特征集定义图像中两个不相邻区域的灰度关系。
9.根据权利要求1至7中任一项所述的训练装置,其特征在于,所述物体图像集中的所有图像的尺寸相同,而所述背景图像集中的图像尺寸是任意的。
10.根据权利要求2至7中任一项所述的训练装置,其特征在于,使用任意一种Boosting方法对所述第一子级分类器和所述第二子级分类器进行训练。
11.一种训练方法,用于通过训练获得用于区分物体和背景的分类器,其特征在于,所述训练方法包括以下步骤:
样本采集步骤,用于采集预定数目的物体图像集和背景图像集;
特征提取步骤,用于提取在所述样本采集步骤中采集的所述物体图像集和所述背景图像集的特征;以及
训练步骤,用于使用在所述特征提取步骤中提取的所述特征进行训练,以获得所述分类器,
其中,所述特征包括类小波特征和梯度方位直方图特征。
12.根据权利要求11所述的训练方法,其特征在于,所述分类器采用由多个级分类器串联而成的级联结构,每一个级分类器均包括:
第一子级分类器,使用所述类小波特征;以及
第二子级分类器,使用所述梯度方位直方图特征,其中
所述第一子级分类器和所述第二子级分类器串联连接。
13.根据权利要求12所述的训练方法,其特征在于,所述第一子级分类器的训练在所述第二子级分类器的训练之前,并且所述第二子级分类器的期望检测率在训练之前被预先设为100%。
14.根据权利要求13所述的训练方法,其特征在于,在训练第n个级分类器时,
训练所述第n个级分类器中的第一子级分类器所需的正样本集和负样本集通过样本搜索分类器在所述物体图像集和所述背景图像集中搜索而得到,其中,所述样本搜索分类器由前n-1个级分类器中的第一子级分类器所组成,以及
训练所述第n个级分类器中的第二子级分类器的负样本集与所述第n个级分类器中的第一子级分类器所使用的负样本集相同,而所述第n个级分类器中的第二子级分类器的正样本集为所述样本搜索分类器在所述物体图像集中搜索得到的正样本集被训练得到的所述第n个级分类器中的第一子级分类器重新筛选后的正样本集。
15.根据权利要求14所述的训练方法,其特征在于,所述样本搜索分类器对所述物体图像集中的所有图像进行分类,所有被分类为正样本的图像组成训练所述第n个级分类器中的第一子级分类器所需的正样本集。
16.根据权利要求14所述的训练方法,其特征在于,使用固定尺寸的窗口对所述背景图像集中的背景图像进行遍历,然后使用所述样本搜索分类器对每个窗口图像进行分类,如果分类结果为正,则当前窗口图像成为负样本图像,遍历结束后按比例缩小背景图像的尺寸,然后重复对背景图像的遍历过程和所述样本搜索分类器的分类过程,直至收集到预定数目的负样本图像组成训练所述第n个级分类器中的第一子级分类器所需的负样本集。
17.根据权利要求要求14所述的训练方法,其特征在于,还包括训练退出确定步骤,其中,当所述分类器的性能达到期望性能或者训练达到预定的训练级数时,则确定退出训练。
18.根据权利要求11至17中任一项所述的训练方法,其特征在于,所述类小波特征包括相邻结构的特征集和分离结构的特征集,其中,所述相邻结构的特征集定义图像中特定连通区域内部的灰度关系,而所述分离结构的特征集定义图像中两个不相邻区域的灰度关系。
19.根据权利要求11至17中任一项所述的训练方法,其特征在于,所述物体图像集中的所有图像的尺寸相同,而所述背景图像集中的图像尺寸是任意的。
20.根据权利要求12至17中任一项所述的训练方法,其特征在于,使用任意一种Boosting方法对所述第一子级分类器和所述第二子级分类器进行训练。
21.一种检测方法,用于在图像或视频中进行物体检测,其特征在于:
利用权利要求1至10中任一项所述的训练装置或权利要求11至20中任一项所述的训练方法所获得的分类器来检测在输入的所述图像或是视频中是否存在物体,并给出所述物体的存在位置。
22.根据权利要求21所述的方法,其特征在于,所述检测方法还包括以下步骤:
窗口遍历步骤,通过预定的窗口遍历模式对输入的所述图像或视频进行遍历;以及
后处理步骤,用于对在所述窗口遍历步骤中得到的窗口进行后处理,从而得到最终的检测结果。
23.根据权利要求22所述的方法,其特征在于,所述窗口遍历模式为:选择固定尺寸的窗口遍历输入的所述图像或视频,遍历结束后按一定比例缩小或放大所述图像或视频的尺寸,然后再使用所述固定尺寸的窗口重新遍历所述图像或视频,
其中,使用所述分类器对每个窗口图像进行分类,如果分类结果为正,则记录当前窗口的尺寸和位置,并按照缩放所述图像或视频的比例将所述当前窗口的尺寸和位置映射回到原来的图像或视频的坐标空间,得到所述物体在所述图像或视频中的尺寸和位置。
24.根据权利要求22所述的方法,其特征在于,所述窗口遍历模式为:使用窗口遍历所述图像或视频,然后保持所述图像或视频的尺寸不变,按一定比例缩小或放大所述窗口的尺寸来重新遍历所述图像或视频,
其中,使用所述分类器对每个窗口图像进行分类,如果分类结果为正,直接记录当前窗口的尺寸和位置。
25.根据权利要求22所述的方法,其特征在于,所述后处理步骤还包括:
窗口合并步骤,将在所述窗口遍历步骤中得到的窗口按照相邻原则进行合并;以及
阈值过滤步骤,设定一个阈值,将在所述窗口合并步骤中相邻窗口的数目小于所述阈值的合并结果舍弃,从而得到最终的检测结果。
CN200810210103.5A 2008-08-18 2008-08-18 训练装置、训练方法及检测方法 Expired - Fee Related CN101655914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810210103.5A CN101655914B (zh) 2008-08-18 2008-08-18 训练装置、训练方法及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810210103.5A CN101655914B (zh) 2008-08-18 2008-08-18 训练装置、训练方法及检测方法

Publications (2)

Publication Number Publication Date
CN101655914A true CN101655914A (zh) 2010-02-24
CN101655914B CN101655914B (zh) 2014-10-22

Family

ID=41710199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810210103.5A Expired - Fee Related CN101655914B (zh) 2008-08-18 2008-08-18 训练装置、训练方法及检测方法

Country Status (1)

Country Link
CN (1) CN101655914B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496275A (zh) * 2011-11-25 2012-06-13 大连海创高科信息技术有限公司 客车超载检测方法
CN102831442A (zh) * 2011-06-13 2012-12-19 索尼公司 异常行为检测设备和方法及生成该检测设备的设备和方法
CN102855500A (zh) * 2011-06-27 2013-01-02 东南大学 一种基于Haar和HoG特征的前车检测方法
US8447139B2 (en) 2010-04-13 2013-05-21 International Business Machines Corporation Object recognition using Haar features and histograms of oriented gradients
CN103699888A (zh) * 2013-12-29 2014-04-02 深圳市捷顺科技实业股份有限公司 人脸检测方法和装置
CN103761529A (zh) * 2013-12-31 2014-04-30 北京大学 一种基于多色彩模型和矩形特征的明火检测方法和系统
CN104050827A (zh) * 2014-06-06 2014-09-17 北京航空航天大学 一种基于视觉的交通信号灯自动检测识别方法
CN104091178A (zh) * 2014-07-01 2014-10-08 四川长虹电器股份有限公司 基于hog特征人体感知分类器的训练方法
CN104090658A (zh) * 2014-07-04 2014-10-08 四川长虹电器股份有限公司 基于hog特征的人体图像检测方法
CN105183914A (zh) * 2015-10-14 2015-12-23 合一网络技术(北京)有限公司 数据特征格式化方法及装置
CN107480652A (zh) * 2017-08-29 2017-12-15 北京恒信彩虹科技有限公司 一种手势检测方法及设备
CN108229508A (zh) * 2016-12-15 2018-06-29 富士通株式会社 用于训练图像处理装置的训练装置和训练方法
CN109034169A (zh) * 2018-06-29 2018-12-18 广州雅特智能科技有限公司 智能食物容器识别方法、装置和系统
CN109977738A (zh) * 2017-12-28 2019-07-05 深圳Tcl新技术有限公司 一种视频场景分割判断方法、智能终端及存储介质
WO2023047173A1 (en) * 2021-09-27 2023-03-30 Sensetime International Pte. Ltd. Methods and apparatuses for classifying game props and training neural network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731417A (zh) * 2005-08-19 2006-02-08 清华大学 复杂背景图像中的鲁棒人脸检测方法
CN101178773A (zh) * 2007-12-13 2008-05-14 北京中星微电子有限公司 基于特征提取和分类器的图像识别系统及方法
CN101200252A (zh) * 2007-12-10 2008-06-18 中国科学院计算技术研究所 一种目标场所优化调度方法及系统
CN101236608A (zh) * 2008-01-25 2008-08-06 清华大学 基于图片几何结构的人脸检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731417A (zh) * 2005-08-19 2006-02-08 清华大学 复杂背景图像中的鲁棒人脸检测方法
CN101200252A (zh) * 2007-12-10 2008-06-18 中国科学院计算技术研究所 一种目标场所优化调度方法及系统
CN101178773A (zh) * 2007-12-13 2008-05-14 北京中星微电子有限公司 基于特征提取和分类器的图像识别系统及方法
CN101236608A (zh) * 2008-01-25 2008-08-06 清华大学 基于图片几何结构的人脸检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GEISMANN等: "A Two-staged Approach to Vision-based Pedestrian Recognition Using Haar and HOG Features", 《2008 IEEE INTELLIGENT VEHICLES SYMPOSIUM》 *
MITA等: "Joint Haar-like features for face detection", 《TENTH IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION 2005,ICCV 2005》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447139B2 (en) 2010-04-13 2013-05-21 International Business Machines Corporation Object recognition using Haar features and histograms of oriented gradients
US8509526B2 (en) 2010-04-13 2013-08-13 International Business Machines Corporation Detection of objects in digital images
CN102831442A (zh) * 2011-06-13 2012-12-19 索尼公司 异常行为检测设备和方法及生成该检测设备的设备和方法
CN102855500A (zh) * 2011-06-27 2013-01-02 东南大学 一种基于Haar和HoG特征的前车检测方法
CN102496275A (zh) * 2011-11-25 2012-06-13 大连海创高科信息技术有限公司 客车超载检测方法
CN103699888A (zh) * 2013-12-29 2014-04-02 深圳市捷顺科技实业股份有限公司 人脸检测方法和装置
CN103761529B (zh) * 2013-12-31 2017-06-13 北京大学 一种基于多色彩模型和矩形特征的明火检测方法和系统
CN103761529A (zh) * 2013-12-31 2014-04-30 北京大学 一种基于多色彩模型和矩形特征的明火检测方法和系统
CN104050827A (zh) * 2014-06-06 2014-09-17 北京航空航天大学 一种基于视觉的交通信号灯自动检测识别方法
CN104050827B (zh) * 2014-06-06 2016-03-02 北京航空航天大学 一种基于视觉的交通信号灯自动检测识别方法
CN104091178A (zh) * 2014-07-01 2014-10-08 四川长虹电器股份有限公司 基于hog特征人体感知分类器的训练方法
CN104090658A (zh) * 2014-07-04 2014-10-08 四川长虹电器股份有限公司 基于hog特征的人体图像检测方法
CN105183914A (zh) * 2015-10-14 2015-12-23 合一网络技术(北京)有限公司 数据特征格式化方法及装置
CN108229508A (zh) * 2016-12-15 2018-06-29 富士通株式会社 用于训练图像处理装置的训练装置和训练方法
CN108229508B (zh) * 2016-12-15 2022-01-04 富士通株式会社 用于训练图像处理装置的训练装置和训练方法
CN107480652A (zh) * 2017-08-29 2017-12-15 北京恒信彩虹科技有限公司 一种手势检测方法及设备
CN109977738A (zh) * 2017-12-28 2019-07-05 深圳Tcl新技术有限公司 一种视频场景分割判断方法、智能终端及存储介质
CN109034169A (zh) * 2018-06-29 2018-12-18 广州雅特智能科技有限公司 智能食物容器识别方法、装置和系统
CN109034169B (zh) * 2018-06-29 2021-02-26 广州雅特智能科技有限公司 智能食物容器识别方法、装置、系统和存储介质
WO2023047173A1 (en) * 2021-09-27 2023-03-30 Sensetime International Pte. Ltd. Methods and apparatuses for classifying game props and training neural network

Also Published As

Publication number Publication date
CN101655914B (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
CN101655914B (zh) 训练装置、训练方法及检测方法
CN111008562B (zh) 一种特征图深度融合的人车目标检测方法
CN101872477B (zh) 检测图像中的对象的方法、装置,及包括该装置的系统
CN103198332B (zh) 一种实时鲁棒的远红外车载行人检测方法
CN102509104B (zh) 基于置信度图的增强现实场景虚拟对象判别和检测方法
CN112287788A (zh) 基于改进YOLOv3和改进NMS的行人检测方法
CN110569905B (zh) 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN107092884B (zh) 一种快速粗精级联行人检测方法
CN103049733B (zh) 人脸检测方法和人脸检测设备
CN103679205B (zh) 基于阴影假设和分层hog对称特征验证的前车检测方法
CN109583305A (zh) 一种基于关键部件识别和细粒度分类的车辆重识别的先进方法
CN104036284A (zh) 基于Adaboost算法的多尺度行人检测方法
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN105513066B (zh) 一种基于种子点选取与超像素融合的通用物体检测方法
CN104408482A (zh) 一种高分辨率sar图像目标检测方法
Gao et al. Scale optimization for full-image-CNN vehicle detection
CN103632170A (zh) 基于特征组合的行人检测方法及装置
CN101477626A (zh) 一种在复杂场景的视频中进行人体头肩检测的方法
CN101364263A (zh) 对图像进行皮肤纹理检测的方法及系统
CN103745197B (zh) 一种车牌检测方法及装置
CN105930803A (zh) 一种基于Edge Boxes的前车检测方法及装置
CN103971106A (zh) 多视角人脸图像性别识别方法及装置
CN105976376A (zh) 一种基于部件模型的高分辨sar图像目标检测方法
CN102479329A (zh) 分类器生成装置和方法,检测图像中的对象的装置和方法
CN102024149B (zh) 物体检测的方法及层次型物体检测器中分类器的训练方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141022

Termination date: 20150818

EXPY Termination of patent right or utility model