CN101872477B

CN101872477B - 检测图像中的对象的方法、装置，及包括该装置的系统

Info

Publication number: CN101872477B
Application number: CN200910177755.8A
Authority: CN
Inventors: 孟龙; 吴伟国
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-04-24
Filing date: 2009-09-25
Publication date: 2014-07-16
Anticipated expiration: 2029-09-25
Also published as: US8463044B2; CN101872477A; US20100272366A1

Abstract

本发明提供一种在待检测图像中检测特定对象的方法，包括：特征获取步骤，用于获取待检测图像的图像特征；和，检测步骤，用于利用与不同尺寸的检测窗口中的至少一部分检测窗口相对应的多种尺寸的分类器，根据所述获取的图像特征对所述待检测图像的不同尺寸的检测窗口进行检测，以便确定在待检测图像中是否存在特定对象并给出所述特定对象在所述待检测图像中的位置。还提供进行对象检测的装置及其包含该装置的系统。本发明的在待检测图像中检测特定对象的方法、装置及系统可改善对象检测的精确度，并且此外还能提高对象检测的速度。

Description

检测图像中的对象的方法、装置,及包括该装置的系统

技术领域

本发明总体上来说涉及图像处理的技术领域，更具体地说，本发明涉及检测图像中的特定对象的方法、装置，以及包括该对象检测装置的系统。

背景技术

一般说来，图像可分为静态图像和动态视频图像。在动态视频图像或者静态图像中检测目标(即特定对象)有两类方法，第一类是采用静态图像特征建立区分目标与背景的分类器，用该分类器来在图像中检测目标或对象。对于动态视频图像则对每一帧视为一幅静态图像进行检测。第二类是结合图像的静态特征与视频图像的帧间相关性、运动、声音等信息来检测视频图像中的特定对象。其中上述第一类静态的方法是在图像中进行特定对象检测的基础。

在Viola P，Jones M J，“Rapid Object Detection Using a Boosted Cascadeof Simple Features”，Proc.of International Conference on Computer Visionand Pattern Recognition，2001，1：511-518(参考文献【1】)中，采用类哈尔(Haar-like)矩形特征来检测静态图像中的目标，用boost(提升)的方法自动挑选采用的特征。

在Viola P，Jones M J，Snow D，“Detecting pedestrian using patterns ofmotion and appearance”，Computer Vision，2003.734-741(参考文献【2】)中，对于视频中的行人，Viola认为人的运动具有独特的特征，从帧间差分图和变形的差分图中可以提取关于运动的方向幅度的特征，与静态特征一起进行训练从而得到分类器，但不能用于镜头运动的情况。

在Lienhart R，Maydt J.，“An extended set of Haar-like features for rapidobject detection”，IEEE ICIP，2002(参考文献【3】)中将静态图像的矩形特征进行推广，加入倾斜45度的多边形等特征，这些Haar-like特征和矩形特征一样，都是对矩形块内所有像素的特征量求取总和，并不考虑块内的特征分布情况。

在N.Dalal，B.Triggs，“Histograms of Oriented Gradients for HumanDetection”，Proc.of IEEE Computer Society Conference on Computer Visionand Pattern Recognition，2005：886-893(参考文献【4】)中采用方向性梯度直方图(HOG)的特征检测图像中的行人，对目标各个位置都求取梯度，对各方向的梯度求和并求取区域之间的梯度总和比例作为特征，采用SVM(支持向量机)进行训练。由于直方图具有统计的意义，能够适应目标在小范围和角度内的变化。

在N.Dalal，B.Triggs，and C.Schmid，“Human Detection UsingOriented Histograms of Flow and Appearance，”Proc.European Conferenceon Computer Vision，2006(参考文献【5】)中对视频的光流场取方向性直方图特征来获取行人的运动特征，结合静态的方向性梯度直方图来检测。方向性梯度直方图也是基于矩形块的特征，统计块内特征的总和，并计算块之间的特征分配比例，同样也不考虑块内特征的分布情况。

在Qiang Zhu，Shai Avidan，Mei-Chen Yeh，Kwang-Ting Cheng，″FastHuman Detection Using a C ascade of Histograms of Oriented Gradients″，Proc.IEEE Conf.Computer Vision and Pattern Recognition，vol.2，pp.1491-1498，2006(参考文献【6】)中给出了一种使用可变尺寸HOG特征的快速检测方法。这种方法先计算各方向梯度的积分图，然后从积分图计算简化的HOG特征。该方法在检测不同尺寸的人的时候，采用改变特征尺寸的办法而不是改变图像尺寸的办法。这样的做法实际上人为地改变了分类器，会造成性能的损失。此外，该检测方法处理QVGA需要200ms左右，实时性不是很理想。顺便提及，QVGA是一种固定分辨率的英文缩写，Q是Quarter，即四分之一的意思；QVGA意指VGA的四分之一尺寸，就是在屏幕上输出的分辨率是240×320像素。

此外，由于分类器没有完美的性能，可能在没有对象的位置给出检测到对象的错误响应，或者在一个对象周围给出多个检测响应，这就需要采用后处理方法来去除错误响应和合并重复响应。在现有的对象检测方法中，通常确定利用分类器处理后得到的一系列检测窗口之间的重叠度。然后，根据所确定的检测窗口之间的重叠度来对这些检测窗口进行后处理以得到特定对象在待检测图像中的存在及其位置。具体而言，如果两个检测窗口之间的重叠度小于一个预定的阈值，则认为该两个检测窗口与同一个特定对象有关，于是将它们合并成一个与该特定对象相关的检测窗口。但是，这种方法的处理精度较低。此外，这种方法对于在待检测图像中的特定对象存在部分重叠的情形效果也不佳。因为可能将与不同的特定对象相对应的检测窗口判断为是与同一个特定对象相对应的检测窗口而进行合并，从而无法将相互重叠的多个特定对象准确地区分开来。在作者为Navneet Dalal，名称为″Findingpeople in images and videos″，发表于2006年7月的博士论文中给出了基于mean shift的后处理方法。该方法主要通过常用的寻找波峰的方法进行后处理，但是对于靠近甚至部分重叠的对象(人)区分能力仍然较弱，且处理复杂，系统处理负荷重。通过网址http://lear.inrialpes.fr/pubs/2006/Dal06/Dalal-phd06.pdf可获得该论文的详细内容，其细节在此不再赘述。

发明内容

鉴于上述相关技术的现状，本发明的一个目的在于提供在图像中检测特定对象的方法，本发明的其他目的在于提供在图像中检测特定对象的相关装置和系统。本发明所提供的在图像中检测特定对象的方法、相关装置和系统可在对象检测的精确度方面获得改善，并且此外，还可提高对象检测的速度，从而改善实时性。

根据本发明的第一方面，提供一种在待检测图像中检测特定对象的方法，包括：特征获取步骤，用于获取待检测图像的图像特征；和，检测步骤，用于利用与不同尺寸的检测窗口中的至少一部分检测窗口相对应的多种尺寸的分类器，根据所述获取的图像特征对所述待检测图像的不同尺寸的检测窗口进行检测，以便确定在待检测图像中是否存在特定对象并给出所述特定对象在所述待检测图像中的位置。

根据本发明的第二方面，提供一种在待检测图像中检测特定对象的装置，包括：特征获取单元，用于获取待检测图像的图像特征；和，检测单元，用于利用与不同尺寸的检测窗口中的至少一部分检测窗口相对应的多种尺寸的分类器，根据所述获取的图像特征对所述待检测图像的不同尺寸的检测窗口进行检测，以便确定在待检测图像中是否存在特定对象并给出所述特定对象在所述待检测图像中的位置。

从上述可知，通过利用根据本发明的在图像中检测特定对象的方法、相关装置和系统，可以在检测图像中的特定对象时使用多种尺寸的分类器来对相应尺寸的检测窗口进行检测。由于对不同尺寸的检测窗口中的至少一部分可使用相应尺寸的分类器来检测，因此使得对象检测的精确度得以改善。

此外，通过利用根据本发明的在图像中检测特定对象的方法、相关装置和系统，可通过预先获得待检测图像的至少一部分单元区域的图像特征来构建图像特征集，使得在利用分类器进行检测时，可从该图像特征集中这些单元区域的图像特征直接得到不同尺寸的检测窗口的图像特征中的至少一部分图像特征而不必进行特征提取处理，因此可提高对象检测的速度，改善对象检测的实时性。

附图说明

通过结合附图对本发明的具体实施方式的描述，本发明的以上的和其它目的、特点和优点将变得清楚。在各附图中，相同或类似的附图标记表示相同或者类似的功能部件或步骤。在附图中：

图1是示出了根据本发明的一个实施例的对待检测图像中的特定对象进行检测的方法的流程简图；

图2A-2C是示出在图1所示实施例的对象检测方法中多种尺寸的分类器所具有的多种尺寸的样本图像库的示意图；

图3A-3B是示出了在根据本发明如图1中所示的实施例的对象检测方法中，通过转换得到多种尺寸的分类器的具体实施方式的简图；

图4A-4C是示出提取图像中的HOG特征的处理的示意图；

图5是示出了通过图1所示的实施例中对象检测方法的特征提取步骤获得图像特征集的处理的示意图；

图6A-6C是示出了在图1所示的对象检测方法的检测步骤中，对分类器所输出的检测窗口进行合并后处理以确定在待检测图像中的特定对象及其位置的一个实施例的示意图；和

图7是示出了根据本发明的一个实施例的对待检测图像中的特定对象进行检测的装置的简化框图。

具体实施方式

下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

下面将结合图1-3具体描述根据本发明一个实施例的对待检测图像中的特定对象进行检测的方法。

首先对于在待检测图像(静态图像或者动态视频图像)中检测特定对象的图像处理方法的一般过程进行简要描述，以便有助于对下面描述的本发明的技术方案的理解。以检测一副静态图像中的特定对象为例。在进行对象检测时，以具有某一特定尺寸的多个检测窗口(sub-window)，例如从图像的左上角一直到右下角对整幅图像进行扫描。各个检测窗口之间按照某个步长滑动，因此，各个检测窗口之间是相互重叠的关系，其重叠的程度取决于扫描的密度，即步长的大小。每个检测窗口的特性包括其在待检测图像中的位置以及该窗口的纵横比，或者称为尺寸、尺度(scale)。通常需要改变检测窗口的尺寸来对整幅的待检测图像进行如上所述的重复的多次扫描。针对不同尺寸的所有检测窗口分别提取相应的图像特征，然后利用预先训练的比较器来对所提取的检测窗口的图像特征进行检测，从而通过对不同尺寸的检测窗口进行分类判断来确定待检测图像中特定对象的存在与否及其在待检测图像中的位置。

关于利用分类器对于从待检测图像获得的多个检测窗口进行分类判断的处理，是分类器通过分类判断来选择多个检测窗口中最能代表对象的存在的检测窗口及其概率的处理。例如，可通过训练构建诸如基于提升的瀑布型级联式(boosting cascade)分类器。多个检测窗口依次经过这种分类器的串行级，在分类器的前几级，将会排除绝大多数的背景窗口，包含对象的检测窗口将进入最后一级。分类器输出这些检测窗口的尺寸及其在待检测图像中的位置，还有其作为对象的概率。利用分类器进行分类判断的基本原理及其基本操作不是本发明所关注的，例如可从上述参考文献中获得相关知识，其进一步的细节在此不再赘述。

图1是示出了根据本发明的一个实施例的方法的对待检测图像中的特定对象进行检测的方法的流程简图。如图所示，该方法从步骤S100开始。在特征获取步骤S110，获取待检测图像的图像特征。在检测步骤S120，利用与不同尺寸的检测窗口中的至少一部分检测窗口相对应的多种尺寸的分类器，根据所获取的图像特征对待检测图像的不同尺寸的检测窗口进行检测，以便确定在待检测图像中是否存在特定对象并给出该特定对象在待检测图像中的位置。根据上述的在待检测图像中检测对象的一般过程的简要描述可知，利用分类器对待检测图像的检测窗口进行检测的处理是通过对检测窗口进行分类判断来实现的。

在现有的在图像中检测特定对象的方法中，在通过预先训练的分类器对图像进行检测以识别图像中的特定对象例如人时，只使用某一固定尺寸的分类器对不同尺寸的检测窗口进行分类判断以检测出图像中是否存在特定对象以及该特定对象的位置。但是，由于在对待检测图像进行特征提取时涉及各种尺寸或者尺度的检测窗口，因此所述固定尺寸的分类器只能与其中某一种尺寸的检测窗口相对应。在利用该尺寸的分类器来对其他尺寸的检测窗口进行检测或分类判断时，需要对检测窗口中的图像的尺寸或者对分类器的尺寸进行调整，使得两者尺寸匹配后再进行分类判断。但是，这种调整相当于改变了图像特征的尺寸或者人改变了分类器，因此将导致性能的损失，从而降低对象检测的精确度。

根据本发明如图1所示的对象检测方法在进行检测时使用多种尺寸的分类器。具体而言，例如，对于使用第一尺寸的至少一个检测窗口来扫描待检测图像的整个区域的情形，用多种尺寸的分类器中与该第一尺寸的检测窗口的尺寸对应的第一尺寸的分类器，根据所获得的与第一尺寸的检测窗口相应的图像特征来对第一尺寸的检测窗口进行分类判断，以挑选本轮检测中较优的检测窗口。接着，使用第二尺寸的至少一个检测窗口扫描待检测图像，并由与该第二尺寸的检测窗口的尺寸相应的第二尺寸的分类器来对第二尺寸的检测窗口进行分类判断。依此类推，可以利用多种尺寸分类器中相应尺寸的分类器对各种尺寸的检测窗口中相应尺寸的检测窗口进行分类判断。通过利用这种方法，由于针对不同尺寸的检测窗口，可以选择具有匹配尺寸的分类器进行分类判断而无需对检测窗口中图像的尺寸和/或分类器的尺寸进行调整，因此不会改变图像的特征或者分类器的性能，可以改善对象检测的精确度。

在根据本发明该实施例的对象检测方法的一种具体实施方式中，多种尺寸的分类器中的每一种尺寸的分类器都具有与其尺寸相对应的样本图像库，而每一种样本图像库的尺寸与将要接受相应尺寸的分类器的分类判断处理的相应尺寸的检测窗口的尺寸分别相匹配。图2A-2C分别给出了三种不同尺寸的分类器所具有的三种不同尺寸的样本图像库的示意图。例如，如图2A-2C中示出的第一尺寸、第二尺寸、第三尺寸的样本图像库的尺寸分别与待检测图像的第一尺寸、第二尺寸、第三尺寸的检测窗口的尺寸相匹配。当然，图中只是示例，可以根据需要提供i种不同尺寸的分类器，相应地，可以存在i种不同尺寸的样本图像库。其中i是大于等于2的自然数。

本领域技术人员理解，可通过各种方式获得多种尺寸的分类器。作为一个具体例子而非对本发明的限制，可以通过预先对多种尺寸的样本图像库进行训练来获得多种尺寸的分类器。

关于对某种尺寸的样本图像库进行训练以得到相应尺寸的分类器的具体处理可通过各种现有的方法来实现。例如，针对某一种特定尺寸的样本图像库，在提取到的图像特征中选取最能区分目标与背景的若干特征作为有效特征集，训练有效特征集中特征或特征组合对应的弱分类器，合理分配各弱分类器权重，组合成最终的分类器。例如，如Boosting的方法。或者，可以对有效特征集统一训练得到分类器，如SVM(支持向量机)等机器学习的方法来训练分类器。如何训练分类器不是本发明所关注的，在此不再赘述。

在根据本发明如图1所示实施例的对象检测方法的一种具体实施方式中，多种尺寸的分类器的尺寸与利用分类器来进行分类判断的检测步骤S120中使用的不同尺寸的检测窗口的尺寸完全对应或者不完全对应。

所谓完全对应，是指对于在检测步骤S120中要使用的各种尺寸的检测窗口，对于每一种尺寸的检测窗口都能在多种尺寸的分类器中找到尺寸匹配的分类器。在这种情况下，在检测步骤S120中，对于特定尺寸的检测窗口，使用多种尺寸的分类器中与该检测窗口的尺寸相对应(即相匹配)的分类器来进行分类判断的处理。

所谓不完全对应，是指对于在检测步骤S120中要使用的各种尺寸的检测窗口，某些尺寸的检测窗口不能在多种尺寸的分类器中找到尺寸匹配的分类器。在这种情况下，在检测步骤S120中，对于能找到对应尺寸的分类器的检测窗口，使用所对应的尺寸的分类器进行分类判断处理。对于在多种尺寸的分类器中不存在对应尺寸的分类器的检测窗口，对该检测窗口中的图像的尺寸进行调整和/或对多种尺寸的分类器中的某一种尺寸分类器的尺寸进行调整，以便经过调整使得所述检测窗口和对该检测窗口进行检测的分类器相匹配，从而可进行分类器的分类判断处理。

在根据本发明如图1所示实施例的对象检测方法的一种具体实施方式中，还可以包括通过对多种尺寸的分类器中特定尺寸的分类器进行转换而得到与所述多种尺寸的分类器不同的其他尺寸的分类器的转换处理。这种转换例如可以是加倍或分割处理。

图3A-3B示出了通过这种转换处理获得相应尺寸的分类器的一个示例的简图。以QVGA为例，且检测的特定对象是人。图3A示出的是已有的各种尺寸的全身分类器。例如，参数“36*72”代表该尺寸分类器所具有的样本图像库中图像的宽是36像素，高是72像素。通过对这些分类器的相应参数乘以2可得到如图3B的表格中所示的其他尺寸的分类器。例如，对图3A中某尺寸分类器“36*72”进行乘以2的转换处理可得到图3B中另一尺寸的分类器“72*144”，对图3A中某尺寸分类器“40*80”进行乘以2的转换处理可得到图3B中另一尺寸的分类器“80*160”，等等。类似地，通过对图3A中示出的特定尺寸的分类器的相应参数除以2可得到如图3B的表格中所示的其他尺寸的分类器。例如，对图3A中某尺寸分类器“56*112”进行除以2的转换处理可得到图3B中另一尺寸的分类器“28*56”，对图3A中某尺寸分类器“64*128”进行除以2的转换处理可得到图3B中另一尺寸的分类器“32*64”，等等。可见，这种转换处理类似于加倍和分割处理。通过这种转换处理，对于某些尺寸的分类器，可以通过对已有尺寸的分类器进行简单的数学运算得到。

当然，本领域技术人员理解，除了上面描述的转换方式，有何可以使用任何其他合适的转换方式。

这种通过对已有尺寸的分类器进行转换而获得其他尺寸的分类器的处理，可以在如图1中所示对象检测方法的图像特征获取步骤S110之前进行，可以在特征获取步骤S110与检测步骤S120之间进行，或者也可以与图像特征获取步骤S110或检测步骤S120并行地进行。

在根据本发明如图1所示实施例的对象检测方法中，各种尺寸的分类器对于相应尺寸的检测窗口分别进行分类判断处理。如果某尺寸分类器的比较判断处理结果认为某个位置存在该分类器尺寸的对象，则记录下该位置和尺寸以及对象图像存在的概率，则得到该图像中对象存在位置和尺寸的概率分布。针对每一种尺寸的分类器都进行上述处理，得到与各种尺寸的分类器相对应的对象存在位置和尺寸的概率分布。其中，检测为对象图像的概率大于某个预定阈值的相近位置和尺寸的检测窗口可能代表同一个对象，因此在后处理中可以合并位置和尺寸相近的检测窗口得到最终结果(后面将详细描述)。

在本发明如图1所示的实施例的对象检测方法中，待检测的图像可以是静态的图像，也可以是动态的视频图像。对于待检测图像是视频图像的情况，可以将视频图像中的每一帧图像当作静态图像，分别用多种尺寸的分类器分别进行对象检测。作为一种可替换实施方式，由于动态视频图像的前后帧之间存在一定的帧间相关性，因此，对于视频图像中某一帧图像，也可以根据该帧图像与视频图像的其他相应图像帧之间的帧间相关性，通过对于其他相应图像帧的检测结果进行相应调整来获得对于所述某一帧图像的检测结果。

在本发明根据图1所示实施例的对象检测方法中，由于可使用不同尺寸的分类器来对不同尺寸的检测窗口进行分类判断，因此可提升对象检测的精确度。试验数据显示，本发明的这种方法相对于现有技术中的类似方法可以获得大约10％的对象检测精确度的提升。

根据上面的对于在待检测图像(静态图像或者动态视频图像)中检测特定对象的图像处理方法的一般过程的简要描述中可看出，在现有的对特定对象进行检测的处理中，所有的图像特征都需要在检测时进行实时提取，大量的特征提取处理给系统带来巨大的计算负荷。而且，由于检测窗口的重叠关系，所提取的图像特征存在大量重复的部分，这将导致在检测过程中进行大量重复计算，降低了对象检测的实时性。例如，在上述参考文献【6】中的方法中，虽然使用了从积分图计算简化的HOG特征的快速计算HOG特征的方法，但是处理QVGA仍然需要200ms左右，对象检测的实时性不理想。

在根据本发明图1中的实施例的对象检测方法的一个优选实施例中，可在特征获取步骤S110中预先产生待检测图像的、与不同尺寸的检测窗口相关的所有尺寸的单元区域中至少一部分单元区域的图像特征，由此构建待检测图像的图像特征集，使得可从图像特征集中获得所述不同尺寸的检测窗口的图像特征中的至少一部分图像特征。其中，图像特征集包括所述至少一部分单元区域的图像特征的值以及这些单元区域在待检测图像的整个区域中的位置。容易理解，在本优选实施例中，由于图像特征集中包括与不同尺寸的检测窗口所覆盖的区域相关的单元区域的图像特征，因此，可通过对图像特征集中这些单元区域的图像特征进行简单的处理来获得相应的检测窗口的图像特征(下面将详述)。也就是说，不同尺寸的检测窗口的图像特征中的至少一部分图像特征不需要在进行对象检测时实时地提取，由此改善对象检测的实时性。

在对本优选实施例的进行进一步详细描述之前，先对图像特征及其提取的一般原理进行简单说明。

众所周知，在检测图像中的特定对象时将待检测图像分成若干任意区域，对这些任意区域提取相关的图像特征。这种图像特征包括但不限于：

●各区域中的各种图像特征，例如：

亮度、梯度、高阶梯度、颜色、边缘等的均值、方差、协方差等统计特征；

亮度、梯度、高阶梯度、颜色、边缘等对各种滤波器的响应值；

某几个小区域的特征的线性或非线性组合等。

●各区域内部的图像特征点的分布特征，比如：

亮度、梯度、高阶梯度、颜色、边缘等在区域内的分布情况；

各方向的梯度、高阶梯度等的分布情况；

梯度、高阶梯度在各区域、各方向的联合分布情况。

在根据本发明的如图1所示的实施例中，以待检测图像的有关亮度的HOG特征为例进行说明。下面对HOG特征进行简要介绍。

图4A-4C是示出提取图像中的各种大小的HOG特征的处理的示意图。其中图4A示出了待提取HOG特征的原始图像；图4B示出了将原始图像在梯度图上划分为各种尺寸的小块，即，任意尺寸的单元区域；图4C示出了最终获得的HOG特征。如图4A-4C所示，将待提取图像特征的图像划分成若干小块，将梯度图分成若干个方向，求取每个小块内所有像素的每一种方向的梯度的总和，然后将相邻四个小块拼成一个大块，将所有方向的梯度总和进行归一化，得到相应的大块的HOG特征。

具体而言，假设对于原始图像中的某一尺寸的小块：

图像的亮度为I(x，y)，x，y表示在原始图像中的位置坐标，

水平方向梯度为I_x(x，y)＝d(I(x，y))/dx＝I(x+1，y)-I(x-1，y)，

垂直方向梯度为I_y(x，y)＝d(I(x，y))/dy＝I(x，y+1)-I(x，y-1)，

梯度为

Grad (x, y) = \sqrt{I_{x}^{2} + I_{y}^{2}},

梯度方向为θ(x，y)＝arg tg(|I_y/I_x|)。

当然，上述图4A-4C中提取HOG特征所涉及的各种细节可由本领域技术人员根据实际需要进行调节。而且，也可以使用任何其他的基于区域的图像特征。例如，可以每个像素的三个颜色分量分别计算对x，y的微分值，其最大的值作为该像素的梯度。在此需要指出，HOG特征的细节及其提取方法不是本发明所关注的，可以通过各种现有的方法提取，例如文献【4】对HOG特征进行了详细描述，对此不再赘述。

作为本优选实施例中构建图像特征集的一种具体实现方式，可选取待检测图像的整个区域中、与不同尺寸的检测窗口相关的至少一种特定尺寸的区域作为基本单元区域，并获得所述基本单元区域的图像特征。在此基础上，获得尺寸大于该基本单元区域的尺寸的各单元区域的图像特征，由此构建待检测图像的图像特征集。于是，图像特征集中的较大尺寸的单元区域的图像特征可由较小尺寸的单元区域的图像特征例如通过相加拼接等方式得到(下面将详细描述)，而无需在检测过程中对这些单元区域进行特征提取。可提高对象检测速度，改善对象检测的实时性。

在构建图像特征集的一种实例中，可将待检测图像中不同位置不同尺寸的检测窗口之间将要相重叠的区域所对应的图像特征包括在图像特征集中，于是可以在这些检测窗口之间最大可能地共享图像特征，而不需要重复计算图像特征，也可提高对象检测速度。

图5是示出了构建图像特征集的一个实例的示意图。如图5所示，在如图1所示的对象检测方法的特征提取步骤S110的处理中，将待检测的图像500划分成某个特定尺寸的基本单元区域，计算各基本单元区域的HOG图像特征。对于尺寸为基本单元区域的尺寸的整数倍大小的单元区域，可以采用若干基本单元区域的HOG图像特征相加得到。对参加相加的相邻的几个基本单元区域的HOG图像特征之和统一进行归一化就得到该尺寸为基本单元区域的尺寸的整数倍大小的单元区域的最终的HOG图像特征。所有基本单元区域的HOG图像特征，以及通过各基本单元区域的HOG图像特征直接相加得到的各种较大单元区域的HOG图像特征一起构成了待检图像500的图像特征集。需要指出，并非在所有情况下都需要对相邻的几个基本单元区域的HOG图像特征之和统一进行归一化处理才能得到较大的单元区域的图像特征。例如，对于图像亮度特征，就不需要进行这种归一化处理。本领域技术人员可根据进行对象检测时所使用的图像特征等具体情况来确定是否进行归一化处理。

图5中的待检测图像500-O，5-P和500-Q分别示出了待检测图像500按不同尺寸的单元区域进行划分的情形。如图5中的500-O所示，待检测图像500被划分成尺寸为4像素*4像素的多个基本单元区域。图5中的S和T分别示出了图像特征集中的一部分，以下分别称为图像特征集S和图像特征集T。如图所示，图像特征集S中包括各个基本单元区域的HOG图像特征，其中，括号中的数字代表某一个HOG特征的特征值，其是一个矢量。例如，图中线a，b，c分别所指向的图像特征集S中的部分给出了待检测图像500-O左上角的第一、第二和第三个基本单元区域的图像特征，而线g，f，e分别所指向的图像特征集S中的部分给出了待检测图像500-O右下角的第一、第二和第三个基本单元区域的图像特征。

图5中的500-P示出将待检测图像500被划分成尺寸为8像素*4像素的多个单元区域以进行特征提取时的情形。由于待检测图像500左上角的第一单元区域的尺寸是500-O中所示的基本单元区域的尺寸的整数倍(在此为2倍)，因此，通过将待检测图像500-O左上角的第一和第二基本单元区域的图像特征简单相加(如线k所示)而得到500-P中该左上角第一单元区域的图像特征，线d所指向的图像特征集T中的部分给出了该左上角第一单元区域的图像特征。类似地，通过将待检测图像500-O右下角的第一和第二基本单元区域的图像特征简单相加(如线n所示)，即得到500-P中右下角第一单元区域的图像特征，线h所指向的图像特征集T中的部分给出了该右下角第一单元区域的图像特征。

如果将待检测图像500按照图5中的500-Q的方式划分成尺寸为8像素*4像素的多个单元区域以进行特征提取，则通过将待检测图像500-O左上角的第二和第三基本单元区域的图像特征简单相加(如线l所示)即得到500-Q中该左上角第一单元区域的图像特征，线j所指向的图像特征集T中的部分给出了该左上角第一单元区域的图像特征。类似地，通过将待检测图像500-O右下角的第二和第三基本单元区域的图像特征简单相加(如线m所示)，即得到500-Q中右下角第一单元区域的图像特征，线i所指向的图像特征集T中的部分给出了该右下角第一单元区域的图像特征。

容易理解，只要待检测图像500在提取特征时被划分成的单元区域中存在尺寸为500-O中的基本单元区域的尺寸的整数倍的单元区域，这些单元区域的图像特征就可以通过对500-O中的基本单元区域的图像特征进行简单计算(例如将若干个基本单元区域的图像特征进行若干次简单相加)而获得。这种加法计算可称为是简单相加运算。例如也存在另一种情形(图5中未示出)，即，待检测图像500被划分成的单元区域的尺寸是基本单元尺寸的2倍以上，例如4倍，则可通过先将基本单元区域的图像特征进行简单相加得到尺寸是该基本单元区域的图像特征的2倍的较大的第一单元区域的图像特征，然后再将所得到的这种第一单元区域的图像特征进行简单相加而得到尺寸是该基本单元区域的图像特征的4倍的第二单元区域的图像特征。再例如，可先获得尺寸是基本单元尺寸的3倍的较大的第一单元区域的图像特征，然后再将所得到的这种第一单元区域的图像特征进行简单相加而得到尺寸是该基本单元区域的图像特征的6倍的第二单元区域的图像特征。依此类推，可通过这种迭代的相加运算获得尺寸是基本单元尺寸的任整数倍的单元区域的图像特征。这种加法计算可称为是“迭代的”相加运算。容易理解，也可结合上述的简单相加运算和迭代相加运算，从而由这种基本单元区域的图像特征获得尺寸是该基本单元尺寸的任意整数倍的单元区域的图像特征。

此外，虽然在上面的具体实施例中是基于一种特定尺寸的基本单元区域来构建图像特征集，但是本领域人员理解，也可以设置多种尺寸的基本单元区域，分别获得尺寸为该这些基本单元区域的尺寸的整数倍的单元区域的图像特征，从而构建图像特征集。

上述的图像特征相加处理可以被形象化地看成是一种对待检测图像500所划分成的各种单元区域进行拼接的“拼图”处理。本领域技术人员理解，还可以使用任何其他合适的计算方法来从基本单元区域的图像特征获得尺寸是该基本单元尺寸的任意整数倍的单元区域的图像特征。例如，可通过将基本单元区域的图像特征的值相乘，从而获得其他相应单元区域的图像特征。此外，基本单元区域的尺寸也可以是不同于图5的500-O中所给出的4像素*4像素的其他任何尺寸。上述的与构建图像特征集相关的具体参数可根据实际需要进行具体设置，在此不再赘述。

可以由计算得到的所有尺寸的单元区域的图像特征来构成图像特征集中，例如，上述图5中的S和T是图像特征集的构成部分。图像特征集包括待检测图像中相应尺寸的单元区域的图像特征，以及各单元区域在待检测图像中的位置。在图5所示出的优选实施例中，图像特征集采取的是一种查找表的方式。但是，容易理解，图像特征集实际上是一种体现待检测图像中单元区域的图像特征以及单元区域在待检测图像中的位置的数据库，因此，图像特征集也可采取其他任何形式的数据库，例如数据链表的方式等。

根据一种优选实施方式，可以按照与训练分类器时使用的图像特征库相同的方式构建所述图像特征集。也就是说，使得图像特征集中包含的图像特征的类型和数量与预先训练所述分类器时所使用的训练图像集的图像特征库中图像特征的类型和数量完全对应。这样，在对待检测图像进行对象检测时就可以直接从图像特征集中获得分类器需要进行检测的所有图像特征而不用从图像中的各种单元区域实时提取图像特征，大大提高了对象检测的速度。或者，也可以使得图像特征集中包含的图像特征的类型和数量与预先训练所述分类器时所使用的训练图像集的图像特征库中图像特征的类型和数量不完全对应。作为一个例子，可只由一部分单元区域，例如基本单元区域，的图像特征来构成图像特征集，其他尺寸的单元区域的图像特征可在执行对象检测时通过对图像特征集中的相应单元区域的图像特征进行简单计算而获得，或者也可通过对这些其他尺寸的单元区域实时提取特征而获得。

在一种可替选实施方式中，可以计算待检测图像的整个区域中所有单元区域的图像特征以构建图像特征集。当然，也可以只计算各检测窗口中重叠部分所涉及的区域中的至少一部分的图像特征来构建图像特征集。

如上所述，由于待检测图像中至少一部分单元区域的图像特征不需要在使用分类器进行检测时实时提取，因此提高了对象检测的速度，改善对象检测的实时性。而且，如果在图像特征集中包括各检测窗口中重叠部分所涉及的区域中的至少一部分的图像特征，则由于减少了大量的重复图像特征的计算，可进一步提高对象检测的速度。

对于图像特征集中不包括的单元区域的图像特征，可在进行对象检测时对该单元区域实时地进行图像特征提取。这种实时提取图像特征的处理可通过现有的多种方式来实现，在此不再赘述。

在另一种可替选实施方式中，也可以将实时提取得到的图像特征存入图像特征集中来更新图像特征集，如果更新部分包括检测窗口重叠部分对应的单元区域的图像特征，就可以在后续的检测中直接从该更新的图像特征集中获得这些重叠部分的图像特征而省却重复的实时提取计算。有助于改善对象检测速度。

通过比较试验证明，根据本发明的本优选实施例的方法处理QVGA只需要50ms左右，改善了在待检图像中进行对象检测的实时性。

需要注意，上述优选实施例中涉及的待检测图像可以是静态的图像也可以是动态的视频图像。对于动态的视频图像，可将视频图像中的每一帧图像分别当作静态图像，按照上述本优选实施例的方法来构建相应的图像特征集。或者，对于所述视频图像中的某一帧图像，可根据视频图像的运动信息、帧间相关性等，通过对在该帧图像之前的图像帧的图像特征集中发生变化的特征进行更新来构建该帧图像的图像特征集。

从上面有关背景技术的描述可如，现有的对象检测方法中对于通过分类器获得的候选检测窗口进行后处理的方式不能准确地确定待检测图像中的特定对象。此外，在待检测图像中存在的若干特定对象具有部分重叠的情况下，无法准确地区分开相互重叠的不同特定对象。根据本发明的实施例的后处理方法可以解决这些问题，能够有效地区分出来自于待检测图像中不同对象的检测响应，避免相互间的干扰，从而得到正确的对象数目和位置。

下面将参照图6A-6C详细描述根据本发明的实施例的后处理方法。图6A-6C是示出了在图1所示的对象检测方法的检测步骤中，对分类器所输出的检测窗口进行合并后处理以确定在待检测图像中的特定对象及其位置的一个实施例的示意图。

如图6A所示，假设对待检测图像中的对象6-1，6-1和6-3进行检测。其中在通过分类器对检测窗口进行分类比较之后，对于对象6-1，6-2和6-3获得分别用虚线、实线和点划线所代表的候选检测窗口。在使用分类器对所提取的待检测图像的图像特征进行分类检测的过程中，通过对每个检测窗口用相应的分类器来进行特征比较，得到所有位置和尺寸为特定对象的检测窗口的概率或者权重p_i(i＝1……N，N为检测窗口的总个数)。将N个检测窗口中p_i＞T1(T1为预定的阈值)的n个检测窗口的位置和尺寸(x_i，y_i，r_i)以及权重p_i记录下来，其中n是小于或等于N的自然数，i＝1，……，n。将对这n个检测窗口进行后处理以确定在待检测图像中特定对象的存在和位置，因此，可将这些检测窗口称为“候选检测窗口”，以区别于通过分类器比较处理获得的所有检测窗口。权重p_i是分类器输出的一个参数。如果分类器输出中无此项，则默认其值为“1”。

需要注意，为了描述清楚起见，图6A中对于每一对象都只示出了4个候选检测窗口，但是，本领域技术人员理解，这只是一种示意表示，取决于检测所使用的分类器的特性以及待检测图像自身特征等，所得到的候选检测窗口的数量和位置会有所不同，但都不影响根据本发明本实施例的后处理的实现。此外，虽然在本实施例中为了简明起见，是以对象6-1，6-2，6-3的检测为例进行下面的描述，但是对图6A的待检测图像中存在的所有特定对象都可通过根据本发明该实施例的后处理方法进行检测。

图6B示出了通过将图6A中示出的候选检测窗口划分成为的两个合并范围，即，与对象6-1和6-2对应的合并范围60-1以及与对象6-3对应的合并范围60-2。由于在检测为对象图像的概率或者权重大于预定阈值T1的候选检测窗口中，相近位置和尺寸的候选检测窗口中的图像可能代表同一个特定对象，因此采用这种划分合并范围的处理可以提高后续的合并处理的速度，进一步改善合并处理效率，且降低了系统处理负荷。

作为划分合并范围的一个具体示例，可以将候选检测窗口中满足下列公式(1)中条件的第i个候选检测窗口w_i和第j个候选检测窗口w_j作为具有相近的位置和尺寸而划分到同一个合并范围中：

|x_i-x_j|＜difx*r_i，

|y_i-y_j|＜dify*r_j，和

|log(r_i)-log(r_j)|＜difr

(公式1)

其中，(x_i，y_i)和(x_j，y_j)分别表示候选检测窗口w_i和w_j的中心点在待检测图像中的绝对位置坐标，r_i和r_j分别表示候选检测窗口w_i和w_j的高度或宽度相对于某个预定的标准高度或宽度的比值，是一种相对尺寸，i，j是大于或等于1的自然数，表示候选检测窗口的序号，且i≤n，j≤n。通过参数x，y，和r就可以唯一地确定一个候选检测窗口的尺寸和在待检测图像中的位置。相对尺寸r的设置可以简化系统的处理负荷，因此是一种优化的处理方式。容易理解，直接使用检测窗口的高度或者宽度来进行上述运算也是可以的。difx，dify和difr是分别与候选检测窗口的参数x，y，r相对应的常数，这些常数可以根据合并范围划分的具体要求来适当地设置和调整。例如，如果候选检测窗口的尺寸是100像素×100像素，则difx和dify例如可以取30像素或者40像素。

需要注意，上述的以检测窗口的位置和尺寸相近作为依据来对候选检测窗口进行合并范围的划分只是一种示例。可以依据其他任何合适的标准来进行合并范围的划分。例如，假设待检测图像中包括一群成年人和一个儿童，且需要对该儿童进行定位检测，由于成年人与儿童的尺寸相差很大，可以将尺寸显著小的候选检测窗口划分出来构成与该儿童相对应的合并范围。此外，用于确定位置和尺寸相近的上述公式(1)也只是一种示例，不构成对本发明的限制。任何其他能够确定检测窗口之间位置和尺寸是否相近的方法都应被认为包括在本发明的保护范围之内。

图6B中示出了对图6A中的候选检测窗口进行了划分合并范围处理之后的情形。如图6B所示，将图6A中的候选检测窗口划分成合并范围60-1和合并范围60-2。其中，与对象6-1对应的候选检测窗口6-I(由虚线表示)和与对象6-2对应的候选检测窗口6-II(由实线表示)被划分在同一个合并范围60-1中，它们被认为是尺寸和位置相近的候选检测窗口。同理，与对象6-3对应的候选检测窗口6-III(由点划线表示)被划分在合并范围60-2中。另外，由于在待检测图像中对象6-1和对象6-2有部分重叠，因此，与对象6-1对应的候选检测窗口6-I和与对象6-2对应的候选检测窗口6-II被划分在同一个合并范围60-1中。本领域技术人员理解，通过对上述公式(1)中的条件的适当设置，可以得到不同的合并范围的划分结果。例如，与对象6-1对应的候选检测窗口6-I和与对象6-2对应的候选检测窗口6-II也可以被划分在不同的两个合并范围中，这两个合并范围可以有部分重叠，也可以是相互完全独立的。

在划分了合并范围之后，通过聚类的方式对这些合并范围进行合并处理。由于对每一个合并范围执行的处理都是类似的，因此下面以其中一个合并范围为例，对这种合并处理进行详细描述。具体而言，从该合并范围包括的k个(k是小于或等于n的自然数)候选检测窗口中任意选择一个作为初始的待合并检测窗口w_mode。然后，遍历该合并范围的其他候选检测窗口以查找与该初始待合并检测窗口w_mode之间的相似度差异S符合合并要求的候选检测窗口。在该示例中，定义待合并检测窗口与第l个候选检测窗口w_l(l是小于或等于k的自然数)之间的相似度差异S由以下公式(2)表示：

S = (1 - \frac{2 * | x_l - x_mode |}{width_l + width_mode}) \times (1 - \frac{2 * | y_l - y_mode |}{height_l + height_mode}) \times (\frac{1}{1 + | \log (r_l) - \log (r_mode) |})

(公式2)

如果相似度差异S小于一个预定的阈值T2，则认为待合并的检测窗口w-mode与检测窗口w_l符合合并的要求，对两者执行第一轮合并过程，以获得第一轮合并检测窗口。

通过上述合并过程所获得的合并检测窗口的参数由以下公式(3)定义：

(x_mode, y_mode, r_mode) = (\frac{x_mode * p_mode + xi * p_1}{p_mode + p_l}, \frac{y_mode * p_mode + y_1 * p_1}{p_mode + p_l}, \frac{r_mode * p_mode + ri * p_1}{p_mode + p_l})

(公式3)

应该理解，上述计算候选检测窗口之间的相似度差异S的公式(2)和计算合并检测窗口的参数的公式(3)仅仅是一种具体示例，而并不构成对本发明的限制。任何其他能够实现上述相同功能的具体计算方式都应被认为包含在本发明的保护范围之内。

在合并的过程中可能存在这样的情况，即，遍历该合并范围内所有其他候选检测窗口，都找不到需要与该待合并检测窗口进行合并的候选检测窗口，即，其他候选检测窗口与该待合并检测窗口之间的相似度差异S都大于或等于预定的阈值T2。在此情况下，将选择该合并范围中其他任意一个未经合并的候选检测窗口作为初始待合并检测窗口w_mode，并以与上述相同的方式来查找需要与该初始待合并检测窗口w_mode执行合并过程的候选检测窗口并执行第一轮合并过程。

接下来，将第一轮合并过程所得到的合并检测窗口作为第二轮合并过程的待合并检测窗口，按与上述第一轮合并过程相同的方式，查找需要与该待合并检测窗口执行合并过程的候选检测窗口并执行第二轮合并过程。

以迭代的方式执行上述的合并过程。其中，将上一轮合并过程得到的合并检测窗口作为本轮合并过程的待合并的检测窗口，通过检测窗口之间的相似度差异S作为标准来查找该合并范围所包括的未经合并候选检测窗口中的、需要与该待合并检测窗口进行合并的候选检测窗口并执行合并过程，直到该合并范围内的所有m个候选检测窗口被合并成一个或者多个检测窗口。

本领域技术人员理解，一般情况下，一个合并范围内的所有候选检测窗口都对应于同一个特定对象，在这种情况下，这些候选检测窗口经过上述的迭代的合并过程后被合并为一个合并检测窗口。但是，也存在一个合并范围内的所有候选检测窗口对应于一个以上的特定对象的情况，例如在待检测图像中的对象存在部分重叠的情形下，可能在一个合并范围中存在对应于一个以上的特定对象的候选检测窗口。例如，如图6B中所示的合并范围60-1包括对应于特定对象6-1的候选检测窗口6-I(由虚线表示)以及对应于特定对象6-2的候选检测窗口6-II(由实线表示)。在此种情况下，经过上述迭代的合并过程，最终将得到分别对应于对象6-1和6-2的两个合并检测窗口(图中未示出)。

容易理解，一个合并范围中是否存在多个对象，与上述的合并范围划分处理也有关系。对于具有相近的位置和尺寸的候选检测窗口的判定规则不同，划分所得到的合并范围也会有所不同。例如，可能将待检测图像中部分重叠的对象所对应的候选检测窗口划分在同一个合并范围中，如图6B中所示的合并范围60-1。在执行上述的合并过程之后，将区分出在同一个合并范围中包含的不同的对象及其位置。通过对合并过程中相关参数，例如与相似度差异S相关的阈值T2，的设置，使得可精确地区分出同一个合并范围中的不同的对象。阈值T2的设置可根据实际需要来进行，在此省略其细节。

此外，还可能存在以下的情形。在针对与一个特定对象相对应的合并范围中的候选检测窗口执行上述的合并过程之后，得到一个合并检测窗口以及至少一个未经合并的检测窗口。这些未经合并的检测窗口因为与该合并检测窗口之间的相似度差异S大于或等于预定阈值T2因此不与该合并检测窗口进行合并，而且，这些未经合并的检测窗口彼此之间的相似度差异S也大于或等于预定阈值T2，因此它们彼此之间也不执行合并过程。在此情形下，例如可以将上述合并过程所得到的合并检测窗口以及未经合并的检测窗口的权重分别与预定的阈值T3进行比较，将权重大于该阈值T3的检测窗口认定为对应于待检测图像中的特定对象。如上所述，根据本发明的本实施例的这种通过聚类方式的合并处理具有足够的准确度，完全可以满足一般对象检测的精度要求，即，经过执行合并处理，可获得与待检测图像中的特定对象一一对应的合并检测窗口。因此，上述的将检测窗口的权重与预定的阈值T3进行比较以确定与特定对象对应的检测窗口的处理，实际上是一种在特定情况下的优化处理，可以进一步提高对象检测精度。预定阈值T3的具体取值可根据实际需要进行设置，细节在此不再赘述。

在一个合并范围内包括对应于一个以上的特定对象的候选检测窗口的情况下，上述的合并过程可以串行地进行，也可以并行地进行。所谓“串行地”进行，指的是在执行合并过程时，选择一个初始待合并检测窗口，然后针对该合并范围内的其他候选检测窗口逐一地执行上述的迭代合并过程，直到获得与各个特定对象相对应的合并检测窗口。所谓“并行地”进行，指的是预先选择出该合并范围内的、与不同的特定对象对应的不同的候选检测窗口作为初始待合并检测窗口，然后同时并行地针对不同的特定对象执行合并过程。并行的合并过程可以获得比串行的合并过程更高的合并速度。至于如何判断与不同的特定对象对应的不同的候选检测窗口，可以想到很多方法来实现。一般地，相似性越小(即，相似度差异S越大)的候选检测窗口越可能代表不同的特定对象，因此，可以相似性为准则来进行判断。例如，一个合并范围内相似性最小(即相似度差异S最大)的检测窗口可被认为是对应于不同特定对象的候选检测窗口，因而可以选择这些候选检测窗口分别作为与相应的特定对象关联的初始待合并检测窗口来并行地执行合并过程。

图6C示出了在针对每一个合并范围执行合并过程的中途的情形。其中，与对象6-1对应的候选检测窗口6-I中的两个相似度差异符合预定条件的候选检测窗口被合并到一起成为一个合并检测窗口，如图6C中粗虚线6-I’所示出的。同理，与对象6-2对应的候选检测窗口6-II中的两个相似度差异符合预定条件的候选检测窗口被合并到一起成为一个合并检测窗口，如图6C中粗实线6-II’所示出的，而与对象6-3对应的候选检测窗口6-III中的两个相似度差异符合预定条件的候选检测窗口被合并到一起成为一个合并检测窗口，如图6C中粗点划线6-III’所示出的。对于每一个合并范围，由该合并范围中k个候选检测窗口中参与合并的u个候选检测窗口的权重p_i(i＝1，……，u)的组合来得到合并检测窗口的权重，即，该合并检测窗口的位置为特定对象的概率P，其中，u是小于或等于k的自然数。如上所述，在一种优选方案中，如果P＞T3则认为该检测窗口的位置为特定对象。由此确定在待检测图像中该特定对象的存在及其位置。至于将参与合并的u个候选检测窗口的权重p_i(i＝1，……，u)进行组合以得到合并检测窗口的权重的方法，本领域技术人员可以根据实际需要选择或设计各种合适的组合方法，例如加权加法等等，细节在此不再赘述。

在如图6A-6C示出的实施例中，对合并范围60-1和合并范围60-2执行合并过程的最终结果是得到与对象6-1，6-2和6-3分别对应的三个合并检测窗口(图中未示出)。这些合并检测窗口分别给出了对象6-1，6-2和6-3在待检测图像中的存在及其具体的位置。当然，在一种优选的实施方式中，也可分别将这些合并检测窗口各自的权重和与对象6-1，6-2和6-3相关的阈值T3-1，T3-2和T3-3进行比较，将判断出这些合并检测窗口的权重分别大于阈值T3-1，T3-2和T3-3，因此确定这些合并检测窗口代表了待检测图像中的对象6-1，6-2和6-3。容易理解，预定的阈值T3-1，T3-2和T3-3可以是相同的，也可以互不相同，可根据特定对象的特性等实际情况进行具体设置，细节在此不再赘述。

此外，在上述结合图6A-6C描述的实施例中，在对候选检测窗口进行合并处理之前，进行了合并范围的划分的处理。在一种可替选实施例中，也可以对图6A中得到的所有候选检测窗口直接通过聚类的方式进行合并处理而不进行合并范围的划分。

仍以图6A-6C为例进行说明。在获得如图6A所示的分别与对象6-1，6-2和6-3对应的n个候选检测窗口之后，不执行如图6B所示的合并范围的划分过程，而是直接针对这些候选检测窗口执行与上面描述针对各合并范围执行的迭代合并过程类似的合并过程，即，将所有候选检测窗口视为构成一个大的合并范围，从而得到与对象6-1，6-2和6-3分别对应的合并检测窗口。为了使得描述简明清晰，下面仅就本可替选的实施例与上述实施例之间的区别进行说明。

在本可替选实施例中执行迭代的合并过程时，从n个候选检测窗口中任意选择一个作为初始待合并检测窗口w_mode，该待合并检测窗口w-mode与其余的候选检测窗口中第m个(m是小于或等于n的自然数)候选检测窗口w_m之间的相似度差异S由以下的公式(4-1)和(4-2)来定义：

S^{'} = (1 - \frac{2 * | x_m - x_mode |}{width_m + width_mode}) \times (1 - \frac{2 * | y_m - y_mode |}{height_m + height_mode}) \times (\frac{1}{1 + | \log (r_m) - \log (r_mode) |})

(公式4-1)

其中，该待合并检测窗口w_mode与该第m个候选检测窗口w_m满足下列关系：

(公式4-2)

公式(4-1)和(4-2)中的各个参数的含义与上述的预先划分合并范围的实施例中的类似，因此不再逐一详述。

为了处理在合并过程中出现相似度差异S产生负数值的情形，设置了公式(4-2)的限制条件，因为候选检测窗口之间的相似度差异为负数值是不符合实际情况的。本可替选实施例中其他处理与上述的预先划分合并范围的实施例的处理类似，其细节在此不再赘述。

需要注意，上述的预先划分合并范围的处理对后续要执行的合并过程实际上起到了收窄合并范围的作用，可进一步降低后处理的负荷，并且进一步提高后处理效率。因此，相对于本可替选实施例而言，上述的预先划分合并范围的实施例中的处理方式实际上是一种优选的实施方案。

下面参照图7来描述根据本发明的一个实施例的对待检测图像中的特定对象进行检测的装置700。如图7所示，对象检测装置700包括：特征获取单元710，用于获取待检测图像的图像特征；检测单元720，用于利用与不同尺寸的检测窗口中的至少一部分检测窗口相对应的多种尺寸的分类器，根据所获取的图像特征对待检测图像的不同尺寸的检测窗口进行检测，以便确定在待检测图像中是否存在特定对象并给出该特定对象在待检测图像中的位置。

在根据图7所示的检测对象的装置的一种实施方式中，还可包括用于通过对多种尺寸的分类器中特定尺寸的分类器进行转换而得到与多种尺寸的分类器不同的其他尺寸的分类器的单元。

在根据图7所示的检测对象的装置的另一种实施方式中，特征获取单元710包括图像特征集构建子单元，其被配置成预先产生待检测图像的图像特征集，使得可从该图像特征集中获得不同尺寸的检测窗口的图像特征中的至少一部分图像特征。

上述图7中示出的特征获取单元710、检测单元720、对分类器进行转换的单元、以及图像特征集构建子单元，可被配置成执行根据本发明如上述图1-6中所示出的对待检测图像中的特定对象进行检测的方法。这种配置可通过硬件、软件或其结合的方式来实现，具体细节在此不再赘述。

相应地，具有如图7所示的对待检测图像中的特定对象进行检测的装置的对象检测系统也应被认为落入本发明的保护范围内。这种对象检测系统可以实现本发明如上述图1-6中所示出对待检测图像中的特定对象进行检测的方法。

需要注意，在上述具体实施例中，是以HOG图像特征为例来进行描述，并且检测对象是人类。但是，本领域技术人员了解，上述根据本发明的各实施例的在待检测图像中检测对象的方法、装置和系统也可以适用于基于其他合适类型的图像特征进行对象检测的情形。例如，根据本发明上述的各实施例的对象检测方法、装置和系统可对基于Harr特征来进行对象检测的情形适用。当然，由于各种图像特征的参数及其提取方法、分类器进行分类判断的具体方式等等各有不同，因此在进行具体适用时，在图像特征集的形式、构建图像特征集所进行的计算处理、分类器进行检测处理等方面会有所不同。但是，这些不同并不涉及本发明的实质，并且本领域技术人员在遵循上述本发明各实施例的各种配置的情况下，容易根据这些不同来具体实现各种场景下的应用，具体细节在此不再赘述。

根据本发明的实施例的用于检测图像中的对象的方法、装置，以及包括该对象检测装置的系统可用于例如视频监控、人工智能、计算机视觉等领域中的目标识别，用于在静态图像或者视频图像中检测作为识别目标的对象是否存在以及在被检测的静态图像或者视频图像中存在的位置。

在所述的说明和附图中，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明包括许多改变、修改和等同。

上面详细描述了本发明的特定实施方式，需要注意，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，根据本发明上述实施例中公开的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

措辞“一”、“一个”不排除多个的情形。“包括”，“包含”，“由。。。构成”不排除所列出项目以外的其他项目。

本发明还提出一种机器可读程序，当该程序安装到机器，例如图像识别检测装置并运行时，可执行本发明上述实施例中公开的对象检测方法。

用于承载上述机器可读程序的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒，等等。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims

1.一种在待检测图像中检测特定对象的方法，包括：

特征获取步骤，用于获取待检测图像的图像特征；和

检测步骤，用于利用与不同尺寸的检测窗口中的至少一部分检测窗口相对应的多种尺寸的分类器，根据所述获取的图像特征对所述待检测图像的不同尺寸的检测窗口进行检测，以便确定在待检测图像中是否存在特定对象并给出所述特定对象在所述待检测图像中的位置，

其中，所述多种尺寸的分类器中的每一种尺寸的分类器都具有与其尺寸相对应的样本图像库，

所述方法还包括：通过对所述多种尺寸的分类器中特定尺寸的分类器进行加倍或分割处理而得到与所述多种尺寸的分类器不同的其他尺寸的分类器。

2.如权利要求1所述的方法，其中，在所述特征获取步骤中，预先产生所述待检测图像的、与所述不同尺寸的检测窗口相关的所有尺寸的单元区域中至少一部分单元区域的图像特征，由此构建所述待检测图像的图像特征集，使得可从所述图像特征集中获得所述不同尺寸的检测窗口的图像特征中的至少一部分图像特征，其中，所述图像特征集包括所述至少一部分单元区域的图像特征的值以及这些单元区域在所述待检测图像的整个区域中的位置。

3.如权利要求2所述的方法，其中，所述至少一部分单元区域包括所述待检测图像的整个区域中至少一种特定尺寸的基本单元区域，以及，所述的构建待检测图像的图像特征集的处理包括：

获得所述基本单元区域的图像特征，在所获得的该基本单元区域的图像特征的基础上获得所述至少一部分单元区域中尺寸大于该基本单元区域的尺寸的单元区域的图像特征，由此构建待检测图像的图像特征集。

4.如权利要求3所述的方法，其中，通过如下方式中的至少一种来构建所述图像特征集：

将所述基本单元区域的图像特征经过多次简单相加得到尺寸是该基本单元区域的任意整数倍的单元区域的图像特征；和

将所述基本单元区域的图像特征经过多次迭代相加得到尺寸是该基本单元区域的任意整数倍的单元区域的图像特征。

5.如权利要求4所述的方法，其中，所述的多次迭代相加的处理包括：

将所述基本单元区域的图像特征经过简单相加获得尺寸大于该基本单元区域的尺寸的第一单元区域的图像特征，将该第一单元区域的图像特征经过简单相加获得尺寸大于该第一单元区域的尺寸的第二单元区域的图像特征，以此方式进行迭代相加，以便获得尺寸是该基本单元区域的任意整数倍的单元区域的图像特征。

6.如权利要求1所述的方法，其中，所述检测步骤中执行的确定在待检测图像中是否存在特定对象并给出所述特定对象在所述待检测图像中的位置的处理包括：

对于通过根据所述获取的图像特征对所述待检测图像的不同尺寸的检测窗口进行检测而得到的所有检测窗口中的n个候选检测窗口，通过聚类的方式进行合并处理，以便获得至少一个合并检测窗口，其中，所述候选检测窗口的权重大于预定的第一阈值T1，且n是大于或等于1的自然数。

7.如权利要求6所述的方法，其中，通过聚类的方式对所述n个候选检测窗口进行的所述合并处理包括：

将所述n个候选检测窗口中的任意一个作为初始待合并检测窗口w_mode，从该n个候选检测窗口中包含的其他所有候选检测窗口中选择出与该初始待合并检测窗口之间的相似度差异小于预定的第二阈值T2的第m个候选检测窗口w_m，并对该候选检测窗口w_m与该待合并检测窗口w_mode进行第一轮合并过程以获得第一轮合并检测窗口，m是小于或等于n的自然数；

以迭代的方式执行合并过程，直到所获得的合并检测窗口不能再与该n个候选检测窗口中未经合并的候选检测窗口合并为止，由此获得一个合并检测窗口，其中，将前一轮合并过程得到的合并检测窗口作为本轮合并过程的待合并检测窗口，对该待合并检测窗口以及该n个候选检测窗口中包含的未经合并的候选检测窗口中的、与该待合并检测窗口之间的相似度差异小于所述预定的第二阈值T2的一个候选检测窗口进行本轮合并过程，以得到本轮合并检测窗口；和

如果该n个候选检测窗口中存在未经合并的候选检测窗口，则分别以所述未经合并的候选检测窗口中的每一个作为初始待合并检测窗口，按所述迭代的方式执行所述合并过程，以便获得至少一个合并检测窗口。

8.如权利要求7所述的方法，其中，所述待合并检测窗口w mode与所述第m个候选检测窗口w_m之间的相似度差异S通过以下公式来计算：

S = (1 - \frac{2 * | x_m - x_mode |}{width_m + width_mode}) \times (1 - \frac{2 * | y_m - y_mode |}{height_m + height_mode}) \times (\frac{1}{1 + | \log (r_m) - \log (r_mode) |})

其中，所述待合并检测窗口w_mode与所述第m个候选检测窗口w_m满足下列关系：

其中，(x_mode，y_mode)表示待合并检测窗口w_mode的中心点在待检测图像中的绝对位置坐标，r_mode表示待合并检测窗口w_mdoe的高度或宽度相对于预定的标准高度或宽度的比例，height_mode和width_mode分别是待合并候选检测窗口w_mode的高度和宽度，(x_m,y_m)表示所述候选检测窗口w_m的中心点在待检测图像中的绝对位置坐标，r_m表示候选检测窗口w_m的高度或宽度相对于所述标准高度或宽度的比例，height_m和width_m分别是所述候选检测窗口w_m的高度和宽度。

9.如权利要求8所述的方法，其中，通过将所述待合并检测窗口w_mode与所述笫m个候选检测窗口w_m进行合并过程获得的合并检测窗口的参数通过以下公式来计算：

(x_mode, y_mode, r_mode) = (\frac{x_mode * p_mode + x_m * p_m}{p_mode + p_m}, \frac{y_mode * p_mode + y_m * p_m}{p_mode + p_m}, \frac{r_mode * p_mode + r_m * p_m}{p_mode + p_m})

其中，公式左边的x_mode，y_mode和r_mode表示通过合并过程获得的合并检测窗口的参数，公式右边的x_mode，y_mode和r_mode表示待合并检测窗口的参数，p_mode和p_m分别是待合并检测窗口w_mode和所述第m个候选检测窗口w_m的权重。

10.如权利要求7所述的方法，其中，通过聚类的方式对所述n个候选检测窗口进行的所述合并处理包括：

按照位置和尺寸相近的条件，将所述n个候选检测窗口划分为至少一个合并范围，以及，对于每一个合并范围分别进行所述合并过程以获得至少一个合并检测窗口，

其中，满足下列条件的第i个候选检测窗口w_i和第j个候选检测窗口w_j作为具有相近的位置和尺寸的候选检测窗口而被划分到同一个合并范围中：

|x_i-x_j|<difx＊r_i，

|y_i-y_j|<dify＊r_j，

|log(r_i)-log(r_j)|<difr

其中，(x_i，y_i)和(x_j，y_j)分别表示候选检测窗口w_i和w_j的中心点在待检测图像中的绝对位置坐标，r_i和r_j分别表示候选检测窗口w_i和w_j的高度或宽度相对于所述标准高度或宽度的比例，difx，dify和difr是分别与x，y和r相关的常数，i，j是大于或等于1的自然数，并且i≤n，j≤n；以及

其中，在对每一个合并范围分别进行所述合并处理时，在任意一个合并范围中，待合并检测窗口w_mode与第1个候选检测窗口w_l之间的相似度差异S通过以下公式来计算：

S = (1 - \frac{2 * | x_l - x_mode |}{width_l + width_mode}) \times (1 - \frac{2 * | y_l - y_mode |}{height_l + height_mode}) \times (\frac{1}{1 + | \log (r_l) - \log (r_mode) |})

其中，(x_l，y_l)表示所述候选检测窗口w_l的中心点在待检测图像中的绝对位置坐标，r_l表示候选检测窗口w_l的高度或宽度相对于所述标准高度或宽度的比例，height_l和width_l分别是所述候选检测窗口w_l的高度和宽度，l是小于或者等于n的自然数。

11.一种在待检测图像中检测特定对象的装置，包括：

特征获取单元，用于获取待检测图像的图像特征；

检测单元，用于利用与不同尺寸的检测窗口中的至少一部分检测窗口相对应的多种尺寸的分类器，根据所述获取的图像特征对所述待检测图像的不同尺寸的检测窗口进行检测，以便确定在待检测图像中是否存在特定对象并给出所述特定对象在所述待检测图像中的位置，其中所述多种尺寸的分类器中的每一种尺寸的分类器都具有与其尺寸相对应的样本图像库；和

用于通过对所述多种尺寸的分类器中特定尺寸的分类器进行加倍或分割处理而得到与所述多种尺寸的分类器不同的其他尺寸的分类器的单元。

12.如权利要求11所述的装置，其中，所述特征获取单元包括图像特征集构建子单元，该图像特征集构建子单元被配置成预先产生所述待检测图像的、与所述不同尺寸的检测窗口相关的所有尺寸的单元区域中至少一部分单元区域的图像特征，由此构建所述待检测图像的图像特征集，使得可从所述图像特征集中获得所述不同尺寸的检测窗口的图像特征中的至少一部分图像特征，其中，所述图像特征集包括所述至少一部分单元区域的图像特征的值以及这些单元区域在所述待检测图像的整个区域中的位置。

13.如权利要求12所述的装置，其中，所述至少一部分单元区域包括所述待检测图像的整个区域中至少一种特定尺寸的基本单元区域，以及，所述图像特征集构建子单元被配置成：

获得所述至少一种特定尺寸的基本单元区域的图像特征，在所获得的该基本单元区域的图像特征的基础上获得所述至少一部分单元区域中尺寸大于该基本单元区域的尺寸的单元区域的图像特征，由此构建待检测图像的图像特征集。

14.如权利要求13所述的装置，其中，所述图像特征集构建子单元被配置成通过如下方式中至少一种来构建所述图像特征集：

15.如权利要求14所述的装置，其中，所述图像特征集构建子单元被配置成按如下的方式实现所述的多次迭代相加的处理：

16.如权利要求11所述的装置，其中，所述检测单元被配置成：

17.如权利要求16所述的装置，其中，所述检测单元被配置成通过如下方式来进行所述合并处理：

18.如权利要求17所述的装置，其中，所述待合并检测窗口w_mode与所述第m个候选检测窗口w_m之间的相似度差异S通过以下公式来计算：

S = (1 - \frac{2 * | x_m - x_mode |}{width_m + width_mode}) \times (1 - \frac{2 * | y_m - y_mode |}{height_m + height_mode}) \times (\frac{1}{1 + | \log (r_m) - \log (r_mode) |})

其中，所述待合并检测窗口w_mode与所述第m个候选检测窗口w m满足下列关系：

19.如权利要求18所述的装置，其中，通过将所述待合并检测窗口w_mode与所述笫m个候选检测窗口w_m进行合并过程获得的合并检测窗口的参数通过以下公式来计算：

(x_mode, y_mode, r_mode) = (\frac{x_mode * p_mode + x_m * p_m}{p_mode + p_m}, \frac{y_mode * p_mode + y_m * p_m}{p_mode + p_m}, \frac{r_mode * p_mode + r_m * p_m}{p_mode + p_m})

20.如权利要求16所述的装置，其中，所述检测单元被配置成通过如下方式来进行所述合并处理：

|x_i-x_j|<difx＊r_i，

|y_i-y_j|<dify＊r_j，

|log(r_i)-log(r_j)|<difr

其中，(xi，y_i)和(x_j，y_j)分别表示候选检测窗口w_i和w_j的中心点在待检测图像中的绝对位置坐标，r_i和r_j分别表示候选检测窗口w_i和w_j的高度或宽度相对于所述标准高度或宽度的比例，difx，dify和difr是分别与x，y和r相关的常数，i，j是大于或等于1的自然数，并且i≤n，j≤n；以及

其中，在对每一个合并范围分别进行所述合并处理时，在任意一个合并范围中，待合并检测窗口w_mode与第l个候选检测窗口w_l之间的相似度差异S通过以下公式来计算：

S = (1 - \frac{2 * | x_l - x_mode |}{width_l + width_mode}) \times (1 - \frac{2 * | y_l - y_mode |}{height_l + height_mode}) \times (\frac{1}{1 + | \log (r_l) - \log (r_mode) |})

其中，(x_l，y_l)表示所述候选检测窗口w_l的中心点在待检测图像中的绝对位置坐标，r_l表示候选检测窗口w_l的高度或宽度相对于所述标准高度或宽度的比例，height_l和width_l分别是所述候选检测窗口w_l的高度和宽度。

21.一种具有如权利要求11-20中任一项所述的在待检测图像中检测特定对象的装置的对象检测系统，所述对象检测系统是视频监控系统、人工智能系统或计算机视觉系统。