CN104424466B

CN104424466B - 对象检测方法、对象检测设备及图像拾取设备

Info

Publication number: CN104424466B
Application number: CN201310365300.5A
Authority: CN
Inventors: 姜涌
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-08-21
Filing date: 2013-08-21
Publication date: 2018-05-15
Anticipated expiration: 2033-08-21
Also published as: US9652694B2; CN104424466A; US20150054824A1

Abstract

本申请涉及一种对象检测方法、对象检测设备及图像拾取设备，该对象检测方法包括：对象检测步骤，通过特定对象检测器在图像中检测特定对象；场景模型获取步骤，获取表征图像中的特定对象的背景的场景模型；以及过滤步骤，用所述场景模型对对象检测步骤的对象检测结果进行过滤以确定特定对象。

Description

对象检测方法、对象检测设备及图像拾取设备

技术领域

本申请涉及一种检测特定对象的对象检测方法、对象检测设备以及包含该对象检测设备的图像拾取设备。

背景技术

在图像处理、计算机视觉和模式识别等领域，对图像中的对象进行分析是重要的并且对象检测已吸引了越来越多的关注。在对象检测技术中通常涉及两个步骤，即训练步骤和检测步骤。在训练步骤中，通过使用对象的多个样本进行训练来获得分类器。然后，在检测步骤中，这样获得的分类器被用于检测对象。

近年来，特定对象（如脸、人、车等）检测已经取得很大进步。如果使用上述对象检测技术用大量样本离线训练得到的通用分类器或对象检测器在图像或视频序列中检测特定对象，就很可能失效并且常常产生高的虚警率。

在这种情况下，场景信息对于提高通用检测器的辨别力并减少虚警率是非常重要的。近来，为了克服上述问题，提出了使用具体场景信息（如对象实例、背景和上下文等）来创建场景模型的一些场景建模方法。因此，通过场景模型可以获得更准确的检测结果，从而允许适于变化的环境并且广泛用于监视和跟踪。

场景模型的主要目的是试图获得更准确的检测结果，因此场景模型通常在相应的特定场景中是更有效的分类器。当前的场景模型具有以下特征：

－二元分类器：用于区分特定对象和非特定对象；

－重复收集正样本（训练用的对象）和负样本（不包括对象的特定场景）：以重复训练并更新二元分类器。

图1示出现有技术中的对象检测方法的流程图，其主要步骤如下：

1)收集正样本S101：用户在视频的前一帧或前几帧中选取作为正样本的对象的窗口，或使用当前的对象检测器以检测作为正样本的对象的窗口；

2）收集负样本S102：收集不同于用户选取的窗口或由当前对象检测器检测到的作为负样本的窗口；

3）学习新的分类器S103：使用收集的正样本和负样本来学习新的二元分类器，其可以更有效地区分特定对象和特定场景；

4）对象检测S104：通过新的二元分类器从后续帧中检测特定对象，并且根据检测结果重复执行上述步骤对分类器进行更新直至最终的二元分类器的虚警率低于阈值，如图1中的虚线所示。该方法可用于通过对象检测进行的跟踪并且仅用于视频或后续帧。

例如，美国专利公开No.US8385632提出了一种把已经训练好的通用分类器调整为适于从特定场景中检测对象的方法。因为在使用通用训练数据来训练通用分类器时该特定场景是未知的，所以在用通用分类器直接从包含特定场景的图像中检测对象的情况下容易产生很高的虚警率，如该文献中的图1B所示。因此，需要一方面保持以前的训练示例的信息，另一方面还要重复地收集与针对特定场景的分类任务有关的正样本和负样本，由此根据通用分类器重复地创建专用于该特定场景的分类器，如该文献中的图2所示。但是该方法必须保持用于通用分类器的通用训练数据，同时收集新的正样本和负样本，然后才能通过通用训练数据以及所搜集的正样本和负样本来不停更新通用分类器。

美国专利公开No.US7526101提出了一种在视频中跟踪对象的方法。该跟踪方法把对象跟踪视为二元分类问题。首先基于获取的视频实时地训练用于区分对象和背景的一组弱分类器，然后将该组弱分类器组合成一个强分类器，强分类器针对一帧生成置信度图以便区分对象和背景。但是，在该方法中，每个弱分类器都要基于各帧中的正样本和负样本来进行训练，并且在各个帧随时间变化的情况下，必须重复地训练新的弱分类器以便替代该组弱分类器中的旧的弱分类器来更新强分类器，才能适应各帧随时间的变化。

中国专利公开No.101216942A提供了一种能够在线更新的背景建模方法。但是该方法一方面需要在线进行更新，另一方面该背景模型并不是基于分类器，而是基于模板或者屏蔽图像并且用于通过帧差法(frame subtraction)来划分前景图像和背景图像。

发明内容

虽然以上方法可以提高在特定场景的情况下的检测准确度，但是存在以下问题：

1）新的二元分类器都是通过正样本（例如，用户给定的正样本，或当前对象检测器的检测结果中的正样本）和负样本创建的；

2）需要数量很多的正样本和负样本。负样本容易从场景帧或视频中收集，但正样本却很难收集，这是因为好的正样本需要符合很多标准，比如质量、尺寸、清晰度、完整度、独特性和朝向等等，并且通过常规方式不能准确高效地提供所需的多个正样本。因此，现有检测方法中使用的场景模型都只能首先通过少数正样本或负样本学习，并都要在将来等待用更多的正和负样本进行更新；

3）通过少数正样本或负样本学习的场景模型总是太弱从而难以被直接用于对象检测。因此，该场景模型仅适用于对象跟踪：即，在目标位于上一帧中的位置附近检测目标，并通过检测到的目标来更新场景模型。

由此可见，现有技术中为了提高特定对象检测的准确度，存在必须重复地收集训练分类器所用的正样本的问题。

本申请的目的之一在于不必收集正样本，就能提高特定对象检测的准确度。此外，通过省去收集正样本的复杂过程，还可以实现提高特定对象检测的效率的目的。

本申请的一方面涉及一种对象检测方法，包括：对象检测步骤，通过特定对象检测器在图像中检测特定对象；场景模型获取步骤，获取表征图像中的特定对象的背景的场景模型；以及过滤步骤，用场景模型对对象检测步骤的对象检测结果进行过滤以确定特定对象。

优选地，所述场景模型获取步骤获取在对象检测步骤期间针对所述背景创建的场景模型。

优选地，所述场景模型获取步骤获取在对象检测步骤之前针对所述背景预先创建的场景模型。

优选地，所述场景模型是通过以下步骤创建的：

a)样本收集步骤，从所述图像收集不包括要被检测的特定对象的区域，作为样本；

b)特征提取步骤，从所述样本中提取第一负特征向量；

c)特征聚类步骤，把所述第一负特征向量聚类为多个特征分组；以及

d)分类器创建步骤，针对所述多个特征分组中的每个特征分组来创建第一分类器并把这些第一分类器组合来创建所述场景模型。

优选地，第一分类器是单类分类器。

优选地，在所述特定对象检测器是由支持向量组成的情况下，所述分类器创建步骤还包括：

e)特征向量池生成步骤，根据所述特定对象检测器来生成包含正特征向量和第二负特征向量的特征向量池；

f)特征向量选择步骤，针对与所述背景有关的每个特征分组，从所述特征向量池中选择正特征向量和第二负特征向量作为候选；

g)第二分类器创建步骤，针对与所述背景有关的每个特征分组，根据来自所述特征向量池的候选和该特征分组来创建第二分类器；以及

h)分类器组合步骤，通过进一步组合所述第二分类器来创建所述场景模型。

优选地，第二分类器是二元分类器。

优选地，所述特征向量池具有分别用于正特征向量和第二负特征向量的最大尺寸，所述特征向量池生成步骤还包括：

a)把所述特定对象检测器中的正支持向量用作正特征向量；

b)把所述特定对象检测器中的负支持向量用作第二负特征向量。

优选地，所述特征向量选择步骤还包括：

a)在第一负特征向量的特征空间中确定所述每个特征分组的边界；

b)从所述特征向量池中选择落在特征分组的边界的内部的正特征向量；

c)从所述特征向量池中选择落在特征分组的边界的内部的第二负特征向量。

优选地，在所述特征向量选择步骤中不能针对某个特征分组选出预定数量的候选的情况下，不继续创建用于该特征分组的第二分类器。

优选地，所述场景模型获取步骤获取在对象检测步骤之前现有的场景模型。

优选地，所述过滤步骤包括：

a)特征提取步骤，从对象检测结果中提取特征向量；

b)判断步骤，用所述场景模型来判断所提取的特征向量是否表征所述背景，以及

c)结果分组步骤，把与被判断为不表征背景的的特征向量相对应的对象检测结果分组为最终的对象检测结果。

优选地，所述判断步骤还包括：

－用所述场景模型中的每个分类器对所提取的特征向量进行判断；

－获得判断的分数的加权和；

－如果所述加权和大于阈值，则该对象检测结果被判断为表征背景。

优选地，所述判断步骤还包括：

－如果所有判断结果都表明所提取的特征向量表征背景，则该对象检测结果被判断为背景。

本申请的另一方面涉及一种对象检测设备，包括：对象检测装置，被配置为通过特定对象检测器在图像中检测特定对象；场景模型获取装置，被配置为获取表征图像中的特定对象的背景的场景模型；以及过滤装置，被配置为用场景模型对对象检测装置的对象检测结果进行过滤以确定特定对象。

本申请的又一方面涉及一种图像拾取设备，包括：摄影光学系统；成像单元，被配置为执行成像以形成图像；根据前面所述的对象检测设备。

根据本申请，能够在不需要重复地收集训练分类器所用的正样本的情况下，就可以使用所获取的场景模型来更准确高效地识别特定对象检测器的对象检测结果中的背景并获得最终的特定对象，从而改进了特定对象检测器的准确度。

附图说明

下面结合具体的实施例，并参照附图，对本申请的实施例的上述和其它目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1示出现有技术中的对象检测方法的流程图；

图2示出根据本申请的一个实施方式的对象检测方法的流程图；

图3A和图3B分别是示出根据本申请的一个实施方式的场景模型获取过程的流程图和示意图；

图4A和图4B分别是示出根据本申请的另一个实施方式的场景模型获取过程的流程图和示意图；

图5示出了图4A中的特征向量选择步骤的一个实施例的流程图；

图6示出过滤步骤的一个实施方式的流程图；

图7示出根据本申请的一个实施方式的对象检测设备的示例性配置的框图；

图8示出根据本申请的一个实施方式的图像拾取设备的示例性配置的框图；以及

图9示出能够实施本申请的实施例的计算机系统的硬件配置的框图。

具体实施方式

在下文中将结合附图对本申请的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实施例的所有特征。然而，应该了解，在对实施例进行实施的过程中必须做出很多特定于实施方式的设置，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还应当注意，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与至少根据本申请的方案密切相关的处理步骤和/或系统结构，而省略了与本申请关系不大的其他细节。

首先参照图2描述根据本申请的一个实施方式的对象检测方法的流程图。在该对象检测方法中，要从目的图像中确定特定对象。

步骤S201是对象检测步骤，其中通过特定对象检测器在图像中检测特定对象。特定对象检测器可以是用于在图像中检测特定对象例如人的通用检测器。

根据一个实施例，首先，从图像或包括图像的视频中收集多个区域。例如，可以通过使用滑动窗口法在多尺度金字塔空间(multi-scale pyramid space)中采样图像的各个窗口来实现多个区域的收集。诸如滑动窗口和多尺度金字塔空间这样的技术对于本领域技术人员都已经是能够理解的，所以此处不再重复描述。

然后，对于每个窗口，使用特定对象检测器从这多个区域提取特征向量并且获得相应的分类的分数。结果，特定对象检测器把各个窗口分类为特定对象或背景。

最后，收集被分类为特定对象的所有窗口作为该步骤的对象检测结果。

步骤S202是场景模型获取步骤，其中获取表征这些图像中的特定对象的背景的场景模型。该背景可以看作特定对象出现时的场景。

此处为了描述方便把图像划分为特定对象和背景或特定场景，该背景或特定场景不包括特定对象。

根据一个实施例，该步骤获取在对象检测步骤S201之前现有的场景模型，诸如：基于像素的模型，例如高斯混合模型(Gaussian mixture model，简称GMM)；基于特征的模型，例如增强模型(Boosting model)；以及基于支持向量机的模型等。

根据另一个实施例，该步骤获取在对象检测步骤S201之前针对该背景而被预先创建的场景模型。

根据又一个实施例，该步骤获取在对象检测步骤S201期间针对该背景而创建的场景模型。特别地，该步骤获取在对象检测步骤S201开始时针对该背景而第一次创建的场景模型，这意味着在第一次创建完成之后，既不重复收集更多样本并且也不用这些样本更新场景模型。

后两个实施例的情况中因为在创建场景模型时考虑了该背景，因而当所创建的场景模型用于识别背景时更加准确并且有效率。后文中将更加详细地描述场景模型获取过程。

步骤S203是过滤步骤，其中用所获取的场景模型对对象检测步骤S201的对象检测结果进行过滤以确定特定对象，也就是说，用所获取的场景模型过滤掉错的检测结果。

因此，根据本申请的实施例的对象检测方法不需要重复地收集训练场景模型的分类器所用的正样本，就可以使用所获取的场景模型来更准确和高效地识别对象检测步骤S201的对象检测结果中的背景并确定最终的特定对象，从而改进了当前对象检测器的准确度。根据以下的详细描述可以更好地理解该优点。

下面参照图3A的流程图来描述场景模型获取过程的一个实施方式，在该实施方式中仅使用背景信息来创建场景模型。

步骤301是样本收集步骤，其中从所述图像收集不包括要被检测的特定对象的区域，作为样本。

根据一个实施例，可以在特定对象检测开始时，将获取的图像或视频帧划分为具有不同位置和尺寸的多个图像区域。这些图像区域中的不包括要被检测的特定对象的区域可以被视为样本。例如可以由用户手动在这些图像或视频帧上标注作为样本的多个图像区域。替代地，也可以使用对象检测器提供的作为背景的区域。

根据另一个实施例，在检测开始之前从背景信息收集样本。具体而言，事先准备包含类似背景的图像或视频帧，然后将图像或视频帧划分为具有不同位置和尺寸的多个图像区域。这些图像区域中的不包括要被检测的特定对象的区域可以被视为样本。例如可以由用户手动在这些图像或视频帧上标注作为样本的多个图像区域。替代地，也可以使用对象检测器提供的作为背景的区域。

优选地，事先准备只包含背景的图像或视频帧。这些图像区域不包括要被检测的特定对象，因此这些图像区域都可以被视为样本。以这种方式，可以提供充足的样本数量，从而能够更加准确地表征背景。

步骤302是特征提取步骤，其中从样本中提取第一负特征向量。

在该步骤中，可以使用有效地表征样本的图像区域的任何特征和特征提取方法。例如，可以使用用于人类检测的方向梯度直方图(HOG,Histograms of OrientedGradients)，尺度不变特征变换(SIFT,Scale-Invariant Feature Transform)，快速鲁棒特征(SURF,Speeded Up Robust Feature)，以及局部二值模式(LBP,Local BinaryPatterns)等。尽管此处以这些特征或提取方法为例进行说明，但是应当理解这仅是示例而并非限定。

步骤303是特征聚类步骤，其中把第一负特征向量聚类为多个特征分组。

聚类的目的是把这些第一负特征向量划分为多个特征分组，从而确保每个特征分组中的所有特征向量都围绕特定中心。同一个特征分组中的特征向量彼此可以相似，但是与其它特征分组中的特征向量可以不相似。

可以使用许多聚类方法，例如k-means(k均值)，k-medoids。应当理解这也仅是示例而并非限定。

步骤304是分类器创建步骤，其中针对多个特征分组中的每个特征分组来创建第一分类器并把这些第一分类器组合来创建场景模型。

这里可以使用任何分类器学习方法。根据一个实施例，第一分类器可以是单类分类器，下面以支持向量域描述方法(SVDD,Support Vector Domain Description)为例进行详细描述，但应当理解这仅是示例而并非限定。

SVDD方法旨在获得以下这样的球形边界：球形边界限定了最小面积以使得由边界限定的球体可以包括尽可能多的样本。这样的球体可用球心c和半径R来表征。通过以下表达式来实现球体区域的最小化：

min R²+C∑_iξ_i s.t.||x_i-c||≤R²+ξ_i且ξ_i≥0 (1)

其中，C是惩罚因子并且ξi是松弛误差(slack error)。

接下来，使用拉格朗日乘子(Lagrangian Multiplier)，可以获得以下表达式：

min ∑_i，jα_iα_jK(x_i·x_j)-∑_iα_iK(x_i·x_i) s.t.0≤α_i≤C且∑_iα_i＝1 (2)

其中α_i是支持向量x_i∈SVs的因子，K(·)是核函数。s.t.表示满足后面的约束条件的意思。在该方法中，核函数优选地选择直方图交核(Histogram intersection Kernel(HIK))。HIK函数可表示为：

通过以下表达式可得到球体的半径R：

其中x是任一个支持向量。

对于未知的样本z，其到球体的中心的距离可通过以下表达式计算：

接下来，判断如果则样本z处于高维空间中的超球体内部并且因此就被分类为目标对象类。

图3B中示出了根据本申请的该实施方式的场景模型获取过程的示意图，相同的附图标记表示上文中相同的步骤。应理解，参照示意图可以更好地理解该过程，但不应解释为限制本申请。

由以上步骤可见，在根据该实施方式的场景模型获取过程中，既不需要重复收集正样本，也不需要使用这些正样本重复更新场景模型，从而大大简化了场景模型的创建，并且使用这样的场景模型过滤对象检测结果将允许提高特定对象检测的准确度。

图4A的流程图示出了场景模型获取过程的另一个实施方式。该实施方式与图3A所示的实施方式的不同之处主要在于分类器创建步骤，因此将着重描述该步骤，而对于与上述实施方式相同或相似的其它步骤不再重复。

在特定对象检测器是由支持向量组成的情况下，可以通过组合特定对象检测器和背景信息来建立场景模型。以下描述的过程可以是在图3A的描述的过程的基础上进行的，这里为了简洁不再重复描述图3A的过程，但不应理解为对这些步骤的时间顺序的不适当限定。

步骤401是特征向量池生成步骤，其中根据特定对象检测器来生成包含正特征向量和第二负特征向量的特征向量池。

作为示例，可以在特定对象检测开始时，就使用由支持向量组成的特定对象检测器以获得正特征向量和第二负特征向量。

根据另一个示例，可以在对象检测开始之前，就使用由支持向量组成的特定对象检测器以便获得正特征向量和第二负特征向量。

根据一个实施例，可以把特定对象检测器的正支持向量和负支持向量分别用作正特征向量和第二负特征向量。正支持向量被存储在特征向量池中作为正特征向量，负支持向量被存储在特征向量池中作为第二负特征向量。

因此，特征向量池包括一组正特征向量X_pos和一组第二负特征向量X_neg。

优选地，该该特征向量池具有分别用于正特征向量和第二负特征向量的最大尺寸。如果某种特征向量的总数超过最大尺寸，则移除该种特征向量中的一些特征向量。

步骤402是特征向量选择步骤，其中针对与背景有关的每个特征分组，这里是指图3A的特征聚类步骤S303后得到的每个特征分组，从特征向量池中选择正特征向量和第二负特征向量作为候选。

图5示出了特征向量选择步骤的一个实施例的流程图。

在步骤S501中，在第一负特征向量的特征空间中确定每个特征分组的边界。

对于与背景有关的每个特征分组，可根据表达式(1)-(3)来获得该特征分组的中心。然后，可设定预定阈值作为特征分组的边界。该阈值可以是如同步骤304中获得的半径R的经验值。替代地，也可以规定包括特征分组中的特征向量的百分比（如包括90％以上的特征向量）的半径范围作为边界。

在确定了每个特征分组的边界之后，在步骤502中，从特征向量池中选择落在该特征分组的边界的内部的正特征向量。

在选择了正特征向量之后，在步骤503中，从特征向量池中选择落在该特征分组的边界的内部的第二负特征向量。尽管此处先选择正特征向量，但是应当理解，该顺序仅是示例而并非限定。

在步骤502和步骤503中，对于每个特征分组，可以根据表达式(4)-(5)来计算从特征向量池中的各特征向量到该特征分组的中心的距离。如果距离小于上述阈值，则认为相应的特征向量落在该特征分组的边界的内部并且被选择作为用于该特征分组的候选特征向量。

下面回到图4A的描述。步骤403是二元分类器创建步骤，针对与背景有关的每个特征分组，根据来自特征向量池的候选和该特征分组来创建二元分类器。

对于与背景有关的每个特征分组，把该特征分组中的所有特征向量和在步骤503中所选择的第二负特征向量视为负训练样本，并且把在步骤502中所选择的正特征向量视为正训练样本。可使用支持向量机方法来训练基于正支持向量和负支持向量的第二分类器，正和负支持向量是通过SVM训练过程选择的。

对于不同的特征分组，重复执行步骤402和403来创建相应的第二分类器。

根据一个实施例，第二分类器可以是二元分类器。

根据又一个实施例，在特征向量选择步骤402中不能针对某个特征分组选出预定数量的候选的情况下，不继续创建用于该特征分组的第二分类器。在这种情况下，继续对下一个特征分组进行第二分类器的创建，如图4中的由标记405指示的虚线所示。特别地，如果特征向量选择步骤402中没有选择出任何候选的情况下，则可以仅通过该特征分组来创建第一分类器，如图4中的由标记406指示的点划线所示。

步骤404是分类器组合步骤，通过进一步组合第二分类器来创建所述场景模型。

优选地使用级联架构。这表示仅当第一分类器和第二分类器的所有分类器都把未知图像区域视为背景时，才将会把该未知图像区域分类为背景。以这种方式，可以提高背景判断的准确性。

由以上步骤可见，在根据该实施方式的场景模型获取过程中，仅仅使用特定对象分类器的已有特征向量，因此也既不需要重复收集正样本，也不需要使用这些正样本重复更新场景模型，从而大大简化了场景模型的创建，并且使用这样的场景模型过滤对象检测结果也将允许提高对象检测的准确度。

图4B中示出了根据本申请的该实施方式的场景模型获取过程的示意图，相同的附图标记示意上文中相同的步骤。还应理解，参照示意图可以更好地理解该过程，但不应解释为限制本申请。

下面再次回到图2的描述。对于过滤步骤S203，图6示出其一个实施方式的流程图。

步骤601是特征提取步骤，从对象检测结果中提取特征向量。如前面在步骤S302中描述的那样，可以使用有效地表征对象检测结果的任何特征和特征提取方法。例如，可以使用用于人检测的方向梯度直方图，尺度不变特征变换，快速鲁棒特征，以及局部二值模式等。这些特征或特征提取方法仅是示例而非限定。

步骤602是判断步骤，用所获取的场景模型来判断所提取的特征向量是否表征背景。

如前所述，场景模型包括用于进行判断背景的多个分类器。不同场景模型可以具有不同的用于判断的方法。

根据一个实施例，基于加权的模型来进行判断。首先，用所捕获的场景模型中的每个分类器对所提取的特征向量进行判断以得出各判断分数。接下来，获得判断分数的加权和作为场景模型的最终分数：

其中w_i是每个分类器的权重，score_i是每个分类器输出的判断分数。如果最终分数大于阈值，则该对象检测结果被判断为背景并且例如可被丢弃；否则，被视为特定对象。

根据另一个实施例，基于级联的模型来进行判断。也就是说，如果所获取的场景模型中的所有分类器都把所提取的特征向量判断为表征背景的话，则认为该对象检测结果是背景并且例如可以丢弃。

步骤603是结果分组步骤，其中把与被判断为不表征背景的特征向量相对应的对象检测结果分组为最终的对象检测结果。

通过以上的详细描述可以理解，根据本申请的对象检测方法不需要重复地收集训练分类器所用的正样本，就可以使用所获取的场景模型来更准确和高效地识别特定对象检测器的对象检测结果中的背景并获得最终的特定对象，从而改进了特定对象检测器的准确度。

接下来参照图7描述根据本申请的一个实施方式的对象检测设备700的示例性配置的框图。该对象检测设备700包括对象检测装置701，被配置为通过特定对象检测器在图像中检测特定对象；场景模型获取装置702，被配置为获取表征所述图像中的特定对象的背景的场景模型；以及过滤装置703，被配置为用所述场景模型对对象检测装置的对象检测结果进行过滤以确定特定对象。

装置701、702和703可被配置为分别执行步骤201、202和203。

根据示例性实施例，场景模型获取装置702可被配置为获取在对象检测期间针对背景创建的场景模型。或者，场景模型获取装置可被配置为获取在对象检测之前针对背景预先创建的场景模型。再或者，场景模型获取装置可被配置为获取在对象检测之前现有的场景模型。

根据示例性实施例，场景模型获取装置702可以包括：样本收集装置704，被配置为从图像收集不包括要被检测的特定对象的区域，作为样本；特征提取装置705，被配置为从样本中提取第一负特征向量；特征聚类装置706，被配置为把第一负特征向量聚类为多个特征分组；以及分类器创建装置707，被配置为针对多个特征分组中的每个特征分组来创建第一分类器并把这些第一分类器组合来创建场景模型。

例如，第一分类器可以是单类分类器。

根据示例性实施例，在特定对象检测器是由支持向量组成的情况下，分类器创建装置707还可包括：特征向量池生成装置708，被配置为根据特定对象检测器来生成包含正特征向量和第二负特征向量的特征向量池；特征向量选择装置709，被配置为针对与背景有关的每个特征分组，从特征向量池中选择正特征向量和第二负特征向量作为候选；第二分类器创建装置710，被配置为针对与背景有关的每个特征分组，根据来自特征向量池的候选和该特征分组来创建第二分类器；以及分类器组合装置711，被配置为通过进一步组合第二分类器来创建所述场景模型。

例如，第二分类器可以是二元分类器。

根据示例性实施例，特征向量池可具有分别用于正特征向量和第二负特征向量的最大尺寸，特征向量池生成装置708可还包括未示出的以下装置：被配置为把特定对象检测器中的正支持向量用作正特征向量的装置；被配置为把特定对象检测器中的负支持向量用作第二负特征向量的装置。

根据示例性实施例，特征向量选择装置709还可包括未示出的以下装置：被配置为在第一负特征向量的特征空间中确定每个特征分组的边界的装置；被配置为从特征向量池中选择落在特征分组的边界的内部的正特征向量的装置；以及被配置为从特征向量池中选择落在特征分组的边界的内部的第二负特征向量的装置。

根据可能的实施例，对象检测设备700还可包括被配置为在特征向量选择装置709不能针对某个特征分组选出预定数量的候选的情况下，不继续创建用于该特征分组的第二分类器的装置（未示出）。

根据示例性实施例，过滤装置可包括：特征提取装置712，被配置为从对象检测结果中提取特征向量；判断装置713，被配置为用场景模型来判断所提取的特征向量是否表征背景，以及结果分组装置714，被配置为把与被判断为不表征背景的的特征向量相对应的对象检测结果分组为最终的对象检测结果。

根据一个可能的实施例，判断装置713还可包括以下未示出的装置：被配置为用场景模型中的每个分类器对所提取的特征向量进行判断的装置；被配置为获得判断的分数的加权和的装置；被配置为如果加权和大于阈值，则把该对象检测结果判断为表征背景的装置。

根据又一可能的实施例，判断装置713还可包括以下未示出的装置：被配置为用场景模型中的每个分类器对所提取的特征向量进行判断的装置；被配置为如果所有判断结果都表明所提取的特征向量表征背景，则把该对象检测结果判断为背景的装置。

以上描述的装置是用于实施本公开中描述的对象检测方法的示例性和/或优选的装置。这些装置可以是硬件单元（诸如场可编程门阵列、数字信号处理器、专用集成电路或计算机等）和/或软件装置（诸如计算机可读程序）。以上并未详尽地描述用于实施各个步骤的装置。然而，只要有执行某个处理的步骤，就可以有用于实施同一处理的对应的装置（由硬件和/或软件实施）。通过所描述的步骤以及与这些步骤对应的装置的所有组合限定的技术方案都被包括在本申请的公开内容中，只要它们构成的这些技术方案是完整并且可应用的。

此外，由各种装置构成的上述设备可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外，计算机当然可以具有其他硬件或者软件部件。

根据本申请的对象检测设备不需要重复地收集训练分类器所用的正样本，就可以使用所获取的场景模型来更准确和高效地识别特定对象检测器的对象检测结果中的背景并获得最终的特定对象，从而改进了特定对象检测器的准确度。

根据发明人在计算机系统上实现的测试表明，本申请的对象检测方法相对于现有技术的对象检测方法能够把虚警率降低至少5～8倍，如下表1所示。

	速率	检测率	虚警率
				通用对象检测器	5.3fps	91.0%	1.42%
现有技术(在线学习)	2.9fps	91.0%	0.88%
				本申请:以图3A的方式(无在线学习)	4.9fps	91.0%	0.18%
本申请:以图4A的方式(无在线学习)	4.3fps	91.0%	0.11%

表1

在表1中，列出了使用通用对象检测器、现有技术的对象检测以及本申请的对象检测获得的结果。在测试中，对于检测率，使用PASCAL标价标准，也就是说当（标记区域与检测到的区域的交集）/（标记区域与检测到的区域的并集）>0.5时，就将该检测到的区域视为正确的检测区域。对于虚警率，采用以下标准：当检测到的区域与标记的真实背景的重叠比率大于某个阈值，或者该检测到的区域出现在预先确定的不包含对象的帧中，则把该检测到的区域视为一次虚警。

根据本申请的对象检测设备可以有很多应用。例如可被应用于但不限于图像拾取设备。图8是示出根据一个实施方式的图像拾取设备800的示例性配置的框图。

如图8所示，图像拾取设备800可以包括：摄影光学系统801，其可例如包括用于拍摄的光学元件；成像单元802，被配置为执行成像以形成图像，该成像单元802可以包括诸如CCD传感器或CMOS传感器之类的成像传感器；以及上述的对象检测设备700，被配置为在所形成的图像中检测所述特定对象。

根据一个实施例，包括对象检测设备700的图像拾取设备800可以更高效和准确地实现自动聚焦。在通过对象检测设备700确定特定对象之后，图像拾取设备对该特定对象实现自动聚焦，从而获得更清晰的图像或视频。

图9是示出能够实施本申请的实施例的计算机系统的硬件配置的框图。

如图9中所示，计算机系统包括经由系统总线904连接的处理单元901、只读存储器902、随机存取存储器903、输入/输出接口905、输入单元906、输出单元907、存储单元908、通信单元907和驱动器910。程序可以预先记录在作为计算机中内置的记录介质的ROM（只读存储器）902或者存储单元908中。或者，程序可以存储（记录）在可移除介质911中。在本文中，可移除介质911包括例如软盘、CD-ROM（压缩光盘只读存储器）、MO（磁光）盘、DVD（数字多功能盘）、磁盘、半导体存储器等。

输入单元906配置有键盘、鼠标、麦克风等。另外，输出单元907配置有LCD（液晶显示器）、扬声器等。

另外，除了通过驱动器910从以上提到的可移除介质911把程序安装到计算机的配置之外，可以通过通信网络或广播网络把程序下载到计算机以安装在内置存储单元908中。换言之，可以例如以无线方式通过用于数字卫星广播的卫星从下载点向计算机或者以有线方式通过诸如LAN（局域网）或互联网等的网络向计算机传输程序。

如果经由输入/输出接口905通过输入单元906的用户操控等输入命令，则CPU901根据命令来执行ROM902中存储的程序。或者，CPU901把存储单元908中存储的程序加载在RAM903上以执行程序。

因此，CPU901可执行根据以上提到的流程图的某些处理或者通过以上提到的框图的配置执行的处理。接下来，如果有必要，则CPU901允许处理的结果例如通过输入/输出接口905从输出单元907输出、从通信单元907传输、在存储单元908中记录等。

另外，程序可以由一个计算机（处理器）执行。另外，程序可以由多个计算机以分布式的方式处理。另外，可以把程序传输给远程计算机执行。

图9所示的计算机系统仅仅是说明性的并且决不意图对本申请、其应用或用途进行任何限制。

图9所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

可以通过许多方式来实施本申请的方法和系统。例如，可以通过软件、硬件、固件、或其任何组合来实施本申请的方法和系统。上述的方法步骤的次序仅是说明性的，本申请的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本申请还可以被实施为记录在记录介质中的程序，其包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于实现根据本申请的方法的程序的记录介质。

虽然已通过示例详细描述了本申请的一些具体实施方式，但是本领域技术人员应当理解，上述示例仅是说明性的而不限制本申请的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本申请的范围和实质。本申请的范围是通过所附的权利要求限定的。

Claims

1.一种对象检测方法，包括：

a)对象检测步骤，通过由支持向量组成的特定对象检测器在图像中检测特定对象；

b)特征向量池生成步骤，根据所述特定对象检测器来生成包含正特征向量和第一负特征向量的特征向量池；

c)特征向量选择步骤，针对与特定对象的背景有关的每个特征分组，从所述特征向量池中选择正特征向量和第一负特征向量作为候选；

d)第一分类器创建步骤，针对与特定对象的背景有关的每个特征分组，根据来自所述特征向量池的候选和该特征分组来创建第一分类器；

e)场景模型创建步骤，通过组合第一分类器来创建表征所述图像中的特定对象的背景的场景模型；以及

f)过滤步骤，用所述场景模型对对象检测步骤的对象检测结果进行过滤以确定特定对象。

2.一种对象检测设备，包括：

对象检测装置，被配置为通过由支持向量组成的特定对象检测器在图像中检测特定对象；

特征向量池生成装置，被配置为根据所述特定对象检测器来生成包含正特征向量和第一负特征向量的特征向量池；

特征向量选择装置，被配置为针对与特定对象的背景有关的每个特征分组，从所述特征向量池中选择正特征向量和第一负特征向量作为候选；

第一分类器创建装置，被配置为针对与特定对象的背景有关的每个特征分组，根据来自所述特征向量池的候选和该特征分组来创建第一分类器；

场景模型创建装置，被配置为通过组合第一分类器来创建表征所述图像中的特定对象的背景的场景模型；以及

过滤装置，被配置为用所述场景模型对对象检测装置的对象检测结果进行过滤以确定特定对象。

3.根据权利要求2所述的对象检测设备，其中，所述场景模型创建装置被配置为在对象检测期间针对所述背景创建场景模型。

4.根据权利要求2所述的对象检测设备，其中，所述场景模型创建装置被配置为在对象检测之前针对所述背景预先创建场景模型。

5.根据权利要求3-4之一所述的对象检测设备，其中，所述场景模型创建装置包括以下装置：

样本收集装置，被配置为从所述图像收集不包括要被检测的特定对象的区域，作为样本；

特征提取装置，被配置为从所述样本中提取第二负特征向量；

特征聚类装置，被配置为把所述第二负特征向量聚类为多个特征分组；以及

第二分类器创建装置，被配置为针对所述多个特征分组中的每个特征分组来创建第二分类器并把这些第二分类器组合来创建所述场景模型。

6.根据权利要求5所述的对象检测设备，其中，第二分类器是单类分类器。

7.根据权利要求2所述的对象检测设备，其中，第一分类器是二元分类器。

8.根据权利要求2所述的对象检测设备，其中，所述特征向量池具有分别用于正特征向量和第一负特征向量的最大尺寸，所述特征向量池生成装置还包括：

被配置为把所述特定对象检测器中的正支持向量用作正特征向量的装置；

被配置为把所述特定对象检测器中的负支持向量用作第一负特征向量的装置。

9.根据权利要求2所述的对象检测设备，其中，所述特征向量选择装置还包括：

被配置为在第二负特征向量的特征空间中确定所述每个特征分组的边界的装置；

被配置为从所述特征向量池中选择落在特征分组的边界的内部的正特征向量的装置；

被配置为从所述特征向量池中选择落在特征分组的边界的内部的第二负特征向量的装置。

10.根据权利要求2所述的对象检测设备，还包括被配置为在所述特征向量选择装置不能针对某个特征分组选出预定数量的候选的情况下，不继续创建用于该特征分组的第一分类器的装置。

11.根据权利要求2所述的对象检测设备，其中，所述场景模型创建装置被配置为创建在对象检测之前现有的场景模型。

12.根据权利要求2所述的对象检测设备，其中，所述过滤装置包括：

特征提取装置，被配置为从对象检测结果中提取特征向量；

判断装置，被配置为用所述场景模型来判断所提取的特征向量是否表征所述背景，以及

结果分组装置，被配置为把与被判断为不表征背景的特征向量相对应的对象检测结果分组为最终的对象检测结果。

13.根据权利要求12所述的对象检测设备，其中，所述判断装置还包括：

被配置为用所述场景模型中的每个分类器对所提取的特征向量进行判断的装置；

被配置为获得判断的分数的加权和的装置；

被配置为如果所述加权和大于阈值，则把该对象检测结果判断为表征背景的装置。

14.根据权利要求12所述的对象检测设备，其中，所述判断装置还包括：

被配置为如果所有判断结果都表明所提取的特征向量表征背景，则把该对象检测结果判断为背景的装置。

15.一种图像拾取设备，包括：

摄影光学系统；

成像单元，被配置为执行成像以形成图像；

根据权利要求2-14中任一项所述的对象检测设备。