CN103632379B

CN103632379B - 物体检测装置及其控制方法

Info

Publication number: CN103632379B
Application number: CN201310367582.2A
Authority: CN
Inventors: 东条洋
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-08-22
Filing date: 2013-08-21
Publication date: 2017-06-06
Anticipated expiration: 2033-08-21
Also published as: EP2701094A2; US20140056473A1; JP6046948B2; CN103632379A; JP2014041488A; US9202126B2; EP2701094A3

Abstract

本发明提供一种物体检测装置及其控制方法。该物体检测装置防止或消除由频繁出现在背景中的物体的改变引起的检测错误。因此，该物体检测装置包括：检测单元，其通过比较来自视频输入设备的输入视频与背景模型来检测物体区域；选择单元，其选择最初包括在视频中的背景物体的区域；生成单元，其生成基于包括在所述背景物体区域中的特征的背景物体特征信息；以及确定单元，其使用所述背景物体特征信息确定从所述输入视频中检测到的所述物体区域是否是背景物体。

Description

物体检测装置及其控制方法

技术领域

本发明涉及物体检测装置及其控制方法。

背景技术

作为用于从由照相机捕获的图像中检测物体的技术，已知背景差分法。在背景差分法中，固定的照相机预先捕获移除了待检测物体的背景的图像，并将从该图像中提取的特征量存储作为背景模型。之后，计算从照相机输入的图像中提取的特征量与背景模型中的特征量的差分，并且检测不同的区域作为前景(物体)。

在该情况下，例如，将检查诸如接待室中的椅子等的物体。椅子最初存在于接待室中，并且不是诸如人或由人带入的包等的待检测物体。然而，人们频繁移动椅子或改变其方向。如果发生了这种改变，则产生了与背景模型的差分，并且背景差分法将这种改变错误地检测为物体。

在本说明书中，下文中将诸如椅子的最初存在于背景中的物体称为背景物体。

因此，在日本专利特开第2003-346156号公报(下文中称为文献)中，在检测到背景模型的改变区域后，执行下面的处理以区别是背景物体还是新带入视场中的物体，由此防止任何检测错误。将与输入图像的改变区域相对应的区域的特征量(颜色特征和边缘特征)和与由背景模型生成的背景图像的改变区域相对应的区域的特征量进行比较，并且如果这些特征量彼此类似，则确定背景物体移动。

然而，根据上述文献的技术错误地检测到如下情况：未包括在背景模型中的新特征在背景物体的运动或改变时出现。即，由于输入图像的特征不再与由背景模型生成的背景图像中包括的特征类似，因此不确定背景物体的改变。例如，当红色花瓶被放置在蓝色墙壁前面，并且椅子被放置在红色花瓶前面时，由于红色花瓶被遮挡在椅子后面，因此红色花瓶的特征未被包括在背景模型中。当此时移动椅子时，遮挡的红色花瓶出现在视频中。在靠背旋转的椅子的情况下，当靠背旋转(面外旋转)时，则未包括在背景模型中的、该椅子自身的新特征出现在视频中。以这种方式，在背景物体移动或旋转时此前不存在的新特征正常出现。即，上述文献不能够有效地抑制由背景物体的改变引起的任意检测错误。

发明内容

本发明是考虑到上述问题而做出的。然后，本说明书提供了能够防止或减少由频繁出现在背景中的物体的改变引起的检测错误的技术。

为实现该目标，根据本说明书的物体检测装置例如包括如下结构。即，本说明书的第一方面提供一种物体检测装置，该物体检测装置包括：视频输入单元，其被配置为输入视频；物体区域检测单元，其被配置为通过比较输入的视频与背景模型来检测物体区域；选择单元，其被配置为选择最初包括在视频中的背景物体的区域；生成单元，其被配置为生成基于包括在所述背景物体区域中的特征的背景物体特征信息；以及确定单元，其被配置为使用所述背景物体特征信息确定从输入的视频中检测到的所述物体区域是否是背景物体。

本说明书的第二方面提供一种控制物体检测装置的控制方法，该物体检测装置包括被配置为输入视频的视频输入单元，并检测所述视频中的物体，所述控制方法包括：物体区域检测步骤，通过比较来自所述视频输入单元的输入视频与背景模型来检测物体区域；选择步骤，选择最初包括在视频中的背景物体的区域；生成步骤，控制生成单元生成基于包括在所述背景物体区域中的特征的背景物体特征信息；以及确定步骤，使用所述背景物体特征信息确定从所述输入视频中检测到的所述物体区域是否是背景物体。

根据本说明书，能够防止或减少由频繁出现在背景中的物体的改变引起的检查错误。

通过以下参照附图对示例性实施例的描述，本发明的其它特征将变得清楚。

附图说明

图1是示出根据实施例的物体检测装置的硬件结构的框图；

图2是示出根据实施例的物体检测装置的功能结构的框图；

图3是示出根据实施例的登记阶段中的处理序列的流程图；

图4是示出比较处理的详细处理序列的流程图；

图5是示出背景模型的示例的表；

图6是示出背景模型更新处理的详细处理序列的流程图；

图7是示出比较结果信息的示例的表；

图8是示出前景/背景确定处理的详细处理序列的流程图；

图9是示出前景/背景信息的示例的表；

图10是示出物体区域输出处理的详细处理序列的流程图；

图11是示出物体区域信息的示例的表；

图12是示出第一背景物体区域选择处理的序列的流程图；

图13是用于说明第一背景物体区域选择处理的处理结果的图；

图14是示出第一场景相关的背景物体区域选择规则的示例的表；

图15是示出背景物体候补区域信息的示例的表；

图16是示出第二特征量提取处理的序列的流程图；

图17是示出场景相关的特征量类型信息的示例的表；

图18是示出特征量信息的示例的表；

图19是示出第一背景物体区域选择处理的序列的流程图；

图20是用于说明第二背景物体区域选择处理的处理结果的图；

图21是示出第二场景相关的背景物体区域选择规则的示例的表；

图22是示出加权特征量信息的示例的表；

图23是用于说明当物体平行移动时的物体检测结果的图；

图24是示出平行移动/面外旋转确定处理的序列的流程图；

图25是示出背景物体特征信息登记处理的序列的流程图；以及

图26是示出根据实施例的操作阶段中的处理序列的流程图。

具体实施方式

以下将参照附图详细描述根据本发明的实施例。

图1是示出根据本实施例的用于执行物体检测的图像处理装置(下文称为物体检测装置)的硬件结构的框图。本实施例的物体检测装置具有下面的结构。

CPU101根据存储在ROM102和RAM103中的程序来执行指令。ROM102是非易失性存储器，并且存储本发明的程序以及其他种类的控制所需的程序及数据。RAM103是易失性存储器，并且存储诸如帧图像数据以及模式识别结果的临时数据。辅助存储设备104是诸如硬盘驱动器或闪存等的可重写辅助存储设备，并且存储操作系统(OS)、图像信息、物体检测程序、各种设置内容等。这些信息被传送到RAM103，作为CPU101的程序而被执行，并且用作数据。

图像输入设备105包括数字视频照相机、网络照相机、红外线照相机等，并且将由摄像单元捕获的视频作为数字图像数据输出。输入设备106包括键盘、鼠标等，并且允许用户进行输入。显示设备107包括阴极射线管(cathode ray tube，CRT)显示器、液晶显示器等，并且向用户显示处理结果等。网络I/F108包括用于建立与诸如因特网或内联网的网络的连接的调制解调器以及LAN。总线109连接这些组件以使它们相互交换数据。

本实施例的装置被实现为在OS上运行的应用。

图2是示出本实施例的物体检测装置的功能结构的框图。当CPU101执行程序时实现下述的处理单元，但是这些处理单元的一些或所有这些处理单元可以被实现为硬件。

附图标记201表示包括图像输入设备105并输入视频的视频输入单元。附图标记202表示从视频提取构建背景模型(稍后描述)所需的特征量的第一特征量提取单元。附图标记203表示比较从背景模式存储单元204(稍后描述)读出的背景模型与输入视频的比较单元。附图标记204表示包括RAM103或辅助存储设备104并存储背景模型(稍后描述)的背景模型存储单元，该背景模型使用图像特征量来表现视频中各位置的状态。附图标记205表示基于比较单元203的输出来更新存储在背景模型存储单元204中的背景模型的背景模型更新单元。附图标记206表示基于比较单元203的输出来确定输入视频中的各位置对应于前景还是背景的前景/背景确定单元。附图标记207表示基于前景/背景确定单元206的输出来针对各物体区域组合并输出检测结果的物体区域输出单元。

附图标记208表示将作为物体区域输出单元207的输出的物体区域分类为包括背景物体的区域与不包括任何背景物体的区域的第一选择单元。附图标记209表示从作为第一选择单元208的输出的背景物体候补区域提取生成背景物体特征信息(稍后描述)所需的特征量的第二特征量提取单元。附图标记210表示将由第一选择单元208选择的背景物体候补区域缩小到仅包括背景物体的部分区域的第二选择单元。

附图标记211表示规则存储单元，其存储场景相关的背景物体区域选择规则，即，选择针对配备有物体检测装置(稍后描述)的各场景(接待室、具有自动门的入口等)的背景物体区域所需的规则。第一确定单元208、第二特征量提取单元209以及第二选择单元210参照存储在该规则存储单元211中的信息来根据预定的规则选择背景物体。

附图标记212表示检测包括在视频中的人体区域的人体检测单元。根据场景相关的背景物体选择规则从第一选择单元208和第二选择单元210调用该单元。附图标记213表示基于物体区域输出单元207的输出结果来确定各物体区域的持续时间是否满足预定条件的持续时间确定单元。根据场景相关的背景物体选择规则从第一选择单元208调用该单元。

附图标记214表示确定被选择为背景物体的区域是由背景物体的平行移动生成还是由面外旋转生成的移动确定单元。根据场景相关的背景物体选择规则从第二选择单元210调用该移动确定单元214。附图标记215表示临时存储由视频输入单元201输入的视频的帧图像存储单元。由移动确定单元214使用该存储单元。附图标记216表示基于包括在选择的背景物体区域中的第二特征量生成统计量的统计量生成单元。附图标记217表示将由统计量生成单元216生成的统计量登记作为背景物体特征信息的背景物体登记单元。附图标记218表示存储背景物体特征信息(稍后详述)的背景物体存储单元。附图标记219表示参照背景物体特征信息确定检测物体是否是背景物体的背景物体识别单元。确定结果被反馈到背景模型更新单元205。

根据本实施例的物体检测装置的处理大致包括用于登记背景物体的登记阶段以及用于检测物体的操作阶段。当设置物体检测装置时，在初始时期执行登记阶段，并且与操作阶段并行。下面将分别描述这些阶段。

[登记阶段]

下面将参照图3描述针对本实施例的登记阶段的一个帧图像的处理序列。图3示出了与由CPU101执行的应用的登记阶段相关的部分的处理序列。

输入由视频输入单元201捕获的视频，并且针对各预定时间获得帧图像(步骤S301)。

接下来，第一特征量提取单元202从帧图像提取特征量，并且比较单元203将帧图像中的特征量与从背景模型存储单元204读出的背景模型中的特征量进行比较(步骤S302)(稍后描述详情)。

接下来，背景模型更新单元205将比较单元203的结果反映到背景模型，由此更新背景模型(步骤S303)(稍后描述详情)。

接下来，前景/背景确定单元206基于来自比较单元203的结果的持续时间确定前景和背景(步骤S304)(稍后描述详情)。

接下来，输出检测到的物体区域(步骤S305)。输出物体区域用于检测弃置物体的弃置物体检测装置等(稍后描述详情)。

接下来，第一选择单元208进行用于从检测到的物体区域选择包括背景物体的区域的第一背景物体区域的选择(步骤S306)(稍后描述详情)。

接下来，第二特征量提取单元209从选择的背景物体区域提取特征量(步骤S307)(稍后描述详情)。

接下来，第二选择单元210进行用于从由第一选择单元208选择的包括背景物体的区域进一步缩小到仅包括背景物体的区域的第二背景物体区域的选择(步骤S308)(稍后描述详情)。

最后，统计量生成单元216由包括在被选择作为背景物体区域的区域中的特征量生成统计量，并且背景物体登记单元217将背景物体特征信息登记在背景物体存储单元218中(步骤S309)(稍后描述详情)。

下面将参照图4描述上述处理的步骤S302中的比较处理(比较单元203)的详情。

第一特征量提取单元202从由视频输入单元201获取的输入帧图像提取图像特征量作为表现各位置的各状态的值(步骤S401)。图像特征量的示例包括亮度值、颜色、边缘等，但本发明不特别限定于这些特征量。此外，可以提取针对各像素的特征量或针对各部分区域的特征量。作为针对各部分区域的特征量的示例，列举8像素×8像素的块中的像素的平均亮度值、DCT系数等。DCT系数对应于离散余弦变换(discrete cosinetransform)结果。当输入帧图像被以JPEG格式压缩编码时，在图像压缩时就提取了特征量。因此，在这种情况下，可以直接从JPEG输入帧图像提取DCT系数，并且可以使用DCT系数作为特征量。在本实施例中，特征量是针对各像素的亮度值。注意，帧图像的左上像素被定义为起始点，并且当像素位置从左向右并逐行下移(光栅扫描顺序)时执行下面的处理。

接下来，从背景模型存储单元204中存储的背景模型中读出关注位置的位置相关的背景模型信息，并且将其临时存储在RAM103中(步骤S402)。

下面将参照图5描述背景模型存储单元204中存储的背景模型。背景模型使用图像特征量表现帧图像中各位置的状态。背景模型包括两种信息：背景模型管理信息以及位置相关的背景模型信息。

背景模型管理信息包括位置信息以及在各位置处的位置相关的背景模型信息的指针。位置信息可以假定使用X-Y坐标表现帧图像的像素位置的值，或者可以是以光栅扫描顺序分配给8×8像素的各块的编号。请注意，在本实施例中，位置信息假定使用X-Y坐标表现帧图像的像素位置的值。

位置相关的背景模型信息保持与各位置相对应的多个状态。请注意，状态由特征量表现。因此，非类似特征量对应于不同状态。例如，当红色车辆到达并停止在蓝色墙壁前时，包括在红色车辆停止的区域中的像素保持蓝色和红色特征量的两种状态。各状态保持状态编号、表现该状态的图像特征量、创建时间以及激活标记。状态编号用于识别各状态，并且从1依次生成。创建时间是第一次在背景模型中创建状态的时间，并且由时间或帧编号表示。在本实施例中，由帧计数表现创建时间。激活标记表示与当前帧图像相对应的状态，并且此时被设置为1(在其他情况下被设置为0)。然后，帧图像中的相同位置处的多个状态被连续存储在通过背景模型管理信息的指针参照的地址中。在图5的示例中，针对坐标(0，0)的位置，状态编号＝1的状态被存储在地址＝1200处，并且状态编号＝2的状态被随后存储在地址＝1201处。因此，能够如下读出与关注位置相对应的所有状态。即，从背景模型管理信息中参照关注位置和下一位置的指针，并且能够读出从关注位置的地址到紧接下一位置之前的地址的状态。

仅出于示例性目的呈现了以上描述。例如，一条位置相关的背景模型信息可以包括用于存储具有不同状态编号的后续位置相关的背景模型信息的指针的字段，并且如果该字段存储不存在的值，则该位置相关的背景模型信息可以被视作最后的信息。

说明将返回图4的步骤S402。从背景模型管理信息参照关注位置的位置相关的背景模型信息的指针，并且读出关注位置的所有状态的位置相关的背景模型信息。在图5的示例中，在第一位置处，读出下面的两个状态的位置相关的背景模型信息。第一状态是来自地址＝1200的{状态编号＝1，特征量＝100，创建时间＝0，激活标记＝1}。第二状态是来自地址＝1201的{状态编号＝2，特征量＝230，创建时间＝101，激活标记＝0}。

接下来，从在步骤S402中读出的关注位置的位置相关的背景模型信息中读出一个状态的特征量(步骤S403)。然后，激活标记被设置为0(步骤S404)。这是为了初始化先前的结果。然后，计算与输入帧图像中相同位置的特征量的差分(步骤S405)。作为差分计算方法，使用两个特征量的差分的绝对值。然而，本发明不特别限定于此。例如，可以使用差分的平方。然后，将差分值与输入帧图像中的位置以及用于计算差分的状态编号相关联地临时存储在RAM103中。然后确定在关注位置处是否仍有用于计算差分的状态(步骤S406)。如果仍有这种状态，则从位置相关的背景模型信息中读出下一状态(步骤S407)。然后，重复步骤S403和S405的处理。

接下来，与关注位置相关联地计算输入帧图像的特征量与所有状态之间的差分值的最小值(步骤S408)。

接下来，比较阈值A与在关注位置处的最小差分值(步骤S409)。如果差分值小于阈值，则能够判断输入帧图像的状态与存储在背景模型中的状态相似。相反，如果差值大于阈值，则能够确定输入帧图像的状态不同于存储在背景模型中的所有状态，并且其为新状态。

如果在步骤S409中确定了新状态，则将指新状态的特殊编号(例如：0)设置为状态编号(步骤S410)。当背景模型更新单元205更新背景模型时再次生成新状态编号。接下来，当前时间被设置为第一次创建该状态的创建时间(步骤S411)。请注意，在本实施例中，使用当前帧编号。然而，也可以使用正常的时间表示(例如00:00:00)。

接下来，激活标记被设置为1以表示与当前帧相对应的状态(步骤S412)。

接下来，将状态编号、输入图像的特征量以及创建时间作为比较结果信息与输入帧图像中的坐标相关联地临时存储在RAM103中(步骤S413)。

然后确定是否针对帧图像中的所有像素(坐标)完成了处理(步骤S414)。如果仍有待处理的像素，则处理以光栅扫描顺序进行到下一像素(步骤S415)，由此重复步骤S401至S413中的处理。

如果针对所有像素完成了步骤S401至S413中的处理，则针对所有像素的比较结果信息(在图7中例示的)被输出到背景模型更新单元205以及前景/背景确定单元206(步骤S416)。

以这种方式，能够针对各像素计算与输入视频最接近的背景模型中的状态。

请注意，在开始使用该物体检测装置时没有存储背景模型。因此，能够被假定为差分值等的最大值等被设置为差分计算值。在步骤S409中所有这些值被确定为新状态，并且在背景模型更新处理(稍后描述)中被存储在背景模型中。以这种方式，能够在启动时由输入帧图像初始化背景模型。

描述了步骤S302中的比较处理的详情。

下面将参照图6所示的流程图描述步骤S303中的背景模型更新处理(背景模型更新单元205)的详情。

从作为比较单元203的输出的比较结果信息(图7)中，将帧图像的左上像素作为起点依次参照坐标来获取针对一个像素的比较结果信息(步骤S601)。

检查当前像素的状态是否为新状态(步骤S602)。通过参照比较结果信息中的状态编号能够实现该检查步骤。即，如果状态编号是0，则当前像素的状态是新状态；否则，当前像素的状态是包括在背景模型中的现有状态。

如果当前像素的状态是现有状态，则更新背景模型(图5)中的相应的位置相关的背景模型信息。从当前像素的坐标参照背景模型中的背景模型管理信息来获取所匹配的坐标的状态的指针。在读出信息的同时使指针依次前进，并且参照与从比较结果信息(图7)中读出的状态编号匹配的位置相关的背景模型信息(步骤S603)。

然后，用比较结果信息(图7)中的输入特征量来更新背景模型中的特征量(步骤S604)。这是为了处理由照明等的改变引起的改变。例如，更新方法如下：

μ_t＝(1-α)·μ_t-1+α·I_t......(1)

其中，t表示当前帧，t-1表示紧接的在前帧，μ_t-1是更新前的特征量值，并且μ_t是更新后的特征量值。I_t是输入帧的特征量值。α是具有值范围为0至1的权重，并且权重取越大的值，则更新后的值越接近于输入值。

另一方面，如果在步骤S602中确定新状态，则该状态被添加到背景模型中。

从当前像素的坐标参照背景模型中的背景模型管理信息来获取匹配的坐标的状态的指针。然后，指针进行到下一像素的坐标的状态以获取当前坐标的状态的最后状态编号(步骤S605)。

生成新状态的状态编号(步骤S606)。更具体地，使用最后状态编号的下一个值。请注意，当该物体检测装置启动时，第一次将状态添加到背景模型时，分配状态编号＝1。

由于紧接当前像素的最后状态添加了新状态，因此从下一像素的坐标参照背景模型中的背景模型管理信息来获取匹配的坐标的状态的指针(步骤S607)。作为新状态，这里将输入状态信息中的当前坐标的输入特征量以及创建时间与生成的状态编号一起插入(步骤S608)。

然后确定是否针对帧图像中的所有像素(坐标)完成了步骤S601至S608中的处理(S609)。如果仍有待处理的像素，则处理以光栅扫描顺序进行到下一像素(步骤S610)，由此重复步骤S601至S608中的处理。如果针对所有像素完成了处理，则处理结束。

描述了步骤S303中的背景模型更新处理的详情。

下面将参照图8描述步骤S304中的前景/背景确定处理(前景/背景确定单元206)的详情。

以帧图像的左上像素作为起始点按照光栅扫描顺序，从作为步骤S302的比较处理的输出的比较结果信息(图7)中逐个参照并获取比较结果信息(步骤S801)。

基于比较结果信息(图7)的创建时间，计算出从特定状态(特征)在视频中的出现时间到当前时间的持续时间(当前时间-创建时间)(步骤S802)，并且将该结果与背景变换时间的阈值进行比较(步骤S803)。背景变换时间的阈值是指以该值为分界线将被检测为前景物体的物体作为背景物体来处理(将被变换为背景物体)。如果持续时间不小于背景变换时间的阈值，则前景标记被设置为表示“背景”的“0”(步骤S804)。另一方面，如果持续时间小于背景变换时间的阈值，则确定前景，并将前景标记设置为“1”(步骤S805)。假定背景变换时间的阈值正常为固定值B。例如，如果固定值B＝5分钟(针对30帧/秒，则为9000帧)，在5分钟内物体都能够被检测为前景。

接下来，将前景标记与帧图像中的当前像素的坐标以及持续时间相关联地临时存储为前景/背景信息(在图9中例示)(步骤S806)。

然后确定是否针对帧图像中的所有像素(坐标)完成了处理(步骤S807)。如果仍有待处理的像素，则处理进行到下一像素(步骤S808)，由此重复步骤S801至S806中的处理。如果针对所有像素完成了步骤S801至S806的处理，则针对所有像素的前景/背景信息(图9)被输出到物体区域输出单元207(步骤S809)。

接下来，下面将参照图10说明图3的步骤S305中的物体区域输出处理(物体区域输出单元207)的详情。

为了组合为物体区域，准备了表示是否搜索到前景标记＝1的像素的搜索标记。该搜索标记与帧图像中的各坐标相关联。由于搜索标记＝1被解释为“已搜索”，因此与所有坐标相对应的搜索标记都被初始化为0(步骤S1001)。

假定以帧图像的左上像素为起始点，参照存储在RAM103中的前景/背景信息(图9)的坐标来获取前景标记(步骤S1002)。

接下来，检查当前坐标的前景标记是否为1(步骤S1003)。如果前景标记是0，由于其表示背景，因此处理以光栅扫描顺序从当前像素进行到下一像素(步骤S1004)。

另一方面，如果在步骤S1003中确定前景标记＝1，由于该像素属于前景，因此检查当前坐标的搜索标记是否为0，即，该像素是否已被搜索(步骤S1005)。如果搜索标记是1，由于该像素已被搜索，因此处理以光栅扫描顺序从当前像素进行到下一像素(步骤S1004)。

如果在步骤S1005中搜索标记＝0，由于尚未搜索到该像素，因此临时存储当前坐标(步骤S1006)。然后，由于已经搜索到像素，因此搜索标记被设置为1(步骤S1007)。接下来，获取相邻前景标记以搜索连续的前景像素(步骤S1008)。然后检查相邻前景标记是否为1(步骤S1009)。如果前景标记是1，由于该像素是连续像素，因此确定其搜索标记是否为0(步骤S1010)。如果搜索标记为0，由于尚未搜索到该像素，因此控制返回到步骤S1006以进一步搜索相邻像素。

重复步骤S1002至S1010中的处理，直至在步骤S1010中确定已经搜索到所有的相邻像素(搜索标记＝1)或在步骤S1009中确定所有的相邻像素是背景像素(前景标记＝0)。

如果在步骤S1002至S1010的处理中找到了连续前景(物体)的像素，则根据临时存储的这些像素的坐标计算外接矩形，并将该外接矩形的左上坐标和右下坐标临时存储在RAM103中(步骤S1011)。

接下来，从比较结果信息获取与这些像素(坐标)相对应的持续时间，并且计算获取的持续时间的平均值并将其临时存储在RAM103中(步骤S1012)。

确定是否针对帧图像中的所有像素完成了步骤S1002至S1012的处理(步骤S1013)。如果仍有待处理的像素，则处理以光栅扫描顺序从当前像素进行到下一像素(步骤S1004)。

如果针对所有像素完成了步骤S1002至S1012的处理，则输出临时存储的物体区域的左上坐标和右下坐标以及它们的平均出现时间作为物体区域信息(步骤S1014)。图11示出了物体区域信息的示例，并且能够从起始地址读出两个物体区域的左上坐标、右下坐标以及平均出现时间。

描述了步骤S305中的物体区域输出处理的详情。请注意，输出物体区域信息例如用于检测弃置物体的弃置物体检测装置(未示出)。弃置物体检测装置参照物体的平均持续时间，当持续预定时间段时生成弃置事件。此外，该装置参照物体区域的矩形的左上坐标和右下坐标生成矩形，并且将矩形叠加在输入视频上，由此向用户呈现弃置物体的位置。

下面将参照图12描述图3的步骤S306中的第一背景物体区域选择处理(第一选择单元208)的详情。

物体区域信息(图11)中的物体区域被分类为包括背景物体的物体区域和不包括任何背景物体的物体区域，并且输出背景物体候补区域。图13是用于说明该处理的处理结果的图。在图13中，附图标记1301表示包括椅子1302、站在椅子1302前面的人1303以及在帧中横穿的人1304的帧图像。在帧1305中，叠加了根据背景差分而检测到的物体区域，并且区域1306和1307被检测为物体。假定包括在区域1306中的椅子具有不同于当生成背景模型时的方向，并且其被检测为物体的一部分。第一背景物体区域选择处理选择包括背景物体(本示例中的椅子1302)的物体区域，并且输出包括该椅子的区域1309作为由附图标记1308表示的背景物体候补区域。下面将详述该处理。

首先，从规则存储单元211参照与由用户指定的场景ID相对应的第一场景相关的背景物体区域选择规则(步骤S1201)。尽管在图2中未特别示出与从用户的指定相关的结构，但其包括输入设备106以及由用户确认的显示设备107，并且用户通过从画面上显示的场景ID列表中选择场景ID来指定场景ID。请注意，根据物体检测装置的安装环境等定义场景ID。例如，场景ID＝1表示接待室，场景ID＝2表示自动门。用户根据安装环境选择这些场景ID，由此获得最优物体检测结果。

下面将参照图14详细描述在第一背景物体区域选择处理中加载的第一场景相关的背景物体区域选择规则。

第一场景相关的背景物体区域选择规则中的各规则包括场景ID、确定条件(确定条件数量、确定条件起始指针)、参数(参数数量、参数起始指针)以及采用条件。请注意，场景ID如上所述。

确定条件是选择背景物体区域所需要的，并且例如包括用于确定物体区域的(平均)持续时间是否不小于预定值的条件(条件11)、用于确定物体区域是否包括人体区域的条件(条件12)等。定义与确定条件的数量所描述的数量一样多的确定条件，并且能够从由确定条件起始指针所指示的地址依次读出并获取确定条件。

参数包括诸如在确定条件中使用的阈值的参数值。定义与参数数量所描述的数量一样多的参数，并且能够从由参数起始指针指示的地址依次读出并获取参数。

采用条件表示基于待满足的确定条件的背景物体候补区域。例如，采用条件包括仅采用满足确定条件的物体区域(“ONLY”仅)，以及在至少一个物体区域满足确定条件的情况下采用所有物体区域(“ALL”所有)等。

接下来，获取从加载的第一背景物体选择规则获取的确定条件中的一个(步骤S1202)。

在后续步骤S1203至S1209中针对所有物体区域确定是否满足确定条件。

从物体区域信息(图11)获取一个物体区域(步骤S1203)。在步骤S1204和S1206中分别检查是否指定了预定的确定条件(11、12)。如果指定了确定条件11(步骤S1204中“是”)，则在该示例中执行持续时间确定处理(步骤S1205)(稍后描述详情)。如果指定了确定条件12(步骤S1206中“是”)，则在本示例中执行人体有/无确定处理(步骤S1207)(稍后描述详情)。将确定结果与当前物体区域的坐标相关联地临时存储在RAM103中，其中当满足确定条件时确定结果为1，在其他情况下确定结果为0(步骤S1208)。

在步骤S1209中确定是否针对所有物体区域完成了处理。如果仍有待处理的物体区域，则处理返回到步骤S1203以选择下一物体区域。如果确定针对所有物体区域完成了处理(步骤S1209中“是”)，则确定是否针对规则中指定的所有确定条件完成了确定(步骤S1210)。如果尚未完成确定，则处理返回到步骤S1202以选择下一确定条件；否则，处理进行到步骤S1211。

根据规则中指定的采用规则来采用背景物体候补区域，并且将采用的物体区域信息输出作为背景物体候补区域信息(步骤S1211)。图15示出了示例。针对被选择作为背景物体的物体区域，从1依次生成背景物体ID。物体区域的左上坐标和右下坐标与物体区域信息(图11)中的那些坐标相同。

下面将使用接待室场景和自动门场景的示例更详细描述上述一系列处理。

a.接待室场景：

在接待室中，典型的背景物体是椅子。这种物体被人频繁移动或旋转。每次发生检测错误时，但是由于椅子不是运动物体，它在同一位置处被持续错误地检测到好像出现了新的静态物体。即，持续时间长的物体区域很可能是背景物体。利用这点来选择(包含)背景物体的区域。因此，“11”被指定为背景物体区域选择规则的确定条件。在步骤S1204中确定为是，并且持续时间确定单元213执行持续时间确定处理(步骤S1205)。假定作为与阈值比较的结果，具有足够长(平均)的持续时间的物体区域满足条件。作为参数值，在规则中描述了阈值的值，如图14所例示。在以这种方式验证确定条件之后，由于该场景的采用规则是“仅”，因此在步骤S1211中，仅满足确定条件11的物体区域被选择作为背景候补区域。

b.自动门场景：

在人出入自动门的场景中，在打开自动门时移动的门框是原本就存在于真实背景中的物体。然而，由于当移动门框时由背景模型生成差分，所以门框被错误地检测为物体。该背景物体(自动门框)可以移动也可以停止。因此，不能使用接待室场景的确定条件11(持续时间)确定自动门场景。当人出现时，打开/关闭自动门。因此，即使当检测到一个包括人的物体区域时，此时检测到的所有物体区域可能是背景物体候补。利用这点，从物体区域选择(包括)背景物体的区域。“12”被指定为背景物体区域选择规则的确定条件。在步骤S1206中确定为是，并且使用人体检测单元212执行人体有/无确定处理(步骤S1207)。假定如果在物体区域中检测到人体，则该物体区域满足条件。在以这种方式验证确定条件之后，如果至少一个物体区域满足确定条件12，则在步骤S1211中将物体区域信息(图11)中的所有物体区域选择为候补区域。

下面将描述人体检测单元212的详情。例如，已知美国专利第2007/0237387号公报。利用该技术，在输入图像上扫描具有预定尺寸的检测窗口以针对通过剪裁检测窗口中的图像而获得的各图案图像执行关于是否为物体(人体)的2级分类。在该分类中，通过使用AdaBoost算法有效地组合多个弱分类器来构成分类器，由此来提高分类精度。此外，串联分类器以构成级联型检测器。由HOG(Histogram of OrientedGradients，梯度方向直方图)特征量构成各弱分类器。然后，级联型检测器立即移除在使用前段的简单分类器明确为不是物体的图案的候补。然后，仅针对剩余的候补中的各个，使用后段的具有更高识别性能的复杂分类器来进行是否是物体的分类。

接下来，下面将参照图16描述步骤S307中的第二特征量提取处理(第二特征量提取单元209)的详情。该处理提取适合于通过前述第一背景物体区域选择处理从背景物体候补区域中选择的场景的类型的特征量。

首先，从图17例示的场景相关的特征量类型信息获取对应于当前指定场景的特征量类型(步骤S1601)。

接下来，从背景物体候补区域信息(图15)获取一个背景物体候补区域(其坐标)(步骤S1602)。从当前帧图像的背景物体候补区域提取特征量。在步骤S1603和S1605中分别检查是否指定了预定的特征量类型(特征量1、特征量2)。如果指定了特征量1(步骤S1603中“是”)，则在本示例中执行SIFT特征量提取处理(步骤S1604)。稍后描述SIFT特征量的详情。如果指定了特征量2(步骤S1605中“是”)，则在本示例中执行HOG特征量提取处理(步骤S1606)。稍后描述HOG特征量的详情。将提取的特征量作为特征量信息与背景物体ID相关联地临时存储在RAM103中(步骤S1607)。图18示出了示例。特征量数量是从背景物体ID的区域中提取的特征量的数量。特征量指针是特征量的存储目的地地址。能够从由特征量指针指示的地址中依次读出与特征量数量一样多的特征量。将特征量与提取特征量的坐标按照坐标和特征量的顺序一起存储。

在步骤S1608中确定是否针对所有背景物体候补区域完成了处理。如果仍有待处理的候补区域，则处理返回到步骤S1602以选择下一背景物体候补区域。

如果针对所有背景物体候补区域提取了特征量(步骤S1608中“是”)，则输出提取的特征量信息(步骤S1609)。

下面将使用接待室场景和自动门场景的示例更详细地描述上述一系列处理。

a.接待室场景：

在接待室中，由于典型的背景物体是椅子，因此期望使用能够很好地表现形状的特征量。由于椅子很可能被放置在帧中的各个位置处，因此期望使用不因放大/缩小以及面内旋转而改变的特征量。可以使用任意特征量，只要它们满足这种条件即可。在本实施例中，使用尺度不变特征变换法(scale invariant feature transformation，SIFT)。在步骤S1603中确定为是，并且执行SIFT特征量提取处理(步骤S1604)。

针对SIFT特征量的进一步详情，请参照文献[D.G.Lowe，″Objectrecognition from local scale-invariant features"，Proc.of IEEE InternationalConference on Computer Vision(ICCV)，pp.1150-1157，1999.]。下面将简单描述SIFT特征量。生成通过高斯(Gaussian)函数平滑过的并具有不同尺寸的多个图像，并且从它们的差分图像中检测极值。从作为该极值的点(下文中称为关键点)提取特征。判定关键点中的主导梯度方向，并参照该方向来设置用于提取特征量的高斯窗口以适合提取关键点的不同图像的尺寸。因此，提取的特征量不因面内旋转及尺寸而改变。因此，使用该特征量，即使当移动背景物体时距照相机的距离发生改变，或者物体的方向(面内旋转)发生改变，也能够使用相同的特征量来表现物体。由于每次发生这种改变时，不需要将新特征量登记在背景物体特征信息中，因此SIFT特征量适于接待室场景。特征量被划分为4×4块，并且由各块计算在八个方向上的直方图。因此，获得128维特征量。

b.自动门场景：

在人出入自动门的场景中，由于当打开自动门时出现的门框的形状是矩形，并且用作关键点的点的数量少，因此不能够充分提取SIFT特征量。由于仅在帧中的特定区域发生移动，因此尺寸是固定的。因此，不需要使用不因放大/缩小以及面内旋转而改变的特征量。因此，需要更适合本场景的特征量。作为很好地表现自动门形状的特征量，本实施例使用HOG特征量。当然，本发明不限于这种特定特征量。例如，可以提取轮廓线，并将其用作特征量。在步骤S1605中确定为是，并且执行HOG特征量提取处理(步骤S1606)。

针对HOG特征量的进一步详情，请参照文献[N.Dalal and B.Triggs，″Histogram of Gradients for Human Detection"，Computer Vision and PatternRecognition，Vo1.1，pp.886-893，2005.]。下面将简单描述HOG特征量。由输入图像计算梯度图像，并且将该梯度图像划分为块，各块包括2×2个单元，各单元包括8×8像素。在各单元中计算9个方向的边缘强度直方图。因此，从每个块中提取36维特征量。由于针对各边缘方向关注边缘强度，因此特征量适于表现门框等的形状。

下面将参照图19描述步骤S308中的第二背景物体区域选择处理(第二背景物体区域选择单元210)的详情。本处理将由第一背景物体区域选择处理选择的背景物体候补区域进一步缩小到背景物体的部分区域。

图20是用于说明该处理的处理结果的图。附图标记2001表示与图13中的区域1309相对应的背景物体候补区域。附图标记2002至2012表示由第二特征量提取处理提取特征量的点。在这些点中，从椅子提取点2002至2005，并且从人提取点2006至2012。诸如本示例的人、狗以及汽车等的物体是自主移动的物体(以下称为移动物体)，进出于视频，并且不是背景物体。因此，检测运动物体区域的单元从背景物体候补区域中移除运动物体区域。在本示例中，人体检测单元212计算人体区域2013，由此将特征量分类为作为真实背景物体的椅子的特征量以及人体区域中的特征量。更具体地，对各特征量赋予权重，使得针对背景物体的特征量(2002至2005)的权重大于针对人的特征量(2006至2012)的权重。即，如果特征量被包括在背景物体中的可能性越高，则针对各特征量的权重取更大的值。第二背景物体区域选择处理输出具有以这种方式决定的权重的特征量。下面将详细描述该处理。

从规则存储单元211，参照与由用户指定的场景ID相对应的第二场景相关的背景物体区域选择规则(步骤S1901)。

下面将参照图21详细描述通过第二背景物体区域选择处理参照的第二场景相关的背景物体区域选择规则。

第二场景相关的背景物体区域选择规则中的各规则包括场景ID、确定条件(确定条件数量、确定条件起始指针)以及参数(参数数量、参数起始指针)。场景ID如上所述。

各确定条件用于将通过第一背景物体区域选择处理选择的各背景物体区域区分为背景物体和其他物体。例如，确定条件包括用于确定是否包括人体并且如果包括人体则哪个区域包括人体的条件(条件21)，以及用于确定物体是进行平行移动还是面内旋转的条件(条件22)等。包括与确定条件数量中所描述的数量一样多的确定条件，并且能够从由确定条件起始指针指示的地址依次读出并获取确定条件。

接下来，在生成背景物体特征信息时使用的特征量的权重被赋予特征量信息(图18)的所有特征量，从而获得加权的特征量信息(图22中例示)(步骤S1902)。权重取范围从0到1的值，并且越接近1则表示特征量包括在背景物体中的程度越高。在该步骤中，初始值为1。

获取从第二场景相关的背景物体区域选择规则(图21)中获取的一个确定条件(步骤S1903)。

在步骤S1904和S1907中分别检查是否指定了预定的确定条件21和22。如果指定了确定条件21(步骤S1905中“是”)，则在本示例中执行人体区域检测处理(步骤S1906)。如果指定了确定条件22(步骤S1907中“是”)，则在本示例中执行平行移动/面内旋转确定处理(步骤S1908)(稍后描述详情)。作为确定的结果，减小针对包括在被选择为不包括在背景物体中的区域中的特征量的权重。根据待处理的背景物体ID，从加权特征量信息(图22)基于选择区域的坐标参照相应的特征量。减小特征量的权重(例如，通过减去固定量)(步骤S1909)。

在步骤S1910中确定是否针对所有背景物体候补区域完成了处理。如果仍有待处理的背景物体候补区域，则处理返回到步骤S1904以选择下一背景物体候补区域。

如果确定针对所有背景物体候补区域完成了用于确定是否满足规则中指定的确定条件的处理(步骤S1910中“是”)，则确定是否针对规则中指定的所有确定条件完成了确定(步骤S1911)。如果尚未完成确定，则控制返回到步骤S1903以选择下一确定条件；否则，处理进行到步骤S1912。然后，输出具有基于确定条件而决定的权重作为属性的加权特征量信息(图22)(步骤S1912)。

下面将使用接待室场景与自动门场景的示例来详细描述上述一系列处理。

a.接待室场景：

第一背景物体区域选择单元选择具有更长持续时间的物体区域作为背景物体候补区域。由于人经常在接待室站立一会儿，因此人区域可能包括在这种背景物体候补区域中(图20示出了该示例)。因此，“21”被指定作为背景物体区域选择规则的确定条件。在步骤S1905中确定为是，并且人体检测单元212针对作为当前处理对象的背景物体候补区域执行人体检测处理(步骤S1906)。然后，当检测到人体区域时，在步骤S1909中减小人体区域中的特征量的权重(例如，通过减去固定量)。如果能够输出人体检测单元的检测结果的可信度，则可以与该可信度反比例地决定权重。

另一方面，作为接待室中的典型背景物体的椅子经常被人平行移动或旋转。当在同一位置(面外)旋转椅子时，出现椅子的新特征。然而，由于新特征是背景物体自身的特征，因此它们当然需要被登记作为背景物体特征信息。然而，当平行移动椅子时，由于隐藏在椅子后面的背景的一部分区域(下文中称为部分背景)产生了与背景模型的差分，因此不期望将该区域包括在背景物体候补区域中。图23示出了示例。在图23中，附图标记2301表示在该物体检测装置的启动定时输入的帧图像，并且在包括椅子2302的同时生成背景模型。附图标记2303表示检测结果，并且此时显然什么都未检测到。从人平行移动椅子2302起经过了一定时间段之后的状态对应于由附图标记2304表示的帧图像。向右平行移动椅子2302。然后，隐藏在椅子2302后面的墙壁图案2305出现。由于在椅子2302位于帧图像2301中的位置的状态下生成背景模型，所以也由在帧图像2304的定时作为椅子2302的移动结果而出现的区域生成差分。附图标记2306表示背景差分结果。阴影矩形区域2307表示被检测为物体的区域。区域2307中用粗黑框包围的矩形区域2308是不以椅子作为背景物体的部分背景区域。通过从物体区域2307提取特征量，由于部分背景区域2308中包括图案2305，因此也从该区域中提取特征量。

因此，除“21”外，“22”也被指定为背景物体区域选择规则的确定条件。在确定条件21的处理之后，在步骤S1907中确定为是，并且移动确定单元214针对作为当前处理对象的背景物体候补区域执行平行移动/面外旋转确定处理(步骤S1908)。

下面将参照图24描述步骤S1908中的平行移动/面外旋转确定处理的详情。

从帧图像存储单元215获取先前的帧图像(步骤S2401)。要获取的先前的帧图像可以是在移动物体(图23中的椅子2302)之前的帧图像。例如，可以使用选择足够长的固定时间段之前的帧图像的方法。如果将物体区域信息与帧图像相关联地存储，则也可以使用下面的方法。即，通过参照先前的物体区域信息，能够找到在在检测到物体的当前帧的区域中开始检测物体之前的定时的帧图像。可选地，可以基于背景模型重构图像。例如，如果由DCT系数表现背景模型，则执行逆DCT变换以将背景模型转换为由RGB值表现的图像。

接下来，从与作为获取的先前帧中的当前处理对象的物体区域(图23中的区域2307)相同的区域中，获取与当前场景ID相对应的类型的特征量(步骤S2402)。在该实施例中，获取SIFT特征量。

接下来，比较从先前帧图像以及当前帧图像的物体区域中获取的特征量(步骤S2403)，并且确定两个物体区域中包括的背景物体(图23中的2302)是否匹配(步骤S2404)。

更具体地，例如，已知在文献[Yu Nakagawa，Tomokazu Takahashi，Yoshito Mekada，Ichiro Ide，and Hiroshi Murase，″Landmark symboldetection in real environment by multi-template generation，″Proceedings of Dynamic Image Processing for Real Applicationworkshop(DIA2008)，pp.259-264]中公开的方法。基于特征量之间的欧几里得距离(Euclidean distance)决定两个帧图像中的物体区域中的特征量的点(提取了特征量的坐标)之间的对应关系。如果能够在包括当前帧图像的物体区域中的相应特征量以及先前帧图像的物体区域中的相应特征量的多个特征量的点之间计算出适当的投影变换矩阵，则确定维持了相似的位置关系。因此，能够确定包括相应特征量的当前帧和先前帧中的背景物体(图23中的2302)匹配。

如果两个背景物体匹配，则认为背景物体(图23中的2302)被平行移动。此时，输出非对应特征量(从图23中的部分背景区域2308提取的)(步骤S2405)。如果两个背景物体不匹配，则认为由于背景物体的面外旋转而出现了新特征量。此时，认为包括在作为当前对象的物体区域中的所有特征量构成背景物体。

在上述处理之后，基于当前要处理的背景物体ID以及输出特征量的坐标，减小加权特征量信息中的非对应特征量的权重(例如减去固定量)(步骤S1909)。

b.自动门场景：

第一背景物体区域选择单元选择包括人的所有物体区域作为背景物体候补区域。然而，当然，这些区域中的人体区域不是背景物体区域。因此，使用人体检测单元212检测为人体的区域不可能是背景物体区域。因此，基于当前待处理的背景物体ID以及人体检测结果区域的坐标，减小与加权特征量信息中的人体检测结果区域的内部相对应的特征量的权重(例如减去固定量)。如果能够输出人体检测单元的检测结果的可信度，则可以与该可信度成反比例地决定权重。

下面参照图25说明步骤S309中的背景物体特征信息登记处理的详情。

从加权特征量信息(图22)获取包括在一个背景物体中的特征量(步骤S2501)。

接下来，统计量生成单元216根据特征量生成直方图(步骤S2502)。这已知为文献[J.Sivic and A.Zisserman，Video google：A text retrievalapproach to object matching in videos，In Proc.ICCV，2003.]等中的“Bag ofwords”。假定由下面的处理预先决定直方图的柱(bin)。在特征量空间中通过使用平均数(K-means)法的矢量量化将从各种视频中获取的特征量聚合为预定数量(k)。下文中各聚合单元被称为柱。通过生成直方图，提取特征量的位置的信息丢失，但是由照明变化、面外旋转等引起的特征量的改变能够被吸收。

请注意，在计算直方图时，考虑到由第二选择单元210计算的权重，并且使用乘以权重的值。因此，越可能包括在背景物体区域中的特征量越更大程度地反映到该直方图(背景物体特征直方图)中。

检查是否针对包括在所有背景物体中的所有特征量生成了背景物体特征直方图(步骤S2503)。如果在步骤S2503中为否，则控制返回到步骤S2501以重复背景物体特征直方图的生成(步骤S2502)。在该实施例中，由包括在所有背景物体候补中的所有特征量生成一个背景物体特征直方图。

使用乘以权重的特征量的总数来归一化生成的背景物体特征直方图(步骤S2504)。这是因为依赖于背景物体的数量、面外旋转方向等，在检测到的背景物体候补区域中的特征量的数量不是常数。

归一化的背景物体特征直方图被作为背景物体特征信息登记在背景物体存储单元218中(步骤S2505)。当已经存储了背景物体特征信息时，通过将各柱的频率值的总和除以2来合并两条信息。以这种方式，由在登记阶段中检测到的所有背景物体候补生成该物体检测装置的安装环境(场景)中的背景物体特征信息。

由于在登记阶段期间频繁移动各背景物体，因此观察(检测)到所有可能的改变。通过基于这些改变生成一个模型，能够生成当前场景特有的背景模型。

根据上述方法，能够从曾经检测到的物体区域中选择背景物体区域。此外，通过根据从所有选择的区域中提取的特征量计算直方图，能够生成受背景物体的改变影响较小的背景物体特征信息。

[操作阶段]

下面参照图26描述本实施例的针对一个帧图像的操作阶段的处理序列。与图3相同的步骤编号表示与在登记阶段中的步骤相同的步骤S301至S305，并且因此将不重复对其描述。

在步骤S305的处理之后，从规则存储单元211中的场景相关的特征量类型信息(图17)提取与当前场景相对应的特征量类型(步骤S2601)。接下来，从物体区域信息(图11)获取一个物体区域(其坐标)(步骤S2602)。然后，第二特征量提取单元209以与登记阶段的步骤S307中相同的方式，基于获取的物体区域从输入帧图像的相应区域提取与特征量类型相对应的特征量(步骤S2603)。接下来，基于提取的特征量计算直方图，由此如同登记阶段的步骤S2502一样，生成背景物体特征直方图(步骤S2604)。接下来，背景物体识别单元219将从当前待处理的物体区域中获取的背景物体特征直方图与背景物体特征信息进行比较(步骤S2605)，由此确定物体区域是否包括背景物体(步骤S2606)。

为实现该确定步骤，使用在文献[M.J.Swain and D.H.Ballard：ColorIndexing，International Journal of Computer Vision，Vo1.7，No.1，pp.11-32(1991)]中公开的直方图交叉作为相似度。通过比较两个直方图的相应柱并计算最小值的总和来计算直方图交叉。比较相似度与预定阈值，如果相似度高于阈值，则确定背景物体。

如果在步骤S2606中确定了背景物体，则将相应区域通知给背景模型更新单元205。然后，背景模型存储单元204中的背景模型的相应区域被添加作为背景。在本实施例中，由于基于持续时间来确定背景和前景(物体)，所以包括在背景模型的相应区域中的像素的创建时间被改变为从当前时间回溯了背景变换时间的阈值的时间。改变背景模型(图5)的相应区域中包括的坐标的激活标记＝1的状态的创建时间。因此，由于相应区域不再被检测为物体，因此背景物体不再被错误地检测。

检查是否针对所有检测到的物体区域都完成了步骤S2602至S2607中的处理(步骤S2608)。如果仍有待处理的区域，则处理返回到步骤S2602；否则，处理结束，以选择下一待处理的帧图像。

根据上述实施例，即使暂时错误地检测到物体，如果它是背景物体，该物体就能够被作为背景处理，由此抑制了检测错误。换言之，能够将物体区分为最初包括在背景中的背景物体和新引入的物体的同时对物体进行处理。

[其他实施例]

基于自视频中提取的特征量出现在视频中起的持续时间来执行实施例中的背景差分法。然而，本发明不限于该方法，并且可以使用其他各种方法。例如，在初始化定时的输入帧图像被原样用作背景模型，并且与随后输入的帧图像比较以将生成不小于预定值的差分的像素确定为物体。然而，在该情况下，生成上述接待室场景中的背景物体特征信息需要计算物体的持续时间的单元。可以通过进一步包括追踪单元来实现该单元，该追踪单元基于在帧之间检测到的物体区域位置、特征量等来计算关联。

在实施例中，背景物体特征直方图被用作背景物体特征信息。然而，本发明不限于此。例如，也可以从输入图像提取背景物体区域，并且按原样使用像素数据。

在实施例中，由第一选择单元208和第二选择单元210选择背景物体区域。然而，用户可以做出选择。例如，可用下面的方法。首先，使用显示设备107显示输入帧图像，并且用户经由输入设备106指定背景物体区域。可选地，使用显示设备107暂时显示由第一选择单元208和第二选择单元210选择的背景物体区域。用户经由输入设备106校正显示的背景物体区域。统计量生成单元216可以从通过上述方法获得的背景物体区域生成背景物体特征直方图。

在实施例中，被背景物体识别单元219确定为背景物体的区域被输出到背景模型更新单元205，背景模型更新单元205将该区域登记在背景模型中。因此，抑制了后面的检测错误。然而，被确定为背景物体的区域可以被输出到物体检测区域输出单元207，物体检测区域输出单元207可以从物体区域信息(图9)中删除该区域，从而抑制来自物体检测装置的检测错误输出。

在图1中，各设备经由总线109连接。可选地，一些设备也可以经由网络I/F108连接。例如，图像输入设备可以经由网络I/F108连接。可选地，所有单元可以被存储在集成电路芯片中，并且可以与图像输入设备105集成。

本发明的各方面还能够通过读出并执行记录在存储设备上的程序来执行上述实施例的功能的系统或装置的计算机(或诸如CPU或MPU等的设备)来实现，并能够利用由通过例如读出并执行记录在存储设备上的程序来执行上述实施例的功能的系统或装置的计算机来执行各步骤的方法来实现。为此，例如经由网络或从用作存储设备的各种类型的记录介质(例如，计算机可读介质)将程序提供给计算机。虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明不局限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以使所述范围涵盖所有的此类变型例以及等同结构和功能。

Claims

1.一种物体检测装置，该物体检测装置包括：

视频输入单元，其被配置为输入视频的帧；

物体区域检测单元，其被配置为通过比较输入的帧的特征量与背景模型中由背景信息表现的所述帧中的至少一个背景的特征量，来检测至少一个物体区域；

选择单元，其被配置为通过使用背景物体要满足的至少一个第一条件，从所检测到的至少一个物体区域中选择包括最初包括在所述背景中的背景物体的背景物体区域；

识别单元，其被配置为通过使用不包括所述背景物体的区域要满足的至少一个第二条件，在与所述背景物体相对应的部分和所述背景物体区域中除了所述背景物体之外的部分之间进行识别；

生成单元，其被配置为基于所述背景物体区域的特征量以及所述识别单元的识别结果，生成表现所述背景物体的特征量的背景物体特征信息；以及

添加单元，其被配置为将所述背景物体特征信息添加到所述背景模型，从而使所述物体区域检测单元对来自随后的帧的物体区域不检测背景物体。

2.根据权利要求1所述的物体检测装置，其中，所述背景物体特征信息是基于从所述背景物体区域提取的特征量的统计量。

3.根据权利要求2所述的物体检测装置，其中，所述特征量是根据要适用的场景的特征量。

4.根据权利要求1所述的物体检测装置，其中，所述第一条件中的一个是基于从所述物体区域出现在视频中开始的持续时间。

5.根据权利要求1所述的物体检测装置，所述物体检测装置还包括被配置为从所述背景物体区域检测运动物体的运动物体检测单元，

其中，所述第二条件中的一个将由所述运动物体检测单元检测到的运动物体区域视为不包括所述背景物体的区域。

6.根据权利要求1所述的物体检测装置，所述物体检测装置还包括平移/旋转确定单元，其被配置为确定所述物体区域被检测作为物体的平行移动的结果还是被检测作为物体的面外旋转的结果，

其中，在所述平移/旋转确定单元确定所述物体区域被检测作为平行移动的结果的情况下，所述第二条件中的一个将所述物体区域视为作为平行移动的结果而出现的部分背景区域。

7.根据权利要求1所述的物体检测装置，其中，所述添加单元包括被配置为基于确定结果更新所述背景模型的单元。

8.一种控制物体检测装置的控制方法，该物体检测装置包括被配置为输入视频的帧的视频输入单元，所述控制方法包括：

物体区域检测步骤，通过比较来自所述视频输入单元输入的帧的特征量与背景模型中由背景信息表现的所述帧中的至少一个背景的特征量，来检测至少一个物体区域；

选择步骤，通过使用背景物体要满足的至少一个第一条件，从所检测到的至少一个物体区域中选择包括最初包括在所述背景中的背景物体的背景物体区域；

识别步骤，通过使用不包括所述背景物体的区域要满足的至少一个第二条件，在与所述背景物体相对应的部分和所述背景物体区域中除了所述背景物体之外的部分之间进行识别；

生成步骤，基于所述背景物体区域的特征量以及在所述识别步骤中的识别结果，生成表现所述背景物体的特征量的背景物体特征信息；以及

添加步骤，将所述背景物体特征信息添加到所述背景模型，从而使所述物体区域检测步骤对来自随后的帧的物体区域不检测背景物体。