CN100550055C

CN100550055C - 检测视频的图像时间序列中的活动对象的方法

Info

Publication number: CN100550055C
Application number: CNB2004800005442A
Authority: CN
Inventors: 保罗·A·维奥拉; 迈克·J·琼斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-06-17
Filing date: 2004-05-31
Publication date: 2009-10-14
Anticipated expiration: 2024-05-31
Also published as: EP1634244A1; US20040258307A1; JP2006527881A; WO2004114219A1; JP4575374B2; CN1698069A; EP1634244B1; US7212651B2

Abstract

一种方法检测图像时间序列中的活动对象。从时间排序的图像序列中选择图像。对所选图像应用一组功能，以产生一组组合图像。对组合图像组中的检测窗应用过滤器的线性组合，以确定检测窗的动作和外观特征。总计动作和外观特征，以确定累积分，这使得可以将检测窗分类为含有活动对象的检测窗。

Description

检测视频的图像时间序列中的活动对象的方法

技术领域

本发明一般涉及计算机视觉和模式识别，尤其涉及检测视频中的诸如行人之类的活动对象。

背景技术

为了检测和识别图像中的对象，模式识别方法在计算机视觉领域中已取得了重大的成就，实例包括面部、机动车和行人检测，可以参见例如：Avidan，“Support vector tracking，”IEEE Conference onComputer Vision and Pattern Recognition，2001；Papageorgiou et al.，“A general framework for object detection，”International Conferenceon Computer Vision，1998；Rowley et al.，“Neural network-based facedetection，”IEEE Patt.Anal.Mach.Intell.，Volume 20，pages 22-38，1998；Schneiderman et al.，“A statistical method for 3D objectdetection applied to faces and cars，”International Conference onComputer Vision，2000；和Viola et al.“Rapid object detection using aboosted cascade of simple features，”IEEE Conference on ComputerVision and Pattern Recognition，2001。

这些方法一般利用机器学习能力，以根据大量的训练图像构造检测器或过滤器。然后在输入图像上用过滤器进行扫描，以便找出特征的模式，这种模式与目标对象相符。那些系统对于面部检测运行得很好，但对行人检测却运行得不太好，这可能是因为，由于身体姿势和服装的变化而使行人的图像变化较大，而面部在纹理和构造方面相当统一并且相对来说动作很少。因此，需要提供一种方法，能对时间排序的图像序列以及对单个静态图像起作用。

在监视应用中，行人检测甚至更为困难，在这些应用中，图像分辨率相对较低，例如，目标对象可能只有总共约100-200个像素，例如5×20或10×20个像素。尽管利用更好的“图像强度”的功能进行行人检测的改进是一项很有价值的工作，然而，还是需要一种新的解决办法。

众所周知，人体动作的模式(尤其像步行动作那样的摆动)与其他类型的动作不同，并且，动作可以用来识别和检测人，参见：Cutleret al.，“Robust real-time periodic motion detection：Analysis andapplications，”IEEE Patt.Anal.Mach.Intell.，Volume 22，pages781-796，2000；Lee，“Gait dynamics for recognition andclassification，”MIT AI Lab.，Memo，AIM-2001-019，MIT，2001；Liu etal.，“Finding periodicity in space and time，”IEEE InternationalConference on Computer Vision，pages 376-383，1998；和Polana et al.，“Detecting activities，”Journal of Visual Communication and ImageRepresentation，June 1994。

与基于强度的方法相比，这些方法一般设法通过许多帧来跟踪活动对象，然后分析其动作以寻找周期性或其他提示。检测动作“式样”的过程是十分有效的，并且可以按多标度分辨率对整个图像进行彻底的搜索。当用图像的大量数据组进行训练后，这些过程可以达到高检测率和很低的误肯定率(false positive rate)。

人体动作分析领域很广，其历史可以追溯到Hoffman等人的工作：“The interpretation of biological motion，”Biological Cybernetics，pages 195-204，1982。大多数现有技术的系统都认为一半问题已经解决，即已经检测了特定类型的活动对象(例如人)，剩余的问题只是要识别、分类或分析该特定活动对象的动作的长期模式。

近来，人们对基于动作的方法越来越感兴趣，因为这些方法可能应用到监视问题中。上述Cutler等人对该领域中的相关工作作了很好的综述。他们描述了一种直接对图像起作用的系统。他们的系统首先是要进行对象的分割和跟踪。将这些对象对准对象的重心。然后，构造一种2D格子，对其进行周期分析。

对象检测领域同样很广，尽管还不了解同时能利用强度和动作信息进行直接行人检测的系统。在静态强度图像中，已利用一组例子通过先提取边缘再匹配边缘来检测行人，参见：Gavrila et al.，“Real-timeobject detection for“smart”vehicles，”IEEE International Conferenceon Computer Vision，pages 87-93，1999。他们的系统是一种高度优化的系统，并且似乎已成为机动车中的内装候选系统。然而，在每一图像误肯定率为2的情况下，所公布的检测率约为75％。其他相关工作包括上述Papageorgiou等人的工作。该系统利用基于过完全小波训练的支持矢量机来检测行人。根据所公布的实验数据，这种系统的误肯定率大大高于相关面部检测系统的误肯定率。

因此，需要根据图像时间序列直接提取动作的短期模式和外观信息，以便检测诸如行人之类的活动对象的情况。

发明内容

本发明提供了一种通过同时综合图像强度和动作信息来检测特定类型的活动对象的系统。通过一组组合图像对一组过滤器进行扫描。例如，过滤器是矩形的，并通过对视频中的连续图像应用某些功能来获得组合图像。过滤器的扫描产生一些特征值。总计这些特征并进行分类。

训练分类器，以便利用特定类型的对象(比如行人)的动作和外观信息。过去的某些方法根据动作信息构成一些检测器。其他检测器基于外观信息。然而，本发明则在单个检测器中综合了动作和外观信息。

附图说明

图1是一种根据本发明用于检测活动对象的方法的流程图；

图2A是本发明所用的矩形过滤器的框图；

图2B是本发明所用的矩形过滤器的框图；

图2C是本发明所用的矩形过滤器的框图；

图2D是本发明所用的矩形过滤器的框图；

图2E是本发明所用的矩形过滤器的框图；

图2F是本发明所用的矩形过滤器的框图；

图3A是本发明所用的组合图像的框图；

图3B是本发明所用的组合图像的框图；

图3C是本发明所用的组合图像的框图；

图3D是本发明所用的组合图像的框图；

图3E是本发明所用的组合图像的框图；

图3F是本发明所用的组合图像的框图；

图3G是本发明所用的组合图像的框图；和

图3H是本发明所用的组合图像的框图。

具体实施方式

图1示出了一种用于检测时间排序的图像序列101(即视频)中的活动对象105(例如行人)的方法100。所选图像111从输入视频101中得到，例如相邻对、重叠对、每间隔两个的图像等。功能102应用120于所选图像111，以产生组合图像组121。将组合图像分割成不同尺寸的检测窗或“碎块”，例如，整个图像4个窗口(每个为图像的1/4)，等等。通过组合图像组的检测窗对过滤器200进行扫描和评估，以确定130一些特征131，将这些特征总计140到累积分C 141中。对累积分进行分类150，以判断特定检测窗是否真的含有特定类型的活动对象，例如行人105。针对所有组合图像的所有检测窗重复151这一过程，然后针对视频101中的所有图像重复152这一过程。

过滤器、特征和分类器

如图2A-2F中所示，我们的动态行人检测器采用了Viola等人于2002年7月22日所申请的美国专利申请系列号10/200,726“ObjectRecognition System”中所述的矩形过滤器200，该申请在此作为参考。

图2F示出了相对于封闭检测窗201(本例组合图像202中有8个检测窗)的矩形过滤器200。应当注意，有几万种其他简单的矩形过滤器结构可以使用。这些过滤器可具有不同的尺寸，以便与检测窗的尺寸匹配。对于两个矩形过滤器情况，可从将阴影矩形中的像素的强度总和减去无阴影矩形中的像素的强度总和。对于三个矩形过滤器情况，可将无阴影矩形中的像素的总和乘以2，以计算出阴影像素的两倍，依次类推。利用根据本发明的过滤器，还可以使用其他组合功能。我们优先选择我们的过滤器的简单操作，因为这些过滤器与现有技术的更复杂的过滤器相比评估起来很快。

Viola等人使用了矩形过滤器，用于检测单个图像中的静态面部。我们以两种方式延伸了将他们的工作。第一，我们还使用了其内部构成是对角线排列的矩形过滤器，参见图2E。对角线过滤器其优点是适合于检测象腿部动作那样的摆动。此外，对角线过滤器对不同取向的对象也敏感。对角线的角度可以由过滤器内的组成矩形的纵横比来控制。第二，我们将过滤器应用于时间移位图像的组合，如下所述。取决于其设计，这些矩形过滤器可以按不同比例、取向和纵横比非常快地进行评估，以测量区域平均值。尽管这些过滤器好像有些限制，然而，显然它们提供了一些便于对特定活动对象(比如行人)进行精确检测的有用信息。

形式上，我们的过滤器、特征和分类器的操作定义如下(其他细节参见Viola等人的描述)。图像特征h_i(x)按

被赋予权重α_j或β_j，其中，过滤器f_j(x)是图像x(即检测窗)的线性函数，而θ_j是预定过滤器阈值。累积和C(x)按

被赋予值1或0，其中，h_i是图像x的多个特征，而T是预定分类器阈值。同时考虑外观和动作的定义如下所述。

在现有技术中，动作信息按不同方式(包括光流量和块动作估算)从图像对中提取。块动作估算需要比较窗的规格，这决定了估算的比例。这与多比例对象检测完全不兼容。在对象检测情况下，光流量估算通常很耗时，因为每一像素都需要上百或上千条操作。我们要求更快一些。

尽管已利用矩形过滤器确定分类器的特征值描述了本发明，然而，应当理解还可以使用其他类型的过滤器。例如，可以用其他线性或非线性过滤器(比如盖博过滤器或高斯过滤器)来代替矩形过滤器。矩形过滤器的优点在于，它们从计算角度上讲评估起来很有效。然而，其他类型的过滤器有可能捕捉到更复杂的动作和外观信息，因此也可能有其优点，参见：Daugman，“Uncertainty Relation for Resolution inSpace，Spatial Frequency，and Orientation Optimized byTwo-Dimensional Visual Cortical Filters，”J.Opt.Soc.Am.A，vol 2，no 7，pp 1160-1169，July 1985。

组合图像

因此，如图3A-3H中所示，我们的特征不同于Viola等人所述的那些特征，是对组合图像组121进行操作。可以通过对所选图像111应用不同的功能102来确定组合图像组。例如，所选图像组包括连续图像对、不相交图像对或重叠图像对。此外，这个组还可以包括预定时间段上的每间隔9个的图像，或者这个组还可以包括三个一组的图像。在所选图像111中还可能采用其他组合和时间排序。

功能102在应用于所选图像111时，得到一个“组合”图像。例如，该功能可以只选择该组中的一个图像，如图3A。这一功能可以彼此减去该组中的所选图像。在这种情况下，这样的组合图像称之为差或Δ图像，如图3B。组合图像中差的绝对值的和为非零的区域(例如沿对象边缘)相应于动作。如下所述，还可以确定动作的幅度和方向。

可以通过对所选图像111应用其他功能102来确定动作的方向。例如，该功能在做差操作之前可以对组中的图像进行“移位”。这种移位可以是线性的、旋转的、按比例的或它们的组合，以检测例如实质上在图像平面中的线性运动、环形运动或实质上与图像平面垂直的运动。图3C和3D示出了上(U)和下(D)移位的图像，图3E和3F示出了左(L)和右(R)移位的图像，图3G示出了旋转

的图像，而图3H示出了按比例(s)的移位。这组功能可表示为：

a.I＝I_t|I_t+1

Δ＝abs(I_t-I_t+1)，

U＝abs(I_tI_t+1↑)，

D＝abs(I_t-I_t+1↓)，

L＝abs(I_t-I_t+1←)，

R＝abs(I_t-I_t+1→)，

s＝abs(I_t-I_t1s)，

其中，I_t和I_t+1是随着时间的图像，另外，箭头表示线性移位操作，

是旋转，而s表示按比例。移位可以是一个或多个像素。应当注意，其他差及其他移位操作也是可能的，只是上述例子针对我们的用途来说计算起来简单快捷而已。

一种动作特征根据f_i＝r_i(Δ)-r_i(S)对差图像Δ与集合{U，L，R，D，

s}中的一个或多个移位图像之间的绝对差值的和进行比较，其中，S是{U，L，R，D，s}之一，r_i是检测窗内的和。这些特征提取出与特定区域正以给定方向移动的可能性相关的信息。

另一种动作特征根据f_j＝φ_j(S)对同一图像内的和进行比较，其中，φ_j是像图2A-2F中所示的例子那样的过滤器。这些特征近似于测量动作修剪。

另一种动作特征按照f_k＝r_k(S)测量运动图像之一的动作幅度。

动作幅度还可以由组中的图像之间的时间差来确定。

我们还可以利用外观特征，这些特征使用根据f_m＝φ(I_t)对组中单个图像进行操作的过滤器。

应当注意，一旦在图像的某一区域中检测到活动对象，就有可能跟踪后续图像中的对象，以便更好地理解动作的幅度和方向。由于活动对象的位置是知道的，因此，只需要评估少部分后续图像，这可以以快得多的帧速率来完成。

这些动作特征以及外观信息可以利用功能{I_t，Δ，U，D，L，R，

s}中的“综合图像”进行快速评估。由于过滤器可以具有任何尺寸、纵横比或取向，因此，只要它们符合检测窗，就有很多种可能的动作和外观特征。过滤器还可以按不同的尺寸来定标。所有这些都可以存储在缓存器中以便快速处理。在训练期间，可以选择最能区分肯定例子与否定例子的特征。

动作特性131 F_j为而累积分141为

图像锥

为了支持多比例检测，功能102{↑，↓，←，→，

s}根据检测比例来定义。这就可以保证按比例不变的方式来测量动作速率。比例不变性可以在训练期间通过按基本分辨率20×15像素定标训练图像来取得。检测的比例不变性通过对图像锥进行操作来取得。最初，计算I_t和I_t+1的锥。{Δ，U，D，L，R，

s}的锥表示计算如下：

Δ^l＝abs(I^l _t-I^l _t+1)，

U^l＝abs(I^l _t-I^l _t+1↑)，

D^l＝abs(I^l _t-I^l _t+1↓)，

L^l＝abs(I^l _t-I^l _t+1←)，

R^l＝abs(I^l _t-I^l _t+1→)，

和

s^l＝abs(I^l _t-I^l _t+1s)，

其中，X^I是指锥的第l级。从定标为20×15训练图像学习到的分类器和特征按比例不变的方式对锥的每一级进行操作。

训练

训练过程利用Adaboost来选择特征子集并构造分类器。Adaboost提供了一种有效学习算法和通用性能的强界限，参见：Freund ea al.，“A decision-theoretic generalization of on-line learning andapplication to boosting，”Computational Learning Theory，Eurocolt’95，pages 23-37.，Springer-Verlag，1995；Schapire et al.，“Boosting the margin：A new explanation for the effectiveness ofvoting methods，”Proceedings of the Fourteenth InternationalConference on Machine Learning，1997；和Tieu et al.，“Boostingimage retrieval，”International Conference on Computer Vision，2000。

发明的效果

本发明提供了一种用于检测视频序列中的活动对象的方法。该方法利用了矩形过滤器，通过组合图像对这种过滤器进行扫描以确定组合图像的特征。总计这些特征，以检测诸如行人之类的特定活动对象。

尽管本发明利用几例优选实施方式进行了描述，然而，应当理解，在本发明的思想和范围内可以作出其他不同的变动和修改。因此，附属权利要求书的目的在于，覆盖本发明的真实思想和范围内的所有这些变化和修改。

Claims

1.一种用于检测视频的图像时间序列中的活动对象的方法，包括：

选择步骤，用于从时间排序的图像序列中选择图像；

应用步骤，用于对所选图像应用一组功能，以产生一组组合图像，其中，所述一组功能根据检测窗的比例来定义；

评估步骤，用于在所述一组组合图像中的检测窗上评估过滤器的线性组合，以确定该检测窗的动作和外观特征，其中，所述动作和外观特征h_j按

被评估为权重α_j或β_j，其中，所述过滤器f_j(x)是检测窗x的线性函数，而θ_j是预定过滤器阈值；

总计步骤，用于总计所述动作和外观特征，以确定累积分；和

分类步骤，用于当该累积分大于预定阈值时，将该检测窗分类为含有活动对象的检测窗。

2.权利要求1的方法，其中，活动对象是行人。

3.权利要求1的方法，其中，所选图像是一对相邻的图像。

4.权利要求1的方法，其中，针对整个视频重复进行所述选择、应用、评估、总计和分类步骤。

5.权利要求1的方法，还包括：

将每一组合图像分割成一组检测窗；和

针对每一检测窗重复进行所述评估、总计和分类步骤。

6.权利要求1的方法，其中，所述过滤器的内部部件是矩形的并且是以对角线排列的。

7.权利要求6的方法，其中，使每一矩形过滤器的尺寸与相关的检测窗匹配。

8.权利要求1的方法，其中，特定累积和C(x)按

彼赋予值1或0，其中，h_j是检测窗x的多个经评估的所述动作和外观特征，而T是预定分类器阈值。

9.权利要求1的方法，其中，所述组合图像是所选图像的差。

10.权利要求1的方法，其中，所述组合图像是移位的所选图像的差。

11.权利要求10的方法，其中，移位是线性的。

12.权利要求10的方法，其中，移位是旋转的。

13.权利要求10的方法，其中，移位是按比例的。

14.权利要求1的方法，还包括：

确定活动对象的动作方向。

15.权利要求1的方法，还包括：

确定活动对象的动作幅度。

16.权利要求1的方法，其中，过滤器是矩形过滤器。

17.权利要求1的方法，其中，过滤器是线性的。

18.权利要求1的方法，其中，过滤器是非线性的。