CN1711560A

CN1711560A - 通过图像中固有的时变信息来分类对象

Info

Publication number: CN1711560A
Application number: CNA2003801033820A
Authority: CN
Inventors: S·古特塔; V·菲洛明; M·特拉科维
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-11-15
Filing date: 2003-10-24
Publication date: 2005-12-21
Also published as: US20050259865A1; AU2003274454A1; EP1563461A2; WO2004047027A2; JP2006506724A; KR20050086559A; WO2004047027A3

Abstract

提供一种用于对场景中的对象进行分类的方法，该方法包括：捕获场景的视频数据；定位视频数据的视频帧序列中的至少一个对象；将视频帧序列中至少一个定位的对象输入进时延神经网络中；以及基于时延神经网络的结果对该至少一个对象分类。

Description

通过图像中固有的时变信息来分类对象

本发明通常涉及计算机视觉，更具体而言，涉及通过图像中固有的时变信息来分类对象。

通常，现有技术的识别和分类系统对静态或动态图像分别进行对象识别和分类。出于内容公开目的，对象分类将包括对象识别和/或分类。因此，现有技术的分类系统作用于处于视频序列中的静态图像或帧，以便对其中的对象进行分类。这些本领域已知的分类系统不采用视频图像中固有的时变信息，相反，它们试图通过每次识别一个帧上的对象来分类对象。

尽管这些分类系统具有它们的优点，但是它们具有下列缺点：

(a)因为对每个帧独立地执行分类，所以丢失了跨越各帧的对象之间的任何联系；

(b)由于因为独立对待每个帧，所以不再维持跨越各帧的象素相关性，从而分类系统的总体性能不再健壮；

(c)由于图像中固有的噪声和照明度的变化，导致它们显示不出适度的衰减。

在第29届Asilomar关于信号、系统和计算机的会议(AsilomarConference on Signals，Systems and Computers)上，Bruton等人的“Onthe Classification of Moving Objects in Image Sequences Using 3DAdaptive Recursive Tracking Fillters and Neural Networks”，已将通过繁忙十字路口的车辆轨迹分类。具体而言，该文章特别关注分类下列四类车辆轨迹-“车辆左转”、“车辆从左道并入直行”、“车辆右转”以及“车辆从右道并入直行”。用于实现此分类的策略如下：(a)采用递归滤波器定位视频帧中的对象，(b)采用相同滤波器跟踪连续帧上的对象，(c)接着，从每帧中提取对象的形心和速率，(d)采用提取的速率并将其传给时延神经网络(TDNN)，以获得静态速度的简档，以及(e)利用该静态速度简档，训练多层感知器(MLP)最终对这些轨迹进行分类。伴随该分类方案存在两个主要问题。现有技术采用滤波器，具体而言，采用带通滤波器来定位和跟踪对象。带通滤波器的参数以特设方式设置。然而，因为对于对象的定位和跟踪，没有考虑跨越各帧的象素的相互关联，所以这种系统的总体性能将由于跨越各帧的噪声的不一致而衰减。从而，对跨越一组帧的背景模型的学习提供了有效定位和跟踪感兴趣对象的一种替换方法。而且，因为在不同时间期间获取视频图像时，经常发生总是改变视频图像中照明度的这种情况，所以对模型的学习变得特别重要。其次，由于照明度的变化，速度计算不是有效率的。因此，神经网络本身的总体精度将很差。

从而，本发明的目的在于提供对象分类的方法和设备，该对象分类克服了与现有技术有关的缺点。

因此，提出了一种用于对场景中的对象进行分类的方法。该方法包括：捕获场景的视频数据；定位视频数据的视频帧序列中的至少一个对象；将视频帧序列中至少一个定位的对象输入进时延神经网络中；以及基于时延神经网络的结果，将该至少一个对象分类。

优选地，该定位包括在视频帧序列上实现背景扣除(backgroundsubtraction)。

时延神经网络优选是Elman网络。Elman网络优选包括具有附加输入状态层的多层感知器(Multi-Layer Perception)，其在先前的时间步从隐藏层接收激活(activation)的副本作为反馈。这种情况下，该分类包括遍历(traverse)状态层从而通过确定模型空间中匹配的状态数量来查明总标识(identity)。

还提供一种用于对场景中的对象进行分类的设备，所述设备包括：至少一个照相机，用于捕获场景的视频数据；检测系统，用于定位视频数据的视频帧序列中的至少一个对象，并将视频帧序列中至少一个定位的对象输入进时延神经网络中；以及处理器，用于基于时延神经网络的结果将该至少一个对象分类。

优选地，检测系统对视频帧序列执行背景扣除。

时延神经网络优选是Elman网络。Elman网络优选包括具有附加输入状态层的多层感知器，其在先前的时间步从隐藏层接收激活的副本作为反馈。这种情况下，通过遍历状态层，从而通过确定模型空间中匹配的状态数量，来查明总标识，处理器分类至少一个对象。

还提供一种用于执行本发明的方法的计算机程序产品，以及一种用于在其中存储计算机程序产品的程序存储设备。

对于下面描述、后附权利要求、以及附图，本发明设备及方法的这些和其它特征、方面及优点，将变得更好理解。其中：

图1例示本发明优选实施方法的流程图。

图2例示用于执行本发明方法的系统的示意性说明。

虽然本发明可应用于大量且不同类型的神经网络，但仍发现其在Elman神经网络的环境中尤为有用。因此，在本发明的应用性不局限于Elman神经网络的前提下，将在这种环境下描述本发明。

与每次一帧来分类视频图像中的对象相反，本发明的方法在视频序列整体上进行标记。这通过利用时延神经网络(TDNN)来实现，例如Elman神经网络，通过查看过去和当前数据及它们固有的联系作出决定来学习分类。因此，本发明的方法能够通过基于视频序列进行学习而不是基于视频序列中离散的各帧进行学习，来识别/分类对象。而且，本发明方法直接将被跟踪的对象用作对TDNN的输入，来代替如上述现有技术中已经做到的从视频数据中提取特征量度。简言之，现有技术已采用TDNN，其输入是从被跟踪的对象中提取的特征。与现有技术相反，本发明的方法将被跟踪的对象本身输入给TDNN。

现将参照图1描述现有技术的方法。图1示出了说明本发明方法优选实现的流程图，在此通常用参考数字100标注。本方法中，在步骤102，从至少一个照相机接收视频输入，该照相机从场景捕获视频图像。接着，在步骤104，用背景模型来定位并跟踪穿过照相机视野的视频图像中的对象。背景模拟以便跟踪和定位视频数据中的对象在本领域中已公知，例如在此其内容引入作为参考的Gutta等人撰写的题为“ClassificationOf Objects Through Model Ensembles”的美国专利申请NO.09/794,443；Elgammal等人2000年6月在爱尔兰都柏林的欧洲计算机视觉会议(European Conference on Computer Vision)(ECCV)2000上撰写的题为“Non-parametric Model for Backgroud Subtracton”；以及Raja等人1998年1月在中国香港第三届亚洲计算机视觉会议论文集(第1卷，第607-614页)中的“Segmentation and Tracking Using Colour MixtureModels”。

如果在场景的视频数据中未定位移动的对象，则该方法沿着步骤106的“否”进行到“连续监视视频输入”的步骤102。如果在场景的视频数据中定位了移动的对象，则该方法沿着步骤106的“是”进行到“该定位的对象被直接输入至时延神经网络(TDNN)中，优选输入至Elman神经网络(ENN)”的步骤108。其优选实现方法是通过采用Elman神经网络[Dorffner G.，Neural Networks for Time Series Processing，NeuralNetworks 3(4)，1998]。Elman网络把两个或更多视频帧当作输入，并优选把全部序列当作输入，而不是处理个别的各帧。基础假设是时变图像可被描述为时间相关状态的线性转换，通过状态矢量

给出：

\overset{&RightArrow;}{x (t)} = C \overset{&RightArrow;}{s} (t) + \overset{&RightArrow;}{ϵ} (t) - - - (1)

其中c是转换矩阵。时间相关状态矢量也可由如下线性模型描述：

\overset{&RightArrow;}{s} (t) = A \overset{&RightArrow;}{s} (t - 1) + B \overset{&RightArrow;}{η} (t) - - - (2)

其中A和B是矩阵，是噪声处理，正如上面的。以该模型为基础的基本假设是马尔可夫(markov)假设一无论怎样达到状态，该状态都被标识。如果进一步假设该状态还取决于过去序列矢量，则忽略移动平均项

：

\overset{&RightArrow;}{s} (t) = A \overset{&RightArrow;}{s} (t - 1) + D \overset{&RightArrow;}{x} (t - 1) - - - (3)

然后，获得描述递归神经网络类型的公式，称为Elman网络。Elman网络是具有附加层的多层感知器(MLP)，该附加层称为状态层，其在先前的时间步从隐藏层接收激活的副本作为反馈。

一旦学习了该模型，识别就涉及遍历非线性状态空间模型，通过查找出模型空间中匹配的状态数量，来确定总标识。这种方法可以用在很多域内，例如在零售商店中检测滑倒和摔倒事件、识别音乐中特别节拍/韵律、以及对居住/商业环境中的对象进行分类。

现在参照图2，说明了用于实现本发明方法100的设备示意性实例。该设备通常用参考数字200标注。设备200包括至少一个视频照相机202，用于捕获将要被分类的场景204的视频数据。视频照相机202优选捕获场景204的数字图像数据，或者可替换地，该设备还包括模数转换器(未示出)，以将视频图像数据转换为数字格式。数字视频图像数据被输入至检测系统206，用于检测其中的移动对象。优选地，由检测系统206检测的任何移动对象输入诸如个人计算机之类的处理器208中，用于分析移动对象图像数据，并根据如上所述的方法100，对每个提取的特征执行分类分析。

本发明方法尤其适于通过计算机软件程序实现，这种计算机软件程序优选包括与该方法的各自步骤相对应的模块。这种软件当然可包含在在计算机可读性介质中，例如集成芯片或外围设备。

虽然已经示出并描述了什么是本发明优选实施例所要考虑的，但是理所应当要理解，在不脱离本发明精神的前提下，可以容易地作出形式上或细节上的各种修改和变化。因此，本发明并不是意在限于所描述和说明的精确形式，而应是构造为本发明覆盖满足后附权利要求范围的所有修改。

Claims

1、一种用于对场景(204)中的对象进行分类的方法，该方法包括：

捕获场景(204)的视频数据；

定位视频数据的视频帧序列中的至少一个对象；

将视频帧序列中至少一个定位的对象输入进时延神经网络中；以及

基于时延神经网络的结果，将该至少一个对象分类。

2、权利要求1的方法，其中，所述定位包括：对视频帧序列执行背景扣除。

3、权利要求1的方法，其中，时延神经网络是Elman网络。

4、权利要求3的方法，其中，Elman网络包括具有附加输入状态层的多层感知器，其在先前的时间步从隐藏层接收激活的副本作为反馈。

5、权利要求4的方法，其中，所述分类包括遍历状态层，从而通过确定模型空间中匹配的状态数量，来查明总标识。

6、一种机器可读的程序存储设备，有形地包含了机器可执行的指令程序，执行用于分类场景(204)中对象的方法步骤，该方法包括：

捕获场景(204)的视频数据；

定位视频数据的视频帧序列中的至少一个对象；

基于时延神经网络的结果，将该至少一个对象分类。

7、权利要求6的程序存储设备，其中，所述定位包括：对视频帧序列执行背景扣除。

8、权利要求6的程序存储设备，其中，时延神经网络是Elman网络。

9、权利要求8的程序存储设备，其中，Elman网络包括具有附加输入状态层的多层感知器，其在先前的时间步从隐藏层接收激活的副本作为反馈。

10、权利要求9的程序存储设备，其中，所述分类包括遍历状态层，从而通过确定模型空间中匹配的状态数量，来查明总标识。

11、一种包含在计算机可读介质中的计算机程序产品，用于分类场景(204)中的对象，该计算机程序产品包括：

计算机可读程序代码装置，用于捕获场景(204)的视频数据；

计算机可读程序代码装置，用于定位视频数据的视频帧序列中的至少一个对象；

计算机可读程序代码装置，用于视频帧序列中至少一个定位的对象输入进时延神经网络中；以及

计算机可读程序代码装置，用于基于时延神经网络的结果将该至少一个对象分类。

12、权利要求11的计算机程序产品，其中，用于定位的计算机可读程序代码装置包括用于对视频帧序列执行背景扣除的计算机可读程序代码装置。

13、权利要求11的计算机程序产品，其中，时延神经网络是Elman网络。

14、权利要求13的计算机程序产品，其中，Elman网络包括具有附加输入状态层的多层感知器，其在先前的时间步从隐藏层接收激活的副本作为反馈。

15、权利要求14的计算机程序产品，其中，用于分类的计算机可读程序代码装置包括计算机可读程序代码装置，用于遍历状态层，从而通过确定模型空间中匹配的状态数量，来查明总标识。

16、一种用于对场景(204)中的对象进行分类的设备(200)，该设备包括：

至少一个照相机(202)，用于捕获场景(204)的视频数据；

检测系统(206)，用于定位视频数据的视频帧序列中的至少一个对象，并将视频帧序列中至少一个定位的对象输入进时延神经网络中；以及

处理器(208)，用于基于时延神经网络的结果对该至少一个对象分类。

17、权利要求16的设备，其中，检测系统(206)对视频帧序列执行背景扣除。

18、权利要求16的设备，其中，时延神经网络是Elman网络。

19、权利要求18的设备，其中，Elman网络包括具有附加输入状态层的多层感知器，其在先前的时间步从隐藏层接收激活的副本作为反馈。

20、权利要求19的设备，其中，通过遍历状态层，从而通过确定模型空间中匹配的状态数量来查明总标识，处理器(206)分类至少一个对象。