CN1711560A - 通过图像中固有的时变信息来分类对象 - Google Patents
通过图像中固有的时变信息来分类对象 Download PDFInfo
- Publication number
- CN1711560A CN1711560A CNA2003801033820A CN200380103382A CN1711560A CN 1711560 A CN1711560 A CN 1711560A CN A2003801033820 A CNA2003801033820 A CN A2003801033820A CN 200380103382 A CN200380103382 A CN 200380103382A CN 1711560 A CN1711560 A CN 1711560A
- Authority
- CN
- China
- Prior art keywords
- video
- time
- sequence
- neural network
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
提供一种用于对场景中的对象进行分类的方法,该方法包括:捕获场景的视频数据;定位视频数据的视频帧序列中的至少一个对象;将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及基于时延神经网络的结果对该至少一个对象分类。
Description
本发明通常涉及计算机视觉,更具体而言,涉及通过图像中固有的时变信息来分类对象。
通常,现有技术的识别和分类系统对静态或动态图像分别进行对象识别和分类。出于内容公开目的,对象分类将包括对象识别和/或分类。因此,现有技术的分类系统作用于处于视频序列中的静态图像或帧,以便对其中的对象进行分类。这些本领域已知的分类系统不采用视频图像中固有的时变信息,相反,它们试图通过每次识别一个帧上的对象来分类对象。
尽管这些分类系统具有它们的优点,但是它们具有下列缺点:
(a)因为对每个帧独立地执行分类,所以丢失了跨越各帧的对象之间的任何联系;
(b)由于因为独立对待每个帧,所以不再维持跨越各帧的象素相关性,从而分类系统的总体性能不再健壮;
(c)由于图像中固有的噪声和照明度的变化,导致它们显示不出适度的衰减。
在第29届Asilomar关于信号、系统和计算机的会议(AsilomarConference on Signals,Systems and Computers)上,Bruton等人的“Onthe Classification of Moving Objects in Image Sequences Using 3DAdaptive Recursive Tracking Fillters and Neural Networks”,已将通过繁忙十字路口的车辆轨迹分类。具体而言,该文章特别关注分类下列四类车辆轨迹-“车辆左转”、“车辆从左道并入直行”、“车辆右转”以及“车辆从右道并入直行”。用于实现此分类的策略如下:(a)采用递归滤波器定位视频帧中的对象,(b)采用相同滤波器跟踪连续帧上的对象,(c)接着,从每帧中提取对象的形心和速率,(d)采用提取的速率并将其传给时延神经网络(TDNN),以获得静态速度的简档,以及(e)利用该静态速度简档,训练多层感知器(MLP)最终对这些轨迹进行分类。伴随该分类方案存在两个主要问题。现有技术采用滤波器,具体而言,采用带通滤波器来定位和跟踪对象。带通滤波器的参数以特设方式设置。然而,因为对于对象的定位和跟踪,没有考虑跨越各帧的象素的相互关联,所以这种系统的总体性能将由于跨越各帧的噪声的不一致而衰减。从而,对跨越一组帧的背景模型的学习提供了有效定位和跟踪感兴趣对象的一种替换方法。而且,因为在不同时间期间获取视频图像时,经常发生总是改变视频图像中照明度的这种情况,所以对模型的学习变得特别重要。其次,由于照明度的变化,速度计算不是有效率的。因此,神经网络本身的总体精度将很差。
从而,本发明的目的在于提供对象分类的方法和设备,该对象分类克服了与现有技术有关的缺点。
因此,提出了一种用于对场景中的对象进行分类的方法。该方法包括:捕获场景的视频数据;定位视频数据的视频帧序列中的至少一个对象;将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及基于时延神经网络的结果,将该至少一个对象分类。
优选地,该定位包括在视频帧序列上实现背景扣除(backgroundsubtraction)。
时延神经网络优选是Elman网络。Elman网络优选包括具有附加输入状态层的多层感知器(Multi-Layer Perception),其在先前的时间步从隐藏层接收激活(activation)的副本作为反馈。这种情况下,该分类包括遍历(traverse)状态层从而通过确定模型空间中匹配的状态数量来查明总标识(identity)。
还提供一种用于对场景中的对象进行分类的设备,所述设备包括:至少一个照相机,用于捕获场景的视频数据;检测系统,用于定位视频数据的视频帧序列中的至少一个对象,并将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及处理器,用于基于时延神经网络的结果将该至少一个对象分类。
优选地,检测系统对视频帧序列执行背景扣除。
时延神经网络优选是Elman网络。Elman网络优选包括具有附加输入状态层的多层感知器,其在先前的时间步从隐藏层接收激活的副本作为反馈。这种情况下,通过遍历状态层,从而通过确定模型空间中匹配的状态数量,来查明总标识,处理器分类至少一个对象。
还提供一种用于执行本发明的方法的计算机程序产品,以及一种用于在其中存储计算机程序产品的程序存储设备。
对于下面描述、后附权利要求、以及附图,本发明设备及方法的这些和其它特征、方面及优点,将变得更好理解。其中:
图1例示本发明优选实施方法的流程图。
图2例示用于执行本发明方法的系统的示意性说明。
虽然本发明可应用于大量且不同类型的神经网络,但仍发现其在Elman神经网络的环境中尤为有用。因此,在本发明的应用性不局限于Elman神经网络的前提下,将在这种环境下描述本发明。
与每次一帧来分类视频图像中的对象相反,本发明的方法在视频序列整体上进行标记。这通过利用时延神经网络(TDNN)来实现,例如Elman神经网络,通过查看过去和当前数据及它们固有的联系作出决定来学习分类。因此,本发明的方法能够通过基于视频序列进行学习而不是基于视频序列中离散的各帧进行学习,来识别/分类对象。而且,本发明方法直接将被跟踪的对象用作对TDNN的输入,来代替如上述现有技术中已经做到的从视频数据中提取特征量度。简言之,现有技术已采用TDNN,其输入是从被跟踪的对象中提取的特征。与现有技术相反,本发明的方法将被跟踪的对象本身输入给TDNN。
现将参照图1描述现有技术的方法。图1示出了说明本发明方法优选实现的流程图,在此通常用参考数字100标注。本方法中,在步骤102,从至少一个照相机接收视频输入,该照相机从场景捕获视频图像。接着,在步骤104,用背景模型来定位并跟踪穿过照相机视野的视频图像中的对象。背景模拟以便跟踪和定位视频数据中的对象在本领域中已公知,例如在此其内容引入作为参考的Gutta等人撰写的题为“ClassificationOf Objects Through Model Ensembles”的美国专利申请NO.09/794,443;Elgammal等人2000年6月在爱尔兰都柏林的欧洲计算机视觉会议(European Conference on Computer Vision)(ECCV)2000上撰写的题为“Non-parametric Model for Backgroud Subtracton”;以及Raja等人1998年1月在中国香港第三届亚洲计算机视觉会议论文集(第1卷,第607-614页)中的“Segmentation and Tracking Using Colour MixtureModels”。
如果在场景的视频数据中未定位移动的对象,则该方法沿着步骤106的“否”进行到“连续监视视频输入”的步骤102。如果在场景的视频数据中定位了移动的对象,则该方法沿着步骤106的“是”进行到“该定位的对象被直接输入至时延神经网络(TDNN)中,优选输入至Elman神经网络(ENN)”的步骤108。其优选实现方法是通过采用Elman神经网络[Dorffner G.,Neural Networks for Time Series Processing,NeuralNetworks 3(4),1998]。Elman网络把两个或更多视频帧当作输入,并优选把全部序列当作输入,而不是处理个别的各帧。基础假设是时变图像可被描述为时间相关状态的线性转换,通过状态矢量
给出:
其中c是转换矩阵。时间相关状态矢量也可由如下线性模型描述:
然后,获得描述递归神经网络类型的公式,称为Elman网络。Elman网络是具有附加层的多层感知器(MLP),该附加层称为状态层,其在先前的时间步从隐藏层接收激活的副本作为反馈。
一旦学习了该模型,识别就涉及遍历非线性状态空间模型,通过查找出模型空间中匹配的状态数量,来确定总标识。这种方法可以用在很多域内,例如在零售商店中检测滑倒和摔倒事件、识别音乐中特别节拍/韵律、以及对居住/商业环境中的对象进行分类。
现在参照图2,说明了用于实现本发明方法100的设备示意性实例。该设备通常用参考数字200标注。设备200包括至少一个视频照相机202,用于捕获将要被分类的场景204的视频数据。视频照相机202优选捕获场景204的数字图像数据,或者可替换地,该设备还包括模数转换器(未示出),以将视频图像数据转换为数字格式。数字视频图像数据被输入至检测系统206,用于检测其中的移动对象。优选地,由检测系统206检测的任何移动对象输入诸如个人计算机之类的处理器208中,用于分析移动对象图像数据,并根据如上所述的方法100,对每个提取的特征执行分类分析。
本发明方法尤其适于通过计算机软件程序实现,这种计算机软件程序优选包括与该方法的各自步骤相对应的模块。这种软件当然可包含在在计算机可读性介质中,例如集成芯片或外围设备。
虽然已经示出并描述了什么是本发明优选实施例所要考虑的,但是理所应当要理解,在不脱离本发明精神的前提下,可以容易地作出形式上或细节上的各种修改和变化。因此,本发明并不是意在限于所描述和说明的精确形式,而应是构造为本发明覆盖满足后附权利要求范围的所有修改。
Claims (20)
1、一种用于对场景(204)中的对象进行分类的方法,该方法包括:
捕获场景(204)的视频数据;
定位视频数据的视频帧序列中的至少一个对象;
将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及
基于时延神经网络的结果,将该至少一个对象分类。
2、权利要求1的方法,其中,所述定位包括:对视频帧序列执行背景扣除。
3、权利要求1的方法,其中,时延神经网络是Elman网络。
4、权利要求3的方法,其中,Elman网络包括具有附加输入状态层的多层感知器,其在先前的时间步从隐藏层接收激活的副本作为反馈。
5、权利要求4的方法,其中,所述分类包括遍历状态层,从而通过确定模型空间中匹配的状态数量,来查明总标识。
6、一种机器可读的程序存储设备,有形地包含了机器可执行的指令程序,执行用于分类场景(204)中对象的方法步骤,该方法包括:
捕获场景(204)的视频数据;
定位视频数据的视频帧序列中的至少一个对象;
将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及
基于时延神经网络的结果,将该至少一个对象分类。
7、权利要求6的程序存储设备,其中,所述定位包括:对视频帧序列执行背景扣除。
8、权利要求6的程序存储设备,其中,时延神经网络是Elman网络。
9、权利要求8的程序存储设备,其中,Elman网络包括具有附加输入状态层的多层感知器,其在先前的时间步从隐藏层接收激活的副本作为反馈。
10、权利要求9的程序存储设备,其中,所述分类包括遍历状态层,从而通过确定模型空间中匹配的状态数量,来查明总标识。
11、一种包含在计算机可读介质中的计算机程序产品,用于分类场景(204)中的对象,该计算机程序产品包括:
计算机可读程序代码装置,用于捕获场景(204)的视频数据;
计算机可读程序代码装置,用于定位视频数据的视频帧序列中的至少一个对象;
计算机可读程序代码装置,用于视频帧序列中至少一个定位的对象输入进时延神经网络中;以及
计算机可读程序代码装置,用于基于时延神经网络的结果将该至少一个对象分类。
12、权利要求11的计算机程序产品,其中,用于定位的计算机可读程序代码装置包括用于对视频帧序列执行背景扣除的计算机可读程序代码装置。
13、权利要求11的计算机程序产品,其中,时延神经网络是Elman网络。
14、权利要求13的计算机程序产品,其中,Elman网络包括具有附加输入状态层的多层感知器,其在先前的时间步从隐藏层接收激活的副本作为反馈。
15、权利要求14的计算机程序产品,其中,用于分类的计算机可读程序代码装置包括计算机可读程序代码装置,用于遍历状态层,从而通过确定模型空间中匹配的状态数量,来查明总标识。
16、一种用于对场景(204)中的对象进行分类的设备(200),该设备包括:
至少一个照相机(202),用于捕获场景(204)的视频数据;
检测系统(206),用于定位视频数据的视频帧序列中的至少一个对象,并将视频帧序列中至少一个定位的对象输入进时延神经网络中;以及
处理器(208),用于基于时延神经网络的结果对该至少一个对象分类。
17、权利要求16的设备,其中,检测系统(206)对视频帧序列执行背景扣除。
18、权利要求16的设备,其中,时延神经网络是Elman网络。
19、权利要求18的设备,其中,Elman网络包括具有附加输入状态层的多层感知器,其在先前的时间步从隐藏层接收激活的副本作为反馈。
20、权利要求19的设备,其中,通过遍历状态层,从而通过确定模型空间中匹配的状态数量来查明总标识,处理器(206)分类至少一个对象。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/295,649 | 2002-11-15 | ||
US10/295,649 US20050259865A1 (en) | 2002-11-15 | 2002-11-15 | Object classification via time-varying information inherent in imagery |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1711560A true CN1711560A (zh) | 2005-12-21 |
Family
ID=32324345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2003801033820A Pending CN1711560A (zh) | 2002-11-15 | 2003-10-24 | 通过图像中固有的时变信息来分类对象 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20050259865A1 (zh) |
EP (1) | EP1563461A2 (zh) |
JP (1) | JP2006506724A (zh) |
KR (1) | KR20050086559A (zh) |
CN (1) | CN1711560A (zh) |
AU (1) | AU2003274454A1 (zh) |
WO (1) | WO2004047027A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108431826A (zh) * | 2015-12-28 | 2018-08-21 | 高通股份有限公司 | 自动检测视频图像中的对象 |
CN109975762A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院声学研究所 | 一种水下声源定位方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100972196B1 (ko) * | 2007-12-24 | 2010-07-23 | 주식회사 포스코 | 용철제조장치 및 용철제조방법 |
US8121424B2 (en) * | 2008-09-26 | 2012-02-21 | Axis Ab | System, computer program product and associated methodology for video motion detection using spatio-temporal slice processing |
US9710712B2 (en) * | 2015-01-16 | 2017-07-18 | Avigilon Fortress Corporation | System and method for detecting, tracking, and classifiying objects |
CN106846364B (zh) * | 2016-12-30 | 2019-09-24 | 明见(厦门)技术有限公司 | 一种基于卷积神经网络的目标跟踪方法及装置 |
CN107103901B (zh) * | 2017-04-03 | 2019-12-24 | 浙江诺尔康神经电子科技股份有限公司 | 人工耳蜗声音场景识别系统和方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5018215A (en) * | 1990-03-23 | 1991-05-21 | Honeywell Inc. | Knowledge and model based adaptive signal processor |
US5621858A (en) * | 1992-05-26 | 1997-04-15 | Ricoh Corporation | Neural network acoustic and visual speech recognition system training method and apparatus |
US5434927A (en) * | 1993-12-08 | 1995-07-18 | Minnesota Mining And Manufacturing Company | Method and apparatus for machine vision classification and tracking |
DE19706576A1 (de) * | 1997-02-20 | 1998-08-27 | Alsthom Cge Alcatel | Vorrichtung und Verfahren zur umgebungsadaptiven Klassifikation von Objekten |
US7110569B2 (en) * | 2001-09-27 | 2006-09-19 | Koninklijke Philips Electronics N.V. | Video based detection of fall-down and other events |
US20030058111A1 (en) * | 2001-09-27 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Computer vision based elderly care monitoring system |
-
2002
- 2002-11-15 US US10/295,649 patent/US20050259865A1/en not_active Abandoned
-
2003
- 2003-10-24 AU AU2003274454A patent/AU2003274454A1/en not_active Abandoned
- 2003-10-24 CN CNA2003801033820A patent/CN1711560A/zh active Pending
- 2003-10-24 JP JP2004552934A patent/JP2006506724A/ja active Pending
- 2003-10-24 KR KR1020057008472A patent/KR20050086559A/ko not_active Application Discontinuation
- 2003-10-24 EP EP03758431A patent/EP1563461A2/en not_active Withdrawn
- 2003-10-24 WO PCT/IB2003/004765 patent/WO2004047027A2/en not_active Application Discontinuation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108431826A (zh) * | 2015-12-28 | 2018-08-21 | 高通股份有限公司 | 自动检测视频图像中的对象 |
CN108431826B (zh) * | 2015-12-28 | 2019-12-20 | 高通股份有限公司 | 自动检测视频图像中的对象 |
CN109975762A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院声学研究所 | 一种水下声源定位方法 |
CN109975762B (zh) * | 2017-12-28 | 2021-05-18 | 中国科学院声学研究所 | 一种水下声源定位方法 |
Also Published As
Publication number | Publication date |
---|---|
US20050259865A1 (en) | 2005-11-24 |
AU2003274454A1 (en) | 2004-06-15 |
EP1563461A2 (en) | 2005-08-17 |
WO2004047027A2 (en) | 2004-06-03 |
JP2006506724A (ja) | 2006-02-23 |
KR20050086559A (ko) | 2005-08-30 |
WO2004047027A3 (en) | 2004-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Detection of abnormal visual events via global optical flow orientation histogram | |
Bertini et al. | Multi-scale and real-time non-parametric approach for anomaly detection and localization | |
Bansod et al. | Crowd anomaly detection and localization using histogram of magnitude and momentum | |
Zhang et al. | Extraction of text objects in video documents: Recent progress | |
CN108416780B (zh) | 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法 | |
Huang et al. | Feature-Based Vehicle Flow Analysis and Measurement for a Real-Time Traffic Surveillance System. | |
Malik et al. | Detection and recognition of traffic signs from road scene images | |
Piciarelli et al. | Surveillance-oriented event detection in video streams | |
CN105184818A (zh) | 一种视频监控异常行为检测方法及其检测系统 | |
CN112329656B (zh) | 一种视频流中人体动作关键帧的特征提取方法 | |
Saran et al. | Traffic video surveillance: Vehicle detection and classification | |
Monteiro et al. | Wrongway drivers detection based on optical flow | |
Saypadith et al. | An approach to detect anomaly in video using deep generative network | |
CN1711560A (zh) | 通过图像中固有的时变信息来分类对象 | |
Varga et al. | Pedestrian detection in surveillance videos based on CS-LBP feature | |
Singh et al. | Stemgan: spatio-temporal generative adversarial network for video anomaly detection | |
Boufares et al. | Moving object detection system based on the modified temporal difference and otsu algorithm | |
Richefeu et al. | A new hybrid differential filter for motion detection | |
Scherer et al. | Robust, Real-Time Number Sign Detection on a Mobile Outdoor Robot. | |
Bose et al. | Learning to use scene context for object classification in surveillance | |
Kang et al. | Real-time pedestrian detection using support vector machines | |
Amato et al. | Neural network based video surveillance system | |
Jehad et al. | Developing and validating a real time video based traffic counting and classification | |
Cheng et al. | A nonparametric approach to region-of-interest detection in wide-angle views | |
Patil et al. | Vehicle detection and traffic assessment using images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |