CN102917159B - 用于改进的多模式背景去除的模式移除 - Google Patents

用于改进的多模式背景去除的模式移除 Download PDF

Info

Publication number
CN102917159B
CN102917159B CN201210214482.1A CN201210214482A CN102917159B CN 102917159 B CN102917159 B CN 102917159B CN 201210214482 A CN201210214482 A CN 201210214482A CN 102917159 B CN102917159 B CN 102917159B
Authority
CN
China
Prior art keywords
model
pattern model
visual element
pattern
estranged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210214482.1A
Other languages
English (en)
Other versions
CN102917159A (zh
Inventor
P·J·帕库洛斯基
A·K·谷帕塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN102917159A publication Critical patent/CN102917159A/zh
Application granted granted Critical
Publication of CN102917159B publication Critical patent/CN102917159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

用于改进的多模式背景去除的模式移除。一种用于更新与场景相关联的场景模型(230)的视觉元素模型(240)的方法和系统,该视觉元素模型(240)包括用于场景的位置的视觉元素的模式模型(260,270)的集合。该方法接收图像序列的帧(210)的输入视觉元素(220),对于每个模式模型(260,270),通过比较输入视觉元素(220)的外观与相应模式模型(260,270)的视觉特性的集合而将相应模式模型(260,270)分类为匹配模式模型或疏远模式模型。该方法基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从视觉元素模型(240)中移除疏远模式模型。

Description

用于改进的多模式背景去除的模式移除
技术领域
本公开涉及用于图像中的前景检测的背景去除,具体地说,涉及用于图像序列的多外观背景模型的维持。
背景技术
视频是图像的序列,其也可以被称为视频序列或图像序列。图像也被称为帧。术语“帧”和“图像”在整个说明书中互换地使用,以描述图像序列中的单个图像。图像由视觉元素(例如像素)构成,或者由8×8DCT(离散余弦变换)块构成,如JPEG图像中使用的那样。
场景建模,又称为背景建模,涉及基于对场景进行描述的图像序列来对场景的视觉内容进行建模。场景建模允许视频分析系统通过背景差异化操作来在瞬变前景对象与非瞬变背景之间进行区分。
一种用于场景建模的方法使用视觉元素模型中的周全考虑(discreet)数量的模式模型来表示场景中的每个位置,其中,每个模式模型具有外观。也就是说,场景中的每个位置与和场景关联的场景模型中的视觉元素模型相关联。每个视觉元素模型包括模式模型的集合。在基本情况下,模式模型的集合包括一个模式模型。在多模式实现的情况下,模式模型的集合包括至少一个模式模型,并且可以包括多个模式模型。场景中的每个位置与输入视频帧中的每一个中的视觉元素对应。在一些现有技术中,视觉元素是像素值。在其它技术中,视觉元素是DCT(离散余弦变换)块。来自视频帧的每个输入视觉元素在场景模型中的对应位置处针对对应视觉元素模型中的模式模型的集合进行匹配。如果输入视觉元素与现有模式模型足够相似,则输入视觉元素被看作是对于现有模式模型的匹配。如果没发现匹配,则创建新的模式模型以表示输入视觉元素。在一些技术中,如果视觉元素匹配于视觉元素模型中的现有模式模型,则视觉元素被看作背景,否则是前景。在其它技术中,作为前景或背景的视觉元素的状态取决于视觉元素所匹配的模式模型的属性。这样的属性可以包括例如视觉元素模型的“年龄(age)”。
因为多模式模型技术可以表示并且补偿循环往复(recurring)外观(例如门正打开以及门正关闭或在红色、绿色与关闭之间循环的状态灯),所以多模式模型技术相对于单模式模型系统具有明显优点。如上所述,多视觉元素模型技术存储每个视觉元素模型中的模式模型的集合。然后对输入视觉元素模型与和输入视觉元素的位置相对应的视觉元素模型中的每个模式模型进行比较。
然而,多视觉元素模型方法的特定难度是过度建模(over-modelling)。随着时间过去,在相同视觉元素位置处创建越来越多的模式模型,直到任何输入视觉元素被识别并且看作背景,这是因为先前已经在相同位置看见了相似的外观。作为存储总是增加数量的模式模型的结果,处理时间增加,并且存储器需求增大。更重要的是,即使一些视觉元素与视频中的新的先前未看见的对象相对应但具有与历史中的任何其它先前可见对象相似的视觉外观,这些视觉元素也被看作背景。
一种用于克服这个困难的方法是,将用于场景的给定视觉元素的视觉元素模型中的所存储的模式模型的数量限制为固定数量K(例如5)。K的优化值对于不同场景和不同应用是不同的。
另一已知方法是为每个模式模型给出有限的寿命或期满时间。已知的方法根据模式模型已经被匹配多少次、何时创建模式模型或者模式模型上次被匹配的时间来设置期满时间。然而,在所有情况下,在适用于语义地作为对于背景的改变的外观与允许语义地作为前景对象的外观的速度之间存在折衷。
因此,需要提供一种用于维持在图像序列的前景-背景分离中使用的场景模型的改进的方法和系统。
发明内容
本发明的目的在于基本上克服或至少改进现有布置的一个或多个缺点。
根据本公开的第一方面,提供一种更新与图像序列中捕获的场景相关联的场景模型的视觉元素模型的方法,该视觉元素模型包括用于与场景的位置相对应的视觉元素的模式模型的集合。该方法接收图像序列的当前帧的输入视觉元素,对于视觉元素模型中的每个模式模型,取决于输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较而将相应模式模型分类为匹配模式模型和疏远模式模型中的一个。该方法然后基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从视觉元素模型中移除该疏远模式模型。
根据本公开的第二方面,提供一种计算机可读存储介质,在该存储介质上已经记录有用于命令处理器执行更新与在图像序列中捕获的场景相关联的场景模型的视觉元素模型的方法的计算机程序,所述视觉元素模型包括用于与场景的位置相对应的视觉元素的模式模型的集合。该计算机程序包括用于执行以下步骤的代码:接收图像序列的当前帧的输入视觉元素;对于视觉元素模型中的每个模式模型,取决于输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;以及基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从视觉元素模型中移除该疏远模式模型。
根据本公开的第三方面,提供一种用于捕获图像序列的相机系统。该相机系统包括:透镜系统;传感器;存储设备,用于存储计算机程序;控制模块,耦合到透镜系统和传感器中的每一个以捕获图像序列;以及处理器,用于执行程序。所述程序包括用于更新与图像序列中捕获的场景相关联的场景模型的视觉元素模型的计算机程序代码,所述视觉元素模型包括用于与场景的位置相对应的视觉元素的模式模型的集合,所述更新包括以下步骤:接收图像序列的当前帧的输入视觉元素;对于视觉元素模型中的每个模式模型,取决于输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;以及基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从视觉元素模型中移除该疏远模式模型。
根据本公开的第四方面,提供一种通过利用与场景相关联的场景模型来执行场景的视频监控的方法,所述场景模型包括多个视觉元素,其中,每个视觉元素与包括模式模型的集合的视觉元素模型相关联。该方法包括以下步骤:通过以下步骤来更新场景模型的视觉元素模型:接收图像序列的当前帧的输入视觉元素;对于视觉元素模型中的每个模式模型,取决于输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;以及基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从视觉元素模型中移除该疏远模式模型。
根据本公开的第五方面,提供一种更新与图像序列中捕获的场景相关联的场景模型的视觉元素模型的方法,所述视觉元素模型包括用于与场景的位置相对应的视觉元素的多个模式模型,每个模式模型与期满时间相关联。该方法包括以下步骤:接收图像序列的当前视频帧的输入视觉元素;对于视觉元素模型中的每个模式模型,基于所述输入视觉元素的视觉特性与相应模式模型的视觉特性之间的比较而将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;取决于识别具有超过成熟度阈值的第一时间特性的匹配模式模型以及识别具有不超过稳定性阈值的第二时间特性的疏远模式模型而减少识别出的疏远模式模型的期满时间,以更新所述视觉元素模型。
根据本公开的另一方面,提供一种用于实现上述方法中的任一个的装置。
根据本公开的另一方面,提供一种包括其上记录有用于实现上述方法中的任一个的计算机程序的计算机可读介质的计算机程序产品。
还公开了本发明的其它方面。
附图说明
现将参照以下附图描述本公开的一个或更多个实施例,其中:
图1是对其执行前景/背景分割的相机的功能框图;
图2是输入帧以及包括视觉元素模型的场景模型的示意性框图表示,视觉元素模型进而包括模式模型;
图3是示出用于把输入图像元素与视觉元素模型匹配的处理的流程图;
图4示出来自输入视频的五个帧、以及在单个视觉元素位置处的三个对应的视觉元素模型,展示了当前方法的问题;
图5通过示出来自长视频的六个帧而展示所解决的问题的一个示例,其中在视觉元素位置的集合处的相似外观最终产生失败的检测;
图6是示出模型的删除的方法的流程图;
图7示出参照图5的六个帧的本发明实施例的效果;
图8A和图8B形成在上面可以实践所描述的布置的通用计算机系统的示意性框图;以及
图9示出与图4相同的五个帧,展示了对当前问题的解决方案。
具体实施方式
在任一个或更多个附图中引用具有相同标号的步骤和/或特征的情况下,为了该描述的目的这些步骤和/或特征具有相同的功能或操作,除非相反意图出现。
本发明提供一种用于维持与图像序列中描述的场景相关联的场景模型的方法和系统。所述方法通过从场景模型中有选择地移除可能另外产生副效果的那些元素而运作。具体地说,所述方法适于当与背景相对应的模式模型与输入视觉元素匹配时从视觉元素模型移除与前景相对应的那些模式模型。
本公开提供一种更新场景模型的视觉元素模型的方法。场景模型与图像序列中捕获的场景相关联。所述视觉元素模型包括用于与场景的位置相对应的视觉元素的模式模型的集合。该方法接收图像序列的当前帧的输入视觉元素。
在一种布置中,对于该视觉元素模型中的每个模式模型,该方法将各个模式模型分类为匹配模式模型和疏远模式模型中的一个。该分类取决于输入视觉元素的外观与各个模式模型的视觉特性的集合之间的比较。在一个实现中,输入视觉元素的外观是由与输入视觉元素相关联的输入视觉特性的集合提供的。该方法然后基于超过成熟度阈值的匹配模式模型的第一时间特性和小于稳定性阈值的疏远模式模型的第二时间特性,从所述视觉元素模型移除所述模式模型中的被分类为所述疏远模式模型的一个。
在另一布置中,对于所述视觉元素模型中的每个模式模型,该方法将各个模式模型分类为匹配模式模型和疏远模式模型中的一个。该分类是基于输入视觉元素的视觉特性与各个模式模型的视觉特性之间的比较而进行的。该方法然后取决于识别具有超过(即旧于)成熟度阈值的第一时间特性的匹配模式模型和识别具有第二时间特性的疏远模式模型,来减少识别出的疏远模式模型的期满时间。
图1示出在上面可以执行前景/背景分割的相机100的功能框图。相机100是摇摄倾斜变焦相机(PTZ),包括相机模块101、摇摄和倾斜模块103以及透镜系统114。相机模块101典型地包括至少一个处理器单元105、存储器单元106、光敏传感器阵列115、耦合到传感器阵列115的输入/输出(I/O)接口107、耦合到通信网络116的输入/输出(I/O)接口108、以及用于摇摄和倾斜模块103和透镜系统114的输入/输出(I/O)接口113。相机模块101的组件107、105、108、113和106典型地经由互连总线104并且以产生本领域技术人员已知的常规操作模式的方式进行通信。
相机100用于捕获表示场景的视觉内容的也被称为输入图像的视频帧,其中,场景的至少一部分出现在相机100的视场中。相机100捕获的每个帧包括多于一个的视觉元素。视觉元素定义为图像采样。在一个实施例中,视觉元素是像素(例如红-绿-蓝(RGB)像素)。在另一实施例中,每个视觉元素包括一组像素。在又一实施例中,视觉元素是变换系数,例如对运动JPEG帧进行解码所需的离散余弦变换(DCT)系数、或在JPEG-2000标准中所使用的离散小波变换(DWT)系数的8乘8的块。彩色模型是YUV,其中,Y分量表示亮度,U和V表示色度。
在一种布置中,存储器单元106存储包括用于执行用于根据本公开来维持场景模型的方法的计算机代码指令的计算机程序,其中,所述指令可以由处理器单元105执行。在替代布置中,远程计算设备上的视频分析系统处理由相机100捕获的一个或更多个输入帧,其中,远程计算设备包括用于执行用于实现根据公开来维持场景模型的方法的计算机代码指令的处理器。
图8A和图8B描述在上面可以实践所描述的各种布置的通用计算机系统800。
如图8A可见,计算机系统800包括:计算机模块801;输入设备,例如键盘802、鼠标指点设备803、扫描仪826、相机827以及麦克风880;以及输出设备,包括打印机815、显示设备814和外放扬声器817。计算机模块801可以使用外部调制解调器(Modem)收发机设备816,以用于经由连接821而与通信网络820进行通信。通信网络820可以是广域网(WAN,例如互联网),蜂窝通信网络、或私有WAN。在连接821是电话线路的情况下,调制解调器816可以是传统“拨号”调制解调器。或者,在连接821是高容量(例如缆线)连接的情况下,调制解调器816可以是宽带调制解调器。无线调制解调器也可以用于到通信网络820的无线连接。
计算机模块801典型地包括至少一个处理器单元805、以及存储器单元806。例如,存储器单元806可以具有半导体随机存取存储器(RAM)和半导体只读存储器(ROM)。计算机模块801还包括多个输入/输出(I/O)接口,其包括:音频视频接口807,其耦合到视频显示器814、外放扬声器817和麦克风880;I/O接口813,其耦合到键盘802、鼠标803、扫描仪826、相机827,并且可选地包括操纵杆或其它人类接口设备(未示出);以及接口808,用于外部调制解调器816和打印机815。在一些实现中,调制解调器816可以合并到计算机模块801内,例如在接口808内。计算机模块801还具有本地网络接口811,其允许计算机系统800经由连接823耦合到局域通信网络822(被称为局域网(LAN))。如图8A所示,本地通信网络822也可以经由将典型地包括所谓的“防火墙”设备或相似功能的设备的连接824而耦合到广域网络820。本地网络接口811可以包括以太网TM电路卡、蓝牙TM无线布置或IEEE802.11无线布置;然而,对于接口811可以实践大量其它类型的接口。
相机827可以与图1的PTZ相机100对应。在替代布置中,计算机模块801经由广域通信网820和/或局域通信网822而耦合到相机100。
I/O接口808和813可以提供串行和并行连接中的一个或二者,前者通常根据通用串行总线(USB)标准而实现,并且具有对应的USB连接器(未示出)。存储设备809被提供,并且通常包括硬盘驱动器(HDD)810。也可以使用其它存储设备(例如软盘驱动器和磁带驱动器(未示出))。光盘驱动器812被通常提供来充当非易失性数据源。便携式存储器设备(例如光盘(例如CD-ROM、DVD、蓝光盘TM)、USB-RAM、便携式外部硬盘驱动器以及软盘)例如可以用作系统800的适当数据源。
计算机模块801的组件805至813通常经由互连总线804并且以产生本领域技术人员已知的计算机系统800的常规操作模式的方式进行通信。例如,处理器805使用连接818耦合到系统总线804。类似地,存储器806和光盘驱动器812通过连接819而耦合到系统总线804。在上面可以实践所描述的布置的计算机的示例包括IBM-PC和兼容机、SunSparcstation、AppleMacTM等计算机系统。
可以使用计算机系统800来实现更新场景模型的视觉元素模型的方法,其中,在此描述的图2至图7的处理可以实现为计算机系统800内可执行的一个或多个软件应用程序833。具体地说,接收输入视觉元素、对模式模型进行分类并且移除模式模型的方法的步骤由计算机系统800内执行的软件833中的指令831(见图8B)执行。软件指令831可以形成为一个或更多个代码模块,每一代码模块用于执行一个或多个特定任务。软件也可以划分为两个单独部分,其中,第一部分和对应代码模块执行视觉元素模型更新方法,第二部分和对应代码模块管理第一部分与用户之间的用户接口。
软件833通常存储在HDD810或存储器806中。软件从计算机可读介质加载到计算机系统800中,并且由计算机系统800执行。因此,例如,软件833可以存储在由光盘驱动器812读取的光学可读盘存储介质(例如CD-ROM)825上。上面记录有这样的软件或计算机程序的计算机可读介质是计算机程序产品。计算机系统800中的计算机程序产品的使用优选地实现用于更新场景模型中的视觉元素模型的装置,其可以用于在例如安全性监控和视觉分析的应用中对图像序列执行前景/背景分离以检测前景对象。
在一些例子中,应用程序833可以提供给一个或多个CD-ROM825上编码的用户,并且经由对应驱动器812读取,或者,可以由用户从网络820或822读取。此外,软件也可以从其它计算机可读介质加载到计算机系统800。计算机可读存储介质是指将记录的指令和/或数据提供给计算机系统800以用于执行和/或处理的任何非易失性有形存储介质。这些存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘、或计算机可读卡(例如PCMCIA卡等),无论这些设备在计算机模块801的内部还是外部。也可以参与软件、应用程序、指令和/或数据对计算机模块801的提供的易失性或非有形计算机可读传输介质的示例包括无线电或红外传输信道以及对另一计算机或联网设备的网络连接、以及包括电子邮件传输和在网站等上记录的信息的互联网或内部网。
上述应用程序833的第二部分以及对应代码模块可以执行来实现要在显示器814上呈现或另外表示的一个或多个图形用户接口(GUI)。通过典型地操控键盘802和鼠标803,计算机系统800和应用的用户可以通过功能自适应方式操控接口,以将控制命令和/或输入提供给与GUI关联的应用。也可以实现功能自适应用户接口的其它形式,例如利用经由外放扬声器817输出的语音提示以及经由麦克风880输入的用户话音命令的音频接口。
图8B是处理器805和“存储器”834的详细示意性框图。存储器834表示图8A中的计算机模块801可以访问的所有存储器模块(包括HDD809和半导体存储器806)的逻辑集合。
当计算机模块801被初始供电时,上电自检(POST)程序850执行。POST程序850通常存储在图8A的半导体存储器806的ROM849中。硬件设备(例如存储软件的ROM849)有时被称为固件。POST程序850检查计算机模块801内的硬件,以确保正确运行并且通常检查处理器805、存储器834(809、806)、以及也通常存储在ROM849中的基本输入输出系统软件(BIOS)模块851用于正确操作。一旦POST程序850已经成功地运行,BIOS851就激活图8A的硬盘驱动器810。硬盘驱动器810的激活使得经由处理器805执行硬盘驱动器810上驻留的引导(bootstrap)加载程序852。这将操作系统853加载到RAM存储器806中,在其上操作系统853开始工作。操作系统853是可由处理器805执行以完成各种高级别功能(包括处理器管理、存储器管理、设备管理、存储管理、软件应用接口以及通用用户接口)的系统级别应用。
操作系统853管理存储器834(809、806)以确保计算机模块801上运行的每个处理或应用具有足够的存储器,其中在不与分配给另一处理的存储器冲突的情况下执行。此外,必须适当地使用图8A的系统800中可用的不同类型的存储器,以使得每个处理可以有效地运行。
相应地,集合的存储器834并非意图示出如何分配特定的存储器分段(除非另外声明),而是提供可由计算机系统800访问的存储器以及如何使用它的概览。
如图8B所示,处理器805包括多个功能模块,包括控制单元839、算术逻辑单元(ALU)840以及本地或内部存储器848(有时称为缓存存储器)。缓存存储器848通常包括寄存器区段中的多个存储寄存器844-846。一个或多个内部总线841将这些功能模块在功能上互连。处理器805通常还具有用于使用连接818经由系统总线804与外部设备进行通信的一个或多个接口842。存储器834使用连接819耦合到总线804。
应用程序833包括可以包括条件分支和循环指令的指令831的序列。程序833也可以包括在执行程序833中使用的数据832。分别在存储器位置828、829、830和835、836、837中存储指令831和数据832。取决于指令831和存储器位置828-830的相对大小,可以在单个存储器位置中存储特定指令,如存储器位置830所示的指令所描述的那样。或者,可以将指令分段为多个部分,每一个部分存储在单独的存储器位置中,如存储器位置828和829中所示的指令分段所描述的那样。
通常,处理器805被给予在处理器中执行的指令的集合。处理器1105等待后续输入,处理器805通过执行另一指令集合来对后续输入做出反应。可以从以下多个源中的一个或多个提供每一输入:这些源包括由输入设备802、803中的一个或多个生成的数据、跨网络820、802中的一个从外部源接收的数据、从存储设备806、809中的一个提取的数据或从插入到对应读取器812的存储介质825提取的数据,全部都在图8中有描述。指令集合的执行可以在一些情况下产生数据的输出。执行也可以涉及将数据或变量存储到存储器834。
所公开的视觉元素模型更新布置使用在对应存储器位置855、856、857中的存储器834中存储的输入变量854。视觉元素模型更新布置产生在对应存储器位置862、863、864中的存储器834中存储的输出变量861。可以在存储器位置859、860、866和867中存储中间变量858。
参照图8B的处理器805,寄存器844、845、846、算术逻辑单元(ALU)840和控制单元839一起工作,以针对构成程序833的指令集合中的每个指令执行用于执行“取得、解码和执行”周期所需的微操作的序列。每个取得、解码和执行周期包括:
(a)取得操作,其从存储器位置828、829、830取得或读取指令831;
(b)解码操作,其中,控制单元839确定已经取得哪个指令;以及
(c)执行操作,其中,控制单元839和/或ALU840执行指令。
此后,可以执行用于下一指令的另一取得、解码和执行周期。相似地,可以执行:控制单元839将值存储或写入到存储器位置832的存储周期。
图2至图7的处理中的每一步骤或子处理与程序833的一个或多个分段关联,并且由一起工作的处理器805中的寄存器区段844、845、847、ALU840以及控制单元839执行,以执行用于程序833的标注分段的指令集合中的每个指令的取得、解码和执行周期。
可以替代地在专用硬件(比如一个或多个门阵列和/或集成电路)中实现更新场景模型中的视觉元素模型的方法,这些专用硬件(比如一个或多个门阵列和/或集成电路)执行接收输入视觉元素、将模式模型分类为匹配或疏远以及移除疏远模式模型以更新视觉元素模型的功能或子功能。该专用硬件也可以包括图形处理器、数字信号处理器或一个或多个微处理器以及关联存储器。如果使用门阵列,则图3和图6中的处理流程图转换为硬件描述语言(HDL)形式。该HDL描述转换为设备级别网表(netlist),其由布局和布线(P&R)工具用于产生下载到门阵列以通过HDL描述中指定的设计来对该门阵列编程的文件。
图2描述输入帧210以及与输入帧210中捕获的场景相关联的场景模型230的示意性框图表示。输入帧210包括多个视觉元素,其包括示例性视觉元素220。场景模型230包括对应的多个视觉元素模型,其包括与输入帧210的视觉元素220的方位或位置对应的视觉元素模型240。在一个布置中,在相机100的存储器106中存储场景模型230。在另一布置中,在远程服务器或数据库的存储器中存储场景模型230。在一个实现中,服务器或数据库通过通信链路而耦合到相机100。通信链路可以包括有线或无线传输路径,并且可以是专用链路、广域网(WAN)、局域网(LAN)或其它通信网络(例如互联网)。
如上所述,输入帧210包括多个视觉元素。在图2的示例中,输入帧210中的示例性视觉元素是视觉元素220。视觉元素220位于场景210中的与和输入帧210中捕获的场景关联的场景模型230的视觉元素模型240对应的位置处。视觉元素是进行处理的基本单位并且图像传感器(例如相机100的光敏传感器阵列115)捕获视觉元素。在一个布置中,视觉元素是像素。在另一布置中,视觉元素是8×8DCT块。在一个布置中,处理发生在相机100的处理器105上。在替代布置中,处理实时地或在较晚时间发生在位于远程的计算设备上。
场景模型230包括多个视觉元素模型,其中,每个视觉元素模型与正被建模的场景的位置或方位相对应。场景模型230中的示例性视觉元素模型是视觉元素240。对于被建模的输入帧210的每个输入视觉元素,在场景模型230中维持对应视觉元素模型。在图2的示例中,输入视觉元素220具有场景模型230中的对应视觉元素模型240。视觉元素模型240包括一个或多个模式模型的集合。在图2的示例中,视觉元素模型240包括包含模式模型1260、……、模式模型N270的模式模型的集合。
图2的示例中的每个模式模型存储作为视觉特性261的集合的代表性外观。在一个布置中,模式模型具有状态262以及时间特性263。每个视觉元素模型基于在对应位置处的输入视觉元素的外观的历史。因此,视觉元素模型240基于输入视觉元素220的外观的历史。例如,如果存在闪烁霓虹灯,则一个模式模型表示“背景-灯打开”,而另一模式模型表示“背景-灯关闭”,又一模式模型表示“前景”(例如通过车的部分)。在一个布置中,模式模型视觉特性261是输入视觉元素外观220的像素强度值的均值。在另一布置中,模式模型视觉特性261是用于输入视觉元素220的每个DCT系数的观测DCT系数值的中值或近似中值。在一个布置中,每个模式模型具有状态比如前景或背景。例如,模式模型1260具有背景的状态262,模式模型N270具有前景的状态272。在一个布置中,模式模型记录时间特性,其可以包括模式模型的创建时间、已经发现模式模型代表输入视觉元素的次数的计数以及最近发现模式模型代表输入视觉元素的时间。在一个布置中,时间特性还包括期满时间,稍后描述。在图2的示例中,模式模型1260包括时间特性263,其包括“帧0”的创建时间、匹配计数“5”和“帧4”的最近匹配时间。模式模型2270包括时间特性273,其包括“帧5”的创建时间、匹配计数“1”和“帧5”的最近匹配时间。与模式模型关联的实际特性将取决于特定应用。
图3是示出处理器805执行的用于把输入视觉元素与对应视觉元素模型中的模式模型匹配的匹配处理300的流程图。处理300开始于开始步骤310,其中,处理器805从图像序列的输入帧接收输入视觉元素。来自相机827/100的输入帧捕获场景的至少一部分,并且存在与场景关联的场景模型。输入帧中的至少一个视觉元素具有在场景模型中的对应预定位置处的关联视觉元素模型。执行处理300(由软件应用程序833指引)的处理器805尝试把输入视觉元素的视觉特性匹配到存储器806中存储的对应视觉元素模型的模式模型的视觉特性。
执行处理300的处理器805从开始步骤310进入步骤320,其从与输入视觉元素对应的视觉元素模型中选择未尝试的模式模型。未尝试的模式模型是尚未与存储器806中的输入视觉元素比较的模式模型。执行该方法的处理器805从视觉元素模型240中选择单个模式模型(比如说模式模型1260)。控制从步骤320进入第一判决步骤325,其中,处理器805判断输入视觉元素的外观是否匹配来自步骤320的选择的模式模型。选择的模式模型1261中存储的视觉特性与输入视觉元素220的外观进行比较,以将模式模型分类为匹配或疏远。一个实施例使得处理器805通过确定在所选择的模式模型中存储的视觉特性与输入视觉元素220的外观之间的差并且比较所述差与预定阈值来对模式模型进行分类。如果输入视觉元素的外观匹配所选择的模式模型(“是”),则控制从步骤325进入步骤330。步骤330将所选择的模式模型标记为匹配模式模型。在一个实现中,每个模式模型具有指示该模式模型是匹配还是疏远的相关联的状态。在该实现中,步骤330将与所选择的模式模型相关联的状态修改为“匹配”。控制从步骤330进入第二判决步骤345。
如果在步骤325输入视觉元素的外观不匹配所选择的模式模型(“否”),则控制从步骤325进入步骤340。在步骤340中,处理器805将所选择的模式模型标记为疏远模式模型。在其中每个模式模型具有指示该模式模型是匹配还是疏远的相关联的状态的实现中,步骤340将与所选择的模式模型关联的状态修改为“疏远”。控制从步骤340进入第二判决步骤345。
在步骤345中,处理器805检查是否在视觉元素模型中剩余有任何未尝试的模式模型。如果在步骤345中处理器805确定还剩有至少一个未尝试的模式模型(“是”),则控制从步骤345返回步骤320,以选择剩余的未尝试的模式模型中的一个。
如果在步骤345中处理器805确定不剩有未尝试的模式模型(“否”),则控制进入第三判决步骤350,以检查是否存在标记为匹配的任何模式模型。
如果在步骤350中处理器805确定存在标记为匹配的至少一个模式模型(“是”),则在匹配处理300在结束步骤399终止之前,控制进入更新阶段370。参照图6描述关于更新阶段370的更多细节。
返回步骤350,如果步骤350确定不存在标记为匹配的模式模型(“否”),则将通过执行应用程序833的处理器805创建新的模式模型,以表示输入视觉元素220。控制从步骤350进入创建新的模式模型的步骤355,并且在控制进入更新阶段370之前,步骤365将新模型标记为匹配。控制从步骤370进入结束步骤399,并且匹配处理300终止。
图3示出用于处理300的一个实施例,其中,处理器805依次选择每个模式模型以与输入视觉元素进行比较,然后将模式模型标记为匹配或疏远中的一个。可以等同地实践用于选择输入视觉元素的匹配模式模型的其它方法。在一个替代实施例中,如果在视觉元素模型处仅期望单个匹配模式,则一旦已经识别匹配模式模型,处理就从步骤330进入步骤370中的更新阶段。
图4示出可以如何随着时间而在单个视觉元素位置处看见产生具有不同时间特性的多个模式模型的多个外观以及相似的外观可以如何产生不正确的结果的示例。图4的示例包括包含相继但不一定连续的帧410、420、430、440和450的图像序列。视觉元素位置401出现在这五个帧中的每一个中。在图4的示例中,图像序列与以下场景有关:该场景描述沿着曲线路径行走并且向捕获图像序列中的图像的相机的位置移动较近的人404。该人404后跟随有不同的人405,其总体外观是不同的,但正穿着相同颜色的裤子。在图4的示例中,每个图像包括在栅格(水平方向上五(5)个视觉元素以及在垂直方向上四(4)个视觉元素)中布置的多个视觉元素。在帧410、420、430、440和450之下,我们看见:对于位置401存储的模式模型(415、425、435、455),模式模型是有效的(411、421、431、441、451)的指示以及对位置401的内容(412、422、432、442、452)的算法判决。以下解释产生不正确结果的现有技术布置。
第一帧410中的位置401的内容没有前景,是路径的区段。人404是可见的,但它们不与位置401交叠。假设先前初始化,在该时间的有效411模式模型示出该路径区段415,并且算法正确地判断这是先前看见的背景412。
在比帧410晚的帧420处,人404出现在位置401处。他们的裤子的区段现在是可见的,新的模式模型425连同现有背景模式模型415一起被存储。该模式模型425是有效的421,并且由于该模式模型425先前尚未被看见,因此算法正确地判决它为新前景422。
在比帧420更晚的帧430处,人404已经沿路径进一步移动,并且位置401包含人的手臂和头的区段的视图。因此,具有该内容的新的模式模型435被存储并且是有效的431。模式模型415和425仍是用于位置401的模型的部分。算法正确地判断:由于模式模型435是新的,因此它是前景432。第二人405出现在帧中,但不影响位置401的外观。
在比430更晚的帧440处,第一人404已经沿着路径进一步移动,并且第二人405也出现在帧中,但两个人都不影响位置401的外观。位置401的内容再次与它在帧410中如何显现相似,并且因此,背景模式模型415被选取为有效的441。模式模型425和435保持不变,其对位置401的内容进行过度建模。不创建新的模型。由于包含路径的属性的有效441模式模型415先前已经见过,因此算法正确地判断在此时间位置401包含背景442。
在比帧440更晚的帧450处,第一人404几乎走出视图,并且不影响位置401的外观。然而,第二人405影响位置401的外观。第二人的裤子的区段现在是可见的,与所存储的模式模型425十分相似。由于第二人405的裤子的属性与先前看见的模式模型455中存储的属性相似,所以模式模型425被匹配。在现有技术的示例性实现中,处理器805更新先前看见的模式模型455,并且模式模型455被选取为有效的451。由于先前已经看见该模式模型455,因此算法不正确地将它看作识别的背景452。模式模型415和435保持不变。
图9与图4对照,示出用于更新视觉元素模型的所公开的布置的示例性实现,其首先描述随着时间在单个视觉元素位置处可以如何看见产生具有不同时间特性的多个模式模型的多个外观。其次,示例性实现描述用于更新视觉元素模型的所公开的布置可以如何防止相似的外观产生如图4所示的不正确结果。图9的示例包括包含相继但不一定连续的帧910、920、930、940和950的图像序列。视觉元素位置901出现在这五个帧中的每一个中。相似地,在图9的示例中,图像序列与描述沿着曲线路径行走并且向捕获图像序列中的图像的相机的位置移动得更近的人904的场景有关。该人904后面跟随不同的人905,其总体外观是不同的,但正穿着相同颜色的裤子。在图9的示例中,每个图像包括在栅格(水平方向上五(5)个视觉元素以及在垂直方向上四(4)个视觉元素)中布置的多个视觉元素。在帧910、920、930、940和950之下,我们看见:对于位置901存储的模式模型(915、925、935、955),模式模型是有效的(911、921、931、941、951)指示以及对位置901的内容(912、922、932、942、952)的算法判决。以下解释用于更新视觉元素模型的所公开的布置的示例性实现的布置。
第一帧910中的位置901的内容没有前景,是路径的区段。人904是可见的,但他们不与位置901交叠。假设先前初始化,在该时间的有效911模式模型示出该路径区段915,并且算法正确地判断这是先前看见的背景912。
在比帧910更晚的帧920处,人904出现在位置901处。它们的裤子的区段现在是可见的,并且新的模式模型925连同现有背景模式模型915一起被存储。该模式模型925是有效的921,并且由于模式模型925先前尚未被看见过,因此算法正确地判决它为新前景922。
在比帧920更晚的帧930处,人904已经沿路径进一步移动,并且位置901包含他们的手臂和头的区段的视图。因此,具有该内容的新的模式模型935被存储并且是有效的931。模式模型915和925仍是用于位置901的模型的部分。算法正确地判断:由于模式模型935是新的,因此它是前景932。第二人905出现在帧中,但不影响位置901的外观。
在比930更晚的帧940处,第一人904已经沿着路径进一步移动,并且第二人905也出现在帧中,但这些人不影响位置901的外观。位置901的内容再次与它在帧910中如何显现相似,并且因此,背景模式模型915被选取为有效的941。此时,用于更新视觉元素模型的所公开的布置适用于该情况。在较新的模式模型925和935尚未被多次观测到的同时,模式模型915是成熟的并且被识别为背景。向模式模型915的返回指示模式模型925和935表示已经移动离开的临时前景,并且这些模式模型从位置901的模型中移除。由于先前已经看见作为仅有剩余模式模型的有效941模式模型915,因此算法正确地判断在此时位置901包含背景942。
在示例性布置中,在检测到背景模式模型之后,无论模式模型925和935的属性如何,用于更新视觉元素模型的所公开的布置都从位置901的模型中移除模式模型925和935。因为两个模式模型925和935是在上次检测到背景模型915之后形成的,所以删除模式模型925和935。在用于更新视觉元素模型的所公开的布置的另一实现中,所公开的布置的动作是:调整模式模型被看作“年龄变大”的正常处理,从而加速对根据模型保存的标准处理而是否保持模式模型925和935的判决。在该示例中,模式模型925和935中每一个均仅被观看到一次,因此结果是相同的,并且从模型中移除模式模型925和935。
在比帧940更晚的帧950处,第一人904几乎离开视图并且不影响位置901的外观。然而,第二人905影响位置901的外观。第二人的裤子的区段现在可见,与模式模型925十分相似,但模式模型925已经被移除。模式模型955因此被创建,并且被选取为有效的951。由于该模式模型是新的,因此算法现在正确地将它看作新的前景952。
参照图5和图7示出为什么附加模式模型的创建是期望的示例。
图5描述场景和随着时间在该场景中的对象检测,示出多模式系统中的过度建模的问题。具体地说,图5包括在时间a、时间b、时间c、时间d、时间e和时间f捕获的场景的图像,其中,f>e>d>c>b>a。也就是说,图像是图像序列中的相继图像,但不一定是来自该图像序列的连续帧。基于对图像的前景和背景的检测,图5所示的每个图像501、511、521、531、541、551具有对应输出505、515、525、535、545、555。当场景是空的,并且因此没有前景对象时,场景示出具有打开的门的空房间。
初始地在时间a,输入帧501示出场景是空的并且不包含前景对象。以每个视觉元素模型240处的至少一个匹配模式模型260初始化场景,因此输入帧501不导致在存储器806中创建新的模式模型,并且所有匹配的模式模型被看作背景。因此,与输入帧501相关联的输出505是空白,其指示帧501中没有检测到前景对象。
在较晚时间b,输入帧511具有新的元素。第一人514将对象带入场景,其中,对象是桌子512。帧511的输出515示出分别作为前景检测515和513的第一人514和新的桌子512。
在更晚时间c,输入帧521具有更多不同的元素。具有给定外观512的帧511中看见的桌子在帧521中仍然可见,具有相似外观522。帧521示出与帧511中所示的第一人514不同的第二人526,但第二人526显现在场景中的同一位置处,并且具有与帧511中的第一人514相似的外观。基于它们各自的时间特性,例如,模式模型年龄小于阈值(例如5分钟),在与对象522的视觉元素相对应的视觉元素模型中的每一个处与对象522匹配的模式模型仍被看作前景,因此对象522继续被识别为由帧521的输出525中的前景检测523表示的前景。第二人526主要具有与第一人514不同的视觉外观,因此通过新的模式模型的创建而正常地检测与第二人526对应的视觉元素,示出为帧521的输出525中的前景模式模型527。然而,部分地,第二人526与先前第一人514共享外观,但甚至在具有相似的外观的这些位置处,允许桌子522的外观被检测为前景检测523的相同规则还允许第二人526被检测为前景527。
在时间d中的某点,在场景中帧531没有可见的人,因此背景536在由第一人514和第二人526先前占据的场景中的位置处是可见的。在帧531中,桌子仍然是可见的532,因此帧531的输出535示出在与桌子532对应的位置533处的前景,但该输出535在第一人514和第二人526先前所处的场景中的位置处仅示出背景537。
在更晚时间e,足够的时间已经过去,以使得与输入帧541中的桌子542的外观相对应的模式模型被接受为背景。也就是说,存储器806中存储的与桌子相匹配的模式模型的年龄足够大,以使得模式模型被分类为背景。因此,不再将桌子542检测为与帧541对应的输出545中的前景。
问题出现在较晚时间f,其中,输入帧551示出在与第一人514和第二人526的场景中的相似位置处具有与第一人514和第二人526相似外观的第三人558。允许将桌子542处理为输出545中的背景的系统的相同期望行为现在也使得第三人558的外观的部分被处理为背景,以使得第三人558仅被部分地检测为帧551的输出555中的前景559。用于与第一人514和第二人526的视觉元素匹配的在存储器806中存储的模式模型中的至少一些足够老,以使得这些模式模型被分类为背景。因此,与第一人514和第二人526的对应部分足够相似的第三人558的至少一部分不正确地匹配为背景,并且不被检测为前景。
图6是示出从系统的存储器806移除模式模型的图3的更新处理370的流程图600。在存储器806中创建新的模式模型并且将新的模式模型标记为匹配之后,当控制从匹配步骤340通过时,或当控制从步骤355、365通过时,处理在步骤605开始。
控制从步骤605进入步骤610,其中,处理器805从存储器806中的视觉元素模型选择具有最小期满时间的模式模型。如参照图4以上描述的那样,期满时间的实现可以变化并且取决于应用。如上所述,视觉元素模型可以被配置为具有有限数量的模式模型。这可以按照空间和处理约束而实现。在一个示例中,视觉元素模型中的模式模型的数量是阈值K。K的实际值将取决于特定应用。控制从步骤610进入第一判决步骤620,其中,处理器805判断当前视觉元素模型中的模式模型的数量是否大于阈值K的值。在一个布置中,K是固定值,例如5。如果在步骤620中,处理器805确定当前视觉元素模型中存在多于K个模式模型(“是”),则控制从步骤620进入步骤615,步骤615移除具有最小(最早)期满时间的当前选择的模式模型,无论该模式模型的期满时间的值如何。也就是说,无论该模式模型的期满时间是否已经过去,在步骤615中,处理器805都移除该模式模型,并且控制返回到选择步骤610,以选择具有下一最小(下一最早)期满时间的模式模型。
在一个布置中,通过设置“跳过”比特来实现在步骤615中从存储器806移除模式模型。在另一布置中,通过从链表中删除表示待移除的模式模型的项来实现在步骤615中从存储器806移除模式模型。在另一布置中,模式模型存储在矢量中,并且移除包括:通过使得后面的项前进然后缩短矢量长度来盖写存储器806中的模式模型信息。
如果在步骤620中,处理器805确定在当前视觉元素模型中不存在多于K个模式模型(“否”),这表示因为模式模型的数量,所以无需移除存储器806中具有最小(最早)期满时间的模式模型,则控制进入第二判决步骤625。第二判决步骤625允许处理器805判断当前选择的模式模型的期满时间是否比输入视觉元素的时间更小(更早)。如果期满时间比当前输入视觉元素的时间更小(“是”),则从存储器806移除该模式模型,并且控制进入步骤615,以从视觉元素模型615中移除该模式模型。控制然后从步骤615通过,并且再次返回到步骤610。如果在步骤625中,处理器805确定模式模型的期满时间大于或等于当前输入视觉元素的时间(“否”),则保留而不移除当前选择的模式模型,并且控制从步骤625进入选择性模式模型移除级630。
在每个匹配模式模型已经被估计为是否大于成熟度阈值,并且每个疏远模式模型已经被估计为是否小于稳定性阈值之后,选择性模式模型移除级630操作。具体地说,在630内的640,对小于稳定性阈值的疏远模式模型645采取动作,其处于与大于成熟度阈值的匹配模式模型635相同的视觉元素模型中。
满足成熟度阈值的模式模型指示在场景中已经频繁看见模式模型。通常,一旦模式模型在场景中频繁匹配,就将该模式模型分类为背景。换句话说,成熟度阈值判断模式模型是否为背景。然而,在本公开实施例的另一实现中,存在一个成熟度阈值和一个时间阈值,该成熟度阈值判断模式模型是否频繁匹配于对应视觉元素模型,该时间阈值允许处理器105将模式模型分类为背景或前景中的一个。
在一个实施例中,如果存储器806中的匹配模式模型被创建的时间高于预定阈值(期满阈值),例如1000帧,则该匹配模式模型被看作大于成熟度阈值。在另一实施例中,如果匹配模式模型被看作背景,则该匹配模式模型被看作大于成熟度阈值。在一个实现中,当匹配模式模型已经匹配高于常数(例如500帧)的次数时,该匹配模式模型被看作背景。在另一实现中,如果当前时间与创建时间之间的差大于阈值(例如5分钟),则模式模型被看作背景。在另一实现中,如果匹配模式模型已经匹配多次(其中,次数大于常数(例如1000次)),则该匹配模式模型被看作大于成熟度阈值。在另一实现中,如果满足预定准则(例如以上测试的预定组合),例如在先前5分钟中1000次,则该匹配模式模型被看作大于成熟度阈值。
在一个实施例中,如果疏远模式模型不大于成熟度阈值,则该疏远模式模型被看作小于稳定性阈值。在另一实施例中,如果创建疏远模式模型的时间与当前时间之间的差小于预定阈值(期满阈值),例如5分钟,则存储器806中的该疏远模式模型被看作小于稳定性阈值。在另一实现中,如果疏远模式模型被看作前景,则模式模型被看作小于稳定性阈值。在另一实现中,如果疏远模式模型已经匹配少于给定次数(例如50),则模式模型被看作小于稳定性阈值。在另一实现中,如果满足以上测试的预定组合,例如如果模式模型已经匹配少于50次但仅如果创建模式模型的时间与当前时间之间的差也小于1分钟,则模式模型被看作小于稳定性阈值。
因此,在与成熟度阈值相同的脉络中,稳定性阈值判断处理器105将模式模型分类为背景还是前景。因此,成熟度阈值和稳定性阈值可以是相同的时间阈值。然而,在另一实现中,提供确定模式模型是否不频繁出现的稳定性阈值、以及允许将模式模型分类为前景或背景的另一时间阈值。
在另一实施例中,成熟度阈值和稳定性阈值彼此相关,并且关于一对匹配模型和疏远模式模型,如果创建匹配模式模型的时间与创建疏远模式模型的时间之间的差大于预定阈值(例如5分钟),则存储器806中的匹配模式模型被看作大于成熟度阈值,并且疏远模式模型被看作小于稳定性阈值。在另一实施例中,如果匹配模式模型已经被匹配的次数与疏远模式模型已经被匹配的次数之间的差大于给定次数(例如60),则匹配模式模型被看作大于成熟度阈值并且疏远模式模型被看作小于稳定性阈值。换句话说,与疏远模式模型相比,匹配模式模型被匹配了更多次。在另一实施例中,如果取决于以上准则的某种组合(例如以秒表示的创建时间与当前时间之间的差加上模式已经被匹配的次数)针对匹配模式模型计算出的分数比在相同视觉元素处针对疏远模式模型的以上准则的组合的同样计算出的分数大到阈值(例如50),则匹配模式模型被看作大于成熟度阈值,疏远模式模型被看作小于稳定性阈值。
选择性模式模型移除级630的第一步骤是:在步骤635中检查匹配模式模型,以判断是否有任何匹配模式模型大于成熟度阈值,如定义的那样。如果没有匹配模式模型大于成熟度阈值(“否”),则控制从步骤635进入结束步骤699,并且处理完成。
如果在步骤635确定至少一个匹配模式模型大于成熟度阈值,则对在相同视觉元素模型处的其余模式模型进行检查,以查看该视觉元素模型中的疏远模式模型中的任一个是否小于稳定性阈值(例如50帧)645。如果当前视觉元素模型中不存在小于稳定性阈值的模式模型,则控制从步骤645进入结束步骤699,处理600终止。如果任一个疏远模式模型小于稳定性阈值(“是”),则控制从步骤645进入步骤640,其减少当前视觉元素模型中的这些疏远模式模型的期满时间。
在一个实施例中,在步骤640中使得期满时间是立刻(immediate),并且移除或删除疏远模式模型。或者,可以实践未示出的分离移除/删除步骤,其中,移除/删除步骤移除具有已经过去的期满时间的这些模式模型。在另一实施例中,期满时间取决于模式模型已经匹配的次数,并且该值被看作较少,例如2次匹配。在另一实施例中,罚值被存储并且增加例如2,以便与在下次在步骤625中检查的期满时间偏移。
控制从步骤640通过,并且返回步骤645,以再次检查是否存在小于稳定性阈值的疏远模式模型。换句话说,存储器806中的每个疏远模式模型被检查为满足稳定性阈值645。减少不满足稳定性阈值的疏远模式模型的期满时间。
选择性模式模型移除级630允许有选择地移除帧531和541中的与图5的不同人514和526相对应的模式模型。在这些时间,当人514和526不在位置536并且在536处的背景匹配时,触发与人514和526对应的模式的选择性移除。这些模式模型的选择性移除防止通过帧551的输出555中的部分背景匹配559示出的匹配问题。由于与桌子532和542对应的模式模型连续地可见,直到序列的结束,因此与501中可见的背景相对应的在桌子512的位置处的模式模型在帧501中的时间a之后不再次匹配。因此,选择性模式模型移除级630不影响与桌子对应的模式模型。图7示出该情况。
图7描述场景和随着时间在该场景中的对象检测,示出与图5的示例有关的改进。如图5那样,图7包括在时间a、时间b、时间c、时间d、时间e和时间f捕获的场景的图像,其中,f>e>d>c>b>a。也就是说,图像是图像序列中的相继图像,但不一定是来自该图像序列的连续帧。图7所示的每个图像具有基于对该图像的前景和背景的检测的对应输出。当场景是空的并且因此没有前景对象时,场景示出具有打开的门的空房间。
初始地在时间a,输入帧701示出场景是空的并且不包含前景对象。具有在每个视觉元素模型240处的至少一个匹配模式模型260,输入帧701使得在存储器806中不创建新的模式模型,并且所有匹配模式模型被看作背景705。
在较晚时间b,输入帧711具有新的元素。第一人714将对象(例如桌子712)带入场景。帧711的输出715分别检测第一人714和新的桌子712,作为前景检测715和713。
在更晚时间c,处理器805接收的输入帧721具有更多不同的元素。在帧711中看见的具有给定外观的桌子712在帧721中仍然可见,具有相似的外观722。帧721示出与帧711中所示的第一人714不同的第二人726,但第二人726显现在场景中的相同位置处,并且具有与帧711中的第一人714相似的外观。基于它们各自的时间特性,例如模式模型年龄小于阈值(例如7分钟),与对象722对应的元素模型仍被看作前景,从而对象继续被识别为输出725中的前景723。第二人726主要具有与第一人714不同的视觉外观,从而通过新的模式模型的创建而正常地检测与第二人726对应的视觉元素,如用于帧721的输出725中的前景模式模型727所示。然而,部分地,第二人726与先前第一人714共享外观,但允许桌子的外观722被检测723的相同规则还允许第二人726被检测为前景727,即使在具有相似的外观的那些位置处也是如此。
在时间d中的某点,帧731示出在场景中不存在可见的人,因此背景在由第一人714和第二人726先前占据的场景中的位置处是可见的。帧731示出桌子仍可见732,因此用于帧731的输出735示出在与桌子732对应的位置的前景733,但输出735仅在第一人714和第二人726先前所处的场景中的位置处示出背景737。
在更晚时间e,足够的时间已经过去,使得与输入帧741中的桌子的外观742相对应的模式模型被接受为背景。因此,不再将桌子742检测为与帧741对应的输出745中的前景。
在更晚时间f,输入帧751示出在场景中的与第一人714和第二人726相似的位置处的具有与第一人714和第二人726相似外观的第三人758。输出755与帧751关联。输出755示出检测为前景759的第三人758。
帧701、711、721、731、741和751与图5的帧501、511、521、531、541和551相同,帧711、721、731和741中的外观的历史与以前的帧511、521、531和541相同。输出705、715、725、735和745与来自图5的输出505、515、525、535和545相同。
来自图5的输入帧和输出的先前集合与图7所示的输入帧和相关联输出的新集合之间的差别在于第三人758检测为最终输出755中的前景759。最终输入帧751具有与551所示的相同外观,具有第三人758的外观。然而,与人714和726的先前外观相对应的模式模型将已经在时间d(此时场景的有关部分的外观再次示出背景736)731被移除了。这允许在时间f对第三人758的检测确切地如对第一人714的检测那样运作,以产生检测715。
工业实用性
所描述的布置可应用于计算机和数据处理产业,尤其用于成像和监控产业。
前面仅描述本发明的一些实施例,在不脱离本发明的范围和精神的情况下,可以进行修改和/或改变,实施例是说明性而非限定性的。

Claims (15)

1.一种更新与图像序列中捕获的场景相关联的场景模型的视觉元素模型的方法,所述视觉元素模型包括用于与所述场景的位置相对应的视觉元素的模式模型的集合,所述方法包括以下步骤:
接收所述图像序列的当前帧的输入视觉元素;
对于所述视觉元素模型中的每个模式模型,取决于所述输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;以及
基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从所述视觉元素模型中移除该疏远模式模型。
2.如权利要求1所述的方法,其中,如果满足以下标准中的至少一个,则所述匹配模式模型的所述第一时间特性超过所述成熟度阈值:
(a)所述匹配模式模型的创建时间大于预定阈值;
(b)所述匹配模式模型被分类为背景;以及
(c)所述匹配模式模型已经被匹配至少预定次数。
3.如权利要求1所述的方法,其中,如果满足以下标准中的至少一个,则所述疏远模式模型的所述第二时间特性小于所述稳定性阈值:
(a)所述疏远模式模型不超过所述成熟度阈值;
(b)所述疏远模式模型的创建时间小于预定阈值;
(c)所述疏远模式模型被分类为前景;以及
(d)所述疏远模式模型已经被匹配小于预定次数。
4.如权利要求1所述的方法,其中,所述成熟度阈值和所述稳定性阈值彼此相关,如果一对匹配模式模型和疏远模式模型的期满时间相差大于阈值量,则该对匹配模式模型和疏远模式模型分别被看作大于成熟度阈值和小于稳定性阈值。
5.如权利要求1所述的方法,其中,所述成熟度阈值和所述稳定性阈值彼此相关,如果与所述匹配模式模型相比另一模式模型已经被匹配大于给定次数,则所述匹配模式模型被看作大于成熟度阈值。
6.如权利要求1所述的方法,其中,所述成熟度阈值和所述稳定性阈值彼此相关,如果在相同视觉元素处根据与所述匹配模式模型有关的标准的组合的第一计算分数大于根据与所述疏远模式模型有关的标准的组合的第二计算分数,则所述匹配模式模型被看作大于成熟度阈值,
其中,所述与所述匹配模式模型有关的标准包括:
(a1)所述匹配模式模型的创建时间大于预定阈值;
(b1)所述匹配模式模型被分类为背景;以及
(c1)所述匹配模式模型已经被匹配至少预定次数,以及
其中,所述与所述疏远模式模型有关的标准包括:
(a2)所述疏远模式模型不超过所述成熟度阈值;
(b2)所述疏远模式模型的创建时间小于预定阈值;
(c2)所述疏远模式模型被分类为前景;以及
(d2)所述疏远模式模型已经被匹配小于预定次数。
7.一种更新与在图像序列中捕获的场景相关联的场景模型的视觉元素模型的装置,所述视觉元素模型包括用于与所述场景的位置相对应的视觉元素的模式模型的集合,所述装置包括:
用于接收所述图像序列的当前帧的输入视觉元素的部件;
用于对于所述视觉元素模型中的每个模式模型,取决于所述输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个的部件;以及
用于基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从所述视觉元素模型中移除该疏远模式模型的部件。
8.一种用于捕获图像序列的相机系统,所述相机系统包括:
透镜系统;
传感器;
控制模块,耦合到所述透镜系统和所述传感器中的每一个以捕获所述图像序列;以及
处理器,用于更新与图像序列中捕获的场景相关联的场景模型的视觉元素模型,所述视觉元素模型包括用于与所述场景的位置相对应的视觉元素的模式模型的集合,所述更新包括以下步骤:
接收所述图像序列的当前帧的输入视觉元素;
对于所述视觉元素模型中的每个模式模型,取决于所述输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;以及
基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从所述视觉元素模型中移除该疏远模式模型。
9.一种通过利用与图像序列中捕获的场景相关联的场景模型来执行所述场景的视频监控的方法,所述场景模型包括多个视觉元素,其中,每个视觉元素与包括模式模型的集合的视觉元素模型相关联,所述方法包括以下步骤:
通过以下步骤来更新所述场景模型的视觉元素模型:
接收所述图像序列的当前帧的输入视觉元素;
对于所述视觉元素模型中的每个模式模型,取决于所述输入视觉元素的外观与相应模式模型的视觉特性的集合之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;以及
基于匹配模式模型的超过成熟度阈值的第一时间特性以及疏远模式模型的小于稳定性阈值的第二时间特性而从所述视觉元素模型中移除该疏远模式模型。
10.一种更新与图像序列中捕获的场景相关联的场景模型的视觉元素模型的方法,所述视觉元素模型包括用于与所述场景的位置相对应的视觉元素的多个模式模型,每个模式模型与期满时间相关联,所述方法包括以下步骤:
接收所述图像序列的当前视频帧的输入视觉元素;
对于所述视觉元素模型中的每个模式模型,基于所述输入视觉元素的视觉特性与相应模式模型的视觉特性之间的比较,将相应模式模型分类为匹配模式模型和疏远模式模型中的一个;以及
取决于识别具有超过成熟度阈值的第一时间特性的匹配模式模型和识别具有不超过稳定性阈值的第二时间特性的疏远模式模型而减少识别出的疏远模式模型的期满时间,以更新所述视觉元素模型。
11.如权利要求10所述的方法,其中,如果满足以下中的至少一个,则所述匹配模式模型的所述第一时间特性超过所述成熟度阈值:
(a)所述匹配模式模型的创建时间大于期满阈值;
(b)所述匹配模式模型被分类为背景;以及
(c)所述匹配模式模型已经匹配至少预定次数。
12.如权利要求10和11中任一项所述的方法,其中,如果满足以下中的至少一个,则所述疏远模式模型的所述第二时间特性小于所述稳定性阈值:
(a)所述疏远模式模型不超过所述成熟度阈值;
(b)所述疏远模式模型的创建时间小于期满阈值;
(c)所述疏远模式模型被分类为前景;以及
(d)所述疏远模式模型已经匹配小于预定次数。
13.如权利要求10所述的方法,其中,所述成熟度阈值和所述稳定性阈值彼此相关,如果一对匹配模式模型和疏远模式模型的期满时间相差大于阈值量,则该对匹配模式模型和疏远模式模型分别被看作大于成熟度阈值和小于稳定性阈值。
14.如权利要求10所述的方法,其中,所述成熟度阈值和所述稳定性阈值彼此相关,如果与所述匹配模式模型相比另一模式模型已经被匹配大于给定次数,则所述匹配模式模型被看作大于成熟度阈值。
15.如权利要求10所述的方法,其中,所述成熟度阈值和所述稳定性阈值彼此相关,如果在相同视觉元素处根据与所述匹配模式模型有关的标准的组合的第一计算分数大于根据与所述疏远模式模型有关的标准的组合的第二计算分数,则所述匹配模式模型被看作大于成熟度阈值,
其中,所述与所述匹配模式模型有关的标准包括:
(a1)所述匹配模式模型的创建时间大于预定阈值;
(b1)所述匹配模式模型被分类为背景;以及
(c1)所述匹配模式模型已经被匹配至少预定次数,以及
其中,所述与所述疏远模式模型有关的标准包括:
(a2)所述疏远模式模型不超过所述成熟度阈值;
(b2)所述疏远模式模型的创建时间小于预定阈值;
(c2)所述疏远模式模型被分类为前景;以及
(d2)所述疏远模式模型已经被匹配小于预定次数。
CN201210214482.1A 2011-06-30 2012-06-26 用于改进的多模式背景去除的模式移除 Active CN102917159B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2011203219A AU2011203219B2 (en) 2011-06-30 2011-06-30 Mode removal for improved multi-modal background subtraction
AU2011203219 2011-06-30

Publications (2)

Publication Number Publication Date
CN102917159A CN102917159A (zh) 2013-02-06
CN102917159B true CN102917159B (zh) 2016-02-03

Family

ID=47390270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210214482.1A Active CN102917159B (zh) 2011-06-30 2012-06-26 用于改进的多模式背景去除的模式移除

Country Status (3)

Country Link
US (1) US20130002865A1 (zh)
CN (1) CN102917159B (zh)
AU (1) AU2011203219B2 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011265429B2 (en) * 2011-12-21 2015-08-13 Canon Kabushiki Kaisha Method and system for robust scene modelling in an image sequence
CN104424466B (zh) * 2013-08-21 2018-05-15 佳能株式会社 对象检测方法、对象检测设备及图像拾取设备
AU2014280948A1 (en) * 2014-12-24 2016-07-14 Canon Kabushiki Kaisha Video segmentation method
JP6356774B2 (ja) * 2016-12-20 2018-07-11 ヤフー株式会社 選択装置、選択方法および選択プログラム
US10438072B2 (en) 2017-02-27 2019-10-08 Echelon Corporation Video data background tracking and subtraction with multiple layers of stationary foreground and background regions
CN109598276A (zh) * 2017-09-30 2019-04-09 佳能株式会社 图像处理装置和方法及监控系统
CN109598741A (zh) * 2017-09-30 2019-04-09 佳能株式会社 图像处理装置和方法及监控系统
EP3543902B1 (en) * 2018-03-22 2021-06-02 Canon Kabushiki Kaisha Image processing apparatus and method and storage medium storing instructions
CN112651263A (zh) * 2019-10-09 2021-04-13 富士通株式会社 过滤背景物体的方法和装置
US11076111B1 (en) * 2019-11-13 2021-07-27 Twitch Interactive, Inc. Smart color-based background replacement
US12057054B1 (en) 2022-06-29 2024-08-06 Amazon Technologies, Inc. Determining visibility of dark scenes in video
US12014669B1 (en) * 2022-06-29 2024-06-18 Amazon Technologies, Inc. Determining candidate frames

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1875379A (zh) * 2003-11-12 2006-12-06 英国电讯有限公司 视频图像中的对象跟踪
CN101120382A (zh) * 2005-04-01 2008-02-06 三菱电机株式会社 跟踪用相机获得的场景视频中的移动物体的方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058204B2 (en) * 2000-10-03 2006-06-06 Gesturetek, Inc. Multiple camera control system
US6954498B1 (en) * 2000-10-24 2005-10-11 Objectvideo, Inc. Interactive video manipulation
TWI246338B (en) * 2004-04-09 2005-12-21 Asustek Comp Inc A hybrid model sprite generator and a method to form a sprite
US20060153448A1 (en) * 2005-01-13 2006-07-13 International Business Machines Corporation System and method for adaptively separating foreground from arbitrary background in presentations
EP1969560B1 (en) * 2005-12-30 2017-04-05 Telecom Italia S.p.A. Edge-controlled morphological closing in segmentation of video sequences
US7836086B2 (en) * 2006-06-09 2010-11-16 Pixar Layering and referencing of scene description
JP2010500818A (ja) * 2006-08-08 2010-01-07 デジタル メディア カートリッジ,リミティド 漫画アニメーション圧縮のためのシステムおよび方法
US8516439B2 (en) * 2006-12-27 2013-08-20 Iovation, Inc. Visualizing object relationships
AU2008200967B2 (en) * 2008-02-28 2010-04-15 Canon Kabushiki Kaisha Spatio-activity based mode matching
AU2008200966B2 (en) * 2008-02-28 2012-03-15 Canon Kabushiki Kaisha Stationary object detection using multi-mode background modelling
US9031279B2 (en) * 2008-07-09 2015-05-12 Disney Enterprises, Inc. Multiple-object tracking and team identification for game strategy analysis
AU2009251086B2 (en) * 2009-12-22 2013-12-05 Canon Kabushiki Kaisha Method of foreground/background separation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1875379A (zh) * 2003-11-12 2006-12-06 英国电讯有限公司 视频图像中的对象跟踪
CN101120382A (zh) * 2005-04-01 2008-02-06 三菱电机株式会社 跟踪用相机获得的场景视频中的移动物体的方法

Also Published As

Publication number Publication date
CN102917159A (zh) 2013-02-06
AU2011203219B2 (en) 2013-08-29
US20130002865A1 (en) 2013-01-03
AU2011203219A1 (en) 2013-01-17

Similar Documents

Publication Publication Date Title
CN102917159B (zh) 用于改进的多模式背景去除的模式移除
KR102462572B1 (ko) 기계 학습에 의해 객체 분류기를 훈련시키는 시스템 및 방법
US10410679B2 (en) Producing video bits for space time video summary
CN105229697B (zh) 多模态前景背景分割
Evangelio et al. Adaptively splitted GMM with feedback improvement for the task of background subtraction
CN110633669B (zh) 家居环境中基于深度学习的移动端人脸属性识别方法
CN102857693B (zh) 图像处理设备及其控制方法
CN102592109B (zh) 用于视频对象检测的方法和系统
CN102708572B (zh) 更新场景模型的方法和系统、使用该方法的照相机系统
AU2011201582B2 (en) Immortal background modes
WO2007105768A1 (ja) 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体
JP7494967B2 (ja) 映像処理プログラム、映像処理方法、及び映像処理装置
CN106663196A (zh) 视频中的计算机显著人物识别
US10373015B2 (en) System and method of detecting moving objects
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
WO2024152659A1 (zh) 一种图像处理方法、装置、设备、介质及程序产品
KR102110375B1 (ko) 학습 전이 기반의 비디오 감시 방법
WO2021178643A1 (en) An encoding device and method for utility-driven video compression
CN108369640A (zh) 用于控制场景的捕获图像的图像处理以调适捕获图像的方法、装置或计算机程序
CN113837006A (zh) 一种人脸识别方法、装置、存储介质及电子设备
US20180039626A1 (en) System and method for tagging multimedia content elements based on facial representations
CN116261009B (zh) 智能转化影视受众的视频检测方法、装置、设备及介质
WO2022110059A1 (zh) 视频处理、景别识别方法、终端设备和拍摄系统
AU2021240232A1 (en) Data collection method and apparatus, device and storage medium
WO2006048809A1 (en) Face recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant