CN1777912A - 用于改进的背景-前景分割的使用目标分类的增强背景模型 - Google Patents
用于改进的背景-前景分割的使用目标分类的增强背景模型 Download PDFInfo
- Publication number
- CN1777912A CN1777912A CNA038151308A CN03815130A CN1777912A CN 1777912 A CN1777912 A CN 1777912A CN A038151308 A CNA038151308 A CN A038151308A CN 03815130 A CN03815130 A CN 03815130A CN 1777912 A CN1777912 A CN 1777912A
- Authority
- CN
- China
- Prior art keywords
- target
- background
- image
- background model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000033001 locomotion Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 29
- 230000003068 static effect Effects 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 35
- 238000012545 processing Methods 0.000 description 20
- 230000008859 change Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012956 testing procedure Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 235000019557 luminance Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明公开一种用于产生和保持在背景-前景分割中所使用的增强背景模型的方法和装置。将背景模型修改以包含一个用于指示目标通常为静止的指示。此后,如果目标运动且已经被预先标识为通常为静止的目标,则在背景-前景分割期间,不再不必要地将该目标识别为前景的一部分。在示例性实施例中,将运动目标分为两个集合。第一集合包括通常独立运动的目标,第二集合包括通常静止的目标。通常,一旦将目标分配到第二(静止目标)集合中,则即使该目标运动(正常情况下,该目标运动会使目标变为前景的一部分),该目标也仍然被保留在背景中。
Description
本发明涉及计算机系统执行的背景-前景分割,特别是涉及在背景-前景分割中使用的改进的背景模型的产生和维持。
背景-前景分割是用于在静止照相机的取景范围内检测目标的公知的基于计算机视觉的技术。开始,系统在没有目标出现的情况下,在训练阶段学习场景。在训练阶段利用从该场景捕获的一系列图像建立该场景的背景模型。此后,在正常的操作期间,将新的图像与该背景模型进行比较。将与背景模型具有显著区别的像素位置归类为前景像素,而将剩余的像素标记为背景像素。该算法的输出通常为二进制图像,该图像描述在场景中出现的前景目标的轮廓。
对于开阔户外区域例如停车场、或封闭的大型场所例如仓库、办公空间、或地铁站台中的人和其它目标,传统的背景-前景分割技术可以很好地将它们分割和跟踪。但是这些场景与通常的家庭中的场景有很大不同。例如,居住环境通常在很小的区域内包含很多目标。另外,居住环境中的很多目标都是软性的,例如衣服和窗帘,或者是容易变形的,例如家具和百叶窗(或这两者都是),而且人们在居住环境中会经常改变他们的姿势,例如,在站立、坐下和躺下位置之间改变。
大多数已知的背景-前景分割技术都不能在混乱环境中聚集很多下肢部分,非垂直身体姿势和大型背景目标例如门、椅子和桌子自然运动的情况下有效工作。因此需要一种方法和装置来产生和维持用于背景-前景分割的改进的背景模型。
通常,公开了一种用于产生和维持在背景-前景分割中使用的改进背景模型的方法和装置。根据本发明的一个方面,使用该增强的背景模型来改进背景和前景的分割。根据本发明来修改该背景模型,从而包含通常静止的目标的标识。此后,如果一个目标移动且已经被识别为通常为静止的目标,则在背景-前景分割期间不会不必要地将该目标识别为前景的一部分。
在示例性实施方案中,将运动目标分为两个集合。第一集合包括通常独立运动的目标,例如人和动物,第二集合包括通常静止的目标,例如家具。通常,一旦将一目标分到第二(静止目标)集合,则即使该目标被移动(通常该目标的运动会导致该目标变为前景的一部分),仍将该目标保留在背景中。
可以使用本发明的增强背景模型来改进背景-前景分割。在训练过程中,估计该背景模型的参数。当检测到目标的运动时,将该目标归类为这两集合中的一集合。在正常操作期间,利用该背景模型对所捕获图像的相似概率进行估计。将具有低相似概率且属于没有预先被标识为静止目标的背景场景的像素归类为前景,而将剩余的像素标记为背景。
通过参照下面的详细说明和附图,可以对本发明以及本发明的进一步特征和优点有更完整的理解。
图1示出根据本发明优选实施例用于执行背景-前景分割的示例性系统的方块图。
图2示出根据本发明优选实施例用于对执行背景-前景分割的系统的输入图像进行分类的方法流程图。
图3示出根据本发明优选实施例用于训练执行背景-前景分割的系统的方法流程图。
图4示出用于描述图1中的背景模型目标分类处理的示例性实施例的流程图。
现在参照图1,根据本发明优选实施例,所示的视频处理系统120产生并维持用于背景-前景分割的背景模型。视频处理系统120通过视频输入107、数字通用光盘(DVD)110和网络115与一个或更多照相机进行互操作。视频处理系统120包括处理器130、介质接口135、网络接口140和存储器145。存储器145包括图像抓取器150、输入图像155、背景模型产生/维持处理200/300、背景模型目标分类处理400、概率表165、全局阈值180、像素阈值195和所分割的图像190。
在示例性实施例中,如下所述,背景模型为概率表165集合,该集合包括多个概率表170-11到170-HW。图1中所示的一个概率表170-11包含项目175-11到175-NM。通常背景模型是为每个照相机建立的,从而易于快速分割前景和背景。为了防止需要背景模型来检测每个目标(处理为前景目标),根据本发明修改背景模型从而使其包含通常为静止的目标标识。此后,如果目标运动且已经被标识为通常为静止的目标,则在背景-前景分割期间不会不必要地将该目标变为前景的一部分。
在一个实施方式中,将运动目标归类到两集合中的一集合中。第一集合包括通常独立运动的目标,例如人和动物。当第一集合中的目标在图像中运动时,该目标将变为前景的一部分。该第二集合包括通常为静止的目标,例如家具。通常一旦将目标归类为第二集合,则即使该目标被移动(通常该目标的运动会导致该目标变为前景的一部分),也仍将该目标保留在背景中。通过这种方式,当背景目标被移动时,不会不必要地将该背景目标变为前景的一部分。
如图1所示,视频处理系统120从照相机105将视频输入107耦合到图像抓取器150中。图像抓取器150从该视频输入107中“抓取”一个单独图像,并生成输入图像155,该输入图像通常为多个像素。很明显,输入图像155包括高度方向的H个像素和宽度方向的W个像素,每个像素具有分别对应红、绿和蓝(RGB)信息的8位,总共为24位的RGB像素数据。也可以使用其它系统表现图像,但通常使用RGB。
该背景-前景分割处理200,300产生背景模型,并执行背景-前景分割。背景-前景分割处理200是在视频处理系统120的正常操作期间使用的,而背景-前景分割处理300是在训练中使用以便产生背景模型。一个单独的处理应当执行处理200和300,该单独处理可以简单被配置到正常操作模式或训练模式。但是,如果需要也可以使用分离处理。
在视频处理系统120的正常操作期间,背景-前景分割处理200使用概率表165来确定输入图像155中的HxW个像素中每个像素的似然概率。将每个似然概率与像素阈值195比较。如果该似然概率低于像素阈值195,则假设该像素属于背景。通过背景-前景分割处理200还可能修改概率模型,从而允许视频处理系统120假设,如果像素的似然概率大于像素阈值195,则该像素属于背景。对于视频处理系统120来说,如果该像素的似然概率在像素阈值范围内,甚至可能将该像素分配给背景。但是,为了简便起见,在此假设,如果像素的似然概率低于像素阈值195,则可以假设该像素属于背景。
在正常操作期间,背景-前景分割处理200通过使用概率表165和像素阈值195从输入图像中确定所分割的图像190。另外,背景-前景分割处理200可以使用概率模型(未示出)来确定每个像素的似然概率。下面将详细讨论优选概率模型。这些概率模型在背景-前景分割处理200根据该模型执行一系列步骤的意义上被“置入”背景-前景分割处理200(和300)中。换句话说,背景-前景分割处理200利用一个或多个概率模型至少部分限定了它的步骤。为了简便起见,用于执行背景-前景分割的概率模型和背景-前景分割处理将被认为可以互换。但是,应当注意在执行根据模型确定概率的必须的步骤的同时,背景-前景分割处理还有与根据模型确定概率不相关的其它步骤。例如,从输入图像155中检索数据并将这些数据存储在数据结构中都是不根据概率模型执行的可能步骤。
在训练期间,背景-前景分割处理300定义和改进了概率表170-11到170-HW(在此总的来说“概率表170”)。优选地,对输入图像155的每个像素都有一个概率表。每个概率表具有一个MxN矩阵,如对于概率表170-11所示具有项目175-11到175-NM(在此总的来说“项目175”)。每个像素应当有M个全局状态和N个高斯模式。通常,每个概率表170将以一个全局状态和一个高斯模式开始,在训练后包含MxN个项目175。
在训练期间,背景-前景分割处理300使用全局阈值180来确定是否应当加入一个状态或者修改所选择状态的参数。在训练期间使用像素阈值195来确定是否应当加入另一个高斯模式或是否应当调节所选择高斯模式的参数。
应当注意该示例性背景-前景分割处理300允许训练递增。该示例性背景-前景分割处理300可以在每次将图像输入到模型中或已经将预定数目图像输入到模型之后调节该模型的参数。即使后者是可能的,也优选前者。
如本领域公知,本文中所述的方法和装置可作为一种制造商品销售,该商品本身包括计算机可读介质,该介质具有配备在其上的计算机可读代码装置。计算机可读程序代码装置是可操作的,与例如视频处理系统120的计算机系统结合实施全部步骤或其中一部分步骤,从而执行在此讨论的方法和产生在此讨论的装置。该计算机可读介质可以是可记录介质(例如软盘、硬盘驱动器、压缩盘例如通过介质接口135可访问的DVD110、或存储卡)或者可以是传输介质(例如包括光纤的网络115,全球互联网,电缆或使用时分多址、码分多址的无线信道或其他射频信道)。任何公知或已有的可以存储适用于计算机系统的信息的介质,都可以被使用。该计算机可读代码装置是用于使计算机读取指令和数据的任何机构,这些指令和数据例如是磁介质上的磁性变化或例如DVD110的压缩盘的表面上的高度变化。
存储器145将配置处理器130来执行本文中所述的方法、步骤和功能。该存储器145可以是分布式或本地存储器,该处理器130可以为分布式的或单一的。该存储器145可以为电、磁或光学存储器,或这些或其它类型存储设备的任何集合。该术语“存储器”可以被广义解释为包含能够对处理器130可访问的可寻址空间中的地址进行任何信息读写。利用这个限定,例如通过网络接口140访问的网络115的网络上的信息也在视频处理系统120的存储器145内,因为该处理器130可以从网络中得到该信息。还应当注意,视频处理系统120的全部或部分都可被实现为集成电路或例如可编程逻辑电路的其他相似设备。
上面已经说明了系统,下面将说明概率模型,该概率模型可以提供全局和局部像素相关性和逐步增加的训练。
概率模型
在优选概率框架中,将图像(即像素外观的二维阵列)解释为从高维随机处理中得到的多个采样。在该处理中,图像的像素数目规定了维的数目。正式情况下,假设
表示WxH个像素的图像,这些像素在观察空间Θ中具有值(即,每个像素24位的RGB值)。
与该随机处理P(I|Ω)相联系的概率分布可以捕捉与场景和成像系统均有联系的基本图像产生处理。这包括场景中存在的颜色和文理以及图像变化的多种原因,例如场景中的运动、光变化、照相机的自动增益控制和其它图像变化。
大多数传统算法都是在假设每个像素彼此独立的前提下对场景图像模型化。实际上,图像成型处理和典型场景的物理特性导致很多限制,这些限制使得像素在全局意义(即整个图像或一系列图像)和局部意义上(即,图像中的区域)具有相当大的相关性。
所提出的示例性模型通过引入隐藏处理ξ来使用场景图像内的多个像素之间的相关性,该隐藏处理ξ捕捉该场景观察的全局状态。例如,在场景具有几个可能发光设置的情况下,离散变量ξ可以将指针表现为几个可能的发光状态。
所提出的模型背后的基本思想是对捕捉图像中多个像素之间相关性的模型阶段与捕捉每个像素外观的模型阶段区分开来,从而使得问题更易处理。即,根据下面公式便于计算图像的似然概率:
其中P(ξ|Ω)表示场景的全局状态的概率,P(I|ξ,Ω)表示在场景全局状态ξ的情况下像素外观的似然概率。注意由于像素之间的相关性是由第一阶段捕捉到的,因此可以合理假设,在场景全局状态ξ的情况下,图像I的像素彼此独立。因此,可以将等式{1}写为:
其中P(Ix,y|ξ,Ω)表示用于模拟图像I的像素(x,y)的概率。
根据用于捕捉场景观察全局状态的模型的复杂性,即P(ξ|Ω),所执行的处理能够处理多种应用情况中出现的不同类型的成像变化。例如,如果在ξ的表达式中使用了增益函数的参数化表达式,则由于照相机的自动增益控制易于执行对变化的背景-前景分割处理加强。
出于简化,利用在三维RGB颜色空间中具有全协方差矩阵的高斯混合分布,可以模拟全局状态ξ下的每个像素值P(Ix,y|ξ,Ω)。较正式的,可以使用下面的等式:
其中
Ia,x,y和∑a,x,y为(x,y)像素的第a个高斯混合模式的平均值和协方差距阵。这些参数是用于表示整个图像模型的符号参数变量Ω的子集。
注意,前面的研究已经表明其它颜色空间优选地用于处理例如阴影等问题,如果需要在此可以使用该研究。但是,本说明书的重点在于模拟该场景的全局状态。
优选地利用离散变量ξ={1,2,...,M}来模拟场景观察的全局状态,该变量捕捉该场景中的全局和局部变化,以致等式{2}变为下面公式:
注意上述模型和传统的高斯混合之间的差别。与独立模拟每个像素的高斯混合分布相反,本发明的模型使用了高斯分布集合来模拟与全局状态相联系的每个像素。
等式3可以如下重写为:
其中项G(ξ,ax,y)=P(ξ|Ω)1/WHP(ax,y)可以简单地被作为与图像模型的每个像素位置相联系的MxN矩阵。在该例子中,M为全局状态的数目,N为高斯模式的数目。在图1的例子中,MxN矩阵存储在概率表165中,在该概率表中针对每个像素有一个MxN矩阵170。
分割过程
假设从来自一个场景的一个图像观察集合已经成功地训练了上述提出的多个模型中的一个,则新观察到的图像的分割过程简单地基于最大似然分类。训练在下一部分讨论。
图2的方法200示出了一个示例性分割过程。系统在正常操作期间使用方法200来执行背景-前景分割。如上所述,此时已经执行了训练。
方法200在步骤210开始,此时检索一幅图像。通常,对于该图像的每个像素以24位来存储每个图像,该24位对应RGB值。如上所述,也可以使用其它系统,但是示例性方法200假设正在使用RGB值。
假设测试图像为It,分割算法确定(步骤220)全局状态ξ*,该全局状态最大化由以下模型给出的图像的似然概率:
然后,利用各似然概率但仅考虑最大相似的全局状态ξ*,对每个像素独立地执行背景-前景分割。为了执行步骤,在步骤230中选择一个像素。针对最相似的全局状态确定每个像素的各自的似然概率(步骤240),并在下面等式中使用该似然概率来确定是否应当将每个像素指定给背景或前景(步骤250):
其中s={sx,y(x,y)}表示背景-前景分割的二进制图像,其中非零像素表示前景目标。基本上,等式{6}说明如果像素的似然概率小于像素阈值(步骤250=是),那么在步骤255执行进一步检测来确定是否通过根据本发明的背景模型目标分类处理400已经将该像素预先标识为背景的一部分,相反(步骤250=否)将该像素分配给背景(步骤270)。
如果在步骤255确定像素已经通过背景模型目标分类处理400被预先标识为背景的一部分,则在步骤270期间将该像素分配给背景。但是如果在步骤255确定没有通过背景模型目标分类处理400将该像素预先标识为背景的一部分,则将该像素分配给前景(步骤260)。
对每个关心的像素(通常图像中的所有像素)执行等式{6}。因此,在步骤280中,如果图像中的所有像素都被分配给背景或前景(步骤280=否),则方法200结束,否则(步骤280=是)该方法继续到步骤230,并对新选择的像素执行等式6。
注意即使在不同全局状态下像素的颜色值也被模拟为背景的一部分的情况下,处理200怎样成功地将像素归类为前景。例如,如果在训练过程中一个穿着红色衬衣的人在一个场景背景中行走,则多个高斯混合模式中的一个将在这个人的衬衣所经过的所有像素中捕捉该红色。稍后在测试中,如果这个人再次在该场景背景中行走(当然,大概沿着同样的线路),则他或她就不会被检测为前景。但是,如果那个人靠近照相机,有效地改变了场景的全局状态,则即使在已经将红色与背景联系起来的图像区域内,也可以将他或她的红色衬衣正确地分割出来。
作为另一个例子,考虑其中部分背景看起来(i)在场景中的暗照明中很黑,和(ii)当场景正确照明时为暗绿的情况。本发明的模型利用像素之间的整体相关性,可以在场景被照明时检测背景中的黑色目标,并在场景黑暗时检测绿色前景目标。在传统模型中,黑色和绿色都被认为是背景颜色,以致这些目标将被完全忽略。
训练过程
利用预期-最大化(EM)算法可以进行具有给定图像采样集合(例如视频片断)的所提出的模型的离线训练。例如,可以将各个像素模型P(It x,y|ξx,Ω)的参数随机初始化约等于所观察到的训练数据的平均值,同时可以将各状态的概率均匀初始化。然后,利用EM循环,可以将该模型的所有参数更新为局部最大方法,该方法通常为很好的方法。该EM算法是公知算法,例如在J.Roy.Statist.Soc.B 39:1-38(1977)的A.Dempster,N.Laird和D.Rubin所著的“Maximum Likelihood FromIncomplete Data via the EM Algorithm(通过EM算法根据不完整的数据得到最大似然)”中有所描述,该文献公开的内容在此引作参考。
图3中描述的示例的训练过程逐步增加地训练这些模式,并自动确定全局状态的适当数目。对这些模式的逐步增加的训练可以使处理在很长的时间段内连续地运行,以便捕捉一个完整的训练样本集合,该训练样本包含模型化场景的各种图像变化。对全局状态的数目的自动确定可以使模型尺寸最小化,这依次减少处理对存储器的要求,并加速背景-前景的分割过程。
图3示出了一个示例性的训练处理。该示例性训练处理包括一个渐增的程序,该程序中可以将数目不限的训练样本传送到该模型。每次向模型传送一个新的样本图像(即,将新图像It传送到步骤305中的模型),则处理300首先执行一个预期步骤(EM算法中的E-步骤)用于确定最可能的全局状态ξ*(步骤310)和对图像的每个像素最可能的高斯混合模式,αx,y(步骤315)。应注意这些步骤类似于分割过程处理200中的步骤。
在步骤320中,确定所选择的状态的相同图像的似然概率。然后,根据所选择的全局状态的样本图像的似然概率值(步骤325),处理300在调整所选择状态的参数(步骤335)或增加一个新的状态(步骤330)之间进行选择。若所选择状态的样本图像的似然概率大于一个全局阈值(步骤325=是),则调整所选择状态的参数(步骤335)。若所选择状态的样本图像的似然概率小于或等于全局阈值(步骤325=否),则增加一个新的状态(步骤330)
在步骤340,确定每个像素位置的所选择高斯混合模式的各个似然概率。然后,根据每个像素位置的所选择的高斯混合模式的各个似然概率,该算法在调整所选模式或增加新模式之间进行选择。为此,在步骤345,选择一个像素。若该像素位置的所选高斯混合模式的各个似然概率大于像素阈值(步骤350=是),则调整所选择的模式(步骤360),否则(步骤350=否)增加一个新的模式(步骤355)。若还有更多像素(步骤365=是),则方法300继续到步骤345,否则(步骤365=否),该方法继续到步骤370。若还有更多的样本图像需要处理(步骤370=是),则方法300继续到步骤305,否则(步骤370=否)方法结束。
应注意在示例性训练方法300中使用两个阈值:一个用于确定每个像素位置,另一个用于确定图像的全局状态。
每个像素位置的每个高斯混合模式优选地保持跟踪计算其参数所用的样本总数,以致当增加一个新的样本时,可以渐增地进行该参数的再次估计。例如,可以利用下述公式简单地更新高斯混合模式的平均值和协方差:
其中Ka,x,y是用于训练该高斯混合模式已经使用的样本数目。
类似地,每个全局状态都保持跟踪用于训练的样本总数,从而当增加一个样本时,考虑到新样本的增加,可以利用各个状态和高斯混合模式的使用率统计来更新概率表G(ξ,αx,y)。
有利地,总体模型只通过每个像素位置的一个状态和一个高斯混合模式被初始化。同样,在预期步骤(步骤315和步骤320)中使用全局状态和/或高斯混合模式之前应当需要最少10个样本。
背景模型的增强
如前所述,背景-前景分割处理300定义和改进了训练阶段中的概率表170-11到170HW(这里总称为“概率表170”)。初始时,概率表170包括一个用于输入图像155的每个像素的概率表。以下将结合图4说明,背景模型目标分类处理400改变了背景模型的概率表170,以容纳通常为静止的目标的指示。通过这种方式,若一个目标运动了,且该目标预先被识别为通常静止的目标,则该目标在背景-前景分割期间将不会不必要地成为前景部分。
在背景模型目标分类处理400的示例性实施中,移动目标被归类为两种集合之一。第一集合包括通常独立运动的目标,例如人和动物,第二集合包括通常静止的目标,例如家具。通常,一旦一个目标被分配到第二集合,则即使该目标运动了,该目标也将保留在背景中(通常,该目标的移动会使该目标成为前景部分)。通过这种方式,当背景目标移动时,背景目标不会不必要地成为前景部分。
图4是表示结合本发明特征的示例性背景模型目标分类处理400的流程图。如图4所示,一开始背景模型目标分类处理400在步骤405期间,利用已知的连接成份分析技术将每个图像的前景中的像素进行分组,从而形成严格目标,称为团点(blob)。
然后在步骤410中执行测试,直到确定背景目标已被移动了超过一特定阈值T。可以检测背景目标的移动,例如,利用公知的光流方法。通常,背景被抑制为两个连续的图像,前景被减去,从而检测运动,给定目标运动了多远,和运动速度。这里可以使用宽高比信息和多帧处理技术,例如2001年2月27日提交的序列号为09/794443,标题为“Classification of Objects Through Model Ensembles”的美国专利申请,该专利申请在这里引作参考。
一旦在步骤410中检测到背景目标的运动,则在步骤420中执行进一步测试,以确定该运动的背景目标是否通常为静止的。例如,上述2001年2月27日提交的序列号为09/794443,标题为“Classification ofObjects Through Model Ensembles”的美国专利申请中所述的技术就可以用来将目标分类为无生命目标,例如一件家具,并可以建立一套规则来指示某些所分类的目标是否通常为静止。
若在步骤420中确定,运动的背景目标通常为静止,则在步骤430对与该目标相关的像素设置一个标识,指示该运动目标通常为静止。
然而,若在步骤420中确定,运动的背景目标通常不是静态的,则在步骤440对与该目标相关的像素设置一个标识,指示该运动目标通常独立运动。然后在步骤460程序控制终止,直到在步骤410中再次检测到背景目标的运动。
附加实施例
一般惯例是,利用消除总和需要的最高概率来近似高斯模式的高斯混合概率,这样可避免方程的进一步简化。
利用两个级别的近似,(a)每个像素的混合之和变成下式:
和(b)各种全局状态之和变成下式:
公式{4}可以简化为下式:
应注意双重最大化。第一个最大化在像素级别,被用来考虑现有的每个全局状态来确定优选匹配高斯模式。第二个最大化在图像级别被用来确定具有观察的最大似然概率的状态。
另一个加速该系列算法的实施的惯例是,计算概率的对数,而不是实际的概率。该情况下,不需要评价高斯分布的指数函数,由于对数的减小范围,公式{7}的乘积变成为利用定点运算可以实现的总和。
应当注意这里描述的模型可以被修改,以致当前写入的若概率大于阈值时执行一个功能的测试步骤,可以按照修改后的规则被重写,从而若概率低于阈值或在该值的一定范围内,则相同的测试步骤将执行相同的功能。测试步骤仅仅是对正在讨论的特定模型例子的举例说明。不同的模型可能需要不同的测试步骤。
应当理解,这里所描述的实施例和变化都仅仅是对本发明原理的举例说明,在不脱离本发明范围和精神的前提下,本领的技术人员可以进行各种修改。
Claims (20)
1.一种方法,包括:
检索场景的一个图像,该图像包括多个像素;
得到所述场景的背景模型;和
在所述背景模型中提供一个指示,指示所述背景模型中的目标通常都是静止的。
2.如权利要求1所述的方法,还包括将与运动目标相关的像素信息转移到所述目标的新位置的步骤。
3.如权利要求1所述的方法,还包括将所述目标保持在所述背景中的步骤。
4.如权利要求1所述的方法,还包括即使所述目标运动时,也将所述目标保持在所述背景中的步骤。
5.如权利要求4所述的方法,其中利用光流方法来检测所述背景模型中的目标的所述运动。
6.如权利要求5所述的方法,其中所述光流方法指示所述运动的目标在所述图像中的新位置。
7.如权利要求1所述的方法,其中当所述目标运动超过了特定阈值时,提供所述背景模型中的目标通常静止的所述指示。
8.如权利要求1所述的方法,其中所述获取所述场景的背景模型的步骤还包括确定对应图像中像素的至少一个概率分布的步骤,利用模型执行的确定步骤,其中将图像中的至少一些像素模拟为与其它像素相关。
9.如权利要求1所述的方法,其中所述背景模型包括表示表示场景的全局状态的概率的项目和表示在该场景全局状态条件下的像素外观概率的项目。
10.如权利要求1所述的方法,其中该方法还包括以下步骤:
为模型提供训练图像;
确定模型参数;和
执行提供训练图像和对预定数目的训练图像确定参数的步骤。
11.一种系统,包括:
存储计算机可读代码的存储器;和
与所述存储器操作耦合的处理器,所述处理器被配置来执行所述计算机可读代码,所述计算机可读代码被配置来:
检索场景的一个图像,该图像包括多个像素;
得到所述场景的背景模型;和
在所述背景模型中提供一个指示,指示所述背景模型中的目标通常都是静止的。
12.如权利要求11所述的系统,其中所述处理器还被配置来将与运动目标相关的像素信息转移到所述目标的新位置。
13.如权利要求11所述的系统,其中所述处理器还被配置来将所述目标保持在所述背景中。
14.如权利要求11所述的系统,其中所述处理器还被配置来,即使所述目标运动,仍将所述目标保持在所述背景中。
15.如权利要求14所述的系统,其中利用光流系统来检测所述背景模型中的目标的所述运动。
16.如权利要求15所述的系统,其中所述光流系统指示在所述运动的目标的所述图像中的新位置。
17.如权利要求11所述的系统,其中当所述目标运动超过了特定阈值时,提供所述背景模型中的目标通常是静止的所述指示。
18.一种制造商品,包括:
其上配备有计算机可读代码装置的计算机可读介质,所述计算机可读程序代码装置包括:
检索场景的一个图像的步骤,该图像包括多个像素;
得到所述场景的背景模型的步骤;和
在所述背景模型中提供一个指示的步骤,指示所述背景模型中的目标通常都是静止的。
19.一种方法,包括
检索场景的一个图像,该图像包括多个像素;
得到所述场景的背景模型;和
在所述背景模型中提供一个指示,指示所述背景模型中的目标是无生命的目标。
20.如权利要求19所述的方法,还包括将所述无生命目标保持在所述背景中的步骤。
如权利要求19所述的方法,还包括即使所述无生命目标运动,也将所述无生命目标保持在所述背景中的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/184,517 US7190809B2 (en) | 2002-06-28 | 2002-06-28 | Enhanced background model employing object classification for improved background-foreground segmentation |
US10/184,517 | 2002-06-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1777912A true CN1777912A (zh) | 2006-05-24 |
Family
ID=29779383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA038151308A Pending CN1777912A (zh) | 2002-06-28 | 2003-06-18 | 用于改进的背景-前景分割的使用目标分类的增强背景模型 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7190809B2 (zh) |
EP (1) | EP1520257A2 (zh) |
JP (1) | JP2005531844A (zh) |
KR (1) | KR20050013236A (zh) |
CN (1) | CN1777912A (zh) |
AU (1) | AU2003237023A1 (zh) |
WO (1) | WO2004003847A2 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101389004B (zh) * | 2007-09-13 | 2010-06-09 | 中国科学院自动化研究所 | 一种基于在线学习的运动目标分类方法 |
CN107481256A (zh) * | 2016-06-08 | 2017-12-15 | 安讯士有限公司 | 用于更新背景模型的方法和装置 |
CN108460770A (zh) * | 2016-12-13 | 2018-08-28 | 华为技术有限公司 | 抠图方法及装置 |
CN108734684A (zh) * | 2017-04-20 | 2018-11-02 | 福特全球技术公司 | 动态照明场景的图像背景减除 |
CN109377509A (zh) * | 2018-09-26 | 2019-02-22 | 深圳前海达闼云端智能科技有限公司 | 图像语义分割标注的方法、装置、存储介质和设备 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040096102A1 (en) * | 2002-11-18 | 2004-05-20 | Xerox Corporation | Methodology for scanned color document segmentation |
US7956889B2 (en) * | 2003-06-04 | 2011-06-07 | Model Software Corporation | Video surveillance system |
US7280673B2 (en) * | 2003-10-10 | 2007-10-09 | Intellivid Corporation | System and method for searching for changes in surveillance video |
US7664292B2 (en) * | 2003-12-03 | 2010-02-16 | Safehouse International, Inc. | Monitoring an output from a camera |
US7486815B2 (en) * | 2004-02-20 | 2009-02-03 | Microsoft Corporation | Method and apparatus for scene learning and three-dimensional tracking using stereo video cameras |
US7359552B2 (en) * | 2004-12-15 | 2008-04-15 | Mitsubishi Electric Research Laboratories, Inc. | Foreground detection using intrinsic images |
US7639841B2 (en) * | 2004-12-20 | 2009-12-29 | Siemens Corporation | System and method for on-road detection of a vehicle using knowledge fusion |
US7676081B2 (en) * | 2005-06-17 | 2010-03-09 | Microsoft Corporation | Image segmentation of foreground from background layers |
US8265349B2 (en) * | 2006-02-07 | 2012-09-11 | Qualcomm Incorporated | Intra-mode region-of-interest video object segmentation |
US8265392B2 (en) * | 2006-02-07 | 2012-09-11 | Qualcomm Incorporated | Inter-mode region-of-interest video object segmentation |
US8150155B2 (en) * | 2006-02-07 | 2012-04-03 | Qualcomm Incorporated | Multi-mode region-of-interest video object segmentation |
US7974456B2 (en) * | 2006-09-05 | 2011-07-05 | Drvision Technologies Llc | Spatial-temporal regulation method for robust model estimation |
US9141557B2 (en) | 2006-12-08 | 2015-09-22 | Ashish A. Pandya | Dynamic random access memory (DRAM) that comprises a programmable intelligent search memory (PRISM) and a cryptography processing engine |
US8300890B1 (en) * | 2007-01-29 | 2012-10-30 | Intellivision Technologies Corporation | Person/object image and screening |
US8542872B2 (en) | 2007-07-03 | 2013-09-24 | Pivotal Vision, Llc | Motion-validating remote monitoring system |
US8233676B2 (en) | 2008-03-07 | 2012-07-31 | The Chinese University Of Hong Kong | Real-time body segmentation system |
KR20100065677A (ko) * | 2008-12-08 | 2010-06-17 | 한국전자통신연구원 | 고해상도 영상에서의 효과적인 움직이는 다중 물체 검출 방법 및 시스템 |
CN102576412B (zh) * | 2009-01-13 | 2014-11-05 | 华为技术有限公司 | 图像处理以为图像中的对象进行分类的方法和系统 |
US20130121565A1 (en) * | 2009-05-28 | 2013-05-16 | Jue Wang | Method and Apparatus for Local Region Selection |
CN101751669B (zh) * | 2009-12-17 | 2014-03-26 | 北京中星微电子有限公司 | 一种静止物体检测方法和装置 |
US8625897B2 (en) | 2010-05-28 | 2014-01-07 | Microsoft Corporation | Foreground and background image segmentation |
KR20120052767A (ko) * | 2010-11-16 | 2012-05-24 | 한국전자통신연구원 | 영상 분리 장치 및 방법 |
US20130027549A1 (en) * | 2011-07-29 | 2013-01-31 | Technische Universitat Berlin | Method and device for video surveillance |
US20130027550A1 (en) * | 2011-07-29 | 2013-01-31 | Technische Universitat Berlin | Method and device for video surveillance |
JP6046948B2 (ja) * | 2012-08-22 | 2016-12-21 | キヤノン株式会社 | 物体検知装置及びその制御方法、プログラム、並びに記憶媒体 |
US10678259B1 (en) * | 2012-09-13 | 2020-06-09 | Waymo Llc | Use of a reference image to detect a road obstacle |
US20140133753A1 (en) * | 2012-11-09 | 2014-05-15 | Ge Aviation Systems Llc | Spectral scene simplification through background subtraction |
CN103198470B (zh) * | 2013-02-26 | 2017-02-15 | 清华大学 | 图像的分割方法及系统 |
DE102014225797A1 (de) | 2014-12-15 | 2016-06-16 | Bayerische Motoren Werke Aktiengesellschaft | Vordergrund-Hintergrund Differenzierung im Fahrzeug |
AU2014280948A1 (en) | 2014-12-24 | 2016-07-14 | Canon Kabushiki Kaisha | Video segmentation method |
WO2016157457A1 (ja) * | 2015-03-31 | 2016-10-06 | 国立大学法人東北大学 | 画像処理装置、画像処理方法、及び、画像処理プログラム |
TWI557691B (zh) * | 2015-09-23 | 2016-11-11 | 睿緻科技股份有限公司 | 監視攝影裝置及其使用的區域式移動偵測方法 |
EP3479349B1 (en) * | 2016-06-29 | 2020-01-22 | Koninklijke Philips N.V. | Change detection in medical images |
KR102579994B1 (ko) * | 2016-10-24 | 2023-09-18 | 삼성에스디에스 주식회사 | 다중 배경 모델을 이용한 전경 생성 방법 및 그 장치 |
KR20190004010A (ko) * | 2017-07-03 | 2019-01-11 | 삼성에스디에스 주식회사 | 전경 추출 방법 및 장치 |
US10475191B2 (en) | 2018-01-17 | 2019-11-12 | Sensormatic Electronics, LLC | System and method for identification and suppression of time varying background objects |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07117377B2 (ja) | 1988-11-04 | 1995-12-18 | 松下電器産業株式会社 | 位置認識方法 |
DE69127879T2 (de) * | 1990-11-30 | 1998-04-09 | Koninkl Philips Electronics Nv | Verfahren zur Herstellung eines Bewegungsfilters für langsame Ziele |
US5471544A (en) * | 1992-05-18 | 1995-11-28 | Markandey; Vishal | Condition number-based smoothins of optical flow fields |
KR100292138B1 (ko) * | 1993-07-12 | 2002-06-20 | 이데이 노부유끼 | 디지탈비디오신호용송신기및수신기 |
JP3123587B2 (ja) | 1994-03-09 | 2001-01-15 | 日本電信電話株式会社 | 背景差分による動物体領域抽出方法 |
US5666157A (en) * | 1995-01-03 | 1997-09-09 | Arc Incorporated | Abnormality detection and surveillance system |
US6049619A (en) | 1996-02-12 | 2000-04-11 | Sarnoff Corporation | Method and apparatus for detecting moving objects in two- and three-dimensional scenes |
GB9719694D0 (en) | 1997-09-16 | 1997-11-19 | Canon Kk | Image processing apparatus |
US6184858B1 (en) * | 1998-02-06 | 2001-02-06 | Compaq Computer Corporation | Technique for updating a background image |
US6542621B1 (en) * | 1998-08-31 | 2003-04-01 | Texas Instruments Incorporated | Method of dealing with occlusion when tracking multiple objects and people in video sequences |
US6570608B1 (en) * | 1998-09-30 | 2003-05-27 | Texas Instruments Incorporated | System and method for detecting interactions of people and vehicles |
US6424370B1 (en) * | 1999-10-08 | 2002-07-23 | Texas Instruments Incorporated | Motion based event detection system and method |
US20030058237A1 (en) * | 2001-09-27 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Multi-layered background models for improved background-foreground segmentation |
US20030156759A1 (en) * | 2002-02-19 | 2003-08-21 | Koninklijke Philips Electronics N.V. | Background-foreground segmentation using probability models that can provide pixel dependency and incremental training |
-
2002
- 2002-06-28 US US10/184,517 patent/US7190809B2/en not_active Expired - Fee Related
-
2003
- 2003-06-18 EP EP03735926A patent/EP1520257A2/en not_active Withdrawn
- 2003-06-18 CN CNA038151308A patent/CN1777912A/zh active Pending
- 2003-06-18 KR KR10-2004-7020948A patent/KR20050013236A/ko not_active Application Discontinuation
- 2003-06-18 WO PCT/IB2003/002759 patent/WO2004003847A2/en not_active Application Discontinuation
- 2003-06-18 AU AU2003237023A patent/AU2003237023A1/en not_active Abandoned
- 2003-06-18 JP JP2004517111A patent/JP2005531844A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101389004B (zh) * | 2007-09-13 | 2010-06-09 | 中国科学院自动化研究所 | 一种基于在线学习的运动目标分类方法 |
CN107481256A (zh) * | 2016-06-08 | 2017-12-15 | 安讯士有限公司 | 用于更新背景模型的方法和装置 |
CN107481256B (zh) * | 2016-06-08 | 2019-05-14 | 安讯士有限公司 | 用于更新背景模型的方法和装置 |
CN108460770A (zh) * | 2016-12-13 | 2018-08-28 | 华为技术有限公司 | 抠图方法及装置 |
CN108460770B (zh) * | 2016-12-13 | 2020-03-10 | 华为技术有限公司 | 抠图方法及装置 |
CN108734684A (zh) * | 2017-04-20 | 2018-11-02 | 福特全球技术公司 | 动态照明场景的图像背景减除 |
CN108734684B (zh) * | 2017-04-20 | 2023-08-18 | 福特全球技术公司 | 动态照明场景的图像背景减除 |
CN109377509A (zh) * | 2018-09-26 | 2019-02-22 | 深圳前海达闼云端智能科技有限公司 | 图像语义分割标注的方法、装置、存储介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2005531844A (ja) | 2005-10-20 |
KR20050013236A (ko) | 2005-02-03 |
WO2004003847A3 (en) | 2004-04-22 |
AU2003237023A8 (en) | 2004-01-19 |
EP1520257A2 (en) | 2005-04-06 |
WO2004003847A2 (en) | 2004-01-08 |
US7190809B2 (en) | 2007-03-13 |
US20040001612A1 (en) | 2004-01-01 |
AU2003237023A1 (en) | 2004-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1777912A (zh) | 用于改进的背景-前景分割的使用目标分类的增强背景模型 | |
Wang et al. | Interactive deep learning method for segmenting moving objects | |
US9830529B2 (en) | End-to-end saliency mapping via probability distribution prediction | |
CN110651310B (zh) | 估计对象密度和/或流量的深度学习方法及相关方法和软件 | |
Marks et al. | Deep-learning-based identification, tracking, pose estimation and behaviour classification of interacting primates and mice in complex environments | |
US20190252073A1 (en) | System and method for diagnosing gastrointestinal neoplasm | |
Li et al. | Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans | |
US11640714B2 (en) | Video panoptic segmentation | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
Yin et al. | Bilayer segmentation of webcam videos using tree-based classifiers | |
CN1509456A (zh) | 在单目脸部跟踪中使用数据驱动模型的方法和系统 | |
Zhang et al. | A MobileNetV2-SENet-based method for identifying fish school feeding behavior | |
Vijayakumar et al. | Yolo-based object detection models: A review and its applications | |
CN112347977B (zh) | 一种诱导性多能干细胞的自动检测方法、存储介质及装置 | |
Neiswanger et al. | The dependent Dirichlet process mixture of objects for detection-free tracking and object modeling | |
CN113344932A (zh) | 一种半监督的单目标视频分割方法 | |
GB2523330A (en) | Method, apparatus and computer program product for segmentation of objects in media content | |
CN1272747C (zh) | 用于跟踪图像中移动物体的方法和装置 | |
CN1799066A (zh) | 使用概率框架的基于块的分析的计算机视觉方法及系统 | |
Li et al. | Coarse-to-fine salient object detection based on deep convolutional neural networks | |
Bhuiyan et al. | A deep crowd density classification model for Hajj pilgrimage using fully convolutional neural network | |
Balaji et al. | Object detection using Metaheuristic algorithm for volley ball sports application | |
Ramcharan et al. | Assessing a mobile-based deep learning model for plant disease surveillance | |
Abdulmohsin et al. | Implementation of Patch-Wise Illumination Estimation for Multi-Exposure Image Fusion utilizing Convolutional Neural Network | |
CN111401122B (zh) | 一种基于知识分类的复杂目标渐近识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |