CN102592109B

CN102592109B - 用于视频对象检测的方法和系统

Info

Publication number: CN102592109B
Application number: CN201110332653.6A
Authority: CN
Inventors: A·K·谷帕塔; A·帕尔迪斯; 刘新宇
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-10-29
Filing date: 2011-10-28
Publication date: 2014-10-15
Anticipated expiration: 2031-10-28
Also published as: CN102592109A; AU2010238543B2; US20120106856A1; US10181088B2; AU2010238543A1

Abstract

本发明涉及用于视频对象检测的方法和系统。这里公开用于对于输入图像执行前景/背景分离的系统和方法。所述方法对于输入图像中的各输入视觉元素执行以下的步骤。所述方法识别与输入图像相关的场景模型(200)中的相应的模型视觉元素，模型视觉元素与元素模型组(210)相关，各元素模型(220)包含多个视觉数据组(230、240)。所述方法然后根据满足预先确定的准则的输入视觉元素和选择的元素模型(220)的视觉数据组(230、240)之间的视觉距离，从元素模型组(210)选择元素模型(220)。所述方法根据选择的元素模型(220)将输入视觉元素归类为前景和背景中的一个，并然后根据输入视觉元素和更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型(220)中的各视觉数据组(230、240)。

Description

用于视频对象检测的方法和系统

技术领域

本公开一般涉及视频处理，特别地，涉及视频中的前景对象与背景的分离。

背景技术

当前，诸如摇摄-倾斜-变焦(PTZ)照相机的视频照相机是十分普遍的，并且常常用于监视目的。照相机所捕获的数据(视频内容)多于观察者所能够处理的。因此，需要视频内容的自动分析。

术语前景对象和前景指的是在视频上捕获的场景中出现的瞬时对象。这些瞬时对象可包含例如运动的人。即使场景的剩余部分包含诸如水波纹或在风中运动的草的运动，所述剩余部分也被视为背景区域。

视频内容的处理中的重要步骤是将视频数据分离成前景对象与背景场景或背景。该处理被称为前景/背景分离。这种分离使得能够进行进一步的分析，诸如特定前景对象的检测或运动对象的跟踪。这种进一步的分析具有许多的应用，包括例如自动视频监视和诸如人员计数的统计汇集。

前景/背景分离的一种方法是统计场景模型化。在一个例子中，对于各像素保持多个高斯分布，以将像素的最近的历史模型化。当接收新的输入帧时，对照(against)通过相应的像素位置处的模型保持的高斯分布评价来自输入帧的各像素。如果输入像素匹配高斯分布中的一个，那么，以适应性学习率更新相关的高斯分布的参数。否则，创建用于所述像素的新的高斯模型。

前景/背景分离的另一方法保持两个基于像素的背景模型B1和B2。B1包含初始化(initialisation)时段期间对于各像素位置的最小值，B2包含最大值。当接收新的帧时，在每像素的基础上计算输入帧和各背景模型之间的差异。对于各像素，通过使用具有固定的学习率的近似的中间更新方法来更新对于所述像素具有最小的差异的相应的模型。

另一技术使用能够处理场景的迅速变化和逐渐变化两者的双背景模型。为了这样做，从以恒定的速度采样的高速缓存帧的列表导出正常的背景模型。双背景模型系统还尝试检测场景中的大变化情况。仅当检测到大变化情况时，才基于以比正常背景模型快的速度采样的高速缓存帧的另一列表创建新的背景模型。

对于生成准确的前景/背景分离，开发鲁棒的场景模型是关键的。构建鲁棒的场景模型的主要挑战之一是适应场景的变化。一些现有技术很好地处理逐渐和缓慢的变化。但是，当场景中的变化变得大和快时，这些现有技术的模型不能跟上变化，并因此导致多个错误的前景检测。现有技术不能处理另一类型的变化，所述另一类型的变化包括从稳定状态出现延长的大和快的变化、接着迅速和突然复原(reversion)到所述稳定状态。处理包含大和快的变化的第一类型的变化的现有方法不处理突然的复原。相反，处理包含突然的复原的第二类型的变化的现有方法不处理大和快的变化。

因此，需要改进的视频对象检测方法。

发明内容

本公开涉及用于更新用于在图像处理中执行前景/背景分离的场景模型的方法和系统。前景/背景分离可然后被用于识别视频序列中的前景对象。本公开提供与场景模型中的各模型视觉元素相关的元素模型组。各元素模型与多个视觉数据组相关。所述方法利用视觉数据组来选择元素模型并然后根据选择的元素模型将输入视觉元素归类。所述方法然后根据不同的学习率更新与选择的元素模型相关的视觉数据组。

根据本公开的第一方面，提供一种对于输入图像执行前景/背景分离的计算机实现的方法。所述方法包括以下的步骤：对于输入图像中的各输入视觉元素：识别与输入图像相关的场景模型中的相应的模型视觉元素，模型视觉元素与元素模型组相关，各元素模型包含多个视觉数据组；根据满足预先确定的准则的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离，从元素模型组选择元素模型；根据选择的元素模型将输入视觉元素归类为前景和背景中的一个；和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型中的各视觉数据组。

根据本公开的第二方面，提供一种上面记录有对于输入图像执行前景/背景分离的计算机程序的计算机可读存储介质。计算机程序包括用于执行以下的步骤的代码：对于输入图像中的各输入视觉元素：识别与输入图像相关的场景模型中的相应的模型视觉元素，模型视觉元素与元素模型组相关，各元素模型包含多个视觉数据组；根据满足预先确定的准则的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离，从元素模型组选择元素模型；根据选择的元素模型将输入视觉元素归类为前景和背景中的一个；和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型中的各视觉数据组。

根据本发明的第三方面，提供一种用于对于输入图像执行前景/背景分离的装置。所述装置包括用于存储计算机程序的存储设备和用于执行程序的处理器。所述程序包含用于执行以下的方法步骤的代码：对于输入图像中的各输入视觉元素：识别与输入图像相关的场景模型中的相应的模型视觉元素，模型视觉元素与元素模型组相关，各元素模型包含多个视觉数据组；根据满足预先确定的准则的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离，从元素模型组选择元素模型；根据选择的元素模型将输入视觉元素归类为前景和背景中的一个；和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型中的各视觉数据组。

根据本发明的第四方面，提供一种对于输入视频帧执行前景/背景分离的计算机实现的方法。所述方法包括以下的步骤：接收与帧相关的场景模型中的元素模型组，其中，元素模型组中的各元素模型包含第一和第二视觉组；对于场景模型中的场所处的视觉元素，比较与该视觉元素相关的至少一个元素模型的第一和第二视觉组与对应于所述场所的帧中的视觉元素的视觉组；基于所述比较步骤选择第一和第二视觉组中的一个，第一和第二视觉组中的所述一个到相应元素的视觉组的视觉距离满足预先确定的准则；基于选择的视觉组从元素模型组选择元素模型；基于选择的元素模型将输入视觉元素归类为前景和背景中的一个；通过使用第一方法基于相应元素的视觉组更新选择的元素模型的第一视觉组；和通过使用与第一方法不同的第二方法基于相应元素的视觉组更新选择的元素模型的第二视觉组。

根据本发明的另一方面，提供用于实现上述的方法中的任一个的装置。

根据本发明的另一方面，提供包括上面记录有用于实现上述的方法中的任一个的计算机程序的计算机可读介质的计算机程序产品。

还公开了本发明的其它方面。

附图说明

现在，将参照以下的附图描述本公开的一个或更多个实施例，其中，

图1表示可在其上执行前景/背景分离的照相机的示意性功能框图；

图2表示由元件模型组成的场景模型的框图；

图3表示示出使场景模型与输入帧匹配的方法的示意性流程图；

图4表示示出选择匹配在图3的方法中使用的输入视觉元件的元件模型的方法的示意性流程图；

图5表示LR_max的值如何控制每个帧的模型值的最大变化的示图；

图6A和图6B形成可实施所述的布置的通用计算机系统的示意性框图；

图7A和图7B表示模型中的视觉数据组之间随时间的歧离(divergence)；

图8表示在元件模型中存在单个视觉数据组并且所述视觉数据组具有高的LR_max时的有问题的复原情景(scenario)的示图；以及

图9表示在元件模型中存在单个视觉数据组并且所述视觉数据组具有低的LR_max时的有问题的复原情景的示图。

具体实施方式

当在附图中的任意一个或更多个中参照具有相同的附图标记的步骤和/或特征的情况下，除非出现相反的意图，否则，这些步骤和/或特征对于本说明书具有相同的功能或操作(operation)。

视频是一系列的图像或帧。因此，各帧是图像序列(视频序列)的图像。视频的各帧具有x轴和y轴。场景是在帧中包含的信息，并且可包含例如前景对象、背景对象或它们的组合。场景模型是与场景有关的存储的信息，并且可包含前景、背景或它们的组合。场景模型一般涉及从图像序列得到的背景信息。视频可被编码和压缩。可以诸如运动JPEG(M-JPEG)那样在帧内或者诸如在H.264标准中规定的那样在帧间执行这种编码和压缩。图像由视觉元素构成。视觉元素可以为例如像素或在运动JPEG流中的JPEG图像中使用的8×8DCT(离散余弦变换)块或在运动JPEG2000流中的JPEG2000图像中使用的子波域变换图像。帧轴中的视觉元素位置由被考虑的视觉元素的x坐标和y坐标表示。

视觉元素的一种表现形式是像素视觉元素。在一个实施例中，各视觉元素具有描述视觉元素的三(3)个值。在一个例子中，三个值是红色、绿色和蓝色值(RGB值)。表示视觉元素的特性的值被称为视觉元素属性。与各视觉元素相关的值的数量和类型(视觉元素属性)依赖于用于实现本公开的实施例的装置所利用的格式。应当注意，根据具体实现，可以等同地利用以诸如四值的青色、品红色、黄色和键黑色(Key black)(CMYK)的其它的颜色空间存储的值或表示色调-饱和度-亮度的值，而不脱离本公开的精神和范围。

视觉元素的另一表现形式使用8×8DCT块作为视觉元素。8×8DCT块的视觉元素属性是块的64亮度DCT系数、64色度红色(Cr)DCT系数和64色度蓝色(Cb)DCT系数。64亮度DCT系数可进一步被分成1DC系数和63AC系数。所述DC系数是视觉元素的平均亮度值的表现形式，并且，所述AC系数表示8×8块的亮度特性的频域信息。AC系数一般以之字形方式组织而从最低频率分量到最高频率分量排序。AC1表示具有最低的水平频率的DCT分量。AC2表示具有最低的垂直频率的水平分量，等等。较高编号的AC系数与较高的频率对应。属性被表示为(Y、U、V、AC)，表示DC系数(Y)、色度值(U、V)和AC系数(AC)，从而总共给出196个属性。属性的许多其它的组合是可能的，或者，可通过使用诸如线性回归技术的机器学习算法从上述的属性生成其它的属性。

应当注意，可通过使用视觉元素的其它的表现形式等同地实施所述方法。例如，DCT块可具有不同的尺寸以使得能够实现用于存储由DCT块表现的像素的属性的不同的粒度。也可使用诸如子波变换的其它的变换以从场景内的像素生成代表性的属性，使得可以累积场景的历史表现形式。

本公开涉及用于更新用于执行图像处理中的前景/背景分离的场景模型的方法和系统。然后可利用前景/背景分离以识别视频序列中的前景对象。使用场景模型的视频对象的检测包含比较接收的输入图像与场景模型，并因此确定输入图像的哪些部分或区域是前景，输入图像的哪些部分是背景。基于输入图像和比较的结果更新场景模型。

本公开提供多模态场景模型(multi-modal scene model)，其中，场景模型包含多个视觉元素，并且，各视觉元素与一组的元素模型(model)或模式(mode)相关。各元素模型包含与单个时间特征组相关的多个视觉数据组。所述方法利用用于与输入图像比较的视觉特征组和时间特征组。对于输入图像中的各视觉元素，所述方法识别元素模型的相应的组。对于相应元素模型组中的各元素模型，所述方法比较用于该元素模型的视觉数据组与正被处理的视觉元素。根据具体应用和实现，所述方法也可比较用于该元素模型的时间特征组与正被处理的视觉元素。所述方法从与该视觉元素相关的元素模型组中的元素模型确定和选择作为该视觉元素的最佳匹配的元素模型。所述方法然后根据不同的比率更新所选择的元素模型的视觉特征数据组。在一种布置中，以低的学习率更新第一视觉数据组，并且，以高的学习率更新第二视觉数据组。以低的学习率和高的学习率之间的预先定义的比率更新与选择的元素模型相关的任何进一步的视觉数据组。

一种布置通过利用更新视觉数据组的至少第一和第二不同的方法更新视觉数据组，其中，第一和第二不同的方法利用具有不同参数组的单个函数以实现不同的学习率。因此，用于更新第一视觉数据组的第一方法利用具有第一组参数的更新函数，并且，用于更新第二视觉数据组的不同的第二方法利用具有第二组参数的相同更新函数，其中，为了实现不同的学习率，第一组参数和第二组参数是不同的。

一种布置通过利用更新视觉数据组的至少第一和第二不同的方法更新视觉数据组，其中，第一和第二不同的方法利用多个函数以实现不同的学习率。因此，用于更新第一视觉数据组的第一方法利用具有第一组参数的第一更新函数，并且，用于更新第二视觉数据组的第二方法利用具有第二组参数的第二更新函数，其中，为了实现不同的学习率，第一函数与第二函数不同。

在对于元素模型存在多于两个的视觉数据组的实施例中，通过使用相应的学习率更新视觉数据组中的每一个。在一个实现中，通过对于各视觉数据组使用具有不同的参数的单个函数来实现不同的学习率。在替代性实现中，通过使用不同的函数来实现不同的学习率。

在替代性实施例中，所述方法处理元素模型组中的用于正被处理的视觉元素的元素模型。但是，可能不必处理元素模型组中的所有元素模型。一旦识别具有对于正被处理的视觉元素提供足够好的匹配的视觉数据组的元素模型，就不必处理该元素模型组中的剩余元素模型。以此方式，能够减少处理时间。例如，通过比较视觉数据组和视觉元素之间的视觉距离分数与预先确定的阈值，可以确定视觉数据组是否对于视觉元素提供足够好的匹配。

图1表示可以在其上执行根据本公开的前景/背景分离的方法的照相机的示意性功能框图。照相机100是包含照相机模块101、摇摄和倾斜模块103以及透镜系统102的摇摄-倾斜-变焦照相机(PTZ)。照相机模块101一般包含至少一个处理器单元105、存储器单元106、光敏传感器阵列115、与传感器阵列115耦合的输入/输出(I/O)接口107、与通信网络114耦合的输入/输出(I/O)接口108和用于摇摄和倾斜模块103以及透镜系统102的接口113。照相机模块101的部件107、105、108、113和106一般通过互连的总线104通信并且以本领域技术人员已知的常规的操作模式的方式通信。

照相机100被用于捕获表现在照相机100的视场中出现的场景的视觉内容的也称为新输入图像的视频帧。由照相机100捕获的各帧包含一个或更多个视觉元素。视觉元素被定义为图像采样中的区域。图像采样可以是整个视频帧或视频帧的一部分。

可等同地在通用的计算机上实施根据本公开的前景/背景分离的方法。根据在通用计算机的处理器上执行的指令处理通过照相机捕获的视频帧，以识别场景的前景和背景区域。在一种布置中，视频照相机与用于处理捕获的帧的通用计算机耦合。通用计算机可以与照相机处于相同位置，或者可远离照相机并且通过通信链接或诸如因特网的网络被耦合。在另一种布置中，视频帧从存储器被检索并且被呈现给用于前景/背景分离的处理器。

图6A和图6B示出可在其上实施所述的各种布置的通用计算机系统600。

从图6A可以看出，计算机系统600包括：计算机模块601；诸如键盘602、鼠标指示器装置603、扫描仪626、照相机627和麦克风680的输入设备；和包含打印机615、显示装置614和扬声器617的输出设备。外部调制器-解调器(调制解调器)收发器装置616可被计算机模块601用于通过连接621向和从通信网络620通信。通信网络620可以是诸如因特网、蜂窝式电信网络或私人WAN的广域网(WAN)。在连接621是电话线的情况下，调制解调器616可以是常规的“拨号”调制解调器。作为替代方案，在连接621是高容量(例如，电缆)连接的情况下，调制解调器616可以是宽带调制解调器。对于与通信网络620的无线连接，也可使用无线调制解调器。

计算机模块601一般包含至少一个处理器单元605和存储器单元606。例如，存储器单元606可具有半导体随机存取存储器(RAM)和半导体只读存储器(ROM)。计算机模块601还包含多个输入/输出(I/O)接口，这些输入/输出(I/O)接口包含：与视频显示器614、扬声器617和麦克风680耦合的音频视频接口607；与键盘602、鼠标603、扫描仪627、照相机627耦合的I/O接口613；以及任选的游戏杆或其它的人接口设备(未示出)；和用于外部调制解调器616和打印机615的接口608。在一些实现中，调制解调器616可被加入计算机模块601内，例如，被加入接口608内。计算机模块601还具有允许计算机系统600通过连接623与称为局域网络(LAN)的局域通信网络622耦合的局域网络接口611。如图6A所示，局域通信网络622也可通过一般包含所谓的“防火墙”装置或具有类似功能的装置的连接624与广域网络620耦合。局域网络接口611可包含Ethernet^TM电路卡、Bluetooth^TM无线布置或IEEE 802.11无线布置；但是，对于接口611也可实施多个其它类型的接口。

I/O接口608和613可提供串行和并行连接中的任一种或两种，前者一般根据通用串行总线(USB)标准被实现并且具有相应的USB连接器(未示出)。存储设备609被设置并且一般包含硬盘驱动器(HDD)610。也可使用诸如软盘驱动器和磁带驱动器(未示出)的其它的存储设备。光盘驱动器612一般被设置为用作数据的非易失性源。例如，诸如光盘(例如，CD-ROM、DVD、Blu-ray Disc^TM)、USB-RAM、便携式外部硬盘驱动器和软盘的便携式存储设备可被用作系统600的适当的数据源。

计算机模块601的部件605～613一般通过互连的总线604通信并且以本领域技术人员已知的计算机系统600的常规的操作模式的方式通信。例如，处理器605通过使用连接618与系统总线604耦合。类似地，存储器606和光盘驱动器612通过连接619与系统总线604耦合。其上可实施所描述的布置的计算机的例子包含IBM-PC和兼容机、Sun Sparcstations、Apple Mac^TM或类似的计算机系统。

可通过使用计算机系统600实现执行前景/背景分离并检测图像处理中的对象的方法，其中，可作为可在计算机系统600内执行的一个或更多个软件应用程序633实现要描述的图2～5和图7～9的处理。特别地，通过在计算机系统600内实施的软件633内的指令631(参见图6B)实现执行输入视频帧上的前景/背景分离的方法的步骤。可作为分别用于执行一个或更多个具体任务的一个或更多个代码模块形成软件指令631a软件也可被分成两个单独的部分，其中，第一部分和相应的代码模块执行前景/背景分离方法，并且，第二部分和相应的代码模块管理第一部分和用户之间的用户接口。

软件633一般被存储于HDD 610或存储器606中。软件从计算机可读介质被加载到计算机系统600中，并且由计算机系统600执行。因此，例如，软件633可被存储于被光盘驱动器612读取的光学可读盘存储介质(例如，CD-ROM)625上。上面记录有这样的软件或计算机程序的计算机可读介质是计算机程序产品。计算机系统600中的计算机程序产品的使用优选实现用于执行对输入图像帧的前景/背景分离的装置，并且可被用于例如监视和安全应用中。

在一些情况下，应用程序633可被供给到用户、被编码在一个或更多个CD-ROM 625上、并且通过相应的驱动器612被读取，或者，可替代性地被用户从网络620或622读取。并且，软件也可从其它的计算机可读介质被加载到计算机系统600中。计算机可读存储介质指的是向计算机系统600提供用于执行和/或处理的记录的指令和/或数据的任何非易失性的可触知的存储介质。这些存储介质的例子包括软盘、磁带、CD-ROM、DVD、Blu-ray Disc、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘或诸如PCMCIA卡的计算机可读卡等，不管这些设备处于计算机模块601的内部或外部。也可参与向计算机模块601提供软件、应用程序、指令和/或数据的易失性的或不可触知的计算机可读传送介质的例子包含无线电或红外传送信道、以及与另一计算机或联网设备的网络连接，和包含在站点等上记录的电子邮件传送和信息的因特网或内联网。

上面提到的应用程序633的第二部分和相应的代码模块可被执行以实现在显示器614上呈现或以其它的方式表现的一个或更多个图形用户界面(GUI)。典型地通过键盘602和鼠标603的操作，计算机系统600的用户和应用能够以功能可适应(adaptable)的方式操作所述界面以向与GUI相关的应用提供控制命令和/或输入。也可实现其它形式的功能可适应的用户接口，诸如利用通过扬声器617输出的语音提示和通过麦克风680输入的用户声音命令的音频接口。

图6B是处理器605和“存储器”634的详细的示意性框图。存储器634表示可由图6A中的计算机模块601访问的所有的存储器模块(包含HDD 609和半导体存储器606)的逻辑集合。

当计算机模块601初始启动时，执行通电自测试(POST)程序650。POST程序650一般被存储于图6A的半导体存储器606的ROM649中。存储软件的诸如ROM 649的硬件设备有时被称为固件。POST程序650检查计算机模块601内的硬件以确保适当的功能，并且，为了正确操作，一般检查处理器605、存储器634(609、606)和一般也存储于ROM 649中的基本输入输出系统软件(BIOS)模块651。一旦POST程序650成功运行，BIOS 651就激活图6A的硬盘驱动器610。硬盘驱动器610的激活导致通过处理器605执行驻留于硬盘驱动器610上的引导(bootstrap)加载程序652。这将操作系统653加载到RAM存储器606中，此时，操作系统653开始操作。操作系统653是可由处理器605执行以完成包括处理器管理、存储器管理、设备管理、存储管理、软件应用接口和一般的用户接口的各种高级功能的系统级应用。

操作系统653管理存储器634(609、606)以确保在计算机模块601上运行的各处理或应用具有足够的存储器来在其中执行，而不与分配给另一处理的存储器冲突。并且，图6A的系统600中的可用的不同类型的存储器必须被适当地使用，使得各处理可有效地运行。因此，集合的存储器634不是要示出如何分配存储器的具体段(除非另外陈述)，而是要提供可由计算机系统600访问的存储器的全貌以及如何使用。

如图6B所示，处理器605包括包含控制单元639、运算逻辑单元(ALU)640和有时称为高速缓存存储器的局部或内部存储器648的多个功能模块。高速缓存存储器648一般在寄存器段中包含多个存储寄存器644～646。一个或更多个内部总线641在功能上互连这些功能模块。处理器605还一般具有用于通过使用连接618经由系统总线604与外部设备通信的一个或更多个接口642。存储器634通过使用连接619与总线604耦合。

应用程序633包含可包含条件分支和循环指令的一系列的指令631。程序633还可包含用于程序633的执行的数据632。指令631和数据632分别被存储于存储位置628、629、630和635、636、637中。根据指令631的相对尺寸和存储位置628～630，可在由存储位置630所示的指令描述的单个存储位置中存储具体指令。作为替代方案，如存储位置628和629所示的指令段所示的那样，指令可被划分成分别被存储于分开的存储位置中的多个部分。

一般地，给予处理器605在其中执行的一组指令。处理器605等待随后的输入，处理器605通过执行另一组指令而对所述随后的输入作出反应。可从多个源中的一个或更多个提供各输入，包括由输入设备602、603中的一个或更多个生成的数据、跨着网络620、602中的一个从外部源接收的数据、从存储装置606、609中的一个检索的数据或从嵌入在相应的读取器612中的存储介质625检索的数据，所有这些均在图6A中被示出。一组指令的执行在一些情况下会导致数据的输出。执行也可包含将数据或变量存储到存储器634。

所公开的对象检测布置使用在相应的存储位置655、656、657中被存储于存储器634中的输入变量654。所述对象检测布置生成在相应的存储位置662、663、664中被存储于存储器634中的输出变量661。中间变量658可被存储于存储位置659、660、666和667中。

参照图6B的处理器605，寄存器644、645、646、运算逻辑单元(ALU)640和控制单元639一起工作，以对于构成程序633的指令组中的每个指令执行“取得、解码和执行”循环所需要的微操作的序列。各取得、解码和执行循环包含：

(a)从存储位置628、629、630取得或读取指令631的取得操作；

(b)控制单元639确定取得了哪个指令的解码操作；

(c)控制单元639和/或ALU 640执行指令的执行操作。

然后，可以执行下一指令的另一取得、解码和执行循环。类似地，可执行控制单元639将值存储或写入到存储位置632的存储循环。

图2～5和图7～9的处理中的各步骤或子处理与程序633的一个或更多个段相关，并且由处理器605中的一起工作的寄存器段644、645、647、ALU 640和控制单元639执行，以对于程序633中的所述段的指令组中的每个指令进行取得、解码和执行循环。

也可替代性地在执行识别模型视觉元素、从元素模型组选择元素模型、确定视觉数据组和输入视觉元素之间的视觉距离、将视觉元素归类为前景和背景中的一个、以及基于输入视觉元素和不同的更新方法更新视觉数据组的功能或子功能的诸如一个或更多个集成电路的专用硬件上实现对输入图像执行前景/背景分离的方法。这种专用硬件可包含图形处理器、数字信号处理器、或者一个或更多个微处理器和相关的存储器。

这里公开的是用于对输入图像执行前景/背景分离的计算机实现的方法、系统和计算机程序产品。输入图像可以为例如视频序列的视频帧。输入图像包含多个视觉元素。对于输入图像中的各输入视觉元素，所述方法识别与输入图像相关的场景模型中的相应的模型视觉元素。模型视觉元素与元素模型组相关，其中，各元素模型包含多个视觉数据组。对于多模态场景背景，各元素模型可任选地包含时间数据组，其中，用于元素模型的多个视觉数据组与单个时间数据组相关。

然后，根据输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离满足预先确定的准则，所述方法从元素模型组选择元素模型。所述方法然后前进以根据选择的元素模型将输入视觉元素归类为前景和背景中的一个，并然后更新选择的元素模型中的各视觉数据组。视觉数据组的更新依赖于输入视觉元素和更新视觉数据组的至少第一和第二不同的方法。

在示例性布置中，视觉元素为通过将运动JPEG帧解码获取的离散余弦变换(DCT)系数的8×8块。在一种布置中，块是不重叠的。在另一种布置中，块重叠。在其它的布置中，视觉元素为：诸如红-绿-蓝(RGB)像素的像素；像素组；或诸如在JPEG-2000标准中使用的离散子波变换(DWT)系数的其它的变换系数的块。颜色模型一般为YUV，这里，Y分量表示亮度，U分量和V分量表示色度。

在一种布置中，在场景模型中，通过比较捕获的一时间点处的输入视觉元素与相同场所或相应的位置处的相应的视觉元素，实现执行在视频帧中出现的视觉元素的前景/背景分离以识别前景对象和背景的方法。

图2表示包含元素模型的场景模型200的框图。在本例子中，场景模型200包含呈现为阵列的一组视觉元素。场景模型的视觉元素可被称为模型视觉元素。场景模型200包含与各视觉元素相关的唯一元素模型组。各元素模型组包含一个或更多个元素模型。在一种布置中，元素模型(也称为模式模型或模式)指的是包含关于区域的视觉以及时间信息的场景的区域的适应性表现形式。元素模型被归类为前景或背景。随着时间的变化，作为前景的元素模型可被重新归类为背景。

在图2的例子中，场景模型200包含与场景模型200中的视觉元素相关的元素模型组210。元素模型组210包含至少一个元素模型。在本例子中，元素模型组210包含一组元素模型：元素模型1、元素模型2、...元素模型N。

在示例性布置中，元素模型1220与第一组视觉数据230、第二组视觉数据240和时间数据组250相关。所述两组视觉数据230、240与相同的时间数据组250相关。在其它的布置中，元素模型可包含与相同的时间数据组250相关的其它的视觉数据组。使至少两组视觉数据与相同的时间数据组耦合允许在包含场景变化复原情景的不同类型的变化期间开发鲁棒的场景模型。

第一视觉数据组230和第二视觉数据组240中的每一个包含该场所处的先前看到的视觉元素的视觉表现形式。先前看到的视觉元素可能例如已在前面的视频帧的更早的处理期间中被识别了。在示例性布置中，视觉表现形式包含8个值：YCbCr颜色空间中的8×8像素块内的前6个亮度DCT变换系数、第一色度蓝色DCT变换系数和第一色度红色DCT变换系数。在另一种布置中，视觉表现形式包含诸如傅立叶变换系数或DWT系数的不同的变换系数组。在另一种布置中，视觉表现形式是RGB像素。视觉表现形式内的各单个值可被视为该视觉表现形式的视觉特性。

时间数据组250包含与元素模型220有关的时间信息。在一个示例性布置中，时间信息包含“匹配时间”(所述“匹配时间”对应于何时所述模型与输入视觉元素最后匹配)、“创建时间”(所述“创建时间”对应于何时创建所述模型)、“删除时间”(所述“删除时间”对应于何时将删除所述模型)以及“匹配计数”(所述“匹配计数”对应于所述模型已多少次匹配输入视觉元素)。

通过包含第二组视觉数据240(所述第二组视觉数据240与第一组视觉数据230耦合到相同的时间数据组250)，所述模型对于不同类型的变化更加鲁棒。当正被处理的输入视觉元素存在快速和稳定的变化并且该变化延长时，元素模型220内的第一组视觉数据230能够跟踪所述变化。在真实视频数据中，有时所述输入然后将经历突然复原到先前的稳定状态。在这种情况下第一组视觉数据230将不再代表所述输入视觉元素并且将导致前景对象的错误检测。元素模型220中的比第一组视觉数据230更慢地适应的第二组视觉数据240仍将与所述输入的原始稳定状态类似，由此减少错误检测。

使用场景模型200以表示在不同的时间点处捕获的场景内的视觉元素。如上面描述的那样，元素模型组210包含至少一个元素模型，其中，各元素模型被归类为背景元素模型或前景元素模型。与场景模型200内的视觉元素对应的背景元素模型可被用于形成在场景中可见的非瞬时部分的表现形式。因此，背景元素模型描述不包含前景对象的场景。背景元素模型的组合的组可被称为背景模型。

在一种布置中，通过使用预先确定的数量的初始图像将场景模型200初始化。在一个具体布置中，初始图像包含来自要被处理的视频序列的一个或更多个初始视频帧。在另一种布置中，单个试验图像被用作初始图像。单个试验图像可例如基于已知或期望的背景。

在一种布置中，使用视频序列的第一帧作为背景模型。如果所述帧不包含前景对象，那么该第一帧是用于照相机的场景或视场的准确的背景模型，原因是该第一帧是可在所述场景中看到的非瞬时部分的表现形式。但是，对于场景内的逐渐变化或者对于照明效果，使用第一帧作为背景模型不是鲁棒的。并且，第一帧不包含前景对象的假定一般是不现实的。场景模型200内的前景元素模型形成与当前处于所述场景内或者最近已离开所述场景的前景对象对应的所述场景的瞬时部分的表现形式。

图3表示示出使场景模型与新输入帧匹配的方法300的示意性流程图。方法300从接收用于处理的新输入图像的开始步骤360开始。输入图像包含至少一个输入视觉元素。控制转到第一决定步骤305以检查是否所述输入帧中的视觉元素中的任一个还没有与场景模型200中的相应元素模型匹配。如果输入帧中的所有视觉元素均已被匹配并因此不存在没有匹配的元素，即为No，那么，流程从决定步骤305转到连接分量步骤350。根据应用，输入图像的处理可限于输入图像的一个或更多个部分。在这种应用中，不必处理输入图像中的每个视觉元素，并且，只处理关注的部分或区域中的视觉元素以帮助识别前景对象。

如果在决定步骤305存在还没有与场景模型200中的相应元素匹配的输入帧中的视觉元素，即为Yes，那么流程继续前进到下一步骤310，步骤310从输入帧选择未匹配的视觉元素。然后，处理320从场景模型200中的相应的场所选择最佳地匹配来自输入帧的选择的未匹配的输入视觉元素的元素模型。选择最佳的匹配元素模型基于元素模型内的视觉数据组。并且，元素模型内的时间数据组可被任选地用于提高匹配的质量。在一种布置中，选择元素模型依赖于正被处理的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离满足预先确定的准则。在一个实现中，所述准则为，所述视觉距离满足预先确定的阈值。在替代性实现中，所述准则涉及具有到输入视觉元素的视觉距离最小的视觉数据组的元素模型。

所述流程从步骤320继续前进到更新由处理320选择的元素模型的模型更新步骤330。更新步骤330更新包含第一组视觉数据230、第二组视觉数据240和时间数据组250的选择的元素模型。当除了时间数据组250以外使用第一视觉数据组230和第二视觉数据组240时，该解决方案也被称为双重解决方案(Dual Approach)。一般不更新没被处理320选择的元素模型的视觉数据组和时间数据组。根据具体应用，实施例可利用与各时间数据组相关的多于两个的视觉数据组。在这些实施例中，步骤320更新相关的数据组中的每一个。利用多于两个的视觉数据组允许系统应用不同的水平的粒度来跟踪输入图像的变化。视觉数据组被配置为以不同的比率改变或适应。因此，存在更好的用于向输入图像的改变提供良好的匹配的可能性。

在模型更新步骤330之后，背景阈值步骤340确定选择的元素模型是前景模型还是背景模型。背景阈值步骤340使用元素模型220的时间数据组250中的时间特性以确定元素模型是前景模型还是背景模型。在一种布置中，对于背景阈值步骤340使用来自时间特性组的时间特性“元素模型的年龄”。如果元素模型的年龄比预先确定的阈值即背景阈值大，那么，所述方法将元素模型归类为背景元素模型；否则，所述方法将元素模型归类为前景元素模型。

在一个例子中，背景阈值被设为120秒。元素模型的年龄是当前时间减去元素模型的创建时间。在一种布置中，使用作为首先创建元素模型的帧的编号的创建帧编号和当前帧编号来计算元素模型的年龄。然后按照帧(比方说三千六百(3600)帧)表示背景阈值。在一种布置中，使用时间特性“命中计数(hit count)”。命中计数表示在输入图像流中遇到(即匹配)元素模型的次数。如果命中计数大于另一预先确定的阈值(即，命中计数阈值)，那么元素模型被视为背景的模型。否则，元素模型被视为前景模型。在一个例子中，命中计数阈值被设为一千八百(1800)。在一种布置中，使用年龄和命中计数两者来将元素模型归类：如果年龄超过背景阈值并且命中计数超过命中计数阈值，那么元素模型是背景。

控制流程现在从步骤340继续返回到决定步骤305。如果所有的输入视觉元素已被处理并且没有未匹配的视觉元素，即为No，那么流程从步骤305前进到连接分量分析步骤350。连接分量分析步骤350将相邻的匹配的前景元素模型组合成团块(blob)，并且，基于团块内的前景元素模型的时间数据组，创建各前景团块的时间统计。各“团块”是一组的前景相邻元素模型。

图4详尽说明图3的处理320，并且表示示出选择匹配输入视觉元素的元素模型的方法的示意性流程图。处理320从开始步骤400开始并且前进到第一决定步骤405，第一决定步骤405检查是否所有的元素模型都已与输入视觉元素相比并因此确定是否存在对于正被处理的当前场景元素的任何未处理的元素模型。如果所有的元素模型都已与输入视觉元素相比并且没有剩下的未处理的元素模型，即为No，那么控制转到选择最佳元素模型步骤450。

如果在决定步骤405存在要被比较的剩余的未处理的元素模型，即为Yes，那么控制流程从决定步骤405转到选择未处理的元素模型的步骤410。然后，步骤420确定第一视觉数据组到未处理的元素模型的视觉距离分数(VD)。控制从步骤420转到从未处理的元素模型确定第二视觉数据组的VD的步骤430。

如下式所示，通过使用输入视觉元素中的各值与视觉组之间的绝对差的加权和来计算视觉组数v的VD：

V D_{visual_set} = Σ_{k = 0}^{n} (w_{k} * | C_{v} [k] - C_{I} [k] |)

式(1)

这里：n是用于将视觉元素模型化的系数的数量；C_I[k]是来自输入视觉元素的第k个系数的值；C_v[k]是来自元素模型中的视觉组v的第k个系数的值；w_k是第k个系数的权重。较低的VD表示输入视觉元素和来自元素模型的视觉数据组之间的较接近的匹配。

基于从采样数据学习的机器选择视觉数据组中的各系数的权重w_k。

控制从步骤430转到步骤440。步骤440是通过对于元素模型中的各视觉数据组选择各VD中的最小VD来选择对于元素模型的最佳VD的场景匹配步骤。元素模型的VD由下式表示：

{VD}_{mdl} = \min (Σ_{k = 0}^{n} (w_{k} * | C_{set 1} [k] - C_{I} [k] |), Σ_{k = 0}^{n} (w_{k} * | C_{set 2} [k] - C_{I} [k] |))

式(2)

通过使用用于VD_{visual_set}的式子(式1)，对于元素模型选择VD的上式可被写为：

VD_mdl＝min(VD_set1，VD_set2) 式(3)

在具有N组的视觉数据的其它的布置中，对于元素模型选择VD的式子变为：

VD_mdl＝min(VD_set1，VD_set2，...，VD_setN) 式(4)

在另一种布置中，如下式所示，通过使用第一视觉数据组系数和输入视觉元素系数之间的绝对差以及第二视觉数据组系数和输入视觉元素系数之间的绝对差中的最小值的加权和来计算选择的VD：

{VD}_{mdl} = Σ_{k = 0}^{n} (w_{k} * \min (C_{set 1} [k] - C_{I} [k] |, {| C}_{set 2} [k] - C_{I} [k] |))

式(5)

在一种布置中，基于时间特性和相邻块的特性调整VD。

一旦步骤440选择了对于元素模型的最佳距离分数，控制就返回决定步骤405。如果不存在剩余的未处理的元素模型，即为No，那么控制从步骤405转到选择具有最佳的VD的元素模型的步骤450。如果没有元素模型具有比以下称为敏感度水平的预先确定的阈值低的VD，那么创建将输入视觉元素模型化的新元素模型。与现有的元素模型的匹配或与新创建的元素模型的匹配是视觉归类步骤。

敏感度水平定义输入视觉元素与现有的元素模型相比需要多么不同才创建新的元素模型。敏感度水平依赖于具体应用，并且可例如基于从采样数据学习的机器被选择。在示例性布置中，敏感度水平为1158。本领域技术人员会理解，敏感度水平依赖于具体应用。

敏感度水平影响创建新元素模型的频率。高的敏感度水平导致较少地创建新元素模型，并因此导致更多的与现有的元素模型的匹配。通过更高的敏感度水平，由于将创建较少的前景模型，因此，将存在更多的与背景模型的匹配，因此，输出将包含较少的匹配的前景模型。低敏感度水平导致创建较多的新元素模型，并因此存在较少的与现有的模型的匹配。由于新元素模型最初是前景模型，因此，通过低的敏感度水平，输出将包含较多的匹配的前景模型和较多的新创建的前景模型。

视觉数据组的视觉匹配区域的半径可被设想为敏感度水平。敏感度水平越大，则视觉数据组的视觉匹配区域越大。在图形上，如果输入视觉元素落入视觉数据组的视觉匹配区域内，那么该视觉数据组可与输入视觉元素匹配。

返回图3，在双重解决方案300的更新步骤330中，通过使用时间数据的当前状态和当前时间更新时间数据组250。元素模型的创建时间保持不变。元素模型的“匹配计数”递增，直到达到预先定义的最大匹配计数。元素模型的“最后匹配时间”被设为当前时间。元素模型的删除时间增加。在示例性布置中，删除时间被更新为元素模型的创建时间加上期望寿命。通过将模型的匹配计数乘以标量(scalar)并然后加上偏移来计算期望寿命。在一个实现中，所述标量在每秒30帧处被设为6的值，并且，所述偏移在每秒30帧处被设为32的值。

通过使用输入视觉元素更新选择的元素模型220中的第一视觉数据组230和第二视觉数据组240。在一种布置中，通过相同的方法但是通过不同的对于学习率阈值LR_max的参数设置来更新第一视觉数据组230和第二视觉数据组240。LR_max表示每次更新的模式系数所允许的最大变化。通过使用较高的学习率(HLR)阈值更新第一视觉数据组230，所述较高的学习率(HLR)阈值高于用于更新第二视觉数据组240的较低的学习率(LLR)阈值。在一个例子中，HLR阈值在每秒30帧处被设为1.5DCT系数，并且LLR阈值在每秒30帧处被设为0.0625DCT系数。在另一种布置中，通过使用比用于更新第二视觉数据组240的方法更迅速地适应改变的背景值的方法，更新第一视觉数据组230。在两种布置中，第一视觉数据组230可被称为高学习率(HLR)视觉数据组，并且，第二视觉数据组240可被称为低学习率(LLR)视觉数据组。

在示例性布置中，通过使用下式用近似中值滤波更新视觉数据组：

C_{v}^{t + 1} = f (C_{v}^{t}, C_{I}, {LR}_{\max})

式(6)

这里，表示用于场景匹配步骤320中的视觉组v的时间t处的系数值；表示将用于下一帧中的场景匹配的更新模式系数值(在时间t+1处)；C_I表示输入帧中的相应输入元素的系数；f表示可进一步被细化如下的近似中间更新函数：

图5表示LR_max的值如何影响每个更新的系数值的最大变化的示图500。示图500包含作为要向模型值施加的绝对更新量的纵轴510。该量将被加到模型值上(这里，输入值比模型值大)，或者将被从模型值减去(这里，输入值比模型值小)。示图500还包含作为输入系数值和元素模型系数值之间的绝对差(以下，称为绝对差)的横轴520。对于给定的绝对差，线540表示向元素模型系数值施加的绝对更新量。当绝对差小于LR_max530时，绝对差是绝对更新量540。当绝对差大于LR_max530时，LR_max530是绝对更新量540。

通过对于LR_max使用大的值，系数值将迅速地跟踪输入值的大的变化。当每个帧的输入值的变化大并且延长时，对于所述模型需要高的LR_max来正确地跟踪输入。因此，具有高的LR_max的视觉数据组(HLR视觉数据组)将趋于跟踪输入的大的变化。如果输入的变化在太短的时间上出现或者输入的变化太大以致于模型不能跟踪，那么可能错误地创建将作为前景但对应于背景的新的模型。

相反，对于小的时间段上的显著变化，使背景变模糊的前景可短暂地表现为背景。因此，必须限制高学习率阈值；即，高学习率不是无限的。

但是，可出现在延长的变化之后存在局部性的(localized)输入值突然复原到先前的值的情况。当在在足够短的时间段上出现所述复原时，所述复原可导致HLR视觉数据组和输入之间的错配(mismatch)。LLR视觉数据组缓慢地响应输入值的变化，使得，如果发生所述输入突然复原到先前的值，那么元素模型中的LLR视觉数据组仍将对于修正的(revised)输入提供匹配。

LLR视觉数据组和HLR视觉组的更新处理可表示为：

C_{LLR}^{t + 1} = f (C_{LLR}^{t}, C_{I}, LLR)

式(8)

C_{HLR}^{t + 1} = f (C_{HLR}^{t}, C_{I}, HLR)

式(9)

式(8)和式(9)的更新处理利用具有不同的参数组的单个函数来实现不同的学习率。如上所述，替代性布置可等同地利用不同的函数来实现不同的学习率。

在一种布置中，通过当输入值的变化高时使用“饱和值”来限制LLR视觉数据组的变化，可进一步通过饱和更新条件封盖(cap)LLR视觉数据组的更新处理。饱和的更新处理包含两个主要步骤：(1)检测急剧的变化；和(2)如果检测到急剧的变化，则避免更新LLR视觉数据组。下式表示LLR视觉数据组的更新条件：

C_{LLR}^{t + 1} = s * f (C_{LLR}^{t}, C_{I}, LLR)

式(10)

这里，s表示依赖于急剧的变化的检测的量度因子(scalingfactor)。在示例性布置中，s被计算如下：

式(11)

在另一种布置中，LLR视觉数据组的饱和水平与HLR分离。在其它的布置中，通过使用诸如将在铃状(bell-shaped)曲线或正态分布上施加的绝对量模型化的其它的技术表示饱和水平方法。

图8表示示出当在元素模型中存在单个视觉数据组并且所述视觉数据组具有高的LR_max时出现的有问题的复原情景的示图800。该情景是由前景对背景的暂时阻塞引起的。示图800所示的纵轴810表示输入的大小。示图800所示的横轴820表示帧数(表示经过的时间)。由未断开的实线840表示的输入值在约900帧的初始时段中表现得相对稳定，在该点处，输入840然后在约200帧的时间段上具有迅速和持续的变化，随后返回到先前稳定的状态。与输入值对应的元素模型中的视觉数据组中的值850由虚线850表示。在由垂直虚线表示的时间t1860处，视觉数据组中的输入840和相应值850之间的非常大的差值导致元素模型不再与输入视觉元素匹配。由于高的LR_max，元素模型值850已在时间t1860处所述元素模型停止匹配输入视觉元素之前从输入稳定值被拖拽(dragged off)或者歧离(diverge from)。当出现输入值840返回到先前稳定状态时，元素模型值850和输入值840之间的差值足够大以导致所述元素模型不与输入视觉元素匹配。在该情景中，所期望的系统行为会是，所述元素模型在复原之后匹配输入视觉元素。为了出现该匹配，在复原之后，元素模型值850必须与输入值840类似。在图8所示的情景中，由于低LR的视觉数据组将可能与复原之后的输入840类似，因此LLR视觉数据组特别是利用饱和水平方法的具有低LR_max的视觉数据组的添加使得系统产生所期望的行为。

也被称为歧离现象的元素模型值850的拖拽在处理场景变化复原情景时影响现有技术。当在延长的持续过程中出现场景的大的变化时，场景模型特性从所述变化之前的场景模型的状态歧离。当大的延长的变化后跟突然的复原时，场景模型特性由于场景模型特性的歧离而不再匹配输入帧，从而导致错误的前景检测。

图9表示示出当在元素模型中存在单个视觉数据组并且所述视觉数据组具有低的LR_max时出现的有问题的复原情景的示图900。该情景是由突然的局部性照明(lighting)变化引起的。示图900中的纵轴910表示输入的大小。示图900所示的横轴920表示帧数(表示经过的时间)。可以看出，由未断开的实线表示的输入值940首先从相对稳定的状态上升，然后在第750帧左右出现持续的下落，然后在第1100帧左右突然复原到稳定状态值。与输入值对应的元素模型中的视觉数据组中的值由虚线950表示。在由垂直虚线表示的时间t1960处，输入940和视觉数据组中的相应值950之间的大的差值导致元素模型不再与输入视觉元素匹配。从时间t1960直到输入值940出现突然的复原，元素模型不匹配输入视觉元素，从而导致局部性的错误检测，直到出现输入940的突然复原。系统的所期望的行为是，尽管输入940持续下落和突然复原，元素模型也匹配输入视觉元素。在图9所示的情景中，由于当输入940暂时下落时高LR的视觉数据组将有希望跟随输入940，因此高LR的视觉数据组的添加导致系统给出所期望的行为。

表1表示具有与各时间数据组相关的两个视觉数据组的益处并且基于从处理采样视频导出的信息。数值测量F1分数和SFDA(序列帧检测精度)被用于给出性能的定量测量，并且在本领域中是已知的。

表1：具有一组视觉数据的系统和具有两组视觉数据的系统的比较

当最初创建元素模型时，两组视觉数据相同。随着时间流逝，根据输入视觉元素特性和用于LLR组和HLR组的LR_max值，视觉数据组可歧离。图7A和图7B表示元素模型的视觉匹配区域的2D表现形式，并且示出模型中的视觉数据组之间随时间的歧离。图7A和图7B表示仅表现视觉数据组的视觉特性中的两个的轴740、750，以表示元素模型的各视觉数据组的风格化的(stylised)视觉匹配区域而不是实际视觉匹配区域。在示例性布置中，视觉数据组多于二维，因此，视觉匹配区域将多于二维。元素模型视觉数据组被示为圆，其中，圆的中心代表视觉系数，圆的半径代表敏感度水平。圆区域代表视觉数据组的视觉匹配区域。

在图7A和图7B中，M_LLR表示LLR视觉组，并且M_HLR表示相同元素模型的HLR视觉组。图7A表示在时间t1处创建元素模型时的HLR视觉数据组和LLR视觉数据组。在创建过程中，HLR视觉数据组710和LLR视觉数据组710具有相同的视觉特性，并因此完全相互重叠。图7B表示元素模型中的视觉数据组之间随时间的歧离。在时间t2处，从图7B可以看出，HLR视觉数据组720与LLR视觉数据组730歧离。作为结果，模型占据的总视觉匹配区域也由于具有两个视觉数据组而增大。

如果两个视觉数据组歧离太大，那么可采取步骤以强制数据组收敛。在一种布置中，保持与当前输入更类似的视觉数据组，并且，剩余的视觉数据组改变为与保持的视觉数据组相同。

在一种布置中，当使背景元素模型与输入视觉元素匹配时，只有背景元素模型使用HLR视觉数据组和LLR视觉数据组两者。当使前景模型与输入视觉元素匹配时，前景元素模型仅使用一个视觉数据组。如果前景元素模型变为背景元素模型，那么，当与输入视觉元素匹配时，背景元素模型将开始使用第二视觉数据组以及第一视觉数据组。在一种布置中，前景元素模型使用高学习率阈值。在另一种布置中，前景元素模型使用低学习率阈值。在另一种布置中，前景元素模型对于所使用的唯一的视觉数据组使用(高学习率阈值和低学习率阈值之间的)适中的学习率阈值作为学习率阈值。在另一种布置中，前景元素模型使用两个视觉数据组。在另一种布置中，前景元素模型一旦具有一定的年龄(也就是说，处于到背景阈值的中途)就开始使用第二视觉数据组。

提出的解决方案使得能够在诸如在场景的观察中又大又长的变化后跟迅速和突然的复原的复杂的复原情景的场景改变复原情景中更准确地保持背景模型。突然复原意味着恢复到开始出现延长的改变之前的原始状态。双重解决方案的元素模型结构使多个视觉表现形式230、240与作为场景模型200的一部分的元素模型组210中的各元素模型220的相同的时间特性250相关联。双重解决方案使得能够在改变复原情景中实现鲁棒的视频对象检测。

工业适用性

所述的布置适用于计算机和数据处理业务，特别是适用于视频、成像和安全业务。

以上仅描述了本发明的一些实施例，并且可以提出修改和/或变化而不脱离本发明的范围和精神，实施例是解释性的而不是限制性的。

在本说明书的上下文中，文字“包括”意味着“主要包含但不必仅包含”或“具有”或“包含”，不意味着“仅包括”。诸如“包含”和“含有”的文字“包括”的变体具有相应改变的意思。

Claims

1.一种对于输入图像执行前景/背景分离的计算机实现的方法，所述方法包括：

对于所述输入图像中的各输入视觉元素：

识别与所述输入图像相关的场景模型中的相应的模型视觉元素，所述模型视觉元素与元素模型组相关，各元素模型包含多个视觉数据组，所述多个视觉数据组与单个时间数据组相关；

根据满足预先确定的准则的选择的元素模型的视觉数据组和所述输入视觉元素之间的视觉距离，从所述元素模型组选择元素模型；

根据选择的元素模型将输入视觉元素归类为前景和背景中的一个；和

根据输入视觉元素使用用于更新视觉数据组的至少第一和第二不同的方法更新所选择的元素模型中的各视觉数据组，其中第一方法中使用的最大更新量值不同于第二方法中使用的最大更新量值。

2.根据权利要求1的方法，其中，所述归类依赖于所述时间数据组。

3.根据权利要求1的方法，其中，从元素模型组选择元素模型的所述步骤还基于所述时间数据组。

4.根据权利要求1的方法，其中，用于更新视觉数据组的所述第一方法受饱和更新条件限制。

5.根据权利要求1的方法，还包括以下的步骤：

对于所述元素模型组中的各元素模型：

确定所述输入视觉元素和所述元素模型中的各视觉数据组之间的视觉距离；

其中，所述预先确定的准则涉及具有所确定的视觉距离中的最小值。

6.根据权利要求1的方法，其中，所述输入图像包含从由像素、像素组和变换系数块组成的视觉元素的组选择的多个视觉元素。

7.根据权利要求1的方法，其中，用于更新视觉数据组的所述第一方法利用第一函数和第一组参数，并且，用于更新视觉数据组的所述第二方法利用所述第一函数和第二组参数，其中，所述第一组参数与所述第二组参数不同。

8.根据权利要求1的方法，其中，用于更新视觉数据组的所述第一方法利用第一函数和第一组参数，并且，用于更新视觉数据组的所述第二方法利用第二函数和第二组参数，其中，所述第一函数与所述第二函数不同。

9.根据权利要求1的方法，其中，所述更新步骤利用所述多个视觉数据组中的每一个的相应的学习率。

10.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的方法，所述输入图像具有输入视觉元素，所述方法包括：

识别与输入视觉元素对应的场景模型中的模型视觉元素，所述模型视觉元素与元素模型组相关，各元素模型包含多个视觉数据组，所述多个视觉数据组与单个时间数据组相关；

基于输入视觉元素从所述元素模型组选择元素模型；和

通过根据输入视觉元素更新所选择的元素模型中的各视觉数据组来存储场景模型中的元素模型，使用用于更新视觉数据组的至少第一和第二不同的方法更新各视觉数据组，其中第一方法中使用的最大更新量值不同于第二方法中使用的最大更新量值。

11.一种用于对输入图像执行前景/背景分离的计算机实现的方法，所述方法包括：

对于所述输入图像中的各输入视觉元素：

使用用于更新视觉数据组的至少第一和第二不同的方法、通过基于输入视觉元素添加新的视觉数据组来更新所选择的元素模型，所述新的视觉数据组与选择的元素模型的视觉数据组的时间数据组相关，其中第一方法中使用的最大更新量值不同于第二方法中使用的最大更新量值；和

根据选择的元素模型将输入视觉元素归类为前景和背景中的一个。

12.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的方法，所述输入图像具有输入视觉元素，所述方法包括：

基于输入视觉元素从所述元素模型组选择元素模型；和

使用用于更新视觉数据组的至少第一和第二不同的方法、通过更新所选择的元素模型而基于输入视觉元素添加新的视觉数据组来存储场景模型中的元素模型，所述新的视觉数据组与选择的元素模型的视觉数据组的时间数据组相关，其中第一方法中使用的最大更新量值不同于第二方法中使用的最大更新量值。

13.一种用于对输入视频帧执行前景/背景分离的计算机实现的方法，所述方法包括：

接收与帧相关的场景模型中的元素模型组，其中，元素模型组中的各元素模型包含第一和第二视觉组；

对于所述场景模型中的场所处的视觉元素，比较和该视觉元素相关的至少一个元素模型的第一和第二视觉组与对应于所述场所的帧中的视觉元素的视觉组；

基于所述比较步骤选择第一和第二视觉组中的一个，第一和第二视觉组中的所述一个到相应元素的视觉组的视觉距离满足预先确定的准则；

基于选择的视觉组从元素模型组选择元素模型；

基于选择的元素模型将输入视觉元素归类为前景和背景中的一个；

通过使用第一方法基于相应元素的视觉组更新所选择的元素模型的第一视觉组；和

通过使用与第一方法不同的第二方法基于相应元素的视觉组更新所选择的元素模型的第二视觉组，其中第一方法中使用的最大更新量值不同于第二方法中使用的最大更新量值。

14.根据权利要求13的方法，其中，从元素模型组选择元素模型的所述步骤还基于时间数据组。

15.根据权利要求13的方法，其中，所述归类依赖于时间数据组。

16.根据权利要求13的方法，其中，选择视觉数据组的所述步骤选择的视觉数据组到对应于所述场所的帧中的视觉元素的视觉组的视觉距离最小。

17.根据权利要求13的方法，其中，

所述更新步骤中的所述第一方法是具有第一学习率阈值的近似中值滤波；并且

所述更新步骤中的所述第二方法是具有第二学习率阈值的近似中值滤波，所述第二学习率阈值比第一学习率阈值高。

18.根据权利要求17的方法，其中，所述第一学习率阈值受饱和更新条件限制。

19.一种对于输入图像执行前景/背景分离的计算机实现的系统，所述系统包括用于执行以下操作的装置：

对于所述输入图像中的各输入视觉元素：

20.根据权利要求19的系统，其中，所述归类依赖于时间数据组。

21.根据权利要求19的系统，其中，从元素模型组选择元素模型还基于所述时间数据组。

22.根据权利要求19的系统，其中，用于更新视觉数据组的所述第一方法受饱和更新条件限制。

23.根据权利要求19的系统，还包括用于执行以下操作的装置：

对于所述元素模型组中的各元素模型：

24.根据权利要求19的系统，其中，所述输入图像包含从由像素、像素组和变换系数块组成的视觉元素的组选择的多个视觉元素。

25.根据权利要求19的系统，其中，用于更新视觉数据组的所述第一方法利用第一函数和第一组参数，并且，用于更新视觉数据组的所述第二方法利用所述第一函数和第二组参数，其中，所述第一组参数与所述第二组参数不同。

26.根据权利要求19的系统，其中，用于更新视觉数据组的所述第一方法利用第一函数和第一组参数，并且，用于更新视觉数据组的所述第二方法利用第二函数和第二组参数，其中，所述第一函数与所述第二函数不同。

27.根据权利要求19的系统，其中，所述更新利用所述多个视觉数据组中的每一个的相应的学习率。

28.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的系统，所述输入图像具有输入视觉元素，所述系统包括用于执行以下操作的装置：

基于输入视觉元素从所述元素模型组选择元素模型；和

29.一种用于对输入图像执行前景/背景分离的计算机实现的系统，所述系统包括用于执行以下操作的装置：

对于所述输入图像中的各输入视觉元素：

根据满足预先确定的准则的所选择的元素模型的视觉数据组和所述输入视觉元素之间的视觉距离，从所述元素模型组选择元素模型；

使用用于更新视觉数据组的至少第一和第二不同的方法、通过基于输入视觉元素添加新的视觉数据组来更新选择的元素模型，所述新的视觉数据组与选择的元素模型的视觉数据组的时间数据组相关，其中第一方法中使用的最大更新量值不同于第二方法中使用的最大更新量值；和

30.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的系统，所述输入图像具有输入视觉元素，所述系统包括用于执行以下操作的装置：

基于输入视觉元素从所述元素模型组选择元素模型；和

31.一种用于对输入视频帧执行前景/背景分离的计算机实现的系统，所述系统包括用于执行以下操作的装置：

基于所述比较选择第一和第二视觉组中的一个，第一和第二视觉组中的所述一个到相应元素的视觉组的视觉距离满足预先确定的准则；

基于选择的视觉组从元素模型组选择元素模型；

32.根据权利要求31的系统，其中，从元素模型组选择元素模型还基于时间数据组。

33.根据权利要求31的系统，其中，所述归类依赖于时间数据组。

34.根据权利要求31的系统，其中，通过选择视觉数据组所选择的视觉数据组到对应于所述场所的帧中的视觉元素的视觉组的视觉距离最小。

35.根据权利要求31的系统，其中，

所述更新中的所述第一方法是具有第一学习率阈值的近似中值滤波；并且

所述更新中的所述第二方法是具有第二学习率阈值的近似中值滤波，所述第二学习率阈值比第一学习率阈值高。

36.根据权利要求35的系统，其中，所述第一学习率阈值受饱和更新条件限制。