CN110610507B

CN110610507B - 确定像素位置属于背景还是前景的方法、设备和系统

Info

Publication number: CN110610507B
Application number: CN201910491180.0A
Authority: CN
Inventors: 雅各布·格伦德斯特伦; 约阿基姆·巴尔特森; 西蒙·莫林; 汉纳·比约格温斯多蒂尔
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2018-06-14
Filing date: 2019-06-06
Publication date: 2021-04-30
Anticipated expiration: 2039-06-06
Also published as: KR20190141577A; US20190385312A1; EP3582181A1; CN110610507A; JP6767541B2; KR102107334B1; TW202018666A; JP2020024675A; EP3582181B1; TWI726321B; US10726561B2

Abstract

本发明涉及一种确定像素位置属于背景还是前景的方法、设备和系统。本发明涉及图像中的背景减除的领域。具体地，本发明涉及使用像素位置的所确定的动态水平来确定视频序列的图像帧中的像素位置属于捕获的场景的背景还是前景。

Description

确定像素位置属于背景还是前景的方法、设备和系统

技术领域

本发明涉及图像中的背景减除(background subtraction)的领域。具体地，本发明涉及确定视频序列的图像帧中的像素位置属于捕获的场景的背景还是前景。

背景技术

在视频监控中，重要的是能够检测如在视频序列中捕获的场景中的移动物体。存在用于视频中运动检测的许多工具。它们中的一些通过跟随视频流中的特征而逐帧追踪物体。其他工具将当前帧与静态背景帧逐像素地比较。后者是目的在于通过检测重大变化出现的区域而提取移动物体的背景减除的基础。移动物体称作前景，而静态物体是背景的一部分。

从背景中分离移动物体是复杂的问题，如果背景是动态的则这变得更加困难，诸如如果背景中存在摇摆的树或水波纹，或者如果照明变化。具体地，动态背景可以导致移动物体的错误检测的数量增多。

在教科书“用于视频监控的背景建模和前景检测”(Background Modeling andForeground Detection for Video Surveillance，编者：Thierry Bouwmans、FatihPorikli、Benjamin

和Antoine Vacavant，CRC Press，Taylor&Francis Group，Boca Raton，2015)中给出了背景减除方法的回顾。例如参见第1章和第7章。

背景减除方法通常包括视频流的当前帧与没有移动物体的参照背景帧或模型的比较。通过将图像与背景帧或模型进行比较，可以做出图像中的每个像素属于背景还是前景的判定。以此方式，可以将图像划分为两个互补的像素集合—前景和背景。

背景减除要求下层背景模型和更新策略的定义，以适于背景随着时间变化。在文献中已经提出了许多背景模型。这包括参数模型(例如高斯分布)和非参数模型(例如基于样本的模型)。

然而，为了实现背景和前景之间的正确分离，不论采用背景建模的何种方案，由于表示多模态环境的场景的区域中的帧之间固有地存在的图像内容(由像素值表示)中更大的差值，因此与更静态的区域相比，当将确定区域表示背景还是前景时，需要不同地处理这些区域(这意味着存在表示这些区域的像素值将在捕获场景的视频序列的帧之间改变值的高概率)。

因此，存在在该上下文内改进的需要。

发明内容

鉴于以上所述，因此本发明的目的在于克服或至少减缓上述问题。具体地，目的在于提供一种用于确定视频序列的图像帧中的像素位置属于捕获的场景的背景还是前景的方法和设备，其考虑存在于相应像素位置改变捕获了场景的视频序列的帧之间的值的不同概率。

根据本发明的第一方面，提供了一种确定视频序列的图像帧中的像素位置属于捕获的场景的背景还是前景的方法。该方法包括，针对图像帧中的每个像素位置：

-接收像素位置已经被分类成的类，该类表示在像素位置处捕获的场景中的内容的类别，

-将像素位置与该像素位置的相应类的动态水平相关联，其中类的动态水平反映属于类的像素位置处的像素值在视频序列的帧之间改变值的概率，

-通过将图像帧中的像素位置的像素值与背景模型和阈值进行比较，确定图像帧中的像素位置属于捕获的场景的背景还是前景，背景模型包括表示像素位置的一个或多个值，其中如果像素值与表示背景模型中的位置的第一预定数量的值之间的差小于像素位置的阈值，则确定像素属于背景。

如果确定图像帧中的像素位置属于背景，则该方法进一步包括：

-当在图像帧中的像素位置处的像素值自前一帧以来已经改变大于第二值的情况下，将专用于像素位置的阈值增大一增量，其中增量取决于像素位置的动态水平而设置，使得更高的动态水平导致更高的增量。

本发明源自以下认识，包括诸如树、水、旗帜等的动态背景物体的场景的部分将导致表示捕获了场景的视频序列中的帧之间的这些部分的像素值的更大差异。因此，当确定图像帧中的某像素位置属于捕获的场景的前景还是背景时，需要考虑这点。对于包括动态背景物体的区域，应该有利地允许图像中的像素值与背景模型中的相应像素值之间的更大差，以减小错误地确定这些区域属于前景的概率。(用以确定像素位置的像素值与该像素位置的背景模型有多相似的)阈值在本发明中将随着图像中像素的位置而变化。具体地，其可以取决于像素位置处背景在图像序列中后续图像之间改变值的趋势而变化。改变值的更高趋势通常可能给出更高的阈值。这是有利的，因为前景分类可以适于诸如摇摆的树、水波纹等的动态背景。例如，与动态区域相比，可以在非动态区域中增大用于确定像素位置属于前景的分类的灵敏度。

此外，有利地，在对于图像的动态区域的更低和更高值之间更快速地更新阈值，以允许在视频序列的图像帧之间的增大的差。有利地，当场景中风开始吹动并且树和水快速地变得更动态时，这将导致阈值的快速适应。这将接着减小这些区域中前景像素的错误分类的数量。

在本发明中，已经将场景划分为表示捕获的场景中的内容的类别的类。这种分类可以称作语义分割，分类根据内容的类型等。通过示例的方式，可能的分类包括汽车、树、水、道路、人、房屋等。该分类可以由例如操作者手工进行，或者使用诸如语义分割算法的算法进行，例如实现在如在诸如“用于语义分割的全卷积网络(Fully ConvolutionalNetworks for Semantic Segmentation)”(Long等人)的研究文献中所述的深度学习神经网络中。

对于在场景的视频序列的图像帧中的每个像素位置，接收这样的类，并且用于将像素位置与像素位置的相应类的动态水平相关联。这种关联可以使用例如将预定的类映射为不同动态水平的表格或者限定了某个类表示什么动态水平的任何其他数据结构来完成。

类的动态水平因此反映了在属于该类的像素位置处的像素值将在视频序列的帧之间改变值的概率。作为示例，分类为树(冠)的像素位置可以具有相对更高的动态水平，而分类为房屋的像素位置可以具有相对更低的动态水平。动态水平可以跨越在1-100、0-1、1-10或任何其他合适的值的范围之间。

对于每个像素位置，背景模型包括表示像素位置的一个或多个值(例如在像素位置处的之前图像帧的像素值)。背景模型进一步包括阈值，当确定像素位置属于前景还是背景时，该阈值表示在像素位置处的像素值与背景模型中相应位置的值之间的可允许差异。在像素值与表示背景模型中位置的第一预定数量的值之间的差小于像素位置的阈值的情况中，确定像素位置属于背景。例如，在背景模型包括像素位置的两个值(例如5和7)并且阈值是2的情况中，第一预定数量是1并且像素位置处的像素值是9，将确定像素位置属于前景，因为没有差是小于2的。然而，如果像素位置处的像素值是7，将确定像素位置属于背景。换言之，阈值限定像素位置的值可以具有的值的范围的大小，其将导致确定像素位置属于背景，其中范围随着阈值增大而增大。对于其中背景模型对于每个像素位置包括一个值的实施例，第一预定数量将总是1。在其中背景模型对于每个像素位置包括多个值的实施例中，取决于使用情况以及当将确定前景像素时对于该使用情况的灵敏度要求，预定数量将是在1与对于每个像素位置的值的数量之间的任何合适的数。

如果确定像素位置属于背景，并且图像帧中的像素位置处的像素值之间的差与前一帧的相应像素值相比小于第二值，则应该增大阈值，以精细调节阈值，即基于该像素位置可以具有的像素值范围。在此，动态水平开始起作用。对于动态区域，增量应该有利地比对于静态区域高，由于在该动态区域中像素值将改变的更高概率。这种基于像素位置的动态水平的变化增量可以减少在视频序列的图像帧中背景各自前景像素的错误确定的数量。

根据一些实施例，该方法进一步包括步骤：如果确定图像帧中的像素位置属于背景，则：当在图像帧中的像素位置处的像素值自前一帧以来已经改变小于第二值的情况下，将专用于像素位置的阈值减小一减量，其中减量取决于像素位置的动态水平而设置，使得更高的动态水平导致更低的减量。类似于当图像帧中的像素位置处的像素值自前一帧以来已经改变大于第二值时上述阈值的精细调节，如果在对于特定像素位置的例如两个后续图像帧之间的像素值的差小于第二值，则可以执行阈值的减量。在该实施例中，由于像素值在该动态区域中将改变的更高概率，动态区域中的减量与静态区域中的减量相比应该更低。这种基于像素位置的动态水平的变化的减量可以减少在视频序列的图像帧中背景各自前景像素的错误确定的数量。

在一些实施例中，动态区域的减量低于相应增量。因为增量值大于减量值，所以允许方法快速地响应于背景中的增大的动态，这例如可以是由于场景中改变的风的条件。与此同时，与静态区域相比，动态区域的阈值将具有更缓慢的减量，这是有利的，因为动态背景运动可能再次出现。

根据一些实施例，方法进一步包括步骤：

设置专用于像素位置的阈值为一值，其中该值取决于像素位置的动态水平，使得更高的动态水平导致更高的值。因此，该实施例限定了阈值的初始化或者阈值的重设置，这可以例如针对视频流的初始帧和/或当捕获视频序列的视频捕获设备的视野变化时执行。通过取决于与该像素位置相关联的动态水平而初始化/设置特殊像素位置的阈值，将更快地执行在后续图像帧期间所执行的阈值的精细调节，因为阈值可能从开始将更正确(例如与将所有像素位置的阈值设置为诸如零的预定值或者设置为随机值相比)。该实施例可以进一步减少在视频序列的图像帧中背景各自前景像素的错误确定的数量，例如当开始视频捕获或改变视野时。

根据一些实施例，方法进一步包括：取决于像素位置的动态水平而为专用于像素位置的阈值设置下阈值，下阈值确定阈值的最小可能值，使得更高的动态水平导致下阈值的更高值。也就是说，阈值不能变得比那些下阈值低，导致背景模型对于诸如树的动态区域总是不太灵敏。

根据一些实施例，如果像素位置的相应类属于类的第一预定群组，则将像素位置与第一动态水平相关联，并且如果像素位置的相应类属于类的第二预定群组，则将像素位置与更高的第二动态水平相关联。例如，可以仅限定两个动态水平，一个用于诸如表示场景中的房屋的静态类，并且一个用于诸如表示场景中的树或水的动态类。在其他实施例中，实现更细粒度模型，例如为表示场景中的房屋的像素位置定义第一最低动态水平，为表示场景中的水的像素位置定义第二中等动态水平，并且为表示场景中的树的像素位置定义第三最高动态水平。

根据一些实施例，如果与像素位置相对应的类属于类的第三预定群组，则将专用于像素位置的阈值维持在恒定水平。在该实施例中，将被分类为属于类的第三预定群组的像素位置的阈值维持在恒定水平。

根据一些实施例，像素位置已经被分类成的类使用语义分割的算法确定，也如以上所例示。

根据一些实施例，语义分割的算法对视频流的图像帧子集运行。在该实施例中，不针对视频流中的每个图像帧执行语义分割。可以使用对视频流的两个语义分割操作之间的不同时间跨度，例如分钟或小时、或者甚至天。时间跨度可以取决于在捕获的场景的背景中出现多少。更长的时间跨度减小了方法的计算需求，因为语义算法可能是相当要求硬件的，使其难以(或无法)从算法得到实时结果。

根据一些实施例，像素位置已经被分类成的类使用来自所述图像帧子集中的多个图像帧的像素位置的语义算法的结果的组合来确定。换言之，来自某一像素位置的分类的之前结果可以与新结果结合使用，例如用以降低错误分类的风险。

根据一些实施例，背景模型包括表示像素位置的多个值，其中确定图像帧中的像素位置属于捕获的场景的背景还是前景的步骤包括：

-计算在像素位置处的图像帧中的像素值与在相应像素位置处背景模型的多个值之间的差，

-计算小于专用于像素位置的阈值的差的数量，

-如果所计算的数量超过第一预定数量的值，则确定图像帧中的像素位置属于背景，并且否则，确定图像帧中的像素位置属于前景。

取决于第一预定数量的值，该实施例可以导致对当前处理的图像帧的值与背景模型的值之间的差更灵敏或更不灵敏的确定。在一些实施例中，要求大多数差低于阈值以导致背景像素。在其他实施例中，要求1/3、2/3或任何其他合适的数值差低于阈值以导致背景像素。在极端情况中，需要所有或仅一个差低于阈值以导致背景像素。

根据本发明的第二方面，通过包括计算机可读介质的计算机程序产品实现以上目的，计算机可读介质具有存储在其上的计算机代码指令，以用于当由具有处理能力的设备运行时执行第一方面的方法。

根据本发明的第三方面，通过用于确定视频序列的图像帧中的像素位置属于捕获的场景的背景还是前景的设备实现以上目的，该设备包括处理器，其适于：

-接收像素位置已经被分类成的类，该类表示在像素位置处捕获的场景中的物体的类型，

-基于像素位置的相应类将像素位置与动态水平相关联，其中类的动态水平反映在属于类的像素位置处的像素值在视频序列的帧之间改变值的概率，

设备的处理器进一步适于，如果确定图像帧中的像素位置属于背景，则：

在像素值自前一帧以来已经改变大于第二预定值的情况下，将专用于像素位置的阈值增大一增量，其中该增量取决于像素位置的动态水平而设置，使得更高的动态水平导致更高的增量。

根据本发明的第四方面，通过系统实现以上目的，系统包括：

视频捕获设备，该视频捕获设备适于连续地捕获描绘场景的视频序列，

第一设备，该第一设备适于从视频捕获设备接收视频序列的第一图像帧、对图像帧中的每个像素位置进行分类、以及输出图像帧中的每个像素位置的类，该类表示在像素位置处捕获的场景中的物体的类型，

根据第三方面的第二设备，该第二设备适于从视频捕获设备接收视频序列的第二图像帧，以及从第一设备接收图像帧中的每个像素位置的类。

第二方面、第三方面和第四方面通常可以具有与第一方面相同的特征和优点。进一步应该注意，本发明涉及特征的所有可能组合，除非另外明确说明。

附图说明

参照附图，通过本发明的优选实施例的以下说明性和非限制性的详细描述，将更好地理解本发明的以上以及其他目的、特征和优点，其中相同的附图标记将用于相似的元件，其中：

图1示出包括具有不同动态水平的背景物体的场景，

图2a、图2b、图3a和图3b示出针对像素位置的背景模型的实施例，

图4示出根据实施例的确定视频序列的图像帧中的像素位置属于背景还是前景的方法的流程图，

图5示出根据其他实施例的确定视频序列的图像帧中的像素位置属于背景还是前景的方法的流程图，

图6通过示例的方式示出用于捕获场景的视频序列以及确定视频序列的图像帧中的像素位置属于背景还是前景的系统。

具体实施方式

现在，在下文中将参照其中示出本发明实施例的附图更全面地描述本发明。将描述在操作期间本文所公开的系统和设备。

图1示出包括两个背景物体102、104的场景101的图像100。通常，这种场景101将也包括前景物体，但是为了便于解释，省去了这些前景物体。在该场景中，第一背景物体102是建筑物。场景中的第二背景物体104是树。建筑物102通常是非常静态的物体，意味着在时刻t处所获取的建筑物的图像与在稍后时刻t+n处所获取的建筑物的图像之间存在非常小的差异或不存在差异。另一方面，树是动态物体，具体地，当风吹动时，其中树的叶子和树枝可以随着时间非常显著地移动。换言之，在时刻t处所获取的树的图像与在稍后时刻t+n处所获取的树的图像之间可能存在很多差异。例如当检测场景的图像中的移动(例如用于监控目的)时需要考虑这点。这种移动通常仅当源自前景物体时是令人感兴趣的，在这些情况中应忽略背景中的移动。因此，需要实现对动态物体进行补偿的背景检测算法，使得这些动态物体将仍然被检测作为背景，以减少错误运动检测并且例如减少监控应用中误报警的数量。

现在将使用图1结合图4描述这种背景检测算法的实施例。

改进的背景检测可以通过针对描绘了场景101的(包括数个图像帧的视频序列的)图像帧100中的每个像素位置确定像素位置已经被分类成的类而实现，该类表示在像素位置处捕获的场景中内容的类别。在图1中，虚线框106、108符号化了这种分类，其中虚线框106内的像素(例如第一像素位置110处的像素)分类为例如建筑物，并且其中虚线框108内的像素(例如在第二像素位置112处的像素)分类为例如树。应该注意，为了便于解释，树104周围的标记108由矩形表示。在许多应用中，标记将沿着树104的轮廓。

这种分类可以是手工的，其中例如操作者已经将两个物体102、104标记106、108为属于不同的类，例如树的类和建筑物的类。在其他实施例中，使用语义分割的算法来确定像素位置已经被分类成的类，例如以上所述的神经网络实施方式。

可以在一些实施例中对视频流的图像帧子集运行语义分割。通常，这种算法(或手工作业)难以在实时的基础上(即针对视频序列的每个图像帧)运行。有利地，仅以某些时间间隔例如每分钟、每小时、每天等而运行语义分割(分类)。换言之，彼此以预定的间隔对视频流的图像帧运行用于语义分割的算法。针对剩下的图像帧，可以使用现有(cashed)的结果，例如来自最后执行的分类的结果。在其他实施例中，使用来自所述图像帧子集中的多个图像帧的所述像素位置的语义分割算法的结果的组合来确定像素位置已经被分类成的类，诸如导致大多数分类的类。在其他实施例中，一些类定义为比其他的“更重要”，其中如果像素位置已经被分类为之前这些类中的一个，则分类将保持，即使语义分割算法(或手工作业)在以下或之前的分类工序中的一些中导致针对该像素位置的其他类。

通常，如果捕获了场景的相机改变视野，需要再次至少针对场景的未在之前视野中并且因此未分类的新部分执行分类。换言之，当捕获了视频序列的视频捕获设备的视野改变时，对捕获的图像帧运行用于语义分割的算法。

然后，像素位置110、112的分类用于确定在图像帧100中的像素位置110、112属于捕获的场景101的背景还是前景。针对特定的像素位置，在该示例中分类为建筑物像素(在图1的矩形106内)的像素位置110，接收S302类(图4)。然后，将像素位置110与像素位置110的相应类的动态水平相关联S304，其中类的动态水平反映在属于该类的像素位置处的像素值在视频序列的帧之间改变值的概率。这可以使用例如定义了特定类具有什么动态水平的表格来完成S304。在以下结合图5进一步描述的一些情形中，所确定S304的动态水平可以用于设置S306当确定图像帧中的像素位置属于背景还是前景时将要使用的阈值。

在一些实施例中，如果像素位置的相应类属于类的第一预定群组(即包括建筑物的类的预定群组)，则该像素位置与第一动态水平相关联，并且如果像素位置的相应类属于类的第二预定群组(即包括树的类的预定群组)，则该像素位置与更高的第二动态水平相关联。可以实现在类与动态水平之间的更细粒度的映射，即包括了3、5、10等多个可能的动态水平。

接着，确定S308图像帧100中的像素位置110属于背景还是前景。这是通过将图像帧100中的像素位置110的像素值与背景模型和阈值进行比较而进行的。图2a、图3a示出了背景模型200的值202以及像素位置110的阈值204的两个不同实施例。在图2a的实施例中，背景模型200的值202包括表示像素位置110的多个像素值202(在该示例中是四个，以下也称作背景样本)。在该示例中，每个值202由一个像素值(例如表示像素的亮度)表示。在其他示例中，每个值202可以是表示像素位置的值的红色、绿色和蓝色(RGB)强度的向量。

如果像素值与(至少)表示背景模型200中的位置的第一预定数量的值(图中未示出)之间的差小于像素位置110的阈值204，则确定像素位置属于背景，否则属于前景。因此，如果像素位置110的像素值是12.9，并且第一预定数量是2，则像素位置将确定为属于前景，因为背景模型200中的值202中的仅一个值与像素位置110的像素值之差在阈值204内。如果第一预定数量是1，则因此确定像素位置110属于背景。在像素位置110的像素值是10的情况下，将确定像素位置属于背景，不论第一预定数量是什么，等等。

更详细地，在图像序列的时刻t处由x_t(m)表示像素m中的观测值，并且由{x_i(m)|i＝1，...，N}表示像素m的背景样本202的集合。每个观测值

具有k个通道(例如在RGB色彩空间中，由R、G、B三个通道表示每个观测值)。对于图像100中的像素位置110，将图像数据(即该像素位置的强度值)(如果可以的话，对于每个通道)和与像素位置110相关联的背景模型200中的每个背景样本202进行比较，以查看图像数据是否与背景样本中的每一个相差小于阈值T_r 204。例如，根据以下等式，与像素中的图像数据相差小于阈值T_r的背景样本可以与值“1”相关联，并且其他背景样本可以与值“0”相关联：

在图2a、图3a的示例中，T_r＝2。

如果背景模型200中与像素的图像数据相差小于阈值T_r的背景样本202的数量大于或等于第一预定数量的值T_N，则确定在像素位置110处的像素属于背景。否则它属于前景。

这可以通过根据以下等式而计算在时刻t处对于背景像素取值“1”并且对于前景像素取值“0”的二进制掩码B_t而实现：

换句话说，对背景模型200中与在像素位置110处的图像数据相差小于阈值T_r 204的背景样本202的数量计数。如果数量等于或超过第一预定数量的值T_N，则确定像素属于背景，并且否则属于前景。因此，如果在背景模型200中找到与像素位置110处的图像数据类似(在等式1的意义上)的至少T_N个背景样本202，则将在像素位置110处的像素分类为属于背景，并且否则属于前景。

又换言之，确定S308图像帧100中的像素位置110属于捕获的场景的背景还是前景的步骤包括：计算在像素位置110处图像帧100中的像素值与在相应像素位置处背景模型200的多个值202之间的差，计算差的小于专用于像素位置的阈值204的数量，以及如果所计算的数量超过或等于第一预定数量的值，则确定图像帧中的像素位置属于背景，并且否则图像帧中的像素位置属于前景。

图3a示出背景模型200的另一示例。在该情况中，背景模型200包括表示像素位置110的一个值202，其中确定S308图像帧100中的像素位置110属于捕获的场景的背景还是前景的步骤包括：计算在像素位置110处图像帧中的像素值与在相应像素位置处背景模型200的值202之间的差，以及如果差低于专用于像素位置的阈值204则确定图像帧中的像素位置属于背景，并且否则确定图像帧中的像素位置属于前景。

图2b和图3b通过示例的方式示出用于像素位置112的两个背景模型200(即分类为树)。如从图2a、图3a的示例可见，由于更大的阈值204，与如上所述关于分类为树的像素位置110相比，允许背景模型200的值202与像素位置112处的像素值之间的差更大。

可以实现定义背景模型200的其他方式。例如，可以由具有平均值和标准偏差的高斯分布表示用于像素位置的背景模型的值。在该情形中，确定S308图像帧中的像素位置属于捕获的场景的背景还是前景的步骤包括：计算在像素位置处的图像帧中的像素值与平均值之间的差，并且通过标准偏差归一化该差，以及如果归一化的差低于专用于像素位置的阈值，则确定图像帧中的像素位置属于背景，并且否则图像帧中的像素位置属于前景。

以规则的间隔有利地更新背景模型200的值202(例如像素值或高斯分布)。例如，图2a至图2b的模型的像素值202可以实施为FIFO队列，其每隔n个图像帧采用在该帧中的像素位置的像素值来更新，或者以任何其他合适的方式更新。

为了适应像素位置的动态水平，需要更新阈值。这可以通过在某些时刻基于动态水平初始化或重设置阈值S306而实现(进一步参见下面)。阈值也可以在一些情形之下增大。具体地，如果确定像素位置属于背景，则计算S312像素位置110、112的像素值与前一帧中相应像素位置(即同一像素位置)处的像素值之间的差。取决于使用情况，前一帧可以是紧接在当前图像帧100之前的帧，或者是在当前图像帧100之前n个帧数的帧。在像素值自前一帧以来已经改变大于第二值的情况下，将专用于像素位置的阈值增大S314一增量。为了更快地适应某些像素位置相对更高的动态水平，更高的动态水平导致更高的增量。因此，由于在以上情况之下设置阈值以更高的增量而增大，所以减小了错误地确定这些像素位置属于前景的概率。第二值可以是预定的，并且是用于所有像素位置的静态值。第二值也可以设置为取决于相应像素位置的阈值。第二值也可以设置为取决于与像素位置相关联的动态水平。

在一些实施例中，如果确定图像帧中的像素位置属于背景，则也可以减小S316阈值。具体地，当在图像帧中的像素位置处的像素值自前一帧以来已经改变小于第二值的情况下，将专用于像素位置的阈值减小S316一减量，其中该减量取决于像素位置的动态水平设置，使得更高的动态水平导致更低的减量。因此，仅是因为像素位置的像素值恰好在帧之间保持类似，所以对于动态像素位置的阈值不会太快降低。这有助于快速适应于再次增大的差，例如在像素位置分类为树的实施例中当风再次开始吹动时的场景中。

通常，减量低于相应增量，这也有助于以上场景中的快速适应。

应该注意，根据一些实施例，可以存在阈值维持在恒定水平的类(数个类)。例如，在树干是与树冠分离的类的情况中，对于分类为树干的像素位置的阈值可以保持静态。换言之，如果与像素位置相对应的类属于类的第三预定群组(在该示例中包括树干)，则专用于像素位置的阈值维持在恒定水平。因此，可以对于场景的某些部分禁用动态背景，有助于提高背景检测算法的灵活性。

如上所述，可选地，图4中所述的算法可以包括为每个像素位置设置S306阈值的步骤。应该注意，根据其他实施例，设置阈值的步骤是强制性步骤，并且用于更新阈值的步骤S310、S312、S314和S316是可选的。下面将结合图5描述这种实施例。下面，还将详述为每个像素位置设置S306阈值的步骤。下面的讨论因此也适于图4的方法的相应可选步骤S306。

图5的方法包括接收像素位置的类的步骤S302、以及确定/关联像素位置的动态水平的步骤S304。在此之后，确定是否应该为像素位置设置S404新阈值。如果确定应该为像素位置设置新阈值，则将专用于像素位置的阈值设置S406为一值，其中该值取决于像素位置的动态水平，使得更高的动态水平导致更高的值。否则，在不设置阈值S406的情形中，如上所述使用当前阈值直接执行确定图像帧中的像素位置属于背景还是前景步骤的步骤S308。

根据一个示例，对于视频流的初始帧执行设置S406阈值的步骤。可替代地或额外地，当捕获了视频序列的视频捕获设备的视野改变时执行设置S406阈值的步骤。也可以彼此间以预定的间隔对视频流的图像帧执行设置S406阈值的步骤。

应该注意，除了以上所述阈值之外，可以使用像素位置的动态水平设置应当如何检测背景和前景的其他优选值。例如，本文所述的方法可以进一步包括取决于像素位置的动态水平而为专用于像素位置的阈值设置下阈值，下阈值确定阈值的最小可能值，使得更高的动态水平导致下阈值的更高值。这可以减小在一段时间期间定义为动态(通过分类)的场景中的区域(几乎)是静态的场合中降低S316阈值的步骤导致太低阈值的风险。

上述方法可以在软件和/或硬件中实现，例如作为包括计算机可读存储介质的计算机程序产品，计算机可读存储介质具有适于当由具有处理能力的设备运行时执行本文所述方法的指令。方法可以因此实现在包括适于执行本文所述方法的处理器的设备中。设备可以是设备的系统的一部分，该系统将结合图6在下面例示。

图6的系统600包括适于连续地捕获描绘了场景101的视频序列(包括多个图像帧100a-c)的视频捕获设备。系统包括第一设备608(图6中标记为用于语义分析的设备)，其适于从视频捕获设备604接收视频序列的第一图像帧100a、对图像帧100a中的每个像素位置进行分类、以及输出609图像帧100a中的每个像素位置的类，该类表示在像素位置处捕获的场景中物体的类型。如上所述，第一设备608可以对基于许多先决条件所选择的图像帧执行该分类，许多先决条件诸如从用于分类的前一个图像帧以某一时间间隔是否捕获帧、或者图像捕获设备604是否已经改变了视野等等。

系统进一步包括第二设备610(图6中标记为背景分类器)，其适于从第一设备608接收输出609(即来自第一设备的第一图像帧100a中的每个像素位置的类)，以及接收视频捕获设备的视频序列的至少第二图像帧100b-100c，并且对如上所述所接收的第二图像帧的像素执行背景分类(背景分析等)。应该注意，当然也可以对第一图像帧100a进行这种背景分类。

根据一些实施例，第二设备610也从视频捕获设备604接收输入612，视频捕获设备604用于确定是否如上所述应该设置阈值(图4-图5中的S306)。也应该注意，第一设备608和第二设备610可以实现在同一物理设备中或实现在视频捕获设备604中。

应该知晓，本领域技术人员可以以许多方式修改上述实施例并且仍然使用如以上实施例中所示的本发明的优点。

例如，根据一些实施例(图6中未示出)，第二设备适于输出与第二图像帧中的像素位置属于捕获的场景的背景和前景相关的数据。然后，系统可以包括第三设备，第三设备适于从视频捕获设备604接收视频序列100a-100c、检测第二图像帧中的运动以及输出与第二图像帧中所检测到的运动相关的数据。该输出可以由第四设备接收，第四设备适于接收来自第二设备的输出的数据和来自第三设备的输出的数据以及使用接收的数据以用于追踪视频流中物体。

因此，本发明不应限于所示的实施例，而是应该仅由所附权利要求限定。此外，如本领域技术人员所理解的，可以组合所示的实施例。

Claims

1.一种计算机实现的确定视频序列的图像帧中的像素位置属于捕获的场景的背景还是前景的方法，所述方法包括，针对所述图像帧中的每个像素位置：

接收所述像素位置已经被分类成的类，所述类表示在所述像素位置处所述捕获的场景中的内容的类别，

将所述像素位置与所述像素位置的相应类的动态水平相关联，其中类的所述动态水平反映在属于所述类的像素位置处的像素值将在所述视频序列的帧之间改变值的概率；

通过将所述图像帧中的所述像素位置的所述像素值与背景模型和所述像素位置的阈值进行比较，确定所述图像帧中的所述像素位置属于所述捕获的场景的所述背景还是所述前景，所述背景模型包括表示所述像素位置的所述像素值的一个或多个值，其中如果所述像素值与在所述背景模型中的所述一个或多个值之中的第一预定数量的值之间的差小于所述像素位置的所述阈值，则确定所述像素位置属于所述背景，

如果确定所述图像帧中的所述像素位置属于所述背景，则：

当在所述图像帧中的所述像素位置处的所述像素值自前一帧以来已经改变大于第二值的情况下，将专用于所述像素位置的所述阈值增大一增量，其中所述增量取决于所述像素位置的所述动态水平而设置，使得更高的动态水平导致更高的增量。

2.根据权利要求1所述的方法，进一步包括以下步骤：

如果确定所述图像帧中的所述像素位置属于所述背景，则：

当在所述图像帧中的所述像素位置处的所述像素值自前一帧以来已经改变小于所述第二值的情况下，将专用于所述像素位置的所述阈值减小一减量，其中所述减量取决于所述像素位置的所述动态水平而设置，使得更高的动态水平导致更低的减量。

3.根据权利要求1所述的方法，进一步包括以下步骤：

设置专用于所述像素位置的所述阈值为一值，其中所述值取决于所述像素位置的所述动态水平，使得更高的动态水平导致更高的值。

4.根据权利要求3所述的方法，其中，设置所述阈值的步骤针对所述视频流的初始帧执行。

5.根据权利要求3所述的方法，其中，当捕获所述视频序列的视频捕获设备的视野改变时执行设置所述阈值的步骤。

6.根据权利要求1所述的方法，进一步包括：取决于所述像素位置的所述动态水平而为专用于所述像素位置的所述阈值设置下阈值，所述下阈值确定所述阈值的最小可能值，使得更高的动态水平导致所述下阈值的更高值。

7.根据权利要求1所述的方法，其中，如果所述像素位置的相应类属于类的第一预定群组，则将所述像素位置与第一动态水平相关联，并且如果所述像素位置的相应类属于类的第二预定群组，则将所述像素位置与更高的第二动态水平相关联。

8.根据权利要求7所述的方法，其中，如果与所述像素位置相对应的所述类属于类的第三预定群组，则将专用于所述像素位置的所述阈值维持在恒定水平。

9.根据权利要求1所述的方法，其中，所述像素位置已经被分类成的所述类使用语义分割的算法来确定。

10.根据权利要求9所述的方法，其中，所述语义分割的算法对所述视频流的图像帧子集运行。

11.根据权利要求10所述的方法，其中，所述像素位置已经被分类成的所述类使用来自所述图像帧子集中的多个图像帧的所述像素位置的语义算法的结果的组合来确定。

12.根据权利要求1所述的方法，其中，所述背景模型包括表示所述像素位置的所述像素值的多个值，其中确定所述图像帧中的所述像素位置属于所述捕获的场景的所述背景还是所述前景的步骤包括：

计算在所述像素位置处的所述图像帧中的像素值与在相应像素位置处所述背景模型的所述多个值中的每一个值之间的差，

计算差的小于专用于所述像素位置的所述阈值的数量，

如果所计算的数量超过所述第一预定数量的值，则确定所述图像帧中的所述像素位置属于所述背景，并且否则，确定所述图像帧中的所述像素位置属于所述前景。

13.一种包括计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有指令，所述指令在由具有处理能力的设备运行时，适于执行根据权利要求1-12中任一项所述的方法。

14.一种用于确定视频序列的图像帧中的像素位置属于捕获的场景的背景还是前景的设备，所述设备包括处理器，所述处理器适于：

接收所述像素位置已经被分类成的类，所述类表示在所述像素位置处所述捕获的场景中的物体的类型，

基于所述像素位置的相应类将所述像素位置与动态水平相关联，其中类的所述动态水平反映在属于所述类的像素位置处的像素值将在所述视频序列的帧之间改变值的概率，

通过将所述图像帧中的所述像素位置的所述像素值与背景模型和所述像素位置的阈值进行比较，确定所述图像帧中的所述像素位置属于所述捕获的场景的所述背景还是所述前景，所述背景模型包括表示所述像素位置的所述像素值的一个或多个值，其中如果所述像素值与在所述背景模型中的所述一个或多个值之中的第一预定数量的值之间的差小于所述像素位置的所述阈值，则确定所述像素属于所述背景，

如果确定所述图像帧中的所述像素位置属于所述背景，则：

在所述像素值自前一帧以来已经改变大于第二值的情况下，将专用于所述像素位置的所述阈值增大一增量，其中所述增量取决于所述像素位置的所述动态水平而设置，使得更高的动态水平导致更高的增量。

15.一种用于捕获场景中的视频序列和确定所述视频序列的图像帧中的像素位置属于背景还是前景的系统，包括：

视频捕获设备，所述视频捕获设备适于连续地捕获描绘场景的视频序列，

第一设备，所述第一设备适于从所述视频捕获设备接收所述视频序列的第一图像帧、对所述图像帧中的每个像素位置进行分类、以及输出所述图像帧中的每个像素位置的类，所述类表示在所述像素位置处所述捕获的场景中的物体的类型，

作为所述系统中的第二设备的根据权利要求14所述的设备，所述第二设备适于从所述视频捕获设备接收所述视频序列的第二图像帧，以及从所述第一设备接收所述第一图像帧中的每个像素位置的类。