CN106611417B

CN106611417B - 将视觉元素分类为前景或背景的方法及装置

Info

Publication number: CN106611417B
Application number: CN201510683133.8A
Authority: CN
Inventors: 江龙; 赵勖予; 姜涌
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2020-03-31
Anticipated expiration: 2035-10-20
Also published as: CN106611417A

Abstract

本发明提供一种将视频中的输入图像中的视觉元素分类为前景或背景的方法及装置。所述输入图像包括多个视觉元素，所述方法包括：获取步骤，获取与所述输入图像相关联的背景模型；模糊强度确定步骤，通过在所述输入图像与所述背景模型之间比较所述多个视觉元素的边缘强度，来确定所述输入图像的模糊强度；分类阈值确定步骤，根据所述模糊强度来确定分类阈值；以及分类步骤，根据所述分类阈值，将所述视觉元素分类为所述前景或所述背景。

Description

将视觉元素分类为前景或背景的方法及装置

技术领域

本发明涉及视频分析及图像处理，尤其涉及在视频中将前景对象从背景中的分离。

背景技术

视频照相机被广泛地用于当今的安全监控系统中。照相机捕获的视频内容之多，超出了人类观察者的处理能力。因此，需要对视频内容的自动分析。在视频内容的处理中，有如下的重要步骤，即将视频帧的内容分离为前景对象和背景场景或背景。该处理被称为前景背景分离。这种分离使得能够进行进一步的分析，例如，对运动对象的跟踪。这种进一步的分析可以起到协助作用，例如，可以协助决定是否向安保人员发送警报。

视频是一序列的图像。图像也称为帧。术语“帧”及“图像”在整个本说明书中可互换地使用以描述图像序列中的单个图像。帧或图像包括多个视觉元素。

背景模型与从视频或图像序列得出的背景信息相关。背景模型是通过将当前帧之前、跨越一段时间的多个帧上的场景中的像素或块的视觉特性集合到一起来创建的。对于背景模型的形式没有限制。根据一个示例，背景模型简单地是当前帧之前的图像帧中的一者。总之，背景模式的结构取决于视觉元素分类和前景背景分离的目的。

现有技术1为背景减除，这是前景背景分离的常见方法。在一个示例中，将背景模型中的像素值，与输入帧中的相应位置处的当前像素值进行比较。如果当前像素值与背景模型中的像素值相似，则认为该像素属于背景；否则，认为该像素属于前景对象。图1A例示了背景模型的示例。图1B例示了内部有人的当前图像，在该当前图像中，通过背景减除过程而对前景背景分离进行了标示。

现有技术1的技术难题是在具有变动的外观的场景中，进行精确的前景背景分离。例如，在各种条件下，例如当对象出现在过于接近照相机处，或者在自动聚焦过程中，在视频监控系统中使用的照相机可能提供失焦(out of focus)的视频帧。当发生失焦时，视频帧经常由于透镜移位而变得模糊。图像的纹理将是模糊不清的。在这种情况下，现有技术1往往失败，并且通过现有技术1，若干背景块将被不正确地分离为前景块。图2示出了由于失焦而导致的模糊的输入图像的现有技术1的分离结果，在该分离结果中，许多背景块被不正确地分离为前景块。如果不能正确地进行对这种失焦视频帧的前景背景分离，则在此基础上，可能错误地导致进一步的内容分析，并且视频监控系统的其他操作可能受到影响。

也存在一些计算图像模糊度的方法。现有技术2(即美国专利公开US2014/0015984)公开了一种用于在视频分析系统中确定图像模糊度值的技术。该技术首先对视频帧进行多级哈尔(Haar)小波变换。然后，根据一些预定的结构，在各金字塔分解级中，确定清晰边缘区域和候选模糊边缘区域。接下来，从候选模糊边缘区域中确定实际模糊边缘区域。最后，基于清晰边缘区域及模糊边缘区域来确定模糊度值。

为了确定清晰边缘区域和模糊边缘区域，现有技术2需要对视频帧进行多级哈尔小波变换和许多模板匹配，而这是耗时的。很难在实时前景背景分离系统中应用。

此外，根据一些预定的结构来确定清晰区域或模糊区域，可能受到噪声的影响。例如，如果模糊图像包含大量的噪声，则该模糊图像很可能被判断为清晰图像，这是因为，噪声经常包括现有技术2中例示的狄拉克(Dirac)结构。换言之，该方法的鲁棒性成为技术难题。

因此，期望提出一种新技术，以解决现有技术中的至少一个问题。

发明内容

本发明是鉴于上述问题中的至少一者而提出的。

根据本发明的一个方面，提供了一种将视频中的输入图像中的视觉元素分类为前景或背景的方法，所述输入图像包括多个视觉元素，所述方法包括：获取步骤，获取与所述输入图像相关联的背景模型；模糊强度确定步骤，通过在所述输入图像与所述背景模型之间比较所述多个视觉元素的边缘强度，来确定所述输入图像的模糊强度；分类阈值确定步骤，根据所述模糊强度来确定分类阈值；以及分类步骤，根据所述分类阈值，将所述视觉元素分类为所述前景或所述背景。

通过以下参照附图对示例性实施例的描述，本发明进一步的特征将变得清楚。

附图说明

被并入说明书中并构成说明书的一部分的附图例示了本发明的实施例，并与文字描述一起用来说明本发明的原理。

图1A例示了背景模型的示例。图1B例示了内部有人的输入图像，在该输入图像中，通过背景减除过程而对前景背景分离进行了标示。

图2示出了由于失焦而导致的模糊的输入图像的现有技术1的分离结果，在该分离结果中，许多背景视觉元素被错误地分离为前景元素。

图3(包括图3A和图3B)示出了对模糊帧和正常帧的图像特征的比较分析，其中，图3A是失焦的模糊帧，图3B是具有与图3A相同的内容的正常帧，但是清晰得多。

图4A是根据能够实施本发明的示例性实施例的第一示例性系统结构的示意框图。

图4B是根据能够实施本发明的示例性实施例的第二示例性系统结构的示意框图。

图5是例示图4A及图4B中的计算设备420的示例性硬件结构的框图。

图6示出了根据本发明的示例性实施例将视觉元素分类为前景或背景的方法的主要流程图。

图7示出了提取图3A的输入图像的背景区域的结果。

图8A示出了实施确定输入图像的模糊强度的步骤S200的第一示例。

图8B示出了在不首先提取输入图像的背景区域的情况下实施步骤S200的另一示例。

图9示出了之字形图案的DCT系数表以及用于边缘强度的计算的系数AC01、AC02、AC10及AC20。

图10(包括图10A和图10B)通过比较现有技术1和本发明的分类结果而例示了本发明的效果，图10A示出了现有技术1的分类结果，其中大量的视觉元素被错误地分类为前景，图10B示出了根据本发明的实施例的分类结果，在该结果中，获得了更高的分类精度。

图11示出了根据本发明的示例性实施例将视频中的输入图像中的视觉元素分类为前景或背景的装置1000的功能配置。

具体实施方式

现在，将参照附图来详细描述本发明的各种示例性实施例。应当注意，除非另外特别说明，否则在这些实施例中提出的各构成要素及步骤的相对布置、数值表达式以及数值并不限定本发明的范围。

以下对至少一个示例性实施例的描述在本质上仅仅是说明性的，并且绝非旨在限制本发明、本发明的应用或者用途。

相关领域的普通技术人员所公知的技术、方法及装置可以不作详细讨论，并且在适当的情况下旨在成为本说明书的一部分。

在本文中例示和讨论的所有示例中，任何具体值均应当被解释为仅是说明性的并且是非限制性的。因此，示例性实施例的其他示例可能具有不同的值。

请注意，在以下各图中，相似的附图标记及字母指代类似的项目，因而，一旦项目在一个图中被定义，则对于之后的图，该项目可能不需要被进一步讨论。

接下来，对本发明的原理进行说明。为了解决在视频中的模糊图像中进行前景背景分离的技术难题，需要对图像模糊度的计算。

图3示出了对模糊帧和正常帧的图像特征的比较分析。图3A是失焦的模糊帧。图3B是具有与图3A相同的内容的正常帧，但是清晰得多。

在图3A中取第一个块，并且在该块内，选择两个相邻的像素i和i+1。在图3A中，像素i与像素i+1之间的强度差(intentisy difference)被例示为D1。

在图3B中取第二个块。第二个块和第一个块具有相同的尺寸及位置。在第二个块内，选择两个相邻的像素j和j+1。j具有与i相同的坐标，并且j+1具有与i+1相同的坐标。在图3B中，像素j与像素j+1之间的强度差被例示为D2。

如图3所示，D1小于D2。这意味着，模糊图像中的视觉元素的边缘强度，经常小于正常图像中的视觉元素的边缘强度(edge intensity)。

本发明的一个示例性实施例在估计图像模糊强度(blurry strength)时，利用了该特征。本实施例通过在视频帧与背景模型之间比较各视觉元素的边缘强度，判断各视觉元素是否为模糊的。然后，通过计算模糊视觉元素的数量与全体视觉元素的数量之比，来获得视频帧的模糊强度。然后，可以使用视频帧的模糊强度，动态地调整将视觉元素分类为前景或背景的分类阈值。

现在，返回到本发明的具体实施中。

图4A是根据能够实施本发明的示例性实施例的第一示例性系统配置的示意框图。成像设备400包括照相机传感器410和连接的计算设备420。照相机传感器410获取视频或图像序列。计算设备420实施将视觉元素分类为前景或背景的方法。计算设备420可以是结构紧凑且容易被嵌入成像设备400中的集成电路芯片的形式。例如，成像设备400可以是手持照相机、网络照相机，或者是具有照相机的移动电话。

图4B是根据能够实施本发明的示例性实施例的第二示例性系统配置的示意框图。照相机传感器410被用来获得视频或图像序列。计算机网络430将这些视频或图像序列发送到计算设备420。计算设备420实施将视觉元素分类为前景或背景的方法。计算设备420可以是本地个人计算机、远程服务器或工作站的形式。

图5是例示图1A及图1B中的计算设备420的示例性硬件结构的框图。

通过输入/输出(I/O)接口510便利了从照相机传感器410到计算设备420的图像发送，该I/O接口510可以是符合通用串行总线(USB)标准并且具有相应的USB连接器的串行总线。也可以从本地存储设备440下载图像序列，该本地存储设备440可以包括SIM卡、SD卡及USB存储卡等。

图像通过I/O接口510获得，并被发送到存储器(Memory)550。处理器520被布置为取回存储器550中存储的公开方法的软件程序。处理器520还被布置为提取、解码并执行根据所公开方法的所有步骤，例如在图6、图8A及图8B中所示的步骤。处理器520利用系统总线530，将各个操作的结果记录至存储器550。除了存储器550之外，还可以经由I/O接口560，将输出更永久地存储在存储设备440上。作为另一选择，也可以利用音频/视频接口568，将输出显示在监视器450上，以供人查看。

计算设备420可以是各种形式，例如，能够去除一个或更多个不必要的部件或者添加一个或多个附加部件的、嵌入在图4A中的摄像设备中或嵌入在图4B中的单独计算机中的处理系统。

接下来，详细说明用于处置包括多个视觉元素的视频图像的方法的示例性实施例。本实施例能够将视频中的输入图像中的视觉元素，分类为前景或背景。并且，通过组合输入图像中的各视觉元素的分类结果，本实施例能够进一步在输入图像中进行前景背景分离。

图6示出了根据本发明的示例性实施例将视觉元素分类为前景或背景的方法的主要流程图。图3A是视频中的输入图像的示例。

输入图像或视频帧可以被认为是由视觉元素组成。视觉元素可以是单个像素或者是一组邻接像素。

在步骤S100，获取与输入图像相关联的背景模型。背景模型用来表现在不同时刻捕获的场景内的视觉元素。背景模型是场景中可见的非瞬时部分的表现。因此，背景模型描述不包含前景对象的场景。在一个示例中，背景模型仅仅是视频的第一帧或者前几帧的平均值。背景模型也可以是如专利US8305440中所公开的多模式背景模型。

在步骤S200中，通过在输入图像与背景模型之间比较多个视觉元素的边缘强度，来确定输入图像的模糊强度。

可以通过便于计算的可选方式，来实施一些预处理步骤。在本示例性实施例中，以8*8的规模对输入图像实施离散余弦变换(DCT)，这64个块中的每个是一个像素，或者是一组邻接像素。在这种情况下，认为输入图像包括多个视觉元素，并且各视觉元素由64个块组成。

不只DCT处理，还可以选择傅立叶变换(FT)、小波变换(WT)或其他图像变换，来方便计算。

然而，本领域的技术人员能够清楚地理解，虽然一个示例采用了DCT变换，但是，这并不意味着DCT变换是实现本发明的目的所必不可少的。作为另一选择，也可以在不超越本发明的原则的情况下，直接处置输入图像并遵循图6的主要流程图。

在图8中，说明了步骤S200的具体实施过程。图8A例示了确定输入图像的模糊强度的第一示例。

在步骤S210中，通过使用背景减除方法，来提取输入图像的背景区域。首先，对基本思想进行说明。针对输入图像中包括的多个视觉元素中的各个，计算输入图像与步骤S100中获取的关联的背景模型之间的视觉距离。然后，将视觉距离与预定阈值T₁进行比较，并且将视觉距离小于T₁的那些视觉元素提取为背景区域。可以通过试验来选择T₁。

其次，描述提取背景区域的具体实施过程。首先，通过离散余弦变换来处理输入图像。8个DCT系数被划分为“DC”特征(Y₀,Cb,Cr)和“AC”特征(Y₁…Y₅,)。DC特征代表亮度特征及颜色特征，而AC特征代表纹理特征。

DC特征和AC特征的距离由以下的公式来计算。

D_Yj＝abs(Y_{j_input}-Y_{j_bg}),j＝0,1...5 (1)

换言之，针对输入图像计算系数Y_j，由此得到Y_{j_input}。针对关联的背景模型计算系数Y_j，由此得到Y_{j_bg}。D_Yj等于Y_{j_input}与Y_{j_bg}之差的绝对值。

类似地，按照公式(2)及(3)计算D_Cb及D_Cr。

D_Cb＝abs(Cb_input-Cb_bg) (2)

D_Cr＝abs(Cr_input-Cr_bg) (3)

然后，分别按照公式(4)及(5)得到D_DC及D_AC。D_DC表示视觉距离VD的DC分量，并且D_AC表示VD的AC分量。

D_DC是

D_Cb及D_Cr的加权和，而D_AC是D_Yi的加权和。G₀…G₇是特征的权重。可以通过训练数据的线性回归分析来获得权重。

按照公式(6)，来计算视觉元素在输入图像与关联的背景模型之间的视觉距离VD。

VD＝D_DC+D_AC (6)

然后，通过比较VD和预定阈值T₁，来判断视觉元素是否属于背景区域。将视觉距离小于T₁的那些视觉元素提取为背景区域。

图7示出了提取图3A的输入图像的背景区域的结果。

返回参照图8A。在步骤S220，分别确定所述背景区域中的全体视觉元素的第一数量N_Total，和所述背景区域中的模糊视觉元素的第二数量N_Blur。

关键点是判断视觉元素是否为模糊的。并且，本示例性实施例通过计算边缘强度来进行判断，因为分析表明，模糊图像中的边缘强度经常小于正常图像中的边缘强度。

在本实施例中，采用通过利用DCT系数的结果来计算边缘强度的方法。作为另一选择，可以选择不同的方法来计算边缘强度。

在本实施例中，输入图像包括多个视觉元素。并且，每个视觉元素包括64个块。计算64个块的边缘强度，并且使用最大的边缘强度，来代表整个视觉元素的边缘强度。

使用4个DCT系数，按照公式(7)和(8)，分别计算在水平方向和垂直方向上的YCrCb颜色空间的Y通道中的强度(intensity)，其中，x和y是从原点起的序号。公式(7)和(8)是用来执行IDCT(逆离散余弦变换)的手段。

(x＝0,1…7),(y＝0,1…7)

在上下文中，AC₀₁、AC₀₂、AC₁₀及AC₂₀代表一些DCT系数。如果我们在之字形图案中布置DCT系数表，则使用的系数是AC₀₁、AC₀₂、AC₁₀及AC₂₀。图9示出了之字形图案的DCT系数表以及用于边缘强度的计算的系数。

块中的边缘可以被认为是Y通道中的强度改变最大的那些像素。因此，能够通过强度的改变来测量块边缘。按照公式(9)及(10)，求出f(x)的导数，即f'(x)，以及g(y)的导数，即g'(y)。

(x＝0,1…7),(y＝0,1…7)

此外，在视觉元素的全部64个块之中，求出f'(x)的绝对值的最大值和g'(y)的绝对值的最大值，从而给出max|f'(x)|及max|g'(y)|。按照公式(11)，通过使用X方向上的梯度的绝对值的最大值和Y方向上的梯度的绝对值的最大值，来计算视觉元素的边缘强度EdgeIntensity，其中，X方向是水平的，并且Y方向是垂直的。

EdgeIntensity＝sqrt(max|f'(x)|*max|f'(x)|+max|g'(y)|*max|g'(y)|)(11)

值得注意，计算视觉元素的边缘强度的方法并不局限于公式(11)。

在一个方面，公式(11)求出最大值，来代表包括多个块的视觉元素的边缘强度。在另一方面，例如，替代方法能够计算视觉元素的全部多个块的边缘强度的平均值，作为该视觉元素的边缘强度。

本领域的技术人员能够清楚地理解，可以在不超越本发明的原则的情况下，采用其他的计算方法。

接下来，将按照例如公式(11)，针对在步骤S210提取的背景区域中的各视觉元素，来计算两个边缘强度。基于输入图像来计算一个边缘强度EdgeIntensity_input，并且基于背景模型来计算另一边缘强度EdgeIntensity_bg。将EdgeIntensity_input与EdgeIntensity_bg进行比较。如果EdgeIntensity_input减EdgeIntensity_bg小于阈值T2，则将该元素判断为模糊的；否则，将该元素判断为正常的。可以通过试验来选择T2。

例如，T2可以是0。换言之，如果该视觉元素在输入图像中的边缘强度，小于该视觉元素在背景模型中的关联的边缘强度，则该视觉元素被识别为模糊的。

在步骤S220，通过上述的方法，来计数所述背景区域中的模糊视觉元素的第二数量N_Blur，并且确定所述背景区域中的全体视觉元素的第一数量N_Total。

返回参照图8A，在步骤S230，根据第二数量与第一数量之比，来计算输入图像的模糊强度，也即，

BlurStrength＝N_Blur/N_Total (12)

请注意，步骤S210的优点，是确保输入图像的模糊强度的计算不受前景对象的干扰。对于位于输入图像的前景对象处的那些视觉元素，这些元素在输入图像中的边缘强度，可能不同于这些元素在背景模型中的边缘强度。然而，这种差异可能是由前景对象的内容导致的，而不是由输入图像的模糊程度导致的。

本领域的技术人员能够清楚地理解，步骤S210是可选的。图8B示出了在不首先提取所述输入图像的背景区域的情况下实施步骤S200的另一示例性流程图。作为替代，本示例基于整个输入图像来计算输入图像的模糊强度。

在步骤S220’，分别确定输入图像中的全体视觉元素的第三数量N'_Total，和输入图像中的模糊视觉元素的第四数量N'_Blur。请注意，在图8B的实施过程中判断视觉元素是否模糊的标准，与在图8A的实施过程中的标准相同。

在步骤S230’，根据第四数量与第三数量之比，来计算输入图像的模糊强度，也即，

BlurStrength＝N′_Blur/N′_Total (13)

然后，可以使用输入图像的模糊强度，动态地调整将视觉元素分类为前景或背景的分类阈值。

返回参照图6，请注意，可以通过图8A中的流程图或者通过图8B中的流程图，来计算步骤S300中的模糊强度。

在步骤S300，根据模糊强度来计算分类阈值T3。例如，可以按照公式(14)来确定T3。

T3＝(1+α*BlurStrength)*T_pre (14)

T_pre表示预定阈值，该预定阈值是通过使用机器学习方法或者通过试验而获得的。T_pre可以是在不考虑图像的模糊程度的情况下的分类阈值。可以按照公式(12)或(13)来计算BlurStrength。α是BlurStrength的权重，并且α的值大于0。

值得注意，计算T3的方法并不局限于公式(14)。也可以应用其他可行的方法，只要保证模糊强度越大，则分类阈值越大即可。

在步骤S400，根据分类阈值T3，将输入图像中的视觉元素分类为前景或背景。该分类步骤还包括：计算视觉元素在输入图像与背景模型之间的视觉距离；以及通过将该视觉距离与分类阈值T3进行比较，将视觉元素分类为前景或背景。

请注意，可以按照公式(6)，来计算视觉元素在输入图像与背景模型之间的视觉距离。

然后，如果视觉距离大于分类阈值T3，则将视觉元素分类为前景，而如果视觉距离小于分类阈值T3，则将视觉元素分类为背景。

借助于上述处理，输入图像中的视觉元素将被精确地分类为前景或背景。

根据本发明的另一实施例，公开了一种在视频中的输入图像中进行前景背景分离的方法，所述输入图像包括多个视觉元素，并且，所述方法包括：根据上述的方法，将所述输入图像中的所述多个视觉元素中的各个分类为前景或背景。

图11示出了根据本发明的示例性实施例将视频中的输入图像中的视觉元素分类为前景或背景的装置1000的功能配置。并且，输入图像包括多个视觉元素。可以通过硬件、固件、软件或这三者的任意组合中的任何一种方式，来构造该装置以及包括在该装置中的单元，只要用于将视觉元素分类为前景或背景的该装置中的单元能够实施前面描述的方法的相应步骤的功能即可。例如，该装置以及包括在该装置中的单元可以实施图6及图8中的工作流程及步骤。

如果装置1000是部分地或全部地由软件来构造的，则该软件被存储在诸如图5中的存储器550等的计算机的存储器中，并且，当诸如图5的部件520等的计算机的处理器通过执行所存储的软件来进行处理时，该计算机能够实现本发明的、将视觉元素分类为前景或背景的功能。在另一方面，装置1000可以部分地或全部地由硬件或固件来构造。装置1000可以作为功能模块被并入到图4A中的计算设备420中。

装置1000可以包括：获取单元1100，其被构造为获取与输入图像相关联的背景模型；模糊强度确定单元1200，其被构造为通过在输入图像与背景模型之间比较所述多个视觉元素的边缘强度，来确定所述输入图像的模糊强度；分类阈值确定单元1300，其被构造为根据所述模糊强度来确定分类阈值；以及分类单元1400，其被构造为根据所述分类阈值，将视觉元素分类为前景或背景。

在一个实施例中，装置1000还包括成像单元1500，该成像单元1500被构造为获得视频。

在一个实施例中，装置1000还包括显示控制器1600，该显示控制器1600被构造为在显示单元上，显示从成像单元获得的图像或视频。

在一个实施例中，模糊强度确定单元还包括：背景区域提取子单元，其被构造为提取所述输入图像的背景区域；数量确定子单元，其被构造为分别确定所述背景区域中的全体视觉元素的第一数量，和所述背景区域中的模糊视觉元素的第二数量；以及模糊强度计算子单元，其被构造为根据所述第二数量与所述第一数量之比，来计算所述输入图像的模糊强度。

作为另一选择，在另一实施例中，所述模糊强度确定单元还包括：数量确定子单元，其被构造为分别确定所述输入图像中的全体视觉元素的第三数量，和所述输入图像中的模糊视觉元素的第四数量；以及模糊强度计算子单元，其被构造为根据所述第四数量与所述第三数量之比，来计算所述输入图像的所述模糊强度。

在一个实施例中，在数量确定子单元中，如果视觉元素在输入图像中的边缘强度，小于该视觉元素在背景模型中的关联的边缘强度，则将该视觉元素识别为模糊的。

在一个实施例中，视觉元素的边缘强度的计算如下：计算所述视觉元素在水平方向上的梯度的绝对值的最大值；计算所述视觉元素在垂直方向上的梯度的绝对值的最大值；以及根据两个最大值来计算视觉元素的边缘强度。

在一个实施例中，在分类阈值确定单元中，所述模糊强度越大，则所述分类阈值越大。

在一个实施例中，在分类阈值确定单元中，通过下面的公式来确定分类阈值T。

T＝(1+α*BlurStrength)*T_pre (15)

其中，T_pre是预定阈值，BlurStrength是模糊强度，α是模糊强度的权重，并且α的值大于0。

在一个实施例中，分类单元还包括：计算子单元，其被构造为计算视觉元素在输入图像与背景模型之间的视觉距离；以及分类子单元，其被构造为通过将所述视觉距离与分类阈值T进行比较，来将视觉元素分类为前景或背景。

在一个实施例中，分类单元被构造为在视觉距离大于分类阈值T的情况下，将视觉元素分类为前景，而在视觉距离小于分类阈值T的情况下，将视觉元素分类为背景。

在另一方面，本发明还公开了一种视频监控系统，该视频监控系统由通过网络连接的照相机和客户端计算设备构成。并且，图4B示例性地例示了这样的视频监控系统。

在图4B中，照相机410包括成像单元，该成像单元用于获得视频。获得的视频通过网络430被发送到客户端计算设备420，以进行进一步的处理。并且，客户端计算设备420被构造为将获得的视频中的输入图像中的视觉元素，分类为前景或背景，所述输入图像包括多个视觉元素，所述客户端计算设备包括：

获取单元，其被构造为获取与所述输入图像相关联的背景模型；

模糊强度确定单元，其被构造为通过在所述输入图像与所述背景模型之间比较所述多个视觉元素的边缘强度，来确定所述输入图像的模糊强度；

分类阈值确定单元，其被构造为根据所述模糊强度来确定分类阈值；以及

分类单元，其被构造为根据所述分类阈值，将所述视觉元素分类为所述前景或所述背景。

[实验结果]

为了显现本发明的效果，进行了实验来显示根据上述实施例的本发明的性能。

图3A示出了失焦的模糊视频帧，即要处理的输入图像。图1A是输入图像的关联的背景模型。

图10通过比较现有技术1和本发明的分类结果而例示了本发明的效果。

图10A示出了现有技术1的分类结果，其中大量的视觉元素被错误地分类为前景。

图10B示出了根据本发明的实施例的分类结果，其中获得了高得多的分类精度。这是因为，本发明精确地确定输入图像的模糊强度，并相应地调整分类阈值。

此外，使用了包括多于12000帧的3个视频，来评估现有技术1与本发明之间的分类的性能。评估准则是由公式(16)至(18)定义的。

分别通过现有技术1和本发明的实施例对相同数据集进行了测试，以评估性能。实验表明：

·与现有技术1相比，本发明的实施例的精度(Precision)显著提高了约50％；

·本发明的实施例能够达到与现有技术1几乎相同的召回率(Recall Rate)；

·与现有技术1相比，本发明的实施例能够使F1分数(F1 Score)提高约27％。

所述性能证明了本发明的如下原理的有效性，也即，通过在输入图像与关联的背景模型之间比较多个视觉元素的边缘强度，来计算输入图像的模糊强度，并且根据该模糊强度，来调整分类阈值。

由于所公开的方法的低的计算成本，本发明能够满足实时计算的要求，并且适合于实时视频中的前景背景分离。

因此，本发明提供了高鲁棒性的方法，从而同时以高的精度和高的速度，在前景背景分类的任务中处置模糊图像。

可以通过多种方式来实施本发明的方法及系统。例如，可以通过软件、硬件、固件或这三者的任意组合，来实施本发明的方法及系统。上面描述的方法的步骤的顺序仅旨在进行举例说明，并且，除非另外特别说明，否则本发明的方法的步骤并不限于上面具体描述的顺序。此外，在一些实施例中，本发明还可以体现为记录在记录介质中的程序，包括用于实施根据本发明的方法的机器可读指令。

虽然已利用示例详细展示了本发明的一些具体实施例，但是本领域的技术人员应当理解，以上示例仅旨在举例说明，并非限制本发明的范围。本领域的技术人员应当理解在不背离本发明的范围和主旨的情况下，可以对以上实施例进行变型。本发明的范围通过所附权利要求来限定。

Claims

1.一种将视频中的输入图像中的视觉元素分类为前景或背景的方法，所述输入图像包括多个视觉元素，所述方法包括：

获取步骤，获取与所述输入图像相关联的背景模型；

模糊强度确定步骤，通过在所述输入图像与所述背景模型之间比较所述多个视觉元素的边缘强度，来确定所述输入图像的模糊强度；其中每个视觉元素包括多个块，其中每个视觉元素的边缘强度由具有最大的边缘强度的块的边缘强度表示；

分类阈值调整步骤，根据所述模糊强度来调整将所述视觉元素分类为前景或背景的分类阈值，其中，所述模糊强度越大，则所述调整后的分类阈值越大；

分类步骤，根据调整后的分类阈值，将所述视觉元素分类为所述前景或所述背景。

2.根据权利要求1所述的方法，其中，所述模糊强度确定步骤还包括：

背景区域提取步骤，提取所述输入图像的背景区域；

数量确定步骤，分别确定所述背景区域中的全体视觉元素的第一数量，和所述背景区域中的模糊视觉元素的第二数量；

模糊强度计算步骤，根据所述第二数量和所述第一数量，来计算所述输入图像的所述模糊强度。

3.根据权利要求1所述的方法，其中，所述模糊强度确定步骤还包括：

数量确定步骤，分别确定所述输入图像中的全体视觉元素的第三数量，和所述输入图像中的模糊视觉元素的第四数量；

模糊强度计算步骤，根据所述第四数量及所述第三数量，来计算所述输入图像的所述模糊强度。

4.根据权利要求2或权利要求3所述的方法，在所述数量确定步骤中，如果视觉元素在所述输入图像中的边缘强度小于该视觉元素在所述背景模型中的关联的边缘强度，则将该视觉元素识别为模糊的。

5.根据权利要求4所述的方法，其中，所述视觉元素的边缘强度是通过以下步骤来计算的：

计算所述视觉元素在水平方向上的梯度的绝对值的最大值；

计算所述视觉元素在垂直方向上的梯度的绝对值的最大值；

根据两个最大值来计算所述视觉元素的边缘强度。

6.根据权利要求4所述的方法，在所述分类阈值调整步骤中，通过以下公式来调整分类阈值：

T＝(1+α*BlurStrength)*Tpre

其中，T是所述调整后的分类阈值，Tpre是预定的分类阈值，BlurStrength是所述模糊强度，α是所述模糊强度的权重，并且α的值大于0。

7.根据权利要求6所述的方法，其中，所述分类步骤还包括：

计算所述视觉元素在所述输入图像与所述背景模型之间的视觉距离；

通过将所述视觉距离与所述调整后的分类阈值T进行比较，来将所述视觉元素分类为所述前景或所述背景。

8.根据权利要求7所述的方法，其中，所述分类步骤还包括：

如果所述视觉距离大于所述调整后的分类阈值T，则将所述视觉元素分类为所述前景，而如果所述视觉距离小于所述调整后的分类阈值T，则将所述视觉元素分类为所述背景。

9.一种将视频中的输入图像中的视觉元素分类为前景或背景的装置，所述输入图像包括多个视觉元素，所述装置包括：

模糊强度确定单元，其被构造为通过在所述输入图像与所述背景模型之间比较所述多个视觉元素的边缘强度，来确定所述输入图像的模糊强度；其中每个视觉元素包括多个块，其中每个视觉元素的边缘强度由具有最大的边缘强度的块的边缘强度表示；

分类阈值调整单元，其被构造为根据所述模糊强度来调整将所述视觉元素分类为前景或背景的分类阈值，其中，所述模糊强度越大，则所述调整后的分类阈值越大；

分类单元，其被构造为根据调整后的分类阈值，将所述视觉元素分类为所述前景或所述背景。

10.根据权利要求9所述的装置，所述装置还包括成像单元，其中，所述成像单元被构造为获得视频。

11.根据权利要求9所述的装置，所述装置还包括显示控制器，其中，所述显示控制器被构造为在显示单元上显示从成像单元获得的图像或视频。

12.根据权利要求9所述的装置，其中，所述模糊强度确定单元还包括：

背景区域提取子单元，其被构造为提取所述输入图像的背景区域；

数量确定子单元，其被构造为分别确定所述背景区域中的全体视觉元素的第一数量，和所述背景区域中的模糊视觉元素的第二数量；

模糊强度计算子单元，其被构造为根据所述第二数量和所述第一数量，来计算所述输入图像的所述模糊强度。

13.根据权利要求9所述的装置，其中，所述模糊强度确定单元还包括：

数量确定子单元，其被构造为分别确定所述输入图像中的全体视觉元素的第三数量，和所述输入图像中的模糊视觉元素的第四数量；

模糊强度计算子单元，其被构造为根据所述第四数量和所述第三数量，来计算所述输入图像的所述模糊强度。

14.根据权利要求12或权利要求13所述的装置，在所述数量确定子单元中，如果视觉元素在所述输入图像中的边缘强度，小于该视觉元素在所述背景模型中的关联的边缘强度，则将该视觉元素识别为模糊的。

15.根据权利要求14所述的装置，其中，所述视觉元素的边缘强度的计算如下：

计算所述视觉元素在水平方向上的梯度的绝对值的最大值；

计算所述视觉元素在垂直方向上的梯度的绝对值的最大值；

根据两个最大值来计算所述视觉元素的边缘强度。

16.根据权利要求14所述的装置，在所述分类阈值调整单元中，通过以下公式来调整分类阈值：

T＝(1+α*BlurStrength)*Tpre

其中，T是所述调整后的分离阈值，Tpre是预定的分类阈值，BlurStrength是所述模糊强度，α是所述模糊强度的权重，并且α的值大于0。

17.根据权利要求16所述的装置，其中，所述分类单元还包括：

计算子单元，其被构造为计算所述视觉元素在所述输入图像与所述背景模型之间的视觉距离；

分类子单元，其被构造为通过将所述视觉距离与所述调整后的分类阈值T进行比较，来将所述视觉元素分类为所述前景或所述背景。

18.根据权利要求17所述的装置，其中，所述分类单元被构造为：在所述视觉距离大于所述调整后的分类阈值T的情况下，将所述视觉元素分类为所述前景，而在所述视觉距离小于所述调整后的分类阈值T的情况下，将所述视觉元素分类为所述背景。

19.一种视频监控系统，其由通过网络连接的照相机和客户端计算设备构成，其中，

所述照相机包括成像单元，该成像单元用于获得视频，

所获得的视频通过所述网络被发送到所述客户端计算设备，以进行进一步的处理，并且，

所述客户端计算设备被构造为将所获得的视频中的输入图像中的视觉元素分类为前景或背景，所述输入图像包括多个视觉元素，所述客户端计算设备包括：

获取单元，其被构造为获取与所述输入图像相关联的背景模型；模糊强度确定单元，其被构造为通过在所述输入图像与所述背景模型之间比较所述多个视觉元素的边缘强度，来确定所述输入图像的模糊强度；其中每个视觉元素包括多个块，其中每个视觉元素的边缘强度由具有最大的边缘强度的块的边缘强度表示；分类阈值调整单元，其被构造为根据所述模糊强度来调整将所述视觉元素分类为前景或背景的分类阈值，其中，所述模糊强度越大，则所述调整后的分类阈值越大；以及分类单元，其被构造为根据调整后的分类阈值，将所述多个视觉元素分类为所述前景或所述背景。