CN112639830A

CN112639830A - 利用深度学习将图片分离成前景和背景的设备和方法

Info

Publication number: CN112639830A
Application number: CN201880097060.6A
Authority: CN
Inventors: 泰·维·黄; 马库斯·布伦纳; 王洪斌; 唐健
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2021-04-09
Also published as: WO2020043296A1

Abstract

本发明实施例涉及将图片，特别是监控视频的图片，分离成前景和背景的领域。提供了一种采用卷积神经网络(Convolut ional Neural Network，CNN)，即基于深度学习的设备和方法。所述CNN用于接收所述图片和背景模型图像作为输入。所述CNN用于基于所述输入生成不同分辨率的特征图，其中，所述特征图的分辨率递减。基于所述特征图，所述CNN用于生成不同分辨率的激活图，其中，所述激活图的分辨率递增。此外，所述CNN用于输出分辨率与所述图片相同的1通道概率图，其中，所述输出的1通道概率图的每个像素对应所述图片的一个像素并指示所述图片的所述对应像素与前景对象或背景对象相关联的概率。

Description

利用深度学习将图片分离成前景和背景的设备和方法

技术领域

本发明实施例涉及将图片(例如，视频，特别是监控视频的图片)分离成前景和背景的任务。具体地，涉及将运动前景对象与静态背景场景分离。为此，本发明提出了一种设备和方法，采用卷积神经网络(Convolutional Neural Network，CNN)，即基于深度学习进行分离。

背景技术

在全球范围，摄像头网络规模不断扩大，从而产生海量监控视频数据。该视频数据需要高效的视频分析管道，以向有关当局提供及时准确的有用信息。

分割是传统视频分析的关键组成部分，用于从静态背景场景中提取运动前景对象。在图片层次，分割可看作是将图片的像素分组到表示运动对象的区域。由于分割是许多处理管道中的第一步，因此实现高分割精度是必要的。目前的分割技术不能在保持实时处理的低计算复杂度的同时，为摄像机的一系列不同的记录条件提供满意的结果。

由于监控摄像机大多数时间内都保持静止位置，因此它们记录的是具有相关运动前景对象的相同背景场景。传统方法通常利用这一假设，通过去除图片的静止区域从视频的每张图片中提取运动对象。

“背景减除”就是这样一种传统方法，它基于当前图片与参考图片之间的“差异”，通常称为“背景模型”。该方法的变型取决于背景模型的构造方式，以及在像素层次上“差异”运算的定义方式。例如，背景模型可以被估计为滑动窗口内接近当前图片(或当前帧)的所有图片(或帧)的每个像素位置处的中位数。该“差异”可以被定义为在每个像素位置处当前图片与背景模型之间的像素强度差异。虽然一些背景减除技术比较快，且其中许多已被广泛用于监控视频分析，但这些技术有如下几个限制：

噪声分割，这是由于例如在阴影、光照变化或天气条件的情况下当前图片与背景模型之间微小的强度差异。

前景区域与背景区域之间的颜色相似性可能会产生孔，甚至将前景掩码打破为不连通的二进制大对象。

间歇性运动对象可能成为背景模型的一部分，因此无法被提取。

由于使用计算资源和训练数据不断增加的深度学习，计算机视觉中的“语义/实例分割”技术近年来有了很大改进。语义分割是将图片的每个像素与类标记(例如“人”、“汽车”、“自行车”、“树”等)关联的过程，而实例分割结合了对象检测和语义分割，以使用唯一的实例标签标记每个对象实例。尽管这些技术开始用于自动驾驶车辆等高级感知系统，但它们不是为监控视频应用而明确设计的，因此，在其算法公式中并没有利用监视摄像机是静止的事实。因此，这些技术在前景对象提取中的性能不是最优的。

“背景减除/语义分割组合”是一种混合技术，包括利用对象级语义解决背景减除的一些具有挑战性的场景。更准确地说，该技术将语义分割输出的“概率图”与背景减除技术的输出相结合，以减少误报。然而，该混合技术必须分别并行运行两个模型，而不会在提取前景运动对象的端到端解决方案中直接使用深度学习。

“基于深度学习的背景减除”是一种相对较新的技术。存在一些传统的使用深度神经网络从视频监控中提取前景对象的方法。下面总结了这些利用深度学习的方法的特点和缺点：

有些方法使用场景特定模型。然而，在这种情况下，每次新部署到新场景都需要进行新训练，使得这些方法低效且不实用。

有些方法使用小尺寸补片，其中，这些补片分别从图片和背景模型图像中提取。然而，小尺寸补片导致来自空间域中相邻区域的上下文信息过少，从而无法帮助准确确定小补片中的给定像素属于前景还是背景。

一些方法在将图像数据输入到CNN模型中之前将该图像数据从RGB转换成灰度数据。然而，由于灰度数据(1颜色通道)包括的信息比RGB数据(3颜色通道)少得多，因此CNN模型执行背景减除任务会更加困难。因此，性能不是最优的。

有些方法没有上述小补片大小或灰度问题，但因使用例如10张连续图片作为输入而导致架构过于复杂。高计算复杂度使得这些方法无法部署到真实系统中。

有些方法不处理补片，而是处理尺寸被调整(尺寸被减小)为例如336x336和320x240的图片。由于尺寸减小，变得难以分割小尺寸的前景对象。

发明内容

鉴于上述问题和缺点，本发明实施例旨在改进传统方法。目标在于提供一种分割技术，它在不同的记录条件下都具有高性能和鲁棒性。特别地，本发明实施例旨在提供一种用于更好地分离监控视频图片的轻量级设备和方法。

本发明的实施例在所附独立权利要求中定义。本发明的有利实施方式在从属权利要求中进一步定义。

特别地，本发明实施例提出了一种专门针对监控视频开发的分割技术。传统的语义分割将类别标签分配给图片的每个像素，以指示所述像素所属的对象或物品，与传统的语义分割相比，所提出的分割技术能够将二进制值分配给每个像素，以指示所述像素是否属于移动对象，或者换句话说，是属于相关前景对象还是背景。例如，输出是二值图，指示图片(或图像或帧)的每个像素与相关前景对象关联还是不相关(例如还是与背景关联)。

通过提出将图片分离成前景和背景的CNN模型(CNN模型也称为“BackgroundNet”)，特别解决了上述传统方法的局限。所述CNN模型基于以下概述的特征：

将背景减除重组为可训练的端到端分割问题，适合于深度学习。

CNN输入是图片和背景模型图像，优选呈高分辨率RGB(共6个通道)形式。

CNN输出是分辨率与输入(即图片)相同的1通道概率图。每个像素位置处的概率值指示图片的像素属于前景运动对象的置信度。然后，优选地，通过阈值处理强制每个像素的前景/背景决策以获取二值图。

所述CNN具有编码器-解码器架构，用于所述编码器中的多分辨率特征提取，以及所述解码器中的多分辨率前景激活图。

优选地，提供从所述编码器到所述解码器的多个跳跃连接，以帮助在多分辨率层次恢复激活图的精细边界细节。

优选地，所述CNN的训练通过使用多分辨率激活图优化多分辨率二进制交叉熵损耗。因此，可以避免在每个激活图中出现孔，甚至避免将激活图分解为不连通区域。

因此，本发明的实施例通过以下方面和实现方式进行定义。

本发明的第一方面提供了一种用于将图片分离成前景和背景的设备，用于采用CNN，以：接收所述图片和背景模型图像作为输入；基于所述输入生成多个不同分辨率的特征图，其中，所述特征图的分辨率递减；基于所述多个不同分辨率的特征图生成多个不同分辨率的激活图，其中，所述激活图的分辨率递增；输出分辨率与所述图片相同的1通道概率图，其中，所述输出的1通道概率图的每个像素对应所述图片的一个像素并指示所述图片的所述对应像素与前景对象或背景对象相关联的概率。

所述“图片”可以是静止图像，也可以是视频的图片。也就是说，所述图片可以是构建视频的一系列图片中的一张图片。因此，所述图片也可以是视频的一帧。所述视频具体可以是监控视频，通常由静止监控摄像机拍摄。

“特征图”的每个值都指示在所述输入的多个不同区域中的一个区域中是否存在一个或多个确定特征。所述特征图的分辨率递减，使得更容易在较深特征图中捕捉到较大范围的信息。“激活图”的每个值都指示对应特征图的多个不同区域中的一个区域与前景对象或背景相关联的置信度。也就是说，可以认为所述激活图表示前景掩码。所述激活图的分辨率递增，使得在较深的激活图中能更好地恢复对象细节。

可以通过将sigmoid函数应用于1通道激活图获得“概率图”。因此，所述概率图也是1通道，即1通道概率图，例如，其取值范围为[0,1]。

通过采用如上所述的CNN，所述第一方面的所述设备能够分割所述图片，对不同记录条件具有高性能和鲁棒性。所述第一方面的所述设备特别适合于分离监控视频的一张或多张图片。

在所述第一方面的一种实现方式中，所述设备用于对所述输出的1通道概率图进行阈值处理以获取二进制掩码，其中，所述二进制掩码的每个像素指示所述图片的所述对应像素是与前景对象还是背景对象相关联。

也就是说，所述设备可以轻易地准确分离前景和背景中的图片。

在所述第一方面的另一种实现方式中，所述输入包括3通道[特别是RGB]高分辨率背景模型图像和分辨率类似的3通道[特别是RGB]图片。

也就是说，所述设备不需要进行灰度转换，即可以将更多信息用于所述图片的分离。

在所述第一方面的另一种实现方式中，所述CNN包括编码器-解码器架构；所述编码器用于生成所述多个不同分辨率的特征图；所述解码器用于生成所述多个不同分辨率的激活图。

该结构可以实现特别高的性能并准确地将图片分离成前景和背景。

在所述第一方面的另一种实现方式中，所述CNN包括具有多个连续编码器层的编码器和具有多个连续解码器层的解码器；所述编码器用于每个编码器层生成所述多个特征图中的其中一个，其中，所述第一编码器层用于从所述接收的输入生成特征图并对其进行下采样，每个其他编码器层用于基于所述前一编码器层生成的所述特征图，生成另一特征图并对其进行下采样；所述解码器用于每个解码器层生成所述多个激活图中的其中一个，其中，所述第一解码器层用于对所述最后一个编码器层生成的所述特征图进行上采样，并基于所述上采样的特征图生成激活图；每个其他解码器层用于对所述前一解码器层生成的所述激活图进行上采样，并基于所述上采样的激活图生成另一激活图。

在所述第一方面的另一种实现方式中，每个编码器层包括至少一个卷积滤波器，用于分别对所述输入或所述前一编码器层的所述特征图进行操作，以生成特征图；每个解码器层包括至少一个卷积滤波器，用于分别对所述最后一个编码器层的所述特征图或所述前一解码器层的所述激活图进行操作，以生成激活图。

在所述第一方面的另一种实现方式中，每个编码器层用于通过执行跨步卷积或池化操作来降低所述特征图的所述分辨率；每个解码器层用于通过执行转置卷积或上池化操作，增加所述最后一个编码器层的所述特征图或所述前一解码器层生成的所述激活图的所述分辨率。

在所述第一方面的另一种实现方式中，所述CNN还包括多个跳跃连接，其中，每个跳跃连接将所述其他编码器层中用于生成特定分辨率的特征图的一个编码器层与所述其他解码器层中用于生成分辨率相同或分辨率最相似的激活图的一个解码器层连接；所述其他解码器层用于基于所述前一解码器层的所述激活图生成所述激活图和所述编码器层生成的所述特征图，其中，所述其他解码器层经由所述跳跃连接连接到所述编码器层。

也就是说，可以基于具有类似分辨率的编码器层的特征图的与前一解码器层生成的上采样的激活图的级联(由于跳跃连接)，生成另一激活图。所述跳跃连接有益于恢复所述多分辨率激活图中的精细边界细节。

在所述第一方面的另一种实现方式中，每个所述其他编码器层用于生成特征图，其中，所述特征图包括的通道多于所述前一编码器层生成的所述特征图包括的通道。

在所述第一方面的另一种实现方式中，每个所述其他解码器层用于生成激活图，其中，所述激活图包括的通道少于所述前一解码器层生成的所述激活图包括的通道。

在所述第一方面的另一种实现方式中，每个解码器层还用于输出1通道激活图估计，所述设备用于：基于所述解码器层的所有所述输出的1通道激活图估计计算多分辨率损耗；对每个1通道激活图估计进行上采样，并将其用作下一个解码器层的输入。

这样，可以更好地将图片分离成前景和背景。此外，最终损耗可以用于训练所述CNN，从而提高所述CNN的性能。

本发明的第二方面提供了一种CNN的硬件实现，其中，所述CNN用于：接收图片和背景模型图像作为输入；基于所述输入生成多个不同分辨率的特征图，其中，所述特征图的分辨率递减；基于所述多个不同分辨率的特征图生成多个不同分辨率的激活图，其中，所述激活图的分辨率递增；输出分辨率与所述图片相同的1通道概率图，其中，所述输出的1通道概率图的每个像素对应于所述图片的一个像素并指示所述图片的所述对应像素与前景对象或背景对象相关联的概率。

通过与所述第一方面的上述实现方式对应的所述第二方面及所述第二方面的对应实现方式的硬件实现方式，可以实现所述第一方面及其实现方式的设备的相应优点和效果。

本发明的第三方面提供了一种采用CNN将图片分离成前景和背景的方法，其中，所述方法包括：接收所述图片和背景模型图像作为输入；基于所述输入生成多个不同分辨率的特征图，其中，所述特征图的分辨率递减；基于所述多个不同分辨率的特征图生成多个不同分辨率的激活图，其中，所述激活图的分辨率递增；输出分辨率与所述图片相同的1通道概率图，其中，所述输出的1通道概率图的每个像素对应于所述图片的一个像素并指示所述图片的所述对应像素与前景对象或背景对象相关联的概率。

在所述第三方面的一种实现方式中，所述方法包括对所述输出的1通道概率图进行阈值处理以获取二进制掩码，其中，所述二进制掩码的每个像素指示所述图片的所述对应像素是与前景对象还是背景对象相关联。

在所述第三方面的另一种实现方式中，所述输入包括3通道[特别是RGB]高分辨率背景模型图像和3通道[特别是RGB]图片。

在所述第三方面的另一种实现方式中，所述采用的CNN包括编码器-解码器架构；所述编码器生成所述多个不同分辨率的特征图；所述解码器生成所述多个不同分辨率的激活图。

在所述第三方面的另一种实现方式中，所述采用的CNN包括具有多个连续编码器层的编码器和具有多个连续解码器层的解码器；所述编码器每个编码器层生成所述多个特征图中的其中一个，其中，所述第一编码器层从所述接收的输入生成特征图并对其进行下采样，每个其他编码器层基于所述前一编码器层生成的所述特征图，生成另一特征图并对其进行下采样；所述解码器每个解码器层生成所述多个激活图中的其中一个，其中，所述第一解码器层对所述最后一个编码器层生成的所述特征图进行上采样，并基于所述上采样的特征图生成激活图；每个其他解码器层对所述前一解码器层生成的所述激活图进行上采样，并基于所述上采样的激活图生成另一激活图。

在所述第三方面的另一种实现方式中，每个编码器层包括至少一个卷积滤波器，分别对所述输入或所述前一编码器层的所述特征图进行操作，以生成特征图；每个解码器层包括至少一个卷积滤波器，分别对所述最后一个编码器层的所述特征图或所述前一解码器层的所述激活图进行操作，以生成激活图。

在所述第三方面的另一种实现方式中，每个编码器层通过执行跨步卷积或池化操作来降低所述特征图的所述分辨率；每个解码器层通过执行转置卷积或上池化操作来增加所述最后一个编码器层的所述特征图或所述前一解码器层生成的所述激活图的分辨率。

在所述第三方面的另一种实现方式中，所述CNN还包括多个跳跃连接，其中，每个跳跃连接将所述其他编码器层中生成特定分辨率的特征图的一个编码器层与所述其他解码器层中生成分辨率相同或分辨率最相似的激活图的一个解码器层连接；所述其他解码器层基于所述前一解码器层的所述激活图生成所述激活图和所述编码器层生成的所述特征图，其中，所述其他解码器层经由所述跳跃连接连接到所述编码器层。

在所述第三方面的另一种实现方式中，每个所述其他编码器层用于生成特征图，其中，所述特征图包括的通道多于所述前一编码器层生成的所述特征图包括的通道。

在所述第三方面的另一种实现方式中，每个所述其他解码器层生成激活图，其中，所述激活图包括的通道少于所述前一解码器层生成的所述激活图包括的通道。

在所述第三方面的另一种实现方式中，每个解码器层还输出1通道激活图估计，所述方法包括：基于所述解码器层的所有所述输出的1通道激活图估计计算多分辨率损耗；对每个1通道激活图估计进行上采样，并将其用作下一个解码器层的输入。

通过所述第三方面及其实现方式的方法，可以实现所述第一方面及其相应实现方式的设备的上述相应优点和效果。

本发明的第四方面提供了一种计算机程序产品，包括程序代码，用于在处理器上实施时执行根据所述第三方面或其任何实现方式所述的方法。

本发明的第五方面提供了一种计算机，包括至少一个存储器和至少一个处理器，用于存储和执行程序代码以执行根据所述第四方面或其任何实现方式所述的方法。

总之，上述方面及实现方式与传统方法和技术相比具有以下优点：

优于传统的背景减除技术，因为没有特征工程和参数调节。

优于语义/实例分割，因为针对监控视频更好地提取前景对象。

优于混合技术，因为提供了单一的端到端可训练CNN模型，而且不需要额外的语义分割。

优于现有用于背景减除的CNN模型，因为：

非特定场景，即预先训练单个模型以处理所有场景。

不需要RGB到灰度转换，即可以获取图片和背景模型图像的更多信息。

不需要调整图片大小，即输入到所述CNN的图片或视频可以具有与用于视频录制的分辨率相似的分辨率，以实现高分割性能。例如，如果以1920x1080录制视频，则所述CNN将接收大小为1920x1080的输入数据。

轻量级，因为所述CNN架构经过精心设计，使得它可以使用通用GPU对1920x1080视频实时提取前景对象。

前景对象的提取结果优于所有的传统方法和技术。

应注意，本申请中所描述的所有设备、元件、单元和构件都可以在软件或硬件元件或其任何种类的组合中实施。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明各个实体适于或用于执行各自的步骤和功能。虽然在以下具体实施例的描述中，由外部实体执行的特定功能或步骤没有在执行特定步骤或功能的该实体的具体元件的描述中反映，但是技术人员应该清楚的是这些方法和功能可以在各自的硬件或软件元件或其任意组合中实现。

附图说明

结合所附附图，下面具体实施例的描述将阐述上述本发明的各方面及其实现方式，其中：

图1示出了根据本发明实施例的设备。

图2示出了根据本发明实施例的设备。

图3示出了根据本发明实施例的设备的CNN的编码器。

图4示出了根据本发明实施例的设备的CNN的解码器。

图5示出了根据本发明实施例的方法。

图6示出了通过本发明获得的结果与通过传统背景减除技术获得的结果之间的比较。

具体实施方式

图1示出了根据本发明的实施例的设备100。设备100用于将图片101分离成前景和背景，例如分离成运动对象和静态场景。为此，图1的设备100用于采用CNN(CNN模型、CNN架构)，即用于通过深度学习进行图片101的分离。设备100可以是实现CNN的图像处理器、计算机、微处理器等或其多个或其任何组合。

CNN用于接收图片101和背景模型图像102作为输入101、102。背景模型图像102可以是场景的图像，该图像由也提供图片的监视摄像机监控，预先(或在某个确定时间)在没有任何(移动)前景对象的情况下拍摄，或者可以估计为滑动窗口内接近当前图片(或当前帧)的所有图片(或帧)的每个像素位置处的中位数。图片101可以是静止图片或一系列图片(例如视频的图片)中的一个，例如由所述监控摄像机提供。

此外，所述CNN用于基于输入101、102生成多个不同分辨率(由虚线矩形的不同大小指示)的特征图103(在图1中由虚线矩形指示)。特征图103的分辨率递减，即，每个进一步生成的特征图103的分辨率低于前一特征图的分辨率。

此外，所述CNN用于基于多个不同分辨率的特征图103生成多个不同分辨率(由虚线矩形的不同大小表示)的激活图104(在图1中由虚线矩形指示)。激活图104的分辨率递增，即，每个进一步生成的激活图104的分辨率高于前一特征图的分辨率。

所述CNN最终用于输出分辨率与图片101相同的1通道概率图105。输出的1通道概率图105的每个像素对应于图片101的一个像素并指示图片101的对应像素与前景对象或背景对象相关联的概率。为了生成所述1通道概率图，所述CNN可以将sigmoid函数应用于具有1通道的激活图。

设备100还可以用于对输出的1通道概率图105进行阈值处理以获取二进制掩码，其中，所述二进制掩码的每个像素指示图片101的对应像素是与前景对象还是背景对象相关联。换句话说，将所述概率图的每个像素的概率与概率阈值进行比较，例如，如果像素的概率值低于阈值，则像素被归结为背景，如果其概率值高于阈值，则像素被归结为前景。值得注意的是，阈值处理还可以由从所述CNN接收1通道概率图105的另一设备完成。

在所述CNN的训练阶段，不同分辨率的二进制掩码是有益的，因为可以将它们与不同分辨率的地面真实数据进行比较。在所述CNN的推理阶段，仅可以使用根据输出的1通道概率图计算的二进制掩码。

图2示出了根据本发明实施例的设备100，其基于图1所示的设备100构建。因此，图2的设备100包括图1的设备100的所有元件，其中，相同的元件以相同的参考标号标记，并且功能相同。

从图2中可以看出，设备100的CNN包括编码器-解码器架构，即，包括编码器200和解码器210。编码器200用于生成多个特征图103，而解码器210用于分别生成多个激活图104和1通道概率图105。编码器200包括多个连续的编码器层201a、201b，即第一编码器层201a和至少一个其他编码器层201b。编码器200用于每个编码器层201a、201b生成多个特征图103中的其中一个，其中，每个特征图103具有不同的分辨率。解码器210包括多个连续的解码器层211a和211b，即第一解码器层211a和至少一个其他解码器层211b。解码器200用于每个解码器层211a、211b生成多个激活图104中的其中一个，其中，每个激活图104具有不同的分辨率。最后一个编码器层211b具体根据其生成的激活图104生成1通道概率图105。

所述CNN还具有多个跳跃连接202。每个跳跃连接202将其他编码器层(201b)中用于生成特定分辨率的特征图103的一个编码器层与解码器层211a和211b中用于生成分辨率相同或至少分辨率最相似的激活图104的一个解码器层连接。

每个解码器层211a、211b还用于输出1通道激活图估计212。设备100可以使用这些估计212基于解码器层211a、211b的所有输出的1通道激活图估计212，计算多分辨率损耗，以恢复在下采样期间丢失的空间信息。设备100的CNN还用于对每个1通道激活图估计212进行上采样，然后将其用作下一个解码器层211b的输入。最后一个解码器层211b输出的1通道概率图105可以对应从该层211b输出的1通道激活图估计212。

现在对编码器200进行更详细的示例性说明。编码器200可分别定义为通过进行下采样操作交织，分别获取图片101和背景模型102的特征图103的卷积滤波序列。每个编码器层201a、201b可以包括：

一定数量的卷积滤波器，将应用于从前一层201a、201b输出的特征图103或网络的输入。

下采样构件，用于基于跨步卷积或池化操作来进行操作以降低当前层201a、201b的特征图103的分辨率。

从每个层201a、201b输出的特征图103可描述为一组激活，表示在该层分辨率下输入101、102区域的语义信息。因此，编码器200可以看作多分辨率特征提取器。从编码器层201a、201b输出的特征图103可以通过跳跃连接202用作解码器210的输入，以在解码器210中以多尺度重建前景运动对象的激活图104。

图3中示出了示例性编码器200。编码器200可接收原始图片大小的6通道输入数据(3个通道对应图片101，3个通道对应背景模型图像102)，即不需要将图片大小调整到固定大小值。该输入101、102将经过5个编码器层201a、201b(1→5)的序列。随着数据深入到编码器200中，从这些层201a、201b输出的特征图103(由虚线矩形指示)中的通道数也会增加(例如，在图3中，第一编码器层201a输出具有64个通道的特征图103，而第五编码器层201b输出具有512个通道的特征图103)。同时，在每个编码器层201a、201b之后，特征图103的空间分辨率降低1/2倍，在编码器200的末端达到下采样系数1/32。

这里对解码器210进行更详细的示例性说明。解码器210可定义为通过进行上采样操作交织，获取前景运动对象的激活图104的卷积滤波序列。每个解码器层211a、211b可以包括：

一定数量的卷积滤波器，将应用于前一解码器层的激活图104和/或1通道激活图估计212与相应的编码器的特征图103的级联(就分辨率而言)；

上采样是指基于例如转置卷积或上池化操作的操作。

每个解码器层211a、211b的激活图104输出可描述为当前解码器层的分辨率下二进制掩码的估计。因此，多层解码器210产生前景运动对象的二进制掩码的多分辨率估计。

图4示出了示例性解码器210。解码器210从编码器200接收多分辨率特征图103，特别是通过具有相似分辨率的编码器-解码器层之间的跳跃连接212。与相应编码器的特征图103级联的前一解码器层的激活图104将经过4个解码器层211a、211b(1→4)的序列。随着数据更接近解码器210的末端，从这些层211a、211b输出的激活图104中的通道数量也会减少(例如，第一解码器层211a输出256个通道的激活图104，而第四(最后一个)解码器层211b生成1个通道的激活图104并输出具有1个通道的概率图105)。同时，在每个解码器层211a、211b之后，激活图104的空间分辨率增加2倍，并在解码器210的末端达到1/4，之后利用尺寸调整因数4和sigmoid函数进行最终双线性内插，以获取1通道概率图105。

每个解码器层211a、211b可另外具有掩码估计器，该码估计器以该层的分辨率产生1通道激活图估计212。共有4个掩码估计器，其中一个用作解码器模块的最后一层211b。这4个掩码估计器的输出可用于计算训练阶段中的多分辨率损耗。

跳跃连接202用于将编码器层201a、201b的特征图103带到具有相同或类似分辨率的对应解码器层211a、211b。跳跃连接202：

允许编码器200的不同分辨率的特征图103直接有助于在解码器210中生成前景运动对象的激活图104。

如果需要激活图104中的精细边界细节，则是有益的。

可以采用编码器200的特征图103和相应解码器210的激活图104的直接级联形式。1x1卷积可用于在级联之前减少编码器的特征图103中的通道数量，以降低解码器210的计算复杂度。

可以进一步计算多分辨率损耗，并用于强制生成多分辨率激活图104。例如，首先计算每个分辨率下的损耗，将其作为该分辨率下二进制掩码的估计与预期二进制掩码的下采样版本之间的二进制交叉熵(地面真值)。用于训练(即，更新编码器和解码器的卷积滤波器的值)的最终损耗是所有分辨率下的所有损耗的加权和。

随机梯度下降监督训练可用于确定卷积滤波器，使得设备100可以以最佳的方式执行某些数据集。对于训练数据集的每个大小为k的小批次：

CNN模型的输入：

其中，k是当前小批次中训练样本的数量，f和b表示图片101和对应的背景模型图像102。

网络输入的对应地面真值(即，期望的网络输出)I:T＝[T¹，T²，...，T³]，其中，k是训练样本的数量。

使用I作为模型的输入，并获取多分辨率1通道激活图O＝[O^1，(1→4)，O^2，(1→4)，...，O^k ^，(1→4)]，其中，k是训练样本的数量，(1→4)表示四个多分辨率索引(即，有4张4个分辨率下生成的激活图104)。

计算T与O之间的多分辨率损耗，并使用损耗函数梯度的反向传播更新模型参数(卷积滤波器值)，直到不再观察到损耗函数的改进为止。

下面分别给出编码器200在PyTorch中的实现方式和解码器210在PyTorch中的实现方式的示例。

图5示出了根据本发明实施例的方法500。方法500采用CNN，用于将图片101分离成前景和背景。方法500可以由图1或图2所示的设备100执行。

方法500包括步骤501：接收图片101和背景模型图像102作为输入101、102。进一步地，步骤502：基于输入101、102生成多个不同分辨率的特征图103，其中，特征图103的分辨率递减。进一步地，步骤503：基于多个不同分辨率的特征图103生成多个不同分辨率的激活图104，其中，激活图104的分辨率递增。进一步地，步骤504：输出分辨率与图片101相同的1通道概率图105。输出的1通道概率图105的每个像素对应于图片101的一个像素并指示图片101的对应像素与前景对象或背景对象相关联的概率。

图6示出了使用本发明的设备100(BackgroundNet，如图6的右上所示)和传统背景减除技术的两种实现方式(CNT和MOG2，分别如图6的左下和右下所示)从监控视频帧(图6的左上所示的原始图片)中的示例前景对象提取结果。可以看出，BackgroundNet提供的分割结果具有更少的噪声和非连通度。

本发明的实施例可以在硬件、软件或其任何组合中实现。本发明的实施例，例如设备和/或硬件实现，可以实现为各种合适电路，例如一个或多个微处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application-specific integratedcircuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、离散逻辑、硬件等或其任何组合中的任一种。实施例可以包括计算机程序产品，所述计算机程序产品包括程序代码，用于在处理器上实施时执行本文描述的任何方法。其他实施例可以包括至少一个存储器和至少一个处理器，用于存储和执行程序代码以执行本文所述的任何方法。例如，实施例可以包括设备，用于在合适的非瞬时性计算机可读存储介质中存储软件的指令，并且可以使用一个或多个处理器在硬件中执行所述指令以执行本文所述的任何方法。

已经结合作为实例的不同实施例以及实现方式描述了本发明。然而，根据对附图、本发明和独立权利要求的研究，本领域技术人员在实践所要求保护的发明时，能够理解和实现其他变化。在权利要求书以及说明书中，词语“包括”不排除其他元件或步骤，且不定冠词“一”或者“一个”不排除多个。单个元件或其他单元可满足权利要求书中所叙述的若干实体或项目的功能。仅仅在相互不同的从属权利要求中叙述某些措施这一事实并不意味着这些措施的组合不能在有利的实现方式中使用。

Claims

1.一种用于将图片(101)分离成前景和背景的设备(100)，其特征在于，用于采用卷积神经网络(CNN)，以

接收所述图片(101)和背景模型图像(102)作为输入(101、102)；

基于所述输入(101、102)生成多个不同分辨率的特征图(103)，其中，所述特征图(103)的分辨率递减；

基于所述多个不同分辨率的特征图(103)生成多个不同分辨率的激活图(104)，其中，所述激活图(104)的分辨率递增；

输出分辨率与所述图片(101)相同的1通道概率图(105)；

其中，所述输出的1通道概率图(105)的每个像素对应所述图片(101)的一个像素并指示所述图片(101)的所述对应像素与前景对象或背景对象相关联的概率。

2.根据权利要求1所述的设备(100)，其特征在于，用于

对所述输出的1通道概率图(105)进行阈值处理以获取二进制掩码，其中，所述二进制掩码的每个像素指示所述图片(101)的所述对应像素是与前景对象还是背景对象相关联。

3.根据权利要求1或2所述的设备，其特征在于

所述输入(101、102)包括3通道[特别是RGB]高分辨率背景模型图像(102)和3通道[特别是RGB]图片(101)。

4.根据权利要求1至3中任一项所述的设备(100)，其特征在于

所述CNN包括编码器-解码器架构；

所述编码器(200)用于生成所述多个不同分辨率的特征图(103)；

所述解码器(210)用于生成所述多个不同分辨率的激活图(104)。

5.根据权利要求1至4中任一项所述的设备(100)，其特征在于

所述CNN包括具有多个连续编码器层(201a、201b)的编码器(200)和具有多个连续解码器层(211a、211b)的解码器(210)；

所述编码器(200)用于每个编码器层(201a、201b)生成所述多个特征图(103)中的其中一个；

其中，所述第一编码器层(201a)用于从所述接收的输入(101、102)生成特征图(103)并对其进行下采样，每个其他编码器层(201b)用于基于所述前一编码器层(201a、201b)生成的所述特征图(103)，生成另一特征图(103)并对其进行下采样；

所述解码器(210)用于每个解码器层(211a、211b)生成所述多个激活图(104)中的其中一个，

其中，所述第一解码器层(211a)用于对所述最后一个编码器层(201b)生成的所述特征图(103)进行上采样，并基于所述上采样的特征图生成激活图(104)；每个其他解码器层(211b)用于对所述前一解码器层(211a、211b)生成的所述激活图(104)进行上采样，并基于所述上采样的激活图(104)生成另一激活图(104)。

6.根据权利要求5所述的设备(100)，其特征在于

每个编码器层(201a、201b)包括至少一个卷积滤波器，用于分别对所述输入(101、102)或所述前一编码器层(201a、201b)的所述特征图(103)进行操作，以生成特征图(103)；

每个解码器层(211a、211b)包括至少一个卷积滤波器，用于分别对所述最后一个编码器层(211b)的所述特征图(103)或所述前一解码器层(211a、211b)的所述激活图(104)进行操作，以生成激活图(104)。

7.根据权利要求5或6所述的设备(100)，其特征在于

每个编码器层(201b)用于通过执行跨步卷积或池化操作来降低所述特征图(103)的所述分辨率；

每个解码器层(211b)用于通过执行转置卷积或上池化操作来增加所述最后一个编码器层(201b)的所述特征图(103)或所述前一解码器层(211a、211b)生成的所述激活图(104)的所述分辨率。

8.根据权利要求5至7中任一项所述的设备(100)，其特征在于

所述CNN还包括多个跳跃连接(202)，其中

每个跳跃连接(202)将所述其他编码器层(201b)中用于生成特定分辨率的特征图(103)的一个编码器层与所述其他解码器层(211b)中用于生成分辨率相同或分辨率最相似的激活图(104)的一个解码器层连接；

所述其他解码器层(211b)用于基于所述前一解码器层(211a、211b)的所述激活图(104)生成所述激活图(104)和所述编码器层(201b)生成的所述特征图(103)，其中，所述其他解码器层(211b)经由所述跳跃连接(202)连接到所述编码器层(201b)。

9.根据权利要求5至8中任一项所述的设备(100)，其特征在于

每个所述其他编码器层(201b)用于生成特征图(103)，其中，所述特征图(103)包括的通道(300)多于所述前一编码器层(201a、201b)生成的所述特征图(103)包括的通道。

10.根据权利要求5至9中任一项所述的设备(100)，其特征在于

每个所述其他解码器层(211b)用于生成激活图(104)，其中，所述激活图(104)包括的通道(400)少于所述前一解码器层(211a、211b)生成的激活图(104)包括的通道。

11.根据权利要求5至10中任一项所述的设备(100)，其特征在于

每个解码器层(211a、211b)还用于输出1通道激活图估计(212)，所述设备(100)用于：

基于所述解码器层(211a、211b)的所有所述输出的1通道激活图估计(212)计算多分辨率损耗；

对每个1通道激活图估计(212)进行上采样，并将其用作下一个解码器层(211b)的输入。

12.一种卷积神经网络(CNN)的硬件实现，其特征在于，用于：

接收图片(101)和背景模型图像(102)作为输入(101、102)；

输出分辨率与所述图片(101)相同的1通道概率图(105)；

13.一种采用卷积神经网络(CNN)将图片(101)分离成前景和背景的方法(500)，其特征在于，所述方法包括：

接收(501)图片(101)和背景模型图像(102)作为输入(101、102)；

基于所述输入(101、102)生成(502)多个不同分辨率的特征图(103)，其中，所述特征图(103)的分辨率递减；

基于所述多个不同分辨率的特征图(103)生成(503)多个不同分辨率的激活图(104)，其中，所述激活图(104)的分辨率递增；

输出(504)分辨率与所述图片(101)相同的1通道概率图(105)；

14.一种计算机程序产品，其特征在于，包括程序代码，用于在处理器上实施时执行根据权利要求13所述的方法(500)。

15.一种计算机，其特征在于，包括至少一个存储器和至少一个处理器，用于存储和执行程序代码以执行根据权利要求13所述的方法(500)。