CN111489372A

CN111489372A - 基于级联卷积神经网络的视频前背景分离方法

Info

Publication number: CN111489372A
Application number: CN202010168156.6A
Authority: CN
Inventors: 杨敬钰; 师雯
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-08-04
Anticipated expiration: 2040-03-11
Also published as: CN111489372B

Abstract

本发明属于计算机视觉领域，为提出融合时空线索的级联卷积神经网络，用于实现视频前背景分离。为此，本发明采取的技术方案是，基于级联卷积神经网络的视频前背景分离方法，利用两个编码器‑解码器类型的子网络进行视频前背景分离，所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络，FD网络用来生成二值化的前景掩膜，BR网络利用FD网络的输出和输入视频帧来重建出背景图；为引入空间线索，将三张连续的视频帧作为输入；为提高网络适用性，与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。本发明主要应用于视频前背景分离场合。

Description

基于级联卷积神经网络的视频前背景分离方法

技术领域

本发明属于计算机视觉领域，具体讲，涉及基于级联卷积神经网络的视频前背景分离方法。

背景技术

前背景分离是计算机视觉领域的一项非常重要的基本任务，吸引了许多研究学者越来越多的关注。这项技术应用广泛，其中包括运动检测，物体跟踪，行为识别等。简单来说，具体的任务是从一段输入的视频序列中提取两个互补分量：静态背景和具有运动物体的前景。在过去的十年中，已经提出了许多方法来解决这个问题。最早的传统方法，如高斯混合模型、非参数模型等，提出独立地估计每个像素，并将像素分类为背景或前景。这类方法的缺点是没有考虑视频的全局信息。最近，鲁棒主成分分析方法(RPCA)因其在前背景分离上的优秀性能引起了广泛的关注，并且出现了许多改进算法，为视频分析引入了新视角。但是这些传统方法通常基于一些先验约束，所以它们可以在特定条件下很好地处理一些场景。但是面对复杂的场景，如恶劣天气，相机抖动，光线条件变化等，先前的假设被打破，它们就无法展现出优越性能。所以在这种情况下，非常需要改进前背景分离方法对通用复杂视频的适用性。

近年来，卷积神经网络(CNN)被广泛应用于计算机视觉领域，具有优异的性能。已经出现了编码器-解码器类型的卷积神经网络来解决上述问题并取得了重大进展。但是，这类工作仍然存在一些局限性。具体而言，它们仅采用一个视频帧作为输入，这不能有效地捕获前景的运动信息。在这种情况下，前景移动物体的检测不准确，会导致前景泄漏到背景中。为克服这一缺点，本发明提出了一个端对端的级联卷积神经网络来实现前景和背景的准确分离。

发明内容

为克服现有技术的不足，本发明旨在提出融合时空线索的级联卷积神经网络，用于实现视频前背景分离。为此，本发明采取的技术方案是，基于级联卷积神经网络的视频前背景分离方法，利用两个编码器-解码器类型的子网络进行视频前背景分离，所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络，FD网络用来生成二值化的前景掩膜，BR网络利用FD网络的输出和输入视频帧来重建出背景图；为引入空间线索，将三张连续的视频帧作为输入；为提高网络适用性，与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。

具体步骤如下：

1)建立训练数据库

11)采用异常物检测ChangeDetection2014数据库；

12)为了保证数据均衡性，从不同场景中随机抽取帧的序列，将每一个视频帧进行180度的水平翻转对数据进行数据扩充；

13)对帧图像统一用最近邻域插值算法进行尺寸调整，使图像大小统一；

14)划分训练集和测试集；

2)搭建前景检测网络FD网络，该子网络包含两个部分：编码器部分和解码器部分；

21)采用VGG16网络的前n个卷积模块作为编码器，用来提取前景移动物体的特征，VGG网络是由牛津大学的视觉几何组提出的网络模型，包括VGG16和VGG19；

22)采用反卷积层作为解码器端，用来将前景特征映射成前景掩膜；

23)网络的输入有两个部分，第一个部分是9通道的三张连续的原始视频帧，第二个部分是6通道的与原始视频帧相对应的光流图，两个输入分别用权重不共享的卷积层提取特征，在每一个卷积层后面都增加一个特征融合层：

其中

表示元素相加操作，i表示卷积层的索引，

分别表示前景和光流图在第i个卷积层提取出来的特征，fⁱ表示融合后的特征，它被送入到下一个卷积层中提取更抽象的特征；

24)将编码器的特征图通过跳跃连接传送到解码器，在网络的末尾处添加一个残差块，用来精细化生成的前景掩膜；

25)FD网络采用二值交叉熵作为前景检测部分的损失函数L_det：

其中g_j和m_j表示前景真实标签G和预测出的前景掩膜M的第j个像素值，N代表像素的总数，∑表示求和操作，log()表示对数函数；

3)搭建背景重建BR网络，该子网络包含三个部分：编码器部分、传输部分和解码器部分；

31)采用三个卷积层作为解码器，在传输部分使用空洞卷积来替代传统的卷积层，传输部分包含10个残差块，不进行任何的下采样操作，解码器端包含三个反卷积层，用来将提取出来的背景特征映射成一个完整的背景图；

32)将FD网络生成的前景掩膜与当前帧结合：

其中

表示哈达玛乘积，D，M分别表示原始彩色视频帧和FD网络生成的前景掩膜，

表示去除前景后的不完整的背景图，将

输入到BR网络中生成完整的背景图；

33)BR网络采用加权损失函数，使用一范数来进行平衡，一范数损失

和二范数损失

定义如下：

其中b_m,n,c和

分别表示背景真实标签B和预测背景

在第m行、第n列、第c个通道上的像素值，N表示像素的总个数，重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签，采用感知损失来惩罚那些与标签感知不相似的结果，感知损失函数L_perc定义如下：

其中，φ_l表示在ImageNet上预训练好的VGG19网络上的第l个激活层的特征，N_l表示第l个激活层的特征图的像素个数，ImageNet是由斯坦福大学李飞飞团队制作的一个图像分类的数据集，因此加权背景重建损失函数L_rec定义为：

其中λ₁，λ₂和λ_perc分别表示一范数损失、二范数损失和感知损失的权重系数；

4)用划分好的帧序列训练网络模型，优化函数采用‘RMSprop’均方根误差。

训练过程是采用逐步训练策略：首先通过前景检测损失函数L_det训练FD网络；然后保持FD网络参数不变的同时，用背景重建损失L_rec函数训练BR网络；最后整体的网络在这两个预训练好的子网络的基础上，用加权损失函数L进行微调：

L＝αL_det+βL_rec (7)

其中α和β表示加权系数。

本发明的特点及有益效果是：

本发明方法采用端对端的级联卷积神经网络，通过融合时空线索，实现了视频序列的前背景分离。本发明具有以下特点：

1、程序简单，易于实现。

2、能够处理各种复杂的视频场景，如恶劣天气、相机抖动、光照剧烈变化等。

3、引入了光流图作为时间线索，将光流特征融合到原始视频序列中，有益于检测前景运动信息。

4、采用多帧输入，进一步提高了网络的学习能力。

5、将前景检测任务和背景重建任务整合成端对端的方式实现。

附图说明：

图1为本发明方法的总框图；

图2为本发明的网络框架图；

图3是原始的office视频帧及采用本发明方法的前背景分离结果图。

具体实施方式

为了弥补现有技术的不足，本发明提出了一个融合时空线索的级联卷积神经网络，它包含两个编码器-解码器类型的子网络，分别为前景检测网络(FD网络)和背景重建网络(BR网络)。FD网络用来生成二值化的前景掩膜，BR网络利用FD网络的输出和输入视频帧来重建出背景图。为引入空间线索，本发明将三张连续的视频帧作为输入。为提高网络适用性，与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。具体方法包括以下步骤：

1)建立训练数据库。

11)采用ChangeDetection2014(异常物检测)数据库，这是一个公开数据集，包含11种场景类别，53个不同的视频序列，从中选出30个具有合适标签的视频序列。

12)为了保证数据均衡性，从30个场景中随机抽取500帧，对于不足500帧的序列，需要对数据进行数据扩充。具体方法是将每一个视频帧进行180度的水平翻转。扩充后得到15000帧图像。

13)对15000帧图像统一用最近邻域插值算法进行尺寸调整，使图像大小统一成256*256。

14)划分训练集和测试集。从15000帧中随机抽取3000帧作为测试集，其余12000帧作为训练集。

2)搭建前景检测网络(FD网络)，该子网络包含两个部分：编码器部分和解码器部分。

21)采用VGG16(VGG网络是由牛津大学的视觉几何组提出的网络模型，包括VGG16和VGG19等)网络的前5个卷积模块作为编码器，用来提取前景移动物体的特征。

22)采用5个反卷积层作为解码器端，用来将前景特征映射成前景掩膜。

23)网络的输入有两个部分。第一个部分是9通道的三张连续的原始视频帧(前一帧，当前帧和下一帧)，第二个部分是6通道的与原始视频帧相对应的光流图。两个输入分别用权重不共享的卷积层提取特征，在每一个卷积层后面都增加一个特征融合层：

其中

表示元素相加操作，i表示卷积层的索引，

分别表示前景和光流图在第i个卷积层提取出来的特征。fⁱ表示融合后的特征，它被送入到下一个卷积层中提取更抽象的特征。

24)将编码器的特征图通过跳跃连接传送到解码器，有利用保存低维特征。在网络的末尾处添加一个残差块，用来精细化生成的前景掩膜。

25)FD网络采用二值交叉熵作为前景检测部分的损失函数L_det：

其中g_j和m_j表示前景真实标签G和预测出的前景掩膜M的第j个像素值，N代表像素的总数，∑表示求和操作，log()表示对数函数。

3)搭建背景重建网络(BR网络)，该子网络包含三个部分：编码器部分、传输部分和解码器部分。

31)采用三个卷积层作为解码器，目的是保存更多精细化特征，但这会造成感受野较小。为了弥补这方面的不足，在传输部分使用空洞卷积来替代传统的卷积层，可以起到扩大感受野的作用。传输部分包含10个残差块，不进行任何的下采样操作，目的是在不丢失低维特征的前提下提取更多的背景信息。解码器端包含三个反卷积层，用来将提取出来的背景特征映射成一个完整的背景图。

32)将FD网络生成的前景掩膜与当前帧结合：

其中

表示去除前景后的不完整的背景图。将

输入到BR网络中生成完整的背景图。

33)BR网络采用加权损失函数，其中包括一范数损失、二范数损失和感知损失。使用二范数损失通常会得到更高的峰值信噪比(PSNR)，但是它也会导致生成的图像过平滑。所以本发明使用一范数来平衡这一缺点。一范数损失

和二范数损失

定义如下：

其中b_m,n,c和

分别表示背景真实标签B和预测背景

在第m行、第n列、第c个通道上的像素值。N表示像素的总个数。重建的背景在低维度的像素值和高维度的抽象特征上都应该接近背景标签，所以本发明提出采用感知损失来惩罚那些与标签感知不相似的结果，感知损失函数L_perc定义如下：

其中，φ_l表示在ImageNet(由斯坦福大学李飞飞团队制作的一个图像分类的数据集)上预训练好的VGG19网络上的第l个激活层的特征，N_l表示第l个激活层的特征图的像素个数。因此加权背景重建损失函数L_rec定义为：

其中

和λ_perc分别表示一范数损失、二范数损失和感知损失的权重系数。

4)用划分好的12000帧序列训练网络模型，优化函数采用‘RMSprop’(均方根误差，一种神经网络优化函数)。采用逐步训练策略：首先通过前景检测损失函数L_det训练FD网络；然后保持FD网络参数不变的同时，用背景重建损失L_rec函数训练BR网络；最后整体的网络在这两个预训练好的子网络的基础上，用加权损失函数L进行微调：

L＝αL_det+βL_rec(7)

其中α和β表示加权系数。

下面结合附图和具体实例进一步详细说明本发明。

本发明提出了一种用于前景和背景分离的时空感知端到端的级联卷积神经网络。第一阶段FD网络能够在一些具有挑战性的场景中准确地检测移动物体。随后，通过第二阶段的BR网络利用FD网络的输出恢复背景。最后，通过将FD网络和BR网络组合在一起，可以获得更准确的前景-背景分离结果。具体方法包括以下步骤：

1)建立训练数据库。

其中

表示元素相加操作，i表示卷积层的索引，

25)FD网络采用二值交叉熵作为前景检测部分的损失函数L_det：

32)将FD网络生成的前景掩膜与当前帧结合：

其中

表示去除前景后的不完整的背景图。将

输入到BR网络中生成完整的背景图。

和二范数损失

定义如下：

其中b_m,n,c和

分别表示背景真实标签B和预测背景

其中

和λ_perc分别表示一范数损失、二范数损失和感知损失的权重系数。本发明中设置

λ_perc＝0.1。

L＝αL_det+βL_rec (7)

其中α和β表示加权系数，且α＝β＝0.5。

下面结合附图和具体实施方式进一步详细说明本发明。

本发明涉及基于级联卷积神经网络的视频前背景分离方法(实验流程图如图1所示)，其特征在于包括以下步骤：

1)建立训练数据库。

2)搭建前景检测网络(FD网络，如图2所示)，该子网络包含两个部分：编码器部分和解码器部分。

其中

表示元素相加操作，i表示卷积层的索引，

25)FD网络采用二值交叉熵作为前景检测部分的损失函数L_det：

3)搭建背景重建网络(BR网络，如图2所示)，该子网络包含三个部分：编码器部分、传输部分和解码器部分。

32)将FD网络生成的前景掩膜与当前帧结合：

其中

表示去除前景后的不完整的背景图。将

输入到BR网络中生成完整的背景图。

和二范数损失

定义如下：

其中b_m,n,c和

分别表示背景真实标签B和预测背景

其中

λ_perc＝0.1。

L＝αL_det+βL_rec (7)

其中α和β表示加权系数，且α＝β＝0.5。

Claims

1.一种基于级联卷积神经网络的视频前背景分离方法，其特征是，利用两个编码器-解码器类型的子网络进行视频前背景分离，所述两个子网络分别为进行前景检测的FD网络和进行背景重建的BR网络，FD网络用来生成二值化的前景掩膜，BR网络利用FD网络的输出和输入视频帧来重建出背景图；为引入空间线索，将三张连续的视频帧作为输入；为提高网络适用性，与原始视频帧对应的光流图作为空间线索同时输入到FD网络中。

2.如权利要求1所述的基于级联卷积神经网络的视频前背景分离方法，其特征是，具体步骤如下：

1)建立训练数据库

11)采用异常物检测ChangeDetection2014数据库；

14)划分训练集和测试集；