CN110909594A

CN110909594A - 一种基于深度融合的视频显著性检测方法

Info

Publication number: CN110909594A
Application number: CN201910968451.7A
Authority: CN
Inventors: 周晓飞; 温洪发; 张继勇; 颜成钢
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-24

Abstract

本发明公开了一种基于深度融合的视频显著性检测方法，本发明方法包括深度特征提取网络、深度特征融合网络和显著性预测网络。模型的输入是当前帧图像和光流图像。首先，深度特征提取网络提取多级深度特征，产生深度空间特征和深度时间特征。然后，采用注意力模块分别强化学习两个分支中每级产生的深度特征，深度特征融合网络分级方式融合多级深度特征。将融合得到的深度特征与边界信息相结合并显著性预测网络进行预测，产生当前帧的最终显著性图。本发明方法提供的网络模型可以充分有效地利用空间信息和时间信息来实现对视频中显著性目标的预测。

Description

一种基于深度融合的视频显著性检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于深度融合的视频显著性检测方法。

背景技术

显著性检测是计算机视觉领域的一个研究热点，在相关研究方向中有着广泛的应用，如行人重识别、基于内容的视频压缩、图像质量评估以及目标检测和分割等，它已引起越来越多的关注。根据输入类型的不同，显著性检测模型可以分为两类，分别是图像显著性检测模型和视频显著性检测模型。到目前为止，已有了很多专门致力于图像显著性检测的工作，但由于缺乏大规模的逐像素注释的视频数据集，以及挖掘视频中帧与帧之间关系的难度，导致针对视频显著性检测模型的研究得到了相对较少的关注。

视频显著性检测和图像显著性检测之间存在的差异是显而易见的。具体而言，对于视频显著性检测来说，必须同时考虑视频中的空间信息和时间信息，而在图像显著性检测中则只需要考虑空间信息即可。

几十年来，图像显著性检测已经得到了充分的研究。近年来，伴随着机器学习技术的发展，利用先进的机器学习算法构建了一些显著性模型，例如采用条件随机场来集成多个特征以生成显著性图等。最近，随着深度卷积神经网络的蓬勃应用，已经将其引入到图像显著性检测中。此外，广泛使用的注意力机制也被许多图像显著性检测模型所采用，进一步提高了图像显著性检测的性能。与此同时，视频显著性检测也得到了长足的发展，通常基于中心环绕方案、信息理论、控制理论、机器学习和信息融合等。在信息论的基础上，自信息和增量编码长度用于衡量每个视频帧的显著性。同时，传统的机器学习算法也已经应用于视频显著性检测，例如稀疏表示、支持向量机等。还有一些方法在分别生成空间显著性图和时间显著性图的基础上采用融合方案将这两种图组合成最终显著性图。同样，与图像显著性检测类似，深度卷积神经网络也用于视频显著性检测。值得注意的是，大多数已有模型只是将深度卷积神经网络作为一种特征提取器，因此它们不是端到端的学习框架。

显然，对视频显著性检测的研究工作已经取得了一定的成果，但是在处理诸如快速运动、动态背景、非线性形变和遮挡等复杂视频时，现有模型的性能仍会严重下降，远远达不到理想效果。幸运的是，伴随着深度学习技术的不断发展，视频显著性检测模型的性能也得到了显著提升。遗憾的是，这些模型仍不能充分利用视频中丰富的空间信息和时间信息，导致在处理复杂视频时，这些模型的性能也会在一定程度上降低。同时，一些基于深度融合的工作试图以有效的方式融合来自不同网络层的特征，充分利用诸如时间线索和空间线索等不同的信息，同样引起了许多关注。

发明内容

针对现有技术存在的不足，本发明提供了一种基于深度融合的视频显著性检测方法。

本发明方法包括以下步骤：

步骤(1).深度特征的提取，具体方法如下：

首先构建深度特征提取网络，所述的深度特征提取网络由对称的空间特征提取分支和时间特征提取分支组成；所述的空间特征提取分支和所述的时间特征提取分支基于VGG-16模型构建，所述空间特征提取分支和所述的时间特征提取分支均包括5个卷积块(包含有13个卷积层)，卷积核大小设置为3×3，步幅大小为1，以及4个最大池化层，池化大小设置为2×2，步幅大小为2。不同分支在卷积层中具有不同的权重参数。

然后进行深度特征提取网络的输入，所述的空间特征提取分支的输入为当前帧F_t，所述的时间特征提取分支的输入为对应当前帧F_t的光流图像OP_t，所述的空间特征提取分支提取深度空间特征{DSF_t ⁱ,i＝1,2,3,4,5}，所述的时间特征提取分支提取深度时间特征{DTF_t ⁱ,i＝1,2,3,4,5}；

步骤(2).深度特征的融合，具体方法如下：

深度特征融合网络采用了分级融合网络的方式；

2-1.采用注意力模块来对深度特征进行筛选，获得空间特征提取分支和时间特征提取分支中每一级的深度特征的显著性区域；

对于每个深度空间特征DSF_t ⁱ和深度时间特征DTF_t ⁱ，将其均缩写为深度特征DF_t ⁱ，则注意力模块产生的深度特征图AF_t ⁱ的定义为：

AF_t ⁱ＝W_s*DF_t ⁱ+b_s(1)

其中，*表示卷积运算，W_s是卷积滤波器，b_s表示偏差参数；

2-2.通过SoftMax操作获得每个深度特征图AF_t ⁱ的注意力权重af_t ⁱ：

其中，(x,y)表示每个深度特征的空间坐标，(W,H)表示每个深度特征图AF_t ⁱ的纵横比，

2-3.根据注意力权重选择有效的多级深度特征

其中，*表示在通道维度上进行Hadamard矩阵乘积运算；

为注意力模块生成的多级注意力深度特征，所述的多级注意力深度特征包括注意力深度空间特征

和注意力深度时间特征

2-4.根据多级注意力深度特征，对深度特征融合网络定义：

其中，H表示融合函数，H由1×1卷积层和反卷积层组成，[·]表示通道维度上的级联操作；

表示空间特征提取分支中的第i个卷积块的注意力深度空间特征，

表示时间特征提取分支中的第i个卷积块的注意力深度时间特征；

步骤(3).显著性预测，具体方法如下：

将1×1卷积层引入空间特征提取分支和时间特征提取分支中来自浅层conv1-2的边界信息；将两个边界信息和一个SoftMax层连接，构成显著性预测网络S_t；

S_t＝Fun([IF_t ⁱ,BSF_t,BTF_t])(5)

其中，S_t表示显著性预测网络，Fun表示卷积层表征的函数，BSF_t表示空间特征提取分支的边界信息，BTF_t表示时间特征提取分支的边界信息；

步骤(4).对深度特征提取网络、深度特征融合网络和显著性预测网络以端到端的方式联合训练，具体方法如下：

使用SGD优化算法对网络模型进行训练，其中动量为0.9，权重衰减率为0.0001，基本学习率为10^-8。采用VGG-16模型将空间特征提取分支和时间特征提取分支的权重参数初始化，采用‘msra’方法将深度特征融合网络初始化；采用镜面反射和旋转技术对训练数据集进行数据的增广；

对于具有N个训练样本的数据集

其中，

表示具有N_p个像素点的当前帧；

表示具有N_p个像素点的光流图像；

表示具有N_p个像素点的二进制真值图；

表示显著目标像素，

表示背景像素，删除下标n且每一帧的{F,OP}相互独立，则损失函数为：

其中，W表示卷积核的权重，b表示卷积层的偏置，Y₊表示显著目标的标签，Y_-表示背景的标签；β表示显著目标像素在真值图中所占的比率，β＝|Y₊|/|Y_-|；P(Y^j＝1|F,OP；W,b)表示像素属于显著目标的概率。

本发明有益效果如下：

本发明方法主要优势在于三个方面：深度特征融合中的注意力模块和分级融合，以及在显著性预测中融入边界信息。不同网络层和不同输入模态的深层特征对显著性预测的影响是显著不同的。本发明方法将注意力模块应用到源自于空间分支和时间分支的每个级别的深度特征，此处注意力模块相当于权重过滤器用以选择每个深度特征图中最显著的区域或最具代表性的区域。注意力模块的输出以分级的方式融合，这就增强了最终融合特征的上下文信息。特征提取网络的浅层特征中包含着丰富的显著对象的边界信息，为了获得显著性图的精细目标边界，本发明方法将边界信息引入到显著性预测中。本发明方法提供的网络模型可以充分有效地利用空间信息和时间信息来实现对视频中显著性目标的预测。

附图说明

图1为本发明方法的框架图；

图2为本发明方法中注意力模块的示意图。

图3为本发明方法的结果图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，本发明方法具体如下：

步骤(1).深度特征的提取，具体方法如下：

首先构建深度特征提取网络，所述的深度特征提取网络由对称的空间特征提取分支和时间特征提取分支组成；所述的空间特征提取分支和所述的时间特征提取分支基于VGG-16模型构建，每个分支包括13个卷积层，即5个卷积块，卷积核大小设置为3×3，步幅大小为1，以及4个最大池化层，池化大小设置为2×2，步幅大小为2；不同分支的卷积层中具有不同的权重参数。原因在于两个分支的输入是不同的，每个分支负责提取相应的不同特征。然后进行深度特征提取网络的输入，所述的空间特征提取分支的输入为当前帧F_t，所述的时间特征提取分支的输入为对应当前帧F_t的光流图像OP_t，所述的空间特征提取分支负责提取深度空间特征{DSF_t ⁱ,i＝1,2,3,4,5}，所述的时间特征提取分支负责提取深度时间特征{DTF_t ⁱ,i＝1,2,3,4,5}。

步骤(2).深度特征的融合，具体方法如下：

提取多级深度特征后，采用深度特征融合网络用于深度空间特征和深度时间特征的融合。为了增强上下文信息，深度特征融合网络采用了分级融合网络的方式。考虑到多级深度特征之间的差异，并采用注意力模块来对深度特征进行筛选；注意力模块作为权重过滤器，得到每个分支中每一级的深度特征的显著性区域。注意力模块示意图见图2。

对于每个深度特征DSF_t ⁱ或DTF_t ⁱ，将其缩写为DF_t ⁱ，则注意力模块产生的深度特征图AF_t ⁱ的定义为

其中，*表示卷积运算，W_s是卷积滤波器，b_s表示偏差参数。通过SoftMax操作获得每个深度特征的注意力权重：

其中，(x,y)表示每个深度特征的空间坐标，(W,H)表示每个深度特征图AF_t ⁱ的纵横比。

根据注意力权重选择有效的多级深度特征

其中，*表示在通道维度上进行Hadamard矩阵乘积运算；

为注意力模块生成的多级注意力深度特征，多级注意力深度特征分为注意力深度空间特征

和注意力深度时间特征

根据多级注意力深度特征，对分级融合网络定义：

其中，H表示融合函数，由1×1卷积层和反卷积层组成，[·]表示通道维度上的级联操作；

表示空间特征提取分支的第i个卷积块的注意力深度空间特征，

表示时间特征提取分支中的第i个卷积块的注意力深度时间特征。

步骤(3).显著性预测，具体方法如下：

通过融合特征IF_t ¹，进行显著性预测；为得到精细准确的显著性目标的边界，通过1×1卷积层引入空间特征提取分支和时间特征提取分支中来自浅层conv1-2的边界信息；将两个卷积层和一个SoftMax层连接，构成显著性预测网络，进行视频显著性的预测；S_t＝Fun([IF_t ⁱ,BSF_t,BTF_t])

其中，S_t表示显著性预测图，Fun表示卷积层表征的函数，BSF_t表示空间特征提取分支的边界信息，BTF_t表示时间特征提取分支的边界信息。

步骤(4).深度特征提取网络、深度特征融合网络和显著性预测网络以端到端的方式联合训练，具体方法如下：

使用SGD优化算法对模型进行训练，其中动量为0.9，权重衰减率为0.0001，基本学习率为10-⁸。采用VGG-16模型将空间特征提取分支和时间特征提取分支的权重参数初始化，采用‘msra’方法将融合网络深度特征融合网络初始化。采用镜面反射和旋转技术对训练数据集进行数据的增广。

对于具有N个训练样本的数据集

其中

表示具有N_p个像素点的当前帧，

表示具有N_p个像素点的光流图像和

表示具有N_p个像素点的二进制真值图。

表示显著目标像素，

其中，W表示卷积核的权重，b表示卷积层的偏置，Y₊表示显著目标的标签，Y_-表示背景的标签；β表示显著目标像素在真值图G中所占的比率，β＝|Y₊|/|Y_-|。P(Y^j＝1|F,OP；W,b)表示像素属于显著目标的概率。

Claims

1.一种基于深度融合的视频显著性检测方法，其特征在于包括以下步骤：

步骤(1).深度特征的提取，具体方法如下：

首先构建深度特征提取网络，所述的深度特征提取网络由对称的空间特征提取分支和时间特征提取分支组成；所述的空间特征提取分支和所述的时间特征提取分支基于VGG-16模型构建，不同分支在卷积层中具有不同的权重参数；然后进行深度特征提取网络的输入，所述的空间特征提取分支的输入为当前帧F_t，所述的时间特征提取分支的输入为对应当前帧F_t的光流图像OP_t，所述的空间特征提取分支提取深度空间特征{DSF_t ⁱ,i＝1,2,3,4,5}，所述的时间特征提取分支提取深度时间特征{DTF_t ⁱ,i＝1,2,3,4,5}；

步骤(2).深度特征的融合，具体方法如下：

深度特征融合网络采用了分级融合网络的方式，首先采用注意力模块来对深度特征进行筛选，获得空间特征提取分支和时间特征提取分支中每一级的深度特征的显著性区域；