CN110598537A

CN110598537A - 一种基于深度卷积网络的视频显著性检测方法

Info

Publication number: CN110598537A
Application number: CN201910710059.2A
Authority: CN
Inventors: 周晓飞; 楼杰栋; 张继勇; 孙垚棋; 颜成钢
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2019-12-20

Abstract

本发明公开了一种基于深度卷积网络的视频显著性检测方法。本发明步骤：1：以视频的当前帧及其对应的光流图像作为特征提取网络的输入；2：将当前帧和对应的光流图像串接后得到的张量作为深度卷积网络输入提取特征；3：设计特征集成网络用于融合特征图，并得到对视频显著性检测的粗略估计；同时为了获得蕴含在特征图中卷积信息的补充性信息，特征集成网络引入原始信息，包括当前帧和对应的光流图像；4：模型中引入轮廓提取网络进行空域细化，轮廓提取网络采用线下训练方式，并用于检测物体的边缘轮廓。本发明为特征集成提供了丰富的辅助信息。进一步提升显著性图质量，使生成的显著性图能够以明晰的边界完整地凸显视频序列中的显著性区域。

Description

一种基于深度卷积网络的视频显著性检测方法

技术领域

本发明涉及图像、视频处理技术领域，具体地说涉及一种基于深度卷积网络的视频显著性检测方法。

背景技术

随着具有拍照录像功能的可穿戴设备、智能手机与平板电脑的普及，视频信息的获取和存储变得越来越容易，人们可以随意拍摄不同时长的视频信息，其中不乏大量的无约束视频，这也对图像视频处理等研究领域带来了新的挑战。近年来，研究表明人类的视觉系统能够快速的从复杂场景中定位出最吸引眼球的物体，而如何利用计算机技术模拟人类视觉注意力机制，并用于提取图像、视频中的人眼感兴趣区域成为当前研究的热点。在过去的几十年中，研究人员提出了众多的显著性模型，并应用到很多领域，如内容感知的图像/视频缩放、图像/视频分割、基于感兴趣区域的图像/视频压缩编码、图像/视频质量评价等。同时，我们也要注意到视频序列尤其是无约束视频中包含大量复杂的场景信息，而这无疑增加了该领域的研究难度。

视频显著性对象检测不受限于对象的类别、尺寸大小、位置、个数等,这些不确定因素使得它成为目前计算机视觉和人工智能领域中的一个难题。在传统做法中,研究人员根据观察到的各种先验知识对显著性对象检测算法进行建模,生成显著性图。这些先验知识包括:对比度、中心先验、边缘先验、语义先验等,但在复杂的场景中,传统方法往往不够准确。这是因为这些观察往往限于低级别的特征(例如,颜色和对比度等),而不能准确反映出显著性对象本质的共同点。

近年来,深度卷积神经网络(Convolutional Neural Network,CNN)广泛运用于计算机视觉的各个领域,很多困难的视觉问题都获得了重大的进展。不同于传统方法,深度卷积网络可以从大量的样本中建模并且自动地、端到端地学习到更为本质的特征,从而有效地避免了传统人工建模和设计特征的弊端。在显著性对象检测领域,深度卷积网络也被广泛地使用,并且大幅度地提高了显著性对象检测的准确性和鲁棒性,但是由于深度网络需要大量运用的池化操作(例如max-pooling和average-pooling)编码上下文信息,这些方法总是不能很好地保存对象边缘的信息,即得到显著性图不能以明晰的边界完整地凸显视频序列中的显著性区域，并且不能有效地抑制背景区域。而事实上,对象的边缘信息对于显著性检测非常重要。认知科学的研究也表明:人的视觉注意力在对象中流动并且被对象边缘所阻挡。忽略这些边缘信息或者不能正确编码这些边缘信息,往往只能得到次优的结果。

幸运的是，随着深度学习技术的发展，其已成功应用于许多计算机视觉任务中，例如物体检测、语义分割和显著性检测领域。最近，研究发现将深度卷积网络引入到视频显著性检测中，极大地提升了视频显著性检测性能。

发明内容

针对现有方法在视频显著性检测方面存在得不到以明晰的边界完整地凸显视频序列中的显著性区域的显著性图的问题，本发明提出一种基于深度卷积网络的视频显著性检测方法。该方法生成得到的显著性图能够以明晰的边界完整地凸显视频序列中的显著性区域，并有效地抑制背景区域。

一种基于深度卷积网络的视频显著性检测方法，本发明特征在于使用特征提取网络、特征集成网络、轮廓提取网络三种网络分别对应特征提取、特征融合、空间细化三个步骤并最终完成视频显著性检测，具体包括以下步骤：

步骤1：以视频的当前帧及其对应的光流图像作为特征提取网络的输入，具体步骤如下：

1-1.输入视频序列，将当前帧记作F_t。

1-2.借助光流场估计算法LDOF以及将两通道矩阵转换为三通道彩色图像算法得到光流图像OP_t。其中，光流信息是一种很强的先验信息，能够提供视频序列中显著性区域的粗略位置。

1-3.将当前帧F_t和对应的光流图像OP_t串接后得到h×w×6维的张量,其中h和w分别表示当前帧对应的光流图像的长和宽，且均设置为256。接着，将生成的张量送到特征提取网络作为特征提取网络的输入。

步骤2：将当前帧F_t和对应的光流图像OP_t串接后得到的张量作为深度卷积网络输入提取特征，具体步骤如下：

2-1.将当前帧F_t和对应的光流图像OP_t串接后得到的张量输入到深度卷积网络，通过卷积层Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3得到不同分辨率的特征图{RFC_i,i＝1,2,3,4,5}。

2-2.将不同分辨率的特征图再通过特征提取网络输出相同尺寸的特征图{SMP_i,i＝1,2,3,4,5}。这些特征图尺寸均为256×256×2。

步骤3：利用前述特征提取，获得了相应的特征图{SMP_i,i＝1,2,3,4,5}。在此基础上设计一种特征集成网络用于有效的融合特征图，并得到对视频显著性检测的粗略估计SA_t；同时，为了获得蕴含在特征图中卷积信息的补充性信息，特征集成网络引入原始信息，包括当前帧F_t和对应的光流图像OP_t，具体步骤如下：

3-1.将特征图{SMP_i,i＝1,2,3,4,5}、当前帧F_t和对应的光流图像OP_t按通道方向即F_t、SMP₅、SMP₄、SMP₃、SMP₂、SMP₁、OP_t串接得到张量，由于F_t、OP_t为256×256×3张量，特征图{SMP_i,i＝1,2,3,4,5}尺寸均为256×256×2，因此最后得到256×256×16张量。

3-2.将得到的尺寸大小256×256×16张量送入卷积层{Conv6-1,Conv6-2,Conv6-3}，其中，每一个卷积层均配备3×3卷积核。接着后续是一个卷积核为1×1的卷积层Conv6-4。最后再通过softmax层得到视频显著性检测的粗略估计SA_t。另外在Conv6-1层和Conv6-2层，Conv6-2层和Conv6-3层之间均部署BN层和ReLU层；从而使得模型训练收敛的速度更快，同时模型隐藏输出特征的分布更稳定，更利于模型的学习。

步骤4：为了进一步提升视频显著性检测的性能，模型中引入轮廓提取网络进行空域细化，轮廓提取网络采用线下训练方式，并用于检测物体的边缘轮廓。同时为了方便，采用训练好的轮廓提取网络模型，具体步骤如下：

4-1.采用端对端的方式训练前述网络，前述网络包括特征提取以及特征集成，然后进入测试阶段，引入一个分支，即轮廓提取网络。

4-2.在测试阶段引出的分支即轮廓提取网络，将当前帧F_t和集成网络的输出SA_t输入到该轮廓提取网络中，得到对应输出为SC_t。

4-3.将轮廓提取网络的输出SC_t和特征集成网络的输出SA_t通过线性相加得到对应于当前帧的显著性图S_t：

S_t＝Norm[SA_t+SC_t] (1)

其中，Norm表示对显著性图的归一化操作，即将其归一化至[0,1]。

本发明有益效果如下：

本发明提出的一种基于深度卷积网络的视频显著性检测方法，主要包括特征提取、特征集成和空域细化三部分。首先，将当前帧同其对应光流图像串接后作为深度网络的输入。其中，光流信息是一种很强的先验信息，能够提供视频序列中显著性区域的的粗略位置。其次，特征集成网络不仅考虑特征提取输出的特征图，还考虑了原始信息(包括当前帧和其光流图像)，这为特征集成提供了丰富的辅助性信息。最后，采用基于轮廓提取网络进行空域细化来进一步提升显著性图质量，使生成的显著性图能够以明晰的边界完整地凸显视频序列中的显著性区域。

附图说明

图1为本发明的整体模型。

图2是本发明的方法作用于视频的结果图。

图3是本发明的方法作用于视频的结果图。

具体实施方式

以下结合附图，对本发明进行进一步的详细说明。

本发明进行的实验是在台式机电脑(CPU：酷睿i74.0GHz，RAM：16GB)上使用MATLAB实现的。

如图1所示，本发明提出的基于深度卷积网络的视频显著性检测方法完整模型及实施流程，其具体步骤如下：

步骤(1)输入视频序列，将当前帧F_t以及对应的光流图像OP_t串接起来后得到h×w×6维的张量，将生成的张量送到特征提取网络作为特征提取网络的输入。如图1中(a)所示。

步骤(2)将当前帧F_t和对应光流图像OP_t串接张量输入到深度卷积网络通过卷积层Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3得到不同分辨率的特征图{RFC_i,i＝1,2,3,4,5}，将不同分辨率的特征图再通过特征提取网络输出相同尺寸为256×256×2的特征图{SMP_i,i＝1,2,3,4,5}。如图1中(b)所示。

步骤(3)利用前述特征提取，得到相应的特征图{SMP_i,i＝1,2,3,4,5}。在此基础上设计特征集成网络用于有效地融合特征，将特征图{SMP_i,i＝1,2,3,4,5}、当前帧F_t和光流图像OP_t按通道方向即F_t、SMP₅、SMP₄、SMP₃、SMP₂、SMP₁、OP_t串接得到256×256×16张量，将得到的256×256×16张量送入三个配备3×3卷积核卷积层Conv6-1、Conv6-2Conv6-3，接着后续是一个卷积核为1×1的卷积核Conv6-4，同时在Conv6-1层和Conv6-2层，及Conv6-2层和Conv6-3层之间均部署BN层和ReLU层使得模型训练收敛的速度更快，同时模型隐藏输出特征的分布更稳定，更利于模型的学习。然后，再通过softmax层得到视频显著性检测的粗略估计SA_t。如图1中(c)所示。在本发明提出的方法中，特征提取和特征集成二者是联合起来进行端到端的训练学习。具体过程为首先给定包含N个训练样本训练集其中和分别表示N_p个像素的当前帧、光流图像和人工标注的二值分割结果。此外，表示显著性像素，表示背景像素。为叙述简便计，省略下标n，并将{F,OP}视作视频每一帧及其光流图像。因此，损失函数定义如下：

L(W,b)＝-β∑log P(y^j＝1|F,OP；W,b)-(1-β)∑log P(y^j＝0|F,OP；W,b) (1)

其中，W和b分别表示卷积层对应核的权重和偏置，Y₊和Y_{_}分别表示人工标注的二值分割结果G中的显著性像素集和背景像素级集。β表示G中显著性像素所占比例。P(y^j＝1|F,OP；W,b)是像素属于显著性区域的概率。

步骤(4)为了进一步提升视频显著性检测的性能，模型中引入轮廓提取网络进行空域细化，轮廓提取网络采用训练好的轮廓提取网络模型进行线下训练方式，并用于检测物体的边缘轮廓。在采用端对端的方式训练前述特征提取网络以及特征集成网络后，进入测试阶段时，引入训练好的轮廓提取网络，将当前帧F_t和集成网络的输出SA_t输入到该网络中，得到网络对应输出为SC_t。最后，将轮廓提取网络的输出和特征集成网络的输出通过线性相加得到对应于当前帧的显著性图S_t：

S_t＝Norm[SA_t+SC_t] (2)

其中，Norm表示对显著性图的归一化操作，即将其归一化至[0,1]。如图1中(d)所示。

利用本发明的方法，在三大公开数据集训练测试，即SegTrackV2、USVD和DAVIS。其中，SegTrackV2是包含有14个视频序列的数据集，并提供有像素级的人工标注结果；USVD包含有18个复杂视频序列帧，也提供了人工标注的二值分割结果；DAVIS包含有50个高质量的视频帧序列，涉及人、动物及车辆等不同的运动场景，该视频同样提供人工标注的二值分割结果。

本发明提出的方法利用SegTrackV2数据集和DAVIS的训练集作为训练集并在此训练集上训练学习得到基于深度卷积网络的视频显著性检测模型。在具体实现时，为了减少模型的过拟合现象，对训练数据集进行了简单的扩充，即镜像和旋转(0°,90°,180°,270°)。最终在USVD数据集和DAVIS数据集上进行测试评价。结果如图2与图3所示，这里取部分帧作示例，其中第一列为输入视频帧，第二列为groundtruth，第三列为本发明对应的结果。

由前述及图2和图3可以看出基于深度卷积网络的视频显著性检测方法，以逐帧处理的方式，以及串接先验光流信息，同时特征集成网络不仅考虑特征提取输出的特征图，还考虑了原始信息即当前帧和光流图像，为特征集成提供了丰富的辅助信息。最后采用基于轮廓提取网络进行空域细化进一步提升显著性图质量，其得到显著性图能够以明晰的边界完整地凸显视频序列中的显著性区域，并有效地抑制背景区域。

Claims

1.一种基于深度卷积网络的视频显著性检测方法，其特征在于使用特征提取网络、特征集成网络、轮廓提取网络三种网络分别对应特征提取、特征融合、空间细化，并最终完成视频显著性检测，具体包括以下步骤：

步骤1：以视频的当前帧及其对应的光流图像作为特征提取网络的输入；

步骤2：将当前帧F_t和对应的光流图像OP_t串接后得到的张量作为深度卷积网络输入提取特征；

步骤3：设计一种特征集成网络用于有效的融合特征图，并得到对视频显著性检测的粗略估计SA_t；同时为了获得蕴含在特征图中卷积信息的补充性信息，特征集成网络引入原始信息，包括当前帧F_t和对应的光流图像OP_t；

步骤4：为了进一步提升视频显著性检测的性能，模型中引入轮廓提取网络进行空域细化，轮廓提取网络采用线下训练方式，并用于检测物体的边缘轮廓。

2.根据权利要求1所述的一种基于深度卷积网络的视频显著性检测方法，其特征在于步骤1具体实现如下：

1-1.输入视频序列，将当前帧记作F_t；

1-2.借助光流场估计算法LDOF以及将两通道矩阵转换为三通道彩色图像算法得到光流图像OP_t；其中，光流信息是一种很强的先验信息，能够提供视频序列中显著性区域的粗略位置；

1-3.将当前帧F_t和对应的光流图像OP_t串接后得到h×w×6维的张量,其中h和w分别表示当前帧对应的光流图像的长和宽，且均设置为256；接着，将生成的张量送到特征提取网络作为特征提取网络的输入。

3.根据权利要求2所述的一种基于深度卷积网络的视频显著性检测方法，其特征在于步骤2具体实现如下：

2-1.将当前帧F_t和对应的光流图像OP_t串接后得到的张量输入到深度卷积网络，通过卷积层Conv1-2、Conv2-2、Conv3-3、Conv4-3、Conv5-3得到不同分辨率的特征图{RFC_i,i＝1,2,3,4,5}；

2-2.将不同分辨率的特征图再通过特征提取网络输出相同尺寸的特征图{SMP_i,i＝1,2,3,4,5}；这些特征图尺寸均为256×256×2。

4.根据权利要求3所述的一种基于深度卷积网络的视频显著性检测方法，其特征在于步骤3具体实现如下：

3-1.将特征图{SMP_i,i＝1,2,3,4,5}、当前帧F_t和对应的光流图像OP_t按通道方向即F_t、SMP₅、SMP₄、SMP₃、SMP₂、SMP₁、OP_t串接得到张量，由于F_t、OP_t为256×256×3张量，特征图{SMP_i,i＝1,2,3,4,5}尺寸均为256×256×2，因此最后得到256×256×16张量；

3-2.将得到的尺寸大小256×256×16张量送入卷积层{Conv6-1,Conv6-2,Conv6-3}，其中，每一个卷积层均配备3×3卷积核；接着后续是一个卷积核为1×1的卷积层Conv6-4；最后再通过softmax层得到视频显著性检测的粗略估计SA_t；另外在Conv6-1层和Conv6-2层，Conv6-2层和Conv6-3层之间均部署BN层和ReLU层。

5.根据权利要求3或4所述的一种基于深度卷积网络的视频显著性检测方法，其特征在于步骤4具体实现如下：

4-1.采用端对端的方式训练前述网络，前述网络包括特征提取以及特征集成，然后进入测试阶段，引入一个分支，即轮廓提取网络；

4-2.在测试阶段引出的分支即轮廓提取网络，将当前帧F_t和集成网络的输出SA_t输入到该轮廓提取网络中，得到对应输出为SC_t；

S_t＝Norm[SA_t+SC_t] (1)