CN113393435A

CN113393435A - 一种基于动态上下文感知滤波网络的视频显著性检测方法

Info

Publication number: CN113393435A
Application number: CN202110653582.3A
Authority: CN
Inventors: 张淼; 朴永日; 刘杰
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14
Anticipated expiration: 2041-06-11
Also published as: CN113393435B

Abstract

本发明公开了一种基于动态上下文感知滤波网络的视频显著性检测方法，包括：根据视频数据集获取视频片段并得到张量；将张量输入特征编码器，得到基于每一帧多尺度的编码特征；针对编码特征，通过交错的特征融合层得到更加丰富的特征表示；通过动态上下文感知滤波模块，采用动态滤波机制搭配全局注意力机制，将相邻帧的上下文信息自适应的编码进当前帧中，得到包含有相邻帧信息的时间特征；动态融合不同阶段的空间特征和动态上下文感知滤波模块的时间特征，得到最终显著性预测结果。本发明构建了基于动态上下文感知滤波网络的视频显著性检测模型，利用动态上下文感知滤波模块和动态时空信息交互机制，在很多有挑战性的场景都能取得准确的预测结果。

Description

一种基于动态上下文感知滤波网络的视频显著性检测方法

技术领域

本发明涉及到计算机视觉领域，具体为一种基于动态上下文感知滤波网络的视频显著性检测方法。

背景技术

显著性检测是指在一幅图像里，旨在识别最能吸引用户的视觉注意力和最引人注目的区域和物体，由于在场景中选择最具视觉特征的信息，在计算机视觉中的广泛应用引起了人们的广泛关注。伴随着显著性目标检测算法的日渐成熟，在越来越多的工业界或学术界领域都涉及到了对其的应用。在工业界，比如在生活场景中通过手机或其他照相设备对商品场景进行拍摄，再对其进行处理得到所关注的商品的详细信息等；还有视频和图像的压缩，尤其是视频的压缩，通过显著性检测将足够的带宽分配给重要的目标区域，而对于一些信息量较少的背景等区域则分配较小的带宽比例等。在学术界，例如在物体的跟踪识别中进行显著性检测，剔除掉其余场景信息从而直接获得运动物体的运行轨迹；还有图像检索，主要是利用显著性目标区域的信息以及其所位于的空间分布情况，来进行多个图片之间的匹配和搜索，因此显著性算法在图像检索中，具有非常重要的作用和意义。此外还有场景分类，姿势估计等领域，显著性检测都占据着十分重要的地位。

根据输入形式的不同，显著性检测可以分为两大种类：静态图像显著性检测和视频显著性检测。其中静态图像显著性检测包括2D显著性检测、3D显著性检测和光场(4D)显著性检测。2D显著性检测的输入是RGB彩色图像；3D显著性检测的输入包括RGB彩色图像和与其相对应的深度图像；4D光场显著性检测的输入是光场图像，包括全聚焦RGB图像、焦点堆栈图像(一系列聚焦在不同深度层面物体上的聚焦切片图像)和深度图。而视频显著性检测则是以连续的视频帧作为输入，相较于2D显著性检测多了时间维度的信息需要考虑。

2D显著性检测方法是最为常见的基于静态图像的显著性检测方法，它采用图像对比度，颜色，纹理等信息来进行检测，虽然在现有的2D显著性检测数据库上取得了很好的检测结果，但是它们在复杂场景下，仍然存在着错检和漏检的问题。同时由于缺少对时间维度信息的考虑，它们也很难在视频数据集上有较好的表现。

与静态RGB图像或深度信息相比，考虑到附加时间维度带来的大量时空数据，将2D显著性检测简单地应用于基于视频的SOD任务不可避免地会导致不正确的显著性预测。近些年提出的一些优秀的视频显著性目标检测方法可分为三类：基于3D卷积的方法，基于长短期记忆网络(ConvLSTM)的方法和基于光流的方法，但是它们仍然存在着以下两个问题：首先，它们在推理过程中采用固定参数层，不能适应动态的现实环境。其次，先前诸如3D卷积之类的方法不加选择地对空间和时间特征进行融合，这不可避免地对显著性推断结果造成误导。由于以上两个问题的存在，视频显著性目标检测方法的准确率仍然有待提升。

发明内容

针对目前视频显著性检测方法仍采用固定参数层对显著性结果进行推理，难以适应动态变化的视频场景的问题，本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法，利用视频信息进行显著性检测，并通过动态上下文感知滤波网络优化更新，实现了动态视频场景下高质量的显著性检测。

为此，本发明提供了以下技术方案：

本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法，包括如下步骤：

A、根据视频数据集获取视频片段并得到张量；

B、将所述张量输入特征编码器，通过所述特征编码器得到基于每一帧多尺度的编码特征；

C、针对所述编码特征，通过交错的特征融合层得到更加丰富的特征表示；

D、通过互补感知时空解码器对所述更加丰富的特征表示进行特征解码，得到最终显著性预测结果，包括：

D1、通过动态上下文感知滤波模块，采用动态滤波机制和全局注意力机制，将相邻帧的上下文信息自适应的编码进当前帧中，得到包含有相邻帧信息的时间特征；

所述动态滤波机制包括：在连续两帧的特征图F_t-1，F_t之间使用卷积以获得增强的特征表示

然后从中生成动态内核K_t；接着将特征图F_t与生成的动态内核K_t进行卷积运算，通过并行布置D个动态滤波单元，并以不同膨胀率d进行卷积，获得特定于尺度的特征表示

所述全局注意力机制包括：获得特定于各个尺度特征图的贡献指数

接着将所获得的d个

进行softmax归一化操作得到

再与对应的原尺度特征

进行加权求和，以获得从第t帧的特征F_t到第t-1帧的特征F_t-1的反向输出

对从第t+1帧的特征F_t+1到第t帧的特征F_t采用同样的操作可获得前向输出

最终对反向输出

和前向输出

进行级联和通道变换可得到动态上下文感知滤波模块的最终输出

D2、在多个阶段以渐进的方式动态融合通过交错的特征融合层得到的更加丰富的特征表示

和动态上下文感知滤波模块的时间特征

表示如下：

其中α为控制因子，p表示第p个阶段；

利用多阶段的融合得到每个阶段的显著性特征{S₁,S₂,S₃,S₄}，最终的显著性结果S_final由{S₁,S₂,S₃,S₄}进行级联和通道变换得到。

进一步地，步骤A包括：

根据视频数据集划分具有固定数量连续视频帧的视频片段，每个视频片段具有连续的T帧图像；

对视频训练集中的每个视频片段进行数据增强，包括：将所述视频片段中的T帧RGB和GT图像帧对调整大小到H×W；使用随机概率的随机翻转；对增强后的RGB图像帧转变为网络可处理的张量，再进行均值为mean，方差为std的归一化操作，得到T个张量I_t；

将视频测试集中的每个视频片段调整大小到H×W；对调整后的RGB图像帧转变为网络可处理的张量，再进行均值为mean，方差为std的归一化操作，得到T个张量I_t；其中，mean和std为超参数，表示进行归一化操作的均值和方差。

进一步地，所述T取4；所述H×W取448×448。

进一步地，所述mean取[0.485,0.456,0.406]，所述std取[0.229,0.224,0.225]。

进一步地，所述特征编码器为ResNet架构，并丢弃最后两层以保留空间结构，然后将其替换为空洞空间金字塔池层，以提取多尺度上下文信息；所述特征编码器针对每一帧图像生成4个具有不同空间分辨率和通道数的特征图。

进一步地，所述ResNet架构为ResNet-101架构，其中将第4个Bottleneck的下采样操作换为步长为1，空洞率为2的卷积操作，在保留空间分辨率的同时增大感受野，同时去掉了最后的全连接层。

进一步地，步骤D1中，动态内核K_t的大小皆为3×3，不同的膨胀率d设置为1、3、5。

进一步地，步骤C包括：

在所述交错的特征融合层里，采用4个不同尺度的特征作为输入；

对于每一个尺度的特征，利用卷积操作和上采样操作将其转换到4个不同的空间分辨率；

对所有变换后的不同空间分辨率的特征，采用像素级的加和得到融合后的更加丰富的特征表示。

进一步地，对于每一个尺度的特征，利用卷积操作和上采样操作将其转换到4个不同的空间分辨率，包括：

对每一个尺度的特征采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率，采用卷积核为3×3和步长为s的卷积层，下采样到更小的空间分辨率，采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率。

进一步地，步长s按下采样后的尺度取2或者4。

本发明提供的上述技术方案具有以下有益效果：

本发明提出了一种基于动态上下文感知滤波网络的视频显著性检测方法，该方法考虑了动态视频场景中相邻帧之间的相干性。首先通过特征编码器得到基于每一帧多尺度的编码特征，并通过一个交错的特征融合层得到更为丰富的多层级特征；紧接着使用一个动态上下文感知滤波模块，采用动态滤波机制搭配全局注意力机制，将相邻帧的上下文信息自适应的编码进当前帧中，以对时间相关性进行建模，得到包含有相邻帧信息的时间特征，适应动态变化场景。其次，为了避免对最终显著性结果产生误导，方法中对每个阶段生成的时间特征以及空间特征采用控制因子进行了动态分配，最终加权求和得到当前阶段的时空特征，考虑到了时间特征和空间特征之间的互补性和相互作用性。实验结果表明，本发明提出的基于动态上下文感知滤波网络的视频显著性检测方法对于很多动态变化的视频场景都能取得准确的预测结果。

基于上述理由本发明可在计算机视觉领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是视频场景示意图；

图2是本发明实施例一种基于动态上下文感知滤波网络的视频显著性检测方法的流程图；

图3是本发明实施例中动态上下文感知滤波模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图2，其示出了本发明实施例中一种基于动态上下文感知滤波网络的视频显著性检测方法的流程图，该方法包括如下步骤：

A、根据视频数据集获取视频片段，并得到张量I_t,t＝1,2,…,T。

步骤A具体包括：

A1、获取视频片段：

根据视频数据集划分具有固定数量连续视频帧的视频片段；

根据每个视频数据集包含的视频帧RGB原图以及对应的显著性真值GT(如图1所示)，将视频划分为多个视频片段，每个视频片段具有连续的T帧图像；

A2、对每个视频片段得到T个张量I_t,t＝1,2,…,T：

对视频训练集中的视频片段进行数据增强，首先对此T帧的RGB原图和GT图像帧对采用尺度为s、比例为r的随机裁剪策略，调整大小到H×W(本方法采用的图像分辨率为448×448)，接着使用随机概率的随机翻转；对增强后的RGB图像帧首先转变为网络可处理的张量，再进行均值为mean，方差为std的归一化操作，得到T个张量I_t；

对视频测试集中的视频片段调整大小到H×W(本方法采用的图像分辨率为448×448)，接着对调整后的RGB图像帧首先转变为网络可处理的张量，再进行均值为mean、方差为std的归一化操作，得到T个张量I_t，此处T设置为4；

其中，归一化操作定义如下：

其中，I_inPut为归一化前的RGB图像帧，I_out为归一化后的张量I_t，用以输入特征编码器；mean和std为超参数，表示进行归一化操作的均值和方差，本实施例中mean取[0.485,0.456,0.406]，std取[0.229,0.224,0.225]。

B、通过特征编码器得到基于每一帧多尺度的编码特征

步骤B具体包括：

B1、将所得张量I_t输入特征编码器：

所采用的特征编码器为ResNet-101架构，其中将其第4个Bottleneck的下采样操作换为步长为1，空洞率为2的卷积操作，在保留空间分辨率的同时增大感受野，同时去掉了最后的全连接层。

B2、得到多尺度的编码特征

特征编码器会针对每一帧图像生成4个具有不同空间分辨率和通道数的多尺度的特征图，也即

其分辨率及通道数(W×H×C)分别为

C、通过交错的特征融合层得到更加丰富的特征表示

步骤C具体包括：

C1、将每个尺度的特征

调整空间分辨率到4个尺度：

在交错的特征融合层里，采用所述的4个不同尺度的特征

作为输入；

对于每一个

利用卷积操作和上采样操作将其转换到4个不同的空间分辨率，具体为：

对

采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率，目的是将具有小分辨率的较高级输入特征映射到大分辨率的特征，再与低级特征进行融合；采用卷积核为3×3和步长为s的卷积层，下采样到更小的空间分辨率，目的是将具有大分辨率的较低级输入特征映射到小分辨率的特征，以与高级特征进行融合；采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率，以进行相同分辨率特征间的特征映射；

C2、对所有变换后的不同空间分辨率的特征，采用像素级的加和得到融合后的更加丰富的特征表示

对于第t帧的特征

都由步骤C1中已进行空间分辨率变换后的特征采用像素级加和得到。如

则由

各自都变换到

的空间分辨率大小，再进行像素级加和得到，其余

由相似方式得到。整体过程可被表示为：

其中，C_w×h,s表示卷积和长宽为w和h，步长为s的卷积操作，Up_s表示scale factor为s的双线性插值上采样操作。

D、通过互补感知时空解码器对特征

进行特征解码，得到最终显著性预测结果。

互补感知时空解码器中包括动态上下文感知滤波模块，其包括如下具体步骤：

D1、动态上下文感知滤波：

为了适应动态的视频场景，选择引入动态过滤机制。通过动态上下文感知滤波模块，多个动态滤波器能被有效的组合以选择最具判别性的特征表示。

参见图3，其示出了本发明提出的动态上下文感知滤波模块(DCFM模块)的结构示意图。在DCFM模块中，对于当前关键帧(第t帧)在第p阶段的特征F_t→p，通过动态卷积的方式，可以将其相邻帧的特征F_t-1和F_t+1以动态核的方式，编码进当前帧中，以获得连续帧的时间信息。其具体方式为采用不同膨胀率的动态空洞卷积单元以获得多尺度的特征，由于不同膨胀率的动态空洞卷积所获得的特征具有不同的感受野，也就更易捕获更为丰富的帧间相关性；此外，通过全局注意力机制(GA)对此多尺度特征进行权重分配，以自适应的衡量不同尺度的特征对当前帧显著性预测的贡献程度，得到更为准确的预测结果。

步骤D1具体包括：

以具有不同膨胀率的金字塔结构使用动态滤波机制。首先在连续两帧的特征图F_t-1，F_t之间使用矩阵乘和卷积操作，以获得增强的特征表示

然后从中生成动态内核K_t，此处获得的动态内核K_t的大小皆为3×3。接着将特征图F_t与生成的动态内核K_t进行卷积运算，通过并行布置D个动态滤波单元，并以不同膨胀率d进行卷积，可以获得特定于尺度的特征表示

可被表示为：

其中C_1×1,1表示卷积核为1×1，步长为1的卷积操作，AvgPool表示自适应均值池化操作，且均池化到3×3大小，d表示膨胀率。

表示矩阵乘操作，上标T表示矩阵转置操作；DConv表示膨胀率为d，卷积核为K_t的动态卷积操作，K_t表示生成的动态内核；其中动态滤波单元个数D为3，膨胀率d分别为1，3，5；

接着在获得的多尺度特征

上应用注意力机制。首先对获得的多尺度特征

各自采用全局注意力机制，获得特定于各个尺度特征图的贡献指数

接着将所获得的d个

进行softmax归一化操作得到

再与对应的原尺度特征

最终对反向输出

和前向输出

过程可表示为：

其中Linear表示全连接层变换操作，变换后的通道数为1，C_w×h,s表示卷积和长宽为w和h，步长为s的卷积操作，AvgPool表示自适应均值池化操作，且均池化到1×1大小，d表示膨胀率，Cat表示级联操作。

D2、动态互补感知融合：

采用互补感知的融合策略对所提取到的时间特征和空间特征在多个阶段以渐进的方式进行动态融合，有效的考虑到了时间特征和空间特征之间的互补性和相互作用性，也有效提高了显著性预测的准确率。

在多个阶段以渐进的方式动态融合通过交错的特征融合层得到的更加丰富的特征表示

和动态上下文感知滤波模块的时间特征

可表示如下：

其中Linear表示全连接层变换操作，变换后的通道数为1；α为控制因子，p表示第p个阶段；此外利用多阶段的融合可得到每个阶段的显著性特征{S₁,S₂,S₃,S₄}，最终的显著性结果S_final由{S₁,S₂,S₃,S₄}进行级联和通道变换得到。具体可表示如下：

其中Linear表示全连接层变换操作，变换后的通道数为1，C_w×h,s表示卷积和长宽为w和h，步长为s的卷积操作；Up_s表示scale factor为s的双线性插值上采样操作，Cat表示级联操作。

通过动态上下文感知滤波模块和互补感知融合策略，所提出的基于动态上下文感知滤波网络的视频显著性检测实现方法能有效的提升现实动态变化场景中的视频显著性检测鲁棒性。

E、动态上下文感知滤波网络的训练及优化：

本方法整体可分为训练和推理两个阶段，在训练时以训练集的张量作为输入，得到训练好的网络参数；在推理阶段使用训练阶段保存的参数进行测试，得到最终的显著性预测结果。

本发明实施例在Pytorch框架下实现，其中训练阶段时使用ADAM优化器，学习率为1e-5，β₁＝0.9,β₂＝0.999，并且批处理大小1。在训练期间，图像的空间分辨率为448×448，但是模型可以是在测试时以全卷积方式应用于任意分辨率。

本发明实施例提出的基于动态上下文感知滤波网络的视频显著性检测方法，采用动态滤波机制搭配全局注意力机制，将相邻帧的上下文信息自适应的编码进当前帧中，以对时间相关性进行建模，得到包含有相邻帧信息的时间特征；适应动态变化场景。其次，为了避免对最终显著性结果产生误导，本发明中采用动态互补感知融合方式，对每个阶段生成的时间特征以及空间特征采用控制因子进行了动态分配，最终加权求和得到当前阶段的时空特征，考虑到了时间特征和空间特征之间的互补性和相互作用性。实验结果表明，本发明提出的基于动态上下文感知滤波网络的视频显著性检测方法对于很多动态变化的视频场景都能取得准确的预测结果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。