CN113343772B

CN113343772B - 一种基于隐式引导与显式教导策略的视频显著性目标检测方法

Info

Publication number: CN113343772B
Application number: CN202110516620.0A
Authority: CN
Inventors: 朱荣; 季葛鹏; 焦瑛霞; 宋庶权; 魏冕; 牛舒羽
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-06-14
Anticipated expiration: 2041-05-12
Also published as: CN113343772A

Abstract

本发明提出了一种基于隐式引导与显式教导策略的视频显著性目标检测方法。本发明引入了运动信息调制器，包含了通道和空间两种顺序的注意力机制，并以一种深度协作的方式运作，可以有效增强运动信息主导的特征；通过隐式引导策略将运动信息主导(即教师)的特征传递到表观信息主导(即学生)的分支，可以有效提升检测效果；通过使用一个教师部分解码器(teacher partial decoder,T‑PD)来聚合网络的高三层中运动信息主导的特征，并生成运动信息主导的掩膜。该掩膜通过另一个完全一致的学生部分解码器(student partial decoder,S‑PD)，显式地教导网络的高三层中表观信息主导的特征的聚合。该显式教导过程可以进一步提升检测效果。

Description

一种基于隐式引导与显式教导策略的视频显著性目标检测方法

技术领域

本发明涉及视频显著性目标检测方法，特别涉及一种基于隐式引导与显式教导策略的视频显著性目标检测方法。

背景技术

视频显著性目标检测(video salient object detection，VSOD)一直是计算机视觉领域的一个长期研究课题，其目标是在给定的视频片段中分割出引人注目的、有吸引力的显著性目标。这项技术已被应用于自动驾驶汽车、动作分割和视频字幕等领域。近年来，在无约束场景的视频处理技术方向上取得了巨大的进展，但仍有很大的改进空间且尚未得到充分的探索。

运动特征(例如：运动光流和运动轨迹)和表观特征(例如：颜色和超像素分割块)都是理解无约束场景下动态显著性目标的关键线索。在使用时空卷积神经网络来学习具有判别性等表观和运动特征方面，已有一些工作，其中经常使用循环记忆神经网络和三维卷积神经网络。然而，他们受到如下问题的阻碍：对于前者，它不能同时处理空间和时间线索。此外，由于其具有可传输的时间记忆特性，只能对输入视频帧进行顺序处理，这种算法的训练与推理效率受到很大的限制。而对于后者，当时域卷积层数量较大时，其数值解空间的维度呈指数增长，导致三维卷积神经网络难以优化。此外，这类神经网络的计算成本高导致计算设备负载过大，一般比二维卷积神经网络的内存占用高出约1.5倍。

发明内容

为了克服现有技术的上述缺点与不足，本发明的目的在于提出一种简单而高效的引导与教导策略网络(Guidance and Teaching Network，GTNet)，有效地结合视频显著性目标检测的运动和表观模式，取得了更精确的检测效果。

本发明的目的在于提供一种基于隐式引导与显式教导策略的视频显著性目标检测方法，通过以下技术方案实现，包括以下步骤：

步骤1，给定光流生成器产生的一系列输入帧

对应的光流图

步骤2，将

和

输入到构建的双流分支架构中，在第t帧中，由两个单独的深度残差网络分别生成层级为5的特征金字塔，即表观信息主导的特征

和运动信息主导的特征

其中表观信息主导的特征

作为学生分支的输出，运动信息主导的特征

作为教师分支的输出；

步骤3，使用运动信息调制器从空间维度和通道维度两个视角来增强运动信息主导的特征，并通过隐式引导策略将其转移到以表观信息主导的分支；

步骤4，通过一个教师部分解码器聚合网络的高K层中运动信息主导的特征

并且在第t帧生成一个运动信息引导的掩膜

其中K＜5；

步骤5，进一步的，掩膜

通过另一个与教师部分解码器聚合网络完全一致的学生部分解码器，用于显式地教导网络的高K层中表观信息主导的特征

的聚合；

步骤6，最后，通过学生部分解码器生成对于第t帧的最终预测图

进一步的，步骤3中通过运动信息调制器隐式地将运动信息主导的特征从教师分支传递到学生分支，即表观信息主导的特征，具体包括以下步骤；

步骤3.1，隐式引导的策略在每个特征金字塔层级k上协同工作，其中k∈{1，2，3，4，5}；

步骤3.2，对于第k级别，基于通道注意力的函数

可以定义为：

其中符号

代表针对输入特征向量x₁在空间维度进行自适应最大池化层操作，

代表两个连续的全连接层，由可学习的权值

进行参数化；此外，σ[x₂]和⊙代表激活函数和基于通道维度的特征相乘操作，此处采取Sigmoid函数σ[x₂]来激活输入特征，其可以被写成如下公式，

σ[x₂]＝1/(1+exp(-x₂))；

步骤3.3，对于第k级别，基于空间注意力的函数

可以被定义为

其中，符号

代表沿着通道维度对输入特征向量x₃进行全局最大池化操作算子，

代表卷积核大小为7×7的卷积层，

代表空间维度的特征相乘操作；

步骤3.4，运动信息调制器函数

被定义为两个级联的注意力过程，该过程包括了在第k级别的基于通道注意力的函数

和基于空间注意力的函数

因此，该运动信息调制器过程可以被定义为：

步骤3.5，最后，隐式引导策略函数可以被定义为

其中k∈{1，2，3，4，5}。

进一步的，步骤4中教师部分解码器聚合处于网络的高K层(K＜5)中运动信息主导的特征，并且生成运动信息引导的掩膜，具体包括以下步骤：

步骤4.1，首先使用感受野模块

来获取优化后的运动信息特征

该过程可以被表示为

步骤4.2，接着，对优化后的运动信息特征进行特征传播操作，将具有富语义的特征传播到弱语义的特征之中，，生成优化后的特征

该过程可以定义为

其中Π代表针对i个输入特征图像执行逐像素特征相乘操作，这个过程是由可学习权值

来进行参数化的，δ(·)代表的是上采样操作，其用于保证相乘的两个特征向量的分辨率尺度一致；

步骤4.3，然后，通过经典的U-Net形状解码器

获得中间输出的运动信息引导的掩膜

其中U-Net形状解码器

移除了中低两层的跳层连接，该过程可以表示为：

进一步的，步骤5中将运动信息引导的掩膜

显式地传播到处于网络高K层中的表观信息主导的特征之中，这些表观信息主导的特征来源于学生分支，该显式教导操作算子可以被定义为：

其中k∈{6-K，7-K，...，5}，

和

分别表示逐元素相加和逐元素相乘操作。

进一步的，步骤6中学生部分解码器

结合传播的掩膜，生成最终的预测结果

该过程可以被定义为

进一步的，步骤2中所述深度残差网络为ResNet50网络。

进一步的，采用图像显著性目标检测DUTS数据集上训练学生分支，视频显著性目标检测DAVIS₁₆数据集的训练集上训练双流分支架构。

与现有技术相比，本发明具有以下优点和有益效果：

(1)本发明引入了运动信息调制器，包含了通道和空间两种顺序的注意力机制，并以一种深度协作的方式运作，可以有效增强运动信息主导的特征。

(2)本发明通过隐式引导策略将运动信息主导(即教师)的特征传递到表观信息主导(即学生)的分支，可以有效提升检测效果。

(3)本发明通过使用一个教师部分解码器(teacherpartial decoder，T-PD)来聚合网络的高三层中运动信息主导的特征，并生成运动信息主导的掩膜。该掩膜通过另一个完全一致的学生部分解码器(student partial decoder，S-PD)，显式地教导网络的高三层中表观信息主导的特征的聚合。该显式教导过程可以进一步提升检测效果。

(4)本发明强调了隐式引导和显式教导策略对于时空表征过程的重要性。本发明是基于运动信息主导的特征和掩膜提供区分性的语义和时间线索的观察，没有冗余结构，有助于表观信息主导的分支中高效的解码过程，可以得到精确的检测结果。

附图说明

图1为本发明提出的引导和教导策略的说明图。

图2为本发明提出的引导与教导策略网络(Guidance and Teaching Network，GTNet)框架结构图。

图3为本发明中使用的运动信息调制器(temporal modulator，TM)结构示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例

本实施例基于隐式引导与显式教导策略的视频显著性目标检测方法，可分成两个阶段：训练阶段和测试阶段，其中训练阶段包括以下步骤：

步骤1，使用光流生成器(如RAFT)产生的一系列输入帧

对应的光流图

其中，由于帧差算法的影响，在实验中丢弃了第一帧

和光流图

然后使用上述所生成的光流图单独的训练教师分支。

步骤2，其次，在图像显著性目标检测DUTS数据集上训练学生分支；

步骤3，然后，在视频显著性目标检测DAVIS₁₆数据集的训练集上训练双流分支框架。将

和

输入到本发明提出的双流分支架构中，在第t帧中，由两个单独的ResNet50网络分别生成层级为5的特征金字塔，即表观信息主导的特征

和运动信息主导的特征

步骤4，接着，使用运动信息调制器(temporal modulator，TM)从空间维度和通道维度两个视角来增强运动信息主导(即教师)的特征，并通过隐式引导策略将其转移到以表观信息主导(即学生)的分支，具体包括以下步骤：

步骤4.1，隐式引导的策略在每个特征金字塔层级k上协同工作，其中k∈{1，2，3，4，5}；

步骤4.2，对于第k级别，基于通道注意力的函数

可以定义为

其中符号

代表针对输入特征向量在空间维度进行自适应最大池化层操作。

代表两个连续的全连接层(full-connected layer)，由可学习的权值

进行参数化。此外，σ[x]和⊙代表激活函数和基于通道维度的特征相乘操作。此处采取了广泛使用的Sigmoid函数σ[x]来激活输入特征，其可以被写成如下公式

σ[x]＝1/(1+exp(-x))；

步骤4.3，对于第k级别，基于空间注意力的函数

可以被定义为

其中，符号

代表沿着通道维度对输入特征向量进行全局最大池化操作算子。

代表卷积核大小为7×7的卷积层。

代表空间维度的特征相乘操作；

步骤4.4，运动信息调制器函数

和基于空间注意力的函数

因此，该运动信息调制器过程可以被定义为

步骤4.5，最后，隐式引导策略函数可以被定义为

其中k∈{1，2，3，4，5}。

步骤5，在此之后，通过一个教师部分解码器(teacher partial decoder，T-PD)聚合网络的高三层(本发明实施例中默认设定K等于3)中运动信息主导的特征

并且在第t帧生成一个运动信息引导的掩膜

具体包括以下步骤：

步骤5.1，首先使用感受野模块(receptive field block)

来获取优化后的运动信息特征

该过程可以被表示为

步骤5.2，接着，对优化后的运动信息特征进行特征传播操作，将具有富语义的特征传播到弱语义的特征之中，生成优化后的特征

该过程可以定义为

来进行参数化的。δ(·)代表的是上采样操作，其用于保证相乘的两个特征向量的分辨率尺度一致；

步骤5.3，然后，通过经典的U-Net形状解码器

获得中间输出的运动信息引导的掩膜

其中U-Net形状解码器

移除了中低两层的跳层连接。该过程可以表示为

步骤6，进一步的，掩膜

通过另一个完全一致的学生部分解码器(studentpartial decoder，S-PD)，用于显式地教导网络的高三层中表观信息主导的特征

的聚合，这些表观信息主导的特征来源于学生分支。该显式教导操作算子可以被定义为

其中k∈{3，4，5}。

和

分别表示逐元素相加和逐元素相乘操作；

步骤7，最后，学生部分解码器

生成对于第t帧的最终预测图

该过程可以被定义为

步骤8，在训练过程中，采用Adam优化器，初始学习率设置为1e-4，每经历25个轮次学习率衰减10％，并输入RGB和光流图分辨率统一调整为352²；

步骤9，为了证明本发明所提方法的有效性，比较了11种视频显著性目标检测方法和3种图像显著性目标检测方法的检测效果，比较结果如下表所示，由结果可以看出，本发明提出的GTNet相对于其他未经后处理的前沿方法具有明显的优势：

其中评估指标具体包括以下步骤：

步骤9.1，

指平均绝对误差(Mean absolute error，MAE)，数值越低表示效果越好。其可以定义为

其中

为预测的显著性图，G_t为第t帧对应的真值，W和H分别代表图像的宽度和高度；

步骤9.2，F_β数值越高表示效果越好。其可以定义为

其中β²被设置为0.3；

步骤9.3，结构度量指标

是一种新提出的度量方法，用于评价预测的显著性图与其对应的真值之间的结构相似性，数值越高表示效果越好。

可以定义为：

其中μ通常被设置为0.5，S_o和S_r分别定义为区域感知的结构相似度和对象感知的结构相似度。

如图2所示，引导与教导策略网络的整体框架为双流分支架构，每个分支为典型的UNet形状的框架，为典型的自顶向下-自底向上结构，用于聚合特征金字塔。本发明的流程使用隐式引导来桥接教师分支(即运动信息主导)和学生分支(即表观信息主导)。由于需要教师分支的显式知识，利用深度监督下的教师部分解码器(teacher partial decoder，T-PD)获得运动信息引导的掩模，并使用它来教导学生部分解码器(student partialdecoder，S-PD)的解码阶段。

如图3所示，运动信息调制器函数

和基于空间注意力的函数

该运动信息调制器过程可以被定义为

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。