CN113283438B

CN113283438B - 基于多源显著性和时空榜样适配的弱监督视频目标分割方法

Info

Publication number: CN113283438B
Application number: CN202110322786.9A
Authority: CN
Inventors: 段立娟; 恩擎; 王文健; 乔元华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2024-03-29
Anticipated expiration: 2041-03-25
Also published as: CN113283438A

Abstract

本发明公开了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法，属于特征学习和视频目标分割技术领域。该方法首先提取当前视频帧的空间显著性掩码和时间显著性掩码。训练多源显著融合网络对两者进行融合，得到时空显著掩码。随后计算时空契合度并将其进行排序；选择前N个时空契合度结果对应的视频帧作为时空榜样信息。将时空显著掩码作为分割目标伪标签，时空榜样结果作为适配目标，协同优化分割损失和时空榜样适配损失训练目标分割网络。本发明以学习的方法有效融合时空显著性先验知识，通过榜样适配机制提供可靠指导信息，使神经网络学习到相同类别视频中的一致性目标特征，在弱监督视频目标分割任务上取得了更加优秀的效果。

Description

基于多源显著性和时空榜样适配的弱监督视频目标分割方法

技术领域

本发明涉及深度学习领域和弱监督视频目标分割领域，尤其是涉及到弱监督视频目标分割中的特征表达方法，该方法能够在视频目标分割数据集上得到更加准确的分割结果。

背景技术

随着多媒体监控技术的发展，视频已经成为重要的多媒体信息载体。如何从海量的视频中提取有意义的信息，从而完成动态目标分析和场景解析，已经成为计算机视觉领域的研究热点之一。其中，能够提取视频对应的出色特征表达能够一定程度上帮助计算机对输入场景进行更合理的分析和理解。现有视频目标分割任务给各行各业带来便利的同时，也带来了一定的挑战。由于目前视频数据正在数以万亿级别增长，使用精细标记训练视频目标分割网络会消耗大量资源与时间。例如利用弱标签进行训练完成视频目标分割任务，从而应用于视频监控、场景解析。缺乏精细标签指导的弱监督视频目标分割在过去一些年在相关领域取得了广泛的研究和长足的进展。大量公司和研究机构纷纷投身于该研究方向中，这也意味着该任务已经成为了研究的主流。弱监督视频目标分割任务具有很高的应用价值，在视频监控方面可以帮助筛选显著运动目标；园区巡逻方面可以进行安全监控；在自动驾驶方面可以辅助驾驶。

人类视觉注意力能够被动地被自顶向下的信息所吸引，在视频中该自顶向下信息通常由感知共性目标所指导。与此同时，人类视觉注意力也能够主动的被自底向上的信息所吸引，在视频中该自底向上信息由视差和明显的运动信息所指导。启发于认知心理学，大脑皮层会自动选择相关的刺激信息而过滤不相关的信息。

弱监督视频目标分割旨在只有类别标签的情况下，确认视频序列中存在目标并得到其对应的分割掩码。该任务是视频任务中最为基础也是最为重要的任务之一。该任务遇到最大的挑战在于解决视频任务中出现的遮挡问题，背景杂乱问题以及外观差异性问题。本方法主要解决在仅有类别标签的指导下，进行弱监督视频分割任务。一些相关工作提出使用双路神经网络提取时空信息的方法，将双路网络的输入得分进行加权从而得到最终分割结果。但是上述双路模型在此应用中是分别进行训练的，这导致当空间显著性和时间显著性出现冲突时候模型不能做出正确判断。除此以外，缺少自顶向下的指导会导致当一帧的前景与另一帧的背景特征极为相似的情况下模型不能做出正确判断。其次，一些相关工作提出基于模版匹配的方法解决视频分割问题。虽然模版匹配的方法通过重识别或几种不同的特征匹配的方法解决视频目标分割问题，但是这些方法都需要精细标注为模版的指导才能完成该任务。

基于以上分析，两种对于真实场景的观测驱动了本方法的提出：1)每个源头数据的先验知识都是有选择性有用的。时间和空间数据能够对视频目标分割提供有价值的先验知识。但是直接简单融合时间先验当目标内部区域出现不规则运动时会彰显其其不足之处。2)主要的感兴趣目标会贯穿出现在整个视频序列中。该贯穿视频序列中的共性信息对于模型完成目标分割具有指导意义。因此，本方法所提出的模型启发于生物感受周围环境的感知能力。

发明内容

本发明的目的在于，针对上述已有时空信息和弱标签利用不充分导致视频表达能力的不足，提出了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法。本发明通过探索多源显著性作为自下而上的线索关注有吸引力区域；通过探索榜样适配机制作为自上而下的线索关注主动注意的区域，来解决弱监督视频目标分割问题。其中多源显著性模块整合了时空显著性信息有助于消除背景干扰并获得适当的被动注意力区域；时空榜样适配模块在弱监督视频目标分割中引入了榜样适配模块获得适当的主动注意力区域。与相关工作相比的优势在于本方法以更合理的方式利用时空知识和类别标签，将时空信息用于选择榜样样本而不是简单对不同视频进行分类。

实现本发明方法的主要思路包含三个阶段，分别为构造时空显著掩码训练目标、构造时空榜样训练目标和训练与测试弱监督目标分割模型。其中构造时空显著掩码训练目标与构造时空榜样训练目标阶段为弱监督目标分割模型构造训练目标做准备。具体来说，首先依次提取同一个视频中的当前帧与下一帧的两个视频帧图像，使用显著性检测网络提取当前视频帧的空间显著性掩码；随后提取视频相邻帧对应的光流，并使用显著性检测方法作用于光流得到时间显著性掩码。使用时间显著性掩码和空间显著性掩码训练多源显著融合网络，得到时空显著掩码训练目标。随后通过时空显著掩码获得时空契合度，并将其进行排序；选择其中前N个时空契合度高的视频帧作为该类别视频序列对应的时空榜样信息，从而得到时空榜样训练目标。最后通过协同优化分割损失、时空榜样适配损失以及辅助损失训练目标分割网络从而得到最终分割结果。

根据上述主要思路，本发明方法的具体实现包括包含三个阶段，分别为构造时空显著掩码训练目标、构造时空榜样训练目标和训练与测试弱监督目标分割模型，构造时空显著掩码训练目标阶段包括：

步骤1：构造数据集

构造数据集，以视频帧和对应的弱标签构造训练弱监督视频目标分割图像集；

步骤2：提取空间显著性掩码

将视频帧输入显著性检测网络，提取视频帧对应的空间显著性掩码；

步骤3：提取时间显著性掩码

将当前视频帧和相邻视频帧输入光流提取网络，生成光流图。随后使用显著性检测方法作用于光流图，得到视频在当前时刻的时间显著性掩码；

步骤4：融合时间和空间显著性掩码，得到时空显著性掩码

使用步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码，训练多源显著融合网络，得到时空显著性掩码；

构造时空榜样训练目标包括：

步骤5：计算视频帧的时空契合度，选择部分视频帧作为时空榜样信息

计算步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码的契合度，并将其进行排序，选择同一个类别视频中前N个时空契合度高的多视频帧作为该类别视频序列对应的时空榜样信息；

步骤6：计算分割损失，更新弱监督视频目标分割网络参数

使用步骤4得到的时空显著性掩码、步骤5得到的时空榜样信息作为弱监督视频监督信息，计算分割损失和时空榜样适配损失训练弱监督目标分割网络。当分割损失和时空榜样适配损失同时达到最小时，弱监督目标分割网络训练完成；

步骤8：输出弱监督视频目标分割结果

针对输入视频帧将其输入弱监督视频目标分割网络进行前向推理，得到最终目标分割结果。

本发明与现有技术相比，具有以下明显的优势和有益效果：本发明提出了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法。该方法从人类易被视差与明显运动区域所被动吸引且易被共性信息主动吸引出发，通过同时考虑自顶向下与自顶向上信息，协同关注“吸引”与“注意”区域，从而得到理想的弱监督视频分割模型。训练出神经网络提取的特征在弱监督视频目标分割任务上取得了更加优秀的效果。

附图说明

图1为本发明所涉及方法总流程框图；

图2为本发明所涉及算法总架构图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照详细附图，对本发明进一步详细说明。但所描述的实施例子仅旨在便于对本发明的理解，而对其不起任何限定作用。图1是本发明的方法流程图，如图1所示，本方法包括以下几个步骤：

步骤1：构造数据集

本发明所述方法实施过程中的数据库来源于公开视频目标分割标准数据集DAVIS2016。其中DAVIS-2016由50个类别对应的高质量视频序列组成，共有3455个稠密掩码标注的视频帧。构造训练集的视频帧和其对应的弱监督标注为其中I^t表示视频帧RGB图像，Y^t表示I^t对应的类别标注。

步骤2：提取空间显著性掩码

输入尺寸为c*h*w的视频帧I^t,其中c＝3表示输入的为RGB图像，通过空间显著性先验所提取到的输出尺寸为1*h*w，表示所输出的为单通道图像。将视频帧It输入空间显著性网络得到空间显著性掩码/>

其中σ表示sigmoid函数，up表示双线性采样操作；本发明中涉及的所有空间显著性网络的选择没有限制，均可以采用任意卷积神经网络结构，附表1仅作为实施选用结构。

步骤3：提取时间显著性掩码

首先使用视频中当前帧I^t和下一帧I^t+1输入到光流提取网络FlowNet2生成光流图：

其中表示FlowNet2，网络结构如附表2所示。随后最小栅栏距离MBD方法作用于光流图O_t→t+1，通过迭代最小化在光流图O_t→t+1上的最小块路径损失，得到视频在t时刻对应的时间显著性掩码/>具体公式如下：

在此过程中，通过光栅扫描的方法遍历光流图O_t→t+1中的每个像素位置，通过使用每个位置x附近的一半的像素y来迭代最小化在位置x处的距离，从而生成距离图

其中P(y)表示到达y的路径，而<y,x>表示从y到达x的边，表示路径损失函数：

其中P_y(x)表示P(y)·<y，x>)，和/>表示P(y)的最大和最小值。

步骤4：融合时间和空间显著性掩码，得到时空显著性掩码

当前视频帧I^t为输入，步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码/>

为训练目标，计算多源融合损失来训练时空显著融合网络其中多源融合损失为：

其中表示多源融合显著区域。随后，通过/>前行推理得到时空显著性掩码/>能够很大程度上过滤掉了运动的背景信息；本发明中涉及的所有时空显著融合网络模型的选择没有限制，均可以采用任意卷积神经网络结构，附表3仅作为实施选用结构。

首先计算和/>之间的IoU(intersection-over-union)：

该结果被看作不同源显著区域之间的匹配程度。随后通过不同的视频类别cl来排序该类别中的匹配程度，最终获得排序后的集合从该结合中选择排序前N个样本作为该类别对应的时空榜样。因此对于视频帧I^t来说，它所对应的N个榜样为：

由此可见，每个类别视频帧对应相同的榜样。在得到时空榜样后，将每个榜样所对应的伪标签分解为前景和背景：

其中为时空榜样样本/>在/>中的索引。

步骤6：计算损失，更新弱监督视频目标分割网络参数

使用步骤4中的时空显著性掩码计算弱监督视频目标分割网络/>的分割损失L_seg和时空榜样适配损失L_ada。本发明中涉及的所有弱监督视频目标分割网络的选择没有限制，均可以采用任意卷积神经网络结构，附表4仅作为实施选用结构。

首先，分割损失L_seg如下：

其中为弱监督视频目标分割网络/>的预测结果：

其次，计算时空榜样适配损失L_ada，使用对输入图像进行前背景过滤，得到前景/>和背景/>

随后，将生成的和/>输入到特征提取网络/>提取特征，根据所提取的特征计算榜样适配得分：

其中，h表示视频帧从特征提取网络所提取的特征纬度，/>用于计算当前帧和对应榜样之间的前景特征距离，/>用于计算相同帧与相同榜样之间前景和背景之间的特征差异性，本发明中涉及的所有特征提取网络的选择没有限制，均可以采用任意卷积神经网络结构，附表5仅作为实施选用结构。因此，时空榜样适配损失L_ada为：

其中N表示视频帧I^t所对应的榜样数量。当分割损失和时空榜样适配损失同时达到最小时，弱监督目标分割网络训练完成。

步骤7：输出弱监督视频目标分割结果

针对输入视频帧将其输入步骤6训练的弱监督视频目标分割网络进行前向推理，得到最终目标分割结果。

从附表6可以看出，以本发明提出的方法在视频目标分割数据集上有用比最新方法更好的分割效果。

表1

表2

表3

表4

表5

表6

Claims

1.基于多源显著性和时空榜样适配的弱监督视频目标分割方法，其特征包括构造时空显著掩码训练目标、构造时空榜样训练目标，以及训练与测试弱监督目标分割网络：

步骤1：构造数据集

构造训练弱监督视频目标分割图像集，包括视频帧和对应的弱标签；其中，构造的训练集表示为I^t表示视频帧RGB图像，Y^t表示I^t对应的类别标注；

构造时空显著掩码训练目标阶段包括：

步骤2：提取空间显著性掩码

输入视频帧I^t，使用空间显著检测器作用于视频帧I^t提取空间显著性掩码/> 表示视频中空间最显著区域，计算公式如下：

其中σ表示sigmoid函数，up表示双线性采样操作，I^t表示输入尺寸为c*h*w的视频帧,c＝3表示输入的为RGB图像，的尺寸为1*h*w；

步骤3：提取时间显著性掩码

输入视频帧I^t和I^t+1提取视频相邻帧对应的光流，使用最小栅栏距离(MBD)作用于光流提取时间显著性掩码表示视频中运动最明显区域；

步骤4：融合时间和空间显著性掩码，得到时空显著性掩码

以视频帧I^t为输入，以步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码为训练目标，训练时空显著融合网络/>随后使用训练好的/>对输入I^t前行推理得到时空显著性掩码/> 能够很大程度上过滤掉了运动的背景信息；

构造时空榜样训练目标阶段包括：

计算步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码/>的契合度，并将其进行排序，选择同一个类别视频中前N个时空契合度高的视频帧作为时空榜样信息；

训练与测试弱监督目标分割网络阶段包括：

步骤6：计算损失，更新弱监督视频目标分割网络参数

使用步骤4得到的时空显著性掩码、步骤5得到的时空榜样信息作为弱监督视频监督信息，计算分割损失和时空榜样适配损失训练弱监督目标分割网络；当分割损失和时空榜样适配损失同时达到最小时，弱监督目标分割网络训练完成；

步骤7：输出弱监督视频目标分割结果

针对输入视频帧，将其输入步骤6训练的弱监督视频目标分割网络进行前向推理，得到最终目标分割结果；

步骤3具体包括以下步骤：

首先将视频帧I^t和I^t+1输入到现有光流提取网络FlowNet2生成光流图：

其中表示FlowNet2，随后最小栅栏距离MBD方法作用于光流图O_t→t+1，通过迭代最小化在光流图O_t→t+1上的最小块路径损失，得到视频在t时刻对应的时间显著性掩码/>具体公式如下：

其中P_y(x)表示P(y)·<y,x>)，和/>表示P(y)的最大和最小值；

步骤4具体包括以下步骤：当前视频帧I^t为输入，步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码/>为训练目标，计算多源融合损失来训练时空显著融合网络/>其中多源融合损失为：

其中表示多源融合显著区域，随后，通过/>前行推理得到时空显著性掩码/> 能够很大程度上过滤掉了运动的背景信息；

步骤5具体包括以下步骤：

首先计算视频I^t的和/>之间的IoU(intersection-over-union)：

该结果被看作时间和空间显著掩码的契合度，随后对相同类别cl中的契合度进行排序，获得排序后的集合选择排序结果的前N个样本作为视频帧I^t的时空榜样信息，对于视频帧I^t来说，它前N个契合度所对应的视频帧作为榜样信息/>

在得到时空榜样信息后，每个时空榜样信息所对应的伪标签分解为时空榜样前景和时空榜样背景/>为：

其中为时空榜样样本/>在/>中的索引，而/>表示/>对应的时空显著性掩码；

步骤6具体包括以下步骤：

步骤6：计算损失，更新弱监督视频目标分割网络参数

使用步骤4中的时空显著性掩码计算弱监督视频目标分割网络/>的分割损失L_seg和时空榜样适配损失L_ada，其中分割损失L_seg如下：

其中为弱监督视频目标分割网络/>的预测结果：

其中，计算时空榜样适配损失L_ada，使用对输入图像进行前背景过滤，得到前景/>和背景/>

其中，h表示视频帧从特征提取网络所提取的特征纬度，/>计算当前帧和对应榜样之间的前景特征距离，/>计算相同帧与相同榜样之间前景和背景之间的特征差异性；因此，时空榜样适配损失L_ada为：

其中N表示视频帧I^t所对应的榜样数量；当分割损失和时空榜样适配损失同时达到最小时，弱监督目标分割网络训练完成。