CN112967309B

CN112967309B - 一种基于自监督学习的视频目标分割方法

Info

Publication number: CN112967309B
Application number: CN202110216793.0A
Authority: CN
Inventors: 洪德祥; 李国荣; 苏荔; 黄庆明
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-07-26
Anticipated expiration: 2041-02-26
Also published as: CN112967309A

Abstract

本发明公开了一种基于自监督学习的视频目标分割方法，所述方法包括以下步骤：步骤1，建立视频目标分割网络；步骤2，对视频目标分割网络进行训练，所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络，其中，所述记忆检索子网络用于学习视频帧的特征嵌入，执行逐像素对应关系并将目标掩膜传播到后续帧；所述协作优化子网络用于汇总参考帧和查询帧的信息，并学习参考帧与查询帧之间的协作关系，以优化传播的目标掩膜。本发明公开的基于自监督学习的视频目标分割方法显著提高了预测结果的精度，降低了噪声影响。

Description

一种基于自监督学习的视频目标分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及用于自监督视频目标分割的协作优化网络，尤其涉及一种基于自监督学习的视频目标分割方法。

背景技术

视频目标分割是计算机视觉中的一项基本任务，有许多重要的应用，例如：视频编辑、机器人技术和自动驾驶汽车等，其旨在从整个视频的背景中分割出感兴趣的目标。

现有技术中的大多数视频目标分割(VOS)方法都需要大量带有逐像素标注的视频序列，以构建健壮的模型。然而，收集如此大量的具有完整标注的视频序列既昂贵又费时。针对上述情况，研究人员提出了自我监督方法，尝试在训练阶段利用几乎无限的未标记视频数据来学习视频特征表示，尽管它们受到各种动机的驱动，但是这些方法在很大程度上都依赖于像素点之间的匹配关系。为了以自监督的方式学习特征表示，研究人员提出了两种辅助任务——视频着色和循环一致性跟踪。但是，由于视频的不连续性(例如遮挡、快速运动和运动模糊)，像素级匹配策略并不是最优的预测方法，经常会导致预测结果中产生大量噪声。

因此，有必要提供一种预测结果噪声小、准确性高的基于自监督学习的视频目标分割方法。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种基于自监督学习的视频目标分割方法，该方法采用记忆检索子网络基于像素级对应关系将mask传播到后续帧，采用协作优化子网络融合参考帧和查询帧信息，并学习参考帧与查询帧之间的协作关系以优化传播的mask；具体使用视频着色任务来训练记忆检索子网络，使用循环一致性区域跟踪来训练协作优化子网络，显著提高了预测结果的精度，降低了结果中的噪声，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供了一种基于自监督学习的视频目标分割方法，所述方法包括以下步骤：

步骤1，建立视频目标分割网络；

步骤2，对视频目标分割网络进行训练。

第二方面，提供了一种基于自监督学习的视频目标分割系统，优选用于实施第一方面所述的方法，所述系统包括记忆检索单元和协作优化单元，其中，

记忆检索单元，用于学习视频帧的特征嵌入，执行逐像素对应关系并将目标掩膜传播到后续帧；

协作优化单元，用于汇总参考帧和查询帧的信息，并学习参考帧与查询帧之间的协作关系，以优化传播的目标掩膜。

第三方面，提供了一种计算机可读存储介质，存储有基于自监督学习的视频目标分割程序，所述程序被处理器执行时，使得处理器执行第一方面所述基于自监督学习的视频目标分割方法的步骤。

第四方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有基于自监督学习的视频目标分割程序，所述程序被处理器执行时，使得处理器执行第一方面所述基于自监督学习的视频目标分割方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的基于自监督学习的视频目标分割方法，通过未标记的视频数以自监督的方式训练网络模型，无需任何人工注释，节约了成本；

(2)本发明提供的基于自监督学习的视频目标分割方法，在训练网络模型的过程中，采用视频着色和循环一致性跟踪作为辅助任务，显著提高了预测结果的精度，降低了噪声影响。

附图说明

图1示出根据本发明一种优选实施方式的基于自监督学习的视频目标分割网络的架构图；

图2示出根据本发明一种优选实施方式的解码子网络的结构示意图；

图3示出本发明实施例1中不同方法的视频分割效果对比图。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本发明提供了一种基于自监督学习的视频目标分割方法，所述方法包括以下步骤：

步骤1，建立视频目标分割网络；

步骤2，对视频目标分割网络进行训练。

以下进一步描述所述训练步骤：

步骤1，建立视频目标分割网络。

根据本发明一种优选的实施方式，如图1所示，所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络，

其中，所述记忆检索子网络用于学习视频帧的特征嵌入，执行逐像素对应关系并将目标掩膜(mask)传播到后续帧；

所述协作优化子网络用于汇总参考帧和查询帧的信息，并学习参考帧与查询帧之间的协作关系，以优化传播的目标掩膜。

在本发明中，根据视频在时间上的连贯性，目标或场景会随着时间的推移逐渐平滑且逐渐移动，可以根据目标的运动从较早的帧传播到后续帧。

本发明人研究发现，如果仅从最近的帧传播目标掩膜，则很容易导致跟踪器漂移，即随后的预测会变得不准确，因为视频中的外观会发生变化或被遮挡，因此，本发明中优选在记忆检索子网络中设置了外部记忆单元。

在进一步优选的实施方式中，所述记忆检索子网络包括特征提取网络和外部记忆单元，

其中，特征提取网络用于提取视频帧的特征，并将特征存储至外部记忆单元。

具体地，设定视频帧为I_t，特征提取网络将视频帧编码到特征子空间f_t＝φ(I_t)，其中φ(·)是特征嵌入网络。

将查询帧和参考帧分别定义为I_q,I_r，并将其对应的特征定义为f_q,f_r，令

和

分别表示f_r中的第i个像素和f_q中的第j个像素，则f_q和f_r之间的相似度矩阵如下式(一)所示：

其中，运算符“·”表示内积。

本发明人考虑到，由于视频帧在时间上是连贯的，在目标掩膜(mask)传播期间应考虑空间依赖性，设定参考帧R和查询帧Q，查询帧Q中位于位置loc(q)的像素q更可能在参考帧R中找到与之匹配的像素，因此，本发明中优选将上式(一)所示的相似度矩阵与空间相似度系数相乘来更新相似度矩阵，更新后的相似度矩阵如下式(二)所示：

其中，loc(i)表示第i个像素点的坐标，loc(j)表示第j个像素点的坐标，σ表示超参数。

在本发明中，由于在时域中距离较远的像素具有较弱的空间依赖性，因此优选设置一个超参数来控制空间依赖性的强度。

优选地，当参考帧和查询帧之间的帧间隔较长时(优选间隔大于5帧)，设置的超参数较大(优选σ＝21)；当参考帧和查询帧之间的帧间隔较接近时(优选间隔小于等于5帧)，设置的超参数较小(优选σ＝8)。

本发明人研究发现，从成对的视频帧(一个参考帧与一个查询帧为一对视频帧)中学习匹配关系的一个问题是不能有效地处理物体的消失和再现，例如，如果对象在一个帧I_t中被遮挡并在下一帧I_t+1中重新出现，则成对匹配将被视为失败，因为I_t+1中的对象不能在上一帧I_t中找到其对应项。因此，本发明中优选在记忆检索子网络中设置外部记忆单元，以缓存多个先前帧的特征嵌入和相应的预测蒙版。

但是，在所有先前帧上计算相似度矩阵是不可行的，因此，在更进一步优选的实施方式中，通过下述采样策略从外部记忆单元中采样少量帧：

(i)从先前的N帧中抽取T帧；

(ii)在T帧中，在查询帧之前对3个连续帧进行采样，以对局部依赖关系进行建模；

(iii)从外部记忆单元中其余的N-3帧中对其它T-3帧进行采样，以建模长期交互关系。

其中，(iii)中的采样为稀疏采样。

优选地，设定一个查询帧I_q和一个长度为N的外部记忆单元M来缓存计算结果，根据上述采样策略对M中的子集M_sub进行采样，则目标掩膜的传播按照下式进行：

其中，

表示查询帧在j位置传播得到的目标掩膜，

表示M_sub中的第t帧中的预测结果的mask中第k个像素，A^t表示查询帧与M_sub中的第t帧之间的相似性矩阵，

表示矩阵A^t的k行j列中的元素。

在本发明中，协作优化子网络用于汇总参考帧和查询帧的信息，并隐式地研究它们之间的协作关系。具体地，查询帧包括查询帧的特征及其来自记忆检索子网络的传播mask，尽管传播的mask可能包含一些错误匹配点，但它可以大致定位目标位置。因此，查询帧信息可以使网络知道在哪儿找到对象。由于给出了第一帧中目标对象的精确mask，可以将第一帧的特征及其对应的带标注的目标mask用作参考信息，而参考信息可以使网络知道要分割的目标是什么。因此，本发明中将查询帧和参考帧信息连接起来，进而通过协优化子网络获得最终优化的预测结果。

优选地，为了证明信息协作(参考帧信息与查询帧信息的协作)的有效性，可以采用常用的解码子网络来完成预测功能，例如，可以采用类似于UNet的简单解码子网络。

更优选地，采用的解码子网络包括四个优化模块(如图2所示)，其中，每个模块含有两个3×3的卷积层，第三个模块含有一个2×2的双线性上采样层。

其中，将Sigmoid函数应用于输出以生成mask，采用双线性插值运输将mask上采样至原始图像分辨率。

步骤2，对视频目标分割网络进行训练。

其中，步骤2包括训练记忆检索子网络和训练协作优化子网络。

优选地，以自监督的方式训练记忆检索子网络的特征提取网络，学习视频中的像素逐个对应关系以作为帧重建的结果。

更优选地，所述记忆检索子网络的训练包括以下步骤：

步骤2-1，对视频帧(查询帧和参考帧)进行预处理；

步骤2-2，获得查询帧与参考帧的相似度矩阵；

步骤2-3，重建参考帧。

其中，步骤2-1中，所述预处理包括将视频RGB帧转换为LAB颜色空间的步骤。

RGB是由红色通道(R)、绿色通道(G)和蓝色通道(B)组成的，最亮的红色+最亮的绿色+最亮的蓝色＝白色，最暗的红色+最暗的绿色+最暗的蓝色＝黑色，在最亮和最暗之间，相同明暗度的红色+相同明暗度的绿色+相同明暗度的蓝色＝灰色。在RGB的任意一个通道内，白和黑表示这个颜色的明暗度。

LAB中的明度通道(L)专门负责整张图的明暗度，简单的说就是整幅图的黑白版，A通道和B通道只负责颜色的多少。

在本发明中，视频RGB帧转换为LAB颜色空间的过程可以按照现有技术中常用的方法进行。

优选地，在LAB颜色空间中随机丢弃视频帧的一个颜色通道，所述随机丢弃的概率为0.4～0.6，优选为0.5。

本发明人研究发现，在LAB颜色空间中随机丢弃视频帧的一个颜色通道，能够防止模型在训练的过程中直接根据像素点的数值去重建查询帧。

步骤2-2中，设定查询帧中的每个像素都由一个或多个参考帧中的某些像素重构，给定查询帧I_q和参考帧I_r，获得相似度矩阵S，

优选地，所述相似度矩阵按照式(一)获得：

步骤2-3中，根据下式(三)重建参考帧：

根据本发明一种优选的实施方式，所述记忆检索子网络训练模型的损失函数为Huber损失，优选如下式所示：

其中，L_men表示记忆检索模块总损失函数，z_i表示第i个位置处计算的损失函数，

表示位置i处的参考帧，

表示位置i处的重建参考帧。

其中，当实际值和预测值之间的残差小于1时，损失函数为L2 loss，当实际值和预测值之间的残差大于1时，损失函数为L1 loss。本发明人研究发现，单纯使用L1 loss，其梯度始终很大，会使得模型很难收敛到最优，而L2 loss的梯度会随着其误差减小而减小，帮助模型收敛到最优，但是L2 loss对异常值非常敏感。因此，本发明中优选采用Huber损失函数，以结合L2 loss和L1 loss的优点。

在对记忆检索子网络进行训练之后，获得了编码器(即特征提取网络)的最优参数，以进行协作优化子网络的训练。

本发明人发现，训练协作优化子网络需要相应的参考帧和查询帧对应的标注作为监督信号，但是，由于没有人工标注，难以训练协作优化子网络。因此，为了解决上述问题，本发明中优选采用循环一致性区域跟踪作为代理任务，进行训练。

根据本发明一种优选的实施方式，所述协作优化子网络的训练按照包括以下步骤的方法进行：

步骤I，在视频帧序列中采样两个帧，在第一帧上初始化目标掩膜。

根据本发明一种优选的实施方式，所述目标掩膜的初始化包括以下步骤：

步骤i，在单个视频帧中寻找显著区域，产生视觉显著性；

步骤ii，获取连续视频帧的时间显著区域，产生运动显著性。

其中，步骤i中，为了产生视觉显著性，优选使用训练好的显著物体检测网络在单个视频帧中找到显著区域，所述显著物体检测网络是指Pyramid feature attentionnetwork for saliency detection。

步骤ii中，运动显著性的生成优选按照下述步骤进行：

首先，用flownet算法提取两个相邻视频帧之间的光流，并将光流图像标准化为[0，1]之间；

然后，将像素值大于阈值θ的区域视为运动显着掩膜。

其中，阈值θ的范围为0.4～0.6。

本发明人发现，与现有技术中随机选择视频帧的子区域进行初始化的方法不同，本发明所述的视觉显著生成和运动显著生成组合的初始化生成策略，可以从视频序列中捕获时空先验，显著提高性能。

步骤II，在上述两个帧上执行向前和向后跟踪，将最后预测的目标掩膜与初始化的目标掩膜之间的误差作为监督信号。

其中，将在视频帧采样的两个帧表示为I₁,I₂，在两个帧上执行向前和向后跟踪(I₁→I₂→I₁)。

在本发明中，所述基于自监督学习的视频目标分割网络，按照包括上述步骤的方法进行训练后，获得收敛的网络模型。

根据本发明一种优选的实施方式，在步骤2之后，还包括步骤3，对视频目标分割网络模型进行测试。

其中，将视频目标分割网络模型应用到实际视频任务中，以验证模型的有效性。

本发明所述的基于自监督学习的视频目标分割方法，采用记忆检索子网络执行点对点对应并生成查询帧的传播mask，利用协作优化子网络汇总参考帧和查询帧信息，并隐式学习它们之间的协作关系，以优化传播的目标掩膜。网络模型通过未标记的视频数以自监督的方式训练，无需任何人工注释。根据本发明的实施例，本发明所述方法在视频对象分割数据集DAVIS-2017和Youtube-Vos上的性能超越了最新的自我监督方法，并与完全监督的方法进一步缩小了差距。

本发明还提供了一种基于自监督学习的视频目标分割系统，优选用于实施上述方法，所述系统包括记忆检索单元和协作优化单元，其中，

记忆检索单元，用于学习视频帧的特征嵌入，执行逐像素对应关系并将目标掩膜(mask)传播到后续帧；

根据本发明一种优选的实施方式，所述记忆检索单元包括特征提取单元和外部记忆单元，

其中，特征提取单元用于提取视频帧的特征，并将特征存储至外部记忆单元。

本发明还提供了一种计算机可读存储介质，存储有基于自监督学习的视频目标分割程序，所述程序被处理器执行时，使得处理器执行所述基于自监督学习的视频目标分割方法的步骤。

本发明中所述的基于自监督学习的视频目标分割方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有基于自监督学习的视频目标分割程序，所述程序被处理器执行时，使得处理器执行所述基于自监督学习的视频目标分割方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据集

Youtube-VOS数据集，包含4,453个YouTube视频剪辑和94个对象类别，是迄今为止我们所知的最大视频对象分割数据集。整个数据集分为训练(3,471)，验证(474)和测试(508)组。由于数据集已用于竞赛(即第一次大规模视频对象分割挑战)，因此测试集仅在竞赛期间可用，而验证集将始终公开。因此，本发明仅使用验证集进行评估。在训练集中，有65个唯一对象类别被视为可见类别。在验证集中，有91个唯一对象类别，有65个类别是在训练集中出现过的，剩下的26类是没出现过的。没有出现的类别用于评估不同算法的泛化能力。本发明的算法在验证集上评估性能。

DAVIS-2017数据集，共包含150个视频，其中，验证集内包含30段视频。本发明在这30段视频上评估算法的性能。

2、性能评测准则

性能由两个指标衡量：区域相似度J和轮廓精确度F。

区域相似度定义为预测的掩膜M和实际的掩膜G之间的交并比。

轮廓精确度将掩膜Mask看成一系列闭合轮廓的集合，并计算预测的轮廓和实际的轮廓之间的F1得分。P_c和R_c分别表示精确率和召回率。

3、任务描述

使用Youtube-VOS和DAVIS-2017中训练集的原始视频数据来训练本发明所述的视频目标分割方法，其中，特征编码器在所有实验中均采用相同的修改后的ResNet-18，将四个残差层的步幅分别设置为[1,2,1,1]，网络产生具有原始图像空间分辨率1/4的特征嵌入。

具体地，首先视频着色任务中训练记忆检索子网络，使用一对视频帧作为输入，即一个参考帧和一个查询帧，在预处理期间，将输入大小调整为256×256×3，并以概率p＝0.5随机丢弃其中一个颜色通道；使用SGD(随机梯度下降)优化器，其动量为0.9，权重衰减为5e-4；初始学习率设置为1e-3，批处理大小设置为24；使用余弦学习率调整策略，并训练20个epoch。

在对记忆检索子网络预训练后，固定了编码器的参数，并通过循环一致性区域跟踪任务训练协作优化子网络，使用两种mask生成策略(视觉显著生成和运动显著生成)在参考帧上随机初始化mask；训练样本由2帧组成，间隔为4至16帧，其中第一帧用作参考帧，另一帧用作查询帧，所有帧都调整为256×256×3；使用批处理大小为24的SGD优化算法，学习率1e-3和余弦学习率调整策略来优化模型。

其中，使用记忆检索子网络来计算亲和度矩阵，然后，协作优化子网络通过结合参考帧和查询帧信息来优化预测结果，最终的调优的预测结果和查询特征被缓存在外部记忆单元中。在实施过程中，从外部记忆单元中采样了9个帧以进行mask传播，包括在查询帧之前连续建模3个帧以建模短期依赖性，并从其余帧中稀疏采样了6个帧以建模长期交互关系；对于前9帧，只对查询帧之前的3个连续帧进行采样；设置σ＝8以适配短期依赖关系，设置σ＝21建模长期交互关系。在有多个目标的情况下，协作优化子网络分别预测每个目标的结果，然后将它们的预测结果合并以形成最终结果。

4、结果与分析

在DAVIS-2017数据集和Youtube-VOS数据集上，本发明所述方法与现有方法的性能比对结果分别如表1和表2所示。

表1 DAVIS-2017数据集

表2 Youtube-VOS数据集

其中，Vid.Color所述方法具体如文献“Carl Vondrick,Abhinav Shrivastava,Alireza Fathi,Sergio Guadarrama,and Kevin Murphy.Tracking emerges bycolorizing videos.In Proceedings of the European conference on computervision(ECCV),pages 391–408,2018”中所述；

CycleTime所述方法具体如文献“Xiaolong Wang,Allan Jabri,and Alexei AEfros.Learning correspondence from the cycle-consistency of time.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 2566–2576,2019”中所述；

CorrFlow所述方法具体如文献“Z.Lai and W.Xie.Self-supervised learningfor video correspondence flow.In BMVC,2019”中所述；

UVC所述方法具体如文献“Xueting Li,Sifei Liu,Shalini De Mello,XiaolongWang,Jan Kautz,and Ming-Hsuan Yang.Joint-task self-supervised learning fortemporal correspondence.In Advances in Neural Information Processing Systems,pages 318–328,2019”中所述；

MAST所述方法具体如文献“Zihang Lai,Erika Lu,and Weidi Xie.Mast:Amemory-augmented self-supervised tracker.In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,pages 6479–6488,2020”中所述。

本发明所述方法与MAST方法的视频分割效果对比如图3所示。

由表1和表2可以看出，本发明所述方法的性能显著超越了最新的自我监督方法。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。

Claims

1.一种基于自监督学习的视频目标分割方法，其特征在于，所述方法包括以下步骤：

步骤1，建立视频目标分割网络；

所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络，

其中，所述记忆检索子网络用于学习视频帧的特征嵌入，执行逐像素对应关系并将目标掩膜传播到后续帧；

所述协作优化子网络用于汇总参考帧和查询帧的信息，并学习参考帧与查询帧之间的协作关系，以优化传播的目标掩膜；

步骤2，对视频目标分割网络进行训练；

步骤2包括训练记忆检索子网络和训练协作优化子网络；

所述记忆检索子网络的训练包括以下步骤：

步骤2-1，对视频帧进行预处理；

步骤2-2，获得查询帧与参考帧的相似度矩阵；

步骤2-3，重建参考帧；

所述协作优化子网络的训练按照包括以下步骤的方法进行：

步骤I，在视频帧序列中采样两个帧，在第一帧上初始化目标掩膜；

2.根据权利要求1所述的基于自监督学习的视频目标分割方法，其特征在于，

步骤2-1中，所述预处理包括将视频RGB帧转换为LAB颜色空间的步骤。

3.根据权利要求1所述的基于自监督学习的视频目标分割方法，其特征在于，所述目标掩膜的初始化包括以下步骤：

步骤i，在单个视频帧中寻找显著区域，产生视觉显著性；

4.一种基于自监督学习的视频目标分割系统，用于实施权利要求1所述的方法。

5.一种计算机可读存储介质，其特征在于，存储有基于自监督学习的视频目标分割程序，所述程序被处理器执行时，使得处理器执行权利要求1至3之一所述基于自监督学习的视频目标分割方法的步骤。

6.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有基于自监督学习的视频目标分割程序，所述程序被处理器执行时，使得处理器执行权利要求1至3之一所述基于自监督学习的视频目标分割方法的步骤。