CN114882076A

CN114882076A - 一种基于大数据记忆存储的轻量型视频对象分割方法

Info

Publication number: CN114882076A
Application number: CN202210808471.XA
Authority: CN
Inventors: 张勇; 徐珂; 王昊冉; 何华; 戴超凡; 杨欣琼
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-08-09
Anticipated expiration: 2042-07-11
Also published as: CN114882076B

Abstract

本发明公开了一种基于大数据记忆存储的轻量型视频对象分割方法，所述方法将视频首帧的图像和真实标签作为记忆编码器的输入，编码得到键

和值

映射对，并对初始化记忆库；将查询帧的图像作为查询编码器的输入，编码得到键

和值

映射对，将所述键

和值

映射对通过核记忆搜索器，对记忆库进行搜索；将核记忆搜索的输出与查询帧的值拼接作为解码器的输入，并为查询帧重建掩码；将查询帧的图像和所述掩码输入变化感知器以计算帧间的差异，自适应地激活对变化帧的记忆库更新。本方法能使网络模型轻量化，并通过局部匹配来缓解相似目标对象的干扰，从而实现高精度、高速度的视频对象分割。

Description

一种基于大数据记忆存储的轻量型视频对象分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于大数据记忆存储的轻量型视频对象分割方法。

背景技术

视频对象分割是计算机视觉中的一项基本任务，在图像视觉内容分析与理解方面起着重要作用。视频对象分割可以更好地帮助理解视频，有助于完成交互式视频编辑、自动驾驶和机器人导航等任务。视频对象分割是指在视频帧序列中将前景对象与背景分离的过程。目前该领域内已有许多方法解决这种二元分割问题，这些方法可以分为无监督方法和监督方法。前者不需要人工介入，直接输入视频数据；后者则要求人为提供视频首帧的标签数据来进行初始化。虽然人为提供了额外的目标信息，但由于目标物体运动过程中可能出现失真、遮挡和相似物体的干扰，仍然具有挑战性。本发明专利属于半监督视频对象分割技术。

早期的一些方法大都依赖对人为提供的数据进行各种数据增强策略，并利用这些生成的数据在线微调深度神经网络模型来学习目标物体的外观。尽管这些方法具有较高的预测精度和对遮挡的鲁棒性，但在线微调过程需要巨大的时间开销和计算成本，故而其推理过程缓慢，这在很大程度上限制了它们在实际场景中的应用。

最近的方法使用基于匹配的模型来解决上述限制，其基本思想是通过在当前帧和过去帧之间进行全局匹配来获得其目标对象的关联性。它们中的大多数只使用第一帧和前一帧，或统一采样的关键帧。基于时空记忆的方法使用保存在内存中的过去帧和相应的分割结果来指导当前帧的目标掩码预测，这可以有效的处理物体遮挡和漂移。然而，目前这类方法有两个问题：

（1）它们定期对过去的帧进行采样并将其添加到内存中。当视频帧的数量增加时，不加区分的采样可能会错过一些关键帧；也就是说，包含增量物体信息的动态帧会得到较少的关注，或者没有物体变化的静态帧会被反复添加到内存中，导致内存冗余。

（2）视频中要分割的目标对象通常只在场景中的某个地方出现。然而，这些方法使用全局对全局的匹配，即在没有目标对象的区域记忆和匹配特征，这会导致相似物体的误匹配和高计算复杂性。

发明内容

本发明为了解决上述问题，提出了一种基于大数据记忆存储的轻量型视频对象分割方法，所述视频对象分割方法可以缓解相似目标对象的干扰问题，从而实现高精度、高速度的视频对象分割。

本发明公开的一种基于大数据记忆存储的轻量型视频对象分割方法，具体包括：

给定一个带有第一帧注释掩码的测试视频，该视频后序帧中的目标对象的分割过程如下：

将视频首帧的图像和真实标签通过记忆编码器得到键

和值

映射对，所述键

和值

映射对用来初始化记忆库，查询帧的图像通过查询编码器得到键

和值

映射对；

将所述键

和值

映射对通过核记忆搜索器，对记忆库进行搜索，首先，计算查询帧和记忆帧之间的相似度，得到最匹配的查询位置，其次，以所述最匹配的查询位置为中心计算二维高斯核，最后，使用所述二维高斯核，在局部检索所述记忆库中的值，将检索结果作为核记忆搜索器的输出；

将所述核记忆搜索器的输出与查询帧的值拼接作为解码器的输入，并为查询帧重建掩码，得到预测掩码；

将查询帧的图像和所述预测掩码输入变化感知器以计算帧间的差异，自适应地激活对变化帧的记忆库更新，并忽略静态帧。

进一步的，本发明中的所述变化感知器为：

给定帧图像与对象掩码，分别计算图像中每个像素

的变化

和对象掩码的变化

，并更新整体运行变化度

：

当

超过阈值，激活记忆库更新。

进一步的，所述忽略静态帧具体为：

对于一个新像素特征，若与记忆库中的像素特征的相似度超过设定的阈值，则不被添加到内存中，否则，则作为一个新的特征添加到所述记忆库中。

进一步的，本发明通过LFU索引来确定很少使用的旧特性，具体为：

在每次用查询帧的键

和值

对记忆库进行搜索时，如果相似度大于预设阈值时，则增加记忆库中相应特征的使用次数，且当检测到内存大小超过预算时，移除最低LFU索引的像素特征，直到内存大小低于预算。

本发明中使用二维高斯核，在局部检索所述记忆库中的值，具体为：

其中，d为键的通道数，

是一个比例系数，i和j分别表示查询帧和记忆库中的像素特征索引，

为记忆库中像素j的值，

为

和

的特征相似度，

，

表示矩阵内积操作，

为记忆库中像素j的键，

为查询帧中像素i的键，

为二维高斯核

中元素，其计算方式为：

与

分别表示像素i的坐标位置，

表示标准差，

表示以

为底的指数函数，

为最匹配的查询位置，

。

本发明中所述查询编码器和记忆编码器都是用resnet-50作为骨干网络。

本发明通过局部匹配以缓解相似目标对象的干扰问题，从而实现高精度、高速度的视频对象分割，同时，在保留有益于目标对象分割的信息，降低记忆存储的数据冗余，使网络模型轻量化。本发明在DAVIS 2016验证集上，Jaccard（杰卡德系数）平均区域相似度为91.6%，F-measure（精度和召回加权调和平均）平均边界准确度为90.0%，在一块NVIDIAGeForce RTX 2080Ti显卡上处理速度达到25帧/秒，接近了实时分割的速度。在场景更为复杂的DAVIS 2017数据集上测试，Jaccard（杰卡德系数）平均区域相似度为80.4%，F-measure（精度和召回加权调和平均）平均边界准确度为85.6%。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为一种基于大数据记忆存储的轻量型视频对象分割方法的框架图。

图2为核记忆搜索器的示意图。

图3为实验结果图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

本发明实施例提供一种基于大数据记忆存储的轻量型视频对象分割方法，该方法能够基于视频第一帧中目标对象的像素标注对目标进行连续的跟踪和像素级分割，可以应用于视频编辑、自动驾驶和机器人导航等各种交互场景。在实施上，可以以软件的方式安装于电脑、手机等各种具备并行计算的智能终端，提供对指定目标的实时跟踪分割。

如图1为视频对象分割方法的框架图，主要包括如下处理过程：

一、给定一个带有第一帧注释掩码的测试视频，将视频首帧的图像和真实标签通过记忆编码器得到键

和值

映射对，所述键

和值

和值

映射对。

记忆编码器将RGB图像与对象掩码一起作为输入，其中对象掩码表示为0～1的单通道概率图，查询编码器的输入仅为RGB图像。查询编码器和记忆编码器都是用resnet-50作为骨干网络。取4通道张量，将记忆编码器中第一个卷积层的输入通道数改为4，查询编码器中的第一个卷积层与ResNet50一样保持不变。记忆编码器和查询编码器的输出键和值特征由两个平行的卷积层嵌入，卷积层输出相对于输入图像的1/16分辨率特征。

将视频第一帧的RGB图像和真实标签作为记忆编码器的输入，编码成键

和值

映射对并初始化记忆库

，为每个目标对象建立独立的记忆库。其中，键

用于寻址，值

存储生成掩码估计的详细信息，确定每个特征是属于前景还是背景的掩码信息。

将查询帧的图像作为查询编码器的输入，编码成键

和值

映射对，其中，键

用于寻址，值

用于存储详细的外观信息，以便准确地解码对象掩码。

二、将所述键

和值

映射对通过核记忆搜索器，对记忆库进行搜索。将查询帧的键

和值

通过核记忆搜索器操作对记忆库进行搜索，使用二维高斯核来缓解视频中相似对象的误匹配，如图2所示。具体地说，计算查询的关键特征和记忆帧之间的相似度，以确定何时何地检索相关的记忆值，查询关键特征图上的每个像素与记忆帧紧密匹配，然后使用相对匹配分数来寻址记忆帧的值特征映射，并将相应的值组合起来返回输出。

计算查询帧的关键特征和记忆帧之间的相似度，得到最匹配的查询位置，计算像素

和

的特征相似度：

其中，

表示矩阵内积操作，i和j分别表示查询帧和记忆库中的像素特征索引，

为记忆库中像素j的键，

为查询帧像素i的键。

那么最为匹配的查询位置

为

以最匹配的查询位置

为中心计算二维高斯核

，其计算方式为：

其中，

与

分别表示像素i的坐标位置，

表示标准差，

表示以

为底的指数函数。

使用二维高斯核，在局部检索所述记忆库中

的值，将检索结果作为核记忆搜索器的输出，计算方式为：

其中，d为键的通道数，

是一个比例系数，以防止softmax中的参数振幅变大，

为记忆库中像素j的值。

三、将所述核记忆搜索器的输出与查询帧的值拼接作为解码器的输入，并为查询帧重建掩码，得到预测掩码。

四、将查询帧的图像和所述预测掩码输入变化感知器以计算帧间的差异，自适应地激活对变化帧的记忆库更新，并忽略静态帧。

由于来自视频第一帧的目标对象以及背景经常经历变形、遮挡和视点变化等情况，因此，为了获得良好的性能，在整个推理过程中调整网络模型对于获得良好的性能至关重要。

此处，引入一个变化感知器，用于逐帧评估视频的帧间变化。具体而言，给定帧图像与对象掩码

和

，分别计算图像的变化

和对象掩码的变化

，其计算方式为：

对于每个像素

，更新整体运行变化度

如下：

当累积的

超过阈值，记忆库更新就会被激活以减少时空冗余。

此外，由于更新操作会将高度相似的特征添加到记忆库中，这会带来巨大的存储和计算开销，因此，本发明引入了一种更为高效的方式来实现记忆库更新。

当给出一个新的像素特征时，如果它与记忆库中的像素特征有很高的相似度，它就会被忽略，即不被添加到内存中。如果内存中的相似度较低的特征，它就被作为一个新的特征添加到库中。这可以有效地压缩多余的信息，有助于提高记忆效率。

为每个新特征

和

，计算余弦相似度：

其中，i和j分别表示查询帧和记忆库中的像素特征索引，

表示矩阵内积操作。

对于每个新特征

，从

中选择最为相似的特征

，计算它们的相似度：

当

足够大且超过某个阈值，那么意味着这两个特征高度相似，故而舍弃该特征，即不将该特征添加到记忆库

中。若低于阈值，则添加到记忆库

中。

虽然上述的记忆库的更新策略可以有效地缓解存储压力，但记忆库的大小会随着视频帧数的增加而不断扩大。因此，本发明通过使用最低使用频率LFU索引来确定很少使用的旧特性，然后删除它们。

当每次用查询帧的键

和值

对记忆库进行搜索时，如果相似度函数

大于

时，则增加使用该特征的次数。当内存大小超过预算时，则移除最低LFU索引的像素特征，直到内存大小低于预算。计算LFU指数和特征去除的过程是非常高效的，可以使本专利的网络模型处理任何长度的视频。

本发明实施例中，图1所示的整个框架需要预先进行训练，训练阶段与测试阶段的预测方式相同，实验结果如图3所示，具体细节如下：

采用图像数据集进行预训练：在视频数据集不足的情况下，为保证本发明专利中网络模型的泛化能力，可从图像数据集生成模拟训练视频。具体来说，对同一图像进行数据增强操作，如：随机仿射、颜色变换、翻转、调整大小和裁剪等，以组成一个视频序列，每个视频序列有一个第一帧和五个后序帧。然后使用第一帧初始化记忆库，其余5帧形成一个小的训练批次。

经过预训练，使用公开的视频对象分割数据集（DAVIS 2016、DAVIS 2017、YouTubeVOS）对网络模型进行20000次微调。

用ImageNet预训练的ResNet-50的参数初始化网络模型，使用交叉熵损失函数，采用adam优化器，默认设置动量

，

。

网络模型首先以

的学习率迭代训练59k，此时骨干网络的参数固定，不参与训练。之后以完整的网络，包括骨干网络，以

的学习率在全分辨率下迭代训练50k，最后以

的学习率进行另一轮训练，迭代20k次。

基于本实施例上述方案，在单目标分割公开数据集DAVIS 2016上测试，视频目标分割结果的性能达到：Jaccard（杰卡德系数）平均区域相似度为91.6%，F-measure（精度和召回加权调和平均）平均边界准确度为90.0%，在一块NVIDIA GeForce RTX 2080Ti显卡上处理速度达到25帧/秒，接近了实时分割的速度。在场景更为复杂的DAVIS 2017数据集上测试，Jaccard（杰卡德系数）平均区域相似度为80.4%，F-measure（精度和召回加权调和平均）平均边界准确度为85.6%。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。