CN113255493B

CN113255493B - 一种融合视觉词和自注意力机制的视频目标分割方法

Info

Publication number: CN113255493B
Application number: CN202110533314.8A
Authority: CN
Inventors: 陈亚当; 季传俊; 江结林
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2023-06-30
Anticipated expiration: 2041-05-17
Also published as: CN113255493A

Abstract

本发明公开了一种融合视觉词和自注意力机制的视频目标分割方法，属于计算机视觉技术领域。该方法包括如下步骤：首先利用固定数量的视觉词来表示感兴趣的目标，即使一个对象作为一个整体可能会受到遮挡，变形，视点变化或者从同一视频中消失并重新出现，但其某些局部部分的外观仍会保持一致，因此使用视觉词可以实现更鲁棒的匹配。然后，我们将自注意力机制用于视觉单词匹配生成的相似图，以捕获不同相似图之间的依赖关系。最后，为了解决目标对象的外观变化和视觉词不匹配问题，提出了在线更新和全局匹配机制进一步提高准确率。本发明在部分视频场景中分割精度超出同类算法，同时分割效率有明显的提升。

Description

一种融合视觉词和自注意力机制的视频目标分割方法

技术领域：

本发明涉及一种融合视觉词和自注意力机制的视频目标分割方法，属于计算机视觉技术领域。

背景技术:

视频目标分割是计算机视觉中的一项基本任务，在图像视觉内容分析与理解方面起着重要作用。视频目标分割可以更好地帮助理解视频，有助于完成交互式视频编辑、自动驾驶和机器人导航等任务。视频目标分割是指在视频帧序列中将前景对象与背景分离的过程。目前该领域内已有许多方法解决这种二元分割问题，这些方法可以分为无监督方法和监督方法。前者不需要人工介入，直接输入视频数据；后者则要求人为提供额外的标签数据来进行初始化。

目前大多数高精度的方法都依赖在线微调深度神经网络来学习目标物体的外观。虽然它们的预测精度很高，但由于在线学习过程需要花费大量额外时间，使得这些方法速度通常较慢，这在很大程度上限制了它们在实际场景中的应用。为了解决上述依赖在线微调的方法的问题，最近的研究集中在设计无需微调的网络模型，旨在避免在线学习并获得更快的运行速度。基于掩码传播的方法主要依赖于前一帧的预测结果来推断当前帧，这些方法虽然简单，快速，但是无法处理在传播过程中受到遮挡、形变和快速运动的目标，并且可能会出现误差累积。另外一种方法采用基于匹配的网络模型来解决分割任务，该方法通过在学习的度量空间中将第一帧特征与后续每一帧特征之间进行像素级匹配来预测分割结果。这些方法需要大量数据来训练网络，故而它们通常依赖大型图像数据集进行复杂的预训练，这也限制它的实用性。这些方法各自的优缺点显而易见。具体来说，基于在线学习的方法以牺牲速度为代价来获得准确的预测，需要几秒钟来分割每帧。相反，简单的基于匹配或传播的方法速度更快，但分割精度欠佳。综上所述，现有的大多数方法无法同时满足视频目标分割任务的精度和速度，这对实际应用是必不可少的。因此，仍然需要更有效的方法来达到更好的速度与精度权衡。

发明内容：

针对视频中往往会出现目标形状不规则、帧间运动存在干扰信息和运动速度过快等情况，本发明提出了一种融合视觉词和自注意力机制的视频目标分割方法。首先利用固定数量的视觉词来表示感兴趣的目标，即使一个对象作为一个整体可能会受到遮挡，变形，视点变化或者从同一视频中消失并重新出现，但其某些局部部分的外观仍会保持一致，因此使用视觉词可以实现更鲁棒的匹配。然后，我们将自注意力机制用于视觉单词匹配生成的相似图，以捕获不同相似图之间的依赖关系。最后，为了解决目标对象的外观变化和视觉词不匹配问题，提出了在线更新和全局匹配机制进一步提高准确率。本发明在部分视频场景中分割精度超出同类算法，同时分割效率有明显的提升。

本发明为解决其技术问题采用如下技术方案：

一种融合视觉词和自注意力机制的视频目标分割方法包括以下步骤：

步骤1：采用基于ResNet-101的DeepLabV3+的深度卷积神经网络作为编码器，将视频第一帧图像输入编码器中，提取分辨率为原图像1/8的特征；

步骤2：将步骤1提取的特征输入到嵌入空间中获得嵌入特征，使用双线性插值对嵌入特征进行上采样，恢复中至原始图像大小；

步骤3：利用参考帧标注的掩膜信息，通过聚类算法对步骤2嵌入空间中像素进行聚类分簇形成视觉词；

步骤4：将所要分割的视频帧图像进行步骤1的操作提取特征，随后对提取的特征进行步骤2操作，获得所要分割的视频帧图像的嵌入特征；

步骤5：结合步骤3形成的视觉词，通过单词匹配操作以固定数量的视觉词来表示步骤4中提取的嵌入特征，生成前背景相似图；

步骤6：对步骤5的前背景相似图应用自注意力机制，获得前背景特征图；

步骤7：对步骤6的前背景特征图取通道方向的最大值作为预测分割掩膜；

步骤8：采用在线更新和全局匹配机制对外观变化和视觉词不匹配问题进行处理。

所述嵌入空间由128维3x3卷积层构成。

步骤6所述自注意力机制包括空间注意力和通道注意力。

本发明的有益效果如下：

本发明融合视觉词和自注意力机制进行视频对象分割。由于视频中的对象作为一个整体可能会受到遮挡、变形、视点变化或者同一视频中消失并重新出现，但其某些局部部分的外观仍会保持一致，因此使用视觉词可以实现更鲁棒的匹配。针对目标对象在运动过程中的外观变化和视觉词失配问题，采用在线更新机制和全局匹配机制可以进一步提高准确率。在没有耗时的微调、光流或预处理/后处理的情况下，获得了与基于在线学习的方法相当的精度，但速度却快了几个量级。

附图说明

图1为本发明实施例提供的一种融合视觉词和自注意力机制的视频目标分割技术的框架图。

图2为本发明实施例提供的自注意力机制架构图。

图3为本发明实施例提供的空间注意力示意图。

图4为本发明实施例提供的通道注意力示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明实施例提供一种融合视觉词和自注意力机制的视频目标分割方法，该方法能够基于视频首帧中的目标的像素标注对目标进行连续的跟踪和像素级分割，可以应用于视频编辑、自动驾驶和机器人导航等各种交互场景。在实施上，可以以软件的方式安装于电脑、手机等各种具备并行计算的智能终端，提供对指定目标的实时跟踪分割。

如图1所示，为该方法的整体框架，主要包括如下处理过程：

将参考帧图像输入编码器中进行特征提取，提取分辨率为原图像1/8的特征。

随后将提取的特征输进由128维3x3卷积层构成的嵌入空间中，提取嵌入特征。

为了提高效率，使用双线性插值将嵌入特征图像上采样到原始图像大小。通过训练，使得嵌入空间中来自同一目标的像素彼此靠近，而来自不同目标的像素彼此远离。

利用参考帧标注的掩膜信息，通过聚类算法对特征图f_ω(x)进行聚类分簇，从而为每个对象构建视觉词，考虑到算法的效率和复杂性，故采用k均值聚类算法。

令C_K为参考帧中类别为c的像素的集合，每个集合C_K划分为K个簇C₁，....，C_K。换句话说，我们用一组视觉字典M_c＝{μ¹，...，μ^k}表示嵌入空间中每个像素集合C_K中的分布。其计算方式为：

其中，x_i表示参考帧中的第i个像素，f_ω(x_i)表示像素x_i的嵌入特征，K表示聚类生成的单词数量，μ^k表示簇的质心，即视觉词。

将目标帧图像输入编码器f(ω)中进行特征提取，提取分辨率为原图像1/8的特征。

将提取的特征输进由128维3x3卷积层构成的嵌入空间中，提取嵌入特征f_ω(x)。

通过单词匹配操作以固定数量的视觉词来表示目标帧的嵌入特征f_ω(x)。

对于单词匹配操作，一旦为每个对象构造好视觉词后，就可以使用非参数softmax分类器计算将像素x_i分配给来自第c个对象类别的第k个视觉单词的概率。

最后，计算预测帧上所有像素分配给每个视觉词的概率，从而形成具有K个通道的相似图。单词分配概率的计算公式为

其中，cos()表示余弦函数，exp()表示以e为底的指数函数，M表示视频中出现的所有对象的视觉字典。

自注意力是一种有效的计算机视觉技术，它具有捕获全局依赖的能力。它被广泛用在大多数最新的语义分割方法中，由于VOS(视频目标分割)中的相似度图在语义分割中起到高级特征的作用，因此我们对视觉词匹配生成的相似度图使用了自注意力。

如图2所示，本发明提出的自注意力机制主要由空间注意力和通道注意力组成。

空间注意力操作如图3所示，首先对特征图A进行重塑形和转置得到B，尺寸变为N×C，其中N的大小为H×W。

然后将B和C相乘，再通过softmax函数得到S，此时S的尺寸为N×N。将A进行尺寸变化得到D，这是D的尺寸为C×N。

之后与S进行矩阵乘法得到空间注意图E，再乘以系数α，之后将维度变换为C×H×W。其中α的初始化为0，并在训练过程中不断学习。

最后，E与A相加得到F，F即为空间注意力模块的输出。

通道注意力操作如图4所示，首先对特征图A分别进行重塑形、重塑形、重塑形和转置，得到B、C和D，其中B和C的尺寸为C×N，D的尺寸为N×C的特征图。

然后在C和D之间进行乘法并且通过softmax得到X，X的大小为C×C。

将B与X相乘得到通道注意图E，再将其与系数β相乘后，重塑形为C×H×W，其中β初始化为0，并通过训练学习。

最后E与A相加得到F，F为通道注意力模块的输出。

将通过自注意力机制得到的结果取通道方向的最大值作为预测分割掩膜。

由于来自视频第一帧的目标对象以及背景经常经历变形、遮挡和视点变化等情况，因此，为了获得良好的性能，在整个推理过程中调整网络模型对于获得良好的性能至关重要。在本工作中，我们提出一种在线更新机制来调整我们的网络模型。具体而言，我们通过更新用于表示目标对象的视觉词来优化我们的模型。给定一个由视频第t_j帧生成的视觉字典M_j，由此我们预测了第t_j+δ帧的掩膜，此时我们将第t_j+δ帧图像作为新的支持集，将其输入网络模型中计算出该帧的嵌入特征。

接着，以第t_j+δ帧的预测掩膜为指导，由上述公式计算新的视觉词

由于视频中的目标对象可能恢复到初始状态，因此视觉字典/>

中的所有现有单词都不会被丢弃而是添加新词μ_t+δ。并且我们假设在适当的时间间隔δ内，视频中的目标对象变化缓慢，像素级嵌入也不会变化很大，故仅添加与现有单词相似的新单词。

此外，为了确保在线更新机制中用来更新视觉词的预测掩膜可靠，我们对预测掩膜应用了一个简单的异常值去除过程。具体而言，给定一个具有相同预测标注的区域，只有当该预测区域与前一帧中预测的对象掩膜相交时才接受该预测。如果没有交集，则放弃该预测掩膜并根据先前的结果直接对其进行预测。

本发明实施例中，图1所示的整个框架需要预先进行训练，训练阶段与测试阶段的预测方式相同，由于在线更新机制与训练无关，所以无需训练过程中模拟。

训练阶段，对于训练集，可以采用公开的数据集，如DAVIS 2016、DAVIS 2017以及YouTube-VOS。

学习视觉词是一项具有挑战性的任务，因为没有任何关于它们对应的物体部分的真实信息，故这里使用一种元学习方法进行训练，以针对不同的视频生成不同的视觉词。在视频目标分割任务中，分割网络从视频参考帧(支持集)中对象标注掩膜中学习，进而分割和跟踪视频其余帧(查询集)中的同一对象。在本方法中，为了使训练得到的分割网络能够更好的适应新的任务，从元训练集中采样生成各种训练任务，每个训练任务都由支持集和查询集构成。通过在这些任务上训练学习，元训练的训练目标为：

其中，ω^*表示处理特定任务的网络模型参数，ω表示处理各种任务的网络模型参数，T_n表示第n个训练任务，p(T)表示元训练数据集，

表示训练任务T_n的模型损失。

对于训练阶段的参数设置，使用50个视觉词来表示前景。

背景通常包含更多的变化，故使用4倍于前景的视觉词来表示，即200个视觉词。

对于在线更新机制，假设视频中的目标缓慢变化，所以每5帧更新一次视觉字典。

使用交叉熵损失函数，采用Adam优化器，设置动量β₁＝0.9、β₂＝0.999。

使用已在COCO(上下文中的常见对象)数据集上训练的公共Deeplab-v2模型初始化网络的编码器，并将编码器的权重固定，使其不参与训练。

随后，根据元训练的方法对网络模型进行训练，即首先在训练数据集中随机抽取一个视频，将视频第一帧的像素视为支持集，然后从视频其余帧中随机选择3帧作为查询集，以此来构建整个训练过程。

基于本实施例上述方案，在单目标分割公开数据集DAVIS 2016上测试，视频目标分割结果的性能达到：Jaccard(杰卡德系数)平均区域相似度为82.5％，F-measure(精度和召回加权调和平均)平均边界准确度为83.8％，在一块NVIDIA GeForce RTX 2080Ti显卡上处理速度达到6.8帧/秒。在对目标分割公开数据集DAVIS 2017上测试，性能达到：综合准确度为72.3％，在一块NVIDIA GeForce RTX2080Ti显卡上处理速度仍为6.8帧/秒，这是因为本发明的方法可以通过一次推理分割出多个目标，而其它方法只能单个目标分割，最后再拼起来，故目标越多，分割速度越慢。可见，无论是分割性能还是处理速度都较于现有技术有了较大的提升。

Claims

1.一种融合视觉词和自注意力机制的视频目标分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合视觉词和自注意力机制的视频目标分割方法，其特征在于，步骤2所述嵌入空间由128维3x3卷积层构成。

3.根据权利要求1所述的一种融合视觉词和自注意力机制的视频目标分割方法，其特征在于，步骤6所述自注意力机制包括空间注意力和通道注意力。