CN113298036A

CN113298036A - 一种无监督视频目标分割的方法

Info

Publication number: CN113298036A
Application number: CN202110674441.XA
Authority: CN
Inventors: 祝文君; 孟濬; 许力
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-24
Anticipated expiration: 2041-06-17
Also published as: CN113298036B

Abstract

本发明公开了一种无监督视频目标分割的方法，具体为，首先进行视频数据预处理并进行图像对初始化，然后进行特征提取、遮挡引导的特征匹配、关键部分增强以及通道位置增强操作，最后进行定位操作和反向跟踪，通过计算损失函数并训练得到最后训练模型，使用最后训练模型进行在线视频目标分割。本发明提出一种无监督视频目标分割的方法，对于给定的任意一个视频，在仅知道第一帧给定的目标掩模，没有其他任何信息的条件下能够对目标进行持续的分割，并在后续视频序列中保持分割目标，并且提高了视频目标分割的鲁棒性和准确性。

Description

一种无监督视频目标分割的方法

技术领域

本发明涉及视频目标分割领域，尤其涉及一种无监督视频目标分割的方法。

背景技术

视频目标分割是计算机视觉中的一项基本任务，应用主要包括人机交互、自动驾驶、增强现实和视频内容理解等。它的目的是在视频的初始帧中给定一个我们关注的运动对象的掩模，在视频的序列中定位这个运动对象并分割出来。视频目标分割是一项集检测、跟踪、光流和人员再识别于一体的计算机视觉任务。随着深度学习方法的进步，大量基于CNN的网络被提出来解决这个问题，视频对象分割也有了显著的进展。尽管取得了最先进的结果，但大部分改进的性能是通过完全监督学习实现的，其目标是学习非线性映射函数，将原始图像转换为嵌入空间，并提取用于表达对象的像素。监督学习提供了更丰富的信息，但相对于其他视觉任务，像素级标注的成本是相对困难和昂贵的，并且和人类的视觉-大脑的学习过程有着明显的差异。另一方面，视频目标分割不同于其他识别任务(例如，目标检测，图像分类)，在这个意义上，目标在后续视频的变化是根据第一帧上的初始的目标而变化。而完全监督得学习的效果严重依赖训练标记样本的好坏，这种不确定性引发了我们对完全监督学习的思考，我们想开发一种替代完全监督学习的模型，即利用大量的未标记视频来进行学习。

发明内容

本发明目的在于针对现有技术的不足，提出一种无监督视频目标分割的方法。

本发明的目的是通过以下技术方案来实现的：一种无监督视频目标分割的方法，该方法具体步骤如下：

(1)视频数据预处理

将获取的视频序列划分为若干个子序列；对于每一个子序列，用相同比例缩放每一帧，然后裁剪一个宽度和高度均为L的区域作为搜索图像序列，并将搜索图像区域的中心作为受限区域，将搜索图像区域中除受限区域外的剩余区域作为边缘区域，从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l的区域作为初始模板图像块。

(2)图像对初始化

将初始模板图像块作为模板图像块，将搜索图像的第二帧作为搜索图像，模板图像块和搜索图像结合组成图像对。

(3)特征提取

使用神经网络对步骤(2)中的图像对进行特征提取，步骤(2)中的图像对通过提取特征后得到的特征图表示为：(f^x，f^p)，f^p为模板图像块，f^x为搜索图像。

(4)遮挡引导的特征匹配

对于步骤(3)中的得到的特征图(f^x，f^p)，从模板图像块f^p找到最具代表能力的部分

用宽和高度为1/21的掩模制造遮挡，用滑动窗口的方法从模板特征图的左上角滑动到右下角，在滑动的过程中，被掩模遮挡的区域称为被遮挡的候选区域

被遮挡的模板图像块称为被遮挡的候选特征图

候选特征图

和被遮挡的候选区域

一一对应。根据相似度评分较低的情况选择关键部分：

式中，*表示相关操作，n表示被遮挡候选特征图的个数，S＝[S₁，S₂，…，S_n]是一个相似图的映射向量，表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示，生成n个的相似度得分。第n个相似度得分计算方法为：

式中，H和W分别为相似图S的高和宽，h_s和w_s分别为相似图的最右位置坐标和最下位置坐标，i，j是遍历的位置标号。当被遮挡的候选特征图

和受限区域特征图

相似性度量匹配得分最低时所对应的候选区域即为最具代表能力的部分

(5)关键部分增强

计算像素级匹配作为关键部分增强，对于每一个步骤(4)中得到的

与f^p计算内积并进行归一化增强f^p的关键部分，计算过程如下：

然后利用匹配的置信度图作为权重与

乘积得到空间增强的特征

Relu作为激活函数，α作为超参数：

(6)通道位置增强

该步骤包括模板分支的增强和搜索分支的增强，两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算；并将计算的自通道注意力流的特征和互通道注意力流的特征组合在一起得到新的特征图

(7)定位模块

增强后的特征特征

和

通过矩阵乘法得到匹配矩阵A^PX。然后将计算得到的匹配矩阵利用CNN网络回归几何变换参数μ。以参数μ和增强后的特征特征

为输入，由网格生成器和采样机构结合生成最终的图像块；

(8)将新生成的图像块替换模板图像块，与搜索图像序列的下一帧组成图像对，重复执行步骤(3)～(7)，直到执行到搜素图像序列的第N帧。

(9)将搜索图像序列的顺序反转，第N帧变为第一帧，第一帧变为第N帧，重复执行步骤(3)～(7)，直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。

(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数；网络最终的损失函数L_total是初始模板图像块和预测的模板图像块之间的对齐误差损失L_stc和初始模板图像块和预测的模板图像块之间的匹配程度损失L_smc的叠加和，ξ是超参数，用于调节损失比例；

L_total＝ξL_stc-L_smc·

(11)以目标函数为监督进行深度学习训练，通过在公开的数据集上进行训练，并设置训练代数，在训练好的模型中选择更准的精度和更高的鲁棒性得到最后训练模型。

(12)用步骤(11)获得的最后训练模型进行视频目标在线分割，具体过程为如下：

A.对于每一个测试视频序列，在第一帧图像F₁中给定图像前景对象的掩码M₁，以基于每帧匹配的掩码传播方式进行分割。具体来说，假设在第一帧的注释中总共有L个目标对象，图像上每一个空间位置p都会关联一个one-hot类别向量

每个位置的向量

代表位置p属于1个目标对象的概率，概率越大，属于第1个目标的概率越大。

B.从第二帧开始，使用上一帧的分割结果M_t-1和当前帧的图像F_t组成输入对作为最后训练模型的输入，然后在特征空间中计算相似性矩阵A_t-1，t＝softmax(F_t-1 ^T·F_t)，对于每一个位置p_t，计算了L个目标类别的概率值：

对于每一个位置q的类别，使用

来确定。

C.保存当前时间帧图像的分割结果为M_t-1，并与下一帧的图像F_t组成输入对，重复步骤B的结果，直到测试视频序列的最后一帧。

进一步地，步骤(1)中，给定输入视频序列X包含有I个连续视频帧{x₁，…，x_I}，在相邻帧{x_i，…，x_i+N}上使用滑动缓冲区顺序处理每一帧，N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K，一个完整的视频序列可以被分为{X_1，…，X_m}个子序列。

进一步地，步骤(1)中，在搜索图像序列中，将图像分为两部分，第一部分是位于搜索图像区域的中心的受限区域，宽度和高度均为2/3L，第二部分是边缘区域，是搜索图像区域中除受限区域外的剩余区域。

进一步地，步骤(3)中，神经网络采用参数共享的ResNet-50结构作为提取特征的骨架，修改第四层和第五层的步长，原始步长为2修改为1，使第四层和第五层输出的feature大小保持一致。

进一步地，步骤(6)中，模板分支自通道注意力流计算过程为：首先对特征

扁平化和重塑以生成新的特征图，然后将

和转置矩阵

进行矩阵乘法和归一化处理得到自通道注意力图A^psc：

然后使用特征

和自通道注意力图A^psc再次执行矩阵乘法，将得到的结果增强到特征

上：

进一步地，步骤(6)中，模板分支互通道注意力流计算过程为：由于搜索分支的计算过程和模板分支的自通道注意力流计算过程一致，搜索分支计算自通道注意力流产生的自通道注意力图记为A^xsc，并共享到模板分支，记为

然后使用特征

和共享的自通道注意力图

执行矩阵乘法，将得到的结果增强到特征

上：

为了充分利用双流通道注意力的信息，将上述计算的自通道注意力流模块的特征和互通道注意力流模块的特征组合在一起得到新的特征图

式中，

表示逐元素相加。

进一步地，步骤(7)中，定位模块计算公式如下：

进一步地，步骤(10)中，初始模板图像块和预测的模板图像块之间的对齐误差损失L_stc计算过程如下：

式中，

是计算前向跟踪和后向跟踪相邻图像块之间的对齐程度，

是计算同一帧中前向跟踪和反向跟踪预测的图像块之间的误差，L_stc是

和

叠加和。

进一步地，步骤(10)中，初始模板图像块和预测的模板图像块之间的匹配程度损失L_smc计算过程如下：

本发明的有益效果：本发明提出一种无监督视频目标分割的方法，对于给定的任意一个视频，在仅知道第一帧给定的目标掩模，没有其他任何信息的条件下能够对目标进行持续的分割，并在后续视频序列中保持分割目标，并且提高了视频目标分割的鲁棒性和准确性。

附图说明

图1为本发明中划分视频子序列示意图；

图2为本发明中搜索图像序列示意图；

图3为本发明中模板图像块和搜索图像结合组成图像对示意图；

图4为本发明中遮挡引导的特征匹配过程示意图；

图5为本发明中通道位置增强过程示意图；

图6为本发明中定位模块示意图；

图7为本发明流程图；

图8为本发明在线视频分割流程图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

本发明提供的一种无监督视频目标分割的方法，在连续的视频序列当中，目标在前后两帧图像中的位置偏移不会发生巨大的变化，而且形状变化也不会很明显。因此，本发明通过在第一帧中初始一个目标块，然后沿着时间维度在序列中预测与初始目标块相似的目标，接着利用序列最后一帧的预测目标反向进行跟踪直到序列的第一帧。理想状况下，初始的目标快和反向跟踪预测的序列块是一致的。所以在网络的训练中最小化初始目标块和预测目标块之间的差异，是网络学习到更有效的特征表示。

如图7所示，本发明方法具体步骤如下：

(1)视频数据预处理

如图1和图2所示，给定输入视频序列X包含有I个连续视频帧{x₁，···，x_I}，在相邻帧{x_i，···，x_i+N}上使用滑动缓冲区顺序处理每一帧，N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K，一个完整的视频序列可以被分为{X_1，···，X_m}个子序列；对于每一个子序列，用相同比例缩放每一帧，然后裁剪一个宽度和高度均为L的区域作为搜索图像序列，在搜索图像序列中，将图像分为两部分，第一部分是位于搜索图像区域的中心的受限区域，宽度和高度均为2/3L，第二部分是边缘区域，是搜索图像区域中除受限区域外的剩余区域；从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l(l＝1/3L)的区域作为初始模板图像块。

(2)图像对初始化

如图3所示，将初始模板图像块作为模板图像块，将搜索图像的第二帧作为搜索图像，模板图像块和搜索图像结合组成图像对。

(3)特征提取

采用参数共享的ResNet-50结构作为提取特征的骨架，修改第四层和第五层的步长，原始步长为2修改为1，使第四层和第五层输出的feature大小保持一致。步骤(2)中的图像对通过提取特征后得到的特征图表示为：(f^x,f^p)，f^p为模板图像块，f^x为搜索图像。

(4)遮挡引导的特征匹配

如图4所示，对于步骤(3)中的得到的特征图(f^x,f^p)，从模板图像块f^p找到最具代表能力的部分

用宽和高度为1/2l的掩模制造遮挡，用滑动窗口的方法从模板特征图的左上角滑动到右下角，在滑动的过程中，被掩模遮挡的区域称为被遮挡的候选区域

被遮挡的模板图像块称为被遮挡的候选特征图

候选特征图

和被遮挡的候选区域

一一对应。把从候选区域

中找到最具代表能力的部分

视为比较

和受限区域特征图

相似性度量匹配的问题，相似度评分最低的遮挡特征表明该遮挡特征丢失的信息最多，其对应的裁剪部分比其他裁剪特征部分更重要。所以根据相似度评分较低的情况选择关键部分：

式中，*表示相关操作，n表示被遮挡候选特征图的个数，S＝[S₁，S₂，…，S_n]是一个相似图的映射向量，表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示，生成n个的相似度得分。形式上，相似度得分向量为1×1×n，第n个相似度得分计算方法为：

和受限区域特征图

(5)关键部分增强

如图5所示，计算像素级匹配作为关键部分增强，对于每一个步骤(4)中得到的

使用余弦距离Fcos(·，·)来评估匹配置信相似性。θ通过1×1个卷积层实现，在保持特征空间大小的同时，将输入特征嵌入到特征空间中。然后利用匹配的置信度图作为权重与

乘积得到空间增强的特征

Relu作为激活函数，α作为超参数：

(6)通道位置增强

该步骤包括模板分支的增强和搜索分支的增强，两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算；

模板分支自通道注意力流计算过程为：首先对特征

扁平化和重塑以生成新的特征图，然后将

和转置矩阵

进行矩阵乘法和归一化处理得到自通道注意力图A^psc：

然后使用特征

上：

模板分支互通道注意力流计算过程为：由于搜索分支的计算过程和模板分支的自通道注意力流计算过程一致，搜索分支计算自通道注意力流产生的自通道注意力图记为A^xsc，并共享到模板分支，记为

然后使用特征

和共享的自通道注意力图

执行矩阵乘法，将得到的结果增强到特征

上：

式中，

表示逐元素相加。

按照模板分支的计算过程，在搜索分支上，同样可以计算得到的新的特征图

(7)定位模块

如图6所示，增强后的特征特征

和

通过矩阵乘法得到匹配矩阵A^PX。然后将计算得到的匹配矩阵利用CNN网络(包括卷积层和全连接层)回归几何变换参数μ。以参数μ和增强后的特征特征

为输入，由网格生成器和采样机构结合生成最终的图像块；

(8)将新生成的图像块替换模板图像块，与搜索图像序列的下一帧组成图像对，重复执行步骤三四五六七，直到执行到搜素图像序列的第N帧。

(9)将搜索图像序列的顺序反转，第N帧变为第一帧，第一帧变为第N帧，重复执行步骤三四五六七，直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。

(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数；设计L_stc损失计算初始模板图像块和预测的模板图像块之间的对齐误差，

是计算前向跟踪和后向跟踪相邻图像块之间的对齐程度，

是计算同一帧中前向跟踪和反向跟踪预测的图像块之间的误差。L_stc是

和

叠加和；

L_smc损失是计算初始模板图像块和预测的模板图像块之间的匹配程度；

网络最终的损失函数L_total是L_stc损失和L_smc损失的叠加和，ξ是超参数，用于调节损失比例；

L_total＝ξL_stc-L_smc·

(12)用步骤(11)获得的最后训练模型进行视频目标在线分割，如图8所示，具体过程为如下：

每个位置的向量

代表位置p属于第l个目标对象的概率，概率越大，属于第l个目标的概率越大。

B.从第二帧开始，使用上一帧的分割结果M_t-1和当前帧的图像F_t组成输入对作为最后训练模型的输入，然后在特征空间中计算相似性矩阵A_t-1,t＝softmax(F_t-1 ^T·F_t),对于每一个位置p_t，计算了L个目标类别的概率值：

对于每一个位置q的类别，使用l＝argmax_l({c_q ^l}_l＝1 ^L)来确定。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种无监督视频目标分割的方法，其特征在于，该方法具体步骤如下：

(1)视频数据预处理

(2)图像对初始化

(3)特征提取

使用神经网络对步骤(2)中的图像对进行特征提取，步骤(2)中的图像对通过提取特征后得到的特征图表示为：(f^x,f^p)，f^p为模板图像块，f^x为搜索图像。

(4)遮挡引导的特征匹配

对于步骤(3)中的得到的特征图(f^x,f^p)，从模板图像块f^p找到最具代表能力的部分

被遮挡的模板图像块称为被遮挡的候选特征图

候选特征图

和被遮挡的候选区域

一一对应。根据相似度评分较低的情况选择关键部分：

式中，*表示相关操作，n表示被遮挡候选特征图的个数，S＝[S₁,S₂，···，S_n]是一个相似图的映射向量，表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示，生成n个的相似度得分。第n个相似度得分计算方法为：

和受限区域特征图

(5)关键部分增强

然后利用匹配的置信度图作为权重与

乘积得到空间增强的特征

Relu作为激活函数，α作为超参数：

(6)通道位置增强

(7)定位模块

增强后的特征特征

和

为输入，由网格生成器和采样机构结合生成最终的图像块；

(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数；网络最终的损失函数L_tptal是初始模板图像块和预测的模板图像块之间的对齐误差损失L_stc和初始模板图像块和预测的模板图像块之间的匹配程度损失L_smc的叠加和，ξ是超参数，用于调节损失比例；

L_total＝ξL_stc-L_smc.

每个位置的向量

2.根据权利要求1所述的一种无监督视频目标分割的方法，其特征在于，步骤(1)中，给定输入视频序列X包含有I个连续视频帧{x₁，···，x_I}，在相邻帧{x_i，···，x_i+N}上使用滑动缓冲区顺序处理每一帧，N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K，一个完整的视频序列可以被分为{X_1，···，X_m}个子序列。

3.根据权利要求1所述的一种无监督视频目标分割的方法，其特征在于，步骤(1)中，在搜索图像序列中，将图像分为两部分，第一部分是位于搜索图像区域的中心的受限区域，宽度和高度均为2/3L，第二部分是边缘区域，是搜索图像区域中除受限区域外的剩余区域。

4.根据权利要求1所述的一种无监督视频目标分割的方法，其特征在于，步骤(3)中，神经网络采用参数共享的ResNet-50结构作为提取特征的骨架，修改第四层和第五层的步长，原始步长为2修改为1，使第四层和第五层输出的feature大小保持一致。

5.根据权利要求1所述的一种无监督视频目标分割的方法，其特征在于，步骤(6)中，模板分支自通道注意力流计算过程为：首先对特征