CN113344932B

CN113344932B - 一种半监督的单目标视频分割方法

Info

Publication number: CN113344932B
Application number: CN202110608181.6A
Authority: CN
Inventors: 饶云波; 程奕茗; 薛俊民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2022-05-03
Anticipated expiration: 2041-06-01
Also published as: CN113344932A

Abstract

本发明公开了一种半监督的单目标视频分割方法，属于视频目标分割技术领域。本发明基于网络结构逐层的非线性变换，训练网络权重，并通过改进的U‑net网络进行卷积池化下采样然后上采样，获取原图的形状，得到每个像素的的目标识别预测值，获取对应模板目标物体的搜索图片的单目标视频分割结果。将所获得的分割结果用于目标跟踪中，可以实现对跟踪目标的准确定位，提升目标跟踪处理性能。

Description

一种半监督的单目标视频分割方法

技术领域

本发明涉及视频目标分割技术领域，具体涉及一种半监督的单目标视频分割方法。

背景技术

随着硬件、软件及人工智能多个领域的迅速发展，语义分割成为计算机视觉研究领域的热点之一，并得到广泛应用。目前基于图像的语义分割已经可以做到非常好，但是面对单帧观测不好，遮挡，运动模糊，光照不好等情况效果不好，而实际机器人在环境中是可以对环境进行连续长时间的观测，在时间上有很多的信息冗余，从数据融合的角度考虑，大量的数据冗余可以抵消观测中的噪声，所以理论上用视频做图像或者视觉任务应该比单帧能达到更好的效果，目前这个研究方向逐渐向机器学习，深度学习方向靠拢，近两年也有些效果不错的工作。主要可应用于机器人，无人机，无人驾驶，智能拍照等场景。如地理信息系统，可以通过训练神经网络让机器输入卫星遥感影像，自动识别道路，河流，庄稼，建筑物等，并且对图像中每个像素进行标注。无人驾驶，语义分割也是无人车驾驶的核心算法技术，车载摄像头，或者激光雷达探查到图像后输入到神经网络中，后台计算机可以自动将图像分割归类，以避让行人和车辆等障碍。医疗影像分析，随着人工智能的崛起，将神经网络与医疗诊断结合也成为研究热点，智能医疗研究逐渐成熟。在智能医疗领域，语义分割主要应用有肿瘤图像分割，龋齿诊断等。

对于视频目标分割来说，根据分割的对象，该任务可分为：单目标分割(VOS)、多目标分割、目标精细分割，其中最受关注的大概是单目标分割任务，根据给定的输入的区别，分为无监督、半监督、交互式分割等任务。在测试阶段，无监督只给定一个原始视频，半监督则多给定第一帧的分割掩膜(mask)，交互式分割则允许在第一帧画上一些轮廓或者草图。视频目标分割算法的研究也围绕着解决这些变化和具体的应用展开。有两个度量分割准确率的主要标准：区域相似度(Region Similarity)、轮廓精确度(Contour Accuracy)，其中，区域相似度度量标注错误像素的数量，而轮廓精确度度量分割边界的准确率。

当前，无监督VOS的处理方式主要有下述几种：

(1)背景消除：早期视频分割方法主要是基于几何且局限于特定的运动背景。其思路是模拟每个像素的背景外观，并将快速变化的像素视为前景，图像和背景模型中的任何显著变化都代表一个移动的物体，利用连通分量算法估计与目标相对应的连通区域。基于混合高斯分布(GMM)背景/前景分割算法对视频帧上的任意坐标的像素值进行时间方向的统计，为每个坐标分配若干个高斯概率密度函数作为该位置的像素值概率分布模型,是十分经典的背景建模方法。

(2)点轨迹：为了利用视频中的运动信息，这些方法首先生成点轨迹，然后使用轨迹的匹配矩阵对轨迹进行聚类，最后利用聚类轨迹作为先验信息得到视频目标分割结果。典型思路是基于光流的方法，光流是一个密集的位移向量场，反映了微小时间间隔内由于运动形成的图像变化，可以确定图像上点的运动方向和运动速率，通常用于获取视频目标的时空运动信息。

(3)过分割：一些过分割方法基于颜色、亮度、光流或纹理相似性对像素进行分组，并生成时空分割图，绝大部分方法都是基于图来完成无监督视频目标分割。

(4)“类似物体”分割：主要思想是通过“类似物体”区域(如显著性目标和目标候选区域)的学习模型，为视频的每一帧生成一个前景目标假设。

(5)基于深度学习的方法：早期主要的视频目标分割方法首先通过互补卷积网络产生显著性目标，然后在视频中传播视频目标和基于超像素的邻域可逆流。Pyramiddilated deeper ConvLSTM for video salient object detection利用金字塔扩张(空洞)卷积结构提取多尺度空间特征，ConvLSTM模块提取不同尺度序列特征，拼接(concat)后经全卷积层输出显著性概率图(saliency maps)，在获得视频序列的显著性概率图的基础上，把分割任务视为能量函数最小化问题，根据基于fully connected CRF model(全连接条件随机场模型)的能量函数，以后处理的形式完成目标分割。

综上所述，背景消除法和点轨迹法简单地将视频中要分割的目标作为移动的前景，容易造成分割结果的碎片化，不能完整友好地表达对象级信息。此外，无监督VOS和显著目标检测视频序列非常类似于无监督VOS是每一帧的视频输出二进制前景/背景的mask，重要的目标探测是关心重要的输出概率图(凸起地图)，当然这里认为两者考虑的都是不区分语义或实例的。

当前，半监督VOS的处理方式主要有下述几种：

(1)基于时空图的方法：

早期方法通常是用手工设计的特征来解决一些时空图，包括外观、边界和光流，并在整个视频中传播前景区域。这些方法通常依赖于两个重要的提示：图结构的目标表达和时空连接关系。

(2)基于卷积神经网络的方法

(2-1)基于运动(传播)的方法：一般而言，该类方法利用了目标运动的时间相干性，阐明了掩模(mask)从第一帧或给定注释帧到后续帧的传播问题。MaskTrack将前一帧的掩膜分割结果和当前帧的图像结合在一起，形成四通道输入引导像素级分类网络分割感兴趣目标，为了提高模型的鲁棒性，还可以对前一帧的mask进行数据增强。然而基于一帧一帧传播的思路，当遇到待分割的感兴趣目标在视频序列中逐渐完全消失，随后又逐渐重新出现的情况时，因为目标消失帧没有办法获取mask，导致后续帧没有前一帧分割结果作为输入，会直接出现分割失败的现象，因此效果不是很优。

(2-2)基于检测(在线学习)的方法：半监督VOS任务提供了第一帧目标的详细标注，有必要充分利用第一帧mask提供的信息。有些方法不使用时间信息，而是学习一个外观模型，在每一帧中对目标进行像素级检测和分割。在测试序列时，将第一帧图片和标注mask进行对应的数据增强，训练集上已经训练好的模型在这个扩充的第一帧上进行微调，能够更好的利用测试视频序列或者视频实例的特定信息，缺点就是十分耗时。

(2-3)基于匹配的方法：首先对模板帧和视频中当前帧的特征进行像素级匹配，然后直接从匹配结果中对当前帧的每个像素进行分割。早期的想法如下，给定视频的第一帧和当前帧，根据第一帧目标标注可以生成感兴趣目标的模板，而当前帧则可以生成很多候选目标，紧接着可以在候选目标和模板之间进行匹配，合适则分配id并分割，不合适则扔掉。这样的思路每次都是当前帧和第一帧目标进行匹配，不会有逐帧传播的累计误差，且会有更好的鲁棒性，受遮挡的影响会降低，即使中间一帧分割失败，也不会干扰其他帧，缺点是没有充分利用时空信息。

发明内容

本发明提供了一种半监督的单目标视频分割方法，以用于准确定位跟踪目标。

本发明提供的一种半监督的单目标视频分割方法，所述方法包括：

设置网络模型，所述网络模型包括搜索分支、模板分支和掩膜分支(回归分支)；

其中，其中搜索分支的输入图片尺寸大于模板分支的输入图片尺寸，搜索分支和模板分支的输入图片的通道数相同；所述搜索分支包括依次连接的主干网络和调整层；所述模板分支包括依次连接的主干网络和调整层；搜索分支和模板分支的主干网络为Siamese网络，且主干网络包括M个主干网络块，其中M为大于1的正整数；所述掩膜分支包括依次连接反卷积层、M-1个融合层、卷积层和输出层；

其中，反卷积层的输入为搜索分支和模板分支经深度互相关层的输出特征图，所述反卷积层和M-1个融合层与模板分支的前M-1个主干网络块构成类U-net网络网络结构，所述融合层用于在每一层的上采样中加入模板分支的下采样的特征融合，所述输出层用于输出目标识别预测概率；

对数据集图像进行裁剪和调整大小处理，获取网络模型的训练样本；

基于预设的损失函数，采用随机梯度下降法作为优化器对设置的网络模型进行端到端训练，并在训练回归分支时进行坐标映射；

基于训练好的网络模型进行单目标视频分割处理：将待分割视频图像进行裁剪和调整大小处理以获取对应的模板图像和搜索图像，再分别输入训练好的网络模型的模板分支和搜索分支中，通过将模板分支在搜索分支上对应的每一个响应窗口生成一个mask，并选择其中响应窗口最大得分的位置作为mask所在原图的相对位置，实现对单目标视频帧的分割，其中，响应窗口得分为两个分支经深度互相关层的互相关运算结果。

进一步的，对数据集图像进行裁剪和调整大小处理，获取网络模型的训练样本包括：

从数据集中的同一个视频中的跟踪目标相同的视频帧中，选择两张图像作为一组输入，从该组输入图像中的一幅进行预处理获取模板图像样本，以使得目标对象位于模板图像样本的中心，且模板图像样本的图像尺寸大小与模板分支的输入相匹配；并基于该组输入图像中的另一幅图像生成搜索图像样本，从该图像中裁剪出搜索图像，以及该图像对应的mask图中裁剪出初始mask标签，对搜索图像和初始mask标签同步进行随机翻转，以及对搜索图像进行随机模糊处理，得到搜索图像样本及其mask标签。

进一步的，基于训练好的网络模型进行单目标视频分割处理还包括通过CRF(Conditional Random Fields)对分割结果进行优化处理。

本发明提供的技术方案至少带来如下有益效果：本发明基于网络结构逐层的非线性变换，训练网络权重，并通过改进的U-net网络进行卷积池化下采样然后上采样，获取原图的形状，得到每个像素的的目标识别预测值，获取对应模板目标物体的搜索图片的单目标视频分割结果。将所获得的分割结果(mask)用于目标跟踪中，可以实现对跟踪目标的准确定位，提升目标跟踪处理性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种半监督的单目标视频分割方法中所构建的网络模型示意图；

图2为本发明实施例中，掩膜分支所采用的融合层的网络结构示意图；

图3为本发明实施例中，COCO数据集的展示示意图；

图4为本发明实施例中，ImageNet数据集的展示示意图；

图5为本发明实施例中，对目标跟踪数据集OTB2016的分割结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的目的是针对半监督VOS，结合深度神经网络在特征提取方面的优势，利用网络结构逐层的非线性变换，训练网络权重，通过改进的U-net网络进行卷积池化下采样然后上采样(encoder-decoder)，复到原图的形状，给出每个像素的预测，将分割的结果应用到目标跟踪上，实现对目标的跟踪。并使用随机梯度下降算法(SGD)来优化损失。基于所采用的 U-net网络的优势，通过将目标图像输入网络进行下采样并加入特征融合，用于保留网络因为下采用而损失掉的部分特征。基于本发明提供的特征融合的encoder-decoder网络模型，对单目标视频的分割处理，包括下列步骤：

步骤1、获取数据集并进行预处理。其中，预处理包括尺寸归一化、图像数据归一化和数据增强处理。

对数据集图像进行裁剪和调整大小，获得训练所需样本，本实例中，为了满足网络的输入，数据集图像会被裁剪到127×127，并进行数据归一化以及数据增强处理；

模板分支(template)的生成，对图像中框定的框做大约2倍的放大，假设框定框的宽高分别为w、h，则需要放大到的尺寸计算公式为：

然后需要以物体为中心，sz为宽或高，截取一个正方体的物体出来，然后再重新调整尺寸为127×127×3，其中3表示通道数，有些时候框不一定都在图里面，所以框到图外的部分要做填充处理，其中填充值优选为图片各自通道的均值。

搜索分支(seach)的生成，依靠模板分支的物体在原图的位置，以物体为中心，约4倍物体大小为宽或高，进行截取，截取方式同模板分支，只是需要把截取范围扩大1倍，同样图外的部分要做填充，填充方式与上述相同，优选填充值为图片各通道均值。

步骤2、搭建特征融合的U-net网络模型以用于目标分割。

参见图1，本发明实施例所采用的U-net网络模型使用神经网络的通用网络结构，例如采用ResNet50作为构建网络的骨架，并使用Siamese(孪生)网络然后在此基础上进行修改， Siamese网络的两个输入大小分别为127×127×3和255×255×3，经过ResNet50网络后得到15×15×256和31×31×256的两个特征图在卷积块conv_4的3×3conv层中，将步长设置为1，将扩张率(dilation rate)设置为2，将最后的有效步幅从16个像素减少到8个像素，与原来的ResNet-50不同的是，conv_4没有下采样。并且还在主干线上添加了一个调整层 (adjust层，具有256个输出通道的1×1卷积层)。模版分支和搜索分支共享从卷积块conv_1 到卷积块conv_4的网络参数，而调整层参数不共享。然后，调整层的输出特征使用深度互相关层，得到大小为17×17×256的特征图。图1中的f(x)表示搜索分支的网络映射，模版分支和搜索分支共享从卷积块conv_1到卷积块conv_4的网络参数。

为了在更深的层中获得更高的空间分辨率，本发明实施例中，所采用的Siamese网络通过使用步幅1的卷积将输出步幅减少到8。此外，利用扩张的卷积来增加感受野。即本发明实施例中，所采用的Siamese网络包括输入图像通道数相同但是图像尺寸不同的搜索分支和模板分支，搜索分支与模板分支的网络结构和网络参数相同，包括顺次连接的四层卷积块 (conv_1至conv_4，对应图1中的conv1至conv4)，搜索分支再经过第一调整层后接入互相关层；而模板分支则经过第二调整层后接入该互相关层。

之后再接入mask分支用于目标分割，通过将Siamese网络模板分支的输出特征图进行上采样，使用类似U-net网络的结构，并在每一层上采样中加入下采样的特征图融合来提高分割精度，为了确保在上采样过程中特征图的通道数和大小要与需要融合的下采样特征图一致，使用1×1卷积层和ReLU激活函数来处理。详细结构如图2所示。即mask分支包括依次连接的一个反卷积层、三个融合层、一个卷积层和输出层(激活函数采用Sigmoid)，其中融合层包括两路子支路，第一子支路的输入为上一融合层输出的特征图的上采样特征图，第一子支路包括至少两个卷积层，且每两个卷积层之间设置有ReLU激活函数层，卷积层的通道数与输入的上采样特征图的通道数相同；第二支路的输入为Siamese网络的模板分支的对应卷积块的输出特征图(下采样特征图)，包括多个通道数依次降低的卷积层，且每两个卷积层之间设置有ReLU激活函数层，直至卷积层的输出通道数与第一子支路的输出通道数一致，再将两条支路输出的特征图进行对应元素的相加，得到对应位置的上采样和下采样特征图的融合特征图，参考图2，对于按照前向传播方向的第一个融合层，其对应模板分支的下采样特征图为卷积块conv_3输出的特征图，第二个融合层对应模板分支的下采样特征图为卷积块 conv_2输出的特征图，第三个融合层对应模板分支的下采样特征图为卷积块conv_1输出的特征图。

本实施例中，如何将特征图中的目标区域进行上采样得到目标的分割信息：

在模板分支与搜索分支互相关操作得到特征图后，选择RPN网络中产生锚框的分类分支(大小为17×17×2*k)，将锚框的置信度得分通过一系列操作如乘上时间惩罚项，对前K个候选框进行重新排序，之后进行非最大抑制(NMS)以获得得分最大的值，该值对应的位置为目标位置的概率最大，通过位置转换函数转换得到该最大概率目标位置在特征图上的坐标，并将该部分进行上采样。

步骤3、设置损失函数。在上采样过程中使用一个有可学习参数φ的网络分支h_φ来预测 w×h的二元掩模，设m_n为对应第n个候选窗口的预测掩码(mask)，

表示的是使用ResNet50 的Siamese网络结构。

x为模板分支的输入，z为搜索分支的输入，从公式可以看到mask的预测是将Siamese 网络中的输出结果送入到h_φ。通过这种方式，来得到m_n。搜索分支可以用参考指导分割过程，给定一个不同的参考图像，网络会产生不同的分割掩模。

在训练过程中，每一个候选窗口被标记为一个真实值二进制标签y_n∈{±1}，并与一个像素级的尺寸为w×h的真实值掩模c_n相关联，设

表示第n候选窗口对应像素(i,j)的标签值，

表示第n个候选窗口对应像素(i,j)的预测值。使用如下的二进制逻辑回归损失函数：

上述公式为所有分割标签(label)为1的候选窗口的mask二分类损失均值的和，该损失函数是一个soft_margin_loss，候选窗口的标签y_n为-1时，即loss为0，如果标签为1，则公式剩余部分为soft_margin_loss。

步骤4、利用步骤3中的损失函数，使用随机梯度下降算法(SGD)作为优化器来对网络进行端到端训练，并在训练回归分支时采用了数据增强。

步骤5、将得到的mask映射回原图。通过将模板分支在搜索分支上对应的每一个响应窗口生成一个mask，然后选择图中响应窗口最大分数的位置即为mask所在原图的相对位置，得分图是通过将两个分支进行互相关操作所得。

此外，还可以加入CRF条件随机场来对分割结果进行进一步处理。

为了使本发明实施例的目的，技术方案和优点能够更加清楚，本发明实施例使用COCO 目标检测数据集和ImageNet-VID数据集作为训练数据集，进一步进行性能验证。

COCO数据集为640×480的RGB图像，ImageNet-VID数据集为1280×720的RGB图像，图像数据展示见图3和图4。在同一个视频中，跟踪物体相同的帧里面，选择出来两张图片，用来生成Siamese网络的两个输入。对于模板分支输入的生成，首先对选出来的预处理后的图片，用一个图片裁剪插件(cropbox)做类似于中心填充(center crop)操作，直接选择预处理后的图片的中心作为中心，大小为127，得到这个裁剪边框的坐标。得到的这个边框，需要做随机缩放0.05-0.18、随机平移几个像素、随机翻转等操作，然后再通过仿射变换得到一张物体处于图片中心的一张127×127×3的图片；

对于搜索分支图像的生成，类似于模板分支，除了要在原图上面crop出来搜索部分，还要在mask图里面crop出来一个mask，然后还需要对图片和mask同步做随机模糊(mask不用)、翻转等操作。最终得到一张256×256×3的搜索图像，一张256×256×1的标签mask。

采用ImageNet-1k的预训练模型，使用SGD优化器，前5个epoch做warmup(学习率从10^-3到5×10^-3衰减)，接着在15个epoch内逐渐降到5×10^-4。

本实施例的体系结构的骨架网络是在imagenet上预先训练过图像标签，在COCO数据集和Image-VID的训练集上训练网络,训练集大小超过60GB。最终在VOT2016上的分割结果如图5，从实验中可以得出，本实施例所提出的方法具有良好的实现效果，可以将此mask结果用于目标跟踪中，从而达到准确定位跟踪目标的效果，使算法更具有鲁棒性，达到更好的性能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种半监督的单目标视频分割方法，其特征在于，包括下列步骤：

设置网络模型，所述网络模型包括搜索分支、模板分支和掩膜分支；

其中，其中搜索分支的输入图片尺寸大于模板分支的输入图片尺寸，搜索分支和模板分支的输入图片的通道数相同；所述搜索分支包括依次连接的主干网络和调整层；所述模板分支包括依次连接的主干网络和调整层；搜索分支和模板分支的主干网络为Siamese网络，且主干网络包括M个主干网络块，其中M为大于1的正整数；

所述掩膜分支包括依次连接反卷积层、M-1个融合层、卷积层和输出层；

其中，反卷积层的输入为搜索分支和模板分支经深度互相关层的输出特征图，所述反卷积层和M-1个融合层与模板分支的前M-1个主干网络块构成类U-net网络结构，所述融合层用于在每一层的上采样中加入模板分支的下采样的特征融合，所述输出层用于输出目标识别预测概率；

对数据集图像进行裁剪和调整大小处理，获取网络模型的训练样本：

从数据集中的同一个视频中的跟踪目标相同的视频帧中，选择两张图像作为一组输入，从该组输入图像中的一幅进行预处理获取模板图像样本，以使得目标对象位于模板图像样本的中心，且模板图像样本的图像尺寸大小与模板分支的输入相匹配；并基于该组输入图像中的另一幅图像生成搜索图像样本，从该图像中裁剪出搜索图像，以及该图像对应的mask图中裁剪出初始mask标签，对搜索图像和初始mask标签同步进行随机翻转，以及对搜索图像进行随机模糊处理，得到搜索图像样本及其mask标签；

2.如权利要求1所述的方法，其特征在，对设置的网络模型进行端到端训练时，采用二进制逻辑回归损失函数。

3.如权利要求1所述的方法，其特征在，基于训练好的网络模型进行单目标视频分割处理还包括通过CRF(Conditional Random Fields)对分割结果进行优化处理。

4.如权利要求1所述的方法，其特征在，所述主干网络块为ResNet50的前四个卷积块，第四个卷积块去掉下采样。