CN113221899A

CN113221899A - 一种基于学习原型图的快速视频目标分割系统及方法

Info

Publication number: CN113221899A
Application number: CN202110437589.1A
Authority: CN
Inventors: 周雪; 杨杰; 陆易; 叶喜勇
Original assignee: University of Electronic Science and Technology of China; Zhejiang Lab
Current assignee: University of Electronic Science and Technology of China; Zhejiang Lab
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-06

Abstract

本发明公开了一种基于学习原型图的快速视频目标分割系统及方法，属于计算机视觉、机器学习等技术领域。该系统包括：特征提取网络、RPN网络、原型图模块，所述特征提取网络分别与RPN网络和原型图模块连接，所述原型图模块包括依次连接的全卷积模块、Refine Module模块和原型模块。本发明的系统和方法考虑到系数可以随着目标变化而动态变化，相对于其他方法，通过直接训练网络预测目标的掩码，将原型图和系数结合，对各类场景下的视频目标分割都能更灵活的处理，更具鲁棒性。

Description

一种基于学习原型图的快速视频目标分割系统及方法

技术领域

本发明属于计算机视觉、机器学习等技术领域，特别涉及一种基于学习原型图的快速视频目标分割系统及方法。

背景技术

视频目标分割是一个计算机视觉中一个基础的任务。视频目标分割任务要求给视频中的每一帧图像上的每一个像素赋予一个标签，也就是将前景对象与背景区域进行二值标记分离，需要用到模式识别，机器学习等领域的知识。视频目标分割对于视频编辑，目标跟踪，场景理解等广泛应用有着十分重要的意义。随着计算机科学技术、深度学习的发展以及现实生活的需要，视频目标分割在近几年吸引了众多研究者的目光，同时取得了很大的研究进展。视频目标分割任务从监督的程度可以分为三大类：无监督式、半监督式以及交互式视频目标分割。无监督式视频目标分割需要寻找并分割视频中的主要目标，这意味着算法需要自行决定哪个物体才是主要的。半监督式视频目标分割任务给出带有掩模信息的第一帧或者关键帧。交互式视频目标分割通过人手工用鼠标描绘出目标的视频分割大致轮廓，第二步再利用视频分割算法进行视频分割。

目前的视频目标检测算法主要分为两大类：基于掩码传播方法和基于检测的方法。基于掩码传播的算法主要是基于光流信息的。这是因为光流信息在视频描述的早期阶段非常重要，光流表示图像中的每个像素在下一帧图像中移动的方式和位置，因此光流可以作为线索来跟踪像素随时间的变化，以此来建立时间相关性，而基于掩码传播的方法正是利用了物体运动的时间相关性，将掩模信息从第一帧或给定的带注释的帧传播到后续帧。这些方法存在误差积累的问题，在长时间传播后易出现时间崩溃。基于检测的方法在不使用时间信息的情况下，通过学习一个外观模型来对每一帧的目标进行像素级的检测和分割。这些方法依赖于使用给定测试序列的第一帧注释对深度网络进行微调，尽管这些方法在流行的数据集上获得了非常高的精度，但是训练过程需要消耗大量的时间并且难以应用到实际生活中。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于学习原型图的快速视频目标分割系统及方法，该快速视频目标分割方法在RPN网络预测权重系数，再将权重系数加权原型图以及原型图经过线性组合后得到的预测图像进行优化而不是直接对使用固定的参数得到预测图像进行优化，克服了传统方法在目标边界呈现的二义性，不能有效处理尺度变化的问题。

为实现本发明的技术方案，采用如下技术方案：一种基于学习原型图的快速视频目标分割系统，包括：特征提取网络、RPN网络、原型图模块，所述特征提取网络分别与RPN网络和原型图模块连接，所述原型图模块由三个部分组成，包括全卷积模块、Refine Module模块和原型模块。

进一步地，所述特征提取网络为ResNet和FPN组合而成。

本发明还提供了一种快速视频目标分割系统的视频目标分割方法，包括如下步骤：

(1)收集视频，并提供视频中每一帧的目标掩码；

(2)将视频中的第一帧作为参考帧，将参考帧与其对应的目标掩码输入到特征提取网络，得到第一帧目标特征；

(3)将所述视频中的第二帧和第一帧对应的目标掩码输入特征提取网络中，提取特征，将提取的特征和第一帧目标特征进行拼接，随后输入原型图模块，得到原型图；

(4)将步骤(3)提取的特征输入RPN网络，预测目标框以及目标框对应的权重系数；将权重系数加权原型图，经过sigmoid激活函数，得到第二帧的预测目标掩码；

(5)将所述视频中的第三帧和第二帧的目标预测掩码输入特征提取网络中，采用步骤(3)-(4)的方法，得到第三帧的预测目标掩码；

(6)依次对后续帧重复步骤(5)，直至对视频中所有帧预测目标掩码；并且当所述快速视频目标分割系统的Binary Cross Entropy损失函数收敛，完成对快速视频目标分割系统的训练；

与现有技术相比，本发明具有如下有益效果：本发明基于学习原型图的快速视频目标分割系统，将典型的快速视频目标分割方法中用于特征提取的编码解码结构的解码器的主干换成ResNet结合FPN结构作为特征提取的躯干，以参考图像和目标图像作为输入，然后将提取到的特征通过RPN和系数层训练来学习原型图的权重系数同时通过另一个子网络模块学习原型图和原型图的相关系数。最后将得到的原型图和对应于原型图的相关系数线性组合即可得到最终的预测结果，采用了隐式学习的方法使得每一张原型图学习到了和前景目标有关的局部信息。由于采用了ResNet结合FPN结构的特征提取网络以及使用RPN网络来学习原型图的相关系数，本发明系统在视频目标分割方法的速度和精度之间取得了很好的平衡，更适合于实际的在线应用。

附图说明

图1是基于原型图学习的快速视频目标分割方法的结构示意图。

图2是RPN网络，用于预测目标框位置和权重系数。

图3是预测输出模块的具体结构。

具体实施方式

本发明提供了一种基于学习原型图的快速视频目标分割系统，包括：特征提取网络、RPN网络、原型图模块，所述特征提取网络分别与RPN网络和原型图模块连接，所述原型图模块包括依次连接的全卷积模块、Refine Module模块和原型模块。一般的视频目标分割方法的网络结构采用编码-解码结构来特征提取，为了使得快速并且高效地完成视频目标分割任务，不仅需要尺寸合适的特征图以保证视频目标分割任务的精度，还希望能够省略掉大量耗时间的解码器来减少时间消耗，提升视频目标分割的速度。特征金字塔网络(FPN)恰好满足可上面两个条件。因此，为了在获得合适尺寸大小的特征图的同时取得更加快的速度，将用于特征提取的编码解码结构的解码器的主干换成FPN结构作为特征提取的躯干，提取特征，将获得的特征送入两个并行的子网络用以学习原型图和学习相关系数。所述特征提取网络为ResNet和FPN，最终将获得的原型图和对于原型图的相关系数线性组合即可得到最终的预测结果。将预测出来的掩模信息与下一帧图像连接起来作为下一个目标输入。这样，每个原型图都隐式地学习到了检测图像的某个区域。由于采用了FPN结构的特征提取网络以及使用RPN网络来学习原型图的相关系数，因此。本发明的系统在速度和精度之间取得了很好的平衡，更适合于实际的在线应用。

如图1提供了本发明快速视频目标分割系统的视频目标分割方法的结构示意图，包括如下步骤：

(1)视频序列的第一帧是作为参考帧，与其对应的目标掩码输入到特征提取网络中，作为参考特征。

(2)视频的第二帧作为目标输入，和前一帧的目标掩码输入到特征提取网络中得到当前帧特征。当前帧特征和参考特征拼接融合，随后输入到原型图模块，得到原型图。具体过程如下：

特征提取网络的输入有两个，分别是参考输入和目标输入。其中，参考输入为视频中的第一帧，目标输入为所述视频中的第二帧和第一帧对应的目标掩码。在目标输入的子网络中得到C1,C2,C3,C4,C5特征图，然后C5经过上采样后得到与C4大小相等的P5，然后将P5与C4融合然后上采样得到与C3大小相同的P4，以此类推得到P3,P2以及P1。P3,P4,P5以及C2将会被用于后续的原型图提取以及对应于原型图的相关系数的获得，其中P3,P4,P5将输入到RPN以及参数提取层，而C2则输入到原型图学习分支中的Refine Module用以帮助学习原型图。P3和C2的输出步长分别为8和4。所有的模型结构全部采用全卷积神经网络。

(4)将步骤(3)提取的特征输入RPN网络，RPN的结构如图2，由一个卷积层和三个并行1x1卷积层组成，三个1x1的卷积层分别用于预测属于前景目标的概率、预测目标框的位置、预测目标框的权重系数。相较于目前常用的RPN网络，我们在RPN网络中添加一个分支用于学习系数，得到预测目标框集合以及目标框对应的权重系数集合。在集合中，使用指定分数作为阈值和非极大值抑制筛选出质量高的目标框和权重系数，如果得到不止一个目标框和权重系数，则使用平均结果；所述权重系数的数量与原型图的数量相等。权重系数和原型图作为预测模块的两个输入(如图3)，将权重系数加权原型图，经过sigmoid激活函数，得到第二帧的预测目标掩码；

(5)将所述视频中的第三帧和第二帧的目标预测掩码输入到特征提取网络中，采用步骤(3)-(4)的方法，得到第三帧的预测目标掩码；

(6)重复步骤(5)，按照时间顺序依次处理后续帧，直至对视频中所有帧预测目标掩码；并且当所述快速视频目标分割系统的Binary Cross Entropy损失函数收敛，完成对快速视频目标分割系统的训练；

本发明快速视频目标分割系统的视频目标分割方法，通过结合原型图和系数，让模型学习到关注重点目标感兴趣区域的能力，因此解决了模型在目标边缘处的决策呈现二义性，不能准确分割边缘的问题。具有不借助大部分方法都需要的在线训练过程，以及计算量小的优点，实现了比其他方法更精准的视频目标分割结果。

Claims

1.一种基于学习原型图的快速视频目标分割系统，其特征在于，包括：特征提取网络、RPN网络、原型图模块，所述特征提取网络分别与RPN网络和原型图模块连接，所述原型图模块包括依次连接的全卷积模块、Refine Module模块和原型模块。

2.根据权利要求1所述快速视频目标分割系统，其特征在于，所述特征提取网络为ResNet和FPN。

3.一种权利要求1所述快速视频目标分割系统的视频目标分割方法，其特征在于：包括如下步骤：

(1)收集视频，并提供视频中每一帧的目标掩码；

(2)将视频中的第一帧作为参考帧，将参考帧与其对应的目标掩码输入特征提取网络，得到第一帧目标特征；

(4)将步骤(3)提取的特征输入RPN网络，预测目标框以及目标框对应的权重系数；所述权重系数的数量与原型图的数量相等，将权重系数加权原型图，经过sigmoid激活函数，得到第二帧的预测目标掩码；

(6)重复步骤(5)，直至对视频中所有帧预测目标掩码；并且当所述快速视频目标分割系统的Binary Cross Entropy损失函数收敛，完成对快速视频目标分割系统的训练；

(7)重新收集视频，将视频输入训练好的快速视频目标分割系统中，输出每一帧中的目标掩码。