CN110443173B

CN110443173B - 一种基于帧间关系的视频实例分割方法及系统

Info

Publication number: CN110443173B
Application number: CN201910681950.8A
Authority: CN
Inventors: 韩守东; 刘昱均; 郑丽君; 夏晨斐
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-08-20
Anticipated expiration: 2039-07-26
Also published as: CN110443173A

Abstract

本发明公开了一种基于帧间关系的视频实例分割方法及系统，属于视频处理领域，包括：通过端到端的训练，得到目标Mask R‑CNN网络和目标FlowNet网络；依次获取待处理视频中的每一帧图像，并判断其类型，若为关键帧，则利用目标Mask R‑CNN网络进行实例分割，否则，获得对应的关键帧，并利用视频实例分割模型进行实例分割；视频实例分割模型，利用目标Mask R‑CNN网络对关键帧进行实例分割；视频实例分割模型，还利用目标FlowNet网络计算关键帧与非关键帧之间的流场和尺度场，并根据流场和尺度场将关键帧的金字塔特征传播到非关键帧，以及根据非关键帧的特征对非关键帧进行实例分割。本发明能够在完成高质量实例分割的同时提升视频实例分割的速度。

Description

一种基于帧间关系的视频实例分割方法及系统

技术领域

本发明属于视频处理领域，更具体地，涉及一种基于帧间关系的视频实例分割方法及系统。

背景技术

实例分割(Instance segmentation)将场景图像分割成多个区域，每个区域对应一个对象，并且判断该区域的类别。实例分割是一种最接近人类真实视觉感受的计算机视觉任务，尤其在自动驾驶领域有着很高的应用价值，如通过实例分割检测车道线、行人、障碍物等，以指导自动驾驶。

2014年提出的SDS(同时检测与分割，Simultaneous Detection andSegmentation)算法可以说是最早的实例分割算法，也是现有实例分割算法的基础。该算法将检测与分割结合在一起，具体来说，由目标检测提供对象的粗略定位，然后通过语义分割对每个像素进行分类。虽然SDS算法的准确率与现有先进算法相比有一定的差距，但它为实例分割算法提供了思路，也为后续实例分割领域的发展奠定了基础。随后，在SDS的基础上提出的HyperColumns算法，通过融合低层特征和高层特征，对细节的处理更加精细，从而提升分类的精确度。同时，CFM(卷积特征掩码，Convolutional Feature Masking)算法首次将掩码(Mask)这一概念引入到实例分割中，也就是通过使用图像块掩盖住图像中的指定的区域，从而改变图像处理的范围。Mask R-CNN是现今使用最多，效率最高的实例分割算法，不仅能都实现优秀的实例分割结果，还具有很强的扩展性，可以进一步应用在人体特征点检测等方面。虽然该算法是实例分割领域的佼佼者。

基于单幅图像的目标检测和分割算法日渐成熟，但对于视频处理而言，现有算法大多将视频视为多幅单帧图像的组合，直接将单幅图像的实例分割算法应用于每幅单帧图像的分割当中。这种视频实例分割方法完全忽略了时间连续性和视频中前后帧之间的关系，将视频中的每一帧作为一个独立的个体，对每一帧图像都要重新处理，这导致了处理视频帧的计算量较大，处理耗时较长，无法满足视频处理的实时性要求。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于帧间关系的视频实例分割方法及系统，其目的在于，在完成高质量实例分割的同时提升视频实例分割的速度。

为实现上述目的，按照本发明的第一方面，提供了一种基于帧间关系的视频实例分割方法，包括：

利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练，从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络；

依次获取待处理视频中的每一帧图像，并在获取到任意一帧视频帧I_i后判断其类型，若为关键帧，则利用目标Mask R-CNN网络对视频帧I_i进行实例分割，否则，获得与视频帧I_i属于同一分组的关键帧I_k，并利用预先构建的视频实例分割模型对视频帧I_i进行实例分割；

其中，每一个分组由一帧关键帧，以及该关键帧与下一关键帧之间的所有非关键帧组成；视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络；关键帧实例分割网络为目标Mask R-CNN网络，关键帧实例分割网络用于提取关键帧的M层金字塔特征P₁～P_M后，根据所提取的特征对关键帧进行实例分割；非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络；光流检测网络为目标FlowNet网络，用于计算关键帧与非关键帧之间的流场和尺度场；特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P₁～P_M传播到非关键帧，从而得到非关键帧的特征P₁′～P_M′；分割网络用于根据非关键帧的特征P₁′～P_M′对非关键帧进行实例分割。

本发明以关键帧为节点，对视频帧进行分组，使得每一个分组中包括一帧关键帧，以及多帧连续的非关键帧；将深度特征流加入到单幅图像的实例分割网络中，对于每一个分组中的关键帧，直接利用训练好的目标Mask R-CNN网络进行实例分割，对于分组内的其他非关键帧，则通过计算关键帧和非关键帧之间的流场和尺度场，实现特征图在视频帧之间的传播，从而降低了非关键帧特征提取过程的计算量，实现较快的视频实例分割。因此，本发明能够在完成高质量实例分割的同时提升视频实例分割的速度。

本发明根据计算得到流场和尺度场，在已知对应关键帧的多层金字塔特征的前提下，分别计算非关键帧的每一层特征，以得到非关键帧的多层金字塔特征，有利于后续分类、回归和掩码分割等操作的实现。

进一步地，分割网络为目标Mask R-CNN网络中的N_task网络。

进一步地，特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P₁～P_M传播到非关键帧，从而得到非关键帧的特征P₁′～P_M′，包括：

对于关键帧的每一层金字塔特征P_m，根据流场将其中的每一个像素映射到非关键帧的特征P_m′中，并将特征P_m′与尺度场逐像素相乘，以对特征P_m′中的特征翘曲进行矫正；

其中，m表示金字塔特征中的层编号，1≤m≤M。

进一步地，利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练，包括：

基于Mask R-CNN网络和FlowNet网络建立端到端的神经网络训练模型；神经网络训练模型中，Mask R-CNN网络的N_feat网络、FlowNet网络以及Mask R-CNN网络的N_task网络依次连接；Mask R-CNN网络的N_feat网络用于提取已标注的图像的金字塔特征；FlowNet网络用于融合计算N_feat网络所提取的特征流的权值；Mask R-CNN网络的N_task网络用于对FlowNet网络输出的图像生成候选区域，并从中筛选出感兴趣区域后进行感兴趣区域对齐，以及对所有对齐之后的感兴趣区域并行进行分类、回归和掩码分割，并对掩码分割结果进行边缘检测，最终得到分类损失L_cls、回归损失L_box、分割损失L_mask和边缘损失L_edge，加和求得网络损失L；

将已标注的数据集中，每一幅已标注的图像作为一个训练样本，利用该数据集对神经网络训练模型进行训练；对于每一个训练样本，获得对应的网络损失L后，将损失误差梯度反向传播以更新神经网络训练模型的参数；

训练完成后，将所得到的Mask R-CNN网络和FlowNet网络分别作为目标Mask R-CNN网络和目标FlowNet网络。

进一步地，关键帧的序号n_k满足：mod(n_k,l)＝0；

其中，l为帧间隔，mod()表示取模运算，n_k≥0。

按照本发明的第二个方面，提供了一种基于帧间关系的视频实例分割系统，包括：网络训练模块和视频处理模块；

网络训练模块，用于利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练，从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络；

视频处理模块，用于依次获取待处理视频中的每一帧图像，并在获取到任意一帧视频帧I_i后判断其类型，若为关键帧，则利用目标Mask R-CNN网络对视频帧I_i进行实例分割，否则，获得与视频帧I_i属于同一分组的关键帧I_k，并利用预先构建的视频实例分割模型对视频帧I_i进行实例分割；

按照本发明的第三方面，提供了一种系统，包括处理器和计算机可读存储介质，计算机可读存储介质存储有可执行程序；

处理器用于调用计算机可读存储介质中存储的可执行程序，执行本发明第一方面提供的基于帧间关系的视频实例分割方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的基于帧间关系的视频实例分割方法及系统，以关键帧为节点，对视频帧进行分组，使得每一个分组中包括一帧关键帧，以及多帧连续的非关键帧；将深度特征流加入到单幅图像的实例分割网络中，对于每一个分组中的关键帧，直接利用训练好的目标Mask R-CNN网络进行实例分割，对于分组内的其他非关键帧，则通过计算关键帧和非关键帧之间的流场和尺度场，实现特征图在视频帧之间的传播，从而降低了非关键帧特征提取过程的计算量，实现较快的视频实例分割。因此，本发明能够在完成高质量实例分割的同时提升视频实例分割的速度。

(2)本发明所提供的基于帧间关系的视频实例分割方法及系统，根据计算得到流场和尺度场，在已知对应关键帧的多层金字塔特征的前提下，分别计算非关键帧的每一层特征，以得到非关键帧的多层金字塔特征，有利于后续分类、回归和掩码分割等操作的实现。

附图说明

图1为现有的Mask R-CNN网络结构示意图；

图2为现有的FlowNet网络结构示意图；

图3为本发明实施例提供的视频实例分割模型结构示意图；

图4为本发明实施例提供的神经网络训练模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明所提供的基于帧间关系的视频实例分割方法及系统，对于关键帧和非关键帧，采用不同的神经网络模型完成实例分割。在详细解释本发明的技术方案之前，先对本发明所提供的基础神经网络模型进行简要介绍。

Mask R-CNN网络是一个实例分割(Instance segmentation)的神经网络模型，具有很强的扩展性，可以用来做“目标检测”、“目标实例分割”、“目标关键点检测”。Mask R-CNN网络的结构如图1所示，Mask R-CNN网络结构由主干网络(backbone)、头结构(headarchitecture)和掩码分支(mask branch)三个部分组成，其中主干网络为ResNet-50-FPN，用于进行特征提取，头结构用于做边界框识别(分类和回归)，掩码分支用于获得感兴趣区域并对每一个感兴趣区域RoI(Region of Interest)进行区分。这样的网络结构决定了Mask R-CNN网络可以同时完成对目标的分类、回归和分割任务；其中主干网络构成Mask R-CNN网络中的N_feat网络，头结构和掩码分支构成Mask R-CNN网络中的N_task网络，由于ResNet-50-FPN提取金字塔特征的过程计算量大，导致了利用Mask R-CNN网络完成实例分割的方法处理耗时较长。

计算机视觉中视频处理的主要关注点就在于视频中物体的运动，而光流就是用来描述物体运动的常用方法之一。FlowNet网络是一种端到端的神经网络模型，其结构如图2所示，FlowNet网络用于检测图像序列的光流场。光流检测需要逐像素精确定位，并需要找到两幅输入图像之间的对应关系，即FlowNet网络不仅要学习图像的特征表示，还需要学习两幅图像中不同位置像素的匹配。如图2所示，FlowNet网络的输入为两张图像，首先通过一个由卷积层组成的收缩部分(卷积部分)，用以提取各自的特征图，但是这样会使图片缩小，因此需要再通过一个扩大层(去卷积部分)，将其扩展到原图大小，进行光流预测得到光流结果。

基于Mask R-CNN网络和FlowNet网络，本发明所提供的基于帧间关系的视频实例分割方法，包括：

其中，每一个分组由一帧关键帧，以及该关键帧与下一关键帧之间的所有非关键帧组成；如图3所示，视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络；关键帧实例分割网络为目标Mask R-CNN网络，关键帧实例分割网络用于提取关键帧的M层金字塔特征P₁～P_M后，根据所提取的特征对关键帧进行实例分割，具体地，由N_feat网络提取关键帧的M层金字塔特征P₁～P_M，由N_task网络根据特征P₁～P_M完成对关键帧的实例分割；非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络；光流检测网络为目标FlowNet网络，用于计算关键帧与非关键帧之间的流场和尺度场；特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P₁～P_M传播到非关键帧，从而得到非关键帧的特征P₁′～P_M′；分割网络用于根据非关键帧的特征P₁′～P_M′对非关键帧进行实例分割，在本实施例中，分割网络为目标Mask R-CNN网络中的N_task网络。

在本发明实施例中，FlowNet网络具体为FlowNet2.0，通过FlowNet网络计算的关键帧与非关键帧之间的流场(FlowField)反映了非关键帧中各像素与关键帧中像素之间的映射关系，根据流场，可以将非关键帧中坐标为p的像素，映射到关键帧中与其对应的像素位置p+δp，其中，δp＝M_i→k(p)表示特征翘曲，M_i→k为关键帧与非关键帧之间的流场；由于存在光流检测本身的误差或目标遮挡等因素，特征翘曲得到的结果相应会存在误差，可以通过关键帧与非关键帧之间的尺度场(ScaleField)对特征翘曲进行矫正，尺度场与特征图具有相同的空间维度和通道数，将特征图和尺度场进行逐像素相乘，即可对特征图中的特征翘曲进行矫正。

在上述基于帧间关系的视频实例分割方法中，特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P₁～P_M传播到非关键帧，从而得到非关键帧的特征P₁′～P_M′，包括：

其中，m表示金字塔特征中的层编号，1≤m≤M。

在上述基于帧间关系的视频实例分割方法中，利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练，包括：

基于Mask R-CNN网络和FlowNet网络建立端到端的神经网络训练模型；如图4所示，神经网络训练模型中，Mask R-CNN网络的N_feat网络、FlowNet网络以及Mask R-CNN网络的N_task网络依次连接；Mask R-CNN网络的N_feat网络用于提取已标注的图像的金字塔特征；FlowNet网络用于融合计算N_feat网络所提取的特征流的权值；Mask R-CNN网络的N_task网络用于对FlowNet网络输出的图像生成候选区域，并从中筛选出感兴趣区域后进行感兴趣区域对齐，以及对所有对齐之后的感兴趣区域并行进行分类、回归和掩码分割，并对掩码分割结果进行边缘检测，最终得到分类损失L_cls、回归损失L_box、分割损失L_mask和边缘损失L_edge，加和求得网络损失L；

将已标注的数据集中，每一幅已标注的图像作为一个训练样本，利用该数据集对神经网络训练模型进行训练；训练过程中，训练样本首先通过融合空洞卷积的Resnet-50-FPN网络提取金字塔特征，并通过FlowNet网络融合计算特征流的权值，再通过区域提议网络(Region Proposal Network，RPN)生成候选区域，并计算RPN的分类和回归损失以更新优化RPN的网络参数，对筛选得到的候选区域进行感兴趣区域对齐(RoIAlign)，得到与原图对应区域大小相同的感兴趣区域，对每个这样的感兴趣区域并行进行分类、回归和掩码分割，对掩码分割的结果进行边缘检测，最终得到分类损失L_cls、回归损失L_box、分割损失L_mask和边缘损失L_edge，加和求得网络损失L；对于每一个训练样本，获得对应的网络损失L后，将损失误差梯度反向传播以更新神经网络训练模型的参数；

训练完成后，将所得到的Mask R-CNN网络和FlowNet网络分别作为目标Mask R-CNN网络和目标FlowNet网络；

用于模型训练的数据集可根据实际的实例分割需要选取，例如Cityscapes数据集中经过精细标注的数据集等。

非端到端的训练过程往往由多个独立的模块组成，每个模块是一个独立的任务，其结果的好坏会影响到下一步骤，从而影响整个训练的结果。而端到端的训练网络，从输入端(输入数据)到输出端会得到一个预测结果，与真实结果相比较会得到一个误差，这个误差会在模型中的每一层传递(反向传播)，每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束，中间所有的操作都包含在神经网络内部，不再分成多个模块处理。由原始数据输入，到结果输出，从输入端到输出端，中间的神经网络自成一体。本发明通过端到端的神经网络训练方式省去了在每一个独立学习任务执行之前所做的数据标注，通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加模型的整体契合程度。

在本实施例中，关键帧的序号n_k满足：mod(n_k,l)＝0；其中，l为帧间隔，mod()表示取模运算，n_k≥0，即将第0、l、2l、3l……帧视频帧选取为关键帧，这样便于实现和调优；在实际应用中，可依据视频帧内容不同需要设置合适的l来寻求准确率和计算速度之间的平衡；显而易见，对于视频帧内容的变化幅度不同的视频，用于选取关键帧的帧间隔不同；

视频帧内容的变化幅度是指当前视频帧中包含的对象(例如行人、车辆)与关键帧之间的区别，根据视频内容的变化情况设置合适的帧间隔以选取关键帧，能够完成高质量的视频实例分割。

将本发明所提供的基于帧间关系的视频实例分割方法简记为Mask R-CNN+FlowNet方法，将传统的基于Mask R-CNN网络的实例分割方法简记为Mask R-CNN方法，对比l＝5、l＝10、l＝15的Mask R-CNN+FlowNet方法以及Mask R-CNN方法的实例分割速度，具体的实验数据如表1所示，分别记录了每种方法处理一帧图像的平均所需时间，其中分别统计了读入数据、神经网络计算以及绘制输出图像花费的时间。对比分析可知，神经网络计算在整个实例分割过程中花费的时间最多，而在网络计算中，使用ResNet-50-FPN特征提取的时间占整个网络计算时间的66.8％。因此，本发明使用特征传播代替非关键帧的特征提取可以令网络计算时间大大减少。

表1各实例分割方法速度的对比

实例分割方法	处理时间(s)	数据(s)	网络(s)	输出(s)
					Mask R-CNN	1.2712	0.1016	1.1576	0.0120
Mask R-CNN+FlowNet(l＝5)	0.9326	0.1023	0.8172	0.0131
					Mask R-CNN+FlowNet(l＝10)	0.7725	0.1014	0.6585	0.0126
Mask R-CNN+FlowNet(l＝15)	0.7164	0.0991	0.6052	0.0121

本发明还提供了一种基于帧间关系的视频实例分割系统，用于执行上述基于帧间关系的视频实例分割方法的各步骤，该系统包括：网络训练模块和视频处理模块；

其中，每一个分组由一帧关键帧，以及该关键帧与下一关键帧之间的所有非关键帧组成；视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络；关键帧实例分割网络为目标Mask R-CNN网络，关键帧实例分割网络用于提取关键帧的M层金字塔特征P₁～P_M后，根据所提取的特征对关键帧进行实例分割；非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络；光流检测网络为目标FlowNet网络，用于计算关键帧与非关键帧之间的流场和尺度场；特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P₁～P_M传播到非关键帧，从而得到非关键帧的特征P₁′～P_M′；分割网络用于根据非关键帧的特征P₁′～P_M′对非关键帧进行实例分割；

在发明实施例中，各模块的具体实施方式可参考上述方法实施例中的描述，在此将不作复述。

本发明还提供了一种系统，包括处理器和计算机可读存储介质，计算机可读存储介质存储有可执行程序；

处理器用于调用计算机可读存储介质中存储的可执行程序，执行上述基于帧间关系的视频实例分割方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于帧间关系的视频实例分割方法，其特征在于，包括：

依次获取待处理视频中的每一帧图像，并在获取到任意一帧视频帧I_i后判断其类型，若为关键帧，则利用所述目标Mask R-CNN网络对所述视频帧I_i进行实例分割，否则，获得与所述视频帧I_i属于同一分组的关键帧I_k，并利用预先构建的视频实例分割模型对所述视频帧I_i进行实例分割；

其中，每一个分组由一帧关键帧，以及该关键帧与下一关键帧之间的所有非关键帧组成；所述视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络；所述关键帧实例分割网络为所述目标Mask R-CNN网络，所述关键帧实例分割网络用于提取关键帧的M层金字塔特征P₁～P_M后，根据所提取的特征对关键帧进行实例分割；所述非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络；所述光流检测网络为所述目标FlowNet网络，用于计算关键帧与非关键帧之间的流场和尺度场；所述特征传播网络用于根据所述流场和所述尺度场将关键帧的金字塔特征P₁～P_M传播到非关键帧，从而得到非关键帧的特征P₁′～P_M′；所述分割网络用于根据非关键帧的特征P₁′～P_M′对非关键帧进行实例分割；

所述特征传播网络用于根据所述流场和所述尺度场将关键帧的金字塔特征P₁～P_M传播到非关键帧，从而得到非关键帧的特征P₁′～P_M′，包括：

对于关键帧的每一层金字塔特征P_m，根据所述流场将其中的每一个像素映射到非关键帧的特征P_m′中，并将所述特征P_m′与所述尺度场逐像素相乘，以对所述特征P_m′中的特征翘曲进行矫正；

其中，m表示金字塔特征中的层编号，1≤m≤M，特征翘曲为关键帧与非关键帧之间的流场。

2.如权利要求1所述的基于帧间关系的视频实例分割方法，其特征在于，所述分割网络为所述目标Mask R-CNN网络中的N_task网络。

3.如权利要求1或2所述的基于帧间关系的视频实例分割方法，其特征在于，利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练，包括：

基于Mask R-CNN网络和FlowNet网络建立端到端的神经网络训练模型；所述神经网络训练模型中，Mask R-CNN网络的N_feat网络、FlowNet网络以及Mask R-CNN网络的N_task网络依次连接；Mask R-CNN网络的N_feat网络用于提取已标注的图像的金字塔特征；FlowNet网络用于融合计算N_feat网络所提取的特征流的权值；Mask R-CNN网络的N_task网络用于对FlowNet网络输出的图像生成候选区域，并从中筛选出感兴趣区域后进行感兴趣区域对齐，以及对所有对齐之后的感兴趣区域并行进行分类、回归和掩码分割，并对掩码分割结果进行边缘检测，最终得到分类损失L_cls、回归损失L_box、分割损失L_mask和边缘损失L_edge，加和求得网络损失L；

将已标注的数据集中，每一幅已标注的图像作为一个训练样本，利用该数据集对所述神经网络训练模型进行训练；对于每一个训练样本，获得对应的网络损失L后，将损失误差梯度反向传播以更新所述神经网络训练模型的参数；

训练完成后，将所得到的Mask R-CNN网络和FlowNet网络分别作为所述目标Mask R-CNN网络和所述目标FlowNet网络。

4.如权利要求1或2所述的基于帧间关系的视频实例分割方法，其特征在于，关键帧的序号n_k满足：mod(n_k,l)＝0；

其中，l为帧间隔，mod()表示取模运算，n_k≥0。

5.一种基于帧间关系的视频实例分割系统，其特征在于，包括：网络训练模块和视频处理模块；

所述网络训练模块，用于利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练，从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络；

所述视频处理模块，用于依次获取待处理视频中的每一帧图像，并在获取到任意一帧视频帧I_i后判断其类型，若为关键帧，则利用所述目标Mask R-CNN网络对所述视频帧I_i进行实例分割，否则，获得与所述视频帧I_i属于同一分组的关键帧I_k，并利用预先构建的视频实例分割模型对所述视频帧I_i进行实例分割；

6.一种系统，包括处理器和计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有可执行程序；

所述处理器用于调用所述计算机可读存储介质中存储的所述可执行程序，执行权利要求1-4任一项所述的基于帧间关系的视频实例分割方法。