CN110378348B

CN110378348B - 视频实例分割方法、设备及计算机可读存储介质

Info

Publication number: CN110378348B
Application number: CN201910624621.XA
Authority: CN
Inventors: 钱智明; 刘洋
Original assignee: Beijing Seengene Technology Co ltd
Current assignee: Beijing Seengene Technology Co ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-07-09
Anticipated expiration: 2039-07-11
Also published as: CN110378348A

Abstract

本发明提供一种视频实例分割方法、设备及计算机可读存储介质。该方法包括：获得视频中每一帧的主干特征图和多层次特征图；将视频中相邻帧的主干特征图输入至光流估计子网络，得到相邻帧之间的光流信息；根据光流信息，得到相邻帧的共享特征图，将共享特征图与相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图；将后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息；其中，目标检测信息包括目标类别和目标区域位置；将目标检测信息与语义特征图输入至实例分割子网络，得到实例分割结果。在进行视频实例分割时，本发明实施例能够较好地保证分割结果的准确性，即使受到外观恶化影响，本发明实施例也能够达到较好的实例分割效果。

Description

视频实例分割方法、设备及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频实例分割方法、设备及计算机可读存储介质。

背景技术

在视频处理技术领域中，常常要进行视频实例分割。可以理解的是，视频实例分割是指从视频序列中分离出目标，视频实例分割是视频分析和编辑中最重要的任务之一。需要指出的是，由于受到视频中外观恶化的影响，例如受到运动模糊、视频散焦等的影响，现有技术中在进行视频实例分割时，分割结果的准确性较差。

发明内容

本发明实施例提供一种视频实例分割方法、设备及计算机可读存储介质，以解决现有技术中在进行视频实例分割时，分割结果的准确性差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供的一种视频实例分割方法，所述方法包括：

获得视频中每一帧的主干特征图和多层次特征图；

将所述视频中相邻帧的主干特征图输入至光流估计子网络，得到所述相邻帧之间的光流信息；

根据所述光流信息，得到所述相邻帧的共享特征图，将所述共享特征图与所述相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图；

将所述后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息；其中，所述目标检测信息包括目标类别和目标区域位置；

将所述目标检测信息与所述语义特征图输入至实例分割子网络，得到实例分割结果。

第二方面，本发明实施例提供一种视频实例分割装置，所述装置包括：

第一获得模块，用于获得视频中每一帧的主干特征图和多层次特征图；

第二获得模块，用于将所述视频中相邻帧的主干特征图输入至光流估计子网络，得到所述相邻帧之间的光流信息；

处理模块，用于根据所述光流信息，得到所述相邻帧的共享特征图，将所述共享特征图与所述相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图；

第三获得模块，用于将所述后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息；其中，所述目标检测信息包括目标类别和目标区域位置；

第四获得模块，用于将所述目标检测信息与所述语义特征图输入至实例分割子网络，得到实例分割结果。

第三方面，本发明实施例提供一种视频实例分割设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述视频实例分割方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频实例分割方法的步骤。

本发明实施例中，可以获得视频中每一帧的主干特征图和多层次特征图，在进行实例分割时，可以先将视频中相邻帧的主干特征图输入至光流估计子网络，得到相邻帧之间的光流信息，然后根据光流信息，得到相邻帧的共享特征图，将共享特征图与相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图。接下来，可以将后一帧的多层次特征图输入至目标检测子网络，得到包括目标类别和目标区域位置的目标检测信息，之后，将目标检测信息与语义特征图输入至实例分割子网络，可以得到实例分割结果。可见，本发明实施例中综合使用了光流估计子网络、目标检测子网络和实例分割子网络，通过光流估计子网络的使用，能够通过相邻帧的光流信息来提升相邻帧的内容相关性，基于光流信息，以及特征图的融合，能够得到可靠性较高的语义特征图，并且，通过目标检测子网络的使用，能够得到准确率较高的目标检测信息，通过实例分割子网络的使用，可以基于可靠性较高的语义特征图，以及准确率较高的目标检测信息，得到最终的实例分割结果。因此，在进行视频实例分割时，本发明实施例能够较好地保证分割结果的准确性，这样，即使受到外观恶化的影响，本发明实施例也能够达到较好的实例分割效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例提供的视频实例分割方法的流程图；

图2是本发明实施例中视频处理框架的结构图；

图3是本发明实施例中基于卷积的GRU网络的结构图；

图4是本发明实施例中大尺度可分离卷积使用的网络的结构图；

图5为本发明实施例提供的视频实例分割装置的结构框图；

图6为本发明实施例提供的视频实例分割设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

下面首先对本发明实施例提供的视频实例分割方法进行说明。

需要说明的是，本发明实施例提供的视频实例分割方法应用于视频实例分割设备。这里，视频实例分割设备可以是具有视频处理能力的电子设备，例如为服务器，当然，视频实例分割设备的类型并不局限于此，具体可以根据实际情况来确定，本发明实施例对此不做任何限定。

参见图1，图中示出了本发明实施例提供的视频实例分割方法的流程图。如图1所示，该方法包括如下步骤：

步骤101，获得视频中每一帧的主干特征图和多层次特征图。

需要说明的是，视频中的每一帧均为图像帧，对于每一帧，均可以执行获得其的主干特征图和多层次特征图的操作，那么，每一帧均会存在对应的主干特征图和对应的多层次特征图。

在一种具体实施方式中，获得视频中每一帧的主干特征图和多层次特征图，包括：

针对视频中每一帧，将其输入至主干网络，得到其主干特征图；其中，视频中每一帧的主干特征图包括分辨率和网络层次均不同的五张特征图；

针对视频中每一帧，将其的主干特征图中的至少三层特征图进行特征融合处理，得到其多层次特征图；其中，特征融合处理包括上采样、直连和卷积，视频中每一帧的多层次特征图中包括分辨率不同的三张特征图。

这里，主干网络也可以称为Backbone网络。具体地，主干网络可以为残差神经网络(Residual Neural Network，ResNet)或者MobileNet(一种轻量化神经网络)，可选地，MobileNet可以为MobileNet_V2。

需要说明的是，上采样是与下采样相对的概念，上采样也可以称为UpSampling，一般而言，上采样可以用来进行图像放大，例如采用内插方法进行图像放大，即在原有图像像素的基础上，在像素点之间采用合适的插值算法插入新的元素；其中，插值算法可以有很多种，例如基于边缘的图像插值算法和基于区域的图像插值算法。另外，直连也可以称为Contact；卷积也可以称为Convolution或者Conv。

这种实施方式中，在将视频中的任一帧输入主干网络之后，主干网络可以对其进行多次卷积(例如进行101次卷积)，以得到多次卷积对应的多个卷积结果(例如101个卷积结果)，根据多个卷积结果可以得到该帧的主干特征图；其中，每个卷积结果均可以为一特征图，每一特征图可以使用矩阵×通道数的形式进行表示。具体地，通过多次卷积得到的多个卷积结果中可以包括分辨率和网络层次均不同的五张特征图，这五张特征图可以依次对应第一网络层次、第二网络层次、第三网络层次、第四网络层次和第五网络层次，第一网络层次至第五网络层次的层次逐渐升高。具体地，如图2所示，对于视频中的第t帧(即I_t)，其对应的多个卷积结果中可以包括分辨率和网络层次均不同的B_t,1、B_t,2、B_t,3、B_t,4、B_t,5，这时，B_t,1、B_t,2、B_t,3、B_t,4、B_t,5可以组成视频中的第t帧的主干特征图，并且，B_t,1位于第一网络层次，B_t,2位于第二网络层次，B_t,3位于第三网络层次，B_t,4位于第四网络层次，B_t,5位于第五网络层次。

在得到第t帧的主干特征图之后，可以使用特征金字塔网络(Feature PyramidNetwork，FPN)，将第t帧的主干特征图中的至少三层特征图(例如B_t3、B_t4和B_t5)进行特征融合处理，以得到第t帧的多层次特征图，第t帧的多层次特征图中可以包括分辨率不同的三张特征图。具体地，如图2所示，可以先对B_t,5进行卷积，生成H_t,1；然后对H_t,1进行上采样，将上采样结果与B_t,4进行直连，将直连结果进行卷积，以生成H_t,2；之后可以对H_t,2进行上采样，将上采样结果与B_t,3进行直连，将直连结果进行卷积，以生成H_t,3；其中，H_t,1、H_t,2和H_t,3可以组成视频中的第t帧的多层次特征图，H_t,1的分辨率最小，H_t,3的分辨率最大，H_t,2的分辨率居中。

需要指出的是，为了得到第t帧的多层次特征图，也可以同时利用B_t,2、B_t,3、B_t,4、B_t,5，这种情况下获得多层次特征图的过程与上段中的获得过程是类似的，具体参照上段中的相关描述即可，在此不再赘述。

这种实施方式中，利用主干网络，可以非常便捷地得到视频中每一帧的主干特征图，通过对主干特征图的至少三层特征图进行处理，可以非常便捷得到视频中每一帧的多层次特征图，以便于依据得到的主干特征图和多层次特征图，执行后续的步骤。

步骤102，将视频中相邻帧的主干特征图输入至光流估计子网络，得到相邻帧之间的光流信息。

这里，相邻帧是指视频中任意两个相邻的图像帧，例如，视频中的第t-1帧和第t帧是相邻帧，视频中的第t帧和第t+1帧也是相邻帧。

这里，可以仅将视频中相邻帧的主干特征图中的至少部分特征图输入至光流估计子网络，以通过光流估计，得到相邻帧之间的光流信息。需要说明的是，光流估计能够捕捉目标在相邻帧间的运动关系，其被广泛用于视频分析和处理。传统光流估计方法主要采用变分方法，主要针对小位移，而针对目标的大位移，一些组合匹配方法已经整合到变分方法中，例如DeepFlow和EpicFlow。另外，基于深度学习的方法最近已被用于光流，例如，FlowNet系列方法，基于深度学习的特征流表明视频中的信息冗余可以被利用来加速视频识别，同时精度下降很小，本发明实施例中具体可以利用基于深度学习的方法来得到光流信息。

步骤103，根据光流信息，得到相邻帧的共享特征图，将共享特征图与相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图。

这里，相邻帧的共享特征图可以承载有相邻帧的共享特征，这样，在将共享特征图与相邻帧中的后一帧的多层次特征图进行融合后，生成的语义特征图可以认为是利用相邻帧中的前一帧，对相邻帧中的后一帧进行预测得到的特征图，语义特征图与相邻帧中的前后两帧的内容均是紧密相关的。

步骤104，将后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息；其中，目标检测信息包括目标类别和目标区域位置。

这里，目标类别可以用Classification进行表征，目标区域位置可以用Location进行表征。

步骤105，将目标检测信息与语义特征图输入至实例分割子网络，得到实例分割结果。

这里，实例分割也可以称为Instance Segmentation。

需要说明的是，实例分割子网络可以包括：两个卷积层模块、一个反卷积层，以及一个面向分割任务的卷积层；其中，每个卷积层模块均可以包括一个卷积层，一个修正线性单元(Rectified Linear Unit，ReLU)层和一个批归一化层。在一种具体实施方式中，将目标检测信息与语义特征图输入至实例分割子网络，得到实例分割结果，包括：

根据目标检测信息中目标区域位置，对语义特征图进行裁剪，得到目标区域特征；

将目标区域特征经过至少三次卷积和至少一次反卷积，得到多类别掩膜输出，将多类别掩膜输出中目标类别对应的掩膜作为实例分割结果。

由于目标区域特征是根据目标区域位置，对语义特征图进行裁剪得到的，目标区域特征可以为一张能够体现出目标的信息的特征图。在目标区域特征经过至少三次卷积和至少一次反卷积之后，得到的多类别掩膜输出中可以包括多个类别对应的多个掩膜，这时，可以仅从中获取目标类别对应的掩膜，该掩膜可以作为最终的实例分割结果。

这种实施方式中，依据目标检测信息、语义特征图，以及实例分割子网络，可以非常便捷地得到实例分割结果。

可选地，获得视频中每一帧的主干特征图和多层次特征图之前，该方法还包括：

将视频中的帧划分为关键帧和非关键帧；

其中，关键帧的主干特征图中的任一特征图的通道数是非关键帧的主干特征图中的相应特征图的N倍，关键帧的多层次特征图中的任一特征图是非关键帧的多层次特征图中的相应特征图的N倍，N为大于或等于2的整数。

这里，N可以为2、3、4或者5，当然，N的取值并不局限于此，具体可以根据实际情况来确定，本实施例对此不做任何限定。为了便于理解，本实施例中均以N为4的情况为例进行说明。

需要说明的是，对于视频中的帧，在进行关键帧和非关键帧的划分时，可以根据实际处理速度需求设定关键帧和非关键帧的比例，一般而言，该比例可以位于1:5到1:10之间。具体地，可以将视频中的第一帧作为关键帧，然后每隔10帧取一帧作为关键帧，并将其余帧均作为非关键帧。

本实施例中，关键帧的主干特征图中的任一特征图的通道数可以是非关键帧的主干特征图中的相应特征图的4倍，关键帧的多层次特征图中的任一特征图可以是非关键帧的多层次特征图中的相应特征图的4倍。这里，视频中的第t帧可以为关键帧，视频中的第t-1帧可以为非关键帧，第t帧的主干特征图可以包括B_t,1、B_t,2、B_t,3、B_t,4、B_t,5，第t帧的多层次特征图可以包括H_t,1、H_t,2和H_t,3，第t-1帧的主干特征图可以包括B_t-1,1、B_t-1,2、B_t-1,3、B_t-1,4、B_t-1,5，第t-1帧的多层次特征图可以包括H_t-1,1、H_t-1,2、H_t-1,3，那么，B_t,1的通道数可以为B_t-1,1的通道数的4倍，B_t,2的通道数可以为B_t-1,2的通道数的4倍，B_t,3的通道数可以为B_t-1,3的通道数的4倍，B_t,4的通道数可以为B_t-1,4的通道数的4倍；类似地，H_t,1的通道数可以为H_t-1,1的通道数的4倍，H_t,2的通道数可以为H_t-1,2的通道数的4倍，H_t,3的通道数可以为H_t-1,3的通道数的4倍。

本实施例中，通过关键帧的主干特征图中的特征图与非关键帧的主干特征图中的相应特征图的通道数的差异化，以及关键帧的多层次特征图中的特征图与非关键帧的多层次特征图中的相应特征图的通道数的差异化，既能够保证关键帧的实例分割精度，又能够保证非关键帧的实例分割速度。

可选地，视频中每一帧的主干特征图均是利用主干网络得到的，并且，关键帧对应的主干网络通道数乘子为非关键帧的N倍。

这里，视频中每一帧的主干特征图均可以是将该帧输入主干网络后得到的，关键帧和非关键帧对应的主干网络可以均为MobileNet_V2，但是，作为关键帧对应的主干网络的MobileNet_V2的通道数乘子可以为1.4，作为非关键帧对应的主干网络的MobileNet_V2的通道数乘子可以为0.35，这样能够便捷地实现关键帧的主干特征图中的特征图与非关键帧的主干特征图中的相应特征图的通道数的差异化。

可选地，光流估计子网络包括第一卷积层模块、第二卷积层模块和第三卷积层模块；

第一卷积层模块用于将相邻帧的主干特征图中，位于第四网络层次的特征图进行直连后，再进行卷积、ReLU激活和批归一化，得到处理结果；

第二卷积层模块用于将相邻帧中的前一帧的多层次特征图中，分辨率居中的特征图，以及第一卷积层模块的处理结果进行直连后，再进行反卷积、ReLU激活和批归一化，得到处理结果；

第三卷积层模块用于将第二卷积层模块的处理结果进行卷积、ReLU激活和批归一化，得到处理结果；其中，光流信息是从第三卷积层模块的处理结果中提取的。

以图2为例，在视频中的第t帧的主干特征图包括B_t,1、B_t,2、B_t,3、B_t,4、B_t,5，视频帧中的第t帧的多层次特征图包括H_t,1、H_t,2和H_t,3，视频中的第t-1帧的主干特征图包括B_t-1,1、B_t-1,2、B_t-1,3、B_t-1,4、B_t-1,5，视频中的第t-1帧的多层次特征图包括H_t-1,1、H_t-1,2、H_t-1,3的情况下，B_t,1和B_t-1,1可以位于第一网络层次，B_t,2和B_t-1,2可以位于第二网络层次，B_t,3和B_t-1,3可以位于第三网络层次，B_t,4和B_t-1,4可以位于第四网络层次，B_t,5和B_t-1,5可以位于第五网络层次，H_t,2的分辨率在H_t,1、H_t,2和H_t,3三者中可以是居中的，H_t-1,2的分辨率在H_t-1,1、H_t-1,2、H_t-1,3三者中可以是居中的。

对于第一卷积层模块而言，其可以将位于第四网络层次的B_t,4和B_t-1,4先进行直连，然后将直连结果依次进行卷积、ReLU激活和批归一化，以得到处理结果，处理结果可以为图2中的O_t,1，第一卷积层模块可以将O_t,1提供给第二卷积层模块。

需要指出的是，在B_t,4的通道数为B_t-1,4的通道数的4倍的情况下，可以先对B_t,4进行降维处理(例如通过1×1的卷积进行降维)，使B_t,4的通道数与B_t-1,4的通道数相同，然后再对B_t,4与B_t-1,4进行直连。另外，后续实施例中，当不同通道数的特征图进行直连或者相加时，也需要先通过维度调节操作，保证特征图的通道数一致后再进行相应处理。

对于第二卷积层模块而言，其可以将H_t-1,2，以及O_t,1进行直连，然后将直流结果依次进行反卷积、ReLU激活和批归一化，以得到处理结果，处理结果可以为图2中的O_t,2，第二卷积层模块可以将O_t,2提供给第三卷积层模块。

对于第三卷积层模块，其可以将O_t,2依次进行卷积、ReLU激活和批归一化，得到处理结果，处理结果可以为图2中的O_t,3，之后，可以从O_t,3中提取光流信息。

可见，本实施例中，利用由第一卷积层模块、第二卷积层模块和第三卷积层模块组成的光流估计子网络，可以便捷可靠地得到相邻帧之间的光流信息，并且，光流估计子网络的整体结构也非常简单。

可选地，根据光流信息，得到相邻帧的共享特征图，包括：

根据光流信息，对相邻帧中的前一帧的多层次特征图中，分辨率最大的特征图进行特征扭曲，得到相邻帧的共享特征图。

这里，特征扭曲也可以称为Feature Warping。

仍以图2为例，在得到光流信息之后，可以根据光流信息，对H_t-1,3进行特征扭曲，以得到作为相邻帧的共享特征图的W_t,t-1。可见，本实施例中，得到共享特征图的操作实施起来非常便捷。

可选地，将共享特征图与相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图，包括：

将共享特征图与相邻帧中后一帧的多层次特征图中分辨率最大的特征图进行相加后，对相加结果进行批归一化，并将批归一化结果输入至基于卷积的门控循环单元(Gated Recurrent Unit，GRU)网络中，得到语义特征图。

这里，基于卷积的GRU网络也可以称为ConvGRU网络，ConvGRU网络具体可以为基于Bottleneck(即瓶颈)卷积的GRU网络。

仍以图2为例，在得到作为相邻帧的共享特征图的W_t,t-1之后，可以先将W_t,t-1与H_t,3进行相加，对相加结果进行批归一化，并将批归一化结果输入至ConvGRU，以得到语义特征图S_t，S_t具体为视频中第t帧的语义特征图。这里，视频中第t-1帧也可以具有语义特征图，该语义特征图可以为S_t-1，为了得到S_t，可以将W_t,t-1与H_t,3的相加结果进行批归一化后得到的批归一化结果，以及S_t作为两个输入数据输入至ConvGRU网络，以得到ConvGRU网络的输出数据，该输出数据即可作为S_t。

需要说明的是，ConvGRU网络的结构图可以如图3所示，在使用ConvGRU网络时，只需给ConvGRU网络提供两个输入数据，ConvGRU网络即可输出一个输出数据，ConvGRU网络基于两个输入数据，得到输出数据的流程可以为：

利用公式B_t＝Conv1([X_t,Y_t-1])，计算B_t；

利用公式R_t＝σ(Conv2(B_t))和Z_t＝σ(Conv2(B_t))，计算R_t和Z_t；

利用公式C_t＝Conv1([X_t,R_t*Y_t-1])，计算C_t；

利用公式T_t＝tanh(Conv2(C_t))，计算T_t；

利用公式Y_t＝(1-Z_t)*Y_t-1+Z_t*T_t，计算Y_t；

其中，X_t为两个输入数据中的一者，Y_t-1为两个输入数据中的另一者，H_t为输出数据，Conv1为1×1的卷积，Conv2为3×3的卷积，σ为Sigmoid函数，tanh为正切函数，Y_t为输出数据。

可见，本实施例中，通过使用ConvGRU网络，可以非常便捷地实现共享特征图与相邻帧中的后一帧的多层次特征图的融合，以实现目标时间序列上的特征信息的融合。

可选地，将后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息，包括：

根据后一帧的多层次特征图中分辨率居中的特征图，得到用于表征每个候选区域是否包含目标的估计结果，并根据估计结果，得到目标候选区域；

对后一帧的多层次特征图中分辨率居中的特征图进行卷积和大尺度可分离卷积后输入到基于卷积的GRU网络中，得到目标检测特征图；

根据目标候选区域，对目标检测特征图进行裁剪，得到候选目标区域特征；

根据候选目标区域特征，确定目标类别，并通过回归得到优化的目标区域位置；

根据目标类别和优化的目标区域位置，得到目标检测信息。

这里，目标检测子网络可以包括区域推荐网络(Region Proposal Network，RPN)、位置敏感的候选区域池化(Position Sensitive RoI Pooling，PSRoIPooling)、区域分类与回归模块，以及RoIAlign模块等。

具体实施时，可以先将H_t,1输入至RPN，以得到用于表征H_t,1中的每个候选区域是否包含目标的估计结果，这里，候选区域的数量可能有上万个，数十万个等。接下来，对于估计结果指示包含目标的候选区域，可以使用非极大值抑制(Non Maximum Suppression，NMS)方式对其处理，以得到目标候选区域，这时，目标候选区域的数量相比于候选区域的数量可以大大减少，例如，目标候选区域的数量可以为上千个。

另外，还可对将H_t,1进行卷积，以得到图2中的D_t,1，之后，可以对D_t,1进行大尺度可分离卷积，并根据大尺度可分离卷积结果，得到作为目标检测特征图的D_t,2。这里，大尺度可分离卷积也可以称为Large Sep Conv，大尺度可分离卷积使用的网络的结构图可以如图4所示，图4中的K的取值可以为15，也就是说，进行大尺度可分离卷积时使用的可以为1×15的卷积或者15×1的卷积。

需要说明的是，D_t,2具体为视频中第t帧的目标检测特征图，这里，视频中第t-1帧也可以具有目标检测特征图，该目标检测特征图可以为D_t-1,2，为了得到D_t,2，可以将D_t,1的大尺度可分离卷积结果，以及D_t-1,2作为两个输入数据输入至ConvGRU网络，以得到ConvGRU网络的输出数据，该输出数据即可作为D_t,2。需要指出的是，ConvGRU网络基于两个输入数据得到输出数据的过程参照上述实施例中的说明即可，在此不再赘述。

接下来，可以由RoIAlign模块根据目标候选区域，对作为目标检测特征图的D_t,2进行裁剪，以得到候选目标区域特征，可以由区域分类与回归模块根据目标候选区域特征，确定目标类别，并通过进一步回归得到优化的目标区域位置。之后，可以由RoIAlign模块获得包括目标类别和优化的目标区域位置的目标检测信息，目标检测信息可以用于后续的实例分割。

可见，本实施例中，利用包括RPN、区域分类与回归模块，RoIAlign模块等的目标检测子网络，可以便捷可靠地得到目标检测信息，并且，通过引入大尺度可分离卷积操作，有利于增加进行目标检测时的检测视野，这样能够较好地保证检测结果的可靠性。

由上述内容可知，本实施例中总共可以涉及三个子网络，分别为光流估计子网络、目标检测子网络、视频实例分割子网络。具体地，光流估计子网络可以用于实现得到图2中的O_t,1，O_t,2、O_t等的过程，光流估计子网络可以捕捉连续帧之间的光流信息，并通过特征扭曲进一步得到共享特征图W_t,t-1。目标检测子网络可以用于实现得到图2中的D_t,1、D_t,2等的过程，目标检测子网络可以采用基于区域的全卷积网络(Region-based FullyConvolutional Networks，RFCN)架构，并通过ConvGRU网络来融合时序特征，从而为实例分割提供更精确的目标检测信息。实例分割子网络可以将特征图H_t,3与上述共享特征图W_t,t-1进行特征相加处理，并进一步利用ConvGRU网络来融合目标时间序列上的特征信息，最后根据目标检测信息获得实例分割结果。

另外，在处理关键帧和非关键帧上，可以分别采用两个网络，这两个网络均由MobileNetV2构成，但两个网络的通道数乘子不同，例如，前者的通道数乘子为1.4，后者的通道数乘子为0.35。关键帧的主干网络特征图和特征图H_t,1、H_t,2和D_t,1的通道数均为非关键帧的对应特征图的4倍，特征图H_t,3、D_t,2以及光流估计子网络部分特征图结构保持不变，因此在光流估计子网络上，关键帧的特征图可以通过1×1的卷积降维后再进行特征融合。

构建视频处理框架；其中，视频处理框架包括光流估计子网络、目标检测子网络和实例分割子网络；

计算视频处理框架的光流估计误差；

根据光流估计误差，对视频处理框架进行误差修正。

这里，光流估计误差L可以为：

L＝L_cls+L_box+L_flow+L_mask；

其中，L_cls、L_box、L_flow和L_mask分别为区域分类、位置回归、光流估计和掩模的误差损失函数，L_cls通过多类交叉熵进行度量，L_box通过SmoothedL₁函数进行度量，L_flow通过均方误差进行度量，L_mask则通过二值交叉熵进行度量。

这里，视频处理框架可以为用于视频实例分割的端到端学习框架(Multi-features Fusion for Video Instance Segmentation，MFVIS)。对于构建好的视频处理框架，可以利用上述公式计算得到光流估计误差L。在得到L之后，可以调整视频处理框架中的至少部分参数或者使用到的算法，例如，可以调整目标检测子网络中对D_t,1进行大尺度可分离卷积时使用的卷积，并在调整之后，再次计算L，并比对前后计算得到的L的差异，并根据差异结果再次进行参数或算法的调整，以通过多次调整，实现视频处理框架的误差修正，从而将视频处理框架的L降低至较低的水平，以保证后续利用视频处理框架进行视频实例分割时，分割结果的准确性。

需要指出的是，现有技术中的视频实例分割方法是基于启发式后处理，而不是基于视频内容学习，因而不能够提高目标检测与分割质量，并且，由于视频运动，相同目标在不同帧的空间上是不对齐的且有一定的形变，导致朴素的特征融合甚至可能使性能恶化。

现有技术中，早期的实例分割方法一般先提出分割候选区域，再对候选区域进行分类，然后对有目标的区域进行目标检测，最后在检测区域内对目标进行分割。而有研究人员提出了组合分割建议系统和目标检测系统用于全卷积实例分割(FCIS)。在此基础上，MASK R-CNN并行的预测类别和位置框坐标的同时为每一个RoI输出一个二元掩膜，并采用RoIAlign来减少量化误差，大大提高了实例分割的性能。

一般而言，视频实例分割方法可分为基于传播的方法和基于检测的方法；其中，基于传播的方法主要利用目标运动的时间相关性，并将此问题表达为从给定的带分割标记的帧开始的目标信息传播。这些方法依赖于像素之间的时空连接，可以适应目标的复杂变形和移动。然而，这些方法容易受到像遮挡和快速运动这样的时间不连续性的影响，并且一旦传播变得不可靠，就会遭受漂移。基于检测的方法从给定的带注释的帧中学习目标的外观，并在每一帧执行目标对象的像素级检测。由于它们很少依赖时间一致性，因此它们在处理目标遮挡和漂移方面较有成效。然而，由于他们的估计主要基于注解帧中的目标外观，所以它们往往不能适应外观变化并且难以用具有相似外观的目标实例进行分离。近期解决这个问题的方法是利用深度神经网络，但该方法很大程度上依赖于在线学习，尽管在线学习通过让网络适应目标对象的外观来提高分割准确性，但计算上是昂贵的，因此限制了它的实际使用。

另外，在进行视频目标检测时，几乎所有已存在的方法都是仅在最后阶段“位置框后处理”中包含时间信息，已存在的方法可以包括管卷积神经网络(Tube ConvolutionalNeural Network，T-CNN)、Seq-NMS、基于变换点检测的多目标跟踪(Multi-Class Multi-Object Tracking using Changing Point Detection，MCMOT)。具体地，T-CNN根据预先计算的光流将预测的位置框传播到相邻帧，然后利用来自高信任位置框的跟踪算法生成目标候选位置框。Seq-NMS沿着连续帧的附近高精度位置框构建序列，将序列的框重新评分为平均信度，抑制接近该序列的其他框。MCMOT将后处理制定为多对象跟踪问题。一系列人工规则(例如，关于滤波器的检测器，颜色/运动线索，变化点检测和前向后验证)用于确定位置框是否属于被跟踪对象，并进一步重新确定跟踪结果。不幸的是，所有这些方法都是多阶段传输途径，每个阶段的结果将依赖于前一阶段的结果。因此，很难纠正前一阶段产生的错误。相比之下，我们的方法考虑特征层次的时间信息而不是最终的目标框层次。

有鉴于此，本实施例提出了一种用于进行视频实例分割的方法，该方法可用于现实增强中目标的实时交互，该方法使用一种端对端学习框架，该方法考虑特征层次的时间信息而不是最终的目标框层次，该方法通过多层次特征融合的方式来综合利用视频中时序特征、光流特征和目标语义特征，以得到分割质量较高的实例目标；本实施例通过基于ConvGRU网络来学习目标运动路径上时序特征，通过相邻帧的光流特征来提升相邻帧的内容相关性，通过关键帧的特征学习来提升视频分割精度，通过非关键帧的快速学习来提高视频处理速度。这样，本实施例能够结合基于传播的视频实例分割方法和基于检测的视频实例分割方法的优势，利用关键帧的高精度实例分割来抑制目标漂移，并结合时序信息和光流信息进行多层次特征融合，使得视频实例分割在处理速度提高的同时能够获得较高的实例分割精度，从而实现实时的高质量的视频实例分割。因此，本实施例能够较好地实现分割速度与分割精度的平衡，其的处理速度在单片显卡(如GTX 1080Ti)上可以达到40fps(即每秒40帧)。

下面对本发明实施例提供的视频实例分割装置进行说明。

参见图5，图中示出了本发明实施例提供的视频实例分割装置500的结构框图。如图5所示，视频实例分割装置500包括：

第一获得模块501，用于获得视频中每一帧的主干特征图和多层次特征图；

第二获得模块502，用于将视频中相邻帧的主干特征图输入至光流估计子网络，得到相邻帧之间的光流信息；

处理模块503，用于根据光流信息，得到相邻帧的共享特征图，将共享特征图与相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图；

第三获得模块504，用于将后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息；其中，目标检测信息包括目标类别和目标区域位置；

第四获得模块505，用于将目标检测信息与语义特征图输入至实例分割子网络，得到实例分割结果。

可选地，第一获得模块501，包括：

第一获得子模块，用于针对视频中每一帧，将其输入至主干网络，得到其主干特征图；其中，视频中每一帧的主干特征图包括分辨率和网络层次均不同的五张特征图；

第二获得子模块，用于针对视频中每一帧，将其的主干特征图中的至少三层特征图进行特征融合处理，得到其多层次特征图；其中，特征融合处理包括上采样、直连和卷积，视频中每一帧的多层次特征图中包括分辨率不同的三张特征图。

可选地，视频实例分割装置500还包括：

划分模块，用于在获得视频中每一帧的主干特征图和多层次特征图之前，将视频中的帧划分为关键帧和非关键帧；

第一卷积层模块用于将相邻帧的主干特征图中，位于第四网络层次的特征图进行直连后，再进行卷积、修正线性单元ReLU激活和批归一化，得到处理结果；

第三卷积层模块用于将第二卷积层模块的处理结果进行卷积、ReLU激活和批归一化处理，得到处理结果；其中，光流信息是从第三卷积层模块的处理结果中提取的。

可选地，处理模块503，具体用于：

将共享特征图与相邻帧中后一帧的多层次特征图中分辨率最大的特征图进行相加后，对相加结果进行批归一化，并将批归一化结果输入至基于卷积的门控循环单元GRU网络中，得到语义特征图。

可选地，第三获得模块504，包括：

第三获得子模块，用于根据后一帧的多层次特征图中分辨率居中的特征图，得到用于表征每个候选区域是否包含目标的估计结果，并根据估计结果，得到目标候选区域；

第四获得子模块，用于对后一帧的多层次特征图中分辨率居中的特征图进行卷积和大尺度可分离卷积后输入到基于卷积的GRU网络中，得到目标检测特征图；

第五获得子模块，用于根据目标候选区域，对目标检测特征图进行裁剪，得到候选目标区域特征；

第六获得子模块，用于根据候选目标区域特征，确定目标类别，并通过回归得到优化的目标区域位置；

第七获得子模块，用于根据目标类别和优化的目标区域位置，得到目标检测信息。

可选地，第四获得模块505，包括：

第八获得子模块，用于根据目标检测信息中目标区域位置，对语义特征图进行裁剪，得到目标区域特征；

第九获得子模块，用于将目标区域特征经过至少三次卷积和至少一次反卷积，得到多类别掩膜输出，将多类别掩膜输出中目标类别对应的掩膜作为实例分割结果。

可见，本发明实施例中综合使用了光流估计子网络、目标检测子网络和实例分割子网络，通过光流估计子网络的使用，能够通过相邻帧的光流信息来提升相邻帧的内容相关性，基于光流信息，以及特征图的融合，能够得到可靠性较高的语义特征图，并且，通过目标检测子网络的使用，能够得到准确率较高的目标检测信息，通过实例分割子网络的使用，可以基于可靠性较高的语义特征图，以及准确率较高的目标检测信息，得到最终的实例分割结果。因此，在进行视频实例分割时，本发明实施例能够较好地保证分割结果的准确性，这样，即使受到外观恶化的影响，本发明实施例也能够达到较好的实例分割效果。

下面对本发明实施例提供的视频实例分割设备进行说明。

参见图6，图中示出了本发明实施例提供的视频实例分割设备600的结构示意图。如图6所示，视频实例分割设备600包括：处理器601、存储器603、用户接口604和总线接口。

处理器601，用于读取存储器603中的程序，执行下列过程：

获得视频中每一帧的主干特征图和多层次特征图；

将视频中相邻帧的主干特征图输入至光流估计子网络，得到相邻帧之间的光流信息；

根据光流信息，得到相邻帧的共享特征图，将共享特征图与相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图；

将后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息；其中，目标检测信息包括目标类别和目标区域位置；

将目标检测信息与语义特征图输入至实例分割子网络，得到实例分割结果。

在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器601代表的一个或多个处理器和存储器603代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备，用户接口604还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器601负责管理总线架构和通常的处理，存储器603可以存储处理器601在执行操作时所使用的数据。

可选地，处理器601，具体用于：

可选地，处理器601，还用于：

在获得视频中每一帧的主干特征图和多层次特征图之前，将视频中的帧划分为关键帧和非关键帧；

可选地，处理器601，具体用于：

对后一帧的多层次特征图中分辨率居中的特征图进行卷积和大尺度可分离卷积后输入到基于卷积的门控循环单元GRU网络中，得到目标检测特征图；

根据目标类别和优化的目标区域位置，得到目标检测信息。

可选地，处理器601，具体用于：

优选地，本发明实施例还提供一种视频实例分割设备，包括处理器601，存储器603，存储在存储器603上并可在处理器601上运行的计算机程序，该计算机程序被处理器601执行时实现上述视频实例分割方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频实例分割方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频实例分割方法，其特征在于，所述方法包括：

获得视频中每一帧的主干特征图和多层次特征图；

将所述目标检测信息与所述语义特征图输入至实例分割子网络，得到实例分割结果；

其中，所述将所述共享特征图与所述相邻帧中的后一帧的多层次特征图进行融合，生成语义特征图，包括：

将所述共享特征图与所述相邻帧中后一帧的多层次特征图中分辨率最大的特征图进行相加后，对相加结果进行批归一化，并将批归一化结果输入至基于卷积的门控循环单元GRU网络中，得到语义特征图。

2.根据权利要求1所述的方法，其特征在于，所述获得视频中每一帧的主干特征图和多层次特征图，包括：

针对视频中每一帧，将其输入至主干网络，得到其主干特征图；其中，所述视频中每一帧的主干特征图包括分辨率和网络层次均不同的五张特征图；

针对所述视频中每一帧，将其的主干特征图中的至少三层特征图进行特征融合处理，得到其多层次特征图；其中，所述特征融合处理包括上采样、直连和卷积，所述视频中每一帧的多层次特征图中包括分辨率不同的三张特征图。

3.根据权利要求1所述的方法，其特征在于，所述获得视频中每一帧的主干特征图和多层次特征图之前，所述方法还包括：

将视频中的帧划分为关键帧和非关键帧；

其中，所述关键帧的主干特征图中的任一特征图的通道数是所述非关键帧的主干特征图中的相应特征图的N倍，所述关键帧的多层次特征图中的任一特征图是所述非关键帧的多层次特征图中的相应特征图的N倍，N为大于或等于2的整数。

4.根据权利要求3所述的方法，其特征在于，所述视频中每一帧的主干特征图均是利用主干网络得到的，并且，所述关键帧对应的主干网络通道数乘子为所述非关键帧的N倍。

5.根据权利要求1所述的方法，其特征在于，所述光流估计子网络包括第一卷积层模块、第二卷积层模块和第三卷积层模块；

所述第一卷积层模块用于将所述相邻帧的主干特征图中，位于第四网络层次的特征图进行直连后，再进行卷积、修正线性单元ReLU激活和批归一化，得到处理结果；

所述第二卷积层模块用于将所述相邻帧中的前一帧的多层次特征图中，分辨率居中的特征图，以及所述第一卷积层模块的处理结果进行直连后，再进行反卷积、ReLU激活和批归一化，得到处理结果；

所述第三卷积层模块用于将所述第二卷积层模块的处理结果进行卷积、ReLU激活和批归一化处理，得到处理结果；其中，所述光流信息是从所述第三卷积层模块的处理结果中提取的。

6.根据权利要求1所述的方法，其特征在于，所述根据所述光流信息，得到所述相邻帧的共享特征图，包括：

根据所述光流信息，对所述相邻帧中的前一帧的多层次特征图中，分辨率最大的特征图进行特征扭曲，得到所述相邻帧的共享特征图。

7.根据权利要求1所述的方法，其特征在于，所述将所述后一帧的多层次特征图输入至目标检测子网络，得到目标检测信息，包括：

根据所述后一帧的多层次特征图中分辨率居中的特征图，得到用于表征每个候选区域是否包含目标的估计结果，并根据所述估计结果，得到目标候选区域；

对所述后一帧的多层次特征图中分辨率居中的特征图进行卷积和大尺度可分离卷积后输入到基于卷积的门控循环单元GRU网络中，得到目标检测特征图；

根据所述目标候选区域，对所述目标检测特征图进行裁剪，得到候选目标区域特征；

根据所述候选目标区域特征，确定目标类别，并通过回归得到优化的目标区域位置；

根据所述目标类别和优化的目标区域位置，得到目标检测信息。

8.根据权利要求1所述的方法，其特征在于，所述将所述目标检测信息与所述语义特征图输入至实例分割子网络，得到实例分割结果，包括：

根据所述目标检测信息中目标区域位置，对所述语义特征图进行裁剪，得到目标区域特征；

将所述目标区域特征经过至少三次卷积和至少一次反卷积，得到多类别掩膜输出，将所述多类别掩膜输出中所述目标类别对应的掩膜作为实例分割结果。

9.一种视频实例分割设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的视频实例分割方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的视频实例分割方法的步骤。