CN115171020A

CN115171020A - 一种完全卷积的实时视频实例分割方法

Info

Publication number: CN115171020A
Application number: CN202210843346.2A
Authority: CN
Inventors: 刘盛; 陈瑞祥; 郭炳男; 陈俊皓; 张峰; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-10-11

Abstract

本发明公开了一种完全卷积的实时视频实例分割方法，首先待处理图像，输入到特征提取网络提取低阶、中阶和高阶初始特征图；然后将低阶、中阶和高阶初始特征图输入到编码器，进行融合拼接，得到编码特征；将编码特征输入到解码器，所述解码器包括掩码生成分支和实例激活分支，编码特征输入到掩码生成分支后得到分割掩码，编码特征输入到实例激活分支后得到动态卷积核、分类信息和匹配信息；最后将分割掩码与动态卷积核做动态卷积得到最终实例分割结果。本发明使用了以一种新的实例激活模块提高了检测精度，最后使用了二部匹配机制，极大的减少了模型的推理时间，提高了实时性，提高了视频实例分割的精度。

Description

一种完全卷积的实时视频实例分割方法

技术领域

本申请属于视频实例分割技术领域，涉及一种完全卷积的实时视频实例分割方法。

背景技术

视频实例分割(VIS)是一项基础的视觉任务，其对许多下游任务都有帮助，包括自动驾驶、视频监控、人群检测等等，其目标是给定一个视频，要求算法能够将其中的目标进行分割(生成掩码)，跟踪并且对其进行类别判断。其与目标跟踪相比，视频实例分割需要给出比目标框更加精细的定位(掩码)，与实例分割相比，视频实例分割需要将视频中的每一帧中的同一实例进行跟踪。

现有的视频实例分割算法通常为包含多模块、多阶段的复杂流程。最早的MaskTrack R-CNN算法同时包含实例分割和跟踪两个模块，通过在图像实例分割算法Mask R-CNN的网络之上增加一个跟踪的分支实现，该分支主要用于实例特征的提取。在预测阶段，该方法利用外部Memory模块进行多帧实例特征的存储，并将该特征作为实例关联的一个要素进行跟踪。该方法的本质仍然是单帧的分割加传统方法进行跟踪关联。Maskprop在MaskTrack R-CNN的基础上增加了Mask Propagation的模块以提升分割Mask生成和关联的质量，该模块可以实现当前帧提取的mask到周围帧的传播，但由于帧的传播依赖于预先计算的单帧的分割Mask，因此要得到最终的分割Mask需要多步的Refinement。该方法的本质仍然是单帧的提取加帧间的传播，且由于其依赖多个模型的组合，方法较为复杂，速度也更慢。

Stem-seg将视频实例分割划分为实例的区分和类别的预测两个模块。为了实现实例的区分，模型将视频的多帧Clip构建为3D Volume，通过对像素点的Embedding特征进行聚类实现不同物体的分割。由于上述聚类过程不包含实例类别的预测，因此需要额外的语义分割模块提供像素的类别信息。根据以上描述，现有的算法大多沿袭单帧图像实例分割的思想，将视频实例分割任务划分为单帧的提取和多帧的关联多个模块，针对单个任务进行监督和学习，处理速度较慢且不利于发挥视频时序连续性的优势。本文旨在提出一个端到端的模型，将实例的检测、分割和跟踪统一到一个框架下实现，有助于更好地挖掘视频整体的空间和时序信息，且能够以较快的速度解决视频实例分割的问题。

发明内容

本申请提出了一种完全卷积的实时视频实例分割方法，来提高视频实例分割精度和速度。

为了实现上述目的，本申请技术方案如下：

一种完全卷积的实时视频实例分割方法，包括：

获取待处理图像，输入到特征提取网络提取低阶、中阶和高阶初始特征图；

将低阶、中阶和高阶初始特征图输入到编码器，进行融合拼接，得到编码特征；

将编码特征输入到解码器，所述解码器包括掩码生成分支和实例激活分支，编码特征输入到掩码生成分支后得到分割掩码，编码特征输入到实例激活分支后得到动态卷积核、分类信息和匹配信息；

将分割掩码与动态卷积核做动态卷积得到最终实例分割结果。

进一步的，编码器包括三个分支，第一分支包括一个金字塔池化模块和一个卷积模块，高阶初始特征图经过第一分支后得到第一分支输出特征；第二分支也包括一个金字塔池化模块和一个卷积模块，中阶初始特征图经过金字塔池化模块后，与第一分支金字塔池化模块的输出特征相加，然后经过卷积模块得到第二分支输出特征；第三分支包括一个卷积模块，低阶初始特征图与第二分支金字塔池化模块的输出特征相加，然后经过卷积模块得到第三分支输出特征；最后将第一分支输出特征、第二分支输出特征和第三分支输出特征连接后，作为编码器输出的编码特征。

进一步的，所述掩码生成分支，输入的编码特征依次经过3x3卷积层、BatchNorm层和ReLU激活函数得到特征1，然后经过1x1卷积层、BatchNorm层和sigmoid激活函数得到特征2，所述的特征1和所述的特征2元素相加的到特征3，特征3经过一个7×7的卷积层，激活函数为Sigmoid，得到权重系数Ms；最后，权重系数Ms与输入的编码特征相乘即可得到分割掩码。

进一步的，所述实例激活分支，执行如下操作：

将编码特征输入到一个单阶段的目标检测网络当中，生成实例的检测框信息和置信度信息；

目标检测网络的输出特征输入到实例激活映射模块，得到实例激活特征；

将实例激活特征通过三个全连接层得到动态卷积核、分类信息和匹配信息；

其中，所述目标检测网络为Fcos网络，所述实例激活映射模块，执行如下操作：

对输入特征(C，H，W)进行卷积操作，将输入的通道数变为400，并将特征的长度维度和宽度维度展平，得到特征(400，H*W)；

将输入特征的长宽维度相乘，再经过变换得到特征(H*W，C)；

将所述特征(400，H*W)和特征(H*W，C)相乘得到实例激活特征。

进一步的，所述完全卷积的实时视频实例分割方法，还包括：

在训练时，整体损失函数如下：

其中，

表示目标分类损失，

表示掩码损失，

表示目标框损失，λ_c和λ_s为权重系数；

其中，

和

为骰子损失和像素级二进制交叉熵损失，λ_dice和λ_pix为对应的权重系数。

本申请提出的一种完全卷积的实时视频实例分割方法，使用了池化金字塔方法，提高了网络提取全局信息的能力，扩大了网络的感受野，提高了网络的性能。为了增强网络提取全局和局部特征的能力，提出了基于稀疏卷积的空间注意力机制提取特征图关键信息，使用了以一种新的实例激活模块提高了检测精度。最后使用了二部匹配机制，极大的减少了模型的推理时间，提高了实时性。

附图说明

图1为本申请完全卷积的实时视频实例分割方法流程图；

图2为本申请实例分割网络示意图；

图3为本申请实施例掩码生成分支结构示意图；

图4为本申请实施例实例激活分支结构示意图；

图5为本申请实施例实例激活映射模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

如图1所示，提供了一种完全卷积的实时视频实例分割方法，包括：

步骤S1、获取待处理图像，输入到特征提取网络提取低阶、中阶和高阶初始特征图。

本实施例中，给定一张待处理图像Image∈R^3×H×W，其中3代表RGB通道，H和W表示图像的高与宽，进行预处理。最后将输入的图片缩放至224×224。最后图片的维度为BatchSize×Channel×224×224。其中BatchSize为训练过程将数据划分的组数，Channel为图片维度。

在进行网络模型训练和实际的应用中，对图片的预处理方式是不同的。在训练的过程中，为了增强模型的泛化性能，需要对图片进行数据增广，然后对图片进行随机的裁剪，之后再对图片缩放至一定尺寸。由于输入图片的像素范围为0到255，在这个范围内进行训练是不稳定，需要将图片的像素值等比缩放到0至1，因此预处理需要进一步对图像的像素值进行归一化。

然而在已经训练好网络模型后的实际应用中，不需要对图片进行数据增广，只需要将待处理图像进行缩放以及标准化即可。

本实施例采用ResNet50作为特征提取网络(也称为骨干网backbone)，将预处理后的图片输入至ResNet50提取图像特征。特征提取网络提取得到三个尺度的特征图(Res3、Res4、Res5)，其输出为一系列不同大小的特征图

其中的

为{512,1024,2048}，

对应到原图高的1/8，1/16，1/32，同理

则是对应到原图的宽，比例与高一样，这里将获取的不同特征图作为下一部分的输入。其中Res3、Res4、Res5依次称为低阶、中阶和高阶初始特征图，特征图大小分别是原始图片的八分之一，十六分之一和三十二分之一。

步骤S2、将低阶、中阶和高阶初始特征图输入到编码器，进行融合拼接，得到编码特征。

如图2所示，编码器包括三个分支，第一分支包括一个金字塔池化模块(PM)和一个卷积模块(conv)，高阶初始特征图经过第一分支后得到第一分支输出特征；第二分支也包括一个金字塔池化模块和一个卷积模块，中阶初始特征图经过金字塔池化模块后，与第一分支金字塔池化模块的输出特征相加，然后经过卷积模块得到第二分支输出特征；第三分支包括一个卷积模块，低阶初始特征图与第二分支金字塔池化模块的输出特征相加，然后经过卷积模块得到第三分支输出特征；最后将第一分支输出特征、第二分支输出特征和第三分支输出特征连接后，作为编码器输出的编码特征。

金字塔池化模块会将输入特征池化成不同大小的4个特征层，再通过上采样或者下采样缩放到相同大小尺寸最后做拼接，得到PM模块的输出。

本实施例编码器这样的操作可以有效的提高特征图对于不同大小的实例的敏感度，使得后续的预测结果对小目标更加敏感。

步骤S3、将编码特征输入到解码器，所述解码器包括掩码生成分支(Mask)和实例激活分支(Instance)，编码特征输入到掩码生成分支后得到分割掩码，编码特征输入到实例激活分支后得到动态卷积核、分类信息和匹配信息。

本实施例编码特征在解码器中将分别进入两个分支模块，即掩码生成分支和实例激活分支。

在掩码生成分支中，如图3所示，输入的编码特征依次经过3x3卷积层、BatchNorm层和ReLU激活函数得到特征1，然后经过1x1卷积层、BatchNorm层和sigmoid激活函数得到特征2，所述的特征1和所述的特征2元素相加的到特征3，特征3经过一个7×7的卷积层，激活函数为Sigmoid，得到权重系数Ms。最后，Ms与输入的编码特征相乘即可得到分割掩码ObjectMask。

在实例激活分支中，如图4所示，首先将编码特征输入到一个单阶段的目标检测网络当中，这里使用Fcos网络(图3中标识为FcosMask)，通过目标检测网络，会强化后续实例激活特征的实例信息。在目标检测网络中，会生成实例的检测框信息和置信度信息，这些信息都会加入到损失函数的计算当中，这一过程也会提高后续的实例激活特征的语义丰富度。

为了得到一个稀疏的实例激活特征，Fcos网络的输出会输入到实例激活映射模块(Siam)，所述实例激活映射模块，执行如下操作：

将输入特征的长宽维度相乘，再经过变换得到特征(H*W，C)；

将所述特征(400，H*W)和特征(H*W，C)相乘得到实例激活特征。

具体的，如图5所示，Siam模块输入的通道数是256，尺寸就是H*W，表示为(256，H，W)。Siam模块包含3乘3卷积层和relu激活层，Siam模块将输入的通道数变为400，并将特征的长度维度和宽度维度展平，得到特征(400，H*W)。将Fcos网络的输出特征的长宽维度相乘得到特征(256，h*w)再通过view操作得到特征(h*w，256)，将该特征与Siam的输出相乘得到实例激活特征InstanceActivationFeature。

本实施例与以往的很多图像级实例分割或者视频级实例分割不同，以往最后对于实例特征的预测往往是密集型预测，这使得网络的运行速度变慢，本实施例提高了网络的运行速度。

最后将实例激活特征InstanceActivationFeature通过三个全连接层得到动态卷积核(Kernal)、分类信息(Class)和匹配信息(Score)，具体表示为：

Kernal＝Linear_kernal(InstanceActivationFeature)

Class＝Linear_class(InstanceActivationFeature)

Score＝Linear_score(InstanceActivationFeature)。

步骤S4、将分割掩码与动态卷积核做动态卷积得到最终实例分割结果。

动态卷积是一个矩阵乘法的操作，本实施例将分割掩码与动态卷积核做动态卷积得到最终实例分割结果。

将分割掩码与卷积核做动态卷积操作是当前实例分割的主流做法，因为在分割掩码中能够提供实例的位置信息，在动态卷积核中则有丰富的实例表征信息，大量的研究与试验证明，将两者结合就可以得到精确的分割掩码。采用公式表示为：

m＝DynamicConvolution(ObjectMask,InstanceActivationFeature)

其中，m为最终输出的实例分割结果，DynamicConvolution表示动态卷积。

在一个具体的实施例中，本申请如图2所示的实例分割网络，在训练时，还计算网络整体损失函数，进行反向传播，更新网络参数。

其中，网络整体损失函数由目标分类损失函数

掩码损失函数

目标框损失函数

的线性融合，可以表示为：

其中，

表示目标分类损失，

表示掩码损失，

表示目标框损失，λ_c和λ_s为权重系数。

和

为二进制交叉熵损失。

为了解决端到端训练，将标签分配表示为二部图匹配，首先，提出了一个基于成对骰子的匹配分数：

用于等式中的第i个预测和第k个真值对象，它是由分割掩码的分类分数和骰子系数决定的，其中α是一个设置为0.8的超参数，以平衡影响的分类和分割，

表示第i个实例预测的类别是第k个真值对象类别的概率，m_i和t_k分别是第i个预测对象的掩码和第k个真值对象的掩码，DICE骰子系数定义：

其中

和

分别表示第i个预测掩码m和第k个真值对象掩码t在(x、y)处的像素，然后，采用匈牙利算法来寻找K个真值对象与N个预测之间的最优匹配。通过结合骰子损失和像素级二值交叉熵损失的分割掩码损失函数：

其中，

和

为骰子损失和像素级二进制交叉熵损失，λ_dice和λ_pix为对应的系数，

本实施例解码器中包含掩码生成分支和实例激活分支，其中掩码生成模块有一系列的卷积和上采样层组成，是实例不可知的，实例激活分支会在训练过程中加以真实值的分类信息和目标框信息加以约束，是实例可知的。将生成的分割掩码与动态卷积核进行相乘得到最后的实例分割结果，最后通过一个二部匹配模块计算匹配损失提高跟踪效果。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种完全卷积的实时视频实例分割方法，其特征在于，所述完全卷积的实时视频实例分割方法，包括：

2.根据权利要求1所述的完全卷积的实时视频实例分割方法，其特征在于，所述编码器包括三个分支，第一分支包括一个金字塔池化模块和一个卷积模块，高阶初始特征图经过第一分支后得到第一分支输出特征；第二分支也包括一个金字塔池化模块和一个卷积模块，中阶初始特征图经过金字塔池化模块后，与第一分支金字塔池化模块的输出特征相加，然后经过卷积模块得到第二分支输出特征；第三分支包括一个卷积模块，低阶初始特征图与第二分支金字塔池化模块的输出特征相加，然后经过卷积模块得到第三分支输出特征；最后将第一分支输出特征、第二分支输出特征和第三分支输出特征连接后，作为编码器输出的编码特征。

3.根据权利要求1所述的完全卷积的实时视频实例分割方法，其特征在于，所述掩码生成分支，输入的编码特征依次经过3x3卷积层、BatchNorm层和ReLU激活函数得到特征1，然后经过1x1卷积层、BatchNorm层和sigmoid激活函数得到特征2，所述的特征1和所述的特征2元素相加的到特征3，特征3经过一个7×7的卷积层，激活函数为Sigmoid，得到权重系数Ms；最后，权重系数Ms与输入的编码特征相乘即可得到分割掩码。

4.根据权利要求1所述的完全卷积的实时视频实例分割方法，其特征在于，所述实例激活分支，执行如下操作：

将输入特征的长宽维度相乘，再经过变换得到特征(H*W，C)；

将所述特征(400，H*W)和特征(H*W，C)相乘得到实例激活特征。

5.根据权利要求1所述的完全卷积的实时视频实例分割方法，，其特征在于，所述完全卷积的实时视频实例分割方法，还包括：

在训练时，整体损失函数如下：

其中，

表示目标分类损失，

表示掩码损失，

表示目标框损失，λ_c和λ_s为权重系数；

其中，

和