CN113160263A

CN113160263A - 一种基于yolact实例分割的改进方法

Info

Publication number: CN113160263A
Application number: CN202110341105.3A
Authority: CN
Inventors: 贾宇明; 齐晨阳; 毛晨; 王云; 罗俊海; 鲜维富; 唐昊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-23

Abstract

本发明属于图像实例分割领域，具体涉及一种基于YOLACT实例分割的改进方法。随着目标检测和语义分割任务的发展，作为两者任务的结合体实例分割任务也越来越多的受到研究者们的关注，但目前为止实例分割任务依然没有达到令人满意的效果。实例分割任务主要受限于两个评价指标：精度和时间复杂度。虽然YOLACT实例分割算法达到了实时性，但精度却达不到一个较好的水平。因此本文对YOLACT算法进行了相应改进，提高的网络的精度。综合考虑准确性和实时性本发明都具备了较好的效果。

Description

一种基于YOLACT实例分割的改进方法

技术领域

本发明属于图像实例分割领域，具体涉及一种基于YOLACT实例分割的改进方法。

背景技术

目标检测及定位是图像处理中从粗糙到精细的过程。它不仅需要给出图像中每个对象的类别，还要给出对象的具体位置，位置的表示可以分为对象的包围框或者对象的质心。语义分割通过预测输入图像中每个像素的类别来进行类别间的划分。实例分割为属于同一个类的对象的不同实例提供了不同的标签。换言之语义分割只对整幅图进行像素点的预测，不区分不同实例，将不同实例都认为是一个类别。而实例分割在语义分割的基础上增加了区分同类不同实例的功能。因此，实例分割可以定义为同时解决了目标检测识别和语义分割问题的一种技术。

发明内容

本发明要解决的技术问题是：对YOLACT实例分割算法进行改进，改进后算法的精度比原算法更高。

本发明基于YOLACT实例分割的改进方法，包括以下步骤：

步骤1：输入一张图像，对图像进行特征提取；

步骤2：对提取到的特征进行特征融合；

步骤3：通过掩码生成网络生成图像的原始掩码；

步骤4：通过注意力机制筛选融合后的特征；

其中步骤4的具体步骤为：

步骤401：将特征进行多尺度池化，池化到大小为1×1、3×3和5×5的结果，池化方式采用平均池化方式；

步骤402：对池化后的结果进行上采样，上采样到大小为5×5，上采样方式采用双线性插值法；

步骤403：对三个5×5的上采样结果求和，求和方式采用逐元素加法；

步骤404：进行四次卷积操作来预测注意力权重参数，第一次进行1×1卷积操作，将通道维度进行压缩，减小后续的计算量，第二次和第三次进行3×3卷积操作，第四次进行1×1卷积操作，并在前三次卷积后使用ReLU激活函数，增加预测的非线性度，但在第四次卷积后使用Sigmoid激活函数，将预测的权重参数归一化到0～1区间；

步骤405：求预测的权重参数与特征的积；

步骤5：通过预测网络预测实例的位置、类别和掩码系数；

步骤6：通过掩码系数和原始掩码获得实例的掩码；

步骤7：通过掩码抑制算法对实例掩码进行处理；

其中步骤7的具体步骤为：

步骤701：遍历掩码图上所有的像素点，对每个像素点在掩码图中求最大值，并将得到的掩码编号保存在maxMask变量中，如果像素点不属于任何一个实例则值为0；

步骤702：用maxMask和每个实例掩码求交集，如果maxMask像素点的值和某个掩码编号相同，那么当前掩码保留该像素点的值，即该像素点属于此掩码；如果maxMask像素点上的值与当前掩码编号不对应，那么当前掩码上该像素点的值设置为0；

步骤8：裁剪及二值化处理。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)解决了YOLACT实例分割算法中存在的一个实例被预测了两个不同的掩码的问题，并且没有明显的增加算法的时间复杂度；

(2)通过使用注意力机制和特征融合方式来更高效的提取出图像中的主要信息。

附图说明

图1改进后YOLACT算法的网络框架图

图2抑制其他实例结果对比图

图3注意力模块对比图

图4MCAM模块结构图

图5抑制结果对比图

具体实施方式

YOLACT实例分割算法改进后的网络结构如图1所示。

YOLACT算法通过检测框对预测出来的掩码进行裁剪，从而得到单个实例的掩码。此方法适用于简单的场景下，如实例和实例之间的空间距离较大，而复杂场景下该方法不再适用，如实例有遮挡或者两个实例有部分重合，如图2所示。换句话说，即两个检测框之间有重合。这导致了检测框A中包含了检测框B的一部分，YOLACT对此情况不做处理，统一将A中包含的部分B认为是A。在后期进行阈值操作时，如果A中包含的部分B的取值较低，该部分可被抑制掉，如果该部分取值较高，那么此部分会被认为是A，同样的情况适用于B。这就造成了实例A的掩码预测结果大于实际A的掩码的情况，即将实例B的一部分预测为实例A。因此本章对复杂场景下具有重合的实例进行了重点分析。

通过众多实验发现，YOLACT的掩码生成分支往往可以产生高质量的掩码，该掩码和掩码系数进行线性组合后，可以很好的确定检测框内的实例掩码，表现为该检测框内的实例掩码的数值较高，而同在该检测框内的其他实例的掩码值往往低于该实例真实检测框内的掩码值，也就是说通过掩码和掩码系数的线性组合，强调了当前检测框内的整体实例，在一定程度上削弱了其他检测框内的整体实例。

基于以上情况提出了抑制其他实例的方法。分割任务无非就是将指定像素点进行类别的预测，而每个像素点只能属于一个类别，如语义分割。同样，实例分割也不例外，每个实例的像素点也只能有一种类别。而YOLACT得到的掩码并不具备这样的要求，因此如何让每个实例只出现在一个检测框内尤为重要。语义分割最后会预测出C个掩码，每个掩码表示一个类别，实际图像中对应像素点的类别是所有掩码对应点中预测值最大的那个。

抑制其他实例算法具体过程如下：

(1)遍历掩码图上所有像素点(138×138)，对每个像素点在掩码图中求最大值，并将得到的掩码编号保存在maxMask变量中，该变量也可以看做掩码，只不过每个像素点的值表示掩码的编号，如果该点不属于任何一个实例则值为0。

(2)然后用maxMask和每个实例掩码求交集，如果maxMask像素点的值和某个掩码编号相同，那么当前掩码保留该像素点的值，即该像素点属于此掩码；如果maxMask像素点上的值与当前掩码编号不对应，那么当前掩码上该像素点的值设置为0。

公式(1)和公式(2)表示了计算当前位置属于哪个实例，公式(1)表示上述算法步骤中的(1)，公式(2)表示上述算法步骤中的(2)。

通过以上方法得到的实例掩码不包含其他实例的部分掩码。该方法的速度很快，也没有引入其他参数。图5表了抑制前后的掩码结果图。

另外提出使用多尺度池化方式进行特征提取，然后在将这些池化结果进行融合，最后进行卷积和非线性处理，得到各通道上的权重参数。为了建立特征通道之间更准确的相互关系，该模块可以通过学习自动获取每个特征通道的重要程度，基于这个重要程度去增强有用特征通道，抑制无用特征通道。图3展示了SENet、CBAM和MCAM模块的对比结构图。

假设MCAM的输入特征图为

则MCAM推断出一个一维的通道注意力图

整个通道注意力机制可以概括为公式3。

其中

表示逐元素乘法，下面详细介绍MCAM模块。

利用特征图各通道之间的关系生成注意力图。特征图的每个通道都可以看做是一个特征检测器，通道注意力往往关注输入特征图有意义的通道。图4表示了MCAM的具体操作流程。为了更准确的计算通道的注意力度，MCAM模块采用了多尺度池化方式，可以提取出不同感受野的通道信息。为了聚合空间信息，这里采用平均池化方式。通过多尺度池化大大提升了网络的表示能力。下面详细描述其实现过程。

(1)多尺度池化。对于全局平均池化，该方法虽然可以得到一个良好的全局上下文信息，但是对于相对复杂的图像，全局平均池化不能充分涵盖必要的通道信息。MCAM模块使用多尺度池化目的在于尽可能多的挖掘单一通道中的有用信息。输出结果中包含了不同大小感受野信息，该信息有助于通道权重的分配。特征图F经过多尺度池化后得到F₁、F₃和F₅。

表示1×1的池化结果，

表示3×3的池化结果，

表示5×5的池化结果。

(2)上采样。上采样后进行求和的原因为不同尺度的池化操作对应了不同大小的感受野，F₁的感受野大小为H×W，F₃的感受野大小为H/3×W/3，F₅的感受野大小为H/5×W/5。可知F₁有最大的感受野，F₃次之，F₅有最小的感受野。对F₁、F₃和F₅求和融合了不同大小感受野的信息，局部感受野上也融合了全局感受信息。

具体做法为：对池化后的F₁、F₃和F₅进行上采样，上采样到空间大小为5×5，通道数保持不变，上采样方法为双线性插值法；再将上采样的结果进行求和得到F_S，求和方式为逐元素求和。如图4所示。下面对F_S中位置(1,1)处的结果进行详细说明，其他位置和该位置的结果具有相似性。

公式4表示使用1×1池化后特征图(1,1)位置的结果。

公式5表示使用3×3池化后特征图(1,1)位置的结果。

公式6表示使用5×5池化后特征图(1,1)位置的结果。

因此特征图F_S在(1,1)位置处的结果如公式7所示。

(3)通道权重预测。接下来对上采样并求和后的结果进行权重预测，输出为1×1×C的向量。为增加预测过程中的非线性度，在卷积后使用ReLU激活函数，具体过程如图4所示。先对原来上采样得到的维度大小为5×5×C的特征图F_s进行1×1卷积操作得到F_c1，将通道压缩到原来的1/4倍，空间大小保持不变，卷积后的维度为5×5×C/4，再经过ReLU激活函数；然后经过两次3×3的卷积操作，步长为1，填充为0，3×3卷积后都接上一个ReLU激活函数，得到特征的维度为1×1×C/4；然后进行1×1卷积操作将通道数恢复到C，再使用Sigmoid激活函数进行归一化得到F_out，输出预测结果维度为1×1×C，取值范围为0～1。

在进行3×3卷积操作前通道数较多，直接对原始特征做卷积操作则计算量过多，因此可以先减少特征图的通道数目，然后再进行卷积，最后使用1×1卷积恢复通道数目。该方法可以在一定程度上减少计算量。另外为增加模块的非线性度，在每次卷积后都使用了ReLU非线性函数。

(4)通道相乘。最后将预测结果F_out和输入特征F相乘。因为F_out的取值范围为0～1，因此F_out值越接近1，则输入特征F的对应通道特征越被强调；F_out值越接近0，则输入特征F的对应通道特征越被抑制。

Claims

1.一种基于YOLACT实例分割的改进方法，其特征在于，包括下列步骤：

步骤1：输入一张图像，对图像进行特征提取；

步骤2：对提取到的特征进行特征融合；

步骤3：通过掩码生成网络生成图像的原始掩码；

步骤4：通过注意力机制筛选融合后的特征；

步骤5：通过预测网络预测实例的位置、类别和掩码系数；

步骤6：通过掩码系数和原始掩码获得实例的掩码；

步骤7：通过掩码抑制算法对实例掩码进行处理；

步骤8：裁剪及二值化处理。

2.根据权利要求1所述的基于YOLACT实例分割的改进方法，其特征在于，所述步骤4中通过预测网络预测实例的位置、类别和掩码系数的方法具体为：

步骤405：求预测的权重参数与特征的积。

3.根据权利要求1所述的基于YOLACT实例分割的改进方法，其特征在于，所述步骤7中通过掩码抑制算法对实例掩码进行处理的方法具体为：

步骤701：遍历掩码图上所有的像素点，对每个像素点在掩码图中求最大值，并将得到的掩码编号保存在maxMask变量中，如果像素点不属于任何一个实例则值为0，；

步骤702：用maxMask和每个实例掩码求交集，如果maxMask像素点的值和某个掩码编号相同，那么当前掩码保留该像素点的值，即该像素点属于此掩码；如果maxMask像素点上的值与当前掩码编号不对应，那么当前掩码上该像素点的值设置为0。