CN110532955A

CN110532955A - 基于特征注意力和子上采样的实例分割方法和装置

Info

Publication number: CN110532955A
Application number: CN201910815017.5A
Authority: CN
Inventors: 雷蕾; 田佳豪; 王敏杰; 徐颖; 周昊宇; 肖江剑
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-03
Anticipated expiration: 2039-08-30
Also published as: CN110532955B

Abstract

本发明揭示了一种基于特征注意力和子上采样的实例分割方法，该方法包括：获取待分割的原始图像；通过特征全局网络在原始图像中进行特征图提取，并在特征图中确定兴趣区域，特征全局网络包括注意力模块；从特征图中对齐提取兴趣区域；对提取的兴趣区域进行分类，并利用子像素上采样对提取的兴趣区域生成分割掩码，以实现对原始图像的实例分割。本发明的优点包括通过在特征图提取时加入注意力模块，可以在最大池化和平均池化操作后，应用通道变换删除冗余信息和融合信息，提高图像特征向量的有效性，同时，联合子像素上采样的方式，在不损失速度的情况下提高了实例分割中分割和检测的准确性，且占用内存并不增加。

Description

基于特征注意力和子上采样的实例分割方法和装置

技术领域

本发明属于图像处理技术领域，具体涉及一种基于特征注意力和子上采样的实例分割方法和装置。

背景技术

实例分割是逐像素分割的一种，是语义分割的进一步发展。语义分割不区分属于同一类别的不同实例。例如，当图像中有多只猫时，语义分割将两只猫的所有像素预测为“猫”。而实例分割进一步需要区分哪些像素属于第一只猫以及哪些像素属于第二只猫。

Faster-RCNN是较早一点的目标检测的网络，对于一个输入图片，该网络可以得到边界框(bounding boxes)列表，每个边界框的类别标签，和每个边界框类别标签的概率。它包含卷积层，用来提取特征图，然后用RPN(Region Propose Network)对提取的卷积特征图进行处理。RPN用于寻找可能包含objects的预定义数量的区域(regions，边界框)。然后通过极大值抑制来筛选目标的边界框，最后通过全连接层和softmax计算得到每个regionproposal具体属于哪个类别(如人，马，车等)以及类别的概率。

Mask-RCNN是由Kaiming He提出的经典实例分割网络，该网络在Faster rcnn的基础网络上增加了一个Mask分支用来进行语义分割，并将Faster RCNN中的RoI Pooling替换成RoI Align操作，ROI Pooling的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图，以便进行后续的分类和bounding box回归操作。由于预选框的位置通常是由模型回归得到的，通常是浮点数，而ROI Pooling过程中存在两次量化，使得回归后的候选框的位置存在一定的偏差。ROI Align则取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，将整个特征聚集过程转化为一个连续的操作，消除了ROI Pooling量化带来的精度问题。

MaskLab实例检测网络，同样基于Faster-RCNN的网络结构，该网络通过回归框检测、语义分割回归和方向预测回归(Direction Prediction Logits)得到三个结果：回归框、语义分割和每个像素的对应的最靠近的方向。论文中引用了用于语义分割的deepLab网络系列中提出的空洞卷积的思想和超列(hypercolumn)，从而提高了实例分割的结果。在使用Faster-RCNN检测到目标框之后，使用相应的类别选取对应的语义通道并裁剪，接着结合方向预测再通过1x1的卷积得到粗分割掩码。Masklab最核心的地方是使用了方向特征。目标检测和语义分割可以用于不同类别的实例分割，方向特征则用于同一类别的实例分割，如同一边框中重叠的人。

在网络中，Mask-RCNN仍然沿用Faster rcnn中的特征金字塔来进行特征提取；MaskLab方向预测对数用于预测每个像素相对于它对应的实例中心的方向，进而用于分割同样语义标签的实例，但是网络中的额外方向预测仍然带来一定的计算量，而且在masklogit的分支中也存在上采样粗糙的问题。

Fully convolutional networks(FCNs)在逐像素即语义分割中已经取得了巨大的成功。在基础的FCN网络中通过多层卷积网络得到的最终预测图是原始输入图像的1/32，丢失了原始图片中的许多细节，特别是图像的边缘部分。最近，语义分割改进网络基于FCN例如deepLabv3中，不仅应用了atrous卷积，而且采用了encoder-decoder级联结构来将低分辨率的图片恢复到高分辨率，从而保持高精度的图像预测。但是，atrous卷积虽然带来了大的感受野，保持了高分辨率的图片，同时也会造成复杂的计算和大的内存需要。

发明内容

本发明一实施例提供一种基于特征注意力和子上采样的实例分割方法和装置，用于解决现有技术中实例分割方法的图像特征向量有效性低，计算复杂且准确性不高的问题，该方法包括：

获取待分割的原始图像；

通过特征全局网络在所述原始图像中进行特征图提取，并在所述特征图中确定兴趣区域，所述特征全局网络包括注意力模块；

从所述特征图中对齐提取所述兴趣区域；

对所述提取的兴趣区域进行分类，并利用子像素上采样对所述提取的兴趣区域生成分割掩码，以实现对所述原始图像的实例分割。

一实施例中，所述特征全局网络包括用于逐层下采样的第一特征金字塔网络、连接在所述第一特征金字塔网络最后一个卷积层之后的注意力模块、以及连接在所述注意力模块之后逐层上采样的第二特征金字塔网络。

一实施例中，所述注意力模块包括级联的通道注意力模块和空间注意力模块。

一实施例中，所述通道注意力模块用于：

分别对所述第一特征金字塔网络输出的中间特征图进行全局平均池化和全局最大池化以生成第一子中间特征图和第二子中间特征图；

将所述第一子中间特征图和第二子中间特征图在共享卷积层中进行通道压缩和通道恢复，生成第三子中间特征图；

将所述中间特征图和第三子中间特征图进行乘积作为输出；

所述空间注意力模块用于：

对所述通道注意力模块输出中的空间特征进行重组产生空间压缩图，并作为所述第二特征金字塔网络的输入。

一实施例中，所述注意力模块包括通道注意力模块。

一实施例中，所述通道注意力模块用于：

将所述中间特征图和第三子中间特征图进行乘积，并作为所述第二特征金字塔网络的输入。

一实施例中，所述子像素上采样包括：

将所述提取的兴趣区域通过卷积层生成通道数为r^2的多通道兴趣区域；

将多通道兴趣区域每个像素的r^2个通道排列呈r*r大小的区域，以获得高分辨率兴趣区域；其中，r为提取的兴趣区域相对高分辨率兴趣区域的缩放倍数。

一实施例中，所述方法包括：

利用周期性改组算子将多通道兴趣区域每个像素的r^2个通道排列呈r*r大小的区域。

本申请一实施例还提供一种基于特征注意力和子上采样的实例分割装置，包括：

获取模块，用于获取待分割的原始图像；

特征全局网络模块，用于在所述原始图像中进行特征图提取，在所述特征图中确定兴趣区域，所述特征全局网络包括注意力模块；

对齐模块，用于从所述特征图中对齐提取所述兴趣区域；

分割模块，用于对所述提取的兴趣区域进行分类，并利用子像素上采样对所述提取的兴趣区域生成分割掩码，以实现对所述原始图像的实例分割。

本申请一实施例还提供一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述处理器通过运行所述可执行指令以实现如上所述的基于特征注意力和子上采样的实例分割方法。

与现有技术相比，本发明通过在特征图提取时加入注意力模块，可以在最大池化和平均池化操作后，应用通道变换删除冗余信息和融合信息，提高图像特征向量的有效性，同时，联合子像素上采样的方式，在不损失速度的情况下提高了实例分割中分割和检测的准确性，且占用内存并不增加。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施方式中基于特征注意力和子上采样的实例分割方法的流程图；

图2是本申请一实施方式中基于特征注意力和子上采样的实例分割方法中整体网络的结构图；

图3是本申请一实施方式中特征全局网络的结构图；

图4是本申请一实施方式中特征全局网络的通道注意力和空间注意力级联模块的示意图；

图5是本申请一实施方式中通道注意力模块的结构图；

图6是本申请一实施方式中子像素上采样的过程示意图；

图7是本申请一实施方式中基于特征注意力和子上采样的实例分割方法(Mask-FgS)与Mask-R-CNN进行实例分割的效果对比图；

图8是本申请一实施方式提供的设备结构示意图；

图9是本申请一实施方式中基于特征注意力和子上采样的实例分割装置的模块示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参图1和图2，介绍本申请基于特征注意力和子上采样的实例分割方法的一实施方式。在本实施方式中，该方法包括：

S11、获取待分割的原始图像。

原始图像可以是例如RGB图像。

S12、通过特征全局网络在所述原始图像中进行特征图提取，并在所述特征图中确定兴趣区域。

配合参照图3和图4，特征全局网络包括用于逐层下采样的第一特征金字塔网络、连接在所述第一特征金字塔网络最后一个卷积层之后的注意力模块、以及连接在所述注意力模块之后逐层上采样的第二特征金字塔网络。

参图3，原始图像首先被送入预训练的第一特征金字塔网络，即构建down-top网络，随后通过注意力模块使得提取到的中间特征图的权重加大，增加每个像素的感受野，再通过第二特征金字塔网络构建对应的top-down网络，即对C5进行上采样操作。例如，先用1x1的卷积对C4进行降维处理，然后将两者对应元素相加，最后进行3x3的卷积操作；在down-top网络中去除C1是因为浅层语义信息不够并且特征图较大很消耗内存，C2到C5逐次缩小2倍，即C2-C5的尺寸分别为原图的1/4,1/8,1/16,1/32，对应地，在top-down网络中就是把高层的低分辨率的语义信息的特征进行上采样2x。

配合参照图5，一实施例中，注意力模块包括级联的通道注意力模块和空间注意力模块。

通道注意力模块用于：分别对第一特征金字塔网络输出中间特征图进行全局平均池化和全局最大池化以生成第一子中间特征图和第二子中间特征图；将第一子中间特征图和第二子中间特征图在共享卷积层中进行通道压缩和通道恢复，生成第三子中间特征图；将中间特征图和第三子中间特征图进行乘积作为输出。空间注意力模块用于：对通道注意力模块的输出的空间特征进行重组产生空间压缩图，并作为第二特征金字塔网络的输入。

具体地，通道注意力模块通过对通道的特征进行重组来产生通道压缩图。特征图的每个通道之间存在相互联系，通过挤压输入特征图的空间维度，也就是将一个w×h的输入图片转化成1×1的输出图，来进行通道压缩的计算。简单的加入一个全局平均池化,全局平均池化输出的是1×1×C，全局平均池化是对对每个通道上的特征图平均值进行提取,全局最大池化输出的也是1×1×C，全局最大池化是对每个通道上的特征图最大值进行提取，增强图像边缘的信息，得到更精细的通道压缩模块，可以增加更多的信息。通道注意力模块中全局最大池化和全局平均池化两个分支分别生成两个特征图，分别输入到共享的卷积层。这个共享的卷积层设置了一个通道压缩比ratio，第一个卷积层中通道压缩为原来的1/ratio，并在接着的第二个卷积层中通道数恢复到输入的通道数C，然后将输出和原输入的特征图F进行乘积。

空间注意力模块通过对空间的特征进行重组来产生空间压缩图。特征图的每个空间之间存在相互联系，通过和注意力压缩模块相同的最大池化和平均池化的分支，得到更加精细的空间特征信息，而且在中间过程中特征图的大小并不发生变化，所以减少由于分辨率的降低而产生的空间特征损失。

一实施例中，注意力模块也可以仅包括通道注意力模块，并将该通道注意力模块的输出直接作为所述第二特征金字塔网络的输入，在此不再赘述。

S13、从所述特征图中对齐提取所述兴趣区域。

这里可以类似地采用MASK-Rcnn中的RoiAlign层，可以去除RoI Pool的错位，将提取的特征与输入准确对齐。

S14、对所述提取的兴趣区域进行分类，并利用子像素上采样对所述提取的兴趣区域生成分割掩码，以实现对所述原始图像的实例分割。

配合参照图6，这里的子像素上采样包括：将所述提取的兴趣区域通过卷积层生成通道数为r^2的多通道兴趣区域；再将多通道兴趣区域每个像素的r^2个通道排列呈r*r大小的区域，以获得高分辨率兴趣区域；其中，r^2为提取的兴趣区域相对高分辨率兴趣区域的尺寸缩放倍数。具体地，这里是利用周期性改组算子将多通道兴趣区域每个像素的r^2个通道排列呈r*r大小的区域。

在Mask-RCNN的mask分支中是采用双线性上采样，这个操作会增加内存的消耗，为了更好地恢复高分辨率的预测图，这里的可学习子像素上采样(Subsamling)借鉴了超分辨率ESPCN中的亚像素的思想，亚像素变换是将原始低分辨率图像(即兴趣区域)，经过卷积层以后，得到通道数为r^2的与输入图像大小一样的特征图；再将特征图每个像素的r^2个通道重新排列成一个r×r的区域，对应高分辨率图像中一个r×r大小的子块，从而将大小为w×h×c的低分辨率特征图被重新排列成rw×rh×c的高分辨率特征图。在整个过程中没有实质的卷积操作，就能得到高分辨率的图像。相比双线性的上采样，子像素上采样计算的效率更高和精度更高，而且所占内存并不增加。

具体地，Mask分支有L-1层，第L层为上采样，表示最后一次下采样，表示上采样特征图，L-1层表示为：

f¹(H；W₁，b₁)＝φ(W₁*H+b₁)

f^l(H；W_1：l，b_1：l)＝φ(W_l*f^l-1(H)+b_l)

其中，W_l，b_l，l∈(1，L-1)分别是可学习的网络权重和偏差，W_l是尺寸为n_l-1×n_l×k_l×k_l的2D卷积张量，n_l是层l的特征数，n₀＝C，并且k_l是层l处的滤波器尺寸，偏差b_l是长度为n_l的向量，非线性函数(或激活函数)φ以元素方式应用并且是固定的。

在H空间中具有步幅的卷积与具有权重间隔的大小为k_s的滤波器W_s将激活用于W_s的不同部分，落在像素之间的权重不会被激活，也不需要计算。激活模式的数量正好是r²。根据其位置，每个激活模式最多激活个权重。根据不同的子像素位置，滤波器在图像上卷积期间周期性地激活这些模式：mod(x，r)，mod(y，r)，其中x，y是H’空间中的输出像素坐标。这里，以在mod(k_s，r)＝0时实现上述操作的有效方法为例：

利用周期性改组算子PS将H×W×C·r²张量的元素重新排列为形状的幅度rH×rW×C。这个过程可以描述为：

因此，卷积运算符W_L具有形状n_l-1×r²C×k_L×k_L。可以推算出当和mod(k_s，r)＝0时，它等效于具有滤波器W_s的H空间中的子像素卷积。

在对兴趣区域进行分类的分支上，可以是类似于Faster-Rcnn结构，通过对包围兴趣区域的边界框进行修正和分类。通过分类器主要区分提取的兴趣区域具体是什么类别(人，车，马等)，兴趣区域的边界框修正类似于RPN中anchor边界框修正，利用SmoothL1Loss，并且，兴趣区域边界框修正也是对于非背景的兴趣区域进行修正，对于类别标签为背景的兴趣区域，可以不进行兴趣区域边界框修正。

使用coco数据集来验证上述基于特征注意力和子上采样的实例分割方法。参下表，在数据集coco实例分割的对比结果：

在数据集coco目标检测的对比结果：

以及参照图7，在输出的可视化结果中，baseline Mask R-CNN在一些物体的边缘分割上弱于本申请的方法(Mask-FgS)，且存在一些误检和漏检，本申请提供的基于特征注意力和子上采样的实例分割方法在这两方面优于Mask R-CNN。

图8是一示例性实施例提供的一种设备的示意结构图。请参考图9，在硬件层面，该设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成基于特征注意力和子上采样的实例分割装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图9，在软件实施方式中，该基于特征注意力和子上采样的实例分割装置，包括获取模块、特征全局网络、对齐模块和分割模块。

获取模块，用于获取待分割的原始图像；特征全局网络模块，用于在所述原始图像中进行特征图提取，在所述特征图中确定兴趣区域，所述特征全局网络包括注意力模块；对齐模块，用于从所述特征图中对齐提取所述兴趣区域；分割模块，用于对所述提取的兴趣区域进行分类，并利用子像素上采样对所述提取的兴趣区域生成分割掩码，以实现对所述原始图像的实例分割。

本申请通过上述实施方式，具有以下有益效果：

通过在特征图提取时加入注意力模块，可以在最大池化和平均池化操作后，应用通道变换删除冗余信息和融合信息，提高图像特征向量的有效性，同时，联合子像素上采样的方式，在不损失速度的情况下提高了实例分割中分割和检测的准确性，且占用内存并不增加。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于特征注意力和子上采样的实例分割方法，其特征在于，所述方法包括：

获取待分割的原始图像；

从所述特征图中对齐提取所述兴趣区域；

2.根据权利要求1所述的方法，其特征在于，所述特征全局网络包括用于逐层下采样的第一特征金字塔网络、连接在所述第一特征金字塔网络最后一个卷积层之后的注意力模块、以及连接在所述注意力模块之后逐层上采样的第二特征金字塔网络。

3.根据权利要求2所述的方法，其特征在于，所述注意力模块包括级联的通道注意力模块和空间注意力模块。

4.根据权利要求3所述的方法，其特征在于，所述通道注意力模块用于：

将所述中间特征图和第三子中间特征图进行乘积作为输出；

所述空间注意力模块用于：

5.根据权利要求2所述的方法，其特征在于，所述注意力模块包括通道注意力模块。

6.根据权利要5所述的方法，其特征在于，所述通道注意力模块用于：

7.根据权利要求1所述的方法，其特征在于，所述子像素上采样包括：

8.根据权利要求7所述的方法，其特征在于，所述方法包括：

9.一种基于特征注意力和子上采样的实例分割装置，其特征在于，包括：

获取模块，用于获取待分割的原始图像；

特征全局网络模块，用于在所述原始图像中进行特征图提取，并在所述特征图中确定兴趣区域，所述特征全局网络包括注意力模块；

对齐模块，用于从所述特征图中对齐提取所述兴趣区域；

10.一种电子设备，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述处理器通过运行所述可执行指令以实现如权利要求1-8中任一项所述的基于特征注意力和子上采样的实例分割方法。