CN115222946A

CN115222946A - 一种单阶段实例图像分割方法、装置以及计算机设备

Info

Publication number: CN115222946A
Application number: CN202211134330.0A
Authority: CN
Inventors: 陈苏婷; 张晓敏; 王天语; 缪则林; 王航将
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Hunan Yongwang Practical New Technology Research Institute
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-10-21
Anticipated expiration: 2042-09-19
Also published as: CN115222946B

Abstract

本发明公开了一种单阶段实例图像分割方法、装置以及计算机设备，涉及图像实例分割技术领域，首先提取多层次的图像特征信息，为了更充分地利用高层特征的语义信息和底层特征的细粒度特征，引入自适应特征融合模块计算不同尺度特征权重并融合，将融合后的特征送入三个分支进行实例核预测和掩码分割以及语义类别预测，为了突出特征核的位置信息，引入混合双注意力机制筛选有效特征核，然后将生成掩码与特征核进行映射，根据实例的分类分数和相应的掩码，确定每个实例的类别与置信度，阈值筛选得到最终的分割结果，为了权衡模型分割的速度与精度，采用二部匹配的策略，避免矩阵非极大值抑制操作，大大提升了分割速度。

Description

一种单阶段实例图像分割方法、装置以及计算机设备

技术领域

本发明涉及图像实例分割技术领域，特别是涉及一种单阶段实例图像分割方法、装置以及计算机设备。

背景技术

实例分割是经典的计算机视觉任务之一，旨在对图像前景目标中不同属类别的个体以及同属类别的不同个体进行像素级区分，从而保留不同实例之间的像素差异性；实例分割由于其分割结果与人眼观察的结果具有高相似度，已被广泛应用于多个领域，比如自动驾驶、虚拟现实场景建模、安防监控以及智慧医疗等等。

目前主流的实例分割方法遵循着两阶段的思路，即先建立实例的候选框，然后再根据候选框对像素进行标记，进行前景与背景的区分，这些方法在精度上取得了较大的提升，但由于其依赖多个分支计算，存在庞大的参数，会导致其难以应用在需要实时性分割的领域，例如自动驾驶以及边缘设备。

单阶段实例分割受单阶段目标检测的影响，通过直接预测每个对象实例的类别与分割掩码来简化检测与分割分支，然而单阶段实例分割提升分割速度的同时仍存在如下问题：1、实例分割依赖主干网络加特征金字塔的结构来学习多尺度特征，这种结构对大尺度目标敏感，上采样与下采样过程中容易造成大目标特征覆盖小目标特征；2、通过目标中心定位实例时，每个像素的感受域有限，从而导致上下文信息不足；3、处理大量生成掩码并进行矩阵非极大值抑制需要耗费大量的时间以及计算资源。

发明内容

为了解决以上技术问题，本发明提供一种单阶段实例图像分割方法，其特征在于：包括以下步骤

S1、输入图像；

S2、采用骨干网络ResNet+FPN提取多层次的图像特征信息，使用ResNet上四层的特征图C2、C3、C4以及C5，每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加，构建自上而下的特征金字塔结构，接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5；

S3、利用自适应空间特征融合模块将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征；

S4、设置并行的三个分支，分别为实例核分支、掩码分支以及类别分支，实例核分支用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核；掩码分支用于生成对应特征的掩码图；类别分支用于生成实例语义类别分数和预测语义类别概率；

S5、利用混合双注意力模块突出实例特征，增强实例核分支，混合双注意力模块包括通道注意力模块和位置注意力模块；对组卷积后的特征图进行通道混合操作，使其通道重新打乱排序；将子特征分别送入通道注意力模块以及位置注意力模块，突出实例特征信息；

S6、实例特征核与掩码图动态卷积生成掩码分割结果，通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果；

类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸，将输入特征图像划分成S×S个网格，通过四组3×3卷积+GN+ReLu的重复模块，生成S×S个C维输出，C表示总类别数，对每个网格进行语义类别概率的预测；

提出了一个基于DICE的配对分数

，如式（7）所示，用于在训练阶段分配正负样本，以及为特征图的不同位置分配学习目标，其中i表示第i个预测对象，k表示k个ground- truth对象，由分类分数和掩码的DICE系数决定，

（7）

其中，

是超参数，用于平衡分类和分割的影响，

表示第k个ground-truth实例的类别标签，

表示第i个预测的类别为

的概率，

分别表示第i个预测实例和第k个 ground-truth实例的掩码，DICE系数计算如式（8）所示：

（8）

其中，

分别表示预测掩码m和真值掩码t中(x,y)处的像素；

S7、得到最终掩码结果以及对象分类结果，并将其映射至原图像输出最终实例分割图像。

本发明进一步限定的技术方案是：

进一步的，步骤S3中，自适应空间特征融合模块的融合方法包括以下步骤

S3.1、分别对特征金字塔输出的P2、P3以及P4进行统一尺寸，对P2统一尺寸时，将P3上采样、P4上采样与P2统一尺寸；对P3统一尺寸时，将P2下采样、P4上采样与P3统一尺寸；对P4统一尺寸时，将P2下采样、P3下采样与P4统一尺寸；

S3.2、对调整后的三个特征图进行1×1的卷积运算；

S3.3、将这三个特征图拼接后再通过1×1的卷积和softmax归一化得到对应权值α、β和γ；

S3.4、当为P2时，将对应权重分别与P4_resized、P3_resized和P2相乘；当为P3时，将对应权重分别与P4_resized、P2_resized和P3相乘；当为P4时，将对应权重分别与P3_resized、P2_resized和P4相乘；

S3.5、将上一步骤中三个相乘的结果相加得到新的融合特征，获得对应的自适应空间特征融合模块，自适应空间特征融合的计算方式如式（1）所示

（1）

其中，

表示特征图中位置(i,j)的特征向量，

表示第n层级的特征图与

调整至相同尺寸，

表示三个不同层级中位于(i,j)的特征向量计算出的空间特征权重，取值范围是0到1；

的计算公式分别如式（2）、式（3）、式（4）所示

（2）

（3）

（4）

其中，

分别表示三个权值的控制参数。

前所述的单阶段实例图像分割方法，步骤S4中，掩码分支采用阶梯式特征对齐方式来生成对应特征的掩码图，包括以下步骤

S4.1、由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´以及P2´；

S4.2、由P4´、P3´、P2´进行融合得到P3´´以及P2´´；

S4.3、将P3´´和P2´´元素相加后，再与进行八倍上采样后的包含坐标信息的P5层进行特征融合，得到最终的融合特征；

S4.4、融合特征依次通过1×1卷积、GN以及ReLu激活函数生成掩码特征图。

前所述的单阶段实例图像分割方法，步骤S5中，

通道注意力模块中，首先使用全局平均池化在通道统计信息中嵌入全局信息；接着进行参数变换并进行sigmoid激活生成每个通道的特征权值，产生每个通道对应的注意力权重；通道注意力模块用于有选择地对每个通道的重要性进行加权，从而产生通道输出特征，如式（5）；

利用位置注意力模块提供更多的位置信息，作为通道注意力模块的补充，首先对特征进行组归一化得到空间位置信息统计，使用参数变换以及sigmoid操作生成位置注意力结果，如式（6），然后将通道注意力模块与位置注意力模块连接，使得通道数与输入相同；

（5）

（6）

其中，

表示原始通道注意力特征，

表示原始位置注意力特征，

则表示对应变换的参数；

经过混合双注意力模块后经过实例核分支，在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核

前所述的单阶段实例图像分割方法，步骤S6中，实例特征核与掩码图动态卷积生成掩码分割结果，即将实例核分支结果与掩码分支结果进行动态卷积生成最终掩码

，其中

表示掩码核，

表示掩码分支生成结果。

前所述的单阶段实例图像分割方法，步骤S6中，超参数设置为0.76。

前所述的单阶段实例图像分割方法，步骤S6中，实例特征核通过与类别分支预测出的语义类别概率进行二部匹配得到最终的实例分割结果，还包括用于计算真值和预测的误差的方法，训练损失函数如式（9）所示：

（9）

其中，

是用于对象分类的focal loss，

是用于掩码生成的Dice Loss；计算真值和预测的误差，并通过反向传播，不断更新网络权重，使损失函数值不断降低，重复迭代直至收敛。

本发明还提供一种单阶段实例图像分割装置，包括

图像输入模块，用于输入待分割的图像；

图像特征信息提取模块，用于采用骨干网络ResNet+FPN提取多层次的图像特征信息，使用ResNet上四层的特征图C2、C3、C4以及C5，每层特征图通过1×1卷积后与上一层特征上采样后的特征图进行元素相加，构建自上而下的特征金字塔结构，接着每层再通过3×3卷积得到特征图P2、P3、P4以及P5；

自适应空间特征融合模块，用于将特征金字塔结构中的P3、P4、P5特征图融合上下文细粒度特征；

实例核模块，用于在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核；

掩码模块，用于生成对应特征的掩码图，还用于将实例特征核与掩码图动态卷积生成掩码分割结果；

类别模块，用于生成实例语义类别分数和预测语义类别概率，还用于将实例特征核与语义类别概率进行二部匹配得到最终的实例分割结果；

混合双注意力模块，用于突出实例特征，增强实例核分支。

本发明还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述单阶段实例图像分割方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述单阶段实例图像分割方法的步骤。

本发明的有益效果是：

（1）本发明，在实时实例分割任务中，提出了一种基于二部匹配和混合注意力机制的单阶段实例分割方法，特征金字塔网络初步提取的多层特征经过自适应空间特征融合模块，增强不同尺度特征的显著性，抑制背景噪声的影响，为了增强特征核位置敏感性与前景背景区分度，引入混合双注意力模块，突出每个前景对象的信息区域，使用二部匹配策略进行标签分配，代替计算量大的后处理操作，相对现有实例分割技术来说，有效提高了分割精度（+3.7%），并在推理速度上达到了34.6FPS，在精度和速度上优于其他单阶段实例分割方法，充分证明了该方法的有效性，利用匈牙利算法寻找真值目标与预测结果的最优匹配，避免了复杂的后处理工作，例如矩阵非极大值抑制、排序等，提升了模型推理速度，改善了正负样本不均衡的情况；

（2）本发明中，引入自适应特征融合模块计算不同尺度特征权重并融合，可以更充分地利用高层特征的语义信息和底层特征的细粒度特征，引入混合双注意力机制筛选有效特征核，可以突出特征核的位置信息，采用二部匹配的策略，可以权衡模型分割的速度与精度，避免矩阵非极大值抑制操作，大大提升了分割速度，从而改进目前单阶段实例分割的不足，在提升分割精度的同时，提升分割速度，实现速度与精度的均衡，减少模型参数量便于在边缘设备段部署；

（3）本发明适用于实时实例分割场景，通过自适应空间特征融合模块充分利用不同尺度特征，减少高层与底层之间的语义差异，从而改善了特征的比例不变性，更有效地抑制负样本干扰，为后续实例特征核预测、掩码生成、语义类别预测做准备；

（4）本发明中，对于实例核分支，其将特征图对其后划分为S×S个网格，通过卷积操作后生成特征核，对特征核影响最大的是如何判断量化的中心点位置以及物体大小，区分不同目标实例能够帮助实例核分支筛选有效特征核，本发明提出的混合双注意力机制，对组卷积后的特征图进行通道混合操作，帮助信息在不同通道间流通，然后利用通道以及位置注意力，凸显实例核信息。

附图说明

图1为本发明的单阶段实例分割方法流程图；

图2为本发明中自适应空间特征融合模块的结构图；

图3为本发明中混合双注意力模块的结构图；

图4为本发明的掩码分支流程图。

具体实施方式

本实施例提供的一种单阶段实例图像分割方法，如图1所示，首先采用骨干网络ResNet+FPN用于提取多层次的图像特征信息，使用ResNet上四层的特征图（C2-C5），每层通过1×1卷积核后与上一层特征上采样后的特征图进行元素相加操作，构建自上而下的特征金字塔结构，最后每层通过3×3卷积得到特征图（P2-P5）；将特征金字塔中P3、P4、P5层次利用自适应空间特征融合模块融合上下文细粒度特征，增强感受野；设置并行的三个分支，分别为实例核分支、掩码分支以及类别分支，分别用于特征核预测、掩码生成、语义类别预测；实例核分支在划分成S×S个网格的增强特征图上预测出包含实例信息的特征核，并与掩码分支中生成的掩码进行动态卷积操作，其根据输入特征，自适应地调整卷积参数生成掩码分割结果；类别分支生成实例语义类别分数；本发明端到端的获得N个实例的分类分数和相应的掩码，通过二值匹配生成最优的实例分割结果。

为了更加充分的利用高层特征的语义信息和底层特征的细粒度特征，很多网络都会采用特征金字塔的方式输出多层特征，现有模型一般使用直接连接或者相加的方式，这样并不能充分的利用不同尺度的特征。

如图2所示，本发明利用自适应空间特征融合（ASFF）模块计算不同尺度特征权重并融合，通过为每个融合的特征图设置自适应权值来进行加权融合，能够保留该层特有尺度信息，突出相邻层次有效特征，能够有效抑制负样本的干扰。

将特征金字塔输出的P2、P3、P4进行统一尺寸，以P3为例，将P2下采样、P4上采样与P3统一尺寸（对P2统一尺寸时，将P3上采样、P4上采样与P2统一尺寸；对P4统一尺寸时，将P2下采样、P3下采样与P4统一尺寸），对调整后的三个特征图进行1×1的卷积运算，然后将这三个特征图拼接后再通过1×1的卷积、softmax归一化得到对应权值α、β和γ，将对应权重分别与P4_resized、P2_resized和P3相乘（当为P2时，将对应权重分别与P4_resized、P3_resized和P2相乘；当为P4时，将对应权重分别与P3_resized、P2_resized和P4相乘），然后将这三个结果相加得到新的融合特征，自适应空间特征融合（ASFF）的计算方式如式（1）所示；以此为例，对P2、P3、P4分别进行上述操作获得对应的自适应空间特征融合（ASFF）模块。

（1）

其中，

表示特征图中位置(i,j)的特征向量，

表示第n层级的特征图与

调整至相同尺寸，

表示三个不同层级中位于(i,j)的特征向量计算出的空间特征权重，取值范围是0到1。

的计算公式如式（2）所示，其中，

分别表示三个权值的控制参数，同理，

与

定义与

相同，分别如式（3）和式（4）所示，

（2）

（3）

（4）

在特征图中影响最大的是如何判断量化的中心点位置和物体大小，区分不同目标实例，能够帮助实例核分支筛选有效内核，常见的捕获通道与位置依赖关系的注意力模会带来太多的参数，不利于在速度和精度之间进行权衡。

如图3所示，本发明采用混合双注意力模块突出实例特征，增强实例核分支，对组卷积后的特征图进行通道混合操作，使其通道重新打乱排序，帮助信息在不同特征通道间流动，将子特征分别送入通道注意力模块以及位置注意力模块，突出实例特征信息。

通道注意力模块中，首先使用全局平均池化在通道统计信息中嵌入全局信息，然后进行参数变换并进行sigmoid激活生成每个通道的特征权值，产生每个通道对应的注意力权重，通道注意模块用于有选择地对每个通道的重要性进行加权，从而产生通道输出特征，如式（5）。

同时利用位置注意力提供更多的位置信息，作为通道注意力的补充，首先对特征进行组归一化得到空间位置信息统计，使用参数变换以及sigmoid操作生成位置注意力结果，如式（6），然后将两个分支连接起来，使得通道数与输入相同。

（5）

（6）

其中，

表示原始通道注意力特征，

表示原始位置注意力特征，

则表示对应变换的参数。

经过双混合注意力模块后经过实例核分支，在四组3×3卷积+GN+ReLu的重复模块以及一次3×3卷积后生成感知特征核。

原SOLOv2模型中采用最简单的特征对齐方式，将不同尺度的特征通过不同次数的上采样和卷积操作对齐至掩码尺寸，该方式不利于各个尺度信息在不同特征层级流动。

如图4所示，本发明中采用阶梯式特征对齐方式，加强了特征间信息的融合，并且对P5层进行CoordConv操作，串入两个坐标通道，将空间信息保留至掩码特征中，本发明掩码分支中包含三个阶段操作，第一阶段由P5、P4、P3、P2每三个相邻层级统一尺寸后进行融合得到P4´、P3´、P2´，第二阶段由P4´、P3´、P2´融合得到P3´´、P2´´，第三阶段P3´´、P2´´元素相加后再与进行八倍上采样后的包含坐标信息的P5层进行特征融合得到最终的融合特征，融合特征P2´´´保留了多尺度信息，加强特征间信息的融合，有利于生成高质量的特征掩码。

融合特征后通过1×1卷积、组归一化、ReLu激活函数生成掩码特征图，将实例核分支结果与掩码分支结果进行动态卷积生成最终掩码

，其中

表示掩码核，

表示掩码分支生成结果。

类别分支将不同层级特征进行双线性上采样或下采样统一特征尺寸，将输入特征图像划分成S×S个网格，通过四组3×3卷积+GN+ReLu的重复模块，生成S×S个C维输出，C表示总类别数，对每个网格进行语义类别概率的预测。

为在训练阶段高效分配正负样本，为特征图不同位置分配合适的学习目标，本发明提出了一个基于DICE的配对分数

，如式（7）所示，其中i与k表示第i个预测对象，k个 ground-truth对象，由分类分数和掩码的DICE系数决定。

（7）

其中，

是超参数，以平衡分类和分割的影响，本发明中设置为0.76，

表示第k个 ground-truth实例的类别标签，

表示第i个预测的类别为

的概率，

分别表示第i 个预测实例和第k个ground-truth，DICE系数计算如式（8）所示：

（8）

其中，

分别表示预测掩码m和真值掩码t中(x,y)处的像素。

然后，本发明采用匈牙利算法依据基于DICE的配对分数寻找K个ground-truth实例与N个预测结果之间的最优匹配，本发明无需矩阵非极大值抑制操作或排序操作即可得到最终掩码结果以及对象分类结果，并将其映射至原图像输出最终实例分割图像。

训练损失函数如式（9）所示

（9）

其中，

是用于对象分类的focal loss，

是用于掩码生成的Dice Loss，计算真值和预测的误差，并通过反向传播，不断更新网络权重，使损失函数值不断降低，重复迭代直至收敛。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。