CN113139969A

CN113139969A - 一种基于注意力机制的弱监督图像语义分割方法及系统

Info

Publication number: CN113139969A
Application number: CN202110536078.5A
Authority: CN
Inventors: 耿玉水; 刘建鑫; 赵晶; 李文骁; 张康
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-07-20

Abstract

本公开公开的一种基于注意力机制的弱监督图像语义分割方法及系统，包括：获取待分割图像；将待分割图像输入训练好的图像分割网络中，对待分割图像进行分割；其中，图像分割网络在训练时，通过Deepcut算法生成训练图像的第一候选mask，通过MCG算法生成训练图像的第二候选mask，将第一候选mask和第二候选mask在训练图像的边界框中重合的区域选定为候选mask区域，将候选mask区域作为训练标签对图像分割网络进行训练。不使用像素级标注进行图像的语义分割，提高图像分割的质量和效率。

Description

一种基于注意力机制的弱监督图像语义分割方法及系统

技术领域

本发明涉及图像分割技术领域，尤其涉及一种基于注意力机制的弱监督图像语义分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

图像分割是机器视觉领域至关重要的图像预处理方法，是机器视觉研究中的一个经典难题。图像分割是指将图像分成若干互不重叠的子区域，使得同一个子区域内的特征具有一定相似性，不同子区域的特征呈现较为明显的差异。在实际问题中，有许多的应用场景需要同时处理大量的图像数据，并且图像类型复杂，传统的图像分割算法比如基于阈值的分割算法、分水岭算法已经无法满足现在的需求。伴随着深度学习发展迅速，越来越多的深度学习解决方案应用于机器视觉领域，其中图像分割依赖于深度学习的发展而进步。目前有很多基于深度学习的图像分割算法，例如VGGNet、ResNet，FCN，MaskScoringR-CNN,high-resolution network(HRNet)都是非常优秀的图像分割算法，到目前为止，这些网络依然在图像分割领域有极高的统治力。

但是深度卷积神经网络的学习过程需要大量的像素级标注训练数据，制作此类像素级标注的过程比较耗时费力，难以大批量获取。导致现有数据集上的分割标注在质量和多样性上仍然无法满足需求

发明内容

本公开为了解决上述问题，提出了一种基于注意力机制的弱监督图像语义分割方法及系统，不使用像素级标注进行图像的语义分割，提高图像分割的质量和效率。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种基于注意力机制的弱监督图像语义分割方法，包括：

获取待分割图像；

将待分割图像输入训练好的图像分割网络中，对待分割图像进行分割；

其中，图像分割网络在训练时，通过Deepcut算法生成训练图像的第一候选mask，通过MCG算法生成训练图像的第二候选mask，将第一候选mask和第二候选mask在训练图像的边界框中重合的区域选定为候选mask区域，将候选mask区域作为训练标签对图像分割网络进行训练。

第二方面，提出了一种基于注意力机制的弱监督图像语义分割系统，包括：

图像获取模块，用于获取待分割图像；

图像分割模块，用于将待分割图像输入训练好的图像分割网络中，对待分割图像进行分割；

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于注意力机制的弱监督图像语义分割方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于注意力机制的弱监督图像语义分割方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开通过Deepcut算法生成训练图像的第一候选mask，通过MCG算法生成训练图像的第二候选mask，将第一候选mask和第二候选mask在训练图像的边界框中重合的区域选定为候选mask区域，通过mask区域作为标签训练分割网络，在对图像分割网络进行训练时，通过填充率来修正候选mask，将训练好的图像分割网络对待分割图像进行像素级预测，本公开不使用像素级标注进行图像的语义分割，提高图像分割的质量和效率。

2、本公开在图像分割网络中添加了包括空间域注意力网络和通道域注意力网络的注意力模块，通过增加注意力模块提取更更丰富的特征信息，从而提高图像分割的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开方法的网络训练图；

图2为现有弱标注数据的标注方法；

图3为本公开实施例1公开的注意力模块的结构框图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

在该实施例中，公开了一种基于注意力机制的弱监督图像语义分割方法，包括：

获取待分割图像；

进一步的，在对图像分割网络进行训练时，通过填充率对候选mask区域进行修正。

进一步的，图像分割网络采用弱监督训练获得。

进一步的，图像分割网络采用Deeplab网络，Deeplab网络基于ResNet网络构建，在ResNet网络中添加注意力模块。

进一步的，注意力模块包括空间域注意力网络和通道域注意力网络。

进一步的，空间域注意力网络提取输入特征图中横向和纵向两个方向的空间特征，并将两个空间特征进行融合，获得空间特征图；通道域注意力网络获取输入特征图的通道依赖关系，将通道依赖关系整合到输入特征图中，获得通道特征图；将空间特征图、通道特征图和特征图进行融合，获得注意力模块的输出，注意力模块的输出作为下一层的输入。

进一步的，对输入特征图进行形状变换，获得形状变换后特征图；

将形状变换后特征图与输入特征图的转置矩阵相乘，获得输入特征图的通道依赖关系；

将输入特征图的通道依赖关系与形状变换后特征图相乘，获得通道特征图。

对本实施例公开的一种基于注意力机制的弱监督图像语义分割方法进行详细说明。

由于深度卷积神经网络的学习过程需要大量的像素级标注训练数据，制作此类像素级标注的过程比较耗时费力，难以大批量获取。导致现有数据集上的分割标注在质量和多样性上仍然无法满足需求。为了克服收集训练数据标注的困难并设计一个更具有扩展性和通用性的语义分割模型，研究者们致力于弱监督学习的研究，通过更易获得的较像素级标注更弱的监督信息来实现语义分割，目前常见的弱标注数据大致有图像级标注、边框级标注和涂鸦级标注，如图2所示。研究调查表明，收集图像中每个类实例周围的边框比在像素级标记图像要快15倍/便宜15倍。

由于神经网络模型的训练需要使用大量的像素级标注作为训练标签，故在本实施例中提出了一种基于注意力机制的弱监督图像语义分割方法，该方法不使用像素级标注对图像的语义进行分割。此方法可以使用边界框作为训练信息，训练图像分割网络，最终达到图像分割的目的。使用区域建议方法来生成候选分割掩模(Mask)，卷积网络在这些近似掩码的监督下进行训练，更新后的网络又改进了用于训练的估计遮罩,这个过程是迭代的,虽然mask一开始是粗糙的，但是会逐渐完善，为网络训练提供了有用的信息。

由于弱监督的学习很难做出进一步的性能提升，所以本实施例在图像分割网络中加入基于上下文的空间域和通道域的注意力机制和填充率损失，使用一维卷积来精炼上下文信息的注意力机制，可以更好地提取出单位像素与其他较远距离像素的长距离依赖，同时加入通道域的注意力，进一步提升注意力网络的性能。对填充率损失进行修改，将修改后的填充率损失加入到图像分割网络的弱监督训练过程中。通过加入填充率指导神经网络选取更好的阈值，也可以筛选出更合适的候选掩模。

本实施例公开的一种基于注意力机制的弱监督图像语义分割方法，包括：

S1：获取待分割图像。

S2：将待分割图像输入训练好的图像分割网络中，对待分割图像进行分割。

图像分割网络采用Deeplab网络，Deeplab网络基于ResNet网络获得，分别在ResNet的conv_2、conv_3、conv_4、conv_5后面加入图像注意力模块，用于提取待分割图像更丰富的特征信息，进而提高图像分割网络的分割精度，每个图像注意力模块的输入为相应卷积层输出的特征图，输出输入下一层网络中。

DeepLab是结合了深度卷积神经网络(DCNNs)和概率图模型(DenseCRFs)的方法。在实验中发现DCNNs做语义分割时精准度不够的问题，根本原因是在DCNNs的最后一层的响应没有足够的本地化来精确地分割对象，根源于重复的池化和下采样。针对信号下采样或池化降低分辨率，DeepLab采用的空洞卷积算法扩展感受野，获取更多的语境信息，并且提出了采用完全连接的条件随机场(CRF)提高模型捕获细节的能力，简单来说，就是对一个像素进行分类的时候，不仅考虑DCNN的输出，而且考虑该像素点周围像素点的值，这样语义分割结果的边界更清楚。DeepLab网络的损失函数是CNN输出图中每个空间位置的交叉熵项的和。

本实施例中使用的图像注意力模块包括空间域注意力网络和通道域注意力网络，如图3所示。

在空间域注意力网络中，使用两个一维卷积分别提取输入特征图横向和纵向两个方向的空间特征，然后将提取出的两个空间特征进行整合，得到H×W大小的二维特征图，使用1×1卷积改变通道数，得到和输入一样大小C×H×W大小的空间特征图。空间注意力模块能捕获输入特征图中任意两个像素之间在长距离的上下文上的空间依赖性。对于特定位置的特征，通过加权求和的所有位置聚合特征来更新特征，这样这个特征就包含了与其他特征的空间依赖关系。

在通道域上，每一个通道图都包含着一些重要的信息，通过整合这些通道特征，有选择的强调相互关联的通道图；使用类似的self-attention机制来捕获任意连个通道特征之间的通道依赖关系。在通道注意力模块中，首先改变输入特征图的形状，得到C×HW大小的矩阵，为变换形状后特征图，将变换形状后特征图与输入特征图的转置矩阵相乘，得到C×C大小的矩阵，此矩阵包含了关键的通道依赖关系。然后将通道依赖关系C×C的矩阵与形状变换后特征图C×HW的矩阵相乘，最后reshape得到与输入特征图相同大小的通道特征图。

通过空间注意力模块和通道注意力模块分别得到了输入特征图空间域和通道域上的依赖关系，将获得的空间特征图和通道特征图与输入特征图相加，获得整个注意力模块的输出。

本实施例中提出的注意力模块输入与输出大小相同，参数量较少，对运算速度的影响较小，将此注意力模块与卷积神经网络层叠加使用时，提高图像分割的精度，且不影响图像分割的速率。

通过获取的训练图像对图像分割网络进行训练时，采用弱监督的方式训练图像分割网络，利用训练好的图像分割网络对待分割图像进行图像分割。

在训练开始前，先通过M∩D得到候选mask区域，M∩D得到的候选mask区域作为图像分割网络的训练标签对分割网络进行训练。值得注意的是，区域建议仅用于网络训练，对于推理测试，训练好的图像分割网络直接应用于图像并产生像素级的预测。因此，本实施例使用的区域建议不会影响图像分割网络进行图像分割的时间效率。

通过M∩D得到候选mask区域的过程为：通过Deepcut算法生成训练图像的第一候选mask，通过MCG算法生成训练图像的第二候选mask，将第一候选mask和第二候选mask在训练图像的边界框中重合的区域选定为候选mask区域。

训练图像的边界框通过手工标注获得。

在具体实施时，Deepcut是grabcut算法的扩展，可以在给定边界框(boundingboxes)的情况下实现像素分类。Deepcut方法将分类问题视为在稠密连接的条件随机场下的能量最小化问题，并通过不断迭代实现语义分割。本实施例使用Deepcut算法生成训练图像的第一候选mask。

使用MCG的细分建议来补充Deepcut，MCG算法的最后阶段包括一个决策森林的排序，在本实施例中不使用最后的排序阶段，而是使用所有未排序的段，选择与给定的边界框(bounding box,bbox)重叠程度最高的建议作为相应的段，获得训练图像的第二候选mask。在训练图像的边界框里，将MCG获得的训练图像的第二候选mask和Deepcut获得的训练图像的第一候选mask一致的地方标记为前景像素，为候选mask区域；其余的像素忽略。此方法简称为M∩D。

通过M∩D得到的候选mask区域作为分割网络的训练标签对图像分割网络进行训练。

由于弱监督学习没有准确的监督标签，所以生成的候选mask中错误的标记对于模型的训练会有负面影响，如果能识别出这些错误的标记，就能够有效提升网络的性能。

在该实施例中，把训练图像边界框(bbox)之外的像素全部标记为背景，对于M∩D算法生成的候选mask，引入FR-loss。通过观察统计，发现对于同一个类别，边界框内实例所占像素的比例是相近的，而对于两个不同的类，其像素填充率通常不同。对现有的FR-loss进行修改，使其能更好的发挥算法性能。

FR-loss的定义，对于给定的类c，将第i个bbox中proposal和bbox的像素数分别表示为NP_proposal(i)和NP_box(i)。则类c的平均填充率可定义为：

其中，B_c表示类别c的bbox数量。

一个训练图像的FR-loss可以表示为：

式中，L_c(i)表示类c的第i个像素的损失，超参数top由各类的平均填充率确定。

考虑到来自同一类的两个对象由于形状和姿态的不同而具有不同的填充率，尝试通过k-means聚类方法来细化填充率，将每个类分成若干类子类，每个子类内的对象大小趋于相近。因此，取每个子类的平均填充率来细化FR-loss，获得一个训练图像的FR-loss为：

其中L_(c,sc)(i)表示类c中子类sc的第i个像素的损失。注意，当这个像素不属于这个子类时，L_(c,sc)(i)为0。

本实施例中的图像分割网络可以和FR-loss可以共同作用，提升网络性能，取得与全监督模型相当的性能。以FR-loss为辅，定义一个训练图像的总损失为：

其中，将超参数λ设置为0.01，N为类数。

本实施例对图像分割网络进行训练时，如图1所示，使用M∩D算法生成候选mask，作为标签训练分割网络，生成的候选mask会用填充率来修正，如果生成的候选mask与该类别的平均像素填充率误差超过50％，舍弃生成的候选mask，并以bbox的范围作为候选mask，然后使用新生成的候选mask作为训练标签更新网络参数。一次迭代后使用训练后的网络更新所有图像的分割标签，然后，使用更新的分割标签重新训练网络。重复上面的步骤，获得训练好的图像分割网络。

需要注意的是，两个阶段都要使用所有的图片。也就是说，每迭代一次，训练集的训练图像要使用两遍。图像分割网络模型及训练示意图如图1所示。

使用训练好的图像分割网络对待分割图像进行分割即可产生像素级mask。

本公开通过Deepcut算法生成训练图像的第一候选mask，通过MCG算法生成训练图像的第二候选mask，将第一候选mask和第二候选mask在训练图像的边界框中重合的区域选定为候选mask区域，通过mask区域作为标签训练分割网络，在对图像分割网络进行训练时，通过填充率来修正候选mask，将训练好的图像分割网络对待分割图像进行像素级预测，本公开不使用像素级标注进行图像的语义分割，提高图像分割的质量和效率。

本公开在图像分割网络中添加了包括空间域注意力网络和通道域注意力网络的注意力模块，通过增加注意力模块提取更更丰富的特征信息，从而提高图像分割的准确性。

本实施例中提及的待分割图像为自然图像。

实施例2

在该实施例中，公开了一种基于注意力机制的弱监督图像语义分割系统，包括：

图像获取模块，用于获取待分割图像；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于注意力机制的弱监督图像语义分割方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于注意力机制的弱监督图像语义分割方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于注意力机制的弱监督图像语义分割方法，其特征在于，包括：

获取待分割图像；

2.如权利要求1所述的一种基于注意力机制的弱监督图像语义分割方法，其特征在于，在对图像分割网络进行训练时，通过填充率对候选mask区域进行修正。

3.如权利要求1所述的一种基于注意力机制的弱监督图像语义分割方法，其特征在于，图像分割网络采用弱监督训练获得。

4.如权利要求1所述的一种基于注意力机制的弱监督图像语义分割方法，其特征在于，图像分割网络采用Deeplab网络，Deeplab网络基于ResNet网络构建，在ResNet网络中添加注意力模块。

5.如权利要求4所述的一种基于注意力机制的弱监督图像语义分割方法，其特征在于，注意力模块包括空间域注意力网络和通道域注意力网络。

6.如权利要求5所述的一种基于注意力机制的弱监督图像语义分割方法，其特征在于，空间域注意力网络提取输入特征图中横向和纵向两个方向的空间特征，并将两个空间特征进行融合，获得空间特征图；通道域注意力网络获取输入特征图的通道依赖关系，将通道依赖关系整合到输入特征图中，获得通道特征图；将空间特征图、通道特征图和特征图进行融合，获得注意力模块的输出，注意力模块的输出作为下一层的输入。

7.如权利要求6所述的一种基于注意力机制的弱监督图像语义分割方法，其特征在于，获得通道特征图的具体过程为：

对输入特征图进行形状变换，获得形状变换后特征图；

8.一种基于注意力机制的弱监督图像语义分割系统，其特征在于，包括：

图像获取模块，用于获取待分割图像；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的一种基于注意力机制的弱监督图像语义分割方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的一种基于注意力机制的弱监督图像语义分割方法的步骤。