CN110363201A

CN110363201A - 基于协同学习的弱监督语义分割方法及系统

Info

Publication number: CN110363201A
Application number: CN201910619773.0A
Authority: CN
Inventors: 张娅; 李智康; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-22
Anticipated expiration: 2039-07-10
Also published as: CN110363201B

Abstract

本发明提供了一种基于协同学习的弱监督语义分割方法及系统，所述方法包括：特征图提取步骤：对输入的原始图像，使用深度神经网络提取图像的高层特征图；定位图提取步骤：使用定位子网络，在特征图上基于图像标签提取物体的定位图；分割图提取步骤：使用分割子网络和条件随机场，在特征图上提取物体分割图；伪标签生成步骤：在物体定位图和分割图上，利用阈值选取得到物体定位伪标签和物体分割伪标签；伪标签结合步骤：物体定位伪标签和物体分割伪标签使用一种自适应的混合策略进行混合。所述系统包括与所述各步骤相对应的模块，本发明能够仅通过提供图像级别的标签，训练对图像的像素级别预测的模型，从而完成对图像的语义分割。

Description

基于协同学习的弱监督语义分割方法及系统

技术领域

本发明涉及计算机视觉和图像处理领域，具体地，涉及一种基于协同学习的弱监督语义分割方法及系统。

背景技术

语义分割是计算机视觉中的一个基础任务，它的目标是给图片中每个像素标注一个对应的语义类别，它对后续的图像理解，图像编辑等任务起到了重要的作用，例如交通场景行人分割、医疗场景病灶分割、军事场景航拍图分割。随着深度神经网络在图像处理领域逐渐发展，现在较为成熟的语义分割技术，基本上都是基于深度学习的方法。然而，不同于分类任务，要收集大量像素级别的标签十分耗时耗力，同时也很难保证标签的准确性和一致性。弱监督语义分割应运而生，在提供不完全标注的情况下，如标注框、笔画、点、甚至是图像类别标签，完成语义分割任务。其中，由于图像级别的标签易得且高效，基于图像标签的弱监督语义分割尤为受人关注。

在基于图像标签的弱监督语义分割领域，最初的研究工作是基于多实例学习，将每个像素看作一个实例，一张图片看作一个包，要确保一张图像至少有一个像素属于目标类，此类方法由于缺乏对每个像素的显式监督，很难区别两个边界上相邻但是属于不同类别的像素之间的语义不连续性，效果有效。之后的大部分研究工作致力于基于弱标签生成高质量的伪标签，通常基于物体注意力图，然而定位图比较平滑，生成的伪标签的边界相对粗糙，很难提供物体的形状信息。

经检索，公开号为CN108647684A的中国发明专利，公开一种基于引导注意力推理网络的弱监督语义方法。该方法通过利用分类流和注意力挖掘两个网络流，分类流有助于识别类的区域，注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中，使注意力图变得更加完整、准确，通过这两种损失函数可以联合生成和训练注意力图；同时引入引导注意力推理网络的扩展，在弱监督的学习框架中无缝集成额外的监督，从而控制注意力图学习过程。

但上述专利未对图像的边界和形状信息进行考虑，如根据条件随机随机场或者随机行走对物体边界进行建模等，未能充分利用分割任务的特点。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于协同学习的弱监督语义分割方法及系统。

本发明使用协同学习的框架，通过两个骨干共享的子网络，产生位置和边界敏感的伪标签，从而在只有图像级别标注的情况下，通过伪标签训练对图像的像素级别预测的模型，从而完成对图像的语义分割。

根据本发明的第一目的，提供一种基于协同学习的弱监督语义分割方法，包括：

特征图提取步骤：对输入的原始图像，使用深度神经网络提取图像的高层特征图；

定位图提取步骤：使用定位子网络，在特征图上基于图像标签提取物体的定位图；

分割图提取步骤：使用分割子网络和条件随机场，在特征图上提取物体分割图；

伪标签生成步骤：在物体定位图和分割图上，利用阈值选取得到物体定位伪标签和物体分割伪标签；

伪标签结合步骤：物体定位伪标签和物体分割伪标签使用一种自适应的混合策略进行混合。

本发明所述的基于协同学习的弱监督语义分割方法，是能够进行端到端训练的。

优选地，所述特征图提取步骤，定位子网络和分割子网络共享一个骨干网络。在骨干网络中，运用了空洞卷积模块，在保证一定大小特征图分辨率的情况下，增大特征图的感受野，该步骤能够对输入的任意图像提取出0到1之间浮点数组成的高层特征图，同时整个方法能够在进行端到端训练的过程中被继续学习优化。

优选地，所述定位图提取步骤，在骨干网络提取的特征图上使用定位子网络，根据提供的物体类别，通过类别激活映射CAM得到对应类别的定位图。

优选地，所述分割图提取步骤，在骨干网络提取的特征图上使用分割子网络得到粗糙的分割图，之后结合原始图像通过条件随机场CRF得到精细的分割图。

优选地，所述伪标签生成步骤，对于定位图，首先将定位图每个点最大可信度的类别作为初始伪标签，同时作为该点标签的可信度，同时根据显著性图作为背景的先验，结合每个点标签的可信度，对每个点的标签根据阈值进行筛选；对于分割图，首先将分割图每个点最大可信度的类别作为初始伪标签，同时作为该点标签的可信度，之后对每个点的标签根据阈值进行筛选，不满足可信度条件的伪标签设为未知。

优选地，所述伪标签结合步骤，物体定位伪标签和物体分割伪标签使用一种动态的混合策略进行像素级别混合，同时结合定位伪标签定位准确和分割伪标签边界清晰的优点，作为模型的监督，进行端到端的学习。

根据本发明的第二目的，提供一种基于协同学习的弱监督语义分割系统，包括：

特征图提取模块：对输入的原始图像，使用深度神经网络提取图像的高层特征图；

定位图提取模块：使用定位子网络，在特征图上基于图像标签提取物体的定位图；

分割图提取模块：使用分割子网络和条件随机场，在特征图上提取物体分割图；

伪标签生成模块：在物体定位图和分割图上，利用阈值选取得到物体定位伪标签和物体分割伪标签；

伪标签结合模块：物体定位伪标签和物体分割伪标签使用一种自适应的混合策略进行混合。

优选地，所述特征图提取模块，定位子网络和分割子网络共享一个骨干网络。在骨干网络中，运用了空洞卷积模块，在保证一定大小特征图分辨率的情况下，增大特征图的感受野，该模块能够对输入的任意图像提取出0到1之间浮点数组成的高层特征图，同时整个方法能够在进行端到端训练的过程中被继续学习优化。

优选地，所述定位图提取模块，在骨干网络提取的特征图上使用定位子网络，根据提供的物体类别，通过类别激活映射CAM得到对应类别的定位图。

优选地，所述分割图提取模块，在骨干网络提取的特征图上使用分割子网络得到粗糙的分割图，之后结合原始图像通过条件随机场CRF得到精细的分割图。

优选地，所述伪标签生成模块，对于定位图，首先将定位图每个点最大可信度的类别作为初始伪标签，同时作为该点标签的可信度，同时根据显著性图作为背景的先验，结合每个点标签的可信度，对每个点的标签根据阈值进行筛选；对于分割图，首先将分割图每个点最大可信度的类别作为初始伪标签，同时作为该点标签的可信度，之后对每个点的标签根据阈值进行筛选，不满足可信度条件的伪标签设为未知。

优选地，所述伪标签结合模块，物体定位伪标签和物体分割伪标签使用一种动态的混合策略进行像素级别混合，同时结合定位伪标签定位准确和分割伪标签边界清晰的优点，作为模型的监督，进行端到端的学习。

与现有技术相比，本发明具有如下的有益效果：

本发明对输入图像分别通过定位子网络提取定位图和通过分割子网络提取分割图，之后通过混合后的定位伪标签和分割伪标签作为监督，从而进行弱监督的语义分割。

进一步的，本发明中定位图提取模块能够对输入图像提取物体的位置敏感信息，分割图提取模块能够对输入图像提取物体的边界敏感信息。与此同时，伪标签生成模块一定程度上过滤了伪标签中噪声，有利于网络的训练。最后通过伪标签混合模块，物体的位置信息和边界信息都能够得到保留和利用，从而提升弱监督语义分割的效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中方法流程图；

图2为本发明一实施例中方法具体流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的一种基于协同学习的弱监督语义分割方法，包括：

定位图提取步骤：使用定位子网络，在高层特征图上基于图像标签提取物体定位图；

分割图提取步骤：使用分割子网络和条件随机场，在高层特征图上提取物体分割图；

伪标签生成步骤：在物体定位图和物体分割图上，利用阈值选取分别得到物体定位伪标签和物体分割伪标签；

伪标签结合步骤：将物体定位伪标签和物体分割伪标签进行自适应混合。

具体地，所述定位子网络和分割子网络共享一个骨干网络，在所述骨干网络中，运用空洞卷积，在保证设定大小特征图分辨率的情况下，增大高层特征图的感受野，对输入的任意图像提取出0到1之间浮点数组成的高层特征图。

具体地，所述定位图提取中，在骨干网络提取的高层特征图上使用定位子网络，根据提供的物体类别，通过类别激活映射CAM得到对应类别的物体定位图。

具体地，所述定位图提取中，给定一张图像I，f_u,k代表最后一层卷积层之后的单元k在空间位置u的激活，所以对于单元k，执行了全局池化后的结果F_k是在经过最后的全连接层后，对类别c的分数为是单元k对应于类别c的权重，对于类别c的物体定位图A_u,c表示为：

A_u,c直接说明了在空间位置u的激活对图像I分类到类别c的重要性。

具体地，所述分割图提取中，在骨干网络提取的高层特征图上使用分割子网络得到粗糙的分割图，之后结合原始图像通过条件随机场CRF得到精细的物体分割图。

具体地，所述分割图提取中，在骨干网络提取的物体特征图上，使用分割子网络得到粗糙的分割图H_u,c，分割网络使用了多个不同尺度的空洞卷积，捕捉不同尺度大小物体，之后将粗糙的分割图的对数项作为条件随机场的一元项，将原始图像中关于位置和颜色的信息的高斯核作为条件随机场的二元项，产生精细的物体分割图G_u,c。

具体地，所述伪标签生成中，对于物体定位图，首先将物体定位图每个点最大可信度的类别作为初始伪标签，并作为该点标签的可信度，根据显著性图作为背景先验，结合每个点标签的可信度，对每个点标签根据阈值进行筛选，得到物体定位伪标签；对于物体分割图，首先将物体分割图每个点最大可信度的类别作为初始伪标签，并作为该点标签的可信度，之后对每个点标签根据阈值进行筛选，将不满足可信度条件的伪标签设为未知，得到物体分割伪标签。

具体地，所述伪标签生成中，对于物体定位图的初始伪标签对应的可信度基于显著性图B_u的背景初始伪标签通过一个三元区间确定物体定位图的伪标签，前景类别可信度高的第一区域和背景可信度高的第二区域分别选为对应的前景伪标签和背景伪标签，对于第一区域和第二区域以外的第三区域，只有当前景伪标签和背景伪标签不冲突时，选为对应的前景伪标签，否则，伪标签设为未知，在损失函数中不参与计算，物体定位伪标签W_u具体生成方法可写作：

其中，δ_h和δ_l分别是前景类别可信度的高可信度阈值和低可信阈值，δ_s是背景类别可信度的阈值，当A_u≥δ_h,说明是前景类别可信度高的第一区域，当A_u＜δ_l and B_u≤δ_s，说明背景可信度高的第二区域，其它区域为第三区域；

对于物体分割图的初始伪标签对应的可信度根据可信度进行筛选，由于前景类别和背景类别的分布不同，对前景和背景选取不同的可信度阈值θ_f和θ_b，物体分割伪标签S_u也即：

其中，C是数据集类别种类，是背景类别种类。

具体地，所述伪标签结合中，物体定位伪标签和物体分割伪标签使用动态的混合策略进行像素级别混合。

根据本发明提供的一种基于协同学习的弱监督语义分割系统，包括：

定位图提取模块：使用定位子网络，在高层特征图上基于图像标签提取物体定位图；

分割图提取模块：使用分割子网络和条件随机场，在高层特征图上提取物体分割图；

伪标签生成模块：在物体定位图和物体分割图上，利用阈值选取分别得到物体定位伪标签和物体分割伪标签；

伪标签结合模块：将物体定位伪标签和物体分割伪标签进行自适应混合。

以下结合附图对本发明做进一步阐述。

如图1所示，为本发明一种基于协同学习的弱监督语义分割方法实施例的流程图，该方法将输入图像处理为特征图，分别使用定位图提取步骤和分割图提取步骤在特征图上提取定位图和分割图，并使用伪标签生成步骤产生定位伪标签和分割伪标签，最后使用自适应的混合策略将定位伪标签和分割伪标签进行混合，并用混合后的伪标签作为网络的监督，从而完成对图像的语义分割。

具体的，参照图1，所述方法包括如下步骤：

对应于上述方法，本发明还提供一种基于协同学习的弱监督语义分割系统的实施例，包括：

上述基于协同学习的弱监督语义分割系统各个模块实现的技术特征可以与上述基于协同学习的弱监督语义分割方法中对应步骤实现的技术特征相同。

以下对各个步骤和模块的具体实现进行详细的描述，以便理解本发明技术方案。

在本发明部分实施例中，所述特征图提取步骤，定位子网络和分割子网络共享一个骨干网络。在骨干网络中，运用了空洞卷积模块，在保证一定大小特征图分辨率的情况下，增大特征图的感受野，该步骤能够对输入的任意图像提取出0到1之间浮点数组成的高层特征图，同时整个方法能够在进行端到端训练的过程中被继续学习优化。

在本发明部分实施例中，所述定位图提取步骤，在骨干网络提取的特征图上使用定位子网络，根据提供的物体类别，通过类别激活映射CAM得到对应类别的定位图。

在本发明部分实施例中，所述分割图提取步骤，在骨干网络提取的特征图上使用分割子网络得到粗糙的分割图，之后结合原始图像通过条件随机场CRF得到精细的分割图。

在本发明部分实施例中，所述伪标签生成步骤，对于定位图，首先将定位图每个点最大可信度的类别作为初始伪标签，同时作为该点标签的可信度，同时根据显著性图作为背景的先验，结合每个点标签的可信度，对每个点的标签根据阈值进行筛选；对于分割图，首先将分割图每个点最大可信度的类别作为初始伪标签，同时作为该点标签的可信度，之后对每个点的标签根据阈值进行筛选，不满足可信度条件的伪标签设为未知。

在本发明部分实施例中，所述伪标签结合步骤，物体定位伪标签和物体分割伪标签使用一种动态的混合策略进行像素级别混合，同时结合定位伪标签定位准确和分割伪标签边界清晰的优点，作为模型的监督，进行端到端的学习。

在本发明以优选实施例中，所述伪标签结合步骤，具体可以按照如下操作：

C是数据集类别种类，是背景类别种类，S_u,c和W_u,c分别是定位伪标签和分割伪标签，是图像中出现的类别，u∈U是图像中的任意一个像素位置，最后混合后的伪标签F_u,c可以写做

F_u,c＝αW_u,c+(1-α)S_u,c

超参数α控制着混合的比例，是一个单调递减的函数，n是当前的训练轮数，N是总的训练轮数，N₀决定了衰减的速度。分割伪标签会随着训练的进行越来越精确，因此分割伪标签的比例会越来越大。α₀确保了定位伪标签在混合中所占的最小比例，在训练中作为正则器，表示定位伪标签W_u,c在最终混合伪标签F_u,c中所占的比例。

伪标签F_u,c作为分割子网络的监督信息，提供像素级别的标注。考虑到伪标签中前景和背景标签的分布不平衡，对损失函数中为每个图像添加对应的权重，取为伪标签中前景和背景的标签的数量的倒数，最终的伪标签损失l_mask为：

其中，p_u，c表示分割网络预测像素u属于第c个类别的概率。

此外，对分割子网络同时添加边界损失l_boundary，鼓励分割子网络输出的分割结果和经过条件随机场修正后的分割结果保持一致，具体为粗糙分割图H_u,c和精细分割图G_u,c之间的KL散度：

对于定位子网络，由于一张图像中有多个类别，因此将损失定义为图像类别标签y和定位子网络预测的图像类别之间的二值多标签交叉熵：

其中，l_cls表示图像分类的损失函数。

最终，所述的基于协同学习的弱监督语义分割方法的训练目标是：

l＝λl_cls+l_mask+l_boundary

其中，l表示整个模型训练总的损失函数。

在训练阶段，仅仅提供图像类别标签的情况下，定位子网络和分割子网络由损失函数的随机梯度下降完成共同更新。两个子网络单独的网络层的梯度由对应的损失独立计算，共享的骨干网络的梯度由总损失产生。在测试阶段，单独由分割子网络产生图像的像素级别预测，从而完成对图像的语义分割。

具体的，由特征图提取模块、定位图提取模块、分割图提取模块、伪标签生成模块，伪标签结合模块组成的语义分割网络框架如图2所示，整个网络框架能够端到端地进行训练。

如图2所示的网络框架中，图中的特征图提取模块，对输入的原始图像，使用深度神经网络提取图像的高层特征图。骨干网络由一系列卷积层+pooling层+relu层组成的，在高层的网络中，部分卷积层为空洞卷积，在保证一定大小特征图分辨率的情况下，增大特征图的感受野，对输入的任意图像提取出0到1之间浮点数组成的高层特征图。

如图2所示的网络框架中，图中的定位图提取模块，使用定位子网络，在特征图上基于图像标签提取物体的定位图。通过在骨干网络提取的特征图上使用定位子网络，根据提供的物体类别，通过类别激活映射CAM得到对应类别的定位图。给定一张图像I，f_u,k代表最后一层卷积层之后的单元k在空间位置u的激活，所以对于单元k，执行了全局池化后的结果F_k是在经过最后的全连接层后，对类别c的分数为是单元k对应于类别c的权重。网络对于类别c的定位图A_u,c可以写做:

如图2所示的网络框架中，图中的分割图提取模块，使用分割子网络和条件随机场，在特征图上提取物体分割图。在骨干网络提取的特征图上，使用分割子网络得到粗糙的分割图H_u,c，分割网络使用了6、12、18、24四种尺度的空洞卷积ASPP模块，能够捕捉不同尺度大小物体。之后将粗糙的分割图的对数项看作条件随机场的一元项，将原始图像中关于位置和颜色的信息的高斯核作为条件随机场的二元项，产生精细的分割图G_u,c。

综上，本发明能够对输入图像分别通过定位子网络提取定位图和通过分割子网络提取分割图，定位图包含物体的位置敏感信息，分割图包含物体的边界敏感信息。与此同时，伪标签生成模块一定程度上过滤了伪标签中噪声，有利于网络的训练。最后通过伪标签混合模块，物体的位置信息和边界信息都能够得到保留和利用，从而提升弱监督语义分割的效果。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于协同学习的弱监督语义分割方法，其特征在于，包括：

2.根据权利要求1所述的基于协同学习的弱监督语义分割方法，其特征在于，所述定位子网络和分割子网络共享一个骨干网络，在所述骨干网络中，运用空洞卷积，在保证设定大小特征图分辨率的情况下，增大高层特征图的感受野，对输入的任意图像提取出0到1之间浮点数组成的高层特征图。

3.根据权利要求2所述的基于协同学习的弱监督语义分割方法，其特征在于，所述定位图提取中，在骨干网络提取的高层特征图上使用定位子网络，根据提供的物体类别，通过类别激活映射CAM得到对应类别的物体定位图。

4.根据权利要求3所述的基于协同学习的弱监督语义分割方法，其特征在于，所述定位图提取中，给定一张图像I，f_u,k代表最后一层卷积层之后的单元k在空间位置u的激活，所以对于单元k，执行了全局池化后的结果F_k是在经过最后的全连接层后，对类别c的分数为是单元k对应于类别c的权重，对于类别c的物体定位图A_u,c表示为：

5.根据权利要求1所述的基于协同学习的弱监督语义分割方法，其特征在于，所述分割图提取中，在骨干网络提取的高层特征图上使用分割子网络得到粗糙的分割图，之后结合原始图像通过条件随机场CRF得到精细的物体分割图。

6.根据权利要求5所述的基于协同学习的弱监督语义分割方法，其特征在于，所述分割图提取中，在骨干网络提取的物体特征图上，使用分割子网络得到粗糙的分割图H_u,c，分割网络使用了多个不同尺度的空洞卷积，捕捉不同尺度大小物体，之后将粗糙的分割图的对数项作为条件随机场的一元项，将原始图像中关于位置和颜色的信息的高斯核作为条件随机场的二元项，产生精细的物体分割图G_u,c。

7.根据权利要求1所述的基于协同学习的弱监督语义分割方法，其特征在于，所述伪标签生成中，对于物体定位图，首先将物体定位图每个点最大可信度的类别作为初始伪标签，并作为该点标签的可信度，根据显著性图作为背景先验，结合每个点标签的可信度，对每个点标签根据阈值进行筛选，得到物体定位伪标签；对于物体分割图，首先将物体分割图每个点最大可信度的类别作为初始伪标签，并作为该点标签的可信度，之后对每个点标签根据阈值进行筛选，将不满足可信度条件的伪标签设为未知，得到物体分割伪标签。

8.根据权利要求7所述的基于协同学习的弱监督语义分割方法，其特征在于，所述伪标签生成中，对于物体定位图的初始伪标签对应的可信度基于显著性图B_u的背景初始伪标签通过一个三元区间确定物体定位图的伪标签，前景类别可信度高的第一区域和背景可信度高的第二区域分别选为对应的前景伪标签和背景伪标签，对于第一区域和第二区域以外的第三区域，只有当前景伪标签和背景伪标签不冲突时，选为对应的前景伪标签，否则，伪标签设为未知，在损失函数中不参与计算，物体定位伪标签W_u具体生成方法可写作：

对于物体分割图的初始伪标签对应的可信度根据可信度进行筛选，由于前景类别和背景类别的分布不同，对前景和背景选取不同的可信度阈值θ_f和θ_b，物体分割伪标签S_u即：

其中，C是数据集类别种类，是背景类别种类。

9.根据权利要求1所述的基于协同学习的弱监督语义分割方法，其特征在于，所述伪标签结合中，物体定位伪标签和物体分割伪标签使用动态的混合策略进行像素级别混合。

10.一种基于协同学习的弱监督语义分割系统，其特征在于，包括：