CN110443818A

CN110443818A - 一种基于涂鸦的弱监督语义分割方法与系统

Info

Publication number: CN110443818A
Application number: CN201910588880.1A
Authority: CN
Inventors: 唐胜; 王斌; 张勇东
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-11-12
Anticipated expiration: 2039-07-02
Also published as: CN110443818B

Abstract

本发明提出一种基于涂鸦的弱监督语义分割方法与系统，包括：获取多张训练图片，训练图片均对应有涂鸦标记和边缘图；选取训练图片作为当前图片，将当前图片输入至语义分割网络，得到当前图片的高层语义特征；将高层语义特征输入至预测修正网络，得到当前图片的分割结果图，并根据当前图片的涂鸦标记，得到当前图片中涂鸦标记区域的交叉熵损失；将高层语义特征输入至边界回归网络，得到当前图片中目标的边界图，并根据当前图片的边缘图，得到边界图中边界区域的均值方差损失；构建总损失函数，并判断总损失函数是否收敛，若是，则将当前预测修正网络作为语义分割模型；将待语义分割的图片输入至语义分割模型，得到待语义分割的图片的分割结果图。

Description

一种基于涂鸦的弱监督语义分割方法与系统

技术领域

本方法属于机器学习和计算机视觉领域，特别涉及面向计算机视觉中弱监督语义分割的机器学习问题。

背景技术

目前流行的场景分割方法主要基于全卷积网络(Fully Convolutional Network,FCN)及其变形。这些方法均结合了迁移学习的想法，利用在大规模图像分类数据集上预训练好的卷积神经网络，将其调整为全卷积网络结构并在弱监督语义分割数据集上进行重训练。对于精细标注的训练，这种方式可以取到很好的分割结果。然而，当仅提供弱标记训练网络时，这类方法主要存在以下问题：(1)分割结果中常常出现不一致、不连续的问题，(2)目标的分割边界常常是不精准、不连贯的。

目前深度学习，特别是卷积神经网络(Convolutional Neural Network,CNNs)，使人工智能和计算机视觉的众多领域取得了巨大的进展。语义分割领域，FCN、deeplab-v2等分割模型被相继提出。基于精细标注的语义分割算法取得了很好的分割结果。然而，精细分割标注相对于分类和检测的标注十分耗时耗力。为了缓解语义分割算法对于精细标注的依赖，弱监督语义分割算法被提出,并逐渐成为新的研究热点。

弱监督语义分割大体可以分为以下四个类别：1、基于图像的弱监督语义分割，2、基于点标记的弱监督语义分割，3、基于包围框的弱监督语义分割，4、基于涂鸦的弱监督语义分割。对于基于图像级别和基于点标记的弱监督语义分割算法，极度有限的标记信息使得训练高精度的语义分割网络非常困难。相比之下，基于涂鸦和包围框的语义标记包含了更多有价值的信息，可以更有效地训练语义分割网络。基于包围框的语义分割算法，通常结合一些候选区域算法迭代地更新目标对应的语义掩码。结合一些图算法和目标候选区域，这种算法的分割精度可以得到提升。然而，在候选区域掩码不精确的情况下，使用逐像素的交叉熵损失会使包围框中不确定的区域误导分割网络的训练，从而不能得到准确的分割结果。本发明选用涂鸦标记作为弱监督标签来训练分割网络。

对基于涂鸦的弱监督语义分割算法，ScribbleSup基于图割算法对目标分割掩码进行迭代更新。Tang等人通过设计归一化损失函数有效地提升了分割性能。然而，这些算法没有充分研究和利用涂鸦标记本身的特性，也没有考虑改进网络结构来提升分割性能。我们发现，涂鸦标记可以被当做一种监督信息来训练分割网络。与此同时，图像的边缘图隐含了语义的边界信息，利用这种信息可以让网络在语义预测边界进行扩充和收缩，从而使预测语义边界与目标真实的边界对齐。基于这种观察，我们设计了一种网络结构，这种网络架构可以有效地利用涂鸦标记和图像边缘信息。

涂鸦标记简单地划几笔作为目标或者背景的标记。直接利用涂鸦标记训练的分割模型只能产生粗糙的分割结果，主要是因为涂鸦标记仅包含部分语义信息，没有提供精细的边界信息来指引模型对每个目标进行准确的分割。最后，我们设计了一种新颖的分割模型——边界感知引导(Boundary Perception Guidance,BPG)，该算法通过结合图像的边缘结构有效地平衡了涂鸦弱监督分割的问题。实验证明这种框架可以产生高分辨率具有清晰语义边界的准确分割结果。

发明内容

本发明提供一种基于涂鸦标记的弱监督语义分割模型——边界感知引导模型，该模型包括两个网络分支，分别是“预测修正网络”和“边界回归网络”。

具体来说，本发明提出一种基于涂鸦的弱监督语义分割方法，包括：

步骤1、获取由多张训练图片构成的训练集，其中每张该训练图片均对应有涂鸦标记和边缘图；

步骤2、从该训练集中选取训练图片作为当前图片，将该当前图片输入至语义分割网络，得到该当前图片的高层语义特征；

步骤3、将该高层语义特征输入至预测修正网络，得到该当前图片的分割结果图，并根据该当前图片的涂鸦标记，得到该当前图片中涂鸦标记区域的交叉熵损失；

步骤4、将该高层语义特征输入至边界回归网络，得到该当前图片中目标的边界图，并根据该当前图片的边缘图，得到该边界图中边界区域的均值方差损失；

步骤5、以该交叉熵损失和该均值方差损失，构建总损失函数，并判断该总损失函数是否收敛，若是，则将当前该预测修正网络作为语义分割模型，否则继续执行该步骤2；

步骤6、将待语义分割的图片输入至该语义分割模型，得到该待语义分割的图片的分割结果图。

所述的基于涂鸦的弱监督语义分割方法，其中该预测修正网络包括：

将当前图片下采样两倍后进行多次卷积操作得到通道数为1的高分辨率低层特征，拼接该高分辨率低层特征和该高层语义特征得到融合特征，将该融合特征包含的多维特征图通过卷积层进行特征融合，得到中间特征图，上采样该中间特征图后继续与该高分辨率低层特征拼接融合，得到最终特征图，上采样该最终特征图得到与该当前图片同样尺寸的该分割结果图；

所述的基于涂鸦的弱监督语义分割方法，其中该边界回归网络包括：

将该高层语义特征经过归一化操作获得初始置信度图，对该初始置信度图中目标类别的通道进行最大值池化操作获得前景置信度图；将该初始置信度图中非目标类别的通道作为背景置信度图；拼接该前景置信图与该背景置信度图得到掩码特征图，该掩码特征图经过卷积层进行特征转换得到目标特征图，上采样该目标特征图获得与该当前图片同样尺寸的边界图。

所述的基于涂鸦的弱监督语义分割方法，其中该交叉熵损失为：

其中p代表第p个像素，是参数为θ₁的预测修正网络的预测概率值，l_scri(p)是像素点p处的涂鸦标记类别，PCE为交叉熵损失函数；

该均值方差损失为：

其中是参数为θ₂的边界回归网络的预测概率，l_edge(p)是边缘图中像素点p处的边缘标记，MSE是逐像素的均值方差损失函数；

该总损失函数为：L_total＝L_semantic+λL_boundary

所述的基于涂鸦的弱监督语义分割方法，其中该语义分割网络为deeplab-v2网络。

本发明还提出了一种基于涂鸦的弱监督语义分割系统，其中包括：

模块1、获取由多张训练图片构成的训练集，其中每张该训练图片均对应有涂鸦标记和边缘图；

模块2、从该训练集中选取训练图片作为当前图片，将该当前图片输入至语义分割网络，得到该当前图片的高层语义特征；

模块3、将该高层语义特征输入至预测修正网络，得到该当前图片的分割结果图，并根据该当前图片的涂鸦标记，得到该当前图片中涂鸦标记区域的交叉熵损失；

模块4、将该高层语义特征输入至边界回归网络，得到该当前图片中目标的边界图，并根据该当前图片的边缘图，得到该边界图中边界区域的均值方差损失；

模块5、以该交叉熵损失和该均值方差损失，构建总损失函数，并判断该总损失函数是否收敛，若是，则将当前该预测修正网络作为语义分割模型，否则继续执行该模块2；

模块6、将待语义分割的图片输入至该语义分割模型，得到该待语义分割的图片的分割结果图。

所述的基于涂鸦的弱监督语义分割系统，其中该预测修正网络包括：

所述的基于涂鸦的弱监督语义分割系统，其中该边界回归网络包括：

所述的基于涂鸦的弱监督语义分割系统，其中该交叉熵损失为：

该均值方差损失为：

该总损失函数为：L_total＝L_semantic+λL_boundary。

所述的基于涂鸦的弱监督语义分割系统，其中该语义分割网络为deeplab-v2网络。

由以上方案可知，本发明的优点在于：

本发明提出的“预测修正网络”主要用于解决当前语义分割模型直接上采样引起的小目标，困难样本分割失效，分割边界粗糙等问题。该网络既可以提取图像的高层语义特征，也能捕捉图像的边缘纹理等高分辨率细节信息。迭代地上采样特征融合方法使得高层语义信息和低层高分辨率细节信息有效地融合，从而提升语义分割性能。

本发明提出的“边界回归网络”主要用于解决目前弱监督语义分割中常常出现的分割边界粗糙，与真实边界不对齐的问题。该网络先将类别相关的语义特征转换为前景/背景特征图，然后利用这种特征图回归得到图像的边缘。这种设计结构使得语义特征图不会过拟合地生成图像边缘图而忽视语义分割结果，而是只关注于前景和背景交界处的边缘回归(目标语义边界)，使得语义分割结果具有清晰的边界轮廓。

为同时使用上述两个网络，本发明提出的边界感知模型将其作为分割主干网络后的两个分支网络，该方法可将两个网络方便地添加到各种语义分割网络进行端到端的训练，改模型结合多层语义进行特征提取，并将基于涂鸦的弱监督标记及粗糙边缘图有效地融合利用，引导分割网络获得更精确的结果。

附图说明

图1为全监督/弱监督分割样例示意图；

图2为边界感知引导模型架构图；

图3为语义特征图与前景特征图最大池化层前向/反向传播示意图；

图4为弱监督分割消融实验示意图；

图5为不同设置下边界回归网络的分割/边缘预测对比图；

图6为PASCAL VOC 2012验证集分割结果展示；

图7为预测修正网络结构图；

图8为边界回归网络结构图。

具体实施方式

本发明提出了一种创新的边界感知引导模型处理基于涂鸦的弱监督语义分割任务。边界感知引导模型包含两个组件：(1)边界修正网络，同时结合高层语义信息和低层边缘/纹理信息，使用迭代上采样策略代替粗糙的直接8倍上采样操作，可以生成精细的特征图。(2)边界回归网络，可以引导网络在不同语义区域间获得清晰地边界。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

为了解决以上两大问题，本发明充分挖掘图像的高层语义特征和低层高分辨率细节特征，提出了预测修正网络提升分割鲁棒性。同时从弱标记本身的特性出发进行分析，提出了边界回归网络，可以让网络隐式地从包含大量噪声的边缘图中学习语义边界，从而提升分割精度。这两种网络均可单独使用，也可以在主干网络后进行并联进行端到端学习，即本发明提出的边界感知引导网络。

(1)预测修正网络：

由于deeplab-v2网络本身具有很好的分割效果，很多研究者以此作为弱监督分割任务的主干网络。为了与已有弱监督分割算法进行公平对比，本发明同样使用deeplab-v2网络作为分割主干网络。然而，我们发现这种网络结构存在两个缺点：1)最后的卷积层特征仅包含了语义分割的高层语义信息，对于小目标、难分样本及目标细节处的分割是不充分的。2)deeplab-v2网络直接将卷积层特征上采样8倍预测每个像素的标签，这种方式会产生粗糙的语义分割边界。为了处理这些问题，我们设计了预测修正网络使这些难分区域生成清晰的边界。

如图2上半部分所示，预测修正网络实现了三个主要的改进。首先，我们使用浅层的网络对输入图像提取高分辨率的卷积层特征，并将这些低层高分辨率特征与每个通道的高层语义的特征进行合并。因为提取的低层特征包含了高分辨率细节信息，结合高层语义信息可使每个语义区域得到精细的分割结果。接下来，在每次对高层语义特征和低层高分辨率特征上采样之后，利用一系列的卷积层对增强特征进行微调，使高层语义特征依据低层细节信息进行逐步修正。最后，我们使用了残差网络的跨层连接结构加快网络的收敛速度。

相比于一些已有的具有修正机制的分割网络(例如U-Net)，我们提出的边界修正网络有一下几个优点：首先，我们仅使用了具有5个卷积层的操作获取低层特征；其次，在每个高层语义特征图上我们仅添加了单通道的低层特征。所以我们的修正网络仅引入少量的计算量和内存，这种设计对计算量和内存要求高的情形更有价值。

预测修正的损失函数为：

其中p代指某个像素，是参数为θ₁的预测修正网络的预测概率值，l_scri(p)是像素点p处的涂鸦标记类别，PCE指的是部分交叉熵损失，即只在有标记的区域计算损失。

详细的网络结构如图7所示，输入图像经过基于101层的残差网络的deeplab-v2主干网络获得高层语义特征conv_feat。另外将图像下采样两倍后进行5次卷积操作得到通道数为1的高分辨率低层特征conv1；之后将conv1和conv_feat进行特征拼接OP1,OP1指的是将conv1与高层语义conv_feat的每个通道单独拼接，融合后的特征总共包含21+21×1＝42维的特征图fuse1，fuse1特征图经过两个卷积层进行特征融合得到conv2特征，conv2上采样2倍继续与低层特征conv1拼接融合，最终得到conv3特征图，上采样两倍后得到与原图像同样大小的置信度特征图，以此与涂鸦标记计算交叉熵损失并更新网络。

(2)边界回归网络：

局部在给定精细分割标注的情形下，逐像素的交叉熵损失可以训练非常好的语义分割网络。然而，对于涂鸦标记来说，只有目标内部很小的区域被标记，目标的边界信息并没有明确地给出。在这种设置下，使用经典的语义分割网络很难产生清晰的目标分割边界。为此，我们设计了一个边界回归网络分支，这种结构可以隐式地从容易获得的图像粗糙边缘图中提取目标重要的边界信息。本发明使用HED算法进行边缘图的提取，因为这种算法已经在一些弱监督分割算法中展现了其有效性。

尽管上边的思路是非常直接的，然而在弱监督语义分割任务中设计有效的边界回归模型仍然是个挑战。因为HED生成的边缘图并不是目标真正的边界，而是同时包含背景及目标内部的大量边缘，这对于语义边界来说相当于噪声，会误导分割网络的学习。

实际上，直接使用经典K+1维通道的卷积层特征预测边缘不仅不会使网络获得边界区分能力，还会破坏分割结果。原因如下：在基于涂鸦的弱监督标注的监督训练下，K+1维的置信度图会生成具有粗糙目标边界的分割结果。在这种情况下，如果给出每个目标精确的边界来指导边界回归，那么分割结果将会很容易提升。然而实际上只有粗糙的图像边缘可以获得(既包含了目标边界的边缘，也包含了背景和目标内部的边缘)，这些非边界的标记会迫使原来的特征图打碎成一些错误的块来回归这些噪声边缘。所以，为了保证语义结果的完整性，我们设计了边界回归网络结构，将K+1维的语义特征图转换为前景、背景两个通道来消除这些噪声边缘的消极影响。仅利用合成的目标/背景掩码图来回归噪声边缘，从而最小化每个语义通道受噪声边缘便签的影响。

网络的基本结构如图2下半部分所示。不同于直接使用deeplab-v2的K+1维通道特征进行边界预测，我们将语义特征图先转换为前景和背景特征，然后将其回归到边缘预测图。如图3所示，当边缘损失从类别无关的目标置信度图回传到语义特征图的每个位置时，只有那些置信度最大的通道会计算梯度并更新参数。换句话说，其他的K-1维语义特征图不会受到噪声边缘的影响。

其中dC_i表示第i个语义特征图的梯度，d_out表示前景特征图的梯度。通过更新少部分的参数，只有前景目标附近的特征学习适应边缘图中的真正目标边界，那些噪声边缘不会对K维语义图造成很大的消极影响。

边界回归网络的损失函数为：

其中是参数为θ₂的边界回归网络的预测概率，l_edge(p)是像素点p处的边缘标记，MSE是逐像素的均值方差损失。

边界回归网络的网络结构如图8所示，经过deeplab-v2提取的高层语义特征(维度＝20+1)先经过Softmax操作获得每个类别的置信度图conv1，conv是指的卷积层操作，“1”指的是网络第一层输出；之后目标类别的20个通道进行最大值池化操作获得前景的置信度图conv1_3，之后将前景置信图conv1_3与背景置信度图conv1_1拼接作为掩码特征图；掩码特征图经过3个卷积层进行特征转换得到conv3，最后将conv3上采样8倍获得与输入同样大小的边界置信度图，同给定边缘图计算均值方差损失并更新网络参数。

为了同时使用预测修正网络和边界回归网络以更好地提升分割精度，我们提出了总的边界感知引导模型，如图2所示，主干分割网络后并联预测修正网络和边界回归网络，总的损失函数为：

L_total＝L_semantic+λL_boundary (4)

为了同时使用预测修正网络和边界回归网络提升语义分割精度，我们提出了端到端的边界感知引导模型。训练过程中，边界回归子网络依赖设计的网络结构和边缘标记进行模型更新，可以使deeplabV2网络输出的K+1维特征也具有边界区分能力，这种具有边界区分力的特征输入到预测修正网络可以得到良好的边界分割结果。

我们使用PyTorch重新训练了基于ResNet101的deeplab-v2分割网络并以此作为我们的基准网络。提出的弱监督语义分割网络利用单尺度输入图像进行训练。与deeplab-v2的设置相同，我们使用了“poly”学习率策略，输入图像批量大小为10张图像，初始学习率为0.00025。动量设置为0.9，权值衰减项设置为0.0005。等式(4)中的超参数λ设置为1.0。我们使用NVIDIATitanX 1080ti GPU训练了25个周期，总共需要大约10个小时。测试阶段，我们使用了[0.5，0.75，1.0，1.25]四种尺度的输入，并使用了左右翻转输入和特征均值投票机制。

(3)实验效果：

为了验证本发明方法的有效性，我们在现在PASCAL VOC 2012数据集上分别进行实验验证。

PASCAL VOC 2012数据集包含了20个前景目标类，其他的都视为背景类。原始的数据集包含1，461个训练图像，1，449个验证图像以及1，456个测试样例。统一于弱监督语义分割相关文献，我们使用了文献(Hariharan B，Arbeláez P，BourdevL，et al.Semanticcontours from inverse detectors[C]//2011International Conference on ComputerVision.IEEE，2011：991-998.)中提供的增强数据集，总共包含了10,582张训练图像。训练标记来自于文献(Lin D,Dai J,Jia J,et al.Scribblesup:Scribble-supervisedconvolutional networks for semantic segmentation[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016:3159-3167)，用来做弱监督语义分割的涂鸦标记。

表格1：PASCAL VOC 2012验证集上不同网络结构结果对比(IoU)

(1)本发明方法在PASCAL VOC 2012数据集的有效性

我们在PASCAL VOC 2012语义分割数据上使用不同的网络结构进行实验。如图1所示，仅使用deeplab-v2的网络结构，模型可以达到69.9％的平均精度。只添加预测修正网络分支可以使平均精度提高1.5％。将deeplab-v2结合边界回归子网络可以使精度提升2.5％。本发明提出的基于deeplab-v2边界感知引导框架,同时引入预测修正网络和边界回顾网络可以使弱监督语义分割精度提升到73.2％，达到了目前最好的性能。从表1我们可以看到在所有的语义类别上，分割精度均有提升(提升1.2％到9.4％不等)，证明了所提出网络架构的有效性。此外，如果进一步结合条件随机场后处理，分割精度可以提升至76.0％,接近于使用精细标注的全监督训练的模型精度(76.4％)。

图4展示了使用不同网络结构弱监督分割结果样例。从图中我们可以看到仅使用deeplab-v2主干网络得到的分割结果语义边界十分粗糙，边界没有很好地与目标真实边界对齐。相比之下，添加了预测修正网络的模型分割结果得到了较好提升，结合了边界回归网络分支的模型得到了更精细的分割边缘。同时结合两个子网络的边界感知引导网络得到了相当好的分割结果。

表格2：PASCAL VOC 2012验证集边界回归网络不同设置对比(IoU)

(2)本发明边界回归网络的有效性

为了进一步验证本发明提出的边界回归网络的有效性，我们添加更多的实验验证不同网络设置对于分割精度的影响。如表2所示，直接使用K+1维通道特征图回归目标边界，训练最后一次迭代边缘损失仅仅为0.026，但是此时使得语义分割平均精度降低了0.6％,这是因为边缘回归分支过拟合，影响了语义分割分支的性能。

相比之下，本发明提出的边界回归网络结构(先将K+1维语义特征图转化为前景/背景特征图)，边缘损失是前者的两倍之多，但是语义分割精度有了明显的提升。图5所示的语义分割结果图可以更直观的帮助理解。从图中我们可以看到直接使用C＝K+1的网络结构，边缘预测的结果非常接近于给定的边缘标签，但是这种设置下，语义分割的结果并不好：样例1的分割结果语义边界依然很粗糙，样例2的语义分割结果包含很多错误的预测。相反的，我们的边界回归网络虽然预测的边缘与给定边缘标签相差大(主要是预测语义边界处边缘)，但是可以使得语义分割的边界非常清晰，忽视了对那些噪声边缘的预测。

表3：PASCAL VOC 2012验证集与已知最好算法对比

(3)与已知最好算法的对比

为了进一步验证本发明方法的语义分割性能，我们同当前一些最好的算法进行了对比。如表3所示，可以看到我们提出的边界感知引导模型性能远高于ScibbleSup算法。NormalCut和KernelCut是CVPR2018和ECCV2018的两篇优秀的工作，通过改进损失函数提升涂鸦弱监督语义分割性能。相比于这两个工作，我们的方法依然取得了最好的结果。图6给出了一些使用本发明方法的一些分割样例，可以看出边界感知引导模型可以取得具有精细语义边界的分割结果。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

该均值方差损失为：

该总损失函数为：L_total＝L_semantic+λL_boundary。

Claims

1.一种基于涂鸦的弱监督语义分割方法，其特征在于，包括：

2.如权利要求1所述的基于涂鸦的弱监督语义分割方法，其特征在于，该预测修正网络包括：

将当前图片下采样两倍后进行多次卷积操作得到通道数为1的高分辨率低层特征，拼接该高分辨率低层特征和该高层语义特征得到融合特征，将该融合特征包含的多维特征图通过卷积层进行特征融合，得到中间特征图，上采样该中间特征图后继续与该高分辨率低层特征拼接融合，得到最终特征图，上采样该最终特征图得到与该当前图片同样尺寸的该分割结果图。

3.如权利要求1或2所述的基于涂鸦的弱监督语义分割方法，其特征在于，该边界回归网络包括：

4.如权利要求3所述的基于涂鸦的弱监督语义分割方法，其特征在于，该交叉熵损失为：

该均值方差损失为：

该总损失函数为：L_total＝L_semantic+λL_boundary。

5.如权利要求1所述的基于涂鸦的弱监督语义分割方法，其特征在于，该语义分割网络为deeplab-v2网络。

6.一种基于涂鸦的弱监督语义分割系统，其特征在于，包括：

7.如权利要求6所述的基于涂鸦的弱监督语义分割系统，其特征在于，该预测修正网络包括：

8.如权利要求6或7所述的基于涂鸦的弱监督语义分割系统，其特征在于，该边界回归网络包括：

9.如权利要求8所述的基于涂鸦的弱监督语义分割系统，其特征在于，该交叉熵损失为：

该均值方差损失为：

该总损失函数为：L_total＝L_semantic+λL_boundary。

10.如权利要求6所述的基于涂鸦的弱监督语义分割系统，其特征在于，该语义分割网络为deeplab-v2网络。