CN111462163A

CN111462163A - 一种弱监督语义分割方法及其应用

Info

Publication number: CN111462163A
Application number: CN202010004601.5A
Authority: CN
Inventors: 刘佳惠; 高常鑫; 桑农
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-07-28
Anticipated expiration: 2040-01-03
Also published as: CN111462163B

Abstract

本发明属于计算机视觉技术领域，具体公开一种弱监督语义分割方法及应用，方法包括：采用预训练的用于弱监督语义分割的语义擦除式区域扩张分类网络，对待语义分割图片依次进行第一阶段特征提取和高层语义整合分类，得到该张图片对应的第一类别响应图；对第一类别响应图中响应度高的区域进行擦除并对擦除后的类别响应图进行第二阶段高层语义整合分类，得到第二类别响应图；对第一类别响应图和第二类别响应图的各对应位置分别相加融合，得到融合类别响应图，并对融合类别响应图进行背景阈值切割处理得到类别分割区域图。本发明极大简化擦除式区域扩张分类网络结构，同时扩张效果好，极大提高区域扩张的探索效率，使得弱监督语义分割效果进一步增强。

Description

一种弱监督语义分割方法及其应用

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种弱监督语义分割方法及其应用。

背景技术

语义分割是计算机视觉的经典问题之一，可广泛应用于基于视觉的道路场景分割、遥感图像分割等精细分割场景。对于一张给定的图片，通过一定的算法分割出不同的类别区域(包含若干前景物体类别以及背景)。基于深度学习的全监督语义分割算法需要像素级别的类别标记信息，这种标记往往精细耗时，并且限制了物体类别的多样性和具体的实际应用。其他如物体框、简笔画、点标记等弱监督标记极大降低了标记成本，且在一定的时间内能够标记出更多的训练图片。在所有弱监督标记中，图像级别的标记成本最低，它只标明每张图片包含哪些类别，而不对图片像素进行标记。因此，大部分弱监督语义分割算法希望仅通过图片标签得到相对高的语义分割结果。

给定图片标签，之前的算法首先通过分类网络的训练，生成初始的类别分割区域“种子”，该种子通过深度网络末端的类别响应图产生。然后，种子分割结果被用来训练一个常规的全监督分割网络，以得到最终的弱监督分割结果。由于种子的高响应区域通常集中于具有显著分类特征的物体区域，并不能包含整个物体。为了扩张初始区域种子，已有方法在图片本身或者深度网络的高维中间层特征上对种子区域进行擦除抑制。通过迭代训练擦除后的分类网络，促使种子关注到其他非显著性的特征区域。但是，以上擦除算法仍然存在以下两种问题：(1)已有的方法需要迭代式地训练分类网络，这引入很多离线操作和计算复杂度。同时，迭代次数的最优值也是实验性质的，对于不同类别的扩张，由于不同类别具有的特征区域块数量不同，无法很好的判定一个对所以类别都最优的共同最佳迭代值；(2)已有的算法并没有探究擦除后的扩张效率。即，在深度网络的什么地方擦除，擦除之后剩下的特征信息，如何能够使得网络更好的探索其他非显著性的区域。因此，如何克服现有擦除方法存在的扩张效率低的问题以提高弱监督语义分割精度，是目前本领域亟待解决的技术问题。

发明内容

本发明提供一种基于高层语义的弱监督语义分割方法及其应用，用以解决现有的擦除区域扩张式的弱监督语义分割方法中因擦除位置和扩张效率而导致的语义分割精度不高的技术问题。

本发明解决上述技术问题的技术方案如下：一种弱监督语义分割方法，采用预训练的用于弱监督语义分割的语义擦除式区域扩张分类网络，执行以下步骤：

对待语义分割图片依次进行第一阶段特征提取和高层语义整合分类，得到该张图片对应的第一类别响应图；

对所述第一类别响应图中响应度高的区域进行擦除，并对擦除后的类别响应图进行第二阶段高层语义整合分类，得到第二类别响应图；

对所述第一类别响应图和所述第二类别响应图的各对应位置分别相加融合，得到融合类别响应图，并对所述融合类别响应图进行背景阈值切割处理，得到类别分割区域图，完成所述待语义分割图片的语义分割。

上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述语义擦除式区域扩张分类网络的训练方法为：

S1、分别采用特征提取单元和第一分类单元，对训练图片集中任一张图片依次进行第一阶段特征提取和高层语义整合分类，得到该张图片对应的第一类别响应图，对该第一类别响应图进行全局平均池化，得到第一类别预测向量；

S2、对该第一类别响应图中响应度高的区域进行擦除，采用第二分类单元，对擦除后的类别响应图进行第二阶段高层语义整合分类，得到第二类别响应图，对该第二类别响应图进行全局平均池化，得到第二类别预测向量；

S3、基于该张图片的弱监督类别标签向量、第一类别预测向量和第二类别预测向量，以训练分类误差收敛为目标，优化所述特征提取单元、所述第一分类单元和所述第二分类单元的参数，并对所述训练图片集中其它各张图片依次重复上述过程，直至达到终止条件，完成语义擦除式区域扩张分类网络的训练。

进一步，所述S3包括：

基于该张图片的弱监督类别标签向量和第一类别预测向量，计算第一阶段的训练误差，基于该张图片的类别标签向量和第二类别预测向量，计算第二阶段的训练误差；

基于所述第一阶段的训练误差，优化所述特征提取单元、所述第一分类单元的参数，并基于所述第二阶段的训练误差，优化所述特征提取单元、所述第一分类单元和第二分类单元的参数；

对所述训练图片集中其它各张图片依次重复步骤S1，直至达到终止条件，完成语义擦除式区域扩张分类网络的训练。

进一步，所述第二分类单元包括两层卷积层，每层卷积层中的卷积核大小为1×1。

进一步，所述对所述第一类别响应图中响应度高的区域进行擦除，具体为：

将所述第一类别响应图中的负数响应度值修改为0，得到非负类别响应图，并将所述非负类别响应图右乘所述待语义分割图片的弱监督类别标签向量，得到有效类别响应图；

对所述有效类别响应图中的每个类别通道分别进行归一化，并在通道维度上取最大值，得到最大值响应图；

在空白擦除区域图中，将该最大值置信度图中响应度大于擦除阈值的对应位置设为零，反之设为一，得到擦除区域图；

将所述擦除区域图分别和所述第一类别响应图中每个通道进行对应位置相乘，得到擦除后的第一类别响应图。

进一步，所述将所述第一类别响应图中的负数响应度值修改为0，具体为：采用线性修正单元激活函数，对所述第一类别响应图进行非负化处理，得到非负的类别响应图。

进一步，所述擦除阈值的取值范围为[0.7,0.9]。

本发明还提供一种如上所述的任一种弱监督语义分割方法的应用，用于对多张待语义分割图片进行语义分割得到类别分割区域图，以基于多张待语义分割图片及其对应的类别分割区域图，训练语义分割网络。

本发明还提供一种语义分割方法，采用如上所述的语义分割网络对待语义分割图片进行语义分割，完成语义分割。

本发明还提供一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述如上所述的任一种弱监督语义分割方法和/或如上所述的一种语义分割方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)通过类别响应图中的高层语义信息指导后续的区域扩张，其出发点在于，对于类别响应图中的每个像素位置，其所有类别的预测置信度已经得到，即，每个像素位置的通道向量已经包含该像素点隶属于某个类别的打分。因此对于响应略小于背景置信度的潜在前景区域点，通过后续阶段卷积层的调整和激活，使得该点的响应更容易的超过背景阈值，从而被分割成前景；此外，对于物体边界或者相似类别的易混淆区域，其对应预测向量元素值也应当是极为接近，因此当基准种子分错前景区域时，高层语义擦除方法的扩张阶段能够激活增强正确的类别响应值，通过分类的训练，使得其更容易在易混淆的类别竞争中得到正确的分割结果。基于此，本方法提高了种子的扩张效率。

(2)直接在类别响应图上进行区域擦除，使得种子能够更有效的扩张到潜在的物体前景区域。类别响应图中的高层语义信息增强了后续的扩张效率。实验证明本方法在潜在前景的增强，以及前景类别纠错方面，都有性能提升。

(3)本发明提出级联的网络结构，大大简化了迭代过程和计算复杂度。在高层语义信息的指导下，本方法能够用极简的网络结构极大提高初始种子的扩张效率，并得到更好的类别分割区域图，最终使得弱监督语义分割性能增强。

(4)本方法性能超出了之前的擦除式弱监督语义分割算法，并且与当前其他弱监督语义分割方法性能可以媲美，在常用数据集上效果理想。

附图说明

图1为本发明实施例提供的一种弱监督语义分割方法的流程框图；

图2为本发明实施例提供的语义擦除式区域扩张的分类网络结构示意图；

图3为本发明实施例提供的弱监督语义分割方法和基准种子方法在区域扩张过程中性能提升效果对比示意图；

图4为本发明实施例提供的本方法和现有方法的语义分割对比结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种弱监督语义分割方法100，如图1所示，采用预训练的用于弱监督语义分割的语义擦除式区域扩张分类网络，执行以下步骤：

步骤110、对待语义分割图片依次进行第一阶段特征提取和高层语义整合分类，得到该张图片对应的第一类别响应图；

步骤120、对第一类别响应图中响应度高的区域进行擦除，并对擦除后的类别响应图进行第二阶段高层语义整合分类，得到第二类别响应图；

步骤130、对第一类别响应图和第二类别响应图的各对应位置分别相加融合，得到融合类别响应图，并对融合类别响应图进行背景阈值切割处理，得到类别分割区域图，完成待语义分割图片的语义分割。

需要说明的是，步骤110中，首先进行图片级弱标记数据采集。针对训练图片，采集每个图片的图片级弱标记信息。即，每个图片中需要关注的前景对象类别，对于每个图片都有一个多类别的标签向量。记所有训练图片集为

其中y_i∈{0,1}^1×C为图片I_i的弱标签的独热(one-hot)编码向量。y_i向量标签中的元素y_ij,j∈[0,C-1]表征图片I_i是否含有类别j，包含则为1，不包含则为0。假设整个数据集感兴趣的物体类别一共有C个(不包含背景类别)，数据集包含N张图片，以输入图片I_i为例，整体流程如图2所示。

其次，特征提取。采取常见的分类网络特征提取层，对输入的图片提取相关特征，得到图片对应的高维中间特征图。具体的，对于图片I_i，经过常见的数据增强，比如随机裁剪、随机伸缩、随机反转等后，输入到如图2所示的特征提取卷积组。该卷积组为常见的分类网络主干部分。假设输入图片尺寸为H×H，则输入图片大小为H×H×3，其中3为图片的三个通道(RGB)。经过卷积组的特征提取后，得到高维中间特征图

其中H₁为卷积降采样之后的特征图大小，K为卷积组中最后一层卷积层的卷积核个数，也是输出的通道个数；

另外，高层语义提取。将高维中间特征F输入到接下来的若干1×1卷积核大小的分类层(卷积层)，得到和分类总类别数C相等通道的类别响应图，记为

由于此操作经过若干卷积核大小为1×1的卷积层，类别响应图A的尺寸和中间特征图F保持一致(H₁×H₁)，两者通道数不同(分别为C和K)。类别响应图A的每一个通道A_l,l∈[0,C-1](一个通道为一个类别的响应图)对应类别l的空间响应(该类别在空间位置上的置信度数值大小)，响应高的区域表征网络关注到的显著性物体特征区域。不同通道分别对应不同的类别，整合所有类别的响应，得到最大值置信度图(也即最大值响应图)及其对应的最大值类别图，基于最大值置信度图和背景阈值图的对比，切割最大值类别图，得到包含图片类别标签的初始类别分割区域，该区域也是通常被应用于弱监督语义分割任务的初始种子。在该阶段称类别响应图A为第一类别响应图。

本实施例针对种子生成过程中存在的两个问题(如图3所示)：(1)相关潜在前景类别区域响应值没有超过背景阈值，因此被误标记为背景；(2)相似前景区域响应值接近，导致类别判定错误，该错误可能发生在物体边界或相似类别区域。本实施例提出一种新的基于高层语义的擦除式区域扩张的弱监督语义分割算法，改善种子生成过程中的两类问题。在扩张潜在种子区域的同时，纠正种子生成中的类别错误，从而提高种子的准确性。实验证明扩张后的种子在最终的弱监督分割中得到了令人满意的结果。

具体通过类别响应图中的高层语义信息指导后续的区域扩张，其出发点在于，对于类别响应图中的每个像素位置，其所有类别的预测置信度已经得到，即，每个像素位置的通道向量已经包含该像素点隶属于某个类别的打分。因此对于响应略小于背景置信度的潜在前景区域点，通过后续阶段卷积层的调整和激活，使得该点的响应更容易的超过背景阈值，从而被分割成前景；此外，对于物体边界或者相似类别的易混淆区域，其对应预测向量元素值也应当是极为接近，因此当基准种子分错前景区域时，高层语义擦除方法的扩张阶段能够激活增强正确的类别响应值，通过分类的训练，使得其更容易在易混淆的类别竞争中得到正确的分割结果。基于以上两点，本方法提高了种子的扩张效率。

优选的，语义擦除式区域扩张分类网络的训练方法为：

步骤111、分别采用特征提取单元和第一分类单元，对训练图片集中任一张图片依次进行第一阶段特征提取和高层语义整合分类，得到该张图片对应的第一类别响应图，对该第一类别响应图进行全局平均池化，得到第一类别预测向量；

步骤112、对该第一类别响应图中响应度高的区域进行擦除，采用第二分类单元，对擦除后的类别响应图进行第二阶段高层语义整合分类，得到第二类别响应图，对该第二类别响应图进行全局平均池化，得到第二类别预测向量；

步骤113、基于该张图片的弱监督类别标签向量、第一类别预测向量和第二类别预测向量，以训练分类误差收敛为目标，优化特征提取单元、第一分类单元和第二分类单元的参数，并对训练图片集中其它各张图片依次重复上述过程，直至达到终止条件，完成语义擦除式区域扩张分类网络的训练。

需要说明的是，图2中第一阶段对应的特征提取卷积组即为上述特征提取单元，第一阶段中特征提取卷积组后续的若干卷积层为上述第一分类单元。第二阶段的若干卷积层即为上述第二分类单元。

优选的，步骤113包括：

基于该张图片的弱监督类别标签向量和第一类别预测向量，计算第一阶段的训练误差，基于该张图片的类别标签向量和第二类别预测向量，计算第二阶段的训练误差；基于第一阶段的训练误差，优化特征提取单元、第一分类单元的参数，并基于第二阶段的训练误差，优化特征提取单元、第一分类单元和第二分类单元的参数；对训练图片集中其它各张图片依次重复步骤111，直至达到终止条件，完成语义擦除式区域扩张分类网络的训练。

对于训练误差损失，具体的，将多个阶段的类别响应图分别做全局平均池化，即每一个通道所有值取平均，得到该类别通道的全局平均响应。由此，生成元素个数和总类别数相等的多分类类别预测向量。两个阶段的类别预测向量分别和真实类别标签向量计算常见分类交叉熵损失。多个阶段的损失相加得到整体分类误差损失，以监督整个多阶段深度网络的联合学习。这里采用常见多分类交叉熵损失进行误差计算，公式如下：

优选的，第二分类单元包括两层卷积层，每层卷积层中的卷积核大小为1×1。

优选的，上述步骤120中，对第一类别响应图中响应度高的区域进行擦除，具体为：

将第一类别响应图A中的负数响应度值修改为0，得到非负类别响应图A_non，并将非负类别响应图A_non右乘待语义分割图片的弱监督类别标签向量y_i，得到有效类别响应图

对有效类别响应图

中的每个类别通道分别进行归一化，并在通道维度上取最大值，得到最大值响应图Score；在空白擦除区域图M中，将该最大值置信度图Score中响应度大于擦除阈值α的对应位置设为零，反之设为一，得到擦除区域图M；将擦除区域图M分别和第一类别响应图A中每个通道进行对应位置相乘，得到擦除后的第一类别响应图

具体的，利用类别响应图A的高响应区域，在线的生成高响应擦除区域。该区域对应初始分类网络注意到的显著性区域，也是本方法中需要抑制的部分。给定第一阶段的类别响应图

类别标签向量y_i∈{0,1}^1×C以及特定的擦除阈值α(通常取值为0.8)，具体包含以下步骤：

(1)对A进行非负化

由于通常响应为负数的区域往往不可能成为潜在的物体区域，通过线性修正单元(Relu)激活函数，得到非负的类别响应图

(2)标签抑制

借用已有的图片级别的类别标签向量y_i∈{0,1}^1×C，在线的抑制掉无关类别的响应通道，避免影响有效类别的分割结果。这也是将弱监督标签充分运用之处。利用类别标签向量y_i(即类别信息)抑制掉无关的类别通道，得到

只保留有效标签类别的通道响应值，得到

C为类别数例如20。

(3)响应归一化

为了平衡类别的响应值差异，对得到的类别响应图

做归一化处理。所有类别通道的特征通过该通道的最大值分别进行归一化。无效通道保留抑制效果，有效通道归一化，

得到归一化之后的响应图

(4)极大置信度

对于归一化之后的所有有效通道，在通道维度上，得到最大值(类别预测)置信度图(也即最大值响应图)

在得到的结果中，不同像素位置的最大值置信度取值可能来源于不同的类别通道；

(5)擦除区域生成

在空白擦除区域图M中，对于最大值置信度图Score上的每个像素位置，如果其值大于擦除阈值α(高响应，待擦除)，则擦除区域图M的对应位置设置为0(擦除)，反之为1(低响应保留，附图2中图M的白色部分)。α通常为0.8左右。以此得到在线生成的擦除区域图

(6)语义擦除

将生成的擦除区域图M在第一阶段类别响应图A本身上擦除。擦除操作对于A所有通道的相关区域(M中像素为0的区域)置零，其他区域的响应保留。即，将擦除区域M和类别响应图A的所有通道对应位置相乘，如图2所示，生成擦除后的第一类别响应图

优选的，上述将第一类别响应图A中的负数响应度值修改为0，具体为：采用线性修正单元激活函数，对第一类别响应图A进行非负化处理，得到非负的类别响应图A_non。

优选的，擦除阈值的取值范围为[0.7,0.9]。

通常，过度的擦除(阈值较低的情况)会导致网络不收敛从而无法训练。因此，实验中优选一个比较合理的擦除阈值，通常在0.8左右。由于该阈值是响应相对于对应通道最大值而言的比例，因此，对于不同的响应模式，该模块能自适应的在线生成不同形状和大小的擦除区域。

另外，对于步骤120和步骤130，具体作如下说明：

步骤120中，在上述擦除显著区域之后，本实施例方法还需要进行进一步语义指导扩张。将擦除后的包含高层语义信息的第一类别响应图

输入到下一个阶段的网络卷积层(也即前述的第二分类单元)，做进一步的语义整合分类学习。通过实验，极简的两层1×1卷积层就能够实现很好的扩张效果。采取和第一阶段同样的方式，得到该阶段的扩张类别响应图

也称为第二类别响应图。

进一步，步骤130中需要进行类别响应图融合，具体的为：对于训练好的网络模型，在测试阶段，将两个阶段的类别响应图对应位置相加，得到融合后的类别响应图，用融合后的类别响应图生成扩张后的初始类别分割区域种子。

需要指出的是，在图3给出的本方法用于扩张种子区域示意图中，本方案通过纠正两类常见的种子生成错误，使得扩张后的种子性能提高。图4中的实验对比结果也表明，不仅更多的潜在前景物体区域被识别出，同时，基准种子中的部分错误在扩张的过程中被纠正。相对于基准种子和其他擦除方法，本方法扩张效率更高。

更进一步，关于级联的扩张阶段的数量，在两阶段或三阶段甚至多阶段中，实验表明扩张效果具有等效性。如：三阶段结构擦除阈值分别为0.9的性能和两阶段擦除阈值为0.8的性能相当，因为有0.8≈0.81＝0.9×0.9。因此，本例采用两阶段框架来阐明方法的主要核心思想：即，在线生成擦除区域，并在具有高层语义信息的类别响应图上进行擦除，继而指导后续扩张。本方法不仅极大简化擦除操作和扩张的网络结构流程，同时也更有效的利用高层语义信息辅助扩张，明显提高非显著区域搜索的效率。

实施例二

一种如实施例一所述的任一种弱监督语义分割方法的应用，用于对多张待语义分割图片进行语义分割得到类别分割区域图，以基于多张待语义分割图片及其对应的类别分割区域图，训练语义分割网络。

另外一种语义分割方法，采用如上所述的语义分割网络对待语义分割图片进行语义分割，完成语义分割。

本实施例采用实施例一所述的弱监督语义分割方法，由于其基于高层语义信息的擦除式区域扩张算法，通过多阶段扩张，得到融合的类别响应图，对该融合的类别响应图进行区域分割，得到的每张图片的类别分割区域图包含更为全面的物体区域。因此，采用实施例一所述的弱监督语义分割方法得到用于训练语义分割网络的全监督训练样本，使得训练后的语义分割网络在进行语义分割时性能提高。

实施例三

一种存储介质，存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述如上实施例一所述的任一种弱监督语义分割方法和/或如上实施例二所述的一种语义分割方法。

相关技术方案同实施例一和实施例二，在此不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种弱监督语义分割方法，其特征在于，采用预训练的用于弱监督语义分割的语义擦除式区域扩张分类网络，执行以下步骤：

2.根据权利要求1所述的一种弱监督语义分割方法，其特征在于，所述语义擦除式区域扩张分类网络的训练方法为：

3.根据权利要求2所述的一种弱监督语义分割方法，其特征在于，所述S3包括：

4.根据权利要求2所述的一种弱监督语义分割方法，其特征在于，所述第二分类单元包括两层卷积层，每层卷积层中的卷积核大小为1×1。

5.根据权利要求1至4任一项所述的一种弱监督语义分割方法，其特征在于，所述对所述第一类别响应图中响应度高的区域进行擦除，具体为：

在空白擦除区域图中，将该最大值响应图中响应度大于擦除阈值的对应位置设为零，反之设为一，得到擦除区域图；

6.根据权利要求5所述的一种弱监督语义分割方法，其特征在于，所述将所述第一类别响应图中的负数响应度值修改为0，具体为：采用线性修正单元激活函数，对所述第一类别响应图进行非负化处理，得到非负的类别响应图。

7.根据权利要求5所述的一种弱监督语义分割方法，其特征在于，所述擦除阈值的取值范围为[0.7,0.9]。

8.一种如权利要求1至7任一项所述的一种弱监督语义分割方法的应用，其特征在于，用于对多张待语义分割图片进行语义分割得到类别分割区域图，以基于多张待语义分割图片及其对应的类别分割区域图，训练语义分割网络。

9.一种语义分割方法，其特征在于，采用如权利要求8所述的语义分割网络对待语义分割图片进行语义分割，完成语义分割。

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述如权利要求1至7任一项所述的一种弱监督语义分割方法和/或如权利要求9所述的一种语义分割方法。