CN110853072B

CN110853072B - 基于自引导推理的弱监督图像语义分割方法

Info

Publication number: CN110853072B
Application number: CN201911087472.4A
Authority: CN
Inventors: 方贤勇; 郝森森; 汪粼波
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-08-22
Anticipated expiration: 2039-11-08
Also published as: CN110853072A

Abstract

本发明提供基于自引导推理的弱监督图像语义分割方法，用来解决现有图像级标签监督下弱监督学习方法无法生成精确的语义分割图和训练过程复杂化的问题。为了解决这个问题，本发明基于同一对象的语义标签具有空间连续性提出了自引导推理层和自引导推理模块。本发明在技术上克服了现有弱监督语义分割技术无法获得精确分割效果和训练过程繁琐的问题，有效地提高了图像语义分割的准确率。

Description

基于自引导推理的弱监督图像语义分割方法

技术领域

本发明属于图像处理领域，尤其涉及图像级标签监督下弱监督学习方法无法生成精确的语义分割效果的图像处理，具体为基于自引导推理的弱监督图像语义分割方法。

背景技术

目前，语义分割在计算机视觉领域取得了巨大成功,尤其是随着深度学习的深入研究，基于大量像素级注释训练的强监督环境得到了很好的分割效果。然而，在现实生活中标记大量像素是耗时耗人力的，并且也影响对象类别的扩展。于是一些文章采用相对较弱的监督获得像素级注释，如涂鸦，边界框或点，但是这些标记也需要大量的手工操作。相比之下，图像级标签则很容易获得。但是，由于图像标签只指示对象存在或不存在，不提供对象所在的位置或形状信息，所以训练网络是非常困难的。因此，利用图像级注释分割图像的关键是如何准确地把图像标签分配到对应的像素上，从而获得精确的对象线索。

最近，一些文章提出利用图像分类网络来产生对象定位图作为像素级注释。然而，直接由图像分类网络生成的定位图倾向于关注对象局部具有明显辨别的区域，如果用于训练分割网络会误导分割网络把未检测到的对象区域当做背景。于是有文章基于分类网络引出两个用于对象定位的并行分类器，利用一个分类分支在前向传播期间定位一些有辨别的区域，利用另一个分类器通过从特征图中删除其发现的区域来发现新的互补对象区域。虽然可以扩充语义区域，但同时也因为擦除辨别部分的特征从而影响第二个分类器的定位精度。因为分类器主要是对高激活区域做出反应，所以如果对象的辨别区域被擦除则可能会定位混乱。目前大多数文章侧重于引入两个深度卷积神经网络，先利用一个深度卷积神经网络得到定位图，然后基于该定位图合成分割标签训练另一个深度卷积神经网络，从而得到语义分割效果。两个网络分开训练，无法做到同时优化，并且过程复杂。

发明内容

针对以上弱监督语义分割方法存在的问题，即擦除策略会混淆作用于擦除辨别部分特征图的分类器，和多网络训练过程复杂且不能同时优化。本发明提供了基于自引导推理的弱监督图像语义分割方法。与现有技术相比，可以生成覆盖对象区域的语义分割图，同时做到对象区域定位和分割的迭代优化，显著提高了语义分割的准确率。

发明目的：本发明所要解决的是现有弱监督图像分割方法不能准确地把图像标签分配到对应的像素上，导致无法获得精确的像素级标签，从而存在分割网络训练效果不好的问题，提出基于自引导推理的弱监督图像语义分割方法。

技术方案具体如下：

基于自引导推理的弱监督图像语义分割方法，其特征在于，利用同一对象在空间上的连续性，通过计算机对图像做如下处理：

首先，去除深度卷积神经网络的全连接层，只保留卷积层、批量归一化、激活函数和池化层后，称为深度卷积神经网络主干部分。补充地说，深度卷积神经网络主干部分，是指在现有深度卷积神经网络基础上去除最后的全连接层剩下的部分。接着，图像基于深度卷积神经网络主干部分生成原始特征图。然后利用卷积层卷积操作并降维后得到类特征图，使用现有技术空间池化层对每个类特征图分类，并且在类特征图上根据其特征值是否大于设定阈值定位出图像的判别区域和非判别区域，其中，图像中被定位的对象区域为判别区域，没有定位出但属于对象的区域则为非判别区域，此过程的类特征图命名为初始定位图。基于判别区域对原始特征图中每个特征值乘以对应数值以突出非判别区域在原始特征图上映射的区域，然后执行上述分类操作定位出对象的非辨别区域，此过程的类特征图命名为补位定位图，把基于判别区域操作原始特征图的功能封装成一个网络层，称为自引导推理层。

随后，为了训练语义分割，先利用卷积层把原始特征图的维度(指原始特征图的个数)降维到原来的四分之一后，接着在用四个空洞率不同的空洞卷积层串联组成的模块中，依次进行空洞卷积操作，再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图。通过把上述操作封装成一个模块，即自引导推理模块。然后对新的特征图基于卷积层卷积操作并降维生成分割预测图，在基于初始定位图和补位定位图融合并合成分割标签的监督下，指导语义分割训练。

最后，把自引导推理层和自引导推理模块嵌入在深度卷积神经网络主干部分的后面，构建为自引导推理网络。该自引导推理网络在训练阶段能同时优化对象定位和语义分割任务。在使用阶段，深度卷积神经网络主干部分基于自引导推理模块和卷积层获得分割预测图，经现有技术条件随机场(CRF)优化获得语义分割图，并输出结果。

进一步说，基于自引导推理的弱监督图像语义分割方法，其特征在于，通过计算机并按如下步骤进行：

步骤1，图像特征提取与初始定位图生成：

网络训练阶段，先把数据集里的图像每16张作为一组，即一个批次，向计算机分批次输入，利用深度卷积神经网络主干部分生成该组图像的原始特征图，然后在深度卷积神经网络主干部分后引出三个分支处理前述图像的原始特征图：第一个分支特征图像处理、第二个分支特征图像处理、第三个分支特征图像处理。即三个分支分别对原始特征图操作。优选地，向计算机分批次输入，是指：本文用的数据集有1万多张图像，每个批次向网络中只输入16张，分多个批次把1万多张图像输入完毕。

首先进行第一个分支特征图像处理：对原始特征图利用卷积层卷积操作并降维后得到类特征图，用空间池化层取每个类特征图中部分特征元素用于分类。基于图像分类操作：针对类特征图中特征元素的特征值大小不一，设定阈值，特征值大于该阈值的区域认定为对象部分，该类特征图命名为初始定位图。补充地说：因类特征图在分类过程中有定位功能，此处把该类特征图命名为初始定位图。随后进入步骤2。

步骤2，自引导推理层与补位定位图生成，即进行第二个分支特征图像处理：人为设定高阈值和低阈值，并据此对步骤1中的初始定位图根据设定的高阈值和低阈值在空间维度上划分为三个区域。其中，高阈值的取值范围在0.5至0.9。低阈值的取值范围在0.05至0.2。优选的，高阈值取0.5，低阈值取0.05。基于引导基数对前述三个区域乘以不同的值，生成引导推理图。引导推理图与原始特征图对应元素相乘获得新的特征图，同步骤1分类过程操作相同，此处把该过程中的类特征图命名为补位定位图。本发明把引导推理图的生成和与原始特征图的相乘操作封装成一个网络层，即自引导推理层。

步骤3，自引导推理模块与分割预测图生成，即进行第三个分支特征图像处理：通过利用卷积层把步骤1的原始特征图的维度(指原始特征图的个数)降维到原来的四分之一后，接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作，再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图。此处的新的特征图，是指自引导推理模块生成的。本步骤中，把上述操作封装成一个模块，即自引导推理模块。对前述新的特征图利用卷积层卷积操作并降维后得到分割预测图。

步骤4，合成分割标签与训练：对步骤1中的初始定位图和步骤2中的补位定位图对应元素相加获得定位图，接着对定位图归一化操作后，人工设定前景阈值和背景阈值，并根据设定的前景阈值(0.5)和背景阈值(0.05)把定位图在空间维度上分为三个区域，每个区域取不同的值，从而合成分割标签。前景阈值的取值范围在0.2至0.5之间，背景阈值的取值范围在0.01至0.05之间。优选的，前景阈值取0.5，背景阈值取0.05。训练阶段，基于图像级标签学习第一分支和第二分支，分别生成初始定位图和补位定位图，然后利用初始定位图和补位定位图相加获得定位图后合成分割标签，指导第三分支的学习。

步骤5，生成语义分割图：使用时，第三分支输出分割预测图，经现有技术条件随机场(CRF)优化后获得语义分割图，并输出。

进一步说，步骤1，图像特征提取与初始定位图生成：图像特征提取，即输入一组图像利用现有深度卷积神经网络Resnet101去除全连接层后的部分作为主干部分生成原始特征图，在其后引入三个分支：第一分支、第二分支、第三分支，其中，第一分支、第二分支作为定位分支，第三分支作为语义分割分支。对于原始特征图，利用第一分支将其降维到与类别相同的维数，即类特征图，然后对每个类特征图聚合成一个数值，基于图像分类完成对象定位，生成初始定位图。

步骤2，自引导推理层与补位定位图生成：在第二分支中，自引导推理层先对步骤1中的初始定位图归一化并合并为单通道后，令高阈值取0.5，低阈值取0.05，根据高阈值和低阈值在空间维度上划分三个区域，对不同的区域乘以不同的系数，据此生成引导推理图，这里特征值大于高阈值的区域则为引导区域。引导推理图和原始特征图的对应元素相乘获得新的特征图。新的特征图和第一分支分类操作相同，从而生成补位定位图。

步骤3，自引导推理模块与分割预测图生成：在第三分支中，原始特征图先经过自引导推理模块生成新的特征图，即先利用卷积层把原始特征图的维度(指原始特征图的个数)降维到原来的四分之一后，接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作，再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图。对新的特征图利用卷积层卷积操作并降维后得到分割预测图。

步骤4，合成分割标签与训练：对步骤1中的初始定位图和步骤2中的补位定位图取和得到定位图。对定位图归一化后，令前景阈值取0.5，背景阈值取0.05，将定位图在空间维度上划分为三个区域：定位图中特征值大于前景阈值的高评分区域、处于两个阈值之间的中评分区域、小于背景阈值的低评分区域，然后依次赋值为1,255,0，据此得到语义分割训练所需的分割标签。训练时，对于第一分支和第二分支使用图像级标签和MultiLabelSoftMarginLoss指导分类学习，分别生成初始定位图和补位定位图，然后利用初始定位图和补位定位图相加获得定位图，并根据定位图合成分割标签，最后把第三分支生成的分割预测图和分割标签求二元交叉熵损失，从而指导第三分支的学习，这里MultiLabelSoftMarginLoss和二元交叉熵损失是现有技术。

步骤5，生成语义分割图：使用时，利用第三分支生成分割预测图，最后经过条件随机场(CRF)优化后，输出语义分割图。

更进一步说，步骤1的实现过程具体如下：

步骤1.1，图像特征提取：采用深度卷积神经网络Resnet101去除全连接层后的部分提取一组图像的特征，生成原始特征图，该原始特征图的通道具有2048维。然后引出三个分支作为后续任务使用，其中第一分支和第二分支用于定位图的生成，第三分支用于语义分割图的生成。

步骤1.2，初始定位图生成：利用步骤1.1得到的原始特征图，经过第一分支利用卷积层卷积操作将其降维到与类别相同的维数后得到类特征图，基于图像级标签监督，对类特征图中的信息进行聚合，然后基于图像分类完成对象定位，此处类特征图命名为初始定位图。图像分类采用现有技术空间池化层汇集提供弱监督训练所需的全局图像预测的特征，对每个类特征图都采用以下操作:

这里F^c是类特征图，k满足k_i,j∈{0,1}并且∑_i,jk_i,j＝n⁺(n^-)，这里i,j是指类特征图中第i行第j列，c是指类别为c的对象，n是指在类特征图上选择的区域总数。公式(3-1)意味着为每个类c从输入F^c选择n⁺个高评分区域和n^-个低评分区域，然后计算选择区域的分数，最后用权重λ对其求和输出类c的预测分数S^c。λ是自由参数，值为0.7，为了调节两个区域分数的比重，从而突出它们的相对重要性。

经过对步骤1.1中原始特征图生成，以及步骤1.2中对原始特征图利用卷积层卷积操作降维后得到类特征图，然后使用空间池化层聚合分类获得初始定位图。

更进一步说，步骤2具体如下：

步骤2.1，自引导推理层：在自引导推理层中，根据步骤1.2得到的初始定位图M_A，归一化后利用高阈值δ_h＝0.5和低阈值δ_l＝0.05生成引导推理图T_A，δ_h>δ_l。M_A中值大于等于δ_h的空间区域视为前景区域，值小于等于δ_l的空间区域视为背景区域，值在δ_h和δ_l之间的空间区域视为扩展区域。

首先利用M_A的值计算引导推理图T_A使用的引导基数W_A，以便三个区域使用。对于W_A,(i,j的值，用β(1-M_A,(i,j))和M_A,(i,j)比较，取最大值即max(M_A,(i,j),β(1-M_A,(i,j)))，然后再乘以最大值和1之间的差，W_A定义为：

W_A,(i,j)＝max(M_A,(i,j),β(1-M_A,(i,j)))×[1-max(M_A,(i,j),β(1-M_A,(i,j)))] (3-2)

这里β是自由参数，起调节作用，i,j是指初始定位图中第i行第j列。

对于引导推理图T_A中T_A,(i,j)的值，根据M_A,(i,j)的值进行赋值：

如果M_A,(i,j)大于或等于δ_h，取W_A,(i,j)乘以一个参数α。

如果M_A,(i,j)小于或等于δ_l，取W_A,(i,j)乘以一个参数η。

如果M_A,(i,j)在δ_h和δ_l之间，取W_A,(i,j)乘以一个参数χ。

引导推理图T_A定义为：

其中α、χ和η都是自由参数，起调节作用，这里χ是η的两倍，其中η是α的两倍，i,j是指引导推理图和引导基数(也是二维的)中第i行第j列。

对于步骤1中的原始特征图(步骤1.1)，利用引导推理图与之相乘作为自引导推理层的输出，这里原始特征图记为F_A，输出记为F_P，自引导推理层的功能表示为：

F_P,(i,j)＝max(F_A,(i,j),0)*T_A,(i,j) (3-4)

这里max()表示对原始特征图去掉负相关的特征值，i,j是指F_A，F_P和T_A中第i行第j列。公式表示把每个特征值和其对应的引导值相乘作为自引导推理层输出新的特征图的特征值。

步骤2.2，补位定位图生成：同步骤1中的初始定位图(步骤1.2)生成过程相同，这里对自引导推理层输出的新的特征图进行同样操作生成补位定位图。

原始特征图经过步骤2.1和步骤2.2操作生成补位定位图。

更进一步说，步骤3具体如下：

步骤3.1，自引导推理模块：在第三分支中，对步骤1的1.1中的原始特征图先经过自引导推理模块操作，即先对2048维的原始特征图F_A采用1X1卷积层卷积操作降维到512维，依次采用空洞率为2,4,6,8的空洞卷积层不降维卷积操作，得到特征图F₂，F₄，F₆，F₈，再把特征图F₂，F₄，F₆，F₈拼接成2048维，最后和原始特征图F_A对应元素取和得到输出特征图F_I，公式表示如下：

F_I＝Cat(F₂,F₄,F₆,F₈)+F_A (3-5)

这里Cat()是特征图拼接操作。

步骤3.2，分割预测图生成：对步骤3的3.1中的输出特征图F_I进行卷积层卷积操作降维到与类别相同的维度生成分割预测图。

经过步骤3.1和步骤3.2生成了分割预测图，用于后续分割训练。

更进一步说，步骤4具体如下：

步骤4.1，合成分割标签：对步骤1的1.2中的初始定位图和步骤2的2.2中的补位定位图做对应元素取和操作获得定位图M_L，据此得到相对完整的对象定位区域。

利用定位图M_L合成分割标签T_S。M_L归一化后根据前景阈值δ_f＝0.5和背景δ_b＝0.05，δ_f>δ_b，在空间维度上划分成三个区域：前景区域、中间区域和背景区域。对于分割标签T_S中T_S,(i,j)的值，根据M_L,(i,j)的值进行赋值：

如果M_L,(i,j)大于或等于δ_f，取T_S,(i,j)为1。

如果M_L,(i,j)小于或等于δ_b，取T_S,(i,j)为0。

如果M_L,(i,j)在δ_f和δ_b之间，取T_S,(i,j)为255。

分割标签T_S定义为：

这里i,j是指分割标签和定位图中第i行第j列。对M_L的每个通道都进行公式(3-6)的操作，据此生成第三分支学习所需要的分割标签。

步骤4.2，训练：在整个自引导推理网络训练中，利用图像级标签和MultiLabelSoftMarginLoss指导第一分支和第二分支的学习，把步骤3中的分割预测图和步骤4中的分割标签求二元交叉熵损失，从而指导第三分支的学习。三个分支同时学习，共同优化。

经过步骤4.1合成了语义分割训练所需的分割标签，步骤4.2训练后得到了可以生成良好分割效果的自引导推理网络权重。

更进一步说，步骤5具体如下：

生成语义分割图：首先使用步骤4的4.2中的自引导推理网络权重，获得第三分支生成的分割预测图，然后利用现有技术条件随机场(CRF)优化后获得语义分割图，并输出。

有益的技术效果

本发明所提供的弱监督图像分割方法，是用来解决图像级标签监督下现有弱监督方法对目标对象分割效果不够精确的问题，采用的是基于自引导推理的弱监督图像语义分割方法。包括以下步骤：步骤1，输入一组图像，利用深度卷积神经网络主干部分生成原始特征图，然后后接三个分支。原始特征图利用第一分支生成类特征图，利用空间池化层对类特征图分类时获取对象的定位区域，此处类特征图又命名为初始定位图。步骤2，在第二分支的自引导推理层中对步骤1中的初始定位图计算得到引导推理图，接着用引导推理图与步骤1中的原始特征图对应元素相乘作为自引导推理层输出的新的特征图，对新的特征图进行步骤1中相同分类操作，获得补位定位图。步骤3，在第三分支，步骤1中的原始特征图经自引导推理模块获得新的特征图，对新的特征图利用卷积层卷积操作降维到与类别相同的维度，获得分割预测图。步骤4，对步骤1中的初始定位图和步骤2中的补位定位图进行对应元素相加得到定位图，接着利用定位图合成语义分割训练所需的分割标签。利用图像级标签指导第一分支和第二分支的学习，分割标签指导第三分支的学习。步骤5，第三分支生成分割预测图，利用条件随机场(CRF)优化后获得语义分割图，并输出。

本发明是基于自引导推理的弱监督图像语义分割方法，针对目前弱监督图像分割方法无法达到精确分割效果的问题，设计了有效的解决方法。本发明基于同一对象的语义标签具有空间连续性提出了自引导推理层和自引导推理模块。具体而言，通用分类网络可以发现目标对象局部判别区域，而判别区域周围的像素总是属于相同的对象，本发明提出通过对已知判别区域像素和其周围像素赋予不同的权重将深度卷积神经网络的关注点转移到对象非判别区域，促进这些区域像素被深度卷积神经网络识别。同时也提出利用自引导推理模块扩展判别区域以覆盖目标对象的整个区域。然后，本发明设计了一个自引导推理网络，配备自引导推理层和自引导推理模块。它可以生成精确的语义分割图，同时做到目标对象区域定位和分割的迭代优化。另一方面，在本发明具体实现的过程中，灵活利用初始定位图信息，得到对应的补位定位图，同时做到同一网络中定位和分割任务的联合训练和优化，在技术上克服了现有网络训练过程复杂并无法获得精确分割效果的问题，有效的提高了图像分割的准确率。

附图说明

图1为本发明方法的基本流程图

图2为本发明方法的网络架构图

图3为本发明方法的自引导推理模块

图4为本发明测试单物体的效果图

图5为本发明测试多物体的效果图

具体实施方法

参见图1，基于自引导推理的弱监督图像语义分割方法，利用同一对象在空间上的连续性，通过计算机对图像做如下处理：

首先，去除深度卷积神经网络的全连接层，只保留卷积层、批量归一化、激活函数和池化层后，称为深度卷积神经网络主干部分。接着，图像基于深度卷积神经网络主干部分生成原始特征图，然后利用卷积层卷积操作并降维后得到类特征图，使用现有技术空间池化层对每个类特征图分类，并且在类特征图上根据其特征值是否大于设定阈值定位出图像的判别区域和非判别区域，其中，图像中被定位的对象区域为判别区域，没有定位出但属于对象的区域则为非判别区域，此过程的类特征图命名为初始定位图。基于判别区域对原始特征图中每个特征值乘以对应数值以突出非判别区域在原始特征图上映射的区域，然后执行上述分类操作定位出对象的非辨别区域，此过程的类特征图命名为补位定位图，把基于判别区域操作原始特征图的功能封装成一个网络层，称为自引导推理层。

随后，为了训练语义分割，先利用卷积层把原始特征图的维度降维到原来的四分之一后，接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作，再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图。通过把上述操作封装成一个模块，即自引导推理模块，如图3所示。原始特征图的维度，是指原始特征图的个数。然后对新的特征图基于卷积层卷积操作并降维生成分割预测图，在基于初始定位图和补位定位图融合并合成分割标签的监督下，指导语义分割训练。

最后，把自引导推理层和自引导推理模块嵌入在深度卷积神经网络主干部分的后面，构建为自引导推理网络，如图2所示。该自引导推理网络在训练阶段能同时优化对象定位和语义分割任务。在使用阶段，深度卷积神经网络主干部分基于自引导推理模块和卷积层获得分割预测图，经现有技术条件随机场(CRF)优化获得语义分割图，并输出结果。

进一步说，本发明所述基于自引导推理的弱监督图像语义分割方法，是通过计算机并按如下步骤进行：

步骤1，图像特征提取与初始定位图生成：

网络训练阶段，先把数据集里的图像每16张作为一组，即一个批次，向计算机分批次输入，利用深度卷积神经网络主干部分生成该组图像的原始特征图，然后在深度卷积神经网络主干部分后引出三个分支处理前述图像的原始特征图：第一个分支特征图像处理、第二个分支特征图像处理、第三个分支特征图像处理。即三个分支分别对原始特征图操作。

首先进行第一个分支特征图像处理：对原始特征图利用卷积层卷积操作并降维后得到类特征图，用空间池化层取每个类特征图中部分特征元素用于分类。基于图像分类操作：针对类特征图中特征元素的特征值大小不一，设定阈值，特征值大于该阈值的区域认定为对象部分，该类特征图命名为初始定位图。随后进入步骤2。

步骤2，自引导推理层与补位定位图生成，即进行第二个分支特征图像处理：人为设定高阈值和低阈值，并据此对步骤1中的初始定位图根据设定的高阈值(0.5)和低阈值(0.05)在空间维度上划分为三个区域。其中，高阈值的取值范围在0.5至0.9。低阈值的取值范围在0.05至0.2。优选的，高阈值取0.5，低阈值取0.05。基于引导基数对前述三个区域乘以不同的值，生成引导推理图。引导推理图与原始特征图对应元素相乘获得新的特征图，同步骤1分类过程操作相同，此处把该过程中的类特征图命名为补位定位图。本发明把引导推理图的生成和与原始特征图的相乘操作封装成一个网络层，即自引导推理层。

步骤3，自引导推理模块与分割预测图生成，即进行第三个分支特征图像处理：通过利用卷积层把步骤1的原始特征图的维度(指原始特征图的个数)降维到原来的四分之一后，接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作，再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图。本步骤中，把上述操作封装成一个模块，即自引导推理模块。对前述新的特征图利用卷积层卷积操作并降维后得到分割预测图。

优选的方案是，具体步骤如下：步骤1，图像特征提取与初始定位图生成：图像特征提取，即输入一组图像利用现有深度卷积神经网络Resnet101去除全连接层后的部分作为主干部分生成原始特征图，在其后引入三个分支：第一分支、第二分支、第三分支，其中，第一分支、第二分支作为定位分支，第三分支作为语义分割分支。对于原始特征图，利用第一分支将其降维到与类别相同的维数，即类特征图，然后对每个类特征图聚合成一个数值，基于图像分类完成对象定位，生成初始定位图。

更进一步说，步骤1的实现过程具体如下：

这里F^c是类特征图，k满足k_i,j∈{0,1}并且Σ_i,jk_i,j＝n⁺(n^-)，这里i,j是指类特征图中第i行第j列，c是指类别为c的对象，n是指在类特征图上选择的区域总数。公式(3-1)意味着为每个类c从输入F^c选择n⁺个高评分区域和n^-个低评分区域，然后计算选择区域的分数，最后用权重λ对其求和输出类c的预测分数S^c。λ是自由参数，值为0.7，为了调节两个区域分数的比重，从而突出它们的相对重要性。

更进一步说，步骤2具体如下：

首先利用M_A的值计算引导推理图T_A使用的引导基数W_A，以便三个区域使用。对于W_A,(i,j)的值，用β(1-M_A,(i,j))和M_A,(i,j)比较，取最大值即max(M_A,(i,j),β(1-M_A,(i,j)))，然后再乘以最大值和1之间的差，W_A定义为：

如果M_A,(i,j)大于或等于δ_h，取W_A,(i,j)乘以一个参数α。

如果M_A,(i,j)小于或等于δ_l，取W_A,(i,j)乘以一个参数η。

如果M_A,(i,j)在δ_h和δ_l之间，取W_A,(i,j)乘以一个参数χ。

引导推理图T_A定义为：

F_P,(i,j)＝max(F_A,(i,j),0)*T_A,(i,j) (3-4)

原始特征图经过步骤2.1和步骤2.2操作生成补位定位图。

更进一步说，步骤3具体如下：

F_I＝Cat(F₂,F₄,F₆,F₈)+F_A (3-5)

这里Cat()是特征图拼接操作。

更进一步说，步骤4具体如下：

如果M_L,(i,j)大于或等于δ_f，取T_S,(i,j)为1。

如果M_L,(i,j)小于或等于δ_b，取T_S,(i,j)为0。

如果M_L,(i,j)在δ_f和δ_b之间，取T_S,(i,j)为255。

分割标签T_S定义为：

更进一步说，步骤5具体如下：

实施例

本发明的实验环境是：Intel(R)Xeon(R)CPU E5-2609 V4@1.70GHz,16G内存，Ubuntu16.04系统，显卡是GTX1080Ti，编程环境是pycharm，深度学习框架是pytorch0.4.0，数据集使用的是网上公开的PASCAL VOC 2012。

PASCAL VOC 2012数据集包含11530张用于训练和验证的图像，包括人、动物(如猫、狗、鸟等)、交通工具(如车、船、飞机等)、家具(如椅子、桌子、沙发等)在内的20个类别。每幅图像中均包含若干个物体，并且基于图像级标签监督只能得到物体的存在或不存在信息，无法获取目标对象的语义区域，这使得弱监督图像定位与分割面临很大的挑战。

图4和图5分别给出了本发明测试图像包含单物体和多物体的定位和分割结果。对于单物体，从图4可以看出基于引导推理层生成的补位定位图在初始定位图的引导下，准确的识别出物体的非判别区域，并且初始定位图和补位定位图融合后的定位图覆盖了物体的整个区域，而基于自引导推理模块生成的分割预测图也覆盖了物体的整个区域，经过条件随机场优化后准确地获得了物体的语义分割图。相对于单物体，多物体在图像中分布比较复杂，但本发明也几乎得到了每个物体的整个区域和语义分割图。和现有技术相比，本发明既能扩展判别区域以覆盖物体整个区域且避免背景的干扰，又能实现一个网络同时优化定位和分割以简化训练过程，同时显著提高了语义分割的准确率。

Claims

1.基于自引导推理的弱监督图像语义分割方法，其特征在于，通过计算机并按如下步骤进行：

步骤1，图像特征提取与初始定位图生成：

网络训练阶段，先把数据集里的图像每16张作为一组，即一个批次，向计算机分批次输入，利用深度卷积神经网络主干部分生成该组图像的原始特征图，然后在深度卷积神经网络主干部分后引出三个分支处理前述图像的原始特征图：第一个分支特征图像处理、第二个分支特征图像处理、第三个分支特征图像处理；即三个分支分别对原始特征图操作；

首先进行第一个分支特征图像处理：对原始特征图利用卷积层卷积操作并降维后得到类特征图，用空间池化层取每个类特征图中部分特征元素用于分类；基于图像分类操作：针对类特征图中特征元素的特征值大小不一，设定阈值，特征值大于该阈值的区域认定为对象部分，该类特征图命名为初始定位图；随后进入步骤2；

步骤2，自引导推理层与补位定位图生成，即进行第二个分支特征图像处理：人为设定高阈值和低阈值，并据此对步骤1中的初始定位图根据设定的高阈值和低阈值在空间维度上划分为三个区域；其中，高阈值的取值范围在0.5至0.9；低阈值的取值范围在0.05至0.2；基于引导基数对前述三个区域乘以不同的值，生成引导推理图；引导推理图与原始特征图对应元素相乘获得新的特征图，同步骤1分类过程操作相同，此处把该过程中的类特征图命名为补位定位图；本发明把引导推理图的生成和与原始特征图的相乘操作封装成一个网络层，即自引导推理层；步骤2具体如下：

步骤2.1，自引导推理层：在自引导推理层中，根据步骤1.2得到的初始定位图M_A，归一化后利用高阈值δ_h＝0.5和低阈值δ_l＝0.05生成引导推理图T_A，δ_h>δ_l；M_A中值大于等于δ_h的空间区域视为前景区域，值小于等于δ_l的空间区域视为背景区域，值在δ_h和δ_l之间的空间区域视为扩展区域；

首先利用M_A的值计算引导推理图T_A使用的引导基数W_A，以便三个区域使用；对于W_A,(i,j)的值，用β(1-M_A,(i,j))和M_A,(i,j)比较，取最大值即max(M_A,(i,j),β(1-M_A,(i,j)))，然后再乘以最大值和1之间的差，W_A定义为：

这里β是自由参数，起调节作用，i,j是指初始定位图中第i行第j列；

如果M_A,(i,j)大于或等于δ_h，取W_A,(i,j)乘以一个参数α；

如果M_A,(i,j)小于或等于δ_l，取W_A,(i,j)乘以一个参数η；

如果M_A,(i,j)在δ_h和δ_l之间，取W_A,(i,j)乘以一个参数χ；

引导推理图T_A定义为：

其中α、χ和η都是自由参数，起调节作用，这里χ是η的两倍，其中η是α的两倍，i,j是指引导推理图和引导基数中第i行第j列；

对于步骤1中的原始特征图，利用引导推理图与之相乘作为自引导推理层的输出，这里原始特征图记为F_A，输出记为F_P，自引导推理层的功能表示为：

F_P,(i,j)＝max(F_A,(i,j),0)*T_A,(i,j) (3-4)

这里max()表示对原始特征图去掉负相关的特征值，i,j是指F_A，F_P和T_A中第i行第j列；公式表示把每个特征值和其对应的引导值相乘作为自引导推理层输出新的特征图的特征值；

步骤2.2，补位定位图生成：同步骤1中的初始定位图生成过程相同，这里对自引导推理层输出的新的特征图进行同样操作生成补位定位图；

原始特征图经过步骤2.1和步骤2.2操作生成补位定位图；

步骤3，自引导推理模块与分割预测图生成，即进行第三个分支特征图像处理：通过利用卷积层把步骤1的原始特征图的维度降维到原来的四分之一后，接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作，再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图；这里新的特征图是指自引导推理模块生成的，原始特征图的维度，指原始特征图的个数；本步骤中，把上述操作封装成一个模块，即自引导推理模块；对前述新的特征图利用卷积层卷积操作并降维后得到分割预测图；

步骤4，合成分割标签与训练：对步骤1中的初始定位图和步骤2中的补位定位图对应元素相加获得定位图，接着对定位图归一化操作后，人工设定前景阈值和背景阈值，并根据设定的前景阈值和背景阈值把定位图在空间维度上分为三个区域，每个区域取不同的值，从而合成分割标签；前景阈值的取值范围在0.2至0.5之间，背景阈值的取值范围在0.01至0.05之间；训练阶段，基于图像级标签学习第一分支和第二分支，分别生成初始定位图和补位定位图，然后利用初始定位图和补位定位图相加获得定位图后合成分割标签，指导第三分支的学习；

步骤5，生成语义分割图：使用时，第三分支输出分割预测图，经现条件随机场优化后获得语义分割图，并输出。

2.根据权利要求1所述的基于自引导推理的弱监督图像语义分割方法，其特征在于，步骤如下：步骤1，图像特征提取与初始定位图生成：图像特征提取，即输入一组图像利用现有深度卷积神经网络Resnet101去除全连接层后的部分作为主干部分生成原始特征图，在其后引入三个分支：第一分支、第二分支、第三分支，其中，第一分支、第二分支作为定位分支，第三分支作为语义分割分支；对于原始特征图，利用第一分支将其降维到与类别相同的维数，即类特征图，然后对每个类特征图聚合成一个数值，基于图像分类完成对象定位，生成初始定位图；

步骤2，自引导推理层与补位定位图生成：在第二分支中，自引导推理层先对步骤1中的初始定位图归一化并合并为单通道后，令高阈值取0.5，低阈值取0.05，根据高阈值和低阈值在空间维度上划分三个区域，对不同的区域乘以不同的系数，据此生成引导推理图，这里特征值大于高阈值的区域则为引导区域；引导推理图和原始特征图的对应元素相乘获得新的特征图；新的特征图和第一分支分类操作相同，从而生成补位定位图；

步骤3，自引导推理模块与分割预测图生成：在第三分支中，原始特征图先经过自引导推理模块生成新的特征图，即先利用卷积层把原始特征图的维度降维到原来的四分之一后，接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作，再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图；对新的特征图利用卷积层卷积操作并降维后得到分割预测图；

步骤4，合成分割标签与训练：对步骤1中的初始定位图和步骤2中的补位定位图取和得到定位图；对定位图归一化后，令前景阈值取0.5，背景阈值取0.05，将定位图在空间维度上划分为三个区域：定位图中特征值大于前景阈值的高评分区域、处于两个阈值之间的中评分区域、小于背景阈值的低评分区域，然后依次赋值为1,255,0，据此得到语义分割训练所需的分割标签；训练时，对于第一分支和第二分支使用图像级标签和MultiLabelSoftMarginLoss指导分类学习，分别生成初始定位图和补位定位图，然后利用初始定位图和补位定位图相加获得定位图，并根据定位图合成分割标签，最后把第三分支生成的分割预测图和分割标签求二元交叉熵损失，从而指导第三分支的学习；

步骤5，生成语义分割图：使用时，利用第三分支生成分割预测图，最后经过CRF优化后，输出语义分割图。

3.根据权利要求1或2所述的基于自引导推理的弱监督图像语义分割方法，其特征在于，步骤1的实现过程具体如下：

步骤1.1，图像特征提取：采用深度卷积神经网络Resnet101去除全连接层后的部分提取一组图像的特征，生成原始特征图，该原始特征图的通道具有2048维；然后引出三个分支作为后续任务使用，其中第一分支和第二分支用于定位图的生成，第三分支用于语义分割图的生成；

步骤1.2，初始定位图生成：利用步骤1.1得到的原始特征图，经过第一分支利用卷积层卷积操作将其降维到与类别相同的维数后得到类特征图，基于图像级标签监督，对类特征图中的信息进行聚合，然后基于图像分类完成对象定位，此处类特征图命名为初始定位图；图像分类采用空间池化层汇集提供弱监督训练所需的全局图像预测的特征，对每个类特征图都采用以下操作:

这里F^c是类特征图，k满足k_i,j∈{0,1}并且∑_i,j＝n⁺*(n^-)，这里i,j是指类特征图中第i行第j列，c是指类别为c的对象，n是指在类特征图上选择的区域总数；公式(3-1)意味着为每个类c从输入F^c选择n⁺个高评分区域和n^-个低评分区域，然后计算选择区域的分数，最后用权重λ对其求和输出类c的预测分数S^c；λ是自由参数，值为0.7，为了调节两个区域分数的比重，从而突出它们的相对重要性；

4.根据权利要求1或2所述的基于自引导推理的弱监督图像语义分割方法，其特征在于，步骤3具体如下：

步骤3.1，自引导推理模块：在第三分支中，对步骤1.1中的原始特征图先经过自引导推理模块操作，即先对2048维的原始特征图F_A采用1X1卷积层卷积操作降维到512维，依次采用空洞率为2,4,6,8的空洞卷积层不降维卷积操作，得到特征图F₂，F₄，F₆，F₈，再把特征图F₂，F₄，F₆，F₈拼接成2048维，最后和原始特征图F_A对应元素取和得到输出特征图F_I，公式表示如下：

F_I＝Cat(F₂,F₄,F₆,F₈)+F_A (3-5)

这里Cat()是特征图拼接操作；

步骤3.2，分割预测图生成：对步骤3.1中的输出特征图F_I进行卷积层卷积操作降维到与类别相同的维度生成分割预测图；

5.根据权利要求1或2所述的基于自引导推理的弱监督图像语义分割方法，其特征在于，步骤4具体如下：

步骤4.1，合成分割标签：对步骤1中的初始定位图和步骤2中的补位定位图做对应元素取和操作获得定位图M_L，据此得到相对完整的对象定位区域；

利用定位图M_L合成分割标签T_S；M_L归一化后根据前景阈值δ_f＝0.5和背景δ_b＝0.05，δ_f>δ_b，在空间维度上划分成三个区域：前景区域、中间区域和背景区域；对于分割标签T_S中T_S,(i,j)的值，根据M_L,(i,j)的值进行赋值：

如果M_L,(i,j)大于或等于δ_f，取T_S,(i,j)为1；

如果M_L,(i,j)小于或等于δ_b，取T_S,(i,j)为0；

如果M_L,(i,j)在δ_f和δ_b之间，取T_S,(i,j)为255；

分割标签T_S定义为：

这里i,j是指分割标签和定位图中第i行第j列；对M_L的每个通道都进行公式(3-6)的操作，据此生成第三分支学习所需要的分割标签；

步骤4.2，训练：在整个自引导推理网络训练中，利用图像级标签和MultiLabelSoftMarginLoss指导第一分支和第二分支的学习，把步骤3中的分割预测图和步骤4中的分割标签求二元交叉熵损失，从而指导第三分支的学习；三个分支同时学习，共同优化；

6.根据权利要求5所述的基于自引导推理的弱监督图像语义分割方法，其特征在于，步骤5具体如下：

生成语义分割图：首先使用步骤4.2中的自引导推理网络权重，获得第三分支生成的分割预测图，然后利用现有技术条件随机场优化后获得语义分割图，并输出。