CN112668579A

CN112668579A - 基于自适应亲和力和类别分配的弱监督语义分割方法

Info

Publication number: CN112668579A
Application number: CN202011550953.7A
Authority: CN
Inventors: 张向荣; 彭泽林
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-16

Abstract

本发明提出一种基于自适应亲和力和类别分配的弱监督语义分割方法，用于解决现有技术中存在的分割精度较低的技术问题，实现步骤为：获取训练样本集和测试样本集；构建基于自适应亲和力和类别分配的弱监督语义分割模型；对基于自适应亲和力和类别分配的弱监督语义分割模型进行迭代训练；获得语义分割结果。本发明通过使用自适应亲和力损失，计算一定邻域内的像素分割网络输出的每个像素点的概率之间的相关关系，实现了像素点间的信息传递，充分利用了可用的监督信息，同时通过使用类别分配损失，计算像素分割网络输出的每个像素点的概率与每个目标类别概率的中心点的距离，缓解了网络训练后期对于错误标签的过拟合，提高了网络的抗干扰能力。

Description

基于自适应亲和力和类别分配的弱监督语义分割方法

技术领域

本发明属于图像处理技术领域，涉及一种弱监督语义分割方法，具体涉及一种基于自适应亲和力和类别分配的弱监督语义分割方法，可用于自动驾驶，场景理解及自动抠图。

背景技术

语义分割是指将图像分割为若干个具有某种特定语义含义的像素区域，并识别出每个区域的目标类别，最终获得一幅具有像素语义标注的图像，从而实现对图像内容的充分理解，被广泛应用于自动驾驶、场景理解等领域。

表征语义分割方法的指标主要有实用性、分割精度和算法复杂性。语义分割方法一般分为传统语义分割方法和基于深度学习的语义分割方法，相比于传统方法，基于深度学习的语义分割方法分割精度高，算法复杂性低，因此得到了广泛关注。根据所给的监督信息不同，基于深度学习的语义分割方法可分为基于有监督的语义分割方法和基于无监督的语义分割方法，相比于基于无监督的语义分割方法，基于有监督的语义分割方法使用了更多的监督信息，有效提高了分割精度。有监督语义分割方法可分为基于全监督的语义分割方法和基于弱监督的语义分割方法。基于全监督的语义分割方法具有较高的分割精度和较低的算法复杂性，但是在基于全监督的语义分割方法的实际应用中，需要获取应用场景下的大量图像作为训练数据，并对这些训练图像进行逐像素的人工标注，标注出图像中每个像素点对应的目标类别，这种昂贵的标注方式需要消耗大量的人力和时间，当应用到新的场景中，需要重新获取大量图像及其像素级标注的数据用于网络训练，实用性较差。基于弱监督的语义分割方法能够使用图像的类别标签而不是大量像素级手工标注进行网络训练，从而大幅度地降低标注成本，提高了语义分割的实用性。

弱监督语义分割方法可分为基于多阶段的弱监督语义分割方法和基于单阶段的弱监督语义分割方法，前者分割精度接近于全监督方法但是算法复杂性较高；后者算法复杂性较低但是分割精度相对较差。在弱监督语义分割方法中，由于无法获取图像中每个像素点的真实标注，影响分割精度的因素主要有监督信息的使用方式以及网络训练的拟合过程。

为了实现在较低复杂性条件下提高分割精度，研发人员对基于单阶段的弱监督语义分割方法进行了改进，例如，Bingfeng Zhang在2020年AAAI会议上发表的论文《Reliability Does Matter:An End-to-End Weakly Supervised SemanticSegmentation Approach》中，公开了一种基于单阶段的弱监督语义分割方法，该方法在对每幅图像进行网络训练的同时生成每幅图像的伪标签，从而使用伪标签监督网络训练生成的分割结果，在分割精度上相较于其他基于单阶段方法有了大幅提升。但是其存在的不足之处在于：由于该方法仅使用交叉熵损失对网络进行训练，忽略了网络输出中的像素间的信息传递，使得伪标签中的监督信息没有得到充分利用，此外，该方法过于依赖伪标签，当伪标签中出现错误标签时，网络训练后期会过拟合于一些伪标签中的错误标签，导致网络的分割精度逐渐下降。

发明内容

本发明的目的在于克服上述现有技术存在的不足，提出了一种基于自适应亲和力和类别分配的弱监督语义分割方法，旨在提高基于单阶段的弱监督语义分割方法的分割精度。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集和测试样本集：

对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注，并将类别标签及其对应的彩色图像作为训练样本集，将其余部分彩色图像作为测试样本集，其中S≥5000，C＞2；

(2)构建基于自适应亲和力和类别分配的弱监督语义分割模型A：

(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A，其中语义特征提取网络包括多个卷积层和多个池化层；分类网络包含并行连接的图像分类网络以及像素分类网络，图像分类网络包括顺次连接的全局平均池化层和全连接层，像素分类网络包括多个卷积层；

(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型A的损失函数L_total：

其中

表示图像分类网络的多标签损失函数，

和

分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数，λ₁表示

在L_total上的加权因子，λ₂表示

在L_total上的加权因子，

表示在s_k邻域尺度下的单一自适应亲和力损失函数，N^b表示邻域尺度的个数，N^b＞1，

和

是表示伪标签中的两个像素点i和j相关关系的集合，

表示i和j在邻域尺度为s_k的情况下，类别标签均属于前景且类别标签相同，

表示i和j的邻域尺度为s_k的情况下，类别标签均属于背景且类别标签相同，

表示伪标签中的两个像素点i和j在邻域尺度为s_k的情况下，其类别标签不相同，

和

分别表示属于

和

集合中像素点的个数，

和

分别表示在集合

和

的约束下的单一分层自适应亲和力损失函数，

表示计算像素分类网络输出的概率p_i与p_j相关关系的置信度，

表示p_i与p_j的相似度，max表示求最大值，E_fg表示类别分配后伪标签中的像素点x_i属于前景的集合，E_bg表示类别分配后伪标签中的像素点x_i属于背景的集合，|E_bg|表示属于E_bg集合中像素点的个数，|E_fg|表示属于E_fg集合中的像素点的个数，α_i表示像素点x_i的类别分配置信度，

表示像素分类网络输出的概率p_i与类别概率中心点c_i的距离，

表示像素分类网络输出的概率p_i与类别概率中心点c_k的距离，N^a表示每幅训练图像中对应的类别标签个数，N^a＞1，

和

分别表示在集合E_fg和E_bg的约束下的分层类别分配损失函数；exp表示以自然常数e为底的指数函数，log表示以自然常数e为底的对数函数；

(3)对基于自适应亲和力和类别分配的弱监督语义分割模型A进行迭代训练：

(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型A为A^t，A^t的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θ^t，学习速率为α，迭代次数为t，最大迭代次数为T，T≥10⁵，并令t＝0，α＝0.0001；

(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型A^t的输入进行前向传播，语义特征提取网络提取每幅训练图像的语义特征，其中2≥R≥8；

(3c)图像分类网络对每个语义特征进行图像分类，得到每幅训练图像属于C类物体的概率，同时计算每个语义特征对应的训练图像的类激活图和初始伪标签，并采用条件随机场对每个初始伪标签中物体区域的分割边缘进行优化，得到图像分类网络输出的每幅训练图像的类激活图和伪标签；

(3d)像素分类网络对每个语义特征进行像素分类，得到每幅训练图像中每个像素属于C+1类目标的概率；

(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型A^t的损失函数L_total，并通过训练样本集中的类别标签，以及步骤(3c)和(3d)的输出结果，计算A^t的损失值L₅；

(3f)采用梯度下降法，并通过A^t的损失值L₅对A^t的权重θ^t进行更新；

(3g)判断t≥T是否成立，若是，得到训练后的弱监督语义分割模型A'，否则，令t＝t+1，并执行步骤(3b)；

(4)获取语义分割结果：

将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播，语义特征提取网络提取每幅测试图像的语义特征，像素分类网络对每个语义特征进行像素分类，得到每幅测试图像中每个像素属于C+1类目标的概率，并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注，最终获得具有像素语义标注的图像作为语义分割结果。

本发明与现有技术相比，具有以下优点：

1)本发明由于在对分割模型进行迭代训练过程中，通过弱监督语义分割模型的损失函数中包含的自适应亲和力损失函数，计算一定邻域内的像素分割网络输出的每个像素点的概率之间的相关关系，使属于相同的类别的像素点的概率互相靠近，使属于不同的类别的像素点的概率互相远离，实现了像素分类网络输出中的像素点间的信息传递，充分利用了伪标签中的监督信息，进而提高了弱监督语义分割模型的精度。

2)本发明由于在对分割模型进行迭代训练过程中，通过弱监督语义分割模型的损失函数中包含的类别分配损失函数，计算像素分割网络输出的每个像素点的概率与每个目标类别概率的中心点的距离，使得每个像素点的概率逼近对应的目标类别的中心，缓解了网络训练后期像素点对对应伪标签中的错误标签的过拟合，提高了网络的抗干扰能力，进而提高了弱监督语义分割模型的精度。

附图说明

图1为本发明的实现流程图；

图2为仿真实验所采用的图像；

图3为本发明和现有技术分割精度的仿真结果对比图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤。

步骤1)获取训练样本集和测试样本集：

对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注，并将类别标签及其对应的彩色图像作为训练样本集，将其余部分彩色图像作为测试样本集，其中S≥5000，C＞2。本实施例采用国际通用数据库Pascal VOC 2012中给定的用于训练的类别标签及其对应的彩色图像作为训练样本集，S＝10582，C＝20。

步骤2)构建基于自适应亲和力和类别分配的弱监督语义分割模型A^t：

(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A，其中语义特征提取网络包括多个卷积层和多个池化层；分类网络包含并行连接的图像分类网络以及像素分类网络，图像分类网络包括顺次连接的全局平均池化层和全连接层，像素分类网络包括多个卷积层。

在本实施例中，语义特征提取网络包括十五个卷积层和四个池化层，其结构关系为：第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第十四卷积层→第十五卷积层，其中具体参数为：

第一、第二卷积层的卷积核大小均为3×3，卷积核数量均为64，步长均为1；

第一池化层是最大池化层，大小为3×3，步长为1；

第三、第四卷积层的卷积核大小为3×3，卷积核数量为128，步长为1；

第二池化层是最大池化层，大小为3×3，步长为2；

第五、第六和第七卷积层的卷积核大小均为3×3，卷积核数量均为256，步长均为1；

第三池化层是最大池化层，大小为3×3，步长为2；

第八、第九和第十卷积层的卷积核大小均为3×3，卷积核数量均为512，步长均为1；

第四池化层是最大池化层，大小为3×3，步长为1；

第十一、第十二和第十三卷积层的卷积核大小均为3×3，卷积核数量均为512，步长均为1，空洞率均为2；

第十四卷积层的卷积核大小为3×3，卷积核数量为1024，步长为1，空洞率为1；

第十五卷积层的卷积核大小为1×1，卷积核数量为1024，步长为1。

在本实施例中，图像分类网络具体参数为：全局平均池化层的大小为32×32；全连接层的大小为1024×20。

在本实施例中，像素分类网络包括顺次连接的两个卷积层，具体参数为：

第一卷积层的卷积核大小为3×3，卷积核数量为1024，步长为1，空洞率为12；

第二卷积层的卷积核大小为3×3，卷积核数量为21，步长为1，空洞率为12。

(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型A^t的损失函数L_total：

其中

表示图像分类网络的多标签损失函数，

和

在L_total上的加权因子，λ₂表示

在L_total上的加权因子，

和

是表示伪标签中的两个像素点i和j相关关系的集合，

表示i和j在邻域尺度为s_k的情况下，类别标签均属于物体且类别标签相同，

表示i和j的邻域尺度为s_k类别标签均属于背景，

表示伪标签中的两个像素点i和j在邻域尺度为s_k情况下，其类别标签不相同，

和

分别表示属于

和

集合中像素点的个数，

和

分别表示在集合

和

的约束下的单一分层自适应亲和力损失函数，

表示p_i与p_j的相似度，max表示求最大值，E_fg表示类别分配后伪标签中的像素点x_i属于物体的集合，E_bg表示类别分配后伪标签中的像素点x_i属于背景的集合，|E_bg|表示属于E_bg集合中像素点的个数，|E_fg|表示属于E_fg集合中的像素点的个数，α_i表示像素点x_i的类别分配置信度，

表示像素分类网络输出的概率p_i与类别概率中心点c_k的距离，N^a表示每幅训练图像中对应的类别标签个数，

和

步骤3)对基于自适应亲和力和类别分配的弱监督语义分割模型A^t进行迭代训练：

(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型A^t的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θ^t，学习速率为α，迭代次数为t，最大迭代次数为T，本实施例中T＝10⁵，并令t＝0，α＝0.0001；

(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型A^t的输入进行前向传播，语义特征提取网络提取每幅训练图像的语义特征，当训练样本集中图像数量不足R幅时，将之前选取的图像放回训练样本集之后再进行不放回随机选取，在本实施例中R＝4；

(3c)图像分类网络对每个语义特征进行图像分类，得到每幅训练图像属于C类目标的概率，同时计算每个语义特征对应的训练图像的类激活图，并采用条件随机场对每个类激活图中物体区域的分割边缘进行优化，得到图像分类网络输出的每幅训练图像的类激活图和伪标签，其中每幅训练图像的类激活图和伪标签的具体实现获取步骤为：

(3c1)设定图像分类网络输入层的输出为

其中N_f为图像分类网络输入层的特征通道数，f_i为第i个通道的特征；设定全连接层的权值参数为

其中w_i,j为连接全局平均池化层第i个通道与全连接层第j个通道之间的权值。图像分类网络通过每个语义特征计算每幅训练图像对应的C张分布热图，每张分布热图H_c分别对应一种物体类别。H_c计算公式为：

其中，H_fg表示每幅训练图像的H_c的集合；

(3c2)定义H_c中每个点的概率值为H_c(x,y)，(x,y)为该点的坐标，通过分布热图H_c计算背景分布热图H_bg，H_bg计算公式为：

其中，α表示超参数，在本实施例中，α＝32。

(3c3)将除了与类别标签对应的其余H_c中的所有值全部置0，将H_bg中小于0.8的点值置0，将与类别标签对应的H_c中小于0.1的点值置0，然后将H_fg与H_bg在通道维度上进行拼接得到总分布热图H，通过H计算得到类激活图H_j，H_j计算公式为：

(3c4)采用条件随机场对H_j中物体区域的分割边缘进行优化，得到伪标签H_s。

(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型A^t的损失函数L_total，并通过训练样本集中的类别标签，以及步骤(3c)和(3d)的输出结果，计算A^t的损失值L₅，具体实现步骤为：

(3e1)图像分类网络使用多标签损失函数

并通过每幅训练图像的类别标签和属于C类物体的概率，计算图像分类网络损失值

其计算公式为：

其中，N₁表示对应的类别个数，x_i表示图像分类网络在像素点i的输出，y_i表示伪标签在像素点i的类别标签。

(3e2)像素分类网络使用交叉熵损失函数

并通过每幅训练图像的伪标签和每幅训练图像中每个像素属于C+1类目标的概率，计算像素分类网络的交叉熵损失值

其中，

表示训练图像在像素点x_i1的真实类标，y_i表示像素分类网络在像素点x_i1的输出结果，N×N表示输入图像的大小。

(3e3)像素分类网络使用自适应亲和力损失函数

和类别分配损失函数

通过每幅训练图像的类激活图和伪标签以及每幅训练图像中每个像素属于C+1类目标的概率，计算像素分类网络的自适应亲和力损失值

和类别分配损失值

像素分类网络的自适应亲和力损失值

和类别分配损失值

的具体计算过程为：

(3e3a)根据邻域尺度s_k，为每幅训练图像构建对应邻域尺度下的亲和力集合

其中，(i,j)代表对应像素点的位置坐标，G(x_i,j,x_i+r,j+r)代表x_i,j与其邻域像素点x_i+r,j+r的伪标签相关关系。

(3e3b)根据x_i,j与x_i+r,j+r的伪标签的相关关系对

进行划分得到

和

其中，G(x_i,j,x_i+r,j+r)＝1代表x_i,j与x_i+r,j+r的伪标签相同，G(x_i,j,x_i+r,j+r)＝0代表x_i,j与x_i+r,j+r的伪标签不同。根据x_i,j与x_i+r,j+r的伪标签属于物体或者背景对

进行划分得到

和

表示x_i,j与x_i+r,j+r均属于物体，

表示x_i,j与x_i+r,j+r均属于背景。

(3e3c)根据每个邻域尺度s_k下所构建的集合，计算对应集合下的损失值：

其中，在本实施例中，

为KL散度，m为3，

为x_i,j和x_i+r,j+r在类激活图中对应概率的较小值。

(3e3d)根据(3e3c)中得到的损失值

和

计算单一自适应亲和力损失值

(3e3e)根据(3e3d)中得到的单一自适应亲和力损失值

计算自适应亲和力损失值

其中，在本实施例中s_k∈{4,8,12,24}，N^b＝4。

(3e3f)根据每幅图像的伪标签和类激活图计算每幅图像存在的每个目标类别的中心c_k，其公式如下：

其中，β_i表示类激活图中像素点x_i的值，l_k表示属于目标类别k的像素点的集合，在k的集合中，0表示背景，1到C表示物体。

表示x_i的特征，在本实施例中

为像素分类网络在x_i的输出,N表示每幅图像的属于每个目标类别的像素点的个数；

(3e3g)计算每幅训练图像中每个像素点与对应训练图像中的c_k的距离，在本实施例中距离计算公式为KL散度，然后选择与每个像素点距离最小的c_k的目标类别作为该像素点的新的目标类别

根据每幅训练图像中每个像素点新的目标类别对其进行划分得到E_fg和E_bg：

(3e3h)根据(3e3g)中所构建的集合，计算对应集合下的层次类别分配损失值

和

其公式如下：

其中

表示x_i与对应目标类别中心点c_i的距离，在本实施例中为KL散度，α_i表示置信度，其表示如下：

其中，

表示像素点x_i与次近的中心点c_j的距离。

根据层次类别分配损失值计算得到类别分配损失值

其计算公式如下：

(3e4)计算A的损失值L₅：

其中，λ₁表示

在L₅上的加权因子，λ₂表示

在L₅上的加权因子，在本实例中，λ₁＝0.1，λ₂＝0.1。

(3f)采用梯度下降法，并通过A^t的损失值L₅对A^t的权重θ^t进行更新，得到本次训练的模型A^t，其更新公式为：

θ^t'＝θ^t-α×dθ^t

其中，θ^t'为A^t的参数θ^t的更新值，α为A^t的学习速率，dθ^t为L₅对A^t的参数θ^t的导数。

步骤4)获取语义分割结果：

将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播，语义特征提取网络提取每幅测试图像的语义特征，图像分类网络在步骤4中不使用，像素分类网络对每个语义特征进行像素分类，得到每幅测试图像中每个像素属于C+1类目标的概率，并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注，最终获得具有像素语义标注的图像作为语义分割结果。

以下结合仿真实验，对本发明的技术效果进一步说明：

1.仿真条件及内容：

仿真实验采用公共数据集PASCAL VOC 2012，该数据集包含10582张训练样本集，1456张测试样本集。

仿真所用的处理器为

Xeon(R)CPU E5-2678 v3@2.50GHz×48，内存为64.00GB，GPU为12G的GeForce GTX1080Ti，仿真平台为Ubuntu16.04操作系统，使用Pytorch深度学习框架，采用Python语言实现。

图2为本次仿真所使用的测试图像，分别利用本发明和现有方法，进行语义分割算法分割精度仿真，仿真结果如图3所示，其中图3(a)为现有技术分割精度仿真结果图，图3(b)为本发明分割精度仿真结果图。

2.仿真结果分析：

从图3(a)的结果看出，现有技术分割精度的仿真结果中出现了语义混叠的现象，很多物体的部分被错误分割为了背景，而一些背景的部分被错误分割为了物体，从图3(b)可以看出，本发明极大地提高了物体与背景的分离程度。将本发明的分割精度仿真结果与真实标注结果进行比对，本发明的分割精度仿真结果的平均交并比mIoU由62.6％提高到90.4％。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。