CN113096138A

CN113096138A - 选择性像素亲和学习的弱监督语义图像分割方法

Info

Publication number: CN113096138A
Application number: CN202110395752.2A
Authority: CN
Inventors: 张向荣; 赵紫晨; 焦李成; 陈璞花; 古晶; 唐旭; 冯婕
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-09
Anticipated expiration: 2041-04-13
Also published as: CN113096138B

Abstract

本发明提出一种选择性像素亲和学习的弱监督语义图像分割方法，旨在通过对像素点间相关关系有选择地学习，更加准确预测对象边界以及区域连通处的像素点相关关系，改善对象边界与区域内部的分割效果。实现步骤为：首先，生成类别激活图，生成联合置信度图，生成权值图，在权值图与联合置信度图的共同监督下有选择地训练AffinityNet神经网络，学习并预测像素间亲和性，生成基础训练集中每张图像的伪掩码，最后，训练用于生成掩码的网络，对待分割图像的弱监督语义进行分割。本发明能够改善图像中对象边界与区域连通处的分割结果，提升分割效果。

Description

选择性像素亲和学习的弱监督语义图像分割方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分割技术领域中的选择性像素亲和学习的弱监督语义图像分割方法。本发明可用于对自然图像进行弱监督语义图像分割，得到具有物体类别的分割图。

背景技术

自然图像语义分割是图像处理中极具挑战性的一个任务，它的目的是为每个像素分配不同的类别，在场景理解和自动驾驶等领域有着广泛的应用。近年来随着深度神经网络的发展，全监督的语义分割任务取得了重大进展。然而，全监督的语义分割任务需要耗费大量的时间标注标签，这无疑是非常昂贵的。为了减轻对像素级标注的严重依赖，使用边界框、关键点以及图像级标签的弱监督学习方法在语义分割任务中被采用。由于图像级标签获取成本低于其他标签，有时标签甚至可以直接从互联网、物联网中得到，因此工程实践中更多采用图像级标签的弱监督方法。之前的图像级弱监督语义图像分割方法首先通过训练分类网络并通过分类网络生成类别激活图，并将它作为初始的类别分割区域“种子”，然后利用种子的分割结果训练一个常规的全监督语义分割网络，得到最终的弱监督语义图像分割结果。然而，种子通常只在具有类别判别力的区域获得较高的响应，并不能准确包含物体的整个区域，导致分割效果并不理想。

JiwoonAhn等人在其发表的论文“Learning Pixel-Level Semantic AffinityWith Image-Level Supervision for Weakly Supervised Semantic Segmentation”(IEEE Conference on Computer Vision and Pattern Recognition，2018年)中提出了一种利用深度卷积神经网络学习像素点对亲和关系的弱监督语义图像分割方法。该方法的步骤是：首先，训练一个分类网络，并利用训练好的分类网络生成类别激活图，再利用生成的类别激活图制作像素点对亲和关系的标签，其次，利用像素点对亲和关系标签建立一个预测像素点间亲和关系的深度神经网络，对该网络设置了交叉熵损失函数。之后利用预测到的像素点间亲和关系作为随机游走的转移概率，使用随机游走将类激活图的激活得分传播到同一语义实体的附近区域，显著提高了类别激活图的质量，细化了分割伪掩码，最后，再利用生成的分割伪掩码训练一个常规的全监督语义分割网络，利用训练好的分割网络得到物体最终的分割结果。虽然该方法通过预测像素点对间的亲和关系，在一定程度上细化了类激活图生成的“种子”，但是，该方法仍然存在的不足之处是，仅仅简单的对像素间亲和关系进行建模，并没有较多的关注物体边界与区域内部的关键位置像素，导致在对自然图像的物体边界与区域内部位置进行弱监督语义图像分割结果较差。

JiwoonAhn等人在其发表的论文“Weakly Supervised Learning ofInstanceSegmentationwith Inter-pixel Relations”(IEEE Conference on ComputerVision andPattern Recognition，2019年)中提出了一种利用深度卷积神经网络学习图像边界信息的弱监督语义图像分割方法。首先，该方法通过类别激活图获得图像边界注释标签，并利用该注释标签来训练一个深度神经网络，进一步挖掘更多的物体边界来为语义分割提供约束。随后，将学习到的边界信息转化为像素点对亲和关系并利用随机游走在初始类别激活图上传播语义信息，从而修正初始类激活图得到分割伪掩码。最后，再利用分割伪掩码训练一个常规的全监督语义分割网络，利用训练好的分割网络得到物体最终的分割结果。得到最终的分割结果。该方法在学习像素点间亲和关系的同时引入了边界信息的约束，进一步挖掘更多的物体边界来提升语义分割效果。虽然该方法在一定程度上细化了物体边界处的分割效果，但是，该方法仍然存在的不足之处是，仅通过边界注释标签挖掘物体边界的监督信息较为薄弱，导致对自然图像的物体边界位置进行弱监督语义图像分割结果较差。同时，该方法只考虑了物体边界信息，忽略了物体内部区域的连通性，导致对自然图像的物体区域内部位置进行弱监督语义图像分割结果较差。

华中科技大学在其申请的专利文献“一种弱监督语义图像分割方法及其应用”(申请号：202010004601.5，申请公布号：CN 111462163 A)中公开了一种弱监督语义图像分割方法。该方法采用预训练的用于弱监督语义图像分割的语义擦除式区域扩张分类网络，对待语义分割图片依次进行特征提取和高层语义整合分类，得到该张图片对应的第一类别激活图，然后擦除类别激活图中激活度高的区域，并对擦除后的类别激活图进行第二阶段的特征提取和高层语义整合分类，得到该张图片对应的第二类别激活图，最后对各类别激活图对应位置相加融合，并对融合后的类别激活图进行背景阈值切割处理得到类别分割区域图。虽然该方法能够提高类别激活图的“种子”质量，扩张效果好，但是，该方法仍然存在的不足之处是，未考虑到类别激活图中本身存在的错误信息，事实上类别激活图并不一定是完全正确的，它往往会存在一些错误激活的区域，这些错误激活的区域作为“种子”，将影响最终的分割结果，导致在对自然图像进行弱监督语义图像分割时效果较差。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种选择性像素亲和学习的弱监督语义图像分割方法，用于解决现有弱监督语义图像分割方法对自然图像的物体边界与区域内部位置分割结果较差，以及类别激活图中存在的错误激活区域导致分割结果较差的问题。

实现本发明目的的思路是，图像中不同像素点对于弱监督语义图像分割任务的贡献是不同的，边界处像素点的正确分割可以在较大程度上改善图像中不同对象之间的区分，更加细化对象的分割边界，对象区域连通处像素点的正确分割可以在较大程度上提升区域内部的分割结果，加强区域连通性，因此在学习像素点对亲和关系时对这些像素点的重点学习可以从区域内部以及区域边界处有针对性地提升对象语义分割结果。同时通过为类别激活图的激活区域学习置信度，可以在一定程度上减少一些置信度较低的激活区域对弱监督语义图像分割产生的影响。

实现本发明目的的具体步骤如下：

(1)生成类别激活图：

(1a)选取至少10000张带有类别标签的自然图像组成基础训练集，其中每张图像的类别标签包含至少一个类别；

(1b)利用特征图生成方法，得到基础训练集中每张图像的特征图；

(1c)利用类别激活图生成方法，得到基础训练集中每张图像的N₁个激活图，其中，N₁的取值与D的取值对应相等，D表示基础训练集中所有图像的类别标签中包含的不同类别的总数；

(2)生成联合置信度图：

(2a)利用种子图生成方法，得到基础训练集中每张图像的种子图；

(2b)利用亲和关系图生成方法，得到基础训练集中每张图像的共S₁个前景关系图、S₂个背景关系图和S₃个边界关系图，其中，S₁，S₂，S₃均等于152；

(2c)按照下式，计算每张种子图中每个像素点值与8邻域内除该像素点值之外其余每个像素点值的联合置信度：

其中，

表示第i张种子图中位于(x₃,y₃)处像素点值与8邻域内除该像素点值之外第j个像素点值的联合置信度，j＝1,2,...,R，R表示每张种子图中位于(x₃,y₃)处像素点的8邻域内除该像素点之外其余所有像素点的总数，

表示基础训练集中第r张图像的第c个激活图中位于(x₂,y₂)处像素点8邻域内除该像素点之外第k个位于(x₂,'y₂')处像素点值，(x₂,y₂)的取值与(x₃,y₃)的取值对应相等，k的取值与j的取值对应相等，c的取值与

的取值对应相等，

表示第i张种子图中位于(x₃',y₃')处像素点值，(x₃',y₃')的取值与(x₂,'y₂')的取值对应相等，r的取值与i的取值对应相等；

(2d)将基础训练集中每张图像的种子图中所有联合置信度组成该张图像的共S₄个大小为W_P×H_P的联合置信度图，其中，S₄等于152；

(3)生成权值图：

(3a)按照下式，计算基础训练集中每张图像的前景权值图：

其中，

表示第p张特征图中位于(x₁,y₁)处像素点的前景权值，

表示基础训练集中第r张图像的第u个前景关系图中位于(x₄,y₄)处像素点值，(x₁,y₁)与(x₄,y₄)的取值对应相等，r的取值与p的取值对应相等；

(3b)按照下式，计算每张特征图的边界权值图：

其中，

表示第p张特征图中位于(x₁,y₁)处像素点的边界权值，

表示基础训练集中第r张图像的第w个边界关系图中位于(x₅,y₅)处像素点值，(x₁,y₁)与(x₅,y₅)的取值对应相等，r的取值与p的取值对应相等；

(4)在权值图与联合置信度图的共同监督下有选择地训练AffinityNet神经网络，学习像素间亲和性：

(4a)将基础训练集中的所有图像每批8张分批输入到AffinityNet神经网络中，输出每张图像的有B_q个通道的大小为W_P×H_P的特征图；

(4b)将每张特征图中每个像素点的所有通道值组成该像素点的特征向量；

(4c)按照下式，计算每个像素点与其8邻域内除该像素点之外两两像素点中间特征向量的亲和性：

其中，

表示第q张特征图中第d个像素点与其8邻域内除该像素点之外的第e个像素点中间特征向量的亲和性，g^q(d)表示第q张特征图的第d个像素点的特征向量，

表示第q张特征图中第d个像素点8邻域内除该像素点之外的第e个像素点的特征向量；

(4d)将每张特征图中所有两两特征向量的亲和性组成该张特征图的N₅个亲和性图，N₅的取值与D的取值对应相等；

(4e)设定网络的损失函数为：L＝L_bg+L_fg+2×L_neg，L表示网络的损失函数，L_bg表示背景损失函数，L_fg表示前景损失函数，L_neg表示边界损失函数；

(4f)利用随机梯度下降法,迭代更新网络的参数直至网络的损失函数收敛时为止，得到训练好的用于生成亲和矩阵的网络；

(5)预测基础训练集中每张图像中像素间亲和性：

将基础训练集中的每张图像依次输入到训练好的用于生成亲和矩阵的网络中，通过网络预测每张图像中像素间亲和性，输出每张图像的亲和矩阵；

(6)生成基础训练集中每张图像的伪掩码：

将基础训练集中的每张图像依次输入到训练好的用于生成亲和矩阵的网络中，输出每张图像的亲和矩阵，利用该亲和矩阵，在每张激活图中执行随机游走，得到基础训练集中每张图像的伪掩码；

(7)训练用于生成掩码的网络：

将基础训练集中的所有图像每批8张分批输入到DeeplabV2网络中，输出每张图像的掩码，计算每张掩码与其对应的伪掩码的交叉熵损失函数值，利用随机梯度下降法迭代更新网络的参数直至交叉熵损失函数收敛时为止，得到训练好的用于生成弱监督语义图像分割掩码的网络；

(8)对待分割图像的弱监督语义进行分割：

将待分割图像输入到训练好的用于生成弱监督语义图像分割掩码的网络中，输出该张图像的弱监督语义图像分割掩码。

与现有技术相比，本发明具有如下优点

第一，由于本发明通过生成联合置信度图与亲和关系图，为类别激活图中激活区域计算置信度，在亲和关系图与联合置信度图的共同监督下有选择的训练AffinityNet神经网络，学习并预测像素亲和性，通过联合置信度图的监督，使得AffinityNet神经网络重点关注置信度较高的激活区域中像素亲和性的学习，通过预测的像素亲和性得到带类别标签图像的伪掩码，降低了类别激活图中错误激活区域对于后续弱监督语义图像分割结果的影响，克服了现有技术中由于类别激活图中的错误激活区域导致弱监督语义图像分割结果较差的缺陷，使得本发明提高了弱监督语义图像分割的精度。

第二，由于本发明通过生成权值图与亲和关系图，为待分割图像中像素计算像素的边界权值，前景权值，在亲和关系图与权值图的共同监督下有选择的训练AffinityNet神经网络，学习并预测像素亲和性，通过权值图的监督，使得AffinityNet神经网络重点关注边界处与区域连通处像素点对亲和关系，通过预测的像素亲和性得到带类别标签图像的伪掩码，克服了现有技术对所有像素点平等的学习来进行弱监督语义图像分割时，导致对象边界分割结果较为粗糙，区域连通处分割效果较差，存在较多孔洞的缺陷，使得本发明提高了弱监督语义图像分割中对象边界处与区域连同处的分割效果。

附图说明

图1为本发明的整体流程图。

图2为本发明的仿真图。

具体实施方式

以下结合附图，对本发明做进一步详细描述。

参照图1.对本发明的实现步骤做进一步详细描述。

步骤1，生成类别激活图。

选取至少10000张带有类别标签的自然图像组成基础训练集，其中每张图像的类别标签包含至少一个类别。

利用下述特征图生成方法，得到基础训练集中每张图像的特征图：

第1步，在ResNet50网络的最后一个卷积层后加入全局平均池化层，将基础训练集中的所有图像每批8张分批输入到该网络中，计算网络输出的每张图像的分类概率与该张图像类别标签的多标签分类损失值，利用随机梯度下降法迭代更新ResNet50网络的参数直至多标签分类损失函数收敛时网络训练结束，得到用于生成类别激活图的网络。

第2步，将基础训练集中的每张图像依次输入到用于生成类别激活图的网络中，网络中最后一个卷积层分别输出该图像的有B_p个通道的大小为W_P×H_P的特征图和N₂个分类权重向量，其中，B_p表示第p张特征图的通道数，W_P与H_P分别表示第p张特征图的长与宽，N₂的取值与D的取值对应相等。

利用类别激活图生成方法，得到基础训练集中每张图像的N₁个激活图，其中，N₁的取值与D的取值对应相等，D表示基础训练集中所有图像的类别标签中包含的不同类别的总数。

所述类别激活图生成方法的步骤如下：

第1步，将每张特征图中每个像素点的所有通道值组成该像素点的特征向量。

第2步，利用

公式，计算每个特征向量的N₃个激活值，其中，

表示该特征向量的第s个激活值，s＝1,2,...,N₃，

表示第z张图像的第t个分类权重向量的转置向量，t＝1,2,...,N₃，N₃的取值与D的取值对应相等，f^p(x₁,y₁)表示第p张特征图中位于(x₁,y₁)处像素点的特征向量，z的取值与p的取值对应相等，s与t的取值对应相等。

第3步，将每张特征图中所有特征向量的所有激活值组成该张特征图的N₄个大小为W_P×H_P的激活图，其中，N₄的取值与D的取值对应相等。

步骤2，生成联合置信度图。

利用种子图生成方法，得到基础训练集中每张图像的种子图。

所述的种子图生成方法的步骤如下：

第1步，利用下式，计算每张特征图中位于(x₁,y₁)处像素点的特征向量种子值，其中，f(x₁,y₁)表示该张特征图中位于(x₁,y₁)处所有通道特征值组成的特征向。

其中，

表示第p张特征图中位于(x₁,y₁)处像素点的特征向量的种子值，

表示第p张特征图中位于(x₁,y₁)处像素点的特征向量的所有激活值中的最大值，

κ表示第p张特征图中位于(x₁,y₁)处像素点的特征向量的所有激活值中最大激活值对应的编号，μ的取值与D的取值对应相等。

第2步，将每张特征图中所有位置的特征向量的种子值组成该张特征图的大小为W_P×H_P的种子图。

第3步，利用条件随机场修正每张特征图的种子图。

利用亲和关系图生成方法，得到基础训练集中每张图像的共S₁个前景关系图、S₂个背景关系图和S₃个边界关系图，其中，S₁，S₂，S₃均等于152。

所述的亲和关系图生成方法的步骤如下：

第1步，为每张特征图构建S₁个值全为0的大小为W_P×H_P的前景关系图，将每张种子图中每个位于(x₃,y₃)处像素点值依次与除该像素点之外其8邻域内所有像素点值进行比较，如果两个像素点值相同且都不等于0或μ+1，则将该张特征图的第m个同类前景关系图中位于(x₃,y₃)处像素点值由0设置为1，其中，m的取值与j的取值对应相等。

第2步，为每张特征图构建S₂个值全为0的大小为W_P×H_P的边界关系图，将每张种子图中每个位于(x₃,y₃)处像素点值依次与除该像素点之外其8邻域内所有像素点值进行比较，如果两个像素点值不同且都不等于μ+1，则将该张特征图的第n个边界关系图中位于(x₃,y₃)处像素点值由0设置为1，其中n的取值与j的取值对应相等。

第3步，为每张特征图构建S₃一个值全为0的大小为W_P×H_P的背景关系图，将每张种子图中每个位于(x₃,y₃)处像素点值依次与除该像素点之外其8邻域内所有像素点值进行比较，如果两个像素点值都等于0，则将该张特征图的第o个背景关系图中位于(x₃,y₃)处像素点值由0设置为1，其中o的取值与j的取值对应相等。

按照下式，计算每张种子图中每个像素点值与8邻域内除该像素点值之外其余每个像素点值的联合置信度：

其中，

的取值对应相等，

表示第i张种子图中位于(x₃',y₃')处像素点值，(x₃',y₃')的取值与(x₂,'y₂')的取值对应相等，r的取值与i的取值对应相等。

将基础训练集中每张图像的种子图中所有联合置信度组成该张图像的共S₄个大小为W_P×H_P的联合置信度图，其中，S₄等于152。

步骤3，生成权值图。

按照下式，计算基础训练集中每张图像的前景权值图：

其中，

表示第p张特征图中位于(x₁,y₁)处像素点的前景权值，

表示基础训练集中第r张图像的第u个前景关系图中位于(x₄,y₄)处像素点值，(x₁,y₁)与(x₄,y₄)的取值对应相等，r的取值与p的取值对应相等。

按照下式，计算每张特征图的边界权值图：

其中，

表示第p张特征图中位于(x₁,y₁)处像素点的边界权值，

表示基础训练集中第r张图像的第w个边界关系图中位于(x₅,y₅)处像素点值，(x₁,y₁)与(x₅,y₅)的取值对应相等，r的取值与p的取值对应相等。

步骤4，在权值图与联合置信度图的共同监督下有选择地训练AffinityNet神经网络，学习像素间亲和性。

将基础训练集中的所有图像每批8张分批输入到AffinityNet神经网络中，输出每张图像的有B_q个通道的大小为W_P×H_P的特征图。

将每张特征图中每个像素点的所有通道值组成该像素点的特征向量。

按照下式，计算每个像素点与其8邻域内除该像素点之外两两像素点中间特征向量的亲和性：

其中，

表示第q张特征图中第d个像素点8邻域内除该像素点之外的第e个像素点的特征向量。

将每张特征图中所有两两特征向量的亲和性组成该张特征图的N₅个亲和性图，N₅的取值与D的取值对应相等。

设定网络的损失函数为：L＝L_bg+L_fg+2×L_neg，L表示网络的损失函数，L_bg表示背景损失函数，L_fg表示前景损失函数，L_neg表示边界损失函数。

所述的背景损失函数具体为：亲和性图与背景关系图的以联合置信度图中的值作为权重的加权交叉熵损失函数。

所述的前景损失函数具体为：亲和性图与前景关系图的以前景权值图与联合置信度图的乘积的值作为权重的加权交叉熵损失函数。

所述的边界损失函数具体为：亲和性图与边界关系图的以边界权值图与联合置信度图的乘积的值作为权重的加权交叉熵损失函数。

利用随机梯度下降法,迭代更新网络的参数直至网络的损失函数收敛时为止，得到训练好的用于生成亲和矩阵的网络。

步骤5，预测基础训练集中每张图像中像素间亲和性。

将基础训练集中的每张图像依次输入到训练好的用于生成亲和矩阵的网络中，通过网络预测每张图像中像素间亲和性，输出每张图像的亲和矩阵。

步骤6，生成基础训练集中每张图像的伪掩码。

将基础训练集中的每张图像依次输入到训练好的用于生成亲和矩阵的网络中，输出每张图像的亲和矩阵，利用该亲和矩阵，在每张激活图中执行随机游走，得到基础训练集中每张图像的伪掩码。

步骤7，训练用于生成掩码的网络。

将基础训练集中的所有图像每批8张分批输入到DeeplabV2网络中，输出每张图像的掩码，计算每张掩码与其对应的伪掩码的交叉熵损失函数值，利用随机梯度下降法迭代更新网络的参数直至交叉熵损失函数收敛时为止，得到训练好的用于生成弱监督语义图像分割掩码的网络。

步骤8，对待分割图像的弱监督语义进行分割。

所述的掩码即为弱监督语义图像分割分割结果图。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel i75930k CPU，主频为3.5GHz，内存16GB。

本发明的仿真实验的软件平台为：ubuntu14.04操作系统和python 3.6。

本发明仿真实验所使用的输入图像为视觉目标分类PASCAL VOC2012图像，该自然图像数据来源于视觉目标分类挑战赛2012，图像大小为256×256个像素，图像共包含20类待分割目标，每张图像包含类别标签与真实对象分割图，图像格式为jpg。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和一个现有技术(像素亲和学习弱监督语义图像分割方法)分别对输入的视觉目标分类图像进行弱监督语义图像分割，获得弱监督语义图像分割掩码。

在仿真实验中，采用的一个现有技术是指：

现有技术像素亲和学习弱监督语义图像分割方法是指，JiwoonAhn等人在“Learning pixel-level semantic affifinity with image-level supervision forweakly supervised semantic segmentation.In Proc.IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2018”中提出的弱监督语义图像分割方法，简称像素亲和学习弱监督语义图像分割方法。

为了评价两种方法的分割结果优劣，利用交并比iou与平均交并比Miou评价指标分别对两种方法得到的弱监督语义图像分割结果进行评价。

利用下面公式，计算两种方法得到的视觉目标分类PASCAL VOC2012图像的弱监督语义图像分割结果与视觉目标分类PASCAL VOC2012图像的真实对象分割图的20个待分割类别的交并比，并额外计算背景类的交并比与所有类别交并比的平均交并比，将所有计算结果绘制成表1：

表1.仿真实验中分割结果的定量分析表

结合表1可以看出，本发明的平均交并比Miou为64.4％，这个指标高于现有技术方法，证明本发明可以得到更高的弱监督语义图像分割精度。

下面结合图2的仿真图对本发明的效果做进一步的描述。

图2(a)为输入的视觉目标分类PASCAL VOC2012图像，图2(b)为采用现有技术像素亲和学习弱监督语义图像分割方法，对视觉目标分类PASCAL VOC2012进行弱监督语义图像分割的结果图，图2(c)为利用本发明的方法，对视觉目标分类PASCAL VOC2012进行弱监督语义图像分割的结果图。图2(d)为输入的视觉目标分类PASCAL VOC2012图像的真实对象分割图。从图2(b)可以看出，现有技术像素亲和学习弱监督语义图像分割方法的结果图中，部分对象边界处分割效果较差，导致对象之间没有明确的区分开来，如图中矩形框所示区域。从图2(c)可以看出，与现有技术像素亲和学习弱监督语义图像分割方法相比，本发明方法在对象边界处细节分割结果有较大提升，图中矩形框所示区域边界分割较为清晰。将仿真结果与真实标注结果进行比对，相较于现有方法，本发明的仿真结果的miou由59.7提升到64.4。

以上仿真实验表明：本发明利用一种选择性像素亲和学习的弱监督语义图像分割方法，为每个像素点对设计不同惩罚权值，并训练带有不同惩罚权值损失函数的深度神经网络学习像素点对亲和关系。仿真结果中图象内对象区域连通性加强，边界处分割更加清晰准确，且训练结果具有较高的鲁棒性，无论输入图像结构复杂与否，都能够在加权惩罚的策略下得到较好的结果。

Claims

1.一种选择性像素亲和学习的弱监督语义图像分割方法，其特征在于，利用亲和关系图，权值图与联合置信度图，在权值图与联合置信度图的共同监督下有选择地训练AffinityNet神经网络，学习并预测像素间亲和性，通过预测的像素亲和性得到带类别标签图像的伪掩码；该方法的步骤包括如下：

(1)生成类别激活图：

(2)生成联合置信度图：

其中，

表示第i张种子图中位于(x₃,y₃)处像素点值与8邻域内除该像素点值之外第j个像素点值的联合置信度，j＝1,2,...,R，R表示每张种子图中位于(x₃,y₃)处像素点的8邻域内除该像素点之外其余所有像素点的总数，M_c ^r(x'₂,y'₂)表示基础训练集中第r张图像的第c个激活图中位于(x₂,y₂)处像素点8邻域内除该像素点之外第k个位于(x₂'y₂')处像素点值，(x₂,y₂)的取值与(x₃,y₃)的取值对应相等，k的取值与j的取值对应相等，c的取值与

的取值对应相等，

(3)生成权值图：

(3a)按照下式，计算基础训练集中每张图像的前景权值图：

其中，

表示第p张特征图中位于(x₁,y₁)处像素点的前景权值，

(3b)按照下式，计算每张特征图的边界权值图：

其中，

表示第p张特征图中位于(x₁,y₁)处像素点的边界权值，

其中，

(5)预测基础训练集中每张图像中像素间亲和性：

(6)生成基础训练集中每张图像的伪掩码：

(7)训练用于生成掩码的网络：

(8)对待分割图像的弱监督语义进行分割：

2.根据权利要求1所述的选择性像素亲和学习的弱监督语义图像分割方法，其特征在于，步骤(1b)中所述特征图生成方法的步骤如下：

第一步，在ResNet50网络的最后一个卷积层后加入全局平均池化层，将基础训练集中的所有图像每批8张分批输入到该网络中，计算网络输出的每张图像的分类概率与该张图像类别标签的多标签分类损失值，利用随机梯度下降法迭代更新ResNet50网络的参数直至多标签分类损失函数收敛时网络训练结束，得到用于生成类别激活图的网络；

第二步，将基础训练集中的每张图像依次输入到用于生成类别激活图的网络中，网络中最后一个卷积层分别输出该图像的有B_p个通道的大小为W_P×H_P的特征图和N₂个分类权重向量，其中，B_p表示第p张特征图的通道数，W_P与H_P分别表示第p张特征图的长与宽，N₂的取值与D的取值对应相等。

3.根据权利要求1所述的选择性像素亲和学习的弱监督语义图像分割方法，其特征在于，步骤(1c)中所述类别激活图生成的步骤如下：

第一步，将每张特征图中每个像素点的所有通道值组成该像素点的特征向量；

第二步，利用

公式，计算每个特征向量的N₃个激活值，其中，

表示该特征向量的第s个激活值，s＝1,2,...,N₃，

表示第z张图像的第t个分类权重向量的转置向量，t＝1,2,...,N₃，N₃的取值与D的取值对应相等，f^p(x₁,y₁)表示第p张特征图中位于(x₁,y₁)处像素点的特征向量，z的取值与p的取值对应相等，s与t的取值对应相等；

第三步，将每张特征图中所有特征向量的所有激活值组成该张特征图的N₄个大小为W_P×H_P的激活图，其中，N₄的取值与D的取值对应相等。

4.根据权利要求1所述的选择性像素亲和学习的弱监督语义图像分割方法，其特征在于，步骤(2a)中所述种子图生成方法的步骤如下：

第一步，利用下式，计算每张特征图中位于(x₁,y₁)处像素点的特征向量种子值，其中，f(x₁,y₁)表示该张特征图中位于(x₁,y₁)处所有通道特征值组成的特征向：

其中，

κ表示第p张特征图中位于(x₁,y₁)处像素点的特征向量的所有激活值中最大激活值对应的编号，μ的取值与D的取值对应相等；

第二步，将每张特征图中所有位置的特征向量的种子值组成该张特征图的大小为W_P×H_P的种子图；

第三步，利用条件随机场修正每张特征图的种子图。

5.根据权利要求1所述的选择性像素亲和学习的弱监督语义图像分割方法，其特征在于，步骤(2b)中所述亲和关系图生成方法的步骤如下：

第一步，为每张特征图构建S₁个值全为0的大小为W_P×H_P的前景关系图，将每张种子图中每个位于(x₃,y₃)处像素点值依次与除该像素点之外其8邻域内所有像素点值进行比较，如果两个像素点值相同且都不等于0或μ+1，则将该张特征图的第m个同类前景关系图中位于(x₃,y₃)处像素点值由0设置为1，其中，m的取值与j的取值对应相等；

第二步，为每张特征图构建S₂个值全为0的大小为W_P×H_P的边界关系图，将每张种子图中每个位于(x₃,y₃)处像素点值依次与除该像素点之外其8邻域内所有像素点值进行比较，如果两个像素点值不同且都不等于μ+1，则将该张特征图的第n个边界关系图中位于(x₃,y₃)处像素点值由0设置为1，其中n的取值与j的取值对应相等；

第三步，为每张特征图构建S₃一个值全为0的大小为W_P×H_P的背景关系图，将每张种子图中每个位于(x₃,y₃)处像素点值依次与除该像素点之外其8邻域内所有像素点值进行比较，如果两个像素点值都等于0，则将该张特征图的第o个背景关系图中位于(x₃,y₃)处像素点值由0设置为1，其中o的取值与j的取值对应相等。