CN115512169B

CN115512169B - 基于梯度和区域亲和力优化的弱监督语义分割方法及装置

Info

Publication number: CN115512169B
Application number: CN202211395308.1A
Authority: CN
Inventors: 张鼎文; 薛文灏; 张晓�; 程乐超; 方超伟; 韩军伟
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-07-25
Anticipated expiration: 2042-11-09
Also published as: CN115512169A

Abstract

本发明公开了基于梯度和区域亲和力优化的弱监督语义分割方法及装置，本方法提出的基于视觉Transformer的弱监督语义分割框架，可以保留精确的图像结构信息，反映像素间长距离语义关联。本发明从自注意力模块中提取梯度加权的类相关物体定位图和区域亲和度关联图，用于优化通过Transformer分类网络生成的类激活图，可以有效扩大激活区域，并使用显著性约束提高激活区域的边界质量，缓解边界被错误划分现象，为分割模型提供高质量的物体定位图；在类激活图中广泛使用的二值交叉熵(BCE)损失使CAM中每个像素可以响应于同一感受野中出现的多个类别，是造成像素标注错误的重要原因。

Description

基于梯度和区域亲和力优化的弱监督语义分割方法及装置

技术领域

本发明涉及图像分割技术领域，特别涉及基于梯度和区域亲和力优化的弱监督语义分割方法及装置。

背景技术

语义分割是标注图像中各个像素类别的计算机视觉技术，广泛应用于自动驾驶、机器人视觉、精准农业和生物医学等领域。随着深度学习的发展，基于神经网络的语义分割方法取得了显著成果。全监督学习的语义分割训练过程中，有逐像素语义标注图像作为标签来辅助学习，可以达到不错的准确率。然而，全监督学习需要大量像素级别语义标注图像，标注单张图像的像素级别标签平均花费239.7秒，成本消耗巨大，实际应用受限。区别于全监督学习，弱监督学习使用更容易获得的真值标注如边界框、点、涂鸦和图像级别标签，替代逐像素的类别标注，训练网络可利用的先验信息很少，要实现高精度语义分割，具有相当大的难度，但不需要大量繁琐的数据标注，可以节省许多人力物力，因此近年来受到学界很多关注。通过采用更方便的标注信息，期望媲美甚至超过监督学习的性能，弱监督学习方法成为语义分割的热门研究方向。基于图像级标签的方法是所需标注成本最小，分割难度最大的弱监督方法，也是现在主流的弱监督学习语义分割研究方向。基于图像级标签的主流方法是把全连接层的最后一层改为全局池化层，融合最后一个卷积层特征，再把标签输入训练收敛的分类网络，生成类激活图(Class Activation Map)。CAM通常只包括包含指定类别对象区域的一部分，然后使用例如擦除或扩展的方法，优化 CAM 获得分割掩膜；最后将其作为伪标签，按照全监督方法训练分割模型。由于图像级别标签所含语义信息不足，导致生成的伪标签质量不高，制约着分割模型的性能提升，主要存在三种问题：1) 只包含目标的局部关键区域，2) 目标边界划分错误，3) 无法准确区分相邻目标间像素。CAM 只能提取影响分类预测的最有区别力的部分，而不是对象的全貌，如何从 CAM 反映的有限部分，获得精确完整的对象区域，是弱监督语义分割方法的研究重点。

发明内容

本发明的目的在于提供基于梯度和区域亲和力优化的弱监督语义分割方法及装置，以克服当前基于弱监督学习的图像语义分割任务中，伪标签质量不高导致分割模型性能低下的问题。现有基于弱监督学习的语义分割方法，大多采用图像级别标签，先前大多数弱监督语义分割方法都采用卷积神经网络(CNN)作为骨干网络，获得类激活图(CAM)，但是CNN存在局部感受野和下采样信息减少的缺点，通过CNN得到的 CAM 往往只突出最显著的区域，定位的物体轮廓粗糙，不能很好区分相邻物体间的边界。此外，常用于优化模型的二值交叉熵损失(BCE loss)也存在缺陷，在多类别分类模式中，基于BCE loss的各个类别预测之间互不相关，类激活图像素有可能被同一感受野中多个类别激活，一些假阳性像素(A类别像素被预测为类别B)和假阴性像素(A类别像素被预测为背景)出现的可能性增加，降低了后续生成的伪标签质量；

为实现上述目的，本发明提供如下技术方案：

本申请公开了一种基于梯度和区域亲和力优化的弱监督语义分割方法，包括训练集和训练模型；所述训练集包括类别标注数据集和显著图数据集，所述类别标注数据集由标注样本以及标注样本对应的真实类别标签组成，所述显著图数据集中由标注样本对应的显著图组成；所述训练模型为基于注意力机制的弱监督语义分割框架GANet；所述方法包括如下步骤：

S1、将训练集输入训练模型，输出得到类别块预测向量和图像块预测向量，计算类别块预测向量、图像块预测向量与标注样本对应的真实类别标签之间的监督损失；

S2、对训练模型输出的三维特征图进行筛选得到目标特征图和背景特征图；根据目标特征图、背景特征图和标注样本对应的显著图构建预测显著图；计算预测显著图与标注样本对应的显著图之间的显著性损失；结合步骤S1中的监督损失，对训练模型进行训练得到模型SGANet；

S3、从步骤S2中的模型SGANet中获得基于图像块的类激活图；基于注意力图提取梯度加权注意力图和区域亲和度关联图优化基于图像块的类激活图，得到优化后的物体定位图；

S4、使用步骤S3中优化后的物体定位图处理三维特征图；使用Softmax交叉熵损失对模型SGANet进行再激活优化；

S5、从再激活优化后的模型SGANet中提取优化后的物体定位图和补充优化图进行融合，得到最终的伪标签对图像分割模型进行全监督训练。

作为优选，步骤S1具体包括如下子步骤：

S11、将训练集输入训练模型，训练模型的Transformer编码器输出类别编码块和图像编码块；

S12、类别编码块经过全连接层转化成类别块预测向量；

S13、图像编码块经过变形和C通道的卷积层处理成三维特征图；再对三维特征图进行全局平均池化处理得到图像块预测向量；

S14、计算类别块预测向量与标注样本对应的真实类别标签之间的交叉熵损失；

S15、计算图像块预测向量与标注样本对应的真实类别标签之间的交叉熵损失；

S16、根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和，得到监督损失。

作为优选，步骤S2具体包括如下子步骤：

S21、对训练模型输出的三维特征图进行筛选，剔除非目标类别的三维特征图；得到目标特征图和背景特征图；

S22、对目标特征图、背景特征图和标注样本对应的显著图进行二值化处理，再计算目标特征图、背景特征图与标注样本对应的显著图之间的像素重叠比；

S23、根据步骤S22中像素重叠比的大小进行划分，将像素重叠比大于等于阈值的组成得到预测前景显著图；将像素重叠比小于阈值的划分为背景显著图，将背景显著图与背景特征图组合成预测背景显著图；将预测前景显著图和预测背景显著图相加组合成预测显著图；

S24、计算预测显著图与标注样本对应的显著图之间的像素平均距离，得到显著性损失；结合步骤S1中的监督损失，对训练模型进行训练得到模型SGANet。

作为优选，步骤S3中基于图像块的类激活图获得方法如下：

S31、根据模型SGANet的Transformer编码器输出的图像编码块，图像编码块经过变形和C通道的卷积层处理成三维特征图；

S32、使用类激活图计算方法处理三维特征图，获得基于图像块的类激活图。

作为优选，步骤S4中具体包括如下操作：使用优化后的物体定位图处理三维特征图得到多个特定类的特征图，拓展网络下支部分，同时计算基于二值交叉熵损失的上支部分损失和基于Softmax 交叉熵损失的下支部分损失，两者一起更新网络模型。

本发明还公开了一种基于梯度和区域亲和力优化的弱监督语义分割装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。

本发明还公开了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。

本发明的有益效果：

本发明一种基于梯度和区域亲和力优化的弱监督图像语义分割方法，由于视觉Transformer的每一层都拥有全局感受野和恒定维数，本方法提出的基于视觉Transformer的弱监督语义分割框架，可以保留精确的图像结构信息，反映像素间长距离语义关联。本发明从自注意力模块中提取梯度加权的类相关物体定位图和区域亲和度关联图，用于优化通过Transformer分类网络生成的类激活图，可以有效扩大激活区域，并使用显著性约束提高激活区域的边界质量，缓解边界被错误划分现象，为分割模型提供高质量的物体定位图；在类激活图中广泛使用的二值交叉熵(BCE)损失使CAM中每个像素可以响应于同一感受野中出现的多个类别，是造成像素标注错误的重要原因。为此，本方法使用Softmax 交叉熵(SCE)损失来重新训练BCE模式下收敛的分类模型。由于SCE的对比性，像素响应被分成不同的类别，因此预期的掩码模糊性较小，相邻目标间的像素分类准确度提高。本发明实现方法简便，手段灵活，在图像训练数据上取得显著的分割效果提升，并在相关验证数据和测试数据上进行了检验，具有不错的泛化能力。

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1 本发明的整体流程图;

图2 伪标签生成网络GANet结构图；

图3 基于梯度加权的类相关激活图GETAM与区域亲和度关联图

PatchAffinity；

图4 引入显著性约束的伪标签生成网络SGANet训练流程图；

图5 再激活网络结构图；

图6 SGANet生成的PASCAL VOC 图像伪标签，原图(上)、真实标签(中)、伪标签(下)；

图7 在PASCAL VOC数据集上的语义分割结果，原图(上)、人工标注图(中)、分割结果(下)。

图8是本发明一种基于梯度和区域亲和力优化的弱监督语义分割装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明实施例提供一种基于梯度和区域亲和力优化的弱监督图像语义分割方法，整体流程图如图1所示，包括如下步骤：

1、实验设定与准备：

本发明主要解决弱监督图像语义分割任务中，提升伪标签质量和模型分割性能的问题。这里正式定义训练集，训练集/>包括类别标注数据集/>和显著图数据集/>，即：，其中/>由标注样本及其类别标签组成，即/>，/>表示类别标注的样本，表示标注样本对应的真实类别标签。假设所有样本和真实标注大小均为/>。因此本发明中设计的弱监督图像语义分割任务的目的是：利用仅有图像级别类别标签的样本和对应显著图组成的数据集训练出性能良好的分割模型。

对于训练模型的网络结构设定，本文提出的基于注意力机制的弱监督语义分割框架，弱监督伪标签生成网络GANet使用Transformer作为骨干网络（见图2）。网络结构采用Vit网络，Vit网络中存在L个层级相连的编码层，每层都包含一个多头注意力模块(MHA)，一个前向激活层(MLP)和两个分别位于MHA和MLP之前的LayerNorm层。Vit在整体网络中作为特征提取器，其后有用于分类任务的线性层、卷积层以及全局池化层。

对于模型输出的设定，给定输入图像，网络的最终输出：类别预测向量和/>。在再激活阶段网络下支将输出多个单类别预测向量，c表示实际图像类别数，C表示所有图像类别数。

2、分类监督约束：

输入图像首先会被分割成/>个互不重叠的图像块，通过线性层被编码成图像块序列/>(D是编码长度，/>)，与一个类别编码块/>和多个PE位置编码块组成/>输入编码器。模块在对输入/>进行标准化后，将其转化成/>，/>和/>，按照自注意力机制计算输入块之间的语义关系，得到/>并进行前向传播。Transformer编码器的最终输出/>，将分成输出类别编码块/>和图像编码块/>。/>经过全连接层，转化成类别预测向量/>。/>经过变形和C通道的卷积层处理成三维特征图/>，然后使用全局平均池化将其转变成图像预测向量。分别计算/>和/>与图像级别类别标签/>之间的二值交叉熵损失(BCE loss) ，BCE loss计算公式如下:

总损失等于两者之和：，使用/>优化模型。

3、显著性损失：

通过分类网络提取的类激活图往往存在覆盖区域稀疏、区域边界不准确以及区域覆盖错误。在分类监督损失的基础上，为进一步提高物体定位图的定位精度，以获得质量更高的分割掩码，本发明在原始图像和显著图之间引入显著性约束。

图4展示了引入显著性约束后的网络训练流程。为了充分发挥显著图的作用，重新设计GANet预测器的结构，以预测C+1个类别（C个目标类别和1个背景类别），得到最终的伪标签生成网络SGANet。通过利用C张目标定位图和一张背景定位图，获得网络预测的显著图。显著性损失定义成预测显著图与标签显著图之间的像素级别差异。预测显著图/>可以由前景定位图/>和背景定位图/>组成。首先对输出特征图进行选择，每张特征图对应的是不同类别的目标的位置信息，像素值取值在0-1之间，第i张特征图记为/>，剔除非目标类别的特征图，其次对筛选后得到的目标特征图、背景特征图以及显著图都进行阈值为0.5的二值化处理，得到/>和/>，再计算特征图与显著图之间像素重叠比，计算公式如下：

重叠比大于阈值%的特征图组合得到预测前景显著图/>。对于目标类别中重叠比小于/>%的特征图，将其划分为背景显著图，与背景特征图一起组合成预测背景显著图。计算公式如下：/>

是图像级别标签，/>设为40。将计算得到/>和/>组合成预测显著图/>，计算公式如下：

0, 1]是超参数，默认设置成0.5。现在计算预测显著图与标签显著图之间的差异，显著性损失/>通过计算/>与/>的像素平均距离获得，

总体损失更新为：

使用训练伪标签生成模型SGANet。

4、基于注意力的优化策略：

当收敛后，提取/>并使用类激活图的计算方法处理，将结果命名为PatchCAM作为物体定位图。

编码器中每一层的输出都是该层自注意力模块中所有编码块的注意力加权之和，计算公式如下：

从中可以获得编码块注意力图：

是全局成对信息注意力图，从中可以提取类与图像块注意力图)，如图3所示。通过将/>的形状还原成图像的形状，可以获得类无关物体定位图/>，图中每个位置代表对分类的贡献。通过反向传播每一类别的分类得分/>，得到每一类别在该层所对应的/>。通过将每层的/>与/>融合得到基于梯度加权的类相关物体定位图/>，计算公式如下:

将与/>逐元素相乘，使用Relu函数激活后，再和/>逐元素相乘。

来自不同层的注意力图的激活区域都集中指向需定位对象区域，且各自指向不同的位置，因此将来自各层的类相关定位图相加融合起来，得到GETAM。

表示类别c的GETAM。

将PatchCAM与GETAM相乘（如图3），以突出二者共同的激活区域，抑制噪声干扰，获得融合物体定位图GPAM。

从提取区域亲和度关联图/>，称为PatchAffinity，它表示图像中的区域关联性/>，如图4所示。将/>变形成4维张量，按照如下公式使用/>优化物体定位图GPAM，最终得到优化后的物体定位图/>。

5、再激活的优化策略：

使用Softmax 交叉熵损失(SCE loss)来重新训练BCE模式下收敛的分类模型SGANet。给定一张图像，使用CAM来提取每个单独类的特征像素，将它们与类标签一起使用来训练另一个在骨干网络之后的具有SCE的类别预测分支，再激活得到用于语义分割的掩码。由于SCE的对比性，像素响应被分成不同的类别，因此预期的掩码模糊性较小，相邻目标间的像素分类准确度提高。

如图5所示，训练过程中，每次提取各类的PatchCAM，并用GETAM和PatchAffinity进行优化，图中用CAM表示优化后的结果，再和编码器输出特征图融合，得到多个特定类的特征图，/>中只有该类所属的特征区域被激活。在下部分新的网络分支中，使用单类别标签和特定类的特征图进行训练，上部分的GANet依然使用/>进行训练，整个网络同时使用/>和/>进行优化，损失的梯度向包括骨干网络(Transformer编码器)的整个模型进行传播。为表述方便，这里定义一个新的总体损失函数/>：

当收敛后，将从SGANet中提取/>和从下部分网络中提取的ReCAM以对应类别相加的方式融合，最终得到激活区域更大，像素分类错误更少的物体定位图，将其作为伪标签作为语义分割训练的监督。

6、基于伪标签的语义分割

基于上述获得的伪标签，将其作为训练数据的像素级别标签进行全监督语义分割训练。采用基于ResNet38的Deeplabv1的语义分割模型。为了验证本发明所提方法的有效性和先进性，在PASCAL VOC 2012数据集及其增强数据集SBD进行实验验证，PASCALVOC数据集拥有20个前景对象类别和1个背景类别，可以被分成训练集、验证集和测试集，分别包含1,464、1,449和1,456张图片。通过使用SBD数据集扩充训练数据，可以获得包含10,582张图片的训练增强集。

基于梯度和区域亲和力优化的弱监督图像语义分割方法在PASCAL VOC 2012图像数据集上取得高质量的分割性能（见图6和图7）。具体的，在PASCAL VOC训练集上测试了SGANet生成的伪标签的平均交并比(mIoU)，如表1所示，与跨图像亲和度网络(Cross-imageaffinity net: CIAN)、类内分辨器(Intra-Class Discriminator: ICD)、辅助分割网络(Auxiliary Segmentation Network: AuxSegNet)、自监督等变注意力机制(Self-supervised equivariant attention mechanism: SEAM)、基于边界探索的分割方法(Boundary Exploration basedSegmentation: BES)、上下文调整(Context Adjustment:CONTA)、对抗类激活图(AdversarialClass Activation Map: AdvCAM)和多类别块Transformer模型(Multi-class Token Transformer: MCTformer)对比，本发明方法取得最佳分割精度。

实验对比了不同的弱监督方法在PASCAL VOC 2012验证集和测试集上的表现(如表2)。与只使用图像级别标签的方法相比，本发明提出的方法具有明显的优势，对比同样使用了显著图优化的算法，在使用同样骨干网络的I+S方法中，本方法性能最好，这说明了SGANet生成的伪标签质量更好，能够促使分割网络实现更精确的分割精度。值得注意的是，其他I+S方法都使用了以CNN为

Backbone的分类网络，这说明本发明提出的基于梯度和区域优化的弱监督语义分割方法可以有效改善CNN的缺陷。综上所述，通过进行同类和跨类方法比较，验证了本方法的有效性，优于同类的一般方法。

表3和表4分别展示了使用本发明所提方法得到的语义分割模型在PASCAL VOC验证集和测试集上的各个类别分割结果精度交并比(IoU)，并与其他方法结果对比。可以看到在本发明方法在大多数类上都取得了不同程度的领先，这表明了本方法的有效性和先进性。

表1：不同方法生成的伪标签在PASCAL VOC 2012训练集的mIoU(%)结果

表2不同弱监督语义分割方法性能比较

（I:图像级别标签，S:离线网络生成的显著图）

表3：在PASCAL VOC 验证集上，不同弱监督语义分割方法

各类别分割结果IoU(%)对比

表4：在PASCAL VOC 测试集上，不同弱监督语义分割方法

各类别分割结果IoU(%)对比

图6展示了SGANet生成的PASCAL VOC 图像伪标签，图7展示了在PASCAL VOC数据集上的语义分割结果，通过本发明方法得到的语义分割图具有较高的质量。

本发明一种基于梯度和区域亲和力优化的弱监督语义分割装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本发明一种基于梯度和区域亲和力优化的弱监督语义分割装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于梯度和区域亲和力优化的弱监督语义分割装置。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于梯度和区域亲和力优化的弱监督语义分割方法，其特征在于，包括训练集和训练模型；所述训练集包括类别标注数据集和显著图数据集，所述类别标注数据集由标注样本以及标注样本对应的真实类别标签组成，所述显著图数据集中由标注样本对应的显著图组成；所述训练模型为基于注意力机制的弱监督语义分割框架GANet；所述方法包括如下步骤：

S1、将训练集输入训练模型，输出得到类别块预测向量和图像块预测向量，计算类别块预测向量、图像块预测向量与标注样本对应的真实类别标签之间的监督损失；步骤S1具体包括如下子步骤：

S12、类别编码块经过全连接层转化成类别块预测向量；

S16、根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和，得到监督损失；

S3、从步骤S2中的模型SGANet中获得基于图像块的类激活图；基于注意力图提取梯度加权注意力图和区域亲和度关联图优化基于图像块的类激活图，得到优化后的物体定位图；具体操作如下：

S32、使用类激活图计算方法处理三维特征图，获得基于图像块的类激活图PatchCAM；

S33、编码器中每一层的输出都是该层自注意力模块中所有编码块的注意力加权之和；

从中获得编码块注意力图；

其中，表示实数集，N表示图像块的边长，M=N²；

从中提取类与图像块注意力图/>，/>；通过将/>的形状还原成图像的形状，获得类无关物体定位图/>；通过反向传播每一类别的分类得分/>，得到每一类别在该层所对应的/>；通过将每层的/>与/>融合得到基于梯度加权的类相关物体定位图/>；

其中c表示类别，i表示层数；

将和/>逐元素相乘，使用Relu函数激活后，再和/>逐元素相乘；

将来自各层的类相关定位图相加融合，得到GETAM；

将PatchCAM与GETAM相乘，获得融合物体定位图GPAM；

从提取区域亲和度关联图/>；将/>变形成4维张量/>，使用/>优化物体定位图GPAM，最终得到优化后的物体定位图/>；

S4、使用步骤S3中优化后的物体定位图处理三维特征图；使用Softmax交叉熵损失对模型SGANet进行再激活优化；具体包括如下操作：使用优化后的物体定位图处理三维特征图得到多个特定类的特征图，拓展网络下支部分，同时计算基于二值交叉熵损失的上支部分损失和基于Softmax 交叉熵损失的下支部分损失，两者一起更新网络模型；

2.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法，其特征在于：所述训练模型的网络结构采用Vit网络，Vit网络中存在L个层级相连的编码层，每层都包含一个多头注意力模块，一个前向激活层和两个分别位于多头注意力模块和前向激活层之前的LayerNorm层。

3.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法，其特征在于，步骤S2具体包括如下子步骤：

S23、根据步骤S22中像素重叠比的大小进行划分，将像素重叠比大于等于阈值的特征图组成得到预测前景显著图；将像素重叠比小于阈值的特征图划分为背景显著图，将背景显著图与背景特征图组合成预测背景显著图；将预测前景显著图和预测背景显著图相加组合成预测显著图；

4.一种基于梯度和区域亲和力优化的弱监督语义分割装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-3任一项所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。

5.一种计算机可读存储介质，其特征在于：其上存储有程序，该程序被处理器执行时，实现权利要求1-3任一项所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。