CN113222998A

CN113222998A - 基于自监督低秩网络的半监督图像语义分割方法及装置

Info

Publication number: CN113222998A
Application number: CN202110396330.7A
Authority: CN
Inventors: 朱鹏飞; 潘俊文; 徐玮毅; 王汉石; 赵帅; 胡清华
Original assignee: Tianjin University; Automotive Data of China Tianjin Co Ltd
Current assignee: Tianjin University; Automotive Data of China Tianjin Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-08-06
Anticipated expiration: 2041-04-13
Also published as: CN113222998B

Abstract

本发明公开了一种基于自监督低秩网络的半监督图像语义分割方法及装置，方法包括：构建自监督低秩网络，将来自两个分支的掩码分别进行逆几何变换，利用优化模块产生伪掩码输入到LR低秩模块；在每次迭代中，通过softmax归一化注意力和温度系数来计算赋值矩阵P；通过聚合输入特征X来更新最优基μ，获取类别为C的softmax规范化的类激活图A和深特征X₁后，通过加权平均值计算第k个初始化基；在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督，对LR低秩模块的输出结果进行解码和优化，根据损失对自监督低秩网络进行更新。装置包括：构建模块、优化模块、LR低秩模块、更新模块、预测模块、监督模块、输出模块。

Description

基于自监督低秩网络的半监督图像语义分割方法及装置

技术领域

本发明涉及图像语义分割领域，尤其涉及一种基于自监督低秩网络的半监督图像语义分割方法及装置。

背景技术

最近，基于深度学习的语义分割模型通过大规模像素级标签训练，取得了重大进展。然而，这种有监督的方法需要大量的人工标注，这既耗时又昂贵。为了减少标注像素级标签的工作量，大量研究开发了具有低成本标注的弱监督语义分割方法(WSSS)，例如：边界框、涂鸦、点和图像级标签。

大多数流行的图像级WSSS方法都需要经过多个训练和优化阶段来获得更精确的伪标签。这些方法通常从弱监督定位开始，例如：类激活图(CAM)，它突出了图像中最具辨别力的区域。多样化的增强CAM生成网络和CAM优化程序旨在将突出显示区域扩展到整个对象或消除误差的突出显示区域。虽然这些多阶段方法可以产生更精确的伪标签，但它们存在着大量的超参数和复杂的训练过程。相比之下，单阶段WSSS方法由于分割精度较低而受到较少关注。

最近，现有技术中又提出了一个简单的单级WSSS模型，该模型在线生成像素级伪标签作为自监督。然而，它的性能仍然不如比较先进的多级模型。单级模型性能不佳的原因是：在线不准确伪标签监督导致的误差复合效应。

与多级优化相比，在线自训练有望在训练过程中逐步提高语义的保真度和完整性。然而，这也增加了误差被模仿和累积的风险，并且会出现梯度流从顶层反向传播到下层的现象。

发明内容

本发明提供了一种基于自监督低秩网络的半监督图像语义分割方法及装置，本发明克服了由自监督错误引起的符合效应，在复杂性和准确性方面均优于当前的单极和多级WSSS方法(弱监督语义分割方法)，详见下文描述：

第一方面，一种基于自监督低秩网络的半监督图像语义分割方法，所述方法包括：

构建自监督低秩网络，将来自两个分支的掩码分别进行逆几何变换，利用优化模块产生伪掩码输入到LR低秩模块；

输入N个特征X与K个初始化基μ，采用迭代注意机制寻找一组最优基μ和赋值矩阵P，在每次迭代中，通过softmax归一化注意力和温度系数来计算赋值矩阵P；

通过聚合输入特征X来更新最优基μ，在V次迭代之后，收敛的赋值矩阵P和最新的最优基用于重建输入特征X；

添加了由两个卷积层组成的辅助解码器来预测粗类激活图，获取类别为C的softmax 规范化的类激活图A和深特征X₁后，通过加权平均值计算第k个初始化基；

在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督，对LR 低秩模块的输出结果进行解码和优化，根据损失对自监督低秩网络进行更新。

在一种实现方式中，所述自监督低秩网络为：将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构；

将来自某一图像的两个增强视图作为输入，编码器网络处理视图并生成特征映射，该特征映射作为LR低秩模块的输入，重新估计特征映射后，将具有LR特性的特征分别反馈给解码器网络，来预测掩码。

第二方面，一种基于自监督低秩网络的半监督图像语义分割装置，所述装置包括：

构建模块，用于构建自监督低秩网络；

优化模块，用于将来自两个分支的掩码分别进行逆几何变换，产生伪掩码；

LR低秩模块，用于接收伪掩码，且输入N个特征X与K个初始化基μ，采用迭代注意机制寻找一组最优基μ和赋值矩阵P，在每次迭代中，通过softmax归一化注意力和温度系数来计算赋值矩阵P；

更新模块，用于通过聚合输入特征X来更新最优基μ，在V次迭代之后，收敛的赋值矩阵P和最新的最优基用于重建输入特征X；

预测模块，用于添加了由两个卷积层组成的辅助解码器来预测粗类激活图，获取类别为C的softmax规范化的类激活图A和深特征X₁后，通过加权平均值计算第k个初始化基；

监督模块，用于在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督；

输出模块，用于对LR低秩模块的输出结果进行解码和优化，根据损失对自监督低秩网络进行更新。

第三方面，一种基于自监督低秩网络的半监督图像语义分割装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面的任一项所述的方法步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明提出了一个交叉视图自我监督框架，通过各种增强视图的补充信息，以缓解单级WSSS模型自监督误差导致的复合效应，增强预测的一致性；

2、本发明提出了一个即插即用的LR(低秩)表示学习模块，通过在线共聚类在特征空间上找到一组紧凑的共享基，并利用共享基得到重构的表示；通过最优基，可以细化和放大来自不同视图地相关特征，以解决模糊性或错误预测问题，可以很容易地嵌入到任何孪生神经网络中进行端到端的训练；

3、本发明建立了一种特定的基初始化方式，利用CAMs(类激活图)聚合最具代表性的特征，来收集初始基；

4、在PASCALVOC 2012数据集(本领域技术人员所公知)上的实验表明，本发明设计的SLRNet(自监督低秩网络)显著优于单级和多级方法，为具有图像级标签的半监督语义分割(WSSS)任务提出了一种新的技术。

附图说明

图1为整体网络结构示意图；

其中，(a)为SLRNet(自监督低秩网络)结构；(b)为LR(低秩)模块结构。

图2为基于自监督低秩网络的半监督图像语义分割的流程图；

图3为基初始化过程示意图；

图4为在Pascal VOC数据集上的WSSS定性结果示意图；

其中，(a)为不同交叉视图监督强度下的性能变化；(b)为不同低秩模块迭代次数下的性能变化。

图5为Pascal Voc验证集上的定性结果；

其中，(a)为基准数据；(b)为SLRNet(自监督低秩网络)模型的结果；(c)为使用CRF(条件随机场)的模型运行结果。

图6为一种基于自监督低秩网络的半监督图像语义分割装置的结构示意图；

图7为一种基于自监督低秩网络的半监督图像语义分割装置的另一结构示意图。

具体实施方式

表1为不同数据增广组合的效果评价；

表2为伪标签在Pascal VOC数据集上的质量对比；

表3为在Pascal VOC数据集上的WSSS结果比较。

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

第一方面，本发明实施例提供了一种基于自监督低秩网络的半监督图像语义分割方法，参见图1-图3，该方法包括以下步骤：

1、确定数据集

为了评估SLRNet网络的有效性，在Pascal VOC 2012数据集上进行了广泛的实验，这是一个广泛使用的WSSS评价基准。此外通过添加标注来构建增强的训练集。数据集中共有10582张图像用于训练，1449张图像用于验证。

2、交叉视图监督框架

在确定数据集后，使用了交叉视图监督框架SLRNet进行训练。SLRNet使用在线生成的像素级伪标签作为自监督，基于在线自学习的方案有望逐步提高语义的保真度和完备性。 SLRNet将已建立的编码器(Enc)-解码器(Dec)分段网络扩展为共享权重的孪生神经网络结构。SLRNet将来自图像I的两个增强视图I₁和I₂作为输入。编码器网络(Enc)处理这些视图并生成特征映射

和

其中，N₁＝H₁×W₁，N₂＝H₂×W₂， D为通道数，H₁为I₁的高度，W₁为I₁的宽度，H₂为I₂的高度，W₂为I₂的宽度，

为实数域。编码器产生的特征映射作为LR低秩模块的输入，重新估计特征映射后，将具有LR 特性的特征分别反馈给SLRNet的解码器(Dec)，来预测分割掩码M₁和M₂。

SLRNet网络根据LR模块的输出特征，使用多视图掩码优化技术来产生更准确的伪标签。下面详细介绍该技术以及核心模块LR低秩模块：

一、多视图掩码优化：

为了产生更精确的伪标签，提出了多视图掩码优化的解决方法。如图2(左)所示，掩码优化模块

使用两个视图的输出的掩码来生成伪标签。本发明实施例将这两个视图的逆几何变换表示为

和

来自两个分支的掩码M₁和M₂分别通过

和

变换，然后利用优化模块

产生伪掩码

(即改进后的掩码)：

其中，

分别为两个视图的几何变换，T为逆变换，

为掩码M₁通过视图I₁的逆几何变换，

为掩码M₂通过视图I₂的逆几何变换。

由于经典的优化算法，如dense CRF(全连接条件随机场)，会减慢训练过程，采用了像素自适应的掩码优化算法，利用卷积来优化粗糙掩码的外观亲和力。多视图掩码修正产生的伪标签利用了两个视图的互补信息。

伪掩码

进一步用于自监督训练，隐式地增强了不同视图预测之间的一致性。为了实现交叉视图监督，本发明实施例还设计了如下交叉视图掩码正则化：

其中，d是计算出的两个输出掩码的相异度，

为掩码损失函数。先对掩码正则化处理，再求取伪掩码

二、LR低秩模块

LR低秩模块是SLRNet的核心区域。LR低秩模块的本质在于去除特征变化的噪声，减少对自监督误差的过度拟合。LR低秩模块采用交替共聚类优化方法，可以作为EM(期望最大值)算法的一个实例。

如图2(右)所示，给定N个输入特征，D为通道数，

与 K个初始化基，

X为输入特征，x_N为第N个输入特征，μ为初始化基，μ_k为第K个初始化基，K和N的取值范围为正整数，根据实际应用中的需要进行设定。T为转置。

LR低秩模块采用迭代注意机制来寻找一组最优基μ和赋值矩阵P，

P_n,k对应于x_n到μ_k的赋值，x_n为第n个特征。在每次迭代中，相似性运算通过softmax归一化注意力和温度系数τ计算赋值矩阵P。

P_n,k的计算公式为：

其中，K_n,k为第n个特征和第k个初始化基之间的相似性，K_n,j为第n个特征和第j个初始化基之间的相似性，τ为温度系数，j为第j个初始化基的序号，k为第k个初始化基的序号。

然后通过聚合输入特征X来更新初始化基μ，其中第k个初始化基(μ_k)的更新公式为：

其中，ω_n,k为x_n到μ_k的赋值权重，P_n,k为x_n到μ_k的赋值，P_m,k为x_m到μ_k的赋值。

注意，如果设置τ→0，那么[P_n,1,...P_n,k]将成为一个独热编码(one-hotencoding)，整个过程将类似于K-均值聚类。LR低秩模块交替使用上述公式(3)和公式(4)。在V次迭代之后，收敛的P和μ被用来重建输入特征X。

将重构的特征表示为

其中

的计算公式为：

其中，

为第n个重构特征。

重构特征具有LR性质，因为它是由一组紧凑的基构成的。

三、基初始化

与现有的基于EM的聚类算法类似，在搭建的SLRNet中，LR低秩模块的基初始化是关键的。CAMs提供了最具代表性的区域，因此使用CAMs来聚合最具代表性的特征作为初始化基。

如图3所示，添加了由两个卷积层组成的辅助解码器来预测粗CAMs。在得到类别为C 的softmax规范化的CAM(类激活图)

和深特征

后，通过加权平均值计算第k个初始化基

其中，A为特征图，N₁为总特征数，

为第N₁个特征，A_n,k为第n个特征在第k个初始化基上的权重，X_n为第N个深特征，A_m,k为第m个特征在第k个初始化基上的权重，init 为初始化(无数值意义)。

注意，为了简洁起见，利用第一个变换视图的特征来聚合初始化基，并在两个视图之间共享初始化基

公式(6)里的k代表C的类别号。

四、详细模块设计

LR低秩模块基于迭代注意机制，可以与CNN(卷积神经网络)结合进行端到端训练。使用可学习线性变换将输入和初始化基映射到公共空间，使用另一个线性变换将LR低秩模块的输出映射到输入空间。此外，采用残差连接产生LR增强表示。

1、半监督图像级损失：解码器分别为两个视图(即softmax归一化前的特征)生成类

感知激活图

和

C为类别号。然后，应用标准化的全局加权池和焦点掩码惩罚[Araslanov andRoth,2020]¹来获得类评分的参数估计值

和

最后，使用多标签软边际损失(MLSM)作为分类损失：

其中，

为图像分类损失函数，y为类评分。获取参数估计值

和

的步骤为上述参考文献[1]中的公知方法，本发明实施例在此不做赘述。

2、自监督像素级损失：

如上所述，多视图优化掩码

可以提供更完整和准确的目标估计。根据先前的研究成果，使用像素级交叉熵(CE)作为自监督的分割损失：

其中，

为自监督分割损失，CE为像素级交叉熵，M₁和M₂是对应于不同变换视图的分割掩码。交叉视图掩码正则化

显著增强了两个掩码预测之间的一致性。

此外，本发明实施例还为LR低秩模块引入了另一种交叉视图正则化，以加强两个视图的赋值P₁和P₂之间的一致性。

最终的交叉视图正则化损失定义为：

其中，

为交叉视图正则化损失函数，

为赋值矩阵损失函数，

为赋值矩阵P₁通过视图I₁的逆几何变换，

为赋值矩阵P₂通过视图I₂的逆几何变换，P₁和P₂是两个视图的赋值矩阵。相异度d使用

范数损失函数计算。

此外，在基初始化过程中使用到的辅助解码器由分类损失和伪掩码分割损失进行监督。

最后，计算了SLRNet的总损失，其中λ_seg、λ_reg和λ_aux是控制不同损耗比例的超参数。

其中，

为SLRNet的总损失，

为分类损失，

为辅助解码器的损失。

训练结束后，输入原始图像，将经过变换增强后的图像输入到LR低秩模块中，对LR低秩模块的输出结果进行解码和优化后，根据损失对SLRNet网络进行更新。

实施例1

为了评估SLRNet的有效性，在Pascal VOC 2012数据集上进行了广泛的实验，这是一个广泛使用的WSSS评价基准。此外通过添加标注来构建增强的训练集。数据集中共有10582张图像用于训练，1449张图像用于验证。

一、模型的选取和使用

1、交叉视图自监督框架

提出了一个交叉视图自监督框架，并通过结合LR低秩模块，有效缓解了由单级WSSS 模型自监督误差引起的复合效应。SLRNet同时为一幅图像的多个增强视图预测多个分割模板，然后合并生成精确的伪标签，作为交叉视图的自监督。交叉视图的监督有助于利用来自各种增强视图的补充信息，以加强预测的一致性。

2、低秩网络

LR低秩模块的本质在于去除特征变化的噪声，减少对自监督误差的过度拟合。LR低秩模块采用交替共聚类优化方法，可以作为EM算法的一个实例。提出了一个即插即用的LR表示学习模块，基于其有效的基初始化方式，可以很容易地嵌入到任何Siamese网络中进行端到端的训练。

为了缓解自监督误差引起的复合效应，SLRNet引入了低秩(LR)模型，通过在线共聚类在特征空间上找到一组紧凑的共享基础，并以此得到重构的表示。从而使得解码器的输入特征抑制了噪声信息，这可以有效地防止网络对伪标签的过度拟合。通过共享基础，可以优化和放大来自不同视图的相关特征，以解决模糊性或误差预测问题。此外，还建立了一种特定的基初始化方式，利用CAMs来收集初始基。大量实验表明，交叉视图监控和 LR模块有助于提高语义的保真度和完整性。

二、模型训练

1、交叉视图自监督框架

SLRNet使用在线生成的像素级伪标签作为自监督。在线自学习方案有望逐步提高语义的保真度和完备性。然而，随着网络变得越来越深，误差可能被模仿和累积，梯度流从顶层反向传播到下层。

2、多视角掩码优化

为了产生更精确的伪标签，提出了多视图掩码优化的解决方法。如图2(左)所示，优化模块

使用两个视图的输出来生成伪标签。将这两个视图的逆几何变换表示为

和

来自两个分支的掩码M₁和M₂分别通过

和

变换，然后利用优化模块

产生伪掩码

上述公式(1)。

由于经典的优化算法，如dense CRF，会减慢训练过程，采用了像素自适应的掩码优化算法，利用卷积来优化粗糙掩码的外观亲和力。多视图掩码修正产生的伪标签利用了两个视图的互补信息。改进后的掩码进一步用于自监督训练，隐式地增强了不同视图预测之间的一致性。为了明确实现交叉视图监督，还设计了如下交叉视图掩码正则化上述公式(2)。

2、损失函数：

1)半监督图像级损失函数：

解码器分别为两个视图(即softmax归一化前的特征)生成类感知激活映射

和

然后，应用标准化的全局加权池和焦点掩码惩罚来获得类评分

和

最后，使用多标签软边际损失(MLSM)作为分类损失，参见上述公式(7)。

2)自监督像素级损失函数：

如上所述，多视图优化掩码

可以提供更完整和准确的目标估计。根据先前的研究成果，

使用像素级交叉熵(CE)作为自监督的分割损失，参见上述公式(8)。

此外，还为LR模引入了另一种交叉视图正则化，以加强两个视图的赋值π₁和π₂之间的一致性。最终的交叉视图正则化损失，参见上述公式(9)。

此外，辅助解码器由分类损失和伪掩码分割损失监督。为了简单起见，只在第一个分支上使用辅助解码器，而不对其应用正则化损失。最后，计算了SLRNet的总损失，参见上述公式(10)。

二、模型的使用细节(训练与测试)

训练：为了公平比较，使用了一个预先训练好的WideResNet-38和Atrous SpatialPyramid Pooling(ASPP)来构成编码器。解码器由3个卷积层和随机深度网络组成。用SGD(随机梯度下降)优化器训练了对模型训练了20个迭代周期，使用权重衰减值为5×10^-4。随机初始化参数的学习率为5×10^-3，预训练参数的学习率为5×10^-4。温度系数τ设为||μ_k||₂。在前5次迭代中，损失函数的因子设置为λ_seg＝0、λ_reg＝4和λ_aux＝0.4，随后这些的默认值取λ_seg＝1、λ_reg＝4和λ_aux＝0.4为默认值。

实施例2

为了验证方法的优越性，验证各模块的有效性，本发明实施例进行了大量消融实验，详见下文描述：

为了理解个体数据增强对弱监督分割的影响，考虑了几种几何和外观增强方式。此外，更关注可逆和可微的几何变换，如缩放和翻转等。

首先，将图像的随机裁剪为321×321的尺寸大小。然后，将目标转换应用于不同的分支。研究了三种变换的组成：固定速率的重缩放、随机水平翻转和随机颜色失真(如亮度、对比度、饱和度和色调)。在监督设置下，较强的颜色失真不能改善甚至损害性能。因此，针对亮度、对比度和饱和度，将颜色失真的最大强度设置为0.3，将色调分量设置为0.1。

表3给出了不同变换组合下Pascal-VOC-val集的计算结果。从表中观察到，三种不同的增广组合的性能最好(64.07％)。在使用更多的增广内容时，交叉视图监督将拥有更好的效果。还注意到，与其他增广方式相比，重缩放有明显更好的效果改进。在不重缩放的情况下，mIoU(平均交并比，语义分割评估指标)会出现显著下降(2.54％)。相反，对不同的视图使用相同的颜色失真和翻转会导致轻微的mIoU下降(0.08％)。与单视图相比，不同颜色失真和翻转的组合只获得了较小的改善(0.65％)。此外，值得指出的是，尽管添加更多的视图具有更高的复杂性，但这并不能提高WSSS的性能，这表明简单的多尺度训练不能提高WSSS的性能，但是交叉视图监控和LR表示会显著提升语义分割效果。实验结果见表1所示：

表1

为了演示SLRNet的改进方向，分别用平均错误发现率(mFDR)和平均错误否定率(mFNR)来表示语义的保真度和完备性。

其中，TP_c，FP_c和FN_c分别表示预测类别c的真阳性、假阳性、假阴性的数量。交叉视图监督旨在缓解自训练过程中误差引起的复合效应。通过调整损失系数λ_reg来控制交叉视图监督的力度，以验证交叉视图监督的作用。

如图4(左)所示，观察到交叉视图监督主要通过减少mFDR来提高分割质量，即防止自监督中的假阳性累积以提高语义保真度。在实验中，当λ_reg＝4时，会取得改进效果的最大化。值得注意的是，更高的交叉视图监督强度增加了mFNR。此外，还注意到，在没有

的情况下，多视图模型的mIoU(60.73％)甚至不如单视图(60.88％)好，这表明适当的交叉视图监督强度比多视图训练更重要。

为了研究LR低秩模块的效果，在不同的迭代次数T下进行了实验，设计了LR低秩模块来消除特征变化，减少对自监督误差的过拟合。如图4(右)所示，观察到LR低秩模块主要通过减少mFNR来提高分割质量，即提高语义完整性。没有LR低秩模块(T＝0)， mIoU会显著下降(2.58％)。LR低秩模块在捕获和传播来自不同视图的准确、稳定的语义的同时，抑制了输入特征的噪声，从而提高了完整性。值得注意的是，由于特殊的初始化方式，更多的迭代并不能提高性能。随着训练(外循环)的进行，交替优化(内循环)可以更快地收敛。

随后，分别对伪掩码质量和语义分割效果进行检验。首先评估自监督质量，将伪掩码质量与以前的技术水平进行了比较。与改进的CAM生成方法、多级CAM优化方法和单级CAM优化方法相比，本方法具有更好的性能。对比的模型包括CAM、SCE、SEAM、 CAM+RW、SCE+RW、1-stage等。实验结果见表2：

表2

此外，为了评估提出的模型的语义分割效果，将本方法与其他baseline模型进行了比较。在图5中，展示了图像语义分割的定性结果。

同时，在表3中将SLRNet与各种领先的单级和多级WSSS方法进行了比较。其中，单级SLRNet在训练集(67.2％)和测试集(67.6％)上的性能最好。与MCIS相比，SLRNet 在测试集上提高了1.0％。与SEAM+CONTA相比，SLRNet实现了1.1％的mIoU改进。

表3

注意，没有显著性检测的多阶段方法至少经过了三级训练，以显著增加模型复杂度为代价提高了性能。SLRNet通过简单的交叉视图监督和轻量级LR模块得到的语义分割结果显著优于以前的单级模型。

第二方面，本发明实施例提供了一种基于自监督低秩网络的半监督图像语义分割装置，参见图6，该装置包括：

构建模块1，用于构建自监督低秩网络；

优化模块2，用于将来自两个分支的掩码分别进行逆几何变换，产生伪掩码；

LR低秩模块3，用于接收伪掩码，且输入N个特征X与K个初始化基，采用迭代注意机制寻找一组最优基μ和赋值矩阵P，在每次迭代中，通过softmax归一化注意力和温度系数来计算赋值矩阵P；

更新模块4，用于通过聚合输入特征X来更新最优基μ，在V次迭代之后，收敛的赋值矩阵P和最新的最优基用于重建输入特征X；

预测模块5，用于添加了由两个卷积层组成的辅助解码器来预测粗类激活图，获取类别为C的softmax规范化的类激活图A和深特征X₁后，通过加权平均值计算第k个初始化基；

监督模块6，用于在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督；

输出模块7，用于对LR低秩模块的输出结果进行解码和优化，根据损失对自监督低秩网络进行更新。

其中，该构建模块1包括：

扩展子模块，用于将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构；

预测子模块，用于将来自某一图像的两个增强视图作为输入，编码器网络处理视图并生成特征映射，该特征映射作为LR低秩模块的输入，重新估计特征映射后，将具有LR特性的特征分别反馈给解码器网络，来预测掩码。

这里需要指出的是，以上实施例中的装置描述是与上述方法实施例描述相对应的，本发明实施例在此不做赘述。

上述各个模块、单元的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

基于同一发明构思，本发明实施例还提供了一种基于自监督低秩网络的半监督图像语义分割装置，参见图7，该装置包括：处理器8和存储器9，存储器9中存储有程序指令，处理器8调用存储器9中存储的程序指令以使装置执行实施例中的以下方法步骤：

在一种实现方式中，该自监督低秩网络为：将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构；

在一种实现方式中，该方法还包括：对两个分支的掩码分别进行交叉视图掩码正则化处理。

在一种实现方式中，该方法还包括：对LR低秩模块引入交叉视图正则化，用于加强两个视图的赋值矩阵之间的一致性。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器8和存储器9的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器9和处理器8之间通过总线10传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

参考文献

[1]NikitaAraslanov and Stefan Roth.Single-stage semantic segmentationfrom image labels.In CVPR,pages 4252–4261,2020.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自监督低秩网络的半监督图像语义分割方法，其特征在于，所述方法包括：

输入N个特征X与K个初始化基，采用迭代注意机制寻找一组最优基μ和赋值矩阵P，在每次迭代中，通过softmx归一化注意力和温度系数来计算赋值矩阵P；

添加了由两个卷积层组成的辅助解码器来预测粗类激活图，获取类别为C的softmax规范化的类激活图A和深特征X₁后，通过加权平均值计算第k个初始化基；

在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督，对LR低秩模块的输出结果进行解码和优化，根据损失对自监督低秩网络进行更新。

2.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法，其特征在于，所述自监督低秩网络为：

将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构；

3.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法，其特征在于，所述方法包括：对两个分支的掩码分别进行交叉视图掩码正则化处理。

4.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法，其特征在于，所述伪掩码为：

其中，

分别为两个视图的几何变换，T为逆变换，

为掩码M₁通过视图I₁的逆几何变换，

为掩码M₂通过视图I₂的逆几何变换。

5.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法，其特征在于，所述通过聚合输入特征X来更新最优基μ具体为：

其中，ω_n，k为x_n到μ_k的赋值权重，P_n，k为x_n到μ_k的赋值，P_m，k为x_m到μ_k的赋值。

6.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法，其特征在于，所述方法还包括：对所述LR低秩模块引入交叉视图正则化，用于加强两个视图的赋值矩阵之间的一致性。

7.一种基于自监督低秩网络的半监督图像语义分割装置，其特征在于，所述装置包括：

构建模块，用于构建自监督低秩网络；

LR低秩模块，用于接收伪掩码，且输入N个特征X与K个初始化基，采用迭代注意机制寻找一组最优基μ和赋值矩阵P，在每次迭代中，通过softmax归一化注意力和温度系数来计算赋值矩阵P；

8.根据权利要求7所述的一种基于自监督低秩网络的半监督图像语义分割装置，其特征在于，所述构建模块包括：

9.一种基于自监督低秩网络的半监督图像语义分割装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。