CN113222998A - 基于自监督低秩网络的半监督图像语义分割方法及装置 - Google Patents

基于自监督低秩网络的半监督图像语义分割方法及装置 Download PDF

Info

Publication number
CN113222998A
CN113222998A CN202110396330.7A CN202110396330A CN113222998A CN 113222998 A CN113222998 A CN 113222998A CN 202110396330 A CN202110396330 A CN 202110396330A CN 113222998 A CN113222998 A CN 113222998A
Authority
CN
China
Prior art keywords
module
low
rank
supervised
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110396330.7A
Other languages
English (en)
Other versions
CN113222998B (zh
Inventor
朱鹏飞
潘俊文
徐玮毅
王汉石
赵帅
胡清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Automotive Data of China Tianjin Co Ltd
Original Assignee
Tianjin University
Automotive Data of China Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, Automotive Data of China Tianjin Co Ltd filed Critical Tianjin University
Priority to CN202110396330.7A priority Critical patent/CN113222998B/zh
Publication of CN113222998A publication Critical patent/CN113222998A/zh
Application granted granted Critical
Publication of CN113222998B publication Critical patent/CN113222998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Abstract

本发明公开了一种基于自监督低秩网络的半监督图像语义分割方法及装置,方法包括:构建自监督低秩网络,将来自两个分支的掩码分别进行逆几何变换,利用优化模块产生伪掩码输入到LR低秩模块;在每次迭代中,通过softmax归一化注意力和温度系数来计算赋值矩阵P;通过聚合输入特征X来更新最优基μ,获取类别为C的softmax规范化的类激活图A和深特征X1后,通过加权平均值计算第k个初始化基;在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督,对LR低秩模块的输出结果进行解码和优化,根据损失对自监督低秩网络进行更新。装置包括:构建模块、优化模块、LR低秩模块、更新模块、预测模块、监督模块、输出模块。

Description

基于自监督低秩网络的半监督图像语义分割方法及装置
技术领域
本发明涉及图像语义分割领域,尤其涉及一种基于自监督低秩网络的半监督图像语义分割方法及装置。
背景技术
最近,基于深度学习的语义分割模型通过大规模像素级标签训练,取得了重大进展。然而,这种有监督的方法需要大量的人工标注,这既耗时又昂贵。为了减少标注像素级标签的工作量,大量研究开发了具有低成本标注的弱监督语义分割方法(WSSS),例如:边界框、涂鸦、点和图像级标签。
大多数流行的图像级WSSS方法都需要经过多个训练和优化阶段来获得更精确的伪标签。这些方法通常从弱监督定位开始,例如:类激活图(CAM),它突出了图像中最具辨别力的区域。多样化的增强CAM生成网络和CAM优化程序旨在将突出显示区域扩展到整个对象或消除误差的突出显示区域。虽然这些多阶段方法可以产生更精确的伪标签,但它们存在着大量的超参数和复杂的训练过程。相比之下,单阶段WSSS方法由于分割精度较低而受到较少关注。
最近,现有技术中又提出了一个简单的单级WSSS模型,该模型在线生成像素级伪标签作为自监督。然而,它的性能仍然不如比较先进的多级模型。单级模型性能不佳的原因是:在线不准确伪标签监督导致的误差复合效应。
与多级优化相比,在线自训练有望在训练过程中逐步提高语义的保真度和完整性。然而,这也增加了误差被模仿和累积的风险,并且会出现梯度流从顶层反向传播到下层的现象。
发明内容
本发明提供了一种基于自监督低秩网络的半监督图像语义分割方法及装置,本发明克服了由自监督错误引起的符合效应,在复杂性和准确性方面均优于当前的单极和多级WSSS方法(弱监督语义分割方法),详见下文描述:
第一方面,一种基于自监督低秩网络的半监督图像语义分割方法,所述方法包括:
构建自监督低秩网络,将来自两个分支的掩码分别进行逆几何变换,利用优化模块产生伪掩码输入到LR低秩模块;
输入N个特征X与K个初始化基μ,采用迭代注意机制寻找一组最优基μ和赋值矩阵P,在每次迭代中,通过softmax归一化注意力和温度系数来计算赋值矩阵P;
通过聚合输入特征X来更新最优基μ,在V次迭代之后,收敛的赋值矩阵P和最新的最优基用于重建输入特征X;
添加了由两个卷积层组成的辅助解码器来预测粗类激活图,获取类别为C的softmax 规范化的类激活图A和深特征X1后,通过加权平均值计算第k个初始化基;
在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督,对LR 低秩模块的输出结果进行解码和优化,根据损失对自监督低秩网络进行更新。
在一种实现方式中,所述自监督低秩网络为:将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构;
将来自某一图像的两个增强视图作为输入,编码器网络处理视图并生成特征映射,该特征映射作为LR低秩模块的输入,重新估计特征映射后,将具有LR特性的特征分别反馈给解码器网络,来预测掩码。
第二方面,一种基于自监督低秩网络的半监督图像语义分割装置,所述装置包括:
构建模块,用于构建自监督低秩网络;
优化模块,用于将来自两个分支的掩码分别进行逆几何变换,产生伪掩码;
LR低秩模块,用于接收伪掩码,且输入N个特征X与K个初始化基μ,采用迭代注意机制寻找一组最优基μ和赋值矩阵P,在每次迭代中,通过softmax归一化注意力和温度系数来计算赋值矩阵P;
更新模块,用于通过聚合输入特征X来更新最优基μ,在V次迭代之后,收敛的赋值矩阵P和最新的最优基用于重建输入特征X;
预测模块,用于添加了由两个卷积层组成的辅助解码器来预测粗类激活图,获取类别为C的softmax规范化的类激活图A和深特征X1后,通过加权平均值计算第k个初始化基;
监督模块,用于在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督;
输出模块,用于对LR低秩模块的输出结果进行解码和优化,根据损失对自监督低秩网络进行更新。
第三方面,一种基于自监督低秩网络的半监督图像语义分割装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面的任一项所述的方法步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明提出了一个交叉视图自我监督框架,通过各种增强视图的补充信息,以缓解单级WSSS模型自监督误差导致的复合效应,增强预测的一致性;
2、本发明提出了一个即插即用的LR(低秩)表示学习模块,通过在线共聚类在特征空间上找到一组紧凑的共享基,并利用共享基得到重构的表示;通过最优基,可以细化和放大来自不同视图地相关特征,以解决模糊性或错误预测问题,可以很容易地嵌入到任何孪生神经网络中进行端到端的训练;
3、本发明建立了一种特定的基初始化方式,利用CAMs(类激活图)聚合最具代表性的特征,来收集初始基;
4、在PASCALVOC 2012数据集(本领域技术人员所公知)上的实验表明,本发明设计的SLRNet(自监督低秩网络)显著优于单级和多级方法,为具有图像级标签的半监督语义分割(WSSS)任务提出了一种新的技术。
附图说明
图1为整体网络结构示意图;
其中,(a)为SLRNet(自监督低秩网络)结构;(b)为LR(低秩)模块结构。
图2为基于自监督低秩网络的半监督图像语义分割的流程图;
图3为基初始化过程示意图;
图4为在Pascal VOC数据集上的WSSS定性结果示意图;
其中,(a)为不同交叉视图监督强度下的性能变化;(b)为不同低秩模块迭代次数下的性能变化。
图5为Pascal Voc验证集上的定性结果;
其中,(a)为基准数据;(b)为SLRNet(自监督低秩网络)模型的结果;(c)为使用CRF(条件随机场)的模型运行结果。
图6为一种基于自监督低秩网络的半监督图像语义分割装置的结构示意图;
图7为一种基于自监督低秩网络的半监督图像语义分割装置的另一结构示意图。
具体实施方式
表1为不同数据增广组合的效果评价;
表2为伪标签在Pascal VOC数据集上的质量对比;
表3为在Pascal VOC数据集上的WSSS结果比较。
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
第一方面,本发明实施例提供了一种基于自监督低秩网络的半监督图像语义分割方法,参见图1-图3,该方法包括以下步骤:
1、确定数据集
为了评估SLRNet网络的有效性,在Pascal VOC 2012数据集上进行了广泛的实验,这是一个广泛使用的WSSS评价基准。此外通过添加标注来构建增强的训练集。数据集中共有10582张图像用于训练,1449张图像用于验证。
2、交叉视图监督框架
在确定数据集后,使用了交叉视图监督框架SLRNet进行训练。SLRNet使用在线生成的像素级伪标签作为自监督,基于在线自学习的方案有望逐步提高语义的保真度和完备性。 SLRNet将已建立的编码器(Enc)-解码器(Dec)分段网络扩展为共享权重的孪生神经网络结构。SLRNet将来自图像I的两个增强视图I1和I2作为输入。编码器网络(Enc)处理这些视图并生成特征映射
Figure BDA0003018721270000041
Figure BDA0003018721270000042
其中,N1=H1×W1,N2=H2×W2, D为通道数,H1为I1的高度,W1为I1的宽度,H2为I2的高度,W2为I2的宽度,
Figure BDA0003018721270000043
为实数域。编码器产生的特征映射作为LR低秩模块的输入,重新估计特征映射后,将具有LR 特性的特征分别反馈给SLRNet的解码器(Dec),来预测分割掩码M1和M2
SLRNet网络根据LR模块的输出特征,使用多视图掩码优化技术来产生更准确的伪标签。下面详细介绍该技术以及核心模块LR低秩模块:
一、多视图掩码优化:
为了产生更精确的伪标签,提出了多视图掩码优化的解决方法。如图2(左)所示,掩码优化模块
Figure BDA0003018721270000051
使用两个视图的输出的掩码来生成伪标签。本发明实施例将这两个视图的逆几何变换表示为
Figure BDA0003018721270000052
Figure BDA0003018721270000053
来自两个分支的掩码M1和M2分别通过
Figure BDA0003018721270000054
Figure BDA0003018721270000055
变换,然后利用优化模块
Figure BDA0003018721270000056
产生伪掩码
Figure BDA0003018721270000057
(即改进后的掩码):
Figure BDA0003018721270000058
其中,
Figure BDA0003018721270000059
分别为两个视图的几何变换,T为逆变换,
Figure BDA00030187212700000510
为掩码M1通过视图I1的逆几何变换,
Figure BDA00030187212700000511
为掩码M2通过视图I2的逆几何变换。
由于经典的优化算法,如dense CRF(全连接条件随机场),会减慢训练过程,采用了像素自适应的掩码优化算法,利用卷积来优化粗糙掩码的外观亲和力。多视图掩码修正产生的伪标签利用了两个视图的互补信息。
伪掩码
Figure BDA00030187212700000512
进一步用于自监督训练,隐式地增强了不同视图预测之间的一致性。为了实现交叉视图监督,本发明实施例还设计了如下交叉视图掩码正则化:
Figure BDA00030187212700000513
其中,d是计算出的两个输出掩码的相异度,
Figure BDA00030187212700000514
为掩码损失函数。先对掩码正则化处理,再求取伪掩码
Figure BDA00030187212700000515
二、LR低秩模块
LR低秩模块是SLRNet的核心区域。LR低秩模块的本质在于去除特征变化的噪声,减少对自监督误差的过度拟合。LR低秩模块采用交替共聚类优化方法,可以作为EM(期望最大值)算法的一个实例。
如图2(右)所示,给定N个输入特征,D为通道数,
Figure BDA00030187212700000516
与 K个初始化基,
Figure BDA00030187212700000517
X为输入特征,xN为第N个输入特征,μ为初始化基,μk为第K个初始化基,K和N的取值范围为正整数,根据实际应用中的需要进行设定。T为转置。
LR低秩模块采用迭代注意机制来寻找一组最优基μ和赋值矩阵P,
Figure BDA00030187212700000518
Pn,k对应于xn到μk的赋值,xn为第n个特征。在每次迭代中,相似性运算通过softmax归一化注意力和温度系数τ计算赋值矩阵P。
Pn,k的计算公式为:
Figure BDA00030187212700000519
其中,Kn,k为第n个特征和第k个初始化基之间的相似性,Kn,j为第n个特征和第j个初始化基之间的相似性,τ为温度系数,j为第j个初始化基的序号,k为第k个初始化基的序号。
然后通过聚合输入特征X来更新初始化基μ,其中第k个初始化基(μk)的更新公式为:
Figure BDA0003018721270000061
其中,ωn,k为xn到μk的赋值权重,Pn,k为xn到μk的赋值,Pm,k为xm到μk的赋值。
注意,如果设置τ→0,那么[Pn,1,...Pn,k]将成为一个独热编码(one-hotencoding),整个过程将类似于K-均值聚类。LR低秩模块交替使用上述公式(3)和公式(4)。在V次迭代之后,收敛的P和μ被用来重建输入特征X。
将重构的特征表示为
Figure BDA0003018721270000062
其中
Figure BDA0003018721270000063
的计算公式为:
Figure BDA0003018721270000064
其中,
Figure BDA0003018721270000065
为第n个重构特征。
重构特征具有LR性质,因为它是由一组紧凑的基构成的。
三、基初始化
与现有的基于EM的聚类算法类似,在搭建的SLRNet中,LR低秩模块的基初始化是关键的。CAMs提供了最具代表性的区域,因此使用CAMs来聚合最具代表性的特征作为初始化基。
如图3所示,添加了由两个卷积层组成的辅助解码器来预测粗CAMs。在得到类别为C 的softmax规范化的CAM(类激活图)
Figure BDA0003018721270000066
和深特征
Figure BDA0003018721270000067
后,通过加权平均值计算第k个初始化基
Figure BDA0003018721270000068
Figure BDA0003018721270000069
其中,A为特征图,N1为总特征数,
Figure BDA00030187212700000611
为第N1个特征,An,k为第n个特征在第k个初始化基上的权重,Xn为第N个深特征,Am,k为第m个特征在第k个初始化基上的权重,init 为初始化(无数值意义)。
注意,为了简洁起见,利用第一个变换视图的特征来聚合初始化基,并在两个视图之间共享初始化基
Figure BDA00030187212700000610
公式(6)里的k代表C的类别号。
四、详细模块设计
LR低秩模块基于迭代注意机制,可以与CNN(卷积神经网络)结合进行端到端训练。使用可学习线性变换将输入和初始化基映射到公共空间,使用另一个线性变换将LR低秩模块的输出映射到输入空间。此外,采用残差连接产生LR增强表示。
1、半监督图像级损失:解码器分别为两个视图(即softmax归一化前的特征)生成类
感知激活图
Figure BDA0003018721270000071
Figure BDA0003018721270000072
C为类别号。然后,应用标准化的全局加权池和焦点掩码惩罚[Araslanov andRoth,2020]1来获得类评分的参数估计值
Figure BDA0003018721270000073
Figure BDA0003018721270000074
最后,使用多标签软边际损失(MLSM)作为分类损失:
Figure BDA0003018721270000075
其中,
Figure BDA0003018721270000076
为图像分类损失函数,y为类评分。获取参数估计值
Figure BDA0003018721270000077
Figure BDA0003018721270000078
的步骤为上述参考文献[1]中的公知方法,本发明实施例在此不做赘述。
2、自监督像素级损失:
如上所述,多视图优化掩码
Figure BDA0003018721270000079
可以提供更完整和准确的目标估计。根据先前的研究成果,使用像素级交叉熵(CE)作为自监督的分割损失:
Figure BDA00030187212700000710
其中,
Figure BDA00030187212700000711
为自监督分割损失,CE为像素级交叉熵,M1和M2是对应于不同变换视图的分割掩码。交叉视图掩码正则化
Figure BDA00030187212700000712
显著增强了两个掩码预测之间的一致性。
此外,本发明实施例还为LR低秩模块引入了另一种交叉视图正则化,以加强两个视图的赋值P1和P2之间的一致性。
最终的交叉视图正则化损失定义为:
Figure BDA00030187212700000713
其中,
Figure BDA00030187212700000714
为交叉视图正则化损失函数,
Figure BDA00030187212700000715
为赋值矩阵损失函数,
Figure BDA00030187212700000716
为赋值矩阵P1通过视图I1的逆几何变换,
Figure BDA00030187212700000717
为赋值矩阵P2通过视图I2的逆几何变换,P1和P2是两个视图的赋值矩阵。相异度d使用
Figure BDA00030187212700000718
范数损失函数计算。
此外,在基初始化过程中使用到的辅助解码器由分类损失和伪掩码分割损失进行监督。
最后,计算了SLRNet的总损失,其中λseg、λreg和λaux是控制不同损耗比例的超参数。
Figure BDA00030187212700000719
其中,
Figure BDA00030187212700000720
为SLRNet的总损失,
Figure BDA00030187212700000721
为分类损失,
Figure BDA00030187212700000722
为辅助解码器的损失。
训练结束后,输入原始图像,将经过变换增强后的图像输入到LR低秩模块中,对LR低秩模块的输出结果进行解码和优化后,根据损失对SLRNet网络进行更新。
实施例1
为了评估SLRNet的有效性,在Pascal VOC 2012数据集上进行了广泛的实验,这是一个广泛使用的WSSS评价基准。此外通过添加标注来构建增强的训练集。数据集中共有10582张图像用于训练,1449张图像用于验证。
一、模型的选取和使用
1、交叉视图自监督框架
提出了一个交叉视图自监督框架,并通过结合LR低秩模块,有效缓解了由单级WSSS 模型自监督误差引起的复合效应。SLRNet同时为一幅图像的多个增强视图预测多个分割模板,然后合并生成精确的伪标签,作为交叉视图的自监督。交叉视图的监督有助于利用来自各种增强视图的补充信息,以加强预测的一致性。
2、低秩网络
LR低秩模块的本质在于去除特征变化的噪声,减少对自监督误差的过度拟合。LR低秩模块采用交替共聚类优化方法,可以作为EM算法的一个实例。提出了一个即插即用的LR表示学习模块,基于其有效的基初始化方式,可以很容易地嵌入到任何Siamese网络中进行端到端的训练。
为了缓解自监督误差引起的复合效应,SLRNet引入了低秩(LR)模型,通过在线共聚类在特征空间上找到一组紧凑的共享基础,并以此得到重构的表示。从而使得解码器的输入特征抑制了噪声信息,这可以有效地防止网络对伪标签的过度拟合。通过共享基础,可以优化和放大来自不同视图的相关特征,以解决模糊性或误差预测问题。此外,还建立了一种特定的基初始化方式,利用CAMs来收集初始基。大量实验表明,交叉视图监控和 LR模块有助于提高语义的保真度和完整性。
二、模型训练
1、交叉视图自监督框架
SLRNet使用在线生成的像素级伪标签作为自监督。在线自学习方案有望逐步提高语义的保真度和完备性。然而,随着网络变得越来越深,误差可能被模仿和累积,梯度流从顶层反向传播到下层。
2、多视角掩码优化
为了产生更精确的伪标签,提出了多视图掩码优化的解决方法。如图2(左)所示,优化模块
Figure BDA0003018721270000091
使用两个视图的输出来生成伪标签。将这两个视图的逆几何变换表示为
Figure BDA0003018721270000092
Figure BDA0003018721270000093
来自两个分支的掩码M1和M2分别通过
Figure BDA0003018721270000094
Figure BDA0003018721270000095
变换,然后利用优化模块
Figure BDA0003018721270000096
产生伪掩码
Figure BDA0003018721270000097
上述公式(1)。
由于经典的优化算法,如dense CRF,会减慢训练过程,采用了像素自适应的掩码优化算法,利用卷积来优化粗糙掩码的外观亲和力。多视图掩码修正产生的伪标签利用了两个视图的互补信息。改进后的掩码进一步用于自监督训练,隐式地增强了不同视图预测之间的一致性。为了明确实现交叉视图监督,还设计了如下交叉视图掩码正则化上述公式(2)。
2、损失函数:
1)半监督图像级损失函数:
解码器分别为两个视图(即softmax归一化前的特征)生成类感知激活映射
Figure BDA0003018721270000098
Figure BDA0003018721270000099
Figure BDA00030187212700000910
然后,应用标准化的全局加权池和焦点掩码惩罚来获得类评分
Figure BDA00030187212700000911
Figure BDA00030187212700000912
最后,使用多标签软边际损失(MLSM)作为分类损失,参见上述公式(7)。
2)自监督像素级损失函数:
如上所述,多视图优化掩码
Figure BDA00030187212700000913
可以提供更完整和准确的目标估计。根据先前的研究成果,
使用像素级交叉熵(CE)作为自监督的分割损失,参见上述公式(8)。
此外,还为LR模引入了另一种交叉视图正则化,以加强两个视图的赋值π1和π2之间的一致性。最终的交叉视图正则化损失,参见上述公式(9)。
此外,辅助解码器由分类损失和伪掩码分割损失监督。为了简单起见,只在第一个分支上使用辅助解码器,而不对其应用正则化损失。最后,计算了SLRNet的总损失,参见上述公式(10)。
二、模型的使用细节(训练与测试)
训练:为了公平比较,使用了一个预先训练好的WideResNet-38和Atrous SpatialPyramid Pooling(ASPP)来构成编码器。解码器由3个卷积层和随机深度网络组成。用SGD(随机梯度下降)优化器训练了对模型训练了20个迭代周期,使用权重衰减值为5×10-4。随机初始化参数的学习率为5×10-3,预训练参数的学习率为5×10-4。温度系数τ设为||μk||2。在前5次迭代中,损失函数的因子设置为λseg=0、λreg=4和λaux=0.4,随后这些的默认值取λseg=1、λreg=4和λaux=0.4为默认值。
实施例2
为了验证方法的优越性,验证各模块的有效性,本发明实施例进行了大量消融实验,详见下文描述:
为了理解个体数据增强对弱监督分割的影响,考虑了几种几何和外观增强方式。此外,更关注可逆和可微的几何变换,如缩放和翻转等。
首先,将图像的随机裁剪为321×321的尺寸大小。然后,将目标转换应用于不同的分支。研究了三种变换的组成:固定速率的重缩放、随机水平翻转和随机颜色失真(如亮度、对比度、饱和度和色调)。在监督设置下,较强的颜色失真不能改善甚至损害性能。因此,针对亮度、对比度和饱和度,将颜色失真的最大强度设置为0.3,将色调分量设置为0.1。
表3给出了不同变换组合下Pascal-VOC-val集的计算结果。从表中观察到,三种不同的增广组合的性能最好(64.07%)。在使用更多的增广内容时,交叉视图监督将拥有更好的效果。还注意到,与其他增广方式相比,重缩放有明显更好的效果改进。在不重缩放的情况下,mIoU(平均交并比,语义分割评估指标)会出现显著下降(2.54%)。相反,对不同的视图使用相同的颜色失真和翻转会导致轻微的mIoU下降(0.08%)。与单视图相比,不同颜色失真和翻转的组合只获得了较小的改善(0.65%)。此外,值得指出的是,尽管添加更多的视图具有更高的复杂性,但这并不能提高WSSS的性能,这表明简单的多尺度训练不能提高WSSS的性能,但是交叉视图监控和LR表示会显著提升语义分割效果。实验结果见表1所示:
表1
Figure BDA0003018721270000101
为了演示SLRNet的改进方向,分别用平均错误发现率(mFDR)和平均错误否定率(mFNR)来表示语义的保真度和完备性。
Figure BDA0003018721270000111
Figure BDA0003018721270000112
其中,TPc,FPc和FNc分别表示预测类别c的真阳性、假阳性、假阴性的数量。交叉视图监督旨在缓解自训练过程中误差引起的复合效应。通过调整损失系数λreg来控制交叉视图监督的力度,以验证交叉视图监督的作用。
如图4(左)所示,观察到交叉视图监督主要通过减少mFDR来提高分割质量,即防止自监督中的假阳性累积以提高语义保真度。在实验中,当λreg=4时,会取得改进效果的最大化。值得注意的是,更高的交叉视图监督强度增加了mFNR。此外,还注意到,在没有
Figure BDA0003018721270000113
的情况下,多视图模型的mIoU(60.73%)甚至不如单视图(60.88%)好,这表明适当的交叉视图监督强度比多视图训练更重要。
为了研究LR低秩模块的效果,在不同的迭代次数T下进行了实验,设计了LR低秩模块来消除特征变化,减少对自监督误差的过拟合。如图4(右)所示,观察到LR低秩模块主要通过减少mFNR来提高分割质量,即提高语义完整性。没有LR低秩模块(T=0), mIoU会显著下降(2.58%)。LR低秩模块在捕获和传播来自不同视图的准确、稳定的语义的同时,抑制了输入特征的噪声,从而提高了完整性。值得注意的是,由于特殊的初始化方式,更多的迭代并不能提高性能。随着训练(外循环)的进行,交替优化(内循环)可以更快地收敛。
随后,分别对伪掩码质量和语义分割效果进行检验。首先评估自监督质量,将伪掩码质量与以前的技术水平进行了比较。与改进的CAM生成方法、多级CAM优化方法和单级CAM优化方法相比,本方法具有更好的性能。对比的模型包括CAM、SCE、SEAM、 CAM+RW、SCE+RW、1-stage等。实验结果见表2:
表2
Figure BDA0003018721270000114
此外,为了评估提出的模型的语义分割效果,将本方法与其他baseline模型进行了比较。在图5中,展示了图像语义分割的定性结果。
同时,在表3中将SLRNet与各种领先的单级和多级WSSS方法进行了比较。其中,单级SLRNet在训练集(67.2%)和测试集(67.6%)上的性能最好。与MCIS相比,SLRNet 在测试集上提高了1.0%。与SEAM+CONTA相比,SLRNet实现了1.1%的mIoU改进。
表3
Figure BDA0003018721270000121
注意,没有显著性检测的多阶段方法至少经过了三级训练,以显著增加模型复杂度为代价提高了性能。SLRNet通过简单的交叉视图监督和轻量级LR模块得到的语义分割结果显著优于以前的单级模型。
第二方面,本发明实施例提供了一种基于自监督低秩网络的半监督图像语义分割装置,参见图6,该装置包括:
构建模块1,用于构建自监督低秩网络;
优化模块2,用于将来自两个分支的掩码分别进行逆几何变换,产生伪掩码;
LR低秩模块3,用于接收伪掩码,且输入N个特征X与K个初始化基,采用迭代注意机制寻找一组最优基μ和赋值矩阵P,在每次迭代中,通过softmax归一化注意力和温度系数来计算赋值矩阵P;
更新模块4,用于通过聚合输入特征X来更新最优基μ,在V次迭代之后,收敛的赋值矩阵P和最新的最优基用于重建输入特征X;
预测模块5,用于添加了由两个卷积层组成的辅助解码器来预测粗类激活图,获取类别为C的softmax规范化的类激活图A和深特征X1后,通过加权平均值计算第k个初始化基;
监督模块6,用于在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督;
输出模块7,用于对LR低秩模块的输出结果进行解码和优化,根据损失对自监督低秩网络进行更新。
其中,该构建模块1包括:
扩展子模块,用于将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构;
预测子模块,用于将来自某一图像的两个增强视图作为输入,编码器网络处理视图并生成特征映射,该特征映射作为LR低秩模块的输入,重新估计特征映射后,将具有LR特性的特征分别反馈给解码器网络,来预测掩码。
这里需要指出的是,以上实施例中的装置描述是与上述方法实施例描述相对应的,本发明实施例在此不做赘述。
上述各个模块、单元的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
基于同一发明构思,本发明实施例还提供了一种基于自监督低秩网络的半监督图像语义分割装置,参见图7,该装置包括:处理器8和存储器9,存储器9中存储有程序指令,处理器8调用存储器9中存储的程序指令以使装置执行实施例中的以下方法步骤:
构建自监督低秩网络,将来自两个分支的掩码分别进行逆几何变换,利用优化模块产生伪掩码输入到LR低秩模块;
输入N个特征X与K个初始化基μ,采用迭代注意机制寻找一组最优基μ和赋值矩阵P,在每次迭代中,通过softmax归一化注意力和温度系数来计算赋值矩阵P;
通过聚合输入特征X来更新最优基μ,在V次迭代之后,收敛的赋值矩阵P和最新的最优基用于重建输入特征X;
添加了由两个卷积层组成的辅助解码器来预测粗类激活图,获取类别为C的softmax 规范化的类激活图A和深特征X1后,通过加权平均值计算第k个初始化基;
在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督,对LR 低秩模块的输出结果进行解码和优化,根据损失对自监督低秩网络进行更新。
在一种实现方式中,该自监督低秩网络为:将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构;
将来自某一图像的两个增强视图作为输入,编码器网络处理视图并生成特征映射,该特征映射作为LR低秩模块的输入,重新估计特征映射后,将具有LR特性的特征分别反馈给解码器网络,来预测掩码。
在一种实现方式中,该方法还包括:对两个分支的掩码分别进行交叉视图掩码正则化处理。
在一种实现方式中,该方法还包括:对LR低秩模块引入交叉视图正则化,用于加强两个视图的赋值矩阵之间的一致性。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器8和存储器9的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器9和处理器8之间通过总线10传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献
[1]NikitaAraslanov and Stefan Roth.Single-stage semantic segmentationfrom image labels.In CVPR,pages 4252–4261,2020.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自监督低秩网络的半监督图像语义分割方法,其特征在于,所述方法包括:
构建自监督低秩网络,将来自两个分支的掩码分别进行逆几何变换,利用优化模块产生伪掩码输入到LR低秩模块;
输入N个特征X与K个初始化基,采用迭代注意机制寻找一组最优基μ和赋值矩阵P,在每次迭代中,通过softmx归一化注意力和温度系数来计算赋值矩阵P;
通过聚合输入特征X来更新最优基μ,在V次迭代之后,收敛的赋值矩阵P和最新的最优基用于重建输入特征X;
添加了由两个卷积层组成的辅助解码器来预测粗类激活图,获取类别为C的softmax规范化的类激活图A和深特征X1后,通过加权平均值计算第k个初始化基;
在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督,对LR低秩模块的输出结果进行解码和优化,根据损失对自监督低秩网络进行更新。
2.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法,其特征在于,所述自监督低秩网络为:
将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构;
将来自某一图像的两个增强视图作为输入,编码器网络处理视图并生成特征映射,该特征映射作为LR低秩模块的输入,重新估计特征映射后,将具有LR特性的特征分别反馈给解码器网络,来预测掩码。
3.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法,其特征在于,所述方法包括:对两个分支的掩码分别进行交叉视图掩码正则化处理。
4.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法,其特征在于,所述伪掩码为:
Figure FDA0003018721260000011
其中,
Figure FDA0003018721260000012
分别为两个视图的几何变换,T为逆变换,
Figure FDA0003018721260000013
为掩码M1通过视图I1的逆几何变换,
Figure FDA0003018721260000014
为掩码M2通过视图I2的逆几何变换。
5.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法,其特征在于,所述通过聚合输入特征X来更新最优基μ具体为:
Figure FDA0003018721260000021
其中,ωn,k为xn到μk的赋值权重,Pn,k为xn到μk的赋值,Pm,k为xm到μk的赋值。
6.根据权利要求1所述的一种基于自监督低秩网络的半监督图像语义分割方法,其特征在于,所述方法还包括:对所述LR低秩模块引入交叉视图正则化,用于加强两个视图的赋值矩阵之间的一致性。
7.一种基于自监督低秩网络的半监督图像语义分割装置,其特征在于,所述装置包括:
构建模块,用于构建自监督低秩网络;
优化模块,用于将来自两个分支的掩码分别进行逆几何变换,产生伪掩码;
LR低秩模块,用于接收伪掩码,且输入N个特征X与K个初始化基,采用迭代注意机制寻找一组最优基μ和赋值矩阵P,在每次迭代中,通过softmax归一化注意力和温度系数来计算赋值矩阵P;
更新模块,用于通过聚合输入特征X来更新最优基μ,在V次迭代之后,收敛的赋值矩阵P和最新的最优基用于重建输入特征X;
预测模块,用于添加了由两个卷积层组成的辅助解码器来预测粗类激活图,获取类别为C的softmax规范化的类激活图A和深特征X1后,通过加权平均值计算第k个初始化基;
监督模块,用于在基初始化过程中使用由分类损失和伪掩码分割损失构成的目标函数进行监督;
输出模块,用于对LR低秩模块的输出结果进行解码和优化,根据损失对自监督低秩网络进行更新。
8.根据权利要求7所述的一种基于自监督低秩网络的半监督图像语义分割装置,其特征在于,所述构建模块包括:
扩展子模块,用于将已建立的编码器-解码器分段网络扩展为共享权重的孪生神经网络结构;
预测子模块,用于将来自某一图像的两个增强视图作为输入,编码器网络处理视图并生成特征映射,该特征映射作为LR低秩模块的输入,重新估计特征映射后,将具有LR特性的特征分别反馈给解码器网络,来预测掩码。
9.一种基于自监督低秩网络的半监督图像语义分割装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。
CN202110396330.7A 2021-04-13 2021-04-13 基于自监督低秩网络的半监督图像语义分割方法及装置 Active CN113222998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110396330.7A CN113222998B (zh) 2021-04-13 2021-04-13 基于自监督低秩网络的半监督图像语义分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110396330.7A CN113222998B (zh) 2021-04-13 2021-04-13 基于自监督低秩网络的半监督图像语义分割方法及装置

Publications (2)

Publication Number Publication Date
CN113222998A true CN113222998A (zh) 2021-08-06
CN113222998B CN113222998B (zh) 2022-05-31

Family

ID=77087016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110396330.7A Active CN113222998B (zh) 2021-04-13 2021-04-13 基于自监督低秩网络的半监督图像语义分割方法及装置

Country Status (1)

Country Link
CN (1) CN113222998B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962951A (zh) * 2021-10-15 2022-01-21 杭州研极微电子有限公司 检测分割模型的训练方法及装置、目标检测方法及装置
CN114240968A (zh) * 2021-12-17 2022-03-25 联通(上海)产业互联网有限公司 一种分割图像中异常区域的自监督深度学习算法
CN115512169A (zh) * 2022-11-09 2022-12-23 之江实验室 基于梯度和区域亲和力优化的弱监督语义分割方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012258421A1 (en) * 2012-11-30 2014-06-19 Canon Kabushiki Kaisha Superpixel-based refinement of low-resolution foreground segmentation
CN107437252A (zh) * 2017-08-04 2017-12-05 山东师范大学 用于黄斑病变区域分割的分类模型构建方法和设备
CN108256486A (zh) * 2018-01-18 2018-07-06 河南科技大学 一种基于非负低秩和半监督学习的图像识别方法及装置
CN108345831A (zh) * 2017-12-28 2018-07-31 新智数字科技有限公司 基于点云数据的道路图像分割的方法、装置以及电子设备
CN109886946A (zh) * 2019-02-18 2019-06-14 广州视源电子科技股份有限公司 基于深度学习的早期老年性黄斑病变弱监督分类方法
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN111652236A (zh) * 2020-04-21 2020-09-11 东南大学 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法
CN112164067A (zh) * 2020-10-12 2021-01-01 西南科技大学 一种基于多模态子空间聚类的医学图像分割方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012258421A1 (en) * 2012-11-30 2014-06-19 Canon Kabushiki Kaisha Superpixel-based refinement of low-resolution foreground segmentation
CN107437252A (zh) * 2017-08-04 2017-12-05 山东师范大学 用于黄斑病变区域分割的分类模型构建方法和设备
CN108345831A (zh) * 2017-12-28 2018-07-31 新智数字科技有限公司 基于点云数据的道路图像分割的方法、装置以及电子设备
CN108256486A (zh) * 2018-01-18 2018-07-06 河南科技大学 一种基于非负低秩和半监督学习的图像识别方法及装置
CN109886946A (zh) * 2019-02-18 2019-06-14 广州视源电子科技股份有限公司 基于深度学习的早期老年性黄斑病变弱监督分类方法
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN111652236A (zh) * 2020-04-21 2020-09-11 东南大学 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法
CN112164067A (zh) * 2020-10-12 2021-01-01 西南科技大学 一种基于多模态子空间聚类的医学图像分割方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABHINAV VALADA 等: ""Self-Supervised Model Adaptation for Multimodal Semantic Segmentation"", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 *
肖华欣: ""图像/视频目标分割技术研究"", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962951A (zh) * 2021-10-15 2022-01-21 杭州研极微电子有限公司 检测分割模型的训练方法及装置、目标检测方法及装置
CN114240968A (zh) * 2021-12-17 2022-03-25 联通(上海)产业互联网有限公司 一种分割图像中异常区域的自监督深度学习算法
CN115512169A (zh) * 2022-11-09 2022-12-23 之江实验室 基于梯度和区域亲和力优化的弱监督语义分割方法及装置

Also Published As

Publication number Publication date
CN113222998B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
Pang et al. Hierarchical dynamic filtering network for RGB-D salient object detection
CN113222998B (zh) 基于自监督低秩网络的半监督图像语义分割方法及装置
Kim et al. Orchard: Visual object recognition accelerator based on approximate in-memory processing
WO2022217746A1 (zh) 一种高分辨率高光谱计算成像方法、系统及介质
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
Gendy et al. Lightweight image super-resolution based on deep learning: State-of-the-art and future directions
Gao et al. Temporal-attentive covariance pooling networks for video recognition
CN113723295A (zh) 一种基于图像域频域双流网络的人脸伪造检测方法
Xu et al. AutoSegNet: An automated neural network for image segmentation
Han et al. L-Net: lightweight and fast object detector-based ShuffleNetV2
CN115546060A (zh) 一种可逆的水下图像增强方法
CN111860834A (zh) 一种神经网络调优方法、系统、终端以及存储介质
Zhang et al. Graph-pbn: Graph-based parallel branch network for efficient point cloud learning
Su et al. Lightweight pixel difference networks for efficient visual representation learning
Yu et al. A multi-scale generative adversarial network for real-world image denoising
CN115222998B (zh) 一种图像分类方法
Guo et al. Efficient convolutional networks learning through irregular convolutional kernels
He et al. ECS-SC: Long-tailed classification via data augmentation based on easily confused sample selection and combination
CN115035408A (zh) 基于迁移学习和注意力机制的无人机影像树种分类方法
CN117396892A (zh) 一种硬件感知神经网络设计
CN113222016A (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant