CN116433909A

CN116433909A - 基于相似度加权多教师网络模型的半监督图像语义分割方法

Info

Publication number: CN116433909A
Application number: CN202310401564.5A
Authority: CN
Inventors: 许华杰; 肖毅烽; 秦远卓
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2023-04-16
Filing date: 2023-04-16
Publication date: 2023-07-14

Abstract

本发明公开了一种基于相似度加权多教师网络模型的半监督图像语义分割方法，包括如下步骤：准备用于语义分割模型训练的训练集和验证集数据；构建基于相似度加权的多教师网络模型SW‑MMTNet；对训练集的无标签数据分别进行强数据增强和弱数据增强，以实现对无标签数据的数据扰动；使用训练集的有标签数据和无标签数据联合进行SW‑MMTNet模型的训练；利用验证集对分割模型进行效果评估，得到最终的图像语义分割模型。方法能够整合多个教师网络的预测信息，为无标签数据生成优质、稳定的伪标签，从而有效地利用无标签数据辅助语义分割模型的训练，减少语义分割对大量数据的需求。此外，方法还通过数据扰动的方式，使得SW‑MMTNet的学生网络能够学习到更多的信息。

Description

基于相似度加权多教师网络模型的半监督图像语义分割方法

技术领域

本发明涉及图像语义分割领域，尤其涉及一种基于相似度加权多教师网络模型的半监督图像语义分割方法。

背景技术

语义分割是计算机视觉领域中一项基本的像素级分类任务，其旨在从像素级层面理解图像，是计算机从检测图像迈向理解图像的关键。由于图像语义分割能够逐像素地分析图像的内容，因此其在自动驾驶、医学图像处理、工业缺陷检测等领域有着广泛的应用。得益于深度卷积神经网络的发展，图像语义分割在近年来取得了巨大的成功。然而全监督图像语义分割的模型训练需要大量的像素级标注数据，而进行像素级标注是非常昂贵和耗时的。对于高分辨率的城市道路数据集，在一个对象上绘制语义分割注释比绘制边界框注释需要多耗费8倍的时间，比只标注该对象的类别需要多耗费78倍的时间。半监督图像语义分割通过使用少量有标签数据和大量无标签数据共同完成分割模型的训练，从而降低语义分割任务对大量像素级标注数据的需求。

现有的半监督图像语义分割方法大多数是基于一致性正则化方法提出的。一致性正则化方法基于平滑假设和聚类假设，主要思想是对一个无标签数据应用实际的扰动时，网络对该数据的预测结果不会发生显著的变化，从而迫使网络对各种扰动下的同源无标签数据进行一致性的预测，进而利用无标签数据进行半监督学习。然而这类方法的效果可能会因为无标签数据的不可靠预测而受到严重的影响。

一致性正则化方法中，平均教师MT(Mean Teacher network)模型包括一个学生网络和一个教师网络，其中学生网络通过学习教师网络预测输出的结果进行训练；然而通过从单个教师网络的预测输出获取的伪标签可能是不可靠的、有噪声的，从而可能会导致学生网络进行错误的学习。在知识蒸馏领域，现有技术参考现实生活中一个学生能够从多个教师学习不同知识的情况，提出多教师知识蒸馏，让学生网络从多个教师网络中提取知识，从而提升学生网络的学习质量；然而简单地将多个教师网络的预测输出进行平均加权结合后作为学生网络学习目标的做法，并没有考虑到不同教师网络预测输出准确度有差别的情况。

发明内容

本发明的目的是使用少量有标签图像数据实现高效的图像语义分割，提出一种基于相似度加权多教师网络模型的半监督图像语义分割方法。方法通过将MT模型的单个教师网络扩展为多个教师网络，并在此基础上通过计算每个教师网络对无标签数据的预测输出与其他教师网络对无标签数据的预测输出之间的相似度来衡量每个教师网络预测输出的准确度，然后以相似度作为权重，将多个教师网络的预测输出进行相似度加权整合，从而为无标签数据生成质量更佳、更稳定的伪标签，进而利用无标签数据进行学生网络的半监督学习。此外，方法还通过对无标签数据进行弱数据增强方式的数据扰动，用多个教师网络在弱数据增强后的数据上进行伪标签预测，并对预测结果进行相似度加权计算，从而得到无标签数据的相似度加权伪标签；同时对经过弱数据增强的同源无标签数据进行强数据增强方式的数据扰动，然后将相似度加权伪标签作为学生网络使用强数据增强的无标签数据进行网络训练时的学习目标，迫使学生网络从受到扰动的无标签数据中学习到更多的信息，进一步提升学生网络的学习质量。

为了实现上述目标，本发明提供的一种基于相似度加权多教师网络模型SW-MMTNet(Similarity Weighting-Multiple Mean Teacher Network)的半监督图像语义分割方法，包括如下步骤：

步骤S1：准备用于语义分割模型训练的训练集和验证集数据；

训练集数据由含有少量的有标签图像的

以及含有大量的无标签图像的/>

组成，其中n<<m，验证集数据由用于模型训练效果评估的有标签图像组成；

步骤S2：构建基于相似度加权的多教师网络模型SW-MMTNet；

步骤S3：对训练集无标签数据分别进行强数据增强和弱数据增强，以实现对无标签数据的数据扰动；

步骤S4：使用有标签数据和无标签数据联合进行SW-MMTNet模型的训练；

步骤S5：利用验证集对分割模型进行效果评估，得到最终的分割模型。

进一步地，步骤S2中，所述的基于相似度加权的多教师网络模型SW-MMTNet由一个学生网络S(θ)和n个教师网络T(θ₁)、T(θ₂)、T(θ₃)…T(θ_n)组成，n≥3，其中θ、θ₁、θ₂、θ₃…θ_n分别是S(θ)、T(θ₁)、T(θ₂)、T(θ₃)…T(θ_n)的网络参数，这些参数在SW-MMTNet进行训练时会进行不同的初始化以增加不同教师网络之间的差异性，从而能够更好地通过相似度区分不同教师网络预测结果的质量好坏；其中学生网络和教师网络都采用有监督语义分割模型deeplav3+；采用deeplabv3+之外的其他有监督语义分割模型并不会对方法的实施产生影响，只要学生网络和教师网络都采用相同的网络结构即可。

进一步地，步骤S3中，对无标签数据进行数据扰动，是为了让学生网络能够从受到扰动的数据中学习到更多的信息，从而进一步提升学生网络的学习质量。其中，所使用的弱数据增强只改变图像的大小和位置关系，而不会影响网络的预测结果，包括随机翻转、在0.5到2.0倍的范围内对图像的长和宽进行大小的调整，将图像随机裁切成固定分辨率321×321的图像块；而使用的强数据增强会改变图像的色彩性质，从而影响网络的预测结果，包括随机灰度、模糊以及随机改变图像的亮度、对比度和饱和度。

进一步地，步骤S4中，有标签数据和无标签数据只用于SW-MMTNet学生网络的训练，n个教师网络的参数在模型每轮迭代完成时，使用学生网络参数的指数移动平均进行更新。其中，对于有标签数据(x_i,y_i)，学生网络使用传统的监督学习方式进行网络的训练；而对于无标签数据u_i，SW-MMTNet首先通过相似度加权算法，从n个教师网络对弱数据增强的无标签数据u_i的预测输出中获取相似度加权伪标签Y_t，然后将相似度加权伪标签Y_t作为学生网络使用经过强数据增强的无标签数据u_i进行网络训练时的学习目标，从而让学生网络利用无标签数据u_i进行网络训练，具体过程为：

步骤S4.1：将无标签数据u_i进行弱数据增强后输入到n个教师网络中，从而获取n个教师网络对无标签数据u_i的伪标签预测输出，其中第j个教师网络对无标签数据u_i的伪标签预测输出Y_t ^j为：

Y_t ^j＝T(A^w(u_i)；θ_j) (1)

式中A^w表示进行弱数据增强，T(A(u_i)；θ_j)表示第j个教师网络在参数θ_j情况下，对经过弱数据增强的无标签数据u_i的伪标签预测输出；

步骤S4.2：将每个教师网络的伪标签预测输出与其他教师网络的伪标签预测输出进行相似度计算，并将相似度计算结果作为每个教师网络的伪标签预测输出的置信度，其中第j个教师网络的伪标签预测输出的置信度Confidence^j为：

式中mIoU()表示计算两个集合的交集与并集之比，Y_t ^j和Y_t ^k分别表示第j个教师网络和第k个教师网络的伪标签预测输出；

步骤S4.3：以相似度作为权重，将n个教师网络的预测输出进行相似度加权整合，并通过argmax函数从相似度加权整合结果中获取伪标签Y_t：

式中argmax函数的作用是从相似度加权结果(类别概率图)中，返回概率值最大的类别，从而得到无标签数据的伪标签Y_t；

步骤S4.4：将经过弱数据增强的同源无标签数据u_i进行强数据增强后输入到学生网络，从而获取学生网络的伪标签预测输出

Y_s ^u＝S(A^s(A^w(u_i))；θ) (4)

式中，A^s表示进行强数据增强，A^w表示进行弱数据增强，S(u_i；θ)获表示学生网络在参数θ情况下，对无标签数据u_i的预测结果；

步骤S4.5：对预测结果

和伪标签Y_t之间的一致性损失，用标准的像素交叉熵损失函数进行最小化，从而利用无标签数据进行学生网络的训练。

本发明采用上述技术方案，具有以下有益效果：

(1)本发明通过将MT模型的单个教师网络扩展为多个教师网络，并将多个教师网络的预测输出进行相似度加权整合以作为学生网络的训练目标，从而为无标签数据提供更加稳定、质量更优的伪标签。一方面当某个教师网络预测错误时，来自其他教师网络正确预测结果的分歧信息，能够在一定程度上纠正单个教师网络的预测错误，从而降低单个教师网络预测错误的影响，另一方面，不同教师网络预测输出之间的相似度越高，在一定程度上代表其准确度越高，因此相似度加权整合的做法考虑了不同教师网络预测输出的质量好坏，对置信度越高的教师网络预测输出赋予更大的权重，从而能够获得质量更佳的伪标签。

(2)本发明通过在SW-MMTNet使用无标签数据进行训练时，对无标签数据进行强、弱数据增强的方式来实现数据扰动，使得学生网络能够从受到干扰的数据中学习到更多的信息，从而能够进一步提升学生网络的学习质量。

(3)本发明提出了一种基于相似度加权多教师网络模型的半监督图像语义分割方法，其能够有效地利用无标签数据辅助语义分割模型的训练，降低语义分割对大量像素级标注数据的需求，从而能够将语义分割应用在更多的现实场景中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提中，还可以根据提供的附图获得其他的附图。

图1是本发明实施例中，基于相似度加权多教师网络的半监督图像语义分割方法的流程图；

图2是本发明实施例中，SW-MMTNet模型使用无标签数据进行训练的示意图；

图3是本发明实施例中，SW-MMTNet与全监督基线模型(deeplabv3+)的性能对比示意图；

图4是本发明实施例中，SW-MMTNet和全监督基线模型(deeplabv3+)对部分无标签图像的分割效果对比图。

具体实施方式

如图1所示，一种基于相似度加权多教师网络模型的半监督图像语义分割方法，图1为方法的流程图，包括以下步骤：

步骤101：准备用于语义分割模型训练的训练集和验证集数据。

在本分析实施例中，用于SW-MMTNet模型训练和效果评估的数据集是Pascal VOC2012扩充数据集。原始的Pascal VOC 2012数据集由1464张图像作为训练集，1449张图像作为验证集组成，通过引入语义边界数据集SBD进行数据扩充，将训练集的图像扩充至10582张，得到Pascal VOC 2012扩充数据集；然后分别将训练集1/16、1/8、1/4比例的图像设置为有标签数据集D_l，其余图像忽略其真实标签作为无标签数据集D_u使用。

步骤102：构建基于相似度加权的多教师网络模型SW-MMTNet。

如图2所示，在本实施例中，所构建的基于相似度加权的多教师网络模型SW-MMTNet由一个学生网络S(θ)和三个教师网络T(θ₁)、T(θ₂)、T(θ₃)组成。其中学生网络和教师网络都使用以ResNet-50作为骨干网络的Deeplabv3+网络。SW-MMTNet使用无标签数据进行训练时，三个教师网络为学生网络提供相似度加权的伪标签，学生网络以相似度加权伪标签作为学习目标进行网络训练；

步骤103：对无标签数据分别进行强数据增强和弱数据增强，以实现对无标签数据的数据扰动。

在本实施例中，对无标签数据所进行的弱数据增强包括随机翻转、在0.5到2.0倍的范围内对图像的长和宽进行大小的调整，将图像随机裁切成固定分辨率321×321的图像块；对无标签数据所进行的强数据增强包括随机灰度、模糊以及随机改变图像的亮度、对比度和饱和度。

步骤104：使用有标签数据和无标签数据联合进行SW-MMTNet模型的训练。

本实施例中，在SW-MMTNet进行模型训练之前，学生网络和三个教师网络使用在ImageNet上预训练的ResNet-50模型进行骨干网络部分的参数初始化，同时使用Kaiming初始化方法对分割网络部分的参数进行随机初始化。SW-MMTNet进行模型训练时，有标签数据集D_l和无标签数据集D_u只用于学生网络的训练。其中，对于有标签数据(x_i,y_i)，学生网络使用传统的监督学习方式进行网络的训练；而对于无标签数据u_i，SW-MMTNet首先通过相似度加权算法从三个教师网络对弱数据增强的无标签数据u_i的预测输出中获取的相似度加权伪标签Y_t，然后将相似度加权伪标签Y_t作为学生网络使用强数据增强的无标签数据u_i进行网络训练时的学习目标，从而让学生网络利用无标签数据u_i进行网络训练。训练过程中，采用带动量的小批量随机梯度下降SGD(Stochastic Gradient Descent)优化器进行学生网络的训练并采用Poly学习策略进行学习率的动态调整，其中骨干网络的初始学习率设置为0.001，分割网络的初始学习率设置为0.01，SGD的动量固定为0.9、权重衰减率设置为0.001、批处理大小设置为8。按照上述的实验设置，将SW-MMTNet模型分别在1/16、1/8、1/4比例的数据划分标准下，使用划分后的有标签数据和无标签数据进行120轮次的迭代训练。其中，所述通过相似度加权算法从三个教师网络预测输出中获取相似度加权伪标签的过程为：

步骤A1：将无标签数据u_i经过弱数据增强后输入到三个教师网络中，以获取三个教师网络对弱数据增强的无标签数据u_i的伪标签预测输出Y_t ¹＝T(A^w(u_i)；θ₁)、Y_t ²＝T(A^w(u_i)；θ₂)、Y_t ³＝T(A^w(u_i)；θ₃)；

步骤A2：计算Y_t ¹、Y_t ²、Y_t ³之间的相似度，从而得到：

Y_t ¹的置信度

Y_t ²的置信度

Y_t ³的置信度

步骤A3：以置信度作为权重，将三个教师网络的伪标签预测输出进行相似度加权，并通过argmax函数从相似度加权结果中获取无标签数据的相似度加权伪标签

步骤105：利用验证集对分割模型进行效果评估，得到最终的分割模型。

在本实施例中，以分割模型在Pascal VOC 2012验证集上的平均交并比mIoU(meanIntersection over Union)作为模型训练效果的评估指标。mIoU是真实值和预测值集合的交集与并集之比，其计算如式(5)所示：

式中K是数据集对象类别的总数，i是K个类别中的第i类，p_ij表示将第i类别的像素点预测为第j类别的数量。

图3显示本实施例中SW-MMTNet在PASCAL VOC 2012扩充数据集上对全监督基线模型分割性能的改进效果，其中本实施例的基线模型是有监督语义分割模型deeplabv3+，其只使用划分后的有标签数据进行模型训练。通过对比图3中全监督基线模型与SW-MMTNet的结果可知，SW-MMTNet的分割性能相比全监督基线模型的分割性能有很大的提高。具体来说，在1/16、1/8、1/4比例的数据划分标准下，SW-MMTNet的分割性能分别达到72.56％、74.22％、75.75％的mIoU，相比只使用划分后的有标签数据进行全监督学习的基线模型分别提高了7.44％、5.23％、5.08％的mIoU。因此，该方法能够通过利用额外的无标签数据辅助分割模型的训练，并显著提高了基线模型的分割性能，其能够减少语义分割对大量像素级标注数据的需求，能够更好地将语义分割应用在工业缺陷检测、医学图像处理等数据量缺乏的领域中。

进一步地，图4显示了本实施例中在1/8比例的有标签数据划分标准下训练得到的全监督基线模型(deeplabv3+)、SW-MMTNet模型对部分无标签图像的分割效果。从图4中可见，相比全监督基线模型，本实施例的SW-MMTNet模型通过从受到扰动的无标签数据中进行学习，拥有如下优点：1)更好的鲁棒性。例如，对于第一行对比度较小的输入图像以及第二行有光照干扰的输入图像，全监督基线模型错误地将部分属于背景类别的像素点预测为前景类别，而SW-MMTNet通过使用数据扰动的无标签数据进行训练，使其能够拥有比全监督基线模型更好的抗干扰能力，因此并没有出现上述的错误。2)更强的辨别能力。例如，在第三行全监督基线模型的预测结果中，部分属于“火车”的像素点被预测为“汽车”；在第四行全监督基线模型的预测结果中，部分属于“狗”像素点被预测为“羊”，而本实施例的SW-MMTNet模型通过从无标签数据中学习，能够获得更多关于相似物体之间的差异信息，使其能够对相似物体的类别进行正确的预测，拥有更强的辨别能力，因此并没有出现上述的错误。3)更强的识别能力。在第五行的预测结果中，全监督模型几乎没有识别出桌子上的“瓶子”；在第六行的预测结果中，全监督模型完整没有识别出飞机旁边的“人”，而SW-MMTNet模型能够从无标签数据中学习到更多对物体识别有帮助的信息，从而拥有更强的物体识别能力，能够将“瓶子”和“人”识别出来。

现有的、基于一致性正则化的半监督图像语义分割方法中，PseudoSeg是Zou等人在2021年的ICLR会议上提出的方法；MT是SW-MMTNet改进前的原始方法，由Tarvainen等人在2017年的NIPS会议上提出；CCT是Ouali等人在2020年的CVPR会议上提出的方法；GCT由Ke等人在2020年的ECCV会议上提出的方法；DCC由Lai等人在2021年的CVPR会议上提出的方法；CPS由Chen等人在2021年的CVPR会议上提出的方法。

在本实施例中，以分割模型在Pascal VOC 2012验证集上的平均交并比mIoU作为模型训练效果的评估指标，将SW-MMTNet模型与上述现有的半监督图像语义分割方法进行分割性能比较，比较结果如表1所示。其中，表1的分数(例如“1/16”)表示有标签数据的比例，表1的数值单位是(mIoU，％)。通过将表1中，SW-MMTNet的分割性能与现有的半监督图像语义分割方法的分割性能进行比较可知，本实施的SW-MMTNet模型可取得比其他现有方法更优的分割性能。

表1

方法\标签占比	1/16	1/8
			PseudoSeg	65.44	69.15
MT	66.77	70.78
			CCT	65.22	70.87
GCT	64.05	70.47
			DCC	70.1	72.4
CPS	71.98	73.67
			SW-MMTNet(本发明)	72.56	74.22

Claims

1.一种基于相似度加权多教师网络模型的半监督图像语义分割方法，其特征在于，包括以下步骤：

训练集数据包括含有少量有标签图像的D_l以及含有大量无标签图像的D_u，验证集数据由用于模型训练效果评估的有标签图像组成；

步骤S2：构建基于相似度加权的多教师网络模型SW-MMTNet；

步骤S3：对训练集的无标签数据分别进行强数据增强和弱数据增强，以实现对无标签数据的数据扰动；

2.根据权利要求1所述的一种基于相似度加权多教师网络模型的半监督图像语义分割方法，其特征在于，步骤S2中所述的基于相似度加权的多教师网络模型SW-MMTNet由一个学生网络S(θ)和n个教师网络T(θ₁)、T(θ₂)、T(θ₃)…T(θ_n)组成，n≥3，其中学生网络和教师网络都采用有监督语义分割模型deeplabv3+；θ、θ₁、θ₂、θ₃、…、θ_n分别表示S(θ)、T(θ₁)、T(θ₂)、T(θ₃)、…、T(θ_n)所对应的网络参数；采用deeplabv3+之外的其他有监督语义分割模型并不会对方法的实施产生影响，只要学生网络和教师网络都采用相同的网络结构即可。

3.根据权利要求1所述的一种基于相似度加权多教师网络模型的半监督图像语义分割方法，其特征在于，步骤S3中对无标签数据进行数据扰动；其中，所使用的弱数据增强只改变图像的大小和位置关系，而不会影响网络的预测结果，包括随机翻转、在0.5到2.0倍的范围内对图像的长和宽进行大小的调整，将图像随机裁切成固定分辨率321×321的图像块；而所使用的强数据增强会改变图像的色彩性质，从而影响网络的预测结果，包括随机灰度、模糊以及随机改变图像的亮度、对比度和饱和度；对无标签数据进行数据扰动的目的是让学生网络能够从受到扰动的数据中学习到更多的信息，从而进一步提升学生网络的学习质量。

4.根据权利要求1所述的一种基于相似度加权多教师网络模型的半监督图像语义分割方法，其特征在于，步骤S4中SW-MMTNet使用无标签数据进行学生网络的训练时，无标签数据的伪标签Y_t是通过相似度加权算法从n个教师网络对无标签数据u_i的伪标签预测输出中获取的，具体过程为：

Y_t ^j＝T(A^w(u_i)；θ_j) (1)

式中A^w表示对无标签数据u_i进行弱数据增强，T(A(u_i)；θ_j)表示第j个教师网络在参数θ_j情况下，对经过弱数据增强的无标签数据u_i的网络输出结果；

步骤S4.2：将每个教师网络的伪标签预测输出与其他教师网络的伪标签预测输出进行相似度计算，从而得到每个教师网络的伪标签预测输出的置信度，其中第j个教师网络的伪标签预测输出的置信度Confidence^j为：

式中argmax函数的作用是从相似度加权结果(类别概率图)中，返回概率值最大的类别，从而得到无标签数据的伪标签Y_t。