CN115797642A

CN115797642A - 基于一致性正则化与半监督领域自适应图像语义分割算法

Info

Publication number: CN115797642A
Application number: CN202310104369.6A
Authority: CN
Inventors: 刘伟; 刘家伟; 张苗辉; 余晓霞
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-03-14
Anticipated expiration: 2043-02-13
Also published as: CN115797642B

Abstract

基于一致性正则化与半监督领域自适应图像语义分割算法，所述算法将伪标签学习和一致性正则化结合，建模源领域的有监督损失和目标领域的损失，减小源领域数据和目标领域数据之间的领域差异，实现高性能的领域自适应图像语义分割；使用语义分割网络最后一个全连接层对应的特征构建原型网络；使用JS散度构建一致性正则化损失，使语义分割网络和原型网络的预测值一致；最后构建自训练的第二阶段在源领域和目标领域上总的损失函数，训练出高性能的语义分割网络。本发明设计的图像语义分割算法基于半监督领域自适应，只需要给目标领域中的少量图像标记语义标签，减少了图像人工标注的工作量。

Description

基于一致性正则化与半监督领域自适应图像语义分割算法

技术领域

本发明涉及一种基于一致性正则化与半监督领域自适应图像语义分割算法，属图像语义分割技术领域。

背景技术

为了实现高精度跨数据集的图像语义分割，近年来有不少图像语义分割算法采用领域自适应减小领域之间的差异。基于领域自适应的图像分割算法的目标是将在大规模标注源数据集的语义分割模型迁移到一个数据集分布不同的，少量标记或者未标记的目标数据集。根据在训练时是否有可利用的目标领域标签，领域自适应算法可以划分为无监督领域自适应算法和半监督领域自适应算法。其中，无监督领域自适应算法在训练时目标领域数据没有标注信息。半监督领域自适应算法在训练模型时可以使用部分标注或者少量标注的目标领域数据。

在算法性能上，当前基于无监督领域自适应的图像语义分割算法明显落后有监督的图像语义分割算法，主要是因为源领域数据和目标领域数据之间的领域差异。在某些场景中，标注少量目标领域的标签是可行的。因此，相比无监督领域自适应，半监督领域自适应算法的具有更切合实际的前提，具有更好的潜力解决算法在不同数据集上的跨领域泛化问题。

图像语义分割的任务是预测图像中的每个像元的类别。近年来，基于深度卷积网络的图像语义分割取得了长足的进步。训练一个高性能的语义分割网络，往往需要大量标注数据。由于耗时费力且需要一定的专业知识，人工标注采集大量的像素级别的语义分割标注数据集是相当困难的。因此，准确预测图像中所有像元的类别依然是具有挑战的问题，特别当模型在一个数据集（源领域）上训练，在另一个数据集（目标领域）上预测时。源领域和目标领域存在的差异会使在源领域上训练得到的模型在目标领域上精度有一定下降。

发明内容

本发明要解决的技术问题，为了减少数据的标注工作量，解决高精度跨数据集的图像语义分割问题，提出一种基于一致性正则化与半监督领域自适应图像语义分割算法。

实现本发明的技术方案如下，基于一致性正则化与半监督领域自适应图像语义分割算法，所述算法将伪标签学习和一致性正则化结合，建模源领域的有监督损失和目标领域的损失，减小源领域数据和目标领域数据之间的领域差异，实现高性能的领域自适应图像语义分割；使用语义分割网络最后一个全连接层对应的特征构建原型网络；利用样本和原型之间的余弦相似度预测无标签的目标领域样本的类别；使用JS散度（Jensen–Shannondivergence）构建一致性正则化损失，使语义分割网络和原型网络关于无标签的目标领域样本的预测值一致；最后构建自训练的第二阶段在源领域和目标领域上的总的损失函数，训练出高性能的语义分割网络。

所述算法的训练过程由两个阶段的自训练构成，第一阶段为训练语义分割网络和生成伪标签，第二阶段为再次训练语义分割网络；

（1）训练语义分割网络，使用带有标签的源领域数据集合

上的有监督损失

训练语义分割网络

，直到满足一定次数或模型收敛。

（2）为无标签的目标领域数据集合

生成伪标签。

（3）再次训练语义分割网络，充分利用数据集合

、

和

，基于源领域和目标领域上的总损失函数

训练出高性能的语义分割网络。

为带有标记信息的源领域数据集合

；

为带有标记信息的目标领域数据集合

；

为无标记信息的目标领域数据集合

；其中，

、

和

分别表示对应数据集合中样本的数量；

、

和

分别表示对应像元的特征；

和

表示对应像元的语义标签；源领域数据集合和目标领域数据集合上预先定义了

个类别的标签。

源领域的有监督损失计算如下：

对于数据集合

上的任意样本

，将语义分割网络在参数

下关于样本

的预测值表示为

维的向量

；相应地，语义分割模型关于样本

的交叉熵损失表示为：

，

其中，

是向量

的第

个分量，表示语义分割网络在参数

下对样本

关于类别

的预测概率；

是标签

的第

个分量；

从而，参数为

的语义分割网络

关于

的平均交叉熵损失表示为：

，

其中，

为源领域

中的样本数量；

为上述的交叉熵损失函数。

目标领域数据的有监督损失计算如下：

在参数

下，语义分割网络

关于

的平均交叉熵损失表示为：

其中，

是样本

的语义标签；

原型网络构建如下：

所述原型网络

本质上是一个基于余弦相似度的分类器，利用样本和原型之间的余弦相似度预测样本的类别；

对于任意样本

，使用参数为

的语义分割网络

的最后一个全连接层可以提取到的特征为

，在带有标签信息的目标领域数据集合

上，类别

的原型

可以如下计算：

对于无标记信息的目标领域数据集合上的任意样本

，样本

和原型

之间的余弦相似度可以表示为：

其中，

表示特征向量

和原型

的内积；

和

表示对应的向量的模。

使用softmax归一化，原型网络

对样本

的关于类别

的预测概率

用公式如下表示：

其中，exp表示以自然常数e为底的指数函数；

，是一个超参数，起平滑作用，其值通过交叉验证设置。

生成伪标签如下：

使用训练好的语义分割网络

预测无标记信息的目标领域数据集合

的类别标签，即对于任意样本

，使用语义分割网络可以得到该样本的伪标签

；带有伪标签的目标领域数据集合表示为

。

在参数

下，语义分割网络

关于带有伪标签的目标领域数据集合

的平均交叉熵损失表示为：

，

其中，

是语义分割网络

关于样本

的预测标签，

为无标签的目标领域数据集合

中的样本数量。

所述使用JS散度（Jensen–Shannon divergence）使语义分割网络和原型网络的预测值一致。

对于任意样本

，语义分割网络

在参数

下关于

的预测可表示为

维的向量

；原型网络

关于

的预测可表示为

维的向量

；将原型网络

对样本

关于类别

的预测概率表示为

；为简洁表示，令

；使用JS散度，在无标签的目标领域数据集合

上的一致性正则化损失如下表示：

其中，

表示KL散度；

为无标签的目标领域数据集合

中的样本数量。

自训练的第二阶段在源领域和目标领域上总的损失函数为：

其中，

、

和

是对应损失项的权重，权重值一般通过交叉验证手工设置；

为带有标记信息的源领域数据集合；

为带有标记信息的目标领域数据集合；

为无标记信息的目标领域数据集合；

为参数为

的语义分割网络

关于

的平均交叉熵损失；

为无标签的目标领域数据集合

上的一致性正则化损失。

本发明的有益效果是，本发明设计的图像语义分割算法基于半监督领域自适应，只需要给目标领域中的少数图像标记语义标签，减少了图像人工标注的工作量；本发明将自训练和一致性正则化结合，可以缩小下源领域和目标领域之间的差距，有利于提高模型在不同数据集间的泛化性；本发明设计的算法可以充分利用的有标签数据和无标签数据。

附图说明

图1为本发明原型网络的构建示意图；

图2为本发明一致化正则化示意图；

图中:1：目标领域中的标记样本，类别A；2：有标记目标领域数据集合中，类别A的原型；3：无标记目标领域数据集合中的样本，被语义分割网络判断为A类，被原型网络判别为B类；4：有标记目标领域数据集合中，类别B的原型；5：目标领域中的带标记样本，类别B；6：无标记目标领域数据集合中的样本，被语义分割网络判断为B类，被原型网络判断为A类；7：类别分隔线；

图3为本发明算法框架示意图。

具体实施方式

本发明的具体实施方式如下：

本实施例基于一致性正则化与半监督领域自适应图像语义分割算法的目标是充分利用数据集合

、

和

，得到在仅少量标记目标领域上性能优良的语义分割网络

。

给定一个大规模的带有标记信息的源领域数据集合

；

一个小规模的带有标记信息的目标领域数据集合

；

一个大规模的无标记信息的目标领域数据集合

。

其中，

、

和

分别表示对应数据集合中样本的数量；

、

和

分别表示对应像元的特征；

和

表示对应像元的语义标签。源领域数据集合和目标领域数据集合上预先定义了

个类别的标签。本算法包含一个语义分割网络

和一个原型网络

。本算法的语义分割网络

适用多种常用的语义分割网络，如FCN、UNet、SegNet和DeepLab等。

计算源领域上的有监督损失：

对于数据集合

上的任意样本

，将语义分割网络在参数

下关于样本

的预测值表示为

维的向量

。相应地，语义分割模型关于样本

的交叉熵损失可以表示为：

，

其中，

是向量

的第

个分量，表示语义分割网络在参数

下对样本

关于类别

的预测概率。

是标签

的第

个分量。

从而，参数为

的语义分割网络

关于

的平均交叉熵损失可以表示为：

。

计算目标领域上的有监督损失：

在参数

下，语义分割网络

关于

的平均交叉熵损失可以表示为：

其中，

是样本

的语义标签。

在参数

下，语义分割网络

关于带有伪标签的目标领域数据集合

的平均交叉熵损失可以表示为：

。

构建原型网络：

本实施例所构建与使用的原型网络

本质上是一个基于余弦相似度的分类器，利用样本和原型之间的余弦相似度预测样本的类别。

为保证算法的效率，本实施例采用语义分割网络的最后一个全连接层的输出作为特征。对于任意样本

，使用参数为

的语义分割网络

的最后一个全连接层可以提取到的特征为

。

如图1所示，各个原型实质上是对应类别中心，可以通过计算对应类别所有样本特征的平均值得到。例如，在带有标签信息的目标领域数据集合

上，类别

的原型

可以如下计算：

对于无标记信息的目标领域数据集合上的任意样本

，样本

和原型

之间的余弦相似度可以表示为：

，

其中，

表示特征向量

和原型

的内积。

和

表示对应的向量的模。使用softmax归一化，原型网络

对样本

的关于类别

的预测概率

可以用公式如下表示：

；

其中，exp表示以自然常数e为底的指数函数。

是一个超参数，起平滑作用，其值可以通过交叉验证设置。

如图2所示，一致性正则化的目的是为无标记的目标领域数据学习具有判别性并且紧凑的特征。

语义分割网络

和原型网络

都可以用来预测未标记目标领域样本的类别标签。高性能的语义分割网络

和原型网络

对同一个训练样本应当有尽量相同的预测。也就是说，无标记的目标领域数据集合中的样本在特征空间中离对应类别原型的距离要近（即类内紧凑）。为此，本实施例使用JS散度（Jensen–Shannon Divergence）使语义分割网络和原型网络的预测值一致。

具体地，对于任意样本

，语义分割网络

在参数

下关于

的预测可以表示为

维的向量

。原型网络

关于

的预测可以表示为

维的向量

。将原型网络

对样本

关于类别

的预测概率表示为

。

可以通过公式（5）计算得到。为简洁表示，令

。使用JS散度，在无标签的目标领域数据集合

上的一致性正则化损失可以如下表示：

；

其中，

表示KL散度（Kullback-Leibler Divergence）。

图3是本实施例算法框架的结构示意图。

结合参数为

的语义分割网络

关于

的平均交叉熵损失

、语义分割网络

关于

的平均交叉熵损失

、语义分割网络

关于带有伪标签的目标领域数据集合

的平均交叉熵损失

、在无标签的目标领域数据集合

上的一致性正则化损失

，可得，在自训练的第二阶段在源领域和目标领域上的总的损失函数可以表示为：

；

其中，

、

和

是对应损失项的权重。权重值一般通过交叉验证手工设置。

本实施例基于一致性正则化与半监督领域自适应图像语义分割算法的训练过程主要由两个阶段的自训练构成，第一阶段为训练语义分割网络和生成伪标签，第二阶段为再次训练语义分割网络。

第一阶段：

在本算法的第一阶段，训练语义分割网络，根据参数为

的语义分割网络

关于

的平均交叉熵损失的表达式，使用带有标记的源领域样本训练语义分割网络直至收敛。

生成伪标签，在自训练第一阶段的模型训练完成后，使用训练好的语义分割网络

预测无标记信息的目标领域数据集合

的类别标签。即对于任意样本

，使用语义分割网络可以得到该样本的伪标签

（语义分割网络关于该样本类别的预测）。带有伪标签的目标领域数据集合可以表示为

。

第二阶段：

根据自训练的第二阶段总的损失函数

的表达式，充分利用数据集合

、

和

，训练出高性能的跨领域的语义分割网络。

Claims

1.一种基于一致性正则化与半监督领域自适应图像语义分割算法，其特征在于，所述算法将伪标签学习和一致性正则化结合，建模源领域的有监督损失和目标领域的损失，减小源领域数据和目标领域数据之间的领域差异，实现高性能的领域自适应图像语义分割；使用语义分割网络最后一个全连接层对应的特征构建原型网络；利用样本和原型之间的余弦相似度预测无标签的目标领域样本的类别；使用JS散度构建一致性正则化损失，使语义分割网络和原型网络关于无标签的目标领域样本的预测值一致；最后构建自训练的第二阶段在源领域和目标领域上总的损失函数，训练出高性能的语义分割网络；

（1）训练语义分割网络，使用带有标签的源领域数据集合