CN116524326A

CN116524326A - 一种基于语义分割和自训练的夜间图片领域自适应方法

Info

Publication number: CN116524326A
Application number: CN202310522697.8A
Authority: CN
Inventors: 黄凡丁; 周文晖; 张桦
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-08-01

Abstract

本发明公开了一种基于语义分割和自训练的夜间图片领域自适应方法。本发明包括步骤1：源域图像有监督指导学生模型；步骤2：在源域标签中进行稀有类抽样；步骤3：源域渐进域混合目标域白天和目标域黑夜；步骤4：源域和目标域在输出级别对齐；步骤5：集成不同因素教师知识以迭代学生模型；步骤6：重复步骤1～步骤5的若干次进行迭代。本发明缓解了传统的自训练中存在的噪声信号监督造成的确认偏差问题，利用多个教师模型专门对学生模型指导，使得知识迁移更加平滑；引入教师知识‑学生反馈机制提高模型抗干扰能力，闭环系统训练更鲁棒的学生模型。本发明使用轻量简便，不需要额外的风格迁移网络。

Description

一种基于语义分割和自训练的夜间图片领域自适应方法

技术领域

本发明属于无监督领域自适应和语义分割领域，是一种基于语义分割和自训练的夜间图片领域自适应方法。

背景技术

由于光照较差和难以标注，不利的驾驶条件，如夜间，对自动驾驶车辆感知系统构成了重大挑战。无监督域自适应(UDA)已广泛应用于此类图像的语义分割，以使正常条件下训练的模型适应于目标不利条件域。自训练被广泛地应用在半监督/无监督学习对无标签数据生成伪标签，主要包括：在线自训练和离线自训练。引入中间域是对于域适应的一种流行的数据增强方法，主要包括三种：引入自然中间时刻图片、风格迁移和域混合。引入自然中间时刻图片主要是ACDC和Dark Zurich数据集中的黄昏时刻或者白天的图片，这些方法需要多个阶段，训练过程很复杂，后一个训练阶段非常依赖于前一个训练阶段；风格迁移人为地将不同域的图片进行风格转化，著名的相关工作有Cycle GAN、Color Transfer和FDA，但是其缺点在夜间和白天图片的风格迁移中被放大：会造成意想不到的伪影和光源的局部曝光；域混合方法主要是将不同的图片进行各种粒度的复制粘贴策略，其中ClassMix、CutMix和CAMix的应用在领域自适应中备受关注。针对Mean teacher架构，SEANET首先尝试将一种自整合模型引入到基于Mean teacher的语义分割领域自适应中,此外DACS和MetaCorrection也是基于mean teacher的不错工作。虽然这些工作取得了良好的成绩，但它们都基于学生网络更新了教师网络的权值，忽略了教师学习知识对学生网络的反馈，特别是当多个教师模型解耦领域差异时。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于语义分割和自训练的夜间图片领域自适应方法。本发明提出一种单阶段的多教师双向自训练(DTBS)框架，其关键组件为：渐进域混合适应(GDM)和教师-学生反馈(TSF)。具有优点：(1)平滑知识适应的解耦风格和照明领域差距。(2)缓解自训练确认偏差问题，有效提高模型的鲁棒性。

本发明解决其技术问题所采用的技术方法如下：

步骤1：源域图像有监督指导学生模型

将源域图像X_S∈S及其对应的标签Y_S输入到源域工作流中进行有监督学习源域语义知识。在获得源域图像X_S的分割预测图后，利用分类交叉熵(CE)损失训练学生网络g_θ。

其中C代表类别数量，H,W为源域图像的高度和宽度,表示像素点j在通道c(即类别c)上的标签；/>表示像素点j在通道c上的源域图像；

步骤2：在源域标签中进行稀有类抽样

稀有类抽样更频繁地从源域中采样具有稀有类的图像，以便更好和更早地学习它们。源数据集中每个类c的频率f_c可以根据类c的像素数量来计算：

其中，N_S表示源数据集中源域图像X_S的数量；

某一类c的采样概率P(c)定义为其频率f_c的函数:

其中，C表示总的类别数量，T表示温度，用于控制分布的平滑度；因此频率较小的类将具有更高的采样概率；较高的T会导致更均匀的分布，较低的T更关注具有较小f_c的稀有类。

步骤3：源域渐进域混合目标域白天和目标域黑夜

本发明提出了渐进域混合最小化源域和目标域黑夜的域偏移，在每次迭代中，首先利用步骤2的策略随机采样一张源域图像X_S，然后随机选择其中一半的类并将其标签作为候选的补丁为后续粘贴做准备。

定义M∈{0,1}^H×W作为二进制掩码，其中M(h,w)＝1表示X_S中(h,w)位置像素属于被选择的类，M(h,w)＝0表示X_S中(h,w)位置像素属于未被选中的类；所以混合后的目标域白天图片X_md和目标域黑夜图片X_mn表示为：

其中，表示目标域白天图片，/>表示目标域黑夜图片；⊙表示为逐元素相乘。

由于领域混合产生的混合图像中的风格分布不一致，适应性的性能可能会受到影响。为了学习更多鲁棒的特征，对混合后的目标域白天图片和目标域黑夜图片/>进行数据增强，数据增强手段遵循DACS，包括颜色抖动、高斯模糊和ClassMix。

步骤4：源域和目标域在输出级别对齐

基于平滑知识转移的中心思想，先执行目标域白天图片工作流再执行目标域黑夜图片工作流。

所述的目标域白天图片包括和/>目标域黑夜图片包括/>和/>且/>和和/>的数量分别相等。

根据先后次序，混合后的标域白天图片输入到学生模型g_θ，然后原标域白天图片/>输入到风格教师模型/>而EMA更新风格教师模型/>的参数φ^S，得到稳定的伪标签：

其中，α表示EMA衰减系数，t表示训练迭代，θ_t表示学生模型g_θ在第t次迭代的参数。

为了学习不同城市(数据集)之间的解耦导致的风格变化，使用伪标签及其质量估计在目标域白天对学生网络g_θ进行额外训练：

其中，j表示像素点，c表示类别；表示/>超过最大softmax概率阈值τ的像素比例，其具体表达式为：

一旦模型将风格偏移最小化，适应光照偏移就会更加平滑。因此，同样的方法额外训练了目标域黑夜。输入到学生模型g_θ，然后原目标域黑夜图片/>输入到光照教师模型/>而EMA更新光照教师网络/>的参数φ^I，得到稳定的伪标签：

为了学习相同数据集之间的解耦导致的光照变化，使用伪标签及其质量估计在目标域黑夜对学生网络g_θ进行额外训练：

其中，和/>分别表示风格教师模型和光照教师模型输出的预测分割图。

步骤5：集成不同因素教师知识以迭代学生模型

自训练(ST)过程的每一次迭代都涉及源域信息从学生网络到两个目标域教师模型的单向转移。相反将教师模型知识整合到学生网络中的反馈常常被忽略了。根据教师模型的整合知识来更新学生网络，使用Re-weight EMA更新学生网络。在每个训练迭代结束时更新学生网络。

β表示反馈系数，模型反馈系数越大，说明转移的知识越多。一般来说，与光照教师模型相比，风格教师模型输出的预测熵通常较小，表明信心水平较高。由于主要研究夜间场景，并且光照教师模型反馈具有更高的优先级，因此设置β>0.5。

此外，固定的反馈系数仅仅粗略地平均两个教师的权重。考虑到每一轮教师的预测熵是动态变化的，为了达到更好的EMA集成效应，我们建议不是使用预测熵约束模型，而是采用两个教师的预测图的所有像素级归一化熵的总和之比来设置反馈系数。因此，提出了一种改进的TSF版本即TSF-E，如下所示。

给定一个输入目标域图像，所有像素级归一化熵的总和被定义为如下

其中表示目标域白天图片/>和黑夜图片/>凭借softmax layer输出的soft-segmentation map。基于上一节对教师知识反馈的思考，我们重新定义反馈系数为：

因此，学生可以动态地接受教师知识集成，从而避免了某个教师过多将错误知识传递给学生的问题。

步骤6：重复步骤1到步骤5的操作若干次进行迭代；

整个训练工作流表示为源域图像流、目标域白天域适应、目标域黑夜域适应和教师知识集成反馈迭代。因此总的损失函数可以表示为：

本发明有益效果如下：

(1)针对无监督领域自适应任务，本发明设计了一种单阶段的多教师双向自训练(DTBS)框架，缓解了传统的自训练中存在的噪声信号监督造成的确认偏差问题。相对于其它工作其主要思想在于结构巨大的域偏移为多个子因素，利用多个教师模型专门对学生模型指导，使得知识迁移更加平滑；同时为了提高模型抗干扰能力，引入教师知识-学生反馈机制，闭环系统训练更鲁棒的学生模型。

(2)本发明使用轻量简便，不需要额外的风格迁移网络。可以嵌套于各种语义分割架构和域适应策略中，而且只需要一个阶段即可完成训练，不依赖于其它的训练阶段。

(3)采用基于pytorch的高级框架mmsegmentation开发，代码易读性和可移植性强。

附图说明

图1是本发明的系统流程图；

图2是DTBS和传统自训练对比示意图；

图3是本发明在Cityscapes迁移到ACDC night的比较最先进方法可视化分析；

图4是本发明在Cityscapes迁移到ACDC night的模块消融可视化分析；

具体实施方式

下面结合附图和具体实施步骤对本发明做了进一步的说明：

本发明建立在平均教师框架之上，Mean Teacher是半监督学习领域广泛使用的框架，它基于一个简单的想法(图2(a)所示)，即在标记数据的监督下，未标记的数据应该在不同的扰动下产生一致的预测。它由两个模型：学生模型和教师模型组成，其中教师模型是学生模型的指数移动平均(EMA)。教师模型通过将输出级别的两个域与一致性正则化对齐，将学习到的知识转移到学生中。

φ_t+1←αφ_t+(1-α)θ_t

其中θ_t和φ_t分别表示第t次迭代的学生模型和教师模型的参数。

域混合策略是通过在监督训练设置中使用复制粘贴方法进行数据增强，有大量工作来提高深度模型的性能。例如，CutMix在训练图像中切割和粘贴的补丁，其中标签也混合到补丁的区域。MixUp在图像对的凸组合及其带有混合权重的标签上训练网络来解决上述问题。FMix提出使用通过将阈值应用于从更高维空间采样的低频图像获得的随机二进制掩码。上述几种方法通过线性组合或者剪切并粘贴操作来提升深度学习模型应对数据域扰动与噪声的鲁棒性。

图1显示了本发明提出的多教师双向自训练(DTBS)框架，以在线方式动态生成伪标签指导学生，整个网络由两个教师和学生分支组成4个工作流，其中教师和学生网络采用同一骨干网络。

2.1渐近域混合

如图1中Target-day flow和Target-night flow,本发明提出了渐进域混合(GDM)最小化源域和目标域黑夜的域偏移，在每次迭代中，首先利用步骤2的策略随机采样一张源域图像X_S，然后随机选择其中一半的类并将其标签作为候选的补丁为后续粘贴做准备。

定义M∈{0,1}^H×W作为二进制掩码，其中M(h,w)＝1表示X_S中(h,w)位置像素属于被选择的类，M(h,w)＝0表示X_S中(h,w)位置像素属于未被选中的类；所以混合后的目标域白天图片和目标域黑夜图片/>表示为：

基于平滑知识转移的中心思想，先执行目标域白天图片工作流再执行目标域黑夜图片工作流。所述的目标域白天图片包括和/>目标域黑夜图片包括/>和/>且/>和/>和/>的数量分别相等。

其中，参数带上下标的进行解释；其中，j表示像素点，c表示类别

表示/>超过最大softmax概率阈值τ的像素比例，其具体表达式为：

2.2教师-学生知识反馈

实施例：

1.1数据集

在两个具有挑战性的无监督域适应任务上进行实验：Cityscapes适应到ACDCnight和Cityscapes适应到Dark Zurich。

Cityscapes用于街景，其中2,975张图像用于训练，500张图像用于验证，1525张图像用于测试。有19个类别的像素级注释，原始图像和注释的分辨率均为2,048×1,024像素。

ACDC总共包含4,006张图像，用于四种不利条件(雾、雨、夜间和雪)。夜间有400张训练图像、106张验证图像和500张测试图像的像素级注释。

Dark Zurich是在苏黎世拍摄的街景，有3041张白天图像、2920张黄昏图像和2416张夜间图像，所有这些图像都是分辨率为1920×1080的未标记图像。Dark Zurich还包含201张手动注释的夜间图像，其中151张(Dark Zurich test)用于测试，50张(Dark Zurichval)用于验证。

1.2实验设置

采用和DAFormer相同的骨干网络，即：基于mmsegmentation框架使用MiT-B5编码器。解码器使用C_e＝256和1、6、12、18的膨胀率。所有编码器都在ImageNet-1k上进行了预训练。使用DAFormer原始的域适应方法作为基线。使用一批512×512随机裁剪图片进行40k次迭代训练。使用AdamW策略设置编码器的学习率为6×10^-5，解码器的学习率是6×10^-4。权重衰减为0.01，线性学习率预热t_warm＝1.5k，之后线性衰减。根据DACS的设置，我们使用相同的数据增强参数，并设置α＝0.99和τ＝0.968。RCS温度设置为T＝0.01，以最大化具有稀有像素的类的采样像素。

1.3与最先进的方法比较

在两个极具挑战的无监督领域自适应任务上(Cityscapes适应到ACDC night和Cityscapes适应到Dark Zurich)，将我们提出的DTBS方法与其它最先进的方法进行比较。我们在表1中比较了ACDC night test的几种最先进的方法。使Citycsapes适应ACDCnight，我们的方法实现了53.8％的mIoU，这将基线的mIoU提高了5％。除了整体性能的提高外，我们还发现，由于我们的解耦风格和照明适应策略，一些纹理相似的类别(道路、人行道、建筑)也有了实质性的改进。此外，与我们的方法相比，分割模型从域S到域T的直接自适应并没有显著提高性能。这进一步验证了我们的假设，即当领域差距太大并受到不同因素(风格和照明)的影响时，一般的领域自适应方法表现不佳。在表2中，我们在Dark Zurichtest上对我们的方法进行了基准测试。在Dark Zurich测试中，我们的方法显著优于DAFormer。我们观察到我们的方法对建筑的预测精度显著提高，比基线高3.4％mIoU。虽然我们的方法在预测一些罕见类别(卡车、公共汽车和自行车分别为12.0％、4.2％和2.7％mIoU)方面更为优越。

表1

表2

1.4使用其他骨干网络进行验证

到目前为止，我们已经以DAFormer为骨干网络进行了大量实验。为了更全面地证明我们所提出方法的有效性，我们还对其他骨干网络进行了比较。如表3所示，我们在数据集上验证了我们方法在另外两个主干上的性能，即DeepLabV2、DANNet和SegFormer。我们可以发现，我们的方法在3种骨干网络上，都显著超过了基线(DAFormer)UDA策略的性能。这证明了我们的方法不仅在DAFormer上而且在其他卷积和transformer结构的分割网络上的有效性和适用性。

表3

1.5模块消融实验

表4展示我们方法的不同模块的影响，我们对Cityscapes到ACDC night设置进行了消融研究，如表4所示。“Baseline”表示DAFormer训练结果的再现。“Baseline+GDM”表示只引入了ACDC日间图像作为中间域执行渐进域混合，教师模型对学生没有反馈。“Baseline+TSF”意味着不引入白天的图像，由单一的教师模型提供学生模型跨域知识，从而执行T-S反馈。“Baseline+GDM+TSF”意味着引入了白天目标域数据集，两名教师将反馈知识整合到学生身上。单独使用反馈策略可以获得1.1％mIoU的增益。使用GDM，可以观察到2.83％mIoU的增益。我们提出的方法结合了两者的优点，为基线模型带来了4.95％的总增益。

表4

1.6超参数的影响

表5显示了我们的方法对其独特超参数β(反馈系数)的不同值的敏感性。当β＝0.8时，该模型表现出最佳性能，即40.64％的mIoU。当β＝0时，反馈完全由日间教师贡献，仅获得39.81％的mIoU。当β＝1时，夜间教师完全贡献反馈，仅获得39.15％的mIoU。此外，β变化对模型性能的干扰较小，并且该方法对β的变化具有鲁棒性。

表5

1.7可视化研究

将本发明方法与DAFormer进行定性比较。本发明始终如一地生成更准确的分割图。ACDC夜间值的五个样本可视化如图3所示，观察到DAFormer错误地将人行道区域预测为道路。通过教师模型参数反馈，我们的方法在预测街道侧结构(建筑物、围栏)和容易混淆的类别(交通标志、绿化带)方面表现出色。基于我们对风格转变的解释，由于我们的解耦策略(建筑物的mIoU提高了6.8％)，该模型更能够推广到各种风格的建筑物。这与我们的假设一致，即建筑风格的差异是风格转变的主要原因之一。

我们还在图4中显示了一些客观分割结果。实验结果证明每一个模型组件都有助于整体性能的提高，并且随着在我们的方法中使用更多的组件，分割结果的各种细节会得到改善。

Claims

1.一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于提出一种单阶段的多教师双向自训练框架，具体实现步骤如下：

步骤1：源域图像有监督指导学生模型；

步骤2：在源域标签中进行稀有类抽样；

步骤3：源域渐进域混合目标域白天和目标域黑夜；

步骤4：源域和目标域在输出级别对齐；

步骤5：集成不同因素教师知识以迭代学生模型；

步骤6：重复步骤1～步骤5的若干次进行迭代。

2.根据权利要求1所述的一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于步骤1具体实现如下：

将源域图像X_S∈S及其对应的标签Y_S输入到源域工作流中进行有监督学习源域语义知识；在获得源域图像X_S的分割预测图后，利用分类交叉熵损失训练学生网络g_θ；

其中C代表类别数量，H,W为源域图像的高度和宽度,表示像素点j在通道c上的标签；/>表示像素点j在通道c上的源域图像。

3.根据权利要求2所述的一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于步骤2具体实现如下：

源数据集中每个类c的频率f_c能够根据类c的像素数量来计算：

其中，N_S表示源数据集中源域图像X_S的数量；

某一类c的采样概率P(c)定义为其频率f_c的函数:

其中，C表示总的类别数量，T表示温度用于控制分布的平滑度。

4.根据权利要求3所述的一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于步骤3具体实现如下：

提出渐进域混合最小化源域和目标域黑夜的域偏移，在每次迭代中，首先利用步骤2的策略随机采样一张源域图像X_S，然后随机选择其中一半的类并将其标签作为候选的补丁为后续粘贴做准备；

5.根据权利要求4所述的一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于为学习更多鲁棒的特征，对混合后的目标域白天图片和目标域黑夜图片/>进行数据增强。

6.根据权利要求4或5所述的一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于步骤4具体实现如下：

基于平滑知识转移的中心思想，先执行目标域白天图片工作流再执行目标域黑夜图片工作流；所述的目标域白天图片包括和/>目标域黑夜图片包括/>和/>且/>和/> 和/>的数量分别相等；

根据先后次序，混合后的目标域白天图片输入到学生模型g_θ，然后原目标域白天图片/>输入到风格教师模型/>而EMA更新风格教师模型/>的参数φ^S，得到稳定的伪标签：

其中，α表示EMA衰减系数，t表示训练迭代，θ_t表示学生模型g_θ在第t次迭代的参数；

为学习不同城市之间的解耦导致的风格变化，使用伪标签及其质量估计在目标域白天对学生网络g_θ进行额外训练：

其中，j表示像素点，c表示类别；q_T*表示超过最大softmax概率阈值τ的像素比例，其具体表达式为：

同样的方法额外训练目标域黑夜:输入到学生模型g_θ，然后原目标域黑夜图片/>输入到光照教师模型/>而EMA更新光照教师网络/>的参数φ^I，得到稳定的伪标签：

为学习相同数据集之间的解耦导致的光照变化，使用伪标签及其质量估计在目标域黑夜对学生网络g_θ进行额外训练：

其中，和/>分别表示风格教师模型和光照教师模型输出的预测分割图；

7.根据权利要6所述的一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于步骤5具体实现如下：

根据教师模型的整合知识来更新学生网络，使用Re-weight EMA更新学生网络,在每个训练迭代结束时更新学生网络:

β表示反馈系数，且β>0.5；

此外为达到更好的EMA集成效应，采用两个教师的预测图的所有像素级归一化熵的总和之比来设置反馈系数；因此提出了一种改进的TSF版本即TSF-E：

给定一个输入目标域图像，所有像素级归一化熵的总和被定义为如下：

其中表示目标域白天图片/>和黑夜图片/>凭借softmax layer输出的soft-segmentation map，重新定义反馈系数为：

因此，学生能够动态地接受教师知识集成，从而避免某个教师过多将错误知识传递给学生的问题。

8.根据权利要7所述的一种基于语义分割和自训练的夜间图片领域自适应方法，其特征在于步骤6具体实现如下：

整个训练工作流表示为源域图像流、目标域白天域适应、目标域黑夜域适应和教师知识集成反馈迭代，因此总的损失函数表示为：