CN113936275A

CN113936275A - 一种基于区域特征对齐的无监督域适应语义分割方法

Info

Publication number: CN113936275A
Application number: CN202111196859.0A
Authority: CN
Inventors: 庄楚云; 周千寓; 鲁学权; 马利庄
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-01-14

Abstract

本发明涉及一种基于区域特征对齐的无监督域适应语义分割方法，该方法包括：训练学生‑教师模型：将源域图片输入到学生模型中得到分割预测结果，将源域图片的分割预测结果和源域标签进行交叉熵损失计算，对源域图片和目标域图片的像素点做基于类别的融合，得到的第一融合图片经过学生模型的分割预测结果和第一融合图片的伪标签进行一致性损失的计算，对源域图片和目标域图片的像素点做基于区域的融合，对第二融合图片和目标域图片进行区域特征对齐获取对比损失，计算三类损失的梯度，反传梯度更新学生模型的参数，同时更新教师模型的参数；采用训练的教师模型对目标域图片进行语义分割。与现有技术相比，本发明分割效果的鲁棒性和稳定性大大提高。

Description

一种基于区域特征对齐的无监督域适应语义分割方法

技术领域

本发明涉及一种语义分割方法，尤其是涉及一种基于区域特征对齐的无监督域适应语义分割方法。

背景技术

语义分割是计算机视觉领域的一个基础性的研究方向，它的任务是对图片上的每个像素进行类别标签的分配。它有许多的现实应用场景，比如自动驾驶、医学影像分析、远程遥感系统。随着深度学习的不断发展，特别是自2017年以来，深度学习模型和技术已经在语义分割领域取得了巨大的进展。与此同时，这些深度学习方法都需要大量的有标签数据，获得这些数据则需要高昂的开销和时间成本。

为了解决上述问题，无监督域适应语义分割已经开始成为一个热门的研究方向。它的目标是基于有标签的源域数据和无标签的目标域数据，学习出一个能够在目标域上分割表现接近于源域的模型。它的研究重点在于如何将不同分布的源域数据和目标域数据进行域对齐。目前主流的域对齐方法主要集中在三个层次：输入层次(图像层次)、特征层次、输出层次(标签层次)。其中，特征对齐是研究最为广泛、也是效果最好的一种域对齐方法。

从问题的研究对象来看，目前的特征对齐方法主要是着眼于图片全局上的特征对齐，即对源域图片和目标域图片在图片级别进行特征不一致性的惩罚。这种方法忽视了区域特征对齐的重要性，由于域差异的存在，源域和目标域的物体往往是存在于不同分布的环境下。同一个物体在源域进行了大量的有监督学习之后，对它的分割效果会非常依赖于源域的上下文信息，导致物体在目标域不同分布的环境中的分割效果急剧下降。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于区域特征对齐的无监督域适应语义分割方法。

本发明的目的可以通过以下技术方案来实现：

一种基于区域特征对齐的无监督域适应语义分割方法，该方法包括：

训练学生-教师模型：

将源域图片输入到学生模型中得到分割预测结果，将源域图片的分割预测结果和源域标签进行交叉熵损失计算，

对源域图片和目标域图片的像素点做基于类别的融合，得到的第一融合图片经过学生模型的分割预测结果和第一融合图片的伪标签进行一致性损失的计算，

对源域图片和目标域图片的像素点做基于区域的融合，对第二融合图片和目标域图片进行区域特征对齐获取对比损失，

计算交叉熵损失、一致性损失和对比损失的梯度，反传梯度更新学生模型的参数，并使用指数滑动平均法更新教师模型的参数；

采用训练的教师模型对目标域图片进行语义分割。

优选地，所述的基于类别的融合的方式包括：随机选取源域图片上设定数量类别的像素点，将选取的像素点覆盖在目标域图片上的相同位置得到第一融合图片。

优选地，所述的第一融合图片的伪标签通过如下方式获得：

将目标域图片输入至教师模型，得到的分割预测结果作为目标域图片的伪标签；

将源域标签和目标域图片的伪标签按照获取第一融合图片时选取的像素点对应做基于类别的融合，得到第一融合图片的伪标签。

优选地，所述的基于区域的融合的方式包括：从目标域图片上随机裁剪出一个矩形区域的像素点，将该区域的像素点覆盖在源域图片上的相同位置得到第二融合图片。

优选地，对第二融合图片和目标域图片进行区域特征对齐获取对比损失的具体方式包括：

将第二融合图片输入至学生模型，基于源域标签和目标域图片的伪标签获取第二融合图片的伪标签；

采用教师模型投影结构对目标域图片在教师模型主干网络处提取的特征进行投影处理得到目标域图片的投影向量；

采用学生模型投影结构对第二融合图片在学生模型主干网络处提取的特征进行投影处理得到第二融合图片的投影向量；

对目标域图片的投影向量和第二融合图片的投影向量之间的重叠区域进行特征对齐，获取第二融合图片的投影向量上重叠区域的对比损失。

优选地，第二融合图片的伪标签通过如下方式获得：将源域标签和目标域图片的伪标签按照获取第二融合图片时选取的像素点对应做基于区域的融合，得到第二融合图片的伪标签。

优选地，所述的教师模型投影结构和学生模型投影结构分别包括主干网络之后的与分割头部并行的两个1*1的卷积。

优选地，获取第二融合图片的投影向量上重叠区域的对比损失的具体方式为：

对第二融合图片的投影向量的重叠区域的每个位置分别筛选正负样本；

基于筛选的正负样本，计算第二融合图片中重叠区域各个位置投影向量的对比损失并求和得到该重叠区域的对比损失。

优选地，筛选正负样本的方式包括：

对于重叠区域中的每个位置，其正样本包括目标域图片相同位置的投影向量，根据教师模型对目标域图片在该位置处的分割预测结果的预测概率大小筛选该位置是否参与重叠区域对比损失的计算，若教师模型对目标域图片在该位置处的分割预测结果的预测概率大于设定阈值，则对应位置参与重叠区域对比损失的计算，进而筛选该位置对应的负样本，所述的负样本包括目标域图片以及第二融合图片中其他位置且与当前筛选位置不属于同一标签类别位置处对应的投影向量，所述的负样本还包括历史迭代过程中产生的负样本。

优选地，对比损失通过下式获得：

其中，

表示第二融合图片中重叠区域内位置(i，j)处投影向量E_m2(i,j)的对比损失，

为投影向量E_m2(i,j)对应的正样本投影向量，E_(m,n)为投影向量E_m2(i,j)对应的负样本投影向量，N表示投影向量E_m2(i,j)对应的负样本集合，P为筛选的参与对比损失计算的位置集合，NUM为集合P中参与对比损失计算的位置的总数，exp为指数运算，sim(u,v)＝(u^Tv)/(||u||||v||)，sim(u,v)表示投影向量u和v的余弦相似度，τ为参数因子。

与现有技术相比，本发明具有如下优点：

(1)本发明解决了常见的无监督域适应语义分割方法仅关注于图片全局特征对齐的问题，基于区域特征对齐的方法能够促使模型学习出更加专注于物体本身的特征，提高物体在不同环境下分割效果的稳定性，使得物体在目标域环境下的分割效果能够更加接近源域，加强物体在源域和目标域不同环境下的分割效果的鲁棒性和稳定性；

(2)由于教师模型的置信度高于学生模型的置信度，提取出来的特征更加准确，不同于常见的双向靠拢的对比损失函数，本发明使用由学生模型的投影向量向教师模型的投影向量单向靠拢的学习模式，可以避免双向靠拢时学生模型不准确的输出对对比损失的学习效果造成干扰，提高模型的准确度；

(3)本发明计算对比损失时设计正负样本的筛选策略对正负样本进行筛选，从而能够更加有效的进行区域特征对齐，提高模型的分割预测效果。

附图说明

图1为本发明一种基于区域特征对齐的无监督域适应语义分割方法的总体流程框图；

图2为本发明交叉熵损失计算的流程框图；

图3为本发明一致性损失计算的流程图；

图4为本发明对比损失计算的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

如图1所示，本发明提供一种基于区域特征对齐的无监督域适应语义分割方法，该方法使用现有的学生-教师模型作为基础框架，具体包括如下步骤：

训练学生-教师模型：

采用训练的教师模型对目标域图片进行语义分割。

具体实施步骤如下：

参阅图2，本发明步骤1将源域图片输入学生模型得到源域图片的分割预测结果，并将该结果和源域标签做交叉熵损失计算。

S11：将源域图片输入学生模型，在学生模型主干网络处提取得到特征图；

S12：将S11提取得到的特征图输入学生模型分割头部；

S13：将S12中分割头部的输出经过处理得到源域图片的分割结果；

S14：将S13中得到的源域图片分割结果与源域标签进行交叉熵损失的计算。

参阅图3，本发明步骤2使用源域图片与目标域图片生成第一融合图片。

S21：根据源域图片的标签，随机选取源域图片上一半类别的像素点，将该部分的像素点覆盖在目标域图片上的相同位置，得到第一融合图片；

参阅图3，本发明步骤2将目标域图片放入教师模型，在投影结构的输出端得到目标域图片的投影向量，在分割头部得到每个像素点上的类别预测以及对应于该类别的预测概率，并将类别预测当作目标域图片的伪标签。

S22：将目标域图片输入教师模型，在教师模型主干网络处提取得到特征图；

S23：将S22提取得到的特征图输入教师模型投影结构；

S24：将S23中投影结构的输出经过处理得到目标域图片的投影向量；

S25：将S22提取得到的特征图输入教师模型分割头部；

S26：将S25中分割头部的输出经过处理得到目标域图片每个位置上的预测概率；

S27：将S25中分割头部的输出经过处理得到目标域图片每个位置上的伪标签；

参阅图3，本发明步骤2对源域图片的标签和目标域图片的伪标签进行融合，得到第一融合图片的伪标签。

S28：采用与S21相同的方式，对源域图片标签和S27中得到的目标域伪标签进行融合，得到第一融合图片的伪标签。

参阅图3，本发明步骤2将融合图片1放入学生模型，在分割头部得到每个像素点上的类别预测，使用一致性损失函数对类别预测结果和S28中得到的融合标签1进行惩罚。

S29：将第一融合图片输入学生模型，在学生模型主干网络处提取得到特征图；

S210：将S29提取得到的特征图输入学生模型分割头部；

S211：将S210中分割头部的输出经过处理得到第一融合图片的分割结果；

S212：将S211中得到的融合图片1的分割结果与S28中得到的融合标签1进行一致性损失的计算。

参阅图4，本发明步骤3使用图片融合来制造环境变化，通过将目标域上的随机矩形区域粘贴到源域相同位置的方式，来对该矩形区域创造出不同环境下的两个样本。

S31：从目标域图片上随机裁剪出一个矩形区域的像素点，将该区域的像素点覆盖在源域图片上的相同位置，得到第二融合图片；

参阅图4，本发明步骤3对源域图片的标签和目标域图片的伪标签进行融合，得到第二融合图片的伪标签。

S32：采用与S31相同的方式，对源域图片标签和S27中得到的目标域伪标签进行融合，得到第二融合图片的伪标签。

参阅图4，本发明步骤3将融合图片2放入学生模型，在投影结构的输出端得到第二融合图片的投影向量，针对第二融合图片的投影向量和S24中得到的目标域图片的投影向量之间的重叠矩形区域，使用对比损失函数进行惩罚。

S33：将第二融合图片输入学生模型，在学生模型主干网络处提取得到特征图；

S34：将S33提取得到的特征图输入学生模型投影结构；

S35：将S34中投影结构的输出经过处理得到第二融合图片的投影向量；

参阅图4，本发明步骤3对正负样本采用不同的采样策略来进一步发挥对比损失函数的效果。对于负样本，先对图片上的所有位置进行随机筛选，然后根据融合标签2过滤掉不同位置上同类别的负样本；对于正样本，设置一个阈值过滤掉低置信度的样本，仅那些在分割头部的预测概率大于该阈值的位置才参与对比损失函数的计算。

S36：对S35得到的第二融合图片的投影向量和S24得到的目标域图片的投影向量，使用正负样本过滤策略过滤掉一部分样本；

参阅图4，本发明步骤3使用存储机制来进行更加有效的区域特征对齐。该方法设置一个投影向量存储器来存储过去几个迭代回合产生的负样本，这些负样本与该回合的负样本一起参与当前回合的对比损失计算。

S37：使用S35得到的第二融合图片的投影向量、S24得到的目标域图片的投影向量、投影向量存储器中的负样本向量，进行对比损失的计算；

S38：将S35得到的第二融合图片的投影向量和S24得到的目标域图片的投影向量放入投影向量存储器进行存储；

本发明步骤2和步骤3使用到的投影结构分别接在学生模型和教师模型的主干网络之后，由两个1*1的卷积来实现。

若不考虑正负样本的筛选，第二融合图片经过学生模型得到的投影向量记作E_m2，位置(i，j)处的投影向量记作E_m2(i，j),目标域图片经过教师模型得到的投影向量记作

位置(i，j)处的投影向量记作

由于教师模型的置信度高于学生模型的置信度，该方法使用由学生模型的投影向量向教师模型的投影向量单向靠拢的学习模式，即仅计算学生模型输出的E_m2上属于重叠矩形区域的投影向量的对比损失。对于E_m2上属于重叠矩形区域的每一个位置的投影向量E_m2(i，j)，正样本的定义是教师模型输出的

上相同位置的投影向量，即

是属于E_m2(i，j)的唯一一个正样本，负样本的定义是E_m2和

上其他位置的投影向量。此过程中并未考虑对E_m2和

上其他位置的投影向量中与当前位置类别相同的投影向量的筛选，以及其他负样本的引入。同时也未考虑对计算总对比损失的位置的筛选。为了提高区域特征对齐的效果，本实施例设计了相应的样本筛选策略进行正负样本筛选并进行对比损失的计算。

综合以上，获取第二融合图片的投影向量上重叠区域的对比损失的具体方式为：

筛选正负样本的方式包括：

对比损失通过下式获得：

其中，

参阅图1，本发明步骤4对学生模型的三个损失函数进行梯度计算，反传梯度并更新学生模型参数。

S41：更新学生模型主干网络参数；

S42：更新学生模型分割头部参数；

S43：更新学生模型投影结构参数；

参阅图1，本发明步骤4采用指数滑动平均法，用学生模型参数来更新教师模型参数。

S44：采用指数滑动平均法，用学生模型主干网络的参数来更新教师模型主干网络参数；

S45：采用指数滑动平均法，用学生模型分割头部的参数来更新教师模型分割头部参数；

S46：采用指数滑动平均法，用学生模型投影结构的参数来更新教师模型投影结构参数。

本实施例还提供一种基于区域特征对齐的无监督域适应语义分割装置，包括存储器和处理器，存储器用于存储计算机程序，处理器用于当执行所述计算机程序时，实现上述一种基于区域特征对齐的无监督域适应语义分割方法。

此外，本实施例还提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述一种基于区域特征对齐的无监督域适应语义分割方法。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，该方法包括：

训练学生-教师模型：

采用训练的教师模型对目标域图片进行语义分割。

2.根据权利要求1所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，所述的基于类别的融合的方式包括：随机选取源域图片上设定数量类别的像素点，将选取的像素点覆盖在目标域图片上的相同位置得到第一融合图片。

3.根据权利要求2所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，所述的第一融合图片的伪标签通过如下方式获得：

4.根据权利要求1所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，所述的基于区域的融合的方式包括：从目标域图片上随机裁剪出一个矩形区域的像素点，将该区域的像素点覆盖在源域图片上的相同位置得到第二融合图片。

5.根据权利要求4所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，对第二融合图片和目标域图片进行区域特征对齐获取对比损失的具体方式包括：

6.根据权利要求5所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，第二融合图片的伪标签通过如下方式获得：将源域标签和目标域图片的伪标签按照获取第二融合图片时选取的像素点对应做基于区域的融合，得到第二融合图片的伪标签。

7.根据权利要求5所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，所述的教师模型投影结构和学生模型投影结构分别包括主干网络之后的与分割头部并行的两个1*1的卷积。

8.根据权利要求5所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，获取第二融合图片的投影向量上重叠区域的对比损失的具体方式为：

对第二融合图片的投影向量重叠区域的每个位置分别筛选正负样本；

9.根据权利要求8所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，筛选正负样本的方式包括：

10.根据权利要求9所述的一种基于区域特征对齐的无监督域适应语义分割方法，其特征在于，对比损失通过下式获得：

其中，