CN113706547B

CN113706547B - 一种基于类别同异性引导的无监督域适应语义分割方法

Info

Publication number: CN113706547B
Application number: CN202110997484.1A
Authority: CN
Inventors: 赵丹培; 苑博; 史振威; 张浩鹏; 姜志国
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-07-18
Anticipated expiration: 2041-08-27
Also published as: CN113706547A

Abstract

本发明公开了一种基于类别同异性引导的无监督域适应语义分割方法，类别同异性的内涵包括同类特征聚合与异类特征推远，即在域适应过程中，既保证了不同域之间相同类别目标的特征尽可能靠近相同的聚类中心，同时使得不同类别目标之间的特征分布差异尽可能大。从同类特征聚合+异类特征推远出发，通过构建图像级—特征级—类别级—实例级的层级域适应策略，实现由粗到细、由浅至深的域适应效果。本发明所构建的模型全面考虑了源域与目标域之间的差异，并在通用街景语义数据集无监督域适应语义分割任务上实现了领先的性能表现。

Description

一种基于类别同异性引导的无监督域适应语义分割方法

技术领域

本发明涉及计算机视觉与模式识别技术领域，更具体的说是涉及一种基于类别同异性引导的无监督域适应语义分割方法。

背景技术

语义分割是对图像中的每一个像素赋予一个语义标签。目前基于深度学习的语义分割方法需要大规模的人工精细化标注，而精细化标注的时间和人力成本极高，因此利用已有的有标注源域数据训练模型，在无标注的目标域上进行有效推理，进而在目标域上实现无监督的语义分割，此种方法称为无监督域适应语义分割，其具有理论上的研究价值与实际的应用价值。

无监督域适应语义分割任务，其核心在于缩小源域与目标域之间的域间差异，使得在源域上训练的模型在目标域上的泛化能力尽可能地强。目前主流的域适应策略可以分为基于距离优化的方法和基于对抗生成网络(Generative Adversarial Network,GAN)的方法，前者通过构建距离评价策略，通过最小化源域特征与目标域特征分布之间的距离来实现域适应；后者通过对抗生成策略来实现模型对域间差异的泛化能力。由于对抗生成网络较强的学习能力，其域适应效果在多种视觉任务如目标检测、语义分割上均取得了较好的效果。但目前基于GAN的方法存在以下不足：1)基于GAN的全局对抗学习方法通过特征提取网络提取源域和目标域图像的特征，同时训练生成器和判别器；但当生成器得到的特征可以不被判别器正确判别时，训练得到语义分割模型在目标域上的泛化性依然较差。这是由于基于全局特征对抗学习的域适应策略忽略了深层次的类内和类间差异；2)尽管类别级的域适应策略与实例级的域适应策略已经被提出，但“像素混淆”的问题尚未被较好地解决。

因此，如何提供一种基于类别同异性引导的无监督域适应语义分割方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于类别同异性引导的无监督域适应语义分割方法，具有域适应效果好，模型泛化性能强，像素误分类少等优点。

为了实现上述目的，本发明采用如下技术方案：

一种基于类别同异性引导的无监督域适应语义分割方法，包括：第一阶段训练过程和第二阶段训练过程，所述第一阶段训练过程包括以下步骤：

图像级域适应：将源域图像与目标域图像x^t输入图到图转换网络中，利用对抗生成损失和循环一致性约束监督所述图到图转换网络训练，获取具有源域图像语义内容和目标域图像风格特征的转换后源域图像/>

特征级域适应：将转换后源域图像转换后源域图像/>对应的像素级标注y^s以及目标域图像x^t输入至共享参数的特征提取网络中提取图像特征，并将源域图像和目标域图像的特征图送入判别器D进行判别，基于对抗学习策略，交替训练生成器G和所述判别器D，并基于生成对抗损失监督网络直至模型收敛；

类别级域适应：基于两个独立的解码器{D^S,D^T}分别提取源域图像和目标域图像的特征图与预测概率，并从预测概率中提取相应通道特征分布，采用余弦距离计算异类特征之间的相似度，采用曼哈顿距离优化同类特征分布，并采用类内聚合与类间推远并行机制的损失函数；

实例级域适应：基于源域图像的特征图和目标域图像的特征图分别进行实例级特征表示，并结合源域图像的特征向量和目标域图像的特征向量计算类别级域适应复杂度，通过所述实例级特征表示和所述类别级域适应复杂度优化实例级域损失函数；

所述第二阶段训练过程基于第一阶段训练好的模型，基于自监督学习方式生成目标域的伪标注，重新训练模型。

优选的，图像级域适应中对抗生成损失函数为：

其中，表示生成网络和判别网络之间的对抗损失，E(·)表示统计期望，目标域图像/>表示目标域中的图像样本，X^T表示目标域样本集合，源域图像与其对应的像素级标注/>表示源域中的图像样本，X^S表示源域图像样本集合，/>表示/>对应的像素级标注，Y^S表示源域标注集合；

循环一致性约束损失函数为：

其中，L_cyc(G^S,G^T)表示循环一致性损失，P_data(x^s)为源域数据分布表示，G^S表示源域至目标域的生成网络，G^T表示目标域至源域的生成网络，P_data(x^t)为目标域数据分布表示,E(·)表示统计期望。

优选的，基于生成对抗损失监督网络直至模型收敛中的损失函数为：

其中，表示生成网络G和判别网络D之间的对抗损失，S表示softmax函数，/>表示目标域中的图像样本。

优选的，判别器D的优化策略为判别输入的特征为输入源域还是目标域，其损失函数为：

其中，L_D(G,D)表示判别器D的损失，S表示softmax函数,表示目标域中的样本，表示源域中的样本。

优选的，基于两个独立的解码器{D^S,D^T}分别对源域图像和目标域图像的特征图预测概率具体计算公式为：

其中，是经过编码网络得到的D维的语义特征图，为预测概率，N为数据集类别数，h和w分别表示源域或目标域特征图的高度和宽度。

优选的，采用余弦距离计算异类特征之间的相似度，计算公式为：

D_sim(c_i,c_j)＝0.5+0.5×D_cosine(c_i,c_j) (8)

其中，D_sim(c_i,c_j)表示c_i和c_j的余弦相似度，c_i和c_j分别表示属于第i类和第j类的特征向量，D_cosine(c_i,c_j)表示c_i和c_j之间的余弦距离。

优选的，类内聚合与类间推远并行机制的损失函数为：

其中，L_ISIA表示类别级域适应损失函数，和/>分别表示提取的属于源域输入图像和目标域输入图像的第i类别特征，/>表示特征提取网络获取的属于目标域输入图像的第k类别特征，N表示目标类别数量，D_sim(·)表示余弦相似度度量函数，β为常系数，用以平衡类间特征推远在训练过程中的权重。

优选的，实例级特征表示计算公式为：

其中表示第k类别中第i个二值化掩膜,i∈{1,···,N}，R_k表示/>的集合，Γ为执行在标注图L中寻找第不连通区域的步骤，/>为生成实例级特征表示的步骤，r表示二值化掩膜，f为特征提取网络获取的特征图，h，w分别表示特征图的高度和宽度，ε为正则化项；

设类别级域适应复杂度为R_ac＝{ζ_k|k＝1,2,···,N_ins}，其中N_ins为所有实例包含的类别数，ζ_k的计算方式为：

其中k,i∈{1,···,N_ins}，ζ_i，ζ_j分别表示第i个和第j个类别域适应的难度，N_ins表示图像中的实例数量，在模型训练过程中，ζ_k在每一个图像批(batch)里面进行更新，η_k用来避免训练过程中的权重跳变，保持训练过程的稳定性；

实例级域损失函数为：

其中，L_AIM表示实例级域适应损失函数，f_i ^t表示特征提取网络获取的目标域特征图，r_t表示图像中第t个类别的二值化掩膜，表示特征提取网络获取的源域第k个实例特征，/>表示目标域中二值化掩膜的集合，N_ins表示图像中的实例数量。

优选的，所述图像级域适应、所述特征级域适应、所述类别级域适应和所述实例级域适应同时训练，总体损失函数为：

其中，和/>分别为源域和目标域上的交叉熵损失，用于计算模型预测的分割结果与真实标注的差异，H和W分别表示图像的高度和宽度，N表示标注的类别数，y_ik和p_ik分别代表第i个像素被分类为第k个类别的真实概率与模型预测结果概率，L_D为判别网络损失，λ_seg，λ_adv，λ_ISIA，λ_AIM和λ_D为各个损失项的权重系数。

优选的，第二阶段中，基于自监督学习方式生成目标域的伪标注过程的损失函数为：

其中，和/>分别为源域和目标域上的交叉熵损失，用于计算模型预测的分割结果与真实标注的差异，L_D为判别网络损失，λ_seg，λ_adv，λ_ISIA，λ_AIM和λ_D为各个损失项的权重系数。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于类别同异性引导的无监督域适应语义分割方法，充分考虑了源域与目标域之间的域间差异，从图像级域适应、特征级域适应、类别级域适应和实例级域适应四个层面出发，实现由粗到细、由浅至深的域适应效果。与现有的域适应方法相比，本发明提出的方法具有域适应效果好，模型泛化性能强，像素误分类少等优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于类别同异性引导的无监督域适应语义分割方法原理框图。

图2附图为类别级域适应原理框图；

图3附图为实例级域适应原理框图；

图4附图为街景语义分割任务可视化效果对比图；

图5附图为建筑物语义分割任务可视化结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于类别同异性引导的无监督域适应语义分割方法：如图1所示，包括：

第一阶段训练过程和第二阶段训练过程，第一阶段训练过程包括以下步骤：

图像级域适应：将源域图像与目标域图像x^t输入图到图转换网络中，利用对抗生成损失和循环一致性约束监督图到图转换网络训练，获取具有源域图像语义内容和目标域图像风格特征的转换后源域图像/>对抗生成损失函数为：

循环一致性约束损失函数为：

其中，L_cyc(G^S,G^T)表示循环一致性损失，P_data(x^s)为源域数据分布表示，G^S表示源域至目标域的生成网络，G^T表示目标域至源域的生成网络，P_data(x^t)为目标域数据分布表示，E(·)表示统计期望。

图像级域适应策略从风格转换的角度减小域间差异，同时需要说明的是，输入至转换网络中的源域图像和目标域图像数量并不等同，源域图像每次输入一张，目标域图像数量一次性可输入多张。

特征级域适应：特征级域适应策略目的在于使得，模型以带标注的源域和无标注的目标域作为输入，为保证特征空间相同，针对源域和目标域采用共享参数的特征提取网络F，将转换后源域图像转换后源域图像/>对应的像素级标注y^s以及目标域图像x^t输入至共享参数的特征提取网络中提取图像特征，其中，输入至提取网络中的源域图像和目标域图像的数量相等，根据实际需求可同时输入多张，并将源域图像和目标域图像的特征图送入判别器D进行判别，基于对抗学习策略，交替训练生成器G和判别器D，其中，生成器网络G由特征提取网络F与分类头C构成，即/>并基于生成对抗损失监督网络直至模型收敛；其中，模块的优化策略为最小化源域与目标域之间的特征分布差异，损失函数如下：

其中，表示生成网络G和判别网络D之间的对抗损失，S表示softmax函数，/>表示目标域中的图像样本；判别器的优化策略为判别输入的特征为输入源域还是目标域，其损失函数为：

其中，L_D(G,D)表示判别器的损失，S表示softmax函数,表示目标域中的样本，/>表示源域中的样本。

类别级域适应：类内聚合与类间推远(Inter-class Separation and Intra-class Aggregation,ISIA)并行机制，其核心思想是使得跨域的同类目标特征分布尽可能靠近相同的聚类中心，不同类别目标的特征分布聚类中心尽可能相互远离，如图2所示。

基于两个独立的解码器{D^S,D^T}分别提取源域图像和目标域图像的特征图与预测概率：

其中，是经过编码网络得到的D维的语义特征图，为预测概率，N为数据集类别数，h和w分别表示源域或目标域特征图的高度和宽度；

从预测概率中提取相应通道特征分布对于属于相同类别的特征，优化目标为最小化源域和目标域特征之间的距离；对于属于不同类别的特征，优化目标为最大化源域和目标域特征之间的距离。本发明采用余弦距离来衡量不同类别特征之间的相似度：

其中c_i和c_j分别表示属于第i类和第j类的特征向量，D_cosine(c_i,c_j)表示c_i和c_j之间的余弦距离。由于余弦距离的范围为[-1,1]，为便于网络训练，本发明构建如下方式将余弦相似度距离映射为[0,1]：

D_sim(c_i,c_j)＝0.5+0.5×D_cosine(c_i,c_j) (8)

其中D_sim(c_i,c_j)表示c_i和c_j的余弦相似度。

对于不同域之间的所有类别，本发明构建的类别级域适应策略的目标为拉近同类特征分布的距离同时推远异类特征分布之间的距离。具体地，采用L1距离来优化同类特征分布，采用上述定义的余弦相似度距离来优化异类特征分布。类内聚合与类间推远并行机制的损失函数设计如下：

其中L_ISIA表示类别级域适应损失函数，和/>分别表示提取的属于源域输入图像和目标域输入图像的第i类别特征，/>表示特征提取网络获取的属于目标域输入图像的第k类别特征，N表示目标类别数量，D_sim(·)表示余弦相似度度量函数，β为常系数，用以平衡类间特征推远在训练过程中的权重。

实例级域适应：

为更进一步优化域适应策略的细粒度，本发明提出一种类别信息引导的实例级域适应方法——自适应权重的实例匹配(Adaptive-weighted Instance Matching,AIM)策略。如图3所示，根据不同目标的特性，将不同域之间表征差异较小的目标类别归类为stuff，将不同域之间表征差异较大的目标归类为things。

针对things类，本发明提出一种自适应权重实例匹配策略，来实现跨域实例级的域适应。但由于源域和目标域数据均缺乏实例级标注，本文首先寻找源域标注中每一个类别中的不连通区域来生成伪实例标注。在单张源域图像和目标域图像的特征图中，实例级特征表示如下：

其中表示第k类别中第i个二值化掩膜,i∈{1,···,N}，R_k表示/>的集合，Γ为执行在标注图L中寻找第不连通区域的步骤，/>为生成实例级特征表示的步骤，r表示二值化掩膜，f为特征提取网络获取的特征图，h，w分别表示特征图的高度和宽度，ε为正则化项。

基于上述提出的类别级域适应策略，本发明构建了一个排序列表来衡量不同类别之间域适应的困难度。设类别级域适应复杂度为R_ac＝{ζ_k|k＝1,2,···,N_ins}，其中N_ins为所有实例包含的类别数，ζ_k的计算方式为：

其中k,i∈{1,···,N_ins}，N_ins表示图像中的实例数量。在模型训练过程中，ζ_k在每一个图像批(batch)里面进行更新，η_k用来避免训练过程中的权重跳变，保持训练过程的稳定性。因此源域与目标域的实例特征便可以实现空间分布上的拉近，其优化策略通过以下损失函数实现：

其中L_AIM表示实例级域适应损失函数，f_i ^t表示特征提取网络获取的目标域特征图，r_t表示图像中第t个类别的二值化掩膜，表示特征提取网络获取的源域第k个实例特征，表示目标域中二值化掩膜的集合，N_ins表示图像中的实例数量。

在第一阶段中，图像级域适应、特征级域适应、类别级域适应和实例级域适应同时训练，总体损失函数为：

其中，为源域上的交叉熵损失，用于计算模型预测的分割结果与真实标注的差异，L_D为判别网络损失，λ_seg，λ_adv，λ_ISIA，λ_AIM和λ_D为各个损失项的权重系数。

第二阶段训练过程基于第一阶段训练好的模型，基于自监督学习方式生成目标域的伪标注，重新训练模型，损失函数为：

其中，和/>分别为源域和目标域上的交叉熵损失，H和W分别表示图像的高度和宽度，N表示标注的类别数，y_ik和p_ik分别代表第i个像素被分类为第k个类别的真实概率与模型预测结果概率，L_D为判别网络损失，λ_seg，λ_adv，λ_ISIA，λ_AIM和λ_D为各个损失项的权重系数。

实验一验证：在通用街景数据集上的跨域语义分割：

利用GTA5虚拟街景数据集作为源域，Cityscapes真实街景数据集作为目标域，跨域语义分割效果如表1和图4所示。可以看出，本文构建的基于类别同异性的无监督域适应语义分割方法可以有效提升模型在无标注目标域上的推理效果，当全部使用四种层级的域适应策略时，本文构建的域适应模型在目标域上的推理效果相比于Source Only模式提高了13.7％mIoU(36.6％→50.3％)。可视化结果也证明了本发明提出的基于类别同异性的无监督域适应语义分割方法在目标域上的推理一致性更好。

表1类别同异性引导的无监督域适应语义分割效果—街景分割任务

附注1：Source Only表示「源域训练+目标域测试」；Target Only表示「目标域训练+目标域测试」。

实验二验证：

在遥感建筑物数据集上的跨域语义分割：

利用Inria Aerial Image Labeling Dataset(IAILD)建筑物数据集作为源域，Massachusetts Building Dataset(MBD)数据集作为目标域，利用本发明中的技术进行跨域语义分割的效果如表2和图5所示。可以看出，对于跨域遥感建筑物分割任务，本文构建的基于类别同异性的无监督域适应语义分割方法可以较好地提升模型在目标域上的泛化效果，相较于Source Only模式，加入所构建的域适应策略后，模型在目标域上的性能最高提升了10.1％mIoU(61.8％→71.9％)。

表2类别同异性引导的无监督域适应语义分割效果—建筑物语义分割任务

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，包括：第一阶段训练过程和第二阶段训练过程，所述第一阶段训练过程包括以下步骤：

类别级域适应：基于两个独立的解码器{D^S,D^T}分别提取源域图像和目标域图像的特征图和预测概率，并根据预测概率提取相应通道的特征分布，采用余弦距离计算异类特征之间的相似度，采用曼哈顿距离优化同类特征分布，并采用类内聚合与类间推远并行机制的损失函数；

所述第二阶段训练过程基于第一阶段训练好的模型，基于自监督学习方式生成目标域的伪标注，重新训练模型；

类内聚合与类间推远并行机制的损失函数为：

其中，L_ISIA表示类别级域适应损失函数，和/>分别表示提取的属于源域输入图像和目标域输入图像的第i类别特征，/>表示特征提取网络获取的属于目标域输入图像的第k类别特征，N表示目标类别数量，D_sim(·)表示余弦相似度度量函数，β为常系数，用以平衡类间特征推远在训练过程中的权重；

实例级特征表示计算公式为：

其中r_ki表示第k类别中第i个二值化掩膜,i∈{1,···,N}，R_k表示的集合，Γ为执行在标注图L中寻找第k不连通区域的步骤，/>为生成实例级特征表示的步骤，r表示二值化掩膜，f为特征提取网络获取的特征图，h，w分别表示特征图的高度和宽度，ε为正则化项；

实例级域损失函数为：

2.根据权利要求1所述的一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，图像级域适应中对抗生成损失函数为：

其中，表示生成网络和判别网络之间的对抗损失，E(·)表示统计期望，目标域图像/> 表示目标域中的图像样本，X^T表示目标域样本集合，源域图像与其对应的像素级标注/> 表示源域中的图像样本，X^S表示源域图像样本集合，/>表示/>对应的像素级标注，Y^S表示源域标注集合；

循环一致性约束损失函数为：

3.根据权利要求2所述的一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，基于生成对抗损失监督网络直至模型收敛中的损失函数为：

4.根据权利要求3所述的一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，判别器D的优化策略为判别输入的特征为输入源域还是目标域，其损失函数为：

其中，L_D(G,D)表示判别器D的损失，S表示softmax函数，表示目标域中的样本，/>表示源域中的样本。

5.根据权利要求4所述的一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，基于两个独立的解码器{D^S,D^T}分别对源域图像和目标域图像的特征图和预测概率具体计算公式为：

其中，是经过编码网络得到的D维的语义特征，/> 为预测概率，N为数据集类别数，h和w分别表示源域或目标域特征图的高度和宽度。

6.根据权利要求5所述的一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，采用余弦距离计算异类特征之间的相似度，计算公式为：

D_sim(c_i,c_j)＝0.5+0.5×D_cosine(c_i,c_j) (8)

7.根据权利要求6所述的一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，

所述图像级域适应、所述特征级域适应、所述类别级域适应和所述实例级域适应同时训练，总体损失函数为：

8.根据权利要求7所述的一种基于类别同异性引导的无监督域适应语义分割方法，其特征在于，第二阶段中，基于自监督学习方式生成目标域的伪标注过程的损失函数为：

其中，和/>分别为源域和目标域上的交叉熵损失，H和W分别表示图像的高度和宽度，N表示标注的类别数，y_ik和p_ik分别代表第i个像素被分类为第k个类别的真实概率与模型预测结果概率,/>和/>用于计算模型预测的分割结果与真实标注的差异，L_D为判别网络损失，λ_seg，λ_adv，λ_ISIA，λ_AIM和λ_D为各个损失项的权重系数。