CN113903031A

CN113903031A - 一种基于图卷积和对比学习的跨域语义分割方法

Info

Publication number: CN113903031A
Application number: CN202111069488.XA
Authority: CN
Inventors: 谢明鸿; 赵伟枫; 张亚飞
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-01-07

Abstract

本发明提供一种基于图卷积和对比学习的跨域语义分割方法，属迁移学习和计算机视觉领域。本发明设计了一种在不同域中求邻接矩阵的方法，为建立域之间的长距离上下文关系提供了一种新思路。为解决不同类别分布不平衡的问题，提出分组对比学习损失。其次，为提取到域不变的信息，本发明利用新提出到的双域邻接矩阵做图卷积操作。在进行图卷积操作的过程中，本发明在特征图上构造图结构，为了建立起域之间的长距离的上下文关系，本发明创造性的在所提出的图结构中利用所提出的双域邻接矩阵完成图卷积操作。本发明提出的方法，建立起域之间的长距离的上下文关系，且能更加有效的提取到域不变的信息，并且在主观和客观评价上获得了更优的评价结果。

Description

一种基于图卷积和对比学习的跨域语义分割方法

技术领域

本发明设计基于图卷积和对比学习的跨域语义分割方法，属于模式识别和计算机视觉领域。

背景技术

语义分割的基本任务是给图像中的每一个像素点进行正确分类。由于语义分割是属于像素级别的分类任务，对于场景理解任务很有帮助，因此语义分割任务在自动驾驶，医疗图像分割以及场景识别等任务中有着广阔的发展前景。

全卷积网络问世以来，卷积神经网络在语义分割领域取得了极大地进展。但由于语义分割任务在训练过程中需要像素级别的标签，而标注像素级别的标签需要耗费大量的人力物力，于是人们考虑利用合成数据集来训练语义分割网络。但是由于合成数据集与现实场景数据集之间存在着域的差异，所以利用合成数据集训练出来的网络在现实场景数据集中的表现不尽如人意，无法直接应用到现实场景中。为了解决这个问题，无监督域自适应方法应运而生。

近期一些方法采用对抗思想，利用鉴别器与生成器之间的对抗学习来提取域不变信息，这些工作尽管取得了一些进展，但是这些工作都没有考虑到如何利用域之间的上下文关系。还有一些方法利用目标域预测图的熵值大小提出了基于熵最小化的跨域方法。但是，基于熵最小化方法存在一个缺陷：预测概率值高的类别在熵损失函数中会有较大的梯度，因此网络就会更倾向于迁移简单样本而忽略难样本。由于在语义分割数据集中类的分布存在长尾效应，这就导致类别占比较小的分布(难样本)难以迁移，跨域效果比较差。

发明内容

本发明提供了基于图卷积和对比学习的跨域语义分割方法，用于解决现有的分割方法中不同类别分布不平衡的问题、类别占比较小的分布难以迁移、跨域效果比较差的问题，本发明实现了迁移学习的目标。

本发明的技术方案是：基于图卷积和对比学习的跨域语义分割方法，所述方法的具体步骤如下：

S1：选取网络训练数据集，所述网络训练数据集包括源域数据集和目标域数据集，其中源域数据集包含标签，目标域数据集不包含标签；目标域数据集包括训练数据集和测试集；

S2:构建语义分割基本网络模型，首先利用源域数据集训练语义分割基本网络模型，利用经过源域数据集训练的语义分割基本网络模型作为基础网络，将源域数据集和目标域数据集一起送到基础网络中进行训练；

S3：利用网络的中间层输出的特征图构造双域邻接矩阵，分别为位置邻接矩阵和通道邻接矩阵，利用构造的源域位置邻接矩阵和源域通道邻接矩阵在源域特征图构造的图上面做图卷积操作，利用构造的目标域位置邻接矩阵和目标域通道邻接矩阵在目标域特征图构造的图上面做图卷积操作；

S4：将经过图卷积操作的源域特征图输入源域分类器中，得到源域图像的预测概率图，将经过图卷积操作的目标域特征图输入目标域分类器中，得到目标域域图像的预测概率图；

S5：利用分组对比学习提取域不变性质的特征：利用分组对比损失函数来拉近域间相同类的距离，拉远域间不同类的距离，迫使生成器提取到具有域不变性质的特征；

S6：利用熵值最小化思想来筛选目标域输出预测图的预测置信度，构造伪标签，利用伪造的伪标签对网络进行自训练。

作为本发明的进一步方案，所述源域数据集为GTA5数据集，目标域数据集为Cityscapes数据集，所述测试集为目标域数据集的测试集部分。

作为本发明的进一步方案，所述源域数据集为GTA5，其包括用于训练的24966张图片合成街道场景图和对应的标签图像，所述目标域数据集为Cityscapes，其包括用于训练的5000张50个不同城市街道场景的图片真实的街道场景图片和用于测试的500张真实街道场景图片。

作为本发明的进一步方案，所述S3中构造双域邻接矩阵的实现细节如下：

(1)首先，需要在语义分割任务中定义图：由于图结构本身的特性，长距离的上下文关系能在单层图卷积操作中实现，图由节点和边构成，图卷积公式被定义为：

公式中，X是图卷积之前的图，

是经过图卷积操作之后得到的图，σ()是非线性激活函数，A是图的邻接矩阵，W是图卷积的权重；

在图中邻接矩阵表征图结点之间的连接关系，把邻接矩阵进行归一化操作成为拉普拉斯矩阵

为了在结点更新的过程中引入结点本身的特征，拉普拉斯矩阵写为

其中I为单位矩阵，把归一化后的拉普拉斯矩阵

表示为A，因此图卷积公式写成：

H^(l+1)＝σ(AH^(l)W^(l))

公式中H^(l)是第l层的图，H^(l+1)是H^(l)经过图卷积之后得到的图；

(2)在语义分割任务中定义图结构之后，要构造双域位置邻接矩阵：

假设源域特征图为

其中D是特征图的通道数，N＝H×W是特征图一个通道上的像素点数目；目标域特征图为

其中D是特征图的通道数，N＝H×W是特征图一个通道上的像素点数目；利用X_s和Y_T构造双域的相似性矩阵即位置邻接矩阵，利用新构造的邻接矩阵做图卷积更新结点之间的信息并聚合结点上的特征信息以捕捉到长距离的上下文关系，在网络输出的特征图层面上构造相似性矩阵；在跨域中，为了不丢失图像的语义信息，在构造双域的邻接矩阵的过程中引入了输入特征图的对角矩阵，使邻接矩阵与输入具有关联性：

公式中

和

分别为源域和目标域的位置邻接矩阵；i为源域中间特征图中的像素点，j为目标域中间特征图中的像素点，_T为转置，Z_S为源域中间层特征图，Z_T为目标域中间层特征图；

(3)在语义分割任务中定义图结构之后，要构造双域通道邻接矩阵；

在特征图层面构造图结构，并且通过图卷积更新了结点特征建立起了长距离上下文依赖关系；通道之间的特征聚合同样对语义分割任务具有很大的帮助，因此为了利用特征图中通道之间的关系，同样在通道层面上提出了双域的通道邻接矩阵：

首先将输入的源域特征图

转换成

新的特征图有N个结点，每个结点的特征向量维度是D₁；对于目标域特征图

转换成

新的特征图有N个结点，每个结点的特征向量维度是D₂；与双域的位置邻接矩阵的原理相似，利用v_S和v_T来求双域的通道邻接矩阵：

公式中

和

分别为源域和目标域的通道邻接矩阵，Z′_S为经过转换的源域中间层特征图，Z′_T为经过转换的目标域中间层特征图。

作为本发明的进一步方案，所述S3中图卷积操作为：

(1)在求出双域位置邻接矩阵之后，利用新构造的双域位置邻接矩阵做图卷积操作：

公式中，M_S和M_T分别为源域特征图和目标域特征图经过图卷积之后的输出，W_S和W_T为图卷积的权重；

(2)在求出双域通道邻接矩阵之后，利用新构造的双域通道邻接矩阵做图卷积操作：

在进行图卷积更新节点时，采用GCN中提出的图卷积公式来做图卷积，公式中，N_S和N_T分别为源域特征图和目标域特征图经过图卷积之后的输出，W_S和W_T为图卷积的权重。

作为本发明的进一步方案，所述S5中利用分组对比学习提取域不变性质的特征的操作为：利用分组对比损失函数来拉近域间相同类的距离，拉远域间不同类的距离，迫使生成器提取到具有域不变性质的特征：

公式中，C_S为源域特征分类器，C_T为目标域特征分类器，

为目标域输出的预测概率，

为源域输出的预测概率，

为目标域输出的预测概率；其中，第一项的作用是使两个域中相同类的预测输出值更加接近，从而拉近两个域相同类的距离，第二项作用是使两个域中不同类的预测输出值差异更大，从而拉远两个域不同类的距离，式中α为条件值，当第二项中源域分类器的输出和目标域分类器的输出为同一类时α＝0，C_k(k＝1,2,3)表示第k组中的类别数。

作为本发明的进一步方案，所述S6中，自训练的操作为：首先对网络输出的特征图做交叉熵损失函数，由于目标域没有标签，因此利用熵值引导伪标签构造的方法建立伪标签，对目标域的输出预测图进行自监督训练：

公式中，

为源域图像的标签，G(Z_s)^(i,j)为源域的输出概率预测结果，Y_t ^(i,j)*为目标域图像的预测伪标签，G(Z_t)^(i,j)为目标域的输出概率预测结果，公式L_seg(G(Z_s),Y_s)为源域的交叉熵损失函数，公式L_seg(G(Z_t),Y_t ^*)为目标域的交叉熵损失函数，其中Y_t ^*为利用熵值引导伪标签构造的方法建立的伪标签。

本发明首先在语义分割任务上构造了图结构，把图片中的每个像素点视为图中的节点，把像素与像素之间的相似度视为图的边，并给出了在图上的图卷积公式。其次，本发明提出了图上的双域邻接矩阵。接着，本发明通过构造的邻接矩阵进行图卷积来聚合两个域中图像的像素，建立起域之间的上下文关系。

本发明的有益效果是：

(1)语义分割任务上构造了图结构，把图片中的每个像素点视为图中的节点，把像素与像素之间的相似度视为图的边，并给出了在图上的图卷积公式，使图卷积可以应用到语义分割领域。

(2)提出了图上的双域邻接矩阵，通过构造的邻接矩阵进行图卷积来聚合两个域中图像的像素，建立起域之间的上下文关系。

(3)提出了分组对比损失函数，可以有效改善语义分割数据集中存在的类不平衡的问题。

(4)实验结果表明，本发明提出的方法能够较好的提取到图像中的域不变信息，并在主观和客观评价上获得更优的评价结果。

附图说明

图1为本发明实施例流程图；

图2为本发明模型结构示意图；

图3为本发明实验效果图。

具体实施方式

实施例1：如图1-图3所示，基于图卷积和对比学习的跨域语义分割方法，所述方法的具体步骤如下：

公式中，X是图卷积之前的图，

其中I为单位矩阵，把归一化后的拉普拉斯矩阵

表示为A，因此图卷积公式写成：

H^(l+1)＝σ(AH^(l)W^(l))

假设源域特征图为

公式中

和

首先将输入的源域特征图

转换成

转换成

公式中

和

作为本发明的进一步方案，所述S3中图卷积操作为：

公式中，C_S为源域特征分类器，C_T为目标域特征分类器，

为目标域输出的预测概率，

为源域输出的预测概率，

公式中，Y_s ^(i,j)为源域图像的标签，G(Z_s)^(i，j)为源域的输出概率预测结果，Y_t ^(i,j)*为目标域图像的预测伪标签，G(Z_t)^(i,j)为目标域的输出概率预测结果，公式L_seg(G(Z_s),Y_s)为源域的交叉熵损失函数，公式L_seg(G(Z_t)，Y_t ^*)为目标域的交叉熵损失函数，其中Y_t ^*为利用熵值引导伪标签构造的方法建立的伪标签。

本发明从主客观两个层面来对所提出的方法进行评价。本发明采用语义分割领域的常用指标miou来衡量类别的识别率。同时本发明对比了几个目前在跨域语义分割领域中较为先进的方法。主观评价指标如图3所示。其中，表1为数据集GTA5到Cityscapes的跨域语义分割对比实验结果，表2为数据集SYNTHIA到Cityscapes的跨域语义分割对比实验结果，客观评价指标miou如表1和表2所示，某一类miou的值越大，说明网络对这一类的识别率越高，实验效果越好。

表1为数据集GTA5到Cityscapes的跨域语义分割对比实验结果

表2为数据集SYNTHIA到Cityscapes的跨域语义分割对比实验结果

上面结合附图对本发明的具体实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于图卷积和对比学习的跨域语义分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于图卷积和对比学习的跨域语义分割方法，其特征在于，所述源域数据集为GTA5数据集，目标域数据集为Cityscapes数据集，所述测试集为目标域数据集的测试集部分。

3.根据权利要求1所述的基于图卷积和对比学习的跨域语义分割方法，其特征在于，所述源域数据集为GTA5，其包括用于训练的24966张图片合成街道场景图和对应的标签图像，所述目标域数据集为Cityscapes，其包括用于训练的5000张50个不同城市街道场景的图片真实的街道场景图片和用于测试的500张真实街道场景图片。

4.根据权利要求1所述的基于图卷积和对比学习的跨域语义分割方法，其特征在于，所述S3中构造双域邻接矩阵的实现细节如下：