CN114612658A

CN114612658A - 基于双重类别级对抗网络的图像语义分割方法

Info

Publication number: CN114612658A
Application number: CN202210172502.7A
Authority: CN
Inventors: 琚艳; 刘斌
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-06-10

Abstract

本发明公开了一种基于双重类别级对抗网络的图像语义分割方法，属于深度学习技术领域。包括以下步骤：首先，利用类别级对抗网络基于局部语义类别一致性的思想，兼顾源域和目标域的边缘分布对齐和条件分布对齐，使得源域和目标域进行协同训练，根据不同的对齐效果来调整相应对抗损失的权重；其次，通过计算目标预测的信息熵值确定目标图像的置信水平，依据熵值大小将目标域划分为集合一和集合二；最后，利用集合一及其预测图作为伪标签，再次使用CLAN模型训练集合二图像，以减少域内差异，从而有效提升不同数据集间的自适应水平，提高算法的泛化性能。本发明基于多个数据集进行实验，验证了该方法的可行性，能够有效提高语义分割效率。

Description

基于双重类别级对抗网络的图像语义分割方法

技术领域

本发明属于深度学习领域，涉及一种基于双重类别级对抗网络的图像语义分割方法。

背景技术

图像语义分割是指对图像中的每一个像素点进行分类，并通过整合得到了包含语义信息的分割结果，即根据图像的语义对图形进行分割，这里语义是指图像的内容或信息细节。语义分割是图像理解的基础，广泛应用于医学影像分析、自动驾驶、地理信息系统等领域。最初的图像语义分割方法主要基于RDF等机器学习方法和概率图模型，语义分割的结果一般为图中物体的类别。全卷积神经网络(Fully Convolutional Network，FCN)的出现使得深度学习技术开始广泛应用于图像语义分割，此时语义分割可以识别图像中所包含的个体。近年来，基于深度学习的图像语义分割技术得到长足的发展，例如，DeepLab系列模型结合了深度卷积神经网络(DCNNs)和概率图模型，其中Deeplab-v2引用了不同特征层的多分辨率信息，采用了多孔空间金字塔池化结构(ASPP)，有效地学习不同尺度目标的相关信息，进一步提高目标的分割精度；DeepLab-v3+采用可任意控制编-解码器来提高特征的分辨率并恢复原始像素信息，同时采用空洞卷积方法平衡语义分割精度和效率。

图像语义分割一般采用监督学习方法，训练样本需要像素级标注信息，人工标注成本较大，一种解决方案是采用合成图像构成的训练集。通常将合成图像数据集称为源域(Source Domain)，真实场景的数据集称为目标域(Target Domain)。源域和目标域之间往往不可避免地存在着很大的视觉差异，即域偏移(Domain Shift)，如纹理、光照、视角差异等等，这些差异会导致通过源域训练得到的深度学习模型对目标域的分割精度不理想，容易出现过拟合现象，难以泛化到目标域数据集上。域自适应(Domain Adaptation)是迁移学习在计算机视觉领域中重要技术之一，主要解决当源域和目标域之间的数据分布存在偏差时，如何利用源域数据训练出适应目标域数据的模型。其中，源域中都是带有标注信息的样本，而目标域没有或者只有少数数据有标注信息。现有的域自适应方法，大多采用原图或高层次抽象特征图进行跨域训练，往往会产生语义不一致或类别错分问题。

发明内容

发明目的：本专利提出一种基于双重类别级对抗网络的域自适应分割方法，通过提升不同数据集间的自适应水平，有效实现对无标注数据集的语义分割，提高算法的泛化性能。

技术方案：本发明提出一种基于双重类别级对抗网络的图像语义分割方法，所述方法包括以下步骤：

步骤一：获取图像数据集，获取用于源域的合成图像数据集GTA5，即视频游戏数据集，以及虚拟城市数据集SYNTHIA，获取用于目标域的真实图像数据集Cityscapes，即城市景观数据集，该数据集由训练集和测试集两部分组成，其中训练集用来训练模型，测试集则用来评估模型的泛化能力；

步骤二：构建域间类别级对抗网络，所述域间类别级对抗网络由域间生成器和域间鉴别器组成，其中，域间生成器由特征提取器和两个互斥分类器构成，将步骤一中源域和目标域图像输入域间类别级对抗网络进行协同训练，计算源域和目标域之间的差异；

步骤三：计算网络的对抗损失函数并进行两域间的自适应网络的训练：输入图像进行步骤二的操作后，通过两个互斥分类器得到两个预测张量，计算两个张量之间的距离差异由此调整对抗损失大小，使用对抗损失函数训练源域和目标域之间的类别级对抗网络；

步骤四：划分目标域图像，利用步骤三中训练好的网络输出目标预测图，计算预测图的信息熵值，根据熵值大小排序，并依据简单比率λ_E将目标域划分为集合一和集合二两部分，集合一的熵值较小且集合一占总目标域的比例为λ_E；

步骤五：目标域内的自适应训练，将步骤四中的集合一看作源域，其预测图作为伪标签，并将集合二看作目标域，二次利用类别级对抗网络进行域内自适应训练；

步骤六：训练总体模型并获得分割结果，将Cityscapes中的测试集图像输入步骤五训练好的网络中，以实现对测试集图像的语义分割。

其中，步骤一中所述的获取图像数据集包括以下步骤：

步骤一：所述的源域数据集GTA5和SYNTHIA都是合成的虚拟数据，数据集中包含图片信息和逐像素的语义信息作为分割标签；

步骤二：所述的目标域数据集Cityscapes是现实场景的真实数据，数据集中包含2975幅图像的训练集和500幅图像的测试集，目标域数据不含有任何标签信息。

其中，步骤二中，通过以下步骤构建域间类别级对抗网络：

步骤1：如图2所示，域间生成器由特征提取器和两个互斥分类器组成，使用残差网络ResNet-101在ImageNet数据集上的预训练框架作为域间生成器网络的主干部分，即框架的前半部分为特征提取器，进入步骤2；

步骤2：复制框架中最后一个分类模块的两个副本，并行排列在特征提取器后作为两个互斥分类器，进入步骤3；

步骤3：将源域和目标域图像输入网络中进行协同训练，并进行分割损失计算：

其中，样本X_s∈R^H×W×3是来自源域的图像，Y_s是其相应的像素标签，C为语义分割的类别数，P_s ^(h,w,c)为C类语义在像素(h,w)上的离散分布；Y_s ^(h,w,c)为C类语义在像素(h,w)上的正确标注概率，如果像素(h,w)属于C类，Y_s ^(h,w,c)＝1，否则Y_s ^(h,w,c)＝0。

其中，步骤三中，计算网络的对抗损失函数并进行两域间的自适应网络的训练包括以下步骤：

步骤1：训练过程中，两个互斥分类器对输入图像进行逐像素的语义分类，两个分类器C₁和C₂具有不同的参数，采用最小化两个分类器的余弦相似度来增强它们的卷积层的权值散度，有以下权重差异损失：

其中，

和

是分别将C₁和C₂的卷积滤波器的权值进行扁平化和串联后得到的向量；

步骤2：输入图像进入互斥分类器会输出两个预测张量P⁽¹⁾和P⁽²⁾，计算两个预测张量的距离差异，将距离差异作为对抗损失的权重，使得分割图上的每个像素都能有不同的权重来调整对抗损失，进入步骤三；

步骤三：采用自适应对抗损失函数进行训练：

其中，P⁽¹⁾和P⁽²⁾分别为C₁和C₂的预测张量，M(·,·)为余弦距离，参数λ_local控制对抗损失的自适应权值，ε为一个参数，G₁为域间生成器，D₁为域间鉴别器，X_s为源域图像，X_t为目标域图像。

其中，步骤四中，划分目标域图像包括以下步骤：

步骤一：将目标域图像输入上述步骤训练好的类别级对抗网络中，并得到目标域图像的预测图；

步骤二：计算目标域预测图中每个像素点的信息熵值：

其中，域间生成器G₁以目标图像X_t作为输入，生成像素级的分割预测值P_t ^(h,w,c)，对其进行熵映射计算；

步骤三：在步骤二的基础上，求出每幅图的熵映射值，并将该值从小到大排列：

其中，R(X_t)是熵图I_t的平均值，当域间适应网络模型达到最优时，根据域间生成器G₁产生的预测分割图计算每个像素为C类语义概率的熵值

并且求该熵图的平均值R(X_t)，按照从低到高的次序将目标域熵图进行排序，然后将目标域熵图与原目标域图像一一对应；

步骤四：引入超参数λ_E作为目标域集合一占总目标域的比率，将目标域分为两部分，即集合一的熵图平均值较低为低熵，分割效果较好，而集合二的熵图平均值较高为高熵，分割效果较差，需要对集合二图像进行进一步训练。令X_te和X_th分别表示分配给集合一和集合二的目标图像，λ_E定义如下：

其中，|X_te|是集合一的基数，|X_t|是整个目标域的基数。

其中，步骤五中，目标域内的自适应训练包括以下步骤：

步骤一：将上述步骤中划分的目标域集合一看作源域数据集，集合一的预测图作为伪标签进行辅助训练，将集合二看作目标域数据集，同时利用集合一和集合二进行第二次域间类别级对抗网络模型的训练。

其中，步骤六中，训练总体模型并获得分割结果包括以下步骤：

步骤一：设置域间自适应和域内自适应的总体损失函数L如下形式：

根据以下公式学习目标模型：

由于使用了双重类别级对抗网络，其包括有域间和域内两部分参数，分别用i＝1和i＝2来表示，即L₁是域间自适应的总体损失函数，L₂则是域内自适应的总体损失函数，G₁是域间生成器，G₂则是域内生成器，D₁是域间鉴别器，D₂则是域内鉴别器，

分别为域间自适应的分割损失、权重差异损失和对抗损失函数，

则分别为域内自适应的分割损失、权重差异损失和对抗损失函数，

分别为域间自适应中控制权重差异损失和对抗损失的超参数，

分别为域内自适应中控制权重差异损失和对抗损失的超参数；

步骤二：首先，对模型进行域间自适应训练，以优化模型的G₁和D₁，其次，基于R(X_t)对目标图像进行排序，并利用G₁生成目标域伪标签，训练域内自适应模型优化G₂和D₂；

步骤三：对跨域适应G₁模型进行了70,000次迭代训练后，使用G₁生成Cityscapes训练集的2975幅图像的分割图和熵图，利用R(X_t)得到所有目标域图像的分割难易程度系数，R(X_t)值大则说明分割困难，反之则说明分割容易，利用排序算法将所有图像的R(X_t)值从小到大排序，并结合λ_E将目标域划分为两个子集合，即集合一的R(X_t)值较小且集合一占总目标域的比例为λ_E，集合二的R(X_t)值较大且集合二占总目标域的比例为1-λ_E；

步骤四：用SGD优化器训练G₁和G₂，动量为0.9，初始学习率设置为2.5×10^-4，权重衰减设为10^-4，用Adam优化器训练D₁和D₂，初始学习率为10^-4，且在训练期间保持不变，训练时使用512×1024大小的图片，将预测图上采样2倍，进行分割结果评估；

步骤五：实验采用检测评价函数：

对每个类别进行语义分割性能评估，其中TP、FP和FN分别为真正、假正和假负像素的个数，k为类别数。

附图说明

图1是本发明所述的一种基于双重类别级对抗网络的图像语义分割方法的整体框架图；

图2是本发明中类别级对抗网络的结构示意图。

具体实施方法

请参阅图1所示，本发明的一种基于双重类别级对抗网络的图像语义分割方法，所述方法包括以下步骤：