CN110533044B

CN110533044B - 一种基于gan的域适应图像语义分割方法

Info

Publication number: CN110533044B
Application number: CN201910459336.7A
Authority: CN
Inventors: 朱周平; 何昭水; 林钦壮; 谈季; 谢胜利; 何俊延
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2023-01-20
Anticipated expiration: 2039-05-29
Also published as: CN110533044A

Abstract

本发明涉及图像语义分割技术领域，具体涉及一种基于GAN的域适应图像语义分割方法；本发明包括如下部分：语义分割网络，生成对抗模块，空间感受野模块，对抗模块组。目标域是无标签数据集，源域是有标签数据集，任务是得到目标域的语义分割标签图。经典的图像语义分割网络内部可以看成编码器和解码器，输入图像经过编码和解码方式得到相同大小的输出图像。本发明提出在编码器和解码器上面分别加入相应的对抗训练辅助模块来减小域适应带来的域漂移问题。本发明解决了现有技术中的无监督图像语义分割准确率较低的问题。

Description

一种基于GAN的域适应图像语义分割方法

技术领域

本发明涉及图像语义分割技术领域，具体涉及一种基于GAN的域适应图像语义分割方法。

背景技术

目前，深度神经网络在大数据的前提下非常有能力学习到一个非常好的视觉模型。但是收集标签数据甚至是像素级的标签数据是非常困难的，据报道人工标注一张图片的像素级标签至少需要90分钟。对于图像数据集无标签的语义分割也就是无监督语义分割，在近年比较流行的一个选择方案就是利用虚拟数据(比如说游戏场景里的图像，我们可以很容易的获取图片以及标注好的像素级标签，相对于人工标注在速度上快好几个量级)来产生现实场景的图像标签。但是，简单的将在虚拟数据上训练得到的模型应用到实际图片上得到的图片效果很差，主要原因就是域漂移。传统的域适应方法主要应用于图像分类任务，可以概括为(1)最小化源域和目标域分布的距离，(2)确保这两种分布能通过对抗训练来互相接近。但是，图像语义分割是像素级的，相对于图像分类更加富有密集和结构化的信息，所以分类任务中的域适应技术不能很好的转化为图像语义分割域适应。而且对图像语义分割的域适应领域，在学术界是比较少的研究与关注。

近年来，生成对抗模型(GAN)的兴起和发展，越来越多的问题能通过引入GAN得到解决。GAN的目的在于拟合两个分布，通过生成对抗训练，让其中一个分布能趋近或者对齐于另外一个分布。为了解决域漂移问题，我们提出了基于GAN的域适应图像语义分割的方法。

发明内容

针对现有技术的不足，本发明公开了一种基于GAN的域适应图像语义分割方法，为解决现有技术中的无监督图像语义分割准确率较低的问题。

本发明通过以下技术方案予以实现：

一种基于GAN的域适应图像语义分割方法，其特征在于，包括如下步骤：

S1选择源域和目标域数据集；

S2构建基于GAN的域适应图像语义分割模型；

S3对源域和目标域的图片做特征域的对齐处理；

S4在编码器中输入源域图片，得到语义分割网络中解码器的热启动；

S5源域和目标域的图片都输入完整的语义分割网络，分割图接着输入到空间感受野模块得到不同的特征图，输入到对应的对抗模块组；

S6输入目标域图片在语义分割网络中进行前向传播，端到端的输出预测的语义分割结果，完成无标签目标域的图像语义分割。

优选的，所述S2中，语义分割模型包括语义分割网络、生成对抗模块、空间感受野模块和对抗模块组。

优选的，所述空间感受野模块包括最大池化、1x1的卷积和3x3 的卷积，设置padding＝dilation分别是12，24，36，其中1x1的卷积和3x3的卷积并行的排在池化层的后面。

优选的，所述S3具体为：源域和目标域的图片都输入语义分割网络中的编码器得到特征表征层，然后输入生成对抗模块，达到域对齐目的。

优选的，所述S3包括以下子步骤：

S31将采用预训练好的编码器，提取图像的特征；

S2采用上述S31步骤的损失来更新编码器和生成对抗模块，更新完之后，使编码器学习到了源域和目标域的共同特征，并且使源域的特征迁移向目标域。

优选的，所述S4中，固定语义分割网络中的编码器，只输入源域图片，经完整的语义分割网络得到语义分割图，用交叉熵损失进行训练，使得训练得到语义分割网络中解码器的热启动。

优选的，所述S5中，源域和目标域的图片都输入完整的语义分割网络，得到相对应的语义分割图，对于源域图片具有交叉熵损失度量，目标域则没有；分割图接着输入到空间感受野模块得到不同的特征图，输入到对应的对抗模块组。

优选的，所述S5包括以下子步骤：

S51分别输入源域和目标域的图片，经过已经固定的编码器，热启动好的解码器分别得到语义分割图，对于源域的语义分割图添加一个交叉熵损失，目标域则没有；

S52两个域的得到的语义分割图分别输入空间空洞模块，输出4 个特征图接着输入对抗模块组中，进行对抗训练；

S53针对上两步的交叉熵损失和对抗损失加入平衡参数，用于平衡对抗训练和全监督语义分割。

本发明的有益效果为：

(1)本发明所述基于GAN的域适应图像语义分割方法采用了两次生成对抗训练，分别辅助训练语义分割网络中的编码器和解码器，能有效提高语义分割的准确率，最终得到较好的语义分割结果。

(2)对于第一阶段的对抗训练，本发明能有效的得到编码器，重构和生成对抗使得不管来自源域还是目标域都有相似的特征表示，该特征迁移向目标域表示。这个过程有效的提取到了目标域的特征表征。

(3)对于源域和目标域的图片，在结构上都有类似，比如都是街道场景，街道结构都是有相同的信息。因此对于第三阶段的对抗训练，本发明得到的解码器能学习到源域的结构信息用于目标域的分割，详细的，本发明使用了空间感受野模块，从不同的感受野得到精细的丰富的结构信息；同时在对抗和分割中加入的平衡参数平衡了对抗和分割，使得目标域的分割图能保持自己的信息。这样，这个过程训练之后得到的解码器能产生域不变的结构表征。能提高整个语义分割网络对目标域的分割精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的总体模型图；

图2是本发明的空间感受野模块图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种基于GAN的域适应图像语义分割方法，包括如下步骤：

步骤1：本实例采用的源域和目标域数据集分别是GTAV和 CityScapes，前者有标签，后者无标签，训练集全部处理成512x512 大小，通过翻转、旋转来扩增；

步骤2：构建基于GAN的域适应图像语义分割模型。如附图的图1 所示，包括语义分割网络，生成对抗模块，空间感受野模块，对抗模块组；

步骤3：第一阶段训练过程为：

步骤3.1：将预处理的源域或者目标域图片输入预训练好的编码器，输出得到编码特征，其大小为输入大小的1/16；然后将编码特征输入生成对抗模块，生成对抗模块包含生成器和判别器，生成器全部采用3x3的反卷积，逐级扩大，使得来自源域的图片输出得到一张重构图。采用L1距离作为重构损失。

步骤3.2：生成对抗模块里面的判别器全部由3x3的卷积，接着拉成一维向量，然后判断：如果是目标域重构图则是真，否则为假。采用经典的对抗训练损失。

步骤3.3：该过程总损失＝重构损失+对抗训练损失，指导训练编码器和生成对抗模块。训练设置3k迭代数，目的得到微调的编码器，使用“poly”调整学习率方法将其power设置为0.9，初始学习率base_lr 为0.0025，采用的优化器为Adam，动量为0.9，权重衰减为0.0005。其中poly的学习率衰减机制为：

步骤4：第二阶段训练过程：只使用源域图片进行训练，经过完整的语义分割网络即编码器和解码器，得到语义分割图。采用常用交叉熵损失指导训练解码器。训练设置4k迭代数，剩下的参数设置和步骤 3.4一样。

步骤5：第三阶段训练过程：

步骤5.1：源域和目标域数据都经过完整的语义分割网络分别得到语义分割图，对于源域的语义分割图有交叉熵损失和步骤4的一样；但是对于目标域的语义分割图则没有定义交叉熵损失。

步骤5.2：将语义分割图输入空间感受野模块里面。如图2所示，该模块由一个3x3的最大池化层，后接并行的4个卷积组成，输出4 个同大小的特征图。将这4个特征图输入对抗模块组中，该模块组只包含4个并行的判别器(不包含生成器)都采用经典的DCGAN中判别器的设计，分别对应4个特征图的输入。判断标准是：如果特征图来自目标域的语义图则判断为真，否则为假。采用经典的对抗训练方式，将对抗模块组的损失全部求和平均作为对抗训练损失。

步骤5.3：该过程总损失＝对抗训练损失+λ*交叉熵损失，将平衡参数λ设置为5，初始化学习率为0.0001，训练3k迭代数，其余参数和步骤3.4一样。

步骤6：输入目标域图像，在已经训练好的编码器E和分割网络S 中进行一次前向传播，端到端的输出预测的语义分割结果。

本发明的工作原理和过程为：图像语义分割的主体模型就是语义分割网络，其余网络全部都是辅助网络。(1)第一个训练过程增加的辅助网络，其目的就是能得到有效的特征表征编码器，从而能使源域能对齐目标域，即中间特征层的表征对齐。(2)第二个训练过程，目的是是解码器热启动，能具有基本的语义分割能力输出一张基本的语义图。(3)第三个训练过程增加的辅助网络，其目的是为了让目标域的语义图学习到更加丰富的结构特征，帮助解码器的微调，得到更加准确的目标域的分割图。本发明巧妙的使用了两组对抗训练，分别得到不同的目的，从而在域适应的分割上面，对无标签的目标域 (CityScapes数据集)解决了图像语义分割准确率较低的问题。

凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于GAN的域适应图像语义分割方法，其特征在于，包括如下步骤：

S1选择源域和目标域数据集；

S2构建基于GAN的域适应图像语义分割模型；

S3对源域和目标域的图像做特征域的对齐处理；

S4在编码器中输入源域图像，得到语义分割网络中解码器的热启动；

S5源域和目标域的图像都输入完整的语义分割网络，分割图接着输入到空间感受野模块得到不同的特征图，输入到对应的对抗模块组；

S6输入目标域图像在语义分割网络中进行前向传播，端到端的输出预测的语义分割结果，完成无标签目标域的图像语义分割；

所述S2中，语义分割模型包括语义分割网络、生成对抗模块、空间感受野模块和对抗模块组；

所述空间感受野模块包括最大池化、1x1的卷积和3x3的卷积，设置padding＝dilation分别是12，24，36，其中1x1的卷积和3x3的卷积并行的排在最大池化的后面；

所述S3具体为：源域和目标域的图像都输入语义分割网络中的编码器得到编码特征，然后将编码特征输入生成对抗模块，达到域对齐目的；

所述S3包括以下子步骤：

S31将采用预训练好的编码器，提取图像的特征；

S32采用上述S31步骤的损失来更新编码器和生成对抗模块，更新完之后，使编码器学习到了源域和目标域的共同特征，并且使源域的特征迁移向目标域；

所述S4中，固定语义分割网络中的编码器，只输入源域图像，经完整的语义分割网络得到语义分割图，用交叉熵损失进行训练，使得训练得到语义分割网络中解码器的热启动；

所述S5中，源域和目标域的图像都输入完整的语义分割网络，得到相对应的语义分割图，对于源域图像具有交叉熵损失度量，目标域则没有；分割图接着输入到空间感受野模块得到不同的特征图，输入到对应的对抗模块组；

所述S5包括以下子步骤：

S51分别输入源域和目标域的图像，经过已经固定的编码器，热启动好的解码器分别得到语义分割图，对于源域的语义分割图添加一个交叉熵损失，目标域则没有；

S52两个域的得到的语义分割图分别输入空间感受野模块，输出4个特征图接着输入对抗模块组中，进行对抗训练；