CN111275713A

CN111275713A - 一种基于对抗自集成网络的跨域语义分割方法

Info

Publication number: CN111275713A
Application number: CN202010079142.7A
Authority: CN
Inventors: 杜博; 徐永浩; 张良培
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2020-06-12
Anticipated expiration: 2040-02-03
Also published as: CN111275713B

Abstract

本发明公开了一种基于对抗自集成网络的跨域语义分割方法，该方法首次将对抗训练技术引入到自集成网络模型，通过精心设计的损失函数，同时消除视觉外观领域差异与标签分布领域差异。一方面，对抗训练中的相关损失函数使得自集成模型更好地针对领域差异进行学习；另一方面，自集成模型也提升了对抗训练的稳定性。此外，本发明提出了一种任务辅助的风格迁移网络。该网络可以在保持源域图像语义信息的同时，实现源域到目标域风格的逼真转换。转换后的图像可进一步辅助对抗自集成网络的训练，帮助消除视觉外观领域差异。

Description

一种基于对抗自集成网络的跨域语义分割方法

技术领域

本发明属于计算机图像处理技术领域，涉及一种图像语义分割方法，具体涉及一种基于对抗自集成网络的跨域语义分割方法。

背景技术

图像语义分割是无人驾驶等应用的研究基础。现有基于深度神经网络的图像语义分割方法往往需要大量的像素级标注样本进行训练，而像素级标注样本的获取十分费时费力，极大地提高了算法的实现成本。另一方面，不同城市的道路场景往往有很大的不同，这种场景与场景间的差异，使得已有模型在新的城市场景下，难以取得较好的分割效果。因此，亟需提出一种鲁棒的领域适应技术，更好地利用源域的标记样本与目标域的未标记样本，实现更高精度的跨域语义分割。

现有的跨域语义分割方案主要采用对抗训练方法[1,2]，让深度网络同时学习源域数据(即已有标记信息的数据集)与目标域数据(即没有标注信息的数据集)，并使网络无法分辨输入影像是来自源域还是目标域，从而减小不同域间的特征差异，在目标域实现更高的识别精度。另一类已有工作则采用自集成学习[3]，将集成模型在目标域的预测结果视为伪标签，辅助基础模型的训练。相关的现有工作存在以下缺陷：

1)对抗训练具有很大的不稳定性[1,2]，因此，基于对抗训练的模型容易产生“负迁移”现象，即将源域中不利于目标域图像识别的知识迁移到目标域，带来不稳定的跨域语义分割结果；

2)现有的自集成学习框架未能将领域差异考虑在内[3]，仅通过集成模型的伪标签辅助基础模型在目标域的训练，因而模型的精度提升有限。

因此，需要一种更加稳定的领域适应方法，更好地消除领域差异，从而满足高精度跨域语义分割的需求。

[1]Tsai,Y.H.,Hung,W.C.,Schulter,S.,Sohn,K.,Yang,M.H.,and Chandraker,M.2018.Learning to adapt structured output space for semantic segmentation.InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).

[2]Hoffman,J.；Tzeng,E.；Park,T.；Zhu,J.-Y.；Isola,P.；Saenko,K.；Efros,A.A.；and Darrell,T.2018.Cycada:Cycle-consistent adversarial domainadaptation.In International Conference on Machine Learning(ICML).

[3]Xu,Y.,Du,B.,Zhang,L.,Zhang,Q.,Wang,G.,and Zhang,L.2019,Self-ensembling attention networks:Addressing domain shift for semanticsegmentation.In Proceedings of the AAAI Conference on Artificial Intelligence(AAAI).

发明内容

为了解决上述技术问题，本发明提供了一种基于对抗自集成网络的跨域语义分割方法，该方法首次将对抗训练技术引入到自集成网络模型，通过精心设计的损失函数，同时消除视觉外观领域差异与标签分布领域差异。其中，标签分布领域差异通过在标签空间计算源域样本与目标域样本的对抗损失实现。视觉外观领域差异通过本发明提出的一种任务辅助的风格迁移网络实现。该网络可以在保持源域图像语义信息的同时，实现源域到目标域风格的逼真转换。

本发明的技术方案为一种基于对抗自集成网络的跨域语义分割方法，包括如下步骤：

步骤1：初始化学生网络F_s、老师网络F_t与判别器D_lab的参数，其中学生网络和老师网络均采用VGG-16网络的结构，判别器D_lab网络由5个卷积层构成；

步骤2：将源域影像x_s输入到任务辅助的风格迁移网络中，得到风格迁移影像G(x_s)；

步骤3：将源域影像x_s与风格迁移影像G(x_s)输入到学生网络F_s，得到对应的预测分割图F_s(xs)与F_s(G(x_s))；

步骤4：将目标域影像x_t经过随机增广

后，分别输入到学生网络F_s与老师网络F_t，得到对应的预测分割图

与

步骤5：利用源域标签y_s，计算源域影像x_s与风格迁移影像G(x_s)的交叉熵损失

其中，σ(·)为Softmax函数，K为影像中的像素总数，C为类别总数；

步骤6：计算自集成网络中的一致性损失函数

步骤7：将F_s(x_s)，F_s(G(x_s))，

输入到判别器D_lab，计算标签空间的对抗损失函数

步骤8：计算总的损失函数：

步骤9：利用随机批梯度下降算法，优化步骤8中的损失函数；

步骤10：采用指数移动平均算法更新老师网络F_t中的参数：

θ_t ⁱ＝αθ_t ^i-1+(1-α)θ_s ⁱ

其中，θ_t ⁱ为老师网络在时刻t下的参数值，θ_s ⁱ为学生网络在时刻t下的参数值，α为权重系数，取值范围为0～1；

步骤11：重复上述步骤2-10，直至网络收敛；

步骤12：将待分割的目标域影像，输入到老师网络F_t中，完成最终的语义分割任务。

进一步的，步骤2中所述的任务辅助的风格迁移网络，其具体实现过程包括以下子步骤：

步骤2.1：初始化生成器G与判别器D的参数，使其满足均值为0方差为0.1的高斯分布，其中判别器D的结构与步骤1中的D_lab相同，生成器G由16个卷积层构成；

步骤2.2：利用源域样本，预训练一个分割网络

该分割网络

同样采用VGG-16网络的结构，并将

中的参数固定，使其在后续的步骤中不参与误差反向传播；

步骤2.3：将源域影像x_s输入到生成器G中，得到风格迁移影像G(x_s)；

步骤2.4：将源域影像x_s与风格迁移影像G(x_s)输入到预训练分割网络

中，得到对应分割图φ(x_s)与φ(G(x_s))，以及对应语义特征φ_f(x_s)与φ_f(G(x_s))，其中语义特征为

网络中分类层前一层的卷积特征；

步骤2.5：利用源域标签y_s，计算风格迁移影像G(x_s)的语义一致性损失

步骤2.6：计算感知损失

其中，K_f为特征图中的像素总数；

步骤2.7：将源域影像x_s、目标域影像x_t与风格迁移影像G(x_s)输入到判别器D，计算对抗损失函数

其中，x_t和x_s分别是目标域影像和源域影像，D(x_t)和D(x_s)表示判别器网络D对x_t和x_s的判别结果，G(x_s)表示利用生成器网络G对源域影像x_s进行风格迁移后的影像；

步骤2.8：计算总的损失函数：

步骤2.9：利用随机批梯度下降算法，优化步骤2.8中的损失函数；

步骤2.10：重复上述步骤2.3-2.9，直至网络收敛。

进一步的，判别器D_lab网络由5个卷积层构成，其中，第1层采用32个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数，其表达式为

a为常数；第2层采用64个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数；第3层采用128个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数；第4层采用256个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数；第5层采用1个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用恒等映射，即h(x)＝x。

进一步的，步骤2.1中所述生成器G由16个卷积层构成，其中，第1层采用32个9×9的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数其表达式为f(x)＝max(0,x)；第2层采用64个3×3的卷积核，卷积操作的步长设置为2个像素，激活函数采用ReLU函数；第3层采用128个3×3的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数；第4层至第13层为5个残差模块，每一个残差模块包含两个卷积层；第15层采用32个3×3的反卷积核，反卷积操作的步长设置为1个像素，上采样的倍率为2倍，激活函数采用ReLU函数；第16层采用3个9×9的卷积核，卷积操作的步长设置为1个像素，激活函数采用恒等映射。

进一步的，5个残差模块中的第一个残差模块设置如下，

第1个残差模块为第4层与第5层，其中，第4层采用128个3×3的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数，第5层采用128个3×3的卷积核，卷积操作的步长设置为1个像素，激活函数采用恒等映射。

进一步的，5个残差模块中相邻的残差模块之间，通过跳层连接。

进一步的，第14层采用64个3×3的反卷积核，反卷积操作的步长设置为1个像素，上采样的倍率为2倍，激活函数采用ReLU函数。

进一步的，步骤1中初始化判别器D_lab的参数时，使其满足均值为0、方差为0.1的高斯分布。

进一步的，步骤2.1中，初始化生成器G与判别器D的参数时，使其满足均值为0、方差为0.1的高斯分布。

进一步的，步骤4中，随机增广

的实现方式为增加均值为0、方差为0.1的高斯噪声。

本发明的有益效果为：

(1)本发明提出了一种基于对抗自集成网络的跨域语义分割方法，该方法首次将对抗训练技术引入到自集成模型中。一方面，对抗训练中的相关损失函数使得自集成模型更好地针对领域差异进行学习；另一方面，自集成模型也提升了对抗训练的稳定性。

(2)本发明提出了一种任务辅助的风格迁移网络。该网络可以在保持源域图像语义信息的同时，实现源域到目标域风格的逼真转换。转换后的图像可进一步辅助对抗自集成网络的训练，帮助消除视觉外观领域差异。

附图说明

图1为本发明提出的对抗自集成网络示意图；

图2为本发明提出的任务辅助的风格迁移网络示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种基于对抗自集成网络的跨域语义分割方法，包括以下步骤：

步骤1：初始化学生网络F_s、老师网络F_t与判别器D_lab的参数，使其满足均值为0、方差为0.1的高斯分布。学生网络和老师网络均采用VGG-16网络的结构，判别器D_lab的网络结构请见图1，该网络由5个卷积层构成，其中，第1层采用32个4×4的卷积核，卷积操作的步长(Stride)设置为2个像素，激活函数采用LeakyReLU函数，其表达式为

a取值为0.2；第2层采用64个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数；第3层采用128个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数；第4层采用256个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数；第5层采用1个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用恒等映射，即h(x)＝x。

步骤2：将源域影像x_s输入到任务辅助的风格迁移网络中，得到风格迁移影像G(x_s)，请见图1；

作为优选，步骤2中所述的任务辅助的风格迁移网络，其具体实现过程包括以下子步骤：

步骤2.1：初始化生成器G与判别器D的参数，使其满足均值为0、方差为0.1的高斯分布。生成器G与判别器D的网络结构请见图2，其中判别器D的结构与步骤1中的D_lab相同，生成器G由16个卷积层构成，其中，第1层采用32个9×9的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数其表达式为f(x)＝max(0,x)；第2层采用64个3×3的卷积核，卷积操作的步长设置为2个像素，激活函数采用ReLU函数；第3层采用128个3×3的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数；第4层至第13层为5个残差模块，每一个残差模块包含两个卷积层。例如，第1个残差模块为第4层与第5层，其中，第4层采用128个3×3的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数，第5层采用128个3×3的卷积核，卷积操作的步长设置为1个像素，激活函数采用恒等映射。相邻的残差模块之间，通过跳层连接。第14层采用64个3×3的反卷积核，反卷积操作的步长设置为1个像素，上采样的倍率为2倍，激活函数采用ReLU函数；第15层采用32个3×3的反卷积核，反卷积操作的步长设置为1个像素，上采样的倍率为2倍，激活函数采用ReLU函数；第16层采用3个9×9的卷积核，卷积操作的步长设置为1个像素，激活函数采用恒等映射。

步骤2.2：利用源域样本，预训练一个分割网络

该分割网络

同样采用VGG-16网络的结构，并将

中的参数固定，使其在后续的步骤中不参与误差反向传播；

网络中分类层前一层的卷积特征；

其中，σ(·)为Softmax函数，K为影像中的像素总数，C为类别总数。

步骤2.6：计算感知损失

其中，K_f为特征图中的像素总数。

步骤2.8：计算总的损失函数：

步骤2.10：重复上述步骤2.3-2.9，直至网络收敛。

步骤3：将源域影像x_s与风格迁移影像G(x_s)输入到学生网络F_s，得到对应的预测分割图F_s(x_s)与F_s(G(x_s))；

步骤4：将目标域影像x_t经过随机增广

与

其中

的实现方式为增加均值为0、方差为0.1的高斯噪声；

步骤6：计算自集成网络中的一致性损失函数

步骤7：将F_s(x_s)，F_s(G(x_s))，

输入到判别器D_lab，计算标签空间的对抗损失函数

步骤8：计算总的损失函数：

步骤10：采用指数移动平均算法更新老师网络F_t中的参数：

θ_t ⁱ＝αθ_t ^i-1+(1-α)θ_s ⁱ

其中，θ_t ⁱ为老师网络在时刻t下的参数值，θ_s ⁱ为学生网络在时刻t下的参数值，α为权重系数，取值范围为0～1。

步骤11：重复上述步骤2-10，直至网络收敛；

以上是本发明涉及的一种基于对抗自集成网络的跨域语义分割方法的实现步骤。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于对抗自集成网络的跨域语义分割方法，其特征在于，包括以下步骤：

步骤4：将目标域影像x_t经过随机增广

与

步骤6：计算自集成网络中的一致性损失函数

步骤7：将F_s(x_s)，F_s(G(x_s))，

输入到判别器D_lab，计算标签空间的对抗损失函数

步骤8：计算总的损失函数：

步骤10：采用指数移动平均算法更新老师网络F_t中的参数：

步骤11：重复上述步骤2-10，直至网络收敛；

2.根据权利要求1所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：步骤2中所述的任务辅助的风格迁移网络，其具体实现过程包括以下子步骤：

步骤2.2：利用源域样本，预训练一个分割网络

该分割网络

同样采用VGG-16网络的结构，并将

中的参数固定，使其在后续的步骤中不参与误差反向传播；

网络中分类层前一层的卷积特征；

步骤2.6：计算感知损失

其中，K_f为特征图中的像素总数；

步骤2.8：计算总的损失函数：

步骤2.10：重复上述步骤2.3-2.9，直至网络收敛。

3.根据权利要求1或2所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：判别器D_lab网络由5个卷积层构成，其中，第1层采用32个4×4的卷积核，卷积操作的步长设置为2个像素，激活函数采用LeakyReLU函数，其表达式为

4.根据权利要求1所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：步骤2.1中所述生成器G由16个卷积层构成，其中，第1层采用32个9×9的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数其表达式为f(x)＝max(0,x)；第2层采用64个3×3的卷积核，卷积操作的步长设置为2个像素，激活函数采用ReLU函数；第3层采用128个3×3的卷积核，卷积操作的步长设置为1个像素，激活函数采用ReLU函数；第4层至第13层为5个残差模块，每一个残差模块包含两个卷积层；第15层采用32个3×3的反卷积核，反卷积操作的步长设置为1个像素，上采样的倍率为2倍，激活函数采用ReLU函数；第16层采用3个9×9的卷积核，卷积操作的步长设置为1个像素，激活函数采用恒等映射。

5.根据权利要求4所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：5个残差模块中的第一个残差模块设置如下，

6.根据权利要求4所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：5个残差模块中相邻的残差模块之间，通过跳层连接。

7.根据权利要求4所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：第14层采用64个3×3的反卷积核，反卷积操作的步长设置为1个像素，上采样的倍率为2倍，激活函数采用ReLU函数。

8.根据权利要求1所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：步骤1中初始化判别器D_lab的参数时，使其满足均值为0、方差为0.1的高斯分布。

9.根据权利要求2所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：步骤2.1中，初始化生成器G与判别器D的参数时，使其满足均值为0、方差为0.1的高斯分布。

10.根据权利要求1所述的一种基于对抗自集成网络的跨域语义分割方法，其特征在于：步骤4中，随机增广

的实现方式为增加均值为0、方差为0.1的高斯噪声。