CN112950645A

CN112950645A - 一种基于多任务深度学习的图像语义分割方法

Info

Publication number: CN112950645A
Application number: CN202110312685.3A
Authority: CN
Inventors: 袁兴生; 龚建兴
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-06-11
Anticipated expiration: 2041-03-24
Also published as: CN112950645B

Abstract

本发明公开了一种基于多任务深度学习的图像语义分割方法，具体方案为：包括以下步骤：S1：将自然场景图像进行语义分割，得到基于多任务深度学习的多层级结构化特征表达方法；S2：构建基于多任务深度学习的图像语义分割网络；S3：对多任务深度网络进行优化；S4：计算多任务深度学习训练中的梯度传播，得到基于多任务深度学习的图像语义分割模型；S1具体过程如下：将图像局部特征进行组合，得到图像信息；将图像信息中局部语义特征抽取，刻画图像中局部特征之间的相关关系，并构建层次结构。本发明可多任务深度学习方法解决图像语义分割中分割细节信息不敏感、目标定位精度低的问题，对促进图像语义分割广泛应用方面具有积极意义。

Description

一种基于多任务深度学习的图像语义分割方法

技术领域

本发明涉及图像语义分割领域，更具体地说，它涉及一种基于多任务深度学习的图像语义分割方法。

背景技术

图像语义分割作为机器视觉技术中图像理解的基础环节，融合传统意义的图像分割和目标识别两个任务，支持计算机系统和机器人等智能终端理解图像的语义内容，从而辅助指导和规划行动。图像语义分割在自动驾驶中通过对车体前方街道场景的语义分割可以精确定位道路、前方车辆和行人等场景目标，从而提升自动驾驶安全性能。Hariharan等首次利用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)解决语义分割问题，提出一种协同检测和分割方法，并利用R-CNN(Regions with Convolutional NeuralNetwork Features)框架对网络参数进行训练。

深度网络模型在提取图像的全局特征和上下文信息方面有突出的优势，但由于其特殊的结构和特征学习模式，使其在语义分割应用中存在明显的问题和挑战：1)当前基于FCN的图像语义分割方法以其全新的思路开辟了一个新的语义分割方向，但仍存在两个明显的缺点：分割得到的结果不够精细，对图像中的细节不敏感；对各个像素进行分类，没有充分考虑像素与像素之间的关系，缺乏空间一致性以及边缘信息约束。2)深度模型以端到端(end-to-end)的学习方式，成功的关键在于对局部图像变换的不变性，允许其学习更为抽象的数据表达，而这种不变性会影响语义分割为每个像素分类，并且引起目标定位精度降低。如何开展进一步的基于深度神经网络的图像语义分割研究，从而取得视觉特征的旋转不变性、尺度不变性和遮挡鲁棒性等不变性表达，是基于深度神经网络模型的图像语义分割方法亟待解决的问题。

发明内容

为解决上述技术问题，本发明提供一种基于多任务深度学习的图像语义分割方法，首先针对复杂自然场景图像语义分割提出基于多任务深度学习的多层级结构化特征表达方法；然后，利用深度残差网络和门限卷积层(GCL)构建基于多任务深度学习的图像语义分割网络，利用同方差不确定性(homoscedastic uncertainty)平衡多任务损失，对多任务深度网络进行优化；最后，使用Gumbel softmax技巧计算多任务深度学习训练中的梯度传播，采用多尺度推理方案对多任务深度学习网络训练，得到基于多任务深度学习的图像语义分割模型。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种基于多任务深度学习的图像语义分割方法，包括以下步骤：

S1：将自然场景图像进行语义分割，得到基于多任务深度学习的多层级结构化特征表达方法；

S2：构建基于多任务深度学习的图像语义分割网络；

S3：对多任务深度网络进行优化；

S4：计算多任务深度学习训练中的梯度传播，得到基于多任务深度学习的图像语义分割模型；

S1具体过程如下：将图像局部特征进行组合，得到图像信息；将图像信息中局部语义特征抽取，刻画图像中局部特征之间的相关关系，并构建层次结构。

作为一种优选方案，S1过程中，通过空间相关性和尺度相关性刻画图像中局部特征之间的相关关系；

空间相关性：多任务网络模型中，判断图像区域的特征，并将筛选的特征作为多任务卷积神经网络的主要任务，确定图像特征的特征语义作为多任务卷积神经网络的辅任务；在共享网络层建立各局部区域特征之间的共生关系，从而建立图像空间相关结构特征对表达；

尺寸相关性：通过三通道的结构，采用基于Resnet-101的网络模型，在目标层级和局部语义层级进行特征提取，然后对特征图进行融合，构建包含有全局和局部语义特征的描述，将不同尺寸的局部特征进行组合，并从大尺度特征开始向小尺度特征扩展的结构特征表达。

作为一种优选方案，尺寸相关性中，在特征图融合过程中，通过调整特征图的尺度，解决两种层级之间输入数据尺度存在的差异。

作为一种优选方案，S1过程中，语义分割中，通过边缘分支设计损失联合提升语义分割性能，具体包括以下步骤：采用three stream深度网络模型结构，将形状、纹理信息分别作为单独处理的分支，然后与regular stream的语义区域特征进行相关融合。

作为一种优选方案，S2过程中，利用深度残差网络和门限卷积层构建基于多任务深度学习的图像语义分割网络；

其中门限卷积层具体包括以下步骤：

S201：令m表示位置的数量，令t∈0,1,…,m表示运行索引，其中r_t、s_t和τ_t分别表示使用GCL处理的相应常规分支、形状分支和纹理分支的中间表示；

S202：连接r_t、s_t和τ_t得到一副注意图a_t∈R^H×W和1×1标准化的卷积层C_1×1：

a_t＝σ(C_1×1(s_t||r_t),C_1×1(τ_t||r_t))

其中：σ为sigmoid函数，‖表示特征映射的串联；

S203：给定注意图a_t，门限卷积层作为元素与注意图相乘，然后将残差连接相加，并使用ω_t进行通道加权，在每个像素(i,j)中，门限卷积层*计算式为：

S204：将s^t传递到形状流中的下一层进行下一步处理。

作为一种优选方案，S2过程中，在优化训练期间共同监督分割和纹理区域、边界图预测，通过标准的交叉熵(CE)损失预测语义分割f：

其中：

为基准边界，

为基准纹理区域，

为基准的语义标签，λ₁,λ₂,λ₃表示三个超参数，控制不同损失项的权重，

为BCE损失，

为CE损失。

作为一种优选方案，损失函数具体获取方法如下：

T1：令ζ∈R^R×W表示特定像素是否属于输入图像I中的语义边界的势：

其中：p(y/r,s,τ)∈R^K×H×W为融合模块的分类分步输出，G为高斯滤波；

T2：假定

是一个基准数据二进制掩码，其计算方式与GT语义标签

相同，得到损失函数：

其中：p⁺包含ζ和

所有非零像素坐标的集合；

T3：使用形状分支、纹理分支的边界预测s∈R^H×W,确保二值化边界预测和预测语义p(y/r,s)的一致性：

其中，p和k分别覆盖所有图像像素和语义类，I_s＝{1:s＞thrs}对应于指标函数，thrs是置信阈值；

T4：得到总的三任务正则化器损失函数：

其中：λ₄,λ₅,λ₆是控制正则化器权重的三个超参数。

作为一种优选方案，S3过程中，通过同方差不确定性来平衡单个任务的损失，具体包括以下步骤：

优化模型权重W＝{λ₁,λ₂,λ₃}和噪声参数σ₁,σ₂,σ₃以最小化优化目标：

其中：损失函数L₁、L₂和L₃分别属于稠密特征提取、纹理区域和轮廓特征三个任务，通过最小化噪声参数σ₁,σ₂,σ₃的损失L(W,σ₁,σ₂,σ₃),以平衡训练过程中特定任务的损失。

作为一种优选方案，S4过程中，采用多尺度推理方案对多任务深度学习网络训练，得到基于多任务深度学习的图像语义分割模型，具体包括以下步骤：

设g＝||·||，给定参数η的偏导数计算如下：

在向后传递过程中，通过softmax的温度系数t近似arg max运算符：

其中：g_j～Gumbel(0,I)和t为超参数，算子

通过Sobel核滤波计算。

综上所述，本发明具有以下有益效果：

本发明可多任务深度学习方法解决图像语义分割中分割细节信息不敏感、目标定位精度低的问题，对促进图像语义分割广泛应用方面具有积极意义。

附图说明

图1为本发明实施例中的多任务深度学习的图像语义分割网络模型框架图；

图2为本发明实施例中的基于多任务深度网络模型的多层级结构化特征表达示意图；

图3为本发明实施例中的多任务深度学习的图像语义分割流程图；

图4为本发明实施例中的基于多任务深度网络模型多层级结构化特征表达的图像语义分割实验结果示例图。

具体实施方式

本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。

以下结合附图对本发明作进一步详细说明，但不作为对本申请的限定。

1.基于多任务深度学习网络的多层级结构化特征表达方法

基于多任务卷积神经网络的多层级结构化特征表达。将图像局部特征按照某些方式组合来表达图像信息，使其更贴近对语义的表达，从而达到对局部语义特征的抽取，利用空间相关性和尺度相关性两个信息来刻画图像中局部特征之间的相关关系，进而利用这种相关关系来构建层次结构。

多任务网络模型中，将判断图像区域的特征作为多任务卷积神经网络的主要任务，确定图像特征的特征语义作为其辅任务，然后在共享网络层建立各局部区域特征之间的共生关系，从而建立图像空间相关结构特征对表达，如图1所示。

尺度结构特性反应图像中局部特征的信息提取范围，不同尺度的特征存在相互关联关系。利用三通道(tri-stream)的结构，采用基于Resnet-101的网络模型，在目标层级和局部语义层级进行特征提取，进而对特征图进行融合，融合过程中需要调整特征图的尺度解决两种层级之间输入数据尺度存在的差异，由此构建包含有全局与局部语义特征的描述。在此基础上，将不同尺度的局部特征进行组合并从大尺度特征开始向小尺度特征扩展的结构特征表达。

基于多任务深度网络模型的多层级结构化特征表达思路，在图像语义分割中，利用深度神经网络同时处理图像的颜色、形状和纹理信息用于像素级分类不是理想做法，通过研究多任务深度学习，利用边缘分支设计损失联合提升语义分割性能。首先，采用threestream深度网络模型结构，将形状、纹理信息分别作为单独处理的分支，称为shape stream和texture stream，两者是并行的，然后与regular stream的语义区域特征进行相关融合，提高图像语义分割精度。

2.基于多任务深度学习的图像语义分割算法

基于多任务深度学习的融合多层级特征的图像语义分割方法的网络结构如图2所示，regular stream采用前向全卷积网络Resnet-101；Shape stream和texture stream是一系列1×1卷积，残差块和GCL(Gated Conv Layer)的组合。门控卷积层实际上可以看成是一种注意力机制，根据regular stream的高层次信息去指导shape stream和texturestream集中在边界或纹理区域；然后ASPP(语义分割)在多尺度上融合三个分支输出特征图，最后输出语义分割图。图中edge BCE loss是局部监督损失，监督的是shape stream还没有送到ASPP前的边界概率图，segmentation loss是交叉熵损失(CE loss)，监督最终输出语义分割图，更新包括ASPP的所有参数，tri-task loss是三任务的正则化损失，基于边界预测、纹理区域、和边界区域语义分割的二元性和边界预测和语义预测一致性思想。通过以上模型，以多任务卷积神经网络获取的多层级结构化特征为输入，融合多种粒度的上下文信息通过学习获得为每个像素分配语义标签的映射关系。

regular stream用

来表示，θ为参数，采用前向全卷积网络Resnet-101，以高度为H宽度为W的图像

为输入产生稠密像素特征。令

表示regularstream输出，m为卷积步长。

shape stream表示为S_φ，φ是参数，令图像梯度

和regular stream的第一卷积层作为输入，产生图像的语义边界作为输出。shape stream网络结构由深度残差网络和门限卷积层(GCL)组成，输出用

来表示。

Texture stream表示为

为参数，其输入与shape stream类似，图像梯度

和regular stream的第一卷积层作为输入，产生图像的纹理区域作为输出，其网络结构由深度残差网络和门限卷积层(GCL)组成，输出用

来表示。

fusionmodule表示为F_γ，其参数为γ，将regular分支的密集特征表示、形状分支和纹理分支输出的边界映射融合作为输出，以保持多尺度的上下文信息。通过将区域特征、纹理特征和边界特征相结合，输出精确的语义分割输出。对于图像语义分割问题，预测K个语义类，输出类别分布

这里，f表示每个像素属于K类的概率。具体来说，我们使用一个空洞空间金字塔池来合并边界映射形状s和纹理τ和稠密像素特征r。这使得我们能够保存多尺度的上下文信息，并被证明是最先进的语义切分网络的一个重要组成部分。

(1)门限卷积层(GCL)

门限卷积层(GCL)在三个分支的多个位置使用，令m表示位置的数量，令t∈0,1,…,m表示运行索引，其中r_t和s_t和τ_t表示我们使用GCL处理的相应常规分支(regularstream)、形状分支和纹理分支的中间表示。为了使用GCL，我们首先通过连接r_t、s_t和τ_t得到一幅注意图

和1×1标准化的卷积层C_1×1，接着是一个sigmoid函数σ：

α_t＝σ(C_1×1(s_t||r_t)，C_1×1(τ_t||r_t)) (2)

其中‖表示特征映射的串联，给定注意图α_t，GCL作为元素与注意图相乘，随后是残差连接相加，并使用ω_t进行通道加权。在每个像素(i,j)，GCL*计算式为：

然后，将s^t传递到形状流中的下一层以进行进一步处理，注意到反向传播和微分映射都可以进行卷积。直观地说，α也可以被看作是一个注意力地图，它对具有重要边界信息的区域赋予了更大的权重。在我们的实验中，我们使用了形状分支和纹理分支分别采用三个GCL并将它们连接到regular stream的第三层、第四层和最后一层。如果需要，可以使用双线性插值对来自regular stream的特征映射进行上采样。

(2)联合多任务学习

我们与融合模块以端到端的方式共同学习regular stream、shape stream和texture stream，在训练期间共同监督分割和纹理区域、边界图预测；利用标准的二值交叉熵(BCE)来预测边界图s，并利用标准的交叉熵(CE)损失来预测语义分割f：

这里，

表示基准边界，

表示基准纹理区域，

表示基准的语义标签；λ₁，λ₂，λ₃表示三个超参数控制不同损失项的权重。如图2所示，在将边界映射s馈送到融合模块之前，对边界映射s执行BCE监视。因此，BCE损失

更新了regularstream和形状分支、纹理分支的参数。语义类的最终分类分布f由CE损失

作为标准语义切分网络的监督，更新所有网络参数。

(3)三任务(tri-task)正则化器

如上所述，p(y/r,s,τ)∈R^K×H×W表示融合模块的分类分布输出。令ζ∈R^R×W是表示特定像素是否属于输入图像I中的语义边界的势

其中G表示高斯滤波。我们假设

是一个(ground truth)基准数据二进制掩码，其计算方式与GT语义标签

相同，我们写下下面的损失函数：

这里p⁺包含ζ和

所有非零像素坐标的集合，直观地说，我们希望确保边界像素在与GT边界不匹配时受到惩罚，并避免非边界像素支配损失函数。上述正则化损失函数利用了边界空间中边界预测和语义分割之间的对偶性。

类似的，我们可以使用形状分支、纹理分支的边界预测

以确保二值化边界预测和预测语义p(y/r,s)的一致性：

其中，p和k分别覆盖所有图像像素和语义类。I_s＝{1:s＞thrs}对应于指标函数，thrs是置信阈值，我们在实验中阈值使用0.8。总的三任务正则化器损失函数可以写成：

λ₄、λ₅和λ₆是控制正则化器权重的三个超参数。

多任务深度学习的一个重大挑战来自于多个任务的网络体系结构优化，需要谨慎地平衡所有任务的联合学习，避免出现一个或多个任务在网络权重中占主导地位，在不损失一般性的前提下，假设任务特定权重λ_i和任务特定损失函数L_i，多任务学习问题的优化目标可以表示为

式中的多任务优化目标，很难找到全局最优解。由于该问题的复杂性，如果某个选择提高了一个任务的性能，则可能会导致另一个任务的性能下降。

具体过程为：

多任务深度网络优化

我们使用同方差不确定性(homoscedastic uncertainty)来平衡单个任务的损失。同方差不确定性或任务相关不确定性不是模型的输出，而是同一任务的不同输入样本保持不变的量。优化过程是为了使高斯似然目标最大化，该目标考虑了同余不确定性。特别地，他们优化模型权重W＝{λ₁,λ₂,λ₃}和噪声参数σ₁、σ₂和σ₃以最小化优化目标

损失函数L₁、L₂和L₃分别属于稠密特征提取、纹理区域和轮廓特征三个任务。通过最小化噪声参数σ₁、σ₂和σ₃的损失L(W,σ₁,σ₂,σ₃)，基本上可以平衡训练过程中特定任务的损失。公式中的优化目标也可以很容易地扩展到三个以上的任务。在训练过程中通过标准反向传播更新噪声参数。

增加噪声参数σ_i会降低任务i的权重。因此，当任务的同方差不确定性较高时，任务i对网络权重更新的影响较小。这在处理噪声注释时是有利的，因为对于此类任务，特定于任务的权重将自动降低。

2多任务深度学习训练中的梯度传播

为了计算等式

的反向传播，我们需要计算等式

的梯度。设g＝||·||，关于给定参数η的偏导数可计算如下：

由于argmax不是可微函数，我们使用Gumbel softmax技巧。在向后传递过程中，我们用softmax的温度系数t近似argmax运算符：

其中g_j～Gumbel(0,I)和t是超参数；算子

可以通过Sobel核滤波来计算。

3基于多任务深度学习的图像语义分割

我们使用Cityscapes数据集进行训练网络模型，包含2975个训练，500个验证和1525个测试图像。城市景观还包括20000个额外的粗注释(即，覆盖单个对象的粗多边形)。我们用边界ground-truth真值来监督多任务深度网络中的形状流，密集像素标注包括城市街道场景中经常出现的30类，其中19类用于实际训练和评价。

我们遵循deeplabv3+的方法，但是使用实验中描述的更简单的编码器。所有的网络都是使用PyTorch实现的。我们采用768×768训练图像作为训练分辨率和同步批量范数。网络模型训练是在NVIDIA DGX工作站上进行的，使用8个GPU，总批量大小为16。对于城市景观，我们训练GCL和三任务损失函数使用1e-2的学习率和多项式衰减策略，使用均值采样的方案来检索768×768的截图。此外，我们使用了多尺度推理方案，使用0.5、1和2尺度。训练过程中我们不使用粗数据，因为我们的边界损失需要精细的边界注释。多任务深度学习训练中的梯度传播计算时，我们为Gumbel softmax设置t＝1。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种基于多任务深度学习的图像语义分割方法，其特征在于，包括以下步骤：

S2：构建基于多任务深度学习的图像语义分割网络；

S3：对多任务深度网络进行优化；

2.根据权利要求1所述的基于多任务深度学习的图像语义分割方法，其特征在于，所述S1过程中，通过空间相关性和尺度相关性刻画图像中局部特征之间的相关关系；

3.根据权利要求2所述的基于多任务深度学习的图像语义分割方法，其特征在于，尺寸相关性中，在特征图融合过程中，通过调整特征图的尺度，解决两种层级之间输入数据尺度存在的差异。

4.根据权利要求1所述的基于多任务深度学习的图像语义分割方法，其特征在于，所述S1过程中，语义分割中，通过边缘分支设计损失联合提升语义分割性能，具体包括以下步骤：采用three stream深度网络模型结构，将形状、纹理信息分别作为单独处理的分支，然后与regularstream的语义区域特征进行相关融合。

5.根据权利要求1所述的基于多任务深度学习的图像语义分割方法，其特征在于，所述S2过程中，利用深度残差网络和门限卷积层构建基于多任务深度学习的图像语义分割网络；

其中门限卷积层具体包括以下步骤：