CN113569881A

CN113569881A - 一种基于链式残差与注意力机制的自适应语义分割方法

Info

Publication number: CN113569881A
Application number: CN202010350880.0A
Authority: CN
Inventors: 吴子涵; 周大可; 张志伟
Original assignee: Shanghai Shuntong Technology Co ltd
Current assignee: Shanghai Shuntong Technology Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-10-29

Abstract

本发明公开了一种基于链式残差与注意力机制的自适应语义分割网络方法，该方法采用链式残差与注意力机制模块构建解码器网络进行训练。在数据预处理阶段，对原始图片进行数据增强，增强样本丰富性。在编码器模块，采用残差模块构成的特征网络处理训练数据，得到尺度不断减小的多层卷积特征。在解码器模块，采用链式残差网络模块使得网络具有多尺度的感受野，有效改善多类别语义分割中的尺度问题；采用通道注意力机制模块使得网络能够自适应地调整特征通道的权值，提高网络的特征判别和选择能力。在损失函数方面，引入focal loss损失函数加强网络对难分样本的学习，改善样本不均衡问题。本发明方法增强了复杂环境下语义分割算法的稳健性，提高了分割精度。

Description

一种基于链式残差与注意力机制的自适应语义分割方法

技术领域

本发明涉及计算机视觉、模式识别、深度学习等领域，具体是一种对图像中每一个像素点进行分类从而实现不规则的目标检测以及场景理解的方法。

背景技术

随着计算机技术的高速发展与人工智能时代的到来，基于图像和视频理解世界的计算机视觉技术正影响着我们每个人的生活，在自动驾驶、智能监控、虚拟现实等领域有着广泛的应用前景。语义分割作为计算机视觉领域中重要的一项课题，具有重要的研究意义和应用价值。然而，在图像中精确地分割不同种类的物体存在一些难点，比如：不同分割对象的尺度差异大，分割样本数量不均衡等。传统的分割算法由于分割精度问题不能很好地满足应用需要，而基于深度神经网络的分割算法较少对这些问题针对性地提出相应的解决方案。因此，研究设计一种针对性的自适应语义分割网络有着很实际的研究意义和应用价值。

近年来国内外学者在语义分割领域做了相应的研究和贡献，主要分为两类方法：1)基于传统方法的语义分割，2)基于深度神经网络的语义分割。基于传统方法的语义分割以自底而上(Bottom-up)的算法架构为代表，首先利用聚类、梯度或其他算法理论对原图像进行一次过分割，得到超像素区域，然后通过手工设计特征的方式提取超像素的区域特征，最后将特征送入预先训练的分类器中判断该区域的类别。但手工设计的特征通常表达能力不足，不能做到完全自适应分割，难以应对复杂任务或场景，且处理过程相较繁琐。近年来，随着计算机软硬件技术的高速发展，以深度卷积神经网络为理论基础的深度学习方法为语义分割开辟了新的研究方向。此类方法以U-Net、DeepLab、PSPNet等语义分割网络模型为代表，其特点在于编码器-解码器的网络架构。图像先经过编码器网络逐级池化生成语义特征丰富的小尺寸特征图，再通过解码器网络以反卷积或反池化的形式逐级放大分辨率至原图尺寸大小。由于在池化环节特征图会不可避免地丢失部分信息，因此在大多数网络中会采用跳跃连接的方式将编码器中的高分辨率特征图引入到解码器中。相比于传统方法，深度学习方法的分割精度更高，但对于较为复杂的场景，现有的语义分割网络的分割性能还有待进一步的提高。

在实际的分割场景中，图像中的目标类别可能多达几十种，并且不同目标的尺寸、形状差异可能很大，传统的语义分割网络在应对诸多分割对象时难以兼顾，导致分割精度下降。以室内场景语义分割任务为例，主要存在以下问题：1)多样性问题，场景中包含桌椅、壁画、家具、行人等数十种不同类别的对象；2)尺度问题，例如场景中同时包含以墙面和地板为代表的大尺度目标，以及水杯和盘子等诸多小尺度目标；3)样本不均衡问题，不同类别的对象数量不均衡，分割难度不均衡。如何针对这些问题设计更有效的语义分割网络是提升分割精度的关键。

发明内容

本发明的目的，在于针对传统语义分割网络在多分类情况下部分难分样本的分割精度不佳的问题，提出一种基于链式残差与注意力机制的自适应语义分割网络。算法根据语义分割任务的特点，通过链式残差结构实现不同尺度特征的自适应提取，利用注意力机制实现不同类型特征的自适应权重调整，引入focal loss损失函数实现不同分割难度样本的损失自适应回归，从而改善网络对复杂场景的分割效果，具有更高的分割精度和稳健性。这对于语义分割的研究与开发均具有重要的理论和实际意义。

为解决现有技术中存在的问题，本发明提供一种基于链式残差与注意力机制的自适应语义分割网络，实现复杂场景下的多类别语义分割，其技术方案如下：

一种基于链式残差与注意力机制的自适应语义分割网络，包括如下具体步骤：

步骤1：图像数据预处理，采集相应的待分割图像，进行增强预处理构建语义分割数据集，划分训练集和测试集；

步骤2:编码器设计,语义分割网络采用编码器+解码器架构，编码器主要由残差模块构成，用于处理输入数据得到尺度不断减小的多层卷积特征；

步骤3：解码器设计；采用注意力机制模块和基于空洞卷积的链式残差模块构建解码器；

步骤4：计算网络的损失函数，采用新的适用于语义分割的损失函数focal loss计算网络前向传播的损失；

步骤5：网络训练，根据预设的优化学习方法和相应超参数，训练上述的语义分割网络；

步骤6：输出分割结果。从测试集中选择测试图片，输入训练好的语义分割网络，生成分割结果。

作为本发明的一种优选方案，所述步骤1中数据预处理的方法主要有图片缩放、翻转、旋转、抖动、平移以及归一化等操作。

作为本发明的一种优选方案，所述步骤2中的编码器采用SE-ResNet-50。

作为本发明的一种优选方案，所述步骤3中的注意力机制模块，对于给定的输入特征图，首先经过全局最大池化生成与原特征通道数相同大小的权重向量，然后通过通道数为原特征通道数1/16的卷积层将权重向量压缩，再通过通道数为原特征通道数的卷积层将权重向量拉伸为原来的长度，最终将拉伸后的权重向量乘到原来的卷积特征中。

作为本发明的一种优选方案，所述步骤3中的链式残差模块，输入特征图会在其主路上直接经过一个ReLU层，在其支路上先依次经过一个感受野较小的空洞卷积和一个普通卷积，再经过另一个支路通过一个感受野较大的空洞卷积和普通卷积，最后不同感受野的支路与主路融合，得到多尺度特征的特征图。

作为本发明的一种优选方案，所述步骤4中的损失函数采用focal loss损失函数，其形式为：

L(p_t)＝-α(1-p)^γlog(p)

其中，α和γ表示权重系数，p表示网络预测的第x个像素属于某类别的概率。

作为本发明的一种优选方案，所述步骤5中优化学习方法为SGD优化器，所述相关的超参数包括学习率、batch_size、学习率衰减。

有益效果

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1，本发明通过在解码器网络采用链式残差网络模块，使得网络具有多尺度的感受野，有效改善多类别语义分割中的尺度问题。

2，本发明通过在解码器网络采用通道注意力机制模块，使得网络能够自适应地调整特征通道的权值，有效加强网络学习的鲁棒性，提高网络的特征判别和选择能力，从而缓解由于无关特征的干扰问题。

3，本发明通过采用focal loss损失函数，使得网络能够加强对难分样本的学习，改善样本数量不均衡问题并提高难分样本的分割精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的整体流程图

图2是本发明的编码器模块示意图

图3是本发明的解码器模块结构图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，是本发明算法的基本流程，具体步骤如下：

步骤1：图像数据预处理，采集待分割图像，构建语义分割数据集。本实施例的数据图像使用NYUv2公开分割数据集的1449张图片，图片尺寸640*480，图片划分795张图片为训练集和654张图片为测试集。对图片进行随机缩放、翻转、裁剪、抖动等数据增强的方法提高样本的丰富性，并做归一化处理以加快卷积网络的收敛速度。

步骤2：设计分割网络的编码器，用于处理训练数据得到尺度不断减小的多层卷积特征。网络的编码器采用一种ResNet网络模型的改进版SE-ResNet，其基本模块单元如图2所示。核心操作为Squeeze和Excitation。Squeeze操作就是在得到多个特征图之后采用全局池化操作对每个特征图进行压缩，从而使其具有全局的感受野，使得网络低层也能利用全局信息。

Excitation操作是一个类似于循环神经网络中门的机制，通过参数来为每个特征通道生成权重，其中参数被学习用来显式地建模特征通道间的相关性。先在挤压后得到的1×1×C向量基础上进行一次FC层转换，然后用ReLU激活函数层，接着第二次FC层转换，最后采用sigmoid激活函数层。其数学过程为下式所示，其中，δ是ReLU函数，σ是激活函数，W是全连接层。

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

编码器模块在网络中的结构如图3所示，生成4种尺度的特征图，分别为原图大小的1/4、1/8、1/16、1/32。

步骤3：设计注意力机制模块和链式残差模块，以两种模块为基础构建分割网络的解码器。

经过编码器逐级提取的多个尺度的特征图送入注意力机制模块，如图3所示。注意力模块中特征图首先经过一个全局最大池化，通过全局池化生成与原本卷积层通道数相同大小的权重向量，将二维的高级特征压缩为一维特征。接着依次通过1x1的卷积、ReLU、1x1的卷积和一个Sigmoid层。前面的两层卷积用于学习不同通道之间的关联性，相较于直接使用一个卷积层，conv-ReLU-conv的结构具有更多的非线性，可以更好地拟合通道间复杂的相关性,且降维-升维的方式可以减少参数量和计算量。Sigmoid层则负责将学习到的权重压缩到0-1之间。最后乘到原来的融合卷积特征中。

经过注意力机制模块处理的特征图送入链式残差模块，如图3所示。特征图依次通过循环迭代的残差空洞卷积，卷积核大小为3*3，图中第一层空洞卷积的空洞率为6，第二层空洞卷积的空洞率为12，空洞卷积后接一个普通卷积，卷积核大小为3*3。通过使用侧支上一系列的空洞卷积的操作来获取不同尺度的特征信息，直连通路上的ReLU可以在不显著影响梯度流通的情况下提高后续空洞卷积的性能。链式残差的空洞卷积对网络而言，相当于抽取高层特征，模块中不同尺寸的空洞卷积相当于不同大小的窗口，整合不同尺度特征再通过卷积加权相加，从而捕获背景上下文信息。图3中的结构仅供示意，实际应用中根据实际分割对象尺度的不同，链式结构嵌套2-5层，空洞卷积的空洞率依次设为6、12、18、24、30。这种多层嵌套结构本质上是一种空洞卷积金字塔，嵌套的层数越多其感受野就越多样。

步骤4：网络的损失函数采用focal loss损失函数，其形式如下式所示：

L(p_t)＝-α(1-p)^γlog(p)

focal loss函数中包含两个参数：α和γ。α负责调整平衡前景和背景的loss权重，以多类别室内场景分割任务为例，可以将墙面和地板这种大面积易分背景区域视作背景，将其他类别的物体视作前景，通过调节α的大小解决前景、背景数量不平衡的问题。(1-p)^γ负责调节难分样本和易分样本的权重，当γ＝0的时候，focal loss就是传统的交叉熵损失；当γ≠0时，对于易分样本网络输出的置信度p较大，因此权重(1-p)^γ会比较小，而对于难分样本网络输出的置信度p较小，因此权重(1-p)^γ会比较大。本发明中将参数γ设为2，前景α设为1，背景α设为0.4。需要注意的是，加入focal loss之后无论是简单样例还是困难样例，相比于交叉熵损失函数权值都一定程度地减小了，且参数α的存在会进一步减小loss的大小，这导致如果我们直接使用focal loss训练网络会导致收敛的速度比原先慢很多。因此，本发明在训练过程中先以交叉熵损失函数训练网络，待验证集的损失基本稳定后，再将损失函数换为focal loss继续训练。

步骤5：本实施例训练时的超参数都采用如下相同设置：batch_size设定为4，训练优化方法采用随机梯度下降法，初始学习率为0.001，若每隔5个epoch损失函数不下降则将学习率缩小为原来的0.1，持续训练到损失收敛为止，并不断利用验证集评估模型性能，以调节超参数。

步骤6：在训练完成后，从测试集中任选一张测试图片输入到语义分割网络模型中，加载步骤1-5中训练好的模型权重进行分割，网络输出端得到概率图谱，取概率图谱中概率最大的类别为预测分割类别，得到最终的分割结果。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于链式残差与注意力机制的自适应语义分割网络方法，包括如下具体步骤：

2.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法，其特征在于，所述步骤1中数据预处理的方法主要有图片缩放、翻转、旋转、抖动、平移以及归一化等操作。

3.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法，其特征在于，步骤2所述的编码器采用SE-ResNet-50。

4.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法，其特征在于，所述步骤3中的注意力机制模块，对于给定的输入特征图，首先经过全局最大池化生成与原特征通道数相同大小的权重向量，然后通过通道数为原特征通道数1/16的卷积层将权重向量压缩，再通过通道数为原特征通道数的卷积层将权重向量拉伸为原来的长度，最终将拉伸后的权重向量乘到原来的卷积特征中。

5.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法，其特征在于，所述步骤3中的链式残差模块，输入特征图会在其主路上直接经过一个ReLU层，在其支路上先依次经过一个感受野较小的空洞卷积和一个普通卷积，再经过另一个支路通过一个感受野较大的空洞卷积和普通卷积，最后不同感受野的支路与主路融合，得到多尺度特征的特征图。

6.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法，其特征在于，步骤4中的损失函数采用focalloss损失函数，其形式为：

L(p_t)＝-α(1-p)^γlog(p)

7.根据权利要求1所述基于链式残差与注意力机制的自适应语义分割网络方法，其特征在于，步骤5中优化学习方法为SGD优化器，所述相关的超参数包括学习率、batch_size、学习率衰减。