CN113807355A

CN113807355A - 一种基于编解码结构的图像语义分割方法

Info

Publication number: CN113807355A
Application number: CN202110862373.XA
Authority: CN
Inventors: 于重重; 厉舒南; 冯文彬; 谢涛; 田昊
Original assignee: Beijing Technology and Business University; Shenyang Research Institute Co Ltd of CCTEG
Current assignee: Beijing Technology and Business University; Shenyang Research Institute Co Ltd of CCTEG
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-12-17
Anticipated expiration: 2041-07-29
Also published as: CN113807355B

Abstract

本发明提供一种图像语义分割方法，属于图像处理技术领域。本发明基于编解码网络架构并采用多尺度特征融合的方法，将模型分为编码器和解码器两部分，编码器部分包括常规特征提取分支和边缘分支，常规特征提取分支是标准的分割网络，边缘分支通过引入残差结构、门控卷积和Canny算子将注意力只关注在边缘轮廓部分，解码器部分采用多路径优化网络结构，在整个语义分割网络内部形成了短距离连接的同时，还与特征提取网络形成了长距离的连接，不仅有助于网络训练，还能让梯度有效传递回网络中，最终得到图像的语义分割图像。本发明提高了低能见度图像语义分割中的边缘轮廓的学习效果和分割精度，提升最终语义分割的精度。

Description

一种基于编解码结构的图像语义分割方法

技术领域

本发明属于图像处理、模式识别和机器视觉技术领域，涉及图像语义分割模型技术，尤其涉及一种融合边缘优化模块的图像语义分割方法，构建在低能见度图像图像清晰化后进行边缘语义分割的网络模型，有效地提高了清晰化后的低能见度图像边缘轮廓的分割精度。

背景技术

近年来，随着计算机视觉算法不断发展，图像语义分割算法在环境感知方面产生了大量的研究成果与应用，这些成果与应用大都基于可见光采集到的能见度良好的清晰图像。当处于低能见度环境中时，采集到的低能见度图像清晰度很差，这严重限制了图像的分割精度，更重要的是清晰化后的低能见度图像无法对边缘轮廓进行精确分割。因此，利用机器学习的方法解决在低能见度图像上进行语义分割的问题，成为了近年来研究的热点问题。

目前针对编码器解码器结构的语义分割模型已经在图像语义分割领域有了较多的应用，但是在处理低能见度图像清晰化后的图像边缘轮廓特征提取问题时通常需要复杂的推理机制或网络架构。而基于多尺度特征融合的语义分割模型为解决低能见度图像边缘轮廓特征不清晰的问题提供了另一解决思路。例如，2017年，Lin等人提出了RefineNet模型，该模型有三个基本单元：一是多尺度融合模块，将高层编码器的输出上采样到与低一层编码器输出大小一致，然后进行拼接；二是残差卷积模块，用来提取不同尺度特征图的细节信息；三是链式残差池化模块，可以从较大区域中提取上下文信息并获得高级语义特征。(Lin G，Milan A，Shen C，et al.Refinenet：Multi-path refinement networks forhigh-resolution semantic segmentation[C]. 2017.)

2018年，Yu等人提出用于实时语义分割的模型BiSeNet，能实现对全局信息的整合操作，有效降低运行成本，加快推理速度。模型分为两个分支，空间分支和上下文分支。采用空间分支提取空间信息，采用上下文分支提取背景上下文信息。模型省去了通常的上采样步骤，但是也能获取到全局信息，提升分割精度的同时提升了效率。(Yu C，Wang J，Peng C，et al. Bisenet：Bilateral segmentation network for real-time semanticsegmentation[C].2018.)

2019年，Xue等人提出了DANet模型，该模型采用了两个注意力机制模块，提取全局依赖性信息，并且校正重要神经元的响应。位置注意力模块和通道注意力模块采用并行的方式连接，位置注意力模块考虑像素之间的空间关联性，通道注意力模块考虑通道维度上的关联性。结果中融合了两个注意力模块的结果，包含丰富的上下文信息，使得特征的表达能力变强。(Xue H，Liu C，Wan F，et al.Danet：Divergent activation for weaklysupervised object localization[C].2019.)

基于多尺度特征融合的语义分割模型，为低能见度图像边缘优化的语义分割研究提供了较好的解决思路。此类模型采用相加或者拼接的方式，能够对层内多尺度和层级多尺度特征图进行融合，补充图像的全局和局部信息，从而一定程度上可以提高在低能见度图像上的语义分割效果。在图像语义分割的过程中利用特征融合模块提供的不同尺度的特征是较为关键的一步，然而采用现有的多尺度特征融合方法进行低能见度图像语义分割，很难将检测到低能见度图像的边缘信息加入到特征融合模块中，且很难提高边缘轮廓处的学习效果和分割精度。

发明内容

为了克服上述现有技术的不足，本发明提出了一种基于编解码结构的图像语义分割方法，针对边缘分割不清晰的问题，构建在低能见度图像清晰化后进行融合边缘优化模块的语义分割模型，能够提高现有模型在低能见度图像语义分割中的边缘轮廓的学习效果和分割精度，提升模型最终语义分割的精度。

本发明基于编解码的网络结构并采用多尺度特征融合的方法，将模型分为编码器和解码器两部分，编码器部分包括常规特征提取分支和边缘分支，常规特征提取分支是标准的分割网络，作用是进行图像常规特征信息提取。边缘分支和常规特征提取分支并行处理，两个分支之间通过门控卷积层进行合作，从而使得信息流从常规特征提取分支流向边缘分支，边缘分支通过残差结构、门控卷积和Canny算子将注意力只关注在边缘轮廓部分。解码器部分采用多路径优化网络结构，在整个语义分割网络内部形成了短距离连接的同时，还与特征提取网络形成了长距离的连接，不仅有助于网络训练，还能让梯度有效传递回网络中，最终得到图像的语义分割图像。

本发明提供的技术方案如下：

一种图像语义分割方法，其特征在于：建立用于低能见度图像语义分割的两分支卷积神经网络结构，包括常规特征提取分支与边缘分支；利用门控卷积层连接两种分支的中间层，使用常规特征提取分支中的高级别的激活来控制边缘分支中的低级别的激活；再利用二元交叉熵损失函数计算边缘分支的损失来监督学习轮廓信息，并与常规特征提取分支中的损失函数共同优化模型的分割效果；最后通过多路径优化的网络中的链式残差池化模块和融合模块进行解码，由此达到对低能见度图像的边缘清晰化处理与语义分割，具体包括如下步骤：

步骤1：数据的预处理

本发明主要是针对清晰化后低能见度图像的语义分割，因此数据集在选用的时候可以使用清晰化后的彩色图像。对于选好的数据集需要进行以下的预处理操作：

将清晰化后的低能见度图像数据集分成：训练集(占总数据集的60％左右)，测试集(占总数据集的40％左右)。

构建融合边缘优化模块的语义分割模型，模型包括：编码器和解码器部分；包括步骤2～4：

步骤2：建立编码器部分，提取得到训练样本集图像和训练查询集图像的特征信息；

编码器的输出可以通过连接的方式将信息融合在解码器中，使得解码器更好地恢复细节信息。具体实施时，本发明所建立的编码器部分的具体构建步骤如下：

2.1常规特征提取分支模块的设计

前馈全卷积特征提取网络具有较强的图像特征提取能力，因而被广泛的应用在深度学习网络中用于图像相关特征的提取任务，由于ResNet的残差结构在特征提取方面表现出强有力的优势，因此本发明建立的常规特征提取分支部分使用ResNet相似的体系结构实现对图像常规特征进行提取。常规特征提取分支R_θ(I)具有参数θ，输入为高度H和宽度W的图像 I∈R^3×H×W，输出像素特征，输出的特征表示为

其中m是常规特征提取分支的步长，根据输出特征图的分辨率，可以将ResNet层自然划分为4个块，步长设置为m，因此当从一个块到下一个块时，特征图的分辨率降低到原来的

2.2边缘分支模块的设计

边缘分支部分是利用门控卷积层使常规体征提取分支的较高级别的激活来控制边缘分支中的较低级别的激活，便于有效地去除噪声，使得边缘分支仅专注于处理相关的边界信息。

2.2.1边缘分支S_φ具有参数φ，输入为图像梯度

以及常规特征提取分支第一个卷积层的输出，输出为生成的语义边界，边缘分支的输出边界图为s∈R^H×W。边缘分支的网络架构如图2所示，由门控卷积层与三个残差模块交错构成，门控卷积层保证边缘分支仅处理边界相关信息。

2.2.2常规特征提取分支和边缘分支并行处理，两个分支之间通过门控卷积层进行合作，从而使得信息流从常规特征提取分支流向边缘分支，边缘分支通过残差结构、门控卷积层和监督学习将注意力只关注在边缘轮廓部分。

2.2.3采用Canny算子计算图像的梯度，对图像边缘进行检测，将检测到的边缘信息与边缘分支的输出进行融合，并与常规特征提取分支的输出一起作为解码器的输入。

2.3边缘分支的门控卷积层，执行的操作如下：

在步骤2.1和2.2建立的常规特征提取分支和边缘分支需要通过门控卷积层的连接以保证信息从常规特征提取分支流向边缘分支，通过过滤其他信息帮助边缘分支来处理相关信息。本发明在常规特征提取分支和边缘分支之间引入门控卷积层，具体的门控卷积层的结构图如图3所示。

2.3.1门控卷积层处理的常规特征提取分支和边缘分支的中间表示分别为r_t和s_t，t为位置编号，t∈0，1，L，首先将r_t和s_t通过级联进行连接，然后通过归一化的1×1卷积层C_1×1和 Sigmoid函数δ，得到注意力图α_t∈R^H×W。

α_t＝δ(C_1×1(s_t||r_t)) 式1

2.3.2给定注意力图α_t，将门控卷积层作为具有注意图α_t的元素方式乘积应用于s_t，然后进行残差连接并使用核w_t进行通道方式加权，在每个像素(i，j)上的计算表示为式2：

2.3.3将

输入到边缘分支中的下一层继续处理，门控卷积和注意力映射计算都是可微的，因此反向传播的时候可以实现端到端，α_t可以看作是一种用边界信息加权重要区域的注意力图，使用双线性插值上采样常规特征提取分支中的特征映射。

步骤3：解码器部分：使用了一定数量的残差连接，在整个语义分割网络内部形成了短距离连接的同时，还与特征提取网络ResNet形成了长距离的连接，不仅有助于训练，还能让梯度有效传递回网络中，具体的操作如下：

本发明在解码器部分所采用的是多路径优化的网络结构，通过一系列的链式残差池化模块和融合模块实现对常规特征与边缘特征的精确分割。本发明具体实施时，解码器部分由四个链式残差池化模块和三个融合模块组成，各模块的设置如下：

3.1链式残差池化模块由一系列的池化层与卷积层构成，以残差的形式排列。该模块构建为一个由多个池化块组成的链，每个块由一个5×5大小的最大池化层和一个1×1大小的卷积层组成，后一个池化块将前一个池化块的输出作为输入，每个池化块的步幅为1，所有池化块的输出特征映射通过残差连接的累加与输入特征映射融合在一起。

3.2融合模块对两路数据分别执行3×3卷积并上采样后求和，两路输入通过多分辨率融合模块融合成高分辨率特征图，融合模块首先应用3×3卷积进行输入自适应，生成相同特征维度(输入中最小的)的特征映射，然后将所有(较小的)特征映射上采样到输入的最大分辨率，最后对所有特征图进行求和融合。

步骤4：建立网络的损失函数

在本发明所提出的融合边缘优化模块的网络中，编码器与解码器采用端到端的方式联合学习常规特征提取分支和边缘分支，在训练过程中共同监督分割结果和语义边界结果。

4.1边界映射是用二进制表示场景中所有对象和类的轮廓，使用二元交叉熵(Binary Cross Entropy，BCE)损失监督边界图s的学习。

其中，N为一个批次的样本数，p(x_i)为样本i的标签，正类为1，负类为0，q(x_i)为样本 i预测为正的概率，

为二进制边缘标签。

4.2使用标准交叉熵(Cross Entropy，CE)损失监督语义分割f的学习，M为类别数，p(x_ij)为变量(1或0)，当预测的类与i的标签一样时为1，不一样为0，q(x_ij)表示预测i是j类的概率，

为语义分割标签。

4.3总体损失函数由常规特征提取分支的损失函数和边缘分支的损失函数共同构成，表示为式5。

网络在训练的过程中，采用随机梯度下降算法优化网络，根据损失值的大小反向的更新步骤2)-步骤3)中各部分的网络权值参数，学习率设置为λ₁，λ₂，网络需要训练迭代的次数为n，当网络迭代n次后结束训练或者直到更早收敛为止。网络训练的过程中会不断优化各部分的网络权值参数，最终使得损失函数值变小最终逐渐收敛。

与现有技术相比，本发明具有以下技术优势：

(1)采用一种用于语义分割的两分支CNN网络结构，将边缘信息设计为一个单独的处理分支，即边缘分支，该分支与传统特征提取分支并行处理信息，连接两种分支的中间层采用门控卷积层，使用常规特征提取分支中的较高级别的激活来控制边缘分支中的较低级别的激活，使得边缘分支仅专注于处理边界信息。

(2)边缘分支单独采用一个二元交叉熵损失函数，用来监督学习边缘轮廓信息，并与常规特征提取分支中的损失函数共同优化模型的分割效果，有助于提高边缘分支轮廓学习的效果。

(3)采用Canny边缘检测算子提取物体的边缘信息，将信息添加到边缘分支输出的特征图中，辅助边缘轮廓的学习，以提高边缘轮廓处的分割精度。

附图说明

图1为本发明整体流程图；

图2为多路径优化网络各模块的结构示意图；

其中，(a)是构建的链式残差池化模块；(b)是融合模块；

链式残差池化模块的最大池化大小为5×5，卷积核大小为1×1；融合模块的卷积核大小为3×3。

图3为本发明所提出的语义分割模型的结构框图。

图4为本发明在NYUDv2数据集的分割测试结果；

其中，(a)为NYUDv2数据集的原始图像；(b)为Light-Weight RefineNet算法的分割结果； (c)为本发明算法的分割结果。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提出了一种融合边缘优化模块的语义分割模型方法。网络利用门控卷积层使常规特征提取分支中的较高级别的激活来控制边缘分支中的较低级别的激活，从而有效地去除噪声并帮助边缘分支仅专注于处理边界信息，再将常规特征提取分支中的语义区域特征和边缘分支中的边界特征经由多路径优化网络模块进行链式残差池化与融合，提高图像尤其是在边界部分的分割结果。图1是本发明的实现整体流程图。

以下实施例针对公开数据集NYUDv2数据集，进行本发明所提的融合边缘优化模块的语义分割方法的图像语义分割；具体包括如下步骤：

步骤1：数据的预处理

NYUDv2数据集共有1449个RGB-D图像，共包含40个语义分割的类标签，将其中的795个图像用于训练集，654个图像用于测试集，本例没有以任何方式使用该数据集的深度信息。

构建融合边缘优化模块的语义分割模型，包括步骤2～4：

2.1常规特征提取分支模块的设计

前馈全卷积特征提取网络具有较强的图像特征提取能力，因而被广泛的应用在深度学习网络中用于图像相关特征的提取任务，由于ResNet的残差结构在特征提取方面表现出强有力的优势，因此本发明建立的常规特征提取分支部分使用ResNet相似的体系结构实现对图像常规特征进行提取。根据输出特征图的分辨率，可以将ResNet层自然划分为4个块，步长设置为2，因此当从一个块到下一个块时，特征图的分辨率降低到原来的

2.2边缘分支模块的设计

2.2.1边缘分支S_φ具有参数φ，输入为图像梯度

2.3边缘分支的门控卷积层，执行的操作如下：

2.3.1门控卷积层处理的常规特征提取分支和边缘分支的中间表示分别为r_t和s_t，t为位置编号，t∈0，1，L，首先将r_t和s_t通过级联进行连接，然后通过归一化的1×1卷积层G_1×1和 Sigmoid函数δ，得到注意力图α_t∈R^H×W。

α_t＝δ(G_1×1(s_t||r_t)) 式1

2.3.3将

步骤3：解码器部分：采用多路径优化的网络结构，通过一系列的链式残差池化模块和融合模块实现对常规特征与边缘特征的精确分割。本发明具体实施时，解码器部分由四个链式残差池化模块和三个融合模块组成，各模块的设置如下：

步骤4：建立网络的损失函数

为二进制边缘标签。

为语义分割标签。

网络在训练的过程中，采用随机梯度下降算法优化网络，根据损失值的大小反向的更新步骤2)-步骤3)中各部分的网络权值参数，初始学习率设置为λ₁＝0.0005，λ₂＝0.0005，默认的训练批处理大小为6。网络需要训练迭代的次数为n＝300，当网络迭代300次后结束训练或者直到更早收敛为止。网络训练的过程中会不断优化各部分的网络权值参数，最终使得损失函数值逐渐的变小最终趋于收敛。

本发明在NYUDv2数据集上进行了语义分割实验，实验的结果与语义分割领域的Light-Weight RefineNet(V Nekrasov,Shen C，Reid I.Light-Weight RefineNet forReal-Time Semantic Segmentation[J].2018.)进行对比，实验结果如下表1所示。

表1 NYUDv2数据集语义分割实验结果

方法	mIoU
		Light-Weight RefineNet-50	41.7％
Light-Weight RefineNet-101	43.6％
		Light-Weight RefineNet-152	44.4％
本发明算法(Resnet50)	42.5％
		本发明算法(Resnet101)	44.6％
本发明算法(Resnet152)	45.5％

从实验结果可以看出，本发明所提出的融合边缘优化模块的语义分割算法在NYUDv2数据集上mIoU客观指标取得了比现有语义分割方法Light-Weight RefineNet更高的分数， NYUDv2数据集上的评价结果表明本发明提出的方法能够在较复杂背景的公共数据集图像上较准确地实现语义分割。

现有语义分割算法应用在清晰化处理之后的低能见度图像上的难点问题就是边缘分割精度低。为了提升网络在训练过程中边缘的分割精度，本发明在Light-WeightRefineNet网络的基础上融合边缘分支的信息，在编码器部分引入残差结构、门控卷积和Canny算子将注意力只关注在边缘轮廓部分。上图4中的(c)是本发明所提方法在NYUDv2数据集进行训练时测试的分割效果。从图中可以看出本发明所提出的模型在测试集上的分割精度与Light-Weight RefineNet网络相比在一定程度上得到了提升，较好的证明了融合边缘优化模块在一定程度上可以克服清晰化后边缘分割不清晰的问题。

Claims

1.一种图像语义分割方法，其特征在于：建立用于低能见度图像语义分割的两分支卷积神经网络结构，包括常规特征提取分支与边缘分支；利用门控卷积层连接两种分支的中间层，使用常规特征提取分支中的高级别的激活来控制边缘分支中的低级别的激活；再利用二元交叉熵损失函数计算边缘分支的损失来监督学习轮廓信息，并与常规特征提取分支中的损失函数共同优化模型的分割效果；最后通过多路径优化的网络中的链式残差池化模块和融合模块进行解码，由此达到对低能见度图像的边缘清晰化处理与语义分割，包括如下步骤：

步骤1)将低能见度的图像数据集分成训练集、测试集；构建融合边缘优化模块的语义分割模型；执行步骤2)～4)：

步骤2)建立编码器部分，具体包括：

2.1常规特征提取分支部分使用ResNet相似的体系结构实现对图像常规特征进行提取；常规特征提取分支R_θ(I)具有参数θ，输入为高度H和宽度W的图像I∈R^3×H×W，输出像素特征，输出的特征表示为

其中m是常规特征提取分支的步长，根据输出特征图的分辨率，将ResNet层自然划分为4个块，步长设置为m；

2.2利用门控卷积层使常规体征提取分支的高级别的激活来控制边缘分支中的低级别的激活，具体包括；

2.2.1边缘分支S_φ具有参数φ，输入为图像梯度

以及常规特征提取分支第一个卷积层的输出，输出为生成的语义边界，边缘分支的输出边界图为s∈R^H×W；

2.2.2常规特征提取分支和边缘分支并行处理，两个分支之间通过门控卷积层进行合作，边缘分支通过残差结构、门控卷积层和监督学习将注意力只关注在边缘轮廓部分；

2.2.3采用Canny算子计算图像的梯度，对图像边缘进行检测，将检测到的边缘信息与边缘分支的输出进行融合，并与常规特征提取分支的输出一起作为解码器的输入；

2.3边缘分支的门控卷积层，执行的操作如下：

2.3.1门控卷积层处理的常规特征提取分支和边缘分支的中间表示分别为r_t和s_t，t为位置编号，t∈0，1，L，首先将r_t和s_t通过级联进行连接，然后通过归一化的1×1卷积层C_1×1和Sigmoid函数δ，得到注意力图α_t∈R^H×W，

α_t＝δ(C_1×1(s_t||r_t)) 式1

2.3.3将

输入到边缘分支中的下一层继续处理；

步骤3)解码器部分由四个链式残差池化模块和三个融合模块组成，具体步骤包括：

3.1链式残差池化模块由一系列的池化层与卷积层构成，以残差的形式排列，该模块构建为一个由多个池化块组成的链，每个块由一个5×5大小的最大池化层和一个1×1大小的卷积层组成，后一个池化块将前一个池化块的输出作为输入，每个池化块的步幅为1，所有池化块的输出特征映射通过残差连接的累加与输入特征映射融合在一起；

3.2融合模块对两路数据分别执行3×3卷积并上采样后求和，两路输入通过多分辨率融合模块融合成高分辨率特征图，融合模块首先应用3×3卷积进行输入自适应，生成相同特征维度的特征映射，然后将所有特征映射上采样到输入的最大分辨率，最后对所有特征图进行求和融合；

步骤4)建立网络的损失函数，具体步骤包括：

4.1边界映射是用二进制表示场景中所有对象和类的轮廓，使用二元交叉熵(BinaryCross Entropy，BCE)损失监督边界图s的学习；

其中，N为一个批次的样本数，p(x_i)为样本i的标签，正类为1，负类为0，q(x_i)为样本i预测为正的概率，

为二进制边缘标签；

为语义分割标签；

4.3总体损失函数由常规特征提取分支的损失函数和边缘分支的损失函数共同构成，表示为式5；

2.如权利要求1所述图像语义分割方法，其特征是，步骤1)具体分成的训练集占总数据集的60％，测试集占总数据集的40％；图像数据集使用灰度图像或者彩色图像。

3.如权利要求1所述图像语义分割方法，其特征是，步骤2.1中的编码器部分的常规特征提取模块的卷积层操作中，分别设置四个卷积模块的卷积层输入特征图通道数、卷积核大小、输出特征图通道数、填充的取值，具体为：

第一卷积模块中，若训练集数据为彩色图像，则输入特征图通道为3；若训练集数据为灰度图像，则输入特征图通道为1；卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为0；

第二卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1；

第三卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为0；

第四卷积模块的卷积层输入为64通道特征图，卷积核大小设置为3X3，输出的特征图通道数为64，填充设置为1。

4.如权利要求1所述图像语义分割方法，其特征是，步骤2.1输入为高度H和宽度W的图像I∈R^3×H×W，高度H为640和宽度W为480，输出像素特征，输出的特征表示为

其中m是常规特征提取分支的步长选取为2。