CN112001391A

CN112001391A - 一种图像特征融合图像语义分割的方法

Info

Publication number: CN112001391A
Application number: CN202010391184.4A
Authority: CN
Inventors: 冯坤; 黄伟
Original assignee: Jiangsu Kunbo Zhixing Technology Co ltd
Current assignee: Jiangsu Kunbo Zhixing Technology Co ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-11-27

Abstract

本发明涉及图像语义分割领域，具体地说是一种图像特征融合图像语义分割的方法。一种图像特征融合图像语义分割的方法，它包括以下步骤：步骤一：构建有监督训练的全卷积神经网络；步骤二：采用多级损失函数的方式来进行训练；步骤三：利用超像素分割图对粗糙语义预测结果图进行边缘优化。本发明在像素精度和分割准确率方面都原高于以往算法,同时具有较强的鲁棒性。

Description

一种图像特征融合图像语义分割的方法

技术领域

本发明涉及图像语义分割领域，具体地说是一种图像特征融合图像语义分割的方法。

背景技术

近年来,图像语义分割已经成为计算机视觉领域中研究最为广泛的问题之一。随着场景理解、自动驾驶、医学图像处理、图像分割等计算机视觉问题研究的深入,图像语义分割作为上述研究中的基础,也变得越来越重要。随着图像数据的增长和人工智能的普及,提出一种准确而且高效的图像语义分割算法不仅能帮助计算机更好的理解图像信息,还能更加方便人们的生活。

图像语义分割的研究发展大致可以分为两个阶段。第一个阶段是传统图像语义分割方法,传统的图像语义分割方法多种多样,其中基于图划分的Normalized Cut和GrabCut算法最为常用。基于图划分的方法通常是将图像抽象成图的形式, 然后利用图理论中的算法进行图像语义分割,Shi J等人在最小分割算法的基础上进行改进,提出了一种考虑全局信息的方法N-cut。Grab Cut是Rother C等人在 2004年对Normalized Cut方法进行改进提出的一种交互式图像语义分割方法,其利用图像中的纹理和边界信息通过迭代式的方法对图像的前后背景进行有效分割。

随着深度学习的发展和图像数据的增长,传统的图像语义分割方法已经不能满足实际需求,研究者们在深度学习中找到了新的研究方向。图像语义分割研究进入了第二阶段,Long J等人提出的全卷积神经网络(FCN)开辟了深度学习在图像语义分割中的应用,FCN利用卷积层替换了卷积神经网络VGG中传统的全连接层, 并提出一种跳跃结构(skip)用来结合高层和低层信息,让预测结果图有更好的细节表现。Badrinarayanan V等人在FCN的基础上提出了一种具有对称结构的编码器 -解码器网络Segnet,Segnet利用编码器去提取图像特征,通过记住池化操作中的位置信息利用解码器通过上采样操作将特征图还原为输入图像大小。Chen L C等人在全卷积神经网络和编码器-解码器结构的基础上提出了DeepLab系列网络, DeepLab系列通过空洞卷积(Atrous convolution)[16]操作扩大感受野,再结合空洞卷积和空间金字塔池化提出空洞空间金字塔池化方法(ASPP),利用ASPP融合多尺度特征信息,最后设计了一个解码器结构去恢复空间信息得到一个清晰的边界信息。与传统方法相比,基于深度学习的图像语义分割方法在准确性和速度性能上有了很大的提高。

超像素分割能将图像中颜色、纹理等属性相似的像素集合成一个超像素,超像素分割不仅能提供丰富的图像边缘信息,还能大大提高分割算法的运行效率。目前常用的超像素分割算法有SLIC、SEEDS、GMMSP等。但是这些方法精度不算很高，而且系统比较薄弱。

发明内容

本发明旨在解决现有技术的的技术问题。提供一种图像特征融合图像语义分割的方法。本发明在像素精度和分割准确率方面都原高于以往算法,同时具有较强的鲁棒性。

本发明为解决上述技术问题所采用的技术方案是：一种图像特征融合图像语义分割的方法，包括以下步骤：

步骤一：构建有监督训练的全卷积神经网络。

网络共有10个卷积子模块,每个模块包含若干个卷积层。其中前5个卷积模块为下采样模块,利用卷积操作对图像进行特征提取,每经过一个下采样操作后图像尺寸会减小,这样能让网络提取出更高维的语义信息。下采样操作虽然能提取出高维的语义信息,但是过度下采样操作会严重损失图像的空间信息,因此在下采样模块之后设计了一个多尺度特征融合模块,在此模块中,首先联合3层特征图进行卷积操作降低维度,然后将特征图进行分块分阶段进行处理,并利用多个不同空洞因子的空洞卷积对图像特征进行多尺度提取并融合,这样可以有效提取出图像的空间信息,并扩大了感受野,降低了计算复杂度。然后是上采样操作模块,通过上采样操作逐渐增大特征图尺寸,将特征图还原到原始图像大小时,通过类别颜色对应就能得到一个粗糙的语义分割结果。为了防止在上采样过程中损失高维特征,加入了类似残差网络的跳跃连接结构,在上采样操作中除了接收上一个模块的输出以外,还接收下采样模块中与其大小对应的输出特征,这样既可以保证网络学习到充分的特征又能逐渐将特征还原到原始图像大小。

全卷积神经网络的详细结构如所示。其中每层网络所接收的特征图输入为上一层网络的输出特征图,激活函数ReLU为：

其中N代表像素总和,X_i代表输入特征图的第i个值,Y_i代表对应的输出。另外,激活函数Softmax为：

其中变量符号与公式(1)类似。

在下采样模块之后设计了一个多尺度特征融合模块。首先对前3层特征图进行卷积降维处理并进行结合,然后对得到的特征图进行分块分阶段处理,将特征图分为两块,第一阶段利用空洞率为2,4,8的3个3x3空洞卷积对第1块特征图进行处理,这样能扩大感受野,有效地提取图像空间信息,第二阶段将第2块特征图与第一阶段得到的结果进行结合再进行卷积计算。在多尺度特征融合模块中,联合部分计算公式可以写为:

J＝C[c(x₃),c(x₄),c(x₅)] (3)

在公式(3)中,x_i表示输入第i层特征图,c()表示卷积操作,C[]表示 Concat操作,J表示输出结果。

局部跨阶段部分计算公式可以写为:

O＝c(C[J₂,C[d₂(J₁),d₄(J₁),d₈(J₁)]]) (4)

在公式(4)中,d_i表示空洞率为i的空洞卷积操作,J₁表示联合部分结果的第 1分块,J₂表示第2分块,O表示结果输出,其余与公式(3)类似。

最后，在上采样模块中加入了跳跃连接结构用来结合上层卷积的结果,修复还原的图像,增强网络的精确度和鲁棒性。

步骤二：多级损失函数

采用多级损失函数的方式来进行训练,在上采样模块中设有两个损失函数。期望在第3和第4上采样模块的输出可以还原与真值图接近的语义分割图,因此第一个损失函数可以写为：

在公式(5)中,N代表像素总和,C⁽³⁾,W⁽³⁾以及H⁽³⁾分别代表着第3上采样模块输出张量的宽度、高度和通道数,(G)_i,j,k表示语义分割图像像素的真实标签,

代表第3上采样模块每个像素的预测标签,L2范数是利用距离来计算真实值与预测值之间的差别。

由于第4上采样模块最后采用的激活函数是Softmax函数,输出的结果为一个概率图,因此Loss₂可以利用交叉熵作为度量,因此Loss₂可以写为：

在公式(6)中,N代表像素总和,C⁽⁴⁾,W⁽⁴⁾以及H⁽⁴⁾分别代表着第4上采样模块输出张量的宽度、高度和通道数,(G)_i,j,k表示语义分割图像像素的真实标签,

代表第4上采样模块每个像素的预测标签。

最后将两个损失函数进行融合训练,最终损失函数为：

其中公式(7)中t_i为学习的权重,且

卷积神经网络采用多级损失函数进行优化,不仅增加了网络的精确度,而且还提高了网络的泛化能力。

步骤三：利用超像素分割图对粗糙语义预测结果图进行边缘优化。

超像素分割能将图像中颜色、纹理等属性相似的像素集合成一个超像素,超像素分割不仅能提供丰富准确的图像边缘信息,还能大大提高分割算法的运行效率。目前常用的超像素分割算法有SLIC、SEEDS、GMMSP等。采用的是SLIC算法对图像进行超像素分割,

选择合适的参数可以利用超像素分割提取出丰富准确的边缘信息。提出利用超像素分割图对粗糙语义分割图进行边缘优化,首先选择合适的参数对原始图像进行超像素分割,然后利用超像素分割图中的每块超像素做掩膜(mask),最后通过每块掩膜对粗糙语义分割图进行边缘优化。利用掩膜进行优化时总体可以分为两种情况,即标签像素在掩膜内和不在掩膜内。当标签像素不在掩膜内可以直接忽略,当标签像素在掩膜内则可以分为两种情况,即包含单标签像素和包含多标签像素,只包含单标签像素时,可以计算标签像素的覆盖率若标签像素覆盖率大于设置参数θ则将掩膜内所有像素设置为标签像素,若小于设置参数θ,则直接忽略。包含多标签像素时,首先计算每种标签像素的覆盖率,若总覆盖率小于设置参数θ,则直接忽略,若总覆盖率大于设置参数θ,则利用覆盖率最大的标签像素填充掩膜内像素。

本发明提出了利用超像素分割对物体边缘的特殊优势作为辅助优化,对粗糙分割结果进行优化；同时在全卷积网络中利用空洞卷积设计了一个联合局部跨阶段的多尺度特征融合模块,这样能有效的利用图像的空间信息。此外还在网络的上采样模块中加入跳跃连接结构,用来增强网络的学习能力。本发明的有益效果是：提出的算法在像素精度和分割准确率方面都原高于以往算法,同时具有较强的鲁棒性。

具体实施方式

本发明一种图像特征融合图像语义分割的方法：包括以下步骤：

步骤一：构建有监督训练的全卷积神经网络。

全卷积神经网络的详细结构中每层网络所接收的特征图输入为上一层网络的输出特征图,激活函数ReLU为：

其中变量符号与公式(1)类似。

J＝C[c(x₃),c(x₄),c(x₅)] (3)

局部跨阶段部分计算公式可以写为:

O＝c(C[J₂,C[d₂(J₁),d₄(J₁),d₈(J₁)]]) (4)

步骤二：多级损失函数

代表第4上采样模块每个像素的预测标签。

最后将两个损失函数进行融合训练,最终损失函数为：

其中公式(7)中t_i为学习的权重,且

Claims

1.一种图像特征融合图像语义分割的方法，其特征在于，它包括以下步骤：

步骤一：构建有监督训练的全卷积神经网络；

步骤二：采用多级损失函数的方式来进行训练；

2.根据权利要求1所述的一种图像特征融合图像语义分割的方法，其特征在在于，所述步骤一的网络共有10个卷积子模块,每个模块包含若干个卷积层；其中前5个卷积模块为下采样模块,利用卷积操作对图像进行特征提取,在下采样模块之后设计了一个多尺度特征融合模块；上采样操作模块通过上采样操作逐渐增大特征图尺寸,将特征图还原到原始图像大小时,通过类别颜色对应就能得到一个粗糙的语义分割结果，其中加入类似残差网络的跳跃连接结构。

3.根据权利要求2所述的一种图像特征融合图像语义分割的方法，其特征在在于，每层网络所接收的特征图输入为上一层网络的输出特征图,激活函数ReLU为：

其中变量符号与公式(1)类似；

在下采样模块之后设计了一个多尺度特征融合模块,首先对前3层特征图进行卷积降维处理并进行结合,然后对得到的特征图进行分块分阶段处理,将特征图分为两块,第一阶段利用空洞率为2,4,8的3个3x3空洞卷积对第1块特征图进行处理；第二阶段将第2块特征图与第一阶段得到的结果进行结合再进行卷积计算；在多尺度特征融合模块中,联合部分计算公式可以写为:

J＝C[c(x₃),c(x₄),c(x₅)] (3)

在公式(3)中,x_i表示输入第i层特征图,c()表示卷积操作,C[]表示Concat操作,J表示输出结果；

局部跨阶段部分计算公式可以写为:

O＝c(C[J₂,C[d₂(J₁),d₄(J₁),d₈(J₁)]]) (4)

在公式(4)中,d_i表示空洞率为i的空洞卷积操作,J₁表示联合部分结果的第1分块,J₂表示第2分块,O表示结果输出,其余与公式(3)类似。

最后，在上采样模块中加入了跳跃连接结构用来结合上层卷积的结果,修复还原的图像。

4.根据权利要求1所述的一种图像特征融合图像语义分割的方法，其特征在于，所述步骤二包括采用多级损失函数的方式来进行训练,在上采样模块中设有两个损失函数；期望在第3和第4上采样模块的输出可以还原与真值图接近的语义分割图,因此第一个损失函数可以写为：