CN113807355A - 一种基于编解码结构的图像语义分割方法 - Google Patents

一种基于编解码结构的图像语义分割方法 Download PDF

Info

Publication number
CN113807355A
CN113807355A CN202110862373.XA CN202110862373A CN113807355A CN 113807355 A CN113807355 A CN 113807355A CN 202110862373 A CN202110862373 A CN 202110862373A CN 113807355 A CN113807355 A CN 113807355A
Authority
CN
China
Prior art keywords
edge
branch
image
feature extraction
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110862373.XA
Other languages
English (en)
Other versions
CN113807355B (zh
Inventor
于重重
厉舒南
冯文彬
谢涛
田昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Shenyang Research Institute Co Ltd of CCTEG
Original Assignee
Beijing Technology and Business University
Shenyang Research Institute Co Ltd of CCTEG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University, Shenyang Research Institute Co Ltd of CCTEG filed Critical Beijing Technology and Business University
Priority to CN202110862373.XA priority Critical patent/CN113807355B/zh
Publication of CN113807355A publication Critical patent/CN113807355A/zh
Application granted granted Critical
Publication of CN113807355B publication Critical patent/CN113807355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种图像语义分割方法,属于图像处理技术领域。本发明基于编解码网络架构并采用多尺度特征融合的方法,将模型分为编码器和解码器两部分,编码器部分包括常规特征提取分支和边缘分支,常规特征提取分支是标准的分割网络,边缘分支通过引入残差结构、门控卷积和Canny算子将注意力只关注在边缘轮廓部分,解码器部分采用多路径优化网络结构,在整个语义分割网络内部形成了短距离连接的同时,还与特征提取网络形成了长距离的连接,不仅有助于网络训练,还能让梯度有效传递回网络中,最终得到图像的语义分割图像。本发明提高了低能见度图像语义分割中的边缘轮廓的学习效果和分割精度,提升最终语义分割的精度。

Description

一种基于编解码结构的图像语义分割方法
技术领域
本发明属于图像处理、模式识别和机器视觉技术领域,涉及图像语义分割模型技术,尤其涉及一种融合边缘优化模块的图像语义分割方法,构建在低能见度图像图像清晰化后进行边缘语义分割的网络模型,有效地提高了清晰化后的低能见度图像边缘轮廓的分割精度。
背景技术
近年来,随着计算机视觉算法不断发展,图像语义分割算法在环境感知方面产生了大量的研究成果与应用,这些成果与应用大都基于可见光采集到的能见度良好的清晰图像。当处于低能见度环境中时,采集到的低能见度图像清晰度很差,这严重限制了图像的分割精度,更重要的是清晰化后的低能见度图像无法对边缘轮廓进行精确分割。因此,利用机器学习的方法解决在低能见度图像上进行语义分割的问题,成为了近年来研究的热点问题。
目前针对编码器解码器结构的语义分割模型已经在图像语义分割领域有了较多的应用,但是在处理低能见度图像清晰化后的图像边缘轮廓特征提取问题时通常需要复杂的推理机制或网络架构。而基于多尺度特征融合的语义分割模型为解决低能见度图像边缘轮廓特征不清晰的问题提供了另一解决思路。例如,2017年,Lin等人提出了RefineNet模型,该模型有三个基本单元:一是多尺度融合模块,将高层编码器的输出上采样到与低一层编码器输出大小一致,然后进行拼接;二是残差卷积模块,用来提取不同尺度特征图的细节信息;三是链式残差池化模块,可以从较大区域中提取上下文信息并获得高级语义特征。(Lin G,Milan A,Shen C,et al.Refinenet:Multi-path refinement networks forhigh-resolution semantic segmentation[C]. 2017.)
2018年,Yu等人提出用于实时语义分割的模型BiSeNet,能实现对全局信息的整合操作,有效降低运行成本,加快推理速度。模型分为两个分支,空间分支和上下文分支。采用空间分支提取空间信息,采用上下文分支提取背景上下文信息。模型省去了通常的上采样步骤,但是也能获取到全局信息,提升分割精度的同时提升了效率。(Yu C,Wang J,Peng C,et al. Bisenet:Bilateral segmentation network for real-time semanticsegmentation[C].2018.)
2019年,Xue等人提出了DANet模型,该模型采用了两个注意力机制模块,提取全局依赖性信息,并且校正重要神经元的响应。位置注意力模块和通道注意力模块采用并行的方式连接,位置注意力模块考虑像素之间的空间关联性,通道注意力模块考虑通道维度上的关联性。结果中融合了两个注意力模块的结果,包含丰富的上下文信息,使得特征的表达能力变强。(Xue H,Liu C,Wan F,et al.Danet:Divergent activation for weaklysupervised object localization[C].2019.)
基于多尺度特征融合的语义分割模型,为低能见度图像边缘优化的语义分割研究提供了较好的解决思路。此类模型采用相加或者拼接的方式,能够对层内多尺度和层级多尺度特征图进行融合,补充图像的全局和局部信息,从而一定程度上可以提高在低能见度图像上的语义分割效果。在图像语义分割的过程中利用特征融合模块提供的不同尺度的特征是较为关键的一步,然而采用现有的多尺度特征融合方法进行低能见度图像语义分割,很难将检测到低能见度图像的边缘信息加入到特征融合模块中,且很难提高边缘轮廓处的学习效果和分割精度。
发明内容
为了克服上述现有技术的不足,本发明提出了一种基于编解码结构的图像语义分割方法,针对边缘分割不清晰的问题,构建在低能见度图像清晰化后进行融合边缘优化模块的语义分割模型,能够提高现有模型在低能见度图像语义分割中的边缘轮廓的学习效果和分割精度,提升模型最终语义分割的精度。
本发明基于编解码的网络结构并采用多尺度特征融合的方法,将模型分为编码器和解码器两部分,编码器部分包括常规特征提取分支和边缘分支,常规特征提取分支是标准的分割网络,作用是进行图像常规特征信息提取。边缘分支和常规特征提取分支并行处理,两个分支之间通过门控卷积层进行合作,从而使得信息流从常规特征提取分支流向边缘分支,边缘分支通过残差结构、门控卷积和Canny算子将注意力只关注在边缘轮廓部分。解码器部分采用多路径优化网络结构,在整个语义分割网络内部形成了短距离连接的同时,还与特征提取网络形成了长距离的连接,不仅有助于网络训练,还能让梯度有效传递回网络中,最终得到图像的语义分割图像。
本发明提供的技术方案如下:
一种图像语义分割方法,其特征在于:建立用于低能见度图像语义分割的两分支卷积神经网络结构,包括常规特征提取分支与边缘分支;利用门控卷积层连接两种分支的中间层,使用常规特征提取分支中的高级别的激活来控制边缘分支中的低级别的激活;再利用二元交叉熵损失函数计算边缘分支的损失来监督学习轮廓信息,并与常规特征提取分支中的损失函数共同优化模型的分割效果;最后通过多路径优化的网络中的链式残差池化模块和融合模块进行解码,由此达到对低能见度图像的边缘清晰化处理与语义分割,具体包括如下步骤:
步骤1:数据的预处理
本发明主要是针对清晰化后低能见度图像的语义分割,因此数据集在选用的时候可以使用清晰化后的彩色图像。对于选好的数据集需要进行以下的预处理操作:
将清晰化后的低能见度图像数据集分成:训练集(占总数据集的60%左右),测试集(占总数据集的40%左右)。
构建融合边缘优化模块的语义分割模型,模型包括:编码器和解码器部分;包括步骤2~4:
步骤2:建立编码器部分,提取得到训练样本集图像和训练查询集图像的特征信息;
编码器的输出可以通过连接的方式将信息融合在解码器中,使得解码器更好地恢复细节信息。具体实施时,本发明所建立的编码器部分的具体构建步骤如下:
2.1常规特征提取分支模块的设计
前馈全卷积特征提取网络具有较强的图像特征提取能力,因而被广泛的应用在深度学习网络中用于图像相关特征的提取任务,由于ResNet的残差结构在特征提取方面表现出强有力的优势,因此本发明建立的常规特征提取分支部分使用ResNet相似的体系结构实现对图像常规特征进行提取。常规特征提取分支Rθ(I)具有参数θ,输入为高度H和宽度W的图像 I∈R3×H×W,输出像素特征,输出的特征表示为
Figure BDA0003186217120000031
其中m是常规特征提取分支的步长,根据输出特征图的分辨率,可以将ResNet层自然划分为4个块,步长设置为m,因此当从一个块到下一个块时,特征图的分辨率降低到原来的
Figure BDA0003186217120000032
2.2边缘分支模块的设计
边缘分支部分是利用门控卷积层使常规体征提取分支的较高级别的激活来控制边缘分支中的较低级别的激活,便于有效地去除噪声,使得边缘分支仅专注于处理相关的边界信息。
2.2.1边缘分支Sφ具有参数φ,输入为图像梯度
Figure BDA0003186217120000033
以及常规特征提取分支第一个卷积层的输出,输出为生成的语义边界,边缘分支的输出边界图为s∈RH×W。边缘分支的网络架构如图2所示,由门控卷积层与三个残差模块交错构成,门控卷积层保证边缘分支仅处理边界相关信息。
2.2.2常规特征提取分支和边缘分支并行处理,两个分支之间通过门控卷积层进行合作,从而使得信息流从常规特征提取分支流向边缘分支,边缘分支通过残差结构、门控卷积层和监督学习将注意力只关注在边缘轮廓部分。
2.2.3采用Canny算子计算图像的梯度,对图像边缘进行检测,将检测到的边缘信息与边缘分支的输出进行融合,并与常规特征提取分支的输出一起作为解码器的输入。
2.3边缘分支的门控卷积层,执行的操作如下:
在步骤2.1和2.2建立的常规特征提取分支和边缘分支需要通过门控卷积层的连接以保证信息从常规特征提取分支流向边缘分支,通过过滤其他信息帮助边缘分支来处理相关信息。本发明在常规特征提取分支和边缘分支之间引入门控卷积层,具体的门控卷积层的结构图如图3所示。
2.3.1门控卷积层处理的常规特征提取分支和边缘分支的中间表示分别为rt和st,t为位置编号,t∈0,1,L,首先将rt和st通过级联进行连接,然后通过归一化的1×1卷积层C1×1和 Sigmoid函数δ,得到注意力图αt∈RH×W
αt=δ(C1×1(st||rt)) 式1
2.3.2给定注意力图αt,将门控卷积层作为具有注意图αt的元素方式乘积应用于st,然后进行残差连接并使用核wt进行通道方式加权,在每个像素(i,j)上的计算表示为式2:
Figure BDA0003186217120000041
2.3.3将
Figure BDA0003186217120000042
输入到边缘分支中的下一层继续处理,门控卷积和注意力映射计算都是可微的,因此反向传播的时候可以实现端到端,αt可以看作是一种用边界信息加权重要区域的注意力图,使用双线性插值上采样常规特征提取分支中的特征映射。
步骤3:解码器部分:使用了一定数量的残差连接,在整个语义分割网络内部形成了短距离连接的同时,还与特征提取网络ResNet形成了长距离的连接,不仅有助于训练,还能让梯度有效传递回网络中,具体的操作如下:
本发明在解码器部分所采用的是多路径优化的网络结构,通过一系列的链式残差池化模块和融合模块实现对常规特征与边缘特征的精确分割。本发明具体实施时,解码器部分由四个链式残差池化模块和三个融合模块组成,各模块的设置如下:
3.1链式残差池化模块由一系列的池化层与卷积层构成,以残差的形式排列。该模块构建为一个由多个池化块组成的链,每个块由一个5×5大小的最大池化层和一个1×1大小的卷积层组成,后一个池化块将前一个池化块的输出作为输入,每个池化块的步幅为1,所有池化块的输出特征映射通过残差连接的累加与输入特征映射融合在一起。
3.2融合模块对两路数据分别执行3×3卷积并上采样后求和,两路输入通过多分辨率融合模块融合成高分辨率特征图,融合模块首先应用3×3卷积进行输入自适应,生成相同特征维度(输入中最小的)的特征映射,然后将所有(较小的)特征映射上采样到输入的最大分辨率,最后对所有特征图进行求和融合。
步骤4:建立网络的损失函数
在本发明所提出的融合边缘优化模块的网络中,编码器与解码器采用端到端的方式联合学习常规特征提取分支和边缘分支,在训练过程中共同监督分割结果和语义边界结果。
4.1边界映射是用二进制表示场景中所有对象和类的轮廓,使用二元交叉熵(Binary Cross Entropy,BCE)损失监督边界图s的学习。
Figure BDA0003186217120000051
其中,N为一个批次的样本数,p(xi)为样本i的标签,正类为1,负类为0,q(xi)为样本 i预测为正的概率,
Figure BDA0003186217120000052
为二进制边缘标签。
4.2使用标准交叉熵(Cross Entropy,CE)损失监督语义分割f的学习,M为类别数,p(xij)为变量(1或0),当预测的类与i的标签一样时为1,不一样为0,q(xij)表示预测i是j类的概率,
Figure BDA0003186217120000053
为语义分割标签。
Figure BDA0003186217120000054
4.3总体损失函数由常规特征提取分支的损失函数和边缘分支的损失函数共同构成,表示为式5。
Figure BDA0003186217120000055
网络在训练的过程中,采用随机梯度下降算法优化网络,根据损失值的大小反向的更新步骤2)-步骤3)中各部分的网络权值参数,学习率设置为λ1,λ2,网络需要训练迭代的次数为n,当网络迭代n次后结束训练或者直到更早收敛为止。网络训练的过程中会不断优化各部分的网络权值参数,最终使得损失函数值变小最终逐渐收敛。
与现有技术相比,本发明具有以下技术优势:
(1)采用一种用于语义分割的两分支CNN网络结构,将边缘信息设计为一个单独的处理分支,即边缘分支,该分支与传统特征提取分支并行处理信息,连接两种分支的中间层采用门控卷积层,使用常规特征提取分支中的较高级别的激活来控制边缘分支中的较低级别的激活,使得边缘分支仅专注于处理边界信息。
(2)边缘分支单独采用一个二元交叉熵损失函数,用来监督学习边缘轮廓信息,并与常规特征提取分支中的损失函数共同优化模型的分割效果,有助于提高边缘分支轮廓学习的效果。
(3)采用Canny边缘检测算子提取物体的边缘信息,将信息添加到边缘分支输出的特征图中,辅助边缘轮廓的学习,以提高边缘轮廓处的分割精度。
附图说明
图1为本发明整体流程图;
图2为多路径优化网络各模块的结构示意图;
其中,(a)是构建的链式残差池化模块;(b)是融合模块;
链式残差池化模块的最大池化大小为5×5,卷积核大小为1×1;融合模块的卷积核大小为3×3。
图3为本发明所提出的语义分割模型的结构框图。
图4为本发明在NYUDv2数据集的分割测试结果;
其中,(a)为NYUDv2数据集的原始图像;(b)为Light-Weight RefineNet算法的分割结果; (c)为本发明算法的分割结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提出了一种融合边缘优化模块的语义分割模型方法。网络利用门控卷积层使常规特征提取分支中的较高级别的激活来控制边缘分支中的较低级别的激活,从而有效地去除噪声并帮助边缘分支仅专注于处理边界信息,再将常规特征提取分支中的语义区域特征和边缘分支中的边界特征经由多路径优化网络模块进行链式残差池化与融合,提高图像尤其是在边界部分的分割结果。图1是本发明的实现整体流程图。
以下实施例针对公开数据集NYUDv2数据集,进行本发明所提的融合边缘优化模块的语义分割方法的图像语义分割;具体包括如下步骤:
步骤1:数据的预处理
NYUDv2数据集共有1449个RGB-D图像,共包含40个语义分割的类标签,将其中的795个图像用于训练集,654个图像用于测试集,本例没有以任何方式使用该数据集的深度信息。
构建融合边缘优化模块的语义分割模型,包括步骤2~4:
步骤2:建立编码器部分,提取得到训练样本集图像和训练查询集图像的特征信息;
编码器的输出可以通过连接的方式将信息融合在解码器中,使得解码器更好地恢复细节信息。具体实施时,本发明所建立的编码器部分的具体构建步骤如下:
2.1常规特征提取分支模块的设计
前馈全卷积特征提取网络具有较强的图像特征提取能力,因而被广泛的应用在深度学习网络中用于图像相关特征的提取任务,由于ResNet的残差结构在特征提取方面表现出强有力的优势,因此本发明建立的常规特征提取分支部分使用ResNet相似的体系结构实现对图像常规特征进行提取。根据输出特征图的分辨率,可以将ResNet层自然划分为4个块,步长设置为2,因此当从一个块到下一个块时,特征图的分辨率降低到原来的
Figure BDA0003186217120000071
2.2边缘分支模块的设计
边缘分支部分是利用门控卷积层使常规体征提取分支的较高级别的激活来控制边缘分支中的较低级别的激活,便于有效地去除噪声,使得边缘分支仅专注于处理相关的边界信息。
2.2.1边缘分支Sφ具有参数φ,输入为图像梯度
Figure BDA0003186217120000072
以及常规特征提取分支第一个卷积层的输出,输出为生成的语义边界,边缘分支的输出边界图为s∈RH×W。边缘分支的网络架构如图2所示,由门控卷积层与三个残差模块交错构成,门控卷积层保证边缘分支仅处理边界相关信息。
2.2.2常规特征提取分支和边缘分支并行处理,两个分支之间通过门控卷积层进行合作,从而使得信息流从常规特征提取分支流向边缘分支,边缘分支通过残差结构、门控卷积层和监督学习将注意力只关注在边缘轮廓部分。
2.2.3采用Canny算子计算图像的梯度,对图像边缘进行检测,将检测到的边缘信息与边缘分支的输出进行融合,并与常规特征提取分支的输出一起作为解码器的输入。
2.3边缘分支的门控卷积层,执行的操作如下:
在步骤2.1和2.2建立的常规特征提取分支和边缘分支需要通过门控卷积层的连接以保证信息从常规特征提取分支流向边缘分支,通过过滤其他信息帮助边缘分支来处理相关信息。本发明在常规特征提取分支和边缘分支之间引入门控卷积层,具体的门控卷积层的结构图如图3所示。
2.3.1门控卷积层处理的常规特征提取分支和边缘分支的中间表示分别为rt和st,t为位置编号,t∈0,1,L,首先将rt和st通过级联进行连接,然后通过归一化的1×1卷积层G1×1和 Sigmoid函数δ,得到注意力图αt∈RH×W
αt=δ(G1×1(st||rt)) 式1
2.3.2给定注意力图αt,将门控卷积层作为具有注意图αt的元素方式乘积应用于st,然后进行残差连接并使用核wt进行通道方式加权,在每个像素(i,j)上的计算表示为式2:
Figure BDA0003186217120000081
2.3.3将
Figure BDA0003186217120000082
输入到边缘分支中的下一层继续处理,门控卷积和注意力映射计算都是可微的,因此反向传播的时候可以实现端到端,αt可以看作是一种用边界信息加权重要区域的注意力图,使用双线性插值上采样常规特征提取分支中的特征映射。
步骤3:解码器部分:采用多路径优化的网络结构,通过一系列的链式残差池化模块和融合模块实现对常规特征与边缘特征的精确分割。本发明具体实施时,解码器部分由四个链式残差池化模块和三个融合模块组成,各模块的设置如下:
3.1链式残差池化模块由一系列的池化层与卷积层构成,以残差的形式排列。该模块构建为一个由多个池化块组成的链,每个块由一个5×5大小的最大池化层和一个1×1大小的卷积层组成,后一个池化块将前一个池化块的输出作为输入,每个池化块的步幅为1,所有池化块的输出特征映射通过残差连接的累加与输入特征映射融合在一起。
3.2融合模块对两路数据分别执行3×3卷积并上采样后求和,两路输入通过多分辨率融合模块融合成高分辨率特征图,融合模块首先应用3×3卷积进行输入自适应,生成相同特征维度(输入中最小的)的特征映射,然后将所有(较小的)特征映射上采样到输入的最大分辨率,最后对所有特征图进行求和融合。
步骤4:建立网络的损失函数
在本发明所提出的融合边缘优化模块的网络中,编码器与解码器采用端到端的方式联合学习常规特征提取分支和边缘分支,在训练过程中共同监督分割结果和语义边界结果。
4.1边界映射是用二进制表示场景中所有对象和类的轮廓,使用二元交叉熵(Binary Cross Entropy,BCE)损失监督边界图s的学习。
Figure BDA0003186217120000083
其中,N为一个批次的样本数,p(xi)为样本i的标签,正类为1,负类为0,q(xi)为样本 i预测为正的概率,
Figure BDA0003186217120000084
为二进制边缘标签。
4.2使用标准交叉熵(Cross Entropy,CE)损失监督语义分割f的学习,M为类别数,p(xij)为变量(1或0),当预测的类与i的标签一样时为1,不一样为0,q(xij)表示预测i是j类的概率,
Figure BDA0003186217120000085
为语义分割标签。
Figure BDA0003186217120000086
4.3总体损失函数由常规特征提取分支的损失函数和边缘分支的损失函数共同构成,表示为式5。
Figure BDA0003186217120000091
网络在训练的过程中,采用随机梯度下降算法优化网络,根据损失值的大小反向的更新步骤2)-步骤3)中各部分的网络权值参数,初始学习率设置为λ1=0.0005,λ2=0.0005,默认的训练批处理大小为6。网络需要训练迭代的次数为n=300,当网络迭代300次后结束训练或者直到更早收敛为止。网络训练的过程中会不断优化各部分的网络权值参数,最终使得损失函数值逐渐的变小最终趋于收敛。
本发明在NYUDv2数据集上进行了语义分割实验,实验的结果与语义分割领域的Light-Weight RefineNet(V Nekrasov,Shen C,Reid I.Light-Weight RefineNet forReal-Time Semantic Segmentation[J].2018.)进行对比,实验结果如下表1所示。
表1 NYUDv2数据集语义分割实验结果
方法 mIoU
Light-Weight RefineNet-50 41.7%
Light-Weight RefineNet-101 43.6%
Light-Weight RefineNet-152 44.4%
本发明算法(Resnet50) 42.5%
本发明算法(Resnet101) 44.6%
本发明算法(Resnet152) 45.5%
从实验结果可以看出,本发明所提出的融合边缘优化模块的语义分割算法在NYUDv2数据集上mIoU客观指标取得了比现有语义分割方法Light-Weight RefineNet更高的分数, NYUDv2数据集上的评价结果表明本发明提出的方法能够在较复杂背景的公共数据集图像上较准确地实现语义分割。
现有语义分割算法应用在清晰化处理之后的低能见度图像上的难点问题就是边缘分割精度低。为了提升网络在训练过程中边缘的分割精度,本发明在Light-WeightRefineNet网络的基础上融合边缘分支的信息,在编码器部分引入残差结构、门控卷积和Canny算子将注意力只关注在边缘轮廓部分。上图4中的(c)是本发明所提方法在NYUDv2数据集进行训练时测试的分割效果。从图中可以看出本发明所提出的模型在测试集上的分割精度与Light-Weight RefineNet网络相比在一定程度上得到了提升,较好的证明了融合边缘优化模块在一定程度上可以克服清晰化后边缘分割不清晰的问题。

Claims (4)

1.一种图像语义分割方法,其特征在于:建立用于低能见度图像语义分割的两分支卷积神经网络结构,包括常规特征提取分支与边缘分支;利用门控卷积层连接两种分支的中间层,使用常规特征提取分支中的高级别的激活来控制边缘分支中的低级别的激活;再利用二元交叉熵损失函数计算边缘分支的损失来监督学习轮廓信息,并与常规特征提取分支中的损失函数共同优化模型的分割效果;最后通过多路径优化的网络中的链式残差池化模块和融合模块进行解码,由此达到对低能见度图像的边缘清晰化处理与语义分割,包括如下步骤:
步骤1)将低能见度的图像数据集分成训练集、测试集;构建融合边缘优化模块的语义分割模型;执行步骤2)~4):
步骤2)建立编码器部分,具体包括:
2.1常规特征提取分支部分使用ResNet相似的体系结构实现对图像常规特征进行提取;常规特征提取分支Rθ(I)具有参数θ,输入为高度H和宽度W的图像I∈R3×H×W,输出像素特征,输出的特征表示为
Figure FDA0003186217110000011
其中m是常规特征提取分支的步长,根据输出特征图的分辨率,将ResNet层自然划分为4个块,步长设置为m;
2.2利用门控卷积层使常规体征提取分支的高级别的激活来控制边缘分支中的低级别的激活,具体包括;
2.2.1边缘分支Sφ具有参数φ,输入为图像梯度
Figure FDA0003186217110000012
以及常规特征提取分支第一个卷积层的输出,输出为生成的语义边界,边缘分支的输出边界图为s∈RH×W
2.2.2常规特征提取分支和边缘分支并行处理,两个分支之间通过门控卷积层进行合作,边缘分支通过残差结构、门控卷积层和监督学习将注意力只关注在边缘轮廓部分;
2.2.3采用Canny算子计算图像的梯度,对图像边缘进行检测,将检测到的边缘信息与边缘分支的输出进行融合,并与常规特征提取分支的输出一起作为解码器的输入;
2.3边缘分支的门控卷积层,执行的操作如下:
2.3.1门控卷积层处理的常规特征提取分支和边缘分支的中间表示分别为rt和st,t为位置编号,t∈0,1,L,首先将rt和st通过级联进行连接,然后通过归一化的1×1卷积层C1×1和Sigmoid函数δ,得到注意力图αt∈RH×W
αt=δ(C1×1(st||rt)) 式1
2.3.2给定注意力图αt,将门控卷积层作为具有注意图αt的元素方式乘积应用于st,然后进行残差连接并使用核wt进行通道方式加权,在每个像素(i,j)上的计算表示为式2:
Figure FDA0003186217110000021
2.3.3将
Figure FDA0003186217110000022
输入到边缘分支中的下一层继续处理;
步骤3)解码器部分由四个链式残差池化模块和三个融合模块组成,具体步骤包括:
3.1链式残差池化模块由一系列的池化层与卷积层构成,以残差的形式排列,该模块构建为一个由多个池化块组成的链,每个块由一个5×5大小的最大池化层和一个1×1大小的卷积层组成,后一个池化块将前一个池化块的输出作为输入,每个池化块的步幅为1,所有池化块的输出特征映射通过残差连接的累加与输入特征映射融合在一起;
3.2融合模块对两路数据分别执行3×3卷积并上采样后求和,两路输入通过多分辨率融合模块融合成高分辨率特征图,融合模块首先应用3×3卷积进行输入自适应,生成相同特征维度的特征映射,然后将所有特征映射上采样到输入的最大分辨率,最后对所有特征图进行求和融合;
步骤4)建立网络的损失函数,具体步骤包括:
4.1边界映射是用二进制表示场景中所有对象和类的轮廓,使用二元交叉熵(BinaryCross Entropy,BCE)损失监督边界图s的学习;
Figure FDA0003186217110000023
其中,N为一个批次的样本数,p(xi)为样本i的标签,正类为1,负类为0,q(xi)为样本i预测为正的概率,
Figure FDA0003186217110000024
为二进制边缘标签;
4.2使用标准交叉熵(Cross Entropy,CE)损失监督语义分割f的学习,M为类别数,p(xij)为变量(1或0),当预测的类与i的标签一样时为1,不一样为0,q(xij)表示预测i是j类的概率,
Figure FDA0003186217110000025
为语义分割标签;
Figure FDA0003186217110000026
4.3总体损失函数由常规特征提取分支的损失函数和边缘分支的损失函数共同构成,表示为式5;
Figure FDA0003186217110000027
2.如权利要求1所述图像语义分割方法,其特征是,步骤1)具体分成的训练集占总数据集的60%,测试集占总数据集的40%;图像数据集使用灰度图像或者彩色图像。
3.如权利要求1所述图像语义分割方法,其特征是,步骤2.1中的编码器部分的常规特征提取模块的卷积层操作中,分别设置四个卷积模块的卷积层输入特征图通道数、卷积核大小、输出特征图通道数、填充的取值,具体为:
第一卷积模块中,若训练集数据为彩色图像,则输入特征图通道为3;若训练集数据为灰度图像,则输入特征图通道为1;卷积核大小设置为3X3,输出的特征图通道数为64,填充设置为0;
第二卷积模块的卷积层输入为64通道特征图,卷积核大小设置为3X3,输出的特征图通道数为64,填充设置为1;
第三卷积模块的卷积层输入为64通道特征图,卷积核大小设置为3X3,输出的特征图通道数为64,填充设置为0;
第四卷积模块的卷积层输入为64通道特征图,卷积核大小设置为3X3,输出的特征图通道数为64,填充设置为1。
4.如权利要求1所述图像语义分割方法,其特征是,步骤2.1输入为高度H和宽度W的图像I∈R3×H×W,高度H为640和宽度W为480,输出像素特征,输出的特征表示为
Figure FDA0003186217110000031
其中m是常规特征提取分支的步长选取为2。
CN202110862373.XA 2021-07-29 2021-07-29 一种基于编解码结构的图像语义分割方法 Active CN113807355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110862373.XA CN113807355B (zh) 2021-07-29 2021-07-29 一种基于编解码结构的图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110862373.XA CN113807355B (zh) 2021-07-29 2021-07-29 一种基于编解码结构的图像语义分割方法

Publications (2)

Publication Number Publication Date
CN113807355A true CN113807355A (zh) 2021-12-17
CN113807355B CN113807355B (zh) 2023-08-25

Family

ID=78942591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110862373.XA Active CN113807355B (zh) 2021-07-29 2021-07-29 一种基于编解码结构的图像语义分割方法

Country Status (1)

Country Link
CN (1) CN113807355B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114565628A (zh) * 2022-03-23 2022-05-31 中南大学 一种基于边界感知注意的图像分割方法及系统
CN114820395A (zh) * 2022-06-30 2022-07-29 浙江工业大学 一种基于多领域信息融合的水下图像增强方法
CN114898110A (zh) * 2022-04-25 2022-08-12 四川大学 一种基于全分辨率表示网络的医学图像分割方法
CN115601542A (zh) * 2022-10-08 2023-01-13 湖北工业大学(Cn) 基于全尺度密集连接的图像语义分割方法、系统及设备
CN115937533A (zh) * 2022-12-05 2023-04-07 中国科学院合肥物质科学研究院 一种基于语义分割的雾培番茄特征提取方法
CN116030260A (zh) * 2023-03-27 2023-04-28 湖南大学 一种基于长条状卷积注意力的手术全场景语义分割方法
CN116188492A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 髋关节分割方法、装置、电子设备及计算机可读存储介质
CN116895023A (zh) * 2023-09-11 2023-10-17 中国石油大学(华东) 一种基于多任务学习的中尺度涡识别方法及系统
CN117456191A (zh) * 2023-12-15 2024-01-26 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047613A (zh) * 2019-12-30 2020-04-21 北京小白世纪网络科技有限公司 基于分支注意力及多模型融合的眼底血管分割方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111178245A (zh) * 2019-12-27 2020-05-19 深圳佑驾创新科技有限公司 车道线检测方法、装置、计算机设备和存储介质
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112541503A (zh) * 2020-12-11 2021-03-23 南京邮电大学 基于上下文注意力机制和信息融合的实时语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111178245A (zh) * 2019-12-27 2020-05-19 深圳佑驾创新科技有限公司 车道线检测方法、装置、计算机设备和存储介质
CN111047613A (zh) * 2019-12-30 2020-04-21 北京小白世纪网络科技有限公司 基于分支注意力及多模型融合的眼底血管分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112541503A (zh) * 2020-12-11 2021-03-23 南京邮电大学 基于上下文注意力机制和信息融合的实时语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王子羽;张颖敏;陈永彬;王桂棠;: "基于RGB-D图像的室内场景语义分割网络优化", 自动化与信息工程, no. 02 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114565628A (zh) * 2022-03-23 2022-05-31 中南大学 一种基于边界感知注意的图像分割方法及系统
CN114565628B (zh) * 2022-03-23 2022-09-13 中南大学 一种基于边界感知注意的图像分割方法及系统
CN114898110A (zh) * 2022-04-25 2022-08-12 四川大学 一种基于全分辨率表示网络的医学图像分割方法
CN114820395A (zh) * 2022-06-30 2022-07-29 浙江工业大学 一种基于多领域信息融合的水下图像增强方法
CN115601542A (zh) * 2022-10-08 2023-01-13 湖北工业大学(Cn) 基于全尺度密集连接的图像语义分割方法、系统及设备
CN115937533B (zh) * 2022-12-05 2023-08-25 中国科学院合肥物质科学研究院 一种基于语义分割的雾培番茄特征提取方法
CN115937533A (zh) * 2022-12-05 2023-04-07 中国科学院合肥物质科学研究院 一种基于语义分割的雾培番茄特征提取方法
CN116188492A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 髋关节分割方法、装置、电子设备及计算机可读存储介质
CN116188492B (zh) * 2023-02-21 2024-04-26 北京长木谷医疗科技股份有限公司 髋关节分割方法、装置、电子设备及计算机可读存储介质
CN116030260A (zh) * 2023-03-27 2023-04-28 湖南大学 一种基于长条状卷积注意力的手术全场景语义分割方法
CN116030260B (zh) * 2023-03-27 2023-08-01 湖南大学 一种基于长条状卷积注意力的手术全场景语义分割方法
CN116895023A (zh) * 2023-09-11 2023-10-17 中国石油大学(华东) 一种基于多任务学习的中尺度涡识别方法及系统
CN117456191A (zh) * 2023-12-15 2024-01-26 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法
CN117456191B (zh) * 2023-12-15 2024-03-08 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法

Also Published As

Publication number Publication date
CN113807355B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN109543502B (zh) 一种基于深度多尺度神经网络的语义分割方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN110298387A (zh) 融入像素级attention机制的深度神经网络目标检测方法
CN110163069B (zh) 用于辅助驾驶的车道线检测方法
CN111696110B (zh) 场景分割方法及系统
CN110599502B (zh) 一种基于深度学习的皮肤病变分割方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN114820579A (zh) 一种基于语义分割的图像复合缺陷的检测方法及系统
CN113837193B (zh) 一种基于改进U-Net网络的锌浮选泡沫图像分割方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与系统
CN114913493A (zh) 一种基于深度学习的车道线检测方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN115995002B (zh) 一种网络构建方法及城市场景实时语义分割方法
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN110889858A (zh) 一种基于点回归的汽车部件分割方法及装置
CN114581789A (zh) 一种高光谱图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant