CN114220098A - 一种基于改进的多尺度全卷积网络语义分割方法 - Google Patents

一种基于改进的多尺度全卷积网络语义分割方法 Download PDF

Info

Publication number
CN114220098A
CN114220098A CN202111567697.7A CN202111567697A CN114220098A CN 114220098 A CN114220098 A CN 114220098A CN 202111567697 A CN202111567697 A CN 202111567697A CN 114220098 A CN114220098 A CN 114220098A
Authority
CN
China
Prior art keywords
layer
convolution
network
convolutional
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111567697.7A
Other languages
English (en)
Inventor
贾海涛
刘博文
周焕来
赵宏涛
张洋
李玉琳
谭志昊
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yituo Communications Group Co ltd
Original Assignee
Yituo Communications Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yituo Communications Group Co ltd filed Critical Yituo Communications Group Co ltd
Priority to CN202111567697.7A priority Critical patent/CN114220098A/zh
Publication of CN114220098A publication Critical patent/CN114220098A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进的多尺度全卷积网络语义分割方法,该发明在语义分割图片时具有通用性,主要是针对复杂场景图片的语义分割。该专利以类别数目较多的PASCAL Context数据集为例,针对类别较多的情况,将VGG19网络中的全连接层改为卷积层使网络变为具有语义分割代表性的编码器‑解码器结构。加入跳跃结构来提取网路不同层级的特征,加入残差网络解决网络深度导致的梯度消失和爆炸问题,加入并改进了ASPP空洞空间池化金字塔来进行多尺度语义信息提取与融合。在上采样时采用反卷积的方法来提高解码器恢复的性能。基于改进的多尺度全卷积网络语义分割算法模型能够精准的进行图像语义信息的提取,在类别较多的复杂场景下也能够取得较好的识别效果。

Description

一种基于改进的多尺度全卷积网络语义分割方法
技术领域
本发明涉及深度学习中的图像语义分割领域,是一种主要针对在复杂场景下提高语义分割准确率的技术。
背景技术
计算机视觉在图像这个领域大体有三大任务:图像分类、目标检测、语意分割。这三个任务中,图像分类是后两者的基础,语义分割是其中难度最大的一项任务。图像分类和目标检测主要针对个体物体进行分类和识别,而语义分割则是细至对图像中所有像素进行分类,在结果显示中将属于不同类的像素通过不同的颜色标记出来。
在过去几年中,深度学习在语义图像分割任务中取得了巨大进步。使用CNN作为特征提取器的早期工作并将它们与标准的基于超像素的前端相结合,与使用手工制作特征的精心设计的方法相比,有了实质性的改进。目前的主流方法是依赖于“完全”卷积网络(FCN),其中训练CNN以提供用于像素标记的输出字段。
目前深度学习中语义分割的网络通常采用编码器-解码器的结构,在网络的设计时通常采用全卷积的方式来组成网络。在编码器-解码器结构中,编码器的作用是提取图像的特征,而解码器的作用是对编码器处理后获得的特征图进行处理和解读。编码器部分一般使用图像分割网络中去掉全连接层的卷积层,常见的有CNN网络、VGG16网络、VGG19网络等;解码器部分则是通过上采样层、卷积层(反卷积层)等结构组成。实验表明这种编码器-解码器的结构能够高效的对图像进行语义分割
随着科技的进步与时代的发展,语义分割在工业领域的应用越来越广泛,尤其是自动驾驶、医学诊断等方面。也因此诞生了越来越多的语义分割网络,比如FullyConvolution Networks(FCN)全卷积网络、SegNet、U-Net、DeepLab系列网络等。语义分割发展迅速的同时,其应用场景变得越来越复杂,对其识别准确率和实时性的要求也愈来愈高。本发明的提出主要是解决语义分割在复杂场景中的识别准确率低的问题,本发明在不同复杂场景中有一定的通用性和鲁棒性。
发明内容
为了提高语义分割在复杂场景中的识别准确率,由于VGG19比VGG16网络具有更好的网络深度,该技术的编码器部分引用了深度学习中的通用目标检测框架VGG19,并针对复杂场景下目标物体过多的问题,对解码器部分进行了设计并对网络整体进行了进一步的改进,并在解码器第四卷积层中加入了ASPP空洞空间金字塔池化。为了提升网络的性能,在网络结构中卷积数量大于等于4的卷积层中加入了残差模块(如图1和2)。
本发明所采用的技术方案是:
步骤1:改进的全卷积神经网络采用语义分割网络中常见的编码器-解码器结构,其中编码器结构特征提取主干网络采用VGG19除去全连接层的部分,包括第一卷积层,第一下采样层,第二卷积层,第二下采样层,第三卷积层,第三下采样层,第四卷积层,第四下采样层,第五卷积层,第五下采样层,五个卷积层的卷积数量分别为2,2,4,4,4。解码器部分为四部分卷积层,第一上采样层,第一卷积层,第二上采样层,第二卷积层,第三上采样层,第三卷积层,第四卷积层,编码器和解码器中所有卷积层都进行了ReLU非线性变换。
步骤2:步骤1中的编码器部分的第一至第五下采样层产生的特征图都采用1×1的卷积进行通道数统一,统一后的特征图分别记为M1,M2,M3,M4,M5。步骤1中解码器部分的第一至第四卷积层产生的特征图分别D1,D2,D3,D4;
步骤3:该步骤是专利的核心内容,编码器部分仍然采用VGG19去掉全连接层部分后的卷积层网络,解码器部分的卷积层的卷积数量依次为4,8,4,卷积核大小为3x3,其上采样率分别为2,4,2。在M2处添加一条分支至D1处作为解码器第二卷积层的输入,在M4处添加一条分支至D2处作为解码器第三卷积层的输入。
步骤4:该步骤是专利的核心内容,解码器三个卷积层输出的特征图D1,D2,D3通过第四卷积层,在第四卷积层的ASPP空洞空间金字塔池化作用下进行了特征融合得到了最终语义分割的结果。
与现有技术相比,本发明的有益效果是:
(1)在语义分割的过程中能更好的对图像特征进行提取;
(2)在复杂场景下进行语义分割,能够达到更高的语义分割精度;
(3)对于目标前景和背景特征不明显的图像,可以更好的进行分割。
附图说明:
图1为:编码器第三层、第四层、第五层与解码器第一层、第三层卷积层的卷积结构图。
图2为:解码器第二层卷积层的卷积结构图。
图3为:PASCAL Context数据集示例图片。
图4为:反卷积图示。
图5为:本方法中的ASPP空洞空间池化金字塔。
具体实施方式
下面结合附图对本发明进一步说明。
首先我们需要利用编码器-解码器结构中编码器的卷积层对图像的语义信息进行提取。由于VGGNet的结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2),并且使用几个小滤波器(3x3)卷积层的组合比一个大滤波器(5x5或7x7)卷积层的效果要好很多,并且通过不断加深网络结构可以提升性能。因此选择VGG19网络的结构作为网络的主要框架。VGG19包含了19个隐藏层(16个卷积层和3个全连接层),在编码器结构中保留3个全连接层之前的卷积层作为编码器的主要结构。
首先,网络需要利用VGG19网络模型对图像进行特征提取,VGG19共包含16个卷积层、5个池化层。其中卷积操作不会改变前一层所传特征图的尺寸大小,而每一个池化层的步长为2,特征图经过池化后尺寸会缩小到一半。根据的情况,为了满足复杂场景的前提,我们需要选择类别数量比较多的数据集,因此我们选择了PASCAL Context数据集如图3。PASCAL Context数据集由两部分组成:PASCAL VOC 2010语义分割数据集、Context标注,总共有459个标注类别,包含10103张图像,其中4998用于训练集,5105用于验证集。现在最广泛地用法是使用其中出现频率最高的59个类别作为语义标签,其余类别标记为背景即background。输入图像的大小长为2048,宽为2048,通道数为3,通过VGG19网络进行特征提取,由于语义分割的结果要与原图像大小保持一致,最后输出的特征图的大小长为通道数为类别数60。
解码器部分使用四层卷积层的方式替代全连接层,其中第一层卷积层包含1个上采样层和4个卷积,第二层卷积层包含1个上采样层和8个卷积,第三层卷积层包含1个上采样和4个卷积,第四层卷积层为ASPP空洞空间池化金字塔,以不同采样率的空洞卷积并行采样,相当于以多个比例来更好的捕捉图像的上下文信息,最后进行全局平均池化(GAP),将所得特征输入到具有60个滤波器的1x1卷积中,对最后的结果结果进行双线性上采样到正确的维度大小,得到语义分割的结果。
在编码器中的池化均采用尺寸为2x2的最大池化,解码器中的第一卷积层至第三卷积层的上采样率分别为2、4、2,通过不同的上采样率来恢复图像更多的细节。
在解码器中,我们采用反卷积的方式来对图像进行上采样来恢复图像大小。因为转置卷积是一种基于学习的上采样方法,因此效果会比一般的插值方法好一些。
反卷积的方式如图4所示。反卷积的实现步骤如下:
(1)将原始输入特征图x进行变换,得到新的特征图x'。
(2)求新的卷积核的设置。
(3)用新的卷积核在新的特征图上做常规的卷积,得到的结果就是反卷积的结果。
VGG19的网络层数多,也就意味这能够提取到的不同级别的抽象特征更加丰富,并且越深的网络提取的特征越抽象,就越具有语义信息。简单的增加网络的深度,容易导致梯度消失和爆炸。为了解决这一问题,在编码层和解码层的卷积次数大于等于4的卷积层中加入了残差网络,其网络结构如图1和2。通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化了学习目标和难度。
为解决图像语义分割中感知细节部分的能力较弱,分割结果粗糙的问题,使输出的结果能够获得更多级别的图像语义信息,将网络编码器部分第二卷积层的输出M2与解码器部分第二卷积层的输出D2相连接,编码器部分第四卷积层的输出M4与解码器部分第一卷积层的输出D1相连接,通过点加的方式将相互连接的特征图进行图像融合。并将前者融合后的特征图作为解码器第三卷积层的输入,将后者融合后的特征图作为解码器第二卷积层的输入;同时将两次融合的图像特征图分别作为第四卷积层ASPP的输入。
在网络中将上面所提出的编码层的输出特征图和解码层的输出特征图相连接的好处是:
(1)由于池化操作会丢失有用的图像细节信息,通过连接与点加的方式将特征图进行融合可以更好的对图像的细节进行恢复。通过传递卷积层的特征图到反卷积层,有助于解码器拥有更多图像细节信息,从而恢复出更好的干净图像。
(2)正如残差网络的设计初衷,跳跃连接可以解决网络层数较深的情况下梯度消失的问题,同时有助于梯度的反向传播,加快训练过程。
为了能不丢失分辨率、并仍能扩大感受野、捕获图像的多尺度上下文信息,在解码器的第四层网络中,我们引入了ASPP空洞空间池化金字塔。ASPP在分割任务中十分有用。一方面感受野大了可以检测分割大目标,另一方面分辨率高了可以精确定位目标。在本方法中如图5所示。空洞空间卷积池化金字塔(ASPP)对所给定的输入以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文。我们将网络编码器部分第二卷积层的输出M2与解码器部分第二卷积层的输出D2的融合特征图T1、编码器部分第四卷积层的输出M4与解码器部分第一卷积层的输出D1的融合特征图T2以及解码器第三卷积层的输出D3(此处记为T3)作为空洞空间池化金字塔的输入,3个输入的空洞卷积空洞间隔的跨度分别为12,6,1。再通过将特征做全局平均池化(GAP),经过卷积再融合形成更厚的特征图,将所得到的融合特征输入到具有60个滤波器的1x1卷积中,对最后的结果结果进行双线性上采样到2048x1024的维度大小,得到了语义分割的最终结果。
以上所述为本发明的具体实施方法,主要针对在复杂场景下的语义分割技术的准确率的提升。由于本方法是在VGG19的基础上更改的全卷积的语义分割网络,该网络是在编码器-解码器结构的基础上进行改进的。通过增加残差网络来解决增加网络的深度导致梯度消失和爆炸的问题,在网络中增加编码器向解码器的跳跃连接来更好的对图像的细节进行恢复、恢复出更好的干净图像,并加快训练过程。通过引入反卷积的方式进行上采样来更好的恢复图像的空间结构,在最后引入ASPP空洞空间池化金字塔结构来多尺度理解图像上下文信息以更好的恢复图像的细节,最后通过全局平均池化、1x1的60维度卷积和双线性上采样得到最后的语义分割结果。

Claims (5)

1.一种基于改进的多尺度全卷积网络语义分割方法,其特征在于,包括以下步骤:
步骤1:改进的全卷积神经网络采用语义分割网络中常见的编码器-解码器结构,其中编码器结构特征提取主干网络采用VGG19除去全连接层的部分,包括第一卷积层,第一下采样层,第二卷积层,第二下采样层,第三卷积层,第三下采样层,第四卷积层,第四下采样层,第五卷积层,第五下采样层,五个卷积层的卷积数量分别为2,2,4,4,4。解码器部分为四部分卷积层,第一上采样层,第一卷积层,第二上采样层,第二卷积层,第三上采样层,第三卷积层,第四卷积层,编码器和解码器中所有卷积层都进行了ReLU非线性变换。
步骤2:步骤1中的编码器部分的第一至第五下采样层产生的特征图都采用1×1的卷积进行通道数统一,统一后的特征图分别记为M1,M2,M3,M4,M5。步骤1中解码器部分的第一至第四卷积层产生的特征图分别D1,D2,D3,D4;
步骤3:该步骤是专利的核心内容,编码器部分仍然采用VGG19去掉全连接层部分后的卷积层网络,解码器部分的卷积层的卷积数量依次为4,8,4,卷积核大小为3x3,其上采样率分别为2,4,2。在M2处添加一条分支至D1处作为解码器第二卷积层的输入,在M4处添加一条分支至D2处作为解码器第三卷积层的输入。
步骤4:该步骤是专利的核心内容,解码器三个卷积层输出的特征图D1,D2,D3通过第四卷积层,在第四卷积层的作用下进行了特征融合得到了最终语义分割的结果。
2.如权利要求1所述方法,其特征在于,步骤1中编码器结构中卷积数量为4的卷积层中引入了从第一个卷积到第四个卷积的残差网络。
3.如权利要求1所述方法,其特征在于,步骤2中的下采样层为局部最大值池化方法。
4.如权利要求1所述方法,其特征在于,步骤3中的上采样层为双线性内插方法。
5.如权利要求1所述方法,其特征在于,步骤4中的第四卷积层为ASPP空洞空间金字塔池化,ASPP中包含了不同扩张率的空洞卷积、全局平均池化(GAP),将所得特征输入到具有60个滤波器的1x1卷积中,对最后的结果结果进行双线性上采样到正确的维度大小。
CN202111567697.7A 2021-12-21 2021-12-21 一种基于改进的多尺度全卷积网络语义分割方法 Pending CN114220098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111567697.7A CN114220098A (zh) 2021-12-21 2021-12-21 一种基于改进的多尺度全卷积网络语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111567697.7A CN114220098A (zh) 2021-12-21 2021-12-21 一种基于改进的多尺度全卷积网络语义分割方法

Publications (1)

Publication Number Publication Date
CN114220098A true CN114220098A (zh) 2022-03-22

Family

ID=80704546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111567697.7A Pending CN114220098A (zh) 2021-12-21 2021-12-21 一种基于改进的多尺度全卷积网络语义分割方法

Country Status (1)

Country Link
CN (1) CN114220098A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601542A (zh) * 2022-10-08 2023-01-13 湖北工业大学(Cn) 基于全尺度密集连接的图像语义分割方法、系统及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110781895A (zh) * 2019-10-10 2020-02-11 湖北工业大学 一种基于卷积神经网络的图像语义分割方法
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113486897A (zh) * 2021-07-29 2021-10-08 辽宁工程技术大学 一种卷积注意力机制上采样解码的语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110781895A (zh) * 2019-10-10 2020-02-11 湖北工业大学 一种基于卷积神经网络的图像语义分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113486897A (zh) * 2021-07-29 2021-10-08 辽宁工程技术大学 一种卷积注意力机制上采样解码的语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘致驿;孙韶媛;任正云;刘训华;卜德飞;: "基于改进DeepLabv3+的无人车夜间红外图像语义分割", 应用光学, no. 01, 15 January 2020 (2020-01-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601542A (zh) * 2022-10-08 2023-01-13 湖北工业大学(Cn) 基于全尺度密集连接的图像语义分割方法、系统及设备
CN115601542B (zh) * 2022-10-08 2023-07-21 湖北工业大学 基于全尺度密集连接的图像语义分割方法、系统及设备

Similar Documents

Publication Publication Date Title
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
US20190205758A1 (en) Gland segmentation with deeply-supervised multi-level deconvolution networks
CN108596330B (zh) 一种并行特征全卷积神经网络装置及其构建方法
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN111126379A (zh) 一种目标检测方法与装置
CN109993269B (zh) 基于注意力机制的单张图像人群计数方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN112581409B (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN111028235A (zh) 一种利用特征融合增强边缘和细节信息的图像分割方法
CN112950477A (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN112163490A (zh) 一种基于场景图片的目标检测方法
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN112036379A (zh) 基于注意力时间池化图卷积的骨架动作识别方法
CN114332573A (zh) 基于注意力机制的多模态信息融合识别方法及系统
CN113963170A (zh) 一种基于交互式特征融合的rgbd图像显著性检测方法
Song et al. PSTNet: Progressive sampling transformer network for remote sensing image change detection
CN114220098A (zh) 一种基于改进的多尺度全卷积网络语义分割方法
Shahbaz et al. Deep atrous spatial features-based supervised foreground detection algorithm for industrial surveillance systems
CN112861911A (zh) 一种基于深度特征选择融合的rgb-d语义分割方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN112488115B (zh) 一种基于two-stream架构的语义分割方法
CN111047571B (zh) 一种具有自适应选择训练过程的图像显著目标检测方法
CN114937153A (zh) 弱纹理环境下基于神经网络的视觉特征处理系统及方法
CN111353441B (zh) 基于位置数据融合的道路提取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination