CN111126451A - 一种对偶式语义分割方法 - Google Patents

一种对偶式语义分割方法 Download PDF

Info

Publication number
CN111126451A
CN111126451A CN201911209672.2A CN201911209672A CN111126451A CN 111126451 A CN111126451 A CN 111126451A CN 201911209672 A CN201911209672 A CN 201911209672A CN 111126451 A CN111126451 A CN 111126451A
Authority
CN
China
Prior art keywords
encoder
decoder
layer
result
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911209672.2A
Other languages
English (en)
Inventor
路红
任豪
肖涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201911209672.2A priority Critical patent/CN111126451A/zh
Publication of CN111126451A publication Critical patent/CN111126451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,具体为对偶式语义分割方法。本发明方法的步骤为:根据用户输入的图像,进行编码过程,将图像尺度缩小为原图的1/16,然后通过解码器结构,融合编码过程中的细粒度信息,恢复到原图尺度输出分割之后的结果图。本发明提出了一种对偶式的编码器——解码器结构,且能够对图像进行有效的语义分割。

Description

一种对偶式语义分割方法
技术领域
本发明属于计算机视觉技术领域,具体涉及对偶式语义分割方法。
背景技术
语义分割是计算机视觉领域的一项基本任务,它将图像中的每一个像素点分类为语义级别的标签。近年来,随着深度学习技术的发展,卷积神经网络在语义分割方面取得了广泛的应用和突破性的进展。对于语义分割任务来说,最终需要得到与输入图像尺寸大小相同的分割图像,且分割的效果十分依赖于全局特征的提取,图像中小的物体及分割的边界常常成为该任务的难点。
通常的卷积神经网络经过多层卷积输出特征图,这种高维特征图中包含了丰富的语义信息,常常在卷积层后接多层全连接层,用于实现图像级别的分类及回归任务。而对于语义分割任务,需要实现像素级别的分类,得到与输入图像大小相同的分割结果。
目前的语义分割算法大多数基于全卷积神经网络进行改进,将全连接层替换为反卷积层,以恢复到原分辨率大小。现有技术的解码器结构设计较为粗糙,且在结构上缺乏对称性,因此在由特征图恢复原图大小得到分割结果的过程中导致了较大的信息损失。这种Encoder-Decoder结构包含:
(1)一个编码器(Encoder)模块,逐步降低特征图的分辨率,提取更高层次的语义信息;
(2)一个解码器(Decoder)模块,由低分辨率、高维信息的特征图逐步恢复到原分辨率大小得到分割图。
为了在多尺度上提取语义特征,现有的工作采用:
Spatial Pyramid Pooling[1](空间金字塔池化):一种多分辨率策略,使得多尺度特征都能转换为固定大小的特征向量进行融合。
Atrous Spatial Pyramid Pooling[2](ASPP,空洞空间金字塔池化):使用了不同扩张率的空洞卷积,实现多尺度特征融合。
结构在多种不同维度上提取特征,并采用空洞卷积等结构进一步增大感受野的面积,以提高分割的准确度。
发明内容
本发明的目的在于提供一种对偶式语义分割方法。
本发明基于DeepLabV3+[3]的结构进行改进,以期达到更好的语义分割效果。DeepLabV3+采用了Encoder-Decoder的结构,Encoder部分以经典的ResNet101[4]为基础,并引入了空洞卷积,扩大了感受野的范围,从而可以在任意分辨率上提取特征,后接一个Atrous Spatial Pyramid Pooling(ASPP)模块,通过采用不同间隔数量的卷积核,在四个不同尺度上并行式地进行多尺度图像特征的提取并融合。得到的高维特征图为原输入图像大小的1/16,作为Decoder模块的输入,与已经提取得到的低维特征融合后进行2次的四倍上采样,最终恢复到原分辨率,得到语义分割的结果。
DeepLabV3+等结构虽然可以取得较为良好的语义分割效果,但是其解码器结构设计较为粗糙,在得到高维特征图之后直接通过两次上采样恢复到原分辨率大小,这一上采样过程会对分割的结果造成较大的影响,上采样过程的插值操作造成了一定的信息损失,会使得图像分割的细节变模糊、质量变差。
本发明针对现有技术解码器部分存在的缺点,旨在改进解码器部分的设计,提高网络结构的对称性,减轻上采样过程对于分割细节质量的影响。
本发明针对性的提出了一种对偶式的编码器——解码器结构,在编码器提取得到输入图像分辨率1/16的高维特征图之后,通过与编码器高度对称的解码器结构,分为四步逐渐恢复到输入图大小,并且引入了残差连接,每一层都融入编码器部分相同通道数、相同尺度的输出,融合了高层语义和低层的细粒度信息,满足了语义分割任务对高维特征与低维信息两方面的需求,以提升分割细节的质量,更好地恢复图像的空间信息。
提出的网络结构具有高度的对称性,上半部分为编码器部分,该部分与DeepLabV3+的编码器结构基本一致,以Resnet101为骨架,通过ASPP模块进行多尺度特征融合,得到特征图。下半部分为解码器部分,编码器得到的特征图作为解码器的输入,解码器采用了与编码器完全对称的结构,卷积层替换为对应的反卷积层,池化层替换为对应的反池化层。本发明采用的解码器结构通过四个阶段逐渐恢复到原图分辨率大小,并且通过残差连接,每一阶段的输出与编码器对应阶段的同通道数、同尺度的特征进行拼接,使得高维特征与更低维的细粒度信息得以融合,恰好满足了语义分割任务对高维特征与低维信息两方面的需求,进一步提高了分割的细节精确程度与图像质量。其具体步骤如下:
(1)将输入图片进行裁剪,并进行相应的数据增强,例如数据归一化等;
(2)将处理后的图片输入编码器结构中,其中编码器为多层卷积神经网络;
(3)编码器由多个卷积层、数据归一化层、激活函数层构成,将输入图片缩小到原图的1/16大小,得到相应的特征图;
(4)将此特征图进行多感受野的卷积操作,并将结果进行融合;
(5)将融合后的结果进行一层卷积操作,送入上采样过程;
(6)上采样过程也采用多感受野的反卷积操作,与步骤(4)的卷积操作刚好相反;
(7)将处理过后的结果经过解码器结构,其中解码器为多层反卷积神经网络,与编码器结构的卷积操作相对;
(8)解码器由多个反卷积层、数据归一化层、激活函数层构成,将输入特征图放大到原图大小,得到相应的分割结果图。
附图说明
图1为本发明的对偶式语义分割方法的总结构框图。
图2为本方法具体实施结果图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
参照图1、2,本发明的对偶式语义分割方法,其具体步骤如下:
(1)将输入图片进行裁剪,并进行相应的数据增强,例如数据归一化等;
(2)将处理后的图片输入编码器结构中,如图1上半部分所示,其中编码器为多层卷积神经网络;
(3)编码器由多个卷积层、数据归一化层、激活函数层构成,将输入图片缩小到原图的1/16大小,得到相应的特征图;
(4)将此特征图进行多感受野的卷积操作,并将结果进行融合;
(5)将融合后的结果进行一层卷积操作,送入上采样过程;
(6)上采样过程也采用多感受野的反卷积操作,与步骤(4)的卷积操作刚好相反;
(7)将处理过后的结果经过解码器结构,如图1下半部分所示,其中解码器为多层反卷积神经网络,与编码器结构的卷积操作相对;
(8)解码器由多个反卷积层、数据归一化层、激活函数层构成,将输入特征图放大到原图大小,得到相应的分割结果图;
(9)本实施方法结果如图2所示,左图为输入图像,中图为传统方法输出的语义分割结果,右图为本方法输出的分割结果,此例为分割花盆案例。
参考文献
[1]He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deepconvolutional networks for visual recognition[J]. IEEE transactions onpattern analysis and machine intelligence, 2015, 37(9): 1904-1916.
[2]Chen L C, Papandreou G, Schroff F, et al. Rethinking atrousconvolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.
[3]Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrousseparable convolution for semantic image segmentation[C]//Proceedings of theEuropean conference on computer vision (ECCV). 2018: 801-818.
[4]He K, Zhang X, Ren S, et al. Deep residual learning for imagerecognition[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2016: 770-778.。

Claims (1)

1.一种对偶式语义分割方法,其特征在于,具体步骤如下:
(1)将输入图片进行裁剪,并进行相应的数据增强,包括数据归一化;
(2)将处理后的图片输入编码器结构中,其中编码器为多层卷积神经网络;
(3)编码器由多个卷积层、数据归一化层、激活函数层构成,将输入图片缩小到原图的1/16大小,得到相应的特征图;
(4)将此特征图进行多感受野的卷积操作,并将结果进行融合;
(5)将融合后的结果进行一层卷积操作,送入上采样过程;
(6)上采样过程也采用多感受野的反卷积操作,与步骤(4)的卷积操作相反;
(7)将处理过后的结果经过解码器结构,其中解码器为多层反卷积神经网络,与编码器结构的卷积操作相对;
(8)解码器由多个反卷积层、数据归一化层、激活函数层构成,将输入特征图放大到原图大小,得到相应的分割结果图。
CN201911209672.2A 2019-12-01 2019-12-01 一种对偶式语义分割方法 Pending CN111126451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911209672.2A CN111126451A (zh) 2019-12-01 2019-12-01 一种对偶式语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911209672.2A CN111126451A (zh) 2019-12-01 2019-12-01 一种对偶式语义分割方法

Publications (1)

Publication Number Publication Date
CN111126451A true CN111126451A (zh) 2020-05-08

Family

ID=70496529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911209672.2A Pending CN111126451A (zh) 2019-12-01 2019-12-01 一种对偶式语义分割方法

Country Status (1)

Country Link
CN (1) CN111126451A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184738A (zh) * 2020-10-30 2021-01-05 北京有竹居网络技术有限公司 一种图像分割方法、装置、设备及存储介质
CN113591861A (zh) * 2021-07-08 2021-11-02 杭州网易智企科技有限公司 图像处理方法、装置、计算设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584246A (zh) * 2018-11-16 2019-04-05 成都信息工程大学 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法
CN110059772A (zh) * 2019-05-14 2019-07-26 温州大学 基于迁移vgg网络的遥感图像语义分割方法
CN110175613A (zh) * 2019-06-03 2019-08-27 常熟理工学院 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN110188768A (zh) * 2019-05-09 2019-08-30 南京邮电大学 实时图像语义分割方法及系统
CN110288603A (zh) * 2019-05-22 2019-09-27 杭州电子科技大学 基于高效卷积网络和卷积条件随机场的语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584246A (zh) * 2018-11-16 2019-04-05 成都信息工程大学 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法
CN110188768A (zh) * 2019-05-09 2019-08-30 南京邮电大学 实时图像语义分割方法及系统
CN110059772A (zh) * 2019-05-14 2019-07-26 温州大学 基于迁移vgg网络的遥感图像语义分割方法
CN110288603A (zh) * 2019-05-22 2019-09-27 杭州电子科技大学 基于高效卷积网络和卷积条件随机场的语义分割方法
CN110175613A (zh) * 2019-06-03 2019-08-27 常熟理工学院 基于多尺度特征和编解码器模型的街景图像语义分割方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184738A (zh) * 2020-10-30 2021-01-05 北京有竹居网络技术有限公司 一种图像分割方法、装置、设备及存储介质
CN113591861A (zh) * 2021-07-08 2021-11-02 杭州网易智企科技有限公司 图像处理方法、装置、计算设备及存储介质
CN113591861B (zh) * 2021-07-08 2024-05-14 杭州网易智企科技有限公司 图像处理方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN112330681B (zh) 一种基于注意力机制的轻量级网络实时语义分割方法
CN112634276B (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN110059772B (zh) 基于多尺度解码网络的遥感图像语义分割方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
WO2020015167A1 (zh) 一种基于融合网络的图像超分辨率及去非均匀模糊方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN111462013B (zh) 一种基于结构化残差学习的单图去雨方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN112163449A (zh) 一种轻量化的多分支特征跨层融合图像语义分割方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN111369565A (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
CN110781850A (zh) 道路识别的语义分割系统和方法、计算机存储介质
CN115082675B (zh) 一种透明物体图像分割方法及系统
CN111259904A (zh) 一种基于深度学习和聚类的语义图像分割方法及系统
CN111126451A (zh) 一种对偶式语义分割方法
CN113222124A (zh) 用于图像语义分割的SAUNet++网络与图像语义分割方法
Wang et al. TF-SOD: a novel transformer framework for salient object detection
Zeng et al. Self-attention learning network for face super-resolution
CN116310324A (zh) 一种基于语义分割的金字塔跨层融合解码器
CN113688783B (zh) 人脸特征提取方法、低分辨率人脸识别方法及设备
CN114821061A (zh) 上下文聚合网络以及基于该网络的图像实时语义分割方法
CN112464733A (zh) 基于双向特征融合的高分辨率光学遥感图像地物分类方法
CN113111848A (zh) 一种基于多尺度特征的人体图像解析方法
CN112488115A (zh) 一种基于two-stream架构的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination