CN111126451A - 一种对偶式语义分割方法 - Google Patents
一种对偶式语义分割方法 Download PDFInfo
- Publication number
- CN111126451A CN111126451A CN201911209672.2A CN201911209672A CN111126451A CN 111126451 A CN111126451 A CN 111126451A CN 201911209672 A CN201911209672 A CN 201911209672A CN 111126451 A CN111126451 A CN 111126451A
- Authority
- CN
- China
- Prior art keywords
- encoder
- decoder
- layer
- result
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000009977 dual effect Effects 0.000 title claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,具体为对偶式语义分割方法。本发明方法的步骤为:根据用户输入的图像,进行编码过程,将图像尺度缩小为原图的1/16,然后通过解码器结构,融合编码过程中的细粒度信息,恢复到原图尺度输出分割之后的结果图。本发明提出了一种对偶式的编码器——解码器结构,且能够对图像进行有效的语义分割。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及对偶式语义分割方法。
背景技术
语义分割是计算机视觉领域的一项基本任务,它将图像中的每一个像素点分类为语义级别的标签。近年来,随着深度学习技术的发展,卷积神经网络在语义分割方面取得了广泛的应用和突破性的进展。对于语义分割任务来说,最终需要得到与输入图像尺寸大小相同的分割图像,且分割的效果十分依赖于全局特征的提取,图像中小的物体及分割的边界常常成为该任务的难点。
通常的卷积神经网络经过多层卷积输出特征图,这种高维特征图中包含了丰富的语义信息,常常在卷积层后接多层全连接层,用于实现图像级别的分类及回归任务。而对于语义分割任务,需要实现像素级别的分类,得到与输入图像大小相同的分割结果。
目前的语义分割算法大多数基于全卷积神经网络进行改进,将全连接层替换为反卷积层,以恢复到原分辨率大小。现有技术的解码器结构设计较为粗糙,且在结构上缺乏对称性,因此在由特征图恢复原图大小得到分割结果的过程中导致了较大的信息损失。这种Encoder-Decoder结构包含:
(1)一个编码器(Encoder)模块,逐步降低特征图的分辨率,提取更高层次的语义信息;
(2)一个解码器(Decoder)模块,由低分辨率、高维信息的特征图逐步恢复到原分辨率大小得到分割图。
为了在多尺度上提取语义特征,现有的工作采用:
Spatial Pyramid Pooling[1](空间金字塔池化):一种多分辨率策略,使得多尺度特征都能转换为固定大小的特征向量进行融合。
Atrous Spatial Pyramid Pooling[2](ASPP,空洞空间金字塔池化):使用了不同扩张率的空洞卷积,实现多尺度特征融合。
结构在多种不同维度上提取特征,并采用空洞卷积等结构进一步增大感受野的面积,以提高分割的准确度。
发明内容
本发明的目的在于提供一种对偶式语义分割方法。
本发明基于DeepLabV3+[3]的结构进行改进,以期达到更好的语义分割效果。DeepLabV3+采用了Encoder-Decoder的结构,Encoder部分以经典的ResNet101[4]为基础,并引入了空洞卷积,扩大了感受野的范围,从而可以在任意分辨率上提取特征,后接一个Atrous Spatial Pyramid Pooling(ASPP)模块,通过采用不同间隔数量的卷积核,在四个不同尺度上并行式地进行多尺度图像特征的提取并融合。得到的高维特征图为原输入图像大小的1/16,作为Decoder模块的输入,与已经提取得到的低维特征融合后进行2次的四倍上采样,最终恢复到原分辨率,得到语义分割的结果。
DeepLabV3+等结构虽然可以取得较为良好的语义分割效果,但是其解码器结构设计较为粗糙,在得到高维特征图之后直接通过两次上采样恢复到原分辨率大小,这一上采样过程会对分割的结果造成较大的影响,上采样过程的插值操作造成了一定的信息损失,会使得图像分割的细节变模糊、质量变差。
本发明针对现有技术解码器部分存在的缺点,旨在改进解码器部分的设计,提高网络结构的对称性,减轻上采样过程对于分割细节质量的影响。
本发明针对性的提出了一种对偶式的编码器——解码器结构,在编码器提取得到输入图像分辨率1/16的高维特征图之后,通过与编码器高度对称的解码器结构,分为四步逐渐恢复到输入图大小,并且引入了残差连接,每一层都融入编码器部分相同通道数、相同尺度的输出,融合了高层语义和低层的细粒度信息,满足了语义分割任务对高维特征与低维信息两方面的需求,以提升分割细节的质量,更好地恢复图像的空间信息。
提出的网络结构具有高度的对称性,上半部分为编码器部分,该部分与DeepLabV3+的编码器结构基本一致,以Resnet101为骨架,通过ASPP模块进行多尺度特征融合,得到特征图。下半部分为解码器部分,编码器得到的特征图作为解码器的输入,解码器采用了与编码器完全对称的结构,卷积层替换为对应的反卷积层,池化层替换为对应的反池化层。本发明采用的解码器结构通过四个阶段逐渐恢复到原图分辨率大小,并且通过残差连接,每一阶段的输出与编码器对应阶段的同通道数、同尺度的特征进行拼接,使得高维特征与更低维的细粒度信息得以融合,恰好满足了语义分割任务对高维特征与低维信息两方面的需求,进一步提高了分割的细节精确程度与图像质量。其具体步骤如下:
(1)将输入图片进行裁剪,并进行相应的数据增强,例如数据归一化等;
(2)将处理后的图片输入编码器结构中,其中编码器为多层卷积神经网络;
(3)编码器由多个卷积层、数据归一化层、激活函数层构成,将输入图片缩小到原图的1/16大小,得到相应的特征图;
(4)将此特征图进行多感受野的卷积操作,并将结果进行融合;
(5)将融合后的结果进行一层卷积操作,送入上采样过程;
(6)上采样过程也采用多感受野的反卷积操作,与步骤(4)的卷积操作刚好相反;
(7)将处理过后的结果经过解码器结构,其中解码器为多层反卷积神经网络,与编码器结构的卷积操作相对;
(8)解码器由多个反卷积层、数据归一化层、激活函数层构成,将输入特征图放大到原图大小,得到相应的分割结果图。
附图说明
图1为本发明的对偶式语义分割方法的总结构框图。
图2为本方法具体实施结果图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
参照图1、2,本发明的对偶式语义分割方法,其具体步骤如下:
(1)将输入图片进行裁剪,并进行相应的数据增强,例如数据归一化等;
(2)将处理后的图片输入编码器结构中,如图1上半部分所示,其中编码器为多层卷积神经网络;
(3)编码器由多个卷积层、数据归一化层、激活函数层构成,将输入图片缩小到原图的1/16大小,得到相应的特征图;
(4)将此特征图进行多感受野的卷积操作,并将结果进行融合;
(5)将融合后的结果进行一层卷积操作,送入上采样过程;
(6)上采样过程也采用多感受野的反卷积操作,与步骤(4)的卷积操作刚好相反;
(7)将处理过后的结果经过解码器结构,如图1下半部分所示,其中解码器为多层反卷积神经网络,与编码器结构的卷积操作相对;
(8)解码器由多个反卷积层、数据归一化层、激活函数层构成,将输入特征图放大到原图大小,得到相应的分割结果图;
(9)本实施方法结果如图2所示,左图为输入图像,中图为传统方法输出的语义分割结果,右图为本方法输出的分割结果,此例为分割花盆案例。
参考文献
[1]He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deepconvolutional networks for visual recognition[J]. IEEE transactions onpattern analysis and machine intelligence, 2015, 37(9): 1904-1916.
[2]Chen L C, Papandreou G, Schroff F, et al. Rethinking atrousconvolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.
[3]Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrousseparable convolution for semantic image segmentation[C]//Proceedings of theEuropean conference on computer vision (ECCV). 2018: 801-818.
[4]He K, Zhang X, Ren S, et al. Deep residual learning for imagerecognition[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2016: 770-778.。
Claims (1)
1.一种对偶式语义分割方法,其特征在于,具体步骤如下:
(1)将输入图片进行裁剪,并进行相应的数据增强,包括数据归一化;
(2)将处理后的图片输入编码器结构中,其中编码器为多层卷积神经网络;
(3)编码器由多个卷积层、数据归一化层、激活函数层构成,将输入图片缩小到原图的1/16大小,得到相应的特征图;
(4)将此特征图进行多感受野的卷积操作,并将结果进行融合;
(5)将融合后的结果进行一层卷积操作,送入上采样过程;
(6)上采样过程也采用多感受野的反卷积操作,与步骤(4)的卷积操作相反;
(7)将处理过后的结果经过解码器结构,其中解码器为多层反卷积神经网络,与编码器结构的卷积操作相对;
(8)解码器由多个反卷积层、数据归一化层、激活函数层构成,将输入特征图放大到原图大小,得到相应的分割结果图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911209672.2A CN111126451A (zh) | 2019-12-01 | 2019-12-01 | 一种对偶式语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911209672.2A CN111126451A (zh) | 2019-12-01 | 2019-12-01 | 一种对偶式语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111126451A true CN111126451A (zh) | 2020-05-08 |
Family
ID=70496529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911209672.2A Pending CN111126451A (zh) | 2019-12-01 | 2019-12-01 | 一种对偶式语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126451A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184738A (zh) * | 2020-10-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种图像分割方法、装置、设备及存储介质 |
CN113591861A (zh) * | 2021-07-08 | 2021-11-02 | 杭州网易智企科技有限公司 | 图像处理方法、装置、计算设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584246A (zh) * | 2018-11-16 | 2019-04-05 | 成都信息工程大学 | 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法 |
CN110059772A (zh) * | 2019-05-14 | 2019-07-26 | 温州大学 | 基于迁移vgg网络的遥感图像语义分割方法 |
CN110175613A (zh) * | 2019-06-03 | 2019-08-27 | 常熟理工学院 | 基于多尺度特征和编解码器模型的街景图像语义分割方法 |
CN110188768A (zh) * | 2019-05-09 | 2019-08-30 | 南京邮电大学 | 实时图像语义分割方法及系统 |
CN110288603A (zh) * | 2019-05-22 | 2019-09-27 | 杭州电子科技大学 | 基于高效卷积网络和卷积条件随机场的语义分割方法 |
-
2019
- 2019-12-01 CN CN201911209672.2A patent/CN111126451A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584246A (zh) * | 2018-11-16 | 2019-04-05 | 成都信息工程大学 | 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法 |
CN110188768A (zh) * | 2019-05-09 | 2019-08-30 | 南京邮电大学 | 实时图像语义分割方法及系统 |
CN110059772A (zh) * | 2019-05-14 | 2019-07-26 | 温州大学 | 基于迁移vgg网络的遥感图像语义分割方法 |
CN110288603A (zh) * | 2019-05-22 | 2019-09-27 | 杭州电子科技大学 | 基于高效卷积网络和卷积条件随机场的语义分割方法 |
CN110175613A (zh) * | 2019-06-03 | 2019-08-27 | 常熟理工学院 | 基于多尺度特征和编解码器模型的街景图像语义分割方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184738A (zh) * | 2020-10-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种图像分割方法、装置、设备及存储介质 |
CN113591861A (zh) * | 2021-07-08 | 2021-11-02 | 杭州网易智企科技有限公司 | 图像处理方法、装置、计算设备及存储介质 |
CN113591861B (zh) * | 2021-07-08 | 2024-05-14 | 杭州网易智企科技有限公司 | 图像处理方法、装置、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330681B (zh) | 一种基于注意力机制的轻量级网络实时语义分割方法 | |
CN112634276B (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN110059772B (zh) | 基于多尺度解码网络的遥感图像语义分割方法 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
WO2020015167A1 (zh) | 一种基于融合网络的图像超分辨率及去非均匀模糊方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111462013B (zh) | 一种基于结构化残差学习的单图去雨方法 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN112163449A (zh) | 一种轻量化的多分支特征跨层融合图像语义分割方法 | |
CN110569851B (zh) | 门控多层融合的实时语义分割方法 | |
CN114973049B (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
CN111369565A (zh) | 一种基于图卷积网络的数字病理图像的分割与分类方法 | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN115082675B (zh) | 一种透明物体图像分割方法及系统 | |
CN111259904A (zh) | 一种基于深度学习和聚类的语义图像分割方法及系统 | |
CN111126451A (zh) | 一种对偶式语义分割方法 | |
CN113222124A (zh) | 用于图像语义分割的SAUNet++网络与图像语义分割方法 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
Zeng et al. | Self-attention learning network for face super-resolution | |
CN116310324A (zh) | 一种基于语义分割的金字塔跨层融合解码器 | |
CN113688783B (zh) | 人脸特征提取方法、低分辨率人脸识别方法及设备 | |
CN114821061A (zh) | 上下文聚合网络以及基于该网络的图像实时语义分割方法 | |
CN112464733A (zh) | 基于双向特征融合的高分辨率光学遥感图像地物分类方法 | |
CN113111848A (zh) | 一种基于多尺度特征的人体图像解析方法 | |
CN112488115A (zh) | 一种基于two-stream架构的语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |