CN111127470A - 一种基于上下文和浅层空间编解码网络的图像语义分割方法 - Google Patents
一种基于上下文和浅层空间编解码网络的图像语义分割方法 Download PDFInfo
- Publication number
- CN111127470A CN111127470A CN201911345717.9A CN201911345717A CN111127470A CN 111127470 A CN111127470 A CN 111127470A CN 201911345717 A CN201911345717 A CN 201911345717A CN 111127470 A CN111127470 A CN 111127470A
- Authority
- CN
- China
- Prior art keywords
- context
- convolution
- semantic
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
当前图像语义分割研究基本围绕如何提取有效的语义上下文信息和还原空间细节信息两个因素来设计更有效算法。现有的语义分割模型,有的忽视了网络浅层的空间细节信息,有的没有获取高质量的语义上下文特征。针对此问题,本发明提出了一种基于上下文和浅层空间编解码网络的图像语义分割方法。在编码端采用二分支策略,其中上下文分支设计了一个新的语义上下文模块来获取高质量的语义上下文信息,而空间分支设计成反U型结构,并结合链式反置残差模块,在保留空间细节信息的同时提升语义信息。解码端,本发明设计优化模块对融合后的上下文信息与空间信息进一步优化。通过大量实验,本发明在三个基准数据集CamVid、SUN RGB‑D和Cityscapes上取得了有竞争力的结果。
Description
技术领域
本发明涉及计算机视觉、深度学习领域,具体为一种基于上下文和浅层空间编解码网络的图像语义分割方法。
背景技术
语义分割是计算机视觉领域最热门的研究问题之一,由于其具有广泛的应用前景,如当下备受关注的自动驾驶技术,VR技术以及自动医疗分析等。语义分割任务是为图像中每一个像素点分配与之对应的语义标签,例如小汽车,路面,天空等,也被认为是像素级分类任务。与图像分类和目标检测不同,图像语义分割需要识别图像中的物体类别以及发现图像中物体位置,因此语义分割也是计算机视觉中最具挑战性任务之一。传统的图像分割方法需要人工手动地获取图像特征,一般只能提取到图像的低级特征信息,例如颜色、纹理、边界等,这些低级特征信息很难适应复杂的图像场景。不同于传统方法,基于深度学习的图像语义分割方法可以自动地提取图像的高级特征,使得网络模型能够学习到更加抽象的图像特征,推动了复杂场景中的图像理解。
当前,基于深度学习的语义分割模型,有的采用全卷积网络结构以获取有效的语义上下文信息,而忽视了网络浅层的空间细节信息;有的采用U型结构,通过复杂的网络连接利用编码端的空间细节信息,但没有获取高质量的语义上下文特征。针对此问题,本发明提出了一种基于上下文和浅层空间编解码网络的图像语义分割方法,在编码端采用二分支策略,其中上下文分支设计了一个新的语义上下文模块来获取高质量的语义上下文信息,而空间分支设计成反U型结构,并结合链式反置残差模块,在保留空间细节信息的同时提升语义信息。解码端,本发明设计了优化模块对融合后的上下文信息与空间信息进一步优化。
发明内容
为了解决现有技术的不足,本发明提供了一种基于上下文和浅层空间编解码网络的图像语义分割方法。
本发明提供如下技术方案:一种基于上下文和浅层空间编解码网络的图像语义分割方法,该语义分割方法包括以下步骤:
步骤一:构建混合扩张卷积模块和残差金字塔特征提取模块,将这两个模块作为网络模型的语义上下文提取模块;
步骤二:本发明的骨干网络使用了在ImageNet数据集上预训练的ResNet-34,去除了最大池化层和全连接层以适应语义分割任务,在骨干网络的末端结合步骤一的语义上下文提取模块来构建编码端的语义上下文路径;
步骤三:构建链式反置残差模块,对骨干网络浅、中层的空间信息进行处理,在保留空间信息的同时提升特征图的语义表达能力;
步骤四:为了利用编码端骨干网络浅、中层特征信息,将编码端的空间信息路径设计为反U型结构以共享编码端浅、中层特征,同时结合步骤三设计的链式反置残差模块,在保留浅层空间信息的同时提升特征的语义信息;
步骤五:在解码端,设计残差循环卷积模块。首先将步骤二得到的高级语义上下文特征进行双线性上采样再与步骤四的空间细节特征以逐像素点求和方式进行融合;其次,使用残差循环卷积模块对融合后的特征进行优化处理;
步骤六:最后,将步骤五提取的优化特征通过像素级预测器和转置卷积操作产生最终的预测分割图。
优选地,步骤一中的所述混合扩张卷积模块有两个分支,首先特征图通过一个1×1卷积减少通道数,其次,一个分支通过3×3的卷积,另一个分支进入五种不同的扩张卷积:扩张率为2的3×3卷积层、扩张率为4的3×3卷积层、扩张率为3的5×5卷积层进行融合,再融合扩张率为2的5×5卷积层与扩张率为2的7×7卷积层,目的是获取像素点的周围特征信息。
优选地,步骤一中的所述残差金字塔特征提取模块,采用了四个不同扩张率的扩张卷积,它们的扩张率分别为:2、3、5、7。同时,为了利用全局场景上下文信息,引入全局池化操作,以并行方式将它们组合在一起。然后对它们进行拼接操作以获取多尺度特征信息。最后与残差进行融合,提升语义表达能力的同时加速梯度反向传播。
优选地,步骤三中的所述链式反置残差模块,每个链式反置残差模块由多个反置残差结构以链式结构相结合,反置残差结构由两个1×1点级卷积层和一个3×3分组卷积层组成。本发明中所用的三个链式反置残差模块的链长不一样,连接低层特征的CRB_1链长为3,即由3个反置残差结构链接而成,CRB_2的链长为2,而连接中层特征的CRB_3链长为1。通过链长的不同设置,可以有针对性地提升浅层特征的语义表达能力。
优选地,步骤五中的所述残差循环卷积模块,由两个3x3的循环卷积网络以及残差组成。
本发明具有以下有益效果:本发明采用二分支结构的编解码网络框架,结合所提出的改进模块,提出了一种新的端到端的深度学习模型用于图像语义分割,该模型在获取高质量的上下文语义特征同时有效地保留了编码端浅、中层的空间细节信息,本发明在三个基准数据集CamVid、SUN RGB-D和Cityscapes上取得了有竞争力的结果。
附图说明
图1为本发明网络框架。
图2ResNet-34骨干网络结构图。
图3为混合扩张卷积模块结构图。
图4残差金字塔特征提取模块结构图。
图5链式反置残差模块结构图。
图6残差循环卷积模块结构图。
图7在CamVid测试集上的定性比较。
图8在SUN RGB-D测试集上的定性结果。
图9在Cityscapes验证集上的定性结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-9,本发明所述的基于上下文和浅层空间编解码网络的图像语义分割方法具体实施步骤为:
(S1):构建混合扩张卷积模块
扩张卷积根据扩张率在卷积核中相邻两个权值之间插入相应的零,因此通过增加扩张率可以增大卷积核对特征图的局部计算区域,从而可以识别更大范围的图像特征信息。扩张卷积在二维信号中的定义如公式1,其中输入特征图x(m,n)与卷积核w(i,j)进行卷积操作产生输出y(m,n),卷积核的长度和宽度为M、N,r是扩张率,后面部分出现的r都表示扩张率,它控制卷积核对输入x的采样大小,这相当于在卷积核中相邻两个权值之间插入r-1个零。相比于传统卷积,扩张卷积在没有增加网络参数的情况下就可以获得更大的感受野。扩张卷积是一种稀疏计算,即当扩张率很大时,卷积核的参数数量没有变化,但对特征图的作用区域却很大,这就导致扩张卷积从特征图中提取到的有用信息量很少,从而使扩张卷积失去了建模能力。
本发明提出的混合扩张卷积模块的设计动机是获取像素点周围特征信息的同时可以提升网络感受野,并且减少特征信息的丢失。混合扩张卷积模块通过混合叠加的方式来获取周围特征信息以及增加网络感受野。如图3所示,整个模块分为两个分支,首先特征图通过一个1×1的卷积,目的是减少特征通道数,从而减少网络参数。然后,一个分支通过3×3的卷积,另一分支进入五种不同的扩张卷积:扩张率为2的3×3卷积层、扩张率为4的3×3卷积层以及扩张率为3的5×5卷积层进行融合,再融合扩张率为2的5×5卷积层与扩张率为2的7×7卷积层,目的是获取像素点的周围特征信息。最后将两个分支进行融合,最终可以获得周围特征信息和大感受野的同时,信息丢失较少。这里每一个卷积层后面跟着批归一化处理和Relu(x)=max(0,x)激活函数。
(S2):构建残差金字塔特征提取模块
本发明采用了四个不同扩张率的扩张卷积,它们的扩张率分别为:2、3、5、7。同时,为了利用全局场景上下文信息,将全局池化操作扩展到扩张卷积空间金字塔池化中。
本发明提出的残差金字塔特征提取模块结构如图4所示,输入特征首先进入扩张卷积金字塔模块,它由四个不同扩张率的扩张卷积和全局平局池化以并联的方式组成,其中四个扩张卷积输出特征通道数都相同。对全局平均池化的结果进行1×1卷积操作和双线性上采样操作,使其与扩张卷积的输出大小相同。然后对它们进行拼接操作以获取多尺度特征信息。最后与残差进行融合,提升语义表达能力的同时加速梯度反向传播。
(S3):构建语义上下文路径
在编码端,本发明的骨干网络使用了在ImageNet数据集上预训练的ResNet-34,去除了最大池化层和全连接层以适应语义分割任务。为了区分ResNet-34的层级特征,本发明将ResNet-34分为五个模块,其结构如图2所示,用conv、Block1表示浅层、Block2表示中层、Block3和Block4表示高层和特高层特征提取模块,浅层和中层特征用于空间信息提取路径,而高层特征作为语义上下文信息提取模块的输入特征。为了提升网络的感受野,本发明将ResNet-34网络的后两个模块Block3和Block4中的普通卷积替换为扩张卷积,这里扩张卷积与普通卷积具有相同的参数,扩张率分别为2和4。在骨干网络ResNet-34中,除Block1外,其他各模块存在一个步长为2的卷积,使得骨干网络最终输出的特征图大小为输入图像的1/16。为了获取高质量的语义上下文信息,本发明设计了语义上下文信息模块,它由混合扩张卷积模块和残差金字塔特征提取模块组成,语义上下文信息模块对骨干网络ResNet-34获得的高级特征进一步处理。整个语义上下文路径由骨干网络ResNet-34和语义上下文模块组成。
(S4):构建链式反置残差模块
本发明提出的链式反置残差模块的结构如图5所示。每个链式反置残差模块将多个反置残差结构以链式结构相结合,目的是保留空间信息的同时提升特征图的语义表达能力。反置残差结构由两个1×1点级卷积层和一个3×3分组卷积层组成。输入特征首先进入1×1点级卷积层来增加特征通道数,再进入3×3的分组卷积层,其中分组数等于输入通道数,最后经过一个1×1点级卷积层来降低特征通道数。需要注意的是本发明所用的三个链式残差模块的链长不一样,如图1所示,连接低层特征的CRB_1的链长为3,即由3个反置残差结构链接而成,CRB_2的链长为2,而连接中层特征的CRB_3链长为1。通过链长的不同设置,可以有针对性地提升浅层特征的语义表达能力。反置残差结构使用点级卷积和分组卷积,将通道操作和空间操作进行分离,避免通道操作对空间信息的影响。分组卷积与普通卷积相比,参数量也更少。同时,设计残差学习以避免梯度消失和爆炸。整个链式残差优化模块可以抽象为公式2:
Ll+1=f(Ll)+Ll (2)
其中f(·)表示反置残差块的函数形式,从函数形式中我们可以发现,下一层特征信息Ll+1除了与反置残差模块有关,还与上一层特征信息Ll相关,这样既可以保留空间信息又可以提升特征的语义信息。
(S5):构建空间信息路径
本发明将编码端空间路径设计为反U型结构,这样能将编码网络的浅层和中层特征进行从上到下的融合,以充分利用编码网络浅中层特征所携带的空间细节信息。结合设计的链式反置残差模块,对编码网络浅中层特征所携带的空间细节信息进行处理,达到保留空间信息的同时提升特征的语义表达能力。
(S6):构建残差循环卷积模块
在解码端,需要将编码端产生的高级语义信息与空间细节信息进行融合,本发明以简单的求和方式进行融合。为了对融合后的特征进一步优化,本发明设计了优化模块。如图6所示,优化模块由两个3×3的循环卷积网络以及残差组成,其中每个3×3循环卷积都含有批归一化处理和relu激活函数。循环卷积网络有助于特征积累,相当于一个自学习的过程,用于提升网络的表达能力。除此之外,循环卷积相当于对卷积层的重复利用,减少了参数量。整个模块在提升语义识别能力的同时保留了空间信息。再是使用残差结构加速网络的信息流动,同时有助于梯度的反向传播。优化模块可以抽象为公式3,其中f(·)为循环卷积的函数表示。
xl+1=f(f(xl)+xl) (3)
(S7)产生预测分割图和定义损失函数
将解码端残差循环卷积网络模块得到的优化特征通过像素级预测器和转置卷积操作产生最终的预测分割图。为了使网络有效的收敛,在上下文语义路径的末端加入监督信息,即引入额外的辅助损失函数对上下文语义路径产生的初始分割结果进行监督学习。辅助损失函数和最终分割结果的主损失函数均是使用多元交叉熵损失函数,如公式4,其中softmax是函数,pred是预测分割图,Y是真值分割图,Cost表示多元交叉熵损失函数,其定义如公式5所示,其中N是样本数。
Loss(pred,Y)=Cost(softmax(pred),Y) (4)
网络训练时,总的损失函数,如公式6所示,loss1是主损失函数,loss2是辅助损失函数,引入辅助损失函数有助于优化学习过程,并且为辅助损失函数添加权重因子α来平衡辅助损失与主损失函数对网络的表达能力.本专利实验中将权重因子设为0.05.
Loss=loss1+α×loss2 (6)
实施例
为了验证所提出模块的有效性,以下在CamVid数据集上进行了消融实验。本发明采用四种方案来评估混合扩张模块和残差金字塔特征提取模块性能:(1)在编码端的上下文路径只使用混合扩张卷积模块;(2)在编码端的上下文路径只使用残差金字塔特征提取模块;(3)在编码端上下文路径没有混合扩张卷积和残差金字塔特征提取模块;(4)在编码端上下文路径使用混合扩张卷积模块和残差金字塔特征提取模块。实验结果如表1所示,从表中可以看出,同时使用混合扩张卷积模块和残差金字塔特征提取模块时获得的分割性能最好,说明这两个模块能获取有效的周围特征信息以及多尺度特征,从而提升网络分割性能。
表1混合扩张卷积和残差金字塔特征提取模块对性能的影响.HAB:混合扩张卷积模块;RPB:残差金字塔特征提取模块
HAB | RPB | mean IoU(%) |
× | × | 66.57 |
√ | × | 66.22 |
× | √ | 67.51 |
√ | √ | 68.26 |
本发明采用四种方案来评估混合扩张卷积的有效性:(1)只使用所有分支扩张率为1的混合扩张卷积模块;(2)只使用分支扩张率分别为2、3、4的混合扩张卷积模块;(3)所有分支扩张率为1的混合扩张卷积模块加残差金字塔特征提取模块;(4)本发明方法,即分支扩张率分别为2、3、4的混合扩张卷积模块加残差金字塔特征提取模块。实验结果如表2所示,只使用所有分支扩张率为1的混合扩张卷积模块虽然比只使用分支扩张率分别为2、3、4的混合扩张卷积模块分割性能好,但加入残差金字塔特征提取模块后,本发明设计的分支扩张率分别为2、3、4的混合扩张卷积模块加残差金字塔特征提取模块的模型获得了最好的效果。
表2混合扩张卷积模块对性能的影响。HAB:混合扩张卷积模块;RPB:残差金字塔特征提取模块
HAB | RPB | HAB各分支扩张率 | mean IoU(%) |
√ | × | 2,3,4 | 66.22 |
√ | × | 1 | 67.84 |
√ | √ | 1 | 68.16 |
√ | √ | 2,3,4 | 68.26 |
发明采用了五种方案来评估编码端空间路径的有效性:(1)没有空间路径;(2)使用编码端骨干网络浅层特征作为空间路径;(3)使用编码端骨干网络的高层特征作为空间路径;(4)反U型结构的空间路径但其中每个路径没有链式反置残差模块;(5)本发明方法,即反U型结构的空间路径,其中每个路径使用链式反置残差模块。实验结果如表3所示,使用空间路径可以将性能从63.55%提升到66.79%,说明使用反U型结构能够非常有效的利用编码端浅、中层特征,这也说明编码端的浅、中层特征包含了解码时所需的空间细节信息。使用链式反置残差块能使性能从66.79%提升到68.26%,说明链式反置残差模块可以保留空间细节信息的同时提升其语义表达能力,从而提升语义分割性能。
表3不同空间路径对性能的影响.CRB:链式反置残差模块;SP:空间路径;LFP:浅层特征作为空间路径;HFP:高层特征作为空间路径;RUP:反U型空间路径
方法 | mean IoU(%) |
No SP | 63.51 |
LFP | 66.06 |
HFP | 67.49 |
RUP | 66.79 |
RUP+CRB | 68.26 |
在空间路径中,本发明采用长度递减的链长分别处理深度模型的浅、中层特征信息,目的是减少融合时各层的语义差异性。表4中展现了在CamVid数据集上不同链长设置对本发明提出框架分割性能的影响。从表4中的结果可以看出,本发明针对浅、中层特征信息分别使用递减链长的反置残差模块更加有效。
表4链式反置残差模块不同链长对性能的影响
方法 | mean IoU(%) |
各路径链长均为1 | 67.20 |
各路径链长均为3 | 67.25 |
本发明(分别为3,2,1) | 68.26 |
为了表明所提出优化模块的有效性,本发明将使用优化模块和不使用优化模块进行对比。如表5所示,使用优化模块能使分割性能提升0.76%,说明优化模块可以改善融合后的语义特征,从而增强了分割性能。
表5残差循环卷积模块对性能的影响
方法 | mean IoU(%) |
使用优化模块 | 68.26 |
不使用优化模块 | 67.50 |
本发明在CamVid测试集上的结果与当前分割方法的比较如表6所示,本发明在测试时没有采用后置处理以及一些测试技巧,像多尺度。从实验结果可以看出本发明比使用U型结构和二分支结构的语义分割方法的性能要好,说明本发明能够获取高质量的上下文语义特征和有效使用浅层的空间细节信息。从图7中的实验效果图可以看出,本发明基本能够准确识别图像中物体位置并且分割出物体,而SegNet在第一行第三列的分割图中未能识别出路灯;CGNet在第二行第四列的分割图中将建筑物错误识别为树木以及BiSeNet(xception)在第二行第五列的分割图中将道路错误识别为汽车类型以及对远距离小物体路灯未能识别出来。
表6本发明与其他方法在CamVid测试集上的MIoU(%)比较
本发明在SUN RGB-D测试集上的实验结果与当前分割方法的比较如表7所示,可以看出本发明在SUN RGB-D数据集上有比较大的性能提升,从而验证了本发明的有效性。可视化分割结果如图8所示,可以发现本发明可以有效地分割图像中的物体。
表7本发明与其他方法在SUN RGB-D测试集上的MIoU(%)比较
方法(Method) | MIoU(%) |
FCN-8 | 27.4 |
DeconvNet | 22.6 |
ENet | 19.7 |
SegNet | 31.8 |
Deeplab | 32.1 |
本发明(Ours) | 40.79 |
本发明在Cityscapes测试集上的实验结果与当前分割方法的比较如表8所示,可以看出本发明取得了有竞争的分割结果,本发明没有采用任何测试技巧,像PSPNet中多尺度。虽然PSPNet取得了最好的分割效果,但其使用ResNet101作为骨干网络,这导致它的网络复杂度最高,达到了65M参数量,在一般设备中基本无法运行。本发明采用参数量适中的ResNet34作为骨干网络并取得较好的性能,虽然BiSeNet(ResNet18)的骨干网络只采用了ResNet18,但它使用了多尺度训练的前置处理,还使用了通道注意力机制模块来优化语义特征,所以也取得了比本发明更好一些的性能。而且由于本发明提出的模型使用了分组卷积和点级卷积等轻量型模块,参数量比BiSeNet(ResNet18)更少。图9是在验证集上的可视化分割图效果,可以看出本发明基本可以准确地分割图像中的物体。
表8本发明与其他方法在Cityscapes测试集上的比较
方法(Method) | Parameters(M) | MIoU(%) |
FCN-8 | 134.5 | 65.3 |
ENet | 0.4 | 58.3 |
SegNet | 29.5 | 56.1 |
DeepLab | 44.04 | 70.4 |
Dilation | - | 67.1 |
PSPNet | 65.7 | 78.4 |
CGNet | 0.5 | 64.8 |
BiSeNet(xception) | 5.8 | 68.4 |
BiSeNet(resNet18) | 49 | 74.7 |
本发明(Ours) | 31 | 73.1 |
本发明深入研究了采用编解码结构和二分支结构的语义分割方法,提出了一种新的端到端的深度学习框架用于语义分割任务。在编码端采用二分支结构以获取高质量的上下文语义特征,同时有效利用编码端浅中层的空间细节信息,在解码端进一步优化特征图。本发明在三个语义分割基准数据集CamVid、SUN RGB-D和Cityscapes上取得了有竞争力的结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于上下文和浅层空间编解码网络的图像语义分割方法,其特征在于,该语义分割方法包括以下步骤:
步骤一:构建混合扩张卷积模块和残差金字塔特征提取模块,将这两个模块作为网络模型的语义上下文提取模块;
步骤二:本发明的骨干网络使用了在ImageNet数据集上预训练的ResNet-34,去除了最大池化层和全连接层以适应语义分割任务,在骨干网络的末端结合步骤一的语义上下文提取模块来构建编码端的语义上下文路径;
步骤三:构建链式反置残差模块,对骨干网络浅、中层的空间信息进行处理,在保留空间信息的同时提升特征图的语义表达能力;
步骤四:为了利用编码端骨干网络浅、中层特征信息,将编码端的空间信息路径设计为反U型结构以共享编码端浅、中层特征,同时结合步骤三设计的链式反置残差模块,在保留浅层空间信息的同时提升特征的语义信息;
步骤五:在解码端,设计残差循环卷积模块,首先将步骤二得到的高级语义上下文特征进行双线性上采样再与步骤四的空间细节特征以逐像素点求和方式进行融合;其次,使用残差循环卷积网络对融合后的特征进行优化处理;
步骤六:最后,将步骤五提取的优化特征通过像素级预测器和转置卷积操作产生最终的预测分割图。
2.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法,其特征在于:步骤一中所述的混合扩张卷积模块有两个分支,首先特征图通过一个1×1卷积减少通道数,其次,一个分支通过3×3的卷积,另一个分支进入五种不同的扩张卷积:扩张率为2的3×3卷积层、扩张率为4的3×3卷积层以及扩张率为3的5×5卷积层进行融合,再融合扩张率为2的5×5卷积层与扩张率为2的7×7卷积层。
3.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法,其特征在于:步骤一中所述的残差金字塔特征提取模块,采用了四个不同扩张率的扩张卷积,它们的扩张率分别为:2、3、5、7。同时,为了利用全局场景上下文信息,引入全局池化操作,以并行方式将它们组合在一起。然后对它们进行拼接操作以获取多尺度特征信息。最后与残差进行融合。
4.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法,其特征在于:骤三中所述的链式反置残差模块,每个链式反置残差模块由多个反置残差结构以链式结构相结合,反置残差结构由两个1×1点级卷积层和一个3×3分组卷积层组成,本发明中所用的三个链式反置残差模块的链长不一样,连接低层特征的CRB_1链长为3,即由3个反置残差结构链接而成,CRB_2的链长为2,而连接中层特征的CRB_3链长为1。
5.如权利要求1所述的一种基于上下文和浅层空间编解码网络的图像语义分割方法,其特征在于:步骤五中所述的残差循环卷积模块,由两个3×3的循环卷积网络以及残差组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345717.9A CN111127470B (zh) | 2019-12-24 | 2019-12-24 | 一种基于上下文和浅层空间编解码网络的图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345717.9A CN111127470B (zh) | 2019-12-24 | 2019-12-24 | 一种基于上下文和浅层空间编解码网络的图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111127470A true CN111127470A (zh) | 2020-05-08 |
CN111127470B CN111127470B (zh) | 2023-06-16 |
Family
ID=70501860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911345717.9A Active CN111127470B (zh) | 2019-12-24 | 2019-12-24 | 一种基于上下文和浅层空间编解码网络的图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111127470B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627019A (zh) * | 2020-06-03 | 2020-09-04 | 西安理工大学 | 一种基于卷积神经网络的肝脏肿瘤分割方法及系统 |
CN111833273A (zh) * | 2020-07-17 | 2020-10-27 | 华东师范大学 | 基于长距离依赖的语义边界增强方法 |
CN111881744A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于空间位置信息的人脸特征点定位方法及系统 |
CN111953989A (zh) * | 2020-07-21 | 2020-11-17 | 重庆邮电大学 | 基于用户交互与语义分割技术结合的图像压缩方法及装置 |
CN112183440A (zh) * | 2020-10-13 | 2021-01-05 | 北京百度网讯科技有限公司 | 道路信息的处理方法、装置、电子设备和存储介质 |
CN112215848A (zh) * | 2020-10-22 | 2021-01-12 | 合肥工业大学 | 一种基于空间信息引导的实时语义分割方法 |
CN112507888A (zh) * | 2020-12-11 | 2021-03-16 | 北京建筑大学 | 建筑物识别方法及装置 |
CN112560733A (zh) * | 2020-12-23 | 2021-03-26 | 上海交通大学 | 面向两期遥感影像的多任务处理系统及方法 |
CN112598003A (zh) * | 2020-12-18 | 2021-04-02 | 燕山大学 | 基于数据扩充和全监督预处理的实时语义分割方法 |
CN112837321A (zh) * | 2021-02-09 | 2021-05-25 | 北京航空航天大学 | 一种基于光场的场景语义分割系统及方法 |
CN113114599A (zh) * | 2021-03-12 | 2021-07-13 | 电子科技大学 | 基于轻量级神经网络的调制识别方法 |
CN113222033A (zh) * | 2021-05-19 | 2021-08-06 | 北京数研科技发展有限公司 | 基于多分类回归模型与自注意力机制的单目图像估计方法 |
CN113282718A (zh) * | 2021-07-26 | 2021-08-20 | 北京快鱼电子股份公司 | 一种基于自适应中心锚的语种识别方法及系统 |
CN113313721A (zh) * | 2021-07-30 | 2021-08-27 | 南京理工大学 | 基于多尺度结构的实时语义分割方法 |
CN113537111A (zh) * | 2021-07-26 | 2021-10-22 | 南京信息工程大学 | 基于双支路深度卷积网络的虹膜分割方法 |
CN113989773A (zh) * | 2021-10-27 | 2022-01-28 | 智道网联科技(北京)有限公司 | 用于自动驾驶的基于BiSeNet的交通标志识别方法及装置 |
WO2022222233A1 (zh) * | 2021-04-23 | 2022-10-27 | 上海海事大学 | 一种基于usv的障碍物分割网络及其生成方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794366A (zh) * | 2015-05-07 | 2015-07-22 | 长春理工大学 | 喷油嘴磨粒流加工全因子试验分析方法 |
US20190080455A1 (en) * | 2017-09-12 | 2019-03-14 | Beihang University | Method and device for three-dimensional feature-embedded image object component-level semantic segmentation |
CN109584246A (zh) * | 2018-11-16 | 2019-04-05 | 成都信息工程大学 | 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法 |
CN109685067A (zh) * | 2018-12-26 | 2019-04-26 | 江西理工大学 | 一种基于区域和深度残差网络的图像语义分割方法 |
CN109903228A (zh) * | 2019-02-28 | 2019-06-18 | 合肥工业大学 | 一种基于卷积神经网络的图像超分辨率重建方法 |
CN110097550A (zh) * | 2019-05-05 | 2019-08-06 | 电子科技大学 | 一种基于深度学习的医学图像分割方法及系统 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
CN110276766A (zh) * | 2019-06-27 | 2019-09-24 | 广州久邦世纪科技有限公司 | 一种人像分割的方法及装置 |
CN110543911A (zh) * | 2019-08-31 | 2019-12-06 | 华南理工大学 | 一种结合分类任务的弱监督目标分割方法 |
-
2019
- 2019-12-24 CN CN201911345717.9A patent/CN111127470B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794366A (zh) * | 2015-05-07 | 2015-07-22 | 长春理工大学 | 喷油嘴磨粒流加工全因子试验分析方法 |
US20190080455A1 (en) * | 2017-09-12 | 2019-03-14 | Beihang University | Method and device for three-dimensional feature-embedded image object component-level semantic segmentation |
CN109584246A (zh) * | 2018-11-16 | 2019-04-05 | 成都信息工程大学 | 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法 |
CN109685067A (zh) * | 2018-12-26 | 2019-04-26 | 江西理工大学 | 一种基于区域和深度残差网络的图像语义分割方法 |
CN109903228A (zh) * | 2019-02-28 | 2019-06-18 | 合肥工业大学 | 一种基于卷积神经网络的图像超分辨率重建方法 |
CN110097550A (zh) * | 2019-05-05 | 2019-08-06 | 电子科技大学 | 一种基于深度学习的医学图像分割方法及系统 |
CN110263833A (zh) * | 2019-06-03 | 2019-09-20 | 韩慧慧 | 基于编码-解码结构的图像语义分割方法 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110276766A (zh) * | 2019-06-27 | 2019-09-24 | 广州久邦世纪科技有限公司 | 一种人像分割的方法及装置 |
CN110543911A (zh) * | 2019-08-31 | 2019-12-06 | 华南理工大学 | 一种结合分类任务的弱监督目标分割方法 |
Non-Patent Citations (8)
Title |
---|
ALOM M Z.ET AL: "Recurrent Residual Convolutional NeuralNetwork based on U-Net (R2U-Net) for Medical Image Segmentation", 《NAECON 2018 - IEEE NATIONAL AEROSPACE AND ELECTRONICS CONFERENCE》 * |
ALOM M Z.ET AL: "Recurrent Residual Convolutional NeuralNetwork based on U-Net (R2U-Net) for Medical Image Segmentation", 《NAECON 2018 - IEEE NATIONAL AEROSPACE AND ELECTRONICS CONFERENCE》, 6 December 2018 (2018-12-06) * |
LIU, YU .ET AL: "Hourglass-ShapeNetwork Based Semantic Segmentation for High Resolution Aerial Imagery", 《REMOTE SENSING》 * |
LIU, YU .ET AL: "Hourglass-ShapeNetwork Based Semantic Segmentation for High Resolution Aerial Imagery", 《REMOTE SENSING》, 31 July 2017 (2017-07-31) * |
TYOSHIKI NAKAYAMA.ET AL: "Wide Residual Networks for Semantic Segmentation", 《2018 18TH INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS (ICCAS)》 * |
TYOSHIKI NAKAYAMA.ET AL: "Wide Residual Networks for Semantic Segmentation", 《2018 18TH INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS (ICCAS)》, 13 December 2018 (2018-12-13) * |
张建: "基于深度学习的图像语义分割方法", 《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》 * |
张建: "基于深度学习的图像语义分割方法", 《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》, 31 August 2018 (2018-08-31), pages 138 - 632 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627019A (zh) * | 2020-06-03 | 2020-09-04 | 西安理工大学 | 一种基于卷积神经网络的肝脏肿瘤分割方法及系统 |
CN111881744A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于空间位置信息的人脸特征点定位方法及系统 |
CN111833273B (zh) * | 2020-07-17 | 2021-08-13 | 华东师范大学 | 基于长距离依赖的语义边界增强方法 |
CN111833273A (zh) * | 2020-07-17 | 2020-10-27 | 华东师范大学 | 基于长距离依赖的语义边界增强方法 |
CN111953989A (zh) * | 2020-07-21 | 2020-11-17 | 重庆邮电大学 | 基于用户交互与语义分割技术结合的图像压缩方法及装置 |
CN112183440A (zh) * | 2020-10-13 | 2021-01-05 | 北京百度网讯科技有限公司 | 道路信息的处理方法、装置、电子设备和存储介质 |
CN112215848A (zh) * | 2020-10-22 | 2021-01-12 | 合肥工业大学 | 一种基于空间信息引导的实时语义分割方法 |
CN112507888A (zh) * | 2020-12-11 | 2021-03-16 | 北京建筑大学 | 建筑物识别方法及装置 |
CN112598003A (zh) * | 2020-12-18 | 2021-04-02 | 燕山大学 | 基于数据扩充和全监督预处理的实时语义分割方法 |
CN112560733A (zh) * | 2020-12-23 | 2021-03-26 | 上海交通大学 | 面向两期遥感影像的多任务处理系统及方法 |
CN112837321A (zh) * | 2021-02-09 | 2021-05-25 | 北京航空航天大学 | 一种基于光场的场景语义分割系统及方法 |
CN112837321B (zh) * | 2021-02-09 | 2022-10-11 | 北京航空航天大学 | 一种基于光场的场景语义分割系统及方法 |
CN113114599A (zh) * | 2021-03-12 | 2021-07-13 | 电子科技大学 | 基于轻量级神经网络的调制识别方法 |
CN113114599B (zh) * | 2021-03-12 | 2022-01-11 | 电子科技大学 | 基于轻量级神经网络的调制识别方法 |
WO2022222233A1 (zh) * | 2021-04-23 | 2022-10-27 | 上海海事大学 | 一种基于usv的障碍物分割网络及其生成方法 |
CN113222033A (zh) * | 2021-05-19 | 2021-08-06 | 北京数研科技发展有限公司 | 基于多分类回归模型与自注意力机制的单目图像估计方法 |
CN113282718A (zh) * | 2021-07-26 | 2021-08-20 | 北京快鱼电子股份公司 | 一种基于自适应中心锚的语种识别方法及系统 |
CN113537111A (zh) * | 2021-07-26 | 2021-10-22 | 南京信息工程大学 | 基于双支路深度卷积网络的虹膜分割方法 |
CN113313721A (zh) * | 2021-07-30 | 2021-08-27 | 南京理工大学 | 基于多尺度结构的实时语义分割方法 |
CN113313721B (zh) * | 2021-07-30 | 2021-11-19 | 南京理工大学 | 基于多尺度结构的实时语义分割方法 |
CN113989773A (zh) * | 2021-10-27 | 2022-01-28 | 智道网联科技(北京)有限公司 | 用于自动驾驶的基于BiSeNet的交通标志识别方法及装置 |
CN113989773B (zh) * | 2021-10-27 | 2024-05-31 | 智道网联科技(北京)有限公司 | 用于自动驾驶的基于BiSeNet的交通标志识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111127470B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111127470A (zh) | 一种基于上下文和浅层空间编解码网络的图像语义分割方法 | |
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN108985317B (zh) | 一种基于可分离卷积和注意力机制的图像分类方法 | |
CN109086678B (zh) | 一种基于深度监督学习提取图像多级特征的行人检测方法 | |
CN108764317B (zh) | 一种基于多路特征加权的残差卷积神经网络图像分类方法 | |
CN111523521B (zh) | 一种双支路融合多尺度注意神经网络的遥感图像分类方法 | |
CN107609587B (zh) | 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法 | |
CN108416327B (zh) | 一种目标检测方法、装置、计算机设备及可读存储介质 | |
CN111144329B (zh) | 一种基于多标签的轻量快速人群计数方法 | |
US20230196633A1 (en) | Method of image reconstruction for cross-modal communication system and device thereof | |
CN111476249B (zh) | 多尺度大感受野卷积神经网络的构建方法 | |
CN111767810B (zh) | 一种基于D-LinkNet的遥感图像道路提取方法 | |
CN110458085B (zh) | 基于注意力增强三维时空表征学习的视频行为识别方法 | |
CN112364699A (zh) | 基于加权损失融合网络的遥感图像分割方法、装置及介质 | |
CN112215199B (zh) | 基于多感受野与密集特征聚合网络的sar图像舰船检测方法 | |
CN113642445B (zh) | 一种基于全卷积神经网络的高光谱影像分类方法 | |
CN114973011A (zh) | 一种基于深度学习的高分辨率遥感影像建筑物提取方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN115424104A (zh) | 一种基于特征融合与注意力机制的目标检测方法 | |
CN114821342A (zh) | 一种遥感影像道路提取方法及系统 | |
CN111783862A (zh) | 多注意力导向神经网络的立体显著性物体检测技术 | |
CN111179272A (zh) | 一种面向道路场景的快速语义分割方法 | |
CN110472732B (zh) | 基于优化特征提取装置的图像特征提取系统 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |