CN113255675B - 基于扩张卷积和残差路径的图像语义分割网络结构及方法 - Google Patents
基于扩张卷积和残差路径的图像语义分割网络结构及方法 Download PDFInfo
- Publication number
- CN113255675B CN113255675B CN202110394803.XA CN202110394803A CN113255675B CN 113255675 B CN113255675 B CN 113255675B CN 202110394803 A CN202110394803 A CN 202110394803A CN 113255675 B CN113255675 B CN 113255675B
- Authority
- CN
- China
- Prior art keywords
- convolution
- output
- module
- channel fusion
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于深度学习、图像语义分割领域,公开了一种基于扩张卷积和残差路径的图像语义分割网络结构及方法,网络结构包括收缩路径、卷积模块、扩张路径与n个残差路径,收缩路径和扩张路径中的每次重复都包含1个标准卷积和4个不同扩张率的扩张卷积,且并非直接将反卷积的结果与收缩路径中对应步骤的特征图进行通道融合,而是先将收缩路径中的特征图通过残差路径,然后与反卷积后的结果进行通道融合。通道融合后的特征图经过一个标准卷积和4个不同扩张率的扩张卷积,并将所有的卷积输出特征图进行通道融合后作为下一层的输入。最后一层的卷积核大小为1×1,将特征图转化为特定深度的结果。该网络的参数规模和运算量小,且分割精度高。
Description
技术领域
本发明属于深度学习、图像语义分割领域,尤其涉及一种基于堆叠扩张卷积和残差路径的轻量化街景图像语义分割网络结构及方法,在提升语义分割精度的同时降低了网络的参数规模和运算量。
背景技术
图像语义分割是计算机视觉领域最具挑战性的任务之一,与图像分类或目标检测等问题相比,语义分割通过理解图像中每个像素的作用过程,可以加深对图像内容的理解。目前,图像语义分割技术在自动驾驶、无人机、医疗诊断等领域都有着广泛的应用。
目前,大量的基于深度学习的图像语义分割算法被提出,其中大都数算法往往追求精度的提升,而导致计算量巨大,很难应用在嵌入式终端设备上。因此,研究一种参数规模和运算量小,且分割精度高的街景图像语义分割方法,对推动自动驾驶领域技术的发展具有重要的现实意义。
发明内容
为了克服现有语义分割算法很难应用在嵌入式终端设备上的问题,本发明提供一种基于堆叠扩张卷积和残差路径的轻量化街景图像语义分割系统及方法。
本发明技术解决方案是提供了一种基于堆叠扩张卷积和残差路径的轻量化街景图像语义分割网络结构,其特殊之处在于:包括收缩路径、卷积模块、扩张路径与n个残差路径,其中n为大于等于2的自然数;
所述收缩路径包括n个编码模块;每个编码模块包括1个标准卷积、4个不同扩张率的扩张卷积、通道融合单元与最大值池化;所述1个标准卷积与4个不同扩张率的扩张卷积依次级联,用于对输入特征进行卷积运算;所述通道融合单元用于对各个卷积输出的特征图进行通道融合;所述最大值池化用于对通道融合后的特征图进行下采样;第1个至第n-1个编码模块中最大值池化的输出作为下一个编码模块的输入;第n个编码模块中最大值池化的输出作为所述卷积模块的输入;
所述卷积模块包括1个标准卷积、4个不同扩张率的扩张卷积以及1个通道融合单元;所述1个标准卷积与4个不同扩张率的扩张卷积依次级联,用于对输入特征进行卷积运算;所述通道融合单元用于对各个卷积输出的特征图进行通道融合后输出特征图;
所述n个残差路径中,第i个残差路径的输入分别为第i个编码模块的输出,i=1,2…n;每个残差路径包括至少1个残差模块,包括2个以上的残差模块时,各残差模块依次级联;从第1个至第n个残差路径,其所包括的残差模块数量依次减小;每个残差模块包括并联的3×3卷积模块和1×1卷积模块;第1个至第n-1个残差路径中前一个残差模块的3×3卷积模块和1×1卷积模块的输出特征融合后,作为下一个残差模块的输入;第n个残差路径中3×3卷积模块和1×1卷积模块的输出特征融合后直接输出;
所述扩张路径包括n个解码模块,每个解码模块包括反卷积、第一通道融合单元、级联的1个标准卷积和4个不同扩张率的扩张卷积以及一个第二通道融合单元;第1个解码模块的反卷积用于对卷积模块输出的特征图进行上采样,特征图的尺寸翻倍;第j个解码模块的反卷积用于对第j-1个解码模块输出的特征图进行上采样,j=2…n;第1个解码模块的第一通道融合单元用于对第1个解码模块反卷积的输出以及第n个残差路径的输出进行通道融合;第j个解码模块的第一通道融合单元分别用于对其反卷积的输出以及第n+1-j个残差路径的输出进行通道融合,j=2…n;各解码模块中级联的1个标准卷积和4个不同扩张率的扩张卷积用于对其第一通道融合单元输出的通道融合后的特征图进行卷积运算;各解码模块中第二通道融合单元用于对其每个卷积输出的特征图进行通道融合,融合后的特征图作为下一个解码模块的输入;第n个解码模块的输出经过1×1卷积运算将Cout个通道的特征图转化为特定深度的结果。
进一步地,第i个编码模块的输出通道数为第i-1个编码模块的输出通道数的2倍,i=2…n。
进一步地,第1个编码模块中的1个标准卷积与4个不同扩张率的扩张卷积的输出通道数分别为Cout/2,Cout/4,Cout/8,Cout/16,Cout/16,Cout为1个标准卷积与4个不同扩张率的扩张卷积级联输出的通道数。
进一步地,第j个解码模块的输出通道数为第j-1个解码模块的输出通道数的1/2,j=2…n。
进一步地,第n个解码模块中的1个标准卷积与4个不同扩张率的扩张卷积的输出通道数分别为Cout/2,Cout/4,Cout/8,Cout/16,Cout/16,Cout为1个标准卷积与4个不同扩张率的扩张卷积级联输出的通道数。
本发明还提供一种基于扩张卷积和残差路径的图像语义分割方法,基于上述的图像语义分割网络结构,其特殊之处在于,包括以下步骤:
步骤1、利用收缩路径提取特征;
步骤1.1、利用第1个编码模块对特征图进行特征提取;
利用第1个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对初始输入图像进行卷积运算,利用第1个编码模块中通道融合单元对各个卷积输出的特征图进行通道融合,利用第1个编码模块中最大值池化对通道融合单元输出的通道融合后的特征图进行下采样,作为第2个编码模块的输入;
步骤1.2、利用第i个编码模块对特征图进行特征提取;
利用第i个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对第i-1个编码模块输出的特征图进行卷积运算,利用第i个编码模块中通道融合单元对各个卷积输出的特征图进行通道融合,利用第i个编码模块中最大值池化对通道融合单元输出的通道融合后的特征图进行下采样,若n大于2,则作为第i+1个编码模块的输入,i=2…n-1,进入步骤1.3;若n等于2,则直接作为收缩路径的输出;
步骤1.3、利用第n个编码模块输出特征图;
利用第n个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对第n-1个编码模块输出的特征图进行卷积运算,利用通道融合单元对各个卷积输出的特征图进行通道融合,利用最大值池化对通道融合单元输出的通道融合后的特征图进行下采样后输出特征图,即为收缩路径的输出;
步骤2、利用卷积模块对收缩路径输出的特征图进行卷积运算;
利用卷积模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对收缩路径输出的特征图进行卷积运算,利用卷积模块中通道融合单元对各个卷积输出的特征图进行通道融合后输出特征图;
步骤3、利用残差路径减少相应编码模块与解码模块之间的语义差异;
利用第1个残差路径减少第1个编码模块与第n个解码模块之间的语义差异;利用第2个残差路径减少第2个编码模块与第n-1个解码模块之间的语义差异;
若n大于2,依次类推;
利用第n个残差路径减少第n个编码模块与第1个解码模块之间的语义差异;
步骤4、利用扩张路径恢复特征图尺寸;
步骤4.1、利用第1个解码模块的反卷积对卷积模块输出的特征图进行上采样,特征图的尺寸翻倍;利用第1个解码模块的第一通道融合单元对第1个解码模块反卷积的输出以及第n个残差路径的输出进行通道融合;利用第1个解码模块内级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第二通道融合单元对每个卷积输出的特征图进行通道融合,融合后的特征图作为第2个解码模块的输入;
步骤4.2、利用第j个解码模块的反卷积对第j-1个解码模块输出的特征图进行上采样,j=2…n;利用第j个解码模块的第一通道融合单元分别对其反卷积的输出以及第n+1-j个残差路径的输出进行通道融合;利用第j个解码模块中级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第j个解码模块中第二通道融合单元对每个卷积输出的特征图进行通道融合,若n大于2,则作为第j+1个解码模块的输入,j=2…n-1,进入步骤4.3;若n等于2,则直接作为扩张路径的输出;
步骤4.3、利用第n个解码模块的反卷积对第n-1个解码模块输出的特征图进行上采样;利用第n个解码模块的第一通道融合单元对其反卷积的输出以及第1个残差路径的输出进行通道融合;利用第n个解码模块中级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第二通道融合单元对每个卷积输出的特征图进行通道融合,作为扩张路径的输出;
步骤5、经过1×1卷积运算将扩张路径输出的Cout个通道的特征图转化为特定深度的结果。
本发明的有益效果是:
1、本发明DRU-Net网络结构(基于扩张卷积和残差路径的图像语义分割网络结构)的收缩路径和扩张路径中的每次重复都包含1个标准卷积和4个不同扩张率的扩张卷积。相比于U-Net的两个标准卷积,DRU-Net采用的一个标准卷积和4个不同扩张率的扩张卷积有更深的网络结构和更大的感受野。同时,DRU-Net将所有扩张卷积的特征图级联作为下一层的输入,网络可以利用多尺度感受野感知相同分辨率的特征图。
2、U-Net网络结构在最大池化层之前和反卷积层之后的相应层之间引入了跳跃连接,这使网络能够从编码模块传播到解码模块,从而得到在池化操作中丢失的空间信息。尽管这种方法保留了丢失的空间特征,但是编码模块的特征是较低层的特征,因为它们是在网络的前几层中计算的,相反,解码模块的特征是在网络很深的卷积层计算的。这两种特征之间可能存在语义差异,直接进行特征融合可能会在整个学习过程中引起一些差异,从而不利于预测过程(尤其是第一次跳跃连接,第一个池化层之前的编码模块特征与最后一个上采样后的解码模块特征间的融合)。本发明,为了减少编码模块特征与解码模块特征间的语义差异,在编码模块特征后引入残差路径,相比于常规卷积,残差路径使学习更加容易,编码模块特征穿过残差路径后与解码模块的特征进行通道融合,进一步提升了分割效果。
3、本发明DRU-Net网络结构的参数量更少,相比于U-Net网络,DRU-Net的参数量减少了45%。
附图说明
图1为本发明实施例中基于扩张卷积和残差路径的图像语义分割网络结构图;
图2为本发明实施例中残差路径的结构图;
图3本发明提出的DRU-Net和其他网络在Cityscapes验证集上的分割结果。
具体实施方式
以下结合附图及具体实施例对本发明做进一步地描述。
如图1所示,本实施例基于扩张卷积和残差路径的图像语义分割网络结构形状与U-Net网络结构形状相同,亦为U型结构。将本发明的网络结构定义为DRU-Net,包括左侧的收缩路径、底部的卷积模块、右侧的扩张路径与位于收缩路径与扩张路径之间的残差路径;从图1中可以看出,本实施例收缩路径由4个编码模块构成,扩张路径由4个解码模块构成,相应的,包括4个残差路径。当然,在其他实施例中可以根据具体需求,对各个模块的数量进行改变,需要注意的是,编码模块、解码模块及残差路径需一一对应,即三者之间的数量要保持一致。
为了便于描述,将图1中从上至下排布的编码模块分别定义为第1个编码模块、第2个编码模块、第3个编码模块及第4个编码模块;将下至上排布的解码模块分别定义为第1个解码模块、第2个解码模块、第3个解码模块及第4个解码模块;将位于第1个编码模块与第4个解码模块之间的残差路径定义为第1个残差路径,将位于第2个编码模块与第3个解码模块之间的残差路径定义为第2个残差路径,将位于第3个编码模块与第2个解码模块之间的残差路径定义为第3个残差路径,将位于第4个编码模块与第1个解码模块之间的残差路径定义为第4个残差路径。
从图1中可以看出,每个编码模块均包括1个标准卷积、4个不同扩张率的扩张卷积、通道融合单元与最大值池化;1个标准卷积与4个不同扩张率的扩张卷积依次级联,用于对输入特征进行卷积运算;通道融合单元用于对各个卷积输出的特征图进行通道融合;最大值池化用于对通道融合后的特征图进行下采样;第1个至第3个编码模块中最大值池化的输出作为下一个编码模块的输入;第4个编码模块中最大值池化的输出作为卷积模块的输入。
第i个编码模块的输出通道数为第i-1个编码模块的输出通道数的2倍,i=2,3,4。从图1中可以看出,本实施例中,第1个编码模块的输出通道数为64,第2个编码模块的输出通道数为128,第3个编码模块的输出通道数为256,第4个编码模块的输出通道数为512。将第1个编码模块中5个卷积层的输出通道数分别设为Cout/2,Cout/4,Cout/8,Cout/16,Cout/16,Cout为5个卷积层级联输出的通道数,本实施例中Cout=64。从图1中可以看出,本实施例中,第2个编码模块中5个卷积层的输出通道数分别设为64,32,16,8,8;第3个编码模块中5个卷积层的输出通道数分别设为128,64,32,16,16;第4个编码模块中5个卷积层的输出通道数分别设为256,128,64,32,32。
从图1中可以看出,本实施例卷积模块包括1个标准卷积、4个不同扩张率的扩张卷积以及1个通道融合单元;1个标准卷积与4个不同扩张率的扩张卷积依次级联,用于对输入特征进行卷积运算;通道融合单元用于对各个卷积输出的特征图进行通道融合后输出特征图;5个卷积层的输出通道数分别设为512,256,128,64,64。
U-Net网络结构中在最大池化层之前和反卷积层之后的相应层之间引入了跳跃连接,这使网络能够从编码模块传播到解码模块,从而得到在池化操作中丢失的空间信息。尽管这种方法保留了丢失的空间特征,但是编码模块的特征是较低层的特征,因为它们是在网络的前几层中计算的,相反,解码模块的特征是在网络很深的卷积层计算的。这两种特征之间可能存在语义差异,直接进行特征融合可能会在整个学习过程中引起一些差异,从而不利于预测过程(尤其是第一次跳跃连接,第一个池化层之前的编码模块特征与最后一个上采样后的解码模块特征间的融合)。因此,为了减少编码模块特征与解码模块特征间的语义差异,需要对编码模块特征进行进一步的处理。本发明在编码模块特征后引入残差路径,相比于常规卷积,残差路径使学习更加容易,编码模块特征经过残差路径后与解码模块特征进行通道融合。残差路径中3×3卷积核用于卷积层,1×1卷积核用于剩余连接。网络越往下,编码模块与解码模块间的语义差异越小,编码模块特征经过的具有残差连接的卷积层链也就越短。残差路径的结构如图2所示,参数如表1所示。
表1 残差路径的结构及参数
结合图2及表1可以看出,本实施例第1个残差路径包括依次级联的4个残差模块,第2个残差路径包括依次级联的3个残差模块,第3个残差路径包括依次级联的2个残差模块,第4个残差路径包括1个残差模块。当然,各个残差路径中残差模块的数量可根据需求进行调整。从图2可以看出,每个残差模块包括并联的3×3卷积模块和1×1卷积模块;第1个至第3个残差路径中前一个残差模块的3×3卷积模块和1×1卷积模块的输出特征融合后,作为下一个残差模块的输入;第4个残差路径中3×3卷积模块和1×1卷积模块的输出特征融合后直接输出。
从图1中可以看出,每个解码模块均包括反卷积、第一通道融合单元、级联的1个标准卷积和4个不同扩张率的扩张卷积以及一个第二通道融合单元;第1个解码模块的反卷积用于对卷积模块输出的特征图进行上采样,特征图的尺寸翻倍;第j个解码模块的反卷积用于对第j-1个解码模块输出的特征图进行上采样,j=2,3,4;第1个解码模块的第一通道融合单元用于对第1个解码模块反卷积的输出以及第4个残差路径的输出进行通道融合;第j个解码模块的第一通道融合单元分别用于对其反卷积的输出以及第n+1-j个(本实施例中n=4)残差路径的输出进行通道融合;各解码模块中级联的1个标准卷积和4个不同扩张率的扩张卷积用于对其第一通道融合单元输出的通道融合后的特征图进行卷积运算;各解码模块中第二通道融合单元用于对其每个卷积输出的特征图进行通道融合,融合后的特征图作为下一个解码模块的输入;第4个解码模块的输出经过1×1卷积运算将Cout个通道的特征图转化为特定深度的结果。
第j个解码模块的输出通道数为第j-1个解码模块的输出通道数的1/2,j=2,3,4。从图1中可以看出,本实施例中,第1个解码模块的输出通道数为512,第2个解码模块的输出通道数为256,第3个解码模块的输出通道数为128,第4个解码模块的输出通道数为64。将第4个解码模块中标准卷积与4个不同扩张率的扩张卷积的输出通道数分别设置为Cout/2,Cout/4,Cout/8,Cout/16,Cout/16,Cout为1个标准卷积与4个不同扩张率的扩张卷积级联输出的通道数。本实施例中,第3个解码模块中5个卷积层的输出通道数分别为64,32,16,8,8;第2个解码模块中5个卷积层的输出通道数分别为128,64,32,16,16;第1个解码模块中5个卷积层的输出通道数分别为256,128,64,32,32。
本发明DRU-Net网络的扩张路径中采用反卷积将特征通道数量减半,特征图的尺寸翻倍。与U-Net不同的是,DRU-Net并非直接将反卷积的结果与收缩路径中对应步骤的特征图进行通道融合,而是先将收缩路径中的特征图通过残差路径,然后与反卷积后的结果进行通道融合。通道融合后的特征图经过一个标准卷积和4个不同扩张率的扩张卷积,并将所有的卷积输出特征图进行通道融合后作为下一层的输入。最后一层的卷积核大小为1×1,将Cout个通道的特征图转化为特定深度的结果。
本发明DRU-Net中收缩路径和扩张路径中的每次重复都包含一个标准卷积和4个不同扩张率的扩张卷积。相比于U-Net的两个标准卷积,DRU-Net采用的一个标准卷积和4个不同扩张率的扩张卷积有更深的网络结构和更大的感受野。同时,DRU-Net将所有扩张卷积的特征图级联作为下一层的输入,网络可以利用多尺度感受野感知相同分辨率的特征图。4层扩张卷积分别采用了不同的扩张系数,当扩张卷积的扩张率变大时,对于输入的采样将会变得非常稀疏不利于卷积学习,因为这会导致局部信息的完全丢失,距离相距太远的信息相关性不高并且栅格效应会打断局部信息间的连续性。为了有效地减小扩张卷积带来的栅格效应,扩张率的选择需要满足以下两个条件:(1)叠加扩张卷积的扩张率不能存在有大于1的公约数;(2)将扩张率设计成锯齿状,即取若干层为一组,组内扩张卷积的扩张率从小到大增加,每组的结构类似,即扩张率的变换类似锯齿波。当扩张系数的选择满足以上两个条件,会减小栅格效应造成的影响,提高图像的分割精度,能够最大程度的表示感受野内像素的结构信息和颜色信息,同时提高卷积核对图像的整体表达能力。通过实验对比,本实施例选择扩张率为{2,5,8,11}的扩张卷积序列。
具体可通过以下过程实现街景图像语义分割:
步骤1、利用收缩路径提取特征;
步骤1.1、利用第1个编码模块对特征图进行特征提取;
利用第1个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对初始输入图像进行卷积运算,利用第1个编码模块中的通道融合单元对各个卷积输出的特征图进行通道融合,利用第1个编码模块中最大值池化对通道融合单元输出的通道融合后的特征图进行下采样,作为第2个编码模块的输入;
步骤1.2、利用第2、3个编码模块对特征图进行特征提取;
利用第2个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对第1个编码模块输出的特征图进行卷积运算,利用第2个编码模块中通道融合单元对各个卷积输出的特征图进行通道融合,利用第2个编码模块中最大值池化对通道融合单元输出的通道融合后的特征图进行下采样,作为第3个编码模块的输入,第3个编码模块中最大值池化的输出作为第4个编码模块的输入;
步骤1.3、利用第4个编码模块输出特征图;
利用第4个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对第3个编码模块输出的特征图进行卷积运算,利用通道融合单元对各个卷积输出的特征图进行通道融合,利用最大值池化对通道融合单元输出的通道融合后的特征图进行下采样后输出特征图;
步骤2、利用卷积模块对收缩路径输出的特征图进行卷积运算;
利用卷积模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对收缩路径输出的特征图进行卷积运算,利用卷积模块中通道融合单元对各个卷积输出的特征图进行通道融合后输出特征图;
步骤3、利用残差路径减少相应编码模块与解码模块之间的语义差异;
利用第1个残差路径减少第1个编码模块与第4个解码模块之间的语义差异;利用第2个残差路径减少第2个编码模块与第3个解码模块之间的语义差异;利用第3个残差路径减少第3个编码模块与第2个解码模块之间的语义差异;利用第4个残差路径减少第4个编码模块与第1个解码模块之间的语义差异;
步骤4、利用扩张路径恢复特征图尺寸;
步骤4.1、利用第1个解码模块的反卷积对卷积模块输出的特征图进行上采样,特征图的尺寸翻倍;利用第1个解码模块的第一通道融合单元对第1个解码模块反卷积的输出以及第4个残差路径的输出进行通道融合;利用第1个解码模块级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第二通道融合单元对每个卷积输出的特征图进行通道融合,融合后的特征图作为第2个解码模块的输入;
步骤4.2、利用第j个解码模块的反卷积对第j-1个解码模块输出的特征图进行上采样,j=2,3;利用第j个解码模块的第一通道融合单元分别对其反卷积的输出以及第n+1-j个(本实施例中n=4)残差路径的输出进行通道融合;利用各个解码模块级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第二通道融合单元对每个卷积输出的特征图进行通道融合,第2个解码模块中第二通道融合单元的输出,作为第3个解码模块的输入,第3个解码模块中第二通道融合单元的输出,作为第4个解码模块的输入;
步骤4.3、利用第4个解码模块的反卷积对第3个解码模块输出的特征图进行上采样;利用第4个解码模块的第一通道融合单元对其反卷积的输出以及第1个残差路径的输出进行通道融合;利用第4个解码模块级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第二通道融合单元对每个卷积输出的特征图进行通道融合,作为扩张路径的输出;
步骤5、经过1×1卷积运算将扩张路径输出的Cout个通道特征图转化为特定深度的结果。
为了直观的展现本发明所提出算法的有效性和优势,将DRU-Net与其他4个比较具有代表性的先进算法进行比较。其中部分算法的测试精度是复现原网络得到的,部分算法的测试精度直接来源于相关文献。4个比较算法可以分为两类:一类是基于FCN的FCN-8s网络和DeepLab网络;另一类是基于编解码结构的SegNet网络和U-Net网络。
表2显示了本发明提出的DRU-Net和其他相关的先进网络在Cityscapes测试集上的定量结果。从表中可以看出,DRU-Net算法的测试精度明显优于其他四个网络,Miou达到了69.7%,与分割效果第二的Deeplab网络相比,精度提高了5.2%。Cityscapes数据集中包含不同的19个类别,其中的17个类别都是DRU-Net算法的分割效果最好,精度最高。每一类的分割最高分在表2中用粗体表示。实验结果也证明了DRU-Net算法的有效性。结果的提升主要归因于DRU-Net中采用的堆叠的扩张卷积使得网络结构更深并且感受野更大。同时,DRU-Net将所有扩张卷积的特征图级联作为下一层的输入,网络可以利用多尺度感受野感知相同分辨率的特征图。另外,DRU-Net提出的残差路径,减小了编码模块和解码模块之间存在的特征差异,从而进一步提升了分割效果。DRU-Net网络结构的参数量更少,相比于参数量第二少的U-Net网络,DRU-Net的参数量减少了45%,只有8.1M。
表2 Cityscapes测试集上的定量结果
图3展示了本发明提出的DRU-Net和其他网络在Cityscapes验证集上的分割结果。从上到下依次是原始图像,对应的Ground Truth,FCN-8s,SegNet,DeepLab,U-net和本发明提出的DRU-Net。从图3中可以看出,DRU-Net得到的分割图的分割效果最好,特别是对于一些相对较小的目标,DRU-Net也可以将其分割出来。例如第一幅图中的交通指示灯,第二幅图中的行人,第三幅图中的自行车和第四幅图中远处骑摩托车的人,这些都是DRU-Net分割的更加清楚。
Claims (6)
1.基于扩张卷积和残差路径的图像语义分割网络结构,其特征在于:包括收缩路径、卷积模块、扩张路径与n个残差路径,其中n为大于等于2的自然数;
所述收缩路径包括n个编码模块;每个编码模块包括1个标准卷积、4个不同扩张率的扩张卷积、通道融合单元与最大值池化;所述1个标准卷积与4个不同扩张率的扩张卷积依次级联,用于对输入特征进行卷积运算;所述通道融合单元用于对各个卷积输出的特征图进行通道融合;所述最大值池化用于对通道融合后的特征图进行下采样;第1个至第n-1个编码模块中最大值池化的输出作为下一个编码模块的输入;第n个编码模块中最大值池化的输出作为所述卷积模块的输入;
所述卷积模块包括1个标准卷积、4个不同扩张率的扩张卷积以及1个通道融合单元;所述1个标准卷积与4个不同扩张率的扩张卷积依次级联,用于对输入特征进行卷积运算;所述1个通道融合单元用于对各个卷积输出的特征图进行通道融合后输出特征图;
所述n个残差路径中,第i个残差路径的输入分别为第i个编码模块的输出,i=1,2…n;每个残差路径包括至少1个残差模块,包括2个以上的残差模块时,各残差模块依次级联;从第1个至第n个残差路径,其所包括的残差模块数量依次减小;每个残差模块包括并联的3×3卷积模块和1×1卷积模块;第1个至第n-1个残差路径中前一个残差模块的3×3卷积模块和1×1卷积模块的输出特征融合后,作为下一个残差模块的输入;第n个残差路径中3×3卷积模块和1×1卷积模块的输出特征融合后直接输出;
所述扩张路径包括n个解码模块,每个解码模块包括反卷积、第一通道融合单元、级联的1个标准卷积和4个不同扩张率的扩张卷积以及一个第二通道融合单元;第1个解码模块的反卷积用于对卷积模块输出的特征图进行上采样,特征图的尺寸翻倍;第j个解码模块的反卷积用于对第j-1个解码模块输出的特征图进行上采样,j=2…n;第1个解码模块的第一通道融合单元用于对第1个解码模块反卷积的输出以及第n个残差路径的输出进行通道融合;第j个解码模块的第一通道融合单元分别用于对其反卷积的输出以及第n+1-j个残差路径的输出进行通道融合,j=2…n;各解码模块中级联的1个标准卷积和4个不同扩张率的扩张卷积用于对其第一通道融合单元输出的通道融合后的特征图进行卷积运算;各解码模块中第二通道融合单元用于对其每个卷积输出的特征图进行通道融合,融合后的特征图作为下一个解码模块的输入;第n个解码模块的输出经过1×1卷积运算将Cout个通道的特征图转化为特定深度的结果。
2.根据权利要求1所述的基于扩张卷积和残差路径的图像语义分割网络结构,其特征在于:第i个编码模块的输出通道数为第i-1个编码模块的输出通道数的2倍,i=2…n。
3.根据权利要求1或2所述的基于扩张卷积和残差路径的图像语义分割网络结构,其特征在于:第1个编码模块中的1个标准卷积与4个不同扩张率的扩张卷积的输出通道数分别为Cout/2,Cout/4,Cout/8,Cout/16,Cout/16,Cout为1个标准卷积与4个不同扩张率的扩张卷积级联输出的通道数。
4.根据权利要求3所述的基于扩张卷积和残差路径的图像语义分割网络结构,其特征在于:第j个解码模块的输出通道数为第j-1个解码模块的输出通道数的1/2,j=2…n。
5.根据权利要求4所述的基于扩张卷积和残差路径的图像语义分割网络结构,其特征在于:第n个解码模块中的1个标准卷积与4个不同扩张率的扩张卷积的输出通道数分别为Cout/2,Cout/4,Cout/8,Cout/16,Cout/16,Cout为1个标准卷积与4个不同扩张率的扩张卷积级联输出的通道数。
6.一种基于扩张卷积和残差路径的图像语义分割方法,基于权利要求1-5任一所述的图像语义分割网络结构,其特征在于,包括以下步骤:
步骤1、利用收缩路径提取特征;
步骤1.1、利用第1个编码模块对特征图进行特征提取;
利用第1个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对初始输入图像进行卷积运算,利用第1个编码模块中通道融合单元对各个卷积输出的特征图进行通道融合,利用第1个编码模块中最大值池化对通道融合单元输出的通道融合后的特征图进行下采样,作为第2个编码模块的输入;
步骤1.2、利用第i个编码模块对特征图进行特征提取;
利用第i个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对第i-1个编码模块输出的特征图进行卷积运算,利用第i个编码模块中通道融合单元对各个卷积输出的特征图进行通道融合,利用第i个编码模块中最大值池化对通道融合单元输出的通道融合后的特征图进行下采样,若n大于2,则作为第i+1个编码模块的输入,i=2…n-1,进入步骤1.3;若n等于2,则直接作为收缩路径的输出;
步骤1.3、利用第n个编码模块输出特征图;
利用第n个编码模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对第n-1个编码模块输出的特征图进行卷积运算,利用通道融合单元对各个卷积输出的特征图进行通道融合,利用最大值池化对通道融合单元输出的通道融合后的特征图进行下采样后输出特征图,即为收缩路径的输出;
步骤2、利用卷积模块对收缩路径输出的特征图进行卷积运算;
利用卷积模块中依次级联的1个标准卷积与4个不同扩张率的扩张卷积对收缩路径输出的特征图进行卷积运算,利用卷积模块中通道融合单元对各个卷积输出的特征图进行通道融合后输出特征图;
步骤3、利用残差路径减少相应编码模块与解码模块之间的语义差异;
利用第1个残差路径减少第1个编码模块与第n个解码模块之间的语义差异;利用第2个残差路径减少第2个编码模块与第n-1个解码模块之间的语义差异;
若n大于2,依次类推;
利用第n个残差路径减少第n个编码模块与第1个解码模块之间的语义差异;
步骤4、利用扩张路径恢复特征图尺寸;
步骤4.1、利用第1个解码模块的反卷积对卷积模块输出的特征图进行上采样,特征图的尺寸翻倍;利用第1个解码模块的第一通道融合单元对第1个解码模块反卷积的输出以及第n个残差路径的输出进行通道融合;利用第1个解码模块内级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第二通道融合单元对每个卷积输出的特征图进行通道融合,融合后的特征图作为第2个解码模块的输入;
步骤4.2、利用第j个解码模块的反卷积对第j-1个解码模块输出的特征图进行上采样,j=2…n;利用第j个解码模块的第一通道融合单元分别对其反卷积的输出以及第n+1-j个残差路径的输出进行通道融合;利用第j个解码模块中级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第j个解码模块中第二通道融合单元对每个卷积输出的特征图进行通道融合,若n大于2,则作为第j+1个解码模块的输入,j=2…n-1,进入步骤4.3;若n等于2,则直接作为扩张路径的输出;
步骤4.3、利用第n个解码模块的反卷积对第n-1个解码模块输出的特征图进行上采样;利用第n个解码模块的第一通道融合单元对其反卷积的输出以及第1个残差路径的输出进行通道融合;利用第n个解码模块中级联的1个标准卷积和4个不同扩张率的扩张卷积对第一通道融合单元输出的通道融合后的特征图进行卷积运算;利用第二通道融合单元对每个卷积输出的特征图进行通道融合,作为扩张路径的输出;
步骤5、经过1×1卷积运算将扩张路径输出的Cout个通道的特征图转化为特定深度的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394803.XA CN113255675B (zh) | 2021-04-13 | 2021-04-13 | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394803.XA CN113255675B (zh) | 2021-04-13 | 2021-04-13 | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255675A CN113255675A (zh) | 2021-08-13 |
CN113255675B true CN113255675B (zh) | 2023-10-10 |
Family
ID=77220883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110394803.XA Active CN113255675B (zh) | 2021-04-13 | 2021-04-13 | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255675B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024098379A1 (zh) * | 2022-11-11 | 2024-05-16 | 深圳先进技术研究院 | 一种基于扩张残差网络的全自动心脏磁共振成像分割方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876792A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和系统及存储介质 |
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
CN111666948A (zh) * | 2020-05-27 | 2020-09-15 | 厦门大学 | 一种基于多路聚合的实时高性能语义分割方法和装置 |
WO2020233129A1 (zh) * | 2019-05-17 | 2020-11-26 | 深圳先进技术研究院 | 一种图像超分辨和着色方法、系统及电子设备 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
-
2021
- 2021-04-13 CN CN202110394803.XA patent/CN113255675B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876792A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和系统及存储介质 |
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
WO2020233129A1 (zh) * | 2019-05-17 | 2020-11-26 | 深圳先进技术研究院 | 一种图像超分辨和着色方法、系统及电子设备 |
CN111666948A (zh) * | 2020-05-27 | 2020-09-15 | 厦门大学 | 一种基于多路聚合的实时高性能语义分割方法和装置 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
Non-Patent Citations (1)
Title |
---|
DODNet:一种扩张卷积优化的图像语义分割模型;祖朋达;李晓敏;陈更生;许薇;;复旦学报(自然科学版)(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255675A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626300B (zh) | 基于上下文感知的图像语义分割模型的图像分割方法及建模方法 | |
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN111144329A (zh) | 一种基于多标签的轻量快速人群计数方法 | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN114648684A (zh) | 一种用于图像目标检测的轻量级双分支卷积神经网络及其检测方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN113658189B (zh) | 一种跨尺度特征融合的实时语义分割方法和系统 | |
CN112036475A (zh) | 融合模块和多尺度特征融合卷积神经网络及图像识别方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN113222818A (zh) | 一种使用轻量化多通道聚合网络重建超分辨率图像的方法 | |
CN113255675B (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
CN115984701A (zh) | 一种基于编解码结构的多模态遥感图像语义分割方法 | |
CN111160378A (zh) | 基于单张图像的多任务增强的深度估计系统 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN114119627B (zh) | 基于深度学习的高温合金微观组织图像分割方法及装置 | |
CN112164065A (zh) | 一种基于轻量化卷积神经网络的实时图像语义分割方法 | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及系统 | |
CN112488115B (zh) | 一种基于two-stream架构的语义分割方法 | |
Hu et al. | Lightweight asymmetric dilation network for real-time semantic segmentation | |
CN113313721B (zh) | 基于多尺度结构的实时语义分割方法 | |
CN111553921B (zh) | 一种基于通道信息共享残差模块的实时语义分割方法 | |
CN114494284A (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN113496228A (zh) | 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法 | |
CN114630125B (zh) | 基于人工智能与大数据的车辆图像压缩方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |