CN117152445B - 基于多连接编码小波池化的实时图像语义分割方法及系统 - Google Patents
基于多连接编码小波池化的实时图像语义分割方法及系统 Download PDFInfo
- Publication number
- CN117152445B CN117152445B CN202311427065.XA CN202311427065A CN117152445B CN 117152445 B CN117152445 B CN 117152445B CN 202311427065 A CN202311427065 A CN 202311427065A CN 117152445 B CN117152445 B CN 117152445B
- Authority
- CN
- China
- Prior art keywords
- feature
- pooling
- wavelet
- feature map
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 122
- 230000011218 segmentation Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 117
- 238000000605 extraction Methods 0.000 claims abstract description 73
- 238000010586 diagram Methods 0.000 claims abstract description 38
- 108091006146 Channels Proteins 0.000 claims description 84
- 230000009466 transformation Effects 0.000 claims description 21
- 238000002156 mixing Methods 0.000 claims description 20
- 230000002776 aggregation Effects 0.000 claims description 18
- 238000004220 aggregation Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000011800 void material Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000011084 recovery Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 8
- 238000001994 activation Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多连接编码小波池化的实时图像语义分割方法,包括:对原始输入特征图进行初步特征提取,得到初始特征信息;将初始特征信息与第一输入图像进行拼接,得到浅层特征图;对浅层特征图进行小波池化操作后再进行逐步特征融合提取,得到第一混合特征信息;将第一混合特征与第二输入图像进行拼接,得到中层特征图;对中层特征图进行小波池化操作后再进行逐步特征融合提取,得到第二混合特征信息;将第二混合特征信息与第三输入图像进行拼接,得到深层特征图;对浅层特征图、中层特征图以及深层特征图进行融合解码,得到图像语义分割结果。本发明还公开了一种相应的实时图像语义分割系统,实现了实时且高精度的图像语义分割。
Description
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种基于多连接编码小波池化的实时图像语义分割方法及系统。
背景技术
在计算机视觉领域中,图像语义分割是场景解析和行为识别的关键任务,目标是将图像中相同类别的像素分为一类,将不同类别的物体分割出来。并且语义分割不仅需要预测出物体的类别及位置信息,还需要将物体沿着自身的轮廓边界分割出来,提供精确的对象边界信息。图像语义分割技术是模式识别、机器视觉和人工智能等学科领域的核心基础,对于军事、安全防控、医疗诊断、人机交互、智能交通、物流监控、工业工程和生物识别等众多高层任务的执行至关重要。
传统的图像分割方法根据图像的低层特征信息,例如颜色、纹理、亮度、形状等提取出感兴趣的区域。但在某些复杂情况下,传统方法提取的特征识别度低,分割性能也较差。近年来,卷积神经网络由于对复杂问题强大的拟合能力,能够从大量样本中自动学习提取图像中的隐含特征,并避免了人工显式的特征提取,使其在语义分割任务上取得了巨大成功。
语义分割虽然广泛应用于无人驾驶、医疗影像和视觉增强等实际应用领域,但在真实应用场景中,还存在诸多问题。
1)真实应用场景往往要求具有较高的网络分割精度、较低的计算成本和内存占用,这对语义分割算法的实时性和准确性提出了新的挑战,如何在图像中快速识别和定位目标事物的同时保持较高的准确度成为解决该问题的关键。提高语义分割网络的精确度通常采用的策略是加大网络的深度,获得更加丰富的图像语义信息,但带来的将是模型参数量大幅上升,从而提高计算复杂度和降低计算速度,导致网络的实时性受到影响,推理时间远低于实时性的标准,继而限制真实场景下的应用,难以部署在移动电话、汽车系统、可穿戴设备和物联网设备等硬件终端;
2)图像语义分割容易受到背景噪声,分割类别中同类别之间存在相异性,而不同类别之间存在相似性,分割目标之间相互重叠、遮挡等不确定因素的干扰,这些问题常常导致分割错误或者目标定位不准确,分割边缘粗糙等;
3)现存语义分割网络中存在多层卷积堆叠,逐层缩小特征图虽然能够增大感受野,有利于提取语义信息,使得分类更加准确,但低分辨率的特征图不利于细小物体和包含大量细节物体边缘的类别检测,高分辨率的特征图有利于物体边缘区域的类别检测,但容易导致细节较少的区域类别预测错误;
4)目前大多数语义分割网络均采用池化操作,池化层是卷积神经网络中的重要组成部分,它可以扩大网络的感受野,降低网络的复杂度,增加网络非线性及提高模型的泛化能力,但却带来特征信息丢失,影响网络的表达能力。
发明内容
为解决现有技术图像语义分割存在网络结构复杂、网络参数量大、图像特征信息损失过多和计算效率低下的技术问题,本发明提供了一种基于多连接编码小波池化的实时图像语义分割方法及系统,本发明采用的技术方案是:
本发明第一方面提供了一种基于多连接编码小波池化的实时图像语义分割方法,包括以下步骤:
S1:对原始图像进行预处理,得到原始输入特征图像,再对原始输入特征图像进行多尺度变换,得到第一输入图像、第二输入图像以及第三输入图像;
S2:对所述原始输入特征图像进行初步特征提取,得到初始特征信息;
S3:将所述初始特征信息与所述第一输入图像进行特征拼接操作,得到浅层特征图;
S4:对所述浅层特征图进行离散小波池化操作,得到浅层小波池化特征图;
S5:对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息,其中M为正整数;
S6:将所述第一混合特征信息与所述第二输入图像进行特征拼接操作,得到中层特征图;
S7:对所述中层特征图进行离散小波池化操作,得到中层小波池化特征图;
S8:对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息,其中Y为正整数;
S9:将所述第二混合特征信息与所述第三输入图像进行特征拼接操作,得到深层特征图;
S10:对所述浅层特征图、所述中层特征图以及所述深层特征图进行融合解码,得到图像语义分割结果。
作为一种优选方案,在步骤S4以及S7中,所述离散小波池化操作具体包括:
在空间域上对输入特征图进行离散小波变换处理,得到低频系数LL、水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH;
将所述低频系数LL分别与水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH叠加后,再通过逆小波变换进行信息重构,分别对应获得重构系数LL1、HL1、LH1、HH1;
对所述重构系数LL1、HL1、LH1、HH1,分别采取3×3卷积运算进行特征学习后再进行混合池化操作,得到新的重构系数LL2、HL2、LH2、HH2:
其中,MixPool表示混合池化操作,f conv3×3表示3×3标准卷积运算,IDWT表示逆小波变换操作;
将所述新的重构系数LL2、HL2、LH2、HH2进行拼接,然后通过1×1点卷积运算恢复其通道数后,输出特征图。
作为一种优选方案,在步骤S5以及S8中,所述逐步特征融合提取的具体操作包括:
采用1×1卷积对输入特征图进行通道压缩,得到通道数减半的特征图;
采用3×3标准卷积来提取所述通道数减半的特征图的局部特征信息;
将提取到的局部特征信息通过3×3的深度可分离卷积以及带空洞率的深度可分离空洞卷积进行并行特征提取及融合,得到多尺度上下文特征信息;
将所述局部特征信息与所述多尺度上下文特征信息进行通道拼接,然后通过1×1卷积将各个通道的特征信息进行交互并再次将通道数压缩至一半,得到低层聚合特征信息;
利用Sigmoid激活函数计算所述低层聚合特征的通道注意力权重大小,将计算结果与所述局部特征信息进行点乘运算,随后利用1×1卷积进行通道信息交融和恢复通道数,最后将通道恢复后的特征图与所述输入特征图进行逐元素叠加得到高层聚合特征信息。
作为一种优选方案,在步骤S5中,对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息的具体方法为:
所述浅层小波池化特征图进行M=3次逐步特征融合提取,并将其中的第一次逐步特征融合提取输出的特征信息通过远程跳跃连接与第三次逐步特征融合提取输出的特征信息进行混合输出,得到第一混合特征信息;
在步骤S8中,对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息的具体方法为:
对所述中层小波池化特征图进行Y=8次逐步特征融合提取,并将其中的第一次逐步特征融合提取输出的特征信息通过远程跳跃连接与第八次逐步特征融合提取输出的特征信息进行混合输出,得到第二混合特征信息。
作为一种优选方案,步骤S10具体包括:
将所述浅层特征图、所述中层特征图以及所述深层特征图进行拼接后作为第一待解码特征图;
运用1×1卷积对所述第一待解码特征图进行通道信息交融;
采用多分支扩展的方式,利用四个不同空洞率的深度可分离卷积对所述第一待解码特征图分别进行特征学习,将各个分支学习到的特征信息进行特征拼接后通过一个1×1卷积恢复其通道数,得到多分支扩展融合后的第二待解码特征图;
将所述第一待解码特征图与所述第二待解码特征图进行逐元素叠加,并利用上采样操作将其恢复至所述原始图像的尺寸后,经过逐像素预测得到图像语义分割结果。
本发明第二方面提供了一种基于多连接编码小波池化的实时图像语义分割系统,包括依次连接的图像预处理模块、初步特征提取模块、第一特征拼接模块、第一小波池化模块、第一轻量化逐步特征融合模块、第二特征拼接模块、第二小波池化模块、第二轻量化逐步特征融合模块、第三特征拼接模块以及多分支空洞卷积特征融合解码器;其中,所述第一轻量化逐步特征融合模块包括M个分离-提取-合并瓶颈结构;所述第二轻量化逐步特征融合模块包括Y个所述分离-提取-合并瓶颈结构;
所述图像预处理模块用于对原始图像进行预处理,得到原始输入特征图像,再对原始输入特征图像进行多尺度变换,得到第一输入图像、第二输入图像以及第三输入图像;
所述初步特征提取模块用于对所述原始输入特征图像进行初步特征提取,得到初始特征信息;
所述第一特征拼接模块用于将所述初始特征信息与所述第一输入图像进行特征拼接操作,得到浅层特征图;
所述第一小波池化模块用于对所述浅层特征图进行离散小波池化操作,得到浅层小波池化特征图;
所述第一轻量化逐步特征融合模块用于通过M个所述分离-提取-合并瓶颈结构对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息,其中M为正整数;
所述第二特征拼接模块用于将所述第一混合特征信息与所述第二输入图像进行特征拼接操作,得到中层特征图;
所述第二小波池化模块用于对所述中层特征图进行离散小波池化操作,得到中层小波池化特征图;
所述第二轻量化逐步特征融合模块用于通过Y个所述分离-提取-合并瓶颈结构对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息,其中Y为正整数;
所述第三特征拼接模块用于将所述第二混合特征信息与所述第三输入图像进行特征拼接操作,得到深层特征图;
所述多分支空洞卷积特征融合解码器用于对所述浅层特征图、所述中层特征图以及所述深层特征图进行融合解码,得到图像语义分割结果。
作为一种优选方案,所述第一小波池化模块或第二小波池化模块中的离散小波池化操作通过离散小波池化模块实现,所述离散小波池化模块包括:
离散小波变换模块,用于在空间域上对输入特征图进行离散小波变换处理,得到低频系数LL、水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH;
小波混合重构模块,用于将所述低频系数LL分别与水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH叠加后,再通过逆小波变换进行信息重构,分别获得重构系数LL1、HL1、LH1、HH1;
卷积池化重构模块,用于对所述重构系数LL1、HL1、LH1、HH1,分别采取3×3卷积运算进行特征学习后再进行混合池化操作,得到新的重构系数LL2、HL2、LH2、HH2:
其中,MixPool表示混合池化操作,f conv3×3表示3×3标准卷积运算,IDWT表示逆小波变换操作;
拼接输出模块,用于将所述新的重构系数LL2、HL2、LH2、HH2进行拼接,然后通过1×1点卷积运算恢复其通道数后,输出特征图。
作为一种优选方案,所述第一轻量化逐步特征融合模块或所述第二轻量化逐步特征融合模块中的逐步特征融合提取操作分别采用分离-提取-合并瓶颈结构实现,所述分离-提取-合并瓶颈结构具体包括:
第一点卷积层,用于采用1×1卷积对输入特征图进行通道压缩,得到通道数减半的特征图;
标准卷积层,用于采用3×3标准卷积来提取所述通道数减半的特征图的局部特征信息;
并行的深度可分离卷积层和空洞卷积层,对应用于将提取到的局部特征信息通过3×3的深度可分离卷积以及带空洞率的深度可分离空洞卷积进行并行特征提取;
第一叠加器,用于将所述深度可分离卷积层和所述空洞卷积层的输出特征图进行融合,得到多尺度上下文特征信息;
拼接层,用于将所述局部特征信息与所述多尺度上下文特征信息进行通道拼接;
第二点卷积层,用于通过1×1卷积将各个通道的特征信息进行交互并再次将通道数压缩至一半,得到低层聚合特征信息;
权重分配层,用于利用Sigmoid激活函数计算所述低层聚合特征的通道注意力权重大小,将计算结果与所述局部特征信息进行点乘运算;
第三点卷积层,用于利用1×1卷积所述权重分配层的输出特征图进行通道信息交融和恢复通道数;
第二叠加器,用于将通道恢复后的特征图与所述输入特征图进行逐元素叠加得到高层聚合特征信息。
作为一种优选方案,所述第一轻量化逐步特征融合模块包括M=3个分离-提取-合并瓶颈结构;其中,第一个分离-提取-合并瓶颈结构的输出端与第三个分离-提取-合并瓶颈结构的输出端远程跳跃连接;
所述第二轻量化逐步特征融合模块包括Y=8个分离-提取-合并瓶颈结构;其中,第一个分离-提取-合并瓶颈结构的输出端与第八个分离-提取-合并瓶颈结构的输出端远程跳跃连接。
作为一种优选方案,所述多分支空洞卷积特征融合解码器具体包括:
第一解码拼接层,用于将所述浅层特征图、所述中层特征图以及所述深层特征图进行拼接后作为第一待解码特征图;
特征图通道交互层,用于运用1×1卷积对所述第一待解码特征图进行通道信息交融;
并行卷积分支,用于采用多分支扩展的方式,利用四个不同空洞率的深度可分离卷积对所述第一待解码特征图分别进行特征学习;
第二解码拼接层,用于将各个分支学习到的特征信息进行特征拼接后通过一个1×1卷积恢复其通道数,得到多分支扩展融合后的第二待解码特征图;
解码叠加器,用于将所述第一待解码特征图与所述第二待解码特征图进行逐元素叠加;
预测输出层,用于利用上采样操作将所述解码叠加器输出的特征图恢复至所述原始图像的尺寸后,经过逐像素预测得到图像语义分割结果。
相较于现有技术,本发明具有的有益效果是:
本发明利用深度可分离卷积、空洞卷积和通道压缩策略设计了一个轻量级逐步特征融合 (Progressive Feature Fusion,PFF)的分离-提取-合并(Split-Extract-Merge,SEM)瓶颈结构,通过若干个所述分离-提取-合并瓶颈结构SEM进行逐步特征提取,实现了在网络结构具有较小的参数量和计算量的情况下,也能够充分提取图像的特征信息。本发明通过离散小波池化模块(DWT Pooling,DWTP),不仅可以解决现有网络中下采样操作导致的特征信息丢失问题,并且可以高效地完成下采样操作,并可插入其它分割网络中作下采样操作,具备通用性。本发明通过多分支并行空洞卷积特征融合(Multi-branch Dilated-Convolutional Feature Fusion,MDCFF)解码器,有效结合多尺度上下文特征实现图像空间信息的高效恢复,达到更好的分割效果。因此,本发明在保证高精度的前提下,大幅减少了网络模型参数,提升了处理速度,对移动终端领域具有很好的应用前景。
附图说明
图1为实施例1提供的基于多连接编码小波池化的实时图像语义分割方法流程图;
图2为实施例1提供的离散小波池化操作的流程图;
图3为与实施例1提供的基于多连接编码小波池化的实时图像语义分割方法相对应的实施例2所提供的实时图像语义分割系统的结构示意图;
图4为实施例1提供的实现逐步特征融合提取的分离-提取-合并瓶颈结构的一种结构示意图;
图5为实施例1提供的融合解码的流程图;
图6为实施例2提供的图像语义分割的可视化分割效果对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
请参考图1,本实施例提供了一种基于多连接编码小波池化的实时图像语义分割方法,包括以下步骤:
S1:对原始图像进行预处理,得到原始输入特征图像,再对原始输入特征图像进行多尺度变换,得到第一输入图像、第二输入图像以及第三输入图像;
S2:对所述原始输入特征图像进行初步特征提取,得到初始特征信息;
S3:将所述初始特征信息与所述第一输入图像进行特征拼接操作,得到浅层特征图;
S4:对所述浅层特征图进行离散小波池化操作,得到浅层小波池化特征图;
S5:对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息,其中M为正整数;
S6:将所述第一混合特征信息与所述第二输入图像进行特征拼接操作,得到中层特征图;
S7:对所述中层特征图进行离散小波池化操作,得到中层小波池化特征图;
S8:对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息,其中Y为正整数;
S9:将所述第二混合特征信息与所述第三输入图像进行特征拼接操作,得到深层特征图;
S10:对所述浅层特征图、所述中层特征图以及所述深层特征图进行融合解码,得到图像语义分割结果。
特别地,在步骤S1中,所述第一输入图像、第二输入图像以及第三输入图像具体分别为所述原始输入特征图像的1/2、1/4、1/8分辨率的图像。
具体地,在步骤S2中,所述初步特征提取的具体方法为:
使用一个步幅为2的3×3标准卷积,将所述原始输入特征图像的尺寸减少一半,并将通道数扩大到32,然后采用两个3×3标准卷积提取丰富的上下文信息,随后进行批量归一化处理以及ReLU函数非线性激活处理,最后得到所述初始特征信息。
具体地,所述批量归一化处理的计算公式如下:
其中,mean为均值计算,Var为方差,eps默认值为1e-5,γ、β默认为1和0,F input为输入特征图,F output为输出特征图。
具体地,ReLU函数非线性激活处理的公式具体为:
需要说明的是,在步骤S3中,将所述初始特征信息与所述第一输入图像进行特征拼接(Concat)操作,保持初始阶段提取的图像特征并补充细节信息;输出尺寸(高×宽×通道数)为:256×512×35。
在一个具体的实施例中,请参考图2,在步骤S4以及S7中,所述离散小波池化操作具体包括:
在空间域上对输入特征图进行离散小波变换处理,得到低频系数LL、水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH;
将所述低频系数LL分别与水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH叠加后,再通过逆小波变换进行信息重构,分别对应获得重构系数LL1、HL1、LH1、HH1;
对所述重构系数LL1、HL1、LH1、HH1,分别采取3×3卷积运算进行特征学习后再进行混合池化操作,得到新的重构系数LL2、HL2、LH2、HH2:将所述新的重构系数LL2、HL2、LH2、HH2进行拼接,然后通过1×1点卷积运算恢复其通道数后,输出特征图。
上述具体的实施例中的离散小波池化操作可以用数学模型表示如下:
其中,MixPool表示混合池化操作,f conv3×3表示3×3标准卷积运算,IDWT表示逆小波变换操作。
在一个具体的实施例中,在步骤S5中,请参考图3,对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息的具体方法为:
对所述浅层小波池化特征图进行M=3次逐步特征融合提取;将第一次逐步特征融合提取输出的特征信息通过远程跳跃连接与第三次逐步特征融合提取输出的特征信息进行混合输出,得到第一混合特征信息;其中,第二次以及第三次逐步特征融合提取的输入分别为第一次以及第二次逐步特征融合提取的特征信息。
在一个具体的实施例中,在步骤S8中,请参考图3,对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息的具体方法为:
对所述中层小波池化特征图进行Y=8次逐步特征融合提取 ;将第一次逐步特征融合提取输出的特征信息通过远程跳跃连接与第八次逐步特征融合提取输出的特征信息进行混合输出,得到第二混合特征信息;其中,第二、三、四、五、六、七、八次逐步特征融合提取的输入分别为第一、二、三、四、五、六、七次逐步特征融合提取的特征信息。
在一个具体的实施例中,请参考图4,在步骤S5以及S8中,所述逐步特征融合提取的具体操作包括:
采用1×1卷积对输入特征图进行通道压缩,得到通道数减半的特征图;
采用3×3标准卷积来提取所述通道数减半的特征图的局部特征信息;
将提取到的局部特征信息通过3×3的深度可分离卷积以及带空洞率的深度可分离空洞卷积进行并行特征提取及融合,得到多尺度上下文特征信息;
将所述局部特征信息与所述多尺度上下文特征信息进行通道拼接,然后通过1×1卷积将各个通道的特征信息进行交互并再次将通道数压缩至一半,得到低层聚合特征信息;
利用Sigmoid激活函数计算所述低层聚合特征的通道注意力权重大小,将计算结果与所述局部特征信息进行点乘运算,随后利用1×1卷积进行通道信息交融和恢复通道数,最后将通道恢复后的特征图与所述输入特征图进行逐元素叠加得到高层聚合特征信息;
需要说明的是,在所述逐步特征融合提取中的每一次卷积操作之前都对输入进行了所述批量归一化处理以及ReLU函数非线性激活处理。
需要说明的是,在步骤S5中,对所述浅层小波池化特征图进行三次逐步特征融合提取,所述三次逐步特征融合提取中的带空洞率的深度可分离空洞卷积的空洞率均设置为2,感受野相同。
需要说明的是,在步骤S8中,对所述中层小波池化特征图进行八次逐步特征融合提取,第一、二、三、四、五、六、七、八次逐步特征融合提取中的带空洞率的深度可分离空洞卷积的空洞率分别设置为3、3、5、5、7、7、9、9,感受野逐渐变大。
在一个具体的实施例中,请参考图5,步骤S10具体包括:
将所述浅层特征图、所述中层特征图以及所述深层特征图进行拼接后作为第一待解码特征图;
运用1×1卷积对所述第一待解码特征图进行通道信息交融;
采用多分支扩展的方式,利用四个不同空洞率的深度可分离卷积对所述第一待解码特征图分别进行特征学习,将各个分支学习到的特征信息进行特征拼接后通过一个1×1卷积恢复其通道数,得到多分支扩展融合后的第二待解码特征图;
将所述第一待解码特征图与所述第二待解码特征图进行逐元素叠加,并利用上采样操作将其恢复至所述原始图像的尺寸后,经过逐像素预测得到图像语义分割结果。
具体地,请参考图3,在步骤S10中,对所述浅层特征图、所述中层特征图以及所述深层特征图进行融合解码,得到图像语义分割结果的具体数学模型表示如下:
其中,f concat表示特征拼接,f conv1×1表示1×1标准卷积运算,f upsampling表示上采样操作;F1/2、F1/4、F1/8分别表示所述浅层特征图、中层特征图、深层特征图,F 1、F 2、F 3、F 4分别为经过不同空洞率的深度可分离卷积之后的输出特征结果,表示图像语义分割结果。
需要说明的是,F1/2、F1/4、F1/8的分辨率分别为原始输入图像分辨率的1/2、1/4、1/8。
实施例2
请参考图3,本实施例提供了一种基于多连接编码小波池化的实时图像语义分割系统,包括依次连接的图像预处理模块、初步特征提取模块(Initial Block)、第一特征拼接模块(Concat1)、第一小波池化模块(DWTP1)、第一轻量化逐步特征融合模块(PFF×3)、第二特征拼接模块(Concat2)、第二小波池化模块(DWTP2)、第二轻量化逐步特征融合模块(PFF×8)、第三特征拼接模块(Concat3)以及多分支空洞卷积特征融合解码器(MDCFF);其中,所述第一轻量化逐步特征融合模块包括M个分离-提取-合并瓶颈结构(PFF);所述第二轻量化逐步特征融合模块包括Y个所述分离-提取-合并瓶颈结构(PFF);
所述图像预处理模块用于对原始图像进行预处理,得到原始输入特征图像,再对原始输入特征图像进行多尺度变换,得到第一输入图像、第二输入图像以及第三输入图像;
所述初步特征提取模块用于对所述原始输入特征图像进行初步特征提取,得到初始特征信息;
所述第一特征拼接模块用于通过所述初始特征信息与所述第一输入图像进行特征拼接操作,得到初始特征图;
所述第一小波池化模块用于对所述浅层特征图进行离散小波池化操作,得到浅层小波池化特征图;
所述第一轻量化逐步特征融合模块用于通过M个所述分离-提取-合并瓶颈结构对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息,其中M为正整数;
所述第二特征拼接模块用于将所述第一混合特征信息与所述第二输入图像进行特征拼接操作,得到中层特征图;
所述第二小波池化模块用于对所述中层特征图进行离散小波池化操作,得到中层小波池化特征图;
所述第二轻量化逐步特征融合模块用于通过Y个所述分离-提取-合并瓶颈结构对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息,其中Y为正整数;
所述第三特征拼接模块用于将所述第二混合特征信息与所述第三输入图像进行特征拼接操作,得到深层特征图;
所述多分支空洞卷积特征融合解码器用于对所述浅层特征图、所述中层特征图以及所述深层特征图进行融合解码,得到图像语义分割结果。
在一个具体的实施例中,所述第一小波池化模块或第二小波池化模块中的离散小波池化操作通过离散小波池化模块实现,所述离散小波池化模块包括:
离散小波变换模块,用于在空间域上对输入特征图进行离散小波变换处理,得到低频系数LL、水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH;
小波混合重构模块,用于将所述低频系数LL分别与水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH叠加后,再通过逆小波变换进行信息重构,分别获得重构系数LL1、HL1、LH1、HH1;
卷积池化重构模块,用于对所述重构系数LL1、HL1、LH1、HH1,分别采取3×3卷积运算进行特征学习后再进行混合池化操作,得到新的重构系数LL2、HL2、LH2、HH2:
其中,MixPool表示混合池化操作,f conv3×3表示3×3标准卷积运算,IDWT表示逆小波变换操作;
拼接输出模块,用于将所述新的重构系数LL2、HL2、LH2、HH2进行拼接,然后通过1×1点卷积运算恢复其通道数后,输出特征图。
在一个具体的实施例中,所述第一轻量化逐步特征融合模块或所述第二轻量化逐步特征融合模块中的逐步特征融合提取操作分别采用分离-提取-合并瓶颈结构实现,所述分离-提取-合并瓶颈结构具体包括:
第一点卷积层,用于采用1×1卷积对输入特征图进行通道压缩,得到通道数减半的特征图;
标准卷积层,用于采用3×3标准卷积来提取所述通道数减半的特征图的局部特征信息;
并行的深度可分离卷积层和空洞卷积层,对应用于将提取到的局部特征信息通过3×3的深度可分离卷积以及带空洞率的深度可分离空洞卷积进行并行特征提取;
第一叠加器,用于将所述深度可分离卷积层和所述空洞卷积层的输出特征图进行融合,得到多尺度上下文特征信息;
拼接层,用于将所述局部特征信息与所述多尺度上下文特征信息进行通道拼接;
第二点卷积层,用于通过1×1卷积将各个通道的特征信息进行交互并再次将通道数压缩至一半,得到低层聚合特征信息;
权重分配层,用于利用Sigmoid激活函数计算所述低层聚合特征的通道注意力权重大小,将计算结果与所述局部特征信息进行点乘运算;
第三点卷积层,用于利用1×1卷积所述权重分配层的输出特征图进行通道信息交融和恢复通道数;
第二叠加器,用于将通道恢复后的特征图与所述输入特征图进行逐元素叠加得到高层聚合特征信息。
在一个具体的实施例中,所述第一轻量化逐步特征融合模块包括M=3个分离-提取-合并瓶颈结构;其中,第一个分离-提取-合并瓶颈结构的输出端与第三个分离-提取-合并瓶颈结构的输出端远程跳跃连接;
所述第二轻量化逐步特征融合模块包括Y=8个分离-提取-合并瓶颈结构;其中,第一个分离-提取-合并瓶颈结构的输出端与第八个分离-提取-合并瓶颈结构的输出端远程跳跃连接。
在一个具体的实施例中,所述多分支空洞卷积特征融合解码器具体包括:
第一解码拼接层,用于将所述浅层特征图、所述中层特征图以及所述深层特征图进行拼接后作为第一待解码特征图;
特征图通道交互层,用于运用1×1卷积对所述第一待解码特征图进行通道信息交融;
并行卷积分支,用于采用多分支扩展的方式,利用四个不同空洞率的深度可分离卷积对所述第一待解码特征图分别进行特征学习;
第二解码拼接层,用于将各个分支学习到的特征信息进行特征拼接后通过一个1×1卷积恢复其通道数,得到多分支扩展融合后的第二待解码特征图;
解码叠加器,用于将所述第一待解码特征图与所述第二待解码特征图进行逐元素叠加;
预测输出层,用于利用上采样操作将所述解码叠加器输出的特征图恢复至所述原始图像的尺寸后,经过逐像素预测得到图像语义分割结果。
本实施例提供的基于多连接编码小波池化的实时图像语义分割系统的一种具体的网络结构MLWP-Net(Multi-Link Wavelet-Pooled Network,多连接小波池化网络)如表1所示:
表1 图像语义分割网络MLWP-Net的网络结构
其中,Initial Block表示所述初步特征提取模块,Concat1表示所述第一特征拼接模块,DWTP1表示所述第一小波池化模块,PFF-Block1表示所述第一轻量化逐步特征融合模块,Concat2表示所述第二特征拼接模块,DWTP2表示所述第二小波池化模块,PFF-Block2表示所述第二轻量化逐步特征融合模块,Concat3表示第三特征拼接模块,MDCFF表示所述多分支空洞卷积特征融合解码器,PFF(Progressive Feature Fusion)表示逐步特征融合模块,其采用所述分离-提取-合并(Split-Extract-Merge,SEM)的瓶颈结构实现,因此在本发明实施例中,PFF与SEM所表征的执行模块功能相同。C表示当前待分割的目标对象的类别总数。
在一个具体的实施例中,本发明所提出的一种基于多连接编码小波池化的实时图像语义分割系统,没有任何预训练的情况下,当输入图像分辨率为512×1024像素时,MLWP-Net仅以0.745M(Million,兆)的参数量在Cityscapes数据集上实现了74.1%的mIoU,其推理速度高达85.6fps;当输入图像分辨率为360×480像素时,MLWP-Net仅以0.736M的参数量在CamVid数据集上实现了最高68.2%的mIoU,其推理速度高达95fps。实验结果符合预期,其分割效果优于其它网络,证明了多连接特征编解码策略和离散小波池化操作技术的有效性。与最先进的研究相比,作为轻量化网络,所提出的MLWP-Net在基于计算机视觉的任务中对资源有限的移动设备进行快速推理的准确性和计算效率之间实现了较好的权衡。
实施例3
本实施例对基于多连接编码小波池化的实时图像语义分割系统对应的图像语义分割网络MLWP-Net进行进一步的验证与分析,更具体地:
(1)构建数据集:
使用两个标准数据集来评估本发明的网络模型:Cityscapes数据集,CamVid数据集。
具体地,以上两个数据集的特点为:
1)Cityscapes数据集是一个大型的城市街景数据集该数据集,由5000张像素级标注图像组成,图像分辨率为1024×2048,包含19个类别,其中训练集为2975张图像,验证集为500张图像,测试集为1525张图像。
2)CamVid数据集是一个从驾驶汽车角度拍摄的交通场景数据集,共计701张图像,图像分辨率为720×960,包含11个类别,其中训练集为367张图像,验证集为101张图像,测试集为233张图像。
(2)实验设置:
训练用服务器平台:
软件环境平台:Pytorch、CUDA11.4;
CPU:Intel(R) Core(TM) i7-8700;
GPU:NVIDIA GeForce GTX 3090;
推理/评估用平台:与上述训练用服务器平台相同。
(3)实验操作:
采用小批量梯度下降(SGD)作为训练阶段的优化策略,批量大小设置为0.9,权重衰减设置为1e-4。此外,本实施例使用学习速率衰减策略为“poly”,初始学习率设置为4.5e-2,幂次为0.9。训练所采用的学习公式可表示为:
其中,lr为当前学习率,表示初始学习率,iter为迭代次数,max-iter为最大迭代次数。
当使用Cityscapes数据集和CamVid数据集进行训练时,将最大训练周期设置为1000。在训练阶段均采用随机尺度、平均减法和水平翻转等技术。将随机参数设置为0.75、1.0、1.25、1.5、1.75、2.0,将训练图像转换到不同的尺度。对于Cityscapes数据集,由于GPU显存大小的限制,在训练阶段将训练图像随机裁剪为512×1024的分辨率。对于CamVid数据集,使用360×480分辨率进行消融实验。最后,由于Cityscapes数据集存在正负样本不平衡的情况,采用OHEM(难负样本)损失函数进行优化,应用于语义分割的像素交叉熵损失函数,具体数学模型表示如下:
其中,表示/>大小的图像的第/>个像素值,/>表示模型在输入为/>时的预测值。
对于CamVid数据集,采用的是类别加权策略去缓解类别不平衡问题。具体数学模型表示如下:
其中,Wclass代表某个类别的权重,Pclass为类别样本的分布情况。c为超参数,设置为1.10。
(4)实验结果与分析:
1)加入不同的特征提取模块对MLWP-Net网络性能的影响:
表2在Cityscapes数据集上评估不同特征提取结构的实验结果
为了验证本发明实施例提供的基于分离-提取-合并瓶颈结构的逐步特征融合(PFF)模块的有效性,本发明实施例将ResNet的瓶颈模块、ERFNet的Non-bt-1D模块以及本实施例所提MLWP-Net的所述分离-提取-合并瓶颈结构分别作为编码器的主要特征提取模块,并基于Cityscapes验证集分辨率为512×1024的图像进行实验对比,编码器的输出结果仍然采用MLWP-Net的解码器进行解码。
从表2中可以看出,ResNet以最低0.57M(Million,兆)的参数量实现了60.4%的mIoU,但其浮点计算量却较高,分割精度难以满足真实道路场景的应用需要。而Non-bt-1D受限于其非瓶颈结构,相比Bottleneck构成的骨干网而言,其参数量增加了0.42M,但其分割精度却提升到了71.8%的mIoU。而由所述分离-提取-合并瓶颈结构(PFF)构成的MLWP-Net网络相比Bottleneck构成的骨干网仅增加0.17M的参数量便提升了13.1%的mIoU;相比Non-bt-1D构成的骨干网而言,所述分离-提取-合并瓶颈结构不仅拥有更低的参数量和更小的计算复杂度,还实现了近2%的mIoU提高。以上实验表明,由所述分离-提取-合并瓶颈结构(PFF)构成的骨干网络具有轻量化、更低计算复杂度和更强的特征提取能力的优点,更加满足于真实道路场景下的语义分割应用需求。
2)加入离散小波池化操作对网络性能的影响:
表3 在不同网络中加入DWTP操作在Cityscapes验证集的实验结果
为了验证本发明所提的离散小波池化(DWTP)操作在图像下采样过程的有效性,将DWTP分别应用到ERFNet、DABNet、ESNet中替代传统下采样(DownSample)模块,分别记录不同网络在使用DWTP替换原有下采样操作前后网络评价指标的变化情况。
从表3中可以看出,不同网络在使用DWTP操作后,虽然浮点计算量(FLOPs)有轻微的上升,但各个网络的参数量(Params.)均有所下降,并且分割精度(mIoU)均有不同程度的提高。具体地,在使用DWTP操作后,ERFNet、DABNet、ESNet在分割精度上分别增加了4.8%、0.5%、1.3%的mIoU。以上实验结果表明,离散小波池化模块不仅能够抑制传统下采样操作导致的信息丢失问题,并且能够实现分割精度的提高,同时还可以方便地将DWTP嵌入到多种不同结构的卷积神经网络中,证实了该操作的有效性和通用性。
3)加入多分支空洞卷积特征融合解码器对网络性能的影响:
表4在不同网络中加入MDCFF解码器在Cityscapes验证集的实验结果
为了验证所提MDCFF解码器的图像特征恢复能力。本发明实施例将MDCFF解码器分别应用到CGNet、FRNet中替代网络原有解码器,分别记录不同网络使用MDCFF解码器前后在Cityscapes验证集上的分割精度、浮点计算量、参数量三者的变化情况。从表4中可以看出,CGNet和FRNet在使用MDCFF 解码器替代网络原有解码器后,其网络参数量均基本保持不变,而分割精度却有较大提升,分别增加了5.3%和0.7%的mIoU。相比较而言,虽然多分支空洞卷积结构会增加部分计算复杂度,但网络分割精度却有较大提升,证明了MDCFF解码器能够提升不同网络对分割目标的空间信息特征恢复能力,具有轻量化、高准确率的优点。
4)MLWP-Net与现有的最先进分割方法的比较:
表5给出了不同语义分割网络模型在Cityscapes数据集上的19种类别的分割精度(mIoU)百分值。相比其它网络,本发明实施例提供的MLWP-Net对于道路、人行道、墙面、栅栏、交通灯、植被、地面、天空、行人、骑行者、小汽车、公共汽车、火车、摩托车等14种物体类别均达到最高的分割精度,这表明MLWP-Net中利用分离-提取-合并瓶颈结构PPF和多分支空洞卷积特征融合解码器MDCFF能够进一步加强对图像语义信息的提取能力和对图像中细小目标空间细节的恢复能力,MLWP-Net对该数据集内的卡车和自行车等类别的分割效果相对现有最佳模型有微小的下降,但仍然具有可比拟的分割精度。
表5 不同分割模型在Cityscapes数据集上各个类别的预分类效果
表6 在Cityscapes数据集上MLWP-Net与最先进分割方法的性能比较结果
表7 在CamVid数据集上MLWP-Net与最先进分割方法的性能比较结果
表6给出了本实施例MLWP-Net与其它最先进的模型在Cityscapes数据集上的实验结果。MLWP-Net仅以0.74M的参数量实现了约74.1%的mIoU。对比其它高质量的实时语义分割网络如BiseNetV2、LRNNet、DDPNet等,MLWP-Net语义分割网络在没有任何预训练的情况下,获得了相当好的准确率且推理速度满足实时性要求;相比BiseNetV2实现了73.6%的mIoU而言,本发明实施例提出的MLWP-Net参数量减少了近88%。相比参数量仅有0.68M的LRNNet网络,本发明实施例的MLWP-Net仅多出0.06M的参数量便实现了近2%的分割精度提升,且推理速度还高出近14fps;相比分割准确度和推理速度均相近的DDPNet网络,本发明的网络参数量减少了约70%。
此外,表7提供了在CamVid数据集上MLWP-Net模型在较低分辨率图像上的性能评估。相比其它实时分割语义网络,本发明实施例的MLWP-Net仅以0.74M的参数量在分辨率为360×480的低分辨率图像上实现了68.2%的mIoU。进一步体现出本发明实施例提供的网络在精度上和参数量上的优势,同时作为轻量化网络,MLWP-Net的推理速度也远远超过实时性分割网络的要求。
为了更加直观地探究和评价本发明实施例提供的MLWP-Net网络对城市交通道路场景的分割效果,本实施例还选择了具有代表性的语义分割网络CGNet、EDANet、ESNet、SQNet与本发明实施例所提供的MLWP-Net网络系统所输出的语义分割结果进行可视化分割效果对比,如图6所示。MLWP-Net不仅能够正确地将不同类别分割,而且能够精确地定位分割物体的边界并进行分割,相比其它网络更加准确地实现了分割边界的连续性和分割的准确性,进而实现对细小目标和连续较大目标的准确分割,取得了优异的分割效果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.基于多连接编码小波池化的实时图像语义分割方法,其特征在于,包括以下步骤:
S1:对原始图像进行预处理,得到原始输入特征图像,再对原始输入特征图像进行多尺度变换,得到第一输入图像、第二输入图像以及第三输入图像;
S2:对所述原始输入特征图像进行初步特征提取,得到初始特征信息;
S3:将所述初始特征信息与所述第一输入图像进行特征拼接操作,得到浅层特征图;
S4:对所述浅层特征图进行离散小波池化操作,得到浅层小波池化特征图;
S5:对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息,其中M为正整数;
S6:将所述第一混合特征信息与所述第二输入图像进行特征拼接操作,得到中层特征图;
S7:对所述中层特征图进行离散小波池化操作,得到中层小波池化特征图;
S8:对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息,其中Y为正整数;
S9:将所述第二混合特征信息与所述第三输入图像进行特征拼接操作,得到深层特征图;
S10:对所述浅层特征图、所述中层特征图以及所述深层特征图进行融合解码,得到图像语义分割结果;
在步骤S4以及S7中,所述离散小波池化操作具体包括:
在空间域上对输入特征图进行离散小波变换处理,得到低频系数LL、水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH;
将所述低频系数LL分别与水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH叠加后,再通过逆小波变换进行信息重构,分别对应获得重构系数LL1、HL1、LH1、HH1;
对所述重构系数LL1、HL1、LH1、HH1,分别采取3×3卷积运算进行特征学习后再进行混合池化操作,得到新的重构系数LL2、HL2、LH2、HH2:
其中,MixPool表示混合池化操作,f conv3×3表示3×3标准卷积运算,IDWT表示逆小波变换操作;
将所述新的重构系数LL2、HL2、LH2、HH2 进行拼接,然后通过1×1点卷积运算恢复其通道数后,输出特征图;
在步骤S5以及S8中,所述逐步特征融合提取的具体操作包括:
采用1×1卷积对输入特征图进行通道压缩,得到通道数减半的特征图;
采用3×3标准卷积来提取所述通道数减半的特征图的局部特征信息;
将提取到的局部特征信息通过3×3的深度可分离卷积以及带空洞率的深度可分离空洞卷积进行并行特征提取及融合,得到多尺度上下文特征信息;
将所述局部特征信息与所述多尺度上下文特征信息进行通道拼接,然后通过1×1卷积将各个通道的特征信息进行交互并再次将通道数压缩至一半,得到低层聚合特征信息;
利用Sigmoid激活函数计算所述低层聚合特征的通道注意力权重大小,将计算结果与所述局部特征信息进行点乘运算,随后利用1×1卷积进行通道信息交融和恢复通道数,最后将通道恢复后的特征图与所述输入特征图进行逐元素叠加得到高层聚合特征信息。
2.根据权利要求1所述的基于多连接编码小波池化的实时图像语义分割方法,其特征在于,在步骤S5中,对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息的具体方法为:
所述浅层小波池化特征图进行M=3次逐步特征融合提取,并将其中的第一次逐步特征融合提取输出的特征信息通过远程跳跃连接与第三次逐步特征融合提取输出的特征信息进行混合输出,得到第一混合特征信息;
在步骤S8中,对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息的具体方法为:
对所述中层小波池化特征图进行Y=8次逐步特征融合提取,并将其中的第一次逐步特征融合提取输出的特征信息通过远程跳跃连接与第八次逐步特征融合提取输出的特征信息进行混合输出,得到第二混合特征信息。
3.根据权利要求1所述的基于多连接编码小波池化的实时图像语义分割方法,其特征在于,步骤S10具体包括:
将所述浅层特征图、所述中层特征图以及所述深层特征图进行拼接后作为第一待解码特征图;
运用1×1卷积对所述第一待解码特征图进行通道信息交融;
采用多分支扩展的方式,利用四个不同空洞率的深度可分离卷积对所述第一待解码特征图分别进行特征学习,将各个分支学习到的特征信息进行特征拼接后通过一个1×1卷积恢复其通道数,得到多分支扩展融合后的第二待解码特征图;
将所述第一待解码特征图与所述第二待解码特征图进行逐元素叠加,并利用上采样操作将其恢复至所述原始图像的尺寸后,经过逐像素预测得到图像语义分割结果。
4.基于多连接编码小波池化的实时图像语义分割系统,其特征在于,包括依次连接的图像预处理模块、初步特征提取模块、第一特征拼接模块、第一小波池化模块、第一轻量化逐步特征融合模块、第二特征拼接模块、第二小波池化模块、第二轻量化逐步特征融合模块、第三特征拼接模块以及多分支空洞卷积特征融合解码器;其中,所述第一轻量化逐步特征融合模块包括M个分离-提取-合并瓶颈结构;所述第二轻量化逐步特征融合模块包括Y个所述分离-提取-合并瓶颈结构;
所述图像预处理模块用于对原始图像进行预处理,得到原始输入特征图像,再对原始输入特征图像进行多尺度变换,得到第一输入图像、第二输入图像以及第三输入图像;
所述初步特征提取模块用于对所述原始输入特征图像进行初步特征提取,得到初始特征信息;
所述第一特征拼接模块用于将所述初始特征信息与所述第一输入图像进行特征拼接操作,得到浅层特征图;
所述第一小波池化模块用于对所述浅层特征图进行离散小波池化操作,得到浅层小波池化特征图;
所述第一轻量化逐步特征融合模块用于通过M个所述分离-提取-合并瓶颈结构对所述浅层小波池化特征图进行M次逐步特征融合提取,得到第一混合特征信息,其中M为正整数;
所述第二特征拼接模块用于将所述第一混合特征信息与所述第二输入图像进行特征拼接操作,得到中层特征图;
所述第二小波池化模块用于对所述中层特征图进行离散小波池化操作,得到中层小波池化特征图;
所述第二轻量化逐步特征融合模块用于通过Y个所述分离-提取-合并瓶颈结构对所述中层小波池化特征图进行Y次逐步特征融合提取,得到第二混合特征信息,其中Y为正整数;
所述第三特征拼接模块用于将所述第二混合特征信息与所述第三输入图像进行特征拼接操作,得到深层特征图;
所述多分支空洞卷积特征融合解码器用于对所述浅层特征图、所述中层特征图以及所述深层特征图进行融合解码,得到图像语义分割结果;
所述第一小波池化模块或第二小波池化模块中的离散小波池化操作通过离散小波池化模块实现,所述离散小波池化模块包括:
离散小波变换模块,用于在空间域上对输入特征图进行离散小波变换处理,得到低频系数LL、水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH;
小波混合重构模块,用于将所述低频系数LL分别与水平方向的高频系数HL、垂直方向的高频系数LH以及对角方向的高频系数HH叠加后,再通过逆小波变换进行信息重构,分别获得重构系数LL1、HL1、LH1、HH1;
卷积池化重构模块,用于对所述重构系数LL1、HL1、LH1、HH1,分别采取3×3卷积运算进行特征学习后再进行混合池化操作,得到新的重构系数LL2、HL2、LH2、HH2:
其中,MixPool表示混合池化操作,f conv3×3表示3×3标准卷积运算,IDWT表示逆小波变换操作;
拼接输出模块,用于将所述新的重构系数LL2、HL2、LH2、HH2 进行拼接,然后通过1×1点卷积运算恢复其通道数后,输出特征图;
所述第一轻量化逐步特征融合模块或所述第二轻量化逐步特征融合模块中的逐步特征融合提取操作分别采用分离-提取-合并瓶颈结构实现,所述分离-提取-合并瓶颈结构具体包括:
第一点卷积层,用于采用1×1卷积对输入特征图进行通道压缩,得到通道数减半的特征图;
标准卷积层,用于采用3×3标准卷积来提取所述通道数减半的特征图的局部特征信息;
并行的深度可分离卷积层和空洞卷积层,对应用于将提取到的局部特征信息通过3×3的深度可分离卷积以及带空洞率的深度可分离空洞卷积进行并行特征提取;
第一叠加器,用于将所述深度可分离卷积层和所述空洞卷积层的输出特征图进行融合,得到多尺度上下文特征信息;
拼接层,用于将所述局部特征信息与所述多尺度上下文特征信息进行通道拼接;
第二点卷积层,用于通过1×1卷积将各个通道的特征信息进行交互并再次将通道数压缩至一半,得到低层聚合特征信息;
权重分配层,用于利用Sigmoid激活函数计算所述低层聚合特征的通道注意力权重大小,将计算结果与所述局部特征信息进行点乘运算;
第三点卷积层,用于利用1×1卷积所述权重分配层的输出特征图进行通道信息交融和恢复通道数;
第二叠加器,用于将通道恢复后的特征图与所述输入特征图进行逐元素叠加得到高层聚合特征信息。
5.根据权利要求4所述的基于多连接编码小波池化的实时图像语义分割系统,其特征在于,
所述第一轻量化逐步特征融合模块包括M=3个分离-提取-合并瓶颈结构;其中,第一个分离-提取-合并瓶颈结构的输出端与第三个分离-提取-合并瓶颈结构的输出端远程跳跃连接;
所述第二轻量化逐步特征融合模块包括Y=8个分离-提取-合并瓶颈结构;其中,第一个分离-提取-合并瓶颈结构的输出端与第八个分离-提取-合并瓶颈结构的输出端远程跳跃连接。
6.根据权利要求4所述的基于多连接编码小波池化的实时图像语义分割系统,其特征在于,所述多分支空洞卷积特征融合解码器具体包括:
第一解码拼接层,用于将所述浅层特征图、所述中层特征图以及所述深层特征图进行拼接后作为第一待解码特征图;
特征图通道交互层,用于运用1×1卷积对所述第一待解码特征图进行通道信息交融;
并行卷积分支,用于采用多分支扩展的方式,利用四个不同空洞率的深度可分离卷积对所述第一待解码特征图分别进行特征学习;
第二解码拼接层,用于将各个分支学习到的特征信息进行特征拼接后通过一个1×1卷积恢复其通道数,得到多分支扩展融合后的第二待解码特征图;
解码叠加器,用于将所述第一待解码特征图与所述第二待解码特征图进行逐元素叠加;
预测输出层,用于利用上采样操作将所述解码叠加器输出的特征图恢复至所述原始图像的尺寸后,经过逐像素预测得到图像语义分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311427065.XA CN117152445B (zh) | 2023-10-31 | 2023-10-31 | 基于多连接编码小波池化的实时图像语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311427065.XA CN117152445B (zh) | 2023-10-31 | 2023-10-31 | 基于多连接编码小波池化的实时图像语义分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117152445A CN117152445A (zh) | 2023-12-01 |
CN117152445B true CN117152445B (zh) | 2024-01-12 |
Family
ID=88906603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311427065.XA Active CN117152445B (zh) | 2023-10-31 | 2023-10-31 | 基于多连接编码小波池化的实时图像语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152445B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767279A (zh) * | 2021-02-01 | 2021-05-07 | 福州大学 | 一种基于离散小波集成生成对抗网络的水下图像增强方法 |
CN114724019A (zh) * | 2022-03-31 | 2022-07-08 | 湘潭大学 | 一种基于小波变换和可分离卷积语义分割的遥感图像海冰智能监测方法 |
CN114764856A (zh) * | 2021-01-13 | 2022-07-19 | 华为技术有限公司 | 图像语义分割方法和图像语义分割装置 |
WO2023102223A1 (en) * | 2021-12-03 | 2023-06-08 | Innopeak Technology, Inc. | Cross-coupled multi-task learning for depth mapping and semantic segmentation |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
-
2023
- 2023-10-31 CN CN202311427065.XA patent/CN117152445B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114764856A (zh) * | 2021-01-13 | 2022-07-19 | 华为技术有限公司 | 图像语义分割方法和图像语义分割装置 |
CN112767279A (zh) * | 2021-02-01 | 2021-05-07 | 福州大学 | 一种基于离散小波集成生成对抗网络的水下图像增强方法 |
WO2023102223A1 (en) * | 2021-12-03 | 2023-06-08 | Innopeak Technology, Inc. | Cross-coupled multi-task learning for depth mapping and semantic segmentation |
CN114724019A (zh) * | 2022-03-31 | 2022-07-08 | 湘潭大学 | 一种基于小波变换和可分离卷积语义分割的遥感图像海冰智能监测方法 |
Non-Patent Citations (2)
Title |
---|
ELANet: Effective Lightweight Attention-Guided Network for Real-Time Semantic Segmentation;qingming yi et.al;Neural Processing Letters;第55卷;第6425-6442页 * |
基于层次视觉计算和统计模型的SAR图像分割与理解;段一平;中国博士学位论文全文数据库 信息科技辑(第第1期期);第I136-253页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117152445A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN111429347A (zh) | 图像超分辨率重建方法、装置及计算机可读存储介质 | |
CN113345082B (zh) | 一种特征金字塔多视图三维重建方法和系统 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN114463492B (zh) | 一种基于深度学习的自适应通道注意力三维重建方法 | |
CN114187520B (zh) | 一种建筑物提取模型的构建及应用方法 | |
CN116912257B (zh) | 基于深度学习的混凝土路面裂缝识别方法及存储介质 | |
CN114782949B (zh) | 一种边界引导上下文聚合的交通场景语义分割方法 | |
CN116485646A (zh) | 一种基于微注意力的轻量化图像超分辨率重建方法及装置 | |
CN116310305A (zh) | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 | |
CN115660955A (zh) | 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质 | |
Chauhan et al. | Deep learning-based single-image super-resolution: a comprehensive review | |
CN109615576B (zh) | 基于级联回归基学习的单帧图像超分辨重建方法 | |
CN114926337A (zh) | 基于CNN和Transformer混合网络的单幅图像超分辨率重建方法及系统 | |
Li et al. | Image reflection removal using end‐to‐end convolutional neural network | |
CN117152445B (zh) | 基于多连接编码小波池化的实时图像语义分割方法及系统 | |
CN113191947B (zh) | 一种图像超分辨率的方法及系统 | |
CN113239771A (zh) | 一种姿态估计方法、系统及其应用 | |
CN112634289A (zh) | 一种基于非对称空洞卷积的快速可行域分割方法 | |
CN111860668A (zh) | 一种针对原始3d点云处理的深度卷积网络的点云识别方法 | |
CN117095033B (zh) | 一种基于图像与几何信息引导的多模态点云配准方法 | |
Zhang et al. | A lightweight CNN based information fusion for image denoising | |
CN116563538B (zh) | 图像分割方法及系统 | |
CN115631115B (zh) | 基于递归Transformer的动态图像复原方法 | |
Yang et al. | A deep convolutional networks for monocular road segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |