CN115496909A - 一种三分支自适应权重特征融合的语义分割方法 - Google Patents

一种三分支自适应权重特征融合的语义分割方法 Download PDF

Info

Publication number
CN115496909A
CN115496909A CN202211302977.XA CN202211302977A CN115496909A CN 115496909 A CN115496909 A CN 115496909A CN 202211302977 A CN202211302977 A CN 202211302977A CN 115496909 A CN115496909 A CN 115496909A
Authority
CN
China
Prior art keywords
module
output
input
convolution
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211302977.XA
Other languages
English (en)
Inventor
雷晓春
张永雅
赵佳
江泽涛
潘奕伟
张取
唐麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202211302977.XA priority Critical patent/CN115496909A/zh
Publication of CN115496909A publication Critical patent/CN115496909A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种三分支自适应权重特征融合的语义分割方法,其语义分割网络先采用二分支全卷积网络进行特征提取,再采用三分支自适应权重融合对特征图进行融合。二分支特征提取网络对不同类型的图像进行特征提取,右分支可对输入的原始图像进行特征提取,左分支通过深度转换模块把输入原始图像变为深度图像再进行特征提取,不同类型图像可以提供不同感受野实现效果更好的特征提取。三分支自适应权重融合方式把不同图像的空间信息和语义信息按照像素级自适应权重的办法进行融合可以得到较好地定位和分割效果,并且对于物体的边界和对小物体的分割有不错的效果。

Description

一种三分支自适应权重特征融合的语义分割方法
技术领域
本发明涉及计算机图像处理技术领域,具体涉及一种三分支自适应权重特征融合的语义分割方法。
背景技术
在计算机视觉领域中,语义分割一直是该领域研究的热门方向,语义分割的目的是对目标图像进行划分得到具有语义信息的信息板块,同时也可以给分割完成的区域赋予一个标签,最终得到每一个像素都被分割标记的语义分割特征图。在传统的语义分割网络中,随着不断进行卷积池化,图像的分辨率也在不断变小空间位置信息也会被改变,造成部分信息的丢失并且不能得到很好的鲁棒性。
发明内容
本发明所要解决的是现有语义分割网络所存在的可靠性不高的问题,提供一种三分支自适应权重特征融合的语义分割方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种三分支自适应权重特征融合的语义分割方法,包括步骤如下:
步骤1、构建三分支自适应权重特征融合的语义分割网络;
上述三分支自适应权重特征融合的语义分割网络包括深度转换模块、2个卷积模块、8个卷积混合池化模块、8个双通道注意力机制模块、2个空洞卷积金字塔模块、6个上采样模块、1个权重相加模块、2个自适应权重相加模块、以及1个损失函数模块;
深度转换模块的输入和第一卷积模块的输入共同形成三分支自适应权重特征融合的语义分割网络的输入;
第一卷积模块的输出连接第一卷积混合池化模块的输入,第一卷积混合池化模块的输出连接第一双通道注意力机制模块的输入,第一双通道注意力机制模块的输出连接第二卷积混合池化模块的输入,第二卷积混合池化模块的输出连接第二双通道注意力机制模块的输入,第二双通道注意力机制模块的输出连接第三卷积混合池化模块的输入,第三卷积混合池化模块的输出连接第三双通道注意力机制模块的输入,第三双通道注意力机制模块的输出连接第四卷积混合池化模块的输入,第四卷积混合池化模块的输出连接第四双通道注意力机制模块的输入,第四双通道注意力机制模块的输出连接第一空洞卷积金字塔模块的输入;第一空洞卷积金字塔模块的一个输出连接第一上采样模块的输入,第一上采样模块的一个输出连接第二上采样模块的输入,第二上采样模块的输出连接第二自适应权重相加模块的一个输入;
深度转换模块的输出连接第二卷积模块的输入,第二卷积模块的输出连接第五卷积混合池化模块的输入,第五卷积混合池化模块的输出连接第五双通道注意力机制模块的输入,第五双通道注意力机制模块的输出连接第六卷积混合池化模块的输入,第六卷积混合池化模块的输出连接第六双通道注意力机制模块的输入,第六双通道注意力机制模块的输出连接第七卷积混合池化模块的输入,第七卷积混合池化模块的输出连接第七双通道注意力机制模块的输入,第七双通道注意力机制模块的输出连接第八卷积混合池化模块的输入,第八卷积混合池化模块的输出连接第八双通道注意力机制模块的输入,第八双通道注意力机制模块的输出连接第二空洞卷积金字塔模块的输入;第二空洞卷积金字塔模块的一个输出连接第三上采样模块的输入,第三上采样模块的一个输出连接第四上采样模块的输入,第四上采样模块的输出连接第二自适应权重相加模块的另一个输入;
第一空洞卷积金字塔模块的另一个输出和第二空洞卷积金字塔模块的另一个输出分别连接权重相加模块的2个输入,权重相加模块的输出连接第五上采样模块的输入;第一上采样模块的另一个输出、第三上采样模块的另一个输出和第五上采样模块的输出分别连接第一自适应权重相加模块的3个输入;第一自适应权重相加模块的输出连接第六个上采样模块的输入;第六个上采样模块的输出连接第二自适应权重相加模块的又一个输入;第二自适应权重相加模块的输出连接损失函数模块的输入;
损失函数模块的输出形成三分支自适应权重特征融合的语义分割网络的输出;
步骤2、利用已分割好的样本图像集对步骤1所构建的三分支自适应权重特征融合的语义分割网络进行深度学习,得到三分支自适应权重特征融合的语义分割模型;
步骤3、将待分割的图像送入到步骤2所得到的三分支自适应权重特征融合的语义分割模型中进行分割,三分支自适应权重特征融合的语义分割模型输出分割好的图片。
上述方案中,卷积混合池化模块包括混合池化单元、卷积单元、N个迭嶂卷积单元、以及权重相加单元;其中N为大于等于1的正整数;混合池化单元的输入和卷积单元的输入共同形成卷积混合池化模块的输入;混合池化单元的输出连接第一个迭嶂卷积单元的输入,N个迭嶂卷积单元依次串联,第N个迭嶂卷积单元的输出连接权重相加单元的一个输入;卷积单元的输出连接权重相加单元的另一个输入;权重相加单元的输出形成卷积混合池化模块的输出。
上述方案中,混合池化单元包括一维垂直平均池化层、一维水平平均池化层、最大池化层、以及权重相加层;一维垂直平均池化层的一个输入、一维水平平均池化层的一个输入和最大池化层的一个输入共同形成混合池化单元的输入;一维垂直平均池化层的输出、一维水平平均池化层的输出和最大池化层的输出分别连接权重相加层的3个输入;权重相加层的输出形成混合池化单元的输出。
上述方案中,迭嶂卷积单元包括4个卷积层、2个ReLu激活层、1个BN批归一化层、以及2个残差相加层;第一卷积层的输入和第二残差相加层的一个输入形成迭嶂卷积单元的输入;第一卷积层的一个输出连接第二卷积层的输入,第二卷积层的输出连接第一ReLu激活层的输入,第一ReLu激活层的输出连接第三卷积层的输入,第三卷积层的输出连接BN批归一化层的输入,BN批归一化层的输出连接第一残差相加层的一个输入;第一卷积层的另一个输出连接第一残差相加层的另一个输入;第一残差相加层的输出连接第二ReLu激活层的输入,第二ReLu激活层的输出连接第四卷积层的输入,第四卷积层的输出连接第二残差相加层的另一个输入;第二残差相加层的输出形成迭嶂卷积单元的输出。
上述方案中,迭嶂卷积单元的个数N的取值范围介于1~20之间。
上述方案中,双通道注意力机制模块包括注意力机制单元、转置单元、以及权重相加单元;注意力机制单元的输入形成双通道注意力机制模块的输入;注意力机制单元的一个输出连接权重相加单元的一个输入;注意力机制单元的另一个输出连接转置单元的输入,转置单元的输出连接权重相加单元的另一个输入;权重相加单元的输出形成双通道注意力机制模块的输出。
上述方案中,自适应权重相加模块的计算方法为:
PK (i,j)=w1D1K (i,j)+w2D2K (i,j)+w3D3K (i,j)
Figure BDA0003904728440000031
Figure BDA0003904728440000032
Figure BDA0003904728440000033
式中,PK (i,j)为自适应融合特征图即第一自适应权重相加模块或第二自适应权重相加模块输出的特征图在第K通道,第i行,第j列的像素值;w1为右分支特征图即第一上采样模块或第二上采样模块输出的特征图的权重;w2为中间分支特征图即第五上采样模块或第六上采样模块输出的特征图的权重;w3为左分支特征图即第三上采样模块或第四上采样模块输出的特征图的权重;λ和δ均为给定常数;D1K (i,j)为右分支特征图即第一上采样模块或第二上采样模块输出的特征图在第K通道,第i行,第j列的像素值;D2K (i,j)为中间分支特征图即第五上采样模块或第六上采样模块输出的特征图在第K通道,第i行,第j列的像素值;D3K (i,j)为左分支特征图即第三上采样模块或第四上采样模块输出的特征图在第K通道,第i行,第j列的像素值;K=1,2,…,K′,K′为特征图的通道数;i=1,2,…,L,L为特征图的长度;j=1,2,…,H,H为特征图的宽度。
与现有技术相比,本发明具有如下特点:
1、本发明的语义分割网络的编码器采用二分支全卷积网络能够高效的利用上下文信息,其特征提取网络结构先采用卷积混合池化操作进行特征提取,再用空洞卷积方式增加感受野并保持空间分辨率不变,后利用双通道注意力机制模块,增强网络的分类能力;二分支特征提取网络对不同类型的图像进行特征提取,右分支可对输入的原始图像进行特征提取,左分支通过深度转换模块把输入原始图像变为深度图像再进行特征提取,不同类型图像可以提供不同感受野实现效果更好的特征提取。
2、卷积混合池化模块主要分为两个通道对输入特征图进行特征提取,通过使用不同的下采样方式和不同的卷积核大小进行卷积可以有效的提高特征提取网络对于不同大小的局部特征提取效果。相对于传统的池化方式在条形目标和水平、垂直方向的聚合效果不尽人意,鲁棒效果不佳的问题,混合池化方式可以实现对局部特征和长条型特征一个很好地提取,取得较好的鲁棒性。
3、双通道注意力机制模块是基于自注意力机制,关注所有点的特征依赖,引入双通道注意力机制可以得到更加完整特征信息并且在分类及泛化能力都能取得不错效果。
4、卷积混合池化模块的迭嶂卷积单元结构用1*5卷积和5*1卷积来代替常见特征网络中的5*5卷积操作可以有效的减少参数量,提高网络的效率;运用残差处理可以减轻网络的退化实现深层网络的特征提取,提高分割性能。
5、考虑到传统的对高层特征图进行上采样后直接与低层特征图进行融合的方式在空间信息和语义信息的融合效果较低,并且对于细小的类别,由于其轮廓太小,而无法精确的定位轮廓,本发明的语义分割网络的融合方式采用三分支自适应权重进行特征融合对特征图进行融合,其可以有效的利用深度图像把场景中各点的距离(深度)值作为像素值的图像,直接反映景物可见表面的几何形状并且在物体最外层和阴影边界分割上也有不错效果的特点,高效的利用输入图像的空间信息来定位物体;同时原始图像高层特征图具有丰富的语义信息,可以有效提高物体的分类;把不同图像的空间信息和语义信息按照像素级自适应权重的办法进行融合可以得到较好地定位和分割效果,并且对于物体的边界和对小物体的分割有不错的效果。
附图说明
图1为三分支自适应权重特征融合的语义分割网络的示意图;
图2为图1中卷积混合池化模块的示意图;
图3为图2中混合池化单元的示意图;
图4为图2中迭嶂卷积单元的示意图;
图5为图1中双通道注意力机制模块的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
一种三分支自适应权重特征融合的语义分割方法,其包括步骤如下:
步骤1、构建三分支自适应权重特征融合的语义分割网络。
参见图1,三分支自适应权重特征融合的语义分割网络包括深度转换模块、2个卷积模块、8个卷积混合池化模块、8个双通道注意力机制模块、2个空洞卷积金字塔模块、6个上采样模块、1个权重相加模块、2个自适应权重相加模块、以及1个损失函数模块。深度转换模块的输入和第一卷积模块的输入共同形成三分支自适应权重特征融合的语义分割网络的输入。第一卷积模块的输出连接第一卷积混合池化模块的输入,第一卷积混合池化模块的输出连接第一双通道注意力机制模块的输入,第一双通道注意力机制模块的输出连接第二卷积混合池化模块的输入,第二卷积混合池化模块的输出连接第二双通道注意力机制模块的输入,第二双通道注意力机制模块的输出连接第三卷积混合池化模块的输入,第三卷积混合池化模块的输出连接第三双通道注意力机制模块的输入,第三双通道注意力机制模块的输出连接第四卷积混合池化模块的输入,第四卷积混合池化模块的输出连接第四双通道注意力机制模块的输入,第四双通道注意力机制模块的输出连接第一空洞卷积金字塔模块的输入。第一空洞卷积金字塔模块的一个输出连接第一上采样模块的输入,第一上采样模块的一个输出连接第二上采样模块的输入,第二上采样模块的输出连接第二自适应权重相加模块的一个输入。深度转换模块的输出连接第二卷积模块的输入,第二卷积模块的输出连接第五卷积混合池化模块的输出连接第五双通道注意力机制模块的输入,第五双通道注意力机制模块的输出连接第六卷积混合池化模块的输入,第六卷积混合池化模块的输出连接第六双通道注意力机制模块的输入,第六双通道注意力机制模块的输出连接第七卷积混合池化模块的输入,第七卷积混合池化模块的输出连接第七双通道注意力机制模块的输入,第七双通道注意力机制模块的输出连接第八卷积混合池化模块的输入,第八卷积混合池化模块的输出连接第八双通道注意力机制模块的输入,第八双通道注意力机制模块的输出连接第二空洞卷积金字塔模块的输入。第二空洞卷积金字塔模块的一个输出连接第三上采样模块的输入,第三上采样模块的一个输出连接第四上采样模块的输入,第四上采样模块的输出连接第二自适应权重相加模块的另一个输入。第一空洞卷积金字塔模块的另一个输出和第二空洞卷积金字塔模块的另一个输出分别连接权重相加模块的2个输入,权重相加模块的输出连接第五上采样模块的输入;第一上采样模块的另一个输出、第三上采样模块的另一个输出和第五上采样模块的输出分别连接第一自适应权重相加模块的3个输入;第一自适应权重相加模块的输出连接第六个上采样模块的输入;第六个上采样模块的输出连接第二自适应权重相加模块的又一个输入;第二自适应权重相加模块的输出连接损失函数模块的输入。损失函数模块的输出形成三分支自适应权重特征融合的语义分割网络的输出。
本发明所构造的三分支自适应权重特征融合的语义分割网络采用非对称的编码器-解码器结构。编码器采用二分支的特征提取网络结构,能够高效的利用上下文信息,网络深度为n层,特征提取网络可分为6个模块组,前面第1个模块组为卷积模块,中间第2-5个模块组各由1个卷积混合池化模块和1个双通道注意力机制模块组成,后面第6个模块组为空洞卷积金字塔模块。卷积模块对输入图像进行卷积操作。卷积混合池化模块采用卷积池化操作进行特征提取,其中池化方式采用混合池化。双通道注意力机制模块用于增强网络的分类能力。空洞卷积金字塔模块采用空洞卷积的方式增加感受野并保持空间分辨率不变,深度每增加一层图像通道数翻倍。二分支特征提取网络分别对不同类型的图像进行特征提取,即原始图像和深度图像,不同类型的图像可以提供不同感受野实现效果更好的特征提取。特征提取采用二分支全卷积和注意力机制能够高效的利用上下文信息。根据左右二分支全卷积网络深度的不同可以得到粗糙程度不同的特征图,即基于原始图像的特征图Stage1-Stage5和基于深度图像的特征图C1-C5;其中基于原始图像的特征图Stage5和基于原始图像的特征图C5是把基于原始图像的特征图Stage4和基于原始图像的特征图C4分别输入左右层特征提取网络中的一个空洞卷积金字塔模块得到,特征提取网络输出特征图为输入图像大小的1/16。解码器采用三分支自适应权重进行特征融合:左右两个分支对编码器得到的基于原始图像的特征图Stage5和基于深度图像的特征图C5进行2次4倍上采样,第一次4倍上采样得到2个高层特征融合图像,即基于原始图像的高层特征融合图像R1和基于深度图像的高层特征融合图像D1,对基于原始图像的高层特征融合图像R1和基于深度图像的高层特征融合图像D1分别进行4倍上采样得到与输入图像大小相同的特征图,即基于原始图像的特征图R2和基于深度图像的特征图D2;解码器的中间分支进行特征融合时,先对特征提取网络得到的基于原始图像的特征图Stage5和基于深度图像的特征图C5进行权重相加特征融合得到一个过渡的特征图ERD1,对过渡的特征图ERD1进行4倍上采样后与基于原始图像的高层特征融合图像R1和基于深度图像的高层特征融合图像D1自适应权重进行特征融合得到第一局部特征图RD1,对第一局部特征图RD1进行4倍上采样后与基于原始图像的特征图R2和基于深度图像的特征图D2自适应权重进行特征融合得到与输入图像相同大小的融合特征图DRGB。其中上采样运算使用双线性插值法。融合特征图DRGB经过一个Softmax激活函数和加权的交叉熵损失函数模块进行多目标的边缘分割后输出分割图像。
自适应权重相加模块的自适应权重特征融合方式是使融合特征图时向中间分支特征图靠拢。第一种情况:当左右分支的特征图像素值与中间分支像素值差距较大时,将会给中间分支特征图赋予更大的权重。第二种情况:当左右分支的特征图的像素与中间分支特征图像素差距较小时,对中间分支赋予相对第一种情况较小的权重。上述的自适应权重计算方法为:
Figure BDA0003904728440000071
Figure BDA0003904728440000072
Figure BDA0003904728440000073
PK (i,j)=w1D1K (i,j)+w2D2K (i,j)+w3D3K (i,j)
式中,D1K (i,j)为右分支特征图(即第一上采样模块或第二上采样模块输出的特征图)在第K通道,第i行,第j列的像素值;D2K (i,j)为中间分支特征图(即第五上采样模块或第六上采样模块输出的特征图)在第K通道,第i行,第j列的像素值;D3K (i,j)为左分支特征图(即第三上采样模块或第四上采样模块输出的特征图)在第K通道,第i行,第j列的像素值。w1为右分支特征图的权重;w2为中间分支特征图的权重;w3为左分支特征图的权重。PK (i,j)为自适应融合特征图(即第一自适应权重相加模块或第二自适应权重相加模块输出的特征图)在第K通道,第i行,第j列的像素值。λ和δ均为给定常数,在本实施例中λ=0.2,δ=0.4。K=1,2,…,K′,K′为特征图的通道数;i=1,2,…,L,L为特征图的长度(即在长度方向上的像素点数);j=1,2,…,H,H为特征图的宽度(即在宽度方向上的像素点数)。
空洞卷积金字塔模块对特征提权网络第四层输出的特征图X4的外侧进行尺度为1的全0填充,并采用下列运算得到不同空洞率的特征图F1~F4:
F1=BN(fd=1 3*3(X4 1))
F2=BN(fd=2 3*3(X4 1))
F3=BN(fd=4 3*3(X4 1))
F4=BN(fd=8 3*3(X4 1))
F=BN(fd=1 1*1(concat())
式中,X4 1为经过填充后的第四局部特征图;fd 3*3()分别为3*3卷积核,空洞率为d的深度可分离卷积操作;fd 1*1()分别为1*1卷积核,空洞率为d的深度可分离卷积操作;BN()为批量化操作;concat()为把不同空洞率的特征图F1、F2、F3、F4在通道维度上进行拼接操作得到第五局部特征图F。用空洞卷积可以解决传统池化过程中感受野小并且会改变像素空间位置信息等不足。
参见图2,卷积混合池化模块包括混合池化单元、卷积单元、N个迭嶂卷积单元、以及权重相加单元。其中N的取值范围介于1~20之间的正整数。混合池化单元的输入和卷积单元的输入共同形成卷积混合池化模块的输入。混合池化单元的输出连接第一个迭嶂卷积单元的输入,N个迭嶂卷积单元依次串联,第N个迭嶂卷积单元的输出连接权重相加单元的一个输入。卷积单元的输出连接权重相加单元的另一个输入。权重相加单元的输出形成卷积混合池化模块的输出。
卷积混合池化模块主要分为两个通道对输入特征图进行特征提取。第一通道采用步长为2(S=2)的3*3卷积核的卷积单元进行卷积,卷积操作后的特征图与权重W1进行加权处理得到第一局部特征图。第二通道中把特征图输入到混合池化单元中进行池化操作,把池化后的特征图输入到N个迭嶂卷积单元中进行迭嶂卷积操作。把经过N个迭嶂卷积单元处理得到的特征图与权重W2进行加权处理得到第二局部特征图。最后,把第一局部特征图第二局部特征图进行相加,输出降维后的特征图。通过使用不同的下采样方式和不同的卷积核大小进行卷积可以有效的提高特征提取网络对于不同大小的局部特征提取效果。
参见图3,混合池化单元包括一维垂直平均池化层、一维水平平均池化层、最大池化层、以及权重相加层。一维垂直平均池化层的一个输入、一维水平平均池化层的一个输入和最大池化层的一个输入共同形成混合池化单元的输入。一维垂直平均池化层的输出、一维水平平均池化层的输出和最大池化层的输出分别连接权重相加层的3个输入。权重相加层的输出形成混合池化单元的输出。传统的池化方式中对于图像局部像素聚合有比较好的效果,但是在条形目标和水平、垂直方向的聚合效果不尽人意,鲁棒效果不能很好达到目的。为了解决上述池化方式问题本发明采用混合池化的方式。
在混合池化单元中:先采用卷积核为2*2,步长S=2最大池化对输入图像进行池化操作得到最大池化特征图P1,同时用卷积核大小为4,步长S=4的一维平均池化分别在X轴和Y轴对输入图像进行池化操作得到水平池化特征图T1和垂直池化特征图T2。再把特征图P1、T1和T2按照融合算法进行融合,得到混合池化特征图Q。其中融合算法为:
QK (i,j)=wP1K (i,j)+((1-w)/2)T1K (1,m(i-1)+j)+((1-w)/2)T2K (n(i-1)+j,1)
其中QK (i,j)为混合池化特征图在第K通道,第i行,第j列的像素值。P1K (i,j)为最大池化特征图在第K通道,第i行,第j列的像素值;T1K (1,m(i-1)+j)为水平池化特征图在第K通道,第1行,第m(i-1)+j列的像素值;T2K (n(i-1)+j,1)为垂直池化特征图在第K通道,第n(i-1)+j行,第1列的像素值。i=1,2.....m,m为2*2最大池化后特征图的宽;j=1,2....n,n为2*2最大池化后特征图的高;w为设定的最大池化的权重。
参见图4,迭嶂卷积单元包括4个卷积层、2个ReLu激活层、1个BN批归一化层、以及2个残差相加层。第一卷积层的输入和第二残差相加层的一个输入形成迭嶂卷积单元的输入。第一卷积层的一个输出连接第二卷积层的输入,第二卷积层的输出连接第一ReLu激活层的输入,第一ReLu激活层的输出连接第三卷积层的输入,第三卷积层的输出连接BN批归一化层的输入,BN批归一化层的输出连接第一残差相加层的一个输入。第一卷积层的另一个输出连接第一残差相加层的另一个输入。第一残差相加层的输出连接第二ReLu激活层的输入,第二ReLu激活层的输出连接第四卷积层的输入,第四卷积层的输出连接第二残差相加层的另一个输入。第二残差相加层的输出形成迭嶂卷积单元的输出。1*5卷积和5*1卷积来代替常见特征网络网络中的5*5卷积操作可以有效的减少参数量;运用残差处理可以减轻网络的退化实现深层网络的特征提取,提高分割性能。
在迭嶂卷积单元中:先进行一个1*1卷积;再用一个1*5卷积和一个5*1卷积进行串行连接,并在这两个卷积操作中间使用ReLu激活函数,后经过BN层后和输入特征图(由1*1卷积输出)进行残差相加;再用ReLu激活函数进行激活后输出卷积后的特征图;后连接一个1*1卷积;把第二次1*1卷积输出的特征图与输入特征图作为第二个残差相加层的输入,经残差后输出的特征图为迭嶂卷积的输出。
参见图5,双通道注意力机制模块包括注意力机制单元、转置单元、以及权重相加单元。注意力机制单元的输入形成双通道注意力机制模块的输入。注意力机制单元的一个输出连接权重相加单元的一个输入。注意力机制单元的另一个输出连接转置单元的输入,转置单元的输出连接权重相加单元的另一个输入。权重相加单元的输出形成双通道注意力机制模块的输出。双通道注意力机制模块是基于自注意力机制,关注所有点的特征依赖。双通道注意力机制模块采用LCIA算法获取所述粗糙融合特征图中的全局注意力信息,得到一个注意力矩阵;第一通道直接输入该注意力矩阵;第二通道对该矩阵进行转置操作;对第一、第二通道输出的结果进行不等比例相加最后输出一个注意力图。双通道注意力机制模块基于自注意力机制,关注所有点的特征依赖,引入双通道注意力机制可以得到更加完整特征信息并且在分类及泛化能力都能取得不错效果。
步骤2、利用已分割好的样本图像集对步骤1所构建的三分支自适应权重特征融合的语义分割网络进行深度学习,得到三分支自适应权重特征融合的语义分割模型。
步骤3、将待分割的图像送入到步骤2所得到的三分支自适应权重特征融合的语义分割模型中进行分割,三分支自适应权重特征融合的语义分割模型输出分割好的图片。
输入3*224*224大小的原始图像,并对原始图像进行深度转换后得到3*224*224大小的深度图像。分别将原始图像和深度图像送入到特征网络的左右两个分支E1和E2中,经过一个1*1卷积操作图像变为64*224*224大小;再把64*224*224大小的特征图输入到特征提取网络中。在第一层卷积混合池化模块网络中特征图的通道数加倍大小减半得到高层特征网络Stage1和C1,之后经过第一层双通道注意力机制模块对图像进行泛化。依次进行4层上述相同操作的特征提取网络得到512*14*14大小的低层特征图Stage4和C4,特征图Stage4和C4与输入的图像相比大小缩小为1/16通道数为512。当然在进行复杂度不一定的图像时,我们可以适当的增减特征提取的网络,比如图像复杂度低我们可以进行3层的特征提取网络可以有效的减少参数使得模型更高效;当输入图片复杂度高时可以适当增加特征提取网络深度,使图像特征提取更高效信息更全面。为了增加感受野并保持空间分辨率不变用空洞卷积金字塔模块对Stage4和C4进行处理得到图像的大小为512*14*14的Stage5和C5。
解码器分为三分支结构,左右分支操作相同分别对Stage5和C5进行二次4倍上采样得到与输入图像大小相同的特征融合图像。具体过程如下:左右两个分支对编码器得到的Stage5和C5进行2次4倍上采样,第一次4倍上采样得到两个大小为128*56*56的高层特征融合图像R1和D1,对R1和D1分别进行4倍上采样得到与输入图像大小相同的特征图R2和D2。中间分支先对特征提取网络得到的Stage5和C5经过Context操作得到一个过渡的大小为512*14*14特征图ERD1,对ERD1进行4倍上采样后与R1、D1自适应权重进行特征融合得到大小为128*56*56第一局部特征图RD1,对RD1进行4倍上采样后与R2、D2自适应权重进行特征融合得到与输入图像相同大小的融合特征图DRGB。
特征图DRGB经过Softmax函数激活和用加权的交叉熵损失函数进行多目标的边缘分割,最后输出大小为2*224*224的语义分割图。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (7)

1.一种三分支自适应权重特征融合的语义分割方法,其特征是,包括步骤如下:
步骤1、构建三分支自适应权重特征融合的语义分割网络;
上述三分支自适应权重特征融合的语义分割网络包括深度转换模块、2个卷积模块、8个卷积混合池化模块、8个双通道注意力机制模块、2个空洞卷积金字塔模块、6个上采样模块、1个权重相加模块、2个自适应权重相加模块、以及1个损失函数模块;
深度转换模块的输入和第一卷积模块的输入共同形成三分支自适应权重特征融合的语义分割网络的输入;
第一卷积模块的输出连接第一卷积混合池化模块的输入,第一卷积混合池化模块的输出连接第一双通道注意力机制模块的输入,第一双通道注意力机制模块的输出连接第二卷积混合池化模块的输入,第二卷积混合池化模块的输出连接第二双通道注意力机制模块的输入,第二双通道注意力机制模块的输出连接第三卷积混合池化模块的输入,第三卷积混合池化模块的输出连接第三双通道注意力机制模块的输入,第三双通道注意力机制模块的输出连接第四卷积混合池化模块的输入,第四卷积混合池化模块的输出连接第四双通道注意力机制模块的输入,第四双通道注意力机制模块的输出连接第一空洞卷积金字塔模块的输入;第一空洞卷积金字塔模块的一个输出连接第一上采样模块的输入,第一上采样模块的一个输出连接第二上采样模块的输入,第二上采样模块的输出连接第二自适应权重相加模块的一个输入;
深度转换模块的输出连接第二卷积模块的输入,第二卷积模块的输出连接第五卷积混合池化模块的输入,第五卷积混合池化模块的输出连接第五双通道注意力机制模块的输入,第五双通道注意力机制模块的输出连接第六卷积混合池化模块的输入,第六卷积混合池化模块的输出连接第六双通道注意力机制模块的输入,第六双通道注意力机制模块的输出连接第七卷积混合池化模块的输入,第七卷积混合池化模块的输出连接第七双通道注意力机制模块的输入,第七双通道注意力机制模块的输出连接第八卷积混合池化模块的输入,第八卷积混合池化模块的输出连接第八双通道注意力机制模块的输入,第八双通道注意力机制模块的输出连接第二空洞卷积金字塔模块的输入;第二空洞卷积金字塔模块的一个输出连接第三上采样模块的输入,第三上采样模块的一个输出连接第四上采样模块的输入,第四上采样模块的输出连接第二自适应权重相加模块的另一个输入;
第一空洞卷积金字塔模块的另一个输出和第二空洞卷积金字塔模块的另一个输出分别连接权重相加模块的2个输入,权重相加模块的输出连接第五上采样模块的输入;第一上采样模块的另一个输出、第三上采样模块的另一个输出和第五上采样模块的输出分别连接第一自适应权重相加模块的3个输入;第一自适应权重相加模块的输出连接第六个上采样模块的输入;第六个上采样模块的输出连接第二自适应权重相加模块的又一个输入;第二自适应权重相加模块的输出连接损失函数模块的输入;
损失函数模块的输出形成三分支自适应权重特征融合的语义分割网络的输出;
步骤2、利用已分割好的样本图像集对步骤1所构建的三分支自适应权重特征融合的语义分割网络进行深度学习,得到三分支自适应权重特征融合的语义分割模型;
步骤3、将待分割的图像送入到步骤2所得到的三分支自适应权重特征融合的语义分割模型中进行分割,三分支自适应权重特征融合的语义分割模型输出分割好的图片。
2.根据权利要求1所述的一种三分支自适应权重特征融合的语义分割方法,其特征是,卷积混合池化模块包括混合池化单元、卷积单元、N个迭嶂卷积单元、以及权重相加单元;其中N为大于等于1的正整数;
混合池化单元的输入和卷积单元的输入共同形成卷积混合池化模块的输入;混合池化单元的输出连接第一个迭嶂卷积单元的输入,N个迭嶂卷积单元依次串联,第N个迭嶂卷积单元的输出连接权重相加单元的一个输入;卷积单元的输出连接权重相加单元的另一个输入;权重相加单元的输出形成卷积混合池化模块的输出。
3.根据权利要求2所述的一种三分支自适应权重特征融合的语义分割方法,其特征是,混合池化单元包括一维垂直平均池化层、一维水平平均池化层、最大池化层、以及权重相加层;
一维垂直平均池化层的一个输入、一维水平平均池化层的一个输入和最大池化层的一个输入共同形成混合池化单元的输入;一维垂直平均池化层的输出、一维水平平均池化层的输出和最大池化层的输出分别连接权重相加层的3个输入;权重相加层的输出形成混合池化单元的输出。
4.根据权利要求2所述的一种三分支自适应权重特征融合的语义分割方法,其特征是,迭嶂卷积单元包括4个卷积层、2个ReLu激活层、1个BN批归一化层、以及2个残差相加层;
第一卷积层的输入和第二残差相加层的一个输入形成迭嶂卷积单元的输入;第一卷积层的一个输出连接第二卷积层的输入,第二卷积层的输出连接第一ReLu激活层的输入,第一ReLu激活层的输出连接第三卷积层的输入,第三卷积层的输出连接BN批归一化层的输入,BN批归一化层的输出连接第一残差相加层的一个输入;第一卷积层的另一个输出连接第一残差相加层的另一个输入;第一残差相加层的输出连接第二ReLu激活层的输入,第二ReLu激活层的输出连接第四卷积层的输入,第四卷积层的输出连接第二残差相加层的另一个输入;第二残差相加层的输出形成迭嶂卷积单元的输出。
5.根据权利要求2所述的一种三分支自适应权重特征融合的语义分割方法,其特征是,迭嶂卷积单元的个数N的取值范围介于1~20之间。
6.根据权利要求2所述的一种三分支自适应权重特征融合的语义分割方法,其特征是,双通道注意力机制模块包括注意力机制单元、转置单元、以及权重相加单元;
注意力机制单元的输入形成双通道注意力机制模块的输入;注意力机制单元的一个输出连接权重相加单元的一个输入;注意力机制单元的另一个输出连接转置单元的输入,转置单元的输出连接权重相加单元的另一个输入;权重相加单元的输出形成双通道注意力机制模块的输出。
7.根据权利要求2所述的一种三分支自适应权重特征融合的语义分割方法,其特征是,自适应权重相加模块的计算方法为:
PK (i,j)=w1D1K (i,j)+w2D2K (i,j)+w3D3K (i,j)
Figure FDA0003904728430000031
Figure FDA0003904728430000032
Figure FDA0003904728430000033
式中,PK (i,j)为自适应融合特征图即第一自适应权重相加模块或第二自适应权重相加模块输出的特征图在第K通道,第i行,第j列的像素值;w1为右分支特征图即第一上采样模块或第二上采样模块输出的特征图的权重;w2为中间分支特征图即第五上采样模块或第六上采样模块输出的特征图的权重;w3为左分支特征图即第三上采样模块或第四上采样模块输出的特征图的权重;λ和δ均为给定常数;D1K (i,j)为右分支特征图即第一上采样模块或第二上采样模块输出的特征图在第K通道,第i行,第j列的像素值;D2K (i,j)为中间分支特征图即第五上采样模块或第六上采样模块输出的特征图在第K通道,第i行,第j列的像素值;D3K (i,j)为左分支特征图即第三上采样模块或第四上采样模块输出的特征图在第K通道,第i行,第j列的像素值;K=1,2,…,K′,K′为特征图的通道数;i=1,2,…,L,L为特征图的长度;j=1,2,…,H,H为特征图的宽度。
CN202211302977.XA 2022-10-24 2022-10-24 一种三分支自适应权重特征融合的语义分割方法 Pending CN115496909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211302977.XA CN115496909A (zh) 2022-10-24 2022-10-24 一种三分支自适应权重特征融合的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211302977.XA CN115496909A (zh) 2022-10-24 2022-10-24 一种三分支自适应权重特征融合的语义分割方法

Publications (1)

Publication Number Publication Date
CN115496909A true CN115496909A (zh) 2022-12-20

Family

ID=84475237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211302977.XA Pending CN115496909A (zh) 2022-10-24 2022-10-24 一种三分支自适应权重特征融合的语义分割方法

Country Status (1)

Country Link
CN (1) CN115496909A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN117456191A (zh) * 2023-12-15 2024-01-26 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法
CN117649579A (zh) * 2023-11-20 2024-03-05 南京工业大学 基于注意力机制的多模态融合地面污迹识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363134A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN116363134B (zh) * 2023-06-01 2023-09-05 深圳海清智元科技股份有限公司 煤与矸石的识别与分割方法、装置及电子设备
CN117649579A (zh) * 2023-11-20 2024-03-05 南京工业大学 基于注意力机制的多模态融合地面污迹识别方法及系统
CN117456191A (zh) * 2023-12-15 2024-01-26 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法
CN117456191B (zh) * 2023-12-15 2024-03-08 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法

Similar Documents

Publication Publication Date Title
CN115496909A (zh) 一种三分支自适应权重特征融合的语义分割方法
CN115797931B (zh) 一种基于双分支特征融合的遥感图像语义分割方法及设备
CN109241972B (zh) 基于深度学习的图像语义分割方法
CN111028146A (zh) 基于双判别器的生成对抗网络的图像超分辨率方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN115457498A (zh) 一种基于双注意力和密集连接的城市道路语义分割方法
CN111209972A (zh) 基于混合连通性深度卷积神经网络的图像分类方法及系统
CN115082928B (zh) 面向复杂场景的不对称双分支实时语义分割网络的方法
CN113362242B (zh) 基于多特征融合网络的图像修复方法
CN116523740B (zh) 一种基于光场的红外图像超分辨率方法
CN112365403A (zh) 一种基于深度学习和相邻帧的视频超分辨率恢复方法
CN114372918B (zh) 基于像素级注意力机制的超分辨率图像重构方法及系统
CN117058160B (zh) 基于自适应特征融合网络的三维医学图像分割方法及系统
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN115601236A (zh) 一种基于特征信息蒸馏网络的遥感图像超分辨重建方法
GB2618876A (en) Lightweight and efficient object segmentation and counting method based on generative adversarial network (GAN)
CN114638842B (zh) 一种基于mlp的医学图像分割方法
CN117651138A (zh) 基于边界感知分割网络的图像压缩方法及系统
CN117095277A (zh) 一种边缘引导的多注意力rgbd水下显著目标检测方法
CN117173024A (zh) 一种基于整体注意力的矿井图像超分辨率重建系统及方法
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
CN118134779A (zh) 一种基于多尺度重构Transformer与多维注意力的红外和可见光图像融合方法
CN110472732B (zh) 基于优化特征提取装置的图像特征提取系统
CN117036699A (zh) 一种基于Transformer神经网络的点云分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination