CN112163449B - 一种轻量化的多分支特征跨层融合图像语义分割方法 - Google Patents

一种轻量化的多分支特征跨层融合图像语义分割方法 Download PDF

Info

Publication number
CN112163449B
CN112163449B CN202010846948.4A CN202010846948A CN112163449B CN 112163449 B CN112163449 B CN 112163449B CN 202010846948 A CN202010846948 A CN 202010846948A CN 112163449 B CN112163449 B CN 112163449B
Authority
CN
China
Prior art keywords
resolution
branch
feature
layer
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010846948.4A
Other languages
English (en)
Other versions
CN112163449A (zh
Inventor
刘成菊
袁家遥
陈启军
郭翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010846948.4A priority Critical patent/CN112163449B/zh
Publication of CN112163449A publication Critical patent/CN112163449A/zh
Application granted granted Critical
Publication of CN112163449B publication Critical patent/CN112163449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种轻量化的多分支特征跨层融合图像语义分割方法,包括以下步骤:1)获取原始图像,输入卷积下采样网络,得到不同分辨率的图像,保留物体的空间位置信息,同时减少图像中信息冗余;2)将不同分辨率的图像分别输入语义特征提取支路和跨层连接支路,分别得到深层特征和浅层特征;3)对深层特征和浅层特征分别进行重要性区分后,进行特征跨层融合;4)将融合后的特征图进行分类重组并上采样后,输出语义分割结果。与现有技术相比,本发明具有计算效率高且精度高等优点。

Description

一种轻量化的多分支特征跨层融合图像语义分割方法
技术领域
本发明涉及机器视觉领域,尤其是涉及一种轻量化的多分支特征跨层融合图像语义分割方法。
背景技术
计算机视觉领域的三大任务,包括图像分类、目标检测和语义分割。其中,语义分割是对图像的像素级描述,它赋予每个像素以类别的意义,最接近人类视觉系统对图像的感知过程,适用于理解要求较高的场景,如无人驾驶中对行人、车辆、道路等的分割。实时图像语义分割,其以极高的分割速度处理图像或视频数据,并分析各图像(帧)之间的时空关系,是一种以高分割速率运行的语义分割机制,因此常被应用于移动平台的视频跟踪和多目标定位等任务,在自动驾驶、增强现实、虚拟现实、机器人视觉理解等领域,有着广阔的应用前景。
现有图像语义分割技术主要有以下几种:
第一类是基于全卷积神经网络的方法:该方法用卷积层代替分类网络的全连接层,采用跨层连接,既同时兼顾全局语义信息和局部位置信息,又能从抽象特征中恢复出像素所属的类别,成功地将原本用于图像分类的网络转变为用于图像分割的网络,奠定了图像语义分割后续发展的基础。但该方法存在两个问题:一是图像经过池化操作后,特征图的分辨率不断降低,部分像素的空间位置信息丢失;二是分割过程未能有效地考虑图像上下文语义信息,无法充分利用丰富的空间位置信息,导致局部特征和全局特征的利用率失衡。
第二类是使用编码器-解码器(Encoder-Decoder)结构:该类方法是一种利用对称网络结构进行图像语义解析的机制,其本质是利用神经网络中的卷积、池化等操作所构成的编码器来编码被捕获的像素位置信息和图像特征,再利用反卷积(Deconvolution)或上池化(Unpooling)等操作所构成的解码器来对其进行解析,还原图像的空间维度和像素的位置信息。该方法分割准确率较高,但是计算量较大,因此只适用于离线语义分割,无法部署于嵌入式移动平台。
第三类是基于双分支结构的方法:为了解决编码器-解码器结构的计算量过高问题,双分支结构网络被提了出来。ICNet与ContextNet等模型利用一条较深分支从降低的分辨率输入图像中学习全局上下文信息,而边界信息则通过一个较浅分支在全分辨率输入图像上学习得到。该方法相较于传统方法计算量大幅降低,但是也存在两个问题:一是两条不同大小分辨率输入支路之间完全独立,未考虑浅层特征与深层特征之间的联系,导致分割图像准确率不高;二是两条支路特征融合后分辨率较低,未与更高分辨率浅层特征融合直接上采样,导致分割边界不连续。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种分割准确率高且计算量小的轻量化的多分支特征跨层融合图像语义分割方法,。
本发明的目的可以通过以下技术方案来实现:
一种轻量化的多分支特征跨层融合图像语义分割方法,包括以下步骤:
1)获取原始图像,输入卷积下采样网络,得到不同分辨率的图像,保留物体的空间位置信息,同时减少图像中信息冗余;
2)将不同分辨率的图像分别输入语义特征提取支路和跨层连接支路,分别得到深层特征和浅层特征;
3)对深层特征和浅层特征分别进行重要性区分后,进行特征跨层融合;
4)将融合后的特征图进行分类重组并上采样后,输出语义分割结果。
在训练时,还需要对训练样本集进行语义标注、数据增强操作和样本类别均衡处理等操作,数据增强处理方法包括0.5到2倍之间随机调整大小,随机平移、剪裁、水平翻转,引入颜色通道噪声和亮度调整等。
进一步地,所述的卷积下采样网络包括三层,其中第一层为标准卷积,第二层和第三层均为深度可分离卷积,所述的第二层深度可分离卷积输出第一分辨率图像,所述的第三层深度可分离卷积输出第二分辨率图像,所述的第二分辨率图像分别输入语义特征提取支路和跨层连接支路,所述的第一分辨率图像输入跨层连接支路。
进一步优选地,所述的标准卷积和深度可分离卷积的核尺寸均为3×3,步长均为2,因此卷积下采样网络的输出特征图被下采样为原始图像的1/8,且在每一次卷积之后,都经过批正则化和ReLU激活函数;
进一步地,所述的语义特征提取支路用于提取语义特征包括三组线性瓶颈残差块和金字塔池化层,其数据处理步骤具体包括:
201)所述的三组线性瓶颈残差块对第二分辨率图像进行下采样,并从中提取深层特征;
202)所述的金字塔池化层利用不同尺寸池化核得到大小不同的特征层,并学习不同尺度特征;
203)经过对应的上采样倍数,输出第三分辨率大小的深层特征。
进一步优选地,所述的线性瓶颈残差块的最后一个点卷积没有使用ReLU非线性函数,为线性点卷积,所述的三组线性瓶颈残差块的膨胀系数均为6,每组线性瓶颈残差块膨胀后通道数分别为384、576和768,其中前两组的步长均为2,最后一组的步长为1,因此分别将学习下采样模块的1/8图片卷积下采样到1/16和1/32大小,该支路分辨率较低,最小为原始图像1/32大小,可以加快卷积运算速度;
所述的金字塔池化层得到大小不同的特征层分别为1×1大小、2×2大小、3×3大小和6×6大小,特征图大小可进行调整;
进一步地,所述的重要性区分通过SE模块实现,对两支路的特征图进行重标定,为每个特征图分配一个可学习的重要性权值,从而区分出有缺陷的特征图,具体包括:
301)进行全局平均池化,得到具有全局感受野的特征图;
302)使用全连接神经网络对步骤301)输出的结果做非线性变换;
303)使用步骤302)输出的结果作为权重,分别乘到深层特征和浅层特征的每个通道上。
进一步地,所述的跨层连接支路用于恢复物体空间位置,包括第一分辨率支路、第二分辨率支路和第三分辨率支路,所述的第一分辨率图像输入第一分辨率支路,所述的第二分辨率图像分别输入第二分辨率支路和第三分辨率支路,所述的第一分辨率支路、第二分辨率支路和第三分辨率支路分别输出第一分辨率大小的浅层特征、第二分辨率大小的浅层特征和第三分辨率大小的浅层特征。
进一步地,所述的特征跨层融合的融合方式为:将深层特征和浅层特征相加,以确保效率,且需要保持两条支路的特征图通道数一致。
更进一步地,所述的特征跨层融合具体包括:
311)将第三分辨率大小的深层特征与第三分辨率大小的浅层特征相加融合,得到第一融合特征;
312)将第一融合特征通过上采样得到第二分辨率大小的第一融合特征;
313)将第二分辨率大小的第一融合特征与第二分辨率大小的浅层特征相加融合,得到第二融合特征;
314)将第二融合特征通过上采样得到第一分辨率大小的第二融合特征;
315)将第一分辨率大小的第二融合特征与第一分辨率大小的浅层特征相加融合,得到第三融合特征。
进一步地,所述的步骤4)具体包括:
41)利用分类器将第三融合特征进行分类重组,得到分类重组特征图;
42)对分类重组特征图进行两次卷积上采样后恢复至原始图像大小;
43)输出语义分割结果。
进一步地,所述的上采样采用双线性插值方法,高效地对特征图像进行扩张,使得最终输出图像与输入图像分辨率保持一致。
进一步地,所述的第一分辨率为1/4分辨率,所述的第二分辨率为1/8分辨率,所述的第三分辨率为1/16分辨率。
与现有技术相比,本发明具有以下优点:
1)本发明结合了双分支网络结构和特征跨层连接思想,传统双分支网络利用一条较深分支从降低的分辨率输入图像中学习全局语义信息,而边界信息则通过一个较浅分支在全分辨率输入图像上学习得到,而本发明将两条支路初始卷积下采样层的计算共享,相比传统双分支网络减少了一条输入支路,降低了特征提取的计算复杂度,进一步提升了双分支网络的实时性;
2)本发明通过将深层语义特征与浅层空间位置特征跨层连接融合,减少了网络对物体轮廓边界信息的丢失,避免了网络对小型目标的未分割,同时提升了分割大目标的边界精度,并且通过引入SE模块使得网络具有区分缺陷特征图的能力,进一提升了语义分割的精度;
3)本发明使用了深度可分离卷积和双线性插值上采样,保证了语义分割的高效性,又通过跨层直连方法融合浅层特征保证了分割的准确性,在速度和精度之间取得了较好平衡,是一种可部署于移动嵌入式平台的实时语义分割方法。
附图说明
图1为本发明语义分割网络结构图;
图2为实施例中的语义标注结果,其中,图(2a)为原始图像,图(2b)原始图像的语义标注结果;
图3为线性瓶颈残差块的结构示意图;
图4为金字塔池化层的结构示意图;
图5为SE模块的特征重标定处理流程示意图;
图6为分类器模块的输出结果示意图;
图7为双线性插值法上采样输出流程,其中,图(7a)为原始图像,图(7b)为低分辨率图像,图(7c)为上采样输出后的图像;
图8是实施例中足球机器人视野实时语义分割效果示意图,其中图(8a)-图(8f)分别为不同场景下原始图像,图(8A)-图(8F)分别为对应不同场景下的语义分割结果图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本发明提供一种适用于移动端的轻量化的多分支特征跨层融合图像语义分割方法,其与双分支网络相比,通过共享卷积下采样进一步减少了计算量,通过跨层连接提高了分割准确率,可应用于嵌入式移动平台实现实时图像语义分割,具体包括以下步骤:
S1、获取训练图像进行语义标注,对原始图像进行缩放、剪裁、翻转等数据增强操作,并借助Focal-Loss进行样本类别均衡处理;
其中,数据增强操作包括0.5到2倍之间随机调整大小,随机平移、剪裁、水平翻转,引入颜色通道噪声和亮度调整等。
S2、搭建语义分割网络,通过3次可学习卷积下采样将图像分辨率下降到1/8大小,保留物体的空间位置信息,同时减少图像中信息冗余;
其中,可学习卷积下采样模块有三层,后两层是更高效的深度可分离卷积,三个核尺寸均为3×3,步长均为2,因此该模块的输出特征图被下采样为原始图像的1/8,且在每一次卷积之后,都经过批正则化和ReLU激活函数;
学习下采样后有一条较深支路用于提取语义特征,其他跨层连接支路用于恢复物体空间位置,其中用于提取语义特征的支路分辨率较低,最小为原始图像1/32大小,可以加快卷积运算速度;
S3、网络的上支路利用3组线性瓶颈残差块,对卷积下采样的1/16图像进行深层语义特征提取,利用金字塔池化模块提取不同尺寸的目标特征;
具体为:语义特征提取支路采用3组线性瓶颈残差块,从低分辨率特征图中高效地提取深层特征,且引入一个金字塔池化模块,利用不同尺寸池化核聚合不同大小的目标特征;金字塔池化核得到的一系列从小到大特征图为1×1、2×2、3×3和6×6大小,特征图大小可进行调整;瓶颈残差块的最后一个点卷积没有使用ReLU非线性函数,且3组瓶颈块的通道膨胀系数均为6,每组瓶颈块膨胀后通道数分别为384、576和768,前两组的第一个瓶颈块的卷积步长均为2,因此分别将学习下采样模块的1/8图片卷积下采样到1/16和1/32大小。
S4、将上支路提取的深层语义特征上采样,分别与1/16、1/8、1/4大小的浅层空间位置特征跨层相加融合,并利用SE模块对融合特征进行重要性区分;
其中,特征跨层融合模块引入两个Squeeze-and-Excitation模块对两支路的特征图进行重标定,为每个特征图分配一个可学习的重要性权值,从而区分出有缺陷的特征图;特征跨层融合模块的融合方式为直接将两支路特征图相加,以确保效率,且需要保持两条支路的特征图通道数一致;
S5、利用分类器模块将融合后的特征图进行分类重组,通过双线性插值将分类重组特征图上采样恢复到原始分辨率,最后输出语义分割结果;
网络中的上采样模块均为双线性插值方法,高效地对特征图像进行扩张,使得最终输出图像与输入图像分辨率保持一致。
图1中各模块的名称和作用解释如下表:
Figure BDA0002643367010000061
Figure BDA0002643367010000071
下面给出本发明方法的具体实施过程:
步骤S1:
采集足球机器人视野图像600余张进行语义标注、数据增强和样本类别均衡处理:语义标签包括草地、足球、球门、边线、罚球点、裁判、机器人和黑色背景等,标签定义如表2所示,标注结果如图2所示;
表2语义标签定义与对应可视化颜色
Figure BDA0002643367010000072
数据增强包括0.5到2倍之间随机调整大小,随机平移、剪裁、水平翻转,引入颜色通道噪声和亮度调整等;样本类别均衡处理通过增大样本中的小目标如足球的损失权重,增强网络对小样本的学习能力。
步骤S2:
按照表1所示的语义分割网络各层布局搭建语义分割网络。如表1中所示,三次学习卷积下采样的通道数分别为32、48、64,卷积核尺寸为3×3,步长为2,特征图大小分别为640×480、320×240和160×120,其中后两次为深度可分离卷积,它将传统卷积拆分为一次深度分组卷积和一次点卷积,计算量约为传统卷积的1/9;卷积下采样输出特征图既可以用于提取深层语义信息,又包含了物体的浅层轮廓边界信息。
表1语义分割网络各层布局
Figure BDA0002643367010000073
Figure BDA0002643367010000081
步骤S3:
如图3和表1所示,线性瓶颈残差块先通过1×1点卷积将通道数膨胀t倍,然后经过步长为s的分组卷积将特征图压缩到1/s大小,最后经过一次线性的点卷积将通道数压缩到与输入通道数相等。三组瓶颈块的膨胀系数t均为6,前两组步长s为2,最后一组步长为1,输入特征图大小分别为80×60、40×30和20×15,通道数分别为64、96、128,每组瓶颈块膨胀后通道数分别为384、576和768。金字塔池化模块如图4所示,主要操作是对同一特征层采用不同的池化核得到一系列从小到大特征层(本发明为1×1、2×2、3×3和6×6),来学习不同尺度特征。而后再经过不同的上采样倍数,使经过池化后的特征层的大小相同,再与原始输入特征进行拼接(Catenate),进而在单分支也能获得不同尺度的特征信息,聚合基于不同区域、不同尺寸感受野的上下文语义信息。
步骤S4:
首先将1/16大小深层特征与1/16大小浅层特征相加融合,融合前经过SE模块对特征图进行重要性区分,SE模块如图5所示,其步骤主要分为3步:
(1)Squeeze:对H×W×C进行全局平均池化,得到1×1×C大小的具有全局感受野的特征图;
(2)Excitation:使用一个全连接神经网络,对Squeeze之后的结果做一个非线性变换,大小仍为1×1×C;
(3)特征重标定:使用Excitation得到的结果作为权重,分别乘到输入特征的每个通道上。这样使得融合时具有区分缺陷通道的能力。第一次融合后利用双线性插值方法上采样2倍,得到1/8大小融合特征,再与卷积下采样模块的1/8浅层特征相加融合,进一步利用轮廓边界信息。同样地,对融合后的1/8特征上采样2倍得到1/4特征,之后与卷积下采样过程中的1/4浅层特征跨层融合,得到最终的包含深层语义特征与浅层位置特征的1/4特征图,分辨率为160×120,通道数为128。
步骤S5:
对1/4特征图进行两次卷积之后上采样4倍到原始图像大小,第一次为分组卷积不改变特征图大小和通道数,第二次为普通卷积,将128通道数压缩到8通道,得到160×120×8张量,其中第n层160×120的张量表示输入图片的对应像素点属于第n类语义标签的概率。如图6所示第4层的输出张量,表示该位置像素点被分类为语义标签值“4”——对应“机器人”(Robot)的概率。最后,每个像素点的分类取其最大概率的语义标签值,由此将160×120×8的张量压缩为160×120×1的二维张量,并经过双线性插值(Bilinear Interpolation)上采样4倍后输出640×480×1的语义分割图片,双线性插值过程如图7所示。
本发明提供的实时图像语义分割方法,与现有技术中的方法相比,最大的创新点有三点:一是提出了一种结合双分支结构和特征跨层融合的框架,将网络中两条输入支路的初始卷积下采样层进行共享,相比传统双分支网络减少了一条输入支路,降低了特征提取的计算复杂度,进一步提升了双分支网络的实时性;二是将深层语义特征与浅层空间位置特征跨层融合,减少了双分支网络对物体轮廓边界信息的丢失,避免了网络对小型目标的未分割,同时提升了分割大目标的边界精度;三是特征融合前引入SE模块使得网络具有区分缺陷特征图的能力,进一提升了语义分割的精度。
这三点创新进一步提升了语义分割网络的实时性,又通过跨层融合浅层特征保证了分割的准确性,在速度和精度之间取得了较好平衡,是一种可部署于移动嵌入式平台的实时图像语义分割方法。部分实时语义分割的结果如图8所示。最终本实施例网络的参数量为1.169M,浮点运算次数为975.8MFLPOs,语义分割的平均交并比mIoU达到了87.3%,对比传统双分支网络ContextNet大幅提升了6.9%。在GPU设备上分割速度达到193.4FPS,也高于双分支网络132.6FPS。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种轻量化的多分支特征跨层融合图像语义分割方法,其特征在于,包括以下步骤:
1)获取原始图像,输入卷积下采样网络,得到不同分辨率的图像;
2)将不同分辨率的图像分别输入语义特征提取支路和跨层连接支路,分别得到深层特征和浅层特征;
3)对深层特征和浅层特征分别进行重要性区分后,进行特征跨层融合;
4)将融合后的特征图进行分类重组并上采样后,输出语义分割结果;
所述的卷积下采样网络包括三层,其中第一层为标准卷积,第二层和第三层均为深度可分离卷积,所述的第二层深度可分离卷积输出第一分辨率图像,所述的第三层深度可分离卷积输出第二分辨率图像,所述的第二分辨率图像分别输入语义特征提取支路和跨层连接支路,所述的第一分辨率图像输入跨层连接支路;
所述的语义特征提取支路用于提取语义特征,包括三组线性瓶颈残差块和金字塔池化层,其数据处理步骤具体包括:
201)所述的三组线性瓶颈残差块对第二分辨率图像进行下采样,并从中提取深层特征;
202)所述的金字塔池化层利用不同尺寸池化核得到大小不同的特征层,并学习不同尺度特征;
203)经过对应的上采样倍数,输出第三分辨率大小的深层特征;
所述的跨层连接支路用于恢复物体空间位置,包括第一分辨率支路、第二分辨率支路和第三分辨率支路,所述的第一分辨率图像输入第一分辨率支路,所述的第二分辨率图像分别输入第二分辨率支路和第三分辨率支路,所述的第一分辨率支路、第二分辨率支路和第三分辨率支路分别输出第一分辨率大小的浅层特征、第二分辨率大小的浅层特征和第三分辨率大小的浅层特征。
2.根据权利要求1所述的一种轻量化的多分支特征跨层融合图像语义分割方法,其特征在于,所述的重要性区分通过SE模块实现,具体包括:
301)进行全局平均池化,得到具有全局感受野的特征图;
302)使用全连接神经网络对步骤301)输出的结果做非线性变换;
303)使用步骤302)输出的结果作为权重,分别乘到深层特征和浅层特征的每个通道上。
3.根据权利要求1所述的一种轻量化的多分支特征跨层融合图像语义分割方法,其特征在于,所述的特征跨层融合的融合方式为:将深层特征和浅层特征相加。
4.根据权利要求1所述的一种轻量化的多分支特征跨层融合图像语义分割方法,其特征在于,所述的特征跨层融合具体包括:
311)将第三分辨率大小的深层特征与第三分辨率大小的浅层特征相加融合,得到第一融合特征;
312)将第一融合特征通过上采样得到第二分辨率大小的第一融合特征;
313)将第二分辨率大小的第一融合特征与第二分辨率大小的浅层特征相加融合,得到第二融合特征;
314)将第二融合特征通过上采样得到第一分辨率大小的第二融合特征;
315)将第一分辨率大小的第二融合特征与第一分辨率大小的浅层特征相加融合,得到第三融合特征。
5.根据权利要求4所述的一种轻量化的多分支特征跨层融合图像语义分割方法,其特征在于,所述的步骤4)具体包括:
41)利用分类器将第三融合特征进行分类重组,得到分类重组特征图;
42)对分类重组特征图进行两次卷积上采样后恢复至原始图像大小;
43)输出语义分割结果。
6.根据权利要求4或5所述的一种轻量化的多分支特征跨层融合图像语义分割方法,其特征在于,所述的上采样采用双线性插值方法。
7.根据权利要求1或4所述的一种轻量化的多分支特征跨层融合图像语义分割方法,其特征在于,所述的标准卷积和深度可分离卷积的核尺寸均为3×3,步长均为2;
所述的线性瓶颈残差块的最后一个点卷积为线性点卷积,所述的三组线性瓶颈残差块的膨胀系数均为6,每组线性瓶颈残差块膨胀后通道数分别为384、576和768,其中前两组的步长均为2,最后一组的步长为1;
所述的金字塔池化层得到大小不同的特征层分别为1×1大小、2×2大小、3×3大小和6×6大小;
所述的第一分辨率为1/4分辨率,所述的第二分辨率为1/8分辨率,所述的第三分辨率为1/16分辨率。
CN202010846948.4A 2020-08-21 2020-08-21 一种轻量化的多分支特征跨层融合图像语义分割方法 Active CN112163449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010846948.4A CN112163449B (zh) 2020-08-21 2020-08-21 一种轻量化的多分支特征跨层融合图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010846948.4A CN112163449B (zh) 2020-08-21 2020-08-21 一种轻量化的多分支特征跨层融合图像语义分割方法

Publications (2)

Publication Number Publication Date
CN112163449A CN112163449A (zh) 2021-01-01
CN112163449B true CN112163449B (zh) 2022-12-16

Family

ID=73859654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010846948.4A Active CN112163449B (zh) 2020-08-21 2020-08-21 一种轻量化的多分支特征跨层融合图像语义分割方法

Country Status (1)

Country Link
CN (1) CN112163449B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966730A (zh) * 2021-03-01 2021-06-15 创新奇智(上海)科技有限公司 车辆伤损识别方法、装置、设备及存储介质
CN113191364B (zh) * 2021-05-11 2023-12-22 泰康保险集团股份有限公司 车辆外观部件识别方法、装置、电子设备和介质
CN113129325A (zh) * 2021-05-11 2021-07-16 北京理工大学 基于权重优化的白质束自动分割方法
CN113160104B (zh) * 2021-05-20 2024-03-12 广东工业大学 一种基于密集连接网络的图像融合方法
CN113298797B (zh) * 2021-06-10 2022-12-02 太原科技大学 太阳能电池表面缺陷检测方法
CN113361432B (zh) * 2021-06-15 2022-03-15 电子科技大学 一种基于深度学习的视频文字端到端检测与识别的方法
CN113436210B (zh) * 2021-06-24 2022-10-11 河海大学 一种融合上下文逐级采样的道路图像分割方法
CN113807198B (zh) * 2021-08-24 2023-08-22 深圳市魔方卫星科技有限公司 道路网变化检测方法、模型训练方法、装置、设备及介质
CN113837199B (zh) * 2021-08-30 2024-01-09 武汉理工大学 一种基于跨层残差双路金字塔网络的图像特征提取方法
CN113688836A (zh) * 2021-09-28 2021-11-23 四川大学 一种基于深度学习的实时性道路图像语义分割方法及系统
CN114119637B (zh) * 2021-11-29 2024-05-31 大连大学 基于多尺度融合和拆分注意力的脑白质高信号分割方法
CN114358198A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 实例分割方法、装置及电子设备
CN114565766B (zh) * 2022-03-01 2024-06-18 智道网联科技(北京)有限公司 基于BiSeNet V2的路面图像语义分割方法及装置
CN114821069B (zh) * 2022-05-27 2024-04-26 昆明理工大学 融合富尺度特征的双分支网络遥感图像建筑语义分割方法
CN115082928B (zh) * 2022-06-21 2024-04-30 电子科技大学 面向复杂场景的不对称双分支实时语义分割网络的方法
CN117809043B (zh) * 2024-03-01 2024-04-30 华东交通大学 一种地基云图分割与分类的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111313A (zh) * 2019-04-22 2019-08-09 腾讯科技(深圳)有限公司 基于深度学习的医学图像检测方法及相关设备
CN110263786A (zh) * 2019-06-24 2019-09-20 东北大学 一种基于特征维度融合的道路多目标识别系统及方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
CN111128242A (zh) * 2020-01-02 2020-05-08 渤海大学 一种基于双深度网络的多模式情感信息融合与识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410219B (zh) * 2018-10-09 2021-09-03 山东大学 一种基于金字塔融合学习的图像分割方法、装置和计算机可读存储介质
US10769744B2 (en) * 2018-10-31 2020-09-08 Kabushiki Kaisha Toshiba Computer vision system and method
CN109598269A (zh) * 2018-11-14 2019-04-09 天津大学 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法
CN110782398B (zh) * 2018-12-13 2020-12-18 北京嘀嘀无限科技发展有限公司 图像处理方法、生成式对抗网络系统和电子设备
CN110782397B (zh) * 2018-12-13 2020-08-28 北京嘀嘀无限科技发展有限公司 一种图像处理方法、生成式对抗网络、电子设备及存储介质
CN110287777B (zh) * 2019-05-16 2021-06-08 西北大学 一种自然场景下的金丝猴躯体分割算法
CN110188817B (zh) * 2019-05-28 2021-02-26 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110188866B (zh) * 2019-05-28 2021-06-25 北京工业大学 一种基于注意力机制的特征提取方法
CN111127320B (zh) * 2019-12-23 2023-08-04 哈尔滨工业大学(威海) 基于深度学习的光声图像超分辨重建方法及装置
CN111488884A (zh) * 2020-04-28 2020-08-04 东南大学 低计算量及高度特征融合的实时语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111313A (zh) * 2019-04-22 2019-08-09 腾讯科技(深圳)有限公司 基于深度学习的医学图像检测方法及相关设备
CN110263786A (zh) * 2019-06-24 2019-09-20 东北大学 一种基于特征维度融合的道路多目标识别系统及方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
CN111128242A (zh) * 2020-01-02 2020-05-08 渤海大学 一种基于双深度网络的多模式情感信息融合与识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Cross Attention Network for Semantic Segmentation";Mengyu Liu,等;《2019 IEEE International Conference on Image Processing (ICIP)》;20190826;全文 *
"DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation";Haochao Li,等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;全文 *
"基于传播深度聚合和边界细化的DeepLab模型语义分割方法研究";熊剑;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215;全文 *
"基于深度学习的3D生物医学图像语义分割算法研究";吴长峰;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20200715;全文 *
"基于深浅层并联与缩聚激发的目标检测方法研究";何东城;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190815;全文 *

Also Published As

Publication number Publication date
CN112163449A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163449B (zh) 一种轻量化的多分支特征跨层融合图像语义分割方法
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN112634276B (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN110728200B (zh) 一种基于深度学习的实时行人检测方法及系统
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN113902915B (zh) 一种基于低光照复杂道路场景下的语义分割方法及系统
CN111428781A (zh) 遥感影像地物分类方法及系统
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
WO2022111355A1 (zh) 车牌识别方法及装置、存储介质、终端
CN111860683B (zh) 一种基于特征融合的目标检测方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN115359370B (zh) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN111832453A (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN109523558A (zh) 一种人像分割方法及系统
Peng et al. Single-image raindrop removal using concurrent channel-spatial attention and long-short skip connections
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
CN116630704A (zh) 一种基于注意力增强和密集多尺度的地物分类网络模型
CN116563553B (zh) 一种基于深度学习的无人机图像分割方法和系统
CN115100409B (zh) 一种基于孪生网络的视频人像分割算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant