CN112541503B - 基于上下文注意力机制和信息融合的实时语义分割方法 - Google Patents

基于上下文注意力机制和信息融合的实时语义分割方法 Download PDF

Info

Publication number
CN112541503B
CN112541503B CN202011439171.6A CN202011439171A CN112541503B CN 112541503 B CN112541503 B CN 112541503B CN 202011439171 A CN202011439171 A CN 202011439171A CN 112541503 B CN112541503 B CN 112541503B
Authority
CN
China
Prior art keywords
module
convolution
feature
output
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011439171.6A
Other languages
English (en)
Other versions
CN112541503A (zh
Inventor
徐国安
高广谓
吴飞
邵昊
岳东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011439171.6A priority Critical patent/CN112541503B/zh
Publication of CN112541503A publication Critical patent/CN112541503A/zh
Application granted granted Critical
Publication of CN112541503B publication Critical patent/CN112541503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于上下文注意力机制和信息融合的实时语义分割方法,首先构建实时语义分割网络,对预先获取的数据集中的图像以及对应的标签进行预处理,再输入到所搭建的网络中进行训练;网络中,输入图像经过三组单独的降采样模块,使其分辨率分辨变为原来的1//2、1/4和1/8,三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合;每个阶段特征融合之后,进入到注意力模块;融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比,计算交叉熵损失函数作为目标函数,从而得到训练好的网络模型。本发明本发明不仅保证了语义分割的高精度,又保证了高效的推理速度以及适合边界设备的内存容量。

Description

基于上下文注意力机制和信息融合的实时语义分割方法
技术领域
本发明属于计算机视觉、模式识别领域,具体涉及一种基于上下文注意力机制和信息融合的实时语义分割方法。
背景技术
语义分割是当今计算机视觉领域的关键问题之一。它是在图像像素级别上分类,属于同一类的像素都要被归为一类。因此上下文语义信息对于语义分割来说,非常重要。在实际中,虚拟现实、人机交互以及自动驾驶等都会运用到语义分割技术,准确理解周围场景对实际应用的决策有重要影响。
当前最佳的图像语义分割方法都是基于深度卷积神经网络的方法来实现的,并且都是基于编码解码的架构。编码器是一个图像降采样过程,负责抽取图像的语义信息,编码结束后紧接着就是解码器,解码器就是一个图像上采样过程,负责对降采样得到的图像特征进行上采样恢复到输入图像原始维度。总体网络结构可以大致分为两类:深度网络结构方法和轻量化网络结构方法。深度网络结构方法,运用VGGNet,ResNet等作为主干网络,它们的重心是在提高模型的分割精度而不是计算效率上,模型有效性绝大程度上取决于网络深度和宽度,因此需要大量的参数和操作从而需要耗费大量的计算资源,不适合在实际应用场景中手机、机器人、无人机等这些存储资源有限,计算能力较小的边界设备中使用。为了适应实际生活运用中实时性的需求,轻量化网络结构模型得到了更多的关注。由于网络结构变浅,网络训练时间大大减少。然而这也引发了另一个重要问题,现有的很多轻量化网络将更快的速度追求建立在一味地牺牲分割精度的基础之上。所以如何在速度与精度之间达到很好的平衡,即既保证语义分割的高精度,又要保证高效的推理速度以及适合边界设备的内存容量成为了实时语义分割问题的核心。
发明内容
发明目的:本发明一种基于上下文注意力机制和信息融合的实时语义分割方法,在语义分割精度和速度之间达到了完美的平衡。
发明内容:本发明提出一种基于上下文注意力机制和信息融合的实时语义分割方法,具体包括以下步骤:
(1)构建实时语义分割网络,所述网络包括初始模块、注意力模块、特征提取模块、特征融合模块;
(2)对预先获取的数据集中的图像以及对应的标签进行预处理,再输入到所搭建的网络中进行训练;输入图像经过3次卷积使其分辨率变为原来的1/2,同时,输入图像经过三组单独的降采样模块,使其分辨率分辨变为原来的1//2、1/4和1/8,这三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合;
(3)每个阶段特征融合之后,进入到注意力模块;
(4)经过注意力模块输出后的特征图,进入到特征提取模块中;所述特征图分为两个分支,第一条分支继续进行下采样操作以及卷积特征提取;第二条分支经过上采样以及注意力模块后输出到预测分类操作之前进行特征融合;
(5)融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比,计算交叉熵损失函数作为目标函数,从而得到训练好的网络模型;
(6)利用训练好的模型来预测待测图像语义分割结果。
进一步地,所述步骤(2)的实现过程如下:
输入图像先经过连续三次3*3卷积核的卷积操作提取初始图像特征并将输入图像分辨率变为1/2:
Fcout=C3x3(C3x3(C3x3(Fin))) (1)
其中,Fin表示输入图像,C3x3表示卷积核为3x3的卷积操作,Fcout表示连续3三次卷积后的输出;同时将初始输入图像输入到三个单独降采样率不同的降采样模块中,将输入图像的分辨率分别降采样为原来的1/2、1/4、1/8,用于与后续主干网络中不同阶段提取的图像特征进行融合,以充分利用上下文语义信息:
F1=Down1(Fin) (2)
F2=Down2(Fin) (3)
F3=Down3(Fin) (4)
其中,Down1,Down2,Down3表示降采样率分别为2,4,8的降采样模块,F1,F2,F3表示得到的1/2,1/4,1/8特征图;初始模块最终输出为三次卷积后得到的特征图与1/2特征图的级联:
Finitial=Concat(Fcout,F1) (5)
其中,Finitial表示初始模块最终输出,Concat表示Concatenate级联操作。
进一步地,所述步骤(4)的实现过程如下:
经过注意力模块输出后的特征图分为两条分支,一条分支是继续主干网络的特征提取,经过一个下采样模块以及若干深度不对称卷积模块;其中,下采样模块由步长为2的3x3卷积和一个2x2的最大值池化组成:
Fdout=ρ(C3x3(Fdin)+Poolmax,2x2(Fdin)) (9)
其中,Fdin和Fdout分别表示下采样模块的输入特征和输出特征,Poolmax,2x2表示2x2的最大值池化操作,C3x3表示3x3的卷积操作,ρ表示PReLU的非线性化操作;
深度不对称卷积模块为双分支结构,第一条分支负责提取局部信息,将3x3的深度可分离卷积分解为串联着的3x1和1x3的两个卷积;第二条分支负责提取上下文语义信息,使用的是串联着的3x1和1x3的两个空洞卷积;不对称卷积模块先用3x3的卷积先将特征图的通道数减少为一半,然后输入到两条分支中,最后将两个分支直接相加后传入1x1卷积中恢复通道,融合所有通道信息:
Fbr1=C1x3(C3x1(C3x3(ρ(FDABin)))) (10)
Fbr2=C1x3,d(C3x1,d(C3x3(ρ(FDABin)))) (11)
FDABout=Concat(C1x1(ρ(Fbr1+Fbr2)),FDABin) (12)
其中,FDABin和FDABout分别表示DAB模块的输入特征和输出特征,FDABin为下采样模块的输出特征Fdout,Fbr1和Fbr2分别表示DABmodule中的两个分支,ρ表示PReLU的非线性化操作,C表示卷积操作,d表示空洞卷积的空洞率;
将第一个不对称卷积模块的输入和最后一个不对称卷积模块的输出进行像素级相加,同时进行像素级相加的还有初始阶段的1/4,1/8特征图,达到特征融合:
FBR1=Concat(FDABout,Fn) n=2,3 (13)
其中,FBR1表示特征提取模块第一分支的输出;
经过主干网络中注意力模块输出后的第二条分支中包含一个上采样操作、一个卷积层以及一个注意力模块,其中上采样和卷积层用于调整特征图尺寸以及通道数,目的是统一参数,方便网络末尾的特征融合,注意力模块用来提取上采样过后的图像语义信息:
FBR2=FAtten(C1x1(Fup(Fdin))) (14)
其中,FBR2表示特征提取模块第二条分支的输出,FAtten表示注意力模块,Fup表示上采样操作。
进一步地,所述步骤(5)实现过程如下:
使用了像素级相加策略,融合后的特征图经过上采样中的反卷积操作输出得到最终的分割结果:
Fadd=Fmain+Fblock1,BR2+Fblock2,BR2 (15)
其中,Fadd表示利用像素级相加方法得到的特征图;
整个语义分割网络的预测输出为:
Fout=Fup(Ffusion) (16)
其中,Ffusion=FconcatorFadd
有益效果:与现有技术相比,本发明的有益效果:本发明不仅保证了语义分割的高精度,又保证了高效的推理速度以及适合边界设备的内存容量;本发明可以应用在无人机、人脸识别、机器人等需要对周围环境进行实时信息交互的场景;无人机拍摄画面后,对地面物体做出实时准确判断;人脸识别领域,通过本发明可以快速分割出人面部的皮肤、头发、眼睛、鼻子、嘴巴和背景等用于性别、表情、年龄和种族的估计;医疗领域,对于龋齿,肿瘤等症状位置的快速精准定位;本发明可以让智能机器人更加快捷地感知外界信息,从而快速做出决策,提高用户体验感;在交通出行方面,新兴的自动驾驶技术需要对自身车体周围的环境,包括周围车辆、行人以及建筑物等做出实时的识别、分析与判断,而本发明正好在实时性方面有着巨大的优势,因此也一定会在城市道路等场景中发挥出巨大潜能。
附图说明
图1为本发明构建的实时语义分割网络结构示意图;
图2为深度不对称卷积模块结构示意图;
图3为注意力模块结构示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提供一种基于上下文注意力机制和信息融合的实时语义分割方法,构建的实时语义分割网络分为四个部分:初始(Initial)模块、注意力(Attention)模块、特征提取(Feature Extraction)模块、特征融合(Feature Fusion)模块。整体结构如图1所示。初始化模块包括3个3x3的卷积块以及3个独立的下采样模块;特征提取模块包括两条分支,分支1为下采样模块和深度不对称卷积模块;分支2为上采样层、卷积层和注意力模块;其中深度不对称卷积模块也是双分支结构。
实时语义分割网络训练时,首先对数据集中的图像以及对应的标签进行预处理裁剪到原始大小的1/2后再输入到所搭建的网络中进行训练。网络中,输入图像先经过3次卷积使其分辨率变为原来的1/2。同时,输入图像经过三组单独的降采样模块,使其分辨率分辨变为原来的1//2、1/4和1/8,这三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合。每个阶段特征融合之后,进入到注意力模块,以更好地提取语义信息进而提高网络性能。在图像特征经过注意力模块后进入两个分支,一个分支继续在主干线中进行下采样操作以及卷积特征提取;另一分支经过上采样以及注意力模块后输出到最终的预测分类操作之前进行特征融合,以充分利用上下文语义。融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比,计算交叉熵损失函数作为目标函数,从而得到训练好的网络模型。最后,利用训练好的模型来预测待测图像语义分割结果。
一、初始(Initial)模块。初始输入图像先经过连续三次3*3卷积核的卷积操作提取初始图像特征并将输入图像分辨率变为1/2。
Fcout=C3x3(C3x3(C3x3(Fin))) (1)
其中,Fin表示输入图像,C3x3表示卷积核为3x3的卷积操作,Fcout表示连续3三次卷积后的输出。同时将初始输入图像输入到三个单独降采样率不同的降采样模块(Down1、Down2、Down3)中。该降采样模块由不同的3*3平均池化层构成,可以将初始输入图像的分辨率分别降采样为原来的1/2、1/4、1/8,用于与后续主干网络(网络结构中的带有特征提取模块的中间主干分支)中不同阶段提取的图像特征进行融合,以充分利用上下文语义信息。
F1=Down1(Fin) (2)
F2=Down2(Fin) (3)
F3=Down3(Fin) (4)
其中Down1,Down2,Down3表示降采样率分别为2,4,8的降采样模块,F1,F2,F3表示得到的1/2,1/4,1/8特征图。初始(Initial)模块最终输出为三次卷积后得到的特征图与1/2特征图的级联。
Finitial=Concat(Fcout,F1) (5)
其中,Finitial表示初始模块最终输出,Concat表示Concatenate级联操作。
二、注意力(Attention)模块。在上述的每个阶段特征融合之后,分别放置串联的注意力(Attention)模块,如图3所示。注意力(Attention)模块的核心是注意力机制,它的本质是模仿人类视觉机制,学习出一个对图像特征的权重分布,再把这个权重分布施加在原来的特征之上,使得任务主要关注重点特征,提高任务效率。
本发明采用的是注意力机制中的通道注意力(ChannelAttention)方法。通道注意力通过对通道间的依赖关系进行建模,可以自适应地调整各通道的特征响应值,使网络从全局信息出发来选择性地放大有价值的特征通道,抑制无用的特征通道,从而提升网络性能。当前大多数研究使用的通道注意力模块是Squeeze-and-ExcitationNet中的(以下简称SE),本发明采用的是它的改进版本——Efficient ChannelAttention(以下简称ECA)。该模块只增加了少量的参数,却能获得明显的性能增益。ECA采用一种不降维的局部跨信道交互策略,即在不降低维数的通道级全局平均池化之后,通过考虑每个通道及其k个邻居来捕获局部跨通道交互信息。需要注意的是,ECA可以通过大小为k的快速1D卷积来有效实现,其中卷积核大小为k代表了局部跨信道交互的覆盖率。
具体的,使用矩阵W_(k)来表示学习到的通道注意力。
Figure BDA0002829929730000071
W_(k)涉及C*k个参数,并且W_(k)避免了不同通道之间的相互独立,也就是不同通道之间可以进行信息交互。
权重yi,通过yi本身和它k个邻居之间的相互作用计算得来,并且让所有的通道共享权重信息,即
Figure BDA0002829929730000072
其中,σ表示Sigmoid函数,
Figure BDA0002829929730000073
表示yi的k个通道集。
通过以上分析,发现该策略可以很容易地通过核大小为k的快速一维卷积实现。
ω=σ(C1Dk(y)) (8)
其中,C1D表示一维卷积,这种方法就称之为ECA模块。
三、特征提取(Feature Extraction)模块。经过注意力模块输出后的特征图,进入到特征提取(Feature Extraction)模块中,如图2所示。它有两条分支,一条分支是继续主干网络的特征提取,它包含一个下采样(Downsample)模块以及若干深度不对称卷积(Depth-wiseAsymmetricBottleneckModule)模块,(简称DAB module)组成。其中,下采样(Downsample)模块由步长为2的3x3卷积和一个2x2的最大值池化组成。
Fdout=ρ(C3x3(Fdin)+Poolmax,2x2(Fdin)) (9)
其中,Fdin和Fdout分别表示下采样(Downsample)模块的输入特征和输出特征,Poolmax,2x2表示2x2的最大值池化操作,C3x3表示3x3的卷积操作,ρ表示PReLU的非线性化操作。下采样(Downsample)操作减小了特征图尺寸的同时增加了感受野(receptive field),因此整个网络获得了更多的语义信息。而DAB module整体也是双分支结构。第一条分支负责提取局部信息,根据卷积分解(convolutionfactorization)的思想将3x3的深度可分离卷积分解为串联着的3x1和1x3的两个卷积,这样大大降低了计算复杂度。第二条分支负责提取上下文语义信息,使用的是串联着的3x1和1x3的两个空洞卷积,空洞卷积的优点是可以在不减小特征图分辨率的基础上获得更大的感受野。特征图输入到DABmodule中的具体过程是用3x3的卷积先将特征图的通道数减少为一半,这样可以减少参数,然后输入到两条分支中,最后将两个分支直接相加后传入1x1卷积中恢复通道,融合所有通道信息。
Fbr1=C1x3(C3x1(C3x3(ρ(FDABin)))) (10)
Fbr2=C1x3,d(C3x1,d(C3x3(ρ(FDABin)))) (11)
FDABout=Concat(C1x1(ρ(Fbr1+Fbr2)),FDABin) (12)
其中,FDABin和FDABout分别表示DAB模块的输入特征和输出特征,FDABin为下采样模块的输出特征Fdout,Fbr1和Fbr2分别表示DABmodule中的两个分支,ρ表示PReLU的非线性化操作,C表示卷积操作,d表示空洞卷积的空洞率。
整体连接运用残差连接的思想,将第一个DAB module的输入和最后一个DABmodule的输出进行像素级相加,同时进行像素级相加的还有初始阶段的1/4,1/8特征图,达到特征融合的目的。该操作增加了语义,也使得图像上下文信息得到交互。
FBR1=Concat(FDABout,Fn) n=2,3 (13)
其中,FBR1表示特征提取模块第一分支的输出。
特征提取(featureextraction)模块的另一条分支中包含一个上采样操作、一个卷积层以及一个注意力模块,其中上采样和卷积层用于调整特征图尺寸以及通道数,目的是统一参数,方便网络末尾的特征融合。注意力模块用来提取上采样过后的图像语义信息。
FBR2=FAtten(C1x1(Fup(Fdin))) (14)
其中,FBR2表示特征提取模块第二分支的输出,FAtten表示注意力模块,Fup表示上采样操作。
四、特征融合(FeatureFusion)模块。本发明在最终语义分割预测输出前的特征融合模块中使用了像素级相加(pixelsum)的策略。融合后的特征经过上采样中的反卷积操作输出得到最终的分割结果,整个过程结束。像素级相加可以表示为
Fadd=Fmain+Fblock1,BR2+Fblock2,BR2 (15)
其中,Fadd表示利用像素级相加方法得到的特征图。
最终整个语义分割网络的预测输出为:
Fout=Fup(Ffusion) (16)
其中,Ffusion=FconcatorFadd
本发明与其他方法在城市道路数据集上的实验结果比较如表1所示。
表1在Cityscapes数据集上的实验结果
Figure BDA0002829929730000091
本发明在不运用预训练实验处理方法的情况下,在精度上,仍然处于最优。通过比较可以发现,本发明在不损害精度,也不增加模型冗余计算的前提下,在分割精度与参数量之间达到了完美的平衡。具体而言,平均交并比(mIoU)在70%以上的方法——DABNet、LEDNet,与本发明相比,虽然DABNet在参数量上比本发明少0.4M,但是在分割精度方面比本发明低了1.4%,并且在速度方面也慢了很多。而LEDNet与本发明相比,精度上也仍然有着0.9%的差距,这在语义分割领域已经是比较大的差距了。

Claims (4)

1.一种基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,包括以下步骤:
(1)构建实时语义分割网络,所述网络包括初始模块、注意力模块、特征提取模块、特征融合模块;
(2)对预先获取的数据集中的图像以及对应的标签进行预处理,再输入到所搭建的网络中进行训练;输入图像经过3次卷积使其分辨率变为原来的1/2,同时,输入图像经过三组单独的降采样模块,使其分辨率分辨变为原来的1//2、1/4和1/8,这三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合;
(3)每个阶段特征融合之后,进入到注意力模块;
(4)经过注意力模块输出后的特征图,进入到特征提取模块中;所述特征图分为两个分支,第一条分支继续进行下采样操作以及卷积特征提取;第二条分支经过上采样以及注意力模块后输出到预测分类操作之前进行特征融合;
(5)融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比,计算交叉熵损失函数作为目标函数,从而得到训练好的网络模型;
(6)利用训练好的模型来预测待测图像语义分割结果。
2.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,所述步骤(2)的实现过程如下:
输入图像先经过连续三次3*3卷积核的卷积操作提取初始图像特征并将输入图像分辨率变为1/2:
Fcout=C3x3(C3x3(C3x3(Fin))) (1)
其中,Fin表示输入图像,C3x3表示卷积核为3x3的卷积操作,Fcout表示连续3三次卷积后的输出;同时将初始输入图像输入到三个单独降采样率不同的降采样模块中,将输入图像的分辨率分别降采样为原来的1/2、1/4、1/8,用于与后续主干网络中不同阶段提取的图像特征进行融合,以充分利用上下文语义信息:
F1=Down1(Fin) (2)
F2=Down2(Fin) (3)
F3=Down3(Fin) (4)
其中,Down1,Down2,Down3表示降采样率分别为2,4,8的降采样模块,F1,F2,F3表示得到的1/2,1/4,1/8特征图;初始模块最终输出为三次卷积后得到的特征图与1/2特征图的级联:
Finitial=Concat(Fcout,F1) (5)
其中,Finitial表示初始模块最终输出,Concat表示Concatenate级联操作。
3.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,所述步骤(4)的实现过程如下:
经过注意力模块输出后的特征图分为两条分支,一条分支是继续主干网络的特征提取,经过一个下采样模块以及若干深度不对称卷积模块;其中,下采样模块由步长为2的3x3卷积和一个2x2的最大值池化组成:
Fdout=ρ(C3x3(Fdin)+Poolmax,2x2(Fdin)) (9)
其中,Fdin和Fdout分别表示下采样模块的输入特征和输出特征,Poolmax,2x2表示2x2的最大值池化操作,C3x3表示3x3的卷积操作,ρ表示PReLU的非线性化操作;
深度不对称卷积模块为双分支结构,第一条分支负责提取局部信息,将3x3的深度可分离卷积分解为串联着的3x1和1x3的两个卷积;第二条分支负责提取上下文语义信息,使用的是串联着的3x1和1x3的两个空洞卷积;不对称卷积模块先用3x3的卷积先将特征图的通道数减少为一半,然后输入到两条分支中,最后将两个分支直接相加后传入1x1卷积中恢复通道,融合所有通道信息:
Fbr1=C1x3(C3x1(C3x3(ρ(FDABin)))) (10)
Fbr2=C1x3,d(C3x1,d(C3x3(ρ(FDABin)))) (11)
FDABout=Concat(C1x1(ρ(Fbr1+Fbr2)),FDABin) (12)
其中,FDABin和FDABout分别表示DAB模块的输入特征和输出特征,FDABin为下采样模块的输出特征Fdout,Fbr1和Fbr2分别表示DABmodule中的两个分支,ρ表示PReLU的非线性化操作,C表示卷积操作,d表示空洞卷积的空洞率;
将第一个不对称卷积模块的输入和最后一个不对称卷积模块的输出进行像素级相加,同时进行像素级相加的还有初始阶段的1/4,1/8特征图,达到特征融合:
FBR1=Concat(FDABout,Fn)n=2,3 (13)
其中,FBR1表示特征提取模块第一分支的输出;
经过主干网络中注意力模块输出后的第二条分支中包含一个上采样操作、一个卷积层以及一个注意力模块,其中上采样和卷积层用于调整特征图尺寸以及通道数,目的是统一参数,方便网络末尾的特征融合,注意力模块用来提取上采样过后的图像语义信息:
FBR2=FAtten(C1x1(Fup(Fdin))) (14)
其中,FBR2表示特征提取模块第二条分支的输出,FAtten表示注意力模块,Fup表示上采样操作。
4.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,所述步骤(5)实现过程如下:
使用了像素级相加策略,融合后的特征图经过上采样中的反卷积操作输出得到最终的分割结果:
Fadd=Fmain+Fblock1,BR2+Fblock2,BR2 (15)
其中,Fadd表示利用像素级相加方法得到的特征图;
整个语义分割网络的预测输出为:
Fout=Fup(Ffusion) (16)
其中,Ffusion=FconcatorFadd
CN202011439171.6A 2020-12-11 2020-12-11 基于上下文注意力机制和信息融合的实时语义分割方法 Active CN112541503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011439171.6A CN112541503B (zh) 2020-12-11 2020-12-11 基于上下文注意力机制和信息融合的实时语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011439171.6A CN112541503B (zh) 2020-12-11 2020-12-11 基于上下文注意力机制和信息融合的实时语义分割方法

Publications (2)

Publication Number Publication Date
CN112541503A CN112541503A (zh) 2021-03-23
CN112541503B true CN112541503B (zh) 2022-08-26

Family

ID=75019913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011439171.6A Active CN112541503B (zh) 2020-12-11 2020-12-11 基于上下文注意力机制和信息融合的实时语义分割方法

Country Status (1)

Country Link
CN (1) CN112541503B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733821B (zh) * 2021-03-31 2021-07-02 成都西交智汇大数据科技有限公司 一种融合轻量级注意力模型的目标检测方法
CN113160151B (zh) * 2021-04-02 2023-07-25 浙江大学 基于深度学习及注意力机制的全景片龋齿深度识别方法
CN113177895B (zh) * 2021-05-20 2022-04-22 中国人民解放军国防科技大学 基于上下文的多特征融合网络的两阶段图像修复方法
CN113421268B (zh) * 2021-06-08 2022-09-16 南京邮电大学 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法
CN113409321B (zh) * 2021-06-09 2023-10-27 西安电子科技大学 一种基于像素分类和距离回归的细胞核图像分割方法
CN113486173B (zh) * 2021-06-11 2023-09-12 南京邮电大学 文本标注神经网络模型及其标注方法
CN113435284B (zh) * 2021-06-18 2022-06-28 武汉理工大学 基于动态过滤与多方向关注融合的灾后道路提取方法
CN113378786B (zh) * 2021-07-05 2023-09-19 广东省机场集团物流有限公司 一种超轻量目标检测网络和方法
CN113538313B (zh) * 2021-07-22 2022-03-25 深圳大学 一种息肉分割方法、装置、计算机设备及存储介质
CN113658200B (zh) * 2021-07-29 2024-01-02 东北大学 基于自适应特征融合的边缘感知图像语义分割方法
CN113807356B (zh) * 2021-07-29 2023-07-25 北京工商大学 一种端到端的低能见度图像语义分割方法
CN113807355B (zh) * 2021-07-29 2023-08-25 北京工商大学 一种基于编解码结构的图像语义分割方法
CN113706570B (zh) * 2021-08-02 2023-09-15 中山大学 一种斑马鱼荧光图像的分割方法及装置
CN113888523B (zh) * 2021-10-20 2024-05-28 山西省机电设计研究院有限公司 一种强化x射线不锈钢焊缝缺陷实时语义分割方法
CN114170167B (zh) * 2021-11-29 2022-11-18 深圳职业技术学院 基于注意力引导上下文校正的息肉分割方法和计算机设备
CN114913325B (zh) * 2022-03-24 2024-05-10 北京百度网讯科技有限公司 语义分割方法、装置及计算机程序产品
CN115082928B (zh) * 2022-06-21 2024-04-30 电子科技大学 面向复杂场景的不对称双分支实时语义分割网络的方法
CN115147703B (zh) * 2022-07-28 2023-11-03 广东小白龙环保科技有限公司 一种基于GinTrans网络的垃圾分割方法及系统
CN116702156B (zh) * 2023-06-20 2024-04-09 任丽娜 信息安全风险评价系统及其方法
CN116884005B (zh) * 2023-09-08 2023-11-07 江西财经大学 一种结合卷积网络与图特征的快速语义分割方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197182A (zh) * 2019-06-11 2019-09-03 中国电子科技集团公司第五十四研究所 基于上下文信息和注意力机制的遥感影像语义分割方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197182A (zh) * 2019-06-11 2019-09-03 中国电子科技集团公司第五十四研究所 基于上下文信息和注意力机制的遥感影像语义分割方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合注意力机制的双路径语义分割;翟鹏博等;《中国图象图形学报》;20200812(第08期);全文 *

Also Published As

Publication number Publication date
CN112541503A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN112329800B (zh) 一种基于全局信息引导残差注意力的显著性目标检测方法
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN111612008B (zh) 基于卷积网络的图像分割方法
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN110046550B (zh) 基于多层特征学习的行人属性识别系统及方法
CN110580704A (zh) 基于卷积神经网络的et细胞图像自动分割方法及系统
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN111696110B (zh) 场景分割方法及系统
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN111860683B (zh) 一种基于特征融合的目标检测方法
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114187520B (zh) 一种建筑物提取模型的构建及应用方法
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN114037640A (zh) 图像生成方法及装置
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant