CN114972752A - 一种基于轻量级交叉注意网络的实时语义分割的方法 - Google Patents

一种基于轻量级交叉注意网络的实时语义分割的方法 Download PDF

Info

Publication number
CN114972752A
CN114972752A CN202210516623.9A CN202210516623A CN114972752A CN 114972752 A CN114972752 A CN 114972752A CN 202210516623 A CN202210516623 A CN 202210516623A CN 114972752 A CN114972752 A CN 114972752A
Authority
CN
China
Prior art keywords
cross
network
feature
csca
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210516623.9A
Other languages
English (en)
Inventor
王娟
袁旭亮
叶永钢
张则涛
刘子杉
郭力权
陈关海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202210516623.9A priority Critical patent/CN114972752A/zh
Publication of CN114972752A publication Critical patent/CN114972752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于轻量级交叉注意网络的实时语义分割的方法,包括:准备训练、测试用的图像数据集;构建基于交叉注意机制的轻量级实时语义分割网络,包括编码器和解码器,编码器仅去除ResNet18尾部的全连接层以后的部分,其余部分保持不变,解码器包括两个CSCA模块和一个CAB模块;使用训练好的网络模型得到图像语义分割结果。本发明提出的CSCA模块使用条状交叉亲和运算来生成通道注意力权重向量,以实现经济的浅层特征选择及多尺度特征混合,从而使网络的分割轮廓更清晰,引入解码器的噪声更小;CAB模块通过捕获水平和垂直空间维度之间的交叉信息以获取远程交叉上下文信息,有效地消除了卷积神经网络(CNN)无法捕获远程上下文信息的限制。

Description

一种基于轻量级交叉注意网络的实时语义分割的方法
技术领域
本发明属于语义分割技术领域,具体涉及一种基于轻量级交叉注意网络的实时语义分割的方法。
背景技术
语义分割是计算机视觉的重要组成部分,旨在将图像的每个像素分类到一个相对类中,可以视作是密集分类任务。由于卷积神经网络(CNN)的发展,语义分割近年来取得了很大的进展。如何获取空间信息、捕获长范围依赖信息是进一步提高语义分割准确性的关键因素,也是许多研究人员所研究的重点。
针对空间信息丢失过多的问题,降低下采样率和使用多尺度特征混合是被广泛使用的策略。在语义分割领域,低的下采样率意味着高的计算复杂度和窄的视野。因此,大多数网络都采用多尺度特征混合以高效地获取空间信息。例如,FCN在解码器部分注入多尺度特征,UNet和LinkNet密集地将编码器的低级特征混淆到相应的解码器中。不同的是,为了在提取深层特征时保留空间细节,DAFNet在编码过程中不断加入多尺度特征。这些模型的多尺度特征混合过于粗糙,不可避免地将低级特征的噪声引入模型中,使分割结果变差。为了在没有噪声的情况下收集低级特征的空间信息,RefineNet在解码器部分使用复杂的混合处理模块以抑制浅层特征的噪声。显然,RefineNet是以高计算复杂度为代价实现精细的多尺度特征混和。为了有效混合多尺度特征,LRefineNet将RefineNet中残余卷积单元(RCU)和链式残差块(CRB)的3×3卷积层替换为1×1卷积,但是LRefineNet的多尺度特征混合极致依然占用极大地计算和存储资源。通过上述观察发现,有选择地使用多尺度特征混合是获取充足空间信息的有效途径。
对于CNN只能捕获局部上下文信息的固有局限性问题,全局平均池化和注意力机制是解决这一问题的有效策略。PSPNet在编码器的尾部引入了金字塔池化模块(PPM)以捕获并行池化层中的多尺度特征,生成通道级的上下文依赖信息。DeepLabV2引入了多孔空间金字塔池化(ASPP)模块,将捕获的多尺度特征融合从而形成上下文依赖信息。这些方法捕获的上下文信息可以看作是通道级的信息依赖,不但降低了网络的实时性,而且捕获的上下文信息有局限性(通道级上下文信息)。为了捕获长范围的上下文信息,NL引入了自注意力机制来获得足够的长范围依赖信息。然而,NL需要大量的内存和计算资源,不利于提高模型的实时推理能力。为了解决NL的问题,ANL利用PPM生成多尺度权重向量,极大地减少注意力机制的计算量和内存占用。类似地,AtteNet使用条状全局池化生成条状的注意力特征,降低了注意力机制对内存的使用需求。但是以上两种上下文信息捕获方式中无论是通道级的上下文信息捕获,还是捕获整体特征映射上下文信息的注意力机制,它们都只聚合同一空间维度的上下文信息,而不关注交叉空间维度的上下文信息。同一维度的两个特征图得到的亲和矩阵趋于不变,不利于获得清晰的分割轮廓,即相同空间维度的亲和运算只是空间信息的积累,不可能获得空间维度的交叉信息。
目前的语义分割存在空间信息丢失严重、远程依赖信息缺乏的问题,阻碍了语义分割的进一步发展。
发明内容
本发明针对现有技术的不足,提供一种基于轻量级交叉注意网络的实时语义分割的方法,利用CSCA模块使用条状交叉附属运算生成通道注意力权重向量,用很少的工作量实现了通道特征混淆,并在解码器的尾部引入CAB模块,通过捕获水平和垂直空间维度之间的交叉信息以获取远程交叉上下文信息。
为了达到上述目的,本发明提供的技术方案是一种基于轻量级交叉注意网络的实时语义分割的方法,包括以下步骤:
步骤1,准备图像数据集用于训练和测试;
步骤2,构建基于交叉注意机制的轻量级实时语义分割网络;
步骤3,使用训练集图像对轻量级实时语义分割网络模型进行训练;
步骤4,使用步骤3训练好的网络模型对测试集图像进行分割,得到图像语义分割结果。
而且,所述步骤1对训练集中的图像进行缩放、上下、左右翻转、随机裁剪、随机旋转来扩充数据集。
而且,所述步骤2中构建的基于交叉注意机制的轻量级实时语义分割网络,包括编码器和解码器,编码器仅去除ResNet18尾部的全连接层以后的部分,其余部分保持不变,解码器包括两个CSCA模块、一个CAB模块和一个分类器。第一个CSCA模块以浅层特征块Block3和深层特征块Block4的输出作为多尺度输入特征,第二个CSCA模块以浅层特征块Block2和第一个CSCA模块的输出作为多尺度输入特征。分类器采用一层1×1卷积和8倍的双线性上采样构成。
将编码器Block2、Block3、Block4、两个CSCA模块和CAB模块的输出作为网络的辅助损耗分支,将每个辅助损失分支的标签缩放到相应的特征分辨率,辅助损耗分支包含两个卷积层,每个辅助损失分支中的第一层3×3卷积压缩通道到32,第二层1×1卷积压缩为类别数。使用辅助监督的形式优化网络,网络损耗的计算方式如下:
Figure BDA0003639919500000031
式中,L表示网络总损耗,Lmain表示主分支损耗,Laux表示辅助损耗分支的损耗,所有损耗函数均为交叉熵损耗函数,λ为各辅助损耗分支的权重。
CSCA模块的输入包括深层特征和浅层特征,对深层特征应用水平全局平均池化HGAP生成条状垂直空间向量Z∈RH×C,对浅层特征应用垂直全局平均池化VGAP生成条状水平空间向量H∈RW×C,CSCA模块通过条状水平空间向量H∈RW×C和条状垂直空间向量Z∈RH×C的亲和运算生成通道权重向量ω∈RC×C,并利用通道权重向量ω∈RC×C选择浅层特征的空间信息。权重向量ω的计算公式如下:
Figure BDA0003639919500000032
式中,ω∈RC×C表示通道权重向量,H和W分别表示特征映射的高和宽,
Figure BDA0003639919500000033
表示第C个通道的垂直转置空间向量的点S,HS,C∈RW×C表示第C个通道的水平空间向量的点S,Hn,C∈RW×C表示第C个通道的水平空间向量的点n。
最终的浅层特征空间信息提取和多尺度特征混合可表示为下式:
Figure BDA0003639919500000041
式中,N为特征映射的高H和宽W的乘积;C表示通道数;ωi表示第i个通道权重向量;
Figure BDA0003639919500000042
是浅层特征L∈RHW×C的通道修正;Ω(·)表示1×1卷积层,第一个1×1卷积Ω(·)用于微调混合特征以生成精细的特征映射,第二个1×1卷积Ω(·)则用于生成精细混淆特征F;
Figure BDA0003639919500000043
是修正后的浅层特征与深层特征M∈RH×W×C逐像素相加混合;式(2)和式(3)中的分式
Figure BDA0003639919500000044
均为softmax的实现形式,softmax函数可避免点积造成特征值过大的问题。
CAB模块是将三个特征图1×1卷积层应用于特征图,分别生成查询特征图、关键特征图和值特征图,查询特征图和关键特征图执行交叉亲和操作得到交叉亲和矩阵,交叉亲和矩阵和值特征图执行交叉亲和操作得到融合特征。CAB模块包括两步交叉亲和操作,第一步的交叉亲和操作可表示为下式:
Figure BDA0003639919500000045
式中,H和W分别表示特征映射的高和宽,C表示通道数,K∈RH×W×C为关键特征图,Q′∈RCH×W是在Q∈RH×W×C上执行置换和调整操作形成转位的空间矩阵,点i和点j表示空间向量K∈RH×W×C和Q′∈RCH×W的交叉点,通过矩阵的重构和亲和操作,可以得到交叉亲和矩阵c∈RH ×W
第二步的交叉亲和操作可表示为下式:
Figure BDA0003639919500000051
式中,H和W分别表示特征映射的高和宽,C表示通道数,c∈RH×W为交叉亲和矩阵,V∈RH×W×C是值特征图,i和j分别是c∈RH×W的水平维H和V∈RH×W×C的垂直维W中的单点值,Θ表示连接操作,X∈RH×W×C为特征图,P表示专注矩阵。
而且,所述步骤3中采用ADAM优化策略,训练最小批设置为16,初始学习率设置为0.03,采用power=0.9的“Poly”学习率衰减率lr,其定义如下:
Figure BDA0003639919500000052
式中,lrinitial为初始学习率,iter为当前迭代次数,total_iters为总迭代次数,power为多项式的幂。
对图像数据集训练t个迭代周期,采用衰减速率为4×10-4的L2正则化方法以避免过拟合,采用平均交并比MIOU作为评价方法,其定义如下:
Figure BDA0003639919500000053
式中,n、TP、FP和TA分别代表类数、真正例、假正例和真负例。
与现有技术相比,本发明具有如下优点:
1)提出了一个CSCA模块,使用条状交叉亲和运算来生成通道注意力权重向量以实现经济的浅层特征选择及多尺度特征混合,从而使网络的分割轮廓更清晰,引入解码器的噪声更小;
2)在解码器的尾部引入CAB模块,通过捕获水平和垂直空间维度之间的交叉信息以捕获长范围交叉上下文信息,有效地消除了卷积神经网络(CNN)无法捕获远程上下文信息的限制;
3)本发明提出的网络在实时推理和预测精度之间取得了良好的效果。
附图说明
图1为本发明实施例的网络结构图。
图2为本发明实施例的CSCA模块实现细节。
图3为本发明实施例的CAB模块实现细节。
图4为本发明网络在CamVid数据集的可视化结果,其中图4(a)是原始图像,图4(b)是标签图像,图4(c)是骨干网络预测的结果,图4(d)是本发明提出网络预测的结果。
图5为本发明网络在CityScapes数据集的可视化结果,其中图5(a)是原始图像,图5(b)是标签图像,图5(c)是骨干网络预测的结果,图5(d)是本发明提出网络预测的结果。
具体实施方式
本发明提供一种基于轻量级交叉注意网络的实时语义分割的方法,下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明实施例的流程包括以下步骤:
步骤1,准备图像数据集用于训练和测试。
CityScapes数据集是由不同的城市场景组成,包含5000张精细标签和2000张粗标签。本实施例使用5000张精细标注进行训练,分为2975张训练图像、1525张测试图像和500张评价图像,将所有图像缩放到480×480×3,并且只使用19个语义类。
CamVid数据集原始目的是应用于自动驾驶,选用其中367张、101张和233张用作训练图像、验证图像和测试图像,将图像缩放到480×480×3,并使用12个语义类。
对两种数据集均采用上下、左右翻转,采用随机制度为[0.7,1.2,1.5,1.7]的随机裁剪,采用幅度为[30°,40°]的随机旋转进行数据增强。
步骤2,构建基于交叉注意机制的轻量级实时语义分割网络。
考虑到ResNet18强大的特征提取能力及高效的推理速度,可同时满足解码器对充足语义信息和网络实时性推理速度的需求,因此编码部分仅对ResNet18编码器去除尾部的全连接层以后的部分,其余部分保持不变。考虑到ResNet18的32倍高下采样率的问题,解码部分采用两个CSCA(Channel-wise Strip Cross-confusion Attention)模块捕获充足的空间信息。如图1所示,第一个CSCA模块以编码块Block3(浅层特征)和Block4(深层特征)的输出作为多尺度输入特征,第二个CSCA模块以Block2(浅层特征)和第一个CSCA模块的输出作为多尺度输入特征。对于上下文信息的捕获方面,本发明直接在解码器的尾部附着CAB(Cross Attention Block)模块。对于网络的最终分类器,采用一层1×1卷积(压缩通道数为预测类别数)和8倍的双线性上采样构成。为了提高网络的优化效率,使用辅助监督的形式优化网络(图1中的虚线框所包含的部分)。辅助监督分支只在训练的时候使用,在测试时则直接丢弃,因此不影响网络的实时性推理速度。
网络损耗的计算方式如下:
Figure BDA0003639919500000071
式中,L表示网络总损耗,Lmain表示主分支损耗,Laux表示辅助损耗分支的损耗,所有损耗函数均为交叉熵损耗函数,λ为各辅助损耗分支的权重,设置λ=[0.4,0.4,0.4,0.4,0.4,0.4]。
本发明中将编码器Block2、Block3、Block4、两个CSCA模块和CAB模块的输出作为辅助损耗分支(如图1中虚线方框内的结构图所示)。将每个辅助损失分支的标签缩放到相应的特征分辨率。辅助损耗分支包含两个卷积层,为了实现辅助监督,每个辅助损失分支中的第一层3×3卷积压缩通道到32,第二层1×1卷积则压缩为类别数。
如图2所示,CSCA模块的输入包括深层特征和浅层特征,CSCA模块对深层特征应用水平全局平均池化(HGAP)生成条状垂直空间向量Z∈RH×C,对浅层特征应用垂直全局平均池化(VGAP)生成条状水平空间向量H∈RW×C。CSCA模块通过条状水平空间向量H∈RW×C和条状垂直空间向量Z∈RH×C的亲和运算生成通道权重向量ω∈RC×C,并利用通道权重向量ω∈RC ×C选择浅层特征的空间信息。
权重向量ω的计算公式如下:
Figure BDA0003639919500000081
式中,ω∈RC×C表示通道权重向量,H和W分别表示特征映射的高和宽,
Figure BDA0003639919500000082
表示第C个通道的垂直转置空间向量的点S,HS,C∈RW×C表示第C个通道的水平空间向量的点S,Hn,C∈RW×C表示第C个通道的水平空间向量的点n。
通过
Figure BDA0003639919500000083
和HS,C∈RW×C的亲和运算可以得到多尺度特征跨维度的通道权重向量ω,其小的特征分辨率可高效的提取浅层的空间信息。最终的浅层特征空间信息提取和多尺度特征混合可表示为下式:
Figure BDA0003639919500000084
式中,N为特征映射的高H和宽W的乘积;C表示通道数;ωi表示第i个通道权重向量;
Figure BDA0003639919500000085
是浅层特征L∈RHW×C的通道修正;Ω(·)表示1×1卷积层,第一个1×1卷积Ω(·)用于微调混合特征以生成精细的特征映射,第二个1×1卷积Ω(·)则用于生成精细混淆特征F;
Figure BDA0003639919500000086
是修正后的浅层特征与深层特征M∈RH×W×C逐像素相加混合;式(2)和式(3)中的分式
Figure BDA0003639919500000087
均为softmax的实现形式,softmax函数可避免点积造成特征值过大的问题。
由式(2)和式(3)可以看出,相比NL的计算量O(H2W2C),CSCA模块只需要O(H2C),是NL的1/W2倍,并且CSCA模块的通道权重ω∈RC×C所占用的内存远小于NL的附属矩阵。因此,CSCA模块通道级注意力矩阵ω能有效地选择浅层特征的空间信息以减少解码器的噪声输入。
为了获取非局部的上下文信息,在解码器的尾部引入CAB模块,通过对两个不同特征映射的行和列进行交叉亲和操作,获得垂直和水平方向上的相互依赖信息,如图3所示。图3中Conv表示1×1卷积,
Figure BDA0003639919500000091
表示矩阵点积,Concat表示通道级连接操作,将三个特征图1×1卷积层应用于特征图X∈RH×W×C,分别生成查询特征图Q∈RH×W×C、关键特征图K∈RH×W×C和值特征图V∈RH×W×C,在Q∈RH×W×C上执行置换和调整操作形成转位的空间矩阵Q′∈RCH×W,从K′∈RH×WC和Q′∈RCH×W的形式中可以看出,这两者在水平和垂直维度上形成了交叉空间的关系。
CAB模块包括两步交叉亲和操作,第一步的交叉亲和操作可表示为下式:
Figure BDA0003639919500000092
式中,H和W分别表示特征映射的高和宽,C表示通道数,点i和点j表示空间向量K∈RH×W×C和Q′∈RCH×W的交叉点,通过矩阵的重构和亲和操作,可以得到交叉亲和矩阵c∈RH×W
第二步的交叉亲和操作可表示为下式:
Figure BDA0003639919500000093
式中,H和W分别表示特征映射的高和宽,C表示通道数,i和j分别是c∈RH×W的水平维H和V∈RH×W×C的垂直维W中的单点值,Θ表示连接操作,CAB模块对输入特征图X∈RH×W×C和专注矩阵P采用通道并融合以提高分割精度,最后应用1×1卷积ζ(·)来选择融合特征映射。
由式(4)和式(5)可以看出,注意力矩阵c∈RH×W的内存消耗比NL的注意力矩阵小1/2倍。与CCNet相比,CAB模块只需要一个辅助操作就可以获得交叉信息,大大减少了计算量。
步骤3,使用训练集图像对轻量级实时语义分割网络模型进行训练。
实验在Tensorflow2.4平台上的单张Titan RTX显卡上进行。为了加快优化过程,采用ADAM优化策略,训练最小批设置为16。初始学习率设置为0.03,采用power=0.9的“Poly”学习率衰减率lr,其定义如下:
Figure BDA0003639919500000101
式中,lrinitial为初始学习率,iter为当前迭代次数,total_iters为总迭代次数,power为多项式的幂。
所有实验均无权值迁移训练策略。实验在CityScapes和CamVid数据集分别训练170K和80K个迭代周期,采用衰减速率为4×10-4的L2正则化方法以避免过拟合,采用平均交并比(MIOU)作为评价方法,其定义如下:
Figure BDA0003639919500000102
式中,n、TP、FP和TA分别代表类数、真正例、假正例和真负例。
步骤4,使用步骤3训练好的网络模型对测试集图像进行分割,得到图像语义分割结果。
为了测试网络的实时性,本发明对所有比较网络在同一实验平台上进行测试,测试结果如表1所示。
表1.与其他网络推理速度的比较结果
Figure BDA0003639919500000103
从表1中可以发现,本发明即使使用了ResNet18的大容量编码器,网络依然具有相对较快的推理速度,这说明了本发明提出的网络具有较高的推理效率。虽然ENet、ICNet和BiseNet具有较少的参数量,然而不友好的内存消耗极大的降低了网络的计算量。DFANet因为机制的编码器框架使其具有极高的推理速度,然而这使得其特征提取能力不足的问题。
为了充分的分析网络的轻量化,本发明还测量不同网络的浮点操作数(FLOPs)、参数量和平均交并比(MIOU)。浮点操作数的测量是480×480×3的分辨率计算得到,MIOU是网络在Camvid数据集的训练结果,结果如表2所示。
表2.CamVid测试集各网络计算复杂度和模型大小的比较
Methods GFLOP Model Size(M) MIOU(%)
ENet[32] 3.5 2.35 51.3
SegNet[33] 282.0 112 55.6
ICNet[27] 5.1 24.7 67.1
BiSeNetV2[26] 13.2 11.4 72.4
DFANet-A[8] 3.6 9.8 64.7
Our 31.1 21.3 74.8
从表2中可以看出,虽然本发明的网络浮点操作数和模型大小均不是最优的,但是却取得74.8%的MIOU准确率,比BiseNetV2高出了2.4%。此外,从表1和表2的比较中可以发现,虽然本发明网络的推理速度比DFANet-A慢,计算复杂度GFLOP比DFANet-A高,但本发明网络的MIOU比DFANet-A高10.8%。在所有网络中,SegNet具有较大的GFLOP和模型大小,因此推断速度是最慢的。虽然本发明网络的GFLOP高于所有网络(除了SegNet),但它仍然达到了几乎最快的推理速度。这证实了正如MobileNetV2所指出的,一维卷积降低了网络推理速度,膨胀卷积使网络计算消耗增大。实验结果表明,本发明的网络能够在网络的实时性和准确性之间取得很好的平衡。
图4为本发明的Camvid数据集的可视化结果。从图4中可以发现,与骨干网络比,本网络对小物体和边缘轮廓信息分割准确性高,表明本网络具有充足的空间信息。例如,第一行和第二行中虚线框中的信号灯。与骨干网络相比,本发明对复杂的大尺度物体的分割准确性较高,表明本网络具有充足的上下文信息。例如,第二行中行人与交叉口的分割,第四行中人行道与道路的分割。
图5为本发明的网络在Cityscape数据集上的可视化结果。从图5中第一行和第二行中虚线的分割结果可知,与骨干网络相比,本发明的网络分割轮廓更加清晰,对小物体的分割准确性更高,这表明了CSCA模块捕获了充足的空间信息。从图5中的第三行和第四行的虚线框中复杂物体的分割结果表明,本发明能准确的分割出物体的轮廓,对各种物体的分割准确性高。例如,信号灯下的自行车的准确分割,电线杆旁的人物更加独立。这说明本发明的CAB模块捕获了充足的上下文信息,获取物体更强的依赖信息,提升了网络的分割准确性。
具体实施时,以上流程可采用计算机软件技术实现自动运行流程。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于轻量级交叉注意网络的实时语义分割的方法,其特征在于,包括以下步骤:
步骤1,准备图像数据集用于训练和测试;
步骤2,构建基于交叉注意机制的轻量级实时语义分割网络,包括编码器和解码器,编码器仅去除ResNet18尾部的全连接层以后的部分,其余部分保持不变,解码器包括两个CSCA模块、一个CAB模块和一个分类器,CSCA模块对输入的深层特征应用水平全局平均池化生成条状垂直空间向量,对浅层特征应用垂直全局平均池化生成条状水平空间向量,通过条状水平空间向量和条状垂直空间向量的亲和运算生成通道权重向量,进而利用通道权重向量选择浅层特征的空间信息;CAB模块是将三个特征图1×1卷积层应用于特征图,分别生成查询特征图、关键特征图和值特征图,查询特征图和关键特征图执行交叉亲和操作得到交叉亲和矩阵,交叉亲和矩阵和值特征图执行交叉亲和操作得到融合特征;分类器采用一层1×1卷积和8倍的双线性上采样构成;
步骤3,使用训练集图像对轻量级实时语义分割网络模型进行训练;
步骤4,使用步骤3训练好的网络模型对测试集图像进行分割,得到图像语义分割结果。
2.如权利要求1所述的一种基于轻量级交叉注意网络的实时语义分割的方法,其特征在于:步骤1中对训练集中的图像进行缩放、上下、左右翻转、随机裁剪、随机旋转来扩充数据集。
3.如权利要求1所述的一种基于轻量级交叉注意网络的实时语义分割的方法,其特征在于:步骤2中基于交叉注意机制的轻量级实时语义分割网络解码部分包括两个CSCA模块,第一个CSCA模块以浅层特征块Block3和深层特征块Block4的输出作为多尺度输入特征,第二个CSCA模块以浅层特征块Block2和第一个CSCA模块的输出作为多尺度输入特征;将编码器Block2、Block3、Block4、两个CSCA模块和CAB模块的输出作为网络的辅助损耗分支,将每个辅助损失分支的标签缩放到相应的特征分辨率,辅助损耗分支包含两个卷积层,每个辅助损失分支中的第一层3×3卷积压缩通道到32,第二层1×1卷积压缩为类别数;使用辅助监督的形式优化网络,网络损耗的计算方式如下:
Figure FDA0003639919490000021
式中,L表示网络总损耗,Lmain表示主分支损耗,Laux表示辅助损耗分支的损耗,所有损耗函数均为交叉熵损耗函数,λ为各辅助损耗分支的权重。
4.如权利要求1所述的一种基于轻量级交叉注意网络的实时语义分割的方法,其特征在于:步骤2中CSCA模块的输入包括深层特征和浅层特征,对深层特征应用水平全局平均池化HGAP生成条状垂直空间向量Z∈RH×C,对浅层特征应用垂直全局平均池化VGAP生成条状水平空间向量H∈RW×C,CSCA模块通过条状水平空间向量H∈RW×C和条状垂直空间向量Z∈RH×C的亲和运算生成通道权重向量ω∈RC×C,并利用通道权重向量ω∈RC×C选择浅层特征的空间信息,权重向量ω的计算公式如下:
Figure FDA0003639919490000022
式中,ω∈RC×C表示通道权重向量,H和W分别表示特征映射的高和宽,ZCT,S∈RC×H表示第C个通道的垂直转置空间向量的点S,HS,C∈RW×C表示第C个通道的水平空间向量的点S,Hn,C∈RW×C表示第C个通道的水平空间向量的点n;
最终的浅层特征空间信息提取和多尺度特征混合可表示为下式:
Figure FDA0003639919490000023
式中,N为特征映射的高H和宽W的乘积;C表示通道数;ωi表示第i个通道权重向量;
Figure FDA0003639919490000024
是浅层特征L∈RHW×C的通道修正;Ω(·)表示1×1卷积层,第一个1×1卷积Ω(·)用于微调混合特征以生成精细的特征映射,第二个1×1卷积Ω(·)则用于生成精细混淆特征F;
Figure FDA0003639919490000031
是修正后的浅层特征与深层特征M∈RH×W×C逐像素相加混合;式(2)和式(3)中的分式
Figure FDA0003639919490000032
均为softmax的实现形式,softmax函数可避免点积造成特征值过大的问题。
5.如权利要求1所述的一种基于轻量级交叉注意网络的实时语义分割的方法,其特征在于:步骤2中CAB模块包括两步交叉亲和操作,第一步的交叉亲和操作可表示为下式:
Figure FDA0003639919490000033
式中,H和W分别表示特征映射的高和宽,C表示通道数,K∈RH×W×C为关键特征图,Q′∈RCH ×W是在Q∈RH×W×C上执行置换和调整操作形成转位的空间矩阵,点i和点j表示空间向量K∈RH ×W×C和Q′∈RCH×W的交叉点,通过矩阵的重构和亲和操作,可以得到交叉亲和矩阵c∈RH×W
第二步的交叉亲和操作可表示为下式:
Figure FDA0003639919490000034
式中,H和W分别表示特征映射的高和宽,C表示通道数,c∈RH×W为交叉亲和矩阵,V∈RH ×W×C是值特征图,i和j分别是c∈RH×W的水平维H和V∈RH×W×C的垂直维W中的单点值,Θ表示连接操作,X∈RH×W×C为特征图,P表示专注矩阵。
6.如权利要求1所述的一种基于轻量级交叉注意网络的实时语义分割的方法,其特征在于:步骤3中采用ADAM优化策略,训练最小批设置为16,初始学习率设置为0.03,采用power=0.9的“Poly”学习率衰减率lr,其定义如下:
Figure FDA0003639919490000041
式中,lrinitial为初始学习率,iter为当前迭代次数,total_iters为总迭代次数,power为多项式的幂;
对图像数据集训练t个迭代周期,采用衰减速率为4×10-4的L2正则化方法以避免过拟合,采用平均交并比MIOU作为评价方法,其定义如下:
Figure FDA0003639919490000042
式中,n、TP、FP和TA分别代表类数、真正例、假正例和真负例。
CN202210516623.9A 2022-05-12 2022-05-12 一种基于轻量级交叉注意网络的实时语义分割的方法 Pending CN114972752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210516623.9A CN114972752A (zh) 2022-05-12 2022-05-12 一种基于轻量级交叉注意网络的实时语义分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210516623.9A CN114972752A (zh) 2022-05-12 2022-05-12 一种基于轻量级交叉注意网络的实时语义分割的方法

Publications (1)

Publication Number Publication Date
CN114972752A true CN114972752A (zh) 2022-08-30

Family

ID=82982127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210516623.9A Pending CN114972752A (zh) 2022-05-12 2022-05-12 一种基于轻量级交叉注意网络的实时语义分割的方法

Country Status (1)

Country Link
CN (1) CN114972752A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372430A (zh) * 2023-12-06 2024-01-09 阿米华晟数据科技(江苏)有限公司 一种构建图像检测模型的方法、装置及图像检测模型

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372430A (zh) * 2023-12-06 2024-01-09 阿米华晟数据科技(江苏)有限公司 一种构建图像检测模型的方法、装置及图像检测模型

Similar Documents

Publication Publication Date Title
Zheng et al. Resa: Recurrent feature-shift aggregator for lane detection
CN111369565A (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
CN109670555B (zh) 基于深度学习的实例级行人检测和行人重识别系统
CN115984494A (zh) 一种基于深度学习的月面导航影像三维地形重建方法
CN110991444A (zh) 面向复杂场景的车牌识别方法及装置
CN114463492B (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN112819000A (zh) 街景图像语义分割系统及分割方法、电子设备及计算机可读介质
CN112766123B (zh) 一种基于纵横交叉注意力网络的人群计数方法及系统
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN114820579A (zh) 一种基于语义分割的图像复合缺陷的检测方法及系统
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN115035298A (zh) 基于多维注意力机制的城市街景语义分割增强方法
CN115035240B (zh) 实时三维场景重建方法及装置
Zhou et al. Attention transfer network for nature image matting
CN114972752A (zh) 一种基于轻量级交叉注意网络的实时语义分割的方法
CN111741313A (zh) 基于图像熵k均值聚类的3d-hevc快速cu分割方法
CN114612456B (zh) 一种基于深度学习的钢坯自动语义分割识别方法
CN110853040B (zh) 一种基于超分辨率重建的图像协同分割方法
CN114708423A (zh) 基于改进Faster RCNN的水下目标检测方法
Yao et al. Sparse Point Guided 3D Lane Detection
Guo et al. Udtiri: An open-source road pothole detection benchmark suite
Kang et al. Lightweight Image Matting via Efficient Non-Local Guidance
Li et al. Refined Division Features Based on Transformer for Semantic Image Segmentation
CN112446292A (zh) 一种2d图像显著目标检测方法及系统
Zhang et al. A lightweight multi-dimension dynamic convolutional network for real-time semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination