CN112651973B - 基于特征金字塔注意力和混合注意力级联的语义分割方法 - Google Patents
基于特征金字塔注意力和混合注意力级联的语义分割方法 Download PDFInfo
- Publication number
- CN112651973B CN112651973B CN202011469194.1A CN202011469194A CN112651973B CN 112651973 B CN112651973 B CN 112651973B CN 202011469194 A CN202011469194 A CN 202011469194A CN 112651973 B CN112651973 B CN 112651973B
- Authority
- CN
- China
- Prior art keywords
- attention
- feature
- feature map
- channel
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征金字塔注意力和混合注意力级联的语义分割方法,包括:构建语义分割训练集;构建深度卷积神经网络,所述深度卷积神经网络包括编码器部分、2个特征金字塔注意力模块、混合注意力模块、解码分支、特征融合部分以及深度可分离卷积层;利用语义分割训练集对深度卷积神经网络进行训练,修正网络参数;将待分割街景道路场景图像输入训练好的深度卷积神经网络获得分割结果。本发明能较好的适应无人车设备对于精度和速度的需求。
Description
技术领域
本发明属于模式识别技术,具体为一种基于特征金字塔注意力和混合注意力级联的语义分割方法。
背景技术
图像语义分割(semantic segmentation),也称场景解析(scene parsing),是目前计算机视觉中一个基础且具有挑战性的研究方向,其任务是给图像中的每个像素分配语义标签,将一个场景图像分割并解析为不同的图像区域,这些图像区域与语义类别相对应,包括连续对象(如天空、道路、草地)和离散对象(如人、汽车、自行车)等。
图像语义分割技术使计算器能够理解包含多类别物体的复杂图像,这方面的研究在无人车、机器人感知、医学图像等领域有广泛的应用价值。近年来,由于GPU计算和大量标注数据集的出现,深度学习这类依靠大量参数来拟合复杂特征的技术兴起,计算机视觉在图像识别领域有了突破性进展。自2015年Jon L提出FCN,引入对图像进行像素级密集预测的概念,其难点在于,密集类别预测需要保证从低分辨率特征图中生成准确的像素分类信息,同时又要兼顾从高分辨率特征图中获取足够多的位置信息;实际场景中,语义分割模型需要克服光照遮挡等复杂环境因素的影响;并且对物体存在的多尺度、多姿态现象具有良好的泛化能力。
目前的语义分割算法模型参数量过多,计算量多大,限制了分割技术的落地和应用。在对于实时性要求较高的场景中,例如自动驾驶领域,具备快速推理能力的语义分割方法显得尤为重要。现存的快速语义分割算法,通常仅保留了用于图像特征提取和恢复的简单编解码器结构,缺少对多尺度特征信息的充分利用,导致其分割精度过低,尤其对分割目标的边缘细节处理较差,难以满足实际应用对分割精度的要求。
发明内容
本发明的目的在于提供了一种基于特征金字塔注意力和混合注意力级联的语义分割方法。
实现本发明目的的技术方案为:一种基于特征金字塔注意力和混合注意力级联的语义分割方法,具体步骤为:
步骤1、构建语义分割训练集;
步骤2、构建深度卷积神经网络,所述深度卷积神经网络包括编码器部分、2个特征金字塔注意力模块、混合注意力模块、解码分支、特征融合部分以及深度可分离卷积层,所述编码器部分用于对输入图像进行编码获得四种尺寸的特征图,所述2个特征金字塔注意力模块分别对2中尺寸特征图进行多尺度和上下文信息捕获,所述特征融合部分用于将2个特征金字塔注意力模块获得特征图进行融合,所述混合注意力模块用于从特征图的空间和通道维度建立相关性表征;所述解码分支用于将混合注意力模块得到的特征图上采样2倍并与编码器部分产生的特征图合并;
步骤3、利用语义分割训练集对深度卷积神经网络进行训练,修正网络参数;
步骤4、将待分割街景道路场景图像输入训练好的深度卷积神经网络获得分割结果。
优选地,所述编码器部分的构建方式为:
移除MobileNetV2最后三层用作分类任务的全连接层和均值池化层;
将MobileNetV2中连续的瓶颈结构,根据所要产生的特征图的不同尺寸重新划分为4个连续的瓶颈结构。
优选地,每个瓶颈结构的输出特征图F(x)具体为:
式中,n表示该瓶颈结构中残差块个数,x代表输入的特征图,其中Ai表示残差块中的1×1线性变换卷积,N表示残差块中的3×3深度可分离卷积层,Bi表示残差块中的1×1线性变换卷积。
优选地,所述特征金字塔注意力模块包括特征金字塔池化结构和注意力引导分支,所述特征金字塔池化结构用于捕获特征的多尺度和上下文信息,具体为:对输入特征图F,分别采用4种不同尺寸的均值池化策略,生成4组感受野大小不同的特征图,对每组特征图经过1×1卷积层,通过上采样恢复至和输入特征图相同尺寸,将4组特征图合并得到特征图Apool,将特征图Apool与输入特征图F合并,经过1×1卷积压缩通道至与输入特征图相同通道数,得到特征图APPM;
所述注意力引导分支用于对全局特征信息进行聚合并提供对特征金字塔池化结构的特征引导,具体为:对输入特征图F,依次进行全局池化、1×1非线性卷积、sigmoid变换,得到注意力特征图Aattention_map,并将注意力特征图Aattention_map施加在输入特征图R上,得到注意力引导特征图AARM=Aattention_map·F;
特征金字塔池化结构和注意力引导分支所得特征图作元素级相加作为特征金字塔注意力模块的输出。
优选地,所述混合注意力模块包括空间注意力模块和通道注意力模块,分别用于计算给定特征图的空间注意力矩阵和通道注意力矩阵。
优选地,计算给定特征图的空间注意力矩阵的具体过程为:
对于给定特征图A∈RC*H*W,经过一层线性卷积层,得两幅相同特征图B,C,{B,C}∈RC*H*W,均将其reshape为RC*N,N=H*W,RC*H*W表示特征图的通道数为C,尺寸为H*W,用特征图B点乘特征图C的转置,并进行softmax变换,得到注意力特征图S∈RN*N单个通道下的特征图中第i个位置点对于第j个位置点的概率权重:
式中,Bi代表特征图B中第i个位置的值,Cj代表特征图C中第j个位置的值,N=H*W表示矩阵平铺后像素点的个数,sji表示单个通道下的特征图中第i个位置点对于第j个位置点的概率权重;
对特征图A经过一层线性变换出特征图D∈RC*H*W并reshape为RC*N,并与得到的注意力特征图S的转置作矩阵乘法并reshape为RC*H*W,得到空间注意力参数矩阵;根据注意力特征图得到空间注意力矩阵ES∈RC*H*W:
式中,Di为特征图D在位置i上的元素,ESj为空间注意力矩阵在位置j上的元素,α为需要训练的附加权重,Aj代表特征图A在位置j上的元素。
优选地,生成通道注意力矩阵的具体过程为:
对于给定特征图A∈RC*H*W,reshape至RC*N,乘以自身的转置,得到C*C的矩阵,进行softmax变换,得到注意力特征图X∈RC*C:
Ai,Aj分别表示特征图A在i通道和j通道的元素,C表示特征图的通道个数;xji代表第i个通道对第j个通道的概率权重;
根据注意力特征图得到通道注意力矩阵EC∈RC*H*W,具体为:
xji代表对注意力特征图X转置后的矩阵,Ai,Aj分别表示特征图A在i通道和j通道的元素,ECj代表通道注意力矩阵在位置j上的元素,β为需要训练的附加权重。
优选地,所述深度卷积神经网络对图像的处理过程为:
输入图像经过编码器部分,获得四种尺寸的特征图c1、c2、c3、c4,特征图c1下采样了4倍,特征图c2下采样了8倍,特征图c3下采样了16倍,特征图c4下采样了32倍;
分别对特征图c3,c4使用特征金字塔注意力模块,将对c4使用过特征金字塔注意力模块的特征图经过融合层1并上采样2倍,与对c3使用过特征金字塔注意力模块的特征图合并通道后再经过融合层2,得到下采样16倍且通道为320的特征图;
将得到的特征图送入混合注意力模块,从特征图的空间和通道维度建立相关性表征,输出结果为下采样16倍且通道为160的特征图;
将经过混合注意力模块得到的特征图上采样2倍并与编码器部分产生的特征图c2合并通道,输出8倍下采样的192通道特征图;
经过两组输出为128通道的深度可分离卷积层,经softmax层完成预测。
优选地,包括辅助监督层1和辅助监督层2,所述辅助监督层1用于对编码器部分得到的特征图c2进行直接预测;所述辅助监督层2用于对混合注意力模块得到的特征图进行直接预测。
本发明与现有技术相比,其显著优点为:
(1)本发明构建一种基于注意力引导的特征金字塔池化模块,有效地聚合了特征的多尺度和上下文语义信息;
(2)本发明设计了一种混合注意力级联的优化模块,能够以前一部分特征金字塔产生的特征图作为输入,从空间维度和通道维度上同时对特征图之间的语义依赖建模,进一步改进特征表示;
(3)本发明提出一种层级融合的结构,采用深度可分离卷积逐步融合不同尺度的特征图,最大限度保留了高层丰富的类别语义信息,又能够获取低层足够的位置语义信息;
(4)本发明构建的解码器结构引入了编码器部分生成的高分辨率特征图,优化对分割目标边缘和细节的处理,受益于深度可分离卷积的融合方式,又保证了整个网络的推理速度;
(5)本发明对以上设计的深度卷积神经网络设计了两路辅助层和对应的辅助损失函数,用于分别监督低分辨率和高分辨率特征图直接产生的预测结果。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是直观的语义分割可视化示意图。
图2是基于特征金字塔注意力和混合注意力级联的语义分割方法的卷积神经网络的结构图。
图3是MobileNetV2分类网络结构和本发明中编码器部分的网络结构示意图,图3中的(a)是MobileNetV2分类网络结构示意图,图3中的(b)是本发明中编码器部分的网络结构和相关参数配置。
图4是特征金字塔注意力模块(PWA,Pyramid pooling With Attentionrefinement module)的示意图。
图5是混合注意力模块(DAM,Dual Attention Module)的流程图。
图6是用于额外监督训练的两路辅助层(AUX,Auxiliary Layer)的配置示意图
具体实施方式
一种基于特征金字塔注意力和混合注意力级联的语义分割方法,具体步骤为:
步骤1、构建语义分割训练集,具体为:
对Cityscapes城市道路数据集中图像作预处理,根据数据集的RGB均值(0.485,0.456,0.406)和方差(0.229,0.224,0.225),进行归一标准化处理,2975张精标注图像作为训练集,500张精标注图像作为验证集。
步骤2、构建深度卷积神经网络,整体结构如图2所示:
所述深度卷积神经网络包括编码器部分、特征金字塔注意力模块、混合注意力模块、特征融合部分、解码分支。
进一步的实施例中,所述编码器部分采用现有的MobileNetV2中的结构,如图3中的(a)所示,本发明对其做了调整用作语义分割任务,如图3中的(b)。表中c代表输出通道数,t代表扩张通道系数,n代表该层重复多少次,s代表该模块第一层下采样倍数,(b)中Feature map代表本发明中该瓶颈结构最后一层输出的特征图的名称。具体做法为:
(1)移除MobileNetV2最后三层用作分类任务的全连接层和均值池化层,保留其余结构作为本发明的编码结构。MobileNetV2具体结构参考“Sandler M,Howard A,Zhu ML,etal.MobileNetV2:inverted residuals and linearbottlene cks.IEEE Conf onComputer Vision and Pattern Recognition,p.4510-4520.2018”
(2)为适应语义分割任务对不同尺度特征图的需求,将连续的瓶颈结构(bottleneck),按照产生的特征图的不同尺寸将其重新划分为4个连续的瓶颈结构,即每经过一个瓶颈结构会将图像下采样2倍并产生一种尺寸的特征图,如图3中的(b)。
每个瓶颈结构包含多个连续的残差块,每个残差块由三部分组成:1×1线性变换卷积将通道扩张t倍,3×3深度可分离卷积用于特征提取,1×1线性变换卷积将通道压缩至设定的输出通道。深度可分离卷积具有高效的特征编码能力,其计算量表示为:
hi·wi·di(k2+dj)
其中k为卷积核尺寸,hi、wi为输入图像尺寸,di、dj分别为输入、输出通道数目。在本实施例中,k为3,参数量为标准3×3卷积的1/9。
瓶颈结构中的输出表示为:
式中,n表示该瓶颈结构中残差块个数,对于输入特征图x∈RC*H*W,其中Ai表示残差块中的1×1线性变换卷积,用于扩张通道;RC*H*W→RN*H*W,将通道从C扩张为N,其中N=t*C,N表示残差块中的3×3深度可分离卷积层,用作非线性变换;Bi表示残差块中的1×1线性变换卷积,用于压缩通道,RN*H′*W′→RC′*H′*W′,随着神经网络加深,通道为C的特征图增加到C′。
当C=C′且非线性变换层N不采用下采样时,引入残差连接,表示为:
xl+1=xl+F(xl)
F(·)为瓶颈结构的输出表达式,xl为输入特征图的等值映射。
进一步的实施例中,所述特征金字塔注意力模块(PWA)包括特征金字塔池化结构(PPM)和注意力引导分支(ARM),具体结构如图4所示。
特征金字塔池化结构(PPM)作用于捕获特征的多尺度和上下文信息,具体为:对于输入特征图F∈RC*H*W,对其分别采用4种不同尺寸(size=1,2,3,6)的均值池化策略,生成4组感受野大小不同的特征图Apool1∈RC*1*1,Apool2∈RC*2*2,Apool3∈RC*3*3,Apool4∈RC*6*6,对每组特征图经过1×1卷积层变将通道变换至C/4,再通过上采样恢复至尺寸H*W,得Apool(1~4)∈RC/4*H*W,对4组特征图通道合并得Apool∈RC*H*W。将特征图Apool与原始特征图A合并通道,再经过1×1卷积压缩通道至C,输出特征图APPM∈RC*H*W。
注意力引导分支(ARM)用于对全局特征信息的聚合并提供对特征金字塔池化模块的特征引导。具体为:对于输入特征图F∈RC*H*W,顺序地对其施加全局池化、1×1非线性卷积层、sigmoid变换,得到注意力特征图Aattention_map∈RC*1*1,并施加在原始特征图A上,得到注意力引导特征图AARM=Aattention_map·A。
将特征金字塔与注意力引导分支所得特征图作元素级(element-wise)相加,APWA=APPM+AARM。因此对于给定特征图A∈RC*H*W,经过提出的特征金字塔注意力模块后:A∈RC*H*W→APWA∈RC*H*W,拥有更丰富的特征表示,且维度不会发生改变。
进一步的实施例中,所述混合注意力模块包括空间注意力模块和通道注意力模块,结构如图5所示,分别用于计算给定特征图的空间注意力矩阵(position attentionmodule)和通道注意力矩阵(channel attention module)。
生成空间维度的注意力矩阵的具体过程为:
对于给定特征图A∈RC*H*W,先经过一层线性卷积层,得B,C特征图,{B,C}∈RC*H*W,均将其reshape为RC*N,N=H*W,表示在空间维度将尺寸W*H的特征图平铺成N个像素点,此时对于二维矩阵B、C,用B点乘C的转置,再对得到的N*N大小的矩阵,施加softmax变换,得到注意力特征图S∈RN*N:
Bi代表矩阵B在第i个位置的值,Cj代表矩阵C在第j个位置的值,N=H*W表示矩阵平铺后像素点的个数。此时sji衡量出了单通道特征图中第i个位置点对于第j个位置点的概率权重,两个位置的特征表示越相似,则两者之间的相关性越大。对之前的A矩阵再次线性变换出D∈RC*H*W并reshape为RC*N,与得到的注意力特征图S的转置作矩阵乘法并reshape为RC *H*W得到空间注意力参数矩阵,记为A*,此时注意力参数矩阵A*和最初的A有同样维度(C*H*W),对注意力参数矩阵A*附加权重α后与A矩阵作元素级(element-wise)相加,相当于对原始特征图A附加了注意力机制,得到空间注意力矩阵ES∈RC*H*W:
sjiDi为空间注意力参数矩阵A*,ESj为空间注意力矩阵在位置j上的元素,其中α初始化为0,经训练后修正空间注意力矩阵中注意力机制所占的权重。
生成通道注意力矩阵的具体过程为:
对于给定特征图A∈RC*H*W,reshape至RC*N,乘以自身的转置,得到C*C的矩阵,然后进行softmax变换,得到注意力特征图X∈RC*C:
Ai,Aj分别表示特征图A在i通道和j通道的值,C表示特征图的通道个数,此时xji衡量出了第i个通道对第j个通道的依赖关系,接着将X矩阵转置后乘以A,并reshape为RC*H*W得到通道注意力参数矩阵,记为A*,此时注意力参数矩阵A*和最初的A有同样维度(C*H*W),对注意力参数矩阵A*附加权重β后与A矩阵作元素级(element-wise)相加,相当于对原始特征图A附加了注意力机制,得到EC∈RC*H*W:
xjiAi为通道注意力参数矩阵A*,ECj代表通道注意力矩阵在位置j上的元素,同样的,β初始设为0,经训练后修正通道注意力矩阵中注意力机制所占的权重。
进一步的实施例中,所述特征融合部分包括融合层1,2,所述融合层1,2均为深度可分离卷积,如图2所示的。作用在于:(1)对不同尺度的特征图在经过上采样、合并通道后进行语义信息的聚合。(2)用于压缩通道、通道对齐,减少了算法的复杂度,充分保留多尺度上下文信息。
进一步的实施例中,所述解码分支用于对编码器部分产生的高分辨率进行特征复用,提取分割目标的空间和位置信息,优化对目标边缘细节的分割处理。
进一步的实施例中,所述辅助监督层部分包含两路直接对分割结果作预测的分支,详细见图2和图6,即包括辅助监督层1和辅助监督层2,所述辅助监督层1用于对编码器部分得到的特征图c2进行直接预测;所述辅助监督层2用于对混合注意力模块得到的特征图进行直接预测。从两个角度对网络训练拟合,保证了网络既拥有更好的像素级分类能力,也具备精确的目标定位能力。
所述深度卷积神经网络对图像的处理过程为:
(1)输入图像经过编码器部分,获得四种尺寸的特征图c1(下采样4倍),c2(下采样8倍),c3(下采样16倍),c4(下采样32倍),通道分别为24,32,96,320。(2)分别对特征图c3,c4施加特征金字塔注意力模块(PWA)用于捕获特征的多尺度和上下文信息,将对c4施加过PWA的特征图经过融合层1并上采样2倍,与对c3施加PWA过后的特征图合并通道后再经过融合层2,输出为下采样16倍且通道为320的特征图。(3)将上述得到的特征图送入混合注意力模块(DAM),从特征图的空间和通道维度建立相关性表征,输出结果为下采样16倍且通道为160的具有高表征能力的特征图。(4)为优化处理分割细节引入解码分支,将混合注意力模块得到的特征图上采样2倍并与编码器部分产生的高分辨率特征图c2合并通道,输出8倍下采样的192通道特征图。(5)最后经过两组输出为128通道的深度可分离卷积层,再经softmax层后,完成预测。
步骤3、对上述构建的卷积神经网络进行训练修正网络参数(网络的反向传播);
准备标签:
(1)在Cityscapes官方数据集提供的标签文件中,选用以gtFine_labelIds结尾的对33个类别作了标注的类别标签图。
(2)将第7,8,11,12,13,17,19,20,21,22,23,24,25,26,27,28,31,32,33作为有效类,按顺序重新赋予标签0~18,其余类别不参与训练和验证。
本发明训练网络的硬件配置:显卡为NVIDIA TITAN Xp 12G,CPU为intel E5-26202.10GHz。
本发明训练网络的软件配置:ubuntu 16.04,python 3.6.8,pytorch 1.1.0
训练策略为:批训练样本尺寸16,随机裁剪尺寸至769像素,优化器采为随机梯度下降SGD,动量0.9,初始学习率0.02,采用poly学习策略: 最大迭代次数为(总训练样本数2975//批训练样本尺寸16)*训练轮次,其中训练轮次为400,损失函数为混合softmax交叉熵损失。
训练深度卷积神经网络时,预测阶段前添加dropout层,抑制掉10%的神经元,以抵抗过拟合问题,将经过辅助监督层1作预测产生的损失值loss辅1和经过辅助监督层2作预测产生的损失值loss辅2联合训练。网络的整体损失函数表示为:
Loss=loss主+α*(loss辅1+loss辅2)
loss主代表经过整个网络流程得到的预测结果所产生的损失值,其中辅助损失函数权重α=0.4。
步骤4、将训练好的神经网络用作各种场景的分割、测试。
本发明编码器部分采用残差结构的深度可分离卷积完成对图像特征的编码;设计了一种注意力引导的特征金字塔模块捕获物体的多尺度特征;设计了一种适用于轻量化网络的混合注意力模块,同时从空间和通道维度对特征图的语义相关性建模,进一步改进特征表示;特征融合部分采用连续的深度可分离卷积最大程度的保留像素级的分类信息;通过设计有效的解码分支,获得足够的空间位置信息来优化分割物体的边缘,进一步提高分割精确度。
本发明公开了一种高效且精确的语义分割方法,出色的完成了对街景道路场景图像端到端的语义分割,能够适应无人车设备对精度和速度的需求。
为证明本发明的性能优越性,对训练好的神经网络,在Cityscapes验证集上测试分割效果,用于语义分割的指标主要为mIoU(平均交并比),其中P为预测值,G为真实值。mIoU越高,可以认为图像语义分割系统性能越好,视觉效果越好,图表为对数据集中各个类别的分割精度,显示了本发明对比目前主流快速分割网络的优势:
由于部分优秀算法未提供具体对类别的分割结果,下图表对它们进行了整理:
注:*代表算法取得较优成绩
可以发现本发明对精度和速度有着优秀的平衡,获得76.51mIoU,在1024*2048大分辨率图像上取得18.2fps的推理速度,计算量仅有28.3Gflops,在单卡Titan Xp推理速度为18.2fps,参数量3.9M,占用存储空间15MB,本发明能较好的适应无人车设备对于精度和速度的需求。
Claims (9)
1.一种基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,具体步骤为:
步骤1、构建语义分割训练集;
步骤2、构建深度卷积神经网络,所述深度卷积神经网络包括编码器部分、2个特征金字塔注意力模块、混合注意力模块、解码分支、特征融合部分以及深度可分离卷积层,所述编码器部分用于对输入图像进行编码获得四种尺寸的特征图,所述2个特征金字塔注意力模块分别对2种尺寸特征图进行多尺度和上下文信息捕获,所述特征融合部分用于将2个特征金字塔注意力模块获得特征图进行融合,所述混合注意力模块用于从特征图的空间和通道维度建立相关性表征;所述解码分支用于将混合注意力模块得到的特征图上采样2倍并与编码器部分产生的特征图合并;
步骤3、利用语义分割训练集对深度卷积神经网络进行训练,修正网络参数;
步骤4、将待分割街景道路场景图像输入训练好的深度卷积神经网络获得分割结果。
2.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,所述编码器部分的构建方式为:
移除MobileNetV2最后三层用作分类任务的全连接层和均值池化层;
将MobileNetV2中连续的瓶颈结构,根据所要产生的特征图的不同尺寸重新划分为4个连续的瓶颈结构。
4.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,所述特征金字塔注意力模块包括特征金字塔池化结构和注意力引导分支,所述特征金字塔池化结构用于捕获特征的多尺度和上下文信息,具体为:对输入特征图F,分别采用4种不同尺寸的均值池化策略,生成4组感受野大小不同的特征图,对每组特征图经过1×1卷积层,通过上采样恢复至和输入特征图相同尺寸,将4组特征图合并得到特征图Apool,将特征图Apool与输入特征图F合并,经过1×1卷积压缩通道至与输入特征图相同通道数,得到特征图APPM;
所述注意力引导分支用于对全局特征信息进行聚合并提供对特征金字塔池化结构的特征引导,具体为:对输入特征图F,依次进行全局池化、1×1非线性卷积、sigmoid变换,得到注意力特征图Aattention_map,并将注意力特征图Aattention_map施加在输入特征图R上,得到注意力引导特征图AARM=Aattention_map·F;
特征金字塔池化结构和注意力引导分支所得特征图作元素级相加作为特征金字塔注意力模块的输出。
5.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,所述混合注意力模块包括空间注意力模块和通道注意力模块,分别用于计算给定特征图的空间注意力矩阵和通道注意力矩阵。
6.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,计算给定特征图的空间注意力矩阵的具体过程为:
对于给定特征图A∈RC*H*W,经过一层线性卷积层,得两幅相同特征图B,C,{B,C}∈RC*H*W,均将其reshape为RC*N,N=H*W,RC*H*W表示特征图的通道数为C,尺寸为H*W,用特征图B点乘特征图C的转置,并进行softmax变换,得到注意力特征图S∈RN*N单个通道下的特征图中第i个位置点对于第j个位置点的概率权重:
式中,Bi代表特征图B中第i个位置的值,Cj代表特征图C中第j个位置的值,N=H*W表示矩阵平铺后像素点的个数,sji表示单个通道下的特征图中第i个位置点对于第j个位置点的概率权重;
对特征图A经过一层线性变换出特征图D∈RC*H*W并reshape为RC*N,并与得到的注意力特征图S的转置作矩阵乘法并reshape为RC*H*W,得到空间注意力参数矩阵;根据注意力特征图得到空间注意力矩阵ES∈RC*H*W:
式中,Di为特征图D在位置i上的元素,ESj为空间注意力矩阵在位置j上的元素,α为需要训练的附加权重,Aj代表特征图A在位置j上的元素。
7.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,生成通道注意力矩阵的具体过程为:
对于给定特征图A∈RC*H*W,reshape至RC*N,乘以自身的转置,得到C*C的矩阵,进行softmax变换,得到注意力特征图X∈RC*C:
Ai,Aj分别表示特征图A在i通道和j通道的元素,C表示特征图的通道个数;xji代表第i个通道对第j个通道的概率权重;
根据注意力特征图得到通道注意力矩阵EC∈RC*H*W,具体为:
xji代表对注意力特征图X转置后的矩阵,Ai,Aj分别表示特征图A在i通道和j通道的元素,ECj代表通道注意力矩阵在位置j上的元素,β为需要训练的附加权重。
8.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,所述深度卷积神经网络对图像的处理过程为:
输入图像经过编码器部分,获得四种尺寸的特征图c1、c2、c3、c4,特征图c1下采样了4倍,特征图c2下采样了8倍,特征图c3下采样了16倍,特征图c4下采样了32倍;
分别对特征图c3,c4使用特征金字塔注意力模块,将对c4使用过特征金字塔注意力模块的特征图经过融合层1并上采样2倍,与对c3使用过特征金字塔注意力模块的特征图合并通道后再经过融合层2,得到下采样16倍且通道为320的特征图;
将得到的特征图送入混合注意力模块,从特征图的空间和通道维度建立相关性表征,输出结果为下采样16倍且通道为160的特征图;
将经过混合注意力模块得到的特征图上采样2倍并与编码器部分产生的特征图c2合并通道,输出8倍下采样的192通道特征图;
经过两组输出为128通道的深度可分离卷积层,经softmax层完成预测。
9.根据权利要求8所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,包括辅助监督层1和辅助监督层2,所述辅助监督层1用于对编码器部分得到的特征图c2进行直接预测;所述辅助监督层2用于对混合注意力模块得到的特征图进行直接预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011469194.1A CN112651973B (zh) | 2020-12-14 | 2020-12-14 | 基于特征金字塔注意力和混合注意力级联的语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011469194.1A CN112651973B (zh) | 2020-12-14 | 2020-12-14 | 基于特征金字塔注意力和混合注意力级联的语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651973A CN112651973A (zh) | 2021-04-13 |
CN112651973B true CN112651973B (zh) | 2022-10-28 |
Family
ID=75354102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011469194.1A Active CN112651973B (zh) | 2020-12-14 | 2020-12-14 | 基于特征金字塔注意力和混合注意力级联的语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651973B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222904B (zh) * | 2021-04-21 | 2023-04-07 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
CN113221969A (zh) * | 2021-04-25 | 2021-08-06 | 浙江师范大学 | 一种基于物联网感知的双特征融合的语义分割系统及方法 |
CN113095330A (zh) * | 2021-04-30 | 2021-07-09 | 辽宁工程技术大学 | 一种用于语义分割像素组的压缩注意力模型 |
CN113269783A (zh) * | 2021-04-30 | 2021-08-17 | 北京小白世纪网络科技有限公司 | 一种基于三维注意力机制的肺结节分割方法及装置 |
CN113362338B (zh) * | 2021-05-24 | 2022-07-29 | 国能朔黄铁路发展有限责任公司 | 铁轨分割方法、装置、计算机设备和铁轨分割处理系统 |
CN113222044B (zh) * | 2021-05-25 | 2022-03-08 | 合肥工业大学 | 一种基于三元注意力和尺度关联融合的宫颈液基细胞分类方法 |
CN113222823B (zh) * | 2021-06-02 | 2022-04-15 | 国网湖南省电力有限公司 | 基于混合注意力网络融合的高光谱图像超分辨率方法 |
CN113468867A (zh) * | 2021-06-04 | 2021-10-01 | 淮阴工学院 | 一种基于Attention机制的参考文献引用合法性预测方法 |
CN113744279B (zh) * | 2021-06-09 | 2023-11-14 | 东北大学 | 一种基于FAF-Net网络的图像分割方法 |
CN113269139B (zh) * | 2021-06-18 | 2023-09-26 | 中电科大数据研究院有限公司 | 一种针对复杂场景的自学习大规模警员图像分类模型 |
CN113421276B (zh) * | 2021-07-02 | 2023-07-21 | 深圳大学 | 一种图像处理方法、装置及存储介质 |
CN113537228B (zh) * | 2021-07-07 | 2022-10-21 | 中国电子科技集团公司第五十四研究所 | 一种基于深度特征的实时图像语义分割方法 |
CN113627590A (zh) * | 2021-07-29 | 2021-11-09 | 中汽创智科技有限公司 | 一种卷积神经网络的注意力模块、注意力机制及卷积神经网络 |
CN113610032A (zh) * | 2021-08-16 | 2021-11-05 | 北京市城市规划设计研究院 | 基于遥感影像的建筑物识别方法和装置 |
CN113591795B (zh) * | 2021-08-19 | 2023-08-08 | 西南石油大学 | 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 |
CN113870289B (zh) * | 2021-09-22 | 2022-03-15 | 浙江大学 | 一种解耦分治的面神经分割方法和装置 |
CN113688836A (zh) * | 2021-09-28 | 2021-11-23 | 四川大学 | 一种基于深度学习的实时性道路图像语义分割方法及系统 |
CN114049519A (zh) * | 2021-11-17 | 2022-02-15 | 江西航天鄱湖云科技有限公司 | 一种光学遥感图像场景分类方法 |
CN114445692B (zh) * | 2021-12-31 | 2022-11-15 | 北京瑞莱智慧科技有限公司 | 图像识别模型构建方法、装置、计算机设备及存储介质 |
CN114021704B (zh) * | 2022-01-04 | 2022-03-22 | 深圳精智达技术股份有限公司 | 一种ai神经网络模型的训练方法及相关装置 |
CN114913325B (zh) * | 2022-03-24 | 2024-05-10 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN115082500B (zh) * | 2022-05-31 | 2023-07-11 | 苏州大学 | 基于多尺度与局部特征引导网络的角膜神经纤维分割方法 |
CN115530847A (zh) * | 2022-09-30 | 2022-12-30 | 哈尔滨理工大学 | 一种基于多尺度注意力的脑电信号自动睡眠分期方法 |
CN115620120B (zh) * | 2022-10-19 | 2023-07-11 | 感知天下(北京)信息科技有限公司 | 街景图像多尺度高维特征构建量化方法、设备及存储介质 |
CN116630626B (zh) * | 2023-06-05 | 2024-04-26 | 吉林农业科技学院 | 连通双注意力多尺度融合语义分割网络 |
CN116740362B (zh) * | 2023-08-14 | 2023-11-21 | 南京信息工程大学 | 一种基于注意力的轻量化非对称场景语义分割方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325534B (zh) * | 2018-09-22 | 2020-03-17 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
CN111563508B (zh) * | 2020-04-20 | 2023-05-23 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
CN111626300B (zh) * | 2020-05-07 | 2022-08-26 | 南京邮电大学 | 基于上下文感知的图像语义分割模型的图像分割方法及建模方法 |
-
2020
- 2020-12-14 CN CN202011469194.1A patent/CN112651973B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112651973A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112651973B (zh) | 基于特征金字塔注意力和混合注意力级联的语义分割方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN112634276A (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN111563507B (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN115457498A (zh) | 一种基于双注意力和密集连接的城市道路语义分割方法 | |
CN115082293A (zh) | 一种基于Swin Transformer和CNN双分支耦合的图像配准方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN115496919A (zh) | 基于窗口掩码策略的混合卷积-变压器架构及自监督方法 | |
Ayachi et al. | An edge implementation of a traffic sign detection system for Advanced driver Assistance Systems | |
Sugirtha et al. | Semantic segmentation using modified U-Net for autonomous driving | |
CN116342675B (zh) | 一种实时单目深度估计方法、系统、电子设备及存储介质 | |
CN115984934A (zh) | 人脸位姿估计模型的训练方法、人脸位姿估计方法及装置 | |
CN116051850A (zh) | 神经网络目标检测方法、装置、介质和嵌入式电子设备 | |
CN114298909A (zh) | 一种超分辨网络模型及其应用 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN114638870A (zh) | 一种基于深度学习的室内场景单目图像深度估计方法 | |
CN113255459A (zh) | 一种基于图像序列的车道线检测方法 | |
Zhou et al. | Dual attention network for point cloud classification and segmentation | |
CN112733934A (zh) | 复杂环境下的多模态特征融合道路场景语义分割方法 | |
Peng et al. | A Lightweight Road Scene Semantic Segmentation Algorithm. | |
CN117557857B (zh) | 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Wang Qiong Inventor after: Xu Jinhao Inventor after: Chen Tao Inventor after: Lu Jianfeng Inventor before: Xu Jinhao Inventor before: Wang Qiong Inventor before: Chen Tao Inventor before: Lu Jianfeng |
|
GR01 | Patent grant | ||
GR01 | Patent grant |