CN116580192A - 基于自适应上下文感知网络的rgb-d语义分割方法及系统 - Google Patents

基于自适应上下文感知网络的rgb-d语义分割方法及系统 Download PDF

Info

Publication number
CN116580192A
CN116580192A CN202310419882.4A CN202310419882A CN116580192A CN 116580192 A CN116580192 A CN 116580192A CN 202310419882 A CN202310419882 A CN 202310419882A CN 116580192 A CN116580192 A CN 116580192A
Authority
CN
China
Prior art keywords
convolution
layer
feature
branch
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310419882.4A
Other languages
English (en)
Inventor
孙国栋
熊晨韵
刘俊杰
鲁志恒
张杨
潘慧琳
贾俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202310419882.4A priority Critical patent/CN116580192A/zh
Publication of CN116580192A publication Critical patent/CN116580192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应上下文感知网络的RGB‑D语义分割方法及系统,首先构建自适应上下文感知网络;然后使用编码器的RGB分支和深度分支,分别提取待处理图像的RGB图像的通道特征和深度图的深度特征,进行降采样,获得具有压缩分辨率的特征图;接着利用自适应金字塔上下文模块提取编码器的信息,使用轻量级解码器对来自自适应金字塔上下文模块的信息进行上采样,并使用轻量级残差单元来提高推理速度;最后利用三个跳跃连接层将来自注意融合模块的三层特征分别融合进轻量级解码器的三个层中,经过卷积后输出分割结果。本发明能够实现分割精度高、推理速度快和模型参数小的RGB‑D语义分割。

Description

基于自适应上下文感知网络的RGB-D语义分割方法及系统
技术领域
本发明属于图像处理和语义分割领域,涉及一种RGB-D语义分割方法及系统,具体涉及一种空间信息引导的自适应上下文感知网络来实现RGB-D语义分割方法及系统。
背景技术
高效的RGB-D语义分割技术广泛应用于自动驾驶、医学图像分析、机器人技术等智能领域,它在环境信息的分析和识别中起着至关重要的作用。根据以往的研究,深度信息可以为物体和场景提供对应的几何关系,深度图中的空间信息可以规避掉图像输入缺乏纹理、光照不足、过度曝光等缺点,在一定程度上提取到更多的有用信息。但实际上,由于摄像条件不足和外部环境的干扰,深度输入中往往还存在一些如噪声等干扰因素,显然会对计算精度带来很大影响。因此,构建一个可以捕获全局上下文关系,专注于有效信息的注意力网络非常有必要。
语义分割最经典的结构是编码-解码器结构,编码器使用下采样来提取特征,解码器使用上采样来恢复特征图的大小。已知传统的视觉方法大都采用多层网络进行堆叠,需要一个复杂的主干来获得丰富的语义信息。这不仅会引起梯度消失和网络退化问题,而且计算复杂度高,计算资源消耗大,将不利于模型部署到边端设备中。
发明内容
本发明的目的在于提供一种强化空间信息引导的自适应上下文感知的RGB-D语义分割方法及系统,帮助解决语义分割中噪声多、信息提取误差大、梯度消失、网络退化、消耗大量计算资源等问题。
本发明的方法所采用的技术方案是:一种基于自适应上下文感知网络的RGB-D语义分割方法,包括以下步骤:
步骤1:构建自适应上下文感知网络;
所述自适应上下文感知网络,包括双模态输入的编码器、注意力融合模块、自适应金字塔上下文模块(APC)、轻量级解码器(LD)、跳跃连接层;
所述双模态输入的编码器,包括并行设置的RGB分支和深度分支;均以ResNet34-NBt1D作为主干,包括五层,第一层是7×7的卷积层,步长为2,其后设置有归一化层和激活层;第二层是最大池化层,步长为2,其后设置有3个非瓶颈块;第三至第五层均是非瓶颈块,数量分别为4,6,3;
所述注意力融合模块,由通道注意力模块和空间注意力模块组成,设置于所述双模态输入的编码器的每层末端;对双模态的RGB分支和的深度分支的两张特征图分别进行通道、空间注意力特征加强后,再进行矩阵元素求和形成新的RGB特征输入,深度分支的空间特征将继续向下一阶段传递;所述通道注意力模块,位于RGB分支,通过全局平均池将每个通道的信息压缩成一个与尺寸无关的特征图,再通过两个1×1的卷积层,以及不同激活函数ReLU和Sigmoid计算出一个权重系数,权重系数与初始输入矩阵元素求积,获得通道信息加强的特征;所述空间注意力模块,位于深度分支,通过卷积核大小为1,步长为2的逐点卷积层获取立体特征,再对该特征输入1×1,4×4,7×7三个不同尺度的空间金字塔池化,得到三个自适应平均池化特征并加权,级联输出求得权重值,与初始输入矩阵元素求积,得到空间信息加强的立体特征;
所述自适应金字塔上下文模块,首先将输入的特征图分别经过1×1、5×5两个卷积划分为不同大小的子区域,然后对每个子区域进行池化操作,得到两个固定大小的特征向量;最后,两个尺度特征向量被级联在一起,送入一个1x1卷积操作中进行特征融合,生成最终的特征图作为自适应金字塔模块的输出;
所述轻量级解码器,特征通过大小为1的卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积(3×1,1×3)、通道注意力模块、对称卷积(3×1,1×3)处理,再将这两层特征像素求和,求和合后再经过一次1×1卷积;其中,中间的对称卷积采用可分离卷积,用于扩大感受野,获取远距离特征信息,膨胀率dr取1;底部卷积为一般卷积,负责提取局部和短距离特征信息;中间与底部分支求和的特征与上分支原始特征融合,经过通道混洗进一步整合不同的信息,该混洗后的特征经双线性上采样恢复成原本图像特征;
所述跳跃连接层,通过卷积核大小为1的卷积,将输入通道数提升一倍,尺寸不变;
步骤2:使用编码器的RGB分支和深度分支,分别提取待处理图像的RGB图像的通道特征和深度图的深度特征,进行降采样,获得具有压缩分辨率的特征图;
步骤3:利用自适应金字塔上下文模块提取来自编码器的信息,使用轻量级解码器对自适应金字塔上下文模块的信息进行双线性上采样,经过金字塔监督输出多尺度特征分割结果,另外使用轻量级残差单元信息传递到下一阶段,提高推理速度;
步骤4:利用三个跳跃连接层将来自注意融合模块的三层特征,通过1×1卷积,使其与三个轻量级解码单元的通道数保持一致,其余特征不变,便于轻量级解码单元实现底层特征与高层特征的融合,解决在训练的过程中梯度爆炸和梯度消失问题,卷积后输出分割结果。
本发明的系统所采用的技术方案是:一种基于自适应上下文感知网络的RGB-D语义分割系统,包括以下模块:
第一模块,用于构建自适应上下文感知网络;
所述自适应上下文感知网络,包括双模态输入的编码器、注意力融合模块、自适应金字塔上下文模块(APC)、轻量级解码器(LD)、跳跃连接层;
所述双模态输入的编码器,包括并行设置的RGB分支和深度分支;均以ResNet34-NBt1D作为主干,包括五层,第一层是7×7的卷积层,步长为2,其后设置有归一化层和激活层;第二层是最大池化层,步长为2,其后设置有3个非瓶颈块;第三至第五层均是非瓶颈块,数量分别为4,6,3;
所述注意力融合模块,由通道注意力模块和空间注意力模块组成,设置于所述双模态输入的编码器的每层末端;对双模态的RGB分支和的深度分支的两张特征图分别进行通道、空间注意力特征加强后,再进行矩阵元素求和形成新的RGB特征输入,深度分支的空间特征将继续向下一阶段传递;所述通道注意力模块,位于RGB分支,通过全局平均池将每个通道的信息压缩成一个与尺寸无关的特征图,再通过两个1×1的卷积层,以及不同激活函数ReLU和Sigmoid计算出一个权重系数,权重系数与初始输入矩阵元素求积,获得通道信息加强的特征;所述空间注意力模块,位于深度分支,通过卷积核大小为1,步长为2的逐点卷积层获取立体特征,再对该特征输入1×1,4×4,7×7三个不同尺度的空间金字塔池化,得到三个自适应平均池化特征并加权,级联输出求得权重值,与初始输入矩阵元素求积,得到空间信息加强的立体特征;
所述自适应金字塔上下文模块,首先将输入的特征图分别经过1×1、5×5两个卷积划分为不同大小的子区域,然后对每个子区域进行池化操作,得到两个固定大小的特征向量;最后,两个尺度特征向量被级联在一起,送入一个1x1卷积操作中进行特征融合,生成最终的特征图作为自适应金字塔模块的输出;
所述轻量级解码器,特征通过大小为1的卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积(3×1,1×3)、通道注意力模块、对称卷积(3×1,1×3)处理,再将这两层特征像素求和,求和合后再经过一次1×1卷积;其中,中间m-分支的对称卷积采用可分离卷积,用于扩大感受野,获取远距离特征信息,膨胀率dr取1;底部d-分支的卷积为一般卷积,负责提取局部和短距离特征信息;中间与底部分支求和的特征与上分支原始特征融合,经过通道混洗进一步整合不同的信息,该混洗后的特征经双线性上采样恢复成原本图像特征;
所述跳跃连接层,通过卷积核大小为1的卷积,将输入通道数提升一倍,尺寸不变;
第二模块,用于使用编码器的RGB分支和深度分支,分别提取待处理图像的RGB图像的通道特征和深度图的深度特征,进行降采样,获得具有压缩分辨率的特征图;
第三模块,用于利用自适应金字塔上下文模块提取来自编码器的信息,使用轻量级解码器对自适应金字塔上下文模块的信息进行双线性上采样,经过金字塔监督输出多尺度特征分割结果,另外使用轻量级残差单元信息传递到下一阶段,提高推理速度;
第四模块,用于利用三个跳跃连接层将来自注意融合模块的三层特征,通过1×1卷积,使其与三个轻量级解码单元的通道数保持一致,其余特征不变,便于轻量级解码单元实现底层特征与高层特征的融合,解决在训练的过程中梯度爆炸和梯度消失问题,卷积后输出分割结果。
本发明创新之处包括:
(1)编码器由ResNet34-NBt1D组成,分为图像分支和深度分支,两分支间由注意力融合模块进行连接。
(2)自适应金字塔上下文模块中,利用并行的多个自适应语义模块,对来自注意力融合模块的特征图进行处理,整合后经全连接层卷积得到输出。
(3)轻量级解码器中,特征通过大小为1的卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积(3×1,1×3)、通道注意力模块、对称卷积(3×1,1×3)处理,再将这两层特征像素求和,求和合后再经过一次1×1卷积;其中,中间m-分支的对称卷积采用可分离卷积,用于扩大感受野,获取远距离特征信息,膨胀率dr取1;底部d-分支的卷积为一般卷积,负责提取局部和短距离特征信息;中间与底部分支求和的特征与上分支原始特征融合,经过通道混洗进一步整合不同的信息,该混洗后的特征经双线性上采样恢复成原本图像特征。
(4)调跃连接层将编码器的特征信息连接到解码器。
本发明的有益效果包括:能够实现分割精度高、推理速度快和模型参数小的RGB-D语义分割。
附图说明
图1为本发明实施例的空间信息引导的自适应上下文感知网络结构图;
图2为本发明实施例的轻量化编码器结构图;
图3为本发明实施例的编码器融合的可视化结果示意图;第一列包括(a)RGB,(b)Layer4_rgb_特征图,(c)Layer4_rgb_注意力图;第二列是特征图(FM),包括(d)深度图,(e)Layer4_深度_特征图,(f)Layer4_深度_注意力图;最后一列是注意力图(AM)包括(g)语义分割图,(h)Layer4_特征图,(i)Layer4_注意力图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的一种基于自适应上下文感知网络的RGB-D语义分割方法,包括以下步骤:
步骤1:构建自适应上下文感知网络;
请见图1,本实施例的自适应上下文感知网络,包括双模态输入的编码器、注意力融合模块、自适应金字塔上下文模块(APC)、轻量级解码器(LD)、跳跃连接层;
本实施例的双模态输入的编码器,包括并行设置的RGB分支和深度分支;均以ResNet34-NBt1D作为主干,包括五层,第一层是7×7的卷积层,步长为2,其后设置有归一化层和激活层;第二层是最大池化层,步长为2,其后设置有3个非瓶颈块;第三至第五层均是非瓶颈块,数量分别为4,6,3;
本实施例的注意力融合模块,由通道注意力模块和空间注意力模块组成,设置于所述双模态输入的编码器的每层末端;对双模态的RGB分支和的深度分支的两张特征图分别进行通道、空间注意力特征加强后,再进行矩阵元素求和形成新的RGB特征输入,深度分支的空间特征将继续向下一阶段传递;所述通道注意力模块,位于RGB分支,通过全局平均池将每个通道的信息压缩成一个与尺寸无关的特征图,再通过两个1×1的卷积层,以及不同激活函数ReLU和Sigmoid计算出一个权重系数,为简化网络,在图中省略了激活函数的表达,但在实际应用中,它们是必要的,并常常组合使用以提高模型性能,使训练更加稳定和高效。权重系数与初始输入矩阵元素求积,获得通道信息加强的特征;所述空间注意力模块,位于深度分支,通过卷积核大小为1,步长为2的逐点卷积层获取立体特征,再对该特征输入1×1,4×4,7×7三个不同尺度的空间金字塔池化,得到三个自适应平均池化特征并加权,级联输出求得权重值,与初始输入矩阵元素求积,得到空间信息加强的立体特征;
本实施例的自适应金字塔上下文模块,首先将输入的特征图分别经过1×1、5×5两个卷积划分为不同大小的子区域,然后对每个子区域进行池化操作,得到两个固定大小的特征向量;不同尺度的池化操作可以捕捉到不同大小的上下文信息。最后,两个尺度特征向量被级联在一起,送入一个1x1卷积操作中进行特征融合,生成最终的特征图作为自适应金字塔模块的输出;
请见图2,本实施例的轻量级解码器,特征通过大小为1的卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积(3×1,1×3)、通道注意力模块、对称卷积(3×1,1×3)处理,再将这两层特征像素求和,求和合后再经过一次1×1卷积;其中,中间m-分支的对称卷积采用可分离卷积,用于扩大感受野,获取远距离特征信息,dr-膨胀率=1;底部d-分支的卷积为一般卷积,负责提取局部和短距离特征信息;中间与底部分支求和的特征与上分支原始特征融合,经过通道混洗进一步整合不同的信息,该混洗后的特征经双线性上采样恢复成原本图像特征;
本实施例的跳跃连接层,通过卷积核大小为1的卷积,将输入通道数提升一倍,尺寸不变;
步骤2:使用编码器的RGB分支和深度分支,分别提取待处理图像的RGB图像的通道特征和深度图的深度特征,进行降采样,获得具有压缩分辨率的特征图;
本实施例中,空间金字塔注意力模块(SPA)使用1×1、4×4、7×7平均池化分别获取较强结构规则性信息、平衡结构信息和结构正则化之间的关系、捕捉了更多的特征表示和结构信息,三者结合既能保持特征表示,又能继承全局平均汇集的优点,避免模型过拟合;其中,第l个元素的空间注意力金字塔模块为:
S(xl)=C(R7(P(xl)),R4(P(xl)),R1(P(xl))) (1)
其中,X=[x1,x2,…,xl]作为输入特征, 表示代数域,C、H、w分别表示通道数,输入图片的高度以及宽度;C(·)表示级联层,P(·)和R(·)分别表示为池化算子和向量调整大小算子;1、4、7表示1×1、4×4、7×7平均池化卷积;
为了获得最终的注意力结果,执行逐元素乘法M(·):
M(xl)=xlσ(Ff(Ff(Ul))) (2)
其中,Q(xl)表示通道增强注意力模块(提取-压缩SE),Ff(·)是全连接层,实现通道和空间分支局部分类端到端的信息学习,sigmoid函数σ作为激活层函数;
将经过空间金字塔注意力模块和通道增强注意力模块的信息融合到RGB输入分支,有利于带有丰富语义信息的特征参与后续网络处理,融合特征图生成为:
其中,下角标C代表RGB输入所在的通道分支,下角标S代表深度输入所在的深度分支;Mc()、Ms()分别表示通道注意力特征的元素求和、空间注意力特征的元素求和。
步骤3:利用自适应金字塔上下文模块(APC)提取编码器的信息,使用轻量级解码器(LD)对来自自适应金字塔上下文模块的信息进行上采样,经过金字塔监督输出多尺度特征分割结果,并使用轻量级残差单元(LRU)来提高推理速度;
本实施例的双线性上采样,深度特征和RGB特征经过轻量化残差单元后分辨率分别上升到与快捷路径特征相同的尺寸;
轻量化残差单元由为补充信息连续性、获取近距离特征信息的普通卷积层Zd,k和扩张的深度可分离卷积层Zm,k组成,目的在于降低计算成本并获得更深的网络特征;其中,下支路记为d,中支路记为m,k值表示特征图经过不成对的卷积的次数;
轻量化残差单元公式表达如下:
zH,2(yl)=A2(Vac(A1(W1(yl)))) (5)
其中,H表示d-分支或m-分支,yl为解码器特征输入, 表示代数域,C、H、W分别表示通道数,输入图片的高度以及宽度;;W1表示1×1卷积层的权重,使用通道注意模块(CAM)Vac(·)来增强语义表达;非对称卷积AK(·)(1×3,3×1)可以逼近现有的卷积,保证相同的计算量条件下,加速模型推理以及压缩模型大小;K表示特征映射通过未配对卷积的次数;
轻量级解码器(LD)集成长距离Zm,2和短距离Zd,2特征,如下所示:
其中,Z(·)表示下支路d或中支路m的输出;对这些分支进行求和后,channelshuffle f(·)实现它们之间的特征通信。
步骤4:利用三个跳跃连接层将来自注意融合模块的三层特征,通过1×1卷积,使其与三个轻量级解码单元的通道数保持一致,其余特征不变,便于轻量级解码单元实现底层特征与高层特征的融合,解决在训练的过程中梯度爆炸和梯度消失问题,卷积后输出分割结果。
本实施例的自适应上下文感知网络,是训练好的自适应上下文感知网络;训练时使用公开可用的Pytorch来进行训练,设置批次大小(batch size)为8,epoch数为500。对NYUv2和SUN RGB-D数据集使用动量为0.9的SGD优化器,进一步使用学习率分别为0.00125、0.0025、0.005、0.01、0.02、0.04和0.0001、0.0004的Adam优化器。采用通用的数据增强策略,包括随机缩放、随机水平翻转和随机裁剪。
训练过程中,利用数据集训练空间信息引导的自适应上下文感知网络,并根据交叉熵(CE)函数Lp,q计算损失;
其中,n表示类别数,pi是识别真实的各个类别的发生概率,qi是预测的各个类别的发生概率。
请见图3,为本实施例第四层编码器Layer4的融合可视化结果示意图;第一列(a)RGB,(d)深度图分别为神经网络的双支输入,(g)为本方案的语义分割结果;第二列是第四层编码器Layer4的融合特征图(FM),包括(b)Layer4_rgb_特征图,(e)Layer4_深度_特征图,(h)Layer4_特征图,分别表示融合前的双支输入特征表示,以及最终融合后的特征表示,说明结合深度信息的注意力融合模块能更全面地描述图像中的物体信息和空间信息;最后一列是第四层编码器Layer4的融合注意力图(AM)包括(c)Layer4_rgb_注意力图,(f)Layer4_深度_注意力图,(i)Layer4_注意力图,分别表示融合前双支输入的注意力表示,以及最终融合后的注意力表示,说明RGB和深度分支强调的重要点不同,经注意力融合模块后能综合获取两者关注的轮廓、位置信息区域,从而获得更好的分割性能。注意权重来自特征图。
本发明:
(1)使用编码器的两个分支分别提取来自RGB图像的通道特征和深度图的深度特征,进行降采样。
(2)将提取的深度特征通过注意融合模块连接到RGB分支。注意融合模块包括通道增强注意力模块、空间金字塔注意力模块,分别聚焦于RGB图像中的通道信息和深度图中的空间局部信息;在所述空间金字塔注意力模块中,深度输入分支通过三层不同尺度均值池化,自适应地平均聚集一张输入特征图中,将空间金字塔注意力模块输出与通道增强注意力模块的输出相加,强化深度信息对于通道信息的位置指导作用。
(3)利用自适应金字塔上下文模块提取编码器信息,主体结构是利用并行的多个自适应语义模块,对来自注意力融合模块的特征图进行处理,整合后经全连接层卷积得到输出。
(4)通过轻量级解码器对输出的信息进行上采样,轻量级解码器在双线性上采样操作部分增加一条快捷路径与相应轻量化残差单元的主路径进行特征图的相加,轻量残差单元由补充信息连续性、获取近距离特征信息的普通卷积层和扩张的深度可分离卷积层来降低计算成本并获得更深的网络特征。
(5)利用数据集训练空间信息引导的自适应上下文感知网络,并根据交叉熵函数计算损失。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (10)

1.一种基于自适应上下文感知网络的RGB-D语义分割方法,其特征在于,包括以下步骤:
步骤1:构建自适应上下文感知网络;
所述自适应上下文感知网络,包括双模态输入的编码器、注意力融合模块、自适应金字塔上下文模块、轻量级解码器和跳跃连接层;
所述双模态输入的编码器,包括并行设置的RGB分支和深度分支;均以ResNet34-NBt1D作为主干,包括五层,第一层是卷积层,其后设置有归一化层和激活层;第二层是最大池化层,其后设置有3个非瓶颈块;第三至第五层均是非瓶颈块;
所述注意力融合模块,由通道注意力模块和空间注意力模块组成,设置于所述双模态输入的编码器的每层末端;对双模态的RGB分支和的深度分支的两张特征图分别进行通道、空间注意力特征加强后,再进行矩阵元素求和形成新的RGB特征输入,深度分支的空间特征将继续向下一阶段传递;所述通道注意力模块,位于RGB分支,通过全局平均池将每个通道的信息压缩成一个与尺寸无关的特征图,再通过两个卷积层,以及不同激活函数ReLU和Sigmoid计算出一个权重系数,权重系数与初始输入矩阵元素求积,获得通道信息加强的特征;所述空间注意力模块,位于深度分支,通过逐点卷积层获取立体特征,再对该特征输入三个不同尺度的空间金字塔池化,得到三个自适应平均池化特征并加权,级联输出求得权重值,与初始输入矩阵元素求积,得到空间信息加强的立体特征;
所述自适应金字塔上下文模块,首先将输入的特征图分别经过两个卷积划分为不同大小的子区域,然后对每个子区域进行池化操作,得到两个固定大小的特征向量;最后,两个尺度特征向量被级联在一起,送入一个卷积操作中进行特征融合,生成最终的特征图作为自适应金字塔模块的输出;
所述轻量级解码器,特征通过卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积、通道注意力模块、对称卷积处理,再将这两层特征像素求和,求和合后再经过一次卷积;其中,中间m-分支的对称卷积采用可分离卷积,用于扩大感受野,获取远距离特征信息;底部d-分支的卷积为一般卷积,负责提取局部和短距离特征信息;中间与底部分支求和的特征与上分支原始特征融合,经过通道混洗进一步整合不同的信息,该混洗后的特征经双线性上采样恢复成原本图像特征;
所述跳跃连接层,通过卷积,将输入通道数提升一倍,尺寸不变;
步骤2:使用编码器的RGB分支和深度分支,分别提取待处理图像的RGB图像的通道特征和深度图的深度特征,进行降采样,获得具有压缩分辨率的特征图;
步骤3:利用自适应金字塔上下文模块提取来自编码器的信息,使用轻量级解码器对自适应金字塔上下文模块的信息进行双线性上采样,经过金字塔监督输出多尺度特征分割结果,另外使用轻量级残差单元信息传递到下一阶段,提高推理速度;
步骤4:利用三个跳跃连接层将来自注意融合模块的三层特征,通过1×1卷积,使其与三个轻量级解码单元的通道数保持一致,其余特征不变,便于轻量级解码单元实现底层特征与高层特征的融合,卷积后输出分割结果。
2.根据权利要求1所述的基于自适应上下文感知网络的RGB-D语义分割方法,其特征在于:步骤1中,所述双模态输入的编码器,第一层是7×7的卷积层,步长为2;第二层是最大池化层,步长为2;第三至第五层均是非瓶颈块,数量分别为4,6,3;
所述通道注意力模块,包括两个1×1的卷积层;所述空间注意力模块,包括卷积核大小为1,步长为2的逐点卷积层,和1×1,4×4,7×7三个不同尺度的空间金字塔池化;
所述自适应金字塔上下文模块,包括1×1、5×5两个卷积划分为不同大小的子区域,然后对每个子区域进行池化操作,得到两个固定大小的特征向量;最后,两个尺度特征向量被级联在一起,送入一个1x1卷积操作中进行特征融合;
所述轻量级解码器,特征通过大小为1的卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积(3×1,1×3)、通道注意力模块、对称卷积(3×1,1×3)处理,再将这两层特征像素求和,求和合后再经过一次1×1卷积;
所述跳跃连接层,包括卷积核大小为1的卷积。
3.根据权利要求1所述的基于自适应上下文感知网络的RGB-D语义分割方法,其特征在于:步骤2中,所述空间金字塔注意力模块使用1×1、4×4、7×7平均池化分别获取结构规则性信息、平衡结构信息和结构正则化之间的关系;其中,第l个元素的空间注意力金字塔模块为:
S(xl)=C(R7(P(xl)),R4(P(xl)),R1(P(xl))) (1)
其中,X=[x1,x2,…,xl]作为输入特征, 表示代数域,C、H、W分别表示通道数,输入图片的高度以及宽度;C(·)表示级联层,P(·)和R(·)分别表示为池化算子和向量调整大小算子;1、4、7表示1×1、4×4、7×7平均池化卷积;
为了获得最终的注意力结果,执行逐元素乘法M(·):
M(xl)=xlσ(Ff(Ff(Ul))) (2)
其中,Q(xl)表示通道增强注意力模块,Ff(·)是全连接层,实现通道和空间分支局部分类端到端的信息学习,sigmoid函数σ作为激活层函数;
将经过空间金字塔注意力模块和通道增强注意力模块的信息融合到RGB输入分支,融合特征图生成为:
其中,下角标C代表RGB输入所在的通道分支,下角标S代表深度输入所在的深度分支;Mc()、Ms()分别表示通道注意力特征的元素求和、空间注意力特征的元素求和。
4.根据权利要求1所述的基于自适应上下文感知网络的RGB-D语义分割方法,其特征在于:步骤3中,所述双线性上采样,深度特征和RGB特征经过轻量化残差单元后分辨率分别上升到与快捷路径特征相同的尺寸;
所述轻量化残差单元由为补充信息连续性、获取近距离特征信息的普通卷积层Zd,k和扩张的深度可分离卷积层Zm,k组成,其中,下支路记为d,中支路记为m,k值表示特征图经过不成对的卷积的次数;
所述轻量化残差单元公式表达如下:
zH,2(yl)=A2(Vac(A1(W1(yl)))) (5)
其中,H表示d-分支或m-分支,yl为解码器特征输入,表示代数域,C、H、W分别表示通道数,输入图片的高度以及宽度;W1表示1×1卷积层的权重,使用通道注意模块Vac(·)来增强语义表达;非对称卷积AK(·)(1×3,3×1)可以逼近现有的卷积,保证相同的计算量条件下,加速模型推理以及压缩模型大小;K表示特征映射通过未配对卷积的次数;
所述轻量级解码器集成长距离Zm,2和短距离Zd,2特征,如下所示:
其中,Z(·)表示下支路d或中支路m的输出;对这些分支进行求和后,channelshufflef(·)实现它们之间的特征通信。
5.根据权利要求1-4任意一项所述的基于自适应上下文感知网络的RGB-D语义分割方法,其特征在于:所述自适应上下文感知网络,是训练好的自适应上下文感知网络;
训练过程中,利用数据集训练空间信息引导的自适应上下文感知网络,并根据交叉熵函数Lp,q计算损失;
其中,n表示类别数,pi是识别真实的各个类别的发生概率,qi是预测的各个类别的发生概率。
6.一种基于自适应上下文感知网络的RGB-D语义分割系统,其特征在于,包括以下模块:
第一模块,用于构建自适应上下文感知网络;
所述自适应上下文感知网络,包括双模态输入的编码器、注意力融合模块、自适应金字塔上下文模块、轻量级解码器、跳跃连接层;
所述双模态输入的编码器,包括并行设置的RGB分支和深度分支;均以ResNet34-NBt1D作为主干,包括五层,第一层是卷积层,其后设置有归一化层和激活层;第二层是最大池化层,其后设置有3个非瓶颈块;第三至第五层均是非瓶颈块;
所述注意力融合模块,由通道注意力模块和空间注意力模块组成,设置于所述双模态输入的编码器的每层末端;对双模态的RGB分支和的深度分支的两张特征图分别进行通道、空间注意力特征加强后,再进行矩阵元素求和形成新的RGB特征输入,深度分支的空间特征将继续向下一阶段传递;所述通道注意力模块,位于RGB分支,通过全局平均池将每个通道的信息压缩成一个与尺寸无关的特征图,再通过两个卷积层,以及不同激活函数ReLU和Sigmoid计算出一个权重系数,权重系数与初始输入矩阵元素求积,获得通道信息加强的特征;所述空间注意力模块,位于深度分支,通过逐点卷积层获取立体特征,再对该特征输入三个不同尺度的空间金字塔池化,得到三个自适应平均池化特征并加权,级联输出求得权重值,与初始输入矩阵元素求积,得到空间信息加强的立体特征;
所述自适应金字塔上下文模块,首先将输入的特征图分别经过两个卷积划分为不同大小的子区域,然后对每个子区域进行池化操作,得到两个固定大小的特征向量;最后,两个尺度特征向量被级联在一起,送入一个卷积操作中进行特征融合,生成最终的特征图作为自适应金字塔模块的输出;
所述轻量级解码器,特征通过卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积、通道注意力模块、对称卷积处理,再将这两层特征像素求和,求和合后再经过一次卷积;其中,中间m-分支的对称卷积采用可分离卷积,用于扩大感受野,获取远距离特征信息;底部d-分支的卷积为一般卷积,负责提取局部和短距离特征信息;中间与底部分支求和的特征与上分支原始特征融合,经过通道混洗进一步整合不同的信息,该混洗后的特征经双线性上采样恢复成原本图像特征;
所述跳跃连接层,通过卷积,将输入通道数提升一倍,尺寸不变;
第二模块,用于使用编码器的RGB分支和深度分支,分别提取待处理图像的RGB图像的通道特征和深度图的深度特征,进行降采样,获得具有压缩分辨率的特征图;
第三模块,用于利用自适应金字塔上下文模块提取来自编码器的信息,使用轻量级解码器对自适应金字塔上下文模块的信息进行双线性上采样,经过金字塔监督输出多尺度特征分割结果,另外使用轻量级残差单元信息传递到下一阶段,提高推理速度;
第四模块,用于利用三个跳跃连接层将来自注意融合模块的三层特征,通过1×1卷积,使其与三个轻量级解码单元的通道数保持一致,其余特征不变,便于轻量级解码单元实现底层特征与高层特征的融合,卷积后输出分割结果。
7.根据权利要求6所述的基于自适应上下文感知网络的RGB-D语义分割系统,其特征在于:第一模块中,所述双模态输入的编码器,第一层是7×7的卷积层,步长为2;第二层是最大池化层,步长为2;第三至第五层均是非瓶颈块,数量分别为4,6,3;
所述通道注意力模块,包括两个1×1的卷积层;所述空间注意力模块,包括卷积核大小为1,步长为2的逐点卷积层,和1×1,4×4,7×7三个不同尺度的空间金字塔池化;
所述自适应金字塔上下文模块,包括1×1、5×5两个卷积划分为不同大小的子区域,然后对每个子区域进行池化操作,得到两个固定大小的特征向量;最后,两个尺度特征向量被级联在一起,送入一个1x1卷积操作中进行特征融合;
所述轻量级解码器,特征通过大小为1的卷积核构造三个分支,中间m-分支和底部d-分支均先后经过对称卷积(3×1,1×3)、通道注意力模块、对称卷积(3×1,1×3)处理,再将这两层特征像素求和,求和合后再经过一次1×1卷积;
所述跳跃连接层,包括卷积核大小为1的卷积。
8.根据权利要求6所述的基于自适应上下文感知网络的RGB-D语义分割系统,其特征在于:第二模块中,所述空间金字塔注意力模块使用1×1、4×4、7×7平均池化分别获取结构规则性信息、平衡结构信息和结构正则化之间的关系;其中,第l个元素的空间注意力金字塔模块为:
S(xl)=C(R7(P(xl)),R4(P(xl)),R1(P(xl))) (1)
其中,X=[x1,x2,…,xl]作为输入特征, 表示代数域,C、H、W分别表示通道数,输入图片的高度以及宽度;C(·)表示级联层,P(·)和R(·)分别表示为池化算子和向量调整大小算子;1、4、7表示1×1、4×4、7×7平均池化卷积;
为了获得最终的注意力结果,执行逐元素乘法M(·):
M(xl)=xlσ(Ff(Ff(Ul))) (2)
其中,Q(xl)表示通道增强注意力模块,Ff(·)是全连接层,实现通道和空间分支局部分类端到端的信息学习,sigmoid函数σ作为激活层函数;
将经过空间金字塔注意力模块和通道增强注意力模块的信息融合到RGB输入分支,融合特征图生成为:
其中,下角标C代表RGB输入所在的通道分支,下角标S代表深度输入所在的深度分支;Mc()、Ms()分别表示通道注意力特征的元素求和、空间注意力特征的元素求和。
9.根据权利要求6所述的基于自适应上下文感知网络的RGB-D语义分割方法,其特征在于:第三模块中,所述双线性上采样,深度特征和RGB特征经过轻量化残差单元后分辨率分别上升到与快捷路径特征相同的尺寸;
所述轻量化残差单元由为补充信息连续性、获取近距离特征信息的普通卷积层Zd,k和扩张的深度可分离卷积层Zm,k组成,其中,下支路记为d,中支路记为m,k值表示特征图经过不成对的卷积的次数;
所述轻量化残差单元公式表达如下:
zH,2(yl)=A2(Vac(A1(W1(yl)))) (5)
其中,H表示d-分支或m-分支,yl为解码器特征输入,表示代数域,C、H、W分别表示通道数,输入图片的高度以及宽度;;;W1表示1×1卷积层的权重,使用通道注意模块Vac(·)来增强语义表达;非对称卷积AK(·)(1×3,3×1)可以逼近现有的卷积,保证相同的计算量条件下,加速模型推理以及压缩模型大小;K表示特征映射通过未配对卷积的次数;
所述轻量级解码器集成长距离Zm,2和短距离Zd,2特征,如下所示:
其中,Z(·)表示下支路d或中支路m的输出;对这些分支进行求和后,channelshufflef(·)实现它们之间的特征通信。
10.根据权利要求6-9任意一项所述的基于自适应上下文感知网络的RGB-D语义分割方法,其特征在于:所述自适应上下文感知网络,是训练好的自适应上下文感知网络;
训练过程中,利用数据集训练空间信息引导的自适应上下文感知网络,并根据交叉熵函数Lp,q计算损失;
其中,n表示类别数,pi是识别真实的各个类别的发生概率,qi是预测的各个类别的发生概率。
CN202310419882.4A 2023-04-18 2023-04-18 基于自适应上下文感知网络的rgb-d语义分割方法及系统 Pending CN116580192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310419882.4A CN116580192A (zh) 2023-04-18 2023-04-18 基于自适应上下文感知网络的rgb-d语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310419882.4A CN116580192A (zh) 2023-04-18 2023-04-18 基于自适应上下文感知网络的rgb-d语义分割方法及系统

Publications (1)

Publication Number Publication Date
CN116580192A true CN116580192A (zh) 2023-08-11

Family

ID=87533134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310419882.4A Pending CN116580192A (zh) 2023-04-18 2023-04-18 基于自适应上下文感知网络的rgb-d语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN116580192A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740362A (zh) * 2023-08-14 2023-09-12 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN117095208A (zh) * 2023-08-17 2023-11-21 浙江航天润博测控技术有限公司 一种面向光电吊舱侦察图像的轻量化场景分类方法
CN117615148A (zh) * 2024-01-24 2024-02-27 华中科技大学 一种基于多尺度框架的端到端特征图分层压缩方法
CN117745745A (zh) * 2024-02-18 2024-03-22 湖南大学 一种基于上下文融合感知的ct图像分割方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740362A (zh) * 2023-08-14 2023-09-12 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN116740362B (zh) * 2023-08-14 2023-11-21 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN117095208A (zh) * 2023-08-17 2023-11-21 浙江航天润博测控技术有限公司 一种面向光电吊舱侦察图像的轻量化场景分类方法
CN117095208B (zh) * 2023-08-17 2024-02-27 浙江航天润博测控技术有限公司 一种面向光电吊舱侦察图像的轻量化场景分类方法
CN117615148A (zh) * 2024-01-24 2024-02-27 华中科技大学 一种基于多尺度框架的端到端特征图分层压缩方法
CN117615148B (zh) * 2024-01-24 2024-04-05 华中科技大学 一种基于多尺度框架的端到端特征图分层压缩方法
CN117745745A (zh) * 2024-02-18 2024-03-22 湖南大学 一种基于上下文融合感知的ct图像分割方法
CN117745745B (zh) * 2024-02-18 2024-05-10 湖南大学 一种基于上下文融合感知的ct图像分割方法

Similar Documents

Publication Publication Date Title
CN112329800B (zh) 一种基于全局信息引导残差注意力的显著性目标检测方法
CN116580192A (zh) 基于自适应上下文感知网络的rgb-d语义分割方法及系统
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统
CN112308200B (zh) 神经网络的搜索方法及装置
CN109410239A (zh) 一种基于条件生成对抗网络的文本图像超分辨率重建方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN113284054A (zh) 图像增强方法以及图像增强装置
CN110136144B (zh) 一种图像分割方法、装置及终端设备
CN113920581B (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN111951195A (zh) 图像增强方法及装置
CN113870124B (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN111666948A (zh) 一种基于多路聚合的实时高性能语义分割方法和装置
CN114529982A (zh) 基于流式注意力的轻量级人体姿态估计方法及系统
CN116168067B (zh) 基于深度学习的有监督多模态光场深度估计方法
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN114627034A (zh) 一种图像增强方法、图像增强模型的训练方法及相关设备
CN115880225A (zh) 一种基于多尺度注意力机制的动态光照人脸图像质量增强方法
CN115131256A (zh) 图像处理模型、图像处理模型的训练方法及装置
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN117391938B (zh) 一种红外图像超分辨率重建方法、系统、设备及终端
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN113538402A (zh) 一种基于密度估计的人群计数方法及系统
CN116758415A (zh) 一种基于二维离散小波变换的轻量化害虫识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination