CN115908789A - 跨模态特征融合及渐近解码的显著性目标检测方法及装置 - Google Patents

跨模态特征融合及渐近解码的显著性目标检测方法及装置 Download PDF

Info

Publication number
CN115908789A
CN115908789A CN202211576796.6A CN202211576796A CN115908789A CN 115908789 A CN115908789 A CN 115908789A CN 202211576796 A CN202211576796 A CN 202211576796A CN 115908789 A CN115908789 A CN 115908789A
Authority
CN
China
Prior art keywords
features
fusion
layer
level
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211576796.6A
Other languages
English (en)
Inventor
孙福明
胡锡航
孙静
王法胜
李豪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202211576796.6A priority Critical patent/CN115908789A/zh
Publication of CN115908789A publication Critical patent/CN115908789A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种跨模态特征融合及渐近解码的显著性目标检测方法及装置。本发明通过双流SwinTransformer编码器对所述待检测图像提取多层级、多尺度的RGB特征和深度特征;通过跨模态注意力融合模块对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征;通过渐进融合解码器对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征;本发明解决了现有技术需要通过附加额外的特征增强或边缘生成模块来达到最先进的效果,这不可避免地会造成特征冗余和计算资源的浪费,同时也限制了显著性目标检测模型设计的进一步发展的问题。

Description

跨模态特征融合及渐近解码的显著性目标检测方法及装置
技术领域
本发明涉及目标检测技术领域,具体涉及一种跨模态特征融合及渐近解码的显著性目标检测方法及装置。
背景技术
显著性目标检测(Salient Object Detection,SOD)旨在模拟人类视觉感知系统检测图像中最吸引人的区域并精确分割,在计算机视觉领域有着广泛的应用,如目标识别、基于内容的图像检索、目标分割、图像编辑、视频分析和视觉跟踪。
近年来,卷积神经网络(CNN)在该领域广泛应用,取得了巨大的成功,突破了传统方法的性能瓶颈。但也面临着新的挑战,比如在复杂场景下(例如,杂乱的背景、多个对象、不同的光照、透明对象等)检测效果往往并不理想。随着Kinect和RealSense等深度相机越来越普及,引入深度信息的RGB-D显著性目标检测成为一个有吸引力的研究方向,涌现了大量相关的研究。深度图中所包含的大量空间结构、3D布局以及目标边界信息,大大提高了复杂场景下的检测效果。
由于RGB图像和深度图像之间包含的信息存在显著差异,如何有效整合不同模态间的互补信息成为了RGB-D显著性目标检测的一个关键问题。一些研究将深度图与RGB图直接集成为四通道输入,但这种方式未充分考虑两种模态的分布差异,所以不能有效整合跨模态信息。另一些研究者将深度特征视为辅助信息,利用独立的网络直接提取或增强后融合进RGB特征中。例如Zhu等人利用一个独立的子网络来提取深度特征,然后将这些特征直接合并到RGB网络中。Fan等人利用通道和空间注意力挖掘深度信息线索,然后将深度信息以辅助方式融合进RGB特征中。
在特征提取的过程中,不可避免地会丢失一定的细节信息,进而导致显著预测的边界模糊现象。针对这一问题,现有的算法大多通过设计附加的模块并为其匹配相应的目标函数来获取边缘信息。例如,Liu等人设计了边缘感知模块,从低级别深度特征中获取结构信息来生成边缘特征,并用于指导解码过程。Ji等人通过设计边缘协作器从低层RGB特征中提取边界信息,并对其施加额外监督来强调目标边界。
另一方面,由于显著目标在尺寸上存在较大的差异,多尺度上下文特征聚合成为精准定位显著目标的关键。针对该问题,现有的算法往往利用基于注意力机制或ASPP的特征增强模块,从最高级特征中提取多尺度信息。例如,Zhao等人基于ASPP设计了一个PAFE模块,在聚合多尺度特征时不均等的对待不同空间位置,以增强显著区域的表示能力。相似的,Zhao等人提出一种FoldASPP模块,来捕获上下文信息并定位不同尺度的显著目标。
尽管上述几种机制能够从各个方面提升显著性目标检测的性能,然而大多数算法往往需要通过附加额外的特征增强或边缘生成模块来达到最先进的效果,这不可避免地会造成特征冗余和计算资源的浪费,同时也限制了显著性目标检测模型设计的进一步发展。因此,有必要提出一种跨模态特征融合及渐近解码的显著性目标检测方法,以解决上述问题。
发明内容
本发明的目的在于提供一种跨模态特征融合及渐近解码的显著性目标检测方法,以解决现有技术需要通过附加额外的特征增强或边缘生成模块来达到最先进的效果,这不可避免地会造成特征冗余和计算资源的浪费,同时也限制了显著性目标检测模型设计的进一步发展的问题。
本发明提供一种跨模态特征融合及渐近解码的显著性目标检测方法,包括:
获取待检测图像;
通过双流SwinTransformer编码器对所述待检测图像提取多层级、多尺度的RGB特征和深度特征;
通过跨模态注意力融合模块对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征;
通过渐进融合解码器对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征。
进一步地,通过双流SwinTransformer编码器对所述待检测图像提取多层级、多尺度的RGB特征和深度特征,包括:
将深度图像复制为3通道;
通过片元分割操作将所述待检测图像分割成互不重叠的块;
分别从RGB图像和深度图像中获取4个阶段不同尺度的特征,其中RGB特征表示为
Figure BDA0003989407790000031
深度特征表示为
Figure BDA0003989407790000032
每个阶段由片元融合层和多个堆叠的SwinTransformer块组成,其中第一个阶段的片元融合层由线性嵌入层替代。
进一步地,通过跨模态注意力融合模块对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征,包括:
对输入特征
Figure BDA0003989407790000041
的高级邻层特征
Figure BDA0003989407790000042
进行放缩,最高层由当前层代替以保持对齐;通过上采样操作将空间分辨率调整到与当前层级相同;将两个输入特征级联并通过卷积层将通道数与
Figure BDA0003989407790000043
对齐得到
Figure BDA0003989407790000044
Figure BDA0003989407790000045
Figure BDA0003989407790000049
级联获得多尺度特征Fi
Figure BDA0003989407790000046
其中,UP(·)表示双线性插值上采样操作,Cat(·)表示级联操作,Conv(·)表示3*3卷积操作;
利用两个一维平均池化操作给多尺度特征Fi嵌入方向信息;对其进行级联并输入转换层来压缩通道;将嵌入了方向信息的特征图沿x、y方向分离,再通过编码注意力层在各自方向上生成编码注意力图,并与Fi相乘来实现通道注意力感知;
通过空间注意力模块获取空间注意力感知,并将输出与Fi相乘得到最终的融合特征
Figure BDA0003989407790000047
Figure BDA0003989407790000048
其中,Px和py表示水平方向和垂直方向的平均池化操作;ConvBS(·)代表由一个卷积层、BN层和Sigmoid层组成的转换层;CAx(·)和CAy(·)表示沿x、y方向上编码注意力的生成,通过一个包含Sigmoid层的卷积层来实现,SA(·)表示空间注意力层。
进一步地,通过渐进融合解码器对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征,包括:
在利用跨模态注意力融合模块获取融合特征
Figure BDA0003989407790000051
之后,将高级融合特征
Figure BDA0003989407790000052
输入到渐进融合解码器中进行解码,并在解码的过程中逐级融合低级特征;采取三个不同维度的残差卷积模块代替单独的卷积层进行解码,具体过程如下所示:
Figure BDA0003989407790000053
其中RCMi(·)表示残差卷积模块,Cat(·)表示拼接操作,Ffinal(·)表示最终特征。
进一步地,所述残差卷积模块的解码方式包括:
将输入特征通过一个深度可分离卷积层和LN层;通过两个逐点卷积层调整通道数;将输入特征与输出特征相加,并通过一个上采样层调整特征尺寸,具体过程如下所示:
RCM(f)=UP(f+PW2(σ(PW1(LN(DW(f)))))) (4)
其中,σ(·)是GELU激活函数,UP(·)表示上采样层,f表示输入特征,DW(·)表示深度可分离卷积层,PW(·)表示逐点卷积层,LN(·)表示正则化层。
进一步地,所述方法还包括:
从高级特征
Figure BDA0003989407790000054
和每一级残差卷积模块分别生成显著预测图Pi(i=1,2,3,4),并采取BCE损失和IoU损失组成的混合损失对其进行监督。
进一步地,BCE损失LBCE定义为:
Figure BDA0003989407790000061
其中,W和H分别代表图像的宽度和高度,P(x,y)表示预测坐标,G(x,y)表示真值坐标。
进一步地,IoU损失LIoU定义为:
Figure BDA0003989407790000062
其中,W和H分别代表图像的宽度和高度,P(x,y)表示预测坐标,G(x,y)表示真值坐标。
进一步地,模型的整体损失L定义为:
Figure BDA0003989407790000063
其中Pi为生成的显著预测图,G为真值图。
本发明还提供一种跨模态特征融合及渐近解码的显著性目标检测装置,包括:
图像获取模块,用于获取待检测图像;
双流Swin Transformer编码器,用于对所述待检测图像提取多层级、多尺度的RGB特征和深度特征;
跨模态注意力融合模块,用于对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征;
渐进融合解码器,用于对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征。
本发明具有以下有益效果:本发明提供的一种跨模态特征融合及渐近解码的显著性目标检测方法及装置,获取待检测图像;通过双流Swin Transformer编码器对所述待检测图像提取多层级、多尺度的RGB特征和深度特征;通过跨模态注意力融合模块对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征;通过渐进融合解码器对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征;本发明针对RGB-D的显著目标检测任务,提出了一个结构比较简洁的新框架:编码—特征融合—解码,即由双流SwinTransformer编码器、跨模态注意力融合模块、渐进融合解码器构成,跨模态注意力融合模块将编码注意力与空间注意力相结合,高效地聚合了不同模态、不同层级特征之间的多尺度信息,提高模型对不同尺度目标的适应能力,并从多个维度上有效整合不同模态间的互补信息。渐进融合解码器通过渐进的方式融合低级特征并利用残差卷积块细化特征,无需额外的边界感知模块或损失函数,就能保留低级特征中的细节信息,实现精确的显著预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的跨模态特征融合及渐近解码的显著性目标检测方法流程图;
图2是模型整体框架图;
图3是跨模态注意力融合模块图;
图4是残差卷积模块图;
图5是本发明与前沿RGB-D显著性模型的定性比较图。
具体实施方式
请参阅图1,本发明实施例提供本发明提供一种跨模态特征融合及渐近解码的显著性目标检测方法,包括:
S101,获取待检测图像。
S102,通过双流SwinTransformer编码器对所述待检测图像提取多层级、多尺度的RGB特征和深度特征。
特征提取是显著目标检测任务中至关重要的一环。大多数以往的显著目标检测模型采取基于CNN的骨干网络进行特征提取,但由于卷积核感受野的固有局限性,导致网络在提取全局特征方面表现得有所不足。针对这一问题,SwinTransformer借助基于自注意力的滑动窗口操作来实现全局信息建模,并将平方计算复杂度降低为线性计算复杂度,大大降低了运算成本。因此,本发明采用两个SwinTransformer作为骨干网络从RGB图像和深度图像中分别提取多尺度特征。考虑到复杂性和效率,本发明采用Swin-B版本。
如图2所示,首先将深度图像复制为3通道,以与RGB图像保持一致。接下来,通过片元分割操作将所述待检测图像分割成互不重叠的块;然后,分别从RGB图像和深度图像中获取4个阶段不同尺度的特征,其中RGB特征表示为
Figure BDA0003989407790000091
深度特征表示为
Figure BDA0003989407790000092
每个阶段由片元融合层和多个堆叠的SwinTransformer块组成,其中第一个阶段的片元融合层由线性嵌入层替代。
S103,通过跨模态注意力融合模块对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征。
在RGB-D显著目标检测任务中,RGB特征包含大量的纹理信息,而深度特征则侧重于空间位置信息。如何有效利用RGB特征和深度特征并充分挖掘特征间的互补信息,实现跨模态特征融合,是RGB-D显著性目标检测任务中的一个重要问题。针对该问题,本发明设计了一个跨模态注意力融合模块(Cross-Modal Attention Fusion Module,CAM),将一维编码注意力与空间注意力相结合,在不增加计算负担的前提下获取更大范围的注意力信息,从而有效地实现RGB特征和深度特征的跨模态融合。同时大多数显著目标检测方法在显著目标较小时,检测效果往往不够理想。这是由于多级特征尺度固定并且上下文信息交互不够充分,从而难以应对显著目标尺度的变化。因此,本发明将当前层级特征的高级邻层特征经过放缩并进行融合,以获取高级语义信息的指导和丰富的多尺度上下文信息,进而提升对不同尺度目标的检测能力。
如图3所示,首先对输入特征
Figure BDA0003989407790000093
的高级邻层特征
Figure BDA0003989407790000094
进行放缩,最高层由当前层代替以保持对齐;通过上采样操作将空间分辨率调整到与当前层级相同;将两个输入特征级联并通过卷积层将通道数与
Figure BDA0003989407790000101
对齐得到
Figure BDA0003989407790000102
Figure BDA0003989407790000103
Figure BDA0003989407790000104
级联获得多尺度特征Fi
Figure BDA0003989407790000105
其中,UP(·)表示双线性插值上采样操作,Cat(·)表示级联操作,Conv(·)表示3*3卷积操作。
利用两个一维平均池化操作给多尺度特征Fi嵌入方向信息;对其进行级联并输入转换层来压缩通道;将嵌入了方向信息的特征图沿x、y方向分离,再通过编码注意力层在各自方向上生成编码注意力图,并与Fi相乘来实现通道注意力感知。通过空间注意力模块获取空间注意力感知,并将输出与Fi相乘得到最终的融合特征
Figure BDA0003989407790000106
这一过程可以描述为:
Figure BDA0003989407790000107
其中,px和Py表示水平方向和垂直方向的平均池化操作;ConvBS(·)代表由一个卷积层、BN层和Sigmoid层组成的转换层;CAx(·)和CAy(·)表示沿x、y方向上编码注意力的生成,通过一个包含Sigmoid层的卷积层来实现,SA(·)表示空间注意力层。
通过本发明设计的跨模态注意力融合模块,将深度特征和RGB特征充分结合,以增强感兴趣目标的特征表示,并通过放缩并进行融合操作,引入了更多的多尺度上下文信息,提高了对于不同尺度目标的适应能力。
S104,通过渐进融合解码器对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征。
在提取高级特征的过程中往往会丢失一些边缘信息,另一方面,解码过程中的上采样操作还会引入一定的噪声信息。针对这些问题,本发明设计了渐进融合解码器,在解码的过程中逐步融入低级特征以补充边缘轮廓信息,并通过残差卷积块来减轻噪声的影响。
请参阅图2,在利用跨模态注意力融合模块获取融合特征
Figure BDA0003989407790000111
之后,将高级融合特征
Figure BDA0003989407790000112
输入到渐进融合解码器中进行解码,并在解码的过程中逐级融合低级特征;采取三个不同维度的残差卷积模块代替单独的卷积层进行解码,具体过程如下所示:
Figure BDA0003989407790000113
其中RCMi(·)表示残差卷积模块,Cat(·)表示拼接操作,Ffinal(·)表示最终特征。
RCM结构如图3所示。所述残差卷积模块的解码方式包括:首先,将输入特征通过一个深度可分离卷积(Depth-Wise,DW)层和LN层;通过两个逐点卷积(Point-Wise,PW)层调整通道数;将输入特征与输出特征相加,并通过一个上采样(Upsample,UP)层调整特征尺寸,具体过程如下所示:
RCM(f)=UP(f+PW2(σ(PW1(LN(DW(f))))))(4)
其中,σ(·)是GELU激活函数,UP(·)表示上采样层,f表示输入特征,DW(·)表示深度可分离卷积层,PW(·)表示逐点卷积层,LN(·)表示正则化层。
在本实施例中,所述方法还包括:从高级特征
Figure BDA0003989407790000121
和每一级残差卷积模块分别生成显著预测图Pi(i=1,2,3,4),并采取BCE损失和IoU损失组成的混合损失对其进行监督。
BCE损失LBCE定义为:
Figure BDA0003989407790000122
其中,W和H分别代表图像的宽度和高度,P(x,y)表示预测坐标,G(x,y)表示真值坐标。
IoU损失LIoU定义为:
Figure BDA0003989407790000123
其中,W和H分别代表图像的宽度和高度,P(x,y)表示预测坐标,G(x,y)表示真值坐标。
模型的整体损失L定义为:
Figure BDA0003989407790000124
其中Pi为生成的显著预测图,G为真值图。
本发明在六个具有挑战性的RGB-D显著目标检测数据集上对本发明提出的方法进行了评估。它们属于显著目标检测中比较有代表性的数据集,在模型训练中起着非常重要的作用。
Dut包含Lytro相机在现实生活场景中捕获的1200张图像。NLPR包括具有单个或多个显著对象的1000个图像。NJU2K包括2003张不同分辨率的立体图像。DES包含135幅由微软Kinect采集的室内图像。SIP包含1000幅突出人物的高分辨率图像。LFSD数据集主要包括lytro相机拍摄的100张图像,其中有多个小目标和复杂的背景。
为了公平比较,采取与中相同的训练数据集,包括来自NJU2K数据集的1,485幅图像、来自NLPR数据集的700幅图像和来自DUT的800幅图像,合计2985个样本来训练本发明的算法。NJU2K、NLPR和DUT数据集的剩余图像以及SIP、DES和LFSD的整个数据集用于测试。
本发明采用了四个广泛使用的评价指标来评估本模型,即E-measure(Eξ)、S-measure(Sm)、F-measure(Fβ)和平均绝对误差(MAE)。具体地说,E-measure(Eξ)用来衡量局部像素级误差和全局图像级误差。S-measure(Sm)评估显著图的区域感知和对象感知的空间结构相似性。F-measure(Fβ)是查准率和查全率的加权调和均值,可以用来评价系统的整体性能。MAE测量显著图和真值图之间的每像素绝对差值的平均值。在实验中,E指标和F指标采用了自适应的值。
在训练和测试阶段,将输入的RGB图像和深度图像尺寸调整为384×384,同时将深度图像复制为3通道来和RGB图像保持一致。在训练过程中,采取随机翻转、旋转和边界剪切等增强策略用于训练图像以防止过拟合。采取Swin-B预训练模型对骨干网络进行参数初始化,其余参数初始化为PyTorch默认设置。采用Adam优化器训练网络,BatchSize设置为8,初始学习率为5e-5,学习率每100个时期除以10。本发明的模型在具有单个NVIDIAGTX3090GPU的机器上进行训练。该模型约150个周期收敛,训练时间约12个小时。
与最先进的方法进行比较:该模型与CoNet、AILNet、DCF、TriTransNet、EBFSP、HAINet、JL-DCF、SwinNet、BPGNet、SPSN、C2DFNet、CIRNet,12种最新的RGB-D显著目标检测模型进行了比较。为了保证比较结果的公正性,评估的显著图由作者提供或运行源代码生成。
在6个广泛使用的数据集上的定量结果如表1所示。根据4个评价指标的结果可以看出,本发明提出的算法在6个数据集上都取得了出色的结果,其中DUT、DES、LFSD的所有指标上都取得了最优的结果,从而验证了本发明算法的有效性和泛化性。值得注意的是,本发明算法在LFSD数据集上提升效果显著,各项指标相较于次优结果均提升约1%,该数据集包含多个小目标和复杂背景,这说明了本发明算法在困难场景下有较强的鲁棒性。
表1先进算法及本发明提出的算法在六个RGB-D数据集上的定量指标
Figure BDA0003989407790000151
为了对本算法的性能进行定性评估,将本发明算法与一些具有代表性的最新算法的结果进行了可视化的比较,其中包含了一些具有代表性的困难场景,如前景和背景相似(1-2行)、复杂场景(3-4行)、低质量深度图(5-6行)、多目标(7-8行)和小目标(9-10行)的情况,结果如图5所示。从结果可以看出,本发明的模型能够更精确的定位和分割显著目标,并且在困难场景下仍能保证优秀的检测性能,验证了该模型的有效性和稳健性。
消融实验:跨模态注意力融合模块的有效性
1)验证融合策略的有效性。开展了以下实验:(a)融合RGB图像和深度图像的当前层级特征作为基线模型。(b)融合RGB图像和深度图像的低级特征和当前层级特征。(c)融合RGB图像和深度图像的高级特征、低级特征及当前层级特征。(d)融合RGB图像的高级特征和当前层级特征,以及深度图像的当前层次特征。(e)本发明采取的多尺度上下文特征聚合,即融合RGB图像和深度图像的高级特征和当前层级特征。
实验结果如表2所示,从结果中可以看出相比于基线模型,实验(b)、(c)、(d)、(e)都有一定程度的性能提升,验证了多尺度特征的有效性。另一方面,对比实验(b)、(c)、(e),可以看出实验(c)、(e)结果均优于实验(b),这说明了相比于低级特征所带来的细节信息的补充,高级特征所起到的引导作用更为关键。并且实验(e)的结果优于实验(c),一方面可能是由于融合低级特征的过程中引入了一定的背景噪声信息;另一方面,低级特征和高级特征一起参与融合也会造成一定的特征冗余,进而影响最终结果。最后。通过对比实验(d)和(e),可以看出深度图像和RGB图像的多尺度特征都能带来一定的贡献。
表2多尺度上下文特征聚合的消融实验结果,红色结果为最优,蓝色为次优
Figure BDA0003989407790000161
2)验证融合模块的有效性。开展了四个实验:(a)使用CBAM提出的通道-空间注意力模块对RGB特征和深度特征进行跨模态融合。(b)在CBAM模块的基础上,添加了放缩邻层特征并融合的策略。(c)使用JL-DCF中提出的跨模态融合模块(CM),同样采取了放缩邻层特征并融合的策略。(d)使用本发明提出的跨模态注意力融合模块。
实验结果如表3所示,从实验(a)和(b)中可以观察到,相比于基线模型,放缩邻层特征并融合的策略能够显著改善检测结果,在三个数据集的四个评价指标上的结果都有明显的提升。并且,对比实验(b)、(c)、(d)。可以看出,相比于其他2种特征融合模块,本发明的CAM取得了最佳的结果。这说明本发明提出的跨模态注意力融合模块,借助一维编码注意力机制,能够获取各自维度上更长距离的注意力信息再进行结合,从而有效地实现RGB特征和深度特征的跨模态融合。
表3跨模态注意力融合模块的消融实验结果
Figure BDA0003989407790000171
验证渐进融合解码器的有效性:将渐进融合解码器中的残差卷积块替换为单层卷积构成解码器作为基线模型,并对比了渐进融合解码器(PFD)和未融合低级特征的渐进解码器(PFD')的性能差距。实验结果如表4所示,对比实验(a)和(b)可以看出,相比于单层卷积解码器,渐进融合解码器借助残差卷积块,能进一步提取并保留有效的显著信息,同时减轻融合低级特征过程中噪声的引入。对比实验(b)和(c)可以看出融合低级特征能够显著提升检测效果,这是由于提取高级特征的过程中往往会丢失边缘细节信息,通过融合低级特征能够得到有效补充,以实现显著目标的精确分割。
表4渐进融合解码器的消融实验结果
Figure BDA0003989407790000172
验证损失函数的有效性:针对本发明所采用的混合损失函数开展一系列消融实验以验证其有效性,其中包括(a)BCE损失函数。(b)IoU损失函数。(c)BCE和IoU组成的混合损失函数。(d)本发明损失函数,即在混合损失函数的基础上对多级特征施加深度监督策略。实验结果如表5所示,BCE损失函数侧重于监督所有像素而IoU损失函数主要关注前景,通过将两者结合可以兼顾它们的优势,在大多数指标上实验(c)相比于(a)、(b)有所提升,印证了这一猜想。另外,引入深度监督策略,从多层级的特征中生成预测并进行监督,这有助于利用多尺度信息进一步修正预测结果。
表5不同损失函数的消融实验结果,红色结果为最优,蓝色为次优
Figure BDA0003989407790000181
验证附加模块的冗余问题
为了进一步验证附加模块的冗余问题,在本发明模型的基础上,对RGB-D显著目标检测任务中使用额外附加的模块来进行特征增强及边缘生成的必要性进行了实验分析。将本发明的模型作为基线模型,分别添加特征增强模块和边缘生成模块。
实验结果如表6所示。对比实验(a)和(b)可以看出,添加特征增强模块之后在三个数据集的所有指标上都有一定幅度的降低,这是由于本发明的跨模态注意力融合模块利用放缩邻层特征并融合的策略已经获取了大量的多尺度信息,并且高级特征中的语义信息已经足够丰富,所以额外添加特征增强模块会导致过拟合,影响最终的结果。对比实验(a)和(c)可以看出,添加单独的边缘生成模块并未显著影响最终的检测结果,这是由于本发明设计的渐进融合解码器在解码的过程中融入了低级特征,获取了大量的边缘信息,并通过残差卷积块过滤掉其中的噪声,所以不需要依赖额外的边缘生成模块就能获得出色的结果。
表6附加模块消融实验结果
Figure BDA0003989407790000191
本发明针对RGB-D显著目标检测中,为了实现精确边界预测和特征增强而附加模块所带来的特征冗余、效率低下的问题,从模块必要性的角度出发,设计了一个结构简洁的RGB-D显著性目标检测框架。利用跨模态注意力融合模块实现深度特征和RGB特征的互补融合,并通过集成上下文特征,挖掘其中的多尺度信息。此外,设计渐进融合解码器,在解码的过程中融合并提取低级特征中的细节信息,以实现精确的显著预测。在6个数据集上的实验结果表明,该方法与其他最新算法相比较将性能提升到了一个新的水平。
本发明还提供一种跨模态特征融合及渐近解码的显著性目标检测装置,包括:
图像获取模块,用于获取待检测图像;
双流Swin Transformer编码器,用于对所述待检测图像提取多层级、多尺度的RGB特征和深度特征;
跨模态注意力融合模块,用于对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征;
渐进融合解码器,用于对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征。
本发明实施例还提供一种存储介质,本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现本发明提供的跨模态特征融合及渐近解码的显著性目标检测方法各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:Read-OnlyMemory,简称:ROM)或随机存储记忆体(英文:RandomAccessMemory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于跨模态特征融合及渐近解码的显著性目标检测装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (10)

1.一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,包括:
获取待检测图像;
通过双流Swin Transformer编码器对所述待检测图像提取多层级、多尺度的RGB特征和深度特征;
通过跨模态注意力融合模块对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征;
通过渐进融合解码器对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征。
2.如权利要求1所述的跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,通过双流Swin Transformer编码器对所述待检测图像提取多层级、多尺度的RGB特征和深度特征,包括:
将深度图像复制为3通道;
通过片元分割操作将所述待检测图像分割成互不重叠的块;
分别从RGB图像和深度图像中获取4个阶段不同尺度的特征,其中RGB特征表示为
Figure FDA0003989407780000011
深度特征表示为
Figure FDA0003989407780000012
每个阶段由片元融合层和多个堆叠的Swin Transformer块组成,其中第一个阶段的片元融合层由线性嵌入层替代。
3.如权利要求1所述的一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,通过跨模态注意力融合模块对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征,包括:
对输入特征
Figure FDA0003989407780000021
的高级邻层特征
Figure FDA0003989407780000022
进行放缩,最高层由当前层代替以保持对齐;通过上采样操作将空间分辨率调整到与当前层级相同;将两个输入特征级联并通过卷积层将通道数与
Figure FDA0003989407780000023
对齐得到
Figure FDA0003989407780000024
Figure FDA0003989407780000025
Figure FDA0003989407780000026
级联获得多尺度特征Fi
Figure FDA0003989407780000027
Figure FDA0003989407780000028
其中,UP(·)表示双线性插值上采样操作,Cat(·)表示级联操作,Conv(·)表示3*3卷积操作;
利用两个一维平均池化操作给多尺度特征Fi嵌入方向信息;对其进行级联并输入转换层来压缩通道;将嵌入了方向信息的特征图沿x、y方向分离,再通过编码注意力层在各自方向上生成编码注意力图,并与Fi相乘来实现通道注意力感知;
通过空间注意力模块获取空间注意力感知,并将输出与Fi相乘得到最终的融合特征
Figure FDA0003989407780000029
Figure FDA00039894077800000210
其中,px和py表示水平方向和垂直方向的平均池化操作;ConvBS(·)代表由一个卷积层、BN层和Sigmoid层组成的转换层;CAx(·)和CAy(·)表示沿x、y方向上编码注意力的生成,通过一个包含Sigmoid层的卷积层来实现,SA(·)表示空间注意力层。
4.如权利要求1所述的一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,通过渐进融合解码器对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征,包括:
在利用跨模态注意力融合模块获取融合特征
Figure FDA0003989407780000031
之后,将高级融合特征
Figure FDA0003989407780000032
输入到渐进融合解码器中进行解码,并在解码的过程中逐级融合低级特征;采取三个不同维度的残差卷积模块代替单独的卷积层进行解码,具体过程如下所示:
Figure FDA0003989407780000033
其中RCMi(·)表示残差卷积模块,Cat(·)表示拼接操作,Ffinal(·)表示最终特征。
5.如权利要求4所述的一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,所述残差卷积模块的解码方式包括:
将输入特征通过一个深度可分离卷积层和LN层;通过两个逐点卷积层调整通道数;将输入特征与输出特征相加,并通过一个上采样层调整特征尺寸,具体过程如下所示:
RCM(f)=UP(f+PW2(σ(PW1(LN(DW(f)))))) (4)
其中,σ(·)是GELI激活函数,UP(·)表示上采样层,f表示输入特征,DW(·)表示深度可分离卷积层,PW(·)表示逐点卷积层,LN(·)表示正则化层。
6.如权利要求5所述的一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,所述方法还包括:
从高级特征
Figure FDA0003989407780000034
和每一级残差卷积模块分别生成显著预测图Pi(i=1,2,3,4),并采取BCE损失和IoU损失组成的混合损失对其进行监督。
7.如权利要求6所述的一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,BCE损失LBCE定义为:
Figure FDA0003989407780000041
其中,W和H分别代表图像的宽度和高度,P(x,y)表示预测坐标,G(x,y)表示真值坐标。
8.如权利要求7所述的一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,IoU损失LIoU定义为:
Figure FDA0003989407780000042
其中,W和H分别代表图像的宽度和高度,P(x,y)表示预测坐标,G(x,y)表示真值坐标。
9.如权利要求8所述的一种跨模态特征融合及渐近解码的显著性目标检测方法,其特征在于,模型的整体损失L定义为:
Figure FDA0003989407780000051
其中Pi为生成的显著预测图,G为真值图。
10.一种跨模态特征融合及渐近解码的显著性目标检测装置,其特征在于,包括:
图像获取模块,用于获取待检测图像;
双流Swin Transformer编码器,用于对所述待检测图像提取多层级、多尺度的RGB特征和深度特征;
跨模态注意力融合模块,用于对所述多层级、多尺度的RGB特征和深度特征进行融合,得到融合特征;
渐进融合解码器,用于对所述融合特征中的高级融合特征进行解码,并在解码的过程中逐级融合低级特征。
CN202211576796.6A 2022-12-09 2022-12-09 跨模态特征融合及渐近解码的显著性目标检测方法及装置 Pending CN115908789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211576796.6A CN115908789A (zh) 2022-12-09 2022-12-09 跨模态特征融合及渐近解码的显著性目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211576796.6A CN115908789A (zh) 2022-12-09 2022-12-09 跨模态特征融合及渐近解码的显著性目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN115908789A true CN115908789A (zh) 2023-04-04

Family

ID=86476474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211576796.6A Pending CN115908789A (zh) 2022-12-09 2022-12-09 跨模态特征融合及渐近解码的显著性目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN115908789A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206133A (zh) * 2023-04-25 2023-06-02 山东科技大学 一种rgb-d显著性目标检测方法
CN116721351A (zh) * 2023-07-06 2023-09-08 内蒙古电力(集团)有限责任公司内蒙古超高压供电分公司 一种架空线路通道内道路环境特征遥感智能提取方法
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206133A (zh) * 2023-04-25 2023-06-02 山东科技大学 一种rgb-d显著性目标检测方法
CN116206133B (zh) * 2023-04-25 2023-09-05 山东科技大学 一种rgb-d显著性目标检测方法
CN116721351A (zh) * 2023-07-06 2023-09-08 内蒙古电力(集团)有限责任公司内蒙古超高压供电分公司 一种架空线路通道内道路环境特征遥感智能提取方法
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117036891B (zh) * 2023-08-22 2024-03-29 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统

Similar Documents

Publication Publication Date Title
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
US20200117906A1 (en) Space-time memory network for locating target object in video content
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
CN108491848B (zh) 基于深度信息的图像显著性检测方法和装置
Zeng et al. LEARD-Net: Semantic segmentation for large-scale point cloud scene
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN114936605A (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
GB2579262A (en) Space-time memory network for locating target object in video content
CN113379707A (zh) 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法
Wang et al. DCMNet: Discriminant and cross-modality network for RGB-D salient object detection
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN115331024A (zh) 一种基于深度监督和逐步学习的肠道息肉检测方法
Xu et al. Learning inverse depth regression for pixelwise visibility-aware multi-view stereo networks
CN116229406B (zh) 车道线检测方法、系统、电子设备及存储介质
CN115830420A (zh) 一种基于边界可变形卷积引导的rgb-d显著性目标检测方法
CN113807354B (zh) 图像语义分割方法、装置、设备和存储介质
CN116051950A (zh) 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测
CN115019139A (zh) 一种基于双流网络的光场显著目标检测方法
Gao et al. RGBD semantic segmentation based on global convolutional network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination