CN116206133A - 一种rgb-d显著性目标检测方法 - Google Patents

一种rgb-d显著性目标检测方法 Download PDF

Info

Publication number
CN116206133A
CN116206133A CN202310450234.5A CN202310450234A CN116206133A CN 116206133 A CN116206133 A CN 116206133A CN 202310450234 A CN202310450234 A CN 202310450234A CN 116206133 A CN116206133 A CN 116206133A
Authority
CN
China
Prior art keywords
rgb
features
depth
cross
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310450234.5A
Other languages
English (en)
Other versions
CN116206133B (zh
Inventor
东野长磊
贾兴朝
赵文秀
彭延军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202310450234.5A priority Critical patent/CN116206133B/zh
Publication of CN116206133A publication Critical patent/CN116206133A/zh
Application granted granted Critical
Publication of CN116206133B publication Critical patent/CN116206133B/zh
Priority to GBGB2403824.2A priority patent/GB202403824D0/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种RGB‑D显著性目标检测方法,涉及图像处理领域,具体包括如下步骤:输入RGB图像和深度图像;对RGB图像和深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。本发明克服了现有技术中不能对跨模态特征进行有效融合,显著性目标检测精度不高的问题。

Description

一种RGB-D显著性目标检测方法
技术领域
本发明涉及图像处理领域,具体涉及一种RGB-D显著性目标检测方法。
背景技术
在视觉场景中,人类能够快速地将注意力转移到最重要区域。计算机视觉中的显著性目标检测便是由计算机模拟人眼视觉来识别场景中最显著目标,显著目标检测作为计算机视觉应用中重要的预处理任务,已广泛应用于图像理解、图像检索、语义分割、图像修复和物体识别中。随着Kinect和RealSense等深度相机的发展,各种场景的深度图的获取变得更加容易,深度信息可以和RGB图像进行信息互补,有利于提高显著性检测的能力。因此,基于RGB-D的显著性目标检测得到了研究人员的关注。
传统的RGB-D显著性目标检测方法通过手工特征提取,然后融合RGB图像和深度图。例如,Lang等人利用高斯混合模型来模拟深度诱导的显著性的分布。Ciptadi等人从深度测量中提取了三维布局和形状特征,利用不同区域之间的深度差异来测量深度对比度。尽管传统RGB-D检测方法很有效,但所提取的低级特征限制了模型的泛化能力,而且不适用于复杂场景。
显著性目标检测的一个需求是有效融合跨模态信息,在对RGB图和RGB-D图进行编码后,还需要将学习到的两种模态特征融合起来。基于卷积神经网络(CNN)的显著性目标检测方法取得了许多令人印象深刻的结果。现有基于卷积神经网络的显著性检测方法,存在卷积感受野的限制,在学习全局远程依赖方面存在严重不足。其次,现有技术采用的早期或者后期融合策略,难以捕获RGB和深度图像之间的互补和交互作用信息。不能从两种模态中学习高层次的信息,挖掘出集成融合规则,从而不能有效地检测完整的显著性目标。
因此,现需要一种能够对跨模态特征进行有效融合,有效提高显著性目标检测精度的方法。
发明内容
本发明的主要目的在于提供一种RGB-D显著性目标侧方法,以解决现有技术中不能对跨模态特征进行有效融合,显著性目标检测精度不高的问题。
为实现上述目的,本发明提供了一种RGB-D显著性目标检测方法,具体包括如下步骤:S1,输入RGB图像和深度图像;S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;S5,按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
进一步地,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,重组是将一个token序列
Figure SMS_4
重建成一个3D张量/>
Figure SMS_5
,其中,
Figure SMS_6
是token序列/>
Figure SMS_7
的长度,/>
Figure SMS_8
是token序列/>
Figure SMS_9
和3D张量/>
Figure SMS_10
的通道数,/>
Figure SMS_1
分别代表/>
Figure SMS_2
的高度和宽度,且/>
Figure SMS_3
软拆分是通过展开操作将
Figure SMS_11
软分割成/>
Figure SMS_12
大小的块, />
Figure SMS_13
经软拆分后得到token序列,其长度/>
Figure SMS_14
可以表示为:
Figure SMS_15
其中,
Figure SMS_16
代表块之间像素重叠个数,/>
Figure SMS_17
代表块之间像素填充个数,/>
Figure SMS_18
代表卷积运算中的步长,当/>
Figure SMS_19
时, tokens序列的长度便可降低。
原始RGB图像
Figure SMS_20
,其中/>
Figure SMS_21
分别代表/>
Figure SMS_22
的高度、宽度和通道数,经过重组得到的token序列/>
Figure SMS_23
经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列/>
Figure SMS_24
,这一过程可以表示为:
Figure SMS_25
进一步地,步骤S2中,基于轻量级卷积网络MobileV2Net的编码器包括IRB结构。
进一步地,步骤S3中的跨模态Transformer融合模块包括:跨模态交互注意力模块和Transformer层,跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息。
进一步地,经跨模态Transformer融合模块,得到跨模态交互信息的公式,表示为:
Figure SMS_26
其中,
Figure SMS_27
分别为两种模态的查询,/>
Figure SMS_28
分别为两种模态的键,/>
Figure SMS_29
Figure SMS_30
分别为两种模态的值。
进一步地,步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,特征聚合模块用于聚合特征和融合跨模态信息。
进一步地,特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
S4.1,RGB特征
Figure SMS_31
和深度特征/>
Figure SMS_32
进行相乘,再经过一个IRB进行卷积后得到过渡的 RGB-D 特征图/>
Figure SMS_33
,此过程表示为:
Figure SMS_34
S4.2,深度特征
Figure SMS_35
经CBAM增强后的特征记为/>
Figure SMS_36
,此过程表示为:
Figure SMS_37
S4.3,
Figure SMS_38
再与深度特征/>
Figure SMS_39
再次相乘强化语义特征后得到/>
Figure SMS_40
,此过程表示为:
Figure SMS_41
S4.4,
Figure SMS_42
与RGB特征/>
Figure SMS_43
相加以重新增强显著特征,同时引入较低层次的输出特征/>
Figure SMS_44
进行元素相加,然后使用IRB,得到跨模态融合后的RGB-D特征/>
Figure SMS_45
,此过程表示为:
Figure SMS_46
进一步地,步骤S4中,来自T2T-ViT的经重组后的RGB信息
Figure SMS_47
,/>
Figure SMS_48
,/>
Figure SMS_49
和来自MobileNet V2的深度信息/>
Figure SMS_50
被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征的进行融合。
进一步地,步骤S5中,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为
Figure SMS_51
,总的损失函数/>
Figure SMS_52
计算公式如下:
Figure SMS_53
其中,
Figure SMS_54
表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为/>
Figure SMS_55
,/>
Figure SMS_56
表示来自真值图的监督,其分辨率与/>
Figure SMS_57
对应,/>
Figure SMS_58
表示交叉熵损失函数。
本发明具有如下有益效果:
1、本发明充分考虑到RGB图像和深度图像之间的不同。我们使用基于Transformer的T2T-ViT网络和轻量级MobileNet V2网络,分别实现对RGB信息和深度信息的提取。这种非对称双流学习网络设计使本发明相比其他显著性目标检测方法,降低了模型参数量,同时提高了显著性目标检测速度,并具有优秀的显著性目标检测性能。
2、本发明所设计的解码器包括跨模态Transformer融合模块(CMTFM)和跨模态密集协作聚合模块(CMDCAM)。跨模态Transformer融合模块(CMTFM)作为解码器的块,可以建模RGB数据与深度数据之间的远程跨模态依赖,实现RGB数据与深度数据之间的跨模态信息交互。本发明采用密集连接来增强解码器,设计的跨模态密集协作聚合模块(CMDCAM),通过密集协作融合的方式聚合不同层次的特征,并有效地融合跨模态信息。本发明所设计的解码器有效地融合RGB图像信息和深度信息,提高了显著性目标的检测精度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本发明的一种RGB-D显著性目标检测方法的流程图。
图2示出了本发明的一种RGB-D显著性目标检测方法的结构示意图。
图3示出了图2的基于T2T-ViT的transformer编码器的结构示意图。
图4示出了图2的解码器中的特征聚合模块FAM的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1 所示的一种RGB-D显著性目标检测方法,具体包括如下步骤:
S1,输入RGB图像和深度图像。
S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征。
T2T-ViT网络是对ViT网络的改进,在ViT的基础上增加了T2T操作,相当于卷积神经网络中的下采样,用于同时建模图像的局部结构信息与全局相关性。T2T能将相邻的tokens聚合成一个新的token,从而减少token的长度。
具体地,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,重组是将一个token序列
Figure SMS_60
重建成一个3D张量/>
Figure SMS_63
,其中,/>
Figure SMS_64
是token序列/>
Figure SMS_65
的长度,/>
Figure SMS_66
是token序列/>
Figure SMS_67
和3D张量/>
Figure SMS_68
的通道数,/>
Figure SMS_59
分别代表/>
Figure SMS_61
的高度和宽度,且/>
Figure SMS_62
软拆分是通过展开操作将
Figure SMS_69
软分割成/>
Figure SMS_70
大小的块, />
Figure SMS_71
经软拆分后得到token序列,其长度/>
Figure SMS_72
可以表示为:
Figure SMS_73
其中,
Figure SMS_74
代表块之间像素重叠个数,/>
Figure SMS_75
代表块之间像素填充个数,/>
Figure SMS_76
代表卷积运算中的步长,当/>
Figure SMS_77
时, tokens序列的长度便可降低。
原始RGB图像
Figure SMS_78
,其中/>
Figure SMS_79
分别代表/>
Figure SMS_80
的高度、宽度和通道数,经过重组得到的token序列/>
Figure SMS_81
经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列/>
Figure SMS_82
,这一过程可以表示为:
Figure SMS_83
具体地,步骤S2中,基于轻量级卷积网络MobileNet V2的编码器包括IRB结构。语义信息主要存在于RGB图像中,深度图传达了没有对象细节的信息。深度图中所含信息相对于RGB较单一,且量少,而且往往深度图中颜色最深的部位便是显著性目标检测任务所要寻找的显著目标。所以本发明采用轻量级的MobileNet V2网络便能很好地提取深度图的信息。MobileNet V2是对 MobileNet V1的改进,提出了倒残差结构(Inverted ResidualBlock,IRB)结构。倒残差结构与残差结构中维度先缩减再扩增正好相反,更有利于特征的学习。如图2所示,将MobileNet V2侧输出的4级深度特征图标注为
Figure SMS_84
S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征。
具体地,步骤S3中的跨模态Transformer融合模块( CMTFM,Cross-modalityTransformer Fusion Module)包括:跨模态交互注意力模块和Transformer层,跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息,从而提高显著性预测的准确性。CMTFM基于视觉显著性转换器(Visual Saliency Transformer,VST)中的RGB-D转化器,为了节省参数和计算资源,我们去掉了RGB-D 转化器中的自注意力部分。
具体地,如图2所示,在CMTFM中,融合
Figure SMS_86
和/>
Figure SMS_87
以整合RGB和深度数据之间的互补信息。通过三个线性投影操作将/>
Figure SMS_89
转化生成查询/>
Figure SMS_91
,键/>
Figure SMS_92
,值/>
Figure SMS_93
。类似地,用另外三个线性投影操作将/>
Figure SMS_94
转化成查询/>
Figure SMS_85
,键/>
Figure SMS_88
,值/>
Figure SMS_90
。由Transformer层中的多头注意力中的“缩放点积注意力”公式可以得到跨模态交互信息的公式,表示为:
Figure SMS_95
这样来自RGB块标记和深度块标记的信息流通过4次跨模态交互注意力模块来进行跨模态信息交互后,再经过一个4层Transformer层进行强化得到了token序列
Figure SMS_96
来自编码器的RGB和深度序列必须通过线性投影层,以将其嵌入维度从384转换为64,以减少计算和参数。
S4,利用密集连接卷积神经网络增强特征融合模块,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分。
具体地,步骤S4的跨模态密集协作聚合模块(CMDCAM,Cross-modal densecooperative Aggregation Module)包括:三个特征聚合模块(FAM,Feature AggregationModule )和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,以便进行像素级分类。特征聚合模块既能作为解码器网络的组成,承担起聚合特征的作用,也能有效地融合跨模态信息。
具体地,特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;深度图仅传达了一个先验区域,缺乏对像细节。因此,我们先通过两次乘法增强了RGB的语义特征。基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
S4.1,RGB特征
Figure SMS_97
和深度特征/>
Figure SMS_98
进行相乘,再经过一个IRB进行卷积后得到过渡的 RGB-D 特征图/>
Figure SMS_99
,此过程表示为:
Figure SMS_100
S4.2,深度特征
Figure SMS_101
经CBAM增强后的特征记为/>
Figure SMS_102
,此过程表示为:
Figure SMS_103
S4.3,
Figure SMS_104
再与深度特征/>
Figure SMS_105
再次相乘强化语义特征后得到/>
Figure SMS_106
,此过程表示为:
Figure SMS_107
S4.4,
Figure SMS_108
与RGB特征/>
Figure SMS_109
相加以重新增强显著特征,同时引入较低层次的输出特征/>
Figure SMS_110
进行元素相加,然后使用IRB,得到跨模态融合后的RGB-D特征/>
Figure SMS_111
,此过程表示为:
Figure SMS_112
。/>
具体地,步骤S4中,来自T2T-ViT的经重组后的RGB信息
Figure SMS_113
和来自MobileNet V2的深度信息/>
Figure SMS_114
被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征的进行融合。
S5,按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
具体地,如图1所示,步骤S5中,通过在每个解码器模块的输出中依次添加
Figure SMS_115
单通道卷积和Sigmoid激活函数来进行显著性映射。在训练期间,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为/>
Figure SMS_116
,总的损失函数/>
Figure SMS_117
计算公式如下:
Figure SMS_118
其中,
Figure SMS_119
表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为/>
Figure SMS_120
,/>
Figure SMS_121
表示来自真值图的监督,其分辨率与/>
Figure SMS_122
对应,/>
Figure SMS_123
表示交叉熵损失函数。
按照分辨率由小到大的顺序将四个显著性预测图依次记为
Figure SMS_124
Figure SMS_125
表示来自GT的监督,其分辨率与/>
Figure SMS_126
对应。利用交叉熵损失函数(BCE)公式,则可计算总的损失函数/>
Figure SMS_127
,计算公式如下:
Figure SMS_128
其中,
Figure SMS_129
表示每个损失的权重。
在显著性目标检测方法中,使用基于图像分类的经预训练的模型作为主干网,有助于训练过程中损失收敛,从而能够有效的提高显著目标检测的精度。本发明使用了经过预训练的基于T2T-ViT的transformer编码器和基于轻量级卷积网络MobileNet V2的编码器来作为主干网提取特征。
本发明设计了跨模态密集协作聚合模块(CMDCAM),该模块基于倒残差模块,具有计算参数量和计算量小的优点。该模块不但可以融合RGB信息和深度信息两种模态信息,而且可以聚合不同层次的特征信息。该模型可以实现在降低检测方法计算量前提下,明显提高了显著性目标的检测性能,并提高了显著性目标的检测精度。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (9)

1.一种RGB-D显著性目标检测方法,其特征在于,具体包括如下步骤:
S1,输入RGB图像和深度图像;
S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;
S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;
S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;
S5,按照预测的显著图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
2.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,所述重组是将一个token序列
Figure QLYQS_2
重建成一个3D张量/>
Figure QLYQS_3
,其中,/>
Figure QLYQS_6
是token序列/>
Figure QLYQS_7
的长度,/>
Figure QLYQS_8
是token序列/>
Figure QLYQS_9
和3D张量/>
Figure QLYQS_10
的通道数,/>
Figure QLYQS_1
分别代表/>
Figure QLYQS_4
的高度和宽度,且/>
Figure QLYQS_5
所述软拆分是通过展开操作将
Figure QLYQS_11
软分割成/>
Figure QLYQS_12
大小的块,/>
Figure QLYQS_13
经所述软拆分后得到token序列,其长度/>
Figure QLYQS_14
可以表示为:
Figure QLYQS_15
,其中,/>
Figure QLYQS_16
代表块之间像素重叠个数,/>
Figure QLYQS_17
代表块之间像素填充个数,/>
Figure QLYQS_18
代表卷积运算中的步长,当/>
Figure QLYQS_19
时, tokens序列的长度便可降低;
原始RGB图像
Figure QLYQS_20
,其中/>
Figure QLYQS_21
分别代表/>
Figure QLYQS_22
的高度、宽度和通道数,经过重组得到的token序列/>
Figure QLYQS_23
经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列/>
Figure QLYQS_24
,这一过程可以表示为:
Figure QLYQS_25
3.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S2中,基于轻量级卷积网络MobileV2Net的编码器包括IRB结构。
4.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S3中的跨模态Transformer融合模块包括:跨模态交互注意力模块和Transformer层,所述跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息。
5.根据权利要求4所述的一种RGB-D显著性目标检测方法,其特征在于,经跨模态Transformer融合模块,得到跨模态交互信息的公式,表示为:
Figure QLYQS_26
其中,
Figure QLYQS_27
、/>
Figure QLYQS_28
分别两种模态的查询,/>
Figure QLYQS_29
、/>
Figure QLYQS_30
为分别两种模态的键,/>
Figure QLYQS_31
、/>
Figure QLYQS_32
为分别两种模态的值。
6.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,所述特征聚合模块用于聚合特征和融合跨模态信息。
7.根据权利要求6所述的一种RGB-D显著性目标检测方法,其特征在于,所述特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
S4.1,RGB特征
Figure QLYQS_33
和深度特征/>
Figure QLYQS_34
进行相乘,再经过一个IRB进行卷积后得到过渡的RGB-D 特征图/>
Figure QLYQS_35
,此过程表示为:
Figure QLYQS_36
S4.2,深度特征
Figure QLYQS_37
经CBAM增强后的特征记为/>
Figure QLYQS_38
,此过程表示为:
Figure QLYQS_39
S4.3,
Figure QLYQS_40
再与深度特征/>
Figure QLYQS_41
再次相乘强化语义特征后得到/>
Figure QLYQS_42
,此过程表示为:
Figure QLYQS_43
S4.4,
Figure QLYQS_44
与RGB特征/>
Figure QLYQS_45
相加以重新增强显著特征,同时引入较低层次的输出特征/>
Figure QLYQS_46
进行元素相加,然后使用IRB,得到跨模态融合后的RGB-D特征/>
Figure QLYQS_47
,此过程表示为:
Figure QLYQS_48
8.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S4中,来自T2T-ViT的经重组后的RGB信息
Figure QLYQS_49
,/>
Figure QLYQS_50
,/>
Figure QLYQS_51
和来自MobileNet V2的深度信息/>
Figure QLYQS_52
,/>
Figure QLYQS_53
,/>
Figure QLYQS_54
,/>
Figure QLYQS_55
被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征的进行融合。
9.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S5中,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为
Figure QLYQS_56
,总的损失函数/>
Figure QLYQS_57
计算公式如下:
Figure QLYQS_58
其中,
Figure QLYQS_59
表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为/>
Figure QLYQS_60
,/>
Figure QLYQS_61
表示来自真值图的监督,其分辨率与/>
Figure QLYQS_62
对应,/>
Figure QLYQS_63
表示交叉熵损失函数。/>
CN202310450234.5A 2023-04-25 2023-04-25 一种rgb-d显著性目标检测方法 Active CN116206133B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310450234.5A CN116206133B (zh) 2023-04-25 2023-04-25 一种rgb-d显著性目标检测方法
GBGB2403824.2A GB202403824D0 (en) 2023-04-25 2024-03-18 RGB-D salient object detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310450234.5A CN116206133B (zh) 2023-04-25 2023-04-25 一种rgb-d显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN116206133A true CN116206133A (zh) 2023-06-02
CN116206133B CN116206133B (zh) 2023-09-05

Family

ID=86513158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310450234.5A Active CN116206133B (zh) 2023-04-25 2023-04-25 一种rgb-d显著性目标检测方法

Country Status (2)

Country Link
CN (1) CN116206133B (zh)
GB (1) GB202403824D0 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935052A (zh) * 2023-07-24 2023-10-24 北京中科睿途科技有限公司 智能座舱环境下的语义分割方法及相关设备
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN117409214A (zh) * 2023-12-14 2024-01-16 南开大学 基于自适应交互网络的显著性目标检测方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120113133A1 (en) * 2010-11-04 2012-05-10 Shpigelblat Shai System, device, and method for multiplying multi-dimensional data arrays
US20190147318A1 (en) * 2017-11-14 2019-05-16 Google Llc Highly Efficient Convolutional Neural Networks
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN113486865A (zh) * 2021-09-03 2021-10-08 国网江西省电力有限公司电力科学研究院 一种基于深度学习的输电线路悬挂异物目标检测方法
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113935433A (zh) * 2021-11-02 2022-01-14 齐齐哈尔大学 基于深度光谱空间倒残差网络的高光谱图像分类方法
WO2022166361A1 (zh) * 2021-02-04 2022-08-11 浙江师范大学 一种基于跨模态融合的深度聚类方法及系统
CN115410046A (zh) * 2022-09-22 2022-11-29 河南科技大学 基于深度学习的皮肤病舌象分类模型、建立方法及应用
CN115908789A (zh) * 2022-12-09 2023-04-04 大连民族大学 跨模态特征融合及渐近解码的显著性目标检测方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120113133A1 (en) * 2010-11-04 2012-05-10 Shpigelblat Shai System, device, and method for multiplying multi-dimensional data arrays
US20190147318A1 (en) * 2017-11-14 2019-05-16 Google Llc Highly Efficient Convolutional Neural Networks
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
WO2022166361A1 (zh) * 2021-02-04 2022-08-11 浙江师范大学 一种基于跨模态融合的深度聚类方法及系统
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113486865A (zh) * 2021-09-03 2021-10-08 国网江西省电力有限公司电力科学研究院 一种基于深度学习的输电线路悬挂异物目标检测方法
CN113935433A (zh) * 2021-11-02 2022-01-14 齐齐哈尔大学 基于深度光谱空间倒残差网络的高光谱图像分类方法
CN115410046A (zh) * 2022-09-22 2022-11-29 河南科技大学 基于深度学习的皮肤病舌象分类模型、建立方法及应用
CN115908789A (zh) * 2022-12-09 2023-04-04 大连民族大学 跨模态特征融合及渐近解码的显著性目标检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NIAN LIU 等: "Visual Saliency Transformer", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, vol. 2022, pages 3 *
吴岚虎: "基于场景几何信息的显著性目标检测方法综述", 《模式识别与人工智能》, vol. 36, no. 2, pages 120 - 142 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935052A (zh) * 2023-07-24 2023-10-24 北京中科睿途科技有限公司 智能座舱环境下的语义分割方法及相关设备
CN116935052B (zh) * 2023-07-24 2024-03-01 北京中科睿途科技有限公司 智能座舱环境下的语义分割方法及相关设备
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN117173394B (zh) * 2023-08-07 2024-04-02 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117036891B (zh) * 2023-08-22 2024-03-29 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117409214A (zh) * 2023-12-14 2024-01-16 南开大学 基于自适应交互网络的显著性目标检测方法及系统

Also Published As

Publication number Publication date
GB202403824D0 (en) 2024-05-01
CN116206133B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN116206133B (zh) 一种rgb-d显著性目标检测方法
Guo et al. Scene-driven multitask parallel attention network for building extraction in high-resolution remote sensing images
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN108171701B (zh) 基于u网络和对抗学习的显著性检测方法
CN107993260A (zh) 一种基于混合型卷积神经网络的光场图像深度估计方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN111325165A (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN110335222B (zh) 基于神经网络的自修正弱监督双目视差提取方法及装置
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN112115951A (zh) 一种基于空间关系的rgb-d图像语义分割方法
CN114120148B (zh) 一种遥感影像建筑物变化区域的检测方法
Lu et al. SGTBN: generating dense depth maps from single-line LiDAR
CN116485867A (zh) 一种面向自动驾驶的结构化场景深度估计方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN114283315A (zh) 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN104143203A (zh) 一种图像编辑传播方法
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN117809200A (zh) 一种基于增强小目标特征提取的多尺度遥感图像目标检测方法
CN115661482B (zh) 一种基于联合注意力的rgb-t显著目标检测方法
CN116862883A (zh) 基于图像语义分割的混凝土坍落度检测方法
CN116433904A (zh) 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法
CN113744205B (zh) 一种端到端的道路裂缝检测系统
CN116030292A (zh) 基于改进ResNext的混凝土表面粗糙度检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant