CN116206133A - 一种rgb-d显著性目标检测方法 - Google Patents
一种rgb-d显著性目标检测方法 Download PDFInfo
- Publication number
- CN116206133A CN116206133A CN202310450234.5A CN202310450234A CN116206133A CN 116206133 A CN116206133 A CN 116206133A CN 202310450234 A CN202310450234 A CN 202310450234A CN 116206133 A CN116206133 A CN 116206133A
- Authority
- CN
- China
- Prior art keywords
- rgb
- features
- depth
- cross
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 230000002776 aggregation Effects 0.000 claims abstract description 29
- 238000004220 aggregation Methods 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 230000000295 complement effect Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006798 recombination Effects 0.000 claims description 9
- 238000005215 recombination Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000007480 spreading Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种RGB‑D显著性目标检测方法,涉及图像处理领域,具体包括如下步骤:输入RGB图像和深度图像;对RGB图像和深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。本发明克服了现有技术中不能对跨模态特征进行有效融合,显著性目标检测精度不高的问题。
Description
技术领域
本发明涉及图像处理领域,具体涉及一种RGB-D显著性目标检测方法。
背景技术
在视觉场景中,人类能够快速地将注意力转移到最重要区域。计算机视觉中的显著性目标检测便是由计算机模拟人眼视觉来识别场景中最显著目标,显著目标检测作为计算机视觉应用中重要的预处理任务,已广泛应用于图像理解、图像检索、语义分割、图像修复和物体识别中。随着Kinect和RealSense等深度相机的发展,各种场景的深度图的获取变得更加容易,深度信息可以和RGB图像进行信息互补,有利于提高显著性检测的能力。因此,基于RGB-D的显著性目标检测得到了研究人员的关注。
传统的RGB-D显著性目标检测方法通过手工特征提取,然后融合RGB图像和深度图。例如,Lang等人利用高斯混合模型来模拟深度诱导的显著性的分布。Ciptadi等人从深度测量中提取了三维布局和形状特征,利用不同区域之间的深度差异来测量深度对比度。尽管传统RGB-D检测方法很有效,但所提取的低级特征限制了模型的泛化能力,而且不适用于复杂场景。
显著性目标检测的一个需求是有效融合跨模态信息,在对RGB图和RGB-D图进行编码后,还需要将学习到的两种模态特征融合起来。基于卷积神经网络(CNN)的显著性目标检测方法取得了许多令人印象深刻的结果。现有基于卷积神经网络的显著性检测方法,存在卷积感受野的限制,在学习全局远程依赖方面存在严重不足。其次,现有技术采用的早期或者后期融合策略,难以捕获RGB和深度图像之间的互补和交互作用信息。不能从两种模态中学习高层次的信息,挖掘出集成融合规则,从而不能有效地检测完整的显著性目标。
因此,现需要一种能够对跨模态特征进行有效融合,有效提高显著性目标检测精度的方法。
发明内容
本发明的主要目的在于提供一种RGB-D显著性目标侧方法,以解决现有技术中不能对跨模态特征进行有效融合,显著性目标检测精度不高的问题。
为实现上述目的,本发明提供了一种RGB-D显著性目标检测方法,具体包括如下步骤:S1,输入RGB图像和深度图像;S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;S5,按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
进一步地,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,重组是将一个token序列重建成一个3D张量/>,其中,是token序列/>的长度,/>是token序列/>和3D张量/>的通道数,/>分别代表/>的高度和宽度,且/>;
进一步地,步骤S2中,基于轻量级卷积网络MobileV2Net的编码器包括IRB结构。
进一步地,步骤S3中的跨模态Transformer融合模块包括:跨模态交互注意力模块和Transformer层,跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息。
进一步地,经跨模态Transformer融合模块,得到跨模态交互信息的公式,表示为:
进一步地,步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,特征聚合模块用于聚合特征和融合跨模态信息。
进一步地,特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
进一步地,步骤S4中,来自T2T-ViT的经重组后的RGB信息,/>,/>和来自MobileNet V2的深度信息/>被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征的进行融合。
本发明具有如下有益效果:
1、本发明充分考虑到RGB图像和深度图像之间的不同。我们使用基于Transformer的T2T-ViT网络和轻量级MobileNet V2网络,分别实现对RGB信息和深度信息的提取。这种非对称双流学习网络设计使本发明相比其他显著性目标检测方法,降低了模型参数量,同时提高了显著性目标检测速度,并具有优秀的显著性目标检测性能。
2、本发明所设计的解码器包括跨模态Transformer融合模块(CMTFM)和跨模态密集协作聚合模块(CMDCAM)。跨模态Transformer融合模块(CMTFM)作为解码器的块,可以建模RGB数据与深度数据之间的远程跨模态依赖,实现RGB数据与深度数据之间的跨模态信息交互。本发明采用密集连接来增强解码器,设计的跨模态密集协作聚合模块(CMDCAM),通过密集协作融合的方式聚合不同层次的特征,并有效地融合跨模态信息。本发明所设计的解码器有效地融合RGB图像信息和深度信息,提高了显著性目标的检测精度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本发明的一种RGB-D显著性目标检测方法的流程图。
图2示出了本发明的一种RGB-D显著性目标检测方法的结构示意图。
图3示出了图2的基于T2T-ViT的transformer编码器的结构示意图。
图4示出了图2的解码器中的特征聚合模块FAM的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1 所示的一种RGB-D显著性目标检测方法,具体包括如下步骤:
S1,输入RGB图像和深度图像。
S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征。
T2T-ViT网络是对ViT网络的改进,在ViT的基础上增加了T2T操作,相当于卷积神经网络中的下采样,用于同时建模图像的局部结构信息与全局相关性。T2T能将相邻的tokens聚合成一个新的token,从而减少token的长度。
具体地,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,重组是将一个token序列重建成一个3D张量/>,其中,/>是token序列/>的长度,/>是token序列/>和3D张量/>的通道数,/>分别代表/>的高度和宽度,且/>。
具体地,步骤S2中,基于轻量级卷积网络MobileNet V2的编码器包括IRB结构。语义信息主要存在于RGB图像中,深度图传达了没有对象细节的信息。深度图中所含信息相对于RGB较单一,且量少,而且往往深度图中颜色最深的部位便是显著性目标检测任务所要寻找的显著目标。所以本发明采用轻量级的MobileNet V2网络便能很好地提取深度图的信息。MobileNet V2是对 MobileNet V1的改进,提出了倒残差结构(Inverted ResidualBlock,IRB)结构。倒残差结构与残差结构中维度先缩减再扩增正好相反,更有利于特征的学习。如图2所示,将MobileNet V2侧输出的4级深度特征图标注为。
S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征。
具体地,步骤S3中的跨模态Transformer融合模块( CMTFM,Cross-modalityTransformer Fusion Module)包括:跨模态交互注意力模块和Transformer层,跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息,从而提高显著性预测的准确性。CMTFM基于视觉显著性转换器(Visual Saliency Transformer,VST)中的RGB-D转化器,为了节省参数和计算资源,我们去掉了RGB-D 转化器中的自注意力部分。
具体地,如图2所示,在CMTFM中,融合和/>以整合RGB和深度数据之间的互补信息。通过三个线性投影操作将/>转化生成查询/>,键/>,值/>。类似地,用另外三个线性投影操作将/>转化成查询/>,键/>,值/>。由Transformer层中的多头注意力中的“缩放点积注意力”公式可以得到跨模态交互信息的公式,表示为:
来自编码器的RGB和深度序列必须通过线性投影层,以将其嵌入维度从384转换为64,以减少计算和参数。
S4,利用密集连接卷积神经网络增强特征融合模块,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分。
具体地,步骤S4的跨模态密集协作聚合模块(CMDCAM,Cross-modal densecooperative Aggregation Module)包括:三个特征聚合模块(FAM,Feature AggregationModule )和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,以便进行像素级分类。特征聚合模块既能作为解码器网络的组成,承担起聚合特征的作用,也能有效地融合跨模态信息。
具体地,特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;深度图仅传达了一个先验区域,缺乏对像细节。因此,我们先通过两次乘法增强了RGB的语义特征。基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
S5,按照预测的显著性图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
具体地,如图1所示,步骤S5中,通过在每个解码器模块的输出中依次添加单通道卷积和Sigmoid激活函数来进行显著性映射。在训练期间,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为/>,总的损失函数/>计算公式如下:
在显著性目标检测方法中,使用基于图像分类的经预训练的模型作为主干网,有助于训练过程中损失收敛,从而能够有效的提高显著目标检测的精度。本发明使用了经过预训练的基于T2T-ViT的transformer编码器和基于轻量级卷积网络MobileNet V2的编码器来作为主干网提取特征。
本发明设计了跨模态密集协作聚合模块(CMDCAM),该模块基于倒残差模块,具有计算参数量和计算量小的优点。该模块不但可以融合RGB信息和深度信息两种模态信息,而且可以聚合不同层次的特征信息。该模型可以实现在降低检测方法计算量前提下,明显提高了显著性目标的检测性能,并提高了显著性目标的检测精度。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (9)
1.一种RGB-D显著性目标检测方法,其特征在于,具体包括如下步骤:
S1,输入RGB图像和深度图像;
S2,利用基于T2T-ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;
S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;
S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;
S5,按照预测的显著图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。
2.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S2的基于T2T-ViT的transformer编码器中的T2T操作包括:重组和软拆分,所述重组是将一个token序列重建成一个3D张量/>,其中,/>是token序列/>的长度,/>是token序列/>和3D张量/>的通道数,/>分别代表/>的高度和宽度,且/>;
3.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S2中,基于轻量级卷积网络MobileV2Net的编码器包括IRB结构。
4.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S3中的跨模态Transformer融合模块包括:跨模态交互注意力模块和Transformer层,所述跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息。
6.根据权利要求1所述的一种RGB-D显著性目标检测方法,其特征在于,步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,所述特征聚合模块用于聚合特征和融合跨模态信息。
7.根据权利要求6所述的一种RGB-D显著性目标检测方法,其特征在于,所述特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450234.5A CN116206133B (zh) | 2023-04-25 | 2023-04-25 | 一种rgb-d显著性目标检测方法 |
GBGB2403824.2A GB202403824D0 (en) | 2023-04-25 | 2024-03-18 | RGB-D salient object detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450234.5A CN116206133B (zh) | 2023-04-25 | 2023-04-25 | 一种rgb-d显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116206133A true CN116206133A (zh) | 2023-06-02 |
CN116206133B CN116206133B (zh) | 2023-09-05 |
Family
ID=86513158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310450234.5A Active CN116206133B (zh) | 2023-04-25 | 2023-04-25 | 一种rgb-d显著性目标检测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116206133B (zh) |
GB (1) | GB202403824D0 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935052A (zh) * | 2023-07-24 | 2023-10-24 | 北京中科睿途科技有限公司 | 智能座舱环境下的语义分割方法及相关设备 |
CN117036891A (zh) * | 2023-08-22 | 2023-11-10 | 睿尔曼智能科技(北京)有限公司 | 一种基于跨模态特征融合的图像识别方法及系统 |
CN117173394A (zh) * | 2023-08-07 | 2023-12-05 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及系统 |
CN117409214A (zh) * | 2023-12-14 | 2024-01-16 | 南开大学 | 基于自适应交互网络的显著性目标检测方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120113133A1 (en) * | 2010-11-04 | 2012-05-10 | Shpigelblat Shai | System, device, and method for multiplying multi-dimensional data arrays |
US20190147318A1 (en) * | 2017-11-14 | 2019-05-16 | Google Llc | Highly Efficient Convolutional Neural Networks |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN113486865A (zh) * | 2021-09-03 | 2021-10-08 | 国网江西省电力有限公司电力科学研究院 | 一种基于深度学习的输电线路悬挂异物目标检测方法 |
CN113763422A (zh) * | 2021-07-30 | 2021-12-07 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN113935433A (zh) * | 2021-11-02 | 2022-01-14 | 齐齐哈尔大学 | 基于深度光谱空间倒残差网络的高光谱图像分类方法 |
WO2022166361A1 (zh) * | 2021-02-04 | 2022-08-11 | 浙江师范大学 | 一种基于跨模态融合的深度聚类方法及系统 |
CN115410046A (zh) * | 2022-09-22 | 2022-11-29 | 河南科技大学 | 基于深度学习的皮肤病舌象分类模型、建立方法及应用 |
CN115908789A (zh) * | 2022-12-09 | 2023-04-04 | 大连民族大学 | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 |
-
2023
- 2023-04-25 CN CN202310450234.5A patent/CN116206133B/zh active Active
-
2024
- 2024-03-18 GB GBGB2403824.2A patent/GB202403824D0/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120113133A1 (en) * | 2010-11-04 | 2012-05-10 | Shpigelblat Shai | System, device, and method for multiplying multi-dimensional data arrays |
US20190147318A1 (en) * | 2017-11-14 | 2019-05-16 | Google Llc | Highly Efficient Convolutional Neural Networks |
WO2021088300A1 (zh) * | 2019-11-09 | 2021-05-14 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN111582316A (zh) * | 2020-04-10 | 2020-08-25 | 天津大学 | 一种rgb-d显著性目标检测方法 |
WO2022166361A1 (zh) * | 2021-02-04 | 2022-08-11 | 浙江师范大学 | 一种基于跨模态融合的深度聚类方法及系统 |
CN113763422A (zh) * | 2021-07-30 | 2021-12-07 | 北京交通大学 | 一种rgb-d图像显著性目标检测方法 |
CN113486865A (zh) * | 2021-09-03 | 2021-10-08 | 国网江西省电力有限公司电力科学研究院 | 一种基于深度学习的输电线路悬挂异物目标检测方法 |
CN113935433A (zh) * | 2021-11-02 | 2022-01-14 | 齐齐哈尔大学 | 基于深度光谱空间倒残差网络的高光谱图像分类方法 |
CN115410046A (zh) * | 2022-09-22 | 2022-11-29 | 河南科技大学 | 基于深度学习的皮肤病舌象分类模型、建立方法及应用 |
CN115908789A (zh) * | 2022-12-09 | 2023-04-04 | 大连民族大学 | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
NIAN LIU 等: "Visual Saliency Transformer", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, vol. 2022, pages 3 * |
吴岚虎: "基于场景几何信息的显著性目标检测方法综述", 《模式识别与人工智能》, vol. 36, no. 2, pages 120 - 142 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935052A (zh) * | 2023-07-24 | 2023-10-24 | 北京中科睿途科技有限公司 | 智能座舱环境下的语义分割方法及相关设备 |
CN116935052B (zh) * | 2023-07-24 | 2024-03-01 | 北京中科睿途科技有限公司 | 智能座舱环境下的语义分割方法及相关设备 |
CN117173394A (zh) * | 2023-08-07 | 2023-12-05 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及系统 |
CN117173394B (zh) * | 2023-08-07 | 2024-04-02 | 山东大学 | 面向无人机视频数据的弱监督显著性目标检测方法及系统 |
CN117036891A (zh) * | 2023-08-22 | 2023-11-10 | 睿尔曼智能科技(北京)有限公司 | 一种基于跨模态特征融合的图像识别方法及系统 |
CN117036891B (zh) * | 2023-08-22 | 2024-03-29 | 睿尔曼智能科技(北京)有限公司 | 一种基于跨模态特征融合的图像识别方法及系统 |
CN117409214A (zh) * | 2023-12-14 | 2024-01-16 | 南开大学 | 基于自适应交互网络的显著性目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
GB202403824D0 (en) | 2024-05-01 |
CN116206133B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116206133B (zh) | 一种rgb-d显著性目标检测方法 | |
Guo et al. | Scene-driven multitask parallel attention network for building extraction in high-resolution remote sensing images | |
CN111582316B (zh) | 一种rgb-d显著性目标检测方法 | |
CN108171701B (zh) | 基于u网络和对抗学习的显著性检测方法 | |
CN107993260A (zh) | 一种基于混合型卷积神经网络的光场图像深度估计方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN111325165A (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN110335222B (zh) | 基于神经网络的自修正弱监督双目视差提取方法及装置 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN112115951A (zh) | 一种基于空间关系的rgb-d图像语义分割方法 | |
CN114120148B (zh) | 一种遥感影像建筑物变化区域的检测方法 | |
Lu et al. | SGTBN: generating dense depth maps from single-line LiDAR | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN114283315A (zh) | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 | |
CN104143203A (zh) | 一种图像编辑传播方法 | |
CN112116646B (zh) | 一种基于深度卷积神经网络的光场图像深度估计方法 | |
CN117809200A (zh) | 一种基于增强小目标特征提取的多尺度遥感图像目标检测方法 | |
CN115661482B (zh) | 一种基于联合注意力的rgb-t显著目标检测方法 | |
CN116862883A (zh) | 基于图像语义分割的混凝土坍落度检测方法 | |
CN116433904A (zh) | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 | |
CN113744205B (zh) | 一种端到端的道路裂缝检测系统 | |
CN116030292A (zh) | 基于改进ResNext的混凝土表面粗糙度检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |