CN113379707A - 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 - Google Patents
一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 Download PDFInfo
- Publication number
- CN113379707A CN113379707A CN202110653578.7A CN202110653578A CN113379707A CN 113379707 A CN113379707 A CN 113379707A CN 202110653578 A CN202110653578 A CN 202110653578A CN 113379707 A CN113379707 A CN 113379707A
- Authority
- CN
- China
- Prior art keywords
- dynamic
- rgb
- channel
- convolution
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 title claims description 33
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 30
- 239000010410 layer Substances 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract 1
- 230000003993 interaction Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态滤波解耦卷积网络的RGB‑D显著性检测的方法,包括:获取RGB图像张量和深度图像张量;分别将RGB图像张量和深度图像张量输入编码器网络提取单模态特征组,根据编码器网络特性以及层级划分,生成RGB特征组与深度特征组;将RGB特征组的特征与深度特征组的特征分别放到各自的模态特定的整体引导动态增强模块(MGDEM),进行单模态特定的特征增强;将增强后的RGB特征和深度特征输入场景感知跨模态动态融合模块(SCDFM),进行模态间的特征融合;MGDEM和SCDFM均基于解耦的动态滤波卷积结构;将融合后的特征输入解码器,得到预测的显著性结果。本发明实现了准确的显著性预测。
Description
技术领域
本发明涉及到计算机视觉技术领域,尤其涉及一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法。
背景技术
显著性检测的目标是在一幅图像里,寻找出最吸引人类视觉注意的物体或区域。这个任务在不同视觉任务中扮演预处理角色,让计算机先检测出人类所感兴趣的区域,然后对检测出的区域进行后续方法的处理。比如,在进行目标识别时,不需要对整张图像进行滑动窗遍历,而是先进行显著性检测,然后只对显著性区域的目标进行识别。准确可靠的显著性检测可以节省计算量的同时,提高精确度,使许多视觉图形学中的图像跟踪和识别处理任务受益。
目前许多方法基于RGB彩色图像进行显著性检测,并取得了出色的性能。但是由于RGB彩色图像缺乏较为精确的空间信息,这些方法可能在某些复杂的场景中效果不佳,例如,一张图像有非常相似的前景和背景,此时对比度很低,只依靠RGB信息很难检测出显著性区域或者物体,还有在多物体以及复杂背景的场景中也会效果变差。
为此,引入了包含空间分布信息的深度(Depth)图像。已经有一些方法尝试利用RGB彩色图像和相对应的深度图像进行显著性检测。但是由于RGB和深度是独立产生的,并且信息是互补的,因此鼓励每个模态内部的交互以及两个模态之间的交互非常重要。
尽管RGB-D显著性检测方法取得了成功,但仍有两个主要问题有待解决:
(1)由于RGB数据包含更多的外观信息,例如颜色、纹理、轮廓以及有限的位置,而深度数据在3D布局中提供了优势的辨别能力,RGB和深度之间的固有差异对不同模式下的特定模式特征增强提出了挑战。
(2)由于RGB和深度数据在视觉系统中是纠缠在一起的,因此两种模式的充分融合是RGB-D的基石。然而,RGB和深度数据都会对RGB-D显著性检测造成干扰,因为图像和深度图的质量很容易受到各种因素的影响,例如相机的温度、照明、距离和物体的反射率。此外,大多数RGB-D显著性目标检测方法都采用层次融合策略。然而,重复使用融合模块不可避免地会产生额外的计算和存储消耗。这进一步扩展了跨模态特征融合的挑战。
发明内容
有鉴于此,本发明提出了一种基于动态滤波解耦卷积网络的RGB-D显著性目标检测方法,该方法依据深度学习方法,基于差分特征处理融合,采用自顶向下与自适应方式进行RGB-D图像的显著性检测,实现了复杂场景下高质量的显著性检测结果。
为此,本发明提供了如下技术方案:
本发明提供了一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法,包括:
步骤1、基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取RGB图像张量IR和深度图像张量ID;
步骤4、将增强后的RGB特征和深度特征输入场景注意的跨模态动态融合模块,进行模态间的特征融合;所述场景注意的跨模态动态融合模块基于解耦的动态滤波卷积网络;
所述解耦的动态滤波卷积网络,包括:将原始的局部动态过滤器内核解耦为空间动态内核Ksp和通道动态内核Kch,表示为:Kg=[Ksp,Kch];
Kg指的是动态滤波核组;整个动态卷积FDC表示为:
FDC(Kg,f)=Cat[FSDC,FCDC]
进一步地,模态特定的整体引导的动态增强模块包括:整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及所述解耦的动态滤波卷积网络;
整体引导的空间动态滤波器生成器包括:3,4,5层的特征图F3,F4,F5按照通道维度级联在一起得到特征图Fms,通过1×1卷积层进行处理,以获得缩减通道的特征图通过softmax操作对卷积核进行正规化,得到空间动态滤波器;
整体引导的通道动态滤波器生成器包括:将第3,4,5层的特征图F3,F4,F5先经过1×1卷积的过渡层缩减通道到c,按照通道维度级联在一起得到特征图Fms,通过1×1卷积层进行处理,以获得缩减通道的特征图应用自适应全局池化操作和1×1卷积操作,得到通道动态滤波器;
其中,(a2*k2)是缩减后的通道的数量,a是扩展比率,a=width(Fi)/width(F5),width是特征的宽度,h是特征图的高,w是特征图的宽,k2是滤波核的大小,c是特征图的通道,i是特征图的层级;
空间动态滤波器和通道动态滤波器生成之后,再分别和第3,4,5层的特征图F3,F4,F5一起传入解耦的动态滤波卷积网络,进行空间维度和通道维度的处理;同时,通过相加操作将全局平均池化后的Fms作为补充加到单层特征上,处理完的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FGG。
进一步地,场景感知的跨模态动态融合模块包括:通道拆分模块、场景感知的滤波器生成器以及所述解耦的动态滤波卷积网络;
通道拆分模块包括:获得增强后的RGB特征和增强后的深度特征对这两个特征加合,然后通过一层1x1卷积核、一个密集连接区块和一个1x1卷积,再通过一个通道拆分得到两部分的特征,分别用于空间和通道的动态卷积操作;
场景感知的滤波器生成器包括:场景感知的空间滤波器和场景感知的通道滤波器;所述场景感知的空间滤波器,通过对通道拆分模块得到的用于空间动态卷积操作的特征进行1x1卷积操作、softmax操作以及空间核注意力模块处理得到;所述场景感知的通道滤波器,通过对通道拆分模块得到的用于通道动态卷积操作的特征进行自适应全局池化操作、1x1卷积操作以及通道核注意力模块处理得到;
核注意力模块包括通道核注意力模块和空间核注意力模块,所述通道核注意力模块中,利用RGB信息作为通道维度注意权重;对RGB特征执行自适应全局池化操作;使用分组的线性层将全局上下文信息编码为潜在表征,然后经过归一化层和激活函数;通过一个线性层生成一个大小为k×k×c的通道注意力图;所述空间核注意力模块中,将RGB特征转换为空间维度权重;使用具有1×1卷积的过渡层将通道减少到1,同时应用全局平均池和最大池操作;将级联特征输入1×1卷积层,以生成大小为h×w×k2的过滤器级空间注意力图;其中,h和w是当前特征图的大小;
生成场景感知的通道滤波器和场景感知的空间滤波器之后,再和增强的RGB特征一起传入解耦的动态滤波卷积网络,进行空间维度和通道维度的处理;处理完的两个维度的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FSA。
进一步地,其特征在于,所述编码器使用主干卷积神经网络VGG-16、ResNet-50或MobileNetV3实现。
进一步地,用于训练所述编码器、解码器网络的训练集由元组<TR,TD,TG>组成,其中TR表示场景RGB图像,TD表示对应的深度图像,TG表示对应场景的显著性真值图像。
进一步地,训练所述编码器、解码器网络包括:优化网络参数;
其中,E()表示特征提取流程,生成单模态特征组,D()表示跨模态与跨层级融合流程,生成显著性预测图,L()是合成图像和目标图像之间的损失函数;使用交叉熵损失函数衡量预测结果与真值结果之间差异。
进一步地,交叉熵损失表示如下:
进一步地,所述D数值为1,H与W取值均为256。
进一步地,步骤1包括:
基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取输入维度为H×W×3D的RGB图像张量IR与维度为H×W×D的初始深度图像张量ID;其中,H与W表示输入图片的高度与宽度,D表示深度;
本发明提供的上述技术方案具有以下有益效果:
本发明针对目前主流RGB-D显著性检测方法中存在的问题,利用解耦的动态卷积从空间的通道角度解耦普通的动态卷积实现效果的提升和模型的更轻量化。在解耦的动态卷积的基础上实现了一个模态特定的整体引导动态增强模块(MGDEM)和场景感知的跨模态动态融合模块(SCDFM)进行模态内的特征增强和模态间的动态融合。实验结果表明,本发明提出的新的显著性检测方法在对7个公共显著性基准进行了显著改进,对于很多有挑战性的场景都能取得准确的预测结果。
基于上述理由本发明可在计算机视觉及多模态信息融合等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中训练网络使用的训练集集合示意图;
图2是本发明实施例中一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法的流程示意图;
图3是本发明实施例中网络模型的结构图和解耦的动态卷积的结构图;
图4是本发明实施例中模型的模态特定的整体引导动态增强模块(MGDEM)结构示意图;
图5是本发明实施例中模型的场景感知的跨模态动态融合模块(SCDFM)结构示意图;
图6是本发明实施例中模型的解码器部分。
具体实施方式
本发明的目标是提供一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法,以利用RGB与深度两种模态信息进行有效融合,实现复杂场景下高质量的显著性检测结果。本发明的目标面临的第一个挑战是设计一个能够动态地适应每种模式中的特定存在的模块,第二个挑战是动态地建立互补交互以进行模态间融合。
本发明的核心构思是设计一个解耦的动态滤波显著性检测网络,通过将动态卷积解耦到空间维度和通道维度,动态地促进特征交互,以同时处理模态内和模态间的问题。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图2所示,其示出了本发明实施例中一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法的流程图。该方法具体为一种依据深度学习方法,基于差分特征处理融合,采用自顶向下与自适应方式进行RGB-D图像对显著性检测的方法,首先读取RGB色彩图像以及对应的深度(Depth)图像,生成输入张量,之后将其输入编码器网络中提取单模态特征,生成单模态特征组;之后将单模态特征组输入解码器网络进行跨模态以及跨层级特征融合,最终输出该图像对的显著性检测结果图。鉴于深度网络的强大表征能力,该方法模型全部采用深度网络结构实现,总体网络结构如图3所示。总体网络结构中包括:用于对输入的RGB图像提取特征的编码器、用于对输入的深度图像提取特征的编码器、基于解耦的动态滤波卷积网络的模态特定的整体引导动态增强模块(MGDEM)、基于解耦的动态滤波卷积网络的场景感知的跨模态动态融合模块(SCDFM)以及解码器。其中,解耦的动态滤波卷积网络,包括:将原始的局部动态过滤器内核解耦为空间动态内核Ksp和通道动态内核Kch,表示为:Kg=[Ksp,Kch];Kg指的是动态滤波核组;整个动态卷积FDC表示为:
该方法具体包括以下步骤:
步骤1、基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取RGB图像张量IR和深度图像张量ID;
具体地,首先,基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取输入维度为H×W×3D的RGB图像张量IR与维度为H×W×D的初始深度图像张量ID;其中,H与W表示输入图片的高度与宽度,D表示深度;然后将初始深度图像张量ID沿第三维度进行数据复制,得到输入维度为H×W×3D的深度图像张量根据图像特点,H与W取值为256,D取值为1。
具体地,将输入编码器网络,提取单模态特征,编码器网络采用两个并列的现有的主流主干网络(VGG-16,ResNet-50,MobileNetV3)网络,生成RGB特征组与Depth特征组其生成过程可以表示为:
其中,其中{φR,φD}均为编码器网络中的层级输出。
考虑到两种模态之间的差异,增强模态特征有助于理解它们各自的内容,提高后期的跨模态融合效果。为了解决这个问题,如图4所示,本发明提供了一个模态特定的整体引导动态增强模块(MGDEM),通过使用单个模态整体内容去生成动态滤波器,实现模态内特征增强。
MGDEM包括:整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及上述解耦的动态滤波卷积网络。
对于整体引导的空间动态滤波器的生成,3,4,5层的特征图F3,F4,F5按照通道维度级联在一起得到特征图Fms,通过1×1卷积层进行处理,以获得缩减通道的特征图(a2*k2)是缩减后的通道的数量,a是扩展比率a=width(Fi)/width(F5),width是特征的宽度;最后卷积核被通过softmax操作进行正规化。
这一步可以被写成:
对于整体引导的通道动态滤波器的生成,首先将第3,4,5层的特征图F3,F4,F5先经过1×1卷积的过渡层缩减通道到c,按照通道维度级联在一起得到特征图Fms,通过1×1卷积层进行处理,以获得缩减通道的特征图c是通道的数量,(a2*k2)是缩减后的通道的数量,a是扩展比率a=width(Fi)/width(F5),width是特征的宽度;然后应用自适应全局池化(AAP)操作和1×1卷积去获取k×k的卷积核。
这个过程可以被写成:
生成这两种滤波器之后,再分别传入和第3,4,5层的特征图F3,F4,F5一起传入解耦的空间和通道动态卷积,进行空间维度和通道维度的处理。同时,因为因为处理的单层特征缺乏一个整体的信息,我们通过相加的操作将全局平均池化后的Fms作为补充加到单层特征上,之后处理完的特征经过通道维度的级联然后通过一个1×1卷积层(Conv1)缩减通道到c,得到增强后的特征FGG。整个过程被写作为:
步骤4、将增强后的RGB特征和深度特征输入场景感知的跨模态动态融合模块,进行模态间的特征融合;
在常规的RGB-D显着性检测方法中,训练后模型的参数是固定的,但是在不同的场景下,具有各种质量的RGB-D样本对使固定参数的模型难以实现两种模态之间的根据场景的不同自适应融合。为解决这个问题,如图5所示,本发明提供了场景感知的跨模态动态融合模块(SCDFM)来自适应地生成细节面向动态过滤器,并以更少的参数实现有效融合。
SCDFM模块包括:通道拆分模块、场景感知的滤波器生成器以及上述解耦的动态滤波卷积网络。
通道拆分模块包括:获得从RGB的增强后的特征和深度的增强后的特征然后这两个特征通过加合,然后通过一层1x1卷积核一个密集连接区块(DenseBlock)和一个1x1卷积,然后通过一个通道拆分(ChannelSplit)得到两部分的特征,分别用于空间和通道的动态卷积操作。
场景感知的滤波器生成器包括:场景感知的空间滤波器和场景感知的通道滤波器;所述场景感知的空间滤波器,通过对通道拆分模块得到的用于空间动态卷积操作的特征进行1x1卷积操作、Softmax操作以及空间核注意力模块处理得到;所述场景感知的通道滤波器,通过对通道拆分模块得到的用于通道动态卷积操作的特征进行自适应全局池化操作、1x1卷积操作以及通道核注意力模块处理得到;
核注意力模块包括通道核注意力模块和空间核注意力模块,所述通道核注意力模块中,利用RGB信息作为通道维度注意权重;对RGB特征执行自适应全局池化操作,以调整滤镜的大小;然后,使用分组的线性层将全局上下文信息编码为潜在表征,然后经过归一化层和激活函数,最后通过一个线性层生成一个大小为k×k×c的通道注意力图;所述空间核注意力模块中,将RGB特征转换为空间维度权重;使用具有1×1卷积的过渡层将通道减少到1,同时应用全局平均池和最大池操作,以聚合空间信息;之后,将级联特征输入1×1卷积层,以生成大小为h×w×k2的过滤器级空间注意力图。
场景感知的空间滤波器的生成过程可以被写作为:
通道核注意力模块的处理过程可以写成:
其中,Catt是卷积核等级的通道注意力,结果,从混合特征生成的滤波器内核具有RGB特征的通道场景视角。
生成这两种滤波器之后,再和增强的RGB特征一起传入解耦的空间和通道动态卷积,进行空间维度和通道维度的处理。之后处理完的两个维度的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FSA:
通过两种场景自适应动态滤波器,本发明的模型实现了模态间的交互。此外,在解码器输出的3,4,5层特征图F3,F4,F5同时使用SCDFM,和单独使用一次SCDFM的情况相比,可以取得近似的性能。在具体实施时,可以通过只使用一SCDFM,从而可以降低计算成本。
解码器的结构如图6所示,混合特征先经过一个卷积,然后经过通道拆分,分别针对两部分的通道进行不同空洞率的卷积操作,再将两个卷积操作之后的结果串联,之后进行上采样,此时结合提取的第2层的RGB特征,然后再通过两个卷积操作和上采样操作,得到最终的显著性预测结果。
步骤6、模型训练方式:
本发明实施例在PyTorch框架下实现,训练集由元组<TR,TD,TG>组成,如图1所示,其中TR表示场景RGB图像,TD表示对应的深度图像,TG表示对应场景的显著性真值图像。在NvidiaRTX2080Ti的显卡设备上,用Adam优化器,学习率为1e-4,Batch大小为32,epochs为50时收敛。训练与测试时图像大小均需要调整为256×256。
对于训练集,通过以下方式优化网络参数:
其中,E()表示特征提取流程,生成单模态特征组,D()表示跨模态与跨层级融合流程,生成显著性预测图,L()是合成图像和目标图像之间的损失函数;使用交叉熵损失函数衡量预测结果与真值结果之间差异。
在本发明中,致力于面对的挑战,准确的RGB-D显著性检测。考虑到RGB图和深度图在不同位置的质量不同,将动态卷积在空间和信道两个层次上进行解耦,并将其应用于所提出的模态特定整体引导的动态增强模块(MGDEM)和场景感知跨模态动态融合模块(SCDFM)。MGDEM的目标是在不同尺度下动态增强模态内特征,而SCDFM的目标是从RGB-D混合特征中生成面向细节的滤波器,然后引导模型根据输入自适应地确定目标区域。大量实验表明,本发明中的方法在7个公共数据集上比16种最新的RGB-D方法具有竞争优势。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,包括:
步骤1、基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取RGB图像张量IR和深度图像张量ID;
步骤4、将增强后的RGB特征和深度特征输入场景注意的跨模态动态融合模块,进行模态间的特征融合;所述场景注意的跨模态动态融合模块基于解耦的动态滤波卷积网络;
所述解耦的动态滤波卷积网络,包括:将原始的局部动态过滤器内核解耦为空间动态内核Ksp和通道动态内核Kch,表示为:Kg=[Ksp,Kch];
Kg指的是动态滤波核组;整个动态卷积FDC表示为:
FDC(Kg,f)=Cat[FSDC,FCDC]
2.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,模态特定的整体引导的动态增强模块包括:整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及所述解耦的动态滤波卷积网络;
整体引导的空间动态滤波器生成器包括:3,4,5层的特征图F3,F4,F5按照通道维度级联在一起得到特征图Fms,通过1×1卷积层进行处理,以获得缩减通道的特征图通过softmax操作对卷积核进行正规化,得到空间动态滤波器;
整体引导的通道动态滤波器生成器包括:将第3,4,5层的特征图F3,F4,F5先经过1×1卷积的过渡层缩减通道到c,按照通道维度级联在一起得到特征图Fms,通过1×1卷积层进行处理,以获得缩减通道的特征图应用自适应全局池化操作和1×1卷积操作,得到通道动态滤波器;
其中,(a2*k2)是缩减后的通道的数量,a是扩展比率,a=width(Fi)/width(F5),width是特征的宽度,h是特征图的高,w是特征图的宽,k2是滤波核的大小,c是特征图的通道,i是特征图的层级;
空间动态滤波器和通道动态滤波器生成之后,再分别和第3,4,5层的特征图F3,F4,F5一起传入解耦的动态滤波卷积网络,进行空间维度和通道维度的处理;同时,通过相加操作将全局平均池化后的Fms作为补充加到单层特征上,处理完的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FGG。
3.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,场景感知的跨模态动态融合模块包括:通道拆分模块、场景感知的滤波器生成器以及所述解耦的动态滤波卷积网络;
通道拆分模块包括:获得增强后的RGB特征和增强后的深度特征对这两个特征加合,然后通过一层1x1卷积核、一个密集连接区块和一个1x1卷积,再通过一个通道拆分得到两部分的特征,分别用于空间和通道的动态卷积操作;
场景感知的滤波器生成器包括:场景感知的空间滤波器和场景感知的通道滤波器;所述场景感知的空间滤波器,通过对通道拆分模块得到的用于空间动态卷积操作的特征进行1x1卷积操作、softmax操作以及空间核注意力模块处理得到;所述场景感知的通道滤波器,通过对通道拆分模块得到的用于通道动态卷积操作的特征进行自适应全局池化操作、1x1卷积操作以及通道核注意力模块处理得到;
核注意力模块包括通道核注意力模块和空间核注意力模块,所述通道核注意力模块中,利用RGB信息作为通道维度注意权重;对RGB特征执行自适应全局池化操作;使用分组的线性层将全局上下文信息编码为潜在表征,然后经过归一化层和激活函数;通过一个线性层生成一个大小为k×k×c的通道注意力图;所述空间核注意力模块中,将RGB特征转换为空间维度权重;使用具有1×1卷积的过渡层将通道减少到1,同时应用全局平均池和最大池操作;将级联特征输入1×1卷积层,以生成大小为h×w×k2的过滤器级空间注意力图;其中,h和w是当前特征图的大小;
4.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,所述编码器使用主干卷积神经网络VGG-16、ResNet-50或MobileNetV3实现。
6.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,用于训练所述编码器、解码器网络的训练集由元组<TR,TD,TG>组成,其中TR表示场景RGB图像,TD表示对应的深度图像,TG表示对应场景的显著性真值图像。
9.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,所述D数值为1,H与W取值均为256。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653578.7A CN113379707A (zh) | 2021-06-11 | 2021-06-11 | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653578.7A CN113379707A (zh) | 2021-06-11 | 2021-06-11 | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113379707A true CN113379707A (zh) | 2021-09-10 |
Family
ID=77573981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110653578.7A Withdrawn CN113379707A (zh) | 2021-06-11 | 2021-06-11 | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379707A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170174A (zh) * | 2021-12-02 | 2022-03-11 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN114926657A (zh) * | 2022-06-09 | 2022-08-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN115546271A (zh) * | 2022-09-29 | 2022-12-30 | 锋睿领创(珠海)科技有限公司 | 基于深度联合表征的视觉分析方法、装置、设备及介质 |
CN116109645A (zh) * | 2023-04-14 | 2023-05-12 | 锋睿领创(珠海)科技有限公司 | 基于先验知识的智能处理方法、装置、设备和介质 |
-
2021
- 2021-06-11 CN CN202110653578.7A patent/CN113379707A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170174A (zh) * | 2021-12-02 | 2022-03-11 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN114170174B (zh) * | 2021-12-02 | 2024-01-23 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN114926657A (zh) * | 2022-06-09 | 2022-08-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN114926657B (zh) * | 2022-06-09 | 2023-12-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN115546271A (zh) * | 2022-09-29 | 2022-12-30 | 锋睿领创(珠海)科技有限公司 | 基于深度联合表征的视觉分析方法、装置、设备及介质 |
CN115546271B (zh) * | 2022-09-29 | 2023-08-22 | 锋睿领创(珠海)科技有限公司 | 基于深度联合表征的视觉分析方法、装置、设备及介质 |
CN116109645A (zh) * | 2023-04-14 | 2023-05-12 | 锋睿领创(珠海)科技有限公司 | 基于先验知识的智能处理方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Golts et al. | Unsupervised single image dehazing using dark channel prior loss | |
CN113379707A (zh) | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 | |
Zhou et al. | UGIF-Net: An efficient fully guided information flow network for underwater image enhancement | |
Huang et al. | Indoor depth completion with boundary consistency and self-attention | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN110648334A (zh) | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 | |
CN107818554B (zh) | 信息处理设备和信息处理方法 | |
Wang et al. | Haze concentration adaptive network for image dehazing | |
CN111488865B (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
CN111242238B (zh) | 一种rgb-d图像显著性目标获取的方法 | |
CN110689599B (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN115661144B (zh) | 基于可变形U-Net的自适应医学图像分割方法 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
CN111986204B (zh) | 一种息肉分割方法、装置及存储介质 | |
CN114038006A (zh) | 一种抠图网络训练方法及抠图方法 | |
CN113781510A (zh) | 边缘检测方法、装置及电子设备 | |
CN115908789A (zh) | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 | |
CN114897728A (zh) | 图像增强方法、装置、终端设备以及存储介质 | |
CN111046893A (zh) | 图像相似性确定方法和装置、图像处理方法和装置 | |
Zhang et al. | Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement | |
CN115272072A (zh) | 一种基于多特征图像融合的水下图像超分辨率方法 | |
CN116452469B (zh) | 一种基于深度学习的图像去雾处理方法及装置 | |
CN110766609B (zh) | 一种针对ToF相机的景深图超分辨率重建方法 | |
CN112330562A (zh) | 一种异构遥感图像变换方法及系统 | |
CN116310396A (zh) | 一种基于深度质量加权的rgb-d显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210910 |