CN113379707A - 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 - Google Patents

一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 Download PDF

Info

Publication number
CN113379707A
CN113379707A CN202110653578.7A CN202110653578A CN113379707A CN 113379707 A CN113379707 A CN 113379707A CN 202110653578 A CN202110653578 A CN 202110653578A CN 113379707 A CN113379707 A CN 113379707A
Authority
CN
China
Prior art keywords
dynamic
rgb
channel
convolution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110653578.7A
Other languages
English (en)
Inventor
张淼
朴永日
姚舜禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110653578.7A priority Critical patent/CN113379707A/zh
Publication of CN113379707A publication Critical patent/CN113379707A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态滤波解耦卷积网络的RGB‑D显著性检测的方法,包括:获取RGB图像张量和深度图像张量;分别将RGB图像张量和深度图像张量输入编码器网络提取单模态特征组,根据编码器网络特性以及层级划分,生成RGB特征组与深度特征组;将RGB特征组的特征与深度特征组的特征分别放到各自的模态特定的整体引导动态增强模块(MGDEM),进行单模态特定的特征增强;将增强后的RGB特征和深度特征输入场景感知跨模态动态融合模块(SCDFM),进行模态间的特征融合;MGDEM和SCDFM均基于解耦的动态滤波卷积结构;将融合后的特征输入解码器,得到预测的显著性结果。本发明实现了准确的显著性预测。

Description

一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法
技术领域
本发明涉及到计算机视觉技术领域,尤其涉及一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法。
背景技术
显著性检测的目标是在一幅图像里,寻找出最吸引人类视觉注意的物体或区域。这个任务在不同视觉任务中扮演预处理角色,让计算机先检测出人类所感兴趣的区域,然后对检测出的区域进行后续方法的处理。比如,在进行目标识别时,不需要对整张图像进行滑动窗遍历,而是先进行显著性检测,然后只对显著性区域的目标进行识别。准确可靠的显著性检测可以节省计算量的同时,提高精确度,使许多视觉图形学中的图像跟踪和识别处理任务受益。
目前许多方法基于RGB彩色图像进行显著性检测,并取得了出色的性能。但是由于RGB彩色图像缺乏较为精确的空间信息,这些方法可能在某些复杂的场景中效果不佳,例如,一张图像有非常相似的前景和背景,此时对比度很低,只依靠RGB信息很难检测出显著性区域或者物体,还有在多物体以及复杂背景的场景中也会效果变差。
为此,引入了包含空间分布信息的深度(Depth)图像。已经有一些方法尝试利用RGB彩色图像和相对应的深度图像进行显著性检测。但是由于RGB和深度是独立产生的,并且信息是互补的,因此鼓励每个模态内部的交互以及两个模态之间的交互非常重要。
尽管RGB-D显著性检测方法取得了成功,但仍有两个主要问题有待解决:
(1)由于RGB数据包含更多的外观信息,例如颜色、纹理、轮廓以及有限的位置,而深度数据在3D布局中提供了优势的辨别能力,RGB和深度之间的固有差异对不同模式下的特定模式特征增强提出了挑战。
(2)由于RGB和深度数据在视觉系统中是纠缠在一起的,因此两种模式的充分融合是RGB-D的基石。然而,RGB和深度数据都会对RGB-D显著性检测造成干扰,因为图像和深度图的质量很容易受到各种因素的影响,例如相机的温度、照明、距离和物体的反射率。此外,大多数RGB-D显著性目标检测方法都采用层次融合策略。然而,重复使用融合模块不可避免地会产生额外的计算和存储消耗。这进一步扩展了跨模态特征融合的挑战。
发明内容
有鉴于此,本发明提出了一种基于动态滤波解耦卷积网络的RGB-D显著性目标检测方法,该方法依据深度学习方法,基于差分特征处理融合,采用自顶向下与自适应方式进行RGB-D图像的显著性检测,实现了复杂场景下高质量的显著性检测结果。
为此,本发明提供了如下技术方案:
本发明提供了一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法,包括:
步骤1、基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取RGB图像张量IR和深度图像张量ID
步骤2、分别将RGB图像张量IR和深度图像张量ID输入编码器网络提取单模态特征组,根据编码器网络特性以及层级划分,生成RGB特征组
Figure BDA0003112833580000021
与深度特征组
Figure BDA0003112833580000022
步骤3、将RGB特征组
Figure BDA0003112833580000023
与深度特征组
Figure BDA0003112833580000024
分别放到各自的模态特定的整体引导动态增强模块,进行模态特定的特征增强;所述模态特定的整体引导动态增强模块基于解耦的动态滤波卷积网络;
步骤4、将增强后的RGB特征和深度特征输入场景注意的跨模态动态融合模块,进行模态间的特征融合;所述场景注意的跨模态动态融合模块基于解耦的动态滤波卷积网络;
所述解耦的动态滤波卷积网络,包括:将原始的局部动态过滤器内核解耦为空间动态内核Ksp和通道动态内核Kch,表示为:Kg=[Ksp,Kch];
Kg指的是动态滤波核组;整个动态卷积FDC表示为:
Figure BDA0003112833580000031
Figure BDA0003112833580000032
FDC(Kg,f)=Cat[FSDC,FCDC]
其中,f是被动态滤波处理的特征,Cat是级联操作,
Figure BDA0003112833580000033
是解耦的动态空间卷积,
Figure BDA0003112833580000034
是解耦的动态通道卷积;
步骤5、将融合后的特征输入解码器,然后再加上第二层的RGB特征
Figure BDA0003112833580000035
得到并输出预测的显著性结果图像。
进一步地,模态特定的整体引导的动态增强模块包括:整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及所述解耦的动态滤波卷积网络;
整体引导的空间动态滤波器生成器包括:3,4,5层的特征图F3,F4,F5按照通道维度级联在一起得到特征图Fms,
Figure BDA0003112833580000036
通过1×1卷积层进行处理,以获得缩减通道的特征图
Figure BDA0003112833580000037
通过softmax操作对卷积核
Figure BDA0003112833580000038
进行正规化,得到空间动态滤波器;
整体引导的通道动态滤波器生成器包括:将第3,4,5层的特征图F3,F4,F5先经过1×1卷积的过渡层缩减通道到c,按照通道维度级联在一起得到特征图Fms,
Figure BDA0003112833580000039
通过1×1卷积层进行处理,以获得缩减通道的特征图
Figure BDA00031128335800000310
应用自适应全局池化操作和1×1卷积操作,得到通道动态滤波器;
其中,(a2*k2)是缩减后的通道的数量,a是扩展比率,a=width(Fi)/width(F5),width是特征的宽度,h是特征图的高,w是特征图的宽,k2是滤波核的大小,c是特征图的通道,i是特征图的层级;
空间动态滤波器和通道动态滤波器生成之后,再分别和第3,4,5层的特征图F3,F4,F5一起传入解耦的动态滤波卷积网络,进行空间维度和通道维度的处理;同时,通过相加操作将全局平均池化后的Fms作为补充加到单层特征上,处理完的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FGG
进一步地,场景感知的跨模态动态融合模块包括:通道拆分模块、场景感知的滤波器生成器以及所述解耦的动态滤波卷积网络;
通道拆分模块包括:获得增强后的RGB特征
Figure BDA0003112833580000041
和增强后的深度特征
Figure BDA0003112833580000042
对这两个特征加合,然后通过一层1x1卷积核、一个密集连接区块和一个1x1卷积,再通过一个通道拆分得到两部分的特征,分别用于空间和通道的动态卷积操作;
场景感知的滤波器生成器包括:场景感知的空间滤波器和场景感知的通道滤波器;所述场景感知的空间滤波器,通过对通道拆分模块得到的用于空间动态卷积操作的特征进行1x1卷积操作、softmax操作以及空间核注意力模块处理得到;所述场景感知的通道滤波器,通过对通道拆分模块得到的用于通道动态卷积操作的特征进行自适应全局池化操作、1x1卷积操作以及通道核注意力模块处理得到;
核注意力模块包括通道核注意力模块和空间核注意力模块,所述通道核注意力模块中,利用RGB信息作为通道维度注意权重;对RGB特征执行自适应全局池化操作;使用分组的线性层将全局上下文信息编码为潜在表征,然后经过归一化层和激活函数;通过一个线性层生成一个大小为k×k×c的通道注意力图;所述空间核注意力模块中,将RGB特征转换为空间维度权重;使用具有1×1卷积的过渡层将通道减少到1,同时应用全局平均池和最大池操作;将级联特征输入1×1卷积层,以生成大小为h×w×k2的过滤器级空间注意力图;其中,h和w是当前特征图的大小;
生成场景感知的通道滤波器和场景感知的空间滤波器之后,再和增强的RGB特征
Figure BDA0003112833580000051
一起传入解耦的动态滤波卷积网络,进行空间维度和通道维度的处理;处理完的两个维度的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FSA
进一步地,其特征在于,所述编码器使用主干卷积神经网络VGG-16、ResNet-50或MobileNetV3实现。
进一步地,其特征在于,所述编码器采用两个并列的编码器网络进行RGB与深度基础特征提取,根据编码器中的特征分层表示特性,按照层级生成RGB特征组
Figure BDA0003112833580000052
和深度特征组
Figure BDA0003112833580000053
进一步地,用于训练所述编码器、解码器网络的训练集由元组<TR,TD,TG>组成,其中TR表示场景RGB图像,TD表示对应的深度图像,TG表示对应场景的显著性真值图像。
进一步地,训练所述编码器、解码器网络包括:优化网络参数;
对于所述训练集,通过以下方式优化网络参数:
Figure BDA0003112833580000054
其中,E()表示特征提取流程,生成单模态特征组,D()表示跨模态与跨层级融合流程,生成显著性预测图,L()是合成图像和目标图像之间的损失函数;使用交叉熵损失函数衡量预测结果与真值结果之间差异。
进一步地,交叉熵损失表示如下:
Figure BDA0003112833580000055
其中,
Figure BDA0003112833580000056
是所述方法对与当前场景的显著性检测结果图,y是当前场景的人工标注真值图像。
进一步地,所述D数值为1,H与W取值均为256。
进一步地,步骤1包括:
基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取输入维度为H×W×3D的RGB图像张量IR与维度为H×W×D的初始深度图像张量ID;其中,H与W表示输入图片的高度与宽度,D表示深度;
将所述初始深度图像张量ID沿第三维度进行数据复制,得到输入维度为H×W×3D的深度图像张量
Figure BDA0003112833580000061
本发明提供的上述技术方案具有以下有益效果:
本发明针对目前主流RGB-D显著性检测方法中存在的问题,利用解耦的动态卷积从空间的通道角度解耦普通的动态卷积实现效果的提升和模型的更轻量化。在解耦的动态卷积的基础上实现了一个模态特定的整体引导动态增强模块(MGDEM)和场景感知的跨模态动态融合模块(SCDFM)进行模态内的特征增强和模态间的动态融合。实验结果表明,本发明提出的新的显著性检测方法在对7个公共显著性基准进行了显著改进,对于很多有挑战性的场景都能取得准确的预测结果。
基于上述理由本发明可在计算机视觉及多模态信息融合等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中训练网络使用的训练集集合示意图;
图2是本发明实施例中一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法的流程示意图;
图3是本发明实施例中网络模型的结构图和解耦的动态卷积的结构图;
图4是本发明实施例中模型的模态特定的整体引导动态增强模块(MGDEM)结构示意图;
图5是本发明实施例中模型的场景感知的跨模态动态融合模块(SCDFM)结构示意图;
图6是本发明实施例中模型的解码器部分。
具体实施方式
本发明的目标是提供一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法,以利用RGB与深度两种模态信息进行有效融合,实现复杂场景下高质量的显著性检测结果。本发明的目标面临的第一个挑战是设计一个能够动态地适应每种模式中的特定存在的模块,第二个挑战是动态地建立互补交互以进行模态间融合。
本发明的核心构思是设计一个解耦的动态滤波显著性检测网络,通过将动态卷积解耦到空间维度和通道维度,动态地促进特征交互,以同时处理模态内和模态间的问题。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图2所示,其示出了本发明实施例中一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法的流程图。该方法具体为一种依据深度学习方法,基于差分特征处理融合,采用自顶向下与自适应方式进行RGB-D图像对显著性检测的方法,首先读取RGB色彩图像以及对应的深度(Depth)图像,生成输入张量,之后将其输入编码器网络中提取单模态特征,生成单模态特征组;之后将单模态特征组输入解码器网络进行跨模态以及跨层级特征融合,最终输出该图像对的显著性检测结果图。鉴于深度网络的强大表征能力,该方法模型全部采用深度网络结构实现,总体网络结构如图3所示。总体网络结构中包括:用于对输入的RGB图像提取特征的编码器、用于对输入的深度图像提取特征的编码器、基于解耦的动态滤波卷积网络的模态特定的整体引导动态增强模块(MGDEM)、基于解耦的动态滤波卷积网络的场景感知的跨模态动态融合模块(SCDFM)以及解码器。其中,解耦的动态滤波卷积网络,包括:将原始的局部动态过滤器内核解耦为空间动态内核Ksp和通道动态内核Kch,表示为:Kg=[Ksp,Kch];Kg指的是动态滤波核组;整个动态卷积FDC表示为:
Figure BDA0003112833580000081
其中,f是被动态滤波处理的特征,Cat是级联操作,
Figure BDA0003112833580000082
是解耦的动态空间卷积,
Figure BDA0003112833580000083
是解耦的动态通道卷积。
该方法具体包括以下步骤:
步骤1、基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取RGB图像张量IR和深度图像张量ID
具体地,首先,基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取输入维度为H×W×3D的RGB图像张量IR与维度为H×W×D的初始深度图像张量ID;其中,H与W表示输入图片的高度与宽度,D表示深度;然后将初始深度图像张量ID沿第三维度进行数据复制,得到输入维度为H×W×3D的深度图像张量
Figure BDA0003112833580000084
根据图像特点,H与W取值为256,D取值为1。
步骤2、分别将RGB图像张量IR和深度图像张量ID输入编码器网络提取单模态特征组,根据编码器网络特性以及层级划分,生成RGB特征组
Figure BDA0003112833580000091
与深度特征组
Figure BDA0003112833580000092
具体地,将
Figure BDA0003112833580000093
输入编码器网络,提取单模态特征,编码器网络采用两个并列的现有的主流主干网络(VGG-16,ResNet-50,MobileNetV3)网络,生成RGB特征组
Figure BDA0003112833580000094
与Depth特征组
Figure BDA0003112833580000095
其生成过程可以表示为:
Figure BDA0003112833580000096
Figure BDA0003112833580000097
其中,其中{φRD}均为编码器网络中的层级输出。
步骤3、将RGB特征组
Figure BDA0003112833580000098
与深度特征组
Figure BDA0003112833580000099
分别放到各自的模态特定的尺度自由动态增强模块,进行模态特定的特征增强;
考虑到两种模态之间的差异,增强模态特征有助于理解它们各自的内容,提高后期的跨模态融合效果。为了解决这个问题,如图4所示,本发明提供了一个模态特定的整体引导动态增强模块(MGDEM),通过使用单个模态整体内容去生成动态滤波器,实现模态内特征增强。
MGDEM包括:整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及上述解耦的动态滤波卷积网络。
对于整体引导的空间动态滤波器的生成,3,4,5层的特征图F3,F4,F5按照通道维度级联在一起得到特征图Fms,
Figure BDA00031128335800000910
通过1×1卷积层进行处理,以获得缩减通道的特征图
Figure BDA00031128335800000911
(a2*k2)是缩减后的通道的数量,a是扩展比率a=width(Fi)/width(F5),width是特征的宽度;最后卷积核
Figure BDA00031128335800000912
被通过softmax操作
Figure BDA00031128335800000913
进行正规化。
这一步可以被写成:
Figure BDA00031128335800000914
对于3,4,5层的
Figure BDA00031128335800000915
是空间卷积核,PS是像素混洗操作,Conv是1×1卷积操作。
对于整体引导的通道动态滤波器的生成,首先将第3,4,5层的特征图F3,F4,F5先经过1×1卷积的过渡层缩减通道到c,按照通道维度级联在一起得到特征图Fms,
Figure BDA0003112833580000101
通过1×1卷积层进行处理,以获得缩减通道的特征图
Figure BDA0003112833580000102
c是通道的数量,(a2*k2)是缩减后的通道的数量,a是扩展比率a=width(Fi)/width(F5),width是特征的宽度;然后应用自适应全局池化(AAP)操作和1×1卷积去获取k×k的卷积核。
这个过程可以被写成:
Figure BDA0003112833580000103
Figure BDA0003112833580000104
是3,4,5层的通道卷积核,AAP是自适应全局池化操作。通过这种方式,可以通过有效的模态内部特征交互来获得更有效的模态特定特征。
生成这两种滤波器之后,再分别传入和第3,4,5层的特征图F3,F4,F5一起传入解耦的空间和通道动态卷积,进行空间维度和通道维度的处理。同时,因为因为处理的单层特征缺乏一个整体的信息,我们通过相加的操作将全局平均池化后的Fms作为补充加到单层特征上,之后处理完的特征经过通道维度的级联然后通过一个1×1卷积层(Conv1)缩减通道到c,得到增强后的特征FGG。整个过程被写作为:
Figure BDA0003112833580000105
步骤4、将增强后的RGB特征和深度特征输入场景感知的跨模态动态融合模块,进行模态间的特征融合;
在常规的RGB-D显着性检测方法中,训练后模型的参数是固定的,但是在不同的场景下,具有各种质量的RGB-D样本对使固定参数的模型难以实现两种模态之间的根据场景的不同自适应融合。为解决这个问题,如图5所示,本发明提供了场景感知的跨模态动态融合模块(SCDFM)来自适应地生成细节面向动态过滤器,并以更少的参数实现有效融合。
SCDFM模块包括:通道拆分模块、场景感知的滤波器生成器以及上述解耦的动态滤波卷积网络。
通道拆分模块包括:获得从RGB的增强后的特征
Figure BDA0003112833580000111
和深度的增强后的特征
Figure BDA0003112833580000112
然后这两个特征通过加合,然后通过一层1x1卷积核一个密集连接区块(DenseBlock)和一个1x1卷积,然后通过一个通道拆分(ChannelSplit)得到两部分的特征,分别用于空间和通道的动态卷积操作。
场景感知的滤波器生成器包括:场景感知的空间滤波器和场景感知的通道滤波器;所述场景感知的空间滤波器,通过对通道拆分模块得到的用于空间动态卷积操作的特征进行1x1卷积操作、Softmax操作以及空间核注意力模块处理得到;所述场景感知的通道滤波器,通过对通道拆分模块得到的用于通道动态卷积操作的特征进行自适应全局池化操作、1x1卷积操作以及通道核注意力模块处理得到;
核注意力模块包括通道核注意力模块和空间核注意力模块,所述通道核注意力模块中,利用RGB信息作为通道维度注意权重;对RGB特征执行自适应全局池化操作,以调整滤镜的大小;然后,使用分组的线性层将全局上下文信息编码为潜在表征,然后经过归一化层和激活函数,最后通过一个线性层生成一个大小为k×k×c的通道注意力图;所述空间核注意力模块中,将RGB特征转换为空间维度权重;使用具有1×1卷积的过渡层将通道减少到1,同时应用全局平均池和最大池操作,以聚合空间信息;之后,将级联特征输入1×1卷积层,以生成大小为h×w×k2的过滤器级空间注意力图。
场景感知的空间滤波器的生成过程可以被写作为:
Figure BDA0003112833580000121
其中,Fm是混合特征,Satt是卷积核等级的空间注意力,
Figure BDA0003112833580000122
是softmax操作,结果,从混合特征生成的滤波器内的核具有RGB特征的空间场景视角。
通道核注意力模块的处理过程可以写成:
Figure BDA0003112833580000123
其中,Catt是卷积核等级的通道注意力,结果,从混合特征生成的滤波器内核具有RGB特征的通道场景视角。
生成这两种滤波器之后,再和增强的RGB特征
Figure BDA0003112833580000124
一起传入解耦的空间和通道动态卷积,进行空间维度和通道维度的处理。之后处理完的两个维度的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FSA
Figure BDA0003112833580000125
通过两种场景自适应动态滤波器,本发明的模型实现了模态间的交互。此外,在解码器输出的3,4,5层特征图F3,F4,F5同时使用SCDFM,和单独使用一次SCDFM的情况相比,可以取得近似的性能。在具体实施时,可以通过只使用一SCDFM,从而可以降低计算成本。
步骤5、将融合后的混合特征输入解码器,同时传入提取的第2层的RGB特征
Figure BDA0003112833580000126
以补充部分细节,进行最终的预测。
解码器的结构如图6所示,混合特征先经过一个卷积,然后经过通道拆分,分别针对两部分的通道进行不同空洞率的卷积操作,再将两个卷积操作之后的结果串联,之后进行上采样,此时结合提取的第2层的RGB特征,然后再通过两个卷积操作和上采样操作,得到最终的显著性预测结果。
步骤6、模型训练方式:
本发明实施例在PyTorch框架下实现,训练集由元组<TR,TD,TG>组成,如图1所示,其中TR表示场景RGB图像,TD表示对应的深度图像,TG表示对应场景的显著性真值图像。在NvidiaRTX2080Ti的显卡设备上,用Adam优化器,学习率为1e-4,Batch大小为32,epochs为50时收敛。训练与测试时图像大小均需要调整为256×256。
对于训练集,通过以下方式优化网络参数:
Figure BDA0003112833580000131
其中,E()表示特征提取流程,生成单模态特征组,D()表示跨模态与跨层级融合流程,生成显著性预测图,L()是合成图像和目标图像之间的损失函数;使用交叉熵损失函数衡量预测结果与真值结果之间差异。
交叉熵损失表示如下:
Figure BDA0003112833580000132
其中,
Figure BDA0003112833580000133
是所述方法对与当前场景的显著性检测结果图,y是当前场景的人工标注真值图像。
在本发明中,致力于面对的挑战,准确的RGB-D显著性检测。考虑到RGB图和深度图在不同位置的质量不同,将动态卷积在空间和信道两个层次上进行解耦,并将其应用于所提出的模态特定整体引导的动态增强模块(MGDEM)和场景感知跨模态动态融合模块(SCDFM)。MGDEM的目标是在不同尺度下动态增强模态内特征,而SCDFM的目标是从RGB-D混合特征中生成面向细节的滤波器,然后引导模型根据输入自适应地确定目标区域。大量实验表明,本发明中的方法在7个公共数据集上比16种最新的RGB-D方法具有竞争优势。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,包括:
步骤1、基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取RGB图像张量IR和深度图像张量ID
步骤2、分别将RGB图像张量IR和深度图像张量ID输入编码器网络提取单模态特征组,根据编码器网络特性以及层级划分,生成RGB特征组
Figure FDA0003112833570000011
与深度特征组
Figure FDA0003112833570000012
步骤3、将RGB特征组
Figure FDA0003112833570000013
与深度特征组
Figure FDA0003112833570000014
分别放到各自的模态特定的整体引导动态增强模块,进行模态特定的特征增强;所述模态特定的整体引导动态增强模块基于解耦的动态滤波卷积网络;
步骤4、将增强后的RGB特征和深度特征输入场景注意的跨模态动态融合模块,进行模态间的特征融合;所述场景注意的跨模态动态融合模块基于解耦的动态滤波卷积网络;
所述解耦的动态滤波卷积网络,包括:将原始的局部动态过滤器内核解耦为空间动态内核Ksp和通道动态内核Kch,表示为:Kg=[Ksp,Kch];
Kg指的是动态滤波核组;整个动态卷积FDC表示为:
Figure FDA0003112833570000019
Figure FDA0003112833570000015
FDC(Kg,f)=Cat[FSDC,FCDC]
其中,f是被动态滤波处理的特征,Cat是级联操作,
Figure FDA0003112833570000018
是解耦的动态空间卷积,
Figure FDA0003112833570000016
是解耦的动态通道卷积;
步骤5、将融合后的特征输入解码器,然后再加上第二层的RGB特征
Figure FDA0003112833570000017
得到并输出预测的显著性结果图像。
2.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,模态特定的整体引导的动态增强模块包括:整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及所述解耦的动态滤波卷积网络;
整体引导的空间动态滤波器生成器包括:3,4,5层的特征图F3,F4,F5按照通道维度级联在一起得到特征图Fms
Figure FDA0003112833570000021
通过1×1卷积层进行处理,以获得缩减通道的特征图
Figure FDA0003112833570000022
通过softmax操作对卷积核
Figure FDA0003112833570000023
进行正规化,得到空间动态滤波器;
整体引导的通道动态滤波器生成器包括:将第3,4,5层的特征图F3,F4,F5先经过1×1卷积的过渡层缩减通道到c,按照通道维度级联在一起得到特征图Fms
Figure FDA0003112833570000024
通过1×1卷积层进行处理,以获得缩减通道的特征图
Figure FDA0003112833570000025
应用自适应全局池化操作和1×1卷积操作,得到通道动态滤波器;
其中,(a2*k2)是缩减后的通道的数量,a是扩展比率,a=width(Fi)/width(F5),width是特征的宽度,h是特征图的高,w是特征图的宽,k2是滤波核的大小,c是特征图的通道,i是特征图的层级;
空间动态滤波器和通道动态滤波器生成之后,再分别和第3,4,5层的特征图F3,F4,F5一起传入解耦的动态滤波卷积网络,进行空间维度和通道维度的处理;同时,通过相加操作将全局平均池化后的Fms作为补充加到单层特征上,处理完的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FGG
3.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,场景感知的跨模态动态融合模块包括:通道拆分模块、场景感知的滤波器生成器以及所述解耦的动态滤波卷积网络;
通道拆分模块包括:获得增强后的RGB特征
Figure FDA0003112833570000026
和增强后的深度特征
Figure FDA0003112833570000027
对这两个特征加合,然后通过一层1x1卷积核、一个密集连接区块和一个1x1卷积,再通过一个通道拆分得到两部分的特征,分别用于空间和通道的动态卷积操作;
场景感知的滤波器生成器包括:场景感知的空间滤波器和场景感知的通道滤波器;所述场景感知的空间滤波器,通过对通道拆分模块得到的用于空间动态卷积操作的特征进行1x1卷积操作、softmax操作以及空间核注意力模块处理得到;所述场景感知的通道滤波器,通过对通道拆分模块得到的用于通道动态卷积操作的特征进行自适应全局池化操作、1x1卷积操作以及通道核注意力模块处理得到;
核注意力模块包括通道核注意力模块和空间核注意力模块,所述通道核注意力模块中,利用RGB信息作为通道维度注意权重;对RGB特征执行自适应全局池化操作;使用分组的线性层将全局上下文信息编码为潜在表征,然后经过归一化层和激活函数;通过一个线性层生成一个大小为k×k×c的通道注意力图;所述空间核注意力模块中,将RGB特征转换为空间维度权重;使用具有1×1卷积的过渡层将通道减少到1,同时应用全局平均池和最大池操作;将级联特征输入1×1卷积层,以生成大小为h×w×k2的过滤器级空间注意力图;其中,h和w是当前特征图的大小;
生成场景感知的通道滤波器和场景感知的空间滤波器之后,再和增强的RGB特征
Figure FDA0003112833570000031
一起传入解耦的动态滤波卷积网络,进行空间维度和通道维度的处理;处理完的两个维度的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c,得到增强后的特征FSA
4.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,所述编码器使用主干卷积神经网络VGG-16、ResNet-50或MobileNetV3实现。
5.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,所述编码器采用两个并列的编码器网络进行RGB与深度基础特征提取,根据编码器中的特征分层表示特性,按照层级生成RGB特征组
Figure FDA0003112833570000041
和深度特征组
Figure FDA0003112833570000042
6.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,用于训练所述编码器、解码器网络的训练集由元组<TR,TD,TG>组成,其中TR表示场景RGB图像,TD表示对应的深度图像,TG表示对应场景的显著性真值图像。
7.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,训练所述编码器、解码器网络包括:优化网络参数;
对于所述训练集,通过以下方式优化网络参数:
Figure FDA0003112833570000043
其中,E()表示特征提取流程,生成单模态特征组,D()表示跨模态与跨层级融合流程,生成显著性预测图,L()是合成图像和目标图像之间的损失函数;使用交叉熵损失函数衡量预测结果与真值结果之间差异。
8.根据权利要求7所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,交叉熵损失表示如下:
Figure FDA0003112833570000044
其中,
Figure FDA0003112833570000045
是所述方法对与当前场景的显著性检测结果图,y是当前场景的人工标注真值图像。
9.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,所述D数值为1,H与W取值均为256。
10.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法,其特征在于,步骤1包括:
基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像,获取输入维度为H×W×3D的RGB图像张量IR与维度为H×W×D的初始深度图像张量ID;其中,H与W表示输入图片的高度与宽度,D表示深度;
将所述初始深度图像张量ID沿第三维度进行数据复制,得到输入维度为H×W×3D的深度图像张量
Figure FDA0003112833570000051
CN202110653578.7A 2021-06-11 2021-06-11 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 Withdrawn CN113379707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110653578.7A CN113379707A (zh) 2021-06-11 2021-06-11 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110653578.7A CN113379707A (zh) 2021-06-11 2021-06-11 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法

Publications (1)

Publication Number Publication Date
CN113379707A true CN113379707A (zh) 2021-09-10

Family

ID=77573981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110653578.7A Withdrawn CN113379707A (zh) 2021-06-11 2021-06-11 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法

Country Status (1)

Country Link
CN (1) CN113379707A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114926657A (zh) * 2022-06-09 2022-08-19 山东财经大学 显著性目标检测方法及系统
CN115546271A (zh) * 2022-09-29 2022-12-30 锋睿领创(珠海)科技有限公司 基于深度联合表征的视觉分析方法、装置、设备及介质
CN116109645A (zh) * 2023-04-14 2023-05-12 锋睿领创(珠海)科技有限公司 基于先验知识的智能处理方法、装置、设备和介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114170174B (zh) * 2021-12-02 2024-01-23 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114926657A (zh) * 2022-06-09 2022-08-19 山东财经大学 显著性目标检测方法及系统
CN114926657B (zh) * 2022-06-09 2023-12-19 山东财经大学 显著性目标检测方法及系统
CN115546271A (zh) * 2022-09-29 2022-12-30 锋睿领创(珠海)科技有限公司 基于深度联合表征的视觉分析方法、装置、设备及介质
CN115546271B (zh) * 2022-09-29 2023-08-22 锋睿领创(珠海)科技有限公司 基于深度联合表征的视觉分析方法、装置、设备及介质
CN116109645A (zh) * 2023-04-14 2023-05-12 锋睿领创(珠海)科技有限公司 基于先验知识的智能处理方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
Golts et al. Unsupervised single image dehazing using dark channel prior loss
CN113379707A (zh) 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法
Zhou et al. UGIF-Net: An efficient fully guided information flow network for underwater image enhancement
Huang et al. Indoor depth completion with boundary consistency and self-attention
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN110648334A (zh) 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN107818554B (zh) 信息处理设备和信息处理方法
Wang et al. Haze concentration adaptive network for image dehazing
CN111488865B (zh) 图像优化方法、装置、计算机存储介质以及电子设备
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
CN110689599B (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN115661144B (zh) 基于可变形U-Net的自适应医学图像分割方法
CN112507990A (zh) 视频时空特征学习、抽取方法、装置、设备及存储介质
CN111986204B (zh) 一种息肉分割方法、装置及存储介质
CN114038006A (zh) 一种抠图网络训练方法及抠图方法
CN113781510A (zh) 边缘检测方法、装置及电子设备
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
CN114897728A (zh) 图像增强方法、装置、终端设备以及存储介质
CN111046893A (zh) 图像相似性确定方法和装置、图像处理方法和装置
Zhang et al. Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement
CN115272072A (zh) 一种基于多特征图像融合的水下图像超分辨率方法
CN116452469B (zh) 一种基于深度学习的图像去雾处理方法及装置
CN110766609B (zh) 一种针对ToF相机的景深图超分辨率重建方法
CN112330562A (zh) 一种异构遥感图像变换方法及系统
CN116310396A (zh) 一种基于深度质量加权的rgb-d显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210910