CN113392727B - 一种基于动态特征选择的rgb-d显著目标检测方法 - Google Patents
一种基于动态特征选择的rgb-d显著目标检测方法 Download PDFInfo
- Publication number
- CN113392727B CN113392727B CN202110586099.8A CN202110586099A CN113392727B CN 113392727 B CN113392727 B CN 113392727B CN 202110586099 A CN202110586099 A CN 202110586099A CN 113392727 B CN113392727 B CN 113392727B
- Authority
- CN
- China
- Prior art keywords
- features
- rgb
- cross
- modal
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000011176 pooling Methods 0.000 claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000005728 strengthening Methods 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态特征选择的RGB‑D显著目标检测方法。本发明提出了一种动态选择网络,包括动态选择模块DSM和跨模态全局上下文模块CGCM,其中DSM又包含了两个子模块:跨模态注意力模块CAM和双向门控池化模块BGPM。通过CAM从通道和空间的角度来动态地挖掘RGB和深度图之间的互补信息,通过CGCM从全局的角度来精准地凸出显著目标。通过BGPM,以门控选择的方式优化了跨级别信息,以动态选择的方式强化了多尺度信息。最后,本发明进一步引入了边缘监督策略,并将空间注意力机制嵌入到其中,以反馈的方式保证了显著目标边界的准确性和清晰性,有效提升了模型的细节表征能力。
Description
技术领域
本发明属于计算机视觉领域,涉及一种基于动态特征选择的RGB-D显著目标检测方法,特别是利用卷积神经网络来动态选择RGB图像和深度图像中所包含的不同模态的特征信息。
背景技术
显著目标检测(SOD)是一个在计算机视觉领域中受到持续关注的基本问题,其目的是定位并凸显图像或者视频中最能够引起视觉注意力的局部区域。经过科研人员的不断努力,显著目标检测已经取得了一些具有重大意义的成果,在众多应用领域中扮演着十分重要的角色。例如,高效且有效的显著目标检测算法广泛地应用于图像分割、目标识别、视觉追踪和视频编码等任务中。总体来说,开展显著目标检测的相关研究具有十分重要的理论价值和实际意义。
传统的SOD算法主要是基于手工设计的特征,缺乏对高级语义信息的有效表征,具有一定的局限性。最近,伴随着深度学习技术的飞速发展,卷积神经网络(CNNs)已成为RGBSOD任务中的主角,取得了相比于传统方法更好的性能表现。然而,在某些复杂场景中,例如对比度低和背景混杂,RGB SOD方法面临着先天的不足,性能表现往往难以达到期望水平。这其中最主要的原因是RGB图像很好地表征了外观纹理信息,却无法有效地定义空间位置信息。众所周知,深度图表达了物体距离相机的远近程度,其中包含的丰富空间结构信息对显著目标预测是至关重要的。同时,随着Microsoft Kinect和Intel RealSense等深度传感器的出现,深度信息的采集变得越来越容易、越来越准确。因此,研究者们在RGB SOD上引入深度线索实现了进一步的性能提升,即RGB-D SOD。
类似于RGB SOD,早期的RGB-D SOD方法大多专注于利用特定的先验知识来设计手工特征描述符,完全忽视了语义信息的重要性,这就导致其难以应对各种多变的、富有挑战性的场景。基于深度学习的RGB-D SOD有效地改善了上述问题,充分地结合了低级外观和高级语义信息,实现了令人鼓舞的结果。尽管存在的RGB-D SOD方法已经取得了稳定而可靠的结果,但是仍有较大的性能提升空间。一般来讲,主要有如下挑战需要面对:1)如何有效地聚合跨模态特征。显而易见,RGB和深度图的固有特征属性是有本质区别的。RGB侧重于表达外观纹理信息,而深度图则更关注空间几何信息,二者互为补充,共同促进。2)如何高效地融合跨级别特征。直接以简单的方式(例如相加或点乘)融合跨级别特征忽视了不同级别特征之间的特异性,并且很容易将固有噪声叠加放大,导致适得其反的效果。3)如何准确地细化显著对象的边界。一方面,照明强度的变化往往造成显著对象与背景区域的边界难以区分;另一方面,CNNs中的池化和采样操作会引发边界模糊问题。清晰地刻画前景与背景之间的边界一直以来是一个充满挑战的课题。
发明内容
针对现有技术中存在的不足,本发明提供一种基于动态特征选择的RGB-D显著目标检测方法。
一种基于动态特征选择的RGB-D显著目标检测方法,步骤如下:
步骤(1)、构建目标检测网络模型;
所述的目标检测网络模型采用编码器-解码器结构。编码器部分包含一对基于ResNet-50的对称双流主干网络,分别用于提取多级的RGB图像外观特征和深度图空间特征。对于解码器部分,采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。
步骤(2)、通过跨模态全局上下文模块CGCM粗略定位显著目标;
步骤(3)、通过动态选择模块DSM选择和融合跨模态特征,即RGB和深度图,优化和强化跨级别、多尺度的混合特征。
DSM包括两个子模块:跨模态注意力模块CAM和双向门控池化模块BGPM。跨模态注意力模块CAM高效地突出了空间特征,实现了跨模态信息间的融合;双向门控池化模块BGPM自主地实现了不同特征间的融合。
步骤(1)具体方法如下;
所述的目标检测网络模型采用编码器-解码器结构。其中,编码器部分包含一对基于ResNet-50的对称双流主干网络,分别用于提取多级的RGB图像外观特征和深度图空间特征。对于对称双流主干网络的每一个分支,丢弃了最后的池化层和全连接层,仅仅保留了5级卷积块,分别进行了2、4、8、16、16倍的下采样,并将各级通道数由{64,256,512,1024,2048}转换到了{64,128,256,512,512},从而实现了全卷积网络FCN的结构。对于解码器部分,采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。
步骤(2)具体方法如下:
对于分别来自RGB和深度分支的高级特征和首先使用参数共享的卷积操作将通道数转化为1,其中卷积核大小为1×1,步幅为1。对于RGB分支,使用Sigmoid函数将通道转换后的深度高级语义特征的值缩放至0到1,再与进行按元素相乘,得到交互后的特征并称之为模态间的注意力机制。随后,采用Conv-ReLU-Conv的结构进一步强化了深度的RGB特征,其中卷积核的大小均为1×1,并将使用Sigmoid函数归一化后的特征图与进行按元素相乘,得到强化后的RGB特征并称之为模态内的注意力机制。上述计算过程有效地实现了不同模态之间的信息交互,能够表示为,
其中,Sig(·)代表Sigmoid函数,C1×1(·)代表卷积核为1×1的卷积操作,CRC(·)代表Conv-ReLU-Conv结构,×表示按元素相乘。同样地,强化后的深度特征能够表示为,
由此,从全局的角度得到了深度引导的高级RGB特征和RGB引导的高级深度特征其包含了充足的纹理线索和几何信息。
为了进一步融合RGB特征和深度特征,将和进行拼接得到混合特征FID,能够表示为,
其中,[·]表示级联操作。同时,引入空间注意力机制,其沿通道轴应用均值池化和最大池化操作,并将它们拼接起来以有效地定位显著目标。最终,CGCM生成了跨模态的、能够充分表达全局上下文信息的混合特征FC,能够计算为,
FC=C1×1(FID)×Sig(C7×7([M(FID);A(FID)])), (4)
其中,Cn×n(·)代表卷积核为n×n的卷积操作,M(·)代表沿通道轴的最大池化操作,A(·)代表沿通道轴的均值池化操作。总体来说,CGCM保障了我们的模型能够进行准确的显著性预测,因为其不但融合了不同模态的高级语义特征,而且初步地凸显了显著区域。
通过跨模态注意力模块CAM完成跨模态信息间的融合。令分别表示RGB分支和深度分支的第i(i=1,2,3,4,5)个卷积块的输出特征图,且每一组跨模态特征对应一个CAM。对于每一个CAM,首先初步融合RGB特征和深度特征既实现了特征互补又保留了各自的特有信息。两个模态的融合过程能够写为,
其中,表示第i个块的初步跨模态特征,+表示按元素相加。
跨模态注意力模块CAM中设置了7个不同的卷积层,其中'1×1'表示卷积核是1×1,'s1'表示步幅是1,'p0'表示填充是0,'d1'表示膨胀系数是1。并联了一条残差分支用以保留原有的信息。同时,采用全局最大池化操作和全局均值池化操作去计算空间统计并传递到一个参数共享的网络中。区别于CBAM,CAM生成的是一个包含8个元素的向量FLS,用以匹配上述并列卷积层的数量(包含残差分支)。紧接着,以自适应选择的方式来优化跨层的深度特征,其可以写为,
其中,表示FLS中的第j个元素,表示第j个卷积层的输出特征(包含残差分支)。将上述计算过程称之为层注意力机制,则FL表示层注意力机制的输出特征。
采用了空间注意力机制,用“S”型函数Tanh代替了Sigmoid函数,以期望拉大前景特征和背景特征之间的差距,在突出显著区域的同时抑制背景区域。整个计算过程能够写为,
其中,Tan(·)表示Tanh函数,FT表示空间特征掩膜。表示第i个空间注意力模块的输出特征,也即CAM的整体输出特征。
通过双向门控池化模块BGPM实现不同特征间的融合。BGPM分为两步。首先,为了将不同级别的特征关联起来,将不同级别的特征视为相邻的序列信号,进而借助RNNs系列算法学习不同级别的特征之间的相关性。将来自于前一个BGPM的输出特征与相应的CAM的输出特征组成一个序列,以双向门控的方式探索不同级别的特征之间的内在联系,计算过程能够写为,
其中,表示相应的CAM的输出特征,表示强化后的前一个BGPM的输出特征。特别地,当i=5时,有FC是CGCM的输出特征图。和均为计算过程中的混合特征。由此,得到了深度特征FP,其融合了包含不同线索的跨级别特征,凸出了显著目标。
其次,为了能够准确地检测到尺度不一的显著目标,改进了上述提出的层注意力机制,将卷积层替换为了不同设置的池化层。改进后的层注意力机制共包含了3个均值池化层、3个最大池化层和1个偏差连接,其中不同池化层的核大小分别为2、4和8。由此,不但保留了原始信息,而且从不同的尺度进一步提取了有效特征。紧接着,融合不同尺度的深度特征(包含残差分支),能够写为,
其中,表示FX中的第j个元素,表示第j个池化层的输出特征(包含残差分支)。级联每一组对应特征(元素)的乘积,送入一个3×3的卷积层后,得到BGPM的输出特征其中i表示第i个BGPM。最后,每一个BGPM的输出特征被上采样到相同的空间大小并被转换到相同的通道数,将其级联并输入一个卷积块后,生成了最终的显著性图。
本发明有益效果如下:
本发明提出了一种新颖的用于RGB-D显著性检测的端到端的动态选择网络(DSNet)。所提的模型以动态选择的方式探索了将跨模态、跨级别、多尺度的线索进行一致性融合的可能性。该发明模型主要包含了动态选择模块(DSM)和跨模态全局上下文模块(CGCM),其中DSM又包含了两个子模块:跨模态注意力模块(CAM)和双向门控池化模块(BGPM)。具体地说,首先,本发明受注意力机制的启发设计了CAM,从通道和空间的角度来动态地挖掘RGB和深度图之间的互补信息,这对跨模态的特征融合是至关重要的。同时,为了能够更加充分地表达高级语义信息,本发明引入了CGCM,从全局的角度来精准地凸出显著目标。其次,本发明提出了一种能够有效关注跨级别、多尺度特征的BGPM,以门控选择的方式优化了跨级别信息,以动态选择的方式强化了多尺度信息。最后,本发明进一步引入了边缘监督策略,并将空间注意力机制嵌入到其中,以反馈的方式保证了显著目标边界的准确性和清晰性,有效提升了模型的细节表征能力。
附图说明
图1为本发明方法实施例的框架图;
图2为本发明方法实施例跨模态全局上下文模块示意图;
图3为本发明方法实施例跨模态注意力模块示意图;
图4为本发明方法实施例双向门控池化模块示意图。
具体实施方式
以下结合附图与实施例对本发明方法进行进一步描述。
本发明提出了一种基于动态特征选择的RGB-D显著目标检测方法,下面将结合相关步骤进行详细说明。
一种基于动态特征选择的RGB-D显著目标检测方法,步骤如下:
步骤(1)、构建目标检测网络模型;
所述的目标检测网络模型采用编码器-解码器结构。其中,编码器部分包含一对基于ResNet-50的对称双流主干网络,分别用于提取多级的RGB图像外观特征和深度图空间特征。对于对称双流主干网络的每一个分支,丢弃了最后的池化层和全连接层,仅仅保留了5级卷积块,分别进行了2、4、8、16、16倍的下采样,并将各级通道数由{64,256,512,1024,2048}转换到了{64,128,256,512,512},从而实现了全卷积网络FCN的结构。对于解码器部分,采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。
步骤(2)、通过跨模态全局上下文模块CGCM粗略定位显著目标;
高级别的特征通常包含了丰富的语义线索,其可以有效地表征全局信息。为了充分地融合不同模态间的高级语义特征,即RGB和深度图,我们提出了一种高效的跨模态全局上下文模块(CGCM),其能够粗略地定位显著目标。具体地说,对于分别来自RGB和深度分支的高级特征和首先使用参数共享的卷积操作将通道数转化为1,其中卷积核大小为1×1,步幅为1。紧接着,借鉴空间注意力机制的思想,对于RGB分支,使用Sigmoid函数将通道转换后的深度高级语义特征的值缩放至0到1,再与进行按元素相乘,得到交互后的特征并称之为模态间的注意力机制。随后,采用Conv-ReLU-Conv的结构进一步强化了深度的RGB特征,其中卷积核的大小均为1×1,并将使用Sigmoid函数归一化后的特征图与进行按元素相乘,得到强化后的RGB特征并称之为模态内的注意力机制。上述计算过程有效地实现了不同模态之间的信息交互,能够表示为,
其中,Sig(·)代表Sigmoid函数,C1×1(·)代表卷积核为1×1的卷积操作,CRC(·)代表Conv-ReLU-Conv结构,×表示按元素相乘。同样地,强化后的深度特征能够表示为,
由此,从全局的角度得到了深度引导的高级RGB特征和RGB引导的高级深度特征其包含了充足的纹理线索和几何信息。
为了进一步融合RGB特征和深度特征,将和进行拼接得到混合特征FID,能够表示为,
其中,[·]表示级联操作。同时,引入空间注意力机制,其沿通道轴应用均值池化和最大池化操作,并将它们拼接起来以有效地定位显著目标。最终,CGCM生成了跨模态的、能够充分表达全局上下文信息的混合特征FC,能够计算为,
FC=C1×1(FID)×Sig(C7×7([M(FID);A(FID)])), (4)
其中,Cn×n(·)代表卷积核为n×n的卷积操作,M(·)代表沿通道轴的最大池化操作,A(·)代表沿通道轴的均值池化操作。总体来说,CGCM保障了我们的模型能够进行准确的显著性预测,因为其不但融合了不同模态的高级语义特征,而且初步地凸显了显著区域。
图2为本发明方法实施例跨模态全局上下文模块示意图;
步骤(3)、通过动态选择模块DSM选择和融合跨模态特征,即RGB和深度图,优化和强化跨级别、多尺度的混合特征。
为了提升模型的鲁棒性,使得模型能够更好地应对复杂场景,我们提出了一种动态选择模块(DSM)。它不仅能够自动地选择和融合跨模态特征,即RGB和深度图,而且能够自主地优化和强化跨级别、多尺度的混合特征。DSM包括两个子模块:跨模态注意力模块CAM和双向门控池化模块BGPM。跨模态注意力模块CAM高效地突出了空间特征,实现了跨模态信息间的融合;双向门控池化模块BGPM自主地实现了不同特征间的融合。
通过跨模态注意力模块CAM完成跨模态信息间的融合。跨模态注意力模块CAM高效地突出了空间特征,实现了跨模态信息间的融合。在图1中,令分别表示RGB分支和深度分支的第i(i=1,2,3,4,5)个卷积块的输出特征图,且每一组跨模态特征对应一个CAM。对于每一个CAM,根据图3,我们首先初步融合RGB特征和深度特征既实现了特征互补又保留了各自的特有信息。两个模态的融合过程能够写为,
其中,表示第i个块的初步跨模态特征,+表示按元素相加。
为了进一步对跨模态特征进行挖掘,我们改进了注意力机制。受CBAM的启发,我们探索了并列的不同设置的卷积层的输出特征之间的关系,而不是局限于同一个卷积层的输出特征图的通道之间。这里,我们在跨模态注意力模块CAM中设置了7个不同的卷积层,其中'1×1'表示卷积核是1×1,'s1'表示步幅是1,'p0'表示填充是0,'d1'表示膨胀系数是1。特别地,我们并联了一条残差分支用以保留原有的信息。同时,采用全局最大池化操作和全局均值池化操作去计算空间统计并传递到一个参数共享的网络中。区别于CBAM,CAM生成的是一个包含8个元素的向量FLS,用以匹配上述并列卷积层的数量(包含残差分支)。紧接着,以自适应选择的方式来优化跨层的深度特征,其可以写为,
其中,表示FLS中的第j个元素,表示第j个卷积层的输出特征(包含残差分支)。将上述计算过程称之为层注意力机制,则FL表示层注意力机制的输出特征。需要注意的是,不同的卷积层设置保证了特征学习的多样性,更加有利于挖掘跨模态信息的互补性。
除此之外,为了强化空间结构特征,我们再次采用了空间注意力机制。不同的是,用“S”型函数Tanh代替了Sigmoid函数,以期望拉大前景特征和背景特征之间的差距,在突出显著区域的同时抑制背景区域。整个计算过程能够写为,
其中,Tan(·)表示Tanh函数,FT表示空间特征掩膜。表示第i个空间注意力模块的输出特征,也即CAM的整体输出特征。需要注意的是,CAM操作不改变特征图的空间大小和通道数。总体来说,CAM充分地挖掘了RGB模态和深度模态之间的互补性,实现了特征间的自适应融合,在空间上凸出了显著目标。
通过双向门控池化模块BGPM实现不同特征间的融合。在图4中,我们的BGPM分为两步。首先,我们充分认识到了跨级别特征间的差异性,自低级到高级的特征分别侧重表达了纹理和语义信息。同时,我们也注意到了循环神经网络(RNNs)在处理序列信号时取得了优异的表现,例如长短时记忆单元(LSTM)和门控循环单元(GRU)。为了将不同级别的特征关联起来,将不同级别的特征视为相邻的序列信号,进而借助RNNs系列算法学习不同级别的特征之间的相关性。受GRU的启发,我们将来自于前一个BGPM的输出特征与相应的CAM的输出特征组成一个序列,以双向门控的方式探索不同级别的特征之间的内在联系,计算过程能够写为,
其中,表示相应的CAM的输出特征,表示强化后的前一个BGPM的输出特征。特别地,当i=5时,有FC是CGCM的输出特征图。和均为计算过程中的混合特征。由此,得到了深度特征FP,其融合了包含不同线索的跨级别特征,凸出了显著目标。
其次,为了能够准确地检测到尺度不一的显著目标,改进了上述提出的层注意力机制,将卷积层替换为了不同设置的池化层。改进后的层注意力机制共包含了3个均值池化层、3个最大池化层和1个偏差连接,其中不同池化层的核大小分别为2、4和8。由此,不但保留了原始信息,而且从不同的尺度进一步提取了有效特征。紧接着,融合不同尺度的深度特征(包含残差分支),能够写为,
其中,表示FX中的第j个元素,表示第j个池化层的输出特征(包含残差分支)。级联每一组对应特征(元素)的乘积,送入一个3×3的卷积层后,得到BGPM的输出特征其中i表示第i个BGPM。最后,每一个BGPM的输出特征被上采样到相同的空间大小并被转换到相同的通道数,将其级联并输入一个卷积块后,生成了最终的显著性图。
Claims (5)
1.一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,步骤如下:
步骤(1)、构建目标检测网络模型;
所述的目标检测网络模型采用编码器-解码器结构;编码器部分包含一对基于ResNet-50的对称双流主干网络,分别用于提取多级的RGB图像外观特征和深度图空间特征;对于解码器部分,采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测;
步骤(2)、通过跨模态全局上下文模块CGCM粗略定位显著目标;
步骤(3)、通过动态选择模块DSM选择和融合步骤2获得的跨模态特征,即RGB和深度图,优化和强化跨级别、多尺度的混合特征;
DSM包括两个子模块:跨模态注意力模块CAM和双向门控池化模块BGPM;跨模态注意力模块CAM高效地突出了空间特征,实现了跨模态信息间的融合;双向门控池化模块BGPM自主地实现了不同特征间的融合。
2.根据权利要求1所述的一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,步骤(1)具体方法如下;
所述的目标检测网络模型采用编码器-解码器结构;其中,编码器部分包含一对基于ResNet-50的对称双流主干网络,分别用于提取多级的RGB图像外观特征和深度图空间特征;对于对称双流主干网络的每一个分支,丢弃了最后的池化层和全连接层,仅仅保留了5级卷积块,分别进行了2、4、8、16、16倍的下采样,并将各级通道数由{64,256,512,1024,2048}转换到了{64,128,256,512,512},从而实现了全卷积网络FCN的结构;对于解码器部分,采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。
3.根据权利要求2所述的一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,步骤(2)具体方法如下:
对于分别来自RGB和深度分支的高级特征和首先使用参数共享的卷积操作将通道数转化为1,其中卷积核大小为1×1,步幅为1;对于RGB分支,使用Sigmoid函数将通道转换后的深度高级语义特征的值缩放至0到1,再与进行按元素相乘,得到交互后的特征并称之为模态间的注意力机制;随后,采用Conv-ReLU-Conv的结构进一步强化了深度的RGB特征,其中卷积核的大小均为1×1,并将使用Sigmoid函数归一化后的特征图与进行按元素相乘,得到强化后的RGB特征并称之为模态内的注意力机制;上述计算过程有效地实现了不同模态之间的信息交互,能够表示为,
其中,Sig(·)代表Sigmoid函数,C1×1(·)代表卷积核为1×1的卷积操作,CRC(·)代表Conv-ReLU-Conv结构,×表示按元素相乘;同样地,强化后的深度特征能够表示为,
由此,从全局的角度得到了深度引导的高级RGB特征和RGB引导的高级深度特征其包含了充足的纹理线索和几何信息;
为了进一步融合RGB特征和深度特征,将和进行拼接得到混合特征FID,能够表示为,
其中,[·]表示级联操作;同时,引入空间注意力机制,其沿通道轴应用均值池化和最大池化操作,并将它们拼接起来以有效地定位显著目标;最终,CGCM生成了跨模态的、能够充分表达全局上下文信息的混合特征FC,能够计算为,
FC=C1×1(FID)×Sig(C7×7([M(FID);A(FID)])), (4)
其中,Cn×n(·)代表卷积核为n×n的卷积操作,M(·)代表沿通道轴的最大池化操作,A(·)代表沿通道轴的均值池化操作;总体来说,CGCM保障了我们的模型能够进行准确的显著性预测,因为其不但融合了不同模态的高级语义特征,而且初步地凸显了显著区域。
4.根据权利要求3所述的一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,
通过跨模态注意力模块CAM完成跨模态信息间的融合;令分别表示RGB分支和深度分支的第i,i=1,2,3,4,5个卷积块的输出特征图,且每一组跨模态特征对应一个CAM;对于每一个CAM,首先初步融合RGB特征和深度特征既实现了特征互补又保留了各自的特有信息;两个模态的融合过程能够写为,
其中,表示第i个块的初步跨模态特征,+表示按元素相加;
跨模态注意力模块CAM中设置了7个不同的卷积层,其中′1×1′表示卷积核是1×1,′s1′表示步幅是1,′p0′表示填充是0,′d1′表示膨胀系数是1;并联了一条残差分支用以保留原有的信息;同时,采用全局最大池化操作和全局均值池化操作去计算空间统计并传递到一个参数共享的网络中;区别于CBAM,CAM生成的是一个包含8个元素的向量FLS,用以匹配上述并列卷积层的数量;紧接着,以自适应选择的方式来优化跨层的深度特征,其可以写为,
其中,表示FLS中的第j个元素,表示第j个卷积层的输出特征;将上述计算过程称之为层注意力机制,则FL表示层注意力机制的输出特征;
采用了空间注意力机制,用“S”型函数Tanh代替了Sigmoid函数,以期望拉大前景特征和背景特征之间的差距,在突出显著区域的同时抑制背景区域;整个计算过程能够写为,
其中,Tan(·)表示Tanh函数,FT表示空间特征掩膜;表示第i个空间注意力模块的输出特征,也即CAM的整体输出特征。
5.根据权利要求4所述的一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,
通过双向门控池化模块BGPM实现不同特征间的融合;BGPM分为两步;首先,为了将不同级别的特征关联起来,将不同级别的特征视为相邻的序列信号,进而借助RNNs系列算法学习不同级别的特征之间的相关性;将来自于前一个BGPM的输出特征与相应的CAM的输出特征组成一个序列,以双向门控的方式探索不同级别的特征之间的内在联系,计算过程能够写为,
其中,表示相应的CAM的输出特征,表示强化后的前一个BGPM的输出特征;特别地,当i=5时,有FC是CGCM的输出特征图;和均为计算过程中的混合特征;由此,得到了深度特征FP,其融合了包含不同线索的跨级别特征,凸出了显著目标;
其次,为了能够准确地检测到尺度不一的显著目标,改进了上述提出的层注意力机制,将卷积层替换为了不同设置的池化层;改进后的层注意力机制共包含了3个均值池化层、3个最大池化层和1个偏差连接,其中不同池化层的核大小分别为2、4和8;由此,不但保留了原始信息,而且从不同的尺度进一步提取了有效特征;紧接着,融合不同尺度的深度特征,能够写为,
其中,表示FX中的第j个元素,表示第j个池化层的输出特征;级联每一组对应特征的乘积,送入一个3×3的卷积层后,得到BGPM的输出特征其中i表示第i个BGPM;最后,每一个BGPM的输出特征被上采样到相同的空间大小并被转换到相同的通道数,将其级联并输入一个卷积块后,生成了最终的显著性图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110586099.8A CN113392727B (zh) | 2021-05-27 | 2021-05-27 | 一种基于动态特征选择的rgb-d显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110586099.8A CN113392727B (zh) | 2021-05-27 | 2021-05-27 | 一种基于动态特征选择的rgb-d显著目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392727A CN113392727A (zh) | 2021-09-14 |
CN113392727B true CN113392727B (zh) | 2024-04-05 |
Family
ID=77619358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110586099.8A Active CN113392727B (zh) | 2021-05-27 | 2021-05-27 | 一种基于动态特征选择的rgb-d显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392727B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170174B (zh) * | 2021-12-02 | 2024-01-23 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
CN117557782B (zh) * | 2023-12-01 | 2024-05-24 | 石家庄铁道大学 | 一种多尺度特征融合和边界信息注意的视频显著目标检测方法 |
-
2021
- 2021-05-27 CN CN202110586099.8A patent/CN113392727B/zh active Active
Non-Patent Citations (3)
Title |
---|
CNNs-Based RGB-D Saliency Detection via Cross-View Transfer and Multiview Fusion;Junwei Han 等;IEEE TRANSACTIONS ON CYBERNETICS;20181231;第48卷(第11期);全文 * |
Hierarchical Dynamic Filtering Network for RGB-D Salient Object Detection;Youwei Pang;arXiv:2007.06227v3 [ cs.CV] 16 Jul 2020;20200716;全文 * |
视觉显著性检测综述;温洪发 等;杭州电子科技大学学报(自然科学版);20200331;第40卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392727A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949255B (zh) | 图像重建方法及设备 | |
CN109903221B (zh) | 图像超分方法及装置 | |
CN111583173B (zh) | 一种rgb-d图像显著性目标检测方法 | |
CN113392727B (zh) | 一种基于动态特征选择的rgb-d显著目标检测方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN110390294B (zh) | 一种基于双向长短期记忆神经网络的目标跟踪方法 | |
CN112465737B (zh) | 图像处理模型训练方法、图像处理方法及图像处理装置 | |
Song et al. | Contextualized CNN for scene-aware depth estimation from single RGB image | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
Wang et al. | Quality-aware dual-modal saliency detection via deep reinforcement learning | |
Yang et al. | Underwater image enhancement with latent consistency learning‐based color transfer | |
Wang et al. | INSPIRATION: A reinforcement learning-based human visual perception-driven image enhancement paradigm for underwater scenes | |
CN116681636A (zh) | 基于卷积神经网络的轻量化红外与可见光图像融合方法 | |
Liu et al. | Progressive complex illumination image appearance transfer based on CNN | |
CN117743946B (zh) | 基于融合特征和组卷积ViT网络的信号类型识别方法及系统 | |
CN111814895A (zh) | 基于绝对和相对深度诱导网络的显著性目标检测方法 | |
Kan et al. | A GAN-based input-size flexibility model for single image dehazing | |
CN113609904B (zh) | 一种基于动态全局信息建模和孪生网络的单目标跟踪算法 | |
Li et al. | Zero-referenced low-light image enhancement with adaptive filter network | |
CN117952846A (zh) | 低光环境下基于视觉增强的红外与可见光图像融合方法 | |
Yang et al. | CPSS-FAT: A consistent positive sample selection for object detection with full adaptive threshold | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN110942463A (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
Mao et al. | ChaInNet: deep chain instance segmentation network for panoptic segmentation | |
CN111753849B (zh) | 基于紧密聚合特征和循环残差学习的检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |