CN114091583A - 基于注意机制和跨模态融合的显著目标检测系统与方法 - Google Patents

基于注意机制和跨模态融合的显著目标检测系统与方法 Download PDF

Info

Publication number
CN114091583A
CN114091583A CN202111310653.6A CN202111310653A CN114091583A CN 114091583 A CN114091583 A CN 114091583A CN 202111310653 A CN202111310653 A CN 202111310653A CN 114091583 A CN114091583 A CN 114091583A
Authority
CN
China
Prior art keywords
features
dense
scale
module
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111310653.6A
Other languages
English (en)
Inventor
冯正勇
崔志强
王峰
杨新秀
刘强
张昱林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China West Normal University
Original Assignee
China West Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China West Normal University filed Critical China West Normal University
Priority to CN202111310653.6A priority Critical patent/CN114091583A/zh
Publication of CN114091583A publication Critical patent/CN114091583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意机制和跨模态融合的显著目标检测系统与方法,属于计算机视觉领域,其包括:首先,提出了一个多尺度残差注意模块分别从RGB分支中提取丰富且重要的全局外观和细节信息,从深度分支中捕获重要的空间结构信息。其次,从相同尺度和不同尺度的跨模态的视角提出了一个密集融合模块对提取高层的RGB特征和深度特征进行融合,产生一个初始显著图。最后,通过提出的边界细化模块使用两分支的低层特征来细化初始显著图中目标的边界,使得出的最终显著图包含敏锐的边界和完整的突出目标。

Description

基于注意机制和跨模态融合的显著目标检测系统与方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于注意机制和多尺度跨模态融合的显著目标检测系统与方法。
背景技术
显著目标检测旨在模拟人类的视觉感知系统自主的检测出给定图像上最重要、最吸引人的突出目标。它已经应用在各种计算机视觉任务中,例如:图像分割,视觉追踪,目标识别,图像检索等。在最近几年,随着深度学习的快速发展,RGB-D显著目标检测取得较大的进步。但是,当处理具有挑战的场景图像时,如:背景杂乱,前景背景相似,低对比度等,一些现有的方法不能够完整的检测出图像中的突出目标。
在RGB-D显著目标检测领域,RGB图像包含丰富的外观线索和位置信息,而深度图像提供有用的空间结构,3D布局信息,对于RGB图像中的外观线索是重要的互补信息。为了检测得出完整的显著图,我们需要考虑两个重要的问题:1)如何分别从RGB图像和深度图像中提取丰富且重要的特征信息,2)如何在RGB特征和深度特征之间进行有效的多尺度跨模态融合。
目前,显著目标检测方法主要面临以下困难:
1.对于特征提取方面,当前大多检测方法没有考虑到骨干网络提取的每层特征信息量大且存在冗余问题,以及没有考虑提取的特征信息在空间和通道上的差异性,而直接使用。
2.对于特征融合方面,现有的融合策略大多划分为三种:早期融合,中期融合,晚期融合。早期融合方法没有考虑两种图像间的差异,而进行直接的拼接会破坏两种图像固有的内部特性,最终会带来不满意的预测结果;后期融合方法没有重点关注RGB图像包含的外观信息和深度图像包含的空间结构信息之间的分层信息互补,直接对最终的结果融合并不能充分的探索模态间的信息相关性;而中期融合可以有效的解决两种模态间存在的差异问题,能够充分的探索两种模态间的互补性。
目前,对于显著目标检测进行了大量研究,提出了许多方法。文献Y.Piao,W.Ji,J.Li,M.Zhang,and H.Lu,“Depth-Induced Multi-Scale Recurrent Attention Networkfor Saliency Detection,”in 2019IEEE/CVF International Conference on ComputerVision(ICCV)提出了一个深度细化模块融合多层次的互补RGB和深度特征,然后把融合的特征送进深度诱导的多尺度加权模块和循环注意模块进行显著性检测;文献Z.Liu,S.Shi,Q.Duan,W.Zhang,and P.Zhao.Salient object detection for RGB-D image by singlestream recurrent convolution neural network.Neurocomputing,363:46–57,2019把RGB和深度图像拼接作为四通道输入骨干网络中产生多层特征,然后利用深度循环卷积神经网络由深至前处理每层特征,最后融合每层的显著图产生最终的结果;文献N.Wang andX.Gong.Adaptive fusion for RGB-Dsalient object detection.IEEE Access,7:55277–55284,2019分别把RGB和深度图像送进RGB显著预测流和深度显著预测流得出两个显著图,然后通过一个显著性融合模块产生最终的结果;文献Hao Chen,Youfu Li,and DanSu.Multi-modal fusion network with multi-scale multi-path and cross-modalinteractions for rgb-d salient object detection.Pattern Recognition,86:376–385,2019提出了一个多尺度多路径融合的跨模态交互网络进行显著目标检测。
以上方法,要不没有考虑到提取的特征信息存在冗余问题且没有重点之分,要不没有考虑到RGB图像和深度图像之间的内部差异,要不没有充分的探索两个模态间的互补性,因此检测出的显著图不具备较为完整的突出目标。
发明内容
本发明提供一种基于注意机制和多尺度跨模态融合的显著目标检测系统与方法,旨在解决的技术问题是:现有方法在提取特征信息上存在冗余且没有重点之分以及模态间不充分交互的技术问题。
考虑到现有技术的上述问题,根据本发明公开的一个方面,本发明采用以下技术方案:
一种基于注意机制和多尺度跨模态融合的显著目标检测方法,其包括:
S1.彩色图像和深度图像分别送入骨干网络中提取两个模态的不同尺度的分层特征;
S2.将由所述骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块中,分别从彩色分支和深度分支中提取包含高三层特征和低层特征的特征信息;
S3.将所述高三层特征送到密集融合模块中以探索模态间的互补信息,并加以利用产生一个初始显著图;
S4.通过一个边界细化模块利用从两个分支提取的低层特征来细化初始显著图中的突出目标,产生最终显著图。
为了更好地实现本发明,进一步的技术方案是:
进一步地,所述骨干网络采用ResNet。
进一步地,所述ResNet采用ResNet50。
进一步地,所述S1步骤中,分别从彩色图像和深度图像提取不同尺度分层特征的方法包括:
输入骨干网络中的彩色图像和深度图像分辨率采用256x256;
经过骨干网络的5个卷积块{Conv1,Conv2,Conv3,Conv4,Conv5}得出两个分支的侧输出特征{R1/D1,R2/D2,R3/D3,R4/D4,R5/D5},对应的分辨率分别为输入图像分辨率的{1/2,1/4,1/8,1/16,1/32};
对两个分支得出的侧输出特征应用一个1x1的卷积层将通道维度降低为{64,64,64,64,64}。
进一步地,所述S2步骤中,将骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块以提取特征信息的方式包括:
Ri=MSRA(ri)i=1,2,3,4,5
Di=MSRA(di)i=1,2,3,4,5
其中,MSRA代表多尺度残差注意模块,Ri和Di分别代表经过多尺度残差注意模块输出的RGB特征和深度特征。
进一步地,所述S3步骤中,将高三层特征送到密集融合模块中产生初始显著图的方式包括:
首先,对高三层RGB特征{R3,R4,R5}和深度特征{D3,D4,D5}执行相同尺度的跨模态融合,把尺度相同的特征送入密集块,得到3个混合特征图,经过整合得出一个融合的特征图Ffuse1,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}
Ffuse1=DFM1(F33,F44,F55)
上式中,Dense代表一个密集块,DFM1代表相同尺度融合的密集融合模块;
其次,对高三层RGB特征{R3,R4,R5}和深度特征{D3,D4,D5}执行不同尺度的跨模态融合,不同尺度的特征两两结合通过密集块会得到6个混合特征图,之后经过两个密集融合模块产生两个特征图Ffuse2和Ffuse3,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈({3,4,5}且i≠j
Ffuse2=DFM2(F34,F35,F45)
Ffuse3=DMF2(F43,F53,F54)
上式中,DMF2代表不同尺度融合的密集融合模块;
最后,把得到的3个融合特征相加产生一个初始显著图,即:
Figure BDA0003338573700000051
上式中,
Figure BDA0003338573700000052
代表元素相加操作。
进一步地,所述S4步骤中,产生最终显著图的方式包括:
首先,对经过多尺度残差注意模块提取的低层RGB特征{R1,R2}和深度特征{D1,D2}执行如下操作,产生两个特征图F1和F2
Figure BDA0003338573700000053
上式中,
Figure BDA0003338573700000054
代表元素相加操作;
然后,用上式产生的两个特征图来细化初始显著图,产生两个细化后的特征图
Figure BDA0003338573700000055
Figure BDA0003338573700000056
其操作如下:
Figure BDA0003338573700000057
上式中,
Figure BDA0003338573700000058
Figure BDA0003338573700000059
分别代表元素相加和元素相乘操作,UP代表上采样操作;
最后,对两个细化后的特征图
Figure BDA00033385737000000510
Figure BDA00033385737000000511
进行拼接操作,产生最终的显著图Sfin,其操作如下:
Figure BDA00033385737000000512
上式中,UP、Cat和Conv分别代表上采样操作,连接操作和一个3×3卷积层。
本发明还可以是:
一种基于注意机制和多尺度跨模态融合的显著目标检测系统,其包括:
特征提取模块,使用骨干网络提取彩色图像和深度图像的不同尺度的分层特征;
多尺度残差注意模块,用于分别从彩色分支和深度分支中提取包含高三层特征和低层特征的特征信息;
密集融合模块,用于根据所述高三层特征,探索模态间的互补信息,并加以利用产生一个初始显著图;
边界细化模块,用于从两个分支提取的低层特征来细化初始显著图中的突出目标,产生最终显著图。
进一步地,所述密集融合模块包括:
对高三层RGB特征{R3,R4,R5}和深度特征({D3,D4,D5}执行相同尺度的跨模态融合,把尺度相同的特征送入密集块,得到3个混合特征图,经过整合得出一个融合的特征图Ffuse1,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}
Ffuse1=DFM1(F33,F44,F55)
上式中,Dense代表一个密集块,DFM1代表相同尺度融合的密集融合模块;
对高三层RGB特征({R3,R4,R5}和深度特征({D3,D4,D5}执行不同尺度的跨模态融合,不同尺度的特征两两结合通过密集块会得到6个混合特征图,之后经过两个密集融合模块产生两个特征图Ffuse2和Ffuse3,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}且i≠j
Ffuse2=DFM2(F34,F35,F45)
Ffuse3=DMF2(F43,F53,F54)
上式中,DMF2代表不同尺度融合的密集融合模块;
把得到的3个融合特征相加产生一个初始显著图,即:
Figure BDA0003338573700000071
上式中,
Figure BDA0003338573700000072
代表元素相加操作。
进一步地,所述边界细化模块包括:
对经过多尺度残差注意模块提取的低层RGB特征{R1,R2}和深度特征{D1,D2}执行如下操作,产生两个特征图F1和F2,其为:
Figure BDA0003338573700000073
上式中,
Figure BDA0003338573700000074
代表元素相加操作;
用上式产生的两个特征图来细化初始显著图,产生两个细化后的特征图
Figure BDA0003338573700000075
Figure BDA0003338573700000076
其操作如下:
Figure BDA0003338573700000077
上式中,
Figure BDA0003338573700000078
Figure BDA0003338573700000079
分别代表元素相加和元素相乘操作,UP代表上采样操作;
对两个细化后的特征图
Figure BDA00033385737000000710
Figure BDA00033385737000000711
进行拼接操作,产生最终的显著图Sfin,其操作如下:
Figure BDA00033385737000000712
上式中,UP、Cat和Conv分别代表上采样操作,连接操作和一个3×3卷积层。
与现有技术相比,本发明的有益效果之一是:
本发明的一种基于注意机制和多尺度跨模态融合的显著目标检测方法与系统,通过加入提出的多尺度残差注意模块从骨干网络中提取丰富且重要的特征信息,很好的解决了以往方法在提取特征信息上存在冗余且没有重点之分的问题;另外提出的由密集融合模块和边界细化模块构成的中间融合策略,充分的挖掘了模态间的互补信息,也避免了早期融合和晚期融合策略中存在的问题。在检测如前景背景相似、多目标、背景杂乱等挑战的场景图像时,相比以前的方法,本发明能检测出更完整的突出目标和敏锐的边界细节。
附图说明
为了更清楚的说明本申请文件实施例或现有技术中的技术方案,下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅是对本申请文件中一些实施例的参考,对于本领域技术人员来讲,在不付出创造性劳动的情况下,还可以根据这些附图得到其它的附图。
图1为根据本发明一个实施例的网络总体结构示意图。
图2为根据本发明一个实施例的多尺度残差注意模块示意图。
图3a为根据本发明一个实施例的相同尺度的密集融合模块示意图。
图3b为根据本发明一个实施例的不同尺度的密集融合模块示意图。
图4为根据本发明一个实施例的边界细化模块示意图。
图5为根据本发明一个实施例的显著目标检测方法与现有方法的对比结果示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
如图1至图4所示,一种基于注意机制和多尺度跨模态融合的显著目标检测方法,其包括如下步骤:
S1.彩色图像和深度图像分别送入骨干网络中提取两个模态的不同尺度的分层特征;该骨干网络优选ResNet网络,更优选的是采用ResNet50;
S2.将由所述骨干网络从两种图像提取的不同尺度的分层特征送入多尺度残差注意模块中,分别从彩色分支和深度分支中提取丰富且重要的特征,该丰富且重要的特征包含高三层特征和低层特征的特征信息;
S3.将上述提取的丰富且重要的高三层特征送到密集融合模块中以探索模态间的互补信息,并加以利用产生一个初始显著图;
S4.通过一个边界细化模块利用从两个分支提取的低层特征来细化初始显著图中的突出目标,产生最终显著图。
上述实施例的步骤S1中,利用骨干网络分别从RGB图像和深度图像中提取不同尺度的分层特征,具体为:
输入骨干网络中的彩色图像和深度图像分辨率采用256x256,一般利用ResNet50作为骨干网络来提取多层RGB特征和深度特征;
经过骨干网络的5个卷积块{Conv1,Conv2,ConV3,Conv4,Conv5}得出两个分支的侧输出特征{R1/D1,R2/D2,R3/D3,R4/D4,R5/D5},对应的分辨率分别为输入图像分辨率的{1/2,1/4,1/8,1/16,1/32};
为了便于后续模块功能的实现,分别对RGB分支和深度分支应用1×1的卷积层来降低它们的通道维度为{64,64,64,64,64}。
上述实施例的S2步骤中,将骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块以提取特征信息的方式包括:
Ri=MSRA(ri)i=1,2,3,4,5
Di=MSRA(di)i=1,2,3,4,5
其中,MSRA代表多尺度残差注意模块,Ri和Di分别代表经过多尺度残差注意模块输出的RGB特征和深度特征。
再如图2所示,对输入多尺度残差注意模块的RGB特征ri和深度特征di,首先都通过5个分支,从上至下,经过第一个分支输出一个特征图ri 1/di 1,具体如下:
Figure BDA0003338573700000101
其中,conv1和conV3分别代表1x1和3x3的卷积层。
经过第二,三,四分支后,每个分支得出一个特征图,具体如下:
αi=CA(ri/dii=SA(ri/di)
Figure BDA0003338573700000102
Figure BDA0003338573700000103
Figure BDA0003338573700000104
其中,CA和SA分别代表通道注意和空间注意,ai和βi分别表示输入特征经过通道注意和空间注意后的权重特征图,conv1、conv3、conv5和conv7分别代表1x1、3x3、5x5和7x7的卷积层,d=3,5,7分别代表卷积膨胀率为3,5,7。
第五个分支仅由一个1x1的卷积层构成,用于降低通道数目,即:
Figure BDA0003338573700000105
最后,将前4个分支进行拼接,再与最后一个分支相加形成残差结构,得出输出特征,即:
Figure BDA0003338573700000106
上式中,Cat代表拼接操作,
Figure BDA0003338573700000107
代表元素相加操作。
上述S3步骤中,将高三层特征送到密集融合模块中产生初始显著图,具体为:
首先,相同尺度的密集融合模块如图3a所示,对提取的高三层RGB特征{R3,R4,R5}和深度特征{D3,D4,D5},通过3个经典的密集块来执行相同尺度的跨模态融合产生3个混合特征图,然后进行整合为一个融合特征图Ffuse1,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}
Ffuse1=DFM1(F33,F44,F55)
上式中,Dense代表一个密集块,DFM1代表相同尺度融合的密集融合模块;通过上式,可以得到3个的特征图{F33,F44,F55),然后进行下述操作:
Figure BDA0003338573700000115
Figure BDA0003338573700000111
Figure BDA0003338573700000112
Figure BDA0003338573700000113
其中,上式中UP2和UP4代表2倍和4倍上采样操作,Conv代表一个3×3的卷积操作,
Figure BDA0003338573700000114
代表元素加操作,Cat代表连接操作。
其次,不同尺度的密集融合模块如图3b所示,对提取的高三层RGB特征{R3,R4,R5)和深度特征{D3,D4,D5},通过6个经典的密集块来执行不同尺度的跨模态融合产生6个混合特征图,然后进行整合为2个融合特征图Ffuse2和Ffuse3,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}且i≠j
其中,上式中Dense代表一个密集块,通过上式,我们会得到6个特征图(F34,F35,F45,F43,F53,F54),然后我们分别对前三个以及后三个特征图整合,得到2个融合特征图,其具体操作为:
Figure BDA0003338573700000121
Figure BDA0003338573700000122
Figure BDA0003338573700000123
Figure BDA0003338573700000124
其中,上式中UP2代表2倍上采样操作,Conv代表一个3×3的卷积操作,
Figure BDA0003338573700000125
代表元素加操作,Cat代表连接操作。类似的,把后三个特征图通过上述操作也可以得到一个融合的特征图Ffuse3
最后,初始显著图Sini如下所示:
Figure BDA0003338573700000126
上式中
Figure BDA0003338573700000127
代表元素加操作。
上述步骤S4,利用提取丰富且重要的低两层特征细化初始显著图,得出最终的显著图,具体为:
边界细化模块如图4所示,首先,对经过多尺度残差注意模块提取的低层RGB特征{R1,R2}和深度特征{D1,D2}执行如下操作,产生两个特征图F1和F2
Figure BDA0003338573700000128
上式中,
Figure BDA0003338573700000129
代表元素相加操作。
然后,用上式产生的两个特征图来细化初始显著图,产生两个细化后的特征图
Figure BDA00033385737000001210
Figure BDA00033385737000001211
其操作如下:
Figure BDA00033385737000001212
上式中,
Figure BDA00033385737000001213
Figure BDA00033385737000001214
分别代表元素相加和元素相乘操作,UP代表上采样操作。
最后,对两个细化后的特征图
Figure BDA00033385737000001215
Figure BDA00033385737000001216
进行拼接操作,产生最终的显著图Sfin,其操作如下:
Figure BDA0003338573700000131
上式中,UP,Cat和Conv分别代表上采样操作,连接操作和一个3×3卷积层。
对于上述显著目标检测方法的实现,本发明还公开了一种基于注意机制和多尺度跨模态融合的显著目标检测系统,其包括:
特征提取模块,使用骨干网提取彩色图像和深度图像的不同尺度的分层特征;
多尺度残差注意模块,用于分别从彩色分支和深度分支中提取包含高三层特征和低层特征的特征信息;
密集融合模块,用于根据所述高三层特征,探索模态间的互补信息,并加以利用产生一个初始显著图;
边界细化模块,用于从两个分支提取的低层特征来细化初始显著图中的突出目标,产生最终显著图。
以及上述各模块中对应设置实现上述实施例中各方法的功能单元。
在本发明中,通过与现有的显著目标检测模型对比证明了其有效性以及在效果上的优势。对比的模型包括:
(1)H.Chen and Y.Li.Three-stream attention-aware network for rgb-dsalient object detection.IEEE Trans.Image Process.,28:2825-2835,2019.
(2)Jia-Xing Zhao,Yang Cao,Deng-Ping Fan,Ming-Ming Cheng,Xuan-Yi Li,and Le Zhang.Contrast prior and fluid pyramid integration for rgbd salientobject detection.In IEEE Conf.Comput.Vis.Pattern Recog.,2019.
(3)Yongri Piao,Wei Ji,Jingjing Li,Miao Zhang,and Huchuan Lu.Depth-induced multi-scale recurrent attention network for saliency detection.InInt.Conf.Comput.Vis.,pages7254-7263,2019.
(4)Li G,Liu Z and Ling H.ICNet:Information Conversion Network forRGB-D Based Salient Object Detection.IEEE Transactions on Image Processing,pages 4873-4884,2020.
(5)Yongri Piao,Zhengkun Rong,Miao Zhang,W.Ren,and Huchuan Lu.A2dele:Adaptive and attentive depth distiller for efficient rgb-d salient objectdetection.IEEE Conf.Comput.Vis.Pattern Recog.,pages 9057–9066,2020.
(6)Nian Liu,N.Zhang,and J.Han.Learning selective self-mutualattention for rgb-d saliency detection.IEEE Conf.Comput.Vis.Pattern Recog.,pages 13753–13762,2020.
选择NJUD中的1485个样本,NLPR中的700个样本和DUT中的800个样本对所有模型训练,NJUD,NLPR和DUT中的剩余样本以及整个LFSD和SIP整个数据集用于测试。对于所有指标,本发明中的显著目标检测方法表现出良好的性能,在四个评价指标以及五个具有挑战的数据集下,大量的实验证实了我们提出的模型架构优于当前先进的显著目标检测方法,具体参数对比结果如图5所示。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分相互参见即可。
在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”、等,指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说,结合任一实施例描述一个具体特征、结构或者特点时,所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。
尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外,对于本领域技术人员来说,其他的用途也将是明显的。

Claims (10)

1.一种基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于包括:
S1.彩色图像和深度图像分别送入骨干网络中提取两个模态的不同尺度的分层特征;
S2.将由所述骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块中,分别从彩色分支和深度分支中提取包含高三层特征和低层特征的特征信息;
S3.将所述高三层特征送到密集融合模块中以探索模态间的互补信息,并加以利用产生一个初始显著图;
S4.通过一个边界细化模块利用从两个分支提取的低层特征来细化初始显著图中的突出目标,产生最终显著图。
2.根据权利要求1所述的基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于所述骨干网络采用ResNet。
3.根据权利要求2所述的基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于所述ResNet采用ResNet50。
4.根据权利要求1所述的基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于所述S1步骤中,分别从彩色图像和深度图像提取不同尺度分层特征的方法包括:
输入骨干网络中的彩色图像和深度图像分辨率采用256x256;
经过骨干网络的5个卷积块{Conv1,Conv2,Conv3,Conv4,Conv5}得出两个分支的侧输出特征{R1/D1,R2/D2,R3/D3,R4/D4,R5/D5},对应的分辨率分别为输入图像分辨率的{1/2,1/4,1/8,1/16,1/32};
对两个分支得出的侧输出特征应用一个1x1的卷积层将通道维度降低为{64,64,64,64,64}。
5.根据权利要求1所述的基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于所述S2步骤中,将骨干网络提取的不同尺度的分层特征送入多尺度残差注意模块以提取特征信息的方式包括:
Ri=MSRA(ri)i=1,2,3,4,5
Di=MSRA(di)i=1,2,3,4,5
其中,MSRA代表多尺度残差注意模块,Ri和Di分别代表经过多尺度残差注意模块输出的RGB特征和深度特征。
6.根据权利要求1所述的基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于所述S3步骤中,将高三层特征送到密集融合模块中产生初始显著图的方式包括:
首先,对高三层RGB特征{R3,R4,R5}和深度特征{D3,D4,D5}执行相同尺度的跨模态融合,把尺度相同的特征送入密集块,得到3个混合特征图,经过整合得出一个融合的特征图Ffuse1,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}
Ffuse1=DFM1(F33,F44,F55)
上式中,Dense代表一个密集块,DFM1代表相同尺度融合的密集融合模块;
其次,对高三层RGB特征{R3,R4,R5}和深度特征{D3,D4,D5}执行不同尺度的跨模态融合,不同尺度的特征两两结合通过密集块会得到6个混合特征图,之后经过两个密集融合模块产生两个特征图Ffuse2和Ffuse3,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}且i≠j
Ffuse2=DFM2(F34,F35,F45)
Ffuse3=DMF2(F43,F33,F54)
上式中,DMF2代表不同尺度融合的密集融合模块;
最后,把得到的3个融合特征相加产生一个初始显著图,即:
Figure FDA0003338573690000031
上式中,
Figure FDA0003338573690000032
代表元素相加操作。
7.根据权利要求1所述的基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于所述S4步骤中,产生最终显著图的方式包括:
首先,对经过多尺度残差注意模块提取的低层RGB特征{R1,R2}和深度特征{D1,D2}执行如下操作,产生两个特征图F1和F2
Figure FDA0003338573690000033
上式中,
Figure FDA0003338573690000034
代表元素相加操作;
然后,用上式产生的两个特征图来细化初始显著图,产生两个细化后的特征图
Figure FDA0003338573690000035
Figure FDA0003338573690000036
其操作如下:
Figure FDA0003338573690000037
上式中,
Figure FDA0003338573690000038
Figure FDA0003338573690000039
分别代表元素相加和元素相乘操作,UP代表上采样操作;
最后,对两个细化后的特征图
Figure FDA00033385736900000310
Figure FDA00033385736900000311
进行拼接操作,产生最终的显著图Sfin,其操作如下:
Figure FDA00033385736900000312
上式中,UP、Cat和Conv分别代表上采样操作,连接操作和一个3×3卷积层。
8.一种基于注意机制和多尺度跨模态融合的显著目标检测系统,其特征在于包括:
特征提取模块,使用骨干网络提取彩色图像和深度图像的不同尺度的分层特征;
多尺度残差注意模块,用于分别从彩色分支和深度分支中提取包含高三层特征和低层特征的特征信息;
密集融合模块,用于根据所述高三层特征,探索模态间的互补信息,并加以利用产生一个初始显著图;
边界细化模块,用于从两个分支提取的低层特征来细化初始显著图中的突出目标,产生最终显著图。
9.根据权利要求8所述的基于注意机制和多尺度跨模态融合的显著目标检测系统,其特征在于所述密集融合模块包括:
对高三层RGB特征{R3,R4,R5)和深度特征{D3,D4,D5)执行相同尺度的跨模态融合,把尺度相同的特征送入密集块,得到3个混合特征图,经过整合得出一个融合的特征图Ffuse1,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5)
Ffuse1=DFM1(F33,F44,F55)
上式中,Dense代表一个密集块,DFM1代表相同尺度融合的密集融合模块;
对高三层RGB特征{R3,R4,R5}和深度特征{D3,D4,D5}执行不同尺度的跨模态融合,不同尺度的特征两两结合通过密集块会得到6个混合特征图,之后经过两个密集融合模块产生两个特征图Ffuse2和Ffuse3,具体操作如下:
Fij=Dense(Ri,Dj),i=j∈{3,4,5}且i≠j
Ffuse2=DFM2(F34,F35,F45)
Ffuse3=DMF2(F43,F53,F54)
上式中,DMF2代表不同尺度融合的密集融合模块;
把得到的3个融合特征相加产生一个初始显著图,即:
Figure FDA0003338573690000041
上式中,
Figure FDA0003338573690000042
代表元素相加操作。
10.根据权利要求1所述的基于注意机制和多尺度跨模态融合的显著目标检测方法,其特征在于所述边界细化模块包括:
对经过多尺度残差注意模块提取的低层RGB特征{R1,R2)和深度特征{D1,D2}执行如下操作,产生两个特征图F1和F2,其为:
Figure FDA0003338573690000051
上式中,
Figure FDA0003338573690000052
代表元素相加操作;
用上式产生的两个特征图来细化初始显著图,产生两个细化后的特征图
Figure FDA0003338573690000053
Figure FDA0003338573690000054
其操作如下:
Figure FDA0003338573690000055
上式中,
Figure FDA0003338573690000056
Figure FDA0003338573690000057
分别代表元素相加和元素相乘操作,UP代表上采样操作;
对两个细化后的特征图
Figure FDA0003338573690000058
Figure FDA0003338573690000059
进行拼接操作,产生最终的显著图Sfin,其操作如下:
Figure FDA00033385736900000510
上式中,UP、Cat和Conv分别代表上采样操作,连接操作和一个3×3卷积层。
CN202111310653.6A 2021-11-04 2021-11-04 基于注意机制和跨模态融合的显著目标检测系统与方法 Pending CN114091583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111310653.6A CN114091583A (zh) 2021-11-04 2021-11-04 基于注意机制和跨模态融合的显著目标检测系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111310653.6A CN114091583A (zh) 2021-11-04 2021-11-04 基于注意机制和跨模态融合的显著目标检测系统与方法

Publications (1)

Publication Number Publication Date
CN114091583A true CN114091583A (zh) 2022-02-25

Family

ID=80299116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111310653.6A Pending CN114091583A (zh) 2021-11-04 2021-11-04 基于注意机制和跨模态融合的显著目标检测系统与方法

Country Status (1)

Country Link
CN (1) CN114091583A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403174A (zh) * 2022-12-12 2023-07-07 深圳市大数据研究院 一种端到端自动驾驶方法、系统、仿真系统及存储介质
CN117557782A (zh) * 2023-12-01 2024-02-13 石家庄铁道大学 一种多尺度特征融合和边界信息注意的视频显著目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403174A (zh) * 2022-12-12 2023-07-07 深圳市大数据研究院 一种端到端自动驾驶方法、系统、仿真系统及存储介质
CN117557782A (zh) * 2023-12-01 2024-02-13 石家庄铁道大学 一种多尺度特征融合和边界信息注意的视频显著目标检测方法
CN117557782B (zh) * 2023-12-01 2024-05-24 石家庄铁道大学 一种多尺度特征融合和边界信息注意的视频显著目标检测方法

Similar Documents

Publication Publication Date Title
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
Ding et al. AP-CNN: Weakly supervised attention pyramid convolutional neural network for fine-grained visual classification
Zhang et al. Cross-modality discrepant interaction network for RGB-D salient object detection
Zhou et al. HFNet: Hierarchical feedback network with multilevel atrous spatial pyramid pooling for RGB-D saliency detection
Chen et al. CGMDRNet: Cross-guided modality difference reduction network for RGB-T salient object detection
Bi et al. Cross-modal hierarchical interaction network for RGB-D salient object detection
Zhou et al. BCINet: Bilateral cross-modal interaction network for indoor scene understanding in RGB-D images
CN114091583A (zh) 基于注意机制和跨模态融合的显著目标检测系统与方法
Ning et al. Occluded person re-identification with deep learning: a survey and perspectives
Huang et al. Middle-level feature fusion for lightweight RGB-D salient object detection
Fang et al. UDNet: Uncertainty-aware deep network for salient object detection
CN114898403A (zh) 一种基于Attention-JDE网络的行人多目标跟踪方法
Xia et al. Pedestrian detection algorithm based on multi-scale feature extraction and attention feature fusion
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
Chen et al. Laplacian pyramid neural network for dense continuous-value regression for complex scenes
Ge et al. WGI-Net: A weighted group integration network for RGB-D salient object detection
Yao et al. Transformers and CNNs fusion network for salient object detection
Wei et al. Bidirectional attentional interaction networks for rgb-d salient object detection
Zhang et al. CSNet: a ConvNeXt-based Siamese network for RGB-D salient object detection
Yuan et al. A multi‐scale feature representation and interaction network for underwater object detection
Pan et al. RGB-D saliency detection via complementary and selective learning
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN115063352A (zh) 一种基于多图神经网络协同学习架构的显著性物体检测装置及方法
Guo et al. Motion saliency based hierarchical attention network for action recognition
Li et al. Deep spatio-frequency saliency detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination