CN113076957A - 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 - Google Patents

一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 Download PDF

Info

Publication number
CN113076957A
CN113076957A CN202110427296.5A CN202110427296A CN113076957A CN 113076957 A CN113076957 A CN 113076957A CN 202110427296 A CN202110427296 A CN 202110427296A CN 113076957 A CN113076957 A CN 113076957A
Authority
CN
China
Prior art keywords
feature
cross
rgb
features
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110427296.5A
Other languages
English (en)
Inventor
王俊
赵正云
杨尚钦
张苗辉
柴秀丽
张婉君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202110427296.5A priority Critical patent/CN113076957A/zh
Publication of CN113076957A publication Critical patent/CN113076957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨模态特征融合的RGB‑D图像显著性目标检测方法,包括:步骤1、基于跨层连接方式的U‑Net网络,将RGB和Depth分别输入到ResNet‑50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征;Depth图像提取出五个阶段的特征;步骤2、将两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息;多层损失函数引导网络最终生成显著性结果图。本发明能够充分利用Depth信息提供的深度线索,增强RGB和Depth两种模态下的特征融合,增强模型对各个通道特征的辨别能力。

Description

一种基于跨模态特征融合的RGB-D图像显著性目标检测方法
技术领域
本发明涉及深度学习图像处理技术领域,尤其涉及到一种基于跨模态特征融合的RGB-D图像显著性目标检测方法。
背景技术
显著性目标检测(SOD)旨在将图像中最显著的物体与背景分离出来。显著性目标检测已经应用在了各种计算机视觉任务中,比如图像理解,图像分割,目标追踪,图像压缩,等等。近些年,深度信息 (Depth)的普及使得RGB-D图像的显著性检测性能不断提升,人们通过互补Depth和RGB两种模态下不同的特征信息来提高显著性检测的性能。
早期的RGB-D显著性目标检测方法采用早期融合策略将外观信息和深度线索结合在一起。但RGB和Depth两种模态存在很大的差异性,传统的方法很难将它们很好的融合。随着卷积神经网络(CNN) 的兴起,人们越来越多的将深度学习技术应用在RGB-D显著性目标检测上,并取得了很好的结果。2019年,Zhao等人(J.Zhao,Y.Cao, D.Fan,et al.ContrastPrior and Fluid Pyramid Integration for RGBD Salient Object Detection,in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019,pp. 3922-3931)使用一种新型的流式金字塔结构,更好地利用多尺度跨模态特征。2020年,Fan等人(D.Fan,Y.Zhai,A.Borji,et al. BBS-Net:RGB-D SalientObject Detection with a BifurcatedBackbone Strategy Network.2020)利用RGB-D显著目标检测固有的多模态和多层次的特性来开发一种新的级联细化网络,以一种互补的方式融合了RGB和Depth模式。
尽管近些年基于CNN的RGB-D显著性检测方法与传统的RGB-D显著性检测方法相比有了很大的进步,但它们在跨模态特征融合及对 Depth的特征提取仍有不足之处。所存在的问题主要有:由于RGB和 Depth两种模态存在差异,直接级联或简单融合RGB和Depth跨模态策略并不能充分利用Depth提供的深度线索。
发明内容
针对现有技术不足,本发明的目的在于提供一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,解决背景技术中的问题。
本发明提供如下技术方案:
一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,包括:
步骤1、基于跨层连接方式的U-Net网络,将RGB和Depth分别输入到ResNet-50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征分别为R1、R2、R3、R4、R5;Depth图像提取出五个阶段的特征分别为D1、D2、D3、D4、D5;
步骤2、将两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;
步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息,得到U1、 U2、U3、U4、U5;通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。
优选的,所述跨模态通道细化模块通过充分提取和融合R5和 D5两种模态特征,获取具有丰富语义信息的跨模态综合特征RD,由于RGB和Depth输入源具有相同数量的通道,并且在主干网络中也具有相同的处理,所以顶层特征R5和D5具有相同的尺度大小。
优选的,所述相同空间尺度大小的R5和D5作为跨模态通道细化模块的输入特征,两个输入特征在经过简单的权重层编码操作之后,通过图像像素的乘法操作增强特征中的公共像素,减小模糊的像素,为了学习输入特征残差,将经过编码的输出和乘法操作的输出进行图像像素相加,公式如下:
Figure BDA0003030035560000031
其中,
Figure BDA0003030035560000032
Figure BDA0003030035560000033
表示元素的求和操作和元素的乘法操作。每个编码器的 d{1,2}由一个3×3的卷积层,一个批量归一化和一个ReLU激活函数组成。
优选的,在经过像素相乘和像素相加操作之后,得到丰富特征fc,为了高度响应通道中强烈的目标特征,使用全局特征对注意权重进行上下文理解,得到特征Us;最终,经过串联操作将R5和D5经过简单卷积操作之后的特征与Us特征进行处理,并再次经过卷积操作之后得到与R5和D5通道数一样的输出特征RD。
优选的,采用四个结构相似的跨模态引导模块,逐步引导 ResNet-50对RGB输入图像的特征提取;以最高层的跨模态引导模块为例,特征D4和特征RD作为跨模态引导模块的输入,每次得到跨模态引导模块的输出特征用于引导RGB图像特征提取和作为输入反馈给下一个跨模态引导模块,采用双线性插值法对RD上采样操作,使得D4和RD具有相同的尺度大小,采用乘法操作对两个输入特征进行相乘操作得到特征P,P作为跨模态融合模块的输入特征,先用 1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数。整个跨模态融合模块分为五个分支,其中四个分支采用4种不同的扩张率r(r=1,2,4,8)的扩张卷积层
Figure BDA0003030035560000041
来获取更多感受野的信息,得到4个输出特征
Figure BDA0003030035560000042
其中输出特征
Figure BDA0003030035560000043
和输入特征P具有相同大小的空间分辨率,公式如下:
Figure BDA0003030035560000044
Figure BDA0003030035560000045
其中,up为双线性插值上采样操作,
Figure BDA0003030035560000046
表示元素相乘操作,
Figure BDA0003030035560000047
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作。
优选的,另外一条分支采用通道注意力对特征P进行权重处理,得到输出特征Uc,将Uc
Figure BDA0003030035560000048
进行元素串联融合,最终在融合特征上进行1×1卷积操作得到输出特征fp,将输出特征fp的通道数和输入特征P的通道数保持一致,公式所示:
Figure BDA0003030035560000049
Figure BDA0003030035560000051
其中,W、H分别为特征图的长、宽,fc(i,j)为特征图fc中每个格点的值,ω为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作,
Figure BDA0003030035560000052
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作,
Figure BDA0003030035560000053
表示元素串联操作。
优选的,残差自适应选择模块通过计算每个位置的选择注意权重来选择相互注意的权重,以最高层的残差自适应选择模块具体来说, RGB图像特征提取的顶层R5和跨模态通道细化模块得到的特征RD 作为残差自适应选择模块的输入特征,先分别采用卷积核大小为1×k 和k×1并联的卷积层来捕获高分辨率的空间关注点得到X1和X2,然后我们通过元素串联、sigmoid和1×1卷积处理RD和R5,并将其输出特征与X1和X2经过sigmoid的特征元素相乘,得到两组选择性的自适应特征,并将这两组特征分别与X1和X2经过sigmoid的特征元素相加,随后经过1×1得到特征Y1和Y2,最后我们通过残差连接将X1和X2的特征信息与Y1和Y2连接在一起,并得到输出特征 S1。
优选的,将五个残差自适应选择模块生成的S1~S5特征输入到网络的解码过程中,并分别与上一层的上采样输出进行元素相加操作,得到U1~U5特征,最终通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。
与现有技术相比,本发明具有以下有益效果:
(1)本发明一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,不仅能够充分利用Depth信息提供的深度线索,而且设计的跨模态通道细化模块能够增强RGB和Depth两种模态下的特征融合,增强模型对各个通道特征的辨别能力。
(2)本发明一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,设计的跨模态引导模块能够进一步将Depth模态的特征信息应用于RGB特征提取上,而且设计的残差选择注意模块能够增强不同模态特征之间的空间相互关注点,与现有的RGB-D显著性检测方法相比具有良好的性能。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的总体网络框图。
图2为本发明的跨模态引导模块。
图3为本发明的残差自适应选择模块。
图4为本发明的PR曲线对比图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例一:
如图1-4所示,一种基于跨模态特征融合的RGB-D图像显著性目标检测方法:
步骤1、基于跨层连接方式的U-Net网络,将RGB和Depth分别输入到ResNet-50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征分别为R1、R2、R3、R4、R5;Depth图像提取出五个阶段的特征分别为D1、D2、D3、D4、D5;U-Net网络是在编解码器 U型架构上进行的,其中,编码器过程分为两条路径,分别为ResNet-50 处理RGB图像路径和ResNet-50处理RGB路径。
步骤2、将两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;考虑到不同来源的Depth线索和RGB线索具有很强的互补性,首先设计一个跨模态通道细化模块将RGB和Depth两种模态下顶层特征R5和D5进行融合,获取具有丰富语义信息的跨模态综合特征。在以往的跨模态融合过程中,仅仅以编解码器的方式将RGB和Depth两种模态的特征进行聚合,往往会导致遗漏细节或引入模糊的特征,导致网络无法优化。本方案所设计的跨模态通道细化模块使R5和D5学习到了各个通道的权重系数,从而增强模型对各个通道特征的辨别能力。然后设计了跨模态引导模块应用于Depth模态下的D1~D4和RD特征上,用于引导RGB 图像的特征提取过程。本发明设计了四个结构类似的跨模态引导模块,每个模块的输入来自两个特征,分别为来自D1~D4,RD和上一跨模态引导模块生成的特征。利用跨模态引导模块引导RGB图像的特征提取,能够进一步将Depth模态的特征信息应用于RGB特征提取上,并且更加利用了通道中显著物体区域的权重信息。
步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息,得到U1、 U2、U3、U4、U5;通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。考虑到不同模态特征之间的空间关注点不同,本方案设计了五个结构类似的残差自适应选择模块作用于RGB特征提取过程中的R1~R5和跨模态通道细化模块生成的 RD特征。该模块基于自注意力的有效性,通过计算每个位置的选择注意权重来选择相互注意的权重。每个残差自适应选择模块的输入来自两个特征,分别为来自R1~R5和上一残差自适应选择模块生成的特征S1~S4和RD。最终通过五个相同的交叉熵损失函数分别对U1~U5 进行监督学习,引导网络最终生成显著性结果图。损失函数表示为:
Figure BDA0003030035560000091
其中,H和W分别表示图像的高度和宽度,(x,y)表示图像像素(x,y)的基本真实标签,px,y表示在图像像素位置(x,y)中成为显著对象的相应概率。
具体的,如图1所示,本发明提供了一种基于全局信息引导残差注意力的显著性检测方法,该方法的操作如下:
a.该方法的RGB图像和Depth图像特征提取部分都采用 ResNet-50网络,各包括五个阶段R1~R5和D1~D5,两种模态下 ResNet-50各个阶段的空间分辨率大小相同,分别为176×176×64、 88×88×128、44×44×256、22×22×512、11×11×1024;
b.在图1中的跨模态通道细化模块中,由于RGB和Depth输入源具有相同数量的通道,并且在ResNet-50主干网络中也具有相同的处理,所以顶层特征R5和D5具有相同的尺度大小。在ResNet-50特征提取过程中,RGB的顶层特征R5和depth的顶层特征D5作为跨模态通道细化模块的输入特征。两个输入特征在经过简单的权重层编码操作之后,通过图像像素的乘法来增强特征中的公共像素,减小模糊的像素。为了学习输入特征残差,将经过编码的输出和乘法操作的输出进行图像像素相加。公式如下:
Figure BDA0003030035560000092
其中,
Figure BDA0003030035560000093
Figure BDA0003030035560000094
表示元素的求和操作和元素的乘法操作。每个编码器的 d{1,2}由一个3×3的卷积层,一个批量归一化和一个ReLU激活函数组成。
在经过像素相乘和像素相加操作之后,得到丰富特征fc,为了高度响应通道中强烈的目标特征,本发明使用全局特征对注意权重进行上下文理解。首先fc被一个全局平均池化压缩,接着是全连接和Relu 操作,最后用一个sigmoid归一化映射到[0,1]。为保留fc特征,使用残差连接将fc特征与归一化后的特征进行相乘操作得到特征Us。如下公式:
Figure BDA0003030035560000101
Figure BDA0003030035560000102
其中,W、H分别为特征图的长、宽,fc(i,j)为特征图fc中每个格点的值。ω为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作。
最终,经过元素串联操作将R5和D5经过简单卷积操作之后的特征与Us特征进行处理,并再次经过卷积操作之后得到与R5和D5通道数一样的输出特征RD。公式如下:
Figure BDA0003030035560000103
其中,
Figure BDA0003030035560000104
Figure BDA0003030035560000105
表示元素的求和操作和元素的乘法操作。每个编码器的 d{1,2}由一个3×3的卷积层,一个批量归一化和一个ReLU激活函数组成。
c.图2中,为了充分利用由跨模态通道细化模块得到的多语义信息的跨模态融合特征RD,本方案设计了四个结构相同的跨模态引导模块,逐步引导ResNet-50对RGB输入图像特征提取。在图1中最右端的跨模态引导模块中,Depth特征提取过程中的第四层特征D4和特征RD作为跨模态引导模块的输入,每次得到跨模态引导模块的输出特征用于引导RGB图像特征提取和作为输入反馈给下一个跨模态引导模块。
在跨模态引导模块中,采用双线性插值法对RD上采样操作,使得D4和RD具有相同的尺度大小。本方案采用乘法操作对两个输入特征进行相乘操作得到特征P,P作为跨模态引导模块的输入特征。先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数。整个跨模态引导模块分为五个分支,其中四个分支采用 4种不同的扩张率r(r=1,2,4,8)的扩张卷积层
Figure BDA0003030035560000111
来获取更多感受野的信息,得到4个输出特征
Figure BDA0003030035560000112
其中输出特征
Figure BDA0003030035560000113
和输入特征P具有相同大小的空间分辨率。公式如下:
Figure BDA0003030035560000114
Figure BDA0003030035560000115
其中,up为双线性插值上采样操作,
Figure BDA0003030035560000116
表示元素相乘操作,
Figure BDA0003030035560000117
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作。
为获取通道中显著物体区域的较大权重,另外一条分支采用通道注意力对特征P进行权重处理,得到输出特征Uc。将Uc
Figure BDA0003030035560000118
进行元素串联融合,最终在融合特征上进行1×1卷积操作得到输出特征 fp,将输出特征fp的通道数和输入特征P的通道数保持一致。公式所示:
Figure BDA0003030035560000119
Figure BDA00030300355600001110
其中,W、H分别为特征图的长、宽,fc(i,j)为特征图fc中每个格点的值。ω为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作。
Figure BDA0003030035560000121
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作,
Figure BDA0003030035560000122
表示元素串联操作。
d.为了考虑不同模态特征之间的空间关注点,本方案设计了五个结构类似的残差自适应选择模块。以图1中最右端的残差自适应选择模块具体来说,如图3所示RGB图像特征提取的顶层R5和由跨模态通道细化模块得到的特征RD作为残差自适应选择模块的输入特征。首先用卷积核大小为1×k和k×1并联的卷积层conv2和conv3来捕获高分辨率的空间关注点,这样能够减少运算参数并获得多尺度信息。过程如下公式:
X1=concat(conv3(conv2(RD)),conv2(conv3(RD)))
X2=concat(conv3(conv2(R5)),conv2(conv3(R5)))
另一方面,通过元素串联、sigmoid和1×1卷积处理RD和R5,并将其输出特征与X1和X2经过sigmoid的特征进行元素相乘处理。得到两组选择性的自适应特征之后,将他们分别与X1和X2经过sigmoid的特征进行元素相加。随后经过1×1得到特征Y1和Y2。操作过程如下公式:
Figure BDA0003030035560000123
Figure BDA0003030035560000124
最后通过残差连接将X1和X2的特征信息与Y1和Y2连接在一起,并得到输出特征S1。过程如下公式:
Figure BDA0003030035560000125
其中Trans表示conv1×1、批量归一化和Relu激活一系列操作。
e.通过五个相同的交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。
为了验证本方法的有效性,在两个公开的数据集(NJU2K、SSD) 上与多个最新的显著性目标检测方法进行了对比实验。实验采用深度学习框架Pytorch搭建网络,实验环境为Linux系统,使用NVIDIA Tesla T4 GPU16GB进行网络模型训练与测试。在两个公开数据集上与最新的方法进行了实验性能对比,如图4所示,本方法的PR曲线表现良好。本方法具有较强的显著性目标边缘分割、位置检测和细节分割能力。
实施例二
步骤1、基于跨层连接方式的U-Net网络,将RGB和Depth分别输入到ResNet-50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征分别为R1、R2、R3、R4、R5;Depth图像提取出五个阶段的特征分别为D1、D2、D3、D4、D5;
步骤2、将两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;
步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息,得到U1、 U2、U3、U4、U5;通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。
所述跨模态通道细化模块通过充分提取和融合R5和D5两种模态特征,获取具有丰富语义信息的跨模态综合特征RD,由于RGB和 Depth输入源具有相同数量的通道,并且在主干网络中也具有相同的处理,所以顶层特征R5和D5具有相同的尺度大小。
所述相同空间尺度大小的R5和D5作为跨模态通道细化模块的输入特征,两个输入特征在经过简单的权重层编码操作之后,通过图像像素的乘法操作增强特征中的公共像素,减小模糊的像素,为了学习输入特征残差,将经过编码的输出和乘法操作的输出进行图像像素相加,公式如下:
Figure BDA0003030035560000141
其中,
Figure BDA0003030035560000142
Figure BDA0003030035560000143
表示元素的求和操作和元素的乘法操作。每个编码器的d{1,2}由一个3×3的卷积层,一个批量归一化和一个ReLU激活函数组成。
在经过像素相乘和像素相加操作之后,得到丰富特征fc,为了高度响应通道中强烈的目标特征,使用全局特征对注意权重进行上下文理解,得到特征Us;最终,经过串联操作将R5和D5经过简单卷积操作之后的特征与Us特征进行处理,并再次经过卷积操作之后得到与R5和D5通道数一样的输出特征RD。
采用四个结构相似的跨模态引导模块,逐步引导ResNet-50主干网络对RGB输入图像的特征提取;以最高层的跨模态引导模块为例,特征D4和特征RD作为跨模态引导模块的输入,每次得到跨模态引导模块的输出特征用于引导RGB图像特征提取和作为输入反馈给下一个跨模态引导模块,采用双线性插值法对RD上采样操作,使得D4 和RD具有相同的尺度大小,采用乘法操作对两个输入特征进行相乘操作得到特征P,P作为跨模态融合模块的输入特征,先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数。整个跨模态融合模块分为五个分支,其中四个分支采用4种不同的扩张率r(r=1,2,4,8)的扩张卷积层
Figure BDA0003030035560000151
来获取更多感受野的信息,得到4个输出特征
Figure BDA0003030035560000152
其中输出特征
Figure BDA0003030035560000153
和输入特征P具有相同大小的空间分辨率,公式如下:
Figure BDA0003030035560000154
Figure BDA0003030035560000155
其中,up为双线性插值上采样操作,
Figure BDA0003030035560000156
表示元素相乘操作,
Figure BDA0003030035560000157
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作。
优选的,另外一条分支采用通道注意力对特征P进行权重处理,得到输出特征Uc,将Uc
Figure BDA0003030035560000158
进行元素串联融合,最终在融合特征上进行1×1卷积操作得到输出特征fp,将输出特征fp的通道数和输入特征P的通道数保持一致,公式所示:
Figure BDA0003030035560000159
Figure BDA00030300355600001510
其中,W、H分别为特征图的长、宽,fc(i,j)为特征图fc中每个格点的值,ω为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作。
Figure BDA00030300355600001511
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作,
Figure BDA00030300355600001512
表示元素串联操作。
残差自适应选择模块通过计算每个位置的选择注意权重来选择相互注意的权重,以最高层的残差自适应选择模块具体来说,RGB 图像特征提取的顶层R5和跨模态通道细化模块得到的特征RD作为残差自适应选择模块的输入特征,先分别采用卷积核大小为1×k和k×1并联的卷积层来捕获高分辨率的空间关注点得到X1和X2,然后我们通过元素串联、sigmoid和1×1卷积处理RD和R5,并将其输出特征与X1和X2经过sigmoid的特征元素相乘,得到两组选择性的自适应特征,并将这两组特征分别与X1和X2经过sigmoid的特征元素相加,随后经过1×1得到特征Y1和Y2,最后我们通过残差连接将 X1和X2的特征信息与Y1和Y2连接在一起,并得到输出特征S1。
优选的,将五个残差自适应选择模块生成的S1~S5特征输入到网络的解码过程中,并分别与上一层的上采样输出进行元素相加操作,得到U1~U5特征,最终通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。
通过上述技术方案得到的装置是一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,不仅能够充分利用Depth 信息提供的深度线索,而且设计的跨模态通道细化模块能够增强RGB和Depth两种模态下的特征融合,增强模型对各个通道特征的辨别能力。本发明设计的跨模态引导模块能够进一步将 Depth模态的特征信息应用于RGB特征提取上,而且设计的残差选择注意模块能够增强不同模态特征之间的空间相互关注点,与现有的RGB-D显著性检测方法相比具有良好的性能。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化;凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,包括:
步骤1、基于跨层连接方式的U-Net网络,将RGB和Depth分别输入到ResNet-50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征分别为R1、R2、R3、R4、R5;Depth图像提取出五个阶段的特征分别为D1、D2、D3、D4、D5;
步骤2、将RGB和Depth两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;
步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息,得到U1、U2、U3、U4、U5;通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。
2.根据权利要求1所述一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,所述跨模态通道细化模块通过充分提取和融合R5和D5两种模态特征,获取具有丰富语义信息的跨模态综合特征RD,由于RGB和Depth输入源具有相同数量的通道,并且在主干网络中也具有相同的处理,所以顶层特征R5和D5具有相同的尺度大小。
3.根据权利要求2所述一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,所述相同空间尺度大小的R5和D5作为跨模态通道细化模块的输入特征,两个输入特征在经过简单的权重层编码操作之后,通过图像像素的乘法操作增强特征中的公共像素,减小模糊的像素,为了学习输入特征残差,将经过编码的输出和乘法操作的输出进行图像像素相加,公式如下:
Figure FDA0003030035550000021
其中,
Figure FDA0003030035550000022
Figure FDA0003030035550000023
表示元素的求和操作和元素的乘法操作。每个编码器的d{1,2}由一个3×3的卷积层,一个批量归一化和一个ReLU激活函数组成。
4.根据权利要求3所述一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,在经过像素相乘和像素相加操作之后,得到丰富特征fc,为了高度响应通道中强烈的目标特征,使用全局特征对注意权重进行上下文理解,得到特征Us;最终,经过串联操作将R5和D5经过简单卷积操作之后的特征与Us特征进行处理,并再次经过卷积操作之后得到与R5和D5通道数一样的输出特征RD。
5.根据权利要求1所述一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,采用四个结构相似的跨模态引导模块,逐步引导ResNet-50对RGB输入图像的特征提取;以最高层的跨模态引导模块为例,特征D4和特征RD作为跨模态引导模块的输入,每次得到跨模态引导模块的输出特征用于引导RGB图像特征提取和作为输入反馈给下一个跨模态引导模块,采用双线性插值法对RD上采样操作,使得D4和RD具有相同的尺度大小,采用乘法操作对两个输入特征进行相乘操作得到特征P,P作为跨模态融合模块的输入特征,先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数。整个跨模态融合模块分为五个分支,其中四个分支采用4种不同的扩张率r(r=1,2,4,8)的扩张卷积层
Figure FDA0003030035550000031
来获取更多感受野的信息,得到4个输出特征
Figure FDA0003030035550000032
其中输出特征
Figure FDA0003030035550000033
和输入特征P具有相同大小的空间分辨率,公式如下:
Figure FDA0003030035550000034
Figure FDA0003030035550000035
其中,up为双线性插值上采样操作,
Figure FDA0003030035550000036
表示元素相乘操作,
Figure FDA0003030035550000037
表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作。
6.根据权利要求5所述一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,另外一条分支采用通道注意力对特征P进行权重处理,得到输出特征Uc,将Uc
Figure FDA0003030035550000038
进行元素串联融合,最终在融合特征上进行1×1卷积操作得到输出特征fp,将输出特征fp的通道数和输入特征P的通道数保持一致,公式所示:
Figure FDA0003030035550000039
Figure FDA00030300355500000310
其中,W、H分别为特征图的长、宽,fc(i,j)为特征图fc中每个格点的值,ω为全连接层的权重,δ为Relu激活函数,σ为sigmoid操作。Lri表示不同扩张率的3×3卷积操作,conv1表示1×1卷积操作,
Figure FDA00030300355500000311
表示元素串联操作。
7.根据权利要求1所述一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,残差自适应选择模块通过计算每个位置的选择注意权重来选择相互注意的权重,以最高层的残差自适应选择模块具体来说,RGB图像特征提取的顶层R5和跨模态通道细化模块得到的特征RD作为残差自适应选择模块的输入特征,先分别采用卷积核大小为1×k和k×1并联的卷积层来捕获高分辨率的空间关注点得到X1和X2,然后我们通过元素串联、sigmoid和1×1卷积处理RD和R5,并将其输出特征与X1和X2经过sigmoid的特征元素相乘,得到两组选择性的自适应特征,并将这两组特征分别与X1和X2经过sigmoid的特征元素相加,随后经过1×1得到特征Y1和Y2,最后我们通过残差连接将X1和X2的特征信息与Y1和Y2连接在一起,并得到输出特征S1。
8.根据权利要求1所述一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,其特征在于,将五个残差自适应选择模块生成的S1~S5特征输入到网络的解码过程中,并分别与上一层的上采样输出进行元素相加操作,得到U1~U5特征,最终通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。
CN202110427296.5A 2021-04-21 2021-04-21 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 Pending CN113076957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427296.5A CN113076957A (zh) 2021-04-21 2021-04-21 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427296.5A CN113076957A (zh) 2021-04-21 2021-04-21 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN113076957A true CN113076957A (zh) 2021-07-06

Family

ID=76618135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427296.5A Pending CN113076957A (zh) 2021-04-21 2021-04-21 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN113076957A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658134A (zh) * 2021-08-13 2021-11-16 安徽大学 一种多模态对齐校准的rgb-d图像显著目标检测方法
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法
CN114005096A (zh) * 2021-11-09 2022-02-01 河北工业大学 基于特征增强的车辆重识别方法
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法
CN114005096B (zh) * 2021-11-09 2024-05-10 河北工业大学 基于特征增强的车辆重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114773A1 (en) * 2017-10-13 2019-04-18 Beijing Curacloud Technology Co., Ltd. Systems and methods for cross-modality image segmentation
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114773A1 (en) * 2017-10-13 2019-04-18 Beijing Curacloud Technology Co., Ltd. Systems and methods for cross-modality image segmentation
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENGYUN ZHAO等: ""Depth Guided Cross-modal Residual Adaptive Network for RGB-D Salient Object Detection"", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113763422B (zh) * 2021-07-30 2023-10-03 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113658134A (zh) * 2021-08-13 2021-11-16 安徽大学 一种多模态对齐校准的rgb-d图像显著目标检测方法
CN114005096A (zh) * 2021-11-09 2022-02-01 河北工业大学 基于特征增强的车辆重识别方法
CN114005096B (zh) * 2021-11-09 2024-05-10 河北工业大学 基于特征增强的车辆重识别方法
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114170174B (zh) * 2021-12-02 2024-01-23 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法

Similar Documents

Publication Publication Date Title
Song et al. Monocular depth estimation using laplacian pyramid-based depth residuals
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN110929735B (zh) 一种基于多尺度特征注意机制的快速显著性检测方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN113076947A (zh) 一种交叉引导融合的rgb-t图像显著性检测系统
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN115984701A (zh) 一种基于编解码结构的多模态遥感图像语义分割方法
CN115293986A (zh) 一种多时相遥感图像云区重建方法
CN115588237A (zh) 一种基于单目rgb图像的三维手部姿态估计方法
CN116612283A (zh) 一种基于大卷积核骨干网络的图像语义分割方法
CN114926734A (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复系统及方法
CN113362307A (zh) 一种rgb-d图像显著性检测方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统
CN116778180A (zh) 一种基于多级特征和上下文信息融合的rgb-d显著性目标检测方法
CN116168418A (zh) 一种图像的多模态目标感知与重识别方法
CN115546512A (zh) 基于可学习的权重描述子的光场图像显著目标检测方法
CN113298154B (zh) 一种rgb-d图像显著目标检测方法
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN113962332A (zh) 基于自优化融合反馈的显著目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210706

RJ01 Rejection of invention patent application after publication