CN113112464B - 基于跨模态交流编码器的rgbd显著性物体检测方法及系统 - Google Patents

基于跨模态交流编码器的rgbd显著性物体检测方法及系统 Download PDF

Info

Publication number
CN113112464B
CN113112464B CN202110352349.1A CN202110352349A CN113112464B CN 113112464 B CN113112464 B CN 113112464B CN 202110352349 A CN202110352349 A CN 202110352349A CN 113112464 B CN113112464 B CN 113112464B
Authority
CN
China
Prior art keywords
cross
modal
network
feature
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110352349.1A
Other languages
English (en)
Other versions
CN113112464A (zh
Inventor
傅可人
张文博
蒋遥
赵启军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110352349.1A priority Critical patent/CN113112464B/zh
Publication of CN113112464A publication Critical patent/CN113112464A/zh
Application granted granted Critical
Publication of CN113112464B publication Critical patent/CN113112464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨模态交流编码器的RGBD显著性物体检测方法及系统,包括:步骤1,获取待检测图片的RGB图片与深度图;步骤2,将所述RGB图片与深度图输入至预先训练好的显著性物体检测模型中,得到RGBD显著性物体检测结果;其中,所述显著性物体检测模型包括:跨模态双向交流编码器以及分组融合解码器;所述跨模态双向交流编码器包括:平行的RGB子网络与深度图子网络,以及按层级插入在所述RGB子网络与所述深度图子网络之中的多个跨模态双向交流模块;本发明通过在编码器中设置跨模态双向交流模块,在特征提取阶段即可实现RGB特征、深度图特征的跨模态双向交流,使得两种模态能够互相优化和纠错,充分利用模态互补性,有效提高RGBD检测结果的准确性。

Description

基于跨模态交流编码器的RGBD显著性物体检测方法及系统
技术领域
本发明涉及图像处理与计算机视觉技术领域,特别涉及一种基于跨模态交流编码器的RGBD显著性物体检测方法及系统。
背景技术
显著性物体检测旨在模拟人类视觉系统,在图像中定位最吸引人注意力的物体。显著性检测可应用于多种视觉任务,如视频、图像的检索、压缩、编辑,目标分割,跟踪等。虽然RGB显著性物体检测方法因深度学习的兴起已取得较大进展,但单一模态输入的显著性物体检测仍然面临诸多挑战,例如相似的前景背景、复杂杂乱的背景、低对比度的图像等。RGBD——即输入为单张RGB彩色图像和对应的深度图的显著物体检测技术一定程度上能克服上述问题,因此最近受到研究者和业界的关注和研究。
目前,基于深度学习的RGBD显著性物体检测方法都采用双流结构,即分别采用两个编码器对RGB图和深度输入信号进行特征提取,在提取到特征后再进行融合交流或者在解码阶段对RGB信息与深度信息进行融合解码。然而,现实中输入的深度图往往质量不好且包含噪声,因此现有基于深度学习的RGBD显著性物体检测方法的编码器所提取的深度特征容易受到深度图的质量的影响,从而进一步影响最终检测结果的准确性。
例如,申请号为2019114162822的中国专利,公开了一种基于孪生网络的RGBD显著物体检测方法,其通过构建参数共享的孪生神经网络来提取RGB图和深度图的层次化特征,并采用具有融合功能的解码器,将层次化特征进行特征融合后再进行解码,在利用孪生网络提取到相应的特征后,在解码阶段进行融合解码,使得RGB信息和深度信息互相补充,但其存在未在编码阶段进行特征融合、使得编码器提取的深度特征容易受到低质量深度图的影响的缺陷。
发明内容
本发明的目的在于克服现有技术中所存在的编码阶段或不存在跨模态的交流,或只存在从深度模态到RGB模态的单方向特征融合的缺陷,提供一种基于跨模态交流编码器的RGBD显著性物体检测方法及系统,通过在编码阶段进行跨模态交流,在编码阶段所提取的深度特征不易受到深度图的质量的影响,能够有效提高检测准确度。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于跨模态交流编码器的RGBD显著性物体检测方法,包括:
步骤1,获取待检测图片的RGB图片与深度图;
步骤2,将所述RGB图片与深度图输入至预先训练好的显著性物体检测模型中,得到RGBD显著性物体检测结果;
其中,所述显著性物体检测模型包括:跨模态双向交流编码器以及分组融合解码器;所述跨模态双向交流编码器包括:平行的RGB子网络与深度图子网络,以及按层级插入在所述RGB子网络与所述深度图子网络之中的多个跨模态双向交流模块;
所述跨模态双向交流模块用于接收所述RGB子网络与所述深度图子网络第i层输出的特征向量,并对接收到的特征向量进行跨模态交流得到层次化特征;以及,输出所述层次化特征至所述RGB子网络与所述深度图子网络的第i+1层;并输出所述层次化特征至所述分组融合解码器,以使所述分组融合解码器根据接收到的层次化特征进行解码得到RGBD显著性物体检测结果;
其中,i=0、1...n;n为所述RGB子网络与深度图子网络的网络层级数。
通过在编码器的双流网络中按层级插入多个跨模态双向交流模块;利用跨模态双向交流模块对RGB子网络与深度图子网络每一层输出的特征向量进行融合处理,再以融合处理得到的层次化特征作为下一层网络的输入,以在编码阶段通过上层融合结果作为下层输入的方式实现RGB特征信息与深度特征信息的互相优化与纠错,再配合相应的分组融合解码对层次化特征进行解码;本发明充分利用模态间的互补性,能够提取出包含更少噪声的鲁棒特征,有效克服深度图质量不高对编码特征的质量的影响,能够得到准确度更高的检测结果。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,所述跨模态双向交流模块通过以下步骤对接收到的特征向量进行跨模态交流,包括:
步骤201,接收所述RGB子网络与所述深度图子网络第i层输出的特征向量,根据接收到的特征向量使用空间注意力机制产生一组注意力图;
步骤202,利用跨模态交流公式根据所述特征向量以及注意力图生成跨模态交流特征;
步骤203,通过通道注意力机制对所述跨模态交流特征进行通道维度的加权,得到所述层次化特征。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,所述步骤202中的跨模态交流公式为:
cfr i=bfr i×(SAd i+SAr i×SAd i)
cfd i=bfd i×(SAr i+SAr i×SAd i)
其中,bfr i为所述RGB子网络第i层输出的特征向量;bfd i为所述深度图子网络第i层输出的特征向量;SAr i为跨模态双向交流模块根据bfr i生成的注意力图;SAd i为跨模态双向交流模块根据bfd i生成的注意力图;cfr i、cfd i为跨模态交流特征。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,所述分组融合解码器通过以下步骤对多个所述跨模态双向交流模块输出的层次化特征进行解码、得到RGBD显著性物体检测结果,包括:
步骤301,对多个所述跨模态双向交流模块输出的多个层次化特征进行特征转换,统一多个所述层次化特征的通道维度;
步骤302,对多个所述层次化特征进行分组融合,得到第一融合特征以及第二融合特征;
步骤303,对所述第一融合特征以及第二融合特征进行跨模态融合,得到跨模态融合特征,根据所述跨模态融合特征生成显著性检测图。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,所述步骤302中,采用以下公式对多个所述层次化特征进行分组融合:
Figure GDA0003634759370000041
Figure GDA0003634759370000042
其中,Up表示上采样操作,用于将不同层次的特征空间分辨率进行对齐;fm l为第一融合特征,fm h为第二融合特征,其中fmt i,为统一维度后的多个层次化特征,m∈{r,d},r对应RGB子网络,d对应深度图子网络;i=0、1...n;n为所述RGB子网络与深度图子网络的网络层级数。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,所述步骤303中,采用以下公式对所述第一融合特征以及第二融合特征进行跨模态融合:
Figure GDA0003634759370000051
Figure GDA0003634759370000052
其中,BConv表示由卷积层,批量归一化层,线性整流函数依次组成的处理模块;[·,·]表示通道串联操作;fc h,fc l为跨模态融合特征。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,所述步骤303中,采用以下公式根据所述跨模态融合特征生成显著性检测图:
Figure GDA0003634759370000053
其中,Sc为显著性检测图,P表示预测头,Up表示上采样操作,用于将不同层次的特征空间分辨率进行对齐,[·,·]表示通道串联操作。
进一步的,我们对显著性物体检测模型中的解码器进行设计,设计一个轻量化(模型复杂程度较低)的具有跨模态融合机制的分组融合解码器,在解码阶段进一步实现深度信息与RGB信息的跨模态融合,进一步实现RGB特征信息与深度特征信息的互相优化与纠错,提高检测结果的准确性。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,采用二项交叉损失函数对所述显著性物体检测模型进行训练,以得到所述预先训练好的显著性物体检测模型。
优选的,上述基于跨模态交流编码器的RGBD显著性物体检测方法中,所述二项交叉损失函数为:
Figure GDA0003634759370000061
其中λm为各项损失函数系数,
Figure GDA0003634759370000062
为二项交叉熵损失,G表示GT(真值图),两个子网络各自预测的结果Sr、Sd的计算为:
Figure GDA0003634759370000063
其中P表示预测头,Up表示上采样操作,[·,·]表示通道串联操作。
在本发明进一步的实施例中,还提供一种基于跨模态交流编码器的RGBD显著性物体检测系统,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于跨模态交流编码器的RGBD显著性物体检测方法。
与现有技术相比,本发明的有益效果:
1、本发明通过对基于“编码器-解码器”结构的显著性物体检测模型中的编码器进行设计,在编码器平行的RGB子网络与深度图子网络中按层级插入多个跨模态双向交流模块;利用跨模态双向交流模块对RGB子网络与深度图子网络每一层输出的特征向量进行融合处理,再以融合处理得到的层次化特征作为下一层网络的输入,以在编码阶段通过上层融合结果作为下层输入的方式实现RGB特征信息与深度特征信息的互相优化与纠错,再配合相应的分组融合解码对层次化特征进行解码;本发明充分利用模态间的互补性,能够提取出包含更少噪声的鲁棒特征,有效克服深度图质量不高对编码特征的质量的影响,能够得到准确度更高的检测结果。
2、通过对显著性物体检测模型中的解码器进行设计,设计一个轻量化的具有跨模态融合机制的分组融合解码器,在解码阶段进一步实现深度信息与RGB信息的跨模态融合,进一步实现RGB特征信息与深度特征信息的互相优化与纠错,提高检测结果的准确性。
附图说明:
图1为本发明一种基于跨模态双向交流编码器的RGBD显著性检测方法的流程图;
图2为本发明一种基于跨模态双向交流编码器的RGBD显著性检测方法的网络结构示意图;
图3为本发明的跨模态双向交流模块网络结构详图;
图4为本发明实施例中本发明提出方法和14中现有方法的结果对比图;
图5为本发明一种基于跨模态双向交流编码器的RGBD显著性检测系统的结构框图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
图1示出了根据本发明示例性实施例的一种基于跨模态双向交流特征提取神经网络的RGBD显著性物体检测方法步骤。在本实施例中,在预先训练好的RGBD显著性物体检测模型中输入RGB图像和深度图,通过网络的前向传播,从解码器获取最终的RGBD显著性检测结果。其中,RGBD显著性物体检测模型基于“编码器-解码器”结构,编码器的RGB图和深度图子网络基于常见的ResNet-50网络结构。该实施例的方法主要包括以下步骤:
S1,获取待检测图片的RGB图和深度图,并将深度图以通道复制的方式转换为三通道,同时将RGB图和深度图都缩放至352×352大小。
S2,将RGB图和深度图输入到设计的跨模态双向交流编码器中,得到层次化的特征,如图2所示。
所述的跨模态双向交流编码器包括三个部分:RGB子网络,深度图子网络,跨模态双向交流模块BTS。RGB子网络、深度图子网络由两个平行的ResNet-50构成(最后一个卷积层的stride设置为1并将dilation设置为2,全连接层替换为ASPP模块)。本实施例中ResNet-50除ASPP模块共有0~n(n=4)个层级,为:Conv-head,Residual-i(i=1,...,4),ASPP依次可标记为第i(i=0,...,5)层级。5个双向交流模块BTSi(i=0,...,4)按层级插入到两个子网络对应的0-4层实现跨模态的双向交流。
具体来说,RGB、深度图子网络第0-4层的输出为bfm i(m∈{r,d},i=0,...,4),bfm i被输入到对应的双向交流模块BTSi中,第i层的BTSi根据bfm i进行跨模态的双向交流后将输出第i层级的层次化特征至解码器,同时以第i层级的层次化特征作为RGB、深度图子网络第i+1层的输入。通过5个跨模态双向交流模块BTS,可以得到一组多模态层次化特征fm i(m∈{r,d},i=0,...,4)。然后将fr 4和fd 4分别输入到2个ASPP中得到fr 5和fd 5。如图2所示,最终可得到层次化特征fm i(m∈{r,d},i=0,...,5)。
双向交流模块主要由交叉的空间注意力和通道注意力实现。如图3所示,双向交流模块的具体操作为:将RGB、深度图子网络第i层的输出bfr i和bfd i作为输入,分别使用空间注意力机制产生注意力图SAr i和SAd i,然后按(1)式计算跨模态交流的特征cfr i和cfd i
cfr i=bfr i×(SAd i+SAr i×SAd i)
cfd i=bfd i×(SAr i+SAr i×SAd i) (1)
本实施例中,空间注意力机制实施方式为SAr i=Sigmoid(Conv(bfr i)),SAd i=Sigmoid(Conv(bfd i)),其中Sigmoid表示Sigmoid激活函数,Conv表示卷积核大小为3、输出通道数为1的卷积层。最后采用文献《Squeeze-and-ExcitationNetworks》提出的通道注意力机制对特征cfr i和cfd i进行通道维度的加权输出fr i和fd i。将S1所述的RGB图和深度图输入到编码器中得到RGB和深度图的一组层次化特征fm i(m∈{r,d},i=0,...5),其特征分辨率分别为:176×176×64,88×88×256,44×44×512,22×22×1024,11×11×2048,11×11×256,如图2所示。
S3,将S2得到的跨模态的多个层次化特征fm i输入到设计的分组融合解码器中,得到预测结果,如图2所示。具体步骤如下:
S31,首先进行特征转换,利用卷积算子将各层次化特征fm i的通道维数转换到一个统一值k,本实施例中取为256,得到特征fmt i,用于统一层次化特征的维度和节省后续计算存储开销。
S32,再进行分组融合,将S31所述压缩后的特征fmt i分模态和层级按(2)式进行分组融合:
Figure GDA0003634759370000091
Figure GDA0003634759370000092
其中Up表示上采样操作,用于将不同层次的特征空间分辨率进行对齐。fm l,fm h分别为得到的低层特征和高层特征,其中m∈{r,d}。
S33,将S32所述的分组融合特征fm l,fm h按(3)式进行跨模态融合:
Figure GDA0003634759370000101
Figure GDA0003634759370000102
其中,P表示预测头,Up表示上采样操作,用于将不同层次的特征空间分辨率进行对齐,[·,·]表示通道串联操作。
S34,将S33所述的跨模态融合后的特征fc h,fc l按(4)式输入到预测头中生成最后的显著性检测图Sc
Figure GDA0003634759370000103
S4,使用网络前,先对RGBD显著性物体检测模型进行训练,计算得到的结果与真值结果的二项交叉损失函数并进行误差反向传播,进行梯度下降优化。即按(5)式对神经网络进行训练。其中,主要的监督为S34所述的显著性图Sc和GT(真值图)的二项交叉熵损失。辅助监督为子网络各自预测的结果Sr、Sd分别和GT(真值图)的二项交叉熵损失。总的训练损失函数
Figure GDA0003634759370000104
表示为:
Figure GDA0003634759370000105
其中,λm为各项损失函数系数,
Figure GDA0003634759370000106
为二项交叉熵损失,G表示GT(真值图),两个子网络各自预测的结果Sr、Sd的计算为:
Figure GDA0003634759370000107
本实施例设置λc=1,λr=λd=0.5,采用梯度下降法进行参数优化,产生最终的模型。其中P表示预测头,Up表示上采样操作,[·,·]表示通道串联操作。
在本发明进一步的实施例中,我们与现有的14种现有RGBD显著性物体检测方法进行对比试验,如图4所示,本发明所提供的RGBD显著性检测模型比14种现有方法得到的检测结果更加准确。
实施例2
图5示出了根据本发明示例性实施例的基于跨模态交流编码器的RGBD显著性物体检测系统,即电子设备310(例如具备程序执行功能的计算机服务器),其包括至少一个处理器311,电源314,以及与所述至少一个处理器311通信连接的存储器312和输入输出接口313;所述存储器312存储有可被所述至少一个处理器311执行的指令,所述指令被所述至少一个处理器311执行,以使所述至少一个处理器311能够执行前述任一实施例所公开的方法;所述输入输出接口313可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源314用于为电子设备310提供电能。
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明具体实施方式的详细说明,而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下,做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于跨模态交流编码器的RGBD显著性物体检测方法,其特征在于,包括:
步骤1,获取待检测图片的RGB图片与深度图;
步骤2,将所述RGB图片与深度图输入至预先训练好的显著性物体检测模型中,得到RGBD显著性物体检测结果;
其中,所述显著性物体检测模型包括:跨模态双向交流编码器以及分组融合解码器;所述跨模态双向交流编码器包括:平行的RGB子网络与深度图子网络,以及按层级插入在所述RGB子网络与所述深度图子网络之中的多个跨模态双向交流模块;
所述跨模态双向交流模块用于接收所述RGB子网络与所述深度图子网络第i层输出的特征向量,并对接收到的特征向量进行跨模态交流得到层次化特征;以及,输出所述层次化特征至所述RGB子网络与所述深度图子网络的第i+1层;并输出所述层次化特征至所述分组融合解码器,以使所述分组融合解码器根据接收到的层次化特征进行解码得到RGBD显著性物体检测结果;
其中,i=0、1...n;n为所述RGB子网络与深度图子网络的网络层级数。
2.如权利要求1所述的方法,其特征在于,所述跨模态双向交流模块通过以下步骤对接收到的特征向量进行跨模态交流,包括:
步骤201,接收所述RGB子网络与所述深度图子网络第i层输出的特征向量,根据接收到的特征向量使用空间注意力机制产生一组注意力图;
步骤202,利用跨模态交流公式根据所述特征向量以及注意力图生成跨模态交流特征;
步骤203,通过通道注意力机制对所述跨模态交流特征进行通道维度的加权,得到所述层次化特征。
3.如权利要求2所述的方法,其特征在于,所述步骤202中的跨模态交流公式为:
cfr i=bfr i×(SAd i+SAr i×SAd i)
cfd i=bfd i×(SAr i+SAr i×SAd i)
其中,bfr i为所述RGB子网络第i层输出的特征向量;bfd i为所述深度图子网络第i层输出的特征向量;SAr i为跨模态双向交流模块根据bfr i生成的注意力图;SAd i为跨模态双向交流模块根据bfd i生成的注意力图;cfr i、cfd i为跨模态交流特征。
4.如权利要求1-3任一所述的方法,其特征在于,所述分组融合解码器通过以下步骤对多个所述跨模态双向交流模块输出的层次化特征进行解码、得到RGBD显著性物体检测结果,包括:
步骤301,对多个所述跨模态双向交流模块输出的多个层次化特征进行特征转换,统一多个所述层次化特征的通道维度;
步骤302,对多个所述层次化特征进行分组融合,得到第一融合特征以及第二融合特征;
步骤303,对所述第一融合特征以及第二融合特征进行跨模态融合,得到跨模态融合特征,根据所述跨模态融合特征生成显著性检测图。
5.如权利要求4所述的方法,其特征在于,所述步骤302中,采用以下公式对多个所述层次化特征进行分组融合:
Figure FDA0003634759360000031
Figure FDA0003634759360000032
其中,Up表示上采样操作,用于将不同层次的特征空间分辨率进行对齐;fm l为第一融合特征,fm h为第二融合特征,其中fmt i,为统一维度后的多个层次化特征,m∈{r,d},r对应RGB子网络,d对应深度图子网络;i=0、1...n;n为所述RGB子网络与深度图子网络的网络层级数,n=5。
6.如权利要求5所述的方法,其特征在于,所述步骤303中,采用以下公式对所述第一融合特征以及第二融合特征进行跨模态融合:
Figure FDA0003634759360000033
Figure FDA0003634759360000034
其中,BConv表示由卷积层,批量归一化层,线性整流函数依次组成的处理模块;[·,·]表示通道串联操作;fc h,fc l为跨模态融合特征。
7.如权利要求6所述的方法,其特征在于,所述步骤303中,采用以下公式根据所述跨模态融合特征生成显著性检测图:
Figure FDA0003634759360000035
其中,Sc为显著性检测图,P表示预测头,Up表示上采样操作,用于将不同层次的特征空间分辨率进行对齐,[·,·]表示通道串联操作。
8.如权利要求7所述的方法,其特征在于,采用二项交叉损失函数对所述显著性物体检测模型进行训练,以得到所述预先训练好的显著性物体检测模型。
9.如权利要求8所述的方法,其特征在于,所述二项交叉损失函数为:
Figure FDA0003634759360000041
其中λm为各项损失函数系数,
Figure FDA0003634759360000042
为二项交叉熵损失,G表示GT(真值图),两个子网络各自预测的结果Sr、Sd的计算为:
Figure FDA0003634759360000043
其中P表示预测头,Up表示上采样操作,[·,·]表示通道串联操作。
10.一种基于跨模态交流编码器的RGBD显著性物体检测系统,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。
CN202110352349.1A 2021-03-31 2021-03-31 基于跨模态交流编码器的rgbd显著性物体检测方法及系统 Active CN113112464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110352349.1A CN113112464B (zh) 2021-03-31 2021-03-31 基于跨模态交流编码器的rgbd显著性物体检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110352349.1A CN113112464B (zh) 2021-03-31 2021-03-31 基于跨模态交流编码器的rgbd显著性物体检测方法及系统

Publications (2)

Publication Number Publication Date
CN113112464A CN113112464A (zh) 2021-07-13
CN113112464B true CN113112464B (zh) 2022-06-21

Family

ID=76713466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110352349.1A Active CN113112464B (zh) 2021-03-31 2021-03-31 基于跨模态交流编码器的rgbd显著性物体检测方法及系统

Country Status (1)

Country Link
CN (1) CN113112464B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170174B (zh) * 2021-12-02 2024-01-23 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242173A (zh) * 2019-12-31 2020-06-05 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111445432A (zh) * 2019-10-14 2020-07-24 浙江科技学院 一种基于信息融合卷积神经网络的图像显著性检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN111723822A (zh) * 2020-06-20 2020-09-29 福州大学 一种基于多层次融合的rgbd图像显著性检测方法及系统
CN111832592A (zh) * 2019-04-20 2020-10-27 南开大学 Rgbd显著性检测方法以及相关装置
EP3751514A1 (en) * 2019-06-13 2020-12-16 Tata Consultancy Services Limited Method and system for impurity detection using multi-modal imaging

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832592A (zh) * 2019-04-20 2020-10-27 南开大学 Rgbd显著性检测方法以及相关装置
EP3751514A1 (en) * 2019-06-13 2020-12-16 Tata Consultancy Services Limited Method and system for impurity detection using multi-modal imaging
CN111445432A (zh) * 2019-10-14 2020-07-24 浙江科技学院 一种基于信息融合卷积神经网络的图像显著性检测方法
CN111242173A (zh) * 2019-12-31 2020-06-05 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN111723822A (zh) * 2020-06-20 2020-09-29 福州大学 一种基于多层次融合的rgbd图像显著性检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CNNs-Based RGB-D Saliency Detection via Cross-View Transfer and Multiview Fusion.;Han Junwei等;《IEEE Transactions on Cybernetics》;20171231;第48卷(第11期);3171-3183 *
RGBD Salient Object Detection via Deep Fusion.;Qu Liangqiong等;《IEEE Transactions on Image Processing》;20171231;第26卷(第5期);2274-2285 *
基于区域特征聚类的RGBD显著性物体检测;王帅 等;《小型微型计算机系统》;20190415(第(2019)04期);704-709 *
多模态融合的RGB-D图像显著目标检测研究;段群涛;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715(第(2020)07期);I138-1167 *

Also Published As

Publication number Publication date
CN113112464A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN112164067A (zh) 一种基于多模态子空间聚类的医学图像分割方法及装置
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN111369565A (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
CN114445420B (zh) 编解码结构结合注意力机制的图像分割模型及其训练方法
CN112598053A (zh) 基于半监督学习的主动显著性目标检测方法
CN112906675B (zh) 一种固定场景中的无监督人体关键点检测方法及系统
CN113468531A (zh) 基于深度残差网络和混合注意力机制的恶意代码分类方法
CN114092774B (zh) 基于信息流融合的rgb-t图像显著性检测系统及检测方法
CN114332573A (zh) 基于注意力机制的多模态信息融合识别方法及系统
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN114663371A (zh) 基于模态独有和共有特征提取的图像显著目标检测方法
Zhou et al. Attention transfer network for nature image matting
CN113112464B (zh) 基于跨模态交流编码器的rgbd显著性物体检测方法及系统
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN117373100B (zh) 基于差分量化局部二值模式的人脸识别方法及系统
CN112927236B (zh) 一种基于通道注意力和自监督约束的服装解析方法及系统
CN115661482B (zh) 一种基于联合注意力的rgb-t显著目标检测方法
CN110390336B (zh) 一种提高特征点匹配精度的方法
CN116823983A (zh) 基于风格收集机制的一对多风格书法图片生成方法
CN114693953B (zh) 一种基于跨模态双向互补网络的rgb-d显著性目标检测方法
CN116630660A (zh) 一种多尺度增强学习的跨模态图像匹配方法
CN115731453A (zh) 汉字点选式验证码识别方法及系统
CN115984877A (zh) 手写识别方法、装置、电子设备和存储介质
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant