CN114693952A - 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 - Google Patents

一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 Download PDF

Info

Publication number
CN114693952A
CN114693952A CN202210308520.3A CN202210308520A CN114693952A CN 114693952 A CN114693952 A CN 114693952A CN 202210308520 A CN202210308520 A CN 202210308520A CN 114693952 A CN114693952 A CN 114693952A
Authority
CN
China
Prior art keywords
rgb
features
depth
fusion
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210308520.3A
Other languages
English (en)
Inventor
夏晨星
段松松
黄荣梅
孙延光
段秀真
王晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202210308520.3A priority Critical patent/CN114693952A/zh
Publication of CN114693952A publication Critical patent/CN114693952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多模态差异性融合网络的RGB‑D显著性目标检测方法,属于图像显著性检测技术,所述方法利用Swin Transformer提取包含全局上下文信息的RGB和Depth特征,用于给出场景的显著性目标推理。本发明主要通过探索RGB和Depth模态之间的差异性分析显著性在这两个模态的联系和区别,并设计一个差异性融合网络融合跨模态特征用于捕获完整的显著目标。本发明包括以下几个步骤:(1)采用Swin Transformer提取跨模态特征;(2)使用双向融合方式融合RGB和Depth特征生成Fusion流;(3)使用三流差异性监督机制获取模态之间差异性;(4)利用该差异性融合跨模态特征;(5)使用目级联聚合解码器对融合的跨模态特征进行显著性的推理和解码,生成预测的显著性图。

Description

一种基于多模态差异性融合网络的RGB-D显著性目标检测 方法
技术领域:
本发明涉及计算机视觉和图像处理领域,特别地涉及一种基于多模态差异性融合网络的RGB-D显著性目标检测方法。
背景技术:
随着信息技术的发展和进步,以及日常生活中的多媒体数据量(图片、文本、音频、视频等)的爆炸式增长,促进了图像处理技术的蓬勃发展。显著性目标检测技术作为图像处理领域的一个非常重要的技术,主要分析图像中的最引人注意的目标或者区域,并自动将显著目标从背景中分离。作为最基础的密度预测任务之一,其被广泛应用在许多其他的下有任务,例如图像检索、语义分割、视觉跟踪、基于内容的图像编辑和机器人导航等。此外,显著性目标检测也被广泛应用在许多社交媒体的分析和采集过程中,例如手机拍照技术中的强调人像,背景虚化等技术应用。
早期的显著性目标检测方法大多是针对RGB图像,并且能够取得令人满意的结果。通常,现实的RGB场景更多是包含一些具有挑战性的场景,比如低对比度,多目标,透明物体,复杂背景等,面对这些挑战性场景,基于RGB显著性目标检测很难准确有效地检测出显著目标并完整地分割出来。面对这一问题,深度图像(Depth map)被使用到显著性检测领域。通过利用Depth map中的空间信息和3D布局等信息去提供补充线索,从而帮助显著性目标检测方法有效地处理这些挑战性场景,这种技术被称为RGB-D显著性目标检测。
随着深度采集设备(比如Microsoft Kinect,Huawei Mate 30,iPhone XR等)的普及,深度信息能够使用较低的代价获取。这种现象也加速了RGB-D显著性检测的蓬勃发展。目前,大多数的RGB-D显著性目标检测方法通过整合RGB特征和Depth特征获取增益信息去提升显著性检测的性能。但是,这些方法大多是利用无差别地融合方式去整合RGB特征和Depth特征,这种做法将RGB信息和Depth信息视为同等地位。但是,人类视觉机制是作用于RGB场景中,那么很显然是RGB所起到的作用和Depth map是有差别的。
针对上述所提出的问题,本发明设计一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,利用RGB模态和Depth模态之间的差异性分析给出场景的显著性目标。利用这种模态之间的差异性分别优化RGB流和Depth流的显著性推理过程,最后,通过融合RGB和Depth模态之间的差异性,得出最终的显著性结果。具体地,本发明设计一个三流的差异性监督机制,通过RGB流,Depth流和融合流分别进行显著性和边缘的推理,并通过整合这些推理结果实施跨模态的差异性融合。
发明内容:
针对以上提出的问题,本发明提供一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,具体采用的技术方案如下:
1.获取并整理用于训练和测试的RGB-D数据集。
1.1)对获取到的RGB-D数据集(DUT-RGB数据集,NJU2K数据集,NLPR数据集,LFSD数据集,RGBD135数据集)进行归纳整理,并将单个样本分为RGB图像PRGB,深度图像Pdepth,人工标注的显著目标分割图像SGT和人工标注的显著目标边缘分割图像EGT
1.2)将收集到的RGB-D数据集划分为训练集和测试集。其中训练集是由DUT数据集中的800样本,NJU2K数据集中的1400样本和NLPR数据集中的650样本构成的2985个样本集。上述五个数据集的剩余样本作为测试集。
2.本发明利用深度学习中的SwinTransformer网络作为本发明的主干网络用于提取RGB和Depth特征。
2.1分别构建两个基于SwinTransformer的编码器提取RGB特征和Depth特征,其中,Swin Transformer编码器由四个基本的Swin Transformerblock组成,其定义如下所示:
S=MLP(LN(Wm(LN(Ff))+Ff))+Wm(LN(Ff))+Ff 公式(1)
ST=MLP(LN(Ws(LN(S))+S))+Ws(LN(S))+S 公式(2)
其中,MLP表示多层感知机,LN表示层次化归一,Wm代表多头自注意力机制,Ws表示基于转换窗口自注意力机制。
2.2基于步骤2.1,可以得到RGB和Depth编码器的输出,分别记作,RGB特征
Figure BDA0003562771750000031
和Depth特征
Figure BDA0003562771750000032
3.基于步骤2所生成的RGB和Depth特征,本发明设计一个跨模态双向融合模块(Bi-directional FusionModule,BFM)用于初步融合跨模态的特征,为下一阶段的三流差异性监督机制做好准备。
3.1首先,使用一个3×3卷积操作用于增强感受野信息,然后利用交叉相乘方式得到两个跨模态的特征,分别用于增强RGB和Depth特征,定义如下:
Figure BDA0003562771750000041
其中,α∈{r,d},i∈{1,2,3,4}表示特征在编码器中所处的层次,Sigmoid表示sigmoid激活函数。由此,经过增强后的RGB特征
Figure BDA0003562771750000042
和Depth特征
Figure BDA0003562771750000043
能够被生成。
3.2将步骤3.1所生成的增强RGB特征
Figure BDA0003562771750000044
和Depth特征
Figure BDA0003562771750000045
通过连接操作进行融合,该操作如下所述:
Figure BDA0003562771750000046
其中,cat表示连接操作,BCov表示卷积操作和批量归一化(Batch Normal。
4.本发明所提出的三流差异性监督机制用于实现多模态之间的差异性融合。具体可以表示为,三个分支,分别表示为RGB分支,Depth分支,以及Fusion分支。
4.1基于步骤2中的SwinTransformer所生成的RGB特征
Figure BDA0003562771750000049
构建三流差异性监督机制中的RGB分支,并采用本发明提出的级联聚合解码器预测显著性图。在RGB特征输入到CAD之前,本发明利用ASPP技术强化RGB特征的感受野,增强RGB特征的全局信息。并使用显著目标分割图SGT进行监督学习。RGB分支的操作描述如下所示:
Figure BDA0003562771750000047
其中,CAD表示级联聚合解码器,A表示ASPP技术,
Figure BDA0003562771750000048
表示RGB分支预测出的显著性图。
4.2基于步骤2中的Swin Transformer所生成的Depth特征
Figure BDA0003562771750000051
构建三流差异性监督机制中的Depth分支,并采用本发明提出的级联聚合解码器预测显著性图。在Depth特征输入到级联聚合解码器之前,本发明利用ASPP技术强化Depth特征的感受野,增强Depth特征的全局信息。并使用显著目标分割图SGT进行监督学习。Depth分支的操作描述如下所示:
Figure BDA0003562771750000052
其中,CAD表示级联聚合解码器,A表示ASPP技术,
Figure BDA0003562771750000053
表示RGB分支预测出的显著性图。
4.3基于步骤3所生成的跨模态融合特征
Figure BDA0003562771750000054
使用获取到的四个融合特征,构建Fusion分支,并使用显著目标边缘分割图像进行监督学习。利用级联聚合解码器整合四个尺度特征,预测显著目标边缘图。Fusion分支定义如下:
Figure BDA0003562771750000055
5.基于步骤4所述的三流差异性监督机制所成的RGB显著性预测图
Figure BDA0003562771750000056
和Depth显著性预测图
Figure BDA0003562771750000057
和预测的显著目标分割图
Figure BDA0003562771750000058
本发明设计一个差异性监督模块,利用
Figure BDA0003562771750000059
Figure BDA00035627717500000510
融合RGB特征和Depth特征。
5.1利用交互式方法分别约束RGB特征和Depth特征,具体而言,使用
Figure BDA00035627717500000511
约束Depth特征,使用
Figure BDA00035627717500000512
约束RGB特征,然后利用
Figure BDA00035627717500000513
Figure BDA00035627717500000514
约束融合特征。
其过程如下:
Figure BDA0003562771750000061
5.2基于步骤5.1所获得三流增强特征(RGB增强特征,Depth增强特征,以及Fusion增强特征),利用通道注意力机制提升通道维度的关联程度,最后,利用连接操作得到最后的差异性融合特征,定义如下:
Figure BDA0003562771750000062
Figure BDA0003562771750000063
其中,CA表示通道注意力机制,Fi表示差异性融合特征。
6.基于步骤4和步骤5,本发明设计一个级联聚合解码器结构用于显著性推理。并将该级联聚合解码器结构嵌入三流差异性监督机制和最后的显著性结果预测。
6.1级联聚合解码器采用自顶向下方式逐级聚合多尺度特征,并通过空间注意机制生成注意力掩码图用于增强下一级特征,其定义如下:
F3=UP(F4)+F3×SA(F4) 公式(11)
其中,UP表示上采样操作,SA表示空间注意力机制。
6.2重复上述步骤6.1操作,可以得到最到级联聚合解码器的第二层特征,第一层特征,最后,利用sigmoid激活函数用于级联聚合解码器的对底层特征,得到最终的预测Spre
7)通过本发明预测出来的显著图Spre与人工标注的显著目标分割图SGT进行损失函数的计算,并通过Adam优化器和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性目标检测算法的结构和参数权重。
8)在步骤2-6确定模型的结构和参数权重的基础上,对步骤1所涉及到的测试集上的RGB-D图像对进行测试,生成显著图,并使用MAE、S-measure、F-measure、E-measure评价指标进行评估。
本发明基于Swin Transformer网络实施的RGB和Depth多模态显著性目标检测。主要从多模态数据之间的差异性角度出发,提出一种新颖的基于多模态差异性融合网络的RGB-D显著性目标检测方法。该方法通过分别从RGB分支,Depth分支和Fusion分支预测不同模态对于显著性的理解和推理,并通过提出的多模态差异性融合模块整合多模态的差异性。相比较之前的RGB-D显著性目标检测方法,本发明具有以下收益:
(1)本发明采用SwinTransformer作为编码器提取RGB和Depth特征,基于SwinTransformer的多模态特征能够提取到全局上下文依赖关系。(2)本发明设计一个三流差异性监督机制,分别用于感知RGB模态和Depth模态对于显著性表达方面的存在的差异。(3)本发明设计一个多模态差异性融合模块,用于融合RGB和Depth模态之间的差异性,达到相互增强的效果。
附图说明
图1表示本发明的总体结构示意图
图2表示本发明提出的双向融合模块示意图
图3表示本发明提出的多模态差异性融合模块
图4表示本发明提出的级联聚合解码器
图5表示本发明与其他RGB-D显著性目标检测方法的结果对比图
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实例仅仅是本发明一部分实例,而不是所有的实例。基于本发明中的实例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实例,都属于本发明保护范围。
参考附图1,一种基于多模态差异性融合网络的RGB-D显著性目标检测方法主要包含以下步骤:
1.获取并整理用于训练和测试的RGB-D数据集。
1.1)对获取到的RGB-D数据集(DUT-RGB数据集,NJU2K数据集,NLPR数据集,LFSD数据集,RGBD135数据集)进行归纳整理,并将单个样本分为RGB图像PRGB,深度图像Pdepth,人工标注的显著目标分割图像SGT和人工标注的显著目标边缘分割图像EGT
1.2)将收集到的RGB-D数据集划分为训练集和测试集。其中训练集是由DUT数据集中的800样本,NJU2K数据集中的1400样本和NLPR数据集中的650样本构成的2985个样本集。上述五个数据集的剩余样本作为测试集。
2.本发明利用深度学习中的SwinTransformer网络作为本发明的主干网络用于提取RGB和Depth特征。
2.1分别构建两个基于SwinTransformer的编码器提取RGB特征和Depth特征,其中,Swin Transformer编码器由四个基本的Swin Transformerblock组成,其定义如下所示:
S=MLP(LN(Wm(LN(Ff))+Ff))+Wm(LN(Ff))+Ff 公式(1)
ST=MLP(LN(Ws(LN(S))+S))+Ws(LN(S))+S 公式(2)
其中,MLP表示多层感知机,LN表示层次化归一,Wm代表多头自注意力机制,Ws表示基于转换窗口自注意力机制。
2.2基于步骤2.1,可以得到RGB和Depth编码器的输出,分别记作,RGB特征
Figure BDA0003562771750000091
和Depth特征
Figure BDA0003562771750000092
3.基于步骤2所生成的RGB和Depth特征,本发明设计一个跨模态双向融合模块(Bi-directional Fusion Module,BFM)用于初步融合跨模态的特征,为下一阶段的三流差异性监督机制做好准备。
3.1首先,使用一个3×3卷积操作用于增强感受野信息,然后利用交叉相乘方式得到两个跨模态的特征,分别用于增强RGB和Depth特征,定义如下:
Figure BDA0003562771750000093
其中,α∈{r,d},i∈{1,2,3,4}表示特征在编码器中所处的层次,Sigmoid表示sigmoid激活函数。由此,经过增强后的RGB特征
Figure BDA0003562771750000094
和Depth特征
Figure BDA0003562771750000095
能够被生成。
3.2将步骤3.1所生成的增强RGB特征
Figure BDA0003562771750000096
和Depth特征
Figure BDA0003562771750000097
通过连接操作进行融合,该操作如下所述:
Figure BDA0003562771750000098
其中,cat表示连接操作,BCov表示卷积操作和批量归一化(Batch Normal。
4.本发明所提出的三流差异性监督机制用于实现多模态之间的差异性融合。具体可以表示为,三个分支,分别表示为RGB分支,Depth分支,以及Fusion分支。
4.1基于步骤2中的Swin Transformer所生成的RGB特征
Figure BDA0003562771750000106
构建三流差异性监督机制中的RGB分支,并采用本发明提出的级联聚合解码器预测显著性图。在RGB特征输入到CAD之前,本发明利用ASPP技术强化RGB特征的感受野,增强RGB特征的全局信息。并使用显著目标分割图SGT进行监督学习。RGB分支的操作描述如下所示:
Figure BDA0003562771750000101
其中,CAD表示级联聚合解码器,A表示ASPP技术,
Figure BDA0003562771750000102
表示RGB分支预测出的显著性图。
4.2基于步骤2中的Swin Transformer所生成的Depth特征
Figure BDA0003562771750000103
构建三流差异性监督机制中的Depth分支,并采用本发明提出的级联聚合解码器预测显著性图。在Depth特征输入到级联聚合解码器之前,本发明利用ASPP技术强化Depth特征的感受野,增强Depth特征的全局信息。并使用显著目标分割图SGT进行监督学习。Depth分支的操作描述如下所示:
Figure BDA0003562771750000104
其中,CAD表示级联聚合解码器,A表示ASPP技术,
Figure BDA0003562771750000105
表示RGB分支预测出的显著性图。
4.3基于步骤3所生成的跨模态融合特征
Figure BDA0003562771750000111
使用获取到的四个融合特征,构建Fusion分支,并使用显著目标边缘分割图像进行监督学习。利用级联聚合解码器整合四个尺度特征,预测显著目标边缘图。Fusion分支定义如下:
Figure BDA0003562771750000112
5.基于步骤4所述的三流差异性监督机制所成的RGB显著性预测图
Figure BDA0003562771750000113
和Depth显著性预测图
Figure BDA0003562771750000114
和预测的显著目标分割图
Figure BDA0003562771750000115
本发明设计一个差异性监督模块,利用
Figure BDA0003562771750000116
Figure BDA0003562771750000117
融合RGB特征和Depth特征。
5.1利用交互式方法分别约束RGB特征和Depth特征,具体而言,使用
Figure BDA0003562771750000118
约束Depth特征,使用
Figure BDA0003562771750000119
约束RGB特征,然后利用
Figure BDA00035627717500001110
Figure BDA00035627717500001111
约束融合特征。
其过程如下:
Figure BDA00035627717500001112
5.2基于步骤5.1所获得三流增强特征(RGB增强特征,Depth增强特征,以及Fusion增强特征),利用通道注意力机制提升通道维度的关联程度,最后,利用连接操作得到最后的差异性融合特征,定义如下:
Figure BDA00035627717500001113
Figure BDA00035627717500001114
其中,CA表示通道注意力机制,Fi表示差异性融合特征。
6.基于步骤4和步骤5,本发明设计一个级联聚合解码器结构用于显著性推理。并将该级联聚合解码器结构嵌入三流差异性监督机制和最后的显著性结果预测。
6.1级联聚合解码器采用自顶向下方式逐级聚合多尺度特征,并通过空间注意机制生成注意力掩码图用于增强下一级特征,其定义如下:
F3=UP(F4)+F3×SA(F4) 公式(11)
其中,UP表示上采样操作,SA表示空间注意力机制。
6.2重复上述步骤6.1操作,可以得到最到级联聚合解码器的第二层特征,第一层特征,最后,利用sigmoid激活函数用于级联聚合解码器的对底层特征,得到最终的预测Spre
7)通过本发明预测出来的显著图Spre与人工标注的显著目标分割图SGT进行损失函数的计算,并通过Adam优化器和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性目标检测算法的结构和参数权重。
8)在步骤2-6确定模型的结构和参数权重的基础上,对步骤1所涉及到的测试集上的RGB-D图像对进行测试,生成显著图,并使用MAE、S-measure、F-measure、E-measure评价指标进行评估。
以上所述为本申请优选实施而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。

Claims (7)

1.一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,其特征在于,包括基于Swin Transformer双流解码器的构建,跨模态的三流差异性监督机制,跨模态特征差异性融合模块以及级联聚合解码器。
2.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,其特征在于本发明利用深度学习中的Swin Transformer网络作为本发明的主干网络用于提取RGB和Depth特征。
2.1分别构建两个基于Swin Transformer的编码器提取RGB特征和Depth特征,其中,Swin Transformer编码器由四个基本的Swin Transformer block组成,其定义如下所示:
S=MLP(LN(Wm(LN(Ff))+Ff))+Wm(LN(Ff))+Ff 公式(1)
ST=MLP(LN(Ws(LN(S))+S))+Ws(LN(S))+S 公式(2)
其中,MLP表示多层感知机,LN表示层次化归一,Wm代表多头自注意力机制,Ws表示基于转换窗口自注意力机制。
2.2基于步骤2.1,可以得到RGB和Depth编码器的输出,分别记作,RGB特征
Figure FDA0003562771740000011
和Depth特征
Figure FDA0003562771740000012
3.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,其特征在于,本发明设计一个跨模态双向融合模块(Bi-directional Fusion Module,BFM)用于初步融合跨模态的特征,为下一阶段的三流差异性监督机制做好准备。
3.1首先,使用一个3×3卷积操作用于增强感受野信息,然后利用交叉相乘方式得到两个跨模态的特征,分别用于增强RGB和Depth特征,定义如下:
Figure FDA0003562771740000021
其中,α∈{r,d},i∈{1,2,3,4}表示特征在编码器中所处的层次,Sigmoid表示sigmoid激活函数。由此,经过增强后的RGB特征
Figure FDA0003562771740000022
和Depth特征
Figure FDA0003562771740000023
能够被生成。
3.2将步骤3.1所生成的增强RGB特征
Figure FDA0003562771740000024
和Depth特征
Figure FDA0003562771740000025
通过连接操作进行融合,该操作如下所述:
Figure FDA0003562771740000026
其中,cat表示连接操作,BCov表示卷积操作和批量归一化(Batch Normal。
4.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,其特征在于本发明所提出的三流差异性监督机制用于实现多模态之间的差异性融合。具体可以表示为,三个分支,分别表示为RGB分支,Depth分支,以及Fusion分支。
4.1基于步骤2中的Swin Transformer所生成的RGB特征
Figure FDA0003562771740000027
构建三流差异性监督机制中的RGB分支,并采用本发明提出的级联聚合解码器预测显著性图。在RGB特征输入到CAD之前,本发明利用ASPP技术强化RGB特征的感受野,增强RGB特征的全局信息。并使用显著目标分割图SGT进行监督学习。RGB分支的操作描述如下所示:
Figure FDA0003562771740000028
其中,CAD表示级联聚合解码器,A表示ASPP技术,
Figure FDA0003562771740000029
表示RGB分支预测出的显著性图。
4.2基于步骤2中的Swin Transformer所生成的Depth特征
Figure FDA0003562771740000031
构建三流差异性监督机制中的Depth分支,并采用本发明提出的级联聚合解码器预测显著性图。在Depth特征输入到级联聚合解码器之前,本发明利用ASPP技术强化Depth特征的感受野,增强Depth特征的全局信息。并使用显著目标分割图SGT进行监督学习。Depth分支的操作描述如下所示:
Figure FDA0003562771740000032
其中,CAD表示级联聚合解码器,A表示ASPP技术,
Figure FDA0003562771740000033
表示RGB分支预测出的显著性图。
4.3基于步骤3所生成的跨模态融合特征
Figure FDA0003562771740000034
使用获取到的四个融合特征,构建Fusion分支,并使用显著目标边缘分割图像进行监督学习。利用级联聚合解码器整合四个尺度特征,预测显著目标边缘图。Fusion分支定义如下:
Figure FDA0003562771740000035
5.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,其特征在于,基于步骤4所述的三流差异性监督机制所成的RGB显著性预测图
Figure FDA0003562771740000036
和Depth显著性预测图
Figure FDA0003562771740000037
和预测的显著目标分割图
Figure FDA0003562771740000038
本发明设计一个差异性监督模块,利用
Figure FDA0003562771740000039
Figure FDA00035627717400000310
融合RGB特征和Depth特征。
5.1利用交互式方法分别约束RGB特征和Depth特征,具体而言,使用
Figure FDA00035627717400000311
约束Depth特征,使用
Figure FDA00035627717400000312
约束RGB特征,然后利用
Figure FDA00035627717400000313
Figure FDA0003562771740000041
约束融合特征。
其过程如下:
Figure FDA0003562771740000042
5.2基于步骤5.1所获得三流增强特征(RGB增强特征,Depth增强特征,以及Fusion增强特征),利用通道注意力机制提升通道维度的关联程度,最后,利用连接操作得到最后的差异性融合特征,定义如下:
Figure FDA0003562771740000043
Figure FDA0003562771740000044
其中,CA表示通道注意力机制,Fi表示差异性融合特征。
6.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,其特征在于,基于步骤4和步骤5,本发明设计一个级联聚合解码器结构用于显著性推理。并将该级联聚合解码器结构嵌入三流差异性监督机制和最后的显著性结果预测。
6.1级联聚合解码器采用自顶向下方式逐级聚合多尺度特征,并通过空间注意机制生成注意力掩码图用于增强下一级特征,其定义如下:
F3=UP(F4)+F3×SA(F4) 公式(11)
其中,UP表示上采样操作,SA表示空间注意力机制。
6.2重复上述步骤6.1操作,可以得到最到级联聚合解码器的第二层特征,第一层特征,最后,利用sigmoid激活函数用于级联聚合解码器的对底层特征,得到最终的预测Spre
7.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法,其特征在于,通过本发明预测出来的显著图Spre与人工标注的显著目标分割图SGT进行损失函数的计算,并通过Adam优化器和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定RGB-D显著性目标检测算法的结构和参数权重。
CN202210308520.3A 2022-03-24 2022-03-24 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 Pending CN114693952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210308520.3A CN114693952A (zh) 2022-03-24 2022-03-24 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210308520.3A CN114693952A (zh) 2022-03-24 2022-03-24 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN114693952A true CN114693952A (zh) 2022-07-01

Family

ID=82138935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210308520.3A Pending CN114693952A (zh) 2022-03-24 2022-03-24 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN114693952A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117333777A (zh) * 2023-12-01 2024-01-02 山东元明晴技术有限公司 一种坝体异常识别方法、装置及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
CN117036891A (zh) * 2023-08-22 2023-11-10 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117036891B (zh) * 2023-08-22 2024-03-29 睿尔曼智能科技(北京)有限公司 一种基于跨模态特征融合的图像识别方法及系统
CN117333777A (zh) * 2023-12-01 2024-01-02 山东元明晴技术有限公司 一种坝体异常识别方法、装置及存储介质
CN117333777B (zh) * 2023-12-01 2024-02-13 山东元明晴技术有限公司 一种坝体异常识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN114693952A (zh) 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN111222500B (zh) 一种标签提取方法及装置
US20200117906A1 (en) Space-time memory network for locating target object in video content
CN109359636A (zh) 视频分类方法、装置及服务器
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN111611861B (zh) 一种基于多尺度特征关联的图像变化检测方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN115131638B (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
WO2023185074A1 (zh) 一种基于互补时空信息建模的群体行为识别方法
CN113936235A (zh) 一种基于质量评估的视频显著性目标检测方法
CN114283315A (zh) 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN115131281A (zh) 变化检测模型训练和图像变化检测方法、装置及设备
CN113963170A (zh) 一种基于交互式特征融合的rgbd图像显著性检测方法
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN111368634A (zh) 基于神经网络的人头检测方法、系统及存储介质
Fei et al. Flow-pose Net: An effective two-stream network for fall detection
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116434033A (zh) 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统
CN115346145A (zh) 重复视频的识别方法、设备、储存介质及计算机程序产品
CN114627353B (zh) 一种图像描述生成方法、装置、设备、介质及产品
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination