CN116051950A - 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测 - Google Patents

跨层次跨模态双注意力融合的三流rgb-d显著性目标检测 Download PDF

Info

Publication number
CN116051950A
CN116051950A CN202211075069.1A CN202211075069A CN116051950A CN 116051950 A CN116051950 A CN 116051950A CN 202211075069 A CN202211075069 A CN 202211075069A CN 116051950 A CN116051950 A CN 116051950A
Authority
CN
China
Prior art keywords
cross
attention
features
rgb
dual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211075069.1A
Other languages
English (en)
Inventor
袁梦雅
孟令兵
时雪涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Institute of Information Engineering
Original Assignee
Anhui Institute of Information Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Institute of Information Engineering filed Critical Anhui Institute of Information Engineering
Priority to CN202211075069.1A priority Critical patent/CN116051950A/zh
Publication of CN116051950A publication Critical patent/CN116051950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,具体为跨层次跨模态双注意力融合的三流RGB‑D显著性目标检测,包括如下步骤:S1:编码阶段,首先,在特征提取阶段,采用相同的模块提取RGB特征和深度图特征,在每一层都采用跨模态双注意力融合模块完成模态间特征的融合交互,跨模态双注意力融合模块包括全局注意力和局部注意力,双注意力模块能够关注不同维度空间的显著性目标的特征。本发明通过在编码阶段,采用跨模态双注意力融合模块逐层融合RGB特征和Depth特征,进行跨模态渐进式信息的双向交互,融合的交互特征能够提取显著性目标更丰富的特征,实现融合特征的共性和互补性,完成跨模态的有效融合。

Description

跨层次跨模态双注意力融合的三流RGB-D显著性目标检测
技术领域
本发明涉及计算机视觉技术领域,尤其是涉及跨层次跨模态双注意力融合的三流RGB-D显著性目标检测。
背景技术
在面对复杂的自然场景时,人类视觉系统具有快速搜索并定位感兴趣区域和目标的能力。通过将视觉注意力机制引入到计算机视觉中,可以优化计算资源,使视觉信息的处理更符合人眼视觉特征。显著性目标检测旨在自动识别不同场景中的显著性区域,已广泛地应用于分割、重定向、检索、编码、分类等任务。近年来,图像显著性目标检测取得了令人瞩目的进展。实际上,人类视觉系统还具有感知场景中深度信息的能力,深度信息可以作为彩色图的互补信息,应用到显著性目标检测任务中。随着相机设备的快速发展,深度图的获取变得越来越便捷,促进了RGB-D显著性目标检测的研究;
立体图像(RGB-D图像)数据为场景描述提供了彩色和深度两种模态信息,更接近于人类真实的视觉感知系统,两种模态信息相辅相成、互为补充,可以提供更加全面的数据表达方法,有利于进一步增强显著性检测等任务的性能。近年来,深度学习技术的蓬勃发展极大地促进了显著性检测任务的性能提升。Qu等人提出了一种结合顶底层显著性线索与卷积神经网络(CNN)的RGB-D图像显著性目标检测方法。Han等人提出了双流RGB-D显著检测网络,并将RGB网络结构迁移到深度视角。Chen等人提出了一种多尺度-多路径融合网络实现RGB-D显著性目标检测,升级了传统的双流融合架构。Chen等人提出了一种三流注意力感知的RGB-D显著性目标检测网络,并通道注意力机制实现了自适应选择跨模态互补特征。Zhao等人首先利用对比度先验来增强深度信息,然后通过流体金字塔集成网络实现了RGB-D显著性目标检测。Li等人提出了一种基于交织融合的RGB-D显著性检测网络,通过交织融合方式步进式融合跨模态的互补信息。Piao等人提出了一种多尺度递归的RGB-D显著性网络,在复杂场景中获得了较好的检测性能;
显著性目标检测(SOD)旨在从输入图像中识别出最引人注意的目标,其作为预处理步骤,已经被广泛应用许多计算机视觉领域,例如图像检索、图像分割、视频分割、图像内容编辑、目标跟踪等.之前的很多研究工作将RGB图像输入模型进行端到端的训练,在简单场景下模型能够准确的检测出显著性目标,但是对于复杂场景下难以精准的检测出显著性目标。
为此,提出一种跨层次跨模态双注意力融合的三流RGB-D显著性目标检测方法。
发明内容
本发明的目的在于提供跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,包括如下步骤:
S1:编码阶段,首先,在特征提取阶段,采用相同的模块提取RGB特征和深度图特征,在每一层都采用跨模态双注意力融合模块完成模态间特征的融合交互,跨模态双注意力融合模块包括全局注意力和局部注意力,双注意力模块能够关注不同维度空间的显著性目标的特征;
S2:解码阶段,通过跨层次特征融合模块,从全局和局部的角度考虑特征图空间的关系,利用加强后的特征图产生两种注意力模块,即全局注意力和局部注意力,分别提取了显著性目标不同空间维度的重要性,为了更加充分完成跨模态信息的融合,提取模态特征之间的共性和差异性,获取后的全局注意力和局部注意力同时与RGB特征图和深度特征图相乘,进而产生浅层的特征图与深层的特征图,通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域;
S3:最后,将最有效的显著性特征送入到1×1的卷积核中,通过上采样的方法生成与真值图大小相同、通道数为1的二值预测显著图,通过与真值图做损失来反馈整个模型。
优选的,在S1中,在编码阶段采用两个平行的主干网络分别提取RGB图像特征和深度图特征,主干网络采用的是Resnet50,模型初始化参数在ImageNet训练上得到。
优选的,在S1中,RGB特征图和深度特征图经过一次3×3的卷积运算后进行相加,相加后的特征图(记为Rrdc)同时具有显著性目标的RGB特征和深度图特征。
优选的,在S2中,所述浅层的特征图分辨率高,包含丰富的空间结构信息,可以有效地提取显著性目标的边缘信息。
优选的,在S2中,所述层的特征图分辨率低,包含丰富的语义信息,可以有效地对显著性目标进行精准的定位。
优选的,在每层的上采样融合浅层特征和深层特征时都引入全局上下文特征,可以弥补深层语义信息的淡化,在每层都能增强模型对显著性目标精准的定位。
优选的,通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域,所以将全局上下文特征融入解码过程中可以减少背景信息的干扰。
与现有技术相比,本发明的有益效果是:
1、本发明通过在编码阶段,采用跨模态双注意力融合模块逐层融合RGB特征和Depth特征,进行跨模态渐进式信息的双向交互,融合的交互特征能够提取显著性目标更丰富的特征,实现融合特征的共性和互补性,完成跨模态的有效融合;
2、本发明通过在解码阶段,采用跨层次特征融合模块,能够减小显著性物体被背景吞噬的影响,有助于准确检测出显著区域,逐步引导网络生成更精准、更清晰、更完整的目标对象,提高模型在复杂场景中的检测效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的跨模态双注意力融合模块方法流程图;
图2为本发明的跨层次特征融合模块方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图2,本发明提供一种技术方案:
本发明在编码阶段采用两个平行的主干网络分别提取RGB图像特征和深度图特征,主干网络采用的是Resnet50,模型初始化参数在ImageNet训练上得到;
首先,在特征提取阶段,采用相同的模块提取RGB特征和深度图特征,在每一层都采用跨模态双注意力融合模块完成模态间特征的融合交互;
对于显著性目标来说,RGB图像和深度图是对其不同维度的描述形式,受到SE和CBAM的启发,本发明提出一种跨模态双注意力融合模块-全局注意力和局部注意力,双注意力模块能够关注不同维度空间的显著性目标的特征,能够更充分的挖掘出模态间的差异性和互补性,融合的交叉特征具有显著性目标更丰富的特征,可以提取到更具有辨别力的显著性目标特征。首先,RGB特征图和深度特征图经过一次3×3的卷积运算后进行相加,相加后的特征图(记为Rrdc)同时具有显著性目标的RGB特征和深度图特征,突出了显著性目标的共性特征。对于显著性检测来说,特征图的空间包含显著性目标不同的语义信息通过衡量不同空间位置的重要程度,加强显著性目标区域的特征信息,首先,在编码阶段,采用跨模态双注意力融合模块逐层融合RGB特征和深度特征,进行跨模态渐进式信息的双向交互,融合的交互特征能够提取显著性目标更丰富的特征,实现融合特征的共性和互补性,完成跨模态的有效融合;
本发明在解码阶段采用跨层次特征融合模块:本发明分别从全局和局部的角度考虑特征图空间的关系,利用加强后的特征图产生两种注意力模块,即全局注意力和局部注意力,分别提取了显著性目标不同空间维度的重要性,为了更加充分完成跨模态信息的融合,提取模态特征之间的共性和差异性,获取后的全局注意力和局部注意力同时与RGB特征图和深度特征图相乘。
浅层的特征图分辨率高,包含丰富的空间结构信息,可以有效地提取显著性目标的边缘信息;
深层的特征图分辨率低,包含丰富的语义信息,可以有效地对显著性目标进行精准的定位。通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域,所以将全局上下文特征融入解码过程中可以减少背景信息的干扰;
所以本发明在每层的上采样融合浅层特征和深层特征时都引入全局上下文特征,可以弥补深层语义信息的淡化,在每层都能增强模型对显著性目标精准的定位。
通过不同的卷积核提取特征,形成非线性聚合特征,在层层解码时可以有效感知显著性目标丰富的特征,更近一步消除背景对显著性目标的影响,最后,将最有效的显著性特征送入到1×1的卷积核中,通过上采样的方法生成与真值图大小相同、通道数为1的二值预测显著图,通过与真值图做损失来反馈整个模型;在解码阶段,本发明提出一个跨层次特征融合模块,能够减小显著性物体被背景吞噬的影响,有助于准确检测出显著区域,逐步引导网络生成更精准、更清晰、更完整的目标对象,提高模型在复杂场景中的检测效果。本发明涉及显著性目标检测与分割。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,其特征在于,包括如下步骤:
S1:编码阶段,首先,在特征提取阶段,采用相同的模块提取RGB特征和深度图特征,在每一层都采用跨模态双注意力融合模块完成模态间特征的融合交互,跨模态双注意力融合模块包括全局注意力和局部注意力,双注意力模块能够关注不同维度空间的显著性目标的特征;
S2:解码阶段,通过跨层次特征融合模块,从全局和局部的角度考虑特征图空间的关系,利用加强后的特征图产生两种注意力模块,即全局注意力和局部注意力,分别提取了显著性目标不同空间维度的重要性,为了更加充分完成跨模态信息的融合,提取模态特征之间的共性和差异性,获取后的全局注意力和局部注意力同时与RGB特征图和深度特征图相乘,进而产生浅层的特征图与深层的特征图,通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域;
S3:最后,将最有效的显著性特征送入到1×1的卷积核中,通过上采样的方法生成与真值图大小相同、通道数为1的二值预测显著图,通过与真值图做损失来反馈整个模型。
2.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,其特征在于:在S1中,在编码阶段采用两个平行的主干网络分别提取RGB图像特征和深度图特征,主干网络采用的是Resnet50,模型初始化参数在ImageNet训练上得到。
3.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,其特征在于:在S1中,RGB特征图和深度特征图经过一次3×3的卷积运算后进行相加,相加后的特征图(记为Rrdc)同时具有显著性目标的RGB特征和深度图特征。
4.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,其特征在于:在S2中,所述浅层的特征图分辨率高,包含丰富的空间结构信息,可以有效地提取显著性目标的边缘信息。
5.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,其特征在于:在S2中,所述层的特征图分辨率低,包含丰富的语义信息,可以有效地对显著性目标进行精准的定位。
6.根据权利要求1所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,其特征在于:在每层的上采样融合浅层特征和深层特征时都引入全局上下文特征,可以弥补深层语义信息的淡化,在每层都能增强模型对显著性目标精准的定位。
7.根据权利要求6所述的跨层次跨模态双注意力融合的三流RGB-D显著性目标检测,其特征在于:通过高层语义信息获取的全局上下文特征能够更加突出显著性目标的区域,所以将全局上下文特征融入解码过程中可以减少背景信息的干扰。
CN202211075069.1A 2022-09-03 2022-09-03 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测 Pending CN116051950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211075069.1A CN116051950A (zh) 2022-09-03 2022-09-03 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211075069.1A CN116051950A (zh) 2022-09-03 2022-09-03 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测

Publications (1)

Publication Number Publication Date
CN116051950A true CN116051950A (zh) 2023-05-02

Family

ID=86124277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211075069.1A Pending CN116051950A (zh) 2022-09-03 2022-09-03 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测

Country Status (1)

Country Link
CN (1) CN116051950A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN117173394B (zh) * 2023-08-07 2024-04-02 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统

Similar Documents

Publication Publication Date Title
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
CN111583173B (zh) 一种rgb-d图像显著性目标检测方法
Yang et al. Bi-directional progressive guidance network for RGB-D salient object detection
CN110853032B (zh) 基于多模态深度学习的无人机视频标签获取方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
Xue et al. Boundary-induced and scene-aggregated network for monocular depth prediction
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN111882581B (zh) 一种深度特征关联的多目标跟踪方法
CN113192124A (zh) 一种基于孪生网络的图像目标定位方法
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
CN114693952A (zh) 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
Liu et al. Multi-scale iterative refinement network for RGB-D salient object detection
CN116051950A (zh) 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测
Cong et al. Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360$^{\circ} $ Omnidirectional Image
Zong et al. A cascaded refined rgb-d salient object detection network based on the attention mechanism
CN116805360B (zh) 一种基于双流门控渐进优化网络的显著目标检测方法
Lu et al. Context-constrained accurate contour extraction for occlusion edge detection
CN117036736A (zh) 基于pvt交互网络的显著性目标检测方法
CN113780241B (zh) 一种显著物体检测的加速方法与装置
CN115830420A (zh) 一种基于边界可变形卷积引导的rgb-d显著性目标检测方法
Kanwal et al. CVit-Net: A conformer driven RGB-D salient object detector with operation-wise attention learning
CN115019139A (zh) 一种基于双流网络的光场显著目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination