CN111242238A - 一种rgb-d图像显著性目标获取的方法 - Google Patents

一种rgb-d图像显著性目标获取的方法 Download PDF

Info

Publication number
CN111242238A
CN111242238A CN202010070635.4A CN202010070635A CN111242238A CN 111242238 A CN111242238 A CN 111242238A CN 202010070635 A CN202010070635 A CN 202010070635A CN 111242238 A CN111242238 A CN 111242238A
Authority
CN
China
Prior art keywords
rgb
cross
depth
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010070635.4A
Other languages
English (en)
Other versions
CN111242238B (zh
Inventor
丛润民
李重仪
赵耀
钟启航
李心怡
王玉洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010070635.4A priority Critical patent/CN111242238B/zh
Publication of CN111242238A publication Critical patent/CN111242238A/zh
Application granted granted Critical
Publication of CN111242238B publication Critical patent/CN111242238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种RGB‑D图像显著性目标获取的方法,提出一种交织融合网络,用于相互指导RGB‑D特征的联合提取,并通过网络浅层和深层结构密集地整合跨模态的互补信息,这样能自动且充分地抓取潜在的有用信息,并减少由于跨模态数据的不一致性引起的干扰。与单独提取RGB‑D特征后将其整合方式相比,RGB‑D特征的交互引导有利于促进跨模态信息的互补性融合,缓解不同模态中的不一致问题;还可以降低因为成像环境或设备引起的低质深度图带来的负面影响。通过在损失函数构造时引入对抗损失项,为RGB‑D显著性目标检测提供全局语义约束,使检测结果不仅关注像素级显著性属性,还能捕获对象级的全局语义特征,生成具有完整结构、清晰边界的显著性图。

Description

一种RGB-D图像显著性目标获取的方法
技术领域
本发明涉及计算机视觉、深度学习技术领域,尤其涉及一种RGB-D图像显著性目标获取的方法。
背景技术
人类的视觉注意力机制可快速从场景中定位最吸引其注意的内容,受此机制启发,视觉显著性目标检测任务就是希望计算机也可以模拟该机制,自动定位场景中的显著性目标或区域,已经被广泛应用于分割、检测、编码、重定向、质量评价等诸多领域,具有十分广阔的理论研究和工程应用前景。实际上,人眼通过双目视觉感知外部客观世界,进而获得场景的景深信息,产生立体感。随着传感器设备的不断成熟与发展,深度图的采集变得更加准确和方便,RGB-D图像数据可以为场景描述提供彩色和深度两种模态信息,更接近于人类真实的视觉感知系统,两种模态信息相辅相成、互为补充,进而提供更加全面的数据表达方法,有利于进一步增强相关视觉任务的性能,如显著性目标检测、场景分析等。近年来,大数据时代的来临为深度学习技术的蓬勃发展提供了有利支持,该技术已经在很多研究邻域取得了显著地性能突破与提升,其中也包括RGB-D图像的显著性目标检测任务。
Qu等人设计了一种卷积神经网络(CNN)来自动学习底层线索和显著性结果之间的相互作用关系以实现RGB-D图像显著性目标检测。该方法首先将局部对比度、全局对比度、背景先验和空间先验组合得到原始显著性特征向量,然后将其嵌入到CNN中生成初始显著性图,最后引入拉普拉斯传播以进一步细化初始显著性图并得到最终结果。Han等人将RGB网络结构迁移到深度视角,并将两个视角的深层表示融合以生成最终的显著性图。Chen等人提出了一种用于RGB-D显著性目标检测的渐进互补的融合网络,其中引入了跨模态残差函数和互补感知监督。
Chen等人提出了一种三流注意力感知的RGB-D显著性目标检测网络,其中跨模态流侧重于增强自下而上通路中的RGB-D特征表示,通道注意力机制旨在自适应地选择自上而下的推断通路中的互补特征图。Zhao等人在CNN架构中引入对比度先验来增强深度信息,并且将增强的深度线索进一步与RGB特征集成,通过一种新颖的流体金字塔集成模块进行显著性目标检测。
发明内容
本发明的实施例提供了一种RGB-D图像显著性目标获取的方法,以解决发明人发现的现有技术中存在的以下缺点和不足:(1)对于彩色图和深度图的跨模态互补信息融合的挖掘并不深入,导致融合后的特征判别力不足,影响算法性能;(2)现有算法并未关注显著性目标结构的完整性,导致检测结果中显著性区域不完整、边缘模糊。
为了实现上述目的,本发明采取了如下技术方案。
一种RGB-D图像显著性目标获取的方法,包括:
基于输入的RGB-D图像,通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征;
基于RGB图像和深度图像的跨模态特征,通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征,得到具有判别力的显著性特征;
基于显著性特征,通过损失函数进行显著性预测,得到显著性结果图。
优选地,基于输入的RGB-D图像,通过交织融合网络中的RGB分支和深度分支分别提取RGB图像和深度图像的跨模态特征包括:
基于RGB-D图像的RGB图像,通过交织融合网络的RGB分支进行特征提取,获得深度引导的RGB-D特征;
基于RGB-D图像的深度图像,通过交织融合网络的深度分支进行特征提取,获得RGB引导的RGB-D特征;
该两个子步骤同时执行;RGB分支和深度分支都分别包括多个特征适配层用于跨模态特征转换;RGB分支还用于引导深度分支进行特征提取,深度分支还用于引导RGB分支进行特征提取。
优选地,基于输入的RGB-D图像,通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征还包括:
基于RGB-D图像,分别通过
Figure BDA0002377206690000021
Figure BDA0002377206690000022
Figure BDA0002377206690000023
进行特征提取,获得跨模态特征,式中,
Figure BDA0002377206690000024
表示当前RGB特征frgb和来自深度分支的引导特征gd(fd)的级联特征,gd表示深度分支的特征适配层,fd表示同一级的对应深度特征,
Figure BDA0002377206690000031
表示当前深度特征fd和来自RGB分支的引导特征grgb(frgb)的级联特征,grgb表示RGB分支的特征适配层,frgb表示同一级上的对应RGB特征,{·,·}表示特征级联操作。
优选地,基于RGB图像和深度图像的跨模态特征,通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征,得到具有判别力的显著性特征级包括:
基于跨模态特征,由深到浅地逐步整合来自同一级的跨模态特征,并通过深度监督方法产生三组侧输出;
基于侧输出,通过块内残差注意力模块并根据跨模态特征中各区域的重要程度,对跨模态特征中各区域进行加权。
优选地,基于侧输出,通过块内残差注意力模块并根据跨模态特征中各区域的重要程度,对跨模态特征中各区域进行加权包括:
通过块内残差注意力模块,对同一级跨模态特征的浅层特征进行加权,使跨模态特征中各区域具有相适应的权重。
优选地,块内残差注意力模块表示为
Figure BDA0002377206690000032
式中,finbRAM表示经过块内残差注意力模块后的特征,f表示一组输入特征,Wsp表示同一级的侧输出,
Figure BDA0002377206690000033
Figure BDA0002377206690000034
分别表示逐像素相加和相乘操作。
优选地,基于显著性特征,通过损失函数,进行显著性预测,得到显著性结果图包括:
通过损失函数,对交织融合网络进行约束训练;
该损失函数由交叉熵损失项和对抗损失项生成;
该交叉熵损失项表示为
Figure BDA0002377206690000035
(4),式中,φ表示网络需要学习的参数,Y+和Y-表示显著性真图Y中的正样本和负样本像素X表示给定的RGB-D图像,P(·)表示像素的显著性置信值,*={f,s1,s2,s3}分别对应最终输出和侧输出;
该对抗损失项表示为
Figure BDA0002377206690000036
式中,G表示生成器,D表示鉴别器,I表示输入;
损失函数表示为:
Figure BDA0002377206690000037
式中,
Figure BDA0002377206690000038
Figure BDA0002377206690000039
分别表示最终输出和侧输出的标准交叉熵损失项,
Figure BDA00023772066900000310
表示对抗损失项,λ用于控制对抗损失项比例。
由上述本发明的实施例提供的技术方案可以看出,本发明提供的一种RGB-D图像显著性目标获取的方法,交织融合网络提出了一种交织融合网络,它用于相互指导RGB-D特征的联合提取,并通过网络的浅层和深层结构密集地整合跨模态的互补信息,这样网络可以自动且充分地抓取潜在的有用信息,并减少由于跨模态数据的不一致性引起的干扰。与独立地提取RGB-D特征后将他们整合在一起的方式相比,RGB-D特征之间的交互引导方式有利于促进跨模态信息之间的互补性融合,缓解不同模态中的不一致问题;还可以降低因为成像环境或设备引起的低质深度图带来的负面影响,增强特征的判别力。通过在损失函数构造时引入对抗损失项,为RGB-D显著性目标检测提供全局语义约束,使检测结果不仅关注像素级显著性属性,还能捕获对象级的全局语义特征,生成具有完整结构、清晰边界的显著性图。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种RGB-D图像显著性目标获取的方法的处理流程图;
图2为本发明提供的一种RGB-D图像显著性目标获取的方法的网络结构图;
图3为本发明提供的一种RGB-D图像显著性目标获取的方法的可视化实例示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
参见图1,本发明提供的一种RGB-D图像显著性目标获取的方法,用于充分挖掘彩色和深度的跨模态信息,改善显著性目标的结构完整性和边缘锐利性,以及设计一种注意力机制引导的RGB-D图像显著性目标检测方法,增强算法性能;该方法包括:
获取原始图像,进一步获取输入的RGB-D图像;
基于输入的RGB-D图像,通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征;
基于RGB图像和深度图像的跨模态特征,通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征,得到具有判别力的显著性特征;
基于显著性特征,通过损失函数进行显著性预测,得到显著性结果图。
在本发明的实施例中,提供了用于执行本发明方法的交织融合网络,如图2所示,其主要架构包括RGB分支、深度分支和融合分支;RGB分支从输入RGB图像中提取多级特征,同时将这些特征与同级的深度分支提取的深度特征集成;反之亦然,在深度分支中也需要不断地与同级的RGB分支特征集成,这样可以增大RGB信息与深度信息的交互力度,学习到更全面、更具判别力的跨模态特征表达。
发明人在研究中发现,深层特征包含了更多的高层语义信息,而浅层特征则具有更多的细节信息。需要指出的是,高层语义信息和浅层细节信息对于提高显著性目标检测的性能都是必不可少的。
与现有融合方式不同,在本发明的实施例中提出了一种交织融合的方案,它用于相互指导RGB-D特征的联合提取,并通过网络的浅层和深层结构密集地整合跨模态的互补信息,这样网络可以自动且充分地抓取潜在的有用信息,并减少由于跨模态数据的不一致性引起的干扰。
考虑到跨模态数据的不一致性,本发明设计的交织融合网络在RGB-D特征之间执行密集交互和分层融合。与独立地提取RGB-D特征后将他们整合在一起的方式相比,RGB-D特征之间的交互引导方式有利于促进跨模态信息之间的互补性融合,缓解不同模态中的不一致问题。此外,该策略还可以降低因为成像环境或设备引起的低质深度图带来的负面影响,增强特征的判别力。
发明人在研究中发现,现有基于深度学习的RGB-D显著性目标检测方法通常通过最小化交叉熵损失函数来优化网络。然而,这些损失函数并未跳出像素级检测任务的限制,缺乏对象级的语义先验,进而导致模型不能完整、清晰地检测显著性目标。因此,在本发明的实施例中将对抗损失项引入损失函数中,为RGB-D显著性目标检测提供全局语义约束,使得检测结果不仅关注像素级显著性属性,还能够捕获对象级的全局语义特征,生成具有完整结构、清晰边界的显著性图。
在本发明提供的优选实施例中,其执行过程为:
基于RGB-D图像的RGB图像,通过交织融合网络的RGB分支进行特征提取,获得深度引导的RGB-D特征;
基于RGB-D图像的深度图像,通过交织融合网络的深度分支进行特征提取,获得RGB引导的RGB-D特征;
该两个子步骤同时执行;RGB分支和深度分支都分别包括多个特征适配层用于跨模态特征转换;RGB分支还用于引导深度分支进行特征提取,深度分支还用于引导RGB分支进行特征提取。
进一步的,在一些优选实施例中,RGB分支和深度分支都共享相同的主干网络架构,其包括多层(级)提取块(例如优选五个提取块),下采样操作是每个提取块的边界。在每个提取块中,特征具有相同的维数。此外,除主干网络外,每个分支都包含多个(级)特征适配层,即额外的卷积层,主要用于对当前的RGB(或深度)特征进行转换,进而用于指导提取的深度(或RGB)特征,在一种优选实施例中,每个分支具有8个特征适配层。这种的交互指导融合策略可以有效降低跨模态信息的不一致性,并促进特征的互补性融合。此外,它还提供了鲁棒而紧凑的特征。
更进一步的,基于RGB-D图像,分别通过交织融合网络的RGB分支和深度分支进行特征提取具体可表示为:
基于RGB-D图像,分别通过
Figure BDA0002377206690000071
Figure BDA0002377206690000072
Figure BDA0002377206690000073
进行特征提取,获得跨模态特征,式中,
Figure BDA0002377206690000074
表示当前RGB特征frgb和来自深度分支的引导特征gd(fd)的级联特征,gd表示深度分支的特征适配层,通过一个卷积实现(核大小为3×3,步长2),fd表示同一级上的对应深度特征,
Figure BDA0002377206690000075
表示当前深度特征fd和来自RGB分支的引导特征grgb(frgb)的级联特征,grgb表示RGB分支的特征适配层,frgb表示同一级上的对应RGB特征,对于frgb和fd特征,下标rgb和d意味着特征来自于RGB分支和深度分支,{·,·}表示特征级联操作。
借助分层的跨模态特征,同一级的RGB特征和深度特征与之前的融合特征以密集融合的方式进行特征集成,提取具有判别力的特征表达。这种密集的融合方式充分整合了来自不同模态数据的互补特征,并以从粗到细的方式将更深层中的融合特征推向最终输出,这种步进式的设计有利于逐渐提取有效特征,使得结果逐渐变得完整而清晰。
进一步的,上述基于跨模态特征,由深到浅的逐步整合来自同一级的跨模态特征,得到具有判别力的显著性特征的步骤通过融合分支执行;在融合分支中,以由深到浅的方式逐步整合来自同一级别的互补跨模态特征,并以粗略到精细的方式采用深度监督方法产生三组侧输出。利用这些侧输出,通过块内残差注意力模块对RGB-D特征中不同重要程度的区域进行不同程度的加权,进而更好地突出显著性目标并抑制杂乱的背景。最后,网络通过使用这些有判别力的互补特征来生成显著性图;
大多数显著性目标检测方法都是同等程度地处理提取特征图中的所有区域,而忽略不同区域对于最终检测应该具有不同贡献的事实。因此,这些方法往往存在大量的信息冗余,并且容易受到杂乱背景的影响。
为了解决这个问题,本发明的优选实施例中,融合分支引入块内残差注意力模块,将侧输出看作是特征选择器,对同一层提取块中跨模态特征的浅层特征进行加权,进而给予不同区域的特征不同的重要性权重,这样有助于更好地突出显著性目标并抑制杂乱的背景。此外,为了保证显著性目标具有锐利而清晰的边界,本发明直接通过同一提取块中的联合特征生成侧输出,即同组侧输出单独对应同级提取块,而非利用双线性插值将侧输出上采样到与浅层块中特征图相同的分辨率,有效避免了因为双线性插值带来的侧输出模糊问题,尤其是边缘和边界区域;
更进一步的,块内残差注意力模块表示为
Figure BDA0002377206690000081
式中,finbRAM表示经过块内残差注意力模块后的特征,f表示一组输入特征,Wsp表示相对应的提取块内跨模态特征的侧输出,
Figure BDA0002377206690000082
Figure BDA0002377206690000083
分别表示逐像素相加和相乘操作。值得注意的是,考虑到最深层的提取块中的特征分辨率太低,很难提供充足的有效信息,因此在设计网络结构时不在最深层提取块(例如第五级提取块)中使用块内残差注意力模块。
进一步的,上述基于显著性特征,通过损失函数进行显著性预测,得到显著性结果图的步骤中设计了包含交叉熵损失项和对抗损失项的损失函数,以此约束网络训练的过程;现有基于深度学习的RGB-D显著性目标检测方法通常通过最小化交叉熵损失函数(例如,标准交叉熵损失、平衡交叉熵损失等)来优化网络。然而,这些损失函数并未跳出像素级检测任务的限制,缺乏对象级的语义先验,进而导致模型不能完整、清晰地检测显著性目标。因此,本发明在损失函数构造时引入对抗损失项,为RGB-D显著性目标检测提供全局语义约束,使得检测结果不仅关注像素级显著性属性,还能够捕获对象级的全局语义特征,生成具有完整结构、清晰边界的显著性图。具体为:该损失函数由交叉熵损失项和对抗损失项生成;
该交叉熵损失项分别在提取块的最终输出和侧输出上利用标准二值交叉熵损失,其表达式为
Figure BDA0002377206690000084
式中,φ表示网络需要学习的参数,Y+和Y-表示显著性真图Y中的正样本和负样本像素X表示给定的RGB-D图像,P(·)表示像素的显著性置信值,*={f,s1,s2,s3}分别对应提取块的最终输出和侧输出,在本实施例中,为三个侧输出;
该对抗损失项作用是为了利用上下文信息,将最终输出与当前输出对应的RGB-D图像进行连接并作为输入。然后,输入被馈送到鉴别器以学习一个联合分布。为了鼓励生成的显著性图与真图尽可能的接近,采用求解如下优化问题的方式表达:minGmaxDΕI[log(1-D(I,G(I)))]+ΕI,J[log(D(I,J)](5),式中,G表示生成器(即本发明提供的交织融合网络),用于生成欺骗鉴别器的“假”图,D表示鉴别器,用于区分“假”图和“真”图,I表示输入,即RGB-D图像与生成的显著性结果图的组合,J表示对应的显著性真图;
为了训练生成网络,可以直接对公式
Figure BDA0002377206690000085
最小化处理;
进一步获得损失函数
Figure BDA0002377206690000091
式中,
Figure BDA0002377206690000092
Figure BDA0002377206690000093
Figure BDA0002377206690000094
分别表示提取块的最终输出和侧输出的标准交叉熵损失项,
Figure BDA0002377206690000095
表示对抗损失项,λ用于控制对抗损失项比例。
附图3给出了两个本发明技术的可视化实例。第一列为RGB图像,第二列为深度图,第三列为显著性真图,第四列为本发明得到的显著性结果。从结果可以看出,本发明方法可以准确提取RGB-D图像中的显著性目标,目标轮廓清晰、结构完整,内部一致性较好。而且,两个场景都相对较为复杂,对于背景区域(如第一个图像中的蓝色盒子和第二个图像中的多个任务)具有较好的抑制效果。
综上所述,本发明提供的一种RGB-D图像显著性目标获取的方法,提出了一种交织融合网络,它用于相互指导RGB-D特征的联合提取,并通过网络的浅层和深层结构密集地整合跨模态的互补信息,这样网络可以自动且充分地抓取潜在的有用信息,并减少由于跨模态数据的不一致性引起的干扰。与独立地提取RGB-D特征后将他们整合在一起的方式相比,RGB-D特征之间的交互引导方式有利于促进跨模态信息之间的互补性融合,缓解不同模态中的不一致问题;还可以降低因为成像环境或设备引起的低质深度图带来的负面影响,增强特征的判别力。通过在损失函数构造时引入对抗损失项,为RGB-D显著性目标检测提供全局语义约束,使得检测结果不仅关注像素级显著性属性,还能够捕获对象级的全局语义特征,生成具有完整结构、清晰边界的显著性图。
本发明提供的方法利用交织融合网络模型通过交织融合的方式处理RGB-D图像,其执行架构主要包括RGB分支、深度分支和融合分支三个分支结构。具体而言,RGB分支从输入RGB图像中提取多级特征,同时将这些特征与同级的深度分支提取的深度特征集成。反之亦然,在深度分支中也需要不断地与同级的RGB分支特征集成,这样可以增大RGB信息与深度信息的交互力度,学习到更全面、更具判别力的跨模态特征表达。在融合分支中,以由深到浅的方式逐步整合来自同一级别的互补RGB-D特征,并以粗略到精细的方式采用深度监督方法产生三组侧输出。利用这些侧输出,通过块内残差注意力模块对RGB-D特征中不同重要程度的区域进行不同程度的加权,进而更好地突出显著性目标并抑制杂乱的背景。最后,网络通过使用这些有判别力的显著性特征来生成显著性图。
本发明提供的方法,具有如下有益效果:
可以有效挖掘跨模态数据之间的互补信息,能够准确、完整地突出显著性目标,且具有较强的背景抑制能力;
充分整合了来自不同模态数据的互补特征,并以从粗到细的方式将更深层中的融合特征推向最终输出,这种步进式的设计有利于逐渐提取有效特征,使得结果逐渐变得完整而清晰;
采用的残差注意力模块直接通过同一块中的联合特征生成侧输出,而非利用双线性插值将侧输出上采样到与浅层块中特征图相同的分辨率,有效避免了因为双线性插值带来的侧输出模糊问题,尤其是边缘和边界区域;
采用的损失函数在标准交叉熵损失项的基础上引入对抗损失项,为RGB-D显著性目标检测提供全局语义约束,使得检测结果不仅关注像素级显著性属性,还能够捕获对象级的全局语义特征,生成具有完整结构、清晰边界的显著性图。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种RGB-D图像显著性目标获取的方法,其特征在于,包括:
基于输入的RGB-D图像,通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征;
基于RGB图像和深度图像的跨模态特征,通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征,得到具有判别力的显著性特征;
基于显著性特征,通过损失函数进行显著性预测,得到显著性结果图。
2.根据权利要求1所述的方法,其特征在于,所述的基于输入的RGB-D图像,通过交织融合网络中的RGB分支和深度分支分别提取RGB图像和深度图像的跨模态特征包括:
基于RGB-D图像的RGB图像,通过交织融合网络的RGB分支进行特征提取,获得深度引导的RGB-D特征;
基于RGB-D图像的深度图像,通过交织融合网络的深度分支进行特征提取,获得RGB引导的RGB-D特征;
该两个子步骤同时执行;RGB分支和深度分支都分别包括多个特征适配层用于跨模态特征转换;RGB分支还用于引导深度分支进行特征提取,深度分支还用于引导RGB分支进行特征提取。
3.根据权利要求2所述的方法,其特征在于,所述的基于输入的RGB-D图像,通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征还包括:
基于RGB-D图像,分别通过
Figure FDA0002377206680000011
Figure FDA0002377206680000012
(2)进行特征提取,获得跨模态特征,式中,
Figure FDA0002377206680000013
表示当前RGB特征frgb和来自深度分支的引导特征gd(fd)的级联特征,gd表示深度分支的特征适配层,fd表示同一级的对应深度特征,
Figure FDA0002377206680000014
表示当前深度特征fd和来自RGB分支的引导特征grgb(frgb)的级联特征,grgb表示RGB分支的特征适配层,frgb表示同一级上的对应RGB特征,{·,·}表示特征级联操作。
4.根据权利要求1所述的方法,其特征在于,所述的基于RGB图像和深度图像的跨模态特征,通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征,得到具有判别力的显著性特征级包括:
基于跨模态特征,由深到浅地逐步整合来自同一级的跨模态特征,并通过深度监督方法产生三组侧输出;
基于侧输出,通过块内残差注意力模块并根据跨模态特征中各区域的重要程度,对跨模态特征中各区域进行加权。
5.根据权利要求4所述的方法,其特征在于,所述的基于侧输出,通过块内残差注意力模块并根据跨模态特征中各区域的重要程度,对跨模态特征中各区域进行加权包括:
通过块内残差注意力模块,对同一级跨模态特征的浅层特征进行加权,使跨模态特征中各区域具有相适应的权重。
6.根据权利要求5所述的方法,其特征在于,块内残差注意力模块表示为
Figure FDA0002377206680000021
Figure FDA0002377206680000022
式中,finbRAM表示经过块内残差注意力模块后的特征,f表示一组输入特征,Wsp表示同一级的侧输出,
Figure FDA0002377206680000023
Figure FDA0002377206680000024
分别表示逐像素相加和相乘操作。
7.根据权利要求4所述的方法,其特征在于,所述的基于显著性特征,通过损失函数,进行显著性预测,得到显著性结果图包括:
通过损失函数,对交织融合网络进行约束训练;
该损失函数由交叉熵损失项和对抗损失项生成;
该交叉熵损失项表示为
Figure FDA0002377206680000025
(4),式中,φ表示网络需要学习的参数,Y+和Y_表示显著性真图Y中的正样本和负样本像素X表示给定的RGB-D图像,P(·)表示像素的显著性置信值,*={f,s1,s2,s3}分别对应最终输出和侧输出;
该对抗损失项表示为
Figure FDA0002377206680000026
式中,G表示生成器,D表示鉴别器,I表示输入;
损失函数表示为:
Figure FDA0002377206680000027
式中,
Figure FDA0002377206680000028
Figure FDA0002377206680000029
分别表示最终输出和侧输出的标准交叉熵损失项,
Figure FDA00023772066800000210
表示对抗损失项,λ用于控制对抗损失项比例。
CN202010070635.4A 2020-01-21 2020-01-21 一种rgb-d图像显著性目标获取的方法 Active CN111242238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010070635.4A CN111242238B (zh) 2020-01-21 2020-01-21 一种rgb-d图像显著性目标获取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010070635.4A CN111242238B (zh) 2020-01-21 2020-01-21 一种rgb-d图像显著性目标获取的方法

Publications (2)

Publication Number Publication Date
CN111242238A true CN111242238A (zh) 2020-06-05
CN111242238B CN111242238B (zh) 2023-12-26

Family

ID=70878083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010070635.4A Active CN111242238B (zh) 2020-01-21 2020-01-21 一种rgb-d图像显著性目标获取的方法

Country Status (1)

Country Link
CN (1) CN111242238B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN111814895A (zh) * 2020-07-17 2020-10-23 大连理工大学人工智能大连研究院 基于绝对和相对深度诱导网络的显著性目标检测方法
CN113076947A (zh) * 2021-03-26 2021-07-06 东北大学 一种交叉引导融合的rgb-t图像显著性检测系统
CN113486899A (zh) * 2021-05-26 2021-10-08 南开大学 一种基于互补分支网络的显著性目标检测方法
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN114549668A (zh) * 2022-01-04 2022-05-27 华南农业大学 一种基于视觉显著图的树上果实成熟度检测方法
CN115019068A (zh) * 2022-05-26 2022-09-06 杭州电子科技大学 一种基于编解码架构的渐进式显著目标识别方法
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN117710207A (zh) * 2024-02-05 2024-03-15 天津师范大学 一种基于渐进对齐和交织融合网络的图像拼接方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106734A1 (en) * 2009-04-24 2011-05-05 Terrance Boult System and appartus for failure prediction and fusion in classification and recognition
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
WO2019104767A1 (zh) * 2017-11-28 2019-06-06 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106734A1 (en) * 2009-04-24 2011-05-05 Terrance Boult System and appartus for failure prediction and fusion in classification and recognition
WO2019104767A1 (zh) * 2017-11-28 2019-06-06 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHARLES MALLESON等: "Hybrid Modeling of Non-Rigid Scenes from RGBD Cameras", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 29, no. 8, XP011738139, DOI: 10.1109/TCSVT.2018.2863027 *
项前;唐继婷;吴建国;: "多级上采样融合的强监督RGBD显著性目标检测", 计算机工程与应用, no. 19 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768375B (zh) * 2020-06-24 2022-07-26 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN111814895A (zh) * 2020-07-17 2020-10-23 大连理工大学人工智能大连研究院 基于绝对和相对深度诱导网络的显著性目标检测方法
CN113076947A (zh) * 2021-03-26 2021-07-06 东北大学 一种交叉引导融合的rgb-t图像显著性检测系统
CN113076947B (zh) * 2021-03-26 2023-09-01 东北大学 一种交叉引导融合的rgb-t图像显著性检测系统
CN113486899A (zh) * 2021-05-26 2021-10-08 南开大学 一种基于互补分支网络的显著性目标检测方法
CN113763422B (zh) * 2021-07-30 2023-10-03 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113763422A (zh) * 2021-07-30 2021-12-07 北京交通大学 一种rgb-d图像显著性目标检测方法
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN113837223B (zh) * 2021-08-24 2023-06-09 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN114549668A (zh) * 2022-01-04 2022-05-27 华南农业大学 一种基于视觉显著图的树上果实成熟度检测方法
CN115019068A (zh) * 2022-05-26 2022-09-06 杭州电子科技大学 一种基于编解码架构的渐进式显著目标识别方法
CN115019068B (zh) * 2022-05-26 2024-02-23 杭州电子科技大学 一种基于编解码架构的渐进式显著目标识别方法
CN117173394A (zh) * 2023-08-07 2023-12-05 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN117173394B (zh) * 2023-08-07 2024-04-02 山东大学 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN117710207A (zh) * 2024-02-05 2024-03-15 天津师范大学 一种基于渐进对齐和交织融合网络的图像拼接方法

Also Published As

Publication number Publication date
CN111242238B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN111242238A (zh) 一种rgb-d图像显著性目标获取的方法
Anwar et al. Image colorization: A survey and dataset
CN105654492B (zh) 基于消费级摄像头的鲁棒实时三维重建方法
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
CN111754438B (zh) 基于多分支门控融合的水下图像复原模型及其复原方法
CN113240580A (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN112950477B (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN111145290B (zh) 一种图像彩色化方法、系统和计算机可读存储介质
CN111325165A (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN113763422B (zh) 一种rgb-d图像显著性目标检测方法
CN112288627A (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN113538243B (zh) 基于多视差注意力模块组合的超分辨图像重建方法
CN110070574A (zh) 一种基于改进PSMNet的双目视觉立体匹配算法
CN111696033A (zh) 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法
CN113379707A (zh) 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
Wang et al. DCMNet: Discriminant and cross-modality network for RGB-D salient object detection
Cong et al. Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360$^{\circ} $ Omnidirectional Image
CN111489405B (zh) 基于条件增强生成对抗网络的人脸草图合成系统
CN117094895B (zh) 图像全景拼接方法及其系统
Wei et al. Bidirectional attentional interaction networks for rgb-d salient object detection
CN113705358B (zh) 一种基于特征映射的多角度侧脸正面化方法
CN112884773B (zh) 基于背景变换下目标注意力一致性的目标分割模型
Kanwal et al. CVit-Net: A conformer driven RGB-D salient object detector with operation-wise attention learning
Liang et al. Agnet: Attention guided sparse depth completion using convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant