CN111242238B

CN111242238B - 一种rgb-d图像显著性目标获取的方法

Info

Publication number: CN111242238B
Application number: CN202010070635.4A
Authority: CN
Inventors: 丛润民; 李重仪; 赵耀; 钟启航; 李心怡; 王玉洁
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-12-26
Anticipated expiration: 2040-01-21
Also published as: CN111242238A

Abstract

本发明提供一种RGB‑D图像显著性目标获取的方法，提出一种交织融合网络，用于相互指导RGB‑D特征的联合提取，并通过网络浅层和深层结构密集地整合跨模态的互补信息，这样能自动且充分地抓取潜在的有用信息，并减少由于跨模态数据的不一致性引起的干扰。与单独提取RGB‑D特征后将其整合方式相比，RGB‑D特征的交互引导有利于促进跨模态信息的互补性融合，缓解不同模态中的不一致问题；还可以降低因为成像环境或设备引起的低质深度图带来的负面影响。通过在损失函数构造时引入对抗损失项，为RGB‑D显著性目标检测提供全局语义约束，使检测结果不仅关注像素级显著性属性，还能捕获对象级的全局语义特征，生成具有完整结构、清晰边界的显著性图。

Description

一种RGB-D图像显著性目标获取的方法

技术领域

本发明涉及计算机视觉、深度学习技术领域，尤其涉及一种RGB-D图像显著性目标获取的方法。

背景技术

人类的视觉注意力机制可快速从场景中定位最吸引其注意的内容，受此机制启发，视觉显著性目标检测任务就是希望计算机也可以模拟该机制，自动定位场景中的显著性目标或区域，已经被广泛应用于分割、检测、编码、重定向、质量评价等诸多领域，具有十分广阔的理论研究和工程应用前景。实际上，人眼通过双目视觉感知外部客观世界，进而获得场景的景深信息，产生立体感。随着传感器设备的不断成熟与发展，深度图的采集变得更加准确和方便，RGB-D图像数据可以为场景描述提供彩色和深度两种模态信息，更接近于人类真实的视觉感知系统，两种模态信息相辅相成、互为补充，进而提供更加全面的数据表达方法，有利于进一步增强相关视觉任务的性能，如显著性目标检测、场景分析等。近年来，大数据时代的来临为深度学习技术的蓬勃发展提供了有利支持，该技术已经在很多研究邻域取得了显著地性能突破与提升，其中也包括RGB-D图像的显著性目标检测任务。

Qu等人设计了一种卷积神经网络(CNN)来自动学习底层线索和显著性结果之间的相互作用关系以实现RGB-D图像显著性目标检测。该方法首先将局部对比度、全局对比度、背景先验和空间先验组合得到原始显著性特征向量，然后将其嵌入到CNN中生成初始显著性图，最后引入拉普拉斯传播以进一步细化初始显著性图并得到最终结果。Han等人将RGB网络结构迁移到深度视角，并将两个视角的深层表示融合以生成最终的显著性图。Chen等人提出了一种用于RGB-D显著性目标检测的渐进互补的融合网络，其中引入了跨模态残差函数和互补感知监督。

Chen等人提出了一种三流注意力感知的RGB-D显著性目标检测网络，其中跨模态流侧重于增强自下而上通路中的RGB-D特征表示，通道注意力机制旨在自适应地选择自上而下的推断通路中的互补特征图。Zhao等人在CNN架构中引入对比度先验来增强深度信息，并且将增强的深度线索进一步与RGB特征集成，通过一种新颖的流体金字塔集成模块进行显著性目标检测。

发明内容

本发明的实施例提供了一种RGB-D图像显著性目标获取的方法，以解决发明人发现的现有技术中存在的以下缺点和不足：(1)对于彩色图和深度图的跨模态互补信息融合的挖掘并不深入，导致融合后的特征判别力不足，影响算法性能；(2)现有算法并未关注显著性目标结构的完整性，导致检测结果中显著性区域不完整、边缘模糊。

为了实现上述目的，本发明采取了如下技术方案。

一种RGB-D图像显著性目标获取的方法，包括：

基于输入的RGB-D图像，通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征；

基于RGB图像和深度图像的跨模态特征，通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征，得到具有判别力的显著性特征；

基于显著性特征，通过损失函数进行显著性预测，得到显著性结果图。

优选地，基于输入的RGB-D图像，通过交织融合网络中的RGB分支和深度分支分别提取RGB图像和深度图像的跨模态特征包括：

基于RGB-D图像的RGB图像，通过交织融合网络的RGB分支进行特征提取，获得深度引导的RGB-D特征；

基于RGB-D图像的深度图像，通过交织融合网络的深度分支进行特征提取，获得RGB引导的RGB-D特征；

该两个子步骤同时执行；RGB分支和深度分支都分别包括多个特征适配层用于跨模态特征转换；RGB分支还用于引导深度分支进行特征提取，深度分支还用于引导RGB分支进行特征提取。

优选地，基于输入的RGB-D图像，通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征还包括：

基于RGB-D图像，分别通过和/> 进行特征提取，获得跨模态特征，式中，/>表示当前RGB特征f_rgb和来自深度分支的引导特征g_d(f_d)的级联特征，g_d表示深度分支的特征适配层，f_d表示同一级的对应深度特征，表示当前深度特征f_d和来自RGB分支的引导特征g_rgb(f_rgb)的级联特征，g_rgb表示RGB分支的特征适配层，f_rgb表示同一级上的对应RGB特征，{·,·}表示特征级联操作。

优选地，基于RGB图像和深度图像的跨模态特征，通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征，得到具有判别力的显著性特征级包括：

基于跨模态特征，由深到浅地逐步整合来自同一级的跨模态特征，并通过深度监督方法产生三组侧输出；

基于侧输出，通过块内残差注意力模块并根据跨模态特征中各区域的重要程度，对跨模态特征中各区域进行加权。

优选地，基于侧输出，通过块内残差注意力模块并根据跨模态特征中各区域的重要程度，对跨模态特征中各区域进行加权包括：

通过块内残差注意力模块，对同一级跨模态特征的浅层特征进行加权，使跨模态特征中各区域具有相适应的权重。

优选地，块内残差注意力模块表示为式中，f_inbRAM表示经过块内残差注意力模块后的特征，f表示一组输入特征，W_sp表示同一级的侧输出，/>和分别表示逐像素相加和相乘操作。

优选地，基于显著性特征，通过损失函数，进行显著性预测，得到显著性结果图包括：

通过损失函数，对交织融合网络进行约束训练；

该损失函数由交叉熵损失项和对抗损失项生成；

该交叉熵损失项表示为

(4)，式中，φ表示网络需要学习的参数，Y₊和Y_-表示显著性真图Y中的正样本和负样本像素X表示给定的RGB-D图像，P(·)表示像素的显著性置信值，*＝{f,s1,s2,s3}分别对应最终输出和侧输出；

该对抗损失项表示为式中，G表示生成器，D表示鉴别器，I表示输入；

损失函数表示为：

式中，/>和/>分别表示最终输出和侧输出的标准交叉熵损失项，/>表示对抗损失项，λ用于控制对抗损失项比例。

由上述本发明的实施例提供的技术方案可以看出，本发明提供的一种RGB-D图像显著性目标获取的方法，交织融合网络提出了一种交织融合网络，它用于相互指导RGB-D特征的联合提取，并通过网络的浅层和深层结构密集地整合跨模态的互补信息，这样网络可以自动且充分地抓取潜在的有用信息，并减少由于跨模态数据的不一致性引起的干扰。与独立地提取RGB-D特征后将他们整合在一起的方式相比，RGB-D特征之间的交互引导方式有利于促进跨模态信息之间的互补性融合，缓解不同模态中的不一致问题；还可以降低因为成像环境或设备引起的低质深度图带来的负面影响，增强特征的判别力。通过在损失函数构造时引入对抗损失项，为RGB-D显著性目标检测提供全局语义约束，使检测结果不仅关注像素级显著性属性，还能捕获对象级的全局语义特征，生成具有完整结构、清晰边界的显著性图。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种RGB-D图像显著性目标获取的方法的处理流程图；

图2为本发明提供的一种RGB-D图像显著性目标获取的方法的网络结构图；

图3为本发明提供的一种RGB-D图像显著性目标获取的方法的可视化实例示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

参见图1，本发明提供的一种RGB-D图像显著性目标获取的方法，用于充分挖掘彩色和深度的跨模态信息，改善显著性目标的结构完整性和边缘锐利性，以及设计一种注意力机制引导的RGB-D图像显著性目标检测方法，增强算法性能；该方法包括：

获取原始图像，进一步获取输入的RGB-D图像；

在本发明的实施例中，提供了用于执行本发明方法的交织融合网络，如图2所示，其主要架构包括RGB分支、深度分支和融合分支；RGB分支从输入RGB图像中提取多级特征，同时将这些特征与同级的深度分支提取的深度特征集成；反之亦然，在深度分支中也需要不断地与同级的RGB分支特征集成，这样可以增大RGB信息与深度信息的交互力度，学习到更全面、更具判别力的跨模态特征表达。

发明人在研究中发现，深层特征包含了更多的高层语义信息，而浅层特征则具有更多的细节信息。需要指出的是，高层语义信息和浅层细节信息对于提高显著性目标检测的性能都是必不可少的。

与现有融合方式不同，在本发明的实施例中提出了一种交织融合的方案，它用于相互指导RGB-D特征的联合提取，并通过网络的浅层和深层结构密集地整合跨模态的互补信息，这样网络可以自动且充分地抓取潜在的有用信息，并减少由于跨模态数据的不一致性引起的干扰。

考虑到跨模态数据的不一致性，本发明设计的交织融合网络在RGB-D特征之间执行密集交互和分层融合。与独立地提取RGB-D特征后将他们整合在一起的方式相比，RGB-D特征之间的交互引导方式有利于促进跨模态信息之间的互补性融合，缓解不同模态中的不一致问题。此外，该策略还可以降低因为成像环境或设备引起的低质深度图带来的负面影响，增强特征的判别力。

发明人在研究中发现，现有基于深度学习的RGB-D显著性目标检测方法通常通过最小化交叉熵损失函数来优化网络。然而，这些损失函数并未跳出像素级检测任务的限制，缺乏对象级的语义先验，进而导致模型不能完整、清晰地检测显著性目标。因此，在本发明的实施例中将对抗损失项引入损失函数中，为RGB-D显著性目标检测提供全局语义约束，使得检测结果不仅关注像素级显著性属性，还能够捕获对象级的全局语义特征，生成具有完整结构、清晰边界的显著性图。

在本发明提供的优选实施例中，其执行过程为：

进一步的，在一些优选实施例中，RGB分支和深度分支都共享相同的主干网络架构，其包括多层(级)提取块(例如优选五个提取块)，下采样操作是每个提取块的边界。在每个提取块中，特征具有相同的维数。此外，除主干网络外，每个分支都包含多个(级)特征适配层，即额外的卷积层，主要用于对当前的RGB(或深度)特征进行转换，进而用于指导提取的深度(或RGB)特征，在一种优选实施例中，每个分支具有8个特征适配层。这种的交互指导融合策略可以有效降低跨模态信息的不一致性，并促进特征的互补性融合。此外，它还提供了鲁棒而紧凑的特征。

更进一步的，基于RGB-D图像，分别通过交织融合网络的RGB分支和深度分支进行特征提取具体可表示为：

基于RGB-D图像，分别通过和/> 进行特征提取，获得跨模态特征，式中，/>表示当前RGB特征f_rgb和来自深度分支的引导特征g_d(f_d)的级联特征，g_d表示深度分支的特征适配层，通过一个卷积实现(核大小为3×3，步长2)，f_d表示同一级上的对应深度特征，/>表示当前深度特征f_d和来自RGB分支的引导特征g_rgb(f_rgb)的级联特征，g_rgb表示RGB分支的特征适配层，f_rgb表示同一级上的对应RGB特征，对于f_rgb和f_d特征，下标rgb和d意味着特征来自于RGB分支和深度分支，{·,·}表示特征级联操作。

借助分层的跨模态特征，同一级的RGB特征和深度特征与之前的融合特征以密集融合的方式进行特征集成，提取具有判别力的特征表达。这种密集的融合方式充分整合了来自不同模态数据的互补特征，并以从粗到细的方式将更深层中的融合特征推向最终输出，这种步进式的设计有利于逐渐提取有效特征，使得结果逐渐变得完整而清晰。

进一步的，上述基于跨模态特征，由深到浅的逐步整合来自同一级的跨模态特征，得到具有判别力的显著性特征的步骤通过融合分支执行；在融合分支中，以由深到浅的方式逐步整合来自同一级别的互补跨模态特征，并以粗略到精细的方式采用深度监督方法产生三组侧输出。利用这些侧输出，通过块内残差注意力模块对RGB-D特征中不同重要程度的区域进行不同程度的加权，进而更好地突出显著性目标并抑制杂乱的背景。最后，网络通过使用这些有判别力的互补特征来生成显著性图；

大多数显著性目标检测方法都是同等程度地处理提取特征图中的所有区域，而忽略不同区域对于最终检测应该具有不同贡献的事实。因此，这些方法往往存在大量的信息冗余，并且容易受到杂乱背景的影响。

为了解决这个问题，本发明的优选实施例中，融合分支引入块内残差注意力模块，将侧输出看作是特征选择器，对同一层提取块中跨模态特征的浅层特征进行加权，进而给予不同区域的特征不同的重要性权重，这样有助于更好地突出显著性目标并抑制杂乱的背景。此外，为了保证显著性目标具有锐利而清晰的边界，本发明直接通过同一提取块中的联合特征生成侧输出，即同组侧输出单独对应同级提取块，而非利用双线性插值将侧输出上采样到与浅层块中特征图相同的分辨率，有效避免了因为双线性插值带来的侧输出模糊问题，尤其是边缘和边界区域；

更进一步的，块内残差注意力模块表示为式中，f_inbRAM表示经过块内残差注意力模块后的特征，f表示一组输入特征，W_sp表示相对应的提取块内跨模态特征的侧输出，/>和/>分别表示逐像素相加和相乘操作。值得注意的是，考虑到最深层的提取块中的特征分辨率太低，很难提供充足的有效信息，因此在设计网络结构时不在最深层提取块(例如第五级提取块)中使用块内残差注意力模块。

进一步的，上述基于显著性特征，通过损失函数进行显著性预测，得到显著性结果图的步骤中设计了包含交叉熵损失项和对抗损失项的损失函数，以此约束网络训练的过程；现有基于深度学习的RGB-D显著性目标检测方法通常通过最小化交叉熵损失函数(例如，标准交叉熵损失、平衡交叉熵损失等)来优化网络。然而，这些损失函数并未跳出像素级检测任务的限制，缺乏对象级的语义先验，进而导致模型不能完整、清晰地检测显著性目标。因此，本发明在损失函数构造时引入对抗损失项，为RGB-D显著性目标检测提供全局语义约束，使得检测结果不仅关注像素级显著性属性，还能够捕获对象级的全局语义特征，生成具有完整结构、清晰边界的显著性图。具体为：该损失函数由交叉熵损失项和对抗损失项生成；

该交叉熵损失项分别在提取块的最终输出和侧输出上利用标准二值交叉熵损失，其表达式为式中，φ表示网络需要学习的参数，Y₊和Y_-表示显著性真图Y中的正样本和负样本像素X表示给定的RGB-D图像，P(·)表示像素的显著性置信值，*＝{f,s1,s2,s3}分别对应提取块的最终输出和侧输出，在本实施例中，为三个侧输出；

该对抗损失项作用是为了利用上下文信息，将最终输出与当前输出对应的RGB-D图像进行连接并作为输入。然后，输入被馈送到鉴别器以学习一个联合分布。为了鼓励生成的显著性图与真图尽可能的接近，采用求解如下优化问题的方式表达：min_Gmax_DΕ_I[log(1-D(I,G(I)))]+Ε_I,J[log(D(I,J)](5)，式中，G表示生成器(即本发明提供的交织融合网络)，用于生成欺骗鉴别器的“假”图，D表示鉴别器，用于区分“假”图和“真”图，I表示输入，即RGB-D图像与生成的显著性结果图的组合，J表示对应的显著性真图；

为了训练生成网络，可以直接对公式最小化处理；

进一步获得损失函数式中，和/>分别表示提取块的最终输出和侧输出的标准交叉熵损失项，/>表示对抗损失项，λ用于控制对抗损失项比例。

附图3给出了两个本发明技术的可视化实例。第一列为RGB图像，第二列为深度图，第三列为显著性真图，第四列为本发明得到的显著性结果。从结果可以看出，本发明方法可以准确提取RGB-D图像中的显著性目标，目标轮廓清晰、结构完整，内部一致性较好。而且，两个场景都相对较为复杂，对于背景区域(如第一个图像中的蓝色盒子和第二个图像中的多个任务)具有较好的抑制效果。

综上所述，本发明提供的一种RGB-D图像显著性目标获取的方法，提出了一种交织融合网络，它用于相互指导RGB-D特征的联合提取，并通过网络的浅层和深层结构密集地整合跨模态的互补信息，这样网络可以自动且充分地抓取潜在的有用信息，并减少由于跨模态数据的不一致性引起的干扰。与独立地提取RGB-D特征后将他们整合在一起的方式相比，RGB-D特征之间的交互引导方式有利于促进跨模态信息之间的互补性融合，缓解不同模态中的不一致问题；还可以降低因为成像环境或设备引起的低质深度图带来的负面影响，增强特征的判别力。通过在损失函数构造时引入对抗损失项，为RGB-D显著性目标检测提供全局语义约束，使得检测结果不仅关注像素级显著性属性，还能够捕获对象级的全局语义特征，生成具有完整结构、清晰边界的显著性图。

本发明提供的方法利用交织融合网络模型通过交织融合的方式处理RGB-D图像，其执行架构主要包括RGB分支、深度分支和融合分支三个分支结构。具体而言，RGB分支从输入RGB图像中提取多级特征，同时将这些特征与同级的深度分支提取的深度特征集成。反之亦然，在深度分支中也需要不断地与同级的RGB分支特征集成，这样可以增大RGB信息与深度信息的交互力度，学习到更全面、更具判别力的跨模态特征表达。在融合分支中，以由深到浅的方式逐步整合来自同一级别的互补RGB-D特征，并以粗略到精细的方式采用深度监督方法产生三组侧输出。利用这些侧输出，通过块内残差注意力模块对RGB-D特征中不同重要程度的区域进行不同程度的加权，进而更好地突出显著性目标并抑制杂乱的背景。最后，网络通过使用这些有判别力的显著性特征来生成显著性图。

本发明提供的方法，具有如下有益效果：

可以有效挖掘跨模态数据之间的互补信息，能够准确、完整地突出显著性目标，且具有较强的背景抑制能力；

充分整合了来自不同模态数据的互补特征，并以从粗到细的方式将更深层中的融合特征推向最终输出，这种步进式的设计有利于逐渐提取有效特征，使得结果逐渐变得完整而清晰；

采用的残差注意力模块直接通过同一块中的联合特征生成侧输出，而非利用双线性插值将侧输出上采样到与浅层块中特征图相同的分辨率，有效避免了因为双线性插值带来的侧输出模糊问题，尤其是边缘和边界区域；

采用的损失函数在标准交叉熵损失项的基础上引入对抗损失项，为RGB-D显著性目标检测提供全局语义约束，使得检测结果不仅关注像素级显著性属性，还能够捕获对象级的全局语义特征，生成具有完整结构、清晰边界的显著性图。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种RGB-D图像显著性目标获取的方法，其特征在于，包括：

基于输入的RGB-D图像，通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征；具体包括：

该两个子步骤同时执行；RGB分支和深度分支都分别包括多个特征适配层用于跨模态特征转换；RGB分支还用于引导深度分支进行特征提取，深度分支还用于引导RGB分支进行特征提取；

2.根据权利要求1所述的方法，其特征在于，所述的基于输入的RGB-D图像，通过交织融合网络中的RGB分支、深度分支分别提取RGB图像和深度图像的跨模态特征还包括：

基于RGB-D图像，分别通过和/> 进行特征提取，获得跨模态特征，式中，/>表示当前RGB特征f_rgb和来自深度分支的引导特征g_d(f_d)的级联特征，g_d表示深度分支的特征适配层，f_d表示同一级的对应深度特征，/>表示当前深度特征f_d和来自RGB分支的引导特征g_rgb(f_rgb)的级联特征，g_rgb表示RGB分支的特征适配层，f_rgb表示同一级上的对应RGB特征，{·,·}表示特征级联操作。

3.根据权利要求1所述的方法，其特征在于，所述的基于RGB图像和深度图像的跨模态特征，通过交织融合网络中的融合分支由深到浅的逐步整合来自同一级的跨模态特征，得到具有判别力的显著性特征级包括：

4.根据权利要求3所述的方法，其特征在于，所述的基于侧输出，通过块内残差注意力模块并根据跨模态特征中各区域的重要程度，对跨模态特征中各区域进行加权包括：

5.根据权利要求4所述的方法，其特征在于，块内残差注意力模块表示为式中，f_inbRAM表示经过块内残差注意力模块后的特征，f表示一组输入特征，W_sp表示同一级的侧输出，/>和/>分别表示逐像素相加和相乘操作。

6.根据权利要求3所述的方法，其特征在于，所述的基于显著性特征，通过损失函数，进行显著性预测，得到显著性结果图包括：

通过损失函数，对交织融合网络进行约束训练；

该损失函数由交叉熵损失项和对抗损失项生成；

该交叉熵损失项表示为

损失函数表示为：