CN114140611A

CN114140611A - 显著目标检测方法及装置、电子设备和存储介质

Info

Publication number: CN114140611A
Application number: CN202111426990.1A
Authority: CN
Inventors: 毕洪波; 刘子琦; 吴然万; 张丛; 张佳圆; 仝玉宇; 童靖辉
Original assignee: Northeast Petroleum University
Current assignee: Northeast Petroleum University
Priority date: 2021-11-28
Filing date: 2021-11-28
Publication date: 2022-03-04

Abstract

本公开涉及一种显著目标检测方法及装置、电子设备和存储介质，所述方法包括：对彩色图像和深度图执行多层特征提取，对应得到多层的图像特征和深度特征，其中，相同层的图像特征和深度特征构造为一个特征组；将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征；对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征；利用所述第二融合特征确定所述彩色图像和深度图中显著目标。本公开实施例可提高显著目标的检测精度。

Description

显著目标检测方法及装置、电子设备和存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种显著目标检测方法及装置、电子设备和存储介质。

背景技术

显著目标检测(SOD)旨在检测和标记场景中最引人注目的物体。SOD在物体识别、图像重定向、图像检索、图像视频压缩、图像增强等方面有着广泛的应用。近年来，为了应对复杂有干扰的背景的挑战，出现了许多RGB-D显著目标检测方法。RGB-D显著目标检测采用一对彩色和深度图作为多模态输入源来模拟人体的立体视觉。深度特征提供了RGB特征的补充信息，如空间距离信息、对象布局和边界。现有的RGB-D显著目标检测方法探索了不同的方案来处理多层次和多模态特征，这些方法根据融合策略分，大致可以分为早期融合、中间融合和后期融合这三类。然而，这些方法仍面临着深度特征不能有效提取和多模态特征不能充分融合的挑战，这导致了网络不能准确地检测出显著目标。

发明内容

本公开提出了一种显著目标检测方法及装置、电子设备和存储介质，用以解决现有技术中难以有效提取深度特征以及融合多模态特征的技术问题。

根据本公开的一方面，提供了一种显著目标检测方法，其包括：

对彩色图像和深度图执行多层特征提取，对应得到多层的图像特征和深度特征，其中，相同层的图像特征和深度特征构造为一个特征组；

将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征；

对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征；

利用所述第二融合特征确定所述彩色图像和深度图中显著目标。

在一些可能的实施方式中，在将所述特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征之前，所述方法还包括：

从所述特征组中选择出所述至少两个特征组，其中所述至少两个特征组中的特征包括中层特征和/或高层特征。

在一些可能的实施方式中，将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征，包括：

对所述特征组中的图像特征和深度特征分别执行多尺度增强处理，得到第一增强特征和第二增强特征；

对所述第二增强特征执行通道注意力提取处理，得到矫正深度图；

基于所述矫正深度图确定深度注意力系数；

利用所述第一增强特征和所述深度注意力系数的乘积得到所述第一融合特征。

在一些可能的实施方式中，所述对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征，包括：

利用所述特征组的第一融合特征得到对应的权重特征；

基于任意两个相邻特征组的第一融合特征和权重特征，得到所述相邻特征组的交互特征；

对所述交互特征执行融合处理得到所述第二融合特征。

在一些可能的实施方式中，所述对所述交互特征执行融合处理得到所述第二融合特征，包括：

分别对所述交互特征执行卷积处理后进行连接，得到连接特征；

利用所述至少两个特征组中最低层的特征组的权重特征，以及所述最低层的特征组及其相邻特征组的交互特征，得到第三融合特征；

基于所述第三融合特征以及所述连接特征，得到所述第二融合特征。

在一些可能的实施方式中，所述利用所述特征组的第一融合特征得到对应的权重特征，包括：

对所述特征组的第一融合特征执行卷积处理和归一化处理，对应的得到所述权重特征。

在一些可能的实施方式中，所述利用所述第二融合特征确定所述彩色图像和深度图中的显著目标，包括：

基于所述第二融合特征，确定表示所述彩色图像和深度图中显著目标位置信息的特征图；

基于所述特征图确定所述显著目标。

根据本公开的第二方面，提供了一种显著目标检测装置，其所述装置包括：

特征提取模块，其用于对彩色图像和深度图执行多层特征提取，对应得到多层的图像特征和深度特征，其中，相同层的图像特征和深度特征构造为一个特征组；

跨模态融合模块，其用于将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征；

特征交互模块，其用于对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征；

检测模块，其用于利用所述第二融合特征确定所述彩色图像和深度图中的显著目标。

根据本公开的第三方面，提供了一种电子设备，其包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行第一方面中任意一项所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现第一方面中任意一项所述的方法。

在本公开实施例中，首先对彩色图像和深度图执行多层特征提取，得到多个特征组，将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征，以及对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征；并利用所述第二融合特征确定所述彩色图像和深度图中的显著目标。本公开实施例通过对多模态特征的融合以及特征之间的交互，实现了细节特征的提取和融合，提高了显著目标的检测精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出根据本公开实施例的显著目标检测方法的流程图；

图2示出根据本公开实施例的显著目标检测网络的结构示意图；

图3示出根据本公开实施例执行跨模态融合处理的流程图；

图4示出根据本公开实施例的多尺度增强处理的网络结构示意图；

图5示出根据本公开实施例的跨模态融合网络的结构示意图；

图6示出根据本公开实施例中执行特征交互的流程；

图7示出根据本公开实施例中步骤S40的流程图；

图8示出根据本公开实施例的网络及现有网络对显著目标检测结果对比示意图；

图9示出根据本公开实施例的显著目标检测装置的框图；

图10示出根据本公开实施例的一种电子设备800的框图；

图11示出根据本公开实施例的另一种电子设备1900的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

本公开实施例的显著目标检测方法的执行主体可以是图像处理装置，例如，该方法可以由终端设备或服务器或其它处理设备执行，其中，终端设备可以为用户设备(UserEquipment，UE)、移动设备、用户终端、终端、蜂窝电话、无线电话、个人数字助理(PersonalDigital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。

图1示出根据本公开实施例的显著目标检测方法的流程图，如图1所示，所述方法包括：

S10：对彩色图像和深度图执行多层特征提取，对应得到多层的图像特征和深度特征，其中，相同层的图像特征和深度特征构造为一个特征组；

在一些可能的实施方式中，可以利用图像采集器获得深度图像，该深度图像可以包括RGB三通道的彩色图像以及对应的深度图，其中，彩色图像和深度图中的像素点是一一对应的。本公开对具有映射关系的彩色图像和深度图进行处理，得到其中显著目标的位置。

本公开实施例可以对彩色图像和相应的深度图执行特征提取处理，通过设置多层特征提取，可以得到不同层次的特征信息。如可以提取出彩色图像和深度图的低层信息、中层信息和高层信息，但不作为本公开的具体限定。在一个示例中，可以利用多个卷积块对彩色图像和深度图分别依次进行特征提取，得到多层特征，并构造成多个特征组。

S20：将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征；

在一些可能的实施方式中，可以对至少两个特征组的图像特征和深度特征执行融合处理，实现跨模态的特征信息的融合，使得图像特征和深度特征实现有效融合。

S30：对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征；

在一些可能的实施方式中，在对深度特征和图像特征进行跨模态融合处理后，本公开还进一步对相邻层次的特征之间的细节进行融合，得到更为细化的融合特征。

S40：利用所述第二融合特征确定所述彩色图像和深度图中的显著目标。

在一些可能的实施方式中，利用对第二融合特征的卷积处理和归一化处理可以得到显著目标的位置信息，实现显著目标的准确检测。其中，显著目标可以为一个，也可以为多个，本公开可实现实现多显著目标的检测。

基于上述配置，本公开实施例将多模态特征和多层次特征融合集成到一个统一的框架中进行精确的显著性检测，通过跨模态融合可以提取深度特征的空间结构信息，进而引导彩色RGB特征，然后通过特征交互处理可以融合相邻层的多模态融合特征，有效实现深度特征提取以及多模态特征的融合，提高显著目标的检测精度。

下面结合附图对本公开实施例进行详细说明。首先，本公开实施例获取深度图像的方式可以包括以下方式中的至少一种：

A)直接利用深度相机采集深度图像；

本公开实施例中，深度相机可以包括TOF(飞行时间相机)、双目相机、基于结构光的3D相机中的至少一种，但不作为本公开的具体限定。

B)通过电子设备传送并接收深度图像；

本公开实施例可以通过通信的方式接收其他电子设备传送的深度图像，通信方式可以包括有线通信和/或无线通信；

C)读取数据库中存储的深度图像；

本公开实施例可以根据接收到的数据读取指令读取本地存储的深度图像或者服务器内存储的深度图像，本公开对此不做具体限定。

在获得深度图像之后，可以对深度图像执行显著目标检测。其中，首先对深度图像中的彩色图像和深度图执行特征提取，得到多尺度特征(本公开实施例的多层特征)。本公开实施例可以利用特征提取模块执行该多层特征的提取，特征提取模块可以利用残差网络、金字塔网络等特征提取网络实现。图2示出根据本公开实施例中的目标检测网络的结构示意图。在一个示例中，本公开实施例中的特征提取模块可以包括ResNet-50的5个卷积块，该5个卷积块依次用于提取不同尺度的特征信息，分为3个部分。前两个卷积块(卷积1和卷积2)可以用于提取低层特征，第三层卷积块(卷积3)用于提取中层特征，其余卷积块(卷积4和卷积5)用于提取高层特征，通过该方式可以提取图像在不同尺度或层下的特征信息，为后续丰富特征的融合和交互提供基础。

如图2所示，本公开实施例中，相同层的卷积处理得到的图像特征和深度特征可以构成一个特征组，如

和

为一个特征组，同理

和

以及

和

分别构成对应的特征组。各特征组内的特征信息构成了上述低层信息、中层信息和高层信息。在一个示例中，输入的彩色图像的尺度为352×352×3，深度图的尺度为352×352×1，对应的，卷积1处理后得到的特征组f₁ ^h和f₁ ^d的尺度为88×88×64，卷积2处理后的特征组尺度为88×88×256，以及卷积3处理后的特征组尺度为44×44×512，卷积4处理后的特征尺度为22×22×1024，以及卷积5处理后的特征组尺度为11×11×2048。上述为本公开的一个示例，不作为本公开的具体限定。

在对特征组内的特征信息执行融合处理之前，可以对特征组执行选择操作。本公开实施例可以从所述特征组中选择出所述至少两个特征组，其中所述至少两个特征组中的特征包括中层特征和/或高层特征。在一个示例中，特征组可以具有对应的标识，本公开实施例可以利用该标识识别和选择相应的特征组，或者本公开实施例还可以对各特征组进行分类，如可以包括低层特征的特征组，中层特征的特征组，以及高层特征的特征组，通过该分类可选择相应类别的特征组。

本公开的一个实施例中，由于低级特征具有丰富的细节，但是低级特征中杂乱的背景信息容易影响显著目标的检测，而高级特征具有丰富的语义信息，因此本公开可以选择中级特征和/或高级特征对应的特征组执行特征融合和交互处理，例如，本公开实施例选择的特征组为

和

和

以及

和

分别构成的特征组，其中分别包括了中层特征和高层特征。通过特征组的选择，一方面可以减少数据运算量，提高检测效率，另一方面，选择中高层的特征信息，能够提供更为细节的特征信息，减少低层信息的噪声的影响，提高特征信息精度。

在选择出执行后续处理的特征组之后，可以对各特征组内的特征执行跨模态融合处理。特征组的选择不作为本公开实施例的具体限定，在其他实施方式中，也可以通过其他方式选择所需的特征组，或者不对特征组进行选择，本公开对此不做具体限定。

图3示出根据本公开实施例执行跨模态融合处理的流程图。其中，将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征，包括：

S21：对所述特征组中的图像特征和深度特征分别执行多尺度增强处理，得到第一增强特征和第二增强特征；

S22：对所述第二增强特征执行通道注意力提取处理，得到矫正深度图；

S23：基于所述矫正深度图确定深度注意力系数；

S24：利用所述第一增强特征和所述深度注意力系数得到所述第一融合特征。

在一些可能的实施方式中，利用特征组中深度特征内的丰富空间结构信息粗略定位显著区域，并用该定位信息引导增强RGB图像特征。

具体地，首先可以分别对图像特征和深度特征执行多尺度增强处理。图4示出根据本公开实施例的多尺度增强处理的网络结构示意图。在一个实施例中，将图像特征和深度特征分别作为输入特征，输入到多尺度增强模块中进行特征增强，分别得到对应的第一增强特征和第二增强特征。下面以输入特征为例说明增强过程。首先，对输入特征执行1×1的卷积，得到第一卷积特征f₁，而后对卷积特征f₁执行不同扩张率的卷积，得到多个第二卷积特征f₂，如可以执行扩张率为1,3,5,7的3×3的卷积，而后将得到的各第二卷积特征f₂以及输入特征执行连接处理，得到对应的连接特征，对连接特征执行1×1卷积后得到与输入特征维度相同的特征，与原始的输入特征进行相加处理，得到最后的增强特征。通过不同扩张率的设置可以实现多尺度特征信息不同程度的融合和增强，有助于提高显著目标检测精度。

在分别得到图像特征和深度特征的增强特征(第一增强特征和第二增强特征)的情况下，对第二增强特征执行通道注意力提取处理，即利用深度特征中的空间结构信息初步得到显著区域。图5示出根据本公开实施例的跨模态融合网络的结构示意图，首先，对第二增强特征执行卷积处理，如3x3卷积处理和非线性激活处理(PRelu)得到卷积特征f₃，而后对特征f₃执行通道注意力提取处理，图5中虚线框部分为通道注意力提取处理模块，该模块依次对特征f₃执行全局平均池化处理，卷积处理(如3×3)，非线性激活处理，以及又一次卷积处理(3x3)和归一化(sigmoid)处理，将处理之后的特征和特征f₃的乘积确定为矫正深度图

而后对所述矫正深度图

执行卷积处理(如3×3)和归一化(sigmoid)处理得到深度注意力系数f₄；将该深度注意力系数与第一增强特征

相乘，得到第一融合特征f_i ^fuse。其中，矫正深度图和深度注意力系数中初步包含了显著目标的空间结构信息，通过这些深度信息可以对第一增强特征执行显著性引导和融合，在实现深度信息和图像特征融合基础上，还能加强显著区域的特征信息。该用于融合RGB特征和深度特征的计算模型可以表示为：

其中，f_i ^fuse表示第i个特征组对应的第一融合特征图，

表示校正深度图，

表示增强的RGB图像特征图，Rconv表示先进行3×3卷积，再进行PRelu操作，δ(·)表示Sigmoid激活函数。

另外，本公开实施例中，卷积3的特征组对应的第一融合特征的尺度为44×44×32，对应的卷积4和5的特征组对应的第一融合特征的尺度分别为22×22×32和11×11×32。上述仅为示例性说明，不作为本公开的具体限定。

基于上述配置，可以得到每个特征组中图像特征和深度特征的第一融合特征。继而可以执行各特征组之间的特征交互融合。图6示出根据本公开实施例中执行特征交互的流程，其中，所述对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征，包括：

S31：利用所述特征组的第一融合特征得到对应的权重特征；

S32：基于任意两个相邻特征组的第一融合特征和权重特征，得到所述相邻特征组的交互特征；

S33：对所述交互特征执行融合处理得到所述第二融合特征。

在一些可能的方式中，特征交互融合可以进一步细化多模态特征。首先将通过跨模态融合模块获得的第一融合特征分为两个分支，第一分支作为原始输出特征图，第二分支通过卷积层进行卷积运算，以增强特征，并与前一层的跨模态融合模块的输出相乘，目的是利用相邻层之间的交互特征来指导提取更有效的显著性区域信息。然后本公开可以将增强后的特征图与原始输出特征图相加，得到交互特征。

具体地，本公开可以对各特征组的第一融合特征进行处理得到用于特征交互的权重特征。其中，可以对第一融合特征执行3×3卷积处理和归一化(sigmoid)处理，得到对应的权重特征，如图2所示的ω₃，ω₄和ω₅。本公开实施例中，权重特征图可以表示对显著特征的增强。另外，由于不同特征组的特征的尺度不同，因此在得到权重特征之前对第一融合特征执行上采样处理，得到与前一特征组的融合特征相同尺度的特征，如卷积4和卷积5的第一融合特征分别被执行一次两倍的上采样处理。基于上采样结果执行权重特征的获取以及特征的交互。

在执行获取权重特征的同时，还可以利用任意两个相邻特征组的第一融合特征和权重特征，得到所述相邻特征组的交互特征。具体的，可以将特征组的权重特征与前一层级的特征组的第一融合特征执行相加处理，得到交互特征，如图2所示的s₄和s₅。交互特征s_i的计算公式为：

其中，S_i表示生成的交互特征图，ω_i表示权重特征图，

表示前一特征组跨模态融合模块的融合特征图(或上采样后的特征)，

表示第i个特征组的第一融合特征图(或上采样后的特征)，⊙表示逐元素相乘。

在得到交互特征的情况下，可以利用各交互特征得到第二融合特征。具体地，所述对所述交互特征执行融合处理得到所述第二融合特征，包括：分别对所述交互特征执行卷积处理后进行连接，得到连接特征；利用所述至少两个特征组中最低层的特征组的权重特征，以及所述最低层的特征组及其相邻特征组的交互特征，得到第三融合特征；基于所述第三融合特征以及所述连接特征，得到所述第二融合特征。

其中，可以对交互特征执行3×3的卷积和非线性激活处理，而后进行连接操作，得到连接特征s₆。另外，利用最低层级的特征组得到的权重特征ω₃，及该特征组与后一特征组的交互特征s₄的乘积可以得到第三融合特征，而后对连接特征执行3×3的卷积和非线性激活处理得到特征s₇，将特征s₇和第三融合特征执行相加处理，得到第二融合特征s。其中交互特征s₄及第三融合特征的尺度为44×44×32，交互特征s₅的尺度为22×22×32，但不作为本公开的具体限定。本公开实施例得到第二融合特征的过程可以表示为：

s＝Conv_3×3(Cat(Conv_3×3(s₄),Conv_3×3(s₅)))+ω₃⊙s₄

式中Conv_3×3(·)表示3×3卷积层连接非线性激活PRelu处理，Cat(·)表示连接操作，而⊙表示逐元素相乘。

在得到第二融合特征的情况下，可以利用该第二融合特征执行显著目标检测。具体地，图7示出根据本公开实施例中步骤S40的流程图。其中，所述利用所述第二融合特征确定所述彩色图像和深度图中显著目标，包括：

S41：对所述第二融合特征执行卷积处理和归一化处理，得到表示所述彩色图像和深度图中显著目标位置信息的特征图；

在一些可能的实施方式中，可以对第二融合特征执行上采样和反卷积操作，其中可以对第二融合特征执行4倍的上采样处理。通过上采样和反卷积处理可以将图像恢复到原始尺寸，之后再对特征做一个卷积核为1的卷积操作，将图像的通道变为1，最后经过一个sigmoid函数，生成最终的预测显著目标的特征图。该特征图中各像素点的像素值表示该点为显著目标的概率值，取值在0-1之间。

S42：基于所述特征图确定所述显著目标。

本公开实施例可以将特征图中概率大于阈值的像素点的取值调整为1，其余为0，从而分类出显著目标。其中，阈值可以为0.5，但不作为本公开具体限定。

另外，本公开实施例的显著目标的检测过程可以通过深度学习神经网络实现，该网络结构如图2所示，在训练该网络时，可以采用多类数据集以增加网络的鲁棒性，其中，本公开利用5个公开的RGBD显著性检测基准数据集(NJUD、SIP、NLPR、STERE、DES)进行网络的训练和测试，对来自NJU2K数据集的1485个样本和来自NLPR数据集的700个样本进行训练，使用来自NJU2K和NLPR数据集的其余图像和其他数据集的全部图像进行测试。本公开所采用的损失函数表示为

其中

和

代表带权重的交并比(IoU)损失和二值交叉熵(BCE)损失，分别用来计算全局约束和局部(像素级别)约束。标准的IoU损失已被广泛应用在分割任务上，而带权重的交并比损失增加了较难像素的权重。相较于标准的二值交叉熵损失，

更注重较难的像素而非赋予每个像素相同的权重。本公开利用训练集对跨模态融合模块和跨层次特征交互模块进行训练，计算总体损失函数L并通过梯度反向传播的迭代优化方式来对网络参数进行调整，当反向迭代次数达到预设的迭代阈值(如1000)时，完成训练。另外，测试过程中使用四种评价指标全面评价网络，评价指标包括S-measure(S_α)，最大E-measure(E_ξ)，最大F-measure(F_β)，平均绝对误差(MAE)。表1示出评价结果。

表1为本公开实施例的网络模型及现有网络的在五个数据集上针对评价指标的结果对比。

另外，图8示出根据本公开实施例的网络及现有网络对显著目标检测的对比示意图。其中，RGB和Depth分别为彩色图像和深度图，GT为真值图，其余为网络模型，最后一列为本公开提出的网络测试结果。相比之下，本公开模型以外的其他方法给出的结果不能令人满意，与真值图存在显著差异，特别是在深度图质量低、有背景干扰、对比度低和目标小等具有挑战性的情况下，本公开实施例始终能够给出最好的结果，并显著优于其他方法。第一行为深度图质量低情况下的结果。虽然具有挑战性，但本公开模型克服了质量低的问题，准确地检测出了显著目标，特别是黑色矩形标记的区域。接下来的两行显示了显著目标与背景具有相似外观情况下的检测结果，下一行展示了复杂背景情况下的检测结果。此外，第五排的目标与背景相比太小了。与其他方法相比，本公开模型始终能够提供最好的性能。最后，结果如第六行所示，本实施例在存在复杂背景问题时始终能够提供最佳性能。这些具有挑战性的实例进一步证实了本公开方法的有效性。

另外，本公开实施例还进行了消融实验，如表2所示为网络中去除CMF和BI的骨干框架(B)、跨模态融合模块(CMF)以及特征交互模块(FI)的消融结果。其中，B+CMF在所有的数据集和评价指标上都优于B，说明CMF模块是一种有效的提高性能的模块。其中，CMF模块显著降低了MAE值，表明预测的显著图更接近真值图。CMF模块的优点在于能够更准确地定位感兴趣的区域。CMF模块是提高显著性检测准确性的有效模块。另外，研究了FI模块的有效性，含有FI模块的整个模型在所有的评价指标上都优于B+CMF。这充分证明了FI的有效性，它能够自适应融合多模态特征，捕捉有意义的特征，进行准确的显著性检测。

表2为骨干框架(B)、跨模态融合模块(CMF)以及特征交互模块(FI)的消融结果。

此外，本公开还进行消融实验进一步研究了融合方式对多级特征的有效性。结果如表3所示，连接处理在不同数据集上的表现优于基线模块相加处理，充分证明了连接操作的有效性。

表3为本公开实施例中多级特征有效性消融实验结果。

利用训练好的网络，输入RGB图像和深度图，通过网络的前向传播，从跨层次特征交互模块获取精确的RGBD显著性检测特征图，并得到显著目标的检测结果。

另外，在一些可能的实施方式中，在得到彩色图像和深度图像的各特征组的情况下，还可以对特征组内的特征进行优化，再执行特征融合及交互处理，通过特征优化可以得到提高图像和深度信息的准确度。具体的，以特征组内的图像特征为例进行说明，各特征组内的图像特征和深度特征均可以执行该优化处理，在此不做重复说明。

首先，可以对图像特征进行分割得到多个分割特征，该分割可以按照预设份数将图像特征平均分割成相应的份数，或者随机将图像特征分割成该预设份数，分割后的特征可以重叠也可以不重叠，本公开对此不做具体限定，只要能够利用分割特征表示原图像特征即可以作为本公开实施例。

其次，可以对分割特征进行优化，得到优化分割特征，该过程可以包括：分别对所述多个分割特征进行卷积操作，得到所述多个优化分割特征。例如，可以用采用扩张卷积(Dilatation conv，空洞卷积)对所述多个分割特征进行特征优化，得到多个优化分割特征，其中W、H、C分别为优化分割特征的宽度、高度以及层数(通道数)。其中，扩张卷积的扩张率可以为2或4，本公开对此不做具体限定。优化分割特征的尺度与对应的分割特征尺度相同。然后，将多个优化分割特征进行复原，按照分割方式将优化分割特征进行组合连接，得到原始图像特征的优化图像特征。

基于上述配置可以对图像特征和深度特征进行优化，丰富且优化了特征信息，有利于提高显著目标检测的准确性。

另外，在本公开的另一些实施方式中，可以按照预设的选择方法选择出最优特征组。其中所述选择方法包括：

首先，对特征组内的图像特征和深度特征执行卷积处理，得到显著性特征图；其中，可以对图像特征和深度特征执行连接，对连接后的特征执行多层卷积，得到对应的显著性特征图。

利用显著性特征图内显著区域的平均显著性，作为所述特征组的显著性；其中，显著区域为显著特征图中大于显著阈值的区域，该显著阈值可以为大于或等于0.5的数值，如本公开为0.5。将显著区域内各像素点的平均值作为平均显著性。

从多个特征组选择出满足显著性要求的特征组。例如可以选择出显著性最高的预设比例的特征组，预设比例可以为0.6，但不作为本公开的具体限定。

与现有技术相比，本公开的有益效果包括以下几方面：

1、本公开可以更好地集中信息特征，通过跨模态融合模块(CMF)采用深度分支对RGB分支的引导，可以更准确地定位显著区域。通过特征交互模块(FI)，可以从跨模态融合特征中提取多层次特征，捕捉更详细的特征。对于中层特征，FI模块采用自导引方式对多层融合特征进行增强，再通过串联操作将增强的中层特征与高层特征进行融合；

2、本公开以更有效的特征交互方式和新颖的融合策略有效地解决了现有方法中存在的问题，将多层次特征首先根据其在主干网络中的位置分为低层次、中层次和高层次特征。通过中间融合的方式来融合RGB和相应的深度特征，此方式优于早期融合和后期融合方式。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了显著目标检测装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种显著目标检测方法，相应技术方案的描述参见方法部分的相应记载，不再赘述。

图9示出根据本公开实施例的显著目标检测装置的框图，如图9所示，所述装置包括：

特征提取模块10，其用于对彩色图像和深度图执行多层特征提取，对应得到多层的图像特征和深度特征，其中，相同层的图像特征和深度特征构造为一个特征组；

跨模态融合模块20，其用于将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征；

特征交互模块30，其用于对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征；

检测模块40，其用于利用所述第二融合特征确定所述彩色图像和深度图中显著目标。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为上述方法。

电子设备可以被提供为终端、服务器或其它形态的设备。

图10示出根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图10，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。

图11示出根据本公开实施例的另一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图11，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种显著目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在将所述特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，将至少两个特征组内的图像特征和深度特征执行跨模态特征融合处理，得到所述特征组对应的第一融合特征，包括：

基于所述矫正深度图确定深度注意力系数；

利用所述第一增强特征和所述深度注意力系数得到所述第一融合特征。

4.根据权利要求1所述的方法，其特征在于，所述对所述至少两个特征组的第一融合特征执行特征交互处理，得到第二融合特征，包括：

利用所述特征组的第一融合特征得到对应的权重特征；

对所述交互特征执行融合处理得到所述第二融合特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述交互特征执行融合处理得到所述第二融合特征，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述利用所述特征组的第一融合特征得到对应的权重特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述利用所述第二融合特征确定所述彩色图像和深度图中显著目标，包括：

基于所述特征图确定所述显著目标。

8.一种显著目标检测装置，其特征在于，所述装置包括：

检测模块，其用于利用所述第二融合特征确定所述彩色图像和深度图中显著目标。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-7中任意一项所述的方法。