CN113392727B

CN113392727B - 一种基于动态特征选择的rgb-d显著目标检测方法

Info

Publication number: CN113392727B
Application number: CN202110586099.8A
Authority: CN
Inventors: 颜成钢; 温洪发; 孙垚棋; 张继勇; 李宗鹏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2024-04-05
Anticipated expiration: 2041-05-27
Also published as: CN113392727A

Abstract

本发明公开了一种基于动态特征选择的RGB‑D显著目标检测方法。本发明提出了一种动态选择网络，包括动态选择模块DSM和跨模态全局上下文模块CGCM，其中DSM又包含了两个子模块：跨模态注意力模块CAM和双向门控池化模块BGPM。通过CAM从通道和空间的角度来动态地挖掘RGB和深度图之间的互补信息，通过CGCM从全局的角度来精准地凸出显著目标。通过BGPM，以门控选择的方式优化了跨级别信息，以动态选择的方式强化了多尺度信息。最后，本发明进一步引入了边缘监督策略，并将空间注意力机制嵌入到其中，以反馈的方式保证了显著目标边界的准确性和清晰性，有效提升了模型的细节表征能力。

Description

一种基于动态特征选择的RGB-D显著目标检测方法

技术领域

本发明属于计算机视觉领域，涉及一种基于动态特征选择的RGB-D显著目标检测方法，特别是利用卷积神经网络来动态选择RGB图像和深度图像中所包含的不同模态的特征信息。

背景技术

显著目标检测(SOD)是一个在计算机视觉领域中受到持续关注的基本问题，其目的是定位并凸显图像或者视频中最能够引起视觉注意力的局部区域。经过科研人员的不断努力，显著目标检测已经取得了一些具有重大意义的成果，在众多应用领域中扮演着十分重要的角色。例如，高效且有效的显著目标检测算法广泛地应用于图像分割、目标识别、视觉追踪和视频编码等任务中。总体来说，开展显著目标检测的相关研究具有十分重要的理论价值和实际意义。

传统的SOD算法主要是基于手工设计的特征，缺乏对高级语义信息的有效表征，具有一定的局限性。最近，伴随着深度学习技术的飞速发展，卷积神经网络(CNNs)已成为RGBSOD任务中的主角，取得了相比于传统方法更好的性能表现。然而，在某些复杂场景中，例如对比度低和背景混杂，RGB SOD方法面临着先天的不足，性能表现往往难以达到期望水平。这其中最主要的原因是RGB图像很好地表征了外观纹理信息，却无法有效地定义空间位置信息。众所周知，深度图表达了物体距离相机的远近程度，其中包含的丰富空间结构信息对显著目标预测是至关重要的。同时，随着Microsoft Kinect和Intel RealSense等深度传感器的出现，深度信息的采集变得越来越容易、越来越准确。因此，研究者们在RGB SOD上引入深度线索实现了进一步的性能提升，即RGB-D SOD。

类似于RGB SOD，早期的RGB-D SOD方法大多专注于利用特定的先验知识来设计手工特征描述符，完全忽视了语义信息的重要性，这就导致其难以应对各种多变的、富有挑战性的场景。基于深度学习的RGB-D SOD有效地改善了上述问题，充分地结合了低级外观和高级语义信息，实现了令人鼓舞的结果。尽管存在的RGB-D SOD方法已经取得了稳定而可靠的结果，但是仍有较大的性能提升空间。一般来讲，主要有如下挑战需要面对：1)如何有效地聚合跨模态特征。显而易见，RGB和深度图的固有特征属性是有本质区别的。RGB侧重于表达外观纹理信息，而深度图则更关注空间几何信息，二者互为补充，共同促进。2)如何高效地融合跨级别特征。直接以简单的方式(例如相加或点乘)融合跨级别特征忽视了不同级别特征之间的特异性，并且很容易将固有噪声叠加放大，导致适得其反的效果。3)如何准确地细化显著对象的边界。一方面，照明强度的变化往往造成显著对象与背景区域的边界难以区分；另一方面，CNNs中的池化和采样操作会引发边界模糊问题。清晰地刻画前景与背景之间的边界一直以来是一个充满挑战的课题。

发明内容

针对现有技术中存在的不足，本发明提供一种基于动态特征选择的RGB-D显著目标检测方法。

一种基于动态特征选择的RGB-D显著目标检测方法，步骤如下：

步骤(1)、构建目标检测网络模型；

所述的目标检测网络模型采用编码器-解码器结构。编码器部分包含一对基于ResNet-50的对称双流主干网络，分别用于提取多级的RGB图像外观特征和深度图空间特征。对于解码器部分，采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。

步骤(2)、通过跨模态全局上下文模块CGCM粗略定位显著目标；

步骤(3)、通过动态选择模块DSM选择和融合跨模态特征，即RGB和深度图，优化和强化跨级别、多尺度的混合特征。

DSM包括两个子模块：跨模态注意力模块CAM和双向门控池化模块BGPM。跨模态注意力模块CAM高效地突出了空间特征，实现了跨模态信息间的融合；双向门控池化模块BGPM自主地实现了不同特征间的融合。

步骤(1)具体方法如下；

所述的目标检测网络模型采用编码器-解码器结构。其中，编码器部分包含一对基于ResNet-50的对称双流主干网络，分别用于提取多级的RGB图像外观特征和深度图空间特征。对于对称双流主干网络的每一个分支，丢弃了最后的池化层和全连接层，仅仅保留了5级卷积块，分别进行了2、4、8、16、16倍的下采样，并将各级通道数由{64，256，512，1024，2048}转换到了{64，128，256，512，512}，从而实现了全卷积网络FCN的结构。对于解码器部分，采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。

步骤(2)具体方法如下：

对于分别来自RGB和深度分支的高级特征和首先使用参数共享的卷积操作将通道数转化为1，其中卷积核大小为1×1，步幅为1。对于RGB分支，使用Sigmoid函数将通道转换后的深度高级语义特征的值缩放至0到1，再与进行按元素相乘，得到交互后的特征并称之为模态间的注意力机制。随后，采用Conv-ReLU-Conv的结构进一步强化了深度的RGB特征，其中卷积核的大小均为1×1，并将使用Sigmoid函数归一化后的特征图与进行按元素相乘，得到强化后的RGB特征并称之为模态内的注意力机制。上述计算过程有效地实现了不同模态之间的信息交互，能够表示为，

其中，Sig(·)代表Sigmoid函数，C_1×1(·)代表卷积核为1×1的卷积操作，CRC(·)代表Conv-ReLU-Conv结构，×表示按元素相乘。同样地，强化后的深度特征能够表示为，

由此，从全局的角度得到了深度引导的高级RGB特征和RGB引导的高级深度特征其包含了充足的纹理线索和几何信息。

为了进一步融合RGB特征和深度特征，将和进行拼接得到混合特征F^ID，能够表示为，

其中，[·]表示级联操作。同时，引入空间注意力机制，其沿通道轴应用均值池化和最大池化操作，并将它们拼接起来以有效地定位显著目标。最终，CGCM生成了跨模态的、能够充分表达全局上下文信息的混合特征F^C，能够计算为，

F^C＝C_1×1(F^ID)×Sig(C_7×7([M(F^ID)；A(F^ID)])), (4)

其中，C_n×n(·)代表卷积核为n×n的卷积操作，M(·)代表沿通道轴的最大池化操作，A(·)代表沿通道轴的均值池化操作。总体来说，CGCM保障了我们的模型能够进行准确的显著性预测，因为其不但融合了不同模态的高级语义特征，而且初步地凸显了显著区域。

通过跨模态注意力模块CAM完成跨模态信息间的融合。令分别表示RGB分支和深度分支的第i(i＝1,2,3,4,5)个卷积块的输出特征图，且每一组跨模态特征对应一个CAM。对于每一个CAM，首先初步融合RGB特征和深度特征既实现了特征互补又保留了各自的特有信息。两个模态的融合过程能够写为，

其中，表示第i个块的初步跨模态特征，+表示按元素相加。

跨模态注意力模块CAM中设置了7个不同的卷积层，其中'1×1'表示卷积核是1×1，'s1'表示步幅是1，'p0'表示填充是0，'d1'表示膨胀系数是1。并联了一条残差分支用以保留原有的信息。同时，采用全局最大池化操作和全局均值池化操作去计算空间统计并传递到一个参数共享的网络中。区别于CBAM，CAM生成的是一个包含8个元素的向量F^LS，用以匹配上述并列卷积层的数量(包含残差分支)。紧接着，以自适应选择的方式来优化跨层的深度特征，其可以写为，

其中，表示F^LS中的第j个元素，表示第j个卷积层的输出特征(包含残差分支)。将上述计算过程称之为层注意力机制，则F^L表示层注意力机制的输出特征。

采用了空间注意力机制，用“S”型函数Tanh代替了Sigmoid函数，以期望拉大前景特征和背景特征之间的差距，在突出显著区域的同时抑制背景区域。整个计算过程能够写为，

其中，Tan(·)表示Tanh函数，F^T表示空间特征掩膜。表示第i个空间注意力模块的输出特征，也即CAM的整体输出特征。

通过双向门控池化模块BGPM实现不同特征间的融合。BGPM分为两步。首先，为了将不同级别的特征关联起来，将不同级别的特征视为相邻的序列信号，进而借助RNNs系列算法学习不同级别的特征之间的相关性。将来自于前一个BGPM的输出特征与相应的CAM的输出特征组成一个序列，以双向门控的方式探索不同级别的特征之间的内在联系，计算过程能够写为，

其中，表示相应的CAM的输出特征，表示强化后的前一个BGPM的输出特征。特别地，当i＝5时，有F^C是CGCM的输出特征图。和均为计算过程中的混合特征。由此，得到了深度特征F^P，其融合了包含不同线索的跨级别特征，凸出了显著目标。

其次，为了能够准确地检测到尺度不一的显著目标，改进了上述提出的层注意力机制，将卷积层替换为了不同设置的池化层。改进后的层注意力机制共包含了3个均值池化层、3个最大池化层和1个偏差连接，其中不同池化层的核大小分别为2、4和8。由此，不但保留了原始信息，而且从不同的尺度进一步提取了有效特征。紧接着，融合不同尺度的深度特征(包含残差分支)，能够写为，

其中，表示F^X中的第j个元素，表示第j个池化层的输出特征(包含残差分支)。级联每一组对应特征(元素)的乘积，送入一个3×3的卷积层后，得到BGPM的输出特征其中i表示第i个BGPM。最后，每一个BGPM的输出特征被上采样到相同的空间大小并被转换到相同的通道数，将其级联并输入一个卷积块后，生成了最终的显著性图。

本发明有益效果如下：

本发明提出了一种新颖的用于RGB-D显著性检测的端到端的动态选择网络(DSNet)。所提的模型以动态选择的方式探索了将跨模态、跨级别、多尺度的线索进行一致性融合的可能性。该发明模型主要包含了动态选择模块(DSM)和跨模态全局上下文模块(CGCM)，其中DSM又包含了两个子模块：跨模态注意力模块(CAM)和双向门控池化模块(BGPM)。具体地说，首先，本发明受注意力机制的启发设计了CAM，从通道和空间的角度来动态地挖掘RGB和深度图之间的互补信息，这对跨模态的特征融合是至关重要的。同时，为了能够更加充分地表达高级语义信息，本发明引入了CGCM，从全局的角度来精准地凸出显著目标。其次，本发明提出了一种能够有效关注跨级别、多尺度特征的BGPM，以门控选择的方式优化了跨级别信息，以动态选择的方式强化了多尺度信息。最后，本发明进一步引入了边缘监督策略，并将空间注意力机制嵌入到其中，以反馈的方式保证了显著目标边界的准确性和清晰性，有效提升了模型的细节表征能力。

附图说明

图1为本发明方法实施例的框架图；

图2为本发明方法实施例跨模态全局上下文模块示意图；

图3为本发明方法实施例跨模态注意力模块示意图；

图4为本发明方法实施例双向门控池化模块示意图。

具体实施方式

以下结合附图与实施例对本发明方法进行进一步描述。

本发明提出了一种基于动态特征选择的RGB-D显著目标检测方法，下面将结合相关步骤进行详细说明。

步骤(1)、构建目标检测网络模型；

步骤(2)、通过跨模态全局上下文模块CGCM粗略定位显著目标；

高级别的特征通常包含了丰富的语义线索，其可以有效地表征全局信息。为了充分地融合不同模态间的高级语义特征，即RGB和深度图，我们提出了一种高效的跨模态全局上下文模块(CGCM)，其能够粗略地定位显著目标。具体地说，对于分别来自RGB和深度分支的高级特征和首先使用参数共享的卷积操作将通道数转化为1，其中卷积核大小为1×1，步幅为1。紧接着，借鉴空间注意力机制的思想，对于RGB分支，使用Sigmoid函数将通道转换后的深度高级语义特征的值缩放至0到1，再与进行按元素相乘，得到交互后的特征并称之为模态间的注意力机制。随后，采用Conv-ReLU-Conv的结构进一步强化了深度的RGB特征，其中卷积核的大小均为1×1，并将使用Sigmoid函数归一化后的特征图与进行按元素相乘，得到强化后的RGB特征并称之为模态内的注意力机制。上述计算过程有效地实现了不同模态之间的信息交互，能够表示为，

F^C＝C_1×1(F^ID)×Sig(C_7×7([M(F^ID)；A(F^ID)])), (4)

图2为本发明方法实施例跨模态全局上下文模块示意图；

为了提升模型的鲁棒性，使得模型能够更好地应对复杂场景，我们提出了一种动态选择模块(DSM)。它不仅能够自动地选择和融合跨模态特征，即RGB和深度图，而且能够自主地优化和强化跨级别、多尺度的混合特征。DSM包括两个子模块：跨模态注意力模块CAM和双向门控池化模块BGPM。跨模态注意力模块CAM高效地突出了空间特征，实现了跨模态信息间的融合；双向门控池化模块BGPM自主地实现了不同特征间的融合。

通过跨模态注意力模块CAM完成跨模态信息间的融合。跨模态注意力模块CAM高效地突出了空间特征，实现了跨模态信息间的融合。在图1中，令分别表示RGB分支和深度分支的第i(i＝1，2，3，4，5)个卷积块的输出特征图，且每一组跨模态特征对应一个CAM。对于每一个CAM，根据图3，我们首先初步融合RGB特征和深度特征既实现了特征互补又保留了各自的特有信息。两个模态的融合过程能够写为，

其中，表示第i个块的初步跨模态特征，+表示按元素相加。

为了进一步对跨模态特征进行挖掘，我们改进了注意力机制。受CBAM的启发，我们探索了并列的不同设置的卷积层的输出特征之间的关系，而不是局限于同一个卷积层的输出特征图的通道之间。这里，我们在跨模态注意力模块CAM中设置了7个不同的卷积层，其中'1×1'表示卷积核是1×1，'s1'表示步幅是1，'p0'表示填充是0，'d1'表示膨胀系数是1。特别地，我们并联了一条残差分支用以保留原有的信息。同时，采用全局最大池化操作和全局均值池化操作去计算空间统计并传递到一个参数共享的网络中。区别于CBAM，CAM生成的是一个包含8个元素的向量F^LS，用以匹配上述并列卷积层的数量(包含残差分支)。紧接着，以自适应选择的方式来优化跨层的深度特征，其可以写为，

其中，表示F^LS中的第j个元素，表示第j个卷积层的输出特征(包含残差分支)。将上述计算过程称之为层注意力机制，则F^L表示层注意力机制的输出特征。需要注意的是，不同的卷积层设置保证了特征学习的多样性，更加有利于挖掘跨模态信息的互补性。

除此之外，为了强化空间结构特征，我们再次采用了空间注意力机制。不同的是，用“S”型函数Tanh代替了Sigmoid函数，以期望拉大前景特征和背景特征之间的差距，在突出显著区域的同时抑制背景区域。整个计算过程能够写为，

其中，Tan(·)表示Tanh函数，F^T表示空间特征掩膜。表示第i个空间注意力模块的输出特征，也即CAM的整体输出特征。需要注意的是，CAM操作不改变特征图的空间大小和通道数。总体来说，CAM充分地挖掘了RGB模态和深度模态之间的互补性，实现了特征间的自适应融合，在空间上凸出了显著目标。

通过双向门控池化模块BGPM实现不同特征间的融合。在图4中，我们的BGPM分为两步。首先，我们充分认识到了跨级别特征间的差异性，自低级到高级的特征分别侧重表达了纹理和语义信息。同时，我们也注意到了循环神经网络(RNNs)在处理序列信号时取得了优异的表现，例如长短时记忆单元(LSTM)和门控循环单元(GRU)。为了将不同级别的特征关联起来，将不同级别的特征视为相邻的序列信号，进而借助RNNs系列算法学习不同级别的特征之间的相关性。受GRU的启发，我们将来自于前一个BGPM的输出特征与相应的CAM的输出特征组成一个序列，以双向门控的方式探索不同级别的特征之间的内在联系，计算过程能够写为，

Claims

1.一种基于动态特征选择的RGB-D显著目标检测方法，其特征在于，步骤如下：

步骤(1)、构建目标检测网络模型；

所述的目标检测网络模型采用编码器-解码器结构；编码器部分包含一对基于ResNet-50的对称双流主干网络，分别用于提取多级的RGB图像外观特征和深度图空间特征；对于解码器部分，采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测；

步骤(2)、通过跨模态全局上下文模块CGCM粗略定位显著目标；

步骤(3)、通过动态选择模块DSM选择和融合步骤2获得的跨模态特征，即RGB和深度图，优化和强化跨级别、多尺度的混合特征；

DSM包括两个子模块：跨模态注意力模块CAM和双向门控池化模块BGPM；跨模态注意力模块CAM高效地突出了空间特征，实现了跨模态信息间的融合；双向门控池化模块BGPM自主地实现了不同特征间的融合。

2.根据权利要求1所述的一种基于动态特征选择的RGB-D显著目标检测方法，其特征在于，步骤(1)具体方法如下；

所述的目标检测网络模型采用编码器-解码器结构；其中，编码器部分包含一对基于ResNet-50的对称双流主干网络，分别用于提取多级的RGB图像外观特征和深度图空间特征；对于对称双流主干网络的每一个分支，丢弃了最后的池化层和全连接层，仅仅保留了5级卷积块，分别进行了2、4、8、16、16倍的下采样，并将各级通道数由{64，256，512，1024，2048}转换到了{64，128，256，512，512}，从而实现了全卷积网络FCN的结构；对于解码器部分，采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。

3.根据权利要求2所述的一种基于动态特征选择的RGB-D显著目标检测方法，其特征在于，步骤(2)具体方法如下：

对于分别来自RGB和深度分支的高级特征和首先使用参数共享的卷积操作将通道数转化为1，其中卷积核大小为1×1，步幅为1；对于RGB分支，使用Sigmoid函数将通道转换后的深度高级语义特征的值缩放至0到1，再与进行按元素相乘，得到交互后的特征并称之为模态间的注意力机制；随后，采用Conv-ReLU-Conv的结构进一步强化了深度的RGB特征，其中卷积核的大小均为1×1，并将使用Sigmoid函数归一化后的特征图与进行按元素相乘，得到强化后的RGB特征并称之为模态内的注意力机制；上述计算过程有效地实现了不同模态之间的信息交互，能够表示为，

其中，Sig(·)代表Sigmoid函数，C_1×1(·)代表卷积核为1×1的卷积操作，CRC(·)代表Conv-ReLU-Conv结构，×表示按元素相乘；同样地，强化后的深度特征能够表示为，

由此，从全局的角度得到了深度引导的高级RGB特征和RGB引导的高级深度特征其包含了充足的纹理线索和几何信息；

其中，[·]表示级联操作；同时，引入空间注意力机制，其沿通道轴应用均值池化和最大池化操作，并将它们拼接起来以有效地定位显著目标；最终，CGCM生成了跨模态的、能够充分表达全局上下文信息的混合特征F^C，能够计算为，

F^C＝C_1×1(F^ID)×Sig(C_7×7([M(F^ID)；A(F^ID)])), (4)

其中，C_n×n(·)代表卷积核为n×n的卷积操作，M(·)代表沿通道轴的最大池化操作，A(·)代表沿通道轴的均值池化操作；总体来说，CGCM保障了我们的模型能够进行准确的显著性预测，因为其不但融合了不同模态的高级语义特征，而且初步地凸显了显著区域。

4.根据权利要求3所述的一种基于动态特征选择的RGB-D显著目标检测方法，其特征在于，

通过跨模态注意力模块CAM完成跨模态信息间的融合；令分别表示RGB分支和深度分支的第i，i＝1,2,3,4,5个卷积块的输出特征图，且每一组跨模态特征对应一个CAM；对于每一个CAM，首先初步融合RGB特征和深度特征既实现了特征互补又保留了各自的特有信息；两个模态的融合过程能够写为，

其中，表示第i个块的初步跨模态特征，+表示按元素相加；

跨模态注意力模块CAM中设置了7个不同的卷积层，其中′1×1′表示卷积核是1×1，′s1′表示步幅是1，′p0′表示填充是0，′d1′表示膨胀系数是1；并联了一条残差分支用以保留原有的信息；同时，采用全局最大池化操作和全局均值池化操作去计算空间统计并传递到一个参数共享的网络中；区别于CBAM，CAM生成的是一个包含8个元素的向量F^LS，用以匹配上述并列卷积层的数量；紧接着，以自适应选择的方式来优化跨层的深度特征，其可以写为，

其中，表示F^LS中的第j个元素，表示第j个卷积层的输出特征；将上述计算过程称之为层注意力机制，则F^L表示层注意力机制的输出特征；

采用了空间注意力机制，用“S”型函数Tanh代替了Sigmoid函数，以期望拉大前景特征和背景特征之间的差距，在突出显著区域的同时抑制背景区域；整个计算过程能够写为，

其中，Tan(·)表示Tanh函数，F^T表示空间特征掩膜；表示第i个空间注意力模块的输出特征，也即CAM的整体输出特征。

5.根据权利要求4所述的一种基于动态特征选择的RGB-D显著目标检测方法，其特征在于，

通过双向门控池化模块BGPM实现不同特征间的融合；BGPM分为两步；首先，为了将不同级别的特征关联起来，将不同级别的特征视为相邻的序列信号，进而借助RNNs系列算法学习不同级别的特征之间的相关性；将来自于前一个BGPM的输出特征与相应的CAM的输出特征组成一个序列，以双向门控的方式探索不同级别的特征之间的内在联系，计算过程能够写为，

其中，表示相应的CAM的输出特征，表示强化后的前一个BGPM的输出特征；特别地，当i＝5时，有F^C是CGCM的输出特征图；和均为计算过程中的混合特征；由此，得到了深度特征F^P，其融合了包含不同线索的跨级别特征，凸出了显著目标；

其次，为了能够准确地检测到尺度不一的显著目标，改进了上述提出的层注意力机制，将卷积层替换为了不同设置的池化层；改进后的层注意力机制共包含了3个均值池化层、3个最大池化层和1个偏差连接，其中不同池化层的核大小分别为2、4和8；由此，不但保留了原始信息，而且从不同的尺度进一步提取了有效特征；紧接着，融合不同尺度的深度特征，能够写为，

其中，表示F^X中的第j个元素，表示第j个池化层的输出特征；级联每一组对应特征的乘积，送入一个3×3的卷积层后，得到BGPM的输出特征其中i表示第i个BGPM；最后，每一个BGPM的输出特征被上采样到相同的空间大小并被转换到相同的通道数，将其级联并输入一个卷积块后，生成了最终的显著性图。