CN113538442B

CN113538442B - 一种使用自适应特征融合的rgb-d显著目标检测方法

Info

Publication number: CN113538442B
Application number: CN202110624851.3A
Authority: CN
Inventors: 张继勇; 吕成涛; 颜成钢; 孙垚棋; 李宗鹏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2024-04-09
Anticipated expiration: 2041-06-04
Also published as: CN113538442A

Abstract

本发明公开了一种使用自适应特征融合的RGB‑D显著目标检测方法，首先使用2个结构相同的编码器网络分别对RGB图像和Depth图像这2个数据流编码，编码后对2个数据流分别获得m个层级的特征；然后在RGB和Depth两个数据流的解码过程中分别使用自适应特征融合；在联合数据流中对2个数据流的特征融合；最后使用损失函数对该网络模型优化。本发明所述的方法，可以提高RGB‑D显著目标检测的效果。通过使用自适应特征融合，可以有效融合数据流内不同层级的特征。通过使用数据流间特征融合方法，可以有效融合2个数据流的特征。

Description

一种使用自适应特征融合的RGB-D显著目标检测方法

技术领域

本发明涉及图像处理技术领域，具体的说涉及一种RGB-D显著目标检测方法。

背景技术

图像显著目标检测是指计算机自动的分割出图像中的显著目标。该技术的应用场景非常广泛，比如用于图片压缩，或者作为目标识别、语义分割、目标跟踪等的预处理任务。

为了获得准确的图像显著目标分割结果，传统的解决方案是手工设计一种特征提取方法，然后根据该特征进行按照像素分类。

已有的RGB-D显著目标检测方法，在解码器阶段不能有效融合RGB和Depth 2个数据流的特征，导致分割准确度不是很高。因此，本文提出能有效融合2个数据流特征和数据流内特征的方法。

发明内容

本发明所要解决的技术问题是：针对一张图像，如何使用计算机自动分割出图像中的显著目标，本发明提出了一种使用自适应特征融合的RGB-D显著目标分割方法。

本发明的方法是在图像的解码过程中，使用数据流内自适应特征融合和数据流间特征融合方法，从而更好的分割图像中的显著目标。

一种使用自适应特征融合的RGB-D显著目标检测方法，包括以下步骤：

步骤(1).使用2个结构相同的编码器网络分别对RGB图像和Depth图像这2个数据流编码，编码后对2个数据流分别获得m个层级的特征；

步骤(2).在RGB和Depth两个数据流的解码过程中分别使用自适应特征融合。

步骤(3).在联合数据流中对2个数据流的特征融合。

步骤(4).使用损失函数对该网络模型优化；

进一步的，所述的步骤(2)的自适应特征融合，具体操作如下：

将高一层级特征升采样后使用conv，并与当前层级特征在通道维连接，然后送入到全局平均池化模块，然后使用conv和softmax求出2个通道的权重值，并分别与2个特征相乘后求和，得到融合后的特征；

进一步的，所述的步骤(3)在联合数据流中对2个数据流的特征融合，具体操作如下：

首先将同层级的RGB解码器和Depth解码器的输出进行融合，再与高一层级联合数据流的输出融合。将同层级RGB解码器和Depth解码器的输出使用conv和sigmoid处理，得到2个权重值，使用这2个权重值分别对RGB解码器和Depth解码器的输出进行加权并求和，然后将高一层级联合解码器的输出升采样并使用conv处理后，与该特征在通道维连接，并使用conv处理，得到当前层级联合解码器的融合特征；

进一步的，所述的步骤(4)的具体方法如下：

该网络的损失函数为

L＝L_bce(P_R,G)+L_bce(P_D,G)+L_bce(P_J,G)

上式中，P_R是RGB数据流的显著图预测结果，P_D是Depth数据流的显著图预测结果，P_J是联合分支的显著图预测结果，G是显著图的标签。L_bce是二值交叉熵损失，计算方法如下

上式中，i表示图像中第i个像素，n表示图像中共有n个像素，X是显著图的预测结果，G是标签。

使用上述的损失函数作为优化目标，使损失函数最小化，对网络模型优化，得到网络中的参数值。

本发明的有益效果如下：

本发明所述的方法，可以提高RGB-D显著目标检测的效果。通过使用自适应特征融合，可以有效融合数据流内不同层级的特征。通过使用数据流间特征融合方法，可以有效融合2个数据流的特征。

附图说明

图1为本发明的显著目标检测网络；

图2为本发明的单个数据流内自适应特征融合模块；

图3为本发明的数据流间特征融合模块。

具体实施方式

以下结合附图，对本发明进行进一步的详细说明。

本发明提出的一种使用自适应特征融合的RGB-D显著目标检测方法，针对一张图像，使用计算机自动分割出RGB-D中的显著目标。

如图1所示，本发明所述方法包括以下步骤：

步骤(1)具体方法如下：

对于RGB和深度图2个数据流，分别使用在ImageNet上预训练的2个Resnet34网络编码其特征。Resnet34的网络参数如表1所示。对于2个数据流，分别从中取出conv2_x、conv3_x、conv4_x、conv5_x的输出特征作为编码器4个层级的输出。已知RGB图输入特征为(H,W,3)(括号内前2个数表示分辨率，最后一个数表示通道数)，Depth图特征为(H,W,1)，先将其在通道维复制3份，得到与RGB图大小相同的特征(H,W,3)。接下来2个数据流在相同层级的输出特征大小相同。conv2_x的输出特征为(H/4,W/4,64),conv3_x的输出特征为(H/8,W/8,128),conv4_x的输出特征为(H/16,W/16,256),conv5_x的输出特征为(H/32,W/32,512)。

表1Resnet34网络参数

步骤(2)具体方法如下：

对于2个数据流，分别进行数据流内特征融合。首先分别使用1*1conv将conv2_x、conv3_x、conv4_x、conv5_x的输出特征通道变换为64。对同一数据流内不同层级特征融合使用数据流内自适应特征融合模块。RGB数据流内特征融合使用RGB decoder5、RGBdecoder4、RGB decoder3、RGB decoder2模块。Depth数据流内特征融合使用Depthdecoder5、Depth decoder4、Depth decoder3、Depth decoder2模块。数据流内自适应特征融合模块结构如图2所示。RGB decoder5对特征不做处理，即输出和输入特征相同。对于RGBdecoder4，将RGB decoder5的输出特征使用双线性插值升采样2倍，并使用3*3conv处理，得到特征图为(H/16,W/16,64)，然后将其与Conv4_x的特征在通道维连接为(H/16,W/16,128)。然后使用全局平均池化变换为(1,1,128)，然后使用1*1conv将通道变换为2，然后使用softmax在通道维归一化。归一化之后第一个通道对应第一个特征的权重值，第二个通道对应第二个特征的权重。然后使用这2个权重对2个特征加权并求和。得到自适应权重融合后的特征。RGB decoder3、RGB decoder2的操作过程与RGB decoder4相同。RGB decoder3输入的特征为RGB decoder4的输出(H/16,W/16,64)和Conv3_x的特征(H/8,W/8,64)，输出特征为(H/8,W/8,64)。RGB decoder2输入的特征为RGB decoder3的输出(H/8,W/8,64)和Conv2_x的特征(H/4,W/4,64)，输出特征为(H/4,W/4,64)。对RGB decoder2输出的特征使用1*1conv将通道变换为1。然后使用sigmoid函数激活，得到每个像素是否显著的预测概率。然后将预测图使用双线性插值升采样4倍，得到与原图尺寸大小相同的预测图。Depth数据流的解码过程与RGB数据流相同。Depth decoder5对特征不做处理，即输出和输入特征相同。Depth decoder4输入的特征为Depth decoder5的输出(H/32,W/32,64)和Conv4_x的特征(H/16,W/16,64)，输出特征为(H/16,W/16,64)。Depth decoder3输入的特征为Depthdecoder4的输出(H/16,W/16,64)和Conv3_x的特征(H/8,W/8,64)，输出特征为(H/8,W/8,64)。Depth decoder2输入的特征为Depth decoder3的输出(H/8,W/8,64)和Conv2_x的特征(H/4,W/4,64)，输出特征为(H/8,W/8,64)。对Depth decoder2输出的特征使用1*1conv将通道变换为1。然后使用sigmoid函数激活，得到每个像素是否显著的预测概率。然后将预测图使用双线性插值升采样4倍，得到与原图尺寸大小相同的预测图。

步骤(3)的具体方法如下：

使用联合解码器分支，对于2个数据流的特征进行跨数据流间融合。跨数据流间融合采用数据流间特征融合模块Joint decoder5、Joint decoder4、Joint decoder3、Jointdecoder2。对于Joint decoder4其特征融合过程如图3所示。首先将RGB decoder4的输出特征和Depth decoder4的输出特征使用1*1conv分别变换为(H/16,W/16,1)，然后使用sigmoid分别对2个特征激活得到权重(H/16,W/16,1)，然后使用RGB数据流权重对Depth数据流特征加权，使用Depth数据流权重对RGB数据流特征加权。然后将加权后的2个特征相加为(H/16,W/16,64)，然后将Joint decoder5的输出特征使用双线性插值升采样到(H/16,W/16,64)，然后使用3*3conv处理，然后将该特征与2个数据流的融合特征在通道维连接成(H/16,W/16,128)，再使用1*1conv将特征变换为(H/16,W/16,64)。因为Depth decoder5的输入没有更高一层级的特征，所以它相比于Depth decoder4少一个与高一层级特征融合的环节，其他过程相同。Joint decoder5输入特征为RGB decoder5输出(H/16,W/16,64)和Depthdecoder5输出(H/16,W/16,64)，输出为(H/16,W/16,64)。Joint decoder3，Joint decoder2的特征融合过程与Joint decoder4相同。Joint decoder3的输入特征为RGB decoder3输出(H/8,W/8,64)和Depth decoder3输出(H/8,W/8,64)和Joint decoder4的输出(H/16,W/16,64)，它的输出为(H/8,W/8,64)。Joint decoder2的输入特征为RGB decoder2输出(H/4,W/4,64)和Depth decoder2输出(H/4,W/4,64)和Joint decoder3的输出(H/8,W/8,64)，它的输出为(H/4,W/4,64)。对Joint decoder2输出的特征使用1*1conv将通道变换为1。然后使用sigmoid函数激活，得到每个像素是否显著的预测概率。然后将预测图使用双线性插值升采样4倍，得到与原图尺寸大小相同的预测图。训练时，对3个解码器的输出都计算损失进行监督，测试时，只使用联合解码器的输出作为预测结果。

步骤(4)的具体方法如下：

该网络的损失函数为

L＝L_bce(P_R,G)+L_bce(P_D,G)+L_bce(P_J,G)

Claims

1.一种使用自适应特征融合的RGB-D显著目标检测方法，其特征在于，包括以下步骤：

步骤(2).在RGB和Depth两个数据流的解码过程中分别使用自适应特征融合；

步骤(3).在联合数据流中对2个数据流的特征融合；

步骤(4).使用损失函数对该网络模型优化；

所述的步骤(2)的自适应特征融合，具体操作如下：

所述的步骤(3)在联合数据流中对2个数据流的特征融合，具体操作如下：

首先将同层级的RGB解码器和Depth解码器的输出进行融合，再与高一层级联合数据流的输出融合；将同层级RGB解码器和Depth解码器的输出使用conv和sigmoid处理，得到2个权重值，使用这2个权重值分别对RGB解码器和Depth解码器的输出进行加权并求和，然后将高一层级联合解码器的输出升采样并使用conv处理后，与该特征在通道维连接，并使用conv处理，得到当前层级联合解码器的融合特征。

2.根据权利要求1所述的一种使用自适应特征融合的RGB-D显著目标检测方法，其特征在于，所述的步骤(4)的具体方法如下：

该网络的损失函数为

L＝L_bce(P_R，G)+L_bce(P_D，G)+L_bce(P_J，G)

上式中，P_R是RGB数据流的显著图预测结果，P_D是Depth数据流的显著图预测结果，P_J是联合分支的显著图预测结果，G是显著图的标签；L_bce是二值交叉熵损失，计算方法如下

上式中，i表示图像中第i个像素，n表示图像中共有n个像素，X是显著图的预测结果，G是标签；