CN113256603A

CN113256603A - 一种双流网络二次融合的显著性物体检测方法

Info

Publication number: CN113256603A
Application number: CN202110656452.5A
Authority: CN
Inventors: 周武杰; 郭沁玲; 强芳芳; 许彩娥
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-13

Abstract

本发明公开了一种双流网络二次融合的显著性物体检测方法，应用于显著性检测技术领域，其在训练阶段构建卷积神经网络，输入层包括RGB图输入层和热力图输入层，编码部分包括10个神经网络块，译码部分包括5个动态融合块、10个跳连块、5个注意力融合块；将训练集中的每对原始3D图像的RGB图像及对应的热力图像输入到卷积神经网络中进行训练，输出每对原始3D图像对应的显著性预测图像；通过多次迭代并计算显著性预测图像与对应的标签图像之间的损失函数值，获取卷积神经网络训练模型的最优权值矢量和最优偏置项；测试时利用最优权值矢量和最优偏置项进行预测，预测得到显著性预测图像；优点是其显著性检测精度高。

Description

一种双流网络二次融合的显著性物体检测方法

技术领域

本发明涉及显著性检测技术领域，更具体的说是涉及一种双流网络二次融合的显著性物体检测方法。

背景技术

显著性物体检测(Salient Object Detection，SOD)旨在将场景中视觉上最突出的对象与其他背景信息区分开来，它是许多图像处理和计算机视觉任务(例如人像识别、视频压缩、图像编辑等)中的一个有效的预处理步骤。基于深度卷积神经网络的显著目标检测技术取得了明显的成功。前几年的显著性物体检测方法都是利用彩色图像进行显著性检测，随着深度传感器的发展，获取深度信息变得越来越方便，进而利用彩色信息与深度信息来对显著性进行检测，有效地提高了图像像素级检测任务的精度。然而，如何提高具有挑战性的场景，如低光条件的探测性能，仍然需要我们进行深入的研究。

现有的基于卷积神经网络的双流显著性物体检测方法一般多为一次融合的编码-解码架构，编码过程通过多层卷积和池化逐渐减少分辨率、增加感受野、获得更多的上下文语义信息；解码过程逐渐恢复分辨率，提取有利信息，获得最终预测图。关于一次融合编码-解码架构，主要分为三种：第一种为前期融合、中期融合、晚期融合，但这些模型的检测性能有待进一步提高。虽然近年来图像显著性检测取得了很大的进展，但是图像显著性检测在复杂和具有挑战性的场景中仍然是一项具有挑战性的任务，例如低照度、背景杂乱以及恶劣天气(雨、雾霾、烟雾等)场景。集成RGB图像和热力图像已被证明是有效的移动对象检测和跟踪方法，这激励着人们通过利用RGB图像和热力图像的互补好处在具有挑战性的场景中执行稳健的图像显著性检测。为此，我们提出了一种利用RGB图像和热力图像的双流二次融合模型，可以有效且充分地集成RGB和热力特性，以实现高质量的检测。

发明内容

有鉴于此，本发明提供了一种双流网络二次融合的显著性物体检测方法，其显著性检测精度更高。

为了实现上述目的，本发明提供如下技术方案：

一种双流网络二次融合的显著性物体检测方法，具体步骤包括：

构建训练集：选取N对原始3D图像及每对原始3D图像对应的真实显著检测图像，并获取每对原始3D图像对应的热力图像和RGB图像，原始3D图像对应的真实显著检测图像作为标签图像，将所述标签图像、热力图像和RGB图像作为训练集；

构建端到端的卷积神经网络：RGB图像经过编码得到RGB信息编码流；热力图像经过编码得到热力信息编码流；所述RGB信息编码流和所述热力信息编码流经过动态融合处理，得到第一融合特征；所述第一融合特征和所述RGB信息编码流进行译码得到RGB信息译码流，所述第一融合特征和所述热力信息编码流进行译码得到热力信息译码流；所述RGB信息译码流和所述热力信息译码流进行注意力融合，输出显著性检测图；

卷积神经网络训练：将训练集中的每对原始3D图像的RGB图像和热力图像，输入到卷积神经网络中进行训练，输出训练集中的每对原始3D图像对应的显著性预测图像；将值最小的损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；

对于任意一对待显著性物体检测的3D图像，获取热力图像和RGB图像，输入到卷积神经网络中，并利用最优权值矢量和最优偏置项进行预测，预测得到该3D图像对应的显著性预测图像。

优选的，在上述的一种双流网络二次融合的显著性物体检测方法中，所述动态融合处理具体步骤如下：

第1个卷积块的输入端输入RGB图像，第2个卷积块的输入端输入热力图像，第3个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图，第4个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图，第5个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图，第6个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图；第7个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图，第8个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图，第9个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图，第10个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图；压缩激发块接收第一输入端与第二输入端的通道叠加特征图；压缩激发块的输出与第6个卷积块的输出和第7个卷积块的输出的通道叠加特征、第5个卷积块的输出和第8个卷积块的输出的通道叠加特征、第4个卷积块的输出和9个卷积块的输出的通道叠加特征、第3个卷积块的输出与第10个卷积块的输出的通道叠加特征分别相乘然后将其结果相加，经过“Sigmoid”激活函数后，与第一输入端与第二输入端的特征图之和相加，作为第11个卷积块的输入，第1个上采样层接收第11个卷积块的输出，第1个上采样层的输出为该动态融合块的输出端。

优选的，在上述的一种双流网络二次融合的显著性物体检测方法中，得到RGB信息译码流和热力信息译码流具体步骤包括如下：第1个跳转块至第5个跳转块用于得到RGB信息译码流；第6跳转块至第10跳转块用于得到热力信息译码流；第1个跳连块与第6个跳连块结构相同，第2个跳连块与第7个跳连块结构相同，第3个跳连块与第8个跳连块结构相同，第4个跳连块与第9个跳连块结构相同，第5个跳连块与第10个跳连块结构相同；第1个跳连块包括依次连接的第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层，第二十卷积层的输入端作为第1个跳连块的输入端，第二十一激活层的输出端作为第1个跳连块的输出端；第2个跳连块包括依次连接的第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层，第二十二卷积层的输入端作为第2个跳连块的输入端，第二十三激活层的输出端作为第2个跳连块的输出端；第3个跳连块包括依次连接的第二十四卷积层、第二十四激活层、第二十五卷积层、第二十五激活层，第二十四卷积层的输入端作为第3个跳连块的输入端，第二十五激活层的输出端作为第3个跳连块的输出端；第4个跳连块包括依次连接的第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层，第二十六卷积层的输入端作为第4个跳连块的输入端，第二十七激活层的输出端作为第4个跳连块的输出端；第5个跳连块包括依次连接的第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层，第二十八卷积层的输入端作为第5个跳连块的输入端，第二十九激活层的输出端作为第5个跳连块的输出端。

优选的，在上述的一种双流网络二次融合的显著性物体检测方法中，所述注意力融合的具体步骤包括：

第1个注意力融合块的第1输入端与第2输入端通道叠加，输入第1个空间注意力块，第12个卷积块接收第1个空间注意力块的输出，第2个上采样层接收第12个卷积块的输出，第2个上采样层的输出端作为第1个注意力融合块的输出端；

第2个注意力融合块至第5个注意力融合块的结构相同，由第13个卷积块、空间注意力块和第3个上采样层组成，第1个注意力融合块的第1输入端、第2输入端与第2输入端通道叠加，输入第2个空间注意力块，第13个卷积块接收第2个空间注意力块的输出，第3个上采样层接收第13个卷积块的输出，第3个上采样层的输出端作为第2个注意力融合块至第5个注意力融合块的输出端。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种双流网络二次融合的显著性物体检测方法，与现有技术相比，本发明的优点在于：

1)本发明方法构建的卷积神经网络是一种双流双融合卷积神经网络体系结构。第一次融合得到了充分的双流引导特征信息，然后对两种模式分别译码并再次融合特征，提高了两种模式互补信息的动态融合性能，使得训练得到的卷积神经网络训练模型显著性检测精度更高。

2)本发明方法构建的卷积神经网络中设计了动态融合块来捕获和聚合双模态多尺度特征。该模块利用不同膨胀率的卷积，提取不同尺度上两种模式的局部上下文信息，利用注意机制获得动态权值，得到有效的动态融合特征。从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。

3)本发明方法构建的卷积神经网络中设计了注意力融合块，它通过空间注意机制从两个模块的通道叠加特征中提取出更有利的空间特征信息，从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明方法构建的卷积神经网络的组成结构示意图；

图2为本发明方法构建的卷积神经网络中的5个动态融合块的组成结构示意图；

图3为本发明方法构建的卷积神经网络中的第1个注意力融合块的组成结构示意图；

图4为本发明方法构建的卷积神经网络中的第2个注意力融合块至第5个注意力融合块的组成结构示意图；

图5a为待显著性物体检测的第1对3D图像的RGB图像；

图5b为待显著性物体检测的第1对3D图像对应的热力图像；

图5c为利用本发明方法对图5a和图5b进行处理得到的显著性预测图像；

图5d为待显著性物体检测的第1对3D图像对应的标签图像；

图6a为待显著性物体检测的第2对3D图像的RGB图像；

图6b为待显著性物体检测的第2对3D图像对应的热力图像；

图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像；

图6d为待显著性物体检测的第2对3D图像对应的标签图像；

图7a为待显著性物体检测的第3对3D图像的RGB图像；

图7b为待显著性物体检测的第3对3D图像对应的热力图像；

图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像；

图7d为待显著性物体检测的第3对3D图像对应的标签图像；

图8a为待显著性物体检测的第4对3D图像的RGB图像；

图8b为待显著性物体检测的第4对3D图像对应的热力图像；

图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像；

图8d为待显著性物体检测的第4对3D图像对应的标签图像；

图9a为利用本发明方法对VT821数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图；

图9b为利用本发明方法对VT1000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图；

图9c为利用本发明方法对VT5000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例公开了一种双流网络二次融合的显著性物体检测方法，包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N对原始3D图像及每对原始3D图像对应的真实显著检测图像，并获取每对原始3D图像对应的热力图像(Thermal图像)，将第k对原始3D图像的RGB图像记为

将第k对原始3D图像对应的热力图像记为

将第k对原始3D图像对应的真实显著检测图像作为标签图像，并记为

然后将所有原始3D图像的RGB图像及对应的热力图像和对应的标签图像构成训练集；其中，N为正整数，N≥200，如取N＝2500，k为正整数，1≤k≤N，1≤x≤W，1≤y≤H，W表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的宽度，H表示原始3D图像及其RGB图像、对应的热力图像、对应的标签图像的高度，在本实施例中W和H均为224，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_2：构建端到端的卷积神经网络：如图1所示，该卷积神经网络包括输入层、编码部分、译码部分和输出层，输入层包括RGB图输入层和热力图输入层，编码部分包括10个神经网络块，译码部分包括5个动态融合块、10个跳连块、5个注意力融合块；

对于RGB图输入层，其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分；其中，原始RGB图像的宽度为W且高度为H；

对于热力图输入层，其输入端接收一幅原始热力图像的R通道分量、G通道分量和B通道分量，其输出端输出原始热力图像的R通道分量、G通道分量和B通道分量给编码部分；其中，原始热力图像的宽度为W且高度为H；

对于编码部分，第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成RGB信息编码流，第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成热力信息编码流；第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为S1，S1中的每幅特征图的宽度为

且高度为

第2个神经网络块的输入端接收S1中的所有特征图，第2个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为S2，S2中的每幅特征图的宽度为

且高度为

第3个神经网络块的输入端接收S2中的所有特征图，第3个神经网络块的输出端输出128幅特征图，将这128幅特征图构成的集合记为S3，S3中的每幅特征图的宽度为

且高度为

第4个神经网络块的输入端接收S3中的所有特征图，第4个神经网络块的输出端输出256幅特征图，将这256幅特征图构成的集合记为S4，S4中的每幅特征图的宽度为

且高度为

第5个神经网络块的输入端接收S4中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S5，S5中的每幅特征图的宽度为

且高度为

第6个神经网络块的输入端接收热力图输入层的输出端输出的原始热力图像的R通道分量、G通道分量和B通道分量，第6个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为S6，S6中的每幅特征图的宽度为

且高度为

第7个神经网络块的输入端接收S6中的所有特征图，第7个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为S7，S7中的每幅特征图的宽度为

且高度为

第8个神经网络块的输入端接收S7中的所有特征图，第8个神经网络块的输出端输出128幅特征图，将这128幅特征图构成的集合记为S8，S8中的每幅特征图的宽度为

且高度为

第9个神经网络块的输入端接收S8中的所有特征图，第9个神经网络块的输出端输出256幅特征图，将这256幅特征图构成的集合记为S9，S9中的每幅特征图的宽度为

且高度为

第10个神经网络块的输入端接收S9中的所有特征图，第10个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S10，S10中的每幅特征图的宽度为

且高度为

编码部分提供S1、S2、S3、S4、S5、S6、S7、S8、S9、S10中的所有特征图给译码部分；

对于译码部分，第1个动态融合块的第一输入端接收S1中的所有特征图，第1个动态融合块的第二输入端接收S6中的所有特征图，第1个动态融合块的输出端输出64幅特征图，将这128幅特征图构成的集合记为F1，F1中的每幅特征图的宽度为

且高度为

第2个动态融合块的第一输入端接收S2中的所有特征图，第2个动态融合块的第二输入端接收S7中的所有特征图，第2个动态融合块的输出端输出128幅特征图，将这128幅特征图构成的集合记为F2，F2中的每幅特征图的宽度为

且高度为

第3个动态融合块的第一输入端接收S3中的所有特征图，第3个动态融合块的第二输入端接收S8中的所有特征图，第3个动态融合块的输出端输出256幅特征图，将这256幅特征图构成的集合记为F3，F3中的每幅特征图的宽度为

且高度为

第4个动态融合块的第一输入端接收S4中的所有特征图，第4个动态融合块的第二输入端接收S9中的所有特征图，第4个动态融合块的输出端输出512幅特征图，将这512幅特征图构成的集合记为F4，F4中的每幅特征图的宽度为

且高度为

第5个动态融合块的第一输入端接收S5中的所有特征图，第5个动态融合块的第二输入端接收S10中的所有特征图，第5个动态融合块的输出端输出512幅特征图，将这512幅特征图构成的集合记为F5，F5中的每幅特征图的宽度为

且高度为

第1个跳连块接收S5与F5相加后的特征图，输出512幅特征图，将这512幅特征图构成的集合记为L1，L1中的每幅特征图的宽度为

且高度为

第4个动态融合块的输出F4与S5相乘，并与L1通道叠加后作为第2个跳连块的输入，第2个跳连块输出256幅特征图，将这256幅特征图构成的集合记为L2，L2中的每幅特征图的宽度为

且高度为

第3个动态融合块的输出F3与S4相乘，并与L2通道叠加后作为第3个跳连块的输入，第3个跳连块输出128幅特征图，将这128幅特征图构成的集合记为L3，L3中的每幅特征图的宽度为

且高度为

第2个动态融合块的输出F2与S3相乘，并与L3通道叠加后作为第4个跳连块的输入，第4个跳连块输出64幅特征图，将这64幅特征图构成的集合记为L4，L4中的每幅特征图的宽度为

且高度为

第1个动态融合块的输出F1与S2相乘，并与L4通道叠加后作为第5个跳连块的输入，第5个跳连块输出64幅特征图，将这64幅特征图构成的集合记为L5，L5中的每幅特征图的宽度为

且高度为

第6个跳连块接收F5与S10相加后的特征图，输出512幅特征图，将这512幅特征图构成的集合记为L6，L6中的每幅特征图的宽度为

且高度为

第4个动态融合块的输出F4与S10相乘，并与L6通道叠加后作为第7个跳连块的输入，第7个跳连块输出256幅特征图，将这256幅特征图构成的集合记为L7，L7中的每幅特征图的宽度为

且高度为

第3个动态融合块的输出F3与S9相乘，并与L7通道叠加后作为第8个跳连块的输入，第8个跳连块输出128幅特征图，将这128幅特征图构成的集合记为L8，L8中的每幅特征图的宽度为

且高度为

第2个动态融合块的输出F2与S8相乘，并与L8通道叠加后作为第9个跳连块的输入，第9个跳连块输出64幅特征图，将这64幅特征图构成的集合记为L9，L9中的每幅特征图的宽度为

且高度为

第1个动态融合块的输出F1与S7相乘，并与L9通道叠加后作为第10个跳连块的输入，第10个跳连块输出64幅特征图，将这64幅特征图构成的集合记为L10，L10中的每幅特征图的宽度为

且高度为

第1个注意力融合块的第一输入端接收L1中的所有特征图，第二输入端接收L6中的所有特征图，第1个注意力融合块的输出端输出512幅特征图，将这512幅特征图构成的集合记为A1，A1中的每幅特征图的宽度为

且高度为

第2个注意力融合块的第一输入端接收L2中的所有特征图，第二输入端接收L7中的所有特征图，第三输入端接收A1中的所有特征图，第2个注意力融合块的输出端输出256幅特征图，将这256幅特征图构成的集合记为A2，A2中的每幅特征图的宽度为

且高度为

第3个注意力融合块的第一输入端接收L3中的所有特征图，第二输入端接收L8中的所有特征图，第三输入端接收A2中的所有特征图，第3个注意力融合块的输出端输出128幅特征图，将这128幅特征图构成的集合记为A3，A3中的每幅特征图的宽度为

且高度为

第4个注意力融合块的第一输入端接收L4中的所有特征图，第二输入端接收L9中的所有特征图，第三输入端接收A3中的所有特征图，第4个注意力融合块的输出端输出64幅特征图，将这64幅特征图构成的集合记为A4，A4中的每幅特征图的宽度为

且高度为

第5个注意力融合块的第一输入端接收L5中的所有特征图，第二输入端接收L10中的所有特征图，第三输入端接收A4中的所有特征图，第5个注意力融合块的输出端输出64幅特征图，将这64幅特征图构成的集合记为A5，A5中的每幅特征图的宽度为W且高度为H；译码部分提供A5中的所有特征图给输出层；

对于输出层，其输入端接收A5中的所有特征图，其输出端输出1幅宽度为W且高度为H的特征图，作为显著性检测图；

步骤1_3：将训练集中的每对原始3D图像的RGB图像作为原始RGB图像，并将训练集中的每对原始3D图像对应的热力图像作为原始热力图像，输入到卷积神经网络中进行训练，输出训练集中的每对原始3D图像对应的显著性预测图像，将第k对原始3D图像对应的显著性预测图像记为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_4：计算训练集中的每对原始3D图像对应的显著性预测图像与对应的标签图像之间的损失函数值，将

与

之间的损失函数值记为

通过交叉熵损失计算得到；

步骤1_5：重复执行步骤1_3和步骤1_4共Num次，训练得到卷积神经网络训练模型，并共得到N×Num个损失函数值；然后从N×Num个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，Num≥50，在本实施例中取Mum＝150；

所述的测试阶段过程的具体步骤为：

步骤2_1：对于任意一对待显著性物体检测的3D图像，获取该3D图像对应的热力图像；然后将该3D图像的RGB图像作为原始RGB图像，并将该3D图像对应的热力图像作为原始热力图像，输入到卷积神经网络训练模型中，并利用最优权值矢量和最优偏置项进行预测，预测得到该3D图像对应的显著性预测图像。

在本实施例中，10个神经网络块的结构采用现有的ResNet-34模型，将ResNet-34模型划分为5个块，分别作为第1个神经网络块至第5个神经网络块的结构，同时也分别作为第6个神经网络块至第10个神经网络块的结构，即第1个神经网络块的结构与第6个神经网络块的结构相同，第2个神经网络块的结构与第7个神经网络块的结构相同，依次类推。

为了进一步优化上述技术方案，所述的步骤1_2中，5个动态融合块的结构相同，如图2所示，其由第1个卷积块至第11个卷积块、1个压缩激发块、第1个上采样层组成，第1个卷积块的输入端为其所在的动态融合块的第一输入端，第2个卷积块的输入端为其所在的动态融合块的第二输入端，第3个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图，第4个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图，第5个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图，第6个卷积块的输入端接收第1个卷积块的输出端输出的所有特征图；第7个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图，第8个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图，第9个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图，第10个卷积块的输入端接收第2个卷积块的输出端输出的所有特征图；压缩激发块接收其所在的动态融合块的第一输入端与第二输入端的通道叠加特征图；压缩激发块的输出与第6个卷积块的输出和第7个卷积块的输出的通道叠加特征、第5个卷积块的输出和第8个卷积块的输出的通道叠加特征、第4个卷积块的输出和9个卷积块的输出的通道叠加特征、第3个卷积块的输出与第10个卷积块的输出的通道叠加特征分别相乘然后将其结果相加，经过一个“Sigmoid”激活函数后，与该动态融合块的第一输入端与第二输入端的特征图之和相加，作为第11个卷积块的输入，第1个上采样层接收第11个卷积块的输出，第1个上采样层的输出为该动态融合块的输出端。对应元素相加操作、通道数叠加操作、对应元素相乘操作均为现有技术；“Sigmoid”激活函数、图2中的+表示对应元素相加操作，C表示通道数叠加操作，×表示对应元素相乘操作，S表示“Sigmoid”激活函数。

为了进一步优化上述技术方案，在本实施例中，第1个卷积块包括依次连接的第一卷积层和第一激活层，第一卷积层的输入端作为第1个卷积块的输入端，第一激活层的输出端作为第1个卷积块的输出端，第2个卷积块包括依次连接的第二卷积层和第二激活层，第二卷积层的输入端作为第2个卷积块的输入端，第二激活层的输出端作为第2个卷积块的输出端，第3个卷积块包括依次连接的第三卷积层、第三激活层、第四卷积层、第四激活层，第三卷积层的输入端作为第3个卷积块的输入端，第四激活层的输出端作为第3个卷积块的输出端，第4个卷积块包括依次连接的第五卷积层、第五激活层、第六卷积层、第六激活层，第五卷积层的输入端作为第4个卷积块的输入端，第六激活层的输出端作为第4个卷积块的输出端，第5个卷积块包括依次连接的第七卷积层、第七激活层、第八卷积层、第八激活层，第七卷积层的输入端作为第5个卷积块的输入端，第八激活层的输出端作为第5个卷积块的输出端，第6个卷积块包括依次连接的第九卷积层、第九激活层、第十卷积层、第十激活层，第九卷积层的输入端作为第6个卷积块的输入端，第十激活层的输出端作为第6个卷积块的输出端，第7个卷积块包括依次连接的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层，第十一卷积层的输入端作为第7个卷积块的输入端，第十二激活层的输出端作为第7个卷积块的输出端，第8个卷积块包括依次连接的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层，第十三卷积层的输入端作为第8个卷积块的输入端，第十四激活层的输出端作为第8个卷积块的输出端，第9个卷积块包括依次连接的第十五卷积层、第十五激活层、第十六卷积层、第十六激活层，第十五卷积层的输入端作为第9个卷积块的输入端，第十六激活层的输出端作为第9个卷积块的输出端，第10个卷积块包括依次连接的第十七卷积层、第十七激活层、第十八卷积层、第十八激活层，第十七卷积层的输入端作为第10个卷积块的输入端，第十八激活层的输出端作为第10个卷积块的输出端，第11个卷积块包括依次连接的第十九卷积层、第十九激活层，第十九卷积层的输入端作为第11个卷积块的输入端，第十九激活层的输出端作为第11个卷积块的输出端。其中，5个动态融合块各自的第一输入端的输入通道数和第二输入端的输入通道数相等，设定第j个动态融合块的第一输入端的输入通道数和第二输入端的输入通道数均为n_j，j＝1,2,3,4,5，n₁＝64，n₂＝64，n₃＝128，n₄＝256，n₅＝512，第j个动态融合块中的第一卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为1，第j个动态融合块中的第二卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为1，第j个动态融合块中的第三卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第四卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为2、补零参数的值为2，第j个动态融合块中的第五卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第六卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为4、膨胀率为4，第j个动态融合块中的第七卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为6、膨胀率为6，第j个动态融合块中的第九卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为8、膨胀率为8，第j个动态融合块中的第十一卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为8、补零参数的值为8，第j个动态融合块中的第十三卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为6、膨胀率为6，第j个动态融合块中的第十五卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为4、膨胀率为4，第j个动态融合块中的第十七卷积层的卷积核大小为1×1、卷积核个数为

步长为1、补零参数的值为0，第j个动态融合块中的第十八卷积层的卷积核大小为3×3、卷积核个数为n_j、步长为1、补零参数的值为2、膨胀率为2，第j(j＝1，2，3，4)个动态融合块中的第十九卷积层的卷积核大小为1×1、卷积核个数为n_j+1、步长为1、补零参数的值为0；第5个动态融合块中的第十九卷积层的卷积核大小为1×1、卷积核个数为n₅、步长为1、补零参数的值为0，第1个上采样层的的放大倍数为1/2、插值方法为双线性插值。5个动态融合块中的第一激活层至第十九激活层的激活方式都为“Relu”。

为了进一步优化上述技术方案，在本实施例中，所述的步骤1_2中，第1个跳连块与第6个跳连块结构相同，第2个跳连块与第7个跳连块结构相同，第3个跳连块与第8个跳连块结构相同，第4个跳连块与第9个跳连块结构相同，第5个跳连块与第10个跳连块结构相同。第1个跳连块包括依次连接的第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层，第二十卷积层的输入端作为第1个跳连块的输入端，第二十一激活层的输出端作为第1个跳连块的输出端；第2个跳连块包括依次连接的第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层，第二十二卷积层的输入端作为第2个跳连块的输入端，第二十三激活层的输出端作为第2个跳连块的输出端；第3个跳连块包括依次连接的第二十四卷积层、第二十四激活层、第二十五卷积层、第二十五激活层，第二十四卷积层的输入端作为第3个跳连块的输入端，第二十五激活层的输出端作为第3个跳连块的输出端；第4个跳连块包括依次连接的第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层，第二十六卷积层的输入端作为第4个跳连块的输入端，第二十七激活层的输出端作为第4个跳连块的输出端；第5个跳连块包括依次连接的第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层，第二十八卷积层的输入端作为第5个跳连块的输入端，第二十九激活层的输出端作为第5个跳连块的输出端。第二十卷积层的卷积核大小为1×1、卷积核个数为512、步长为1、补零参数的值为0，第二十一卷积层的卷积核大小为3×3、卷积核个数为512、步长为1、补零参数的值为1，第二十二卷积层的卷积核大小为1×1、卷积核个数为256、步长为1、补零参数的值为0，第二十三卷积层的卷积核大小为3×3、卷积核个数为256、步长为1、补零参数的值为1，第二十四卷积层的卷积核大小为1×1、卷积核个数为128、步长为1、补零参数的值为0，第二十五卷积层的卷积核大小为3×3、卷积核个数为128、步长为1、补零参数的值为1，第二十六卷积层的卷积核大小为1×1、卷积核个数为64、步长为1、补零参数的值为0，第二十七卷积层的卷积核大小为3×3、卷积核个数为64、步长为1、补零参数的值为1，第二十八卷积层的卷积核大小为1×1、卷积核个数为64、步长为1、补零参数的值为0，第二十九卷积层的卷积核大小为3×3、卷积核个数为64、步长为1、补零参数的值为1，第二十激活层至第二十九激活层的激活方式都为“Relu”。

在本实施例中，所述的步骤1_2中，如图3所示，第1个注意力融合块由第12个卷积块、空间注意力块和第2个上采样层组成，第1个注意力融合块的第1输入端与第2输入端通道叠加，输入第1个空间注意力块，第12个卷积块接收第1个空间注意力块的输出，第2个上采样层接收第12个卷积块的输出，第2个上采样层的输出端作为第1个注意力融合块的输出端。通道数叠加操作为现有技术。图3中的C表示通道数叠加操作。

在本实施例中，所述的步骤1_2中，第2个注意力融合块至第5个注意力融合块的结构相同，如图4所示，其由第13个卷积块、空间注意力块和第3个上采样层组成，第1个注意力融合块的第1输入端、第2输入端与第2输入端通道叠加，输入第2个空间注意力块，第13个卷积块接收第2个空间注意力块的输出，第3个上采样层接收第13个卷积块的输出，第3个上采样层的输出端作为第2个注意力融合块至第5个注意力融合块的输出端。在此，空间注意力块与权利要求5所述的空间注意力块相同，通道数叠加操作为现有技术。图3中的C表示通道数叠加操作。

在本实施例中，第1个注意力融合块的第1输入端与第2输入端的输入通道数均为512，第12个卷积块包括依次连接的第三十卷积层和第三十激活层，第三十卷积层的卷积核大小为3×3、卷积核个数为256、步长为1、补零参数的值为0，第2个上采样层的的放大倍数为2、插值方法为双线性插值。设定第i个注意力融合块的第一输入端、第二输入端和第三输入端的输入通道数均为m_i，i＝2,3,4,5，m₂＝256，m₃＝128，m₄＝64，m₅＝64，第13个卷积块包括依次连接的第三十一卷积层和第三十一激活层，第i个注意力融合块中的第三十一卷积层的卷积核大小为3×3、卷积核个数为m_i+1，i＝2，3，4，步长为1、补零参数的值为0；第5个注意力融合块中的第三十一卷积层的卷积核大小为3×3、卷积核个数为m₅、步长为1、补零参数的值为0，第3个上采样层的的放大倍数为2、插值方法为双线性插值。5个注意力融合块中的第三十激活层和第三十一激活层的激活方式都为“Relu”。

在本实施例中，所述的步骤1_2中，输出层包括输出卷积层，输出卷积层的输入端为输出层的输入端，输出卷积层的输出端为输出层的输出端；其中，输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1。

为进一步说明本发明方法的可行性和有效性，对本发明方法进行实验。

利用pytorch库python语言编写代码对本发明方法进行实验，实验设备为英特尔i5-7500处理器，NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证实验的严谨性，本实验选定数据集为VT821、VT1000和VT5000，均为公开数据集。VT5000包含5000对3D图像，其中2500对3D图像用于训练，2500对3D图像用于检测。VT821包含821对3D图像都用于测试，VT1000包含1000对3D图像都用于测试。

在本实验中，利用评估显著性检测方法的4个常用客观参量作为评价指标：S↑(Structure-measure)，用来评估显著性预测图像与标签图像中显著区域的结构相似性；adpE↑度量值、adpF↑度量值、MAE↓平均绝对误差(Mean Absolute Error)用来评价显著性预测图像的检测性能，通过计算精准率和召回率求出用来评价显著性检测方法好坏的重要指标。

利用本发明方法预测得到的显著性预测图像通过与标签图像对比，分别用S↑，adpE↑，adpF↑，MAE↓来作为评价指标评价本发明方法的好坏，三个数据集的评价指标如表1所列，由表1所列的数据可见本发明方法在三个数据集上的表现是优秀的。

表1本发明方法在三个数据集上的评测结果

图5a为待显著性物体检测的第1对3D图像的RGB图像，图5b为待显著性物体检测的第1对3D图像对应的热力图像，图5c为利用本发明方法对图5a和图5b进行处理得到的显著性预测图像，图5d为待显著性物体检测的第1对3D图像对应的标签图像；图6a为待显著性物体检测的第2对3D图像的RGB图像，图6b为待显著性物体检测的第2对3D图像对应的热力图像，图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像，图6d为待显著性物体检测的第2对3D图像对应的标签图像；图7a为待显著性物体检测的第3对3D图像的RGB图像，图7b为待显著性物体检测的第3对3D图像对应的热力图像，图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像，图7d为待显著性物体检测的第3对3D图像对应的标签图像；图8a为待显著性物体检测的第4对3D图像的RGB图像，图8b为待显著性物体检测的第4对3D图像对应的热力图像，图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像，图8d为待显著性物体检测的第4对3D图像对应的标签图像。图5a和图5b代表的3D图像、图6a和图6b代表的3D图像、图7a和图7b代表的3D图像、图8a和图8b代表的3D图像均是具有代表性的3D图像，其包含有背景噪声杂乱下的对象和黑暗光线下的对象，利用本发明方法对这些具有代表性的3D图像进行处理，显著性预测图像对应参见图图5c、6c、图7c、图8c，对应与图5d、图6d、图7d、图8d比较，可以发现利用本发明方法能够精准地捕捉这些双流网络二次融合3D图像中的显著区域。

图9a为利用本发明方法对VT821数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图，图9b为利用本发明方法对VT1000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图，图9c为利用本发明方法对VT5000数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。从图9a、图9b和图9c中可以看出，PR曲线下方的面积较大，说明本发明方法具有良好的检测性能。图9a、图9b和图9c中Precision代表“精准率”，Recall代表“召回率”。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种双流网络二次融合的显著性物体检测方法，其特征在于，具体步骤包括：

2.根据权利要求1所述的一种双流网络二次融合的显著性物体检测方法，其特征在于，所述动态融合处理具体步骤如下：

3.根据权利要求1所述的一种双流网络二次融合的显著性物体检测方法，其特征在于，得到RGB信息译码流和热力信息译码流具体步骤包括如下：第1个跳转块至第5个跳转块用于得到RGB信息译码流；第6跳转块至第10跳转块用于得到热力信息译码流；第1个跳连块与第6个跳连块结构相同，第2个跳连块与第7个跳连块结构相同，第3个跳连块与第8个跳连块结构相同，第4个跳连块与第9个跳连块结构相同，第5个跳连块与第10个跳连块结构相同；第1个跳连块包括依次连接的第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层，第二十卷积层的输入端作为第1个跳连块的输入端，第二十一激活层的输出端作为第1个跳连块的输出端；第2个跳连块包括依次连接的第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层，第二十二卷积层的输入端作为第2个跳连块的输入端，第二十三激活层的输出端作为第2个跳连块的输出端；第3个跳连块包括依次连接的第二十四卷积层、第二十四激活层、第二十五卷积层、第二十五激活层，第二十四卷积层的输入端作为第3个跳连块的输入端，第二十五激活层的输出端作为第3个跳连块的输出端；第4个跳连块包括依次连接的第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层，第二十六卷积层的输入端作为第4个跳连块的输入端，第二十七激活层的输出端作为第4个跳连块的输出端；第5个跳连块包括依次连接的第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层，第二十八卷积层的输入端作为第5个跳连块的输入端，第二十九激活层的输出端作为第5个跳连块的输出端。

4.根据权利要求1所述的一种双流网络二次融合的显著性物体检测方法，所述注意力融合的具体步骤包括：