CN113362322B

CN113362322B - 一种判别辅助和多模态加权融合的显著物体检测方法

Info

Publication number: CN113362322B
Application number: CN202110805562.3A
Authority: CN
Inventors: 周武杰; 朱赟; 强芳芳; 许彩娥
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2024-04-30
Anticipated expiration: 2041-07-16
Also published as: CN113362322A

Abstract

本发明公开了一种判别辅助和多模态加权融合的显著物体检测方法。在训练阶段，构建生成器部分卷积神经网络以及判别器部分卷积神经网络，生成器部分卷积神经网络的隐层包括彩色显著图获取流和热红外显著图获取流；判别器部分卷积神经网络包括四个共享参数、相同结构的卷积神经网络，隐层包括真实/彩色/热红外/融合判别卷积模块、真实/彩色/热红外/融合判别全连接；使用原始图像输入到卷积神经网络中进行训练；在测试阶段，将待检测图像输入到生成器部分中，得到预测显著性检测图像。本发明提高了网络的网络对光线变化的不敏感程度，在黑夜条件下也能检测出显著物体，并且进一步优化了预测图的轮廓信息。

Description

一种判别辅助和多模态加权融合的显著物体检测方法

技术领域

本发明涉及一种基于深度学习的显著性检测方法，尤其涉及一种判别辅助和多模态加权融合的显著物体检测方法。

背景技术

显著性检测的目的是检测场景中最引人注目的物体，其已经在计算机视觉和机器人视觉领域得到了广泛的应用。传统的显著性检测方法的效果差，并且受到手工制作的相关特征的限制，随着卷积神经网络的兴起，显著性检测得到了极大的发展。目前，最常用的显著性检测方法采用的都是利用彩色图像进行显著性检测，但是只使用彩色图像进行显著性检测易受到光线因素的影响，为了解决彩色图像受光线因素影响的问题，彩色图像加热红外图像的显著检测方法得到了一定的关注。

现有的基于卷积神经网络的显著性检测方法一般都是利用彩色图像和热红外图像的互补关系，通过大量的跳连、残差、注意力机制将彩色图像和热红外图像进行融合，这种方法在绝大多数的场景下都取得了较好的结果，但是彩色图像和热红外图像不止存在着互补特征，同时也存在着差异特征，如：图6a和图6b，彩色图像在夜晚场景下几近全黑，如果仅仅考虑互补信息，平等的对待彩色信息和热红外信息，势必会带来大量的噪声，导致检测结果的下降。此外，现有的方法采用的简单的相加，相乘操作不能较好的探索多尺度信息之间的互补性，最终会导致预测结果粗糙，检测精度低。

发明内容

为了解决背景技术中的问题，本发明提供了一种判别辅助和多模态加权融合的显著物体检测方法，其适用范围广，不受光线条件影响。

本发明采用技术方案包括以下步骤：

步骤1：选取Q幅原始场景图像以及每幅原始场景图像对应的真实显著检测图像构成训练集，每幅原始场景图像由原始彩色图像和对应的原始热红外图像组成；

步骤2：构建卷积神经网络，包括生成器部分和判别器部分；

生成器部分卷积神经网络包括输入层、隐层和输出层；隐层包括彩色显著图获取流、热红外显著图获取流，彩色显著图获取流包括彩色预训练模块、五个依次连接的彩色优化模块、四个依次连接的彩色解码模块，热红外显著图获取流包括热红外预训练模块、五个热红外优化模块、四个热红外解码模块；

输入层包括彩色显著图获取流输入端和热红外显著图获取流输入端，彩色显著图获取流输入端接收一幅原始彩色图像的红、绿、蓝三层通道分量，热红外显著图获取流输入端接收一幅原始热红外图像的三通道分量；

输出层包括彩色输出层、热红外输出层、融合输出层、多模态加权融合模块和最终输出层，第四个彩色解码模块分别输入融合输出层和彩色输出层，第四个热红外解码模块分别输入融合输出层和热红外输出层，多模态加权融合模块输入最终输出层；

判别器部分卷积神经网络包括四个共享参数且结构相同的判别卷积神经网络，四个判别卷积模块的输入端分别接收真实显著检测图像、彩色显著性预测图、热红外显著性预测图和融合显著性预测图；每个判别卷积神经网络依次连接的判别卷积模块、判别全连接模块和判别输出层；

步骤3：将训练集中的原始场景图像作为原始输入图像，以小批量且分为单数次和偶数次的形式输入步骤2构建的卷积神经网络中进行训练，得到训练集中的每幅原始场景图像对应的彩色显著性预测图、热红外显著性预测图、融合显著性预测图和最终显著性预测图，所有原始场景图像对应的彩色显著性预测图构成的集合记为对应的热红外显著性预测图构成的集合记为/>对应的融合显著性预测图构成的集合记为/>和对应的最终显著性预测图构成的集合记为/>所有原始场景图像对应的真实显著检测图像构成的集合记为J_true；

真实显著检测图像、彩色显著性预测图、热红外显著性预测图和融合显著性预测图分别输入四个判别卷积神经网络进行训练得到对应的真实判别输出图、彩色判别输出图、热红外判别输出图、融合判别输出图，彩色判别输出图、热红外判别输出图、融合判别输出图、真实判别输出图对应的集合分别记为K^R，K^T、K^S和K^Z；

当小批量计数为单数时，总损失为生成器部分损失Loss₁和判别器部分损失Loss₂之和，记为Loss＝Loss₁+Loss₂；当小批量计数为双数时，仅需计算生成器部分损失Loss₁，总损失为生成器部分损失Loss₁，总损失记为Loss＝Loss₁；

步骤4：重复执行步骤3共V次，共得到V个损失函数值Loss；然后从V个损失函数值中找出生成器部分最小的损失函数值(即Loss1最小)；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络模型的最优权值矢量和最优偏置项，从而完成卷积神经网络模型的训练；

步骤5：将待检测场景图像中的彩色图像和热红外图像输入训练后的生成器部分卷积神经网络，并利用训练好的最优权值矢量和最优偏置项进行预测，得到对应的显著性预测图。

彩色预训练模块和热红外预训练模块均采用Imagenet上预训练过的vgg16，并在每个最大池化层前取输出，共五个输出，五个输出分别对应彩色预训练模块和热红外预训练模块的五个输出；

第五个彩色优化模块、第四个彩色优化模块、第三个彩色优化模块、第二个彩色优化模块和第一个彩色优化模块依次连接；第五个热红外优化模块、第四个热红外优化模块、第三个热红外优化模块、第二个热红外优化模块和第一个热红外优化模块依次连接；

对于彩色优化模块，第i个彩色优化模块的第一个输入为彩色预训练模块的第i个输出，第i个彩色优化模块的第二个输入为第i-1个彩色优化模块的输出，第五个彩色优化模块的输入为彩色预训练模块的第五个输出；对于热红外优化模块，第i个热红外优化模块的第一个输入为热红外预训练模块的第i个输出，第i个热红外优化模块的第二个输入为第i-1个热红外优化模块的输出，第五个热红外优化模块的输入为热红外预训练模块的第五个输出；i为小于等于4的正整数；

第五彩色优化模块和第五热红外优化模块均采用单流优化结构，第一个、第二个、第三个、第四个彩色优化模块和第一个、第二个、第三个、第四个热红外优化模块均采用双流优化结构；

每个彩色解码模块和热红外解码模块均由依次连接的卷积层和激活层组成；

第五个彩色优化模块和第四个彩色优化模块分别经上采样操作后的输出按通道数相加后输入第一个彩色解码模块，第三个彩色优化模块的输出和第一个彩色解码模块经上采样操作后的输出按通道数相加后输入第二个彩色解码模块，第二个彩色优化模块的输出和第二个彩色解码模块经上采样操作后的输出按通道数相加后输入第二个彩色解码模块，第一个彩色优化模块的输出和第三个彩色解码模块经上采样操作后的输出按通道数相加后输入第四个彩色解码模块；

第五个热红外优化模块和第四个热红外优化模块分别经上采样操作后的输出按通道数相加后输入第一个热红外解码模块，第三个热红外优化模块的输出和第一个热红外解码模块经上采样操作后的输出按通道数相加后输入第二个热红外解码模块，第二个热红外优化模块的输出和第二个热红外解码模块经上采样操作后的输出按通道数相加后输入第二个热红外解码模块，第一个热红外优化模块的输出和第三个热红外解码模块经上采样操作后的输出按通道数相加后输入第四个热红外解码模块。

所述单流优化结构包括两个对称卷积模块、非局部特征优化模块和局部特征优化模块；单流优化结构仅有一个输入，单流优化结构的输入分别输入第一个和第二个对称卷积模块，两个对称卷积模块的输出按通道数相加后获得输出j1，j1经非局部特征优化模块的输出与j1中元素对应相乘得到输出j2，j2与j1中元素对应相加得到输出j2-1，j2-1经局部特征优化模块的输出与j2-1中元素对应相乘后得到输出j3，非局部特征优化模块的输出、单流优化结构的输入以及输出j3按通道数相加后的输出经1×1卷积层获得的输出作为单流优化结构的最终输出；

所述双流优化结构包括四个对称卷积模块、非局部特征优化模块和局部特征优化模块，双流优化结构有两个输入，第一个输入分别输入第一个和第二个对称卷积模块，第二个输入经两倍上采样后分别输入第三个和第四个对称卷积模块，四个对称卷积模块的输出按通道数相加后获得输出y1，y1经非局部特征优化模块的输出与y1中元素对应相乘得到输出y2，y2与y1中元素对应相加得到输出y2-1，y2-1经局部特征优化模块的输出与y2-1中元素对应相乘后得到输出y3，非局部特征优化模块的输出、单流优化结构的输入以及输出y3按通道数相加后的输出经1×1卷积层获得的输出作为单流优化结构的最终输出。

所述单流优化结构的四个对称卷积的通道数为n/4，双流优化结构的两个对称卷积的通道数为n/4；局部特征优化模块包括依次连接的全局池化层、1×1卷积层、Relu激活函数、1×1卷积层和sigmoid激活函数；所述非局部特征优化模块包括依次连接的1×1卷积层和softmax激活函数。

彩色输出层、热红外输出层、融合输出层均由依次连接的的卷积层和激活层组成，卷积层的卷积核个数为1，激活层的激活函数为Sigmoid；彩色输出层的输出端输出的一副特征图为彩色显著性预测图，热红外输出层的输出端输出的一副特征图为热红外显著性预测图，融合输出层的输出端输出的一副特征图为融合显著性预测图；

多模态加权融合模块的输入端分别接收彩色输出层的一副特征图、热红外输出层一副特征图、融合输出层中的一副特征图，彩色输出层、热红外输出层和融合输出层输入的特征图按通道数相加后得到输出f1，f1输入Sigmoid激活函数，对Sigmoid激活函数输出的特征图求均值得到输出f2，f2经过按通道数均分为三份的操作后获得f_{2_1}、f_{2_2}和f_{2_3}，f_{2_1}、f_{2_2}和f_{2_3}分别与彩色输出层、融合输出层和热红外输出层的输出相乘获得f_{3_1}、f_{3_2}和f_{3_3}，f_{3_1}、f_{3_2}和f_{3_3}按元素对应相加获得的输出作为多模态加权融合模块的最终输出；

最终输出层为采用Sigmoid激活函数的激活层，多模态加权融合模块的输出输入最终输出层后输出一副特征图为最终的显著性预测图。

所述判别卷积模块由依次连接的五个过滤模块组成，每个过滤模块包括依次连接的卷积层和激活层，五个卷积层的卷积核均为3×3卷积，五个过滤模块中的五个卷积层的卷积核个数分别为32、32、64、64、64，步长均为2，补零参数均为1；每个激活层的激活函数均为PRelu；

判别全连接模块由依次连接第一全连接层、第一激活层、第二全连接层、第二激活层、第三全连接层组成，第一至第三全连接层的全连接个数分别为100、2、1；激活层采用的激活函数均为Tanh；

判别输出层为采用Sigmoid激活函数的激活层，每个判别输出层的输出的一幅特征图为对应判别卷积神经网络的最终输出，四个判别卷积神经网络的最终输出分别为真实判别输出图、彩色判别输出图、热红外判别输出图、融合判别输出图。

当小批量计数为单数时：

生成器部分损失Loss₁：计算训练集中原始场景图像对应的四种显著检测性预测图构成的集合和/>与对应的真实显著检测图像构成的集合J_true之间的损失函数值，将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为均采用二值交叉熵(crossentropy)获得；

判别器部分损失：计算K^Z与K^R之间的损失函数值，记为Loss₂(K^Z,K^R)，计算K^Z与K^T之间的损失函数值，记为Loss₂(K^Z,K^T)，计算K^Z与K^S之间的损失函数值，记为Loss₂(K^Z,K^S)；Loss₂＝Loss₂(K^Z,K^R)+Loss₂(K^Z,K^T)+Loss₂(K^Z,K^S)。

其中，Loss₂(K^Z,K^R)、Loss₂(K^Z,K^T)和Loss₂(K^Z,K^S)由以下三个公式(1)(2)(3)获得：

Loss₂(K^Z,K^R)＝-(K^Z×log(K^R)+(1-K^Z)×log(1-K^R)) (1)

Loss₂(K^Z,K^T)＝-(K^Z×log(K^T)+(1-K^Z)×log(1-K^T)) (2)

Loss₂(K^Z,K^S)＝-(K^Z×log(K^S)+(1-K^Z)×log(1-K^S)) (3)

当小批量计数为双数时：

生成器部分损失Loss₁：计算训练集中原始场景图像对应的四种显著检测性预测图构成的集合和/>与对应的真实检测图像构成的集合J_true之间的损失函数值，将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为均采用二值交叉熵(crossentropy)获得。

本发明的有益效果：

1)本发明构建了两个独立的彩色显著图获取流和热红外显著图获取流，保证了不同模态之间的独立性，在彩色显著图流和热红外显著图获取流中加入了优化模块，利用同一模态多尺度之间(优化模块)的互补信息来增强对位置定位信息和轮廓边界信息的补充。保证了语义信息和边界信息的不丢失。此外，本发明还融合生成对抗框架(判别器)的优点，构建了一个强有力的生成器和一个简单且有效的判别器，进一步的优化显著图的效果。

2)本发明方法采用了一种多模态加权融合的方法来优化结果，具体为采用了多模态加权融合模块，不仅考虑了多模态信息之间的互补性，也考虑了多模态信息之间的差异性，有效的减轻了由于环境带来的噪声所产生的影响。

3)本发明所采用的方法对光线的变化不敏感，即可以实现在弱光(夜晚)条件下的检测，如图6(a)，6(b)和6(c)所示，充分的探索并利用了热红外图像对光不敏感的特性。

附图说明

图1为本发明方法的所涉及的生成器部分卷积神经网络；

图2为本发明方法的所涉及的判别器部分卷积神经网络；

图3为本发明方法所涉及的多模态加权融合模块；

图4为本发明方法所涉及的双流优化结构；

图5为本发明方法所涉及的单流优化结构；

图6a为同一场景的第1幅原始彩色图像；

图6b为同一场景的第1幅原始热红外图像；

图6c为利用本发明方法对图6a和6b所示的原始的图像进行预测，得到的预测显著性检测图像；

图7a为同一场景的第2幅原始彩色图像；

图7b为同一场景的第2幅原始热红外图像；

图7c为利用本发明方法对图7a和7b所示的原始的图像进行预测，得到的预测显著性检测图像；

图8a为同一场景的第3幅原始彩色图像；

图8b为同一场景的第3幅原始热红外图像；

图8c为利用本发明方法对图8a和8b所示的原始的图像进行预测，得到的预测显著性检测图像。

具体实施方式

以下结合附图和实施例对本发明作进一步详细描述。

本发明提出的一种判别辅助和多模态加权融合的显著物体检测方法，其总体实现的生成器部分如图1所示、判别器部分如图2所示，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的原始彩色图像和对应的Q幅原始热红外图像以及每幅原始的图像所对应的真实显著检测图像，并构成训练集，将训练集中的第q幅原始的彩色信息图像记为与之对应的第q幅原始热红外信息图像/>将训练集中与对应的真实显著检测图像记为/>其中，Q为正整数，Q≥200，如取Q＝2500，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取H＝224，W＝224、，/>表示/>中坐标位置为(i,j)的像素点的像素值，表示/>中坐标位置为(i,j)的像素点的像素值，/>表示/>中坐标位置为(i,j)的像素点的像素值；在此，选用VT5000数据集中随机抽取的2500幅图像作为训练集。构建测试集与构建训练相同，在此，VT5000数据集中剩下的2500幅图像、VT1000数据集中的1000幅图像和VT821数据集中的821幅图像作为测试集。

步骤1_2：构建生成器部分卷积神经网络：生成器部分卷积神经网络包括输入层、隐层和输出层；隐层包括设置的彩色显著图获取流的彩色预训练模块、彩色第一优化块、彩色第二优化块、彩色第三优化块、彩色第四优化块、彩色第五优化块、彩色第一解码块、彩色第二解码块、彩色第三解码块、彩色第四解码块；热红外显著图获取流的热红外预训练模块、热红外第一优化块、热红外第二优化块、热红外第三优化块、热红外第四优化块、热红外第五优化块、热红外第一解码块、热红外第二解码块、热红外第三解码块、热红外第四解码块；彩色显著图获取流输入端接收一幅原始彩色图像的红、绿、蓝三层通道分量，热红外显著图获取流输入端接收一幅原始热红外图像的三通道分量，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

在介绍具体模块前，先定义双流优化结构和单流优化结构：如图4所示，一种双流优化结构，定义输入为x1和x2，通道数均为n，以及卷积核大小为C1和C2，补零参数分别为P1和P2。x1经过第一对称卷积(卷积核大小为C1,通道数为n/4，步长为1,补零参数为P1)和第二对称卷积(卷积核大小为C2,通道数为n/4，步长为1,补零参数为P2)的输出和x2经过两倍上采样后经过第三对称卷积(卷积核大小为C1,通道数为n/4，步长为1,补零参数为P1)和第四对称卷积(卷积核大小为C2,通道数为n/4，步长为1,补零参数为P3)的输出按通道数相加的到y1；y1经过非局部特征优化模块获得输出y2，非局部特征优化模块包括依次设置的1×1卷积(通道数为n，步长为1)和softmax激活函数，y1经过1×1卷积和softmax激活函数后的输出与y₁的元素对应相乘获得y2；y2与y1对应元素相加得到y2_1，y2_1经过局部特征优化模块获得输出y3，局部特征优化模块主要包括依次设置的全局池化层、1×1卷积(通道数为n/4，步长为1)、Relu激活函数、1×1卷积(通道数为n/4，步长为1)和sigmoid激活函数，y2_1经过局部特征优化模块中设置这些操作的输出与y2_1相乘获得y3；将x1，y1，y2，y3按通道相加和1×1卷积(通道数为n，步长为1)获得最终输出y。以上所涉及的对称卷积为是将普通卷积拆成两步计算，第一步的卷积核大小为1×c，第二步的卷积核大小为c×1，其余卷积操作不变；每个对称卷积的卷积核个数均为n/4，激活函数都为Relu。此外存在输入仅有一个的情况，即如图5所示的单流优化结构，这种情况下第一对称卷积和第二对称卷积的通道数变为n/2，第三非对称卷积和第四非对称卷积不存在，其余保持不变。

对于彩色显著图获取流的彩色预训练模块和热红外显著图获取流的热红外预训练模块，采用的是Imagenet上预训练过的vgg16，并在每个最大池化层前取输出，共五个输出，彩色预训练模块的第一个输出层宽度为W、高度为H,共有64幅特征图，这64幅特征图经过一个3×3卷积(步长为1，补零参数为1，卷积核个数为64)，一个Relu激活函数的输出(64幅特征图，宽度为W、高度为H)记为R1；彩色预训练模块的第二个输出层宽度为W/2、高度为H/2,共有128幅特征图，这128幅特征图经过一个3×3卷积(步长为1，补零参数为1，卷积核个数为64)，一个Relu激活函数的输出(64幅特征图，宽度为W/2、高度为H/2)记为R2；彩色预训练模块的第三个输出层宽度为W/4、高度为H/4,共有256幅特征图，这256幅特征图经过一个3×3卷积(步长为1，补零参数为1，卷积核个数为64)，一个Relu激活函数的输出(64幅特征图，宽度为W/4、高度为H/4)记为R3；彩色预训练模块的第四个输出层宽度为W/8、高度为H/8,共有512幅特征图，这512幅特征图经过一个3×3卷积(步长为1，补零参数为1，卷积核个数为64)，一个Relu激活函数的输出(64幅特征图，宽度为W/8、高度为H/8)记为R4；彩色预训练模块的第五个输出层宽度为W/16、高度为H/16,共有512幅特征图，这512幅特征图经过一个3×3卷积(步长为1，补零参数为1，卷积核个数为64)，一个Relu激活函数的输出(64幅特征图，宽度为W/16、高度为H/16)记为R5；与彩色预训练模块结构相同，热红外预训练模块也有相同的五个输出，记为T1，T2，T3，T4，T5，结构分别于R1，R2，R3，R4，R5相同。

对于彩色第五优化模块和热红外第五优化模块，他们的结构是相同的。彩色第五优化模块接收R5中64幅特征图作为输入，彩色第五优化模块输出端输出64幅特征图，将这64幅特征图记为RR5，RR5中的输出特征图的宽度为W/16、高度为H/16；热红外第五优化模块接收T5中64幅特征图作为输入，热红外第五优化模块输出端输出64幅特征图，将这64幅特征图记为RT5，RT5中的输出特征图的宽度为W/16、高度为H/16；以彩色第五优化模块为例介绍具体结构，彩色第五优化模块由第一单流优化结构组成；R5经过第一单流优化结构(通道数均为64，以及卷积核大小为13和11，补零参数分别为6和5)得到最终的输出RR5。

对于彩色第四优化模块和热红外第四优化模块，他们的结构是相同的。彩色第四优化模块接收R4中64幅特征图和彩色第五优化模块RR5中64幅特征图作为输入，彩色第四优化模块输出端输出64幅特征图，将这64幅特征图记为RR4，RR4中的输出特征图的宽度为W/8、高度为H/8；热红外第四优化模块接收T4中64幅特征图和热红外第五优化模块RT5中64幅特征图作为输入，热红外第四优化模块输出端输出64幅特征图，将这64幅特征图记为RT4，RT4中的输出特征图的宽度为W/8、高度为H/8；以彩色第四优化模块为例介绍具体结构，彩色第四优化模块由第一双流优化结构组成；R4和RR5经过第一双流优化结构(通道数均为64，以及卷积核大小为11和9，补零参数分别为5和4)得到最终的输出RR4。(R4和RR5分别为双流优化结构中的输入x1和x2)

对于彩色第三优化模块和热红外第三优化模块，他们的结构是相同的。彩色第三优化模块接收R3中64幅特征图和彩色第四优化模块输出RR4中的64幅特征图作为输入，彩色第三优化模块输出端输出64幅特征图，将这64幅特征图记为RR3，RR3中的输出特征图的宽度为W/4、高度为H/4；热红外第三优化模块接收T3中64幅特征图和热红外第四优化模块输出RT4中的64幅特征图作为输入，热红外第三优化模块输出端输出64幅特征图，将这64幅特征图记为RT3，RT3中的输出特征图的宽度为W/4、高度为H/4；以彩色第三优化模块为例介绍具体结构，彩色第三优化模块由第二双流优化结构组成；R3和RR4经过第二双流优化结构(通道数均为64，以及卷积核大小为9和7，补零参数分别为4和3)得到最终的输出RR3。(R3和RR4分别为双流优化结构中的输入x1和x2)

对于彩色第二优化模块和热红外第二优化模块，他们的结构是相同的。彩色第二优化模块接收R2中64幅特征图和彩色第三优化模块输出RR3中的64幅特征图作为输入，彩色第二优化模块输出端输出64幅特征图，将这64幅特征图记为RR2，RR2中的输出特征图的宽度为W/2、高度为H/2；热红外第二优化模块接收T2中64幅特征图和热红外第三优化模块输出RT3中的64幅特征图作为输入，热红外第二优化模块输出端输出64幅特征图，将这64幅特征图记为RT2，RT2中的输出特征图的宽度为W/2、高度为H/2；以彩色第二优化模块为例介绍具体结构，彩色第二优化模块由第三双流优化结构组成；R2和RR3经过第三双流优化结构(通道数均为64，以及卷积核大小为7和5，补零参数分别为3和2)得到最终的输出RR2。(R2和RR3分别为双流优化结构中的输入x1和x2)

对于彩色第一优化模块和热红外第一优化模块，他们的结构是相同的。彩色第一优化模块接收R1中64幅特征图和彩色第二优化模块输出RR2中的64幅特征图作为输入，彩色第一优化模块输出端输出64幅特征图，将这64幅特征图记为RR1，RR1中的输出特征图的宽度为W、高度为H；热红外第一优化模块接收T1中64幅特征图和热红外第二优化模块输出RT2中的64幅特征图作为输入，热红外第一优化模块输出端输出64幅特征图，将这64幅特征图记为RT2，RT2中的输出特征图的宽度为W、高度为H；以彩色第二优化模块为例介绍具体结构，彩色第一优化模块由第四双流优化结构组成；R1和RR2经过第四双流优化结构(通道数均为64，以及卷积核大小为5和3，补零参数分别为2和1)得到最终的输出RR1。(R1和RR2分别为双流优化结构中的输入x1和x2)

对于彩色第一个解码模块和热红外第一解码模块，他们的结构是相同的。彩色第五优化模块中64幅特征图经过一个上采样操作(上采样率为16，插值方式为双线性插值)的结果,记为RRU5和彩色第四优化模块中64幅特征图也经过一个上采样模块(上采样率为8，插值方式为双线性插值)的结果，记为RRU4。RRU5和RRU4的宽度均为W,高度均为H。彩色第一个解码模块接收RRU5和RRU4按通道数相加的结果(64+64＝128)，128幅特征图作为输入，彩色第一个解码模块输出端输出64幅特征图，将这64幅特征图记为RD1，RD1中的输出特征图的宽度为W、高度为H；热红外第五优化模块中64幅特征图经过一个上采样模块(上采样率为16，插值方式为双线性插值)的结果,记为RTU5和热红外第四优化模块中64幅特征图也经过一个上采样操作(上采样率为8，插值方式为双线性插值)的结果，记为RTU4。RTU5和RTU4的宽度均为W,高度均为H。热红外第一个解码模块接收RTU5和RTU4按通道数相加的结果(64+64＝128)中128幅特征图作为输入，热红外第一个解码模块输出端输出64幅特征图，将这64幅特征图记为TD1，TD1中的输出特征图的宽度为W、高度为H；以彩色第一个解码模块为例介绍具体结构，彩色第一解码模块由第一卷积层、第一激活层组成；第一卷积层为3×3卷积，卷积核大小为3，卷积核数量为64，步长为1，补零参数1。第一激活层为”Relu”激活。

对于彩色第二个解码模块和热红外第二解码模块，他们的结构是相同的。彩色第三优化模块中64幅特征图经过一个上采样操作(上采样率为4，插值方式为双线性插值)的结果,记为RRU3，RRU3的宽度为W,高度为H。彩色第一个解码模块接收RRU3和RD1中64幅特征图按通道数相加的结果(64+64＝128)，128幅特征图作为输入，彩色第二个解码模块输出端输出64幅特征图，将这64幅特征图记为RD2，RD2中的输出特征图的宽度为W、高度为H；热红外第三优化模块中64幅特征图经过一个上采样模块(上采样率为4，插值方式为双线性插值)的结果,记为RTU3，RTU3的宽度为W,高度为H。热红外第二个解码模块接收RTU3和TD1中64幅特征图按通道数相加的结果(64+64＝128)中128幅特征图作为输入，热红外第二个解码模块输出端输出64幅特征图，将这64幅特征图记为TD2，TD2中的输出特征图的宽度为W、高度为H；以彩色第二个解码模块为例介绍具体结构，彩色第二解码模块由设置第二卷积层、第二激活层组成；第二卷积层为3×3卷积，卷积核大小为3，卷积核数量为64，步长为1，补零参数1。第二激活层为”Relu”激活。

对于彩色第三个解码模块和热红外第三解码模块，他们的结构是相同的。彩色第二优化模块中64幅特征图经过一个上采样操作(上采样率为2，插值方式为双线性插值)的结果,记为RRU2，RRU2的宽度为W,高度为H。彩色第一个解码模块接收RRU2和RD2中64幅特征图按通道数相加的结果(64+64＝128)，128幅特征图作为输入，彩色第三个解码模块输出端输出64幅特征图，将这64幅特征图记为RD3，RD3中的输出特征图的宽度为W、高度为H；热红外第二优化模块中64幅特征图经过一个上采样模块(上采样率为2，插值方式为双线性插值)的结果,记为RTU2，RTU2的宽度为W,高度为H。热红外第三个解码模块接收RTU2和TD2中64幅特征图按通道数相加的结果(64+64＝128)中128幅特征图作为输入，热红外第三个解码模块输出端输出64幅特征图，将这64幅特征图记为TD3，TD3中的输出特征图的宽度为W、高度为H；以彩色第三个解码模块为例介绍具体结构，彩色第三解码模块由设置第三卷积层、第三激活层组成；第三卷积层为3×3卷积，卷积核大小为3，卷积核数量为64，步长为1，补零参数1。第三激活层为“Relu”激活。

对于彩色第四个解码模块和热红外第四解码模块，他们的结构是相同的。彩色第四个解码模块接收RR1和RD3中64幅特征图按通道数相加的结果(64+64＝128)，128幅特征图作为输入，彩色第四个解码模块输出端输出64幅特征图，将这64幅特征图记为RD4，RD4中的输出特征图的宽度为W、高度为H；热红外第四个解码模块接收RT1和TD3中64幅特征图按通道数相加的结果(64+64＝128)中128幅特征图作为输入，热红外第四个解码模块输出端输出64幅特征图，将这64幅特征图记为TD4，TD4中的输出特征图的宽度为W、高度为H；以彩色第四个解码模块为例介绍具体结构，彩色第四解码模块由设置第四卷积层、第四激活层组成；第四卷积层为3×3卷积，卷积核大小为3，卷积核数量为64，步长为1，补零参数1。第四激活层为”Relu”激活。

对于彩色输出层，其由依次设计的第五卷积层、第五激活层组成，彩色输出层接收RD4中所有的特征图作为输入，彩色输出层输出端输出一副特征图，特征图宽度为W、高度为H，记为R_out，即为彩色显著性预测图，其中，第五卷积层的卷积核为1×1卷积，卷积核个数为1，步长为1，补零参数为0，第五激活层的激活函数为“Sigmoid”。

对于热红外输出层，其由依次设计的第六卷积层、第六激活层组成，热红外输出层接收TD4中所有的特征图作为输入，热红外输出层输出端输出一副特征图，特征图宽度为W、高度为H，记为T_out，即为热红外显著性预测图，其中，第六卷积层的卷积核为1×1卷积，卷积核个数为1，步长为1，补零参数为0，第六激活层的激活函数为“Sigmoid”。

对于融合输出层，其由依次设计的第七卷积层、第七激活层组成，融合输出层接收RD4和TD4中所有的特征图按元素对应相加的结果作为输入，融合输出层输出端输出一副特征图，特征图宽度为W、高度为H，记为S_out，即为融合显著性预测图，其中，第七卷积层的卷积核为1×1卷积，卷积核个数为1，步长为1，补零参数为0，第七激活层的激活函数为“Sigmoid”。

对于多模态加权融合模块，其接收R_out中一副特征图、S_out中一副特征图和T_out中一副特征图作为输入，多模态加权融合模块输出端输出一副特征图，记为F_mid，特征图宽度为W、高度为H。如图3所示，多模态加权融合模块具体结构为：首先将R_out中一副特征图、S_out中一副特征图和T_out中一副特征图按通道数相加获得f₁，f₁经过Sigmoid激活函数，对经过Sigmoid激活函数的特征图中的所有像素值求均值获得f2，f2经过按通道数均分为三份的操作后获得f_{2_1}、f_{2_2}和f_{2_3}。f_{2_1}、f_{2_2}和f_{2_3}分别与R_out中一副特征图、S_out中一副特征图和T_out中一副特征图相乘获得f_{3_1}、f_{3_2}和f_{3_3}，f_{3_1}、f_{3_2}和f_{3_3}按元素对应相加获得最终的F_mid。

对于最终输出层，其由依次设计的第八激活层组成，最终输出层接收F_mid中一副特征图作为输入，最终输出层输出端输出一副特征图，特征图宽度为W、高度为H，记为F_out，即为最终显著性预测图，其中，第八激活层的激活函数为“Sigmoid”。

步骤1_3：构建判别器部分卷积神经网络：判别器部分卷积神经网络包括四个共享参数、相同结构的判别卷积神经网络，其结构均可简化为输入层、隐层和输出层；隐层包括设置的真实/彩色/热红外/融合判别卷积模块、真实/彩色/热红外/融合判别全连接。其中，要求输入层的输入端接收的输入图像的宽度为W、高度为H。

对于真实判别卷积模块、彩色判别卷积模块、热红外判别卷积模块和融合判别卷积模块，分别接收真实显著检测图像中一副特征图、彩色输出层R_out中一幅特征图、热红外输出层T_out中一幅特征图和融合输出层S_out中一幅特征图作为输入，输出分别为ZC、RC、TC和SC，均为64幅特征图，宽度为W/32，高度为H/32。上述四种判别卷积模块结构都相同，以真实判别卷积模块为例介绍具体模块：其由依次设置的第八卷积层、第九激活层、第九卷积层、第十激活层、第十卷积层、第十一激活层、第十一卷积层、第十二激活层、第十二卷积层、第十三激活层组成。其中第八卷积层～第十二卷积层的卷积核为3×3卷积，卷积核个数分别为32、32、64、64、64，步长均为2，补零参数均为1；第九激活层～第十三激活层的激活函数均为“PRelu”。

对于真实判别全连接模块、彩色判别全连接模块、热红外判别全连接模块、融合判别全连接模块，分别接收真实判别卷积模块输出ZC中64幅特征图、彩色判别卷积模块RC中64幅特征图、热红外判别卷积模块TC中64幅特征图、融合判别卷积模块SC中64幅特征图作为输入。输出分别为ZF、RF、TF和SF，均为1幅特征图，宽度为1，高度为1。上述四种判别全连接模块结构都相同，以真实判别全连接模块为例介绍具体模块：其由依次设置的第一全连接层、第十四激活层、第二全连接层、第十五激活层、第三全连接层组成。其中第一全连接层～第三全连接层的全连接数个数分别为100、2、1；第十四激活层，第十五激活层的激活函数均为“Tanh”。

对于真实判别输出层、彩色判别输出层、热红外判别输出层、融合判别输出层，分别接收真实判别全连接模块输出ZF中1幅特征图、彩色判别全连接模块输出RF中1幅特征图、热红外判别全连接模块输出TF中1幅特征图、融合判别全连接模块输出SF中1幅特征图作为输入。输出分别为ZO、RO、TO和SO，均为1幅特征图，宽度为1，高度为1。上述四种判别输出层结构都相同，以真实判别输出层为例介绍具体模块：其由设置的第十六激活层组成。其中第十六激活层的激活函数均为“Sigmoid”。

步骤1_4：将训练集中的原始的场景图像(2500组，一组分别有一张彩色图和一张热红外图)作为原始输入图像，以小批量的形式(Batchsize＝10，10组一次，即一共250次，分为单数次和偶数次)输入到步骤1_2所涉及的生成器部分卷积神经网络中进行训练，得到训练集中的每幅原始的场景图像对应的彩色显著性预测图R_out、热红外显著性预测图T_out、融合显著性预测图S_out，最终显著性预测图F_out。将这10组原始图像对应的彩色显著性预测图构成的集合记为对应的热红外显著性预测图构成的集合记为/>对应的融合显著性预测图构成的集合记为/>和对应的最终显著性预测图构成的集合记为/>此外将这10组原始图像对应得真实显著检测图像构成的集合记为J_true。

步骤1_2所涉及的生成器部分卷积神经网络所生成的彩色显著性预测图构成的集合对应的热红外显著性预测图构成的集合为/>对应的融合显著性预测图构成的集合记/>以及原始图像对应得真实显著检测图像构成的集合记为J_true，均为10张；将输入步骤1_3所涉及的判别器部分卷积神经网络中训练，所生成的RO、TO、SO和ZO所构成的集合分别记为K^R，K^T、K^S和K^Z。

步骤1_5：当小批量计数为单数时，需计算训练集中的原始的场景图像对应的四种显著检测性预测图构成的集合和/>与对应的真实检测图像构成的集合J_true之间的损失函数值，将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为将/>与J_true之间的损失函数值记为均采用二值交叉熵(crossentropy)获得，此时生成器部分损失总合记为Loss₁；

同时需要计算K^Z与K^R之间的损失函数值，记为Loss₂(K^Z,K^R)，计算K^Z与K^T之间的损失函数值，记为Loss₂(K^Z,K^T)，计算K^Z与K^S之间的损失函数值，记为Loss₂(K^Z,K^S)。此时判别器部分损失总合记为Loss₂，Loss₂＝Loss₂(K^Z,K^R)+Loss₂(K^Z,K^T)+Loss₂(K^Z,K^S)。

其中，Loss₂(K^Z,K^R)、Loss₂(K^Z,K^T)和Loss₂(K^Z,K^S)由以下三个公式(1),(2),(3)获得：

Loss₂(K^Z,K^R)＝-(K^Z×log(K^R)+(1-K^Z)×log(1-K^R)) (1)

Loss₂(K^Z,K^T)＝-(K^Z×log(K^T)+(1-K^Z)×log(1-K^T)) (2)

Loss₂(K^Z,K^S)＝-(K^Z×log(K^S)+(1-K^Z)×log(1-K^S)) (3)

此时总损失记为Loss＝Loss₁+Loss₂。

当小批量计数为双数时，仅需计算训练集中的原始的场景图像对应的四种显著检测性预测图构成的集合和/>与对应的真实检测图像构成的集合J_true之间的损失函数值，将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为均采用二值交叉熵(crossentropy)获得；

此时总损失记为Loss＝Loss₁。

步骤1_6：重复执行步骤1_4和步骤1_5共V次，得到卷积神经网络分类训练模型，并共得到V个损失函数值(Loss₁)；然后从V个损失函数值中找出生成器部分最小的损失函数值(即Loss₁最小)；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V>1，在本实施例中取V＝200。

所述的测试阶段过程的具体步骤为：

步骤2_1：令表示待检测的场景图像的彩色图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示/>的宽度，H'表示/>的高度，/>表示/>中坐标位置为(i,j)的像素点的像素值。/>表时对应的热红外图像。

步骤2_2：在测试时，仅利用生成器部分卷积神经网络，生成器部分卷积神经网络仅输出最终显著性预测图作为测试预测图。将的红、绿、蓝三层通道分量输入到卷积神经网络彩色输入层，热红外/>的三通道分量输入到卷积神经网络热红外输入层，并利用训练好的W^best和b^best进行预测，得到对应的预测的测试预测显著图像，记为其中，/>表示/>中坐标位置为(i',j')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch1.8.1搭建了一种判别辅助和多模态加权融合的显著物体检测方法。采用VT5000数据集、VT1000数据集和VT821数据集的测试集来分析利用本发明方法预测得到的显著性检测图像的检测效果。这里，利用评估显著性检测方法的4个常用客观参量作为评价指标，即平均绝对误差(Mean Absolute Error，MAE)、F1分数(F1Score，F1)、结构测量(Structure measure，S-measure)、增强定位测量(Enhancedalignment measure，E-measure)来评价显著性检测图像的检测性能。

利用本发明方法对VT821数据集、VT1000数据集和VT5000数据集的测试集中的每幅图像进行预测，得到每幅图像对应的显著性检测图像，反映本发明方法的检测效果的平均绝对误差MAE、F1分数F1、结构测量S-measure、增强定位测量E-measure如表1所列。从表1所列的数据可知，按本发明方法得到的显著性检测图像的检测结果的测试指标都较好，表明利用本发明方法来获取相应场景图像对应的显著性检测预测图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

	VT821	VT1000	VT5000
				MAE	0.034	0.021	0.035
F1	0.824	0.885	0.824
				S-measure	0.866	0.921	0.873
E-measure	0.911	0.941	0.916

图6a为第1幅原始彩色图像；图6b为同一场景的第1幅原始热红外图像；图6c为利用本发明方法对图6a和图6b所示的原始图像进行预测，得到的预测显著物体检测图像；图7a为第2幅原始彩色信息图像；图7b为同一场景的第2幅原始热红外信息图像；图7c为利用本发明方法对图7a和图7b所示的原始的场景图像进行预测，得到的预测显著物体检测图像；图8a为第3幅原始的场景彩色信息图像；图8b为同一场景的第3幅原始热红外信息图像；图8c为利用本发明方法对图8a和8b所示的原始的场景图像进行预测，得到的预测显著物体检测图像。对比图6a，图6b和图6c，对比图7a，图7b和图7c，对比图8a，图8b和图8c，可以看出本发明方法无论在白天和夜晚都可以取得准确的检测结果。

Claims

1.一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，包括以下步骤：

步骤2：构建卷积神经网络，包括生成器部分和判别器部分；

步骤4：重复执行步骤3共V次，共得到V个损失函数值Loss；然后从V个损失函数值中找出生成器部分最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络模型的最优权值矢量和最优偏置项，从而完成卷积神经网络模型的训练；

2.根据权利要求1所述的一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，彩色预训练模块和热红外预训练模块均采用Imagenet上预训练过的vgg16，并在每个最大池化层前取输出，共五个输出，五个输出分别对应彩色预训练模块和热红外预训练模块的五个输出；

3.根据权利要求2所述的一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，

4.根据权利要求3所述的一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，所述单流优化结构的四个对称卷积的通道数为n/4，双流优化结构的两个对称卷积的通道数为n/4；局部特征优化模块包括依次连接的全局池化层、1×1卷积层、Relu激活函数、1×1卷积层和sigmoid激活函数；所述非局部特征优化模块包括依次连接的1×1卷积层和softmax激活函数。

5.根据权利要求1所述的一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，彩色输出层、热红外输出层、融合输出层均由依次连接的的卷积层和激活层组成，卷积层的卷积核个数为1，激活层的激活函数为Sigmoid；彩色输出层的输出端输出的一副特征图为彩色显著性预测图，热红外输出层的输出端输出的一副特征图为热红外显著性预测图，融合输出层的输出端输出的一副特征图为融合显著性预测图；

6.根据权利要求1所述的一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，所述判别卷积模块由依次连接的五个过滤模块组成，每个过滤模块包括依次连接的卷积层和激活层，五个卷积层的卷积核均为3×3卷积，五个过滤模块中的五个卷积层的卷积核个数分别为32、32、64、64、64，步长均为2，补零参数均为1；每个激活层的激活函数均为PRelu；

7.根据权利要求1所述的一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，当小批量计数为单数时：

生成器部分损失Loss₁：计算训练集中原始场景图像对应的四种显著检测性预测图构成的集合和/>与对应的真实显著检测图像构成的集合J_true之间的损失函数值，将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/> 均采用二值交叉熵(crossentropy)获得；

Loss₂(K^Z,K^R)＝-(K^Z×log(K^R)+(1-K^Z)×log(1-K^R)) (1)

Loss₂(K^Z,K^T)＝-(K^Z×log(K^T)+(1-K^Z)×log(1-K^T)) (2)

Loss₂(K^Z,K^S)＝-(K^Z×log(K^S)+(1-K^Z)×log(1-K^S)) (3)

8.根据权利要求1所述的一种判别辅助和多模态加权融合的显著物体检测方法，其特征在于，当小批量计数为双数时：

生成器部分损失Loss₁：计算训练集中原始场景图像对应的四种显著检测性预测图构成的集合和/>与对应的真实检测图像构成的集合J_true之间的损失函数值，将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为将/>与J_true之间的损失函数值记为/>将/>与J_true之间的损失函数值记为/> 均采用二值交叉熵(crossentropy)获得。