CN112149662A

CN112149662A - 一种基于扩张卷积块的多模态融合显著性检测方法

Info

Publication number: CN112149662A
Application number: CN202010850264.1A
Authority: CN
Inventors: 周武杰; 张欣悦; 雷景生; 靳婷; 史文彬
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-29

Abstract

本发明公开了一种基于扩张卷积块的多模态融合显著性检测方法，其构建的卷积神经网络采用了渐增扩张卷积块，以RGB图的编码网络中的第1个至第4个神经网络块的多尺度输出为输入，能对输入的特征图进行自适应特征细化，以捕捉更充分的RGB特征信息，以提高视觉显著性检测精度；采用了通道注意力模块，以深度图和RGB图的元素相加结果作为输入，能有效结合跨模态多尺度的深度信息和细化后的RGB信息，增强了显著区域的表达，提高了显著检测精度；采用了特征交互增强模块，以RGB图的编码网络中的第5个神经网络块的输出为输入，通过两个特征交互流将输入的高层RGB信息进行特征增强，与高层深度信息进行跨模态融合，能利用多模态信息捕获更精确的显著区域。

Description

一种基于扩张卷积块的多模态融合显著性检测方法

技术领域

本发明涉及一种视觉显著性检测方法，尤其是涉及一种基于扩张卷积块的多模态融合显著性检测方法。

背景技术

在图像中寻找感兴趣的对象时，人可以自动捕获对象及其上下文之间的语义信息，对显著对象给予高度的关注，并选择性地抑制不重要的因素。这种精确的视觉注意机制已经在各种生物逻辑模型中得到了解释。显著性检测的目的是自动检测图像中最具信息和吸引力的部分。在许多图像应用中，例如图像质量评估、语义分割、图像识别等，确定显著目标不仅可以降低计算成本，还可以提高显著性模型的性能。早期的显著性检测方法采用手工特征，即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入，发现这些手工特征已经不足以很好地捕获图像中的特征，因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此，采用深度学习的方法能更好地提取图像特征，以达到更好的显著性检测效果。现有的显著性检测方法大多数已经采用深度学习的方法，利用卷积层与池化层相结合的方法提取图像特征，但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性，尤其是进行池化操作会丢失图像的特征信息，从而会导致得到的显著性预测图效果较差，检测的准确度低。

发明内容

本发明所要解决的技术问题是提供一种基于扩张卷积块的多模态融合显著性检测方法，其检测准确度高。

本发明解决上述技术问题所采用的技术方案为：一种基于扩张卷积块的多模态融合显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤①_1：选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集，将训练集中的第i幅原始立体图像的RGB图和深度图对应记为

和

将训练集中与第i幅原始立体图像对应的真实人眼注释图记为

其中，K为正整数，K≥200，1≤i≤K，(x,y)代表像素点的坐标位置，用W表示原始立体图像的宽度，用H表示原始立体图像的高度，则有1≤x≤W,1≤y≤H，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤①_2：构建卷积神经网络：该卷积神经网络包括输入层、隐层和输出层，输入层由RGB图输入层和深度图输入层两部分构成，隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成，渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成；

对于RGB图输入层，其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层；其中，原始RGB图的宽度为W、高度为H；

对于深度图输入层，其输入端接收一幅原始深度图通过采用HHA方法处理成的三通道深度图，其输出端输出三通道深度图给隐层；其中，原始深度图的宽度为W、高度为H；

对于隐层，第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为S₁，S₁中的每幅特征图的宽度为

高度为

第2个神经网络块的输入端接收S₁中的所有特征图，第2个神经网络块的输出端输出128幅特征图，将这128幅特征图构成的集合记为S₂，S₂中的每幅特征图的宽度为

高度为

第3个神经网络块的输入端接收S₂中的所有特征图，第3个神经网络块的输出端输出256幅特征图，将这256幅特征图构成的集合记为S₃，S₃中的每幅特征图的宽度为

高度为

第4个神经网络块的输入端接收S₃中的所有特征图，第4个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S₄，S₄中的每幅特征图的宽度为

高度为

第5个神经网络块的输入端接收S₄中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S₅，S₅中的每幅特征图的宽度为

高度为

第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图，第6个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为S₆，S₆中的每幅特征图的宽度为

高度为

第7个神经网络块的输入端接收S₆中的所有特征图，第7个神经网络块的输出端输出128幅特征图，将这128幅特征图构成的集合记为S₇，S₇中的每幅特征图的宽度为

高度为

第8个神经网络块的输入端接收S₇中的所有特征图，第8个神经网络块的输出端输出256幅特征图，将这256幅特征图构成的集合记为S₈，S₈中的每幅特征图的宽度为

高度为

第9个神经网络块的输入端接收S₈中的所有特征图，第9个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S₉，S₉中的每幅特征图的宽度为

高度为

第10个神经网络块的输入端接收S₉中的所有特征图，第10个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S₁₀，S₁₀中的每幅特征图的宽度为

高度为

第1个扩张卷积块的输入端接收S₁中的所有特征图，第1个扩张卷积块的输出端输出32幅特征图，将这32幅特征图构成的集合记为Z₁，Z₁中的每幅特征图的宽度为

高度为

第2个扩张卷积块的输入端接收S₂中的所有特征图，第2个扩张卷积块的输出端输出64幅特征图，将这64幅特征图构成的集合记为Z₂，Z₂中的每幅特征图的宽度为

高度为

第3个扩张卷积块的输入端接收S₂中的所有特征图，第3个扩张卷积块的输出端输出64幅特征图，将这64幅特征图构成的集合记为Z₃，Z₃中的每幅特征图的宽度为

高度为

第4个扩张卷积块的输入端接收S₃中的所有特征图，第4个扩张卷积块的输出端输出128幅特征图，将这128幅特征图构成的集合记为Z₄，Z₄中的每幅特征图的宽度为

高度为

第5个扩张卷积块的输入端接收S₃中的所有特征图，第5个扩张卷积块的输出端输出128幅特征图，将这128幅特征图构成的集合记为Z₅，Z₅中的每幅特征图的宽度为

高度为

第6个扩张卷积块的输入端接收S₃中的所有特征图，第6个扩张卷积块的输出端输出128幅特征图，将这128幅特征图构成的集合记为Z₆，Z₆中的每幅特征图的宽度为

高度为

第7个扩张卷积块的输入端接收S₄中的所有特征图，第7个扩张卷积块的输出端输出256幅特征图，将这256幅特征图构成的集合记为Z₇，Z₇中的每幅特征图的宽度为

高度为

第8个扩张卷积块的输入端接收S₄中的所有特征图，第8个扩张卷积块的输出端输出256幅特征图，将这256幅特征图构成的集合记为Z₈，Z₈中的每幅特征图的宽度为

高度为

第9个扩张卷积块的输入端接收S₄中的所有特征图，第9个扩张卷积块的输出端输出256幅特征图，将这256幅特征图构成的集合记为Z₉，Z₉中的每幅特征图的宽度为

高度为

第10个扩张卷积块的输入端接收S₄中的所有特征图，第10个扩张卷积块的输出端输出256幅特征图，将这256幅特征图构成的集合记为Z₁₀，Z₁₀中的每幅特征图的宽度为

高度为

第1个通道注意力模块至第4个通道注意力模块的结构相同，第1个通道注意力模块的第一输入端接收Z₁中的所有特征图，第1个通道注意力模块的第二输入端接收S₆中的所有特征图，第2个通道注意力模块的第一输入端接收对Z₂中的所有特征图和Z₃中的所有特征图进行元素相加操作后得到的所有特征图，第2个通道注意力模块的第二输入端接收S₇中的所有特征图，第3个通道注意力模块的第一输入端接收对Z₄中的所有特征图、Z₅中的所有特征图和Z₆中的所有特征图进行元素相加操作后得到的所有特征图，第3个通道注意力模块的第二输入端接收S₈中的所有特征图，第4个通道注意力模块的第一输入端接收对Z₇中的所有特征图、Z₈中的所有特征图、Z₉中的所有特征图和Z₁₀中的所有特征图进行元素相加操作后得到的所有特征图，第4个通道注意力模块的第二输入端接收S₉中的所有特征图，每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图，将所有第一调整图构成的集合记为T₁，对T₁中的每幅第一调整图进行矩阵形状调整操作得到第二调整图，将所有第二调整图构成的集合记为T₂，对T₂中的每幅第二调整图进行矩阵转置操作得到第三调整图，将所有第三调整图构成的集合记为T₃，对T₃中的所有第三调整图和T₂中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图，将所有第一元素相乘图构成的集合记为T₄，利用softmax函数对T₄中的每幅第一元素相乘图进行处理后乘上学习参数α得到第一处理图，将所有第一处理图构成的集合记为T₅，利用sigmoid函数对T₄中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)得到第二处理图，将所有第二处理图构成的集合记为T₆，对T₅中的所有第一处理图和T₆中的所有第二处理图进行元素相加操作得到多幅初步注意力图，将所有初步注意力图构成的集合记为T₇，对T₇中的所有初步注意力图和T₁中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图，将所有第二元素相乘图构成的集合记为T₈，对T₈中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图，将所有第四调整图构成的集合记为T₉，对T₉中的所有第四调整图和和T₁中的所有第一调整图进行元素相加操作得到多幅最终注意力图，将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图，将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F₁，将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F₂，将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F₃，将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F₄，F₁中包含96幅特征图且每幅特征图的宽度为

高度为

F₂中包含256幅特征图且每幅特征图的宽度为

高度为

F₃中包含640幅特征图且每幅特征图的宽度为

高度为

F₄中包含1536幅特征图且每幅特征图的宽度为

高度为

特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成，第四激活层和第五激活层的激活方式为“ReLU函数”，1×1卷积块的输入端作为特征交互增强模块的输入端接收S₅中的所有特征图，1×1卷积块的输出端输出256幅特征图，将这256幅特征图构成的集合记为E₁，E₁中的每幅特征图的宽度为

高度为

第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E₁中的所有特征图，第一自适应池化层的输出端输出256幅特征图，将这256幅特征图构成的集合记为E₂，E₂中的每幅特征图的宽度为

高度为

第二自适应池化层的输出端输出256幅特征图，将这256幅特征图构成的集合记为E₃，E₃中的每幅特征图的宽度为

高度为

第四激活层的输入端接收E₂中的所有特征图，第五激活层的输入端接收E₃中的所有特征图，第四激活层的输出端输出256幅特征图，将这256幅特征图构成的集合记为E₄，E₄中的每幅特征图的宽度为

高度为

第五激活层的输出端输出256幅特征图，将这256幅特征图构成的集合记为E₅，E₅中的每幅特征图的宽度为

高度为

第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E₄中的所有特征图，第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E₅中的所有特征图，第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图，将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₆，将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₇，将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₈，将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₉，将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₁₀，将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₁₁，将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₁₂，将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E₁₃，E₆、E₇、E₈、E₉、E₁₀、E₁₁、E₁₂、E₁₃中的每幅特征图的宽度为

高度为

对E₆中的所有特征图、E₇中的所有特征图、E₈中的所有特征图、E₉中的所有特征图进行通道数叠操作，得到512幅特征图，将这512幅特征图构成的集合记为E₁₄，E₁₄中的每幅特征图的宽度为

高度为

对E₁₀中的所有特征图、E₁₁中的所有特征图、E₁₂中的所有特征图、E₁₃中的所有特征图进行通道数叠操作，得到512幅特征图，将这512幅特征图构成的集合记为E₁₅，E₁₅中的每幅特征图的宽度为

高度为

将利用softmax函数对E₁₄中的所有特征图进行处理后得到的所有特征图和利用softmax函数对E₁₅中的所有特征图进行处理后得到的所有特征图进行通道数叠操作，得到1024幅特征图，将这1024幅特征图构成的集合记为E₁₆，E₁₆中的每幅特征图的宽度为

高度为

特征交互增强模块的输出端输出E₁₆中的所有特征图；对E₁₆中的所有特征图和S₁₀中的所有特征图进行通道数叠操作，得到1536幅特征图，将这1536幅特征图构成的集合记为C₀，C₀中的每幅特征图的宽度为

高度为

第1个上采样块的输入端接收C₀中的所有特征图，第1个上采样块的输出端输出768幅特征图，将这768幅特征图构成的集合记为C₁，C₁中的每幅特征图的宽度为

高度为

第2个上采样块的输入端接收对C₁中的所有特征图和F₄中的所有特征图进行通道数叠操作后得到的所有特征图，第2个上采样块的输出端输出1652幅特征图，将这1652幅特征图构成的集合记为C₂，C₂中的每幅特征图的宽度为

高度为

第3个上采样块的输入端接收对C₂中的所有特征图和F₃中的所有特征图进行通道数叠操作后得到的所有特征图，第3个上采样块的输出端输出1646幅特征图，将这1646幅特征图构成的集合记为C₃，C₃中的每幅特征图的宽度为

高度为

第4个上采样块的输入端接收对C₃中的所有特征图和F₂中的所有特征图进行通道数叠操作后得到的所有特征图，第4个上采样块的输出端输出951幅特征图，将这951幅特征图构成的集合记为C₄，C₄中的每幅特征图的宽度为

高度为

第5个上采样块的输入端接收对C₄中的所有特征图和F₁中的所有特征图进行通道数叠操作后得到的所有特征图，第5个上采样块的输出端作为隐层的输出端输出1幅特征图，该幅特征图的宽度为W、高度为H；

对于输出层，其输入端接收隐层的输出端输出的1幅特征图，其输出端输出的特征图作为显著性检测图；

步骤①_3：将训练集中的每幅原始立体图像的RGB图作为原始RGB图，并将训练集中的每幅原始立体图像的深度图作为原始深度图，将原始RGB图的R通道分量、G通道分量和B通道分量及对应的原始深度图经HHA方法处理后得到的三通道深度图输入到卷积神经网络中进行训练，得到训练集中的每幅原始立体图像对应的显著性检测图，将训练集中与第i幅原始立体图像对应的显著性检测图记为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤①_4：计算训练集中的每幅原始立体图像对应的显著性检测图与对应的真实人眼注释图之间的损失函数值，将

与

之间的损失函数值记为

采用均方误差加上Kullback-Leibler散度系数获得；

步骤①_5：重复执行步骤①_3和步骤①_4共V次，得到卷积神经网络训练模型，并共得到K×V个损失函数值；然后从K×V个损失函数值中找出值最小的损失函数值；接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤②_1：将待检测的立体图像的RGB图的R通道分量、G通道分量和B通道分量及深度图经HHA方法处理后得到的三通道深度图输入到训练好的卷积神经网络训练模型中，并利用最优权值矢量和最优偏置项进行预测，预测得到对应的显著性检测图像。

所述的步骤①_2中，第1个神经网络块至第10个神经网络块的结构相同，其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成，第一卷积层的输入端作为其所在的神经网络块的输入端，第一最大池化层的输出端作为其所在的神经网络块的输出端，其中，第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数为64、卷积核尺寸为3×3、补零参数的值为1，第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1，第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1，第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1，第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1，第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”，第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸为2、步长为2。

所述的步骤①_2中，第1个扩张卷积块至第10个扩张卷积块的结构相同，其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成，第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端，第三激活层的输出端作为其所在的扩张卷积块的输出端；其中，第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5，第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”，第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。

所述的步骤①_2中，1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成，第三卷积层的输入端为1×1卷积块的输入端，第八激活层的输出端为1×1卷积块的输出端，其中，第三卷积层、第四卷积层、第五卷积层的卷积核尺寸为1×1、步长为1，第三卷积层的卷积核个数为1024，第四卷积层的卷积核个数为512，第五卷积层的卷积核个数为256，第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”，第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。

所述的步骤①_2中，第11个扩张卷积块至第18个扩张卷积块的结构相同，其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成，第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端，第九激活层的输出端作为其所在的扩张卷积块的输出端；其中，第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5，第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“Batch Normalization”，第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。

所述的步骤①_2中，第1个上采样块至第4个上采样块的结构相同，其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成，第六卷积层的输入端作为其所在的上采样块的输入端，第一上采样层的输出端作为其所在的上采样块的输出端，其中，第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1，第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1，第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1，第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1，第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”，第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”，第1个上采样块至第4个上采样块中的第一上采样层的指定倍数为2；第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成，第七卷积层的输入端作为第5个上采样块的输入端，第二上采样层的输出端作为第5个上采样块的输出端，其中，第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1，第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1，第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1，第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1，第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1，第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“BatchNormalization”，第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”，第二上采样层的指定倍数为2。

与现有技术相比，本发明的优点在于：

1)本发明方法构建的卷积神经网络采用了渐增扩张卷积块，该渐增扩张卷积块以RGB图的编码网络中的第1个神经网络块至第4个神经网络块的多尺度输出为输入，能够对输入的特征图进行自适应特征细化，以捕捉更充分的RGB特征信息，从而能够提高最终的视觉显著性检测精度。

2)本发明方法构建的卷积神经网络采用了特征交互增强模块，该特征交互增强模块以RGB图的编码网络的最高层即第5个神经网络块的输出为输入，通过两个特征交互流将输入的高层RGB信息进行自适应的特征增强，与高层深度信息进行跨模态融合，能够利用多模态信息，捕获更精确的显著区域。

3)本发明方法构建的卷积神经网络采用了通道注意力模块，该通道注意力模块以深度图和RGB图的元素相加结果作为输入，能够有效结合跨模态多尺度的深度信息和细化后的RGB信息，保留了特征细节，增强了显著区域的表达，提高了显著检测的精度。

附图说明

图1为本发明方法构建的卷积神经网络的组成结构示意图；

图2为本发明方法构建的卷积神经网络中的通道注意力模块的组成结构示意图；

图3a为NCTU数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图；

图3b为利用本发明方法对NCTU数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像；

图4a为NCTU数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图；

图4b为利用本发明方法对NCTU数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像；

图5a为NUS数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图；

图5b为利用本发明方法对NUS数据集中同一场景的第3幅原始立体图像进行检测得到的对应的显著性检测图像；

图6a为NUS数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图；

图6b为利用本发明方法对NUS数据集中同一场景的第4幅原始立体图像进行检测得到的对应的显著性检测图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于扩张卷积块的多模态融合显著性检测方法，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

和

将训练集中与第i幅原始立体图像对应的真实人眼注释图记为

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值。

如：可以选用视觉显著性检测数据集NUS中的420幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图、视觉显著性检测数据集NCTU中的332幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图构成训练集。

步骤①_2：构建卷积神经网络：该卷积神经网络包括输入层、隐层和输出层，输入层由RGB图输入层和深度图输入层两部分构成，隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成，渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成。

对于RGB图输入层，其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层；其中，原始RGB图的宽度为W、高度为H。

对于深度图输入层，其输入端接收一幅原始深度图通过采用现有的HHA方法(Horizontal disparity,height above ground,and the angle the pixel’s localsurface normal makes with the inferred gravity direction，即独热编码技术)处理成的三通道深度图，其输出端输出三通道深度图给隐层；其中，原始深度图的宽度为W、高度为H。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

第1个通道注意力模块至第4个通道注意力模块的结构相同，第1个通道注意力模块的第一输入端接收Z₁中的所有特征图，第1个通道注意力模块的第二输入端接收S₆中的所有特征图，第2个通道注意力模块的第一输入端接收对Z₂中的所有特征图和Z₃中的所有特征图进行元素相加操作后得到的所有特征图，第2个通道注意力模块的第二输入端接收S₇中的所有特征图，第3个通道注意力模块的第一输入端接收对Z₄中的所有特征图、Z₅中的所有特征图和Z₆中的所有特征图进行元素相加操作后得到的所有特征图，第3个通道注意力模块的第二输入端接收S₈中的所有特征图，第4个通道注意力模块的第一输入端接收对Z₇中的所有特征图、Z₈中的所有特征图、Z₉中的所有特征图和Z₁₀中的所有特征图进行元素相加操作后得到的所有特征图，第4个通道注意力模块的第二输入端接收S₉中的所有特征图，如图2所示，每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图，将所有第一调整图构成的集合记为T₁，对T₁中的每幅第一调整图进行矩阵形状调整操作(reshape)得到第二调整图，将所有第二调整图构成的集合记为T₂，对T₂中的每幅第二调整图进行矩阵转置操作(transpose)得到第三调整图，将所有第三调整图构成的集合记为T₃，对T₃中的所有第三调整图和T₂中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图，将所有第一元素相乘图构成的集合记为T₄，利用softmax函数对T₄中的每幅第一元素相乘图进行处理后乘上学习参数α(在本实施例中取α＝0.4)得到第一处理图，将所有第一处理图构成的集合记为T₅，利用sigmoid函数对T₄中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)(在本实施例中取α＝0.4)得到第二处理图，将所有第二处理图构成的集合记为T₆，对T₅中的所有第一处理图和T₆中的所有第二处理图进行元素相加操作得到多幅初步注意力图，将所有初步注意力图构成的集合记为T₇，对T₇中的所有初步注意力图和T₁中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图，将所有第二元素相乘图构成的集合记为T₈，对T₈中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图，将所有第四调整图构成的集合记为T₉，对T₉中的所有第四调整图和和T₁中的所有第一调整图进行元素相加操作得到多幅最终注意力图，将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图，将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F₁，将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F₂，将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F₃，将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F₄，F₁中包含96幅特征图且每幅特征图的宽度为

高度为

F₂中包含256幅特征图且每幅特征图的宽度为

高度为

F₃中包含640幅特征图且每幅特征图的宽度为

高度为

F₄中包含1536幅特征图且每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

对E₆中的所有特征图、E₇中的所有特征图、E₈中的所有特征图、E₉中的所有特征图进行通道数叠操作(是指特征图尺寸相同的情况下，将特征图进行通道数量上的相加)，得到512幅特征图，将这512幅特征图构成的集合记为E₁₄，E₁₄中的每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

第5个上采样块的输入端接收对C₄中的所有特征图和F₁中的所有特征图进行通道数叠操作后得到的所有特征图，第5个上采样块的输出端作为隐层的输出端输出1幅特征图，该幅特征图的宽度为W、高度为H。

对于输出层，其输入端接收隐层的输出端输出的1幅特征图，其输出端输出的特征图作为显著性检测图。

其中，

表示

中坐标位置为(x,y)的像素点的像素值。

与

之间的损失函数值记为

采用均方误差(MeanSquare Error，缩写为MSE)加上Kullback-Leibler散度系数(Kullback-LeiblerDivergence,缩写为KLDiv)获得。

步骤①_5：重复执行步骤①_3和步骤①_4共V次，得到卷积神经网络训练模型，并共得到K×V个损失函数值；然后从K×V个损失函数值中找出值最小的损失函数值；接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，V＞1，在本实施例中取V＝80。

所述的测试阶段过程的具体步骤为：

在本实施例中，步骤①_2中，第1个神经网络块至第10个神经网络块的结构相同，其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成，第一卷积层的输入端作为其所在的神经网络块的输入端，第一激活层的输入端接收第一卷积层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二激活层的输入端接收第二卷积层的输出端输出的所有特征图，第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图，第一最大池化层的输出端作为其所在的神经网络块的输出端，其中，第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数(filters)为64、卷积核尺寸(kernel_size)为3×3、补零参数(padding)的值为1，第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1，第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1，第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1，第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1，第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”，第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸(pool_size)为2、步长(stride)为2。

在本实施例中，步骤①_2中，第1个扩张卷积块至第10个扩张卷积块的结构相同，其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成，第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端，第一批量归一化层的输入端接收第一扩张卷积层的输出端输出的所有特征图，第三激活层的输入端接收第一批量归一化层的输出端输出的所有特征图，第三激活层的输出端作为其所在的扩张卷积块的输出端；其中，第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率(dilation)为3、补零参数为3，第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5，第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”，第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。

在本实施例中，步骤①_2中，1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成，第三卷积层的输入端为1×1卷积块的输入端，第八激活层的输出端为1×1卷积块的输出端，其中，第三卷积层、第四卷积层、第五卷积层的卷积核尺寸(kernel_size)为1×1、步长(stride)为1，第三卷积层的卷积核个数为1024，第四卷积层的卷积核个数为512，第五卷积层的卷积核个数为256，第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”，第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。

在本实施例中，步骤①_2中，第11个扩张卷积块至第18个扩张卷积块的结构相同，其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成，第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端，第五批量归一化层的输入端接收第二扩张卷积层的输出端输出的所有特征图，第九激活层的输入端接收第五批量归一化层的输出端输出的所有特征图，第九激活层的输出端作为其所在的扩张卷积块的输出端；其中，第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5，第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“BatchNormalization”，第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。

在本实施例中，步骤①_2中，第1个上采样块至第4个上采样块的结构相同，其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成，第六卷积层的输入端作为其所在的上采样块的输入端，第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图，第十激活层的输入端接收第六批量归一化层的输出端输出的所有特征图，第一上采样层的输入端接收第十激活层的输出端输出的所有特征图，第一上采样层的输出端作为其所在的上采样块的输出端，其中，第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1，第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1，第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1，第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1，第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”，第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”，第1个上采样块至第4个上采样块中的第一上采样层的指定倍数(scale_factor)为2；第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成，第七卷积层的输入端作为第5个上采样块的输入端，第二上采样层的输出端作为第5个上采样块的输出端，其中，第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1，第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1，第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1，第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1，第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1，第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“Batch Normalization”，第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”，第二上采样层的指定倍数为2。

上述，依次连接是指下一层的输入端与上一层的输出端连接。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库PyTorch1.1.0搭建本发明方法中的卷积神经网络架构。选用视觉显著性检测数据集NUS中的600幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图、视觉显著性检测数据集NCTU中的475幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图构成测试集，来分析利用本发明方法检测得到的显著性检测图像的检测效果。

在本实验中，利用评估显著性检测方法的4个常用客观参量作为评价指标：线性相关系数(Linear Correlation Coefficient，CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence，KLDiv)、AUC参数(the Aera Under the receiver operatingcharacteristics Curve，AUC)、标准化扫描路径显著性(Normalized Scanpath Saliency，NSS)来评价显著性检测图像的检测性能。

利用本发明方法对测试集中的每幅立体图像进行检测，得到每幅立体图像对应的显著性检测图像，反映本发明方法的显著性检测效果的线性相关系数CC、Kullback-Leibler散度系数KLDiv、AUC参数、标准化扫描路径显著性NSS如表1所列。

表1利用本发明方法得到的显著性检测效果

从表1所列的数据可知，按本发明方法得到的显著性检测图像的检测结果是较好的，表明客观评价结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

图3a给出了NCTU数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图，图3b给出了利用本发明方法对NCTU数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像；图4a给出了NCTU数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图，图4b给出了利用本发明方法对NCTU数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像；图5a给出了NUS数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图，图5b给出了利用本发明方法对NUS数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像；图6a给出了NUS数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图，图6b为利用本发明方法对NUS数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像。对比图3a和图3b，对比图4a和图4b，对比图5a和图5b，对比图6a和图6b，可以看出利用本发明方法得到的显著性检测图像的预测精度很高，本发明方法明显取得了突出显著的技术效果。

Claims

1.一种基于扩张卷积块的多模态融合显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

和

将训练集中与第i幅原始立体图像对应的真实人眼注释图记为

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值；

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

F₂中包含256幅特征图且每幅特征图的宽度为

高度为

F₃中包含640幅特征图且每幅特征图的宽度为

高度为

F₄中包含1536幅特征图且每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

与

之间的损失函数值记为

采用均方误差加上Kullback-Leibler散度系数获得；

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法，其特征在于所述的步骤①_2中，第1个神经网络块至第10个神经网络块的结构相同，其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成，第一卷积层的输入端作为其所在的神经网络块的输入端，第一最大池化层的输出端作为其所在的神经网络块的输出端，其中，第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数为64、卷积核尺寸为3×3、补零参数的值为1，第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1，第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1，第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1，第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1，第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”，第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸为2、步长为2。

3.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法，其特征在于所述的步骤①_2中，第1个扩张卷积块至第10个扩张卷积块的结构相同，其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成，第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端，第三激活层的输出端作为其所在的扩张卷积块的输出端；其中，第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5，第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”，第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。

4.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法，其特征在于所述的步骤①_2中，1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成，第三卷积层的输入端为1×1卷积块的输入端，第八激活层的输出端为1×1卷积块的输出端，其中，第三卷积层、第四卷积层、第五卷积层的卷积核尺寸为1×1、步长为1，第三卷积层的卷积核个数为1024，第四卷积层的卷积核个数为512，第五卷积层的卷积核个数为256，第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”，第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。

5.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法，其特征在于所述的步骤①_2中，第11个扩张卷积块至第18个扩张卷积块的结构相同，其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成，第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端，第九激活层的输出端作为其所在的扩张卷积块的输出端；其中，第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1，第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2，第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3，第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5，第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“Batch Normalization”，第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。

6.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法，其特征在于所述的步骤①_2中，第1个上采样块至第4个上采样块的结构相同，其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成，第六卷积层的输入端作为其所在的上采样块的输入端，第一上采样层的输出端作为其所在的上采样块的输出端，其中，第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1，第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1，第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1，第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1，第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”，第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”，第1个上采样块至第4个上采样块中的第一上采样层的指定倍数为2；第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成，第七卷积层的输入端作为第5个上采样块的输入端，第二上采样层的输出端作为第5个上采样块的输出端，其中，第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1，第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1，第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1，第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1，第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1，第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“BatchNormalization”，第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”，第二上采样层的指定倍数为2。