CN112149662A - 一种基于扩张卷积块的多模态融合显著性检测方法 - Google Patents
一种基于扩张卷积块的多模态融合显著性检测方法 Download PDFInfo
- Publication number
- CN112149662A CN112149662A CN202010850264.1A CN202010850264A CN112149662A CN 112149662 A CN112149662 A CN 112149662A CN 202010850264 A CN202010850264 A CN 202010850264A CN 112149662 A CN112149662 A CN 112149662A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- block
- expanded
- feature maps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Abstract
本发明公开了一种基于扩张卷积块的多模态融合显著性检测方法,其构建的卷积神经网络采用了渐增扩张卷积块,以RGB图的编码网络中的第1个至第4个神经网络块的多尺度输出为输入,能对输入的特征图进行自适应特征细化,以捕捉更充分的RGB特征信息,以提高视觉显著性检测精度;采用了通道注意力模块,以深度图和RGB图的元素相加结果作为输入,能有效结合跨模态多尺度的深度信息和细化后的RGB信息,增强了显著区域的表达,提高了显著检测精度;采用了特征交互增强模块,以RGB图的编码网络中的第5个神经网络块的输出为输入,通过两个特征交互流将输入的高层RGB信息进行特征增强,与高层深度信息进行跨模态融合,能利用多模态信息捕获更精确的显著区域。
Description
技术领域
本发明涉及一种视觉显著性检测方法,尤其是涉及一种基于扩张卷积块的多模态融合显著性检测方法。
背景技术
在图像中寻找感兴趣的对象时,人可以自动捕获对象及其上下文之间的语义信息,对显著对象给予高度的关注,并选择性地抑制不重要的因素。这种精确的视觉注意机制已经在各种生物逻辑模型中得到了解释。显著性检测的目的是自动检测图像中最具信息和吸引力的部分。在许多图像应用中,例如图像质量评估、语义分割、图像识别等,确定显著目标不仅可以降低计算成本,还可以提高显著性模型的性能。早期的显著性检测方法采用手工特征,即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入,发现这些手工特征已经不足以很好地捕获图像中的特征,因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此,采用深度学习的方法能更好地提取图像特征,以达到更好的显著性检测效果。现有的显著性检测方法大多数已经采用深度学习的方法,利用卷积层与池化层相结合的方法提取图像特征,但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性,尤其是进行池化操作会丢失图像的特征信息,从而会导致得到的显著性预测图效果较差,检测的准确度低。
发明内容
本发明所要解决的技术问题是提供一种基于扩张卷积块的多模态融合显著性检测方法,其检测准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为和将训练集中与第i幅原始立体图像对应的真实人眼注释图记为其中,K为正整数,K≥200,1≤i≤K,(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,用H表示原始立体图像的高度,则有1≤x≤W,1≤y≤H,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤①_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层,输入层由RGB图输入层和深度图输入层两部分构成,隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成,渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成;
对于RGB图输入层,其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层;其中,原始RGB图的宽度为W、高度为H;
对于深度图输入层,其输入端接收一幅原始深度图通过采用HHA方法处理成的三通道深度图,其输出端输出三通道深度图给隐层;其中,原始深度图的宽度为W、高度为H;
对于隐层,第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为高度为第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为高度为第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为高度为第1个扩张卷积块的输入端接收S1中的所有特征图,第1个扩张卷积块的输出端输出32幅特征图,将这32幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为高度为第2个扩张卷积块的输入端接收S2中的所有特征图,第2个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为高度为第3个扩张卷积块的输入端接收S2中的所有特征图,第3个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为高度为第4个扩张卷积块的输入端接收S3中的所有特征图,第4个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z4,Z4中的每幅特征图的宽度为高度为第5个扩张卷积块的输入端接收S3中的所有特征图,第5个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z5,Z5中的每幅特征图的宽度为高度为第6个扩张卷积块的输入端接收S3中的所有特征图,第6个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z6,Z6中的每幅特征图的宽度为高度为第7个扩张卷积块的输入端接收S4中的所有特征图,第7个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z7,Z7中的每幅特征图的宽度为高度为第8个扩张卷积块的输入端接收S4中的所有特征图,第8个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z8,Z8中的每幅特征图的宽度为高度为第9个扩张卷积块的输入端接收S4中的所有特征图,第9个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z9,Z9中的每幅特征图的宽度为高度为第10个扩张卷积块的输入端接收S4中的所有特征图,第10个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z10,Z10中的每幅特征图的宽度为高度为第1个通道注意力模块至第4个通道注意力模块的结构相同,第1个通道注意力模块的第一输入端接收Z1中的所有特征图,第1个通道注意力模块的第二输入端接收S6中的所有特征图,第2个通道注意力模块的第一输入端接收对Z2中的所有特征图和Z3中的所有特征图进行元素相加操作后得到的所有特征图,第2个通道注意力模块的第二输入端接收S7中的所有特征图,第3个通道注意力模块的第一输入端接收对Z4中的所有特征图、Z5中的所有特征图和Z6中的所有特征图进行元素相加操作后得到的所有特征图,第3个通道注意力模块的第二输入端接收S8中的所有特征图,第4个通道注意力模块的第一输入端接收对Z7中的所有特征图、Z8中的所有特征图、Z9中的所有特征图和Z10中的所有特征图进行元素相加操作后得到的所有特征图,第4个通道注意力模块的第二输入端接收S9中的所有特征图,每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图,将所有第一调整图构成的集合记为T1,对T1中的每幅第一调整图进行矩阵形状调整操作得到第二调整图,将所有第二调整图构成的集合记为T2,对T2中的每幅第二调整图进行矩阵转置操作得到第三调整图,将所有第三调整图构成的集合记为T3,对T3中的所有第三调整图和T2中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图,将所有第一元素相乘图构成的集合记为T4,利用softmax函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数α得到第一处理图,将所有第一处理图构成的集合记为T5,利用sigmoid函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)得到第二处理图,将所有第二处理图构成的集合记为T6,对T5中的所有第一处理图和T6中的所有第二处理图进行元素相加操作得到多幅初步注意力图,将所有初步注意力图构成的集合记为T7,对T7中的所有初步注意力图和T1中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图,将所有第二元素相乘图构成的集合记为T8,对T8中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图,将所有第四调整图构成的集合记为T9,对T9中的所有第四调整图和和T1中的所有第一调整图进行元素相加操作得到多幅最终注意力图,将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图,将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F1,将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F2,将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F3,将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F4,F1中包含96幅特征图且每幅特征图的宽度为高度为F2中包含256幅特征图且每幅特征图的宽度为高度为F3中包含640幅特征图且每幅特征图的宽度为高度为F4中包含1536幅特征图且每幅特征图的宽度为高度为特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成,第四激活层和第五激活层的激活方式为“ReLU函数”,1×1卷积块的输入端作为特征交互增强模块的输入端接收S5中的所有特征图,1×1卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为E1,E1中的每幅特征图的宽度为高度为第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E1中的所有特征图,第一自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E2,E2中的每幅特征图的宽度为高度为第二自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E3,E3中的每幅特征图的宽度为高度为第四激活层的输入端接收E2中的所有特征图,第五激活层的输入端接收E3中的所有特征图,第四激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E4,E4中的每幅特征图的宽度为高度为第五激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E5,E5中的每幅特征图的宽度为高度为第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E4中的所有特征图,第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E5中的所有特征图,第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图,将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E6,将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E7,将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E8,将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E9,将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E10,将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E11,将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E12,将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征图的宽度为高度为对E6中的所有特征图、E7中的所有特征图、E8中的所有特征图、E9中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E14,E14中的每幅特征图的宽度为高度为对E10中的所有特征图、E11中的所有特征图、E12中的所有特征图、E13中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E15,E15中的每幅特征图的宽度为高度为将利用softmax函数对E14中的所有特征图进行处理后得到的所有特征图和利用softmax函数对E15中的所有特征图进行处理后得到的所有特征图进行通道数叠操作,得到1024幅特征图,将这1024幅特征图构成的集合记为E16,E16中的每幅特征图的宽度为高度为特征交互增强模块的输出端输出E16中的所有特征图;对E16中的所有特征图和S10中的所有特征图进行通道数叠操作,得到1536幅特征图,将这1536幅特征图构成的集合记为C0,C0中的每幅特征图的宽度为高度为第1个上采样块的输入端接收C0中的所有特征图,第1个上采样块的输出端输出768幅特征图,将这768幅特征图构成的集合记为C1,C1中的每幅特征图的宽度为高度为第2个上采样块的输入端接收对C1中的所有特征图和F4中的所有特征图进行通道数叠操作后得到的所有特征图,第2个上采样块的输出端输出1652幅特征图,将这1652幅特征图构成的集合记为C2,C2中的每幅特征图的宽度为高度为第3个上采样块的输入端接收对C2中的所有特征图和F3中的所有特征图进行通道数叠操作后得到的所有特征图,第3个上采样块的输出端输出1646幅特征图,将这1646幅特征图构成的集合记为C3,C3中的每幅特征图的宽度为高度为第4个上采样块的输入端接收对C3中的所有特征图和F2中的所有特征图进行通道数叠操作后得到的所有特征图,第4个上采样块的输出端输出951幅特征图,将这951幅特征图构成的集合记为C4,C4中的每幅特征图的宽度为高度为第5个上采样块的输入端接收对C4中的所有特征图和F1中的所有特征图进行通道数叠操作后得到的所有特征图,第5个上采样块的输出端作为隐层的输出端输出1幅特征图,该幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收隐层的输出端输出的1幅特征图,其输出端输出的特征图作为显著性检测图;
步骤①_3:将训练集中的每幅原始立体图像的RGB图作为原始RGB图,并将训练集中的每幅原始立体图像的深度图作为原始深度图,将原始RGB图的R通道分量、G通道分量和B通道分量及对应的原始深度图经HHA方法处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到训练集中的每幅原始立体图像对应的显著性检测图,将训练集中与第i幅原始立体图像对应的显著性检测图记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤①_5:重复执行步骤①_3和步骤①_4共V次,得到卷积神经网络训练模型,并共得到K×V个损失函数值;然后从K×V个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤②_1:将待检测的立体图像的RGB图的R通道分量、G通道分量和B通道分量及深度图经HHA方法处理后得到的三通道深度图输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性检测图像。
所述的步骤①_2中,第1个神经网络块至第10个神经网络块的结构相同,其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成,第一卷积层的输入端作为其所在的神经网络块的输入端,第一最大池化层的输出端作为其所在的神经网络块的输出端,其中,第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数为64、卷积核尺寸为3×3、补零参数的值为1,第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1,第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1,第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”,第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸为2、步长为2。
所述的步骤①_2中,第1个扩张卷积块至第10个扩张卷积块的结构相同,其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成,第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第三激活层的输出端作为其所在的扩张卷积块的输出端;其中,第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”,第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。
所述的步骤①_2中,1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成,第三卷积层的输入端为1×1卷积块的输入端,第八激活层的输出端为1×1卷积块的输出端,其中,第三卷积层、第四卷积层、第五卷积层的卷积核尺寸为1×1、步长为1,第三卷积层的卷积核个数为1024,第四卷积层的卷积核个数为512,第五卷积层的卷积核个数为256,第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”,第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。
所述的步骤①_2中,第11个扩张卷积块至第18个扩张卷积块的结构相同,其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成,第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第九激活层的输出端作为其所在的扩张卷积块的输出端;其中,第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“Batch Normalization”,第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。
所述的步骤①_2中,第1个上采样块至第4个上采样块的结构相同,其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成,第六卷积层的输入端作为其所在的上采样块的输入端,第一上采样层的输出端作为其所在的上采样块的输出端,其中,第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1,第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1,第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1,第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1,第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”,第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”,第1个上采样块至第4个上采样块中的第一上采样层的指定倍数为2;第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成,第七卷积层的输入端作为第5个上采样块的输入端,第二上采样层的输出端作为第5个上采样块的输出端,其中,第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1,第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1,第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1,第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1,第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1,第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“BatchNormalization”,第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”,第二上采样层的指定倍数为2。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络采用了渐增扩张卷积块,该渐增扩张卷积块以RGB图的编码网络中的第1个神经网络块至第4个神经网络块的多尺度输出为输入,能够对输入的特征图进行自适应特征细化,以捕捉更充分的RGB特征信息,从而能够提高最终的视觉显著性检测精度。
2)本发明方法构建的卷积神经网络采用了特征交互增强模块,该特征交互增强模块以RGB图的编码网络的最高层即第5个神经网络块的输出为输入,通过两个特征交互流将输入的高层RGB信息进行自适应的特征增强,与高层深度信息进行跨模态融合,能够利用多模态信息,捕获更精确的显著区域。
3)本发明方法构建的卷积神经网络采用了通道注意力模块,该通道注意力模块以深度图和RGB图的元素相加结果作为输入,能够有效结合跨模态多尺度的深度信息和细化后的RGB信息,保留了特征细节,增强了显著区域的表达,提高了显著检测的精度。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构示意图;
图2为本发明方法构建的卷积神经网络中的通道注意力模块的组成结构示意图;
图3a为NCTU数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图;
图3b为利用本发明方法对NCTU数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像;
图4a为NCTU数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图;
图4b为利用本发明方法对NCTU数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像;
图5a为NUS数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图;
图5b为利用本发明方法对NUS数据集中同一场景的第3幅原始立体图像进行检测得到的对应的显著性检测图像;
图6a为NUS数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图;
图6b为利用本发明方法对NUS数据集中同一场景的第4幅原始立体图像进行检测得到的对应的显著性检测图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于扩张卷积块的多模态融合显著性检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为和将训练集中与第i幅原始立体图像对应的真实人眼注释图记为其中,K为正整数,K≥200,1≤i≤K,(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,用H表示原始立体图像的高度,则有1≤x≤W,1≤y≤H,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值。
如:可以选用视觉显著性检测数据集NUS中的420幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图、视觉显著性检测数据集NCTU中的332幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图构成训练集。
步骤①_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层,输入层由RGB图输入层和深度图输入层两部分构成,隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成,渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成。
对于RGB图输入层,其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层;其中,原始RGB图的宽度为W、高度为H。
对于深度图输入层,其输入端接收一幅原始深度图通过采用现有的HHA方法(Horizontal disparity,height above ground,and the angle the pixel’s localsurface normal makes with the inferred gravity direction,即独热编码技术)处理成的三通道深度图,其输出端输出三通道深度图给隐层;其中,原始深度图的宽度为W、高度为H。
对于隐层,第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为高度为第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为高度为第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为高度为第1个扩张卷积块的输入端接收S1中的所有特征图,第1个扩张卷积块的输出端输出32幅特征图,将这32幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为高度为第2个扩张卷积块的输入端接收S2中的所有特征图,第2个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为高度为第3个扩张卷积块的输入端接收S2中的所有特征图,第3个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为高度为第4个扩张卷积块的输入端接收S3中的所有特征图,第4个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z4,Z4中的每幅特征图的宽度为高度为第5个扩张卷积块的输入端接收S3中的所有特征图,第5个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z5,Z5中的每幅特征图的宽度为高度为第6个扩张卷积块的输入端接收S3中的所有特征图,第6个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z6,Z6中的每幅特征图的宽度为高度为第7个扩张卷积块的输入端接收S4中的所有特征图,第7个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z7,Z7中的每幅特征图的宽度为高度为第8个扩张卷积块的输入端接收S4中的所有特征图,第8个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z8,Z8中的每幅特征图的宽度为高度为第9个扩张卷积块的输入端接收S4中的所有特征图,第9个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z9,Z9中的每幅特征图的宽度为高度为第10个扩张卷积块的输入端接收S4中的所有特征图,第10个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z10,Z10中的每幅特征图的宽度为高度为第1个通道注意力模块至第4个通道注意力模块的结构相同,第1个通道注意力模块的第一输入端接收Z1中的所有特征图,第1个通道注意力模块的第二输入端接收S6中的所有特征图,第2个通道注意力模块的第一输入端接收对Z2中的所有特征图和Z3中的所有特征图进行元素相加操作后得到的所有特征图,第2个通道注意力模块的第二输入端接收S7中的所有特征图,第3个通道注意力模块的第一输入端接收对Z4中的所有特征图、Z5中的所有特征图和Z6中的所有特征图进行元素相加操作后得到的所有特征图,第3个通道注意力模块的第二输入端接收S8中的所有特征图,第4个通道注意力模块的第一输入端接收对Z7中的所有特征图、Z8中的所有特征图、Z9中的所有特征图和Z10中的所有特征图进行元素相加操作后得到的所有特征图,第4个通道注意力模块的第二输入端接收S9中的所有特征图,如图2所示,每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图,将所有第一调整图构成的集合记为T1,对T1中的每幅第一调整图进行矩阵形状调整操作(reshape)得到第二调整图,将所有第二调整图构成的集合记为T2,对T2中的每幅第二调整图进行矩阵转置操作(transpose)得到第三调整图,将所有第三调整图构成的集合记为T3,对T3中的所有第三调整图和T2中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图,将所有第一元素相乘图构成的集合记为T4,利用softmax函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数α(在本实施例中取α=0.4)得到第一处理图,将所有第一处理图构成的集合记为T5,利用sigmoid函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)(在本实施例中取α=0.4)得到第二处理图,将所有第二处理图构成的集合记为T6,对T5中的所有第一处理图和T6中的所有第二处理图进行元素相加操作得到多幅初步注意力图,将所有初步注意力图构成的集合记为T7,对T7中的所有初步注意力图和T1中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图,将所有第二元素相乘图构成的集合记为T8,对T8中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图,将所有第四调整图构成的集合记为T9,对T9中的所有第四调整图和和T1中的所有第一调整图进行元素相加操作得到多幅最终注意力图,将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图,将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F1,将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F2,将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F3,将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F4,F1中包含96幅特征图且每幅特征图的宽度为高度为F2中包含256幅特征图且每幅特征图的宽度为高度为F3中包含640幅特征图且每幅特征图的宽度为高度为F4中包含1536幅特征图且每幅特征图的宽度为高度为特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成,第四激活层和第五激活层的激活方式为“ReLU函数”,1×1卷积块的输入端作为特征交互增强模块的输入端接收S5中的所有特征图,1×1卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为E1,E1中的每幅特征图的宽度为高度为第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E1中的所有特征图,第一自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E2,E2中的每幅特征图的宽度为高度为第二自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E3,E3中的每幅特征图的宽度为高度为第四激活层的输入端接收E2中的所有特征图,第五激活层的输入端接收E3中的所有特征图,第四激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E4,E4中的每幅特征图的宽度为高度为第五激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E5,E5中的每幅特征图的宽度为高度为第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E4中的所有特征图,第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E5中的所有特征图,第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图,将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E6,将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E7,将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E8,将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E9,将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E10,将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E11,将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E12,将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征图的宽度为高度为对E6中的所有特征图、E7中的所有特征图、E8中的所有特征图、E9中的所有特征图进行通道数叠操作(是指特征图尺寸相同的情况下,将特征图进行通道数量上的相加),得到512幅特征图,将这512幅特征图构成的集合记为E14,E14中的每幅特征图的宽度为高度为对E10中的所有特征图、E11中的所有特征图、E12中的所有特征图、E13中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E15,E15中的每幅特征图的宽度为高度为将利用softmax函数对E14中的所有特征图进行处理后得到的所有特征图和利用softmax函数对E15中的所有特征图进行处理后得到的所有特征图进行通道数叠操作,得到1024幅特征图,将这1024幅特征图构成的集合记为E16,E16中的每幅特征图的宽度为高度为特征交互增强模块的输出端输出E16中的所有特征图;对E16中的所有特征图和S10中的所有特征图进行通道数叠操作,得到1536幅特征图,将这1536幅特征图构成的集合记为C0,C0中的每幅特征图的宽度为高度为第1个上采样块的输入端接收C0中的所有特征图,第1个上采样块的输出端输出768幅特征图,将这768幅特征图构成的集合记为C1,C1中的每幅特征图的宽度为高度为第2个上采样块的输入端接收对C1中的所有特征图和F4中的所有特征图进行通道数叠操作后得到的所有特征图,第2个上采样块的输出端输出1652幅特征图,将这1652幅特征图构成的集合记为C2,C2中的每幅特征图的宽度为高度为第3个上采样块的输入端接收对C2中的所有特征图和F3中的所有特征图进行通道数叠操作后得到的所有特征图,第3个上采样块的输出端输出1646幅特征图,将这1646幅特征图构成的集合记为C3,C3中的每幅特征图的宽度为高度为第4个上采样块的输入端接收对C3中的所有特征图和F2中的所有特征图进行通道数叠操作后得到的所有特征图,第4个上采样块的输出端输出951幅特征图,将这951幅特征图构成的集合记为C4,C4中的每幅特征图的宽度为高度为第5个上采样块的输入端接收对C4中的所有特征图和F1中的所有特征图进行通道数叠操作后得到的所有特征图,第5个上采样块的输出端作为隐层的输出端输出1幅特征图,该幅特征图的宽度为W、高度为H。
对于输出层,其输入端接收隐层的输出端输出的1幅特征图,其输出端输出的特征图作为显著性检测图。
步骤①_3:将训练集中的每幅原始立体图像的RGB图作为原始RGB图,并将训练集中的每幅原始立体图像的深度图作为原始深度图,将原始RGB图的R通道分量、G通道分量和B通道分量及对应的原始深度图经HHA方法处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到训练集中的每幅原始立体图像对应的显著性检测图,将训练集中与第i幅原始立体图像对应的显著性检测图记为其中,表示中坐标位置为(x,y)的像素点的像素值。
步骤①_4:计算训练集中的每幅原始立体图像对应的显著性检测图与对应的真实人眼注释图之间的损失函数值,将与之间的损失函数值记为采用均方误差(MeanSquare Error,缩写为MSE)加上Kullback-Leibler散度系数(Kullback-LeiblerDivergence,缩写为KLDiv)获得。
步骤①_5:重复执行步骤①_3和步骤①_4共V次,得到卷积神经网络训练模型,并共得到K×V个损失函数值;然后从K×V个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1,在本实施例中取V=80。
所述的测试阶段过程的具体步骤为:
步骤②_1:将待检测的立体图像的RGB图的R通道分量、G通道分量和B通道分量及深度图经HHA方法处理后得到的三通道深度图输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性检测图像。
在本实施例中,步骤①_2中,第1个神经网络块至第10个神经网络块的结构相同,其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成,第一卷积层的输入端作为其所在的神经网络块的输入端,第一激活层的输入端接收第一卷积层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二激活层的输入端接收第二卷积层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为其所在的神经网络块的输出端,其中,第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数(filters)为64、卷积核尺寸(kernel_size)为3×3、补零参数(padding)的值为1,第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1,第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1,第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”,第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸(pool_size)为2、步长(stride)为2。
在本实施例中,步骤①_2中,第1个扩张卷积块至第10个扩张卷积块的结构相同,其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成,第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第一批量归一化层的输入端接收第一扩张卷积层的输出端输出的所有特征图,第三激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第三激活层的输出端作为其所在的扩张卷积块的输出端;其中,第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率(dilation)为3、补零参数为3,第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”,第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。
在本实施例中,步骤①_2中,1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成,第三卷积层的输入端为1×1卷积块的输入端,第八激活层的输出端为1×1卷积块的输出端,其中,第三卷积层、第四卷积层、第五卷积层的卷积核尺寸(kernel_size)为1×1、步长(stride)为1,第三卷积层的卷积核个数为1024,第四卷积层的卷积核个数为512,第五卷积层的卷积核个数为256,第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”,第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。
在本实施例中,步骤①_2中,第11个扩张卷积块至第18个扩张卷积块的结构相同,其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成,第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第五批量归一化层的输入端接收第二扩张卷积层的输出端输出的所有特征图,第九激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,第九激活层的输出端作为其所在的扩张卷积块的输出端;其中,第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“BatchNormalization”,第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。
在本实施例中,步骤①_2中,第1个上采样块至第4个上采样块的结构相同,其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成,第六卷积层的输入端作为其所在的上采样块的输入端,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第十激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第一上采样层的输入端接收第十激活层的输出端输出的所有特征图,第一上采样层的输出端作为其所在的上采样块的输出端,其中,第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1,第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1,第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1,第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1,第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”,第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”,第1个上采样块至第4个上采样块中的第一上采样层的指定倍数(scale_factor)为2;第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成,第七卷积层的输入端作为第5个上采样块的输入端,第二上采样层的输出端作为第5个上采样块的输出端,其中,第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1,第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1,第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1,第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1,第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1,第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“Batch Normalization”,第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”,第二上采样层的指定倍数为2。
上述,依次连接是指下一层的输入端与上一层的输出端连接。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库PyTorch1.1.0搭建本发明方法中的卷积神经网络架构。选用视觉显著性检测数据集NUS中的600幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图、视觉显著性检测数据集NCTU中的475幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图构成测试集,来分析利用本发明方法检测得到的显著性检测图像的检测效果。
在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:线性相关系数(Linear Correlation Coefficient,CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,KLDiv)、AUC参数(the Aera Under the receiver operatingcharacteristics Curve,AUC)、标准化扫描路径显著性(Normalized Scanpath Saliency,NSS)来评价显著性检测图像的检测性能。
利用本发明方法对测试集中的每幅立体图像进行检测,得到每幅立体图像对应的显著性检测图像,反映本发明方法的显著性检测效果的线性相关系数CC、Kullback-Leibler散度系数KLDiv、AUC参数、标准化扫描路径显著性NSS如表1所列。
表1利用本发明方法得到的显著性检测效果
从表1所列的数据可知,按本发明方法得到的显著性检测图像的检测结果是较好的,表明客观评价结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。
图3a给出了NCTU数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图,图3b给出了利用本发明方法对NCTU数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像;图4a给出了NCTU数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图,图4b给出了利用本发明方法对NCTU数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像;图5a给出了NUS数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图,图5b给出了利用本发明方法对NUS数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像;图6a给出了NUS数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图,图6b为利用本发明方法对NUS数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像。对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,对比图6a和图6b,可以看出利用本发明方法得到的显著性检测图像的预测精度很高,本发明方法明显取得了突出显著的技术效果。
Claims (6)
1.一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为和将训练集中与第i幅原始立体图像对应的真实人眼注释图记为其中,K为正整数,K≥200,1≤i≤K,(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,用H表示原始立体图像的高度,则有1≤x≤W,1≤y≤H,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤①_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层,输入层由RGB图输入层和深度图输入层两部分构成,隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成,渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成;
对于RGB图输入层,其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层;其中,原始RGB图的宽度为W、高度为H;
对于深度图输入层,其输入端接收一幅原始深度图通过采用HHA方法处理成的三通道深度图,其输出端输出三通道深度图给隐层;其中,原始深度图的宽度为W、高度为H;
对于隐层,第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为高度为第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为高度为第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为高度为第1个扩张卷积块的输入端接收S1中的所有特征图,第1个扩张卷积块的输出端输出32幅特征图,将这32幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为高度为第2个扩张卷积块的输入端接收S2中的所有特征图,第2个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为高度为第3个扩张卷积块的输入端接收S2中的所有特征图,第3个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为高度为第4个扩张卷积块的输入端接收S3中的所有特征图,第4个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z4,Z4中的每幅特征图的宽度为高度为第5个扩张卷积块的输入端接收S3中的所有特征图,第5个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z5,Z5中的每幅特征图的宽度为高度为第6个扩张卷积块的输入端接收S3中的所有特征图,第6个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z6,Z6中的每幅特征图的宽度为高度为第7个扩张卷积块的输入端接收S4中的所有特征图,第7个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z7,Z7中的每幅特征图的宽度为高度为第8个扩张卷积块的输入端接收S4中的所有特征图,第8个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z8,Z8中的每幅特征图的宽度为高度为第9个扩张卷积块的输入端接收S4中的所有特征图,第9个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z9,Z9中的每幅特征图的宽度为高度为第10个扩张卷积块的输入端接收S4中的所有特征图,第10个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z10,Z10中的每幅特征图的宽度为高度为第1个通道注意力模块至第4个通道注意力模块的结构相同,第1个通道注意力模块的第一输入端接收Z1中的所有特征图,第1个通道注意力模块的第二输入端接收S6中的所有特征图,第2个通道注意力模块的第一输入端接收对Z2中的所有特征图和Z3中的所有特征图进行元素相加操作后得到的所有特征图,第2个通道注意力模块的第二输入端接收S7中的所有特征图,第3个通道注意力模块的第一输入端接收对Z4中的所有特征图、Z5中的所有特征图和Z6中的所有特征图进行元素相加操作后得到的所有特征图,第3个通道注意力模块的第二输入端接收S8中的所有特征图,第4个通道注意力模块的第一输入端接收对Z7中的所有特征图、Z8中的所有特征图、Z9中的所有特征图和Z10中的所有特征图进行元素相加操作后得到的所有特征图,第4个通道注意力模块的第二输入端接收S9中的所有特征图,每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图,将所有第一调整图构成的集合记为T1,对T1中的每幅第一调整图进行矩阵形状调整操作得到第二调整图,将所有第二调整图构成的集合记为T2,对T2中的每幅第二调整图进行矩阵转置操作得到第三调整图,将所有第三调整图构成的集合记为T3,对T3中的所有第三调整图和T2中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图,将所有第一元素相乘图构成的集合记为T4,利用softmax函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数α得到第一处理图,将所有第一处理图构成的集合记为T5,利用sigmoid函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)得到第二处理图,将所有第二处理图构成的集合记为T6,对T5中的所有第一处理图和T6中的所有第二处理图进行元素相加操作得到多幅初步注意力图,将所有初步注意力图构成的集合记为T7,对T7中的所有初步注意力图和T1中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图,将所有第二元素相乘图构成的集合记为T8,对T8中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图,将所有第四调整图构成的集合记为T9,对T9中的所有第四调整图和和T1中的所有第一调整图进行元素相加操作得到多幅最终注意力图,将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图,将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F1,将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F2,将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F3,将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F4,F1中包含96幅特征图且每幅特征图的宽度为高度为F2中包含256幅特征图且每幅特征图的宽度为高度为F3中包含640幅特征图且每幅特征图的宽度为高度为F4中包含1536幅特征图且每幅特征图的宽度为高度为特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成,第四激活层和第五激活层的激活方式为“ReLU函数”,1×1卷积块的输入端作为特征交互增强模块的输入端接收S5中的所有特征图,1×1卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为E1,E1中的每幅特征图的宽度为高度为第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E1中的所有特征图,第一自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E2,E2中的每幅特征图的宽度为高度为第二自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E3,E3中的每幅特征图的宽度为高度为第四激活层的输入端接收E2中的所有特征图,第五激活层的输入端接收E3中的所有特征图,第四激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E4,E4中的每幅特征图的宽度为高度为第五激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E5,E5中的每幅特征图的宽度为高度为第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E4中的所有特征图,第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E5中的所有特征图,第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图,将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E6,将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E7,将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E8,将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E9,将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E10,将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E11,将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E12,将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征图的宽度为高度为对E6中的所有特征图、E7中的所有特征图、E8中的所有特征图、E9中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E14,E14中的每幅特征图的宽度为高度为对E10中的所有特征图、E11中的所有特征图、E12中的所有特征图、E13中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E15,E15中的每幅特征图的宽度为高度为将利用softmax函数对E14中的所有特征图进行处理后得到的所有特征图和利用softmax函数对E15中的所有特征图进行处理后得到的所有特征图进行通道数叠操作,得到1024幅特征图,将这1024幅特征图构成的集合记为E16,E16中的每幅特征图的宽度为高度为特征交互增强模块的输出端输出E16中的所有特征图;对E16中的所有特征图和S10中的所有特征图进行通道数叠操作,得到1536幅特征图,将这1536幅特征图构成的集合记为C0,C0中的每幅特征图的宽度为高度为第1个上采样块的输入端接收C0中的所有特征图,第1个上采样块的输出端输出768幅特征图,将这768幅特征图构成的集合记为C1,C1中的每幅特征图的宽度为高度为第2个上采样块的输入端接收对C1中的所有特征图和F4中的所有特征图进行通道数叠操作后得到的所有特征图,第2个上采样块的输出端输出1652幅特征图,将这1652幅特征图构成的集合记为C2,C2中的每幅特征图的宽度为高度为第3个上采样块的输入端接收对C2中的所有特征图和F3中的所有特征图进行通道数叠操作后得到的所有特征图,第3个上采样块的输出端输出1646幅特征图,将这1646幅特征图构成的集合记为C3,C3中的每幅特征图的宽度为高度为第4个上采样块的输入端接收对C3中的所有特征图和F2中的所有特征图进行通道数叠操作后得到的所有特征图,第4个上采样块的输出端输出951幅特征图,将这951幅特征图构成的集合记为C4,C4中的每幅特征图的宽度为高度为第5个上采样块的输入端接收对C4中的所有特征图和F1中的所有特征图进行通道数叠操作后得到的所有特征图,第5个上采样块的输出端作为隐层的输出端输出1幅特征图,该幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收隐层的输出端输出的1幅特征图,其输出端输出的特征图作为显著性检测图;
步骤①_3:将训练集中的每幅原始立体图像的RGB图作为原始RGB图,并将训练集中的每幅原始立体图像的深度图作为原始深度图,将原始RGB图的R通道分量、G通道分量和B通道分量及对应的原始深度图经HHA方法处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到训练集中的每幅原始立体图像对应的显著性检测图,将训练集中与第i幅原始立体图像对应的显著性检测图记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤①_5:重复执行步骤①_3和步骤①_4共V次,得到卷积神经网络训练模型,并共得到K×V个损失函数值;然后从K×V个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤②_1:将待检测的立体图像的RGB图的R通道分量、G通道分量和B通道分量及深度图经HHA方法处理后得到的三通道深度图输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性检测图像。
2.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第1个神经网络块至第10个神经网络块的结构相同,其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成,第一卷积层的输入端作为其所在的神经网络块的输入端,第一最大池化层的输出端作为其所在的神经网络块的输出端,其中,第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数为64、卷积核尺寸为3×3、补零参数的值为1,第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1,第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1,第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”,第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸为2、步长为2。
3.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第1个扩张卷积块至第10个扩张卷积块的结构相同,其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成,第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第三激活层的输出端作为其所在的扩张卷积块的输出端;其中,第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”,第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。
4.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成,第三卷积层的输入端为1×1卷积块的输入端,第八激活层的输出端为1×1卷积块的输出端,其中,第三卷积层、第四卷积层、第五卷积层的卷积核尺寸为1×1、步长为1,第三卷积层的卷积核个数为1024,第四卷积层的卷积核个数为512,第五卷积层的卷积核个数为256,第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”,第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。
5.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第11个扩张卷积块至第18个扩张卷积块的结构相同,其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成,第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第九激活层的输出端作为其所在的扩张卷积块的输出端;其中,第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“Batch Normalization”,第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。
6.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第1个上采样块至第4个上采样块的结构相同,其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成,第六卷积层的输入端作为其所在的上采样块的输入端,第一上采样层的输出端作为其所在的上采样块的输出端,其中,第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1,第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1,第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1,第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1,第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”,第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”,第1个上采样块至第4个上采样块中的第一上采样层的指定倍数为2;第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成,第七卷积层的输入端作为第5个上采样块的输入端,第二上采样层的输出端作为第5个上采样块的输出端,其中,第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1,第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1,第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1,第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1,第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1,第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“BatchNormalization”,第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”,第二上采样层的指定倍数为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010850264.1A CN112149662A (zh) | 2020-08-21 | 2020-08-21 | 一种基于扩张卷积块的多模态融合显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010850264.1A CN112149662A (zh) | 2020-08-21 | 2020-08-21 | 一种基于扩张卷积块的多模态融合显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149662A true CN112149662A (zh) | 2020-12-29 |
Family
ID=73888930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010850264.1A Withdrawn CN112149662A (zh) | 2020-08-21 | 2020-08-21 | 一种基于扩张卷积块的多模态融合显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149662A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768375A (zh) * | 2020-06-24 | 2020-10-13 | 海南大学 | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 |
CN113313077A (zh) * | 2021-06-30 | 2021-08-27 | 浙江科技学院 | 基于多策略和交叉特征融合的显著物体检测方法 |
CN116309623A (zh) * | 2023-05-17 | 2023-06-23 | 广东电网有限责任公司湛江供电局 | 一种多源信息融合增强的建筑物分割方法及系统 |
-
2020
- 2020-08-21 CN CN202010850264.1A patent/CN112149662A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768375A (zh) * | 2020-06-24 | 2020-10-13 | 海南大学 | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 |
CN111768375B (zh) * | 2020-06-24 | 2022-07-26 | 海南大学 | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 |
CN113313077A (zh) * | 2021-06-30 | 2021-08-27 | 浙江科技学院 | 基于多策略和交叉特征融合的显著物体检测方法 |
CN116309623A (zh) * | 2023-05-17 | 2023-06-23 | 广东电网有限责任公司湛江供电局 | 一种多源信息融合增强的建筑物分割方法及系统 |
CN116309623B (zh) * | 2023-05-17 | 2023-08-18 | 广东电网有限责任公司湛江供电局 | 一种多源信息融合增强的建筑物分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
CN107767413B (zh) | 一种基于卷积神经网络的图像深度估计方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN108345892B (zh) | 一种立体图像显著性的检测方法、装置、设备及存储介质 | |
CN111047516A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN110263813B (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN110210492B (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 | |
CN108491848B (zh) | 基于深度信息的图像显著性检测方法和装置 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
CN109872305B (zh) | 一种基于质量图生成网络的无参考立体图像质量评价方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
US11615612B2 (en) | Systems and methods for image feature extraction | |
CN112581517B (zh) | 双目立体匹配装置及方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN110570402B (zh) | 基于边界感知神经网络的双目显著物体检测方法 | |
CN111260655A (zh) | 基于深度神经网络模型的图像生成方法与装置 | |
CN114998756A (zh) | 一种基于yolov5的遥感图像检测方法、装置及存储介质 | |
CN115222954A (zh) | 弱感知目标检测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201229 |
|
WW01 | Invention patent application withdrawn after publication |