CN112149662A - 一种基于扩张卷积块的多模态融合显著性检测方法 - Google Patents

一种基于扩张卷积块的多模态融合显著性检测方法 Download PDF

Info

Publication number
CN112149662A
CN112149662A CN202010850264.1A CN202010850264A CN112149662A CN 112149662 A CN112149662 A CN 112149662A CN 202010850264 A CN202010850264 A CN 202010850264A CN 112149662 A CN112149662 A CN 112149662A
Authority
CN
China
Prior art keywords
layer
convolution
block
expanded
feature maps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010850264.1A
Other languages
English (en)
Inventor
周武杰
张欣悦
雷景生
靳婷
史文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010850264.1A priority Critical patent/CN112149662A/zh
Publication of CN112149662A publication Critical patent/CN112149662A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Abstract

本发明公开了一种基于扩张卷积块的多模态融合显著性检测方法,其构建的卷积神经网络采用了渐增扩张卷积块,以RGB图的编码网络中的第1个至第4个神经网络块的多尺度输出为输入,能对输入的特征图进行自适应特征细化,以捕捉更充分的RGB特征信息,以提高视觉显著性检测精度;采用了通道注意力模块,以深度图和RGB图的元素相加结果作为输入,能有效结合跨模态多尺度的深度信息和细化后的RGB信息,增强了显著区域的表达,提高了显著检测精度;采用了特征交互增强模块,以RGB图的编码网络中的第5个神经网络块的输出为输入,通过两个特征交互流将输入的高层RGB信息进行特征增强,与高层深度信息进行跨模态融合,能利用多模态信息捕获更精确的显著区域。

Description

一种基于扩张卷积块的多模态融合显著性检测方法
技术领域
本发明涉及一种视觉显著性检测方法,尤其是涉及一种基于扩张卷积块的多模态融合显著性检测方法。
背景技术
在图像中寻找感兴趣的对象时,人可以自动捕获对象及其上下文之间的语义信息,对显著对象给予高度的关注,并选择性地抑制不重要的因素。这种精确的视觉注意机制已经在各种生物逻辑模型中得到了解释。显著性检测的目的是自动检测图像中最具信息和吸引力的部分。在许多图像应用中,例如图像质量评估、语义分割、图像识别等,确定显著目标不仅可以降低计算成本,还可以提高显著性模型的性能。早期的显著性检测方法采用手工特征,即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入,发现这些手工特征已经不足以很好地捕获图像中的特征,因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此,采用深度学习的方法能更好地提取图像特征,以达到更好的显著性检测效果。现有的显著性检测方法大多数已经采用深度学习的方法,利用卷积层与池化层相结合的方法提取图像特征,但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性,尤其是进行池化操作会丢失图像的特征信息,从而会导致得到的显著性预测图效果较差,检测的准确度低。
发明内容
本发明所要解决的技术问题是提供一种基于扩张卷积块的多模态融合显著性检测方法,其检测准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为
Figure BDA0002644490220000021
Figure BDA0002644490220000022
将训练集中与第i幅原始立体图像对应的真实人眼注释图记为
Figure BDA0002644490220000023
其中,K为正整数,K≥200,1≤i≤K,(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,用H表示原始立体图像的高度,则有1≤x≤W,1≤y≤H,
Figure BDA0002644490220000024
表示
Figure BDA0002644490220000025
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002644490220000026
表示
Figure BDA0002644490220000027
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002644490220000028
表示
Figure BDA0002644490220000029
中坐标位置为(x,y)的像素点的像素值;
步骤①_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层,输入层由RGB图输入层和深度图输入层两部分构成,隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成,渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成;
对于RGB图输入层,其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层;其中,原始RGB图的宽度为W、高度为H;
对于深度图输入层,其输入端接收一幅原始深度图通过采用HHA方法处理成的三通道深度图,其输出端输出三通道深度图给隐层;其中,原始深度图的宽度为W、高度为H;
对于隐层,第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为
Figure BDA00026444902200000210
高度为
Figure BDA00026444902200000211
第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为
Figure BDA0002644490220000031
高度为
Figure BDA0002644490220000032
第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为
Figure BDA0002644490220000033
高度为
Figure BDA0002644490220000034
第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为
Figure BDA0002644490220000035
高度为
Figure BDA0002644490220000036
第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为
Figure BDA0002644490220000037
高度为
Figure BDA0002644490220000038
第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为
Figure BDA0002644490220000039
高度为
Figure BDA00026444902200000310
第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为
Figure BDA00026444902200000311
高度为
Figure BDA00026444902200000312
第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为
Figure BDA00026444902200000313
高度为
Figure BDA00026444902200000314
第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为
Figure BDA00026444902200000315
高度为
Figure BDA00026444902200000316
第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为
Figure BDA00026444902200000317
高度为
Figure BDA00026444902200000318
第1个扩张卷积块的输入端接收S1中的所有特征图,第1个扩张卷积块的输出端输出32幅特征图,将这32幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为
Figure BDA00026444902200000319
高度为
Figure BDA00026444902200000320
第2个扩张卷积块的输入端接收S2中的所有特征图,第2个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为
Figure BDA0002644490220000041
高度为
Figure BDA0002644490220000042
第3个扩张卷积块的输入端接收S2中的所有特征图,第3个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为
Figure BDA0002644490220000043
高度为
Figure BDA0002644490220000044
第4个扩张卷积块的输入端接收S3中的所有特征图,第4个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z4,Z4中的每幅特征图的宽度为
Figure BDA0002644490220000045
高度为
Figure BDA0002644490220000046
第5个扩张卷积块的输入端接收S3中的所有特征图,第5个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z5,Z5中的每幅特征图的宽度为
Figure BDA0002644490220000047
高度为
Figure BDA0002644490220000048
第6个扩张卷积块的输入端接收S3中的所有特征图,第6个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z6,Z6中的每幅特征图的宽度为
Figure BDA0002644490220000049
高度为
Figure BDA00026444902200000410
第7个扩张卷积块的输入端接收S4中的所有特征图,第7个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z7,Z7中的每幅特征图的宽度为
Figure BDA00026444902200000411
高度为
Figure BDA00026444902200000412
第8个扩张卷积块的输入端接收S4中的所有特征图,第8个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z8,Z8中的每幅特征图的宽度为
Figure BDA00026444902200000413
高度为
Figure BDA00026444902200000414
第9个扩张卷积块的输入端接收S4中的所有特征图,第9个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z9,Z9中的每幅特征图的宽度为
Figure BDA00026444902200000415
高度为
Figure BDA00026444902200000416
第10个扩张卷积块的输入端接收S4中的所有特征图,第10个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z10,Z10中的每幅特征图的宽度为
Figure BDA00026444902200000417
高度为
Figure BDA00026444902200000418
第1个通道注意力模块至第4个通道注意力模块的结构相同,第1个通道注意力模块的第一输入端接收Z1中的所有特征图,第1个通道注意力模块的第二输入端接收S6中的所有特征图,第2个通道注意力模块的第一输入端接收对Z2中的所有特征图和Z3中的所有特征图进行元素相加操作后得到的所有特征图,第2个通道注意力模块的第二输入端接收S7中的所有特征图,第3个通道注意力模块的第一输入端接收对Z4中的所有特征图、Z5中的所有特征图和Z6中的所有特征图进行元素相加操作后得到的所有特征图,第3个通道注意力模块的第二输入端接收S8中的所有特征图,第4个通道注意力模块的第一输入端接收对Z7中的所有特征图、Z8中的所有特征图、Z9中的所有特征图和Z10中的所有特征图进行元素相加操作后得到的所有特征图,第4个通道注意力模块的第二输入端接收S9中的所有特征图,每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图,将所有第一调整图构成的集合记为T1,对T1中的每幅第一调整图进行矩阵形状调整操作得到第二调整图,将所有第二调整图构成的集合记为T2,对T2中的每幅第二调整图进行矩阵转置操作得到第三调整图,将所有第三调整图构成的集合记为T3,对T3中的所有第三调整图和T2中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图,将所有第一元素相乘图构成的集合记为T4,利用softmax函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数α得到第一处理图,将所有第一处理图构成的集合记为T5,利用sigmoid函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)得到第二处理图,将所有第二处理图构成的集合记为T6,对T5中的所有第一处理图和T6中的所有第二处理图进行元素相加操作得到多幅初步注意力图,将所有初步注意力图构成的集合记为T7,对T7中的所有初步注意力图和T1中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图,将所有第二元素相乘图构成的集合记为T8,对T8中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图,将所有第四调整图构成的集合记为T9,对T9中的所有第四调整图和和T1中的所有第一调整图进行元素相加操作得到多幅最终注意力图,将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图,将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F1,将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F2,将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F3,将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F4,F1中包含96幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000061
高度为
Figure BDA0002644490220000062
F2中包含256幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000063
高度为
Figure BDA0002644490220000064
F3中包含640幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000065
高度为
Figure BDA0002644490220000066
F4中包含1536幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000067
高度为
Figure BDA0002644490220000068
特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成,第四激活层和第五激活层的激活方式为“ReLU函数”,1×1卷积块的输入端作为特征交互增强模块的输入端接收S5中的所有特征图,1×1卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为E1,E1中的每幅特征图的宽度为
Figure BDA0002644490220000069
高度为
Figure BDA00026444902200000610
第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E1中的所有特征图,第一自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E2,E2中的每幅特征图的宽度为
Figure BDA00026444902200000611
高度为
Figure BDA00026444902200000612
第二自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E3,E3中的每幅特征图的宽度为
Figure BDA00026444902200000613
高度为
Figure BDA00026444902200000614
第四激活层的输入端接收E2中的所有特征图,第五激活层的输入端接收E3中的所有特征图,第四激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E4,E4中的每幅特征图的宽度为
Figure BDA00026444902200000615
高度为
Figure BDA00026444902200000616
第五激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E5,E5中的每幅特征图的宽度为
Figure BDA00026444902200000617
高度为
Figure BDA00026444902200000618
第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E4中的所有特征图,第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E5中的所有特征图,第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图,将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E6,将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E7,将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E8,将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E9,将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E10,将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E11,将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E12,将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征图的宽度为
Figure BDA0002644490220000071
高度为
Figure BDA0002644490220000072
对E6中的所有特征图、E7中的所有特征图、E8中的所有特征图、E9中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E14,E14中的每幅特征图的宽度为
Figure BDA0002644490220000073
高度为
Figure BDA0002644490220000074
对E10中的所有特征图、E11中的所有特征图、E12中的所有特征图、E13中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E15,E15中的每幅特征图的宽度为
Figure BDA0002644490220000075
高度为
Figure BDA0002644490220000076
将利用softmax函数对E14中的所有特征图进行处理后得到的所有特征图和利用softmax函数对E15中的所有特征图进行处理后得到的所有特征图进行通道数叠操作,得到1024幅特征图,将这1024幅特征图构成的集合记为E16,E16中的每幅特征图的宽度为
Figure BDA0002644490220000077
高度为
Figure BDA0002644490220000078
特征交互增强模块的输出端输出E16中的所有特征图;对E16中的所有特征图和S10中的所有特征图进行通道数叠操作,得到1536幅特征图,将这1536幅特征图构成的集合记为C0,C0中的每幅特征图的宽度为
Figure BDA0002644490220000079
高度为
Figure BDA00026444902200000710
第1个上采样块的输入端接收C0中的所有特征图,第1个上采样块的输出端输出768幅特征图,将这768幅特征图构成的集合记为C1,C1中的每幅特征图的宽度为
Figure BDA00026444902200000711
高度为
Figure BDA00026444902200000712
第2个上采样块的输入端接收对C1中的所有特征图和F4中的所有特征图进行通道数叠操作后得到的所有特征图,第2个上采样块的输出端输出1652幅特征图,将这1652幅特征图构成的集合记为C2,C2中的每幅特征图的宽度为
Figure BDA00026444902200000713
高度为
Figure BDA00026444902200000714
第3个上采样块的输入端接收对C2中的所有特征图和F3中的所有特征图进行通道数叠操作后得到的所有特征图,第3个上采样块的输出端输出1646幅特征图,将这1646幅特征图构成的集合记为C3,C3中的每幅特征图的宽度为
Figure BDA0002644490220000081
高度为
Figure BDA0002644490220000082
第4个上采样块的输入端接收对C3中的所有特征图和F2中的所有特征图进行通道数叠操作后得到的所有特征图,第4个上采样块的输出端输出951幅特征图,将这951幅特征图构成的集合记为C4,C4中的每幅特征图的宽度为
Figure BDA0002644490220000083
高度为
Figure BDA0002644490220000084
第5个上采样块的输入端接收对C4中的所有特征图和F1中的所有特征图进行通道数叠操作后得到的所有特征图,第5个上采样块的输出端作为隐层的输出端输出1幅特征图,该幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收隐层的输出端输出的1幅特征图,其输出端输出的特征图作为显著性检测图;
步骤①_3:将训练集中的每幅原始立体图像的RGB图作为原始RGB图,并将训练集中的每幅原始立体图像的深度图作为原始深度图,将原始RGB图的R通道分量、G通道分量和B通道分量及对应的原始深度图经HHA方法处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到训练集中的每幅原始立体图像对应的显著性检测图,将训练集中与第i幅原始立体图像对应的显著性检测图记为
Figure BDA0002644490220000085
其中,
Figure BDA0002644490220000086
表示
Figure BDA0002644490220000087
中坐标位置为(x,y)的像素点的像素值;
步骤①_4:计算训练集中的每幅原始立体图像对应的显著性检测图与对应的真实人眼注释图之间的损失函数值,将
Figure BDA0002644490220000088
Figure BDA0002644490220000089
之间的损失函数值记为
Figure BDA00026444902200000810
采用均方误差加上Kullback-Leibler散度系数获得;
步骤①_5:重复执行步骤①_3和步骤①_4共V次,得到卷积神经网络训练模型,并共得到K×V个损失函数值;然后从K×V个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤②_1:将待检测的立体图像的RGB图的R通道分量、G通道分量和B通道分量及深度图经HHA方法处理后得到的三通道深度图输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性检测图像。
所述的步骤①_2中,第1个神经网络块至第10个神经网络块的结构相同,其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成,第一卷积层的输入端作为其所在的神经网络块的输入端,第一最大池化层的输出端作为其所在的神经网络块的输出端,其中,第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数为64、卷积核尺寸为3×3、补零参数的值为1,第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1,第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1,第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”,第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸为2、步长为2。
所述的步骤①_2中,第1个扩张卷积块至第10个扩张卷积块的结构相同,其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成,第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第三激活层的输出端作为其所在的扩张卷积块的输出端;其中,第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”,第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。
所述的步骤①_2中,1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成,第三卷积层的输入端为1×1卷积块的输入端,第八激活层的输出端为1×1卷积块的输出端,其中,第三卷积层、第四卷积层、第五卷积层的卷积核尺寸为1×1、步长为1,第三卷积层的卷积核个数为1024,第四卷积层的卷积核个数为512,第五卷积层的卷积核个数为256,第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”,第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。
所述的步骤①_2中,第11个扩张卷积块至第18个扩张卷积块的结构相同,其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成,第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第九激活层的输出端作为其所在的扩张卷积块的输出端;其中,第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“Batch Normalization”,第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。
所述的步骤①_2中,第1个上采样块至第4个上采样块的结构相同,其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成,第六卷积层的输入端作为其所在的上采样块的输入端,第一上采样层的输出端作为其所在的上采样块的输出端,其中,第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1,第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1,第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1,第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1,第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”,第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”,第1个上采样块至第4个上采样块中的第一上采样层的指定倍数为2;第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成,第七卷积层的输入端作为第5个上采样块的输入端,第二上采样层的输出端作为第5个上采样块的输出端,其中,第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1,第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1,第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1,第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1,第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1,第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“BatchNormalization”,第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”,第二上采样层的指定倍数为2。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络采用了渐增扩张卷积块,该渐增扩张卷积块以RGB图的编码网络中的第1个神经网络块至第4个神经网络块的多尺度输出为输入,能够对输入的特征图进行自适应特征细化,以捕捉更充分的RGB特征信息,从而能够提高最终的视觉显著性检测精度。
2)本发明方法构建的卷积神经网络采用了特征交互增强模块,该特征交互增强模块以RGB图的编码网络的最高层即第5个神经网络块的输出为输入,通过两个特征交互流将输入的高层RGB信息进行自适应的特征增强,与高层深度信息进行跨模态融合,能够利用多模态信息,捕获更精确的显著区域。
3)本发明方法构建的卷积神经网络采用了通道注意力模块,该通道注意力模块以深度图和RGB图的元素相加结果作为输入,能够有效结合跨模态多尺度的深度信息和细化后的RGB信息,保留了特征细节,增强了显著区域的表达,提高了显著检测的精度。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构示意图;
图2为本发明方法构建的卷积神经网络中的通道注意力模块的组成结构示意图;
图3a为NCTU数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图;
图3b为利用本发明方法对NCTU数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像;
图4a为NCTU数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图;
图4b为利用本发明方法对NCTU数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像;
图5a为NUS数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图;
图5b为利用本发明方法对NUS数据集中同一场景的第3幅原始立体图像进行检测得到的对应的显著性检测图像;
图6a为NUS数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图;
图6b为利用本发明方法对NUS数据集中同一场景的第4幅原始立体图像进行检测得到的对应的显著性检测图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于扩张卷积块的多模态融合显著性检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为
Figure BDA0002644490220000131
Figure BDA0002644490220000132
将训练集中与第i幅原始立体图像对应的真实人眼注释图记为
Figure BDA0002644490220000133
其中,K为正整数,K≥200,1≤i≤K,(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,用H表示原始立体图像的高度,则有1≤x≤W,1≤y≤H,
Figure BDA0002644490220000134
表示
Figure BDA0002644490220000135
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002644490220000136
表示
Figure BDA0002644490220000137
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002644490220000138
表示
Figure BDA0002644490220000139
中坐标位置为(x,y)的像素点的像素值。
如:可以选用视觉显著性检测数据集NUS中的420幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图、视觉显著性检测数据集NCTU中的332幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图构成训练集。
步骤①_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层,输入层由RGB图输入层和深度图输入层两部分构成,隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成,渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成。
对于RGB图输入层,其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层;其中,原始RGB图的宽度为W、高度为H。
对于深度图输入层,其输入端接收一幅原始深度图通过采用现有的HHA方法(Horizontal disparity,height above ground,and the angle the pixel’s localsurface normal makes with the inferred gravity direction,即独热编码技术)处理成的三通道深度图,其输出端输出三通道深度图给隐层;其中,原始深度图的宽度为W、高度为H。
对于隐层,第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为
Figure BDA00026444902200001310
高度为
Figure BDA00026444902200001311
第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为
Figure BDA0002644490220000141
高度为
Figure BDA0002644490220000142
第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为
Figure BDA0002644490220000143
高度为
Figure BDA0002644490220000144
第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为
Figure BDA0002644490220000145
高度为
Figure BDA0002644490220000146
第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为
Figure BDA0002644490220000147
高度为
Figure BDA0002644490220000148
第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为
Figure BDA0002644490220000149
高度为
Figure BDA00026444902200001410
第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为
Figure BDA00026444902200001411
高度为
Figure BDA00026444902200001412
第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为
Figure BDA00026444902200001413
高度为
Figure BDA00026444902200001414
第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为
Figure BDA00026444902200001415
高度为
Figure BDA00026444902200001416
第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为
Figure BDA00026444902200001417
高度为
Figure BDA00026444902200001418
第1个扩张卷积块的输入端接收S1中的所有特征图,第1个扩张卷积块的输出端输出32幅特征图,将这32幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为
Figure BDA00026444902200001419
高度为
Figure BDA00026444902200001420
第2个扩张卷积块的输入端接收S2中的所有特征图,第2个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为
Figure BDA0002644490220000151
高度为
Figure BDA0002644490220000152
第3个扩张卷积块的输入端接收S2中的所有特征图,第3个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为
Figure BDA0002644490220000153
高度为
Figure BDA0002644490220000154
第4个扩张卷积块的输入端接收S3中的所有特征图,第4个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z4,Z4中的每幅特征图的宽度为
Figure BDA0002644490220000155
高度为
Figure BDA0002644490220000156
第5个扩张卷积块的输入端接收S3中的所有特征图,第5个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z5,Z5中的每幅特征图的宽度为
Figure BDA0002644490220000157
高度为
Figure BDA0002644490220000158
第6个扩张卷积块的输入端接收S3中的所有特征图,第6个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z6,Z6中的每幅特征图的宽度为
Figure BDA0002644490220000159
高度为
Figure BDA00026444902200001510
第7个扩张卷积块的输入端接收S4中的所有特征图,第7个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z7,Z7中的每幅特征图的宽度为
Figure BDA00026444902200001511
高度为
Figure BDA00026444902200001512
第8个扩张卷积块的输入端接收S4中的所有特征图,第8个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z8,Z8中的每幅特征图的宽度为
Figure BDA00026444902200001513
高度为
Figure BDA00026444902200001514
第9个扩张卷积块的输入端接收S4中的所有特征图,第9个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z9,Z9中的每幅特征图的宽度为
Figure BDA00026444902200001515
高度为
Figure BDA00026444902200001516
第10个扩张卷积块的输入端接收S4中的所有特征图,第10个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z10,Z10中的每幅特征图的宽度为
Figure BDA00026444902200001517
高度为
Figure BDA00026444902200001518
第1个通道注意力模块至第4个通道注意力模块的结构相同,第1个通道注意力模块的第一输入端接收Z1中的所有特征图,第1个通道注意力模块的第二输入端接收S6中的所有特征图,第2个通道注意力模块的第一输入端接收对Z2中的所有特征图和Z3中的所有特征图进行元素相加操作后得到的所有特征图,第2个通道注意力模块的第二输入端接收S7中的所有特征图,第3个通道注意力模块的第一输入端接收对Z4中的所有特征图、Z5中的所有特征图和Z6中的所有特征图进行元素相加操作后得到的所有特征图,第3个通道注意力模块的第二输入端接收S8中的所有特征图,第4个通道注意力模块的第一输入端接收对Z7中的所有特征图、Z8中的所有特征图、Z9中的所有特征图和Z10中的所有特征图进行元素相加操作后得到的所有特征图,第4个通道注意力模块的第二输入端接收S9中的所有特征图,如图2所示,每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图,将所有第一调整图构成的集合记为T1,对T1中的每幅第一调整图进行矩阵形状调整操作(reshape)得到第二调整图,将所有第二调整图构成的集合记为T2,对T2中的每幅第二调整图进行矩阵转置操作(transpose)得到第三调整图,将所有第三调整图构成的集合记为T3,对T3中的所有第三调整图和T2中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图,将所有第一元素相乘图构成的集合记为T4,利用softmax函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数α(在本实施例中取α=0.4)得到第一处理图,将所有第一处理图构成的集合记为T5,利用sigmoid函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)(在本实施例中取α=0.4)得到第二处理图,将所有第二处理图构成的集合记为T6,对T5中的所有第一处理图和T6中的所有第二处理图进行元素相加操作得到多幅初步注意力图,将所有初步注意力图构成的集合记为T7,对T7中的所有初步注意力图和T1中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图,将所有第二元素相乘图构成的集合记为T8,对T8中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图,将所有第四调整图构成的集合记为T9,对T9中的所有第四调整图和和T1中的所有第一调整图进行元素相加操作得到多幅最终注意力图,将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图,将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F1,将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F2,将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F3,将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F4,F1中包含96幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000171
高度为
Figure BDA0002644490220000172
F2中包含256幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000173
高度为
Figure BDA0002644490220000174
F3中包含640幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000175
高度为
Figure BDA0002644490220000176
F4中包含1536幅特征图且每幅特征图的宽度为
Figure BDA0002644490220000177
高度为
Figure BDA0002644490220000178
特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成,第四激活层和第五激活层的激活方式为“ReLU函数”,1×1卷积块的输入端作为特征交互增强模块的输入端接收S5中的所有特征图,1×1卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为E1,E1中的每幅特征图的宽度为
Figure BDA0002644490220000179
高度为
Figure BDA00026444902200001710
第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E1中的所有特征图,第一自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E2,E2中的每幅特征图的宽度为
Figure BDA00026444902200001711
高度为
Figure BDA00026444902200001712
第二自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E3,E3中的每幅特征图的宽度为
Figure BDA00026444902200001713
高度为
Figure BDA00026444902200001714
第四激活层的输入端接收E2中的所有特征图,第五激活层的输入端接收E3中的所有特征图,第四激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E4,E4中的每幅特征图的宽度为
Figure BDA00026444902200001715
高度为
Figure BDA00026444902200001716
第五激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E5,E5中的每幅特征图的宽度为
Figure BDA00026444902200001717
高度为
Figure BDA00026444902200001718
第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E4中的所有特征图,第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E5中的所有特征图,第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图,将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E6,将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E7,将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E8,将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E9,将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E10,将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E11,将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E12,将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征图的宽度为
Figure BDA0002644490220000181
高度为
Figure BDA0002644490220000182
对E6中的所有特征图、E7中的所有特征图、E8中的所有特征图、E9中的所有特征图进行通道数叠操作(是指特征图尺寸相同的情况下,将特征图进行通道数量上的相加),得到512幅特征图,将这512幅特征图构成的集合记为E14,E14中的每幅特征图的宽度为
Figure BDA0002644490220000183
高度为
Figure BDA0002644490220000184
对E10中的所有特征图、E11中的所有特征图、E12中的所有特征图、E13中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E15,E15中的每幅特征图的宽度为
Figure BDA0002644490220000185
高度为
Figure BDA0002644490220000186
将利用softmax函数对E14中的所有特征图进行处理后得到的所有特征图和利用softmax函数对E15中的所有特征图进行处理后得到的所有特征图进行通道数叠操作,得到1024幅特征图,将这1024幅特征图构成的集合记为E16,E16中的每幅特征图的宽度为
Figure BDA0002644490220000187
高度为
Figure BDA0002644490220000188
特征交互增强模块的输出端输出E16中的所有特征图;对E16中的所有特征图和S10中的所有特征图进行通道数叠操作,得到1536幅特征图,将这1536幅特征图构成的集合记为C0,C0中的每幅特征图的宽度为
Figure BDA0002644490220000189
高度为
Figure BDA00026444902200001810
第1个上采样块的输入端接收C0中的所有特征图,第1个上采样块的输出端输出768幅特征图,将这768幅特征图构成的集合记为C1,C1中的每幅特征图的宽度为
Figure BDA00026444902200001811
高度为
Figure BDA00026444902200001812
第2个上采样块的输入端接收对C1中的所有特征图和F4中的所有特征图进行通道数叠操作后得到的所有特征图,第2个上采样块的输出端输出1652幅特征图,将这1652幅特征图构成的集合记为C2,C2中的每幅特征图的宽度为
Figure BDA0002644490220000191
高度为
Figure BDA0002644490220000192
第3个上采样块的输入端接收对C2中的所有特征图和F3中的所有特征图进行通道数叠操作后得到的所有特征图,第3个上采样块的输出端输出1646幅特征图,将这1646幅特征图构成的集合记为C3,C3中的每幅特征图的宽度为
Figure BDA0002644490220000193
高度为
Figure BDA0002644490220000194
第4个上采样块的输入端接收对C3中的所有特征图和F2中的所有特征图进行通道数叠操作后得到的所有特征图,第4个上采样块的输出端输出951幅特征图,将这951幅特征图构成的集合记为C4,C4中的每幅特征图的宽度为
Figure BDA0002644490220000195
高度为
Figure BDA0002644490220000196
第5个上采样块的输入端接收对C4中的所有特征图和F1中的所有特征图进行通道数叠操作后得到的所有特征图,第5个上采样块的输出端作为隐层的输出端输出1幅特征图,该幅特征图的宽度为W、高度为H。
对于输出层,其输入端接收隐层的输出端输出的1幅特征图,其输出端输出的特征图作为显著性检测图。
步骤①_3:将训练集中的每幅原始立体图像的RGB图作为原始RGB图,并将训练集中的每幅原始立体图像的深度图作为原始深度图,将原始RGB图的R通道分量、G通道分量和B通道分量及对应的原始深度图经HHA方法处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到训练集中的每幅原始立体图像对应的显著性检测图,将训练集中与第i幅原始立体图像对应的显著性检测图记为
Figure BDA0002644490220000197
其中,
Figure BDA0002644490220000198
表示
Figure BDA0002644490220000199
中坐标位置为(x,y)的像素点的像素值。
步骤①_4:计算训练集中的每幅原始立体图像对应的显著性检测图与对应的真实人眼注释图之间的损失函数值,将
Figure BDA00026444902200001910
Figure BDA00026444902200001911
之间的损失函数值记为
Figure BDA00026444902200001912
采用均方误差(MeanSquare Error,缩写为MSE)加上Kullback-Leibler散度系数(Kullback-LeiblerDivergence,缩写为KLDiv)获得。
步骤①_5:重复执行步骤①_3和步骤①_4共V次,得到卷积神经网络训练模型,并共得到K×V个损失函数值;然后从K×V个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1,在本实施例中取V=80。
所述的测试阶段过程的具体步骤为:
步骤②_1:将待检测的立体图像的RGB图的R通道分量、G通道分量和B通道分量及深度图经HHA方法处理后得到的三通道深度图输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性检测图像。
在本实施例中,步骤①_2中,第1个神经网络块至第10个神经网络块的结构相同,其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成,第一卷积层的输入端作为其所在的神经网络块的输入端,第一激活层的输入端接收第一卷积层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二激活层的输入端接收第二卷积层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为其所在的神经网络块的输出端,其中,第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数(filters)为64、卷积核尺寸(kernel_size)为3×3、补零参数(padding)的值为1,第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1,第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1,第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”,第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸(pool_size)为2、步长(stride)为2。
在本实施例中,步骤①_2中,第1个扩张卷积块至第10个扩张卷积块的结构相同,其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成,第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第一批量归一化层的输入端接收第一扩张卷积层的输出端输出的所有特征图,第三激活层的输入端接收第一批量归一化层的输出端输出的所有特征图,第三激活层的输出端作为其所在的扩张卷积块的输出端;其中,第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率(dilation)为3、补零参数为3,第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”,第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。
在本实施例中,步骤①_2中,1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成,第三卷积层的输入端为1×1卷积块的输入端,第八激活层的输出端为1×1卷积块的输出端,其中,第三卷积层、第四卷积层、第五卷积层的卷积核尺寸(kernel_size)为1×1、步长(stride)为1,第三卷积层的卷积核个数为1024,第四卷积层的卷积核个数为512,第五卷积层的卷积核个数为256,第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”,第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。
在本实施例中,步骤①_2中,第11个扩张卷积块至第18个扩张卷积块的结构相同,其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成,第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第五批量归一化层的输入端接收第二扩张卷积层的输出端输出的所有特征图,第九激活层的输入端接收第五批量归一化层的输出端输出的所有特征图,第九激活层的输出端作为其所在的扩张卷积块的输出端;其中,第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“BatchNormalization”,第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。
在本实施例中,步骤①_2中,第1个上采样块至第4个上采样块的结构相同,其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成,第六卷积层的输入端作为其所在的上采样块的输入端,第六批量归一化层的输入端接收第六卷积层的输出端输出的所有特征图,第十激活层的输入端接收第六批量归一化层的输出端输出的所有特征图,第一上采样层的输入端接收第十激活层的输出端输出的所有特征图,第一上采样层的输出端作为其所在的上采样块的输出端,其中,第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1,第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1,第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1,第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1,第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”,第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”,第1个上采样块至第4个上采样块中的第一上采样层的指定倍数(scale_factor)为2;第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成,第七卷积层的输入端作为第5个上采样块的输入端,第二上采样层的输出端作为第5个上采样块的输出端,其中,第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1,第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1,第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1,第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1,第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1,第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“Batch Normalization”,第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”,第二上采样层的指定倍数为2。
上述,依次连接是指下一层的输入端与上一层的输出端连接。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库PyTorch1.1.0搭建本发明方法中的卷积神经网络架构。选用视觉显著性检测数据集NUS中的600幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图、视觉显著性检测数据集NCTU中的475幅立体图像的RGB图和深度图及每幅立体图像对应的真实人眼注释图构成测试集,来分析利用本发明方法检测得到的显著性检测图像的检测效果。
在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:线性相关系数(Linear Correlation Coefficient,CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,KLDiv)、AUC参数(the Aera Under the receiver operatingcharacteristics Curve,AUC)、标准化扫描路径显著性(Normalized Scanpath Saliency,NSS)来评价显著性检测图像的检测性能。
利用本发明方法对测试集中的每幅立体图像进行检测,得到每幅立体图像对应的显著性检测图像,反映本发明方法的显著性检测效果的线性相关系数CC、Kullback-Leibler散度系数KLDiv、AUC参数、标准化扫描路径显著性NSS如表1所列。
表1利用本发明方法得到的显著性检测效果
Figure BDA0002644490220000241
从表1所列的数据可知,按本发明方法得到的显著性检测图像的检测结果是较好的,表明客观评价结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。
图3a给出了NCTU数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图,图3b给出了利用本发明方法对NCTU数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像;图4a给出了NCTU数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图,图4b给出了利用本发明方法对NCTU数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像;图5a给出了NUS数据集中同一场景的第1幅原始立体图像对应的真实人眼注释图,图5b给出了利用本发明方法对NUS数据集中同一场景的第1幅原始立体图像进行检测得到的对应的显著性检测图像;图6a给出了NUS数据集中同一场景的第2幅原始立体图像对应的真实人眼注释图,图6b为利用本发明方法对NUS数据集中同一场景的第2幅原始立体图像进行检测得到的对应的显著性检测图像。对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,对比图6a和图6b,可以看出利用本发明方法得到的显著性检测图像的预测精度很高,本发明方法明显取得了突出显著的技术效果。

Claims (6)

1.一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为
Figure FDA0002644490210000011
Figure FDA0002644490210000012
将训练集中与第i幅原始立体图像对应的真实人眼注释图记为
Figure FDA0002644490210000013
其中,K为正整数,K≥200,1≤i≤K,(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,用H表示原始立体图像的高度,则有1≤x≤W,1≤y≤H,
Figure FDA0002644490210000014
表示
Figure FDA0002644490210000015
中坐标位置为(x,y)的像素点的像素值,
Figure FDA0002644490210000016
表示
Figure FDA0002644490210000017
中坐标位置为(x,y)的像素点的像素值,
Figure FDA0002644490210000018
表示
Figure FDA0002644490210000019
中坐标位置为(x,y)的像素点的像素值;
步骤①_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层,输入层由RGB图输入层和深度图输入层两部分构成,隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成,渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成;
对于RGB图输入层,其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层;其中,原始RGB图的宽度为W、高度为H;
对于深度图输入层,其输入端接收一幅原始深度图通过采用HHA方法处理成的三通道深度图,其输出端输出三通道深度图给隐层;其中,原始深度图的宽度为W、高度为H;
对于隐层,第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为
Figure FDA0002644490210000021
高度为
Figure FDA0002644490210000022
第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为
Figure FDA0002644490210000023
高度为
Figure FDA0002644490210000024
第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为
Figure FDA0002644490210000025
高度为
Figure FDA0002644490210000026
第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为
Figure FDA0002644490210000027
高度为
Figure FDA0002644490210000028
第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为
Figure FDA0002644490210000029
高度为
Figure FDA00026444902100000210
第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为
Figure FDA00026444902100000211
高度为
Figure FDA00026444902100000212
第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为
Figure FDA00026444902100000213
高度为
Figure FDA00026444902100000214
第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为
Figure FDA00026444902100000215
高度为
Figure FDA00026444902100000216
第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为
Figure FDA00026444902100000217
高度为
Figure FDA00026444902100000218
第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为
Figure FDA00026444902100000219
高度为
Figure FDA00026444902100000220
第1个扩张卷积块的输入端接收S1中的所有特征图,第1个扩张卷积块的输出端输出32幅特征图,将这32幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为
Figure FDA0002644490210000031
高度为
Figure FDA0002644490210000032
第2个扩张卷积块的输入端接收S2中的所有特征图,第2个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为
Figure FDA0002644490210000033
高度为
Figure FDA0002644490210000034
第3个扩张卷积块的输入端接收S2中的所有特征图,第3个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为
Figure FDA0002644490210000035
高度为
Figure FDA0002644490210000036
第4个扩张卷积块的输入端接收S3中的所有特征图,第4个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z4,Z4中的每幅特征图的宽度为
Figure FDA0002644490210000037
高度为
Figure FDA0002644490210000038
第5个扩张卷积块的输入端接收S3中的所有特征图,第5个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z5,Z5中的每幅特征图的宽度为
Figure FDA0002644490210000039
高度为
Figure FDA00026444902100000310
第6个扩张卷积块的输入端接收S3中的所有特征图,第6个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z6,Z6中的每幅特征图的宽度为
Figure FDA00026444902100000311
高度为
Figure FDA00026444902100000312
第7个扩张卷积块的输入端接收S4中的所有特征图,第7个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z7,Z7中的每幅特征图的宽度为
Figure FDA00026444902100000313
高度为
Figure FDA00026444902100000314
第8个扩张卷积块的输入端接收S4中的所有特征图,第8个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z8,Z8中的每幅特征图的宽度为
Figure FDA00026444902100000315
高度为
Figure FDA00026444902100000316
第9个扩张卷积块的输入端接收S4中的所有特征图,第9个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z9,Z9中的每幅特征图的宽度为
Figure FDA00026444902100000317
高度为
Figure FDA00026444902100000318
第10个扩张卷积块的输入端接收S4中的所有特征图,第10个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z10,Z10中的每幅特征图的宽度为
Figure FDA00026444902100000319
高度为
Figure FDA00026444902100000320
第1个通道注意力模块至第4个通道注意力模块的结构相同,第1个通道注意力模块的第一输入端接收Z1中的所有特征图,第1个通道注意力模块的第二输入端接收S6中的所有特征图,第2个通道注意力模块的第一输入端接收对Z2中的所有特征图和Z3中的所有特征图进行元素相加操作后得到的所有特征图,第2个通道注意力模块的第二输入端接收S7中的所有特征图,第3个通道注意力模块的第一输入端接收对Z4中的所有特征图、Z5中的所有特征图和Z6中的所有特征图进行元素相加操作后得到的所有特征图,第3个通道注意力模块的第二输入端接收S8中的所有特征图,第4个通道注意力模块的第一输入端接收对Z7中的所有特征图、Z8中的所有特征图、Z9中的所有特征图和Z10中的所有特征图进行元素相加操作后得到的所有特征图,第4个通道注意力模块的第二输入端接收S9中的所有特征图,每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图,将所有第一调整图构成的集合记为T1,对T1中的每幅第一调整图进行矩阵形状调整操作得到第二调整图,将所有第二调整图构成的集合记为T2,对T2中的每幅第二调整图进行矩阵转置操作得到第三调整图,将所有第三调整图构成的集合记为T3,对T3中的所有第三调整图和T2中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图,将所有第一元素相乘图构成的集合记为T4,利用softmax函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数α得到第一处理图,将所有第一处理图构成的集合记为T5,利用sigmoid函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)得到第二处理图,将所有第二处理图构成的集合记为T6,对T5中的所有第一处理图和T6中的所有第二处理图进行元素相加操作得到多幅初步注意力图,将所有初步注意力图构成的集合记为T7,对T7中的所有初步注意力图和T1中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图,将所有第二元素相乘图构成的集合记为T8,对T8中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图,将所有第四调整图构成的集合记为T9,对T9中的所有第四调整图和和T1中的所有第一调整图进行元素相加操作得到多幅最终注意力图,将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图,将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F1,将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F2,将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F3,将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F4,F1中包含96幅特征图且每幅特征图的宽度为
Figure FDA0002644490210000051
高度为
Figure FDA0002644490210000052
F2中包含256幅特征图且每幅特征图的宽度为
Figure FDA0002644490210000053
高度为
Figure FDA0002644490210000054
F3中包含640幅特征图且每幅特征图的宽度为
Figure FDA0002644490210000055
高度为
Figure FDA0002644490210000056
F4中包含1536幅特征图且每幅特征图的宽度为
Figure FDA0002644490210000057
高度为
Figure FDA0002644490210000058
特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成,第四激活层和第五激活层的激活方式为“ReLU函数”,1×1卷积块的输入端作为特征交互增强模块的输入端接收S5中的所有特征图,1×1卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为E1,E1中的每幅特征图的宽度为
Figure FDA0002644490210000059
高度为
Figure FDA00026444902100000510
第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E1中的所有特征图,第一自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E2,E2中的每幅特征图的宽度为
Figure FDA00026444902100000511
高度为
Figure FDA00026444902100000512
第二自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E3,E3中的每幅特征图的宽度为
Figure FDA00026444902100000513
高度为
Figure FDA00026444902100000514
第四激活层的输入端接收E2中的所有特征图,第五激活层的输入端接收E3中的所有特征图,第四激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E4,E4中的每幅特征图的宽度为
Figure FDA00026444902100000515
高度为
Figure FDA00026444902100000516
第五激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E5,E5中的每幅特征图的宽度为
Figure FDA00026444902100000517
高度为
Figure FDA00026444902100000518
第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E4中的所有特征图,第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E5中的所有特征图,第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图,将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E6,将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E7,将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E8,将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E9,将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E10,将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E11,将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E12,将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征图的宽度为
Figure FDA0002644490210000061
高度为
Figure FDA0002644490210000062
对E6中的所有特征图、E7中的所有特征图、E8中的所有特征图、E9中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E14,E14中的每幅特征图的宽度为
Figure FDA0002644490210000063
高度为
Figure FDA0002644490210000064
对E10中的所有特征图、E11中的所有特征图、E12中的所有特征图、E13中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E15,E15中的每幅特征图的宽度为
Figure FDA0002644490210000065
高度为
Figure FDA0002644490210000066
将利用softmax函数对E14中的所有特征图进行处理后得到的所有特征图和利用softmax函数对E15中的所有特征图进行处理后得到的所有特征图进行通道数叠操作,得到1024幅特征图,将这1024幅特征图构成的集合记为E16,E16中的每幅特征图的宽度为
Figure FDA0002644490210000067
高度为
Figure FDA0002644490210000068
特征交互增强模块的输出端输出E16中的所有特征图;对E16中的所有特征图和S10中的所有特征图进行通道数叠操作,得到1536幅特征图,将这1536幅特征图构成的集合记为C0,C0中的每幅特征图的宽度为
Figure FDA0002644490210000069
高度为
Figure FDA00026444902100000610
第1个上采样块的输入端接收C0中的所有特征图,第1个上采样块的输出端输出768幅特征图,将这768幅特征图构成的集合记为C1,C1中的每幅特征图的宽度为
Figure FDA00026444902100000611
高度为
Figure FDA00026444902100000612
第2个上采样块的输入端接收对C1中的所有特征图和F4中的所有特征图进行通道数叠操作后得到的所有特征图,第2个上采样块的输出端输出1652幅特征图,将这1652幅特征图构成的集合记为C2,C2中的每幅特征图的宽度为
Figure FDA0002644490210000071
高度为
Figure FDA0002644490210000072
第3个上采样块的输入端接收对C2中的所有特征图和F3中的所有特征图进行通道数叠操作后得到的所有特征图,第3个上采样块的输出端输出1646幅特征图,将这1646幅特征图构成的集合记为C3,C3中的每幅特征图的宽度为
Figure FDA0002644490210000073
高度为
Figure FDA0002644490210000074
第4个上采样块的输入端接收对C3中的所有特征图和F2中的所有特征图进行通道数叠操作后得到的所有特征图,第4个上采样块的输出端输出951幅特征图,将这951幅特征图构成的集合记为C4,C4中的每幅特征图的宽度为
Figure FDA0002644490210000075
高度为
Figure FDA0002644490210000076
第5个上采样块的输入端接收对C4中的所有特征图和F1中的所有特征图进行通道数叠操作后得到的所有特征图,第5个上采样块的输出端作为隐层的输出端输出1幅特征图,该幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收隐层的输出端输出的1幅特征图,其输出端输出的特征图作为显著性检测图;
步骤①_3:将训练集中的每幅原始立体图像的RGB图作为原始RGB图,并将训练集中的每幅原始立体图像的深度图作为原始深度图,将原始RGB图的R通道分量、G通道分量和B通道分量及对应的原始深度图经HHA方法处理后得到的三通道深度图输入到卷积神经网络中进行训练,得到训练集中的每幅原始立体图像对应的显著性检测图,将训练集中与第i幅原始立体图像对应的显著性检测图记为
Figure FDA0002644490210000077
其中,
Figure FDA0002644490210000078
表示
Figure FDA0002644490210000079
中坐标位置为(x,y)的像素点的像素值;
步骤①_4:计算训练集中的每幅原始立体图像对应的显著性检测图与对应的真实人眼注释图之间的损失函数值,将
Figure FDA00026444902100000710
Figure FDA00026444902100000711
之间的损失函数值记为
Figure FDA00026444902100000712
采用均方误差加上Kullback-Leibler散度系数获得;
步骤①_5:重复执行步骤①_3和步骤①_4共V次,得到卷积神经网络训练模型,并共得到K×V个损失函数值;然后从K×V个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤②_1:将待检测的立体图像的RGB图的R通道分量、G通道分量和B通道分量及深度图经HHA方法处理后得到的三通道深度图输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性检测图像。
2.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第1个神经网络块至第10个神经网络块的结构相同,其由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成,第一卷积层的输入端作为其所在的神经网络块的输入端,第一最大池化层的输出端作为其所在的神经网络块的输出端,其中,第1个神经网络块和第6个神经网络块中的第一卷积层和第二卷积层的卷积核个数为64、卷积核尺寸为3×3、补零参数的值为1,第2个神经网络块和第7个神经网络块中的第一卷积层和第二卷积层的卷积核个数为128、卷积核尺寸为3×3、补零参数的值为1,第3个神经网络块和第8个神经网络块中的第一卷积层和第二卷积层的卷积核个数为256、卷积核尺寸为3×3、补零参数的值为1,第4个神经网络块和第9个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第5个神经网络块和第10个神经网络块中的第一卷积层和第二卷积层的卷积核个数为512、卷积核尺寸为3×3、补零参数的值为1,第1个神经网络块至第5个神经网络块中的第一激活层和第二激活层的激活方式为“ReLU函数”,第1个神经网络块至第5个神经网络块中的第一最大池化层的池化尺寸为2、步长为2。
3.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第1个扩张卷积块至第10个扩张卷积块的结构相同,其由依次连接的第一扩张卷积层、第一批量归一化层、第三激活层组成,第一扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第三激活层的输出端作为其所在的扩张卷积块的输出端;其中,第1个扩张卷积块中的第一扩张卷积层包含32个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第2个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第3个扩张卷积块中的第一扩张卷积层包含64个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第4个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第5个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第6个扩张卷积块中的第一扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第7个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第8个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第9个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第10个扩张卷积块中的第一扩张卷积层包含256个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第1个扩张卷积块至第10个扩张卷积块中的第一批量归一化层使用的归一化算法是“Batch Normalization”,第1个扩张卷积块至第10个扩张卷积块中的第三激活层的激活方式为“ReLU函数”。
4.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,1×1卷积块由依次连接的第三卷积层、第二批量归一化层、第六激活层、第四卷积层、第三批量归一化层、第七激活层、第五卷积层、第四批量归一化层、第八激活层组成,第三卷积层的输入端为1×1卷积块的输入端,第八激活层的输出端为1×1卷积块的输出端,其中,第三卷积层、第四卷积层、第五卷积层的卷积核尺寸为1×1、步长为1,第三卷积层的卷积核个数为1024,第四卷积层的卷积核个数为512,第五卷积层的卷积核个数为256,第二批量归一化层、第三批量归一化层、第四批量归一化层使用的归一化算法是“Batch Normalization”,第六激活层、第七激活层、第八激活层的激活方式为“ReLU函数”。
5.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第11个扩张卷积块至第18个扩张卷积块的结构相同,其由依次连接的第二扩张卷积层、第五批量归一化层、第九激活层组成,第二扩张卷积层的输入端作为其所在的扩张卷积块的输入端,第九激活层的输出端作为其所在的扩张卷积块的输出端;其中,第11个扩张卷积块和第15个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为1、补零参数为1,第12个扩张卷积块和第16个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为2、补零参数为2,第13个扩张卷积块和第17个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为3、补零参数为3,第14个扩张卷积块和第18个扩张卷积块中的第二扩张卷积层包含128个扩张卷积、卷积核尺寸为3×3、步长为1、扩张率为5,第11个扩张卷积块至第18个扩张卷积块中的第五批量归一化层使用的归一化算法是“Batch Normalization”,第11个扩张卷积块至第18个扩张卷积块中的第九激活层的激活方式为“ReLU函数”。
6.根据权利要求1所述的一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于所述的步骤①_2中,第1个上采样块至第4个上采样块的结构相同,其由依次连接的第六卷积层、第六批量归一化层、第十激活层、第一上采样层组成,第六卷积层的输入端作为其所在的上采样块的输入端,第一上采样层的输出端作为其所在的上采样块的输出端,其中,第1个上采样块中的第六卷积层包含768个扩张卷积、卷积核尺寸为3×3、步长为1,第2个上采样块中的第六卷积层包含1652个扩张卷积、卷积核尺寸为3×3、步长为1,第3个上采样块中的第六卷积层包含1646个扩张卷积、卷积核尺寸为3×3、步长为1,第4个上采样块中的第六卷积层包含951个扩张卷积、卷积核尺寸为3×3、步长为1,第1个上采样块至第4个上采样块中的第六批量归一化层使用的归一化算法是“Batch Normalization”,第1个上采样块至第4个上采样块中的第十激活层的激活方式为“ReLU函数”,第1个上采样块至第4个上采样块中的第一上采样层的指定倍数为2;第5个上采样块由依次连接的第七卷积层、第七批量归一化层、第十一激活层、第八卷积层、第八批量归一化层、第十二激活层、第九卷积层、第九批量归一化层、第十三激活层、第十卷积层、第十批量归一化层、第十四激活层、第十一卷积层、第十一批量归一化层、第十五激活层、第二上采样层组成,第七卷积层的输入端作为第5个上采样块的输入端,第二上采样层的输出端作为第5个上采样块的输出端,其中,第七卷积层的卷积核个数为512、卷积核尺寸为3×3、步长为1,第八卷积层的卷积核个数为256、卷积核尺寸为3×3、步长为1,第九卷积层的卷积核个数为128、卷积核尺寸为3×3、步长为1,第十卷积层的卷积核个数为64、卷积核尺寸为3×3、步长为1,第十一卷积层的卷积核个数为1、卷积核尺寸为3×3、步长为1,第七批量归一化层、第八批量归一化层、第九批量归一化层、第十批量归一化层、第十一批量归一化层使用的归一化算法是“BatchNormalization”,第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层的激活方式为“ReLU函数”,第二上采样层的指定倍数为2。
CN202010850264.1A 2020-08-21 2020-08-21 一种基于扩张卷积块的多模态融合显著性检测方法 Withdrawn CN112149662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010850264.1A CN112149662A (zh) 2020-08-21 2020-08-21 一种基于扩张卷积块的多模态融合显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010850264.1A CN112149662A (zh) 2020-08-21 2020-08-21 一种基于扩张卷积块的多模态融合显著性检测方法

Publications (1)

Publication Number Publication Date
CN112149662A true CN112149662A (zh) 2020-12-29

Family

ID=73888930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010850264.1A Withdrawn CN112149662A (zh) 2020-08-21 2020-08-21 一种基于扩张卷积块的多模态融合显著性检测方法

Country Status (1)

Country Link
CN (1) CN112149662A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN113313077A (zh) * 2021-06-30 2021-08-27 浙江科技学院 基于多策略和交叉特征融合的显著物体检测方法
CN116309623A (zh) * 2023-05-17 2023-06-23 广东电网有限责任公司湛江供电局 一种多源信息融合增强的建筑物分割方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN111768375B (zh) * 2020-06-24 2022-07-26 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN113313077A (zh) * 2021-06-30 2021-08-27 浙江科技学院 基于多策略和交叉特征融合的显著物体检测方法
CN116309623A (zh) * 2023-05-17 2023-06-23 广东电网有限责任公司湛江供电局 一种多源信息融合增强的建筑物分割方法及系统
CN116309623B (zh) * 2023-05-17 2023-08-18 广东电网有限责任公司湛江供电局 一种多源信息融合增强的建筑物分割方法及系统

Similar Documents

Publication Publication Date Title
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN107767413B (zh) 一种基于卷积神经网络的图像深度估计方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN108345892B (zh) 一种立体图像显著性的检测方法、装置、设备及存储介质
CN111047516A (zh) 图像处理方法、装置、计算机设备和存储介质
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN108491848B (zh) 基于深度信息的图像显著性检测方法和装置
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN109872305B (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
US11615612B2 (en) Systems and methods for image feature extraction
CN112581517B (zh) 双目立体匹配装置及方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN111260655A (zh) 基于深度神经网络模型的图像生成方法与装置
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN115222954A (zh) 弱感知目标检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201229

WW01 Invention patent application withdrawn after publication