CN110059728B - 基于注意力模型的rgb-d图像视觉显著性检测方法 - Google Patents

基于注意力模型的rgb-d图像视觉显著性检测方法 Download PDF

Info

Publication number
CN110059728B
CN110059728B CN201910230018.3A CN201910230018A CN110059728B CN 110059728 B CN110059728 B CN 110059728B CN 201910230018 A CN201910230018 A CN 201910230018A CN 110059728 B CN110059728 B CN 110059728B
Authority
CN
China
Prior art keywords
layer
output
feature maps
output end
receives
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910230018.3A
Other languages
English (en)
Other versions
CN110059728A (zh
Inventor
周武杰
吕营
雷景生
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Lezhengxin Technology Co ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910230018.3A priority Critical patent/CN110059728B/zh
Publication of CN110059728A publication Critical patent/CN110059728A/zh
Application granted granted Critical
Publication of CN110059728B publication Critical patent/CN110059728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力模型的RGB‑D图像视觉显著性检测方法,其构建的卷积神经网络的隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,RGB特征提取框架由第1个至第5个神经网络块、第1个至第3个上采样层组成,深度特征提取框架由第6个至第10个神经网络块、第4个至第6个上采样层组成,特征融合框架由第1个至第3个注意力模型、第11个神经网络块、第7个上采样层组成;优点是特征融合框架融合了RGB图和深度图相关的特征,使得训练过程中包含了从局部到全局,从低级到高级的RGB图像和深度图像这两种特征,且充分利用了RGB与深度模态之间的互补关系,并在融合的RGB‑D高阶表示的基础上进行最终显著性预测,使得预测结果更加接近人眼注视图。

Description

基于注意力模型的RGB-D图像视觉显著性检测方法
技术领域
本发明涉及一种视觉显著性检测技术,尤其是涉及一种基于注意力模型的RGB-D图像视觉显著性检测方法。
背景技术
显著性检测是指检测出在场景中突出最吸引人的物体或目标,由于显著性检测已在计算机视觉和机器人视觉中广泛应用,如图像压缩和视频分类等,因此其一直是一项基础性工作。近年来,随着Kinect、RealSense等RGB-D传感器的出现,深度信息作为附加信息已被逐渐采用,以提高显著性检测的性能。与RGB数据相比,深度数据提供了更多的形状信息、清晰的边缘,并且对光照条件的变化具有较强的鲁棒性。用于显著性检测的成对RGB图像与深度图像之间存在着互补关系。人们很容易得出这样的结论,在大量具有挑战性的场景中,显著目标和背景区域的外观过于相似而无法区分,配对的深度数据能够有效地辅助RGB数据进行显著性检测,为了进行RGB-D显著性检测,增加的深度数据带来两个基本问题:一方面,如何考虑深度数据的特征,合理地对深度数据的显著性检测进行建模;另一方面,如何利用一个最佳的方法结合RGB数据和深度数据。
显著性检测方法一般分为自顶向下的方法和自底向上的方法。自顶向下的方法依赖于高级显著性先验来识别显著性区域;而自底向上的方法是数据驱动的、独立于任务的,其目的是通过将局部或全局上下文中每个区域的显著性与低级特征进行对比来度量显著性值。为了利用深度数据进行显著性检测,传统方法通常直接使用原始深度值,或者从深度值进一步探索手工制作的特性,这并不超出对低层特性的依赖。事实上,低层特征无法捕捉到针对显著性检测的高层推理,并且在应用于不同场景时缺乏泛化能力。此外,以往大多数的RGB-D显著性检测模型都是基于RGB显著性检测框架的,尽管它们在使用深度数据方面存在差异。更具体地说,深度数据要么被简单地通过特征提取在网络末端进行融合,要么被视为权重,用于正则化RGB数据的显著性值。然而,这两种解决方案都过于简单,无法从数据分布和结构上对深度模态特性进行建模,也无法捕捉到RGB数据与深度数据之间的互补关系。
最近,人们见证了深度学习技术在大范围的计算机视觉和机器人视觉任务中的成功,这得益于其强大的表征能力和特征关联建模能力。人们普遍认为,深度学习在捕捉诸如独特性和客观性等高层次表征方面具有优势。高阶表示对显著性检测具有重要意义,可以有效地抑制背景干扰对显著性目标的定位。此外,深度学习成功的另一个原因是,深度学习体系结构中的每一层都有很强的能力去选择和融合前一层的特性。出于这些深度学习的优点,深度学习是一种很合理的选择,尤其是卷积神经网络(CNN)。
利用卷积神经网络进行RGB-D显著性检测需要考虑两个关键问题:(1)如何设计显著性检测网络;(2)如何设计融合架构,有效地捕获RGB与深度模态之间的互补信息。因此,鉴于以上两个关键问题,有必要对RGB-D图像视觉显著性检测技术进行进一步研究,以提高检测准确性。
发明内容
本发明所要解决的技术问题是提供一种基于注意力模型的RGB-D图像视觉显著性检测方法,其很好地利用了RGB与深度模态之间的互补关系,提高了检测准确性。
本发明解决上述技术问题所采用的技术方案为:一种基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤如下:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将所有原始的立体图像的左视点图像、深度图像及真实人眼注视图构成训练集,将训练集中的第n幅左视点图像记为
Figure BDA0002006401790000031
将训练集中与
Figure BDA0002006401790000032
对应的深度图像记为{Dn(x,y)},将训练集中与
Figure BDA0002006401790000033
对应的真实人眼注视图记为{Gn(x,y)};其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,
Figure BDA0002006401790000034
表示
Figure BDA0002006401790000035
中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,Gn(x,y)表示{Gn(x,y)}中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络采用双流模式来提取左视点图像和深度图像各自的分层特征,该卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和深度图输入层,隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,RGB特征提取框架由第1个至第5个神经网络块、第1个至第3个上采样层组成,深度特征提取框架由第6个至第10个神经网络块、第4个至第6个上采样层组成,特征融合框架由第1个至第3个注意力模型、第11个神经网络块、第7个上采样层组成;其中,第1个至第7个上采样层的模式均为双线性插值,第1个上采样层和第4个上采样层的比例因子均为2,第2个上采样层、第3个上采样层、第5个上采样层、第6个上采样层、第7个上采样层的比例因子均为4;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于RGB特征提取框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为
Figure BDA0002006401790000041
且高度为
Figure BDA0002006401790000042
的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
Figure BDA0002006401790000043
且高度为
Figure BDA0002006401790000044
的特征图,将输出的所有特征图构成的集合记为P2;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
Figure BDA0002006401790000045
且高度为
Figure BDA0002006401790000046
的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为
Figure BDA0002006401790000047
且高度为
Figure BDA0002006401790000048
的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅宽度为
Figure BDA0002006401790000049
且高度为
Figure BDA00020064017900000410
的特征图,将输出的所有特征图构成的集合记为P5;第1个上采样层的输入端接收P3中的所有特征图,第1个上采样层的输出端输出256幅宽度为
Figure BDA00020064017900000411
且高度为
Figure BDA00020064017900000412
的特征图,将输出的所有特征图构成的集合记为U1;第2个上采样层的输入端接收P4中的所有特征图,第2个上采样层的输出端输出512幅宽度为
Figure BDA00020064017900000413
且高度为
Figure BDA00020064017900000414
的特征图,将输出的所有特征图构成的集合记为U2;第3个上采样层的输入端接收P5中的所有特征图,第3个上采样层的输出端输出512幅宽度为
Figure BDA0002006401790000051
且高度为
Figure BDA0002006401790000052
的特征图,将输出的所有特征图构成的集合记为U3
对于深度特征提取框架,第6个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第6个神经网络块的输出端输出64幅宽度为
Figure BDA0002006401790000053
且高度为
Figure BDA0002006401790000054
的特征图,将输出的所有特征图构成的集合记为P6;第7个神经网络块的输入端接收P6中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
Figure BDA0002006401790000055
且高度为
Figure BDA0002006401790000056
的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P7中的所有特征图,第8个神经网络块的输出端输出256幅宽度为
Figure BDA0002006401790000057
且高度为
Figure BDA0002006401790000058
的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P8中的所有特征图,第9个神经网络块的输出端输出512幅宽度为
Figure BDA0002006401790000059
且高度为
Figure BDA00020064017900000510
的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P9中的所有特征图,第10个神经网络块的输出端输出512幅宽度为
Figure BDA00020064017900000511
且高度为
Figure BDA00020064017900000512
的特征图,将输出的所有特征图构成的集合记为P10;第4个上采样层的输入端接收P8中的所有特征图,第4个上采样层的输出端输出256幅宽度为
Figure BDA00020064017900000513
且高度为
Figure BDA00020064017900000514
的特征图,将输出的所有特征图构成的集合记为U4;第5个上采样层的输入端接收P9中的所有特征图,第5个上采样层的输出端输出512幅宽度为
Figure BDA00020064017900000515
且高度为
Figure BDA00020064017900000516
的特征图,将输出的所有特征图构成的集合记为U5;第6个上采样层的输入端接收P10中的所有特征图,第6个上采样层的输出端输出512幅宽度为
Figure BDA00020064017900000517
且高度为
Figure BDA00020064017900000518
的特征图,将输出的所有特征图构成的集合记为U6
对于特征融合框架,其接收U1中的所有特征图、U2中的所有特征图、U3中的所有特征图、U4中的所有特征图、U5中的所有特征图、U6中的所有特征图;对U1中的所有特征图和U4中的所有特征图进行Concatenate操作,Concatenate操作后输出512幅宽度为
Figure BDA0002006401790000061
且高度为
Figure BDA0002006401790000062
的特征图,将输出的所有特征图构成的集合记为C1;对U2中的所有特征图和U5中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
Figure BDA0002006401790000063
且高度为
Figure BDA0002006401790000064
的特征图,将输出的所有特征图构成的集合记为C2;对U3中的所有特征图和U6中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
Figure BDA0002006401790000065
且高度为
Figure BDA0002006401790000066
的特征图,将输出的所有特征图构成的集合记为C3;第1个注意力模型的输入端接收C1中的所有特征图,第1个注意力模型的输出端输出512幅宽度为
Figure BDA0002006401790000067
且高度为
Figure BDA0002006401790000068
的特征图,将输出的所有特征图构成的集合记为A1;第2个注意力模型的输入端接收C2中的所有特征图,第2个注意力模型的输出端输出512幅宽度为
Figure BDA0002006401790000069
且高度为
Figure BDA00020064017900000610
的特征图,将输出的所有特征图构成的集合记为A2;第3个注意力模型的输入端接收C3中的所有特征图,第3个注意力模型的输出端输出512幅宽度为
Figure BDA00020064017900000611
且高度为
Figure BDA00020064017900000612
的特征图,将输出的所有特征图构成的集合记为A3;对A1中的所有特征图、A2中的所有特征图、A3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
Figure BDA00020064017900000613
且高度为
Figure BDA00020064017900000614
的特征图,将输出的所有特征图构成的集合记为E1;第11个神经网络块的输入端接收E1中的所有特征图,第11个神经网络块的输出端输出一幅宽度为
Figure BDA00020064017900000615
且高度为
Figure BDA00020064017900000616
的特征图;第7个上采样层的输入端接收第11个神经网络块的输出端输出的特征图,第7个上采样层的输出端输出一幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第7个上采样层的输出端输出的特征图,其输出端输出一幅训练用左视点图像对应的视觉显著性图像;其中,视觉显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅左视点图像作为训练用左视点图像,并将训练集中每幅左视点图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅左视点图像对应的视觉显著性图像,将
Figure BDA0002006401790000071
对应的视觉显著性图像记为
Figure BDA0002006401790000072
其中,
Figure BDA0002006401790000073
表示
Figure BDA0002006401790000074
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅左视点图像对应的视觉显著性图像与对应的真实人眼注视图之间的损失函数值,将
Figure BDA0002006401790000075
Figure BDA0002006401790000076
之间的损失函数值记为
Figure BDA0002006401790000077
Figure BDA0002006401790000078
采用均方误差函数和线性相关性系数函数联合作为损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤如下:
步骤2_1:令
Figure BDA0002006401790000079
表示待显著性检测的左视点图像,令
Figure BDA00020064017900000710
表示
Figure BDA00020064017900000711
对应的深度图像;其中,1≤x'≤W',1≤y'≤H',W'表示
Figure BDA00020064017900000712
的宽度,H'表示
Figure BDA00020064017900000713
的高度,
Figure BDA00020064017900000714
表示
Figure BDA00020064017900000715
中坐标位置为(x',y')的像素点的像素值,
Figure BDA00020064017900000716
表示
Figure BDA00020064017900000717
中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将
Figure BDA00020064017900000718
Figure BDA00020064017900000719
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA0002006401790000081
对应的视觉显著性预测图像,记为
Figure BDA0002006401790000082
其中,
Figure BDA0002006401790000083
表示
Figure BDA0002006401790000084
中坐标位置为(x',y')的像素点的像素值。
所述的第1个神经网络块和所述的第6个神经网络块的结构相同,均由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第一最大池化层构成,第一卷积层和第二卷积层的卷积核大小均为3、卷积核个数均为64、步幅均为1、填充均为1,第一激活层和第二激活层的激活函数均为ReLU,第一最大池化层的池化窗口大小为2、步幅为2;第一卷积层的输入端作为该神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为该神经网络块的输出端;
所述的第2个神经网络块和所述的第7个神经网络块的结构相同,均由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层、第二最大池化层构成,第三卷积层和第四卷积层的卷积核大小均为3、卷积核个数均为128、步幅均为1、填充均为1,第三激活层和第四激活层的激活函数均为ReLU,第二最大池化层的池化窗口大小为2、步幅为2;第三卷积层的输入端作为该神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第二最大池化层的输入端接收第四激活层的输出端输出的所有特征图,第二最大池化层的输出端作为该神经网络块的输出端;
所述的第3个神经网络块和所述的第8个神经网络块的结构相同,均由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层、第三最大池化层构成,第五卷积层、第六卷积层、第七卷积层的卷积核大小均为3、卷积核个数均为256、步幅均为1、填充均为1,第五激活层、第六激活层、第七激活层的激活函数均为ReLU,第三最大池化层的池化窗口大小为2、步幅为2;第五卷积层的输入端作为该神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第三最大池化层的输入端接收第七激活层的输出端输出的所有特征图,第三最大池化层的输出端作为该神经网络块的输出端;
所述的第4个神经网络块和所述的第9个神经网络块的结构相同,均由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层、第四最大池化层构成,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第八激活层、第九激活层、第十激活层的激活函数均为ReLU,第四最大池化层的池化窗口大小为2、步幅为2;第八卷积层的输入端作为该神经网络块的输入端,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第四最大池化层的输入端接收第十激活层的输出端输出的所有特征图,第四最大池化层的输出端作为该神经网络块的输出端;
所述的第5个神经网络块和所述的第10个神经网络块的结构相同,均由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层构成,第十一卷积层、第十二卷积层、第十三卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第十一激活层、第十二激活层、第十三激活层的激活函数均为ReLU;第十一卷积层的输入端作为该神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端作为该神经网络块的输出端。
所述的第11个神经网络块由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层构成,第十四卷积层、第十五卷积层、第十六卷积层的卷积核大小均为1、步幅均为1,第十四卷积层的卷积核个数为256,第十五卷积层的卷积核个数为64,第十六卷积层的卷积核个数为1,第十四激活层、第十五激活层的激活函数均为ReLU,第十六激活层的激活函数为Sigmoid;第十四卷积层的输入端作为该神经网络块的输入端,第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图,第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图,第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图,第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图,第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图,第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图,第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图,第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图,第十六激活层的输出端作为该神经网络块的输出端。
所述的第1个注意力模型、所述的第2个注意力模型、所述的第3个注意力模型的结构相同,均由第十七卷积层、第一残差块、第二残差块、第五最大池化层、第三残差块、第六最大池化层、第四残差块、第七最大池化层、第五残差块、第六残差块、第一上采样层、第七残差块、第八残差块、第二上采样层、第九残差块、第十残差块、第三上采样层、神经网络块、第十一残差块构成,第十七卷积层的卷积核大小为1、卷积核个数为512、步幅为1,所有残差块均采用ResNet50中的残差块,所有残差块的输入通道数量和输出通道数量均为512个,第五最大池化层、第六最大池化层、第七最大池化层的池化窗口大小均为3、步幅均为2、填充均为1,第一上采样层、第二上采样层、第三上采样层的模式均为双线性插值、比例因子均为2;第十七卷积层的输入端作为该注意力模型的输入端,第一残差块的输入端接收第十七卷积层的输出端输出的所有特征图,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第五最大池化层的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输入端接收第五最大池化层的输出端输出的所有特征图,第六最大池化层的输入端接收第三残差块的输出端输出的所有特征图,第四残差块的输入端接收第六最大池化层的输出端输出的所有特征图,第七最大池化层的输入端接收第四残差块的输出端输出的所有特征图,第五残差块的输入端接收第七最大池化层的输出端输出的所有特征图,第六残差块的输入端接收第五残差块的输出端输出的所有特征图,第一上采样层的输入端接收第六残差块的输出端输出的所有特征图,第七残差块的输入端接收第四残差块的输出端输出的所有特征图,对第七残差块的输出端输出的所有特征图和第一上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第八残差块的输入端,第二上采样层的输入端接收第八残差块的输出端输出的所有特征图,第九残差块的输入端接收第三残差块的输出端输出的所有特征图,对第九残差块的输出端输出的所有特征图和第二上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十残差块的输入端,第三上采样层的输入端接收第十残差块的输出端输出的所有特征图,神经网络块的输入端接收第三上采样层的输出端输出的所有特征图,对第二残差块的输出端输出的所有特征图和神经网络块的输出端输出的所有特征图进行内积操作,再对内积操作后得到的所有特征图和第二残差块的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十一残差块的输入端,第十一残差块的输出端为该注意力模型的输出端。
所述的神经网络块由依次设置的第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九激活层构成,第十七激活层、第十八激活层的激活函数均为ReLU,第十九激活层的激活函数为Sigmoid,第十八卷积层、第十九卷积层的卷积核大小均为1、卷积核个数均为512、步幅均为1;第十七批标准化层的输入端为神经网络块的输入端,第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图,第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图,第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图,第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图,第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图,第十九激活层的输入端接收第十九卷积层的输出端输出的所有特征图,第十九激活层的输出端为神经网络块的输出端。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络的隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,加载了预训练模型VGG16的参数来学习多级RGB图相关的特征和深度图相关的特征,不仅极大地缩短了训练的时间和减少了计算成本,而且还提高了训练得到的卷积神经网络训练模型预测的准确性。
2)本发明方法构建的卷积神经网络中引入了三个注意力模型,注意力模型对提取的RGB图相关的特征和深度图相关的特征进行自适应特征细化,这有利于训练得到的卷积神经网络训练模型更加关注图像中的显著性物体;并且注意力模型可以与任何前馈模型一起以端到端的方式进行训练。
3)本发明方法构建的卷积神经网络中的特征融合框架融合了RGB图相关的特征和深度图相关的特征,使得训练过程中不仅包含了从局部到全局,从低级到高级的RGB图像和深度图像这两种特征,而且充分利用了RGB与深度模态之间的互补关系,并在融合的RGB-D高阶表示的基础上进行最终显著性预测,使得预测的结果更加接近人眼注视图。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构框图;
图2为本发明方法构建的卷积神经网络中的注意力模型的组成结构框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于注意力模型的RGB-D图像视觉显著性检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤如下:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将所有原始的立体图像的左视点图像、深度图像及真实人眼注视图构成训练集,将训练集中的第n幅左视点图像记为
Figure BDA0002006401790000151
将训练集中与
Figure BDA0002006401790000152
对应的深度图像记为{Dn(x,y)},将训练集中与
Figure BDA0002006401790000153
对应的真实人眼注视图记为{Gn(x,y)};其中,N为正整数,N≥300,如取N=600,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,
Figure BDA0002006401790000154
表示
Figure BDA0002006401790000155
中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,Gn(x,y)表示{Gn(x,y)}中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建卷积神经网络:如图1所示,该卷积神经网络采用双流模式来提取左视点图像和深度图像各自的分层特征,该卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和深度图输入层,隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,RGB特征提取框架由第1个至第5个神经网络块、第1个至第3个上采样层组成,深度特征提取框架由第6个至第10个神经网络块、第4个至第6个上采样层组成,特征融合框架由第1个至第3个注意力模型、第11个神经网络块、第7个上采样层组成;其中,第1个至第7个上采样层的模式均为双线性插值,第1个上采样层和第4个上采样层的比例因子均为2,第2个上采样层、第3个上采样层、第5个上采样层、第6个上采样层、第7个上采样层的比例因子均为4。
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H。
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H。
对于RGB特征提取框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为
Figure BDA0002006401790000161
且高度为
Figure BDA0002006401790000162
的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
Figure BDA0002006401790000163
且高度为
Figure BDA0002006401790000164
的特征图,将输出的所有特征图构成的集合记为P2;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
Figure BDA0002006401790000165
且高度为
Figure BDA0002006401790000166
的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为
Figure BDA0002006401790000167
且高度为
Figure BDA0002006401790000168
的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅宽度为
Figure BDA0002006401790000169
且高度为
Figure BDA00020064017900001610
的特征图,将输出的所有特征图构成的集合记为P5;第1个上采样层的输入端接收P3中的所有特征图,第1个上采样层的输出端输出256幅宽度为
Figure BDA00020064017900001611
且高度为
Figure BDA00020064017900001612
的特征图,将输出的所有特征图构成的集合记为U1;第2个上采样层的输入端接收P4中的所有特征图,第2个上采样层的输出端输出512幅宽度为
Figure BDA00020064017900001613
且高度为
Figure BDA00020064017900001614
的特征图,将输出的所有特征图构成的集合记为U2;第3个上采样层的输入端接收P5中的所有特征图,第3个上采样层的输出端输出512幅宽度为
Figure BDA00020064017900001615
且高度为
Figure BDA00020064017900001616
的特征图,将输出的所有特征图构成的集合记为U3
对于深度特征提取框架,第6个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第6个神经网络块的输出端输出64幅宽度为
Figure BDA00020064017900001617
且高度为
Figure BDA00020064017900001618
的特征图,将输出的所有特征图构成的集合记为P6;第7个神经网络块的输入端接收P6中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
Figure BDA00020064017900001619
且高度为
Figure BDA00020064017900001620
的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P7中的所有特征图,第8个神经网络块的输出端输出256幅宽度为
Figure BDA0002006401790000171
且高度为
Figure BDA0002006401790000172
的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P8中的所有特征图,第9个神经网络块的输出端输出512幅宽度为
Figure BDA0002006401790000173
且高度为
Figure BDA0002006401790000174
的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P9中的所有特征图,第10个神经网络块的输出端输出512幅宽度为
Figure BDA0002006401790000175
且高度为
Figure BDA0002006401790000176
的特征图,将输出的所有特征图构成的集合记为P10;第4个上采样层的输入端接收P8中的所有特征图,第4个上采样层的输出端输出256幅宽度为
Figure BDA0002006401790000177
且高度为
Figure BDA0002006401790000178
的特征图,将输出的所有特征图构成的集合记为U4;第5个上采样层的输入端接收P9中的所有特征图,第5个上采样层的输出端输出512幅宽度为
Figure BDA0002006401790000179
且高度为
Figure BDA00020064017900001710
的特征图,将输出的所有特征图构成的集合记为U5;第6个上采样层的输入端接收P10中的所有特征图,第6个上采样层的输出端输出512幅宽度为
Figure BDA00020064017900001711
且高度为
Figure BDA00020064017900001712
的特征图,将输出的所有特征图构成的集合记为U6
对于特征融合框架,其接收U1中的所有特征图、U2中的所有特征图、U3中的所有特征图、U4中的所有特征图、U5中的所有特征图、U6中的所有特征图;对U1中的所有特征图和U4中的所有特征图进行Concatenate操作,Concatenate操作后输出512幅宽度为
Figure BDA00020064017900001713
且高度为
Figure BDA00020064017900001714
的特征图,将输出的所有特征图构成的集合记为C1;对U2中的所有特征图和U5中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
Figure BDA00020064017900001715
且高度为
Figure BDA00020064017900001716
的特征图,将输出的所有特征图构成的集合记为C2;对U3中的所有特征图和U6中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
Figure BDA00020064017900001717
且高度为
Figure BDA00020064017900001718
的特征图,将输出的所有特征图构成的集合记为C3;第1个注意力模型的输入端接收C1中的所有特征图,第1个注意力模型的输出端输出512幅宽度为
Figure BDA00020064017900001719
且高度为
Figure BDA0002006401790000181
的特征图,将输出的所有特征图构成的集合记为A1;第2个注意力模型的输入端接收C2中的所有特征图,第2个注意力模型的输出端输出512幅宽度为
Figure BDA0002006401790000182
且高度为
Figure BDA0002006401790000183
的特征图,将输出的所有特征图构成的集合记为A2;第3个注意力模型的输入端接收C3中的所有特征图,第3个注意力模型的输出端输出512幅宽度为
Figure BDA0002006401790000184
且高度为
Figure BDA0002006401790000185
的特征图,将输出的所有特征图构成的集合记为A3;对A1中的所有特征图、A2中的所有特征图、A3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
Figure BDA0002006401790000186
且高度为
Figure BDA0002006401790000187
的特征图,将输出的所有特征图构成的集合记为E1;第11个神经网络块的输入端接收E1中的所有特征图,第11个神经网络块的输出端输出一幅宽度为
Figure BDA0002006401790000188
且高度为
Figure BDA0002006401790000189
的特征图;第7个上采样层的输入端接收第11个神经网络块的输出端输出的特征图,第7个上采样层的输出端输出一幅宽度为W且高度为H的特征图。
对于输出层,其输入端接收第7个上采样层的输出端输出的特征图,其输出端输出一幅训练用左视点图像对应的视觉显著性图像;其中,视觉显著性图像的宽度为W且高度为H。
步骤1_3:将训练集中的每幅左视点图像作为训练用左视点图像,并将训练集中每幅左视点图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅左视点图像对应的视觉显著性图像,将
Figure BDA00020064017900001810
对应的视觉显著性图像记为
Figure BDA00020064017900001811
其中,
Figure BDA00020064017900001812
表示
Figure BDA00020064017900001813
中坐标位置为(x,y)的像素点的像素值。
步骤1_4:计算训练集中的每幅左视点图像对应的视觉显著性图像与对应的真实人眼注视图之间的损失函数值,将
Figure BDA00020064017900001814
与{Gn(x,y)}之间的损失函数值记为
Figure BDA0002006401790000191
Figure BDA0002006401790000192
采用均方误差函数和线性相关性系数函数联合作为损失函数获得,即将均方误差函数与线性相关性系数函数做加法,两者系数均为1。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,如取V=50。
所述的测试阶段过程的具体步骤如下:
步骤2_1:令
Figure BDA0002006401790000193
表示待显著性检测的左视点图像,令
Figure BDA0002006401790000194
表示
Figure BDA0002006401790000195
对应的深度图像;其中,1≤x'≤W',1≤y'≤H',W'表示
Figure BDA0002006401790000196
的宽度,H'表示
Figure BDA0002006401790000197
的高度,
Figure BDA0002006401790000198
表示
Figure BDA0002006401790000199
中坐标位置为(x',y')的像素点的像素值,
Figure BDA00020064017900001910
表示
Figure BDA00020064017900001911
中坐标位置为(x',y')的像素点的像素值。
步骤2_2:将
Figure BDA00020064017900001912
Figure BDA00020064017900001913
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00020064017900001914
对应的视觉显著性预测图像,记为
Figure BDA00020064017900001915
其中,
Figure BDA00020064017900001916
表示
Figure BDA00020064017900001917
中坐标位置为(x',y')的像素点的像素值。
在此具体实施例中,第1个神经网络块和第6个神经网络块的结构相同,均由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第一最大池化层构成,第一卷积层和第二卷积层的卷积核大小均为3、卷积核个数均为64、步幅均为1、填充均为1,第一激活层和第二激活层的激活函数均为ReLU,第一最大池化层的池化窗口大小为2、步幅为2;第一卷积层的输入端作为该神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第2个神经网络块和第7个神经网络块的结构相同,均由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层、第二最大池化层构成,第三卷积层和第四卷积层的卷积核大小均为3、卷积核个数均为128、步幅均为1、填充均为1,第三激活层和第四激活层的激活函数均为ReLU,第二最大池化层的池化窗口大小为2、步幅为2;第三卷积层的输入端作为该神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第二最大池化层的输入端接收第四激活层的输出端输出的所有特征图,第二最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第3个神经网络块和第8个神经网络块的结构相同,均由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层、第三最大池化层构成,第五卷积层、第六卷积层、第七卷积层的卷积核大小均为3、卷积核个数均为256、步幅均为1、填充均为1,第五激活层、第六激活层、第七激活层的激活函数均为ReLU,第三最大池化层的池化窗口大小为2、步幅为2;第五卷积层的输入端作为该神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第三最大池化层的输入端接收第七激活层的输出端输出的所有特征图,第三最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第4个神经网络块和第9个神经网络块的结构相同,均由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层、第四最大池化层构成,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第八激活层、第九激活层、第十激活层的激活函数均为ReLU,第四最大池化层的池化窗口大小为2、步幅为2;第八卷积层的输入端作为该神经网络块的输入端,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第四最大池化层的输入端接收第十激活层的输出端输出的所有特征图,第四最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第5个神经网络块和第10个神经网络块的结构相同,均由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层构成,第十一卷积层、第十二卷积层、第十三卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第十一激活层、第十二激活层、第十三激活层的激活函数均为ReLU;第十一卷积层的输入端作为该神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端作为该神经网络块的输出端。
在此具体实施例中,第11个神经网络块由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层构成,第十四卷积层、第十五卷积层、第十六卷积层的卷积核大小均为1、步幅均为1,第十四卷积层的卷积核个数为256,第十五卷积层的卷积核个数为64,第十六卷积层的卷积核个数为1,第十四激活层、第十五激活层的激活函数均为ReLU,第十六激活层的激活函数为Sigmoid;第十四卷积层的输入端作为该神经网络块的输入端,第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图,第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图,第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图,第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图,第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图,第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图,第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图,第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图,第十六激活层的输出端作为该神经网络块的输出端。
在此具体实施例中,第1个注意力模型、第2个注意力模型、第3个注意力模型的结构相同,如图2所示,均由第十七卷积层、第一残差块、第二残差块、第五最大池化层、第三残差块、第六最大池化层、第四残差块、第七最大池化层、第五残差块、第六残差块、第一上采样层、第七残差块、第八残差块、第二上采样层、第九残差块、第十残差块、第三上采样层、神经网络块、第十一残差块构成,第十七卷积层的卷积核大小为1、卷积核个数为512、步幅为1,所有残差块均采用ResNet50中的残差块,所有残差块的输入通道数量和输出通道数量均为512个,第五最大池化层、第六最大池化层、第七最大池化层的池化窗口大小均为3、步幅均为2、填充均为1,第一上采样层、第二上采样层、第三上采样层的模式均为双线性插值、比例因子均为2;第十七卷积层的输入端作为该注意力模型的输入端,第一残差块的输入端接收第十七卷积层的输出端输出的所有特征图,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第五最大池化层的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输入端接收第五最大池化层的输出端输出的所有特征图,第六最大池化层的输入端接收第三残差块的输出端输出的所有特征图,第四残差块的输入端接收第六最大池化层的输出端输出的所有特征图,第七最大池化层的输入端接收第四残差块的输出端输出的所有特征图,第五残差块的输入端接收第七最大池化层的输出端输出的所有特征图,第六残差块的输入端接收第五残差块的输出端输出的所有特征图,第一上采样层的输入端接收第六残差块的输出端输出的所有特征图,第七残差块的输入端接收第四残差块的输出端输出的所有特征图,对第七残差块的输出端输出的所有特征图和第一上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第八残差块的输入端,第二上采样层的输入端接收第八残差块的输出端输出的所有特征图,第九残差块的输入端接收第三残差块的输出端输出的所有特征图,对第九残差块的输出端输出的所有特征图和第二上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十残差块的输入端,第三上采样层的输入端接收第十残差块的输出端输出的所有特征图,神经网络块的输入端接收第三上采样层的输出端输出的所有特征图,对第二残差块的输出端输出的所有特征图和神经网络块的输出端输出的所有特征图进行内积操作,再对内积操作后得到的所有特征图和第二残差块的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十一残差块的输入端,第十一残差块的输出端为该注意力模型的输出端。
在此具体实施例中,3个注意力模型中的神经网络块由依次设置的第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九激活层构成,第十七激活层、第十八激活层的激活函数均为ReLU,第十九激活层的激活函数为Sigmoid,第十八卷积层、第十九卷积层的卷积核大小均为1、卷积核个数均为512、步幅均为1;第十七批标准化层的输入端为神经网络块的输入端,第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图,第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图,第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图,第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图,第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图,第十九激活层的输入端接收第十九卷积层的输出端输出的所有特征图,第十九激活层的输出端为神经网络块的输出端。
为了验证本发明方法的可行性和有效性,进行实验。
在此,采用中国台湾省交通大学提供的三维人眼跟踪数据库(NCTU-3DFixation)和新加坡国立大学提供的NUS数据集来分析本发明方法的准确性和稳定性。这里,利用评估视觉显著提取方法的4个常用客观参量作为评价指标,即线性相关系数(LinearCorrelation Coefficient,CC)、Kullback-Leibler散度系数(Kullback-LeiblerDivergence,KLD)、AUC参数(the Area Under the receiver operating characteristicsCurve,AUC),标准化扫描路径显著性(Normalized Scanpath Saliency,NSS)。
利用本发明方法获取NCTU数据库和NUS数据集各自中的测试集中的每幅立体图像的视觉显著性预测图像,并将视觉显著性预测图像与对应的主观视觉显著图进行比较,CC、AUC和NSS值越高、KLD值越低说明本发明方法检测的视觉显著性预测图像与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的CC、KLD、AUC和NSS相关指标如表1所列。
表1利用本发明方法检测得到的视觉显著性预测图像与主观视觉显著图的准确性和稳定性
性能指标 CC KLD AUC(Borji) NSS
NCTU数据库 0.8495 0.2631 0.9118 2.3524
NUS数据集 0.5600 1.0927 0.8423 2.1552
从表1所列的数据可知,按本发明方法检测得到的视觉显著性预测图像与主观视觉显著图的准确性和稳定性是很好的,表明客观检测结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。

Claims (5)

1.一种基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤如下:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将所有原始的立体图像的左视点图像、深度图像及真实人眼注视图构成训练集,将训练集中的第n幅左视点图像记为
Figure FDA0002662395010000011
将训练集中与
Figure FDA0002662395010000012
对应的深度图像记为{Dn(x,y)},将训练集中与
Figure FDA0002662395010000013
对应的真实人眼注视图记为{Gn(x,y)};其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,
Figure FDA0002662395010000014
表示
Figure FDA0002662395010000015
中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,Gn(x,y)表示{Gn(x,y)}中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络采用双流模式来提取左视点图像和深度图像各自的分层特征,该卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和深度图输入层,隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,RGB特征提取框架由第1个至第5个神经网络块、第1个至第3个上采样层组成,深度特征提取框架由第6个至第10个神经网络块、第4个至第6个上采样层组成,特征融合框架由第1个至第3个注意力模型、第11个神经网络块、第7个上采样层组成;其中,第1个至第7个上采样层的模式均为双线性插值,第1个上采样层和第4个上采样层的比例因子均为2,第2个上采样层、第3个上采样层、第5个上采样层、第6个上采样层、第7个上采样层的比例因子均为4;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于RGB特征提取框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为
Figure FDA0002662395010000021
且高度为
Figure FDA0002662395010000022
的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
Figure FDA0002662395010000023
且高度为
Figure FDA0002662395010000024
的特征图,将输出的所有特征图构成的集合记为P2;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
Figure FDA0002662395010000025
且高度为
Figure FDA0002662395010000026
的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为
Figure FDA0002662395010000027
且高度为
Figure FDA0002662395010000028
的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅宽度为
Figure FDA0002662395010000029
且高度为
Figure FDA00026623950100000210
的特征图,将输出的所有特征图构成的集合记为P5;第1个上采样层的输入端接收P3中的所有特征图,第1个上采样层的输出端输出256幅宽度为
Figure FDA00026623950100000211
且高度为
Figure FDA00026623950100000212
的特征图,将输出的所有特征图构成的集合记为U1;第2个上采样层的输入端接收P4中的所有特征图,第2个上采样层的输出端输出512幅宽度为
Figure FDA00026623950100000213
且高度为
Figure FDA00026623950100000214
的特征图,将输出的所有特征图构成的集合记为U2;第3个上采样层的输入端接收P5中的所有特征图,第3个上采样层的输出端输出512幅宽度为
Figure FDA00026623950100000215
且高度为
Figure FDA00026623950100000216
的特征图,将输出的所有特征图构成的集合记为U3
对于深度特征提取框架,第6个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第6个神经网络块的输出端输出64幅宽度为
Figure FDA0002662395010000031
且高度为
Figure FDA0002662395010000032
的特征图,将输出的所有特征图构成的集合记为P6;第7个神经网络块的输入端接收P6中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
Figure FDA0002662395010000033
且高度为
Figure FDA0002662395010000034
的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P7中的所有特征图,第8个神经网络块的输出端输出256幅宽度为
Figure FDA0002662395010000035
且高度为
Figure FDA0002662395010000036
的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P8中的所有特征图,第9个神经网络块的输出端输出512幅宽度为
Figure FDA0002662395010000037
且高度为
Figure FDA0002662395010000038
的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P9中的所有特征图,第10个神经网络块的输出端输出512幅宽度为
Figure FDA0002662395010000039
且高度为
Figure FDA00026623950100000310
的特征图,将输出的所有特征图构成的集合记为P10;第4个上采样层的输入端接收P8中的所有特征图,第4个上采样层的输出端输出256幅宽度为
Figure FDA00026623950100000311
且高度为
Figure FDA00026623950100000312
的特征图,将输出的所有特征图构成的集合记为U4;第5个上采样层的输入端接收P9中的所有特征图,第5个上采样层的输出端输出512幅宽度为
Figure FDA00026623950100000313
且高度为
Figure FDA00026623950100000314
的特征图,将输出的所有特征图构成的集合记为U5;第6个上采样层的输入端接收P10中的所有特征图,第6个上采样层的输出端输出512幅宽度为
Figure FDA00026623950100000315
且高度为
Figure FDA00026623950100000316
的特征图,将输出的所有特征图构成的集合记为U6
对于特征融合框架,其接收U1中的所有特征图、U2中的所有特征图、U3中的所有特征图、U4中的所有特征图、U5中的所有特征图、U6中的所有特征图;对U1中的所有特征图和U4中的所有特征图进行Concatenate操作,Concatenate操作后输出512幅宽度为
Figure FDA00026623950100000317
且高度为
Figure FDA00026623950100000318
的特征图,将输出的所有特征图构成的集合记为C1;对U2中的所有特征图和U5中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
Figure FDA0002662395010000041
且高度为
Figure FDA0002662395010000042
的特征图,将输出的所有特征图构成的集合记为C2;对U3中的所有特征图和U6中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
Figure FDA0002662395010000043
且高度为
Figure FDA0002662395010000044
的特征图,将输出的所有特征图构成的集合记为C3;第1个注意力模型的输入端接收C1中的所有特征图,第1个注意力模型的输出端输出512幅宽度为
Figure FDA0002662395010000045
且高度为
Figure FDA0002662395010000046
的特征图,将输出的所有特征图构成的集合记为A1;第2个注意力模型的输入端接收C2中的所有特征图,第2个注意力模型的输出端输出512幅宽度为
Figure FDA0002662395010000047
且高度为
Figure FDA0002662395010000048
的特征图,将输出的所有特征图构成的集合记为A2;第3个注意力模型的输入端接收C3中的所有特征图,第3个注意力模型的输出端输出512幅宽度为
Figure FDA0002662395010000049
且高度为
Figure FDA00026623950100000410
的特征图,将输出的所有特征图构成的集合记为A3;对A1中的所有特征图、A2中的所有特征图、A3中的所有特征图进行Element-wise Summation操作,Element-wiseSummation操作后输出512幅宽度为
Figure FDA00026623950100000411
且高度为
Figure FDA00026623950100000412
的特征图,将输出的所有特征图构成的集合记为E1;第11个神经网络块的输入端接收E1中的所有特征图,第11个神经网络块的输出端输出一幅宽度为
Figure FDA00026623950100000413
且高度为
Figure FDA00026623950100000414
的特征图;第7个上采样层的输入端接收第11个神经网络块的输出端输出的特征图,第7个上采样层的输出端输出一幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第7个上采样层的输出端输出的特征图,其输出端输出一幅训练用左视点图像对应的视觉显著性图像;其中,视觉显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅左视点图像作为训练用左视点图像,并将训练集中每幅左视点图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅左视点图像对应的视觉显著性图像,将
Figure FDA00026623950100000415
对应的视觉显著性图像记为
Figure FDA0002662395010000051
其中,
Figure FDA0002662395010000052
表示
Figure FDA0002662395010000053
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅左视点图像对应的视觉显著性图像与对应的真实人眼注视图之间的损失函数值,将
Figure FDA0002662395010000054
与{Gn(x,y)}之间的损失函数值记为
Figure FDA0002662395010000055
采用均方误差函数和线性相关性系数函数联合作为损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤如下:
步骤2_1:令
Figure FDA0002662395010000056
表示待显著性检测的左视点图像,令
Figure FDA0002662395010000057
表示
Figure FDA0002662395010000058
对应的深度图像;其中,1≤x'≤W',1≤y'≤H',W'表示
Figure FDA0002662395010000059
的宽度,H'表示
Figure FDA00026623950100000510
的高度,
Figure FDA00026623950100000511
表示
Figure FDA00026623950100000512
中坐标位置为(x',y')的像素点的像素值,
Figure FDA00026623950100000513
表示
Figure FDA00026623950100000514
中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将
Figure FDA00026623950100000515
Figure FDA00026623950100000516
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure FDA00026623950100000517
对应的视觉显著性预测图像,记为
Figure FDA00026623950100000518
其中,
Figure FDA00026623950100000519
表示
Figure FDA00026623950100000520
中坐标位置为(x',y')的像素点的像素值。
2.根据权利要求1所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于所述的第1个神经网络块和所述的第6个神经网络块的结构相同,均由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第一最大池化层构成,第一卷积层和第二卷积层的卷积核大小均为3、卷积核个数均为64、步幅均为1、填充均为1,第一激活层和第二激活层的激活函数均为ReLU,第一最大池化层的池化窗口大小为2、步幅为2;第一卷积层的输入端作为该神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为该神经网络块的输出端;
所述的第2个神经网络块和所述的第7个神经网络块的结构相同,均由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层、第二最大池化层构成,第三卷积层和第四卷积层的卷积核大小均为3、卷积核个数均为128、步幅均为1、填充均为1,第三激活层和第四激活层的激活函数均为ReLU,第二最大池化层的池化窗口大小为2、步幅为2;第三卷积层的输入端作为该神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第二最大池化层的输入端接收第四激活层的输出端输出的所有特征图,第二最大池化层的输出端作为该神经网络块的输出端;
所述的第3个神经网络块和所述的第8个神经网络块的结构相同,均由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层、第三最大池化层构成,第五卷积层、第六卷积层、第七卷积层的卷积核大小均为3、卷积核个数均为256、步幅均为1、填充均为1,第五激活层、第六激活层、第七激活层的激活函数均为ReLU,第三最大池化层的池化窗口大小为2、步幅为2;第五卷积层的输入端作为该神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第三最大池化层的输入端接收第七激活层的输出端输出的所有特征图,第三最大池化层的输出端作为该神经网络块的输出端;
所述的第4个神经网络块和所述的第9个神经网络块的结构相同,均由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层、第四最大池化层构成,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第八激活层、第九激活层、第十激活层的激活函数均为ReLU,第四最大池化层的池化窗口大小为2、步幅为2;第八卷积层的输入端作为该神经网络块的输入端,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第四最大池化层的输入端接收第十激活层的输出端输出的所有特征图,第四最大池化层的输出端作为该神经网络块的输出端;
所述的第5个神经网络块和所述的第10个神经网络块的结构相同,均由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层构成,第十一卷积层、第十二卷积层、第十三卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第十一激活层、第十二激活层、第十三激活层的激活函数均为ReLU;第十一卷积层的输入端作为该神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端作为该神经网络块的输出端。
3.根据权利要求1或2所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于所述的第11个神经网络块由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层构成,第十四卷积层、第十五卷积层、第十六卷积层的卷积核大小均为1、步幅均为1,第十四卷积层的卷积核个数为256,第十五卷积层的卷积核个数为64,第十六卷积层的卷积核个数为1,第十四激活层、第十五激活层的激活函数均为ReLU,第十六激活层的激活函数为Sigmoid;第十四卷积层的输入端作为该神经网络块的输入端,第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图,第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图,第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图,第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图,第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图,第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图,第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图,第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图,第十六激活层的输出端作为该神经网络块的输出端。
4.根据权利要求3所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于所述的第1个注意力模型、所述的第2个注意力模型、所述的第3个注意力模型的结构相同,均由第十七卷积层、第一残差块、第二残差块、第五最大池化层、第三残差块、第六最大池化层、第四残差块、第七最大池化层、第五残差块、第六残差块、第一上采样层、第七残差块、第八残差块、第二上采样层、第九残差块、第十残差块、第三上采样层、神经网络块、第十一残差块构成,第十七卷积层的卷积核大小为1、卷积核个数为512、步幅为1,所有残差块均采用ResNet50中的残差块,所有残差块的输入通道数量和输出通道数量均为512个,第五最大池化层、第六最大池化层、第七最大池化层的池化窗口大小均为3、步幅均为2、填充均为1,第一上采样层、第二上采样层、第三上采样层的模式均为双线性插值、比例因子均为2;第十七卷积层的输入端作为该注意力模型的输入端,第一残差块的输入端接收第十七卷积层的输出端输出的所有特征图,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第五最大池化层的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输入端接收第五最大池化层的输出端输出的所有特征图,第六最大池化层的输入端接收第三残差块的输出端输出的所有特征图,第四残差块的输入端接收第六最大池化层的输出端输出的所有特征图,第七最大池化层的输入端接收第四残差块的输出端输出的所有特征图,第五残差块的输入端接收第七最大池化层的输出端输出的所有特征图,第六残差块的输入端接收第五残差块的输出端输出的所有特征图,第一上采样层的输入端接收第六残差块的输出端输出的所有特征图,第七残差块的输入端接收第四残差块的输出端输出的所有特征图,对第七残差块的输出端输出的所有特征图和第一上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第八残差块的输入端,第二上采样层的输入端接收第八残差块的输出端输出的所有特征图,第九残差块的输入端接收第三残差块的输出端输出的所有特征图,对第九残差块的输出端输出的所有特征图和第二上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十残差块的输入端,第三上采样层的输入端接收第十残差块的输出端输出的所有特征图,神经网络块的输入端接收第三上采样层的输出端输出的所有特征图,对第二残差块的输出端输出的所有特征图和神经网络块的输出端输出的所有特征图进行内积操作,再对内积操作后得到的所有特征图和第二残差块的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十一残差块的输入端,第十一残差块的输出端为该注意力模型的输出端。
5.根据权利要求4所述的基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于3个注意力模型中的所述的神经网络块由依次设置的第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九激活层构成,第十七激活层、第十八激活层的激活函数均为ReLU,第十九激活层的激活函数为Sigmoid,第十八卷积层、第十九卷积层的卷积核大小均为1、卷积核个数均为512、步幅均为1;第十七批标准化层的输入端为神经网络块的输入端,第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图,第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图,第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图,第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图,第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图,第十九激活层的输入端接收第十九卷积层的输出端输出的所有特征图,第十九激活层的输出端为神经网络块的输出端。
CN201910230018.3A 2019-03-26 2019-03-26 基于注意力模型的rgb-d图像视觉显著性检测方法 Active CN110059728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910230018.3A CN110059728B (zh) 2019-03-26 2019-03-26 基于注意力模型的rgb-d图像视觉显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910230018.3A CN110059728B (zh) 2019-03-26 2019-03-26 基于注意力模型的rgb-d图像视觉显著性检测方法

Publications (2)

Publication Number Publication Date
CN110059728A CN110059728A (zh) 2019-07-26
CN110059728B true CN110059728B (zh) 2020-11-13

Family

ID=67315961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910230018.3A Active CN110059728B (zh) 2019-03-26 2019-03-26 基于注意力模型的rgb-d图像视觉显著性检测方法

Country Status (1)

Country Link
CN (1) CN110059728B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570402B (zh) * 2019-08-19 2021-11-19 浙江科技学院 基于边界感知神经网络的双目显著物体检测方法
CN110782458B (zh) * 2019-10-23 2022-05-31 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462B (zh) * 2019-10-30 2022-08-09 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111031312B (zh) * 2019-12-16 2022-02-25 山东浪潮科学研究院有限公司 基于网络实现注意力机制的图像压缩方法
CN113010735B (zh) * 2019-12-20 2024-03-08 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN111242173B (zh) * 2019-12-31 2021-03-02 四川大学 一种基于孪生网络的rgbd显著物体检测方法
CN112819824B (zh) * 2021-03-03 2024-04-26 科为升视觉技术(苏州)有限公司 视觉检测系统的神经网络、及包含它的检测系统和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952251A (zh) * 2017-02-28 2017-07-14 华南理工大学 一种基于吸附模型的图像显著性检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699151B2 (en) * 2016-06-03 2020-06-30 Miovision Technologies Incorporated System and method for performing saliency detection using deep active contours
CN106778687B (zh) * 2017-01-16 2019-12-17 大连理工大学 基于局部评估和全局优化的注视点检测方法
CN107944415A (zh) * 2017-12-06 2018-04-20 董伟 一种基于深度学习算法的人眼注意力检测方法
CN109501807B (zh) * 2018-08-15 2021-02-26 初速度(苏州)科技有限公司 自动驾驶注意力检测系统及方法
CN109376611B (zh) * 2018-09-27 2022-05-20 方玉明 一种基于3d卷积神经网络的视频显著性检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952251A (zh) * 2017-02-28 2017-07-14 华南理工大学 一种基于吸附模型的图像显著性检测方法

Also Published As

Publication number Publication date
CN110059728A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN107977932B (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
EP4109392A1 (en) Image processing method and image processing device
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111738344B (zh) 一种基于多尺度融合的快速目标检测方法
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN109872305B (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
US11615612B2 (en) Systems and methods for image feature extraction
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN113066065B (zh) 无参考图像质量检测方法、系统、终端及介质
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN112580458A (zh) 人脸表情识别方法、装置、设备及存储介质
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221021

Address after: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee after: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Address before: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou

Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221213

Address after: Room 403-4, No. 370, Chengyi Street, Phase III, Torch High tech Zone, Xiamen, Fujian 361000

Patentee after: Xiamen Lezhengxin Technology Co.,Ltd.

Address before: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee before: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.