基于注意力模型的RGB-D图像视觉显著性检测方法
技术领域
本发明涉及一种视觉显著性检测技术,尤其是涉及一种基于注意力模型的RGB-D图像视觉显著性检测方法。
背景技术
显著性检测是指检测出在场景中突出最吸引人的物体或目标,由于显著性检测已在计算机视觉和机器人视觉中广泛应用,如图像压缩和视频分类等,因此其一直是一项基础性工作。近年来,随着Kinect、RealSense等RGB-D传感器的出现,深度信息作为附加信息已被逐渐采用,以提高显著性检测的性能。与RGB数据相比,深度数据提供了更多的形状信息、清晰的边缘,并且对光照条件的变化具有较强的鲁棒性。用于显著性检测的成对RGB图像与深度图像之间存在着互补关系。人们很容易得出这样的结论,在大量具有挑战性的场景中,显著目标和背景区域的外观过于相似而无法区分,配对的深度数据能够有效地辅助RGB数据进行显著性检测,为了进行RGB-D显著性检测,增加的深度数据带来两个基本问题:一方面,如何考虑深度数据的特征,合理地对深度数据的显著性检测进行建模;另一方面,如何利用一个最佳的方法结合RGB数据和深度数据。
显著性检测方法一般分为自顶向下的方法和自底向上的方法。自顶向下的方法依赖于高级显著性先验来识别显著性区域;而自底向上的方法是数据驱动的、独立于任务的,其目的是通过将局部或全局上下文中每个区域的显著性与低级特征进行对比来度量显著性值。为了利用深度数据进行显著性检测,传统方法通常直接使用原始深度值,或者从深度值进一步探索手工制作的特性,这并不超出对低层特性的依赖。事实上,低层特征无法捕捉到针对显著性检测的高层推理,并且在应用于不同场景时缺乏泛化能力。此外,以往大多数的RGB-D显著性检测模型都是基于RGB显著性检测框架的,尽管它们在使用深度数据方面存在差异。更具体地说,深度数据要么被简单地通过特征提取在网络末端进行融合,要么被视为权重,用于正则化RGB数据的显著性值。然而,这两种解决方案都过于简单,无法从数据分布和结构上对深度模态特性进行建模,也无法捕捉到RGB数据与深度数据之间的互补关系。
最近,人们见证了深度学习技术在大范围的计算机视觉和机器人视觉任务中的成功,这得益于其强大的表征能力和特征关联建模能力。人们普遍认为,深度学习在捕捉诸如独特性和客观性等高层次表征方面具有优势。高阶表示对显著性检测具有重要意义,可以有效地抑制背景干扰对显著性目标的定位。此外,深度学习成功的另一个原因是,深度学习体系结构中的每一层都有很强的能力去选择和融合前一层的特性。出于这些深度学习的优点,深度学习是一种很合理的选择,尤其是卷积神经网络(CNN)。
利用卷积神经网络进行RGB-D显著性检测需要考虑两个关键问题:(1)如何设计显著性检测网络;(2)如何设计融合架构,有效地捕获RGB与深度模态之间的互补信息。因此,鉴于以上两个关键问题,有必要对RGB-D图像视觉显著性检测技术进行进一步研究,以提高检测准确性。
发明内容
本发明所要解决的技术问题是提供一种基于注意力模型的RGB-D图像视觉显著性检测方法,其很好地利用了RGB与深度模态之间的互补关系,提高了检测准确性。
本发明解决上述技术问题所采用的技术方案为:一种基于注意力模型的RGB-D图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤如下:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将所有原始的立体图像的左视点图像、深度图像及真实人眼注视图构成训练集,将训练集中的第n幅左视点图像记为
将训练集中与
对应的深度图像记为{D
n(x,y)},将训练集中与
对应的真实人眼注视图记为{G
n(x,y)};其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,
表示
中坐标位置为(x,y)的像素点的像素值,D
n(x,y)表示{D
n(x,y)}中坐标位置为(x,y)的像素点的像素值,G
n(x,y)表示{G
n(x,y)}中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络采用双流模式来提取左视点图像和深度图像各自的分层特征,该卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和深度图输入层,隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,RGB特征提取框架由第1个至第5个神经网络块、第1个至第3个上采样层组成,深度特征提取框架由第6个至第10个神经网络块、第4个至第6个上采样层组成,特征融合框架由第1个至第3个注意力模型、第11个神经网络块、第7个上采样层组成;其中,第1个至第7个上采样层的模式均为双线性插值,第1个上采样层和第4个上采样层的比例因子均为2,第2个上采样层、第3个上采样层、第5个上采样层、第6个上采样层、第7个上采样层的比例因子均为4;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于RGB特征提取框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
1;第2个神经网络块的输入端接收P
1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
2;第3个神经网络块的输入端接收P
2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
3;第4个神经网络块的输入端接收P
3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
4;第5个神经网络块的输入端接收P
4中的所有特征图,第5个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
5;第1个上采样层的输入端接收P
3中的所有特征图,第1个上采样层的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
1;第2个上采样层的输入端接收P
4中的所有特征图,第2个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
2;第3个上采样层的输入端接收P
5中的所有特征图,第3个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
3;
对于深度特征提取框架,第6个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第6个神经网络块的输出端输出64幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
6;第7个神经网络块的输入端接收P
6中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
7;第8个神经网络块的输入端接收P
7中的所有特征图,第8个神经网络块的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
8;第9个神经网络块的输入端接收P
8中的所有特征图,第9个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
9;第10个神经网络块的输入端接收P
9中的所有特征图,第10个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
10;第4个上采样层的输入端接收P
8中的所有特征图,第4个上采样层的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
4;第5个上采样层的输入端接收P
9中的所有特征图,第5个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
5;第6个上采样层的输入端接收P
10中的所有特征图,第6个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
6;
对于特征融合框架,其接收U
1中的所有特征图、U
2中的所有特征图、U
3中的所有特征图、U
4中的所有特征图、U
5中的所有特征图、U
6中的所有特征图;对U
1中的所有特征图和U
4中的所有特征图进行Concatenate操作,Concatenate操作后输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为C
1;对U
2中的所有特征图和U
5中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为C
2;对U
3中的所有特征图和U
6中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为C
3;第1个注意力模型的输入端接收C
1中的所有特征图,第1个注意力模型的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为A
1;第2个注意力模型的输入端接收C
2中的所有特征图,第2个注意力模型的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为A
2;第3个注意力模型的输入端接收C
3中的所有特征图,第3个注意力模型的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为A
3;对A
1中的所有特征图、A
2中的所有特征图、A
3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为E
1;第11个神经网络块的输入端接收E
1中的所有特征图,第11个神经网络块的输出端输出一幅宽度为
且高度为
的特征图;第7个上采样层的输入端接收第11个神经网络块的输出端输出的特征图,第7个上采样层的输出端输出一幅宽度为W且高度为H的特征图;
对于输出层,其输入端接收第7个上采样层的输出端输出的特征图,其输出端输出一幅训练用左视点图像对应的视觉显著性图像;其中,视觉显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅左视点图像作为训练用左视点图像,并将训练集中每幅左视点图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅左视点图像对应的视觉显著性图像,将
对应的视觉显著性图像记为
其中,
表示
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅左视点图像对应的视觉显著性图像与对应的真实人眼注视图之间的损失函数值,将
与
之间的损失函数值记为
采用均方误差函数和线性相关性系数函数联合作为损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤如下:
步骤2_1:令
表示待显著性检测的左视点图像,令
表示
对应的深度图像;其中,1≤x'≤W',1≤y'≤H',W'表示
的宽度,H'表示
的高度,
表示
中坐标位置为(x',y')的像素点的像素值,
表示
中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将
和
输入到卷积神经网络训练模型中,并利用W
best和b
best进行预测,得到
对应的视觉显著性预测图像,记为
其中,
表示
中坐标位置为(x',y')的像素点的像素值。
所述的第1个神经网络块和所述的第6个神经网络块的结构相同,均由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第一最大池化层构成,第一卷积层和第二卷积层的卷积核大小均为3、卷积核个数均为64、步幅均为1、填充均为1,第一激活层和第二激活层的激活函数均为ReLU,第一最大池化层的池化窗口大小为2、步幅为2;第一卷积层的输入端作为该神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为该神经网络块的输出端;
所述的第2个神经网络块和所述的第7个神经网络块的结构相同,均由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层、第二最大池化层构成,第三卷积层和第四卷积层的卷积核大小均为3、卷积核个数均为128、步幅均为1、填充均为1,第三激活层和第四激活层的激活函数均为ReLU,第二最大池化层的池化窗口大小为2、步幅为2;第三卷积层的输入端作为该神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第二最大池化层的输入端接收第四激活层的输出端输出的所有特征图,第二最大池化层的输出端作为该神经网络块的输出端;
所述的第3个神经网络块和所述的第8个神经网络块的结构相同,均由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层、第三最大池化层构成,第五卷积层、第六卷积层、第七卷积层的卷积核大小均为3、卷积核个数均为256、步幅均为1、填充均为1,第五激活层、第六激活层、第七激活层的激活函数均为ReLU,第三最大池化层的池化窗口大小为2、步幅为2;第五卷积层的输入端作为该神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第三最大池化层的输入端接收第七激活层的输出端输出的所有特征图,第三最大池化层的输出端作为该神经网络块的输出端;
所述的第4个神经网络块和所述的第9个神经网络块的结构相同,均由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层、第四最大池化层构成,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第八激活层、第九激活层、第十激活层的激活函数均为ReLU,第四最大池化层的池化窗口大小为2、步幅为2;第八卷积层的输入端作为该神经网络块的输入端,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第四最大池化层的输入端接收第十激活层的输出端输出的所有特征图,第四最大池化层的输出端作为该神经网络块的输出端;
所述的第5个神经网络块和所述的第10个神经网络块的结构相同,均由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层构成,第十一卷积层、第十二卷积层、第十三卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第十一激活层、第十二激活层、第十三激活层的激活函数均为ReLU;第十一卷积层的输入端作为该神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端作为该神经网络块的输出端。
所述的第11个神经网络块由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层构成,第十四卷积层、第十五卷积层、第十六卷积层的卷积核大小均为1、步幅均为1,第十四卷积层的卷积核个数为256,第十五卷积层的卷积核个数为64,第十六卷积层的卷积核个数为1,第十四激活层、第十五激活层的激活函数均为ReLU,第十六激活层的激活函数为Sigmoid;第十四卷积层的输入端作为该神经网络块的输入端,第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图,第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图,第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图,第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图,第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图,第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图,第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图,第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图,第十六激活层的输出端作为该神经网络块的输出端。
所述的第1个注意力模型、所述的第2个注意力模型、所述的第3个注意力模型的结构相同,均由第十七卷积层、第一残差块、第二残差块、第五最大池化层、第三残差块、第六最大池化层、第四残差块、第七最大池化层、第五残差块、第六残差块、第一上采样层、第七残差块、第八残差块、第二上采样层、第九残差块、第十残差块、第三上采样层、神经网络块、第十一残差块构成,第十七卷积层的卷积核大小为1、卷积核个数为512、步幅为1,所有残差块均采用ResNet50中的残差块,所有残差块的输入通道数量和输出通道数量均为512个,第五最大池化层、第六最大池化层、第七最大池化层的池化窗口大小均为3、步幅均为2、填充均为1,第一上采样层、第二上采样层、第三上采样层的模式均为双线性插值、比例因子均为2;第十七卷积层的输入端作为该注意力模型的输入端,第一残差块的输入端接收第十七卷积层的输出端输出的所有特征图,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第五最大池化层的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输入端接收第五最大池化层的输出端输出的所有特征图,第六最大池化层的输入端接收第三残差块的输出端输出的所有特征图,第四残差块的输入端接收第六最大池化层的输出端输出的所有特征图,第七最大池化层的输入端接收第四残差块的输出端输出的所有特征图,第五残差块的输入端接收第七最大池化层的输出端输出的所有特征图,第六残差块的输入端接收第五残差块的输出端输出的所有特征图,第一上采样层的输入端接收第六残差块的输出端输出的所有特征图,第七残差块的输入端接收第四残差块的输出端输出的所有特征图,对第七残差块的输出端输出的所有特征图和第一上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第八残差块的输入端,第二上采样层的输入端接收第八残差块的输出端输出的所有特征图,第九残差块的输入端接收第三残差块的输出端输出的所有特征图,对第九残差块的输出端输出的所有特征图和第二上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十残差块的输入端,第三上采样层的输入端接收第十残差块的输出端输出的所有特征图,神经网络块的输入端接收第三上采样层的输出端输出的所有特征图,对第二残差块的输出端输出的所有特征图和神经网络块的输出端输出的所有特征图进行内积操作,再对内积操作后得到的所有特征图和第二残差块的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十一残差块的输入端,第十一残差块的输出端为该注意力模型的输出端。
所述的神经网络块由依次设置的第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九激活层构成,第十七激活层、第十八激活层的激活函数均为ReLU,第十九激活层的激活函数为Sigmoid,第十八卷积层、第十九卷积层的卷积核大小均为1、卷积核个数均为512、步幅均为1;第十七批标准化层的输入端为神经网络块的输入端,第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图,第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图,第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图,第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图,第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图,第十九激活层的输入端接收第十九卷积层的输出端输出的所有特征图,第十九激活层的输出端为神经网络块的输出端。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络的隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,加载了预训练模型VGG16的参数来学习多级RGB图相关的特征和深度图相关的特征,不仅极大地缩短了训练的时间和减少了计算成本,而且还提高了训练得到的卷积神经网络训练模型预测的准确性。
2)本发明方法构建的卷积神经网络中引入了三个注意力模型,注意力模型对提取的RGB图相关的特征和深度图相关的特征进行自适应特征细化,这有利于训练得到的卷积神经网络训练模型更加关注图像中的显著性物体;并且注意力模型可以与任何前馈模型一起以端到端的方式进行训练。
3)本发明方法构建的卷积神经网络中的特征融合框架融合了RGB图相关的特征和深度图相关的特征,使得训练过程中不仅包含了从局部到全局,从低级到高级的RGB图像和深度图像这两种特征,而且充分利用了RGB与深度模态之间的互补关系,并在融合的RGB-D高阶表示的基础上进行最终显著性预测,使得预测的结果更加接近人眼注视图。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构框图;
图2为本发明方法构建的卷积神经网络中的注意力模型的组成结构框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于注意力模型的RGB-D图像视觉显著性检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤如下:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将所有原始的立体图像的左视点图像、深度图像及真实人眼注视图构成训练集,将训练集中的第n幅左视点图像记为
将训练集中与
对应的深度图像记为{D
n(x,y)},将训练集中与
对应的真实人眼注视图记为{G
n(x,y)};其中,N为正整数,N≥300,如取N=600,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,
表示
中坐标位置为(x,y)的像素点的像素值,D
n(x,y)表示{D
n(x,y)}中坐标位置为(x,y)的像素点的像素值,G
n(x,y)表示{G
n(x,y)}中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建卷积神经网络:如图1所示,该卷积神经网络采用双流模式来提取左视点图像和深度图像各自的分层特征,该卷积神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和深度图输入层,隐层包括RGB特征提取框架、深度特征提取框架和特征融合框架,RGB特征提取框架由第1个至第5个神经网络块、第1个至第3个上采样层组成,深度特征提取框架由第6个至第10个神经网络块、第4个至第6个上采样层组成,特征融合框架由第1个至第3个注意力模型、第11个神经网络块、第7个上采样层组成;其中,第1个至第7个上采样层的模式均为双线性插值,第1个上采样层和第4个上采样层的比例因子均为2,第2个上采样层、第3个上采样层、第5个上采样层、第6个上采样层、第7个上采样层的比例因子均为4。
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H。
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H。
对于RGB特征提取框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
1;第2个神经网络块的输入端接收P
1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
2;第3个神经网络块的输入端接收P
2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
3;第4个神经网络块的输入端接收P
3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
4;第5个神经网络块的输入端接收P
4中的所有特征图,第5个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
5;第1个上采样层的输入端接收P
3中的所有特征图,第1个上采样层的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
1;第2个上采样层的输入端接收P
4中的所有特征图,第2个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
2;第3个上采样层的输入端接收P
5中的所有特征图,第3个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
3。
对于深度特征提取框架,第6个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第6个神经网络块的输出端输出64幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
6;第7个神经网络块的输入端接收P
6中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
7;第8个神经网络块的输入端接收P
7中的所有特征图,第8个神经网络块的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
8;第9个神经网络块的输入端接收P
8中的所有特征图,第9个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
9;第10个神经网络块的输入端接收P
9中的所有特征图,第10个神经网络块的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为P
10;第4个上采样层的输入端接收P
8中的所有特征图,第4个上采样层的输出端输出256幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
4;第5个上采样层的输入端接收P
9中的所有特征图,第5个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
5;第6个上采样层的输入端接收P
10中的所有特征图,第6个上采样层的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为U
6。
对于特征融合框架,其接收U
1中的所有特征图、U
2中的所有特征图、U
3中的所有特征图、U
4中的所有特征图、U
5中的所有特征图、U
6中的所有特征图;对U
1中的所有特征图和U
4中的所有特征图进行Concatenate操作,Concatenate操作后输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为C
1;对U
2中的所有特征图和U
5中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为C
2;对U
3中的所有特征图和U
6中的所有特征图进行Concatenate操作,Concatenate操作后输出1024幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为C
3;第1个注意力模型的输入端接收C
1中的所有特征图,第1个注意力模型的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为A
1;第2个注意力模型的输入端接收C
2中的所有特征图,第2个注意力模型的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为A
2;第3个注意力模型的输入端接收C
3中的所有特征图,第3个注意力模型的输出端输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为A
3;对A
1中的所有特征图、A
2中的所有特征图、A
3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
且高度为
的特征图,将输出的所有特征图构成的集合记为E
1;第11个神经网络块的输入端接收E
1中的所有特征图,第11个神经网络块的输出端输出一幅宽度为
且高度为
的特征图;第7个上采样层的输入端接收第11个神经网络块的输出端输出的特征图,第7个上采样层的输出端输出一幅宽度为W且高度为H的特征图。
对于输出层,其输入端接收第7个上采样层的输出端输出的特征图,其输出端输出一幅训练用左视点图像对应的视觉显著性图像;其中,视觉显著性图像的宽度为W且高度为H。
步骤1_3:将训练集中的每幅左视点图像作为训练用左视点图像,并将训练集中每幅左视点图像对应的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅左视点图像对应的视觉显著性图像,将
对应的视觉显著性图像记为
其中,
表示
中坐标位置为(x,y)的像素点的像素值。
步骤1_4:计算训练集中的每幅左视点图像对应的视觉显著性图像与对应的真实人眼注视图之间的损失函数值,将
与{G
n(x,y)}之间的损失函数值记为
采用均方误差函数和线性相关性系数函数联合作为损失函数获得,即将均方误差函数与线性相关性系数函数做加法,两者系数均为1。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,如取V=50。
所述的测试阶段过程的具体步骤如下:
步骤2_1:令
表示待显著性检测的左视点图像,令
表示
对应的深度图像;其中,1≤x'≤W',1≤y'≤H',W'表示
的宽度,H'表示
的高度,
表示
中坐标位置为(x',y')的像素点的像素值,
表示
中坐标位置为(x',y')的像素点的像素值。
步骤2_2:将
和
输入到卷积神经网络训练模型中,并利用W
best和b
best进行预测,得到
对应的视觉显著性预测图像,记为
其中,
表示
中坐标位置为(x',y')的像素点的像素值。
在此具体实施例中,第1个神经网络块和第6个神经网络块的结构相同,均由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第一最大池化层构成,第一卷积层和第二卷积层的卷积核大小均为3、卷积核个数均为64、步幅均为1、填充均为1,第一激活层和第二激活层的激活函数均为ReLU,第一最大池化层的池化窗口大小为2、步幅为2;第一卷积层的输入端作为该神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第一最大池化层的输入端接收第二激活层的输出端输出的所有特征图,第一最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第2个神经网络块和第7个神经网络块的结构相同,均由依次设置的第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层、第二最大池化层构成,第三卷积层和第四卷积层的卷积核大小均为3、卷积核个数均为128、步幅均为1、填充均为1,第三激活层和第四激活层的激活函数均为ReLU,第二最大池化层的池化窗口大小为2、步幅为2;第三卷积层的输入端作为该神经网络块的输入端,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第二最大池化层的输入端接收第四激活层的输出端输出的所有特征图,第二最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第3个神经网络块和第8个神经网络块的结构相同,均由依次设置的第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层、第三最大池化层构成,第五卷积层、第六卷积层、第七卷积层的卷积核大小均为3、卷积核个数均为256、步幅均为1、填充均为1,第五激活层、第六激活层、第七激活层的激活函数均为ReLU,第三最大池化层的池化窗口大小为2、步幅为2;第五卷积层的输入端作为该神经网络块的输入端,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第三最大池化层的输入端接收第七激活层的输出端输出的所有特征图,第三最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第4个神经网络块和第9个神经网络块的结构相同,均由依次设置的第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层、第四最大池化层构成,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第八激活层、第九激活层、第十激活层的激活函数均为ReLU,第四最大池化层的池化窗口大小为2、步幅为2;第八卷积层的输入端作为该神经网络块的输入端,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第四最大池化层的输入端接收第十激活层的输出端输出的所有特征图,第四最大池化层的输出端作为该神经网络块的输出端。
在此具体实施例中,第5个神经网络块和第10个神经网络块的结构相同,均由依次设置的第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层构成,第十一卷积层、第十二卷积层、第十三卷积层的卷积核大小均为3、卷积核个数均为512、步幅均为1、填充均为1,第十一激活层、第十二激活层、第十三激活层的激活函数均为ReLU;第十一卷积层的输入端作为该神经网络块的输入端,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端作为该神经网络块的输出端。
在此具体实施例中,第11个神经网络块由依次设置的第十四卷积层、第十四批标准化层、第十四激活层、第十五卷积层、第十五批标准化层、第十五激活层、第十六卷积层、第十六批标准化层、第十六激活层构成,第十四卷积层、第十五卷积层、第十六卷积层的卷积核大小均为1、步幅均为1,第十四卷积层的卷积核个数为256,第十五卷积层的卷积核个数为64,第十六卷积层的卷积核个数为1,第十四激活层、第十五激活层的激活函数均为ReLU,第十六激活层的激活函数为Sigmoid;第十四卷积层的输入端作为该神经网络块的输入端,第十四批标准化层的输入端接收第十四卷积层的输出端输出的所有特征图,第十四激活层的输入端接收第十四批标准化层的输出端输出的所有特征图,第十五卷积层的输入端接收第十四激活层的输出端输出的所有特征图,第十五批标准化层的输入端接收第十五卷积层的输出端输出的所有特征图,第十五激活层的输入端接收第十五批标准化层的输出端输出的所有特征图,第十六卷积层的输入端接收第十五激活层的输出端输出的所有特征图,第十六批标准化层的输入端接收第十六卷积层的输出端输出的所有特征图,第十六激活层的输入端接收第十六批标准化层的输出端输出的所有特征图,第十六激活层的输出端作为该神经网络块的输出端。
在此具体实施例中,第1个注意力模型、第2个注意力模型、第3个注意力模型的结构相同,如图2所示,均由第十七卷积层、第一残差块、第二残差块、第五最大池化层、第三残差块、第六最大池化层、第四残差块、第七最大池化层、第五残差块、第六残差块、第一上采样层、第七残差块、第八残差块、第二上采样层、第九残差块、第十残差块、第三上采样层、神经网络块、第十一残差块构成,第十七卷积层的卷积核大小为1、卷积核个数为512、步幅为1,所有残差块均采用ResNet50中的残差块,所有残差块的输入通道数量和输出通道数量均为512个,第五最大池化层、第六最大池化层、第七最大池化层的池化窗口大小均为3、步幅均为2、填充均为1,第一上采样层、第二上采样层、第三上采样层的模式均为双线性插值、比例因子均为2;第十七卷积层的输入端作为该注意力模型的输入端,第一残差块的输入端接收第十七卷积层的输出端输出的所有特征图,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第五最大池化层的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输入端接收第五最大池化层的输出端输出的所有特征图,第六最大池化层的输入端接收第三残差块的输出端输出的所有特征图,第四残差块的输入端接收第六最大池化层的输出端输出的所有特征图,第七最大池化层的输入端接收第四残差块的输出端输出的所有特征图,第五残差块的输入端接收第七最大池化层的输出端输出的所有特征图,第六残差块的输入端接收第五残差块的输出端输出的所有特征图,第一上采样层的输入端接收第六残差块的输出端输出的所有特征图,第七残差块的输入端接收第四残差块的输出端输出的所有特征图,对第七残差块的输出端输出的所有特征图和第一上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第八残差块的输入端,第二上采样层的输入端接收第八残差块的输出端输出的所有特征图,第九残差块的输入端接收第三残差块的输出端输出的所有特征图,对第九残差块的输出端输出的所有特征图和第二上采样层的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十残差块的输入端,第三上采样层的输入端接收第十残差块的输出端输出的所有特征图,神经网络块的输入端接收第三上采样层的输出端输出的所有特征图,对第二残差块的输出端输出的所有特征图和神经网络块的输出端输出的所有特征图进行内积操作,再对内积操作后得到的所有特征图和第二残差块的输出端输出的所有特征图进行Element-wise Summation操作,并将Element-wise Summation操作后得到的所有特征图输入到第十一残差块的输入端,第十一残差块的输出端为该注意力模型的输出端。
在此具体实施例中,3个注意力模型中的神经网络块由依次设置的第十七批标准化层、第十七激活层、第十八卷积层、第十八批标准化层、第十八激活层、第十九卷积层、第十九激活层构成,第十七激活层、第十八激活层的激活函数均为ReLU,第十九激活层的激活函数为Sigmoid,第十八卷积层、第十九卷积层的卷积核大小均为1、卷积核个数均为512、步幅均为1;第十七批标准化层的输入端为神经网络块的输入端,第十七激活层的输入端接收第十七批标准化层的输出端输出的所有特征图,第十八卷积层的输入端接收第十七激活层的输出端输出的所有特征图,第十八批标准化层的输入端接收第十八卷积层的输出端输出的所有特征图,第十八激活层的输入端接收第十八批标准化层的输出端输出的所有特征图,第十九卷积层的输入端接收第十八激活层的输出端输出的所有特征图,第十九激活层的输入端接收第十九卷积层的输出端输出的所有特征图,第十九激活层的输出端为神经网络块的输出端。
为了验证本发明方法的可行性和有效性,进行实验。
在此,采用中国台湾省交通大学提供的三维人眼跟踪数据库(NCTU-3DFixation)和新加坡国立大学提供的NUS数据集来分析本发明方法的准确性和稳定性。这里,利用评估视觉显著提取方法的4个常用客观参量作为评价指标,即线性相关系数(LinearCorrelation Coefficient,CC)、Kullback-Leibler散度系数(Kullback-LeiblerDivergence,KLD)、AUC参数(the Area Under the receiver operating characteristicsCurve,AUC),标准化扫描路径显著性(Normalized Scanpath Saliency,NSS)。
利用本发明方法获取NCTU数据库和NUS数据集各自中的测试集中的每幅立体图像的视觉显著性预测图像,并将视觉显著性预测图像与对应的主观视觉显著图进行比较,CC、AUC和NSS值越高、KLD值越低说明本发明方法检测的视觉显著性预测图像与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的CC、KLD、AUC和NSS相关指标如表1所列。
表1利用本发明方法检测得到的视觉显著性预测图像与主观视觉显著图的准确性和稳定性
性能指标 |
CC |
KLD |
AUC(Borji) |
NSS |
NCTU数据库 |
0.8495 |
0.2631 |
0.9118 |
2.3524 |
NUS数据集 |
0.5600 |
1.0927 |
0.8423 |
2.1552 |
从表1所列的数据可知,按本发明方法检测得到的视觉显著性预测图像与主观视觉显著图的准确性和稳定性是很好的,表明客观检测结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。