CN110210492B

CN110210492B - 一种基于深度学习的立体图像视觉显著性检测方法

Info

Publication number: CN110210492B
Application number: CN201910349084.2A
Authority: CN
Inventors: 周武杰; 吕营; 雷景生; 张伟; 何成; 王海江
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Changsha Shengtang Technology Co ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2020-12-01
Anticipated expiration: 2039-04-28
Also published as: CN110210492A

Abstract

本发明公开了一种基于深度学习的立体图像视觉显著性检测方法，其构建卷积神经网络，包含输入层、隐层、输出层，输入层包括RGB图输入层和深度图输入层，隐层包括编码框架、中间层框架和解码框架，编码框架由RGB图通道和深度图通道组成；将训练集中的每幅立体图像的左视点图像和深度图像输入到卷积神经网络中进行训练，得到训练集中的每幅立体图像的显著性图像；计算训练集中的每幅立体图像的显著性图像与真实人眼注视图像之间的损失函数值，重复执行多次后得到卷积神经网络训练模型；待测试的立体图像的左视点图像和深度图像输入到卷积神经网络训练模型中，预测得到显著性预测图像；优点是其具有较高的视觉显著性检测准确性。

Description

一种基于深度学习的立体图像视觉显著性检测方法

技术领域

本发明涉及一种视觉显著性检测技术，尤其是涉及一种基于深度学习的立体图像视觉显著性检测方法。

背景技术

视觉显著性检测的目的是识别场景中最吸引人的对象。视觉显著性检测在目标识别、图像检索、SLAM(Simultaneous Localization And Mapping)等计算机视觉和机器人视觉任务中具有广泛的应用前景。传统的视觉显著性检测模型仅在RGB图像上执行，可分为自底向上和自顶向下方法。基于这两种方法，提出了各种手工制作的显著性特性。近年来，为了克服高水平上下文的缺乏和挖掘显著性先验知识的困难，设计了大量用于RGB诱导的显著性目标检测的卷积神经网络(CNNs)，并取得了令人满意的性能。然而，当突出目标与背景相似时，这些RGB诱导的显著性目标检测模型可能无法区分突出目标与背景。在这种情况下，深度数据包含丰富的空间结构和三维布局信息，可以提供许多额外的显著性线索。此外，深度传感器(如：微软Kinect或英特尔RealSense)对光线变化的鲁棒性，将大大有助于扩展显著性检测的应用场景。因此，将深度数据应用于视觉显著性检测具有重要的现实意义。对于RGB-D视觉显著性检测任务，如何充分融合RGB信息和深度信息是关键问题。以前的大多数模型通过直接连接RGB特征和深度特征来解决这个问题。近年来，由于卷积神经网络在学习判别表示方面的能力越来越强，因此针对不同的RGB-D计算机视觉任务，如显著性检测、语义分割和目标识别，提出了许多卷积神经网络。虽然这些卷积神经网络取得了令人鼓舞的成绩，但在几个关键方面仍有很大的改进空间：1)如何清晰地形成两种模式之间的互补信息，并将其充分融合，大多数先前的RGB-D融合网络探索跨通道互补信息，RGB数据和深度数据分别学习，然后在后期建立一个融合层，然而，配对模态的互补信息尚未得到明确表述，因此，交叉模态是模糊的，不太可能被很好地捕获；2)如何有效地利用多层次的跨模态互补信息，大多数的RGB-D融合网络只融合RGB模态和深度模态的深度特征；3)人们普遍认为，不同层次的特征是互补的，它们在不同的尺度上对场景进行抽象，更具体地说，较深的特征通常携带更多的全局上下文信息，更有可能正确定位突出的对象，而较浅的特征提供更多的空间细节，因此，为了进一步提高显著性检测的准确性，应该重视如何组合跨级别特征的问题。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习的立体图像视觉显著性检测方法，其具有较高的视觉显著性检测准确性。

本发明解决上述技术问题所采用的技术方案为：一种基于深度学习的立体图像视觉显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅宽度为W且高度为H的原始的立体图像；然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集，将训练集中的第n幅原始的立体图像记为{Iⁿ(x,y)}，将{Iⁿ(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为

其中，N为正整数，N≥300，W和H均能够被2整除，n为正整数，n的初始值为1，1≤n≤N，1≤x≤W，1≤y≤H，Iⁿ(x,y)表示{Iⁿ(x,y)}中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，Dⁿ(x,y)表示{Dⁿ(x,y)}中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_2：构建卷积神经网络：该卷积神经网络包含输入层、隐层、输出层，输入层包括RGB图输入层和深度图输入层，隐层包括编码框架、中间层框架和解码框架，编码框架由RGB图通道和深度图通道组成，RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成，深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成，中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成，解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成；

对于RGB图输入层，其输入端接收一幅训练用左视点图像，其输出端输出训练用左视点图像给隐层；其中，要求训练用左视点图像的宽度为W且高度为H；

对于深度图输入层，其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像，其输出端输出训练用深度图像给隐层；其中，训练用深度图像的宽度为W且高度为H；

对于编码框架，第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像，第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为P₁；第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像，第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为P₂；对P₁中的所有特征图和P₂中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为E₁；第3个神经网络块的输入端接收E₁中的所有特征图，第3个神经网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₃；第4个神经网络块的输入端接收P₂中的所有特征图，第4个神经网络块的输出端输出64幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₄；第5个神经网络块的输入端接收P₃中的所有特征图，第5个神经网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₅；第6个神经网络块的输入端接收P₄中的所有特征图，第6个神经网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₆；对P₅中的所有特征图和P₆中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₂；第7个神经网络块的输入端接收E₂中的所有特征图，第7个神经网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₇；第8个神经网络块的输入端接收P₆中的所有特征图，第8个神经网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₈；第9个神经网络块的输入端接收P₇中的所有特征图，第9个神经网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₉；第10个神经网络块的输入端接收P₈中的所有特征图，第10个神经网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₀；对P₉中的所有特征图和P₁₀中的所有特征图进行Element-wiseSummation操作，Element-wise Summation操作后输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₃；第11个神经网络块的输入端接收E₃中的所有特征图，第11个神经网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₁；第12个神经网络块的输入端接收P₁₀中的所有特征图，第12个神经网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₂；第13个神经网络块的输入端接收P₁₁中的所有特征图，第13个神经网络块的输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₃；第14个神经网络块的输入端接收P₁₂中的所有特征图，第14个神经网络块的输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₄；对P₁₃中的所有特征图和P₁₄中的所有特征图进行Element-wise Summation操作，Element-wiseSummation操作后输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₄；

对于中间层框架，第15个神经网络块的输入端接收E₄中的所有特征图，第15个神经网络块的输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₅；第16个神经网络块的输入端接收P₁₅中的所有特征图，第16个神经网络块的输出端输出1024幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₆；

对于解码框架，第1个反卷积块的输入端接收P₁₆中的所有特征图，第1个反卷积块的输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为F₁；对E₄中的所有特征图和F₁中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₅；第17个神经网络块的输入端接收E₅中的所有特征图，第17个神经网络块的输出端输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₇；第2个反卷积块的输入端接收P₁₇中的所有特征图，第2个反卷积块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为F₂；对E₃中的所有特征图和F₂中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₆；第18个神经网络块的输入端接收E₆中的所有特征图，第18个神经网络块的输出端输出256幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₈；第3个反卷积块的输入端接收P₁₈中的所有特征图，第3个反卷积块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为F₃；对E₂中的所有特征图和F₃中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₇；第19个神经网络块的输入端接收E₇中的所有特征图，第19个神经网络块的输出端输出128幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₉；第4个反卷积块的输入端接收P₁₉中的所有特征图，第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为F₄；对E₁中的所有特征图和F₄中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为E₈；第20个神经网络块的输入端接收E₈中的所有特征图，第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为P₂₀；

对于输出层，其输入端接收P₂₀中的所有特征图，其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像；其中，显著性图像的宽度为W且高度为H；

步骤1_3：将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像，并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的立体图像的显著性图像，将{Iⁿ(x,y)}的显著性图像记为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值，将

与

之间的损失函数值记为

采用均方误差损失函数获得；

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待测试的宽度为W'且高度为H'的立体图像，将

的左视点图像和深度图像对应记为

和

其中，1≤x'≤W'，1≤y'≤H'，

表示

中坐标位置为(x',y')的像素点的像素值，

表示

中坐标位置为(x',y')的像素点的像素值，

表示

中坐标位置为(x',y')的像素点的像素值；

步骤2_2：将

和

输入到卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到

的显著性预测图像，记为

其中，

表示

中坐标位置为(x',y')的像素点的像素值。

所述的步骤1_2中，第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同，其由依次设置的第一残差块、第二残差块、第三残差块构成，第一残差块的输入端为其所在的神经网络块的输入端，第二残差块的输入端接收第一残差块的输出端输出的所有特征图，第三残差块的输入端接收第二残差块的输出端输出的所有特征图，第三残差块的输出端为其所在的神经网络块的输出端；

第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同，其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成，第四卷积层的输入端为其所在的神经网络块的输入端，第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图，第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图，第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图，第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图，第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图，第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图，第四激活层的输出端为其所在的神经网络块的输出端；其中，第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64，第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1，第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128，第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1，第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256，第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1，第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512，第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1，第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。

第一残差块、第二残差块、第三残差块的结构相同，其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成，第一卷积层的输入端为其所在的残差块的输入端，第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图，第三卷积层的输入端接收第二激活层的输出端输出的所有特征图，第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图，第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加，再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图；其中，第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64，第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128，第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256，第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512，第16个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024，第17个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512，第18个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256，第19个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128，第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64，第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。

所述的步骤1_2中，第1个至第4个反卷积块的结构相同，其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成，第一反卷积层的输入端为其所在的反卷积块的输入端，第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图，第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图，第五激活层的输出端为其所在的反卷积块的输出端；其中，第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512，第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256，第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128，第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64，第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。

所述的步骤1_2中，输出层由依次设置的第七卷积层和第六激活层组成，第七卷积层的输入端为输出层的输入端，第六激活层的输入端接收第七卷积层的输出端输出的所有特征图，第六激活层的输出端为输出层的输出端；其中，第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1，第六激活层的激活方式为“Sigmoid”。

与现有技术相比，本发明的优点在于：

1)本发明方法构建的卷积神经网络通过编码框架中的RGB图通道和深度图通道(即双流卷积神经网络)来学习不同级别的RGB特征和深度特征，双流卷积神经网络不仅有利于提取高级特征中更多的语义信息和浅层的低级特征中的空间信息，而且将深度信息的特征融合到视觉显著图提取之中，提高了立体视觉显著值预测的准确性。

2)本发明方法构建的卷积神经网络中的编码框架中的一些神经网络块采用卷积层来代替最大池化层，有利于保留前期特征提取的更多信息，尤其是编码框架中的RGB图通道和深度图通道深层提取的全局上下文特征，避免了由于最大池化操作而丢失的重要信息。

3)本发明方法构建的卷积神经网络中的神经网络块引入了大量的残差块，构建了更深的网络而不会产生梯度消失和训练效率问题，由于这种远跳连接，低级特征可以传到更深的网络中与高级特征进行信息互补，从而实现了有效的特征融合，因此卷积神经网络可以学到更为丰富的内容。

附图说明

图1为本发明方法构建的卷积神经网络的组成结构示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于深度学习的立体图像视觉显著性检测方法，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

其中，N为正整数，N≥300，如取N＝600，W和H均能够被2整除，n为正整数，n的初始值为1，1≤n≤N，1≤x≤W，1≤y≤H，Iⁿ(x,y)表示{Iⁿ(x,y)}中坐标位置为(x,y)的像素点的像素值，

表示

表示

中坐标位置为(x,y)的像素点的像素值。

步骤1_2：构建卷积神经网络：如图1所示，该卷积神经网络包含输入层、隐层、输出层，输入层包括RGB图输入层和深度图输入层，隐层包括编码框架、中间层框架和解码框架，编码框架由RGB图通道和深度图通道组成，RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成，深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成，中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成，解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成。

对于RGB图输入层，其输入端接收一幅训练用左视点图像，其输出端输出训练用左视点图像给隐层；其中，要求训练用左视点图像的宽度为W且高度为H。

对于深度图输入层，其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像，其输出端输出训练用深度图像给隐层；其中，训练用深度图像的宽度为W且高度为H。

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₄。

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₆。

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₉；第4个反卷积块的输入端接收P₁₉中的所有特征图，第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为F₄；对E₁中的所有特征图和F₄中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为E₈；第20个神经网络块的输入端接收E₈中的所有特征图，第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图，将输出的所有特征图构成的集合记为P₂₀。

对于输出层，其输入端接收P₂₀中的所有特征图，其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像；其中，显著性图像的宽度为W且高度为H。

其中，

表示

中坐标位置为(x,y)的像素点的像素值。

与

之间的损失函数值记为

采用均方误差损失函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，如取V＝50。

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待测试的宽度为W'且高度为H'的立体图像，将

的左视点图像和深度图像对应记为

和

其中，1≤x'≤W'，1≤y'≤H'，

表示

中坐标位置为(x',y')的像素点的像素值，

表示

中坐标位置为(x',y')的像素点的像素值，

表示

中坐标位置为(x',y')的像素点的像素值。

步骤2_2：将

和

的显著性预测图像，记为

其中，

表示

中坐标位置为(x',y')的像素点的像素值。

在此具体实施例中，步骤1_2中，第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同，其由依次设置的第一残差块、第二残差块、第三残差块构成，第一残差块的输入端为其所在的神经网络块的输入端，第二残差块的输入端接收第一残差块的输出端输出的所有特征图，第三残差块的输入端接收第二残差块的输出端输出的所有特征图，第三残差块的输出端为其所在的神经网络块的输出端。

在此具体实施例中，步骤1_2中，第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同，其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成，第四卷积层的输入端为其所在的神经网络块的输入端，第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图，第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图，第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图，第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图，第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图，第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图，第四激活层的输出端为其所在的神经网络块的输出端；其中，第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64，第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1，第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128，第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1，第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256，第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1，第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512，第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1，第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。

在此具体实施例中，第一残差块、第二残差块、第三残差块的结构相同，其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成，第一卷积层的输入端为其所在的残差块的输入端，第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图，第三卷积层的输入端接收第二激活层的输出端输出的所有特征图，第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图，第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加，再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图；其中，第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64，第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128，第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256，第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512，第16个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024，第17个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512，第18个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256，第19个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128，第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64，第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。

在此具体实施例中，步骤1_2中，第1个至第4个反卷积块的结构相同，其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成，第一反卷积层的输入端为其所在的反卷积块的输入端，第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图，第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图，第五激活层的输出端为其所在的反卷积块的输出端；其中，第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512，第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256，第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128，第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64，第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。

在此具体实施例中，步骤1_2中，输出层由依次设置的第七卷积层和第六激活层组成，第七卷积层的输入端为输出层的输入端，第六激活层的输入端接收第七卷积层的输出端输出的所有特征图，第六激活层的输出端为输出层的输出端；其中，第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1，第六激活层的激活方式为“Sigmoid”。

为了验证本发明方法的可行性和有效性，进行实验。

在此，采用中国台湾交通大学提供的三维人眼跟踪数据库(NCTU-3DFixation)来分析本发明方法的准确性和稳定性。这里，利用评估视觉显著提取方法的4个常用客观参量作为评价指标，即线性相关系数(Linear Correlation Coefficient，CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence，KLD)、AUC参数(the Area Under thereceiver operating characteristics Curve，AUC)、标准化扫描路径显著性(NormalizedScanpath Saliency，NSS)。

利用本发明方法获取中国台湾交通大学提供的三维人眼跟踪数据库中的每幅立体图像的显著性预测图像，并与三维人眼跟踪数据库中的每幅立体图像的主观视觉显著图(即为真实人眼注视图像，三维人眼跟踪数据库中存在)进行比较，CC、AUC和NSS值越高，KLD值越低说明本发明方法提取的显著性预测图像与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的CC、KLD、AUC和NSS相关指标如表1所列。

表1利用本发明方法提取得到的显著性预测图像与主观视觉显著图的准确性和稳定性

性能指标	CC	KLD	AUC(Borji)	NSS
					性能指标值	0.6917	0.4969	0.8590	1.8865

从表1所列的数据可知，按本发明方法提取得到的显著性预测图像与主观视觉显著图的准确性和稳定性是很好的，表明客观提取结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

Claims

1.一种基于深度学习的立体图像视觉显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

{Dⁿ(x,y)}、

表示

表示

中坐标位置为(x,y)的像素点的像素值；

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₀；对P₉中的所有特征图和P₁₀中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出256幅宽度为

且高度为

且高度为

且高度为

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₄；对P₁₃中的所有特征图和P₁₄中的所有特征图进行Element-wise Summation操作，Element-wise Summation操作后输出512幅宽度为

且高度为

的特征图，将输出的所有特征图构成的集合记为E₄；

且高度为

且高度为

的特征图，将输出的所有特征图构成的集合记为P₁₆；

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

且高度为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

与

之间的损失函数值记为

采用均方误差损失函数获得；

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待测试的宽度为W'且高度为H'的立体图像，将

的左视点图像和深度图像对应记为

其中，1≤x'≤W'，1≤y'≤H'，

表示

中坐标位置为(x',y')的像素点的像素值，

表示

中坐标位置为(x',y')的像素点的像素值，

表示

中坐标位置为(x',y')的像素点的像素值；

步骤2_2：将

和

的显著性预测图像，记为

其中，

表示

中坐标位置为(x',y')的像素点的像素值。

2.根据权利要求1所述的一种基于深度学习的立体图像视觉显著性检测方法，其特征在于所述的步骤1_2中，第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同，其由依次设置的第一残差块、第二残差块、第三残差块构成，第一残差块的输入端为其所在的神经网络块的输入端，第二残差块的输入端接收第一残差块的输出端输出的所有特征图，第三残差块的输入端接收第二残差块的输出端输出的所有特征图，第三残差块的输出端为其所在的神经网络块的输出端；

3.根据权利要求2所述的一种基于深度学习的立体图像视觉显著性检测方法，其特征在于第一残差块、第二残差块、第三残差块的结构相同，其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成，第一卷积层的输入端为其所在的残差块的输入端，第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图，第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图，第二卷积层的输入端接收第一激活层的输出端输出的所有特征图，第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图，第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图，第三卷积层的输入端接收第二激活层的输出端输出的所有特征图，第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图，第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加，再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图；其中，第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64，第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128，第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256，第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512，第16个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024，第17个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512，第18个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256，第19个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128，第20个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64，第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。

4.根据权利要求1至3中任一项所述的一种基于深度学习的立体图像视觉显著性检测方法，其特征在于所述的步骤1_2中，第1个至第4个反卷积块的结构相同，其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成，第一反卷积层的输入端为其所在的反卷积块的输入端，第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图，第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图，第五激活层的输出端为其所在的反卷积块的输出端；其中，第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512，第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256，第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128，第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64，第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。

5.根据权利要求4所述的一种基于深度学习的立体图像视觉显著性检测方法，其特征在于所述的步骤1_2中，输出层由依次设置的第七卷积层和第六激活层组成，第七卷积层的输入端为输出层的输入端，第六激活层的输入端接收第七卷积层的输出端输出的所有特征图，第六激活层的输出端为输出层的输出端；其中，第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1，第六激活层的激活方式为“Sigmoid”。