CN109635822A

CN109635822A - 基于深度学习编码译码网络的立体图像视觉显著提取方法

Info

Publication number: CN109635822A
Application number: CN201811494567.3A
Authority: CN
Inventors: 周武杰; 蔡星宇; 雷景生; 邱薇薇; 钱亚冠
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-04-16
Anticipated expiration: 2038-12-07
Also published as: CN109635822B

Abstract

本发明公开了一种基于深度学习编码译码网络的立体图像视觉显著提取方法，在训练阶段，构建深度学习编码译码网络，包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层，编码网络框架由彩色通道编码部分和视差通道编码部分组成；然后将训练集中的左视点图像和左视点图像输入到深度学习编码译码网络中进行训练；多次训练后得到深度学习编码译码网络训练模型及最优参数；在测试阶段，将待预测的立体图像的左视点图像和左视点图像输入到深度学习编码译码网络训练模型中，并利用最优参数进行预测，得到人类注视预测图；优点是其提取的立体视觉特征符合显著语义，且其具有较强的提取稳定性和较高的提取准确性。

Description

基于深度学习编码译码网络的立体图像视觉显著提取方法

技术领域

本发明涉及一种视觉显著提取技术，尤其是涉及一种基于深度学习编码译码网络的立体图像视觉显著提取方法。

背景技术

人们在接收自然图像后，由于人脑需要区分对待不同等级的信息资源，因此在处理自然图像信息时，人们会将不同的信息资源进行分级处理，从而表现出选择的特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的各个区域，而是对更感兴趣的语义信息部分进行优先处理。将图像视觉显著区域计算出来是计算机视觉以及基于内容的视频检测领域中的一个重要的研究内容。随着立体影像放映和采集设备的飞速发展，立体图像视觉显著检测也成为了非常重要的研究内容。

立体图像并不是平面图像的简单拓展，人眼感知立体图像产生立体图像的过程也不是简单的左视点图像和右视点图像的叠加过程，因此，立体视觉特征并不是平面视觉特征的简单拓展。但是，现有的立体图像视觉显著提取方法还停留在平面图像视觉显著提取方法之上，且现有的立体图像视觉显著提取方法提取的人类注视图的准确性较差，如齐峰等人提出的利用Log-Gabor滤波方法的立体视觉显著提取方法，其仅利用颜色、亮度、方向的特征进行人类注视图的预测，由于检测特征较少，因此人类注视图的预测缺乏准确性。因此，如何从立体图像中有效提取出立体视觉特征、如何使得提取出的立体视觉特征符合人类视觉系统的观察习惯，都是对立体图像进行视觉显著提取过程中需要研究的问题。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习编码译码网络的立体图像视觉显著提取方法，其提取的立体视觉特征符合显著语义，且其具有较强的提取稳定性和较高的提取准确性。

本发明解决上述技术问题所采用的技术方案为：一种基于深度学习编码译码网络的立体图像视觉显著提取方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅宽度为R且高度为L的立体图像；然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集，将训练集中的第n幅左视点图像记为{I_L,n(x,y)}，将训练集中与{I_L,n(x,y)}对应的左视差图像记为{I_D,n(x,y)}，将训练集中与{I_L,n(x,y)}对应的人类注视图记为{I_F,n(x,y)}；再将训练集中的每幅左视点图像缩放到480×640像素尺寸，得到训练集中的每幅左视点图像对应的480×640像素尺寸图像，将{I_L,n(x,y)}对应的480×640像素尺寸图像记为{I_L,n(x₄₈₀,y₆₄₀)}；并将训练集中的每幅左视差图像缩放到480×640像素尺寸，得到训练集中的每幅左视差图像对应的 480×640像素尺寸图像，将{I_D,n(x,y)}对应的480×640像素尺寸图像记为 {I_D,n(x₄₈₀,y₆₄₀)}；将训练集中的每幅人类注视图缩放到480×640像素尺寸，得到训练集中的每幅人类注视图对应的480×640像素尺寸图像，将{I_F,n(x,y)}对应的480×640像素尺寸图像记为{I_F,n(x₄₈₀,y₆₄₀)}；其中，N为正整数，N≥100，n为正整数，1≤n≤N， 1≤x≤R，1≤y≤L，I_L,n(x,y)表示{I_L,n(x,y)}中坐标位置为(x,y)的像素点的像素值， I_D,n(x,y)表示{I_D,n(x,y)}中坐标位置为(x,y)的像素点的像素值，I_F,n(x,y)表示 {I_F,n(x,y)}中坐标位置为(x,y)的像素点的像素值，1≤x₄₈₀≤480，1≤y₆₄₀≤640， I_L,n(x₄₈₀,y₆₄₀)表示{I_L,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值， I_D,n(x₄₈₀,y₆₄₀)表示{I_D,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值， I_F,n(x₄₈₀,y₆₄₀)表示{I_F,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值；

步骤1_2：构建深度学习编码译码网络：深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层；编码网络框架由彩色通道编码部分和视差通道编码部分组成，彩色通道编码部分由第1块彩色通道Vgg卷积网络块、第2块彩色通道Vgg卷积网络块、第3块彩色通道Vgg卷积网络块、第4块彩色通道Vgg卷积网络块、第5块彩色通道Vgg卷积网络块依次设置组成，视差通道编码部分由第1块视差通道Vgg卷积网络块、第2块视差通道Vgg卷积网络块、第3块视差通道Vgg卷积网络块、第4块视差通道Vgg卷积网络块、第5块视差通道Vgg卷积网络块依次设置组成；译码网络框架由第5级译码网络块、第4级译码网络块、第3 级译码网络块、第2级译码网络块、第1级译码网络块依次设置组成；

对于彩色通道输入层，彩色通道输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像，彩色通道输入层的输出端输出左视点图像对应的 480×640像素尺寸图像给彩色通道编码部分；其中，要求输入立体图像的宽度为R、高度为L；

对于视差通道输入层，视差通道输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像，视差通道输入层的输出端输出左视差图像对应的 480×640像素尺寸图像给视差通道编码部分；

对于彩色通道编码部分，第1块彩色通道Vgg卷积网络块的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像，第1块彩色通道Vgg 卷积网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为V_L,1，其中， V_L,1中的每幅特征图的宽度为240、高度为320；第2块彩色通道Vgg卷积网络块的输入端接收V_L,1中的所有特征图，第2块彩色通道Vgg卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为V_L,2，其中，V_L,2中的每幅特征图的宽度为120、高度为160；第3块彩色通道Vgg卷积网络块的输入端接收V_L,2中的所有特征图，第3 块彩色通道Vgg卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为V_L,3，其中，V_L,3中的每幅特征图的宽度为60、高度为80；第4块彩色通道Vgg 卷积网络块的输入端接收V_L,3中的所有特征图，第4块彩色通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_L,4，其中，V_L,4中的每幅特征图的宽度为30、高度为40；第5块彩色通道Vgg卷积网络块的输入端接收V_L,4中的所有特征图，第5块彩色通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_L,5，其中，V_L,5中的每幅特征图的宽度为30、高度为40；

对于视差通道编码部分，第1块视差通道Vgg卷积网络块的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像，第1块视差通道Vgg 卷积网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为V_D,1，其中， V_D,1中的每幅特征图的宽度为240、高度为320；第2块视差通道Vgg卷积网络块的输入端接收V_D,1中的所有特征图，第2块视差通道Vgg卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为V_D,2，其中，V_D,2中的每幅特征图的宽度为 120、高度为160；第3块视差通道Vgg卷积网络块的输入端接收V_D,2中的所有特征图，第3块视差通道Vgg卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为V_D,3，其中，V_D,3中的每幅特征图的宽度为60、高度为80；第4块视差通道 Vgg卷积网络块的输入端接收V_D,3中的所有特征图，第4块视差通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_D,4，其中，V_D,4中的每幅特征图的宽度为30、高度为40；第5块视差通道Vgg卷积网络块的输入端接收V_D,4中的所有特征图，第5块视差通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_D,5，其中，V_D,5中的每幅特征图的宽度为30、高度为40；

对于译码网络框架，第5级译码网络块的输入端接收V_L,5中的所有特征图、V_D,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图，第5级译码网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为Y₅，其中，Y₅中的每幅特征图的宽度为60、高度为80；第4级译码网络块的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₅中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图，第4级译码网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为Y₄，其中，Y₄中的每幅特征图的宽度为120、高度为160；第3级译码网络块的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₄中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图，第3级译码网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为Y₃，其中，Y₃中的每幅特征图的宽度为240、高度为320；第2级译码网络块的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₃中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图，第2级译码网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为Y₂，其中，Y₂中的每幅特征图的宽度为480、高度为640；第1级译码网络块的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₂中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图，第1级译码网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁，其中，Y₁中的每幅特征图的宽度为480、高度为640；

对于输出层，其由输出卷积层组成，输出卷积层的输入端接收Y₁中的所有特征图，输出卷积层的输出端输出1幅特征图，该幅特征图即为输入立体图像的人类注视预测图；其中，输出卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为1、激活函数均为relu函数，输入立体图像的人类注视预测图的宽度为480、高度为640；

步骤1_3：将选取的每幅立体图像作为输入立体图像，将每幅输入立体图像的人类注视图对应的480×640像素尺寸图像作为监督，将每幅输入立体图像的左视点图像对应的480×640像素尺寸图像及左视差图像对应的480×640像素尺寸图像输入到深度学习编码译码网络中进行训练，得到每幅输入立体图像的人类注视预测图；

步骤1_4：重复执行步骤1_3共V次，得到训练好的深度学习编码译码网络训练模型及其最优权值矢量和最优偏置项；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令{I_test(x',y')}表示待预测的立体图像，将{I_test(x',y')}的左视点图像和左视差图像对应记为{I_test,L(x',y')}和{I_test,D(x',y')}；然后将{I_test,L(x',y')}缩放到 480×640像素尺寸，得到{I_test,L(x',y')}对应的480×640像素尺寸图像，记为 {I_test,L(x'₄₈₀,y'₆₄₀)}；并将{I_test,D(x',y')}缩放到480×640像素尺寸，得到{I_test,D(x',y')}对应的480×640像素尺寸图像，记为{I_test,D(x'₄₈₀,y'₆₄₀)}；其中，1≤x'≤R'，1≤y'≤L'， R'表示{I_test(x',y')}的宽度，L'表示{I_test(x',y')}的高度，I_test(x',y')表示{I_test(x',y')}中坐标位置为(x',y')的像素点的像素值，I_test,L(x',y')表示{I_test,L(x',y')}中坐标位置为(x',y')的像素点的像素值，I_test,D(x',y')表示{I_test,D(x',y')}中坐标位置为(x',y')的像素点的像素值，1≤x'₄₈₀≤480，1≤y'₆₄₀≤640，I_test,L(x'₄₈₀,y'₆₄₀)表示{I_test,L(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值，I_test,D(x'₄₈₀,y'₆₄₀)表示{I_test,D(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值；

步骤2_2：将{I_test,L(x'₄₈₀,y'₆₄₀)}和{I_test,D(x'₄₈₀,y'₆₄₀)}输入到训练好的深度学习编码译码网络训练模型中，并利用最优权值矢量和最优偏置项进行预测，得到{I_test(x',y')}的人类注视预测图即视觉显著图像，记为{I_test,F(x'₄₈₀,y'₆₄₀)}；其中，I_test,F(x'₄₈₀,y'₆₄₀)表示 {I_test,F(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值。

所述的步骤1_2中，彩色通道编码部分中的第1块彩色通道Vgg卷积网络块由依次设置的第一卷积层、第二卷积层和第一最大池化层组成，第一卷积层的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像，第一卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为第二卷积层的输入端接收中的所有特征图，第二卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为并将作为第1块彩色通道Vgg卷积网络块的卷积部分的输出；第一最大池化层的输入端接收中的所有特征图，第一最大池化层的输出端输出64幅特征图，输出的所有特征图构成的集合为V_L,1；其中，第一卷积层和第二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数，和各自中的每幅特征图的宽度为480、高度为640，第一最大池化层的池化步长为 (2,2)；

彩色通道编码部分中的第2块彩色通道Vgg卷积网络块由依次设置的第三卷积层、第四卷积层和第二最大池化层组成，第三卷积层的输入端接收V_L,1中的所有特征图，第三卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第四卷积层的输入端接收中的所有特征图，第四卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为并将作为第2块彩色通道Vgg卷积网络块的卷积部分的输出；第二最大池化层的输入端接收中的所有特征图，第二最大池化层的输出端输出128幅特征图，输出的所有特征图构成的集合为V_L,2；其中，第三卷积层和第四卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数，和各自中的每幅特征图的宽度为240、高度为320，第二最大池化层的池化步长为(2,2)；

彩色通道编码部分中的第3块彩色通道Vgg卷积网络块由依次设置的第五卷积层、第六卷积层、第七卷积层和第三最大池化层组成，第五卷积层的输入端接收V_L,2中的所有特征图，第五卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第六卷积层的输入端接收中的所有特征图，第六卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第七卷积层的输入端接收中的所有特征图，第七卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为并将作为第3块彩色通道Vgg卷积网络块的卷积部分的输出；第三最大池化层的输入端接收中的所有特征图，第三最大池化层的输出端输出256幅特征图，输出的所有特征图构成的集合为V_L,3；其中，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，和各自中的每幅特征图的宽度为120、高度为160，第三最大池化层的池化步长为(2,2)；

彩色通道编码部分中的第4块彩色通道Vgg卷积网络块由依次设置的第八卷积层、第九卷积层、第十卷积层和第四最大池化层组成，第八卷积层的输入端接收V_L,3中的所有特征图，第八卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第九卷积层的输入端接收中的所有特征图，第九卷积层的输出端输出512 幅特征图，将输出的所有特征图构成的集合记为第十卷积层的输入端接收中的所有特征图，第十卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为并将作为第4块彩色通道Vgg卷积网络块的卷积部分的输出；第四最大池化层的输入端接收中的所有特征图，第四最大池化层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_L,4；其中，第八卷积层、第九卷积层和第十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu 函数，和各自中的每幅特征图的宽度为60、高度为80，第四最大池化层的池化步长为(2,2)；

彩色通道编码部分中的第5块彩色通道Vgg卷积网络块由依次设置的第十一卷积层、第十二卷积层、第十三卷积层组成，第十一卷积层的输入端接收V_L,4中的所有特征图，第十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第十二卷积层的输入端接收中的所有特征图，第十二卷积层的输出端输出512 幅特征图，将输出的所有特征图构成的集合记为第十三卷积层的输入端接收中的所有特征图，第十三卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_L,5；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为30、高度为40；

视差通道编码部分中的第1块视差通道Vgg卷积网络块由依次设置的第十四卷积层、第十五卷积层和第五最大池化层组成，第十四卷积层的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像，第十四卷积层的输出端输出 64幅特征图，将输出的所有特征图构成的集合记为第十五卷积层的输入端接收中的所有特征图，第十五卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为并将作为第1块视差通道Vgg卷积网络块的卷积部分的输出；第五最大池化层的输入端接收中的所有特征图，第五最大池化层的输出端输出64幅特征图，输出的所有特征图构成的集合为V_D,1；其中，第十四卷积层和第十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数，和各自中的每幅特征图的宽度为480、高度为640，第五最大池化层的池化步长为(2,2)；

视差通道编码部分中的第2块视差通道Vgg卷积网络块由依次设置的第十六卷积层、第十七卷积层和第六最大池化层组成，第十六卷积层的输入端接收V_D,1中的所有特征图，第十六卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第十七卷积层的输入端接收中的所有特征图，第十七卷积层的输出端输出128 幅特征图，将输出的所有特征图构成的集合记为并将作为第2块视差通道Vgg 卷积网络块的卷积部分的输出；第六最大池化层的输入端接收中的所有特征图，第六最大池化层的输出端输出128幅特征图，输出的所有特征图构成的集合为V_D,2；其中，第十六卷积层和第十七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数，和各自中的每幅特征图的宽度为240、高度为320，第六最大池化层的池化步长为(2,2)；

视差通道编码部分中的第3块视差通道Vgg卷积网络块由依次设置的第十八卷积层、第十九卷积层、第二十卷积层和第七最大池化层组成，第十八卷积层的输入端接收 V_D,2中的所有特征图，第十八卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第十九卷积层的输入端接收中的所有特征图，第十九卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第二十卷积层的输入端接收中的所有特征图，第二十卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为并将作为第3块视差通道Vgg卷积网络块的卷积部分的输出；第七最大池化层的输入端接收中的所有特征图，第七最大池化层的输出端输出256幅特征图，输出的所有特征图构成的集合为V_D,3；其中，第十八卷积层、第十九卷积层和第二十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，和各自中的每幅特征图的宽度为120、高度为160，第七最大池化层的池化步长为(2,2)；

视差通道编码部分中的第4块视差通道Vgg卷积网络块由依次设置的第二十一卷积层、第二十二卷积层、第二十三卷积层和第八最大池化层组成，第二十一卷积层的输入端接收V_D,3中的所有特征图，第二十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十二卷积层的输入端接收中的所有特征图，第二十二卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十三卷积层的输入端接收中的所有特征图，第二十三卷积层的输出端输出512 幅特征图，将输出的所有特征图构成的集合记为并将作为第4块视差通道Vgg 卷积网络块的卷积部分的输出；第八最大池化层的输入端接收中的所有特征图，第八最大池化层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_D,4；其中，第二十一卷积层、第二十二卷积层和第二十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为60、高度为80，第八最大池化层的池化步长为(2,2)；

视差通道编码部分中的第5块视差通道Vgg卷积网络块由依次设置的第二十四卷积层、第二十五卷积层、第二十六卷积层组成，第二十四卷积层的输入端接收V_D,4中的所有特征图，第二十四卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十五卷积层的输入端接收中的所有特征图，第二十五卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十六卷积层的输入端接收中的所有特征图，第二十六卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_D,5；其中，第二十四卷积层、第二十五卷积层和第二十六卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为 relu函数，和各自中的每幅特征图的宽度为30、高度为40。

所述的步骤1_2中，第5级译码网络块由依次设置的第一连接层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第一反卷积层组成，第一连接层的输入端接收V_L,5中的所有特征图、V_D,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图，第一连接层的输出端输出1040幅特征图，将输出的所有特征图构成的集合记为第二十七卷积层的输入端接收中的所有特征图，第二十七卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十八卷积层的输入端接收中的所有特征图，第二十八卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十九卷积层的输入端接收中的所有特征图，第二十九卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第一反卷积层的输入端接收中的所有特征图，第一反卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为Y₅；其中，和中的每幅特征图的宽度为30、高度为40，第二十七卷积层、第二十八卷积层和第二十九卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，第一反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数；

第4级译码网络块由依次设置的第二连接层、第三十卷积层、第三十一卷积层、第三十二卷积层、第二反卷积层组成，第二连接层的输入端接收彩色通道编码部分中的第 4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第 4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₅中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图，第二连接层的输出端输出1552幅特征图，将输出的所有特征图构成的集合记为第三十卷积层的输入端接收中的所有特征图，第三十卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第三十一卷积层的输入端接收中的所有特征图，第三十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第三十二卷积层的输入端接收中的所有特征图，第三十二卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二反卷积层的输入端接收中的所有特征图，第二反卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为Y₄；其中，和中的每幅特征图的宽度为60、高度为80，第三十卷积层、第三十一卷积层和第三十二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，第二反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数；

第3级译码网络块由依次设置的第三连接层、第三十三卷积层、第三十四卷积层、第三十五卷积层、第三反卷积层组成，第三连接层的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₄中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图，第三连接层的输出端输出 1040幅特征图，将输出的所有特征图构成的集合记为第三十三卷积层的输入端接收中的所有特征图，第三十三卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三十四卷积层的输入端接收中的所有特征图，第三十四卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三十五卷积层的输入端接收中的所有特征图，第三十五卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三反卷积层的输入端接收中的所有特征图，第三反卷积层的输出端输出256幅特征图，输出的所有特征图构成的集合为Y₃；其中，和中的每幅特征图的宽度为120、高度为160，第三十三卷积层、第三十四卷积层和第三十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，第三反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为256、激活函数均为relu函数；

第2级译码网络块由依次设置的第四连接层、第三十六卷积层、第三十七卷积层、第三十八卷积层、第四反卷积层组成，第四连接层的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₃中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图，第四连接层的输出端输出528 幅特征图，将输出的所有特征图构成的集合记为第三十六卷积层的输入端接收中的所有特征图，第三十六卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第三十七卷积层的输入端接收中的所有特征图，第三十七卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第三十八卷积层的输入端接收中的所有特征图，第三十八卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第四反卷积层的输入端接收中的所有特征图，第四反卷积层的输出端输出128幅特征图，输出的所有特征图构成的集合为Y₂；其中，和中的每幅特征图的宽度为240、高度为320，第三十六卷积层、第三十七卷积层和第三十八卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为 128、激活函数均为relu函数，第四反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为128、激活函数均为relu函数；

第1级译码网络块由依次设置的第五连接层、第三十九卷积层、第四十卷积层、第四十一卷积层组成，第五连接层的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg 卷积网络块的卷积部分输出的所有特征图、Y₂中的所有特征图、输入立体图像的16幅 480×640像素尺寸的中心偏好特征图，第五连接层的输出端输出272幅特征图，将输出的所有特征图构成的集合记为Y₁ ¹；第三十九卷积层的输入端接收Y₁ ¹中的所有特征图，第三十九卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁ ²；第四十卷积层的输入端接收Y₁ ²中的所有特征图，第四十卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁ ³；第四十一卷积层的输入端接收Y₁ ³中的所有特征图，第四十一卷积层的输出端输出64幅特征图，输出的所有特征图构成的集合为Y₁；其中，Y₁ ¹、Y₁ ²和Y₁ ³中的每幅特征图的宽度为480、高度为640，第三十九卷积层、第四十卷积层和第四十一卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数。

与现有技术相比，本发明的优点在于：

1)本发明方法创建的深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层，编码网络框架由彩色通道编码部分和视差通道编码部分组成，利用该深度学习编码译码网络提取特征，可以进行快速的并行运算，使得利用训练得到的深度学习编码译码网络训练模型预测人类注视预测图的速度更快。

2)本发明方法创建的深度学习编码译码网络中的视差通道编码部分由Vgg网络中的第1块至第5块Vgg卷积网络块组成，利用5块Vgg卷积网络块可以更充分地提取出深度特征，从而提升了利用训练得到的深度学习编码译码网络训练模型预测人类注视预测图的预测准确度。

3)本发明方法创建的深度学习编码译码网络中的编码网络框架中的彩色通道编码部分由Vgg网络中的第1块至第5块Vgg卷积网络块组成，视差通道编码部分也由Vgg网络中的第1块至第5块Vgg卷积网络块组成，译码网络框架由5级译码网络块依次设置组成，第1块彩色通道Vgg卷积网络块和第1块视差通道Vgg卷积网络块的输出直接输入第1级译码网络块中，第2块彩色通道Vgg卷积网络块和第2块视差通道Vgg卷积网络块的输出直接输入第2级译码网络块中，第3块彩色通道Vgg卷积网络块和第3块视差通道Vgg卷积网络块的输出直接输入第3级译码网络块中，第4块彩色通道Vgg卷积网络块和第4块视差通道Vgg卷积网络块的输出直接输入第4级译码网络块中，第5块彩色通道Vgg卷积网络块和第5块视差通道Vgg卷积网络块的输出直接输入第5级译码网络块中，这样的连接结构可以使得译码网络框架充分地学习到各层特征，从而提升了总体效果。

4)本发明方法是一种端到端的深度学习方法，相较其他显著性预测方法可以便捷的训练得到深度学习编码译码网络训练模型。

5)本发明方法利用了大量的高级检测特征(即第4块和第5块彩色通道Vgg卷积网络块及第4块和第5块视差通道Vgg卷积网络块输出的特征)与低级检测特征(即第 1块至第3块彩色通道Vgg卷积网络块及第1块至第3块视差通道Vgg卷积网络块输出的特征)，对于不同类型的图像都有较好的效果，鲁棒性强。

附图说明

图1为本发明方法的总体流程框图；

图2为本发明方法中构建的深度学习编码译码网络的组成结构示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于深度学习编码译码网络的立体图像视觉显著提取方法，其总体流程框图如图1所示，其特征在于包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅宽度为R且高度为L的立体图像；然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集，将训练集中的第n幅左视点图像记为{I_L,n(x,y)}，将训练集中与{I_L,n(x,y)}对应的左视差图像记为{I_D,n(x,y)}，将训练集中与{I_L,n(x,y)}对应的人类注视图记为{I_F,n(x,y)}；再将训练集中的每幅左视点图像缩放到480×640像素尺寸，得到训练集中的每幅左视点图像对应的480×640像素尺寸图像，将{I_L,n(x,y)}对应的480×640像素尺寸图像记为{I_L,n(x₄₈₀,y₆₄₀)}；并将训练集中的每幅左视差图像缩放到480×640像素尺寸，得到训练集中的每幅左视差图像对应的 480×640像素尺寸图像，将{I_D,n(x,y)}对应的480×640像素尺寸图像记为 {I_D,n(x₄₈₀,y₆₄₀)}；将训练集中的每幅人类注视图缩放到480×640像素尺寸，得到训练集中的每幅人类注视图对应的480×640像素尺寸图像，将{I_F,n(x,y)}对应的480×640像素尺寸图像记为{I_F,n(x₄₈₀,y₆₄₀)}；其中，N为正整数，N≥100，如取N＝1000，n为正整数，1≤n≤N，1≤x≤R，1≤y≤L，I_L,n(x,y)表示{I_L,n(x,y)}中坐标位置为(x,y)的像素点的像素值，I_D,n(x,y)表示{I_D,n(x,y)}中坐标位置为(x,y)的像素点的像素值， I_F,n(x,y)表示{I_F,n(x,y)}中坐标位置为(x,y)的像素点的像素值，1≤x₄₈₀≤480， 1≤y₆₄₀≤640，I_L,n(x₄₈₀,y₆₄₀)表示{I_L,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值，I_D,n(x₄₈₀,y₆₄₀)表示{I_D,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值， I_F,n(x₄₈₀,y₆₄₀)表示{I_F,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值；在此，在中国台湾省交通大学提供的三维人眼跟踪数据库(3Deye-tracking database)中选取立体图像，并将选取的所有立体图像的左视点图像、左视差图像和人类注视图构成训练集。

步骤1_2：构建深度学习编码译码网络：如图2所示，深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层；编码网络框架由彩色通道编码部分和视差通道编码部分组成，彩色通道编码部分由第1块彩色通道Vgg卷积网络块、第2块彩色通道Vgg卷积网络块、第3块彩色通道Vgg卷积网络块、第4块彩色通道Vgg卷积网络块、第5块彩色通道Vgg卷积网络块依次设置组成，视差通道编码部分由第1块视差通道Vgg卷积网络块、第2块视差通道Vgg卷积网络块、第3块视差通道Vgg卷积网络块、第4块视差通道Vgg卷积网络块、第5块视差通道Vgg卷积网络块依次设置组成；译码网络框架由第5级译码网络块、第4级译码网络块、第3级译码网络块、第2级译码网络块、第1级译码网络块依次设置组成；在此，第1块彩色通道Vgg卷积网络块和第1块视差通道Vgg卷积网络块均为Vgg网络中的第1块Vgg卷积网络块，同理，第2块彩色通道Vgg卷积网络块和第2块视差通道Vgg 卷积网络块均为Vgg网络中的第2块Vgg卷积网络块，第3块彩色通道Vgg卷积网络块和第3块视差通道Vgg卷积网络块均为Vgg网络中的第3块Vgg卷积网络块，第4 块彩色通道Vgg卷积网络块和第4块视差通道Vgg卷积网络块均为Vgg网络中的第4 块Vgg卷积网络块，第5块彩色通道Vgg卷积网络块和第5块视差通道Vgg卷积网络块均为Vgg网络中的第5块Vgg卷积网络块，而在Vgg网络中，第1块Vgg卷积网络块、第2块Vgg卷积网络块、第3块Vgg卷积网络块、第4块Vgg卷积网络块、第5 块Vgg卷积网络块均是特定的网络块，各自的内部组成结构是确定的。

对于彩色通道输入层，彩色通道输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像，彩色通道输入层的输出端输出左视点图像对应的 480×640像素尺寸图像给彩色通道编码部分；其中，要求输入立体图像的宽度为R、高度为L。

对于视差通道输入层，视差通道输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像，视差通道输入层的输出端输出左视差图像对应的 480×640像素尺寸图像给视差通道编码部分。

对于彩色通道编码部分，第1块彩色通道Vgg卷积网络块的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像，第1块彩色通道Vgg 卷积网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为V_L,1，其中， V_L,1中的每幅特征图的宽度为240、高度为320；第2块彩色通道Vgg卷积网络块的输入端接收V_L,1中的所有特征图，第2块彩色通道Vgg卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为V_L,2，其中，V_L,2中的每幅特征图的宽度为120、高度为160；第3块彩色通道Vgg卷积网络块的输入端接收V_L,2中的所有特征图，第3 块彩色通道Vgg卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为V_L,3，其中，V_L,3中的每幅特征图的宽度为60、高度为80；第4块彩色通道Vgg 卷积网络块的输入端接收V_L,3中的所有特征图，第4块彩色通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_L,4，其中，V_L,4中的每幅特征图的宽度为30、高度为40；第5块彩色通道Vgg卷积网络块的输入端接收V_L,4中的所有特征图，第5块彩色通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_L,5，其中，V_L,5中的每幅特征图的宽度为30、高度为40。

对于视差通道编码部分，第1块视差通道Vgg卷积网络块的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像，第1块视差通道Vgg 卷积网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为V_D,1，其中， V_D,1中的每幅特征图的宽度为240、高度为320；第2块视差通道Vgg卷积网络块的输入端接收V_D,1中的所有特征图，第2块视差通道Vgg卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为V_D,2，其中，V_D,2中的每幅特征图的宽度为 120、高度为160；第3块视差通道Vgg卷积网络块的输入端接收V_D,2中的所有特征图，第3块视差通道Vgg卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为V_D,3，其中，V_D,3中的每幅特征图的宽度为60、高度为80；第4块视差通道 Vgg卷积网络块的输入端接收V_D,3中的所有特征图，第4块视差通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_D,4，其中，V_D,4中的每幅特征图的宽度为30、高度为40；第5块视差通道Vgg卷积网络块的输入端接收V_D,4中的所有特征图，第5块视差通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_D,5，其中，V_D,5中的每幅特征图的宽度为30、高度为40。

对于译码网络框架，第5级译码网络块的输入端接收V_L,5中的所有特征图、V_D,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图，第5级译码网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为Y₅，其中，Y₅中的每幅特征图的宽度为60、高度为80；第4级译码网络块的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₅中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图，第4级译码网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为Y₄，其中，Y₄中的每幅特征图的宽度为120、高度为160；第3级译码网络块的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₄中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图，第3级译码网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为Y₃，其中，Y₃中的每幅特征图的宽度为240、高度为320；第2级译码网络块的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₃中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图，第2级译码网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为Y₂，其中，Y₂中的每幅特征图的宽度为480、高度为640；第1级译码网络块的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₂中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图，第1级译码网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁，其中，Y₁中的每幅特征图的宽度为480、高度为640。

对于输出层，其由输出卷积层组成，输出卷积层的输入端接收Y₁中的所有特征图，输出卷积层的输出端输出1幅特征图，该幅特征图即为输入立体图像的人类注视预测图；其中，输出卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为1、激活函数均为relu函数，输入立体图像的人类注视预测图的宽度为480、高度为640。

在本实施例中，步骤1_2中，彩色通道编码部分中的第1块彩色通道Vgg卷积网络块由依次设置的第一卷积层、第二卷积层和第一最大池化层组成，第一卷积层的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像，第一卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为第二卷积层的输入端接收中的所有特征图，第二卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为并将作为第1块彩色通道Vgg卷积网络块的卷积部分的输出；第一最大池化层的输入端接收中的所有特征图，第一最大池化层的输出端输出64幅特征图，输出的所有特征图构成的集合为V_L,1；其中，第一卷积层和第二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu 函数，和各自中的每幅特征图的宽度为480、高度为640，第一最大池化层的池化步长为(2,2)。

彩色通道编码部分中的第2块彩色通道Vgg卷积网络块由依次设置的第三卷积层、第四卷积层和第二最大池化层组成，第三卷积层的输入端接收V_L,1中的所有特征图，第三卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第四卷积层的输入端接收中的所有特征图，第四卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为并将作为第2块彩色通道Vgg卷积网络块的卷积部分的输出；第二最大池化层的输入端接收中的所有特征图，第二最大池化层的输出端输出128幅特征图，输出的所有特征图构成的集合为V_L,2；其中，第三卷积层和第四卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数，和各自中的每幅特征图的宽度为240、高度为320，第二最大池化层的池化步长为(2,2)。

彩色通道编码部分中的第3块彩色通道Vgg卷积网络块由依次设置的第五卷积层、第六卷积层、第七卷积层和第三最大池化层组成，第五卷积层的输入端接收V_L,2中的所有特征图，第五卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第六卷积层的输入端接收中的所有特征图，第六卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第七卷积层的输入端接收中的所有特征图，第七卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为并将作为第3块彩色通道Vgg卷积网络块的卷积部分的输出；第三最大池化层的输入端接收中的所有特征图，第三最大池化层的输出端输出256幅特征图，输出的所有特征图构成的集合为V_L,3；其中，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，和各自中的每幅特征图的宽度为120、高度为160，第三最大池化层的池化步长为(2,2)。

彩色通道编码部分中的第4块彩色通道Vgg卷积网络块由依次设置的第八卷积层、第九卷积层、第十卷积层和第四最大池化层组成，第八卷积层的输入端接收V_L,3中的所有特征图，第八卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第九卷积层的输入端接收中的所有特征图，第九卷积层的输出端输出512 幅特征图，将输出的所有特征图构成的集合记为第十卷积层的输入端接收中的所有特征图，第十卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为并将作为第4块彩色通道Vgg卷积网络块的卷积部分的输出；第四最大池化层的输入端接收中的所有特征图，第四最大池化层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_L,4；其中，第八卷积层、第九卷积层和第十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu 函数，和各自中的每幅特征图的宽度为60、高度为80，第四最大池化层的池化步长为(2,2)。

彩色通道编码部分中的第5块彩色通道Vgg卷积网络块由依次设置的第十一卷积层、第十二卷积层、第十三卷积层组成，第十一卷积层的输入端接收V_L,4中的所有特征图，第十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第十二卷积层的输入端接收中的所有特征图，第十二卷积层的输出端输出512 幅特征图，将输出的所有特征图构成的集合记为第十三卷积层的输入端接收中的所有特征图，第十三卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_L,5；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为30、高度为40。

视差通道编码部分中的第1块视差通道Vgg卷积网络块由依次设置的第十四卷积层、第十五卷积层和第五最大池化层组成，第十四卷积层的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像，第十四卷积层的输出端输出 64幅特征图，将输出的所有特征图构成的集合记为第十五卷积层的输入端接收中的所有特征图，第十五卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为并将作为第1块视差通道Vgg卷积网络块的卷积部分的输出；第五最大池化层的输入端接收中的所有特征图，第五最大池化层的输出端输出64幅特征图，输出的所有特征图构成的集合为V_D,1；其中，第十四卷积层和第十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数，和各自中的每幅特征图的宽度为480、高度为640，第五最大池化层的池化步长为(2,2)。

视差通道编码部分中的第2块视差通道Vgg卷积网络块由依次设置的第十六卷积层、第十七卷积层和第六最大池化层组成，第十六卷积层的输入端接收V_D,1中的所有特征图，第十六卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第十七卷积层的输入端接收中的所有特征图，第十七卷积层的输出端输出128 幅特征图，将输出的所有特征图构成的集合记为并将作为第2块视差通道Vgg 卷积网络块的卷积部分的输出；第六最大池化层的输入端接收中的所有特征图，第六最大池化层的输出端输出128幅特征图，输出的所有特征图构成的集合为V_D,2；其中，第十六卷积层和第十七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数，和各自中的每幅特征图的宽度为240、高度为320，第六最大池化层的池化步长为(2,2)。

视差通道编码部分中的第3块视差通道Vgg卷积网络块由依次设置的第十八卷积层、第十九卷积层、第二十卷积层和第七最大池化层组成，第十八卷积层的输入端接收 V_D,2中的所有特征图，第十八卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第十九卷积层的输入端接收中的所有特征图，第十九卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第二十卷积层的输入端接收中的所有特征图，第二十卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为并将作为第3块视差通道Vgg卷积网络块的卷积部分的输出；第七最大池化层的输入端接收中的所有特征图，第七最大池化层的输出端输出256幅特征图，输出的所有特征图构成的集合为V_D,3；其中，第十八卷积层、第十九卷积层和第二十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，和各自中的每幅特征图的宽度为120、高度为160，第七最大池化层的池化步长为(2,2)。

视差通道编码部分中的第4块视差通道Vgg卷积网络块由依次设置的第二十一卷积层、第二十二卷积层、第二十三卷积层和第八最大池化层组成，第二十一卷积层的输入端接收V_D,3中的所有特征图，第二十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十二卷积层的输入端接收中的所有特征图，第二十二卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十三卷积层的输入端接收中的所有特征图，第二十三卷积层的输出端输出512 幅特征图，将输出的所有特征图构成的集合记为并将作为第4块视差通道Vgg 卷积网络块的卷积部分的输出；第八最大池化层的输入端接收中的所有特征图，第八最大池化层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_D,4；其中，第二十一卷积层、第二十二卷积层和第二十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为60、高度为80，第八最大池化层的池化步长为(2,2)。

在本实施例中，步骤1_2中，第5级译码网络块由依次设置的第一连接层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第一反卷积层组成，第一连接层的输入端接收V_L,5中的所有特征图、V_D,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图，第一连接层的输出端输出1040幅特征图，将输出的所有特征图构成的集合记为Y₅ ¹；第二十七卷积层的输入端接收Y₅ ¹中的所有特征图，第二十七卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为Y₅ ²；第二十八卷积层的输入端接收Y₅ ²中的所有特征图，第二十八卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十九卷积层的输入端接收中的所有特征图，第二十九卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第一反卷积层的输入端接收中的所有特征图，第一反卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为Y₅；其中，和中的每幅特征图的宽度为30、高度为40，第二十七卷积层、第二十八卷积层和第二十九卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，第一反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数。

第4级译码网络块由依次设置的第二连接层、第三十卷积层、第三十一卷积层、第三十二卷积层、第二反卷积层组成，第二连接层的输入端接收彩色通道编码部分中的第 4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第 4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₅中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图，第二连接层的输出端输出1552幅特征图，将输出的所有特征图构成的集合记为第三十卷积层的输入端接收中的所有特征图，第三十卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第三十一卷积层的输入端接收中的所有特征图，第三十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第三十二卷积层的输入端接收中的所有特征图，第三十二卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二反卷积层的输入端接收中的所有特征图，第二反卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为Y₄；其中，和中的每幅特征图的宽度为60、高度为80，第三十卷积层、第三十一卷积层和第三十二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，第二反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数。

第3级译码网络块由依次设置的第三连接层、第三十三卷积层、第三十四卷积层、第三十五卷积层、第三反卷积层组成，第三连接层的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₄中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图，第三连接层的输出端输出 1040幅特征图，将输出的所有特征图构成的集合记为第三十三卷积层的输入端接收中的所有特征图，第三十三卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三十四卷积层的输入端接收Y₃ ²中的所有特征图，第三十四卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为Y₃ ³；第三十五卷积层的输入端接收Y₃ ³中的所有特征图，第三十五卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三反卷积层的输入端接收中的所有特征图，第三反卷积层的输出端输出256幅特征图，输出的所有特征图构成的集合为Y₃；其中， Y₃ ¹、Y₃ ²、Y₃ ³和中的每幅特征图的宽度为120、高度为160，第三十三卷积层、第三十四卷积层和第三十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，第三反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为256、激活函数均为relu函数。

第2级译码网络块由依次设置的第四连接层、第三十六卷积层、第三十七卷积层、第三十八卷积层、第四反卷积层组成，第四连接层的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₃中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图，第四连接层的输出端输出528 幅特征图，将输出的所有特征图构成的集合记为第三十六卷积层的输入端接收中的所有特征图，第三十六卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第三十七卷积层的输入端接收中的所有特征图，第三十七卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第三十八卷积层的输入端接收中的所有特征图，第三十八卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第四反卷积层的输入端接收中的所有特征图，第四反卷积层的输出端输出128幅特征图，输出的所有特征图构成的集合为Y₂；其中，和中的每幅特征图的宽度为240、高度为320，第三十六卷积层、第三十七卷积层和第三十八卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为 128、激活函数均为relu函数，第四反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为128、激活函数均为relu函数。

第1级译码网络块由依次设置的第五连接层、第三十九卷积层、第四十卷积层、第四十一卷积层组成，第五连接层的输入端接收彩色通道编码部分中的第1块彩色通道 Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道 Vgg卷积网络块的卷积部分输出的所有特征图、Y₂中的所有特征图、输入立体图像的 16幅480×640像素尺寸的中心偏好特征图，第五连接层的输出端输出272幅特征图，将输出的所有特征图构成的集合记为Y₁ ¹；第三十九卷积层的输入端接收Y₁ ¹中的所有特征图，第三十九卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁ ²；第四十卷积层的输入端接收Y₁ ²中的所有特征图，第四十卷积层的输出端输出64 幅特征图，将输出的所有特征图构成的集合记为Y₁ ³；第四十一卷积层的输入端接收Y₁ ³中的所有特征图，第四十一卷积层的输出端输出64幅特征图，输出的所有特征图构成的集合为Y₁；其中，Y₁ ¹、Y₁ ²和Y₁ ³中的每幅特征图的宽度为480、高度为640，第三十九卷积层、第四十卷积层和第四十一卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数。

步骤1_3：将选取的每幅立体图像作为输入立体图像，将每幅输入立体图像的人类注视图对应的480×640像素尺寸图像作为监督，将每幅输入立体图像的左视点图像对应的480×640像素尺寸图像及左视差图像对应的480×640像素尺寸图像输入到深度学习编码译码网络中进行训练，得到每幅输入立体图像的人类注视预测图。

步骤1_4：重复执行步骤1_3共V次，得到训练好的深度学习编码译码网络训练模型及其最优权值矢量和最优偏置项；其中，V＞1，在本实施例中取V＝20。

所述的测试阶段过程的具体步骤为：

步骤2_1：令{I_test(x',y')}表示待预测的立体图像，将{I_test(x',y')}的左视点图像和左视差图像对应记为{I_test,L(x',y')}和{I_test,D(x',y')}；然后将{I_test,L(x',y')}缩放到 480×640像素尺寸，得到{I_test,L(x',y')}对应的480×640像素尺寸图像，记为 {I_test,L(x'₄₈₀,y'₆₄₀)}；并将{I_test,D(x',y')}缩放到480×640像素尺寸，得到{I_test,D(x',y')}对应的480×640像素尺寸图像，记为{I_test,D(x'₄₈₀,y'₆₄₀)}；其中，1≤x'≤R'，1≤y'≤L'， R'表示{I_test(x',y')}的宽度，L'表示{I_test(x',y')}的高度，I_test(x',y')表示{I_test(x',y')}中坐标位置为(x',y')的像素点的像素值，I_test,L(x',y')表示{I_test,L(x',y')}中坐标位置为(x',y')的像素点的像素值，I_test,D(x',y')表示{I_test,D(x',y')}中坐标位置为(x',y')的像素点的像素值，1≤x'₄₈₀≤480，1≤y'₆₄₀≤640，I_test,L(x'₄₈₀,y'₆₄₀)表示{I_test,L(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值，I_test,D(x'₄₈₀,y'₆₄₀)表示{I_test,D(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值。

为了验证本发明方法的可行性和有效性，进行实验。

在此，采用中国台湾省交通大学提供的三维人眼跟踪数据库(3Deye-trackingdatabase)来分析本发明方法的准确性和稳定性。这里，利用评估视觉显著提取方法的3 个常用客观参量作为评价指标，即Pearson相关系数(Pearson linear correlationcoefficient， PLCC)、Kullback-Leibler散度系数(Kullback-Leibler divergence，KLD)、AUC参数(the Area Under the receiver operating characteristics Curve，AUC)。

利用本发明方法获取中国台湾省交通大学提供的三维人眼跟踪数据库中的每幅立体图像的人类注视预测图即视觉显著图像，并与三维人眼跟踪数据库中的每幅立体图像的主观视觉显著图像(三维人眼跟踪数据库中存在)进行比较，PLCC和AUC值越高、 KLD值越低说明本发明方法提取的视觉显著图像与主观视觉显著图像的一致性越好。反映本发明方法的视觉显著提取性能的PLCC、KLD和AUC相关指标如表1所列。从表1所列的数据可知，按本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性是很好的，表明客观提取结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

表1 利用本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性

Claims

1.一种基于深度学习编码译码网络的立体图像视觉显著提取方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅宽度为R且高度为L的立体图像；然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集，将训练集中的第n幅左视点图像记为{I_L,n(x,y)}，将训练集中与{I_L,n(x,y)}对应的左视差图像记为{I_D,n(x,y)}，将训练集中与{I_L,n(x,y)}对应的人类注视图记为{I_F,n(x,y)}；再将训练集中的每幅左视点图像缩放到480×640像素尺寸，得到训练集中的每幅左视点图像对应的480×640像素尺寸图像，将{I_L,n(x,y)}对应的480×640像素尺寸图像记为{I_L,n(x₄₈₀,y₆₄₀)}；并将训练集中的每幅左视差图像缩放到480×640像素尺寸，得到训练集中的每幅左视差图像对应的480×640像素尺寸图像，将{I_D,n(x,y)}对应的480×640像素尺寸图像记为{I_D,n(x₄₈₀,y₆₄₀)}；将训练集中的每幅人类注视图缩放到480×640像素尺寸，得到训练集中的每幅人类注视图对应的480×640像素尺寸图像，将{I_F,n(x,y)}对应的480×640像素尺寸图像记为{I_F,n(x₄₈₀,y₆₄₀)}；其中，N为正整数，N≥100，n为正整数，1≤n≤N，1≤x≤R，1≤y≤L，I_L,n(x,y)表示{I_L,n(x,y)}中坐标位置为(x,y)的像素点的像素值，I_D,n(x,y)表示{I_D,n(x,y)}中坐标位置为(x,y)的像素点的像素值，I_F,n(x,y)表示{I_F,n(x,y)}中坐标位置为(x,y)的像素点的像素值，1≤x₄₈₀≤480，1≤y₆₄₀≤640，I_L,n(x₄₈₀,y₆₄₀)表示{I_L,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值，I_D,n(x₄₈₀,y₆₄₀)表示{I_D,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值，I_F,n(x₄₈₀,y₆₄₀)表示{I_F,n(x₄₈₀,y₆₄₀)}中坐标位置为(x₄₈₀,y₆₄₀)的像素点的像素值；

步骤1_2：构建深度学习编码译码网络：深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层；编码网络框架由彩色通道编码部分和视差通道编码部分组成，彩色通道编码部分由第1块彩色通道Vgg卷积网络块、第2块彩色通道Vgg卷积网络块、第3块彩色通道Vgg卷积网络块、第4块彩色通道Vgg卷积网络块、第5块彩色通道Vgg卷积网络块依次设置组成，视差通道编码部分由第1块视差通道Vgg卷积网络块、第2块视差通道Vgg卷积网络块、第3块视差通道Vgg卷积网络块、第4块视差通道Vgg卷积网络块、第5块视差通道Vgg卷积网络块依次设置组成；译码网络框架由第5级译码网络块、第4级译码网络块、第3级译码网络块、第2级译码网络块、第1级译码网络块依次设置组成；

对于彩色通道输入层，彩色通道输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像，彩色通道输入层的输出端输出左视点图像对应的480×640像素尺寸图像给彩色通道编码部分；其中，要求输入立体图像的宽度为R、高度为L；

对于视差通道输入层，视差通道输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像，视差通道输入层的输出端输出左视差图像对应的480×640像素尺寸图像给视差通道编码部分；

对于彩色通道编码部分，第1块彩色通道Vgg卷积网络块的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像，第1块彩色通道Vgg卷积网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为V_L,1，其中，V_L,1中的每幅特征图的宽度为240、高度为320；第2块彩色通道Vgg卷积网络块的输入端接收V_L,1中的所有特征图，第2块彩色通道Vgg卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为V_L,2，其中，V_L,2中的每幅特征图的宽度为120、高度为160；第3块彩色通道Vgg卷积网络块的输入端接收V_L,2中的所有特征图，第3块彩色通道Vgg卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为V_L,3，其中，V_L,3中的每幅特征图的宽度为60、高度为80；第4块彩色通道Vgg卷积网络块的输入端接收V_L,3中的所有特征图，第4块彩色通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_L,4，其中，V_L,4中的每幅特征图的宽度为30、高度为40；第5块彩色通道Vgg卷积网络块的输入端接收V_L,4中的所有特征图，第5块彩色通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_L,5，其中，V_L,5中的每幅特征图的宽度为30、高度为40；

对于视差通道编码部分，第1块视差通道Vgg卷积网络块的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像，第1块视差通道Vgg卷积网络块的输出端输出64幅特征图，将输出的所有特征图构成的集合记为V_D,1，其中，V_D,1中的每幅特征图的宽度为240、高度为320；第2块视差通道Vgg卷积网络块的输入端接收V_D,1中的所有特征图，第2块视差通道Vgg卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为V_D,2，其中，V_D,2中的每幅特征图的宽度为120、高度为160；第3块视差通道Vgg卷积网络块的输入端接收V_D,2中的所有特征图，第3块视差通道Vgg卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为V_D,3，其中，V_D,3中的每幅特征图的宽度为60、高度为80；第4块视差通道Vgg卷积网络块的输入端接收V_D,3中的所有特征图，第4块视差通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_D,4，其中，V_D,4中的每幅特征图的宽度为30、高度为40；第5块视差通道Vgg卷积网络块的输入端接收V_D,4中的所有特征图，第5块视差通道Vgg卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为V_D,5，其中，V_D,5中的每幅特征图的宽度为30、高度为40；

所述的测试阶段过程的具体步骤为：

步骤2_1：令{I_test(x',y')}表示待预测的立体图像，将{I_test(x',y')}的左视点图像和左视差图像对应记为{I_test,L(x',y')}和{I_test,D(x',y')}；然后将{I_test,L(x',y')}缩放到480×640像素尺寸，得到{I_test,L(x',y')}对应的480×640像素尺寸图像，记为{I_test,L(x'₄₈₀,y'₆₄₀)}；并将{I_test,D(x',y')}缩放到480×640像素尺寸，得到{I_test,D(x',y')}对应的480×640像素尺寸图像，记为{I_test,D(x'₄₈₀,y'₆₄₀)}；其中，1≤x'≤R'，1≤y'≤L'，R'表示{I_test(x',y')}的宽度，L'表示{I_test(x',y')}的高度，I_test(x',y')表示{I_test(x',y')}中坐标位置为(x',y')的像素点的像素值，I_test,L(x',y')表示{I_test,L(x',y')}中坐标位置为(x',y')的像素点的像素值，I_test,D(x',y')表示{I_test,D(x',y')}中坐标位置为(x',y')的像素点的像素值，1≤x'₄₈₀≤480，1≤y'₆₄₀≤640，I_test,L(x'₄₈₀,y'₆₄₀)表示{I_test,L(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值，I_test,D(x'₄₈₀,y'₆₄₀)表示{I_test,D(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值；

步骤2_2：将{I_test,L(x'₄₈₀,y'₆₄₀)}和{I_test,D(x'₄₈₀,y'₆₄₀)}输入到训练好的深度学习编码译码网络训练模型中，并利用最优权值矢量和最优偏置项进行预测，得到{I_test(x',y')}的人类注视预测图即视觉显著图像，记为{I_test,F(x'₄₈₀,y'₆₄₀)}；其中，I_test,F(x'₄₈₀,y'₆₄₀)表示{I_test,F(x'₄₈₀,y'₆₄₀)}中坐标位置为(x'₄₈₀,y'₆₄₀)的像素点的像素值。

2.根据权利要求1所述的基于深度学习编码译码网络的立体图像视觉显著提取方法，其特征在于所述的步骤1_2中，彩色通道编码部分中的第1块彩色通道Vgg卷积网络块由依次设置的第一卷积层、第二卷积层和第一最大池化层组成，第一卷积层的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像，第一卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为第二卷积层的输入端接收中的所有特征图，第二卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为并将作为第1块彩色通道Vgg卷积网络块的卷积部分的输出；第一最大池化层的输入端接收中的所有特征图，第一最大池化层的输出端输出64幅特征图，输出的所有特征图构成的集合为V_L,1；其中，第一卷积层和第二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数，和各自中的每幅特征图的宽度为480、高度为640，第一最大池化层的池化步长为(2,2)；

彩色通道编码部分中的第4块彩色通道Vgg卷积网络块由依次设置的第八卷积层、第九卷积层、第十卷积层和第四最大池化层组成，第八卷积层的输入端接收V_L,3中的所有特征图，第八卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第九卷积层的输入端接收中的所有特征图，第九卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第十卷积层的输入端接收中的所有特征图，第十卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为并将作为第4块彩色通道Vgg卷积网络块的卷积部分的输出；第四最大池化层的输入端接收中的所有特征图，第四最大池化层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_L,4；其中，第八卷积层、第九卷积层和第十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为60、高度为80，第四最大池化层的池化步长为(2,2)；

彩色通道编码部分中的第5块彩色通道Vgg卷积网络块由依次设置的第十一卷积层、第十二卷积层、第十三卷积层组成，第十一卷积层的输入端接收V_L,4中的所有特征图，第十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第十二卷积层的输入端接收中的所有特征图，第十二卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第十三卷积层的输入端接收中的所有特征图，第十三卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_L,5；其中，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为30、高度为40；

视差通道编码部分中的第1块视差通道Vgg卷积网络块由依次设置的第十四卷积层、第十五卷积层和第五最大池化层组成，第十四卷积层的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像，第十四卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为第十五卷积层的输入端接收中的所有特征图，第十五卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为并将作为第1块视差通道Vgg卷积网络块的卷积部分的输出；第五最大池化层的输入端接收中的所有特征图，第五最大池化层的输出端输出64幅特征图，输出的所有特征图构成的集合为V_D,1；其中，第十四卷积层和第十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数，和各自中的每幅特征图的宽度为480、高度为640，第五最大池化层的池化步长为(2,2)；

视差通道编码部分中的第2块视差通道Vgg卷积网络块由依次设置的第十六卷积层、第十七卷积层和第六最大池化层组成，第十六卷积层的输入端接收V_D,1中的所有特征图，第十六卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第十七卷积层的输入端接收中的所有特征图，第十七卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为并将作为第2块视差通道Vgg卷积网络块的卷积部分的输出；第六最大池化层的输入端接收中的所有特征图，第六最大池化层的输出端输出128幅特征图，输出的所有特征图构成的集合为V_D,2；其中，第十六卷积层和第十七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数，和各自中的每幅特征图的宽度为240、高度为320，第六最大池化层的池化步长为(2,2)；

视差通道编码部分中的第3块视差通道Vgg卷积网络块由依次设置的第十八卷积层、第十九卷积层、第二十卷积层和第七最大池化层组成，第十八卷积层的输入端接收V_D,2中的所有特征图，第十八卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第十九卷积层的输入端接收中的所有特征图，第十九卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第二十卷积层的输入端接收中的所有特征图，第二十卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为并将作为第3块视差通道Vgg卷积网络块的卷积部分的输出；第七最大池化层的输入端接收中的所有特征图，第七最大池化层的输出端输出256幅特征图，输出的所有特征图构成的集合为V_D,3；其中，第十八卷积层、第十九卷积层和第二十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，和各自中的每幅特征图的宽度为120、高度为160，第七最大池化层的池化步长为(2,2)；

视差通道编码部分中的第4块视差通道Vgg卷积网络块由依次设置的第二十一卷积层、第二十二卷积层、第二十三卷积层和第八最大池化层组成，第二十一卷积层的输入端接收V_D,3中的所有特征图，第二十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十二卷积层的输入端接收中的所有特征图，第二十二卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十三卷积层的输入端接收中的所有特征图，第二十三卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为并将作为第4块视差通道Vgg卷积网络块的卷积部分的输出；第八最大池化层的输入端接收中的所有特征图，第八最大池化层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_D,4；其中，第二十一卷积层、第二十二卷积层和第二十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为60、高度为80，第八最大池化层的池化步长为(2,2)；

视差通道编码部分中的第5块视差通道Vgg卷积网络块由依次设置的第二十四卷积层、第二十五卷积层、第二十六卷积层组成，第二十四卷积层的输入端接收V_D,4中的所有特征图，第二十四卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十五卷积层的输入端接收中的所有特征图，第二十五卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十六卷积层的输入端接收中的所有特征图，第二十六卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为V_D,5；其中，第二十四卷积层、第二十五卷积层和第二十六卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，和各自中的每幅特征图的宽度为30、高度为40。

3.根据权利要求1或2所述的基于深度学习编码译码网络的立体图像视觉显著提取方法，其特征在于所述的步骤1_2中，第5级译码网络块由依次设置的第一连接层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第一反卷积层组成，第一连接层的输入端接收V_L,5中的所有特征图、V_D,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图，第一连接层的输出端输出1040幅特征图，将输出的所有特征图构成的集合记为第二十七卷积层的输入端接收中的所有特征图，第二十七卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十八卷积层的输入端接收中的所有特征图，第二十八卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二十九卷积层的输入端接收中的所有特征图，第二十九卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第一反卷积层的输入端接收中的所有特征图，第一反卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为Y₅；其中，和中的每幅特征图的宽度为30、高度为40，第二十七卷积层、第二十八卷积层和第二十九卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，第一反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数；

第4级译码网络块由依次设置的第二连接层、第三十卷积层、第三十一卷积层、第三十二卷积层、第二反卷积层组成，第二连接层的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₅中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图，第二连接层的输出端输出1552幅特征图，将输出的所有特征图构成的集合记为第三十卷积层的输入端接收中的所有特征图，第三十卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第三十一卷积层的输入端接收中的所有特征图，第三十一卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第三十二卷积层的输入端接收中的所有特征图，第三十二卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为第二反卷积层的输入端接收中的所有特征图，第二反卷积层的输出端输出512幅特征图，输出的所有特征图构成的集合为Y₄；其中，和中的每幅特征图的宽度为60、高度为80，第三十卷积层、第三十一卷积层和第三十二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数，第二反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数；

第3级译码网络块由依次设置的第三连接层、第三十三卷积层、第三十四卷积层、第三十五卷积层、第三反卷积层组成，第三连接层的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₄中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图，第三连接层的输出端输出1040幅特征图，将输出的所有特征图构成的集合记为Y₃ ¹；第三十三卷积层的输入端接收Y₃ ¹中的所有特征图，第三十三卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三十四卷积层的输入端接收中的所有特征图，第三十四卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三十五卷积层的输入端接收中的所有特征图，第三十五卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为第三反卷积层的输入端接收中的所有特征图，第三反卷积层的输出端输出256幅特征图，输出的所有特征图构成的集合为Y₃；其中，Y₃ ¹、和中的每幅特征图的宽度为120、高度为160，第三十三卷积层、第三十四卷积层和第三十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数，第三反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为256、激活函数均为relu函数；

第2级译码网络块由依次设置的第四连接层、第三十六卷积层、第三十七卷积层、第三十八卷积层、第四反卷积层组成，第四连接层的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₃中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图，第四连接层的输出端输出528幅特征图，将输出的所有特征图构成的集合记为第三十六卷积层的输入端接收中的所有特征图，第三十六卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第三十七卷积层的输入端接收中的所有特征图，第三十七卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第三十八卷积层的输入端接收中的所有特征图，第三十八卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为第四反卷积层的输入端接收中的所有特征图，第四反卷积层的输出端输出128幅特征图，输出的所有特征图构成的集合为Y₂；其中，和中的每幅特征图的宽度为240、高度为320，第三十六卷积层、第三十七卷积层和第三十八卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数，第四反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为128、激活函数均为relu函数；

第1级译码网络块由依次设置的第五连接层、第三十九卷积层、第四十卷积层、第四十一卷积层组成，第五连接层的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y₂中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图，第五连接层的输出端输出272幅特征图，将输出的所有特征图构成的集合记为Y₁ ¹；第三十九卷积层的输入端接收Y₁ ¹中的所有特征图，第三十九卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁ ²；第四十卷积层的输入端接收Y₁ ²中的所有特征图，第四十卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Y₁ ³；第四十一卷积层的输入端接收Y₁ ³中的所有特征图，第四十一卷积层的输出端输出64幅特征图，输出的所有特征图构成的集合为Y₁；其中，Y₁ ¹、Y₁ ²和Y₁ ³中的每幅特征图的宽度为480、高度为640，第三十九卷积层、第四十卷积层和第四十一卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数。