CN109409380A

CN109409380A - 一种基于双学习网络的立体图像视觉显著提取方法

Info

Publication number: CN109409380A
Application number: CN201810981210.1A
Authority: CN
Inventors: 周武杰; 蔡星宇; 周扬; 邱薇薇; 张宇来; 向坚
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-03-01
Anticipated expiration: 2038-08-27
Also published as: CN109409380B

Abstract

本发明公开了一种基于双学习网络的立体图像视觉显著提取方法，其将人类注视图、立体图像的左视点彩色图像和左视差图像构成训练集；然后在训练集的基础上利用VGG网络模型中的特征提取技术构建深度学习模型；接着以训练集中的人类注视图为监督，以训练集中的左视点彩色图像和左视差图像为输入参数，对深度学习模型进行训练；再将待视觉显著提取的立体图像的左视点彩色图像和左视差图像作为输入参数，输入到训练得到的模型中，得到待视觉显著提取的立体图像的视觉显著图像；优点是其能够快速的运行检测，并且具有较强的鲁棒性和预测准确性。

Description

一种基于双学习网络的立体图像视觉显著提取方法

技术领域

本发明涉及一种立体图像处理技术，尤其是涉及一种基于双学习网络的立体图像视觉显著提取方法。

背景技术

在人类视觉接收与信息处理中，由于大脑资源有限以及外界环境信息重要性区别，因此在处理过程中人脑对外界环境信息并不是一视同仁的，而是表现出选择特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的每个区域，而是对某些显著区域关注度更高。如何将视频中视觉注意度高的显著区域检测并提取出来是计算机视觉以及基于内容的视频检索领域的一个重要的研究内容。而随着立体视频显示技术和高质量立体视频内容获取技术的快速发展，针对立体图像/视频的显著区域检测及建模也是一个非常重要的研究内容。

然而，立体图像并不是平面图像的简单空间拓展，因此人眼感知立体图像产生立体视觉的过程也不是简单的左视点图像和右视点图像叠加的过程，因此，立体视觉特征(例如：三维视觉注意力)并不是平面视觉特性的简单拓展。然而，现有的立体图像显著图提取方法还停留在平面图像显著提取方法的简单拓展上。因此，如何从立体图像中有效地提取出立体视觉特征、如何使得提取出的立体视觉特征符合人眼三维观看行为都是在对立体图像进行视觉显著图提取过程中需要研究解决的问题。

发明内容

本发明所要解决的技术问题是提供一种基于双学习网络的立体图像视觉显著提取方法，其能够快速的运行检测，并且具有较强的鲁棒性和预测准确性。

本发明解决上述技术问题所采用的技术方案为：一种基于双学习网络的立体图像视觉显著提取方法，其特征在于包括以下步骤：

步骤一：选择一个包含有人类注视图及其对应的立体图像的数据库；然后将数据库中的每幅人类注视图缩放至80×60尺寸，将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸；再将所有 80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集，将训练集中的第k幅80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k 幅左视差图像记为与和对应；其中，k为正整数，1≤k≤K，K表示数据库中包含的人类注视图的总幅数，也为数据库中包含的立体图像的总幅数，K≥50，表示中坐标位置为(x₈₀,y₆₀) 的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值， 1≤x₈₀≤80,1≤y₆₀≤60，1≤x₆₄₀≤640,1≤y₄₈₀≤480；

步骤二：利用VGG网络模型中的特征提取技术构建深度学习模型，记为M_S，其中，深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10 个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合；

步骤三：以训练集中的人类注视图为监督，以训练集中的左视点彩色图像和左视差图像为输入参数，对M_S进行训练，将训练得到的模型记为M_T；其中，训练过程中使用的loss函数为mse函数，使用SGD方法进行M_S的梯度下降训练，学习率设置为0.0005；

步骤四：将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{I_Lt(x_Lt,y_Lt)}和{I_Dt(x_Dt,y_Dt)}；然后将{I_Lt(x_Lt,y_Lt)}缩放至640×480尺寸，将得到的图像记为{I_lt(x₆₄₀,y₄₈₀)}；同样，将{I_Dt(x_Dt,y_Dt)}缩放至640×480尺寸，将得到的图像记为 {I_dt(x₆₄₀,y₄₈₀)}；其中，I_Lt(x_Lt,y_Lt)表示{I_Lt(x_Lt,y_Lt)}中坐标位置为(x_Lt,y_Lt)的像素点的像素值，I_Dt(x_Dt,y_Dt)表示{I_Dt(x_Dt,y_Dt)}中坐标位置为(x_Dt,y_Dt)的像素点的像素值，1≤x_Lt≤W'，1≤y_Lt≤H'，1≤x_Dt≤W'，1≤y_Dt≤H'，W'表示{I_Lt(x_Lt,y_Lt)}或{I_Dt(x_Dt,y_Dt)}的宽度，H' 表示{I_Lt(x_Lt,y_Lt)}或{I_Dt(x_Dt,y_Dt)}的高度，I_lt(x₆₄₀,y₄₈₀)表示{I_lt(x₆₄₀,y₄₈₀)}中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，I_dt(x₆₄₀,y₄₈₀)表示{I_dt(x₆₄₀,y₄₈₀)}中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值；

步骤五：将{I_lt(x₆₄₀,y₄₈₀)}和{I_dt(x₆₄₀,y₄₈₀)}作为输入参数，输入到M_T中，得到待视觉显著提取的立体图像的视觉显著图像，记为{I_Ot(x₈₀,y₆₀)}；其中，I_Ot(x₈₀,y₆₀)表示 {I_Ot(x₈₀,y₆₀)}中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤x₈₀≤80,1≤y₆₀≤60。

所述的步骤二的具体过程如下：

步骤A：构建深度学习模型的第1个网络块至第5个网络块，第1个网络块至第5 个网络块用于提取彩色特征；

第1个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值， 1≤x₃₂₀≤320,1≤y₂₄₀≤240，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu，最大池化层的步长为(2,2)， 1≤k≤K；

第2个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值， 1≤x₁₆₀≤160,1≤y₁₂₀≤120，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu，最大池化层的步长为(2,2)， 1≤k≤K；

第3个网络块包括四层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤x₈₀≤80,1≤y₆₀≤60，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K；

第4个网络块包括四层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu，最大池化层的步长为(1,1)，1≤k≤K；

第5个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu， 1≤k≤K；

步骤B：构建深度学习模型的第6个网络块至第8个网络块，第6个网络块至第8个网络块用于提取视差特征；

第6个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值， 1≤x₃₂₀≤320,1≤y₂₄₀≤240，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu，最大池化层的步长为(2,2)， 1≤k≤K；

第7个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值， 1≤x₁₆₀≤160,1≤y₁₂₀≤120，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu，最大池化层的步长为(2,2)， 1≤k≤K；

第8个网络块包括四层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值， 1≤x₈₀≤80,1≤y₆₀≤60，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为 (3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K；

步骤C：构建深度学习模型的第9个网络块，第9个网络块用于融合彩色特征和视差特征；

第9个网络块包括连接层，连接层通过通道数叠加的方式融合彩色特征和视差特征，连接层的输入为将连接层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤k≤K；

步骤D：构建深度学习模型的第10个网络块，第10个网络块用于进行位置偏好学习；

第10个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为位置偏好学习层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为位置偏好学习层的输入为将位置偏好学习层的输出记为的获取过程为：将8×6尺寸的可学习参数图记为{I_pm(x₈,y₆)}；然后利用双线性插值方法将{I_pm(x₈,y₆)}经学习后得到的参数图放大到80×60尺寸，得到偏好参数图，记为{I_pa(x₈₀,y₆₀)}；再将{I_pa(x₈₀,y₆₀)}中的每个像素点的像素值逐像素乘以中对应像素点的像素值，得到其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为 (x₈₀,y₆₀)的像素点的像素值，第一卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为320、激活函数为relu，第二卷积层的卷积核的大小为(3,3)、卷积步长为 (1,1)、卷积核的数目为1、激活函数为relu，I_pm(x₈,y₆)表示{I_pm(x₈,y₆)}中坐标位置为(x₈,y₆)的像素点的像素值，1≤x₈≤8,1≤y₆≤6，I_pa(x₈₀,y₆₀)表示{I_pa(x₈₀,y₆₀)}中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤k≤K；

步骤E：构建深度学习模型的第11个网络块，第11个网络块用于进行卷积学习；

第11个网络块包括十二层，第一层为Dropout层、第二层为第一卷积层、第三层为第一最大池化层、第四层为第二卷积层、第五层为第二最大池化层、第六层为第三卷积层、第七层为第四卷积层、第八层为第五卷积层、第九层为第一上采样层、第十层为第六卷积层、第十一层为第二上采样层、第十二层为第七卷积层，Dropout层的输入为将Dropout层的输出记为第一卷积层的输入为将第一卷积层的输出记为第一最大池化层的输入为将第一最大池化层的输出记为第二卷积层的输入为将第二卷积层的输出记为第二最大池化层的输入为将第二最大池化层的输出记为第三卷积层的输入为将第三卷积层的输出记为第四卷积层的输入为将第四卷积层的输出记为第五卷积层的输入为将第五卷积层的输出记为第一上采样层的输入为第一上采样层采用双线性插值方法，将第一上采样层的输出记为第六卷积层的输入为将第六卷积层的输出记为第二上采样层的输入为第二上采样层采用双线性插值方法，将第二上采样层的输出记为第七卷积层的输入为将第七卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，Dropout层的连接参数为0.5，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，1≤x₄₀≤40,1≤y₃₀≤30，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，1≤x₂₀≤20,1≤y₁₅≤15，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层的卷积核的大小为(5,5)、卷积步长为(1,1)、卷积核的数目为64、激活函数为relu，第一最大池化层和第二最大池化层的步长为(2,2)，第一上采样层和第二上采样层的上采样放大比例为(2,2)，1≤k≤K；

步骤F：构建深度学习模型的第12个网络块，第12个网络块用于视觉显著特征融合；

第12个网络块包括两层，第一层为特征融合层、第二层为卷积层，特征融合层的输入为和将特征融合层的输出记为卷积层的输入为将卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，卷积层的卷积核的大小为 (1,1)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu，1≤k≤K；

至此构建得到深度学习模型M_S。

与现有技术相比，本发明的优点在于：

1)本发明方法构建的深度学习模型具有用于进行位置偏好学习的网络块和用于进行卷积学习的网络块，这两类网络块组成了相对独立的两个特征学习网络部分，称为双学习网络，因此该深度学习模型减少了过拟合的风险，有利于对带有人类注视图的立体图像数据库的特征学习，尤其是对于立体图像数量小于200幅的小数据库。

2)本发明方法在构建深度学习模型的过程中利用了深度学习的算法，大量使用卷积层与最大池化层的运算，这些运算可以进行并行运算，相较于传统的视觉显著提取方法显著性检测的速度更快。

3)本发明方法构建的深度学习模型具有用于彩色特征提取的网络块组成的彩色特征提取部分与用于视差特征提取的网络块组成的视差特征提取部分，该深度学习模型综合考虑了视差信息，相较于平面显著性检测算法准确性更高、鲁棒性更强。

附图说明

图1为本发明方法的总体实现框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于双学习网络的立体图像视觉显著提取方法，其总体实现框图如图1所示，其包括以下步骤：

步骤一：选择一个包含有人类注视图及其对应的立体图像的数据库，将数据库中的第k幅人类注视图记为将数据库中的第k幅人类注视图对应的立体图像的左视点彩色图像记为将数据库中的第k幅人类注视图对应的立体图像的左视差图像记为然后将数据库中的每幅人类注视图缩放至80×60尺寸，将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸；再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集，将训练集中的第k幅 80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k幅左视差图像记为与和对应；其中，k为正整数，1≤k≤K，K表示数据库中包含的人类注视图的总幅数，也为数据库中包含的立体图像的总幅数，K≥50，如取 K＝100，表示中坐标位置为(x_F,y_F)的像素点的像素值，表示中坐标位置为(x_L,y_L)的像素点的像素值，表示中坐标位置为(x_D,y_D)的像素点的像素值，1≤x_F≤W，1≤y_F≤H，1≤x_L≤W，1≤y_L≤H， 1≤x_D≤W，1≤y_D≤H，W表示的宽度，H表示的高度，表示中坐标位置为 (x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，1≤x₈₀≤80,1≤y₆₀≤60，1≤x₆₄₀≤640,1≤y₄₈₀≤480。

步骤二：利用现有的VGG网络模型中的特征提取技术构建深度学习模型，记为M_S，其中，深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10 个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合。

在此具体实施例中，步骤二的具体过程如下：

第2个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，1≤x₁₆₀≤160,1≤y₁₂₀≤120，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu，最大池化层的步长为(2,2)， 1≤k≤K；

第5个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu， 1≤k≤K。

第8个网络块包括四层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值， 1≤x₈₀≤80,1≤y₆₀≤60，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为 (3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K。

第9个网络块包括连接层，连接层通过通道数叠加的方式融合彩色特征和视差特征，连接层的输入为将连接层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤k≤K。

第10个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为位置偏好学习层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为位置偏好学习层的输入为将位置偏好学习层的输出记为的获取过程为：将8×6尺寸的可学习参数图记为{I_pm(x₈,y₆)}；然后利用现有的双线性插值方法将{I_pm(x₈,y₆)}经学习后得到的参数图放大到80×60尺寸，得到偏好参数图，记为{I_pa(x₈₀,y₆₀)}；再将{I_pa(x₈₀,y₆₀)}中的每个像素点的像素值逐像素乘以中对应像素点的像素值，得到其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为320、激活函数为relu，第二卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu，I_pm(x₈,y₆)表示{I_pm(x₈,y₆)}中坐标位置为(x₈,y₆)的像素点的像素值，1≤x₈≤8,1≤y₆≤6，I_pa(x₈₀,y₆₀)表示{I_pa(x₈₀,y₆₀)}中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤k≤K。

第11个网络块包括十二层，第一层为Dropout层、第二层为第一卷积层、第三层为第一最大池化层、第四层为第二卷积层、第五层为第二最大池化层、第六层为第三卷积层、第七层为第四卷积层、第八层为第五卷积层、第九层为第一上采样层、第十层为第六卷积层、第十一层为第二上采样层、第十二层为第七卷积层，Dropout层的输入为将Dropout层的输出记为第一卷积层的输入为将第一卷积层的输出记为第一最大池化层的输入为将第一最大池化层的输出记为第二卷积层的输入为将第二卷积层的输出记为第二最大池化层的输入为将第二最大池化层的输出记为第三卷积层的输入为将第三卷积层的输出记为第四卷积层的输入为将第四卷积层的输出记为第五卷积层的输入为将第五卷积层的输出记为第一上采样层的输入为第一上采样层采用现有的双线性插值方法，将第一上采样层的输出记为第六卷积层的输入为将第六卷积层的输出记为第二上采样层的输入为第二上采样层采用现有的双线性插值方法，将第二上采样层的输出记为第七卷积层的输入为将第七卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，Dropout层的连接参数为0.5，表示中坐标位置为(x₈₀,y₆₀) 的像素点的像素值，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，1≤x₄₀≤40,1≤y₃₀≤30，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，1≤x₂₀≤20,1≤y₁₅≤15，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，表示中坐标位置为(x₂₀,y₁₅)的像素点的像素值，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，表示中坐标位置为(x₄₀,y₃₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层的卷积核的大小为(5,5)、卷积步长为(1,1)、卷积核的数目为64、激活函数为relu，第一最大池化层和第二最大池化层的步长为(2,2)，第一上采样层和第二上采样层的上采样放大比例为(2,2)，1≤k≤K。

第12个网络块包括两层，第一层为特征融合层、第二层为卷积层，特征融合层的输入为和将特征融合层的输出记为卷积层的输入为将卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，卷积层的卷积核的大小为 (1,1)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu，1≤k≤K。

至此构建得到深度学习模型M_S。

步骤三：以训练集中的人类注视图为监督，以训练集中的左视点彩色图像和左视差图像为输入参数，对M_S进行训练，将训练得到的模型记为M_T；其中，训练过程中使用的loss函数为现有的mse函数，使用现有的SGD方法进行M_S的梯度下降训练，学习率设置为0.0005。

步骤四：将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{I_Lt(x_Lt,y_Lt)}和{I_Dt(x_Dt,y_Dt)}；然后将{I_Lt(x_Lt,y_Lt)}缩放至640×480尺寸，将得到的图像记为{I_lt(x₆₄₀,y₄₈₀)}；同样，将{I_Dt(x_Dt,y_Dt)}缩放至640×480尺寸，将得到的图像记为 {I_dt(x₆₄₀,y₄₈₀)}；其中，I_Lt(x_Lt,y_Lt)表示{I_Lt(x_Lt,y_Lt)}中坐标位置为(x_Lt,y_Lt)的像素点的像素值，I_Dt(x_Dt,y_Dt)表示{I_Dt(x_Dt,y_Dt)}中坐标位置为(x_Dt,y_Dt)的像素点的像素值，1≤x_Lt≤W'，1≤y_Lt≤H'，1≤x_Dt≤W'，1≤y_Dt≤H'，W'表示{I_Lt(x_Lt,y_Lt)}或{I_Dt(x_Dt,y_Dt)}的宽度，H' 表示{I_Lt(x_Lt,y_Lt)}或{I_Dt(x_Dt,y_Dt)}的高度，Ilt(x₆₄₀,y₄₈₀)表示{I_lt(x₆₄₀,y₄₈₀)}中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，I_dt(x₆₄₀,y₄₈₀)表示{I_dt(x₆₄₀,y₄₈₀)}中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值。

为验证本发明方法的可行性和有效性，进行实验。

在此，采用中国台湾交通大学提供的三维人眼跟踪数据库(3Deye-trackingdatabase) 来分析本发明方法的准确性和稳定性。这里，利用评估视觉显著提取方法的3个常用客观参量作为评价指标，即Pearson相关系数(Pearson linear correlationcoefficient，PLCC)、 Kullback-Leibler散度系数(Kullback-Leibler divergence，KLD)、AUC参数(theArea Under the receiver operating characteristics Curve，AUC)。

利用本发明方法对从中国台湾交通大学提供的三维人眼跟踪数据库中随机选取的 70％立体图像进行训练，并对随机选取的20％立体图像进行测试(用于测试的立体图像与用于训练的立体图像不重复)，将利用本发明方法对测试的立体图像进行处理提取得到的视觉显著图像与三维人眼跟踪数据库中对应的立体图像的主观视觉显著图像(三维人眼跟踪数据库中存在)进行比较，PLCC和AUC值越高、KLD值越低说明本发明方法提取的视觉显著图像与主观视觉显著图像的一致性越好。反映本发明方法的视觉显著提取性能的PLCC、KLD和AUC相关指标如表1所列。从表1所列的数据可知，按本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性是很好的，表明客观提取结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

表1利用本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性

性能指标	性能指标值
		PLCC	0.8045
KLD	0.3639
		AUC	0.8641

Claims

1.一种基于双学习网络的立体图像视觉显著提取方法，其特征在于包括以下步骤：

步骤一：选择一个包含有人类注视图及其对应的立体图像的数据库；然后将数据库中的每幅人类注视图缩放至80×60尺寸，将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸；再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集，将训练集中的第k幅80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k幅左视差图像记为与和对应；其中，k为正整数，1≤k≤K，K表示数据库中包含的人类注视图的总幅数，也为数据库中包含的立体图像的总幅数，K≥50，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，1≤x₈₀≤80,1≤y₆₀≤60，1≤x₆₄₀≤640,1≤y₄₈₀≤480；

步骤二：利用VGG网络模型中的特征提取技术构建深度学习模型，记为M_S，其中，深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合；

步骤四：将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{I_Lt(x_Lt,y_Lt)}和{I_Dt(x_Dt,y_Dt)}；然后将{I_Lt(x_Lt,y_Lt)}缩放至640×480尺寸，将得到的图像记为{I_lt(x₆₄₀,y₄₈₀)}；同样，将{I_Dt(x_Dt,y_Dt)}缩放至640×480尺寸，将得到的图像记为{I_dt(x₆₄₀,y₄₈₀)}；其中，I_Lt(x_Lt,y_Lt)表示{I_Lt(x_Lt,y_Lt)}中坐标位置为(x_Lt,y_Lt)的像素点的像素值，I_Dt(x_Dt,y_Dt)表示{I_Dt(x_Dt,y_Dt)}中坐标位置为(x_Dt,y_Dt)的像素点的像素值，1≤x_Lt≤W'，1≤y_Lt≤H'，1≤x_Dt≤W'，1≤y_Dt≤H'，W'表示{I_Lt(x_Lt,y_Lt)}或{I_Dt(x_Dt,y_Dt)}的宽度，H'表示{I_Lt(x_Lt,y_Lt)}或{I_Dt(x_Dt,y_Dt)}的高度，I_lt(x₆₄₀,y₄₈₀)表示{I_lt(x₆₄₀,y₄₈₀)}中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，I_dt(x₆₄₀,y₄₈₀)表示{I_dt(x₆₄₀,y₄₈₀)}中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值；

步骤五：将{I_lt(x₆₄₀,y₄₈₀)}和{I_dt(x₆₄₀,y₄₈₀)}作为输入参数，输入到M_T中，得到待视觉显著提取的立体图像的视觉显著图像，记为{I_Ot(x₈₀,y₆₀)}；其中，I_Ot(x₈₀,y₆₀)表示{I_Ot(x₈₀,y₆₀)}中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤x₈₀≤80,1≤y₆₀≤60。

2.根据权利要求1所述的一种基于双学习网络的立体图像视觉显著提取方法，其特征在于所述的步骤二的具体过程如下：

步骤A：构建深度学习模型的第1个网络块至第5个网络块，第1个网络块至第5个网络块用于提取彩色特征；

第1个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，1≤x₃₂₀≤320,1≤y₂₄₀≤240，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K；

第2个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，1≤x₁₆₀≤160,1≤y₁₂₀≤120，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K；

第5个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu，1≤k≤K；

第6个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₆₄₀,y₄₈₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，1≤x₃₂₀≤320,1≤y₂₄₀≤240，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K；

第7个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₃₂₀,y₂₄₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，1≤x₁₆₀≤160,1≤y₁₂₀≤120，第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K；

第8个网络块包括四层，第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₁₆₀,y₁₂₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤x₈₀≤80,1≤y₆₀≤60，第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu，最大池化层的步长为(2,2)，1≤k≤K；

第10个网络块包括三层，第一层为第一卷积层、第二层为第二卷积层、第三层为位置偏好学习层，第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为位置偏好学习层的输入为将位置偏好学习层的输出记为的获取过程为：将8×6尺寸的可学习参数图记为{I_pm(x₈,y₆)}；然后利用双线性插值方法将{I_pm(x₈,y₆)}经学习后得到的参数图放大到80×60尺寸，得到偏好参数图，记为{I_pa(x₈₀,y₆₀)}；再将{I_pa(x₈₀,y₆₀)}中的每个像素点的像素值逐像素乘以中对应像素点的像素值，得到其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，第一卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为320、激活函数为relu，第二卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu，I_pm(x₈,y₆)表示{I_pm(x₈,y₆)}中坐标位置为(x₈,y₆)的像素点的像素值，1≤x₈≤8,1≤y₆≤6，I_pa(x₈₀,y₆₀)表示{I_pa(x₈₀,y₆₀)}中坐标位置为(x₈₀,y₆₀)的像素点的像素值，1≤k≤K；

第12个网络块包括两层，第一层为特征融合层、第二层为卷积层，特征融合层的输入为和将特征融合层的输出记为卷积层的输入为将卷积层的输出记为其中，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，表示中坐标位置为(x₈₀,y₆₀)的像素点的像素值，卷积层的卷积核的大小为(1,1)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu，1≤k≤K；

至此构建得到深度学习模型M_S。