CN106682599B

CN106682599B - 一种基于稀疏表示的立体图像视觉显著提取方法

Info

Publication number: CN106682599B
Application number: CN201611156751.8A
Authority: CN
Inventors: 周武杰; 顾鹏笠; 张爽爽; 潘婷; 蔡星宇; 邱薇薇; 周扬; 赵颖; 陈芳妮; 陈寿法
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Hunan Donglong Color Printing Packaging Printing Co ltd
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2020-04-17
Anticipated expiration: 2036-12-15
Also published as: CN106682599A

Abstract

本发明公开了一种基于稀疏表示的立体图像视觉显著提取方法，其在字典学习阶段，先获取每幅立体图像的左视点图像的左视点视觉特征图和右视点图像的右视点视觉特征图，然后根据左视点图像和右视点图像及两者之间的视差图像、左视点视觉特征图和右视点视觉特征图，获取每幅立体图像的左右视点融合图像，接着根据所有左右视点融合图像进行联合字典训练操作得到融合图像字典表；在显著预测阶段，以相同的方式获取待视觉显著提取的立体图像的左右视点融合图像，然后根据融合图像字典表对左右视点融合图像进行处理得到融合稀疏特征图，进而提取得到视觉显著图；优点是符合显著语义特征，且具有较强的提取稳定性和较高的提取准确性。

Description

一种基于稀疏表示的立体图像视觉显著提取方法

技术领域

本发明涉及一种图像信号的处理方法，尤其是涉及一种基于稀疏表示的立体图像视觉显著提取方法。

背景技术

在人类视觉接收与信息处理中，由于大脑资源有限以及外界环境信息重要性区别，因此在处理过程中人脑对外界环境信息并不是一视同仁的，而是表现出选择特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的每个区域，而是对某些显著区域关注度更高。如何将视频中视觉注意度高的显著区域检测并提取出来是计算机视觉以及基于内容的视频检索领域的一个重要的研究内容。而随着立体视频显示技术和高质量立体视频内容获取技术的快速发展，针对立体图像/视频的显著区域检测及建模也是一个非常重要的研究内容。

然而，立体图像并不是平面图像的简单空间拓展，因此人眼感知立体图像产生立体视觉的过程也不是简单的左视点图像和右视点图像叠加的过程，因此，立体视觉特征(例如：三维视觉注意力)并不是平面视觉特性的简单拓展。然而，现有的立体图像显著提取方法还停留在平面图像显著提取方法的简单拓展上。因此，如何从立体图像中有效地提取出立体视觉特征、如何使得提取出的立体视觉特征符合人眼三维观看行为都是在对立体图像进行视觉显著图提取过程中需要研究解决的问题。

发明内容

本发明所要解决的技术问题是提供一种基于稀疏表示的立体图像视觉显著提取方法，其符合显著语义特征，且具有较强的提取稳定性和较高的提取准确性。

本发明解决上述技术问题所采用的技术方案为：一种基于稀疏表示的立体图像视觉显著提取方法，其特征在于包括字典学习阶段和显著预测阶段两个过程；

所述的字典学习阶段的具体步骤如下：

①_1、选取K幅宽度为W且高度为H的立体图像，将第k幅立体图像记为S_RGB,k，将S_RGB,k的左视点图像记为{L_RGB,k(x,y)}，将S_RGB,k的右视点图像记为{R_RGB,k(x,y)}，其中，1≤K≤100，1≤k≤K，1≤x≤W,1≤y≤H，L_RGB,k(x,y)表示{L_RGB,k(x,y)}中坐标位置为(x,y)的像素点的像素值，R_RGB,k(x,y)表示{R_RGB,k(x,y)}中坐标位置为(x,y)的像素点的像素值；

①_2、根据每幅立体图像的左视点图像和右视点图像，并采用块匹配方法，计算每幅立体图像的左视点图像与右视点图像之间的视差图像，将{L_RGB,k(x,y)}与{R_RGB,k(x,y)}之间的视差图像记为{d_k(x,y)}，其中，d_k(x,y)表示{d_k(x,y)}中坐标位置为(x,y)的像素点的像素值；

①_3、采用LOG滤波方法，对每幅立体图像的左视点图像进行操作，得到每幅立体图像的左视点图像的左视点视觉特征图，将{L_RGB,k(x,y)}的左视点视觉特征图记为{L_LOG,k(x,y)}，其中，L_LOG,k(x,y)表示{L_LOG,k(x,y)}中坐标位置为(x,y)的像素点的像素值；

同样，采用LOG滤波方法，对每幅立体图像的右视点图像进行操作，得到每幅立体图像的右视点图像的右视点视觉特征图，将{R_RGB,k(x,y)}的右视点视觉特征图记为{R_LOG,k(x,y)}，其中，R_LOG,k(x,y)表示{R_LOG,k(x,y)}中坐标位置为(x,y)的像素点的像素值；

①_4、根据每幅立体图像的左视点图像和右视点图像、左视点图像与右视点图像之间的视差图像、左视点图像的左视点视觉特征图和右视点图像的右视点视觉特征图，计算每幅立体图像的左右视点融合图像，将S_RGB,k的左右视点融合图像记为{R_L,R,k(x,y)}，其中，R_L,R,k(x,y)表示{R_L,R,k(x,y)}中坐标位置为(x,y)的像素点的像素值；

①_5、采用K-SVD方法，对所有立体图像的左右视点融合图像进行联合字典训练操作，得到融合图像字典表，记为{D_c(x,y)}，其中，D_c(x,y)表示{D_c(x,y)}中坐标位置为(x,y)的像素点的像素值；

所述的显著预测阶段的具体步骤如下：

②_1、令S_RGB表示宽度为W且高度为H的待视觉显著提取的立体图像，将S_RGB的左视点图像记为{L_RGB(x,y)}，将S_RGB的右视点图像记为{R_RGB(x,y)}，其中，1≤x≤W,1≤y≤H，L_RGB(x,y)表示{L_RGB(x,y)}中坐标位置为(x,y)的像素点的像素值，R_RGB(x,y)表示{R_RGB(x,y)}中坐标位置为(x,y)的像素点的像素值；

②_2、根据{L_RGB(x,y)}和{R_RGB(x,y)}，采用块匹配方法，计算{L_RGB(x,y)}与{R_RGB(x,y)}之间的视差图像，记为{d(x,y)}，其中，d(x,y)表示{d(x,y)}中坐标位置为(x,y)的像素点的像素值；

②_3、采用LOG滤波方法，对{L_RGB(x,y)}进行操作，得到{L_RGB(x,y)}的左视点视觉特征图，记为{L_LOG(x,y)}，其中，L_LOG(x,y)表示{L_LOG(x,y)}中坐标位置为(x,y)的像素点的像素值；

同样，采用LOG滤波方法，对{R_RGB(x,y)}进行操作，得到{R_RGB(x,y)}的右视点视觉特征图，记为{R_LOG(x,y)}，其中，R_LOG(x,y)表示{R_LOG(x,y)}中坐标位置为(x,y)的像素点的像素值；

②_4、根据{L_RGB(x,y)}和{R_RGB(x,y)}、{d(x,y)}、{L_LOG(x,y)}和{R_LOG(x,y)}，计算S_RGB的左右视点融合图像，记为{R_L,R(x,y)}，其中，R_L,R(x,y)表示{R_L,R(x,y)}中坐标位置为(x,y)的像素点的像素值；

②_5、根据字典学习阶段得到的融合图像字典表{D_c(x,y)}，并采用K-SVD求解方法对{R_L,R(x,y)}进行处理，得到S_RGB的融合稀疏特征图，记为{SR(x,y)}，其中，SR(x,y)表示{SR(x,y)}中坐标位置为(x,y)的像素点的像素值；

②_6、采用中央周边差操作对{SR(x,y)}中的所有像素点的像素值进行处理，得到S_RGB的视觉显著图，记为{S(x,y)}，其中，S(x,y)表示{S(x,y)}中坐标位置为(x,y)的像素点的像素值。

所述的步骤①_4中的

其中，R_RGB,k(x+d_k(x,y),y)表示{R_RGB,k(x,y)}中坐标位置为(x+d_k(x,y),y)的像素点的像素值，R_LOG,k(x+d_k(x,y),y)表示{R_LOG,k(x,y)}中坐标位置为(x+d_k(x,y),y)的像素点的像素值。

所述的步骤②_4中的

其中，R_RGB(x+d(x,y),y)表示{R_RGB(x,y)}中坐标位置为(x+d(x,y),y)的像素点的像素值，R_LOG(x+d(x,y),y)表示{R_LOG(x,y)}中坐标位置为(x+d(x,y),y)的像素点的像素值。

与现有技术相比，本发明的优点在于：

1)本发明方法采用双目融合模型对左右视点进行融合，左右视点融合图像很好的模拟了双目视觉特性，为提高视觉显著值预测的准确性和稳定性做了准备。

2)本发明方法采用稀疏表示的方法提取融合稀疏特征图，提取的融合稀疏特征图能够较好地反映各种因素的显著变化情况，符合显著语义特征。

3)本发明方法采用了中央周边差操作对融合稀疏特征图中的所有像素点的像素值进行处理，并最终获得立体图像的视觉显著图，通过这个过程进一步提高了视觉显著值的预测准确性和预测稳定性，从而进一步提高了立体图像的视觉显著图的提取稳定性和提取准确性。

附图说明

图1为本发明方法的总体实现框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于稀疏表示的立体图像视觉显著提取方法，其总体实现框图如图1所示，其包括字典学习阶段和显著预测阶段两个过程。

所述的字典学习阶段的具体步骤如下：

①_1、选取K幅宽度为W且高度为H的立体图像，将第k幅立体图像记为S_RGB,k，将S_RGB,k的左视点图像记为{L_RGB,k(x,y)}，将S_RGB,k的右视点图像记为{R_RGB,k(x,y)}，其中，1≤K≤100，如可取K＝60，1≤k≤K，1≤x≤W,1≤y≤H，L_RGB,k(x,y)表示{L_RGB,k(x,y)}中坐标位置为(x,y)的像素点的像素值，R_RGB,k(x,y)表示{R_RGB,k(x,y)}中坐标位置为(x,y)的像素点的像素值。

①_2、根据每幅立体图像的左视点图像和右视点图像，并采用现有的块匹配方法，计算每幅立体图像的左视点图像与右视点图像之间的视差图像，将{L_RGB,k(x,y)}与{R_RGB,k(x,y)}之间的视差图像记为{d_k(x,y)}，其中，d_k(x,y)表示{d_k(x,y)}中坐标位置为(x,y)的像素点的像素值。

①_3、采用现有的LOG(Laplacian of Gaussian)滤波方法，对每幅立体图像的左视点图像进行操作，得到每幅立体图像的左视点图像的左视点视觉特征图，将{L_RGB,k(x,y)}的左视点视觉特征图记为{L_LOG,k(x,y)}，其中，L_LOG,k(x,y)表示{L_LOG,k(x,y)}中坐标位置为(x,y)的像素点的像素值。

同样，采用现有的LOG滤波方法，对每幅立体图像的右视点图像进行操作，得到每幅立体图像的右视点图像的右视点视觉特征图，将{R_RGB,k(x,y)}的右视点视觉特征图记为{R_LOG,k(x,y)}，其中，R_LOG,k(x,y)表示{R_LOG,k(x,y)}中坐标位置为(x,y)的像素点的像素值。

①_4、根据每幅立体图像的左视点图像和右视点图像、左视点图像与右视点图像之间的视差图像、左视点图像的左视点视觉特征图和右视点图像的右视点视觉特征图，计算每幅立体图像的左右视点融合图像，将S_RGB,k的左右视点融合图像记为{R_L,R,k(x,y)}，其中，R_L,R,k(x,y)表示{R_L,R,k(x,y)}中坐标位置为(x,y)的像素点的像素值。

在此具体实施例中，步骤①_4中的

①_5、采用现有的K-SVD(K-means Singular Value Decomposition)方法，对所有立体图像的左右视点融合图像进行联合字典训练操作，得到融合图像字典表，记为{D_c(x,y)}，其中，D_c(x,y)表示{D_c(x,y)}中坐标位置为(x,y)的像素点的像素值。

所述的显著预测阶段的具体步骤如下：

②_1、令S_RGB表示宽度为W且高度为H的待视觉显著提取的立体图像，将S_RGB的左视点图像记为{L_RGB(x,y)}，将S_RGB的右视点图像记为{R_RGB(x,y)}，其中，1≤x≤W,1≤y≤H，L_RGB(x,y)表示{L_RGB(x,y)}中坐标位置为(x,y)的像素点的像素值，R_RGB(x,y)表示{R_RGB(x,y)}中坐标位置为(x,y)的像素点的像素值。

②_2、根据{L_RGB(x,y)}和{R_RGB(x,y)}，采用现有的块匹配方法，计算{L_RGB(x,y)}与{R_RGB(x,y)}之间的视差图像，记为{d(x,y)}，其中，d(x,y)表示{d(x,y)}中坐标位置为(x,y)的像素点的像素值。

②_3、采用现有的LOG滤波方法，对{L_RGB(x,y)}进行操作，得到{L_RGB(x,y)}的左视点视觉特征图，记为{L_LOG(x,y)}，其中，L_LOG(x,y)表示{L_LOG(x,y)}中坐标位置为(x,y)的像素点的像素值。

同样，采用现有的LOG滤波方法，对{R_RGB(x,y)}进行操作，得到{R_RGB(x,y)}的右视点视觉特征图，记为{R_LOG(x,y)}，其中，R_LOG(x,y)表示{R_LOG(x,y)}中坐标位置为(x,y)的像素点的像素值。

②_4、根据{L_RGB(x,y)}和{R_RGB(x,y)}、{d(x,y)}、{L_LOG(x,y)}和{R_LOG(x,y)}，计算S_RGB的左右视点融合图像，记为{R_L,R(x,y)}，其中，R_L,R(x,y)表示{R_L,R(x,y)}中坐标位置为(x,y)的像素点的像素值。

在此具体实施例中，步骤②_4中的

②_5、根据字典学习阶段得到的融合图像字典表{D_c(x,y)}，并采用现有的K-SVD求解方法对{R_L,R(x,y)}进行处理，得到S_RGB的融合稀疏特征图，记为{SR(x,y)}，其中，SR(x,y)表示{SR(x,y)}中坐标位置为(x,y)的像素点的像素值。

②_6、采用现有的中央周边差操作(Center-surround difference operations)对{SR(x,y)}中的所有像素点的像素值进行处理，得到S_RGB的视觉显著图，记为{S(x,y)}，其中，S(x,y)表示{S(x,y)}中坐标位置为(x,y)的像素点的像素值。

为了验证本发明方法的可行性和有效性，进行实验。

在此，采用法国南特大学提供的三维人眼跟踪数据库(3Deye-trackingdatabase)来分析本发明方法的提取准确性和提取稳定性。这里，利用评估视觉显著提取方法的3个常用客观参量作为评价指标，即Pearson相关系数(Pearson linear correlationcoefficient，PLCC)、Kullback-Leibler散度系数(Kullback-Leibler divergence，KLD)、AUC参数(the Area Under the receiver operating characteristics Curve，AUC)。

利用本发明方法获取法国南特大学提供的三维人眼跟踪数据库中的每幅立体图像的视觉显著图，并与三维人眼跟踪数据库中的每幅立体图像的主观视觉显著图(三维人眼跟踪数据库中存在)进行比较，PLCC和AUC值越高、KLD值越低说明本发明方法提取的视觉显著图与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的PLCC、KLD和AUC相关指标如表1所列。从表1所列的数据可知，按本发明方法提取得到的视觉显著图的提取准确性和提取稳定性是很好的，表明客观提取结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

表1 利用本发明方法提取得到的视觉显著图的提取准确性和提取稳定性

性能指标	性能指标值
		PLCC	0.405
KLD	0.670
		AUC	0.673

Claims

1.一种基于稀疏表示的立体图像视觉显著提取方法，其特征在于包括字典学习阶段和显著预测阶段两个过程；

所述的字典学习阶段的具体步骤如下：

所述的步骤①_4中的

，其中，R_RGB,k(x+d_k(x,y),y)表示{R_RGB,k(x,y)}中坐标位置为(x+d_k(x,y),y)的像素点的像素值，R_LOG,k(x+d_k(x,y),y)表示{R_LOG,k(x,y)}中坐标位置为(x+d_k(x,y),y)的像素点的像素值；

所述的显著预测阶段的具体步骤如下：

所述的步骤②_4中的

，其中，R_RGB(x+d(x,y),y)表示{R_RGB(x,y)}中坐标位置为(x+d(x,y),y)的像素点的像素值，R_LOG(x+d(x,y),y)表示{R_LOG(x,y)}中坐标位置为(x+d(x,y),y)的像素点的像素值；