CN102750731B

CN102750731B - 基于左右单眼感受野和双目融合的立体视觉显著计算方法

Info

Publication number: CN102750731B
Application number: CN201210231834.4A
Authority: CN
Inventors: 田永鸿; 王敏; 黄铁军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-07-05
Filing date: 2012-07-05
Publication date: 2016-03-23
Anticipated expiration: 2032-07-05
Also published as: CN102750731A

Abstract

本发明涉及一种基于左右单眼感受野和双目融合的立体视觉显著计算方法，属于计算机视觉技术领域。通过模拟人类立体视觉系统处理过程，首先分别建立左右单眼感受野模型获取对应的特征图，然后融合同特征下左右眼的特征图和不同特征的结果图，并基于中心偏爱和前景偏爱调整像素显著度，最终得到最接近人类立体视觉注意的显著度分布图。本发明创新点在于：加入了“中心偏爱”和“前景偏爱”两种常见现象对人类立体视觉注意的影响，使得整个方法能够更好的符合人类视觉系统处理过程。本发明提供的立体视觉显著计算方法，能够更好的模拟人类立体视觉系统处理过程，并更有效地提取立体图像中感兴趣区域。

Description

基于左右单眼感受野和双目融合的立体视觉显著计算方法

技术领域

本发明涉及一种基于左右单眼感受野和双目融合的立体视觉显著计算方法，属于计算机视觉技术领域。

背景技术

在人类所面对的大千世界中，任意时刻都有海量信息存在人类周围。然而一方面人类的感觉系统能力有限，无法同时接受全部信息；另一方面与感觉系统相比，大脑的信息处理能力非常有限，在这两者之间出现了瓶颈问题。为了有效的接收信息和处理信息，视觉注意是精神系统必不可少的一个部分。

人类的视觉系统（HVS）在面对一个复杂场景时能够迅速对视觉场景中非重要信息进行选择性滤除，从而将注意力集中在少数视觉显著的对象上，该过程被称为视觉注意（VisualAttention）。视觉注意是人类精神系统非常重要的功能，能够将精神活动集中于感官事件或精神事件。它是视觉感知模型的一部分，与人类的学习、记忆等模块协同工作，完成把需要注意的目标从背景分离、注意焦点在多个目标间转移等任务。

在计算机视觉领域，为了模拟人类视觉注意的特性，提出了显著度（Saliency）的概念。鉴于以上的重要性，视觉显著度分析得到了很多研究机构的注意，成为计算机视觉领域的一个热点研究方向。在美国加州理工大学的kLab实验室、美国南加州大学的iLab实验室、微软亚洲研究院等都在该领域取得了一定的成绩。但是目前主流的视觉显著计算方法研究方向主要基于2D图像视频，很少有涉及到立体视觉显著计算方法的研究。

三维技术从很早就已经诞生，其历史可以追溯到1839年英国科学家查理惠斯顿爵士发明了立体眼镜，从而让人们的左眼和右眼看同样图像时产生不同的效果。然而受限于三维技术的不成熟，虽然1936年就已经有了立体式效果的影片，但是二维电影图像一直都是多媒体领域的主流内容，因而绝大部分视觉注意以二维图像、视频为研究对象。随着RealID三维等技术发展，尤其是《阿凡达》的巨大成功，开辟了电影史上一个新的时代。美国好莱坞梦工厂已经宣布2009年以后出品的动画影片全部采用数字立体格式，迪士尼也宣布以后生产的动画片全部采用数字立体格式。国际一致认为数字立体电影改变了人们在影院的观影方式和体验，成为电影新的增长点。从产业数据上看出3D电影的票房比2D电影票房高出5倍多，优异的收入更加推动了三维技术的发展，毋庸置疑3D电影电视图像开始逐渐取代2D电影电视图像成为未来发展的主流。3D成像技术还推动了多个领域的发展，包括微软Kinect大卖预示着立体体感游戏将成为游戏的主流方向；珍藏的古董及主表可以通过三维完全详细检视；得益于两眼存在距离感可以使医生更好的分辨细微的物体，远距医学也逐渐发展，由上可见立体技术将会成为时代的主流。三维技术的发展也促使研究立体场景下人类的视觉注意方法成为了可能。

人类的视觉系统也是立体的，存在左右眼视差和左右眼的融合形成深度上的感受，增加人类的辨识能力。立体视觉注意无论是在心理学还是神经科学上都得到了广泛的关注，也有不少的立体视觉方面的研究被发表，从左右眼差别，深度获取，双眼竞争，双目融合等各方面都提出了研究理论，进而对立体视觉显著计算方法支撑。可以预见，立体视觉显著计算方法将会取代二维视觉显著计算方法，成为计算机视觉领域研究的一个热点研究方向。

计算机视觉领域中对二维图像视频的视觉显著度分析主要还是依托于生理学、心理学等结论，通过计算机模拟人类大脑的视觉注意过程。在认知神经科学中，现有视觉注意的理论包括基于物体注意和基于空间注意两种理论。基于物体注意理论认为物体的诸如颜色、运动、朝向、纹理、深度等特征在视觉系统中是独立编码的，视觉注意的目标是将这些不同的特征组合在一起；多个神经子系统的涌现性质可以化解视觉处理与行为控制之间的竞争。而基于空间注意的理论也提出了导引搜索模型和显著图（Saliencymap）模型。视觉注意基本机理的研究对探索视觉显著计算方法有着指导意义。根据以上生理、心理学的研究，显著度提取的研究主要用自底向上计算方法模拟视觉系统处理过程来进行的。

自底向上的方法主要基于Treisman的特征整合理论，从输入图像提取多方面的特征，如颜色、朝向、亮度、运动、深度等，形成在各个特征维上的特征图；然后对这些特征图进行分析、融合得到兴趣图。兴趣图中可能含有多个待注意的候选目标，通过竞争机制选出唯一的显著目标。目前大部分立体视觉显著计算方法是基于二维视觉显著计算方法，加入深度特征进行扩展。

基于人类单眼感受野视觉特点，目前很多二维视觉显著计算方法采用对比这一生理学理论，对图像进行显著度提取。其中代表工作包括“中央—四周”的方法与利用模糊增长的方法。如在论文“Amodelofsaliency-basedvisualattentionforrapidsceneanalysis”（快速场景分析的视觉显著度提取模型，Itti等，IEEETransactionsonPatternAnalysisandMachineIntelligence，1998）中首先利用高斯金字塔生成多尺度图像，通常采用九级高斯金字塔，之后利用“中央—四周”算子计算不同尺度之间的对比度。该方法采用的特征包括亮度、颜色和方向。通过特征提取后得到特征图，然后对不同尺度的同一特征图像进行特征内部竞争形成中间显著图，最后对不同特征之间的中间显著图归一化并线性加和得到原图像的最终显著度图（得到的最终显著度图的长、宽将会是原图像的长、宽1/16）。

大部分立体视觉显著计算方法基于“中心—四周”二维视觉显著计算方法加入深度信息进行扩展，如在论文“Computingvisualattentionfromscenedepth”（基于场景深度计算视觉注意，Ouerhani等，InternationalConferenceonPatternRecognition，2000）中加入了深度信息，使得深度成为一个特征，与颜色、亮度、方向等特征采用相同的处理方法提取特征图，然后不同特征非线性加权融合得到立体图像的显著图。

但是大部分立体视觉显著计算方法只是在左眼图像上提取立体图像的显著图，并没有考虑双目融合问题，并不完全符合人类的立体视觉系统处理过程。另一方面，大部分的立体视觉显著计算方法采用的图像是该论文作者自身拍摄，没有相应的人工标注结果，同时也没有一个公开的立体图像评测数据集，无法做到定量对比。

总的来说，大部分自底向上的立体视觉显著计算方法都基于二维视觉显著计算方法进行扩展，比较好的模拟了单眼感受野模型，符合一部分人类视觉处理过程，但是大部分的计算方法只是把深度作为一个特征，没有考虑双目融合的问题，并不含有人类立体视觉系统中双眼互相作用的这一重要过程。

因此，为了更好地模拟了人类立体视觉系统处理的主要过程，本文提出了一个基于左右单眼感受野和双目融合的立体视觉显著计算方法。在本方法实例中首先借鉴视网膜的特性，提取颜色特征和亮度特征作为信息输入，然后用2DLog-Gabor滤波金字塔模拟单眼的感受野模型并考虑了左右眼存在相位差这一特性，之后实现了Two-Stage模型来模拟左右眼同尺度同方向上兴奋、抑制的相互作用作为双目融合，最后加入空间和深度上人类的视觉普遍特性（中心偏爱和前景偏爱）对视觉注意的影响，最终提取立体图像的显著区域。

发明内容

本发明要解决的问题是：如何通过模拟人类立体视觉系统处理过程，自动估计立体图像的显著度分布。

基于左右单眼感受野和双目融合的立体视觉显著计算方法，通过模拟人类立体视觉系统处理过程，首先分别建立左右单眼感受野模型获取对应的特征图，然后融合同特征下左右眼的特征图和不同特征的结果图，并基于中心偏爱和前景偏爱调整像素显著度，最终得到最接近人类立体视觉注意的显著度分布图。

基于左右单眼感受野和双目融合的立体视觉显著计算方法，主要包括以下三个步骤：

1)基于感受野相位差分别获取左眼和右眼特征图步骤：提取立体图像的底层特征，并分别建立左眼和右眼感受野模型，获取左眼和右眼的特征图；

2)双目融合：融合同特征下左右眼的特征图步骤，并融合不同特征的结果图；

3)基于中心偏爱和前景偏爱调整权值步骤：加入像素的空间位置信息和深度信息对该像素显著度的影响，进行权值调整。

所述基于感受野相位差获取左眼步骤和右眼特征图步骤，包括以下步骤：

提取底层特征步骤：提取立体图像的底层特征作为输入信息；

获取左眼特征图步骤：建立左眼感受野模型，获取左眼特征图；

获取右眼特征图步骤：根据左右眼的相位差，建立相应的右眼感受野模型，对右眼底层特征采用相同的处理方法，获取右眼特征图。

所述的获取右眼特征图步骤是建立相应的右眼感受野模型，其模型与左眼感受野模型同一个形状但存在一定相位差，并对右眼底层特征采用相同的处理方法，提取右眼特征图。

双目融合步骤包括以下步骤：

同特征融合：模拟人类左右眼兴奋抑制等相互作用，融合同特征下左眼和右眼的特征图；

不同特征融合：融合不同特征的结果图。

基于中心偏爱和前景偏爱权值调整步骤包括以下步骤：

计算中心偏爱的影响：计算立体图像中像素的位置信息对该像素显著度的影响；

计算前景偏爱的影响：计算立体图像中像素的深度信息对该像素显著度的影响。

本发明由于采取以上技术方案，与已有方法相比，主要创新点在于：

1.大部分立体视觉显著计算方法没有考虑左右眼的相位差，本发明加入了左右眼相位差的考虑，分别建立了左眼感受野模型和右眼感受野模型。更加符合人类视觉系统处理过程。

2.大部分立体视觉显著计算方法没有考虑双目融合问题，本发明加入了双目融合的过程，模拟左右眼兴奋抑制等相互作用，更加符合人类视觉系统处理过程。

3.本发明加入了“中心偏爱”和“前景偏爱”两种常见现象对人类立体视觉注意的影响，使得整个方法能够更好的符合人类视觉系统处理过程。

本发明提供的立体视觉显著计算方法，能够更好的模拟人类立体视觉系统处理过程，并更有效地提取立体图像中感兴趣区域。

附图说明

图1本发明的立体视觉显著计算方法流程示意图。

图2本发明的2DLog-Gabor滤波金字塔在第三尺度和第五方向上的示意图。

图3本发明的单眼感受野左右相位差图。

图4本发明的双目融合Two-Stage模型流程图。

图5本发明的立体视觉显著计算方法对立体图像的显著度估计结果示例图。

具体实施方式

实施例1：

基于左右单眼感受野和双目融合的立体视觉显著计算方法，包括以下三个步骤：

a)获取单眼感受野的特征图。

b)双目融合。

c)基于中心偏爱和前景偏爱调整权值。

通过上述三个步骤，可以自动估计立体图像的显著度分布。其中，

所述的提取单眼感受野的特征图通过建立左右单眼感受野模型提取不同特征下显著度分布图。

所述的提取单眼感受野的特征图的方法，主要包括以下步骤：

a)底层特征提取：提取立体图像的底层特征作为输入信息。

b)获取左眼特征图：模拟人类视皮层简单细胞，建立左眼感受野模型，对左眼输入信息进行过滤，提取立体图像中的左图中显著区域。

c)获取右眼特征图：根据左右眼相位差，建立对应的右眼感受野模型，提取立体图像中的右图中显著区域。

在本实例中，所述底层特征提取包括提取图像的亮度特征和颜色特征，颜色特征包括红绿特征和蓝黄特征。

在本实例中，所述获取左眼特征图包括构建5个不同尺度8个不同方向的2DLog-Gabor滤波器，在傅里叶域对图像滤波并计算图像中对比熵，映射到每个像素的显著度。

在本实例中，所述获取右眼特征图包括是根据左右眼感受野模型存在相位差，分别构建左眼和右眼的2DLog-Gabor感受野模型，进而分别提取左眼和右眼输入图像的特征图。

在本实例中，所述的双目融合是用Two-Stage模型模拟双眼的相互作用，融合同特征下同尺度同方向的特征结果，之后用基于内容的全局非线性模型融合不同特征的结果。

所述的双目融合，主要包括以下步骤：

a)同尺度同方向的双目融合：融合同特征下同尺度同方向的左右眼的特征图。

b)不同特征融合：融合不同特征的结果图。

在本实例中，所述同尺度同方向的双目融合包括用Two-Stage模型模拟人类左右眼相互兴奋、抑制等相互作用，融合同特征下同尺度同方向的特征图。

在本实例中，所述不同特征融合包括用基于内容的全局非线性方法融合不同特征的显著图，形成一个显著图。

所述的基于中心偏爱和前景偏爱调整权值主要是加入“中心偏爱”和“前景偏爱”对立体视觉注意的影响，进而更加符合人类立体视觉注意过程。

所述的“中心偏爱”和“前景偏爱”的方法，主要包括以下步骤：

a)中心偏爱：计算立体图像中像素位置信息对该像素显著度的影响。

b)前景偏爱：计算立体图像中像素深度信息对该像素显著度的影响。

所述中心偏爱包括计算像素所处的图像位置（横轴x，纵轴y）对该像素显著度的影响。

所述前景偏爱包括计算像素所处的图像深度（深度d）对该像素显著度的影响。

实施例2：

图1为本发明的流程示意图，结合该图和实例，该立体视觉显著计算方法详细描述如下：

步骤1：对立体图像的左图和右图分别提取底层特征。

人通过视网膜上视锥细胞和视杆细胞来感受光和颜色，然后把这些信息传入到视觉中枢，进行进一步分析。

所以在本文中模拟视网膜神经细胞，提取图像的亮度和颜色特征作为信息的输入。

一般来说，图像有红(r)、绿(g)、蓝(b)三种颜色组成，那么这里的亮度定义为I=(r+g+b)/3，由此来表示亮度特征I。

颜色特征选择的是颜色对比，不是红绿蓝，虽然在生理学上经常提到红，绿，蓝三种反应细胞，对应到不同的波长：580nm，545nm和440nm。

实际上他们更接近与橘黄、黄色、蓝色的色调，特别是对蓝色的敏感是对红色、绿色的敏感的10倍，

所以采用R=r-(g+b)/2来表示红，

G=g-(r+b)/2来表示绿，

B=b-(r+g)/2来表示蓝，

Y=r+g-2(|r-g|+b)来表示黄。

用R，G，B和Y更加的合理并且很简单和能够很好的计算，综上用这种方法就会存在4种色调，可以建立4个不同的颜色通道。

由上面的定义可以看出来R，G，B这3个通道在各自纯色的时候取最大的值，然后Y通道等于0的时候既表示黑色（0）也表示白色（255）。

视神经元一般受到一种颜色的兴奋和对应相反颜色的抑制（Engel，1997），所以在本实验中选取两种对比色红绿RG(RG=|R-G|)，蓝黄BY(BY=|B-Y|)作为颜色特征。

步骤2：建立左眼2DLog-Gabor感受野模型提取左眼特征图。

2DLog-Gabor滤波定位为傅里叶域极坐标下对传统Gabor滤波的高斯位移：

G (ρ, θ, s, t) = \exp (- \frac{{(ρ - ρ_{s})}^{2}}{2 {σ_{ρ}}^{2}}) \exp (- \frac{{(θ - θ_{st})}^{2}}{2 {σ_{θ}}^{2}}) - - - (1)

其中：

ρ,θ表示极坐标；

s和t分别表示尺度和方向；

ρ_s,θ_st对应Log-Gabor滤波频率的中心；

σ_ρ,σ_θ分别表示ρ和θ带宽。

考虑对数极坐标的傅里叶域是非常有道理的。事实上，在这个坐标系中，滤波器的倍频分布构成了规则网格，滤波器的中心位于相同的六角形中。而且滤波器是纯粹的高斯，其带宽在不同方向不同尺度保持恒定。

与Gabor滤波类似，2DLog-Gabor也是由偶对称滤波和奇对称滤波组成，对应到实部和虚部。

为了能够更好的模拟人的视觉系统，参考了生理学和神经学在相关方面的论文。在方向上带宽受视皮层简单细胞方向分辨率影响，一般估计在20-40度左右。

因此需要6到13个方向来覆盖平面上的180度。因此本文选择8个方向获取31.8度的滤波器。

尺度上的带宽估计在0.6到3.2倍频之间，每个视网膜位置上视皮层细胞至少覆盖4个倍频。因此每个视网膜至少有3个不同尺度。

根据以上结论，本文为了更好的模拟人类视觉系统的简单视皮层细胞，选择了5个尺度8个方向的2DLog-Gabor滤波金字塔。

图2展示了该2DLog-Gabor滤波金字塔在第三层第五方向空间域上示意图。

本发明中选择红绿（RG）和蓝黄（BY）颜色作为前注意特征，同时亮度（I）也被选择为前注意特征。

左眼的特征图计算如下：

RG_L(s，t)=F^-1(LG_st(F(RG_L))

BY_L(s，t)=F^-1(LG_st(F(BY_L))(2)

I_L(s，t)=F^-1(LG_st(F(I_L)).

其中s∈{1,2,3,4,5}表示尺度，

t∈{1,2,3,4,5,6,7,8}表示方向，

F和F^-1分别表示傅里叶变换和傅里叶反变换，

L表示左眼。

RG_L表示左眼红绿特征，BY_L表示左眼蓝黄特征，I_L表示左

眼亮度特征，

LG_st表示s尺度t方向的2DLog-Gabor滤波器，

RG_L(s，t)表示左眼红绿特征在s尺度t方向的特征图，

BY_L(s，t)表示左眼蓝黄特征在s尺度t方向的特征图，

I_L(s，t)表示左眼亮度特征在s尺度t方向的特征图。

步骤3：建立右眼2DLog-Gabor感受野模型提取右眼特征图。

人类的视觉系统依靠左右两只眼睛获取视觉信息，两只眼睛分别对应到左眼感受野和右眼感受野模型是同一个形状但是存在一定的偏移。神经生物学通过猫视皮层第一次证明存在相位差。在后来猴子视皮层实验中也同样被证实。

图3展示了左右眼相位的视差图，其中偶对称的感受野模型对应一只眼睛，而奇对称的感受野模型对应另外一个只眼睛。

因此本发明中的立体视觉显著计算方法当中左右眼的单眼感受野模型也存在一定的相位差，右眼感受野模型相对于左眼感受野模型存在一定的相位偏移。

右眼感受野模型和左眼感受野模型类似（如公式（2）），但是存在φ的相位差：

RG_R(s,t+φ)=F^-1(LG_s(t+φ)(F(RG_R))

BY_R(s，t+φ)=F^-1(LG_s(t+φ)(F(BY_R))(3)

I_R(s，t+φ)=F^-1(LG_s(t+φ)(F(I_R)).

其中R表示右眼，φ表示相位差；

RG_R表示右眼红绿特征，BY_R表示右眼蓝黄特征，I_R表示右眼亮度特征；

LG_s(t+φ)表示s尺度t+φ方向的2DLog-Gabor滤波器；

RG_R(s，t+φ)表示右眼红绿特征在s尺度t+φ方向的特征图；

BY_R(s，t+φ)表示右眼蓝黄特征在s尺度t+φ方向的特征图；

I_R(s，t+φ)表示右眼亮度特征在s尺度t+φ方向的特征图。

步骤4：同特征下同尺度同方向的双目融合。

任何一个双目重叠的视觉系统的一个基本问题就是如何融合单目所获取的信息。电生理学显示双目融合发生生在视觉皮层早期。

在前期大多数心理学工作都用了双眼刺激，因此单眼路径和双目融合交互等特性都不清楚。普遍认为双目融合比率在40%左右。从最基本的线性相加单眼信息，到非线性平方融合单眼信息。但是这两种融合方法都是单通模式（比如他们忽略了优势眼问题），并且已证实但通道模式不足以解释存在噪音下对比检测性能，其他的实验发现融合比率超过更加说明双目融合非单通道模式。

近年来，越来越多的学者认为双目融合需要动态对比增益控制，而不是静态非线性单通道模式，而且双目融合模型需要考虑离眼掩盖中长勺形状（在单目与双目掩盖低对比度简易化发生，但是在高对比度时候倒退，进而产生长勺形状），所以绝大部分论文支持非二次求和的双目融合模型。

本发明采用Two-stage模型来融合同特征同方向同尺度上左右眼的特征图。

该模型能够正确预测了：

（1）心理斜坡的变化，

（2）离眼对比匹配，

（3）对于各级单眼基础的高水平的双目融合，

（4）双目融合比率超过了

图4展示了Two-stage模型的流程。

其中L，R分别表示左眼和右眼同尺度同方向下某一特征的结果。绿线表示兴奋通道，红线表示抑制通道。

所以本文某一特征下同尺度同方向的双目融合模型如下：

Stage 1 ({RG}_{L} (s, t)) = \frac{{RG}_{L} {(s, t)}^{m}}{n + {RG}_{L} (s, t) + {RG}_{R} (s, t + φ)}

Stage 1 ({RG}_{R} (s, t + φ)) = \frac{{RG}_{R} {(s, t + φ)}^{m}}{n + {RG}_{L} (s, t) + {RG}_{R} (s, t + φ)}

(4)

{RG}_{LR} (s, t) = resp ({RG}_{L} (s, t), {RG}_{R} (s, t + φ))

其中Stage1(RG_L(s，t))表示左眼的最终结果，

Stage1(RG_R(s，t))表示右眼的最终结果，

m,n，z，p,q是调节双眼互相作用的参数可根据需求进行调整；

RG_LR(s，t)和resp(RG_L(s，t),RG_R(s，t+φ))表示红绿特征在s尺度t方向上的双目融合结果。

其他特征同尺度同方向的双目融合模型类似红绿特征。

步骤5：不同特征的融合。

本发明采用基于内容的全局非线性方法融合不同特征的结果图。

基于内容的全局非线性融合N(.)方法如下：

1.把每个特征图归一化到[0,1]之间，以消除不同特征图强度的差异。

2.找出特征图的全局最大值M并且计算其他局部最大值的平均值m。

3.然后全局乘以

首先对同一特征在不同尺度和方向下的结果直接线性加和：

{RG}_{LR} = Σ_{s = 1}^{5} Σ_{t = 1}^{8} {RG}_{LR} (s, t)

{RY}_{LR} = Σ_{s = 1}^{5} Σ_{t = 1}^{8} {RY}_{LR} (s, t) - - - (5)

I_{LR} = Σ_{s = 1}^{5} Σ_{t = 1}^{8} I_{LR} (s, t)

其中RG_LR表示红绿特征的双目融合最后结果，

BY_LR表示蓝黄特征的双目融合最后结果，

I_LR表示亮度特征的双目融合最后结果。

然后不同特征非线性融合：

S_{LR} = \frac{1}{3} (N ({RG}_{LR}) + N ({BY}_{LR}) + N (I_{LR})) - - - (6)

其中S_LR表示不同特征融合之后的结果，N(.)表示全局非线性融合。

步骤6：中心偏爱和前景偏爱

一些研究发现在自然情况下（没有任务驱动），被试的注视点总是更偏向于静态图像的中心，而且在观看视频的时候也出现了同样的情况，视点也偏向于视频的中心。

一般来说，相对于图像其他位置人总是更注意图像中心位置。因为越靠近图像中心，越有可能被人所注意，因此一般来说越靠近中心的点相对于其他位置的点能提供越多的信息量，所以更加显著。

引起中心偏爱一个有意思的原因就是拍摄偏爱。拍摄偏爱是一种自然的拍摄趋势，拍摄者总是喜欢把感兴趣的物体或者人（自顶向下）放在靠近图像中心的位置，使得相对于背景加强它们的焦点和大小。实际上，一般来说拍摄者认为感兴趣的物体或者人就越有可能的确是显著的物体（自底向上）。拍摄偏爱是一种普遍存在的指导行为，所以拍摄偏爱是可能形成中心偏爱的一个原因。由于拍摄偏爱会引起另外一种现象：观察策略——观察者注意到图像中心的概率比其他位置高，因为他们期望在中心能看到显著的物体或者人。而且对于一个陌生的场景，眼动就更容易偏向图像的中心，当然随着图像的熟悉，眼动会存在注视点转移，但是经过实验发现眼动更多的还是集中在图像的中心附近。

当人在自然情况下观看图像，中心偏爱会影响人的眼动数据而且这个影响并不局限于特定的刺激而是普遍存在的现象。

本发明为了能够准确的模拟人的立体视觉信息处理过程，所以在本发明的计算方法中也加入了中心偏爱的影响，越靠近图像中心越显著。每个像素(x,y)在空间上受中心偏爱影响如下：

Disp (x, y) = 1 - \frac{{(x - x_{c})}^{2} + {(y - y_{c})}^{2}}{W^{2} + H^{2}} * λ_{1} - - - (7)

其中x_c,y_c表示图像中心；W,H分别表示图像的宽和高；λ₁表示中心偏爱的影响因子。

类似于二维图像中普遍存在的“中心偏爱”现象，立体视觉中存在“前景偏爱”现象。

通过实验发现被试一般先会注意到立体图像的前景然后才会转移到立体图像的远景。

类似于图像存在中心偏爱，拍摄者习惯于把感兴趣的物体放在图像中心位置附近然后导致观察者注意图像中心的概率更高；同样拍摄立体图像时，拍摄者也一般会把感兴趣的物体放在图像前景，以加强对物体的焦点，不容易受到远景的干扰。

综上所述，类似于“中心偏爱”的现象，立体图像存在“前景偏爱”现象，而且这一个现象也是普遍存在的，不需要受任何特定的刺激。

为了更好的模拟人类立体视觉系统的处理过程，在本发明中对立体图像也加入了“前景偏爱”的影响，即越靠近图像前景越容易引起注意。

每个像素(x,y)在深度上受前景偏爱影响如下：

Depth (x, y) = \exp (\frac{d (x, y)}{255 * λ_{2}} - 1) - - - (8)

其中，d(x,y)表示像素(x,y)的深度值，λ₂表示深度影响因子。

步骤7：立体图像显著图计算

根据生理、心理学相关实验和结论，本发明首先借鉴视网膜神经细胞的特性，提取图像的颜色特征（红绿和蓝黄）以及亮度特征，作为输入信息。

然后建立2DLog-Gabor滤波金字塔模拟左右单眼的感受野模型，并考虑了左右眼的感受野存在一定的相位差，之后通过建立Two-stage模型模拟人的双目融合过程，融合同尺度同方向下左右眼的特征图，在最后本发明加入了“中心偏爱”和“前景偏爱”这两个普遍存在的现象的对立体视觉注意的影响，形成最终的立体图像显著图。

计算如下：

S=S_LR*Disp*Depth(9)

其中S_LR表示双目融合的结果，S为最终求的自底向上的立体图像显著图。本文所获取的显著图和原图尺寸相同。

在一个实例中，对立体图像的估计典型显著度分布图以及标准的显著度分布图如图5所示，其中第一行对应立体图像中的左图；第二行为本方法得到显著图，越明亮的地方越显著；第三行为人类眼动图，其中红色的区域最显著，黄色次之，蓝色最低，其中图中也展示了不同场景下对应的显著分布图（自然，人物，动物，建筑等）。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种自动估计的立体图像的视觉显著度方法，通过模拟人类立体视觉系统处理过程，得到最接近人类立体视觉注意的立体图像显著图，其特征在于包括以下步骤：

(1)基于感受野相位差分别获取左眼特征图步骤和右眼特征图步骤：提取立体图像的底层特征，并分别建立左眼和右眼感受野模型，获取左眼和右眼的特征图；

(2)双目融合步骤：融合同特征下左右眼的特征图，并融合不同特征的结果图；

(3)基于中心偏爱和前景偏爱调整权值步骤：基于中心偏爱和前景偏爱调整像素显著度，进行权值调整，包括以下步骤：

①计算中心偏爱的影响：计算立体图像中像素的位置信息对该像素显著度的影响，每个像素(x,y)在空间上受中心偏爱影响如下：

D i s p (x, y) = 1 - \frac{{(x - x_{c})}^{2} + {(y - y_{c})}^{2}}{W^{2} + H^{2}} * λ_{1}

其中，x_c,y_c表示图像中心；W,H分别表示图像的宽和高；λ₁表示中心偏爱的影响因子；

②计算前景偏爱的影响：计算立体图像中像素的深度信息对该像素显著度的影响，每个像素(x,y)在深度上受前景偏爱影响如下：

D e p t h (x, y) = \exp (\frac{d (x, y)}{255 * λ_{2}} - 1)

其中，d(x,y)表示像素(x,y)的深度值，λ₂表示深度影响因子；

(4)立体图像显著图计算步骤：结合中心偏爱和前景偏爱形成最终的立体图像显著图，计算如下：

S＝S_LR*Disp*Depth

其中，S_LR表示双目融合的结果，S为立体图像显著图。

2.根据权利要求1所述一种自动估计的立体图像的视觉显著度方法，其特征在于所述基于感受野相位差分别获取左眼特征图步骤和右眼特征图步骤，包括以下步骤：

①提取底层特征步骤：提取立体图像的底层特征作为输入信息；

②获取左眼特征图步骤：建立左眼感受野模型，获取左眼特征图；

③获取右眼特征图步骤：根据左右眼的相位差，建立相应的右眼感受野模型，对右眼底层特征采用相同的处理方法，获取右眼特征图。

3.根据权利要求1所述一种自动估计的立体图像的视觉显著度方法，其特征在于，双目融合步骤包括以下步骤：

同特征融合：模拟人类左右眼兴奋抑制相互作用，融合同特征下左眼和右眼的特征图；

不同特征融合：融合不同特征的结果图。

4.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于提取底层特征步骤包括：

人通过视网膜上视锥细胞和视杆细胞来感受光和颜色，然后把这些信息传入到视觉中枢，进行进一步分析；

模拟视网膜神经细胞，提取图像的亮度和颜色特征作为信息的输入；

图像有红颜色r、绿颜色g、蓝颜色b三种颜色组成，这里的亮度定义为I＝(r+g+b)/3，由此来表示亮度特征I；

采用R＝r-(g+b)/2来表示红，

G＝g-(r+b)/2来表示绿，

B＝b-(r+g)/2来表示蓝，

Y＝r+g-2(|r-g|+b)来表示黄；

选取两种对比色红绿RG＝|R-G|，蓝黄BY＝|B-Y|作为颜色特征。

5.根据权利要求2所述一种自动估计的立体图像的视觉显著度方法，其特征在于左眼的特征图计算如下：

RG_L(s,t)＝F^-1(LG_st(F(RG_L))

BY_L(s,t)＝F^-1(LG_st(F(BY_L))

I_L(s,t)＝F^-1(LG_st(F(I_L))

其中，s∈{1,2,3,4,5}表示尺度，

t∈{1,2,3,4,5,6,7,8}表示方向，

F和F^-1分别表示傅里叶变换和傅里叶反变换，

L表示左眼；

RG_L表示左眼红绿特征，BY_L表示左眼蓝黄特征，I_L表示左眼亮度特征，

LG_st表示s尺度t方向的2DLog-Gabor滤波器，

RG_L(s,t)表示左眼红绿特征在s尺度t方向的特征图，

BY_L(s,t)表示左眼蓝黄特征在s尺度t方向的特征图，

I_L(s,t)表示左眼亮度特征在s尺度t方向的特征图。

6.根据权利要求5所述一种自动估计的立体图像的视觉显著度方法，其特征在于右眼的特征图计算如下：

RG_R(s,t+φ)＝F^-1(LG_s(t+φ)(F(RG_R))

BY_R(s,t+φ)＝F^-1(LG_s(t+φ)(F(BY_R))

I_R(s,t+φ)＝F^-1(LG_s(t+φ)(F(I_R))

其中，R表示右眼，φ表示相位差；

RG_R表示右眼红绿特征，BY_R表示右眼蓝黄特征，I_R表示右眼亮度特征，

LG_s(t+φ)表示s尺度t+φ方向的2DLog-Gabor滤波器，

RG_R(s,t+φ)表示右眼红绿特征在s尺度t+φ方向的特征图，

BY_R(s,t+φ)表示右眼蓝黄特征在s尺度t+φ方向的特征图，

I_R(s,t+φ)表示右眼亮度特征在s尺度t+φ方向的特征图。

7.根据权利要求6所述一种自动估计的立体图像的视觉显著度方法，其特征在于双目融合步骤中同一特征下同尺度同方向的双目融合如下：

S t a g e 1 ({RG}_{L} (s, t)) = \frac{{RG}_{L} {(s, t)}^{m}}{n + {RG}_{L} (s, t) + {RG}_{R} (s, t + φ)}

S t a g e 1 ({RG}_{R} (s, t + φ)) = \frac{{RG}_{R} {(s, t + φ)}^{m}}{n + {RG}_{L} (s, t) + {RG}_{R} (s, t + φ)}

\begin{matrix} {RG}_{L R} (s, t) - r e s p ({RG}_{L} (s, t), {RG}_{R} (s, t + φ)) \\ = \frac{{(S t a g e 1 ({RG}_{L} (s, t)) + S t a g e 1 ({RG}_{R} (s, t + φ)))}^{p}}{z + {(S t a g e 1 ({RG}_{L} (s, t)) + S t a g e 1 ({RG}_{R} (s, t + φ)))}^{q}} \end{matrix}

其中，Stage1(RG_L(s,t))表示左眼的最终结果，

Stage1(RG_R(s,t))表示右眼的最终结果，

m,n,z,p,q是调节双眼互相作用的参数，根据需求进行调整；

RG_LR(s,t)和resp(RG_L(s,t),RG_R(s,t+φ))表示红绿特征在s尺度t方向上的双目融合结果。

8.根据权利要求3所述一种自动估计的立体图像的视觉显著度方法，其特征在于双目融合步骤中不同特征双目融合如下：

①对同一特征在不同尺度和方向下的结果直接线性加和：

{RG}_{L R} = Σ_{s = 1}^{5} Σ_{t = 1}^{8} {RG}_{L R} (s, t)

{BY}_{L R} = Σ_{s = 1}^{5} Σ_{t = 1}^{8} {BY}_{L R} (s, t)

I_{L R} = Σ_{s = 1}^{5} Σ_{t = 1}^{8} I_{L R} (s, t)

其中，RG_LR表示红绿特征的双目融合最后结果，

RG_LR(s,t)表示红绿特征在s尺度t方向上的双目融合结果；

BY_LR表示蓝黄特征的双目融合最后结果，

BY_LR(s,t)表示蓝黄特征在s尺度t方向上的双目融合结果；

I_LR表示亮度特征的双目融合最后结果，

I_LR(s,t)表示亮度特征在s尺度t方向上的双目融合结果；

②对不同特征非线性融合：

S_{L R} = \frac{1}{3} (N ({RG}_{L R}) + N ({BY}_{L R}) + N (I_{L R}))

其中，S_LR表示不同特征融合之后的结果，N(.)表示全局非线性融合。