CN105898278B

CN105898278B - 一种基于双目多维感知特性的立体视频显著性检测方法

Info

Publication number: CN105898278B
Application number: CN201610363021.9A
Authority: CN
Inventors: 周洋; 何永健; 唐杰; 张嵩
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2017-10-27
Anticipated expiration: 2036-05-26
Also published as: CN105898278A

Abstract

本发明涉及一种基于双目多维感知特性的立体视频显著性检测方法。传统模型方法无法有效的检测出立体视频的显著区域。本发明方法包括显著特征提取和显著特征融合。显著特征提取是从立体视频的空间、深度以及运动三个不同维度的视图信息分别进行显著性计算，包括二维静态显著区域检测、深度显著区域检测、运动显著区域检测。显著特征融合是将已获取的三种不同维度的显著特征图采取全局非线性归一化的融合策略进行融合，进而获取立体视频显著区域。本发明方法计算复杂度低，获取的立体视频显著图质量高，可以直接应用在3D视频压缩，3D质量评估以及物体识别和追踪等工程领域中。

Description

一种基于双目多维感知特性的立体视频显著性检测方法

技术领域

本发明属于视频图像处理技术领域，具体涉及一种基于双目多维感知特性的立体视频显著性检测方法。

背景技术

三维(Three-Dimension，3D)视频由于其左右视点图像之间存在视差，能带给观众身临其境的体验感和更高的逼真度，是目前正在着重发展的新一代视频服务技术。但是人类视觉研究表明，由于眼球的聚焦功能，人眼不能同时感知3D视频中的近处物体和远处物体，必须聚焦于某一区域，导致人类的3D视觉选择性比2D视觉选择性更强，表现在3D视频上其区域显著性更突出。3D视频显著性计算模型对于场景中物体的计算与识别，立体图像/视频压缩，立体图像/视频的质量评估，以及视觉导航等研究领域都具有重要的指导意义。

传统的显著性检测模型大部分是基于图像的颜色，亮度，方向，纹理等空间特性而采用不同的算法进行显著性检测，但这些传统模型方法无法有效的检测出立体视频的显著区域，一方面由于大部分的传统检测模型没有计算时域上的显著特性，而相邻帧之间的运动是影响着人眼视觉注意力的重要特征之一，而运动特征的检测常用的方法有帧差法、背景建模法以及光流法等。帧差法较为简单，但准确率较低，背景建模法受背景模型的影响较大会导致检测不稳定，而光流法的算法复杂度高；另一方面，传统的检测模型没有计算深度信息对立体视频的显著特性的影响，检测不够准确，因为深度信息是反映物体距离人眼的远近，是立体视频的重要感知特征之一。

鉴于上述现状，需要对传统的显著性模型检测进行改进，采取简单有效的方法对立体视频的空间、深度以及运动三个不同维度的视图信息进行显著性计算，并且准确的检测出立体视频的显著区域。

发明内容

本发明的目的就是提供一种基于双目多维感知特性的立体视频显著性检测方法。

本发明方法包括显著特征提取和显著特征融合。

所述的显著特征提取是从立体视频的空间、深度以及运动三个不同维度的视图信息分别进行显著性计算，具体包括三部分：二维静态显著区域检测、深度显著区域检测、运动显著区域检测。其中：

二维静态显著区域检测：根据Bayesian模型计算单张彩色图像的空间特征的显著性，检测出彩色图像的二维静态显著区域，具体是：

通过计算单点的感兴趣概率的方法来估计物体的显著程度S_Z：

式中z表示图像中的某个像素点，p表示相应的概率值，随机变量F表示一个点像素的视觉特征值，随机变量L表示一个像素点的坐标位置；二元随机变量C表示该点像素是否为目标像素，C＝1表示为目标像素，C≠1表示不是目标像素；f_z和l_z分别表示注视在z点时的视觉特征值以及相应的像素坐标位置；假设在C＝1的情况下，该点的视觉特征与空间位置是相互独立的，即有：

为了在一张图像中方便比较该点的显著概率，将上式进行对数化：

logs_z＝-logp(F＝f_z)+logp(F＝f_z|C＝1)+logp(C＝1|L＝l_z)；

式中第一项-logp(F＝f_z)表示该像素点特征的自信息量，只依赖于z的视觉特征，独立于任何先验信息；第二项logp(F＝f_z|C＝1)表示对数似然函数项，用来表示目标的先验信息，因为该项更多的取决于人体的主观因素无法准确的计算，所以一般计算中可以忽略；第三项logp(C＝1|L＝l_z)表示独立于视觉特性，反映目标可能出现位置的先验信息，一般情况下，我们并不知道目标位置的先验信息，则也可以忽略。因此，上式简化为：logS_z＝-logp(F＝f_z)，即计算二维静态的整体显著性只需要考虑单点像素的自信量，通过计算图像各像素点的显著程度S_Z从而获取二维静态显著图SM_image。

深度显著区域检测的具体步骤是：

①采用DERS(depth estimation reference software)软件根据输入的第k帧左视点图和右视点图计算出该帧的视差图，其中视差值d∈[0,255]；

②根据视差图中的最大视差值d_max和最小视差值d_min将视差值归一化到[0,1]区间；如果某像素点的视差值接近d_max则赋予大的视差值，相反接近d_min则赋予小的视差值，这样能够给前景物体与背景物体赋予不同的显著性得到深度前景图D_foreground，其中前景物体相对于背景物体更为显著；

③利用高斯差分滤波器提取重要的深度感知特征—深度对比度DoG(x,y)，实现公式下：

其中(x,y)代表滤波器位置，σ和K分别用来控制滤波器的尺度和高斯核的半径比。通过高斯差分滤波器DoG可以去除高频信号中的随机噪声，降低模糊灰度图像的模糊度，增加灰度图像的边缘细节可见性，将经DoG滤波后的深度图作为深度对比度图D_constrast；

④将获取的深度前景图D_foreground和深度对比度图D_constrast进行线性加权融合，获取深度显著图SM_depth：

SM_depth＝ω₁D_foreground+ω₂D_constrast；

其中：ω₁和ω₂分别为D_foreground和D_constrast的权重。

运动显著区域检测：根据当前帧的二维静态显著图SM_image和深度显著图SM_depth中的显著区域采用光流法提取相邻帧间运动矢量，获取运动显著图SM_motion，具体步骤是：

a.对二维静态显著图SM_image和深度显著图SM_depth进行二值化：

式中，T_image和T_depth分别为SM_image和SM_depth的二值化处理的门限值，最佳门限值通过大津算法获取，SM′_image和SM′_depth为经过二值化处理后的显著图，其中显著区域的像素值为1，不显著区域的像素值为0；然后将SM′_image和SM′_depth代入下式中来确定当前帧图像的光流计算区域S′(x,y)：

式中S(x,y)表示当前帧原视图中像素点(x,y)处的灰度值；

b.根据划分的显著区域利用Lucas-Kanade微分光流算法计算相邻帧的运动；该算法假设连续时间内像素点的灰度值恒定不变，特征点邻域内做相似运动，就可对显著区域所有像素求解基本光流方程：

I_xV_x+I_yV_y＝-I_t；

式中V_x，V_y分别表示光流矢量沿x，y两个方向分量，I_x，I_y，I_t分别表示像素点沿x，y，t三个方向的偏导数，矢量形式表达式为：

式中▽I^T＝(I_x,I_y)^T是该点的梯度方向，符号T代表转置，为该点的光流，联立n个光流方程采用最小二乘法求解x，y方向的速度：

得到：

通过上述方程计算显著区域的光流进而获取运动显著图SM_motion。

所述的显著特征融合是将已获取的三种不同维度的显著特征图SM_image、SM_depth、SM_motion采取全局非线性归一化的融合策略进行融合，进而获取立体视频显著区域。为了有效融合三种不同维度的显著图，采取全局非线性归一化的融合策略将二维静态显著图、深度显著图以及运动显著图进行融合，具体步骤是：

(1)为了避免由于不同方法生成不同维度显著图而产生的幅值差异，先将已获取的各种不同维度的显著图归一化到一个相同的动态范围内(0到1区间)；

(2)计算每张显著图的全局最大值M_i(i为image、depth或motion)以及局部极大值m_i的平均值其中M_i通过计算视差直方图可获取，是先通过matlab中的差分函数计算出局部极大值，然后再取其平均值；

(3)将归一化后的各维显著图进行加权融合，计算公式如下：

i为image、depth或motion；

式中N(SM_i)表示归一化操作，即把不同的显著图都归一化到[0,1]区间，其中权重通过计算各维显著图的全局最大值M_i与局部极大值m_i的平均值的差值获得，当二者差值很大时，表明该显著图中的显著特征更为明显，应赋予大的权重；相反当差值很小的时候，表明该显著图的显著特征更为均匀，应赋予较小的权重进行抑制，这里取(M_i-m_i)²作为每张显著图的权重值。通过临近相似特征相互抑制的方式来近似模拟生物神经抑制机制，融合三个不同维度的显著特征来获取立体视频的显著区域。

本申请在视频图像处理研究领域中提出了一种新颖的立体视频显著性检测技术，尽可能的去模拟人眼视觉注意力机制。该检测技术主要分为显著特征检测与显著特征融合两大部分，其中显著特征检测分别利用空间，时间以及立体三个不同维度的立体视图信息进行显著性检测：在空间上，基于Bayesian计算模型简单有效的完成单张彩色图像的二维静态显著区域检测；在立体上，基于视差特征和通过使用高斯差分滤波器来获取纹理细节清晰的深度显著区域；在时域上，基于以上两个维度的显著区域采用局部光流法提取运动显著区域，有效的降低了计算复杂度；而显著特征融合方面为了获取高质量的立体视频显著图，采取近似神经抑制机制的融合策略将三个不同维度的显著特征进行融合进而得到立体视频显著区域。该立体显著性模型可以直接应用在3D视频压缩，3D质量评估以及物体识别和追踪等工程领域中。

附图说明

图1是本发明方法的流程图；

图2是立体视频一帧左视图；

图3是立体视频一帧右视图；

图4是立体视频一帧左视图的二维静态显著区域检测图；

图5是立体视频一帧左视图和右视图的视差图；

图6是立体视频一帧视差图的前景显著图；

图7是立体视频一帧视差图的深度对比度图；

图8是立体视频一帧视差图的深度显著区域检测图；

图9是立体视频一帧划分显著区域的左视图；

图10是立体视频一帧划分显著区域的右视图；

图11是立体视频相邻帧的运动显著区域检测图；

图12是立体视频的显著区域检测图；

图13是不同的立体视频序列的检测结果图。

具体实施方式

如图1所示，一种基于双目多维感知特性的立体视频显著性检测方法包括显著特征提取和显著特征融合。

显著特征提取是从立体视频的空间、深度以及运动三个不同维度的视图信息分别进行显著性计算，具体包括三部分：二维静态显著区域检测、深度显著区域检测、运动显著区域检测。其中：

logs_z＝-logp(F＝f_z)+logp(F＝f_z|C＝1)+logp(C＝1|L＝l_z)；

式中第一项-logp(F＝f_z)表示该像素点特征的自信息量，只依赖于z的视觉特征，独立于任何先验信息；第二项logp(F＝f_z|C＝1)表示对数似然函数项，用来表示目标的先验信息，因为该项更多的取决于人体的主观因素无法准确的计算，所以一般计算中可以忽略；第三项logp(C＝1|L＝l_z)表示独立于视觉特性，反映目标可能出现位置的先验信息，一般情况下，我们并不知道目标位置的先验信息，则也可以忽略。因此，上式简化为：logS_z＝-logp(F＝f_z)，即计算二维静态的整体显著性只需要考虑单点像素的自信量，通过计算图像各像素点的显著程度S_Z从而获取二维静态显著图SM_image，如图2、3、4所示。

深度显著区域检测的具体步骤是：

①采用DERS(depth estimation reference software)软件根据输入的第k帧左视点图和右视点图计算出该帧的视差图，其中视差值d∈[0,255]，如图5所示；

②根据视差图中的最大视差值d_max和最小视差值d_min将视差值归一化到[0,1]区间；如果某像素点的视差值接近d_max则赋予大的视差值，相反接近d_min则赋予小的视差值，这样能够给前景物体与背景物体赋予不同的显著性得到深度前景图D_foreground，其中前景物体相对于背景物体更为显著，如图6所示；

其中(x,y)代表滤波器位置，σ和K分别用来控制滤波器的尺度和高斯核的半径比；为实现高效DoG滤波，这里取σ＝32，K＝1.6(近似于高斯拉普拉斯算子)。通过高斯差分滤波器DoG可以去除高频信号中的随机噪声，降低模糊灰度图像的模糊度，增加灰度图像的边缘细节可见性，将经DoG滤波后的深度图作为深度对比度图D_constrast，如图7所示；

SM_depth＝ω₁D_foreground+ω₂D_constrast；

其中：ω₁和ω₂分别为D_foreground和D_constrast的权重，ω₁＝ω₂＝0.5，检测结果如图8所示。

a.对二维静态显著图SM_image和深度显著图SM_depth进行二值化：

式中S(x,y)表示当前帧原视图中像素点(x,y)处的灰度值，结果如图9和图10所示；

I_xV_x+I_yV_y＝-I_t；

得到：检测结果如图11所示。

(3)将归一化后的各维显著图进行加权融合，计算公式如下：

i为image、depth或motion；

式中N(SM_i)表示归一化操作，即把不同的显著图都归一化到[0,1]区间，其中权重通过计算各维显著图的全局最大值M_i与局部极大值的平均值的差值获得，当二者差值很大时，表明该显著图中的显著特征更为明显，应赋予大的权重；相反当差值很小的时候，表明该显著图的显著特征更为均匀，应赋予较小的权重进行抑制，这里取(M_i-m_i)²作为每张显著图的权重值。通过临近相似特征相互抑制的方式来近似模拟生物神经抑制机制，融合三个不同维度的显著特征来获取立体视频的显著区域，最后的检测结果如图12所示。

由于考虑到不同场景下本发明的检测结果，还选取5组不同场景下的3D视频测试序列进行实验使用本发明的立体视频显著性检测方法进行检测，检测的结果如图13所示。从实验结果验证了本发明能够有效的检测出立体视频的显著区域。

本发明的保护内容不局限于以上实例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于双目多维感知特性的立体视频显著性检测方法，包括显著特征提取和显著特征融合，其特征在于：

所述的显著特征提取是从立体视频的空间、深度以及运动三个不同维度的视图信息分别进行显著性计算，具体包括三部分：二维静态显著区域检测、深度显著区域检测、运动显著区域检测；其中：

<mrow> <msub> <mi>S</mi> <mi>z</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>z</mi> </msub> <mo>|</mo> <mi>C</mi> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>=</mo> <msub> <mi>l</mi> <mi>z</mi> </msub> <mo>|</mo> <mi>C</mi> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>z</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>=</mo> <msub> <mi>l</mi> <mi>z</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>z</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&CenterDot;</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>z</mi> </msub> <mo>|</mo> <mi>C</mi> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>=</mo> <mn>1</mn> <mo>|</mo> <mi>L</mi> <mo>=</mo> <msub> <mi>l</mi> <mi>z</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

logs_z＝-logp(F＝f_z)+logp(F＝f_z|C＝1)+logp(C＝1|L＝l_z)；

式中第一项-logp(F＝f_z)表示该像素点特征的自信息量，只依赖于z的视觉特征，独立于任何先验信息；第二项logp(F＝f_z|C＝1)表示对数似然函数项，用来表示目标的先验信息；第三项logp(C＝1|L＝l_z)表示独立于视觉特性，反映目标可能出现位置的先验信息；将上式简化为：logS_z＝-logp(F＝f_z)，通过计算图像各像素点的显著程度S_Z获取二维静态显著图SM_image；

深度显著区域检测的具体步骤是：

①采用DERS软件根据输入的第k帧左视点图和右视点图计算出该帧的视差图，其中视差值d∈[0,255]；

②根据视差图中的最大视差值d_max和最小视差值d_min将视差值归一化到[0,1]区间；如果某像素点的视差值接近d_max则赋予大的视差值，相反接近d_min则赋予小的视差值，给前景物体与背景物体赋予不同的显著性得到深度前景图D_foreground，其中前景物体相对于背景物体更为显著；

<mrow> <mi>D</mi> <mi>o</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>&pi;&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mi>&pi;K</mi> <mn>2</mn> </msup> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>K</mi> <mn>2</mn> </msup> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中(x,y)代表滤波器位置，σ和K分别用来控制滤波器的尺度和高斯核的半径比，将经DoG滤波后的深度图作为深度对比度图D_constrast；

SM_depth＝ω₁D_foreground+ω₂D_constrast；

其中：ω₁和ω₂分别为D_foreground和D_constrast的权重；

a.对二维静态显著图SM_image和深度显著图SM_depth进行二值化：

<mrow> <msup> <mi>S</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>SM</mi> <mrow> <mi>i</mi> <mi>m</mi> <mi>a</mi> <mi>g</mi> <mi>e</mi> </mrow> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>SM</mi> <mrow> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> </mrow> <mo>&prime;</mo> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> <mo>&CenterDot;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

式中S(x,y)表示当前帧原视图中像素点(x,y)处的灰度值；

b.根据划分的显著区域利用Lucas-Kanade微分光流算法计算相邻帧的运动；假设连续时间内像素点的灰度值恒定不变，特征点邻域内做相似运动，对显著区域所有像素求解基本光流方程：

I_xV_x+I_yV_y＝-I_t；

式中是该点的梯度方向，符号T代表转置，为该点的光流，联立n个光流方程采用最小二乘法求解x，y方向的速度：

<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>&Sigma;</mo> <msub> <mi>I</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> </msub> <msub> <mi>I</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> </msub> </mrow> </mtd> <mtd> <mrow> <mo>&Sigma;</mo> <msub> <mi>I</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> </msub> <msub> <mi>I</mi> <msub> <mi>y</mi> <mi>j</mi> </msub> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&Sigma;</mo> <msub> <mi>I</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> </msub> <msub> <mi>I</mi> <msub> <mi>y</mi> <mi>j</mi> </msub> </msub> </mrow> </mtd> <mtd> <mrow> <msub> <mi>I</mi> <msub> <mi>y</mi> <mi>i</mi> </msub> </msub> <msub> <mi>I</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>V</mi> <mi>x</mi> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>V</mi> <mi>y</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mo>-</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>&Sigma;</mo> <msub> <mi>I</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> </msub> <msub> <mi>I</mi> <msub> <mi>t</mi> <mi>j</mi> </msub> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&Sigma;</mo> <msub> <mi>I</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> </msub> <msub> <mi>I</mi> <msub> <mi>t</mi> <mi>j</mi> </msub> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

得到：j＝1,2,…,n；

通过上述方程计算显著区域的光流进而获取运动显著图SM_motion；

所述的显著特征融合是将已获取的三种不同维度的显著特征图SM_image、SM_depth、SM_motion采取全局非线性归一化的融合策略进行融合，进而获取立体视频显著区域；具体步骤是：

(1)将已获取的各种不同维度的显著图归一化到一个相同的0到1区间的动态范围内；

(2)计算每张显著图的全局最大值M_i以及局部极大值m_i的平均值i为image、depth或motion，其中M_i通过计算视差直方图可获取，是先通过matlab中的差分函数计算出局部极大值，然后再取其平均值；

(3)将归一化后的各维显著图进行加权融合，计算公式如下：

i为image、depth或motion；

式中N(SM_i)表示归一化操作，即把不同的显著图都归一化到[0,1]区间，其中权重通过计算各维显著图的全局最大值M_i与局部极大值的平均值的差值获得，当二者差值很大时，表明该显著图中的显著特征更为明显，赋予大的权重；当差值很小的时候，表明该显著图的显著特征更为均匀，赋予较小的权重进行抑制，取(M_i-m_i)²作为每张显著图的权重值；通过临近相似特征相互抑制的方式来近似模拟生物神经抑制机制，融合三个不同维度的显著特征来获取立体视频的显著区域。