CN102271262A

CN102271262A - 用于3d显示的基于多线索的视频处理方法

Info

Publication number: CN102271262A
Application number: CN2010101986467A
Authority: CN
Inventors: 王海涛; 马赓宇; 梅星; 金智渊; 金智元; 郑用柱
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2010-06-04
Filing date: 2010-06-04
Publication date: 2011-12-07
Anticipated expiration: 2030-06-04
Also published as: CN102271262B; KR20110133416A; US20120007960A1; US9148652B2; KR101820673B1

Abstract

提供了一种用于3D显示的基于多线索的视频处理方法，所述方法包括：1)对输入视频的每个帧进行镜头的边界检测，获得镜头的切边界；2)对输入视频的每个像素计算纹理显著；3)对输入视频的每个像素计算运动显著；4)基于获得的镜头的切边界对输入视频的每个像素计算对象显著；5)通过将纹理显著、运动显著、对象显著组合来获得每个像素的通用显著；6)使用空时技术对每个像素的通用显著进行平滑。

Description

用于3D显示的基于多线索的视频处理方法

技术领域

本发明涉及一种视频处理方法，更具体地，涉及一种用于3D显示的基于多线索的视频处理方法。

背景技术

最近几年，由于在包括医疗、教育、娱乐和制造业的广泛领域内的迫切需要，3D(三维)显示市场已经快速扩展。同时，由于大量3D素材(尤其是3D电影)对于普通消费者可用，因此未来几年3D显示市场的扩展速度会更加快速。虽然每年整个电影工业会制作更多的3D电影，但是仍有大量视频素材是通过单个相机捕捉，并以传统2D(二维)格式存储。由于这些单眼2D视频没有相应的深度信息，故它们不能直接被3D显示。因此，由于巨大的市场潜力，2D到3D视频转换技术引起了工业的极大兴趣。

大多数现有转换方法和技术(诸如，TriDef的3D体验方案(DDD))都遵循相似的工作流程：首先从输入视频序列估计似然深度图，随后将视频帧与深度图组合以用于立体视角合成。为了恢复这些场景的深度信息，通常使用各种深度线索(诸如，阴影、运动估计、纹理模式、聚焦/失焦、几何透视和统计模型)用于视频分析。虽然这些现有转换方法获得了一些明显效果，但是它们没有为实际应用做好准备，原因在于：首先，深度线索仅对特定视觉场景具有较好的效果，这种对视觉场景的极端假设通常会在一般视频素材中被干扰；其次，难以将各种线索组合以产生一致的深度结果；再次，从单眼图像或视频恢复深度本身就是不适定问题。在一些情况中，如果没有必需的多视角信息，则不可能测量视觉深度。

显著图是指示视觉场景的视觉显著性的强度图，已经在大脑和视觉科学领域中对其进行了二十多年的研究。图1示出示例性视觉场景及其相应的显著图。如图1所示，显著图中的亮度区域表示引起人类观察者注意的对象。由于显著图可以提供有价值的低等级场景信息，故已经将其广泛应用于许多机器版本任务，诸如自动目标检测和视频压缩等。

然而，现有显著技术不适用于2D到3D视频转换。虽然这些通过现有方法产生的显著图成功地指出场景中的重要对象，但是这些显著图共有以下缺点：出现块状；显著信息没有准确跟随对象边界；对于较大的对象，仅高亮显示轮廓而不填充整个对象。现有显著技术的另一问题是仅聚焦于静态显著特征(诸如，强度/色彩对比、亮度和定位)，而没有对视频素材中提供了重要的视觉信息的动态线索(诸如，运动对象和人)进行处理。

发明内容

本发明提供了一种用于3D显示的基于多线索的视频处理方法，该方法对现有显著技术进行改进，并将改进的显著技术应用于2D到3D视频转换。

本发明提供了一种用于3D显示的基于多线索的视频处理方法，所述方法包括：1)对输入视频的每个帧进行镜头的边界检测，获得镜头的切边界；2)对输入视频的每个像素计算纹理显著；3)对输入视频的每个像素计算运动显著；4)基于获得的镜头的切边界对输入视频的每个像素计算对象显著；5)通过将纹理显著、运动显著、对象显著组合来获得每个像素的通用显著。

所述步骤1)可包括：对输入视频的每个帧计算HSV直方图；计算当前帧与先前帧的HSV直方图之差，得到直方图相交距离；将直方图相交距离与阈值进行比较，如果直方图相交距离低于阈值，则当前帧被检测为镜头的切边界。

所述阈值可等于一帧图像总像素数的一半。

所述步骤1)可包括：对输入视频的每个帧计算HSV直方图；在与当前帧相邻的先前帧和随后帧可用时，计算先前帧与当前帧的直方图之差和当前帧与随后帧的直方图之差，得到第一相交距离和第二相交距离；将第一相交距离与第一阈值进行比较，第二相交距离与第二阈值进行比较，如果第一相交距离低于第一阈值并且第二相交距离高于第二阈值，则当前帧被检测为镜头的切边界。

所述第一阈值可等于第二阈值等于一帧图像总像素数的一半。

所述步骤2)可包括：对每个帧构造金字塔结构，通过一对参数(lx，ly)分别控制金字塔结构的X、Y方向的尺度等级，使用以下公式来计算像素x的纹理显著S_T(x)：

S_{T} (x) = Σ_{lx = 1}^{L_{X}} Σ_{ly = 1}^{L_{Y}} W_{lx, ly} \cdot StatDiff (I^{lx, ly} (x))

其中，L_X、L_Y是金字塔结构的X、Y方向的尺度等级最大值，W_lx，ly是权重参数，StatDiff(I^lx，ly(x))是计算尺度等级(lx，ly)图像上的像素x的统计差的函数；块B₁、B₂、B₃和B₄分别是中心块B₀在上、下、左和右四个方向上的相邻块，像素x总是位于中心块B₀的预定位置，使用以下公式计算像素x的统计差：

StatDiff (I (x)) = Σ_{i = 1}^{4} W_{μ} | μ_{i} - μ_{0} | + W_{σ} | σ_{i} - σ_{0} | + W_{γ} | γ_{i} - γ_{0} |

其中，μ_i是块B_i的像素值分布上的中值，σ_i是块B_i的像素值分布上的标准偏差，γ_i是块B_i的像素值分布上的偏斜度，W_μ、W_σ、W_γ是权重参数。

所述步骤3)可包括：使用Rosenholtz的简单统计模型计算输入视频的每个像素的运动显著S_M(x)。

所述步骤4)可包括：基于获得的镜头的切边界，检测人脸的位置和大小；基于检测的人脸的位置和大小确定人体的位置和大小；

所述步骤4)可进一步包括：将处于所述人脸位置和人体位置内的像素的对象显著S_O设置为预定值，其它部分像素的对象显著S_O设置为另一预定值。

所述步骤5)可包括：根据以下等式通过将纹理显著、运动显著、对象显著组合来计算像素x的通用显著S(x)：

S(x)＝W_T·S_T(x)+W_M·S_M(x)+W_O·S_O(x)

其中，S_T(x)是像素x的纹理显著，S_M(x)是像素x的运动显著，S_O(x)是像素x的对象显著，W_T是纹理显著的权重参数，W_M是运动显著的权重参数，W_O是对象显著的权重参数。

在当前镜头是自然场景时，可将W_T设置为1，W_T设置为0，W_T设置为0。

在当前镜头是动作场景时，可将W_T设置为0.7，W_T设置为0.3，W_T设置为0。

在当前镜头是戏剧场景时，可将W_T设置为0.5，W_T设置为0.2，W_T设置为0.3。

所述视频处理方法还可包括：使用空时技术对每个像素的通用显著进行平滑。

使用空时技术对每个像素的通用显著进行平滑包括步骤：使用以下等式对帧t中的像素x计算平滑显著S_S：

S_{S} (x, t) = \underset{t^{'} &Element; N (t)}{Σ} \underset{x^{'} &Element; N (x)}{Σ} W_{1} (x, t^{'}, x, t^{'}) \cdot W_{2} (S (x^{'}, t^{'}), S (x, t)) \cdot S (x^{'}, t^{'})

其中，N(x)定义像素x的空间邻域，N(t)定义像素x的时间邻域，W₁(x，t，x′，t′)是像素(x，t)与相邻像素(x’，t’)之间的空时权重，W₂(S(x′，t′)，S(x，t))是像素(x，t)与相邻像素(x’，t’)之间的强度权重，S(x′，y′)是像素(x’，t’)的通用显著。

将在接下来的描述中部分阐述本发明另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明的实施而得知。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的和特点将会变得更加清楚，其中：

图1示出示例性视觉场景及其相应的显著图；

图2是示出根据本发明示例性实施例的用于3D显示的基于多线索的视频处理方法的流程图；

图3A是示出现有技术的边界检测的流程图；

图3B是示出根据本发明示例性实施例的边界检测的流程图；

图4是示出根据本发明示例性实施例的金字塔等级的示图；

图5是示出根据本发明示例性实施例的计算像素的统计差所需的块的示图；

图6是示出根据本发明示例性实施例的获得对象显著的示图；

图7是根据本发明示例性实施例的自然场景的测试结果的示图；

图8是根据本发明示例性实施例的动作场景的测试结果的示图；

图9是根据本发明示例性实施例的戏剧场景的测试结果的示图。

具体实施方式

现在，详细描述本发明的实施例，其示例在附图中表示，其中，相同的标号始终表示相同的部件。

图2是示出根据本发明示例性实施例的用于3D显示的基于多线索的视频处理方法的流程图。

在操作S210，对输入视频的每个帧进行镜头的边界检测，获得镜头的切边界。

镜头是来自一个相机的帧的完整序列。视频素材通常包含各个场景的多个镜头。存在几种不同类型的镜头边界，诸如，切、渐进/渐出、溶解和划变等。本发明主要对发生突然场景改变的切边界进行检测。用于切边界检测的主要方法有基于像素差的算法、基于直方图的算法、基于DCT系数差的算法和基于运动信息的算法。本发明使用具有精确和速度之间的较好折中的基于直方图的算法。

图3A是示出现有技术的边界检测的流程图。参照图3A，在操作S211A，对输入视频的每个帧计算HSV(即，色度、饱和度、亮度)直方图。在操作S212A，计算当前帧与先前帧的HSV直方图之差，得到直方图相交距离。在操作S213A，将直方图相交距离与阈值进行比较，如果直方图相交距离低于阈值，则当前帧被检测为镜头的切边界。在此，设置阈值＝50％×一帧图像的总像素数。应该理解，所述阈值并不限于以上实施例，可以对其进行修改和改变。

为了获得更好的准确性，在与当前帧相邻的先前帧和随后帧可用时，在操作S210还可执行上述现有技术的基本直方图算法的简单扩展。图3B是示出根据本发明示例性实施例的边界检测的流程图。参照图3B，在操作S211B，对输入视频的每个帧计算HSV直方图。在操作S212B，先前帧、当前帧和随后帧的HSV直方图分别为H₁、H₂和H₃，计算H₁与H₂之间的相交距离和H₂与H₃之间的相交距离。在操作S213B，将H₁与H₂的相交距离与阈值V₁进行比较，将H₂与H₃的相交距离与阈值V₂进行比较，如果H₁与H₂的相交距离低于阈值V₁，并且H₂与H₃的相交距离高于阈值V₂，则当前帧被检测为镜头的切边界。在此，设置V₁＝V₂＝50％×一帧图像的总像素数。对本领域技术人员清楚的是，所述阈值V₁和V₂并不限于以上实施例，可以对其进行修改和改变。

应该理解，除了上述方法之外，还可使用其它适合的方法对输入视频的每个帧进行镜头的边界检测。

在操作S220，对输入视频的每个像素计算纹理显著(texture saliency)。

纹理信息是任何一般视觉场景的可靠视觉特征。根据本发明的示例性实施例，首先对每个帧构造金字塔结构：使用一对参数(lx，ly)来分别控制金字塔结构的X、Y方向的尺度等级，在此，将当前尺度等级设置为前一相邻尺度等级的一半。图4是示出根据本发明示例性实施例的金字塔等级的示图。应该理解，根据本发明示例性实施例的每个帧不限于图4所示的X、Y方向具有三个尺度等级，也不限于将当前尺度等级设置为前一相邻尺度等级的一半。

使用以下公式对像素x的多尺度纹理显著S_T(x)进行计算：

S_{T} (x) = Σ_{lx = 1}^{L_{X}} Σ_{ly = 1}^{L_{Y}} W_{lx, ly} \cdot StatDiff (I^{lx, ly} (x))

其中，L_X、L_Y是金字塔结构的X、Y方向的尺度等级最大值，W_lx，ly是权重参数，StatDiff(I^lx，ly(x))是计算尺度等级(lx，ly)图像上的像素x的统计差的函数。

图5是示出根据本发明示例性实施例的计算像素的统计差所需的块B₀、B₁、B₂、B₃和B₄的示图。如图5所示，块B₁、B₂、B₃和B₄分别是中心块B₀在上、下、左和右四个方向上的相邻块，像素x总是位于中心块B₀的预定位置(即，块B₀、B₁、B₂、B₃和B₄的位置随着像素x位置的改变而改变)。对每个块B_i(i＝0，1，2，3，4)，首先计算像素值分布上的三个统计测量，即，中值μ_i、标准偏差σ_i和偏斜度γ_i，随后，使用以下公式计算像素x的统计差：

StatDiff (I (x)) = Σ_{i = 1}^{4} W_{μ} | μ_{i} - μ_{0} | + W_{σ} | σ_{i} - σ_{0} | + W_{γ} | γ_{i} - γ_{0} |

其中，W_μ、W_σ、W_γ(W_μ+W_σ+W_γ＝1)是用于平衡三个测量的贡献率的权重参数。

依次对输入视频的每帧的每个像素计算纹理显著，从而获得输入视频所有像素的纹理显著。

作为后处理步骤，使用交叉双向滤波器对每个像素的纹理显著进行平滑，以去除块状伪影和错误对象边界。

应该理解，除了上述方法之外，还可使用其它适合的方法对输入视频的每个像素计算纹理显著。

在操作S230，对输入视频的每个像素计算运动显著(motion saliency)。在此，使用Rosenholtz的简单统计模型计算运动显著S_M(x)，像素x的运动显著SM(x)被定义为速度场的中值

和协方差

之间的Mahalanobis距离：

S_{M} (x) = | {(\overset{&RightArrow;}{v} - μ_{\overset{&RightArrow;}{v}})}^{T} Σ^{- 1} (\overset{&RightArrow;}{v} - μ_{\overset{&RightArrow;}{v}}) |

其中，使用块匹配算法来估计像素x的初始光流

依次对输入视频的每帧的每个像素计算运动显著，从而获得输入视频所有像素的运动显著。

由于运动对象非常可能突然跑出在它们的运动与扩张运动的中值之间的极大距离，故使用交叉双向滤波器对每个像素的运动显著进行平滑，以去除光流噪声并使显著边界成形。

应该理解，除了上述方法之外，还可使用其它适合的方法对输入视频的每个像素计算运动显著。

在操作S240，基于获得的镜头的切边界对输入视频的每个像素计算对象显著(object saliency)。

根据本发明示例性实施例的对象显著高亮显示每帧图像的视觉场景中的特定对象，将高亮显示的特定对象内的像素的对象显著设置为预定值，其它像素设置为另一预定值(例如，电视广播中的人脸、电影中的演员、体育视频中的车辆)。视觉场景中的这些特定对象通常在相应的视觉场景中扮演中心角色，故应包括在显著图中。由于人脸在各种类型的视觉场景中是主要元素，故在此聚焦于检测人脸并将其高亮显示。

根据本发明示例性实施例，将人脸检测和跟踪技术组合以获得稳定的对象显著，并将置信参数c作为跟踪分量。根据操作S210划分的镜头，在输入视频每个镜头的第一帧，使用Viola-Jones检测器检测人脸的位置，如果检测到人脸，则采用自适应中值偏移跟踪技术对当前镜头随后的帧进行人脸跟踪(跟踪的人脸位置和大小是以矩形框的形式)；如果没有检测到人脸或者跟踪丢失，则在下一帧继续进行人脸检测。将检测结果与当前跟踪结果进行比较，以进行置信更新：如果检测的人脸的位置与跟踪结果接近，则将置信参数c增加1，否则，将置信参数c减小1。如果置信参数c＞0，则跟踪结果可靠，仍然使用上述跟踪技术来更新人脸位置；否则，丢弃跟踪结果，使用检测结果重新初始化人脸位置。

图6是示出根据本发明示例性实施例的获得对象显著的示图。通过获得的人脸位置和大小信息，使用一个椭圆来标示出跟踪的人脸(所述椭圆内切人脸矩形框，如图6中的(a)所示)，然后将标示出的人脸椭圆放大n(n＝[2，5])倍，生成人体椭圆。所述人体椭圆的中心在人脸椭圆长轴的延长线上，两个椭圆相切。随后，通过将上述两个椭圆高亮显示来产生初始显著图(如图6中的(b)所示)。通过将高亮的两个椭圆区域的像素值设定为预定值h1(h1＞0)，其它部分的像素值设置为0来确定像素的对象显著S_O。随后，将初始显著图与原始彩色图像一起交叉双向滤波，以修正形状边界(如图6中的(c)所示)。

应该理解，除了上述方法之外，还可使用其它适合的方法对输入视频的每个像素计算对象显著。

在操作S250，根据以下等式通过组合纹理显著、运动显著、对象显著来产生像素x的通用显著S(x)：

S(x)＝W_T·S_T(x)+W_M·S_M(x)+W_O·S_O(x)

其中，W_T、W_M、W_O(W_T+W_M+W_O＝1)是相应显著的权重参数。为了处理一般视觉场景，定义了不同的视觉场景类型：自然场景、动作场景和戏剧场景。表1是当前镜头分别是自然场景、动作场景和戏剧场景的权重参数设置。

类型/权重参数	W_T	W_M	W_O
				自然场景	1.0	0.0	0.0
动作场景	0.7	0.3	0.0
				戏剧场景	0.5	0.2	0.3

表1自然场景、动作场景和戏剧场景相应的权重参数设置

应该了解，这些参数仅是示例性的，观看者可以自由地选择三种不同的场景类型并可以对所述三种类型的权重参数进行设置。

至此，根据本发明示例性实施例的用于3D显示的基于多线索的视频处理方法独立地产生了用于视频序列中的每帧的显著图。

由于某些显著线索或显著对象可能会突然消失，或者视觉场景中的暗部区域突然被高亮显示，故显著信息会从帧到帧突然改变，引起令观看者不舒服的闪烁，产生眼睛疲惫。因此，在操作S206，使用空时技术对显著图序列进行平滑。对于帧t中的像素x(像素(x，t))，根据以下等式计算其平滑显著S_S：

S_{S} (x, t) = \underset{t^{'} &Element; N (t)}{Σ} \underset{x^{'} &Element; N (x)}{Σ} W_{1} (x, t, x^{'}, t^{'}) \cdot W_{2} (S (x^{'}, t^{'}), S (x, t)) \cdot S (x^{'}, t^{'})

其中，N(x)、N(t)分别定义像素x的空间、时间邻域，W₁(x，t，x′，t′)是像素(x，t)与相邻像素(x’，t’)之间的空时权重，W₂(S(x′，t′)，S(x，t))是像素(x，t)与相邻像素(x’，t’)之间的强度权重(W₁(x，t，x′，t′)+W₂(S(x′，t′)，S(x，t))＝1)，S(x′，t′)是像素(x’，t’)的通用显著。

应该理解，除了上述方法之外，还可使用其它适合的方法对输入视频的每个像素计算平滑显著。

图7是根据本发明示例性实施例的自然场景的测试结果的示图，图8是根据本发明示例性实施例的动作场景的测试结果的示图，图9是根据本发明示例性实施例的戏剧场景的测试结果的示图。

如图7所示，第一行为原始图像，第二行的现有DDD方法产生了过渡平滑的似斜坡深度图，第三行的根据本发明示例性实施例的方法准确地高亮显示了显著对象。如图8所示，第一行为原始图像，第二行的现有DDD方法使用几乎没有增强的运动信息产生了模糊的深度信息，第三行的根据本发明示例性实施例的使用纹理显著和运动显著的组合的方法成功地示出运动对象。如图9所示，第一行为原始图像，第二行的现有DDD方法几乎没有还原人物，第三行的根据本发明示例性实施例的使用纹理显著、运动显著和对象显著的组合的方法适当地示出人脸和上身。同时，对于现有DDD方法产生的深度序列，闪烁伪影也是可以察觉的。

本发明对所有类型的测试视频具有更好的观看体验，对动作场景和戏剧场景尤其明显。同时，本发明的方法是完全自动的，并且可以处理任何类型的视频，甚至是静态图片。

虽然已经参照示例性实施例示出和描述了本发明，但是本领域的技术人员应该理解：在不脱离由权利要求定义的本发明的精神和范围的情况下，可以进行形式和细节上的各种改变。

Claims

1.一种用于3D显示的基于多线索的视频处理方法，所述方法包括：

1)对输入视频的每个帧进行镜头的边界检测，获得镜头的切边界；

2)对输入视频的每个像素计算纹理显著；

3)对输入视频的每个像素计算运动显著；

4)基于获得的镜头的切边界对输入视频的每个像素计算对象显著；

5)通过将纹理显著、运动显著、对象显著组合来获得每个像素的通用显著。

2.如权利要求1所述的视频处理方法，所述步骤1)包括：

对输入视频的每个帧计算HSV直方图；

计算当前帧与先前帧的HSV直方图之差，得到直方图相交距离；

将直方图相交距离与阈值进行比较，如果直方图相交距离低于阈值，则当前帧被检测为镜头的切边界。

3.如权利要求2所述的视频处理方法，所述阈值等于一帧图像总像素数的一半。

4.如权利要求1所述的视频处理方法，所述步骤1)包括：

对输入视频的每个帧计算HSV直方图；

在与当前帧相邻的先前帧和随后帧可用时，计算先前帧与当前帧的直方图之差和当前帧与随后帧的直方图之差，得到第一相交距离和第二相交距离；

将第一相交距离与第一阈值进行比较，第二相交距离与第二阈值进行比较，如果第一相交距离低于第一阈值并且第二相交距离高于第二阈值，则当前帧被检测为镜头的切边界。

5.如权利要求4所述的视频处理方法，所述第一阈值等于第二阈值等于一帧图像总像素数的一半。

6.如权利要求1所述的视频处理方法，所述步骤2)包括：

对每个帧构造金字塔结构，通过一对参数(lx，ly)分别表示金字塔结构的X、Y方向的尺度等级，使用以下公式来计算像素x的纹理显著S_T(x)：

S_{T} (x) = Σ_{lx = 1}^{L_{X}} Σ_{ly = 1}^{L_{Y}} W_{lx, ly} \cdot StatDiff (I^{lx, ly} (x))

其中，L_X、L_Y是金字塔结构的X、Y方向的尺度等级最大值，W_lx，ly是权重参数，StatDiff(I^lx，ly(x))是计算尺度等级(lx，ly)图像上的像素x的统计差的函数；

块B₁、B₂、B₃和B₄分别是中心块B₀在上、下、左和右四个方向上的相邻块，像素x总是位于中心块B₀的预定位置，使用以下公式计算像素x的统计差：

StatDiff (I (x)) = Σ_{i = 1}^{4} W_{μ} | μ_{i} - μ_{0} | + W_{σ} | σ_{i} - σ_{0} | + W_{γ} | γ_{i} - γ_{0} |

7.如权利要求1所述的视频处理方法，所述步骤3)包括：

使用Rosenholtz的简单统计模型计算输入视频的每个像素的运动显著S_M(x)。

8.如权利要求1所述的视频处理方法，所述步骤4)包括：

基于获得的镜头的切边界，检测人脸的位置和大小；

基于检测的人脸的位置和大小确定人体的位置和大小。

9.如权利要求8所述的视频处理方法，所述步骤4)进一步包括：

将处于所述人脸位置和人体位置内的像素的对象显著S_O设置为预定值，其它部分像素的对象显著S_O设置为另一预定值。

10.如权利要求1所述的视频处理方法，所述步骤5)包括：

根据以下等式通过将纹理显著、运动显著、对象显著组合来计算像素x的通用显著S(x)：

S(x)＝W_T·S_T(x)+W_M·S_M(x)+W_O·S_O(x)

11.如权利要求10所述的视频处理方法，其中，在当前镜头是自然场景时，将W_T设置为1，W_T设置为0，W_T设置为0。

12.如权利要求10所述的视频处理方法，其中，在当前镜头是动作场景时，将W_T设置为0.7，W_T设置为0.3，W_T设置为0。

13.如权利要求10所述的视频处理方法，其中，在当前镜头是戏剧场景时，将W_T设置为0.5，W_T设置为0.2，W_T设置为0.3。

14.如权利要求1所述的视频处理方法，还包括：使用空时技术对每个像素的通用显著进行平滑。

15.如权利要求14所述的视频处理方法，所述使用空时技术对每个像素的通用显著进行平滑包括步骤：

使用以下等式对帧t中的像素x计算平滑显著S_S：

S_{S} (x, t) = \underset{t^{'} &Element; N (t)}{Σ} \underset{x^{'} &Element; N (x)}{Σ} W_{1} (x, t^{'}, x t^{'}) \cdot W_{2} (S (x^{'}, t^{'}), S (x, t)) \cdot S (x^{'}, t^{'})

其中，N(x)定义像素x的空间邻域，N(t)定义像素x的时间邻域，W₁(x，t，x′，t′)是像素(x，t)与相邻像素(x’，t’)之间的空时权重，W₂(S(x′，t′)，S(x，t))是像素(x，t)与相邻像素(x’，t’)之间的强度权重，S(x′，t′)是像素(x’，t’)的通用显著。