CN1203677C

CN1203677C - 视觉注意模式

Info

Publication number: CN1203677C
Application number: CNB021016976A
Authority: CN
Inventors: W·M·奥斯博格
Original assignee: Tektronix Inc
Current assignee: Giant Plan Co., Ltd.
Priority date: 2001-01-17
Filing date: 2002-01-17
Publication date: 2005-05-25
Anticipated expiration: 2022-01-17
Also published as: JP2002247574A; DE60203056T2; EP1225769A2; EP1225769A3; US6670963B2; JP3851171B2; DE60203056D1; US20020126891A1; CN1366422A; EP1225769B1

Abstract

一种改善的视觉注意模式使用增强的合适的分段算法将一个视频序列的一个目前帧基于颜色和亮度分成多个区域，每个区域由多个空间特征算法并行处理，该空间特征算法包括颜色和表皮，以产生各自的空间重要性映像。还处理目前帧和在先帧，以便对目前帧的每一块产生运动矢量，该运动矢量补偿摄像机的运动，同时该补偿的运动矢量被转换以产生一个时间重要性映像。基于眼睛移动分析并使用加权来组合空间和时间重要性映像。

Description

视觉注意模式

技术领域

本发明涉及视频质量分析，特别涉及改进的视觉注意模式，以便自动地确定在视频信号的图像中感兴趣的区域。

背景技术

早期被适当调整的视觉系统的模式提供被压缩的自然图像中视觉失真位置的准确预测。数据逼真映像产生主观质量的估算，目前的现代化质量度量标准将执行所有可见误差的简单求和。但是在主观评估图像质量期间并未考虑任何更高的水平或已知的有认识力的因素出现。

失真对整个图像质量的影响被理解为以其相对场景内容的位置的强烈影响。似人视觉系统(HVS)的可变分辨力性质意味着只有在视网膜凹斑处可得到高的分辨力，该视网膜凹斑具有约2度的直径。通过有规则的眼睛运动以便将该区域置位于视网膜凹斑条件下获得一个场景的资料。早期视觉模式假定一个“无限的网膜凹斑”，即场景是在这样一种假设下进行处理的，即所有区域由高分辨力视网膜凹斑进行观察。但是眼睛运动的研究指出观察并不使场景中所有区域等同地处于视网膜凹斑。代之以识别几个地区为似人视觉注意处理感兴趣的区域(ROI)，并且观察倾向于重复地返回到这些ROI而不是仍未被处于视网膜中区的地区。人们知道在这些ROI中图象的逼真度对整个图象质量具有最大的影响。

当观察自然场景时，似人视觉注意和眼睛运动的知识，与对象的选择的和相关的眼睛运动模式相联合，提供似人视觉注意计算模式改进的结构。研究已指出，人们的注意受大量在图象运动中存在的不同特征所影响，例如亮度对比度，颜色对比度，目标大小，目标形状，人和面部在场景中的位置，以及该目标是否为前景或背景的部分。在文献中已介绍了少量简单的视觉注意模式。这些模式以不设监理方式针对检测一个场景中的ROI。它们通常设计用于不复杂的静止的图像。在防止其用作典型娱乐影视的增强注意模式中明显存在大量的缺陷。包括：有限数量的使用的注意特征；未施加不同的加权到不同的特征；缺乏分段技术中的强度；缺乏时间模式；使用过分简单的算法提取注意特征。未说明推荐的模式能牢固地横跨宽范围的图像内容工作和未报告其对人眼运动的相关性。

如在下列文章中所指出的，公开了一种用于自动确定场景中视觉重要地区作为重要性映像(IM)的技术：Wilfried Qsberger，AnthongJ.Maeder and Neil Bergmann：“A Perceptually BassedQuantization Technique for MPEG Encoding”，Proceedings SPIE3299-Human Vision and Electronic Imaging 111，San Jose，USA，pp.48-159，26-29 January 1998。如上所述，这些映像是通过组合影响似人视觉注意和眼睛运动的已知因素而产生的。为了编码分配较低量化到可见重要地区和较少视觉重要性地区具有一个分配的更苛刻的量化。结果表明图像质量主观的改进。

在现有技术中使用典型的递归分开-和-合并分段来执行分段。在分段后，该结果由五个空间特征处理以产生单独的空间重要性映像：对比度；大小；形状；位置和背景。运动也被采纳到考虑之中以产生一个时间的重要性映像。这些单独的重要性映像的每一个将被平方以增强高重要性地区并之后被等同地加权以产生最后的IM。但是感觉到这种技术并不充分牢靠。

使用比现有技术更牢固的人为注意和眼睛运动的特性所要求的是一种自动方式去预测何处ROI似乎位于典型娱乐影视的自动场景中。

发明内容

按本发明提供一种使用视觉注意模式自动标记在一个影视图像中的感兴趣的区域的方法。基于颜色和亮度一个目前帧被适当地分段成多个区域。每个区域由多个包括颜色和表皮的空间特征算法并行处理以产生相应的空间重要性映像。组合空间重要性映像以产生一个综合的空间重要性映像，这种组合是基于由眼睛运动研究导出的加权。目前帧和一个在先帧也被处理以产生用于目前帧的运动矢量，接着在被转换到一个时间重要性映像之前对该运动矢量作摄像机的运动校正。通过线性加权组合综合的空间重要性映像和时间重要性映像以对目前帧产生一个完整的重要性映像，以及线性加权常数从眼睛运动研究导出。

结合附加权利要求和附图阅读时从下列详细说明对本发明目的，优点和其他新的特征将显而易见。

附图说明

图1是按本发明的改进的视觉注意模式的方块图。

图2(a)是一个目前帧的一个图像。

图2(b)是按本发明获得的图像的完整重要性映像。

图3是一条曲线，说明按亮度的一个阈值的变化，用于按本发明的空间特征之一。

图4是一条曲线，说明参数值随色彩的变化，用于按本发明的表皮的空间特征。

图5是一个方块图，用于产生按本发明的时间重要性映像。

具体实施方式

在此所描述的一种重要性映像(IM)技术是基于区域的注意模式。这种基于区域的注意模式使其更易按此模式包括大量的特征，这是因为影响注意的许多特征或是区域的固有性质，例如尺寸和形状，或能自然地与场景中所有目标相关，例如运动，颜色，对比度和结构。参照图1，一个视觉注意模式具有一个空间注意模式10和一个时间注意模式20。空间模式具有影像的一个目前帧作为一个输入。该图像是首先使用亮度和颜色信息两者由分段算法30分段到同簇区域的每个地区相对七个特征11-17的重要性。包括已知影响视觉注意的颜色，对比度，尺寸，形状，位置，背景和表皮然后计算。特征图像处理算法的可塑性使得容易包括附加的特征。根据借助人眼运动的校准来加权这些特征，而人眼运动已经据对人眼运动的实验进行推测。然后特征加权被输入到组合算法40，以对该目前帧的场景产生空间重要性映像。

运动模式20具有该目前帧和一个在先帧作为对运动矢量算法22的并行输入。然后来自运动矢量算法20的运动矢量基于其运动的幅度由运动重要性算法24加权用于在该场景中的每个目标。运动加权还使用根据眼睛跟踪系统实验推测的数据与空间加权相组合以对目前帧产生一个总的IM。

图2(a)中表示一个目前帧，其相应的IM表示在图2(b)中。已标记为高重要性的IM区域具有轻微阴影部分，而黑的区域表示未必吸引注意的场景的那些部分。

对以上讨论的现有技术的改进包括空间环境特征的改进的分段，扩展，对空间和时间特征处理算法的改进，以及在校准和组合算法方面的改进。

在分段处理过程中，图像帧已剪辑版本用作输入，以避免这样一种效应，即对于模式的新近状况，图像边缘具有24个像素工作好的剪辑边缘。功能分解使用颜色信息和亮度信息去确定何时出现分解/合并操作。作为一个例子可使用L^*u^*v^*颜色区。现在用于分解的条件为

如果：

((variancelum(R_i)＞th_splitlum&(variancecol(R_i)＞th_splitcol)&

(size(R_i)＞th_size))

则：分解到4个象限这里：

variancecol(R_i)＝SQRT(variance(R_i(u^*))²+variance(R_i(v^*))²)用于阈值的值可以是：th_splitlum＝250和th_splitcol＝120。对于功能合并还进行额外的变化。为避免分段产生块形状的大区域问题，合并阈值通过使用一个参数scalefactor_merge自适应地与块尺寸相关，该参数当合并大区域时增加，特别当合并的两个区域具有小尺寸时：

th_mergelumnew＝scalefactor_merge*th_mergeiumold这里

scalefactor_merge＝(k_merge*size_merge+k_reduc+1)/(size_merge+k_merge+k_reduc)

size_merge＝max(k_min*(1/n)ROOT(size(R1)ⁿ+size(R2)ⁿ)/size(frame)用于固定参数的值可以是：K_min＝256，n＝0.25，K_merge＝3，K_reduc＝10和th_mergclumold＝500。

使用同样的技术修改颜色合并阈值，th_mergecol，但不可以使用下列参数：K_mincol＝256，n_col＝0.5，K_mergecol＝1.5，K_reduccol＝0以及th_mergecolold＝120。

与亮结构的地区相比较，现有技术的合并暗结构的合并功能是很容易的。因此当确定是否合并两个区域时要考虑区域的平均亮度和颜色。平均颜色和平均亮度合并阈值是相互依赖的，所以计算该合并阈值将与该区域的平均颜色和亮度适当相关。

如果：

((Δcol＜thΔ_col)&(col_max＞th_BW))

则：

th_{meanmergelumnew}＝th_{meanmergelumold}+((th_Δcol-Δcol)/th_Δcol)*(th_{Δlum_max}-

th_{meanmergelumold})

这里：

Δlum＝|gl(R1)-gl(R2)|

Δcol＝SQRT((u^* _R1-u^* _R2)²+(V^* _R1-v^* _R2)²)

col_max＝max(u^* _R1，u^* _R2，v^* _R1，v^* _R2)

这里g1(R_i)是区域R_i的平均灰度级。

对于常数值可以是：th_Δcol＝14.0，th_BW＝7.0和th_Δlum.max＝70.0。

由于在低亮度地区，颜色通常采用很高的值，所以用于低亮度区域的合并阈值增加。如图3中所示的实施情况。对于常数值可以是：th_lowlum1＝10，th_lowlum2＝25，th_col＝14和th_{col_lowlum}＝40。

因此修改的合并条件变成：

如果：

((var(gl_R12)＜th_mergelumnew)&(var(col_R12)＜th_mergecolnew)&

(Δlum＜th_{meanmergelumnew})&(Δcol＜th_{meanmergecolnew}))OR

((Δlum＜th_lumlow)&(Δcol＜th_collow)

则：将两个区域组合到一个区域

否则：保持区域分开

结束对于常数值可以是：th_lumlow＝12和th_collow＝5。

对于小区域取消过程也进行改变，以便进行与图像分辨度无关的处理并用其最合适的相邻区域合并小的区域如下：

如果：

size(R₁)＜(1/k_small)*size(frame)

则：用具有最接近L*值的相邻区域合并R_i

结束这里K_small可设置到4096。按此方式分段自适应地进行并变得更为增强。

对于IM的尺寸特征从简单的两个阈值实施到四个阈值实施变化，使得太小或太大的区域最小化而正好由过小的区域所取代。同样，背景特征被加以改变，因为消除帧边缘是通过使用区域中共享4个同另外区域连接的边缘的最小像素数或在也毗连该区域中截去顶(末)端边缘上的像素数。还要改变位置特征，以便不仅考虑帧的中心区域，而且用与地带相关且从中心减小的较小的加权去考虑围绕该中心的不同的地带。

原始对比度重要性被定义为用于区域R_i的平均灰度级和用于共享4个同R_i连接的边缘的区域平均灰度级之间的差。首先R_i的平均灰度级对其相邻区域的比较是基于对每个相邻区域的绝对值，由此比R_i灰度级更高的和更低的相邻区域将彼此不能对消。一个相邻区域所具有的影响对比度的地区限制到一个常数乘以两个区域具有的4个连接的相邻的像素。这将防止大的相邻区域和几乎不具有相邻像素的区域对对比度重要性施加过大的影响。同时通过使用一个尺寸标度系数对大区域减小对比度重要性。进而因韦伯(Weber)和杜维瑞斯-罗斯(deVries-Rose)效应在较高灰度级计算的对比度相对在较低灰度级的低。最后按一种自适应方式归一化该对比度到0-1范围，由此取决于该帧中的对比强度。这样在具有很高对比度的区域的帧中具有某一对比度的区域的对比度重要性降低，而在最高对比度小的帧中对比度重要性增加。

I’_cont(R_i)＝(∑_i＝1-J|gl(R_i)-gl(R_j)|*min(k_border*B_ij，size(R_i)))/∑_{j＝1- J}min(k_border*B_ij，size(R_i))

这里j＝区域1-J，共享4个同R_i连接的边缘，K_border是一个常数，限制影响相邻区域的程度(例如设直到10)，和B_ij是在R_i中像素数量，其共享4个同R_i连接的边缘。

I” _cont(R_i)＝k_sizescale*I’_cont(R_i)

这里K_sizcscale随区域尺寸变化-对小区域大而对大区域小。

I_cont(R_i)＝I”_cont(R_i)/max(gl(R_i)，th_devries)^powweber

其中th_derries是接近deVries-Rose区域开始的灰度级(设置到50)而powweber是非线性Weber功率(设置到0.3)。

对1的归一化阈值计算成：

th_cont1＝th_base1weber+(min(I”_cont)-th_base1weber)*th_weight

th_cont2＝th_base2weber+(max(I”_cont)-th_base2weber)*th_weight2high，max(I”_cont＞th_base2

或

＝th_base2weber+(max(I”_cont)-th_base2weber)*th_weight2tow，max(I”_cont≤th_base2

这里：

th_base1weber＝th_base1/128^powweber

th_base2weber＝th_base2/128^powweber

th_base1＝20

th_base2＝120

th_weight1＝0.5

th_weight2high＝0.25

th_weight2tow＝0.75

改变形状特征，使得在具有许多相邻区域的区域中降低形状重要性，由此不分配这样的区域过高的形状重要性，并使用一种自适应归一化处理归一化该形状重要性到范围0-1。

本发明将颜色特征加到该视觉注意模式。接受RGB文件作为输入并变换到L^*u^*v^*颜色区。按对计算对比度重要性的方法相似的方式计算颜色重要性，因为，事实上，两个特征执行类似的运算一个相对其背景计算一个区域的亮度对比度，而另一个相对其背景计算一个区域的颜色对比度。颜色重要性的计算始于对u^*和v^*分开计算颜色的对比度。

I_u*(R_i)＝∑_j＝1-J|u^*(R_i)-u^*(R_i)|^*min(k_border ^*B_ij，size(R_j))/∑_j＝1-J

min(k_border ^*B_ij，size(R_j))

I_v*(R_i)＝∑_j＝1-J|v^*(R_i)-v^*(R_i)|^*min(k_border ^*B_ij，size(R_j))/∑_j＝1-J

min(k_border ^*B_ij，size(R_j))然后使用一个标定系数将两个颜色重要性计算组合成平方和的平方根，并对大区域加以减缩。颜色重要性按一种自适应方式归一化到范围0-1，由此取决于帧中颜色重要性的强度。因而具有某一颜色重要性的一个区域的颜色重要性在具有很高颜色对比度的区域的帧中降低，而在具有最高颜色对比度是小的帧中其颜色重要性增加。

最后增加一个表皮特征，使得表皮地区用其颜色来检测。这是可能的，因为人类的皮肤，甚至不同种族的颜色都落入到一个窄范围的值中。同时可以使用其他的颜色空间，选择色彩-饱和-值(HSV)颜色空间，这是因为人类皮肤的颜色强有力地群集到一个窄范围的HSV值中。每个像素被独立地测试以确定其颜色是否与表皮相匹配。像素X_ij被分类为表皮，只要其HSV值(h_ij，s_ij，v_ij)落在下列范围中：

X_ij＝skin if((H_min≤h_ij≤H_max)&(S_min≤s_ij≤S_max)&(V_min≤v_ij≤V_max)

从一个大的测试图像数据库确定用于分类阈值的最佳值。四个阈值可以用常数-H_min＝350°，H_max＝40°，S_min＝0.2和V_min＝0.35表示。从图4所示曲线确定另外两个阈值S_max和V_max，随H改变。

为在先组合空间特征将平方和等同地加权重要性映像以产生一个最后的空间IM，然后将其标定使得最重要的区域具有1.0的值。为缓和在高重要性的一个区域和较低重要性的一个区域之间的急剧变化将执行块处理，其包括分配在一个n×n块中的最大重要性到该块中的每个像素。然而，为获得对不同特征的相对影响的理解，将执行眼睛跟踪研究。当一群人观看许多不同的静止图像每次接近五秒钟和超过影像的数分钟时记录他们眼睛的运动。为确定哪些特征影响人眼运动最多，计算人们凝视和每个单独特征IM之间的相关性。通过计算落在由该特征分类作为最重要的区域上的凝视(fixation)百分率即可做到。结果指出三个空间特征-位置，表皮和前景/背景-与凝视具有很高的相关性。三个其他的特征-形状，颜色和对比度-具有较低的相关性，但仍然有效地影响凝视，而尺寸施加影响比其他特征低得多。通过使用据实验测试的凝视相关性，在本发明中使用一个新的特征加权：

I_spatial(R_i)＝∑_f＝1-7(w_f ^poww*I_f(R_f)^powf)这里：

W_f是据眼睛跟踪实验的特征加权，即，(0.193 0.176 0.172 0.1300.121 0.114 0.094)，用于(位置，前景/背景，表皮，形状，对比度，颜色，尺寸)，

POW_w是特征加权指数，以控制W_r的相对影响，即，3.0，如一个例子那样，以及

POW_f是IM加权指数，即，2.0，如一个例子那样，用于所有特征。然后定标空间IM，使得最高重要性的范围具有如前跟随块处理的值1.0。

合成空间IM从帧到帧是有噪声的，因此为降低这种噪声并改善IM的时间的紧密性，将在像素级执行时间平滑操作。使用(t-m，…，t+N)帧的时间窗，在位置(x，y)的输出IM取作为来自该时间窗的在位置(x，y)的第K个最高IM。设置K＞1将消除高重要性的虚假区域。作为例子n＝m＝5帧以及K＝2。

以前对用于每个块的时间重要性映像运动矢量使用分层块匹配技术计算，而合成矢量直接用于计算时间重要性。低重要性给向很慢和很快的运动的区域，而中间运动区域分配最高重要性。对于这种现有技术存在两个主要问题：(i)没有区分摄像机运动和真实目标运动的方法，这样当存在任何摄像机运动(底座，倾斜，移镜头，旋转)时该模式将失败，而影像是彩色闪变的；以及(ii)当分配重要性于一具体运动时使用固定的阈值，但是这些阈值需适应该影像中的这种运动，因为横跨不同的影视场景运动量变化甚大。

现参照图5，它表示时间注意模式的方块图，如就现有时间处理而论，在分层块匹配处理中使用目前和在先帧去计算运动矢量。这些运动矢量由摄像机运动估算算法使用以确定有关摄像机运动的四个参数-底座，倾斜，移镜头和旋转。然后这些参数用来补偿这些运动矢量以使得捕获场景中真实目标的运动。由于结构上平坦区域中的运动矢量是不可靠的，所以在这些区域中设置补偿的运动矢量到零。如果在该块中最小和最大灰度级间的差低于阈值th_flat，例如45，则将考虑一个8×8的块是“平坦”的。最后通过一些步骤这些补偿的运动矢量将被转换到时间重要性的测量。

摄像机运动估算算法检测时间运动的某些跳动，例如由场景剪接，3∶2拉开和时间子取样，即帧下降所引起。当产生这些时间不连续性时，使用来自在先帧的对其可得到可靠运动信息的运动信息而不使用来自具有时间不连续性的帧的运动信息。如果在目前帧中检测时间不连续性，则可使用来自远在十个帧的运动信息。然后如上所述，以类似于在空间IM上执行的方式执行时间平滑。场景剪接部分或不同彩色闪变部分的帧不包括在时间窗中。结构简单的下一个区域分配一个零时间重要性。因为来自这些区域的运动矢量是不可靠的，“平坦”确定与以上所说相同但是不包括在+/-一帧的时间窗上进行计算。最后使用自适应阈值，赖于场景中目标运动总量自适应地计算这些阈值。几乎不具有运动目标和具有慢运动目标的场景比具有很多快速运动目标的场景具有更低的阈值，这是因为人类的灵敏度并不受这些许多的快速运动目标掩盖。通过采用补偿运动矢量映像的摄像机运动的第m个百分点，例如第98百分点获得一个场景中运动总量的估算。由于运动是以度/秒为单位进行计算的，所以需要知道监视器的分辨度-像素空间和观察距离。典型的像素空间是0.25mm，而对于SDTV观察，观察距离是五个图像高度。在快速运动目标由快速底座或倾斜运动跟踪的场景中，目标的运动可以大于一个给定的阈值，因此其时间重要性可以下降到小于1.0的一个值。要进行防止这种情况发生一个特殊的情况。最后在16×16像素级上执行块处理，像对于空间IM所进行的那样。由于时间IM早已处于8×8像素分辨率，所以采用每个2×2块的最大值以得到总的16×16块尺寸。

空间和时间IM的组合是一个线性加权：

I_total＝k_combI_spat+(1-k_comb)I_temp

比较观察者对空间和时间IM两者的凝视指出，与仅时间IM的那些相比较，对于仅空间IM的相关性稍高。因此建议稍高于0.5的K_comb的一个值，例如0.6。

以上是对空间和时间IM的基本综合可以做的全部。但是眼睛跟踪研究指出，在具有移镜头，旋转或很快运动的影像的场景中，观察者试图将它们的注意力主要集中在屏幕的中心。为分配进一步的重要性到这些场景中的中心区域，可执行下列计算：

mot_zoomrot＝k_z1*motion_m+k_z2*zoom+k_z3*rotate+k_z4*error_camera这里：

motion_m是补偿运动矢量映像的摄像机运动的第m个百分点，移镜头和旋转是帧的移镜头和旋转参数，error_camera是摄像机运动估算算法的输出，而K_zi是定标常数。中心定标常数K_central在按照在一对阈值之间的mot_zoomrot的总量的两个值之间调整。之后新IM是：

I’_total＝k_centralI_center+(1-k_central)I_total

在可得到的error_camera为高的场合，IM的精度降低，可以它对在这些情况下减小时间IM的影响是有用的。这可以通过误差增加时增加K_comb值做到。

最后眼睛跟踪研究指出，人和脸部是最吸引注意的。因为对人而言一般不是完全静止的，至少不是对任意延长的时间周期，一个特殊的情况可以是增加也是在运动状态下的皮肤区域的重要性。这具有两个好处：(i)由皮肤特征错误地分类为皮肤的目标通常是不运动的背景目标(沙，干玻璃，砖墙)，所以如果包括运动登记处，这些错误的正片将被拒绝；以及(ii)脸部通常包括某些简单结构区域，由于简单结构区域被设置到弱重要性，所以脸部的简单结构有时将被丢失，通过对皮肤区域缓解简单结构约束，这些区域将不再丢失并接收强重要性。因此对于每个像素：

如果：

((I_skin＞th_skinmot1)&(MV_comp＞th_skinmot2))

则：I_total＝1.0

结束

这样本发明提供这样一种类型的改进的视觉注意模式，其具有产生空间重要性映像的空间特征，并具有与该空间重要性映像相组合的时间重要性映像，以对一帧产生总重要性映像，改进是对空间特征以及附加的空间特征的自适应分段算法，自适应算法，以及基于眼睛活动研究改进的组合算法，以产生更增强的改进的总重要性映像。

Claims

1.一种改进的视觉注意模式的方法，所述方法具有如下步骤：将一个视频序列的一帧分段成用于由多个空间特征处理的区域，以产生相应的多个空间重要性映像；将该帧与在先的帧进行比较以便处理产生一个时间重要性映像；组合空间和时间重要性映像以对该帧产生一个总的重要性映像，其特征在于包括步骤：

使用颜色和亮度将该帧分段成多个同簇区域；用多个空间特征处理该区域以产生多个空间重要性映像；

用在先帧处理该帧，以产生补偿摄像机运动的时间重要性映像；以及

基于由眼睛活动研究导出的加权函数组合空间和时间重要性映像以产生用于该帧的总的重要性映像。

2.如权利要求1的方法，其中自适应分段步骤包括步骤：

基于中间区域的亮度变化，颜色变化和尺寸将该帧分层分开到该区域；以及

当中间区域中的平均亮度和颜色变化小于各自的自适应阈值和该中间区域中亮度变化和颜色变化小于各自的阈值或该中间区域中的亮度和颜色变化小于各自阈值时合并中间区域以形成该区域。

3.如权利要求2的方法，其中自适应分段步骤还包括在分开步骤之前剪辑帧的边缘的步骤。

4.如权利要求1的方法，其中空间特征包括至少从由尺寸，背景，位置，对比度，形状，颜色和皮肤组成的组选择的两个。

5.如权利要求4的方法，其中对于对比度空间特征的处理步骤是基于被处理区域的平均灰度级的绝对值和其共享4个连接边缘的相邻区域，受限于一个常数乘以4个连接的相邻像素数，以及通过相对于在较低灰度级的对比度减少在较高灰度的对比度来考虑韦伯和“杜维瑞斯-罗斯”效应。

6.如权利要求4的方法，其中对于颜色空间特征的处理步骤计算相对其背景被处理的一个区域颜色对比度。

7.如权利要求4的方法，其中对于皮肤空间特征的处理步骤使用窄范围的颜色值和相应的阈值，用于每个元素颜色值的最小和最大值。

8.如权利要求1的方法，其中组合步骤包括步骤：

根据从眼睛活动研究经验确定的加权值加权每个空间重要性映像，以产生一个合成空间重要性映像；

使用时间平滑算法从帧到帧平滑合成空间重要性映像以减小噪声和改善时间紧密性从而产生一个空间重要性映像；以及

用时间重要性映像组合空间重要性映像以产生总的重要性映像。

9.如权利要求8的方法，其中用时间重要性映像组合空间重要性映像的步骤包括线性加权空间重要性和时间重要性映像步骤，线性加权步骤使用由眼睛活动研究确定的一个常数。

10.如权利要求1的方法，时间重要性映像处理步骤包括步骤：

使用分层块匹配算法计算用于目前帧的每个块的运动矢量；

由该运动矢量估算摄像机运动参数；

基于摄像机运动参数补偿该运动矢量；以及

将补偿的运动矢量转换成时间重要性映像。

11.如权利要求10的方法，其中时间重要性映像处理步骤还包括确定每个块的平坦度，使得在先于转换步骤的补偿运动矢量中在结构上运动矢量平坦误差被设置到零的步骤。