CN100393134C

CN100393134C - 用于自适应播放视频帧的方法

Info

Publication number: CN100393134C
Application number: CNB2004800005423A
Authority: CN
Inventors: 卡迪尔·A·皮克; 阿加伊·迪瓦卡兰
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-07-10
Filing date: 2004-06-25
Publication date: 2008-06-04
Anticipated expiration: 2024-06-25
Also published as: DE602004002171D1; EP1525751A1; JP4597983B2; WO2005006764A1; US7406123B2; JP2007527141A; DE602004002171T2; CN1698385A; EP1525751B1; US20050018881A1

Abstract

一种根据视频的视觉复杂度自适应地播放视频帧的方法。首先度量视频帧中的像素的空间频率，以及视频帧之间的相应像素的时间速度。用空间频率乘以时间速度以获得视频帧的视觉复杂度的度量。视频帧接着以对应于该视觉复杂度的速度被播放。

Description

用于自适应播放视频帧的方法

技术领域

本发明一般地涉及处理视频，更具体地，涉及基于视觉复杂度自适应播放压缩视频。

背景技术

在现有技术中，视频摘要和视频的自适应重放经常被理解为同一且相同的。因此，为了识别本发明，提供了以下定义。

视频摘要

视频摘要是以降低的和压缩的形式产生视频内容的主旨或主要点的过程。通常，视频摘要通过从原始视频中选择一个帧子集而产生，以制造摘要视频，它是比原始视频更短的视频。摘要可以包括所选择的静止帧和/或短的所选择的连续序列，以传达原始视频的要素。该摘要可以按照所选帧的顺序被表现为节目顺序表，或镶嵌式。也可能文本地或语言地概括视频。

通常，视频摘要基于用户输入和视频内容。内容的分析可以基于例如纹理、运动、颜色、对比度、亮度等低层特征，以及例如风格、戏剧性强度、幽默、活动级别、美观、抒情等高层语义特征。

自适应重放

自适应重放是以时间偏差方式呈现视频的过程。在最通常的意义上，通过改变帧速率选择性地提高或降低视频播放速度，或者通过选择性地除去帧以增加播放速度，或者增加帧以降低播放速度。如果视频的自适应重放比原始视频短，且该重放传达视频内容的要素，则它可以被认为是一种类型的摘要。然而，存在视频的自适应重放比原始视频更长的情况。例如，如果视频包含复杂场景或大量运动，则以更慢的速度播放视频可以为观看者提供更好的视频细节理解。该类型的自适应重放是视频的放大或增大，而不是摘要。

摘要的主要目的是在更短量的时间内输出视频的要素，因此该过程基本上基于内容分析。

与之相对照，自适应重放的主要目的是改进视频对于人类视觉系统的感觉，其中该改进基于视频的视觉复杂度。因此，自适应的关注点更多地基于视频的心理-物理特征而不是内容，且该过程更是一种表现技术，而不是内容分析方法。

自动视频摘要方法是众所周知的，参阅S.Pfeiffer等人的“Abstracting Digital Movies Automatically”，J.Visual Comm.ImageRepresentation，vol.7，no.4，pp.345-353，1996年12月，以及Hanjalic等人的“An Integrated Scheme for Automated Video AbstractionBased on Unsupervised Cluster-Validity Analysis”，IEEE Trans.OnCircuits and Systems for Video Technology，Vol.9，No.8，1999年12月。

多数已知的视频摘要方法关注基于颜色的摘要。Pfeiffer等人还使用运动，组合其它特征以产生视频摘要。然而，他们的方法仅使用加权的组合，它忽略了组合特征之间可能的相关性。虽然颜色描述符是可靠的，但是它们并不包括视频内容的运动特征。然而，运动描述符倾向于比颜色描述符对噪声更敏感。视频中运动活动性的级别可以是由视频获得的场景变化多少的度量。因此，运动活动性可以被认为是视频的“可概括性”的度量。例如，与新闻评论员的场景相比，高速汽车追逐中将当然具有更多的“变化”，因此高速汽车追逐场景将比新闻评论员需要更多用于视觉摘要的资源。

在某种意义上，摘要可以被看作冗余度的减少。这可以通过对相似视频帧进行聚类，并且从这些聚类中选择代表性的帧来完成，参阅Yeung等人的“Efficient matching and clustering of video shots”，ICIP’95，pp.338-341，1995，Zhong等人的“Clustering methods forvideo browsing and annotation”，SPIE Storage and Retrieval forImage and Video Databases IV，pp.239-246，1996，以及Ferman等人的“Efficient filtering and clustering methods for temporal videosegmentation and visual summarization”，J.Vis.Commun.& ImageRep.，9：336-351，1998。

在另一种方法中，视频内容中的变化随时间流逝被度量，且只要变化变得显著，则具有代表性的帧被选择，参阅DeMenthon等人的“Video Summarization by Curve Simplification”，ACM Multimedia98，pp.211-218，1998年9月，以及Divakaran等人的“Motion Activitybased extraction of key frames from video shots”，Proc.IEEE Int’lConf.on Image Processing，2002年9月。

在另一种方法中，为视频的不同部分分配有效性度量。随后，不那么有效的部分可以被滤除，参阅Ma等人的“A User Attention Modelfor Video Summarization”，ACM Multimedia’02，pp.533-542，2002年12月。

一种自适应视频摘要方法由Divakaran等人的“Videosummarization using descriptors of motion activity”，Journal ofElectronic Imaging，Vol.10，No.4，October 2001，Peker等人的“Constant pace skimming and temporal sub-sampling of video usingmotion activity”，Proc.IEEE Int’l Conf.on Image Processing，2001年10月，Peker等人于2000年11月17日提交的美国专利申请序列号09/715,639，以及Divakaran等人于2000年8月9日提交的美国专利申请序列号09/654,364中描述，这些文献通过参考被并入于此。其中，运动活动性描述符被用来产生具有常数“步调”的摘要。该运动活动性描述符是MPEG压缩视频中运动矢量的平均大小。

现有技术视频处理方法主要关注了考虑内容提供可理解的摘要。然而，需要不同的方法以根据视觉复杂度以不同速度自适应地播放视频。这些方法应该考虑人眼能够以多快的速度跟踪随时空复杂度变化的动作流。

发明内容

本发明提供一种用于自适应播放视频帧的方法，包含：度量视频帧内的像素的空间频率；度量视频帧之间的相应像素的时间速度；用该时间速度乘以该空间频率以获得视频帧的视觉复杂度的度量；以及以对应于该视觉复杂度的速度播放视频帧，其中，所述空间频率和时间速度都是2D矢量，通过所述空间频率和时间速度矢量的标量积来获得所述视觉复杂度。

心理物理实验已经显示，人类视觉系统仅对一定时空窗内的视觉激励敏感。运动图像在该时空空间中的位置通过图像区域的空间频率内容及其速度被确定。

本发明提供视频中的时空复杂度(STC)的一种度量，它可以被用来确定该视频应该被播放得多快或多慢以匹配人类感觉极限。或者，该度量使得一个人能够确定可接受的视频播放速度所需的时空滤除。

时空复杂度被直接从视频中度量，使得内容可以从任意点被正向播放。根据本发明的自适应重放方法基于人类视觉系统的视觉特征，因此，本方法不依赖于视频摘要将需要的内容特征和语义。

因此，根据本发明的方法可以被应用于很大范围的视频，不依赖于它们的内容。而且，本方法可以被用于低的时间摘要，其中被感知的内容和时间连续性随着时间的流逝被保持，且丢失重要事件的风险被最小化。

配置了视频的视觉复杂度的度量，视频可以用两种可相互替代的方法被播放。在一种方法中，确定视频可以被播放的最优速度以最大化感觉。在第二种方法中，视觉复杂度部分是空间复杂度的函数，它可以通过滤除高频空间分量，且通过时空平滑而被降低。降低视觉复杂度并不意味着如摘要的情形中那样视频的某些部分被除去，而是需要更少的时间通过人类视觉系统传达内容，与该内容是什么无关。

根据本发明的视觉复杂度度量并不暗示任何语义的推论。播放速度适合于内容的低层物理特征，而不是高层认知阶段。在这方面，自适应重放更是一种表现方法，而不是语义内容分析。因此，根据本发明的自适应重放是对已知摘要方法的补充。

虽然本发明的优选实施例作用于通过离散余弦系数被空间压缩且通过运动矢量被时间压缩的视频，应该理解本发明也可以作用于未压缩视频。

附图简述

图1是线性运动的1-D脉冲的示意图；

图2是图1的脉冲的定时示意图；

图3是图1的信号的傅立叶变换；

图4是带宽受限信号的示意图；

图5是图4的信号的傅立叶变换；

图6是用于图5的信号的可视性窗的示意图；

图7和图8比较混叠和可视性约束的窗；

图9是用于平移1-D正弦信号的时间带宽和其时间频率的推导的示意图；

图10是具有与波前垂直的频率向量的2D正弦的示意图；

图11是用于运动物体的运动矢量的示意图；

图12是比较角度和距离观看单元的关系的示意图；

图13是比较用于一段篮球视频的运动活动性和视觉复杂度的示意图；以及

图14是比较用于一段高尔夫视频的运动活动性和视觉复杂度的示意图。

本发明的优选实施方式

本发明以为对其内容的可接受的理解而调整的速度自适应地播放视频，与该内容是什么无关。我们的播放速度主要是场景复杂度和人类视觉系统的处理容量的函数。这些因素极大地影响人类视觉系统的帧处理时间。

众所周知，人类视觉系统仅对一定时空窗内的激励敏感，见下文中的图6，该时空窗被称作可视性窗，参阅Watson等人的“Window ofvisibility：a psychophysical theory of fidelity in time-sampled visualmotion displays”，J.Opt.Soc.Am.A，Vol.3，No.3，pp.300-307，1986年3月。Watson等人提出，对于时间采样的视频，要与其连续视频的感觉相同，这两种形式应该在变换域中的可视性窗内看上去相同。

我们还认识到，高于一定空间解析度和时间频率极限，人类无法观看并理解。因此，我们平衡视觉激励的空间带宽和速度之间的关系，以当播放视频时保持常数感觉视觉质量，视觉激励的速度即视频帧以怎样的速率呈现。

图1用从左至右线性运动的1-D脉冲信号101图示了这个概念，运动速度为v，使得x＝v.t，见图2，其中x轴和t轴被分别标记为201-202。这对应x-t空间中的直线203。如图3所示，该信号的傅立叶变换也是通过原点的直线301，斜率为

其中w302是时间频率，且f303是空间频率。在时间上，1-D信号平移的频谱位于通过原点的直线上。

图4示出了带宽为(-U，U)401的带宽受限信号。如图5所示，时空(傅立叶)变换为从(U，-v.U)延伸至(-U，v.U)的直线501。

当运动的信号在时间上被采样时，在变换域的时间频率轴ω上产生了原始信号的傅立叶变换的复制，每个均间隔ω_s，其中ω_s是时间采样频率。

根据心理物理理论，如图6所示，对于傅立叶域，只要采样的复制602位于可视性窗610以外，时间采样带宽受限信号601与连续形式感觉相同。复制602位于可视性窗以外，只要ω_s≥ω_l≥+vU，其中l为可视性窗在时间频率轴上的一个边缘。

另一个考虑是由采样引起的时间混叠效应。采样频率ω_s必须至少为2.v.U，以避免混叠。混叠与可视性窗约束的比较被图示于具有采样信号的时间频谱701和801的图7和图8。在计算机图形中，混叠时常利用空间平滑或运动模糊来处理。因此，视觉激励的时间带宽是对时间采样频率的限制因素。

如图9所示，对于1-D正弦901及其位移形式902，用于平移1-D信号的时间带宽为v.U。在2-D的情况下，运动正弦的时间频率由频率矢量和速度矢量的点积给出

其中v＝d/t_d，且d是相对位移距离。

图10示出了具有垂直于波前1002的频率矢量f1001的2D正弦。矢量v1003示出了速度的平移。在图10中，正弦为

其中原点在左上角，且y轴正半轴示于下方。2D正弦的每个1-D横断面都是1-D正弦。该正弦沿x轴的频率为f_x＝1/2，且沿y轴的频率为f_y＝2。我们用频率矢量

\overset{&RightArrow;}{f} = (0.5,2)

表示该正弦，它指向最高频率方向，即沿着梯度。

如果描述该正弦的平移的运动矢量由

\overset{&RightArrow;}{v} = (v_{x}, v_{y})

给出，则运动矢量

的空间方向上的1-D横断面的空间频率为

f_{v} = \frac{(f_{x} {\cdot v}_{x} + f_{y} \cdot v_{y})}{\sqrt{v_{x}^{2} + v_{y}^{2}}} = \frac{\overset{&RightArrow;}{f} \cdot \overset{&RightArrow;}{v}}{| \overset{&RightArrow;}{v} |} .

因此，具有空间频率和速度

的平移2D信号时间频率由

f_{v} | \overset{&RightArrow;}{v} | = \overset{&RightArrow;}{f} \cdot \overset{&RightArrow;}{v}

给出。

根据本发明，我们将这种标量积定义为时空或视觉复杂度度量。

压缩视频中的时空复杂度

作用于压缩视频的方法因为显著节约处理时间、缓冲和存储要求，所以是有优势的。在很多应用中，作用于压缩视频的过程是唯一可行的解决方法。为了根据本发明在压缩视频中度量视觉复杂度，我们使用了离散余弦变换(DCT)系数的宏块和运动矢量。

如上所述，本视觉复杂度由

给出。DCT变换的基函数具有如下形式

\cos (\frac{π k_{x} (2 x + 1)}{2 N}) \cdot \cos (\frac{π k_{y} (2 y + 1)}{2 N})

= \cos (2 π \frac{k_{x}}{2 N} x + 2 π \frac{k_{x}}{4 N}) \cdot \cos (2 π \frac{k_{y}}{2 N} y + 2 π \frac{k_{y}}{4 N}),

它是频率为

和

的两个1-D正弦的乘积，其x方向频率为f_x且y方向频率为f_y。

使用恒等式

\cos (a \cdot b) = \frac{1}{2} [\cos (a + b) + \cos (a - b)],

我们可以将该DCT基写作：

\cos (2 π \frac{k_{x}}{2 N} x + 2 π \frac{k_{x}}{4 N}) \cdot \cos (2 π \frac{k_{y}}{2 N} y + 2 π \frac{k_{y}}{4 N})

= \frac{1}{2} [\begin{matrix} \cos (2 π \frac{k_{x}}{2 N} x + 2 π \frac{k_{y}}{2 N} y + 2 π \frac{k_{x} + k_{y}}{4 N}) \\ + \cos (2 π \frac{k_{x}}{2 N} x - 2 π \frac{k_{y}}{2 N} y + 2 π \frac{k_{x} - k_{y}}{4 N}) \end{matrix}]

因此，每个DCT基为两个2D正弦的叠加，一个具有空间频率

{\overset{&RightArrow;}{f}}_{1} = (\frac{k_{x}}{2}, \frac{k_{y}}{2}),

另一个具有空间频率

{\overset{&RightArrow;}{f}}_{2} = (\frac{k_{x}}{2}, - \frac{k_{y}}{2}) .

则，由(k_x，k_y)DCT系数和运动矢量

\overset{&RightArrow;}{v} = (v_{x}, v_{y})

得出的时间频率或时空复杂度为

ω_{1} = {\overset{&RightArrow;}{f}}_{1} \cdot {\overset{&RightArrow;}{v}}_{1} = \frac{k_{x}}{2} v_{x} + \frac{k_{y}}{2} v_{y},

以及

ω_{2} = {\overset{&RightArrow;}{f}}_{2} \cdot {\overset{&RightArrow;}{v}}_{2} = \frac{k_{x}}{2} v_{x} - \frac{k_{y}}{2} v_{y},

它们的单位为周期每块，因为(k_x，k_y)具有这种单位。为了将频率转换成周期每帧，我们通过(k_x，k_y)除以例如8的宏块大小，将其转换为周期每像素。此外，我们在过程中使用绝对值|ω₁|和|ω₂|，因为频率的符号在一个维度中是无关的。用于将DCT展开为正弦的和的1/2因子也是无关的，因为所有项都具有相同的因子。因此，由每个DCT系数贡献的时空复杂度项的最终形式为：

ω_{1} = \frac{| k_{x} v_{x} + k_{y} v_{y} |}{16},

ω_{2} = \frac{| k_{x} v_{x} - k_{y} v_{y} |}{16}

周期/帧。

每个DCT系数将等于其能量的值贡献给对应于时空复杂度直方图中的ω₁和ω₂的直方图槽，如下所述。

运动矢量和DCT估计

在MPEG视频中，确定压缩运动矢量以最大化压缩效率。因为运动矢量并不预测真实的运动，运动矢量是不可靠的。常会出现伪矢量，尤其当编码器没有被最优化时。为了减少伪运动矢量，我们丢弃具有低纹理的块，因为用于寻找运动矢量的块匹配对这些块更加不可靠。

我们通过对每个块的空间带宽设置门限进行丢弃，我们已经对视觉复杂度度量确定该空间带宽。注意，具有低纹理或低空间带宽的块被期望具有低的视频复杂度。因此，丢失有效块的风险最小。然后，我们应用中值滤除以进一步减少伪运动矢量。我们运用插值为没有运动矢量的帧内编码宏块填补运动矢量信息。

可以为各块适配全局运动模型以进一步减少伪运动矢量。然而，这也将影响前景物体的运动。然而，如果该应用允许，则全局运动适配，尤其通过迭代的加权最小平方，可以增加运动矢量场的可靠性。模型适配还消除了帧内编码宏块的问题。根据按照人类视觉系统跟踪运动物体，不同地对待运动物体与主要静止的背景是有意义的。

对于MPEG压缩视频的I帧，具有DCT系数而没有运动矢量。类似地，对于P帧，具有运动矢量且DCT系数仅用于运动残余。通过应用运动补偿或估计而不解码，我们可以确定P帧块的DCT系数。另一种可供替换的解决方法将从I帧到后面的P帧或其它帧的运动矢量看作I帧中的非规则网格上的块的运动。然后，我们可以对运动矢量场进行插值或适配参数模型以得到用于I帧的块的运动矢量。这是更简单且更快速的方法。然而，如果为不规则运动场适配参数模型，前景物体运动可能被丢失。

视频段的时空复杂度

我们为视频的一部分的视觉复杂度同时定义基于直方图的度量和单数度量。对于每个宏块，我们确定对每个DCT系数的时空复杂度贡献(ω₁和ω₂)，并且构建复杂度分布的直方图。我们通过平均宏块复杂度直方图，为该帧确定复杂度直方图。可以对一定数目的帧执行该平均，以确定视频段的复杂度。

时空复杂度直方图使得我们能够度量高于给定时间频率的能量。该度量被用于调整摘要因子或用于每个视频帧或段的播放速度，使得感觉质量对于视频的所有帧为常数。

对于直方图过于复杂的某种应用，可以使用更加简洁的度量。例如，平均或者某种百分位数可以被用作对视频段的时空复杂度的单个代表性度量。时空复杂度直方图类似于功率谱，而单数与带宽度量相似。

实际上，视觉复杂度度量是视频段的时间带宽的一种近似。理想地，时间带宽可以通过3D快速傅立叶变换(FFT)或DCT来确定。然而对于多数视频，由于计算复杂度和缓冲器要求，这将是不实际的。使用运动矢量中的分段线性运动假设使得我们能够以直接的方式估计压缩视频中的时间带宽。

具有时空复杂度度量的形式的估计的时间带宽可以高于由时间采样速率给出的最高可能频率。这是由于几个因素，例如运动矢量中的固有错误，基于块的运动矢量场的低分辨率，块的运动残余，对于一定数目帧的线性运动假设，等等。

例如，如图11中所夸大描绘的，对于例如远距离监视视频中的高速汽车1101或卡车1102的小物体，像素运动，运动矢量1103可以大于物体的大小。实际上，对于某些宏块，这种区域中的时空复杂度可以高达1.6，其中0.5是时间混叠极限。然而，时空复杂度仍然是一种好的近似，并且是视觉场景复杂度的直观的指示符，因为它组合了两种重要的视觉复杂度分量，即视频帧的空间细节和运动活动性级别。

自适应重放

在适宜的条件下，人类视觉系统可以感觉高达约60周期/度的空间解析度。然而，这个数字根据激励的亮度、对比度和视网膜中央凹位置而不同。Watson等人报告了6至17周期/度的空间解析度极限，这反映了更容易在控制或摄影棚设置以外的普通场景的视频中找到的不完美的照明和对比度。在相同的条件下所报告的时间频率极限约为30Hz，它可以与24和25或30fps的电影和电视帧速率相比较。对于标准解析度电视，建议的水平观看角度约为10°，且对于HDTV为30°。

如图12所示，这对应观看距离d和屏幕高度h分别为8和3，使得

θ = {2 \tan}^{- 1} \frac{h}{2 d},

用于为了解析度计算，在角度和距离单位之间进行转换的目的。

因为水平屏幕解析度分别为720(360周期)和1920(960周期)，我们具有大约30周期/度的空间解析度。VCD格式具有水平和垂直解析度，例如352x240NTSC MPEG-1，几乎是DVD的一半，DVD例如720x480NTSC MPEG-2，且由于它接近VHS质量，所以被接受。我们将取30周期/度作为高质量空间解析度极限(DVD)，15周期/度作为可接受质量解析度(VHS)，且7周期/度作为低端可接受解析度。

我们取视频的原始帧速率作为视觉时间频率极限ω₁，因为该速率与所估计的实际值足够接近，并且考虑了人类视觉系统而被确定。它还定义了原始内容中的最高时间频率。在这种条件下，可视性窗约束所允许的最高时间频率等于对于原始帧速率的奈奎斯特频率。例如，在(8，n)或(m，8)系数之一处具有有效能量的DCT块在该方向上可以仅具有1像素/帧的运动。一般地，

ω_{1} \leq \frac{1}{2}

且

ω_{2} \leq \frac{1}{2},

因此|k_xv_x±k_yv_y|≤8，

其中(k_x，k_y)，1≤k_x，k_y≤8，为DCT系数的数目。

这可以被解释为给定块运动的可用空间带宽。结果，当播放速度增加时，运动矢量被放大，且所允许的空间带宽成比例地缩小。给定视频段的时空复杂度，时间混叠被感知以前可以被用来播放视频的最大加速因子为：

f \leq \frac{1}{2 ω},

其中ω：时空复杂度。

如上所述，原始时空复杂度值有时高于混叠极限，如图11所示。虽然，总的物体仍然可以被看见，但是细节可以被看清楚之前，视频需要以更慢的速度被播放。在实际生活中，这对应于眼睛跟踪快速运动的物体，它降低有效速度，并且增加给定速度下所允许的空间解析度。

在视频以高于时空复杂度所指示的速度被播放的情况下，时空滤除或运动模糊可以被应用以避免混叠。在这种有损耗的情况下，时空复杂度直方图允许我们确定对于给定播放速度的必须被滤除的能量的量。则视频的各种部分可以被加速使得它贯穿整个视频具有相同的丢失级别。如果使用更简单的单数时空复杂度度量，视频段与其时空复杂度值成反比例地被加速。

时空平滑是包括空间和时间维度的3D空间中的一种滤除操作。通过MPEG解码器中的缓冲帧的加权平均完成时间滤除。时间滤除消除了视频信号位于可视性窗以外的部分，在本例中，它等价于时间混叠极限。因为视频段的时间带宽是空间带宽和运动的乘积，我们可以通过空间滤除以及时间平滑降低时间带宽。

例如核化的技术允许压缩视频的有效空间滤除。核化是一种用于从图像中消除噪声的著名技术。该技术将被噪声恶化的图像变换为频域表示。之后，通过非线性核化函数减少图像变换系数。对核化后的系数进行反变换之后，得到降噪的图像。然而，在需要低复杂度的应用中，可以使用未滤除的视频，即使它包含一些人为污染。

另一种可以被运用的依赖于应用的修改是对视频序列的时空复杂度曲线的平滑和/或量化。在某些情况下，播放速度的连续改变不是可行的或需要的。在这些应用中，对于给定的时间的最小长度，例如对于每一个镜头，可以确定播放速度。此外，允许的播放速度可以被限制于一组预先确定的值，作为对商业广告视频和DVD播放器可能的值。

因此，在重放期间，视频的时间失真可以通过使用视觉复杂度的量化，通过视觉复杂度的平滑和滤除，通过视觉复杂度的分段线性近似使得视觉复杂度基本上为线性，或者通过将常数视觉复杂度分配给例如一个镜头的视频的一致时间段，而被最小化。

图13和14还图示了现有技术运动活动性度量和根据本发明的时空复杂度度量之间的差异。对于MPEG7测试集中的一段篮球视频段，图13将运动活动性和时空复杂度(STC)绘制为帧的函数。这两种度量是类似的，除了最后的部分(≈帧550)它是对运动员的近距离摄影。在此，时空复杂度度量基本上更低，因为与所有运动员的广角镜头相比图像更大具有更少细节。图14绘出了空高尔夫球道的镜头，之后是球座镜头，以及运动员走向下一块草地。

虽然优选实施例是按照压缩视频进行描述的，应该理解，本发明也可以如下被应用于未压缩视频。

虽然本发明是用由压缩域所获得的例子进行描述的，应该理解，本发明也可以作用于未压缩视频。

本发明的基本思想是使用视频的时空复杂度度量，以控制视频的自适应重放。时空复杂度可以通过用速度(时间)乘以带宽(空间)来近似。特别地，在2D真实图像中用纯正弦的平移度量空域的带宽。

本发明的顶级概念度量空间带宽和时间带宽或频谱。当视频被加速或放慢时，时间频率分量成比例地放大或缩小。即使视频没有在时间或空间上被采样，例如NTSC模拟视频，这也是正确的。空间带宽可以用若干种方式进行度量，例如，通过采取对给定视频段的3D FFT，或当视频为模拟时采用模拟傅立叶变换。时间带宽可以通过采取空间频率分量及其速度的点积来进行估计。

这本质上是一种直观的、经验性的度量，它组合了空间复杂度，即纹理级别，和运动复杂度，即运动活动性级别。注意，该视频可以是压缩的或未压缩的，或数字的或模拟的。该点积是给定视频段的时空复杂度。虽然视频的视觉复杂度包括空间和时间带宽，时间带宽是数字视频的自适应重放中的决定因素。对于要被使用的以上近似，我们识别空间频率分量的单个运动，即2D中的纯正弦，它们组成了视频图像。如果视频的图像中的整个场景均匀地运动，如在远镜头上的摄像机摇拍，即平移运动，所有空间频率分量以相同的速度v运动。则该图像可以通过使用2D FFT被分解为这些分量。

运动产生的时间频率分量可以通过使用点积估计被确定每个空间分量。然而，多数视频的场景中的运动通常比简单的摇拍复杂得多。因此，本发明使用压缩域中的宏块运动矢量。

为每个宏块定义单个平移运动，如块运动矢量中所表达。因此，组成具体宏块的每个空间频率分量以关联于该块的块运动矢量所给定的速度运动。

我们使用点积对产生于该块中每个空间频率分量的运动的时间频率分量进行估计。此外，我们获得空间频率分量，一般通过使用压缩视频中可用的DCT系数的FFT获得。

但是，遵循局部化区域方法中的速度＊空间频率近似，我们可以确定图像中每个像素处或者更一般地对于每个像素附近的窗的运动和空间分解。

每个点处的时间带宽(运动)可以通过光流分析被确定。对于空间带宽，我们可以使用每个像素附近的窗，并且计算短时FFT，等等。则我们可以利用该窗确定每个像素处或像素附近的时空复杂度。

我们所描述的压缩视频的例子是一种特殊的情况，其中窗是宏块，且运动由块运动矢量描述。

像素处的纹理的量紧密地与该像素处的强度的梯度相关。光流也可以由梯度确定。

虽然本发明已经通过优选实施例的方式被描述，但是应该理解，各种其它适应和修改可以在本发明的实质和范围内做出。因此，所附权利要求书的目标是涵盖所有这种属于本发明的真实本质和范围内的变化和修改。

Claims

1.一种用于自适应播放视频帧的方法，包含：

度量视频帧内的像素的空间频率；

度量视频帧之间的相应像素的时间速度；

用该时间速度乘以该空间频率以获得视频帧的视觉复杂度的度量；以及

以对应于该视觉复杂度的速度播放视频帧，

其特征在于，所述空间频率和时间速度都是2D矢量，通过所述空间频率和时间速度矢量的标量积来获得所述视觉复杂度。

2.权利要求1的方法，其中该视频是被压缩的。

3.权利要求2的方法，其中空间频率根据帧中像素的离散余弦变换系数被度量，而时间速度根据帧之间的相应像素的运动矢量被度量。

4.权利要求3的方法，其中离散余弦变换的基函数具有如下形式

\cos (\frac{{πk}_{x} (2 x + 1)}{2 N}) \cdot \cos (\frac{{πk}_{y} (2 y + 1)}{2 N})

= \cos (2 π \frac{k_{x}}{2 N} x + 2 π \frac{k_{x}}{4 N}) \cdot \cos (2 π \frac{k_{y}}{2 N} y + 2 π \frac{k_{y}}{4 N})

其中

是帧中x方向的频率f_x，

是帧中y方向的频率f_y，

其中对于DCT宏块，N为8。

5.权利要求4的方法，其中每个基函数是两个2D正弦的叠加，一个具有空间频率

{\overset{&RightArrow;}{f}}_{1} = (\frac{k_{x}}{2}, \frac{k_{y}}{2}),

且另一个具有空间频率

{\overset{&RightArrow;}{f}}_{2} = (\frac{k_{x}}{2}, - \frac{k_{y}}{2}) .

6.权利要求5的方法，其中具体的运动矢量为

\overset{&RightArrow;}{v} = (v_{x}, v_{y}) .

7.权利要求6的方法，其中由离散余弦系数和运动矢量得出的视觉复杂度是

ω_{1} = {\overset{&RightArrow;}{f}}_{1} \cdot {\overset{&RightArrow;}{v}}_{1} = \frac{k_{x}}{2} v_{x} + \frac{k_{y}}{2} v_{y},

以及

ω_{2} = {\overset{&RightArrow;}{f}}_{2} \cdot {\overset{&RightArrow;}{v}}_{2} = \frac{k_{x}}{2} v_{x} - \frac{k_{y}}{2} v_{y} .

8.权利要求3的方法，还包含：

丢弃具有低纹理度的运动矢量；

对运动矢量进行中值滤除；以及

为运动矢量适配全局运动模型，以减少伪运动矢量。

9.权利要求3的方法，其中压缩视频包括I帧和P帧，而且该方法还包含：

通过应用运动补偿确定P帧的离散余弦变换系数；以及

通过内插P帧的运动矢量确定用于I帧的运动矢量。

10.权利要求1的方法，还包含：

对一组帧对视觉复杂度求平均以确定视频段的复杂度。

11.权利要求1的方法，还包含：

播放视频时应用运动模糊以降低混叠。

12.权利要求1的方法，其中播放速度与视觉复杂度成反比。

13.权利要求1的方法，还包含：

播放时应用核化以对视频进行空间滤除。

14.权利要求1的方法，其中该视频是未压缩的。

15.权利要求1的方法，其中视频的时间失真在重放期间被最小化。

16.权利要求15的方法，其中该最小化使用了视觉复杂度的量化。

17.权利要求15的方法，其中该最小化使用了视觉复杂度的平滑和滤除。

18.权利要求15的方法，其中该最小化构建了视觉复杂度的分段线性近似，使得视觉复杂度基本上是线性的。

19.权利要求15的方法，其中该最小化将常数视觉复杂度分配给视频的一致时间段。