CN101535941B

CN101535941B - 自适应视频呈现的方法和装置

Info

Publication number: CN101535941B
Application number: CN2007800318436A
Authority: CN
Inventors: 陈志波; 顾晓东; 陈衢清
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2006-09-01
Filing date: 2007-09-03
Publication date: 2013-07-03
Anticipated expiration: 2027-09-03
Also published as: CN101535941A; KR101414669B1; KR20090045288A; EP2057531A4; WO2008028334A1; JP2010503006A; WO2008040150A1; EP2057531A1; US20090244093A1; US8605113B2; JP2014139681A

Abstract

本发明涉及一种基于视频内容分析，在具有有限屏幕尺寸的较小显示器上自动呈现带有流嵌入信息的视频的自适应视频呈现方法。该方法包括以下步骤，基于所述视频的每帧的宏块的感知兴趣值(perceptual interest value)，确定包含至少一个显著对象的显著对象组，为视频的场景提取具有包含该显著对象组的最小尺寸的窗口，其特征在于，其进一步包括以下步骤：比较提取的窗口的尺寸与较小显示器的尺寸；基于视频场景的不同运动模式的比较步骤的结果，以不同操作模式在较小显示器上呈现提取的窗口的至少一个所选区域，该提取的窗口包含至少一部分显著对象组。

Description

自适应视频呈现的方法和装置

技术领域

本发明涉及视频呈现的方法和装置，更具体地涉及在小显示器上自适应视频呈现的方法和装置。

背景技术

在多媒体应用领域，诸如Pocket PC、智能电话、SPOT表、TabletPC、个人数字助理装置等多种新型移动装置在人们的日常生活中越来越流行。这些装置在数字计算和数据存储方面功能变得越来越强大。而且，人们已经变得热衷于通过这些移动装置观看视频。

然而，低带宽连接和小显示器是削弱这些装置在人们日常生活中有用性的两个严重障碍。虽然已经开发诸如Windows视频播放器和PocketTV的少数商业视频播放器，使得用户能够从小屏幕装置(small form factor device)浏览视频，但有限的带宽和小视窗尺寸仍然是两个关键障碍。随着2.5G和3G无线网络的快速、成功发展，预期带宽因素在不远的将来会成为较小的限制。而显示器尺寸的限制可能在一定时期内保持不变。

某些现有的工作聚焦于在移动装置上显示图像。这些工作基于图像注意模型计算并提供最佳图像观看路径，从而模拟人类的观看行为。因为多数有价值的信息是由视频提供的，所以改善在小显示器上观看视频的体验对释放这些移动装置的功能是重要的。

X.Fan等人在“在小显示器上观看视频帧”，ACM MM’03，2003中提出了提供更好的在有限的且不同的屏幕尺寸显示器上观看视频的用户体验的一个解决方案，该解决方案引入了三种浏览方法：手动浏览方法，全自动浏览方法和半自动浏览方法。

然而，在所提出的全自动浏览方法中，方向控制和缩放控制均被禁用。最终的视频流使用更多的视频空间来显示受注意的区域(attention-getting regions)，同时切除(cropping out)其他部分。因此，当视频帧包含许多独立焦点时，该方法与传统的采样方案差别较小。

在半自动浏览方法中，要求人们互动，从而在有一个以上的重要注意对象(AO)时切换浏览焦点。该显示焦点是在用户按下控制按钮后计算的，且当焦点改变时将出现伪像。

因此现有方案不能为在小显示尺寸的装置上自动浏览视频提供好的解决方案，并且不能在视频显示质量和显示尺寸限制间保持更好的平衡，特别是在多焦点情形中。

发明内容

本发明提供了一种根据基于内容分析的元数据(metadata)信息，用于在小尺寸显示装置上全自动呈现视频的自适应视频呈现解决方案，从而为用户提供最佳视频观看体验。

根据一方面，提供了用于在小于第一尺寸的第二尺寸显示器上自动呈现第一尺寸视频的自适应视频呈现方法，其包括以下步骤：为视频的场景的每帧确定包含至少一个显著对象的显著对象组，以及根据与经确定的显著对象组相关的尺寸与第二尺寸之间的函数，在第二尺寸显示器上显示经确定的显著对象组内的至少一个显著对象。

在一个实施例中，对于一帧，与显著对象组相关的尺寸为一个矩形的尺寸，该矩形覆盖该帧中该显著对象组。

在另一个实施例中，进一步根据该帧内的所有宏块的运动矢量，在较小显示器上呈现至少一个显著对象组。

有利地，当该帧内的宏块的运动矢量的平均长度小于第一阈值时，在第二尺寸显示器上以低运动模式显示该显著对象组；否则以高运动模式显示显著对象组。

优选地，当计算包含显著对象组的帧内的宏块的运动矢量的平均长度时，显著对象内的宏块的运动矢量的长度和帧的其他部分内的宏块的运动矢量的长度具有不同权重。

在一个实施例中，在高运动模式期间，以场景内所有帧的所有重心点的平均点作为第二尺寸显示器的中心点，在第二尺寸显示器上显示至少一个显著对象组。

有利地，当计算所述平均点时，对所述场景内所有帧的所有重心点进行加权。

另一个方面，在高运动模式期间，如果显著对象组的尺寸小于第二阈值，则以放大操作在较小显示器上显示显著对象组；否则如果显著对象组的尺寸大于第三阈值，则以缩小操作在较小显示器上呈现显著对象组。

优选地，第二阈值小于较小显示器的尺寸的一半，且第三阈值等于较小显示器的尺寸的两倍。

而且，显著对象的权重取决于视频内容模式、指定语义信息、以及用户经验中的至少一个。

在低运动模式期间，如果显著对象组的尺寸小于第四阈值，则以放大操作在较小显示器上显示显著对象组。

又一方面，在低运动模式期间，如果显著对象组的尺寸不小于第四阈值但小于第五阈值，则其直接呈现在较小显示器上；否则，如果原始场景的长度不小于第六阈值，则在显著对象组内的显著对象上执行全景操作，其中较小显示器的中心点跟随显著对象组的重心点的运动，如果所述原始场景的长度小于所述第六阈值并且所述显著对象组中仅有一个显著对象，则所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动，并执行缩小操作。

在低运动模式期间，如果场景的长度大于第七阈值，则对显著对象组执行缩小操作。

在一个实施例中，在低运动模式期间，如果场景的长度小于所述第六阈值，且显著组中仅有一个显著对象，则较小显示器的中心点跟随显著对象组的重心点的运动，并执行缩小操作；否则显著对象组直接显示在较小显示器上。

优选地，第四阈值不大于较小显示器的一半，且第五阈值不小于较小显示器的尺寸。

在进一步实施例中，当较小显示器的中心点跟随显著对象组的所述重心点的运动时，两相邻帧间重心点的公差用于消除抖动。重心点变化的公差可用于水平方向和垂直方向。

本发明提供了一种用于在较小显示器上自动呈现原始尺寸视频的设备，该设备包括对象组分类模块，用于根据与经确定的显著对象组相关的尺寸与第二尺寸之间的函数，为视频的场景的每帧确定包含至少一个显著对象的显著对象组，以便在较小显示器上显示至少一个显著对象组。

在一个实施例中，该设备进一步包括内容分析模块，用于从原始视频的帧提取显著对象。

在另一个实施例中，该设备包括特性计算模块，用于计算每帧的重心点、场景内所有帧的重心点的权重、以及帧内所有宏块的运动矢量的权重。

在又一个实施例中，该设备包括静止焦点模块，用于确定将要在较小显示器上显示的区域。

在进一步的实施例中，该设备包括空间-时间处理模块，用于平滑并消除所述图像的伪像。

本发明的这些和其他方面、特征和优点将在优选实施例的以下详细描述中进行说明并变得显而易见，该描述是结合附图给出的。

附图说明

图1为利用根据本发明的方法的系统架构的第一实施例的示意图；

图2为利用根据本发明的方法的系统架构的第二实施例的示意图；

图3为利用根据本发明的方法的系统架构的第三实施例的示意图；

图4为一个帧内显著对象的示意图；

图5为一个帧内显著对象组的示意图；

图6为自适应视频呈现示例解决方案的流程图。

具体实施方式

本发明旨在基于内容分析信息，以流嵌入元数据提供更好观看体验的自适应视频成呈现(AVP)的方法和装置。

1.AVP的基本架构介绍

如图1到3所示，大分辨率视频是通过预分析模块11a、对象组分类(OGC)模块12a、特性计算(PC)模块13a、静止焦点确定(SFD)模块14a、和空间时间处理模块15a处理的，然后经处理的视频显示在较小显示器上。

分别如图1到3所示，根据本发明提出了三类AVP架构：解码器端解决方案、联合编码器-解码器端解决方案、和编码器端解决方案。

参照图1，第一类AVP架构解决方案仅在编码器端10a留有预分析模块11a，而在解码器端20a留有其他四个功能块。预分析模块11a包括场景变化检测操作、注意区提取和内容/运动分析。内容/运动分析包括显著对象分析和运动活动分析或其他语义分析。其他四个功能块包括对象组分类(OGC)模块12a，其基于来自预分析模块11a的场景和注意掩模信息对对象/对象组进行分类；特性计算(PC)模块13a，其对每个显著对象/对象组的统计(例如，显著对象或显著对象组的重心点，语义权重，但不限于此)特性进行计算；静止焦点确定(SFD)模块14a，其基于得自PC模块(例如，重心点)13a的统计信息和来自预分析模块11的其他元数据信息确定特定图像中候选焦点区；空间-时间处理模块15a，其执行空间-时间处理以保证视频平滑且可接受，并消除伪像。空间-时间处理模块15a的操作包括通过考虑重心流动、直接显示、显著性驱动全景或真运动显示，确定要在较小显示器上显示的最新显示区，这将在以下段落中进行介绍。

首先，通过预分析模块11a处理在大显示器上显示的视频，以提取视频每个帧中的显著对象，然后对象分类(OGC)模块12a将提取的显著对象分组为至少一个显著对象组。特性计算(PC)模块13a计算视频的场景中每帧的重心点、每帧的重心点的权重、帧中所有宏块的运动矢量的权重等。静止焦点确定(SFD)模块14a确定要在较小显示器上显示的区域。

类似地，在如图2所示的第二类AVP架构解决方案中，预分析模块11b、对象组分类模块12b、特性计算模块13b和静止焦点确定模块14b都包括在编码器端10b中，以生成候选焦点区，空间/时间处理模块15b包括在解码器端20b中，以通过考虑时间质量和空间质量的平衡基于候选焦点区来进行最佳显示。

在如图3所示的第三类AVP架构解决方案中，包括预分析模块11c、对象组分类模块12c、特性计算模块13c、静止焦点确定模块14c和空间/时间处理模块15c的所有模块都包括在编码器端10c中，以生成视频序列中每帧的最新显示区，且描述每帧的合适显示区的元数据可作为嵌入的元数据发送给解码器端20c以直接帮助自适应显示。

2.自适应视频呈现基本定义的介绍

为了优化用户在小尺寸显示窗口的显示器上的观看体验，应首先考虑显示视频帧中的一组注意区块，因为其相关信息对对用户观看体验具有更积极的贡献。AVP的若干基本定义描述如下。

A.显著对象

显著对象为一组彼此联系的注意区宏块(MB)，如图4中所示的MB的灰色区。显著对象由白色MB表示的非注意MB分开。

显著对象O_i(i＝1，2，3，...，N)由下列参数描述：

B.显著对象组

显著对象组包含至少一个显著对象。帧内可以具有几个显著对象组。显著对象组可由下列参数描述：

C.场景

一个镜头为记录在单次摄像机操作中的连续的帧。场景是在对象、人员、空间和时间上具有语义相似性的连续镜头的集合。定义场景从而区分两帧间显著对象的切换。场景内显示方案应是确定的且通常保持不变。

为场景定义的一个参数为：

名称	缩写	描述
			场景长度	LOS	一个场景中帧的数目

3.配置参数和操作集合的介绍

配置参数是帮助做出诸如显示或不显示、按比例缩小或不缩小、概括或不概括等自适应显示模式选择的决定的必要参数。有四个定义的条件来辅助视频观看路径编程。

●最小感知时间(MPT)

在观看显著对象时，MPT用作注视持续时间的阈值。如果显著对象在屏幕上停留的时间不长于MPT阈值MPT_so，则显著对象不足以令人感知得到，使得用户不能捕获信息。如果场景持续时间不长于阈值MPT_sc，则只有其中最重要的部分可被充分感知。MPT_so和MPT_sc可根据不同的应用情形和人视觉特性选择，通常在实际应用中设置为1/3秒和2秒。

●最小感知尺寸(MPS)

MPS用作显著对象的最小空间区域的阈值。通常，如果显著对象SO_i的尺寸小于阈值MPT_so，则显著对象O_i应标记为非注意对象或被合并到其邻近显著对象中。但MPS阈值不总是正确的，因为具有较小空间区域的显著对象可以携带最重要的信息，这种显著对象不能被合并或无标记。因此，某些其他语义信息将用作权重信息的附加配置参数，如足球，面部，等等。通常MPT_so可设置为5个宏块或设置为最大显著对象尺寸的5％-10％。

●显著对象权重(WSO)

该参数用来保留携带最重要语义信息且不能被合并或无标记的显著对象。通常每个显著对象的权重值设置为1。如果显著对象获得场景中当前帧和后续帧(帧的数目应大于阈值T_weight，通常T_weight＝10)中的最重要的信息，则其尺寸重新计算为：

SO_i＝SO_i x WSO_i

其中，WSO_i可由每个显著对象的语义重要性定义，语义重要性取决于内容模式、第三方指定的语义信息，特别是用户的体验，等等。而且，显著对象组的重心被重新计算。

●重心变化公差(TGC)

在使用一帧的显著对象或显著对象组的重心点作为较小显示器的中心点时，为了避免由两个相邻帧间显著对象或显著对象组的重心点的轻微变化引起的显示器的抖动效果，引入参数重心变化公差(TGC)从而确保重心点位置的小变化(以宏块为单位)不会引起较小显示器的中心点的变化。可以根据较小显示器屏幕和视频帧尺寸间的关系定义两个阈值TGC_H(水平方向重心变化公差)和TGC_v(垂直方向重心变化公差)。当重心点(以宏块为单位)在水平方向和垂直方向上的变化分别小于两个阈值TGC_H和TGC_v时，显示器的中心点不改变以避免抖动效果。

表I示出自适应视频呈现要求所需的某些操作。

表I自适应视频呈现的操作集合

根据本发明，自适应视频呈现操作可分类为两个类别：分别对相应于低运动模式和高运动模式的低运动显示和真运动显示，它们可通过一个帧内所有宏块的加权的平均运动矢量长度MV_ACT区分。通常可选择阈值T_MOTION来进行该分类，如果MV_ACT小于T_MOTION，则被确定为低运动模式，否则被确定为高运动模式。

在低运动模式中，至少有三个不同显示操作可使用，也就是直接显示、重心流动显示和显著性驱动全景。在这三个操作中，直接显示是在较小显示器上直接显示显著对象或显著对象组；重心流动显示通过跟随显著对象的重心点的运动控制较小显示器的显示区的运动，且通常重心变化公差(TGC)参数被用来保持平滑显示策略；显著性驱动全景基本是考虑了显著性分布的全景操作，从而在较小显示窗口上显示显著区域，特别是在大显著对象或多个显著对象存在的情形中。

在高运动模式中，引入真运动显示来显示显著对象或显著对象组。观看者可看到OG在较小的显示器窗口上向前和向后移动。在视频场景的情形中，场景中每帧的重心点快速地运动，然后在视频场景中所有帧的加权平均重心点被确定为较小显示器的静止焦点中心。因此，观看者可看到OG从较小显示器窗口的一侧移动到其他侧。例如，如果场景中所有帧的重心点的坐标被记录为(x1，y1)，(x2，y2)...，则这些重心点的平均值应为x＝average(x1，x2...)，y＝average(y1，y2...)。

4.自适应视频呈现操作的确定

视频可当作信息重心点流动平面，其中不同显著对象具有不同的信息重要性权重，且每个显著对象内的MB具有相同的特征。因此，显著对象或对象组的重心点而非中心点应当为较小显示器的中心。

可以想象，视频内容存在一种密度分布。较小的显示器应聚焦于显著对象组或显著对象的重心点集中的区域，或通过全景操作逐步显示该区域，这取决于信息的密度分布。

STP(空间-时间处理)模块为AVP架构中最重要的模块。最佳空间-时间操作发生在该模块中从而保证平滑且可接受的视频观看体验。

表II示范出AVP操作确定的范例，当然由于实际应用的详细要求，也可考虑某些其他类型的组合。在表II中，DS意味着对应于较小显示装置的显示尺寸。

表II AVP操作确定的范例

图6显示了根据本发明确定自适应视频呈现解决方案的确定的一个示例性方案的流程图。

对于一个视频场景，首先应当提取显著对象。现有技术中有大量方法执行该任务，这里不再说明。然后至少一个显著对象组被确定。显著对象组包含至少一个显著对象。

在步骤100中，视频场景的运动模式是通过比较一个帧的加权的平均运动矢量长度MV_ACT和预定的阈值T_MOTION确定的。如果MV_ACT小于预定阈值T_MOTION，则下一步执行步骤200，否则执行步骤400。在步骤200中，判断覆盖显著对象组的最小矩形RGZ的尺寸是否等于或小于DS/n，这里n＝2，3...，且优选地，n＝2。如果在步骤200中确定RZG等于或小于DS/n，则执行步骤210，这里具有RZG的提取窗口以适当的放大操作直接显示在较小的显示器上。如果RZG等于或大于DS，则在步骤220中判断是否RZG等于或大于DS，如果RZG小于DS但大于DS/n，则在步骤230中，具有RZG的提取窗口将直接显示在较小的显示器上，如果RZG大于DS，则在步骤240中判断是否场景长度LOS小于最小感知时间MPT。然后在步骤250中，判断是否显著对象组仅包含一个显著对象。在仅一个显著对象存在且LOS小于MPT的条件下，在步骤260中，视频将以重心流动显示操作连同适当的缩小操作呈现在较小显示器上。在步骤270，多个显著对象存在，且LOS小于MPT时，视频将直接显示在较小显示器上，因为在该条件下，全景操作被禁止从而避免显示操作的频繁变化，以便平滑观看体验。在步骤280中，判断是否LOS大于MPT的m倍，这里m＝2，3...。如果LOS大于MPT的m倍，则如步骤290，视频将以重心流动显示操作和显著性驱动全景操作以及适当的缩小操作呈现在较小显示器上。如果LOS大于MPT，但不大于MPT的m倍，则视频将以重心流动显示操作和显著性驱动全景操作呈现，而无缩小操作。

当在步骤100中，MV_ACT被确定不小于预定阈值T_MOTION时，执行步骤400。在步骤400中，判断是否RZG小于阈值DS/2。如果判断结果为“是”，则执行步骤410，这里连同放大操作执行真运动显示。而如果步骤400的判断结果为“否”，则执行步骤420，这里判断是否RZG大于2DS。如果在步骤420中判断结果为“是”，则执行步骤430，这里真运动显示是连同缩小操作执行的。如果步骤430的判断结果为“否”，则执行步骤440，这里执行真运动显示。

尽管这里示出并详细描述了体现本发明教导的实施例，本领域技术人员可以容易地设计出许多其他修改的实施例，这些修改的实施例也体现这些教导。应当注意，本领域技术人员根据上面的教导可以做出修改和变化。因此应当理解，可以对在所附权利要求界定的本发明的范畴和精神的范围内的披露的本发明的特定实施例做出改变。

Claims

1.一种用于在小于第一尺寸的第二尺寸显示器上自动呈现第一尺寸视频的自适应视频呈现方法，包括以下步骤：

为视频场景的每帧确定包含至少一个显著对象的显著对象组，以及

根据与所述经确定的显著对象组相关的尺寸与所述第二尺寸之间的函数，在所述第二尺寸显示器上显示经确定的显著对象组内的至少一个显著对象，

其中，当包含显著对象组的帧内的宏块的运动矢量的加权的平均长度小于第一阈值时，在所述第二尺寸显示器上以低运动模式显示所述显著对象组；否则以高运动模式显示所述显著对象组，以及

其中，当计算所述包含显著对象组的帧内的宏块的运动矢量的加权的平均长度时，显著对象内的宏块的运动矢量的长度和所述帧的其他部分内的宏块的运动矢量的长度具有不同权重。

2.根据权利要求1所述的方法，其中，对于一帧，与所述显著对象组相关的尺寸为一个矩形的尺寸，所述矩形覆盖所述帧中所述显著对象组。

3.根据权利要求1或2所述的方法，其中，进一步根据所述帧内的所有宏块的运动矢量，在较小显示器上呈现所述显著对象组。

4.根据权利要求1所述的方法，其中，在所述高运动模式期间，以所述场景内所有帧的重心点的平均点作为所述第二尺寸显示器的中心点，在所述第二尺寸显示器上显示所述显著对象组。

5.根据权利要求4所述的方法，其中，在所述高运动模式期间，如果所述显著组的尺寸小于第二阈值，则以放大操作在所述第二尺寸显示器上显示所述显著对象组；否则

如果所述显著组的尺寸大于第三阈值，则以缩小操作在所述第二尺寸显示器上显示所述显著对象组。

6.根据权利要求5所述的方法，其中，所述第二阈值小于所述第二尺寸显示器的尺寸的一半，且所述第三阈值等于所述第二尺寸的两倍。

7.根据权利要求4-6中任一项所述的方法，其中所述显著对象的权重取决于视频内容模式、指定语义信息、以及用户经验中的至少一个。

8.根据权利要求1所述的方法，其中，在低运动模式期间，如果所述显著对象组的尺寸小于第四阈值，则以放大操作在所述第二尺寸显示器上呈现所述显著对象组。

9.根据权利要求1所述的方法，其中，在低运动模式期间，如果所述显著对象组的尺寸不小于第四阈值但小于第五阈值，则其直接呈现在所述第二尺寸显示器上；否则，如果原始场景的长度不小于第六阈值，则对所述显著对象组内的显著对象执行全景操作，其中所述第二尺寸显示器的中心点跟随所述显著对象组的重心点的运动，如果所述原始场景的长度小于所述第六阈值并且所述显著对象组中仅有一个显著对象，则所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动，并执行缩小操作。

10.根据权利要求9所述的方法，其中，在低运动模式期间，如果所述场景的长度大于第七阈值，则对所述显著对象组执行缩小操作。

11.根据权利要求9所述的方法，其中，在低运动模式期间，如果所述场景的长度小于所述第六阈值，且所述显著组中仅有一个显著对象，则所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动，并执行缩小操作；否则所述显著对象组直接显示在第二尺寸显示器上。

12.根据权利要求8-11中任一项所述的方法，其中，所述第四阈值不大于所述第二尺寸的一半，且第五阈值不小于所述第二尺寸。

13.根据权利要求8-11中任一项所述的方法，其中，当所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动时，两相邻帧间重心点的公差用于消除抖动。

14.根据权利要求13所述的方法，其中，所述重心点变化的公差可用于水平方向和垂直方向。

15.一种用于在小于第一尺寸的第二尺寸显示器上自动呈现所述第一尺寸视频的设备，包括：

对象组分类模块，用于根据与经确定的显著对象组相关的尺寸与所述第二尺寸之间的函数，为视频的场景的每帧确定包含至少一个显著对象的显著对象组，以便在所述第二尺寸显示器上显示所述显著对象组；以及

特性计算模块，用于计算一个场景内每帧的重心点、显著对象组的重心点、场景内所有帧的重心点的权重、以及帧内所有宏块的运动矢量的所述权重，

其中所述特性计算模块计算包含显著对象组的帧内的宏块的运动矢量的加权的平均长度，显著对象内的宏块的运动矢量的长度和所述帧的其他部分内的宏块的运动矢量的长度具有不同权重，并且当包含显著对象组的帧内的宏块的运动矢量的加权的平均长度小于第一阈值时，在所述第二尺寸显示器上以低运动模式显示所述显著对象组；否则以高运动模式显示所述显著对象组。

16.根据权利要求15所述的设备，进一步包括内容分析模块，用于从原始视频的帧中提取显著对象。

17.根据权利要求15所述的设备，进一步包括静止焦点模块，用于确定将要在所述第二尺寸显示器上显示的区域。

18.根据权利要求17所述的设备，进一步包括空间-时间处理模块，用于平滑并消除图像的伪像。