CN101535941B - 自适应视频呈现的方法和装置 - Google Patents

自适应视频呈现的方法和装置 Download PDF

Info

Publication number
CN101535941B
CN101535941B CN2007800318436A CN200780031843A CN101535941B CN 101535941 B CN101535941 B CN 101535941B CN 2007800318436 A CN2007800318436 A CN 2007800318436A CN 200780031843 A CN200780031843 A CN 200780031843A CN 101535941 B CN101535941 B CN 101535941B
Authority
CN
China
Prior art keywords
size
objects
remarkable
group
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800318436A
Other languages
English (en)
Other versions
CN101535941A (zh
Inventor
陈志波
顾晓东
陈衢清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Priority to CN2007800318436A priority Critical patent/CN101535941B/zh
Publication of CN101535941A publication Critical patent/CN101535941A/zh
Application granted granted Critical
Publication of CN101535941B publication Critical patent/CN101535941B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4092Image resolution transcoding, e.g. by using client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Studio Circuits (AREA)
  • Transforming Electric Information Into Light Information (AREA)

Abstract

本发明涉及一种基于视频内容分析,在具有有限屏幕尺寸的较小显示器上自动呈现带有流嵌入信息的视频的自适应视频呈现方法。该方法包括以下步骤,基于所述视频的每帧的宏块的感知兴趣值(perceptual interest value),确定包含至少一个显著对象的显著对象组,为视频的场景提取具有包含该显著对象组的最小尺寸的窗口,其特征在于,其进一步包括以下步骤:比较提取的窗口的尺寸与较小显示器的尺寸;基于视频场景的不同运动模式的比较步骤的结果,以不同操作模式在较小显示器上呈现提取的窗口的至少一个所选区域,该提取的窗口包含至少一部分显著对象组。

Description

自适应视频呈现的方法和装置
技术领域
本发明涉及视频呈现的方法和装置,更具体地涉及在小显示器上自适应视频呈现的方法和装置。
背景技术
在多媒体应用领域,诸如Pocket PC、智能电话、SPOT表、TabletPC、个人数字助理装置等多种新型移动装置在人们的日常生活中越来越流行。这些装置在数字计算和数据存储方面功能变得越来越强大。而且,人们已经变得热衷于通过这些移动装置观看视频。
然而,低带宽连接和小显示器是削弱这些装置在人们日常生活中有用性的两个严重障碍。虽然已经开发诸如Windows视频播放器和PocketTV的少数商业视频播放器,使得用户能够从小屏幕装置(small form factor device)浏览视频,但有限的带宽和小视窗尺寸仍然是两个关键障碍。随着2.5G和3G无线网络的快速、成功发展,预期带宽因素在不远的将来会成为较小的限制。而显示器尺寸的限制可能在一定时期内保持不变。
某些现有的工作聚焦于在移动装置上显示图像。这些工作基于图像注意模型计算并提供最佳图像观看路径,从而模拟人类的观看行为。因为多数有价值的信息是由视频提供的,所以改善在小显示器上观看视频的体验对释放这些移动装置的功能是重要的。
X.Fan等人在“在小显示器上观看视频帧”,ACM MM’03,2003中提出了提供更好的在有限的且不同的屏幕尺寸显示器上观看视频的用户体验的一个解决方案,该解决方案引入了三种浏览方法:手动浏览方法,全自动浏览方法和半自动浏览方法。
然而,在所提出的全自动浏览方法中,方向控制和缩放控制均被禁用。最终的视频流使用更多的视频空间来显示受注意的区域(attention-getting regions),同时切除(cropping out)其他部分。因此,当视频帧包含许多独立焦点时,该方法与传统的采样方案差别较小。
在半自动浏览方法中,要求人们互动,从而在有一个以上的重要注意对象(AO)时切换浏览焦点。该显示焦点是在用户按下控制按钮后计算的,且当焦点改变时将出现伪像。
因此现有方案不能为在小显示尺寸的装置上自动浏览视频提供好的解决方案,并且不能在视频显示质量和显示尺寸限制间保持更好的平衡,特别是在多焦点情形中。
发明内容
本发明提供了一种根据基于内容分析的元数据(metadata)信息,用于在小尺寸显示装置上全自动呈现视频的自适应视频呈现解决方案,从而为用户提供最佳视频观看体验。
根据一方面,提供了用于在小于第一尺寸的第二尺寸显示器上自动呈现第一尺寸视频的自适应视频呈现方法,其包括以下步骤:为视频的场景的每帧确定包含至少一个显著对象的显著对象组,以及根据与经确定的显著对象组相关的尺寸与第二尺寸之间的函数,在第二尺寸显示器上显示经确定的显著对象组内的至少一个显著对象。
在一个实施例中,对于一帧,与显著对象组相关的尺寸为一个矩形的尺寸,该矩形覆盖该帧中该显著对象组。
在另一个实施例中,进一步根据该帧内的所有宏块的运动矢量,在较小显示器上呈现至少一个显著对象组。
有利地,当该帧内的宏块的运动矢量的平均长度小于第一阈值时,在第二尺寸显示器上以低运动模式显示该显著对象组;否则以高运动模式显示显著对象组。
优选地,当计算包含显著对象组的帧内的宏块的运动矢量的平均长度时,显著对象内的宏块的运动矢量的长度和帧的其他部分内的宏块的运动矢量的长度具有不同权重。
在一个实施例中,在高运动模式期间,以场景内所有帧的所有重心点的平均点作为第二尺寸显示器的中心点,在第二尺寸显示器上显示至少一个显著对象组。
有利地,当计算所述平均点时,对所述场景内所有帧的所有重心点进行加权。
另一个方面,在高运动模式期间,如果显著对象组的尺寸小于第二阈值,则以放大操作在较小显示器上显示显著对象组;否则如果显著对象组的尺寸大于第三阈值,则以缩小操作在较小显示器上呈现显著对象组。
优选地,第二阈值小于较小显示器的尺寸的一半,且第三阈值等于较小显示器的尺寸的两倍。
而且,显著对象的权重取决于视频内容模式、指定语义信息、以及用户经验中的至少一个。
在低运动模式期间,如果显著对象组的尺寸小于第四阈值,则以放大操作在较小显示器上显示显著对象组。
又一方面,在低运动模式期间,如果显著对象组的尺寸不小于第四阈值但小于第五阈值,则其直接呈现在较小显示器上;否则,如果原始场景的长度不小于第六阈值,则在显著对象组内的显著对象上执行全景操作,其中较小显示器的中心点跟随显著对象组的重心点的运动,如果所述原始场景的长度小于所述第六阈值并且所述显著对象组中仅有一个显著对象,则所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动,并执行缩小操作。
在低运动模式期间,如果场景的长度大于第七阈值,则对显著对象组执行缩小操作。
在一个实施例中,在低运动模式期间,如果场景的长度小于所述第六阈值,且显著组中仅有一个显著对象,则较小显示器的中心点跟随显著对象组的重心点的运动,并执行缩小操作;否则显著对象组直接显示在较小显示器上。
优选地,第四阈值不大于较小显示器的一半,且第五阈值不小于较小显示器的尺寸。
在进一步实施例中,当较小显示器的中心点跟随显著对象组的所述重心点的运动时,两相邻帧间重心点的公差用于消除抖动。重心点变化的公差可用于水平方向和垂直方向。
本发明提供了一种用于在较小显示器上自动呈现原始尺寸视频的设备,该设备包括对象组分类模块,用于根据与经确定的显著对象组相关的尺寸与第二尺寸之间的函数,为视频的场景的每帧确定包含至少一个显著对象的显著对象组,以便在较小显示器上显示至少一个显著对象组。
在一个实施例中,该设备进一步包括内容分析模块,用于从原始视频的帧提取显著对象。
在另一个实施例中,该设备包括特性计算模块,用于计算每帧的重心点、场景内所有帧的重心点的权重、以及帧内所有宏块的运动矢量的权重。
在又一个实施例中,该设备包括静止焦点模块,用于确定将要在较小显示器上显示的区域。
在进一步的实施例中,该设备包括空间-时间处理模块,用于平滑并消除所述图像的伪像。
本发明的这些和其他方面、特征和优点将在优选实施例的以下详细描述中进行说明并变得显而易见,该描述是结合附图给出的。
附图说明
图1为利用根据本发明的方法的系统架构的第一实施例的示意图;
图2为利用根据本发明的方法的系统架构的第二实施例的示意图;
图3为利用根据本发明的方法的系统架构的第三实施例的示意图;
图4为一个帧内显著对象的示意图;
图5为一个帧内显著对象组的示意图;
图6为自适应视频呈现示例解决方案的流程图。
具体实施方式
本发明旨在基于内容分析信息,以流嵌入元数据提供更好观看体验的自适应视频成呈现(AVP)的方法和装置。
1.AVP的基本架构介绍
如图1到3所示,大分辨率视频是通过预分析模块11a、对象组分类(OGC)模块12a、特性计算(PC)模块13a、静止焦点确定(SFD)模块14a、和空间时间处理模块15a处理的,然后经处理的视频显示在较小显示器上。
分别如图1到3所示,根据本发明提出了三类AVP架构:解码器端解决方案、联合编码器-解码器端解决方案、和编码器端解决方案。
参照图1,第一类AVP架构解决方案仅在编码器端10a留有预分析模块11a,而在解码器端20a留有其他四个功能块。预分析模块11a包括场景变化检测操作、注意区提取和内容/运动分析。内容/运动分析包括显著对象分析和运动活动分析或其他语义分析。其他四个功能块包括对象组分类(OGC)模块12a,其基于来自预分析模块11a的场景和注意掩模信息对对象/对象组进行分类;特性计算(PC)模块13a,其对每个显著对象/对象组的统计(例如,显著对象或显著对象组的重心点,语义权重,但不限于此)特性进行计算;静止焦点确定(SFD)模块14a,其基于得自PC模块(例如,重心点)13a的统计信息和来自预分析模块11的其他元数据信息确定特定图像中候选焦点区;空间-时间处理模块15a,其执行空间-时间处理以保证视频平滑且可接受,并消除伪像。空间-时间处理模块15a的操作包括通过考虑重心流动、直接显示、显著性驱动全景或真运动显示,确定要在较小显示器上显示的最新显示区,这将在以下段落中进行介绍。
首先,通过预分析模块11a处理在大显示器上显示的视频,以提取视频每个帧中的显著对象,然后对象分类(OGC)模块12a将提取的显著对象分组为至少一个显著对象组。特性计算(PC)模块13a计算视频的场景中每帧的重心点、每帧的重心点的权重、帧中所有宏块的运动矢量的权重等。静止焦点确定(SFD)模块14a确定要在较小显示器上显示的区域。
类似地,在如图2所示的第二类AVP架构解决方案中,预分析模块11b、对象组分类模块12b、特性计算模块13b和静止焦点确定模块14b都包括在编码器端10b中,以生成候选焦点区,空间/时间处理模块15b包括在解码器端20b中,以通过考虑时间质量和空间质量的平衡基于候选焦点区来进行最佳显示。
在如图3所示的第三类AVP架构解决方案中,包括预分析模块11c、对象组分类模块12c、特性计算模块13c、静止焦点确定模块14c和空间/时间处理模块15c的所有模块都包括在编码器端10c中,以生成视频序列中每帧的最新显示区,且描述每帧的合适显示区的元数据可作为嵌入的元数据发送给解码器端20c以直接帮助自适应显示。
2.自适应视频呈现基本定义的介绍
为了优化用户在小尺寸显示窗口的显示器上的观看体验,应首先考虑显示视频帧中的一组注意区块,因为其相关信息对对用户观看体验具有更积极的贡献。AVP的若干基本定义描述如下。
A.显著对象
显著对象为一组彼此联系的注意区宏块(MB),如图4中所示的MB的灰色区。显著对象由白色MB表示的非注意MB分开。
显著对象Oi(i=1,2,3,...,N)由下列参数描述:
Figure GSB00000349813400081
B.显著对象组
显著对象组包含至少一个显著对象。帧内可以具有几个显著对象组。显著对象组可由下列参数描述:
Figure GSB00000349813400091
C.场景
一个镜头为记录在单次摄像机操作中的连续的帧。场景是在对象、人员、空间和时间上具有语义相似性的连续镜头的集合。定义场景从而区分两帧间显著对象的切换。场景内显示方案应是确定的且通常保持不变。
为场景定义的一个参数为:
  名称   缩写   描述
  场景长度   LOS   一个场景中帧的数目
3.配置参数和操作集合的介绍
配置参数是帮助做出诸如显示或不显示、按比例缩小或不缩小、概括或不概括等自适应显示模式选择的决定的必要参数。有四个定义的条件来辅助视频观看路径编程。
●最小感知时间(MPT)
在观看显著对象时,MPT用作注视持续时间的阈值。如果显著对象在屏幕上停留的时间不长于MPT阈值MPTso,则显著对象不足以令人感知得到,使得用户不能捕获信息。如果场景持续时间不长于阈值MPTsc,则只有其中最重要的部分可被充分感知。MPTso和MPTsc可根据不同的应用情形和人视觉特性选择,通常在实际应用中设置为1/3秒和2秒。
●最小感知尺寸(MPS)
MPS用作显著对象的最小空间区域的阈值。通常,如果显著对象SOi的尺寸小于阈值MPTso,则显著对象Oi应标记为非注意对象或被合并到其邻近显著对象中。但MPS阈值不总是正确的,因为具有较小空间区域的显著对象可以携带最重要的信息,这种显著对象不能被合并或无标记。因此,某些其他语义信息将用作权重信息的附加配置参数,如足球,面部,等等。通常MPTso可设置为5个宏块或设置为最大显著对象尺寸的5%-10%。
●显著对象权重(WSO)
该参数用来保留携带最重要语义信息且不能被合并或无标记的显著对象。通常每个显著对象的权重值设置为1。如果显著对象获得场景中当前帧和后续帧(帧的数目应大于阈值Tweight,通常Tweight=10)中的最重要的信息,则其尺寸重新计算为:
SOi=SOi x WSOi
其中,WSOi可由每个显著对象的语义重要性定义,语义重要性取决于内容模式、第三方指定的语义信息,特别是用户的体验,等等。而且,显著对象组的重心被重新计算。
●重心变化公差(TGC)
在使用一帧的显著对象或显著对象组的重心点作为较小显示器的中心点时,为了避免由两个相邻帧间显著对象或显著对象组的重心点的轻微变化引起的显示器的抖动效果,引入参数重心变化公差(TGC)从而确保重心点位置的小变化(以宏块为单位)不会引起较小显示器的中心点的变化。可以根据较小显示器屏幕和视频帧尺寸间的关系定义两个阈值TGCH(水平方向重心变化公差)和TGCv(垂直方向重心变化公差)。当重心点(以宏块为单位)在水平方向和垂直方向上的变化分别小于两个阈值TGCH和TGCv时,显示器的中心点不改变以避免抖动效果。
表I示出自适应视频呈现要求所需的某些操作。
表I自适应视频呈现的操作集合
Figure GSB00000349813400111
根据本发明,自适应视频呈现操作可分类为两个类别:分别对相应于低运动模式和高运动模式的低运动显示和真运动显示,它们可通过一个帧内所有宏块的加权的平均运动矢量长度MVACT区分。通常可选择阈值TMOTION来进行该分类,如果MVACT小于TMOTION,则被确定为低运动模式,否则被确定为高运动模式。
在低运动模式中,至少有三个不同显示操作可使用,也就是直接显示、重心流动显示和显著性驱动全景。在这三个操作中,直接显示是在较小显示器上直接显示显著对象或显著对象组;重心流动显示通过跟随显著对象的重心点的运动控制较小显示器的显示区的运动,且通常重心变化公差(TGC)参数被用来保持平滑显示策略;显著性驱动全景基本是考虑了显著性分布的全景操作,从而在较小显示窗口上显示显著区域,特别是在大显著对象或多个显著对象存在的情形中。
在高运动模式中,引入真运动显示来显示显著对象或显著对象组。观看者可看到OG在较小的显示器窗口上向前和向后移动。在视频场景的情形中,场景中每帧的重心点快速地运动,然后在视频场景中所有帧的加权平均重心点被确定为较小显示器的静止焦点中心。因此,观看者可看到OG从较小显示器窗口的一侧移动到其他侧。例如,如果场景中所有帧的重心点的坐标被记录为(x1,y1),(x2,y2)...,则这些重心点的平均值应为x=average(x1,x2...),y=average(y1,y2...)。
4.自适应视频呈现操作的确定
视频可当作信息重心点流动平面,其中不同显著对象具有不同的信息重要性权重,且每个显著对象内的MB具有相同的特征。因此,显著对象或对象组的重心点而非中心点应当为较小显示器的中心。
可以想象,视频内容存在一种密度分布。较小的显示器应聚焦于显著对象组或显著对象的重心点集中的区域,或通过全景操作逐步显示该区域,这取决于信息的密度分布。
STP(空间-时间处理)模块为AVP架构中最重要的模块。最佳空间-时间操作发生在该模块中从而保证平滑且可接受的视频观看体验。
表II示范出AVP操作确定的范例,当然由于实际应用的详细要求,也可考虑某些其他类型的组合。在表II中,DS意味着对应于较小显示装置的显示尺寸。
表II  AVP操作确定的范例
Figure GSB00000349813400131
图6显示了根据本发明确定自适应视频呈现解决方案的确定的一个示例性方案的流程图。
对于一个视频场景,首先应当提取显著对象。现有技术中有大量方法执行该任务,这里不再说明。然后至少一个显著对象组被确定。显著对象组包含至少一个显著对象。
在步骤100中,视频场景的运动模式是通过比较一个帧的加权的平均运动矢量长度MVACT和预定的阈值TMOTION确定的。如果MVACT小于预定阈值TMOTION,则下一步执行步骤200,否则执行步骤400。在步骤200中,判断覆盖显著对象组的最小矩形RGZ的尺寸是否等于或小于DS/n,这里n=2,3...,且优选地,n=2。如果在步骤200中确定RZG等于或小于DS/n,则执行步骤210,这里具有RZG的提取窗口以适当的放大操作直接显示在较小的显示器上。如果RZG等于或大于DS,则在步骤220中判断是否RZG等于或大于DS,如果RZG小于DS但大于DS/n,则在步骤230中,具有RZG的提取窗口将直接显示在较小的显示器上,如果RZG大于DS,则在步骤240中判断是否场景长度LOS小于最小感知时间MPT。然后在步骤250中,判断是否显著对象组仅包含一个显著对象。在仅一个显著对象存在且LOS小于MPT的条件下,在步骤260中,视频将以重心流动显示操作连同适当的缩小操作呈现在较小显示器上。在步骤270,多个显著对象存在,且LOS小于MPT时,视频将直接显示在较小显示器上,因为在该条件下,全景操作被禁止从而避免显示操作的频繁变化,以便平滑观看体验。在步骤280中,判断是否LOS大于MPT的m倍,这里m=2,3...。如果LOS大于MPT的m倍,则如步骤290,视频将以重心流动显示操作和显著性驱动全景操作以及适当的缩小操作呈现在较小显示器上。如果LOS大于MPT,但不大于MPT的m倍,则视频将以重心流动显示操作和显著性驱动全景操作呈现,而无缩小操作。
当在步骤100中,MVACT被确定不小于预定阈值TMOTION时,执行步骤400。在步骤400中,判断是否RZG小于阈值DS/2。如果判断结果为“是”,则执行步骤410,这里连同放大操作执行真运动显示。而如果步骤400的判断结果为“否”,则执行步骤420,这里判断是否RZG大于2DS。如果在步骤420中判断结果为“是”,则执行步骤430,这里真运动显示是连同缩小操作执行的。如果步骤430的判断结果为“否”,则执行步骤440,这里执行真运动显示。
尽管这里示出并详细描述了体现本发明教导的实施例,本领域技术人员可以容易地设计出许多其他修改的实施例,这些修改的实施例也体现这些教导。应当注意,本领域技术人员根据上面的教导可以做出修改和变化。因此应当理解,可以对在所附权利要求界定的本发明的范畴和精神的范围内的披露的本发明的特定实施例做出改变。

Claims (18)

1.一种用于在小于第一尺寸的第二尺寸显示器上自动呈现第一尺寸视频的自适应视频呈现方法,包括以下步骤:
为视频场景的每帧确定包含至少一个显著对象的显著对象组,以及
根据与所述经确定的显著对象组相关的尺寸与所述第二尺寸之间的函数,在所述第二尺寸显示器上显示经确定的显著对象组内的至少一个显著对象,
其中,当包含显著对象组的帧内的宏块的运动矢量的加权的平均长度小于第一阈值时,在所述第二尺寸显示器上以低运动模式显示所述显著对象组;否则以高运动模式显示所述显著对象组,以及
其中,当计算所述包含显著对象组的帧内的宏块的运动矢量的加权的平均长度时,显著对象内的宏块的运动矢量的长度和所述帧的其他部分内的宏块的运动矢量的长度具有不同权重。
2.根据权利要求1所述的方法,其中,对于一帧,与所述显著对象组相关的尺寸为一个矩形的尺寸,所述矩形覆盖所述帧中所述显著对象组。
3.根据权利要求1或2所述的方法,其中,进一步根据所述帧内的所有宏块的运动矢量,在较小显示器上呈现所述显著对象组。
4.根据权利要求1所述的方法,其中,在所述高运动模式期间,以所述场景内所有帧的重心点的平均点作为所述第二尺寸显示器的中心点,在所述第二尺寸显示器上显示所述显著对象组。
5.根据权利要求4所述的方法,其中,在所述高运动模式期间,如果所述显著组的尺寸小于第二阈值,则以放大操作在所述第二尺寸显示器上显示所述显著对象组;否则
如果所述显著组的尺寸大于第三阈值,则以缩小操作在所述第二尺寸显示器上显示所述显著对象组。
6.根据权利要求5所述的方法,其中,所述第二阈值小于所述第二尺寸显示器的尺寸的一半,且所述第三阈值等于所述第二尺寸的两倍。
7.根据权利要求4-6中任一项所述的方法,其中所述显著对象的权重取决于视频内容模式、指定语义信息、以及用户经验中的至少一个。
8.根据权利要求1所述的方法,其中,在低运动模式期间,如果所述显著对象组的尺寸小于第四阈值,则以放大操作在所述第二尺寸显示器上呈现所述显著对象组。
9.根据权利要求1所述的方法,其中,在低运动模式期间,如果所述显著对象组的尺寸不小于第四阈值但小于第五阈值,则其直接呈现在所述第二尺寸显示器上;否则,如果原始场景的长度不小于第六阈值,则对所述显著对象组内的显著对象执行全景操作,其中所述第二尺寸显示器的中心点跟随所述显著对象组的重心点的运动,如果所述原始场景的长度小于所述第六阈值并且所述显著对象组中仅有一个显著对象,则所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动,并执行缩小操作。
10.根据权利要求9所述的方法,其中,在低运动模式期间,如果所述场景的长度大于第七阈值,则对所述显著对象组执行缩小操作。
11.根据权利要求9所述的方法,其中,在低运动模式期间,如果所述场景的长度小于所述第六阈值,且所述显著组中仅有一个显著对象,则所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动,并执行缩小操作;否则所述显著对象组直接显示在第二尺寸显示器上。
12.根据权利要求8-11中任一项所述的方法,其中,所述第四阈值不大于所述第二尺寸的一半,且第五阈值不小于所述第二尺寸。
13.根据权利要求8-11中任一项所述的方法,其中,当所述第二尺寸显示器的所述中心点跟随所述显著对象组的所述重心点的运动时,两相邻帧间重心点的公差用于消除抖动。
14.根据权利要求13所述的方法,其中,所述重心点变化的公差可用于水平方向和垂直方向。
15.一种用于在小于第一尺寸的第二尺寸显示器上自动呈现所述第一尺寸视频的设备,包括:
对象组分类模块,用于根据与经确定的显著对象组相关的尺寸与所述第二尺寸之间的函数,为视频的场景的每帧确定包含至少一个显著对象的显著对象组,以便在所述第二尺寸显示器上显示所述显著对象组;以及
特性计算模块,用于计算一个场景内每帧的重心点、显著对象组的重心点、场景内所有帧的重心点的权重、以及帧内所有宏块的运动矢量的所述权重,
其中所述特性计算模块计算包含显著对象组的帧内的宏块的运动矢量的加权的平均长度,显著对象内的宏块的运动矢量的长度和所述帧的其他部分内的宏块的运动矢量的长度具有不同权重,并且当包含显著对象组的帧内的宏块的运动矢量的加权的平均长度小于第一阈值时,在所述第二尺寸显示器上以低运动模式显示所述显著对象组;否则以高运动模式显示所述显著对象组。
16.根据权利要求15所述的设备,进一步包括内容分析模块,用于从原始视频的帧中提取显著对象。
17.根据权利要求15所述的设备,进一步包括静止焦点模块,用于确定将要在所述第二尺寸显示器上显示的区域。
18.根据权利要求17所述的设备,进一步包括空间-时间处理模块,用于平滑并消除图像的伪像。
CN2007800318436A 2006-09-01 2007-09-03 自适应视频呈现的方法和装置 Expired - Fee Related CN101535941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007800318436A CN101535941B (zh) 2006-09-01 2007-09-03 自适应视频呈现的方法和装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CNPCT/CN2006/002261 2006-09-01
PCT/CN2006/002261 WO2008028334A1 (en) 2006-09-01 2006-09-01 Method and device for adaptive video presentation
CN2007800318436A CN101535941B (zh) 2006-09-01 2007-09-03 自适应视频呈现的方法和装置
PCT/CN2007/002632 WO2008040150A1 (en) 2006-09-01 2007-09-03 Method and device for adaptive video presentation

Publications (2)

Publication Number Publication Date
CN101535941A CN101535941A (zh) 2009-09-16
CN101535941B true CN101535941B (zh) 2013-07-03

Family

ID=39156807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800318436A Expired - Fee Related CN101535941B (zh) 2006-09-01 2007-09-03 自适应视频呈现的方法和装置

Country Status (6)

Country Link
US (1) US8605113B2 (zh)
EP (1) EP2057531A4 (zh)
JP (2) JP2010503006A (zh)
KR (1) KR101414669B1 (zh)
CN (1) CN101535941B (zh)
WO (2) WO2008028334A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009066783A1 (en) * 2007-11-22 2009-05-28 Semiconductor Energy Laboratory Co., Ltd. Image processing method, image display system, and computer program
JP5182202B2 (ja) * 2009-04-14 2013-04-17 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP5489557B2 (ja) * 2009-07-01 2014-05-14 パナソニック株式会社 画像符号化装置及び画像符号化方法
JP5421727B2 (ja) * 2009-10-20 2014-02-19 キヤノン株式会社 画像処理装置およびその制御方法
US8520975B2 (en) * 2009-10-30 2013-08-27 Adobe Systems Incorporated Methods and apparatus for chatter reduction in video object segmentation using optical flow assisted gaussholding
EP2530642A1 (en) * 2011-05-31 2012-12-05 Thomson Licensing Method of cropping a 3D content
US9300933B2 (en) * 2013-06-07 2016-03-29 Nvidia Corporation Predictive enhancement of a portion of video data rendered on a display unit associated with a data processing device
KR101724555B1 (ko) * 2014-12-22 2017-04-18 삼성전자주식회사 부호화 방법 및 장치와 복호화 방법 및 장치
US11115666B2 (en) 2017-08-03 2021-09-07 At&T Intellectual Property I, L.P. Semantic video encoding
JP2019149785A (ja) * 2018-02-28 2019-09-05 日本放送協会 映像変換装置及びプログラム
US11244450B2 (en) * 2019-08-19 2022-02-08 The Penn State Research Foundation Systems and methods utilizing artificial intelligence for placental assessment and examination
CN110602527B (zh) * 2019-09-12 2022-04-08 北京小米移动软件有限公司 视频处理方法、装置及存储介质
US11640714B2 (en) * 2020-04-20 2023-05-02 Adobe Inc. Video panoptic segmentation
CN113535105B (zh) * 2021-06-30 2023-03-21 北京字跳网络技术有限公司 媒体文件处理方法、装置、设备、可读存储介质及产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960126A (en) * 1996-05-22 1999-09-28 Sun Microsystems, Inc. Method and system for providing relevance-enhanced image reduction in computer systems
CN1480901A (zh) * 2002-06-21 2004-03-10 ������������ʽ���� 数字图像的语义按比例缩小和剪切
US6825857B2 (en) * 2001-01-19 2004-11-30 Clearspeed Technology Limited Image scaling

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108041A (en) * 1997-10-10 2000-08-22 Faroudja Laboratories, Inc. High-definition television signal processing for transmitting and receiving a television signal in a manner compatible with the present system
GB2382940A (en) 2001-11-27 2003-06-11 Nokia Corp Encoding objects and background blocks
JP4153202B2 (ja) 2001-12-25 2008-09-24 松下電器産業株式会社 映像符号化装置
US7263660B2 (en) * 2002-03-29 2007-08-28 Microsoft Corporation System and method for producing a video skim
US7035435B2 (en) * 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
CN1324526C (zh) * 2002-06-03 2007-07-04 皇家飞利浦电子股份有限公司 视频信号的自适应缩放
JP2004140670A (ja) * 2002-10-18 2004-05-13 Sony Corp 画像処理装置および方法、画像表示装置および方法、画像配信装置および方法、並びにプログラム
KR20050119689A (ko) * 2003-04-10 2005-12-21 코닌클리케 필립스 일렉트로닉스 엔.브이. 공간 이미지 변환
CN1233161C (zh) * 2003-09-29 2005-12-21 上海交通大学 用于视频图像格式转换的运动自适应模块实现方法
JP2005269016A (ja) 2004-03-17 2005-09-29 Tama Tlo Kk 選択的解像度変換装置
JP2005292691A (ja) * 2004-04-05 2005-10-20 Matsushita Electric Ind Co Ltd 動画像表示装置および動画像表示方法
US7696988B2 (en) * 2004-04-09 2010-04-13 Genesis Microchip Inc. Selective use of LCD overdrive for reducing motion artifacts in an LCD device
US7542613B2 (en) * 2004-09-21 2009-06-02 Sanyo Electric Co., Ltd. Image processing apparatus
US7505051B2 (en) * 2004-12-16 2009-03-17 Corel Tw Corp. Method for generating a slide show of an image
JP2006196960A (ja) 2005-01-11 2006-07-27 Canon Inc 動画データ受信装置
US20060227153A1 (en) * 2005-04-08 2006-10-12 Picsel Research Limited System and method for dynamically zooming and rearranging display items

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960126A (en) * 1996-05-22 1999-09-28 Sun Microsystems, Inc. Method and system for providing relevance-enhanced image reduction in computer systems
US6825857B2 (en) * 2001-01-19 2004-11-30 Clearspeed Technology Limited Image scaling
CN1480901A (zh) * 2002-06-21 2004-03-10 ������������ʽ���� 数字图像的语义按比例缩小和剪切

Also Published As

Publication number Publication date
CN101535941A (zh) 2009-09-16
KR101414669B1 (ko) 2014-07-03
KR20090045288A (ko) 2009-05-07
EP2057531A4 (en) 2017-10-25
WO2008028334A1 (en) 2008-03-13
JP2010503006A (ja) 2010-01-28
WO2008040150A1 (en) 2008-04-10
EP2057531A1 (en) 2009-05-13
US20090244093A1 (en) 2009-10-01
US8605113B2 (en) 2013-12-10
JP2014139681A (ja) 2014-07-31

Similar Documents

Publication Publication Date Title
CN101535941B (zh) 自适应视频呈现的方法和装置
JP2010503006A5 (zh)
CN108010037B (zh) 图像处理方法、装置及存储介质
CN101295354B (zh) 图像处理装置、成像装置和图像处理方法
EP2428036B1 (en) Systems and methods for the autonomous production of videos from multi-sensored data
CN102348049B (zh) 检测视频片断切点位置的方法及装置
KR101318459B1 (ko) 수신기 상에서 오디오비주얼 문서를 시청하는 방법 및이러한 문서를 시청하기 위한 수신기
CN108280406A (zh) 一种基于分段双流模型的行为识别方法、系统及装置
CN110830787B (zh) 一种检测花屏图像的方法及装置
CN111026914A (zh) 视频摘要模型的训练方法、视频摘要生成方法及装置
CN111327908B (zh) 一种视频处理方法及相关装置
CN111222450B (zh) 模型的训练及其直播处理的方法、装置、设备和存储介质
CN113965777A (zh) 组合数字视频内容的方法及系统
CN105592322A (zh) 一种媒体数据的优化方法及装置
CN112633313A (zh) 一种网络终端的不良信息识别方法及局域网终端设备
CN113365130B (zh) 直播显示方法、直播视频获取方法及相关装置
Tang et al. Exploring video streams using slit-tear visualizations
CN101867729A (zh) 基于人物特征的新闻视频正式独白镜头的检测方法
CN111741247A (zh) 一种录像回放的方法、装置及计算机设备
CN115604497A (zh) 直播对象锐化过度鉴定装置
CN112380999B (zh) 一种针对直播过程中诱导性不良行为的检测系统及方法
CN106056042B (zh) 产生视频数据变换表示以及分析视频数据的方法和系统
CN114387440A (zh) 一种视频裁剪方法、装置及存储介质
CN111179317A (zh) 互动教学系统及方法
CN110765919A (zh) 一种基于人脸检测的参访图像展示系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: French Boulogne

Patentee before: THOMSON LICENSING

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20190517

Address after: Paris France

Patentee after: Interactive digital CE patent holding Co.

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130703

Termination date: 20210903

CF01 Termination of patent right due to non-payment of annual fee