具体实施方式
本发明有利地提供了视频系统中基于语义的特技模式回放的方法。尽管主要在像各种MPEG格式那样的数字运动视频信息和快动作特技模式回放的背景下对本发明加以描述,但本发明的特定实施例不应该被认为限制本发明的范围。本领域的普通技术人员应该懂得以及通过本发明的教导获知,本发明的构思可以在像慢动作特技模式回放那样的其他特技模式回放中有利地应用于几乎任何内容。
本文所述的特技模式方法的实施例使用语义信息控制视频内容的重放。视频内容可能因包括,但不限于,元数据、视频标记、字幕、索引文件等,有关视频内容的附加数据而增加。数字运动视频内容以及可能伴随着视频内容的附加数据的各种类型和格式被认为在本领域中是公知的,存档在,例如,各自标准体的档案内。关于这个话题本文将不再给出进一步的说明。
在本说明书的整个过程中,术语“特技播放”、“特技模式”、“特技播放模式”和“特技模式播放”不会对含义和范围进行任何有意限制或改变地都可以交换使用。当然,在本说明书中将作出所有尝试以便在像上面显示的术语那样的术语的使用中保持一致性。
在此叙述的所有示例和条件性语言意欲用于教导的目的以便帮助读者理解本原理以及由本发明人贡献以促进现有技术的构思,并且应该被解释为不限制这种具体叙述的示例和条件。
另外,在这里叙述本原理的原理、方面和实施例及其特定示例的所有陈述意欲包括其结构和功能等效物。另外,意图是:这样的等效物旨在包括当前已知的等效物以及将来开发的等效物二者,即所开发的执行相同功能的任何元件,而不论其结构如何。
因此,例如,本领域技术人员将认识到:在此呈现的框图表示实施本发明的原理的说明性系统部件和/或电路的概念性视图。类似地,将认识到:任何流程图示(flow chart)、流程图(flow diagram)、状态转换图、伪代码等表示实质上可以表示在计算机可读介质中并因此由计算机或处理器执行的各种处理,而不管是否明确地示出这样的计算机或处理器。
可以通过使用专用硬件以及与适当的软件相关联的能够执行软件的硬件来提供图中示出的各种元件的功能。当利用处理器来提供所述功能时,可以利用单个专用处理器、利用单个共享处理器、或者利用其中一些可被共享的多个独立处理器来提供所述功能。另外,术语“处理器”或“控制器”的明确使用不应该被解释为排他性地指代能够执行软件的硬件,而是可以隐含地无限制地包括数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)、和非易失性存储器。
在此所述的方法的实施例可以通过处理器执行的指令来实现,这样的指令可以存储在像,例如,集成电路、软件载体或像,例如,硬盘、致密盘、随机存取存储器(“RAM”)或只读存储器(“ROM”)那样的其他存储设备那样的处理器可读介质上。这些指令可以形成有形地体现在处理器可读介质上的应用程序。应该清楚,处理器可以包括含有,例如,进行处理的指令的处理器可读介质。这样的应用程序可以上载到包含任何适当架构的机器并由其执行。优选地,在具有诸如一个或多个中央处理单元(“CPU”)、随机存取存储器(“RAM”)和输入/输出(“I/O”)接口之类的硬件的计算机平台上实现所述机器。该计算机平台还可以包括操作系统和微指令代码。在此描述的各种处理和功能可以是可由CPU执行的微指令代码的一部分或应用程序一部分或者它们的任何组合。此外,诸如附加的数据存储单元和打印单元之类的各种其它外围单元可以连接到该计算机平台。
应当明白,显示在图中的元件可以以硬件、软件或它们的组合的各种形式实现。优选的是,这些元件在可以包括处理器、存储器和输入/输出接口的一个或多个适当编程通用设备上以硬件和软件的组合形式实现。此外,在此所述的实现可以以,例如,方法或进程、装置、软件程序的形式实现。即使只在单种实现形式的背景下讨论(例如,只作为方法来讨论),所讨论的特征的实现也可以以其他形式(例如,装置或程序)实现。装置可以如上所述地实现。方法可以在,例如,像例如处理器那样的装置中实现,处理器一般指处理设备,包括,例如,计算机、微处理器、集成电路、或可编程逻辑设备。处理设备还包括像如下那样的通信设备:蜂窝式电话、便携式/个人数字助理(“PDA”)、有助于在最终用户之间传送信息的其他设备、视频编码器、视频解码器、视频编解码器、万维网服务器、机顶盒、像PVR和运行记录软件的计算机那样的个人记录设备、便携式摄像机、互联网或其他通信链路上数据的流化设备、和视频点播设备。
例如,图1描绘了可以依照本发明的实施例执行基于语义特技模式回放的方法的系统的高级框图。系统100可以包括从存储介质112中读取数据和将数据写入存储介质112中的控制器110。系统100还可以含有搜索引擎114、微处理器116、传输缓冲器117和显示设备118。搜索引擎114可以包含在从存储介质112中读取的视频信号中定位一种或多种特定类型的画面的适当软件和电路。也可以配备控制和数据接口以便允许微处理器116控制控制器110和搜索引擎114的操作。可以在存储器中为微处理器116进行的传统操作配备适当软件和固件。进一步,可以依照本发明的各种实施例的发明构思为微处理器116配备程序例程。
应当明白,在本发明的实施例的设想内,搜索引擎114和微处理器116可以全部或部分是视频处理器120。并且,在本发明的各种实施例的设想内,控制器110、搜索引擎114、微处理器116和传输缓冲器117可以全部或部分是位流源122。在一种安排中,显示设备118可以包含它自己的解码器(未示出),以便解码从存储介质112读取和经过位流源122处理的任何视频信号的全部或部分。在这种特定安排中,位流源122中的解码器(未示出)通常不解码从存储介质112中读取的视频信号。这个特定实施例可以称为远程解码器安排。但是,应该注意到,由于可以在其他适当系统中实施本发明那样,本发明不局限于这种安排。
在本发明的各种实施例中,依照本发明的基于语义特技模式回放可以控制视频内容的重放,以便在特技模式的引导下,取决于所选语义沿着视频的时间线的密度,与其在正常时间内展示有关地不均匀展示视频内容。对于快进或快退特技模式,用户将有较长时间接触一些语义出现,因此,在视频内容中的语义变化更多的时间间隔内向用户展示与那些出现有关的更多帧。这种方法向用户提供更多的信息,以及也许,用户友好的特技模式体验,因为用户可以在特技模式播放期间从每个语义出现中观察到略相等的信息量。
在如下的描述中,选择一种示例性语义。那种语义是视频内容中的场景或场景变化。使用这种语义是因为它是如此地容易理解。应当明白,这种示例性语义的使用无意以任何方式限制本发明的范围。可以设想,该语义也可以使用像视频内容的一个或多个所选元数据元素、与视频内容相关联的标记、视频内容中的字幕、视频内容中包括对话和特征噪声的音频特征、和像颜色特征、场景细节、瞬时编码速率、运动矢量变化等那样视频内容的任何其他可定义可识别方面那样视频内容和辅助文件的其他特点和数据,在内容创建或自动元数据引用期间通过人工元数据插入来实现。
在快速特技模式中,无论正向还是反向,当在视频内容中存在单位时间对应较多场景变化时较慢地成比例重放视频内容,而当在视频内容中存在单位时间对应较少场景变化时成比例较快地重放视频内容。使用基于语义时间间隔的比例,这种技术使用户可以与场景在正常播放模式下出现多长或多短时间无关地在特技播放中在基本相似的持续时间内体验每个场景。
图2描绘了依照本发明的实施例至少实现基于语义特技模式播放操作的一部分的流程图。在图2中,在步骤1中,假设视频内容具有3600秒(即,1小时)的总持续时间和30帧每秒的正常帧速率M(即,正常播放期间的帧速率)。在本发明的一个实施例中,持续时间T和帧速率M可以作为元数据包括在视频内容数据包本身内。在本发明的替代实施例中,也可以从外部供应或在调用特技模式操作之前通过内容分析确定这个信息。
在图2中,在步骤1中,假设以场景变化的形式存在N个语义片刻或出现,N是360个场景。将每个场景变化与出现的时间ti相关联,i从0到N,其中在视频内容的开头ti=0,以及在视频内容的末端tN=T。相继场景变化之间的语义时间间隔Ti=ti+1-ti从一个场景到下一个场景具有随机持续时间。从纯统计的观点来说,当以正常速度播放视频内容时,场景间隔的平均持续时间是T/N秒,或在本例中,10秒。当较快地,例如,以正常播放速度的L倍播放视频内容时,场景间隔的平均持续时间是T/(L×N)。如果对于所希望特技的模式播放,L是2倍于正常帧速率M的帧速率倍数,则当L=2时,在特技模式播放中的平均场景持续时间是5秒。
在步骤2和3中从像与电视机组合的机顶盒那样的视频显示器或展示设备接收的特技模式命令中确定帧速率倍数L,像快进或快退命令那样的特技模式命令一般从遥控设备接收。特技模式命令包括帧速率倍数L、和特技模式中重放方向(即,正向或反向)的指示。由于特技模式工作在小于或大于正常帧速率M的帧速率上,所以假设帧速率倍数L不等于1。在一个示例中,将方向的指示表述成符号,其中L的正值指示L倍于正常帧速率的正向特技模式,L的负值指示也L倍于正常帧速率的反向特技模式。
如上所述,在本发明的各种实施例中,无论正向还是反向,对于关键语义片刻或出现之间的每个间隔,尽管每个语义间隔具有不同持续时间,但都在T/(L×N)秒中进行特技模式重放。考虑到从一个语义间隔到下一个语义间隔的持续时间差异,这种特征通过在特技模式下,以Vi=[Ti/T]×(N×L×M)帧每秒的计算特技模式帧速率重放相关语义间隔中的场景来实现,其中Ti=ti+1-ti,以及其中如步骤4和5所示,当前位置在瞬时ti和ti+1上或之间。在将上面的参数用于2X特技模式的示例中,计算特技模式帧速率Vi=6Ti,其中Ti=ti+1-ti。这意味着特技模式帧速率与相继语义出现或片刻之间的语义时间间隔成正比。短语义间隔或较高密度语义出现以比较长语义间隔或较低密度语义出现慢的帧速率出现。
由于语义间隔(例如,场景间隔)不同,所以一个或多个语义间隔可能足够短,它们没有足够数量的帧以特技模式帧速率相继显示,使得语义间隔Ti填不满以帧速率Vi特技模式播放的整个T/(L×N)秒。在本发明的一个实施例中,这个问题可以通过用足够数量的哑帧(dummy frame)填充那个语义间隔内的帧序列,以便将来自那个语义间隔的视频内容有效地延展在T/(L×N)秒的整个重放时段上来克服。
可替代地,也可以通过确定以特技模式重放的每个语义间隔Ti是否具有足够数量的帧跨越T/(L×N)秒的整个重放时段来完全避免上述问题。这可以通过将语义时段Ti的计算特技模式帧速率Vi的幅度与阈速率相比较来完成。一个满意的阈帧速率是正常帧速率M。如果Vi的幅度小于M,则计算特技模式帧速率被新值取代,并设置成正常帧速率M。计算帧速率的幅度用于补偿正向和反向帧速率分别具有正符号和负符号的事实。帧速率的这种重新设置将保证在语义间隔内存在足够数量的帧,以便当以新速率Vi=M重放时,这些帧将填满整个重放间隔。不幸的是,这意味着这个语义间隔Ti的持续时间在特技播放期间不是T/(L×N)秒的整个重放时段。不过,这将使语义间隔Ti出现在比在原始计算特技播放帧速率上更长的持续时间内。因此,对于这个替代实施例,快速重放的特技模式帧速率不小于正常速度M。
上面讨论的本发明的替代实施例可以通过使用为2X快进重放特技模式提供的参数值得到最好理解。如果第i语义间隔具有Ti=10秒的持续时间,则计算特技模式帧速率是Vi=60帧每秒。另一方面,如果第i语义间隔具有Ti=4秒的持续时间,则计算特技模式帧速率是小于正常帧速率M的Vi=24帧每秒。在这后一种情况下,24帧每秒的计算特技模式帧速率被取代和重置成30帧每秒的正常帧速率M。
如果在本例中将特技模式重放速度增加到4X,使得L=4,则对于计算特技模式帧速率,将看到不同结果。对于具有Ti=10秒的持续时间的第i语义间隔,计算特技模式帧速率是大大超过正常帧速率的Vi=120帧每秒。当第i语义间隔具有Ti=4秒的持续时间时,计算特技模式帧速率是也大于正常帧速率M的Vi=48帧每秒。在这后两种情况下,计算特技模式帧速率没有一种被重置成30帧每秒的正常帧速率M,或被其取代,因为两个计算速率都超过正常帧速率。
一旦计算和设置或重置了特技模式帧速率,就可以展示语义间隔Ti中的视频内容以便在所接收特技模式命令定义的特技模式下,以帧速率Vi加以显示。
在本发明的各种实施例中,在特技模式操作期间,尽管在特技模式下可能以正常速度播放视频内容的一些部分,但也可以希望使与语义间隔中的所显示内容相关联的音频变成静音,以保持一致性和舒适的观看体验。
当在特技模式播放期间展示与几个相继语义间隔相关联的视频内容时,特技模式播放的速度Vi可能显著不同。可以严重到使观看体验令人不安的程度。在本发明中可以设想,当两种特技模式速度之间的差异显著时,在相继语义间隔内需要平稳地从一种特技模式速度过渡到另一种特技模式速度。速度之间的差异也可以是该差异的幅度。此外,该差异可以被速度比取代。在来自实验做法的一个示例中,假设Ti=Ti-1/10。为了避免在语义间隔Ti-1之后特技模式速度马上增加10倍,以及为了实现到较高速度的略为平稳过渡,设想特技模式帧速率可以从Ti的当前特技模式帧速率变化到Ti-1的较高特技模式帧速率。依照本发明的各种实施例,实现平稳过渡的变化可以以线性方式、非线性方式或逐步方式发生。另外,在本发明的替代实施例中,对数、指数、和二阶或更高阶曲线也适合于非线性变化。逐步做法可以牵涉到步长的线性和非线性变化。显然,步长均匀增加也是可能的。另外,在本发明的替代实施例中,从一种特技模式帧速率到下一种特技模式帧速率的变化可以发生在与语义间隔相关联的整个视频内容或视频内容的某个初始部分上。该变化可以等时间增量地,随时间连续地,或不等时间增量地发生。在大多数情况下,等步长和等时间增量的使用将产生在特技模式操作期间在显示的视频内容中较小延迟的更加赏心悦目观看体验。
在本发明的平滑技术中,检测如计算的特技模式帧速率和与时间间隔Ti-1中的语义出现有关的当前特技模式帧速率Vi-1之间的差异。当速率差异的幅度超过确定的阈值时,在显示第i语义出现期间,将第i语义出现的特技模式帧速率从所述当前特技模式帧速率Vi-1改变成如在显示第i语义出现期间计算的特技模式帧速率Vi。在本发明的一个实施例中,可能阈值相对于当前特技模式帧速率可以是帧速率的两倍以上或小于帧速率的一半。在本发明的实施例中,当前特技模式帧速率与随后特技模式帧速率的简单比率将简化与这样阈值的比较。
本发明的上述实施例的基于场景做法可以推广到任何基于语义特技模式。该语义可以是视频中的物体、字幕、音频、元数据、标记等。可以设想让显示系统接收特技模式操作所基于的语义。该语义可以从屏幕菜单或遥控设备上的小键盘输入中选择,或可以像经由一个或多个数据分组那样以一些其他方式发送到显示系统。
在本发明的各种实施例中,视频内容中语义出现的数量N是持续时间T的整个视频内容上所选语义的出现的实际次数。但是,这个实际次数未必用于N。相反,在本发明的替代实施例中,可以使用像语义出现的平均数量那样的N的统计值,其中平均数量至少基于视频内容持续时间和可能基于像其诸如动作、家庭、浪漫、纪录片等的风格那样视频内容的其他特性。
在场景或其他语义信息不可与视频内容一起获得或甚至未对视频内容加索引的情况下,依照本发明实施例的几种不同途径仍然可用。更具体地说,场景和其他类型的语义提取以及加索引技术在现有技术中足够众所周知。这些技术对于本技术领域的普通技术人员来说是显而易见的。例如,在本领域中的两篇示例性期刊文章是:B.Truong等人,"SceneExtraction fin Motion Pictures",IEEE Transactions on Circuits and Systems forVideo Technology,Vol.13,No.1.,pp.5-15(2003年1月);以及M.Cooper等人,"SceneBoundary Detection via Video Self-Similarity Analysis",Publication of FX PaloAlto Laboratory,No.FXPAL-PR-01-020,还在Proceeding of the2001InternationalConference on Image Processing,Vol.3,pp.378-381(2001年10月)上发表。因此,依照本发明的各种实施例,通过使用这些技术的一种或多种,可以分析视频内容来确定视频内容中语义的出现的次数N。而且,如有必要,该分析可以包括对每个语义出现加索引以产生指示每个语义出现出现的时间的数值的操作。这样加索引的示例可以在如下文献中找到:Barbieri的国际公开号WO2006/092765标题为"Method of Video Indexing"。当如上所述的分析产生视频内容的语义出现以及与语义出现相关联的时间值时,在本发明的实施例中,与语义出现和/或它的相关索引一起存储指示每个语义出现的出现时间的每个数值。
上面针对快速播放特技模式一般性地描述了本发明的实施例。可以设想,本文的技术也可以推广到包括,但不限于,慢动作播放的特技模式播放的其他形式。
虽然已经描述了至少实现基于语义的特技模式播放操作的一部分的方法的各种实施例(旨在例示而非限制),但应当注意到,本领域的普通技术人员可以根据上面的教导作出各种修改和改变。因此,应该明白,可以在本发明的范围和精神内对公开的本发明的特定实施例中作出改变,虽然上文针对本发明的各种实施例,但可以不偏离其基本范围地构想出本发明的其他和进一步实施例。