CN101507281A - 媒体文件中的兴趣区域可缩放性信息的信号发送 - Google Patents

媒体文件中的兴趣区域可缩放性信息的信号发送 Download PDF

Info

Publication number
CN101507281A
CN101507281A CNA2007800314331A CN200780031433A CN101507281A CN 101507281 A CN101507281 A CN 101507281A CN A2007800314331 A CNA2007800314331 A CN A2007800314331A CN 200780031433 A CN200780031433 A CN 200780031433A CN 101507281 A CN101507281 A CN 101507281A
Authority
CN
China
Prior art keywords
roi
identifier
scalable layer
scalable
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800314331A
Other languages
English (en)
Other versions
CN101507281B (zh
Inventor
Y-K·王
M·安尼克塞拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN101507281A publication Critical patent/CN101507281A/zh
Application granted granted Critical
Publication of CN101507281B publication Critical patent/CN101507281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种用于以文件格式用信号发送ROI可缩放性信息的方法。本发明提供以文件格式用信号高效发送ROI可缩放性信息,其中发信号包括提供ROI的几何信息和用以标识各编码数据单元在等级或者层内关联的ROI的指示。

Description

媒体文件中的兴趣区域可缩放性信息的信号发送
技术领域
本发明主要地涉及可缩放视频编码和解码。具体而言,本发明涉及存储包括兴趣区域(ROI)可缩放层的可缩放数据流。
背景技术
这一节旨在于提供在权利要求书中记载的本发明的背景或者上下文。这里的描述可以包括能够探求的概念,但是并非必然是先前已经构思或者探求的概念。因此,除非这里另有指明,在这一节中描述的内容不是本申请中的说明书和权利要求书的现有技术,也不因为包含于这一节中而被承认是现有技术。
多媒体应用包括本地回放服务、流发送或者按需服务、对话服务和广播/多播服务。在多媒体应用中涉及到的技术除了其他技术之外还包括媒体编码、存储和发送。已经为不同技术指定不同标准。
视频编码标准包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或者ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IECMPEG-4 Visual和ITU-T H.264(也称为ISO/IEC MPEG-4AVC)。此外,关于新视频编码标准的开发目前正在付之努力。在开发中的一个此类标准是将成为对H.264/AVC的可缩放扩展的可缩放视频编码(SVC)标准。
可缩放视频编码对于在利用如下解码器的系统中使用的许多多媒体应用和服务而言是合乎需要的特征,这些解码器具有大范围的处理能力、显示尺寸和连接带宽等。已经提出若干类型的视频可缩放性,比如时间、空间和质量可缩放性。
可以按降级的回放视觉质量对可缩放视频位流的一部分进行提取和解码。可缩放视频位流包含不可缩放基本层和一个或者多个增强层。增强层可以增强由下层或者其部分代表的视频内容的时间分辨率(即,帧速率)、空间分辨率或者简单地为质量。
在一些情况下,可以在某个位置之后或者甚至在任意位置截取增强层中的数据,其中各截取位置可以包括代表越来越增强的视觉质量的附加数据。这样的可缩放性称为细颗粒(颗粒度)可缩放性(FGS)。FGS概念首先引入到MPEG-4 Visual标准并且也是SVC标准的一部分。与FGS对照,粗颗粒可缩放性(CGS)是指由没有提供细颗粒可缩放性的质量增强层提供的可缩放性。
在JVT-S202的“Joint Scalable Video Model JSVM-6:Joint Draft6 with proposed changes”(第19届Joint Video Team Meeting,Geneva,Switzerland,2006年4月)中描述了SVC的最新草案规范,通过整体引用将该规范结合于此。
SvC利用H.264/AVC中已经可用于时间可缩放性的机制。这一机制称为“分级B画面”编码结构。因此,SVC中所用机制也完全受H.264/AVC支持,而可以通过使用与子序列有关的补充增强信息(SEI)消息来实现发信号。
对于以空间和质量(SNR)可缩放性的形式提供CGS可缩放性的机制,使用一种常规分层编码技术。除了新的层间预测方法之外,这一技术类似于在更早标准中使用的技术。可以层间预测的数据包括内纹理、运动和残留数据。层间运动预测包括块编码模式、头部信息等的预测。在SVC中,可以根据除了当前重建的层或者下一层之外的层来预测数据。
SVC包括称为单环解码的相对新概念。通过使用受约束的内纹理预测模式来实现单环解码,其中层间内纹理预测可以应用于宏块(MB),就这些MB而言基本层的对应块位于内MB中。同时,基本层中的那些内MB使用受约束的内预测。在单环解码中,解码器需要仅针对预期回放的可缩放层(称为预期层)来执行运动补偿和全画面重构,由此极大地减少解码复杂性。除了预期层之外的所有层无需完全地加以解码,因为没有用于层间预测(无论是层间内纹理预测、层间运动预测或者层间残留预测)的MB的所有或者部分数据对于重构预期层而言是不需要的。
当与更旧的视频压缩标准相比时,已经推广SVC的空间可缩放性以使基本层能够是增强层的修剪和缩放版本。也已经调整量化和熵编码模块以提供FGS能力。FGS编码模式称为渐进求精,其中通过反复地减少量化步长尺寸并且应用与子位平面编码相似的“循环”熵编码对变换系数的相继求精编码。
当前SVC草案中的可缩放层结构的特征在于三个变量。这些变量是时间_级、依赖_id和质量_级。时间_级变量用来表明时间可缩放性或者帧速率。包括时间_级值较小的画面的层具有比包括时间_级较大的画面的层更小的帧速率。依赖_id变量用来表明层间编码依赖分级。在任何时间位置,依赖_id值较小的画面可以用于如下层间预测,该层间预测用于具有较大依赖_id值的画面的编码。质量级变量用来表明FGS层分级。在任何时间位置并且就相同的依赖_id值而言,质量_级值等于QL的FGS画面将质量_级值等于QL-1的FGS画面或者基本质量画面(即,当QL-1=0时的非FGS画面)用于层间预测。
文件格式在多媒体内容产生、操控、发送和消耗的链条中是一个重要元素。在编码格式与文件格式之间存在差异。编码格式涉及将内容信息编码成位流的具体编码算法的动作。文件格式是指以如下方式组织生成的位流,使得可以访问它以便进行局部解码和回放、将它作为文件来传送或者用流来发送它,所有这些都利用各种存储和传送架构。另外,文件格式可以有助于交换和编辑媒体。例如,许多流应用要求服务器上的预编码位流伴有元数据—存储于“提示轨道”中—该元数据辅助服务器用流发送视频到客户端。用于提示轨道元数据的例子包括表明同步点的定时信息以及包括分组化提示。此信息用来减少服务器的工作负荷并且使终端用户体验最大化。
可用媒体文件格式标准包括ISO文件格式(ISO/IEC14496-12)、MPEG-4文件格式(ISO/IEC 14496-14)、AVC文件格式(ISO/IEC 14496-15)和3GPP文件格式(3GPP TS 26.244)。MPEG中也有用于发展SVC文件格式的项目,该文件格式将成为对AVC文件格式的修改。
SVC文件格式正在成为对AVC文件格式的扩展。SVC文件格式要解决的一个主要问题在于高效地处理对可缩放视频流的存储、提取和缩放性供应。在正在进行的设计阶段中观察到多个约束。首先,包含可缩放位流的文件的大小应当尽可能小,而又仍然允许对属于不同层的NAL单元的轻量提取。这要求避免对媒体数据的多个表示和元数据的高效表示的冗余存储。其次,服务器实施需要充分地轻量,从而无需过于复杂的元数据设计。这两个方面均与元数据结构化紧密相关,这因而在标准化过程中已经受到密切关注。存在用以组织SVC文件的两种主要机制。首先,分组概念、即以ISO基本媒体文件格式的样本组结构可以用来表明画面和可缩放层的关系。其次,可以定义对位流的子集进行引用的数个轨道,各轨道与形成回放点的可缩放层的特定组合对应。
图1描绘了SVC媒体数据如何存储于文件中。各访问单元包括一个样本。多个样本形成组块。实际内容通常包括许多组块。文件读取器通常一次读取和处理一个组块。如果预期回放的分层结构并不需要所有访问单元(对于时间可缩放性)和/或各所需访问单元中的所有画面(对于其他类型的可缩放性),则可以丢弃不想要的访问单元和/或画面。在画面级执行丢弃操作是最高效的。然而,由于各样本包含一个访问单元,所以样本级分组不是最优的。另一方面,如果各画面定义为一个样本,则会破坏如下定义:各样本是与以ISO基本媒体文件格式的某个呈现时间对应的媒体数据。
在最新草案SVC文件格式中,用语‘等级’用来描述层。各NAL单元与组ID关联,而多个组ID值映射到由等级ID标识的等级。这样,在给定等级ID时,可以找到关联NAL单元。在数据结构ScalableTierEntry()中用信号发送各等级的包括位速率、空间分辨率、帧速率等的可缩放性信息。
在SVC中,支持兴趣区域(ROI)可缩放性,即可以用如下方式对可缩放流进行编码,使得可以对至少一个如下矩形子区域的数据独立地进行解码和显示,该矩形子区域是由某个层代表的整个区域的子集。因此,用户可以请求仅发送用于ROI的数据。这样的ROI也称为ROI可缩放层或者可缩放ROI层。
一种对ROI进行编码的方式是将覆盖ROI的块包含到编码画面中的一个或者多个条带的集合中。当对该条带集合进行编码时,使编码数据独立于任何其他编码画面中的对应ROI以外的块的编码数据。可以在仅覆盖条带集合的条带组中包括条带集合,或者可以在覆盖更多条带的条带组中包括条带集合。
交互式ROI(IROI)可缩放性涉及在用户/接收器与发送器之间的交互。例如,在用流发送预编码内容时,用户可以自由地请求不同区域以供显示。为了实现这一特征,应当将视频内容编码成多个矩形ROI。这样,只需要向用户发送由请求的区域覆盖的所有ROI的编码数据。
为了容易地获得ROI可缩放性信息并且针对客户端请求来提取所需数据,需要文件格式级用信号发送ROI信息。没有ROI信息的文件格式信号发送,文件阅读器必须找到和解析与ROI有关的SEI消息(可缩放性信息SEI消息、子画面可缩放层SEI消息和运动约束的条带组集合SEI消息),并且解析成画面参数集和条带头部。另外,如果位流不含与ROI有关的SEI消息,则文件读取器必须假设在位流中没有ROI支持或者取而代之应用广泛复杂的分析以检验是否存在ROI支持,而如果确定位流不支持,则它必须应用进一步广泛复杂的分析以获得ROI信息。
因此需要有一种用于文件格式级用信号发送ROI可缩放性信息的方法。
发明内容
本发明提供一种用于以文件格式用信号发送ROI可缩放性信息的方法。本发明提供以文件格式用信号高效发送ROI可缩放性信息,其中发信号包括提供ROI的几何信息和用以标识各编码数据单元在等级或者层内关联的ROI的指示。
可以使用任何普遍的编程语言如C/C++或者汇编语言用软件直接地实施本发明。也可以用硬件实施和在各种用户设备中使用本发明。
本发明的这些和其他优点及特征及其操作的组织和方式将从结合附图进行的以下具体描述中变得清楚,在附图中相似元件在下文描述的若干附图中通篇地具有相似标号。
附图说明
图1是示出了SVC媒体数据如何存储于文件中的表示图;
图2示出了用于与本发明一起使用的通用多媒体通信系统;
图3是可以在本发明的实施中使用的移动电话的透视图;以及
图4是图3的移动电话的电路的示意表示图。
具体实施方式
图2示出了用于与本发明一起使用的通用多媒体通信系统。如图2中所示,数据源100以模拟、未压缩数字或者压缩数字格式或者这些格式的任意组合提供源信号。编码器110将源信号编码成编码的媒体位流。编码器110可以能够对多个媒体类型如音频和视频进行编码,或者可能需要多个编码器110以对不同媒体类型的源信号进行编码。编码器110也可以获得合成产生的输入如图形和文字,或者它可以能够产生合成媒体的编码位流。在下文中仅考虑一个媒体类型的一个编码的媒体位流的处理以简化描述。然而应当注意广播服务通常包括数个流(通常为至少一个音频、视频和文字字幕流)。也应当注意系统可以包括许多编码器,但是在下文中考虑仅一个编码器110以简化描述而不失一般性。
编码的媒体位流传送到储存器120。储存器120可以包括用以存储编码的媒体位流的任何类型的海量存储器。储存器120中的编码的媒体位流的格式可以是初等独立(self-contained)位流格式,或者一个或者多个编码的媒体位流可以封装到可以视文件格式而定的容器文件中。一些系统“实况”操作,即省略储存器并且将编码的媒体位流从编码器110直接地传送到发送器130。编码的媒体位流然后按需传送到也称为服务器的发送器130。在发送中使用的格式可以是初等独立位流格式、分组流格式,或者一个或者多个编码的媒体位流可以封装到可以视文件格式而定的容器文件中。编码器110、储存器120和发送器130可以驻留于同一物理设备中或者它们可以包含于单独设备中。编码器110和发送器130可以操作实况实时内容,在该情况下编码的媒体位流通常不是持久存储的而是在内容编码器110中和/或在发送器130中缓存短暂时间段,以平滑掉处理延迟、传送延迟和编码媒体位速率的变化。
发送器130使用通信协议栈来发送编码的媒体位流。该栈可以包括但不限于实时传送协议(RTP)、用户数据报协议(UDP)和网际协议(IP)。当通信协议栈面向分组时,发送器130将编码的媒体位流封装成分组。例如,当使用RTP时,发送器130根据RTP净荷格式将编码的媒体位流封装成RTP分组。通常,各媒体类型具有专用RTP净荷格式。同样应当注意,系统可以包含多个发送器130,但是为求简明,以下描述仅考虑一个发送器130。
发送器130可以或者可以不通过通信网络连接到网关140。网关140可以执行不同类型的功能,比如根据一个通信协议栈的分组流向另一通信协议栈的转译、数据流的合并和拆分、以及根据下行链路和/或接收器能力的数据流操控(比如根据主导的下行链路网络条件来控制转发的流的位速率)。网关140的例子包括多点会议控制单元(MCU)、在电路交换与分组交换视频电话之间的网关、蜂窝一键通(PoC)服务器、数字视频广播-手持(DVB-H)系统中的IP封装器、或者将广播发送本地转发到归属无线网络的机顶盒。当使用RTP时,网关140称为RTP混合器并且充当RTP连接的端点。
取而代之,编码的媒体位流可以通过其他手段从发送器130传送到接收器150,该其他手段比如是在便携海量存储器盘或者设备连接到发送器130时将编码的媒体位流存储到盘或者设备、然后将盘或者设备连接到接收器150。
该系统包括通常能够接收、解调发送的信号并且将该信号解封装成编码的媒体位流的一个或者多个接收器150。解封装可以包括去除接收器不能解码的或者预期不解码的数据。编码的媒体位流通常由解码器160进一步处理,该解码器的输出是一个或者多个未压缩媒体流。最后,表现器170可以例如用扬声器或者显示器再现未压缩媒体流。接收器150、解码器160和表现器170可以驻留于同一物理设备中或者它们可以包含于单独设备中。
接收器150可以向发送器130发送如下请求:它想要仅接收由存储于储存器120中的编码视频位流的子集代表的区域子集的编码数据。在这一情况下,发送器130根据在来自储存器120的容器文件中包括的元数据来提取和发送该请求所需要的编码数据。接收器150接收由解码器160进一步处理的数据,并且解码的视频最终被显示。
本发明提供一种用于用信号发送ROI可缩放性信息的方法。
根据本发明,以文件格式用信号发送ROI的几何信息。用于ROI的几何信息包括表示ROI的大小和位置的信息。可以按照ROI的宽度和高度中的像素数目来表示用于ROI的大小信息。也有可能按照宽度和高度中的像素块来表示大小。例如,可以根据宏块单元来表示ROI大小信息,其中宏块单元表示16×16个像素块的视频图像。位置信息可以相对于另一ROI的位置而言或者视预定坐标而定。可以通过在水平和竖直方向上相对于关联相对位置的偏移来表示位置信息。
在本发明的一个实施例中,单独地为各ROI用信号发送几何信息。在本发明的另一实施例中,可以以文件格式存储指示,其中该指示表明所有ROI有相同宽度和高度。也有可能限制该指示表明除了可能最右ROI和最下ROI之外的所有ROI有相同宽度和高度。同一指示元素可以用来用信号发送是为各ROI发送几何信息还是除了上述可能例外之外的所有ROI具有同一几何形状。
根据本发明,提供以文件格式的指示以标识各编码数据单元在等级或者层内关联的ROI。
根据下文呈现的对SVC文件格式的变化,本发明的一个实施例如下:ROI ID以文件格式用信号来发送并且标识具体完全基于画面的层或者等级内的ROI。ROI由层或者等级ID和ROI ID标识。ROI ID还可以链接到由ROI覆盖的左上块的地址。属于完全基于画面的层的ROI共用同一层或者等级ID,而各ROI与ROI ID关联。
为了用信号发送ROI的几何信息,本发明的一个实施例涉及到如下对SVC文件格式的语法变化。定义并且可选地在ScalableTierEntry()中包括新框IroiInfoBox()。在ScalableTierEntry()中存在primiary_definition等于1的IroiInfoBox()表明了将层或者等级编码成如IroiInfoBox()中包含的信息所表明的ROI。用于ScalableTierEntry()和新IroiInfoBox()的语法如下:
class ScalableTierEntry()extends VisualSampleGroupEntry(′scif){
       unsigned int(8)groupId;
       unsigned int(8)tierId;
       unsigned int(5)reserved=0;
       unsigned int(1)is_tier_IDR;
       unsigned int(1)primary_definition;
       unsigned int(1)is_key_picture;
       unsigned int(8)reserved=0;
       if(primary_definition==1)       //primary definition of tier
       {
               SVCDependencyDescriptionEntryBox();          //MandatoryBox
               SVCOperatingPointBox max_operating_point; //mandatory
               SVCOperatingPointBox min_operating_point; //mandatory
               //Optional Boxes or fields may followwhen defined later
               RectRegionBox();                                  //optional
               BufferingBox();                              //optional
               TierDependencyBox();                     //optional
               InitialParameterSetBox();               //optional
               IroiInfoBox();                 //optional
       }else{
               unsigned int(8)primary_group_ID;
       }
}
class IroilnfoBox extends Box(‘iroi’){
         unsigned int(1)iroi_type;
         unsigned int(7)reserved=0;
         if(iroi_type==0){
                   unsigned int(8)grid_roi_mb_width;
                   unsigned int(8)grid_roi_mb_height;
         }
         else if(iroi_type=1){
                   unsigned int(32)num_roi;
                   for(int i=0;i<=num_roi;i++){
                             unsigned int(32)top_left_mb;
                             unsigned int(8)roi_mb_width;
                             unsigned int(8)roi_mb_height;
                   }
         }
}
iroi_type表明用于所有ROI的区域划分类型。值0表明所有ROI(除了可能最右ROI和最下ROI之外)有相同宽度和高度。值1表明单独地用信号发送用于各ROI的几何信息。
grid_roi_mb_width和grid_roi_mb_height分别表明ROI以宏块为单位的宽度和高度。除了以下例外之外,所有ROI具有相同宽度和高度。
当(PicWidthInMbs%grid_roi_mb_width)不等于0时,最右ROI具有等于(PicWidthInMbs%grid_roi_mb_width)个宏块的宽度。当(PicHeightInMbs%grid_roi_mb_height)不等于0时,最下ROI具有等于(PicHeightInMbs%grid_roi_mb_height)个宏块的高度。PicWidthInMbs和PicHeightInMbs分别是可缩放层或者等级以宏块为单位的视觉宽度和高度。(x%y)返回x除以y的余数。
num_roi表明可缩放层或者等级的编码画面中的ROI数目。top_left_mb指定当前条目的ROI中以光栅扫描为序的第一宏块的宏块地址。宏块地址是画面的宏块光栅扫描中的宏块的索引,该索引从对于画面中的左上宏块而言以零开始。roi_mb_width和roi_mb_height分别表明当前条目的ROI以宏块为单位的宽度和高度。
为可缩放层或者等级中的各ROI指定表示为roi_id的ROI ID。如果iroi_type等于0,则roi_id等于画面的ROI光栅扫描中的ROI的索引,该索引从对于可缩放层或者等级中的画面中的左上ROI而言以零开始。否则,roi_id等于IroiInfoBox()的语法中的条目索引i。
为了用信号发送NAL单元到ROI的映射信息,各NAL单元需要链接到等级ID值和roi_id值。当前SVC文件格式设计已经允许将等级ID值关联到每个NAL单元。因此仍然有必要将roi_id值关联到各NAL单元。出于这一目的,利用当前SVC文件格式规范的定时元数据设计。用于数据结构structured_metadata_packet()的语法改变成如下所示:
aligned(8)structured_metadata_packet(packetLength){
      unsigncd int i=5;
      bit(1)isAggregator;
      bit(1)isExtraetor;
      bit(1)includesExtensionStructure;
      bit(1)isRoiNalu;
      unsigned int(4)reserved=0;
      unsigned int(8)userField[4];
      if(includesExiensionStructure){
              unsigned int((SVCMetadataSampleEntry.length_size_minus_one+1)*8)
                             length;
              extensionStructure(length);
              i+=(SVCMetadataSampleEntry.length_size_minus_one+1)+length;
      }
      if(isAggregator‖isExtractor){
             while(i<packetLength){
                     unsigned int((SVCM ctadataSampleEntry.lengthSizeMinusOne+1)*8)
                            length;
                     structured_metadata_packet(length);
                     i+=(SVCMetadataSampleEntry.lengthSizeM inusOne-1)+length;
             }
      }
}
等于1的isRoiNalu值表明与当前元数据分组对应的NAL单元属于ROI。等于0的isRoiNalu值表明与当前元数据分组对应的NAL单元不属于ROI。
参数设置如下。
metadata_encoding=‘iroi’
includeExtensionStructure=0
当isRoiNalu等于1时下述成立。如果isAggregator或者isExtractor等于l,则由聚集器或者提取器NAL单元包含或者引用的所有NAL单元属于同一ROI,而userField表明ROI的roi_id。在这一情况下,设置值packetLength使得没有用于由聚集器或者提取器NAL单元包含或者引用的独立NAL单元的嵌入structured_metadata_packet()。否则(即,isAggregator和isExtractor二者均等于0),userField1和userField2分别表明与当前元数据分组对应的NAL单元所属ROI的roi_id的最低有效字节和最高有效字节。
用以用信号发送NAL单元到等级的映射信息(或者roi_id值到各NAL单元的关联)的另一实施例是在样本表框中定义新框。新框的语法和语义如下。
class NaluToRoiInfoBox extends Box(‘nroi’){
        for(unsigned int i=0;i<=entry_count1;i++){
               unsigned int(16)entry_count2;
               for(unsigned int j=0;j<=entry_count2;i++)
                       unsigned int(32)roi_id;
        }
}
entry_count1等于媒体轨道中的采样总数。entry_count2表明样本中的NAL单元的总数。
用以用信号发送NAL单元到ROI的映射信息(或者roi_id值到各NAL单元的关联)的又一实施例是定义新样本组。该样本组将各样本关联到NAL单元数目相同和roi_id值模式相同的组。样本组描述条目如下。
class RoiIdEntry()extends VisualSampleGroupEntry(′roid′){
       unsigned int(16)entry_count;
       for(unsigned int i=0;i<=entry_count;i++){
               unsigned int(32)roi_id;
       }
}
entry_count表明如下样本中的NAL单元的总数,该样本是与当前组条目对应的组的成员。
图3和图4示出本发明可以实施于其中的一个有代表性的移动电话12。然而应当理解,本发明并不限于一个特定类型的移动电话12或者其他电子设备。图3和图4中所示一些或者所有特征可以并入图1中所示的任何或者所有设备中。
图2和图3的移动电话12包括外壳30、液晶显示器形式的显示器32、小键盘34、麦克风36、耳机38、电池40、红外线端口42、天线44、根据本发明一个实施例的UICC形式的智能卡46、读卡器48、无线电接口电路52、编码解码器电路54、控制器56和存储器58。独立电路和元件都是在本领域中、例如在诺基亚移动电话范围中众所周知的类型。
本发明的通信设备可以使用各种传输技术来通信,包括但不限于码分多址(CDMA)、全球移动通信系统(GSM)、通用移动电信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/网际协议(TCP/IP)、短消息接发服务(SMS)、多媒体消息接发服务(MMS)、电子邮件、即时消息接发服务(IMS)、蓝牙、IEEE802.11等。通信设备可以使用包括但不限于无线电、红外线、激光、线缆连接等的各种介质来通信。
在方法步骤的一般背景下描述本发明,在一个实施例中可以通过程序产品来实施这些方法步骤,该程序产品包括在联网环境中由计算机执行的计算机可执行指令如程序代码。一般而言,程序模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、关联数据结构和程序模块代表用于执行这里公开的方法步骤的程序代码的例子。这样的可执行指令或者关联数据结构的特定序列代表用于实施在这样的步骤中描述的功能的对应动作的例子。
可以用标准编程技术实现本发明的软件和网络实施,这些编程技术具有用以实现各种数据库搜索步骤、相关步骤、比较步骤和判决步骤的基于规则的逻辑和其他逻辑。也应当注意,如这里和在权利要求书中使用的用语“组件”和“模块”旨在于涵盖使用一行或者多行软件代码的实施和/或硬件实施和/或用于接收人工输入的设备。
已经出于图示和描述的目的而呈现本发明实施例的前文描述。本意并非穷举本发明或者将本发明限制于公开的精确形式,并且修改和变化根据上述教导是可能的或者可以从本发明的实践中加以获悉。选择和描述实施例是为了说明本发明的原理及其实际应用以使本领域技术人员能够在各种实施例中以及通过与构思的特定用途相适应的各种修改来利用本发明。

Claims (23)

1.一种用于在容器文件中存储可缩放视频位流的方法,所述可缩放视频位流包括至少一个完全基于画面的可缩放层和至少一个兴趣区域(ROI)可缩放层,所述方法包括:
通过第一标识符和第二标识符来标识各ROI可缩放层,所述第一标识符标识完全基于画面的可缩放层,而所述第二标识符标识所述完全基于画面的可缩放层内的ROI可缩放层。
2.根据权利要求1所述的方法,其中所述第一标识符和所述第二标识符存储于所述容器文件中。
3.根据权利要求2所述的方法,其中根据ROI可缩放层的位置、形状和大小中的至少一个导出的几何信息存储于所述容器文件中。
4.根据权利要求2所述的方法,其中根据ROI可缩放层的位置来导出所述第二标识符。
5.根据权利要求2所述的方法,其中所述可缩放视频位流中的编码数据单元到ROI可缩放层的映射存储于所述容器文件中。
6.根据权利要求2所述的方法,其中根据可缩放视频编码(SVC)文件格式标准来构造所述文件容器。
7.根据权利要求6所述的方法,其中以ScalableTierEntry()数据结构用信号发送所述第一标识符。
8.根据权利要求7所述的方法,其中以ScalableTierEntry()数据结构用信号发送根据ROI可缩放层的位置、形状和大小中的至少一个导出的几何信息。
9.根据权利要求8所述的方法,其中使用定时元数据用信号发送编码数据单元到所述第二标识符的映射。
10.根据权利要求8所述的方法,其中通过框用信号发送编码数据单元到所述第二标识符的映射。
11.根据权利要求8所述的方法,其中使用样本组用信号发送编码数据单元到所述第二标识符的映射。
12.一种在计算机可读介质中实施的计算机程序产品,用于在容器文件中存储可缩放视频位流,所述可缩放视频位流包括至少一个完全基于画面的可缩放层和至少一个兴趣区域(ROI)可缩放层,所述计算机程序产品包括:
用于通过第一标识符和第二标识符来标识各ROI可缩放层的计算机代码,所述第一标识符标识完全基于画面的可缩放层,而所述第二标识符标识所述完全基于画面的可缩放层内的ROI可缩放层。
13.一种装置,包括:
处理器;以及
存储器单元,以通信方式连接到所述处理器并且包括用于在容器文件中存储可缩放视频位流的计算机程序,所述可缩放视频位流包括至少一个完全基于画面的可缩放层和至少一个兴趣区域(ROI)可缩放层,所述计算机程序包括:
用于通过第一标识符和第二标识符来标识各ROI可缩放层的计算机代码,所述第一标识符标识完全基于画面的可缩放层,而所述第二标识符标识所述完全基于画面的可缩放层内的ROI可缩放层。
14.根据权利要求13所述的装置,其中所述第一标识符和所述第二标识符存储于所述容器文件中。
15.根据权利要求14所述的装置,其中根据ROI可缩放层的位置、形状和大小中的至少一个导出的几何信息存储于所述容器文件中。
16.根据权利要求14所述的装置,其中根据ROI可缩放层的位置来导出所述第二标识符。
17.根据权利要求14所述的装置,其中所述可缩放视频位流中的编码数据单元到ROI可缩放层的映射存储于所述容器文件中。
18.根据权利要求14所述的装置,其中根据可缩放视频编码(SVC)文件格式标准来构造所述文件容器。
19.根据权利要求18所述的装置,其中以ScalableTierEntry()数据结构用信号发送所述第一标识符。
20.根据权利要求19所述的装置,其中以ScalableTierEntry()数据结构用信号发送根据ROI可缩放层的位置、形状和大小中的至少一个导出的几何信息。
21.根据权利要求20所述的装置,其中使用定时元数据用信号发送编码数据单元到所述第二标识符的映射。
22.根据权利要求20所述的装置,其中通过框用信号发送编码数据单元到所述第二标识符的映射。
23.根据权利要求20所述的装置,其中使用样本组用信号发送编码数据单元到所述第二标识符的映射。
CN2007800314331A 2006-07-12 2007-07-04 媒体文件中的兴趣区域可缩放性信息的信号发送 Active CN101507281B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US83053906P 2006-07-12 2006-07-12
US60/830,539 2006-07-12
PCT/IB2007/052605 WO2008007304A2 (en) 2006-07-12 2007-07-04 Signaling of region-of-interest scalability information in media files

Publications (2)

Publication Number Publication Date
CN101507281A true CN101507281A (zh) 2009-08-12
CN101507281B CN101507281B (zh) 2013-06-05

Family

ID=38923643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800314331A Active CN101507281B (zh) 2006-07-12 2007-07-04 媒体文件中的兴趣区域可缩放性信息的信号发送

Country Status (5)

Country Link
US (1) US8442109B2 (zh)
EP (1) EP2041976A4 (zh)
CN (1) CN101507281B (zh)
TW (1) TWI435607B (zh)
WO (1) WO2008007304A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104396264A (zh) * 2012-06-28 2015-03-04 索尼公司 发射/接收设备、方法以及编码/解码设备
CN104969555A (zh) * 2012-12-30 2015-10-07 高通股份有限公司 在视频译码中具有时间可扩缩性支持的渐进式改进
CN105052167A (zh) * 2013-01-18 2015-11-11 佳能株式会社 用于封装分区定时媒体数据的方法、装置和计算机程序
CN105556981A (zh) * 2013-07-23 2016-05-04 佳能株式会社 使用针对编码依赖性的通用信号通知来封装分区定时媒体数据的方法、装置和计算机程序
CN106105220A (zh) * 2014-01-07 2016-11-09 诺基亚技术有限公司 用于视频编码和解码的方法和装置
CN103813169B (zh) * 2014-02-19 2017-07-21 北京大学 视频编解码器中可伸缩的对象表示方法和装置
CN110476430A (zh) * 2017-03-27 2019-11-19 夏普株式会社 用于针对虚拟现实应用程序发信号通知与最感兴趣区域相关联的信息的系统和方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101115547B1 (ko) * 2007-04-24 2012-03-05 노키아 코포레이션 미디어 파일들에서의 다중 디코딩 시각들을 시그날링
EP2422505B1 (en) * 2009-04-21 2018-05-23 Marvell International Ltd. Automatic adjustments for video post-processor based on estimated quality of internet video content
GB2513303B (en) * 2013-04-16 2017-06-07 Canon Kk Method and device for partitioning an image
CN105144768B (zh) * 2013-04-26 2019-05-21 英特尔Ip公司 频谱共享情境中的共享频谱重新分配
RU2674312C2 (ru) * 2013-07-22 2018-12-06 Сони Корпорейшн Устройство и способ обработки информации
GB2542282B (en) * 2013-10-22 2018-08-01 Canon Kk Method, device, and computer program for encapsulating partitioned timed media data in a server
US20150373341A1 (en) * 2014-06-23 2015-12-24 Cisco Technology, Inc. Techniques for Interactive Region-Based Scalability
GB2527786B (en) 2014-07-01 2016-10-26 Canon Kk Method, device, and computer program for encapsulating HEVC layered media data
GB2538997A (en) * 2015-06-03 2016-12-07 Nokia Technologies Oy A method, an apparatus, a computer program for video coding
CN106791863B (zh) * 2015-11-19 2019-07-16 浙江大华技术股份有限公司 一种svc视频数据的存储方法及装置
CN109716759B (zh) * 2016-09-02 2021-10-01 联发科技股份有限公司 提升质量递送及合成处理
US11197040B2 (en) * 2016-10-17 2021-12-07 Mediatek Inc. Deriving and signaling a region or viewport in streaming media
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
JP6936018B2 (ja) 2017-02-21 2021-09-15 ソニーセミコンダクタソリューションズ株式会社 映像送信装置および映像受信装置
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11139000B2 (en) * 2017-03-07 2021-10-05 Mediatek Inc. Method and apparatus for signaling spatial region information
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
CN113170112B (zh) 2018-11-22 2024-05-10 北京字节跳动网络技术有限公司 用于具有几何分割的帧间预测的构建方法
RU2743956C1 (ru) * 2019-08-15 2021-03-01 Сцреенлифе Лимитед Способ создания вертикально ориентированного видео
MX2022003836A (es) 2019-10-05 2022-05-12 Beijing Bytedance Network Tech Co Ltd Se?alizacion basada en los niveles de las herramientas de codificacion de video.
CN114556926B (zh) 2019-10-10 2024-07-05 北京字节跳动网络技术有限公司 几何分割模式中的运动矢量处理
KR20220113379A (ko) 2019-12-27 2022-08-12 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 픽처 헤더의 슬라이스 유형의 시그널링

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6256423B1 (en) * 1998-09-18 2001-07-03 Sarnoff Corporation Intra-frame quantizer selection for video compression
US7042944B2 (en) * 2000-09-22 2006-05-09 Koninklijke Philips Electronics N.V. Single-loop motion-compensation fine granular scalability
US20020037046A1 (en) * 2000-09-22 2002-03-28 Philips Electronics North America Corporation Totally embedded FGS video coding with motion compensation
WO2003045067A1 (en) * 2001-11-21 2003-05-30 Koninklijke Philips Electronics N.V. Improved bit plane compression method
GB2382940A (en) 2001-11-27 2003-06-11 Nokia Corp Encoding objects and background blocks
KR20040106414A (ko) * 2002-04-29 2004-12-17 소니 일렉트로닉스 인코포레이티드 미디어 파일에서 진보된 코딩 포맷의 지원
US20040006575A1 (en) 2002-04-29 2004-01-08 Visharam Mohammed Zubair Method and apparatus for supporting advanced coding formats in media files
US7062096B2 (en) * 2002-07-29 2006-06-13 Matsushita Electric Industrial Co., Ltd. Apparatus and method for performing bitplane coding with reordering in a fine granularity scalability coding system
US20050131660A1 (en) * 2002-09-06 2005-06-16 Joseph Yadegar Method for content driven image compression
US7738552B2 (en) * 2002-12-06 2010-06-15 Broadcom Company Processing data streams
EP1439712A1 (en) * 2002-12-17 2004-07-21 Visiowave S.A. Method of selecting among "Spatial Video CODEC's" the optimum CODEC for a same input signal
US6973128B2 (en) * 2003-02-21 2005-12-06 Mitsubishi Electric Research Labs, Inc. Multi-path transmission of fine-granular scalability video streams
US20040179606A1 (en) * 2003-02-21 2004-09-16 Jian Zhou Method for transcoding fine-granular-scalability enhancement layer of video to minimized spatial variations
US20050024487A1 (en) * 2003-07-31 2005-02-03 William Chen Video codec system with real-time complexity adaptation and region-of-interest coding
US9560367B2 (en) * 2004-09-03 2017-01-31 Nokia Technologies Oy Parameter set and picture header in video coding
JP4656912B2 (ja) * 2004-10-29 2011-03-23 三洋電機株式会社 画像符号化装置
US8290057B2 (en) * 2005-02-18 2012-10-16 Mediatek Incorporation Method of decoding a digital video sequence and related apparatus
US7796154B2 (en) * 2005-03-07 2010-09-14 International Business Machines Corporation Automatic multiscale image acquisition from a steerable camera
EP1862010A4 (en) * 2005-03-25 2011-08-17 Korea Electronics Telecomm HIERARCHICAL VIDEO ENCODING / DECODING METHOD FOR COMPLETE SCALE VARIABILITY AND APPARATUS THEREOF
WO2006108917A1 (en) 2005-04-13 2006-10-19 Nokia Corporation Coding, storage and signalling of scalability information
KR100878811B1 (ko) * 2005-05-26 2009-01-14 엘지전자 주식회사 비디오 신호의 디코딩 방법 및 이의 장치
US8184153B2 (en) * 2005-09-26 2012-05-22 Electronics And Telecommunications Research Institute Method and apparatus for defining and reconstructing ROIs in scalable video coding
KR101255226B1 (ko) * 2005-09-26 2013-04-16 한국과학기술원 스케일러블 비디오 코딩에서 다중 roi 설정, 복원을위한 장치 및 방법
US7535383B2 (en) * 2006-07-10 2009-05-19 Sharp Laboratories Of America Inc. Methods and systems for signaling multi-layer bitstream data
US8085852B2 (en) * 2007-06-26 2011-12-27 Mitsubishi Electric Research Laboratories, Inc. Inverse tone mapping for bit-depth scalable image coding

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10750199B2 (en) 2012-06-28 2020-08-18 Saturn Licensing Llc Transmitting/receiving device, method, and coding/decoding device
CN104396264B (zh) * 2012-06-28 2019-04-02 索尼公司 发射/接收设备、方法以及编码/解码设备
US10250901B2 (en) 2012-06-28 2019-04-02 Saturn Licensing Llc Transmitting/receiving device, method, and coding/decoding device
CN104396264A (zh) * 2012-06-28 2015-03-04 索尼公司 发射/接收设备、方法以及编码/解码设备
US11979594B2 (en) 2012-06-28 2024-05-07 Saturn Licensing Llc Transmitting/receiving device, method, and coding/decoding device
CN104969555A (zh) * 2012-12-30 2015-10-07 高通股份有限公司 在视频译码中具有时间可扩缩性支持的渐进式改进
CN104969555B (zh) * 2012-12-30 2019-01-15 高通股份有限公司 一种编码或解码视频数据的方法及装置
CN105052167B (zh) * 2013-01-18 2018-10-09 佳能株式会社 用于封装分区定时媒体数据的方法、装置和计算机可读存储介质
US10405063B2 (en) 2013-01-18 2019-09-03 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data
CN105052167A (zh) * 2013-01-18 2015-11-11 佳能株式会社 用于封装分区定时媒体数据的方法、装置和计算机程序
US10129572B2 (en) 2013-07-23 2018-11-13 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
CN105556981A (zh) * 2013-07-23 2016-05-04 佳能株式会社 使用针对编码依赖性的通用信号通知来封装分区定时媒体数据的方法、装置和计算机程序
CN105556981B (zh) * 2013-07-23 2020-03-17 佳能株式会社 使用针对编码依赖性的通用信号通知来封装分区定时媒体数据的方法、装置和计算机程序
CN106105220A (zh) * 2014-01-07 2016-11-09 诺基亚技术有限公司 用于视频编码和解码的方法和装置
CN106105220B (zh) * 2014-01-07 2019-07-05 诺基亚技术有限公司 用于视频编码和解码的方法和装置
US10123027B2 (en) 2014-01-07 2018-11-06 Nokia Technologies Oy Method and apparatus for video coding and decoding
CN103813169B (zh) * 2014-02-19 2017-07-21 北京大学 视频编解码器中可伸缩的对象表示方法和装置
CN110476430A (zh) * 2017-03-27 2019-11-19 夏普株式会社 用于针对虚拟现实应用程序发信号通知与最感兴趣区域相关联的信息的系统和方法

Also Published As

Publication number Publication date
TWI435607B (zh) 2014-04-21
US20080013621A1 (en) 2008-01-17
EP2041976A2 (en) 2009-04-01
EP2041976A4 (en) 2012-06-20
CN101507281B (zh) 2013-06-05
TW200822759A (en) 2008-05-16
US8442109B2 (en) 2013-05-14
WO2008007304A2 (en) 2008-01-17
WO2008007304A3 (en) 2008-04-24

Similar Documents

Publication Publication Date Title
CN101507281B (zh) 媒体文件中的兴趣区域可缩放性信息的信号发送
CN101601305B (zh) 用于可伸缩多媒体的自适应路径的通用指示
KR101125819B1 (ko) 효율적인 규모가변적 스트림 조정을 위한 시스템 및 방법
CN101548548B (zh) 用于在视频编码中提供画面输出指示的系统和方法
CN101536527B (zh) 可缩放视频编码和解码
KR101021831B1 (ko) 미디어 파일에서 트랙 관계를 표시하는 시스템 및 방법
CN101444102B (zh) 在可伸缩视频编码中的图像分隔符
CN101578866B (zh) 利用参考画面标记和参考画面列表对可缩放视频位流进行编解码的方法及装置
TWI482498B (zh) 媒體檔案之多重解碼時間發訊技術
CN105027567A (zh) 用于视频编码和解码的方法和装置
CN107431819A (zh) 用于可伸缩视频编码和解码的层间预测
CN103782601A (zh) 用于视频编码和解码的方法和设备
CN101755458A (zh) 可缩放视频编码
CN101578884A (zh) 提供和使用译码的媒体流的互操作点的预定信令的系统和方法
CN101390399A (zh) 可伸缩视频编码中的图片的后向兼容聚合
De Neve et al. Applying MPEG-21 BSDL to the JVT H. 264/AVC specification in MPEG-21 Session Mobility scenarios

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160113

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj