CN104704830A - 用于视频数据的文件格式 - Google Patents

用于视频数据的文件格式 Download PDF

Info

Publication number
CN104704830A
CN104704830A CN201380051429.7A CN201380051429A CN104704830A CN 104704830 A CN104704830 A CN 104704830A CN 201380051429 A CN201380051429 A CN 201380051429A CN 104704830 A CN104704830 A CN 104704830A
Authority
CN
China
Prior art keywords
sample
box
file
sample group
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380051429.7A
Other languages
English (en)
Other versions
CN104704830B (zh
Inventor
王益魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104704830A publication Critical patent/CN104704830A/zh
Application granted granted Critical
Publication of CN104704830B publication Critical patent/CN104704830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种装置产生包括多个样本的文件,所述多个样本含有经译码图片。此外,所述文件含有逻辑框,所述逻辑框识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是步进式时间子层存取STSA样本。同一或不同装置基于识别所述样本群组的所述逻辑框中的数据而从含有所述逻辑框的所述文件中的所述样本当中识别STSA样本。

Description

用于视频数据的文件格式
本申请案主张2012年10月4日申请的美国临时专利申请案第61/709,748号的权利,所述申请案的整个内容以引用的方式并入本文中。
技术领域
本发明涉及视频编码及解码。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板型计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主机、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式发射装置,及其类似者。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-TH.263、ITU-T H.264/MPEG-4第10部分(进阶视频译码(AVC))定义的标准、目前在开发中的高效率视频译码(HEVC)标准,及这些标准的扩展中描述的那些技术。视频装置可通过实施这些视频压缩技术而效率较高地发射、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测,以减少或移除视频序列中所固有的冗余。对于基于块的视频译码,视频切片(即,视频帧或视频帧的一部分)可经分割成视频块。使用相对于同一图片中的相邻块中的参考样本的空间预测来对图片的帧内译码(I)切片中的视频块进行编码。图片的帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间预测或时间预测导致针对待译码块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成预测性块的参考样本的块的运动向量及残余数据指示经译码块与预测性块之间的差来对帧间译码块进行编码。根据帧内译码模式及残余数据来对帧内译码块进行编码。为进行进一步压缩,可将残余数据从像素域变换到变换域,从而导致残余系数,可接着量化所述残余系数。可扫描最初布置成二维阵列的经量化的系数以便产生系数的一维向量,且可应用熵译码以实现甚至更大压缩。
多视图译码位流可通过对(例如)来自多个视点的视图进行编码来产生。已开发出利用多视图译码方面的一些三维(3D)视频标准。举例来说,不同视图可发射左及右眼视图以支持3D视频。或者,一些3D视频译码过程可应用所谓多视图加深度译码。在多视图加深度译码中,3D视频位流可不仅含有纹理视图分量,而且含有深度视图分量。举例来说,每一视图可包括一个纹理视图分量及一个深度视图分量。
发明内容
一般来说,本发明描述用于存储视频内容的技术。在一些实例中,所述技术提供基于国际标准化组织(ISO)基本媒体文件格式(ISOBMFF)将高效率视频译码(HEVC)内容存储于文件中。举例来说,装置可产生包括多个样本的文件,所述多个样本含有经译码图片。此外,所述文件可含有识别样本群组的逻辑框(box),所述样本群组含有来自多个样本当中的一或多个样本。所述逻辑框可进一步指示,样本群组中的每一样本是步进式时间子层存取(STSA)样本。同一或不同装置可基于识别所述样本群组的所述逻辑框中的数据从含有所述逻辑框的所述文件中的所述样本当中识别STSA样本。
在一个实例中,本发明描述一种处理视频数据的方法,所述方法包括:基于识别样本群组的逻辑框中的数据从含有所述逻辑框的文件中的样本当中识别所述视频数据的STSA样本。
在另一实例中,本发明描述一种存储视频数据的方法,所述方法包括产生包括以下各者的文件:含有所述视频数据的经译码图片的多个样本;及逻辑框,其识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是STSA样本。
在另一实例中,本发明描述一种包括一或多个处理器的装置,所述一或多个处理器经配置以基于识别样本群组的逻辑框中的数据从含有所述逻辑框的文件中的视频数据样本当中识别STSA样本。
在另一实例中,本发明描述一种包括一或多个处理器的装置,所述一或多个处理器经配置以产生包括以下各者的文件:含有视频数据的经译码图片的多个样本;及逻辑框,其识别含有来自所述多个样本的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是STSA样本。
在另一实例中,本发明描述一种装置,其包括:用于接收文件的装置,所述文件含有识别样本群组的逻辑框;及用于基于所述逻辑框中的数据从所述文件中的样本当中识别视频数据的STSA样本的装置。
在另一实例中,本发明描述一种装置,其包括:用于产生文件的装置,所述文件包括:含有视频数据的经译码图片的多个样本,及逻辑框,其识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是STSA样本;及用于输出所述文件的装置。
在另一实例中,本发明描述一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器基于识别样本群组的逻辑框中的数据从含有所述逻辑框的文件中的样本当中识别STSA样本。
在另一实例中,本发明描述一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器产生文件,所述文件包括:含有经译码图片的多个样本;及逻辑框,其识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是STSA样本。
在随附图式及以下描述中阐明了本发明的一或多个实例的细节。其它特征、目标及优点将从所述描述、图式及权利要求书而显而易见。
附图说明
图1是说明可利用本发明中所描述的技术的实例视频译码系统的框图。
图2是说明可实施本发明中所描述的技术的实例视频编码器的框图。
图3是说明可实施本发明中所描述的技术的实例视频解码器的框图。
图4是说明根据本发明的一或多项技术的实例操作的流程图。
图5是说明根据本发明的一或多项额外技术的实例操作的流程图。
图6是说明根据本发明的一或多项技术的文件的实例结构的概念图。
具体实施方式
例如高效率视频译码(HEVC)位流等位流可包括形成经译码图片的表示的位序列,及形成一或多个经译码视频序列(CVS)的相关联数据。经译码图片可包括图片的含有所述图片的所有译码树型单元的经译码表示。译码树型单元(CTU)可包括明度样本的译码树型块(CTB),及用以对样本译码的色度样本及语法结构的两个对应CTB。CVS可包括存取单元序列。存取单元中的每一者可包括与相同时间执行个体相关联的经译码图片集合。
媒体感知型网络元件(MANE)或其它类型的装置可将位流薄化应用到通过多个子层编码的HEVC位流。层内的可在不参考层内的其它图片情况下经解码的图片的子集在本文中可被称作“子层”或“时间子层”。网络抽象层(NAL)单元的时间识别符识别NAL单元与其相关联的子层。因此,位流的每一子层可与不同时间识别符相关联。如果第一NAL单元的时间识别符小于第二NAL单元的时间识别符,则第一NAL单元囊封的数据可在不参考由第二NAL单元囊封的数据的情况下经解码。
在位流中的任一点处,MANE可在较低子层中的图片仍是可解码的基础上开始移除较高子层的网络抽象层(NAL)单元,这是由于较低子层中的图片的解码过程并不取决于较高子层的NAL单元。移除具有高于某值的时间识别符的所有NAL单元的动作可被称作时间向下切换。时间向下切换可始终是可能的。
开始转递直到彼点尚未向上转递的某子层的NAL单元的动作可被称作时间向上切换。在一些实例中,时间向上切换仅在以下情况下是可能的:切换到的层中的图片皆不取决于同一子层中在位流中的执行切换的点之前的任何图片。位流中时间向上切换是可能的点可被称作子层切换点。
在HEVC中,存在与子层切换点相关联的两种图片类型,实时间子层存取(TSA)图片类型及步进式时间子层存取(STSA)图片类型。TSA及STSA图片类型可用以指示时间子层切换点。TSA图片使得能够在TSA图片处从紧邻较低子层向上切换到含有TSA图片的子层或任何较高子层。STSA图片使得能够在STSA图片处从紧邻较低子层向上切换到含有STSA图片的子层。因此,与TSA图片形成对比,STSA不必使得能够向上切换到任何较高子层(仅含有STSA图片的子层)。
根据存储HEVC内容的文件格式(即,HEVC文件格式),文件可包括多个“逻辑框”。因此,遵照HEVC文件格式的文件可包括一系列称作逻辑框的对象。“逻辑框”可为通过唯一类型识别符及长度定义的对象导向式构建块。在一些实例中,遵照HEVC文件格式的文件中的所有数据可含于逻辑帧内,且所述文件中可不存在不处于逻辑框中的数据。
此外,遵照HEVC文件格式的文件可包含多个播放轨(track)。每一播放轨可为相关样本的时控序列。在HEVC文件格式的上下文中,“样本”可包括与单个时戳相关联的数据。样本的实例包含:个别视频帧、按解码次序的一系列视频帧,或按解码次序的经压缩音频区段。
此外,在HEVC文件格式中,样本分组是将播放轨中的样本中的每一者指派为一个样本群组的成员。不要求样本群组中的样本是连续的。样本群组可通过两个数据结构来表示:SampleToGroup逻辑框及SampleGroupDescription逻辑框。SampleToGroup逻辑框表示样本到样本群组的指派。可存在针对每一样本群组项目的SampleGroupDescription逻辑框的一个实例。SampleGroupDescription逻辑框描述对应样本群组的性质。
用于存储HEVC内容的文件格式的现有设计存在若干问题或缺点。举例来说,不存在用于发信含有STSA图片的样本(也称作STSA样本)的紧凑方式。在另一实例中,不存在用于发信在任何样本处是否可执行到任何较高时间层的时间子层向上切换的有效方式。
本发明的技术可解决先前提及的问题或缺点中的一或多者。根据本发明的实例技术,装置(例如,视频编码器或另一装置)可产生包括多个样本的文件,所述多个样本含有经译码图片。所述文件还可包含识别样本群组的逻辑框(例如,SampleToGroupBox),所述样本群组含有来自多个样本当中的一或多个样本。所述逻辑框进一步指示,样本群组中的每一样本是STSA样本。因而,装置(例如,视频解码器或另一装置)可基于识别样本群组的逻辑框中的数据来自含有逻辑框的文件中的样本当中识别STSA样本。
根据本发明的另一实例技术,视频编码器或另一装置可产生存储经译码样本的文件,所述经译码样本含有视频数据的经译码图片。文件还可包含包括记录的逻辑框,所述记录包含一元素,所述元素指示在记录应用到的流经解码时被激活的所有序列参数集(SPS)是否具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。因而,视频解码器或其它装置可基于含有样本(所述样本含有视频数据的经译码图片)的文件的逻辑框中的记录中的元素而确定在记录应用到的流经解码时激活的所有SPS具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。
举例来说,视频编码器可产生HEVC解码器配置记录。HEVC解码器配置记录可包含temporalIdNested元素。temporalIDNested元素可指示到任何较高时间层的时间子层向上切换可于HEVC解码器配置记录应用到的流的任何样本处执行。
图1为说明可利用本发明的技术的实例视频译码系统10的框图。如本文中所使用,术语“视频译码器”一般是指视频编码器及视频解码器两者。在本发明中,术语“视频译码”或“译码”可一般是指视频编码或视频解码。
如图1中所展示,视频译码系统10包含源装置12及目的地装置14。源装置12产生经编码的视频数据。因而,源装置12可被称作视频编码装置或视频编码设备。目的地装置14可对由源装置12产生的经编码视频数据进行解码。因而,目的地装置14可被称作视频解码装置或视频解码设备。源装置12及目的地装置14可为视频译码装置或视频译码设备的实例。
源装置12及目的地装置14可包括广泛范围的装置,包含桌上型计算机、行动计算装置、笔记型(例如,膝上型)计算机、平板型计算机、机顶盒、例如所谓“智能”电话等电话手持机、电视、相机、显示装置、数字媒体播放器、视频游戏主机、车载计算机或其类似者。
目的地装置14可经由信道16从源装置12接收经编码视频数据。信道16可包括能够将经编码视频数据从源装置12移动到目的地装置14的一或多个媒体或装置。在一个实例中,信道16可包括能够使源装置12将经编码视频数据实时地直接发射到目的地装置14的一或多个通信媒体。在此实例中,源装置12可根据例如无线通信协议等通信标准调制经编码视频数据,且可将经调制的视频数据发射到目的地装置14。一或多个通信媒体可包含无线及/或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。一或多个通信媒体可形成例如局域网、广域网或全球网络(例如,因特网)的基于分组的网络的部分。一或多个通信媒体可包含路由器、交换机、基站或促进从源装置12到目的地装置14的通信的其它装备。
在另一实例中,信道16可包含存储由源装置12产生的经编码视频数据的存储媒体。在此实例中,目的地装置14可(例如)经由磁盘存取或卡存取来存取存储媒体。存储媒体可包含多种本地存取的数据存储媒体,例如蓝光光盘、DVD、CD-ROM、快闪存储器或用于存储经编码视频数据的其它合适数字存储媒体。
在另一实例中,信道16可包含文件服务器,或存储由源装置12产生的经编码视频数据的另一中间存储装置。在此实例中,目的地装置14可经由流式发射或下载存取存储于文件服务器或其它中间存储装置处的经编码视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、文件传送协议(FTP)服务器、网络附接存储(NAS)装置及本地磁盘机。
目的地装置14可经由标准数据连接(例如因特网连接)而存取经编码视频数据。实例类型的数据连接可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,数字订户线(DSL)、缆线调制解调器等),或适合于存取存储于文件服务器上的经编码视频数据的两者的组合。经编码视频数据从文件服务器的发射可为流式发射、下载发射,或两者的组合。
本发明的技术不限于无线应用或设定。技术可应用到支持多种多媒体应用的视频译码,例如空中电视广播、有线电视发射、卫星电视发射、流式视频发射(例如,经由因特网)、存储于数据存储媒体上的视频数据的编码、存储于数据存储媒体上的视频数据的解码,或其它应用。在一些实例中,视频译码系统10可经配置以支持单向或双向视频发射以支持例如视频流式发射、视频回放、视频广播及/或视频电话的应用。
图1仅为一实例,且本发明的技术可应用到不必包含编码装置与解码装置之间的任何数据通信的视频译码设定(例如,视频编码或视频解码)。在其它实例中,数据检索自本地存储器,经由网络进行流式发射,或其类似者。视频编码装置可对数据进行编码并将数据存储到存储器,及/或视频解码装置可从存储器检索数据并对所述数据进行解码。在许多实例中,编码及解码由并不彼此通信,而是仅将数据编码到存储器及/或从存储器检索数据并对所述数据进行解码的装置执行。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一些实例中,输出接口22可包含调制器/解调制器(调制解调器)及/或发射器。视频源18可包含例如视频相机的视频捕获装置、含有先前捕获的视频数据的视频存档、从视频内容提供者接收视频数据的视频馈入接口及/或用于产生视频数据的计算机图形系统,或这些视频数据的源的组合。
视频编码器20可对来自视频源18的视频数据进行编码。在一些实例中,源装置12经由输出接口22将经编码视频数据直接发射到目的地装置14。在其它实例中,经编码视频数据还可存储于存储媒体上或文件服务器上以由目的地装置14稍后存取从而用于解码及/或回放。
在图1的实例中,目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些实例中,输入接口28包含接收器及/或调制解调器。输入接口28可经由信道16接收经编码视频数据。视频解码器30可对经编码视频数据进行解码。显示装置32可显示经解码视频数据。显示装置32可与目的地装置14集成,或可在目的地装置14外部。显示装置32可包括多种显示装置,例如,液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20及视频解码器30各自可实施为多种合适电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、硬件或其任何组合。如果所述技术部分地以软件实施,则装置可将用于软件的指令存储于合适的非暂时性计算机可读存储媒体中,且可在硬件中使用一或多个处理器来执行所述指令以执行本发明的技术。前述各项(包含硬件、软件、软件与硬件的组合等)中的任一者可被视为一或多个处理器。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中,其中任一者可集成为相应装置中的组合编码器/解码器(编解码器(CODEC))的部分。
本发明可大体指视频编码器20将某信息“发信”到另一装置(例如视频解码器30)。术语“发信”可大体指用以解码经压缩视频数据的语法元素及/或其它数据的通信。此通信可实时或几乎实时地发生。或者,此通信可在一段时间内发生,例如可能当于编码时在经编码的位流中将语法元素存储到计算机可读存储媒体时发生,所述语法元素在存储到此媒体之后可接着由解码装置在任何时间进行检索。
在一些实例中,视频编码器20及视频解码器30根据例如国际标准化组织(ISO)/IECMPEG-4 Visual及ITU-T H.264(也称作ISO/IEC MPEG-4 AVC)的视频压缩标准操作,前述标准包含其可调式视频译码(SVC)扩展、多视图视频译码(MVC)扩展及基于MVC的三维视频(3DV)扩展。在一些实例中,遵照H.264/AVC的基于MVC的3DV扩展的任何位流始终含有与H.264/AVC的MVC扩展兼容的子位流。此外,视频编码器20及视频解码器30可根据当前在开发中的对H.264/AVC的3DV译码扩展(即,基于AVC的3DV)操作。在其它实例中,视频编码器20及视频解码器30可根据以下各者操作:国际电信联盟电信标准化部门(ITU-T)H.261、国际标准化组织(ISO)/国际电工技术委员会(IEC)动画专家团体(MPEG)-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual及TU-T H.264、ISO/IEC Visual。
在其它实例中,视频编码器20及视频解码器30可根据由ITU-T视频译码专家团体(VCEG)与ISO/IEC动画专家团体(MPEG)的关于视频译码的联合协作团队(JCT-VC)开发的高效率视频译码(HEVC)来操作。称作“HEVC工作草案8”的HEVC标准的草案描述于Bross等人的“高效率视频译码(HEVC)文本规范草案8(High Efficiency Video Coding(HEVC)text specification draft 8)”(ITU-T SG16 WP3与ISO/IEC JTC1/SC29/WG11的关于视频译码的联合合作团队(JCT-VC),2012年7月瑞典斯德哥尔摩第10次会议)中,所述工作草案从2013年9月17起可从http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC-J1003-v8.zip获得。此外,视频编码器20及视频解码器30可根据以下各者操作:可调式视频译码、多视图译码,及当前在开发中的HEVC的3DV扩展。HEVC的可调式视频译码扩展可被称作SHEVC。HEVC的3DV扩展可被称作基于HEVC的3DV或3D-HEVC。
在HEVC及其它视频译码规范中,视频序列通常包含一系列图片。图片还可被称作“帧”。图片可包含表示为SL、SCb及SCr的三个样本阵列。SL是明度样本的二维阵列(即,块)。SCb是Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。色度样本在本文中还可被称作“色度(chroma)”样本。在其它实例中,图片可为单色的,且可仅包含明度样本阵列。
为了产生图片的经编码表示,视频编码器20可产生译码树型单元(CTU)的集合。CTU中的每一者可包括明度样本的译码树型块、色度样本的两个对应译码树型块及用以对译码树型块的样本进行译码的语法结构。在单色图片或具有三个单独彩色平面的图片中,CTU可包括单个译码树型块及用以对译码树型块的样本进行译码的语法结构。译码树型块可为样本的N×N块。CTU还可称作“树型块”或“最大译码单元”(LCU)。HEVC的CTU可广泛地类似于例如H.264/AVC的其它标准的巨型块。然而,CTU不必限于特定大小,且可包含一或多个译码单元(CU)。切片可包含在光栅扫描次序上连续地排序的整数数目个CTU。
为了产生经译码CTU,视频编码器20可对CTU的译码树型块递回地执行四分树分割以将译码树型块划分成译码块(因此得名“译码树型单元”)。译码块是样本的N×N块。CU可包括明度样本的译码块,及具有明度样本阵列、Cb样本阵列及Cr样本阵列的图片的色度样本的两个对应译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独彩色平面的图片中,CU可包括单个译码块及用以对译码块的样本进行译码的语法结构。
视频编码器20可将CU的译码块分割成一或多个预测块。预测块是相同预测应用到的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可包括明度样本的预测块、色度样本的两个对应预测块,及用以预测所述预测块的语法结构。在单色图片或具有三个单独彩色平面的图片中,PU可包括单向预测块及用以对预测块的样本进行预测的语法结构。视频编码器20可产生用于CU的每一PU的明度、Cb及Cr预测块的预测性明度、Cb及Cr块。
视频编码器20可使用帧内预测或帧间预测以产生PU的预测性块。如果视频编码器20使用帧内预测来产生PU的预测性块,则视频编码器20可基于与PU相关联的图片的经解码样本产生PU的预测性块。在本发明中,片语“基于”可指示“至少部分基于”。如果视频编码器20使用帧间预测来产生PU的预测性块,则视频编码器20可基于不同于与PU相关联的图片的一或多个图片的经解码样本产生PU的预测性块。
为了支持帧间预测,视频编码器20可产生一或多个参考图片列表。这些参考图片列表可被称作RefPicList0及RefPicList1。在一些实例中,视频编码器20可针对不同图片或图片的不同切片产生不同参考图片列表。因此,不同图片及/或切片的不同PU可能与RefPicList0及RefPicList1的不同版本相关联。
此外,当视频编码器20使用帧间预测来产生PU的预测性块时,视频编码器20可发信PU的运动信息。运动信息可包含PU的参考索引及PU的运动向量。PU的参考索引可指示参考图片在参考图片列表的与PU相关联的一者内的位置。PU的运动向量可指示PU的预测块与参考图片中参考位置之间的空间移位。视频编码器20可使用与参考位置相关联的参考图片的样本以产生PU的预测性块。因为PU可与两个参考图片相关联,所以PU可具有两个参考索引及两个运动向量。因此,PU可具有RefPicList0参考索引及RefPicList1参考索引。PU的RefPicList0参考索引指示在PU的RefPicList0版本中的参考图片。PU的RefPicList1参考索引指示在PU的RefPicList1版本中的参考图片。类似地,PU可具有RefPicList0运动向量及RefPicList1运动向量。PU的RefPicList0运动向量可指示在PU的RefPicList0版本中的参考图片中的参考位置。PU的RefPicList1运动向量可指示在PU的RefPicList1版本中的参考图片中的参考位置。
视频编码器20可在位流中发信PU的参考索引及运动向量。换句话说,视频编码器20可在位流中包含指示PU的参考索引及运动向量的数据。视频解码器30可重建构PU的RefPicList0及/或RefPicList1版本,且可使用PU的参考索引及运动向量来确定PU的一或多个预测性块。视频解码器30可使用PU的预测性块连同残余数据一起来对样本进行解码。
在视频编码器20产生CU的一或多个PU的预测性明度块之后,视频编码器20可产生CU的明度残余块。CU的明度残余块的每一样本指示CU的预测性明度块中的一者中的明度样本与CU的原始明度译码块中的对应样本之间的差。此外,视频编码器20可产生CU的Cb残余块。CU的Cb残余块的每一样本可指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中的对应样本之间的差。视频编码器20还可产生CU的Cr残余块。CU的Cr残余块的每一样本可指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差。
此外,视频编码器20可使用四分树分割以将CU的明度、Cb及Cr残余块分解成一或多个明度、Cb及Cr变换块。变换块可为相同变换应用到的样本的矩形(例如,正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块,及用以对变换块样本进行变换的语法结构。因此,CU的每一TU可为与明度变换块、Cb变换块及Cr变换块相关联。与TU相关联的明度变换块可为CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或具有三个单独彩色平面的图片中,TU可包括单个变换块及用以对变换块的样本进行变换的语法结构。
视频编码器20可将一或多个变换应用到TU的明度变换块以产生TU的明度系数块。系数块可为变换系数的二维阵列。变换系数可为纯量。视频编码器20可将一或多个变换应用到TU的Cb变换块以产生TU的Cb系数块。视频编码器20可将一或多个变换应用到TU的Cr变换块以产生TU的Cr系数块。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器20可量化所述系数块。量化一般是指如下过程:将变换系数量化以可能地减少用以表示所述变换系数的数据的量,从而提供进一步压缩。在视频编码器20量化系数块之后,视频编码器20可对语法元素进行熵编码,从而指示经量化的变换系数。举例来说,视频编码器20可对语法元素执行上下文自适应性二进制算术译码(CABAC),从而指示经量化的变换系数。
视频编码器20可输出包含位序列的位流,所述位序列形成经译码图片及相关联数据的表示。术语“位流”可为用以指网络抽象层(NAL)单元流(例如,NAL单元的序列)或字节流(例如,如通过HEVC标准的附录B所指定的含有起始码首码及NAL单元的NAL单元流的囊封)的集体术语。NAL单元是含有NAL单元中数据类型的指示及含有呈原始字节序列有效负载(RBSP)(在必要时分散在仿真防止位中)的形式的所述数据的字节的语法结构。NAL单元中的每一者可包含NAL单元标头,且可囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头指定的NAL单元类型码指示NAL单元的类型。RBSP可为含有囊封于NAL单元内的整数数目个字节的语法结构。在一些实例中,RBSP包含零位。
不同类型的NAL单元可囊封不同类型的RBSP。举例来说,第一类型的NAL单元可囊封图片参数集(PPS)的RBSP,第二类型的NAL单元可囊封经译码切片的RBSP,第三类型的NAL单元可囊封SEI的RBSP,等等。囊封视频译码数据的RBSP(与参数集及SEI消息的RBSP相对)的NAL单元可被称作视频译码层(VCL)NAL单元。含有参数集(例如,视频参数集(VPS)、序列参数集(SPS)、PPS等)的NAL单元可被称作参数集NAL单元。
视频解码器30可接收由视频编码器20产生的位流。此外,视频解码器30可剖析位流以获得来自位流的语法元素。视频解码器30可至少部分基于从位流获得的语法元素来重建构视频数据的图片。重建构视频数据的过程可与由视频编码器20执行的过程大体互反。举例来说,视频解码器30可使用PU的运动向量来确定当前CU的PU的预测性块。此外,视频解码器30可反量化与当前CU的TU相关联的系数块。视频解码器30可对系数块执行反变换以重建构与当前CU的TU相关联的变换块。视频解码器30可通过将当前CU的PU的预测性块的样本添加到当前CU的TU的变换块的对应样本来重建构当前CU的译码块。通过重建构图片的每一CU的译码块,视频解码器30可重建构所述图片。
在多视图译码中,可存在同一场景的来自不同视点的多个视图。在多视图译码的上下文中,术语“存取单元”可用以指对应于相同时间执行个体的图片的集合。因此,视频数据可概念化为随时间发生的一系列存取单元。“视图分量”可为单个存取单元中视图的经译码表示。在本发明中,“视图”可是指与同一视图识别符相关联的视图分量的序列。在一些实例中,视图分量可为纹理视图分量(即,纹理图片)或深度视图分量(即,深度图片)。
多视图译码支持视图间预测。视图间预测类似于用于HEVC中的帧间预测,且可使用相同语法元素。然而,当视频译码器对当前视频单元(例如,PU)执行视图间预测时,视频译码器可使用在与当前视频单元相同的存取单元中但在不同视图中的图片作为参考图片。相比之下,常规帧间预测仅使用不同存取单元中的图片作为参考图片。
在多视图译码中,如果视频解码器(例如,视频解码器30)可解码视图中的图片而不参考任何其它视图中的图片,则视图可被称作“基本视图”。当对非基本视图中的图片进行译码时,如果图片在不同视图中但在与视频译码器当前正译码的图片相同的时间执行个体(即,存取单元)内,则视频译码器(例如,视频编码器20或视频解码器30)可将图片添加到参考图片列表中。类似于其它帧间预测参考图片,视频译码器可在参考图片列表的任何位置处插入视图间预测参考图片。
举例来说,NAL单元可包含标头(即,NAL单元标头)及有效负载(例如,RBSP)。NAL单元标头可包含nuh_reserved_zero_6bits语法元素。具有指定不同值的nuh_reserved_zero_6bit语法元素的NAL单元属于位流的不同“层”。因此,在多视图译码、3DV或SVC中,NAL单元的nuh_reserved_zero_6bits语法元素指定NAL单元的层识别符(即,层ID)。在一些实例中,如果NAL单元是关于多视图译码、3DV译码或SVC中的基础层,则NAL单元的nuh_reserved_zero_6bits语法元素等于0。位流的基础层中的数据可在不参考位流的任何其它层中的数据的情况下经解码。如果NAL单元并非是关于多视图译码、3DV或SVC中的基础层,则nuh_reserved_zero_6bits语法元素可具有非零值。在多视图译码及3DV译码中,位流的不同层可对应于不同视图。在SVC中,除基础层外的层可被称作“增强层”,且可提供增强经解码从位流的视频数据的视觉质量的信息。
此外,层内的一些图片可在不参考同一层内的其它图片情况下经解码。因此,囊封层的某些图片的数据的NAL单元可从位流移除而不影响层中其它图片的可解码性。移除囊封这些图片的数据的NAL单元可减少位流的帧速率。层内的图片的可在不参考层内的其它图片情况下经解码的子集在本文中可被称作“子层”或“时间子层”。
NAL单元可包含temporal_id语法元素。NAL单元的temporal_id语法元素指定NAL单元的时间识别符。NAL单元的时间识别符识别NAL单元与其相关联的子层。因此,位流的每一子层可为与不同时间识别符相关联。如果第一NAL单元的时间识别符小于第二NAL单元的时间识别符,则第一NAL单元所囊封的数据可在不参考由第二NAL单元所囊封的数据的情况下经解码。
在H.264/AVC及HEVC中,SPS可含有应用到CVS的所有切片的信息。在HEVC中,CVS可从为位流中的第一图片的瞬时解码刷新(IDR)图片或断链存取(BLA)图片或清洁随机存取(CRA)图片开始,包含并非IDR或BLA图片的所有后续图片。即,在HEVC中,CVS可包括存取单元的序列,所述存取单元的序列在解码次序上可由以下各者组成:为位流中的第一存取单元的CRA存取单元、IDR存取单元或BLA存取单元,继之以零或零个以上非IDR及非BLA存取单元(包含所有后续存取单元,直到但不包含任何后续IDR或BLA存取单元)。
HEVC及其它视频译码标准提供用于使得能够进行到位流的随机存取的机制。随机存取是指位流的从并非位流中的第一经译码图片的经译码图片开始的解码。在例如广播及流式发射等各种视频应用中可能需要对位流的随机存取。对位流的随机存取可使得用户能够在任何时间调谐到节目中,在不同信道之间切换,跳跃到视频的特定部分,或切换到不同位流以用于流调适(例如,位速率的调适、帧速率的调适、空间分辨率的调适等)。随机存取点(RAP)图片以规则间隔到位流中的插入可使得能够进行随机存取。实例类型的RAP图片包含IDR图片、CRA图片及BLA图片。因此,IDR图片、CRA图片及BLA图片被统称为随机存取点(RAP)图片。
IDR图片含有仅I切片(即,使用仅帧内预测的切片)。IDR图片可为位流中解码次序上的第一图片,或可稍后显现于位流中。每一IDR图片是CVS的解码次序上的第一图片。如HEVC及H.264/AVC中指定的IDR图片可用于随机存取。然而,解码次序上在IDR图片之后的图片不可将在IDR图片之前解码的图片用作参考。因而,依赖于IDR图片用于随机存取的位流相较于使用额外类型的随机存取图片的位流可具有显著较低的译码效率。IDR存取单元是含有IDR图片的存取单元。
CRA图片的概念引入于HEVC中以允许在解码次序上在CRA图片之后且在输出次序上先于CRA图片的图片将在CRA图片之前解码的图片用于参考。在解码次序上在CRA图片之后但在输出次序上先于CRA图片的图片被称作与CRA图片相关联之前置图片(或CRA图片的前置图片)。即,为了改进译码效率,CRA图片的概念引入于HEVC中以允许在解码次序上在CRA图片之后但在输出次序上先于CRA图片的图片将在CRA图片之前解码的图片用作参考。CRA存取单元为经译码图片是CRA图片的存取单元。
如果解码从在解码次序上在CRA图片之前出现的IDR或CRA图片开始,则CRA图片之前置图片是可正确解码的。然而,当发生从CRA图片的随机存取时,CRA图片之前置图片可为非可解码的。因此,视频解码器在随机存取解码期间通常对CRA图片的前置图片进行解码。为了防止从取决于解码开始处而可能不可用的参考图片的错误传播,在解码次序及输出次序上皆在CRA图片之后的所有图片皆不可使用在解码次序或输出次序上先于CRA图片的任何图片(包含前置图片)作为参考。
断链存取(BLA)图片的概念在引入CRA图片之后被引入HEVC中,且是基于CRA图片的概念。BLA图片通常发源于在CRA图片的位置处剪接的位流,且在经剪接的位流中,剪接点CRA图片改变为BLA图片。含有RAP图片的存取单元在本文中可被称作RAP存取点。BLA存取单元是含有BLA图片的存取单元。
BLA图片与CRA图片之间的一个差异如下。对于CRA图片,如果解码从在解码次序上在CRA图片之前的RAP图片开始,则相关联前置图片是可正确解码的。然而,当发生从CRA图片的随机存取时(即,当解码从CRA图片开始时,或换句话说,当CRA图片是位流中的第一图片时),与CRA图片相关联的图片可为不可正确解码的。相反,可不存在与BLA图片相关联之前置图片是可解码的情境,即使当解码从在解码次序上在BLA图片之前的RAP图片开始时也如此。
与特定CRA图片或特定BLA图片相关联之前置图片中的一些可为可正确解码的,即使在特定CRA图片或特定BLA图片是位流中的第一图片中时也如此。这些前置图片可被称作可解码前置图片(DLP)。其它前置图片可被称作非可解码前置图片(NLP)。HEVC工作草案8还可指如标记为舍弃(TFD)图片的NLP。
VPS是包括应用到零或零个以上整个CVS的语法元素的语法结构。SPS是含有应用到零或零个以上整个CVS的语法元素的语法结构。SPS可包含在SPS是在作用中时识别是在作用中的VPS的语法元素。因此,VPS的语法元素相较于SPS的语法元素可为大体更适用的。
参数集(例如,VPS、SPS、PPS等)可含有来自切片的切片标头的经直接或间接参考的识别。参考过程被称作“激活”。因此,当视频解码器30正解码特定切片时,由特定切片的切片标头中的语法元素直接或间接参考的参数集被称作“经激活”。视参数集的类型而定,激活可在按图片基础上或按序列基础上发生。举例来说,切片的切片标头可包含识别PPS的语法元素。因此,当视频译码器对切片译码时,PPS可经激活。此外,PPS可包含识别SPS的语法元素。因此,当识别SPS的PPS经激活时,可激活SPS。SPS可包含识别VPS的语法元素。因此,当识别VPS的SPS经激活时,激活VPS。
HEVC及其它视频译码标准指定配置文件、阶层及级别。配置文件、阶层及级别指定对位流的约束,且因此指定对解码位流需要的能力的限制。配置文件、阶层及级别还可用以指示个别解码器实施方案之间的互通性点。每一配置文件可指定演算特征及限制的子集,所述子集通过遵照所述配置文件的所有视频解码器来支持。不要求视频编码器利用在配置文件中支持的所有特征。阶层的每一级别可指定对语法元素可具有的值的限制的集合。阶层及级别定义的同一集合可与所有配置文件一起使用,但个别实施方案可支持不同阶层及阶层内每一所支持配置文件的不同级别。对于任何给定配置文件,阶层的级别可大体对应于特定解码器处理负载及存储器能力。视频解码器的能力可依据对遵照特定配置文件、阶层及级别的约束的视频流进行解码的能力来指定。对于每一此配置文件,还可表达针对所述配置文件所支持的阶层及级别。一些视频解码器可能不能对特定配置文件、阶层或级别进行解码。
在HEVC中,配置文件、阶层及级别可由语法结构profile_tier_level()语法结构来发信。profile_tier_level()语法结构可包含于VPS及/或SPS中。profile_tier_level()语法结构可包含general_profile_idc语法元素、general_tier_flag语法元素及general_level_idc语法元素。general_profile_idc语法元素可指示CVS遵照的配置文件。general_tier_flag语法元素可指示用于解译general_level_idc语法元素的阶层上下文。general_level_idc语法元素可指示CVS遵照的级别。可预留这些语法元素的其它值。
视频解码器的能力可依据对遵照配置文件、阶层及级别的约束的视频流进行解码的能力来指定。对于每一此配置文件,还可表达针对所述配置文件所支持的阶层及级别。在一些实例中,视频解码器并不推断指定于HEVC中的值之间的general_profile_idc语法元素的预留值指示所指定配置文件之间的中间能力。然而,视频解码器可推断,与HEVC中指定的值之间的general_tier_flag语法元素的特定值相关联的general_level_idc语法元素的预留值指示阶层的所指定级别之间的中间能力。
一或多个HEVC位流可存储于遵照特定文件格式的文件中。在一些实例中,一或多个视频数据位流(例如,HEVC位流)可存储于遵照ISO基本媒体文件格式(ISOBMFF)的文件中。ISOBMFF还可被称作ISO/IEC 14496-12。用于视频数据位流的存储的其它实例文件格式包含得自ISOBMFF的文件格式,包含MPEG-4文件格式(ISO/IEC 14496-14)、第三代合作伙伴计划(3GPP)文件格式(3GPP TS 26.244)及AVC文件格式(ISO/IEC14496-15)。对用于存储HEVC视频内容的AVC文件格式的修正正由MPEG开发。此AVC文件格式修正可被称作HEVC文件格式。即,HEVC文件格式正由MPEG开发,MPEG正变为ISO/IEC 14496-15的部分。
遵照HEVC文件格式的文件可具有逻辑结构、时间结构及物理结构。文件的逻辑结构可为含有时间并行播放轨的集合的电影的逻辑结构。文件的时间结构在于播放轨含有样本的时间序列。样本的序列可由编辑列表映射到电影的时刻表中。在HEVC文件格式的上下文中,“样本”可包括与单个时戳相关联的数据。样本的实例包含:个别视频帧、解码次序上的一系列视频帧,或解码次序上经压缩的音频区段。
物理上,遵照HEVC文件格式的文件可包括一系列称作逻辑框的对象。逻辑框可为通过唯一类型识别符及长度定义的对象导向式构建块。在一些实例中,遵照HEVC文件格式的文件中的所有数据可含有于逻辑帧内,且所述文件中可不存在并不在逻辑框中的数据。遵照HEVC文件格式的文件可包含各种类型的逻辑框。
举例来说,遵照HEVC文件格式的文件可包含文件类型逻辑框、媒体数据逻辑框、电影逻辑框、电影片段逻辑框等等。在此实例中,文件类型逻辑框包含文件类型及兼容性信息。媒体数据逻辑框可含有样本(例如,经译码图片)。电影逻辑框可含有关于电影之后设数据(例如,样本之间的逻辑及时序关系,以及到样本的位置的指标)。电影逻辑框可包含若干类型的子逻辑框。电影逻辑框中的子逻辑框可包含一或多个播放轨逻辑框。播放轨逻辑框可包含关于电影的个别播放轨的信息。播放轨逻辑框可包含指定单个播放轨的总体信息的播放轨标头逻辑框。此外,播放轨逻辑框可包含含有媒体信息逻辑框的媒体逻辑框。媒体信息逻辑框可包含样本表逻辑框,所述样本表逻辑框含有对播放轨中的媒体样本编索引的数据。样本表逻辑框中的信息可用以在时间上定位样本,且对于播放轨的样本中的每一者来说定位类型、大小、容器及到样本的所述容器中的偏移。
此外,样本表逻辑框可包含一或多个SampleToGroup逻辑框及一或多个样本群组描述逻辑框(即,SampleGroupDescription逻辑框)。SampleToGroup逻辑框可用以与样本群组的相关联描述一起确定样本属于的样本群组。换句话说,SampleToGroup逻辑框可指示样本属于的群组。SampleToGroup逻辑框可具有为“sbgp”的逻辑框类型。SampleToGroup逻辑框可包含分组类型元素(例如,grouping_type)。分组类型元素可为识别样本分组的类型(即,用以形成样本群组的准则)的整数。此外,SampleToGroup逻辑框可包含一或多个项目。SampleToGroup逻辑框中的每一项目可为与播放轨中不同的非重叠系列连续样本相关联。每一项目可指示样本记数元素(例如,sample_count)及群组描述索引元素(例如,group_description_index)。项目的样本记数元素可指示与项目相关联的样本的数目。换句话说,项目的样本记数元素可为给出具有同一样本群组描述符的连续样本的数目的整数。群组描述索引元素可识别含有与项目相关联的样本的描述的SampleGroupDescription逻辑框。多个项目的群组描述索引元素可识别相同SampleGroupDescription逻辑框。
在一些实例中,以下伪码描述SampleToGroup逻辑框。
如上文所指示,样本表逻辑框可包含零或零个以上SampleGroupDescription逻辑框。SampleGroupDescription逻辑框可包含样本群组的描述。如果对于播放轨中的样本存在一个以上样本分组,则可存在SampleGroupDescription逻辑框的多个实例。SampleGroupDescription逻辑框可具有为“sgpd”的逻辑框类型。
在一些实例中,以下伪码描述SampleGroupDescription逻辑框。
如以上伪码中所展示,SampleGroupDescription逻辑框可包含grouping_type元素、entry_count元素及一或多个项目。SampleGroupDescriptionBox的grouping_type元素可为识别与SampleGroupDescription逻辑框相关联的SampleToGroup逻辑框的整数。entry_count元素可指示SampleGroupDescription逻辑框中项目的数目。SampleGroupDescription逻辑框中的每一项目可包含VisualSampleGroupEntry对象、AudioSampleGroupEntry对象或HintSampleGroupEntry对象。VisualSampleGroupEntry对象可提供关于视觉(例如,视频)样本的群组的描述。AudioSampleGroupEntry对象可提供关于音频样本的群组的描述。HintSampleGroupEntry对象可提供关于提示样本的群组的描述。VisualSampleGroupEntry对象及AudioSampleGroupEntry对象可属于扩展抽象SampleGroupDescriptionEntry类别的抽象类别。
此外,样本表逻辑框可包含包括流的格式描述的样本描述逻辑框。明确地说,样本描述逻辑框可包含一或多个样本项目的列表。样本项目中的每一者可含有媒体类型(例如,解码流需要的解码器的类型)的名称及所需要的所述解码器的任何参数化。举例来说,在HEVC的上下文中,样本项目可包含HEVC解码器配置记录。因此,HEVC解码器配置记录可网样本表逻辑框的子逻辑框。HEVC解码器配置记录可包含ISO/IEC23008-2(即,HEVC)视频内容的解码器配置信息。举例来说,HEVC解码器配置记录可包含含有参数集(例如,VPS、SPS、PPS等)的一或多个NAL单元。
如上文所指示,遵照HEVC文件格式的文件可包含电影片段逻辑框。电影片段逻辑框可含有关于电影片段(即,电影的片段)之后设数据。电影片段逻辑框可包含播放轨片段逻辑框,所述播放轨片段逻辑框包含关于电影片段的播放轨的片段的信息。此外,播放轨片段逻辑框可包含一或多个SampleToGroup逻辑框,SampleToGroup逻辑框可指示电影片段的样本属于的样本群组。
在图1的实例中,视频译码系统10包含媒体感知型网络元件(MANE)27。MANE 27可接收由源装置12产生的视频数据,且可将视频数据转递到目的地装置14。MANE 27(或其它类型的装置)可将位流薄化应用到通过多个子层编码的HEVC位流。在位流中的任何点处,MANE 27可基于较低子层(即,与较低时间识别符相关联的子层)中的图片仍是可解码的事实而开始移除较高子层(即,与较高时间识别符相关联的子层)的NAL单元,这是因为较低子层中的图片的解码过程并不取决于较高子层的NAL单元。移除具有高于某值的时间识别符的所有NAL单元的动作可被称作时间向下切换。时间向下切换可始终是可能的。因此,术语时间子层切换点可是指不具有对任何其它图片的相依性的图片,所述任何其它图片是在与所述图片相同的子层中,且在解码次序上先于所述图片。
术语“时间向上切换”可是指开始转递尚未向上转递直到所述点的某子层的NAL单元的动作。时间向上切换仅在以下情况下可为可能的:切换到的层中的图片皆不取决于同一子层中在位流中的执行切换所在的点之前的任何图片。
在H.264/AVC视频译码标准的可调式视频译码扩展(即,H.264/SVC)中,时间子层切换点可经由SPS中的temporal_id_nesting_flag语法元素来指示。举例来说,如果适用于特定CVS的SPS中的temporal_id_nesting_flag语法元素等于1,则CVS中具有大于0的时间识别符的所有图片可为时间层切换点。此外,在H.264/SVC中,时间层切换点SEI消息可指示时间子层切换点。在时间级别切换点SEI消息指示时间子层切换点的一些实例中,时间级别切换点SEI消息可含有关于周期时间层M在切换点之前多长时间应解码以便在切换点处向上切换到时间层M+1的信息。
在HEVC中,如在H.264/SVC中,SPS可包含sps_temporal_id_nesting_flag语法元素。当sps_temporal_id_nesting_flag语法元素具有等于1的值时,具有大于零的时间识别符的所有图片是子层切换点。在HEVC中,可存在与子层切换点相关联的两种图片类型,实时间子层存取(TSA)图片类型及步进式时间子层存取(STSA)图片类型。TSA及STSA图片类型可用以指示时间子层切换点。
TSA图片及在解码次序上在TSA图片之后的图片并不将具有等于或大于TSA图片的时间识别符的时间识别符的图片用于帧间预测参考。TSA图片使得能够在TSA图片处从紧邻较低子层向上切换到含有TSA图片的子层或任何较高子层。在一些实例中,所有TSA图片具有大于0的时间识别符。
STSA图片并不将具有与STSA图片相同的TemporalId的图片用于帧间预测参考。具有与STSA图片相同的时间识别符的在解码次序上在STSA图片之后的图片并不将具有与STSA图片相同的时间识别符的在解码次序上在STSA图片之前的图片用于帧间预测参考。STSA图片使得能够在STSA图片处从紧邻较低子层向上切换到含有STSA图片的子层。在一些实例中,所有STSA图片具有大于0的时间识别符。因此,与TSA图片形成对比,STSA图片不必使得能够向上切换到任何较高子层。确切来说,STSA图片可仅使得能够向上切换到含有STSA图片的子层。
用于存储HEVC内容的文件格式的现有设计存在若干问题或缺点。举例来说,不存在用于发信含有STSA图片的样本(也称作STSA样本)的紧凑方式。在另一实例中,可不存在用于发信含有帧内图片的样本的有效方式。含有帧内图片的样本的发信可使得能够仅使用帧内图片的某些类型的特技模式播放。在另一实例中,可不存在发信在任何样本处是否可执行到任何较高时间层的时间子层向上切换的有效方式。
根据本发明的一个实例技术,样本分组类型可为‘stsa’的名为步进式时间子层存取样本群组的样本群组标注STSA样本。通过此机制,视频译码器或其它装置可易于识别STSA样本。
根据此实例技术,装置(例如,视频编码器20或另一装置)可产生包括多个样本的文件,所述多个样本含有经译码图片。文件还可包含识别样本群组的逻辑框(例如,SampleToGroupBox),所述样本群组含有来自多个样本当中的一或多个样本。逻辑框进一步指示,样本群组中的每一样本是STSA样本。在一些实例中,装置可输出文件。在这些实例中,装置的输出接口(例如,网络接口、磁盘或磁盘机接口、存储器存取系统等)可输出文件。
类似地,装置(例如,视频解码器30或另一装置)可基于识别样本群组的逻辑框中的数据来自含有逻辑框的文件中的样本当中识别STSA样本。在一些实例中,装置的输入接口(例如,网络接口、磁盘或磁盘机接口、存储器存取系统等)可接收文件,所述文件含有识别样本群组的逻辑框。此外,在一些实例中,装置可在样本群组中的STSA样本中的一者处执行时间向上切换。此外,在一些实例中,视频解码器30可解码STSA样本中的一或多者。
此外,根据本发明的一些实例技术,样本分组类型可为‘ipsg’的名为帧内图片样本群组(即,帧内图片样本分组项目)的样本群组经设计以标注含有经帧内译码图片(也称作帧内样本)的样本。因此,HEVC视频播放轨可含有具有“ipsg”的grouping_type元素的SampleToGroupBox的零个实例或一个实例。通过此机制,含有经帧内译码的图片的样本可易于经由仅帧内图片样本群组而识别。视频解码器30可对经帧内译码图片中的一或多者进行解码。
或者,帧内图片样本群组仅标注含有非RAP经帧内译码图片的样本,即,并非如HEVC工作草案8中所定义的RAP图片的帧内图片。通过此机制,含有经帧内译码图片的样本可易于经由同步样本表及帧内图片样本群组两者来识别,同步样本表标注含有RAP图片的所有样本。以此方式,装置(例如,视频编码器20或另一装置)可产生包括非随机存取点(非RAP)帧内译码图片的文件,其中样本群组标注文件中的非RAP经帧内译码图片。
此外,根据本发明的一些实例技术,(例如)使用旗标在样本项目中发信到任何较高时间层的时间子层向上切换是否可在任何样本处经执行。在一些实例中,视频编码器20或另一装置可产生包含元素的记录(例如,HEVC解码器配置记录)。具有第一值的元素指示,到任何较高时间层的时间子层向上切换可在任何样本处予以执行。具有第二值的元素指示,并不保证到任何较高时间层的时间子层向上切换可在任何样本处予以执行。此外,在一些实例中,当元素具有第一值时,在记录应用到的流经解码时激活的所有SPS具有语法元素,所述语法元素指示到任何较高时间层的时间子层向上切换是否可在任何样本处执行。
以此方式,装置(例如,视频编码器20或其它装置)可产生存储经译码的样本的文件,所述样本含有视频数据的经译码图片。文件还可包含包括记录(例如,例如HEVC解码器配置记录等解码器配置记录)的逻辑框,所述记录包含一元素,所述元素指示在记录应用到的流经解码时被激活的所有SPS是否具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。在一些实例中,装置的输出接口(例如,网络接口、磁盘或磁盘机接口、存储器存取系统等)可输出文件。因而,装置(例如,视频解码器30或另一装置)可基于含有样本的文件的逻辑框中记录(例如,例如HEVC解码器配置记录等解码器配置)中的元素(所述样本含有视频数据的经译码图片)而确定,在记录应用到的流经解码时激活的所有SPS具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。在一些实例中,装置的输入接口(例如,网络接口、磁盘或磁盘机接口、存储器存取系统等)可接收文件,所述文件含有样本,所述样本含有视频数据的经译码图片。此外,在一些实例中,装置可在与SPS中的一者相关联的样本处执行时间向上切换。
本发明的技术还可应用到使用不同于HEVC的视频编解码器而编码的其它视频内容。
图2为说明可实施本发明的技术的实例视频编码器20的框图。图2为了解释的目的而提供,且不应视为限制如在本发明中广泛例示且描述的技术。为了解释,本发明在HEVC译码的上下文中描述视频编码器20。然而,本发明的技术可适用于其它译码标准或方法。
在图2的实例中,视频编码器20包含预测处理单元100、残余产生单元102、变换处理单元104、量化单元106、反量化单元108、反变换处理单元110、重建构单元112、滤波单元114、经解码图片缓冲器116及熵编码单元118。预测处理单元100包含帧间预测处理单元120及帧内预测处理单元126。帧间预测处理单元120包含运动估计单元122及运动补偿单元124。在其它实例中,视频编码器20可包含较多、较少或不同功能组件。
视频编码器20可接收视频数据。视频编码器20可编码视频数据的图片的切片中的每一CTU。视频编码器20可编码CTU的CU以产生CU的经编码表示(即,经译码CU)。作为编码CU的部分,预测处理单元100可在CU的一或多个PU之间分割与CU相关联的译码块。因此,每一PU可为与明度预测块及对应色度预测块相关联。视频编码器20及视频解码器30可支持具有各种大小的PU。CU的大小可是指CU的明度译码块的大小,且PU的大小可是指PU的明度预测块的大小。假定特定CU的大小是2N×2N,则视频编码器20及视频解码器30可支持用于帧内预测的2N×2N或N×N的PU大小,及用于帧间预测的2N×2N、2N×N、N×2N、N×N或类似大小的对称PU大小。视频编码器20及视频解码器30还可支持用于帧间预测的2N×nU、2N×nD、nL×2N及nR×2N的PU大小的不对称分割。
帧间预测处理单元120可通过对CU的每一PU执行帧间预测而产生PU的预测性数据。PU的预测性数据可包含PU的预测性块及PU的运动信息。帧间预测处理单元120可视PU是在I切片、P切片抑或B切片中而对CU的PU执行不同操作。在I切片中,所有PU经帧内预测。因此,如果PU是在I切片中,则帧间预测处理单元120并不对PU执行帧间预测。
如果PU是在P切片中,则运动估计单元122可为了PU的参考区而搜索参考图片的列表(例如,“RefPicList0”)中的参考图片。PU的参考区可为参考图片内的一区,所述区含有最紧密地对应于PU的预测块的样本。运动估计单元122可产生参考索引,所述参考索引指示含有用于PU的参考区的参考图片在RefPicList0中的位置。此外,运动估计单元122可产生运动向量,所述运动向量指示PU的译码块与是与参考区相关联的参考位置之间的空间移位。举例来说,运动向量可为二维向量,其提供从当前图片中的座标到参考图片中的座标的偏移。运动估计单元122可输出参考索引及运动向量作为PU的运动信息。运动补偿单元124可基于由PU的运动向量指示的参考位置处的实际或内插样本来产生PU的预测性块。
如果PU是在B切片中,则运动估计单元122可执行PU的单向预测(uni-prediction)或双向预测(bi-prediction)。为了执行PU的单向预测,运动估计单元122可为了PU的参考区而搜索RefPicList0或第二参考图片列表(“RefPicList1”)的参考图片。运动估计单元122可输出以下各者作为PU的运动信息:参考索引,其指示含有参考区的参考图片在RefPicList0或RefPicList1中的位置;运动向量,其指示PU的预测块与是与参考区相关联的参考位置之间的空间移位;及一或多个预测方向指示符,其指示参考图片是在RefPicList0抑或RefPicList1中。运动补偿单元124可至少部分基于由PU的运动向量指示的参考位置处的实际或内插样本来产生PU的预测性块。
为了执行PU的双向帧间预测,运动估计单元122可为了PU的参考区而搜索RefPicList0中的参考图片,且还可为了PU的另一参考区而搜索RefPicList1中的参考图片。运动估计单元122可产生参考索引,所述参考索引指示参考图片的RefPicList0及RefPicList1中含有参考区的位置。此外,运动估计单元122可产生运动向量,所述运动向量指示与参考区相关联的参考位置与PU的预测块之间的空间移位。PU的运动信息可包含PU的参考索引及运动向量。运动补偿单元124可至少部分基于由PU的运动向量指示的参考位置处的实际或内插样本来产生PU的预测性块。
帧内预测处理单元126可通过对PU执行帧内预测而产生PU的预测性数据。PU的预测性数据可包含PU的预测性块及各种语法元素。帧内预测处理单元126可对I切片、P切片及B切片中的PU执行帧内预测。
为了对PU执行帧内预测,帧内预测处理单元126可使用多个帧内预测模式来产生PU的预测性块的多个集合。当使用特定帧内预测模式执行帧内预测时,帧内预测处理单元126可使用来自相邻块的样本的特定集合来产生PU的预测性块。假定针对PU、CU及CTU的左到右、顶部到底部的编码次序,相邻块可为在PU的预测块的上方、右上方、左上方或左侧。帧内预测处理单元126可使用各种数目个帧内预测模式,例如,33个定向帧内预测模式。在一些实例中,帧内预测模式的数目可取决于PU的预测块的大小。
预测处理单元100可从PU的由帧间预测处理单元120产生的预测性数据或PU的由帧内预测处理单元126产生的预测性数据当中选择针对CU的PU的预测性数据。在一些实例中,预测处理单元100基于预测性数据的集合的速率/失真量度来选择针对CU的PU的预测性数据。所选择的预测性数据的预测性块在本文中可被称作所选择预测性块。
残余产生单元102可基于CU的明度、Cb及Cr译码块以及CU的PU的所选择的预测性明度、Cb及Cr块而产生CU的明度、Cb及Cr残余块。举例来说,残余产生单元102可产生CU的残余块,使得残余块中的每一样本具有一值,所述值等于CU的译码块中的样本与CU的PU的对应所选择预测性块中的对应样本之间的差。
变换处理单元104可执行四分树分割以将CU的残余块分割成与CU的TU相关联的变换块。因此,TU可为与明度变换块及两个对应色度变换块相关联。CU的TU的明度及色度变换块的大小及位置可能或可能并非基于CU的PU的预测块的大小及位置。
变换处理单元104可通过将一或多个变换应用到TU的变换块而产生针对CU的每一TU的变换系数块。变换处理单元104可将各种变换应用到与TU相关联的变换块。举例来说,变换处理单元104可将离散余弦变换(DCT)、方向变换或概念上类似的变换应用到变换块。在一些实例中,变换处理单元104并不将变换应用到变换块。在这些实例中,变换块可作为变换系数块进行处置。
量化单元106可使系数块中的变换系数量化。所述量化过程可减少与所述变换系数中的一些或全部相关联的位深度。举例来说,n位变换系数在量化期间可经降值舍位到m位变换系数,其中n大于m。量化单元106可基于与CU相关联的量化参数(QP)值来量化与CU的TU相关联的系数块。视频编码器20可通过调整与CU相关联的QP值而调整应用到与CU相关联的系数块的量化程度。量化可引入信息的损失,因此经量化的变换系数相较于原始变换系数可具有较低精度。
反量化单元108及反变换处理单元110可分别将反量化及反变换应用到系数块以从系数块重建构残余块。重建构单元112可将经重建构的残余块添加到由预测处理单元100产生的来自一或多个预测性块的对应样本以产生与TU相关联的经重建构变换块。通过以此方式重建构针对CU的每一TU的变换块,视频编码器20可重建构CU的译码块。
滤波单元114可执行一或多个解块操作以减少与CU相关联的译码块中的方块效应假影。经解码图片缓冲器116在滤波单元114对经重建构的译码块执行一或多个解块操作之后可存储经重建构的译码块。帧间预测处理单元120可使用含有经重建构的译码块的参考图片以执行其它图片的PU的帧间预测。此外,帧内预测处理单元126可使用经解码图片缓冲器116中的经重建构译码块以对与CU相同的图片中的其它PU执行帧内预测。
熵编码单元118可从视频编码器20的其它功能组件接收数据。举例来说,熵编码单元118可从量化单元106接收系数块,且可从预测处理单元100接收语法元素。熵编码单元118可对数据执行一或多个熵编码操作以产生经熵编码的数据。举例来说,熵编码单元118可对数据执行上下文自适应性可变长度译码(CAVLC)操作、CABAC操作、变量到变量(V2V)长度译码操作、基于语法的上下文自适应性二进制算术译码(SBAC)操作、机率区间分割熵(PIPE)译码操作、指数哥伦布编码操作或另一类型的熵编码操作。视频编码器20可输出包含由熵编码单元118产生的熵编码数据的位流。
在一些实例中,视频编码器20可产生包含位流的文件。根据本发明的一或多项技术,文件可包括含有经译码图片的多个样本。文件还可包括识别样本群组的逻辑框,所述样本群组含有来自多个样本当中的一或多个样本。逻辑框可进一步指示,样本群组中的每一样本是STSA样本。此外,根据本发明的一或多项技术,文件可存储含有视频数据的经译码图片的经译码样本。文件还可包含包括记录的逻辑框,所述记录包含一元素,所述元素指示在记录所应用到的流经解码时被激活的所有SPS是否具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。
图3为说明经配置以实施本发明的技术的实例视频解码器30的框图。图3为了解释的目的而提供,且不限制如在本发明中广泛例示且描述的技术。为了解释,本发明在HEVC译码的上下文中描述视频解码器30。然而,本发明的技术可适用于其它译码标准或方法。
在图3的实例中,视频解码器30包含熵解码单元150、预测处理单元152、反量化单元154、反变换处理单元156、重建构单元158、滤波单元160及经解码图片缓冲器162。预测处理单元152包含运动补偿单元164及帧内预测处理单元166。在其它实例中,视频解码器30可包含较多、较少或不同功能组件。
经译码图片缓冲器(CPB)151可接收并存储位流的经编码视频数据(例如,NAL单元)。熵解码单元150可从CPB 151接收NAL单元且剖析NAL单元以从位流获得语法元素。熵解码单元150可熵解码NAL单元中的经熵编码的语法元素。预测处理单元152、反量化单元154、反变换处理单元156、重建构单元158及滤波单元160可基于获得从位流的语法元素而产生经解码视频数据。
位流的NAL单元可包含经译码切片NAL单元。作为解码位流的部分,熵解码单元150可剖析并熵解码来自经译码切片NAL单元的语法元素。经译码切片中的每一者可包含切片标头及切片数据。切片标头可含有关于切片的语法元素。
除对来自位流的语法元素进行解码外,视频解码器30可对CU执行解码操作。通过对CU执行解码操作,视频解码器30可重建构CU的译码块。
作为对CU执行重建构操作的部分,反量化单元154可反量化(即,解量化)与CU的TU相关联的系数块。反量化单元154可使用与TU的CU相关联的QP值来确定量化程度,且同样应用的反量化单元154的反量化程度。即,压缩比(即,用以表示初始序列的位数目与经压缩序列的位数目的比率)可通过调整在量化变换系数时使用的QP的值来控制。压缩比还可取决于所使用的熵译码的方法。
在反量化单元154反量化系数块之后,反变换处理单元156可将一或多个反变换应用到系数块以便产生与TU相关联的残余块。举例来说,反变换处理单元156可将反DCT、反整数变换、反卡忽南-拉维变换(Karhunen-Loeve transform,KLT)、反旋转变换、反方向变换或另一反变换应用到系数块。
如果PU使用帧内预测来编码,则帧内预测处理单元166可执行帧内预测以产生PU的预测性块。帧内预测处理单元166可使用帧内预测模式以基于空间相邻PU的预测块产生PU的预测性明度、Cb及Cr块。帧内预测处理单元166可基于从位流解码的一或多个语法元素而确定PU的帧内预测模式。
预测处理单元152可基于提取自位流的语法元素而建构第一参考图片列表(RefPicList0)及第二参考图片列表(RefPicList1)。此外,如果PU使用帧间预测来编码,则熵解码单元150可获得PU的运动信息。运动补偿单元164可基于PU的运动信息确定PU的一或多个参考区。运动补偿单元164可基于PU的一或多个参考块处的样本产生PU的预测性明度、Cb及Cr块。
重建构单元158可使用来自与CU的TU相关联的明度、Cb及Cr变换块的残余值以及CU的PU的预测性明度、Cb及Cr块(即,帧内预测数据或帧间预测数据)(在适用时)来重建构CU的明度、Cb及Cr译码块。举例来说,重建构单元158可将明度、Cb及Cr变换块的样本添加到预测性明度、Cb及Cr块的对应样本以重建构CU的明度、Cb及Cr译码块。
滤波单元160可执行解块操作以减少与CU的明度、Cb及Cr译码块相关联的块效应假影。视频解码器30可将CU的明度、Cb及Cr译码块存储于经解码图片缓冲器162中。经解码图片缓冲器162可提供参考图片以用于随后运动补偿、帧内预测及显示装置(例如,图1的显示装置32)上的呈现。举例来说,视频解码器30可基于经解码图片缓冲器162中的明度、Cb及Cr块执行其它CU的PU的帧内预测或帧间预测操作。以此方式,视频解码器30可从位流提取显著明度系数块的变换系数级别,反量化变换系数级别,将变换应用到变换系数级别以产生变换块,至少部分基于变换块产生译码块,且输出译码块以供显示。
如上文所指示,遵照HEVC文件格式的文件可包含SampleToGroup逻辑框的零或零个以上实例。此外,如上文所指示,每一SampleToGroup逻辑框可包含识别样本分组的类型的分组类型元素。根据本发明的一或多项技术,SampleToGroup逻辑框可包含具有值(例如,“stsa”)的分组类型元素,所述值指示属于与SampleToGroup逻辑框相关联的样本群组的样本是STSA。举例来说,HEVC视频播放轨可含有具有“stsa”的grouping_type的SampleToGroupBox的零个实例或一个实例。具有具数个值的分组类型元素的SampleToGroup逻辑框的实例可被称作步进式时间子层样本群组项目,前述值指示属于与SampleToGroup逻辑框相关联的样本群组的样本是STSA(例如,具有grouping_type“stsa”的SampleToGroup逻辑框)。步进式时间子层样本群组项目可表示将样本标注为步进式时间子层存取点(即,STSA)。换句话说,步进式时间子层样本群组项目可为用以标注STSA样本的样本群组。步进式时间子层样本群组项目的分组类型可具有“stsa”的群组类型。
因此,视频编码器或另一装置可产生识别样本群组的逻辑框(例如,SampleToGroup逻辑框),所述样本群组含有来自文件中的多个样本当中的一或多个样本。逻辑框可进一步指示(例如,通过指定为“stsa”的分组类型),样本群组中的每一样本是STSA样本。因而,视频解码器或另一装置可基于逻辑框中的数据来识别来自文件中的样本当中的STSA样本。
如上文所指示,SampleGroupDescription逻辑框可包含样本群组的描述。此外,如上文所指示,SampleGroupDescription逻辑框可包含零或零个以上项目。SampleGroupDescription逻辑框中的项目可包含一或多个VisualSampleGroupEntry对象。VisualSampleGroupEntry对象可提供关于视觉(例如,视频)样本的群组的描述。VisualSampleGroupEntry对象可属于VisualSampleGroupEntry类别。根据本发明的一或多项技术,StepWiseTemporalSubLayerEntry类别可扩展VisualSampleGroupEntry类别。因此,SampleGroupDescription逻辑框中的项目可包含属于StepWiseTemporalSubLayerEntry类别的对象(即,StepWiseTemporalSubLayerEntry对象)。因此,SampleGroupDescription逻辑框可为StepWiseTemporalSubLayerEntry对象的容器。对于文件来说含有StepWiseTemporalSubLayerEntry对象可能并非是强制的,且文件可含有零或零个以上StepWiseTemporalSubLayerEntry对象。
因此,以下描述内容可应用到步进式时间子层样本群组项目:
群组类型:‘stsa’
容器:样本群组描述逻辑框(‘sgpd’)
强制:否
数量:零或零个以上
此样本群组用以标注步进式时间子层存取(STSA)样本。
以下内容是步进式时间子层样本群组项目的实例语法。
class StepWiseTemporalSubLayerEntry()extends VisualSampleGroupEntry(′stsa′)
{
}
在一些实例中,包含StepWiseTemporalSubLayerEntry对象的SampleGroupDescription逻辑框的实例可附随步进式时间子层样本群组项目(例如,具有为“stsa”的分组类型元素的SampleToGroup逻辑框的实例)。因此,在一些实例中,当SampleToGroup逻辑框具有为“stsa”的分组类型时,具有相同分组类型的SampleGroupDescription逻辑框的附随实例应存在。
根据本发明的一或多项技术,HEVC视频播放轨可含有具有为“ipsg”的grouping_type元素的SampleToGroup逻辑框的零个实例或一个实例。具有为“ipsg”的grouping_type元素的SampleToGroup逻辑框的实例可被称作图片内样本分组。具有为“ipsg”的分组类型的SampleToGroup逻辑框实例(即,图片内样本分组)可表示将样本标注为步进式时间子层存取点。因此,视频编码器或另一装置可产生识别样本群组的逻辑框(例如,SampleToGroup逻辑框),所述样本群组含有来自文件中的多个样本当中的一或多个样本。逻辑框可进一步指示(例如,通过指定为“ipsg”的分组类型),样本群组中的每一样本是帧内样本。因而,视频解码器或另一装置可基于逻辑框中的数据来自文件中的样本当中识别帧内样本。
在一些实例中,具有相同分组类型的SampleGroupDescriptionan逻辑框的附随实例存在于HEVC视频播放轨中。如上文所指示,SampleGroupDescription逻辑框可包含零或零个以上项目。SampleGroupDescription逻辑框中的项目可包含一或多个VisualSampleGroupEntry对象。VisualSampleGroupEntry对象可属于VisualSampleGroupEntry类别。此外,根据本发明的一或多项技术,IntraPictureEntry类别可扩展VisualSampleGroupEntry类别。因此,SampleGroupDescription逻辑框中的项目可包含属于IntraPictureEntry类别的对象(即,IntraPictureEntry对象或图片内样本分组项目)。因此,SampleGroupDescription逻辑框可为IntraPictureEntry对象的容器。对于文件来说含有IntraPictureEntry对象可能并非是强制的,且文件可含有零或零个以上IntraPictureEntry对象。以此方式,文件可包含样本群组描述逻辑框(例如,SampleGroupDescription逻辑框),所述逻辑框包含项目(例如,IntraPictureEntry对象),所述项目指示样本群组用以标注含有经帧内译码图片的的样本。
因此,以下描述内容可应用到IntraPictureEntry项目:
群组类型:‘ipsg’
容器:样本群组描述逻辑框(‘sgpd’)
强制:否
数量:零或零个以上
此样本群组用以标注含有经帧内译码图片的样本,即,所有切片是帧内切片的样本。
以下内容是帧内图片样本分组项目的实例语法。
class IntraPictureEntry()extends VisualSampleGroupEntry(′ipsg′)
{
}
如上文所指示,HEVC文件格式提供HEVC解码器配置记录。举例来说,遵照HEVC文件格式的文件的播放轨逻辑帧内的样本表逻辑框可包含HEVC解码器配置记录。HEVC解码器配置记录含有HEVC视频内容的配置信息。举例来说,HEVC解码器记录可包含零或零个以上NAL单元。含有于HEVC解码器记录中的NAL单元可包含含有例如VPS、SPS、PPS等的参数集的NAL单元。
以下内容提供针对HEVC解码器配置记录的实例语法。以下语法的以粗体展示的部分可指示HEVC解码器配置记录的在MPEG输出文献W12846“Study of ISO/IEC14496-15:2010/PDAM 2 Carriage of HEVC”(瑞典斯德哥尔摩MPEG第101次会议,2012-07-16到2012-07-20)中指定的经修改部分。
HEVC解码器配置记录含有用于每一样本中以指示由HEVC解码器配置记录约束的NAL单元的长度的长度字段的大小(例如,lengthSizeMinusOne),以及参数集(如果存储于样本项目中)。HEVC解码器配置记录可经外部加框。换句话说,HEVC解码器配置记录的大小可由含有HEVC解码器配置记录的结构来供应。
此外,HEVC解码器配置记录可含有版本字段。在以上提供的实例语法中,此版本字段名为配置版本。对记录的不兼容改变可通过版本号的改变来指示。在一些实例中,如果装置或另一读取器并未辨识出通过HEVC解码器配置记录指定的版本号时,装置或其它读取器必须不试图解码HEVC解码器配置记录或HEVC解码器配置记录应用到的流。在一些实例中,对HEVC解码器配置记录的兼容扩展并不扩展HEVC解码器配置记录,且并不改变由HEVC解码器配置记录的版本字段指定的配置版本码。装置或其它读取器在一些实例中可准备好以忽略超出装置或其它读取器理解的数据定义的未经识别数据。
VPS除其它语法元素外还可包含general_profile_space语法元素、general_profile_idc语法元素、general_profile_compatibility_flag[i]语法元素及general_reserved_zero_16bits语法元素。general_profile_space语法元素针对在0到31(包含)的范围内的i的所有值指定用以解译general_profile_idc语法元素及general_profile_compatibility_flag[i]语法元素的上下文。当general_profile_space语法元素等于0时,general_profile_idc语法元素指示CVS遵照的配置文件。HEVC工作草案8的附录A描述配置文件的实例集合。当general_profile_space语法元素等于0且general_profile_compatibility_flag[i]语法元素等于1时,general_profile_compatibility_flag[i]语法元素指示,CVS遵照通过等于i的general_profile_idc语法元素指示的配置文件。当general_profile_space语法元素等于0时,general_profile_idc[general_profile_idc]等于1。“general_profile_idc[general_profile_idc]”表示与通过general_profile_idc语法元素指定的索引值相关联的general_profile_idc语法元素。在一些实例中,对于并非指定为general_profile_idc的所允许值的i的任何值来说,general_profile_compatibility_flag[i]语法元素等于0。HEVC工作草案8的附录A指定general_profile_idc语法元素的所允许值的实例集合。general_reserved_zero_16bits语法元素在位流中等于0。general_reserved_zero_16bits语法元素的某些值可用于HEVC的扩展。
此外,VPS可包含profile_tier_level语法结构,所述语法结构包含general_tier_flag语法元素及general_level_idc语法元素。general_tier_flag语法元素指定用于解译general_level_idc语法元素的阶层上下文。general_level_idc语法元素指示CVS遵照的级别。HEVC工作草案8的附录A基于由general_tier_flag语法元素指定的阶层上下文来指定general_level_idc语法元素的实例解译。
在上文所提供的HEVC解码器配置记录的实例语法中,对于此HEVC解码器配置记录应用到的流,如ISO/IEC 23008-2中所定义,profile_space、tier_flag、profile_idc、profile_compatibility_indications、constraint_indicator_flags及level_idc元素分别含有语法元素general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i](对于从0到3l(包含)变动的i)、general_reserved_zero_16bits及general_level_idc的匹配值。
在一个实例中,对于在HEVC解码器配置记录描述的流经经解码时激活的所有参数集(被称作流的所有参数集或所有参数集),HEVC解码器配置记录的profile_space、tier_flag、profile_idc、profile_compatibility_indications、constraint_indicator_flags及level_idc元素的值必须为有效的。换句话说,在此实例中,HEVC解码器配置记录的profile_space、tier_flag、profile_idc、profile_compatibility_indications、constraint_indicator_flags及level_idc元素的值必须正确地描述在HEVC解码器配置记录描述的流经解码时激活的参数集中的对应语法元素的值。
举例来说,在流经解码时激活的VPS中的每一者中的general_profile_space语法元素可具有等同于profile_space元素的值的值。换句话说,profile_space元素在所有参数集中的值必须为等同的。因此,HEVC解码器配置记录可包含配置文件空间元素(例如,profile_space元素)。在HEVC解码器配置记录应用到的流经解码时激活的参数集中的所有一般配置文件空间旗标语法元素(例如,general_profile_space语法元素)可具有与配置文件空间元素的值匹配的值。
此外,在此实例中,阶层指示(例如,tier_flag)必须指示阶层等于或大于在由HEVC解码器配置记录描述的流经解码时激活的所有参数集中指示的最高阶层。因此,HEVC解码器配置记录可包含阶层旗标元素(例如,tier_flag元素)。装置可确定,在HEVC解码器配置记录应用到的流经解码时激活的参数集中所有一般阶层旗标语法元素(例如,general_tier_flag语法元素)具有与阶层旗标元素的值匹配的值。一般阶层旗标语法元素中的每一者可指示用于解译指示经译码视频序列遵照的级别的一般级别指示符语法元素的阶层上下文。
在此实例中,级别指示元素(例如,level_idc)必须指示能力级别等于或大于所有参数集中最高阶层的所指示的最高级别。因此,HEVC解码器配置记录可包含级别指示符元素(例如,level_idc元素)。装置可确定,在HEVC解码器配置记录应用到的流经解码时激活的参数集中所有一般级别指示语法元素(例如,general_level_idc语法元素)具有与级别元素的值匹配的值。一般级别指示语法元素中的每一者可指示经译码视频序列遵照的级别。
在此实例中,配置文件指示元素(例如,profile_idc)必须指示与HEVC解码器配置记录相关联的流遵照的配置文件。因此,HEVC解码器配置记录可包含配置文件指示符元素(例如,profile_idc元素)。装置可确定,在HEVC解码器配置记录应用到的流经解码时激活的参数集中所有配置文件指示语法元素(例如,profile_idc语法元素)具有与配置文件指示元素的值匹配的值。配置文件指示语法元素中的每一者可指示经译码视频序列遵照的配置文件。
如果所有参数集设定profile_compatibility_indications元素中的每一位,则可仅设定所述位。因此,HEVC解码器配置记录可包含配置文件兼容性指示元素(例如,profile_compatibility_indications元素)。装置可确定,在HEVC解码器配置记录应用到的流经解码时激活的参数集中所有一般配置文件兼容性旗标语法元素(例如,general_profile_compatibility_flag语法元素)具有与配置文件兼容性指示元素的值匹配的值。
此外,HEVC解码器配置记录可包含约束指示符旗标元素(例如,constraint_indicator_flags元素)。装置可确定,在HEVC解码器配置记录应用到的流经解码时激活的所有参数集中所有一般预留的为零的16位语法元素(例如,general_reserved_zero_16 bits语法元素)具有与配置文件兼容性指示元素的值匹配的值。
因为HEVC解码器配置记录指定profile_space、tier_flag、profile_idc、profile_compatibility_indications、constraint_indicator_flags及level_idc元素,所以装置(例如,视频解码器30)可能能够在不剖析流情况下确定流的对应性质。确切来说,装置可通过检验应用到流的HEVC解码器配置记录来确定流的对应性质。
如果通过不同配置文件来标注流的SPS,则流可需要检查以确定整个流遵照的配置文件(如果存在)。如果未检查整个流或检查展现不存在整个流遵照的配置文件,则在此实例中,整个流必须被分裂成具有单独配置记录(例如,HEVC解码器配置记录)的两个或两个以上子流,在所述单独配置记录中可满足这些规则。
HEVC解码器配置记录可提供关于以下各者的显式指示:色度格式及位深度,以及由HEVC视频基本流使用的其它格式信息。基本流可包括一或多个位流的序列。如果基本流含有多个位流,则位流中的每一者(唯最后位流外)以位流结束(EOS)NAL单元终止。
在一些实例中,每一类型的此信息在单个HEVC解码器配置记录中在所有参数集(如果存在)中必须是等同的。如果两个序列在任何类型的此信息上不同,则视频处理器可经要求以产生两个不同HEVC解码器配置记录。如果两个序列在其视频可用性信息(VUI)中在色彩空间指示上不同,则视频处理器(例如,视频编码器20或另一装置)可经要求以产生两个不同HEVC解码器配置记录。在HEVC中,SPS可包含含有VUI语法元素的VUI语法结构。
在上文所描述的HEVC解码器配置记录的实例语法中,对于此HEVC解码器配置记录应用到的流来说,chromaFormat元素含有如在ISO/IEC 23008-2(即,HEVC)中通过chroma_format_idc语法元素定义的chroma_format指示符。SPS的chroma_format_idc语法元素可指定色度取样。在HEVC工作草案8中,chroma_format_idc语法元素相对于HEVC工作草案8的子条款6.2中指定的明度取样指定色度取样。如果针对当前图片经激活的SPS的chroma_format_idc语法元素等于0,则当前图片可由一个样本阵列(例如,SL)组成。否则,如果chroma_format_idc语法元素不等于0,则当前图片可包括三个样本阵列(例如,SL、SCb及SCr)。
在上文所提供的HEVC解码器配置记录的实例语法中,对于此HEVC解码器配置记录应用到的流来说,bitDepthLumaMinus8元素含有如在ISO/IEC 23008-2中通过bit_depth_luma_minus8语法元素定义的明度位深度指示符。对于此配置记录应用到的流,bitDepthChromaMinus8元素可含有如在ISO/IEC 23008-2中由bit_depth_chroma_minus8语法元素定义的色度位深度指示符。样本值(例如,明度样本或色度样本)的位深度可指示多少个位用以表示样本值。
此外,在上文提供的HEVC解码器配置记录的实例语法中,对于HEVC解码器配置记录应用到的流,avgFrameRate元素以讯框数/(256秒)为单位给出平均帧速率。具有等于0的值的avgFramRate元素可指示未指定的平均帧速率。
在上文提供的HEVC解码器配置记录的实例语法中,等于1的constantFrameRate元素可指示,此HEVC解码器配置记录应用到的流是具有恒定帧速率。等于2的constantFrameRate元素可指示,流中的每一时间层的表示是具有恒定帧速率。等于0的constantFrameRate元素指示,流可能或可能不具有恒定帧速率。
此外,在上文提供的HEVC解码器配置记录的实例语法中,numTemporalLayers元素可指示HEVC解码器配置记录应用到的流是否是时间上可调的,且时间层(ISO/IEC23008-2中也被称作时间子层或子层)的所含有数目是否等于numTemporalLayers。举例来说,大于1的numTemporalLayers语法元素可指示,此HEVC解码器配置记录应用到的流是时间上可调的,且所含有的时间层的数目等于numTemporalLayers。在此实例中,等于1的numTemporalLayers元素可指示,流并非是时间可调的。此外,在此实例中,等于0的numTemporalLayers元素可指示,不知晓流是否是时间可调的。
在上文提供的HEVC解码器配置记录的实例语法中,temporalIdNested元素可指示,HEVC解码器配置记录应用到的流时经激活的所有SPS是否具有等于0的sps_temporal_id_nesting_flag语法元素。举例来说,等于1的temporalIdNested元素可指示,在HEVC解码器配置记录应用到的流经解码时激活的所有SPS具有等于1的如ISO/IEC 23008-2中所定义的sps_temporal_id_nesting_flag语法元素,且到任何较高时间层的时间子层向上切换可在任何样本处执行。在此实例中,等于0的temporalIdNested元素可指示,在HEVC解码器配置记录应用到的流经解码时激活的SPS中的至少一者具有等于0的sps_temporal_id_nesting_flag语法元素。
以此方式,装置可产生存储经译码样本的文件,所述样本含有视频数据的经译码图片。文件还包含包括记录的逻辑框,所述记录包含sps_temporal_id_nesting_flag的元素,所述元素指示在记录应用到的流经解码时被激活的所有SPS是否具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。
在上文所提供的HEVC解码器配置记录的实例语法中,lengthSizeMinusOne元素加上1指示HEVC解码器配置记录应用到的流中的HEVC视频样本中NALUnitLength字段的以字节计的长度。举例来说,字节的大小通过为0的值指示。此字段的值应分别对应于通过1、2或4个字节编码的长度的0、1或3中的一者。
此外,HEVC解码器配置可含有携载初始化NAL单元的阵列的集合。换句话说,在HEVC解码器配置记录中,存在携载初始化NAL单元的阵列的集合。HEVC解码器配置记录中的NAL单元类型可经约束到含有VPS、SPS、PPS及SEI消息的NAL单元。HEVC工作草案8及本发明提供若干预留NAL单元类型。在将来,这些预留NAL单元类型可经定义以实施对HEVC的扩展。换句话说,ISO/IEC 23008-2中且此说明书中预留的NAL单元类型可在将来获取定义。在一些实例中,读取器(例如,接收并处理HEVC解码器配置记录的装置)应忽略具有预留或未准许NAL单元类型值的NAL单元的阵列。忽略具有预留或未准许NAL单元类型值的NAL单元的阵列的此“容许”行为经设计而使得错误不提高,藉此允许对将来规范中这些阵列的向后兼容扩展的可能性。在一些实例中,阵列可为呈VPS、SPS、PPS及SEI的次序。在其它实例中,阵列可通过大小在HEVC解码器配置记录内进行排序。举例来说,阵列可在HEVC解码器配置记录内排序,使得较小阵列在较大阵列之前发生。
此外,在上文所提供的HEVC解码器配置记录的语法元素中,numArrays元素指示具有所指示类型的NAL单元的阵列的数目。HEVC解码器配置记录的array_completeness元素可指示,流除给定类型的那些NAL单元外还可包含具有给定类型的NAL单元,所述NAL单元是在HEVC解码器配置记录中的阵列内。举例来说,等于1的array_completeness语法元素可指示,给定类型的所有NAL单元是在HEVC解码器配置记录中NAL单元的阵列中,且皆不在流中。等于0的array_completeness元素指示,所指示类型的额外NAL单元可是在流中。array_completeness元素的默认及所准许值可受样本项目码约束。
此外,在上文所提供的HEVC解码器配置记录的语法元素中,NAL_unit_type元素指示NAL单元的阵列中NAL单元的类型。在此实例中,阵列中的所有NAL单元必须属于由NAL_unit_type元素指定的类型。NAL_unit_type元素可采用如ISO/IEC 23008-2中所定义的值。在一些实例中,NAL_unit_type元素经约束以采用值中的指示VPS、SPS、PPS或SEI NAL单元中的值。
在上文所提供的实例HEVC解码器配置记录语法中,numNalus元素指示HEVC解码器配置记录应用到的流的具有包含于HEVC解码器配置记录中的所指示类型的NAL单元的数目。在一些实例中,HEVC解码器配置记录的NAL_unit_type元素可指示,HEVC解码器配置记录包含SEI阵列(即,SEI NAL单元的阵列)。举例来说,在这些实例中,如果numNalus等于四,则SEI阵列可由四个SEI NAL单元组成。此外,在一些这些实例中,SEI阵列必须仅含有具有“宣告性”本质的SEI消息。即,SEI阵列可仅作为整体含有提供关于流的信息的SEI消息。具有“宣告性”本质的SEI消息的实例是用户数据SEI消息。
此外,在上文所提供的HEVC解码器配置记录的实例语法中,HEVC解码器配置记录的nalUnitLength元素指示NAL单元的以字节计的长度。如ISO/IEC 23008-2中所指定,HEVC解码器配置记录的nalUnit元素可含有VPS、SPS、PPS或宣告性SEI NAL单元。
图4是说明根据本发明的一或多项技术的实例操作200的流程图。在图4的实例中,第一装置(例如,视频编码器20或另一装置)产生文件(202)。文件包括含有经译码图片的多个样本;识别样本群组的逻辑框,所述样本群组含有来自多个样本当中的一或多个样本。所述逻辑框进一步指示,样本群组中的每一样本是STSA样本。
此外,在图4的实例中,第二装置(例如,视频解码器30或另一装置)基于识别样本群组的逻辑框中的数据从含有逻辑框的文件中的样本当中识别STSA样本(204)。
图5是说明根据本发明的一或多项额外技术的实例操作250的流程图。在图5的实例中,第一装置(例如,视频编码器20或其它装置)可产生存储经译码的样本的文件,所述样本含有视频数据的经译码图片(252)。文件还可包含包括元素的样本项目,所述元素指示在样本项目应用到的流经解码时被激活的所有SPS是否具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。
此外,在图5的实例中,第二装置(例如,视频解码器30或其它装置)可基于含有样本的文件的样本项目中的元素(所述样本含有视频数据的经译码图片)而确定在记录应用到的流经解码时激活的所有SPS具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行(254)。
图6是说明根据本发明的一或多项技术的文件300的实例结构的概念图。在图6的实例中,文件300包含电影逻辑框302及多个媒体数据逻辑框304。媒体数据逻辑框304中的每一者可包含一或多个样本305。此外,在图6的实例中,电影逻辑框302包含播放轨逻辑框306。在其它实例中,电影逻辑框302可包含不同播放轨的多个播放轨逻辑框。播放轨逻辑框306包含样本表逻辑框308。样本表逻辑框308包含SampleToGroup逻辑框310、SampleGroupDescription逻辑框312及HEVC解码器配置记录314。在其它实例中,样本表逻辑框308除SampleToGroup逻辑框310及SampleGroupDescription逻辑框312外还可包含其它逻辑框,及/或可包含多个SampleToGroup逻辑框及SampleGroupDescription逻辑框。
根据本发明的一或多项实例技术,SampleToGroup逻辑框310可识别含有来自样本305当中的一或多个样本的样本群组。SampleToGroup逻辑框310可进一步指示,样本群组中的每一样本是STSA样本。因此,装置可基于SampleToGroup逻辑框310中的数据来识别来自文件300中的样本305当中的STSA样本。根据本发明的一或多项额外实例技术,SampleToGroup逻辑框310可指示,样本群组中的每一样本是帧内样本。因此,装置可基于SampleToGroup逻辑框310中的数据来自文件300中的样本305当中识别帧内样本。
根据本发明的一或多项额外实例技术,HEVC解码器配置记录314可包含一元素,所述元素指示在HEVC解码器配置记录314应用到的流经解码时激活的所有SPS是否具有语法元素,所述语法元素指示到较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。因此,装置可基于含有样本305的文件300的样本表逻辑框308中HEVC解码器配置记录314中的元素(所述样本305含有视频数据的经译码图片)而确定在HEVC解码器配置记录314应用到的流经解码时激活的所有SPS具有语法元素,所述语法元素指示到任何较高时间子层的时间子层向上切换可在与SPS相关联的任何样本处执行。
在一或多个实例中,所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,则功能可作为一或多个指令或程序代码而存储于计算机可读媒体上或经由计算机可读媒体而发射,且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体,通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体大体上可对应于(1)是非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索指令、程序代码及/或数据结构以用于实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且,任何连接可恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或无线技术(例如,红外线、无线电及微波)而从网站、服务器或其它远程源发射指令,则同轴电缆、光缆、双绞线、DSL或无线技术(例如,红外线、无线电及微波)包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它瞬间媒体,而是替代地是针对非瞬间有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。以上各物的组合也应包含于计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因而,本文中所使用的术语“处理器”可是指上述结构或适于实施在本文中所描述的技术的任何其它结构中的任一者。此外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码及解码的专用硬件及/或软件模块内,或并入于组合式编解码器中。而且,所述技术可完全以一或多个电路或逻辑元件来实施。
本发明的技术可以广泛的多种装置或设备予以实施,所述装置或设备包含无线手持机、集成电路(IC)或IC集合(例如,芯片集)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必要求通过不同硬件单元来实现。确切来说,如上文所描述,可将各种单元组合于编解码器硬件单元中,或通过结合合适软件及/或固件的互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合来提供所述单元。
已描述各种实例。这些及其它实例属于所附权利要求书的范围内。

Claims (34)

1.一种处理视频数据的方法,所述方法包括:
基于识别样本群组的逻辑框中的数据而从含有所述逻辑框的文件中的样本当中识别所述视频数据的步进式时间子层存取STSA样本。
2.根据权利要求1所述的方法,其中所述逻辑框是SampleToGroup逻辑框。
3.根据权利要求1所述的方法,其中所述逻辑框包含具有为“stsa”的值的分组类型元素。
4.根据权利要求1所述的方法,其中所述文件包含样本群组描述逻辑框,所述样本群组描述逻辑框包含项目,所述项目指示所述样本群组用以标注STSA样本。
5.根据权利要求1所述的方法,其中:
所述逻辑框是第一逻辑框,
所述样本群组是第一样本群组,
所述文件含有识别第二样本群组的第二逻辑框,且
所述方法进一步包括基于所述第二逻辑框中的数据而从所述文件中的所述样本当中识别帧内样本。
6.根据权利要求5所述的方法,其中:
所述第二逻辑框是SampleToGroup逻辑框,且
所述第二逻辑框包含具有为“ipsg”的值的分组类型元素。
7.根据权利要求5所述的方法,其中所述文件包含样本群组描述逻辑框,所述样本群组描述逻辑框包含项目,所述项目指示所述第二样本群组用以标注含有经帧内译码图片的样本。
8.根据权利要求1所述的方法,其进一步包括在所述样本群组中的所述STSA样本中的一者处执行时间向上切换。
9.一种存储视频数据的方法,所述方法包括产生包括以下各者的文件:
含有所述视频数据的经译码图片的多个样本;及
逻辑框,其识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是步进式时间子层存取STSA样本。
10.根据权利要求9所述的方法,其中所述逻辑框是SampleToGroup逻辑框。
11.根据权利要求9所述的方法,其中所述逻辑框包含具有为“stsa”的值的分组类型元素。
12.根据权利要求9所述的方法,其中产生所述文件包括产生样本群组描述逻辑框,所述样本群组描述逻辑框指示所述样本群组用以标注STSA样本。
13.根据权利要求9所述的方法,其中:
所述逻辑框是第一逻辑框,
所述样本群组是第一样本群组,且
产生所述文件包括在所述文件中产生第二逻辑框,所述第二逻辑框识别含有来自所述多个样本当中的一或多个样本的第二样本群组,其中所述第二逻辑框进一步指示所述第二样本群组中的每一样本是帧内样本。
14.根据权利要求13所述的方法,其中:
所述第二逻辑框是SampleToGroup逻辑框,且
所述第二逻辑框包含具有为“ipsg”的值的分组类型元素。
15.根据权利要求13所述的方法,其中产生所述文件包括将样本群组描述逻辑框包含于所述文件中,所述样本群组描述逻辑框包含项目,所述项目指示所述第二样本群组用以标注含有经帧内译码图片的样本。
16.一种包括一或多个处理器的装置,所述一或多个处理器经配置以基于识别样本群组的逻辑框中的数据而从含有所述逻辑框的文件中的视频数据样本当中识别步进式时间子层存取STSA样本。
17.根据权利要求16所述的装置,其中所述逻辑框是SampleToGroup逻辑框。
18.根据权利要求16所述的装置,其中所述逻辑框包含具有为“stsa”的值的分组类型元素。
19.根据权利要求16所述的装置,其中所述文件包含样本群组描述逻辑框,所述样本群组描述逻辑框包含项目,所述项目指示所述样本群组用以标注STSA样本。
20.根据权利要求16所述的装置,其中:
所述逻辑框是第一逻辑框,
所述样本群组是第一样本群组,
所述文件含有识别第二样本群组的第二逻辑框,且
所述一或多个处理器经进一步配置以基于所述第二逻辑框中的数据而从所述文件中的所述样本当中识别帧内样本。
21.根据权利要求20所述的装置,其中:
所述第二逻辑框是SampleToGroup逻辑框,且
所述第二逻辑框包含具有为“ipsg”的值的分组类型元素。
22.根据权利要求20所述的装置,其中所述文件包含样本群组描述逻辑框,所述样本群组描述逻辑框包含项目,所述项目指示所述第二样本群组用以标注含有经帧内译码图片的样本。
23.根据权利要求16所述的装置,其中所述一或多个处理器经进一步配置以在所述样本群组中的所述STSA样本中的一者处执行时间向上切换。
24.一种包括一或多个处理器的装置,所述一或多个处理器经配置以产生包括以下各者的文件:
含有视频数据的经译码图片的多个样本;及
逻辑框,其识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是步进式时间子层存取STSA样本。
25.根据权利要求24所述的装置,其中所述逻辑框是SampleToGroup逻辑框。
26.根据权利要求24所述的装置,其中所述逻辑框包含具有为“stsa”的值的分组类型元素。
27.根据权利要求24所述的装置,其中所述一或多个处理器经配置以在所述文件中产生样本群组描述逻辑框,所述样本群组描述逻辑框指示所述样本群组用以标注STSA样本。
28.根据权利要求24所述的装置,其中:
所述逻辑框是第一逻辑框,
所述样本群组是第一样本群组,且
所述一或多个处理器经配置以在所述文件中产生第二逻辑框,所述第二逻辑框识别含有来自所述多个样本当中的一或多个样本的第二样本群组,其中所述第二逻辑框进一步指示所述第二样本群组中的每一样本是帧内样本。
29.根据权利要求28所述的装置,其中:
所述第二逻辑框是SampleToGroup逻辑框,且
所述第二逻辑框包含具有为“ipsg”的值的分组类型元素。
30.根据权利要求28所述的装置,其中所述一或多个处理器经配置以产生所述文件,使得所述文件包含样本群组描述逻辑框,所述样本群组描述逻辑框包含项目,所述项目指示所述第二样本群组用以标注含有经帧内译码图片的样本。
31.一种装置,其包括:
用于接收文件的装置,所述文件含有识别样本群组的逻辑框;及
用于基于所述逻辑框中的数据而从所述文件中的样本当中识别视频数据的步进式时间子层存取STSA样本的装置。
32.一种装置,其包括:
用于产生文件的装置,所述文件包括:
含有视频数据的经译码图片的多个样本;及
逻辑框,其识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是步进式时间子层存取STSA样本;及
用于输出所述文件的装置。
33.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器基于识别样本群组的逻辑框中的数据而从含有所述逻辑框的文件中的样本当中识别步进式时间子层存取STSA样本。
34.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器产生文件,所述文件包括:
含有经译码图片的多个样本;及
逻辑框,其识别含有来自所述多个样本当中的一或多个样本的样本群组,其中所述逻辑框进一步指示所述样本群组中的每一样本是步进式时间子层存取STSA样本。
CN201380051429.7A 2012-10-04 2013-10-02 用于视频数据的文件格式 Active CN104704830B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261709748P 2012-10-04 2012-10-04
US61/709,748 2012-10-04
US14/043,335 US20140098868A1 (en) 2012-10-04 2013-10-01 File format for video data
US14/043,335 2013-10-01
PCT/US2013/062973 WO2014055594A2 (en) 2012-10-04 2013-10-02 File format for video data

Publications (2)

Publication Number Publication Date
CN104704830A true CN104704830A (zh) 2015-06-10
CN104704830B CN104704830B (zh) 2018-11-09

Family

ID=50432651

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201380051417.4A Active CN104704829B (zh) 2012-10-04 2013-10-02 处理视频数据的方法和装置以及计算机可读存储媒体
CN201380051429.7A Active CN104704830B (zh) 2012-10-04 2013-10-02 用于视频数据的文件格式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201380051417.4A Active CN104704829B (zh) 2012-10-04 2013-10-02 处理视频数据的方法和装置以及计算机可读存储媒体

Country Status (12)

Country Link
US (2) US20140098868A1 (zh)
EP (2) EP2904798B1 (zh)
JP (2) JP6239630B2 (zh)
KR (2) KR102172130B1 (zh)
CN (2) CN104704829B (zh)
BR (1) BR112015007502B1 (zh)
DK (2) DK2904798T3 (zh)
ES (2) ES2854877T3 (zh)
HU (2) HUE042386T2 (zh)
SI (1) SI2904798T1 (zh)
TW (2) TWI558177B (zh)
WO (2) WO2014055594A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108353191A (zh) * 2015-10-14 2018-07-31 高通股份有限公司 在多层视频文件中支持随机存取及层与子层的切换
CN108605168A (zh) * 2016-02-17 2018-09-28 高通股份有限公司 在媒体文件中虚拟现实视频的存储

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013102293A1 (en) * 2012-01-04 2013-07-11 Mediatek Singapore Pte. Ltd. Improvements of luma-based chroma intra prediction
US10097841B2 (en) * 2012-05-04 2018-10-09 Lg Electronics Inc. Method for storing image data, method for parsing image data, and an apparatus for using the same
US20140098868A1 (en) 2012-10-04 2014-04-10 Qualcomm Incorporated File format for video data
WO2015053157A1 (ja) 2013-10-11 2015-04-16 ソニー株式会社 送信装置、送信方法および受信装置
ES2913983T3 (es) * 2014-03-17 2022-06-07 Nokia Technologies Oy Un aparato, un método y un programa informático para codificación y decodificación de vídeo
US11418812B2 (en) * 2015-02-11 2022-08-16 Qualcomm Incorporated Placement of parameter sets and sync samples in video coding
US9928297B2 (en) * 2015-02-11 2018-03-27 Qualcomm Incorporated Sample grouping signaling in file formats
GB2539461B (en) 2015-06-16 2020-01-08 Canon Kk Image data encapsulation
JP6992511B2 (ja) * 2016-01-13 2022-01-13 ソニーグループ株式会社 情報処理装置および情報処理方法
US10623755B2 (en) * 2016-05-23 2020-04-14 Qualcomm Incorporated End of sequence and end of bitstream NAL units in separate file tracks
US10587904B2 (en) * 2017-07-10 2020-03-10 Qualcomm Incorporated Processing media data using an omnidirectional media format
JP6415652B1 (ja) * 2017-07-18 2018-10-31 三菱電機株式会社 映像再生装置、映像記録装置および映像記録方法
WO2019069857A1 (ja) * 2017-10-06 2019-04-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法および復号方法
US10999590B2 (en) * 2018-12-28 2021-05-04 Tencent America LLC Method for identification of random access point and picture types
JP2023507879A (ja) * 2019-12-26 2023-02-28 エルジー エレクトロニクス インコーポレイティド ポイントクラウドデータ送信装置、ポイントクラウドデータ送信方法、ポイントクラウドデータ受信装置及びポイントクラウドデータ受信方法
CN115428438A (zh) * 2020-03-27 2022-12-02 字节跳动有限公司 视频编解码中的水平信息
GB2593897B (en) * 2020-04-06 2024-02-14 Canon Kk Method, device, and computer program for improving random picture access in video streaming
CN114845134B (zh) * 2020-10-16 2023-01-24 腾讯科技(深圳)有限公司 文件封装方法、文件传输方法、文件解码方法及相关设备
FR3137809A1 (fr) * 2022-07-08 2024-01-12 Orange Codage et décodage de données audio et/ou vidéo

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016594A1 (en) * 2005-07-15 2007-01-18 Sony Corporation Scalable video coding (SVC) file format
CN1973545A (zh) * 2004-05-12 2007-05-30 诺基亚公司 用于可缩放媒体编码和传输的多个互操作性点
US20120102042A1 (en) * 2010-10-20 2012-04-26 Flick christopher Temporal metadata track

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0524983D0 (en) * 2005-12-07 2006-01-18 Imagination Tech Ltd Recompression and decompression of a data stream for rate smoothing
CN101573883B (zh) 2006-10-16 2017-03-01 维德约股份有限公司 用于在可分级视频编码中信令并执行时间级切换的系统和方法
EP2392138A4 (en) 2009-01-28 2012-08-29 Nokia Corp METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING
TW201210325A (en) 2010-07-21 2012-03-01 Nokia Corp Method and apparatus for indicating switching points in a streaming session
US9497472B2 (en) 2010-11-16 2016-11-15 Qualcomm Incorporated Parallel context calculation in video coding
US20120170648A1 (en) 2011-01-05 2012-07-05 Qualcomm Incorporated Frame splitting in video coding
CA2824027C (en) 2011-01-14 2017-11-07 Vidyo, Inc. High layer syntax for temporal scalability
US9706227B2 (en) 2011-03-10 2017-07-11 Qualcomm Incorporated Video coding techniques for coding dependent pictures after random access
US20130170561A1 (en) 2011-07-05 2013-07-04 Nokia Corporation Method and apparatus for video coding and decoding
US20140169449A1 (en) 2011-07-05 2014-06-19 Telefonaktiebolaget L M Ericsson (Publ) Reference picture management for layered video
US20130094774A1 (en) 2011-10-13 2013-04-18 Sharp Laboratories Of America, Inc. Tracking a reference picture based on a designated picture on an electronic device
EP2805520A1 (en) 2012-01-20 2014-11-26 Telefonaktiebolaget LM Ericsson (Publ) Sub-bitstream extraction
US9648317B2 (en) 2012-01-30 2017-05-09 Qualcomm Incorporated Method of coding video and storing video content
US9380289B2 (en) * 2012-07-20 2016-06-28 Qualcomm Incorporated Parameter sets in video coding
US20140092953A1 (en) * 2012-10-02 2014-04-03 Sharp Laboratories Of America, Inc. Method for signaling a step-wise temporal sub-layer access sample
US20140098868A1 (en) 2012-10-04 2014-04-10 Qualcomm Incorporated File format for video data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1973545A (zh) * 2004-05-12 2007-05-30 诺基亚公司 用于可缩放媒体编码和传输的多个互操作性点
US20070016594A1 (en) * 2005-07-15 2007-01-18 Sony Corporation Scalable video coding (SVC) file format
US20120102042A1 (en) * 2010-10-20 2012-04-26 Flick christopher Temporal metadata track

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BENJAMIN BROSS ET AL: "High efficiency video coding (HEVC) text specification draft 8", 《JOINT COLLABORATIVE TEAM ON VIDEO CODING(JCT-VC) OF ITU-T SG16 WP3 AND ISO/IEC JTC1/SC29/WG11 10TH MEETING: STOCKHOLM, SE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108353191A (zh) * 2015-10-14 2018-07-31 高通股份有限公司 在多层视频文件中支持随机存取及层与子层的切换
CN108353191B (zh) * 2015-10-14 2020-11-17 高通股份有限公司 用于处理视频数据的方法、装置和计算机可读存储介质
CN108605168A (zh) * 2016-02-17 2018-09-28 高通股份有限公司 在媒体文件中虚拟现实视频的存储
CN108605168B (zh) * 2016-02-17 2020-11-03 高通股份有限公司 一种处理虚拟现实数据的方法、装置以及非暂时性计算机可读媒体

Also Published As

Publication number Publication date
WO2014055606A2 (en) 2014-04-10
HUE053036T2 (hu) 2021-06-28
EP2904798B1 (en) 2018-12-26
CN104704829A (zh) 2015-06-10
WO2014055594A2 (en) 2014-04-10
US20140098860A1 (en) 2014-04-10
ES2716852T3 (es) 2019-06-17
EP2904799B1 (en) 2020-12-23
JP2015537421A (ja) 2015-12-24
KR20150067265A (ko) 2015-06-17
KR20150067264A (ko) 2015-06-17
BR112015007502A2 (pt) 2017-07-04
JP2015536115A (ja) 2015-12-17
TW201433150A (zh) 2014-08-16
ES2854877T3 (es) 2021-09-23
TWI558177B (zh) 2016-11-11
KR101924254B1 (ko) 2018-11-30
KR102172130B1 (ko) 2020-10-30
EP2904798A2 (en) 2015-08-12
US10038899B2 (en) 2018-07-31
SI2904798T1 (sl) 2019-04-30
WO2014055594A3 (en) 2014-12-04
EP2904799A2 (en) 2015-08-12
TWI565305B (zh) 2017-01-01
DK2904798T3 (en) 2019-03-25
WO2014055606A3 (en) 2014-12-04
HUE042386T2 (hu) 2019-06-28
BR112015007502B1 (pt) 2023-03-21
JP6203852B2 (ja) 2017-09-27
DK2904799T3 (da) 2021-03-15
CN104704829B (zh) 2018-12-04
TW201433151A (zh) 2014-08-16
JP6239630B2 (ja) 2017-11-29
US20140098868A1 (en) 2014-04-10
CN104704830B (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
CN104704830A (zh) 用于视频数据的文件格式
KR101984368B1 (ko) 하나 이상의 계층들을 포함하는 파티션과 연관된 프로파일, 티어 및 레벨에 기초하여 디코더의 능력을 결정하는 것에 의해 멀티-계층 비디오 데이터를 디코딩하기 위한 방법 및 디바이스
RU2633100C2 (ru) Применимость битового субпотока к вложенным sei-сообщениям при кодировании видео
CN105612752B (zh) 对用于多层视频编解码器的多模提取的支持
CN104813671B (zh) 用于处理视频数据的方法和设备
CN104054347B (zh) 在视频译码中波前平行处理的使用的指示
CN104919802A (zh) 在视频译码中的非嵌套式补充增强信息消息
CN104471943A (zh) 视频译码中的参数集
CN104662914A (zh) 视频译码中的位流一致性测试
CN105308971A (zh) 假设的参考解码器模型和跨层随机存取跳过图片的一致性
CN104471942A (zh) 重新使用参数集用于视频译码
CN104685888A (zh) 补充增强信息消息译码
CN105103557A (zh) 视频译码中的视差向量改进

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant