CN108353191A - 在多层视频文件中支持随机存取及层与子层的切换 - Google Patents

在多层视频文件中支持随机存取及层与子层的切换 Download PDF

Info

Publication number
CN108353191A
CN108353191A CN201680059424.2A CN201680059424A CN108353191A CN 108353191 A CN108353191 A CN 108353191A CN 201680059424 A CN201680059424 A CN 201680059424A CN 108353191 A CN108353191 A CN 108353191A
Authority
CN
China
Prior art keywords
sample
group
rail
logical box
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680059424.2A
Other languages
English (en)
Other versions
CN108353191B (zh
Inventor
伏努·亨利
王业奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108353191A publication Critical patent/CN108353191A/zh
Application granted granted Critical
Publication of CN108353191B publication Critical patent/CN108353191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8451Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种装置在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框。所述装置在所述播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框。另外,所述装置在所述播放轨逻辑框中产生用于所述播放轨的样本到群组逻辑框。所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中。所述样本到群组逻辑框指定存在于所述播放轨中的层当中的目标层。所述目标层中的每一者含有属于特定图片类型的至少一个图片。所述样本群组为以下中的一者:时间子层存取样本群组且所述特定图片类型为时间子层存取图片类型;或逐步时间子层存取样本群组且所述特定图片类型为逐步时间子层存取图片类型。

Description

在多层视频文件中支持随机存取及层与子层的切换
本申请案主张2015年10月14日申请的美国临时专利申请案第62/241,713号的权益,所述申请案的全部内容在此以引用的方式并入。
技术领域
本发明涉及视频编码及解码。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数字摄影机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能型电话”)、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频压缩技术,例如,由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、高效率视频译码(HEVC)标准及这些标准的扩展中所描述的技术。所述视频装置可通过实施这些视频压缩技术更有效地传输、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测来减少或去除视频序列中固有的冗余。对于基于块的视频译码,可将视频片段(也即,视频帧或视频帧的一部分)分割成视频块。使用关于同一图片中的相邻块中的参考样本的空间预测来编码图片的帧内译码(I)片段中的视频块。图片的经帧间译码(P或B)片段中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。图片可被称作“帧”。
空间或时间预测产生待译码块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块根据指向形成预测性块的参考样本的块的运动向量来编码,且残余数据指示经译码块与预测性块之间的差。根据帧内译码模式及残余数据来编码经帧内译码块。为进一步压缩,可将残余数据从像素域变换到变换域,从而产生随后可经量化的残余系数。
在多视图译码及可调式视频译码中,经编码视频数据的位流包含多层。在多视图译码中,不同层可对应于不同视图。在可调式视频译码中,除基础层之外的层(也即,增强层)可包含对位流的较低层提供质量增强(例如,时间增强、空间增强)的经编码图片。L-HEVC指支持多层视频译码的HEVC的扩展。
可在不影响视频解码器的能力的情况下将层的“时间子层”的经译码图片从所述层去除以正确地解码相同层的较低时间子层。去除时间子层的经译码图片可降低所述层的帧速率。不同层的时序并列图片可称为属于同一时间子层。总的来说,具有更大识别符(也即,时间识别符)的时间子层在解码时具有更高帧速率。时间子层向上切换可指从解码第一时间子层切换到解码第二时间子层,其中第二时间子层的时间识别符大于第一时间子层的时间识别符。此切换可与开始对直到这一刻才转发的某一子层的NAL单元进行转发相关联。在HEVC中,存在两种与子层切换点相关联的图片类型,即,时间子层存取(TSA)图片类型及逐步时间子层存取(STSA)图片类型。
经编码视频数据可存储于文件中。用于存储多层HEVC位流(也即,L-HEVC位流)的文件格式正在研发中。在文件格式中,文件的每一播放轨可包含一系列样本。播放轨的每一样本可包含一或多个时间上并列的经编码图片。因此,播放轨可包含属于一或多个不同层的经编码图片。用于L-HEVC的文件格式的草案具有识别含有TSA及STSA图片的样本的经定义的样本到群组逻辑框。然而,至少由于播放轨可包含属于不同层的经编码图片,因此用于L-HEVC的文件格式的草案可不定义用于有效时间子层切换的充足信息。
发明内容
总的来说,本发明涉及以基于ISO的媒体文件格式及基于其导出的文件格式存储视频内容。更确切地说,本发明描述在文件内的播放轨的样本未对准时用于定义操作点信息样本群组的技术。应注意,术语“操作点(operation point)”及“操作点(operatingpoint)”在本文中可互换地使用。
在一个实例中,本发明描述一种处理视频数据的方法,所述方法包括:在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框,所述位流包括形成所述视频数据的图片表示的位的序列,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中产生播放轨逻辑框包括:在播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框;以及在播放轨逻辑框中产生播放轨的样本到群组逻辑框,所述样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由样本群组描述项所指定的特性的样本,所述样本到群组逻辑框指定存在于播放轨的层当中的目标层,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且所述样本群组为以下中的一者:时间子层存取(TSA)样本群组且所述特定图片类型为时间子层存取图片类型或逐步时间子层存取(STSA)样本群组且所述特定图片类型为逐步时间子层存取图片类型。
在另一实例中,本发明描述一种处理视频数据的方法,所述方法包括:从存储多层位流的文件获得含有用于播放轨的元数据的播放轨逻辑框,所述位流包括形成视频数据的图片表示的位的序列,所述播放轨含有媒体内容,所述播放轨的媒体内容包括样本的序列,其中获得播放轨逻辑框包括:从播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框;以及从播放轨逻辑框获得播放轨的样本到群组逻辑框,所述样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由样本群组描述项所指定的特性的样本;基于样本到群组逻辑框中的语法元素确定存在于播放轨中的层当中的目标层,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;以及基于包含含有所述特定时间子层的经译码图片的层的目标层将TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
在另一实例中,本发明描述一种用于处理视频数据的装置,所述装置包括:一或多个处理电路,其经配置以:在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成视频数据的图片表示的位的序列,所述播放轨含有媒体内容,播放轨的媒体内容包括样本的序列,其中一或多个处理电路经配置以使得作为产生播放轨逻辑框的部分,一或多个处理电路:在播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框;以及在播放轨逻辑框中产生播放轨的样本到群组逻辑框,所述样本到群组逻辑框将播放轨的样本映射到样本群组,所述样本群组包括共享由样本群组描述项所指定的特性的样本,样本到群组逻辑框指定存在于播放轨中的层当中的目标层,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及数据存储媒体,其耦合到一或多个处理电路,所述数据存储媒体经配置以存储文件。
在另一实例中,本发明描述一种用于处理视频数据的装置,所述装置包括:数据存储媒体,其经配置以存储文件,所述文件存储包括形成视频数据的图片表示的位的序列的多层位流;及一或多个处理电路,其耦合到数据存储媒体,所述一或多个处理电路经配置以:从文件获得含有用于播放轨的元数据的播放轨逻辑框,所述播放轨含有媒体内容,播放轨的媒体内容包括样本的序列,其中一或多个处理电路经配置以使得作为获得播放轨逻辑框的部分,所述一或多个处理电路:从播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框;以及从播放轨逻辑框获得播放轨的样本到群组逻辑框,所述样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由样本群组描述项所指定的特性的样本;基于样本到群组逻辑框中的语法元素确定存在于播放轨中的层当中的目标层,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;以及基于包含含有特定时间子层的经译码图片的层的目标层将TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
在另一实例中,本发明描述一种用于处理视频数据的装置,所述装置包括:用于在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框的装置,所述多层位流包括形成视频数据的图片表示的位的序列,所述播放轨含有媒体内容,所述播放轨的媒体内容包括样本的序列,其中用于产生播放轨逻辑框的装置包含:用于在播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框的装置;用于在播放轨逻辑框中产生播放轨的样本到群组逻辑框的装置,所述样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由样本群组描述项所指定的特性的样本,样本到群组逻辑框指定存在于播放轨中的层当中的目标层,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及用于存储文件的装置。
在另一实例中,本发明描述一种用于处理视频数据的装置,所述装置包括:用于存储文件的装置,所述文件存储包括形成视频数据的图片表示的位的序列的多层位流;及用于从文件获得含有用于播放轨的元数据的播放轨逻辑框的装置,所述播放轨含有媒体内容,播放轨的媒体内容包括样本的序列,其中用于获得播放轨逻辑框的装置包括:用于从播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框的装置;及从播放轨逻辑框获得播放轨的样本到群组逻辑框的装置,所述样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由样本群组描述项所指定的特性的样本;用于基于样本到群组逻辑框中的语法元素确定存在于播放轨中的层当中的目标层的装置,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及用于基于包含含有特定时间子层的经译码图片的层的目标层将TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
在另一实例中,本发明描述一种具有存储于其上的指令的计算机可读存储媒体,所述指令在经执行时使得用于处理视频数据的装置:在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成视频数据的图片表示的位的序列,所述播放轨含有媒体内容,播放轨的媒体内容包括样本的序列,其中,作为使得装置产生播放轨逻辑框的部分,所述指令使得装置:在播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框;以及在播放轨逻辑框中产生播放轨的样本到群组逻辑框,所述样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由样本群组描述项所指定的特性的样本,样本到群组逻辑框指定存在于播放轨中的层当中的目标层,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型。
在另一实例中,本发明描述具有存储于其上的指令的计算机可读存储媒体,所述指令在经执行时使得用于处理视频数据的装置:存储文件,所述文件存储包括形成视频数据的图片表示的位的序列的多层位流;以及从文件获得含有用于播放轨的元数据的播放轨逻辑框,所述播放轨含有媒体内容,播放轨的媒体内容包括样本的序列,其中作为使得装置获得播放轨逻辑框的部分,所述指令使得装置:从播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框;以及从播放轨逻辑框获得播放轨的样本到群组逻辑框,所述样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由样本群组描述项所指定的特性的样本;基于样本到群组逻辑框中的语法元素确定存在于播放轨中的层当中的目标层,所述目标层中的每一者含有属于特定图片类型的至少一个图片,且样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;以及基于包含含有特定时间子层的经译码图片的层的目标层将TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
在附图及以下描述中阐明本发明的一或多个实例的细节。其它特征、目标及优势从描述、图式及权利要求书将显而易见。
附图说明
图1为说明可利用本发明中所描述的技术的实例视频译码系统的框图。
图2为说明其中播放轨中的图片为内部随机存取点(IRAP)存取单元(AU)的部分而非IRAP图片的实例案例的概念图。
图3为说明根据本发明的一或多种技术的文件的实例结构的框图。
图4为说明根据本发明的一或多种技术的文件的实例结构的框图。
图5为说明实例视频编码器的框图。
图6为说明实例视频解码器的框图。
图7为说明根据本发明的技术的实例操作的流程图。
图8为说明根据本发明的技术的其中产生播放轨逻辑框的处理视频数据的实例操作的流程图。
图9为说明根据本发明的技术的实例操作的流程图。
图10为说明根据本发明的技术的用于处理视频数据的装置的实例操作的流程图。
具体实施方式
总的来说,本发明涉及以国际标准组织(ISO)基媒体文件格式(ISOBMFF)及基于ISO基媒体文件格式的文件格式存储视频内容。本发明的特定技术在存储于一或多个播放轨中的多层位流中支持随机存取及层与子层的切换。
举例来说,基于ISO基媒体文件格式的文件格式经研发用于携载经编码视频数据的多层位流,例如分层高效视频译码(L-HEVC)位流。多层位流包括多个层。各层包括在不同输出时间发生的序列经编码图片(也即,经译码图片)。在可调式视频译码的情况下,多层位流的层可包含基础层及一或多个增强层。基础层可不参考所述增强层中的任一者来解码。所述增强层可在空间上或时间上增强基础层。举例来说,增强层可比基础层具有更高的帧速率。因此,增强层可包含输出时间的经编码图片且基础层不包含所述输出时间的经编码图片。在其中多层位流的第一层包含在输出时间的经编码图片且多层位流的第二层不包含输出时间的经编码图片的情况下,认为第一层中的经编码图片未与第二层中的经编码图片对准。在多视图视频译码中,多层位流的层可对应于不同视图中的经编码图片。
符合文件格式的文件包括被称为“逻辑框(box)”的一组数据结构。文件的逻辑框可包含媒体数据逻辑框,所述媒体数据逻辑框中的每一者包含一或多个样本。样本可包含相同存取单元(也即,具有相同输出时间)中的一或多个经编码图片。举例来说,样本可包含具有相同输出时间但在不同层中的经编码图片。
另外,文件的逻辑框可包含一或多个含有用于文件的播放轨的元数据的播放轨逻辑框。举例来说,播放轨逻辑框可包含样本表逻辑框。用于播放轨的元数据包含一或多个样本描述项。各样本与播放轨的样本描述项中的一者相关联。据说样本属于基于播放轨的样本表逻辑框(STBL)中所列出的样本的播放轨。由于播放轨的单独样本可包含属于多个层的经编码图片且这些层的经编码图片可未对准,因此播放轨的不同样本可包含不同数目的经编码图片。
样本群组为播放轨中的样本群组。用于播放轨的元数据可包含一或多个样本到群组逻辑框及一或多个样本群组描述逻辑框。样本到群组逻辑框含有一或多个样本群组项。样本群组描述逻辑框包含一或多个群组描述项,也被称作样本群组描述项。各群组描述项包含关于(也即,描述)样本群组的信息。播放轨的样本到群组逻辑框的各对应样本群组项将播放轨的一或多个样本映射到样本群组。样本群组描述逻辑框包括对样本群组的描述。
样本群组的样本共享共同特性。举例来说,用于携载L-HEVC位流的文件格式的草案定义若干类型的样本群组。举例来说,播放轨可包含一或多个时间子层存取(TSA)样本群组,所述样本群组可表示为‘tsas’样本群组。‘tsas’样本群组的各对应样本含有一或多个TSA图片。TSA图片实现在所述TSA图片处向上切换到含有TSA图片的子层或紧接着较低子层的任何较高子层。在另一实例中,播放轨可包含一或多个逐步时间子层存取(STSA)样本群组,所述样本群组可表示为‘stsa’样本群组。‘stsa’样本群组的各对应样本含有一或多个STSA图片。STSA图片实现在所述STSA图片上向上切换到紧接着较低子层的含有STSA图片的子层。因此,与TSA图片相比,STSA不必实现向上切换到任何较高子层,仅到含有STSA图片的子层。
用于携载L-HEVC位流的文件格式的最新草案在存储于一或多个播放轨中的多层位流中并不充分支持随机存取及层与子层的切换。举例来说,用于携载L-HEVC位流的文件格式的草案并不提供用于描述‘tsas’及‘stsa’样本群组的目标层的机制。举例来说,用于‘tsas’及‘stsa’样本群组的群组描述项并不指定目标层。
然而,确定用于‘tsas’及‘stsa’样本的目标层的能力可有益于特定应用。举例来说,研究一种具有两个层且各层中有四个时间子层的SHVC位流(720p及1080p-15帧/秒(fps)、30fps、60fps及120fps)。在此实例中,假设由于不良网络条件,视频播放机将解码及回放在15fps时降到1080p(也即,操作特定增强层(EL)及时间子层0)。在此实例中,考虑在应用希望变回更高分辨率及更高帧速率播放时存在若干可能性。举例来说,如果应用希望以最高帧速率播放,那么可能需要应用找到其中特定EL具有TSA图片的存取单元(AU)。然而,在基础层(BL)而不在EL中具有TSA的存取单元不能用作开始解码EL的最高时间子层的点。在‘tsas’群组描述项中无目标层的指示的情况下,应用可确定样本包含TSA,但TSA不在特定EL中。因此,在不能够确定‘tsas’群组描述项中的所述目标层的情况下,应用可不能够确定样本是否为时间子层向上切换到特定EL的合适位置。类似情况将适用于‘stsa’样本群组应用。因此,指定用于如本发明中所描述的‘tsas’及‘stsa’样本群组的目标层可改进计算装置(例如,内容传送网络装置、流式传输服务器等)辅助时间子层切换的功能,反过来其可增强解码装置在呈现视频数据的质量水平上的性能,所述视频数据适合于在其上传输经编码视频数据的媒体或网络的带宽。
图1为说明可利用本发明的技术的实例视频译码系统10的框图。如本文中所使用,术语“视频译码器”大体上指视频编码器及视频解码器两者。在本发明中,术语“视频译码”或“译码”大体上可指视频编码或视频解码。
如图1中所展示,视频译码系统10包含源装置12及目的地装置14。源装置12产生经编码的视频数据。因此,源装置12可被称作视频编码装置或视频编码设备。目的地装置14可解码由源装置12产生的经编码视频数据。因此,目的地装置14可被称作视频解码装置或视频解码设备。源装置12及目的地装置14可为视频译码装置或视频译码设备的实例。本发明可使用术语“视频处理装置”来指代处理视频数据的装置。源装置12及目的地装置14为视频处理装置的实例。其它类型的视频处理装置包含多工及解多工媒体数据(例如MPEG-2数据流式传输)的装置。
源装置12及目的地装置14可包括广泛范围的装置,所述装置包含桌上型计算机、移动计算装置、笔记型(例如,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能型”电话的电话手持机、电视、摄影机、显示装置、数字媒体播放机、视频游戏控制台、车载计算机或类似者。
目的地装置14可经由信道16从源装置12接收经编码视频数据。信道16可包括能够将经编码视频数据从源装置12移动到目的地装置14的一或多个媒体或装置。在一个实例中,信道16可包括使源装置12能够实时地将经编码视频数据直接传输到目的地装置14的一或多个通信媒体。在此实例中,源装置12可根据例如无线通信协议的通信标准来调制经编码视频数据,且可将经调制视频数据传输到目的地装置14。一或多个通信媒体可包含无线及/或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。一或多个通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络(例如,因特网))的部分。一或多个通信媒体可包含路由器、交换器、基站,或促进从源装置12到目的地装置14的通信的其它设备。
在另一实例中,信道16可包含存储由源装置12产生的经编码视频数据的存储媒体。在此实例中,目的地设备14可(例如)经由磁盘存取或卡存取而存取存储媒体。存储媒体可包含多种本地存取式数据存储媒体,例如蓝光光盘、DVD、CD-ROM、快闪存储器,或用于存储经编码视频数据的其它合适的数字存储媒体。
在另一实例中,信道16可包含存储由源装置12产生的经编码视频数据的文件服务器或另一中间存储装置。在此实例中,目的地装置14可经由流式传输或下载而存取存储于文件服务器或其它中间存储装置处的经编码视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据传输到目的地装置14的服务器类型。实例文件服务器包含网页服务器(例如,用于网站)、文件传送协议(file transfer protocol;FTP)服务器、网络附接存储(network attached storage;NAS)装置及本地磁盘驱动器。
目的地装置14可经由例如因特网连接的标准数据连接存取经编码视频数据。数据连接的实例类型可包含适用于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从文件服务器的传输可为流式传输、下载传输或两者的组合。
本发明的技术不限于无线应用或设定。所述技术可应用于支持多种多媒体应用的视频译码,例如空中电视广播、有线电视传输、卫星电视传输、流式视频传输,例如经由因特网编码存储于数据存储媒体上的视频数据、解码存储于数据存储媒体上的视频数据,或其它应用。在一些实例中,视频译码系统10可经配置以支持单向或双向视频传输,从而支持例如视频流式传输、视频播放、视频广播及/或视频电话的应用。
图1中所说明的视频译码系统10仅为实例,且本发明的技术可应用于不必包含编码装置与解码装置之间的任何数据通信的视频译码设定(例如,视频编码或视频解码)。在其它实例中,从经由网络或类似者而流式传输的本地存储器检索数据。视频编码装置可编码数据且将数据存储到存储器,及/或视频解码装置可从存储器检索数据并解码数据。在许多实例中,由彼此不通信但简单地将数据编码到存储器及/或从存储器检索并解码数据的装置来执行编码及解码。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一些实例中,输出接口22可包含调制器/解调器(调制解调器)及/或传输器。视频源18可包含例如摄像机的视频俘获装置、含有先前所俘获的视频数据的视频封存档、用以从视频内容提供者接收视频数据的视频馈入接口、及/或用于产生视频数据的计算机图形系统,或视频数据的这些源的组合。
视频编码器20可编码来自视频源18的视频数据。在一些实例中,源装置12经由输出接口22将经编码视频数据直接传输到目的地装置14。在其它实例中,经编码视频数据也可存储于存储媒体或文件服务器上,以供目的地装置14稍后存取以用于解码及/或播放。
在图1的实例中,目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些实例中,输入接口28包含接收器及/或调制解调器。输入接口28可经由信道16接收经编码视频数据。显示装置32可与目的地装置14集成或可在目的地装置14外部。总的来说,显示装置32显示经解码视频数据。显示装置32可包括各种显示装置,例如液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20及视频解码器30各自可实施为各种合适电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、硬件或其任何组合。如果所述技术部分实施于软件中,那么装置可存储指令以供合适的非暂时性计算机可读存储媒体中的软件使用且可使用一或多个处理器(例如,处理电路)在硬件中执行所述指令,从而执行本发明的技术。可将前述内容(包含硬件、软件、硬件与软件的组合等)中的任一者视为一或多个处理器。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的部分。
本发明可大体上指视频编码器20或将某些信息“用信号发送”或“传输”到另一装置(例如视频解码器30)的其它装置。术语“用信号发送”或“传输”可大体上指用于解码经压缩视频数据的语法元素及/或其它数据的通信。此通信可实时地或接近实时地发生。替代性地,此通信可在一时间跨度内发生,例如可在编码时在经编码位流中将语法元素存储到计算机可读存储媒体时发生,接着,可在存储到此媒体之后由解码装置在任一时间检索所述语法元素。
此外,在图1的实例中,视频译码系统10包含文件产生装置34。文件产生装置34可接收通过源装置12产生的经编码视频数据。文件产生装置34可产生包含经编码视频数据的文件。目的地装置14可接收由文件产生装置34产生的文件。在各种实例中,源装置12及/或文件产生装置34可包含各种类型的计算装置。举例来说,源装置12及/或文件产生装置34可包括视频编码装置、媒体察觉网络元件(MANE)、DASH察觉网络元件(DANE)、服务器计算装置、个人计算装置、专用计算装置、商购计算装置或另一类型的计算装置。在一些实例中,文件产生装置34为内容递送网络的部分。源装置12及/或文件产生装置34可经由例如链路16的信道从源装置12接收经编码视频数据。此外,目的地装置14可经由例如链路16的信道从文件产生装置34接收文件。文件产生装置34可视为视频装置。如图1的实例中所示,文件产生装置34可包括存储器31,所述存储器经配置以存储含有经编码视频内容的文件。
在一些实例中,源装置12或另一计算装置可产生包含经编码视频数据的文件。为了易于解释,本发明将源装置12通常描述为产生文件。然而,应理解这些描述可大体上适用于计算装置。
描述于本发明中的技术可以各种视频译码标准使用,包含不与特定视频译码标准相关的视频译码技术。视频译码标准的实例包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-TH.264或ISO/IEC MPEG-4AVC,包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展,及高效视频译码(HEVC),也被称作ITU-T H.265及ISO/IEC 23008-2,包含其可调式译码扩展(也即,可调式高效视频译码,SHVC)及多视图扩展(也即,多视图高效视频译码,MV-HEVC)。HEVC标准也可被称作Rec.ITU-T H.265|ISO/IEC 23008-2。
ITU-T SG 16WP 3及ISO/IEC JTC 1/SC 29/WG 11(日本札幌的第18次会议,2014年6月30日到2014年7月9日)的JCT-VC(JCTVC-R1013_v6)的题为“草案高效率视频译码(HEVC)第2版、组合的格式范围延伸(RExt)、可扩展性(SHVC),及多视图(MV-HEVC)延伸”的HEVC草案规范(下文中称为“JCTVC-R1013”或“Rec.ITU-T H.265|ISO/IEC 23008-2”)从http://phenix.int-evry.fr/jct/doc_end_user/documents/18_Sapporo/wg11/JCTVC-R1013-v6.zip获得。MV-HEVC并入为Rec.ITU-T H.265|ISO/IEC 23008-2的Annex G。SHVC并入为Rec.ITU-T H.265|ISO/IEC 23008-2的Annex H。
在HEVC及其它视频译码标准中,视频序列通常包含一系列图片。图片也可被称作“帧”。图片可包含一或多个样本阵列。举例来说,图片可包含三个样本阵列,标示为SL、SCb及SCr。SL为明度样本的二维阵列(也即,块)。SCb为Cb色度样本的二维阵列。SCr为Cr色度样本的二维阵列。在其它个例中,图片可为单色的且可仅包含明度样本阵列。
为了产生图片的经编码表示,视频编码器20可产生一组译码树型单元(CTU)。所述CTU中的每一者可包含明度样本的译码树型块(CTB)、色度样本的两个对应译码树型块,及用于对译码树型块的样本进行译码的语法结构。因此,图片的SL阵列可分割成CTB,图片的SCb阵列可分割成CTB,且图片的SCr阵列可分割成CTB。译码树型块可为样本的N×N块。CTU也可被称作“树型块”或“最大译码单元(LCU)”。HEVC的CTU可广泛地类似于例如H.264/AVC的其它标准的宏块。然而,CTU未必限于特定大小,且可包含一或多个译码单元(CU)。片段可包含按扫描次序(例如,光栅扫描次序)连续排序的整数数目个CTU。
为了产生经译码CTU,视频编码器20可对CTU的译码树型块递回地执行四叉树分割,以将译码树型块划分成译码块,因此命名为“译码树型单元”。译码块为样本的N×N块。CU可包含具有明度样本阵列、Cb样本阵列及Cr样本阵列的图片的明度样本的译码块及色度样本的两个对应译码块,及用于译码所述译码块的样本的语法结构。在单色图片或具有三个单独色彩平面的图片中,CU可包括单个译码块及用于译码所述译码块的样本的语法结构。
视频编码器20可将CU的译码块分割为一或多个预测块。预测块可为应用相同预测的样本的矩形(也即,正方形或非正方形)块。CU的预测单元(PU)可为图片的明度样本的预测块,图片的色度样本的两个对应预测块,及用以对所述预测块样本进行预测的语法结构。视频编码器20可产生CU的每一PU的明度、Cb及Cr预测块的预测性明度、Cb及Cr块。在单色图片或具有三个单独色彩平面的图片中,PU可包括单个预测块及用于预测所述预测块的语法结构。视频编码器20可使用帧内预测或帧间预测来产生PU的预测性块。
在视频编码器20产生CU的一或多个PU的预测性块之后,视频编码器20可产生CU的残余块。CU的残余块中的每一样本指示CU的PU的预测性块中的样本与CU的译码块中的对应样本之间的差异。举例来说,视频编码器20可产生CU的明度残余块。CU的明度残余块中的每一样本指示CU的PU的预测性明度块中的明度样本与CU的明度译码块中的对应样本之间的差异。另外,视频编码器20可产生CU的Cb残余块。CU的Cb残余块中的每一样本可指示CU的PU的预测性Cb块中的Cb样本与CU的Cb译码块中的对应样本之间的差异。视频编码器20也可产生CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的PU的预测性Cr块中的Cr样本与CU的Cr译码块中的对应样本之间的差异。
此外,视频编码器20可使用四叉树分割将CU的残余块(例如,明度、Cb及Cr残余块)分解成一或多个变换块(例如,明度、Cb及Cr变换块)。变换块可为应用相同变换的样本的矩形块。CU的变换单元(TU)可为明度样本的变换块、色度样本的两个对应变换块及用以对所述变换块样本进行变换的语法结构。因此,CU的每一TU可与明度变换块、Cb变换块及Cr变换块相关联。与TU相关联的明度变换块可为CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或具有三个单独色彩平面的图片中,TU可包括单个变换块及用以变换所述变换块的样本的语法结构。
视频编码器20可将一或多个变换应用于TU的变换块以产生TU的系数块。举例来说,视频编码器20可将一或多个变换应用于TU的明度变换块以产生TU的明度系数块。视频编码器20可将一或多个转变应用于TU的Cb变换块以产生TU的Cb系数块。视频编码器20可将一或多个变换应用于TU的Cr变换块以产生TU的Cr系数块。系数块可为变换系数的二维阵列。变换系数可为纯量。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器20可量化系数块。量化大体上指变换系数经量化以可能减少用以表示变换系数的数据的量从而提供进一步压缩的过程。在视频编码器20量化系数块之后,视频编码器20可熵编码指示经量化变换系数的语法元素。举例来说,视频编码器20可对指示经量化变换系数的语法元素执行上下文自适应性二进制算术译码(CABAC)。视频编码器20可在位流中输出经熵编码的语法元素。
视频编码器20可输出位流。位流可包含形成经译码图片及相关联数据的表示的位的序列。位流可包括网络抽象层(NAL)单元的序列。所述NAL单元中的每一者包含NAL单元标头且封装原始位组序列有效负载(RBSP)。NAL单元标头可包含指示NAL单元类型码的语法元素。通过NAL单元的NAL单元标头指定的NAL单元类型码指示NAL单元的类型。RBSP可为含有封装在NAL单元内的整数数目个位组的语法结构。在一些情况下,RBSP包含零个位。位流的NAL单元可包含经熵编码的语法元素。
不同类型的NAL单元可封装不同类型的RBSP。举例来说,不同类型的NAL单元可封装用于视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、经译码片段、补充增强信息(SEI)等的不同RBSP。举例来说,第一类型的NAL单元可封装PPS的RBSP,第二类型的NAL单元可封装经译码片段的RBSP,第三类型的NAL单元可封装补充增强信息(SEI)的RBSP等。封装视频译码数据的RBSP(与参数集及SEI消息的RBSP相反)的NAL单元可被称作视频译码层(VCL)NAL单元。举例来说,JCTVC-R1013将术语VCL NAL单元定义为用于经译码片段分段NAL单元及NAL单元的子集的集合术语,所述NAL单元具有经分类为JCTVC-R1013中的VCL NAL单元的nal_unit_type的保留值。SEI含有并非从VCL NAL单元解码经译码图片的样本必需的信息。
在图1的实例中,视频解码器30接收由视频编码器20产生的位流。另外,视频解码器30可解析位流以从位流获得语法元素。视频解码器30可至少部分基于从位流获得的语法元素来重建视频数据的图片。重建视频数据的过程可大体上与由视频编码器20执行的过程互逆。举例来说,视频解码器30可使用帧内预测或帧间预测来确定当前CU的PU的预测性块。另外,视频解码器30可反量化当前CU的TU的系数块。视频解码器30可对系数块执行反变换以重建当前CU的TU的变换块。通过将当前CU的PU的预测性块的样本添加到当前CU的TU的变换块的相对应样本,视频解码器30可重建当前CU的译码块。通过重建图片的每一CU的译码块,视频解码器30可重建图片。
在多视图译码中,可存在来自不同视点的相同场景的多个视图。在多视图译码的上下文中,术语“存取单元”可用以指代对应于同一时间实例的图片的集合。因此,视频数据可经概念化为随时间发生的一系列存取单元。“视图分量”可为单个存取单元中的视图的经译码表示。在本发明中,“视图”可指代与相同视图识别符相关联的视图分量的序列。在一些实例中,视图分量可为纹理视图分量(也即,纹理图片)或深度视图分量(也即,深度图片)。分层HEVC(也即,L-HEVC)可指代用于传输可具有多层视频数据的HEVC位流的技术,使用MV-HEVC或SHVC译码此位流。
在MV-HEVC及SHVC中,视频编码器20可产生包括一系列NAL单元的位流。位流的不同NAL单元可与位流的不同层相关联。可将层定义为具有相同层识别符的VCL NAL单元及相关联非VCL NAL单元的集合。层可等效于多视图视频译码中的视图。在多视图视频译码中,层可含有具有不同时间执行个体的相同层的所有视图分量。每一视图分量可为属于特定时间执行个体的特定视图的视频场景的经译码图片。在多视图或3维视频译码的一些实例中,层可含有特定视图的所有经译码深度图片或特定视图的经译码纹理图片。在3D视频译码的其它实例中,层可含有特定视图的纹理视图分量及深度视图分量两者。类似地,在可调式视频译码的上下文中,层通常对应于具有不同于其它层中的经译码图片的视频特性的经译码图片。这些视频特性通常包含空间分辨率及质量水平(例如,信噪比)。在HEVC及其扩展中,可在一层内通过将具有特定时间水平的图片群组定义为子层来实现时间可按比例调整性。
对于位流的每一相应层,可在不参考任何较高层中的数据的情况下解码较低层中的数据。在可调式视频译码中,例如,可在不参考增强层中的数据的情况下解码基础层中的数据。总的来说,NAL单元可仅封装单层的数据。因此,可从位流去除封装位流的最高剩余层的数据的NAL单元而不影响位流的剩余层中的数据的可解码性。在多视图译码中,较高层可包含额外视图分量。在SHVC中,较高层可包含信噪比(SNR)增强数据、空间增强数据及/或时间增强数据。在MV-HEVC及SHVC中,如果视频解码器可在不参考任何其它层的数据的情况下解码层中的图片,那么所述层可被称为“基础层”。基础层也可被称作层0。基础层可符合HEVC基础规格(例如,Rec.ITU-T H.265|ISO/IEC23008-2)。
在可调式视频译码中,不同于基础层的层可被称作“增强层”,且可提供增强从位流解码的视频数据的视觉质量的信息。可调式视频译码可增强空间分辨率、信噪比(也即,质量)或时间速率。在可调式视频译码(例如,SHVC)中,“层表示”可为单个存取单元中的空间层的经译码表示。为易于解释,本发明可将视图分量及/或层表示称作“视图分量/层表示”或简单地称作“图片”。
多视图译码支持视图间预测。视图间预测类似于HEVC中所使用的帧间预测,且可使用相同语法元素。然而,当视频译码器对当前视频单元(例如,PU)执行视图间预测时,视频编码器20可将处于与当前视频单元相同的存取单元中但处于不同视图中的图片用作参考图片。相反地,常规帧间预测仅将不同存取单元中的图片用作参考图片。因此,对一个层中的图片的解码可依赖于对另一层中的图片的解码。从而,一个层可被称为依赖于另一个层。对于任何两个层,如果第一层依赖于第二层,那么第二层可被称为第一层的参考层。
在多视图译码中,如果视频解码器(例如,视频解码器30)可无需参考任何其它视图中的图片而解码视图中的图片,那么所述视图可被称作“基础视图”。当对非基础视图中的一者中的图片进行译码时,视频译码器(例如视频编码器20或视频解码器30)可在图片与视频译码器当前正译码的图片处于不同视图中但在同一时间执行个体(也即,存取单元)内时将图片添加到参考图片列表中。类似于其它帧间预测参考图片,视频译码器可在参考图片列表的任何位置处插入视图间预测参考图片。
NAL单元可包含标头(也即,NAL单元标头)及有效负载(例如,RBSP)。NAL单元标头可包含层识别符语法元素。在HEVC中,此层识别符语法元素可被表示为nuh_reserved_zero_6bits语法元素或nuh_layer_id语法元素。具有指定不同值的nuh_layer_id语法元素的NAL单元属于位流的不同层。因此,在多视图译码、MV-HEVC、SVC或SHVC中,NAL单元的nuh_layer_id语法元素指定NAL单元的层识别符(也即,层ID)。如果NAL单元涉及多视图译码、MV-HEVC或SHVC中的基础层,那么NAL单元的nuh_layer_id语法元素等于0。可在不参考位流的任何其它层中的数据的情况下解码位流的基础层中的数据。如果NAL单元不涉及多视图译码、MV-HEVC或SHVC中的基础层,那么nuh_layer_id语法元素可具有非零值。在多视图译码中,位流的不同层可对应于不同视图。在SVC或SHVC中,不同于基础层的层可被称作“增强层”,且可提供增强从位流解码的视频数据的视觉质量的信息。
此外,可在不参考相同层内的其它图片的情况下解码单一层内的一些图片。因此,可从位流去除封装层的某些图片的数据的NAL单元而不影响所述层中的其它图片的可解码性。去除封装这些图片的数据的NAL单元可降低位流的帧速率。可在不参考层内其它图片的情况下解码的层内图片的子集可在本文中被称作“子层”或“时间子层”。
NAL单元可包含时间识别符语法元素。在HEVC中,时间识别符语法元素可被称为temporal_id语法元素。NAL单元的时间识别符(例如,temporal_id)语法元素指定NAL单元的时间识别符。NAL单元的时间识别符识别与NAL单元相关联的时间子层。因此,位流的每一时间子层可与不同时间识别符相关联。如果第一NAL单元的时间识别符小于第二NAL单元的时间识别符,那么可在不参考由第二NAL单元封装的数据的情况下解码由第一NAL单元封装的数据。
位流可与多个操作点相关联。在一些实例中,位流的每一操作点可与一组层识别符(也即,一组nuh_reserved_zero_6bits值或nuh_layer_id值)及时间识别符相关联。可将所述组层识别符标示为OpLayerIdSet,且可将时间识别符标示为TemporalID。如果NAL单元的层识别符在操作点的层识别符集合中且NAL单元的时间识别符小于或等于操作点的时间识别符,那么NAL单元与操作点相关联。因此,操作点可为通过子位流提取过程的操作而从另一位流产生的位流,其中另一位流、目标最高TemporalId及目标层识别符列表作为到子位流提取过程的输入。操作点可包含与操作点相关联的每一NAL单元。在一些实例中,操作点不包含不与操作点相关联的VCL NAL单元。
在HEVC中,每一NAL单元包含指示NAL单元的NAL单元类型的语法元素(例如nal_unit_type)。此外,在HEVC中,视频解码器30可基于NAL单元的NAL单元类型识别与多个图片类型中的一者相关联的NAL单元。这些图片类型可包含瞬时解码刷新(IDR)图片、清洁随机存取(CRA)图片、时间子层存取(TSA)图片、断链存取(BLA)图片及不为IDR、CRA或TSA图片的经译码图片。
HEVC及其它视频译码标准提供用于实现随机存取到位流中的机制。随机存取指从位流中的非第一经译码图片的经译码图片开始解码位流。随机存取位流可在例如广播及流式传输的各种视频应用中为所需的。随机存取位流可使用户能够在任何时间调谐到程序中,以在不同信道之间切换,以跳转到视频的特定部分,或以切换到用于流式传输调适(例如位速率的调适、帧速率的调适、空间分辨率的调适等)的不同位流。将随机存取点(RAP)图片以规律的间隔插入到位流中可实现随机存取。RAP图片的实例类型包含IDR图片、CRA图片及BLA图片。因此,IDR图片、CRA图片及BLA图片统称为随机存取点(RAP)图片。
IDR图片仅含有I片段(也即,仅使用帧内预测的片段)。IDR图片可为按解码次序在位流中的第一图片,或可稍后出现在位流中。每一IDR图片为按解码次序CVS的第一图片。如HEVC及H.264/AVC中指定的IDR图片可用于随机存取。然而,按解码次序在IDR图片之后的图片不可使用在IDR图片之前解码的图片作为参考。因此,依赖于IDR图片用于随机存取的位流与使用额外类型的随机存取图片的位流相比可具有显著较低的译码效率。IDR存取单元为含有IDR图片的存取单元。
IDR图片可使得解码程序将所有参考图片标记为“未用于参考”。由于标记为“未用于参考”的参考图片可从存储参考图片的经解码图片缓冲器(DPB)去除,因此IDR图片可清理出DPB。按解码次序在IDR图片之后的所有经译码图片可经解码而无需从按解码次序先于IDR图片的任何图片的帧间预测。按解码次序的每一译码视频序列的第一图片为IDR图片或BLA图片,或也为位流的第一图片的CRA图片。当存取单元的经译码图片为IDR图片时,存取单元可被称作IDR存取单元。在一些实例中,经译码视频序列为存取单元的序列,所述序列包含以下各者或由以下各者按解码次序组成:IDR存取单元,接着不为IRAP存取单元的零或多个存取单元,所述存取单元的NoRaslOutputFlag等于1,包含至多所有后续存取单元但不包含任何后续IDR存取单元。
理想地,以此方式的信道切换及跳转应以最小量的延迟进行。可通过在视频位流中以规律的间隔包含随机存取图片来实现信道切换及跳转。IDR图片可用于H.264/AVC及HEVC两者中作为随机存取图片。换句话说,在H.264/AVC及HEVC两者中指定的IDR图片可用于随机存取。然而,由于IDR图片开始经译码视频序列且可始终清理DPB,因此按解码次序在IDR图片之后的图片不可使用按解码次序在IDR图片之前解码的图片作为参考。因此,依赖于IDR图片用于随机存取的位流可具有显著较低的译码效率(例如低6%的译码效率)。为改进译码效率,HEVC中的CRA图片可允许按解码次序在CRA图片之后但按输出次序在CRA图片之前的图片使用在CRA之前解码的图片作为参考。
CRA及TSA图片类型在HEVC中为新的且不可用于H.264/AVC规范中。CRA图片类型促进从视频序列中间的任何随机存取点(RAP)开始的解码。在视频序列中插入CRA图片可比将IDR图片插入到同一视频序列中更有效。在HEVC中,从CRA图片开始的位流可为符合位流。也即,以CRA图片开始的位流的部分可符合HEVC规范。TSA图片可用以指示有效时间子层切换点。
CRA图片允许按解码次序在CRA图片之后但按输出次序在CRA图片之前的图片使用在CRA之前解码的图片作为参考。按解码次序在CRA图片之后,但按输出次序在CRA图片之前的图片被称作与CRA图片相关联的前置图片(或CRA图片的前置图片)。也即,为了改进译码效率,在HEVC中引入CRA图片以允许按解码次序在CRA图片之后但按输出次序在CRA图片之前的图片使用在CRA图片前解码的图片作为参考。CRA存取单元为其中经译码图片为CRA图片的存取单元。
如果解码从IDR图片或按解码次序在所述CRA图片前出现的CRA图片开始,那么可正确地解码CRA图片的前置图片。然而,在发生从CRA图片的随机存取时,CRA图片的前置图片可能不可解码。因此,视频解码器在随机存取解码期间通常解码CRA图片的前置图片。为防止从取决于解码开始处而可能不可用的参考图片的误差传播,按解码次序及输出次序两者在CRA图片后的图片无一者可使用按解码次序或输出次序在CRA图片前的任何图片(其包含前置图片)作为参考。
在引入CRA图片之后,在HEVC中引入断链存取(BLA)图片,且断链存取(BLA)图片基于CRA图片的概念。BLA图片通常源自在CRA图片的位置处拼接的位流,且在所述拼接的位流中将所述拼接点CRA图片改变成BLA图片。含有RAP图片的存取单元在本文中可被称作RAP存取单元。BLA存取单元为含有BLA图片的存取单元。
BLA图片与CRA图片之间的一个差异如下。对于CRA图片,如果解码开始于按解码次序在CRA图片前的RAP图片,那么可正确地解码相关联的前置图片。然而,当发生从CRA图片的随机存取时(也即,当解码从所述CRA图片开始时,或换句话说,当所述CRA图片为位流中的第一图片时),那么可能不正确地解码与所述CRA图片相关联的前置图片。相比之下,可能不存在与BLA图片相关联的前置图片可解码的情形,即使当解码从按解码次序在BLA图片前的RAP图片开始时也如此。
与特定CRA图片或特定BLA图片相关联的前置图片中的一些可正确地解码,即使当所述特定CRA图片或所述特定BLA图片为位流中的第一图片时也如此。这些前置图片可被称作可解码前置图片(DLP)。其它前置图片可被称作不可解码前置图片(NLP)。NLP也可被称作标记为抛弃(TFD)图片。
在位流中的任何点处,例如MANE、DANE的装置或其它类型的装置可在较低子层中的图片仍可解码的基础上开始去除较高子层的NAL单元,这是因为用于较低子层中的图片的解码程序不依赖于较高子层的NAL单元。去除具有高于某一值的时间识别符的所有NAL单元的动作可被称作时间向下切换。时间向下切换可始终是可能的。
时间子层向上切换可指从解码第一时间子层切换到解码第二时间子层,其中第二时间子层的时间识别符大于第一时间子层的时间识别符。此切换可与开始对直到这一刻才转发的某一子层的NAL单元进行转发相关联。在一些实例中,如果经切换的层中的图片中无一者依赖于在同一子层中在位流中执行切换的点之前的任一图片的情况下,仅可能为时间向上切换。在位流中时间向上切换为可能的点可被称为子层切换点。
在HEVC中,存在两种与子层切换点相关联的图片类型,即,时间子层存取(TSA)图片类型及逐步时间子层存取(STSA)图片类型。TSA及STSA图片类型可用于指示时间子层切换点。TSA图片实现在所述TSA图片处向上切换到含有TSA图片的子层或紧接着较低子层的任何较高子层。STSA图片实现在所述STSA图片处向上切换到紧接着较低子层的含有STSA图片的子层。因此,与TSA图片相比,STSA不必实现向上切换到任何较高子层,仅到含有STSA图片的子层。因此,与大体上时间向上切换相比,在第二子层的时间识别符确切地比第一时间子层的时间识别符大1的情况下,逐步时间子层向上切换可包括从解码第一时间子层切换到解码第二时间子层的动作。
在HEVC及其它编码解码中,帧内随机存取点(IRAP)存取单元为其中具有层识别符等于0的经译码图片为IRAP图片的存取单元。IRAP图片仅含有I片段且可为BLA图片、CRA图片或IDR图片。因此,BLA图片、CRA图片及IDR图片可为不同类型的IRAP图片的实例。在HEVC中,在位流中按解码次序的第一图片一定为IRAP图片。如果必要参数集在其需要经活化时为可使用的,那么可在未对按解码次序在IRAP图片之前的任何图片执行解码程序的情况下正确地解码IRAP图片及按解码次序的所有后续非随机存取跳过前置(RASL)图片。在位流中可存在仅含有并非IRAP图片的I片段的图片。
经编码视频数据可存储在符合各种文件格式标准的文件中。文件格式标准包含ISO基媒体文件格式(ISOBMFF,ISO/IEC 14496-12),及从ISOBMFF导出的其它格式,包含MPEG-4文件格式(ISO/IEC 14496-15)、3GPP文件格式(3GPP TS 26.244)及AVC文件格式(ISO/IEC 14496-15)。尽管最初设计用于存储,但ISOBMFF已经论证对流式传输而言(例如,对渐进式下载或经由HTTP的动态自适应流式传输(DASH)而言)非常有价值。为了流式传输目的,可使用在ISOBMFF中定义的电影片段。
ISO/IEC 14496-12及14496-15的新版本的草案文本可分别在http://phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip及http://phenix.int-evry.fr/mpeg/doc_end_user/documents/112_Warsaw/wg11/w15479-v2-w15479.zip处得到。在一些实例中,ISO/IEC 14496-12及14496-15的新版本的草案文本可在下文被称作“当前草案文件格式标准”。将ISOBMFF用作用于许多编码解码器封装格式(例如,AVC文件格式)以及用于许多多媒体容器格式(例如,MPEG-4文件格式、3GPP文件格式(3GP)及DVB文件格式)的基础。
除例如音频及视频的连续媒体之外,例如图像的静态媒体以及元数据可存储于符合ISOBMFF的文件中。根据ISOBMFF构造的文件可用于许多目的,包含本地媒体文件回放、渐进式下载远程文件、用于DASH的节段、用于待流式传输的内容的容器及其包化指令及录入所接收的实时媒体流。
逻辑框为ISOBMFF中的基本语法结构。逻辑框包含四字符译码逻辑框类型、逻辑框的位组计数及有效负载。ISOBMFF文件包含逻辑框的序列或由逻辑框的序列组成,且逻辑框可含有其它逻辑框。ISOBMFF定义各种类型的逻辑框。为使逻辑框的语法及语义发展,逻辑框可包含指示逻辑框的语法及语义版本的版本语法元素。举例来说,具有版本语法元素等于0的逻辑框可具有第一语法而具有版本语法元素等于1的相同类型的逻辑框可具有第二不同语法。
文件中的逻辑框可包含含有用于存在于文件中的连续媒体流的元数据的电影逻辑框(“moov”)。可将连续媒体流中的每一者在文件中表示为播放轨。举例来说,电影逻辑框可含有关于电影的元数据(例如,样本之间的逻辑及时序关系,以及指向样本的位置的指标)。电影逻辑框可包含若干类型的子逻辑框。电影逻辑框中的子逻辑框可包含一或多个播放轨逻辑框。
播放轨逻辑框可包含关于电影的个别播放轨的信息。播放轨逻辑框可包含指定单一播放轨的总信息的播放轨标头逻辑框。另外,播放轨逻辑框可包含含有媒体信息逻辑框的媒体逻辑框。媒体信息逻辑框可包含含有索引播放轨中的媒体样本的数据的样本表逻辑框。样本表逻辑框中的信息可用以按时间(且对于播放轨的样本中的每一者,按类型、大小、容器及到样本的所述容器的偏移)定位样本。因此,用于播放轨的元数据围封(例如,容纳在)在播放轨逻辑框(“trak”)中。播放轨的媒体内容围封在媒体数据逻辑框(“mdat”)中或直接在单独文件中。播放轨的媒体内容可包括样本的序列或由样本的序列组成,例如音频或视频存取单元。
此外,ISOBMFF指定以下类型的播放轨:媒体播放轨、暗示播放轨及定时元数据播放轨。媒体播放轨含有基本的媒体流。暗示播放轨包含媒体传输指令或表示接收的包流。定时元数据播放轨包括时间同步元数据。
用于每一播放轨的元数据包含一系列样本描述项。各样本描述项提供在播放轨中使用的译码或封装格式及用于处理所述格式所需的初始化数据。每一样本与播放轨的样本描述项中的一者相关联。
ISOBMFF实现通过各种机构指定样本特定元数据。样本表逻辑框(“stbl”)内的特定逻辑框已经标准化以响应普通需求。样本表逻辑框含有样本表,所述样本表含有媒体样本在播放轨中的所有时间及数据索引。使用样本表逻辑框中的表,可能可及时定位样本、确定其类型(例如I-帧或非I-帧)及确定其大小、容器,及到所述容器的偏移。举例来说,同步样本逻辑框(“stss”)为样本表逻辑框内的逻辑框。同步样本逻辑框(“stss”)用以列举播放轨的随机存取样本。本发明可将由同步样本逻辑框列出的样本称作为同步样本。如果样本中的视频数据NAL单元指示样本中含有的经译码图片为IDR图片,那么认为样本为同步样本。样本分群机构实现根据四字符分群类型将样本映射成共享指定为文件中的样本群组描述项的同一特性的样本的群组。已在ISOBMFF中指定若干分群类型。
电影片段逻辑框为顶级逻辑框。每一电影片段逻辑框提供将预先位于电影逻辑框中的信息。电影片段逻辑框可含有一或多个播放轨片段(“traf”)逻辑框。在电影片段内存在一组播放轨片段(每播放轨为零或多个)。播放轨片段继而含有零或多个播放轨行程,其中的每一者记录所述播放轨的样本的连续行程。举例来说,每一播放轨行程可含有按某一次序(例如解码次序)连续的图片的样本。播放轨片段逻辑框在14996-12规范中予以定义,且包括用于一或多个播放轨片段的元数据。举例来说,播放轨片段逻辑框可包含播放轨片段标头逻辑框,所述播放轨片段标头逻辑框指示播放轨ID、基本数据偏移、样本描述索引、默认样本历时、默认样本大小及默认样本旗标。播放轨片段逻辑框可包含一或多个播放轨片段行程逻辑框,每一者记录播放轨的连续样本集。举例来说,播放轨片段逻辑框可包含指示样本计数、数据偏移、样本旗标、样本历时、样本大小、样本组成时间偏移等等的语法元素。在这些结构内,许多字段是可选的,且可经默认。
样本分群为将播放轨中的样本中的每一者指配为一个样本群组中的一员。样本群组中的样本不需要是连续的。样本群组可由两个数据结构表示:SampleToGroup逻辑框及SampleGroupDescription逻辑框。SampleToGroup逻辑框也可被称作样本到群组逻辑框。SampleGroupDescription逻辑框也可被称作样本群组描述逻辑框。SampleToGroup逻辑框表示将样本指配到样本群组。SampleGroupDescription逻辑框描述相应样本群组的特性。
样本表逻辑框可包含一或多个SampleToGroup逻辑框及一或多个样本群组描述逻辑框(也即,SampleGroupDescription逻辑框)。SampleToGroup逻辑框可用以确定样本属于的样本群组,以及所述样本群组的相关联描述。换句话说,SampleToGroup逻辑框可指示样本属于的群组。SampleToGroup逻辑框可具有“sbgp”的逻辑框类型。
SampleToGroup逻辑框可包含分群类型元素(例如,grouping_type)。在一些情况下,在本发明中,逻辑框的元素也可被称作语法元素。分群类型元素可为识别样本分群的类型(也即,用以形成样本群组的规则)的整数。此外,SampleToGroup逻辑框可包含一或多个项(也即,样本群组项)。SampleToGroup逻辑框中的每一样本群组项可与播放轨中的一系列不同的非重叠连续样本相关联。每一样本群组项可指示样本计数元素(例如,sample_count)及群组描述索引元素(例如,group_description_index)。样本群组项的样本计数元素可指示与样本群组项相关联的样本的数目。换句话说,样本群组项的样本计数元素可为给出具有相同样本群组描述符的连续样本的数目的整数。群组描述索引元素可识别SampleGroupDescription逻辑框内的含有与样本群组项相关联的样本的描述的群组描述项。多个样本群组项的群组描述索引元素可识别相同SampleGroupDescription逻辑框。
ISOBMFF规范指定适用于DASH的六种类型流存取点(SAP)。前两个SAP类型(类型1及类型2)对应于H.264/AVC及HEVC中的IDR图片。第三SAP类型(类型3)对应于开放GOP随机存取点,因此对应于HEVC中的BLA或CRA图片。第四种SAP类型(类型4)对应于渐进解码刷新(GDR)随机存取点。
当前草案文件格式规范可存在一或多个问题。举例来说,为辅助L-HEVC文件中的随机存取及层与子层的切换,若干样本分群机构可供使用,例如:流存取点(‘sap’)样本群组、随机存取(‘rap’)点样本群组、同步样本(‘sync’)样本群组、随机存取恢复(‘roll’)样本群组、时间子层存取(‘tsas’)样本群组及逐步时间子层存取(‘stsa’)样本群组。
L-HEVC使同一存取单元(AU)中的不同层的图片为不同NAL单元类型。举例来说,在同一AU内,基础层中的图片为IRAP图片,而增强层中的图片可为非IRAP图片。由于L-HEVC使同一AU中的不同层的图片为不同NAL单元类型,因此其适用于指示含有特定图片类型(例如,IRAP或TSA等)的层。
在用于以文件格式存储L-HEVC层的14496-15的当前草案规范中,已指定用于描述流存取点分群(‘sap’样本群组)的目标层(也即,含有某一类型的图片类型的层)的机构。确切地说,在当前草案文件格式规范中,‘sap’样本群组逻辑框包含grouping_type_parameter语法结构,所述语法结构包含target_layers语法元素及layer_id_method_idc语法元素。用于播放轨的‘sap’样本群组逻辑框中的target_layers语法元素指定用于SAP的目标层。target_layers语法元素的语义取决于layer_id_method_idc语法元素的值。等于0的layer_id_method_idc语法元素指定所述目标层由所有由播放轨表示的层构成。由所导出的媒体格式规范指定不等于0的layer_id_method_idc。
然而,可能存在与描述目标层的机构相关的若干问题。举例来说,一个问题涉及‘sap’及‘roll’样本群组的描述。当前草案文件格式规范包含以下描述:
对于通过L-HEVC样本项类型所描述的视频数据,随机存取恢复样本群组识别全部L-HEVC位流中的随机存取恢复且流存取点样本群组识别全部L-HEVC位流中的随机存取点。
然而,措辞“全部L-HEVC位流中”并不明确。‘sap’及‘roll’样本群组为播放轨层级样本分群,而非位流或文件层级样本分群。这意味着每一播放轨可含有‘sap’样本群组及/或‘roll’样本群组且如果通过超过一个播放轨表示位流,那么在所述播放轨中的大于一者中可存在大于一个‘sap’或‘roll’样本群组。播放轨中的每一‘sap’或‘roll’样本群组应涵盖所述播放轨内的样本,且可能在含有存在于播放轨中的层的参考层的其它播放轨中。因此,如果指定‘sap’或‘roll’样本群组识别最高层含有于播放轨中的L-HEVC子位流(而非全部L-HEVC位流)的随机存取点或随机存取恢复点,那么将更明确。实际上,应使得‘sap’或‘roll’的描述更确切,以便由这些样本群组提供的任何信息对于全部L-HEVC位流的任何有效子集来说是正确的。对于适用于多层位流的任何其它样本群组(例如‘rap’及‘sync’样本群组)同样需要类似描述。
另一问题涉及用于除‘sap’外的样本分群的目标层描述。如上文所描述,存取单元中的未对准的图片类型的案例可在除流存取点案例之外的案例中发生。然而,用于描述目标层的机构仅指定用于‘sap’样本群组,而对于其它样本分群(例如‘rap’、‘sync’、‘roll’、‘tsas’及‘stsa’样本群组)为缺失的。
另一问题涉及目标层的范围。当解码从流存取点(例如,随机存取事件中)开始时,不仅存取播放轨的NAL单元,而且存取操作点的存取单元中的所有NAL单元,包含存储于其它播放轨中的那些(例如,在操作点的所需层存储在超过一个播放轨中的情况下)。然而,固有的是,目标层的范围应涵盖操作点的所有层。然而,在用于对‘sap’样本群组的目标层描述的当前机构中,目标层仅描述携载于含有‘sap’样本群组的播放轨中的层。此外,使所述目标层仅包含携载于含有所述样本群组的播放轨中的层具有以下所描述的问题。
另一问题涉及在获得操作点的‘sap’样本群组中所涉及的额外工作。操作点可包含可携载于一或多个播放轨中的一或多个层。当操作点的层携载于超过一个播放轨中时,为能够在所有所需层的SAP上获得信息,需要从操作点的所有所需播放轨提取并合并所有‘sap’样本群组信息。
另一问题涉及缺失操作点的‘sap’样本群组。如上所述,需要从操作点的所有所需播放轨提取并合并所有‘sap’样本群组信息。然而,由于‘sap’样本群组为任选的样本分群,因此不保证所有播放轨具有此信息。当操作点中的播放轨无‘sap’样本群组时,操作点的‘sap’样本群组信息(也即,在提取并合并所有需要播放轨中的可用的‘sap’样本群组之后)并不完整。
另一问题涉及‘sap’样本群组根本无IRAP样本的可能性。由于IRAP图片可在含有多层图片的AU中未对准,因此可能播放轨含有IRAP AU的图片但所述播放轨中的图片不为IRAP图片。图2为说明其中播放轨中的图片为IRAP AU的部分但不为IRAP图片的实例案例的概念图。确切地说,图2说明其中播放轨中的图片为IRAP AU的部分但其不为IRAP图片的实例案例。在图2的实例中,假设所需操作点包含BL(基础层)、EL1(增强层1)、EL2(增强层2)及EL3(增强层3),以使得需要播放轨01及播放轨02两者重建操作点的AU且两个播放轨也具有‘sap’样本群组信息。根据同步样本(且每一同步样本也为流存取点)的定义,AU N+1为流存取点AU且应将所述AU中的EL2及EL3图片视为流存取点并在播放轨02中的‘sap’样本群组中列出。
在当前文件格式规范中,并未明确地指定图2中所示的AU N+1中的EL2及EL3图片是否一定指定为属于‘sap’样本群组(如果此样本群组存在)。在需要此要求的情况下,则当操作点所需的播放轨当中的至少一个播放轨具有‘sap’样本群组时,操作点所需的所有播放轨一定具有‘sap’样本群组。
此外,在图2的实例中,假设AU N+1中的BL及EL1图片包含在存在于播放轨01中的‘sap’样本群组中。在此情况下,当前文件格式规范并未明确地指定如何确保AU N+1中的EL2及EL3图片包含于存在于播放轨02中的‘sap’样本群组中。另外,可能需要但目前尚未规定要求存在于操作点所需的播放轨中的‘sap’样本群组为时间上对准的约束条件。总的来说,‘约束条件’是对由数据符合的格式所指定的数据(例如文件或位流)的内容的需求或限制,但数据的语法未必需要。
另一问题涉及对L-HEVC播放轨中的layer_id_method_idc的值的约束。在当前文件格式草案规范中,当‘sap’样本项用于L-HEVC的上下文时,约束‘sap’样本群组描述的版本一定为1且layer_id_method_idc的值一定等于1。此约束似乎为冗余的且可能禁止用信号发送信息的更高效方法。如上所述,layer_id_method_idc的当前语义实际上如下定义:layer_id_method_idc指定target_layers的语义。等于0的layer_id_method_idc指定所述目标层由存在于播放轨中的所有层构成。由所导出的媒体格式规范指定不等于0的layer_id_method_idc。样本群组版本及layer_id_method_idc的其它值可用于更高效信号发送。举例来说,在L-HEVC的上下文中,可能定义,在‘sap’样本群组的版本等于0时,layer_id_method_idc的值经推断等于0,这也意味着所有层均为目标层。
以下技术可提供上述问题中的一或多者的解决方案及/或缓解上述问题中的一或多者。所述技术中的一些可独立地应用,且其中的一些可组合地应用。
根据本发明的第一技术,针对适用于多层位流(例如,L-HEVC位流)的所有样本群组,应要求或指定来自所述样本群组的信息对位流的任何有效子集来说是正确的。在HEVC的上下文中,位流的有效子集意味着位流的子集可通过符合此文件格式规范(ISO/IEC14996-15)的文件解析器解析且可通过符合HEVC规范的解码器解码。在第一技术的一些实例中,来自样本群组的信息对于从整个位流基于位流所呈现的操作点来创建的任何子位流来说是正确的。适用于多层位流的样本群组的实例包含(但不必限于):‘sap’、‘sync’、‘rap’、‘roll’、‘tsas’及‘stsa’样本群组。在一些实例中,已提出针对适用于多层位流(例如,L-HEVC位流)的所有样本群组,应要求或指定来自样本群组的信息对于任何操作点来说是正确的。因此,在一些实例中,装置(例如,源装置12、文件产生装置34等)可产生文件以使得针对适用于多层位流(例如,L-HEVC位流)的所有样本群组,来自样本群组的信息对于多层位流的任何有效子集来说是正确的。
在第一技术的一个实例中,可通过将以下文本添加到当前文件格式规范:“针对适用于通过HEVC译码的数据的所有样本群组及其导出项(例如,L-HEVC),不论使用L-HEVC数据的何种有效子集,由样本群组提供的信息为真”来实施第一技术。
替代地,在一些实例中,可通过将以下文本添加到当前文件格式规范:“如果‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组用于HEVC及L-HEVC两者可兼容的播放轨中,那么不论使用L-HEVC数据(可能仅HEVC数据)的何种有效子集,由样本群组提供的信息为真”来实施第一技术。
替代地,在一些实例中,可通过将以下文本添加到当前文件格式规范:“如果‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组用于HEVC及L-HEVC两者可兼容的播放轨中,那么不论使用L-HEVC数据的哪一个操作点,由样本群组提供的信息为真”来实施第一技术。
根据本发明的第二技术,已提出针对适用于多层位流(例如,L-HEVC位流)的所有样本群组,描述所述目标层(也即,其中特定图片类型-TSA、STSA、与恢复点SE消息相关的图片的层等)。在一些实例中,将描述流存取点(‘sap’)样本群组的目标层的此技术应用于其它样本群组。
根据本发明的第二技术,装置(例如,源装置12、文件产生装置34或另一装置)在用于存储多层位流的文件中产生围封用于播放轨的元数据的播放轨逻辑框。总的来说,产生逻辑框可包括将表示逻辑框的数据存储到文件中。播放轨含有媒体内容。播放轨的媒体内容可包括序列样本或由序列样本构成。所述序列样本中的每一样本可对应于存取单元。作为产生播放轨逻辑框的部分,所述装置在播放轨逻辑框中可包含含有样本群组描述项的样本描述逻辑框。所述装置在播放轨逻辑框还可包含播放轨的样本到群组逻辑框。样本到群组逻辑框将播放轨的样本映射到样本群组。样本群组包括共享由样本群组描述项所指定的特性的样本。样本到群组逻辑框在存在于播放轨中的层中指定目标层。举例来说,样本到群组逻辑框可包含在存在于播放轨中的层中指定目标层的语法元素。所述目标层中的每一者含有属于特定图片类型的至少一个图片。在一些情况下,样本群组为‘tsas’样本群组且所述特定图片类型为时间子层存取图片类型。在一些情况下,样本群组为‘stsa’样本群组且所述特定图片类型为逐步时间子层存取图片类型。
在本发明的第二技术的另一实例中,装置(例如,目的地装置14、MANE或另一装置)可从存储多层位流的文件中获得围封用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成视频数据的图片表示的位的序列。获得数据(例如操作点参考播放轨)可包括读取数据、解析数据或以其它方式执行某些动作以得到、获取或拥有数据。播放轨可含有媒体内容。播放轨的媒体内容可包括样本的序列。所述样本序列中的每一样本可对应于存取单元。作为获得播放轨逻辑框的部分,所述装置可从播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框。另外,作为获得播放轨逻辑框的部分,所述装置可从播放轨逻辑框获得播放轨的样本到群组逻辑框。样本到群组逻辑框可将播放轨的样本映射到样本群组中。样本群组可包括共享由样本群组描述项所指定的特性的样本。此外,所述装置可基于样本到群组逻辑框中的语法元素确定存在于播放轨中的层当中的目标层。所述目标层中的每一者可含有属于特定图片类型的至少一个图片。在此实例中,样本群组为以下中的一者:‘tsas’样本群组且所述特定图片类型为时间子层存取图片类型,或‘stsa’样本群组且所述特定图片类型为逐步时间子层存取图片类型。此外,所述装置可基于包含含有特定时间子层的经译码图片的层将TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
此外,对于‘rap’、‘sync’及‘roll’样本群组,能够确定所述目标层(也即,能够确定含有一或多个IRAP图片的层)可有助于应用程序(例如,视频播放机、文件解析器)理解可执行解码直到哪一层及在随机存取事件发生时的预期输出。举例来说,假设位流具有两个层,如果指示目的地装置14以快进(例如,对某些存取单元执行随机存取),那么目的地装置14可确定下一存取单元(AU)开始解码的位置(例如,包含用于所述相应层的随机存取点数据的AU)。将目的地装置14在其中基础层(BL)具有IRAP图片但增强层(EL)具有非IRAP图片的AU处执行随机存取的形式称作分层式启动解码。在分层式启动解码中,目的地装置14的视频解码器30仅解码BL图片且在IRAP图片稍后出现时解码BL及EL图片两者。因此,在此情况下,目的地装置14可以低分辨率回放位流一段时间且随后(尤其在视频解码器30解码ELIRAP图片之后)呈现较高分辨率。在另一方面,如果目的地装置14在其中BL及EL两者皆具有IRAP图片的AU处执行随机存取,那么目的地装置14的视频解码器30直接始于所述点解码BL及EL两者,这意味着目的地装置14直接从高分辨率播放。‘rap’、‘sync’及‘roll’样本群组产生信息以辅助目的地装置14、视频解码器30或其它应用程序选择开始执行随机存取时的样本/AU。
根据本发明的第三技术,适用于多层的样本分群中的目标层的范围不仅为存在于含有样本分群的播放轨中的层而且还包含由存在于播放轨中的层直接地及间接地参考的所有层。举例来说,播放轨的样本分群逻辑框(也即,SampleToGroup逻辑框)并非仅指示播放轨中的哪些层为目标层,所述样本分群逻辑框还可指示播放轨的层的哪些参考层为目标层。举例来说,第一播放轨可包含第一层及第二层。在此实例中,第二播放轨可包含第三层及第四层。此外,在此实例中,第三层可为第二层的参考层。在此实例中,第一播放轨的样本分群逻辑框可指示第一层及第三层为目标层。
在一些实例中,可通过将以下文本包含于文件格式标准中来实施本发明的第二及/或第三技术。
9.7.6用于随机存取及层/子层切换的样本群组
当样本群组用于多层内容时,下文为适用的:
-如果样本群组描述逻辑框及样本到群组逻辑框的版本等于1,那么grouping_type_parameter的语法及语义指定如下:
target_layers指定存在于播放轨中的所有层当中所指示的目标层,所述播放轨含有样本群组及由存在于含有样本群组的播放轨中的层直接地及间接地参考的所有层。target_layers的语义取决于layer_id_method_idc的值。当layer_id_method_idc等于0时,预留target_layers。
1.layer_id_method_idc指定target_layers的语义。等于0的layer_id_method_idc指定所述目标层由存在于播放轨中的所有层及由存在于播放轨中的层直接地及间接地参考的所有层构成。以下指定不等于0的layer_id_method_idc。
-另外,如果样本群组描述逻辑框及样本到群组逻辑框的版本等于0,那么所述目标层由存在于播放轨中的所有层及由存在于播放轨中的层直接地及间接地参考的所有层构成。
字段target_layers的长度为28位。字段中的每一位表示layerList中的一层,所述layerList含有存在于播放轨中的层及存在于其它播放轨中的参考层。将始于LSB的此字段的每一位按层ID的递升次序映射到layerList中的所述系列层ID。
举例来说,如果播放轨与含有层ID 0、1、4、10及29的layerList相关联,那么将层ID 0映射到最低有效位,将层ID 1映射到第二最低有效位,将层ID 4映射到第三最低有效位,将层ID 10映射到第四最低有效位,且将层ID 29映射到第五最低有效位。
其样本包含在同步样本样本群组、随机存取点样本群组或流存取点样本群组中且具有nuh_layer_id等于所指示目标层中的一个的存取单元中的图片为IRAP图片。
其样本包含在随机存取恢复样本群组中且具有nuh_layer_id等于所指示目标层中的一个的存取单元中的图片为渐进解码刷新图片。
其样本包含在时间子层存取样本群组中且具有nuh_layer_id等于所指示目标层中的一个的存取单元中的图片为TSA图片。
其样本包含在逐步时间子层存取样本群组中且具有nuh_layer_id等于所指示目标层中的一个的存取单元的图片为STSA图片。
表11:用于上文所述的实例使用案例的target_layer字段的位模式。
目标层的位模式(LSB最右位) SAP的层ID(在4、10、29当中)
000000000000000000000011 {1,0}
000000000000000000000101 {4,0}
000000000000000000001101 {10,4,0}
9.8.2层信息样本群组
9.8.2.1定义
逻辑框类型:‘linf’
容器:SampleGroupDescriptionBox(‘sgpd’)
必选:每一L-HEVC播放轨中均是
数量:一或多个‘linf’样本群组项
播放轨携载的系列层及子层在层信息样本群组中用信号发送。每一L-HEVC播放轨将携载一‘linf’样本群组。
9.8.2.2语法
9.8.2.3语义
num_layers_in_track:与此样本群组相关联的此播放轨的任何样本中携载的层的数目。
layer_id:相关联样本中携载的层的层ID。此字段的执行个体将在循环中为递升次序。
min_sub_layer_id:用于播放轨内的层中的子层的最小TemporalId值。
2.max_sub_layer_id:用于播放轨内的层中的子层的最大TemporalId值。
3.使layerList成为在此播放轨中携载的层的层ID及在其它播放轨中携载并通过在此播放轨中携载的层直接或间接参考的层的层ID的列表。layerList中的层ID按层ID值的递升次序而定序。举例来说,假设此播放轨携载具有层ID 4及5的层且其参考具有等于0及1的层ID的层,那么与此播放轨相关联的layerList为{0、1、4、5}。
因此,至少根据本发明的第二技术,装置(例如,源装置12、文件产生装置34或另一装置)可在样本到群组逻辑框中包含第一语法元素(例如,target_layers)及第二语法元素(例如,layer_id_method_idc)。第一语法元素指定所述目标层。第二语法元素指定第一语法元素的语义。类似地,在一实例中,第一语法元素(例如,target_layers)可指示存在于播放轨中的目标层。在此实例中,装置(例如,目的地装置14、MANE或另一装置)可从样本到群组逻辑框获得第二语法元素(例如,layer_id_method_idc),所述第二语法元素指定第一语法元素的语义。在此实例中,所述装置可根据由第二语法元素指定的语义解释第一语法元素以确定所述目标层。
根据本发明的第四技术,针对适用于多层位流(例如,L-HEVC位流)的所有样本群组,适用于操作点的样本群组为用于操作点的所需播放轨中的播放轨中的相应样本群组,其含有操作点的最高层的样本。举例来说,在一特定实例中,操作点包含第一层及第二层。在此实例中,第二层为操作点的最高层。在此实例中,文件的第一播放轨包含第一层且文件的第二播放轨包含第二层。此外,在此实例中,第一播放轨及第二播放轨两者皆包含同一类型的样本群组(例如,‘sap’)。因此,在此实例中,由于第二播放轨包含操作点的最高层,因此第二播放轨中的样本群组适用于操作点。如果样本群组的样本中的操作点的经编码图片具有特定特性,那么包括具有所述特定特性的样本的样本群组适用于操作点。举例来说,如果‘sap’样本群组的每一样本包含为流存取点且在操作点中的经编码图片,那么‘sap’样本群组适用于操作点。由于仅单个样本群组适用于操作点,因此可不必要从包含操作点的层的所有播放轨提取并合并所有样本群组信息。此可解决上文所述的关于在获得用于操作点的‘sap’样本群组中所涉及的额外工作的问题。
在第四技术的一些实例中,已提出适用于操作点的‘sap’、‘sync’、‘rap’、‘roll’、‘tsas’或‘stsa’样本群组为用于操作点所需播放轨中的播放轨中的相应样本群组,其含有操作点的最高层的样本。因此,先前段关于‘sap’样本群组的实例可适用于‘sync’、‘rap’、‘roll’、‘tsas’或‘stsa’样本群组。举例来说,装置(例如,源装置12、文件产生装置34或另一装置)可基于含有操作点的最高层的样本的播放轨而用信号发送所述播放轨中的样本群组。类似地,装置(例如,目的地装置14、MANE或另一装置)可基于含有操作点的最高层的样本的播放轨确定所述播放轨包含所述样本群组。因此,这些实例类似于先前段中所提供的实例,但适用于额外样本群组类型。在第四技术的一些实例中,适用于操作点的‘sap’、‘sync’、‘rap’、‘roll’、‘tsas’或‘stsa’样本群组为相应样本群组的集合,其中相应样本群组的集合中的合并目标层包含操作点的所有层。此段中所提供的实例可解决上文所述的关于缺失用于操作点的‘sap’样本群组的问题。
根据本发明的第五技术,对于第四技术施加以下约束:第一,在操作点所需的播放轨当中的至少一个播放轨具有‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组时,操作点所需的所有播放轨一定也分别具有相应的样本群组。举例来说,假设操作点包含第一层及第二层。在此实例中,第一层在第一播放轨中且第二层在第二播放轨中。此外,在此实例中,如果第一播放轨具有‘sap’样本群组,那么约束条件要求第二播放轨具有‘sap’样本群组。在此实例中,如果第一播放轨具有‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组,上述情况也同样适用。
根据本发明的第五技术的第二约束条件,操作点所需的存在于播放轨中的‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’及‘stsa’样本群组为时间上对准的。举例来说,对于特定解码时间,如果第一层具有图片,那么第二层一定也具有图片。
根据本发明的第六技术,提出第五技术中的约束条件,其中将术语‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组改变成适用于多层位流的所有样本群组。举例来说,根据本发明的第六技术,上文所述的关于第五技术的约束条件并非仅适用于‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组,上文所述的关于第五技术的约束条件还相对于适用于L-HEVC文件格式的所有类型的样本群组来应用。
根据本发明的第七技术,当‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组用于L-HEVC的上下文且相应样本群组描述的版本等于0时,据推断含有样本群组的播放轨中的所有层及由播放轨中的层直接且间接参考的可能所有层均为目标层。在一些实例中,这意味着当样本群组描述的版本等于0时,推断layer_id_method_idc的值等于0。举例来说,样本群组描述具有某一版本。当样本群组描述的版本不等于0时,存在额外信息(也即,所谓的grouping_parameter)在样本到群组逻辑框中用信号发送。对于那些群组类型,此grouping_parameter用以指示所述目标层。第七技术使得那些分群具有等于0的版本且当版本等于0时,解释文件的装置能够确定所有层为目标层。
根据本发明的第八技术,提出第七技术中的约束条件,其中将术语‘sap’、‘rap’、‘sync’、‘roll’、‘tsas’或‘stsa’样本群组改变成适用于多层位流的所有样本群组。因此,对于所有分群类型,当样本群组描述的版本为0时,解释文件的装置能够针对所有分群类型确定所有层为目标层。
本发明的第九技术涉及‘sbas’播放轨参考。使最低操作点为由分别具有dependency_id、temporal_id及quality_id的最小值的DTQ(dependency_id、temporal_id及quality_id)组合表示的所有操作点中的一者。DTQ为在H.264/AVC中所指定的概念。确切地说,如H.264/AVC规范的第G.7.4.1.1项所描述,dependency_id指定NAL单元的依附性识别符,temporal_id指定NAL单元的时间识别符且quality_id指定NAL单元的质量识别符。具有旗标“complete_representation”集合且含有最低操作点的播放轨将提名为‘可调式基本播放轨’。为同一可调式经编码信息的部分的所有其它播放轨将以播放轨参考类型‘sbas’(可调式基本)的方式与此基本播放轨有关。根据本发明的第九技术,适用于多层位流(例如,L-HEVC位流)的所有样本群组(在存在时)将仅含有于由其它播放轨使用‘sbas’播放轨参考所参考的播放轨中。举例来说,文件格式可指定要求适用于多层位流的所有样本群组在可调式基本播放轨中的约束条件。替代地,在一些实例中,对于适用于多层位流(例如,L-HEVC位流)的所有样本群组(在存在时),其将仅含有于携载操作点信息的播放轨中。
本发明提出若干技术(例如,上文所述的第一到第九技术)。这些技术中的一些可独立地应用,且其中的一些可组合地应用。举例来说,第一、第二、第三及/或第四技术的实例可组合使用;第一、第二、第三及/或第五技术的实例可组合使用;第一、第二、第三及/或第六技术的实例可组合使用;且以此类推可组合使用,此为不详尽的组合列表。
图3为说明根据本发明的一或多种技术的文件300的实例结构的框图。文件300可由各种装置(例如源装置12(图1)、文件产生装置34(图1)或另一装置)产生。在图3的实例中,文件300包含电影逻辑框302及多个媒体数据逻辑框304。尽管在图3的实例中说明为在同一文件中,但在其它实例中,电影逻辑框302及媒体数据逻辑框304可在单独的文件中。如上所指示,逻辑框可为由唯一类型识别符及长度定义的目标导向式构建块。举例来说,逻辑框可为ISOBMFF中的基本语法结构,包含四字符译码逻辑框类型、逻辑框的位组计数及有效负载。
电影逻辑框302可含有用于文件300的播放轨的元数据。文件300的每一播放轨可包括媒体数据的连续流。媒体数据逻辑框304中的每一者可包含一或多个样本305。样本305中的每一者可包括音频或视频存取单元。如在本发明中其它处所描述,在多视图译码(例如,MV-HEVC及3D-HEVC)及可调式视频译码(例如,SHVC)中,每一存取单元可包括多个经译码图片。举例来说,存取单元可包含用于每一层的一或多个经译码图片。
此外,在图3的实例中,电影逻辑框302包含播放轨逻辑框306。播放轨逻辑框306可围封用于文件300的播放轨的元数据。在其它实例中,电影逻辑框302可包含用于文件300的不同播放轨的多个播放轨逻辑框。播放轨逻辑框306包含媒体逻辑框307。媒体逻辑框307可含有声明关于播放轨内的媒体数据的信息的所有目标。媒体框307包含媒体信息逻辑框308。媒体信息逻辑框308可含有声明播放轨的媒体的特征信息的所有目标。媒体信息逻辑框308包含样本表逻辑框309。样本表逻辑框309可指定样本特定元数据。样本表逻辑框309可包含零个或多个SampleToGroup逻辑框及零个或多个SampleGroupDescription逻辑框。
在图3的实例中,样本表逻辑框309包含SampleToGroup逻辑框310及SampleGroupDescription逻辑框312。在其它实例中,样本表逻辑框309可包含除SampleToGroup逻辑框310及SampleGroupDescription逻辑框312以外的其它逻辑框,及/或可包含多个SampleToGroup逻辑框及SampleGroupDescription逻辑框。SampleToGroup逻辑框310可将样本(例如,样本305中的特定者)映射到样本的群组。SampleGroupDescription逻辑框312可指定由样本的群组(也即,样本群组)中的样本共享的性质。
此外,在图3的实例中,SampleToGroup逻辑框310包含grouping_type语法元素313(也即,分群类型语法元素)、grouping_type_parameter语法结构314(也即,分群类型参数语法结构)、entry_count语法元素316(也即,项计数语法元素)及一或多个样本群组项318。Grouping_type语法元素313为整数,其识别样本分群的类型(也即,用以形成样本群组的准则)且将其联接到其具有相同分群类型值的样本群组描述表。在一些实例中,对于播放轨,存在具有用于grouping_type语法元素313的相同值的SampleToGroup逻辑框310的至多一个出现。
Grouping_type_parameter语法结构314包含target_layers语法元素320(也即,目标层语法元素)及layer_id_method_idc语法元素322。Target_layers语法元素320指示用于与SampleToGroup逻辑框310相对应的样本群组的目标层。layer_id_method_idc语法元素322指示用于解释target_layers语法元素320的语义。
Entry_count语法元素316指示样本群组项318的数目。样本群组项318中的每一者包含sample_count语法元素324(也即,样本计数语法元素)及group_description_index语法元素326(也即,群组描述索引语法元素)。Sample_count语法元素324可指示与含有sample_count语法元素324的样本群组项相关联的样本的数目。Group_description_index语法元素326可在SampleGroupDescription逻辑框(例如,SampleGroupDescription逻辑框312)内识别含有与含有group_description_index语法元素326的样本群组项相关联的样本描述的群组描述项。Group_description_index语法元素326可介于1到SampleGroupDescription逻辑框312中的样本群组项的数目的范围内。具有值0的Group_description_index语法元素326指示样本并非为通过grouping_type语法元素313指示的群组类型的成员。
根据本发明的第二技术,grouping_type语法元素313可指示SampleToGroup逻辑框310为‘sap’、‘sync’、‘rap’、‘roll’、‘tsas’或‘stsa’样本群组且可包含target_layers语法元素320。
另外,在图3的实例中,SampleGroupDescription逻辑框312包含grouping_type语法元素328、entry_count语法元素330及一或多个群组描述项332。Grouping_type语法元素328为识别与SampleGroupDescription逻辑框312相关联的SampleToGroup逻辑框(例如,SampleToGroup逻辑框310)的整数。Entry_count语法元素330指示SampleGroupDescription逻辑框中的群组描述项332的数目。群组描述项332中的每一者可包含样本群组的描述。
图4为说明根据本发明的一或多种技术的文件450的实例结构的框图。文件450可由各种装置(例如源装置12(图1)、文件产生装置34(图1)或另一装置)产生。在图4的实例中,文件450包含一或多个电影片段逻辑框452及多个媒体数据逻辑框454。电影片段逻辑框可用于将较大媒体流分段为较小块。尽管在图4的实例中说明为在同一文件中,但在其它实例中,电影片段逻辑框452及媒体数据逻辑框454可在单独的文件中。媒体数据逻辑框454中的每一者可包含一或多个样本456。电影片段逻辑框中的每一者对应于一电影片段。每一电影片段可包括一组播放轨片段。每播放轨可存在零个或多个播放轨片段。
在图4的实例中,电影片段逻辑框452提供关于对应电影片段的信息。此信息可能先前已处于例如电影逻辑框302(图3)的电影逻辑框中。电影片段逻辑框452可包含播放轨片段逻辑框458。播放轨片段逻辑框458对应于播放轨片段,且提供关于播放轨片段的信息。
举例来说,在图4的实例中,播放轨片段逻辑框458可包含含有关于对应于播放轨片段逻辑框458的播放轨片段的信息的一或多个SampleToGroup逻辑框462及一或多个SampleGroupDescription逻辑框464。
此外,在图4的实例中,SampleToGroup逻辑框462包含grouping_type语法元素470(也即,分群类型语法元素)、grouping_type_parameter语法结构472(也即,分群类型参数语法结构)、entry_count语法元素474(也即,项计数语法元素)及一或多个样本群组项476。Grouping_type_parameter语法结构472包含target_layers语法元素478(也即,目标层语法元素)及layer_id_method_idc语法元素480。Target_layers语法元素478指示用于与SampleToGroup逻辑框462相对应的样本群组的目标层。layer_id_method_idc语法元素480指示用于解释target_layers语法元素478的语义。样本群组项476中的每一者包含sample_count语法元素482(也即,样本计数语法元素)及group_description_index语法元素484(也即,群组描述索引语法元素)。Grouping_type语法元素470、entry_count语法元素474、target_layers语法元素478、layer_id_method_idc语法元素480、sample_count语法元素482及group_description_index语法元素484可具有与相对于图3的实例所描述的相应语法元素相同的语义。
根据本发明的第二技术,grouping_type语法元素470可指示SampleToGroup逻辑框462为‘sap’、‘sync’、‘rap’、‘roll’、‘tsas’或‘stsa’样本群组且可包含target_layers语法元素478。
另外,在图4的实例中,SampleGroupDescription逻辑框464中的每一者可包含grouping_type语法元素486、entry_count语法元素488及一或多个群组描述项490。Grouping_type语法元素486、entry_count语法元素488及群组描述项490可具有与相对于图3的实例所描述的相应语法元素及结构相同的语义。
图5为说明实例视频编码器20的框图。出于解释的目的而提供图5,且不应将所述图视为对如本发明中所广泛例示及描述的技术的限制。出于解释的目的,本发明在HEVC译码的上下文中描述视频编码器20。然而,本发明的技术可适用于其它译码标准或方法。
在图5的实例中,视频编码器20包含预测处理单元100、视频数据存储器101、残余产生单元102、变换处理单元104、量化单元106、反量化单元108、反变换处理单元110、重构建单元112、滤波器单元114、经解码图片缓冲器116及熵编码单元118。预测处理单元100包含帧间预测处理单元120及帧内预测处理单元126。帧间预测处理单元120可包含运动估计单元及运动补偿单元(未展示)。在其它实例中,视频编码器20可包含较多、较少或不同功能的组件。
视频数据存储器101可存储待由视频编码器20的组件编码的视频数据。存储于视频数据存储器101中的视频数据可(例如)从视频源18(图1)获得。经解码图片缓冲器116可为存储用于由视频编码器20在编码视频数据(例如,以帧内或帧间译码模式)时使用的参考视频数据的参考图片存储器。视频数据存储器101及经解码图片缓冲器116可由各种存储器装置中的任一者形成,例如,动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。可由同一存储器装置或单独存储器装置提供视频数据存储器101及经解码图片缓冲器116。在各种实例中,视频数据存储器101可与视频编码器20的其它组件一起在芯片上,或相对于那些组件而在芯片外。
视频编码器20接收视频数据。视频编码器20可编码视频数据的图片的片段中的每一CTU。所述CTU中的每一者可与相等大小的明度译码树型块(CTB)及图片的对应CTB相关联。作为编码CTU的部分,预测处理单元100可执行四叉树分割以将CTU的CTB分割成逐渐较小的块。较小块可为CU的译码块。
视频编码器20可编码CTU的CU以产生CU的经编码表示(也即,经译码CU)。作为编码CU的部分,预测处理单元100可分割与CU的一或多个PU当中的CU相关联的译码块。因此,每一PU可与明度预测块及对应的色度预测块相关联。视频编码器20及视频解码器30可支持具有各种大小的PU。
帧间预测处理单元120可通过对CU中的每一PU执行帧间预测而产生PU的预测性数据。PU的预测性数据可包含PU的预测性块及PU的运动信息。帧内预测处理单元126可通过对PU执行帧内预测而产生用于PU的预测性数据。PU的预测性数据可包含PU的预测性块及各种语法元素。
预测处理单元100可从由帧间预测处理单元120产生的PU的预测性数据或由帧内预测处理单元126产生的PU的预测性数据当中选择CU的PU的预测性数据。在一些实例中,预测处理单元100基于预测性数据的集合的速率/失真度量而选择用于CU的PU的预测性数据。所选择的预测性数据的预测性块在本文中可被称作所选择的预测性块。
残余产生单元102可基于CU的译码块及用于CU的PU的选定预测性块而产生用于CU的残余块。举例来说,残余产生单元102可产生CU的残余块,使得残余块中的每一样本具有等于CU的译码块中的样本与CU的PU的对应选定预测性块中的对应样本之间的差的值。
变换处理单元104可执行四叉树分割以将与CU相关联的残余块分割成与CU的TU相关联的变换块。因此,TU可与明度变换块及两个色度变换块相关联。变换处理单元104可通过将一或多个变换应用于TU的变换块而产生用于CU的每一TU的变换系数块。在这些实例中,变换块可经处理为变换系数块。
量化单元106可量化系数块中的变换系数。量化过程可减小与所述系数中的一些或全部相关联的位深度。反量化单元108及反变换处理单元110可分别将反量化及反变换应用于系数块,以从系数块重构建残余块。重构建单元112可将经重构建的残余块添加到来自由预测处理单元100产生的一或多个预测性块的对应样本,以产生与TU相关联的经重建变换块。通过以此方式重构CU的每一TU的变换块,视频编码器20可重构建CU的译码块。
过滤器单元114可执行一或多个解块操作以减少与CU相关联的译码块中的块伪影。在滤波器单元114对经重构译码块执行一或多个解块操作之后,经解码的图片缓冲器116可存储经重构建的译码块。帧间预测处理单元120可使用含有经重构建译码块的参考图片,以对其它图片的PU执行帧间预测。另外,帧内预测处理单元126可使用经解码图片缓冲器116中的经重构建译码块来对与CU相同的图片中的其它PU执行帧内预测。
熵编码单元118可从视频编码器20的其它功能组件接收数据。举例来说,熵编码单元118可从量化单元106接收系数块,且可从预测处理单元100接收语法元素。熵编码单元118可对数据执行一或多个熵编码操作,以产生经熵编码的数据。视频编码器20可输出包含由熵编码单元118产生的经熵编码数据的位流。举例来说,位流可包含表示CU的RQT的数据。
此外,在图5的实例中,文件处理单元128可获得由视频编码器20产生的位流。文件处理单元128可通过装置(例如源装置12、文件产生装置34、内容递送网络装置或另一类型的装置)的一或多个处理器或处理电路来实施。文件处理单元128可产生存储由视频编码器20产生的位流的文件。计算机可读媒体130可接收由文件处理单元128产生的文件。在一些实例中,计算机可读媒体130包括例如存储器、光学光盘、磁盘或计算装置能够从其读取数据的其它类型的非暂时性存储媒体的计算机可读存储媒体。在其中计算机可读媒体130包括计算机可读存储媒体的一些实例中,计算机可读存储媒体可形成装置(例如源装置12(图1)、文件产生装置34(图1)、内容递送网络装置或另一类型装置)的部分。在一些实例中,计算机可读取媒体130包括计算机可读通信媒体,例如光纤、通信电缆、电磁波或计算装置能够从其读取数据的其它类型的媒体。
根据本发明的技术,文件处理单元128可产生含有用于播放轨的元数据的播放轨逻辑框。作为产生播放轨逻辑框的部分,文件处理单元128可在播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框。此外,作为产生播放轨逻辑框的部分,文件处理单元128可在播放轨逻辑框中产生用于播放轨的样本到群组逻辑框。样本到群组逻辑框将播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本。样本到群组逻辑框可指定存在于播放轨中的层当中的目标层。所述目标层中的每一者含有属于特定图片类型的至少一个图片。举例来说,样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型。
图6为说明实例视频解码器30的框图。出于解释的目的而提供图6,且其并不限制如本发明中所广泛例示及描述的技术。出于解释的目的,本发明描述在HEVC译码的上下文中的视频解码器30。然而,本发明的技术可适用于其它译码标准或方法。
在图6的实例中,视频解码器30包含熵解码单元150、视频数据存储器151、预测处理单元152、反量化单元154、反变换处理单元156、重构建单元158、滤波器单元160,及经解码图片缓冲器162。预测处理单元152包含运动补偿单元164及帧内预测处理单元166。在其它实例中,视频解码器30可包含较多、较少或不同功能的组件。
视频数据存储器151可存储待由视频解码器30的组件解码的视频数据,例如经编码视频位流。可(例如)从信道16,(例如)从本地视频源(例如相机)经由视频数据的有线或无线网络通信或通过存取物理数据存储媒体来获得存储于视频数据存储器151中的视频数据。视频数据存储器151可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。经解码图片缓冲器162可为在存储视频解码器30(例如)以帧内或帧间译码模式解码视频数据时所使用的参考视频数据的参考图片存储器。视频数据存储器151及经解码图片缓冲器162可由各种存储器装置中的任一者形成,例如,动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。可由同一存储器装置或单独存储器装置提供视频数据存储器151及经解码图片缓冲器162。在各种实例中,视频数据存储器151可与视频解码器30的其它组件一起在芯片上,或相对于那些组件而在芯片外。
视频数据存储器151接收且存储位流的经编码视频数据(例如,NAL单元)。熵解码单元150可从CPB接收经编码视频数据(例如,NAL单元)并解析NAL单元以获得语法元素。熵解码单元150可熵解码NAL单元中的经熵编码语法元素。预测处理单元152、反量化单元154、反变换处理单元156、重构建单元158及滤波器单元160可基于从位流提取的语法元素产生经解码视频数据。熵解码单元150可执行大体上与熵编码单元118的所述过程互逆的过程。
除从位流获得语法元素之外,视频解码器30可对未经分割的CU执行重构建操作。为对CU执行重构建操作,视频解码器30可对CU的每一TU执行重构建操作。通过对CU的每一TU执行重构建操作,视频解码器30可重构建CU的残余块。
作为对CU的TU执行重构建操作的部分,反量化单元154可对与TU相关联的系数块进行反量化(也即,解量化)。在反量化单元154反量化系数块之后,反变换处理单元156可将一或多个反变换应用于系数块,以便产生与TU相关联的残余块。举例来说,反转变处理单元156可将反DCT、反整数变换、反Karhunen-Loeve变换(KLT)、反旋转变换、反定向变换或另一反变换应用于系数块。
如果使用帧内预测编码PU,那么帧内预测处理单元166可执行帧内预测以产生PU的预测性块。帧内预测处理单元166可使用帧内预测模式来基于样本空间相邻块产生PU的预测性块。帧内预测处理单元166可基于从位流获得的一或多个语法元素确定用于PU的帧内预测模式。
如果使用帧间预测编码PU,那么熵解码单元150可确定PU的运动信息。运动补偿单元164可基于PU的运动信息而确定一或多个参考块。运动补偿单元164可基于一或多个参考块产生PU的预测性块。
重构建单元158可使用CU的TU的变换块及CU的PU的预测性块(也即,帧内预测数据或帧间预测数据)作为可适用以重建CU的译码块。举例来说,重构建单元158可将所述变换块的样本添加到所述预测性块的相应样本中以重构建CU的译码块。
滤波器单元160可执行解块操作以减少与CU的译码块相关联的块伪影。视频解码器30可将CU的译码块存储在经解码图片缓冲器162中。经解码图片缓冲器162可提供参考图片以用于后续运动补偿、帧内预测及在显示装置(例如,图1的显示装置32)上的呈现。举例来说,视频解码器30可基于经解码图片缓冲器162中的块对其它CU的PU执行帧内预测或帧间预测操作。
在图6的实例中,计算机可读媒体148包括例如存储器、光学光盘、磁盘或计算装置能够从其读取数据的其它类型的非暂时性存储媒体的计算机可读存储媒体。在其中计算机可读媒体148包括计算机可读存储媒体的一些实例中,计算机可读存储媒体可形成装置(例如源装置12(图1)、文件产生装置34(图1)、内容递送网络装置或另一类型装置)的部分。在一些实例中,计算机可读取媒体148包括计算机可读通信媒体,例如光纤、通信电缆、电磁波或计算装置能够从其读取数据的其它类型的媒体。
此外,在图6的实例中,文件处理单元149从计算机可读取媒体148接收文件或文件的部分。文件处理单元149可通过装置(例如目的地装置14、MANE、内容递送网络装置或另一类型的装置)的一或多个处理器或处理电路来实施。
文件处理单元149可处理文件。举例来说,文件处理单元149可从文件获得NAL单元。在图6的实例中,通过视频解码器30接收的经编码视频位流可包括从文件获得的NAL单元。
根据本发明的技术,文件处理单元149可从存储多层位流的文件获得含有用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成视频数据的图片表示的位的序列。作为获得播放轨逻辑框的部分,文件处理单元149可从播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框。此外,作为获得播放轨逻辑框的部分,文件处理单元149可从播放轨逻辑框获得用于播放轨的样本到群组逻辑框,所述样本到群组逻辑框将播放轨的样本映射到样本群组中。样本群组可包括共享由样本群组描述项所指定的特性的样本。此外,文件处理单元149可基于样本到群组逻辑框中的语法元素确定存在于播放轨中的层当中的目标层。所述目标层中的每一者含有属于特定图片类型的至少一个图片。样本群组为以下中的一者:TSA样本群组且所述特定图片类型为时间子层存取图片类型,或STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型。文件处理单元149可基于包含含有特定时间子层的经译码图片的层的目标层将TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。文件处理单元149可从识别样本提取经编码视频数据且将所提取的视频数据提供到视频解码器30,由此实现时间子层向上切换。
图7为说明根据本发明的技术的实例操作的流程图。将本发明的流程图提供为实例。在其它实例中,可执行较多、较少或不同的操作或可以不同次序或同时执移动作。
在图7的实例中,源装置12的视频源18可获得视频数据(180)。举例来说,如在本发明中其它处所描述,视频源18可包括从所检测光获得视频数据的一或多个相机。视频数据可包括图片的序列。此外,在图7的实例中,源装置12的视频编码器20可产生包括形成视频数据的图片表示的位的序列的多层位流(182)。举例来说,视频编码器20可根据如在本发明中其它处所描述的L-HEVC编码解码器产生多层位流。
随后,装置可产生存储多层位流的文件(184)。存储文件可包括将表示文件的数据存储到数据存储媒体。在一些实例中,源装置12(图1)内的单元产生文件。在一些实例中,例如文件产生装置34(图1)的单独装置产生文件。在一些实例中,文件处理单元128(图5)产生文件。在图7的实例中,作为产生文件的部分,所述装置可产生样本(186)。总的来说,产生样本可包括存储表示样本的数据。样本可包含多层位流的相同存取单元的一或多个经译码图片的NAL单元。产生样本可包括产生含有NAL单元的集合的逻辑框。此外,作为产生文件的部分,所述装置可识别共享特性的样本(188)。举例来说,所述装置可识别包含TSA图片或STSA图片的样本。此外,在图7的实例中,所述装置可产生播放轨逻辑框(190)。以下所描述的图8提供其中装置产生播放轨逻辑框的实例操作。如下所述,所述装置可产生将播放轨的样本映射到样本群组中的样本到群组逻辑框,其中样本群组包括共享所述特性的样本。
图8为说明其中根据本发明的技术产生播放轨逻辑框的处理视频数据的实例操作的流程图。图8的实例符合上文所述的本发明的第二技术。
在图8的实例中,装置(例如,源装置12(图1)、文件产生装置34(图1)、文件处理单元128(图4)或另一装置或单元)在存储多层位流的文件中产生围封用于播放轨的元数据的播放轨逻辑框(200)。总的来说,产生逻辑框可包括存储表示逻辑框的数据。播放轨含有媒体内容。播放轨的媒体内容可包括样本的序列或由样本的序列构成。所述序列样本中的每一样本可对应于存取单元。作为产生播放轨逻辑框的部分,所述装置在播放轨逻辑框中可包含含有样本群组描述项的样本描述逻辑框(202)。将样本描述逻辑框包含于播放轨逻辑框中可包括将数据存储到数据存储媒体以使得所存储的数据经解释为播放轨逻辑框的部分。所述装置在播放轨逻辑框中还可包含用于播放轨的样本到群组逻辑框(204)。将样本到群组逻辑框包含于播放轨逻辑框中可包括将数据存储到数据存储媒体以使得所存储的数据经解释为播放轨逻辑框的部分。样本到群组逻辑框将播放轨的样本映射到样本群组中。样本群组包括共享由样本群组描述项所指定的特性的样本。样本到群组逻辑框指定存在于播放轨中的层当中的目标层。举例来说,样本到群组逻辑框可包含指定存在于播放轨中的层当中的目标层的语法元素。所述目标层中的每一者含有属于特定图片类型的至少一个图片。在一些情况下,样本群组为‘tsas’样本群组且所述特定图片类型为时间子层存取图片类型。在一些情况下,样本群组为‘stsa’样本群组且所述特定图片类型为逐步时间子层存取图片类型。
图9为说明根据本发明的技术的实例操作的流程图。在图9的实例中,例如目的地装置14(图1)的装置或实施文件处理单元149(图6)的装置可获得文件或文件的部分(220)。举例来说,所述装置可下载文件或接收文件的部分的流。在一些实例中,所述装置可从本地存储器获得文件。
另外,在图9的实例中,所述装置可发送含有通过文件封装的多层位流的第一时间子层的文件的文件提取单元样本(222)。在一些实例中,所述装置可经由一或多个通信媒体发送样本。在一些实例中,可经由内部互连件将样本发送或存储到计算机可读存储媒体中的特定位置。此外,如图9的实例中展示,文件提取单元可从文件的样本(包含识别的样本)提取经编码视频数据(224)。在一些实例中,文件处理单元149(图6)发挥文件提取单元的作用。可通过从文件复制经编码视频数据而从文件提取经编码视频数据。视频解码器30可解码从文件提取的经编码视频数据(226)。视频解码器30可以在本发明中其它处所描述的方式解码经编码视频数据。目的地装置14的显示装置32可输出经解码视频数据(228)。
此外,在图9的实例中,所述装置可做出执行时间子层向上切换到第二时间子层的确定(230)。第二时间子层可具有比第一时间子层的时间识别符更大的时间识别符。在一些实例中,所述装置可响应于来自目的地装置14、视频解码器30或另一装置或单元的要求做出执行时间子层向上切换的确定。在一些实例中,所述装置可响应于其它事件(例如检测到网络吞吐量增加)做出执行时间子层向上切换的确定。
响应于做出执行时间子层向上切换的确定,所述装置可识别含有第二时间子层的TSA或STSA图片的文件的样本(232)。如果第二时间子层的时间识别符比第一时间子层的时间识别符大1,那么STSA图片为可接受的。作为识别样本的部分,所述装置可执行图10的过程。因此,如下文相对于图10所描述,基于TSA或STSA样本群组的样本到群组逻辑框中所指定的目标层为特定时间子层,所述装置可确定特定样本包含第二时间子层的TSA或STSA图片。
所述装置可将识别样本及识别样本属于的播放轨的潜在后续样本传送到文件提取单元。因此,所述装置可将含有第二时间子层的经译码图片的文件的样本传送到文件提取单元(234)。文件提取单元可从文件的样本(包含识别样本)提取经编码视频数据(224)。视频解码器30可解码从文件提取的经编码视频数据(226)。因此,当视频解码器30接收识别样本的经编码视频数据时,视频解码器30可开始解码特定时间子层的经编码视频数据。以此方式,视频解码器30可执行时间子层向上切换。目的地装置14的显示装置32可输出经解码视频数据(228)。
图10为说明根据本发明的技术用于处理视频数据的装置的实例操作的流程图。图10的操作可由例如目的地装置14(图1)、MANE、文件服务器、流式传输服务器或另一类型装置的各种装置执行。
在图10的实例中,所述装置从文件获得围封用于播放轨的元数据的播放轨逻辑框(250)。播放轨可含有媒体内容。播放轨的媒体内容可包括样本的序列。所述序列样本中的每一样本可对应于一存取单元。
此外,在图10的实例中,作为获得播放轨逻辑框的部分,所述装置可从播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框(252)。举例来说,所述装置可读取文件中的样本描述逻辑框。此外,作为获得播放轨逻辑框的部分,所述装置可从播放轨逻辑框获得用于播放轨的样本到群组逻辑框(254)。举例来说,所述装置可读取文件中的样本到群组逻辑框。样本到群组逻辑框可将播放轨的样本映射到样本群组中。样本群组可包括共享由样本群组描述项所指定的特性的样本。
在图10的实例中,所述装置可基于样本到群组逻辑框中的语法元素(例如,target_layers语法元素)确定存在于播放轨中的层当中的目标层(256)。所述目标层中的每一者可含有属于特定图片类型的至少一个图片。样本群组可为以下中的一者:‘tsas’样本群组且所述特定图片类型为时间子层存取图片类型,或‘stsa’样本群组且所述特定图片类型为逐步时间子层存取图片类型。
此外,所述装置可基于包含含有特定时间子层的经译码图片的层的目标层将TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层(258)。特定时间子层可为上文相对于图9所提及的第二时间子层。因此,特定时间子层为待发生向上切换的时间子层。假设特定时间子层的经译码图片属于特定层,如果样本包含属于特定层的TSA或STSA图片,那么样本可适合于时间子层向上切换到特定时间子层。举例来说,如果特定时间子层的经译码图片处于层2中且由给定播放轨的TSA或STSA样本群组所指示的目标层包含层2,那么所述装置可将给定播放轨的TSA或STSA样本群组的样本识别为适合于时间子层向上切换到特定时间子层。
应理解,本文所描述的所有技术可单独地或以组合方式使用。应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可以不同序列执行、可添加、合并或完全省略(例如,对于实践所述技术而言并非所有所描述的动作或事件均为必要的)。此外,在某些实例中,可(例如)经由多线程处理、中断处理或多个处理器同时而非依序执移动作或事件。另外,虽然出于清晰目的,本发明的某些方面被描述为由单一模块或单元执行,但应理解,本发明的技术可由与视频译码器相关联的单元或模块的组合来执行。
出于说明的目的,已相对于HEVC标准描述本发明的某些方面。然而,本发明中所描述的技术可适用于其它视频译码过程,包含尚未开发的其它标准或专有视频译码过程。
上文所描述的技术可通过源装置12、目的地装置14、文件产生装置34或其它装置执行。视频编码器20及视频解码器30可大体上被称作视频译码器。同样地,视频译码可指视频编码或视频解码(在可适用时)。
虽然在上文描述所述技术的各种方面的特定组合,但提供这些组合仅为了说明本发明中描述的技术的实例。因此,本发明的技术不应限于这些实例组合,且可涵盖本发明中描述的技术的各种方面的任何可设想组合。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码而在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包含有助于将计算机程序从一处传送到另一处(例如,根据通信协议)的任何媒体的通信媒体。以此方式,计算机可读媒体大体可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包括计算机可读媒体。处理器可以各种方式耦合到数据存储媒体。举例来说,处理器可经由内部装置互连件、有线或无线网络连接或另一通信媒体耦合到数据存储媒体。
作为实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用以存储呈指令或数据结构的形式的所要的程序代码且可由计算机存取的任何其它媒体。此外,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光缆、双绞线、数字用户线(DSL)或无线技术(例如红外线、无线电及微波)从网站、服务器或其它远程源传输指令,那么同轴缆线、光缆、双绞线、DSL或无线技术(例如红外线、无线电及微波)包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实际上有关于非暂时性有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含于计算机可读媒体的范围内。
本发明中所描述的功能可通过固定功能及/或可编程处理电路执行。举例来说,指令可通过固定功能及/或可编程处理电路执行。指令可由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成电路或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代前述结构或适用于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供在经配置用于编码及解码的专有硬件及/或软件模块内,或并入合并的编码解码器中。此外,所述技术可在一或多个电路或逻辑元件中充分实施。处理电路可以各种方式耦合到其它组件。举例来说,处理电路可经由内部装置互连件、有线或无线网络连接或另一通信媒体耦合到其它组件。
可以多种装置或设备实施本发明的技术,所述装置或设备包含无线手机、集成电路(IC)或IC的集合(例如,芯片集合)。在本发明中描述各种组件、模块或单元以强调经配置以执行所公开技术的装置的功能方面,但未必需要通过不同硬件单元来实现。实际上,如上文所描述,各种单元可结合合适的软件及/或固件组合于编码解码器硬件单元中或由包含如上文所描述的一或多个处理器的互操作硬件单元的集合提供。
已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (24)

1.一种处理视频数据的方法,所述方法包括:
在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成所述视频数据的图片的表示的位的序列,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中产生所述播放轨逻辑框包括:
在所述播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框;以及
在所述播放轨逻辑框中产生用于所述播放轨的样本到群组逻辑框,
所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本,
所述样本到群组逻辑框指定所述播放轨中所存在的层当中的目标层,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层存取STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型。
2.根据权利要求1所述的方法,其中包含所述样本到群组逻辑框包括:
在所述样本到群组逻辑框中包含第一语法元素及第二语法元素,所述第一语法元素指定所述目标层,所述第二语法元素指定所述第一语法元素的语义。
3.根据权利要求1所述的方法,其中包含所述样本到群组逻辑框包括:
在所述样本到群组逻辑框中包含指定由存在于所述播放轨中的所述层直接或间接参考的层当中的所述目标层的语法元素。
4.根据权利要求1所述的方法,
其中所述样本群组可适用于操作点,且
所述方法进一步包括基于含有所述操作点的最高层的样本的所述播放轨而用信号发送所述播放轨中的所述样本群组。
5.一种处理视频数据所述的方法,所述方法包括:
从存储多层位流的文件获得含有用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成所述视频数据的图片的表示的位的序列,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中获得所述播放轨逻辑框包括:
从所述播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框;及
从所述播放轨逻辑框获得用于所述播放轨的样本到群组逻辑框,所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本;
基于所述样本到群组逻辑框中的语法元素确定存在于所述播放轨中的层当中的目标层,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;以及
基于包含含有所述特定时间子层的经译码图片的层的所述目标层将所述TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
6.根据权利要求5所述的方法,其中所述语法元素为第一语法元素,获得所述样本到群组逻辑框包括:
从所述样本到群组逻辑框获得第二语法元素,所述第二语法元素指定所述第一语法元素的语义;及
根据由所述第二语法元素所指定的所述语义解释所述第一语法元素以确定所述目标层。
7.根据权利要求5所述的方法,其中所述语法元素指定由存在于所述播放轨中的所述层直接或间接参考的层当中的所述目标层。
8.根据权利要求5所述的方法,
其中所述样本群组可适用于操作点,且
所述方法进一步包括基于含有操作点的最高层的样本的播放轨来确定所述播放轨包含所述样本群组。
9.一种用于处理视频数据的装置,所述装置包括:
一或多个处理电路,其经配置以:
在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成所述视频数据的图片的表示的位的序列,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中所述一或多个处理电路经配置以使得作为产生所述播放轨逻辑框的部分,所述一或多个处理电路:
在所述播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框;以及在所述播放轨逻辑框中产生用于所述播放轨的样本到群组逻辑框,
所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本,
所述样本到群组逻辑框指定所述播放轨中所存在的层当中的目标层,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层存取STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及
数据存储媒体,其耦合到所述一或多个处理电路,所述数据存储媒体经配置以存储所述文件。
10.根据权利要求9所述的装置,其中所述一或多个处理电路经配置以使得作为包含所述播放轨逻辑框中的所述样本到群组逻辑框的部分,所述一或多个处理电路:
在所述样本到群组逻辑框中包含第一语法元素及第二语法元素,所述第一语法元素指定所述目标层,所述第二语法元素指定所述第一语法元素的语义。
11.根据权利要求9所述的装置,其中所述一或多个处理电路经配置以使得作为包含所述播放轨逻辑框中的所述样本到群组逻辑框的部分,所述一或多个处理电路:
在所述样本到群组逻辑框中包含指定由存在于所述播放轨中的所述层直接或间接参考的层当中的所述目标层的语法元素。
12.根据权利要求9所述的装置,
其中所述样本群组可适用于操作点,且
所述一或多个处理电路经配置以基于含有所述操作点的最高层的样本的所述播放轨来用信号发送所述播放轨中的所述样本群组。
13.一种用于处理视频数据的装置,所述装置包括:
数据存储媒体,其经配置以存储文件,所述文件存储包括形成所述视频数据的图片的表示的位的序列的多层位流;及
一或多个处理电路,其耦合到所述数据存储媒体,所述一或多个处理电路经配置以:
从所述文件获得含有用于播放轨的元数据的播放轨逻辑框,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中所述一或多个处理电路经配置以使得作为获得所述播放轨逻辑框的部分,所述一或多个处理电路:
从所述播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框;及
从所述播放轨逻辑框获得用于所述播放轨的样本到群组逻辑框,所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本;
基于所述样本到群组逻辑框中的语法元素确定存在于所述播放轨中的层当中的目标层,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层存取STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及
基于包含含有所述特定时间子层的经译码图片的层的所述目标层将所述TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
14.根据权利要求13所述的装置,其中所述语法元素为第一语法元素,所述一或多个处理电路经配置以:
从所述样本到群组逻辑框获得第二语法元素,所述第二语法元素指定所述第一语法元素的语义;及
根据由所述第二语法元素所指定的所述语义解释所述第一语法元素以确定所述目标层。
15.根据权利要求13所述的装置,其中所述一或多个处理电路经配置以基于所述样本到群组逻辑框中的语法元素来确定所述目标层,所述样本到群组逻辑框指定由存在于所述播放轨中的所述层直接或间接参考的层当中的所述目标层。
16.根据权利要求13所述的装置,
其中所述样本群组可适用于操作点,且
所述一或多个处理电路经进一步配置以基于含有操作点的最高层的样本的播放轨来确定所述播放轨包含所述样本群组。
17.一种用于处理视频数据的装置,所述装置包括:
用于在存储多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框的装置,所述多层位流包括形成所述视频数据的图片的表示的位的序列,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中用于产生所述播放轨逻辑框的所述装置包括:
用于在所述播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框的装置;及
用于在所述播放轨逻辑框中产生用于所述播放轨的样本到群组逻辑框的装置,
所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本,
所述样本到群组逻辑框指定所述播放轨中所存在的层当中的目标层,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层存取STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及
用于存储所述文件的装置。
18.根据权利要求17所述的装置,其中所述语法元素为第一语法元素,且用于包含所述播放轨逻辑框中的所述样本到群组逻辑框的所述装置包括:
在所述样本到群组逻辑框中包含第二语法元素的装置,所述第二语法元素指定所述第一语法元素的语义。
19.一种用于处理视频数据的装置,所述装置包括:
用于存储文件的装置,所述文件存储包括形成所述视频数据的图片的表示的位的序列的多层位流;及
用于从所述文件获得含有用于播放轨的元数据的播放轨逻辑框的装置,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中用于获得所述播放轨逻辑框的所述装置包括:
用于从所述播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框的装置;
用于从播放轨逻辑框获得用于所述播放轨的样本到群组逻辑框的装置,所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本;
用于基于所述样本到群组逻辑框中的语法元素确定存在于所述播放轨中的层当中的目标层的装置,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层存取STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及
用于基于包含含有所述特定时间子层的经译码图片的层的所述目标层将所述TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
20.根据权利要求19所述的装置,其进一步包括:
用于从所述样本到群组逻辑框中获得第一语法元素及第二语法元素的装置,所述第一语法元素指定所述目标层,所述第二语法元素指定所述第一语法元素的语义;
用于根据由所述第二语法元素所指定的所述语义解释所述第一语法元素以确定所述目标层的装置。
21.一种具有存储于其上的指令的计算机可读存储媒体,所述指令在经执行时使得用于处理视频数据的装置:
在存储包括多层位流的文件中产生含有用于播放轨的元数据的播放轨逻辑框,所述多层位流包括形成所述视频数据的图片的表示的位的序列,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中,作为使得所述装置产生所述播放轨逻辑框的部分,所述指令使得所述装置:
在所述播放轨逻辑框中产生含有样本群组描述项的样本描述逻辑框;及
在所述播放轨逻辑框中产生用于所述播放轨的样本到群组逻辑框,
所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本,
所述样本到群组逻辑框指定所述播放轨中所存在的层当中的目标层,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层存取STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型。
22.根据权利要求21所述的计算机可读存储媒体,其中,作为配置所述装置以包含所述播放轨逻辑框中的所述样本到群组逻辑框的部分,所述指令使得所述装置:
在所述样本到群组逻辑框中包含第一语法元素及第二语法元素,所述第一语法元素指定所述目标层,所述第二语法元素指定所述第一语法元素的语义。
23.一种具有存储于其上的指令的计算机可读存储媒体,所述指令在经执行时使得用于处理视频数据的装置:
存储文件,所述文件存储包括形成所述视频数据的图片的表示的位的序列的多层位流;及
从所述文件获得含有用于播放轨的元数据的播放轨逻辑框,所述播放轨含有媒体内容,所述播放轨的所述媒体内容包括样本的序列,其中作为使得所述装置获得所述播放轨逻辑框的部分,所述指令使得所述装置:
从所述播放轨逻辑框获得含有样本群组描述项的样本描述逻辑框;及
从所述播放轨逻辑框获得用于所述播放轨的样本到群组逻辑框,所述样本到群组逻辑框将所述播放轨的样本映射到样本群组中,所述样本群组包括共享由所述样本群组描述项所指定的特性的样本;
基于所述样本到群组逻辑框中的语法元素确定存在于所述播放轨中的层当中的目标层,
所述目标层中的每一者含有属于特定图片类型的至少一个图片,且
所述样本群组为以下中的一者:
时间子层存取TSA样本群组且所述特定图片类型为时间子层存取图片类型,或
逐步时间子层存取STSA样本群组且所述特定图片类型为逐步时间子层存取图片类型;及
基于包含含有所述特定时间子层的经译码图片的层的所述目标层将所述TSA或STSA样本群组中的样本识别为适合于时间子层向上切换到特定时间子层。
24.根据权利要求23所述的计算机可读数据存储媒体,其中所述语法元素为第一语法元素,且所述指令配置一或多个处理电路以:
从所述样本到群组逻辑框获得第二语法元素,所述第二语法元素指定所述第一语法元素的语义;及
根据由所述第二语法元素所指定的所述语义解释所述第一语法元素以确定所述目标层。
CN201680059424.2A 2015-10-14 2016-10-06 用于处理视频数据的方法、装置和计算机可读存储介质 Active CN108353191B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562241713P 2015-10-14 2015-10-14
US62/241,713 2015-10-14
US15/286,273 2016-10-05
US15/286,273 US20170111642A1 (en) 2015-10-14 2016-10-05 Support of random access and switching of layers and sub-layers in multi-layer video files
PCT/US2016/055754 WO2017066075A1 (en) 2015-10-14 2016-10-06 Support of random access and switching of layers and sub-layers in multi-layer video files

Publications (2)

Publication Number Publication Date
CN108353191A true CN108353191A (zh) 2018-07-31
CN108353191B CN108353191B (zh) 2020-11-17

Family

ID=57200104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680059424.2A Active CN108353191B (zh) 2015-10-14 2016-10-06 用于处理视频数据的方法、装置和计算机可读存储介质

Country Status (5)

Country Link
US (1) US20170111642A1 (zh)
EP (1) EP3363204B1 (zh)
CN (1) CN108353191B (zh)
TW (1) TW201717631A (zh)
WO (1) WO2017066075A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089397A1 (en) * 2020-10-26 2022-05-05 Beijing Bytedance Network Technology Co., Ltd. Roll sample group in vvc video coding

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200204785A1 (en) * 2017-06-15 2020-06-25 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, device for transmitting 360-degree video, and device for receiving 360-degree video
CN113557733A (zh) 2019-03-11 2021-10-26 华为技术有限公司 视频译码中的逐步解码刷新
GB2585052B (en) * 2019-06-26 2023-07-26 Canon Kk Method and apparatus for encapsulating panorama images in a file
CN115299049A (zh) * 2020-03-20 2022-11-04 字节跳动有限公司 视频编解码中子图片信息的使用
US11451811B2 (en) * 2020-04-05 2022-09-20 Tencent America LLC Method and apparatus for video coding
KR20240042167A (ko) * 2020-05-20 2024-04-01 베이징 다지아 인터넷 인포메이션 테크놀로지 컴퍼니 리미티드 비디오 코딩에서의 신택스 엘리먼트의 시그널링을 위한 방법 및 장치
CN115552911A (zh) * 2020-05-20 2022-12-30 北京达佳互联信息技术有限公司 视频编解码中语法元素的通用约束信息和信令
US11750815B2 (en) 2020-09-17 2023-09-05 Lemon, Inc. Versatile video coding track coding
WO2022060192A1 (ko) * 2020-09-17 2022-03-24 엘지전자 주식회사 출력 계층 세트 정보를 시그널링하는 미디어 파일 생성/수신 방법, 장치 및 미디어 파일을 저장한 컴퓨터 판독 가능한 기록 매체
US11611752B2 (en) 2020-10-07 2023-03-21 Lemon Inc. Adaptation parameter set storage in video coding
CN114845134B (zh) * 2020-10-16 2023-01-24 腾讯科技(深圳)有限公司 文件封装方法、文件传输方法、文件解码方法及相关设备
US20230319374A1 (en) * 2020-12-15 2023-10-05 Lg Electronics Inc. Method and device for creating/receiving media file containing layer information, and media file transfer method
US11677934B2 (en) * 2021-09-24 2023-06-13 Apple Inc. Encoding and decoding video content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103141115A (zh) * 2010-10-05 2013-06-05 瑞典爱立信有限公司 用于媒体流传送的客户端、内容创建器实体及其方法
CN104704830A (zh) * 2012-10-04 2015-06-10 高通股份有限公司 用于视频数据的文件格式
CN104838660A (zh) * 2012-10-02 2015-08-12 夏普株式会社 发信号通知步进式时间子层访问样本的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070108434A (ko) * 2006-01-09 2007-11-12 한국전자통신연구원 SVC(Scalable Video Coding)파일포맷에서의 데이터 공유 개선방법
GB2516826B (en) * 2013-07-23 2016-06-22 Canon Kk Method, device and computer program for encapsulating partitioned timed media data by creating tracks to be independently encapsulated in at least one media f
US9648348B2 (en) * 2013-10-23 2017-05-09 Qualcomm Incorporated Multi-layer video file format designs
US10136153B2 (en) * 2015-02-04 2018-11-20 Telefonaktiebolaget Lm Ericsson (Publ) DRAP identification and decoding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103141115A (zh) * 2010-10-05 2013-06-05 瑞典爱立信有限公司 用于媒体流传送的客户端、内容创建器实体及其方法
CN104838660A (zh) * 2012-10-02 2015-08-12 夏普株式会社 发信号通知步进式时间子层访问样本的方法
CN104704830A (zh) * 2012-10-04 2015-06-10 高通股份有限公司 用于视频数据的文件格式

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XP-002765116: "Text of ISO/IEC FDIS 14496-15:2014(E)", 《MPEG MEETING》 *
XP-002765124: "Text of ISO/IEC 14496-12 fifth edtion", 《MPEG MEETING》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089397A1 (en) * 2020-10-26 2022-05-05 Beijing Bytedance Network Technology Co., Ltd. Roll sample group in vvc video coding

Also Published As

Publication number Publication date
TW201717631A (zh) 2017-05-16
WO2017066075A1 (en) 2017-04-20
EP3363204A1 (en) 2018-08-22
EP3363204B1 (en) 2020-08-19
CN108353191B (zh) 2020-11-17
US20170111642A1 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
CN108353191A (zh) 在多层视频文件中支持随机存取及层与子层的切换
CN105659607B (zh) 多层视频文件格式设计
KR101951615B1 (ko) 멀티-계층 비트스트림들 파일 포맷에서의 동작 지점 샘플 그룹의 정렬
CN104813671B (zh) 用于处理视频数据的方法和设备
CN106105225B (zh) Hevc sei消息用于多层编解码器的一般使用
TWI676387B (zh) 多層位元流之檔案中之參數集信令
CN105794212B (zh) 一种处理多层视频数据的方法及装置
CN104704829B (zh) 处理视频数据的方法和装置以及计算机可读存储媒体
CN108702503A (zh) 用于视频编码和解码的装置、方法及计算机程序
CN109155860A (zh) 以高效率视频译码及分层高效率视频译码文件格式的图块分组及样本的映射
CN107431819A (zh) 用于可伸缩视频编码和解码的层间预测
CN110431849A (zh) 包含用于视频译码的子图片位流的视频内容的信令传输
CN106464934A (zh) 通过基于与含有一或多个层的分区相关联的简档、层次和层级确定解码器的能力来对多层视频数据进行解码的方法和装置
CN102918836A (zh) 用于非对称立体视频的帧封装
CN107005715A (zh) 图像序列编码和解码的装置、方法和计算机程序
CN107251559B (zh) 一种处理视频数据的方法及装置
RU2812029C2 (ru) Способ и устройство кодирования/декодирования изображений на основе смешанного типа nal-единицы и способ для передачи потока битов
JP2024513512A (ja) Eosサンプルグループに基づくメディアファイル生成/受信方法及び装置、並びにメディアファイル伝送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant