CN106797480B - 用于分层hevc位流的运载的操作点 - Google Patents

用于分层hevc位流的运载的操作点 Download PDF

Info

Publication number
CN106797480B
CN106797480B CN201580054555.7A CN201580054555A CN106797480B CN 106797480 B CN106797480 B CN 106797480B CN 201580054555 A CN201580054555 A CN 201580054555A CN 106797480 B CN106797480 B CN 106797480B
Authority
CN
China
Prior art keywords
bitstream
descriptor
video
layers
ptl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580054555.7A
Other languages
English (en)
Other versions
CN106797480A (zh
Inventor
伏努·亨利
陈颖
王业奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN106797480A publication Critical patent/CN106797480A/zh
Application granted granted Critical
Publication of CN106797480B publication Critical patent/CN106797480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Abstract

一种用于处理包含视频数据的位流的装置,例如多路分用器,所述装置:从所述位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,且其中所述描述符包含简档、层次和层级PTL结构的集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据;至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据;以及将所述所提取视频数据提供到视频解码器。

Description

用于分层HEVC位流的运载的操作点
本申请案主张2014年10月10日申请的第62/062,681号美国临时申请案以及2014年10月15日申请的第62/064,428号美国临时申请案的权益。
技术领域
本发明涉及视频译码,并且更明确地说涉及经译码视频数据的输送。
背景技术
数字视频能力可以并入到多种多样的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频译码技术,例如描述于以下各者中的那些技术:由MPEG-2、MPEG-4、ITU-TH.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、和ITU-T H.265、高效率视频译码(HEVC)及此些标准的扩展。视频装置可通过实施这些视频译码技术而更有效率地发射、接收、编码、解码和/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可以分割成视频块,视频块也可被称作树块、译码单元(CU)和/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间编码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测产生待译码块的预测性块。残余数据表示待译码原始块与预测性块的间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量和指示经译码块与预测块之间的差的残余数据编码的。根据帧内译码模式和残余数据来编码经帧内译码块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描一开始按二维阵列排列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现更多压缩。
发明内容
一般来说,本发明描述用于根据例如MPEG-2(运动图片专家组)系统来输送经译码视频数据的技术。经译码视频数据的输送也可被称作经译码视频数据的运载。举例来说,本发明描述MPEG-2输送流(TS)描述符的可为改进的实例技术,其用于分层HEVC(高效视频译码)位流的层之间的相依性信息的信令。本发明的技术可以用于视频译码标准的扩展(例如,HEVC标准的扩展)的经译码视频数据的输送。此类扩展可包含多视图扩展(例如,MV-HEVC)、可缩放扩展(例如,SHVC)和三维扩展(例如,3D-HEVC)。
在一个实例中,一种处理包含视频数据的位流的方法包含:从所述位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,且其中所述描述符包含简档、层次和层级(PTL)结构的集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据;至少部分地基于所述操作点中一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的的所述一者的视频数据;以及将所述所提取视频数据提供到视频解码器。
在另一实例中,一种用于处理包含视频数据的位流的装置包含:存储器,其用以存储从所述位流提取的数据;以及一或多个处理单元,其经配置以:从所述位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,且其中所述描述符包含简档、层次和层级(PTL)结构的集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据,至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据,以及将所述所提取视频数据提供到视频解码器。
在另一实例中,一种用于处理视频数据的装置包含:用于从位流提取描述符的装置,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,且其中所述描述符包含简档、层次和层级(PTL)结构的集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据;用于至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据的装置;以及用于将所述所提取视频数据提供到视频解码器的装置。
在另一实例中,一种其上存储有指令的计算机可读存储媒体,所述指令在执行时致使处理器执行以下操作:从包含视频数据的位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,且其中所述描述符包含简档、层次和层级(PTL)结构的集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据;至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据;以及将所述所提取视频数据提供到视频解码器。
附图和以下描述中阐明一或多个实例的细节。其它特征、目标和优点将从所述描述和图式以及权利要求书而显而易见。
附图说明
图1是说明可利用用于输送根据视频译码标准的扩展来译码的视频数据的技术的实例视频编码和解码系统的框图。
图2是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频编码器的实例的框图。
图3是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频解码器的实例的框图。
图4是说明其中音频/视频(A/V)源装置将音频和视频数据输送到A/V目的地装置的实例系统的框图。
图5是说明基本流之间的相依性的实例的概念图。
图6是说明基本流之间的相依性的实例的另一概念图。
图7是说明基本流之间的相依性的实例的另一概念图。
图8是说明视频数据的多个层的实例的概念图。
图9是说明根据本发明的技术的实例方法的流程图。
具体实施方式
一般来说,本发明描述与媒体数据的移动图片专家组(MPEG)-2系统层级数据有关的技术。MPEG-2系统通常描述如何在一起多路复用两个或更多个数据流从而形成单个数据流。本发明描述与用多层视频数据的MPEG-2系统数据有关的技术。更确切地说,本发明描述可用以用信号表示分层HEVC位流的层之间的相依性信息(例如,描述分层HEVC位流的层之间的相依性(或关系),其可为相对于一些现有技术的改进)的MPEG-2输送流(TS)描述符。HEVC标准文献公布为ITU-T H.265,系列H:视听和多媒体系统,视听服务的基础结构-移动视频的译码,高效视频译码,国际电信联盟(ITU)的电信标准化部门,2015年4月。
本发明的技术一般是针对根据视频译码标准的扩展(例如,高效视频译码(HEVC)标准的扩展,HEVC标准也被称作ITU-T H.265)译码的视频数据的运载(例如,输送)。此类扩展可包含多视图、三维和/或可缩放扩展。因此,本发明的技术可应用于多视图HEVC(MV-HEVC)、三维HEVC(3D-HEVC)和可缩放HEVC(SHVC)。
多层视频数据,例如多视图视频数据和/或具有多个可缩放层的视频数据,可包含指定的操作点。一般来说,操作点包含多层视频数据的整个层集合的层(例如,视图)子集。操作点还可识别目标输出层,即将为其输出数据的层。在一些情况下,层的数据可包含在仅用作参考层的操作点中,且因此,此层将不被视为目标输出层。
一种类型的可缩放维度是时间维度。举例来说,在时间可缩放性中,一组视频数据可支持各种帧速率或重放速率,例如15帧每秒(FPS)、30FPS、60FPS和120FPS。给定时间层级可包含所述层级与较低层级处的所有图片。举例来说,继续先前实例,时间层级0可对应于15FPS、时间层级1可包含时间层级0的图片以及时间层级1处的图片以支持30FPS,时间层级2可包含时间层级0和1的图片以及时间层级2处的图片以支持60FPS,等等。可用信号表示时间识别符或时间ID,作为特定图像所属的时间层级的代表。
目的地装置可使用包含于位流中的操作点描述符,来选择所述操作点中的一者来解码,且最终向用户呈现(例如显示)。并非在接收后即刻将所有视图的数据传递到视频解码器,而是目的地装置可仅将选定操作点的视图发送到视频解码器。以此方式,目的地装置可丢弃将不解码的视图的数据。另外或替代地,中间网络装置可丢弃并不对应于所请求操作点的视图的数据,以例如更好地利用带宽。所述目的地装置可基于位流的操作点中的一者支持的最高质量和/或基于网络带宽的可用量来选择操作点。
视频数据还可由简档、层和层次描述。“简档”是适用的视频译码标准指定的整个位流语法的子集。“层级”对应于解码器资源消耗的限制,例如,举例来说,解码器存储器和计算,其涉及图片分辨率、位速率和块处理速率。
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IECMPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉和ITU-T H.264(也被称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。
最近,被命名为高效视频译码(HEVC)的新视频译码标准、被命名为MV-HEVC的对HEVC的多视图扩展以及被命名为SHVC的对HEVC的可缩放扩展的设计已经由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)定案。
ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的JCT-VC第18次会议(日本札幌,2014年6月30日到7月9日(JCTVC-R1013_v6))的标题为“高效视频译码(HEVC)草案版本2,组合的格式范围扩展(RExt)、可缩放性(SHVC)和多视图(MV-HEVC)扩展(Draft highefficiency video coding(HEVC)version 2,combined format range extensions(RExt),scalability(SHVC),and multi-view(MV-HEVC)extensions)”的最新HEVC草案规范从phenix.int-evry.fr/jct/doc_end_user/documents/18_Sapporo/wg11/JCTVC-R1013-v6.zip可用。
ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展联合合作小组第9次会议(日本札幌,2014年7月3到9日(JCT3V-I1002-v7))的标题为“MV-HECV草案文本9(MV-HECV Draft Text 9)”的最新MV-HEVC草案规范从phenix.int-evry.fr/jct3v/doc_end_user/documents/9_Sapporo/wg11/JCT3V-I1002-v7.zip可用。
ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的JCT-VC第18次会议(日本札幌,2014年6月30日-7月9日(JCTVC-R1008v7))的标题为“高效视频译码(HEVC)可缩放扩展草案7(High efficiency video coding(HEVC)scalable extension Draft 7)”的SHVC草案规范从phenix.int-evry.fr/jct/doc_end_user/documents/18_Sapporo/wg11/JCTVC-R1008-v7.zip可用。
可使用MPEG-2系统(运动图片专家组)技术来输送视频数据。MPEG-2系统有时被称作MPEG-2 TS。MPEG-2 TS的最新规范是ITU-T建议H.222.0,2012年6月版本,从www.itu.int/rec/T-REC-H.222.0-201206-I/en付费可用。本说明书提供对AVC和AVC扩展的支持。
已开发用于HEVC的MPEG-2 TS的修正。最新文档是2013年7月的MPEG文献w13656中的“ISO/IEC 13818-1文本:2013年/最终草案修正3-经由MPEG-2系统的HEVC视频的输送(Text of ISO/IEC 13818-1:2013/Final Draft Amendment 3-Transport of HEVC videoover MPEG-2Systems)”。最近,已开始用于分层HEVC的运载的MPEG-2 TS的修正。最新文档是2014年7月的MPEG文档w14562中的“ISO/IEC 13818-1的文本:2013年/分层HEVC的PDAM7-运载的研究(Text of ISO/IEC 13818-1:2013/Study of PDAM 7-Carriage of LayeredHEVC)”,且在本文档中将被称作L-HEVC TS草案。用于HEVC扩展的运载的MPEG-2 TS的设计的一个实例在2014年1月8日申请且以引用的方式并入本文中的第61/925,191号美国临时专利申请案中描述。用于HEVC扩展的运载的MPEG-2 TS的设计的另一实例在2014年7月16日申请的第62/025,432号美国临时专利申请案中描述。
MPEG-2系统规范描述经压缩的多媒体(视频和/或音频)数据流可与如何与其它数据一起多路复用,从而形成适合于数字发射或存储的单个数据流。MPEG-2系统描述基本流,其为节目(program)(有时也拼写为“programme”)的单个经数字译码(可能MPEG-经压缩)分量。举例来说,所述节目的经译码视频或音频部分可为基本流。在将基本流多路复用成节目流或输送流之前,可首先将基本流转换成包化基本流(PES)。在相同节目内,可使用stream_id语法元素来区分属于一个基本流的PES包与属于另一基本流的PES包。
节目流和输送流是以不同应用为目标的两个替代的多路复用。为了来自数字存储服务的单个节目的存储和显示而使节目流偏置,且因为其容易发生错误,节目流既定用于无错误环境中。节目流包含属于其的基本流,且通常含有具有可变长度包的包。在节目流中,将从起作用的基本流导出的PES包组织为“包(pack)”。包包含包标头、任选系统标头以及按任何次序从起作用的基本流的任一者获取的任何数目的PES包。系统标头含有节目流的特性的概述,例如:其最大数据速率;起作用视频和音频基本流的数目;其它定时信息。解码器可使用包含于系统标头中的信息来确定解码器是否能够解码所述节目流。
输送流既定用于若干节目在潜在易错信道上的同时递送。这是为多节目应用程序(例如广播)设计的多路复用,使得单个输送流可容纳许多独立节目。
输送流包含一连串输送包,且所述输送包中的每一者的长度为188个字节。短的、固定长度的包的使用意味着输送流不像节目流那样易出错。另外,通过经由标准错误保护过程(例如里德-所罗门编码)处理输送包容易给予每一188字节长的输送包额外的错误保护。输送流的改进的错误恢复意味着其有较好的机会来经受住例如将在广播环境中找到的易错信道。
似乎输送流明显是具有其提高的容错性与运载许多同时节目的能力的两个多路复用中的较佳者。然而,输送流是比节目流复杂得多的多路复用,且因此较难创建且多路分用。
输送包的第一字节是同步字节,其为0x47(即,十六进制值47,或0100 0111)。单个输送流可运载许多不同节目,其各自包括许多经包化的基本流。13位包识别符(PID)字段用于区分含有一个基本流的数据的输送包与运载其它基本流的数据的那些输送包。确保每一基本流被授予唯一PID值是多路复用器的职责。输送包的上一字节是连续性计数字段。这在属于同一基本流的连续输送包之间递增。这使解码器能够检测输送包的损失或增益,且希望隐藏此事件可能以其它方式导致的错误。
尽管PID值使得输送包属于哪一基本流是很明显的,但解码器也可能需要确定哪些基本流属于哪个节目。因此,节目特定信息用以明确地指定节目与分量基本流之间的关系。节目特定信息可包含节目映射表(PMT)、节目流映射(PSM)、节目关联表(PAT)、网络信息表(NIT)和/或有条件存取表(CAT)。
在输送流中运载的每一节目均具有与之相关联的节目映射表。此表提供关于节目以及来自所述节目的基本流的细节。举例来说,可存在具有数字3的节目,其含有具有PID33的视频、具有PID 57的英语音频,以及具有PID 60的中文音频。准许PMT包含多于一个节目。可用MPEG-2系统规范内指定的许多描述符中的一些来装饰基本节目映射表。所述描述符传达关于节目或其分量基本流的进一步信息。所述描述符可包含(例如)视频编码参数、音频编码参数、语言识别、平移和扫描信息、有条件存取细节、版权信息等。如果有需要,则广播公司或其它用户可限定额外的私人描述符。在视频相关分量基本流中,还存在层级描述符,其提供信息来识别含有经层级译码的视频、音频和私人流的分量的节目元素。
PSM提供节目流中的基本流以及其彼此的关系的描述。当在输送流中运载时,将不根据MPEG-2系统规范来修改此结构。当stream_id值为0xBC(十六进制值BC或1011 1100)时,存在PSM作为PES包。
输送流中可用的所有节目的完整列表保存在节目关联表中。可容易地找到此表,因为其始终具有PID值0。列出每一节目以及含有其节目映射表的输送包的PID值。使用上文所述的同一实例,指定节目编号3的基本流的PMT具有PID 1001,且另一PMT具有另一PID1002。此信息集合包含于PAT中。
PAT中指定的节目编号零具有特定含义。此节目用以指出到网络信息表的路径。NIT是任选的。当存在时,NIT既定提供关于运载输送流的物理网络的信息,例如信道频率、卫星应答器细节、调制特性、服务发起者、业务名称,以及可用的替代网络的细节。
如果输送流内的任何基本流是杂乱的,那么根据MPEG-2系统规范,必然存在有条件存取表。CAT提供使用中的加扰系统的细节且,提供含有有条件存取管理和服务鉴权信息的输送包的PID值。此信息的格式并未在MPEG-2系统规范中指定。
在MPEG-2 TS中,将层级描述符设计成用信号表示不同基本流中的子位流的层级。层级描述符提供用以识别含有以层级方式译码的视频、音频和私人流的分量的节目元素的信息。下文再现MPEG-2系统规范的表2-49。如更详细地描述,在一些实例中,本发明描述改进的阶层描述符,以及对下文立即所示的表2-49的更新。下文进一步更详细描述用于改进的阶层描述符的经更新表2-49。
表2-49-阶层描述符
Figure GDA0001264448750000081
下文提供MPEG-2系统的表2-49的语法元素的语义:
temporal_scalability_flag-1位旗标,其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的帧速率。保留此旗标的值“1”。
spatial_scalability_flag-1位旗标,其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的空间分辨率。保留此旗标的值“1”。
quality_scalability_flag-1位旗标,其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的SNR质量或保真度。保留此旗标的值“1”。
hierarchy_type-相关联层级层与其层级嵌入层之间的层级关系在表2-50中定义。如果可缩放性在一个以上维度中应用,那么此字段将被设定为值“8”(“组合可缩放性”),且将相应地设定旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag。对于MVC视频子位流,此字段将被设定为值“9”(“MVC视频子位流”),且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为“1”。对于MVC基础视图子位流,此字段将被设定为值“15”,且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为“1”。
hierarchy_layer_index-hierarchy_layer_index是定义译码层层级的表中的相关联节目元素的唯一索引的6位字段。索引在单个节目定义内将是唯一的。对于符合在建议ITU-T H.264|ISO/IEC 14496-10的附录G中定义的一或多个简档的AVC视频流的视频子位流,此为节目元素索引,以如果同一存取单元的视频子位流的相关联SVC依赖性表示按照hierarchy_layer_index的递增次序来重新组合那么位流次序将正确的方式来指派所述视频子位流。对于符合在建议ITU-T H.264|ISO/IEC 14496-10的附件H中定义的一或多个简档的AVC视频流的MVC视频子位流,此为节目元素索引,以如果同一存取单元的MVC视频子位流的相关联的MVC视图分量子集合以hierarchy_layer_index的递增次序来重新组合那么位流序将是正确的方式来指派所述节目元素索引。
tref_present_flag-1位旗标,当其设定成“0”时指示TREF字段可存在于相关联基本流式传输中的PES包标头中。保留此旗标的值“1”。
hierarchy_embedded_layer_index-hierarchy_embedded_layer_index为6位字段,其定义需要存取且在解码与此hierarchy_descriptor相关联的基本流之前存在于解码次序中的节目元素的hierarchy_layer_index。如果hierarchy_type值为15,那么此字段未经定义。
hierarchy_channel-hierarchy_channel是6位字段,其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳健的发射信道由关于整体发射层级定义的此字段的最低值来定义。给定hierarchy_channel可同时指派给若干节目元素。
下文立即再现MPEG-2系统规范的表2-50。在一些实例中,本发明描述对表2-50的更新作为改进的阶层描述符的描述的部分。下文进一步更详细描述经更新表2-50。
表2-50-Hierarchy_type字段值
Figure GDA0001264448750000091
在MPEG-2 TS中,设计两个描述符以分别用信号表示用于SVC和MVC的子位流的特性:SVC扩展描述符和MVC扩展描述符。SVC和MVC是ITU-T H.264/AVC的可缩放视频译码和多视图视频译码扩展。另外,在MPEG-2 TS中,存在描述操作点的特性的MVC操作点描述符。下文提供三个描述符的语法和语义。
下文的表2-96说明MPEG-2系统的SVC扩展描述符的语法元素。对于符合建议ITU TH.264|ISO/IEC 14496-10的附件G中定义的一或多个简档的AVC视频流的视频子位流,表2-96的SVC扩展描述符提供关于通过重新组合(至多)相关联视频子位流而产生的AVC视频流的信息,且提供关于相关联视频子位流的可缩放性和重新组合的信息。可存在与符合建议ITU-T H.264|ISO/IEC 14496-10的附件G中定义的一或多个简档的AVC视频流的视频子位流中的任一者相关联的一个SVC扩展描述符。
表2-96-SVC扩展描述符
Figure GDA0001264448750000102
下文提供根据MPEG-2系统说明书的表2-96的语法元素的语义:
宽度-此16位字段指示经重新组合的AVC视频流的以像素计的最大图像宽度分辨率。
高度-此16位字段指示经重新组合的AVC视频流的以像素计的最大图像高度分辨率。
frame_rate-此16位字段指示经重新组合的AVC视频流的以帧/256秒计的最大帧速率。
average_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit每秒计的平均位速率。
maximum_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit每秒计的最大位速率。
dependency_id-此3位字段指示与视频子位流相关联的dependency_id的值。
quality_id_start-此4位字段指示包含于相关联视频子位流中的所有NAL单元的NAL单元标头语法元素的quality_id的最小值。
quality_id_end-此4位字段指示包含于相关联视频子位流中的所有NAL单元的NAL单元标头语法元素的quality_id的最大值。
temporal_id_start-此3位字段指示包含于相关联视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最小值。
temporal_id_end-此3位字段指示包含于相关联视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最大值。
no_sei_nal_unit_present-此1位旗标在设定成“1”时,指示相关联视频子位流中不存在SEI NAL单元。在no_sei_nal_unit_present旗标针对所有SVC视频子位流设定成“1”且针对SVC的AVC视频子位流不设定成“1”或不存在的情况下,任何SEI NAL单元(如果存在)均包含于SVC的AVC视频子位流中。如果SVC扩展描述符针对所有视频子位流不存在,那么SEI NAL单元可存在于SVC视频子位流的任何SVC依赖性表示中,且可能需要在存取单元重新组合之前,对存取单元内的NAL单元的次序进行重新排序,如建议ITU-T H.264|ISO/IEC14496-10中所定义。
下文的表2-97提供MPEG-2系统规范的MVC扩展描述符的语法。对于符合建议ITU-TH.264|ISO/IEC 14496-10的附录H中定义的一或多个简档的AVC视频流的MVC视频子位流,MVC扩展描述符提供关于由重新组合(至多)相关联MVC视频子位流而产生的AVC视频流的信息,且提供关于所包含的MVC视频子位流且用于相关联MVC视频子位流的重新组合的信息。可存在与符合建议ITU-T H.264|ISO/IEC 14496 10的附件H中所定义的一或多个简档的AVC视频流的MVC视频子位流(具有等于0x20的stream_type)中的任一者相关联的一个MVC扩展描述符。当MVC视频子位流为MVC基础视图子位流时,MVC扩展描述符将存在于stream_type等于0x1B的相关联PMT或PSM中。
表2-97-MVC扩展描述符
下文提供根据MPEG-2系统规范的表2-97的语法元素的语义:
average_bitrate-此16位字段指示经重新组装的AVC视频流的以kbit每秒计的平均位速率。当设定成0时,不指示平均位速率。
maximum_bitrate-此16位字段指示经重新组装的AVC视频流的以kbit每秒计的最大位速率。当设定成0时,不指示最大位速率。
view_order_index_min-此10位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的视图次序索引的最小值。
view_order_index_max-此10位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的视图次序索引的最大值。
temporal_id_start-此3位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最小值。
temporal_id_end-此3位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最大值。
no_sei_nal_unit_present-此1位旗标在设定成“1”时,指示相关联视频子位流中不存在SEI NAL单元。在no_sei_nal_unit_present旗标针对所有MVC视频子位流设定成“1”且针对MVC的AVC视频子位流不设定成“1”或不存在的情况下,任何SEI NAL单元(如果存在)均包含于MVC的AVC视频子位流中。如果MVC扩展描述符针对所有MVC视频子位流不存在,那么SEI NAL单元可存在于MVC视频子位流的任何MVC视图分量子集中,且可能需要在存取单元重新组装之前,对存取单元内的NAL单元的次序进行重新排序,如建议ITU-T H.264|ISO/IEC 14496-10中所定义。
no_prefix_nal_unit_present-此1位旗标在设定成“1”时,指示MVC的AVC视频子位流或MVC视频子位流中不存在前缀NAL单元。当此位设定成‘0’时,其指示前缀NAL单元仅存在于MVC的AVC视频子位流中。
下文的表2-100提供MPEG-2系统规范的MVC操作点描述符的语法。MVC操作点描述符(见表2-100)提供指示各自由一或多个MVC视频子位流的集合构成的一或多个操作点的简档和层级的方法。如果存在,那么MVC操作点描述符将包含于后接program_map_section中的program_info_length字段的数据元素群组中。如果节目描述内存在MVC操作点描述符,针对同一节目中存在的每一MVC视频子位流,将存在至少一个层级描述符。根据MPEG-2系统规范,为了指示不同简档,每简档使用一个MVC操作点描述符。
表2-100-MVC操作点描述符
Figure GDA0001264448750000131
Figure GDA0001264448750000141
下文提供根据MPEG-2系统规范的表2-100的语法元素的语义:
profile_idc-此8位字段指示MVC位流的此描述符内所描述的所有操作点的简档,如建议ITU-T H.264|ISO/IEC 14496-10中所定义。
constraint_set0_flag、constraint_set1_flag、constraint_set2_flag、constraint_set3_flag、constraint_set4_flag、constraint_set5_flag-将根据建议ITU-T H.264|ISO/IEC 14496-10中定义的这些字段的语义来译码这些字段。
AVC_compatible_flags-AVC_compatible_flags的语义完全等于针对constraint_set2旗标与序列参数集中的level_idc字段之间的2个位所定义的字段的语义,如建议ITU-T H.264|ISO/IEC 14496-10中所定义。
level_count-此8位字段指示针对其描述操作点的层级的数目。
level_idc-此8位字段指示以下数据元素群组所描述得操作点的MVC位流的层级,如建议ITU-T H.264|ISO/IEC 14496-10中所定义。
operation_points_count-此8位字段指示包含于以下数据元素群组中的列表所描述得操作点的数目。
applicable_temporal_id-此3位字段指示经重新组合的AVC视频流中的VCL NAL单元的temporal_id的最高值。
num_target_output_views-此8位字段指示目标是针对相关联操作点而输出的视图的数目的值。
ES_count-此8位字段指示包含于随后数据元素群组中的ES_reference值的数目。随后的数据元素群组中所指示的基本流一起形成MVC视频位流的操作点。保留值0xff。
ES_reference-此6位字段指示识别视频子位流的层级描述符中存在的层级层索引值。可使用AVC视频描述符来用信号通知单个操作点(例如整个MVC视频位流)的简档和层级。除此之外,MVC允许解码可能需要不同简档和/或层级的不同视图子集。MVC操作点描述符的规范支持多个操作点的不同简档和层级的指示。
下文的表Amd7-1根据MPEG-2系统规范提供HEVC视频描述符的语法。对于HEVC视频流,HEVC视频描述符提供用于识别所述HEVC视频流的译码参数的基本信息,例如简档和层级参数。对于HEVC时间视频子位流或HEVC时间视频子集,HEVC视频描述符提供例如包含于其应用于的基本流中的相关联HEVC最高时间子层表示的信息。
在L-HEVC TS草案中,简档、层次和层级(PTL)信息以及操作点信息是在HEVC扩展描述符和HEVC操作点描述符中用信号表示。
表Amd7-1-HEVC视频描述符
Figure GDA0001264448750000151
下文提供根据MPEG-2系统规范的表X-1的语法元素的语义:
profile_space、tier_flag、profile_idc、profile_compatibility_indication、progressive_source_flag、interlaced_source_flag、non_packed_constraint_flag、frame_only_constraint_flag、reserved_zero_44bits、level_idc-当HEVC视频描述符应用于HEVC视频流或应用于HEVC完成时间表示时,将根据建议ITU-T H.265|ISO/IEC 23008-2分别针对对应HEVC视频流或HEVC完成时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc而定义的语义来译码这些字段,且HEVC视频描述符与之相关联的整个HEVC视频流或HEVC完成时间表示将符合通过这些字段用信号通知的信息。
当HEVC视频描述符应用于对应HEVC最高时间子层表示不是HEVC完成时间表示的HEVC时间视频子位流或HEVC时间视频子集时,将根据建议ITU-T H.265|ISO/IEC 23008-2中分别针对对应HEVC最高时间子层表示的sub_layer_profile_space、sub_layer_tier_flag、sub_layer_profile_idc、sub_layer_profile_compatibility_flag[i]、sub_layer_progressive_source_flag、sub_layer_interlaced_source_flag、sub_layer_non_packed_constraint_flag、sub_layer_frame_only_constraint_flag、sub_layer_reserved_zero_44bits、sub_layer_level_idc来译码这些字段,且HEVC视频描述符与之相关联的整个HEVC最高时间子层表示将符合通过这些场用信号通知的信息。
在HEVC视频流中的一或多个序列中,层级可低于HEVC视频描述符中用信号表示的层级,同时还可出现作为在HEVC视频描述符中用信号表示的简档的子集的简档。然而,在整个HEVC视频流中,将仅使用整个位流语法的子集,其包含于在HEVC视频描述符中用信号表示的简档(如果存在)中。如果HEVC视频流信号中的序列参数集具有不同简档,且不用信号表示额外限制,那么所述流可需要检查来确定整个流符合哪一简档(如果存在的话)。如果HEVC视频描述符将与并不符合单个简档的HEVC视频流相关联,那么应将HEVC视频流分割成两个或更多个子流,使得HEVC视频描述符可用信号表示每一此类子流的单个简档。
temporal_layer_subset_flag-此1位旗标在设定成“1”时,指示描述时间层的子集的语法元素包含于此描述符中。对于HEVC时间视频子集且对于HEVC时间视频子位流,此字段将设定成1。当设定成“0”时,语法元素temporal_id_min和temporal_id_max不包含于此描述符中。
HEVC_still_present_flag-此1位字段在设定成“1”时,指示HEVC视频流或HEVC最高时间子层表示可包含HEVC静止图片。当设定成“0”时,那么相关联的HEVC视频流将不含有HEVC静止图片。根据建议ITU-T H.265|ISO/IEC 23008-2,IDR图片始终关联到等于0的TemporalId值,因此,如果HEVC视频描述符应用于HEVC时间视频子集,那么HEVC静止图片可仅存在于相关联的HEVC时间视频子位流中。
HEVC_24_hour_picture_present_flag-此1位旗标在设定成“1”时,指示相关联的HEVC视频流或HEVC最高时间子层表示可含有HEVC 24小时图片。对于HEVC 24小时图片的定义,见2.1.97。如果将此旗标设定成‘0’,那么相关联的HEVC视频流将不含有任何HEVC 24小时图片。
temporal_id_min-此3位字段指示TemporalId的最小值,如相关联基本流中的所有HEVC存取单元的建议ITU-T H.265|ISO/IEC 23008-2中所定义。
temporal_id_max-此3位字段指示TemporalId的最大值,如相关联基本流中的所有HEVC存取单元的建议ITU-T H.265|ISO/IEC 23008-2中所定义。
表Amd7-2-HEVC操作点描述符
Figure GDA0001264448750000171
亨德利(Hendry)等人在2015年7月15日申请的“用于视频译码扩展的运载的输送流(TRANSPORT STREAM FOR CARRIAGE OF VIDEO CODING EXTENSIONS)”第14/800,498号美国申请案描述了关于用于HEVC扩展的运载的MPEG-2 TS的设计的细节。
本发明的技术可用以克服用于用信号表示例如下文论述的那些用于分层HEVC位流的层之间的相依性信息的描述符的现有技术的某些问题。
本发明辨识阶层描述符和阶层扩展描述符的功能性的重叠。在ISO/IEC 13818-1:2013/PDAM7的研究文字中,存在用于相依性信息的信令的两个描述符;即阶层描述符和阶层扩展描述符。所述两个描述符具有重叠功能性,例如两者均能够描述空间、质量和多视图类型的相依性。在L-HEVC TS草案中,有可能两个描述符都存在且与同一基本流相关联。这将产生混淆且增加标准的实施的不必要的复杂性。
虽然阶层描述符和阶层扩展描述符本身具有重叠功能性,但其中任一者不可用于描述SHVC和MV-HEVC中的所有可能的层间相依性类型。阶层描述符不能够描述辅助图片的相依性,而阶层扩展描述符不能够描述时间相依性。
本发明还辨识存在阶层扩展描述符何时将存在的遗失描述。在ISO/IEC 13818-1:2013/PDAM7的研究文字中,阶层描述符或阶层扩展描述符的存在不是强制的。以下描述阶层描述符何时将存在,但不存在阶层扩展描述符何时将存在的描述:
当ITU-T建议H.222.0|ISO/IEC 13818-1节目包含多于一个HEVC视频时间子集或者多于一个HEVC时间视频子位流和至少一个HEVC视频时间子集或者至少一个HEVC增强子分区时,如2.6.7中定义的一或多个阶层描述符将针对具有等于0x24、0x25或0x27到0x2A的流类型的所有相关联基本流都存在。阶层描述符将用以指示所有HEVC时间视频子位流、HEVC视频时间子集和HEVC子分区的相依性。
此外,本发明辨识存在阶层描述符和阶层扩展描述符都不存在时的基本流参考的遗失描述。对于操作点的信令,通过使用在阶层描述符和阶层扩展描述符中用信号表示的hierarchy_layer_index的值来做出对基本流的参考。当阶层描述符和阶层扩展描述符都不存在于节目中时,不存在可如何解析对用于操作点信令的基本流的参考的描述。
本发明还辨识存在关于简档、层次和层级(PTL)信息的信令的问题。在第9次JCT3V和第18次JCT-VC会议中,同意针对分层HEVC位流(即,SHVC或MV-HEVC)中的每一层用信号表示PTL信息。因此,针对层设计PTL信息的所有语法和语义。另一方面,在L-HEVC TS草案中,针对每一操作点而不是针对包含在每一操作点中的每一层用信号表示PTL信息的信令。此信令是不正确的,因为L-HEVC TS草案中的信令未指定用于PTL信息的不同语法和语义,但简单地涉及SHVC/MV-HEVC草案规范中定义的PTL信息的语法和语义。
本发明进一步辨识存在用信号表示PTL信息的低效。分层HEVC位流中的层可为一或多个操作点的部分。考虑到PTL信息应当与操作点内的层相关联,如果使用HEVC扩展描述符或HEVC操作点来用信号表示PTL结构,那么可能重复地用信号表示同一PTL结构。因此,应当通过避免同一信息的重复信令而改善用信号表示PTL信息的效率。
此外,本发明辨识某些信息在操作点信令中遗失。HEVC扩展描述符或HEVC操作点描述符中的当前操作点信令缺乏关键信息例如相关联输出层集合和分割方案的指示。这两条信息对于确定每一操作点中的基本流的适用HRD参数是关键的。如建议ITU-T H.265|ISO/IEC 23008-2的附录F中指定,用于分区的适用HRD参数由bsp_hrd_idx的值确定,其是通过到目标输出层集合的索引(TargetOlsIdx)、分割方案(TargetPsIdx)、最高时间id(HighestTid)、递送时间表索引(SchedSelCombIdx)以及到分区的索引(partitionIdx)来编索引。对于分层HEVC位流的输送,HighestTid是基于操作点的适用/最大时间id而指派,SchedSelCombIdx是基于HEVC时序和HRD描述符中描述的SchedSelIdx而指派,且partitionIdx是基于子分区的索引而指派。然而,ISO/IEC 13818-1:2013/PDAM7的研究文字内的任何描述符中不存在可用以指派TargetOlsIdx和TargetPsIdx的用信号表示/导出的值。
本发明还辨识存在遗失简档、遗失层次和/或遗失节目的层级信息的可能性。根据L-HEVC TS草案的子条款2.17.4中的基本流聚集的描述,HEVC扩展描述符和HEVC操作点描述符的存在不是强制的。当HEVC扩展描述符和HEVC操作点描述符都不存在时,不存在与节目中的基本流相关联的PTL信息。PTL信息的存在出于两个原因而是重要的。第一,PTL信息可用于系统协商目的。当PTL信息不可用于输送层级中时,系统实体(例如,递送系统当中的智能中间盒)受迫下视到编解码器层级(即,与从输送层级确定PTL信息所需的那些资源相比,系统实体必须利用和/或花费更多资源以从编解码器层级确定PTL信息),这是负担。第二,当不存在HRD参数时缓冲器模型可能需要PTL信息。
以下描述根据本发明的实例。所述实例技术可一起或单独地实施。在一些实例中,所述实例技术可解决上述问题。然而,解决上述问题不是必要的。举例来说,本发明中描述的技术不应当被视为限于解决上述问题,或必定提供本发明中所描述的优点。上述问题和潜在优点仅是为了上下文且帮助理解而提供,且不应当被视为要求。
下文给出本发明的某些方法的概述,下文进一步提供一些实例技术的详细实施方案。这些实例技术中的一些可以独立地应用且其中一些可以组合地应用。
在一些实例中,现有HEVC扩展描述符和HEVC操作点描述符可合并为一个描述符(即,单个描述符)且此单个描述符可再使用名称“HEVC操作点描述符”。此HEVC操作点描述符可具有以下组成部分:
a.PTL结构的列表。所述列表中的PTL结构将被参考且通过索引与操作点的层相关联。
b.操作点的列表。每一操作点包含以下信息:
i.相关联输出层集合
ii.相关联分割方案
iii.最高时间子层
iv.构成操作点的基本流(即,子分区)的列表
v.输出层的数目
vi.具有PTL的操作点的每一基本流中包含的层的映射
vii.帧速率信息
当ITU-T建议H.222.0|ISO/IEC 13818-1节目内的基本流之间的相依性可用(例如,在阶层描述符或阶层扩展描述符中用信号表示)时,构成操作点的基本流(即,子分区)的列表可仅包含最小数目的基本流。通过使用可用相依性信息,可填充构成操作点的基本流的列表。
当ITU-T建议H.222.0|ISO/IEC 13818-1节目内的基本流之间的相依性可用(例如,在阶层描述符或阶层扩展描述符中用信号表示)时,构成操作点的基本流(即,子分区)的列表可能需要包含构成操作点的基本流的完整列表。
在一个实例中,替代于用信号表示操作点中的输出层的数目,对于包含在操作点中的每一层,用信号表示旗标以指示所述层是否为输出层。替代地,输出层的数目和用于每一层的旗标指示(指示相应层是否为输出层)都可用信号表示。
当对于ITU-T建议H.222.0|ISO/IEC 13818-1节目存在多于一个HEVC操作点描述符时,以下可适用。第一,在第(n+1)个HEVC操作点描述符中用信号表示的PTL信息的列表(其中n从1开始)可为在第n个HEVC操作点描述符中用信号表示的PTL信息的列表的延续。第二,在第(n+1)个HEVC操作点描述符中用信号表示的操作点的列表(其中n以1开始)可为在第n个HEVC操作点描述符中用信号表示的操作点的列表的延续。换句话说,来自用信号表示的两个或更多个连续HEVC操作点描述符的信息可串接以形成单个描述符。即,可在两个或更多个相异HEVC操作点描述符中用信号表示相似信息,且此信息可串接为如同在单个描述符中用信号表示所有信息。
本文所描述的HEVC操作点描述符可为节目层级描述符(即,连同紧接在节目映射表中的语法元素program_info_length字段之后出现的其它描述符一起用信号表示)。替代地,HEVC操作点描述符可为基本流层级描述符(即,连同在节目映射表中的语法元素ES_info_length字段之后出现的其它描述符一起用信号表示)。
当节目具有stream_type等于0x27、0x28、0x29或0x2A的一或多个基本流时HEVC操作点描述符的存在可为强制的。同样,对于具有等于0x24和0x25的stream_type的每一基本流,HEVC视频描述符的存在可为强制的。
在一些实例中,阶层扩展描述符可经修改以支持描述时间相依性/增强。为此目的,L-HEVC TS草案中的表amd7-4-扩展维度位的语义中的保留值中的一者经分配用于时间增强。
在一些实例中,阶层描述符经修改以支持辅助层增强。为此目的,以下可适用:
a.使用hierarchy_descriptor的语法表中的保留旗标中的一者以指示辅助增强。
b.指派表2-50-hierarchy_type字段值中的保留值中的一者以指示辅助增强。
在一些实例中,为了避免阶层描述符和阶层扩展描述符的重叠使用,可利用以下情形:
a.对于运载HEVC经译码图片的每一基本流,作为阶层描述符或阶层扩展描述符的一个描述符(且在一些实例中,确切一个)可以(且在一些实例中,将)存在且与所述基本流相关联。
b.对于含有具有等于0的layerId的图片的每一基本流,阶层描述符可以(且在一些实例中,将)存在且与所述基本流相关联。
c.对于不含有具有等于0的layerId的图片以及含有具有不等于0的layerId的图片的每一基本流,阶层扩展描述符可以(且在一些实例中,将(即,必须))存在且与所述基本流相关联。
图1是说明可利用用于输送根据视频译码标准的扩展来译码的视频数据的技术的实例视频编码和解码系统10的框图。如图1中所示,系统10包含提供稍后将由目的地装置14解码的经编码视频数据的源装置12。具体来说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14可包括各种各样裝置中的任一者,包含桌上型计算机、笔记本型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、平板机、电视机、相机、显示元件、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码的视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体以使源装置12能够实时地将经编码的视频数据直接传输到目的地装置14。可根据通信标准(例如,无线通信协议)调制经编码的视频数据,并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成分组网络(例如,局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。
在一些实例中,经编码数据可以从输出接口22输出到存储装置。类似地,经编码数据可通过输入接口从存储装置存取。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装置可对应于可保持由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可从存储装置经由流式传输或下载来存取所存储的视频数据。文件服务器可以是能够存储经编码视频数据并且将所述经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接式存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可能是流式传输发射、下载发射或其组合。
本发明的技术未必限于无线应用或情景。所述技术可以应用于视频译码并且支持多种多媒体应用中的任一者,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式传输视频发射(例如动态自适应HTTP流式传输(DASH))、经编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20、多路复用器21和输出接口22。目的地装置14包含输入接口28、多路分用器29、视频解码器30以及显示装置32。根据本发明,源装置12的多路复用器21可经配置以应用用于输送根据视频译码标准的扩展而译码的视频数据的技术,而多路分用器29可接收此数据以用于处理且将经处理视频数据转发到例如视频解码器30。在其它实例中,源装置和目的地装置可包括其它组件或布置。举例来说,源装置12可从外部视频源18(例如外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。
图1的所说明系统10仅仅是一个实例。用于输送根据视频译码标准的扩展而译码的视频数据的技术可由任何数字视频编码和/或解码装置来执行。尽管本发明的技术一般通过视频编码装置来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)来执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅为源装置12产生经译码视频数据用于发射至目的地装置14的所述译码装置的实例。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可以支持视频装置12、14之间的单向或双向视频传输,例如用于视频流式传输、视频重放、视频广播或视频电话。
源装置12的视频源18可以包含视频捕获装置,例如摄像机、含有先前所捕获视频的视频存档和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、经存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18是摄像机,那么源装置12和目的地装置14可形成所谓的摄像机电话或视频电话。然而,如上文所提及,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,捕获、预先捕获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(也就是说,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接收经编码视频数据,并且(例如)经由网络传输将经编码视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置12接收经编码的视频数据且生产含有经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可以包含由视频编码器20定义的语法信息,所述语法信息也被视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可根据一种视频译码标准(例如,目前正在开发的高效视频译码(HEVC)标准)来操作,且可符合HEVC测试模型(HM)。替代地,视频编码器20及视频解码器30可根据其它专有或行业标准来操作,所述标准例如是ITU-T H.264标准(替代地被称作MPEG-4第10部分高级视频译码(AVC))或此类标准的扩展。但是,本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。尽管图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用,则多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
ITU-T H.264/MPEG-4(AVC)标准是作为被称为联合视频小组(JVT)的集体联盟的产品而由ITU-T视频译码专家组(VCEG)连同ISO/IEC移动图片专家组(MPEG)制定。在一些方面中,本发明中描述的技术可应用到一般符合H.264标准的装置。H.264标准描述于ITU-T研究组的日期为2005年3月的“ITU-T建议H.264,用于通用视听服务的高级视频译码”(ITU-TRecommendation H.264,Advanced Video Coding for generic audiovisual services)中,所述标准在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。联合视频小组(JVT)继续致力于对H.264/MPEG-4AVC的扩展。
视频编码器20和视频解码器30各自可实施为多种合适的编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件固件或其任何组合。当部分地用软件实施所述技术时,装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(编解码器)的一部分。
JCT-VC已经开发HEVC标准,且继续致力于HEVC标准的扩展。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化的模型。HM根据(例如)ITU-T H.264/AVC假定视频译码装置相对于现有装置的若干额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HM可提供多达三十三种(且可能为三十五种)帧内预测编码模式。
一般来说,HM的工作模型描述视频帧或图像可以划分成包含明度及色度样本两者的序列树块或最大译码单元(LCU)(还被称作“译码树单元”)。位流内的语法数据可以界定最大译码单元(LCU,其是就像素数目来说的最大译码单元)的大小。切片包含按译码次序的若干连续树块。视频帧或图片可以被分割成一或多个切片。每一树块可以根据四叉树分裂成译码单元(CU)。一般来说,四叉树数据结构包含每个CU一个节点,其中一个根节点对应于所述树块。如果一个CU分裂成四个子CU,那么对应于CU的节点包含四个叶节点,其中的每一者对应于所述子CU中的一者。
四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,其表明对应于所述节点的所述CU是否分裂成子CU。用于CU的语法元素可递归地定义,且可取决于CU是否分裂成子CU。如果CU未进一步分裂,那么将其称作叶CU。在本发明中,叶CU的四个子CU也将被称作叶CU,即使不存在原始叶CU的明确分裂时也是如此。举例来说,如果16x16大小的CU不进一步分裂,那么四个8x8子CU也将被称作叶CU,尽管16x16CU从未分裂。
CU具有与H.264标准的宏块类似的目的,除了CU不具有大小区别。举例来说,树块可分裂成四个子节点(也称为子CU),且每一子节点又可为父节点且可分裂成另外四个子节点。最后未分裂的子节点(被称作四叉树的叶节点)包括译码节点,也被称作叶CU。与经译码位流相关联的语法数据可定义树块可分裂的最大次数,被称作最大CU深度,且还可定义译码节点的最小大小。因此,位流还可界定最小译码单元(SCU)。本发明使用术语“块”来指HEVC的上下文中的CU、PU或TU中的任一者,或者其它标准的上下文中的类似数据结构(例如,其在H.264/AVC中的宏块及子块)。
CU包含译码节点和与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小并且形状必须是正方形。CU的大小范围可从8x8像素到具有64x64像素或更大像素的最大值的树块的大小。每一CU可以含有一或多个PU和一或多个TU。举例来说,与CU相关联的语法数据可描述CU分割成一或多个PU。分割模式可在CU被跳过还是经直接模式编码、帧内预测模式编码或帧间预测模式编码之间不同。PU可以分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树到一或多个TU的分割。TU可以是正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU变换,TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而确定,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用一种被称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数,所述变换系数可经量化。
视频编码器20可使用四叉树分割将CU的明度、Cb及Cr残余块分割成一或多个明度、Cb及Cr变换块。变换块可为其上应用相同变换的样本的矩形块。CU的变换单元(TU)可为明度样本的变换块、色度样本的两个对应的变换块,以及用以对变换块样本进行变换的语法结构。因此,CU的每个TU可以与明度变换块、Cb变换块以及Cr变换块相关联。与TU相关联的明度变换块可以是CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可以是CU的Cr残余块的子块。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用以对变换块的样本进行变换的语法结构。
叶CU可包含一或多个预测单元(PU)。一般来说,PU表示对应于相对应的CU的全部或一部分的空间区域,并且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可以包含在残余四叉树(RQT)中,残余四叉树可以包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可以包含定义PU的一或多个运动向量的数据。举例来说,定义PU的运动向量的数据可以描述运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可使用RQT(也称为TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示叶CU是否分裂成四个变换单元。接着,每一变换单元可进一步分裂成更多个子TU。当TU未进一步分裂时,其可被称作叶TU。总体上,对于帧内译码,所有属于一叶CU的叶TU共享相同的帧内预测模式。也就是说,一般应用相同的帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可以使用帧内预测模式针对每一叶TU计算残余值,作为CU的对应于TU的部分与原始块之间的差。TU不一定限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU可与相同CU的对应叶TU处于相同位置。在一些实例中,叶TU的最大大小可以对应于对应的叶CU的大小。
此外,叶CU的TU还可与相应的四叉树数据结构(被称作残余四叉树(RQT))相关联。即,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说,本发明分别使用术语CU和TU指代叶CU和叶TU,除非另有指出。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可包含GOP的标头、一或多个图片的标头或其它地方中的语法数据,其描述GOP中所包含的数个图片。图片的每一切片可包含描述用于相应的切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便对视频数据进行编码。视频块可与CU内的译码节点相对应。视频块可具有固定或变化的大小,并且根据指定译码标准可在大小上有所不同。
作为实例,HM支持各种PU大小的预测。假设特定CU的大小为2Nx2N,那么HM支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N及nRx2N的PU大小中的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是将另一方向分割成25%和75%。CU的对应于25%分区的部分由“n”继之以“上方(U)”、“下方(D)”、“左侧(L)”或“右侧(R)”指示来指示。因此,例如,“2NxnU”指代经水平分割的2Nx2N CU,其中顶部为2Nx0.5N PU,而底部为2Nx1.5N PU。
在本发明中,“NxN”及“N乘N”可互换使用来指代在垂直及水平尺寸方面的视频块的像素尺寸,例如,16x16像素或16乘16像素。大体来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样,NxN块总体上在垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成行和列。此外,块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说,块可包括NxM个像素,其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可以计算用于CU的TU的残余数据。PU可包括描述在空间域(也被称作像素域)中产生预测性像素数据的方法或模式的语法数据,并且TU可包括在对残余视频数据应用了变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)的变换域中的系数。所述残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残余数据的TU,并且接着变换TU以产生用于CU的变换系数。
在任何用以产生变换系数的变换之后,视频编码器20可执行变换系数的量化。量化大体上指代对变换系数进行量化以可能减少用以表示系数的数据的量从而提供进一步压缩的过程。量化过程可以减少与系数中的一些或全部相关联的位深度。例如,n位值可在量化期间被下舍入到m位值,其中n大于m。
在量化之后,视频编码器可以扫描变换系数,从包含经量化变换系数的二维矩阵产生一维向量。扫描可以经设计以将较高能量(并且因此较低频率)的系数放置在阵列的前面,并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可以执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,视频编码器20可以例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法编码一维向量。视频编码器还20也可熵编码与经编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。
为了执行CABAC,视频编码器20可向待发射的符号指派上下文模型内的上下文。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可选择用于待发射的符号的可变长度码。VLC中的码字可经构造使得相对较短码对应于更有可能符号,而较长码对应于不太可能符号。以此方式,使用VLC可例如实现优于针对待发射的每一符号使用等长度码字的位节省。概率确定可基于指派到符号的上下文。
本发明描述用于HEVC扩展位流的运载的技术。即,根据本发明的技术,多路复用器21和/或多路分用器29可经配置以输送根据视频译码标准的扩展译码的视频数据(即,发送或接收视频数据),例如HEVC、HEVC标准的扩展(例如,SHVC或MV-HEVC)或其它尚在开发的视频译码标准。一般来说,多路复用器21可囊封经编码的视频数据以形成位流,例如大体上根据MPEG-2系统和本发明的技术,而多路分用器29可接收和解囊封所囊封的数据,例如根据视频译码标准的扩展而编码的视频数据。
在一些实例中,多路复用器21和多路分用器29可经配置以如上文所论述对表Amd7-1的操作点描述符的经修改版本进行译码。标记为“所提议的表Amd7-1-HEVC操作点描述符”的下表表示对当前表Amd7-1的修改的一个实例。下文描述的HEVC操作点描述符可用以执行本发明的某些技术。下表中的斜体文字强调相对于如上所述的当前表Amd7-1的添加。
提出的表Amd7-1-HEVC操作点描述符
Figure GDA0001264448750000281
Figure GDA0001264448750000291
下文描述此表的添加语法元素的实例语义。用于其它语法元素的语义可保持与L-HEVC TS中相同。
num_profile_tier_level-指定在此描述符中用信号表示的简档、层次和层级结构的数目的8位字段。
profile_space[ptlIdx]、tier_flag[ptlIdx]、profile_idc[ptlIdx]、profile_compatibility_indication[ptlIdx]、progressive_source_flag[ptlIdx]、interlaced_source_flag[ptlIdx]、non_packed_constraint_flag[ptlIdx]、frame_only_constraint_flag[ptlIdx]、reserved_zero_44bits[ptlIdx]、level_idc[ptlIdx]-这些字段将根据建议ITU-T H.265|ISO/IEC 23008-2中分别针对general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、level_idc定义的语义而译码,以用于此描述符内描述的HEVC操作点的层。
ptlIdx和opIdx的值针对节目的第一HEVC操作点均经初始化为等于0。
num_operation_points-此8位字段指示此描述符中描述的操作点的数目。
target_ols[opIdx]-指定与此描述符中界定的第opIdx操作点相关联的输出层集合的8位字段。
target_partitioning_scheme[opIdx]-指定与此描述符中界定的第opIdx操作点相关联的输出层集合的分割方案的8位字段。
max_temporal_id[opIdx]-指定属于此描述符中界定的第opIdx操作点的NAL单元的最高TemporalId的3位字段。
es_count[opIdx]-指定包含在数据元素的随后群组中的es_reference值的数目的8位字段。根据数据元素的随后群组中指示的有序列表的基本流的聚集形成HEVC操作点。保留值0xff。
prepend_dependencies[opIdx][j]-1位旗标,其当设定成1时指示由阶层描述符中的语法元素hierarchy_embedded_layer_index以及具有由随后语法元素es_reference[opIdx][j]指定的阶层层索引值的hierarchy_extension_descriptor用信号表示的基本流将添加到基本流的列表以用于在由es_reference[opIdx][j]用信号表示的基本流之前的目标操作点。如果由hierarchy_embedded_layer_index用信号表示的基本流进一步具有由阶层描述符用信号表示的相依性,那么这些相依性将以递归方式添加到ES列表。当对于由语法元素ES_reference[opIdx][j]参考的基本流中的任一者都不存在阶层描述符和阶层扩展描述符时,prepend_dependencies[opIdx][j]的值将不等于1。
ES_reference[opIdx][j]-指定识别基本流的阶层描述符中存在的阶层层索引值的6位字段。
num_target_output_layers[opIdx]-此6位字段指定以此描述符中界定的第optIdx操作点的输出为目标的层的数目的值。
num_layers[opIdx]-指定此描述符中界定的第optIdx操作点中包含的层的数目的6位字段。
output_layer_flag[opIdx][j]-1位字段,其当经指派值‘1’时指示此描述符中界定的第opIdx操作点的第j层是输出层。否则,当经指派值‘0’时其指示此描述符中界定的第opIdx操作点的第j层不是输出层。
ptl_ref_idx[opIdx][j]-指定到指派给此描述符中界定的第optIdx操作点的第j层的简档、层次和层级的索引的8位字段。
constant_frame_rate_info_idc[opIdx]-2位字段,与下方指定的语法元素frame_rate_indicator结合指定了如何确定此描述符中界定的相关联第opIdx操作点的帧速率。值0指示对于操作点未指定帧速率且此描述符中不存在语法元素frame_rate_indicator用于操作点。
frame_rate_indicator[opIdx]-如果constant_frame_rate_info_idc[opIdx]等于1,那么此12位字段指示如HEVC时序和HRD描述符中指定的恒定数目的时间间隔,用于此描述符中界定的第i操作点处的两个图片之间的时间距离。否则如果constant_frame_rate_info_idc[opIdx]等于2,那么此12位字段指示以每秒帧数测得的操作点的帧速率。否则如果constant_frame_rate_info_idc[opIdx]等于3,那么此12位字段指示以每1.001秒帧数测得的操作点的帧速率。
因此,根据所提议的表Amd7-1的描述符表示包含简档、层次和层级(PTL)结构的集合的描述符以及使操作点中的每一者的层中的每一者与PTL结构中的对应一者相关联的数据的实例。即,“for(i=0;i<num_profile_tier_level;i++,ptlIdx++)”循环中所述的元素表示简档、层次和层级(PTL)结构的集合的实例,而“for(j=0;j<num_layers[opIdx];j++)”循环中所述的元素表示使操作点中的每一者的层中的每一者与PTL结构中的对应一者相关联的数据的实例。
根据所提议的表Amd7-1的描述符还表示包含用于操作点中的每一者的目标输出层集合语法元素的值的描述符的实例,其中所述目标输出层集合语法元素指定与对应操作点相关联的目标输出层集合。即,target_ols[opIdx]语法元素表示用于操作点中的每一者的目标输出层集合语法元素的值的实例,因为这些值指定与对应操作点相关联的目标输出层集合。
因此,多路分用器29可从位流提取描述符以确定用于位流的每一操作点的PTL结构。即,多路分用器29可提取“for(i=0;i<num_profile_tier_level;i++,ptlIdx++)”中的每一者内的数据,例如profile_idc[ptlIdx]、tier_flag[ptlIdx]以及level_idc[ptlIdx]语法元素,以确定简档、层次和层级信息的各种集合。这些集合中的每一者可对应于单个PTL数据结构,多路分用器29可按次序编索引将其实例化。多路分用器29可进一步迭代通过每一操作点的每一层,且基于ptl_ref_idx[opIdx][j]语法元素确定PTL数据结构中的哪一者对应于每一操作点的每一层。即,“opIdx”表示到操作点的索引,且“j”表示到操作点的层的索引。因此,ptl_ref_idx[opIdx][j]语法元素的值表示第opIdx操作点的第j层对应于的PTL数据结构中的一者。
此外,多路分用器29可确定用于操作点中的每一者的目标输出层集合。即,对于操作点中的每一者,多路分用器29可检索用于target_ols[opIdx]的值,其表示由“opIdx”表示的操作点的目标输出层集合。
本发明还描述其中阶层描述符和阶层扩展描述符可用以用信号表示用于HEVC层(基本流)的数据的实例,所述数据例如描述相依性(可能层的相依性)。举例来说,本发明的阶层描述符和阶层扩展描述符可不同于现有的阶层描述符和阶层扩展描述符。因此,当本发明使用术语“阶层扩展描述符”或“阶层描述符”时,本发明参考这些描述符的经更新版本,除非从描述中显而易见正参考这些描述符的先前版本。在一些实例中,这些经修改阶层扩展描述符或阶层描述符中的任一者或两者可与如上文所论述的所提议的表Amd7-1的HEVC操作点描述符合并。
因此,多路分用器29可经配置以使用例如如上文所论述的阶层描述符和/或阶层扩展描述符确定基本流之间的相依性。
多路复用器21可经配置以形成HEVC操作点描述符、阶层描述符和/或阶层扩展描述符,而多路分用器29可使用HEVC操作点描述符、阶层描述符和/或阶层扩展描述符以处理所接收视频数据,例如以将视频数据组装为可由视频解码器30使用的形式。虽然在图1的实例中未图示,但中间装置也可使用这些描述符以例如执行子位流提取。举例来说,媒体感知网络元件(MANE)可使用HEVC操作点描述符、阶层描述符和/或阶层扩展描述符执行子位流提取。
在适用时,多路复用器21、多路分用器29、视频编码器20和视频解码器30各自可实施为多种合适的编码器或解码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为组合式视频编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置,例如,蜂窝式电话。
以此方式,多路分用器29表示包含用以存储从位流提取的数据的存储器以及经配置以从位流提取描述符的一或多个处理单元的装置的实例,其中所述位流包含与描述符分离的用于操作点的视频数据的层,以使得每一操作点包含视频数据层中的一或多者,且其中所述描述符包含简档、层次和层级(PTL)结构的集合以及使操作点中的每一者的层中的每一者与PTL结构中的对应一者相关联的数据,至少部分地基于操作点中的一者的层对应于的PTL结构从位流提取用于操作点中的所述一者的视频数据,且将所提取视频数据提供到视频解码器。
图2是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频编码器20的实例的框图。所述视频数据可包含对基础层的多个(例如,两个或更多个)增强层,其中所述增强层可对应于不同可缩放性维度。视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依靠空间预测以减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依靠时间或层间预测来减少或去除视频序列或参考层(例如参考视图)的帧或图片内的视频中的冗余。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。
如图2中所示,视频编码器20接收待编码的视频帧内的当前视频块。在图2的实例中,视频编码器20包含模式选择单元40、参考图片存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46和分割单元48。为了视频块重构,视频编码器20还包含逆量化单元58、逆变换单元60,和求和器62。还可包含解块滤波器(图2中未示)来对块边界进行滤波,以从经重构视频去除成块效应假象。在需要时,解块滤波器将通常滤波求和器62的输出。除了解块滤波器外,还可使用额外滤波器(回路中或回路后)。为简洁起见未图示此些滤波器,但是必要时,此些滤波器可以对求和器50的输出进行滤波(作为环路内滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可以划分成多个视频块。运动估计单元42和运动补偿单元44可相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测性译码以提供空间预测。视频编码器20可以执行多个译码遍次,例如,以针对每一视频数据块选择适当的译码模式。
此外,分割单元48可以基于前述译码遍次中的前述划分方案的评估将视频数据块分割成子块。举例来说,分割单元48最初可以将帧或切片分割成LCU,并且基于速率失真分析(例如,速率失真优化)将LCU中的每一者分割成子CU。模式选择单元40可以进一步产生指示将LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可以包含一或多个PU和一或多个TU。
模式选择单元40可例如基于错误结果来选择译码模式中的一者,帧内或帧间,且将所得的经帧内或帧间预测的块提供给求和器50以产生残余块数据,并提供给求和器62以重构用于参考帧中的经编码块。模式选择单元40还将语法元素(例如,运动向量、帧内模式指示符、分割信息和其它此类语法信息)提供给熵编码单元56。
运动估计单元42和运动补偿单元44可高度集成,但出于概念的目的分别加以说明。由运动估计单元42执行的运动估计为产生运动向量的过程,所述运动向量估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测性块是被发现在像素差方面与待译码块紧密匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精确度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一个识别存储在参考图片存储器64中的一或多个参考图片。运动估计单元42向熵编码单元56和运动补偿单元44发送计算出的运动向量。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量来撷取或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44可在参考图片列表中的一者中定位所述运动向量指向的预测块。求和器50通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块,如下文所论述。一般来说,运动估计单元42相对于明度分量执行运动估计,并且运动补偿单元44对于色度分量及明度分量两者使用基于明度分量计算的运动向量。模式选择单元40还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
或者,运动估计单元42可对相关层中的图片的块执行层间(例如视图间)预测。举例来说,运动估计单元42可经配置以在执行相关视图中的图片的视图间预测时计算视差运动向量。在其它实例中,例如当增强层对应于针对其来说增强层的块位于与正增强的基础层中的块相同或大体上相同的位置处的可缩放性维度时,运动补偿单元44可在执行层间预测时执行块的零运动向量预测。此可缩放性维度可包含(例如)色度位深度、色彩格式、色域、PSNR等。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可以对当前块进行帧内预测。具体来说,帧内预测单元46可以确定用于对当前块进行编码的帧内预测模式。在一些实例中,帧内预测单元46可例如在单独编码遍次期间使用各种帧内预测模式对当前块进行编码,并且帧内预测单元46(或在一些实例中为模式选择单元40)可从测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可使用速率-失真分析计算针对各种测试的帧内预测模式的速率-失真值,且从所述测试的模式当中选择具有最好速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元46可以根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。
在选择用于块的帧内预测模式后,帧内预测单元46可将指示用于块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20在所发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(也称为码字映射表),对用于各种块的上下文进行编码的定义,以及对最可能帧内预测模式、帧内预测模式索引表和经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。
视频编码器20通过从正译码原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可以执行概念上类似于DCT的其它变换。也可使用小波变换、整数变换、子带变换或其它类型的变换。
在任何状况下,变换处理单元52向残余块应用所述变换,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域(例如,频域)。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可将所述变换系数量化以进一步减小位速率。量化过程可以减少与系数中的一些或全部相关联的位深度。量化过程也可被称作“按比例缩放”过程,且因此经量化的变换系数也可被称作“经按比例缩放的变换系数”。量化程度(或缩放)可通过调整量化参数来修改。在一些实例中,熵编码单元56可以接着执行对包含经量化的变换系数的矩阵的扫描。
在量化之后,熵编码单元56对经扫描的经量化的变换系数进行熵译码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。就基于上下文的熵译码而论,上下文可以基于相邻块。在熵编码单元56的熵译码之后,可以将经编码位流发射到另一装置(例如,视频解码器30),或者将所述视频存档以用于稍后发射或检索。
逆量化单元58和逆变换单元60分别应用逆量化和逆变换,以重构像素域中的残余块,(例如)以用于稍后用作参考块。运动补偿单元44可通过将残余块添加到参考图片存储器64的一个帧的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构的残余块来计算用于在运动估计中使用的次整数像素值。求和器62将经重构的残余块添加到由运动补偿单元44产生的经运动补偿的预测块,以产生经重构的视频块以用于存储于参考图片存储器64中。经重构的视频块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧中的块进行帧间译码。
图3是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频解码器30的实例的框图。在图3的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考图片存储器82及求和器80。在一些实例中,视频解码器30可执行总体上与相对于视频编码器20(图2)描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符和其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级和/或视频块层级处接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可以基于用信号表示的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当将视频帧译码为经帧间译码(即,B或P)切片时,运动补偿单元72基于从熵解码单元70接收到的运动向量和其它语法元素而产生用于当前视频切片的视频块的预测性块。预测块可从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可基于存储在参考图片存储器82中的参考图片使用默认构造技术构造参考帧列表--列表0和列表1。
运动补偿单元72通过剖析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息,且使用所述预测信息来产生用于正解码的当前视频块的预测性块。举例来说,运动补偿单元72使用所接收语法元素中的一些语法元素确定用于译码视频切片的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、切片的参考图片列表中的一或多者的构造信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态,及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元72还可以基于内插滤波器执行内插。运动补偿单元72可以使用如视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元72可根据接收的语法元素而确定由视频编码器20使用的内插滤波器并使用所述内插滤波器来产生预测性块。
在一些实例中,例如当增强层对应于针对其来说增强层的块位于与正增强的基础层中的块相同或大体上相同的位置处的可缩放性维度时,运动补偿单元72可在执行层间预测时执行块的零运动向量预测。此可缩放性维度可包含(例如)色度位深度、色彩格式、色域、PSNR等。或者,运动补偿单元72可使用视差运动向量来从一或多个参考视图(例如基础视图)预测相关视图的块。应理解,视图是层的一个实例。也就是说,当增强层是视图时,可缩放性维度可对应于视图维度(例如以提供用于为观察者产生三维效果的数据)。
逆量化单元76将提供于位流中且由熵解码单元70解码的经量化的变换系数逆量化,即,解量化。逆量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算以确定应应用的量化程度及同样的逆量化程度的量化参数QPY。逆变换单元78将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数以便产生像素域中的残余块。
在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块后,视频解码器30通过对来自逆变换处理单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码的视频块。求和器80表示执行此求和运算的一或多个组件。视需要,还可应用解块滤波器以对经解码块进行滤波,以便移除成块假象。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器82中,所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以用于稍后呈现在显示装置(例如,图1的显示装置32)上。
图4是说明其中音频/视频(A/V)源装置120将音频和视频数据输送到A/V目的地装置140的实例系统100的框图。图4的系统100可对应于视频电话会议系统、服务器/客户端系统、广播器/接收器系统或其中视频数据从源装置(例如A/V源装置120)发送到目的地装置(例如A/V目的地装置140)的任何其它系统。在一些实例中,A/V源装置120和A/V目的地装置140可执行双向信息交换。也就是说,A/V源装置120和A/V目的地装置140可能够编码和解码(以及发射和接收)音频和视频数据。在一些实例中,音频编码器126可包含话音编码器,其还称为声码器。
在图4的实例中,A/V源装置120包括音频源122和视频源124。举例来说,音频源122可包括麦克风,其产生表示有待通过音频编码器126编码的所捕获的音频数据的电信号。或者,音频源122可包括存储媒体(其存储先前记录的音频数据)、音频数据产生器(例如计算机化的合成器)或任何其它音频数据源。视频源124可包括:摄像机,其产生待由视频编码器128编码的视频数据;编码有先前所记录的视频数据的存储媒体;视频数据产生单元;或任何其它视频数据源。
“原始”(即,尚未经译码的所捕获或所获取的数据)音频和视频数据可包括模拟或数字数据。模拟数据在由音频编码器126和/或视频编码器128编码之前可被数字化。音频源122可在说话参与者正在说话时从说话参与者获得音频数据,且视频源124可同时获得说话参与者的视频数据。在其它实例中,音频源122可包含包括所存储的音频数据的计算机可读存储媒体,且视频源124可包含包括所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描述的技术可应用于实况、流式传输、实时音频和视频数据或所存档的、预先记录的音频和视频数据。
对应于视频帧的音频帧总地来说是含有与在视频帧内所含有的由视频源124所捕获的视频数据同时发生的由音频源122所捕获的音频数据的音频帧。举例来说,当说话参与者通常通过说话来产生音频数据时,音频源122捕获所述音频数据,且视频源124同时(即,在音频源122正捕获所述音频数据的同时)捕获说话参与者的视频数据。因此,音频帧可在时间上对应于一或多个特定视频帧。因此,音频帧对应于视频帧大体上对应于同时捕获到音频数据和视频数据且音频帧和视频帧分别包括同时捕获到的音频数据和视频数据的情形。
在一些实例中,音频编码器126可对每一经编码音频帧中的表示记录经编码音频帧的音频数据的时间的时戳进行编码,且类似地,视频编码器128可对每一经编码视频帧中的表示记录经编码视频帧的视频数据的时间的时戳进行编码。在此些实例中,对应于视频帧的音频帧可包括包含时戳的音频帧和包含相同时戳的视频帧。A/V源装置120可包含内部时钟,音频编码器126和/或视频编码器128可从所述内部时钟产生时戳,或者音频源122和视频源124可使用所述内部时钟来分别使音频和视频数据与时戳相关联。
在一些实例中,音频源122可向音频编码器126发送对应于记录音频数据的时间的数据,且视频源124可向视频编码器128发送对应于记录视频数据的时间的数据。在一些实例中,音频编码器126可对经编码音频数据中的序列识别符进行编码以指示经编码音频数据的相对时间排序,但未必指示记录音频数据的绝对时间,且类似地,视频编码器128也可使用序列识别符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列识别符可以映射或以其它方式与时戳相关。
本发明的技术大体上是针对于经编码多媒体(例如,音频和/或视频)数据的存储和输送,以及经输送多媒体数据的接收以及后续解译和解码。本发明的技术特别适用于多视点视频译码(MVC)数据,即包括多个视图的视频数据的输送。如图4的实例中所示,视频源124可向视频编码器128提供场景的多个视图。多视图译码可对产生将由三维显示器(例如立体或自动立体三维显示器)使用的三维视频数据。
A/V源装置120可对A/V目的地装置140提供“服务”。服务一般对应于多视图数据的可用视图的子集。举例来说,多视图数据可为可用于八个视图,排序为零到七。一个服务可对应于具有两个视图的立体视频,而另一服务可对应于四个视图,还有另一服务可对应于所有八个视图。一般来说,服务对应于所述可用视图的任何组合(即,任何子集)。服务还可对应于可用视图以及音频数据的组合。操作点可对应于服务,使得A/V源装置120可进一步为A/V源装置120所提供的每一服务提供操作点描述符。
根据本发明的技术,A/V源装置120能够提供对应于视图子集的服务。一般来说,视图由视图识别符(还被称作“view_id”)表示。视图识别符通常包括可用于识别视图的语法元素。当编码视图时,MVC编码器提供所述视图的view_id。view_id可由MVC解码器用于视图间预测,或由其它单元用于其它目的,例如用于再现。
视图间预测是用于参考共用时间位置处作为不同视图的经编码帧的一或多个帧来编码帧的MVC视频数据的技术。一般来说,可在空间上、时间上和/或参考共用时间位置处的其它视图的帧来预测性地编码MVC视频数据的经编码帧。因此,从其预测其它视图的参考视图通常在所述参考视图为其充当参考的视图之前解码,使得当解码参考视图时,这些经解码视图可用于参考。解码次序不必对应于view_ids的次序。因此,使用视图次序索引来描述视图的解码次序。视图次序索引是指示存取单元中的对应视图分量的解码次序的索引。
每一个别数据流(不论是音频还是视频)可被称为基本流。基本流是节目的单个经数字译码(可能经压缩)的分量。举例来说,所述节目的经译码视频部分或经译码音频部分可为基本流。在将基本流多路复用成节目流或输送流之前,可首先将基本流转换成包化基本流(PES)。在同一节目内,可使用流ID来区分属于一个基本流的PES包与属于另一基本流的PES包。基本流的数据的基本单元是包化基本流(PES)包。因此,MVC视频数据的每一视图对应于相应基本流。类似地,音频数据对应于一或多个相应基本流。
可将MVC经译码视频序列分成若干子位流,其中的每一者是基本流。可使用MVCview_id子集来识别每一子位流。基于每一MVC view_id子集的概念,定义MVC视频子位流。MVC视频子位流含有在MVC view_id子集中列出的视图的NAL单元。节目流通常仅含有来自基本流的那些视图的NAL单元。还设计成任何两个基本流无法含有相同的视图。
在图4的实例中,多路复用器130接收包括来自视频编码器128的视频数据的基本流,以及包括来自音频编码器126的音频数据的基本流。在一些实例中,视频编码器128和音频编码器126可各自包含用于从经编码数据形成PES包的包化器。在其它实例中,视频编码器128和音频编码器126可各自与从经编码数据形成PES包的相应包化器介接。在其它实例中,多路复用器130可包含用于从经编码音频和视频数据形成PES包的包化器。
如本发明中所使用的“节目”可包括音频数据和视频数据的组合,例如音频基本流和A/V源装置120的服务所传递的可用视图的子集的组合。每一PES包包含stream_id,其识别PES包所属于的基本流。多路复用器130负责将基本流组合成组成节目流或输送流。节目流和输送流是目标为不同应用程序的两个替代多路复用。
一般来说,节目流包含用于一个节目的数据,而输送流可包含用于一或多个节目的数据。多路复用器130可基于正提供的服务、流将传递到其中的媒体、待发送的节目的数目或其它考虑来编码节目流或输送流中的任一者或两者。举例来说,当视频数据将编码在存储媒体中时,多路复用器130可较有可能形成节目流,而当视频数据将经由网络流式传输、广播或作为视频电话的一部分发送时,多路复用器130可较有可能使用输送流。
多路复用器130可更偏好使用节目流来存储和显示来自数字存储服务的单个节目。节目流既定在无错误环境或较不容易遇到错误的环境中使用,因为节目流相当容易发生错误。节目流仅包括属于其的基本流,且通常含有具有可变长度的包。在节目流中,将从起作用的基本流导出的PES包组织为“包(pack)”。包包括包标头、任选系统标头以及按任何次序从起作用的基本流的任一者获取的任何数目的PES包。系统标头含有节目流的特性的概述,例如其最大数据速率、起作用的视频和音频基本流的数目、进一步定时信息或其它信息。解码器可使用包含于系统标头中的信息来确定解码器是否能够解码所述节目流。
多路复用器130可使用输送流来进行多个节目在潜在易错信道上的同时递送。输送流是为例如广播等多节目应用设计的多路复用,使得单个输送流可容纳许多独立节目。输送流可包括一连串输送包,且所述输送包中的每一者的长度为188个字节。短的、固定长度的包的使用导致输送流不像节目流那样易出错。此外,通过经由标准错误保护过程(例如里德-所罗门编码)处理包来给予每一188字节长的输送包额外的错误保护。输送流的改进的错误恢复意味着其有较好的机会来经受住例如将在广播环境中找到的易错信道。
归因于其增加的错误恢复和运载许多同时节目的能力,可能看起来输送流比节目流好。然而,输送流是比节目流复杂的多路复用,且因此比节目流难创建且多路分用起来较复杂。输送包的第一字节可为具有值0x47(十六进制的47、二进制的“01000111”、十进制的71)的同步字节。单个输送流可运载许多不同节目,每一节目包括许多经包化的基本流。多路复用器130可使用十三位包识别符(PID)字段来将含有一个基本流的数据的输送包与运载其它基本流的数据的那些包区分开。确保每一基本流被授予唯一PID值是多路复用器的职责。输送包的上一字节可为连续性计数字段。多路复用器130使属于同一基本流的连续输送包之间的连续性计数字段的值递增。这使得目的地装置(例如A/V目的地装置140)的解码器或其它单元能够检测输送包的损失或增益,且希望隐藏此事件原本可能导致的错误。
多路复用器130接收来自音频编码器126和视频编码器128的节目的基本流的PES包,并从所述PES包形成对应的网络抽象层(NAL)单元。在H.264/AVC(高级视频译码)的实例中,经译码视频片段被组织成NAL单元,所述单元提供“网络友好”的视频表示,其解决例如视频电话、存储、广播或流式传输等的应用。NAL单元可分类为视频译码层(VCL)NAL单元和非VCL NAL单元。VCL单元含有核心压缩引擎,且可包括块、宏块和/或切片层级。其它NAL单元为非VCL NAL单元。
多路复用器130可形成NAL单元,所述NAL单元包括识别NAL所属的节目的标头,以及有效负载,例如音频数据、视频数据或描述NAL单元所对应的输送或节目流的数据。举例来说,在H.264/AVC中,NAL单元包含1字节标头和变化大小的有效负载。在一个实例中,NAL单元标头包括priority_id元素、temporal_id元素、anchor_pic_flag元素、view_id元素、non_idr_flag元素以及inter_view_flag元素。在常规MVC中,由H.264定义的NAL单元保持,不同之处在于前缀NAL单元和MVC经译码切片NAL单元,其包含4字节MVC NAL单元标头和NAL单元有效负载。
NAL标头的priority_id元素可用于简单的一路径位流适应过程。temporal_id元素可用于指定对应NAL单元的时间层级,其中不同时间层级对应于不同帧速率。
anchor_pic_flag元素可指示图片是否为锚图片或非锚图片。锚图片以及在输出次序(即,显示次序)中接在其后的所有图片可恰当地解码,而不解码解码次序(即,位流次序)中得先前图片,且因此可用作随机存取点。锚图片和非锚图片可具有不同相关性,其两者是在序列参数集中用信号表示。将论述其它旗标,且其在此章节的以下部分中使用。此锚图片也可被称作开放式GOP(图片群组)存取点,同时当non_idr_flag元素等于零时,也支持封闭式GOP存取点。non_idr_flag元素指示图片是即时解码器刷新(IDR)还是视图IDR(V-IDR)图片。一般来说,IDR图片以及在输出次序或位流次序中接在其后的所有图片可恰当地解码,而不解码解码次序或显示次序中的先前图片。
view_id元素可包括可用于识别视图的语法信息,其可用于MVC解码器内部(例如用于视图间预测)以及解码器外部(例如用于再现)的数据交互性。inter_view_flag元素可指定对应NAL单元是否由其它视图用于视图间预测。为了传达用于基础视图的4字节NAL单元标头信息,其可符合AVC,在MVC中定义前缀NAL单元。在MVC的上下文中,基础视图存取单元包含视图的当前时间实例的VCL NAL单元以及其前缀NAL单元,其仅含有NAL单元标头。H.264/AVC解码器可忽略前缀NAL单元。
在其有效负载中包含视频数据的NAL单元可包括各种粒度等级的视频数据。举例来说,NAL单元可包括视频数据块、宏块、多个宏块、视频数据切片或整个视频数据帧。多路复用器130可从视频编码器128接收呈基本流的PES包的形式的经编码视频数据。多路复用器130可通过将stream_ids映射到(例如数据库或其它数据结构,例如节目映射表(PMT)或节目流映射(PSM)中的)对应节目来使每一基本流与对应节目相关联。
多路复用器130还可组合来自多个NAL单元的存取单元。一般来说,存取单元可包括用于表示视频数据帧以及对应于所述帧的音频数据(当此种音频数据可用时)的一或多个NAL单元。存取单元通常包含针对一个输出时间实例的所有NAL单元,例如针对一个时间实例的所有音频和视频数据。举例来说,如果每一视图具有120帧/秒(fps)的帧速率,那么每一时间实例可对应于0.05秒的时间间隔。在此时间间隔期间,用于相同存取单元的所有视图的特定帧(相同时间实例)可同时再现。在对应于H.264/AVC的实例中,存取单元可包括一个时间实例中的经译码图片,其可呈现为初级经译码图片。因此,存取单元可包括共同时间实例的所有音频及视频帧,例如对应于时间X的所有视图。本发明还将特定视图的经编码图片称为“视图分量”。也就是说,视图分量可包括在特定时间针对特定视图的经编码图片(或帧)。因此,存取单元可被定义为包括共同时间实例的所有视图分量。存取单元的解码次序不需要必定与输出或显示次序相同。
多路复用器130还可将关于节目的数据嵌入NAL单元中。举例来说,多路复用器130可创建包括节目映射表(PMT)或节目流映射(PSM)的NAL单元。一般来说,PMT用以描述输送流,而PSM用以描述节目流。如相对于下文的图2的实例更详细地描述,多路复用器130可包括数据存储单元或与数据存储单元交互,所述数据存储单元使从音频编码器126和视频编码器128接收到的基本流与节目且因此与相应的输送流和/或节目流相关联。
如同大多数视频译码标准一样,H.264/AVC和HEVC定义无错误位流的语法、语义和解码过程,其中的任一者均符合某一简档或层级。这些标准未指定编码器,但编码器的任务是确保所产生的位流顺应解码器的标准。在视频译码标准的上下文中,“简档”对应于算法、特征或工具及适用于其的约束的子集。举例来说,如通过H.264标准所定义,“简档”是通过H.264标准指定的整个位流语法的子集。“层级”对应于解码器资源消耗的限制,例如,举例来说,解码器存储器和计算,其涉及图片分辨率、位速率和宏块(MB)处理速率。
举例来说,H.264标准承认,在给定简档的语法所施加的界限内,仍然可能需要编码器及解码器的性能有较大变化,这取决于位流中的例如经解码图片的指定大小等语法元素获取的值。H.264标准进一步承认,在许多应用中,实施能够处理特定简档内的语法的所有假设使用的解码器既不实际又不经济。因此,H.264标准将“层级”定义为强加于位流中的语法元素值的指定约束集合。这些约束可为对值的简单的限制。或者,这些约束可采用值的算术组合(例如,图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。H.264标准进一步规定,个别实施方案可对于每一所支持的简档支持不同层级。
符合简档的解码器通常支持简档中定义的所有特征。举例来说,作为一个译码特征,B图片译码在H.264/AVC的基础简档中不被支持,但是在H.264/AVC的其它简档中被支持。符合一个层级的解码器应能够对任何不需要超出所述层级中定义的限制的资源的位流进行解码。简档和层级的定义可对可解释性有帮助。举例来说,在视频发射期间,可以针对整个发射会话协商和同意一对简档和层级定义。更确切地说,在H.264/AVC中,举例来说,层级可以定义需要处理的宏块数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、垂直运动向量范围、每两个连续MB的运动向量的最大数目和B块是否可以具有小于8x8像素的子宏块分区的限制。以此方式,解码器可以确定解码器是否能够恰当地对位流进行解码。
参数集总地来说在序列参数集(SPS)中含有序列层标头信息,并且在图片参数集(PPS)中含有不频繁改变的图片层标头信息。对于参数集,这个不频繁改变的信息不需要针对每一序列或图片重复;因此,可以改进译码效率。另外,使用参数集可以实现标头信息的带外发射,避免了对于冗余发射以实现抗误码的需要。在带外发射中,在与其它NAL单元不同的信道上发射参数集NAL单元。
MPEG-2系统标准允许借助于“描述符”来扩展所述系统。PMT和PSM两者包含其中可插入一或多个描述符的描述符循环。一般来说,描述符可包括可用于扩展节目和/或节目元素的定义的数据结构。本发明描述用于执行本发明的技术的操作点描述符。一般来说,本发明的操作点描述符通过描述操作点的再现能力、解码能力和位速率来增强常规MVC扩展描述符。目的地装置(例如A/V目的地装置140)可使用每一操作点的操作点描述符来选择待解码的位流的操作点中的一者。
每一PMT或PSM可包含描述操作点的特性的操作点描述符。举例来说,源装置120可提供操作点描述符以提供描述客户端/目的地装置140的再现能力的再现能力值。为了使客户端装置140恰当地再现(例如显示)操作点的视频数据,客户端装置140应满足由再现能力值用信号表示的再现能力。再现能力值可描述(例如)待显示的视图的数目(例如目标为再现的视图的数目)和/或用于所述视图的视频数据的帧速率。因此,客户端装置140可确定当客户端装置140的视频输出144能够以操作点描述符所指定的帧速率显示操作点的视图的数目时,满足所述再现能力。
在多路复用器30已组装了NAL单元和/或来自接收到的数据的存取单元之后,多路复用器30将所述单元传递到输出接口132以用于输出。输出接口132可包括(例如)发射器、收发器、用于将数据写入到计算机可读媒体的装置,例如光盘驱动器、磁性媒体驱动器(例如软驱)、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口132将NAL单元或存取单元输出到计算机可读媒体134,例如发射信道、磁性媒体、光学媒体、存储器、快闪驱动器或其它计算机可读媒体。
最终,输入接口136从计算机可读媒体134检索数据。输入接口136可包括例如光学驱动器、磁性媒体驱动器、USB端口、接收器、收发器或其它计算机可读媒体接口。输入接口136可将NAL单元或存取单元提供给多路分用器138。多路分用器138可将输送流或节目流多路分用成组成PES流,对所述PES流进行去包化以检索经编码数据,并将所述经编码数据发送到音频解码器146或视频解码器148,取决于经编码数据是否为音频或视频流的一部分,例如如由所述流的PES包标头所指示。音频解码器146对经编码音频数据进行解码且将经解码音频数据发送到音频输出142,而视频解码器148对经编码视频数据进行解码且将可包含流的多个视图的经解码视频数据发送到视频输出144。视频输出144可包括使用场景的多个视图的显示器,例如同时呈现场景的每一视图的立体或裸眼式立体显示器。
明确地说,多路分用器138可选择接收到的位流的操作点。举例来说,多路分用器138可比较位流的操作点的特性,以选择将由A/V目的地装置140使用的适当操作点。一般来说,多路分用器138可尝试选择将为用户提供可由视频解码器148解码的最高品质观看体验的操作点中的一者。举例来说,多路分用器138可将视频解码器148的再现能力和解码能力与位流的操作点描述符所用信号表示的推荐再现和解码能力进行比较。对于多路分用器138确定可由视频解码器148恰当地解码的操作点,多路分用器138可选择将提供最高质量视频数据(例如最高帧速率和/或位速率)的操作点。在其它实例中,多路分用器138可基于其它考虑(例如电力消耗)来选择所支持的操作点中的一者。
一般来说系统100可大体上对应于图1的系统10。同样地,多路复用器130可大体上对应于图1的多路复用器21,多路分用器138可大体上对应于图1的多路分用器29,且系统100的其它类似命名的组件可大体上对应于图1的类似命名的组件。因此,多路复用器130和多路分用器138可经配置以独立或以任何组合执行各种本发明中描述的技术中的任一者。
以下描述一些实例使用情况。阶层描述符和阶层扩展描述符的使用可在以下实例中说明。图5是图示说明在四个基本流中运载的L-HEVC位流的实例的概念图。举例来说,给定含有如图5中所描绘在四个基本流中运载的L-HEVC位流的节目,如下用信号表示用于每一基本流的相依性信息:
a.阶层描述符将对于esA存在以描述esA是基础层基本流。
b.阶层描述符将对于esB存在以描述esB具有对esA的时间相依性。
c.阶层扩展描述符将对于esC存在以描述esC具有对esA的层相依性。
d.阶层扩展描述符将对于esD存在以描述:
i.esD具有对esB的层相依性。
ii.esD具有对esC的时间相依性。
在为了避免阶层描述符和阶层扩展描述符的重叠使用的一个替代或添加中,提出以下各项:
a.对于运载HEVC经译码图片的每一基本流,作为阶层描述符或阶层扩展描述符的一个(例如,确切一个)描述符可以(在一个实例中,将)存在且与基本流相关联。
b.如果基本流具有对确切一个其它参考基本流的相依性(例如,时间、空间、多视图等),那么阶层描述符可以存在且与基本流相关联。当前基本流的参考基本流是直接取决于当前基本流的基本流。
c.如果基本流具有对多于一个参考基本流的相依性,那么阶层扩展描述符可以(在一个实例中,将)存在且与基本流相关联。
图6是基本流之间的相依性的另一实例。类似于图5,说明在四个基本流中运载的L-HEVC位流。在如图5中所示的相依性结构的此替代或额外实例中阶层描述符和阶层扩展描述符的使用如下:
a.阶层描述符将对于esA存在以描述esA是基础层基本流。
b.阶层描述符将对于esB存在以描述esB具有对esA的时间相依性。
c.阶层描述符将对于esC存在以描述esC具有对esA的层相依性。
d.阶层扩展描述符将对于esD存在以描述:
iii.esD具有对esB的层相依性
iv.esD具有对esC的时间相依性。
对于图6中的给定相依性结构,此替代例中的阶层描述符和阶层扩展描述符的使用如下:
a.阶层描述符将对于esA存在以描述esA是基础层基本流。
b.阶层描述符将对于esB存在以描述esB具有对esA的时间相依性。
c.阶层描述符将对于esC存在以描述esC具有对esB的层相依性。
d.阶层描述符将对于esD存在以描述esD具有对esC的层相依性。
e.阶层描述符将对于esE存在以描述esE具有对esD的时间相依性。
图7说明相依性结构的另一实例。对于图7(可能图6)中的给定相依性结构,此替代例中的阶层描述符和阶层扩展描述符的使用如下:
a.阶层描述符将对于esA存在以描述esA是基础层基本流。
b.阶层描述符将对于esB存在以描述esB具有对esA的时间相依性。
c.阶层描述符将对于esC存在以描述esC是独立经译码基本流。
d.阶层描述符将对于esD存在以描述esD具有对esC的时间相依性。
e.阶层扩展描述符将对于esE存在以描述:
i.esE具有对esC的层相依性
ii.esE具有对esA的层相依性。
f.阶层扩展描述符将对于esF存在以描述:
iii.esF具有对esE的时间相依性
iv.esF具有对esD的层相依性。
v.esF具有对esB的层相依性。
在为了避免阶层描述符和阶层扩展描述符的重叠使用的第二替代或额外实例中,提出以下各项:
a.如果基本流具有时间相依性,那么阶层描述符将存在且与基本流相关联。
b.如果基本流具有对确切一个其它参考基本流的层相依性(例如,空间、多视图、质量),那么阶层描述符将存在且与基本流相关联。
c.如果基本流具有对多于一个参考基本流的层相依性,那么阶层扩展描述符将存在且与基本流相关联。
如图5(且可能图6或7)中所示的相依性结构的此替代或额外实例中的阶层描述符和阶层扩展描述符的使用如下:
a.阶层描述符将对于esA存在以描述esA是基础层基本流。
b.阶层描述符将对于esB存在以描述esB具有对esA的时间相依性。
c.阶层描述符将对于esC存在以描述esC具有对esA的层相依性。
d.两个阶层描述符将对于esD存在以描述esD具有对esC的时间相依性且esD具有对esB的层相依性。
在如图7(可能图5或6)中所示的相依性结构的此替代例中的阶层描述符和阶层扩展描述符的使用如下:
a.阶层描述符将对于esA存在以描述esA是基础层基本流。
b.阶层描述符将对于esB存在以描述esB具有对esA的时间相依性。
c.阶层描述符将对于esC存在以描述esC是独立经译码基本流。
d.阶层描述符将对于esD存在以描述esD具有对esC的时间相依性。
e.阶层扩展描述符将对于esE存在以描述:
v.esE具有对esC的层相依性
vi.esE具有对esA的层相依性。
f.阶层描述符将对于esF存在以描述esF具有对esE的时间相依性。
g.阶层扩展描述符将对于esF存在以描述:
vii.esF具有对esD的层相依性
viii.esF具有对esB的层相依性
在为了避免阶层描述符和阶层扩展描述符的重叠使用的第三替代或额外实例中,提出将仅使用阶层描述符,且可移除阶层扩展描述符。
如图5(可能图6或7)中所示的相依性结构的此替代例中的阶层描述符的使用如下:
a.阶层描述符将对于esA存在以描述esA是基础层基本流。
b.阶层描述符将对于esB存在以描述esB具有对esA的时间相依性。
c.阶层描述符将对于esC存在以描述esC具有对esA的层相依性。
d.阶层描述符将对于esD存在以描述esD具有对esC的时间相依性。
e.阶层描述符将对于esD存在以描述esD具有对esB的层相依性。
在阶层描述符或阶层扩展描述符或两者的存在上,提出以下两个选项:
a.选项1:对于含有HEVC经译码图片的每一基本流,至少一个含有相依性信息的描述符将存在。
b.选项2:
i.仅当节目含有具有相同流类型的HEVC经译码图片的多于一个基本流时,含有相依性信息的描述符的存在是强制的。
ii.当节目中不存在含有相依性信息的描述符时,对于含有HEVC经译码图片的节目中的每一基本流,如下导出基本流中的每一者的hierarchy_layer_index的值:基本流中的第一者被给定值0,基本流中的第二者被给定值1,基本流中的第n者被给定值n-1。
在如图5(可能图6或7)中所示的相依性结构的第二替代或额外实例的实例中阶层描述符和阶层扩展描述符的使用不需要阶层描述符或阶层扩展描述符。由于基本流中的每一者是不同类型,因此不需要用信号表示用于相依性信息的描述符,因为其可如下推断:
a.esA是基础层基本流
b.esB具有对esA的时间相依性
c.esC具有对esA的多视图相依性
d.esD具有对esC的多视图相依性和对esB的时间相依性两者。
此外,节目映射表中的那些基本流的次序如下:esA,esB,esC和esC。
最后,如下导出用于每一基本流的hierarchy_layer_index的值:esA的hierarchy_layer_index等于0,esB的hierarchy_layer_index等于1,esC的hierarchy_layer_index等于2,且esD的hierarchy_layer_index等于4
以下是用于上述一或多个实例技术的实施方案的实例。提供实施上方提议的建议文本。
对于改进的阶层扩展描述符,如下更新extension_dimension_bits的语义。斜体文字表示对MPEG-2 TS标准的更新:
extension_dimension_bits-指示来自因具有等于0的nuh_layer_id的层的节目元素而产生的基础层的相关联节目元素的可能增强的16位字段。
位对增强维度的分配如表Amd7-4中所示。
表Amd7-4-扩展维度位的语义
到位的索引 描述
0 多视图增强
1 空间可缩放性,包含SNR
2 深度增强
3 AVC基础层
4 MPEG-2基础层
5 时间增强
6~15 保留
应注意,为时间增强指派的到位的索引的值可为保留值中的任一者(例如,5到15)。
对于改进的阶层描述符,提出以下改变用于对阶层描述符中的辅助层增强的支持的实例的实施。应注意,经更新部分是灰色突出显示,其中[[]]指示删除:
条款2.6.6
如下替换表2-49:
表2-49-阶层描述符
Figure GDA0001264448750000501
条款2.6.7
替换:
temporal_scalability_flag-1位旗标,其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的帧速率。此旗标的值‘1’是保留的。
spatial_scalability_flag-1位旗标,其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的空间分辨率。此旗标的值‘1’是保留的。
quality_scalability_flag-1位旗标,其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的SNR质量或保真度。此旗标的值‘1’是保留的。
hierarchy_type-相关联层级层与其层级嵌入层之间的层级关系在表2-50中定义。如果可缩放性在多于一个维度中应用,那么此字段将被设定为值‘8’(“组合可缩放性”),且将相应地设定旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag。对于MVC视频子位流,此字段将被设定为值‘9’(“MVC视频子位流”),且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。对于MVC基础视图子位流,此字段将被设定为值‘15’,且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。对于MVCD视频子位流,此字段将被设定为值‘9’(“MVCD视频子位流”),且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。对于MVCD基础视图子位流,此字段将被设定为值‘15’,且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。
为:
no_view_scalability_flag-1位旗标,其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的视图的数目。此旗标的值‘1’是保留的。
no_temporal_scalability_flag-1位旗标,其在设定为‘0’时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的帧速率。此旗标的值‘1’是保留的。
no_spatial_scalability_flag-1位旗标,其在设定为‘0’时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的空间分辨率。此旗标的值‘1’是保留的。
no_quality_scalability_flag-1位旗标,其在设定为‘0’时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的SNR质量或保真度。此旗标的值‘1’是保留的。
hierarchy_type-相关联层级层与其层级嵌入层之间的层级关系在表2-50中定义。如果可缩放性在多于一个维度中适用,那么此字段将设定成‘8’的值(“组合可缩放性”),且将相应地设定旗标no_view_scalability_flag、no_temporal_scalability_flag、no_spatial_scalability_flag和no_quality_scalability_flag。对于MVC视频子位流,此字段将设定成‘9’的值(“MVC视频子位流”)且旗标no_view_scalability_flag、no_temporal_scalability_flag、no_spatial_scalability_flag和no_quality_scalability_flag将设定成‘1’。对于MVC基础视图子位流,此字段将设定成‘15’的值且旗标no_view_scalability_flag、no_temporal_scalability_flag、no_spatial_scalability_flag[[和]]no_quality_scalability_flag将设定成‘1’,且no_auxiliary_flag将设定成‘1’。对于MVCD视频子位流,此字段将设定成‘9’的值(“MVCD视频子位流”)且旗标no_view_scalability_flag、no_temporal_scalability_flag、no_spatial_scalability_flag和no_quality_scalability_flag将设定成‘1’。对于MVCD基础视图子位流,此字段将设定成‘15’的值且旗标no_view_scalability_flag、no_temporal_scalability_flag、no_spatial_scalability_flag[[和]]no_quality_scalability_flag将设定成‘1’,且no_auxiliary_flag将设定成‘1’。
no_auxiliary_flag-1位旗标,其当设定成‘0’时指示相关联节目元素提供由hierarchy_embedded_layer_index参考的节目元素产生的辅助增强。此旗标的值‘1’是保留的。
在表2-50中替换用于值15的描述如下:
表2-50-Hierarchy_type字段值
Figure GDA0001264448750000521
对于阶层描述符和阶层扩展描述符的所提议使用,提出以下改变以用于避免阶层描述符和阶层扩展描述符的重叠使用的实施方案。
在L-HEVC TS草案的章节2.17.1处的项目符号列表的末尾添加:
a.对于具有等于0x24和0x25的stream_type的每一基本流将存在一个阶层描述符。
b.对于具有等于0x27、0x28、0x29和0x2A的stream_type的每一基本流将存在一个阶层扩展描述符。
提出以下改变以用于避免重叠的实施方案。
在L-HEVC TS草案的章节2.17.1的项目符号列表的末尾添加:
a.对于具有等于0x24和0x25的stream_type的每一基本流将存在一个阶层描述符。
b.对于具有等于0x27、0x28、0x29和0x2A的stream_type的每一基本流,以下适用:
i.如果基本流增强确切一个其它基本流,那么将存在一个阶层描述符。
ii.否则,将存在一个阶层扩展描述符。
现在描述阶层描述符和阶层扩展描述符的所提议使用的第二替代或额外实例。提出以下改变以用于避免重叠的实施方案。
在L-HEVC TS草案的章节2.17.1的项目符号列表的末尾添加:
a.对于具有等于0x24的stream_type的基本流,将存在具有等于15的hierarchy_type的一个阶层描述符。
b.对于具有等于0x25、0x28和0x29的stream_type的每一基本流,将存在具有等于3的hierarchy_type的一个阶层描述符。
c.对于具有等于0x27、0x28、0x29和0x2A的stream_type的每一基本流,以下适用:
i.如果基本流增强确切一个其它基本流,那么将存在具有不等于3的hierarchy_type的一个阶层描述符。
ii.否则,将存在一个阶层扩展描述符。
阶层描述符和阶层扩展描述符的所提议使用的第三替代或添加。提出以下改变以用于避免重叠的实施方案。
在L-HEVC TS草案的章节2.17.1的项目符号列表的末尾添加:
a.对于具有等于0x24和0x25的stream_type的每一基本流,将存在一个阶层描述符。
a.对于具有等于0x27、0x28、0x29或0x2A的stream_type的每一基本流,将存在一或多个阶层描述符。
另外或替代地,对于具有等于0x24和0x25的stream_type的每一基本流,HEVC视频描述符可为强制的。同样,当ITU-T建议H.222.0|ISO/IEC 13818-1节目包含具有等于0x27、0x28、0x29或0x2A的stream_type的一或多个基本流时,与所述节目相关联的节目映射表中至少一个HEVC操作点描述符可为强制的。
图8是说明视频数据的多个层的实例的概念图。相对于图8的视频数据描述其中操作点信息可以HEVC操作点描述符(例如,如上文所论述所提出的表Amd7-1的HEVC操作点描述符)用信号表示的实例。图8表示具有分割成五个基本流的分层HEVC位流的五个层的节目的实例。每一基本流的相依性如图8中由层之间的箭头所示。在一些实例中,所述相依性可由阶层扩展描述符的数据描述。
由于描述符可具有的有限的字节数目,操作点的信令可分裂成两个HEVC操作点描述符,如下文所示。在此实例中,第一HEVC操作点描述符含有前三个PTL结构和前两个操作点的信息,而第二HEVC操作点描述符含有接下来两个PTL结构和接下来两个操作点的信息。
第一操作点描述符
#PTL=3
PTL[0]=主简档、主层次、层级3.1
PTL[1]=MV主简档、主层次、层级3.1
PTL[2]=MV主简档、主层次、层级4.1
#OP=2
es_count[0]=1
prepand_dependencies[0]=1
es_reference[0][0]=1
#layers[0]=2
ptl_ref_idx[0][0]=0
ptl_ref_idx[0][1]=1
es_count[1]=1
prepand_dependencies[0]=1
es_reference[1][0]=2
#layers[1]=3
ptl_ref_idx[1][0]=0
ptl_ref_idx[1][1]=1
ptl_ref_idx[1][2]=2
第二操作点描述符
#PTL=1
PTL[3]=MV主简档、主层次、层级5.0
#OP=2
es_count[2]=1
prepand_dependencies[2]=0
es_reference[2][0]=3
#layers[2]=1
ptl_ref_idx[2][0]=3
es_count[3]=2
prepand_dependencies[3]=1
es_reference[3][0]=4
#layers[3]=5
ptl_ref_idx[3][0]=0
ptl_ref_idx[3][1]=1
ptl_ref_idx[3][2]=2
ptl_ref_idx[3][3]=0
ptl_ref_idx[3][4]=1
应注意为了节省位,对于一些操作点,prepand_dependencies[opIdx]的值设定成等于1且操作点的基本流的列表可基于阶层扩展描述符中用信号表示的相依性信息而导出。
图9是说明根据本发明的技术的实例方法的流程图。在此实例中,相对于图1的多路分用器29阐释图9的方法。然而,应理解其它装置可经配置以执行图9的方法,例如图4的多路分用器138或定位于源装置与目的地装置之间的媒体感知网络元件(MANE)。此外,互逆方法可由多路复用器执行,例如图1的多路复用器21或图4的多路复用器130。
初始地,在此实例中,多路分用器29从位流提取描述符,例如根据所提议表Amd7-1的HEVC操作点描述符(150)。多路分用器29随后从描述符检索一或多个简档、层次和层级(PTL)结构(152)。举例来说,PTL结构可对应于上文所论述所提议的表Amd7-1的“for(i=0;i<num_profile_tier_level;i++,ptlIdx++)”循环的数据。
多路分用器29可确定基本流(即,层)之间的相依性(154)。可在HEVC操作点描述符中或在单独描述符中用信号表示相依性。举例来说,多路分用器29可提取包含指示相依性的信息的阶层描述符(例如,根据表2-49)或阶层扩展描述符,如上文所论述。
多路分用器29还确定PTL结构中的哪一者对应于多个操作点中的每一者的每一层(156)。举例来说,多路分用器29可从上文所论述所提议的表Amd7-1的“for(j=0;j<num_layers[opIdx];j++)”循环确定此对应。
在一些实例中,多路分用器29可迭代通过PTL结构以确定PTL结构中的每一者的PTL信息,例如用于profile_idc[ptlIdx]、tier_flag[ptlIdx]和level_idc[ptlIdx]的值。多路分用器29可形成表示在描述符中用信号表示的PTL结构中的每一者(即,对应于ptlIdx值中的一者的PTL结构中的每一者)的数据结构。多路分用器29可进一步检索操作点中的每一者的层中的每一者的PTL参考索引的值,所述索引将所述层中的对应一者映射到PTL结构中的一者以确定所述层中的所述对应一者的简档、层次和层级信息。举例来说,所提议的表Amd7-1的ptl_ref_idx[opIdx][j]表示具有将操作点“opIdx”的层“j”映射到PTL结构中的一者的值的语法元素的实例。
此外,多路分用器29可确定用于操作点中的每一者的输出层集合(158)。举例来说,多路分用器29可从上文所论述所提议的表Amd7-1的target_ols[opIdx]语法元素确定所述层中的哪一者包含在用于操作点中的每一者的输出层集合中。在一个实例中,多路分用器29从描述符检索用于操作点中的每一者的target_ols[opIdx]语法元素的值,其指定与对应操作点相关联的目标输出层集合。
基于描述符的信息,多路分用器29选择操作点(160)。举例来说,多路分用器29可确定可由视频解码器30解码的操作点中的一者。当视频解码器支持操作点的视频数据所对应的简档、层次和层级元素时所述操作点可由视频解码器解码。因此,如果视频解码器30如由来自描述符的PTL信息指示支持至少操作点的简档、层次和层级,那么多路分用器29可选择操作点。多路分用器29可进一步使所述选择基于其它特性,例如输出层集合中的目标输出层的数目,例如由用于操作点的描述符的输出层集合信息指示。确切地说,多路分用器29可确定显示装置32是否可再现等于用于操作点的目标输出层的数目的数目的视图。如果存在可经解码且显示的多个操作点,那么多路分用器29可选择还包含可显示的最大数目的视图的具有最高简档、层次和层级的操作点。另外或替代地,多路分用器29可从用户接收指示将选择操作点的输入。
以此方式,在一个实例中,多路分用器29可确定视频解码器支持的视频译码标准的一或多个简档、视频解码器支持的视频译码标准的一或多个层次,以及视频解码器支持的一或多个层次内的一或多个层级,并且然后选择操作点中的一者以使得操作点中的所述一者的层中的每一者具有视频解码器支持的简档中的一者,操作点中的所述一者的层中的每一者具有视频解码器支持的层次中的一者,且操作点中的所述一者的层中的每一者具有视频解码器支持的层级中的一者,如由操作点中的所述一者的层所对应的PTL结构指示。
多路分用器29接着可提取对应于选定操作点的基本流(162)。将提取的基本流可包含包含用于目标输出层集合中的每一者的数据的基本流,以及包含目标输出层集合所取决于的数据的基本流(例如,用于时间和/或视图间预测)。多路分用器29接着可将所提取基本流发送到视频解码器30(164)。
以此方式,图9的方法表示一种方法的实例,其包含:从位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,且其中所述描述符包含简档、层次和层级(PTL)结构的集合以及使操作点中的每一者的层中的每一者与PTL结构中的对应一者相关联的数据;至少部分地基于操作点中的所述一者的层所对应的PTL结构从所述位流提取用于操作点中的一者的视频数据;以及将所提取视频数据提供到视频解码器。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同序列执行,可添加、合并或全部省略(例如,实践所述技术并不需要所有的所描述动作或事件)。此外,在某些实例中,可(例如)通过多线程处理、中断处理或多个处理器同时而非顺序地执行动作或事件。
在一或多个实例中,所描述的功能可实施于硬件、软件、固件或其任何组合中。如果以软件实施,那么所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,所述计算机可读存储媒体对应于有形媒体,例如,数据存储媒体或包含(例如)根据通信协议促进计算机程序从一位置传送至另一位置的任何媒体的通信媒体。以此方式,计算机可读媒体总体上可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的期望程序代码并且可以由计算机存取的任何其它媒体。并且,任何连接被恰当地称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在多种装置或设备中实施,包含无线手持机、集成电路(IC)或IC集合(例如,芯片集合)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所公开的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
描述了各种实例。这些及其它实例属于所附权利要求书的范围内。

Claims (60)

1.一种处理包含视频数据的位流的方法,所述方法包括:
从所述位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,其中提取所述描述符包含:
提取简档、层次和层级PTL结构的集合;以及
提取使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据,其中使所述层中的每一者与所述PTL结构中的所述对应一者相关联的所述数据与所述描述符中的所述PTL结构分离;
至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据;以及
将所提取视频数据提供到视频解码器。
2.根据权利要求1所述的方法,其中提取所述视频数据包括:
确定所述视频解码器支持的视频译码标准的一或多个简档、所述视频解码器支持的所述视频译码标准的一或多个层次,以及所述视频解码器支持的所述一或多个层次内的一或多个层级;以及
选择所述操作点中的所述一者以使得所述操作点中的所选择的一者的所述层中的每一者具有所述视频解码器支持的所述简档中的一者,所述操作点中的所选择的 一者的所述层中的每一者具有所述视频解码器支持的所述层次中的一者,且所述操作点中的所选择的 一者的所述层中的每一者具有所述视频解码器支持的所述层级中的一者,由所述操作点中的所述一者的所述层所对应的所述PTL结构指示。
3.根据权利要求1所述的方法,其进一步包括:
迭代通过所述PTL结构以确定用于所述PTL结构中的每一者的至少简档信息、层次信息和层级信息;以及
对于所述操作点中的每一者的所述层中的每一者,从所述描述符检索用于将所述层中的对应一者映射到所述PTL结构中的一者的PTL参考索引的值以确定用于所述层中的所述对应一者的所述简档、层次和层级信息。
4.根据权利要求1所述的方法,其中所述PTL结构中的每一者包含表示general_profile_space值、general_tier_flag值、多个general_profile_idc值、用于第i个general_profile_idc值的general_profile_compatibility_flag[i]值、general_progressive_source_flag值、general_interlaced_source_flag值、general_non_packed_constraint_flag值、general_frame_only_constraint_flag值、general_reserved_zero_44bits值以及level_idc值的数据。
5.根据权利要求1所述的方法,其中所述描述符包含用于操作点的列表的信息,所述信息包含用于对应操作点的相关联输出层集合、用于所述对应操作点的相关联分割方案、用于所述对应操作点的最高时间子层、构成所述对应操作点的基本流的列表、用于所述对应操作点的输出层的数目、所述操作点的每一基本流中含有的层到所述PTL结构的映射,以及用于所述对应操作点的帧速率信息。
6.根据权利要求1所述的方法,其中提取所述视频数据包括:
基于所述描述符的数据确定用于所述操作点中的所述一者的输出层集合;
从所述位流提取所述输出层集合的每一层;以及
从所述位流提取所述输出层集合的所述层所取决于的层。
7.根据权利要求6所述的方法,其中确定所述输出层集合包括从所述描述符检索用于所述操作点中的每一者的目标输出层集合语法元素的值,其中所述目标输出层集合语法元素指定与所述对应操作点相关联的目标输出层集合。
8.根据权利要求6所述的方法,其中确定所述输出层集合包括从所述描述符检索用于所述层中的每一者的旗标的值,其中所述旗标指示对应层是否为输出层。
9.根据权利要求1所述的方法,其进一步包括从所述位流提取指示用于至少一个基本流的一或多个参考基本流的信息。
10.根据权利要求9所述的方法,其中所述一或多个参考基本流的所述视频数据包括处于一或多个时间层的第一集合的视频数据,且其中所述至少一个基本流的所述视频数据包括高于所述第一集合的所述时间层的时间层的视频数据。
11.根据权利要求10所述的方法,其进一步包括处理用于扩展维度位语法元素的位的值,其中所述扩展维度位语法元素的至少一个位具有指示所述至少一个基本流的所述视频数据表示时间增强的值。
12.根据权利要求10所述的方法,其进一步包括处理用于所述描述符的hierarchy_type语法元素的值,其中所述值指示用于当前基本流的所述视频数据与所述一或多个参考基本流之间的增强的类型是辅助类型。
13.根据权利要求1所述的方法,其中提取所述描述符包括从所述位流提取多个描述符,所述描述符中的每一者在所述位流中是连续的且包含PTL结构的相应集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据。
14.根据权利要求1所述的方法,其中所述描述符包括节目层级描述符。
15.根据权利要求1所述的方法,其中所述描述符包括基本流层级描述符。
16.根据权利要求1所述的方法,其中提取所述描述符包括提取紧跟在所述位流的节目映射表的program_info_length字段之后的描述符群组。
17.根据权利要求1所述的方法,其中提取所述描述符包括提取紧跟在所述位流的节目映射表的ES_info_length字段之后的描述符群组。
18.根据权利要求1所述的方法,其进一步包括基于用于所述位流的节目的一或多个基本流的流类型而确定所述描述符是否包含在所述位流中。
19.根据权利要求1所述的方法,其进一步包括当用于所述位流的节目的至少一个基本流的流类型具有0x27、0x28、0x29或0x2A的值时确定所述描述符包含在所述位流中。
20.一种用于处理包含视频数据的位流的装置,所述装置包括:
存储器,其用以存储从所述位流提取的数据;以及
一或多个处理单元,其经配置以:
从所述位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,其中为了提取所述描述符,所述一或多个处理器经配置以:
提取简档、层次和层级PTL结构的集合,以及
提取使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据,其中使所述层中的每一者与所述PTL结构中的所述对应一者相关联的所述数据与所述描述符中的所述PTL结构分离,
至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据,以及
将所提取视频数据提供到视频解码器。
21.根据权利要求20所述的装置,其中所述一或多个处理单元进一步经配置以:
确定所述视频解码器支持的视频译码标准的一或多个简档、所述视频解码器支持的所述视频译码标准的一或多个层次,以及所述视频解码器支持的所述一或多个层次内的一或多个层级;以及
选择所述操作点中的所述一者以使得所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述简档中的一者,所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述层次中的一者,且所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述层级中的一者,由所述操作点中的所述一者的所述层所对应的所述PTL结构指示。
22.根据权利要求20所述的装置,其中所述一或多个处理单元进一步经配置以:
迭代通过所述PTL结构以确定用于所述PTL结构中的每一者的至少简档信息、层次信息和层级信息;以及
对于所述操作点中的每一者的所述层中的每一者,从所述描述符检索用于将所述层中的对应一者映射到所述PTL结构中的一者的PTL参考索引的值以确定用于所述层中的所述对应一者的所述简档、层次和层级信息。
23.根据权利要求20所述的装置,其中所述描述符包含用于操作点的列表的信息,所述信息包含用于对应操作点的相关联输出层集合、用于所述对应操作点的相关联分割方案、用于所述对应操作点的最高时间子层、构成所述对应操作点的基本流的列表、用于所述对应操作点的输出层的数目、所述操作点的每一基本流中含有的层到所述PTL结构的映射,以及用于所述对应操作点的帧速率信息。
24.根据权利要求20所述的装置,其中所述一或多个处理单元进一步经配置以:
基于所述描述符的数据确定用于所述操作点中的所述一者的输出层集合;
从所述位流提取所述输出层集合的每一层;以及
从所述位流提取所述输出层集合的所述层所取决于的层。
25.根据权利要求24所述的装置,其中为了确定所述输出层集合,所述一或多个处理器经配置以从所述描述符检索用于所述操作点中的每一者的目标输出层集合语法元素的值,其中所述目标输出层集合语法元素指定与所述对应操作点相关联的目标输出层集合。
26.根据权利要求24所述的装置,其中为了确定所述输出层集合,所述一或多个处理器经配置以从所述描述符检索用于所述层中的每一者的旗标的值,其中所述旗标指示对应层是否为输出层。
27.根据权利要求20所述的装置,其中所述一或多个处理单元进一步经配置以从所述位流提取指示用于至少一个基本流的一或多个参考基本流的信息。
28.根据权利要求20所述的装置,其中所述一或多个处理单元经配置以从所述位流提取多个描述符,所述描述符中的每一者在所述位流中是连续的且包含PTL结构的相应集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据。
29.根据权利要求20所述的装置,其中所述描述符包括节目层级描述符。
30.根据权利要求20所述的装置,其中所述描述符包括基本流层级描述符。
31.根据权利要求20所述的装置,其中所述一或多个处理单元经配置以提取紧跟在所述位流的节目映射表的program_info_length字段之后的描述符群组。
32.根据权利要求20所述的装置,其中所述一或多个处理单元经配置以提取紧跟在所述位流的节目映射表的ES_info_length字段之后的描述符群组。
33.根据权利要求20所述的装置,其中所述一或多个处理单元经配置以基于用于所述位流的节目的一或多个基本流的流类型而确定所述描述符是否包含在所述位流中。
34.根据权利要求20所述的装置,其中所述一或多个处理单元经配置以当用于所述位流的节目的至少一个基本流的流类型具有0x27、0x28、0x29或0x2A的值时确定所述描述符包含在所述位流中。
35.一种用于处理视频数据的装置,所述装置包括:
用于从位流提取描述符的装置,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,其中所述用于提取所述描述符的装置包含:
用于提取简档、层次和层级PTL结构的集合的装置;以及
用于提取使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据的装置,其中使所述层中的每一者与所述PTL结构中的所述对应一者相关联的所述数据与所述描述符中的所述PTL结构分离;
用于至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据的装置;以及
用于将所提取视频数据提供到视频解码器的装置。
36.根据权利要求35所述的装置,其中所述用于提取所述视频数据的装置包括:
用于确定所述视频解码器支持的视频译码标准的一或多个简档、所述视频解码器支持的所述视频译码标准的一或多个层次以及所述视频解码器支持的所述一或多个层次内的一或多个层级的装置;以及
用于选择所述操作点中的所述一者以使得所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述简档中的一者、所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述层次中的一者且所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述层级中的一者的装置,由所述操作点中的所述一者的所述层所对应的所述PTL结构指示。
37.根据权利要求35所述的装置,其进一步包括:
迭代通过所述PTL结构以确定用于所述PTL结构中的每一者的至少简档信息、层次信息和层级信息;以及
用于针对所述操作点中的每一者的所述层中的每一者从所述描述符检索用于将所述层中的对应一者映射到所述PTL结构中的一者的PTL参考索引的值以确定用于所述层中的所述对应一者的所述简档、层次和层级信息的装置。
38.根据权利要求35所述的装置,其中所述描述符包含用于操作点的列表的信息,所述信息包含用于对应操作点的相关联输出层集合、用于所述对应操作点的相关联分割方案、用于所述对应操作点的最高时间子层、构成所述对应操作点的基本流的列表、用于所述对应操作点的输出层的数目、所述操作点的每一基本流中含有的层到所述PTL结构的映射,以及用于所述对应操作点的帧速率信息。
39.根据权利要求35所述的装置,其中所述用于提取所述视频数据的装置包括:
用于基于所述描述符的数据确定用于所述操作点中的所述一者的输出层集合的装置;
用于从所述位流提取所述输出层集合的每一层的装置;以及
用于从所述位流提取所述输出层集合的所述层所取决于的层的装置。
40.根据权利要求39所述的装置,其中所述用于确定所述输出层集合的装置包括用于从所述描述符检索用于所述操作点中的每一者的目标输出层集合语法元素的值的装置,其中所述目标输出层集合语法元素指定与所述对应操作点相关联的目标输出层集合。
41.根据权利要求40所述的装置,其中所述用于确定所述输出层集合的装置包括用于从所述描述符检索用于所述层中的每一者的旗标的值的装置,其中所述旗标指示对应层是否为输出层。
42.根据权利要求35所述的装置,其进一步包括用于从所述位流提取指示用于至少一个基本流的一或多个参考基本流的信息的装置。
43.根据权利要求35所述的装置,其中所述用于提取所述描述符的装置包括用于从所述位流提取多个描述符的装置,所述描述符中的每一者在所述位流中是连续的且包含PTL结构的相应集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据。
44.根据权利要求35所述的装置,其中所述用于提取所述描述符的装置包括提取紧跟在所述位流的节目映射表的program_info_length字段之后的描述符群组。
45.根据权利要求35所述的装置,其中所述用于提取所述描述符的装置包括用于提取紧跟在所述位流的节目映射表的ES_info_length字段之后的描述符群组的装置。
46.根据权利要求35所述的装置,其进一步包括用于基于用于所述位流的节目的一或多个基本流的流类型而确定所述描述符是否包含在所述位流中的装置。
47.根据权利要求35所述的装置,其进一步包括用于当用于所述位流的节目的至少一个基本流的流类型具有0x27、0x28、0x29或0x2A的值时确定所述描述符包含在所述位流中的装置。
48.一种其上存储有指令的计算机可读存储媒体,所述指令在执行时致使处理器执行以下操作:
从包含视频数据的位流提取描述符,其中所述位流包含与所述描述符分离的用于操作点的视频数据层,以使得每一操作点包含所述视频数据层中的一或多者,其中所述致使所述处理器提取所述描述符的所述指令包括致使所述处理器进行以下操作的指令:
提取简档、层次和层级PTL结构的集合;以及
提取使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据,且其中使所述层中的每一者与所述PTL结构中的所述对应一者相关联的所述数据与所述描述符中的所述PTL结构分离;
至少部分地基于所述操作点中的一者的所述层所对应的所述PTL结构而从所述位流提取用于所述操作点中的所述一者的视频数据;以及
将所提取视频数据提供到视频解码器。
49.根据权利要求48所述的计算机可读存储媒体,其中所述致使所述处理器提取所述视频数据的指令包括致使所述处理器进行以下操作的指令:
确定所述视频解码器支持的视频译码标准的一或多个简档、所述视频解码器支持的所述视频译码标准的一或多个层次,以及所述视频解码器支持的所述一或多个层次内的一或多个层级;以及
选择所述操作点中的所述一者以使得所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述简档中的一者,所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述层次中的一者,且所述操作点中的所述一者的所述层中的每一者具有所述视频解码器支持的所述层级中的一者,由所述操作点中的所述一者的所述层所对应的所述PTL结构指示。
50.根据权利要求48所述的计算机可读存储媒体,其进一步包括致使所述处理器进行以下操作的指令:
迭代通过所述PTL结构以确定用于所述PTL结构中的每一者的至少简档信息、层次信息和层级信息;以及
对于所述操作点中的每一者的所述层中的每一者,从所述描述符检索用于将所述层中的对应一者映射到所述PTL结构中的一者的PTL参考索引的值以确定用于所述层中的所述对应一者的所述简档、层次和层级信息。
51.根据权利要求48所述的计算机可读存储媒体,其中所述描述符包含用于操作点的列表的信息,所述信息包含用于对应操作点的相关联输出层集合、用于所述对应操作点的相关联分割方案、用于所述对应操作点的最高时间子层、构成所述对应操作点的基本流的列表、用于所述对应操作点的输出层的数目、所述操作点的每一基本流中含有的层到所述PTL结构的映射,以及用于所述对应操作点的帧速率信息。
52.根据权利要求48所述的计算机可读存储媒体,其中所述致使所述处理器提取所述视频数据的指令包括致使所述处理器进行以下操作的指令:
基于所述描述符的数据确定用于所述操作点中的所述一者的输出层集合;
从所述位流提取所述输出层集合的每一层;以及
从所述位流提取所述输出层集合的所述层所取决于的层。
53.根据权利要求52所述的计算机可读存储媒体,其中所述致使所述处理器确定所述输出层集合的指令包括致使所述处理器从所述描述符检索用于所述操作点中的每一者的目标输出层集合语法元素的值的指令,其中所述目标输出层集合语法元素指定与所述对应操作点相关联的目标输出层集合。
54.根据权利要求52所述的计算机可读存储媒体,其中所述致使所述处理器确定所述输出层集合的指令包括致使所述处理器从所述描述符检索用于所述层中的每一者的旗标的值的指令,其中所述旗标指示对应层是否为输出层。
55.根据权利要求48所述的计算机可读存储媒体,其进一步包括致使所述处理器从所述位流提取指示用于至少一个基本流的一或多个参考基本流的信息的指令。
56.根据权利要求48所述的计算机可读存储媒体,其中所述致使所述处理器提取所述描述符的指令包括致使所述处理器从所述位流提取多个描述符的指令,所述描述符中的每一者在所述位流中是连续的且包含PTL结构的相应集合以及使所述操作点中的每一者的所述层中的每一者与所述PTL结构中的对应一者相关联的数据。
57.根据权利要求48所述的计算机可读存储媒体,其中所述致使所述处理器提取所述描述符的指令包括致使所述处理器提取紧跟在所述位流的节目映射表的program_info_length字段之后的描述符群组的指令。
58.根据权利要求48所述的计算机可读存储媒体,其中所述致使所述处理器提取所述描述符的指令包括致使所述处理器提取紧跟在所述位流的节目映射表的ES_info_length字段之后的描述符群组的指令。
59.根据权利要求48所述的计算机可读存储媒体,其进一步包括致使所述处理器基于用于所述位流的节目的一或多个基本流的流类型而确定所述描述符是否包含在所述位流中的指令。
60.根据权利要求48所述的计算机可读存储媒体,其进一步包括致使所述处理器当用于所述位流的节目的至少一个基本流的流类型具有值0x27、0x28、0x29或0x2A时确定所述描述符包含在所述位流中的指令。
CN201580054555.7A 2014-10-10 2015-10-09 用于分层hevc位流的运载的操作点 Active CN106797480B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201462062681P 2014-10-10 2014-10-10
US62/062,681 2014-10-10
US201462064428P 2014-10-15 2014-10-15
US62/064,428 2014-10-15
US14/878,783 2015-10-08
US14/878,783 US10306269B2 (en) 2014-10-10 2015-10-08 Operation point for carriage of layered HEVC bitstream
PCT/US2015/054865 WO2016057884A1 (en) 2014-10-10 2015-10-09 Operation point for carriage of layered hevc bitstreams

Publications (2)

Publication Number Publication Date
CN106797480A CN106797480A (zh) 2017-05-31
CN106797480B true CN106797480B (zh) 2020-02-28

Family

ID=54360552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580054555.7A Active CN106797480B (zh) 2014-10-10 2015-10-09 用于分层hevc位流的运载的操作点

Country Status (9)

Country Link
US (1) US10306269B2 (zh)
EP (1) EP3205105B1 (zh)
JP (1) JP6594967B2 (zh)
KR (1) KR102140860B1 (zh)
CN (1) CN106797480B (zh)
AU (1) AU2015330809B2 (zh)
ES (1) ES2741777T3 (zh)
HU (1) HUE044707T2 (zh)
WO (1) WO2016057884A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160112724A1 (en) 2014-10-15 2016-04-21 Qualcomm Incorporated Hrd descriptor and buffer model of data streams for carriage of hevc extensions
US10148969B2 (en) * 2015-02-11 2018-12-04 Qualcomm Incorporated Of sample entry and operation point signalling in a layered video file format
JP6715467B2 (ja) * 2015-07-01 2020-07-01 パナソニックIpマネジメント株式会社 符号化方法、復号方法、符号化装置、復号装置および符号化復号装置
JP6969559B2 (ja) * 2016-08-22 2021-11-24 ソニーグループ株式会社 送信装置、送信方法、受信装置および受信方法
KR20180027917A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 디스플레이장치 및 그 제어방법
GB2554680B (en) * 2016-10-03 2020-04-01 Advanced Risc Mach Ltd Selecting encoding options
GB2567835B (en) 2017-10-25 2020-11-18 Advanced Risc Mach Ltd Selecting encoding options
US11310560B2 (en) * 2019-05-17 2022-04-19 Samsung Electronics Co., Ltd. Bitstream merger and extractor
EP4026336A4 (en) 2019-10-05 2022-12-07 Beijing Bytedance Network Technology Co., Ltd. LEVEL-BASED SIGNALING OF VIDEO CODING TOOLS
JP7425204B2 (ja) 2019-12-26 2024-01-30 バイトダンス インコーポレイテッド ビデオビットストリームにおける仮想参照デコーダパラメータのシグナリングに対する制約
JP7431330B2 (ja) 2019-12-26 2024-02-14 バイトダンス インコーポレイテッド ビデオコーディングにおけるプロファイル、層及びレイヤの指示
EP4066387A4 (en) 2019-12-27 2023-02-15 ByteDance Inc. SUBPICTURE SIGNALING IN PARAMETER SETS
KR20220125235A (ko) 2020-01-09 2022-09-14 바이트댄스 아이엔씨 상이한 sei 메시지들의 디코딩 순서
AU2021225986A1 (en) * 2020-02-28 2022-09-29 Huawei Technologies Co., Ltd. An encoder, a decoder and corresponding methods of signaling and semantics in parameter sets
KR20220030186A (ko) 2020-09-02 2022-03-10 레몬 인크. Vvc 이미지 항목에 포함된 픽처들 및 계층들
KR20220030192A (ko) 2020-09-02 2022-03-10 레몬 인크. 미디어 파일에서의 이미지 전환들을 위한 전환 기간
WO2022065875A1 (ko) * 2020-09-22 2022-03-31 엘지전자 주식회사 동작점 정보와 출력 계층 세트 정보를 시그널링하는 미디어 파일 생성/수신 방법, 장치 및 미디어 파일을 저장한 컴퓨터 판독 가능한 기록 매체

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8411746B2 (en) * 2009-06-12 2013-04-02 Qualcomm Incorporated Multiview video coding over MPEG-2 systems
US9451252B2 (en) * 2012-01-14 2016-09-20 Qualcomm Incorporated Coding parameter sets and NAL unit headers for video coding
US20140086319A1 (en) * 2012-09-25 2014-03-27 Sony Corporation Video coding system with adaptive upsampling and method of operation thereof
US9992490B2 (en) * 2012-09-26 2018-06-05 Sony Corporation Video parameter set (VPS) syntax re-ordering for easy access of extension parameters
US9774927B2 (en) * 2012-12-21 2017-09-26 Telefonaktiebolaget L M Ericsson (Publ) Multi-layer video stream decoding
KR102000373B1 (ko) 2013-01-04 2019-07-15 소니 주식회사 인코더 및 인코딩 방법
US10219006B2 (en) * 2013-01-04 2019-02-26 Sony Corporation JCTVC-L0226: VPS and VPS_extension updates
US20160295220A1 (en) * 2013-11-21 2016-10-06 Lg Electronics Inc. Signal transceiving apparatus and signal transceiving method
US10567804B2 (en) 2014-01-08 2020-02-18 Qualcomm Incorporated Carriage of HEVC extension bitstreams and buffer model with MPEG-2 systems
US20160021375A1 (en) 2014-07-16 2016-01-21 Qualcomm Incorporated Transport stream for carriage of video coding extensions

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Carriage of HEVC extension streams with MPEG-2 Systems;CHEN Y et al;《MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11》;20131024;全文 *
Comments on Text of ISO/IEC 13818-1:2013/PDAM 7-Carriage of Layered HEVC;GERARD MADECTAUELECOM-BRETAGNE EU;《MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11》;20140701;全文 *
Study Text of ISO-IEC_13818-1_2013_PDAM7_Carriage_of_Layered_HEVC;GRUNEBERG K et al;《MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11》;20140709;全文 *

Also Published As

Publication number Publication date
AU2015330809A1 (en) 2017-03-23
EP3205105A1 (en) 2017-08-16
EP3205105B1 (en) 2019-05-15
JP2017535176A (ja) 2017-11-24
US20160105688A1 (en) 2016-04-14
BR112017007298A2 (pt) 2017-12-12
US10306269B2 (en) 2019-05-28
ES2741777T3 (es) 2020-02-12
WO2016057884A1 (en) 2016-04-14
JP6594967B2 (ja) 2019-10-23
CN106797480A (zh) 2017-05-31
AU2015330809B2 (en) 2020-01-16
KR20170069214A (ko) 2017-06-20
KR102140860B1 (ko) 2020-08-03
HUE044707T2 (hu) 2019-11-28

Similar Documents

Publication Publication Date Title
CN106797480B (zh) 用于分层hevc位流的运载的操作点
KR102315232B1 (ko) Mpeg-2 시스템들을 이용한 비디오 코딩 표준 확장 비트스트림 데이터의 캐리지
CA2843748C (en) Coding parameter sets for various dimensions in video coding
CN106063287B (zh) 用于解码视频数据的方法、装置和计算机可读存储媒体
PH12015500509B1 (en) Supplemental enhancement information message coding
US20140119437A1 (en) Target output layers in video coding
KR101968425B1 (ko) 비디오 코딩 확장본들의 캐리지를 위한 전송 스트림
BR112016008953B1 (pt) Condução de dados de fluxo de bits com extensão- padrão de codificação de vídeo com o uso de sistemas de mpeg-2

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant