CN106063287A - 关于mpeg‑2系统的hevc扩展位流的载运以及缓冲器模型 - Google Patents

关于mpeg‑2系统的hevc扩展位流的载运以及缓冲器模型 Download PDF

Info

Publication number
CN106063287A
CN106063287A CN201580003851.4A CN201580003851A CN106063287A CN 106063287 A CN106063287 A CN 106063287A CN 201580003851 A CN201580003851 A CN 201580003851A CN 106063287 A CN106063287 A CN 106063287A
Authority
CN
China
Prior art keywords
hevc
stream
video
buffer
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580003851.4A
Other languages
English (en)
Other versions
CN106063287B (zh
Inventor
陈颖
王益魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN106063287A publication Critical patent/CN106063287A/zh
Application granted granted Critical
Publication of CN106063287B publication Critical patent/CN106063287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2401Monitoring of the client buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44004Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8451Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Thin Film Transistor (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

本发明涉及一种视频解码器,其在缓冲器模型中从视频数据流的多个基本流组合存取单元。所述视频数据流可为输送流或节目流。无论所述基本流是否含有可缩放高效率视频译码SHVC、多视图HEVC MV‑HEVC或3D‑HEVC位流,都使用同一缓冲器模型。此外,所述视频解码器对所述存取单元进行解码。

Description

关于MPEG-2系统的HEVC扩展位流的载运以及缓冲器模型
本申请案主张2014年1月8日申请的第61/925,191号美国临时专利申请的权益,所述美国临时专利申请的整个内容以引用的方式并入本文中。
技术领域
本发明涉及视频译码,并且更确切地说,涉及HEVC多层扩展位流的载运。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视机、数字直播系统、无线广播系统、平板计算机、智能电话、个人数字助理(PDA)、膝上型计算机或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置、机顶盒装置及类似物。
各种装置可实施视频压缩技术,例如描述于以下各者中的那些技术:由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、高效率视频译码(HEVC)标准,及此些标准的扩展。多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)是对HEVC标准的多层扩展的实例。
发明内容
一般来说,本发明描述用于关于MPEG-2系统的高效率视频译码(HEVC)多层扩展位流的载运的技术,所述位流包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。根据本发明的一或多种技术,视频解码器在缓冲器模型中从数据流的多个基本流组合存取单元。所述数据流可为输送流或节目流。无论所述基本流是否含有SHVC、MV-HEVC或3D-HEVC位流都使用同一缓冲器模型。此外,所述视频解码器对所述存取单元进行解码。
在一个方面中,本发明描述一种对视频数据进行解码的方法,所述方法包括:接收包括多个基本流的视频数据流;在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。
在另一方面中,本发明描述一种视频解码装置,其包括:存储器,其经配置以存储视频数据;以及一或多个处理器,其经配置以:接收包括多个基本流的视频数据流;在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。
在另一方面中,本发明描述一种视频解码装置,其包括:用于接收包括多个基本流的视频数据流的装置;用于在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元的装置,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及用于对所述存取单元进行解码的装置,所述存取单元包括所述视频数据的一或多个图片。
在另一方面中,本发明描述一种计算机可读数据存储媒体,具有存储于其上的指令,所述指令当执行时致使视频解码装置:接收包括多个基本流的视频数据流;在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:所述视频数据流是输送流或节目流,且无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。
在附图和以下描述中阐述本发明的一或多个方面的细节。本发明中所描述的技术的其它特征、目标和优点将从描述、图式且从权利要求书显而易见。
附图说明
图1是说明可利用本发明的技术的实例视频编码和解码系统的框图。
图2是说明用于单层高效率视频译码(HEVC)的实例输送流系统目标解码器(T-STD)模型扩展的概念图。
图3是说明用于HEVC时间视频子集的分层输送的实例T-STD模型扩展的概念图。
图4是根据本发明的一或多个技术说明用于HEVC分层视频子位流的实例T-STD模型扩展的概念图。
图5是根据本发明的一或多个技术说明用于HEVC分层视频子位流的实例P-STD模型扩展的概念图。
图6是说明可实施本发明的技术的实例视频编码器的框图。
图7是说明可实施本发明的技术的实例视频解码器的框图。
图8是说明根据本发明的一或多个技术的视频解码器的实例操作的流程图。
图9是说明根据本发明的一或多个技术视频解码器组合及解码存取单元的实例操作的流程图。
具体实施方式
本发明描述用于MPEG-2系统的HEVC多层扩展位流的载运的技术,所述位流包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。在MV-HEVC中,可例如针对不同视角译码多个视图。在SHVC中,可译码多个层以例如支持空间可缩放性、时间可缩放性或质量可缩放性。在3D-HEVC中,可例如以纹理和深度分量译码多个视图以支持3D表示。一般来说,MV-HEVC中的视图、SHVC中的层或3D-HEVC中的视图可各自一般称为层。因此,SHVC、MV-HEVC和3D-HEVC可共同称为分层HEVC或多层HEVC译码技术。
MPEG-2系统规范描述经压缩的多媒体(视频和音频)数据流可与如何与其它数据一起多路复用,从而形成适合于数字传输或存储的单个数据流。MPEG-2系统规范定义了节目流和输送流的概念。节目流偏向于来自数字存储服务的单个节目的存储和显示,且节目流既定用于无错误的环境中。相比之下,输送流既定用于在潜在易错信道上的多个节目的同时递送。节目流和输送流包含经包化基本流(PES)包。节目流和输送流的PES包属于一或多个基本流。基本流是节目的单个经数字译码(可能经MPEG压缩)的分量。举例来说,所述节目的经译码视频或音频部分可为基本流。
视频解码器接收节目流和输送流的PES包。视频解码器可对从PES包获得的视频数据进行解码。在分层HEVC中,存取单元(AU)可包含与同一时间实例但不同层相关联的图片。在对存取单元的图片进行解码之前,视频解码器可能需要从PES包中的数据重新组合对应于存取单元的经编码数据。换句话说,视频解码器可能需要具有对应于处于准备好解码的状态中的存取单元的经编码数据。
格鲁恩伯格(Grüneberg)等人的“ISO/IEC 13818-1文本:2013/最终草案修改3-经由MPEG-2系统的HEVC视频的输送(Text of ISO/IEC 13818-1:2013/Final DraftAmendment 3-Transport of HEVC video over MPEG-2 Systems)”(ISO/IEC JTC1/SC29/WG11 MPEG105/N13656,2013年7月,奥地利维也纳(本文称为“n13656”或“FDAM 3”))描述了MPEG-2系统中的HEVC视频的输送。此外,陈等人的“关于MPEG-2系统的HEVC扩展流的载运(Carriage of HEVC extension streams with MPEG-2Systems)”(MPEG输入文档m31430,第106次MPEG会议,2013年10月,瑞士日内瓦,MPEG输入文档m31430(本文称为“MPEG输入文档m31430”))提出了关于MPEG-2系统的HEVC扩展流的载运的基本设计。HEVC扩展流是符合SHVC、MV-HEVC和3D-HEVC的HEVC流。FDAM 3和MPEG输入文档m31430均未描述视频解码器如何重新组合HEVC扩展流的存取单元。举例来说,FDAM 3和MPEG输入文档m31430均未描述视频解码器可用于HEVC扩展流的存取单元的重新组合的缓冲器模型。
根据本发明的一或多种技术,视频解码器在缓冲器模型中从例如输送流或节目流等数据流的多个基本流组装存取单元。无论所述基本流是否含有SHVC、MV-HEVC或3D-HEVC位流都使用同一缓冲器模型。视频解码器随后可对存取单元进行解码。通过使用缓冲模型,视频解码器能够从输送流或节目流的PES包集结数据以用于重新组合为准备好解码的存取单元。使用统一缓冲器模型用于SHVC、MV-HEVC和3D-HEVC可使用于支持SHVC、MV-HEVC和3D-HEVC的视频解码器的增加的复杂性最小化。
图1是说明可经配置以利用本发明的各种技术的实例视频编码和解码系统10的框图,所述各种技术例如用于关于MPEG-2系统的HEVC多层扩展位流的载运的技术,所述位流包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。
如图1中所示,系统10包含源装置12,所述源装置12提供经编码视频数据以在稍后时间由目的地装置14解码。确切地说,源装置12经由计算机可读媒体16将经编码视频数据提供到目的地装置14。源装置12和目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置,或类似物。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。
目的地装置14可经由计算机可读媒体16接收经编码视频数据。计算机可读媒体16可以包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体(例如发射信道)以使源装置12能够实时地将经编码视频数据直接发射到目的地装置14。
可根据通信标准(例如,无线通信协议)调制经编码的视频数据,并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成分组网络(例如,局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。
在一些实例中,经编码数据可从输出接口22输出到计算机可读存储媒体,例如非暂时性计算机可读存储媒体,即数据存储装置。类似地,经编码数据可由输入接口从存储装置存取。存储装置可包含多种分布式或本地存取的非暂时性数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装置可对应于文件服务器或另一可存储源装置12产生的经编码视频的中间存储装置。目的地装置14可例如经由流式传输或下载从存储装置存取经存储的视频数据。文件服务器可为能够存储经编码视频数据并将所述经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。这可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可能是流式传输发射、下载发射或其组合。
本发明的技术可应用于视频译码以支持多种有线或无线多媒体应用中的任一者,例如空中电视广播、有线电视发射、卫星电视发射、例如经由HTTP的动态自适应流式传输(DASH)等因特网流式传输视频发射、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。在其它实例中,源装置12和目的地装置14包含其它组件或布置。举例来说,源装置12可从外部视频源(例如,外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。
本发明在HEVC译码扩展的上下文中描述视频编码器20和视频解码器30,所述HEVC译码扩展确切地说是MV-HEVC、SHVC和3D-HEVC译码扩展。然而,本发明的技术可适用于其它视频译码标准或方法。本发明中描述的技术可由视频编码器20、视频解码器30或其它装置执行,例如拼接引擎、媒体感知网络元件、流式传输服务器、路由器以及编码、解码、组装、构造、提取或另外处理经译码视频位流的其它装置。
图1的所说明系统10只是一个实例。本发明中描述的技术可由数字视频编码和/或解码装置执行。尽管本发明的技术一般通过视频编码器20和/或视频解码器30来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)来执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅为这些译码装置的实例,其中源装置12产生用于发射到目的地装置14的经译码视频数据。在一些实例中,装置12、14可以大体上对称的方式操作以使得装置12、14中的每一者包含视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射,例如用于视频流式传输、视频重放、视频广播或视频电话。
源装置12的视频源18可以包含视频俘获装置,例如摄像机、含有先前所俘获视频的视频存档和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或直播视频、存档视频与计算机产生的视频的组合。在一些实例中,如果视频源18是摄像机,那么源装置12和目的地装置14可形成所谓的智能电话、平板计算机或视频电话。然而,如上文所提及,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,俘获、预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或数据存储媒体(即,非暂时性存储媒体)。在一些实例中,网络服务器(未图示)可以从源装置12接收经编码视频数据,并且例如经由网络发射将经编码视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置12接收经编码的视频数据且生产含有经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。
本发明通常可指视频编码器20将某些信息“用信号表示”给另一装置,例如视频解码器30。应理解,视频编码器20可以通过使某些语法元素与视频数据的各种经编码部分相关联来用信号表示信息。即,视频编码器20可通过将某些语法元素存储到视频数据的各种经编码部分的标头或有效负载中而“用信号表示”数据。在一些情况下,此些语法元素可在被视频解码器30接收和解码之前被编码和存储(例如,存储到计算机可读媒体16)。因此,术语“用信号表示”可大体上指代用于解码经压缩的视频数据的语法或其它数据的通信,不论此类通信是实时或近乎实时发生还是在一段时间中发生,例如可能在编码时将语法元素存储到媒体上的时候发生,接着可以在存储到这个媒体之后的任何时间由解码装置检索。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息还供视频解码器30使用,所述语法信息包含描述块及其它经译码单元(例如,GOP)的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器、投影装置或另一类型的显示装置。
尽管图1中未图示,在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用的话,作为一个实例,多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20和视频解码器30各自可实施为合适的多种合适的编码器或解码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为组合视频编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置(例如,蜂窝式电话)。
实例视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也被称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。ITU-TH.264|ISO/IEC 14496-10界定H.264/AVC视频译码标准。ITU-T H.264|ISO/IEC14496-10的特定附录界定H.264/AVC视频译码标准的扩展。举例来说,ITU-T H.264|ISO/IEC 14496-10的附录B界定用于H.264/AVC的字节流格式。ITU-T H.264|ISO/IEC 14496-10的附录G界定H.264/AVC的SVC扩展。ITU-T H.264|ISO/IEC14496-10的附录H界定H.264/AVC的MVC扩展。
近来,新的视频译码标准(即高效率视频译码(HEVC))的设计已由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)定案。视频编码器20和视频解码器30可根据HEVC标准操作,并且更确切地说根据多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)或HEVC标准的3D-HEVC扩展,如本发明中参考。HEVC假定视频译码装置相对于经配置以根据其它过程(例如ITU-T H.264/AVC)执行译码的装置的若干额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HEVC的参考模型可提供多达三十五种帧内预测编码模式。
王等人的HEVC草案规范文献JCTVC-N1003_v1(ITU-T SG 16WP 3和ISO/IEC JTC1/SC 29/WG 11的视频译码联合合作小组(JCT-VC),第14次会议:奥地利维也纳,2013年7月25日-8月2日,且本文称为“HEVC WD”或“HEVC”)从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip可用。建议ITU-T H.265|ISO/IEC 23008-2是HEVC标准的最终版本。
3D视频译码扩展开发联合合作小组(JCT-3V)正在开发对HEVC的多视图扩展,即MV-HEVC。泰克(Tech)等人的MV-HEVC的最近工作草案(WD)文献JCT3V-E1004-v6(ITU-T SG16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第5次会议:奥地利维也纳,2013年7月27日-8月2日,本文称为“MV-HEVC WD5”或“MV-HEVC”)从http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1004-v6.zip可用。
泰克等人的文献JCT3V-E1001-v3(ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG11的3D视频译码扩展开发联合合作小组,第5次会议:奥地利维也纳,2013年7月27日-8月2日(本文为“JCT3V-E1001”或“3D-HEVC”))是HEVC的3D扩展的最近工作草案,即3D-HEVC。JCT3V-E1001从http://phenix.int-evry.fr/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1001-v3.zip可用。
JCT-VC也在开发对HEVC的可缩放扩展,被命名为SHVC。陈等人的文献JCTVC-N1008_v3(ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的视频译码联合合作小组(JCT-VC),第14次会议:奥地利维也纳,2013年7月25日-8月2日(本文为“SHVC WD3”或简称为“SHVC”))是SHVC的最近工作草案(WD)。SHVC WD3从http://phenix.it-sudparis.eu/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1008-v3.zip可用。
弗林(Flynn)等人的文献JCTVC-N1005_v1(ITU-T SG 16WP 3和ISO/IEC JTC 1/SC29/WG 11的视频译码联合合作小组(JCT-VC)第13次会议:韩国仁川,2013年4月18日-26日,文献JCTVC-N1005(本文为JCTVC-N1005))是HEVC的范围扩展的最近工作草案。JCTVC-N1005从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1005-v3.zip可用。
一般来说,HEVC指定视频图片(或“帧”)可被划分成被称作译码树单元(CTU)的最大译码单元的序列。CTU可包含对应的明度和色度分量,被称作译码树块(CTB),例如明度CTB和色度CTB,分别包含明度和色度样本。位流内的语法数据可以界定CTU(就像素数目来说的最大译码单元)的大小。切片包含呈译码次序的多个连续CTB。图片可以分割成一或多个切片。每一CTB可根据四叉树分割结构分裂成一或多个译码单元(CU)。一般来说,四叉树数据结构包含每个CU一个节点,其中根节点对应于CTB。如果一个CU分裂成四个子CU,那么对应于CU的节点包含四个叶节点,其中的每一者对应于所述子CU中的一者。CU可包括具有明度样本阵列、Cb样本阵列和Cr样本阵列的图片的明度样本的译码块以及色度样本的两个对应的译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CU可包括单个译码块和用以对译码块的样本进行译码的语法结构。
四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,其表明对应于所述节点的所述CU是否分裂成子CU。用于CU的语法元素可以递归地来定义,且可以取决于CU是否分裂成数个子CU。如果CU不进一步分裂,那么将其称为叶CU。叶CU的四个子CU也可被称为叶CU,即使不存在原始叶CU的显式分裂时也是如此。举例来说,如果16×16大小的CU未进一步分裂,那么这四个8×8子CU可被称作叶CU,虽然16×16CU从未分裂。
HEVC中的CU具有与H.264标准的宏块类似的目的,除了CU不具有大小区别。举例来说,可将CTB拆分成四个子节点(还被称作子CU),且每一子节点又可为父节点,且拆分成另外四个子节点。最终的未经分裂子节点(被称作四叉树的叶节点)包括译码节点,还被称作叶CU。与经译码位流相关联的语法数据可定义CTB可分裂的最大次数,被称作最大CU深度,且还可定义译码节点的最小大小。因此,在一些实例中,位流还可界定最小译码单元。
CU包含译码节点以及与所述译码节点相关联的一或多个预测单元(PU)和一或多个变换单元(TU)。本发明可使用术语“块”来指代HEVC的上下文中的CU、预测单元(PU)、变换单元(TU)或其分区或其它标准的上下文中的类似数据结构中的任一者。CU的大小对应于译码块的大小。CU的大小范围可从8×8像素至多达具有最大64×64个像素或更大的CTB的大小。
与CU相关联的语法数据可描述CU分割成一个或多个PU。一般来说,PU表示对应于CU的全部或一部分的空间区域。分割模式可在CU被跳过或经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不同。在如本发明中所描述的深度译码的情况下,PU可分割为非正方形形状,或包含非矩形形状的分区。CU的PU可包括明度样本的预测块、色度样本的两个对应预测块以及用以预测预测块的语法结构。在单色图片或具有三个单独颜色平面的图片中,PU可包括单个预测块和用以预测预测块的语法结构。视频编码器20可针对CU的每一PU的预测块(例如,明度、Cb和Cr预测块)产生预测性块(例如,明度、Cb和Cr预测性块)。
PU可包含用于检索PU的参考样本的数据。参考样本可为来自参考块的像素。在一些实例中,参考样本可从参考块获得或例如通过内插或其它技术而产生。PU还包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可以包含在残余四叉树(RQT)中,残余四叉树可以包含描述用于对应于PU的TU的帧内预测模式的数据。
作为另一实例,当PU经帧间模式编码时,PU可以包含界定PU的一或多个运动向量的数据。定义用于PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精确度或八分之一像素精确度)、运动向量指向的参考图片和/或用于运动向量的参考图片列表(例如,RefPicList 0或RefPicList1)。
HEVC支持各种PU大小的预测。假设特定CU的大小是2Nx2N,那么HEVC支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。具有2Nx2N的大小的PU与PU驻留于其中的CU是相同的大小。HEVC支持用于2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是将另一方向分割成25%和75%。CU的对应于25%分区的部分由“n”继之以“上”、“下”、“左”或“右”的指示来指示。因而,举例来说,“2NxnU”是指水平地分割的2Nx2N CU,其中上方有2Nx0.5NPU,而下方有2Nx1.5N PU。对于深度译码,JCT3V-E1001进一步支持根据深度建模模式(DMM)对PU进行分割,包含非矩形分区,如将描述。
在本发明中,“NxN”与“N乘N”可互换使用来指在垂直和水平尺寸方面的视频块的像素尺寸,例如,16x16像素或16乘16像素。大体来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样地,NxN块一般在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成行和列。此外,块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说,块可包括NxM个像素,其中M未必等于N。
与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU的形状可为正方形或非正方形(例如,矩形)。CU的TU可包括明度样本的变换块、色度样本的两个对应的变换块,以及用以对变换块样本进行变换的语法结构。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用以对变换块的样本进行变换的语法结构。HEVC标准允许根据TU的变换。视频编码器20可变换与TU相关联的像素差值以产生变换系数。
在一些实例中,CU的TU的大小是基于CU的PU的大小,但情况可能并不总是如此。此外,在一些实例中,TU与PU是相同的大小或小于PU。对应于CU的残余样本(即,像素差值)可使用被称为“残余四叉树”(RQT)的四叉树结构而细分为较小的单元(即,变换块)。换句话说,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树(即,RQT)的根节点一般对应于叶CU。RQT的叶节点对应于TU。未经分裂的RQT的TU被称作叶TU。一般来说,除非以其它方式提及,否则本发明分别使用术语CU及TU来指叶CU及叶TU。
TU可以使用RQT(还被称作TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示叶CU是否分裂成四个TU。随后,每一TU可进一步分裂为另外的若干子TU。当TU未进一步分裂时,TU可被称作叶TU。在一些实例中,对于帧内译码,属于叶CU的全部叶TU共享同一帧内预测模式。也就是说,通常应用相同的帧内预测模式来计算一叶CU的所有TU的预测值。对于帧内译码,视频编码器20可以使用帧内预测模式将每一叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU不一定限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU可以与相同CU的对应叶TU并置。在一些实例中,叶TU的最大大小可以对应于对应的叶CU的大小。
在使用CU的PU进行常规的帧内预测性或帧间预测性译码之后,视频编码器20可计算用于CU的TU的残余数据。PU可包括描述在空间域(也称为像素域)中产生预测性像素数据的方法或模式的语法数据,且用于常规残余译码的TU可包括在对残余视频数据应用变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残余数据的TU,并且接着变换TU以产生用于CU的变换系数。
在用于产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化大体上指代对变换系数进行量化以可能减少用以表示系数的数据的量从而提供进一步压缩的过程。量化过程可以减少与系数中的一些或全部相关联的位深度。例如,n位值可在量化期间被下舍入到m位值,其中n大于m。
在量化之后,视频编码器20可扫描经量化变换系数,从包含经量化变换系数的二维矩阵产生一维向量。扫描可以经设计以将较高能量(并且因此较低频率)的系数放置在阵列的前面,并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。
在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可以执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应二进制算术译码(CABAC)对所述一维向量进行熵编码,如HEVC中所使用。其它熵译码过程的实例包含上下文自适应可变长度译码(CAVLC)、基于语法的上下文自适应二进制算术译码(SBAC)以及概率间隔分割熵(PIPE)译码。视频编码器还20可熵编码与经编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。
视频序列通常包含一系列视频图片。如本文所描述,术语“图片”与“帧”可以互换地使用。图片的每一切片可包含描述用于相应的切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便对视频数据进行编码。视频块可与CU内的译码节点相对应。视频块可具有固定或变化的大小,并且根据指定译码标准可在大小上有所不同。
视频编码器20和/或视频解码器30可执行深度数据的图片内预测译码和深度数据的帧间预测译码。在HEVC中,假定CU的大小为2Nx2N,视频编码器20及视频解码器30可支持用于帧内预测的2Nx2N或N×N的各种PU大小,及用于帧间预测的2Nx2N、2NxN、Nx2N、NxN或类似大小的对称PU大小。视频编码器及视频解码器还可支持用于帧间预测的2NxnU、2NxnD、nLx2N及nRx2N的PU大小的不对称分割。
视频编码器20可输出包含形成经译码图片及相关联数据的表示的位序列的位流。术语“位流”可为用以指网络抽象层(NAL)单元流(例如,NAL单元序列)或字节流(例如,含有开始码前缀的NAL单元流及如由HEVC标准的附录B指定的NAL单元的囊封)的集合性术语。NAL单元为含有NAL单元中的数据类型类型的指示及含有所述数据的呈按需要穿插有模拟阻止位的原始字节序列有效负载(RBSP)的形式的字节的语法结构。
NAL单元中的每一者可包含NAL单元标头且可囊封RBSP。NAL单元标头可包含各种语法元素,例如指示NAL单元类型代码的语法元素。包含于NAL单元标头中的任何语法元素可在本文中被称作NAL单元标头语法元素。由NAL单元的NAL单元标头指定的所述NAL单元类型代码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。
不同类型的NAL单元可囊封不同类型的RBSP。例如,第一类型的NAL单元可囊封用于图片参数集(PPS)的RBSP,第二类型的NAL单元可囊封用于切片片段的RBSP,第三类型的NAL单元可囊封用于补充增强信息(SEI)的RBSP等。囊封视频译码数据的RBSP(与参数集及SEI消息的RBSP相对)的NAL单元可被称为视频编码层(VCL)NAL单元。含有参数集(例如,视频参数集(VPS)、序列参数集(SPS)、PPS等)的NAL单元可被称为参数集NAL单元。含有SEI消息的NAL单元可被称为SEI NAL单元。补充增强信息(SEI)含有并非对来自VCL NAL单元的经译码图片的样本进行解码所必需的信息。
视频解码器30可以接收由视频编码器20产生的位流。另外,视频解码器30可以剖析位流以获得来自位流的语法元素。视频解码器30可至少部分基于从位流获得的语法元素重构造视频数据的图片。用以重构视频数据的过程一般可与由视频编码器20执行以对视频数据进行编码的过程互逆。举例来说,视频解码器30可使用PU的运动向量,以确定当前CU的PU的预测性块。另外,视频解码器30可逆量化当前CU的TU的系数块。视频解码器30可对系数块执行逆变换以重构当前CU的TU的变换块。通过将用于当前CU的PU的预测性块的样本增加到当前CU的TU的变换块的对应的样本上,视频解码器30可以重构当前CU的译码块。通过重构用于图片的每一CU的译码块,视频解码器30可重构图片。
在多视图译码中,可存在来自不同视角的同一场景的多个视图。术语“存取单元”可用以指对应于同一时间实例的图片集合。因此,视频数据可概念化为随时间出现的一系列存取单元。“视图分量”可为单个存取单元中的视图的经译码表示。在本发明中,“视图”可指与相同视图识别符相关联的视图分量的序列或集合。视图分量可含有纹理视图分量和深度视图分量。
纹理视图分量(即,纹理图片)可为单一存取单元中的视图的纹理的经译码表示。纹理视图可为与视图次序索引的相同值相关联的纹理视图分量的序列。视图的视图次序索引可指示所述视图相对于其它视图的相机位置。深度视图分量(即,深度图片)可为单一存取单元中的视图的深度的经译码表示。深度视图可为与视图次序索引的相同值相关联的一或多个深度视图分量的集合或序列。
在MV-HEVC、3D-HEVC和SHVC中,视频编码器可产生包括一系列NAL单元的位流。位流的不同NAL单元可与所述位流的不同层相关联。层可经界定为具有相同层识别符的VCLNAL单元和相关联非VCL NAL单元的集合。层可等效于多视图视频译码中的视图。在多视图视频译码中,层可含有同一层的具有不同时间实例的所有视图分量。每一视图分量可为属于特定时间实例处的特定视图的视频场景的经译码图片。在3D视频译码的一些实例中,层可含有特定视图的全部经译码深度图片或特定视图的经译码纹理图片。在3D视频译码的其它实例中,层可含有特定视图的纹理视图分量和深度视图分量两者。类似地,在可可缩放视频译码的上下文中,层通常对应于具有不同于其它层中的经译码图片的视频特性的经译码图片。此类视频特性通常包含空间分辨率和质量水平(例如,信噪比)。在HEVC及其扩展中,可在一层内通过将具有特定时间层级的图片群组定义为子层来实现时间可缩放性。
对于位流的每一相应层,可在不参考任何较高层中的数据情况下解码较低层中的数据。在可缩放视频译码中,例如,可在不参考增强层中的数据的情况下解码基础层中的数据。一般来说,NAL单元可仅囊封单个层的数据。因此,可将包封位流的最高剩余层的数据的NAL单元从位流去除,而不影响位流的剩余层中的数据的可解码性。在多视图译码和3D-HEVC中,较高层可包含额外视图分量。在SHVC中,较高层可包含信噪比(SNR)增强数据、空间增强数据和/或时间增强数据。在MV-HEVC、3D-HEVC和SHVC中,如果视频解码器可对层中的图片进行解码而无需参考任何其它层的数据,那么所述层可被称为“基础层”。基础层可符合HEVC基础规范(例如,HEVC WD)。
在SVC中,除基础层外的层可被称为“增强层”且可提供增强从位流解码的视频数据的视觉质量的信息。SVC可增强空间分辨率、信噪比(即,质量)或时间速率。在可缩放视频译码(例如,SHVC)中,“层表示”可为单个存取单元中的空间层的经译码表示。为便于说明,本发明可将视图分量和/或层表示称为“视图分量/层表示”或简称为“图片”。
为了实施所述层,NAL单元的标头可包含nuh_reserved_zero_6bits语法元素。在HEVC WD中,nuh_reserved_zero_6bits语法元素是保留的。然而,在MV-HEVC、3D-HEVC和SVC中,nuh_reserved_zero_6bits语法元素被称作nuh_layer_id语法元素。nuh_layer_id语法元素指定层的识别符。位流的具有指定不同值的nuh_layer_id语法元素的NAL单元属于位流的不同层。
在一些实例中,如果一NAL单元与多视图译码(例如,MV-HEVC)、3DV译码(例如,3D-HEVC)或可缩放视频译码(例如,SHVC)中的基础层有关,那么所述NAL单元的nuh_layer_id语法元素等于0。如果一NAL单元与多视图译码、3DV或可缩放视频译码中的基础层无关,那么所述NAL单元的nuh_layer_id语法元素可具有非零值。
此外,在一层内的一些视图分量/层表示可在不参考同一层内的其它视图分量/层表示的情况下进行解码。因此,囊封一层的某些视图分量/层表示的数据的NAL单元可从位流移除,而不影响所述层中的其它视图分量/层表示的可解码性。移除囊封此些视图分量/层表示的数据的NAL单元可减小位流的帧速率。可在不参考在一层内的其它视图分量/层表示的情况下解码的在所述层内的视图分量/层表示的子集可在本文中被称作“子层”或“时间子层”。
NAL单元可包含指定NAL单元的时间识别符(即,TemporalIds)的temporal_id语法元素。NAL单元的时间识别符识别NAL单元属于的子层。因此,层的每一子层可具有不同时间识别符。一般来说,如果一层的第一NAL单元的时间识别符小于同一层的第二NAL单元的时间识别符,那么可在不参考由第二NAL单元封装的数据的情况下解码由第一NAL单元封装的数据。
位流可与多个操作点相关联。位流的每一操作点与层识别符的集合(例如,nuh_layer_id值的集合)和时间识别符相关联。所述组层识别符可表示为OpLayerIdSet且所述时间识别符可表示为TemporalID。如果NAL单元的层识别符在操作点的层识别符集合中,且NAL单元的时间识别符小于或等于所述操作点的时间识别符,那么所述NAL单元与所述操作点相关联。因此,操作点可对应于位流中的NAL单元的子集(例如,恰当子集)。
MPEG-2系统规范描述经压缩的多媒体(视频和音频)数据流可与如何与其它数据一起多路复用,从而形成适合于数字传输或存储的单个数据流。MPEG-2 TS的最新规范是ITU-T建议H.222.0 2012年6月版本(本文为“MPEG-2 TS”),其中提供对高级视频译码(AVC)和AVC扩展的支持。最近,已开发用于HEVC的MPEG-2 TS的修正。最新文档是2013年7月的MPEG输出文献N13656中的“ISO/IEC-1文本:2013年/最终草案修正3-经由MPEG-2系统的HEVC视频的输送(Text of ISO/IEC 13818-1:2013/Final Draft Amendment 3-Transportof HEVC video over MPEG-2 Systems)”。
MPEG-2系统规范界定基本流的概念。具体地说,基本流是节目的单个经数字译码(可能经MPEG压缩)的分量。举例来说,所述节目的经译码视频或音频部分可为基本流。在将基本流多路复用成节目流或输送流之前,可首先将基本流转换成经包化基本流(PES)。在同一节目内,stream_id用以区分属于一个基本流和属于另一基本流的PES包。
另外,MPEG-2系统规范界定了节目流和输送流的概念。节目流和输送流是以不同应用为目标的两种替代的多路复用。节目流偏向于来自数字存储服务的单个节目的存储和显示,且节目流既定用于无错误环境中,因为其相当容易发生错误。相比之下,输送流既定用于在潜在易错信道上的多个节目的同时递送。一般来说,输送流是为例如广播等多节目应用设计的多路复用,使得单个输送流可容纳许多独立节目。节目流简单地包括属于其的基本流,且通常含有具有可变长度包的包。
在节目流中,将从起作用的基本流导出的PES包组织为“包(pack)”。包按任何次序包括包标头、任选的系统标头,以及从有贡献的基本流(即,节目流的基本流)中的任一者取得的任何数目的PES包。系统标头含有节目流的特性的概述,例如:节目流的最大数据速率,节目流的有贡献的视频和音频基本流的数目,以及进一步的定时信息。例如解码器30等解码器可使用包含于系统标头中的信息以确定解码器是否能够解码节目流。
输送流包括一连串输送包。输送包是一类PES包。输送包中的每一者是188字节长。输送流中的短的固定长度包的使用意味着输送流不像节目流那样容易发生错误。进一步,通过例如里德-所罗门编码(Reed-Solomon encoding)等标准错误保护过程处理输送包可对每一188字节长输送包给予额外错误保护。输送流的改善的容错性意味着输送流具有在易错信道中存留的较好机会,例如广播环境中的那些信道。给定输送流的增加的容错性以及在输送流中载运许多同时的节目的能力,可见输送流显然是所述两种多路复用(即,节目流和输送流)中更好的一者。然而,输送流是比节目流复杂得多的多路复用,且因此较难创建且多路分用。
输送包的第一字节是同步字节,其为0x47。单个输送流可载运许多不同节目,其各自包括许多经包化基本流。另外,输送包包含13位包识别符(PID)字段。PID字段用以区分含有一个基本流的数据的输送包与载运其它基本流的数据的输送包。确保每一基本流被授予唯一PID值是多路复用器的职责。输送包的最后字节是连续性计数字段。使属于同一基本流的连续输送包之间的连续性计数字段的值递增。递增连续性计数字段的值使得例如解码器30等解码器能够检测输送包的损失或增益且潜在地隐藏原本可能由输送包的损失或增益引起的错误。
虽然可基于输送包的PID值确定输送包属于的基本流,但解码器可能需要能够确定哪些基本流属于哪一节目。因此,节目特定信息显式地指定节目与组成基本流之间的关系。举例来说,节目特定信息可指定节目与属于所述节目的基本流之间的关系。输送流的节目特定信息可包含节目映射表(PMT)、节目关联表(PAT)、条件接入表以及网络信息表。
在输送流中载运的每一节目均与节目映射表(PMT)相关联。准许PMT包含一个以上节目。举例来说,输送流中载运的多个节目可与同一PMT相关联。与节目相关联的PMT给出关于节目和构成所述节目的基本流的细节。例如,具有编号3的节目可含有具有PID33的视频、具有PID 57的英语音频、具有PID 60的中文音频。换句话说,在此实例中,PMT可指定输送包包含具有等于33的值的PID字段的基本流含有具有等于3的编号(例如,program_number)的节目的视频,输送包包含具有等于57的值的PID字段的基本流含有具有编号3的节目的英语音频,且输送包包含具有等于60的值的PID字段的基本流含有具有编号3的节目的中文音频。
可以MPEG-2系统规范内指定的许多描述符中的一些来修饰基本PMT。换句话说,PMT可包含包含一或多个描述符。描述符传达关于节目或节目的组成基本流的进一步信息。描述符可包含视频编码参数、音频编码参数、语言识别信息、摇摄与扫描信息、条件接入细节、版权信息等。广播公司或其它用户在需要时可界定额外的私用描述符。在视频相关组成基本流中,还存在阶层描述符。阶层描述符提供识别含有以阶层方式译码的视频、音频和私用流的分量的节目元素的信息。私用流可包含元数据,例如节目特定信息的流。一般来说,节目元素是包含在节目中的数据或基本流中的一者(即,节目的组成基本流)。在MPEG-2输送流中,节目元素通常经包化。在MPEG-2节目流中,节目元素未经包化。
节目流的节目特定信息可包含节目流映射(PSM)。节目流的PSM提供节目流中的基本流以及基本流彼此的关系的描述。当在输送流中载运时此结构将不会经修改。当stream_id值是0xBC时PSM存在为PES包。
如上文所指出,输送流的节目特定信息可包含节目关联表(PAT)。输送流的PAT含有输送流中可用的全部节目的完整列表。PAT始终具有PID值0。换句话说,具有等于0的PID值的输送包含有PAT。PAT列出输送流的每一相应节目连同含有与所述相应节目相关联的节目映射表的输送包的PID值。举例来说,在上述实例PMT中,PAT可包含指定PMT的信息,所述PMT指定节目编号3的基本流具有1001的PID,且可包含指定具有1002的另一PID的另一PMT的信息。换句话说,在此实例中,PAT可指定PID字段具有等于1001的值的输送包含有节目编号3的PMT,且PAT可指定PID字段具有等于1002的值的输送包含有另一节目的PMT。
此外,如上文所指出,输送流的节目特定信息可包含网络信息表(NIT)。输送流的PAT中指定的节目编号零具有特殊意义。具体地说,节目编号0指向NIT。输送流的NIT是任选的且当存在时,NIT提供关于载运输送流的物理网络的信息。举例来说,NIT可提供例如信道频率、卫星应答器细节、调制特性、服务发起者、服务名称和可用替代网络的细节等信息。
如上文所指出,输送流的节目特定信息可包含条件接入表(CAT)。如果输送流内的任何基本流经加扰,那么CAT必须存在。CAT提供使用中的加扰系统的细节,且提供含有有条件接入管理和服务鉴权信息的输送包的PID值。MPEG-2不指定此信息的格式。
如上文所指出,PMT可包含一或多个描述符,其传达关于节目或节目的组成基本流的信息。PMT中的所述一或多个描述符可包含阶层描述符。在MPEG-2输送流(TS)中,阶层描述符经设计以用信号表示不同基本流中的子位流的阶层。阶层描述符提供用以识别含有以阶层方式译码的视频、音频和私用流的分量的节目元素的信息。以下表2-49展示阶层描述符的语法。在表2-49之后的段落描述阶层描述符的字段的语义。
表2-49-阶层描述符
temporal_scalability_flag-1位旗标,当设定成‘0’时指示相关联节目元素增强从由hierarchy_embedded_layer_index参考的节目元素产生的位流的帧速率。此旗标的值‘1’是保留的。
spatial_scalability_flag-1位旗标,当设定成‘0’时指示相关联节目元素增强从由hierarchy_embedded_layer_index参考的节目元素产生的位流的空间分辨率。此旗标的值‘1’是保留的。
quality_scalability_flag-1位旗标,当设定成‘0’时指示相关联节目元素增强从由hierarchy_embedded_layer_index参考的节目元素产生的位流的SNR质量或保真度。此旗标的值‘1’是保留的。
hierarchy_type-相关联阶层层与其阶层嵌入层之间的阶层式关系在表2-50中界定(下文展示)。如果可缩放性在一个以上维度中应用,那么此字段将被设定为值‘8’(“组合可缩放性”),且将相应地设定旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag。对于MVC视频子位流,此字段将被设定为值‘9’(“MVC视频子位流”),且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。对于MVC基础视图子位流,hierarchy_type字段将被设定为值‘15’,且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为‘1’。
hierarchy_layer_index-hierarchy_layer_index是6位字段,其界定译码层阶层的表中的相关联节目元素的唯一索引。索引在单个节目定义内将是唯一的。对于符合在建议ITU-T H.264|ISO/IEC 14496-10的附录G中定义的一或多个简档的AVC视频流的视频子位流,此为节目元素索引,以如果同一存取单元的视频子位流的相关联SVC依赖性表示按照hierarchy_layer_index的递增次序来重新组合那么位流次序将正确的方式来指派所述视频子位流。对于符合在建议ITU-T H.264|ISO/IEC 14496-10的附录H中定义的一或多个简档的AVC视频流的MVC视频子位流,此为节目元素索引,以如果同一存取单元的MVC视频子位流的相关联的MVC视图分量子集合以hierarchy_layer_index的递增次序来重新组合那么位流序将是正确的方式来指派所述节目元素索引。
tref_present_flag-1位旗标,当设定成‘0’时指示TREF字段可存在于相关联基本流中的PES包标头中。此旗标的值‘1’是保留的。
hierarchy_embedded_layer_index-hierarchy_embedded_layer_index是6位字段,其界定需要接入且按解码次序存在于与此hierarchy_descriptor相关联的基本流的解码之前的节目元素的hierarchy_layer_index。如果hierarchy_type值是15,那么hierarchy_embedded_layer_index字段是未定义的。
hierarchy_channel-hierarchy_channel是6位字段,其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳健的发射信道由关于整体发射阶层定义的此字段的最低值来定义。给定hierarchy_channel可同时指派给若干节目元素。
以下表2-50描述阶层描述符的hierarchy_type字段的值的意义。
表2-50-Hierarchy_type字段值
如上文所指出,PMT可包含一或多个描述符,其传达关于节目或节目的组成基本流的信息。在MPEG-2 TS中,两个描述符分别用信号表示用于SVC和MVC的子位流的特性:SVC扩展描述符和MVC扩展描述符。另外,存在描述操作点的特性的MVC操作点描述符。下文提供三个描述符的语法和语义。
对于符合建议ITU T H.264|ISO/IEC 14496-10的附录G中定义的一或多个简档的AVC视频流的视频子位流,SVC扩展描述符提供关于通过重新组合(至多)相关联视频子位流而产生的AVC视频流的信息,且提供关于相关联视频子位流的可缩放性和重新组合的信息。可存在与符合建议ITU-T H.264|ISO/IEC 14496-10的附录G中定义的一或多个简档的AVC视频流的视频子位流中的任一者相关联的一个SVC扩展描述符。表2-96描述SVC扩展描述符的语法。跟随表2-96的段落描述SVC扩展描述符的字段的语义。
表2-96-SVC扩展描述符
width-此16位字段指示经重新组合的AVC视频流的像素中的最大图像宽度分辨率。
height-此16位字段指示经重新组合的AVC视频流的像素中的最大图像高度分辨率。
frame_rate-此16位字段指示经重新组合的AVC视频流的以帧/256秒计的最大帧速率。
average_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的平均位速率。
maximum_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的最大位速率。
dependency_id-此3位字段指示与视频子位流相关联的dependency_id的值。
quality_id_start-此4位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的quality_id的最小值。quality_id指定用于NAL单元的质量识别符。
quality_id_end-此4位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的quality_id的最大值。
temporal_id_start-此3位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最小值。
temporal_id_end-此3位字段指示包含于相关联视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最大值。
no_sei_nal_unit_present-此1位旗标当设定成‘1’时指示没有SEI NAL单元存在于相关联视频子位流中。在no_sei_nal_unit_present旗标针对所有SVC视频子位流设定成‘1’且针对SVC的AVC视频子位流不设定成‘1’或不存在的情况下,任何SEI NAL单元(如果存在)均包含于SVC的AVC视频子位流中。如果SVC扩展描述符针对所有视频子位流不存在,那么SEINAL单元可存在于SVC视频子位流的任何SVC依赖性表示中,且可能需要在存取单元重新组合之前,对存取单元内的NAL单元的次序进行重新排序,如建议ITU-T H.264|ISO/IEC14496-10中所定义。
对于符合建议ITU-T H.264|ISO/IEC 14496-10的附录H中定义的一或多个简档的AVC视频流的MVC视频子位流,MVC扩展描述符提供关于由重新组合(至多)相关联MVC视频子位流而产生的AVC视频流的信息,且提供关于所包含的MVC视频子位流且用于相关联MVC视频子位流的重新组合的信息。可存在与符合建议ITU-T H.264|ISO/IEC 14496 10的附录H中所定义的一或多个简档的AVC视频流的MVC视频子位流(具有等于0x20的stream_type)中的任一者相关联的一个MVC扩展描述符。当MVC视频子位流为MVC基础视图子位流时,MVC扩展描述符将存在于stream_type等于0x1B的相关联PMT或PSM中。表2-97描述MVC扩展描述符的语法。跟随表2-97的段落描述MVC扩展描述符的特定字段的语义。
表2-97-MVC扩展描述符
average_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的平均位速率。当设定成0时,不指示平均位速率。
maximum_bitrate-此16位字段指示经重新组合的AVC视频流的以kbit/秒计的最大位速率。当设定成0时,不指示最大位速率。
view_order_index_min-此10位字段指示包含于相关联MVC视频子位流中的全部NAL单元的视图次序索引的最小值。
view_order_index_max-此10位字段指示包含于相关联MVC视频子位流中的全部NAL单元的视图次序索引的最大值。
temporal_id_start-此3位字段指示包含于相关联MVC视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最小值。
temporal_id_end-此3位字段指示包含于相关联MVC视频子位流中的全部NAL单元的NAL单元标头语法元素的temporal_id的最大值。
no_sei_nal_unit_present-此1位旗标当设定成‘1’时指示没有SEI NAL单元存在于相关联视频子位流中。在no_sei_nal_unit_present旗标针对所有MVC视频子位流设定成‘1’且针对MVC的AVC视频子位流不设定成‘1’或不存在的情况下,任何SEI NAL单元(如果存在)均包含于MVC的AVC视频子位流中。如果MVC扩展描述符针对所有MVC视频子位流不存在,那么SEI NAL单元可存在于MVC视频子位流的任何MVC视图分量子集中,且可能需要在存取单元重新组合之前,对存取单元内的NAL单元的次序进行重新排序,如建议ITU-T H.264|ISO/IEC 14496-10中所定义。
no_prefix_nal_unit_present-此1位旗标当设定成‘1’时指示没有前缀NAL单元存在于MVC的AVC视频子位流或MVC视频子位流中。当此位设定成‘0’时,其指示前缀NAL单元仅存在于MVC的AVC视频子位流中。
MVC操作点描述符指示用于一或多个操作点的简档和层级信息。
所述一或多个操作点中的每一者由一或多个MVC视频子位流的集合构成。如果存在,那么MVC操作点描述符将包含于后接program_map_section中的program_info_length字段的数据元素群组中。如果节目描述内存在MVC操作点描述符,针对同一节目中存在的每一MVC视频子位流,将存在至少一个层级描述符。为了指示不同简档,每简档需要一个MVC操作点描述符。表2-100指定MVC操作点描述符的语法。跟随表2-100的段落描述MVC操作点描述符的字段的语义。
表2-100-MVC操作点描述符
profile_idc-此8位字段指示MVC位流的此描述符内所描述的所有操作点的简档,如建议ITU-T H.264|ISO/IEC 14496-10中所定义。
constraint_set0_flag,constraint_set1_flag,constraint_set2_flag,constraint_set3_flag,constraint_set4_flag,constraint_set5_flag-这些字段将根据建议ITU-T H.264|ISO/IEC14496-10中定义的用于这些字段的语义而经译码。
AVC_compatible_flags-AVC_compatible_flags的语义确切地等于针对constraint_set2旗标与序列参数集中的level_idc字段之间的2位界定的字段的语义,如建议ITU-T H.264|ISO/IEC 14496-10中定义。
level_count-此8位字段指示对于其描述操作点的层级的数目。
level_idc-此8位字段指示由随后的数据元素群组所描述得操作点的MVC位流的层级,如建议ITU-T H.264|ISO/IEC 14496-10中所定义。
operation_points_count-此8位字段指示包含在随后的数据元素群组中的列表描述的操作点的数目。
applicable_temporal_id-此3位字段指示经重新组合AVC视频流中的VCL NAL单元的temporal_id的最高值。
num_target_output_views-此8位字段指示以用于相关联操作点的输出为目标的视图的数目的值。
ES_count-此8位字段指示包含于随后的数据元素群组中的ES_reference值的数目。随后的数据元素群组中所指示的基本流一起形成MVC视频位流的操作点。保留值0xff。
ES_reference-此6位字段指示存在于识别视频子位流的阶层描述符中的阶层层索引值。可使用AVC视频描述符来用信号表示单个操作点(例如整个MVC视频位流)的简档和层级。除此之外,MVC允许解码可能需要不同简档和/或层级的不同视图子集。MVC操作点描述符的规范支持多个操作点的不同简档和层级的指示。
对于HEVC视频流,HEVC视频描述符提供用于识别所述HEVC视频流的译码参数的基本信息,例如简档和层级参数。对于HEVC时间视频子位流或HEVC时间视频子集,HEVC视频描述符提供例如包含于其应用于的基本流中的相关联HEVC最高时间子层表示的信息。含有关联到等于0的TemporalId的时间子层的全部VCL NAL单元和相关联非VCL NAL单元的HEVC时间视频子位流(如建议ITU-T H.265|ISO/IEC 23008-2中指定),且可另外含有关联到从1到等于或小于包含在作用中序列参数集中的sps_max_sub_layers_minus1的值的TemporalId的邻接范围的全部时间子层的全部VCL NAL单元和相关联非VCL NAL单元(如建议ITU-TH.265|ISO/IEC 23008-2中指定)。HEVC时间视频子集含有一或多个时间子层的全部VCLNAL单元和相关联非VCL NAL单元,其中每一时间子层不存在于对应HEVC时间视频子位流中,且与每一时间子层相关联的TemporalId形成邻接值范围。
以下表X-1展示HEVC视频描述符的语法。跟随表X-1的段落提供HEVC视频描述符中的字段的语义定义。
表X-1-HEVC视频描述符
profile_space,tier_flag,profile_idc,profile_compatibility_indication,progressive_source_flag,interlaced_source_flag,non_packed_constraint_flag,frame_only_constraint_flag,reserved_zero_44bits,level_idc-当HEVC视频描述符应用于HEVC视频流或HEVC完整时间表示时,这些字段将根据建议ITU-T H.265|ISO/IEC23008-2中分别针对用于对应HEVC视频流或HEVC完整时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC视频流或HEVC完整时间表示将符合由这些字段用信号表示的信息。
当HEVC视频描述符应用于其对应HEVC最高时间子层表示不是HEVC完整时间表示的HEVC时间视频子位流或HEVC时间视频子集时(即,如建议ITU-T H.265|ISO/IEC23008-2中界定的含有直到包含在作用中序列参数集中的具有等于sps_max_sub_layers_minus1+1的TemporalId的时间子层的全部时间子层的子层表示,如建议ITU-T H.265|ISO/IEC23008-2中指定),profile_space、tier_flag、profile_idc、profile_compatibility_indication、progressive_source_flag、interlaced_source_flag、non_packed_constraint_flag、frame_only_constraint_flag、reserved_zero_44bits、level_idc将根据建议ITU-T H.265|ISO/IEC-2中分别针对用于对应HEVC最高时间子层表示的sub_layer_profile_space、sub_layer_tier_flag、sub_layer_profile_idc、sub_layer_profile_compatibility_flag[i]、sub_layer_progressive_source_flag、sub_layer_interlaced_source_flag、sub_layer_non_packed_constraint_flag、sub_layer_frame_only_constraint_flag、sub_layer_reserved_zero_44bits、sub_layer_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC最高时间子层表示将符合由这些字段用信号表示的信息。HEVC完整时间表示是如建议ITU-T H.265|ISO/IEC 23008-2中界定的含有直到包含在作用中序列参数集中的具有等于sps_max_sub_layers_minus1+1的TemporalId的时间子层的全部时间子层的子层表示,如建议ITU-T H.265|ISO/IEC 23008-2中指定。HEVC最高时间子层表示是相关联HEVC时间视频子位流或HEVC时间视频子集中具有TemporalId的最高值(如建议ITU-T H.265|ISO/IEC 23008-2中界定)的时间子层的子层表示。
注意X2-在HEVC视频流中的一或多个序列中,层级可低于在HEVC视频描述符中用信号表示的层级,同时也可发生作为在HEVC视频描述符中用信号表示的简档的子集的简档。然而,在整个HEVC视频流中,将仅使用整个位流语法的子集,其包含于在HEVC视频描述符中用信号表示的简档(如果存在)中。如果HEVC视频流信号中的序列参数集用信号表示不同简档,且不用信号表示额外约束,那么所述流可需要检查来确定整个流符合哪一简档(如果存在的话)。如果HEVC视频描述符将与并不符合单个简档的HEVC视频流相关联,那么应将HEVC视频流分割成两个或更多个子流,使得HEVC视频描述符可用信号表示每一此类子流的单个简档。
temporal_layer_subset_flag-此1位旗标当设定成‘1’时指示描述时间层的子集的语法元素包含在此描述符中。对于HEVC时间视频子集且对于HEVC时间视频子位流,此字段将设定成1。当设定成‘0’时,语法元素temporal_id_min和temporal_id_max不包含于此描述符中。
HEVC_still_present_flag-此1位字段当设定成‘1’时指示HEVC视频流或HEVC最高时间子层表示可包含HEVC静止图片。当设定成‘0’时,那么相关联的HEVC视频流将不含有HEVC静止图片。
注意X3-根据建议ITU-T H.265|ISO/IEC 23008-2,IDR图片始终关联到等于0的TemporalId值,因此,如果HEVC视频描述符应用于HEVC时间视频子集,那么HEVC静止图片可仅存在于相关联的HEVC时间视频子位流中。
HEVC_24_hour_picture_present_flag-此1位旗标当设定成‘1’时指示相关联HEVC视频流或HEVC最高时间子层表示可含有HEVC 24小时图片。对于HEVC 24小时图片的定义,参见信息技术的2.1.97-移动图片和相关联音频信息的通用编码:系统,修正3,经由MPEG-2系统的HEVC视频的输送。如果将此旗标设定成‘0’,那么相关联的HEVC视频流将不含有任何HEVC 24小时图片。
temporal_id_min-此3位字段指示相关联基本流中的全部HEVC存取单元的TemporalId的最小值,如建议ITU-T H.265|ISO/IEC 23008-2中界定。
temporal_id_max-此3位字段指示相关联基本流中的全部HEVC存取单元的TemporalId的最大值,如建议ITU-T H.265|ISO/IEC 23008-2中界定。
陈等人的“关于MPEG-2系统的HEVC扩展流的载运(Carriage of HEVC extensionstreams with MPEG-2 Systems)”(MPEG输入文档m31430,第106次MPEG会议,2013年10月,瑞士日内瓦,MPEG输入文档m31430(本文称为“MPEG输入文档m31430”))提出了关于MPEG-2系统的HEVC扩展流的载运的基本设计。具体地说,MPEG输入文档m31430提出将子位流组合在一起以形成操作点。子位流的此组合是通用的且对于例如SHVC、MV-HEVC或甚至3D-HEVC等任何HEVC多层扩展标准起作用。
如下概括MPEG输入文档m31430的一些基本设计原理。首先,格鲁恩伯格等人的“ISO/IEC 13818-1文本:2013/最终草案修改3-经由MPEG-2系统的HEVC视频的输送(Textof ISO/IEC 13818-1:2013/Final Draft Amendment 3-Transport of HEVC video overMPEG-2 Systems)”(ISO/IEC JTC1/SC29/WG11 MPEG105/N13656,2013年7月,奥地利维也纳(本文称为“n13656”或“FDAM 3”))中的阶层描述符用以形成时间子层的阶层。类似地,阶层描述符仅用于当涉及多个层时的时间可缩放性。
第二设计原理包括MPEG输入文档m31430中对新描述符的介绍,即阶层扩展描述符,用以形成层的阶层(例如,视图、基础层、增强层)。具体来说,阶层扩展描述符提供用以识别含有阶层式译码的视频、音频和私用流的分量的节目元素的信息。MPEG输入文档m31430假定每一基本流含有不超过一个层。因此,阶层扩展描述符仅涉及对应于一个唯一层的基本流。以下再现如文档m31430中呈现的阶层扩展描述符的语法和语义。
表2-49-阶层扩展描述符
2.6.98 阶层扩展描述符中的字段的语义定义
当存在阶层扩展描述符时,其用以指定不同基本流中存在的层的相依性。然而,时间子层的聚集是通过如ISO/IEC 13818-1的修正3中指定的阶层描述符来实现的。
extension_dimension_bits-16位字段,其指示从由具有等于0的nuh_layer_id的层的节目元素产生的基础层对相关联节目元素的可能增强。
将位分配给增强维度如下。
位的索引 描述
0 多视图增强
1 空间可缩放性,包含SNR
2 深度增强
3 AVC基础层
4 MPEG-2基础层
3~15 保留
等于1的第i位指示存在对应的增强维度。
hierarchy_layer_index-hierarchy_layer_index是6位字段,其界定译码层阶层的表中的相关联节目元素的唯一索引。索引在单个节目定义内将是唯一的。对于符合建议ITU-T H.265|ISO/IEC 23008-2的附录G或H中定义的一或多个简档的HEVC视频流的视频子位流,此为节目元素索引,其以以下方式指派:如果同一存取单元的视频子位流的相关联相关层按hierarchy_layer_index的递增次序重新组合,那么所述位流次序将为正确的。
tref_present_flag-1位旗标,当设定成‘0’时指示TREF字段可存在于相关联基本流中的PES包标头中。此旗标的值‘1’是保留的。
nuh_layer_id-6位字段指定与此hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高nuh_layer_id。
temporal_id-3位字段指定与此hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高TemporalId。
num_embedded_layers-6位字段,其指定需要接入且按解码次序存在于与此hierarchy_extension_descriptor()相关联的基本流的解码之前的直接相依性节目元素的数目。
hierarchy_ext_embedded_layer_index-hierarchy_ext_embedded_layer_index是6位字段,其界定需要接入且按解码次序存在于与此hierarchy_extension_descriptor相关联的基本流的解码之前的节目元素的hierarchy_layer_index。如果hierarchy_type值为15,那么此字段未经定义。
hierarchy_channel-hierarchy_channel是6位字段,其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳健的发射信道由关于整体发射阶层定义的此字段的最低值来定义。
注意-给定hierarchy_channel可同时指派给若干节目元素。
第三设计原理是阶层扩展描述符含有相似于MV-HEVC/SHVC译码规范的VPS扩展中的信令可缩放性类型的通用设计。另外,可针对当前基本流用信号表示多个相依性基本流。
第四设计原理是HEVC扩展描述符的提议。HEVC扩展描述符可被包含为如FDAM3中的HEVC视频描述符的部分。HEVC扩展描述符用信号表示操作点,其中的每一者对应于MV-HEVC/SHVC中的输出层集合。输出层集合是位流的将输出的层的集合。位流还可包含视频解码器不输出但由视频解码器使用以解码输出层集合的参考层。通过指定属于输出层集合的层,操作点的组成依赖于阶层扩展描述符。在此描述符中用信号表示每一操作点的特性,包含简档、层次和层级以及位速率和帧速率。
一般来说,“简档”可指位流语法的子集。可在每一简档内指定“层次”和“层级”。层次的层级可以是强加于位流中的语法元素的值的指定约束集合。这些约束可以是对值的简单限制。或者,约束可呈对值的算术组合的约束的形式(例如,图片宽度乘以图片高度乘以每秒解码的图片的数目)。通常,针对更低层次指定的层级比针对更高层次指定的层级受到更多约束。
下文再现如m31430中所描述的HEVC扩展描述符的语法。跟随表X的段落提供HEVC扩展描述符的语义。
表X-MVC扩展描述符
num_operation_points-8位字段指定此描述符中的指定操作点的数目。
profile_space-2位字段指定用于0到31(包含性)的范围内的i的全部值的profile_idc的解译的上下文。profile_space将不被指派在建议ITU-T H.265|ISO/IEC23008-2的附录A或子条款G.11中或子条款H.11中指定的那些值除外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。
tier_flag-1位字段指定用于如在建议ITU T H.265|ISO/IEC 23008-2的附录A或子条款G.11或子条款H.11中指定的level_idc的解译的层次上下文。
profile_idc-5位字段,其当profile_space等于0时指示如建议ITU-T H.265|ISO/IEC23008-2的附录A中指定的CVS符合的简档。profile_idc将不被指派在建议ITU-TH.265|ISO/IEC 23008-2的附录A或G.11或H.11中指定的那些值除外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。
profile_compatibility_indication,progressive_source_flag,interlaced_source_flag,non_packed_constraint_flag,frame_only_constraint_flag,reserved_zero_44bits,level_idc-当HEVC扩展视频描述符应用于HEVC扩展视频流时,这些字段将根据建议ITU-T H.265|ISO/IEC 23008-2中分别针对用于对应HEVC视频流或HEVC扩展视频流或HEVC完整时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC视频流或HEVC完整时间表示将符合由这些字段用信号表示的信息。
level_idc-8位字段指示如建议ITU-T H.265|ISO/IEC 23008-2的附录A、G.11或H.11中指定的CVS所符合的层级。level_idc将不被指派在建议ITU-T H.265|ISO/IEC23008-2的附录A、G.11或H.11中指定的那些值除外的level_idc的值。保留level_idc的其它值以供ITU-T|ISO/IEC将来使用。
max_temporal_id-3位字段指定第i操作点中的层的NAL单元的最高TemporalId。
reserved_zero_5bits-值‘0’的保留的5位字段。
hevc_output_layer_flag-1位字段当经指派值‘1’时指示具有等于i的nuh_layer_id的层属于输出层集合且当第i操作点经解码时需要用于输出。当被指派值‘0’时,具有等于i的nuh_layer_id的层不属于输出层集合。当第i hevc_output_layer_flag等于‘1’时,第i hevc_layer_present_flag的值将等于‘1’。
average_bitrate-16位字段指示对应于第i操作点的HEVC扩展视频流的以kbit/秒计的平均位速率。
maximum_bitrate-16位字段指示对应于第i操作点的HEVC扩展视频流的以kbit/秒计的最大位速率。
frame_rate-16位字段指示对应于第i操作点的HEVC扩展视频流的最大帧速率,以帧/256秒为单位。
在MPEG输入文档m31430中,尚未提供如MPEG-2输送流或节目流中界定的从多个基本流的图片的缓冲器管理。举例来说,MPEG输入文档m31430未描述用于多层HEVC(例如,用于SHVC、MV-HEVC或3D-HEVC)的输送流系统目标解码器(T-STD)模型或节目流系统目标解码器模型。因此,现有缓冲模型可能与多层HEVC不兼容。
本发明提供基于MPEG输入文档m31430的用于HEVC扩展位流的载运的技术。本发明的技术可单独地使用或彼此结合而使用。
根据本发明的第一技术,SHVC、MV-HEVC和3D-HEVC缓冲器模型(包含输送流系统目标解码器(T-STD)模型和节目流系统目标解码器(P-STD)模型)在同一基于层的模型中统一。换句话说,一个T-STD模型可应用于SHVC、MV-HEVC和3D-HEVC,且一个P-STD模型可应用于SHVC、MV-HEVC和3D-HEVC。在一个替代方案中,此些模型可以类似于如针对用于H.264的MVC完成那样的T-STD模型和P-STD的方式来设计。
以此方式,视频解码器30可在缓冲器模型(例如,P-STD模型或T-STD模型)中组合来自数据流(即,输送流或节目流)的多个基本流的存取单元。无论基本流是否含有SHVC、MV-HEVC或3D-HEVC位流,视频解码器30都使用同一缓冲器模型。随后,视频解码器30可解码存取单元。换句话说,视频解码器30可对存取单元的经译码图片进行解码。
如上文所指出,输送流和节目流包括相应系列的PES包。输送流或节目流的每一相应PES包与多个基本流中的基本流相关联。因此,输送流或节目流可称为包括多个基本流。基本流可包含视频流、音频流和私用流。根据本发明的一或多种技术,位流的每一相应层的每一相应时间子层可对应于不同基本流。这可使得媒体感知网络元件(MANE)或其它装置能够选择性转发与特定层和特定时间子层相关联的PES包而无需剖析或解译PES包的有效负载中的HEVC数据。实际上,MANE或其它装置可能够基于输送流或节目流的节目特定信息中的PES包标头中的数据和各种描述符(例如,HEVC阶层描述符、HEVC扩展描述符等)中的数据而确定是否转发特定PES包。
目标解码器(例如,视频解码器30)可能需要在解码存取单元的图片之前重新组合位流的存取单元。换句话说,目标解码器可能需要确保对存取单元的图片进行解码所需要的数据在用于存取单元的解码时间可用。输送流既定用于经由潜在地易错信道(例如,因特网)递送节目,其中在输送包中可存在错误(例如,丢失的PES包、抖动、损坏等)。因此,当目标解码器正在从输送流解码视频时,目标解码器无法假定对存取单元的图片进行解码所需要的数据立即可用。实际上,目标解码器可实施用于输送流的每一节目的缓冲模型。用于输送流的缓冲模型可包含用于与节目相关联的每一相应基本视频流(即,含有视频流的基本流)的相应一组缓冲器。
根据本发明的第一技术的实例,用于基本视频流n的一组缓冲器可包含用于基本视频流的输送缓冲器TBn、用于基本视频流的多路复用缓冲器MBn,以及用于基本视频流的HEVC层图片子集缓冲器VSBn。在目标解码器接收输送流的PES包时,目标解码器多路分用输送流以使得属于不同基本流的输送流的PES包存储在不同输送缓冲器中。换句话说,针对与节目相关联的每一相应基本流,视频译码器可针对属于相应基本流的输送流的每一相应PES包将相应PES包存储在用于相应基本流的缓冲器(例如,输送缓冲器)中。因此,用于基本流n的输送缓冲器TBn接收属于基本视频流n的输送包。
目标解码器以速率Rxn从输送缓冲器移除输送包。如果输送缓冲器TBn中不存在数据,那么速率Rxn是0。否则,如果输送缓冲器TBn中存在数据,那么速率Rxn等于位速率。如本发明中在别处所描述,目标解码器可基于第一因数(即,CpbBrNalFactor)、第二因数(即,CpbBrVclFactor)和第三因数(即,BitRate[SchedSelIdx])确定位速率。所述第一、第二和第三因数在建议ITU-T H.265|ISO/IEC 23008-2中界定。
当目标解码器从用于基本流n的输送缓冲器TBn移除输送包时,目标解码器将输送包添加到用于基本流n的多路复用缓冲器MBn。目标解码器一次一个字节地从多路复用缓冲器MBn移除数据。当目标解码器从多路复用缓冲器MBn移除字节时,如果所述字节不是PES包(例如,输送包)标头字节,那么目标解码器将所述字节插入到用于基本流n的HEVC层图片子集缓冲器VSBn中。
因此,对于与节目相关联的每一相应基本流,目标解码器可从用于相应基本流的输送缓冲器移除PES包。此外,目标解码器可在用于相应基本流的多路复用缓冲器中存储从用于相应基本流的输送缓冲器移除的PES包。目标解码器可从用于相应基本流的多路复用缓冲器移除字节。此外,目标解码器可在用于相应基本流的HEVC层图片子集缓冲器中存储从用于相应基本流的多路复用缓冲器移除的字节。
以此方式,HEVC层图片子集缓冲器VSBn接收输送包的有效负载字节。HEVC层图片子集缓冲器VSBn可充当用于HEVC层图片子集的组合点。如本发明中所使用,HEVC层图片子集是与层识别符集合(即,层识别符值的集合)相关联的存取单元的HEVC层图片的集合。HEVC层图片是如建议ITU-T H.265|ISO/IEC 23008-2附录F中界定的具有N13656的章节2.17.1(下文再现)中指定的约束的经译码图片。
目标解码器在用于存取单元的解码时间从HEVC层图片子集缓冲器VSBn移除对应于存取单元的数据。举例来说,为了对存取单元AH(j)的图片进行解码,目标解码器可从用于基本流n的HEVC层图片缓冲器VSBn移除对应于解码时间tdn(jn)的HEVC层图片子集VSn(jn)。tdn(jn)指示用于基本流n的HEVC层图片子集VSn(jn)的目标解码器中以秒计测得的解码时间。jn是到界定HEVC层图片子集VSn(jn)的层识别符集合的索引。另外,目标解码器从用于基本流n+1到n+m的HEVC层图片缓冲器VSBn+1到VSBn+m移除HEVC层图片子集VSn+1(jn+1)到VSn+m(jn+m),其中用于HEVC层图片子集VSn+1(jn+1)到VSn+m(jn+m)的解码时间(即,tdn+1(jn+1)到tdn+m(jn+m))等于tdn(jn)。存取单元可为从VSBn到VSBn+m移除的HEVC层子集的组合。
以此方式,对于与节目相关联的每一相应基本流,缓冲器模型包括用于相应基本流的缓冲器(例如,HEVC层图片缓冲器)。存取单元包括用于相应基本流的相应HEVC层图片子集。相应HEVC层图片子集包括存取单元的与相应层识别符集合相关联的HEVC层图片。HEVC层图片中的每一者是如建议ITU-T H.265|ISO/IEC 23008-2附录F中界定的经译码图片。对于与节目相关联的每一相应基本流,目标解码器可从用于相应基本流的缓冲器移除用于相应基本流的相应HEVC层图片子集。目标解码器可包含存取单元中的相应HEVC层图片子集。
用于节目流的缓冲模型(即,P-STD模型)可比用于输送流的缓冲模型(即,T-STD模型)更简单,因为目标解码器可假定节目流中的PES包可用而无与输送流相关联的错误(例如,抖动、损失等)。根据本发明的一或多种技术,位流的每一相应层的每一相应时间子层可对应于节目流的不同基本流。此外,P-STD模型可包含用于节目流的每一相应基本流的HEVC层图片子集缓冲器。在目标解码器接收节目流的包时,目标解码器多路分用节目流以使得属于不同基本流的PES包存储在不同HEVC层图片子集缓冲器中。目标解码器可以如上文关于输送流所描述相同的方式从HEVC层图片子集缓冲器移除对应于存取单元的数据。
在一些实例中,取决于所接收输送流或节目流的内容,目标解码器使用不同缓冲器模型。例如,响应于确定节目中存在HEVC层的集合且所述多个基本流中存在作为符合如ITU-T建议H.265|ISO/IEC 23008-2的附录G或附录H中界定的一或多个简档的HEVC扩展视频流的至少一个HEVC分层视频子位流,目标解码器可选择关于本发明的第一技术描述的缓冲器模型在组合存取单元时使用。
根据本发明的第二实例技术,每一HEVC分层视频流可具有T-STD模型和/或P-STD模型。HEVC分层视频子位流可从一或多个HEVC分层视频子流组合,且在HEVC扩展描述符中表示为操作点。换句话说,HEVC分层视频流对应于操作点且从HEVC分层视频子位流组合。HEVC分层视频子位流含有多个HEVC视频层子位流,其含有具有nuh_layer_id(层识别符)的相同值的VCL NAL单元及其相关联非VCL NAL单元。举例来说,HEVC分层视频子位流可经界定为具有属于HEVC扩展视频流的HEVC层集合的nuh_layer_id的全部VCL NAL单元以及相关联非VCL NAL单元,其符合建议ITU-T H.265|ISO/IEC 23008-2的附录F或附录G中界定的一或多个简档。T-STD和P-STD可以上文所描述和本发明中在别处的方式操作。因此,在一些实例中,视频解码器30可使用用于视频数据流的每一相应HEVC分层视频流的缓冲器模型的单独实例来组合存取单元。在此些实例中,每一相应HEVC分层视频流包括多个HEVC视频层子位流,且所述多个HEVC视频层子位流的每一相应HEVC视频层子位流包括具有相同层识别符值的VCL NAL单元。
如先前指示,阶层扩展描述符是提供用以识别含有阶层式译码视频、音频和私用流的分量的节目元素的信息的描述符。换句话说,阶层扩展描述符提供关于对应于阶层扩展描述符的节目元素的信息。阶层扩展描述符可包含用于需要接入且按解码次序存在于与所述阶层扩展描述符相关联的基本流的解码之前的每一直接相依性节目元素的hierarchy_ext_embedded_layer_index字段。换句话说,阶层扩展描述符可包含多个hierarchy_ext_embedded_layer_index字段。阶层扩展描述符的每一相应hierarchy_ext_embedded_layer_index字段识别用于对应节目元素(即,对应于阶层扩展描述符的节目元素)的相应直接相依性节目元素。用于对应节目元素的相应直接相依性节目元素是在目标解码器能够解码对应节目元素之前需要对目标解码器可用的节目元素。举例来说,对应节目元素可包含用于非基础层的数据且相应直接相依性节目元素可包含用于基础层的数据。因为相应节目元素可对应于相应层,所以阶层扩展描述符的每一相应hierarchy_ext_embedded_layer_index可识别用于对对应于阶层扩展描述符的层进行解码所需的相应参考层。以此方式,当组合存取单元时,目标解码器可基于对应于当前操作点的输出层的描述符中的一或多个字段而识别对当前操作点的输出层进行解码所需的参考层。
根据本发明的第三技术,当从T-STD或P-STD模型中的多个流组合存取单元内的HEVC层图片时,相关联阶层扩展描述符中指示的hierarchy_ext_embedded_layer_index值用以识别用于对当前操作点的输出层进行解码所需的参考层。举例来说,当重新组合第j存取单元AH(j)时,目标解码器可从用于输送流或节目流中的节目的每一节目元素的HEVC层图片子集缓冲器收集HEVC层图片子集。目标解码器收集HEVC层图片子集以使得以下适用:
●值y指示层识别符。所述值y大于或等于0。
●HEVC层图片子集VSy+1(jy+1)对应于用于层y+1的节目元素。因为y≥0,所以具有层识别符y+1的层是非基础层。
●tdy+1(jy+1)表示用于VSy+1(jy+1)的解码时戳(DTS)值。
●阶层扩展描述符对应于用于层y+1的节目元素(即,对应节目元素)。
●阶层扩展描述符包含零个或更多个hierarchy_ext_embedded_layer_index字段。
●对于每一相应hierarchy_ext_embedded_layer_index字段:
○相应hierarchy_ext_embedded_layer_index字段具有识别用于对应节目元素的相应直接相依性节目元素的相应值。
○VSy(jy)是对应于相应直接相依性节目元素的HEVC层图片子集。
○tdy(jy)是用于VSy(jy)的DTS值。
○tdy(jy)等于tdy+1(jy+1)。
根据本发明的第四技术,如当前HEVC MPEG-2系统中的HEVC定时和HRD描述符可针对每一操作点存在。换句话说,对于每一相应操作点,相应HEVC定时和HRD描述符可存在。HEVC定时和HRD描述符提供定时和HRD参数,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中界定,其分别用于其相关联HEVC视频流或HEVC最高时间子层表示。下文在章节2.6.95中提供HEVC定时和HRD描述符的实例语法。
在本发明的第四技术的一个实例中,在HEVC_extension_descriptor中,在每一操作点的循环中,可存在HEVC定时和HRD描述符。如上所示,HEVC扩展描述符包含循环(即,“for(i=0;i<num_operation_points;i++){…}”),其中所述循环的每一相应迭代对应于用于相应操作点的元素序列(例如,profile_space、tier_flag、profile_idc等)。在此实例中,用于相应操作点的元素进一步包含HEVC定时和HRD描述符。
在本发明的第四技术的另一实例中,对于共享待解码层的相同层识别符集合的操作点,HEVC定时和HRD描述符仅存在一次。在另一实例中,针对全部输出层集合的全部操作点,HEVC定时和HRD描述符仅存在一次。
本发明的第五技术涉及层图片定界符NAL单元。层图片定界符NAL单元可含有与HEVC中的NAL单元标头相同的语法结构且可具有以下语法元素:forbidden_zero_bit、nal_unit_type、nuh_layer_id和nuh_temporal_id_plus1。forbidden_zero_bit语法元素是始终等于0的1位语法元素。nal_unit_type语法元素指定包含于NAL单元中的RBSP数据结构的类型。nuh_layer_id语法元素指定NAL单元属于的层的识别符。具有指定不同值的nuh_layer_id语法元素的NAL单元属于位流的不同层。nuh_temporal_id_plus1语法元素减1指定用于NAL单元的时间识别符。
根据本发明的第五技术的一些实例,层图片定界符NAL单元的nal_unit_type语法元素设定成0x30(即48)。在其它实例中,层图片定界符NAL单元的nal_unit_type语法元素具有在0x30到0x3F(包含性)(即,48到63(包含性))的范围内的值。HEVC规范将在0x30到0x3F的范围内的值标记为“未指定”。
根据本发明的第五技术的一些实例,层图片定界符NAL单元中的nuh_layer_id和nuh_temporal_id_plus1语法元素设定成等于与紧邻跟随层图片定界符NAL单元的VCL NAL单元相关联的图片的nuh_layer_id和nuh_temporal_id_plus1语法元素。在具有等于0x26的stream_type的每一基本流(即,包括符合如ITU-T建议H.264|ISO/IEC 23008的附录G或附录H中界定的一或多个简档的HEVC扩展视频流的基本流)中,确切一个LPD_nal_unit(即,层呈现定界符NAL单元)可在具有等于LPD_nal_unit的那些值的nuh_layer_id和nuh_temporal_id_plus1的值的全部NAL单元之前。在其它实例中,层图片定界符NAL单元中的nuh_layer_id和nuh_temporal_id_plus1语法元素的值固定为0和0。此外,在一些实例中,层图片定界符NAL单元的nuh_temporal_id_plus1语法元素设定为0以指示所述层图片定界符NAL单元是层图片定界符NAL单元。在一些实例中,在具有等于0x26的stream_type的每一基本流中,确切一个LPD_nal_unit可在具有等于LPD_nal_unit的nuh_layer_id的值的全部NAL单元之前。在一些实例中,在具有等于0x26的stream_type的每一基本流中,确切一个LPD_nal_unit可在具有属于HEVC层识别符集合的值的全部NAL单元之前,所述HEVC层识别符集合的最小值等于LPD_nal_unit的nuh_layer_id。
所提出的解决方案的工作草案文本在本发明中阐述作为此具体实施方式的末尾的实例(且标题为“信息技术-移动图片和相关联音频信息的通用编码:系统,修正3,经由MPEG-2系统的HEVC视频的输送(INFORMATION TECHNOLOGY-GENERIC CODING OF MOVINGPICTURES AND ASSOCIATED AUDIO INFORMATION:SYSTEMS,AMENDMENT 3,Transport ofHEVC video over MPEG-2 systems)”)。新添加的文字以黑体斜体字指示。对于完全新的子章节,仅子章节标题可能以黑体斜体字指示。说明书文本的实施方案是基于MPEG输出文档N13656,其仅含有HEVC视频的输送但不含HEVC分层视频的输送,例如MV-HEVC、SHVC或3D-HEVC。以下文字参考图X-1、X-2、2-15以及X-4。图X-1呈现为本发明的图2。因此,图2是说明用于单层HEVC的实例T-STD模型扩展的概念图。图X-2呈现为本发明的图3。因此,图3是根据本发明的一或多种技术的说明用于HEVC时间视频子集的分层输送的实例T-STD模型扩展的概念图。图2-15呈现为本发明的图4。因此,图4是根据本发明的一或多种技术的说明以HEVC分层视频子位流用于建议ITU-T H.265|ISO/IEC 23008-2的实例T-STD模型扩展的概念图。图X-4呈现为本发明的图5。因此,图5是根据本发明的一或多种技术的说明以HEVC分层视频子位流用于建议ITU-T H.265|ISO/IEC 23008-2视频的实例P-STD模型扩展的概念图。
信息技术--移动图片和相关联音频信息的通用编码:系统
修正3
经由MPEG-2系统的HEVC视频的输送
条款1.2.2
添加以下参考:
-建议ITU-T H.265,高效率视频译码
-ISO/IEC 23008-2,信息技术-异质环境中的高效率译码和媒体递送-部分2:高效率视频译码
条款2.1.95到2.1.109
在2.1.94之后添加以下定义:
2.1.95 HEVC视频流:如建议ITU-T H.265|ISO/IEC 23008-2附录B、附录F或附录G中指定的字节流。其为HEVC分层视频流或HEVC基础层视频子位流的联合术语。
2.1.96 HEVC存取单元:如建议ITU-T H.265|ISO/IEC 23008-2中界定的存取单元,具有章节2.17.1中指定的约束。
2.1.97 HEVC 24小时图片(系统):具有在未来超过24小时的呈现时间的HEVC存取单元。出于此定义的目的,如果初始到达时间tai(n)与DPB输出时间to,dpb(n)之间的差超过24小时,那么HEVC存取单元n具有在未来超过24小时的呈现时间。
2.1.98 HEVC切片:HEVC独立切片片段以及在同一HEVC存取单元内的下一HEVC独立切片片段(如果存在)之前的零个或更多个后续HEVC相依性切片片段。
2.1.99 HEVC切片片段:如建议ITU-T H.265|ISO/IEC 23008-2中界定具有在0到9和16到23的范围内的nal_unit_type的byte_stream_nal_unit。
2.1.100 HEVC相依性切片片段:如建议ITU-T H.265|ISO/IEC 23008-2中界定在切片标头中具有设定成等于1的值的语法元素dependent_slice_segment_flag的HEVC切片片段。
2.1.101 HEVC独立切片片段:如建议ITU-T H.265|ISO/IEC 23008-2中界定在切片标头具有设定成值0或推断为等于0的语法元素dependent_slice_segment_flag的HEVC切片片段。
2.1.102 切片的HEVC瓦片:如建议ITU-T H.265|ISO/IEC 23008-2中界定的形成瓦片的经译码表示的一或多个连续HEVC切片。
2.1.103 HEVC静止图片(系统):HEVC静止图片由如建议ITU-T H.265|ISO/IEC23008-2中界定的前面是VPS、SPS和PPS NAL单元的含有IDR图片的HEVC存取单元组成,所述VPS、SPS和PPS NAL单元载运用以正确地解码此IDR图片的足够信息。在HEVC静止图片之前,如建议ITU-T H.265|ISO/IEC 23008-2中界定将存在另一HEVC静止图片或终止先前经译码视频序列的序列结束NAL单元。
2.1.104 HEVC视频序列(系统):如建议ITU-T H.265|ISO/IEC 23008-2中界定的经译码视频序列。
2.1.105 HEVC视频子位流:HEVC视频流的NAL单元的按其原始次序的子集。
2.1.106 HEVC时间视频子位流:含有关联到等于0的TemporalId的时间子层的全部VCL NAL单元和相关联非VCL NAL单元的HEVC视频子位流(如建议ITU-T H.265|ISO/IEC23008-2中指定),且可另外含有关联到从1到等于或小于包含在作用中序列参数集中的sps_max_sub_layers_minus1的值的TemporalId的邻接范围的全部时间子层的全部VCLNAL单元和相关联非VCL NAL单元(如建议ITU-T H.265|ISO/IEC23008-2中指定)。
2.1.107 HEVC时间视频子集:如建议ITU-T H.265|ISO/IEC 23008-2中指定含有一或多个时间子层的全部VCL NAL单元和相关联非VCL NAL单元的HEVC视频子位流,其中每一时间子层不存在于对应HEVC时间视频子位流中且与每一时间子层相关联的TemporalId形成邻接值范围。
注意X1根据2.17.1中指定的HEVC的输送的约束,HEVC视频流的每一时间子层存在于HEVC时间视频子位流中或确切一个HEVC时间视频子集中,以上子位流和子集是在通过阶层描述符而关联的基本流的集合中载运。这防止同一时间子层的多次包含,且允许根据如2.17.3中指定的阶层描述符进行HEVC时间视频子位流与相关联HEVC时间视频子集的聚合。
2.1.108 HEVC最高时间子层表示:相关联HEVC时间视频子位流或HEVC时间视频子集中具有TemporalId的最高值(如建议ITU-T H.265|ISO/IEC 23008-2中界定)的时间子层的子层表示。
2.1.109 HEVC完整时间表示:如建议ITU-T H.265|ISO/IEC 23008-2中界定的子层表示,其含有直到如包含在作用中序列参数集中具有等于sps_max_sub_layers_minus1+1的TemporalId的时间子层的全部时间子层,如建议ITU-T H.265|ISO/IEC 23008-2中指定。
[Ed.(CY):新引入的定义需要重排序。]
2.1.110 HEVC层图片:如建议ITU-T H.265|ISO/IEC 23008-2附录F中界定的经译码图片,具有章节2.17.1中指定的约束。HEVC层图片与特定nuh_layer_id相关联。
2.1.111 HEVC层图片子集:与层识别符集合相关联的存取单元的HEVC层图片。
2.1.112 HEVC扩展视频流:符合建议ITU-T H.265|ISO/IEC 23008-2G.11或H.11中定义的一或多个简档的视频位流。[Ed(CY):可被HEVC视频流或HEVC分层视频流替换。]
2.1.113 HEVC视频序列(系统):如建议ITU-T H.265|ISO/IEC 23008-2中界定的经译码视频序列。
2.1.114 HEVC基础层:HEVC扩展视频流中具有等于0的nuh_layer_id的层。
2.1.115 HEVC基础层视频子位流:含有具有等于0的nuh_layer_id的全部VCL和非VCL NAL单元的视频子位流。
2.1.116 HEVC层:HEVC扩展视频流的层,包含NAL单元标头语法元素中具有nuh_layer_id的特定值的全部VCL NAL单元和相关联非VCL NAL单元,如建议ITU-T H.265|ISO/IEC 23008-2附录F的附录F中界定。
2.1.117 HEVC层识别符集合:nuh_layer_id值的集合。
2.1.118 HEVC层集合:含有具有形成HEVC层识别符集合的nuh_layer_id值的HEVC层的视频子位流。
2.1.119 HEVC分层视频流:HEVC分层视频子位流,其可能从一或多个HEVC分层视频子流组合且在HEVC扩展描述符中表示为操作点。
2.1.120 HEVC分层视频子位流:HEVC分层视频子位流经界定为具有属于HEVC扩展视频流的HEVC层集合的nuh_layer_id的全部VCL NAL单元以及相关联非VCL NAL单元,其符合建议ITU-T H.265|ISO/IEC 23008-2的附录F(或附录G)中界定的一或多个简档。
2.1.121 操作点:操作点由表示目标时间层级的temporal_id值和表示目标输出层的nuh_layer_id值的集合识别。一个操作点与HEVC分层视频流或符合建议ITU-T H.265|ISO/IEC 23008-2的附录E或附录G(附录H)中界定的一或多个简档的HEVC基础层视频子位流相关联。
条款2.4.2.6
替换以下2段:
替换:
通过系统目标解码器缓冲器的任何数据的延迟将小于或等于一秒,静止图片视频数据和ISO/IEC 14496流除外。具体地说:针对全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤1秒。
为:
通过系统目标解码器缓冲器的任何数据的延迟将小于或等于一秒,静止图片视频数据、ISO/IEC 14496和ISO/IEC 23008-2流除外。具体地说:针对全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤1秒。
替换:
对于ISO/IEC 14496流,延迟受以下约束:针对全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤10秒。
为:
对于ISO/IEC 14496和ISO/IEC 23008-2流,延迟受以下约束:针对全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤10秒。
条款2.4.2.11
紧接在2.4.2.10之后添加以下内容作为新的子条款:
2.4.2.11,用于HEVC的载运的T-STD扩展:
用于HEVC视频流的解码的T-STD扩展和T-STD参数在2.17.2和2.17.3中界定。针对HEVC视频流未指定包含P-STD扩展和P-STD参数的节目流支持。
条款2.4.3.5
在指定discontinuity_indicator的部分中,在通过“出于此条款的目的,如下界定基本流存取点”引入的项目符号列表的结束时添加:
●HEVC视频流或HEVC时间视频子位流-HEVC存取单元的第一字节。在HEVC视频序列中的此个和全部后续HEVC存取单元中参考的如建议ITU-T H.265|ISO/IEC23008-2中界定的VPS、SPS和PPS参数集将在字节流中的此存取点之后且在其激活之前提供。
在指定elementary_stream_priority_indicator的部分中,添加:
在HEVC视频流或HEVC时间视频子位流或HEVC时间视频子集的情况下,仅在有效负载含有来自具有设定成2的slice_type的切片的一或多个字节的情况下此字段才可设定成‘1’。‘0’的值指示有效负载具有与并不具有设定为‘1’的此位的全部其它包相同的优先级。
条款2.4.3.7
在表2-22中,Stream_id指派,替换以下行:
在指定PTS(呈现时戳)的部分中,添加:
对于HEVC视频流、HEVC时间视频子位流和HEVC时间视频子集,如果PTS存在于PES包标头中,那么其将参考在此PES包中开始的第一HEVC存取单元。为了实现建议ITU-TH.265|ISO/IEC 23008-2的附录C中界定的STD模型与HRD模型之间的一致性,对于每一HEVC存取单元,STD中的PTS值将在其相应时钟的准确性内指示与HRD中的标称DPB输出时间相同的时刻,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中界定。
在指定DTS(解码时戳)的部分中,添加:
对于HEVC视频流、HEVC时间视频子位流和HEVC时间视频子集,如果DTS存在于PES包标头中,那么其将参考在此PES包中开始的第一HEVC存取单元。为了实现建议ITU-TH.265|ISO/IEC 23008-2的附录C中界定的STD模型与HRD模型之间的一致性,对于每一HEVC存取单元,STD中的DTS值将在其相应时钟的准确性内指示与HRD中的标称CPB移除时间tr相同的时刻,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中界定。
条款2.4.4.9
在表2-34中,流类型指派,替换以下的行:
0x24-0x7E ITU-T建议H.222.0|ISO/IEC 13818-1保留
为:
条款2.6.1
替换表2-45为:
表2-45-节目和节目元素描述符
条款2.6.6
在表2-50中替换针对值15的描述:
表2-50-Hierarchy_type字段值
条款2.6.11
紧接表2-54在之后添加以下内容:
表2-xx描述当PES包标头中的data_alignment_indicator具有值‘1’时用于HEVC的对准类型。
表2-xx-HEVC视频流对准值
条款2.6.88
替换表AMD8-1为:
表AMD8-1-扩展描述符
条款2.6.89
紧接在表AMD8-2之前添加以下内容:
HEVC_timing_and_HRD_descriptor()-此结构在2.6.95和2.6.96中界定。
替换表AMD8-2为:
表AMD8-2:扩展描述符标签值
Extension_descriptor_tag TS PS 识别
0 n/a n/a 保留
1 n/a X 禁止
2 X X ODUpdate_descriptor
3 X n/a HEVC_timing_and_HRD_descriptor()
3-255 n/a n/a 建议ITU-T H.222.0|ISO/IEC 13818-1保留
条款2.6.93到2.6.96
紧接在条款2.6.92之后添加以下内容作为新的子条款:
2.6.93 HEVC视频描述符
对于HEVC视频流,HEVC视频描述符提供用于识别所述HEVC视频流的译码参数的基本信息,例如简档和层级参数。对于HEVC时间视频子位流或HEVC时间视频子集,HEVC视频描述符提供例如包含于其应用于的基本流中的相关联HEVC最高时间子层表示的信息。
表X-1-HEVC视频描述符
2.6.94 HEVC视频描述符中的字段的语义定义
profile_space,tier_flag,profile_idc,profile_compatibility_indication,progressive_source_flag,interlaced_source_flag,non_packed_constraint_flag,frame_only_constraint_flag,reserved_zero_44bits,level_idc-当HEVC视频描述符应用于HEVC视频流或HEVC完整时间表示时,这些字段将根据建议ITU-T H.265|ISO/IEC23008-2中分别针对用于对应HEVC视频流或HEVC完整时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC视频流或HEVC完整时间表示将符合由这些字段用信号表示的信息。
当HEVC视频描述符应用于对应HEVC最高时间子层表示不是HEVC完成时间表示的HEVC时间视频子位流或HEVC时间视频子集时,将根据建议ITU-T H.265|ISO/IEC23008-2中分别针对对应HEVC最高时间子层表示的sub_layer_profile_space、sub_layer_tier_flag、sub_layer_profile_idc、sub_layer_profile_compatibility_flag[i]、sub_layer_progressive_source_flag、sub_layer_interlaced_source_flag、sub_layer_non_packed_constraint_flag、sub_layer_frame_only_constraint_flag、sub_layer_reserved_zero_44bits、sub_layer_level_idc来译码这些字段,且HEVC视频描述符与之相关联的整个HEVC最高时间子层表示将符合由这些字段用信号表示的信息。
注意X2-在HEVC视频流中的一或多个序列中,层级可低于在HEVC视频描述符中用信号表示的层级,同时也可发生作为在HEVC视频描述符中用信号表示的简档的子集的简档。然而,在整个HEVC视频流中,将仅使用整个位流语法的子集,其包含于在HEVC视频描述符中用信号表示的简档(如果存在)中。如果HEVC视频流信号中的序列参数集用信号表示不同简档,且不用信号表示额外约束,那么所述流可需要检查来确定整个流符合哪一简档(如果存在的话)。如果HEVC视频描述符将与并不符合单个简档的HEVC视频流相关联,那么应将HEVC视频流分割成两个或更多个子流,使得HEVC视频描述符可用信号表示每一此类子流的单个简档。
temporal_layer_subset_flag-此1位旗标当设定成‘1’时指示描述时间层的子集的语法元素包含在此描述符中。对于HEVC时间视频子集且对于HEVC时间视频子位流,此字段将设定成1。当设定成‘0’时,语法元素temporal_id_min和temporal_id_max不包含于此描述符中。
HEVC_still_present_flag-此1位字段当设定成‘1’时指示HEVC视频流或HEVC最高时间子层表示可包含HEVC静止图片。当设定成‘0’时,那么相关联的HEVC视频流将不含有HEVC静止图片。
注意X3-根据建议ITU-T H.265|ISO/IEC 23008-2,IDR图片始终关联到等于0的TemporalId值,因此,如果HEVC视频描述符应用于HEVC时间视频子集,那么HEVC静止图片可仅存在于相关联的HEVC时间视频子位流中。
HEVC_24_hour_picture_present_flag-此1位旗标当设定成‘1’时指示相关联HEVC视频流或HEVC最高时间子层表示可含有HEVC 24小时图片。对于HEVC 24小时图片的定义,见2.1.97。如果将此旗标设定成‘0’,那么相关联的HEVC视频流将不含有任何HEVC 24小时图片。
temporal_id_min-此3位字段指示相关联基本流中的全部HEVC存取单元的TemporalId的最小值,如建议ITU-T H.265|ISO/IEC 23008-2中界定。
temporal_id_max-此3位字段指示相关联基本流中的全部HEVC存取单元的TemporalId的最大值,如建议ITU-T H.265|ISO/IEC 23008-2中界定。
hevc_extension_present_flag-此1位旗标当设定成‘1’时指示HEVC扩展描述符存在作为HEVC视频描述符的部分。当设定成‘0’时,HEVC扩展描述符不存在。
2.6.95 HEVC定时和HRD描述符
对于HEVC视频流、HEVC时间视频子位流或HEVC时间视频子集,HEVC定时和HRD描述符提供定时和HRD参数,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中界定,分别用于其相关联HEVC视频流或HEVC最高时间子层表示。
表X-2-HEVC定时和HRD描述符
2.6.96 HEVC定时和HRD描述符中的字段的语义定义
hrd_management_valid_flag-此1位旗标仅经界定供在输送流中使用。当HEVC定时和HRD描述符关联到HEVC视频流或输送流中载运的HEVC最高时间子层表示时,则以下适用。
如果hrd_management_valid_flag设定成‘1’,那么如建议ITU-T H.265|ISO/IEC23008-2的附录C中界定的缓冲周期SEI和图片定时SEI消息将存在于相关联HEVC视频流或HEVC最高时间子层表示中。这些缓冲周期SEI消息将载运经译码nal_initial_cpb_removal_delay和nal_initial_cpb_removal_delay_offset值且可另外载运用于NAL HRD的nal_initial_alt_removal_delay和nal_initial_alt_cpb_removal_delay_offset值。如果hrd_management_valid_flag设定成‘1’,那么如2.17.2中界定的T-STD中每一字节从MBn到EBn的转移或如2.17.3中界定的T-STD中从MBn,k到EBn的转移将根据用于所述字节进入NAL HRD中的CPB的递送时间表,如从经译码nal_initial_cpb_removal_delay和nal_initial_cpb_removal_delay_offset所确定或从针对等于cpb_cnt_minus1的SchedSelIdx的经译码nal_initial_alt_cpb_removal_delay和nal_initial_alt_cpb_removal_delay_offset值所确定,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中指定。当hrd_management_valid_flag设定成‘0’时,渗漏方法将用于如2.17.2中界定的T-STD中从MBn到EBn的转移或如2.17.3中界定的T-STD中从MBn,k到EBn的转移。
picture_and_timing_info_present_flag-此1位旗标当设定成‘1’时指示90kHz_flag和用于到90-kHz系统时钟的准确映射的参数包含在此描述符中。
90kHz_flag-此1位旗标当设定成‘1’时指示HEVC时基的频率是90kHz。
N,K-对于HEVC视频流或HEVC最高时间子层表示,HEVC时基的频率由VUI参数中的语法元素vui_time_scale界定,如建议ITU-T H.265|ISO/IEC 23008-2的附录E中界定。HEVC time_scale与STC之间的关系将如下由此描述符中的参数N和K界定。
time_scale=(N x system_clock_frequency)/K
如果90kHz_flag设定成‘1’,那么N等于1且K等于300。如果90kHz_flag设定成‘0’,那么N和K的值由N和K字段的经译码值提供。
注意X4-这允许例如在用于在PES标头中不编码PTS或DTS的HEVC存取单元的解码器中,按PTS和DTS时戳的计算需要,以time_scale的单位到90kHz单位表达的时间的映射。
num_units_in_tick-此32位字段确切地以与建议ITU-T H.265|ISO/IEC 23008-2的附录E中的VUI参数中的vui_num_units_in_tick字段相同的方式经译码。由此字段提供的信息将应用于HEVC定时和HRD描述符关联到的整个HEVC视频流或HEVC最高时间子层表示。
2.6.97 阶层扩展描述符
阶层描扩展述符提供用以识别含有以阶层方式译码的视频、音频和私用流的分量的节目元素的信息。(参见表2-49。)
表2-49-阶层扩展描述符
2.6.98 阶层扩展描述符中的字段的语义定义
当存在阶层扩展描述符时,其用以指定不同基本流中存在的层的相依性。然而,时间子层的聚集是通过如ISO/IEC 13818-1的修正3中指定的阶层描述符来实现的。
extension_dimension_bits-16位字段,其指示从由具有等于0的nuh_layer_id的层的节目元素产生的基础层对相关联节目元素的可能增强。
将位分配给增强维度如下。
位的索引 描述
0 多视图增强
1 空间可缩放性,包含SNR
2 深度增强
3 AVC基础层
4 MPEG-2基础层
3~15 保留
等于1的第i位指示存在对应的增强维度。
hierarchy_layer_index-6位字段,其界定译码层阶层的表中的相关联节目元素的唯一索引。索引在单个节目定义内将是唯一的。对于符合建议ITU-T H.265|ISO/IEC23008-2的附录F中界定的一或多个简档的HEVC视频流的视频子位流,这是节目元素索引,其是以如下方式经指派:如果同一存取单元的视频子位流的相关联相依性层以hierarchy_layer_index的递增次序重新组合,那么位流次序将是正确的。
tref_present_flag-1位旗标,当设定成‘0’时指示TREF字段可存在于相关联基本流中的PES包标头中。此旗标的值‘1’是保留的。
nuh_layer_id-6位字段指定与此hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高nuh_layer_id。
temporal_id-3位字段指定与此hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高TemporalId。
num_embedded_layers-6位字段,其指定需要接入且按解码次序存在于与此hierarchy_extension_descriptor()相关联的基本流的解码之前的直接相依性节目元素的数目。
hierarchy_ext_embedded_layer_index-6位字段,其界定需要接入且按解码次序存在于与此hierarchy_extension_descriptor()相关联的基本流的解码之前的节目元素的hierarchy_layer_index。如果hierarchy_type值为15,那么此字段未经定义。
hierarchy_channel-6位字段,其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳健的发射信道由关于整体发射阶层定义的此字段的最低值来定义。
注意-给定hierarchy_channel可同时指派给若干节目元素。
2.6.99 HEVC扩展描述符
表X-MVC扩展描述符
2.6.100 HEVC扩展描述符中的字段的语义定义
num_operation_points-8位字段,其指定由此描述符指定的操作点的数目。
profile_space-2位字段指定用于在0到31(包含性)的范围内的i的全部值的profile_idc的解译的上下文。profile_space将不被指派除建议ITU-T H.265|ISO/IEC23008-2的附录A或子条款G.11中或子条款H.11中所指定的那些值之外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。
tier_flag-1位字段指定用于如在建议ITU-T H.265|ISO/IEC 23008-2的附录A或子条款G.11或子条款H.11中指定的level_idc的解译的层次上下文。
profile_idc-5位字段,其当profile_space等于0时指示CVS符合的简档,如建议ITU-T H.265|ISO/IEC 23008-2的附录A中指定。profile_idc将不被指派除建议ITU-TH.265|ISO/IEC 23008-2的附录A或G.11或H.11中指定的那些值之外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。
profile_compatibility_indication,progressive_source_flag,interlaced_source_flag,non_packed_constraint_flag,frame_only_constraint_flag,reserved_zero_44bits,level_idc-当HEVC扩展视频描述符应用于HEVC扩展视频流时,这些字段将根据建议ITU-T H.265|ISO/IEC 23008-2中分别针对用于对应HEVC视频流或HEVC扩展视频流或HEVC完整时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc界定的语义而经译码,且HEVC视频描述符关联到的整个HEVC视频流或HEVC完整时间表示将符合由这些字段用信号表示的信息。
level_idc-8位字段指示如建议ITU-T H.265|ISO/IEC 23008-2的附录A、G.11或H.11中指定的CVS所符合的层级。level_idc将不被指派在建议ITU-T H.265|ISO/IEC23008-2的附录A、G.11或H.11中指定的那些值除外的level_idc的值。保留level_idc的其它值以供ITU-T|ISO/IEC将来使用。
max_temporal_id-3位字段,其指定第i操作点中的层的NAL单元的最高TemporalId。
reserved_zero_5bits-值‘0’的保留的5位字段。
hevc_output_layer_flag-1位字段当经指派值‘1’时指示具有等于i的nuh_layer_id的层属于输出层集合且当第i操作点经解码时需要用于输出。当经指派值‘0’时,具有等于i的nuh_layer_id的层当第i操作时不需要用于输出。当第i hevc_output_layer_flag等于‘1’时,第i hevc_layer_present_flag的值将等于‘1’。
hevc_layer_flag-1位字段当经指派值‘1’时指示等于i的nuh_layer_id属于层识别符集合,其中每一条目识别当第i操作点经解码时需要解码的层。当经指派值‘0’时,等于i的nuh_layer_id不属于层识别符集合。
average_bitrate-16位字段,其指示对应于第i操作点的HEVC扩展视频流的以1000位/秒计的平均位速率。
maximum_bitrate-16位字段,其指示对应于第i操作点的HEVC扩展视频流的以kbit/秒计的最大位速率。
frame_rate-16位字段指示对应于第i操作点的HEVC扩展视频流的以图片/256秒计的最大图片速率。
条款2.17
在条款2.16之后添加以下内容作为新的子条款:
2.17 HEVC的载运
2.17.1 HEVC输送的约束
对于HEVC视频流、HEVC时间视频子位流或HEVC时间视频子集,以下约束另外适用:
●每一HEVC存取单元将含有存取单元定界符NAL单元;
注意X5-HEVC要求存取单元定界符NAL单元(如果存在)是HEVC存取单元内的第一NAL单元。存取单元定界符NAL单元简化了检测HEVC存取单元之间的边界的能力。
●HEVC视频流或HEVC时间视频子位流将为ITU-T建议H.222.0|ISO/IEC 13818-1节目的元素且用于此基本流的stream_type将等于0x24。
●对于解码HEVC视频流或HEVC时间视频子位流所必要的如ITU-T建议H.265|ISO/IEC 23008-2中指定的视频参数集、序列参数集和图片参数集将存在于载运所述HEVC视频流或HEVC时间视频子位流的基本流内。
●对于作为同一ITU-T建议H.222.0|ISO/IEC 13818-1节目的元素的每一HEVC时间视频子集,用于此基本流的stream_type将等于0x25。
●当ITU-T建议H.222.0|ISO/IEC 13818-1节目包含一个以上HEVC时间视频子集或一个以上HEVC时间视频子位流和至少一个HEVC时间视频子集时,如2.6.7中界定的阶层描述符将针对具有等于0x24或0x25的stream_type的全部相关联基本流存在。阶层描述符将用以指示全部HEVC时间视频子位流和全部HEVC时间视频子集的相依性。
●在具有阶层描述符的具有等于0x24的stream_type的每一基本流中,阶层描述符中的hierarchy_type将等于15。
●在具有阶层描述符的具有等于0x25的stream_type的每一基本流中,阶层描述符中的hierarchy_type将等于3。
●对于解码HEVC时间视频子集的HEVC最高时间子层表示所必要的如ITU-T建议H.265|ISO/IEC 23008-2中指定的视频参数集、序列参数集和图片参数集将存在于载运通过阶层描述符而关联的HEVC时间视频子位流的基本流内。
●如章节2.17.3中指定,根据阶层描述符的HEVC时间视频子位流与相关联HEVC时间视频子集的聚合将导致有效的HEVC视频流。
注意X6-所得HEVC视频流含有时间子层的集合,如建议ITU-T H.265|ISO/IEC23008-2中指定,其中TemporalId值形成整数数字的邻接范围。
●每一HEVC图片将含有层图片定界符NAL单元;
●具有大于0的nuh_layer_id的每一HEVC图片将包含于具有等于0x26的stream_type的基本流内,或包含于具有等于0x25的stream_type且含有具有等于0的nuh_layer_id的HEVC图片的基本流内。
●在具有阶层描述符的具有等于0x26的stream_type的每一基本流中,阶层描述符中的hierarchy_type将等于3。
2.14.3.9 层图片定界符NAL单元
参见表X-1。
表X+1-层图片定界符NAL单元
2.14.3.10 层图片定界符NAL单元的语义
forbidden_zero_bit-将等于0x0
nal_unit_type-将等于0x30
nuh_layer_id-指定NAL单元的层识别符。
nuh_temporal_id_plus1-nuh_temporal_id_plus1减1指定NAL单元的时间识别符。nuh_temporal_id_plus1的值将不等于0。
在具有等于0x26的stream_type的每一基本流中,确切一个LPD_nal_unit可在具有等于LPD_nal_unit的nuh_layer_id的值的全部NAL单元之前。
PES包中的载运
ITU-T建议H.265|ISO/IEC 23008-2视频是使用指派给视频的16个stream_id值中的一者在PES包中作为PES_packet_data_bytes而载运,同时借助于PMT中的经指派流类型值(参见表2-34)而用信号表示ITU-T建议H.265|ISO/IEC 23008-2视频流。在HEVC视频流中可发生的最高层级以及整个流符合的简档和层次应使用HEVC视频描述符用信号表示。在HEVC视频流中可发生的其它层级以及整个流符合的子位流的简档和瓦片应使用HEVC扩展视频描述符用信号表示。如果HEVC视频描述符与HEVC视频流、HEVC时间视频子位流、HEVC时间视频子集相关联,那么此描述符将在用于节目映射表中的相应基本流条目的描述符循环中传达。此建议|国际标准未指定在节目的上下文中ITU-T建议H.265|ISO/IEC 23008-2流的呈现。
对于PES包化,未应用特定数据对准约束。对于同步和STD管理,PTS以及在适当时DTS是在载运ITU-T建议H.265|ISO/IEC 23008-2视频基本流数据的PES包的标头中经编码。对于PTS和DTS编码,约束和语义如2.17.1中界定而应用。
DPB缓冲器管理
经由ITU-T建议H.222.0|ISO/IEC 13818-1的HEVC视频流、HEVC时间视频子流或HEVC时间视频子集的载运不影响缓冲器DPB的大小。对于HEVC视频流、HEVC时间视频子位流或HEVC时间视频子位流及其在STD中的相关联HEVC时间视频子集的解码,DPB的大小如ITU-T建议H.265|ISO/IEC 23008-2中界定。DPB将如ITU-T建议H.265|ISO/IEC 23008-2的附录C或条款F.13(条款C.3和C.5)中指定来管理。在HEVC存取单元的解码之后,因此在HEVC存取单元的CPB移除时间,经解码HEVC存取单元即刻瞬时进入DPB。经解码HEVC存取单元是在DPB输出时间呈现。如果HEVC视频流、HEVC时间视频子位流、HEVC时间视频子集或HEVC扩展视频流提供的信息不足以确定HEVC存取单元的CPB移除时间和DPB输出时间,那么将在STD模型中如下从PTS和DTS时戳确定这些时刻:
1)HEVC存取单元n的HEVC层图片的CPB移除时间是由DTS(n)指示的时刻,其中DTS(n)是HEVC存取单元n的DTS值。[Ed.(CY):MV-HEVC和SHVC支持两个HRD操作模式:第一者针对存取单元中的全部HEVC层图片采用相同的CPB移除时间,且第二者可假定用于不同HEVC层图片的不同CPB移除时间。第一模式是典型的且中MVC和SVC中是相同的。当前,在当前规范文本中仅支持第一模式。对于第二模式的支持需要进一步研究。]
2)HEVC存取单元n的HEVC层图片的DPB输出时间是由PTS(n)指示的时刻,其中PTS(n)是HEVC存取单元n的PTS值。
注意X7-其中语法结构hrd_parameters()中的low_delay_hrd_flag设定成1的HEVC视频序列载运足够信息以确定每一HEVC存取单元的DPB输出时间和CPB移除时间。因此对于可能发生STD下溢的HEVC存取单元,CPB移除时间和DPB输出时间由HRD参数界定,且不由DTS和PTS时戳界定。
注意X8-HEVC视频流可载运用以确定HEVC视频流对HRD的顺应性的信息,如ITU-T建议H.265|ISO/IEC 23008-2的附录C中指定。此信息的存在可在输送流中使用具有设定成‘1’的hrd_management_valid_flag的HEVC定时和HRD描述符来用信号表示。无关于此信息的存在,HEVC视频流对T-STD的顺应性确保当HEVC视频流中的每一字节在与所述字节递送到T-STD中的EBn和从其移除的确切相同时刻递送到HRD中的CPB和从其移除时满足对于CPB的HRD缓冲器管理要求。
2.17.2 用于单层HEVC的T-STD扩展
当ITU-T建议H.222.0|ISO/IEC 13818-1节目中存在HEVC视频流或HEVC时间视频子位流且同一ITU-T建议H.222.0|ISO/IEC 13818-1节目中不存在与stream_type 0x24的此基本流相关联的HEVC时间视频子集时,如2.4.2中所描述的T-STD模型如中图X-1中所说明而扩展且如下指定。
图X-1-用于单层HEVC的T-STD模型扩展
TBn、MBn、EBn缓冲器管理
以下额外符号用以描述T-STD扩展且在以上图X-1中说明。
t(i)指示输送流的第i字节进入系统目标解码器的以秒计的时间
TBn是用于基本流n的输送缓冲器
TBS是以字节测得的输送缓冲器TBn的大小
MBn是用于基本流n的多路复用缓冲器
MBSn是以字节测得的多路复用缓冲器MBn的大小
EBn是用于HEVC视频流的基本流缓冲器
j是HEVC视频流的HEVC存取单元的索引
An(j)是HEVC视频位流的第j存取单元
tdn(j)是系统目标解码器中的以秒计测得的测得的An(j)的解码时间
Rxn是如以下指定的从输送缓冲器TBn到多路复用缓冲器MBn的转移速率。
Rbxn是如以下指定的从多路复用缓冲器MBn到基本流缓冲器EBn的转移速率。
以下适用:
●存在确切一个输送缓冲器TBn用于所接收的HEVC视频流或HEVC时间视频子位流,其中大小TBS固定为512字节。
●存在确切一个多路复用缓冲器MBn用于HEVC视频流或HEVC时间视频子位流,其中多路复用缓冲器MB的大小MBSn如下受约束:
MBSn=BSmux+BSoh+CpbBrNalFactor×MaxCPB[tier,level]-cpb_size
其中BSoh包开销缓冲经界定为:
BSoh=(1/750)秒×max{CpbBrNalFactor×MaxBR[tier,level],2 000 000bit/s}
且BSmux额外多路复用缓冲经界定为:
BSmux=0.004秒×max{CpbBrNalFactor×MaxBR[tier,level],2 000 000bit/s}
MaxCPB[tier,level]和MaxBR[tier,level]是从建议ITU-T H.265|ISO/IEC23008-2的附录A针对HEVC视频流或HEVC时间视频子位流的层次和层级而取得。cpb_size是从包含在HEVC视频流或HEVC时间视频子位流中的HRD参数取得,如建议ITU-T H.265|ISO/IEC 23008-2的附录E中指定。
●存在确切一个基本流缓冲器EBn用于通过阶层描述符而关联的所接收基本流的集合中的全部基本流,其中总大小EBSn
EBSn=cpb_size(以字节计测得)
其中cpb_size是从包含在HEVC视频流或HEVC时间视频子位流中的HRD参数取得,如建议ITU-T H.265|ISO/IEC 23008-2的附录E中指定。
●如下应用从TBn到MBn的转移:
当TBn中不存在数据时则Rxn等于零。否则:
Rxn=bit_rate
其中bit_rate是CpbBrNalFactor/CpbBrVclFactor x数据流进入针对字节流格式的CPB的BitRate[SchedSelIdx],且BitRate[SchedSelIdx]如建议ITU-T H.265|ISO/IEC23008-2的附录E中当NAL HRD参数存在于HEVC视频流的VUI参数中时界定。
注意X9-附录E还当NAL HRD参数不存在于VUI中时基于简档、层次和层级而指定BitRate[SchedSelIdx]的默认值。
●如下应用从MBn到EBn的转移:
如果HEVC_timing_and_HRD_descriptor以对于基本流设定成‘1’的hrd_management_valid_flag存在,那么从MBn到EBn的数据转移将遵循针对基本流的CPB中的数据到达的HRD界定方案,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中界定。
否则,将如下使用渗漏方法来从MBn到EBn转移数据:
Rbxn=CpbBrNalFactor×MaxBR[tier,level]
其中MaxBR[tier,level]是从建议ITU-T H.265|ISO/IEC 23008-2的附录A针对HEVC视频流或HEVC时间视频子位流的层次和层级而取得。
如果MBn中存在PES包有效负载数据,且缓冲器EBn不是满的,那么PES包有效负载以等于Rbxn的速率从MBn转移到EBn。如果EBn是满的,那么不从MBn移除数据。当数据字节从MBn转移到EBn时,在MBn中且先于所述字节的全部PES包标头字节被瞬时移除且丢弃。当没有PES包有效负载数据存在于MBn中时,不从MBn移除数据。进入MBn的全部数据都离开MBn。全部PES包有效负载数据字节在离开MBn之后即刻瞬时进入EBn
STD延迟
通过系统目标解码器缓冲器TBn、MBn和EBn的除HEVC静止图片数据外的任何ITU-T建议H.265|ISO/IEC 23008-2数据的STD延迟将受以下约束:针对全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤10秒。
通过系统目标解码器缓冲器TBn、MBn和EBn的任何HEVC静止图片数据的延迟将受以下约束:针对全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤60秒。
缓冲器管理条件
应构造输送流以使得满足以下用于缓冲器管理的条件:
●每一TBn将不上溢且每秒至少一次将为空的。
●每一MBn、EBn和DPB将不上溢。
●EBn将不下溢,当对于具有设定成‘1’的low_delay_hrd_flag的HEVC视频序列VUI参数存在时除外。当在解码时间tdn(j)处An(j)的一或多个字节不存在于EBn中时对于HEVC存取单元An(j)发生EBn的下溢。
2.17.3 用于HEVC时间视频子集的分层输送的T-STD扩展
当ITU-T建议H.222.0|ISO/IEC 13818-1节目中存在HEVC视频子位流和类型0x25的至少一个相关联基本流时,如2.4.2中所描述的T-STD模型如图X-2中说明扩展且如下指定。
图X-2-用于HEVC时间视频子集的分层输送的T-STD模型扩展
以下额外符号用以描述T-STD扩展且在以上图X-2中说明。
t(i)指示输送流的第i字节进入系统目标解码器的以秒计的时间
H是通过具有相同HEVC时间视频子位流的阶层描述符而关联的所接收HEVC时间视频子集的数目。
k是识别含有通过阶层描述符而关联的确切一个HEVC时间视频子位流和H个HEVC时间视频子集的H+1个所接收基本流的索引。等于0的索引值k识别含有HEVC时间视频子位流的基本流且范围从1直到H的索引值k识别相关联HEVC时间视频子集。
ESn,k是含有第k HEVC时间视频子集或在k等于0的情况下的HEVC时间视频子位流的所接收的基本流
ESn,H是含有存在于所接收基本流集合中的最高HEVC时间视频子集的所接收的基本流
PIDH是识别ESn,H的包识别符值
j是输出存取单元的索引
An(j)是HEVC完整时间表示的第j存取单元
tdn(j) 是系统目标解码器中的An(j)的解码时间
TBn,k是用于基本流k的输送缓冲器
TBSn,k 是以字节测得的输送缓冲器TBn,k的大小
MBn,k是用于基本流k的多路复用缓冲器
MBSn,k 是以字节测得的多路复用缓冲器MBn,k的大小
EBn是用于所接收的HEVC时间视频子位流ESn,0和所接收的HEVC时间视频子集ESn,1到ESn,H的基本流缓冲器
EBSn是以字节计测得的基本流缓冲器EBn的大小
Rxn,k是如以下指定的从第k输送缓冲器TBn,k到第k多路复用缓冲器MBn,k的转移速率
Rbxn,k 是如以下指定的从第k多路复用缓冲器MBn,k到基本流缓冲器EBn的转移速率
注意X10-索引n在使用的情况下指示所接收的基本流和相关联缓冲器属于某一HEVC时间视频子位流及其相关联HEVC时间视频子集,区分这些基本流和相关联缓冲器与其它基本流和缓冲器,维持与图X-1中的记号的一致性。
TBn,k、MBn,k、EBn缓冲器管理
以下适用:
●对于每一所接收基本流ESn,k存在一个输送缓冲器TBn,k,其中大小TBSn,k固定为512字节。
●对于每一所接收基本流ESn,k存在一个多路复用缓冲器MBn,k,其中多路复用缓冲器MBn,k的大小MBSn,k受如下约束:
MBSn,k=BSmux+BSoh+CpbBrNalFactor×MaxCPB[tier,level]-cpb_size(以字节计测得)
其中
BSoh包开销缓冲以及BSmux额外多路复用缓冲如条款2.17.2中指定;
MaxCPB[tier,level]和MaxBR[tier,level]是从HEVC的层次和层级规范针对与ESn,k相关联的HEVC最高时间子层表示的层次和层级而取得;
cpb_size是从包含在与ESn,k相关联的HEVC最高时间子层表示中的HRD参数取得,如建议ITU-T H.265|ISO/IEC 23008-2的附录E中指定。
●存在确切一个基本流缓冲器EBn用于所接收基本流ESn,0到ESn,H集合中的H+1个基本流,其中总大小EBSn
EBSn=cpb_size(以字节计测得)
其中cpb_size是从包含在与ESn,H相关联的HEVC最高时间子层表示中的HRD参数取得,如建议ITU-T H.265|ISO/IEC 23008-2的附录E中指定。
●如下应用从TBn,k到MBn,k的转移:
当TBn,k中不存在数据时,则Rxn,k等于零。否则:
Rxn,k=bit_rate
其中bit_rate如条款2.17.2中指定。
●如下应用从MBn,k到EBn的转移:
如果HEVC_timing_and_HRD_descriptor以对于HEVC视频子位流设定成‘1’的hrd_management_valid_flag存在,那么从MBn,k到EBn的数据转移将遵循针对基本流ESn,H的CPB中的数据到达的HRD界定方案,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中界定。
否则,将如下使用渗漏方法来从MBn,k到EBn转移数据:
Rbxn,k=CpbBrNalFactor×MaxBR[tier,level]
其中MaxBR[tier,level]是针对建议ITU-T H.265|ISO/IEC 23008-2的附录A中的字节流格式针对与ESn,k相关联的HEVC视频流或HEVC最高时间子层表示的层次和层级而界定。
如果MBn,k中存在PES包有效负载数据,且EBn不是满的,那么PES包有效负载以等于Rbxn,k的速率从MBn,k转移到EBn。如果EBn是满的,那么不从MBn,k移除数据。当数据字节从MBn,k转移到EBn时,在MBn,k中且先于所述字节的全部PES包标头字节被瞬时移除且丢弃。当没有PES包有效负载数据存在于MBn,k中时,不从MBn,k移除数据。进入MBn,k的全部数据离开MBn,k。全部PES包有效负载数据字节在离开MBn,k之后即刻瞬时进入EBn
在基本流缓冲器EBn的输出处,通过按上升DTS次序移除全部HEVC存取单元且将其转移到HEVC解码器DH而聚集基本流,与每一HEVC存取单元属于的基本流ESn,k无关。
STD延迟
通过系统目标解码器缓冲器TBn,k、TBn,k和EBn的除HEVC静止图片数据外的任何ITU-T建议H.265|ISO/IEC 23008-2数据的STD延迟将受以下约束:针对全部k、全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤10秒。
通过系统目标解码器缓冲器TBn,k、MBn,k和EBn的任何HEVC静止图片数据的延迟将受以下约束:针对全部k、全部j以及存取单元An(j)中的全部字节i,tdn(j)-t(i)≤60秒。
缓冲器管理条件
应构造输送流以使得满足以下用于缓冲器管理的条件:
●每一TBn,k将不上溢且每秒至少一次将为空的。
●每一MBn,k、EBn和DPB将不上溢。
●EBn将不下溢,当对于具有设定成‘1’的low_delay_hrd_flag的HEVC视频序列VUI参数存在时除外。当在解码时间tdn(j)处An(j)的一或多个字节不存在于EBn中时对于HEVC存取单元An(j)发生EBn的下溢。
2.17.4 用于HEVC分层视频子位流的分层输送的T-STD扩展
如果所接收的基本流是stream_type 0x24或0x25的视频子位流,那么应用2.17.2或2.17.3中描述的T-STD模型,即仅接收和解码基础层的HEVC基础层视频子位流或HEVC时间视频子集。
当建议H.222.0|ISO/IEC 13818-1节目中存在HEVC分层视频子位流的集合时,其相依性可在阶层扩展描述符中用信号表示,如2.6.97中界定,且当具有等于0x26的stream_type的值的所接收基本流集合中的HEVC分层视频子位流中的至少一者存在时,如2.14.3.1中所描述的T-STD模型如图X-3中所说明扩展且如下指定。
图2-15-用于具有HEVC分层视频子位流的建议ITU-T H.265|ISO/IEC 23008-2视频的T-STD模型扩展
以下额外符号用以描述T-STD扩展且在以上图2-15中说明。
ESn是与第n HEVC分层视频子位流相关联的所接收的基本流,其中n为含有基础层且根据层识别符子集的最小nuh_layer_id排序的HEVC层识别符子集的开始于值0的HEVC层识别符子集的索引
ESH是与包含具有存在于所接收基本流的全部HEVC分层视频子位流中的最高nuh_layer_id的层的第H HEVC分层视频子位流相关联的所接收的基本流
j是经重新组合的存取单元的索引
jn是与第n HEVC分层视频子位流相关联的基本流ESn的HEVC层识别符集合的索引
VSn(jn) 是与ESn相关联的HEVC分层视频子位流的第jn HEVC层图片子集
AH(j)是由重新组合(直到)与ESH相关联的第H个HEVC层图片子集而得到的第j存取单元
tdn(jn) 是HEVC层图片子集VSn(jn)的系统目标解码器中以秒计测得的解码时间
tdH(j)是由重新组合(直到)HEVC层图片子集VSH(jH)而得到的第j存取单元AH(j)的系统目标解码器中以秒计测得的解码时间
TBn是用于基本流ESn的输送缓冲器
TBSn是以字节测得的输送缓冲器TBn的大小
MBn是用于基本流ESn的多路复用缓冲器
MBSn是以字节测得的多路复用缓冲器MBn的大小
VSBn是用于基本流ESn的HEVC层图片子集缓冲器
VSBSn是以字节计测得的HEVC层图片子集缓冲器VSBn的大小
EBH是用于HEVC分层视频子位流的基本流缓冲器,包含HEVC基础层视频子位流
EBSH是以字节计测得的基本流缓冲器EBH的大小
Rxn如以下指定的从TBn到MBn的转移速率
Rbxn如以下指定的从MBn到VSBn的转移速率
PES包中的载运
为了HEVC层图片子集到HEVC存取单元的正确重新组合,以下适用:
·每HEVC层图片子集开始的PES包将存在,即,至多一个HEVC层图片子集可在同一PES包中开始;
·PTS以及(如果适用)DTS值将在每一HEVC层图片子集的PES标头中提供
DPB缓冲器管理
用于经重新组合的HEVC视频流的DPB缓冲器管理将符合2.17.2或2.17.3,其使用与基本流ESH中的HEVC分层视频子位流的HEVC层图片子集相关联的HEVC存取单元定时值作为DTS或CPB移除时间以及PTS或DPB移除时间。
TBn、MBn、EBn缓冲器管理
以下适用:
·存在如2.14.3.1中界定的确切一个输送缓冲器TB用于所接收HEVC分层视频子位流集合中的每一所接收基本流,包含包含于如图X-3中所示的基本流中的HEVC基础层视频子位流。
·存在确切一个多路复用缓冲器MB0用于基本流ES0中的HEVC基础层视频子位流,其中多路复用缓冲器MBS0的大小受如下约束:
MBS0=BSmux,0+BSoh,0+CpbBrNalFactor×MaxCPB[tier,level]0-cpb_size0
其中BSmux,0、BSoh,0在2.14.3.1中针对基本流ES0中的HEVC基础层视频子位流而界定。
其中用于基本流ES0的MaxCPB[tier,level]0和cpb_size0如2.14.3.1中界定。
注意1-如果HRD参数存在于HEVC分层视频子位流中的至少一者中,那么必须谨慎处置那些参数以免不必要地增加多路复用缓冲器分配。
·存在确切一个多路复用缓冲器MBn用于与不等于0的nuh_layer_id值相关联的每一所接收基本流,其中所接收基本流的集合中的每一多路复用缓冲器MBSn的大小受如下约束:
MBSn=BSmux,n+BSoh,n
其中BSmux,n、BSoh,n在2.14.3.1中针对由中心组合(直到)基本流ESn中的HEVC分层视频子位流而得到的HEVC视频流而界定。
·存在确切一个基本流缓冲器EBH用于如图X-3中所示所接收基本流集合中的全部基本流,其中大小EBSH具有以下值:
EBSH=cpb_sizeH
其中cpb_sizeH是如2.14.3.1中针对经重新组合的HEVC视频流界定的基本流ESH中的HEVC分层视频子位流的cpb_size。
·存在确切一个HEVC层图片子集缓冲器VSBn用于如图X-3中所示的所接收基本流集合中的每一基本流,其中所接收基本流集合中的每一HEVC层图片子集缓冲器VSBn是在EBH内分配。即使个别VSBn的大小VSBSn不受约束,大小VSBSn的总和也受如下约束:
EBSH=∑n(VSBSn)
·如下应用从TBn到MBn的转移:
速率Rxn
如果TBn中不存在数据,那么Rxn等于零。
否则:Rxn=bit_rate
其中bit_rate是CpbBrNalFactor/CpbBrVclFactor x数据流进入针对字节流格式的CPB的BitRate[SchedSelIdx],且BitRate[SchedSelIdx]如建议ITU-T H.265|ISO/IEC23008-2中当NAL HRD参数存在于HEVC分层视频子位流的VPS中时界定。
·如下应用从MBn到VSBn的转移:
如果HEVC_timing_and_HRD_descriptor以对于基本流ESH设定成‘1’的hrd_management_valid_flag存在,那么从MBn到VSBn的数据转移将遵循针对基本流ESH的CPB中的数据到达的HRD界定方案,如建议ITU-T H.265|ISO/IEC 23008-2的附录C中界定。
否则,将如下使用渗漏方法来从MBn到VSBn转移数据:
速率Rbxn
Rbxn=CpbBrNalFactor×MaxBR[tier,level]n
其中MaxBR[tier,level]n是针对建议ITU-T H.265|ISO/IEC 23008-2中的表A.1(层级限制)中的字节流格式针对由重新组合(直到)基本流ESn中的相关联HEVC分层视频子位流n得到的HEVC视频流的层级而界定。如果MBn中存在PES包有效负载数据,且缓冲器EBH不是满的,那么PES包有效负载以等于Rbxn的速率从MBn转移到VSBn。如果EBH是满的,那么不从MBn移除数据。当数据字节从MBn转移到VSBn时,在MBn中且先于所述字节的全部PES包标头字节被瞬时移除且丢弃。当没有PES包有效负载数据存在于MBn中时,不从MBn移除数据。进入MBn的全部数据都离开MBn。全部PES包有效负载数据字节在离开MBn之后即刻瞬时进入VSBn。[Ed(CY):将基于最新MV-HEVC规范而更新。]
存取单元重新组合以及EB移除
以下指定得到HEVC存取单元AH(j)的存取单元重新组合:
i)遵循以下规则针对第j存取单元AH(j)组合HEVC层图片子集
·对于针对存取单元AH(j)收集的HEVC层图片子集VSy+1(jy+1)和每一VSy(jy),其中VSy与由相关联阶层扩展描述符中指示的hierarchy_ext_embedded_layer_index的每一值识别的节目元素相关联,VSy+1(jy+1)的tdy+1(jy+1)的DTS值将等于VSy(jy)的DTS值tdy(jy)。
注意3-如果不存在阶层扩展描述符,那么VSy与HEVC基础层视频子位流相关联且VSy+1与HEVC分层视频子位流相关联。
[Ed.(CY):此处移除了对于MVC和SVC的SEI消息的重排序。]
以下指定存取单元AH(j)从缓冲器EBH的移除:
在解码时间tdH(j),HEVC存取单元AH(j)将重新组合且可用于从缓冲器EBH移除。解码时间tdH(j)由DTS或由与基本流ESH中的HEVC层图片子集相关联的CPB移除时间指定,如从经重新组合AVC视频流中的信息导出。
STD延迟
经重新组合的HEVC存取单元的STD延迟将遵循2.17.1中指定的约束。
缓冲器管理条件
应构造输送流以使得满足以下用于缓冲器管理的条件:
·每一TBn将不上溢且每秒至少一次将为空的。
·每一MBn、EBH和DPB将不上溢。
·EBH将不下溢,当对于具有设定成‘1’的low_delay_hrd_flag的经重新组合AVC视频流的AVC视频序列存在VUI参数时除外。当在解码时间tdH(j)处EBH中不存在AH(j)的一或多个字节时对于HEVC存取单元AH(j)发生EBH的下溢。
2.17.5 用于HEVC分层视频子位流的P-STD扩展
如果经解码基本流是stream_type 0x24或0x25的视频子位流,那么应用P-STD模型,即,仅解码HEVC基础层视频子位流。
当建议ITU-T H.222.0|ISO/IEC 13818-1节目中存在经解码HEVC分层视频子位流的集合时,其中层识别符子集值可在HEVC_extension_descriptor中用信号表示,如2.6.99中界定,且当具有等于0x26的stream_type的值的经解码基本流集合中存在HEVC分层视频子位流中的至少一者时,如2.14.3.2中所描述P-STD模型如图X-4中所说明扩展且如下指定。
图X-4-用于具有HEVC分层视频子位流的建议ITU-T H.265|ISO/IEC 23008-2视频的P-STD模型扩展
以下额外符号用以描述P-STD扩展且在以上图X-4中说明。
ESn是与第n HEVC分层视频子位流相关联的所接收的基本流,其中n为含有基础层且根据包含于每一HEVC层识别符子集中的最小nuh_layer_id排序的HEVC层识别符子集的开始于值0的HEVC层识别符子集的索引
ESH是与包含具有存在于所接收基本流的全部HEVC层识别符子集中的最高nuh_layer_id的HEVC层图片层的第H分层视频子位流相关联的所接收的基本流
j是经重新组合的存取单元的索引
jn是与第n HEVC层图片子集相关联的基本流的HEVC层图片子集的索引
VSn(jn)是与ESn相关联的HEVC分层视频子位流的第jn HEVC层图片子集
AH(j)是由重新组合(直到)与ESH相关联的第H个HEVC层图片子集而得到的第j存取单元
tdn(jn) 是HEVC层图片子集VSn(jn)的系统目标解码器中以秒计测得的解码时间
tdH(j)是由重新组合(直到)HEVC层图片子集VSH(jH)而得到的第j存取单元AH(j)的系统目标解码器中以秒计测得的解码时间
BH是用于全部经解码HEVC分层视频子位流的输入缓冲器
BSH是以字节计测得的输入缓冲器BH的大小
VSBn是用于基本流ESn的HEVC分层图片子集缓冲器
VSBSn是以字节计测得的HEVC分层图片子集缓冲器VSBn的大小
PES包中的载运
为了HEVC层图片子集到HEVC存取单元的正确重新组合,以下适用:
·每HEVC层图片开始的PES包将存在,即,至多一个HEVC层图片子集可在同一PES包中开始;
·PTS以及(如果适用)DTS值将在每一HEVC层图片子集的PES标头中提供。
DPB缓冲器管理
用于经重新组合的HEVC视频流的DPB缓冲器管理将符合MPEG-2 TS的2.14.3.1,其使用与基本流ESH中的HEVC分层视频子位流的HEVC层图片子集相关联的HEVC存取单元定时值作为DTS或CPB移除时间以及PTS或DPB移除时间。
Bn缓冲器管理
以下适用:
·存在确切一个基本流缓冲器BH用于如图X-4中所示的经解码基本流集合中的全部基本流,其中BSH的大小由基本流ESH的PES包标头中的P-STD_buffer_size字段界定。
·存在确切一个HEVC层图片子集缓冲器VSBn用于如图X-4中所示的经解码基本流集合中的每一基本流,其中经解码基本流集合中的每一HEVC层子集缓冲器VSBn是在BSH内分配。即使个别VSBn的大小VSBSn不受约束,大小VSBSn的总和也受如下约束:
BSH=∑n(VSBSn)
其中BSH是用于经重新组合AVC视频流的基本流ESH中的MVC视频子位流的输入缓冲器的大小,如2.14.3.2中界定。
存取单元重新组合以及B移除
以下指定得到AVC存取单元AH(j)的存取单元重新组合:
i)遵循以下规则针对第j存取单元AH(j)组合HEVC层图片子集:
·对于针对存取单元AH(j)收集的HEVC层图片子集VSy+1(jy+1)和每一VSy(jy),其中VSy与由相关联阶层扩展描述符中指示的hierarchy_ext_embedded_layer_index的每一值识别的节目元素相关联,VSy+1(jy+1)的tdy+1(jy+1)的DTS值将等于VSy(jy)的DTS值tdy(jy)。
以下指定存取单元AH(j)从缓冲器BH的移除:
在解码时间tdH(jH),HEVC存取单元AH(jH)将重新组合且可用于从缓冲器BH移除。解码时间tdH(j)由DTS或由与基本流ESH中的HEVC层图片子集相关联的CPB移除时间指定,如从经重新组合AVC视频流中的信息导出。
STD延迟
经重新组合的HEVC存取单元的STD延迟将遵循2.17.1中指定的约束。
缓冲器管理条件
应构造节目流以使得满足以下用于缓冲器管理的条件:
·BH将不上溢。
·BH将不下溢,当对于具有设定成‘1’的low_delay_hrd_flag的经重新组合HEVC视频流的HEVC视频序列存在VUI参数时或当trick_mode状态为真时除外。当在解码时间tdH(j)处BH中不存在AH(j)的一或多个字节时对于AVC存取单元AH(j)发生BH的下溢。
本发明中描述的技术可由例如视频编码器20、视频解码器30或其它装置等多种视频处理装置中的任一者执行,例如拼接引擎、媒体感知网络元件(MANE)、流式传输服务器、路由器以及对经译码视频位流进行编码、解码、组合、构造、提取或另外处理的其它装置。
图6是说明可经配置以实施本发明的技术的实例视频编码器20的框图,所述技术例如用于关于MPEG-2系统的HEVC多层扩展位流的载运的技术,包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。
本发明在HEVC译码且更确切地说MV-HEVC、SHVC和3D-HEVC译码扩展的上下文中描述视频编码器20。然而,本发明的技术可适用于其它视频译码标准或方法。因此,出于解释的目的而提供图6,且不应将其视为对如本发明中所广泛例示和描述的技术的限制。
在图6的实例中,视频编码器20包含预测处理单元100、视频数据存储器101、残余产生单元102、变换处理单元104、量化单元106、逆量化单元108、逆变换处理单元110、重构单元112、滤波器单元114、经解码图片缓冲器116和熵编码单元118。预测处理单元100包含帧间预测处理单元120及帧内预测处理单元126。帧间预测处理单元120包含运动估计(ME)单元122及运动补偿(MC)单元124。
将预测处理单元100的组件描述为执行纹理编码和深度编码两者。在一些实例中,纹理和深度编码可由预测处理单元100的相同组件或预测处理单元100内的不同组件执行。举例来说,在一些实施方案中可提供单独的纹理和深度编码器。并且,可提供多个纹理和深度编码器以对多个视图进行编码,例如用于多视图加深度译码。视频编码器20可包含比图6中所展示的功能组件更多、更少或不同的功能组件。
在一些实例中,预测处理单元100可大体上根据MV-HEVC、SHVC或3D-HEVC而操作,例如经受本发明中所描述的修改和/或添加。预测处理单元100可将语法信息提供到熵编码单元118。语法信息可指示(例如)使用哪些预测模式和关于此些模式的信息。
视频编码器20接收待编码的视频数据。视频数据存储器101可存储待由视频编码器20的组件编码的视频数据。可(例如)从视频源18获得存储在视频数据存储器101中的视频数据。经解码图片缓冲器116可为参考图片存储器,其存储用于由视频编码器20(例如)在帧内或帧间译码模式中对视频数据进行编码的参考视频数据。视频数据存储器101和经解码图片缓冲器116可由多种存储器装置中的任一者形成,例如动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。视频数据存储器101和经解码图片缓冲器116可由相同存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器101可与视频编码器20的其它组件一起在芯片上,或相对于所述组件在芯片外。
视频编码器20可编码所述视频数据的图片的切片中的多个译码树单元(CTU)中的每一者。CTU中的每一者可与图片的大小相等的明度译码树块(CTB)和对应色度CTB相关联。作为对CTU进行编码的一部分,预测处理单元100可以执行四叉树分割以将CTU的CTB划分为逐渐更小的块。这些更小的块可以是CU的译码块。举例来说,预测处理单元100可将与CTU相关联的CTB分割成四个大小相等的子块,将子块中的一或多者分割成四个大小相等的子子块等。
视频编码器20可编码CTB的CU,以产生CU(即,经译码CU)的经编码表示。作为对CU进行编码的部分,预测处理单元100可在CU的一或多个PU当中分割与CU相关联的译码块。因此,每一PU可与明度预测块和对应的色度预测块相关联。
视频编码器20和视频解码器30可支持具有各种大小的PU。如上文所指示,CU的大小可指CU的明度译码块的大小并且PU的大小可指PU的明度预测块的大小。假定特定CU的大小是2Nx2N,那么视频编码器20和视频解码器30可支持用于帧内预测的2Nx2N或NxN的PU大小,以及用于帧间预测的2Nx2N、2NxN、Nx2N、NxN或类似大小的对称PU大小。视频编码器20以及视频解码器30还可以支持用于帧间预测的2NxnU、2NxnD、nLx2N以及nRx2N的PU大小的非对称分割。根据本发明的方面,视频编码器20及视频解码器30还支持用于深度帧间译码的PU的非矩形分区。
帧间预测处理单元120可通过对CU的每个PU执行帧间预测来产生用于PU的预测性数据。PU的预测性数据可以包含PU的预测性块以及PU的运动信息。帧间预测处理单元120可根据PU是否在I切片、P切片或B切片中而对CU的PU执行不同操作。在I切片中,所有PU都是经帧内预测。因此,如果PU是在I切片中,则帧间预测处理单元120并不对PU执行帧间预测。因此,对于以I模式进行编码的块,使用来自同一图片内的经先前编码的相邻块的空间预测来形成预测块。
如果PU在P切片中,那么运动估计(ME)单元122可搜索参考图片列表(例如,“RefPicList0”)中的参考图片以寻找PU的参考区。参考图片可存储在经解码图片缓冲器116中。PU的参考区可为参考图片内含有与所述PU的样本块最紧密对应的样本块的区。运动估计(ME)单元122可产生指示含有PU的参考区的参考图片在RefPicList0中的位置的参考索引。
另外,对于帧间译码,运动估计(ME)单元122可产生运动向量(MV),其指示PU的译码块和与参考区相关联的参考位置之间的空间位移。举例来说,MV可为用以提供从当前图片中的坐标到参考图片中的坐标的偏移的二维向量。运动估计(ME)单元122可以将参考索引以及MV输出为PU的运动信息。基于由PU的运动向量指示的参考位置处的实际样本或经内插样本,运动补偿(MC)单元124可产生PU的预测性样本块。
如果PU是在B切片中,则运动估计单元122可以对PU执行单向预测或双向预测。为了对PU执行单向预测,运动估计单元122可以搜索RefPicList0的参考图片,或用于PU的参考区域的第二参考图片列表(RefPicList1)。运动估计(ME)单元122可输出以下各项作为PU的运动信息:指示含有参考区的参考图片的RefPicList0或RefPicList1中的位置的参考索引,指示PU的样本块与和参考区相关联的参考位置之间的空间位移的MV,以及指示参考图片是否在RefPicList0或RefPicList1中的一或多个预测方向指示符。运动补偿(MC)单元124可以至少部分基于由PU的运动向量指示的参考区处的实际样本或经内插样本来产生PU的预测性块。
为了对PU执行双向帧间预测,运动估计单元122可搜索RefPicList0中的参考图片以寻找用于PU的参考区,且还可搜索RefPicList1中的参考图片以寻找用于PU的另一参考区。运动估计(ME)单元122可产生指示含有参考区的参考图片在RefPicList0和RefPicList1中的位置的参考图片索引。另外,运动估计(ME)单元122可产生指示同参考区域相关联的参考位置与PU的样本块之间的空间位移的MV。PU的运动信息可包含PU的参考索引及MV。运动补偿(MC)单元124可以至少部分基于由PU的运动向量指示的参考区处的实际样本或经内插样本来产生PU的预测性块。
帧内预测处理单元126可通过对PU执行帧内预测而产生PU的预测性数据。用于PU的帧内预测性数据可包含用于PU的预测性块以及各种语法元素。帧内预测处理单元126可对I切片、P切片及B切片中的PU执行帧内预测。为了对PU执行帧内预测,帧内预测处理单元126可使用多个帧内预测模式以产生PU的多个预测性数据集合,且随后例如使用速率失真优化技术选择帧内预测模式中产生可接受或最佳译码性能的一者。
为了使用一些帧内预测模式来产生PU的预测性数据集合,帧内预测处理单元126可在与帧内预测模式相关联的方向上将样本从空间上相邻PU的样本块延伸跨越PU的样本块。假定对于PU、CU和CTU采用从左到右、从上到下的编码次序,相邻PU可在所述PU的上方、右上方、左上方或左方。帧内预测处理单元126可使用各种数目的帧内预测模式,例如,33个方向性帧内预测模式。在一些实例中,帧内预测模式的数目可以取决于与PU相关联的区域的大小。
预测处理单元100可从PU的由帧间预测处理单元120产生的预测性数据或PU的由帧内预测处理单元126产生的预测性数据当中选择CU的PU的预测性数据。在一些实例中,预测处理单元100基于预测性数据集合的速率/失真量度选择CU的PU的预测性数据。所选预测性数据的预测性块在本文中可被称作所选预测性块。
残余产生单元102可基于CU的译码块(例如,明度、Cb或Cr译码块)以及CU的PU的选定帧间或帧内预测性块(例如,明度、Cb或Cr预测性块)而产生CU的残余块(例如,明度、Cb或Cr残余块)。举例来说,残余产生单元102可产生CU的残余块,使得残余块中的每一样本具有等于CU的译码块中的样本与对应样本(即,在明度或色度像素值中,在适用时,在CU的PU的对应选定预测性样本块中)之间的差的值。
变换处理单元104可以执行四叉树分割以将与CU相关联的残余块分割成与CU的TU相关联的变换块。因此,TU可以与明度变换块以及两个色度变换块相关联。CU的TU的明度变换块以及色度变换块的大小和位置可以或可不基于CU的PU的预测块的大小和位置。被称为“残余四叉树”(RQT)的四叉树结构可以包含与区域中的每一者相关联的节点。CU的TU可以对应于RQT的叶节点。
对于常规的残余译码,变换处理单元104可通过将一或多个变换应用于与TU相关联的变换块而产生CU的每一TU的变换系数块。变换处理单元104可将各种变换应用到与TU相关联的变换块。例如,变换处理单元104可以将离散余弦变换(DCT)、定向变换或概念上类似的变换应用于变换块。在一些实例中,变换处理单元104并不将变换应用于变换块。在此类实例中,变换块可以处理为变换系数块。
对于常规的残余译码,量化单元106可量化系数块中的残余变换系数。量化过程可减少与变换系数中的一些或全部相关联的位深度。举例来说,n位变换系数可在量化期间舍入到m位变换系数,其中n大于m。量化单元106可基于与CU相关联的量化参数(QP)值量化CU的TU的系数块。视频编码器20可通过调整与CU相关联的QP值来调整应用于与CU相关联的系数块的量化的程度。量化可能使得信息丢失,因此经量化的变换系数可以具有比原始变换系数更低的精度。
逆量化单元108及逆变换处理单元110可分别将逆量化及逆变换应用于系数块,以从所述系数块重构残余块。重构单元112可以将经重构的残余块添加到来自由预测处理单元100产生的一或多个预测性样本块的对应样本,以产生与TU相关联的经重构变换块。通过以此方式重构CU的每一TU的变换块,视频编码器20可重构CU的译码块。
滤波器单元114可执行一或多个滤波操作以减少与经重构CU相关联的译码块中的假象,例如成块假象。滤波操作可包含以下各项中的一或多者:去除块边界处的成块效应的解块、使像素转换平滑的环路滤波、使像素转换平滑的样本自适应偏移滤波或可能的其它类型的滤波操作或技术。经解码图片缓冲器116可以在滤波器单元114对经重构的译码块执行一或多个解块操作之后存储经重构的译码块。帧间预测处理单元120可使用含有经重构译码块的参考图片来对其它图片的PU执行帧间预测。另外,帧内预测处理单元126可使用经解码图片缓冲器116中的经重构的译码块以对处于与CU相同的图片中的其它PU执行帧内预测。
熵编码单元118可从视频编码器20的各种功能组件接收数据。举例来说,熵编码单元118可从量化单元106接收系数块且可从预测处理单元100接收语法元素。熵编码单元118可对数据执行一或多个熵编码操作以产生经熵编码数据。举例来说,熵编码单元118可执行CABAC操作。其它熵译码过程的实例包含上下文自适应可变长度译码(CAVLC)、基于语法的上下文自适应二进制算术译码(SBAC)以及概率间隔分割熵(PIPE)译码。在HEVC中,使用CABAC。视频编码器20可输出包含由熵编码单元118产生的经熵编码数据的位流。举例来说,位流可包含表示二进制语法元素或二进制化的语法元素的频段的位。
图7是说明经配置以执行本发明的技术的实例视频解码器30的框图,所述技术例如用于关于MPEG-2系统的HEVC多层扩展位流的的技术,包含多视图HEVC(MV-HEVC)、可缩放HEVC(SHVC)和三维HEVC(3D-HEVC)扩展位流。出于说明的目的而提供图7,且不应将其视为对如本发明中所广泛例示和描述的技术的限制。本发明在HEVC译码扩展且具体来说MV-HEVC、SHVC和3D-HEVC译码扩展的上下文中描述视频解码器30。然而,本发明的技术可适用于其它视频译码标准或方法。因此,图7是出于解释的目的而提供,并且不应被视为将技术限制为本发明中所大致例示及描述者。
在图7的实例中,视频解码器30包含熵解码单元150、预测处理单元152、逆量化单元154、逆变换处理单元156、重构单元158、滤波器单元160和经解码图片缓冲器162。预测处理单元152包含用于帧间预测的运动补偿(MC)单元164,以及帧内预测处理单元166。为了便于说明,将预测处理单元152的组件描述为执行纹理解码和深度解码两者。在一些实例中,纹理和深度解码可由预测处理单元152的相同组件或预测处理单元152内的不同组件执行。举例来说,在一些实施方案中可提供单独的纹理和深度解码器。并且,可提供多个纹理和深度解码器以对多个视图进行解码,例如用于多视图加深度译码。在任一情况下,预测处理单元152可经配置以对纹理数据和深度数据进行帧内或帧间解码,作为例如3D-HEVC过程的3D译码过程的部分。
因此,预测处理单元152可大体上根据MV-HEVC、SHVC或3D-HEVC而操作,经受本发明中所描述的修改和/或添加。预测处理单元152可经由熵解码单元150从用于经帧内解码或经帧间解码深度数据的经编码视频位流获得残余数据,且使用经帧内预测或经帧间预测深度数据和残余数据重构CU。在一些实例中,视频解码器30可包含比图7中所展示的功能组件更多、更少或不同的功能组件。
视频解码器30接收经编码视频位流。经译码图片缓冲器(CPB)151可接收且存储位流的经编码视频数据(例如,NAL单元)。存储在CPB 151中的视频数据可(例如)从计算机可读媒体16、从例如相机等本地视频源、经由视频数据的有线或无线网络通信或者通过存取物理数据存储媒体而获得。CPB 151可形成存储来自经编码视频位流的经编码视频数据的视频数据存储器。经解码图片缓冲器162可为参考图片存储器,其存储用于通过视频解码器30例如在帧内或帧间译码模式中对视频数据进行解码的参考视频数据。CPB 151和经解码图片缓冲器162可由多种存储器装置中的任一者形成,例如,动态随机存储器(DRAM)(包含同步DRAM(SDRAM))、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。CPB151和经解码图片缓冲器162可由相同存储器装置或单独的存储器装置提供。在各种实例中,CPB 151可与视频解码器30的其它组件一起在芯片上,或相对于那些组件在芯片外。
熵解码单元150剖析所述位流以从所述位流解码经熵编码的语法元素。在一些实例中,熵解码单元150可经配置以使用CABAC译码器以从位流中的位解码用于语法元素的二进位。熵解码单元150可使用CABAC译码器以解码用于不同译码模式的多种其它语法元素,所述不同译码模式包含帧内或帧间译码模式。
预测处理单元152、逆量化单元154、逆变换处理单元156、重构单元158和滤波器单元160可基于从位流提取的语法元素而产生经解码视频数据。位流可包括一系列NAL单元。位流的NAL单元可包含经译码切片的NAL单元。作为对位流进行编码的一部分,熵解码单元150可从经译码切片NAL单元提取语法元素并且对所述语法元素进行熵解码。位流的一些语法元素不经熵编码或解码。
经译码切片中的每一者可包含切片标头以及切片数据。切片标头可以含有关于切片的语法元素。切片标头中的语法元素可包含识别与含有切片的图片相关联的PPS的语法元素。PPS可参考SPS,SPS又可参考VPS。熵解码单元150还可对可包含语法信息的其它元素(例如SEI消息)进行熵解码。切片标头、参数集或SEI消息的任一者中的经解码语法元素可包含本文中描述为根据本发明中所描述的实例技术用信号表示的信息。可将此类语法信息提供到预测处理单元152,以用于解码和重构纹理或深度块。
视频解码器30可对未分割的CU和PU执行重构操作。为了执行重构操作,视频解码器30可对CU的每一TU执行重构操作。通过对CU的每一TU执行重构操作,视频解码器30可重构CU的块。作为对CU的TU执行重构操作的一部分,逆量化单元154可逆量化(即,解量化)与TU相关联的系数块。逆量化单元154可使用与TU的CU相关联的QP值来确定量化的程度和(同样)逆量化单元154将应用的逆量化的程度。也就是说,可通过调整当量化变换系数时所使用的QP的值来控制压缩比,即用以表示原始序列以及经压缩的序列的位的数目的比率。压缩比还可取决于所采用的熵译码的方法。
在逆量化单元154逆量化系数块之后,逆变换处理单元156可将一或多个逆变换应用于系数块以便产生与TU相关联的残余块。例如,逆变换处理单元156可以将逆DCT、逆整数变换、逆卡忽南-拉维(Karhunen-Loeve)变换(KLT)、逆旋转变换、逆定向变换或另一逆变换应用于系数块。
如果使用帧内预测对PU进行编码,那么帧内预测处理单元166可执行帧内预测以产生用于PU的预测性块。帧内预测处理单元166可使用帧内预测模式以基于空间相邻PU的预测块产生PU的预测性块(例如,明度、Cb及Cr预测性块)。帧内预测处理单元166可基于从位流解码的一或多个语法元素确定用于PU的帧内预测模式。
如果使用帧间预测来编码PU,那么MC单元164可执行帧间预测,以产生PU的帧间预测性块。MC单元164可使用帧间预测模式以基于其它图片或视图中的块产生PU的预测性块(例如,明度、Cb及Cr预测性块)。MC单元164可基于从位流解码的一或多个语法元素为所述PU确定帧间预测模式,且可接收运动信息,例如运动向量、预测方向和参考图片索引。
对于帧间预测,MC单元164可基于从位流提取的语法元素来构造第一参考图片列表(RefPicList0)和第二参考图片列表(RefPicList1)。如果PU使用帧间预测经编码,那么熵解码单元150可提取或确定所述PU的运动信息。MC单元164可基于所述PU的运动信息来确定用于所述PU的一或多个参考块。运动补偿(MC)单元164可基于在用于PU的一或多个参考块处的块中的样本而产生所述PU的预测性块(例如,明度、Cb及Cr预测性块)。
重构单元158可使用CU的TU的变换块(例如,明度、Cb和Cr变换块)以及CU的PU的预测性块(例如,明度、Cb和Cr预测性块)(即,在适用时,帧内预测数据或帧间预测数据)来重构CU的译码块(例如,明度、Cb和Cr译码块)。举例来说,重构单元158可将明度、Cb及Cr变换块的残余样本添加至预测性明度、Cb及Cr块的对应样本以重构CU的明度、Cb及Cr译码块。
滤波器单元160可执行解块操作以减少与CU的译码块(例如,明度、Cb及Cr译码块)相关联的成块假象。视频解码器30可将CU的译码块(例如,明度、Cb和Cr译码块)存储在经解码图片缓冲器162中。经解码图片缓冲器162可提供参考图片以用于后续运动补偿、帧内预测及在例如图1的显示装置32等显示装置上呈现。举例来说,视频解码器30可基于经解码图片缓冲器162中的明度、Cb及Cr块对其它CU的PU执行帧内预测或帧间预测操作。
本发明中描述的各种技术可由视频编码器20(图1和6)和/或视频解码器30(图1和7)执行,所诉视频编码器和/或视频解码器二者通常可被称作视频译码器。另外,视频译码在适用时可大体上涉及视频编码和/或视频解码。
虽然本发明的技术一般相对于MV-HEVC、SHVC和3D-HEVC而描述,但所述技术不一定以此方式受限制。上述技术也可以适用于其它当前标准或未来标准。
图8是说明根据本发明的一或多个技术的视频解码器30的实例操作的流程图。图8的操作和本发明的其它流程图的操作是作为实例而提供。根据本发明的技术的其它操作可包含更多、更少或不同动作。
在图8的实例中,视频解码器30接收包括多个基本流的视频数据流(200)。此外,视频解码器30在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元(202)。在此实例中,所述视频数据流可为输送流或节目流。无论所述基本流是否含有可缩放高效率视频译码(SHVC)、多视图HEVC(MV-HEVC)或3D-HEVC位流,都使用同一缓冲器模型用于组合存取单元。此外,在图8的实例中,视频解码器30可对所述存取单元进行解码(204)。存取单元可包括视频数据的一或多个图片。
图9是说明根据本发明的一或多个技术视频解码器30组合及解码存取单元的实例操作的流程图。在图9的实例中,视频解码器30可确定用于存取单元的基本流的集合(例如,节目元素)(250)。视频解码器30可以各种方式确定用于存取单元的基本流集合。
例如,视频解码器30可对当前操作点进行解码。在此实例中,HEVC扩展描述符可指定用于当前操作点的hevc_output_layer_flags。hevc_output_layer_flags指示特定层是否在用于当前操作点的输出层集合中。因此,在此实例中,视频解码器30可基于用于当前操作点的hevc_output_layer_flags而确定用于当前操作点的输出层集合。在此实例中,对于用于当前操作点的输出层集合中的每一相应输出层,视频解码器30可确定基本流的集合。为便于说明,本发明将所确定的基本流集合称为基本流的输出集合。基本流的输出集合中的每一相应基本流对应于当前操作点的相应输出层。
此外,在此实例中,基本流的输出集合的每一相应基本流与包含hierarchy_ext_embedded_layer_index字段的相应集合的相应阶层扩展描述符相关联。hierarchy_ext_embedded_layer_index字段的相应集合识别相应基本流的相依性基本流。视频解码器30将基本流的输出集合以及基本流的输出集合中的每一基本流的相依性基本流包含在用于存取单元的基本流的集合中。
此外,在图9的实例中,视频解码器30确定用于存取单元的基本流的集合是否包含任何未经处理基本流(252)。响应于确定用于存取单元的基本流的集合包含一或多个未经处理基本流(252的“是”),视频解码器30可从用于未经处理基本流中的一者(即,当前基本流)的HEVC层图片子集缓冲器移除HEVC层图片子集(254)。HEVC层图片子集的每一图片具有等于存取单元的解码时戳的解码时戳。视频解码器30可在经重新组合的存取单元中包含所述HEVC层图片子集(256)。当前基本流随后被认为经处理。视频解码器30接着可再次确定用于存取单元的基本流的集合是否包含一或多个未经处理基本流(252)。
如果不存在剩余未经处理基本流,那么视频解码器30在经重新组合的存取单元中已包含用于存取单元的基本流集合中的每一基本流的HEVC层图片子集。因此,响应于确定不存在剩余未经处理基本流(252的“否”),视频解码器30可对存取单元的图片进行解码(258)。
以下段落描述本发明的技术的各种实例。
实例1。一种处理视频数据的方法,所述方法包括针对关于MPEG-2系统的HEVC扩展流的载运,使用在同一基于层的模型中统一的SHVC、MV-HEVC和3D-HEVC缓冲器模型。
实例2。技术方案1的方法,其中所述缓冲器模型包含T-STD模型和P-STD模型。
实例3。实例1的方法,其中所述缓冲器模型类似于用于MVC的T-STD模型和P-STD模型。
实例4。一种处理视频数据的方法,所述方法包括针对关于MPEG-2系统的HEVC扩展流的载运,使用用于每一HEVC分层视频流的T-STD模型和/或P-STD模型,其中每一HEVC分层视频流对应于从HEVC分层视频子位流组合的操作点。
实例5。实例4的方法,其中HEVC分层视频子位流含有多个HEVC视频层子位流,所述多个HEVC视频层子位流含有具有nuh_layer_id(层识别符)的相同值的VCL NAL单元及其相关联非VCL NAL单元。
实例6。一种处理视频数据的方法,所述方法包括针对关于MPEG-2系统的HEVC扩展流的载运,当从T-STD或P-STD模型中的多个流组合存取单元内的HEVC层图片时,使用相关联阶层扩展描述符中指示的hierarchy_ext_embedded_layer_index值以识别对当前操作点的输出层进行解码所需的参考层。
实例7。一种处理视频数据的方法,所述方法包括针对关于MPEG-2系统的HEVC扩展流的载运,使用如当前HEVC MPEG-2系统中的HEVC定时和HRD描述符用于至少一些操作点。
实例8。实例7的方法,其中所述HEVC定时和HRD描述符可针对每一操作点存在。
实例9。实例7的方法,进一步包括在HEVC_extension_descriptor中在每一操作点的循环中使用HEVC定时和HRD描述符。
实例10。实例7到9中任一者的方法,其中此HEVC定时和HRD描述符针对共享待解码层的同一层识别符集合的操作点仅存在一次。
实例11。实例7到9中任一者的方法,其中此HEVC定时和HRD描述符针对全部输出层集合的全部操作点仅存在一次。
实例12。一种处理视频数据的方法,所述方法包括针对关于MPEG-2系统的HEVC扩展流的载运,使用层图片定界符NAL单元。
实例13。实例12的方法,其中所述层图片定界符NAL单元含有与HEVC中的NAL单元标头相同的语法结构且具有以下语法元素:forbidden_zero_bit、nal_unit_type、nuh_layer_id和nuh_temporal_id_plus1。
实例14。实例12的方法,其中所述层图片定界符NAL单元的nal_unit_type设定成0x30(即48)。
实例15。实例12的方法,其中在HEVC规范中被标记为“未指定”的0x30到0x3F(包含性)(即48到63(包含性))的范围内的不同NAL单元类型用于所述层图片定界符NAL单元。
实例16。实例12的方法,其中nuh_layer_id和nuh_temporal_id_plus1的值设定成等于其中VCL NAL单元紧跟随层图片定界符NAL单元的相关联图片的那些值。
实例17。实例16的方法,其中在具有等于0x26的stream_type的每一基本流中,确切一个LPD_nal_unit可在具有等于LPD_nal_unit的那些值的nuh_layer_id和nuh_temporal_id_plus1的值的全部NAL单元之前。
实例18。实例16的方法,其中nuh_layer_id和nuh_temporal_id_plus1的值固定为0和0。
实例19。实例16的方法,其中nuh_temporal_id_plus1设定成0以指示此NAL单元是层图片定界符NAL单元。
实例20。实例16的方法,wherien在具有等于0x26的stream_type的每一基本流中,确切一个LPD_nal_unit可在具有等于LPD_nal_unit的nuh_layer_id的值的全部NAL单元之前。
实例21。实例16的方法,其中在具有等于0x26的stream_type的每一基本流中,确切一个LPD_nal_unit可在具有属于HEVC层识别符集合的值的全部NAL单元之前,其中最小值等于LPD_nal_unit的nuh_layer_id。
实例22。一种组合视频数据的方法,其包括实例1到21的方法的任何组合。
实例23。一种方法,其包括实例1到21的方法的任何组合。
实例24。一种用于处理视频数据的装置,所述装置包括:存储器,其存储视频数据;以及一或多个处理器,其经配置以执行实例1到23中任一者的方法。
实例25。实例24的装置,其中所述装置是视频解码器。
实例26。实例24的装置,其中所述装置是视频编码器。
实例27。实例24的装置,其中所述装置是位流拼接装置。
实例28。实例24的装置,其中所述装置是媒体感知网络元件。
实例29。一种用于处理视频数据的装置,所述装置包括用于执行实例1到23中任一者的方法的装置。
实例30。实例29的装置,其中所述装置包括视频编码器或视频解码器。
实例31。一种非暂时性计算机可读存储媒体,其包括指令以致使视频处理装置的一或多个处理器执行实例1到23中任一者的方法。
在一或多个实例中,本文所述的功能可用硬件、软件、固件或其任何组合来实施。如果用软件实施,则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,所述计算机可读存储媒体对应于有形媒体,例如数据存储媒体或包含(例如)根据通信协议促进计算机程序从一位置传送至另一位置的任何媒体的通信媒体。以此方式,计算机可读媒体通常可对应于(1)有形计算机可读存储媒体,其是非暂时性的,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的期望程序代码并且可以由计算机存取的任何其它媒体。并且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
描述了各种实例。这些和其它实例属于所附权利要求书的范围内。

Claims (32)

1.一种对视频数据进行解码的方法,所述方法包括:
接收包括多个基本流的视频数据流;
在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:
所述视频数据流是输送流或节目流,且
无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及
对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。
2.根据权利要求1所述的方法,其中所述多个不同类型的多层经译码位流包含可缩放高效率视频译码SHVC、多视图HEVC MV-HEVC或3D-HEVC位流。
3.根据权利要求1所述的方法,其进一步包括:
使用用于所述视频数据流的每一相应HEVC分层视频流的所述缓冲器模型的单独实例来组合存取单元,其中:
每一相应HEVC分层视频流包括多个HEVC视频层子位流,且
所述多个HEVC视频层子位流中的每一相应HEVC视频层子位流包括具有相同层识别符值的视频译码层VCL网络抽象层NAL单元。
4.根据权利要求1所述的方法,其中:
所述视频数据流包含节目,
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的缓冲器,
所述存取单元包括用于所述相应基本流的相应HEVC层图片子集,
所述相应HEVC层图片子集包括所述存取单元的与相应层识别符集合相关联的HEVC层图片,
所述HEVC层图片中的每一者是如建议ITU-T H.265|ISO/IEC 23008-2附录F中界定的经译码图片,且
对于与所述节目相关联的每一相应基本流,组合所述存取单元包括:
从用于所述相应基本流的所述缓冲器移除用于所述相应基本流的所述相应HEVC层图片子集;以及
在所述存取单元中包含所述相应HEVC层图片子集。
5.根据权利要求4所述的方法,其中组合所述存取单元包括:
基于对应于当前操作点的输出层的描述符中的一或多个字段而识别对所述当前操作点的所述输出层进行解码所需的参考层。
6.根据权利要求4所述的方法,其中:
所述视频数据流是输送流,
对于与所述节目相关联的每一相应基本流:
用于所述相应基本流的所述缓冲器是用于所述相应基本流的第一缓冲器,
所述缓冲器模型包括用于所述相应基本流的第二缓冲器;且
所述方法进一步包括:对于属于所述相应基本流的所述输送流的每一相应经包化基本流PES包,将所述相应PES包存储在用于所述相应基本流的所述第二缓冲器中。
7.根据权利要求6所述的方法,其中:
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的第三缓冲器;且
所述方法进一步包括:
从用于所述相应基本流的所述第二缓冲器移除PES包;
在用于所述相应基本流的所述第三缓冲器中存储从用于所述相应基本流的所述第二缓冲器移除的所述PES包;
从用于所述相应基本流的所述第三缓冲器移除字节;以及
在用于所述相应基本流的所述第一缓冲器中存储从用于所述相应基本流的所述第三缓冲器移除的所述字节。
8.根据权利要求1所述的方法,其中:
所述视频数据流包含节目,且
所述方法进一步包括:响应于确定所述节目中存在HEVC层的集合且所述多个基本流中存在作为符合如ITU-T建议H.265|ISO/IEC 23008-2的附录G或附录H中界定的一或多个简档的HEVC扩展视频流的至少一个HEVC分层视频子位流,选择所述缓冲器模型以在组合所述存取单元中使用。
9.一种视频解码装置,其包括:
存储器,其经配置以存储视频数据;以及
一或多个处理器,其经配置以:
接收包括多个基本流的视频数据流;
在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:
所述视频数据流是输送流或节目流,且
无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及
对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。
10.根据权利要求9所述的视频解码装置,其中所述多个不同类型的多层经译码位流包含可缩放高效率视频译码SHVC、多视图HEVC MV-HEVC或3D-HEVC位流。
11.根据权利要求9所述的视频解码装置,其中所述一或多个处理器经配置以使用用于所述视频数据流的每一相应HEVC分层视频流的所述缓冲器模型的单独实例来组合存取单元,其中:
每一相应HEVC分层视频流包括多个HEVC视频层子位流,且
所述多个HEVC视频层子位流中的每一相应HEVC视频层子位流包括具有相同层识别符值的视频译码层VCL网络抽象层NAL单元。
12.根据权利要求9所述的视频解码装置,其中:
所述视频数据流包含节目,
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的缓冲器,
所述存取单元包括用于所述相应基本流的相应HEVC层图片子集,
所述相应HEVC层图片子集包括所述存取单元的与相应层识别符集合相关联的HEVC层图片,
所述HEVC层图片中的每一者是如建议ITU-T H.265|ISO/IEC 23008-2附录F中界定的经译码图片,且
作为组合所述存取单元的部分,对于与所述节目相关联的每一相应基本流,所述一或多个处理器:
从用于所述相应基本流的所述缓冲器移除用于所述相应基本流的所述相应HEVC层图片子集;以及
在所述存取单元中包含所述相应HEVC层图片子集。
13.根据权利要求12所述的视频解码装置,其中作为组合所述存取单元的部分,所述一或多个处理器:
基于对应于当前操作点的输出层的描述符中的一或多个字段而识别对所述当前操作点的所述输出层进行解码所需的参考层。
14.根据权利要求12所述的视频解码装置,其中:
所述视频数据流是输送流,
对于与所述节目相关联的每一相应基本流:
用于所述相应基本流的所述缓冲器是用于所述相应基本流的第一缓冲器,
所述缓冲器模型包括用于所述相应基本流的第二缓冲器;且
所述一或多个处理器经配置以针对属于所述相应基本流的所述输送流的每一相应经包化基本流PES包将所述相应PES包存储在用于所述相应基本流的所述第二缓冲器中。
15.根据权利要求14所述的视频解码装置,其中:
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的第三缓冲器;且
所述一或多个处理器经配置以:
从用于所述相应基本流的所述第二缓冲器移除PES包;
在用于所述相应基本流的所述第三缓冲器中存储从用于所述相应基本流的所述第二缓冲器移除的所述PES包;
从用于所述相应基本流的所述第三缓冲器移除字节;以及
在用于所述相应基本流的所述第一缓冲器中存储从用于所述相应基本流的所述第三缓冲器移除的所述字节。
16.根据权利要求9所述的视频解码装置,其中:
所述视频数据流包含节目,且
所述一或多个处理器进一步经配置以:响应于确定所述节目中存在HEVC层的集合且所述多个基本流中存在作为符合如ITU-T建议H.265|ISO/IEC 23008-2的附录G或附录H中界定的一或多个简档的HEVC扩展视频流的至少一个HEVC分层视频子位流,选择所述缓冲器模型以在组合所述存取单元中使用。
17.一种视频解码装置,其包括:
用于接收包括多个基本流的视频数据流的装置;
用于在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元的装置,其中:
所述视频数据流是输送流或节目流,且
无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及
用于对所述存取单元进行解码的装置,所述存取单元包括所述视频数据的一或多个图片。
18.根据权利要求17所述的视频解码装置,其中所述多个不同类型的多层经译码位流包含可缩放高效率视频译码SHVC、多视图HEVC MV-HEVC或3D-HEVC位流。
19.根据权利要求17所述的视频解码装置,其进一步包括:
用于使用用于所述视频数据流的每一相应HEVC分层视频流的所述缓冲器模型的单独实例来组合存取单元的装置,其中:
每一相应HEVC分层视频流包括多个HEVC视频层子位流,且
所述多个HEVC视频层子位流中的每一相应HEVC视频层子位流包括具有相同层识别符值的视频译码层VCL网络抽象层NAL单元。
20.根据权利要求17所述的视频解码装置,其中:
所述视频数据流包含节目,
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的缓冲器,
所述存取单元包括用于所述相应基本流的相应HEVC层图片子集,
所述相应HEVC层图片子集包括所述存取单元的与相应层识别符集合相关联的HEVC层图片,
所述HEVC层图片中的每一者是如建议ITU-T H.265|ISO/IEC 23008-2附录F中界定的经译码图片,且
对于与所述节目相关联的每一相应基本流,组合所述存取单元包括:
从用于所述相应基本流的所述缓冲器移除用于所述相应基本流的所述相应HEVC层图片子集;以及
在所述存取单元中包含所述相应HEVC层图片子集。
21.根据权利要求20所述的视频解码装置,其中组合所述存取单元包括:
基于对应于当前操作点的输出层的描述符中的一或多个字段而识别对所述当前操作点的所述输出层进行解码所需的参考层。
22.根据权利要求20所述的视频解码装置,其中:
所述视频数据流是输送流,
对于与所述节目相关联的每一相应基本流:
用于所述相应基本流的所述缓冲器是用于所述相应基本流的第一缓冲器,
所述缓冲器模型包括用于所述相应基本流的第二缓冲器;且
所述视频解码装置进一步包括用于针对属于所述相应基本流的所述输送流的每一相应经包化基本流PES包将所述相应PES包存储在用于所述相应基本流的所述第二缓冲器中的装置。
23.根据权利要求22所述的视频解码装置,其中:
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的第三缓冲器;且
所述视频解码装置进一步包括:
用于从用于所述相应基本流的所述第二缓冲器移除PES包的装置;
用于在用于所述相应基本流的所述第三缓冲器中存储从用于所述相应基本流的所述第二缓冲器移除的所述PES包的装置;
用于从用于所述相应基本流的所述第三缓冲器移除字节的装置;以及
用于在用于所述相应基本流的所述第一缓冲器中存储从用于所述相应基本流的所述第三缓冲器移除的所述字节的装置。
24.根据权利要求17所述的视频解码装置,其中:
所述视频数据流包含节目,且
所述视频解码装置进一步包括:用于响应于确定所述节目中存在HEVC层的集合且所述多个基本流中存在作为符合如ITU-T建议H.265|ISO/IEC 23008-2的附录G或附录H中界定的一或多个简档的HEVC扩展视频流的至少一个HEVC分层视频子位流而选择所述缓冲器模型以在组合所述存取单元中使用的装置。
25.一种计算机可读数据存储媒体,具有存储于其上的指令,所述指令当执行时致使视频解码装置:
接收包括多个基本流的视频数据流;
在缓冲器模型中从所述视频数据流的所述多个基本流组合存取单元,其中:
所述视频数据流是输送流或节目流,且
无论所述基本流是否含有多个不同类型的多层经译码位流中的任一者,都使用同一缓冲器模型来组合所述存取单元;以及
对所述存取单元进行解码,所述存取单元包括所述视频数据的一或多个图片。
26.根据权利要求25所述的计算机可读数据存储媒体,其中所述多个不同类型的多层经译码位流包含可缩放高效率视频译码SHVC、多视图HEVC MV-HEVC或3D-HEVC位流。
27.根据权利要求25所述的计算机可读数据存储媒体,所述指令进一步致使所述视频解码装置:
使用用于所述视频数据流的每一相应HEVC分层视频流的所述缓冲器模型的单独实例来组合存取单元,其中:
每一相应HEVC分层视频流包括多个HEVC视频层子位流,且
所述多个HEVC视频层子位流中的每一相应HEVC视频层子位流包括具有相同层识别符值的视频译码层VCL网络抽象层NAL单元。
28.根据权利要求25所述的计算机可读数据存储媒体,其中:
所述视频数据流包含节目,
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的缓冲器,
所述存取单元包括用于所述相应基本流的相应HEVC层图片子集,
所述相应HEVC层图片子集包括所述存取单元的与相应层识别符集合相关联的HEVC层图片,
所述HEVC层图片中的每一者是如建议ITU-T H.265|ISO/IEC 23008-2附录F中界定的经译码图片,且
作为组合所述存取单元的部分,对于与所述节目相关联的每一相应基本流,所述指令致使所述视频解码装置:
从用于所述相应基本流的所述缓冲器移除用于所述相应基本流的所述相应HEVC层图片子集;以及
在所述存取单元中包含所述相应HEVC层图片子集。
29.根据权利要求28所述的计算机可读数据存储媒体,其中作为组合所述存取单元的部分,所述指令致使所述视频解码装置:
基于对应于当前操作点的输出层的描述符中的一或多个字段而识别对所述当前操作点的所述输出层进行解码所需的参考层。
30.根据权利要求28所述的计算机可读数据存储媒体,其中:
所述视频数据流是输送流,
对于与所述节目相关联的每一相应基本流:
用于所述相应基本流的所述缓冲器是用于所述相应基本流的第一缓冲器,
所述缓冲器模型包括用于所述相应基本流的第二缓冲器;且
所述指令进一步致使所述视频解码装置针对属于所述相应基本流的所述输送流的每一相应经包化基本流PES包将所述相应PES包存储在用于所述相应基本流的所述第二缓冲器中。
31.根据权利要求30所述的计算机可读数据存储媒体,其中:
对于与所述节目相关联的每一相应基本流:
所述缓冲器模型包括用于所述相应基本流的第三缓冲器;且
所述指令进一步致使所述视频解码装置:
从用于所述相应基本流的所述第二缓冲器移除PES包;
在用于所述相应基本流的所述第三缓冲器中存储从用于所述相应基本流的所述第二缓冲器移除的所述PES包;
从用于所述相应基本流的所述第三缓冲器移除字节;以及
在用于所述相应基本流的所述第一缓冲器中存储从用于所述相应基本流的所述第三缓冲器移除的所述字节。
32.根据权利要求25所述的计算机可读数据存储媒体,其中:
所述视频数据流包含节目,且
所述指令进一步致使所述视频解码装置:响应于确定所述节目中存在HEVC层的集合且所述多个基本流中存在作为符合如ITU-T建议H.265|ISO/IEC 23008-2的附录G或附录H中界定的一或多个简档的HEVC扩展视频流的至少一个HEVC分层视频子位流,选择所述缓冲器模型以在组合所述存取单元中使用。
CN201580003851.4A 2014-01-08 2015-01-08 用于解码视频数据的方法、装置和计算机可读存储媒体 Active CN106063287B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461925191P 2014-01-08 2014-01-08
US61/925,191 2014-01-08
US14/591,649 US10567804B2 (en) 2014-01-08 2015-01-07 Carriage of HEVC extension bitstreams and buffer model with MPEG-2 systems
US14/591,649 2015-01-07
PCT/US2015/010559 WO2015105934A1 (en) 2014-01-08 2015-01-08 Carriage of hevc extension bitstreams and buffer model with mpeg-2 systems

Publications (2)

Publication Number Publication Date
CN106063287A true CN106063287A (zh) 2016-10-26
CN106063287B CN106063287B (zh) 2020-07-28

Family

ID=53496204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580003851.4A Active CN106063287B (zh) 2014-01-08 2015-01-08 用于解码视频数据的方法、装置和计算机可读存储媒体

Country Status (16)

Country Link
US (1) US10567804B2 (zh)
EP (1) EP3092814A1 (zh)
JP (1) JP6553054B2 (zh)
KR (1) KR102122110B1 (zh)
CN (1) CN106063287B (zh)
AU (1) AU2015204790C1 (zh)
CA (1) CA2932442C (zh)
CL (1) CL2016001719A1 (zh)
IL (1) IL246147B (zh)
MX (1) MX370171B (zh)
MY (1) MY189813A (zh)
PH (1) PH12016501217A1 (zh)
RU (1) RU2685233C2 (zh)
SA (1) SA516371468B1 (zh)
SG (2) SG11201604247UA (zh)
WO (1) WO2015105934A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110546960A (zh) * 2017-05-01 2019-12-06 真实网络公司 多层视频流传输系统和方法
CN111064948A (zh) * 2018-10-17 2020-04-24 耐能股份有限公司 影像深度解码器及计算机装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150103895A1 (en) * 2013-10-13 2015-04-16 Sharp Laboratories Of America, Inc. Electronic devices for signaling multiple initial buffering parameters
WO2015125489A1 (en) * 2014-02-24 2015-08-27 Sharp Kabushiki Kaisha Restrictions on signaling
CA2949826C (en) * 2014-05-21 2021-06-29 Arris Enterprises Llc Signaling and selection for the enhancement of layers in scalable video
CA2949823C (en) * 2014-05-21 2020-12-08 Arris Enterprises Llc Individual buffer management in transport of scalable video
US9699480B2 (en) * 2014-06-13 2017-07-04 Sharp Laboratories Of America, Inc. Level limits
US9998765B2 (en) 2014-07-16 2018-06-12 Qualcomm Incorporated Transport stream for carriage of video coding extensions
US10306269B2 (en) 2014-10-10 2019-05-28 Qualcomm Incorporated Operation point for carriage of layered HEVC bitstream
US20160112724A1 (en) * 2014-10-15 2016-04-21 Qualcomm Incorporated Hrd descriptor and buffer model of data streams for carriage of hevc extensions
US20160234528A1 (en) * 2015-02-09 2016-08-11 Arris Enterprises, Inc. Carriage of video coding for browsers (vcb) video over mpeg-2 transport streams
EP3313043B1 (en) * 2016-10-19 2019-08-07 Sandvine Incorporated ULC System and method for determining quality of a media stream
CN106782623A (zh) * 2017-01-12 2017-05-31 浙江新盛蓝科技有限公司 一种视频播放器
US10917650B2 (en) * 2018-07-11 2021-02-09 Cisco Technology, Inc. Resilient transmission of raw video streams over an IP communication network
GB2618718B (en) * 2019-03-20 2024-03-13 V Nova Int Ltd Low complexity enhancement video coding
EP3997869A4 (en) 2019-08-10 2022-10-26 Beijing Bytedance Network Technology Co., Ltd. SUBPICTURE DEPENDENT SIGNALING IN VIDEO STREAMS
BR112022013058A2 (pt) * 2020-03-25 2022-10-11 Panasonic Ip Corp America Codificador, decodificador, método de codificação e método de decodificação
CN113225584B (zh) * 2021-03-24 2022-02-22 西安交通大学 一种基于编码和缓存的跨层联合的视频传输方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102405646A (zh) * 2009-01-06 2012-04-04 Lg电子株式会社 三维(3d)视频信号的处理方法及执行该方法的数字广播接收机

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2661578C (en) 2006-08-24 2014-06-17 Nokia Corporation System and method for indicating track relationships in media files
GB0700381D0 (en) 2007-01-09 2007-02-14 Mitsubishi Electric Inf Tech Generalised Hypothetical Reference Decoder for Scalable Video Coding with Bitstream Rewriting
US9167246B2 (en) 2008-03-06 2015-10-20 Arris Technology, Inc. Method and apparatus for decoding an enhanced video stream
CN103202023A (zh) * 2010-10-25 2013-07-10 松下电器产业株式会社 编码方法、显示装置、解码方法
US9451252B2 (en) 2012-01-14 2016-09-20 Qualcomm Incorporated Coding parameter sets and NAL unit headers for video coding
WO2015009693A1 (en) 2013-07-15 2015-01-22 Sony Corporation Layer based hrd buffer management for scalable hevc
WO2015102959A1 (en) * 2014-01-02 2015-07-09 Vid Scale, Inc. Sub-bitstream extraction process for hevc extensions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102405646A (zh) * 2009-01-06 2012-04-04 Lg电子株式会社 三维(3d)视频信号的处理方法及执行该方法的数字广播接收机

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN Y 等: "Carriage of HEVC extension streams with MPEG-2 Systems", 《106. MPEG MEETING;2013.10.28-2013.11.01;GENEVA》 *
SAM NARASIMHAN 等: "Consideration of buffer management issues and layer management in HEVC", 《JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC)OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 13TH MEETING: INCHEON, KR, 18–26 APR. 2013》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110546960A (zh) * 2017-05-01 2019-12-06 真实网络公司 多层视频流传输系统和方法
CN110546960B (zh) * 2017-05-01 2022-09-06 真实网络公司 多层视频流传输系统和方法
CN111064948A (zh) * 2018-10-17 2020-04-24 耐能股份有限公司 影像深度解码器及计算机装置
CN111064948B (zh) * 2018-10-17 2022-03-29 耐能股份有限公司 影像深度解码器及计算机装置

Also Published As

Publication number Publication date
RU2685233C2 (ru) 2019-04-17
CL2016001719A1 (es) 2017-02-10
PH12016501217B1 (en) 2016-08-15
RU2016127197A3 (zh) 2018-07-02
AU2015204790A1 (en) 2016-06-16
BR112016015903A2 (pt) 2017-08-08
JP2017508339A (ja) 2017-03-23
CA2932442C (en) 2021-01-26
AU2015204790C1 (en) 2019-07-04
SG10201805774WA (en) 2018-08-30
AU2015204790B2 (en) 2019-01-31
PH12016501217A1 (en) 2016-08-15
MX370171B (es) 2019-12-04
NZ720689A (en) 2021-07-30
US10567804B2 (en) 2020-02-18
US20150195578A1 (en) 2015-07-09
KR20160106097A (ko) 2016-09-09
SG11201604247UA (en) 2016-07-28
CN106063287B (zh) 2020-07-28
RU2016127197A (ru) 2018-02-09
EP3092814A1 (en) 2016-11-16
IL246147A0 (en) 2016-07-31
MX2016008897A (es) 2016-09-16
MY189813A (en) 2022-03-09
WO2015105934A1 (en) 2015-07-16
CA2932442A1 (en) 2015-07-16
KR102122110B1 (ko) 2020-06-11
IL246147B (en) 2019-12-31
SA516371468B1 (ar) 2020-09-26
JP6553054B2 (ja) 2019-07-31

Similar Documents

Publication Publication Date Title
CN106063287A (zh) 关于mpeg‑2系统的hevc扩展位流的载运以及缓冲器模型
CN104054345B (zh) 对用于视频译码的参数集和nal单元标头进行译码
CN105794212B (zh) 一种处理多层视频数据的方法及装置
CN105637884B (zh) 多层视频文件格式设计的方法及装置
CN102804773B (zh) 在mpeg‑2系统中组合多视角视频译码子位流
CN106464935B (zh) 测试用于分割方案的hrd 参数的符合性的方法和装置
TWI692242B (zh) 用於高效率視訊寫碼延伸之承載之資料串流之假想參考解碼器描述符及緩衝器模型之設計
CN105409220B (zh) 用于视频译码的经解码图片缓冲器操作
CN102474655B (zh) 用信号传递多视角视频译码操作点的特性
CN103733623B (zh) 视频译码中用于各种维度的译码参数集
CN106797480A (zh) 用于分层hevc位流的运载的操作点
CN106170982A (zh) Hevc sei消息用于多层编解码器的一般使用
CN104885459B (zh) 用于多层译码的多分辨率经解码图片缓冲器管理
CN104641652A (zh) 用于视频译码的帧封装立体三维(3d)视频数据的指示
CN107105295A (zh) 用于高效视频译码(hevc)和扩展的视频参数集
CN106464917A (zh) 用信号表示用于位流分区的hrd参数
CN104685888A (zh) 补充增强信息消息译码
CN108353191A (zh) 在多层视频文件中支持随机存取及层与子层的切换
CN110089126A (zh) 用于视频的改进式限制方案设计
CN107251559B (zh) 一种处理视频数据的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1225208

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant