CN108886642B - 在高效率视频写码及分层高效率视频写码文件格式的图块分组的改进 - Google Patents

在高效率视频写码及分层高效率视频写码文件格式的图块分组的改进 Download PDF

Info

Publication number
CN108886642B
CN108886642B CN201780018727.4A CN201780018727A CN108886642B CN 108886642 B CN108886642 B CN 108886642B CN 201780018727 A CN201780018727 A CN 201780018727A CN 108886642 B CN108886642 B CN 108886642B
Authority
CN
China
Prior art keywords
tile
syntax element
tiles
file
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780018727.4A
Other languages
English (en)
Other versions
CN108886642A (zh
Inventor
伏努·亨利
王业奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108886642A publication Critical patent/CN108886642A/zh
Application granted granted Critical
Publication of CN108886642B publication Critical patent/CN108886642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明揭示一种装置,所述装置产生文件中的网络抽象层NAL单元映射项方块。所述NAL单元映射项方块使NAL单元与图块集相关联,所述图块集包含当前图片经分割成的多个图块中的两个或多于两个图块。由所述图块集覆盖的所述当前图片的区可为非矩形的。另外,所述装置产生所述文件中的图块集群组项。所述图块集群组项包含水平偏移、垂直偏移、宽度及高度。所述水平偏移规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移。所述垂直偏移规定所述最小矩形区的所述左上方像素的垂直偏移。所述宽度规定所述最小矩形区的宽度。所述高度规定所述最小矩形区的高度。

Description

在高效率视频写码及分层高效率视频写码文件格式的图块分 组的改进
本申请案主张在2016年3月30日提出申请的美国临时专利申请案62/315,575的权益,所述美国临时申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及视频写码及用于经写码的视频数据的文件格式。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌面计算机、平板计算机、电子书阅读器、数字摄像机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主机、蜂窝式或卫星无线电电话、所谓“智能电话”、视频电话会议装置、视频流式处理装置及其类似者。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分、高级视频写码(AVC)、ITU-T H.265/高效率视频写码(HEVC)所定义的标准及此些标准的延伸中所描述的那些技术。视频装置可通过实施此些视频压缩技术而更高效地发射、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。针对基于块的视频写码,可将视频分片(即,视频帧或视频帧的部分)分割成视频块,所述视频块也可被称作树块、写码单元(CU)及/或写码节点。图片的帧内写码(I)分片中的视频块为使用关于同一图片中的相邻块中的参考样本的空间预测来编码。图片的帧间写码(P或B)分片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
发明内容
本发明的一或多个方面涉及呈文件格式的视频内容的存储。举例来说,本发明的技术可改进HEVC及分层HEVC(L-HEVC,也简称为LHEVC)文件格式的图块的分组的处置。
在一个实例中,本发明描述一种用于存储视频数据的方法,所述方法包括:通过文件产生装置,接收位流,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;通过所述文件产生装置,产生文件中的网络抽象层(NAL)单元映射项方块,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及通过所述文件产生装置,产生所述文件中的图块集群组项,所述图块集群组项包含识别所述图块集的一群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
在另一实例中,本发明描述一种处理存储经编码视频数据的文件的方法,所述方法包括:通过文件处理装置,获得文件中的网络抽象层(NAL)单元映射项方块,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;通过所述文件处理装置,获得所述文件中的图块集群组项,所述图块集群组项包含识别所述图块集的群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集。
在另一实例中,本发明描述一种用于产生用于存储视频数据的文件的装置,所述装置包括:存储器,其经配置以存储用于存储视频内容的文件;及一或多个处理器,其经配置以:接收位流,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;产生所述文件中的网络抽象层(NAL)单元映射项方块,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及产生所述文件中的图块集群组项,所述图块集群组项包含识别所述图块集的群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
在另一实例中,本发明描述一种用于处理存储经编码视频数据的文件的装置,所述装置包括:存储器,其经配置以存储用于存储视频内容的文件;及一或多个处理器,其经配置以:获得文件中的网络抽象层(NAL)单元映射项方块,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;获得所述文件中的图块集群组项,所述图块集群组项包含识别所述图块集的群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集。
在另一实例中,本发明描述一种用于产生用于存储视频数据的文件的装置,所述装置包括:用于接收位流的装置,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;用于产生文件中的网络抽象层(NAL)单元映射项方块的装置,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及用于产生所述文件中的图块集群组项的装置,所述图块集群组项包含识别所述图块集的群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
在另一实例中,本发明描述一种用于处理存储经编码视频数据的文件的装置,所述装置包括:用于获得文件中的网络抽象层(NAL)单元映射项方块的装置,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;用于获得所述文件中的图块集群组项的装置,所述图块集群组项包含识别所述图块集的群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及用于基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集的装置。
在另一实例中,本发明描述一种计算机可读数据存储媒体,其上存储有指令,所述指令在经执行时配置装置以:接收位流,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;产生文件中的网络抽象层(NAL)单元映射项方块,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及产生所述文件中的图块集群组项,所述图块集群组项包含识别所述图块集的群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
在另一实例中,本发明描述一种计算机可读数据存储媒体,其上存储有指令,所述指令在经执行时配置装置以:通过文件处理装置,获得文件中的网络抽象层(NAL)单元映射项方块,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;通过所述文件处理装置,获得所述文件中的图块集群组项,所述图块集群组项包含识别所述图块集的群组识别符语法元素,所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集。
下文的随附图式及描述中阐明本发明的一或多个实例的细节。根据描述、图式以及权利要求书将明了其它特征、目的及优点。
附图说明
图1为说明可使用本发明中所描述的技术的实例性视频编码及解码系统的框图。
图2为说明实例性图块及分片的概念图。
图3为说明其中网络抽象层(NAL)单元包含多个图块的实例的概念图。
图4为根据本发明的一或多种技术说明包含由含有图块集的最小矩形区域限界的图块集的实例性图片的概念图。
图5为说明覆盖不同层中的相同区域的图块集的概念图。
图6为说明可实施本发明中所描述的技术的实例性视频编码器的框图。
图7为说明可实施本发明中所描述的技术的实例性视频解码器的框图。
图8为根据本发明的一或多个技术说明文件的实例性结构的概念图。
图9为根据本发明的一或多个技术说明文件的实例性结构的概念图。
图10为根据本发明的一或多个技术说明图块集项群组的概念图。
图11为根据本发明的技术说明用于产生与存储视频数据的文件的程序的实例的流程图。
图12为根据本发明的技术说明用于处理存储经编码视频数据的文件的程序的实例的流程图。
具体实施方式
国际标准化组织(ISO)基础媒体文件格式(ISOBMFF)及从ISO基础媒体文件格式导出的文件格式经设计用于视频内容的存储。ISOBMFF已经扩展以与各种视频编码标准(例如H.265、高效率视频写码(HEVC)、H.264/AVC及其它视频编码标准)一起工作。
图片可经分割成称作“图块”的矩形区。在一些情况中,可能期望仅读取一系列图片的特定图块的网络抽象层(NAL)单元。举例来说,可能期望发射包含图片的上半部的经编码块的NAL单元而不发射包含图片的下半部的经编码块的NAL单元。然而,ISOBMFF格式的扩展部分中的机制具有可能降低从文件存取特定于图块及图块集的信息的效率的数个问题。本发明的技术可改进存取此信息的效率。
举例来说,文件产生装置可接收包含形成视频数据的经编码图片的表示的位序列的位流。在此实例中,视频数据的图片包含当前图片,所述当前图片经分割成多个图块,且所述多个图块中的每一相应图块为相应矩形区。此外,在此实例中,文件产生装置可产生文件中的NAL单元映射项方块。NAL单元映射项方块可使位流的NAL单元与图块集相关联。图块集包含当前图片经分割成的多个图块中的两个或多于两个图块。此外,在一些情况中,由图块集中的图块覆盖的当前图片的区的形状并非矩形。另外,在此实例中,文件产生装置可产生文件中的图块集群组项。在此实例中,图块集群组项包含识别图块集的群组识别符语法元素。图块集群组项可包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素。水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。宽度语法元素规定覆盖图块集中的图块的最小矩形区的宽度。高度语法元素规定覆盖图块集中的图块的最小矩形区的高度。
图1为说明可使用本发明中所描述的技术的实例性视频编码及解码系统10的框图。如图1中所展示,系统10包含源装置12,所述源装置产生欲稍后由目的地装置14进行解码的经编码视频数据。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌面计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手机(例如,所谓“智能型”电话)、所谓“智能型”板、电视机、相机、显示装置、数字媒体播放器、视频游戏主机、视频流式处理装置,或其类似者。在一些状况中,源装置12及目的地装置14可经配备以用于无线通信。因此,源装置12及目的地装置14可被视为无线通信装置。源装置12及目的地装置14可被视为视频装置。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一些状况下,输出接口22可包含调制器/解调制器(调制解调器)及/或发射器。在源装置12中,视频源18可包含来源,例如视频捕获装置(例如,视频相机)、含有先前所捕获视频的视频封存、用以接收来自视频内容提供商的视频的视频馈送接口,及/或用于产生计算机图形数据作为源视频的计算机图形系统,或此些来源的组合。然而,本发明中所描述的技术通常可应用于视频写码,且可应用于无线及/或有线应用。
视频编码器20可对所捕获、预捕获或计算机产生视频进行编码。源装置12可经由源装置12的输出接口22将经编码视频数据直接发射到目的地装置14。经编码视频数据也可(或替代地)被存储在存储装置33上供由目的地装置14或其它装置稍后存取以用于解码及/或播放。
目的地装置14包含输入接口28、视频解码器30及显示装置32。此外,在图1的实例中,目的地装置14包含存储媒体29及文件剖析单元31。在一些状况下,输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28可经由链路16接收经编码视频数据。经由链路16通信或提供在存储装置33上的经编码视频数据可包含由视频编码器20产生供由视频解码器(例如,视频解码器30)用于对视频数据进行解码的各种语法元素。此些语法元素可与在通信媒体上发射的经编码视频数据一起被包含,被存储在存储媒体上,或存储在文件服务器上。
文件剖析单元31可获得文件并以各种方式处理文件。例如,文件剖析单元31可剖析文件以从文件获得信息。因此,实施文件剖析单元31的装置可被称作文件处理装置。尽管展示为目的地装置14的部分,但文件剖析单元31可与目的地装置14分离。举例来说,文件剖析单元31可实施于网络装置中,例如媒体感知网络组件(MANE)、内容递送网络装置或另一类型的网络实体。
显示装置32可与目的地装置14整合或可在目的地装置14外部。在一些实例中,目的地装置14可包含整合式显示装置且也可经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32向用户显示经解码视频数据,且可包括各种显示装置中的任一者,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20及视频解码器30各自可实施为各种适合编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、特殊应用集成电路(ASIC)、场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任一组合。当技术部分地以软件实施时,装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中且在硬件中使用一或多个处理器来执行指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可被包含在一或多个编码器或解码器中,其中的任一者可整合为相应装置中的组合式视频编码/解码器(CODEC)的部分。
本发明可通常是指“发信”某一信息,例如语法元素。术语“发信”可通常是指用于解码经编码视频数据的语法元素及/或其它数据的通信。此通信可实时或近实时发生。替代地,此通信可在时间跨度中发生,例如可当在编码时将语法元素存储到计算机可读存储媒体在位流中时发生,所述语法元素然后可在被存储到此媒体之后的任何时间由解码装置撷取。
目的地装置14可接收待经由链路16解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16可包括通信媒体以使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14。可根据通信标准(例如,无线通信协议)来调变经编码视频数据,并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如,射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于数据包的网络的部分,例如局域网络、广域网或例如因特网的全球网络。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的任何其它装置。
替代地,输出接口22可将经编码数据输出到存储装置33。类似地,输入接口28可存储经编码数据存储装置33。存储装置33可包含各种分布式或本地存取数据存储媒体中的任何者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它适于存储经编码视频数据的数字存储媒体。在又一实例中,存储装置33可对应于文件服务器或可保持由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式处理或下载从存储装置33存取所存储视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例性文件服务器包含web服务器(例如,用于网站)、文件传送协议(FTP)服务器、网络附加存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等等),或适于存取存储于文件服务器上的经编码视频数据的两者的组合。来自存储装置33的经编码视频数据的发射可为流式处理发射、下载发射或其组合。
本发明的技术未必限于无线应用或设置。所述技术可应用于支持各种多媒体应用中的任何者的视频写码,例如空中发射电视广播、有线电视发射、卫星电视发射、流式处理视频发射(例如,经由因特网),对数字视频数据进行编码以用于存储在数据存储媒体上、对存储于数据存储媒体上的数字视频数据解码或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射以支持例如视频流式处理、视频播放、视频广播及/或视频电话的应用。
此外,在图1的实例中,视频写码系统10包含文件产生装置34。文件产生装置34可接收由源装置12产生的经编码视频数据。文件产生装置34可产生包含经编码视频数据的文件。目的地装置14可接收由文件产生装置34产生的文件。在各种实例中,文件产生装置34可包含各种类型的计算装置。举例来说,文件产生装置34可包括视频编码装置、媒体感知网络组件(MANE)、服务器计算装置、个人计算装置、特殊用途计算装置、商业计算装置或另一类型的计算装置。在一些实例中,文件产生装置34为内容递送网络的部分。在一些实例中,文件产生装置34经实施为源装置12的部分。文件产生装置34可经由例如链路16的信道从源装置12接收经编码视频数据。此外,目的地装置14可经由例如链路16的信道从文件产生装置34接收文件。文件产生装置34可被视为视频装置。如图1的实例中所展示,文件产生装置34可包括存储器36,所述存储器经配置以存储含有经编码视频内容的文件。在一些实例中,文件产生装置34可实施于电路或硬件电路与软件的组合中。
在其它实例中,源装置12或另一计算装置可产生包含经编码视频数据的文件。然而,为便于解释,本发明将文件产生装置34描述为产生文件。然而,应理解,对产生文件的文件产生装置34的描述通常适用于计算装置。在一些实例中,MANE、服务器或其它类型的装置可包括经配置以存储根据本发明的技术产生的文件的存储器。此装置可处理文件(例如,通过从文件获得语法元素)并将所获得语法元素用于各种用途,例如用于将文件内的特定内容转发到另一装置(例如目的地装置14)。
视频编码器20及视频解码器30可根据视频压缩标准(例如高效率视频写码(HEVC)标准或其扩展)操作。HEVC标准也可被称作ISO/IEC 23008-2。HEVC的设计已由ITU-T视频写码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频写码联合协作团队(JCT-VC)完成。视频编码器20及视频解码器30可根据此些标准或其它标准中的或多者操作。此些其它视频写码标准包含ITU-TH.261、ISO/IEC MPEG-1可视化、ITU-T H.262或ISO/IEC MPEG-2可视化、ITU-TH.263、ISO/IEC MPEG-4可视化、ITU-T H.264或ISO/IEC MPEG-4AVC,包含其可缩放视频写码(SVC)及多视图视频写码(MVC)扩展。
替代地,视频编码器20及视频解码器30可根据其它专有或行业标准(例如ITU-TH.264标准(替代地被称作MPEG-4,第10部分高级视频编码(AVC))或此些标准的扩展)操作。然而,本发明的技术并不限于任何特定写码标准。视频压缩标准的其它实例包含ITU-TH.261、ISO/IEC MPEG-1可视化、ITU-T H.262或ISO/IEC MPEG-2可视化、ITU-T H.263、ISO/IEC MPEG-4可视化及ITU-T H.264(也被称作ISO/IEC MPEG-4AVC),包含其可缩放视频写码(SVC)及多视图视频写码(MVC)扩展。
一般来说,在HEVC中,视频帧或图片可被划分成包含亮度样本及色度样本两者的树块或最大写码单元(LCU)序列。树块也可被称作写码树单元(CTU)。树块具有与H.264/AVC标准的宏块相似的用途。分片包含呈写码次序的多个连续树块。视频帧或图片可分割成一或多个分片。每一树块可根据四元树拆分成写码单元(CU)。举例来说,树块作为四元树的根节点可被拆分成四个子节点,且每一子节点又可为父节点且被拆分成另外四个子节点。最终不可拆分的子节点(作为四元树的叶节点)包括写码节点,即,经写码视频块。与经写码位流相关联的语法数据可定义树块可拆分的最大次数,且也可定义写码节点的最小尺寸。
CU包含写码节点及与写码节点相关联的预测单元(PU)及变换单元(TU)。CU的尺寸对应于写码节点的尺寸且必须为正方形形状。CU的尺寸的范围可介于从8×8个像素直到具有最大64×64个像素或更大的CTU的尺寸。每一CU可含有一或多个PU及一或多个TU。例如,与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU为跳跃模式编码或直接模式编码、帧内预测模式编码或帧间预测模式编码之间不同。PU可被分割成非正方形形状。举例来说,与CU相关联的语法数据也可描述根据四元树将CU分割成一或多个TU。TU的形状可为正方形或非正方形。
HEVC标准允许根据TU而变换,所述TU可针对不同CU而不同。TU的尺寸通常为基于针对所分割LCU定义的给定CU内的PU尺寸而定,但状况可能并非始终如此。TU的尺寸通常与PU相同或小于PU。在一些实例中,可使用称作“残余四元树”(RQT)的四元树结构将对应于CU的残余样本细分成较小单元。RQT的叶节点可被称作TU。可变换与TU相关联的像素差值以产生可经量化的变换系数。
一般来说,PU包含与预测程序相关的数据。举例来说,当PU为帧内模式编码时,PU可包含描述PU的帧内预测模式的数据。作为另一实例,当PU为帧间模式编码时,PU可包含定义关于PU的一或多个运动矢量的数据。定义关于PU的运动矢量的数据可(例如)描述运动矢量的水平分量、运动矢量的垂直分量、运动矢量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动矢量指向的参考图片,及/或运动矢量的参考图片列表(例如,列表0、列表1)。
一般来说,TU用于变换及量化程序。具有一或多个PU的给定CU也可包含一或多个TU。在预测之后,视频编码器20可计算对应于PU的残余值。残余值包括像素差值,所述像素差值可经变换成变换系数、经量化,及使用TU扫描以产生用于熵写码的串行变换系数。本发明通常使用术语“视频块”来指代CU的写码节点(即,写码块)。在一些特定状况下,本发明也可使用术语“视频块”来指代树块,即,LCU或CU,其包含写码节点及PU以及TU。
视频序列通常包含一系列视频帧或图片。图片的每一分片可包含描述相应分片的编码节点的帧语法数据。视频编码器20通常在个别视频分片内的视频块上操作以便对视频数据进行编码。视频块可对应于CU内的写码节点。视频块可具有固定或变化尺寸,且其尺寸可根据规定的写码标准而不同。
在使用CU的PU进行帧内预测或帧间预测写码之后,视频编码器20可计算关于CU的TU的残余数据。PU可在空间域(也被称作像素域)中包括像素数据且TU可在应用变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似于残余视频数据的变换)之后在变换域中包括系数。残差数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含关于CU的残差数据的TU,且接着变换TU以产生关于CU的变换系数。
在用以产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化通常是指其中将变换系数量化以可能减少用于表示系数的数据的量,从而提供进一步压缩的程序。量化程序可减少与系数中的些或全部相关联的位深度。
在扫描经量化变换系数以形成单维矢量之后,视频编码器20可(例如)根据上下文自适应可变长度写码(CAVLC)、上下文自适应二进制算法写码(CABAC)、基于语法的上下文自适应二进制算法编码(SBAC)、概率区间分割熵(PIPE)写码或另一熵编码方法对单维矢量进行熵编码。视频编码器20也可对与在解码视频数据中供由视频解码器30使用的经编码视频数据相关联的语法元素进行熵编码。
视频编码器20可输出包含形成经写码图片及相关联数据的表示的位序列的位流。术语“位流”可为用于指代网络抽象层(NAL)单元流(例如,NAL单元序列)或字节流(例如,如HEVC标准的附件B规定的含有起始码前缀及NAL单元的NAL单元流的囊封)的集合术语。NAL单元为语法结构,含有所述NAL单元中的数据的类型的指示以及含有呈视情况穿插有仿真阻止位(emulation prevention bit)的原始字节序列有效负载(RBSP)形式的所述数据的字节。NAL单元中的每一者可包含NAL单元标头且可囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头规定的NAL单元类型码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数个字节的语法结构。在一些情况中,RBSP包含零位。
不同类型的NAL单元可囊封不同类型的RBSP。例如,第一类型的NAL单元可囊封图片参数集(PPS)的RBSP,第二类型的NAL单元可囊封分片区段的RBSP,第三类型的NAL单元可囊封互补增强信息(SEI)的RBSP,等等。囊封视频写码数据的RBSP(与参数集及SEI讯息的RBSP相反)的NAL单元可被称作视频写码层(VCL)NAL单元。除VCL NAL单元外的NAL单元可被称作非VCL NAL单元。含有参数集(例如,视频参数集(VPS)、序列参数集(SPS)、PPS,或其它类型的参数集)的NAL单元可被称作参数集NAL单元。
本发明可将囊封区段分片的RBSP的NAL单元称作为经写码分片NAL单元。如HEVC中所定义,分片区段为在图块扫描中连续排序且含于单个NAL单元中的整数个CTU。相比来说,在HEVC中,分片可为一个独立分片区段及同一存取单元内在下一独立分片区段(如果存在)之前的所有随后的依赖分片区段(如果存在)中所含的整个数目个CTU。独立分片区段为分片区段标头的语法元素的值并非从前一分片区段的值推断出的分片区段。依赖分片区段为分片区段标头的一些语法元素的值是从解码次序中的前一独立分片区段的值推断出的分片区段。经写码分片NAL单元的RBSP可包含分片区段标头及分片数据。分片区段标头为含有关于分片区段中所表示的第一或全部CTU的数据元素的经写码分片区段的部分。分片标头为独立分片区段的分片区段标头,所述独立分片区段为当前分片区段或在解码次序中在当前依赖分片区段的前的最新独立分片区段。
视频解码器30可接收由视频编码器20产生的位流。另外,视频解码器30可剖析位流以从位流获得语法元素。视频解码器30可至少部分地基于从位流获得的语法元素来重建构视频数据的图片。用以重建构视频数据的程序可通常与由视频编码器20执行的程序互逆。举例来说,视频解码器30可使用PU的运动矢量来确定用于当前CU的PU的预测性块。另外,视频解码器30可反量化当前CU的TU的系数块。视频解码器30可对系数块执行反变换以重建构当前CU的TU的变换块。视频解码器30可通过将用于当前CU的PU的预测性块的样本添加至当前CU的TU的变换块的对应样本来重建构当前CU的写码块。通过重建构用于图片的每一CU的写码块,视频解码器30可重建构图片。
如上文所论述,视频编码器20可产生包括一系列NAL单元的位流。在多层视频写码中,位流的不同NAL单元可与位流的不同层相关联。层可被定义为一组具有相同层识别符的VCL NAL单元及相关联非VCL NAL单元。举例来说,NAL单元可包含标头(即,NAL单元标头)及有效负载(例如,RBSP)。NAL单元标头可包含层识别符语法元素(例如,HEVC中的nuh_layer_id语法元素)。具有规定不同值的层识别符语法元素的NAL单元属于位流的不同“层”。因此,在多层写码(例如,MV-HEVC、SVC或SHVC)中,NAL单元的层识别符语法元素规定NAL单元的层识别符(即,层ID)。
层可等效于多视图视频写码中的视图。在多视图视频写码中,层可含有同一层的所有视图分量,视图分量具有不同时间实例(例如,不同输出时间)。在多层视频写码中,术语“存取单元”可指对应于同一时间实例的图片的集合。举例来说,存取单元中的所有图片可具有相同输出时间。因此,“视图分量”可为单个存取单元中的视图的经编码表示。
在一些实例中,视图分量可包括纹理视图分量(即,纹理图片)或深度视图分量(即,深度图片)。在多视图视频写码的一些实例中,层含有特定视图的经写码深度图片或特定视图的经写码纹理图片,但不含深度图片及纹理图片两者。在多视图视频写码的其它实例中,层含有特定视图的纹理视图分量及深度视图分量两者。
在可缩放视频写码的上下文中,层通常对应于具有不同于其它层中的经写码图片的视频特性的经写码图片。此些视频特性通常包含空间分辨率及质量水平(例如,信噪比)。
针对位流的每一相应层,无需参考任何较高层中的数据即可对较低层中的数据进行解码。在可缩放视频写码中,例如,无需参考增强层中的数据即可对基础层中的数据进行解码。一般来说,NAL单元可仅囊封单个层的数据。因此,囊封位流的最高剩余层(例如,与最高层识别符相关联的层)的数据的NAL单元可从位流移除,而不影响位流的剩余层中的数据的可解码性。在多层视频写码中,如果视频解码器无需参考任何其它层的数据即可对层中的图片进行解码,那么所述层可被称作“基础层”。在HEVC及其它视频写码规范中,如果NAL单位在基础层中,那么所述NAL单元的层识别符等于0。如果NAL单元在多层写码中不与基础层相关,那么NAL单元的层识别符可具有非零值。
在可缩放视频写码中,除基础层外的层可被称作“增强层”且可提供增强从位流解码的视频数据的视觉质量的信息。可缩放视频写码可增强空间分辨率、信噪比(即,质量)或时间速率。
多层视频写码可支持层间预测。层间预测类似于HEVC及其它视频写码规范中所使用的帧间预测,且可使用相同语法元素。然而,当视频写码器对当前视频单元(例如PU)执行层间预测时,视频写码器可使用与当前视频单元在同一存取单元中、但在不同层中的图片作为参考图片。相比来说,习知帧间预测仅使用不同存取单元中的图片作为参考图片。当对非基础层中的一者中的图片进行写码时,如果图片在不同层中,但在与视频写码器当前正写码的图片在同一时间实例(即,存取单元)内,那么视频写码器可将所述图片添加到参考图片列表中。
此外,可在无需参考同一层内的其它图片的情况下将层内之一些图片解码。因此,可将囊封层的某些图片的数据的NAL单元从位流移除而不影响层中的其它图片的可解码性。将囊封此些图片的数据的NAL单元移除可降低位流的帧速率。可在无需参考层内的其它图片的情况解码的层内的图片子集可在本文中被称作“子层”、“时间层”或“时间子层”。因此,可通过将具有特定时间水平的图片群组定义为子层(即,时间层)来在一个层内实现时间可缩放性。
NAL单元可包含时间识别符(例如,HEVC中的temporal_id)语法元素。NAL单元的时间识别符语法元素规定NAL单元的时间识别符。NAL单元的时间识别符识别NAL单元与其相关联的时间子层。因此,位流的每一时间子层可与不同时间识别符相关联。如果第一NAL单元的时间识别符小于第二NAL单元的时间识别符,那么可在无需参考由第二NAL单元囊封的数据的情况下解码由第一NAL单元囊封的数据。
位流可与多个操作点相关联。在一些实例中,位流的每一操作点可与层识别符集(例如,nuh_layer_id值集)及时间识别符相关联。层识别符集可标示为OpLayerIdSet且时间识别符可标示为TemporalID。如果NAL单元的层识别符在操作点的层识别符集中且NAL单元的时间识别符小于或等于操作点的时间识别符,NAL单元与操作点相关联。因此,操作点可为通过子位流提取程序的操作从另位流形成的位流,其中另位流、目标最高TemporalId及目标层识别符列表作为子位流提取程序的输入。操作点可包含与操作点相关联的每一NAL单元。安置点不包含不与操作点相关联的VCL NAL单元。
现在将简略地论述文件格式及文件格式标准。文件格式标准包含ISO基本媒体文件格式(“信息技术—视听对象写码—第12部分:ISO基本媒体文件格式(Informationtechnology—Coding of audio-visual objects—Part 12:ISO basemedia fileformat),”ISO/IEC 14496-12,2015年2月20日第五版,下文中为“ISO/IEC14996-12”)及从ISOBMFF导出的其它文件格式标准,包含MPEG-4文件格式(“ISO/IEC14496-14”“信息技术—视听对象写码—第14部分:MP4文件格式(Informationtechnology—Coding of audio-visual objects—Part14:MP4 file format)”,ISO/IEC14496-14,2003年11月15日第一版,下文中为“ISO/IEC 14496-14”),3GPP文件格式(3GPPTS 26.244)及关于基于网络抽象层(NAL)单元的视频压缩的文件格式(“信息技术—视听对象写码—第15部分:ISO基本媒体文件格式的网络抽象层(NAL)单元结构化视频的载送”ISO/IEC 14496-15:2014(E),下文中为“ISO/IEC 14996-15”)。因此,ISO/IEC 14496-12规定ISO基本媒体文件格式。其它文件扩展ISO基本媒体文件格式用于特定应用。举例来说,ISO/IEC 14496-15描述ISO基本媒体文件格式的NAL单元结构化视频的载送。H.264/AVC及HEVC以及其扩展为NAL单元结构化视频的实例。ISO/IEC 14496-15包含描述H.264/AVC NAL单元的载送的章节。另外,ISO/IEC 14496-15的第8章描述HEVC NAL单元的载送。因此,ISO/IEC 14496-15的第8章被认为描述HEVC文件格式。在第114届MPEG会议之后,基于从数个国家机构接收的评论,制备含有将应用于新版本的ISO/IEC 14496-15规范草案的对ISO/IEC14496-15的一些改变的处置文件。此处置文件被称作“MPEG输出文件N15297”。
ISOBMFF用作许多编解码囊封格式(例如AVC文件格式)以及许多多媒体容器格式(例如,MPEG-4文件格式、3GPP文件格式(3GP)及DVB文件格式)的基础。除连续媒体(例如音频及视频)外,静态媒体(例如图像以及元数据)也可被存储在符合于ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多用途,包含本地媒体文件播放,远程文件的渐进式下载、用于经由HTTP的动态自适性流(DASH)的区段、用于欲流式处理的内容及其数据包指令的容器,及对所接收实时媒体流的记录。因此,尽管起初经设计用于存储,但ISOBMFF已证明对流(例如,对渐进式下载或DASH)有价值。出于流式处理目的,可使用ISOBMFF中定义的影片片段。除连续媒体(例如音频及视频)外,静态媒体(例如图像以及元数据)也可被存储在符合于ISOBMFF的文件中。
符合HEVC文件格式的文件可包括称作方块的一系列对象。方块可为由唯一类型识别符及长度定义的面向对象建构块。方块为ISOBMFF中的基础语法结构且可包含四字符写码方块类型、方块的字节计数及有效负载。换句话说,方块可为包括写码方块类型、方块的字节计数及有效负载的语法结构。在一些情况中,符合HEVC文件格式的文件中的所有数据可被含在方块内且未在方块中的文件中可能不存在任何数据。因此,ISOBMFF文件由方块序列组成,且方块可含有其它方块。举例来说,方块的有效负载可包含一或多个额外方块。图8及图9(在本发明的别处详细地描述)根据本发明的一或多种技术展示文件内的实例性方块。
符合ISOBMFF的文件可包含各种类型的方块。例如,符合ISOBMFF的文件可包含文件类型方块、媒体数据方块、电影方块、电影片段方块等等。在此实例中,文件类型方块包含文件类型及兼容性信息。媒体数据方块可含有样本(例如,经写码图片)。电影方块(“moov”)含有关于存在于文件中的连续媒体流的元数据。连续媒体流在文件中可表示为音轨。举例来说,电影方块可含有关于电影的元数据(例如,样本之间的逻辑及定时关系,且也含有样本的位置的指针)。电影方块可包含数个类型的子方块。电影方块中的子方块可包含一或多个音轨方块。音轨方块可包含关于电影的个别音轨的信息。音轨方块可包含规定单个音轨的整个信息的音轨标头方块。另外,音轨方块可包含含有媒体信息方块的媒体方块。媒体信息方块可包含含有音轨中的媒体样本的数据索引的样本表方块。样本表方块中的信息可用于及时定位样本,且针对音轨的样本中的每一者,确定样本的类型、大小、容器及到所述容器的偏移。因此,关于音轨的元数据经封围于音轨方块(“trak”)中,而音轨的媒体内容经封围于媒体数据方块(“mdat”)中或直接封围于单独文件中。音轨的媒体内容包括样本序列(例如音频或视频存取单元)或由样本序列(例如音频或视频存取单元)组成。
ISOBMFF规定以下类型的音轨:媒体音轨,其含有基础媒体流;提示音轨,其包含媒体发射指令或表示所接收数据包流;及定时元数据音轨,其包括时间同步元数据。关于每一音轨的元数据报括样本描述项列表,每一样本描述项提供音轨中所使用的编码或囊封格式及用于处理彼格式所需要的初始化数据。每一样本与音轨的样本描述项中的一者相关联。
ISOBMFF实现通过各种机制规定样本特定元数据。样本表方块(“stbl”)内的特定方块已经标准化以对共同需求做出回应。样本表方块含有样本表,所述样本表含有音轨中的媒体样本的所有时间及数据索引。使用样本表方块中的表,可能及时定位样本,确定其类型(例如,I帧或非I帧),且确定其尺寸、容器及到所述容器中的偏移。
例如,同步样本方块(“stss”)为样本表方块内的方块。使用同步样本方块来列举音轨的随机存取样本。本发明可是指由同步样本方块列举为同步样本的样本。在另一实例中,样本分组机制实现将根据四字符分组类型的样本映像到共享与文件中的样本群组描述项相同的所规定性质的样本群组中。
ISOBMFF中已规定数种分组类型。
ISOBMFF规范规定供DASH使用的六种类型的流存取点(SAP)。前两种SAP类型(类型1及2)对应于H.264/AVC及HEVC中的IDR图片。第三种SAP类型(类型3)对应于开放图片群组(GOP)随机存取点,因此HEVC中的中断链结存取(BLA)或干净随机存取(CRA)图片。第四SAP类型(类型4)对应于渐进解码再新(GDR)随机存取点。
电影片段方块为顶级方块。每一电影片段方块提供原本先前在电影方块中的信息。电影片段方块可含有一或多个音轨片段(“traf”)方块。电影片段存储器在一组音轨片段,每音轨零或多个音轨片段。音轨片段又含有零或多个音轨行程(track run),每一音轨行程记载彼音轨的样本的连续行程。举例来说,每一音轨行程可含有在某一次序(例如解码次序)上为连续的图片的样本。音轨片段方块在14496-12规范中经定义且包括关于一或多个音轨片段的元数据。举例来说,音轨片段方块可包含音轨片段标头方块,所述音轨片段标头方块指示音轨ID、基本数据偏移、样本描述索引、默认样本持续时间、默认样本尺寸及默认样本旗标。音轨片段方块可包含一或多个音轨片段行程方块,每一音轨片段行程方块记载音轨的一组连续样本。举例来说,音轨片段方块可包含语法元素,所述语法元素指示样本计数、数据偏移、样本旗标、样本持续时间、样本尺寸、样本合成时间偏移,等等。在此些结构内,许多字段为选用的且可为预设的。
样本表方块可包含一或多个SampleToGroup方块及一或多个样本群组描述方块(即,SampleGroupDescription方块)。在本发明中,SampleToGroup方块可被称作“样本分组方块”且SampleGroupDescription方块可被称作“样本群组描述方块”。一般来说,SampleToGroup方块包含定义一或多个样本群组的语法元素。在本发明中,样本的群组也可被称作“样本群组”或“样本分组”。此外,一般来说,SampleGroupDescription方块包含样本群组的描述。
SampleToGroup方块可用于确定样本所属于的样本群组连同样本群组的相关联描述。换句话说,SampleToGroup方块可指示样本所属于的群组。
SampleToGroup方块可具有“sbgp”的方块类型。SampleToGroup方块可包含分组类型元素(例如,grouping_type)。在一些情况中,在本发明中,方块的元素也可被称作语法元素。分组类型元素可为识别样本分组的类型(即,用于形成样本群组的准则)的整数。此外,SampleToGroup方块可包含一或多个项(即,样本群组项)。SampleToGroup方块中的每一样本群组项可与音轨中的系列不同的不重迭的连续样本相关联。每一样本群组项可指示样本计数元素(例如,sample_count)及群组描述索引元素(例如,group_description_index)。样本群组项的样本计数元素可指示与样本群组项相关联的样本的数目。换句话说,样本群组项的样本计数元素可为给出具有相同样本群组描述的连续样本的数目的整数。群组描述索引元素可在SampleGroupDescription方块内识别含有与样本群组项相关联的样本的描述的群组描述项。多个样本群组项的群组描述索引元素可识别同一SampleGroupDescription方块。
SampleGroupDescription方块也包含分组类型语法元素。当SampleToGroup方块与SampleGroupDescription方块的分组类型语法元素匹配时,SampleToGroup方块与SampleGroupDescription方块被认为彼此对应。SampleGroupDescription方块包含一或多个群组描述项。
SampleGroupDescription方块中的每一相应群组描述项包含相应样本群组的描述。SampleToGroup方块中的群组描述索引识别对应的SampleGroupDescription方块中的对应的群组描述项。
举例来说,SampleToGroup方块可具有第一样本群组项,所述第一样本群组项包含具有等于5的值的样本计数语法元素及具有等于3的值的群组描述索引。因此,在此实例中,五个连续样本属于由对应的SampleGroupDescription方块中的具有索引3的群组描述项描述的样本群组。在此实例中,SampleToGroup方块可具有第二样本群组项,所述第二样本群组项包含具有等于4的值的样本计数语法元素及具有等于2的值的群组描述索引。因此,在此实例中,下四个连续样本属于由对应的SampleGroupDescription方块中的具有索引2的样本群组描述项描述的样本群组。
在关于文件格式的L-HEVC层的存储的ISO/IEC 14496-15中,使用在载送位流的音轨中的一者发信号的操作点(“oinf”)样本群组来描述可用于文件中的位流的操作点列表。操作点样本群组在本文中也可被称作“操作点信息样本群组”。应用程序可通过遵循“oref”音轨参考来发现含有“oinf”样本群组的音轨。为简洁起见,含有“oinf”样本群组的音轨也被称作“oref”音轨。尽管在一个音轨中仅发信“oinf”样本群组,但在关于L-HEVC层的存储的ISO/IEC14496-15中,“oinf”样本群组的范围涵盖载送L-HEVC写码数据的所有音轨。使用样本群组发送操作点列表具有使得操作点列表可不涵盖时间维度中的整个位流的结果。可存在超过一个“oinf”样本群组且每一样本群组包含一组不同的样本。
另一实例性样本群组为层信息(“linf”)样本群组。层信息样本群组的样本群组描述项包括音轨含有的层及子层的列表。含有层的经写码图片的音轨的每一实例可为音轨的“linf”样本群组的部分。在音轨的样本群组描述方块中可存在一或多个“linf”样本群组项。然而,可能要求针对包含L-HEVC数据的每一堆叠存在一个“linf”样本群组描述项。下文提供关于“linf”样本群组的样本群组描述项的语法及语意。
9.8.2.2语法
Figure GDA0002914829120000251
9.8.2.3语意
num_layers_in_track:在与此样本群组相关联的此音轨的任何样本中载送的层的数目。
layer_id:在相关联样本中载送的层的层ID。此字段的例子在循环中应为递增次序。
min_sub_layer_id:音轨内的层中的子层的最小TemporalId值。
1.max_sub_layer_id:音轨内的层中的子层的最大TemporalId值。
2.假设layerList为在此音轨中载送的层的层ID以及在其它音轨中载送且由在此音轨中载送的层直接或间接地参考的层的层ID的列表。layerList中的层ID是以层ID值的递增次序排序。例如,假定此音轨载送具有层ID 4及5的层且其参考具有等于0及1的层ID,那么与此堆叠相关联的layerList为{0,1,4,5}。
如HEVC的章节3.160中所描述,图块为将树块写码在图片的特定图块列及特定图块行内的矩形区。HEVC图块不与同一写码图片中的其它HEVC图块具有写码相依性但可与先前写码图片的其它HEVC图块具有写码相依性或可经独立地解码。图2为说明实例性图块及分片的概念图。在图2的实例中,图片40具有64个亮度CTB,每一亮度CTB表示为小正方形。此外,图片40具有由垂直图块边界50及水平图块边界52分离的四个图块42、44、46、48。图块42及44形成第一图块行且图块46及48形成第二不同图块行。此外,图块42及46形成第一图块列且图块48及50形成第二不同图块列。图块边界在图2中表示为粗线。
在图2的实例中,即使图块42中的CTB邻近于图块46中的CTB,图块46中的任何CTB仍不可能相依于图块42中的CTB,图块列为具有等于图片的高度的高度及由语法元素(例如,在图片参数集中)规定的宽度的写码树块的矩形区。图块行为具有由语法元素(例如,在图片参数集中)规定的高度及等于图片的宽度的宽度的写码树块的矩形区。
图片40具有八个分片区段54、56、58、60、62、64、66及68。在图2的实例中,分片区段边界用虚线指示。此外,在图2的实例中,具有阴影CTB的分片区段为独立分片区段且具有白CTB的分片区段为依赖分片区段。在HEVC中,分片区段的每一写码块被含在分片区段的NAL单元中。此外,在HEVC中,NAL单元不包含多个分片区段的写码块。
在图2的实例中,CTB中的每一者的数目指示CTB的写码次序。如图2中所展示,图块边界可改变图片40中的CTB的写码次序。举例来说,在不存在图块边界50及52的情况下,视频写码器可在对图片40中的下一较低CTB列的任何CTB进行写码的前对在图片40中的完整CTB列中的全部CTB进行写码。
如HEVC的章节6.3.1中所描述,与分片不同,图块始终为矩形。图块始终含有整数个写码树单元,且可由含在多于一个分片中的写码树单元组成。类似地,分片可包括含在多于一个图块中的CTU或由CTU组成。此外,如HEVC的章节6.3.1中所描述,针对每一分片及图块应满足以下条件中的一者或两者:(1)分片中的所有写码树单元属于同一图块;且(2)图块中的所有CTU属于同一分片。另外,针对每一分片区段及图块应满足以下条件中的一者或两者:(1)分片区段中的所有CTU属于同一图块;且(2)图块中的所有CTU属于同一分片。
存在与确定编解码器(例如,HEVC)层级处关于图块的信息相反获得文件层级处关于图块的信息为有用的情景。例如,在图2中,假定图块46及48对应于新闻广播的底部处的水平滚动字幕(crawl)而图块42及44含有新闻主播的图像。在此实例中,水平滚动字幕可包含关于其它新闻的文字、体育比分、学校关闭、股票报价,等等。在此实例中,可能期望仅流式处理包含新闻主播的图像的图片40的部分而不流式处理水平滚动字幕。在将视频流式处理到具有小屏幕的装置(例如智能电话或智能型手表)时,以此方式减少视频的流式处理内容可为所期望的。同时,相同视频的完整版本(其包含图块46及48)可经流式处理到装置用于在较大屏幕(例如电视机)上呈现。
因此,ISO/IEC 14496-15描述用于描述及操纵文件层级处的图块的工具。特定来说,ISO/IEC 14496-15的章节10.1定义图块区及图块集的概念。图块区为包含一或多个图块的矩形区。举例来说,在图2的实例中,图块42及44可形成图块区;图块42及46可形成图块区,图块44及48可形成图块区,图块46及48可形成图块区,且图块42、44、46及48可形成图块区。经写码于单个分片中的数个图块可分组为图块的集,称作图块集。举例来说,在图2的实例中,图块集可由图块42、图块46及图块48组成。然而,在图2的实例中,图块42、图块46及图块48无法形成图块区,此是因为图块42、46及48并非单个矩形区。
图块集可用于表示跨越数个HEVC图块的关注区。例如,图块集可由图块42、44及46组成。在此实例中,图块42、44及46可对应于直播视频流而图块48包含在许多图片上方为静态的图片。
此外,如ISO/IEC 14496-15的章节10.1中所描述,使用SampleGroupDescription方块描述图块区及图块集。换句话说,在ISO/IEC14496-15的章节10.1中,SampleGroupDescription方块可规定图块区及图块集。更具体来说,使用TileRegionGroupEntry样本描述群组描述视频音轨的图块区。使用TileSetGroupEntry样本描述群组描述图块集。图块区可为多个图块集的成员。TileSetGroupEntry可用于定义:一组图块区,具有或不具有写码相依性;一组HEVC图块,其由一或数个NAL单元写码,例如分片中的多个HEVC图块;及多个图块区之间的写码相依性。
个别NALU可与以下相关联:
图块区(即,当HEVC图块经写码为分片集时)图块集(即,当分片含有用于数个HEVC图块的写码块时)。样本、NAL单元(NALU)、图块区及图块集之间的相关联可经由SampleToGroup及NALUMapEntry方块进行。
在ISO/IEC 14496-15中,NALUMapEntry方块具有以下语法:
Figure GDA0002914829120000291
此外,ISO/IEC 14496-15如下定义NALUMapEntry方块的语意:
large_size指示音轨样本中的NAL单元项的数目是以8位还是16位表示。rle指示是(1)否(0)使用行程长度编码来将groupID指派到NAL单元。
entry_count规定映射中的项的数目。应注意,当rle等于1时,entry_count对应于连续NAL单元与相同群组相关联的行程的数目。当rle等于0时,entry_count表示NAL单元的总数目。
NALU_start_number为与groupID相关联的当前行程中的第一NALU的样本中的基于1的NALU索引。
groupID指示对应的可缩放、多视图图块区或图块集群组项,如样本群组描述中所指示。如果groupID为0,无任何群组与此些经识别NALU相关联。
每一样本描述群组经指派唯一识别符,称作groupID。此识别符可用于使用ScalableNALUMapEntry或NALUMapEntry样本描述群组将NAL单元与对应的图块区或图块集相关联。图块区及图块集共享相同的groupID命名空间,由基本HEVC层定范围。即,在ISO/IEC 14496-15中,在具有相同基础层的任何音轨中不应存在具有相同groupID的两个图块区或图块集。
如上文所述,NALUMapEntry方块包含rle语法元素及entry_count语法元素。rle语法元素指示是否使用行程长度编码来将groupID指派到NAL单元。在NALUMapEntry方块的上下文中,行程为经指派相同groupID的一系列连续NAL单元。当使用行程长度编码来将groupID指派到NAL单元时,NALUMapEntry方块包含关于每一相应行程的相应NALU_start_number语法元素。例如,假定从具有索引2的NAL单元开始的一组六个连续NAL单元经指派等于11的groupID。在此实例中,NALUMapEntry方块可包含指示等于2的值的第一NALU_start_number语法元素,后续接着具有等于11的值的groupID语法元素,后续接着等于8的第二NALU_start_number语法元素。因此,在此实例中,解译含有NALUMapEntry方块的文件的装置,例如文件剖析单元31(图1)可确定从索引2到索引7的NAL单元经指派等于11的groupID。
ISO/IEC 14496-15如下规定TileRegionGroupEntry方块的语法:
Figure GDA0002914829120000311
ISO/IEC 14496-15如下规定TileRegionGroupEntry方块的语意:
groupID为由此群组描述的图块区的唯一识别符。值0经保留供专用于“nalm”方块。
independent_flag规定此图块区与当前图片中及同一层的参考图片中的其它图块区之间的写码相依性。图块间相依性(如果存在)通过于TileSetGroupEntry中的dependency_list指示。此旗标取以下值:
-如果independent_flag等于0,此图块区与相同图片或先前图片中的其它图块之间的写码相依性是在图块集层级或未知层级描述。
-如果independent_flag等于1,那么此图块区与任何参考图片中的具有不同groupID的其它图块区或图块集之间无任何时间相依性,但在此图块与参考图片中的具有相同groupID的图块区之间可能存在写码相依性。
-如果independent_flag等于2,那么此图块区与参考图片中的任何其它图块之间不存在任何写码相依性。
-保留值3。
full_picture在经设置时指示此图块区实际上为完整图片,在此状况下region_width及region_height应设置为层亮度尺寸,且independent_flag应设置为1。上述情形允许使用参考具有设置为1的full_picture参数的“trif”样本群组的“tsif”样本群组来表达层的图块与非图块层之间的相依性。
filtering_disable在经设置时指示此图块区上无任何解码后筛选操作需要存取邻近于此图块区的像素,即,图块区的水平确重建构为可能的而无需解码邻近的图块。
horizontal_offset及vertical_offset分别给出基本区的亮度样本中的由图块区表示的矩形区的左上方像素相对于图片的左上方像素的水平及垂直偏移。
region_width及region_height分别给出基本区的亮度样本中由图块区表示的矩形区的宽度及高度。
此外,ISO/IEC 14496-15如下规定TileSetGroupEntry方块的语法:
Figure GDA0002914829120000321
Figure GDA0002914829120000331
ISO/IEC 14496-15如下规定TileSetGroupEntry方块的语意:
groupID为由此群组描述的图块集的唯一识别符。值0经保留供专用于“nalm”方块。
area_description指示图块集经表达为由左上角及右下角描述的矩形区域。dependency_list指示给出此图块集的依赖图块区或图块集的列表。如果经设置为零,那么此意味着此集的图块与此集外部的图块之间不存在任何时间写码相依性。此确保仅解码所述集及所述相依性列表的图块为可能的而无需解码其它图块。如果设置为1或3,那么dependency_list经提供作为依赖图块的识别符列表。如果设置为2,那么dependency_list表达为由依赖图块形成的限界方块。如果设置为3,针对其中样本为针对此HEVC层定义的随机存取样本的状况给出图块区或图块集相依性的额外列表。
tile_count给出此图块集中定义的图块的数目。
tileGroupID指示属于此图块集的图块区groupID值(如由TileRegionGroupEntry定义)或图块集groupID值(如由TileSetGroupEntry定义)。
topLeftTileGroupId指示此图块集的左上图块groupID值。
bottomRightTileGroupId指示此图块集的右下图块groupID值。
dependency_tile_count指示相依性列表中的图块区或图块集的数目。
dependencyTileGroupID给出此图块集相依于的图块区(如由
TileRegionGroupEntry所定义)或图块集(如由TileSetGroupEntry所定义的识别符。
irap_dependency_tile_count及irap_dependencyTileGroupID规定在此图块所属于的样本为针对此HEVC层所定义的随机存取样本时此图块集相依于的图块区或图块集列表。
topLeftDependencyTileGroupId指示此图块集相依于的区域的左上图块区或图块集groupID值。
bottomRightDependencyTileGroupId指示此图块集相依于的区域的右下图块区或图块集groupID值。
图块区可定义无孔洞的矩形区域。如果非矩形的图块集经写码在单个HEVC分片中,那么可将所述图块集分解成不同矩形图块区且经由图块集描述,指示对相关图块区的相依性。可接着将此分片的NAL单元映射到图块集,但不应映射到图块区。
当与电影片段一起使用时,可通过在音轨片段方块中定义新
SampleGroupDescription方块,针对电影片段的持续时间定义TileRegionGroupEntry及TileSetGroupEntry,如在ISO/IEC 14496-12的第8.9.4条中所定义。然而,在具有与已定义的TileRegionGroupEntry或TileSetGroupEntry相同groupID的音轨片段中不应存在任何TileRegionGroupEntry或TileSetGroupEntry。
在用于样本与图块区之间的映射的上文所描述技术中可产生某些问题。换句话说,上文关于操纵文件层级的图块所描述的工具具有数种缺陷。例如,图块区可被认为图块的集合,而图块集可被认为图块区的集合且也为图块的集合。为确定构成特定图块区的图块,可简单地检查NALUMapEntry。然而,为确定构成特定图块集的图块,例如文件剖析单元31的装置首先必须检查经列举作为图块集的部分的图块区的列表且接着仍必须检查NALUMapEntry以查看是否存在也为图块集的部分的额外图块。此布置可使得图块区、图块集与NALUMapEntry之间的关系复杂化。此外,图块区与图块集之间当前似乎无概念区别,除了图块区必须为矩形形状外,而图块集可为任何形状。当图块集的tile_reg_count的值等于0时,图块集基本上为图块区。因此,可期望NALUMapEntry、图块区及图块集的简化。
在ISO/IEC 14496-15的章节8.4.8中,在HEVC的上下文中,子样本经定义为:
为将子样本信息方块(ISO/IEC 14496-12的8.7.7)用于HEVC流中,基于下文所规定的子样本信息方块的旗标字段的值定义子样本。此方块的存在为选用的;然而,如果存在于含有HEVC数据的音轨中,方块中的“codec_specific_parameters”字段应具有此处定义的语意。
flags如下规定在此方块中给出的子样本信息的类型:
0:基于NAL单元的子样本。子样本含有一或多个连续NAL单元。
1:基于解码单元的子样本。子样本含有恰好一个解码单元。
2:基于图块的子样本。子样本含有一个图块及含有所述图块的VCL NAL单元的相关联的非VCL NAL单元(如果存在),或含有一或多个非VCL NAL单元。
3:基于CTU列的子样本。子样本含有分片内的一个CTU列及含有所述CTU列的VCLNAL单元的相关联的非VCL NAL单元(如果存在),或含有一或多个非VCL NAL单元。当entropy_coding_sync_enabled_flag等于0时不应使用此类型的子样本信息。
4:基于分片的子样本。子样本含有一个分片(其中每一分片可含有一或多个分片区段,分片区段中的每一者为NAL单元)及相关联非VCL NAL单元(如果存在),或含有一或多个非VCL NAL单元。
另外,在上文所描述的技术中可产生与将子样本中的图块映射到图块区相关的问题。在MPEG输出文件N15297(对ISO/IEC 14496-15的评论的处置)中,同意允许对TileRegionGroupEntry应用于的图块的基于子样本的识别。为支持上述情形,TileRegionGroupEntry的语法在MPEG输出文件N15297中经修改,如下文文字中所展示。在下文及贯穿本发明的文字中,“<insert>“与“</insert>“符号之间的文字对应于新增或经修改的现有文字(例如,<insert>新增文字</insert>),而经移除的文字在“<delete>“与“</delete>“符号之间(例如,<delete>经删除文字</delete>)。
Figure GDA0002914829120000361
Figure GDA0002914829120000371
groupID为由此群组描述的图块区的唯一识别符。值0经保留供专用于“nalm”方块。
independent_flag规定此图块区与当前图片中及同一层的参考图片中的其它图块区之间的写码相依性。图块间相依性(如果存在)通过于TileSetGroupEntry中的dependency_list指示。此旗标取以下值:
-如果independent_flag等于0,此图块区与相同图片或先前图片中的其它图块之间的写码相依性是在图块集层级或未知层级描述。
-如果independent_flag等于1,那么此图块区与任何参考图片中的具有不同groupID的其它图块区或图块集之间无任何时间相依性,但在此图块与参考图片中的具有相同groupID的图块区之间可能存在写码相依性。
-如果independent_flag等于2,那么此图块区与参考图片中的任何其它图块之间不存在任何写码相依性。
-保留值3。
full_picture在经设置时指示此图块区实际上为完整图片,在此状况下region_width及region_height应设置为层亮度尺寸,且independent_flag应设置为1。上述情形允许使用参考具有设置为1的full_picture参数的“trif”样本群组的“tsif”样本群组来表达层的图块与非图块层之间的相依性。
nalu_flag等于0规定图块区是以基于图块的子样本为基础而规定。nalu_flag等于1规定图块区是以“nalm”样本分组的groupID值为基础而规定。
subsample_id为经映像的样本的子样本信息的基于1的索引,如旗标等于2(基于图块的子样本)的情况下SubSampleInformationBox中所指示。
MPEG输出文件N15297中采用的TileRegionGroupEntry的改变具有两个问题。首先,当nalu_flag等于0时,图块区群组不使用NALUMapEntry,此意指所有样本与图块区群组相关联,此是因为TileRegionGroupEntry不具有其自己的SampleToGroup方块。因此,为使对图块的此基于子样本识别起作用,暗示限制使得音轨中的所有样本必须具有相同NAL单元且也必须具有相同图块结构。换句话说,音轨中的所有样本必须以相同方式分割成分片及图块。
其次,仅具有一个语法元素subsample_id意指NAL单元内的仅恰好一个图块可为特定图块区群组的部分。在期望在包含在图块区中的NAL单元中具有一个以上图块时,此发信将无效率,此是因为必须定义稍后将由图块集分群组的更多图块区。
举例来说,图3为说明其中NAL单元包含多个图块的实例的概念图。特定来说,图片80具有由图块边界90、92分离的四个图块82、84、86及88。分片区段94包含CTU 1到40。分片区段96、98、100包含CTU 41到64。分片区段的每一经编码CTU被包含在分片区段的NAL单元中。在图3的实例中,可能期望在图块区中包含有图块82及84。在MPEG输出文件N15297中,subsample_id语法元素指示图片中的sub-sample(例如,图块)中的哪一者为图块区的部分。举例来说,subsample_id语法元素等于0可指示图块区群组中的每一图片的第一图块与TileRegionGroupEntry方块相关联。由于在TileRegionGroupEntry方块中仅存在一个subsample_id语法元素,因此在与TileRegionGroupEntry方块相关联的图块区群组中可包含每图片仅一个图块。因此,为到达包含图块82及84的样本群组,可产生两个TileRegionGroupEntry方块,每一TileRegionGroupEntry方块包含指示图块82、84中的不同者的subsample_id语法元素。另外,将需要产生提及两个TileRegionGroupEntry方块的TileSetGroupEntry方块。
此外,在上文所描述技术中可产生与图块区及图块集层间相依性有关的问题。举例来说,MPEG输出文件N15297描述与图块区及图块集中的相依性信息的发信有关的数个改变。特定来说,MPEG输出文件N15297中同意以下改变:
a)同意将名称independent_flag改变成independent_idc。
b)同意在independent_idc的值等于2时以编辑方式编辑其语意。
c)同意在所有状况下使用等于0的dependency_list的发信并移除与等于1及2的dependency_list相关的语法及语意。
尽管上述同意点可改进图块区及图块集相依性发信,但甚至在并入那些同意点的修改之后,仍未解决以下问题。特定来说,图块区及图块集的当前图块相依性发信在存在层间相依性时并不起作用。例如,如上文所述,ISO/IEC14496-15规定,在dependency_list语法元素“经设置为零时,此意味着来自此集的图块与在此集外部的图块之间不存在任何时间写码相依性。此确保仅解码所述集及所述相依性列表的图块为可能的而无需解码其它图块。”然而,ISO/IEC 14496-15中并未指示关于图块之间的视图间写码相依性的内容。
此外,在上文所描述技术中可产生与图片层级及上部层级非VCL NAL单元相关的某些问题。举例来说,在上文所描述技术中,在ISO/IEC 14496-15中,NALUMapEntry提供从NAL单元到图块区群组或图块集群组的映射。存在一种特殊状况,即当NAL单元经指派等于0的groupID时,此意指所述NAL单元不与任何图块区或图块集群组相关联。然而,并不清楚应为非VCL NAL单元指派哪一groupID,尤其全局应用于图片的所有VCL NAL单元(例如参数集)的非VCL NAL单元。针对此些非VCL NAL单元,似乎无法将其映射到groupID 0,此是因为对每一图块区或图块集群组的处理将需要所述非VCL NAL单元,且可将所述非VCL NAL单元指派到特定图块区或图块集,将使得其不可由其它图块区或图块集使用。
为解决上述问题及缺陷,描述以下技术。下文所描述的技术可以独立地方式应用或可以任何可行组合应用。
如所提及,图块区与图块集之间的关系可能过度复杂。根据本发明的技术,为解决此问题,将图块区概念合并到图块集概念中。换句话说,图块区的概念及图块集的概念经合并。在图块区及图块集的概念合并的此些实例中,术语图块区及图块集可互换使用。此外,在图块区及图块集的概念合并的实例中,图块集群组项(例如,TileSetGroupEntry方块)及图块区群组项(例如,TileRegionGroupEntry方块)的论述可互换。因此,在此些实例中,可将TileSetGroupEntry方块或TileRegionGroupEntry方块从用于定义文件的语法消除,且TileRegionGroupEntry方块的论述可应用于TileRegionGroupEntry方块,或反之也然。
此外,可发信语法元素以指示由图块集中的图块覆盖的区是否为矩形形状。因此,在此实例中,文件产生装置34可在文件中的图块集群组项中包含指示由图块集中的图块覆盖的区是否为矩形形状的语法元素(例如,rectangular_flag)。类似地,文件剖析单元31可从文件中的图块集群组项内获得指示由图块集中的图块覆盖的区是否为矩形形状的语法元素(例如,rectangular_flag)。在此实例中,文件剖析单元31可基于语法元素而处理图块集。举例来说,基于TileSetGroupEntry中指示由图块集中的图块覆盖的区为矩形的语法元素,且可能基于TileSetGroupEntry中指示图块集的位置及尺寸的语法元素,文件剖析单元31可确定图块集对应于待输出以用于显示的所要区。因此,在此实例中,文件剖析单元31,作为处理图块集的部分,可从文件提取图块集的图块并发射所提取图块。举例来说,文件剖析单元31可从文件提取图块集的图块的VCL NAL单元并将所提取VCL NAL单元输出到视频解码器(例如,视频解码器30)以进行解码,而不会将未提取VCL NAL单元输出到视频解码器。
如上文所述,TileRegionGroupEntry方块(如ISO/IEC 14496-15中所定义)包含horizontal_offset语法元素及vertical_offset语法元素。horizontal_offset语法元素及vertical_offset语法元素指示由与TileRegionGroupEntry方块相关联的图块区表示的矩形区的左上方像素的偏移。TileRegionGroupEntry方块在与TileRegionGroupEntry方块相关联的图块区不对应于完整图片的情况下仅包含horizontal_offset语法元素及vertical_offset语法元素。此外,TileRegionGroupEntry方块(如ISO/IEC 14496-15中所定义)包含指示与TileRegionGroupEntry方块相关联的矩形区的宽度及高度的region_width语法元素及region_height语法元素。
根据本发明的技术,偏移信息(即,水平及垂直偏移)及由图块集中的图块覆盖的区的宽度与高度(例如,region_width及region_height)的语法及语意可被修改。例如,始终发信水平偏移、垂直偏移、宽度及高度的信息。举例来说,在此实例中无论图块区是还是不是完整图片皆发信水平偏移及垂直偏移,而非仅在图块区并非完整图片时才发信水平偏移及垂直偏移。在此实例中,偏移语法元素及高度与宽度语法元素的语意可经调整使得此些语法元素的语意描述覆盖图块集中的所有图块的最小矩形区域。最小矩形区域为封围图块集的所有图块的最小可能矩形区域。
因此,在此实例中,文件产生装置34可无论图块区是否为完整图片皆在文件中包含以下各者中的至少一者:水平偏移语法元素(例如,horizontal_offset)及垂直偏移语法元素(例如,vertical_offset)。在此实例中,水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。在此实例中,垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。因此,文件剖析单元31可无论图块区是否为完整图片皆从文件获得以下各者中的至少一者:水平偏移语法元素及垂直偏移语法元素。在此实例中,水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。在此实例中,样本群组描述方块可包含包括图块集群组项的群组描述项。
图4为根据本发明的一或多种技术说明包含由含有图块集122的最小矩形区域124限界的图块集122的实例图片120的概念图。如图4的实例中所展示,图块集122包含布置成四列的十七个图块。图块的前三个列具有四个图块且图块的底部列具有五个图块。因此,图块122并非矩形的。假设每一图块为10个单位宽及10个单位高,宽度语法元素可指示值50且高度语法元素可指示值40。
在一些实例中,仅在由图块集中的图块覆盖的区为矩形形状的情况下才发信水平偏移、垂直偏移、宽度及高度的信息。在此实例中,关于并非矩形形状的图块集的位置及尺寸信息可能不可获得。
在另一实例中,文件产生装置34可仅在由图块集中的图块覆盖的区为矩形形状的情况下才包含以下各者中的至少一者:水平偏移语法元素(例如,horizontal_offset)及垂直偏移语法元素(例如,vertical_offset)。在此实例中,水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的最上方像素的水平偏移,且垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。类似地,文件剖析单元31可仅在由图块集中的图块覆盖的区为矩形形状才从文件获得以下各者中的至少一者:水平偏移语法元素(例如,horizontal_offset)及垂直偏移语法元素(例如,vertical_offset)。在此实例中,水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。在此实例中,样本群组描述方块可包含包括图块集群组项的群组描述项。
如上文所述,TileSetGroupEntry方块(如MPEG输出文件N15297中所定义)包含independent_idc语法元素。然而,如上文所描述,图块区及图块集的图块相依性发信在存在层间相依性时在MPEG输出文件N15297中并不起作用。因此,根据本发明的实例,为简化图块区及图块集的概念,将语法元素independent_idc改变成具有以下值的旗标(例如,independent_flag):旗标的一个状态指示“无时间相依性”。旗标的另一状态指示“可存在或可不存在时间相依性”。
因此,在此实例中,文件产生装置34可在文件中发信旗标(例如,independent_flag)。在此实例中,具有第一值的旗标指示无时间相依性,具有不同的第二值的旗标指示允许时间相依性。此外,在此实例中,文件剖析单元31可从文件获得旗标且可基于语法元素而处理图块集。例如,当旗标指示不存在对图块集的时间相依性,视频解码器不需要另一层的VCL NAL单元来解码图块集的VCL NAL单元。因此,基于指示不存在对图块集的时间相依性的文件,文件剖析单元31可提取并输出图块集的VCL NAL单元而无需进一步确定图块集的VCL NAL单元相依于的层及VCL NAL单元。
在本发明的一些实例中,为解决与将子样本中的文件映射到上文所描述的图块区相关的问题,将用于子样本中的图块的映射机制添加到NALUMapEntry方块,而非映射到TileRegionGroupEntry方块中。举例来说,可将循环添加到NALUMapEntry方块以发信关于NAL单元中的每一子样本的groupID语法元素。因此,在此实例中,针对NAL单元中的不同子样本可能与不同groupID相关联,且针对NAL单元中的所有子样本也可能与相同groupID相关联。
因此,在此实例中,文件产生装置34可在文件中的NALUMapEntry中包含关于NAL单元中的每一相应子样本的相应群组识别符语法元素(例如,groupID)。在此实例中,相应群组识别符语法元素可指示对应于相应子样本的图块集项(例如,TileRegionGroupEntry方块或TileSetGroupEntry方块)。类似地,文件剖析单元31可从文件中的NALUMapEntry中获得关于NAL单元中的每一相应子样本的相应群组识别符语法元素(例如,groupID)。相应群组识别符语法元素可指示对应于相应子样本的图块集项(例如,TileRegionGroupEntry方块或TileSetGroupEntry方块)。图块集项对应于图块集。文件剖析单元31可处理图块集。例如,在图2中,分片区段94的VCL NAL单元包含图块82的经编码CTU、图块84及图块86的一些经编码CTU。在此实例中,文件中的NALUMapEntry可针对VCL NAL单元包含用于图块82、84及86中的每一者的相应群组识别符。因此,如果所要输出为图块82及84,那么文件剖析单元31可基于在NALUMapEntry中发信的groupID语法元素而确定VCL NAL单元包含用于图块82及图块84的经编码CTU。因此,在此实例中,文件剖析单元31可从文件提取VCL NAL单元。文件剖析单元31可将所提取VCL NAL单元输出到视频解码器(例如视频解码器30(图1))用于解码。
此外,在ISO/IEC 14496-15中,NALUMapEntry方块包含rle语法元素及NALU_start_number语法元素。在一些实例中,NALUMapEntry中的由语法元素rle及NALU_start_number实施的行程长度写码机制经移除以用于简化且用于使其与ScalableNALUMapEntry及SubSampleInformationBox相一致。
根据用以解决上文关于将子样本中的图块映射到图块区所描述的问题的本发明的实例,在TileRegionGroupEntry中,规定用以指示可将NAL单元中的多于一个子样本(即,图块)映射到图块集的机制。在一些实例中,上述情形可通过具有subsample_id语法元素循环(类似于新增到NALUMapEntry中的上文所提及循环)而进行。在其它实例中,指示将NAL单元中的个以上子样本映射到图块集可通过其它手段(例如具有32个位)完成,针对所述32个位,每一位表示NAL单元内的一个图块,其中设置为1的位意指对应图块为图块集的部分,而设置为0的位意指对应图块并非图块集的部分。举例来说,值0100 0001 0000 0000 00000000 0000 0001可指示NAL单元中的第二、第八及第32图块在图块集中。
因此,在此实例中,文件产生装置34可在文件中的视觉样本群组项(例如,TileRegionGroupEntry方块或TileSetGroupEntry方块)中针对NAL单元中的每一相应子样本包含具有多个位的子样本识别符语法元素(例如,subsample_id)。在此实例中,多个位包含对应于NAL单元内的不同图块的位。此外,在此实例中,对应于NAL单元中的图块的位指示图块是否为图块集的部分。类似地,文件剖析单元31可从文件中的视觉样本群组项针对NAL单元中的每一相应子样本获得具有多个位的子样本识别符语法元素(例如,subsample_id)。多个位包含对应于NAL单元内的不同图块的位且对应于NAL单元中的图块的位指示图块是否为图块集的部分。文件剖析单元31可处理图块集。例如,在图2中,分片区段94的VCLNAL单元包含图块82的经编码CTU、图块84及图块86的一些经编码CTU。在此实例中,文件中的NALUMapEntry可针对VCL NAL单元包含等于1100 0000 0000 0000 0000 0000 00000000的语法元素以指示VCL NAL单元中的前两个图块(即,图块82及图块84)包含在图块集中。因此,如果所要输出为图块82及84,那么文件剖析单元31可基于在NALUMapEntry中发信的groupID语法元素而确定VCL NAL单元包含用于图块82及图块84的经编码CTU。因此,在此实例中,文件剖析单元31可从文件提取VCL NAL单元。文件剖析单元31可将所提取VCL NAL单元输出到视频解码器(例如视频解码器30(图1))用于解码。
本发明的技术可解决关于图块区及图块集层间相依性的上文所描述的问题。举例来说,在一个实例中,图块集具有层特定范围,即,每一层具有其特有图块集发信。换句话说,在此实例中,为图块集的部分的所有图块必须属于同一层的图片。因此,为图块集的部分的每一图块属于同一层的图片。例如,位流可具有两个层:层0及层1。在此实例中,可针对层0发信第一TileSetGroupEntry且可针对层1发信第二TileSetGroupEntry。在此实例中,第一TileSetGroupEntry不提及层1中的图块,且第二TileSetGroupEntry不提及层0中的图块。
此外,在一些实例中,另外在图块集描述项(例如,TileSetGroupEntry、TileRegionGroupEntry方块)中发信指示图块集所属于的层的层ID的新语法元素。因此,在此实例中,文件产生装置34可在文件的图块集描述项中发信指示图块集所属于的层的层识别符的语法元素(例如,layerID)。例如,位流可包含层0及层1。在此实例中,语法元素可指示层0的层识别符以指示图块集属于层0。类似地,文件剖析单元31可从文件的图块集描述项获得指示图块集所属于的层的层识别符的语法元素。在此实例中,文件剖析单元31可基于语法元素处理图块集。例如,文件剖析单元31可使用语法元素来确定图块集描述项对应于特定层,作为确定哪些VCL NAL单元包含所要图块集的经编码块(例如,CTU)的部分。在此实例中,如果由语法元素指示的层识别符指示特定层,那么文件剖析单元31可使用图块集描述项中的信息来确定图块集描述项是否对应于所要图块群组。此外,如果图块集描述项对应于所要图块群组,那么文件剖析单元31可提取指派到由图块集描述项规定的groupID之VCL NAL单元。
在一些实例中,覆盖不同层中的相同区(即,并置区)的图块集具有相同图块集ID。举例来说,图5为说明覆盖不同层中的相同区域的图块集的概念图。在图5的实例中,图片130、132为第一层(L0)且图片134、136在第二层(L1)中。此外,在图5的实例中,图片130、136在第一存取单元(T0)中且图片132、134在第二存取单元(T1)中。图片130、132、134、136中的每一者包含由较小正方形指示的九个图块。如上文所提及,根据本发明的实例,存在用于每一层的TileSetGroupEntry方块(例如,用于L0的TileSetGroupEntry方块及用于L1的单独TileSetGroupEntry方块)。用于L0的图块集中的图块及用于L1的图块集中的图块以阴影示出。因此,在图5的实例中,用于L0的图块集中的图块与用于L1的图块集中的图块共置,用于L0的图块集的图块集ID与用于L1的图块集的图块集ID相同。
另外,在此实例中,文件产生装置34可在文件的图块集群组项中发信或以其它方式包含描述与图块集所属于的层的相依性的相依性信息(例如,dependency_list,dependency_tile_count,dependencyTileGroupID)。另外,在此实例中,文件剖析单元31可从文件的图块集群组项内获得描述与图块集所属于的层的相依性的相依性信息。在此实例中,文件剖析单元31可基于语法元素及相依性信息处理图块集。例如,文件剖析单元31可使用当前图块集群组项中的相依性信息来识别具有对应于依赖层(即,图块集所属于的层相依于的层)的语法元素(例如,layerID语法元素)及具有规定与当前片框架脚架群组项的groupID相同的值的语法元素(例如,groupID语法元素)的图块集群组项。在此实例中,文件剖析单元31可接着识别在依赖层中的每一者中含有图块群组的经写码块的VCL NAL单元。
此外,如在MPEG输出文件N15297中所定义,TileRegionGroupEntry方块中的independent_idc语法元素规定当前图片与同一层中的参考图片中的图块区与其它图块区之间的写码相依性。根据本发明的实例,针对TileSetGroupEntry方块,相依性信息(例如,基于语法元素independent_idc)描述图块集所属于的层内的相依性。换句话说,TileSetGroupEntry方块可包含指示相依性信息的一或多个语法元素。
在一些实例中,针对层间相依性信息,使用在“oinf”及“linf”样本群组中发信的层相依性。举例来说,操作点的“oinf”样本群组描述方块可包含针对操作点的每一相应层指示操作点的哪些其它层(如果存在)为相应层的参考层的语法元素。用于层的“linf”样本群组描述方块可包含指示层的参考层的语法元素。因此,在此实例中,文件剖析单元31可替代地使用“oinf”及/或“linf”样本群组来确定层相依性,而非指示图块集群组项中的层相依性(例如,使用dependency_list语法元素、dependency_tile_count语法元素及dependencyTileGroupID语法元素,如上文所描述)。
在用以解决上文关于图块区及图块集层间相依性所描述的问题的本发明的一些实例性技术中,图块区并未合并到图块集中。换句话说,维持图块区及图块集的单独概念。在此些实例中,以下可应用:
a.图块区经规定为层特定的。
b.另外,在图块区描述项(即,TileRegionGroupEntry)中发信指示图块区所属于的层的层ID的语法元素。
c.覆盖不同层中的相同区(即,并置区)的图块区可具有相同图块区ID。
d.针对TileRegionGroupEntry,相依性信息(例如,基于当前语法元素independent_idc)描述图块区所属于的层内的相依性。
e.针对层间相依性信息,使用在“oinf”及“linf”样本群组中发信的层相依性。
因此,在此实例中,文件产生装置34可在文件的图块区群组项(例如,TileRegionGroupEntry方块)中发信指示图块区所属于的层的层识别符的语法元素(例如,layerID)。另外,在此实例中,文件产生装置34可在文件的图块区群组项中发信描述与图块区所属于的层的相依性的相依性信息(例如,基于independent_idc语法元素)。同样地,文件剖析单元31可从文件中的图块区描述项(例如,TileRegionGroupEntry方块)获得指示图块区所属于的层的层识别符的语法元素(例如,layer ID)。另外,在此实例中,文件剖析单元31可从文件的图块区群组项内获得描述与图块区所属于的层的相依性的相依性信息。文件剖析单元31可基于语法元素及相依性信息处理图块集。文件剖析单元31可根据本发明中别处的对应的实例而处理图块集。
根据本发明的一些实例,“图块集”的定义被改变使得“图块集”意指在无需存在并非所述集的部分的其它图块的情况下可解码的一或多个完整HEVC图块的集,且图块可但非必需在解码次序中为连续的。换句话说,为图块集的部分的图块集为图块集内受约束的运动(未必在每一图块自身内)使得在无需参考并非图块集的部分的图块的情况下对图块进行写码。例如,视频写码器可仅使用与用于运动预测的图块在时间上并置的参考图片中的图块中的块。在此定义的情况下,现有信息(例如随机存取分组框、同步分组框或NAL单元标头信息)可用于推断对图块集的时间相依性。因此,在此实例中,未必在TileSetGroupEntry中发信此信息。举例来说,可能未必在TileSetGroupEntry中发信dependency_list语法元素、dependency_tile_count语法元素或dependencyTileGroupID语法元素。
根据本发明的技术,为解决上文关于图片层级及上部层级非VCL NAL单元所描述的问题,提议除groupID 0外也具有特殊groupID值以指示与所有图块区或图块级相关联的NAL单元。例如,如果NALUMapEntry方块将等于0的groupID指派到NAL单元,那么NAL单元不与任何群组相关联。在此实例中,如果NALUMapEntry方块将等于1的groupID指派到NAL单元,那么NAL单元为非VCL NAL单元,且处理经指派大于1的groupID之任何群组可能需要NAL单元。在其它实例中,处理其它群组可能需要经指派具有除1外的值的groupID的NAL单元。
因此,在此实例中,文件产生装置34可在文件的NALUMapEntry中包含群组识别符语法元素(例如,groupID)。在此实例中,具有等于0的值的群组识别符语法元素指示NAL单元或子样本并不与任何群组相关联,且具有等于1的值的群组识别符语法元素指示NAL单元为处理具有大于1的群组识别符语法元素的任何群组可能需要的非VCL NAL单元,且具有大于1的值的群组识别符语法元素指示对应的图块集群组集项。类似地,文件剖析单元31可从文件的NALUMapEntry获得群组识别符语法元素(例如,groupID)。具有等于0的值的群组识别符语法元素指示NAL单元或子样本并不与任何群组相关联,具有等于1的值的群组识别符语法元素指示NAL单元为处理具有大于1的群组识别符语法元素的任何群组可能需要的非VCL NAL单元,且具有大于1的值的群组识别符语法元素指示对应的图块集群组集项。在此实例中,文件剖析单元31可处理图块集。例如,文件剖析单元31可使用NALUMapEntry来识别经指派等于1的群组识别符的NAL单元连同经指派与所要图块集相关联的群组识别符的NAL单元。此外,在此实例中,文件剖析单元31可从文件提取所识别NAL单元且输出所提取NAL单元(例如,到视频解码器,例如视频解码器30(图1))。
在各种实例中,装置(例如MANE)可处理(例如,基于各种语法元素)图块集。此处理可包括各种动作,例如从文件提取图块。此外,此处理可包括发射所提取图块(例如,到视频解码器,目的地装置14,等)。举例来说,可能期望仅发射图片的图块集,但不发射图片的剩余图块。在仅对应于图块集的图片的部分含有经更新内容的状况下,或在其它情况中,错误校正可能期望上述情形。
图6为说明可实施本发明中所描述的技术的实例性视频编码器20的框图。视频编码器20表示经配置以产生可使用本发明中所描述的文件格式技术存储的视频数据的视频写码器的实例。视频编码器20可经配置以输出单个视图、多个视图、可缩放、3D及其它类型的视频数据。视频编码器20可经配置以将经写码视频数据输出到后处理实体200。后处理实体200意欲表示可能处理来自视频编码器20的经编码视频数据的视频实体(例如MANE或拼接/编辑装置)的实例。在一些情况中,后处理实体200可为网络实体的实例。在一些视频编码系统中,后处理实体200及视频编码器20可为单独装置的部分,而在其它情况中,关于后处理实体200所描述的功能性可由包括视频编码器20的相同装置执行。后处理实体200可为视频装置。在一些实例中,后处理实体200可与图1的文件产生装置34相同。
根据本发明的技术,后处理实体200可产生用于存储由视频编码器20产生的经写码视频内容的文件。后处理实体200可根据本发明的技术中的任一者产生文件。
视频编码器20可在视频分片内执行对视频块的帧内及帧间编码。帧内-编码依赖于空间预测以减少或移除给定视频帧或图片内的视频中的空间冗余。帧间编码依赖于时间预测以减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可是指数个基于空间的压缩模式中的任一者。帧间模式(例如,单向预测(P模式)或双向预测(B模式))可是指数个基于时间的压缩模式中的任一者。
在图6的实例中,视频编码器20包含分割单元202、预测处理单元204、滤波器单元206、参考图片存储器208、求和器210、变换处理单元212、量化单元214及熵编码单元216。预测处理单元204包含运动估计单元218、运动补偿单元220及帧内预测处理单元222。为了视频块重建构,视频编码器20也包含反量化单元224、反变换处理单元226及求和器228。滤波器单元206意欲表示一或多个环路滤波器,例如,解块滤波器、自适应环路滤波器(ALF),及/或样本自适应偏移(SAO)滤波器。尽管滤波器单元206在图6中经展示为环路内滤波器,但在其它配置中,滤波器单元206可实施为后环路滤波器。
视频编码器20的视频数据存储器230可存储待由视频编码器20的组件编码的视频数据。例如,可从视频源18获得存储在视频数据存储器230中的视频数据。参考图片存储器208可为存储参考视频数据供用于由视频编码器20(例如以帧内或帧间写码模式)编码视频数据的参考图片存储器。视频数据存储器230及参考图片存储器208可由各种存储器装置中的任一者形成,例如,动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。视频数据存储器230及参考图片存储器208可由相同存储器装置或单独存储器装置提供。在各种实例中,视频数据存储器230可与视频编码器20的其它组件在芯片上,或相对于那些组件在芯片外。
如图6中所展示,视频编码器20接收视频数据,且分割单元202将数据分割成视频块。此分割也可包含分割成分片或其它较大单元,以及视频块分割,例如根据LCU及CU的四元树结构。视频编码器20通常说明待编码的视频分片内的编码视频块的组件。分片可被划分成多个视频块。预测处理单元204可基于误差结果(例如,写码速率及失真水平)针对当前视频块选择多个可能写码模式中的一者,例如多个帧内写码模式中的一者或多个帧间写码模式中的一者。预测处理单元204可将所得帧内或帧间经写码块提供到加法器210以产生残余块数据及加法器228以重建构经编码块供用作参考图片。
预测处理单元204内的帧内预测处理单元222可相对于与待写码的当前块相同的帧或分片中的或多个相邻块执行当前视频块的帧内预测写码以提供空间压缩。预测处理单元204内的运动估计单元218及运动补偿单元220相对于一或多个参考图片中的或多个预测性块执行对当前视频块的帧间预测写码以提供时间压缩。
运动估计单元218可经配置以根据视频序列的预定图案而确定视频分片的帧间预测模式。预定图案可将序列中的视频分片指定为P分片、B分片或GPB分片。运动估计单元218及运动补偿单元220可高度整合,但出于概念目的予以单独说明。由运动估计单元218执行的运动估计为产生运动矢量的程序,所述运动矢量估计视频块的运动。举例来说,运动矢量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的位移。
预测性块为经发现在像素差方面接近匹配待写码的视频块的PU的块,所述像素差可通过以下各项来确定:绝对差值和(SAD)、平方差值和(SSD)或其它差值度量。在一些实例中,视频编码器20可计算存储在参考图片存储器208中的参考图片的分段整数(sub-integer)像素位置的值。例如,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元218可相对于全像素位置及分数像素位置执行运动搜索且输出具有分数像素精度的运动矢量。
运动估计单元218通过将帧间写码分片中的视频块的PU的位置与参考图片的预测性块的位置进行比较来计算所述PU的运动矢量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述列表中的每一者识别存储在参考图片存储器208中的或多个参考图片。运动估计单元218将可从其确定所计算运动矢量的语法元素发送到熵编码单元216及运动补偿单元220。
由运动补偿单元220执行的运动补偿可涉及:基于由运动估计确定的运动矢量而提取或产生预测性块,可能对子像素精度执行插值。在接收到关于当前视频块的PU的运动矢量时,运动补偿单元220可将运动矢量指向的预测性块定位于参考图片列表中的一者中。视频编码器20可通过将预测性块的像素值从所写码的当前视频块的像素值减去从而形成像素差值来形成残余视频块。像素差值形成块的残余数据,且可包含明度及色度差分量两者。加法器210表示执行此减法运算的(多个)组件。运动补偿单元220也可产生与在解码视频分片的视频块中供视频解码器30使用的视频块及视频分片相关联的语法元素。
帧内预测处理单元222可帧内预测当前块,作为由运动估计单元218及运动补偿单元220执行的帧间预测的替代方案,如上文所描述。例如,帧内预测处理单元222可确定帧内预测模式以用于对当前块进行编码。在一些实例中,帧内预测处理单元222可(例如)在单独编码步骤期间使用各种帧内预测模式来对当前块进行编码,且帧内预测处理单元222可从所测试模式选择适当帧内预测模式来使用。举例来说,帧内预测处理单元222可针对各种所测试帧内预测模式使用速率失真分析来计算速率失真值,且在所测试模式中可选择具有最佳速率失真特性的帧内预测模式。速率失真分析通常确定经编码块与原始未经编码块(其经编码以产生经编码块)之间的失真(或错误)量,以及用于产生经编码块的比特率(即,位的数目)。帧内预测处理单元222可依据各种经编码块的失真及速率来计算比率以确定哪一帧内预测模式展现块的最佳速率失真值。
在任何状况下,在针对块选择帧内预测模式之后,帧内预测处理单元222可将指示块的所选择帧内预测模式的信息提供到熵编码单元216。熵编码单元216可根据本发明的技术对指示所选择帧内预测模式的信息进行编码。视频编码器20可在所发射位流配置数据(其可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引表(也被称作码字映射表))中包含用于各种块的编码上下文的定义,及用于所述上下文中的每一者的最可能帧内预测模式、帧内预测模式索引表及经修改帧内预测模式索引表的指示。
在预测处理单元204经由帧间预测或帧内预测产生关于当前视频块的预测性块之后,视频编码器20可通过将预测性块从当前视频块减去来形成残余视频块。残余块中的残余视频数据可被包含在一或多个TU中且应用于变换处理单元212。变换处理单元212使用变换(例如,离散余弦变换(DCT)或概念上类似变换)将残余视频数据变换成残余变换系数。变换处理单元212可将来自像素域的残余视频数据转换成变换域,例如,频域。
变换处理单元212可将所得变换系数发送到量化单元214。量化单元214将变换系数量化以进一步减小比特率。量化过程可减小与系数中的些或全部相关联的位深度。量化程度可通过调整量化参数来修改。在一些实例中,量化单元214可接着对包含经量化变换系数的矩阵执行扫描。替代地,熵编码单元216可执行扫描。
在量化之后,熵编码单元216对表示经量化变换系数的语法元素进行熵编码。举例来说,熵编码单元216可执行上下文自适应可变长度写码(CAVLC)、上下文自适应二进制算法写码(CABAC)、基于语法的上下文自适应二进制算法写码(SBAC)、概率区间分割熵(PIPE)写码或另一熵编码方法或技术。在由熵编码单元216进行的熵编码之后,可将经编码位流发射视频解码器30或封存以供稍后由视频解码器30进行发射或撷取。熵编码单元216也可对用于正写码的当前视频分片的运动矢量及其它语法元素进行熵编码。
反量化单元224及反变换处理单元226分别应用反量化及反变换以重建构像素域中的残余块以供稍后用作参考图片的参考块。运动补偿单元220可通过将残余块添加到参考图片列表中的一者内的参考图片中的一者的预测性块来计算参考块。运动补偿单元220也可将一或多个内插滤波器应用于经重建构残余块以计算供用于运动估计的分段整数像素值。加法器228可将经重建构的残余块加入到由运动补偿单元220产生的运动补偿预测性块以产生参考块以存储在参考图片存储器208中。参考块可由运动估计单元218及运动补偿单元220用作参考块以对随后视频帧或图片中的块进行帧间预测。
在一些实例中,后处理实体200产生用于存储视频内容(例如由视频编码器20产生的位流)的文件。例如,后处理实体200可接收位流,所述位流包含形成视频数据的经编码图片的表示的位序列。在此实例中,视频数据的图片包含当前图片,所述当前图片经分割成多个图块,且所述多个图块中的每一相应图块为相应矩形区。此外,在此实例中,后处理实体200可产生文件中的NAL单元映射项方块(例如,NALUMapEntry)。NAL单元映射项方块使位流的NAL单元与图块集相关联。在此实例中,图块集可包含当前图片经分割成的多个图块中的两个或多于两个图块。在一些情况中,由图块集中的图块覆盖的当前图片的区的形状并非矩形。此外,在此实例中,后处理实体200产生文件中的图块集群组项。所述图块集群组项包含识别所述图块集的群组识别符语法元素。此外,在此实例中,所述图块集项方块包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素。水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。宽度语法元素规定覆盖图块集中的图块的最小矩形区的宽度。高度语法元素规定覆盖图块集中的图块的最小矩形区的高度。
图7为说明可实施本发明中所描述的技术的实例性视频解码器30的框图。图7的视频解码器30表示经配置以解码可使用本发明中所描述的文件格式技术存储的视频数据的视频记录器的实例。
视频解码器30可经配置以解码单个视图、多个视图、可缩放、3D及其它类型的视频数据。在图7的实例中,视频解码器30包含熵解码单元250、预测处理单元252、反量化单元254、反变换处理单元256、求和器258、滤波器单元260及参考图片存储器262。预测处理单元252包含运动补偿单元264及帧内预测处理单元266。视频解码器30可在一些实例中,执行通常与从图6关于视频编码器20所描述的编码步骤互逆的解码步骤。
经写码图片缓冲器(CPB)268可接收并存储位流的经写码视频数据(例如,NAL单元)。可经由视频数据的有线或无线网络通信或通过存取实体数据存储媒体(例如)从图1的链路16(例如,从本地视频源(例如相机))获得存储在CPB 268中的视频数据。CPB 268可形成存储来自经编码视频位流的经编码视频数据的视频数据存储器。参考图片存储器262可为存储参考视频数据供用于由视频解码器30(例如以帧内或帧间写码模式)解码视频数据的参考图片存储器。CPB 268及参考图片存储器262可由各种存储器装置中的任一者形成,例如动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。CPB 268及参考图片存储器262可由相同存储器装置或单独存储器装置提供。在各种实例中,CPB 268可与视频解码器30的其它组件在芯片上,或相对于那些组件在芯片外。
在解码程序期间,视频解码器30从视频编码器20接收表示经编码视频分片的视频块的经编码视频位流及相关联语法元素。在图7的实例中,视频解码器30可从文件剖析单元270接收经编码视频位流,所述文件剖析单元剖析文件以提取经写码视频位流。在一些实例中,文件剖析单元270可接收来自网络实体272的文件。网络实体272可(例如)为服务器、MANE、视频编辑器/拼接器或经配置以实施上文所描述的技术中的或多者的其它此类装置。网络实体272可或可不包含视频编码器,例如视频编码器20。本发明中所描述的技术中的些可在网络实体272将经编码视频位流发射到视频解码器30之前由网络实体272实施。在一些视频解码系统中,网络实体272及视频解码器30可为单独装置的部分,而在其它情况中,关于网络实体272所描述的功能性可由包括视频解码器30的相同装置执行。网络实体272可被视为视频装置。此外,在一些实例中,网络实体272为图1的文件产生装置34。文件剖析单元270可实施为目的地装置14的部分或与目的地装置分离的装置。在一些实例中,网络实体272及文件剖析单元270是由同一装置实施。
在图7的实例中,文件剖析单元270可获得文件中的NAL单元映射项方块。在此实例中,NAL单元映射项方块使位流的NAL单元与图块集相关联。位流包含形成视频数据的经编码图片的表示的位序列。在此实例中,视频数据的图片包含当前图片,所述当前图片经分割成多个图块,且所述多个图块中的每一相应图块为相应矩形区。此外,在此实例中,图块集包含当前图片经分割成的多个图块中的两个或多于两个图块。在一些情况中,由图块集中的图块覆盖的当前图片的区的形状可能并非矩形。在此实例中,文件剖析单元270可获得文件中的图块集群组项(例如,TileSetGroupEntry、TileRegionGroupEntry)。图块集群组项包含识别所述图块集的群组识别符语法元素。此外,图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素。水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。宽度语法元素规定覆盖图块集中的图块的最小矩形区的宽度。高度语法元素规定覆盖图块集中的图块的最小矩形区的高度。此外,在此实例中,文件剖析单元270可基于水平偏移语法元素、垂直偏移语法元素、宽度语法元素,及高度语法元素而处理图块集。例如,文件剖析单元270可使用水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素来确定对应于图块集群组项的图块集是否为所要图块集。此外,在此实例中,如果对应于图块集群组项的图块集为所要图块集,那么文件剖析单元270可使用NAL单元映射项方块来识别与所要图块集相关联的位流的NAL单元。文件剖析单元270可将所识别NAL单元转发到视频解码器30以进行解码。所要图块集可由在文件剖析单元270外部的来源规定,文件剖析单元270可基于解码视频数据的装置(例如,目的地装置14)的数据而确定所要图块集,文件剖析单元270可基于其它因素(例如带宽)来确定所要图块集,及/或文件剖析单元270可以其它方式确定所要图块集。
视频解码器30的熵解码单元250对位流的特定语法元素进行熵解码以产生量化系数、运动矢量及其它语法元素。熵解码单元250将运动矢量及其它语法元素转发到预测处理单元252。视频解码器30可接收视频分片等级及/或视频块等级的语法元素。
在视频分片被写码为帧内写码(I)分片时,预测处理单元252的帧内预测处理单元266可基于来自当前帧或图片的先前经解码块的所发信帧内预测模式及数据来产生关于当前视频分片的视频块的预测数据。当视频帧被写码为帧间写码(即,B或P)分片时,预测处理单元252的运动补偿单元264基于从熵解码单元250接收的运动矢量及其它语法元素来产生当前视频分片的视频块的预测性块。可由参考图片列表内的参考图片中的一者产生预测性块。视频解码器30可基于参考图片存储器262中所存储的参考图片来使用默认构造技术构造参考帧列表(列表0及列表1)。
运动补偿单元264通过确定运动矢量及获得其它语法元素来确定当前视频分片的视频块的预测信息,且使用预测信息来产生所解码的当前视频块的预测性块。举例来说,运动补偿单元264使用所接收的语法元素中的些来确定用于对视频分片的视频块进行写码的预测模式(例如,帧内或帧间预测)、在帧间预测的状况下的帧间预测分片类型(例如,B分片或P分片)、关于分片的参考图片列表中的或多者的构造信息、关于分片的每一帧间编码视频块的运动矢量、关于分片的每一帧间写码视频块的帧间预测状态及用以对当前视频分片中的视频块进行解码的其它信息。
运动补偿单元264也可基于内插滤波器执行内插。运动补偿单元264可使用如在对视频块进行编码期间由视频编码器20所使用的内插滤波器来计算参考块的分段整数像素的内插值。在此状况下,运动补偿单元264可依据所接收语法元素来确定由视频编码器20所使用的内插滤波器且使用内插滤波器来产生预测性块。
反量化单元254使在位流中提供且由熵解码单元250解码的经量化变换系数反量化,即,解-量化。反量化程序可包含使用视频分片中的每一视频块的由视频编码器20计算的量化参数来确定量化的程度及同样地应所述应用的反量化的程度。反变换单元256将反变换(例如,反DCT、反整数变换或概念上类似反变换过程)应用于变换系数以便在像素域中产生残差块。
在运动补偿单元264基于运动矢量及其它语法元素来产生当前视频块的预测性块之后,视频解码器30通过对来自反变换处理单元256的残余块与由运动补偿单元264产生的对应预测性块求和来形成经解码的视频块。加法器258表示执行此加法运算的(多个)组件。如果期望,那么也可使用环路滤波器(在写码环路中或在写码环路之后)来平滑像素过渡,或以其它方式改进视频质量。滤波器单元260意欲表示一或多个环路滤波器,例如,解块滤波器、自适应环路滤波器(ALF),及/或样本自适应偏移(SAO)滤波器。尽管滤波器单元260在图7中经展示为环路内滤波器,但在其它配置中,滤波器单元260可实施为后环路滤波器。接着将给定帧或图片中的经解码视频块存储在参考图片存储器262中,所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器262也存储用于稍后在显示装置(例如,图1的显示装置32)上呈现的经解码视频数据。因此,参考图片存储器262可为经配置以存储视频数据的一或多个数据存储媒体的实例。
在此章节提供在本发明中别处所描述的本发明的技术的实例性细节的论述。如上文所述,“<insert>“与“</insert>“符号之间的文字对应于新增或经修改的现有文字(例如,<insert>新增文字</insert>),而经移除的文字在“<delete>“与“</delete>“符号之间(例如,<delete>经删除文字</delete>)。
如上文所指示,根据本发明的实例,提议将图块区概念合并到图块集概念。以下文字描述此实例的实施细节。特定来说,在与TileRegionGroupEntry方块合并之后的TileSetGroupEntry方块的语法及语意可如下定义:
Figure GDA0002914829120000601
Figure GDA0002914829120000611
groupID为图块集的识别符。值0经保留供专用于“nalm”方块。
<insert>layerID为图块集单元所属于的层的识别符。
rectangular_flag指示由图块集中的图块覆盖的区域是否为矩形形状。
independent_idc规定此图块集与当前图片中及同一层的参考图片中的其它图块集之间的写码相依性。层间相依性(如果存在)由“linf”及/或“oinf”样本群组指示。如果gidA等于gidB且lidB为lidA的参考层(如由“linf”及/或“oinf”样本群组指示),那么具有groupID gidA及layerID lidA的图块集具有对具有groupID gidB及layerID lidB的另图块集的层间相依性。
independent_idc的值如下:
-如果independent_idc等于0,此图块集与相同图片或先前图片中的其它图块之间的写码相依性为未知的。
-如果independent_idc等于1,那么在此图块集与任何参考图片中的具有不同groupID的其它图块集之间不存在时间相依性,但可在同图块集内的不同图片的图块之间存在时间写码相依性。
-如果independent_idc等于2,那么此图块集中的图块与参考图片中的任何其它图块之间不存在任何时间相依性。
-保留值3。</insert>
filtering_disabled在经设置时指示此图块区上无任何解码后筛选操作需要存取邻近于此图块区的像素,即,图块区的水平确重建构为可能的而无需解码邻近的图块。
<insert>horizontal_offset规定覆盖图块集中的图块的最小矩形区的左上方像素在基本区(其为整个图片)的亮度样本相对于图片的左上方像素的水平偏移。
vertical_offset规定覆盖图块集中的图块的最小矩形区的左上方像素在基本区的亮度样本相对于图片的左上方像素的垂直偏移。
region_width规定基本区的亮度样本中覆盖图块集中的图块的最小矩形区的宽度。
region_height规定基本区的亮度样本中覆盖图块集中的图块的最小矩形区的高度。</insert>
因此,在上文的实例性文字中,图块集具有层特定范围。此外,作为产生图块集群组项(例如,TileSetGroupEntry)的部分,文件产生装置34可在图块集群组项中包含描述图块集所属于的层内的相依性的相依性信息(例如,independent_idc)。例如,文件产生装置34可在图块集群组项中包含规定图块集与当前图片中及图块集所属于的层的参考图片中的其它图块集之间的写码相依性的特定语法元素(例如,independent_idc)。在此实例中,文件产生装置34可在文件中的层信息样本群组(例如“linf”样本群组)或文件中的操作点信息样本群组(例如“oinf”样本群组)中指示层相依性。在一些实例中,特定语法元素为旗标(例如,independent_flag)。在此些实例中,旗标具有恰好两个状态,旗标的第一状态指示无时间相依性,旗标的第二状态指示可存在或可不存在时间相依性。类似地,在一些实例中,文件剖析单元31可从图块集群组项内获得规定图块集与当前图片中及图块集所属于的层的参考图片中的其它图块集之间的写码相依性的特定语法元素。另外,在此实例中,文件剖析单元31可基于文件中的层信息样本群组或文件中的操作点信息样本群组而确定层间相依性。在此实例中,文件剖析单元31可基于水平偏移语法元素、垂直偏移语法元素、宽度语法元素,高度语法元素及层间相依性而通过处理图块集来处理图块集。
当由图块集中的图块覆盖的区不具有矩形形状时,通过horizontal_offset、vertical_offset、region_width及region_height描述最小矩形区域,如图4的实例中所展示。此外,与上文致使覆盖不同层中的并置区的图块集具有相同图块集ID且可在“oinf”及“linf”样本群组中发信层相依性的实例一致,如上文的文字中所阐明的independent_idc语法元素的语意包含:
层间相依性(如果存在)由“linf”及/或“oinf”样本群组指示。如果gidA等于gidB且lidB为lidA的参考层(如由“linf”及/或“oinf”样本群组指示),那么具有groupID gidA及layerID lidA的图块集具有对具有groupID gidB及layerID lidB的另图块集的层间相依性。
在一些实例中,在上文所提出的修改之后,independent_idc语法元素的仅两个值具有有意义用途;所述两个值为:具有等于1或2的值的independent_idc语法元素。换句话说,具有等于0的值的independent_idc语法元素的值不具有任何有意义用途。因此,independent_idc语法元素可简化为旗标而非指示符。因此,independent_idc语法元素可由1字节成,与两个位不同。旗标的两个状态可规定为“无时间相依性”及“可具有或可不具有时间相依性”。文件编排器(例如,文件产生装置34)可始终能够使用后者作为选项,借此实现由具有在上述语意中定义的值0的independent_idc语法元素实现的意义。
在另一实例中,在与TileRegionGroupEntry方块合并之后的TileSetGroupEntry方块的语法及语意可如下定义:
Figure GDA0002914829120000641
Figure GDA0002914829120000651
上文所展示的TileSetGroupEntry方块的两个实例性经修改语法不同的处在于TileSetGroupEntry方块的第二经修改语法包含“rectangular_flag”语法元素且仅在“rectangular_flag”语法元素等于1的情况下包含“horizontal_offset”、“vertical_offset”、“region_width”及“region_height”语法元素。“rectangular_flag”语法元素指示对应于TileSetGroupEntry方块的图块集是否为矩形。上述情形与上文关于仅在由图块集中的图块覆盖的区为矩形形状的情况下才发信水平偏移、垂直偏移、宽度及高度的信息的实例一致。
如上文所论述,本发明的特定实例将子样本中的图块的映射机制添加到NALUMapEntry而非TileRegionGroupEntry。以下文字提供根据此些实例提供额外实例性细节。
Figure GDA0002914829120000652
Figure GDA0002914829120000661
large_size指示音轨样本中的NAL单元项的数目是以8位还是16位表示。<insert>nalu_flag指示是否将每一NAL单元映射到至多一个图块集。当nalu_flag等于1时,subsample_count的值经设置为1,否则,subsample_count的值经设置等于在flags等同于2的情况下
SubSampleInformationBox中的对应的subsample_count值(基于图块的子样本)。</insert>
<delete>rle指示是(1)否(0)使用行程长度编码来将groupID指派到NAL单元。</delete>
entry_count规定映射中的项的数目。<delete>应注意,当rle等于1时,entry_count对应于连续NAL单元与相同群组相关联的行程的数目。当rle等于0时,entry_count表示NAL单元的总数目。
NALU_start_number为与groupID相关联的当前行程中的第一NALU的样本中的基于1的NALU索引。</delete>
groupID指示对应的<delete>可缩放、多视图</delete>图块区或图块集
<delete>群组</delete>项,如样本群组描述中所指示。如果为0,无任何群组与此些所识别NALU相关联。
此外,如上文所述,在本发明的一些实例中,将NALUMapEntry方块中的行程长度编码机制移除。将行程长度编码机制从NALUMapEntry方块移除对应于上文所展示之经修正NALUMapEntry方块中以下内容:
<delete>rle指示是(1)否(0)使用行程长度编码来将groupID指派到NAL单元。</delete>
entry_count规定映射中的项的数目。<delete>应注意,当rle等于1时,entry_count对应于连续NAL单元与相同群组相关联的行程的数目。当rle等于0时,entry_count表示NAL单元的总数目。
NALU_start_number为与groupID相关联的当前行程中的第一NALU的样本中的基于1的NALU索引。</delete>
Figure GDA0002914829120000671
NALUMapEntry的以下语法及语意展示用以实施本发明中别处所描述的各种实例的ISO/IEC 14496-15的改变的实例。
Figure GDA0002914829120000672
Figure GDA0002914829120000681
Figure GDA0002914829120000691
large_size指示音轨样本中的NAL单元项的数目是以8位还是16位表示。
<insert>nalu_flag指示是否将每一NAL单元映射到至多一个图块区或图块集。当nalu_flag等于1时,将每一NAL单元映射到至多一个图块区或图块集。当nalu_flag等于0时,可将每一NAL单元映射到多于一个图块区或图块集。</insert>
<delete>rle指示是(1)否(0)使用行程长度编码来将groupID指派到NAL单元。</delete>
entry_count规定映射中的项的数目。<delete>应注意,当rle等于1时,entry_count对应于连续NAL单元与相同群组相关联的行程的数目。当rle等于0时,entry_count表示NAL单元的总数目。
NALU_start_number为与groupID相关联的当前行程中的第一NALU的样本中的基于1的NALU索引。</delete>
<insert>subsample_count规定NAL单元中存在的子样本的数目。</insert>
大于1的groupID指示对应的<delete>可缩放、多视图</delete>图块区或图块集群组项,如样本群组描述中所指示。如果为0,<insert>NAL单元或子样本并不与任何群组相关联</insert><delete>无任何群组与此些经修改NALU相关联</delete><insert>;另外,如果为1,那么NAL单元为非VCL NAL单元且可被需要用于处理具有大于1的groupID的任何群组。
subsample_idx将基于0的索引规定到映像样本中的子样本,如SubSampleInformationBox中所指示。</insert>
如上文所述,在本发明的一些实例中,可将循环添加到NALUMapEntry方块以发信关于NAL单元中的每一子样本的groupID语法元素。此循环对应于上文所展示的经修正NALUMapEntry方块中的以下循环:
Figure GDA0002914829120000692
Figure GDA0002914829120000701
此外,如上文所述,在本发明的一些实例中,特殊groupID值指示与所有图块区或图块集相关联的NAL单元。即,当nalu_flag等于1时,NALUMapEntry方块可包含一系列groupID语法元素。所述系列groupID语法元素中的每一相应groupID语法元素对应于相应NAL单元且指示对应NAL单元的群组识别符。在上文的实例性文字中,等于1的groupID语法元素指示对应的NAL单元为非VCL NAL单元且可被需要用于处理具有大于1的groupID的任何群组,且因此与所有图块集相关联。此特殊groupID的使用可解决ISO/IEC 14496-15中关于如何将groupID值指派到非VCL NAL单元的问题。在上述的文字中,groupID语法元素的语意经更正以规定经指派1的groupID的NAL单元为非VCL NAL单元。在其它实例中,除1外的值可用于指示非VCL NAL单元。
图8为根据本发明的一或多个技术说明文件300的实例性结构的概念图。在图8的实例中,文件300包含电影方块302及多个媒体数据方块304。尽管在图8的实例中经说明为在相同文件中,但在其它实例中,电影方块302及媒体数据方块304可在单独文件中。如上文所指示,方块可为由唯一类型识别符及长度定义的面向对象建构块。例如,方块可为ISOBMFF中的基础语法结构,包含四字符写码方块类型、方块的字节计数及有效负载。
电影方块302可含有关于文件300的音轨的元数据。文件300的每一音轨可包括媒体数据的连续流。媒体数据方块304中的每一者可包含一或多个样本305。样本305中的每一者可包括音讯或视频存取单元。如本发明中别处所描述,每一存取单元可在多视图写码(例如,MV-HEVC及3D-HEVC)及可缩放视频写码(例如,SHVC)中包括多个经写码图片。举例来说,存取单元可针对每一层包含一或多个经写码图片。
此外,在图8的实例中,电影方块302包含音轨方块306。音轨方块306可封围关于文件300的音轨的元数据。在其它实例中,电影方块302可包含用于文件300的不同音轨的多个音轨方块。音轨方块306包含媒体方块307。媒体方块307可含有宣告关于音轨内的媒体数据的信息的所有对象。媒体方块307包含媒体信息方块308。媒体信息方块308可含有宣告音轨的媒体的特性信息的所有对象。媒体信息方块308包含样本表方块309。样本表方块309可规定样本特定元数据。
在图8的实例中,样本表方块309包含至少一个SampleToGroup方块310、SampleGroupDescription方块312及SampleGroupDescription方块314。在其它实例中,除SampleToGroup方块310、SampleGroupDescription方块312及SampleGroupDescription方块314外,样本表方块309也可包含其它方块,及/或可包含多个SampleToGroup方块及SampleGroupDescription方块。SampleToGroup方块310可将样本(例如,样本305中的特定者)映射到样本群组。SampleGroupDescription方块312及SampleGroupDescription方块314可规定由样本群组(即,样本群组)中的样本共享的性质。
此外,在图8的实例中,SampleToGroup方块310包含grouping_type语法元素319(即,分组类型语法元素)、entry_count语法元素315(即,项计数语法元素)及一或多个样本群组项316。Entry_count语法元素315指示样本群组项316的数目。样本群组项316中的每一者包含sample_count语法元素317(即,样本计数语法元素)及group_description_index语法元素318(即,群组描述索引语法元素)。Sample_count语法元素317可指示与含有sample_count语法元素317的样本群组项相关联的样本的数目。
Group_description_index语法元素318可在SampleGroupDescription方块(例如,SampleGroupDescription方块312、SampleGroupDescription方块314)内识别含有与含有group_description_index语法元素318的样本群组项相关联的样本的描述的群组描述项。
另外,在图8的实例中,SampleGroupDescription方块312包含grouping_type语法元素320、entry_count语法元素322及一或多个图块集群组项324。图块集群组项324中的每一者为样本群组项的例子。如果SampleToGroup方块的群组类型语法元素(例如,SampleToGroup方块310的grouping_type语法元素319)规定与grouping_type语法元素320的值匹配的值,那么SampleToGroup方块对应于SampleGroupDescription方块。
Entry_count语法元素322指示SampleGroupDescription方块中的图块集群组项324的数目。图10(在本发明中别处详细描述)说明图块集群组项的实例性内容。
此外,在图8的实例中,SampleGroupDescription方块314包含grouping_type语法元素326、entry_count语法元素328及一或多个NAL单元映射项330。NAL单元映射项330中的每一者为样本群组项的例子。Entry_count语法元素328指示SampleGroupDescription方块314中的NAL单元映射项330的数目。在一些实例中,群组识别符语法元素402具有指示NAL单元与所有图块集(例如,层的所有图块集)相关联的值(例如,1)。
图9为根据本发明的一或多个技术说明文件350的实例性结构的概念图。在图9的实例中,文件350包含一或多个电影片段方块352及多个媒体数据方块354。尽管在图9的实例中经说明为在相同文件中,但在其它实例中,电影片段方块352及媒体数据方块354可在单独文件中。媒体数据方块354中的每一者可包含一或多个样本356。样本356中的些或全部可包括视频内容的相应图片。电影片段方块中的每一者对应于电影片段。每一电影片段可包括音轨片段集。每音轨可存在零或更多个音轨片段。
在图9的实例中,电影片段方块352提供关于对应电影片段的信息。电影片段方块352可包含音轨片段方块358。音轨片段方块358对应于音轨片段且提供关于音轨片段的信息。
例如,在图9的实例中,音轨片段方块358可包含SampleToGroup方块362、SampleGroupDescription方块364及SampleGroupDescription方块366。SampleToGroup方块362及SampleGroupDescription方块364、366含有关于对应于音轨片段方块358的音轨片段的信息。除SampleToGroup方块362及SampleGroupDescription方块364、366外,音轨片段方块358也可包含一或多个SampleToGroup方块及一或多个SampleGroupDescription方块。此外,在图9的实例中,SampleToGroup方块362包含grouping_type语法元素370(即,分组类型语法元素)、entry_count语法元素371(即,项计数语法元素)及一或多个样本群组项372。Entry_count语法元素371指示样本群组项372的数目。样本群组项372中的每一者包含sample_count语法元素373(即,样本计数语法元素)及group_description_index语法元素374(即,群组描述索引语法元素)。Sample_count语法元素373可指示与含有sample_count语法元素373的样本群组项相关联的样本的数目。
Group_description_index语法元素374可在SampleGroupDescription方块(例如,SampleGroupDescription方块364)内识别含有与含有group_description_index语法元素374的样本群组项相关联的样本的描述的群组描述项。
另外,在图9的实例中,SampleGroupDescription方块364包含grouping_type语法元素380、entry_count语法元素382及一或多个图块集群组项384。图块集群组项中的每一者为群组描述项的例子。Entry_count语法元素382指示SampleGroupDescription方块364中的图块集群组项384的数目。
此外,在图9的实例中,SampleGroupDescription方块366包含grouping_type语法元素386、entry_count语法元素388及一或多个NAL单元映射项390。NAL单元映射项390中的每一者为样本群组项的例子。Entry_count语法元素388指示SampleGroupDescription方块366中的NAL单元映射项390的数目。
在图8或图9中,TileRegionGroupEntry扩展VisualSampleGroupEntry。如14496-12的章节8.9.3.2中所描述,VisualSampleGroupEntry为SampleGroupDescriptionEntry类别的扩展。因此,在一些实例中,TileSetGroupEntry类别(即,TileSetGroupEntry方块)的例子可为群组描述项中的不同者。
图10为根据本发明的一或多个技术说明图块集群组项400的概念图。如图10的实例中所说明,图块集群组项400可包含群组识别符(例如,groupID)语法元素402、水平偏移(例如,horizontal_offset)语法元素404、垂直偏移(例如,vertical_offset)语法元素406、宽度(例如,region_width)语法元素408,及高度(例如,region_height)语法元素410。群组识别符语法元素402识别图块集。
水平偏移语法元素404规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素406规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。宽度语法元素408规定覆盖图块集中的图块的最小矩形区的宽度。宽度语法元素410规定覆盖图块集中的图块的最小矩形区的高度。
在一些实例中,图块集群组项400也可包含相依性信息412。相依性信息412可描述图块集所属于的层内的相依性。举例来说,相依性信息412可描述识别图块集群组项400应用于的样本的时间子层的时间识别符。在一些实例中,相依性信息412包括规定图块集与当前图片中及图块集所属于的层的参考图片中的其它图块集之间的写码相依性的特定语法元素(例如,independent_idc、independent_flag)。
图11为根据本发明的技术说明用于产生与存储视频数据的文件的程序的实例的流程图。本发明的流程图经提供作为实例。其它处理可包含更多、更少或不同动作。此外,在一些情况中,可以不同次序或并行地执行动作。此外,本发明参考文件产生装置34描述图11。然而,其它装置可能够执行图11的程序。
在图11的实例中,文件产生装置34可接收位流,所述位流包含形成所述视频数据的经编码图片的表示的位序列(450)。例如,文件产生装置34的存储器可从网络接口、磁盘或其它媒体接收位流。视频数据的图片包含当前图片。将当前图片分割成多个图块。多个图块的每一相应图块为相应矩形区。例如,可将当前图片分割成四个等大小图块,每一图块为矩形区,如图2及图3的实例中所展示。
另外,在图11的实例中,文件产生装置34产生文件中的NAL单元映射项方块(例如,NALUMapEntry)(452)。举例来说,文件产生装置34可存储表示文件中的NAL单元映射项方块的数据。NAL单元映射项方块使位流的NAL单元与图块集相关联。图块集包含当前图片经分割成的多个图块中的或多个图块。举例来说,如在图4的实例中所展示,图块集可包含当前图片经分割成的多个图块中的两个或多于两个图块。在一些情况中,由图块集中的图块覆盖的当前图片的区(例如,图4中的区域124)的形状并非矩形。在一些情况中,由图块集中的图块覆盖的当前图片的区的形状为矩形。
此外,在图11的实例中,文件产生装置34产生文件中的图块集群组项(例如,TileSetGroupEntry、TileRegionGroupEntry)(454)。举例来说,文件产生装置34可存储表示文件中的图块集群组项方块的数据。图块集群组项可包含识别所述图块集的群组识别符语法元素。此外,图块集项包含水平偏移语法元素(例如,horizontal_offset)、垂直偏移语法元素(例如,vertical_offset)、宽度语法元素(例如,region_width)及高度语法元素(例如,region_height)。水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。宽度语法元素规定覆盖图块集中的图块的最小矩形区的宽度。高度语法元素规定覆盖图块集中的图块的最小矩形区的高度。
此外,在一个实例中,文件产生装置34可产生文件中的第二NAL单元映射项方块。在此实例中,第二NAL单元映射项方块可包含群组识别符语法元素。此外,在此实例中,第二NAL单元映射项方块的群组识别符语法元素具有指示NAL单元与所有图块集相关联的值(例如,1或另一值)。如本发明彼处所描述,文件处理装置(例如,实施文件剖析单元31(图1)的装置)可使用第二NAL单元映射项来识别非VCL NAL单元,所述非VCL NAL单元可包含解码包含图块集的VCL NAL单元所需要的数据。
图12为根据本发明的技术说明用于处理存储经编码视频数据的文件的程序的实例的流程图。参考文件剖析单元31解释图12的实例程序。然而,其它装置或单元可执行图12的实例性程序。
在图12的实例中,文件剖析装置31获得文件中的NAL单元映射项方块(例如,NALUMapEntry)(500)。举例来说,文件剖析单元31可从文件读取NAL单元映射项方块。NAL单元映射项方块使位流的NAL单元与图块集相关联。举例来说,如本发明中别处所描述,NAL单元映射项方块可包含指示借以映像NAL单元的图块集的语法元素(例如,groupID)语法元素。位流包含形成视频数据的经编码图片的表示的位序列。视频数据的图片包含当前图片。将当前图片分割成多个图块。举例来说,语法元素(例如,HEVC中的num_tile_columns_minus1、num_tile_rows_minus1、uniform_spacing_flag,等等)可规定如何将当前图片分割成图块。多个图块的每一相应图块为相应矩形区。图块集包含当前图片经分割成的多个图块中的或多个图块。举例来说,如在图4的实例中所展示,图块集可包含当前图片经分割成的多个图块中的两个或多于两个图块。在一些情况中,由图块集中的图块覆盖的当前图片的区(例如,图4中的区域124)的形状并非矩形。在一些情况中,由图块集中的图块覆盖的当前图片的区的形状为矩形。
此外,在图12的实例中,文件剖析单元31获得文件中的图块集群组项(例如,TileSetGroupEntry、TileRegionGroupEntry)(502)。图块集群组项包含识别所述图块集的群组识别符语法元素。图块集项包含水平偏移语法元素(例如,horizontal_offset)、垂直偏移语法元素(例如,vertical_offset)、宽度语法元素(例如,region_width)及高度语法元素(例如,region_height)。水平偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的水平偏移。垂直偏移语法元素规定覆盖图块集中的图块的最小矩形区的左上方像素的垂直偏移。宽度语法元素规定覆盖图块集中的图块的最小矩形区的宽度。高度语法元素规定覆盖图块集中的图块的最小矩形区的高度。
另外,在图12的实例中,文件剖析单元31基于水平偏移语法元素、垂直偏移语法元素、宽度语法元素,及高度语法元素而处理图块集(504)。文件剖析单元31可以各种方式处理图块集。例如,文件剖析单元31可从文件提取图块集的图块并发射所提取图块。举例来说,文件剖析单元31可确定(例如,基于图块集的位置及大小)图块集是否对应于欲加以显示的所要区。如果如此,文件剖析单元31可使用NAL单元映射项方块来确定包含图块集的经编码块的NAL单元。文件剖析单元31可接着提取所确定NAL单元。
此外,在一个实例中,文件剖析单元31可从文件获得第二NAL单元映射项方块。第二NAL单元映射项方块可包含群组识别符语法元素。此外,在此实例中,具有特定值(例如,1或另一值)的第二NAL单元映射项方块的群组识别符语法元素(例如,groupID)指示NAL单元与所有图块集相关联。在此实例中,基于第二NAL单元映射项方块的群组识别符语法元素具有指示NAL单元与所有图块集相关联的值,文件剖析单元31可从文件提取NAL单元。此外,在一些情况中,文件剖析单元31可发射NAL单元。
在一或多个实例中,所描述的功能可以硬件、软件、固件或其任一组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或程序代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体,或包含促进(例如)根据通信协议将计算机程序从一个位置传送到另一位置的任一媒体的通信媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以撷取用于实施本发明中所描述的技术的指令、程序代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例的方式且非限制性,此些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光学磁盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用于以指令或数据结构的形式存储所要程序代码且可由计算机存取的其它媒体。此外,可将任何连接适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射指令,那么所述同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术皆包含于媒体的定义中。然而,应理解计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,但替代地针对非暂时性、有形存储媒体。如本文中所使用,磁盘及光盘包含:紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。上述各项的组合也应包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,例如一或多个数字信号处理器(DSP)、通用微处理器、特殊应用集成电路(ASIC)、场可编程逻辑数组(FPGA)或其它等效集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可是指前述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供在经配置以用于编码及解码或并入于组合式编解码器中的专用硬件及/或软件模块内。此外,技术可以一或多个电路或逻辑组件来完全实施。
本发明的技术可以广泛各种装置或装备(包含无线手机、集成电路(IC)或IC组(例如,芯片组))实施。各种组件、模块或单元在本发明中经描述以强调经配置以执行所揭示技术的装置的功能方面,而未必需要由不同硬件单元实现。确切来说,如上文所描述,各种单元可以编解码硬件单元组合或通过互操作硬件单元(包含如上文所描述的一或多个处理器)的集合结合适合软件及/或固件提供。
已描述各种实例。此些及其它实例在以下权利要求书的范围内。

Claims (30)

1.一种用于存储视频数据的方法,所述方法包括:
通过文件产生装置,接收位流,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;
通过所述文件产生装置,产生文件中的网络抽象层NAL单元映射项方块,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及
通过所述文件产生装置,产生所述文件中的图块集群组项,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
2.根据权利要求1所述的方法,其中所述图块集具有层特定范围。
3.根据权利要求2所述的方法,其中产生所述图块集群组项包括:
在所述图块集群组项中包含描述所述图块集所属于的层内的相依性的相依性信息。
4.根据权利要求3所述的方法,其中:
在所述图块集群组项中包含所述相依性信息包括:在所述图块集群组项中包含规定所述图块集与所述当前图片中及所述图块集所属于的所述层的参考图片中的其它图块集之间的写码相依性的特定语法元素,且
所述方法进一步包括:在所述文件中的层信息样本群组或所述文件中的操作点信息样本群组中指示层间相依性。
5.根据权利要求4所述的方法,其中所述特定语法元素为旗标,其中所述旗标具有恰好两个状态,所述旗标的第一状态指示无时间相依性,且所述旗标的第二状态指示可存在或可不存在时间相依性。
6.根据权利要求1所述的方法,其中所述NAL单元映射项方块为第一NAL单元映射项方块,所述方法进一步包括:
产生所述文件中的第二NAL单元映射项方块,所述第二NAL单元映射项方块包含群组识别符语法元素,所述第二NAL单元映射项方块的所述群组识别符语法元素具有指示NAL单元与所有图块集相关联的值。
7.一种处理存储经编码视频数据的文件的方法,所述方法包括:
通过文件处理装置,获得文件中的网络抽象层NAL单元映射项方块,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;
通过所述文件处理装置,获得所述文件中的图块集群组项,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及
基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集。
8.根据权利要求7所述的方法,其中处理所述图块集包括:
从所述文件提取所述图块集的所述图块;及
发送所提取的图块。
9.根据权利要求7所述的方法,其中所述图块集具有层特定范围。
10.根据权利要求9所述的方法,其中:
获得所述图块集群组项包括:从所述图块集群组项内获得描述所述图块集所属于的层内的相依性的相依性信息,且
处理所述图块集包括:基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素、所述高度语法元素及所述相依性信息而处理所述图块集。
11.根据权利要求10所述的方法,其中:
获得所述图块集群组项中的所述相依性信息包括:从所述图块集群组项内获得规定所述图块集与所述当前图片中及所述图块集所属于的所述层的参考图片中的其它图块集之间的写码相依性的特定语法元素,
所述方法进一步包括:基于所述文件中的层信息样本群组或所述文件中的操作点信息样本群组而确定层间相依性,且
处理所述图块集包括:基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素、所述高度语法元素及所述层间相依性而处理所述图块集。
12.根据权利要求11所述的方法,其中所述特定语法元素为旗标,其中所述旗标具有恰好两个状态,所述旗标的第一状态指示无时间相依性,且所述旗标的第二状态指示可存在或可不存在时间相依性。
13.根据权利要求7所述的方法,其中所述NAL单元映射项方块为第一NAL单元映射项方块,所述方法进一步包括:
从所述文件获得第二NAL单元映射项方块,所述第二NAL单元映射项方块包含群组识别符语法元素,所述第二NAL单元映射项方块的所述群组识别符语法元素具有指示NAL单元与所有图块集相关联的值;及
基于所述第二NAL单元映射项方块的所述群组识别符语法元素具有指示所述NAL单元与所有图块集相关联的所述值,
从所述文件提取所述NAL单元;及
发送所述NAL单元。
14.一种用于产生用于存储视频数据的文件的装置,所述装置包括:
存储器,其经配置以存储用于存储视频内容的文件;及
一或多个处理器,其实施于电路,所述一或多个处理器经配置以:
接收位流,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;
产生所述文件中的网络抽象层NAL单元映射项方块,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及
产生所述文件中的图块集群组项,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
15.根据权利要求14所述的装置,其中所述图块集具有层特定范围。
16.根据权利要求15所述的装置,其中所述一或多个处理器经配置以使得,作为产生所述图块集群组项的部分,所述一或多个处理器:
在所述图块集群组项中包含描述所述图块集所属于的层内的相依性的相依性信息。
17.根据权利要求16所述的装置,其中:
所述一或多个处理器经配置以使得,作为在所述图块集群组项中包含所述相依性信息的部分,所述一或多个处理器在所述图块集群组项中包含规定所述图块集与所述当前图片中及所述图块集所属于的所述层的参考图片中的其它图块集之间的写码相依性的特定语法元素,且
所述一或多个处理器经进一步配置以在所述文件中的层信息样本群组或所述文件中的操作点信息样本群组中指示层间相依性。
18.根据权利要求17所述的装置,其中所述特定语法元素为旗标,其中所述旗标具有恰好两个状态,所述旗标的第一状态指示无时间相依性,所述旗标的第二状态指示可存在或可不存在时间相依性。
19.根据权利要求14所述的装置,其中所述NAL单元映射项方块为第一NAL单元映射项方块,所述一或多个处理器经进一步配置以:
产生所述文件中的第二NAL单元映射项方块,所述第二NAL单元映射项方块包含群组识别符语法元素,所述第二NAL单元映射项方块的所述群组识别符语法元素具有指示NAL单元与所有图块集相关联的值。
20.一种用于处理存储经编码视频数据的文件的装置,所述装置包括:
存储器,其经配置以存储用于存储视频内容的文件;及
一或多个处理器,其实施于电路,所述一或多个处理器经配置以:
获得文件中的网络抽象层NAL单元映射项方块,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;
获得所述文件中的图块集群组项,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及
基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集。
21.根据权利要求20所述的装置,其中所述一或多个处理器经配置以使得,作为处理所述图块集的部分,所述一或多个处理器:
从所述文件提取所述图块集的所述图块;及
发送所提取的图块。
22.根据权利要求21所述的装置,其中所述图块集具有层特定范围。
23.根据权利要求22所述的装置,其中:
所述一或多个处理器经配置以使得,作为获得所述图块集群组项的部分,所述一或多个处理器从所述图块集群组项内获得描述所述图块集所属于的层内的相依性的相依性信息,且
所述一或多个处理器经配置以使得,作为处理所述图块集的部分,所述一或多个处理器基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素、所述高度语法元素及所述相依性信息而处理所述图块集。
24.根据权利要求23所述的装置,其中:
所述一或多个处理器经配置以使得,作为获得所述图块集群组项中的所述相依性信息的部分,所述一或多个处理器从所述图块集群组项内获得规定所述图块集与所述当前图片中及所述图块集所属于的所述层的参考图片中的其它图块集之间的写码相依性的特定语法元素,
所述一或多个处理器经进一步配置以基于所述文件中的层信息样本群组或所述文件中的操作点信息样本群组而确定层间相依性,且
所述一或多个处理器经配置以使得,作为处理所述图块集的部分,所述一或多个处理器基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素、所述高度语法元素及所述层间相依性而处理所述图块集。
25.根据权利要求24所述的装置,其中所述特定语法元素为旗标,其中所述旗标具有恰好两个状态,所述旗标的第一状态指示无时间相依性,所述旗标的第二状态指示可存在或可不存在时间相依性。
26.根据权利要求20所述的装置,其中所述图块集群组项为第一图块集群组项,所述一或多个处理器经进一步配置以:
从所述文件获得第二NAL单元映射项方块,所述第二NAL单元映射项方块包含群组识别符语法元素,所述第二NAL单元映射项方块的所述群组识别符语法元素具有指示NAL单元与所有图块集相关联的值;及
基于所述第二NAL单元映射项方块的所述群组识别符语法元素具有指示所述NAL单元与所有图块集相关联的所述值,
从所述文件提取所述NAL单元;及
发送所述NAL单元。
27.一种用于产生用于存储视频数据的文件的装置,所述装置包括:
用于接收位流的装置,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;
用于产生文件中的网络抽象层NAL单元映射项方块的装置,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及
用于产生所述文件中的图块集群组项的装置,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
28.一种用于处理存储经编码视频数据的文件的装置,所述装置包括:
用于获得文件中的网络抽象层NAL单元映射项方块的装置,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成所述视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;
用于获得所述文件中的图块集群组项的装置,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及
用于基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集的装置。
29.一种非暂时性计算机可读数据存储媒体,其上存储有指令,所述指令在经由一或多个处理器执行时,致使所述一或多个处理器以:
接收位流,所述位流包含形成视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区;
产生文件中的网络抽象层NAL单元映射项方块,所述NAL单元映射项方块使所述位流的NAL单元与图块集相关联,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;及
产生所述文件中的图块集群组项,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度。
30.一种非暂时性计算机可读数据存储媒体,其上存储有指令,所述指令在经由一或多个处理器执行时,致使所述一或多个处理器以:
通过文件处理装置,获得文件中的网络抽象层NAL单元映射项方块,所述NAL单元映射项方块使位流的NAL单元与图块集相关联,所述位流包含形成视频数据的经编码图片的表示的位序列,所述视频数据的所述图片包含当前图片,所述当前图片经分割成多个图块,所述多个图块中的每一相应图块为相应矩形区,所述图块集包含所述当前图片经分割成的所述多个图块中的两个或多于两个图块,由所述图块集中的所述图块覆盖的所述当前图片的区的形状并非矩形;
通过所述文件处理装置,获得所述文件中的图块集群组项,
所述图块集群组项包含识别所述图块集的群组识别符语法元素,
所述图块集群组项包含水平偏移语法元素、垂直偏移语法元素、宽度语法元素及高度语法元素,
所述水平偏移语法元素规定覆盖所述图块集中的图块的最小矩形区的左上方像素的水平偏移,
所述垂直偏移语法元素规定覆盖所述图块集中的图块的所述最小矩形区的所述左上方像素的垂直偏移,
所述宽度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的宽度,且
所述高度语法元素规定覆盖所述图块集中的所述图块的所述最小矩形区的高度;及
基于所述水平偏移语法元素、所述垂直偏移语法元素、所述宽度语法元素及所述高度语法元素而处理所述图块集。
CN201780018727.4A 2016-03-30 2017-03-28 在高效率视频写码及分层高效率视频写码文件格式的图块分组的改进 Active CN108886642B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662315575P 2016-03-30 2016-03-30
US62/315,575 2016-03-30
US15/470,148 US10419768B2 (en) 2016-03-30 2017-03-27 Tile grouping in HEVC and L-HEVC file formats
US15/470,148 2017-03-27
PCT/US2017/024560 WO2017172783A1 (en) 2016-03-30 2017-03-28 Improvement on tile grouping in hevc and l-hevc file formats

Publications (2)

Publication Number Publication Date
CN108886642A CN108886642A (zh) 2018-11-23
CN108886642B true CN108886642B (zh) 2021-05-14

Family

ID=59961332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780018727.4A Active CN108886642B (zh) 2016-03-30 2017-03-28 在高效率视频写码及分层高效率视频写码文件格式的图块分组的改进

Country Status (10)

Country Link
US (1) US10419768B2 (zh)
EP (1) EP3437327B1 (zh)
JP (1) JP6690010B2 (zh)
KR (1) KR102102554B1 (zh)
CN (1) CN108886642B (zh)
BR (1) BR112018069708A2 (zh)
CA (1) CA3015942C (zh)
ES (1) ES2781307T3 (zh)
TW (1) TWI699994B (zh)
WO (1) WO2017172783A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10148969B2 (en) * 2015-02-11 2018-12-04 Qualcomm Incorporated Of sample entry and operation point signalling in a layered video file format
US10535114B2 (en) * 2015-08-18 2020-01-14 Nvidia Corporation Controlling multi-pass rendering sequences in a cache tiling architecture
GB2550604A (en) * 2016-05-24 2017-11-29 Canon Kk Method, device, and computer program for encapsulating and parsing timed media data
WO2019073112A1 (en) * 2017-10-09 2019-04-18 Nokia Technologies Oy APPARATUS, METHOD, AND COMPUTER PROGRAM FOR VIDEO ENCODING AND DECODING
ES2971545T3 (es) * 2018-04-03 2024-06-05 Huawei Tech Co Ltd Señalización de formato de archivo de mitigación de errores en una codificación de vídeo dependiente del área de visualización basada en flujos de bits de subimágenes
US10607375B2 (en) * 2018-06-03 2020-03-31 Apple Inc. Encoding techniques
EP3811624A1 (en) 2018-06-21 2021-04-28 Telefonaktiebolaget LM Ericsson (publ) Tile shuffling for 360 degree video decoding
WO2019243539A1 (en) * 2018-06-21 2019-12-26 Telefonaktiebolaget Lm Ericsson (Publ) Tile partitions with sub-tiles in video coding
GB2575074B (en) * 2018-06-27 2022-09-28 Canon Kk Encapsulating video content with an indication of whether a group of tracks collectively represents a full frame or a part of a frame
KR102644707B1 (ko) * 2018-07-02 2024-03-06 노키아 테크놀로지스 오와이 비디오 코딩에서 타일 관련 어드레싱을 위한 방법 및 장치
CN112690004B (zh) * 2018-09-14 2023-01-13 华为技术有限公司 一种视频译码中的基于分块的寻址方法,译码器以及视频译码设备
EP3850841A1 (en) * 2018-09-14 2021-07-21 Vid Scale, Inc. Methods and apparatus for flexible grid regions
KR102629907B1 (ko) 2018-10-02 2024-01-30 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 타일 그룹 id에 기초한 화상들의 인코딩 및 디코딩
CN113170201B (zh) * 2018-11-30 2024-04-12 夏普株式会社 用于对视频数据进行解码的方法和设备
KR20210106996A (ko) * 2018-12-04 2021-08-31 브이아이디 스케일, 인크. 타일 그룹 분할
AU2019405497B2 (en) 2018-12-17 2023-06-01 Huawei Technologies Co., Ltd. Video coding method and apparatus
KR102569347B1 (ko) * 2018-12-20 2023-08-22 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 비디오 인코딩 및 디코딩에서의 개선된 타일 어드레스 시그널링
US11140403B2 (en) 2018-12-20 2021-10-05 Tencent America LLC Identifying tile from network abstraction unit header
US11477445B2 (en) * 2018-12-28 2022-10-18 Hfi Innovation Inc. Methods and apparatuses of video data coding with tile grouping
US20200236377A1 (en) * 2019-01-22 2020-07-23 Tencent America LLC Method for tile group identification
WO2020185145A1 (en) * 2019-03-08 2020-09-17 Telefonaktiebolaget Lm Ericsson (Publ) Methods providing encoding/decoding of dependent/independent partitions and related devices
CA3132390A1 (en) * 2019-03-11 2020-09-17 Tencent America LLC Tile and sub-picture partitioning
KR20230149875A (ko) 2019-03-11 2023-10-27 텐센트 아메리카 엘엘씨 비디오 비트스트림에서의 적응적 픽처 크기의 시그널링
AU2020280072A1 (en) * 2019-05-23 2021-12-16 Vid Scale, Inc. Video-based point cloud streams
WO2020256442A1 (ko) 2019-06-20 2020-12-24 주식회사 엑스리스 영상 신호 부호화/복호화 방법 및 이를 위한 장치
EP3987792A4 (en) * 2019-06-21 2022-09-28 Telefonaktiebolaget Lm Ericsson (Publ) VIDEO CODING LAYER RATE INCREASED INDICATION
EP3972260A4 (en) * 2019-07-04 2022-08-03 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, REPRODUCTION PROCESSING DEVICE AND REPRODUCTION PROCESSING METHOD
US11363307B2 (en) * 2019-08-08 2022-06-14 Hfi Innovation Inc. Video coding with subpictures
CN114747213A (zh) * 2019-09-27 2022-07-12 Sk电信有限公司 用于获取关于从画面拆分的子单元的信息的方法和装置
CN117640928A (zh) * 2020-02-28 2024-03-01 华为技术有限公司 用于指示条带的图像分割信息的解码器及对应方法
US11871143B2 (en) 2020-09-17 2024-01-09 Lemon Inc. Subpicture tracks in coded video
EP3972273A1 (en) * 2020-09-17 2022-03-23 Lemon Inc. Handling of non-vcl nal units in picture unit construction
US11902552B2 (en) * 2020-09-17 2024-02-13 Lemon Inc. Decoder configuration record in coded video
US11683529B2 (en) 2020-09-17 2023-06-20 Lemon Inc. Operational point sample group in coded video
WO2022131801A1 (ko) * 2020-12-15 2022-06-23 엘지전자 주식회사 레이어 정보를 포함하는 미디어 파일 생성/수신 방법, 장치 및 미디어 파일 전송 방법
US20240040169A1 (en) * 2020-12-21 2024-02-01 Lg Electronics Inc. Media file processing method and device therefor

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101675663A (zh) * 2007-02-14 2010-03-17 弗廷特风险投资集团 通过重置像素块进行的视频加扰
WO2015009108A1 (ko) * 2013-07-18 2015-01-22 삼성전자 주식회사 비디오 포멧 파라미터 전달을 사용하는 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6214235B2 (ja) * 2012-07-02 2017-10-18 キヤノン株式会社 ファイル生成方法、ファイル生成装置、及びプログラム
US9602827B2 (en) * 2012-07-02 2017-03-21 Qualcomm Incorporated Video parameter set including an offset syntax element
GB2509953B (en) * 2013-01-18 2015-05-20 Canon Kk Method of displaying a region of interest in a video stream
US9749627B2 (en) 2013-04-08 2017-08-29 Microsoft Technology Licensing, Llc Control data for motion-constrained tile set
WO2015005367A1 (ja) * 2013-07-12 2015-01-15 ソニー株式会社 画像復号装置および方法
EP3092796B1 (en) * 2014-01-07 2020-06-17 Canon Kabushiki Kaisha Method, device, and computer program for encoding inter-layer dependencies
US20160021375A1 (en) * 2014-07-16 2016-01-21 Qualcomm Incorporated Transport stream for carriage of video coding extensions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101675663A (zh) * 2007-02-14 2010-03-17 弗廷特风险投资集团 通过重置像素块进行的视频加扰
WO2015009108A1 (ko) * 2013-07-18 2015-01-22 삼성전자 주식회사 비디오 포멧 파라미터 전달을 사용하는 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치

Also Published As

Publication number Publication date
KR102102554B1 (ko) 2020-04-20
CN108886642A (zh) 2018-11-23
TWI699994B (zh) 2020-07-21
ES2781307T3 (es) 2020-09-01
US20170289556A1 (en) 2017-10-05
CA3015942C (en) 2021-06-15
WO2017172783A1 (en) 2017-10-05
JP6690010B2 (ja) 2020-04-28
US10419768B2 (en) 2019-09-17
EP3437327A1 (en) 2019-02-06
EP3437327B1 (en) 2019-12-25
TW201737711A (zh) 2017-10-16
CA3015942A1 (en) 2017-10-05
KR20180127997A (ko) 2018-11-30
JP2019511173A (ja) 2019-04-18
BR112018069708A2 (pt) 2019-02-05

Similar Documents

Publication Publication Date Title
CN108886642B (zh) 在高效率视频写码及分层高效率视频写码文件格式的图块分组的改进
US10298938B2 (en) Sample entry and operation point signalling in a layered video file format
US11115669B2 (en) End of sequence and end of bitstream NAL units in separate file tracks
US9648348B2 (en) Multi-layer video file format designs
EP3417624B1 (en) Handling of end of bitstream nal units in l-hevc file format and improvements to hevc and l-hevc tile tracks
EP3257262B1 (en) Sample grouping signaling in file formats

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant