CN110506421A

CN110506421A - 用于以媒体应用程序格式发信号通知可伸缩视频的系统和方法

Info

Publication number: CN110506421A
Application number: CN201880020089.4A
Authority: CN
Inventors: 萨钦·G·德施潘德
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-03-20
Filing date: 2018-01-31
Publication date: 2019-11-26
Anticipated expiration: 2038-01-31
Also published as: CN110506421B; US20200021853A1; EP3603067A4; WO2018173498A1; EP3603067A1; JP2020515169A

Abstract

本发明公开了一种封装数据的方法。该方法包括：接收编码视频数据，其中该编码视频数据包括多层视频呈现数据；设置与该编码视频数据相关联的一个或多个参数值；并且将该编码视频数据封装在数据结构中。

Description

用于以媒体应用程序格式发信号通知可伸缩视频的系统和方法

技术领域

本公开涉及视频编码，并且更具体地涉及用于发信号通知可伸缩视频数据的技术。

背景技术

数字视频功能可以结合到各种设备中，包括数字电视、笔记本电脑或台式电脑、平板电脑、数字录音设备、数字媒体播放器、视频游戏设备、蜂窝电话(包括所谓的智能电话)、医学成像设备等。可以根据视频编码标准对数字视频进行编码。视频编码标准可以结合视频压缩技术。视频编码标准的示例包括ISO/IEC MPEG-4Visual和ITU-T H.264(也称为ISO/IEC MPEG-4AVC)和高效率视频编码(HEVC)。HEVC在2015年4月的ITU-T H.265建议书的高效视频编码(HEVC)中描述，该文献以引用方式并入本文，并且在本文中称为ITU-T H.265。视频压缩技术可减少存储和传输视频数据的数据需求。视频压缩技术可通过利用视频序列中固有的冗余来减少数据需求。视频压缩技术可将视频序列再分成连续较小的部分(即视频序列内的帧组、帧组内的帧、帧内的片段、片段内的编码树单元(例如，宏块)、编码树单元内的编码块等)。可以使用帧内预测编码技术(例如，图片内(空间))和帧间预测技术(即图片间(时间))来生成待编码的视频数据单元与视频数据的参考单元之间的差值。该差值可被称为残差数据。残差数据可被编码为量化变换系数。语法元素可以涉及残差数据和参考编码单元(例如，帧内预测模式索引、运动向量和块向量)。可以对残差数据和语法元素进行熵编码。熵编码的残差数据和语法元素可以包括在合规比特流中。可以根据数据结构来封装兼容的比特流和相关联的元数据。例如，可以根据文件格式来封装形成视频呈现以及与其相关联的元数据的一个或多个兼容比特流。用于封装视频数据的当前技术可能不太理想。

发明内容

在一个示例中，一种封装数据的方法包括：接收编码视频数据，其中编码视频数据包括多层视频呈现数据；设置与编码视频数据相关联的一个或多个参数值；以及将编码视频数据封装在数据结构中。

附图说明

[图1]图1是示出根据本公开的一种或多种技术的可以被配置为对视频数据进行编码和解码的系统的示例的框图。

[图2]图2是示出根据本公开的一种或多种技术的编码视频数据和对应数据结构的概念图。

[图3]图3是示出根据本公开的一种或多种技术封装编码视频数据和对应元数据的数据结构的概念图。

[图4]图4是示出根据本公开的一种或多种技术的可被包括在可被配置为对视频数据进行编码和解码的系统的具体实施中的部件的示例的概念图。

[图5]图5是示出根据本公开的一种或多种技术的视频编码器示例的框图，该视频编码器可以被配置为对视频数据进行编码。

[图6]图6是示出根据本公开的一种或多种技术的视频解码器示例的框图，该视频编码器可以被配置为对视频数据进行解码。

具体实施方式

一般来讲，本公开描述用于编码视频数据的各种技术。具体地，本公开描述了用于根据数据结构封装和解封装视频数据的技术。本文所述的示例性数据结构对于利用各种数据通信技术实现到各种设备的可伸缩视频呈现的有效传输特别有用。需注意，虽然本公开的技术是关于ITU-T H.264和ITU-T H.265描述的，但是本公开的技术通常可应用于视频编码。例如，本文中所描述的编码技术可并入包括块结构的视频编码系统(包括基于未来视频编码标准的视频编码系统)、帧内预测技术、帧间预测技术、变换技术、滤波技术和/或熵编码技术，但ITU-T H.265中的那些除外。因此，对ITU-T H.264和/或ITU-T H.265的参考是用于描述性目的的，并且不应将其解释为限制本文描述技术的范围。例如，本文所述的技术可以实现可伸缩视频呈现的有效传输以用于视频呈现，包括根据其他视频编码技术编码的视频数据，包括例如当前正在开发的视频编码技术。此外，应当注意，将文献以引用方式并入本文是出于描述性目的，并且不应被解释为限制或产生关于本文所用术语的歧义。例如，在某个并入的参考文献中提供的对某个术语的定义不同于另一个并入的参考文献和/或如本文中使用的该术语的情况下，则该术语应以广泛地包括每个相应定义的方式和/或以在包括替代方案中每个特定定义的方式来解释。

在一个示例中，一种设备包括一个或多个处理器，这些处理器被配置为接收编码视频数据，其中编码视频数据包括多层视频呈现数据，设置与编码视频数据相关联的一个或多个参数值，并且将编码视频数据封装在数据结构中。

在一个示例中，一种非暂态计算机可读存储介质包括存储在其上的指令，所述指令在被执行时，使得设备的一个或多个处理器接收编码视频数据，其中编码视频数据包括多层视频呈现数据，设置与编码视频数据相关联的一个或多个参数值，并且将编码视频数据封装在数据结构中。

在一个示例中，一种装置包括用于以下操作的装置：接收编码视频数据，其中编码视频数据包括多层视频呈现数据，设置与编码视频数据相关联的一个或多个参数值，并且将编码视频数据封装在数据结构中。

在一个示例中，一种解封装数据的方法包括接收根据本文描述的一种或多种技术封装的数据结构，并且解封装该数据结构。

在一个示例中，一种设备包括一个或多个处理器，这些处理器被配置为接收根据本文描述的一种或多种技术封装的数据结构，并且解封装该数据结构。

在一个示例中，一种非暂态计算机可读存储介质包括存储在其上的指令，所述指令在被执行时，使得设备的一个或多个处理器接收根据本文描述的一种或多种技术封装的数据结构，并且解封装该数据结构。

在一个示例中，一种装置包括用于接收根据本文描述的一种或多种技术封装的数据结构并且解封装该数据结构的装置。

在以下附图和描述中阐述了一个或多个示例的细节。其他特征、目的和优点将从描述和附图以及权利要求书中显而易见。

视频内容通常包括由一系列帧组成的视频序列。一系列帧也可以被称为一组图片(GOP)。每个视频帧或图片可以包括多个片段或片，其中片段或片包括多个视频块。视频块可被定义为可被预测性地编码的最大像素值(也被称为样本)阵列。视频块可以根据扫描模式(例如，光栅扫描)来排序。视频编码器对视频块和其子分区执行预测编码。ITU-T H.264规定了包括16×16亮度样本的宏块。ITU-T H.265规定了类似的编码树单元(CTU)结构，其中图片可以被分割成相同大小的CTU，并且每个CTU可以包括具有16×16、32×32或64×64亮度样本的编码树块(CTB)。如本文所用，术语视频块通常可以指图片的区域，或者可以更具体地指可以被预测性地编码的像素值的最大阵列，其子分区和/或对应结构。

在ITU-T H.265中，可以根据相应的四叉树块结构将CTU的CTB分割成编码块(CB)。根据ITU-T H.265，一个亮度CB连同两个对应的色度CB和相关联的语法元素被称为一个编码单元(CU)。CU与为CU定义一个或多个预测单元(PU)的预测单元(PU)结构关联，其中PU与对应的参考样本相关联。也就是说，在ITU-T H.265中，使用帧内预测或帧间预测来对图片区域进行编码的决定是在CU级别进行的，并且对于CU，可以使用与帧内预测或帧间预测相对应的一个或多个预测来生成CU的CB的参考样本。在ITU-T H.265中，PU可以包括亮度和色度预测块(PB)，其中方形PB被支持用于帧内预测，并且矩形PB被支持用于帧间预测。帧内预测数据(例如，帧内预测模式语法元素)或帧间预测数据(例如，运动数据语法元素)可将PU与对应参考样本相关联。残差数据可以包括对应于视频数据的每个分量(例如，亮度(Y)和色度(Cb和Cr))的相应差值阵列。残差数据可能在像素域中。可对像素差值应用变换诸如离散余弦变换(DCT)、离散正弦变换(DST)、整数变换、小波变换或概念上类似的变换，以生成变换系数。需注意，在ITU-T H.265中，CU可以进一步再分为变换单元(TU)。也就是说，为了生成变换系数，可以对像素差值的阵列进行再分(例如，可以将四个8×8变换应用于与16×16亮度CB对应的16×16残差值阵列)，此类子分区可以被称为变换块(TB)。可以根据量化参数(QP)量化变换系数。可以根据熵编码技术(例如，内容自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、概率区间分割熵编码(PIPE)等)对量化的变换系数(可称为位阶值)进行熵编码。此外，也可以对语法元素(诸如，指示预测模式的语法元素)进行熵编码。熵编码的量化变换系数和对应的熵编码语法元素可形成可用于再现视频数据的合规比特流。可以对语法元素执行二值化处理，将其作为熵编码处理的一部分。二值化是指将语法值转换为一个或多个位的序列的过程。这些位可以被称为“二进制位”。

在ITU-T H.265中，编码视频序列可以被封装(或结构化)为一系列访问单元，其中每个访问单元包括被构造为网络抽象层(NAL)单元的视频数据。在ITU-T H.265中，访问单元和NAL单元被定义为：

网络抽象层(NAL)单元：一种语法结构，包含对要跟随的数据的类型的指示，以及包含原始字节序列有效负载(RBSP)形式的该数据的字节，其根据需要散布有仿真预防字节。

访问单元：根据指定的分类规则彼此相关联的一组NAL单元，其在解码顺序上是连续的，并且恰好包含nuh_layer_id等于0的一个编码图片。

图2是示出根据包括NAL单元的访问单元构造的编码图片组的示例的概念图。在图2所示的示例中，包括在这组图像中的每个视频数据片段与NAL单元相关联。此外，在ITU-TH.265中，视频序列、GOP、图片、片段和CTU中的每一个可以与描述视频编码属性的元数据相关联。ITU-T H.265定义了可用于描述视频数据和/或视频编码属性的参数集。在ITU-TH.265中，参数集可以被封装为特殊类型的NAL单元，或者可以作为消息发送信号通知。包括编码视频数据(例如，片段)的NAL单元可以被称为VCL(视频编码层)NAL单元，并且包括元数据(例如，参数集)的NAL单元可以被称为非VCL NAL单元。ITU-T H.265提供了以下类型的已定义参数集：

视频参数集(VPS)：一种语法结构，包含应用于零个或多个完整编码视频序列(CVS)的语法元素，这些CVS由在SPS中找到的语法元素的内容确定，该SPS被在PPS中找到的语法元素引用，该PPS被每个片段区段首部中找到的语法元素引用。

序列参数集(SPS)：一种语法结构，包含应用于零个或多个完整CVS的语法元素，这些CVS由在每个片段区段首部中找到的语法元素引用的PPS中找到的语法元素的内容确定。

图像参数集(PPS)：一种语法结构，包含应用于零个或多个完整编码图片的语法元素，这些编码图片由每个片段区段首部中找到的语法元素确定。

另外，ITU-T H.265支持多层扩展，包括格式范围扩展(RExt)、可伸缩性(SHVC)、多视图(MV-HEVC)和3-D(3D-HEVC)。在一些情况下，ITU-T H.265支持的多层扩展可以被称为分层HEVC(L-HEVC)或多层HEVC呈现。多层扩展使视频呈现能够包括基底层和一个或多个附加增强层。例如，基底层可以使得能够呈现具有基本质量水平(例如，高清晰度呈现)的视频呈现，并且增强层可以使得能够呈现具有增强的质量水平(例如，超高清渲染)的视频呈现。在ITU-T H.265中，可以通过参考基底层来对增强层进行编码。也就是说，例如可以通过参考基底层中的一个或多个图片(包括其缩放版本)来对增强层中的图片进行编码(例如，使用帧间预测技术)。应当指出的是，在一些情况下，可以根据不同的视频编码标准对基底层和增强层进行编码。例如，可以根据ITU-T H.264对基底层进行编码，并且可以根据ITU-TH.265对增强层进行编码。在ITU-T H.265中，每个NAL单元可以包括指示NAL单元与之相关联的视频数据层的标识符(nuh_layer_id)。ITU-T H.265将nuh_layer_id定义如下：

nuh_layer_id指定VCL(视频编码层)NAL单元所属的层的标识符或者非VCL NAL单元适用的层的标识符。

此外，ITU-T H.265的附录F提供了可用于支持L-HEVC的参数集和视觉可用性信息(VUI)，ITU-T H.265的附录H提供了可以如何对可伸缩HEVC视频进行编码的描述(例如，描述了假设的参考解码器行为等)。为简洁起见，本文不再重复对ITU-T H.265的附录F和附录H的完整描述，但ITU-T H.265的附录F和附录H以引用方式并入本文。

ITU-T H.265包括以下用于配置文件、层级和级别语义定义的语法元素：

general_profile_space指定了用于解释general_profile_idc和general_profile_compatibility_flag[j]的上下文，j的所有值在0到31(包括端点)的范围内。在符合本说明书的此版本的比特流中，general_profile_space的值应等于0。用于general_profile_space的其他值保留以供ITU-T|ISO/IEC将来使用。当general_profile_space不等于0时，解码器应忽略CVS。

general_tier_flag指定了用于解释[I-ITU H.265的]附录A中规定的general_level_idc的层级上下文。

当general_profile_space等于0时，general_profile_idc表示CVS符合的配置文件，如[I-ITU H.265的]附录A中规定的。比特流不应包含除[I-ITU H.265的]附录A中规定的值之外的general_profile_idc值。general_profile_idc的其他值保留以供ITU-T|ISO/IEC将来使用。

general_progressive_source_flag和general_interlaced_source_flag解释如下：

-如果general_progressive_source_flag等于1且general_interlaced_source_flag等于0，则CVS中图片的源扫描类型应仅被解释为逐行扫描。

-否则，如果general_progressive_source_flag等于0且general_interlaced_source_flag等于1，则CVS中图片的源扫描类型应仅被解释为隔行扫描。

-否则，如果general_progressive_source_flag等于0且general_interlaced_source_flag等于0，则CVS中图片的源扫描类型应被解释为未知或未指定。

-否则(general_progressive_source_flag等于1且general_interlaced_source_flag等于1)，

在图片时序SEI(补充增强信息)消息中使用语法元素source_scan_type在图片级指示CVS中图片的源扫描类型。

general_non_packed_constraint_flag等于1表示CVS中既不存在帧封装布置SEI消息，也不存在分段矩形帧封装布置SEI消息。general_non_packed_constraint_flag等于0表示在CVS中可能存在或不存在一个或多个帧封装布置SEI消息或分段矩形帧封装布置SEI消息。

general_frame_only_constraint_flag等于1表示field_seq_flag等于0。general_frame_only_constraint_flag等于0表示field_seq_flag可以等于或不等于0

general_level_idc表示CVS符合的级别，如[I-ITU H.265的]附录A中规定的。比特流不应包含除[I-ITU H.265的]附录A中规定的值之外的general_level_idc值。general_level_idc的其他值保留以供ITU-T|ISO/IEC将来使用。

sub_layer_profile_present_flag[i]等于1表示在用于TemporalId等于i的子层表示的profile_tier_level()语法结构中存在配置文件。sub_layer_profile_present_flag[i]等于0表示在用于TemporalId等于i的子层表示的profile_tier_level()语法结构中不存在配置文件。当profilePresentFlag等于0时，sub_layer_profile_present_flag[i]应等于0。

sub_layer_level_present_flag[i]等于1表示在用于TemporalId等于i的子层表示的profile_tier_level()语法结构中存在级别信息。sub_layer_level_present_flag[i]等于0表示在用于TemporalId等于i的子层表示的profile_tier_level()语法结构中不存在级别信息

ITU-T H.265的附录F中的VPS语义包括以下定义的语法元素：

vps_extension_flag等于0表示VPS RBSP语法结构中不存在vps_extension()语法结构。vps_extension_flag等于1表示VPS RBSP语法结构中存在vps_extension()语法结构。当MaxLayersMinus1大于0时，vps_extension_flag应等于1。

如果包括vps_extension()语法结构

vps_num_profile_tier_level_minus1加1表示

VPS中的profile_tier_level()语法结构的数量。vps_num_profile_tier_level_minus1的值应在0到63(包括端点)的范围内。当vps_max_layers_minus1大于0时，vps_num_profile_tier_level_minus1的值应大于或等于1。

vps_vui_present_flag等于1表示VPS中存在vps_vui()语法结构。vps_vui_present_flag等于0表示VPS中不存在vps_vui()语法结构。

此外，ITU-T H.265的附录F中的VPS VUI字段语法包括以下定义的语法元素：

pic_rate_present_vps_flag等于1表示存在语法元素pic_rate_present_flag[i][j]。pic_rate_present_vps_flag等于0表示不存在语法元素pic_rate_present_flag[i][j]。

pic_rate_present_flag[i][j]等于1表示存在第i层集合的第j子集的图片速率信息。pic_rate_present_flag[i][j]等于0表示不存在第i层集合的第j子集的图片速率信息。当不存在时，推断pic_rate_present_flag[i][j]的值等于0。

constant_pic_rate_idc[i][j]表示第i层集合的第j子集的图片速率是否恒定。在下文中，时间片段tSeg是第i层集合的第j个子集的任何一组两个或更多个连续访问单元(按解码顺序)，auTotal(tSeg)是时间片段tSeg中访问单元的数量，t1(tSeg)是时间片段tSeg的第一访问单元(按解码顺序)的删除时间(以秒为单位)，t2(tSeg)是时间片段tSeg的最后一个访问单元(按解码顺序)的删除时间(以秒为单位)，avgPicRate(tSeg)是时间片段tSeg中的平均图片速率，并且如下指定：

avgPicRate(tSeg)＝Round(auTotal(tSeg)*256÷(t2(tSeg)-t1(tSeg)))

如果第i层集合的第j个子集仅包含一个或两个访问单元或者avgPicRate(tSeg)的值在所有时间片段上是恒定的，则图片速率是恒定的；否则，图片速率不恒定。

constant_pic_rate_idc[i][j]等于0表示第i层集合的第j个子集的图片速率不是恒定的。

constant_pic_rate_idc[i][j]等于1表示第i层集合的第j个子集的图片速率恒定。

constant_pic_rate_idc[i][j]等于2表示第i层集合的第j个子集的图片速率可能恒定或可能不恒定。constant_pic_rate_idc[i][j]的值应在0到2(包括端点)的范围内。

此外，ITU-T H.265的附录F中的VPS VUI字段语义包括video_signal_info()，其包括以下定义的语法元素：video_vps_format、video_full_range_vps_flag、colour_primaries_vps、transfer_characteristics_vps和matrix_coeffs_vps，对于引用VPS的每个SPS，这些语法元素中的每一个可以分别用于推断SPS VUI语法元素video_format、video_full_range_flag、colour_primaries、transfer_characteristics和matrix_coeffs的值。

ITU-T H.265的附录F中的SPS语义包括包括以下定义的语法元素：

vui_parameters_present_flag等于1表示存在附录E中指定的vui_parameters()语法结构。vui_parameters_present_flag等于0表示不存在附录E中指定的vui_parameters()语法结构。

ITU-T H.265的附录E中的VUI参数包括以下定义的语法元素：

aspect_ratio_info_present_flag等于1表示存在aspect_ratio_idc。aspect_ratio_info_present_flag等于0表示不存在aspect_ratio_idc。

aspect_ratio_idc指定亮度样本的样本长径比的值。[ITU-T H.265的]表E.1显示了代码的含义。当aspect_ratio_idc表示EXTENDED_SAR时，样本长径比由sar_width:sar_height表示。当aspect_ratio_idc语法元素不存在时，推断aspect_ratio_idc值等于0。aspect_ratio_idc的值在17到254的范围内(包括端点)，该值保留以供ITU-T|ISO/IEC将来使用，并且不应在符合本说明的该版本的比特流中。解码器应在17到254的范围内(包括端点)解释aspect_ratio_idc的值，如同等同于值0。

overscan_info_present_flag等于1表示存在overscan_appropriate_flag。当overscan_info_present_flag等于0或不存在时，视频信号的首选显示方法未指定

video_full_range_flag指示从E'Y、E'PB和E'PR或E'R、E'G和E'B实值分量信号导出的亮度和色度信号的黑度水平和范围。

当video_full_range_flag语法元素不存在时，推断video_full_range_flag的值等于0。

colour_description_present_flag等于1表示存在colour_primaries、transfer_characteristics和matrix_coeffs。colour_description_present_flag等于0表示不存在colour_primaries、transfer_characteristics和matrix_coeffs。

colour_primaries表示根据ISO 11664-1中规定的CIE 1931x和y定义的源原色的色度坐标，如[ITU-T H.265的]表中E.3规定的。

transfer_characteristics表示如[ITU-T H.265的]表E.4中规定的源图像的光电传输特性，其作为线性光强度输入Lc的函数，具有0到1的标称实值范围。

matrix_coeffs描述了用于从绿、蓝和红或Y、Z和X原色导出亮度和色度信号的矩阵系数，如[ITU-T H.265的]表E.5中规定的

Chroma_loc_info_present_flag等于1表示存在chroma_sample_loc_type_top_field和chroma_sample_loc_type_bottom_field。chroma_loc_info_present_flag等于0表示不存在chroma_sample_loc_type_top_field和chroma_sample_loc_type_bottom_field。当chroma_format_idc不等于1时，chroma_loc_info_present_flag应等于0。

vui_timing_info_present_flag equal等于1表示vui_num_units_in_tick、vui_time_scale、

vui_poc_proportional_to_timing_flag和vui_hrd_parameters_present_flag存在于vui_parameters()语法结构中。vui_timing_info_present_flag等于0表示vui_num_units_in_tick、vui_time_scale、

vui_poc_proportional_to_timing_flag和vui_hrd_parameters_present_flag不存在于vui_parameters()语法结构中。

vui_num_units_in_tick是以频率vui_time_scale Hz工作的时钟的时间单位数，该频率对应于时钟节拍计数器的一个增量(称为时钟节拍)。vui_num_units_in_tick应大于0。以秒为单位的时钟节拍等于vui_num_units_in_tick除以vui_time_scale的商。例如，当视频信号的图片速率为25Hz时，

vui_time_scale可以等于27 000 000并且vui_num_units_in_tick可以等于1080 000，因此时钟节拍可以等于0.04秒。当vps_num_units_in_tick存在于SPS引用的VPS中时，vui_num_units_in_tick当存在时，应等于vps_num_units_in_tick，并且当不存在时，推断为等于vps_num_units_in_tick。

vui_time_scale是一秒钟内经过的时间单位数。例如，使用27MHz时钟测量时间的时间坐标系的vui_time_scale为27 000 000。vui_time_scale的值应大于0。当vps_time_scale存在于SPS引用的VPS中时，vui_time_scale当存在时，应等于vps_time_scale，并且当不存在时，推断为等于vps_time_scale。

vui_hrd_parameters_present_flag等于1表示语法结构hrd_parameters()存在于vui_parameters()语法结构中。vui_hrd_parameters_present_flag等于0表示语法结构hrd_parameters()不存在于vui_parameters()语法结构中。

如果包括hrd_parameters()

fixed_pic_rate_general_flag[i]等于1表示当HighestTid等于i时，按输出顺序的连续图像的HRD输出时间之间的时间距离受到如下所述的约束。fixed_pic_rate_general_flag[i]等于0表示该约束可能不适用。当fixed_pic_rate_general_flag[i]不存在时，推断其等于0。

fixed_pic_rate_within_cvs_flag[i]等于1表示当HighestTid等于i时，按输出顺序的连续图像的HRD输出时间之间的时间距离受到如下所述的约束。fixed_pic_rate_within_cvs_flag[i]等于0表示该约束可能不适用。当fixed_pic_rate_general_flag[i]等于1时，推断fixed_pic_rate_within_cvs_flag[i]的值等于1。

此外，ITU-T H.265支持图片裁剪。即，可以根据图片尺寸和输出(例如，用于显示)、根据裁剪的图片尺寸对图片进行编码。ITU-T H.265第7条中的通用序列参数集RBSP语义和ITU-T H.265附录F中的通用序列参数集RBSP语义包括以下定义的语法元素：

conformance_window_flag等于1表示在SPS中贴合裁剪窗口偏移参数紧随其后。conformance_window_flag等于0表示不存在贴合裁剪窗口偏移参数(即，conf_win_left_offset、conf_win_right_offset、conf_win_top_offset和conf_win_bottom_offset)。

conf_win_left_offset、conf_win_right_offset、conf_win_top_offset和conf_win_bottom_offset根据在要输出的图片坐标中指定的矩形区域，指定CVS中从解码过程输出的图片的样本。当conformance_window_flag等于0时，推断conf_win_left_offset、conf_win_right_offset、conf_win_top_offset和conf_win_bottom_offset的值等于0。

贴合裁剪窗口包含具有从SubWidthC*conf_win_left_offset到pic_width_in_luma_samples的水平图片坐标-(SubWidthC*conf_win_right_offset+1)，和从SubHeightC*conf_win_top_offset到pic_height_in_luma_samples的垂直图片坐标-(SubHeightC*conf_win_bottom_offset+1)(包括端点)的亮度样本。

SubWidthC*(conf_win_left_offset+conf_win_right_offset)的值应小于

pic_width_in_luma_samples，并且SubHeightC*(conf_win_top_offset+conf_win_bottom_offset)的值应小于pic_height_in_luma_samples。

当ChromaArrayType不等于0时，两个色度矩阵的对应指定样本是具有图片坐标(x/SubWidthC,y/SubHeightC)的样本，其中(x,y)是指定的亮度样本的图片坐标。

注释3-贴合裁剪窗口偏移参数仅在输出时应用。所有内部解码过程都应用于未裁剪的图片大小。

此外，表示格式语法和ITU-T H.265的附录F包括以下定义的语法元素：

conformance_window_vps_flag等于1表示语法元素conf_win_vps_left_offset、conf_win_vps_right_offset、conf_win_vps_top_offset和conf_win_vps_bottom_offset在rep_format()结构中紧随其后。conformance_window_vps_flag等于0表示语法元素conf_win_vps_left_offset、conf_win_vps_right_offset、conf_win_vps_top_offset和conf_win_vps_bottom_offset不存在。

针对引用VPS的每个SPS，conf_win_vps_left_offset、conf_win_vps_right_offset、conf_win_vps_top_offset和conf_win_vps_bottom_offset分别用于推断SPS语法元素conf_win_left_offset、conf_win_right_offset、conf_win_top_offset和conf_win_bottom_offset的值。当不存在时，推断conf_win_vps_left_offset、conf_win_vps_right_offset、conf_win_vps_top_offset和conf_win_vps_bottom_offset的值等于0。

SubWidthC*(conf_win_vps_left_offset+conf_win_vps_right_offset)的值应小于pic_width_vps_in_luma_samples，并且SubHeightC*(conf_win_vps_top_offset+conf_win_vps_bottom_offset)的值应小于pic_height_vps_in_luma_samples

这些表示格式语法元素conformance_window_vps_flag、conf_win_vps_left_offset，conf_win_vps_right_offset、conf_win_vps_top_offset和conf_win_vps_bottom_offset可以包括在视频参数集扩展(vps_extension())中。

因此，可以根据ITU-T H.265中提供的语义来发信号通知多层HEVC呈现的一个或多个属性和/或参数。应当指出的是，ITU-T H.265提供了关于如何以及是否可以发信号通知属性和/或参数的灵活性。

可以根据数据结构来封装多层HEVC呈现。以引用方式并入的ISO/IEC 14496-15第三版“信息技术-视听对象的编码-以ISO基础媒体文件格式承载NAL单元结构化视频”(以下称“ISO-VIDEO”)描述了用于封装多层HEVC呈现的数据结构。ISO-VIDEO规定了视频流的存储格式，其被构造为NAL单元(例如，ITU-T H.264和ITU-T H.265)。图3是示出封装编码视频数据和对应元数据的媒体文件的概念图。应当指出的是，图3中的示例性媒体文件302包括旨在示出编码视频数据和元数据之间的逻辑关系。为了简洁起见，未提供包括在媒体文件中的数据的完整描述(例如，文件头、表、盒单元(box)类型等)。

在ISO/IEC 14496-15中，聚合器、提取器定义为：

聚合器流内结构使用NAL单元头来将属于同一样本的NAL单元分组。

提取器流内结构使用NAL单元头从其他轨道中提取数据

注意：提取器包含有关如何从其他轨道提取数据的说明。从逻辑上讲，提取器可以看作是指向数据的指针。在读取包含提取器的轨道时，提取器将被它指向的数据替换。

样本可以是与单个时间戳相关联的所有数据。

在图3所示的示例中，媒体文件302包括引用元数据容器304的视频基本流308A至308N。如图3所示，视频流308A至308N包括分到访问单元310A至310N中的NAL单元312A至312N。如上所述，NAL单元可以包括VCL-NAL单元和非VCL单元。如图3中进一步所示，元数据容器304包括元数据盒单元306A至306B。应当指出的是，在一些情况下，元数据盒单元可以被称为元数据对象。在一个示例中，元数据盒单元306A至306B可以包括参数集(例如，上面描述的ITU-T H.265参数集中的一个或多个)。因此，参数集可以包括在元数据盒单元306A至306B(其可以被称为“带外”)中和/或视频基本流(其可以被称为“带内”)中。应当指出的是，在一些示例中，视频流可称为视频轨道。此外，应当指出的是，文件格式可以定义不同类型的配置。例如，文件格式可以指定一个或多个盒单元类型。可以基于可以包括在文件格式的实例中的视频流的属性来定义文件格式配置。例如，可以基于应用于视频流的一个或多个约束来定义盒单元类型，例如，盒单元类型可以要求每个视频流包括在每个访问单元内具有特定数量的特定类型的NAL单元。此外，盒单元类型可能需要将视频呈现的一个或多个属性和/或参数包括在元数据盒单元中。表1提供了ISO-VIDEO中规定的视频呈现的配置的摘要。

表1

因此，如表1所示，ISO-VIDEO包括可以支持基本HEVC呈现(没有扩展)和/或包括多层扩展的HEVC呈现的定义配置。此外，ISO-VIDEO规定可以采用多种方式将L-HEVC流放置在轨道中，其中包括以下几种：所有层都在一个轨道中；每一层都在其自己的轨道中；混合方式：一个轨道包含所有层，以及一个或多个单层轨道；每个轨道中的预期操作点(例如HEVC基础、立体声对、多视角场景)。

此外，ISO-VIDEO规定，当L-HEVC比特流由多个轨道表示并且播放器使用其中各层存储在多个轨道中的操作点时，播放器必须在将L-HEVC访问单元传递给L-HEVC解码器之前重建这些访问单元。在ISO-VIDEO中，L-HEVC操作点可以由轨道明确表示，即，轨道中的每个样本包含访问单元，其中访问单元的一些或所有NAL单元可以包含在提取器和聚合器中或由提取器和聚合器引用。在ISO-VIDEO中，L-HEVC比特流的存储由诸如样本条目、操作点信息(“oinf”)样本组和层信息(“linf”)样本组之类的结构支持。样本条目内的结构提供用于解码或使用样本的信息，在这种情况下是与该样本条目相关联的编码视频信息。操作点信息样本组记录有关操作点的信息，诸如构成操作点的层和子层，它们之间的依赖关系(如果有)，操作点的配置文件、级别和层级参数以及其他此类操作点相关信息。层信息样本组列出了轨道样本中携带的所有层和子层。这些样本组中的信息与使用轨道参考相结合以查找轨道，足以让读者根据其功能选择操作点，识别包含解码所选操作点所需的相关层和子层的轨道，并有效地提取它们。

描述于K.Hughes、D.Singer、K.Kolarov、I.Sodagar，“Common Media ApplicationFormat for Segmented Media-CMAF”，2016年5月(该文献以引用方式并入本文)的通用媒体应用格式(CMAF)定义了媒体应用格式，其旨在被优化用于将单个加密的、可适应的多媒体呈现大规模传送到各种设备，这些设备可以与各种自适应流送、广播、下载和存储传送技术兼容。下面进一步详细描述的图4包括一种系统，该系统包括可与各种自适应流送、广播、下载和存储传送技术兼容的各种设备。应当指出的是，CMAF目前不支持多层HEVC。可以使用本文描述的技术以便为可以支持多层HEVC的基于CMAF的文件格式提供有效的方式。

图1是示出根据本公开的一种或多种技术的可被配置为对视频数据进行编码(例如，编码和/或解码)的系统的示例的框图。系统100表示可以根据本公开的一种或多种技术封装视频数据系统的示例。如图1所示，系统100包括源设备102、通信介质110和目标设备120。在图1所示的示例中，源设备102可以包括被配置为对视频数据进行编码并将编码的视频数据发送到通信介质110的任何设备。目标设备120可包括被配置为经由通信介质110接收编码的视频数据并且对编码的视频数据进行解码的任何设备。源设备102和/或目标设备120可包括配备用于进行有线和/或无线通信的计算设备，并且可以包括例如机顶盒、数字视频录像机、电视机、台式电脑、膝上型电脑或平板电脑、游戏控制台、医学成像设备和移动设备，包括例如智能电话、蜂窝电话、个人游戏设备。

通信介质110可以包括无线和有线通信介质和/或存储设备的任意组合。通信介质110可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。通信介质110可以包括一个或多个网络。例如，通信介质110可以包括被配置为允许访问万维网例如互联网的网络。网络可以根据一个或多个电信协议的组合来运营。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括数字视频广播(DVB)标准、高级电视系统委员会(ATSC)标准、综合服务数字广播(ISDB)标准、有线数据业务接口规范(DOCSIS)标准、全球移动通信系统(GSM)标准、码分多址(CDMA)标准、第三代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、互联网协议(IP)标准、无线应用协议(WAP)标准以及电气与电子工程师协会(IEEE)标准。

存储设备可以包括能够存储数据的任何类型的设备或存储介质。存储介质可以包括有形或非暂态计算机可读介质。计算机可读介质可以包括光盘、闪存、磁存储器或任何其他合适的数字存储介质。在一些示例中，存储器设备或其部分可以被描述为非易失性存储器，并且在其他示例中，存储器设备的部分可以被描述为易失性存储器。易失性存储器的示例可以包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)。非易失性存储器的示例可以包括磁性硬盘、光盘、软盘、闪存或电可编程存储器(EPROM)或电可擦除和可编程(EEPROM)存储器的形式。存储设备可以包括存储卡(例如，安全数字(SD)存储卡)、内部/外部硬盘驱动器和/或内部/外部固态驱动器。数据可以根据定义的文件格式存储在存储设备上。

图4是示出可以包括在系统100的具体实施中的部件的示例的概念图。在图4所示的示例性具体实施中，系统100包括一个或多个计算设备402A至402N、电视服务网络404、电视服务提供商站点406、广域网408、局域网410和一个或多个内容提供商站点412A至-412N。图4中所示的具体实施表示系统的示例，该系统可被配置为允许数字媒体内容(诸如电影、现场体育赛事等)和与其相关联的数据和应用程序以及媒体呈现被分发到多个计算设备(诸如计算设备402A-402N)并由这些多个计算设备访问。在图4所示的示例中，计算设备402A至402N可以包括被配置为从电视服务网络404、广域网408和/或局域网410中的一者或多者接收数据的任何设备。例如，计算设备402A至402N可以配备用于有线和/或无线通信，并且可被配置为通过一个或多个数据信道接收服务，并且可以包括电视，包括所谓的智能电视、机顶盒和数字视频记录器。此外，计算设备402A至402N可以包括台式计算机、膝上型计算机或平板计算机、游戏控制台、移动设备，该移动设备包括例如“智能”电话、蜂窝电话和个人游戏设备。

电视服务网络404是被配置为使得能够分发包括电视服务的数字媒体内容的网络的示例。例如，电视服务网络404可以包括公共空中电视网络、基于公共或订阅的卫星电视服务提供商网络，以及基于公共或订阅的有线电视提供商网络和/或通过顶部或互联网服务提供商。尽管在一些示例中，电视服务网络404可以主要用于使得能够提供电视服务，但是电视服务网络404还可以使得能够根据本文描述的电信协议的任何组合来提供其他类型的数据和服务。此外，应当指出的是，在一些示例中，电视服务网络404可以启用电视服务提供商站点406与计算设备402A至402N中的一个或多个之间的双向通信。电视服务网络404可以包括无线和/或有线通信媒体的任何组合。电视服务网络404可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。电视服务网络404可以根据一个或多个电信协议的组合来运营。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括DVB标准、ATSC标准、ISDB标准、DTMB标准、DMB标准、有线数据服务接口规范(DOCSIS)标准、HbbTV标准、W3C标准和UPnP标准。

再次参见图4，电视服务提供商站点406可被配置为经由电视服务网络404分发电视服务。例如，电视服务提供商站点406可以包括一个或多个广播站、有线电视提供商，或卫星电视提供商，或基于互联网的电视提供商。例如，电视服务提供商站点406可被配置为通过卫星上行链路/下行链路接收包括电视节目的传输。此外，如图4所示，电视服务提供商站点406可以与广域网408通信，并且可被配置为从内容提供商站点412A至412N接收数据。应当指出的是，在一些示例中，电视服务提供商站点406可以包括电视演播室，并且内容可以源自该电视演播室。

广域网408可以包括基于数据包的网络，并且根据一个或多个电信协议的组合进行操作。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括全球系统移动通信(GSM)标准、码分多址(CDMA)标准、第三代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、欧洲标准(EN)、IP标准、无线应用协议(WAP)标准、以及电气与电子工程师协会(IEEE)标准，诸如，一个或多个IEEE 802标准(例如，Wi-Fi)。广域网408可以包括无线和/或有线通信媒体的任何组合。广域网480可以包括同轴电缆、光纤电缆、双绞线电缆、以太网电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。在一个示例中，广域网408可以包括互联网。局域网410可以包括基于数据包的网络，并且根据一个或多个电信协议的组合进行操作。可以基于访问级别和/或物理基础设施将局域网410与广域网408区分开。例如，局域网410可以包括安全家庭网络。

再次参见图4，内容提供商站点412A至412N表示可以向电视服务提供商站点406和/或计算设备402A至402N提供多媒体内容的站点的示例。例如，内容提供商站点可以包括具有一个或多个工作室内容服务器的工作室，该工作室内容服务器被配置为向电视服务提供商站点406提供多媒体文件和/或流。在一个示例中，内容提供商站点412A至412N可被配置为使用IP套件提供多媒体内容。例如，内容提供商站点可被配置为根据实时流协议(RTSP)、HTTP等向接收机设备提供多媒体内容。此外，内容提供商站点412A至412N可被配置为通过广域网408向接收机设备402A至402N和/或电视服务提供商站点406中的一个或多个提供包括基于超文本的内容等的数据。内容提供商站点412A至412N可包括一个或多个web服务器。由数据提供者站点412A至412N提供的数据可以根据数据格式来定义，数据格式诸如HTML、动态HTML、XML和JSON。

再次参见图1，源设备102包括视频源104、视频编码器106、数据封装器107和接口108。视频源104可包括配置为捕获和/或存储视频数据的任何设备。例如，视频源104可以包括摄像机和可操作地与其耦接的存储设备。视频编码器106可包括被配置为接收视频数据并产生表示视频数据的合规比特流的任何设备。合规比特流可以指视频解码器可以从其接收和再现视频数据的比特流。合规比特流的各方面可根据视频编码标准来定义。当生成合规比特流时，视频编码器106可以压缩视频数据。压缩可能是有损的(观察者可觉察的或不可觉察的)或无损的。图5是示出可实施用于编码本文描述的视频数据的技术的视频编码器500的示例的框图。应当指出的是，虽然示例视频编码器500被示出为具有不同的功能块，但是此类图示旨在用于描述目的，并且不将视频编码器500和/或其子部件限制为特定的硬件或软件架构。可使用硬件、固件和/或软件具体实施的任何组合来实现视频编码器500的功能。

视频编码器500可执行图片区域的帧内预测编码和帧间预测编码，并且因此可被称为混合视频编码器。在图5所示的示例中，视频编码器500接收源视频块。在一些示例中，源视频块可以包括已经根据编码结构划分的图片区域。例如，源视频数据可包括宏块、CTU、CB、其子分区和/或另一等效编码单元。在一些示例中，视频编码器500可被配置为执行源视频块的额外再分。应当注意，本文描述的技术通常适用于视频编码，而不管在编码之前和/或期间如何分割源视频数据。在图5所示的示例中，视频编码器500包括加法器502、变换系数生成器504、系数量化单元506、逆量化和变换系数处理单元508、加法器510、帧内预测处理单元512、帧间预测处理单元514和熵编码单元516。如图5所示，视频编码器500接收源视频块并输出比特流。

在图5所示的示例中，视频编码器500可通过从源视频块中减去预测视频块来产生残差数据。下面详细描述了对预测视频块的选择。加法器502表示被配置为执行该减法运算的部件。在一个示例中，减去视频块出现在像素域中。变换系数生成器504对残差块或其子分区应用变换诸如离散余弦变换(DCT)、离散正弦变换(DST)或概念上类似的变换(例如，四个8×8变换可以被应用于16×16残差值阵列)以产生残差变换系数集合。变换系数生成器504可以被配置为执行离散三角变换系列中包括的变换的任何和全部组合，包括其近似。变换系数生成器504可将变换系数输出到系数量化单元506。系数量化单元506可被配置为执行变换系数的量化。量化过程可以减少与一些或所有系数相关联的位深度。量化的程度可以改变编码的视频数据的率失真(即比特率与视频质量的关系)。量化的程度可以通过调整量化参数(QP)来修改。可以基于片段级值和/或CU级值(例如，CU增量QP值)来确定量化参数。QP数据可以包括用于确定用于量化特定变换系数集合的QP的任何数据。如图5所示，量化的变换系数(可被称为位阶值)被输出到逆量化和变换系数处理单元508。逆量化和变换处理单元508可被配置为应用逆量化和逆变换来生成重构的残差数据。如图5所示，在加法器510中，可以将重构的残差数据添加到预测视频块。这样，可以重构编码的视频块，并且可以使用所得到的重构的视频块来评估给定的预测、变换和/或量化的编码质量。视频编码器500可被配置为执行多个编码回合(例如，在改变预测、变换参数和量化参数中的一个或多个的同时执行编码)。比特流的率失真或其他系统参数可以基于重构的视频块的评估来优化。此外，重构的视频块可被存储并用作预测后续块的参考。

再次参考图5，帧内预测处理单元512可被配置为针对待编码视频块选择帧内预测模式。帧内预测处理单元512可被配置为评估一帧并且确定用以编码当前块的帧内预测模式。如上所述，可能的帧内预测模式可以包括平面预测模式、DC预测模式和角预测模式。此外，需注意，在一些示例中，可以根据亮度预测模式的预测模式来推断色度分量的预测模式。帧内预测处理单元512可在执行一个或多个编码回合之后选择帧内预测模式。此外，在一个示例中，帧内预测处理单元512可以基于率失真分析来选择预测模式。如图5所示，帧内预测处理单元512将帧内预测数据(例如，语法元素)输出到熵编码单元516和变换系数生成器504。如上所述，对残差数据执行的变换可以是模式相关的(例如，可以基于预测模式确定二次变换矩阵)。

再次参考图5，帧间预测处理单元514可被配置为针对当前视频块执行帧间预测编码。帧间预测处理单元514可被配置为接收源视频块并且计算视频块的PU的运动向量。运动向量可以指示当前视频帧内的视频块的PU相对于参考帧内的预测块的位移。帧间预测编码可以使用一个或多个参考图片。此外，运动预测可以是单向预测(使用一个运动向量)或双向预测(使用两个运动向量)。帧间预测处理单元514可被配置为通过计算由例如绝对差之和(SAD)、平方差之和(SSD)或其他差值度量确定的像素差来选择预测块。如上所述，可以根据运动向量预测来确定和指定运动向量。如上所述，帧间预测处理单元514可被配置为执行运动向量预测。帧间预测处理单元514可被配置为使用运动预测数据生成预测块。例如，帧间预测处理单元514可定位帧缓冲器内的预测视频块(图5中未示出)。需注意，帧间预测处理单元514可以进一步被配置为将一个或多个内插滤波器应用于重构的残差块，以计算用于运动估计的子整数像素值。帧间预测处理单元514可将所计算的运动向量的运动预测数据输出到熵编码单元516。

再次参考图5，熵编码单元518接收量化的变换系数和预测语法数据(即帧内预测数据和运动预测数据)。应当指出的是，在一些示例中，系数量化单元506可在将系数输出到熵编码单元518之前执行对包括量化的变换系数的矩阵的扫描。在其他示例中，熵编码单元518可执行扫描。熵编码单元518可被配置为根据本文描述的技术中的一种或多种执行熵编码。熵编码单元518可被配置为输出合规比特流(即视频解码器可从其接收和再现视频数据的比特流)。这样，视频编码器500表示被配置为根据本发明的一种或多种技术生成编码视频数据的设备的示例。在一个示例中，视频编码器500可生成可用于多层HEVC呈现的编码视频数据。

再次参见图1，数据封装器107可以接收兼容比特流并根据文件格式封装该兼容比特流。在一个示例中，数据封装器107可以接收对应于以上关于表1描述的任何HEVC轨道的兼容比特流。另外，数据封装器107可以接收对应于普通HEVC轨道的兼容比特流，并输出如CMAF中所指定的文件。如上所述，CMAF当前不支持多层HEVC。在一个示例中，数据封装器107可以被配置为接收与多层HEVC轨道相对应的兼容比特流，并基于CMAF输出文件。即，数据封装器107可以接收兼容比特流并输出通常符合ITU H.265、ISO-VIDEO和/或CMAF的文件，但另外使得能够支持CMAF类型文件中的多层HEVC。应当指出的是，由数据封装器107生成的文件可以另外符合下面提供的一个或多个约束。应当指出的是，下面提供的一个或多个约束可以使得能够由接收文件的设备有效地呈现多媒体展示。

在一个示例中，由数据封装器107生成的文件中包括的视频轨道可以符合ISO-VIDEO的第9部分，其中基底层(如果使用HEVC规范编码)可以如ISO-VIDEO的第9.4节中所述进行存储。在一个示例中，由数据封装器107生成的文件中包括的视频轨道可以符合上面在表1中定义的样本条目“hvc1”或“hev1”或“hvc2”或“hev2”。在一个示例中，由数据封装器107生成的文件可以包括HEVCDecoderConfigurationRecord和LHEVCDecoderConfigurationRecord，其中CMAF的9.4.1.3中的约束可以应用于HEVCDecoderConfigurationRecord并且应用于HEVC兼容的基底层。在一个示例中，CMAF的9.4.1.3中关于包括SEI消息、由CMAF播放器使用和传递SEI消息的约束也可以应用于LHEVCDecoderConfigurationRecord并应用于增强层。这样，数据封装器107可以被配置为使得多层HEVC呈现中的基底层以符合CMAF的方式被封装。

在一个示例中，由数据封装器107生成的文件可能要求表2中示出的视频配置文件适用于所述文件中包括的所有可伸缩HEVC基本流。

表2

在这种情况下，可以为这样的新媒体配置文件定义媒体配置文件名称例如“SHV10”和新文件印记例如“cus1”。上述媒体配置文件(SHV10)是一个示例，可以定义其他此类类似的多个媒体配置文件来使用可伸缩HEVC

在一个示例中，由数据封装器107生成的文件可能要求视频流中包括的所有图片被编码为编码帧而不被编码为编码字段。在一个示例中，由数据封装器107生成的文件可能要求通过实现I-ITU H.265第F.13条中定义的缓冲器和定时模型来计算HEVC基本流的最大比特率。在一个示例中，由封装器107生成的文件可能需要存储在ISO媒体轨道运行框中的样本持续时间来确定轨道的帧速率。在这种情况下，在H.265参数集中包含下面描述的帧速率(也称为图像速率)相关参数对于知道底层视频基本流的帧速率/图片速率是有用的。

如上所述，可以根据ITU-T H.265中提供的语义来发信号通知多层HEVC呈现的一个或多个属性和/或参数，并且如上面进一步提供的，ITU-T H.265提供了有关如何以及是否可以发信号通知属性和/或参数的灵活性。在一个示例中，包括在由数据封装器107生成的文件中的视频数据可以符合ITU-T H.265的附录F和附录H，同时符合表3中提供的一个或多个示例性约束。

表3

在一个示例中，可以约束由数据封装器107生成的文件中包括的视频数据，使得基底层和增强层(如果存在)具有恒定的图片速率。应当指出的是，在一些情况下，可以如表3所示来实现该约束，具体是通过以下约束：对于所有i，对于所有j，constant_pic_rate_idc[i][j]应设置为等于1。

在一个示例中，可以约束由数据封装器107生成的文件中包括的视频数据，使得基底层和增强层(如果存在)具有相同数量的子层。在一个示例中，每个层应包含至多两个子层，当存在两个子层时TemporalId等于0和1，并且每个SPS的sps_max_sub_layers_minus1的值应设置为等于一层中子层的数量减1。

在一个示例中，可以约束由数据封装器107生成的文件中包括的视频数据，使得当一层具有两个子层时，TemporalId等于0的子层表示将具有恒定的图片速率(如由存在elemental_duration_in_tc_minus1[0]所表示)，并且图片速率应是整个层的图像片率的一半(即，elemental_duration_in_tc_minus1[0]等于2*elemental_duration_in_tc_minus1[1])。

在一个示例中，可以约束由数据封装器107生成的文件中包括的视频数据，使得应由SPS裁剪参数conf_win_left_offset、conf_win_right_offset、conf_win_top_offset和conf_win_bottom_offset来表示图片裁剪。即，应要求图片裁剪由SPS裁剪参数conf_win_left_offset、conf_win_right_offset、conf_win_top_offset、conf_win_bottom_offset表示，正因为如此，对于引用VPS的每个SPS，conf_win_vps_left_offset、conf_win_vps_right_offset、conf_win_vps_top_offset和conf_win_vps_bottom_offset可能分别不被用于引用SPS语法元素conf_win_left_offset、conf_win_right_offset、conf_win_top_offset和conf_win_bottom_offset。应当指出的是，在该示例中，在conformance_window_vps_flag等于1的情况下，视频解码器可以确定文件是不符合的并且执行适当的动作来处理不符合文件。

在另一个示例中，可以约束由数据封装器107生成的文件中包括的视频数据，使得应由vps扩展裁剪参数conf_win_vps_left_offset、conf_win_vps_right_offset、conf_win_vps_top_offset和conf_win_vps_bottom_offset来表示图片裁剪。

这样，可以基于上面提供的一个或多个约束来有效地解析和/或呈现由数据封装器107生成的文件所封装的多层HEVC呈现。例如，计算设备在接收由数据封装器107生成的文件时可以期望特定的视频编解码器配置文件。应当指出的是，在一个示例中，演示应用程序应使用符合IETFRFC 6381(用于“Bucket”媒体类型的“编解码器”和“配置文件”参数，2011年8月)的参数来发信号通知由数据封装器107生成的文件中包括的每个HEVC轨道和交换集的视频编解码器配置文件和级别。[RFC6381]和ISO-VIDEO附录E第4条也称为E.4节。

应当指出的是，表3中只有一些约束可能适用。也可以修改其中一些约束。例如，约束为0的标记可以改为约束为1。可以改变对上述语法元素的值的约束。所有这些都预期在本发明的范围内。

再次参见图1，接口108可以包括被配置为接收由数据封装器107生成的文件并且将该文件发送和/或存储到通信介质的任何设备。接口108可以包括网络接口卡诸如以太网卡，并且可以包括光收发器、射频收发器或者可以发送和/或接收信息的任何其他类型的设备。此外，接口108可以包括计算机系统接口，该计算机系统接口可以使文件能够存储在存储设备上。例如，接口108可以包括支持外围组件互连(Peripheral ComponentInterconnec,PCI)和高速外围组件互连(Peripheral Component Interconnect Express,PCIe)总线协议的芯片集、专用总线协议、通用串行总线(Universal Serial Bus,USB)协议、I2C、或任何其他可用于互连对等设备的逻辑和物理结构。

再次参考图1，目标设备120包括接口122、数据解封装器123、视频解码器124和显示器126。接口122可以包括被配置为从通信介质接收数据的任何设备。接口122可以包括网络接口卡诸如以太网卡，并且可以包括光收发器、射频收发器或者可接收和/或发送信息的任何其他类型的设备。此外，接口122可以包括计算机系统接口，使得能够从存储设备检索合规的视频比特流。例如，接口122可包括支持PCI和PCIe总线协议、专用总线协议、USB协议、I2C的芯片组，或者可被用于互连对等设备的任何其他逻辑和物理结构。数据解封装器123可以被配置为将由数据封装器107生成的文件解封装。视频解码器124可以包括被配置为接收兼容比特流(例如，作为解封装数据的一部分)和/或其可接受变体且从其再现视频数据的任何设备。显示器126可以包括被配置为显示视频数据的任何设备。显示器126可以包括各种显示设备诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一种类型的显示器中的一种。显示器126可以包括高清显示器或超高清显示器。需注意，虽然在图1所示的示例中，视频解码器124被描述为将数据输出到显示器126，但视频解码器124可被配置为将视频数据输出到各种类型的设备和/或其子部件。例如，视频解码器124可被配置为将视频数据输出到任何通信介质，如本文所述。

图6是示出根据本公开的一种或多种技术可被配置为对视频数据进行解码的视频解码器示例的框图。在一个示例中，视频解码器600可被配置为对变换数据进行解码并基于经解码的变换数据从变换系数重构残差数据。视频解码器600可被配置为执行帧内预测解码和帧间预测解码，并且因此可被称为混合解码器。在图6所示的示例中，视频解码器600包括熵解码单元602、逆量化单元和变换系数处理单元604、帧内预测处理单元606、帧间预测处理单元608、加法器610、后滤波器单元612和参考缓冲器614。视频解码器600可被配置为以与视频编码系统一致的方式对视频数据进行解码。应当注意，尽管示出的示例视频解码器600具有不同的功能块，但此类图示旨在用于描述目的，并且不将视频解码器600和/或其子部件限制为特定的硬件或软件架构。可使用硬件、固件和/或软件具体实施的任何组合来实现视频解码器600的功能。

如图6所示，熵解码单元602接收熵编码的比特流。熵解码单元602可被配置为根据与熵编码过程互逆的过程从比特流中解码语法元素和量化系数。熵解码单元602可被配置为根据上文所述的任何熵编码技术执行熵解码。熵解码单元602可以与视频编码标准一致的方式确定编码的比特流中的语法元素的值。如图6所示，熵解码单元602可以从比特流确定量化参数、量化系数值、变换数据和预测数据。在该示例中，如图6所示，逆量化单元和变换系数处理单元604从熵解码单元602接收量化参数、量化系数值、变换数据和预测数据，并输出重构的残差数据。

再次参见图6，可以将重构的残差数据提供给加法器610。加法器610可以将重构的残差数据添加到预测视频块并生成重构的视频数据。可根据预测视频技术(即帧内预测和帧间预测)确定预测视频块。帧内预测处理单元606可被配置为接收帧内预测语法元素，并且从参考缓冲器614处检索预测视频块。参考缓冲器614可以包括被配置为存储一个或多个视频数据帧的存储器设备。帧内预测语法元素可识别帧内预测模式，诸如上述的帧内预测模式。帧间预测处理单元608可以接收帧间预测语法元素并生成运动向量，以识别存储在参考缓冲器814中的一个或多个参考帧中的预测块。帧间预测处理单元608可以生成运动补偿块，也可能基于内插滤波器执行内插。用于具有子像素精度的运动估计的内插滤波器的标识符可以被包括在语法元素中。帧间预测处理单元808可以使用内插滤波器来计算参考块的子整数像素的内插值。后滤波器单元612可被配置为对重构的视频数据执行滤波。例如，后滤波器单元612可被配置为执行解块和/或样本自适应偏移(SAO)滤波，例如基于在比特流中指定的参数。此外，应当指出的是，在一些示例中，后滤波器单元612可被配置为执行专用的任意滤波(例如，视觉增强，诸如蚊状噪声消除)。如图6所示，视频解码器600可以输出重构视频块。这样，视频解码器600可被配置为根据本文中描述的一种或多种技术生成重构的视频数据。

在一个或多个示例中，所描述的功能可以通过硬件、软件、固件或其任何组合来实现。如果以软件实现，则可将功能作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质上传输，并且由基于硬件的处理单元执行。计算机可读介质可包括对应于有形介质诸如数据存储介质的计算机可读存储介质，或者包括例如根据通信协议促进计算机程序从某个地方传输到另一个地方的任何介质的传播介质。这样，计算机可读介质通常可对应于：(1)非暂态的有形计算机可读存储介质，或者(2)通信介质诸如信号或载波。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

以举例而非限制的方式，此类计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储设备、磁盘存储设备或其他磁存储设备、闪存，或者可用于存储指令或数据结构形式的所需程序代码并且可由计算机访问的任何其他介质。而且，任何连接都被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字用户线路(DSL)或无线技术诸如红外线、无线电和微波从网站、服务器或其他远程源传输指令，则同轴电缆、光纤电缆、双绞线、DSL或无线技术诸如红外线、无线电和微波都包含在介质的定义中。然而，应该理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂态介质，而是针对非暂态有形存储介质。如本文所用，磁盘和光盘包括压缩光盘(CD)、激光盘、光学光盘、数字通用光盘(DVD)、软磁盘及Blu-ray光盘，其中磁盘通常以磁性方式复制数据，而光盘则利用激光以光学方式复制数据。上述的组合也应该包括在计算机可读介质的范围内。

可以由一个或多个处理器诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或离散逻辑电路执行指令。因此，如本文所使用的术语“处理器”可以指任何前述结构或适用于实现本文所描述的技术的任何其他结构。此外，在一些方面中，可以在被配置用于编码和解码的专用硬件和/或软件模块内提供本文描述的功能，或者将其结合到组合编解码器中。而且，这些技术可以完全在一个或多个电路或逻辑元件中实现。

本公开的技术可以在各种设备或装置包括无线手机、集成电路(IC)或一组IC(例如，芯片组)中实现。在本公开中描述了各种部件、模块或单元，以强调被配置为执行所公开的技术的设备的功能方面，但是不一定需要通过不同的硬件单元来实现。相反，如上所述，可以将各种单元组合在编解码器硬件单元中，或者通过互操作硬件单元包括如上所述的一个或多个处理器的集合，结合合适的软件和/或固件来提供各种单元。

此外，每个上述实施方案中所使用的基站设备和终端设备的每个功能块或各种特征可通过电路(通常为一个集成电路或多个集成电路)实施或执行。被设计为执行本说明书中所述的功能的电路可包括通用处理器、数字信号处理器(DSP)、专用或通用集成电路(ASIC)、现场可编程门阵列(FPGA)，或其他可编程逻辑设备、分立栅极或晶体管逻辑器，或分立硬件部件，或它们的组合。通用处理器可为微处理器，或另选地，该处理器可为常规处理器、控制器、微控制器或状态机。通用处理器或上述每种电路可由数字电路进行配置，或可由模拟电路进行配置。此外，当由于半导体技术的进步而出现制成取代当前集成电路的集成电路的技术时，也能够使用通过该技术生产的集成电路。

已经描述了各种示例。这些示例和其他示例在以下权利要求的范围内。<交叉引用>

该非临时申请根据35U.S.C.§119，要求于2017年3月20日提交的临时申请号62/473,609的优先权，其全部内容以引用方式并入本文。

Claims

1.一种封装数据的方法，所述方法包括：

接收编码视频数据，其中所述编码视频数据包括多层视频呈现数据；

设置与所述编码视频数据相关联的一个或多个参数值；以及

将所述编码视频数据封装在数据结构中。

2.根据权利要求1所述的方法，其中设置与所述编码视频数据相关联的一个或多个参数值包括为定义用于与所述编码视频数据相对应的参数集的标记设置值。

3.根据权利要求2所述的方法，其中为定义用于与所述编码视频数据相对应的参数集的标记设置值包括将标记设置为定义的值。

4.根据权利要求3所述的方法，其中标记包括以下中的一个或多个：一般逐行扫描源标记、一般帧唯一约束标记、一般隔行扫描源标记、一般非封装约束标记、视频参数集扩展标记和视频参数视频可用性信息存在标记。

5.根据权利要求3或4中任一项所述的方法，其中标记包括序列参数集中包括的一个或多个标记。

6.根据权利要求1至5中任一项所述的方法，还包括通过通信介质发送数据结构。

7.一种用于封装数据的设备，所述设备包括配置用于执行权利要求1至6中所述步骤的任意组合和全部组合的一个或多个处理器。

8.根据权利要求7所述的设备，其中所述设备包括视频编码器。

9.一种用于解封装数据的设备，所述设备包括配置用于解封装根据权利要求1至6中所述步骤的任意组合和全部组合封装的数据的一个或多个处理器。

10.根据权利要求9所述的设备，其中所述设备包括视频解码器。

11.一种用于封装数据的装置，所述装置包括用于执行权利要求1至6中所述步骤的任意组合和全部组合的装置。

12.一种用于解封装数据的装置，所述装置包括用于解封装通过权利要求1至6中所述步骤的任意组合和全部组合封装的数据的装置。

13.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括其上存储的指令，所述指令在被执行时，使得设备的一个或多个处理器执行根据权利要求1至6中所述步骤的任意组合和全部组合。

14.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括其上存储的指令，所述指令在被执行时，使得设备的一个或多个处理器解封装根据权利要求1至6中所述步骤的任意组合和全部组合封装的数据。

15.一种系统，所述系统包括：

根据权利要求7所述的设备；和

根据权利要求9所述的设备。