CN114846800A

CN114846800A - 视频编码中的子图片信令

Info

Publication number: CN114846800A
Application number: CN202080085790.1A
Authority: CN
Inventors: 吴平
Original assignee: Zte Uk Co ltd
Current assignee: Zte Uk Co ltd
Priority date: 2019-12-10
Filing date: 2020-12-09
Publication date: 2022-08-02
Also published as: JP2023512749A; KR20230125722A; US11375232B2; WO2021116157A1; EP4074051A1; US20210176491A1

Abstract

描述了用于视频比特流生成和解析的方法、装置和系统。一个示例性的视频比特流处理方法包括在视频比特流中的视频单元级别解析用于第一字段的报头，该第一字段用于指示视频单元是否包括具有多种类型的多个网络抽象层比特单元，由于确定视频单元包括具有多种类型的多个网络抽象层比特单元，解析报头中的第二字段，该第二字段指示视频单元是否包括帧内随机接入点，以及基于第一字段和第二字段解码视频比特流以生成视频。

Description

视频编码中的子图片信令

相关申请的交叉引用

本专利申请要求于2019年12月10日提交的美国专利申请第16/709,907号的优先权。前述专利申请的全部内容通过引用并入作为本申请的公开内容的一部分。

技术领域

该专利文件总体上针对视频和图像编码和解码。

背景技术

在过去的三十年中，已经发布了许多不同的视频编码标准，用于通过移除数字视频中的一些视觉冗余和信息来将数字视频表示为压缩格式。在此时期间，编码视频内容的像素分辨率从早期的MPEG-1视频标准中的源输入格式(SIF)分辨率稳步上升到目前正在考虑的4K或8K视频。因此，较新的视频编码标准采用了更有效和更灵活的编码技术来适应增加的视频分辨率。

发明内容

本专利文件尤其描述了使用可用于子图片在编码视频比特流中的信令并对应地将编码视频比特流解码为未编码的视频的技术来编码和解码数字视频的技术。

在一个示例方面，公开了一种比特流处理方法。该方法包括在视频比特流中的视频单元级别解析用于第一字段的报头，该第一字段指示视频单元是否包括具有多种类型的多个网络抽象层比特单元；由于确定视频单元包括具有多种类型的多个网络抽象层比特单元，解析报头中的第二字段，该第二字段指示视频单元是否包括帧内随机接入点；以及基于第一字段和第二字段对视频码流进行解码以生成视频。

在另一示例方面，公开了一种解析视频比特流的方法。该方法包括针对解码包括一个或多个子图片的视频图片，解析语法结构以获得类型信息，该类型信息关于构成视频图片的一个或多个网络抽象层(NAL)单元和该视频图片是否是帧内随机接入图片，以及基于解析重建一个或多个子图片。

在另一示例方面，公开了一种编码视频的方法。该方法包括在视频比特流中的视频单元级别的报头中包括第一字段，该第一字段指示视频单元是否包括具有多种类型的多个网络抽象层比特单元；由于确定视频单元包括具有多种类型的多个网络抽象层比特单元，还在报头中包括第二字段，该第二字段指示视频单元是否包括帧内随机接入点；以及编码视频以生成视频比特流。

在又一示例方面，公开了一种包括处理器的视频处理装置。处理器被配置为实现本文描述的编码或解码方法。

在又一示例方面，公开了一种计算机程序存储介质。计算机程序存储介质包括存储在其上的代码。该代码在由处理器执行时使处理器实现所描述的方法。

在本文件中描述了这些和其他方面。

附图说明

图1示出了被分区成多个子图片的视频图片的示例。

图2A至图2B示出了当对包括多个子图片的视频图片进行编码或解码时的示例处理顺序。

图3A示出了被分割成编码树单元(CTU)、图块、切片和子图片的视频图片的示例。

图3B示出了具有24个子图片和24个切片的视频图片。

图4示出了示例视频编码器的框图。

图5示出了示例视频解码器的框图。

图6示出了视频系统的示例。

图7示出了视频处理硬件平台的示例。

图8是用于视频处理的示例方法的流程图。

图9是用于视频处理的示例方法的流程图。

图10是用于解析比特流的示例方法的流程图。

图11是用于视频编码的示例方法的流程图。

具体实施方式

在本文档中使用章节标题仅是为了提高可读性并且不将每个章节中公开的实施例和技术的范围仅限于该章节。使用H.264/AVC(高级视频编码)、H.265/HEVC(高效视频编码)和H.266多功能视频编码(VVC)标准的示例来描述某些特征。然而，所公开的技术的适用性不仅限于H.264/AVC或H.265/HEVC或H.266/WC系统。

本公开涉及视频处理和通信，具体地涉及用于编码数字视频或图片以生成比特流的方法和装置、用于解码比特流以重构数字视频或图片的方法和装置、用于提取比特流以形成子比特流的方法和装置。

简要讨论

用于压缩数字视频和图片的技术利用像素样本之间的相关特性来移除视频和图片中的冗余。编码器可以将图片分区成包含多个单元的一个或多个区域。这样的区域打破了图片内的预测依赖性，使得可以对区域进行解码或者至少可以正确解析与该区域相对应的语法元素，而无需参考同一图片中的另一区域的数据。视频编码标准中引入的这样的区域是为了促进数据丢失后的重新同步、并行处理、感兴趣的编码和流式传输的区域、分组化传输、视口依赖流式传输等。例如，在H.264/AVC标准中，这样的区域的示例可以是切片和切片组。在H.265/HEVC标准中，这样的区域的示例可以是切片和图块。

在下一代视频编码标准的开发中，MPEG(运动图像专家组)要求下一代视频编解码器应当能够从压缩比特流中有效地提取所需的视口。此外，在涉及4K、8K甚至更高分辨率视频的应用中，可以允许观看者选择用于在终端设备上呈现的视口，因此能够从与原始分辨率相对应的比特流中有效地提取子比特流是有用的。

由于H.265/HEVC标准在当前发布的视频编码标准中提供了最高的编码效率，因此H.265/HEVC在当前阶段中部署上述视频服务中被挑选为编解码器。H.265/HEVC标准定义了切片和图块。一张图片可以被分区成一个或多个图块和切片。根据H.265标准，一致性要求是针对每个切片和图块满足以下条件中的一个或两个条件：

-切片中的所有CTU属于相同的图块。

-图块中的所有CTU属于相同的切片。

通过限制图块边界处的环路滤波操作(例如，loop_filter_across_tiles_enabled_flag在PPS中设置为0)，图片中的图块可以被独立解码，而不参考图块外部的图片的其他区域。假设对CVS(编码视频序列)中的所有图片应用相同的图块分区。此外，如果编码器将包括一个或多个图块的区域的搜索范围限制为一个或多个参考图片中的图块的共同位于的区域以用于帧间预测编码，则解码器将解码该区域而不需要在空间上在包含该区域的当前解码图片中和在时间上在参考图片中的两者参考该区域外部的任何其他部分。这样的区域可以被称为运动约束图块集(MCTS)。

在HEVC标准和通用视频编码(Versatile Video Coding，VVC)标准中(请注意，VVC版本1标准化过程将于2020年7月完成)，除了图块和切片的概念，还包括另一称为子图片的图片分区。通常，子图片、图块和切片将视频图片分区形成非重叠区域，这些区域将覆盖整个图片。由于子图片、图块和切片是相当独立的概念，它们中的3项之间可能会发生重叠。例如，子图可以由多个矩形切片形成；图块也可以包含多个矩形切片；并且切片还可以包含多个图块等。

由于需要VVC标准来支持虚拟现实(VR)应用，因此可能必须支持和编码一些大尺寸360度视频。针对如此大尺寸的视频，在视频编码中期望使用360视频图片中的分区。一种潜在使用的技术是“子图片”分区。各种子图片(其都属于一个单个图片)可以被编码成不同的NAL单元类型。此外，子图片可以分组在一起以支持各种随机接入操作。

1.一个示例实施例

JVET-P2001vD(2019年11月14日)，当前的通用视频编码(VVC)规范(spec)在普通视频图片分区中支持子图片、切片和图块的概念。在第6.3.1节“将图片分区为子图片、切片和图块”中指出：“子图片包含一个或多个切片，这些切片共同覆盖图片的矩形区域。”

在当前的VVC规范中，子图片的结构在序列参数集(SPS)中被描述为：

表1

上面SPS中的斜体文本标志着子图片被定义的方式：一般来说，所有的分区都是基于CTU(基本单元)，通过指定左上部的X、Y位置加上子图片的宽和高信息，可以高效地定义子图片。

利用当前的子图片设计，图1中的子图片的分区(每个彩色块与一个子图片相关联)可以被支持。图1中所有子图片的处理顺序可以有多种方式，关键点是当子图片被编码时，这个子图片的整个左边界和上部界应该是可用的(例如，或者边界像素属于已经被处理(解码)的其他子图片，或边界是图片边界)。

用于这十个子图片的可能的两个处理顺序在图2A和图2B中给出。

2.一个示例实施例

在当前的VVC规范中，子图片结构可以在序列参数集(SPS)中定义。在标准文本VVCDraft 7(2019年11月)中，也明确指出一个或多个切片可以位于每个子图片内部。针对每个切片，其比特流将形成NAL单元，并将携带NAL单元类型(名称和值)。为了更好地支持利用VVC标准的随机接入功能，称为“mixed_irap_nalu_types_in_pic_flag”的新的语法元素可以被添加到图片参数集(PPS)中，如下(在表2中以斜体表示强调)：

表2

并且语义将是：

mixed_nalu_types_in_pic_flag等于1指定参考PPS的每个图片具有多于一个的VCL NAL单元，并且VCL NAL单元不具有相同的nal_unit_type值，并且该图片不是IRAP(帧内随机接入图片)。mixed_nalu_types_in_pic_flag等于0指定参考PPS的每个图片具有一个或多个VCL NAL单元，并且参考PPS的每个图片的VCL NAL单元具有相同的nal_unit_type值。

上述文本(在VVC Draft 7JVET-P2001中)没有被改变。但添加以下：

mixed_irap_nalu_types_in_pic_flag等于1指定参考PPS的每个图片具有多于一个的VCL NAL单元，并且VCL NAL单元不具有相同的nal_unit_type值，并且该图片具有IDR_W_RADL到CRA_NUT的范围(包括在内)中的混合nal_unit_type。mixed_irap_nalu_types_in_pic_flag等于0指定参考PPS的每个图片都具有一个或多个VCLNAL单元，并且参考PPS的每个图片的VCL NAL单元不具有相同的nal_unit_type值，并且该图片不是IRAP图片。

在PPS中添加该标志的关键点是支持在应用中的图片中允许混合的IRAP nalu_type类型的方式。可以理解通过在VVC规范中添加更多标准文本作为比特流约束，也可以实现支持图片中混合的IRAPnalu_type的类似目标。

将理解，本文档中描述的技术可以在视频编码器装置或视频解码器装置内结合以显着提高编码视频或解码视频的操作的性能。例如，一些视频应用(诸如虚拟现实体验或游戏)需要视频的实时(或比实时快的)编码或解码，以提供令人满意的用户体验。所公开的技术通过使用本文所述的基于图片区域的编码或解码技术来改进此类应用的性能。例如，基于用户的观点对视频帧的非全部部分进行编码或解码允许选择性地仅编码由用户观看的视频。此外，图片块的重组以在矩形视频帧中创建图片区域允许基于标准矩形帧的视频编码工具(诸如运动搜索、变换和量化)的使用。

图3A示出了具有CTU、图块和子图片或切片的视频图片的示例。在所描绘的图片中，存在18个图块、24个子图片和24个切片(20x12＝240个CTU)。

3.用于说明使用当前VVC技术的实施例的附加信息

除了先前描述的表1和表2的语法示例之外，以下文本可以被添加到当前版本的VVC编解码器以实现一些实施例。

在JVET-P2001(VVC草案7)中，有一种关于指示用于视频图片的混合NAL单元类型的设计，其取决于图片参数集(PPS)中名为“mixed_nalu_types_in_pic_flag”的语法元素。当前的提案建议添加另一语法元素作为“mixed_irap_nalu_types_in_pic_flag”来指示视频图片中的混合irap nalu类型和仅irap nalu类型。添加的指示将支持更广泛的应用，特别是涉及子图片分区应用。添加的语法元素还将服务于灵活随机接入点指示的目的，该随机接入点指示关于视频图片中相当独立编码的子图片。

4.介绍和问题陈述

4.1用于VVC规范JVET-P2001中NAL单元类型的相关现有设计：

以下信息从JVET-P2001[1]中提取，关键信息用下划线突出显示：

表3

在VVC专用的表5中-NAL单元类型代码和NAL单元类型类

关于随机接入条件，VVC规范中定义了一些关键术语。在JVET-P2001规范中，在3个“定义”下：

干净随机接入(CRA)图片：IRAP图片，针对其每个VCL NAL单元具有等于CRA NUT的nal_unit_type。

注释—CRA图片在其解码过程中不参考除自身以外的任何图片用于帧间预测，并且可能是解码顺序中比特流中的第一个图片，或者可能出现在比特流中的后面。CRA图片可能有关联的RADL或RASL图片。当CRA图片具有NoIncorrectPicOutputFlag等于1时，相关联的RASL图片不被解码器输出，因为它们可能无法解码，因为它们可能包含对比特流中不存在的图片的参考。

3.54渐进解码刷新(GDR)图片：图片针对其每个VCL NAL单元具有等于GDR NUT的nal_unit_type。

瞬时解码刷新(IDR)图片：IRAP图片针对其每个VCL NAL单元具有等于IDR W RADL或IDR N LP的nal_unit_type。

注释—IDR图片在其解码过程中不参考除自身以外的任何图片用于帧间预测，并且可能是解码顺序中比特流中的第一个图片，或者可能出现在比特流中的后面。每个IDR图片是CVS在解码顺序中的第一个图片。当IDR图片针对其每个VCL NAL单元具有等于IDR WRADL的nal_unit_type时，它可能有关联的RADL图片。当IDR图片针对其每个VCL NAL单元具有等于IDR N LP的nal_unit_type时，它没有任何关联的前导图片。IDR图片没有关联的RASL图片。

帧内随机接入点(IRAP)图片：编码图片，针对其所有VCL NAL单元在IDR W RADL到CRA NUT的范围(包括在内)中具有相同的nal_unit_type值。

注释1—IRAP图片在其解码过程中不参考除自身以外的任何图片用于帧间预测，并且可以是CRA图片或IDR图片。比特流中按解码顺序的第一个图片必须是IRAP或GDR图片。如果必要的参数集在需要引用时可用，则CVS中的IRAP图片和所有随后非RASL图片按解码顺序可以被正确地解码，而无需执行在解码顺序中在IRAP图片之前的任何图片的解码过程。

注释2—针对IRAP图片的mixed_nalu_types_in_pic_flag的值等于0。当针对图片的mixed_nalu_types_in_pic_flag等于0，并且图片的任何切片具有在IDR W RADL到CRANUT范围(包括在内)中的nal_unit_type时，图片的所有其他切片具有相同的nal_unit_type值，并且该图片已知为IRAP图片。

针对针对图片的NAL_unit_type的混合类型的指示，标志(语法元素)“mixed_nalu_types_in_pic_flag”已经位于PPS(图片参数集)中，如表4中所示。

表4

在VVC规范中，在7.4.3.4语义下：

mixed_nalu_types_in_pic_flag等于1指定参考PPS的每个图片具有多于一个的VCL NAL单元，并且VCL NAL单元不具有相同的nal_unit_type值，并且该图片不是IRAP图片。等于0的mixed_nalu_types_in_pic_flag指定参考PPS的每个图片具有一个或多个VCLNAL单元，并且参考PPS的每个图片的VCL NAL单元具有相同的nal_unit_type值。

当no_mixed_nalu_types_in_pic_constraint_flag等于1时，mixed_nalu_types_in_pic_flag的值应等于0。

针对图片picA中具有nal_unit_type值nalUnitTypeA在IDR_W_RADL到CRA_NUT的范围(包括在内)中的每个切片，图片picA还包含具有另一nal_unit_type值的一个或多个切片(即，用于图片picA的mixed_nalu_types_in_pic_flag的值等于1)，以下适用：

-切片应属于针对其对应的subpic_treatment_as_pic_flag[i]的值等于1的子图片subpicA。

-切片不应属于包含具有不等于nalUnitTypeA的nal_unit_type的VCL NAL单元的picA的子图片。

-针对以解码顺序在CLVS中的所有后续PU，subpicA中的切片的RefPicList[0]和RefPicList[1]都不应在活动条目中包括以解码顺序在picA之前的任何图片。

标志“no_mixed_nalu_types_in_pic_constraint_flag”已位于general_constraint_info()中，如下所示：

表5

相关语义：

no_mixed_nalu_types_in_pic_constraint_flag等于1指定mixed_nalu_types_in_pic_flag应等于0是比特流一致性的要求。no_mixed_nalu_types_in_pic_constraint_flag等于0不施加这样的约束。

在7.4.2.2“NAL单元报头语义”下的VVC规范中，它指出：

针对任何特定图片的VCL NAL单元，以下适用：

-如果mixed_nalu_types_in_pic_flag等于0，则针对图片的所有编码切片NAL单元，nal_unit_type值应相同。图片或PU被称为具有与图片或PU的编码切片NAL单元相同的NAL单元类型。

-否则(mixed_nalu_types_in_pic_flag等于1)，一个或多个VCLNAL单元都应具有IDR W RADL到CRA NUT的范围(包括在内)中的特定_unit_type值，并且其他VCL NAL单元都应具有TRAIL_NUT到RSV_VCL_6的范围(包括在内)中或等于GRA_NUT的特定的nal_unit_type值。

请注意，上一段中有错字。“GRA_NUT”这个词是不正确的；例如。在上面的表5中，没有“GRA_NUT”的条目。JVET-Q004中针对当前VVC规范已经提供了一个修复：利用GDR_NUT替换GRA_NUT。错字以粗体下划线突出显示。

4.2利用VVC规范JVET-P2001处理子图片：

在图3B所示的示例视频图片中，存在18个图块、24个子图片和24个切片(20x12＝240个CTU)。

在一个潜在的用例中，我们使用上面“图7”中的分区对每个图片进行编码，我们只挑选显示子图片5、6、9、10(矩形区域)开始。在时间线上的一个随机接入点，我们想要进行场景更改(剪切)以显示子图片6、7、10、11而不是原始的5、6、9、10。如果我们遵循当前VVC规范(JVET-P2001)中的确切约束，在该随机接入点，我们将在上图中标记从1到24的所有子图片，以具有完全相同的IRAP NAL单元类型(例如，用于所有24个子图片的IDR_N_LP或用于所有24个子图片的CRA_NUT)。如果我们想要具有混合的NAL单元类型的情况，那么我们不能保证我们只有IRAP子图片/图片。

5.提出的解决方案

建议在PPS中再添加一个标志“mixed_irap_nalu_types_in_pic_flag”，如表2所示：

未改变的语义为：

等于1的mixed_nalu_types_in_pic_flag指定参考PPS的每个图片具有多于一个VCL NAL单元并且VCL NAL单元不具有相同的nal_unit_type值并且该图片不是IRAP图片。等于0的mixed_nalu_types_in_pic_flag指定参考PPS的每个图片具有一个或多个VCL NAL单元，并且参考PPS的每个图片的VCL NAL单元具有相同的nal_unit_type值。

添加的新语义为：

mixed_irap_nalu_types_in_pic_flag等于1指定参考PPS的每个图片具有多于一个VCL NAL单元，并且VCL NAL单元不具有相同的nal_unit_type值，并且该图片在IDR_W_RADL到CRA_NUT的范围(包括在内)中。mixed_irap_nalu_types_in_pic_flag等于0指定参考PPS的每个图片具有一个或多个VCL NAL单元，并且参考PPS的每个图片的VCL NAL单元不具有相同的nal_unit_type值，并且该图片不是IRAP图片。

利用添加“mixed_irap_nalu_types_in_pic_flag”，VVC规范可以提供对混合的随机接入NAL单元类型指示的改进支持。

针对应用标准，如DVB标准，添加的标志将针对随机接入指示支持提供更灵活的指示机制。

图4是图示至少包含示例视频编码器或图片编码器的第一示例设备的图。

获取单元1001捕获视频和图片。获取单元1001可以配备有一个或多个相机，用于拍摄自然场景的视频或图片。可选地，获取单元1001可以利用相机来实现，以获得深度视频或深度图片。可选地，获取单元1001可以包括红外相机的组件。可选地，获取单元1001可以配置有遥感相机。获取单元1001也可以是通过使用辐射扫描对象来生成视频或图片的装置或设备。

可选地，获取单元1001可以对视频或图片执行预处理，例如自动白平衡、自动对焦、自动曝光、逆光补偿、锐化、去噪、拼接、上采样/下采样、帧率转换、虚拟视图合成等

获取单元1001还可以从另一设备或处理单元接收视频或图片。例如，获取单元1001可以是转码器中的组件单元。转码器将一个或多个解码(或部分解码的)图片馈送到获取单元1001。另一示例是获取单元1001经由到该设备的数据链路从另一设备获取视频或图片。

注意，获取单元1001可以用于捕获除了视频和图片之外的其他媒体信息，例如音频信号。获取单元1001还可以接收人工信息，例如字符、文本、计算机生成的视频或图片等。

编码器1002是示例编码器的实现。编码器1002的输入是由获取单元1001输出的视频或图片。编码器1002对视频或图片进行编码并输出生成的视频或图片比特流。

存储/发送单元1003从编码器1002接收视频或图片比特流，并对比特流执行系统层处理。例如，存储/发送单元1003根据传送标准和媒体文件格式(例如，MPEG-2TS、ISOBMFF、DASH、MMT等)封装比特流。存储/发送单元1003将封装后获得的传送流或媒体文件存储在第一示例设备的存储器或磁盘中，或经由有线或无线网络发送传送流或媒体文件。

注意，除了来自编码器1002的视频或图片比特流之外，存储/发送单元1003的输入还可以包括音频、文本、图像、图形等。存储/发送单元1003通过封装这些不同类型的媒体比特流来生成传送或媒体文件。

本实施例中描述的第一示例设备可以是能够在视频通信的应用中生成或处理视频(或图片)比特流的设备，例如，手机、计算机、媒体服务器、便携式移动终端、数码相机、广播设备、CDN(内容分发网络)设备、监控摄像头、视频会议设备等。

图5是图示了至少包含示例视频解码器或图片解码器的第二示例设备的图。

接收单元1101通过从有线或无线网络获得比特流、通过读取电子设备中的存储器或磁盘、或者通过经由数据链路从其他设备获取数据来接收视频或图片比特流。

接收单元1101的输入还可以包括包含视频或图片比特流的传送流或媒体文件。接收单元1101根据传送或媒体文件格式的规范，从传送流或媒体文件中提取视频或图片比特流。

接收单元1101将视频或图片比特流输出并传递给解码器1102。注意，除了视频或图片比特流之外，接收单元1101的输出还可以包括音频比特流、字符、文本、图像、图形等。接收单元1101将输出传递给第二示例设备中的对应处理单元。例如，接收单元1101将输出的音频比特流传递给该设备中的音频解码器。

解码器1102是示例解码器的实现。编码器1102的输入是由接收单元1101输出的视频或图片比特流。解码器1102对视频或图片比特流进行解码并输出解码后的视频或图片。

渲染单元1103从解码器1102接收解码的视频或图片。渲染单元1103将解码的视频或图片呈现给观看者。渲染单元1103可以是第二示例设备的组件，例如屏幕。渲染单元1103也可以是与第二示例设备分离的具有到第二示例设备的数据链路的设备，例如投影仪、监测器、电视机等。可选地，渲染1103在将解码的视频或图片呈现给观看者之前对其进行后处理，例如，自动白平衡、自动对焦、自动曝光、背光补偿、锐化、去噪、拼接、上采样/下采样、帧速率转换、虚拟视图合成等。

注意，除了解码的视频或图片之外，渲染单元1103的输入可以是来自第二示例设备的一个或多个单元的其他媒体数据，例如音频、字符、文本、图像、图形等。渲染单元1103的输入还可以包括人工数据，例如由本地教师在幻灯片上绘制的用于在远程教育应用中引起注意的线条和标记。渲染单元1103将不同类型的媒体组合在一起，然后将该组合呈现给观看者。

本实施例中描述的第二示例设备可以是在视频通信应用中能够对视频(或图片)比特流进行解码或处理的设备，例如，手机、计算机、机顶盒、电视机、HMD、监测器、媒体服务器、便携式移动终端、数码相机、广播设备、CDN(内容分发网络)设备、监控、视频会议设备等。

图6是图示包含图5中的第一示例设备和图4中的第二示例设备的电子系统的图。

服务设备1201是图4中的第一示例设备。

存储介质/传送网络1202可以包括设备或电子系统的内部存储器资源、可经由数据链路接入的外部存储器资源、包括有线和/或无线网络的数据传输网络。存储介质/传送网络1202针对服务设备1201中的存储/发送单元1203提供存储资源或数据传输网络。

目的地设备1203是图5中的第二示例设备。目的地设备1203中的接收单元1201从存储介质/传送网络1202接收视频或图片比特流、包含视频或图片比特流的传送流或包含视频或图片比特流的媒体文件。

本实施例中描述的电子系统可以是在视频通信的应用中能够生成、存储或传送和解码视频(或图片)比特流的设备或系统，例如，移动电话、计算机、IPTV系统、OTT系统、互联网多媒体系统、数字TV广播系统、视频监控系统、便携式移动终端、数码相机、视频会议系统等。

图7示出了可用于实现本文档中描述的编码器侧或解码器侧技术的示例装置1400。装置1400包括处理器1402，其可以被配置为执行编码器侧或解码器侧技术或两者。装置1400还可以包括存储器(未示出)，以用于存储处理器可执行指令和用于存储视频比特流和/或显示数据。装置1400可以包括视频处理电路系统(未示出)，诸如变换电路、算术编码/解码电路、基于查找表的数据编码技术等。视频处理电路系统可以部分地包括在处理器中和/或部分地包括在其他专用电路系统中，诸如图形处理器、现场可编程门阵列(FPGA)等。

图8是用于视频比特流处理的示例方法800的流程图。方法800可以由本文档中描述的视频解码器来实现。方法800(和接下来描述的900)可以使用硬件平台(诸如参考图7描述的)来实现。

方法800包括在视频比特流中的视频单元级别解析(802)用于第一字段的报头，该第一字段用于指示视频单元是否包括具有多种类型的多个网络抽象层比特单元。在一些实施例中，视频单元可以是视频图片(例如，如图3所示)。

方法800包括由于确定视频单元包括具有多种类型的多个网络抽象层比特单元而进一步解析(804)报头中的第二字段，该第二字段指示视频单元是否包括帧内随机接入点。

方法800包括基于第一字段和第二字段解码(806)视频比特流以生成视频。

在一些实施例中，第一字段和第二字段两者都可以是单个比特字段。这样的实施例的优点是保持与传统标准的向后兼容性，同时在引入由第二比特传送的附加信息时引入最低量的开销(单个比特)。

在一些实施例中，第一比特和第二比特可以被包括在报头内的不同位置中。备选地，在一些实施例中，这两个比特可以是彼此连续的。在某些情况下，第二字段是否包括在报头中可能取决于第一字段的值。例如，第一字段中的零值可以指示不包括第二字段。

图9示出了用于视频比特流解析的另一示例方法900的流程图。

方法900包括，在902，针对解码包括一个或多个子图片的视频图片，解析语法结构以获得类型信息，该类型信息关于构成视频图片的一个或多个网络抽象层(NAL)单元以及该视频图片是否是帧内随机接入图片。

方法900包括，在904，基于解析重构一个或多个子图片。

在一些实施例中，语法结构可以包括第一字段，该第一字段指示一个或多个NAL单元是否包括多个NAL单元。

在一些实施例中，语法结构可以包括第一字段和可选的第二字段，第二字段的存在取决于第一字段的值，并且其中第一字段指示混合类型的NAL单元是否存在于一个或多个NAL单元中。例如，如前所述，第一字段和第二字段可以是在比特流内连续定位的单个比特字段。

图10示出了示例流程图1000，其可以用于用信号发送或推断视频图片中子图片的存在。例如，可以使用这样的子图片来传达3D图片信息。

在1002，关于第一标志的值进行检查。该值可以设置为特定值，例如0，以指示图片包括具有相同切片类型的所有NAL切片(1004)。例如，该标志可以被用于指示当前图片是“传统”图片，不包括可独立解码的子图片。在确定所有NAL切片具有相同类型(1004)之后，报头可以被进一步解析(1006)以用于附加信息。

如果在1002的检查显示第一标志具有第二值(例如，1)，则推断存在多个NAL单元并且这些NAL单元可能具有不同的值。在1010，检测可以针对第二标志的值被执行。如果该值是特定值(例如，0)，则确定所有NAL单元具有相同的值(1012)。在确定之后，报头可以被解析以用于另外的信息(1006)。如果在1010的检查显示第二标志具有另一个特定值，则推断NAL单元具有不同的类型，但该图片不是帧内随机接入图片(1014)。

从图10中描绘的逻辑流程可以理解，将单个比特引入图片报头的现有语法结构实现视频图片中子图片的存在的信令。该信令与当前存在的切片和/或图块和/或CTU的信令兼容。

在一些实施例中，编码视频的方法(例如，图11中描绘的方法1100)包括：在视频比特流中的视频单元级别的报头中包括(1102)

第一字段，该第一字段指示视频单元是否包括具有多种类型的多个网络抽象层比特单元；由于确定视频单元包括具有多种类型的多个网络抽象层比特单元而选择性地在报头中进一步包括(1104)第二字段，第二字段指示视频单元是否包括帧内随机接入点；以及编码(1106)视频以生成视频比特流。例如，编码可以使用各种帧内、帧间和其他技术来表示比特流内的视频数据。

在一些实施例中，视频单元是视频图片。

如前所述，在一些实施例中，第一字段和第二字段是单个比特字段。然而，在本文档中，这些字段的其他长度也是可能的。

第二字段可以在视频比特流中被定位在紧跟在第一字段之后。

在一些实施例中，编码1106包括将多个子图片编码到视频单元中，并且其中每个子图片具有独立的网络抽象层单元类型。

在一些实施例中，视频编码方法可以包括针对编码包括一个或多个子图片的视频图片，生成语法结构，该语法结构包括关于构成视频图片的一个或多个网络抽象层(NAL)单元以及视频图片是否为帧内随机接入图片的类型信息；以及基于语法结构编码一个或多个子图片。

在以上公开的编码方法中，在一些实施例中，语法结构可以包括第一字段，该第一字段指示一个或多个NAL单元是否可以包括多个NAL单元。

在一些实施例中，语法结构包括第一字段和可选的第二字段，第二字段的存在取决于第一字段的值，并且其中第一字段指示混合类型的NAL单元是否存在于一个或多个NAL单元中。

在一些实施例中，第一字段和第二字段是在视频比特流中紧挨着彼此定位的单个比特标志。

在一些实施例中，例如如图7中所描绘的视频编码器可以实现上述编码方法。在一些实施例中，例如如图7中所描绘的视频解码器可以实现本文描述的视频比特流解析方法。视频解码器可以是例如转码器，该转码器将视频从一个比特流表示改变为另一比特流表示。

在一些实施例中，计算机程序产品可以包括计算机可读介质，该计算机可读介质包括处理器可执行代码，该处理器可执行代码用于实现本文和权利要求中描述的方法。

6.工业实用性

从以上描述可知，公开了实现不一定是帧内随机接入点的子图片(诸如包含用于3D图片的不同视图数据的子图片)的信令的技术。使用所公开的技术，视频编码器或视频解码器的一些实施例能够使用具有添加到语法结构的最少比特数的图片报头以能够支持子图片的传送，同时保持与切片、CTU等的信令的向后兼容性。

本文档中描述的公开和其他实施例、模块和功能操作可以在数字电子电路系统或计算机软件、固件或硬件中实现，包括本文档中公开的结构及其结构等效物，或其中一种或多种的组合。所公开的和其他实施例可以实现为一个或多个计算机程序产品，即，编码在计算机可读介质上的一个或多个计算机程序指令模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质组合物，或一种或多种它们的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或其中一个或多个的组合的代码。传播信号是人工生成的信号(例如机器生成的电、光或电磁信号)，该信号被生成来编码信息以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言，并且它可以以任何形式部署，包括作为一个独立的程序或作为一个模块、组件、子程序或适合在计算环境中使用的其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在包含其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件中或多个协调文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。可以部署计算机程序以在一台计算机或位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。

本文中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，该一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统执行，并且装置也可以实现为专用逻辑电路系统，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于执行计算机程序的处理器包括例如通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如，磁、磁光盘或光盘)接收数据或向其传送数据或两者。然而，计算机不需要有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；和CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路系统补充或结合在专用逻辑电路系统中。

虽然本专利文件包含许多细节，但这些不应被解释为对任何发明的范围或可能要求保护的内容的限制，而是对可能特定于特定发明的特定实施例的特征的描述。本专利文件中在分开实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分离地或以任何合适的子组合来实现。此外，尽管特征可能在某些组合中被描述为在某些组合中起作用，并且甚至最初如此要求保护，但在某些情况下，来自要求保护的组合的一个或多个特征可以从组合中删除，并且要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，但这不应理解为要求以所示特定顺序或按顺序执行此类操作，或者执行所有所示操作以实现期望结果。此外，本专利文件中描述的实施例中的各个系统组件的分离不应理解为在所有实施例中都要求这样的分开。

仅描述了几个实现和示例，并且其他实现、增强和变化可以基于本专利文件中描述和示出的内容进行。

Claims

1.一种视频比特流处理的方法，包括：

在视频比特流中的视频单元级别解析用于第一字段的报头，所述第一字段指示所述视频单元是否包括具有多种类型的多个网络抽象层比特单元；

由于确定所述视频单元包括具有多种类型的多个网络抽象层比特单元，解析所述报头中的第二字段，所述第二字段指示所述视频单元是否包括帧内随机接入点；以及

基于所述第一字段和所述第二字段，解码所述视频比特流以生成视频。

2.根据权利要求1所述的方法，其中所述视频单元是视频图片。

3.根据权利要求1或2所述的方法，其中所述第一字段和所述第二字段是单个比特字段。

4.根据权利要求1至3中任一项所述的方法，其中所述第二字段被定位为在所述视频比特流中紧接在所述第一字段之后。

5.根据权利要求1至4中任一项所述的方法，其中所述解码所述视频比特流包括：解码所述视频单元中包括的多个子图片，并且其中每个子图片具有独立网络抽象层单元类型。

6.一种编码视频的方法，包括：

在视频比特流中视频单元级别的报头中包括第一字段，所述第一字段指示所述视频单元是否包括具有多种类型的多个网络抽象层比特单元；

由于确定所述视频单元包括具有多种类型的多个网络抽象层比特单元，还在所述报头中包括第二字段，所述第二字段指示所述视频单元是否包括帧内随机接入点；以及

编码所述视频以生成所述视频比特流。

7.根据权利要求6所述的方法，其中所述视频单元是视频图片。

8.根据权利要求6或7所述的方法，其中所述第一字段和所述第二字段是单个比特字段。

9.根据权利要求6至8中任一项所述的方法，其中所述第二字段被定位为在所述视频比特流中紧接在所述第一字段之后。

10.根据权利要求6至9中任一项所述的方法，其中所述编码包括：将多个子图片编码到所述视频单元中，并且其中每个子图片具有独立网络抽象层单元类型。

11.一种视频解码装置，包括处理器，所述处理器被配置为执行处理视频比特流的方法，所述方法包括：

针对解码包括一个或多个子图片的视频图片，解析语法结构以获得类型信息，所述类型信息关于构成所述视频图片的一个或多个网络抽象层(NAL)单元以及所述视频图片是否是帧内随机接入图片；以及

基于所述解析，重构所述一个或多个子图片。

12.根据权利要求11所述的装置，其中所述语法结构包括第一字段，所述第一字段指示所述一个或多个NAL单元是否包括多个NAL单元。

13.根据权利要求11或12所述的装置，其中所述语法结构包括第一字段和可选的第二字段，所述第二字段的存在取决于所述第一字段的值，并且其中所述第一字段指示所述一个或多个NAL单元中是否存在混合类型的NAL单元。

14.根据权利要求13所述的装置，其中所述第一字段和所述第二字段是彼此紧邻地定位在所述视频比特流中的单比特标志。

15.一种计算机程序产品，包括其上存储有代码的计算机可读介质，所述代码在由处理器执行时引起所述处理器实现视频解析，所述视频解析包括：

16.根据权利要求15所述的计算机程序产品，其中所述视频单元是视频图片。

17.根据权利要求15或16所述的计算机程序产品，其中所述第一字段和所述第二字段是单个比特字段。

18.根据权利要求15至17中任一项所述的计算机程序产品，其中所述第二字段被定位为在所述视频比特流中紧接在所述第一字段之后。

19.根据权利要求15至18中任一项所述的计算机程序产品，其中所述解码所述视频比特流包括：解码所述视频单元中包括的多个子图片，并且其中每个子图片具有独立网络抽象层单元类型。