CN113348666B

CN113348666B - 用于对编码视频流进行解码的方法和系统

Info

Publication number: CN113348666B
Application number: CN202080010353.3A
Authority: CN
Inventors: 崔秉斗; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2019-01-22
Filing date: 2020-01-21
Publication date: 2023-10-27
Anticipated expiration: 2040-01-21
Also published as: WO2020154257A1; US20200236377A1; JP2022510325A; EP3915255A1; CN117459726A; KR20210077754A; CN113348666A; EP3915255A4

Abstract

提供了用于对视频流进行解码的方法和系统，该方法包括：接收包括被分割成多个图块组的图片的编码视频流，所述多个图块组中的每一个图块组包括至少一个图块，所述编码视频流还包括第一指示符，所述第一指示符指示所述多个图块组中的图块组是否具有矩形形状；基于所述第一指示符，识别所述图片的所述图块组是否具有矩形形状；以及重建、转发或丢弃所述图块组。

Description

用于对编码视频流进行解码的方法和系统

相关申请的交叉引用

本申请要求2019年1月22日提交的美国临时申请No.62/795,526和2020年1月17日提交的美国申请No.16/745,824的优先权，这些申请的全部公开内容通过引用并入本说明书中。

技术领域

所公开的主题涉及视频编码和解码，并且更具体地，涉及用于将编码视频的图片的图块和图块组结构写入码流并在码流中以信号进行通知、以及识别图块和图块组结构的技术。

背景技术

先前已经使用采用具有运动补偿的图片间预测的视频编码和解码。未压缩的数字视频可以包括一系列图片，每个图片具有例如1920×1080亮度采样和相关联的色度采样的空间维度。图片序列可以具有固定的或可变的图片速率(也称为帧速率)，例如每秒60个图片或60Hz。未压缩的视频具有极大的比特率要求。例如，在每采样8比特(在60Hz帧速率下的1920×1080亮度采样分辨率)下的1080p60 4:2:0视频需要接近1.5Gbit/s的带宽。长达一小时的这种视频需要超过600GByte的存储空间。

视频编码和解码的一个目的可以是通过压缩减少输入视频信号中的冗余。压缩有助于减少前述带宽或存储空间需求，在一些情况下可以减少两个数量级或更多。无损压缩和有损压缩以及二者的组合可以同时使用。无损压缩是指可以从压缩的原始信号重建原始信号的精确副本的技术。当使用有损压缩时，重建信号可能与原始信号不相同，但是原始信号和重建信号之间的失真可能足够小，以使得重建信号可用于预期应用。在视频中，有损压缩得到了广泛使用。容许的失真量取决于应用，例如，某些消费流应用的用户可以比电视贡献应用的用户容忍更高的失真。可实现的压缩比可以反映出：允许/容忍的失真越大，压缩比越高。

视频编码器和解码器可利用来自若干广泛类别的技术，包括例如运动补偿，变换，量化和熵编码，下文将介绍其中的一些。

先前已经使用了将编码视频码流划分为分组以便在分组网络上传输的概念。早些时候，视频编码标准和技术主要是针对面向比特的传输和定义的码流进行优化的。分组化发生在例如以实时传输协议(RTP-)有效载荷格式指定的系统层接口中。随着适合在因特网上大量使用视频的因特网连接的出现，视频编码标准通过视频编码层(VCL)和网络抽象层(NAL)的概念区分来反映突出的用例。2003年在H.264中引入了NAL单元，并且自从那时起，已经在某些视频编码标准和技术中保留了NAL单元，只进行了轻微的修改。

在许多情况下，NAL单元可被视为解码器可作用于其上而不必对编码视频序列的所有在先NAL单元进行解码的最小实体。到目前为止，NAL单元使得某些差错复原技术以及某些码流处理技术能够包括由媒体感知网络单元(Media Aware Network Element,MANE)(例如，选择性转发单元(SFUs)或多点控制单元(MCUs))进行的码流修剪。

图5A至图5B描绘了根据H.264(501)和H.265(502)的NAL单元报头的一些语法的语法图，在这两种情况下都没有它们各自的扩展。在这两种情况下，forbidden_zero_bit是用于在某些系统层环境中进行起始码竞争防止(start code emulation prevention)的零位。nal_unit_type语法元素是指NAL单元携带的数据的类型，其可以是例如某些切片类型，参数集类型，补充增强信息(SEI)消息等中的一个。H.265NAL单元报头还包括nuh_layer_id和nuh_temporal_id_plus1，其指示NAL单元所属的编码图片的空间/SNR和时间层。

可以看出，NAL单元报头仅包括容易解析的固定长度码字，其不对码流中的其它数据(例如，其它NAL单元报头，参数集等)具有任何解析依赖性。由于NAL单元报头是NAL单元中的第一个八位字节，所以多个MANE可以容易地提取它们，解析它们，并对它们进行操作。相比之下，其它高级语法元素，例如切片或图块报头，对于多个MANE来说是不容易访问的，因为它们可能需要保持参数集上下文和/或可变长度或算术编码的码点的处理。

可以进一步观察到，如图5A至图5B所示的NAL单元报头不包括能够将NAL单元与编码图片的片段(例如，表示编码图片的空间区域的码流的切片，图块或类似部分)相关联的信息。在相关技术中，这种信息存在于切片报头中，在某些情况下以宏块或CU地址的形式存在。在某些情况下，该地址是整数n，表示当从画面的左上角开始计数时，一个段切片图块按照扫描顺序在第n个宏块/CU处开始。因此，n可以取决于图片大小和宏块/CU大小，并且对于小尺寸图片，n可以是小的(例如：适合二进制码中的8位)，也可以是大的(例如：32400，在二进制码中需要16位)；在这两种情况下，都假定宏块/CU大小为16×16的样本。

先前，大部分使用图块或切片之类的图片段来促进码流分割以匹配最大传输单元尺寸约束和并行化。在这两种情况下，通常不需要媒体感知网络单元(MANE)、选择性转发单元(SFU)或类似设备中的图块或切片的标识。解码器可以结合从参数集的解码获得的状态从相对复杂的图块报头和/或类似信息中获得相关信息。

然而，最近，图片段，尤其是图块(和图块组，它们是以扫描顺序、矩形顺序或任何其它适当顺序的图块的集合)已经被用于例如以下目的：在合成的360个投影中收集表示某些视图的多个CU，以及其它应用上。在一些应用中，当应用不需要时，多个MANE和SFU可以有利地从编码图片中移除某些图块或其它段。例如，当使用立方体投影时，从外部视点呈现场景最多需要六个立方体表面中的三个。向端点发送表示剩余的最少三个表面的多个CU和段可能是一种资源浪费。然而，在发送器可以向MANE发送完整的表示(包括立方体投影的所有六个表面)，并且MANE仅向潜在的多个接收器转发所需的子集的情况下，并且其中所需的子集可能因接收器不同而存在不同，MANE将为每个接收器定制可能不同的码流，其包含可能不同的立方体表面。目前，这样做需要MANE来处理复杂的可变长度编码切片报头，以及按照解码切片报头所需的那样，将状态保持为参数集等形式。

鉴于以上所述，现有的视频编码语法缺少用于标识高级语法结构中的图块组或其它图片段的、容易识别和可解析的语法元素。

发明内容

本公开的一些实施例解决了上述问题和其它问题。

在一些实施例中，提供了一种由至少一个处理器执行的方法。所述方法包括接收包括被分割成多个图块组的图片的编码视频流，，所述多个图块组中的每一个图块组包括至少一个图块，所述编码视频流还包括第一指示符，所述第一指示符指示所述多个图块组中的图块组是否具有矩形形状；基于所述第一指示符，识别所述图片的所述图块组是否具有矩形形状；以及重建、转发或丢弃所述图块组。

在一个实施例中，所述第一指示符是标志位。在一个实施例中，所述标志位设置在所述编码视频流的参数集中。在一个实施例中，所述参数集是图片参数集(“PPS”)。

在一个实施例中，接收的所述编码视频流的所述第一指示符指示所述多个图块组中的所述图块组是否具有矩形形状，而不指示所述图片的所述多个图块组中的任何其它图块组是否具有矩形形状。

在一个实施例中，接收的所述编码视频流的所述第一指示符指示所述图块组具有矩形形状，所述编码视频流还包括语法元素，每个语法元素指示所述图块组的相应角点，所述方法还包括基于所述语法元素识别所述图块组的大小或位置。在一个实施例中，所述语法元素设置在编码视频流的参数集中。在一个实施例中，所述参数集是图片参数集(“PPS”)。

在一个实施例中，所接收的编码视频流还包括语法元素，每个语法元素指示所述多个图块组中相应图块组的图块组标识(ID)。

在一个实施例中，接收的编码视频流还包括在参数集或图块组报头中的第二指示符，所述第二指示符指示包括在所述图块组中的图块的数量，所述方法还包括基于以光栅扫描顺序对图块的数量进行计数来识别图片中图块组的角点的位置。

在一个实施例中，接收的所述编码视频流还包括第二指示符，所述第二指示符指示所述图块组是否为运动约束图块集或者所述图块组是否包括多个运动约束图块，所述方法还包括基于所述第二指示符来识别所述编码视频流的所述图块组是否为所述运动约束图块集或者是否包括所述多个运动约束图块。

在一些实施例中，提供了一种系统。所述系统用于对包括被分割成多个图块组的图片的编码视频流进行解码，所述多个图块组中的每一个图块组包括至少一个图块。所述系统包括被配置为存储计算机程序代码的存储器；以及至少一个处理器，被配置为接收所述编码视频流，访问所述计算机程序代码，并且按照所述计算机程序代码的指示进行操作，所述计算机程序代码包括：第一识别代码，被配置为使所述至少一个处理器基于包括在所述视频流中的第一指示符来识别所述多个图块组中的图块组是否具有矩形形状，所述第一指示符指示所述多个图块组中的所述图块组是否具有矩形形状；所述计算机程序代码还包括执行代码，被配置为使所述至少一个处理器重建、转发或丢弃所述图块组。

在一个实施例中，所述第一指示符是标志位。在一个实施例中，所述标志位设置在编码视频流的参数集中。

在一个实施例中，所述编码视频流的所述第一指示符指示所述多个图块组中的所述图块组是否具有矩形形状，而不指示所述图片的所述多个图块组中的任何其它图块组是否具有矩形形状。

在一个实施例中，所述计算机程序代码还包括第二识别代码，所述第二识别代码被配置为使所述至少一个处理器基于在所述编码视频流中接收的语法元素来识别所述图块组的大小或位置，每一个语法元素指示所述图块组的相应角点。

在一个实施例中，所述计算机程序代码还包括第二识别代码，所述第二识别代码被配置为使所述至少一个处理器基于包括在所述视频流中的语法元素来识别所述多个图块组中的所述图块组，所述语法元素指示所述图块组的图块组标识(ID)。

在一个实施例中，所述计算机程序代码还包括第二识别代码，所述第二识别代码被配置为使所述至少一个处理器基于包括在所述编码视频流中的第二指示符，并基于以光栅扫描顺序对包括在所述图块组中的图块的数量进行计数，来识别所述图片中图块组的角点的位置，第二指示符指示包括在图块组中的图块的数量。

在一个实施例中，所述计算机程序代码还包括第二识别代码，所述第二识别代码被配置为使所述至少一个处理器基于包括在所述编码视频流中的第二指示符来识别所述编码视频流的所述图块组是否为运动约束图块集或者是否包括多个运动约束图块，所述第二指示符指示所述编码视频流是否为所述运动约束图块集或者是否包括所述多个运动约束图块。

在一些实施例中，提供了存储计算机指令的非暂时性计算机可读介质。当所述计算机指令由至少一个处理器执行时，使得所述至少一个处理器在接收到包括分割成多个图块组的图片的编码视频流之后，基于包括在所述视频流中的第一指示符识别所述多个图块组中的图块组是否具有矩形形状，所述多个图块组中的每一个图块组包括至少一个图块，所述第一指示符指示所述多个图块组中的所述图块组是否具有矩形形状，以及重建、转发或丢弃所述图块组。

附图说明

根据以下详细描述和附图，所公开的主题的其它特征，性质和各种优点将变得更加明显，其中：

图1是根据一个实施例的通信系统的简化框图的示意图。

图2是根据一个实施例的流系统的简化框图的示意图。

图3是根据一个实施例的视频解码器和显示器的简化框图的示意图。

图4是根据一个实施例的视频编码器和视频源的简化框图的示意图。

图5A是根据H.264的NAL单元报头的示意图。

图5B是根据H.265的NAL单元报头的示意图。

图6A是一个实施例的NAL单元的示意图。

图6B是一个实施例的NAL单元报头的示意图。

图6C是一个实施例的NAL单元报头的示意图。

图6D是一个实施例的NAL单元报头的示意图。

图7示出了根据一个实施例的包括图块组和图块的示例图片。

图8示出了根据一个实施例的解码过程。

图9示出了一个实施例的系统。

图10示出了用于处理的示例图片。

图11示出了根据一个实施例的解码过程。

图12是适于实现实施例的计算机系统图。

具体实施方式

图1示出了根据本公开的实施例的通信系统100的简化框图。系统100可以包括经由网络150互连的至少两个终端110和120。对于数据的单向传输，第一终端110可对位于本地的视频数据进行编码以经由网络150传输到另一终端120。第二终端120可通过网络150接收另一终端的编码视频数据，并对编码数据进行解码并显示恢复的视频数据。单向数据传输在媒体服务应用等中可能是常见的。

图1示出了被提供来支持例如在视频会议期间可能发生的编码视频的双向传输的第二对终端130和140。对于数据的双向传输，每个终端130,140可以对在本地位置捕获的视频数据进行编码，以便经由网络150传输到另一个终端。每个终端130，140还可以接收由另一个终端发送的编码视频数据，可以对编码数据进行解码，并且可以在本地显示设备上显示恢复的视频数据。

在图1中，终端110-140可以是例如服务器，个人计算机和智能电话，和/或任何其它类型的终端。例如，终端(110-140)可以是膝上型计算机，平板计算机，媒体播放器和/或专用视频会议设备。网络150表示在终端110-140之间传送编码视频数据的任何数量的网络，包括例如有线和/或无线通信网络。通信网络150可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络，局域网，广域网和/或因特网。为了本讨论的目的，除非在下面解释，网络150的结构和拓扑对于本公开的操作可能是无关紧要的。

作为所公开的主题的应用示例，图2示出了视频编码器和解码器在流环境中的布置。所公开的主题可以与其他视频使能应用一起使用，包括例如视频会议，数字电视，在包括CD，DVD，记忆棒等的数字媒体上存储的压缩视频等。

如图2所示，流系统200可以包括捕获子系统213，捕获子系统213包括视频源201和编码器203。流系统200还可以包括至少一个流服务器205和/或至少一个流客户端206。

视频源201可以创建例如未压缩的视频采样流202。视频源201可以是例如数字照相机。与编码的视频码流相比，描述为强调高数据量的粗线的采样流202可以由耦合到照相机201的编码器203处理。编码器203可以包括硬件，软件或其组合，如下面更详细描述的，以使能或实现所公开的主题的各方面。编码器203还可产生编码的视频码流204。与未压缩的视频采样流202相比，被描述为强调较低数据量的细线的编码视频码流204可以被存储在流服务器205上以供将来使用。一个或多个流客户端206可以访问流服务器205以检索可以是编码视频码流204的副本的视频码流209。

在实施例中，流服务器205还可以用作媒体感知网络单元(MANE)。例如，流服务器205可以被配置为修剪编码的视频码流204，以便为流客户端206中的一个或多个定制可能不同的码流。在实施例中，MANE可以由流系统200中的流服务器205分别提供。

流客户端206可以包括视频解码器210和显示器212。视频解码器210例如可以解码视频码流209，所述视频码流209是编码视频码流204的输入副本，并且创建可以在显示器212或另一呈现设备(未示出)上呈现的输出视频采样流211。在一些流系统中，可以根据某些视频编码/压缩标准对视频码流204，209进行编码。这种标准的例子包括但不限于ITU-TRecommendation H.265。正在开发的是被非正式地称为通用视频编码(VVC)的视频编码标准。本公开的实施例可以在VVC中使用。

图3示出了根据本公开的实施例的连接到显示器212的视频解码器210的示例性功能框图。

视频解码器210可以包括信道312，接收器310，缓冲存储器315，熵解码器/解析器320，缩放器/逆变换单元351，帧内预测单元352，运动补偿预测单元353，聚合器355，环路滤波器单元356，参考图片存储器357和当前图片存储器358。在至少一个实施例中，视频解码器210可包括一个集成电路，一系列集成电路和/或其它电子电路。视频解码器210还可以部分地或完全地以运行在具有相关联的存储器的一个或多个CPU上的软件来实现。

在本实施例和其它实施例中，接收器310可以接收一个或多个将由解码器210解码的编码视频序列，一次接收一个编码视频序列，其中每个编码视频序列的解码独立于其它编码视频序列。编码视频序列可以从信道312接收，信道312可以是到存储编码视频数据的存储设备的硬件/软件链接。接收器310可以接收具有其它数据的编码视频数据，例如，编码音频数据和/或辅助数据流，这些数据可以被转发到它们各自的使用实体(未示出)。接收器310可以将编码的视频序列与其它数据分离。为了对抗网络抖动，缓冲存储器315可以耦合在接收器310和熵解码器/解析器320(下文称为“解析器”)之间。当接收器310从具有足够带宽和可控性的存储/转发设备接收数据，或者从同步网络接收数据时，缓冲器315可能不被使用，或者可以很小。为了尽力在诸如因特网之类的分组网络上使用，可能需要缓冲器315，缓冲器315可以相对较大，并且可以具有自适应大小。

视频解码器210可以包括解析器320，用于根据熵编码视频序列重建符号321。这些符号的类别包括，例如，用于管理解码器210的操作的信息，以及用于控制可耦合到如图2所示的解码器的呈现设备(例如，显示器212)的潜在信息。用于呈现设备的控制信息可以是例如补充增强信息(SEI)消息或视频可用性信息(VUI)参数集片段(未示出)的形式。解析器320可以对接收到的编码视频序列进行解析/熵解码。编码视频序列的编码可以根据视频编码技术或标准，并且可以遵循本领域技术人员公知的原理，包括可变长度编码，霍夫曼编码，具有或不具有上下文敏感性的算术编码等。解析器320可基于对应组的至少一个参数，从编码视频序列中提取用于视频解码器中的至少一个像素子组的子组参数集。子组可以包括图片组(GOP)，图片，图块，切片，宏块，编码单元(CU)，块，变换单元(TU)，预测单元(PU)等。解析器320还可以从编码视频序列中提取诸如变换系数，量化器参数值，运动矢量等信息。

解析器320可以对从缓冲器315接收的视频序列执行熵解码/解析操作，以便创建符号321。

符号321的重建可以包括多个不同的单元，这取决于编码视频图片或其部分(例如：帧间和帧内图片，帧间和帧内块)的类型以及其它因素。涉及哪些单元以及它们是如何涉及的，可以由子组控制信息来控制，所述子组控制信息由解析器320从编码的视频序列中被解析。为了清楚起见，在解析器320和下面描述的多个单元之间的这种子组控制信息的流没有被描述。

除了已经提到的功能块之外，解码器210可以在概念上被细分成如下所述的多个功能单元。在商业约束下操作的实际实现中，这些单元中的许多单元彼此紧密地相互作用，并且可以至少部分地集成到彼此中。然而，为了描述所公开的主题，在概念上细分成以下功能单元是适当的。

一个单元可以是缩放器/逆变换单元351。缩放器/逆变换单元351可以从解析器320接收量化变换系数以及控制信息，包括使用哪个变换，块大小，量化因子，量化缩放矩阵等作为符号321。缩放器/逆变换单元351可以输出包括采样值的块，所述采样值可以被输入到聚合器355中。

在一些情况下，缩放器/逆变换351的输出采样可以属于帧内编码块；即：不使用来自先前重建图片的预测信息，但是可以使用来自当前图片的先前重建部分的预测信息的块。这种预测信息可以由帧内图片预测单元352提供。在一些情况下，帧内图片预测单元352使用从来自当前图片存储器358的当前(部分重建的)图片中提取的周围已重建信息来生成具有相同大小和形状的重建块的块。在一些情况下，聚合器355基于每个采样将帧内预测单元352已经生成的预测信息添加到由缩放器/逆变换单元351提供的输出采样信息中。

在其它情况下，缩放器/逆变换单元351的输出采样可以属于帧间编码，并且可能是运动补偿的块。在这种情况下，运动补偿预测单元353可以访问参考图片存储器357以提取用于预测的采样。在根据与块有关的符号321对所提取的采样进行运动补偿之后，这些采样可以由聚合器355加到缩放器/逆变换单元351的输出(在这种情况下称为残差采样或残差信号)，以便生成输出采样信息。从运动补偿预测单元353中提取预测采样的参考图片存储器357内的地址可以由运动矢量控制。运动矢量可以以符号321的形式对运动补偿预测单元353可用，符号321可以具有例如x，y和参考图片分量。运动补偿还可以包括当使用子采样精确运动矢量、运动矢量预测机制等时，从参考图片存储器357提取的采样值的内插。

在环路滤波器单元356中，可以对聚合器355的输出采样进行各种环路滤波技术。视频压缩技术可以包括环路内滤波器技术，该环路内滤波器技术由包括在编码视频码流中的参数控制，并且作为来自解析器320的符号321可用于环路滤波器单元356，但是也可以响应于在对编码图片或编码视频序列的先前(按解码顺序)部分进行解码期间获得的元信息，以及响应于先前重建和环路滤波的采样值。

环路滤波器单元356的输出可以是采样流，该采样流可以被输出到诸如显示器212的呈现设备，并且被存储在参考图片存储器357中以便在将来的图片间预测中使用。

某些编码图片一旦被完全重建，就可以用作将来预测的参考图片。一旦编码图片被完全重建，并且编码图片被识别为参考图片(例如，通过解析器320)，存储在当前图片存储器358中的当前参考图片可以变成参考图片存储器357的一部分，并且可以在开始下一个编码图片的重建之前重新分配新的当前图片存储器。

视频解码器210可根据可在标准(例如ITU-T Rec.H.265)中记录的预定视频压缩技术来执行解码操作。编码的视频序列可以符合由正在使用的视频压缩技术或标准规定的语法，即它遵守视频压缩技术或标准的语法，如在视频压缩技术文档或标准中规定的，特别是在其中的简要文档中规定的。此外，为了符合某些视频压缩技术或标准，编码视频序列的复杂度可以在由视频压缩技术或标准的级别定义的范围内。在一些情况下，级别限制最大图片尺寸，最大帧速率，最大重建采样率(例如，以每秒兆个样本测量)，最大参考图片大小等。在一些情况下，由层级设定的限制可通过假想参考解码器(Hypothetical ReferenceDecoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

在一个实施例中，接收器310可以接收具有编码视频的附加(冗余)数据。附加数据可以作为编码视频序列的一部分被包括在内。视频解码器210可以使用附加数据来正确地解码数据和/或更准确地重建原始视频数据。附加数据可以是例如时间，空间或SNR增强层，冗余切片，冗余图片，前向纠错码等的形式。

图4示出了根据本公开的实施例的与视频源201相关联的视频编码器203的示例性功能框图。

例如，视频编码器203可以包括是源编码器430，编码引擎432，(本地)解码器433，参考图片存储器434，预测器435，传输器440，熵编码器445，控制器450和信道460的编码器。

编码器203可以从视频源201(不是编码器的一部分)接收视频采样，视频源201可以捕获要由编码器203编码的视频图片。

视频源201可以以数字视频采样流的形式提供要由编码器203编码的源视频序列，该数字视频采样流可以是任何适当的比特深度(例如：x比特，10比特，12比特，...)，任何色彩空间(例如BT.601Y CrCB，RGB，...)和任何合适的采样结构(例如Y CrCB 4:2:0，Y CrCB4:4:4)。在媒体服务系统中，视频源201可以是存储先前准备的视频的存储设备。在视频会议系统中，视频源203可以是作为视频序列捕获本地图片信息的相机。视频数据可以作为在顺序观看时传递运动的多个单独图片来提供。图片本身可以被组织为像素的空间阵列，其中每个像素可以包括一个或多个采样，这取决于使用中的采样结构，颜色空间等。本领域技术人员可以容易地理解像素和采样之间的关系。下面的描述集中在采样上。

根据一个实施例，编码器203可以实时地或者在应用程序所需的任何其它时间约束下对源视频序列的图片进行编码并压缩为编码视频序列443。执行适当的编码速度可以是控制器450的一个功能。控制器450还可以控制如下所述的其它功能单元，并且可以功能性地耦合到这些单元。为了清楚起见，未示出耦合。由控制器450设置的参数可以包括速率控制相关参数(画面跳过，量化器，速率失真优化技术的λ值，……)，画面大小，画面组(GOP)布局，最大运动矢量搜索范围等。所属领域的技术人员可容易地识别控制器450的其它功能，因为其可属于针对某一系统设计而优化的视频编码器(203)。

一些视频编码器以本领域技术人员容易认识到的“编码循环”的方式操作。作为简化的描述，编码循环可以包括源编码器430的编码部分(负责基于要编码的输入图片和参考图片来创建符号)，以及嵌入在编码器203中的(本地)解码器433，其重建符号以创建采样数据，当符号和编码视频码流之间的压缩在某些视频压缩技术中是无损的时候，(远程)解码器也将创建该采样数据。该重建的采样流可以被输入到参考图片存储器434。由于符号流的解码会导致独立于解码器位置(本地或远程)的比特精确结果，因此参考图片存储器内容在本地编码器和远程编码器之间也是比特精确的。换句话说，当编码器的预测部分“看见”的参考图片采样与解码器在解码期间使用预测时“看见”的采样值完全相同。参考图片同步性的这一基本原理(以及如果不能保持同步性，例如由于信道错误，则产生的漂移)是本领域技术人员已知的。

“本地”解码器433的操作可以基本上与“远程”解码器210的操作相同，“远程”解码器210已经在上面结合图3进行了详细描述。然而，由于符号是可用的，通过熵编码器445和解析器320可以无损地将符号解码成编码视频序列，解码器210的熵解码部分，包括信道312，接收器310，缓冲器315和分析器320，可以不在本地解码器433中完全实现。

此时可以进行的观察是，除了在解码器中存在的解析/熵解码之外，任何解码器技术可能需要以基本相同的功能形式存在于相应的编码器中。为此，所公开的主题集中于解码器操作。编码器技术的描述可以被简化，因为它们可以是已被全面描述的解码器技术的逆技术。仅在某些领域需要更详细的描述，并提供如下。

作为其操作的一部分，源编码器430可执行运动补偿预测编码，其参考来自视频序列的被指定为“参考帧”的一个或多个先前编码帧来预测性地编码输入帧。以此方式，编码引擎432对输入帧的像素块与可被选择作为对输入帧的预测参考的参考帧的像素块之间的差异进行编码。

本地视频解码器433可基于由源编码器430创建的符号来解码可被指定为参考帧的帧的编码视频数据。编码引擎432的操作可以有利地是有损过程。当在视频解码器(图4中未示出)中对编码的视频数据进行解码时，经重建的视频序列通常可以是有一些错误的源视频序列的复制品。本地视频解码器433复制可以由视频解码器在参考帧上执行的解码过程，并且可以使得重建的参考帧被存储在参考图片存储器434中。以这种方式，编码器203可以本地存储重建的参考帧的副本，所述重建的参考帧具有与将由远端视频解码器获得的重建的参考帧相同的内容(没有传输错误)。

预测器435可以对编码引擎432执行预测搜索。也就是说，对于要被编码的新帧，预测器435可以搜索参考图片存储器434以寻找采样数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量，块形状等，其可以用作新图片的适当预测参考。预测器435可在逐个像素块的采样的基础上执行操作以找到适当的预测参考。在一些情况下，如由预测器435获得的搜索结果所确定的，输入图片可以具有从存储在参考图片存储器434中的多个参考图片中提取的预测参考。

控制器450可以管理视频编码器430的编码操作，包括例如用于编码视频数据的参数和子组参数的设置。

所有上述功能单元的输出可以在熵编码器445中进行熵编码。熵编码器通过根据本领域技术人员已知的技术(例如霍夫曼编码，可变长度编码，算术编码等)对符号进行无损压缩，将由各个功能单元生成的符号转换为编码视频序列。

传输器440可以缓冲由熵编码器445创建的编码视频序列，以使其准备经由通信信道460传输，通信信道460可以是到将存储编码视频数据的存储设备的硬件/软件链路。传输器440可以将来自视频编码器430的编码视频数据与要发送的其它数据(例如，编码音频数据和/或辅助数据流(源未示出))合并。

控制器450可以管理编码器203的操作。在编码期间，控制器450可以为每个编码图片分配特定的编码图片类型，这可以影响可以应用于相应图片的编码技术。例如，图片通常被分配为帧内图片(I图片)，预测图片(P图片)或双向预测图片(B图片)。

帧内图片(I图片)可以是可以在不使用序列中的任何其它帧作为预测源的情况下被编码和解码的图片。一些视频编解码器允许不同类型的帧内图片，包括例如独立解码器刷新(IDR)图片。本领域的技术人员知道I图片的那些变体以及它们各自的应用和特征。

预测图片(P图片)可以是可以使用至多一个运动矢量和参考索引的帧内预测或者帧间预测来预测每个块的采样值而被编码和解码的图片。

双向预测图片(B图片)可以是可以使用至多两个运动矢量和参考索引的帧内预测或帧间预测来编码和解码以预测每个块的采样值的图片。类似地，多个预测图片可以使用多于两个参考图片和相关联的元数据来重建单个块。

源图片通常可以在空间上被细分成多个采样块(例如，每个4×4，8×8，4×8或16×16采样的块)，并且在逐块的基础上被编码。块可以参考由应用于块的相应图片的编码分配所确定的其它(已经编码的)块来预测性地编码。例如，I图片的块可以被非预测地编码，或者它们可以参考同一图片的已经编码的块(空间预测或帧内预测)被预测地编码。P图片的像素块可以通过空间预测或者通过参考一个先前编码的参考图片的时间预测来非预测地编码。B图片的块可以通过空间预测或者通过参考一个或两个先前编码的参考图片的时间预测来非预测地编码。

视频编码器203可根据预定视频编码技术或标准(例如ITU-T Rec.H.265)执行编码操作。在该操作中，视频编码器203可以执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，编码的视频数据可以符合由所使用的视频编码技术或标准指定的语法。

在一个实施例中，传输器440可以与编码视频一起发射附加数据。视频编码器430可以包括这样的数据作为编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层，和其它形式的冗余数据，例如冗余图片和切片，补充增强信息(SEI)消息，可视可用信息(VUI)参数集片段等。

根据本发明的实施例，标识图片片段(例如，图块，图块组，切片，块组(GOB)等)的信息可以被放置在容易访问的高级语法结构，例如，NAL单元报头或包括固定长度码字的类似结构，并为便于多个MANE(以下称为“NUH”)的处理而设计。

在实施例中，标识图块的信息可以采用不同的形式。在设计该信息时，可能需要记住一些设计考虑因素。下面列出了一些设计考虑因素。

对于第一设计考虑因素，当与例如传统视频编码技术或标准中的可能切片数相比时，给定图片中的可能图块数可以很小。例如，在H.264中，有可能(对于某些图片大小)具有覆盖单个宏块的切片，从而允许切片与宏块一样多。相反，当表示平铺的立方体地图时，六个图块就足够了，而与图片的分辨率无关。在许多实际情况中，可安全地假定最大数量为64，128或256的图块。

关于第二设计考虑因素，图块布局可以是固定的，并且虽然视频编码技术本身可以允许图块布局从图片到图片具有灵活性，但是系统标准或技术可以将该灵活性限制为图块布局在整个会话中保持相同的点。因此，在本发明的一些实施例中，可允许通过非视频码流特定的方式(例如在会话建立期间)使图块布局对MANE可用。因此，可以禁用在视频编码和MANE操作中的参数集之间不合需要的情境依赖。

本公开的实施例可以实现上述第一和第二设计考虑因素。对于实现第一和第二设计考虑因素的本公开的实施例，当与诸如H.264和H.265的相关技术相比时，能够显著地简化用于识别由NAL单元携带的图块的机制，以便允许由MANE移除NAL单元。

例如，在H.264和H.265中，MANE将必须识别正确的序列参数集以获悉片头中的切片/图块地址码字的长度。这种长度信息被编码为序列参数集中的可变长度码字；因此，作为最小值，MANE将需要遵循参数集的激活序列来识别当前活动的序列参数集，并且(可能不是按照这种顺序，因为参数集是独立于解析的)解码可变长度码字来识别在切片报头中携带的二进制编码的切片/图块地址的长度。然后，MANE将需要解码切片报头中的可变长度码字，以便获得起始宏块/CU地址。该信息可以与从参数集解码的图块布局相匹配，以识别该图块。

在本发明的一些实施例中，所述图块的识别信息可以是所述图块的第一宏块/CU的地址。实际上，这种机制将把起始地址从切片报头移动到NUH。尽管这样做可以是对编解码器设计的最小改变方法，但是它可以显著地增长NUH。然而，即使从编码效率的观点来看，NUH的大小的增加也是可以容忍的，因为可以从切片/图块报头中移除相同数量的比特。

如上所述，对于小图片尺寸和大宏块/CU尺寸，宏块/CU地址可以相当小，或者对于小CU尺寸和大图片尺寸，宏块/CU地址可以相当大。为此，H.265的SPS包含如切片报头中携带的宏块/CU地址的长度的指示。

在本公开的实施例中，可以为NAL单元报头保留用于指示宏块/CU地址的长度的机制。然而，这样做可能具有两个缺点。首先，通过参数集值确定NAL单元报头中的语法元素的大小而建立的情境依赖可能需要MANE来跟踪参数集激活，这可能是冗长的。第二，NAL单元报头至少到目前为止是八位字节对齐的，以简化多个MANE中的处理。保持这种八位字节对齐可能需要填充，从而浪费了比特，在这种情况下，通过参数集写入码流并在码流中以信号进行通知的宏块/CU地址的大小，与剩余的NAL单元报头语法元素加起来不是一个可以被8除尽的比特数。

在本发明的实施例(包括上述实施例)中，宏块/CU地址的大小或NAL单元报头中的任何其它语法元素可由NAL单元报头中的其它字段来确定。该机制有利地避免了参数集和NAL单元报头之间的情境依赖性。一个潜在的缺点是在NAL单元报头的其它字段中使用比特或码点。

然而，当在传统意义上不考虑切片时，而是仅考虑图块或图块组或多个CU到码流实体的类似分配机制，可在本发明的实施例中实施更高级的选项，如下文进一步描述。

为了描述这些实施例中的一些，应当简要地回顾术语“切片”和“图块”。

切片可以是通常按照扫描顺序的多个CU或宏块的集合，并且由两个因素来标识：起始宏块/CU地址，其可以在切片报头以及切片的末端中被编码，其可以由新切片的开始来标识(其又可以通过下一个切片报头的存在来指示)。虽然某些视频压缩技术和标准对切片的数量和布局施加了某些相对较小的限制，但是在大多数情况下，切片布局可以从编码图片改变到编码图片，并且通常由诸如速率控制和MTU大小匹配的机制来确定。

另一方面，图块是指多个CU形成的典型矩形排列，该矩形(以及一起构成图片的其它矩形)的大小和形状被编码在参数集中。换句话说，图块布局可能有些静态，因为从一个图块布局到另一个图块布局的改变可能需要激活不同的参数集。此外，有利地，可限制图块的数量以实现有效的硬件实现。在许多视频压缩技术和标准中，例如8比特的相对短的固定长度的二进制码字允许在实际使用中针对所有图片大小寻址最大数量的图块。因此，用于图块ID的固定长度码字可用于识别NAL单元报头中的图块，从而避免图块识别NAL单元报头码字和参数集之间的解析和情境依赖。替代性地，如果需要的话，对于支持NAL单元报头中的宏块/CU地址的可变长度码字的机制，可以以类似的体系结构缺点为代价同等地应用于图块ID码字。

参考图6A至图6D，示出了本公开的实施例的示例NAL单元报头设计。

如图6A所示，可以提供NAL单元601，它是编码视频码流的一部分。编码视频码流可以包括多个NAL单元601。在一些情况下，NAL单元601可以是八位字节对齐的并且小于或等于数据网络的常用最大传输单元(MTU)大小。一种这样的常用MTU大小是1500个八位字节，这源于早期以太网技术的某些限制。NAL单元601可以在NAL单元601的开始处包括NAL单元报头602。在编码的视频码流内对NAL单元(包括NAL单元601)的组帧(framing)可以通过起始码，通过与底层的面向分组的传输网络的分组结构对齐，等等。

参考图6B，示出了用于本公开的NAL单元601的示例NAL单元报头603的语法图，其与图5B中所示的H.265中所使用的NAL单元报头有一些相似之处。本发明的实施例替代性地或附加地实施NAL单元报头，该NAL单元报头具有与例如H.264或VVC的NAL单元报头的一些相似结构。

在NAL单元报头603中，可以包括CU地址或图块ID的语法元素604。在实施例中，语法元素604的长度可以是固定的，并且可以选择为使得NAL单元报头603继续被八位字节对齐。在实施例中，语法元素604可以是不仅可以由视频编码器和解码器而且可以由多个MANE容易处理的格式。在实施例中，作为非限制性示例，包括CU地址或图块ID的语法元素604可以由6位无符号整数表示，如描述符u(6)所表示的那样。在非限制性实例中，用于CU地址或图块ID的语法元素604占用在H.265中用于layer_id的相同位。

图6C示出了可采用NAL单元601实现的本公开的NAL单元报头605。NAL单元报头605与NAL单元报头603有相似之处，但在图6C中以另一种形式示出。如图6C所示，NAL单元报头605可以包括用于CU地址或图块ID的语法元素606。

图6D示出了NAL单元报头607，其保留H.265NAL单元报头的字段。在非限制性示例实施例中，语法元素608可以被添加到例如NAL单元报头607的末端。在非限制性示例实施例中，替代性地，语法元素607被插入到NAL单元报头607的其它语法元素的中间的某处。语法元素608可以是固定大小的或可变大小的，并且当为可变大小时，其大小可以由上述任何机制(例如，通过参数集语法元素或通过NAL单元类型)或任何其它适当的机制来确定。

下面参考图7描述本公开的实施例的图块和图块组分区设计的非限制性示例结构。在实施例中，包括多个图片700的编码视频流可以从编码器发送到本公开的解码器和多个MANE。每个图片700可以包括一个或多个图块730。如图7所示，作为非限制性示例，图片700被示为具有63个图块。图块730的数量、大小和形状不受图7的限制，并且可以是任何数量、大小和形状。例如，图块730可以是矩形的或非矩形的。可将图块730分成一个或多个图块组710。如图7所示，作为非限制性示例，图片700被示为具有五个图块组，每个图块组710包括多个图块730。图块组710的数量、大小和形状不受图7的限制，并且可以是任何数量、大小和形状。例如，图块730可以是矩形的或非矩形的。

本公开的实施例可以对视频流进行解码和编码，在视频流中，图块组710和图块730被限定和划分。

例如，参考图8，本公开的解码器和多个MANE可以执行过程800以解码视频流。

如图8所示，解码器或MANE可以接收一个或多个标识符(801)。一个或多个标识符可以设置在由编码器发送到解码器或MANE的视频流中，或者由编码器或另一设备通过视频流之外的替换方式提供。所述一个或多个标识符可显式地将图块组710和图块730的特征发信号通知到解码器或MANE，且替代性地或附加地将图块组710和图块730的特征隐式地发信号通知到解码器或MANE。一个或多个标识符可以是例如标志位或其它元素。

在接收到标识符之后，解码器或MANE可以基于标识符来识别一个或多个图块组710和图块730的一个或多个特征(802)。在识别出图块组710的特征之后，解码器或MANE可以适当地使用所识别的特征来重建图块组710，转发图块组710，或从视频流中移除图块组710。例如，如果过程800由解码器执行，则解码器可以重建这样的图块组710及其图块730(例如，重建携带这样的图块730的NAL单元)，或者适当地丢弃这样的图块组710及其图块730。如果过程800由MANE执行，则MANE可以适当地转发这样的图块组710及其图块730，或丢弃这样的图块组710及其图块730。

如图9所示，本公开的系统810可以包括存储计算机程序代码的存储器811和至少一个处理器812，所述处理器812被配置为接收编码视频流，访问计算机程序代码，按照计算机程序代码的指示进行操作。计算机程序代码可以包括被配置成使至少一个处理器812执行图8所示的步骤802的标识代码822，并且可以进一步包括执行被配置成使至少一个处理器812执行图8所示的步骤803的代码824。

下面描述的是可以由本公开的解码器和多个MANE接收的一些标识符的示例，以及可以基于标识符来识别的图块组710和图块730的特性(aspect)。

在一些实施例中，标志位可以指示图块组710是否是矩形子图片。在实施例中，编码器可将编码视频流中的标志位发送到本发明的解码器或MANE，且解码器或MANE可基于所述标志位来确定图块组710是否为矩形子图片。替代性地，可以通过编码视频流之外的其它方式来发送该标志位。

替代性地或附加地，在一些实施例中，本公开的解码器、多个MANE和编码器可以执行将图块组结构写入码流并在码流中以信号进行通知的方法，该方法包括将指示图片700仅包括单个图块组710还是包括多个图块组710的标志位写入码流并在码流中以信号进行通知。作为示例，该标志位可以由编码器写入码流并在码流中以信号通知给解码器或MANE。替代性地，可以通过编码视频流之外的其它方式来发送该标志位。该标志位可以存在于参数集中(例如，图片参数集PPS中)。当图片700仅包括单个图块组710时，图块组710可以具有矩形形状。如果图片700包括多个图块组710，则每个图块组710可以具有矩形形状或非矩形形状。

替代性地或附加地，在一些实施例中，本公开的解码器、MEANs和编码器可以将图块组结构写入码流并在码流中以信号进行通知的方法，该方法包括将标识位写入码流并在码流中以信号进行通知以指示属于当前图片700的每个或其中一个图块组710是否可以具有矩形形状。如果标志位的值等于1，则属于当前图片700的所有图块组710可以具有矩形形状。作为示例，该标志位可以由编码器写入码流并在码流中以信号通知给解码器或MANE。替代性地，可以通过编码视频流之外的其它方式来发送该标志位。该标志位可以存在于参数集中(例如，图片参数集)。

替代性地或附加地，在一些实施例中，当图片包括一个或多个矩形图块组710时，本公开的编码器可以向解码器或MANE提供指示划分图片700的多个图块组列的语法元素，以及指示划分图片700的多个图块组行的语法元素。在这种情况下，每个矩形图块组710可以具有均匀的空间，语法元素可以存在于由编码器发送到解码器或MANE的参数集(例如，图片参数集)中。替代性地，语法元素可以通过编码视频流之外的其它方式发送到解码器或MANE。

替代性地或附加地，在实施例中，当图片700包括一个或多个矩形图块组710时，本发明的编码器可向解码器或MANE提供指示图片700中的图块组710的数量的语法元素。编码器还可以向解码器或多个MANE提供指示一个索引的语法元素以及指示另一个索引的语法元素，所述索引指示相应图块组710的左上角点，所述另一个索引指示相应图块组710的右下角点。该标志位可以存在于由编码器发送到解码器或MANE的参数集(例如图片参数集)中。替代性地，语法元素可以通过编码视频流之外的其它方式发送到解码器或MANE。

替代性地或附加地，在实施例中，可以针对每个图块组710将图块组ID写入码流并在码流中以信号进行通知。图块组ID可用于标识每个图块组710。标志位可以指示显式写入码流并在码流中以信号进行通知的图块组ID是否存在于参数集(例如，图片参数集)中。参数集可以由编码器发送到解码器或MANE。如果该标志位指示图块组ID被显式地写入码流并在码流中以信号进行通知，则也可以将图块组ID的长度写入码流并在码流中以信号进行通知。对于每个图块组710，可以分配特定的图块组ID。在同一图片700中，每个图块组ID可以不具有相同的值。在实施例中，标志位、图块组ID和图块组ID的长度可以由编码器写入码流并在码流中以信号通知给本公开的解码器或多个MANE。

替代性地或附加地，在实施例中，两个不同的图块组710可以共享一个或多个图块730。可以在参数集中设置标志位，其可指示两个不同图块组710是否可重叠且是否具有相同图块730。如果该标志位指示允许重叠，则在一个或多个图块组710中可以存在相同的图块730。在实施例中，包括标志位的参数集可以由编码器发送到本公开的解码器或多个MANE。

替代性地或附加地，在实施例中，当图片700可以包括多个矩形或非矩形图块组710时，可以在参数集或图块组报头中针对每个图块组710将图块730的数量写入码流并在码流中以信号进行通知。然后，可以通过按光栅扫描顺序计数图块的数量来推断每个图块组710的左上位置和右下位置。在实施例中，参数集和图块组报头以及其中的信号可以由编码器发送到本公开的解码器或多个MANE，并且解码器或多个MANE可以执行推断。

替代性地或附加地，在实施例中，每个图块组710可以是运动约束图块集，或者每个图块组710可以包含多个运动约束图块。标志位可以指示图块组710是否具有运动约束图块集或多个运动约束图块。在实施例中，可由编码器将所述标志位发送到本发明的解码器或多个MANE，且所述解码器或多个MANE可基于所述标志位来确定所述图块组710是否具有运动约束图块集或多个运动约束图块。替代性地，可以通过编码视频流之外的其它方式将该标志位发送到解码器或MANE。

替代性地或附加地，在实施例中，属于图块组710的图块730可呈光栅扫描次序。图块组710的地址可以按递增的顺序。因此，第(n+1)个图块组710的左上部的索引可以大于第n个图块组710的左上部的索引。在实施例中，图块组610的地址可由编码器发送到本发明的解码器或多个MANE。替代性地，可以通过编码视频流之外的其它方式将地址发送到解码器或MANE。

替代性地或附加地，在实施例中，图片700中的图块组710的形状可由编码器设置并由解码器确定，使得当由解码器对图块组710进行解码时，每个图块730具有由图片边界或先前解码的图块730组成的整个左边界和顶边界。

在实施例中，编码器可以以类似于写入现有NAL单元报头(或图块组报头)语法的方式来写入NAL单元报头(或图块组报头)以包括覆盖图块组ID的语法元素，这是本领域技术人员所理解的。

在实施例中，解码器或MANE可以以本领域技术人员所理解的方式，从编码的视频码流中解析NAL单元报头——更精确地解析构成NAL单元报头(或图块组报头)的语法元素——而不管是否存在携带图块组ID或其它形式的图块标识信息的语法元素。然而，应当注意，在如上所述的一些情况下，语法元素在不需要状态信息的情况下并且以可访问的熵编码格式进行编码，例如固定长度的二进制代码。

根据本发明的一些实施例，然而，与缺少所公开的主题所需的操作相比，解码器或MANE可以毫不费力地识别编码图片700中的图块组710。

下面参考图10描述这种益处的示例，图10示出了村庄中的街道的图片840，该图片包括第一至第八图块组841-848以及相应的图块组ID 1-8。在这样的例子中，假定图片840由监视摄像机捕获。

在这种情况下，可以通过外部非视频编码装置向解码器或MANE通知对于某个应用不需要重建图片840的某个图块组。例如，如图10所示，图块组842主要覆盖墙壁。因此，监视系统的配置器可以认为该区域与监视无关。因此，虽然监视摄像机可以对所有的图块组841-848进行编码，但是该应用可能不需要具有ID 2的图块组842。在这点上，如果由监视摄像机创建的码流通过一个或多个MANE被路由到其最终目的地，则图块组842可以被一个或多个MANE移除。

在没有本公开的实施例的公开的主题的情况下，对图块组842的移除将至少需要将NAL单元(切片或图块)的有效载荷解析到所需的程度，以提取图块中的第一宏块的宏块/CU地址。根据使用中的视频编码技术或标准，并且如上所述，这可能需要可变长度码字的处理和MANE中参数集上下文的保持；从实现和计算复杂度的观点来看都是不合需要的。

相比之下，在本公开的实施例中，MANE可以通过二进制编码码字的NAL单元报头处理来获得识别NAL单元携带哪个图块所必需的所有信息。因此，本发明的实施例可避免相关技术的问题，同时还提供容易识别/可解析的语法元素，该语法元素以高级语法结构标识图块组或其它图片段。

参照图11，解码器或MANE可以通过执行如下所述的过程850来实现本公开的实施例。

解码器或MANE可以从视频码流中解析包括覆盖宏块/CU地址或图块组ID的语法元素的NAL单元报头(851)。使用该信息，解码器或MANE可以识别图块组ID(852)。可以直接对图块组ID进行编码，或者解码器/MANE可以将例如通过解码参数集和随后的激活序列建立的关于图块布局的先验信息与在NAL单元报头中编码的宏块/CU地址相匹配。解码器或MANE可分别将图块ID与需要由解码器或MANE重建或转发的图块列表进行比较(853)。如果存在匹配，则解码器可以重建，或者MANE可以转发携带图块的NAL单元(854)。然而，如果不匹配，则解码器或MANE可以丢弃NAL单元(855)。在一个实施例中，解码器或MANE静默地丢弃NAL单元。

在本发明的实施例中，至少一个处理器可根据本发明的图块组和图块分割设计对图片进行编码，并将包括一个或多个编码的图块组和图块的编码视频码流发送到一个或多个解码器和MANE以用于根据本发明的图块组和图块分割设计进行解码。

上述用于编码和解码的技术，包括图块和图块组标识，可以被实现为使用计算机可读指令的计算机软件，并且被物理地存储在一个或多个计算机可读介质中。例如，图12示出了适于实现所公开的主题的实施例的计算机系统900。

上述技术可以使用计算机可读指令实现为计算机软件，并且物理地存储在一个或多个计算机可读介质中。例如，图12示出了适于实现本公开的某些实施例的计算机系统900。

计算机软件可使用任何合适的机器代码或计算机语言来编码，其可经受汇编，编译，链接等机制以创建包含可由计算机中央处理单元(CPU)，图形处理单元(GPU)等直接执行或通过解释，微代码执行等来执行的指令的代码。

指令可以在各种类型的计算机或其组件上执行，包括例如个人计算机，平板计算机，服务器，智能电话，游戏设备，物联网设备等。

图12中所示的用于计算机系统900的组件本质上是示例性的，并且不旨在对实现本公开的实施例的计算机软件的使用范围或功能提出任何限制。也不应将组件的配置解释为对计算机系统900的非限制性实施例中所说明的组件中的任何一者或组合具有任何依赖性或要求。

计算机系统900可以包括某些人机接口输入设备。这种人机接口输入设备可以响应于一个或多个人类用户通过例如触觉输入(例如：击键，刷子，数据手套移动)，音频输入(例如：语音，敲击)，视觉输入(例如：手势)，嗅觉输入(未示出)的输入。人机接口设备还可以用于捕获某些媒体，这些媒体不必直接与人类的有意识输入有关，例如音频(例如：语音，音乐，环境声音)，图像(例如：扫描图像，从静止图像照相机获得的摄影图像)，视频(例如二维视频，包括立体视频的三维视频)。

人机接口输入设备可以包括一个或多个(仅示出了一个)：键盘901，鼠标902，跟踪板903，触摸屏910，数据手套，操纵杆905，麦克风906，扫描仪907，照相机908。

计算机系统900还可以包括某些人机接口输出设备。这种人机接口输出设备可以通过例如触觉输出，声音，光和气味/味道来刺激一个或多个人类用户的感觉。这种人机接口输出设备可以包括触觉输出设备(例如通过触摸屏910，数据手套或操纵杆905的触觉反馈，但是也可以有不用作输入设备的触觉反馈设备)。例如，这样的设备可以是音频输出设备(例如：扬声器909，耳机(未示出))，视觉输出设备(例如屏幕910，包括CRT屏幕，LCD屏幕，等离子屏幕，OLED屏幕，每个屏幕具有或不具有触摸屏输入能力，每个屏幕具有或不具有触觉反馈能力-其中一些可以能够通过诸如立体输出的装置输出二维视觉输出或多于三维输出。虚拟现实眼镜(未示出)，全息显示器和烟箱(未示出)以及打印机(未示出)。

计算机系统900还可以包括人类可访问存储设备及其相关联的介质，例如光学介质，包括具有CD/DVD等媒体921的CD/DVD ROM/RW 920，拇指驱动器922，可移动硬盘驱动器或固态驱动器923，诸如磁带和软盘(未示出)的传统磁介质，诸如安全软件狗(未示出)的基于专用ROM/ASIC/PLD的设备等等。

本领域的技术人员还应当理解，结合当前公开的主题所使用的术语“计算机可读介质”不包括传输介质，载波或其它瞬时信号。

计算机系统900还可以包括到一个或多个通信网络的接口。网络例如可以是无线的，有线的，光学的。网络还可以是本地的，广域的，城市的，车辆的，工业的，实时的，容错的等等。网络的示例包括局域网，例如以太网，无线LAN，包括GSM，3G，4G，5G，LTE等的蜂窝网络，包括有线电视，卫星电视和地面广播电视的电视有线或无线广域数字网络，包括CANBus的车载和工业网络等等。某些网络通常需要连接到某些通用数据端口或外围总线949(例如，计算机系统900的USB端口)；其它通常通过附着到如下所述的系统总线(例如以太网接口到PC计算机系统或蜂窝网络接口到智能电话计算机系统)而集成到计算机系统900的核心中。使用这些网络中的任何一个，计算机系统900可以与其它实体通信。这种通信可以是单向的，仅接收(例如，广播电视)，单向发送(例如，到某些CAN总线设备的CAN总线)，或双向的，例如，到使用局域网或广域网的其它计算机系统。这种通信可以包括到云计算环境955的通信。如上所述，可以在这些网络和网络接口中的每一个上使用某些协议和协议栈。

上述人机接口设备，人类可访问存储设备和网络接口954可以附接到计算机系统900的核心940。

核心940可以包括一个或多个中央处理单元(CPU)941，图形处理单元(GPU)942，现场可编程门区(FPGA)943形式的专用可编程处理单元，用于某些任务的硬件加速器944等。这些设备连同只读存储器(ROM)945，随机存取存储器946，内部大容量存储器(例如内部非用户可访问硬盘驱动器，SSD等947)可以通过系统总线948连接。在一些计算机系统中，系统总线948可以以一个或多个物理插头的形式来存取，以启用额外CPU,GPU等的扩展。外围设备可以直接连接到核心的系统总线948，或者通过外围总线949连接到核心的系统总线948。用于外围总线的体系结构包括PCI，USB等。图形适配器950可以包括在核心940中。

CPU 941，GPU 942，FPGA 943和加速器944可以执行某些指令，这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM 945或RAM 946中。过渡数据也可以存储在RAM 946中，而永久数据可以存储在例如内部大容量存储器947中。可以通过使用高速缓冲存储器来启用对任何存储器设备的快速存储和检索，所述高速缓冲存储器可以与一个或多个CPU 941,GPU 942，大容量存储器947，ROM 945，RAM 946等紧密关联。

计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构造的，或者它们可以是计算机软件领域的技术人员所熟知和可用的类型。

作为示例而非限制，具有体系结构900的计算机系统，具体地说是核心940可以提供作为处理器(包括CPU，GPU，FPGA，加速器等)执行包含在一个或多个有形的计算机可读介质中的软件的结果的功能。这种计算机可读介质可以是与如上所述的用户可访问大容量存储器相关联的介质，以及具有非暂时性质的核心940的特定存储器，例如核心内部大容量存储器947或ROM 945。实现本公开的各种实施例的软件可以被存储在这样的设备中并由核心940执行。根据特定需要，计算机可读介质可以包括一个或多个存储器设备或芯片。软件可以使核心940以及其中的处理器(包括CPU，GPU，FPGA等)执行这里描述的特定进程或特定进程的特定部分，包括定义存储在RAM 946中的数据结构以及根据由软件定义的进程修改这种数据结构。另外或作为替代，计算机系统可提供作为逻辑硬连线或以其它方式包含在电路(例如：加速器944)中的结果的功能，其可代替或与软件一起操作以执行本文所述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。对计算机可读媒体的引用可包含存储用于执行的软件的电路(例如集成电路(IC))，包含用于执行的逻辑的电路，或两者(在适当的情况下)。本公开包括硬件和软件的任何合适的组合。

虽然本公开已经描述了几个非限制性实施例，但是存在落入本公开范围内的改变，置换和各种替代的等同物。因此可以理解，本领域的技术人员将能够设计出多种系统和方法，这些系统和方法虽然在这里没有明确示出或描述，但是体现了本公开的原理，并且因此在本公开的精神和范围内。

Claims

1.一种用于对编码视频流进行解码的方法，所述方法包括：

接收包括被分割成多个图块组的图片的编码视频流，每一个所述图块组包括至少一个图块，所述编码视频流还包括第一指示符、图块标识ID的第一语法元素、宏块/编码单元CU地址，所述第一指示符指示所述多个图块组中的第一图块组是否具有矩形形状，所述第一指示符设置在所述编码视频流的图片参数集PPS中；所述编码视频流还包括第三指示符，所述第三指示符指示所述第一图块组是否为运动约束图块集或者所述第一图块组是否包括多个运动约束图块；所述图块ID的第一语法元素和所述宏块/CU地址设置在网络抽象层NAL单元报头中，所述宏块/CU地址与关于图块布局的先验信息相匹配，以用于识别所述第一图块组；所述图块ID的第一语法元素占用在H.265中用于层标识layer_id的相同位；所述第一图块组是所述多个图块组中的其中一个；

至少基于识别所述第一指示符和所述第三指示符，确认所述第一图块组的编码信息；所述第一图块组的编码信息包括基于所述第一指示符识别的所述第一图块组是否具有矩形形状，以及基于所述第三指示符识别的所述第一图块组是否为运动约束图块集或者所述第一图块组是否包括多个运动约束图块，以及

基于所述编码信息以及所述图块ID的第一语法元素，分别将图块ID的第一语法元素所指示的图块ID与需要由解码器或媒体感知网络单元MANE重建或转发的图块列表进行比较，如果存在匹配，则解码器重建携带图块的NAL单元，或者MANE转发所述携带图块的NAL单元；如果不匹配，则解码器或MANE丢弃所述NAL单元。

2.根据权利要求1所述的方法，其中，

所述第一指示符是标志位，当所述标志位的值为第一值时，属于当前图片的所有图块组均具有矩形形状。

3.根据权利要求1所述的方法，其中，

所述编码视频流的所述第一指示符指示所述多个图块组中的所述第一图块组是否具有矩形形状，而不指示所述图片的所述多个图块组中除所述第一图块组之外的任何其它图块组是否具有矩形形状。

4.根据权利要求1至3中任一项所述的方法，其中，

当所述编码视频流的所述第一指示符指示所述第一图块组具有矩形形状时，所述编码视频流还包括指示所述第一图块组的相应角点的第二语法元素；

所述方法还包括：

基于所述第二语法元素来识别所述第一图块组的大小或位置。

5.根据权利要求4所述的方法，其中，

所述第二语法元素设置在编码视频流的参数集中。

6.根据权利要求5所述的方法，其中，

所述参数集是图片参数集PPS。

7.根据权利要求1至3中任一项所述的方法，其中，

所述编码视频流还包括第三语法元素，每个第三语法元素指示所述多个图块组中相应图块组的图块组标识ID；

所述图块组ID通过标志位显示写入所述编码视频流，并以信号通知图块组ID是否存在于PPS或NAL单元报头中。

8.根据权利要求1至3中任一项所述的方法，其中，

所述编码视频流还包括在参数集或图块组报头中的第二指示符，所述第二指示符指示包括在所述第一图块组中的图块的数量，并且

所述方法还包括：

基于以光栅扫描顺序对图块的数量进行计数来识别图片中第一图块组的角点的位置。

9.根据权利要求1至3中任一项所述的方法，其中，所述编码视频流还包括第四语法元素，所述第四语法元素指示两个不同图块组是否能够重叠且是否具有相同图块。

10.一种用于对编码视频流进行解码的系统，所述编码视频流包括被分割成多个图块组的图片，所述多个图块组中的每一个图块组包括至少一个图块，所述系统包括：

存储器，被配置为存储计算机程序代码；以及

至少一个处理器，被配置为接收所述编码视频流，访问所述计算机程序代码，按照所述计算机程序代码的指示进行操作以执行根据权利要求1至9中任一项所述的方法。

11.一种用于对编码视频流进行解码的系统，所述编码视频流包括被分割成多个图块组的图片，所述多个图块组中的每一个图块组包括至少一个图块，所述系统包括：

处理单元，所述处理单元被配置为：

12.一种非暂时性计算机可读介质，存储有计算机指令，所述计算机指令在由至少一个处理器执行时使所述至少一个处理器执行根据权利要求1至9中任一项所述的方法。