CN114375579A

CN114375579A - 子图像结构的发送技术

Info

Publication number: CN114375579A
Application number: CN202080063649.1A
Authority: CN
Inventors: 徐志玮; 陈鲁林; 黄毓文
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2019-09-10
Filing date: 2020-09-10
Publication date: 2022-04-19
Also published as: EP4005205A1; TW202116068A; TWI750802B; EP4005205A4; WO2021047590A1; KR20220045231A; MX2022002854A

Abstract

本发明提供了一种用于发送编码视频的子图像结构的方法。视频解码器从比特流接收将被解码为视频图像序列的数据。视频解码器从比特流中接收视频图像序列中一个或多个子图像的子图像规范。通过对每个子图像提供标识编解码树单元(coding tree unit，简称CTU)的索引，所述子图像规范标识每个子图像的位置和尺寸。根据子图像规范，视频解码器重构视频图像序列的每个子图像。

Description

子图像结构的发送技术

相关引用

本申请是非临时申请的一部分，要求分别在2019年9月10日递交的申请号为62/898,127的美国临时申请案和在2019年9月11日递交的申请号为62/898,620的美国临时申请案的优先权。上述全部内容以引用方式并入本发明。

技术领域

本发明涉及视频编解码，更具体的是，本发明涉及的是发送子图像结构的方法。

背景技术

除非此处另有说明，本部分所描述的方法相对于以下列出的权利要求而言不是先前技术，并且透过本部分的引入不被承认是先前技术。

高效视频编解码(high-efficiency video coding，简称HEVC)是由视频编解码联合协作团队(Joint Collaborative Team on Video Coding，简称JCT-VC)开发的最新国际视频编解码标准。输入视频信号从重构信号中预测，该重构信号是从编解码图像区域中导出的。预测残差信号通过线性变换进行处理。变换系数被量化，并与比特流中的其他辅助信息一起被熵编码。在逆量化的变换系数被逆变换之后，重构信号从预测信号和重构残差信号生成。通过环路滤波，重构信号被进一步处理以去除编解码伪像。解码的图像被存储在帧缓冲器中以预测输入视频信号中的未来图像。

在HEVC中，编码的图像被划分为由相关联的编解码树单元(coding tree unit，简称CTU)表示的非重迭(non-overlapped)正方形块区域。编码的图像由片段的集合来表示，每个片段包括整数个CTU。片段中的各个CTU按光栅扫描顺序(raster scanning order)进行处理。双向预测(bi-predictive，简称B)片段可使用最多两个运动向量和参考索引来通过帧内预测或帧间预测来解码，以预测每个块的采样值。预测(predictive，简称P)片段可使用最多一个运动向量和参考索引来通过帧内预测或帧间预测解码，以预测每个块的样本值。帧内(intra，简称I)片段仅使用帧内预测来进行解码。

通过递归四叉树(quadtree，简称QT)结构，CTU可被划分为多个不重迭的编码单元(coding unit，简称CU)，以适应各种局部运动和纹理特征。通过使用二进制和三进制划分的具有嵌套多类型树的四叉树，CTU也可被划分为一个或多个较小尺寸的CU。所得的CU划分可以是正方形或矩形形状。

一个或多个预测单元(prediction，简称PU)被指定用于每个CU。预测单元与相关联的CU语法一起，作为用于发送预测子信息的基本单元。指定的预测过程被用来预测PU内部相关联的像素样本的值。CU可使用残差四叉树(residual quadtree，简称RQT)结构来进一步划分，以用于表示相关联的预测残差信号。RQT的叶节点对应于变换单元(transformunit，简称TU)。变换单元包括大小为8x8、16x16或32x32的亮度样本的变换块(transformblock，简称TB)或四个大小为4x4的亮度样本的变换块，以及4：2：0颜色格式的图像的色度样本的两个相应的变换块。整数变换被应用于变换块，并且量化系数的级别(level))值与其他辅助信息一起被熵编码为比特流。

术语编解码树块(coding tree block，简称CTB)，编码块(coding block，简称CB)，预测块(prediction block，简称PB)和变换块(transform block，简称TB)被定义为指定与CTU，CU，PU和TU相关联的颜色分量的2-D样本数组。因此，CTU由一个亮度CTB，两个色度CTB和相关的语法元素组成。类似的关系对于CU，PU和TU有效。树分割通常同时应用于亮度和色度，但是当达到色度的特定最小尺寸时会是例外。

发明内容

以下发明内容仅是说明性的，不打算以任何方式加以限制。也就是说，以下发明内容被提供以介绍此处所描述的新且非显而易见的技术的概念、重点、好处和优势。选择而不是所有的实施方式在以下的详细说明中进行进一步描述。因此，以下发明内容不用于决定所请求主题的本质特征，也不用于决定所请求主题的范围。

一些实施例提供了一种用于发送编码视频的子图像结构的方法。视频解码器从比特流中接收将被解码为视频图像序列的数据。视频解码器从比特流中接收视频图像序列中一个或多个子图像的子图像规范。子图像规范通过对每个子图像提供一索引来标识每个子图像的位置和尺寸，其中该索引以光栅扫描的顺序来标识图像内的编解码树单元(CTU)。视频解码器根据子图像规范重构视频图像序列的每个子图像。

在一些实施例中，视频图像序列的序列参数集合(seuence parameter set，简称SPS)中的语法元素指示在视频图像序列中存在一个或多个子图像。SPS还可包括一语法元素，该语法元素指定视频图像序列的子图像的数量，以及每个子图像的标识符。子图像的标识符也可在视频图像序列中的视频图像的片段报头和/或图像参数集合(pictureparameter sets，简称PPS)中发送。在一些实施例中，视频图像序列中的视频图像的PPS中的一语法元素指示视频图像的所有片段都是矩形的。

在一些实施例中，图像内以光栅扫描所识别的CTU位于子图像的角(例如，左上或右下)。在一些实施例中，索引被分配给图像内以光栅扫描的子图像网格，并且不同的子图像网格被分配不同的索引。在一些实施例中，索引标识被定义为一个CTU或与一个CTU相对应的子图像网格，使得子图像网格的边界沿着CTU的边界定义。在一些实施例中，子图像位置和尺寸的索引在视频图像序列的SPS中发送。

附图说明

下列图示用以提供本发明的进一步理解，并被纳入且构成本发明的一部分。这些图示说明了本发明的实施方式，并与说明书一起用以解释本发明的原理。为了清楚地说明本发明的概念，与实际实施方式中的尺寸相比一些元素可以不按照比例被示出，这些图示无需按照比例绘制。

图1a-e概念性地示出用于指定视频序列子图像的基于CTB或CTU的网格单元。

图2示出基于CTU或CTB的子图像网格，其在图像内以光栅扫描的顺序被索引以指定子图像。

图3示出支持子图像的示例视频编码器。

图4概念性地示出实施子图像发送的视频编码器的部分。

图5概念性地示出在视频编码器处提供子图像规范的进程。

图6示出支持子图像的示例视频解码器。

图7概念性地示出实施子图像发送的视频解码器的部分。

图8概念性地示出在视频解码器处处理子图像规范的进程。

图9概念性地示出用于实现本公开的一些实施例的电子系统。

具体实施方式

在以下详细描述中，许多具体细节通过示例来阐述，以提供对相关教导的透彻理解。基于本文描述的教导的任何变化，衍生物和/或扩展都在本公开的保护范围内。在一些实例中，与本文公开的一个或多个示例实现有关的公知方法，过程，元件和/或电路可以在没有细节的情况下以相对较高的级别描述，以避免不必要地模糊本公开的教导的各方面。

I.发送子图像结构

子图像是图像中一个或多个片段的矩形区域，并且片段由一个或多个图块(tile)/砖块(brick)组成。每个图块/砖块都是CTU对齐的。当子图像存在于图像中时，子图像的数量可以大于或等于2。形成子图像的片段可以是矩形的。在一些实施例中，通过对每个子图像在图像内以光栅扫描的顺序指示右下子图像网格索引，以CTB为单位的网格被用来指定图像内的子图像结构。

在一些实施例中，视频编码器可发送子图像规范(并且视频解码器可接收子图像规范)。以下的表1A是用于发送子图像信息的序列参数集合(SPS)原始字节序列有效载荷(raw byte sequence payload，简称RBSP)的示例语法表：

表1A：SPS发送子图像信息

以下的表1B是序列参数集合(SPS)原始字节序列有效载荷(RBSP)的另一示例语法表，该语法表提供子图像的规范。

表1B：SPS指定子图像

以下的表1C是序列参数集合(SPS)原始字节序列有效载荷(RBSP)的另一示例语法表，该语法表提供子图像的规范：

表1C：SPS指定子图像

以下的表1D是序列参数集合(SPS)原始字节序列有效载荷(RBSP)的另一示例语法表，该语法表提供子图像的规范：

表1D：SPS指定子图像

语法元素subpics_present_flag为1表示子图像参数当前存在于SPS RBSP语法中。在一些实施例中，当subpics_present_flag等于1时，rect_slice_flag的值被设置为1。语法元素subpics_present_flag为0指示在SPS RBSP语法中当前不存在子图像参数。在一些实施例中，当比特流是子比特流提取处理的结果并且仅包含子比特流提取处理的输入比特流的子图像的子集合时，在SPS的RBSP中subpics_present_flag的值被设置为1。

语法元素max_subpics_minus2加2指定编解码视频序列(coded video sequence，简称CVS)中可能存在子图像的最大数量。在一些实施例中，max_subpics_minus2被限制在0到254的范围内。值255被保留供将来使用。

语法元素num_subpics_minus1加1指定CVS中可能存在的子图像的数量。在一些实施例中，num_subpics_minus1的值被限制在0至254的范围内。值255被保留以供将来使用。如表1D所示，通过语法元素num_subpics_minus1，CVS中存在的子图像的数量在SPS中直接被发送。

语法元素num_subpics_minus2加2指定CVS中可能存在的子图像的数量。在一些实施例中，num_subpics_minus2的值被限制在0至254的范围内。值255被保留以供将来使用。

语法元素subpic_grid_col_width_minus1加1指定子图像标识符网格(不包括图像的最右边的网格列)的每个元素的宽度(以CtbSizeY为单位)。语法元素的长度为Ceil(Log2(pic_width_max_in_luma_samples/CtbSizeY))比特。如果不存在，则subpic_grid_row_width_minus1被推断为0。

语法元素subpic_grid_row_height_minus1加1指定子图像标识符网格(不包括图像的底部网格行)中每个元素的高度(以CtbSizeY为单位)。语法元素的长度为Ceil(Log2(pic_height_max_in_luma_samples/CtbSizeY))比特。如果不存在，则subpic_grid_row_height_minus1被推断为0。

变量NumSubPicGridRows的导出如下：

NumSubPicGridRows＝

(pic_height_max_in_luma_samples+

subpic_grid_row_height_minus1*CtbSizeY+CtbSizeY–1)/

(subpic_grid_row_height_minus1*CtbSizeY+CtbSizeY)

语法元素bottom_right_subpic_grid_idx_length_minus1加1指定用于表示语法元素bottom_right_subpic_grid_idx_delta[i]的位数量。bottom_right_subpic_grid_idx_length_minus1的值应在0到Ceil(Log2(NumSubPicGridRows*NumSubPicGridCols))-1的范围，包括端点。

当i大于0时，变数bottom_right_subpic_grid_idx_delta[i]指定第i个子图像的右下角的子图像网格索引与第i-1个子图像的右下角的子图像网格索引之间的差值。变量bottom_right_subpic_grid_idx_delta[0]指定第0个子图像的右下角的子图像网格索引。

语法元素subpic_grid_idx_delta_sign_flag[i]等于1表示bottom_right_subpic_grid_idx_delta[i]的正号。sign_bottom_right_subpic_grid_idx_delta[i]等于0表示bottom_right_subpic_grid_idx_delta[i]的负号。

图1a-e概念性地示出基于CTB或CTU的网格单元，其用于指定视频序列的子图像。图1a示出包括几个视频图像的视频序列(coded video sequence，简称CVS)100。序列100中的视频图像(例如图像110)被分成CTU。图1b示出序列的图像被划分为用于指定子图像的子图像网格。每个子图像网格120对应于整数个CTU，使得每个子图像网格基于CTU或CTB的边界来定义。图1c示出一个示例，其中每个子图像网格120恰好对应于一个CTU或CTB。图1d示出其中每个子图像网格120对应于2x1个CTU或CTB的示例。图1e示出一个示例，其中每个子图像网格120对应于2×3个CTU或CTB。在一些实施例中，诸如Spic_grid_col_width_minus1和subpic_grid_row_height_minus1之类的SPS语法元素根据CTU或CTB来定义子图像网格。另外，每个CTU或CTB的大小在SPS中以语法元素log2_ctu_size_minus5发送。

图2示出基于CTU或CTB的子图像网格，其被索引以用于指定子图像。图像110中的每个子图像网格对应于当视频编解器正在发送子图像的尺寸(例如，宽度，高度)和/或位置时可以使用的索引。子图像标识符网格的指定元素以光栅扫描的顺序进行索引。在一些实施例中，子图像也以光栅扫描的顺序进行索引。

如图所示，序列100的图像(例如图像110)被定义为具有四个子图像210、220、230和240，这些子图像使用基于CTU或CTB的子图像网格来定义。与子图像网格相关联的索引用于指定子图像210-240的尺寸和位置。

在一些实施例中，基于与子图像的角(例如，右下角或左上角)的子图像网格相关联的索引，每个子图像的位置被指定。在该图中，子图像210的位置是索引27，子图像220的位置是索引36，子图像230的位置是索引79，子图像240的位置是索引84。通过参考另一子图像的右下角位置，诸如bottom_right_subpic_grid_idx_delta[i]和subpic_grid_idx_delta_sign_flag[i]之类的SPS语法元素被用来指定子图像的右下角位置。或者，在一些实施例中，每个基于CTU/CTB的子图像网格可与X索引和Y索引相关联，并且每个子图像的位置可由子图像的左上角的子图像网格的X和Y索引指定。

在一些实施例中，在视频参数集合(Video Parameter Set，简称VPS)中子图像(在CVS中)的最大数量被指定。以下的表3是VPS的示例语法表，该语法表指定CVS中子图像的最大数量。

表3：VPS指定CVS中子图像的最大数量

语法元素vps_max_subpics_minus2加2(或vps_max_subpics_minus1加1)指定每个CVS中参考VPS的子图像的最大允许数量。在一些实施例中，语法元素vps_max_subpics_minus2被限制在0至254的范围内。值255被保留以供将来使用。

在一些实施例中，与子图像相关的参数在图像参数集合(Picture Paramter Set，简称PPS)中被发送。以下的表4示出了包括子图像信息的PPS的示例语法表。

表4:PPS指定子图像ID

在一些实施例中，PPS中的语法元素rect_slice_flag为0指定每个片段内的砖块为光栅扫描顺序并且在PPS中未发送片段信息。语法元素rect_slice_flag为1表示每个片段中的砖块覆盖图像的矩形区域，并且在PPS中发送片段信息。当subpics_present_flag等于1时，rect_slice_flag的值应等于1。在一些实施例中，当brick_splitting_present_flag等于1时，将rect_slice_flag的值被设置为1。如果不存在，则语法元素rect_slice_flag被推断为等于1。

语法元素signalled_subpic_id_flag为1指定每个子图像的子图像ID被发送。语法元素signalled_subpic_id_flag为0表示子图像ID不被发送。如果不存在，则signalled_subpic_id_flag的值被推断为等于0。

语法元素signalled_subpic_id_length_minus1加1指定用于表示存在时语法元素subpic_id[i]的位的数量，以及片段报头中的语法元素subpicture_id。在一些实施例中，signalled_subpic_id_length_minus1的值被限制在0到7的范围内(包括0和7)。如果不存在，则signalled_subpic_id_length_minus1的值被推断为等于Ceil(Log2(Max(2，num_subpics_minus1+1)))-1。

语法元素subpic_id[i]指定第i个子图像的子图像ID。subpuic_id[i]语法元素的长度为signalled_subpic_id_length_minus1+1比特。如果不存在，则对于在0到num_subpics_minus1(含0和num_subpics_minus1)的范围内的每个i，subpic_id[i]的值均被推断为等于i。具有相同子图像ID的片段共同形成子图像区域。

语法元素subpicture_id指定当前片段所属的子图像ID。subpic_id语法元素的长度为Ceil(Log2(num_subpics_minus1+1))比特。subpicture_id的值是对PPS中指定的subpic_id[i]的映像。第i个子图像的发送的子图像ID subpic_id[i]可被加至PPS中，映射至PPS中的subpic_id[i]的发送的子图像ID subpicure_id可被加至片段报头中。以下的表5示出包括子图像信息的片段报头的示例语法表。

表5：片段报头指定子图像ID

在一些实施例中，假设对于CVS子图像ID不变，则子图像ID可在CVS的片段标头，PPS和/或SPS中发送。例如，根据以下的表6，第i个子图像的发送的子图像ID subpic_id[i]可以在SPS(而不是PPS)中发送：

表6：SPS指定子图像ID

II.示例视频编码器

图3说明支持子图像的实例视频编码器300。如图所示，视频编码器300从视频源305接收输入视频信号，并将该信号编码为比特流395。视频编码器300具有若干元件或模块，其用于对来自视频源305的信号进行编码，至少包括从以下元件中选择的一些元件：变换模块310，量化模块311，逆量化模块314，逆变换模块315，帧内估计模块320，帧内预测模块325，运动补偿模块330，运动估计模块335，环内滤波器345，重构图像缓冲器350，MV缓冲器365和MV预测模块375，以及熵编码器390。运动补偿模块330和运动估计模块335是帧间预测模块340的一部分。

在一些实施例中，模块310-390是由计算设备或电子装置的一个或多个处理单元(例如，处理器)执行的软件指令的模块。在一些实施例中，模块310-390是由电子装置的一个或多个集成电路(IC)实现的硬件电路的模块。尽管将模块310–390图标为单独的模块，但是其中一些模块可被组合为单个模块。

视频源305提供原始视频信号(raw video signal)，该原始视频信号无需压缩即可呈现每个视频帧的像素数据。减法器308计算视频源305的原始视频像素数据与来自运动补偿模块330或帧内预测模块325的预测像素数据313之间的差值。变换模块310将该差值(或残差像素数据或残差信号309)转换成变换系数(例如，通过执行离散余弦变换或DCT)。量化模块311将变换系数量化为量化资料(或量化系数)312，其由熵编码器390编码为比特流395。

逆量化模块314对量化数据(或量化系数)312进行逆量化以获得变换系数，并且逆变换模块315对变换系数执行逆变换以产生重构残差319。重构残差319被加至预测像素数据313一起产生重构像素数据317。在一些实施例中，重构像素数据317被临时存储在行缓冲器(未示出)中，以用于帧内预测(intra-picture prediction)和空间MV预测。重构像素由环内滤波器345滤波并被存储在重构图像缓冲器350中。在一些实施例中，重构图像缓冲器350是视频编码器300外部的内存。在一些实施例中，重构图像缓冲器350是视频编码器300的内部内存。

帧内估计模块320基于重构像素数据317执行帧内预测以产生帧内预测数据。帧内预测数据被提供至熵编码器390以被编码为比特流395。帧内预测数据还由帧内预测模块325使用以产生预测像素数据313。

运动估计模块335通过产生MV以对存储在重构图像缓冲器350中的先前解码的帧的参考像素数据执行帧间预测。这些MV被提供至运动补偿模块330以产生预测像素数据。

代替对比特流中的完整的实际MV进行编码，视频编码器300使用MV预测生成预测的MV，并且用于运动补偿的MV与预测的MV之间的差值被编码为残差运动数据并被存储在比特流395。

MV预测模块375基于参考MV生成预测的MV，参考MV被生成以对先前的视频帧进行编码，即，用于执行运动补偿的运动补偿MV。MV预测模块375从MV缓冲器365中的先前视频帧中取回参考MV。视频编码器300将对当前视频帧生成的MV存储在MV缓冲器365中，作为用于生成预测MV的参考MV。

MV预测模块375使用参考MV来创建预测的MV。预测MV可通过空间MV预测或时间MV预测来计算。当前帧的预测MV和运动补偿MV(motion compensation motion vector，简称MC MV)之间的差值(残差运动数据)可由熵编码器390编码到比特流395中。

熵编码器390使用诸如上下文自适应二进制算术编码(context-adaptive binaryarithmetic coding，简称CABAC)或霍夫曼编码的熵编码技术将各种参数和数据编码到比特流395中。熵编码器390将各种报头元素，标志以及量化的变换系数312和残差运动数据作为语法元素编码到比特流395中。比特流395又被存储在存储设备中或经由通信媒介(例如网络)传输到解码器。

环内滤波器345对重构的像素数据317执行滤波或平滑操作以减少编码的伪像，特别是在区块的边界处。在一些实施例中，执行的滤波操作包括样本适应性偏移(sampleadaptive offset，简称SAO)。在一些实施例中，滤波操作包括适应性环路滤波器(adaptiveloop filter，简称ALF)。

图4概念性地示出视频编码器300的实施子图像的发送的部分。如图所示，熵编码器390从视频源305接收信令，该信令指定子图像的参数410，该子图像将存在于视频图像的当前编码序列420中。这些参数410可指示当前编码序列中存在的子图像的数量。参数410还可指示每个子图像的位置和几何形状(高度，宽度和尺寸)。不同子图像的量化系数312被提供至编码器300的数据路径。

基于子图像的参数，熵编码器390生成被用作比特流395中的子图像规范的语法元素。这些语法元素可包括子图像的标识符，子图像的数量以及子图像的位置和几何形状，并且子图像的位置和几何形状根据基于CTB/CTU的子图像网格来指定。这些语法元素可被存储在当前编码视频序列420的SPS，视频序列中的单个图像的PPS，序列的图像中的单个片段的片段报头，和/或整个视频的VPS中。这些语法元素的示例通过参考以上的表1A-1D和表3-6进行描述。

图5概念性地示出用于在视频编码器处提供子图像规范的进程500。在一些实施例中，计算设备的一个或多个处理单元(例如，处理器)通过执行存储在计算机可读介质中的指令来实现编码器300执行进程500。在一些实施例中，实现解码器300的电子装置执行进程500。

编码器接收(在块510处)比特流中将被编码为视频图像序列的数据。编码器在比特流中发送(在块520)视频图像中的视频图像序列中一个或多个子图像的子图像规范。在一些实施例中，视频图像序列的SPS中的语法元素指示在视频图像序列中存在一个或多个子图像。SPS还可包括语法元素，该语法元素指定视频图像序列的子图像的数量，以及每个子图像的标识符。子图像的标识符也可在视频图像序列中在视频图像的片段报头和/或PPS中发送。在一些实施例中，视频图像序列中的视频图像的PPS中的语法元素指示视频图像的所有片段都是矩形的。

通过提供用于标识子图像830的CTU的索引，编码器标识(在块530处)每个子图像的位置和尺寸。

在一些实施例中，所标识的CTU位于子图像的一角(例如，左上或右下)。在一些实施例中，索引被分配至子图像网格，并且不同的子图像网格被分配不同的索引。在一些实施例中，索引标识子图像网格，该子图像网格被定义为一个CTU或与一个CTU相对应，使得子图像网格的边界沿着CTU的边界来定义。在一些实施例中，在视频图像序列的SPS中，子图像位置的索引被发送。

根据子图像规范，编码器对视频图像序列的每个子图像进行编码(在块540处)。

III.示例视频解码器

图6示出支持子图像的示例视频解码器600。如图所示，视频解码器600是图像解码或视频解码电路，其接收比特流695并将比特流的内容解码为视频帧的像素数据以供显示。视频解码器600具有用于解码比特流695的若干元件或模块，包括从以下元件中选择的一些元件：逆量化模块611，逆变换模块610，帧内预测模块625，运动补偿模块630，环内滤波器645，解码图像缓冲器650，MV缓冲器665，MV预测模块675和解析器690。运动补偿模块630是帧间预测模块640的一部分。

在一些实施例中，模块610-690是由计算设备的一个或多个处理单元(例如，处理器)执行的软件指令的模块。在一些实施例中，模块610-690是由电子装置的一个或多个IC实现的硬件电路的模块。尽管模块610-690被图标为单独的模块，但是一些模块可被组合成单个模块。

解析器690(或熵解码器)接收比特流695，并根据由视频编解码或图像编解码标准定义的语法执行初始解析。解析的语法元素包括各种报头元素，标志以及量化数据(或量化系数)612。解析器690使用诸如上下文自适应二进制算术编解码(contex-adaptive binaryarithmetic coding，简称CABAC)或霍夫曼编码的熵编解码技术解析各种语法元素。

逆量化模块611对量化数据(或量化系数)612进行逆量化以获得变换系数，并且逆变换模块610对变换系数616执行逆变换以产生重构残差信号619。重构残差信号619被加至来自帧内预测模块625或运动补偿模块630的预测像素资料613，以生成解码像素数据617。解码像素数据由环内滤波器645滤波并被存储在解码图像缓冲器650中。在一些实施例中，解码图像缓冲器650是视频解码器600外部的内存。在一些实施例中，解码图像缓冲器650是视频解码器600内部的内存。

帧内预测模块625从比特流695接收帧内预测数据，并据此从存储在解码图像缓冲器650中的解码像素数据617中生成预测像素资料613。在一些实施例中，解码像素数据617也被存储在用于帧内预测(intra-picture prediction)和空间MV预测的行缓冲器(未示出)中。

在一些实施例中，解码图像缓冲器650的内容用于显示。显示设备655或者取回解码图像缓冲器650的内容以直接显示，或者将解码图像缓冲器的内容取回到显示缓冲器。在一些实施例中，显示设备通过像素传输从解码图像缓冲器650接收像素值。

运动补偿模块630根据运动补偿MV(MC MV)从存储在解码图像缓冲器650中的解码像素数据617中生成预测像素资料613。通过将从比特流695接收到的残差运动数据与从MV预测模块675接收到的预测MV相加，这些运动补偿MV被解码。

MV预测模块675基于参考MV生成预测的MV，参考MV被生成以解码先前的视频帧，例如，用于执行运动补偿的运动补偿MV。MV预测模块675从MV缓冲器665中取回先前视频帧的参考MV。视频解码器600将用于解码当前视频帧而生成的运动补偿MV存储在MV缓冲器665中，作为用于产生预测MV的参考MV。

环内滤波器645对解码的像素数据617执行滤波或平滑操作以减少解码的伪像，特别是在区块的边界处。在一些实施例中，执行的滤波操作包括样本自适应偏移(sampleadaptive offset，简称SAO)。在一些实施例中，滤波操作包括适应性环路滤波器(adaptiveloop filter，简称ALF)。

图7概念性地示出视频解码器600的实施子图像的发送的部分。如图所示，熵解码器690向视频解码器600的数据路径提供量化系数612，视频解码器600又对不同的子图像生成将在显示设备655处显示的像素数据。显示设备可根据子图像参数710显示接收到的像素数据，其中子图像参数710用于将在图像的当前编码序列720中出现的子图像。参数710还可指示将在当前编码的序列中出现的子图像的数量。这些参数还可指示每个子图像的位置和几何形状(大小，高度，宽度)。熵解码器690基于从比特流695解码的语法元素来提供子图像参数。

如图所示，熵解码器(解析器)690从比特流695接收用作子图像规范的语法元素。这些语法元素可包括子图像的标识符，子图像的数量以及子图像的位置和几何形状，并且子图像的位置和几何形状根据基于CTB/CTU的子图像网格进行指定。这些语法元素可被存储在当前编码视频序列720的SPS，视频序列中的单个图像的PPS，序列的图像中的单个片段的片段报头，和/或整个视频的VPS中。这些语法元素的示例通过参考以上的表1A-1D和表3-6进行描述。

图8概念性地示出用于在视频解码器处处理子图像规范的进程800。在一些实施例中，计算设备的一个或多个处理单元(例如，处理器)通过执行存储在计算机可读介质中的指令来实现解码器600执行进程800。在一些实施例中，实现解码器600的电子装置执行进程800。

解码器从比特流接收(在块810处)将被解码为视频图像序列的数据。解码器从比特流接收(在块820)视频图像序列中的一个或多个子图像的子图像规范。在一些实施例中，视频图像序列的SPS中的语法元素指示在视频图像序列中存在一个或多个子图像。SPS还可包括语法元素，该语法元素指定视频图像序列的子图像的数量，以及每个子图像的标识符。子图像的标识符也可在视频图像序列中视频图像的片段报头和/或PPS中发送。在一些实施例中，视频图像序列中的视频图像的PPS中的语法元素指示视频图像的所有片段都是矩形的。

解码器通过提供标识该子图像的CTU的索引来标识(在块830处)每个子图像的位置和尺寸。在一些实施例中，所标识的CTU位于子图像的一角(例如，左上或右下)。在一些实施例中，索引被分配至子图像网格，并且不同的子图像网格被分配不同的索引。在一些实施例中，索引标识子图像网格，该子图像网格被定义为一个CTU或与一个CTU相对应，使得子图像网格的边界沿着CTU的边界定义。在一些实施例中，子图像位置的索引在视频图像序列的SPS中发送。

根据子图像规范，解码器重构(在块840处)视频图像序列的每个子图像。

IV.示例电子系统

许多上述特征和应用被实现为软件过程，其被指定为记录在计算机可读内存介质(computer readable storage medium)(也称为计算机可读介质)上的指令集。当这些指令由一个或多个计算或处理单元(例如，一个或多个处理器，处理器核或其他处理单元)执行时，它们使处理单元执行指令中指示的动作。计算机可读介质的示例包括但不限于只读光盘内存(compact disk read only memory,简称CD-ROM)，随身碟(flash drive)，随机存取内存(random-access memory,RAM)芯片，硬盘机，可抹除可程序只读存储器(erasableprogrammable read only memory,简称EPROM)，电子式可抹除可程序设计只读存储器(electrically erasable programmable read only memory,简称EEPROM)。该计算机可读介质不包括通过无线或有线连接传递的载波和电信号。

在本说明书中，术语“软件”意味着包括只读存储器中的固件或者存储在磁存储装置中的应用程序，该应用程序可以被读入到内存中以用于处理器进行处理。同时，在一些实施例中，多个软件发明可以作为更大程序的子部分来实现，而保留不同的软件发明。在一些实施例中，多个软件发明可以作为独立的程序来实现。最后，一起实现此处所描述的软件发明的独立的程序的任何结合是在本发明的范围内。在一些实施例中，当软件程序被安装以在一个或者多个电子系统上进行操作时，软件程序定义了一个或者多个特定的机器实现方式，该机器实现方式执行和实施该软件程序的操作。

图9概念性地示出实现本公开的一些实施例的电子系统900。电子系统1100可以是计算机(例如，台式计算机，个人计算机，平板计算机等)，电话，个人数字助理(personaldigital assistant,简称PDA)或任何其他种类的电子装置。这种电子系统包括各种类型的计算机可读介质和用于各种其他类型的计算机可读介质的接口。电子系统900包括总线905，处理单元910，图形处理单元(graphics-processing unit,简称GPU)915，系统内存920，网络925，只读存储器930，永久存储设备935，输入设备940和输出设备945。

总线905集体表示与电子系统900通信地连接的众多内部设备的所有系统总线，外围装置总线和芯片组总线。例如，总线905通过GPU915，只读存储器930，系统内存920和永久存储设备935与处理单元910通信地连接。

从这些各种内存单元，处理单元910取回要执行的指令和要处理的数据，以便执行本公开的处理。在不同实施例中，处理单元910可以是单个处理器或多核处理器。一些指令被传递到GPU915并由GPU915执行。GPU915可以卸除各种计算或补充由处理单元910提供的图像处理。

只读存储器930存储处理单元910和电子系统的其他模块所需的静态数据和指令。另一方面，永久存储设备935是读写记忆设备。该设备是非挥发性内存单元，即使在电子系统900关闭时也存储指令和数据。本公开的一些实施例使用大容量存储设备(诸如磁盘或光盘及其相应的磁盘驱动器)作为永久存储设备935。

其他实施例使用可移动存储(例如软盘，闪存设备等，及其相应的磁盘驱动器)作为永久存储设备。与永久存储设备935类似，系统内存920是读写内存设备。然而，与永久存储设备935不同，系统内存920是挥发性(volatile)读写内存，例如随机存取内存。系统内存920存储处理器在运行时需要的一些指令和数据。在一些实施例中，根据本公开的过程存储在系统内存920，永久存储设备935和/或只读存储器930中。例如，各种内存单元包括用于根据处理多媒体剪辑的指令。在一些实施例中。从这些各种内存单元，处理单元910取回要执行的指令和要处理的数据，用以执行一些实施例的过程。

总线905还连接到输入设备940和输出设备945。输入设备940使用户能够向电子系统传送信息和选择命令。输入设备940包括字母数字键盘和指示设备(也称为“光标控制装置”)，相机(例如，网络摄像头)，麦克风或用于接收语音命令等的类似装置。输出设备945显示由电子系统生成的图像或否则输出数据。输出设备945包括打印机和显示设备，例如阴极射线管(CRT)或液晶显示器(LCD)，以及扬声器或类似的音频输出设备。一些实施例包括诸如同时用作输入设备和输出设备的触摸屏等设备。

最后，如图9所示，总线905还通过网络适配器(未示出)将电子系统900耦合到网络925。以这种方式，计算机可以是计算机网络的一部分(例如局域网(local area network,简称LAN)，广域网(wide area network,简称WAN)或内部网络)，或多个网络中的一个网络，比如说因特网。电子系统900的任何或所有元件可以与本公开结合使用。

一些实施例包括电子元件，例如，微处理器、存储装置和内存，其将计算机程序指令存储到机器可读介质或者计算机可读介质(可选地被称为计算机可读存储介质、机器可读介质或者机器可读存储介质)。计算机可读介质的一些实例包括RAM、ROM、只读光盘(read-only compact disc，CD-ROM),可录制光盘(recordable compact disc，CD-R)、可擦写光盘(rewritable compact disc，CD-RW)、只读数字通用光盘(read-only digitalversatile disc)(例如，DVD-ROM，双层DVD-ROM)、各种可记录/可擦写DVD(例如DVD RAM、DVD-RW、DVD+RW等)、闪存(如SD卡，迷你SD卡，微SD卡等)、磁性和/或固态硬盘、只读和可刻录

盘、超高密度光盘和其他任何光学介质或磁介质，以及软盘。计算机可读介质可以存储由至少一个处理单元执行的计算机程序，并且包括用于执行各种操作的指令集。计算机程序或计算机代码的示例包括机器代码，例如编译程序产生的机器代码，以及包含由计算机、电子元件或微处理器使用注释器(interpreter)而执行的高级代码的文档。

当以上讨论主要是指执行软件的微处理器或多核处理器时，很多上述的功能和应用程序由一个或复数个集成电路执行，如特定应用的集成电路(application specificintegrated circuit，ASIC)或现场可程序设计门阵列(field programmable gate array，FPGA)。在一些实施例中，这种集成电路执行存储在该电路本身上的指令。此外，一些实施例执行存储在可程序设计逻辑器件(programmable logic device,PLD)，ROM或RAM装置中的软件。

如本发明的说明书和任一权利要求所使用，术语“计算机”、“服务器”、“处理器”和“内存”均指电子装置或其他技术装置。这些术语不包括人或群体。出于说明的目的，术语显示或显示设备指在电子装置上进行显示。如本发明的说明书和任一权利要求中所使用，术语“计算机可读介质”、“计算机可读媒质”和“机器可读介质”完全局限于有形的、实体的物体，其以计算机可读的形式存储信息。这些术语不包括任何无线信号、有线下载信号和其他任何短暂信号。

在结合许多具体细节的情况下描述了本发明时，本领域的技术人员将认识到，本发明可以以其他具体形式而被实施，而不脱离本发明的精神。此外，大量的图(包括图5和图8)概念性示出了处理过程。这些过程的具体操作可以不以所示及所描述的确切顺序来被执行。这些具体操作可以不在一个连续的操作系列中被执行，并且不同的具体操作可以在不同的实施例中被执行。另外，该处理可使用几个子处理而被实现，或者作为更大的宏处理的一部分。因此，本领域的技术人员将能理解的是，本发明不受前述说明性细节的限制，而是由权利要求加以界定。

附加的说明

本文所描述的主题有时表示不同的元件，其包含在或者连接到其他不同的元件。可以理解的是，所描述的结构仅是示例，实际上可以由许多其他结构来实施，以实现相同的功能，从概念上讲，任何实现相同功能的元件的排列实际上是“相关联的”，以便实现所需功能。因此，不论结构或中间部件，为实现特定的功能而组合的任何两个元件被视为“相互关联”，以实现所需的功能。同样，任何两个相关联的元件被看作是相互“可操作连接”或“可操作耦接”，以实现特定功能。能相互关联的任何两个元件也被视为相互“可操作地耦接”，以实现特定功能。能相互关联的任何两个元件也被视为相互“可操作地耦合”以实现特定功能。可操作连接的具体例子包括但不限于实体上可配对和/或实体上相互作用的元件，和/或无线可交互和/或无线上相互作用的元件，和/或逻辑上相互作用和/或逻辑上可交互的元件。

此外，关于此处使用的基本上任一复数和/或单数术语，本领域的技术人员可以根据上下文和/或应用从复数转换为单数和/或从单数到复数。为清楚起见，本发明明确阐述了不同的单数/复数排列。

此外，通常，本领域的技术人员可以理解本发明所使用的术语特别是权利要求中的，如权利要求的主题，通常用作“开放”术语，例如，“包括”应解释为“包括但不限于”，“有”应理解为“至少有”“包括”应解释为“包括但不限于”等。本领域的技术人员可以进一步理解，若计划介绍特定数量的权利要求内容，将在权利要求内明确表示，并且，在没有这类内容时将不显示。例如，为帮助理解，下面权利要求可能包含短语“至少一个”和“一个或复数个”，以介绍权利要求的内容。然而，这些短语的使用不应理解为暗示使用不定冠词“一”或“一个”介绍权利要求内容，而限制了任何特定权利要求。甚至当相同的权利要求包括介绍性短语“一个或复数个”或“至少有一个”，不定冠词，例如“一”或“一个”，则应被解释为表示至少一个或者更多，对于用于介绍权利要求的明确描述的使用而言，同样成立。此外，即使明确引用特定数量的介绍性内容，本领域的技术人员可以认识到，这样的内容应被解释为表示所引用的数量，例如，没有其他修改的“两个引用”，意味着至少两个引用，或两个或两个以上的引用。此外，在使用类似于“A、B和C中的至少一个”的表述的情况下，通常如此表述是为了本领域的技术人员可以理解该表述，例如，“系统包括A、B和C中的至少一个”将包括但不限于单独具有A的系统，单独具有B的系统，单独具有C的系统，具有A和B的系统，具有A和C的系统，具有B和C的系统，和/或具有A、B和C的系统，等。本领域的技术人员进一步可理解，无论在说明书中，权利要求中或者附图中，由两个或两个以上的替代术语所表现的任何分隔的单词和/或短语应理解为，包括这些术语中的一个，其中一个，或者这两个术语的可能性。例如，“A或B”应理解为，“A”，或者“B”，或者“A和B”的可能性。

从前述可知，出于说明目的，本发明已描述了各种实施方式，并且在不偏离本发明的范围和精神的情况下，可以进行各种变形。因此，此处所公开的各种实施方式不用于限制，真实的范围和申请由权利要求表示。

Claims

1.一种视频解码方法，包括：

从比特流接收将被解码为视频图像序列的数据；

从所述比特流接收在所述视频图像序列中的一个或多个子图像的子图像规范，通过对相应的子图像提供用于标识编解码树单元的索引，所述子图像规范对所述一个或多个子图像的每个子图像标识位置和尺寸；以及

根据所述子图像规范，重构所述视频图像序列的所述一个或多个子图像的每个子图像。

2.如权利要求1所述的视频解码方法，其特征在于，不同的编解码树单元对应于被分配多个不同的索引的多个不同的子图像网格。

3.如权利要求2所述的视频解码方法，其特征在于，所述多个子图像网格的多个边界使用编解码树单元的多个边界来定义。

4.如权利要求1所述的视频解码方法，其特征在于，由提供的所述索引标识的所述编解码树单元位于所述子图像的一角。

5.如权利要求1所述的视频解码方法，其特征在于，，所述索引由所述视频图像序列的序列参数集合提供。

6.如权利要求5所述的视频解码方法，其特征在于，所述序列参数集合进一步包括语法元素，所述语法元素指定所述视频图像序列的子图像数量。

7.如权利要求5所述的视频解码方法，其特征在于，所述子图像的辨识字在所述序列参数集合中发送。

8.如权利要求1所述的视频解码方法，其特征在于，所述子图像的辨识字在片段的片段报头中发送。

9.如权利要求1所述的视频解码方法，其特征在于，所述子图像的辨识字在所述视频图像序列的视频图像的图像参数集合中发送。

10.如权利要求1所述的视频解码方法，其特征在于，所述视频图像序列的序列参数集合的语法元素指示一个或多个子图像存在于所述图像序列，以及所述视频图像序列的视频图像的图像参数集合的语法元素指示所述视频图像的所有片段都是矩形的。

11.一种视频编码方法，包括：

接收将被编码为视频图像序列的比特流的数据；

在所述比特流中发送所述视频图像序列的一个或多个子图像的子图像规范，通过对相应的子图像提供用于标识编解码树单元的索引，所述子图像规范对所述一个或多个子图像的每个子图像标识位置和尺寸；以及

根据所述子图像规范，对所述视频图像序列的所述一个或多个子图像的每个子图像进行编码。

12.一种电子装置，包括：

视频解码器电路，被设置为执行以下操作包括：

从比特流接收将被解码为视频图像序列的数据；