CN110719477A

CN110719477A - 视频编解码的方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN110719477A
Application number: CN201910605634.2A
Authority: CN
Inventors: 李翔; 赵欣; 刘杉; 徐萌
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2018-07-11
Filing date: 2019-07-05
Publication date: 2020-01-21
Anticipated expiration: 2039-07-05
Also published as: CN110719477B; US20200092561A1; CN114900695A; US11677954B2; US20230262227A1; US20210377540A1; US20200021810A1; US11128867B2; US10516885B1

Abstract

本申请实施例提供了一种视频编解码的方法、装置、计算机设备及计算机可读存储介质，其中该方法包括：对编码视频比特流中的图像的块相关联的编码信息进行解码，该编码信息指示子区域在该块中的位置，并且该子区域的面积是该块面积的1/4；利用第一采样的残差数据重构该块位于该子区域内的第一采样；在不采用该残差数据的情况下重构该块位于该子区域外的第二采样。

Description

视频编解码的方法、装置、计算机设备及计算机可读存储介质

相关文件

本公开要求2018年7月11日递交的美国临时申请62/696530的优先权，以及2018年12月12日递交的美国申请16/218233的优先权，其全部内容通过引用结合在本文中。

技术领域

本申请实施例主要涉及视频编码技术，尤其涉及一种视频编解码的方法、装置、计算机设备及计算机可读存储介质。

背景技术

本文提供的背景描述是为了呈现本申请的背景。记名的发明人的工作，在该背景部分描述的工作以及本说明书各实施例的范围内的内容，在递交时可能并不算作现有技术，均未被明示或暗示地承认作为不利于本申请的现有技术。

视频编码和解码可以使用具有运动补偿的图像间预测来进行。未压缩的数字视频可包括一系列图像，每个图像具有一定的空间维度，例如1920x 1080的亮度采样和相关的色度采样。图像序列可具有固定或可变的图像速率(俗称帧率)，例如，每秒60张图像或60Hz。未压缩的视频需要较高的比特率。例如，每个采样为8比特的1080p60 4：2：0(60Hz帧率下的1920x1080亮度采样分辨率)的视频需要接近1.5G比特/秒的带宽。长度为一小时的这种视频需要600G字节以上的存储空间。

视频编码和解码的一个目的是，通过压缩来降低输入视频信号的冗余。在一些情况下，压缩可将带宽或存储器的需求减小至少两个数量级。可使用无损压缩、有损压缩，或其组合。无损压缩指可从经过压缩的原始信号中重建原始信号的准确副本的技术。当使用有损压缩时，重建信号可与原始信号不一致，但原始信号和重建信号之间的失真足够小，以使重建信号能够实现所期望的用途。视频领域中广泛采用有损压缩。容许的失真量取决于应用，例如，一些消费型直播应用的用户比电视节目应用的用户能容忍更大的失真。可实现的压缩比可以反映出：可允许/可容忍的失真越大，可产生的压缩比越高。

运动补偿可以是有损压缩技术，并且可以涉及一些技术，这些技术利用来自先前重建的图像或其一部分(即参考图像)的采样数据块，在对其进行运动矢量(后文称为MV)所指示的方向上的空间移位之后)，用于预测新重建的图像或图像部分。在一些情况下，参考图像可以与当前正在重建的图像相同。MV可以有两个维度X和Y，或三个维度，第三个是所使用的参考图像的指示(后者，间接地，可以是一个时间维度)。

目前，空间变化变换(spatially varying transform，SVT)试图将运动补偿残差分割为不同区域，即残差较小的区域和残差较大的区域。在JVET-K0139中提出的SVT中，仅定位和编码残差较大的一个区域。其它残差较小的区域被丢弃并且其残差被强制设为0。然而，JVET-K0139中提出的区域分割模式是有限的，这导致实际应用中的效率较低。

发明内容

本申请实施例提供了一种视频解码的方法、装置计算机设备及计算机可读存储介质。在一些实施例中，该装置对编码视频比特流中的图像的块所关联的编码信息进行解码。该编码信息指示子区域在该块中的位置，并且该子区域的面积是该块面积的1/4。该装置进一步利用该块在该子区域内的第一采样的残差数据重构所述第一采样，并且在不采用残差数据的情况下重构该块中的位于该子区域外的第二采样。

一个实施例中，该装置进一步通过对该子区域内的所述第一采样的变换系数进行反变换以确定该子区域内所述第一采样的残差数据，其中所述变换系数接收自该编码视频比特流。

在一些实施例中，该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/4，该子区域的高度等于该块的高度，且该子区域邻接于以下其中之一：该块的左边缘、该块的右边缘。

在一些实施例中，该块和该子区域呈矩形，该子区域的宽度等于该块的宽度，该子区域的高度为该块高度的1/4，并且该子区域邻接于以下其中之一：该块的上边缘、该块的下边缘。

在一些实施例中，该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/2，该子区域的高度为该块高度的1/2，并且该子区域位于以下其中之一：该块的中心、左上角、右上角、左下角，以及右下角。

在一些实施例中，利用帧间预测对该块进行编码，且所述第一采样和所述第二采样具有相同的运动预测信息。

在一些例子中，在该编码视频比特流中标示指示该子区域位置的编码信息。

在一些实施例中，该编码信息进一步指示附加子区域在该块的至少一个相邻块的每一个相邻块中的位置。合并子区域位于包括该块和该至少一个相邻块的合并块的中心，包括该子区域至少一个相邻块中每一个相邻块中的附加子区域。该合并子区域和该合并块呈矩形，其中该合并子区域的宽度与该合并块的宽度之比等于第一比率，并且该合并子区域的高度与该合并块的高度之比等于第二比率。该装置对该合并子区域内的第一采样和第三采样的变换系数执行反变换，以确定该合并子区域内的所述第一采样和所述第三采样的残差数据。所述第一采样的所述变换系数和所述第三采样的所述变换系数在该编码视频比特流中，并且所述第三采样位于该至少一个相邻块中每一个相邻块的附加子区域内。该装置进一步利用所述第三采样的残差数据重建所述第三采样，并且在不使用残差数据的情况下重建该至少一个相邻块中位于附加子区域外的第四采样。在一些例子中，利用帧间预测对该块和该至少一个相邻块进行编码，并且该块中的所述第一采样和所述第二采样的运动预测信息与至少一个相邻块中的第三采样和第四采样的运动预测信息不同。

一些例子中，至少一个相邻块的数量为以下其中之一：一个和三个。当至少一个相邻块的数量为一个时，该至少一个相邻块位于以下其中之一：该块的右侧、该块的下方。当该至少一个相邻块的数量为三个时，该块位于该合并块的左上角。

一些例子中，第一比率和第二比率是1/2。

本申请实施例提供了一种视频编码方法，包括：

将待编码视频中图像的块根据其中采样的残差的大小划分为第一子区域和第二子区域，其中，所述第一子区域中的第一采样的残差大于所述第二子区域中第二采用的残差，所述第一子区域的面积是所述块的面积的1/4；

对所述待编码视频数据进行编码以生成编码视频比特流；

在所述编码视频比特流中标示所述第一子区域在所述块中的位置。

本申请实施例还提供了一种计算机设备，包括处理器和存储器，存储器中存储有计算机可读指令，可由所述处理器执行，以实现任一实施例的方法。

本申请实施例还提供了一种非暂存计算机可读存储介质，存储有程序，该程序可由至少一个处理器执行，以实现任一实施例的方法。

本申请实施例中，可以采用各种方式将编码单元(CU)分割为具有相对较大的残差的第一采样的第一子区域(即残差较大的子区域)以及具有相对较小残差的第二采样的第二子区域(即残差较小的子区域)，从而提高编解码的效率。

附图简要说明

根据以下详细描述和附图，本申请主题的其它特征、性质和各种优点将变得更加明显，在附图中：

图1是一个例子中的当前块及其周围的空间合并候选者的示意图。

图2是一个实施例的通信系统的简化框图的示意图。

图3是另一个实施例的通信系统的简化框图的示意图。

图4是一个实施例的解码器的简化框图的示意图。

图5是一个实施例的编码器的简化框图的示意图。

图6是另一实施例的编码器的框图。

图7是另一实施例的解码器的框图。

图8示出一个实施例的吉文斯(Givens)旋转。

图9是一个实施例的16个元素NSST的超立方-吉文斯变换(Hypercube-GivensTransform，HyGT)的流程图。

图10是一个实施例的HyGT的轮次和可选的排列通路。

图11是本申请一些实施例的空间变化变换(spatially varying transform，SVT)模式的例子。

图12是本申请另一些实施例的SVT模式的例子。

图13是本申请又一些实施例的SVT模式的例子。

图14是本申请一些实施例的合并子区域关联的SVT模式的例子。

图15是本申请实施例的过程的概要流程图。

图16是本申请实施例的计算机系统的示意图。

具体实施方式

在一些视频压缩技术中，用于采样数据的某个区域的MV可以从其它MV预测得到，例如，从与该重建中的区域在空间上相邻的另一采样数据区域相关的、并且解码顺序在该MV之前的那些MV。这样做可以大大减少编码MV所需的数据量，从而消除冗余并加大压缩。例如，MV预测可以有效地工作，因为当对从相机导出的输入视频信号(称为自然视频)进行编码时，存在一种统计可能性，即比单个MV可适用的区域更大的区域在相似的方向上移动，并因此，在某些情况下，可以使用从相邻区域的MV推导出的类似运动矢量进行预测。这导致为给定区域找到的MV与从周围的MV预测出的MV相似或相同，并且进而在熵编码之后，可以用比对其直接编码时使用的比特数更少的比特来表示。在一些情况下，MV预测可以是对源自原始信号(即：采样流)的信号(即：MV)的无损压缩的示例。在其它情况下，MV预测本身可能是有损的，例如在从一些周围的MV计算预测因子时产生的舍入误差导致的损失。

在H.265/HEVC(ITU-T H.265建议书，高效视频编码摂，2016年12月)中描述了各种MV预测机制。在H.265提供的许多MV预测机制中，这里描述的是一种后文称为空间合并的技术。

请参考图1，当前块(101)包括在运动搜索过程期间已由编码器发现的样本，根据已产生空间偏移的相同大小的先前块，可预测所述样本。另外，可从一个或多个参考图片相关联的元数据中导出所述MV，而非对MV直接编码。例如，使用A0、A1和B0、B1、B2(分别对应102到106)五个周围采样中的任一采样相关联的MV，(按解码次序)从最近的参考图片的元数据中获得所述MV。在H.265中，MV预测可使用来自相邻块所使用的同一参考图像的预测因子。

图2是本申请实施例的通信系统(200)的简化框图。通信系统(200)包括多个终端装置，所述终端装置可通过例如网络(250)彼此通信。举例来说，通信系统(200)包括通过网络(250)互连的终端设备(210)和终端设备(220)。在图2的实施例中，终端设备(210)和终端设备(220)执行单向数据传输。举例来说，终端设备(210)可对视频数据(例如由终端设备(210)采集的视频图像流)进行编码以通过网络(250)传输到另一终端设备(220)。已编码的视频数据以一个或多个编码视频码流的形式传输。终端设备(220)可从网络(250)接收编码视频数据，对编码视频数据进行解码以恢复视频数据，并根据恢复的视频数据显示视频图像。单向数据传输常用于媒体服务应用等。

在另一实施例中，通信系统(200)包括执行编码视频数据的双向传输的终端设备(230)和(240)，所述双向传输可在，例如，视频会议期间，发生。对于双向数据传输，终端设备(230)和终端设备(240)中的每个终端设备可对视频数据(例如由终端设备采集的视频图像流)进行编码以通过网络(250)传输到终端设备(230)和终端设备(240)中的另一终端设备。终端设备(230)和终端设备(240)中的每个终端设备还可接收由终端设备(230)和终端设备(240)中的另一终端设备传输的已编码视频数据，且可对所述已编码视频数据进行解码以恢复视频数据，且可根据恢复的视频数据在可访问的显示装置上显示视频图像。

在图2的实施例中，终端设备(210)、终端设备(220)、终端设备(230)和终端设备(240)可为服务器、个人计算机和智能电话，但本申请公开的原理可不限于此。本申请实施例适用于笔记本电脑、平板电脑、媒体播放器和/或专用视频会议设备。网络(250)表示在终端设备(210)、终端设备(220)、终端设备(230)和终端设备(240)之间传送已编码视频数据的任何数目的网络，包括例如有线(连线的)和/或无线通信网络。通信网络(250)可在电路交换和/或包交换的信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。为本文讨论的目的，除非有明确说明，网络(250)的体系结构和拓扑与本申请的操作无关。

作为实施例，图3示出视频编码器和视频解码器在流媒体环境中的部署方式。本申请所公开主题可同等地适用于其它支持视频的应用，包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。

流媒体系统可包括采集子系统(313)，所述采集子系统可包括数码相机等视频源(301)，所述视频源创建未压缩的视频图像流(302)。在实施例中，视频图像流(302)包括由数码相机拍摄的采样。视频图像流(302)(用粗线表示，以强调比已编码的视频数据(304)(或已编码的视频码流)的数据量大)可由电子设备(320)处理，所述电子设备(320)包括耦接到视频源(301)的视频编码器(303)。视频编码器(303)可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的本申请主题的各实施例。已编码的视频数据(304)(或已编码的视频码流(304))(用细线表示，以强调比视频图像流(302)的数据量小)可存储在流媒体服务器(305)上以供后续使用。一个或多个流媒体客户端子系统(例如图3中的客户端子系统(306)和客户端子系统(308))可访问流媒体服务器(305)以获取已编码的视频数据(304)的副本(307)和副本(309)。客户端子系统(306)可包括，例如，电子设备(330)中的视频解码器(310)。视频解码器(310)对已编码的视频数据的传入副本(307)进行解码，并创建可在显示器(312)(例如显示屏)或其它呈现设备(未示出)上呈现的传出视频图像流(311)。在一些流媒体系统中，可根据一些视频编码/压缩标准对已编码的视频数据(304)、(307)和(309)(例如视频码流)进行编码。这些标准的例子包括ITU-T建议H.265。一个例子中，一种正在开发的视频编码标准被俗称为多功能视频编码(Versatile Video Coding，VVC)。本申请的主题可以在VVC环境中使用。

应注意，电子设备(320)和(330)可包括其它组件(未示出)。例如，电子设备(320)可包括视频解码器(未示出)，且电子设备(330)还可包括视频编码器(未示出)。

图4是本申请实施例的视频解码器(410)的框图。视频解码器(410)可设置在电子设备(430)中。电子设备(430)可包括接收器(431)(例如接收电路)。视频解码器(410)可用于代替图3实施例中的视频解码器(310)。

接收器(431)可接收要由视频解码器(410)解码的一个或多个编码视频序列；在同一实施例或另一实施例中，一次接收一个编码视频序列，其中每个编码视频序列的解码独立于其它编码视频序列。可从信道(401)接收编码视频序列，该信道(412)可以是通向存储已编码视频数据的存储装置的硬件/软件链路。接收器(431)可以接收已编码视频数据和其它数据，其它数据例如编码音频数据和/或辅助数据流，它们可以被转发到它们各自的使用实体(未示出)。接收器(431)可以将编码视频序列与其它数据分离。为了防止网络抖动，缓冲存储器(415)可耦接在接收器(431)与熵解码器/解析器(420)(此后称为“解析器(420))之间。”在某些应用中，缓冲存储器(415)是视频解码器(410)的一部分。在其它情况下，所述缓冲存储器(415)可设置在视频解码器(410)外部(未示出)。而在其它情况下，可在视频解码器(410)的外部设置缓冲存储器(未标示)(例如，用于防止网络抖动)，并在视频解码器(410)的内部配置另一缓冲存储器(415)(例如，用于处理播出定时)。而当接收器(431)从具有足够带宽和可控性的存储/转发设备，或从等时同步网络接收数据时，也可能不需要使用缓冲存储器(415)，或可以使用小型缓冲存储器。为了在例如互联网等尽力而为式的分组网络上使用，可能需要使用缓冲存储器(415)，缓冲存储器可相对较大并且最好是具有自适应的大小，且可至少部分地由操作系统或视频解码器(410)外部的类似元件(未标示)实现。

视频解码器(410)可包括解析器(420)以根据编码视频序列重建符号(421)。这些符号的类别包括用于管理解码器(410)操作的信息，还可能包括用于控制诸如显示器的呈现设备(412)的信息，该呈现设备不是解码器的组成部分，但是可以耦合到解码器，如图4所示。用于呈现设备的控制信息可以是补充增强信息(SEI消息)或视频可用性信息(VUI)参数集片段(未示出)的形式。解析器(420)可对接收到的编码视频序列进行解析/熵解码。编码视频序列的编码可根据视频编码技术或标准进行，且可遵循各种原理，包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等。解析器(420)可基于对应于群组的至少一个参数，从编码视频序列提取用于视频解码器中的像素的子组中的至少一个子组的子组参数集。子组可以包括图像组(GOP)、图像、图块(tile)、分片(slice)、宏块(macroblock)、编码单元(CU)、块、转换单元(TU)、预测单元(PU)等。解析器(420)还可以从编码视频序列中提取出如变换系数、量化器参数值、运动矢量等信息。

解析器(420)可对从缓冲存储器(415)接收的视频序列执行熵解码/解析操作，从而创建符号(421)。

符号(421)的重构可以包括多个不同的单元，这取决于编码视频图像或其部分的类型(例如：帧间和帧内图像，帧间和帧内块)以及其它因素。涉及哪些单元以及涉及方式可由解析器(420)从编码视频序列解析的子组控制信息控制。为了清楚起见，下面没有描述解析器(420)和多个单元之间的这种子组控制信息流。

除已经提及的功能块以外，视频解码器(410)可在概念上细分成如下文所描述的数个功能单元。在商业受限下操作的实际具体实施中，这些单元中的许多彼此紧密地交互，并且可以至少部分地彼此集成。然而，为了描述本申请的主题，以下对功能单元从概念上的划分是合适的。

第一单元是定标器/逆转换单元(451)。定标器/逆变换单元(451)从解析器(420)接收符号(421)形式的量化变换系数以及控制信息，包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(451)可输出包括样本值的块，所述样本值可输入到聚合器(455)中。

在一些情况下，定标器/逆转换单元(451)的输出采样可以属于帧内编码块；即：不使用来自先前重建图像的预测信息，但是可以使用来自当前图像的先前重建部分的预测信息的块。这种预测信息可以由帧内图像预测单元(452)提供。在一些情况下，帧内图片预测单元(452)使用从当前图像缓冲器(458)提取的周围已重建信息生成与正在重建的块的大小和形状相同的块。举例来说，当前图片缓冲器(458)缓冲部分重建的当前图像和/或完全重建的当前图像。在一些情况下，聚合器(455)在每个采样的基础上将帧内预测单元(452)已经生成的预测信息添加到由定标器/逆转换单元(451)提供的输出样本信息。

在其它情况下，定标器/逆转换单元(451)的输出采样可属于经帧间编码且可能经运动补偿的块。在此情况下，运动补偿预测单元(453)可访问参考图片存储器(457)以提取用于预测的采样。在根据符号(421)对提取的样本进行运动补偿之后，这些样本可由聚合器(455)添加到定标器/逆变换单元(451)的输出(在这种情况下被称作残差采样或残差信号)，从而生成输出采样信息。运动补偿预测单元(453)获取的预测采样在参考图像存储器(457)内的地址可受运动矢量控制，运动补偿预测单元(453)可以得到具有符号(421)形式的该运动矢量，所述符号(421)可以具有，例如，X、Y和参考图像分量。当使用子采样的精确运动矢量时，矢量运动补偿还可包括对从参考图像存储器(457)获取的采样值进行插值、运动矢量预测机制等。

聚合器(455)的输出采样可以在回路滤波器单元(456)中经各种回路滤波技术处理。视频压缩技术可包括环路内滤波器技术，所述环路内滤波器技术由编码视频序列(也称作已编码视频码流)中的参数控制，环路滤波器单元(456)可得到来自解析器(420)的符号(421)形式的所述参数。然而，在其他实施例中，视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获得的元信息，以及响应于先前重建且经过环路滤波的采样值。

回路滤波器单元(456)的输出可以是可输出到呈现设备(412)也可存储在参考图像存储器(457)中的采样流，以用于将来的图像间预测。

一旦被完全重建，一些编码图像可在后续预测中用作参考图像。例如，一旦当前图像对应的已编码图像被完全重建，且已编码图像(通过例如解析器(420))被识别为参考图片，则当前图像缓冲器(458)可成为参考图像存储器(457)的一部分，且可在开始重建后续已编码图像之前重新分配新的当前图像缓冲器。

视频解码器(410)可根据例如ITU-T H.265标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上，已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。具体地说，配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在所述配置文件下可供使用的仅有工具。并且，为遵循一些视频压缩技术或标准，编码视频序列的复杂度可在视频压缩技术或标准的等级所限定的界限之内。在一些情况下，各等级对最大图像尺寸、最大帧率、最大重建采样率(例如以每秒兆次采样来衡量)、最大参考图像尺寸等进行了限制。在一些情况下，等级设置的限制可进一步通过假设参考解码器(Hypothetical Reference Decoder，HRD)规范和编码视频序列中指示的HRD缓存管理的元数据来限定。

在一个实施例中，接收器(431)可连同已编码视频一起接收附加(冗余)数据。附加数据可以是编码视频序列的一部分。附加数据可由视频解码器(410)用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signalnoise ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图5是根据本申请公开的实施例的视频编码器(503)的框图。视频编码器(503)设置于电子设备(520)中。电子设备(520)包括传输器(540)(例如传输电路)。视频编码器(503)可用于代替图3实施例中的视频编码器(303)。

视频编码器(503)可从视频源(501)(并非图5实施例中的电子设备(520)的一部分)接收视频样本，所述视频源可采集将由视频编码器(503)编码的视频图像。在另一实施例中，视频源(501)是电子设备(520)的一部分。

视频源(501)可提供将由视频编码器(503)编码的呈数字视频采样流形式的源视频序列，所述数字视频样本流可具有任何合适的位深度(例如：8位、10位、12位……)、任何色彩空间(例如BT.601 Y CrCB、RGB……)和任何合适的采样结构(例如Y CrCb 4:2:0、YCrCb 4:4:4)。在媒体服务系统中，视频源(501)可以是存储先前已准备好的视频的存储设备。在视频会议系统中，视频源(501)可以是采集本地图像信息作为视频序列的相机。可提供多个单独的图像作为视频数据，当按顺序观看时，这些图像呈现出运动效果。图像自身可构建为空间像素阵列，其中，根据所用的采样结构、色彩空间等，每个像素可包括一个或多个采样。本领域技术人员可以很容易理解像素和采样之间的关系。下文侧重于描述采样。

根据实施例，视频编码器(503)可实时或在应用要求的任何其它时间限制下，对源视频序列的图像进行编码及压缩以形成编码视频序列(543)。控制器(550)的一个功能是施行适当的编码速度。在一些实施例中，控制器(550)控制如下文所描述的其它功能单元且在功能上耦接到这些单元。为清楚起见，图中未标示耦接。由控制器(550)设置的参数可包括速率控制相关参数(图像跳过、量化器、率失真优化技术的λ值等)、图像尺寸、图像组(GOP)布局、最大运动矢量搜索范围等。控制器(550)可具有其它合适的功能，这些功能属于为某一系统设计优化的视频编码器(503)。

在一些实施例中，视频编码器(503)在编码环路中进行操作。作为简单的描述，在实施例中，编码环路可包括源编码器(530)(例如，负责基于待编码的输入图像和参考图像创建符号，例如符号流)和嵌入视频编码器(503)中的(本地)解码器(533)。解码器(533)重建符号以创建(远程)解码器也会创建的采样数据(因为在本申请主题中所考虑的视频压缩技术中，符号与编码视频码流之间的任何压缩是无损的)。将重建的采样流(采样数据)输入到参考图片存储器(534)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果，因此参考图片存储器(534)中的内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说，编码器的预测部分看到摂的参考图片采样与解码器在解码期间使用预测时所看到摂的采样值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)也用于一些相关技术。

“本地”解码器(533)的操作可以与上面已经结合图4详细描述的“远程”解码器(410)的操作相同。然而，还是简要地参考图4，由于符号可用，并且由熵编码器(545)和解析器(420)对编码视频序列的符号的解码可以是无损的，所以解码器(310)的熵解码部分，包括信道(412)、接收器(410)、缓冲器(415)和解析器(420)，可能不能完全在本地解码器(533)中实现。

此时可以观察到，除存在于解码器中的解析/熵解码之外的任何解码器技术，也必定以基本上相同的功能形式存在于对应的编码器中。因此，本申请的主题侧重于解码器操作。可简化编码器技术的描述，因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述，并且在下文提供。仅在一些区域中需要更详细的描述，如下文所述。

参考来自视频序列中被指定为参考图像的一个或多个先前已编码图像，所述运动补偿预测编码对输入图像进行预测性编码。以此方式，编码引擎(532)对输入图像的像素块与可被选为所述输入图像的预测参考的参考图像的像素块之间的差异进行编码。

本地视频解码器(533)可基于源编码器(530)创建的符号，对可指定为参考图像的图像的已编码视频数据进行解码。较佳地，编码引擎(532)的操作可以是有损过程。当已编码视频数据可在视频解码器(图5中未示)处被解码时，重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(533)复制解码过程，所述解码过程可由视频解码器对参考图像执行，且可将重建的参考图像存储在参考图像缓存(534)中。以此方式，视频编码器(503)可在本地存储重建的参考图片的副本，所述副本与将由远端视频解码器获得的重建参考图片具有共同内容(不存在传输误差)。

预测器(535)可针对编码引擎(532)执行预测搜索。即，对于将要编码的新图像，预测器(535)可在参考图像存储器(534)中搜索可作为所述新图像的合适的预测参考的采样数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器(535)可对采样块逐像素块进行处理，以找到合适的预测参考。在一些情况下，根据预测器(535)获得的搜索结果，输入图像可具有从存储于参考图像存储器(534)中存储的多个参考图像取得的预测参考。

控制器(550)可管理源编码器(530)的编码操作，包括例如设置用于对视频数据进行编码的参数和子组参数。

可在熵编码器(545)中对所有上述功能单元的输出进行熵编码。熵编码器(545)根据例如霍夫曼编码、可变长度编码、算术编码等技术对各种功能单元生成的符号进行无损压缩，从而将所述符号转换成编码视频序列。

传输器(540)可缓冲由熵编码器(545)创建的编码视频序列，从而为通过通信信道(560)进行传输做准备，所述通信信道可以是通向将存储已编码的视频数据的存储装置的硬件/软件链路。传输器(540)可将来自视频编码器(503)的编码视频数据与将要传输的其它数据合并，其它数据可以是，例如，编码音频数据和/或辅助数据流(未示出来源)。

控制器(550)可管理视频编码器(503)的操作。在编码期间，控制器(550)可以为每个编码图像分配编码图像类型，该编码图像类型能够影响可应用于相应图像的编码技术。例如，通常可以将图像指定为以下图像类型之一：

帧内图像(I图像)可以是不需要利用序列中其它任何图像作为预测源进行编码和解码的图像。一些视频编解码器容许不同类型的帧内图像，包括例如独立解码器刷新(Independent Decoder Refresh，IDR)图像。本领域技术人员知晓I图像的变型及其相应应用和特征。

预测图像(P图像)可以是可以使用帧内预测或帧间预测来编码和解码的图像，帧内预测或帧间预测使用至多一个运动向量和参考索引来预测每个块的采样值。

双向预测图像(B图像)可以是可以使用帧内预测或帧间预测来编码和解码的图像，帧内预测或帧间预测使用至多两个运动向量和参考索引来预测每个块的采样值。类似地，多个预测性图像可使用多于两个参考图像和相关元数据以重建单个块。

源图像通常可在空间上细分为多个采样块(例如，4×4、8×8、4×8或16×16个采样的块)并逐块进行编码。这些块可参考其它(已编码)块进行预测编码，其它块可以根据应用于块的相应图像的编码任务来确定。。例如，I图像的块可进行非预测编码，或可参考同一图像的已编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可参考一个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。B图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。

视频编码器(503)可根据例如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器(503)可执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，编码视频数据可符合所使用的视频编码技术或标准指定的语法。

在实施例中，传输器(540)可传输附加数据和已编码的视频。源编码器(530)可将此类数据作为编码视频序列的一部分。附加数据可包括时间/空间/SNR增强层、冗余图像和切片等其它形式的冗余数据、补充增强信息(Enhancement Information，SEI)消息、可视可用性信息(Visual Usability Information，VUI)参数集片段等。

采集到的视频可作为呈时间序列的多个源图像(视频图像)。帧内图像预测(常简称为帧内预测)利用给定图片中的空间相关性，而帧间图像预测则利用图像之间的(时间或其它)相关性。在实施例中，将正在编码/解码的特定图像(称作当前图像)分割成块。在当前图像中的块类似于视频中先前已编码且仍被缓冲的参考图像中的参考块时，可利用被称为运动矢量的矢量对当前图像中的块进行编码。所述运动矢量指向参考图像中的参考块、且使用多个参考图像的情况下，所述运动矢量可具有用于识别参考图像的第三维度。

在一些实施例中，双向预测技术可用于帧间图像预测。根据双向预测技术，使用两个参考图像，例如第一参考图像和第二参考图像，按解码次序它们都在视频中的当前图像之前(但按显示次序可能分别是过去和将来)。可通过指向第一参考图像中的第一参考块的第一运动矢量和指向第二参考图像中的第二参考块的第二运动矢量对当前图像中的块进行编码。可通过第一参考块和第二参考块的组合来预测所述块。

此外，合并模式技术可用于帧间图像预测中以改善编码效率。

根据本申请的一些实施例，帧间图像预测和帧内图像预测等预测的执行以块为单位。举例来说，根据HEVC标准，将视频图像序列中的图像分割成编码树单元(coding treeunit，CTU)以用于压缩，图片中的CTU具有相同大小，例如64×64像素、32×32像素或16×16像素。一般来说，CTU包括三个编码树块(coding tree block，CTB)，所述三个编码树块是一个亮度CTB和两个色度CTB。更进一步的，还可将每个CTU以四叉树拆分为一个或多个编码单元(coding unit，CU)。例如，可将64×64像素的CTU拆分为一个64×64像素的CU，或4个32×32像素的CU，或16个16×16像素的CU。在实施例中，分析每个CU以确定用于CU的预测类型，例如帧间预测类型或帧内预测类型。此外，取决于时间和/或空间可预测性，将CU拆分为一个或多个预测单元(prediction unit，PU)。通常，每个PU包括亮度预测块(predictionblock，PB)和两个色度PB。在实施例中，编码(编码/解码)中的预测操作以预测块为单位来执行。以亮度预测块作为预测块为例，预测块包括像素值(例如，亮度值)的矩阵，例如8×8像素、16×16像素、8×16像素、16×8像素等等。

图6是根据本申请另一实施例的视频编码器(603)的示意图。视频编码器(603)用于接收视频图像序列中的当前视频图像内的采样值的处理块(例如预测块)，且将所述处理块编码到的已编码图像中，已编码图像是编码视频序列的一部分。在本实施例中，视频编码器(603)用于代替图3实施例中的视频编码器(303)。

在HEVC实施例中，视频编码器(603)接收处理块的采样值的矩阵，所述处理块为，例如，8×8采样的预测块等。视频编码器(603)使用，例如，率失真(rate-distortion，RD)优化来确定处理块的编码采用帧内模式、帧间模式还是双向预测模式更好。当采用帧内模式对处理块编码时，视频编码器(603)可使用帧内预测技术将处理块编码到已编码图像中；且当采用帧间模式或双向预测模式对处理块进行编码时，视频编码器(603)可分别使用帧间预测或双向预测技术将处理块编码到已编码图像中。在某些视频编码技术中，合并模式可以是帧间图像预测子模式，其中，在不借助预测因子外部的已编码运动矢量分量的情况下，从一个或多个运动矢量预测因子导出运动矢量。在一些其它视频编码技术中，可存在适用于主题块的运动矢量分量。在实施例中，视频编码器(603)包括其它组件，例如用于确定处理块的模式的模式决策模块(未示出)。

在图6的实施例中，视频编码器(603)包括如图6所示的耦接到一起的帧间编码器(630)、帧内编码器(622)、残差计算器(623)、开关(626)、残差编码器(624)、通用控制器(621)和熵编码器(625)。

帧间编码器(630)用于接收当前块(例如处理块)的采样、比较所述块与参考图像中的一个或多个参考块(例如先前图像和后续图像中的块)、生成帧间预测信息(例如帧间编码技术的冗余信息的描述、运动矢量、合并模式信息)、以及基于帧间预测信息使用任何合适的技术计算帧间预测结果(例如已预测块)。在一些实施例中，参考图片是基于已编码的视频信息解码的已解码参考图片。

帧内编码器(622)用于接收当前块(例如处理块)的采样，在一些情况下将所述块与同一图像中已编码的块进行比较，在变换之后生成量化系数，以及在一些情况下还生成帧内预测信息(例如，根据一个或多个帧内编码技术生成帧内预测方向信息)。在实施例中，帧内编码器(622)还基于帧内预测信息和同一图像中的参考块计算帧内预测结果(例如已预测块)。

通用控制器(621)用于确定通用控制数据，并基于所述通用控制数据控制视频编码器(603)的其它组件。在实施例中，通用控制器(621)确定块的模式，并基于所述模式将控制信号提供给开关(626)。例如，当所述模式是帧内模式时，通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧内模式结果，控制熵编码器(625)选择帧内预测信息并将所述帧内预测信息添加在码流中；以及，当所述模式是帧间模式时，通用控制器(621)控制开关(626)以选择供残差计算器(623)使用的帧间预测结果，控制熵编码器(625)选择帧间预测信息并将所述帧间预测信息添加在码流中。

残差计算器(623)用于计算所接收的块与选自帧内编码器(622)或帧间编码器(630)的预测结果之间的差(残差数据)。残差编码器(624)用于基于残差数据操作，以对残差数据进行编码以生成变换系数。在实施例中，残差编码器(624)用于将残差数据从时域转换到频域，且生成变换系数。变换系数接着经量化处理获得量化的变换系数。在各实施例中，视频编码器(603)还包括残差解码器(628)。残差解码器(628)用于执行逆变换，并生成已解码残差数据。已解码残差数据适合由帧内编码器(622)和帧间编码器(630)使用。例如，帧间编码器(630)可基于已解码残差数据和帧间预测信息生成已解码块，且帧内编码器(622)可基于已解码残差数据和帧内预测信息生成已解码块。适当处理已解码块以生成已解码图像，在一些实施例中，所述已解码图像可在存储器电路(未示出)中缓存并用作参考图像。

熵编码器(625)用于将码流格式化以产生已编码的块。熵编码器(625)根据HEVC标准等合适的标准产生各种信息。在实施例中，熵编码器(625)用于将通用控制数据、所选预测信息(例如帧内预测信息或帧间预测信息)、残差信息和其它合适的信息加入码流中。应注意，根据本申请的主题，当在帧间模式或双向预测模式的合并子模式中对块进行编码时，不存在残差信息。

图7是本申请另一实施例的视频解码器(710)的示意图。视频解码器(710)用于接收作为编码视频序列的一部分的编码图像，且对所述编码图像进行解码以生成重建的图像。在实施例中，视频解码器(710)用于代替图3实施例中的视频解码器(310)。

在图7的实施例中，视频解码器(710)包括如图7中所示耦接到一起的熵解码器(771)、帧间解码器(780)、残差解码器(773)、重建模块(774)和帧内解码器(772)。

熵解码器(771)可用于根据编码图像来重建一些符号，这些符号表示构成所述编码图像的语法元素。此类符号可包括，例如，用于对所述块进行编码的模式(例如帧内模式、帧间模式、双向预测模式、后两者的合并子模式或另一子模式)、可分别识别帧内解码器(772)或帧间解码器(780)进行预测所使用的一些采样或元数据的预测信息(例如帧内预测信息或帧间预测信息)、呈例如量化的变换系数形式的残差信息等。在实施例中，当预测模式是帧间或双向预测模式时，将帧间预测信息提供给帧间解码器(780)；以及，当预测类型是帧内预测类型时，将帧内预测信息提供给帧内解码器(772)。残差信息可经逆量化并提供给残差解码器(773)。

帧间解码器(780)用于接收帧间预测信息，并基于所述帧间预测信息生成帧间预测结果。

帧内解码器(772)用于接收帧内预测信息，并基于所述帧内预测信息生成预测结果。

残差解码器(773)用于执行逆量化以提取解量化的变换系数，并对所述解量化的变换系数进行处理，从而将残差从频域转换到空间域。残差解码器(773)还可能需要某些控制信息(用以获得量化器参数QP)，且所述信息可由熵解码器(771)提供(未标示数据路径，因为这仅仅是低量控制信息)。

重建模块(774)用于在空间域中将残差解码器(773)输出的残差与预测结果(可由帧间预测模块或帧内预测模块输出)进行合并以形成重建的块，所述重建的块可以是重建的图像的一部分，所述重建的图像可以是重建的视频的一部分。应注意，可执行解块操作等其它合适的操作来改善视觉质量。

应注意，可使用任何合适的技术来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在实施例中，可使用一个或多个集成电路来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。在另一实施例中，可使用执行软件指令的一个或多个处理器来实施视频编码器(303)、视频编码器(503)和视频编码器(603)以及视频解码器(310)、视频解码器(410)和视频解码器(710)。

图像可被划分为多个CTU。一些例子中，利用表示为编码树的四叉树(QT)结构将CTU划分为CU，以适应图像的各种局部特性。是否利用图像间预测(也称为时间预测或帧间预测类型)、图像内预测(也称为空间预测或帧内预测类型)等对图像区域进行编码，均在CU级别决定。一个实施例中，每个CU可以根据PU分割类型进一步分割成一个、两个或四个预测单元(PU)。在一个PU内，应用相同的预测过程，并以每个PU为基础将相同的预测信息发送到解码器。通过应用基于PU划分类型的预测过程获得残差数据或残差信息之后，可根据类似于CU的编码树的另一QT结构将CU划分为TU。在一个例子中，对每个TU执行变换，TU具有相同的变换信息。HEVC结构具有多个划分单元，包括CU、PU和TU。CU中的采样可具有相同的预测类型，PU中的采样可具有相同的预测信息，而TU中的采样可具有相同的变换信息。根据一个实施例的帧间预测块，CU或TU限定为正方形，而PU可呈正方形或矩形。一个实施例中，进一步地，矩形的PU可用于帧内预测。在一个实施例中，如在VVC标准中，每个CU仅包括一个PU，而CU(或PU)和TU可呈矩形。

隐式QT划分可应用于位于图像边界的CTU，以将CTU递归地划分为多个CU，以使每个CU位于图像边界内。

总体上，一些实施例中，预测可采用帧间预测、帧内预测、和/或类似方式。帧内预测可具有67个帧内预测模式(或帧内模式)，包括DC模式、平面模式和分别对应65个角度方向的65个角度模式(也称为有向帧内预测模式或有向帧内模式)。为支持65个有向帧内模式，可使用具有6个最可能模式(Most Probable Mod，MPM)的帧内模式编码方法。帧内模式编码方法可包括6个MPM的派生和6个MPM的熵编码，以及61个非MPM模式。

MPM列表可包括6个MPM中的模式。MPM列表中的模式可被分类为三个组：第一组包括邻近帧内预测模式(也称为邻近帧内模式)，第二组包括派生帧内模式，第三组包括默认帧内模式。一个例子中，来自第一组的五个邻近帧内预测模式用于形成MPM列表。当MPM列表未满时(即MPM列表中的MPM候选者少于6个)，可加入第二组的一个或多个派生帧内模式。一个或多个派生帧内模式可通过在MPM列表中的一个或多个角度模式上加-1或+1获得。一个例子中，一个或多个派生模式不利用非角度模式生成，非角度模式包括DC模式和平面模式。进一步地，当MPM列表仍未满时，可按如下顺序加入来自第三组的一个或多个默认帧间模式：垂直帧内模式、水平帧内模式、帧内模式2和对角帧内模式。相应地，生成了具有6个MPM模式的MPM的列表。

可以按照如下方式对61个非MPM模式进行编码。61个非MPM模式可被划分为两个集合：已选择模式集合(称为次要MPM)和未选择模式集合。已选择模式集合包括61个非MPM模式中的16个，未选择模式集合包括61个非MPM模式中的剩余45个。一个例子中，比特流中的标记可用于表示当前帧内模式所属的模式集合(即已选择模式集合或未选择模式集合)。在当前帧内模式属于已选择模式集合时，当前模式以4位固定长度代码标示；而在当前帧内模式处于未选择模式集合时，当前帧内模式以截断的二进制代码标示。

总体上，帧间和帧内编码块均使用残差编码。例如，块的预测误差或残差在预测之后可变换为变换系数，然后被编码。一个例子中，如在HEVC标准中，类型II的离散余弦变换(discrete cosine transform，DCT)(即DCT-II)的核和类型VII的4×4离散正弦变换(discrete sine transform，DST)(即DST-VII)的核可应用于变换，如编码器侧的前向核变换和解码器侧的反向核变换。除DCT-II和4×4DST-VII外，自适应多核变换(AdaptiveMultiple core Transform，AMT)或增强多变换(Enhanced Multiple Transform，EMT)方法用于对帧间和帧内编码块的残差编码。在AMT中，可使用来自DCT/DST族的多个被选择的变换，这些变化不包括，例如，HEVC标准中的当前变换。来自DCT/DST族的多个被选择的变换可包括DST-VII、DCT-VIII、DST-I、DCT-V等。表1示出了一些DST/DCT变换的基础函数。

为保持变换矩阵的正交性，变换矩阵可以被更准确地量化为10位表示形式，而非8位表示形式。在水平和/或垂直变换之后，为保持变换系数的中间值处于16位的范围内，(例如，相比使用于HEVC变换的第一垂直反变换之后的7位右移)变换系数可以被额外多右移2位。

一个例子中，AMT用于CU，其宽度和高度均小于或等于64，并且利用CU等级标志来控制是否可以应用AMT。当CU等级标志为0时，CU中使用DCT-II来编码该CU的残差。对于使用AMT的CU内的亮度编码块，标示两个附加标记，以分别标识所要使用的水平变换和垂直变换。块的残差可利用变换跳过模式来编码。为了避免语法编码的冗余，当CU级AMT标志不等于零时，不标示转换跳过标志。

表1：用于N点输入的DCT-II/V/VIII和DST-I/VII的变换基础函数

一个实施例中，对于帧内残差编码，由于不同帧内预测模式的残差统计数据不同，可以使用依赖于模式的候选变换选择过程。三个变换子集可定义为表2所示，基于帧内预测模式来选择变换子集，如表3所示。例如，当CU等级标志为1时表示使用AMT，基于表3利用CU的帧内预测模式来标识变换子集。此外，对于每个水平变换和垂直变换，基于带有一个或多个标志的显式信令和表2，从识别出的变换子集中两个候选变换中选择其一。

表2：三个预定义候选变换集合

表3：为每个帧内预测模式选择水平变换集和垂直变换集

一个实施例中，对于帧间残差编码，一个包括DST-VII和DCT-VIII的变换集合可用于多种帧间预测模式，以及水平变换和垂直变换。

编码器侧的AMT复杂度可相对较高，例如当使用强力搜索时，对每个残差块，均利用率失真代价(rate-distortion cost)评估五个(如表1所示的DCT-II和四个候选多变换)不同的候选变换。为减小编码器侧的AMT复杂度，可设计多种优化方法用于算法加速，例如在JEM标准中。

一个实施例中，依赖于模式的不可分二次变换(NSST)可使用在编码器侧的前向核变换和量化之间，以及解码器侧的反量化和反向核变换之间。例如，为保持低复杂度，NSST在主变换(或核变换)之后应用于低频系数。如果变换系数块的宽度(W)和高度(H)均大于或等于8，则将8×8NSST应用于转换系数块左上方的8×8区域。否则，当变换系数块的宽度W或高度H中任一个为4时，使用4×4NSST，并对变换系数块的左上min(8，W)×min(8，H)区域执行4×4NSST。以上变换选择方法应用于亮度和色度分量。

以4×4输入块为例，对NSST的矩阵乘法实现进行描述。4×4输入块X如公式(1)：

输入块X可表示公式(2)的向量X，其中：

不可分变换按照

计算，其中，

表示变换系数向量，并且T是16×16变换矩阵。随后，利用输入块X的扫描顺序(例如，水平扫描顺序、垂直扫描顺序或对角扫描顺序)，将16×1变换系数向量

重新组织为4×4块。具有更小索引的系数可同更小的扫描索引一起设置在4×4系数块。一些实施例中，可使用具有蝶形实现的超立方吉文斯变换(Hypercube-Givens Transform，HyGT)以代替上述矩阵乘法，从而降低NSST的复杂度。

一个例子中，对于4×4和8×8的块大小，有35×3个可用的不可分二次变换，其中35是帧内预测模式关联的变换集的数目，3是每个帧内预测模式的候选NSST的数目。表4示出了从帧内预测模式映射相应变换集合的例子。根据表4，应用于亮度/色度变换系数的变换集合由对应亮度/色度帧内预测模式指定。对于大于34的帧内预测模式，其对应于对角预测方向，变换系数块分别在编码器/解码器的NSST的之前/之后被转置。

对于每个变换集合，已选择的候选NSST可进一步由显式标示的CU等级的NSST索引来指定。在每个帧内编码CU的比特流中，CU等级NSST索引标示在变换系数之后，并对CU等级的NSST索引进行截断一元二进制化。例如，平面模式或DC模式的截断值为2，角度帧内预测模式的截断值为3。一个例子中，仅当CU中存在多于一个非零系数时，标示CU等级NSST索引。默认值为0而且不被标示，以表示CU没有使用NSST。值为1-3的每个值表示要使用变换集合中的哪个候选NSST。

表4：从帧内预测模式到变换集合索引的映射

一些实施例中，利用变换跳过模式编码的块不使用NSST。当CU的CU等级NSST索引不被标示且不等于零时，CU中利用变换跳过模式编码的块不使用NSST。当CU中所有分量的块均利用变换跳过模式进行编码，或者非变换跳过模式CB的非零系数的数目小于2时，不标示该CU的CU等级NSST索引。

一个例子中，在QTBT用于分割时，NSST和EMT不应用于同一CU，因此在DCT2作为主变换时使用NSST。

NSST的计算中使用HyGT。正交HyGT的基本元素为吉文斯旋转，其由正交矩阵G(m，n，θ)定义如下：

图8是本申请实施例的吉文斯(Givens)旋转的示意图。一个实施例中，通过合并超立方排列的吉文斯旋转的集合来实现HyGT。图9是本申请实施例的16(即4×4)个元素NSST的HyGT的蝶形流程图(910)。一个例子中，HyGT的轮次由log2(N)通路序列(asequence oflog2(N)passes)定义，其中N为2的幂。在每个通路(pass)中，向量m和n的索引由维度为log2(N)的超立方的边缘在每个方向上依次定义。

为了获得良好的压缩效果，使用的HyGT轮的数目多于一个。如图10所示，完整的NSST(1010)可包括R轮HyGT(R为正整数)和可选的排列通路(1020)，以根据相应的差异来对变换系数进行排序。例如，在JEM标准中，2轮HyGT应用于4×4的NSST，4轮HyGT应用于8×8的NSST。

一些实施例中，利用帧间预测来预测CU中的采样，以生成采样的残差数据。然后，通过对CU中采样的残差数据进行变换来确定变换系数。或者，CU可包括子区域(也称为第一子区域)和该子区域外的剩余子区域(也称为第二子区域)。第一子区域中的采样(称为第一采样)的变换系数可通过对第一子区域中的第一采样的残差数据进行变换来确定，并且不对第二子区域中的采样(称为第二采样)执行变换。因此，变换应用于CU的一部分(即第一子区域)，该部分小于CU，因此，该变换称为空间可变变换(spatially varying transform，SVT)。一些实施例中，第二子区域的残差数据相对较小，并可强制设为0。

一些例子中，当根等级的编码块标志表示CU中的采样具有非零变换系数(例如，root_cbf＝1)时，可标示SVT标志(即svt_flag)以指示是否使用SVT。一个例子中，当SVT标志为0时，不使用SVT，并且对CU的采样进行变换。当SVT标志为1时，使用SVT，并且对CU的第一子区域中的第一采样进行变换。第一子区域可称为TU。

一些实施例中，当SVT应用于CU时，SVT类型和/或SVT位置信息可被编码在编码器侧的编码视频比特流中，并从解码器侧的编码视频比特流中解码得到。进一步地，特定SVT模式，即，CU中TU的特定排列，例如TU宽度与CU宽度的宽度比、TU高度与CU高度的高度比、TU相对于CU的位置等，可基于SVT类型和/或SVT位置信息来确定。

图11是本申请实施例的两个SVT类型的SVT模式，每个SVT模式分别具有三个SVT位置。两个SVT类型包括垂直SVT(SVT-V)和水平SVT(SVT-H)。具有不同SVT位置的三个SVT模式(1101)、(1111)和(1121)对应于SVT-V，其中TU宽度等于CU宽度W的1/2(即宽度比是1/2)，TU高度等于CU高度H(即高度比是1)。进一步地，三个TU的位置处于相应CU(1103)、(1113)和(1123)的左上角起的CU宽度W的i/4，其中i分别为0，1和3。三个位置分别表示为垂直位置0，1和2。TU(1102)、(1112)和(1122)分别关联于相应CU(1103)、(1113)和(1123)。

类似地，具有不同SVT位置的三个SVT模式(1131)、(1141)和(1151)对应于SVT-H，其中TU高度等于CU高度H的1/2(即高度比是1/2)，TU宽度等于CU宽度W(即宽度比是1)，三个TU位置处于相应CU(1133)、(1143)和(1153)左上角起的CU高度H的i/4处，其中i分别是0，1和3。上述三个位置分别表示为垂直位置0，1和2。TU(1132)、(1142)和(1152)分别关于相应的CU(1133)、(1143)和(1153)关联。

TU和CU边界均可由去块滤波进行滤波。一个实施例中，当CU宽度(或CU高度)在[8，32]的范围内时，启用SVT-V(或SVT-H)。为保证两个滤波边界之间的间隙大于或等于4个像素，例如，当CU宽度小于或等于8个像素时，停止使用垂直位置1；当CU高度小于或等于8个像素时，停止使用水平位置1。

依赖于位置的核变换可应用于SVT，其中三个水平和垂直位置对应于不同的核变换。表5示出了用于上述SVT模式的水平和垂直变换的例子。

为降低SVT的复杂度，一些实施例的SVT应用于特定模式。例如，SVT应用于合并模式(对于前两个合并候选者)和高级运动向量预测(advanced motion vector prediction，AMVP)模式，但不用于帧间预测模式，包括基准集(Benchmark Set，BMS)1.0中的仿射模式(affine mode)、帧率上转换(frame rate up conversion，FRUC)和整数运动矢量(IMV)分辨率。

根据一些实施例，可为SVT设计快速算法。对于每个SVT模式(或SVT模式)，基于残差跳过部分的方差和(sum of square differences，SSD)估计率失真(rate distortion，RD)代价。当SVT模式的估计RD代价大于最佳模式的实际RD代价时，在率失真优化(ratedistortion optimization，RDO)中跳过SVT模式。此外，仅在RDO中尝试估计RD代价最佳的三个SVT模式。

表5不同SVT类型和位置的水平和垂直变换

SVT类型，位置	水平变换	垂直变换
			SVT-V，位置0	DCT-8	DST-7
SVT-V，位置1	DST-1	DST-7
			SVT-V，位置2	DST-7	DST-7
SVT-H，位置0	DST-7	DCT-8
			SVT-H，位置1	DST-7	DST-1
SVT-H，位置2	DST-7	DST-7

一些实施例中，第一子区域中第一采样的残差数据相对较大，并被编码和传输至解码器。第二子区域中第二采样的残差数据相对较小，并且不被编码。根据本申请实施例，在SVT中，利用第一子区域内的CU的第一采样的残差数据来重建第一采样，而第一子区域外的CU的第二采样的重建不使用残差数据。总体上，第一子区域可具有任何合适的形状和尺寸，并可位于CU内任何合适的位置。第一子区域的形状、尺寸和/或位置可取决于CU中采样的残差数据。如下文描述，根据本申请实施例，一个实施例中第一子区域的面积是CU面积的1/4。进一步地，第一子区域可位于CU内任何合适的位置。例如，第一子区域可位于CU的中心并与CU的所有边缘不接触。

如上所述，可基于采样的残差数据(或运动补偿残差)将CU划分为不同的子区域。CU包括具有相对较大的残差的第一采样的第一子区域(即残差较大的子区域)以及具有相对较小残差的第二采样的第二子区域(即残差较小的子区域)。可用多种方法确定第一子区域和第二子区域。一个例子中，可基于采样的残差数据确定第一子区域和第二子区域。例如，可将CU中采样的残差数据与预先确定的残差阈值进行比较。第一子区域中第一采样的残差数据高于预先确定的残差阈值，而第二子区域中第二采样的残差数据低于或等于预先确定的残差阈值。或者，可基于采样的残差数据关联的量化变换系数来确定第一子区域和第二子区域。例如，第一区域的第一采样具有非零量化变换系数，且第二区域的第二采样不具有非零量化变换系数。

在编码器侧，第一子区域中第一采样的变换系数可通过对第一子区域内的第一采样的残差数据中进行变换来确定。进一步地，第二子区域内的第二采样的残差数据不被编码。一个例子中，第二采样的相对较小的残差数据可设置为0。相应地，在解码器侧，第一子区域内的第一采样的残差数据可通过对第一采样的变换系数进行反变换来确定，第一采样可以，例如，从编码视频比特流接收到。

图12是本申请一些实施例的SVT模式(1201)、(1211)、(1221)和(1231)。参考图12，每个CU(1203)、(1213)、(1223)和(1233)和相应第一子区域(1202)、(1212)、(1222)和(1232)呈矩形。在顶部一行，第一子区域(1202)和(1212)中每一个区域的宽度是CU(1203)和(1213)中每个CU的宽度(W)的1/4，得到宽度比1/4，且CU(1203)和(1213)的每一个可被垂直分割。第一子区域(1202)和(1212)中每个区域的高度等于CU(1203)和(1213)中每个CU的高度(H)。第一子区域(1202)邻接于CU(1203)的左边缘(1204)。第一子区域(1212)邻接于CU(1213)的右边缘(1214)。在底部一行，第一子区域(1222)和(1232)中每个区域的宽度等于CU(1223)和(1233)中每个CU的宽度(W)，而CU(1223)和(1233)中每个CU可被水平分割。第一子区域(1222)和(1232)中每个区域的高度是CU(1223)和(1233)中每个CU的高度(H)的1/4，得到高度比为1/4。第一子区域(1222)邻接于CU(1223)的上边缘(1224)。第一子区域(1232)邻接于CU(1233)的下边缘(1234)。

参考图11和12，SVT模式(1101)和(1201)是相似的，唯一不同在于SVT模式(1201)的宽度比1/4小于SVT模式(1101)的宽度比1/2。相应地，当CU(1103)的尺寸等于CU(1203)的尺寸时，对第一子区域(1202)的第一采样进行变换可比对第一子区域(1102)的第一采样进行变换更有效，因为第一子区域(1202)中的第一采样的数量小于第一子区域(1102)的第一采样的数量。因此，当CU(1203)中具有相对较大的残差的采样位于(或集中于)，例如，CU(1203)中1/4的区域并接近左边缘(1204)时，采用SVT模式(1201)而不是SVT模式(1101)。相似描述可用于其它SVT模式，如SVT模式(1121)和(1211)、SVT模式(1131)和(1221)，以及SVT模式(1151)和(1231)。

一些实施例中，CU中具有相对较大的残差的第一采样可位于(或集中于)CU的中心附近或CU的角落。相应地，可使用与图11-12所示的SVT模式不同的SVT模式。图13是本申请又一些实施例的SVT模式的例子。每一个CU(1303)、(1313)、(1323)、(1333)和(1343)和各自的第一子区域(1302)、(1312)、(1322)、(1332)和(1342)呈正方形。进一步地，第一子区域(1302)、(1312)、(1322)、(1332)和(1342)中每个区域的宽度分别是CU(1303)、(1313)、(1323)、(1333)和(1343)中每个CU宽度(W)的1/4。进一步地，第一子区域(1302)、(1312)、(1322)、(1332)和(1342)中每个区域的高度分别是CU(1303)、(1313)、(1323)、(1333)和(1343)中每个CU高度(H)的1/4。因此，宽度比和高度比是1/4。第一子区域(1302)位于CU(1303)的中心，并与CU(1303)的所有边缘不接触。一个例子中，CU(1303)的中心可隐含地确定，因此，不标示SVT模式(1301)的位置信息。第一子区域(1312)位于CU(1313)的左上角，第一子区域(1322)位于CU(1323)的右上角，第一子区域(1332)位于CU(1333)的左下角，第一子区域(1342)位于CU(1343)的右下角。相应地，标示各第一子区域(1312)、(1322)、(1332)和(1342)的位置。

一些例子中，利用帧间预测对图12-13所示的CU中的采样进行编码，并且CU中的第一采样和第二采样具有相同的运动预测信息。例如，对于图12例子中的SVT模式(1201)，第一子区域(1202)中的第一采样和位于第一子区域(1202)外的CU中的第二采样可具有相同的运动预测信息。

可从SVT模式的组合中选择合适的SVT模式，因此，可对表示CU中的第一子区域的特性，如第一子区域的位置和/或大小，的一个或多个索引进行编码。一个例子中，可使用具有可变长度二进制化的环境自适应二进制算术编码(context-adaptive binaryarithmetic coding CABAC)对上述一个或多个索引进行编码。一个例子中，位置信息可标示在编码视频比特流中，并随后由解码器解码。

总体上，该组中的SVT模式可包括任何合适的SVT模式，例如图11-13所示的一个或多个SVT模式。一个例子中，SVT组包括7个SVT模式：图11的(1111)和(1141)、图12的(1201)、(1211)、(1221)和(1231)和图13的(1301)。表6是本申请实施例的SVT组关联的二进制化的例子。一个例子中，二进制化代码的bin中第一bin和第二bin表示第一子区域是否位于CU的中心以及CU是否被水平或垂直地分割。参考表6，第一bin的‘0’表示第一子区域位于中心位置，因此对SVT模式(1301)进行编码并具有索引0，第一bin和第二bin的‘10’表示CU被垂直分割，并编码SVT模式(1111)、(1201)和(1211)之一。进一步地，第一bin和第二bin的‘11’表示CU被水平分割，并编码SVT模式(1141)、(1221)和(1231)之一。第一和第二bin可使用不同的上下文来代码。另一上下文可用于其他bin。

图11-13示出了各CU中SVT模式下具有不同的形状、尺寸和位置的第一子区域。第一子区域的尺寸可利用宽度比和高度比表示。或者，第一子区域的尺寸可利用第一子区域的面积与CU面积的面积比表示。面积比可以是1/4、1/2等。宽度比和高度比可以是1/4，1/2，1等。第一子区域的位置可位于中心、角落、边缘等。

表6示出了SVT组关联的二进制化的例子

如上所述，第一子区域位于CU中，并对第一子区域的第一采样进行单个变换。然而，一些实施例中，邻接的相邻CU中的多个第一子区域包括具有相对较大残差的第一采样。这种情况下，可形成合并子区域，其包括越过多个CU之间的一个或多个边界的多个第一子区域。根据本申请实施例，不对各第一子区域中的第一采样进行单独的变换，而是对合并子区域中的第一采样进行单个变换，从而提高编码效率。总体上，多个CU和其中各第一子区域可具有任何合适的形状、尺寸和相对位置，因此，合并子区域和合并CU可具有任何合适的形状、尺寸和相对位置。进一步地，多个CU的数量是大于1的整数。

图14是本申请一些实施例的合并子区域相关的SVT模式的例子。在图14的例子中，合并子区域位于包括多个CU的合并CU的中心。

一些例子中，2个CU中的第一子区域被合并。例如，示出了SVT模式(1405)，其中合并CU(1401)包括CU(1402)和CU(1412)。CU(1412)邻接并位于CU(1402)的右方。CU(1402)包括具有相对较大的残差的第一采样的第一子区域(1403)以及在第一子区域(1403)外具有相对较小的残差的第二采样的第二子区域(1404)。类似地，CU(1412)包括具有第一采样的第一子区域(1413)和第一子区域(1413)外的具有第二采样的第二子区域(1414)。合并子区域(1411)包括位于合并CU(1401)中心的第一子区域(1403)和(1413)。在图14的例子中，CU(1402)和(1412)共享同一边界(1418)，而合并子区域(1411)可覆盖(或越过)边界(1418)。合并子区域(1411)位于CU(1402)和CU(1412)中。

在图14的例子中，合并子区域(1411)和合并CU(1401)呈矩形，合并子区域(1411)的宽度与合并CU(1401)宽度的宽度比等于第一比率，合并子区域(1411)的高度与合并CU(1401)高度的高度比等于第二比率。一个例子中，第一比率不同于第二比率。在另一例子中，如图14所示，第一比率等于第二比率，即1/2，因此，合并子区域(1411)的面积是合并CU(1401)的1/4。

在编码器侧，合并子区域(1411)中第一采样的变换系数可通过对合并子区域(1411)内的第一采样的残差数据进行单个变换来确定。进一步地，位于合并子区域(1411)外的合并CU(1401)的第二采样的残差数据不被编码。例如，第二采样的残差数据不被变换为变换系数。

在解码器侧，合并子区域(1411)内的第一采样的残差数据可通过对第一采样的变换系数进行反变换来确定，第一采样可以例如接收自编码视频比特流。进一步地，合并子区域(1411)中的第一采样可利用第一采样的残差数据来重建，第二采样的重建可不利用残差数据。例如，第二采样的变换系数不被编码并被推定为0。CU(1402)和(1412)可利用不同的运动预测信息进行编码。进一步地，CU(1402)和(1412)的非残差信息，包括不同的运动预测信息，标示在CU(1402)和(1412)关联的残差信息之前，并且残差信息可包括合并子区域(1411)关联的残差数据、表示SVT模式的信息、合并子区域(1411)的尺寸、形状和位置，和/或其它信息。

在SVT模式(1405)中，合并子区域(1411)和合并CU(1401)均呈矩形(非正方形)。在另一例子中，示出了SVT模式(1435)，其中合并CU(1431)包括CU(1432)和邻接于CU(1432)的CU(1442)。合并子区域(1441)和合并CU(1431)呈正方形，合并子区域(1441)位于合并CU(1431)的中心。CU(1432)包括第一子区域(1433)，CU(1442)包括邻接于第一子区域(1433)的第一子区域(1443)。与上述类似的操作在编码器和解码器侧可分别对合并子区域(1441)和合并CU(1431)执行，因此为了简单，此处省略了详细描述。

在另一例子中，示出了SVT模式(1425)，其中合并CU(1421)包括CU(1422)和邻接于CU(1422)的CU(1432)。如图14所示，CU(1423)在CU(1422)上方。合并子区域(1427)位于合并CU(1421)的中心。CU(1422)包括第一子区域(1424)，CU(1423)包括邻接于第一子区域(1424)并在其上方的第一子区域(1426)。与上述类似的操作在编码器和解码器侧可分别对合并子区域(1427)和合并CU(1421)执行，因此为了简化描述，详细描述被省略。

在另一例子中，多个CU的数量是4，如SVT模式(1459)所示。合并CU(1455)包括4个相邻CU(1451)-(1454)。CU(1451)-(1454)分别包括相邻的第一子区域(1461-1464)。在一个例子中，第一子区域(1461)位于CU(1451)的右下角，第一子区域(1462)位于CU(1452)的左下角，第一子区域(1463)位于CU(1453)的右上角，第一子区域(1464)位于CU(1454)的左上角。如图14所示，合并子区域(1471)位于合并CU(1455)的中心，并越过邻近CU(1451)-(1454)的边界(1491)-(1494)。进一步地，宽度比和高度比是1/2。一个例子中，可利用不同的运动预测信息对多个CU(1451)-(1454)进行编码。与上述类似的操作在编码器和解码器侧可分别对合并子区域(1471)和合并CU(1455)执行，因此为了简化描述，详细描述被省略。进一步地，在一个实施例中，可标示附加标志，例如合并SVT标志，以表示CU(如CU(1451))是包括多个CU的合并CU(1455)的一部分。也可标示多个CU的数量、多个CU的相对位置、多个CU中每个CU的第一子区域的位置、尺寸和/或形状，和/或类似信息。

图15是本申请实施例的示例性过程(1500)的概要流程图。过程(1500)可用于对帧间预测编码的一个或多个块的重建。在各实施例中，过程(1500)由处理电路执行，例如终端设备(210)、(220)、(230)和(240)中的处理电路，执行视频编码器(303)的功能的处理电路，执行视频解码器(310)的功能的处理电路，执行视频解码器(410)的功能的处理电路，执行视频编码器(503)的功能的处理电路，执行预测器(535)的功能的处理电路，执行解码器(710)的功能的处理电路，执行帧间解码器(780)的功能的处理电路，执行重建(774)的功能的处理电路，等。一些实施例中，过程(1500)由软件指令实现，因此当处理电路执行这些软件指令时，处理电路执行过程(1500)。

过程(1500)开始于(S1501)并进入(S1510)。在(S1510)，解码编码视频比特流中的图像的CU相关的编码信息。CU可为亮度编码CU、色度编码CU等。CU可具有任何合适的形状、尺寸等。根据一个实施例，CU呈矩形，如正方形。在一个例子中，编码信息表示CU利用帧间预测编码，并包括SVT标志。编码信息还可包括SVT模式的附加信息，如关于CU的位置、形状和/或SVT模式的尺寸。

一些实施例中，编码信息还可包括合并SVT标志，以表示CU是合并CU的一部分、合并CU中多个CU的数量、多个CU的相对位置、多个CU的每个CU中第一子区域的位置、尺寸和形状，和/或其它信息。

在(S1520)，SVT是否与CU关联，是基于编码信息来确定的。例如，当编码信息包括SVT标志时，确定CU与SVT关联。另一例子中，当编码信息表示CU利用帧内预测编码时，可隐式地确定CU不与SVT关联。可选地，当CU利用帧间预测编码并且SVT标志未被标示时，可隐式地确定CU不与SVT关联。当确定CU与SVT关联时，过程(1500)进入(S1530)。否则，过程(1500)进入(S1525)。

在(S1525)，基于采样的残差数据，根据合适的视频编码技术和/或视频编码标准(如HEVC标准、VVC标准等)来重建CU中的采样。否然后，过程(1500)进入(S1599)，并终止。

在(S1530)，可从编码信息中确定SVT模式(包括例如CU中的第一子区域的位置和尺寸)。如上所述，CU包括具有第一采样的第一子区域和具有第二采样的第二子区域，其中第二采样位于第一子区域之外。

基于第一采样的残差数据来重建第一子区域内的第一采样。例如，对第一采样关联的变换系数进行反变换，以获得第一采样的残差数据。

当确定CU为(S1520)中所描述的合并CU的一部分时，基于编码信息来确定合并CU中的合并子区域。基于第一采样的残差数据重建包括合并子区域内的第一采样，合并子区域包括多个CU的各第一子区域。一个例子中，对合并子区域的第一采样关联的变换系数进行单次反变换，以获得第一采样的残差数据。可利用不同的运动预测信息对多个CU进行编码，因此，多个CU的第一采样可分别利用不同的运动预测信息来重建。

在(S1540)，第二子区域内(和第一子区域外)的第二采样在不利用残差数据的情况下被重建。例如，CU的第二采样可具有与第一采样相同的运动预测信息，并且利用相同的运动预测信息进行重建。

当确定CU为(S1520)描述的合并CU一部分时，位于合并子区域外的合并CU的第二采样在不利用残差数据的情况下被重建。例如，多个CU可以利用不同的运动预测信息编码，因此，来自多个CU的第二采样可利用不同的运动预测信息分别重建。否然后，过程(1500)进入(S1599)，并终止。

如上所述，CU可包括一个或多个编码块(CB)，如一个亮度CB和两个色度CB，其中CB包括CU相关的单个颜色分量的2D采样阵列。因此，以上描述可应用于一个CB或多个CB。

各实施例还提供一种视频解码装置。该装置可以包括：信息解码模块和重建模块。其中，信息解码模块可以执行各实施例的对块的编码信息进行解码相关的步骤。重建模块可以执行各实施例的重建采样的步骤。

一些实施例中，信息解码模块可以对编码视频比特流中的图像的块所关联的编码信息进行解码，该编码信息表示子区域在该块中的位置，该子区域的面积是该块面积的1/4；重建模块可以利用该块的在该子区域内的第一采样的残差数据重建该第一采样，以及在不采用残差数据的情况下重建该块的位于该子区域外的第二采样。

一些实施例中，重建模块可以通过对该子区域内的所述第一采样的变换系数进行反变换以确定该子区域内的所述第一采样的所述残差数据，其中所述变换系数接收自所述编码视频比特流。

一些实施例中，该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/4，该子区域的高度等于该块的高度，且该子区域邻接于以下其中之一：该块的左边缘、该块的右边缘。

一些实施例中，该块和该子区域呈矩形，该子区域的宽度等于该块的宽度，该子区域的高度为该块高度的1/4，并且该子区域邻接于以下其中之一：该块的上边缘、该块的下边缘。

一些实施例中，该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/2，该子区域的高度为该块高度的1/2，并且该子区域位于以下其中之一：该块的中心、左上角、右上角、左下角，以及右下角；或该块利用帧间预测编码，且所述第一采样和所述第二采样具有相同的运动预测信息。

一些实施例中，编码信息进一步指示附加子区域在该块的至少一个相邻块的每一个相邻块中的位置。此时，重建模块可以执行以下操作：

对合并子区域内的第一采样和第三采样的变换系数进行反变换，以确定该合并子区域内所述第一采样和所述第三采样的残差数据；其中，所述合并子区域位于包括该块和该至少一个相邻块的合并块的中心，包括该子区域至少一个相邻块的每一个相邻块中的附加子区域；所述合并子区域和所述合并块呈矩形，所述合并子区域的宽度与所述合并块的宽度之比等于第一比率，且所述合并子区域的高度与所述合并块的高度之比等于第二比率；所述第一采样和所述第三采样的变换系数包括在所述编码视频比特流中，所述第三采样位于所述至少一个相邻块中每个相邻块内的附加子区域内；

利用所述第三采样的所述残差数据重建所述第三采样；及

在不使用残差数据的情况下重建至少一个相邻块的位于附加子区域外的第四采样。

一些实施例中，该块和所述至少一个相邻块利用帧间预测进行编码，并且该块中的所述第一采样和所述第二采样的运动预测信息与所述至少一个相邻块中的第三采样和第四采样的运动预测信息不同。

本申请各实施例还提供一种编码器中的视频编码方法。该视频编码方式可以包括：

对所述待编码视频数据进行编码以生成编码视频比特流；

一些实施例中，该块和该子区域符合以下之一：

该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/4，该子区域的高度等于该块的高度，且该子区域邻接于以下其中之一：该块的左边缘、该块的右边缘；或

该块和该子区域呈矩形，该子区域的宽度等于该块的宽度，该子区域的高度为该块高度的1/4，并且该子区域邻接于以下其中之一：该块的上边缘、该块的下边缘；或

该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/2，该子区域的高度为该块高度的1/2，并且该子区域位于以下其中之一：该块的中心、左上角、右上角、左下角，以及右下角；或该块利用帧间预测编码，且所述第一采样和所述第二采样具有相同的运动预测信息。

一些实施例中，该视频编码方法还可以包括：

对合并子区域内的第一采样和第三采样的变换系数进行变换，并将变换后的所述第一采样和所述第三采样的所述变换系数包括在所述编码视频比特流中，其中，所述合并子区域位于包括所述块和所述至少一个相邻块的合并块的中心，包括所述第一子区域以及至少一个相邻块的每一个相邻块中的附加子区域；所述合并子区域和所述合并块呈矩形，所述合并子区域的宽度与所述合并块的宽度之比等于第一比率，且所述合并子区域的高度与所述合并块的高度之比等于第二比率；所述第三采样位于所述至少一个相邻块中每个相邻块内的附加子区域内；

在所述编码视频比特流中进一步标示所述附加子区域在所述至少一个相邻块的每一个相邻块中的位置。

上述技术可以使用计算机可读指令实现为计算机软件，并且物理地存储在一个或多个计算机可读介质中。例如，图16为适于实现本申请一些实施例的计算机系统(1600)。

计算机软件可利用任何合适的机器代码或计算机语言来编码，可采用汇编、编译、链接或类似机制生成指令代码。这些指令代码可由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或通过代码解释、微代码执行等操作来执行。

这些指令可在多种类型的计算机或计算机组件中执行，包括，例如，个人计算机、平板电脑、服务器、智能电话、游戏设备、物联网设备等。

图16所示的用于计算机系统(1600)的组件本质上是示例性的，而非旨在对实现本申请实施例的计算机软件的使用或功能范围做任何限制。也不应将组件的配置方式解释为对计算机系统(1600)的示例性实施例中的任一部件或其组合具有任何的依赖性或要求。

计算机系统(1600)可以包括某些人机界面输入设备。这样的人机界面输入设备可以响应于一个或多个人类用户通过例如触觉输入(诸如键击、挥动、数据手套移动)、音频输入(诸如语音、拍击)、视觉输入(诸如姿势)、嗅觉输入(未示出)的输入。人机界面设备还可用于捕捉不必直接与人类有意识输入相关的某些介质，例如音频(诸如语音、音乐、环境声音)、图像(诸如扫描的图像、从静止图像相机获得的摄影图像)、视频(诸如二维视频，包括立体视频的三维视频)。

人机界面输入设备可包括以下项中的一种或多种(每一种仅描绘一个)：键盘(1601)、鼠标(1602)、触控板(1603)、触摸屏(1610)、数据手套(未示出)、操纵杆(1605)、麦克风(1606)、扫描仪(1607)、照相机(1608)。

计算机系统(1600)还可以包括某些人机界面输出设备。这样的人机界面输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感觉。这种人机界面输出设备可以包括触觉输出设备(例如通过触摸屏(1610)、数据手套(未示出)或操纵杆(1605)的触觉反馈，但是也可以有不用作输入设备的触觉反馈设备)、音频输出设备(诸如扬声器(1609)、耳机(未示出))、可视输出设备以及打印机(未示出)，其中可视输出设备诸如屏幕(1610)、虚拟现实眼镜(未示出)、全息显示器和烟雾箱(未示出)，屏幕(1310)包括阴极射线管(CRT)屏幕、液晶显示器(LCD)屏幕、等离子屏幕、有机发光二极管(OLED)屏幕，每一种都具有或不具有触摸屏输入能力，每一种都具有或不具有触觉反馈能力，这些屏幕中的一些能够通过手段(诸如立体图像输出)输出二维可视输出或多于三维的输出。

计算机系统(1600)还可以包括人类可访问的存储设备及其相关联的介质，诸如光学介质(包括具有CD/DVD的CD/DVDROM/RW(1620))或类似介质(1621)、拇指驱动器(1622)、可移动硬盘驱动器或固态驱动器(1623)、传统磁介质(诸如磁带和软盘(未示出))、基于专用ROM/ASIC/PLD的设备(诸如安全道尔芯片(未示出))，等等。

本领域技术人员还应当理解，结合当前公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。

计算机系统(1600)还可以包括连接一个或多个通信网络的接口。网络可以是，例如，无线网络、有线网络、光网络。网络还可以是本地网、广域网、城域网、车联网的和工业网络、实时网络、延迟容忍网络等等。网络的示例包括局域网(诸如以太网、无线LAN)、蜂窝网络(包括全球移动通信系统(GSM)、第三代移动通信系统(3G)、第四代移动通信系统(4G)、第五代移动通信系统(5G)、长期演进(LTE)等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车辆和工业网络(包括CANBus)，等等。某些网络通常需要外部网络接口适配器，该外部网络接口适配器连接到某些通用数据端口或外围总线(1649)(诸如计算机系统(1600)的通用串行总线(USB)端口)；其他的通常通过如下所述连接到系统总线而集成到计算机系统(1600)的核心中(例如，进入个人计算机系统的以太网接口或进入智能手机计算机系统的蜂窝网络接口)。通过使用这些网络中的任何一个，计算机系统(1600)可以与其它实体通信。这种通信可以是使用局域或广域数字网络的到其它计算机系统的单向的、仅接收的(例如广播TV)、单向仅发送的(例如到某些CAN总线设备的CAN总线)或双向的通信。可以在如上所述的那些网络和网络接口中的每一个上使用某些协议和协议栈。

上述人机界面设备、人类可访问存储设备和网络接口可以连接到计算机系统(1600)的内核(1640)。

内核(1640)可以包括一个或多个中央处理单元(CPU)(1641)、图形处理单元(GPU)(1642)、以现场可编程门阵列(FPGA)(1643)形式存在的专用可编程处理单元、用于特定任务的硬件加速器(1644)等。这些设备，以及只读存储器(ROM)(1645)，随机存取存储器(1646)，内部大容量存储器(如内部非用户可访问硬盘驱动器，SSD)(1647)等，可以通过系统总线(1648)相互连接。在一些计算机系统中，系统总线(1648)可以以一个或多个物理插头的形式访问，从而通过附加的CPU，GPU等实现扩展。外围设备可以直接，或者通过外围总线(1648)，连接到内核的系统总线(1649)。外围总线的架构包括PCI，USB等。

CPU(1641)、GPU(1642)、FPGA(1643)和加速器(1644)可以执行某些指令，这些指令组合起来可以构成前述的计算机代码。该计算机代码可以存储在ROM(1645)或RAM(1646)中。中间数据也可以存储在RAM(1646)中，而永久数据可以存储在，例如，内部大容量存储器(1647)中。可以通过使用高速缓冲存储器来实现到任何存储器设备的快速存储和读取，高速缓存存储器可以与一个或多个CPU(1641)、GPU(1642)、大容量存储器(1647)、ROM(1645)、RAM(1646)等紧密关联。

计算机可读介质上可以具有计算机代码，在计算机代码上执行各种计算机执行的操作。介质和计算机代码可以是为本申请的目的而特别设计和构造的，也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。

作为示例而非限制，具有体系结构(1600)的计算机系统，特别是内核(1640)，可以提供处理器(包括CPU、GPU、FPGA、加速器等)执行在一个或多个有形的计算机可读介质中的软件而实现的功能。这样的计算机可读介质可以是与如上所述的用户可访问大容量存储器相关联的介质，以及非暂时性的内核(1640)的某些存储，诸如内核内部大容量存储器(1647)或ROM(1645)。实现本申请各实施例的软件可以存储在这样的设备中并由内核(1640)执行。根据特定需要，计算机可读介质可包括一个或多个存储器设备或芯片。该软件可以使内核(1640)，特别是其中的处理器(包括CPU，GPU，FPGA等)，执行本文描述的特定过程或特定过程的特定部分，包括定义存储在RAM(1646)中的数据结构，以及根据软件定义的过程修改这些数据结构。作为补充或作为替代，计算机系统可提供与电路(例如加速器1644)中的逻辑硬连线或其它组件相同的功能，可代替软件或与软件一起操作以执行本文所述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(IC))，包括执行逻辑的电路，或两者兼备。本申请包括硬件和软件的任何适当组合。

附录A：缩略语

JEM:joint exploration model联合勘探模型

VVC:versatile video coding多功能视频编码

BMS:benchmark set基准集合

MV:Motion Vector运动向量

HEVC:High Efficiency Video Coding高效视频编码

SEI:Supplementary Enhancement Information补充增强信息

VUI:Video Usability Information视频可用性信息

GOPs:Groups of Pictures图像组

TUs:Transform Units,变换单元

PUs:Prediction Units预测单元

CTUs:Coding Tree Units编码树单元

CTBs:Coding Tree Blocks编码树块

PBs:Prediction Blocks预测块

HRD:Hypothetical Reference Decoder假想参考解码器

SNR:Signal Noise Ratio信噪比

CPUs:Central Processing Units中央处理单元

GPUs:Graphics Processing Units图形处理单元

CRT:Cathode Ray Tube阴极射线管

LCD:Liquid-Crystal Display液晶显示器

OLED:Organic Light-Emitting Diode有机发光二极管

CD:Compact Disc压缩盘

DVD:Digital Video Disc数字视频盘

ROM:Read-Only Memory只读存储器

RAM:Random Access Memory随机存取存储器

ASIC:Application-Specific Integrated Circuit专用集成电路

PLD:Programmable Logic Device可编程逻辑设备

LAN:Local Area Network局域网

GSM:Global System for Mobile communications全球移动通信系统

LTE:Long-Term Evolution长期演进

CANBus:Controller Area Network Bus控制器区域网络总线

USB:Universal Serial Bus通用串行总线

PCI:Peripheral Component Interconnect外围设备组件互联

FPGA:Field Programmable Gate Array现场可编程门阵列

SSD:solid-state drive固态硬盘

IC:Integrated Circuit集成电路

CU:Coding Unit编码单元

QT:Quadtree四叉树

AMVP:advanced motion vector prediction高级运动向量预测

虽然本申请已对多个示例性实施例进行了描述，但实施例的各种变更、置换和各种替代属于本申请的范围内。因此应理解，本领域技术人员能够设计多种系统和方法，所述系统和方法虽然未在本文中明确展示或描述，但其体现了本申请的原则，因此属于本申请的精神和范围之内。

Claims

1.一种视频解码方法，其特征在于，包括：

对编码视频比特流中的图像的块所关联的编码信息进行解码，该编码信息表示子区域在该块中的位置，该子区域的面积是该块面积的1/4；

利用该块在该子区域内的第一采样的残差数据重建该第一采样；及

在不采用残差数据的情况下重建该块位于该子区域外的第二采样。

2.根据权利要求1所述的方法，其特征在于，重建所述第一采样进一步包括：

通过对该子区域内的所述第一采样的变换系数进行反变换以确定该子区域内的所述第一采样的所述残差数据，其中所述变换系数接收自所述编码视频比特流。

3.根据权利要求1的方法，其特征在于，该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/4，该子区域的高度等于该块的高度，且该子区域邻接于以下其中之一：该块的左边缘、该块的右边缘。

4.根据权利要求1的方法，其特征在于，该块和该子区域呈矩形，该子区域的宽度等于该块的宽度，该子区域的高度为该块高度的1/4，并且该子区域邻接于以下其中之一：该块的上边缘、该块的下边缘。

5.根据权利要求1的方法，其特征在于，该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/2，该子区域的高度为该块高度的1/2，并且该子区域位于以下其中之一：该块的中心、左上角、右上角、左下角、以及右下角。

6.根据权利要求1的方法，其特征在于，该块利用帧间预测编码，且所述第一采样和所述第二采样具有相同的运动预测信息。

7.根据权利要求1的方法，其特征在于，在该编码视频比特流中用信号表示该子区域位置的编码信息。

8.根据权利要求1的方法，其特征在于，

所述编码信息进一步指示附加子区域在该块的至少一个相邻块的每一个相邻块中的位置；

合并子区域，位于包括该块和该至少一个相邻块的合并块的中心，所述合并子区域包括该子区域以及至少一个相邻块的每一个相邻块中的附加子区域；

该合并子区域和该合并块呈矩形，其中，该合并子区域的宽度与该合并块的宽度之比等于第一比率，且该合并子区域的高度与该合并块的高度之比等于第二比率；及

所述方法进一步包括：

对该合并子区域内的第一采样和第三采样的变换系数进行反变换，以确定该合并子区域内所述第一采样和所述第三采样的残差数据，所述第一采样和所述第三采样的变换系数包括在所述编码视频比特流中，所述第三采样位于所述至少一个相邻块中每个相邻块内的附加子区域内；

利用所述第三采样的所述残差数据重建所述第三采样；及

在不使用残差数据的情况下重建至少一个相邻块的第四采样，所述第四采样位于附加子区域外。

9.根据权利要求8的方法，其特征在于，该块和所述至少一个相邻块利用帧间预测进行编码，并且该块中的所述第一采样和所述第二采样的运动预测信息与所述至少一个相邻块中的第三采样和第四采样的运动预测信息不同。

10.根据权利要求8的方法，其特征在于，

所述至少一个相邻块的数量为一个或三个；

当所述至少一个相邻块的数量为一个时，所述至少一个相邻块位于以下其中之一：该块的右侧、该块的下方；

当所述至少一个相邻块的数量为三个时，该块位于所述合并块的左上角。

11.根据权利要求8的方法，其特征在于，所述第一比率和所述第二比率是1/2。

12.一种视频解码装置，其特征在于，包括：

信息解码模块，用于对编码视频比特流中的图像的块所关联的编码信息进行解码，该编码信息表示子区域在该块中的位置，该子区域的面积是该块面积的1/4；

重建模块，用于利用该块在该子区域内的第一采样的残差数据重建该第一采样；及

13.根据权利要求12所述的装置，其特征在于，所述重建模块用于：

14.根据权利要求12的装置，其特征在于，该块和该子区域符合以下之一：

该块和该子区域呈矩形，该子区域的宽度为该块宽度的1/2，该子区域的高度为该块高度的1/2，并且该子区域位于以下其中之一：该块的中心、左上角、右上角、左下角、以及右下角；或该块利用帧间预测编码，且所述第一采样和所述第二采样具有相同的运动预测信息。

15.根据权利要求12的装置，其特征在于，其中：

所述重建模块用于：

对合并子区域内的第一采样和第三采样的变换系数进行反变换，以确定该合并子区域内所述第一采样和所述第三采样的残差数据；其中，所述合并子区域位于包括该块和该至少一个相邻块的合并块的中心，包括该子区域以及至少一个相邻块的每一个相邻块中的附加子区域；所述合并子区域和所述合并块呈矩形，所述合并子区域的宽度与所述合并块的宽度之比等于第一比率，且所述合并子区域的高度与所述合并块的高度之比等于第二比率；所述第一采样和所述第三采样的变换系数包括在所述编码视频比特流中，所述第三采样位于所述至少一个相邻块中每个相邻块内的附加子区域内；

利用所述第三采样的所述残差数据重建所述第三采样；及

16.一种视频编码方法，其特征在于，包括：

将待编码视频中图像的块根据其中采样的残差的大小划分为第一子区域和第二子区域，其中，所述第一子区域中的第一采样的残差大于所述第二子区域中第二采样的残差，所述第一子区域的面积是所述块的面积的1/4；

对所述待编码视频数据进行编码以生成编码视频比特流；

在所述编码视频比特流中用信号表示所述第一子区域在所述块中的位置。

17.根据权利要求16的方法，其特征在于，该块和该子区域符合以下之一：

18.根据权利要求16的方法，其特征在于，进一步包括：

在所述编码视频比特流中进一步用信号表示所述附加子区域在所述至少一个相邻块的每一个相邻块中的位置。

19.一种计算机设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机可读指令，所述指令可被所述处理器执行用于实现根据权利要求1-11或权利要求16-18中任一权利要求所述的方法。

20.一种非暂时性计算机可读存储介质，存储有程序，其特征在于，所述程序可被至少一个处理器执行用于实现根据权利要求1-11或权利要求16-18中任一权利要求所述的方法。