CN112042200B

CN112042200B - 视频解码的方法和装置

Info

Publication number: CN112042200B
Application number: CN201980021749.5A
Authority: CN
Inventors: 许晓中; 李贵春; 李翔; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2018-04-26
Filing date: 2019-03-26
Publication date: 2022-09-30
Anticipated expiration: 2039-03-26
Also published as: EP3785441A4; US11595686B2; WO2019209444A2; JP7152512B2; JP2022177268A; US20230120043A1; KR102487114B1; JP2022505996A; WO2019209444A3; JP2024023662A; US20210250609A1; KR102608063B1; US20190379909A1; EP3785441A2; CN115941954A; KR20230012098A; KR20200128149A; US10462483B1; CN112042200A; US20190335200A1

Abstract

本公开各方面提供了视频解码的方法和装置。一些例子中，该装置包括处理电路。处理电路从已编码视频比特流中解码得到当前块的预测信息。该预测信息指示帧内块复制模式。然后，处理电路根据帧内块复制模式，确定分辨率语法元素的第一部分。对于帧内块复制模式中的块矢量和帧间预测模式中的运动矢量，分辨率语法元素具有相同的语义。进一步地，处理电路对已编码视频码流中的分辨率语法元素的第二部分进行解码，并根据第一部分及第二部分的组合所指示的目标分辨率确定块矢量。然后，处理电路根据块矢量重建当前块的至少一个样本。

Description

视频解码的方法和装置

相关文件

本公开要求2018年4月26日提交的、名称为“帧内块复制的改进方法”的美国临时申请62/663,171和2018年11月29日提交的、名称为“视频编解码方法及装置”的美国专利申请16/205,180的优先权，其全部内容通过引用并入本文。

技术领域

本公开主要涉及视频编解码。

背景技术

本公开提供的背景描述是为了整体上呈现本申请的背景。当前记名的发明人的工作，在该背景部分描述的工作以及本说明书各实施例的范围内的内容，在递交时并不算作现有技术，而且均未被明示或暗示地承认作为不利于本申请的现有技术。

视频编码和解码可以使用具有运动补偿的图像间预测来进行。未压缩的数字视频可包括一系列图像，每个图像具有一定的空间维度，例如1920x1080的亮度样本和相关的色度样本。图像序列可具有固定或可变的图像速率(俗称帧率)，例如，每秒60张图像或60Hz。未压缩的视频需要较高的比特率。例如，每个样本为8比特的1080p604：2：0(60Hz帧率下的1920x1080亮度样本分辨率)的视频需要接近1.5G比特/秒的带宽。长度为一小时的这种视频需要600G字节以上的存储空间。

视频编码和解码的一个目的是，通过压缩来降低输入视频信号的冗余。在一些情况下，压缩可有助于减小带宽或存储空间的需求，一些情况下可以减少两个数量级甚至更多。可使用无损压缩、有损压缩，或其组合。无损压缩指可从经过压缩的原始信号中重建出原始信号的准确副本的技术。当利用有损压缩时，重建信号可与原始信号不一致，但原始信号和重建信号之间的失真足够小，以使重建信号能够实现所期望的用途。视频领域中广泛采用有损压缩。容许的失真量取决于应用，例如，一些消费型流应用的用户比电视节目应用的用户能容忍更大的失真。目前可实现的压缩比可以反映出：可允许或可容忍的失真越大，压缩比越高。

视频编码器和解码器可利用几个大类的技术，包括，例如，运动补偿、变换、量化和熵编码。

视频编解码技术可包括被称为帧内编码的技术。在帧内编码中，样本值的表示不需要参照先前已重建的参考图像中的样本或其他数据。在一些视频编解码器中，图像在空间上被细分为样本块。当样本的所有块在帧内模式下进行编码时，该图像可以为帧内图像。帧内图像及其派生图像(例如独立解码器刷新图像)可用于重置解码器状态，并从而可以用作已编码视频码流和视频会话中的第一幅图像，或作为静止图像。帧内块的样本可接受转换，转换系数可以在熵编码前被量化。帧内预测可以是使预变换域中的样本值最小化的技术。一些情况下，转换后的DC值越小，AC系数就越小，熵编码后用于以给定的量化步长来表示块所需的比特数就越少。

例如，从诸如MPEG-2编解码技术所知的传统的帧内编码不使用帧内预测。然而，一些较新的视频压缩技术尝试使用，例如，周围的样本数据和/或元数据的技术，可在对空间相邻的、以及解码顺序在前的块数据进行编码/解码的过程中获得上述周围的样本数据和/或元数据。这种技术从此被称为“帧内预测”技术。注意，在至少一些情况下，帧内预测仅使用来自正在重建的当前图像(而不是参考图像)的参考数据。

有许多不同形式的帧内预测。当在给定视频编码技术中可以使用多于一种这样的技术时，所使用的技术可以编码在帧内预测模式中。在某些情况下，模式可以具有子模式和/或参数，其可以单独编码或包括在模式码字中。如果给定模式/子模式/参数组合使用哪个码字可以通过帧内预测对编码效率增益产生影响，则用于将码字转换为比特流的熵编码技术也会对编码效率增益产生影响。

某种帧内预测模式是随H.264引入的，在H.265中得到完善，并且在诸如联合探索模型(JEM)，通用视频编码(VVC)，及基准集(BMS)的新编码技术中被进一步完善。可以使用相邻样本值来形成预测块，相邻样本值属于已经可用的样本。根据方向将相邻样本的样本值复制到预测块中。所用的方向的信息可以编码在比特流中，或者可以自己预测。

参考图1，右下描绘了包括H.265的35个可能的预测因子方向中的9个预测因子方向的子集。箭头会聚的点(101)表示正在预测的样本。箭头表示正在预测的样本的预测方向。例如，箭头(102)表示样本(101)的预测方向是从一个样本或多个样本到右上角，与水平方向成45度角。类似地，箭头(103)表示样本(101)的预测方向是从一个样本或多个样本到样本(101)的左下方，与水平方向成22.5度角。

仍然参考图1，在左上方示出了4x4个样本的正方形块(104)(由粗体虚线表示)。方形块(104)包括16个样本，每个样本用“S”和其在Y维度中的位置(例如，行索引)及其在X维度中的位置(例如，列索引)进行标记。例如，样本S21是Y维度中(从顶部开始)的第二个样本和X维度中(从左侧开始)的第一个样本。类似地，块(104)中的样本S44在Y维度和X维度中均为第四个样本。由于块的大小为4×4个样本，因此S44位于右下角。还示出了遵循类似编号方案的参考样本。参考样本用R、及其相对于块(104)的Y位置(例如，行索引)和X位置(列索引)进行标记。在H.264和H.265中，预测样本与正在重建的块相邻；因此不需要使用负值。

帧内图像预测通过从信号指示的预测方向所覆盖的相邻样本中复制参考样本值来发挥作用。例如，假设编码视频比特流包括的信令指示该块的预测方向与箭头(102)一致，即，从一个或多个预测样本到右上角，与水平面成45度角，来对样本进行预测。在该情况下，样本S41，S32，S23和S14使用相同的参考样本R05进行预测。然后使用参考样本R08预测样本S44。

在某些情况下，为了计算参考样本，可以组合多个参考样本的值，例如通过插值；特别是当方向不能被45度整除时。

随着视频编码技术的发展，可能的方向的数量越来越多。在H.264(2003年)中，可以表示九个不同的方向。该数目在H.265(2013年)中增加到33个，并且JEM/VVC/BMS在发表时可以支持多达65个方向。已经进行了一些实验以识别最可能的方向，并且使用熵编码中的某些技术来以少量比特表示那些可能的方向，同时考虑了可能性较小的方向带来的不利结果。此外，这些方向本身有时可以从相邻的已解码的块所使用的相邻方向进行预测。

图2示出了JEM的65个帧内预测方向的示意图(201)，以示出随时间增加的预测方向的数量。

编码视频比特流中表示方向的帧内预测方向比特的映射方法，在不同的视频编码技术中可以不同；可以涵盖，例如，从预测方向到帧内预测模式或到码字的简单直接映射，到涉及大多数可能模式的复杂自适应方案，以及类似的技术。然而，在所有情况下，可能存在某些方向，在统计上相较其它方向，在视频内容中出现的可能性较小。由于视频压缩的目标是减少冗余，因此在运转良好的视频编码技术中，相比可能性更大的方向，那些可能性较小的方向将需要更多的比特来表示。

发明内容

本公开各方面提供了视频编码/解码的方法和装置。一些例子中，装置包括用于视频解码的处理电路。处理电路从已编码视频比特流中解码得到当前块的预测信息。该预测信息指示帧内块复制模式。然后，处理电路根据帧内块复制模式，确定分辨率语法元素的第一部分，其中，所述分辨率语法元素在块级别进行指示。对于帧内块复制模式中的块矢量和帧间预测模式中的运动矢量，分辨率语法元素具有一致的语义。进一步地，处理电路对已编码视频码流中的分辨率语法元素的第二部分进行解码，并根据第一部分及第二部分的组合所指示的目标分辨率，确定块矢量。然后，处理电路根据块矢量，重建当前块的至少一个样本。

根据本申请公开的一个方面，处理电路根据帧内块复制模式，确定第一部分，所述第一部分指示可选分辨率为整数像素。例如，处理电路根据帧内块复制模式，确定第一部分为二进制“1”，所述二进制“1”用于根据用于帧间预测模式中运动矢量的语义，指示整数像素分辨率。然后，处理电路基于分辨率语法元素的第二部分，从可选分辨率中选择目标分辨率。

根据本公开的一个方面，处理电路根据帧内块复制模式，确定分辨率语法元素的第一部分，而不对来自已编码视频码流的附加信息进行解码。一个实施例中，处理电路识别当前块所属的当前图像为当前块的参考图像，并从包括当前块的条带的条带头部，解码得到对用于指示候选列表中候选的最大数量的值。一个例子中，处理电路构建用于帧块复制模式中当前块的合并候选列表，合并候选列表中帧内合并候选的数目不超过该值。一个例子中，处理电路构建用于帧间预测模式中另一块的合并候选列表，合并候选列表中的帧间合并候选的数目不超过该值。

一个实施例中，该条带不使用时间参考图像。另一实施例中，该值以截短的一元码进行编码。

本公开的方面还提供了一种非暂时性计算机可读存储介质，存储有指令，所述指令由视频解码的计算机执行时使该计算机执行该视频编码方法。

附图说明

根据以下详细描述和附图，本公开主题的其它特征、性质和各种优点将变得更加明显，在附图中：

图1是一些例子中帧内预测模式的子集的示意图。

图2是一些例子中帧内预测方向的示意图。

图3是一个实施例的通信系统的简化框图的示意图。

图4是一个实施例的通信系统的简化框图的示意图。

图5是一个实施例的解码器的简化框图的示意图。

图6是一个实施例的编码器的简化框图的示意图。

图7是另一实施例的编码器的框图。

图8是另一实施例的解码器的框图。

图9是本公开实施例的帧内块复制的一个例子的示意图。

图10是本申请实施例的双边匹配的一个例子的示意图。

图11是本申请实施例的模板匹配的一个例子的示意图。

图12是空间合并候选的一个例子的示意图。

图13是用于亮度补偿的参数计算的一个示例。

图14示出了参考块和当前块重叠的一个示例。

图15是公开实施例的示例性过程的概要流程图。

图16是本申请实施例的计算机系统的示意图。

具体实施方式

图3是本公开实施例的通信系统(300)的简化框图。通信系统(300)包括多个终端设备，所述终端设备可通过，例如网络(350)，相互通信。举例来说，通信系统(300)包括通过网络(350)互连的第一对终端设备(310)和(320)。在图3的例子中，第一对终端设备(310)和(320)执行单向数据传输。例如，终端设备(310)可对视频数据(例如由终端设备(310)采集的视频图像流)进行编码以通过网络(350)传输到终端设备(320)。已编码的视频数据以一个或多个已编码视频码流的形式传输。终端设备(320)可从网络(350)接收已编码视频数据，对已编码视频数据进行解码以恢复视频图像，并根据恢复的视频数据显示视频图像。单向数据传输在媒体服务应用等应用中是较常见的。

在另一例子中，通信系统(300)包括执行已编码视频数据的双向传输的第二对终端设备(330)和(340)，所述双向传输可发生在，例如视频会议期间。对于双向数据传输，一个例子中，终端设备(330)和(340)中的每个终端终端设备可对视频数据(例如由该终端设备采集的视频图像流)进行编码，以通过网络(350)传输到终端设备(330)和(340)中的另一终端设备。终端设备(330)和终端设备(340)中的每个终端设备还可接收由终端设备(330)和(340)中的另一终端设备传输的已编码视频数据，并可对所述已编码视频数据进行解码以恢复视频图像，根据恢复的视频数据在可访问的显示设备上显示视频图像。

在图3的例子中，终端设备(310)、(320)、(330)和(340)可以是服务器、个人计算机和智能电话，但本公开的原理可不限于此。本公开实施例可应用于笔记本电脑、平板电脑、媒体播放器和/或专用视频会议设备。网络(350)表示在终端设备(310)、(320)、(330)和(340)之间传送已编码视频数据的任何数量的网络，包括例如有线(连线的)和/或无线的通信网络。通信网络(350)可在电路交换和/或分组交换信道中交换数据。代表性的网络可包括电信网络、局域网、广域网和/或互联网。出于本文的目的，除非在下文中有所解释，否则网络(350)的架构和拓扑对于本申请的操作来说可能是无关紧要的。

作为所公开的主题的应用的示例，图4是视频编码器和视频解码器在流传输环境中的部署方式。本公开主题也可适用于其它支持视频的应用，包括，例如视频会议、数字电视、在包括CD、DVD、存储棒等的数字介质上存储压缩视频的应用等。

流传输系统可包括采集子系统(413)，所述采集子系统可包括例如数码相机等的视频源(401)，所述视频源创建未压缩的视频图像流(402)。一个例子中，视频图像流(402)包括由数码相机拍摄的样本。相较于，视频图像流(402)被描绘为粗线以强调比已编码视频数据(404)(或已编码的视频码流)的数据体量更大，可由电子设备(420)处理，该电子设备(420)包括耦接到视频源(401)的视频编码器(403)。视频编码器(403)可包括硬件、软件或软硬件组合以实现或实施如下文详细描述的所公开主题的各方面。已编码的视频数据(404)(或已编码的视频码流(404))被描绘为细线以强调比视频图像流(402)的数据体量更小，可存储在流式传输服务器(405)上以供将来使用。一个或多个流传输客户端子系统，例如图4中的客户端子系统(406)和(408)，可访问流传输服务器(405)以提取已编码的视频数据(404)的副本(407)和(409)。客户端子系统(406)可包括，例如电子设备(430)中的，视频解码器(410)。视频解码器(410)对已编码视频数据的传入副本(407)进行解码，生成可在显示器(412)(例如显示屏)或其它呈现设备(未示出)上呈现的输出视频图像流(411)。在一些流传输系统中，可根据某些视频编码/压缩标准对已编码的视频数据(404)、(407)和(409)(例如视频码流)进行编码。该些标准的例子包括ITU-TH.265。一个例子中，正在开发的视频编码标准被俗称为多功能视频编码(Versatile Video Coding，VVC)。本申请可用于VVC标准的上下文中。

应注意，电子设备(420)和(430)可包括其它组件(未示出)。例如，电子设备(420)可包括视频解码器(未示出)，电子设备(430)还可包括视频编码器(未示出)。

图5是本公开实施例的视频解码器(510)的框图。视频解码器(510)可设置在电子设备(530)中。电子设备(530)可包括接收器(531)(例如接收电路)。视频解码器(510)可用于替代图4示例中的视频解码器(410)。

接收器(531)可接收将由视频解码器(510)解码的一个或多个已编码视频序列。在同一实施例或另一实施例中，一次接收一个已编码视频序列，其中每个已编码视频序列的解码独立于其它已编码视频序列。可从信道(501)接收已编码视频序列，所述信道可以是通向存储已编码的视频数据的存储装置的硬件/软件链路。接收器(531)可接收已编码视频数据以及其它数据，例如，已编码音频数据和/或辅助数据流，其可被转发到它们各自的使用实体(未标示)。接收器(531)可将已编码视频序列与其它数据分开。为了防止网络抖动，缓冲存储器(515)可耦接在接收器(531)与熵解码器/解析器(520)(后文中称为“解析器(520)”)之间。在某些应用中，缓冲存储器(515)是视频解码器(510)的一部分。在其它情况下，所述缓冲存储器(515)可设置在视频解码器(510)外部(未标示)。而在另外一些情况下，视频解码器(510)的外部设置有缓冲存储器(未示出)以，例如，防止网络抖动，且在视频解码器(510)的内部可设置另一缓冲存储器(515)以，例如，处理播出定时。而当接收器(531)从具有足够带宽和可控性的存储/转发设备或从等时同步网络接收数据时，也可能不需要配置缓冲存储器(515)，或可以将所述缓冲存储器做得较小。当然，为了在互联网等尽力而为分组网络上使用，也可能需要缓冲存储器(515)，所述缓冲存储器可相对较大且可具有自适应性大小，且可至少部分地实施于操作系统或视频解码器(510)外部的类似元件(未标示)中。

视频解码器(510)可包括解析器(520)以根据已编码视频序列重建符号(521)。这些符号的类别包括用于管理解码器(510)操作的信息，还可能包括用于控制诸如呈现设备(512)(例如显示屏)的呈现设备的信息，该呈现设备不是电子设备(530)的组成部分，但是可以耦合到电子设备(530)，如图5所示。用于呈现设备的控制信息可以是补充增强信息(SEI消息)或视频可用性信息(VUI)参数集片段(未示出)的形式。解析器(520)可对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可根据视频编码技术或标准进行，且可遵循各种原理，包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等等。解析器(520)可基于对应于群组的至少一个参数，从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图像群组(Group of Pictures，GOP)、图像、图块、条带、宏块、编码单元(Coding Unit，CU)、块、变换单元(Transform Unit，TU)、预测单元(Prediction Unit，PU)等。解析器(520)还可从已编码视频序列中提取信息，例如变换系数、量化器参数值、运动矢量等。

解析器(520)可对从缓冲存储器(515)接收的视频序列执行熵解码/解析操作，用于创建符号(521)。

符号(521)的重建可涉及多个不同单元，这取决于已编码视频图像或一部分已编码视频图像(例如：帧间图像和帧内图像、帧间块和帧内块)的类型以及其它因素。涉及哪些单元以及涉及方式可由解析器(520)从已编码视频序列解析的子群控制信息控制。为了简洁起见，未描述解析器(520)与下文的多个单元之间的此类子群控制信息流。

除已经提及的功能块以外，视频解码器(510)可在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施中，这些单元中的许多单元彼此紧密交互并且可以彼此集成。然而，出于描述所公开主题的目的，概念上细分成下文的功能单元是适当的。

第一单元是缩放器/逆变换单元(551)。缩放器/逆变换单元(551)从解析器(520)接收符号(521)形式的量化变换系数以及控制信息，包括使用的变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(551)可输出包括样本值的块，所述样本值可输入到聚合器(555)中。

在一些情况下，缩放器/逆变换单元(551)的输出样本可属于帧内编码块；即：该块不使用来自先前已重建的图像的预测性信息，而是可以使用来自当前图像的先前已重建部分的预测性信息。此类预测性信息可由帧内图像预测单元(552)提供。在一些情况下，帧内图像预测单元(552)使用从当前图像缓冲器(558)提取的周围的已重建信息生成与正在重建的块的大小和形状相同的块。例如，当前图像缓冲器(558)缓冲部分已重建的当前图像和/或已完全重建的当前图像。在一些情况下，聚合器(555)基于每个样本，将帧内预测单元(552)生成的预测信息添加到由缩放器/逆变换单元(551)提供的输出样本信息中。

在其它情况下，缩放器/逆变换单元(551)的输出样本可属于帧间编码的、可能经过运动补偿的块。在此情况下，运动补偿预测单元(553)可访问参考图像存储器(557)以提取用于预测的样本。在根据属于该块的符号(521)对提取的样本进行运动补偿之后，这些样本可由聚合器(555)添加到缩放器/逆变换单元(551)的输出中(在这种情况下被称作残差样本或残差信号)，从而生成输出样本信息。运动补偿预测单元(557)获取预测样本所使用的参考图像存储器(553)内的地址可受到运动矢量控制，且所述运动矢量以所述符号(521)的形式而供运动补偿预测单元(553)使用，所述符号(521)可以包括，例如X、Y和参考图像分量。运动补偿还可包括，在使用子样本精确运动矢量时，对从参考图像存储器(557)提取的样本值进行内插，以及运动矢量预测机制等。

聚合器(555)的输出样本可在环路滤波器单元(556)中被各种环路滤波技术处理。视频压缩技术可包括环路内滤波器技术，所述环路内滤波器技术受控于已编码视频序列(也称作已编码视频码流)中的参数，且所述参数作为来自解析器(520)的符号(521)被环路滤波器单元(556)使用，也可响应于在对已编码图像或已编码视频序列的先前部分(按解码次序)进行解码期间获得的元信息，也可响应于先前已重建且经过环路滤波的样本值。

环路滤波器单元(556)的输出可以是样本流，所述样本流可输出到呈现设备(512)以及存储在参考图像存储器(557)中供后续的帧间图像预测使用。

一旦被完全重建，某些已编码图像就可用作参考图像以用于将来的预测。例如，一旦对应于当前图像的已编码图像被完全重建，且已编码图像(通过例如解析器(520))被识别为参考图像，则当前图像缓冲器(558)可变为参考图像存储器(557)的一部分，且可在开始重建后续的已编码图像之前重新分配新的当前图像缓冲器。

视频解码器(510)可根据例如ITU-TH.265标准中的预定视频压缩技术执行解码操作。编码视频序列既遵守视频压缩技术文档或标准中的语法元素，也遵守视频压缩技术或标准的概要文档，从这个意义上来说，编码视频序列符合所使用的视频压缩技术或标准指定的语法元素。具体来说，概要文档可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在所述概要文档下可供使用的仅有工具。对于合规性，还要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下，层级限制最大图像大小、最大帧率、最大重建样本速率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图像大小等。在一些情况下，由层级设定的限制可通过假想参考解码器(Hypothetical Reference Decoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

一个实施例中，接收器(531)可连同已编码视频一起接收附加(冗余)数据。所述附加数据可以是已编码视频序列的一部分。所述附加数据可由视频解码器(510)用于对数据进行正确解码和/或更准确地重建原始视频数据。附加数据可以是，例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余条带、冗余图像、前向纠错码等形式。

图6是本公开实施例的视频编码器(603)的框图。视频编码器(603)设置于电子设备(620)中。电子设备(620)包括传输器(640)(例如传输电路)。视频编码器(603)可用于替代图4例子中的视频编码器(403)。

视频编码器(603)可从视频源(601)(并非图6例子中的电子设备(620)的一部分)接收视频样本，所述视频源可采集将由视频编码器(603)编码的视频图像。在另一实施例中，视频源(601)是电子设备(620)的一部分。

视频源(601)可提供将由视频编码器(603)编码的呈数字视频样本流形式的源视频序列，所述数字视频样本流可具有任何合适的位深度(例如：8位、10位、12位……)、任何色彩空间(例如BT.601YCrCB、RGB……)和任何合适的取样结构(例如YCrCb4:2:0、YCrCb4:4:4)。在媒体服务系统中，视频源(601)可以是存储先前已准备的视频的存储装置。在视频会议系统中，视频源(601)可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为多个单独的图像，当按顺序观看时，这些图像被赋予运动效果。图像自身可构建为空间像素阵列，其中，取决于所用的取样结构、色彩空间等，每个像素可包括一个或多个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重描述采样。

根据实施例，视频编码器(603)可实时或在由应用所要求的任何其它时间约束下，将源视频序列的图像编码并压缩成已编码视频序列(643)。施行适当的编码速度是控制器(650)的一个功能。在一些实施例中，控制器(650)控制如下文所描述的其它功能单元，且在功能上耦接到这些单元。为了简洁起见，图中未标示耦接。由控制器(650)设置的参数可包括速率控制相关参数(图像跳过、量化器、率失真优化技术的λ值等)、图像大小、图像群组(group of pictures，GOP)布局，最大运动矢量搜索范围等。控制器(650)可具有其它合适的功能，这些功能属于针对某一系统设计而优化的视频编码器(603)。

一些实施例中，视频编码器(603)在编码环路中进行操作。作为简单的描述，一个例子中，编码环路可包括源编码器(630)(例如，负责基于待编码的输入图像和参考图像创建符号，例如符号流)和嵌入于视频编码器(603)中的(本地)解码器(633)。解码器(633)以类似于(远程)解码器创建样本数据的方式重建符号以创建样本数据(因为在本公开的主题所考虑的视频压缩技术中，符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流(样本数据)输入到参考图像存储器(634)。由于符号流的解码产生与解码器位置(本地或远程)无关的精确到位的结果，因此参考图像存储器(634)中的内容在本地编码器与远程编码器之间也是按位精确对应的。换句话说，编码器的预测部分“看到”的参考图像样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图像同步性的基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)也用于一些相关技术。

本地解码器(633)的操作可与“远程”解码器相同，例如视频解码器(510)，该操作已在上文结合图5详细描述了。然而，简要参考图5，当符号可用且熵编码器(645)和解析器(520)能够无损地将符号编码/解码为已编码视频序列时，包括缓冲存储器(515)和解析器(520)在内的视频解码器(510)的熵解码部分，可能无法完全在本地解码器(633)中实现。

此时可以观察到，除存在于解码器中的解析/熵解码之外的任何解码器技术，也必定以基本上相同的功能形式存在于对应的编码器中。出于此原因，本申请侧重于解码器操作。可简化编码器技术的描述，因为编码器技术与全面描述的解码器技术互逆。更详细的描述仅在某些区域必要，并且已在下文提供。

在操作期间，一些例子中，源编码器(630)可执行运动补偿预测编码。参考来自视频序列中被指定为“参考图像”的一个或多个先前已编码图像，所述运动补偿预测编码对输入图像进行预测性编码。以此方式，编码引擎(632)对输入图像的像素块与参考图像的像素块之间的差异进行编码，所述参考图像可被选择作为所述输入图像的预测参考。

本地视频解码器(633)可基于源编码器(630)创建的符号，对可指定为参考图像的图像的已编码视频数据进行解码。编码引擎(632)的操作可为有损过程。当已编码视频数据可在视频解码器(图6中未示)处被解码时，重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(633)复制解码过程，所述解码过程可由视频解码器对参考图像执行，且可使重建的参考图像存储在参考图像高速缓存(634)中。以此方式，视频编码器(603)可在本地存储重建的参考图像的副本，所述副本与(不存在传输误差时)远端视频解码器将获得的重建参考图像具有共同内容。

预测器(635)可针对编码引擎(632)执行预测搜索。即，对于将要编码的新图像，预测器(635)可在参考图像存储器(634)中搜索可作为所述新图像的合适的预测参考的样本数据(作为候选参考像素块)或某些元数据，例如参考图像运动矢量、块形状等。预测器(635)可基于样本块逐像素块操作，以找到合适的预测参考。在一些情况下，根据预测器(635)获得的搜索结果，可确定输入图像具有从参考图像存储器(634)中存储的多个参考图像取得的预测参考。

控制器(650)可管理源编码器(630)的编码操作，包括，例如设置用于对视频数据进行编码的参数和子群参数。

可在熵编码器(645)中对所有上述功能单元的输出进行熵编码。熵编码器(645)根据例如哈夫曼编码、可变长度编码、算术编码等本领域技术人员已知的技术对各种功能单元生成的符号进行无损压缩，从而将所述符号转换成编码视频序列。

传输器(640)可缓冲由熵编码器(645)创建的编码视频序列，从而为通过通信信道(660)进行传输做准备，所述通信信道可以是通向将存储已编码的视频数据的存储装置的硬件/软件链路。传输器(640)可将来自视频编码器(603)的已编码视频数据与要传输的其它数据合并，所述其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。

控制器(650)可管理视频编码器(603)的操作。在编码期间，控制器(650)可以为每个已编码图像分配某一已编码图像类型，但这可能影响可应用于相应的图像的编码技术。例如，通常可为图像分配以下任一种图像类型：

帧内图像(I图像)，其可以是不将序列中的任何其它图像用作预测源就可被编码和解码的图像。一些视频编解码器容许不同类型的帧内图像，包括，例如，独立解码器刷新(Independent Decoder Refresh，IDR)图像。所属领域的技术人员了解I图像的变形及其相应的应用和特征。

预测图像(P图像)可以是可使用帧内预测或帧间预测来编码和解码的图像，帧内预测或帧间预测使用至多一个运动向量和参考索引来预测每个块的采样值。

双向预测图像(B图像)可以是可以使用帧内预测或帧间预测来编码和解码的图像，帧内预测或帧间预测使用至多两个运动向量和参考索引来预测每个块的采样值。类似地，多个预测性图像可使用多于两个参考图像和相关联的元数据以用于重建单个块。

源图像通常可在空间上细分成多个样本块(例如，4×4、8×8、4×8或16×16个样本的块)，且逐块进行编码。这些块可参考其它(已编码)块进行预测编码，根据应用于块的相应图像的编码分配来确定所述其它块。举例来说，I图像的块可进行非预测编码，或所述块可参考同一图像中的已编码的块来进行预测编码(空间预测或帧内预测)。P图像的像素块可参考一个先前已编码的参考图像，通过空间预测或时域预测进行预测编码。B图像的块可参考一个或两个先前已编码的参考图像，通过空间预测或时域预测进行预测编码。

视频编码器(603)可根据例如ITU-TH.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器(603)可执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，已编码视频数据可符合所用的视频编码技术或标准规指定的语法元素。

一个实施例中，传输器(640)可在传输已编码的视频时传输附加数据。源编码器(630)可将此类数据作为编码视频序列的一部分。附加数据可包括时间/空间/SNR增强层、冗余图像和条带等其它形式的冗余数据、补充增强信息(Supplementary EnhancementInformation，SEI)消息、可视可用性信息(Visual Usability Information，VUI)参数集片段等。

采集到的视频可作为呈时间序列的多个源图像(视频图像)。帧内图像预测(常常简化为帧内预测)利用给定图像中的空间相关性，而帧间图像预测则利用图像之间的(时间或其它)相关性。一个例子中，将正在编码/解码的特定图像分割成块，正在编码/解码的特定图像被称作当前图像。在当前图像中的块类似于视频中先前已编码且仍在缓冲中的参考图像中的参考块时，可通过称作运动矢量的矢量对当前图像中的块进行编码。所述运动矢量指向参考图像中的参考块，且在使用多个参考图像的情况下，所述运动矢量可具有识别参考图像的第三维度。

在一些实施例中，双向预测技术可用于帧间图像预测中。根据双向预测技术，使用两个参考图像，例如按解码次序都在视频中的当前图像之前(但按显示次序可能分别是过去和将来)第一参考图像和第二参考图像。可通过指向第一参考图像中的第一参考块的第一运动矢量和指向第二参考图像中的第二参考块的第二运动矢量对当前图像中的块进行编码。具体来说，可通过第一参考块和第二参考块的组合来预测所述块。

此外，合并模式技术可用于帧间图像预测，以提高编码效率。

根据本公开的一些实施例，帧间图像预测和帧内图像预测等预测的执行以块为单位。举例来说，根据HEVC标准，将视频图像序列中的图像分割成编码树单元(coding treeunit，CTU)以用于压缩，图像中的CTU具有相同大小，例如64×64像素、32×32像素或16×16像素。一般来说，CTU包括三个编码树块(coding tree block，CTB)，所述三个编码树块是一个亮度CTB和两个色度CTB。可按照递归的方式，将每个CTU以四叉树拆分为一个或多个编码单元(coding unit，CU)。举例来说，可将64×64像素的CTU拆分为一个64×64像素的CU，或4个32×32像素的CU，或16个16×16像素的CU。一个例子中，分析每个CU以确定该CU的预测类型，例如帧间预测类型或帧内预测类型。此外，根据时间和/或空间可预测性，将CU拆分为一个或多个预测单元(prediction unit，PU)。通常，每个PU包括亮度预测块(predictionblock，PB)和两个色度PB。一个实施例中，编码(编码/解码)中的预测操作以预测块为单位来执行。以亮度预测块作为预测块为例，预测块包括像素值(例如，亮度值)的矩阵，例如8×8像素、16×16像素、8×16像素、16×8像素等等。

图7是本公开另一实施例的视频编码器(703)的示意图。视频编码器(703)用于接收视频图像序列中的当前视频图像内的样本值的处理块(例如预测块)，且将所述处理块编码到已编码图像中，已编码图像是已编码视频序列的一部分。一个例子中，视频编码器(703)用于替代图4实施例中的视频编码器(403)。

在HEVC的例子中，视频编码器(703)接收用于处理块的样本值的矩阵，所述处理块为，例如8×8样本的预测块等。视频编码器(703)使用，例如率失真(rate-distortion，RD)优化来确定处理块的编码采用帧内模式、帧间模式还是双向预测模式更好。当在帧内模式下对处理块进行编码时，视频编码器(703)可使用帧内预测技术以将处理块编码到已编码图像中；当在帧间模式或双向预测模式下对处理块进行编码时，视频编码器(703)可分别使用帧间预测或双向预测技术将处理块编码到已编码图像中。在某些视频编码技术中，合并模式可以是帧间图像预测子模式，其中，在不借助预测因子外部的已编码运动矢量分量的情况下，从一个或多个运动矢量预测因子导出运动矢量。在某些其它视频编码技术中，可存在适用于主题块的运动矢量分量。一个例子中，视频编码器(703)包括其它组件，例如模式判定模块(未示出)，以确定处理块的模式。

在图7的实施例中，视频编码器(703)包括如图7所示的耦接到一起的帧间编码器(730)、帧内编码器(722)、残差计算器(723)、开关(726)、残差编码器(724)、通用控制器(721)和熵编码器(725)。

帧间编码器(730)用于接收当前块(例如处理块)的样本，将所述块与参考图像中的一个或多个参考块(例如先前图像和后来图像中的块)进行比较，生成帧间预测信息(例如根据帧间编码技术的冗余信息描述、运动矢量、合并模式信息)，并基于帧间预测信息使用任何合适的技术计算帧间预测结果(例如已预测块)。在一些例子中，参考图像是基于已编码视频信息解码的已解码参考图像。

帧内编码器(722)用于接收当前块(例如处理块)的样本，在一些情况下将所述块与同一图像中的已编码块进行比较，在变换之后生成量化系数，并在一些情况下还(例如根据一个或多个帧内编码技术的帧内预测方向信息)生成帧内预测信息。一个例子中，帧内编码器(722)还基于帧内预测信息和同一图像中的参考块计算帧内预测结果(例如已预测块)。

通用控制器(721)用于确定通用控制数据，并基于所述通用控制数据控制视频编码器(703)的其它组件。一个例子中，通用控制器(721)确定块的模式，并基于所述模式向开关(726)提供控制信号。例如，当所述模式是帧内模式时，通用控制器(721)控制开关(726)以选择供残差计算器(723)使用的帧内模式结果，控制熵编码器(725)选择帧内预测信息并将所述帧内预测信息添加在码流中；以及，当所述模式是帧间模式时，通用控制器(721)控制开关(726)以选择供残差计算器(723)使用的帧间预测结果，并控制熵编码器(725)选择帧间预测信息并将所述帧间预测信息添加在码流中。

残差计算器(723)用于计算所接收的块与选自帧内编码器(722)或帧间编码器(730)的预测结果之间的差(残差数据)。残差编码器(724)用于基于残差数据进行操作，以对残差数据进行编码生成变换系数。一个例子中，残差编码器(724)用于在频域对残差数据进行变换，并生成变换系数。然后，变换系数经过量化处理以获得量化的变换系数。在各种实施例中，视频编码器(703)还包括残差解码器(728)。残差解码器(728)用于执行逆变换，并生成已解码残差数据。已解码残差数据可适合帧内编码器(722)和帧间编码器(730)使用。例如，帧间编码器(730)可基于已解码残差数据和帧间预测信息生成已解码块，且帧内编码器(722)可基于已解码残差数据和帧内预测信息生成已解码块。已解码块经过适当处理后生成已解码图像，所述已解码图像可缓存在存储器电路(未示出)中，在一些例子中用作参考图像。

熵编码器(725)用于将码流格式化以产生已编码块。熵编码器(725)根据例如HEVC标准等合适的标准加入各种信息。一个例子中，熵编码器(725)用于在码流中加入通用控制数据、所选的预测信息(例如帧内预测信息或帧间预测信息)、残差信息，以及其它合适的信息。应注意，根据所公开的主题，当在帧间模式或双向预测模式的合并子模式下对块进行编码时，不存在残差信息。

图8是本公开另一实施例的视频解码器(810)的示意图。视频解码器(810)用于接收已编码图像，已编码图像是已编码视频序列的一部分，并对所述已编码图像进行解码以生成已重建图像。一个例子中，视频解码器(810)用于替代图4实施例中的视频解码器(410)。

在图8的例子中，视频解码器(810)包括如图8中所示耦接到一起的熵解码器(871)、帧间解码器(880)、残差解码器(873)、重建模块(874)和帧内解码器(872)。

熵解码器(871)可用于根据已编码图像来重建某些符号，这些符号表示构成所述已编码图像的语法元素。此类符号可包括，例如，用于对所述块进行编码的模式(例如帧内模式、帧间模式、双向预测模式、后两者的合并子模式或另一子模式)、可用于识别帧内解码器(872)或帧间解码器(880)预测时分别使用的某些样本或元数据的预测信息(例如帧内预测信息或帧间预测信息)、呈例如量化变换系数等形式的残差信息，等。一个例子中，当预测模式是帧间或双向预测模式时，将帧间预测信息提供给帧间解码器(880)；当预测类型是帧内预测类型时，将帧内预测信息提供给帧内解码器(872)。残差信息可在经过逆量化处理后提供给残差解码器(873)。

帧间解码器(880)用于接收帧间预测信息，并基于所述帧间预测信息生成帧间预测结果。

帧内解码器(872)用于接收帧内预测信息，并基于所述帧内预测信息生成预测结果。

残差解码器(873)用于执行逆量化以提取解量化的变换系数，并对所述解量化的变换系数进行处理，从而将残差从频域转换到空间域。残差解码器(873)还可能需要某些控制信息(用于加入量化器参数QP)，且所述信息可由熵解码器(871)提供(未标示数据路径，因为这仅仅是小体量的控制信息)。

重建模块(874)用于在空间域中对由残差解码器(873)输出的残差与预测结果(根据具体情况可由帧间预测模块或帧内预测模块输出)进行组合以形成已重建块，所述已重建块可以是已重建图像的一部分，所述已重建图像继而可以是已重建视频的一部分。应注意，可执行其它合适的操作，例如解块操作等，来改善视觉质量。

应注意，可使用任何合适的技术来实现视频编码器(403)、(603)和(703)以及视频解码器(410)、(510)和(810)。一个实施例中，可使用一个或多个集成电路来实现视频编码器(403)、(603)和(703)以及视频解码器(410)、(510)和(810)。在另一实施例中，可使用执行软件指令的一个或多个处理器来实现视频编码器(403)、(603)和(703)以及视频解码器(410)、(510)和(810)。

本公开的各方面提供了根据同一图像的基于块的补偿技术。

基于块的补偿可以用于帧间预测和帧内预测。对于帧间预测，利用不同图像进行基于块的补偿称为运动补偿。对于帧内预测，也可以利用相同图像中先前已重建的区域进行基于块的补偿。利用相同图像内的已重建区域进行的基于块的补偿称为图像内块补偿或帧内块复制。指示相同图像中当前块和参考块之间的偏移的位移矢量称为块矢量(blockvector，或简称BV)。运动补偿中的运动矢量可以是任何值(正或负，在x或y方向)，与之不同的是，块矢量具有一些约束以确保参考块可用并且已经重建。此外，一些例子中，考虑到并行处理，排除了一些位于图块边界或波前阶梯状边界的参考区域。

块矢量的编码可以是显式的或隐式的。在显式模式中，块向量与其预测因子之间的差异用信号表示；在隐式模式中，以与合并模式中的运动矢量类似的方式，利用预测因子(称为块矢量预测因子)恢复块矢量。在一些实现中，块矢量的分辨率被限制在整数位；在其它系统中，允许块向量指向小数位。

一些例子中，可以使用参考索引方法来用信号表示在块级别使用帧内块复制。然后将正在解码的当前图像作为参考图像。一个例子中，将这样的参考图像放在参考图像列表的最后一个位置。该特殊参考图像还可以在缓冲器，例如解码图像缓冲器(decodedpicture buffer，DPB)，与其它时域参考图像一起管理。

帧内块复制也存在一些变形，例如翻转帧内块复制(参考块在用于预测当前块之前被水平或垂直翻转)，或基于线的帧内块复制(MxN编码块内的每个补偿单元是Mx1或1xN的线)。

图9是本公开实施例的帧内块复制的一个例子的示意图。当前图像(900)正在被解码。当前图像(900)包括已重建区域(910)(灰色区域)和待解码区域(920)(白色区域)。当前块(930)正由解码器重建。可以利用已重建区域(910)中的参考块(940)重建当前块(930)。参考块(940)和当前块(930)之间的位置偏移称为块矢量(950)(或BV(950))。

根据本公开的一些方面，可针对帧内块复制适当地修改基于运动补偿的技术。

一个例子中，模式匹配运动向量推导(pattern matched motion vectorderivation，PMMVD)模式是指，块的运动信息不用信号表示，而是在编码器和解码器侧推导得出的技术。通常，存在两种模式匹配运动矢量推导方法，双边匹配和模板匹配。

图10是一些实施例的双边匹配的一个例子的示意图。如图10所示，双边匹配用于，通过沿着(当前图像Cur Pic中的)当前CU(1010)的运动轨迹在两个不同的参考图像(Ref0和Ref1)中找到最匹配的两个块(1020)和(1030)，从而推导出当前CU(1010)的运动信息。假设运动轨迹是连续的，指向两个参考块(1020)和(1030)的运动矢量MV0和MV1应当与当前图像(Cur Pic)与两个参考图像(Ref0和Ref1)之间的时间距离，即TD0和TD1，成比例。特殊情况下，当所述当前图像的时间在这两个参考图像之间、并且当前图像(Cur Pic)到这两个参考图像(Ref0和Ref1)的时间距离相同时，双边匹配变为基于镜像的双向MV。

图11是本公开实施例中模板匹配的一个例子的示意图。如图11所示，模板匹配用于通过找到当前图像(Cur Pic)中的模板(包括当前CU(1110)的顶部相邻块(1120)和左侧相邻块和(1130))在参考图像(Ref0)中最匹配的块(1140)和(1150)(具有与模板相同的形状和大小)来推导出当前CU(1110)的运动信息。

一些例子中，在块级别上执行运动补偿，即，当前块是使用相同的运动信息执行运动补偿的处理单元。给定块的大小，对块中的所有像素使用相同的运动信息来形成其预测块。

另一例子中，运动补偿中使用了块级合并候选的技术。块级合并候选可包括空间合并候选和时间邻近位置。在双向预测中，块级合并候选还可包括已有的合并候选的运动向量的一些组合。

图12是空间合并候选的一个例子的示意图。在图12的例子中，当前块(1201)包括在运动搜索过程期间已由编码器发现的、可根据已空间移位的相同大小的先前块预测得到的样本。另外，不对MV直接编码，而是可以从一个或多个参考图像所关联的元数据中推导出所述MV，例如，使用五个周围样本(表示为A0、A1和B0、B1、B2(分别对应1202到1206))中的任一样本所关联的MV，从(按解码次序)最近的参考图像推导出所述MV。然后，MV预测可使用来自相邻块所使用的同一参考图像中的预测因子。在图12的例子中，将当前块的相邻位置处的样本(1202)-(1206)作为空间合并候选。

在另一例子中，将亮度补偿(illumination compensation，IC)用于运动补偿。

例如，因不同图像或甚至不同区域之间的亮度变化，有条件的话，通过调整亮度来反映该变化，可改进预测准确性。一些例子中，使用缩放因子a和偏移b，对已经过帧间编码的块进行块级的亮度调整，可为每个已经过帧间模式编码的编码单元(CU)适应性地启用或禁用亮度调整。亮度调整也称为亮度补偿(illumination compensation，IC)。一个例子中，假设x为预测块A的一个像素的亮度值，经过亮度补偿后，通过y＝ax+b计算用于新预测块B的相应像素的调整后的亮度值，该调整后的亮度值可用于运动补偿。可利用当前CU的相邻像素与参考图像中参考块的相邻像素之间的差，来用信号表示或计算参数a和b。或者，它们可从相邻的已编码的块(已具有参数a和b)推出。

图13是用于亮度补偿的参数计算的一个例子。在图13的例子中，选择当前CU(1310)的多个相邻样本(1320)，将选择的相邻样本(1320)的亮度值作为y的代表值。类似地，选择参考块(1330)的、分别与所选择的相邻样本(1320)相对应的多个相邻样本(1340)，所选择的相邻样本(1340)的亮度值用作x的代表值。y的代表值和x的代表值用于计算参数a和b，假设y＝ax+b。使Rec_neig表示当前CU的相邻样本的亮度值，Rec_refneig表示参考块的相应相邻样本的亮度值，采用2N表示Rec_neig和Rec_refneig中的像素(样本)的数量。如此，可利用等式1和等式2所示的方法来计算a和b：

另一例子中，运动补偿使用自适应运动矢量分辨率。

传统上，运动矢量的分辨率为固定值，例如，H.264/AVC及HEVC主配置文件中为1/4像素精度，或1/8像素精度等。在HEVC SCC中，运动矢量的分辨率可选为1整数像素或1/4像素。这些像素取值，在每个条带之间可以进行切换。换言之，一个条带中所有运动矢量的分辨率将是相同的。

在一些后来的进展中，运动矢量的分辨率可为1/4像素、1整数像素或4整数像素。4整数像素指每个单元的矢量差表示4个整数像素。因此，符号“0”与“1”之间的距离为4个整数像素。并且，在块级别进行适配——运动矢量可逐块地在不同分辨率中选择。一些例子中，使用具有1个二值数位(bin)或2个二值数位(bin)的整数运动矢量(Integer motionvector,IMV)标志来实现这种适配。第一个二值数位指示是否以整数像素分辨率对当前块的MV进行编码。若否，那么将以1/4像素分辨率对该MV进行编码。当第一个二值数位指示以整数像素分辨率对当前块的MV进行编码时，第二个二值数位指示是否以4像素整数分辨率对当前块的MV进行编码。若否，则将以1像素整数分辨率对该MV进行编码。

运动补偿的技术，例如模式匹配的运动矢量导出技术、块级候选技术、亮度补偿技术等，在进行适当地调整后可以应用在帧内块复制中，以提高效率。

根据本公开的一方面，用信号表示块矢量分辨率，自适应块矢量分辨率和自适应运动矢量分辨率使用统一的信令(例如，同一标志)表示。例如，帧内块复制模式和帧间模式共享相同的码流语法元素结构进行矢量分辨率适配。相同的IMV信令标志将用于表示帧内块复制中的块矢量(block vector，BV)和运动补偿中的运动矢量(motion vector，MV)。

一个例子中，BV的可选分辨率的集合是MV的可选分辨率的子集。例如，MV的可选分辨率包括分数像素分辨率(例如，1/4像素)的子集和整数像素分辨率(例如，1整数像素和4整数像素)的子集。BV的可选分辨率包括整数像素分辨率(例如，1整数像素和4整数像素)的子集。在运动补偿中，分辨率的信令包括第一信令二值数位，用于指示是否以整数像素分辨率(整数像素)对矢量进行编码。当第一信令二值数位指示以整数像素分辨率对该矢量进行编码，那么第二信令二值数位用于指示对该矢量进行编码所采用的整数像素分辨率。在帧内块复制模式下对当前块进行编码时，因为可能的分辨率被限制为整数像素分辨率，第一信令bin可推导得出，而不用信号表示。对于IMV标志中的其它二值数位，用于BV编码的每个二值数位的含义将与用于MV编码的二值数位的含义相同。表1和表2示出了如何使用同一IMV标志使BV分辨率与MV分辨率一致的例子。

表1：具有1/4、1及4像素整数的IMV标志的二进制化

表2：具有1/4、1/2、1及4像素整数的IMV标志的二进制化

另一方法中，当在帧内块复制模式下对一个块进行编码时，BV的可选分辨率可与MV的可选分辨率不同。例如，BV的分辨率可在1像素、2像素或4像素整数间切换，而MV的分辨率可在1/4像素、1像素及4像素整数间切换。但是，当BV的可选分辨率的数目(3种像素)与MV的可选分辨率的数目(也是3种像素)相同时，两种矢量(BV和MV)仍可共享IMV标志，用于用信号表示分辨率。然而，IMV标志的不同二进制化的语义是不同的。表3示出了对于BV使用1、2及4像素整数分辨率、对于MV使用1/4、1及4像素整数分辨率进行IMV标志二进制化的例子。

表3：对于MV使用1/4、1及4像素、对于BV使用1、2及4像素进行IMV标志的二进制化

二进制化	块矢量分辨率	运动矢量分辨率
			0	1像素整数	1/4像素
10	2像素整数	1像素整数
			11	4像素整数	4像素整数

根据本公开的另一方面，当合并模式被启用、且不使用时间参考图像时，推导出帧内块复制模式。因此，不使用时间参考图像时，例如在帧内块复制情况下，可使用信令表示条带中合并候选的最大数目。

在常规的视频编码方法中，合并模式仅在当前块在帧间图像补偿模式下进行编码时才应用，且在一个例子中称为帧间图像合并模式。因此，当当前条带具有至少一个时间参考图像时，用信号表示当前条带使用的合并候选的最大数量。

一个实施例中，在编码器侧，当在条带中使用帧内块复制时，编码器不使用时间参考图像对条带进行编码，且为该条带启用合并模式，以指示将帧内块复制预测用于该条带。进一步地，编码器用信号表示条带头中当前条带使用的合并候选的最大数量。因为帧内块复制是这种条带中唯一的合并模式类型，合并候选的最大数目用于指示帧内块复制允许使用的合并候选的最大数量。因此，在解码器侧，当检测到对不具有时间参考图像的条带启用合并模式时，解码器确定该条带使用帧内块复制模式。进一步地，在解码器侧，解码器可根据条带头，对用于帧内块复制模式的最大数目的合并候选进行解码。

一种方法中，在不使用时间参考图像的情况下(例如，帧内块复制模式)，用信号表示条带中合并候选的最大数目的技术，可与在使用至少一个时间参考图像(例如，帧间图像合并模式)指示帧间合并候选的最大数目的情况下用信号表示合并候选的最大数目的方式相同。例如，两种情况都使用截短的一元码(truncated unary code)对表示合并候选的最大数目的语法元素进行编码。

在另一方法中，在不使用时间参考图像(例如，帧内块复制模式)的情况下，用信号表示条带中合并候选的最大数目的技术，可能与使用至少一个时间参考图像(例如，帧间图像合并模式)指示帧间候选的最大数目的情况下用信号表示合并候选的最大数目的方式不同。例如，使用固定长度的码表示帧内块复制中合并候选的最大数目，帧间图像合并模式中合并候选的最大数目使用截短的一元码表示。

在另一方法中，由编码器在SPS(sequence parameter set，序列参数集)或PPS(picture parameter set，图像参数集)或其它参数集中用信号表示合并候选的最大数目。然后，解码器可对合并候选的最大数目进行解码。对于无时间参考图像的条带，当启用合并模式时，解码器可对帧内块复制模式使用最大数目的合并候选。对于具有至少一个时间参考图像的条带，当启用合并模式时，解码器可在帧间图像合并模式下使用最大数目的合并候选。

根据本公开的另一方面，为了在帧内块复制模式中启用亮度补偿，需要额外的约束、规则或条件检查，以使相邻像素可用。

通常，上侧和/或左侧的相邻像素用于亮度补偿参数计算。对于参考块和当前块，仅当同一侧的相邻像素(要么左侧要么上侧)可用于参考块和当前块时，该侧的像素才可用于亮度补偿的参数计算。例如，对于左侧相邻像素，假如参考块或当前块左侧的相邻像素不可用，则左侧相邻像素无法用于亮度补偿的参数计算。

在运动补偿中，当参考块不位于图像顶部/左边边界时，参考块的相邻像素总是可用的。在伪代码后示出了对运动补偿(帧间图像合并模式)中参考块的相邻像素的可用性条件进行检查的例子。在伪代码中，LX指示两个预测列表之一(例如，L0为第一列表，L1为第二列表)，refLX表示参考图像(例如，refL0为第一参考图像，refL1为第二参考图像)，predFlagLX表示LX的预测标志，(xR，yR)表示LX中参考编码单元的左侧顶部样本相对于参考块的左侧顶部样本的位置，avaiAboveRowRefLX表示参考块的上方相邻像素的可用性，avaiLeftColRefLX表示参考块的左侧相邻像素的可用性。

伪代码

上述代码表示，如果predFlagLX等于1，则获得(xR，yR)，(xR，yR)是参考图像refLX中参考编码单元的左侧顶部样本与参考图像refLX的左侧顶部样本之间的矢量；

如果yR大于0，将avaiAboveRowRefLX设为1；

否则，如果yR等于或小于0，则将avaiAboveRowRefLX设为0；

如果xR大于0，将avaiLeftColRefLX设为1；

否则，如果xR1等于或小于0，将avaiLeftColRefLX设为0。

然而，对于帧内块复制模式，参考块与当前块来自相同的图像。除了要求参考块已经重建以便帧内块复制使用，这种参考块的相邻像素还需要满足亮度补偿参数计算中对于可用性的一些约束。

对于运动补偿，当前块的相邻像素来自当前图像，而参考块的相邻像素以及参考块本身来自另一图像。两个像素集合之间无重叠。然而，在帧内块复制模式中，当前块的相邻像素可与参考块重叠，因为这两个像素集合来自同一图像。

图14示出了参考块和当前块重叠的一个例子。发生重叠时，可能需要对亮度补偿的机制进行调整。

使用亮度补偿参数的计算时，本公开提出了一些方法用于约束参考块的相邻像素在帧内块复制中的使用。所提出的方法可单独或组合使用。

一个例子中，当参考块的第一行处于图像边界、条带边界或图块边界时，上方相邻像素超出边界，因此不能用于亮度补偿参数的计算。一种实现的方法是将参考块的上方一行相邻像素标记为“不可用”。这同样适用于任一分区的边界，这样像素可在边界内相互参照，但不允许越过边界。

另一例子中，当参考块的第一列位于图像边界、条带边界或图块边界时，左侧相邻像素超出边界，因此不应该用于亮度补偿参数的计算。一种实现的方法是将参考块的左侧一列相邻像素标记为“不可用”。这同样适用于任一分区的边界，这样像素可在边界内相互参照，但不允许越过边界。

另一例子中，当当前块的上方邻像素与参考块重叠时，左相邻像素不该用于亮度补偿参数的计算。一种实现的方法是将参考块的上方一行相邻像素标记为“不可用”。

另一例子中，当当前块的左相邻像素与参考块重叠时，左相邻像素不该用于亮度补偿参数的计算。一种实现的方法是将参考块的左侧一列相邻像素标记为“不可用”。

另一例子中，当当前块的左侧或上方相邻像素与参考块重叠时，左侧和上方相邻像素均不该用于亮度补偿参数的计算。一种实现的方法是将参考块的左侧一列相邻像素和上方一行相邻像素标记为“不可用”。当两个方向的相邻像素都不可用时，亮度补偿事实上没有用于该块。

图15是本公开实施例的示例性过程(1500)的概要流程图。过程(1500)可以用于在帧内模式下编码的块的重建，从而为正在重建的块生成预测块。在各实施例中，过程(1500)由处理电路执行，例如终端设备(310)、(320)、(330)和(340)中的处理电路，执行视频编码器(403)的功能的处理电路，执行视频解码器(410)的功能的处理电路，执行视频解码器(510)的功能的处理电路，执行帧内预测模块(552)的功能的处理电路，执行视频编码器(603)的功能的处理电路，执行预测器(635)的功能的处理电路，执行帧内编码器(722)的功能的处理电路，执行帧内解码器(872)的功能的处理电路，等。一些实施例中，过程(1500)由软件指令实现，因此当处理电路执行这些软件指令时，处理电路执行该过程(1500)。该过程开始于(S1501)并进入(S1510)。

在(S1510)，从编码视频比特流中解码当前块的预测信息。该预测信息指示帧内块复制模式。

在(S1520)，基于帧内块复制模式推测出分辨率语法元素的第一部分。一个例子中，对帧内块复制模式和帧间合并模式的分辨率语法元素进行了统一，帧内块复制模式中的块矢量和帧间合并模式中的运动矢量具有相同的语义。一个例子中，帧内块复制模式的可选分辨率为帧间合并模式的可选分辨率的子集。例如，帧间合并模式的可选分辨率包括分数像素分辨率和整数像素分辨率；帧内块复制模式的可选分辨率为整数像素分辨率的子集。一个例子中，分辨率语法元素的第一部分用于指示该分辨率是分数像素分辨率还是整数像素分辨率。因此，当确定了帧内块复制模式时，可推测出分辨率语法元素的第一部分，以指示整数像素分辨率。

在(S1530)，从已编码视频码流中解码出分辨率语法元素的第二部分。一个例子中，在已编码视频码流中用信号表示分辨率语法元素的第二部分，该第二部分指示具体的整数像素分辨率。在解码器侧，解码器从已编码视频码流中解码出该第二部分。

在(S1540)，根据帧间合并模式中运动矢量的分辨率的相同语法元素，由第一部分和第二部分的组合所指示的分辨率来确定当前块的块矢量。

在(S1550)，根据确定的块矢量，构建当前块的样本。然后，该过程进入(S1599)，并结束。

上述技术可以使用计算机可读指令实现为计算机软件，并且物理地存储在一个或多个计算机可读介质中。例如，图16为适于实现所公开主题的一些实施例的计算机系统(1600)。

计算机软件可利用任何合适的机器代码或计算机语言来编码，可采用汇编、编译、链接或类似机制生成代码。代码中包括指令，这些指令可由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或通过代码解释、微代码执行等操作来执行。

这些指令可在多种类型的计算机或组件中执行，包括，例如，个人计算机、平板电脑、服务器、智能电话、游戏设备、物联网设备等。

图16所示的用于计算机系统(1600)的组件本质上是示例性的，而非旨在对实现本公开各实施例的计算机软件的用途或功能范围做任何限制。也不应将组件的配置方式解释为对计算机系统(1600)的示例性实施例中的任一部件或其组合具有任何的依赖性或要求。

计算机系统(1600)可以包括某些人机界面输入设备。这样的人机界面输入设备可以响应于一个或多个人类用户通过，例如，触觉输入(诸如按键、挥动、数据手套移动)、音频输入(诸如语音、拍击)、视觉输入(诸如姿势)、嗅觉输入(未示出)进行的输入。人机界面设备还可用于捕捉不必直接与人类有意识输入相关的某些介质，例如音频(诸如语音、音乐、环境声音)、图像(诸如扫描的图像、从静止图像相机获得的摄影图像)、视频(诸如二维视频，包括立体视频的三维视频)。

人机界面输入设备可包括以下中的一种或多种(每种仅示出一个)：键盘(1601)、鼠标(1602)、触控板(1603)、触摸屏(1610)、数据手套(未示出)、操纵杆(1605)、麦克风(1606)、扫描仪(1607)、照相机(1608)。

计算机系统(1600)还可以包括某些人机界面输出设备。这样的人机界面输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感觉。这种人机界面输出设备可以包括触觉输出设备(例如通过触摸屏(1610)、数据手套(未示出)或操纵杆(1605)的触觉反馈，但是也可以有不用作输入设备的触觉反馈设备)、音频输出设备(诸如扬声器(1609)、耳机(未示出))、可视输出设备以及打印机(未示出)，其中可视输出设备诸如屏幕(1610)、虚拟现实眼镜(未示出)、全息显示器和烟雾箱(未示出)，屏幕(2410)包括阴极射线管(CRT)屏幕、液晶显示器(LCD)屏幕、等离子屏幕、有机发光二极管(OLED)屏幕，每一种都具有或不具有触摸屏输入能力，每一种都具有或不具有触觉反馈能力，这些屏幕中的一些能够通过手段(诸如立体图像输出)输出二维可视输出或多于三维的输出。

计算机系统(1600)还可以包括人类可访问的存储设备及其相关联的介质，诸如光学介质(包括具有CD/DVD的CD/DVDROM/RW(1620))或类似介质(1621)、拇指驱动器(1622)、可移动硬盘驱动器或固态驱动器(1623)、传统磁介质(诸如磁带和软盘(未示出))、基于专用ROM/ASIC/PLD的设备(例如安全加密狗(未示出))，等等。

本领域技术人员还应当理解，结合当前公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。

计算机系统(1600)还可以包括连接一个或多个通信网络的接口。网络可以是，例如，无线网络、有线网络、光网络。网络还可以是本地网、广域网、城域网、车联网的和工业网络、实时网络、延迟容忍网络等等。网络的示例包括局域网(诸如以太网、无线LAN)、蜂窝网络(包括全球移动通信系统(GSM)、第三代移动通信系统(3G)、第四代移动通信系统(4G)、第五代移动通信系统(5G)、长期演进(LTE)等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车辆和工业网络(包括CANBus)，等等。某些网络通常需要外部网络接口适配器，该外部网络接口适配器连接到某些通用数据端口或外围总线(1649)(诸如计算机系统(1600)的通用串行总线(USB)端口)；其他的通常通过如下所述连接到系统总线而集成到计算机系统(1600)的核心中(例如，进入个人计算机系统的以太网接口或进入智能手机计算机系统的蜂窝网络接口)。通过使用这些网络中的任何一个，计算机系统(1600)可以与其它实体通信。这种通信可以是使用局域或广域数字网络的到其它计算机系统的单向的、仅接收的(例如广播TV)、单向仅发送的(例如到某些CAN总线设备的CAN总线)或双向的通信。可以在如上所述的那些网络和网络接口中的每一个上使用某些协议和协议栈。

上述人机界面设备、人类可访问存储设备和网络接口可以连接到计算机系统(1600)的内核(1640)。

内核(1640)可以包括一个或多个中央处理单元(CPU)(1641)、图形处理单元(GPU)(1642)、以现场可编程门阵列(FPGA)(1643)形式存在的专用可编程处理单元、用于特定任务的硬件加速器(1644)等。这些设备，以及只读存储器(ROM)(1645)，随机存取存储器(1646)，内部大容量存储器(如内部非用户可访问硬盘驱动器，SSD)(1647)等，可以通过系统总线(1648)相互连接。在一些计算机系统中，系统总线(1648)可以以一个或多个物理插头的形式访问，从而通过附加的CPU，GPU等实现扩展。外围设备可以直接，或者通过外围总线(1649)，连接到内核的系统总线(1648)。外围总线的架构包括PCI，USB等。

CPU(1641)、GPU(1642)、FPGA(1643)和加速器(1644)可以执行某些指令，这些指令组合起来可以构成前述的计算机代码。该计算机代码可以存储在ROM(1645)或RAM(1646)中。中间数据也可以存储在RAM(1646)中，而永久数据可以存储在，例如，内部大容量存储器(1647)中。可以通过使用高速缓冲存储器来实现到任何存储器设备的快速存储和读取，高速缓存存储器可以与一个或多个CPU(1641)、GPU(1642)、大容量存储器(1647)、ROM(1645)、RAM(1646)等紧密关联。

计算机可读介质上可以具有计算机代码，在计算机代码上执行各种计算机执行的操作。介质和计算机代码可以是为本申请的目的而特别设计和构造的，也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。

作为示例而非限制，具有体系结构(1600)的计算机系统，特别是内核(1640)，可以提供处理器(包括CPU、GPU、FPGA、加速器等)执行在一个或多个有形的计算机可读介质中的软件而实现的功能。这样的计算机可读介质可以是与如上所述的用户可访问大容量存储器相关联的介质，以及非暂时性的内核(1640)的某些存储，诸如内核内部大容量存储器(1647)或ROM(1645)。实现本公开各实施例的软件可以存储在这样的设备中并由内核(1640)执行。根据特定需要，计算机可读介质可包括一个或多个存储器设备或芯片。该软件可以使内核(1640)，特别是其中的处理器(包括CPU，GPU，FPGA等)，执行本文描述的特定过程或特定过程的特定部分，包括定义存储在RAM(1646)中的数据结构，以及根据软件定义的过程修改这些数据结构。作为补充或作为替代，计算机系统可提供与电路(例如加速器1644)中的逻辑硬连线或其它组件相同的功能，可代替软件或与软件一起操作以执行本文所述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(IC))，包括执行逻辑的电路，或两者兼备。本申请包括硬件和软件的任何合适的组合。

附录A：缩略语

JEM:joint exploration model联合勘探模型

VVC:versatile video coding多功能视频编码

BMS:benchmark set基准集合

MV:Motion Vector运动向量

HEVC:High Efficiency Video Coding高效视频编码

SEI:Supplementary Enhancement Information补充增强信息

VUI:Video Usability Information视频可用性信息

GOPs:Groups of Pictures图像组

TUs:Transform Units,变换单元

PUs:Prediction Units预测单元

CTUs:Coding Tree Units编码树单元

CTBs:Coding Tree Blocks编码树块

PBs:Prediction Blocks预测块

HRD:Hypothetical Reference Decoder假想参考解码器

SNR:Signal Noise Ratio信噪比

CPUs:Central Processing Units中央处理单元

GPUs:Graphics Processing Units图形处理单元

CRT:Cathode Ray Tube阴极射线管

LCD:Liquid-Crystal Display液晶显示器

OLED:Organic Light-Emitting Diode有机发光二极管

CD:Compact Disc压缩盘

DVD:Digital Video Disc数字视频盘

ROM:Read-Only Memory只读存储器

RAM:Random Access Memory随机存取存储器

ASIC:Application-Specific Integrated Circuit专用集成电路

PLD:Programmable Logic Device可编程逻辑设备

LAN:Local Area Network局域网

GSM:Global System for Mobile communications全球移动通信系统

LTE:Long-Term Evolution长期演进

CANBus:Controller Area Network Bus控制器区域网络总线

USB:Universal Serial Bus通用串行总线

PCI:Peripheral Component Interconnect外围设备组件互联

FPGA:Field Programmable Gate Array现场可编程门阵列

SSD:solid-state drive固态硬盘

IC:Integrated Circuit集成电路

CU:Coding Unit编码单元

QT:Quad tree四叉树

AMVP:advanced motion vector prediction高级运动向量预测

IMV:Integer Motion Vector整数运动矢量

虽然本公开已对多个示例性实施例进行了描述，但实施例的各种变更、置换和各种替代属于本公开的范围内。因此应理解，本领域技术人员能够设计多种系统和方法，所述系统和方法虽然未在本文中明确展示或描述，但其体现了本公开的原则，因此属于本申请的精神和范围之内。

Claims

1.一种视频解码方法，其特征在于，包括：

从已编码视频比特流中解码当前块的预测信息，所述预测信息指示帧内块复制模式；

解码分辨率信令，以逐块地在可选分辨率中选择对应于当前块的块矢量或运动矢量的分辨率，所述分辨率信令包括第一信令和第二信令；

根据所述帧内块复制模式，推导确定所述分辨率信令的第一信令的二值数位取值，所述第一信令的二值数位取值指示以整数像素分辨率对当前块的块矢量进行编码，其中，对于当前块，所述第一信令和所述第二信令对于在所述帧内块复制模式中的块矢量和在帧间预测模式中的运动矢量具有一致的语义；

根据所述帧内块复制模式，从所述已编码视频码流中解码出所述第二信令时，根据所述第二信令，从多个可选分辨率中确定目标分辨率，所述可选分辨率为多个整数像素分辨率；

根据所确定的目标分辨率确定所述块矢量；及

根据所述块矢量重建所述当前块的至少一个样本。

2.根据权利要求1所述的方法，其特征在于，

所述分辨率信令的第一信令取值为二进制的1。

3.根据权利要求1～2中任一项所述的方法，其特征在于，进一步包括：

根据所述帧内块复制模式，在不解码所述已编码视频码流中的附加信息的情况下，确定所述第一信令的二值数位。

4.根据权利要求1～2中任一项所述的方法，其特征在于，进一步包括：

将包含所述当前块的当前图像识别为用于所述当前块的参考图像；以及

从所述当前块所在的条带的条带头中解码出表示候选列表中候选的最大数目的值。

5.根据权利要求4所述的方法，其特征在于，进一步包括：

构建所述当前块在所述帧内块复制模式下的候选列表，所述候选列表中的帧内合并候选的数目不超过所述候选的最大数目的值。

6.根据权利要求4所述的方法，其特征在于，进一步包括：

构建所述当前块在帧间预测模式下的合并候选列表，所述合并候选列表中的帧间合并候选的数目不超过所述候选的最大数目的值。

7.根据权利要求4所述的方法，其特征在于，所述条带不使用时间参考图像。

8.根据权利要求4所述的方法，其特征在于，所述候选的最大数目的值使用截短的一元码进行编码。

9.根据权利要求1～2中任一项所述的方法，其特征在于，所述第一信令不用信号表示，所述第二信令的语义与用于运动矢量编码的二值数位的语义相同。

10.根据权利要求9所述的方法，其特征在于，从所述已编码视频码流中解码出所述第二信令包括：

当推导所述第一信令的二值数位取值为1时，从所述已编码视频码流中解码出用信号表示的所述第二信令，其中，当解码所述第二信令的二值数位取值为0时，表示分辨率精度的基本单位是1整数像素，当解码所述第二信令的二值数位取值为1时，表示分辨率精度的基本单位是4整数像素。

11.根据权利要求10所述的方法，其特征在于，

所述第一信令指示是否以整数像素分辨率对当前块的运动矢量进行编码；若第一信令指示不以整数像素分辨率对当前块的运动矢量进行编码，则以分像素分辨率对该运动矢量进行编码。

12.一种视频解码装置，其特征在于，所述装置包括：

解析模块，用于从已编码视频比特流中解析当前块的预测信息，所述预测信息指示帧内块复制模式；以及，解码分辨率信令，以逐块地在可选分辨率中选择对应于当前块的块矢量或运动矢量的分辨率，所述分辨率信令包括第一信令和第二信令；

第一确定模块，用于根据所述帧内块复制模式，推导确定所述分辨率信令的第一信令的二值数位取值，所述第一信令的二值数位取值指示以整数像素分辨率对当前块的块矢量进行编码，其中，对于当前块，所述第一信令和所述第二信令对于在所述帧内块复制模式中的块矢量和在帧间预测模式中的运动矢量，具有相同的语义；

第二确定模块，用于根据所述帧内块复制模式，从所述已编码视频码流中解码出所述第二信令，并根据所述第二信令，从多个可选分辨率中确定目标分辨率，所述可选分辨率为多个整数像素分辨率；

分辨率确定模块，用于根据所确定的目标分辨率确定所述块矢量；及

重建模块，用于根据所述块矢量重建所述当前块的至少一个样本。

13.一种视频解码装置，其特征在于，包括：

处理电路，用于执行根据权利要求1～11任一项所述的方法。

14.一种非暂时性计算机可读存储介质，存储有指令，其特征在于，当所述指令由用于视频解码的计算机执行时，使所述计算机执行根据权利要求1-11中任一权利要求所述的方法。