CN115278256B

CN115278256B - 对视频数据进行解码的方法、装置和介质

Info

Publication number: CN115278256B
Application number: CN202210958443.6A
Authority: CN
Inventors: 王祥林; 修晓宇; 陈伟; 陈漪纹; 马宗全; 朱弘正; 于冰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-16
Filing date: 2021-03-16
Publication date: 2023-09-08
Anticipated expiration: 2041-03-16
Also published as: EP3970373A4; CN115278256A; US20220132159A1; WO2021188571A1; CN116489374A; CN113966614A; EP3970373A1; CN116489375A; CN113966614B

Abstract

一种电子装置执行对视频数据进行解码的方法。所述方法包括：从比特流接收第一控制标志；根据从第一控制标志确定MMVD被启用，从比特流接收视频数据的第二控制标志，第二控制标志与一个或多个编码单元中的相应编码单元相对应，第二控制标志指示MMVD是否应用于相应编码单元；根据从第二控制标志确定MMVD应用于相应编码单元，从视频数据接收第三控制标志；根据从第三控制标志确定针对相应编码单元启用InterPF模式，从视频数据接收第四语法元素；以及通过将MMVD和所标识的InterPF模式应用于与相应编码单元相对应的视频数据来重建相应编码单元。

Description

对视频数据进行解码的方法、装置和介质

本申请是中国专利申请第202180003819.1号的分案申请，该中国专利申请为2021年3月16日提交的国际专利申请PCT/US2021/022606的中国国家阶段申请，该国际专利申请要求2020年3月16日提交的美国专利申请第62/989,900号的优先权。

技术领域

本申请总体上涉及视频编解码和压缩，并且更具体地，涉及提高具有运动矢量差的合并模式(MMVD)(也被称为高级运动矢量表达(UMVE)模式)的编解码效率的方法和装置。

背景技术

如数字电视、膝上型计算机或台式计算机、平板计算机、数码相机、数字录音设备、数字媒体播放器、视频游戏机、智能电话、视频电话会议设备、视频流式传输设备等各种电子设备都支持数字视频。电子设备通过实施视频压缩/解压缩标准来传输、接收、编码、解码和/或存储数字视频数据。一些众所周知的视频编解码标准包括通用视频编解码(VVC)、高效视频编解码(HEVC，也被称为H.265或MPEG-H第2部分)和高级视频编解码(AVC，也被称为H.264或MPEG-4第10部分)，这些视频编解码标准由ISO/IEC MPEG和ITU-T VECG联合开发。AO媒体视频1(AOMedia Video 1，AV1)由开放媒体联盟(AOM)开发作为其先前标准VP9的后续标准。音视频编解码标准(AVS)(其是指数字音频和数字视频压缩标准)是中国数字音视频编解码技术标准工作组(Audio and Video Coding Standard Workgroup of China)开发的另一个视频压缩系列标准。

视频压缩典型地包括执行空间(帧内)预测和/或时间(帧间)预测以减少或去除视频数据中固有的冗余。对于基于块的视频编解码，将视频帧划分为一个或多个条带，每个条带具有多个视频块，该视频块也可以被称为编码树单元(CTU)。每个CTU可以包含一个编码单元(CU)或递归地分割成较小的CU，直到达到预定义的最小CU尺寸。每个CU(也称为叶CU)包含一个或多个变换单元(TU)，并且每个CU还包含一个或多个预测单元(PU)。可以以帧内、帧间或IBC模式对每个CU进行编解码。相对于同一视频帧内的相邻块中的参考样本，使用空间预测对视频帧的帧内编码(I)条带中的视频块进行编码。视频帧的帧间编码(P或B)条带中的视频块可以相对于同一视频帧内的相邻块中的参考样本使用空间预测或相对于其他先前和/或未来参考视频帧中的参考样本使用时间预测。

基于先前已编码的参考块(例如，相邻块)的空间或时间预测产生针对待编码的当前视频块的预测块。查找参考块的过程可以通过块匹配算法来完成。表示待编码的当前块与预测块之间的像素差的残差数据被称为残差块或预测误差。根据指向形成预测块的参考帧中的参考块的运动矢量、以及残差块来对帧间编码块进行编码。确定运动矢量的过程典型地被称为运动估计。根据帧内预测模式和残差块对帧内编码块进行编码。为了进一步压缩，将残差块从像素域变换到变换域，例如频域，从而产生残差变换系数，然后可以对该残差变换系数进行量化。可以扫描最初布置为二维阵列的量化的变换系数，以产生变换系数的一维矢量，并且然后将其熵编码为视频比特流，以实现更多的压缩。

然后，将已编码视频比特流保存在计算机可读存储介质(例如，闪速存储器)中，以被具有数字视频能力的另一个电子设备访问，或者直接以有线或无线方式传输到电子设备。然后，电子设备通过例如解析已编码视频比特流以从比特流获得语法元素并且至少部分地基于从比特流获得的语法元素将数字视频数据从已编码视频比特流重建为其原始格式来执行视频解压缩(其是与上文描述的视频压缩相反的过程)，并且在电子设备的显示器上渲染重建数字视频数据。

随着数字视频质量从高清到4K×2K或甚至8K×4K，待编码/解码的视频数据量呈指数增长。如何在保持解码视频数据的图像质量的同时更高效地对视频数据进行编码/解码方面一直存在挑战。

发明内容

本申请描述了与视频数据编码和解码有关的实施方式，并且更具体地，与提高具有运动矢量差的合并模式(MMVD)(也被称为高级运动矢量表达(UMVE)模式)的编解码效率的方法和装置有关的实施方式。

根据本申请的第一方面，一种对视频数据进行解码的方法包括：从比特流接收第一控制标志，其中，第一控制标志指示是否针对视频序列中的一个或多个编码单元启用具有运动矢量差的合并模式MMVD；根据从第一控制标志确定MMVD被启用，从视频数据接收第一语法元素，其中，第一语法元素标识多个运动矢量差MVD偏移量集合中的一个MVD偏移量集合；从比特流接收视频数据的第二控制标志，第二控制标志与一个或多个编码单元中的相应编码单元相对应，第二控制标志指示MMVD是否应用于相应编码单元；根据从第二控制标志确定MMVD应用于相应编码单元，接收相应编码单元的第二语法元素和相应编码单元的第三语法元素，第二语法元素从所标识的MVD偏移量集合中选择MVD偏移量，第三语法元素选择与所选择的MVD偏移量相对应的MVD方向；基于所选择的MVD偏移量和所选择的MVD方向来形成MVD；以及通过应用所形成MVD生成相应编码单元的运动矢量，来重建相应编码单元。

根据本申请的第二方面，一种对视频数据进行解码的方法包括从比特流接收第一控制标志，其中，第一控制标志指示是否针对一个或多个编码单元启用具有运动矢量差的合并模式MMVD；根据从第一控制标志确定MMVD被启用，从比特流接收视频数据的第二控制标志，第二控制标志与一个或多个编码单元中的相应编码单元相对应，第二控制标志指示MMVD是否应用于相应编码单元；根据从第二控制标志确定MMVD应用于相应编码单元，从视频数据接收第三控制标志，其中，第三控制标志指示是否针对相应编码单元启用帧间预测滤波InterPF模式；根据从第三控制标志确定针对相应编码单元启用InterPF模式，从视频数据接收第四语法元素，其中，第四语法元素标识相应编码单元的多个InterPF模式中的一个InterPF模式；以及通过将MMVD和所标识的InterPF模式应用于与相应编码单元相对应的视频数据来重建相应编码单元。

根据本申请的第三方面，一种电子装置包括一个或多个处理单元、存储器以及存储在存储器中的多个程序。程序当由一个或多个处理单元执行时使电子装置执行如上文描述的对视频数据进行解码的方法。

根据本申请的第四方面，一种非暂态计算机可读存储介质存储用于由具有一个或多个处理单元的电子装置执行的多个程序。程序当由一个或多个处理单元执行时使电子装置执行如上文描述的对视频数据进行解码的方法。

根据本申请的第五方面，一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现如上文描述的对视频数据进行解码的方法。

附图说明

被包括在内以提供对实施方式的进一步理解并且并入本文并构成说明书的一部分的附图图示了所描述的实施方式，并且与说明书一起用于解释基本原理。相似的附图标记指代对应的部分。

图1是图示了根据本公开的一些实施方式的示例性视频编码和解码系统的框图。

图2是图示了根据本公开的一些实施方式的示例性视频编码器的框图。

图3是图示了根据本公开的一些实施方式的示例性视频解码器的框图。

图4A至图4E是图示了根据本公开的一些实施方式的如何将帧递归地划分成具有不同大小和形状的多个视频块的框图。

图5A和图5B是图示了根据本公开的一些实施方式的添加到起始运动矢量(MV)的水平或垂直分量的示例性偏移量的框图。

图6是图示了根据本公开的一些实施方式的示例性解码器端运动矢量改良(DMVR)的框图。

图7是图示了根据本公开的一些实施方式的用于DMVR模式的一些示例性整数搜索候选的框图。

图8是图示了根据本公开的一些实施方式的当启用具有运动矢量差的合并模式(MMVD)时从多个运动矢量差(MVD)偏移量集合中确定MVD偏移量的示例性过程的流程图。

具体实施方式

现在将详细参照具体实施方式，附图中图示了这些实施方式的示例。在以下详细描述中，阐述了许多非限制性的具体细节，以便帮助理解本文提出的主题。但是对于本领域的普通技术人员将显而易见的是，在不脱离权利要求的范围的情况下，可以使用各种替代性方案，并且可以在没有这些具体细节的情况下实践主题。例如，对于本领域普通技术人员将显而易见的是，本文提出的主题可以在具有数字视频能力的许多类型的电子设备上实施。

第一代AVS标准包括中国国家标准“信息技术高级音视频编解码第2部分：视频”(被称为AVS1)和“信息技术高级音视频编解码第16部分：广播电视视频”(被称为AVS+)。与MPEG-2标准相比，第一代AVS标准可以在相同的感知质量下提供大约50％的比特率节省。第二代AVS标准包括中国国家标准“信息技术高效多媒体编解码”(被称为AVS2)系列，其主要针对额外HD TV节目的传输。AVS2的编解码效率是AVS+的编解码效率的两倍。同时，AVS2标准视频部分由电气和电子工程师协会(IEEE)作为一项国际应用标准提交。AVS3标准是针对UHD视频应用的新一代视频编解码标准，旨在超越最新国际标准HEVC的编解码效率，AVS3标准提供了超过HEVC标准大约30％的比特率节省。

本公开的重点是改进在VVC和AVS3标准两者中使用的具有运动矢量差的合并模式(MMVD)工具的编解码性能。在AVS3中，该工具被称为高级运动矢量表达(UMVE)。在本文公开的一些实施例中，尽管以AVS3标准中的MMVD设计作为示例来说明基本的MMVD方法，但是对于视频编解码领域的技术人员来说，本公开中描述的方法也可以应用于其他MMVD设计或具有相同或类似设计的其他编解码工具。

图1是图示了根据本公开的一些实施方式的用于并行地对视频块进行编码和解码的示例性系统10的框图。如图1所示，系统10包括源设备12，该源设备生成并且编码待由目的地设备14在稍后时间解码的视频数据。源设备12和目的地设备14可以包括多种电子设备中的任何一种，该多种电子设备包括台式计算机或膝上型计算机、平板计算机、智能电话、机顶盒、数字电视、相机、显示设备、数字媒体播放器、视频游戏机、视频流式传输设备等。在一些实施方式中，源设备12和目的地设备14配备有无线通信能力。

在一些实施方式中，目的地设备14可以经由链路16接收待解码的已编码视频数据。链路16可以包括能够将已编码视频数据从源设备12移到目的地设备14的任何类型的通信介质或设备。在一个示例中，链路16可以包括用于使源设备12能够实时地将已编码视频数据直接传输到目的地设备14的通信介质。已编码视频数据可以根据如无线通信协议等通信标准来调制并传输到目的地设备14。通信介质可以包括任何无线或有线通信介质，如射频(RF)频谱或一条或多条物理传输线。通信介质可以形成基于分组的网络(如局域网、广域网、或全球网(如互联网))的一部分。通信介质可以包括路由器、交换机、基站或可以用于促进从源设备12到目的地设备14的通信的任何其他设备。

在一些其他实施方式中，已编码视频数据可以从输出接口22传输到存储设备32。随后，存储设备32中的已编码视频数据可以由目的地设备14经由输入接口28访问。存储设备32可以包括各种分布式或本地访问的数据存储介质中的任一种，如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪速存储器、易失性存储器或非易失性存储器或用于存储已编码视频数据的任何其他合适的数字存储介质。在进一步示例中，存储设备32可以对应于可以保持由源设备12生成的已编码视频数据的文件服务器或另一个中间存储设备。目的地设备14可以经由流式传输或下载从存储设备32访问所存储的视频数据。文件服务器可以是能够存储已编码视频数据并且将已编码视频数据传输到目的地设备14的任何类型的计算机。示例性文件服务器包括web服务器(例如，用于网站)、FTP服务器、网络附加存储(NAS)设备、或本地磁盘驱动器。目的地设备14可以通过任何标准数据连接访问已编码视频数据，该连接包括适于访问存储在文件服务器上的已编码视频数据的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)或两者的组合。从存储设备32传输已编码视频数据可以是流式传输、下载传输或两者的组合。

如图1所示，源设备12包括视频源18、视频编码器20和输出接口22。视频源18可以包括如视频捕获设备等源，例如摄像机、包含先前捕获的视频的视频档案、用于从视频内容提供方接收视频的视频馈送接口和/或用于生成计算机图形数据作为源视频的计算机图形系统或这种源的组合。作为一个示例，如果视频源18是安全监控系统的摄像机，则源设备12和目的地设备14可以形成拍照电话或视频电话。然而，本申请中描述的实施方式通常可以适用于视频编解码并且可以应用于无线和/或有线应用。

捕获的、预先捕获的或计算机生成的视频可以由视频编码器20进行编码。已编码视频数据可以经由源设备12的输出接口22直接传输到目的地设备14。已编码视频数据也可以(或替代性地)存储到存储设备32上，以供目的地设备14或其他设备以后访问，以进行解码和/或回放。输出接口22可以进一步包括调制解调器和/或发射器。

目的地设备14包括输入接口28、视频解码器30和显示设备34。输入接口28可以包括接收器和/或调制解调器，并且通过链路16接收已编码视频数据。通过链路16传送的或提供在存储设备32上的已编码视频数据可以包括由视频编码器20生成的各种语法元素，以供视频解码器30用于解码视频数据。这种语法元素可以被包括于在通信介质上传输的、存储在存储介质上、或存储在文件服务器中的已编码视频数据内。

在一些实施方式中，目的地设备14可以包括显示设备34，该显示设备可以是集成显示设备和被配置为与目的地设备14通信的外部显示设备。显示设备34向用户显示解码视频数据并且可以包括各种显示设备中的任何一种，如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一种类型的显示设备。

视频编码器20和视频解码器30可以根据专有或行业标准(如VVC、HEVC、MPEG-4第10部分、高级视频编解码(AVC)或这种标准的扩展)进行操作。应当理解，本申请不限于特定的视频编码/解码标准，并且可以适用于其他视频编码/解码标准。通常设想到了，源设备12的视频编码器20可以被配置为根据这些当前或未来标准中的任何一种来对视频数据进行编码。类似地，通常还设想到了，目的地设备14的视频解码器30可以被配置为根据这些当前或未来标准中的任何一种来对视频数据进行解码。

视频编码器20和视频解码器30各自可以实施为各种适合的编码器电路中的任何一种，如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地在软件中实施时，电子设备可以将用于软件的指令存储在合适的非暂态计算机可读介质中并且使用一个或多个处理器在硬件中执行指令以执行本公开中公开的视频编码/解码操作。视频编码器20和视频解码器30中的每一个可以包括在一个或多个编码器或解码器中，一个或多个编码器或解码器中的任一个可以集成为相应设备中的组合编码器/解码器(CODEC)的一部分。

图2是图示了根据本申请中描述的一些实施方式的示例性视频编码器20的框图。视频编码器20可以执行对视频帧内的视频块的帧内预测编码和帧间预测编码。帧内预测编码依赖于空间预测来减少或去除给定视频帧或图像内的视频数据的空间冗余。帧间预测编码依赖于时间预测以减少或去除视频序列的相邻视频帧或图像内的视频数据的时间冗余。

如图2所示，视频编码器20包括视频数据存储器40、预测处理单元41、解码图像缓冲区(DPB)64、加法器50、变换处理单元52、量化单元54和熵编码单元56。预测处理单元41进一步包括运动估计单元42、运动补偿单元44、划分单元45、帧内预测处理单元46和帧内块复制(BC)单元48。在一些实施方式中，视频编码器20还包括用于视频块重建的反量化单元58、反变换处理单元60和加法器62。去块滤波器(未示出)可以位于加法器62与DPB 64之间，以对块边界进行滤波，以从重建的视频中去除块效应伪像。除了去块滤波器之外，还可以使用环路滤波器(未示出)来对加法器62的输出进行滤波。视频编码器20可以采用固定或可编程硬件单元的形式，或可以在所图示的固定或可编程硬件单元中的一个或多个中进行划分。

视频数据存储器40可以存储待由视频编码器20的部件编码的视频数据。视频数据存储器40中的视频数据可以例如从视频源18获得。DPB 64是存储参考视频数据以用于由视频编码器20对视频数据进行编码(例如，在帧内预测编码模式或帧间预测编码模式下)的缓冲区。视频数据存储器40和DPB 64可以由多种存储器设备中的任何一种形成。在各个示例中，视频数据存储器40可以与视频编码器20的其他部件一起在片上，或者相对于那些部件在片外。

如图2所示，在接收到视频数据之后，预测处理单元41内的划分单元45将视频数据划分为视频块。该划分还可以包括根据预定义的分割结构(如与视频数据相关联的四叉树结构)将视频帧划分为条带、图块、或其他更大的编码单元(CU)。视频帧可以被划分成多个视频块(或称为图块的视频块集)。预测处理单元41可以基于误差结果(例如，编码率和失真级别)为当前视频块选择多个可能的预测编码模式之一，如多个帧内预测编码模式之一或多个帧间预测编码模式之一。预测处理单元41可以将所得的帧内预测编码块或帧间预测编码块提供给加法器50以生成残差块，并且提供给加法器62以重建编码块以随后用作参考帧的一部分。预测处理单元41还将如运动矢量、帧内模式指示符、划分信息和其他这种语法信息等语法元素提供给熵编码单元56。

为了为当前视频块选择适当的帧内预测编码模式，预测处理单元41内的帧内预测处理单元46可以相对于与待编码的当前块相同的帧中的一个或多个相邻块执行对当前视频块的帧内预测编码，以提供空间预测。预测处理单元41内的运动估计单元42和运动补偿单元44相对于一个或多个参考帧中的一个或多个预测块执行对当前视频块的帧间预测编码，以提供时间预测。视频编码器20可以执行多个编码通道，例如，以便为视频数据的每个块选择适当的编码模式。

在一些实施方式中，运动估计单元42根据视频帧序列内的预定模式通过生成运动矢量来确定当前视频帧的帧间预测模式，该运动矢量指示当前视频帧内的视频块的预测单元(PU)相对于参考视频帧内的预测块的位移。由运动估计单元42执行的运动估计是生成运动矢量的过程，该过程估计了视频块的运动。运动矢量例如可以指示当前视频帧或图像内的视频块的PU相对于参考帧内的预测块(或其他编码单元)的位移，该预测块相对于在当前帧内编码的当前块(或其他编码单元)。预定模式可以将序列中的视频帧指定为P帧或B帧。帧内BC单元48可以以与由运动估计单元42确定运动矢量以进行帧间预测的方式类似的方式确定用于进行帧内BC编码的矢量，例如，块矢量，或者可以利用运动估计单元42来确定块矢量。

预测块是在像素差方面被认为与待编码的视频块的PU紧密匹配的参考帧的块，该像素差可以由绝对差和(SAD)、平方差和(SSD)或其他差值度量来确定。在一些实施方式中，视频编码器20可以计算存储在DPB 64中的参考帧的子整数像素位置的值。例如，视频编码器20可以插入参考帧的四分之一像素位置、八分之一像素位置或其他分数像素位置的值。因此，运动估计单元42可以相对于全像素位置和分数像素位置执行运动搜索并且以分数像素精度输出运动矢量。

运动估计单元42通过将PU的位置与从第一参考帧列表(列表0)或第二参考帧列表(列表1)中选择的参考帧的预测块的位置进行比较来计算帧间预测编码帧中的视频块的PU的运动矢量，该列表中的每一个标识存储在DPB 64中的一个或多个参考帧。运动估计单元42将计算的运动矢量发送到运动补偿单元44，并且然后发送到熵编码单元56。

由运动补偿单元44执行的运动补偿可以涉及基于由运动估计单元42确定的运动矢量获取或生成预测块。在接收当前视频块的PU的运动矢量后，运动补偿单元44可以在参考帧列表中的一个中定位运动矢量所指向的预测块，从DPB 64取得预测块并且将预测块转发到加法器50。然后，加法器50通过从已编码的当前视频块的像素值中减去由运动补偿单元44提供的预测块的像素值来形成具有像素差值的残差视频块。形成残差视频块的像素差值可以包括亮度差分量或色度差分量或两者。运动补偿单元44还可以生成与视频帧的视频块相关联的语法元素，以供视频解码器30在对视频帧的视频块进行解码时使用。语法元素可以包括例如定义用于标识预测块的运动矢量的语法元素、指示预测模式的任何标志、或本文描述的任何其他语法信息。注意，运动估计单元42和运动补偿单元44可以是高度集成的，但是出于概念性目的而分别图示。

在一些实施方式中，帧内BC单元48可以以与上文结合运动估计单元42和运动补偿单元44所描述的方式类似的方式来生成矢量并且获取预测块，但是其中预测块与已编码的当前块处于同一帧中，并且其中相对于运动矢量，该矢量被称为块矢量。具体地，帧内BC单元48可以确定帧内预测模式以用于对当前块进行编码。在一些示例中，帧内BC单元48可以例如在单独的编码通道期间使用各种帧内预测模式对当前块进行编码，并且通过率失真分析来测试其性能。接下来，帧内BC单元48可以在各种测试的帧内预测模式中选择适当的帧内预测模式来使用并相应地生成帧内模式指示符。例如，帧内BC单元48可以使用针对各种测试的帧内预测模式的率失真分析来计算率失真值并且在测试的模式中选择具有最佳率失真特性的帧内预测模式作为要使用的适当的帧内预测模式。率失真分析通常确定已编码块与原始的未编码块(已编码以产生已编码块)之间的失真(或误差)量以及用于产生已编码块的比特率(即，比特数)。帧内BC单元48可以根据各个编码块的失真和速率来计算比值，以确定哪个帧内预测模式展现出块的最佳率失真值。

在其他示例中，帧内BC单元48可以全部或部分地使用运动估计单元42和运动补偿单元44，以根据本文描述的实施方式执行用于帧内BC预测的这种功能。在任一种情况下，对于帧内块复制，预测块可以是就像素差而言被视为与待编码的块紧密匹配的块，像素差可以由绝对差和(SAD)、平方差和(SSD)或其他差度量确定，并且预测块的识别可以包括计算子整数像素位置的值。

无论预测块是根据帧内预测来自同一帧还是根据帧间预测来自不同帧，视频编码器20都可以通过从已编码的当前视频块的像素值中减去预测块的像素值来形成残差视频块，从而形成像素差值。形成残差视频块的像素差值可以包括亮度分量差和色度分量差。

如上文描述的，帧内预测处理单元46可以对当前视频块进行帧内预测，作为由运动估计单元42和运动补偿单元44执行的帧间预测，或者由帧内BC单元48执行的帧内块复制预测的替代方案。具体地，帧内预测处理单元46可以确定帧内预测模式以用于对当前块进行编码。为此，帧内预测处理单元46可以例如在单独的编码通道期间使用各种帧内预测模式对当前块进行编码，并且帧内预测处理单元46(或在一些示例中为模式选择单元)可以从测试的帧内预测模式中选择适当的帧内预测模式来使用。帧内预测处理单元46可以将指示块的所选帧内预测模式的信息提供给熵编码单元56。熵编码单元56可以对指示比特流中的所选帧内预测模式的信息进行编码。

在预测处理单元41经由帧间预测或帧内预测确定当前视频块的预测块之后，加法器50通过从当前视频块中减去预测块来形成残差视频块。残差块中的残差视频数据可以被包括在一个或多个变换单元(TU)中，并且被提供给变换处理单元52。变换处理单元52使用如离散余弦变换(DCT)或概念上类似的变换等变换将残差视频数据变换为残差变换系数。

变换处理单元52可以将所得的变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步降低比特率。量化过程还可以减小与系数中的一些或所有系数相关联的比特深度。量化程度可以通过调整量化参数来修改。在一些示例中，量化单元54然后可以执行对包括量化的变换系数的矩阵的扫描。替代性地，熵编码单元56可以执行扫描。

量化之后，熵编码单元56使用例如上下文自适应可变长度编解码(CAVLC)、上下文自适应二进制算术编解码(CABAC)、基于语法的上下文自适应二进制算术编解码(SBAC)、概率区间划分熵(PIPE)编解码或其他熵编码方法或技术将量化的变换系数熵编码为视频比特流。然后可以将已编码比特流传输到视频解码器30，或将其存档在存储设备32中，以供以后传输到视频解码器30或由该视频解码器取得。熵编码单元56还可以对已编码的当前视频帧的运动矢量和其他语法元素进行熵编码。

反量化单元58和反变换处理单元60分别应用反量化和反变换以在像素域中重建残差视频块，以生成用于预测其他视频块的参考块。如上所述，运动补偿单元44可以从DPB64中存储的帧的一个或多个参考块中生成运动补偿的预测块。运动补偿单元44还可以将一个或多个内插滤波器应用于预测块以计算用于运动估计中的子整数像素值。

加法器62将重建的残差块添加到由运动补偿单元44产生的运动补偿的预测块，以产生参考块用于存储在DPB 64中。参考块然后可以由帧内BC单元48、运动估计单元42和运动补偿单元44用作预测块，以对后续视频帧中的另一个视频块进行帧间预测。

图3是图示了根据本申请的一些实施方式的示例性视频解码器30的框图。视频解码器30包括视频数据存储器79、熵解码单元80、预测处理单元81、反量化单元86、反变换处理单元88、加法器90和DPB 92。预测处理单元81进一步包括运动补偿单元82、帧内预测处理单元84和帧内BC单元85。视频解码器30可以执行通常与上文结合图2关于视频编码器20所描述的编码过程相反的解码过程。例如，运动补偿单元82可以基于从熵解码单元80接收到的运动矢量生成预测数据，而帧内预测单元84可以基于从熵解码单元80接收到的帧内预测模式指示符生成预测数据。

在一些示例中，可以给视频解码器30的单元分配任务以执行本申请的实施方式。同样，在一些示例中，本公开的实施方式可以在视频解码器30的一个或多个单元之间进行划分。例如，帧内BC单元85可以单独或与视频解码器30的其他单元(如运动补偿单元82、帧内预测处理单元84和熵解码单元80)组合执行本申请的实施方式。在一些示例中，视频解码器30可以不包括帧内BC单元85，并且帧内BC单元85的功能可以由预测处理单元81的其他部件(如运动补偿单元82)执行。

视频数据存储器79可以存储待由视频解码器30的其他部件解码的视频数据，如已编码视频比特流。例如，可以经由对视频数据进行有线或无线网络传送或者通过访问物理数据存储介质(例如，闪存驱动器或硬盘)从存储设备32、本地视频源(如相机)获得存储在视频数据存储器79中的视频数据。视频数据存储器79可以包括存储来自已编码视频比特流的已编码视频数据的编码图像缓冲区(CPB)。视频解码器30的解码图像缓冲区(DPB)92存储参考视频数据，以用于由视频解码器30对视频数据进行解码(例如，在帧内预测编码模式或帧间预测编码模式下)。视频数据存储器79和DPB 92可以由多种存储器设备中的任一种形成，如动态随机存取存储器(DRAM)，包括同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其他类型的存储器设备。出于说明性目的，视频数据存储器79和DPB 92在图3中被描绘为视频解码器30的两个不同的部件。但是对于本领域技术人员将显而易见的是，视频数据存储器79和DPB92可以由相同的存储器设备或单独的存储器设备提供。在一些示例中，视频数据存储器79可以与视频解码器30的其他部件一起在片上，或者相对于那些部件在片外。

在解码过程期间，视频解码器30接收表示已编码视频帧的视频块的已编码视频比特流和相关联的语法元素。视频解码器30可以在视频帧级别和/或视频块级别接收语法元素。视频解码器30的熵解码单元80对比特流进行熵解码以生成量化的系数、运动矢量或帧内预测模式指示符和其他语法元素。熵解码单元80然后将运动矢量和其他语法元素转发到预测处理单元81。

当视频帧已编码为帧内预测编码(I)帧或用于其他类型的帧中的帧内编码预测块时，预测处理单元81的帧内预测处理单元84可以基于信号传输的帧内预测模式和来自当前帧的先前解码块的参考数据来生成当前视频帧的视频块的预测数据。

当视频帧已编码为帧间预测编码(即，B或P)帧时，预测处理单元81的运动补偿单元82基于从熵解码单元80接收到的运动矢量和其他语法元素来产生当前视频帧的视频块的一个或多个预测块。每个预测块可以从参考帧列表之一内的参考帧产生。视频解码器30可以基于存储在DPB 92中的参考帧使用默认构造技术构造参考帧列表：列表0和列表1。

在一些示例中，当根据本文描述的帧内BC模式对视频块进行编解码时，预测处理单元81的帧内BC单元85基于从熵解码单元80接收到的块矢量和其他语法元素，为当前视频块产生预测块。预测块可以处于与由视频编码器20定义的当前视频块相同的图像的重建的区域内。

运动补偿单元82和/或帧内BC单元85通过解析运动矢量和其他语法元素来确定当前视频帧的视频块的预测信息，并且然后使用预测信息来产生被解码的当前视频块的预测块。例如，运动补偿单元82使用接收到的语法元素中的一些来确定用于对视频帧的视频块进行编码的预测模式(例如，帧内预测或帧间预测)、帧间预测帧类型(例如，B或P)、帧的参考帧列表中的一个或多个参考帧列表的构造信息、帧的每个帧间预测编码视频块的运动矢量、帧的每个帧间预测编码视频块的帧间预测状态以及用于对当前视频帧中的视频块进行解码的其他信息。

类似地，帧内BC单元85可以使用接收到的语法元素中的一些(例如，标志)来确定当前视频块是使用以下各项预测的：帧内BC模式、关于帧的视频块处于重建的区域内并且应存储在DPB 92中的构造信息、帧的每个帧内BC预测视频块的块矢量、帧的每个帧内BC预测视频块的帧内BC预测状态以及用于对当前视频帧中的视频块进行解码的其他信息。

运动补偿单元82还可以如由视频编码器20在对视频块进行编码期间使用的那样使用内插滤波器来执行内插以计算参考块的子整数像素的内插值。在这种情况下，运动补偿单元82可以从接收到的语法元素确定由视频编码器20使用的内插滤波器并且使用内插滤波器来产生预测块。

反量化单元86使用由视频编码器20针对视频帧中的每个视频块计算的用于确定量化程度的相同的量化参数，对在比特流中提供的并且由熵解码单元80进行熵解码的量化的变换系数进行反量化。反变换处理单元88将反变换(例如，反DCT、反整数变换或概念上类似的反变换过程)应用于变换系数，以便在像素域中重建残差块。

在运动补偿单元82或帧内BC单元85基于矢量和其他语法元素生成当前视频块的预测块之后，加法器90通过对来自反变换处理单元88的残差块以及由运动补偿单元82和帧内BC单元85生成的对应预测块求和来重建当前视频块的已解码视频块。环路滤波器(未示出)可以定位在加法器90与DPB 92之间，以进一步处理已解码视频块。然后将给定帧中的已解码视频块存储在DPB 92中，该DPB存储用于对接下来的视频块进行后续运动补偿的参考帧。DPB 92或与DPB 92分开的存储器设备还可以存储已解码视频以供稍后呈现在如图1的显示设备34等显示设备上。

在典型的视频编解码过程中，视频序列典型地包括帧或图像的有序集合。每个帧可以包括三个样本阵列，分别表示为SL、SCb和SCr。SL是亮度样本的二维阵列。SCb是Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。在其他实例中，帧可以是单色的，并且因此仅包括亮度样本的一个二维阵列。

如图4A所示，视频编码器20(或更具体地，划分单元45)通过首先将帧划分为一组编码树单元(CTU)来生成帧的已编码表示。视频帧可以包括从左到右以及从上到下以光栅扫描顺序连续排序的整数个CTU。每个CTU是最大的逻辑编码单元，并且由视频编码器20在序列参数集中用信号传输CTU的宽度和高度，使得视频序列中的所有CTU具有相同的大小，即128×128、64×64、32×32和16×16中的一个。但是应当注意，本申请不必限于特定的大小。如图4B所示，每个CTU可以包括亮度样本的一个编码树块(CTB)、色度样本的两个对应的编码树块以及用于对编码树块的样本进行编码的语法元素。语法元素描述像素的编码块的不同类型的单元的属性以及如何可以在视频解码器30处重建视频序列，该语法元素包括帧间预测或帧内预测、帧内预测模式、运动矢量和其他参数。在单色图像或具有三个单独的色彩平面的图像中，CTU可以包括单个编码树块和用于对编码树块的样本进行编码的语法元素。编码树块可以是N×N样本块。

为了实现更好的性能，视频编码器20可以对CTU的编码树块递归地执行如二叉树划分、三叉树划分、四叉树划分或两者的组合等树划分，并且将CTU划分为较小的编码单元(CU)。如图4C描绘的，首先将64×64CTU 400划分为四个较小的CU，每个CU的块大小为32×32。在四个较小的CU中，CU 410和CU 420按块大小各自划分为四个16×16的CU。两个16×16CU 430和440按块大小各自进一步划分为四个8×8的CU。图4D描绘了图示了如图4C中所描绘的CTU 400的划分过程的最终结果的四叉树数据结构，四叉树的每个叶节点对应于相应大小在32×32至8×8范围内的一个CU。类似于图4B描绘的CTU，每个CU可以包括亮度样本的编解码块(CB)和相同大小的帧的色度样本的两个对应的编解码块，以及用于对编解码块的样本进行编解码的语法元素。在单色图像或具有三个单独的色彩平面的图像中，CU可以包括单个编解码块和用于对编解码块的样本进行编解码的语法结构。应当注意，图4C和图4D中描绘的四叉树划分仅用于说明目的，并且可以将一个CTU分割为多个CU以适应基于四叉树/三叉树/二叉树划分的不同的局部特性。在多类型树结构中，一个CTU被四叉树结构划分，并且每个四叉树叶CU可以进一步被二叉树结构或三叉树结构划分。如图4E所示，有五种划分类型，即，四元划分、水平二元划分、垂直二元划分、水平三元划分以及垂直三元划分。

在一些实施方式中，视频编码器20可以进一步将CU的编解码块划分为一个或多个M×N预测块(PB)。预测块是样本的应用相同预测(帧间或帧内)的矩形(正方形或非正方形)块。CU的预测单元(PU)可以包括亮度样本的预测块、色度样本的两个对应的预测块以及用于对预测块进行预测的语法元素。在单色图像或具有三个单独的色彩平面的图像中，PU可以包括单个预测块和用于对预测块进行预测的语法结构。视频编码器20可以生成CU的每个PU的亮度、Cb及Cr预测块的预测亮度、Cb及Cr块。

视频编码器20可以使用帧内预测或帧间预测来生成PU的预测块。如果视频编码器20使用帧内预测来生成PU的预测块，则视频编码器20可以基于与PU相关联的帧的已解码样本来生成PU的预测块。如果视频编码器20使用帧间预测来生成PU的预测块，则视频编码器20可以基于除与PU相关联的帧之外的一个或多个帧的已解码样本来生成PU的预测块。

在视频编码器20生成CU的一个或多个PU的预测亮度、Cb和Cr块之后，视频编码器20可以通过从其原始亮度编解码块中减去CU的预测亮度块来生成CU的亮度残差块，使得CU的亮度残差块中的每个样本指示CU的预测亮度块之一中的亮度样本与CU的原始亮度编解码块中的对应样本之间的差。类似地，视频编码器20可以分别生成CU的Cb残差块和Cr残差块，使得CU的Cb残差块中的每个样本指示CU的预测Cb块之一中的Cb样本与CU的原始Cb编解码块中的对应样本之间的差，并且CU的Cr残差块中的每个样本可以指示CU的预测Cr块之一中的Cr样本与CU的原始Cr编解码块中的对应样本之间的差。

此外，如图4C所图示的，视频编码器20可以使用四叉树划分来将CU的亮度、Cb和Cr残差块分解为一个或多个亮度、Cb和Cr变换块。变换块是样本的应用相同变换的矩形(正方形或非正方形)块。CU的变换单元(TU)可以包括亮度样本的变换块、色度样本的两个对应的变换块以及用于对变换块样本进行变换的语法元素。因此，CU的每个TU可以与亮度变换块、Cb变换块和Cr变换块相关联。在一些示例中，与TU相关联的亮度变换块可以是CU的亮度残差块的子块。Cb变换块可以是CU的Cb残差块的子块。Cr变换块可以是CU的Cr残差块的子块。在单色图像或具有三个单独的色彩平面的图像中，TU可以包括单个变换块和用于对变换块的样本进行变换的语法结构。

视频编码器20可以将一个或多个变换应用于TU的亮度变换块以生成TU的亮度系数块。系数块可以是变换系数的二维阵列。变换系数可以是标量。视频编码器20可以将一个或多个变换应用于TU的Cb变换块以生成TU的Cb系数块。视频编码器20可以将一个或多个变换应用于TU的Cr变换块以生成TU的Cr系数块。

在生成系数块(例如，亮度系数块、Cb系数块或Cr系数块)之后，视频编码器20可以对系数块进行量化。量化通常是指将变换系数量化以可能地减少用于表示变换系数的数据量从而提供进一步压缩的过程。在视频编码器20对系数块进行量化之后，视频编码器20可以对指示量化的变换系数的语法元素进行熵编码。例如，视频编码器20可以对指示量化的变换系数的语法元素执行上下文自适应二进制算术编解码(CABAC)。最终，视频编码器20可以输出包括形成编码帧和相关联数据的表示的比特序列的比特流，比特流被保存在存储设备32中或被传输到目的地设备14。

在接收到由视频编码器20生成的比特流之后，视频解码器30可以解析该比特流以从该比特流中获得语法元素。视频解码器30可以至少部分地基于从比特流获得的语法元素来重建视频数据的帧。重建视频数据的过程通常与由视频编码器20执行的编码过程是相反的。例如，视频解码器30可以对与当前CU的TU相关联的系数块执行反变换以重建与当前CU的TU相关联的残差块。视频解码器30还通过将当前CU的PU的预测块的样本添加到当前CU的TU的变换块的对应样本来重建当前CU的编解码块。在重建帧的每个CU的编解码块之后，视频解码器30可以重建帧。

在一些实施例中，存在用信号发送预测模式的不同方式。在VVC中，每个CU可以被编码为跳过模式或非跳过模式。对于编码为非跳过模式的CU，进一步用信号发送语法元素以指示当前CU被编码为帧内模式、帧间模式、帧内块复制(IBC)模式还是调色板(PLT)模式。这些模式在VVC规范中分别被称为“MODE_INTRA”、“MODE_INTER”、“MODE_IBC”和“MODE_PLT”。对于编码为帧间模式的CU，预测信号可以由来自不是当前图像的参考图像的像素生成。此外，针对编码为帧间模式的CU进一步用信号发送一个标志以指示当前CU是否是合并模式。对于合并模式编码的CU，使用附加语法元素进一步用信号发送若干不同类型的合并模式。这些不同类型的合并模式包括常规合并模式、子块合并模式、具有MV差的合并模式(MMVD)、组合帧间和帧内预测(CIIP)以及三角形合并模式。以下部分说明了这些合并模式。

在一些实施例中，在VVC中，通过依次包括以下五种类型的候选来构建合并候选列表：来自空间相邻CU的空间MVP(即运动矢量预测值)、来自同位置CU的时间MVP、来自FIFO表的基于历史的MVP、成对平均MVP和零MV。

在条带头中用信号发送合并列表的尺寸，并且在VVC中合并列表的最大允许尺寸为6。对于合并模式下的每个CU编解码，使用截断的一元二值化(TU)对最佳合并候选的索引进行编码。合并索引的第一二进制位利用上下文进行编解码，并且其他二进制位使用旁路编解码。在本公开的以下上下文中，该扩展的合并模式也被称为常规合并模式，因为其概念与HEVC中使用的合并模式相同。

在一些实施例中，除了从其空间/时间邻居得到一个当前块的运动信息的合并模式之外，MMVD/UMVE模式在VVC和AVS标准中被引入作为一种特殊合并模式。具体地，在VVC和AVS3中，该模式在编解码块级别由一个MMVD标志用信号发送。在MMVD模式下，常规合并模式的合并列表中的前两个候选被选择为MMVD的两个基本合并候选。在选择并用信号发送一个基本合并候选之后，用信号发送附加语法元素以指示添加到所选合并候选的运动的运动矢量差(MVD)。MMVD语法元素包括用于选择基本合并候选的合并候选标志、用于指定MVD幅值的距离索引和用于指示MVD方向的方向索引。

在MMVD设计中，距离索引指定MVD幅值，该幅值是基于一组预定义的起点偏移量定义的。图5A和图5B是图示了根据本公开的一些实施方式的添加到起始运动矢量(MV)(即，所选基本合并候选的MV)的水平或垂直分量的示例性偏移量的框图。图示了参考图像列表L0和参考图像列表L1。

表1图示了应用的距离索引和预定义MVD偏移量的关系。

表1：距离索引与预定义MVD偏移量的关系

方向索引表示MVD相对于起点的方向。方向索引可以表示如表2所示的这四个方向。应当注意，MVD符号的含义可以根据起始MV的信息而变化。当起始MV是单向预测MV或双向预测MV且该双向预测MV的两个列表都指向当前图像的同一侧时(即两个参考的图像顺序计数(POC)都大于当前图像的POC，或都小于当前图像的POC)，表2中的符号指定添加到起始MV的MV偏移量的符号。当起始MV是双向预测MV且两个MV指向当前图像的不同侧时(即一个参考的图像顺序计数(POC)大于当前图像的POC并且另一个参考的POC小于当前图像的POC)，表2中的符号指定添加到起始MV的列表0(L0参考)MV分量的MVD的符号，并且列表1(L1参考)MVD的符号具有相反值。

方向IDX	00	01	10	11
					x轴	+	-	N/A	N/A
y轴	N/A	N/A	+	-

表2：由方向索引指定的MVD的符号

在一些实施例中，为了增加常规合并模式的MV的准确性，应用基于双边匹配的解码器端运动矢量改良(DMVR)。在双向预测操作中，在参考图像列表L0和参考图像列表L1中的初始MV周围搜索改良的MV。该方法计算参考图像列表L0和列表L1中的两个候选块之间的失真。图6是图示了根据本公开的一些实施方式的示例性解码器端运动矢量改良(DMVR)的框图。如图6中图示的，基于初始MV周围的每个MV候选计算块602与块604之间的SAD。具有最低SAD的MV候选成为改良的MV，并且用于生成双向预测信号。

在DVMR中，搜索点是由初始MV和被认为符合镜像规则的MV偏移量所指向的周围整数样本。换句话说，由DMVR检查的任何MV改良都应满足以下两个方程：

MV0′＝MV0+MV_offset (1)

MV1′＝MV1-MV_offset (2)

其中，MV_offset表示参考图像之一中初始MV与改良的MV之间的改良偏移量。改良搜索范围是自初始MV开始的两个整数亮度样本。搜索包括整数样本搜索阶段和分数样本改良阶段。

在一些实施例中，在整数样本搜索阶段，检查如图7所指示的21个整数样本位置(包括与初始MV相对应的整数样本位置)的SAD。图7是图示了根据本公开的一些实施方式的用于DMVR模式的一些示例性整数搜索候选的框图。在图7中，黑色中心三角形是与初始MV相关联的整数样本位置，并且白色三角形是相邻整数样本位置。首先计算初始MV对的SAD。选择最小化SAD值的整数偏移量作为在整数样本搜索阶段的整数样本偏移量。

整数样本搜索之后是分数样本改良。为了降低计算复杂度，分数样本改良是通过使用参数误差表面方法而不是使用SAD比较进行附加搜索而得到的。在基于参数误差表面的子像素偏移量估计中，中心位置成本和该中心的四个相邻位置的成本用于拟合如下的2-D抛物线误差表面方程：

E(x，y)＝A(x-x_min)²+B(y-y_min)²+C (3)

其中，(x_min，y_min)与具有最低成本的分数位置相对应，并且C与最小成本值相对应。通过使用五个搜索点的成本值求解上述方程，(x_min，y_min)计算为：

x_min＝(E(-1，0)-E(1，0))/(2(E(-1，0)+E(1，0)-2E(0，0))) (4)

y_min＝(E(0，-1)-E(0，1))/(2((E(0，-1)+E(0，1)-2E(0，0))) (5)

由于所有成本值都是正的并且最小值为E(0，0)，x_min和y_min的值被自动限制在-8与8之间。计算出的分数(x_min，y_min)被添加到整数距离改良MV以获得子像素精度改良ΔMV。

在一些实施例中，为了进一步提高预测效率，应用了将一个CU的帧内预测和该CU的基于合并模式的帧间预测组合的帧间预测滤波(InterPF)。具体地，对于每个合并CU，用信号发送一个附加标志以指示是否针对当前CU启用InterPF模式。当该标志为假时，InterPF被禁用，并且应用常规帧间预测来生成当前CU的预测样本。当该标志为真时，InterPF被应用到当前CU并且用信号发送另一个标志以进一步指示使用两种InterPF模式中的哪一种。两种InterPF模式描述如下：

InterPF模式一：根据帧间预测样本和来自左、右、上、下的五个相邻的重建样本的加权平均来得到组合的预测样本，如以下方程组(6)所示：

Pred(x，y)＝(Pred_inter(x，y)*5+Pred_Q(x，y)*3)＞＞3

Pred_Q(x，y)＝(Pred_V(x，y)+Pred_H(x，y)+1)＞＞2

Pred_V(x，y)＝((h-1-y)*Rec(x，-1)+(y+1)*Rec(-1，h)+(h＞＞1))＞＞log2(h)

Pred_H(x，y)＝((w-1-x)*Rec(-1，y)+(x+1)*Rec(w，-1)+(w＞＞1))＞＞log2(w)

InterPF模式二：根据帧间预测样本和来自左和上的三个相邻的重建样本的加权平均来得到组合的预测样本：

P′(x，y)＝f(x)·P(-1，y)+f(y)·P(x，-1)+(1-f(x)-f(y))·P(x，y) (7)

在(7)中，权重参数f(x)和f(y)被预定义为一个查找表(LUT)，该查找表是基于当前CU的大小和帧内预测方向而确定的。另外地，根据现有的AVS3设计，在由MMVD模式编解码当前CU时，InterPF模式始终被禁用。

尽管MMVD模式可以高效地提高帧间预测的效率，但其设计的若干方面仍然可以进一步改进。具体地，发现了AVS3标准中当前MMVD设计中的以下问题。

如前所述，在MMVD设计中，可以为一个MMVD CU选择的允许的MVD偏移量集合是固定的，该偏移量集合包括如表1中图示的1/4-pel(像素/图像元素)、1/2-pel、1-pel、2-pel和4-pel。对于具有不同特性的视频内容，这种设计可能并不总是最佳的。例如，与较低分辨率的视频序列(像VGA和WQVGA)相比，具有更高分辨率的视频序列倾向于具有更大的MV用于帧间CU。相应地，对于具有相对较大运动的视频序列，在MMVD模式下，大MVD偏移量相比于小MVD偏移量更常被选择。因此，为了最大化MMVD模式的编解码收益，根据已编解码视频的具体特性自适应地调整允许的MVD偏移量值更为有益。

在AVS3中，DMVR模式仅适用于通过常规合并模式编解码的CU。对于MMVD CU，DMVR始终被禁用。然而，鉴于MMVD模式只是具有用信号发送的MVD的常规合并模式的扩展，将DMVR应用于以MMVD模式编解码的帧间CU也可以是有益的。这种组合可以在不增加实际硬件编解码器设计复杂度的情况下，进一步提高MMVD模式的帧间预测效率。

如以上所讨论的，在由MMVD模式编解码一个当前CU时，InterPF模式始终被禁用。然而，类似于常规合并模式，在MMVD模式中得到的MV可能不如在非合并模式中得到的MV准确(在非合并模式中，一个帧间CU的MV在比特流中直接用信号发送)。在这种情况下，一个MMVD CU的帧间预测样本与来自其相邻重建样本的帧内预测样本的组合可以潜在地提高预测准确度并且提高编解码效率。基于这种分析，允许InterPF模式和MMVD模式的组合将是有益的。

在一些实施例中，实施了方法和系统以进一步改进如本文所公开的MMVD模式的编解码效率。具体地，实施的方法的主要方面总结如下。

信号发送方法用于支持在各种编解码级别对MMVD模式所允许的MVD偏移量的适配。另外，一种编码器端方法用于自适应地确定应用于MMVD模式的最佳MVD偏移量。

在DMVR过程中使用了方法来进一步改良MMVD模式的MV。

实施了方法以使得MMVD模式能够与InterPF模式组合。

在一些实施例中，实施了针对MMVD模式的MVD偏移量值的适配方法。

在一些MMVD设计中，允许的MVD偏移量值固定为1/4-pel、1/2-pel、1-pel、2-pel和4-pel。这种设计对于具有高分辨率或剧烈运动的视频内容来说是次优的。在这些情况下，MV往往大得多，使得在MMVD模式中定义的上述MVD偏移量值对于捕获那些块的真实运动来说可能不是最佳的。为了进一步提高MMVD模式的编解码性能，支持允许由MMVD模式进行选择的MVD偏移量的适配。

根据一些实施例，可以为MMVD模式预定义一定数量的MVD偏移量值集合，并且允许所选择的MVD偏移量集合基于视频内容中变化的运动特性而随时间变化。作为本公开的一个示例，表3示出了用于熵编解码的两个预定义MVD偏移量集合及其对应的二值化码字。

表3：用于MMVD模式的MVD偏移量集合。

如可以从表3所看到的，第二MVD偏移量集合是第一集合的一个超集，并且引入了三个附加MVD偏移量。附加MVD偏移量是8-pel、16-pel和32-pel。新添加的MVD偏移量使第二集合更适合于对具有较大运动的视频块进行编解码。此外，在表3中，为每个集合指定不同的二值化码字，以适应MVD偏移量值使用情况的不同概率分布。例如，用于第一集合的二值化为小MVD偏移量分配较短码字，这使得第一集合更高效地对具有被经常选择的小MVD偏移量的MMVD CU的图像/区域进行编解码。同样地，第二MVD偏移量集合对于具有经常被选择的中等MVD偏移量值的MMVD CU的图像/区域进行的编解码更为有效。

在以上示例中，仅允许为MMVD模式选择两个MVD偏移量集合。然而，在实践中，可以根据不同视频序列的具体运动特性，通过本文公开的方法离线得到多个MVD偏移量集合(即，多于两个集合)以及对应的码字。编码器可以选择最佳MVD偏移量集合并且将所选集合的对应索引用信号发送给解码器。

根据一些实施例，通过用信号发送一个集合标识符(或id)来启用对预定义的MVD偏移量集合的自适应选择，以指示选择哪一个集合。可以在不同的编解码级别(例如，序列级别、图像级别和/或条带级别)同时在信号发送级别下(例如，在编解码块组级别和/或编解码块级别)用信号发送id。MMVD模式仅可以选择已标识集合中的MVD偏移量。假设允许的MVD偏移量的适配是在图像级别执行的，表4示出了一个示例性语法表，其中在图像头处用信号发送语法元素。

表4：带有MMVD偏移量控制标志的经修改的语法表

mmvd_dist_set_id指定允许为当前图像中以MMVD模式编解码的编解码块选择的MVD偏移量集合。对于表3中示出的示例，其中，预定义了两个集合，mmvd_dist_set_id成为标志。当标志取一个值，例如0时，其指示MMVD模式允许的MVD偏移量包括1/4-pel、1/2-pel、1-pel、2-pel和4-pel。当标志取相反值，例如1时，其指示MMVD模式允许的MVD偏移量包括1/4-pel、1/2-pel、1-pel、2-pel、4-pel、8-pel、16-pel和32-pel。

在表4中，变量MMVDEnableFlag是一个控制标志，用于指示是否对视频序列中的编解码块启用了MMVD工具。该变量可以通过序列级别的控制标志来控制，例如，在序列参数集合中。

在另一个实施例中，不是使用固定的MVD偏移量，而是直接在比特流中用信号发送MVD偏移量值。这使编码器在运行中确定当前图像/条带的所需MVD偏移量值方面具有更大的自由度。

在又另一个实施例中，MVD偏移量值集合的选择是基于特定统计在运行中确定的，而没有明确地用信号发送mmvd_dist_set_id。这种特定统计可以包括但不限于基于先前编解码的图像、条带和/或编解码块的计算的MVD偏移量值使用的概率分布。可以在各种频率级别重新确定和/或更新对MVD偏移量值集合的选择。例如，每次在MMVD模式下对CU进行编解码时，可以重新确定和/或更新选择。在另一个示例中，每当有多个CU(例如，8个或16个)以MMVD模式进行编解码时，可以重新确定和/或更新选择。在另一个示例中，在以帧间模式编解码的多个CU(例如，8个或16个)之后，可以更新一次对允许的MVD偏移量集合的选择。在这种情况下，可以计算帧间块的平均/最大/最小MV，并且将其用于确定应该为以MMVD模式编解码的之后的编解码块选择哪个MVD偏移量集合。根据这种方法，集合选择的重置操作可以在某个点执行，例如，在当前帧编解码的开始，在当前GOP(即图像组)编解码的开始，或当支持随机访问功能的帧，例如IDR帧(IDR帧指定IDR帧之后的任何帧都不能引用其之前的任何帧)被编解码时等，其中，始终选择默认的MVD偏移量值集合。

在一些实施例中，实施了用于针对MMVD模式选择最佳MVD偏移量的编码器逻辑。在以上讨论的MMVD方法中，允许由MMVD模式选择多个MVD偏移量集合。在一些示例中，提供了一种用于自适应地选择编码器端的最佳MVD偏移量集合的方法。具体地，考虑到同一视频序列中的图像之间的强内容特性相关性，由一个帧间图像选择的MVD偏移量可能与其先前编解码的相邻图像的MVD偏移量非常类似。基于这种考虑，先前编解码图像的MMVD CU的平均MVD偏移量被用于确定当前图像中针对MMVD模式的MVD偏移量集合。假设将表3中例示的两个MVD偏移量集合应用于MMVD模式，并且有M(M为正整数)个CU在先前图像中由MMVD模式编解码并且MVD偏移量值为V₀、V₁、……、V_M-1，先前图像中MMVD模式的平均MVD偏移量计算如下：

基于(8)，当前图像使用的MVD偏移量集合的索引被确定为：

在一些实施例中，为MMVD模式启用DMVR模式。在一些MMVD设计中，DMVR往往不一起应用。然而，因为MMVD模式是一种具有附加地用信号发送的MVD偏移量的扩展合并模式，所以允许MMVD之上的DMVR可以进一步提高由MMVD模式得到的MV的精度。另外地，两种编解码工具的组合不会导致硬件/软件的附加的编解码器实施复杂度。基于这种考虑，实施以下两种方法/实施例使得能够对MMVD模式应用DMVR过程。

在第一实施例中，只要MMVD模式得到的初始MV是双向的并且满足触发DMVR过程的公共条件，就应用DMVR来改良MMVD模式得到的所有MV。

在第二实施例中，仅当用信号发送的MMVD偏移量大于一个阈值时，DMVR应用于MMVD CU。当对应的MMVD偏移量等于或小于该阈值时，总是绕过DMVR。在实践中，为了最大化编解码性能，可以根据编解码视频的具体特性应用不同的阈值。在一个示例中，使用固定阈值(例如，1-pel)。在另一个实施例中，编码器自适应地确定最佳阈值并且在各种编解码级别(例如，序列级别、图像级别、条带级别和/或编解码块级别等)向解码器发送信号。

在实践中，以上讨论的第二实施例可以提供比第一实施例更好的编解码性能。基于现有DMVR设计，其搜索范围是自初始MV开始的+/-2-pel。但是，如之前示出的，MMVD模式使用的允许的MVD偏移量也可以覆盖这种搜索范围，并且MMVD中MVD偏移量的选择基于编码器端更准确和可靠的率失真优化(RDO)而不是DMVR中的解码器端双向匹配搜索。因此，在初始MV周围的小局部区域内，MMVD用信号发送的MVD偏移量应该比DMVR的MVD偏移量更准确。在这种情况下禁止DMVR可以减少信号发送开销并且提高编解码效率。

在一些实施例中，针对MMVD模式启用了InterPF。如上所述，InterPF模式不允许其帧间预测样本来自MMVD模式。然而，与常规合并模式类似，由MMVD模式得到的MV可能不准确。例如，当这种情况发生时，当前块的帧间预测样本与其相邻重建样本之间可能存在不期望的不连续性，这可能导致沿相邻块边界的可见块伪像。在这种情况下，一个MMVD CU的帧间预测样本与来自其相邻重建样本的帧内预测样本的组合可以潜在地减少这种伪像并且提高预测效率。同时，在启用两种编解码工具的组合时，硬件/软件编解码器实施的复杂度没有增加。基于这种考虑，在一个实施例中，针对MMVD CU启用InterPF模式，即，启用一个MMVD CU的帧间预测样本与来自CU的相邻重建样本的帧内预测样本的组合。具体地，以InterPF设计为例(如方程(6)和(7)所示)，当这种组合被启用时，在解码器处将接收用于指示MMVD模式是否应用于一个编码单元的一个第一控制标志。在针对编码单元启用MMVD的情况下，在解码器处将接收用于进一步指定InterPF模式是否进一步应用于MMVD编码单元的一个第二控制标志。如果第二控制标志为1/被启用，则将用信号发送第三控制标志用于为CU选择两个InterPF滤波之一(如方程(6)和(7)所示)。

图8是图示了根据本公开的一些实施方式的当启用具有运动矢量差的合并模式(MMVD)时从多个运动矢量差(MVD)偏移量集合中确定MVD偏移量的示例性过程800的流程图。

视频解码器30从比特流接收第一控制标志，其中，第一控制标志指示是否针对视频序列中的一个或多个编码单元启用具有运动矢量差的合并模式(MMVD)(810)。在一些实施例中，当针对视频序列中的一个或多个编码单元启用MMVD时，第一控制标志等于1。

根据从第一控制标志确定MMVD被启用，视频解码器30从视频数据接收第一语法元素，其中，第一语法元素标识多个运动矢量差(MVD)偏移量集合中的一个MVD偏移量集合(820)。

视频解码器30从比特流接收视频数据的第二控制标志，第二控制标志与一个或多个编码单元中的相应编码单元相对应，第二控制标志指示MMVD是否应用于相应编码单元(830)。在一些实施例中，当MMVD应用于相应编码单元时，第二控制标志等于1。

根据从第二控制标志确定MMVD应用于相应编码单元，视频解码器30接收相应编码单元的第二语法元素和相应编码单元的第三语法元素，第二语法元素从所标识的MVD偏移量集合中选择MVD偏移量，第三语法元素选择与所选择的MVD偏移量相对应的MVD方向(840)。

视频解码器30基于所选择的MVD偏移量和所选择的MVD方向来形成MVD(850)。

视频解码器30通过应用所形成的MVD生成相应编码单元的运动矢量，来重建相应编码单元(860)。

在一些实施例中，多个MVD偏移量集合包括第一MVD偏移量集合和第二MVD偏移量集合。

在一些实施例中，第一MVD偏移量集合是第二MVD偏移量集合的子集。

在一些实施例中，为第一MVD偏移量集合指定第一二值化码字集合，并且为第二MVD偏移量集合指定第二二值化码字集合。在一些实施例中，对于一个相同的偏移量值，第一二值化码字集合与第二二值化码字集合不同，以适应MVD偏移量值使用情况的不同概率分布。

在一些实施例中，第一MVD偏移量集合包括以样本为单位的偏移量值1/4、1/2、1、2、4，并且第二MVD偏移量集合包括以样本为单位的偏移量值1/4、1/2、1、2、4、8、16和32。

在一些实施例中，第一MVD偏移量集合包括以样本为单位的偏移量值1/4、1/2、1、2、4以及分别对应于偏移量值1/4、1/2、1、2、4的二值化码字1、01、001、0001和0000，并且第二MVD偏移量集合包括以样本为单位的偏移量值1/4、1/2、1、2、4、8、16和32以及分别对应于偏移量值1/4、1/2、1、2、4、8、16和32的二值化码字000、001、011、010、10、110、1110和1111。

在一些实施例中，第一语法元素在不同的编解码级别中的一个或多个编解码级别用信号发送，不同的编解码级别包括序列级别、图像级别和条带级别。

在另一个方面，结合InterPF模式和MMVD模式的过程公开如下。

视频解码器30从比特流接收第一控制标志，其中，第一控制标志指示是否针对一个或多个编码单元启用具有运动矢量差的合并模式(MMVD)。在一些实施例中，当针对视频序列中的一个或多个编码单元启用MMVD时，第一控制标志等于1。

根据从第一控制标志确定MMVD被启用，视频解码器30从比特流接收视频数据的第二控制标志，第二控制标志与一个或多个编码单元中的相应编码单元相对应，第二控制标志指示MMVD是否应用于相应编码单元。在一些实施例中，当MMVD应用于相应编码单元时，第二控制标志等于1。

根据从第二控制标志确定MMVD应用于相应编码单元，视频解码器30从视频数据接收第三控制标志，其中，第三控制标志指示是否针对相应编码单元启用帧间预测滤波(InterPF)模式。在一些实施例中，当针对相应编码单元启用InterPF模式时，第三控制标志等于1。

根据从第三控制标志确定针对相应编码单元启用InterPF模式，视频解码器30从视频数据接收第四语法元素，其中，第四语法元素标识相应编码单元的多个InterPF模式中的一个InterPF模式。

视频解码器30通过将MMVD和所标识的InterPF模式应用于与相应编码单元相对应的视频数据来重建相应编码单元。

在一些实施例中，多个InterPF模式包括至少两个InterPF模式。

在一个或多个示例中，所描述的功能可以在硬件、软件、固件或其任何组合中实施。如果在软件中实施，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括与如数据存储介质等有形介质相对应的计算机可读存储介质或包括有助于例如根据通信协议将计算机程序从一个地方转移到另一个地方的任何介质的通信介质。以这种方式，计算机可读介质通常可以与(1)非暂态的有形计算机可读存储介质或者(2)如信号或载波等通信介质相对应。数据存储介质可以是可以被一个或多个计算机或者一个或多个处理器访问以取得用于实施本申请中描述的实施方式的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

在对本文中实施方式的描述中使用的术语仅出于描述特定实施方式的目的，并且不旨在限制权利要求的范围。如对实施方式的描述和所附权利要求中使用的，单数形式“一个(a)”、“一种(an)”和“所述(the)”旨在也包括复数形式，除非上下文另有明确指示。还将理解的是，本文所使用的术语“和/或”是指并涵盖相关联列举项目中的一个或多个项目的任何和所有可能组合。将进一步理解的是，当在本说明书中使用术语“包括(comprises)”和/或“包括(comprising)”时，其指定陈述的特征、元件和/或部件的存在，但不排除一个或多个其他特征、元件、部件和/或其组的存在或添加。

还应理解，尽管术语第一、第二等在本文中可以用来描述各种要素，但是这些要素不应该受这些术语的限制。这些术语仅仅是用来将一个元件与另一个元件进行区分。例如，在不偏离实施方式的范围的情况下，第一电极可以被称为第二电极，并且类似地，第二电极可以被称为第一电极。第一电极和第二电极都是电极，但是第一电极和第二电极不是同一电极。

在整个说明书中，以单数或复数形式对“一个示例”、“示例”、“示例性示例”等的引用意味着结合示例描述的一个或多个特定特征、结构、或特性被包括在本公开的至少一个示例中。因此，在整个该说明书中的各个地方以单数或复数形式出现的短语“在一个示例中”或“在示例中”、“在示例性示例中”等不一定都是指同一个示例。此外，一个或多个示例中的特定的特征、结构、或特性可以包括以任何合适的方式进行组合。

已经出于说明和描述的目的呈现了对本申请的描述，并且描述不旨在是穷举的，或以所公开的形式限于本发明。受益于前述描述和相关联附图中呈现的教导，许多修改、变体和替代性实施方式对于本领域普通技术人员将是显而易见的。选择并描述实施例以便最好地解释本发明的原理、实际应用，并且使本领域其他技术人员能够理解本发明的各种实施方式并且最好地利用基本原理以及具有适合于预期的特定用途的各种修改的各种实施方式。因此，应当理解，权利要求的范围不应受限于所公开的实施方式的具体示例，并且修改和其他实施方式旨在包括在所附权利要求的范围内。

Claims

1.一种对视频数据进行解码的方法，所述方法包括：

从比特流接收第一控制标志，其中，所述第一控制标志指示是否针对一个或多个编码单元启用具有运动矢量差的合并模式MMVD；

根据从所述第一控制标志确定所述MMVD被启用，从所述比特流接收第二控制标志，所述第二控制标志与所述一个或多个编码单元中的相应编码单元相对应，所述第二控制标志指示所述MMVD是否应用于所述相应编码单元；

根据从所述第二控制标志确定所述MMVD应用于所述相应编码单元，从视频数据接收第三控制标志，其中，所述第三控制标志指示是否针对所述相应编码单元启用帧间预测滤波InterPF模式；

根据从所述第三控制标志确定针对所述相应编码单元启用所述InterPF模式，从所述视频数据接收第四语法元素，其中，所述第四语法元素标识所述相应编码单元的多个InterPF模式中的InterPF模式；以及

基于所标识的InterPF模式来重建所述相应编码单元，

其中所述重建所述相应编码单元包括：

根据确定所述第四语法元素所标识的InterPF模式为第一InterPF模式，对于所述相应编码单元中的相应样本，根据该相应样本的帧间预测样本和来自该相应样本的左和上的相邻的重建样本的加权平均来得到该相应样本的重建样本。

2.根据权利要求1所述的方法，其中，所述多个InterPF模式包括至少两个InterPF模式。

3.根据权利要求1或2所述的方法，其中，所述重建所述相应编码单元包括：

根据确定所述第四语法元素所标识的InterPF模式为第二InterPF模式，对于所述相应编码单元中的相应样本，根据该相应样本的帧间预测样本和来自该相应样本的左、右、上、下的相邻的重建样本的加权平均来得到该相应样本的重建样本。

4.一种电子装置，包括：

一个或多个处理单元；

存储器，所述存储器耦接到所述一个或多个处理单元；以及

存储在所述存储器中的多个程序，所述多个程序当由所述一个或多个处理单元执行时使所述电子装置接收视频比特流以执行如权利要求1至3中任意一项所述的方法。

5.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储用于由具有一个或多个处理单元的电子装置执行的多个程序，其中，所述多个程序当由所述一个或多个处理单元执行时使所述电子装置接收视频比特流以执行如权利要求1至3中任意一项所述的方法。