CN116636218A

CN116636218A - 利用多方向帧内预测的视频编解码

Info

Publication number: CN116636218A
Application number: CN202280008869.3A
Authority: CN
Inventors: 朱弘正; 修晓宇; 陈漪纹; 陈伟; 郭哲玮; 闫宁; 王祥林; 于冰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-06-21
Filing date: 2022-06-21
Publication date: 2023-08-22
Also published as: WO2022271756A1

Abstract

提供用于利用多方向帧内预测(MDIP)进行视频编解码的方法、装置以及非暂时性计算机可读存储介质。在一种方法中，解码器根据从解码器侧帧内模式推导(DIMD)导出的帧内预测模式来推断MDIP中采用的帧内模式。在另一种方法中，解码器通过在比特流中应用次最可能模式(SMPM)来通过信号发送MDIP中采用的帧内模式。

Description

利用多方向帧内预测的视频编解码

相关申请的交叉引用

本申请基于并要求于2021年6月21日提交的第63/213,197号美国临时申请的优先权，该临时申请的全部内容通过引用完整地并入本文。

技术领域

本公开涉及视频编解码和压缩。更具体地，本公开涉及利用多方向帧内预测的视频编解码的改进和简化。

背景技术

各种电子设备(例如数字电视、膝上型计算机或台式计算机、平板计算机、数码相机、数字记录设备、数字媒体播放器、视频游戏机、智能电话、视频电话会议设备、视频流传输设备等)支持数字视频。电子设备通过通信网络来发送和接收或以其它方式传送数字视频数据，和/或将数字视频数据存储在存储设备上。由于通信网络的带宽容量有限并且存储设备的存储资源有限，因此在视频数据被传送或存储之前，可以根据一种或多种视频编解码标准使用视频编解码来压缩视频数据。例如，视频编解码标准包括通用视频编解码(Versatile Video Coding，VVC)、联合探索测试模型(Joint Exploration test Model，JEM)、高效视频编解码(High-Efficiency Video Coding，HEVC/H.265)、高级视频编解码(Advanced Video Coding，AVC/H.264)、移动图像专家组(Moving Picture Expert Group，MPEG)编解码等。视频编解码通常采用利用了视频数据中固有的冗余的预测方法(例如，帧间预测、帧内预测等)。视频编解码旨在将视频数据压缩成使用较低比特率的形式，同时避免或最小化视频质量的下降。

发明内容

本公开的实施例提供了利用多方向帧内预测(multi-directional intraprediction，MDIP)进行视频编解码的方法和装置。

根据本公开的第一方面，提供一种视频解码的方法。该方法可以包括：解码器根据从解码器侧帧内模式推导(decoder-side intra mode derivation，DIMD)导出的帧内预测模式来推断在MDIP中采用的帧内模式。

根据本公开的第二方面，提供一种视频解码的方法。该方法可以包括：解码器通过在比特流中应用次最可能模式(secondary most probable mode，SMPM)来接收在MDIP中采用的帧内模式。

根据本公开的第三方面，提供一种视频解码的方法。该方法可以包括：解码器推断在具有帧内模板匹配的MDIP(MDIP with intra template matching，MDIP-TMP)中采用的帧内模式。

根据本公开的第四方面，提供一种视频解码的方法。该方法可以包括：解码器推断在具有跨分量线性模型(cross-component linear model，CCLM)或具有多模型线性模型(multi-model linear model，MMLM)的MDIP中采用的帧内模式。

根据本公开的第五方面，提供一种视频解码的方法。该方法可以包括：解码器根据当前块的编码信息选择多个几何混合方法之一作为针对MDIP的混合方法。

根据本公开的第六方面，提供一种视频解码的方法。该方法可以包括：解码器根据与截断块(truncated block，TB)、编码块(coding block，CB)、条带、图片或序列级别相关联的语法元素来确定针对MDIP的混合方法。

将理解的是，以上一般描述和以下详细描述二者仅仅是示例，而不限制本公开。

附图说明

被并入说明书中并且构成说明书的一部分的附图示出了与本公开一致的示例，并且与本描述一起用于解释本公开的原理。

图1是示出了根据本公开的一些实施方式的用于对视频块进行编码和解码的示例性系统的框图。

图2是示出了根据本公开的一些实施方式的示例性视频编码器的框图。

图3是示出了根据本公开的一些实施方式的示例性视频解码器的框图。

图4A至图4E是示出了根据本公开的一些实施方式的如何将帧递归地分割为不同尺寸和形状的多个视频块的框图。

图5A示出了根据本公开的一些实施方式的使用最小-最大方法的α和β的直线推导。

图5B是示出了根据本公开的一些实施方式的用于导出α和β的样点的位置的框图。

图6示出了根据本公开的一些实施方式将相邻样点分类为两个组的示例。

图7示出了根据本公开的一些实施方式的允许的GPM分区的示例。

图8示出了根据本公开的一些实施方式对其执行梯度分析的所选像素的示例。

图9示出了根据本公开的一些实施方式的卷积过程。

图10是示出了根据本公开的一些实施方式的推导中使用的示例性相邻块的框图。

图11示出了根据本公开的一些实施方式的模板匹配预测。

图12A示出了根据本公开的一些实施方式的利用MDIP进行视频解码的方法。

图12B示出了根据本公开的一些实施方式的利用MDIP进行视频解码的方法。

图13示出了根据本公开的一些实施方式的利用MDIP进行视频解码的方法。

图14示出了根据本公开的一些实施方式的利用MDIP进行视频解码的方法。

图15示出了根据本公开的一些实施方式的利用MDIP进行视频解码的方法。

图16示出了根据本公开的一些实施方式的利用MDIP进行视频解码的方法。

图17示出了根据本公开的一些实施方式的利用MDIP进行视频解码的方法。

图18示出了根据本公开的一些实施方式的与用户接口耦合的计算环境的框图。

具体实施方式

现在将详细参照具体实施方式，在附图中示出了具体实施方式的示例。以下描述参考这些附图，其中不同附图中的相同数字表示相同或相似的元件，除非另有表示。在示例性实施例的以下描述中阐述的实施方式并不表示与本公开一致的所有实施方式。相反，它们仅仅是与所附权利要求中所述的与本公开相关的方面一致的设备和方法的示例。

本公开中使用的术语仅出于描述具体实施例的目的，并不旨在对本公开进行限制。如在本公开和所附权利要求中使用的，单数形式“一个”和“该”旨在也包括复数形式，除非上下文另有明确指示。还应理解，本文使用的术语“和/或”旨在表示并包括一个或多个相关列出的项目的任何或所有可能的组合。

应当理解，尽管在本文中可以使用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应被这些术语所限制。这些术语仅用于将一类信息与另一类信息区分开来。例如，在不脱离本申请的范围的情况下，第一信息可以称为第二信息；同理，第二信息也可以称为第一信息。如本文所用，根据上下文，术语“如果”可以理解为表示“何时”或“在”或“响应于判断”。

各种视频编解码技术可用于压缩视频数据。根据一个或多个视频编解码标准执行视频编解码。例如，目前一些悉知的视频编解码标准包括通用视频编解码(VVC)、高效视频编解码(HEVC，也称为H.265或MPEG-H第2部分)和高级视频编解码(AVC，也称为H.264或MPEG-4第10部分)，它们由ISO/IEC MPEG和ITU-T VECG联合开发。AOMedia Video 1(AV1)是由开放媒体联盟(Alliance for Open Media，AOM)开发的，作为其先前标准VP9的继任者。音频视频编解码(Audio Video Coding，AVS)是索引字音频和数字视频压缩标准，是中国音频和视频编解码标准工作组开发的另一个视频压缩标准系列。大多数现有视频编解码标准建立在著名的混合视频编解码框架上，即，使用基于块的预测方法(例如，帧间预测、帧内预测)来减少视频图像或序列中存在的冗余，以及使用变换编解码来压缩预测误差的能量。视频编解码技术的一个重要目标是将视频数据压缩成使用较低比特率的形式，同时避免或最小化视频质量的退化。

第一代AVS标准包括中国国家标准“信息技术，高级音频视频编解码，第2部分：视频”(称为AVS1)和“信息技术，高级音频视频解解码，第16部分：无线电视视频”(也称为AVS+)。与MPEG-2标准相比，它可以在相同的感知质量下提供大约50％的比特率节省。AVS1标准视频部分于2006年2月颁布为中国国家标准。第二代AVS标准包括一系列中国国家标准“信息技术，高效多媒体编解码”(即AVS2)，主要针对超高清电视节目的传输。AVS2的编码效率是AVS+的两倍。2016年5月，AVS2作为中国国家标准发布。同时，AVS2标准视频部分由电气和电子工程师协会(IEEE)提交，作为应用的一个国际标准。第三代音频视频标准(thirdgeneration of audio video standard，AVS3)是用于UHD视频应用的新一代视频编解码标准，旨在超越最新国际标准HEVC的编码效率。2019年3月，在第68届AVS会议上，AVS3-P2基线完成，比HEVC标准节省了约30％的比特率。目前，AVS组维护了一个称为高性能模型(highperformance model，HPM)的参考软件，以演示AVS3标准的参考实现。

图1为图示出根据本公开一些实施方式的用于对视频块并行地编码和解码的示例性系统10的框图。如图1所示，系统10包括源设备12，其生成和编码要在以后的时间由目标设备14解码的视频数据。源设备12和目标设备14可以包括各种各样的电子设备中的任何电子设备，包括台式或膝上型计算机、平板计算机、智能电话、机顶盒、数字电视、照相机、显示设备、数字媒体播放器、视频游戏控制台、视频流式传输设备等。在一些实施方式中，源设备12和目标设备14配备有无线通信能力。

在一些实施方式中，目标设备14可以经由链路16接收待解码的已编码视频数据。链路16可以包括能够将编码的视频数据从源设备12移动到目标设备14的任何类型的通信介质或设备。在一个示例中，链路16可以包括使得源设备12能够实时地将编码的视频数据直接传输至目标设备14的通信介质。编码的视频数据可以根据诸如无线通信协议之类的通信标准被调制，并且被传输至目标设备14。通信介质可以包括任何无线或有线通信介质，诸如射频(RF)频谱或者一根或多根物理传输线。通信介质可以形成基于分组的网络(诸如局域网、广域网、或者诸如因特网之类的全球网络)的一部分。通信介质可以包括路由器、交换机、基站、或者可以对促进从源设备12到目标设备14的通信有用的任何其它装备。

在一些其它实施方式中，编码的视频数据可以从输出接口22传输至存储设备32。随后，存储设备32中的编码的视频数据可以由目标设备14经由输入接口28访问。存储设备32可以包括各种各样的分布式或本地访问的数据存储介质中的任何数据存储介质，诸如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存、易失性或非易失性存储器、或者用于存储编码的视频数据的任何其它适当的数字存储介质。在另外的示例中，存储设备32可以对应于文件服务器或者可以保持由源设备12生成的编码视频数据的另一中间存储设备。目标设备14可以经由流式传输或者下载访问来自存储设备32的存储的视频数据。文件服务器可以是能够存储编码的视频数据以及将编码的视频数据传输至目标设备14的任何类型的计算机。示例性文件服务器包括web服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)设备、或者本地盘驱动器。目标设备14可以通过适合于访问文件服务器上存储的编码视频数据的任何标准数据连接来访问编码的视频数据，标准数据连接包括无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)、或者二者的组合。来自存储设备32的编码视频数据的传输可以是流式传输、下载传输、或者二者的组合。

如图1所示，源设备12包括视频源18、视频编码器20和输出接口22。视频源18可以包括诸如视频捕获设备之类的源，例如摄像机、包含先前捕获视频的视频存档、从视频内容供应者接收视频的视频输入接口、和/或用于生成作为源视频的计算机图形数据的计算机图形系统、或者此类源的组合。作为一个示例，如果视频源18为安全监控系统的摄像机，那么源设备12和目标设备14可以形成相机电话或者视频电话。然而，本申请中描述的实施方式可以一般性地适用于视频编解码，并且可以应用于无线和/或有线应用。

捕获的视频、预先捕获的视频、或者计算机生成的视频可以由视频编码器20编码。编码的视频数据可以经由源设备12的输出接口22直接传输至目标设备14。编码的视频数据也可以(或者可替换地)存储到存储设备32上，以便以后由目标设备14或者其它设备访问，用于解码和/或回放。输出接口22可以进一步包括调制解调器和/或发射器。

目标设备14包括输入接口28、视频解码器30和显示设备34。输入接口28可以包括接收器和/或调制解调器，并且通过链路16接收编码的视频数据。通过链路16传送或者在存储设备32上提供的编码视频数据可以包括各种各样的语法元素，语法元素由视频编码器20生成以便由视频解码器30在解码视频数据时使用。这样的语法元素可以被包括于在通信介质上传输、在存储介质上存储、或者在文件服务器上存储的编码视频数据内。

在一些实施方式中，目标设备14可以包括显示设备34，显示设备34可以是集成式显示设备以及被配置为与目标设备14通信的外部显示设备。显示设备34向用户显示解码的视频数据，并且可以包括各种各样的显示设备中的任何显示设备，诸如液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器、或者另一种类型的显示设备。

视频编码器20和视频解码器30可以根据专有标准或行业标准而操作，诸如VVC、HEVC、MPEG-4第10部分、高级视频编解码(AVC)、或者此类标准的扩展。应当理解，本申请并不限于特定的视频编解码/解码标准，并且可以适用于其它视频编解码/解码标准。通常认为，源设备12的视频编码器20可以被配置为根据这些当前或未来标准中的任何标准对视频数据进行编码。类似地，通常还认为，目标设备14的视频解码器30可以被配置为根据这些当前或未来标准中的任何标准对视频数据进行解码。

视频编码器20和视频解码器30每一个都可以实现为各种各样的适当的编解码器电路系统中的任何电路系统，诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件、或者其任何组合。当部分地以软件实现时，电子设备可以将用于该软件的指令存储在适当的非暂时性计算机可读介质中，并且在硬件中使用一个或多个处理器执行这些指令,以便执行本公开中公开的视频编解码/解码操作。视频编码器20和视频解码器30中的每一个都可以被包括在一个或多个编码器或解码器中，其中任何一者都可以作为组合编码器/解码器(CODEC)的一部分被集成在相应设备中。

图2为图示出根据本申请中描述的一些实施方式的示例性视频编码器20的框图。视频编码器20可以执行视频帧内的视频块的帧内预测编解码和帧间预测编解码。帧内预测编解码依赖于空间预测，以降低或去除给定视频帧或图片内的视频数据中的空间冗余。帧间预测编解码依赖于时间预测，以降低或去除视频序列的邻近视频帧或图片内的视频数据中的时间冗余。应注意，术语“帧”可以用作视频编解码领域中术语“图像”或“图片”的同义词。

如图2所示，视频编码器20包括视频数据存储器40、预测处理单元41、解码图片缓冲器(Decoded Picture Buffer，DPB)64、加法器50、变换处理单元52、量化单元54和熵编码单元56。预测处理单元41进一步包括运动估计单元42、运动补偿单元44、分割单元45、帧内预测处理单元46和帧内块复制(Block Copy，BC)单元48。在一些实施方式中，视频编码器20也包括用于视频块重构的反量化单元58、逆变换处理单元60和加法器62。环路滤波器63(诸如，去块滤波器)可以置于加法器62与DPB 64之间来对块边界进行滤波，以便从重构的视频中去除块效应伪影。除了去块滤波器之外，还可以使用另一环路滤波器(诸如，样点自适应偏移(SAO)滤波器和/或自适应环路滤波器(ALF))以对加法器62的输出进行滤波。在一些示例中，可以省略环路滤波器，并且已解码视频块可以由加法器62直接提供给DPB 64。视频编码器20可以采取固定或者可编程硬件单元的形式，或者可以被划分在图示的固定或可编程硬件单元中的一个或多个硬件单元之中。

视频数据存储器40可存储将由视频编码器20的组件编码的视频数据。视频数据存储器40中的视频数据可以例如从视频源18获得，如图1所示。DPB 64是存储供视频编码器20(如以帧内编解码模式或帧间预测编解码模式)编码视频数据时使用的参考视频数据的缓冲器。视频数据存储器40和DPB 64可以由多种存储器设备中的任何存储器设备形成。在各种示例中，视频数据存储器40可以与视频编码器20的其它组件一起在片上，或者相对于那些组件在片外。

如图2所示，在接收视频数据之后，预测处理单元41内的分割单元45将视频数据分割成视频块。这种分割也可以包括根据与视频数据相关联的预定义拆分结构(如四叉树(Quad-Tree，QT)结构)将视频帧分割成条带、瓦片(如视频块的集合)或者其它更大的编码单元(Coding Unit，CU)。视频帧可以被视为具有样点值的样点的二维阵列或矩阵。阵列中的样点也可以称为像素。阵列或图片的水平和垂直方向(或轴)上的多个样点定义视频帧的大小和/或分辨率。视频帧可以通过例如使用QT划分被划分为多个视频块。视频块也可以被视为具有样点值的样点的二维阵列或矩阵，但其维度小于视频帧。视频块的水平和垂直方向(或轴)上的多个样点定义了视频块的大小。视频块还可以通过例如迭代地使用QT分区、二叉树(Binary-Tree，BT)分区或三叉树(Triple-Tree，TT)分区或它们的任何组合来划分为一个或多个块分区或子块(其可以再次形成块)。应注意，本文中所使用的术语“块”或“视频块”可以是帧或图片的一部分，特别是矩形(正方形或非正方形)部分。例如，参考HEVC和VVC，块或视频块可以是或对应于编码树单元(Coding Tree Unit，CTU)、CU、预测单元(Prediction Unit，PU)或变换单元(Transform Unit，TU)，和/或可以是或对应于相应的块，例如编码树块(CTB)、编码块(CB)、预测块(PB)或变换块(TB)和/或对应于子块。

预测处理单元41可以基于错误结果(如编码率和失真水平)为当前视频块选择多个可能的预测编码模式中的一个，如多个帧内预测编码模式之一或多个帧间预测编码模式之一。预测处理单元41可将所得到的帧内预测编码块或帧间预测编码块提供给加法器50以生成残差块，并提供给加法器62以重构编码块以随后用作参考帧的一部分。预测处理单元41还向熵编码单元56提供语法元素，如运动矢量、帧内模式指示符、分区信息和其它诸如此类的语法信息。

为了为当前视频块选择适当的帧内预测编码模式，预测处理单元41内的帧内预测处理单元46可以相对于与待编码的当前块同一帧中的一个或多个相邻块执行当前视频块的帧内预测编码，以提供空间预测。预测处理单元41内的运动估计单元42和运动补偿单元44相对于一个或多个参考帧中的一个或多个预测块执行当前视频块的帧间预测编码，以提供时间预测。视频编码器20可执行多个编码过程，例如，为视频数据的每个块选择适当的编码模式。

在一些实施方式中，运动估计单元42根据视频帧序列内的预定模式，通过生成运动矢量来确定当前视频帧的帧间预测模式，该运动矢量指示当前视频帧内的视频块相对于参考视频帧内预测块的位移。由运动估计单元42执行的运动估计是生成运动矢量的过程，这些运动矢量估计视频块的运动。例如，运动矢量可以指示当前视频帧或图片内的视频块相对于参考帧(相对于当前帧内正在编码的当前块)内的预测块的位移。该预定模式可以将序列中的视频帧指定为P帧或B帧。帧内BC单元48可以以类似于由运动估计单元42确定用于帧间预测的运动矢量的方式来确定用于帧内BC编码的矢量(如块矢量)，或者可以利用运动估计单元44来确定该块矢量。

视频块的预测块可以是或可以对应于参考帧的块或参考块，该参考帧的块或参考块被认为与待编码的视频块在像素差异方面紧密匹配，该像素差异可通过绝对差之和(SAD)、平方差之和(SSD)、或者其它差异度量来确定。在一些实施方式中，视频编码器20可以计算针对DPB 64中存储的参考帧的亚整数像素位置的值。例如，视频编码器20可以对参考帧的四分之一像素位置、八分之一像素位置或其它分数像素位置的值进行插值。因此，运动估计单元42可以执行相对于完整像素位置和分数像素位置的运动搜索，并且输出具有分数像素精度的运动矢量。

运动估计单元42通过以下方式针对帧间预测编码帧中的视频块来计算运动矢量：将该视频块的位置与从第一参考帧列表(列表0)或者第二参考帧列表(列表1)中选择的参考帧的预测块的位置进行比较，第一参考帧列表和第二参考帧列表中的每个列表标识DPB64中存储的一个或多个参考帧。运动估计单元42将计算的运动矢量发送到运动补偿单元44，然后发送到熵编码单元56。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动矢量获取或者生成预测块。在接收用于当前视频块的运动矢量时，运动补偿单元44可以在参考帧列表之一中定位运动矢量指向的预测块，从DPB 64中获取预测块，并且将预测块转发至加法器50。加法器50通过从正被编码的当前视频块的像素值中减去由运动补偿单元44提供的预测块的像素值，从而形成像素差异值的残差视频块。形成该残差视频块的这些像素差异值可包括亮度差异分量或色度差异分量或者二者。运动补偿单元44还可以生成与视频帧的视频块关联的语法元素，以供视频解码器30在解码该视频帧的视频块时使用。这些语法元素可包括，例如，定义用来标识预测块的运动矢量的语法元素、指示预测模式的任何标志或者本文描述的任何其它语法信息。注意，运动估计单元42和运动补偿单元44可以是高度集成的，但是出于概念上的目的而单独示出。

在一些实施方式中，帧内BC单元48可以以与上面结合运动估计单元42和运动补偿单元44所描述的方式类似的方式生成矢量并获取预测块，但是预测块处于与正被编码的当前块相同的帧中，并且矢量被称为块矢量而不是运动矢量。特别地，帧内BC单元48可以确定用来对当前块进行编码的帧内预测模式。在一些示例中，帧内BC单元48可以例如在多个单独的编码遍次期间使用各种不同的帧内预测模式对当前块进行编码，并且通过率失真分析来测试它们的性能。接下来，帧内BC单元48可以在各种已测试的帧内预测模式之中选择合适的帧内预测模式来使用，并且相应地生成帧内模式指示符。例如，帧内BC单元48可以针对各种已测试的帧内预测模式，使用率失真分析来计算率失真值，并且在已测试的模式中选择具有最佳率失真特性的帧内预测模式并将其作为要使用的合适的帧内预测模式。率失真分析通常确定编码块与被编码以产生该编码块的原始未编码块之间的失真(或误差)量以及用来产生该编码块的比特率(即比特数量)。帧内BC单元48可以从针对各种编码块的失真和速率来计算比率，以确定对于块而言哪种帧内预测模式表现出最佳的率失真值。

在其它示例中，帧内BC单元48可以完全或者部分地使用运动估计单元42和运动补偿单元44来根据本文所描述的实施方式执行用于帧内BC预测的此类功能。在任一种情况下，对于帧内块复制，预测块可以是在像素差异方面被认为与待编码的块紧密匹配的块，该像素差异可以通过SAD、SSD或者其它差异度量而确定，并且预测块的标识可包括计算针对亚整数像素位置的值。

无论预测块是根据帧内预测来自相同的帧，还是根据帧间预测来自不同的帧，视频编码器20都可以通过以下方式形成残差视频块：从正被编码的当前视频块的像素值中减去该预测块的像素值，从而形成像素差异值。形成该残差视频块的这些像素差异值可包括亮度分量差异和色度分量差异二者。

作为如上文描述的由运动估计单元42和运动补偿单元44执行的帧间预测、或者由帧内BC单元48执行的帧内块复制预测的替代方案，帧内预测处理单元46可以对当前视频块进行帧内预测。特别地，帧内预测处理单元46可以确定用来对当前块进行编码的帧内预测模式。为了这样，帧内预测处理单元46可以例如在多个单独的编码遍次期间使用各种帧内预测模式对当前块进行编码，并且帧内预测处理单元46(或者在一些示例中，模式选择单元)可以从已测试的帧内预测模式中选择要使用的合适的帧内预测模式。帧内预测处理单元46可以将指示用于块的所选帧内预测模式的信息提供给熵编码单元56。熵编码单元56可以将指示所选帧内预测模式的信息编码在比特流中。

在预测处理单元41通过帧间预测或者帧内预测确定了用于当前视频块的预测块之后，加法器50通过从当前视频块中减去预测块而形成残差视频块。残差块中的残差视频数据可以被包括在一个或多个变换单元(TU)中，并且被提供给变换处理单元52。变换处理单元52使用变换将残差视频数据变换为残差变换系数，诸如离散余弦变换(DCT)或者概念上类似的变换。

变换处理单元52可以将得到的变换系数发送至量化单元54。量化单元54对变换系数进行量化以便进一步降低比特率。量化过程也可以降低与系数中的一些或全部系数相关联的位深度。量化的程度可以通过调节量化参数被修改。在一些示例中，量化单元54然后可以执行对包括量化变换系数的矩阵的扫描。可替代地，熵编码单元56可以执行该扫描。

在量化之后，熵编码单元56使用例如上下文自适应可变长度编解码(CAVLC)、上下文自适应二进制算术编解码(CABAC)、基于语法的上下文自适应二进制算术编解码(SBAC)、概率区间分割熵(PIPE)编解码、或者另一种熵编码方法或技术，将量化的变换系数熵编码到视频比特流中。编码的比特流然后可以被传输至视频解码器30，或者存档于存储设备32中以便以后传输至视频解码器30或者由其获取。熵编码单元56也可以对用于正被编码的当前视频帧的运动矢量和其它语法元素进行熵编码。

反量化单元58和逆变换处理单元60分别应用反量化和逆变换，以在像素域中重构残差视频块，以便生成用于预测其它视频块的参考块。如上面所指出的，运动补偿单元44可以从DPB 64中存储的帧的一个或多个参考块生成经运动补偿的预测块。运动补偿单元44也可以将一个或多个插值滤波器应用到预测块，以计算用于在运动估计中使用的亚整数像素值。

加法器62将重构的残差块加到由运动补偿单元44产生的经运动补偿的预测块，以产生用于存储在DPB 64中的参考块。参考块然后可以由帧内BC单元48、运动估计单元42和运动补偿单元44用作预测块，以便对后续视频帧中的另一个视频块进行帧间预测。

图3上示出了根据本公开一些实施方式的示例性视频解码器30的框图。视频解码器30包括视频数据存储器79、熵解码单元80、预测处理单元81、反量化单元86、逆变换处理单元88、加法器90和DPB 92。预测处理单元81进一步包括运动补偿单元82、帧内预测处理单元84和帧内BC单元85。视频解码器30可以执行通常与上面关于视频编码器20结合图2描述的编码过程互反的解码过程。例如，运动补偿单元82可以基于接收自熵解码单元80的运动矢量生成预测数据，而帧内预测单元84可以基于接收自熵解码单元80的帧内预测模式指示符生成预测数据。

在一些示例中，视频解码器30的单元可以被分派任务以执行本申请的实施方式。同样地，在一些示例中，本公开的实施方式可以被划分在视频解码器30的单元中的一个或多个单元之中。例如，帧内BC单元85可以单独地或者与视频解码器30的其它单元(诸如运动补偿单元82、帧内预测处理单元84和熵解码单元80)结合地执行本申请的实施方式。在一些示例中，视频解码器30可以不包括帧内BC单元85，并且帧内BC单元85的功能可以由预测处理单元81的其它组件(如运动补偿单元82)执行。

视频数据存储器79可以存储要由视频解码器30的其它组件解码的视频数据，诸如编码的视频比特流。视频数据存储器79中存储的视频数据可以例如从存储设备32、从本地视频源(诸如照相机)、经由视频数据的有线或无线网络通信、或者通过访问物理数据存储介质(例如，闪存驱动器或者硬盘)来获得。视频数据存储器79可以包括存储来自编码视频比特流的编码视频数据的已编解码图片缓冲器(CPB)。视频解码器30的解码图片缓冲器(DPB)92存储供视频解码器30在对视频数据进行解码时使用的参考视频数据(例如，在帧内或帧间预测编解码模式下)。视频数据存储器79和DPB 92可以由各种各样的存储器设备中的任何存储器设备形成，诸如包括同步DRAM(SDRAM)在内的动态随机存取存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)、或者其它类型的存储器设备。出于说明的目的，视频数据存储器79和DPB 92在图3中被描绘为视频解码器30的两个不同组件。但是对于本领域技术人员而言将显而易见的是，视频数据存储器79和DPB 92可以由同一存储器设备或者分离的存储器设备提供。在一些示例中，视频数据存储器79可以与视频解码器30的其它组件一起在片上，或者相对于那些组件在片外。

在解码过程期间，视频解码器30接收已编码的视频比特流，其表示已编码视频帧的视频块和相关联的语法元素。视频解码器30可以在视频帧级别和/或视频块级别接收语法元素。视频解码器30的熵解码单元80对比特流进行熵解码，以生成量化的系数、运动矢量或帧内预测模式指示符、以及其它语法元素。熵解码单元80然后将运动矢量和其它语法元素转发至预测处理单元81。

当视频帧被编码为帧内预测编解码(I)帧或者用于其它类型的帧中的帧内编解码预测块时，预测处理单元81的帧内预测处理单元84可以基于用信号传输的帧内预测模式和来自当前帧的先前解码块的参考数据，生成针对当前视频帧的视频块的预测数据。

当视频帧被编码为帧间预测编解码(即B或P)帧时，预测处理单元81的运动补偿单元82基于接收自熵解码单元80的运动矢量和其它语法元素，产生用于当前视频帧的视频块的一个或多个预测块。这些预测块中的每一个可以从参考帧列表之一内的参考帧产生。视频解码器30可以基于DPB 92中存储的参考帧，使用默认构建技术构建参考帧列表——列表0和列表1。

在一些示例中，当根据本文描述的帧内BC模式对视频块进行编解码时，预测处理单元81的帧内BC单元85基于接收自熵解码单元80的运动矢量和其它语法元素，产生用于当前视频块的预测块。这些预测块可以处于由视频编码器20定义的与当前视频块相同的图片的重构区域内。

运动补偿单元82和/或帧内BC单元85通过解析运动矢量和其它语法元素，确定用于当前视频帧的视频块的预测信息，并且然后使用该预测信息产生用于正被解码的当前视频块的预测块。例如，运动补偿单元82使用接收的语法元素中的一些语法元素，来确定用来对视频帧的视频块进行解码的预测模式(例如，帧内或帧间预测)、帧间预测帧类型(例如，B或P)、用于帧的参考帧列表中的一个或多个参考帧列表的构建信息、用于帧的每个帧间预测已编码视频块的运动矢量、用于帧的每个帧间预测已编码视频块的帧间预测状态、以及对当前视频帧中的视频块进行解码的其它信息。

类似地，帧内BC单元85可以使用接收的语法元素中的一些语法元素(例如，标志)来确定当前视频块是使用帧内BC模式被预测的、处于重构区域内并且应当存储在DPB 92中的帧的一些视频块的构建信息、用于帧的每个帧内BC预测视频块的块矢量、用于帧的每个帧内BC预测视频块的帧内BC预测状态、以及对当前视频帧中的视频块进行解码的其它信息。

运动补偿单元82也可以使用如视频编码器20在视频块的编码期间使用的插值滤波器执行插值，以计算用于参考块的亚整数像素的内插值。在这种情况下，运动补偿单元82可以从接收的语法元素确定视频编码器20使用的插值滤波器，并且使用这些插值滤波器产生预测块。

反量化单元86使用视频编码器20为视频帧中的每个视频块计算的相同量化参数，对比特流中提供的且由熵解码单元80熵解码的量化变换系数进行反量化，以确定量化程度。逆变换处理单元88将逆变换(如逆DCT、逆整数变换、或者概念上相似的逆变换过程)应用到变换系数，以便在像素域中重构残差块。

在运动补偿单元82或帧内BC单元85基于矢量和其它语法元素生成用于当前视频块的预测块之后，加法器90通过将来自逆变换处理单元88的残差块以及由运动补偿单元82和帧内BC单元85生成的对应预测块相加来重构针对当前视频块的经解码的视频块。环路滤波器(未绘出)可以置于加法器90和DPB 92之间，以便进一步处理解码的视频块。给定帧中的经解码的视频块然后被存储在DPB 92中，DPB 92存储用于接下来的视频块的后续运动补偿的参考帧。DPB 92或者与DPB 92分开的存储器设备也可以存储解码的视频，以便以后在显示设备(诸如图1的显示设备34)上呈现。

在典型的视频编解码过程中，视频序列典型地包括帧或图片的有序集合。每个帧可以包括三个样点阵列，记为SL、SCb和SCr。SL为亮度样点的二维阵列。SCb为Cb色度样点的二维阵列。SCr为Cr色度样点的二维阵列。在其它情况下，帧可以是单色的，并且因此仅包括亮度样点的一个二维阵列。

如图4A所示，视频编码器20(或者更具体地，分割单元45)通过首先将帧分割为编码树单元(CTU)集合而生成该帧的编码表示。视频帧可以包括从左到右和从上到下以光栅扫描顺序连续排序的整数个CTU。每个CTU为最大的逻辑编码单元，并且CTU的宽度和高度由视频编码器20在序列参数集合中用信号传输，使得视频序列中的所有CTU都具有相同的尺寸，该尺寸为128×128、64×64、32×32和16×16之一。但是应当指出，本申请不一定限于特定的尺寸。如图4B所示，每个CTU可以包括亮度样点的一个编码树块(CTB)、色度样点的两个对应的编码树块、以及用来对编码树块的样点进行编解码的语法元素。这些语法元素描述编码像素块的不同类型的单元的属性以及在视频解码器30处可以如何重构视频序列，包括帧间或帧内预测、帧内预测模式、运动矢量和其它参数。在单色图片或者具有三个单独颜色平面的图片中，CTU可以包括单个编码树块和用来对编码树块的样点进行编解码的语法元素。编码树块可以是N×N样点块。

为了实现更佳的性能，视频编码器20可以对CTU的编码树块递归地执行树分割，诸如二叉树分割、三叉树分割、四叉树分割或者二者的组合，并且将CTU划分成更小的编码单元(CU)。如图4C中所描绘的，64×64的CTU 400首先被划分成四个更小的CU，每个CU具有32×32的块尺寸。在这四个更小的CU之中，CU 410和CU 420每一个被划分成四个块尺寸为16×16的CU。两个16×16的CU 430和CU 440每一个进一步被划分成四个块尺寸为8×8的CU。图4D描绘了四叉树数据结构，其说明了如图4C中所描绘的CTU 400的分割过程的最终结果，四叉树的每个叶节点对应于范围从32×32到8×8的各个尺寸的一个CU。像图4B中描绘的CTU那样，每个CU可以包括亮度样点的编码块(CB)和相同尺寸的帧的色度样点的两个对应的编码块、以及用来对编码块的样点进行编解码的语法元素。在单色图片或者具有三个单独颜色平面的图片中，CU可以包括单个编码块和用来对编码块的样点进行编解码的语法结构。应当指出，图4C和图4D中描绘的四叉树分割仅用于说明的目的，并且一个CTU可以基于四叉/三叉/二叉树分割而拆分成CU，以适应变化的局部特性。在多类型树结构中，一个CTU被四叉树结构分割，并且每个四叉树的叶CU可以进一步被二叉和三叉树结构分割。如图4E所示，具有宽度W和高度H的编码块存在五种可能的分割类型，即四元分割、水平二元分割、垂直二元分割、水平三元分割和垂直三元分割。

在一些实施方式中，视频编码器20可以进一步将CU的编码块分割成一个或多个M×N预测块(PB)。预测块为样点的矩形(方形或者非方形)块，其上应用相同的预测(帧间或帧内)。CU的预测单元(PU)可以包括亮度样点的预测块、色度样点的两个对应的预测块、以及用来对预测块进行预测的语法元素。在单色图片或者具有三个单独颜色平面的图片中，PU可以包括单个预测块和用来对预测块进行预测的语法结构。视频编码器20可以生成针对CU的每个PU的亮度预测块、Cb预测块和Cr预测块的预测亮度块、预测Cb块和预测Cr块。

视频编码器20可以使用帧内预测或帧间预测生成用于PU的预测块。如果视频编码器20使用帧内预测生成PU的预测块，那么视频编码器20可以基于与PU相关联的帧的已解码样点生成PU的预测块。如果视频编码器20使用帧间预测生成PU的预测块，那么视频编码器20可以基于不同于与PU相关联的帧的一个或多个帧的已解码样点生成PU的预测块。

在视频编码器20生成用于CU的一个或多个PU的预测亮度块、预测Cb块和预测Cr块之后，视频编码器20可以通过将CU的预测亮度块从其原始亮度编码块中减去而生成针对CU的亮度残差块，使得CU的亮度残差块中的每个样点指示CU的预测亮度块之一中的亮度样点与CU的原始亮度编码块中的对应样点之间的差异。类似地，视频编码器20可以分别生成针对CU的Cb残差块和Cr残差块，使得CU的Cb残差块中的每个样点指示CU的预测Cb块之一中的Cb样点与CU的原始Cb编码块中的对应样点之间的差异，并且CU的Cr残差块中的每个样点可以指示CU的预测Cr块之一中的Cr样点与CU的原始Cr编码块中的对应样点之间的差异。

此外，如图4C所示，视频编码器20可以使用四叉树分割将CU的亮度残差块、Cb残差块和Cr残差块分解为一个或多个亮度变换块、Cb变换块和Cr变换块。变换块是其上应用相同变换的样点的矩形(方形或非方形)块。CU的变换单元(TU)可以包括亮度样点的变换块、色度样点的两个对应的变换块、以及用来对变换块样点进行变换的语法元素。因此，CU的每个TU可以与亮度变换块、Cb变换块和Cr变换块相关联。在一些示例中，与TU相关联的亮度变换块可以是CU的亮度残差块的子块。Cb变换块可以是CU的Cb残差块的子块。Cr变换块可以是CU的Cr残差块的子块。在单色图片或者具有三个单独颜色平面的图片中，TU可以包括单个变换块和用来对变换块的样点进行变换的语法结构。

视频编码器20可以将一种或多种变换应用到TU的亮度变换块，以生成针对TU的亮度系数块。系数块可以是变换系数的二维阵列。变换系数可以是标量。视频编码器20可以将一种或多种变换应用到TU的Cb变换块，以生成针对TU的Cb系数块。视频编码器20可以将一种或多种变换应用到TU的Cr变换块，以生成针对TU的Cr系数块。

在生成系数块(例如，亮度系数块、Cb系数块或者Cr系数块)之后，视频编码器20可以对系数块进行量化。量化通常是指一种过程，在该过程中，对变换系数进行量化以便可能地减少用来表示变换系数的数据量，提供进一步压缩。在视频编码器20对系数块进行量化之后，视频编码器20可以对指示量化变换系数的语法元素进行熵编码。例如，视频编码器20可以对指示量化变换系数的语法元素执行上下文自适应二进制算术编解码(CABAC)。最后，视频编码器20可以输出包括比特序列的比特流，比特序列形成编码帧和相关联数据的表示，比特流被保存在存储设备32中或者被传输至目标设备14。

在接收到视频编码器20生成的比特流之后，视频解码器30可以解析比特流以便从比特流获得语法元素。视频解码器30可以至少部分地基于从比特流获得的语法元素重构视频数据的帧。重构视频数据的过程通常与视频编码器20执行的编码过程互反。例如，视频解码器30可以对与当前CU的TU相关联的系数块执行逆变换，以重构与当前CU的TU相关联的残差块。视频解码器30还通过将用于当前CU的PU的预测块的样点加到当前CU的TU的变换块的对应样点，而重构当前CU的编码块。在重构帧的每个CU的编码块之后，视频解码器30可以重构该帧。

如上所述，视频编解码主要使用两种模式(即，帧内预测和帧间预测)来实现视频压缩。应注意的是，IBC可以被认为是帧内预测或第三模式。在两种模式之间，由于使用运动矢量用于从参考视频块中预测当前视频块，因此帧间预测比帧内预测对编码效率的贡献更大。

但是随着不断改进的视频数据捕获技术和用于保留视频数据中的细节的更精细的视频块大小，表示当前帧的运动矢量所需的数据量也大幅增加。克服这个挑战的一种方式是受益于以下事实：不仅空间域和时间域中的一组相邻CU具有用于预测目的的类似视频数据，而且这些相邻CU之间的运动矢量也类似。因此，有可能通过探索CU的空间和时间相关性，将空间上相邻的CU和/或时间上并置的CU的运动信息用作当前CU的运动信息(例如，运动矢量)的近似值，所述近似值也被称为当前CU的“运动矢量预测值”(Motion VectorPredictor，MVP)。

代替将由如上文结合图2描述的运动估计单元42确定的当前CU的实际运动矢量编码到视频比特流中，从当前CU的实际运动矢量中减去当前CU的运动矢量预测值，以产生当前CU的运动矢量差(Motion Vector Difference，MVD)。通过这样做，不需要将由运动估计单元42针对帧的每个CU确定的运动矢量编码到视频比特流中，并且可以显著减少用于表示视频比特流中的运动信息的数据量。

像在编码块的帧间预测期间在参考帧中选择预测块的过程一样，需要由视频编码器20和视频解码器30两者采用一组规则以用于使用与当前CU的在空间上相邻的CU和/或在时间上并置的CU相关联的那些潜在候选运动矢量来构造该当前CU的运动矢量候选列表，并且然后从运动矢量候选列表中选择一个成员作为当前CU的运动矢量预测值。通过这样做，不需要在视频编码器20与视频解码器30之间传输运动矢量候选列表本身，并且运动矢量候选列表内的所选运动矢量预测值的索引足以使视频编码器20和视频解码器30使用运动矢量候选列表内相同的运动矢量预测值来对当前CU进行编码和解码。

跨分量线性模型预测

为了减少跨分量冗余，在VVC中使用了跨分量线性模型(CCLM)预测模式，对于该模式，通过使用如下线性模型基于同一CU的重构亮度样点来预测色度样点：

pred_C(i,j)＝α·rec_L′(i,j)+β；

其中，pred_C(i,j)表示CU中的预测色度样点，rec_L′(i,j)表示同一CU的下采样重构亮度样点。线性模型参数α和β由来自两个样点的亮度值与色度值之间的直线关系导出，这两个样点是如图5A所例示的相邻亮度样点集合内的最小亮度样点A(X_A,Y_A)和最大亮度样点B(X_B,Y_B)。这里，X_A和Y_A是针对样点A的x坐标(即亮度值)和y坐标(即色度值)值，X_B和Y_B是针对样点B的x坐标和y坐标值。线性模型参数α和β根据以下方程获得：

β＝yA-αx_A。

这种方法也称为最小-最大(min-Max)方法。可以避开使用上述方程中的除法，而用乘法和移位代替。

对于具有正方形形状的编码块，直接应用上述两个方程。对于非正方形编码块，首先对较长边界的相邻样点进行子采样，以具有与较短边界相同数量的样点。图5B示出了CCLM模式中所涉及的当前块的左侧和上方样点以及当前块的样点的位置。

除了使用上方模板和左侧模板来计算线性模型系数的场景之外，这两个模板也可以在其它两个LM模式(称为LM_A和LM_L模式)中交替使用。

在LM_A模式中，仅使用上方模板中的像素样点来计算线性模型系数。为了获得更多样点，将上方模板扩展到(W+W)的尺寸。在LM_L模式中，仅使用左侧模板中的像素样点来计算线性模型系数。为了获得更多样点，将左侧模板扩展到(H+H)的尺寸。

注意，当上参考线位于CTU边界时，仅使用一个亮度行(其存储在行缓冲器中用于帧内预测)来生成下采样亮度样点。

对于色度帧内模式编解码，允许总共8个帧内模式用于色度帧内编解码。这些模式包括五个传统的帧内模式和三个跨分量线性模型模式(CCLM、LM_A和LM_L)。如表1所指明的，使用cclm_mode_flag、cclm_mode_idx、intra_Chroma_pred_mode和lumaIntraPredMode来导出色度帧内预测模式。色度模式编解码直接取决于相应亮度块的帧内预测模式。由于在I条带中启用了针对亮度分量和色度分量的单独块分区结构，所以一个色度块可以对应于多个亮度块。因此，对于色度DM模式，直接继承覆盖当前色度块的中心位置的对应亮度块的帧内预测模式。

表1取决于cclm_mode_flag、cclm_mode_idx、intra_Chroma_pred_mode和lumaIntraPredMode的色度帧内预测模式的规范

多模型线性模型预测

为了减少跨分量冗余，提出了多模型线性模型(multi-model linear model，MMLM)预测模式，对于该模式，通过使用如下两个线性模型，基于同一CU的重构亮度样点来预测色度样点：

其中，pred_C(i,j)pred_C(i,j)表示CU中的预测色度样点，rec_L′(i,j)表示同一CU的下采样重构亮度样点。Threshold被计算为相邻重构亮度样点的平均值。图6示出了基于Threshold值将相邻样点分类为两组的示例。对于每个组，参数α_i和β_i(i分别等于1和2)由两个样点的亮度值和色度值之间的直线关系导出，这两个样点是组内的最小亮度样点A(X_A,Y_A)和最大亮度样点B(X_B,Y_B)。这里，X_A和Y_A是针对样点A的x坐标(即亮度值)和y坐标(即色度值)值，X_B和Y_B是针对性样点B的x坐标和y坐标值。线性模型参数α和β根据以下方程获得：

β＝y_A-αx_A。

这种方法也称为最小-最大方法。可以避开使用上述方程中的除法，而用乘法和移位代替。

对于具有正方形形状的编码块，直接应用上述两个方程。对于非正方形编码块，首先对较长边界的相邻样点进行子采样，以具有与较短边界相同数量的样点。

除了上方模板和左侧模板一起用于计算线性模型系数的场景之外，这两个模板也可以在其它两个MMLM模式(称为MMLM_A和MMLM_L模式)中交替使用。

在MMLM_A模式中，仅使用上方模板中的像素样点来计算线性模型系数。为了获得更多样点，将上方模板扩展到(W+W)的尺寸。在MMLM_L模式中，仅使用左侧模板中的像素样点来计算线性模型系数。为了获得更多样点，将左侧模板扩展到(H+H)的尺寸。

对于色度帧内模式编解码，允许总共11个帧内模式用于色度帧内编解码。这些模式包括五个传统的帧内模式和六个跨分量线性模型模式(CCLM、LM_A、LM_L、MMLM、MMLM_A和MMLM_L)。色度模式编解码直接取决于对应亮度块的帧内预测模式。由于在I条带中启用了针对亮度分量和色度分量的单独块分区结构，所以一个色度块可以对应于多个亮度块。因此，对于色度DM模式，直接继承覆盖当前色度块的中心位置的对应亮度块的帧内预测模式。

几何分区模式(Geometric partition mode，GPM)

在VVC中，支持几何分区模式以用于帧间预测。几何分区模式作为一个特殊合并模式由一个CU级标志通过信号发送。在当前的GPM设计中，对于宽度和高度均不小于8且不大于64(8×64和64×8除外)的每个可能的CU尺寸，GPM模式总共支持64个分区。

当使用这种模式时，用几何定位的直线将CU分割成两部分，如图7所示。分割线的位置在数学上由特定分区的角度和偏移参数得出。该CU中几何分区的每个部分被使用其自身的运动进行帧间预测；每个分区只允许单向预测，即每个部分有一个运动矢量和一个参考索引。应用单向预测运动约束以确保与传统双向预测相同，每个CU只需要两个运动补偿预测。若将几何分区模式用于当前CU，则进一步通过信号发送指示几何分区的分区模式(角度和偏移)的几何分区索引和两个合并索引(每个分区一个)。最大GPM候选大小的数量以序列级别显式地通过信号发送。

沿几何分区边缘混合

在使用其自身运动获得每个几何分区后，将混合应用于两个单向预测信号，以导出几何分区边缘周围的样点。基于从每个单独样点位置到相应分区边缘的距离导出CU的每个位置的混合权重。

GPM信令设计

根据当前的GPM设计，GPM的使用通过以CU级通过信号发送一个标志来指示。当当前CU通过合并模式或跳过模式进行编解码时才会仅通过信号发送该标志。具体地，当该标志等于1时，表示通过GPM对当前CU进行预测。否则(该标志等于零)，通过另一种合并模式对该CU进行编码，如常规合并模式、具有运动矢量差异的合并模式、组合的帧间和帧内预测，等等。当为当前CU启用GPM时，一个语法元素，即merge_GPM_partition_idx，被进一步通过信号发送以指示所应用的几何分区模式(其指定从CU中心的直线的方向和偏移，该直线将CU划分为两个分区，如图7所示)。之后，通过信号发送两个语法元素merge_gpm_idx0和merge_gpm_idx1，以指示用于第一和第二GPM分区的单向预测合并候选的索引。更具体地讲，这两个语法元素用于从“单向预测合并列表构建”一节中描述的单向预测合并列表中确定两个GPM分区的单向MV。根据当前的GPM设计，为了使两个单向MV更加不同，这两个索引不能是同一个索引。基于这样的先验知识，第一GPM分区的单向预测合并索引首先通过信号被发送并被用作预测值，以减少第二GPM分区的单向预测合并索引的信令开销。具体来讲，若第二单向预测合并索引小于第一单向预测合并索引，则直接通过信号发送第二单向预测合并索引的原始值。否则(第二单向预测合并索引大于第一单向预测合并索引)，第二单向预测合并索引的值在被信号发送到比特流之前被减去1。在解码器侧，首先对第一单向预测合并索引进行解码。然后，对于第二单向预测合并索引的解码，若该解析值小于第一单向预测合并索引，则将第二单向预测合并索引设置为等于该解析值；否则(该解析值等于或大于第一单向预测合并索引)，第二单向预测合并索引被设置为等于该解析值加1。表2示出了当前VVC规范中用于GPM模式的现有语法元素。

表2VVC规范的合并数据语法表中现有的GPM语法元素

另一方面，在当前的GPM设计中，截断的一元代码用于这两个单向预测合并索引(即merge_GPM_idx0和merge_GPM_idx1)的二值化。此外，由于这两个单向预测合并索引不可以是同一索引，所以不同的最大值用于截断这两个单向预测合并索引的码字，对于merge_gpm_idx0和merge_gpm_idx1，将最大值分别设置为等于MaxGPMMergeCnd–1和MaxGPMMurgeCnd–2。MaxGPMMergeCnd是该单向预测合并列表中的候选的数量。

当应用GPM/AWP模式时，应用两种不同的二值化方法将语法merge_GPM_partition_idx转换为二进制比特串。具体而言，由VVC标准中的固定长度码和AVS3标准中的截断二进制码将该语法元素进行二值化。同时，对于AVS3中的AWP模式，不同的最大值用于该语法元素的值的二值化。

空间角度加权预测(Spatial angular weighted prediction，SAWP)

在AVS中，空间角度加权预测(SAWP)模式将GPM模式扩展到帧内块。代替对两个帧间预测块进行加权，在SAWP模式中，对两个帧内预测块进行加权。使用从这些帧内预测模式中选择的两个不同的帧内预测模式来预测这两个帧内预测块。从角度模式5到30中选择该帧内预测模式。最大尺寸为32×32。常规帧内模式的2个最可能模式(most probable mode，MPM)用于SAWP模式的MPM推导。

多方向帧内预测设计(multi-directional intra prediction，MDIP)遵循SAWP的相同设计精神但在某些设计细节上存在一些细微差异。

解码器侧帧内模式推导(Decoder-side Intra Mode Derivation，DIMD)

在DIMD模式中，不再在编码器处搜索帧内预测模式，而是通过梯度分析使用先前编码的相邻像素来导出帧内预测模式。使用简单的标志为帧内编码块通过信号发送DIMD。在解码器处，若DIMD标志为真，则在重构过程中使用同一先前编码的相邻像素导出该帧内预测模式。若不为真，则如在经典帧内编解码模式中那样从比特流中解析该帧内预测模式。

为了导出块的帧内预测模式，必须首先选择相邻像素集合，再对其执行梯度分析。出于规范性的目的，这些像素应该在解码/重构的像素池中。如图8所示，选择一个模板，该模板围绕当前块左侧的T个像素，上方的T个像素。接下来，对模板的像素进行梯度分析。这允许确定针对模板的主角度方向，假设(这是该方法的核心前提)该模板很有可能与当前块中的一个相同。因此，使用简单的由与该模板进行卷积的以下矩阵定义的3×3Sobel梯度滤波器：

和/>

对于该模板的每个像素，将这两个矩阵中的每一个与以当前像素为中心并由其8个直接相邻像素组成的3×3窗口逐点相乘，并将结果相加。因此，分别在水平和垂直方向上获得与当前像素处的梯度相对应的两个值Gx(通过与Mx相乘)和Gy(通过与My相乘)。

图9示出了该卷积过程。窗口中心内的像素910是当前像素。与模板框920相邻并位于模板框920内的内部像素(包括该当前像素)是可以对其进行梯度分析的像素。正好位于当前块外部的像素是由于缺少一些相邻像素而无法对其进行梯度分析的像素。外部像素930是所考虑的模板之外的可用(重构)像素，用于内部像素的梯度分析。如果外部像素不可用(例如，由于块太靠近图片的边界)，则不执行使用该外部像素的所有内部像素的梯度分析。对于每个内部像素，使用Gx和Gy来计算梯度的强度(G)和方向(O)，如下所示：

G＝|G_x|+|G_y|和

然后将梯度的方向变换为帧内角预测模式，用于索引直方图(首先初始化为零)。该帧内角模式下的直方图值增加G。一旦该模板中的所有内部像素都已处理，针对每个帧内角模式，直方图会包含梯度强度的累积值。显示直方图中最高峰值的模式被选择为针对当前块的帧内预测模式。如果直方图中的最大值为0(意味着不能进行梯度分析，或者构成模板的区域是平的)，则选择DC模式作为针对当前块的帧内预测模式。

次MPM

次MPM模式是当MPM模式为角模式并且来自相邻块时从MPM列表中包括的模式导出的。现有的主MPM(primary MPM，PMPM)列表由6个条目组成，该次MPM(SMPM)列表包括16个条目。首先构建具有22个条目的通用MPM列表，然后将该通用MPM表中的前6个条目包括在PMPM列表中，其余条目形成该SMPM列表。该通用MPM列表中的第一个条目是平面模式。剩余条目由如图10所示的左(L)、上(A)、左下(BL)、右上(AR)和左上(AL)相邻块的帧内模式、具有从相邻块的前两个可用方向模式的附加偏移的方向模式以及默认模式组成。如果CU块是垂直定向的，则相邻块的顺序为A、L、BL、AR、AL；否则，相邻块的顺序为L、A、BL、AR、AL。首先解析PMPM标志，如果等于1，则解析PMPM索引以确定选择了PMPM列表的哪个条目，否则解析SMPM标志以确定是否解析该SMPM索引或这些剩余模式。与MPM列表构造类似，若次MPM列表不完整，则添加默认模式。默认模式列表定义为{2，18，34，50，66；10，26，42，58；6，14，22，30，38，46，54，62；17，19，49，51}。

帧内模板匹配

模板匹配预测(template matching prediction，TMP)是从当前帧的重构部分复制最佳预测块的一种特殊的帧内预测模式，其L形模板匹配当前模板。这在图11中示出。对于预定义的搜索范围，编码器在当前帧的重构部分中搜索与当前模板最相似的模板，并将对应的块用作预测块。然后，编码器通过信号发送这种模式的使用，并在解码器侧进行反向操作。

尽管SAWP/MDIP模式可以提高帧内预测效率，但仍有进一步提高其性能的空间。同时，现有的SAWP/MDIP模式的某些部分也需要简化以实现高效的编解码器硬件，或者需要改进以实现更高的编解码效率。此外，需要进一步改进其实现复杂性与其编码效率效益之间的权衡。

在本公开中，提出了几种方法来进一步提高MDIP/SAWP编解码效率或简化现有的MDIP/SAWP设计以有利于硬件实现。应注意，所公开的方法可以独立地或联合地应用。

具有解码器侧帧内模式推导的多方向帧内预测

在本公开中，为了进一步提高编解码效率，MDIP中使用的帧内模式没有在比特流中明确地被通过信号发送，而是通过推断得到。如图12A所示，步骤1202，根据从解码器侧帧内模式推导(DIMD)导出的帧内预测模式来推断MDIP中使用的帧内模式。所提出的方法被称为具有解码器侧帧内模式推导的多方向帧内预测(multi-direction intra predictionwith decoder-side intra mode derivation，MDIP-DIMD)。在所提出的如步骤1204所示的方案中，基于直方图中的最高峰值和第二高峰值来选择预测模式，当前块的帧内预测模式以现有DIMD设计的一种类似方式组合所选择的预测模式。若对应于直方图中的最高峰值的最大值或对应于直方图中第二高峰值的第二大值为0(意味着不能进行梯度分析，或者构成模板的区域是平的)，则选择默认模式(即，DC，平面)作为针对当前块的帧内预测模式。

在图12B所示的示例中，该直方图在两个模式M₁和M₂处具有两个峰值。使用模式M₁获得第一预测块Pred1，而使用模式M₂获得第二预测块Pred2。解码器可以选择对应于第二高峰值的第一模式M₁，并选择对应于最高峰值的第二模式M₂。解码器获得作为第一预测块Pred1和第二预测块Pred2的加权和的最终预测块，其中W1和W2是两个权重矩阵。

在这种情况下，对于给定的CU，通过信号向解码器发送标志，以指示该块是否使用MDIP-DIMD模式。若使用MDIP-DIMD模式对其进行编解码，则使用从DIMD导出的两个帧内预测模式来推断实际使用了哪些帧内模式。此外，以与现有GPM/AMP设计的方式类似的方式通过信号发送两个帧内模式的混合方法，即，由VVC标准和AVS3标准中的固定长度码和截断二进制码分别进行二值化。

具有次MPM的多方向帧内预测

在图13所示的本公开的另一方面，通过在比特流中应用次MPM来接收MDIP中使用的帧内模式，如在步骤1302中那样。所提出的方法被称为具有次MPM的多方向帧内预测。在如步骤1304中所提出的方案中，以与现有次MPM设计的方式类似的方式接收MDIP中使用的两个帧内预测模式，即，首先解析PMPM标志，如果等于1，则解析PMPM索引以确定选择了PMPM列表的哪个条目，否则解析SMPM标志以确定是解析SMPM索引还是解析剩余模式。

在这种情况下，对于给定CU，通过信号向解码器发送标志，以指示该块是否使用MDIP模式。如果使用MDIP模式对该块进行编解码，则使用次MPM进一步通过信号发送两个帧内预测模式。此外，以与现有GPM/AMP设计的方式类似的方式通过信号发送两个帧内模式的混合方法，即，由VVC标准和AVS3标准中的固定长度码和截断二进制码分别进行二值化。

具有帧内模板匹配的多方向帧内预测

在如图14所示的本公开的另一方面，提出了在MDIP中使用帧内模板匹配，如在步骤1402中那样。所提出的方法称为具有帧内模板匹配的多方向帧内预测(MDIP-TMP)。根据本公开的一个或多个实施例，如步骤1404所示，以与现有帧内模板匹配设计的方式类似的方式选择帧内模板匹配模式作为针对当前块的帧内预测模式。在一个示例中，对于给定的CU，向解码器通过信号发送标志以指示该块是否使用MDIP-TMP模式。如果使用MDIP-TMP模式对其进行编解码，则进一步通过信号发送一个帧内预测模式，并且通过帧内模板匹配生成另一帧内模式。此外，以与现有GPM/AMP设计的方式类似的方式通过信号发送两个帧内模式的混合方法，即，由VVC标准和AVS3标准中的固定长度码和截断二进制码分别进行二值化。

具有CCLM/MMLM模式的多方向帧内预测

在本公开的另一方面，提出了在MDIP中使用CCLM/MMLM，如图15中的步骤1502所示。所提出的方法称为具有跨分量线性模型预测的多方向帧内预测(multi-directionintra prediction with cross-component linear model prediction，MDIP-CCLM)。根据本公开的一个或多个实施例，在步骤1504中，以与现有CCLM/MMLM设计的方式类似方式选择CCLM/MMLM模式作为针对当前块的帧内预测模式。在一个示例中，对于给定的CU，通过信号向解码器发送标志以指示该块是否使用MDIP-CCLM模式。如果使用MDIP-CCLM模式对其进行编解码，则进一步通过信号发送一个帧内预测模式，并且通过CCLM/MMLM生成另一帧内模式。此外，以与现有GPM/AMP设计的方式类似的方式通过信号发送两个帧内模式的混合方法，即，由VVC标准和AVS3标准中的固定长度码和截断二进制码分别进行二值化。

多方向帧内预测中的固定混合方法

在本公开的另一方面，提出了在MDIP中使用固定混合方法，如图16所示。根据本公开的一个或多个实施例，在步骤1602中选择多个几何(GEO)混合方法中的一个作为MDIP的混合方法，并且，在步骤1604中，根据当前块的某些编码信息来确定该选择，例如，与TB/CB和/或条带/轮廓相关联的宽度、高度、相邻帧内模式和来自DIMD的帧内模式或者量化参数。

在一个示例中，根据CU宽度和高度的比率确定两种帧内模式的混合方法，即，当CU宽度等于CU高度时，选择GEO混合方法中的三角混合方法。

多方向帧内预测中的通过信号发送的混合方法

在本公开的另一方面，提出了如图17所示的MDIP的通过信号发送的混合方法。根据本公开的一个或多个实施例，在步骤1702中，根据与TB/CB/条带/图片/序列级别关联的新语法元素来确定该混合方法。在步骤1704中，不同的二进制方法可用于该新语法元素，其中一些示例方法在下面列出：

1、固定长度二值化，

2、截断莱斯(Rice)二值化，

3、截断二进制(TB)二值化过程，

4、k阶指数哥伦布(Exp-Golomb)二值化过程(EGk)，

5、有限k阶指数哥伦布二值化。

可以使用包括一个或多个电路的装置来实施上述方法，这些电路包括专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其它电子元件。该装置可以使用与其它硬件或软件组件相结合的电路来执行上述方法。可以至少部分地使用一个或多个电路来实现上面公开的每个模块、子模块、单元或子单元。

图18示出了与用户接口1650耦合的计算环境1610。计算环境1610可以是数据处理服务器的一部分。计算环境1610包括处理器1620、存储器1630和I/O接口1640。

处理器1620通常控制计算环境1610的整体操作，例如与显示、数据采集、数据通信和图像处理相关的操作。处理器1620可包括一个或多个处理器以执行指令以执行上述方法中的所有或一些步骤。此外，处理器1620可以包括促进处理器1620与其它组件之间的交互的一个或多个模块。处理器可以是中央处理器(CPU)、微处理器、单片机、图形处理单元(GPU)等。

存储器1630被配置为存储各种类型的数据以支持计算环境1610的操作。存储器1630可以包括预定软件1632。这种数据的示例包括用于在计算环境1610上操作的任何应用程序或方法的指令、视频数据集、图像数据等。存储器1630可以通过使用任何类型的易失性或非易失性存储设备或其组合来实现，例如静态随机存取存储器(SRAM)、电可擦可编程只读存储器存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存、磁盘或光盘。

I/O接口1640提供处理器1620与外围接口模块之间的接口，如键盘、点击轮、按键等。按键可以包括但不限于主页按键、开始扫描按键和停止扫描按键。I/O接口1640可以与编码器和解码器耦合。

在一个实施例中，还提供了一种非暂时性计算机可读存储介质，其包括多个程序，如包括在存储器1640中的程序，并且可由计算环境1610中的处理器1620执行，以执行上述方法。可替代地，该非暂时性计算机可读存储介质可以在其中存储包括由编码器(如图2中的视频编码器20)使用如解码器(例如图3中的视频解码器30)在解码视频数据时使用的上述编码方法生成的编码视频信息的比特流或数据流。例如，非暂态计算机可读存储介质可以是ROM、随机访问存储器(RAM)、CD-ROM、磁带、软盘、光数据存储设备等。

在一个实施例中，还提供了包括一个或多个处理器(如处理器1620)的计算设备，以及其中存储有可由一个或多个处理器执行的多个程序的非暂时性计算机可读存储介质或存储器1630，其中，在执行多个程序时，一个或更多个处理器被配置为执行上述方法。

在一个实施例中，还提供了一种计算机程序产品，包括多个程序，例如，这些程序在存储器1630中，并且可由计算环境1610中的处理器1620执行，以执行上述方法。例如，该计算机程序产品可以包括该非暂时性计算机可读存储介质。

在一个实施例中，计算环境1610可由一个或多个ASIC、DSP、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、FPGA、GPU、控制器、微控制器、微处理器或其它电子组件来实现，以执行上述方法。

本公开的描述是出于说明的目的而给出的，并不旨在穷尽或限制本公开。对于本领域普通技术人员来说，受益于前述描述和相关附图中给出的教导，许多修改、变化和替代实施方式是显而易见的。

除非另有特别说明，否则根据本公开的方法的步骤顺序仅用于说明，并且根据本公开方法的步骤不限于上述特别描述的顺序，而是可以根据实际情况进行改变。此外，根据本公开的方法的至少一个步骤可以根据实际要求进行调整、组合或删除。

选择和描述这些示例是为了解释本发明的原理，并使本领域的其它技术人员能够理解本发明的各种实施方式，并最佳地利用基础原理和各种实施方式以及适合于预期的特定用途的各种修改。因此，应当理解，本公开的范围不限于所公开的实施方式的具体示例，并且修改和其它实现旨在包括在本公开的范围内。

Claims

1.一种利用多方向帧内预测MDIP进行视频解码的方法，包括：

解码器根据从解码器侧帧内模式推导DIMD导出的帧内预测模式来推断在所述MDIP中采用的帧内模式。

2.根据权利要求1所述的视频解码的方法，进一步包括：

基于直方图中的最高峰值和第二高峰值，针对当前块为具有解码器侧帧内模式推导的多方向帧内预测MDIP-DIMD选择帧内预测模式。

3.根据权利要求2所述的视频解码的方法，进一步包括：

响应于确定对应于所述直方图中的所述最高峰值的最大值或对应于所述直方图中的所述第二高峰值的第二大值等于0，选择默认模式作为针对所述当前块的所述帧内预测模式。

4.根据权利要求1所述的视频解码的方法，进一步包括：

所述解码器接收指示块是否采用具有解码器侧帧内模式推导的多方向帧内预测MDIP-DIMD模式的标志；以及

响应于确定所述块采用所述MDIP-DIMD模式，根据从DIMD导出的两个帧内预测模式来推断在所述MDIP中采用的帧内模式。

5.根据权利要求1所述的视频解码的方法，进一步包括：

通过通用视频编解码VVC标准中的固定长度码和第三代音频视频标准AVS3中的截断二进制码进行二值化来混合两个帧内模式。

6.一种利用多方向帧内预测MDIP进行视频解码的方法，包括：

解码器通过在比特流中应用次最可能模式SMPM来接收在所述MDIP中采用的帧内模式。

7.根据权利要求6所述的视频解码的方法，进一步包括：

所述解码器接收在所述MDIP中采用的两个帧内预测模式。

8.根据权利要求7所述的视频解码的方法，进一步包括：

解析主最可能模式PMPM标志；

响应于确定所述PMPM标志的值等于1，解析PMPM索引以选择PMPM列表的条目；以及

响应于确定所述PMPM标志的值等于0，解析SMPM标志以确定是否解析SMPM索引或剩余模式。

9.根据权利要求6所述的视频解码的方法，进一步包括：

所述解码器接收指示块是否采用所述多方向帧内预测MDIP模式的标志；以及

响应于确定所述块采用所述MDIP模式，获得具有次MPM的两个帧内预测模式。

10.根据权利要求6所述的视频解码的方法，进一步包括：

11.一种利用多方向帧内预测MDIP进行视频解码的方法，包括：

解码器推断在具有帧内模板匹配的多方向帧内预测MDIP-TMP中采用的帧内模式。

12.根据权利要求11所述的视频解码的方法，进一步包括：

选择帧内模板匹配模式作为针对当前块的帧内预测模式。

13.根据权利要求11所述的视频解码的方法，进一步包括：

所述解码器接收指示块是否采用MDIP-TMP模式的标志；以及

响应于确定所述块采用所述MDIP-TMP模式，获得第一帧内预测模式并通过帧内模板匹配生成第二帧内预测模型。

14.根据权利要求11所述的视频解码的方法，进一步包括：

15.一种利用多方向帧内预测MDIP进行视频解码的方法，包括：

解码器推断在具有跨分量线性模型CCLM或具有多模型线性模型MMLM的MDIP中采用的帧内模式。

16.根据权利要求15所述的视频解码的方法，进一步包括：

选择CCLM模式或MMLM模式作为针对当前块的帧内预测模式。

17.根据权利要求15所述的视频解码的方法，进一步包括：

所述解码器接收指示块是采用MDIP-CCLM模式还是MDIP-MMLM模式的标志；以及

响应于确定所述块采用所述MDIP-CCLM模式或所述MDIP-MMLM模式，获得第一帧内预测模式并通过CCLM或MMLM生成第二帧内预测模型。

18.根据权利要求15所述的视频解码的方法，进一步包括：

19.一种在多方向帧内预测MDIP中利用固定混合进行视频解码的方法，包括：

解码器根据当前块的编码信息选择多个几何混合方法之一作为针对MDIP的混合方法。

20.根据权利要求19所述的视频解码的方法，其中，所述当前块的编码信息包括与截断块TB、编码块CB、条带或轮廓相关联的宽度、高度、相邻帧内模式、来自解码器侧帧内模式推导DIMD的帧内模式或量化参数。

21.根据权利要求19所述的视频解码的方法，进一步包括：

根据编码单元CU的宽度与所述CU的高度之间的比率来确定两个帧内模式的混合方法。

22.根据权利要求21所述的视频解码的方法，进一步包括：

响应于确定所述CU的宽度等于所述CU的高度，在所述几何混合方法中选择三角形混合方法。

23.一种在多方向帧内预测MDIP中使用信号混合进行视频解码的方法，包括：

解码器根据与截断块TB、编码块CB、条带、图片或序列级别相关联的语法元素来确定针对MDIP的混合方法。

24.根据权利要求23所述的视频解码的方法，进一步包括：

将二进制方法应用于所述语法元素，其中，所述二进制方法包括固定长度二值化、截断莱斯(Rice)二值化、截断二进制TB二值化过程、k阶指数哥伦布(Exp-Golomb)二值化过程EGk或有限k阶指数哥伦布二值化。

25.一种视频解码的装置，包括：

一个或多个处理器；以及

存储器，所述存储器用于存储可由所述一个或多个处理器执行的指令，其中，在执行所述指令时，所述一个或多个处理器用于执行权利要求1至权利要求24中任一项所述的方法。

26.一种用于视频解码的非暂时性计算机可读存储介质，其上存储有计算机可执行指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行权利要求1至权利要求24中任一项所述的方法。