CN114128259A

CN114128259A - 用于视频译码的合并模式译码

Info

Publication number: CN114128259A
Application number: CN202080035531.8A
Authority: CN
Inventors: 黄晗; W-J·钱; V·谢廖金; M·卡切夫维茨
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-05-24
Filing date: 2020-05-21
Publication date: 2022-03-01
Also published as: WO2020242883A1; US11611759B2; JP2022533664A; US20200374528A1; TW202101984A; KR20220011633A; SG11202111583WA; EP3977726A1; BR112021022559A2

Abstract

一种用于对视频数据进行译码的示例设备确定针对视频数据的第一块是否使用子块合并模式。基于关于不将子块合并模式用于第一块的确定，该设备确定是否将具有混合的合并模式用于第一块。基于关于将具有混合的合并模式用于第一块的确定，该设备利用具有混合的合并模式来对第一块进行译码。

Description

用于视频译码的合并模式译码

本申请要求享受于2020年5月20日提交的美国专利申请No.16/879,462的优先权，上述美国专利申请要求享受于2019年5月24日提交的美国临时专利申请No.62/852,516的利益，将上述申请中的每一份申请的全部内容通过引用的方式并入。

技术领域

本公开内容涉及视频编码和视频解码。

背景技术

数字视频能力可以并入范围广泛的设备中，包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、笔记本电脑或台式电脑、平板电脑、电子书阅读器、数码照相机、数字录音设备、数字媒体播放器、视频游戏设备、视频游戏主控台、蜂窝电话或卫星无线电话、所谓的“智能手机”、视频电话会议设备、视频串流设备等。数字视频设备实现视频译码技术，比如在通过MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4、部分10、改进的视频译码(AVC)、ITU-T H.265/高效视频译码(HEVC)定义的标准中所描述的视频译码技术，以及对这样的标准的扩展。视频设备可以通过实现这样的视频译码技术来更有效地发送、接收、编码、解码和/或存储数字视频信息。

视频译码技术包括空间(图片内)预测和/或时间(图片间)预测，以减少或移除视频序列中的固有的冗余。针对基于块的视频译码，视频切片(例如，视频图片或视频图片的一部分)可以划分为视频块，其还可以称为译码树单元(CTU)、译码单元(CU)和/或译码节点。图片的帧内译码(I)的切片中的视频块是使用相对于同一图片中的邻近块中的参考样本的空间预测来编码的。图片的帧间译码(P或B)切片中的视频块可以使用相对于同一图片中邻近块中的参考样本的空间预测，或者相对于其它参考图片中的参考样本的时间预测。图片可以称为帧，以及参考图片可以称为参考帧。

发明内容

一般而言，本公开内容描述了用于确定用于视频数据的当前块的合并模式的类型的技术。例如，本公开内容描述了视频编码器可以用于以高效的方式用信号通知指示不同合并模式的信息的示例技术。视频解码器可以以高效的方式解析用信号通知的信息，以确定要用于当前块的合并模式的类型。

在一个示例中，一种对视频数据进行译码的方法包括：针对所述视频数据的第一块确定是否使用子块合并模式；基于关于不将所述子块合并模式用于所述第一块的确定，确定是否将具有混合的合并模式用于所述第一块；以及基于关于将所述具有混合的合并模式用于所述第一块的确定，利用所述具有混合的合并模式来对所述第一块进行译码。

在一个示例中，一种用于对视频数据进行译码的设备包括：用于存储所述视频数据的存储器；以及在电路中实现并且通信地耦合到所述存储器的一个或多个处理器，所述一个或多个处理器被配置为：针对所述视频数据的第一块确定是否使用子块合并模式；基于关于不将所述子块合并模式用于所述第一块的确定，确定是否将具有混合的合并模式用于所述第一块；以及基于关于将所述具有混合的合并模式用于所述第一块的确定，利用所述具有混合的合并模式来对所述第一块进行译码。

在一个示例中，一种用于对视频数据进行译码的设备包括：用于针对所述视频数据的第一块确定是否使用子块合并模式的单元；用于基于关于不将所述子块合并模式用于所述第一块的确定，确定是否将具有混合的合并模式用于所述第一块的单元；以及用于基于关于将所述具有混合的合并模式用于所述第一块的确定，利用所述具有混合的合并模式来对所述第一块进行译码的单元。

在一个示例中，一种非暂时性计算机可读存储介质存储指令，所述指令在被执行时，使得一个或多个处理器进行以下操作：针对所述视频数据的第一块确定是否使用子块合并模式；基于关于不将所述子块合并模式用于所述第一块的确定，确定是否将具有混合的合并模式用于所述第一块；以及基于关于将所述具有混合的合并模式用于所述第一块的确定，利用所述具有混合的合并模式来对所述第一块进行译码。

在附图和以下描述中阐述了一个或多个示例的细节。根据描述、附图和权利要求，其它特征、目的和优点将是显而易见的。

附图说明

图1是示出可以执行本公开内容的技术的示例视频编码和解码系统的方框图。

图2A和图2B是示出示例四叉树二叉树(QTBT)结构以及对应的译码树单元(CTU)的概念图。

图3是示出空间合并候选的示例位置的概念图。

图4是示出考虑用于空间合并候选的冗余校验的候选对的示例的概念图。

图5是示出用于时间合并候选的运动矢量缩放的示例的概念图。

图6是示出用于时间合并候选的候选位置的示例的概念图。

图7A和图7B是示出具有运动矢量差的合并模式(MMVD)的搜索点的示例的概念图。

图8A和图8B是分别示出4参数仿射模型和6参数仿射模型的示例的概念图。

图9是示出每子块的仿射运动矢量(MV)场的示例的概念图。

图10A和图10B是示出基于三角形划分的帧间预测的示例的概念图。

图11是示出用于用信号通知合并模式信息的二值化树的一个示例的概念图。

图12是示出用于用信号通知合并模式信息的二值化树的另一示例的概念图。

图13是示出可以执行本公开内容的技术的示例视频编码器的方框图。

图14是示出可以执行本公开内容的技术的示例视频解码器的方框图。

图15是示出用于用信号通知或解析指示合并模式选择的语法元素的示例技术的流程图。

图16是示出用于用信号通知或解析指示合并模式选择的语法元素的另外的示例技术的流程图。

图17是示出用于用信号通知或解析指示合并模式选择的语法元素的另外的示例技术的流程图。

图18是示出对视频数据进行编码的示例的流程图。

图19是示出对视频数据进行解码的示例的流程图。

具体实施方式

在当前的多功能视频译码(VVC)开发中，高效率视频译码(HEVC)标准中的合并模式已经被扩展，并且已经采纳了若干新的合并模式。新的合并模式包括：具有运动矢量差的合并模式(MMVD)(在本文中也被称为MMVD合并模式)、仿射合并预测(AMP)、基于子块的时间运动矢量预测(SbTMVP)、三角形合并预测(TMP)以及组合帧间和帧内预测(CIIP)。

由于新的合并模式，出现了一个技术问题，即如何高效地从视频编码器用信号向视频解码器通知用于指示正在使用哪种合并模式的信息。例如，添加的合并模式越多，需要用于用信号通知模式中的所有模式的箱就越多。通过以高效的方式安排信令的顺序和结构，本公开内容描述了用于视频编码器以可能导致更高效的带宽利用率和降低的处理功耗的方式用信号向视频解码器通知信息的示例技术。

例如，合并模式可以按类型分类，并且在二值化树中，可以将较高概率合并模式置于比较低概率合并模式更高的位置，从而允许利用与较低概率合并模式相比更少的箱来用信号通知较高概率合并模式。在一些示例中，示例技术可以允许视频解码器相对快速地确定视频编码器用于对给定视频数据块进行编码的合并模式类型，这可以减少解码延时。以这种方式，示例技术提供用于解决可能改进视频译码技术的技术问题的实际应用。

图1是示出可以执行本公开内容的技术的示例视频编码和解码系统100的方框图。本公开内容的技术通常针对于对视频数据进行译码(编码和/或解码)。一般而言，视频数据包括用于处理视频的任何数据。因此，视频数据可以包括原始的、未经编码的视频、经编码的视频、经解码的(例如，重构的)视频以及视频元数据(比如信令数据)。

如图1所示，在该示例中，系统100包括提供经编码的要由目标设备116来解码和显示的视频数据的源设备102。特别地，源设备102经由计算机可读介质110向目标设备116提供视频数据。源设备102和目标设备116可以包括范围广泛的设备中的任何设备，所述设备包括台式电脑、笔记本电脑(即，膝上型计算机)、平板电脑、机顶盒、电话手机(比如智能手机)、电视机、照相机、显示设备、数字媒体播放器、视频游戏主控台、视频串流设备等。在一些情况下，源设备102和目标设备116可以配备用于无线通信，并且因此可以称为无线通信设备。

在图1的示例中，源设备102包括视频源104、存储器106、视频编码器200和输出接口108。目标设备116包括输入接口122、视频解码器300、存储器120和显示设备118。根据本公开内容，源设备102的视频编码器200和目标设备116的视频解码器300可以被配置为应用用于对用于确定合并模式的信息进行译码的技术。因此，源设备102表示视频编码设备的示例，而目标设备116表示视频解码设备的示例。在其它示例中，源设备和目标设备可以包括其它组件或排列。例如，源设备102可以从外部视频源(比如外部照相机)接收视频数据。同样地，目标设备116可以与外部显示设备相连接，而不是包括整合的显示设备。

如图1所示的系统100仅仅是一个示例。一般而言，任何数字视频编码和/或解码设备可以执行用于对确定合并模式的信息进行译码的技术。源设备102和目标设备116仅仅是如下这样的译码设备的示例：源设备102在其中生成用于到目标设备116的传输的经译码的视频数据的译码设备。本公开内容将“译码”设备称为执行对数据的译码(编码和/或解码)的设备。因此，视频编码器200和视频解码器300分别表示译码设备的示例，特别是视频编码器和视频解码器。在一些示例中，源设备102和目标设备116可以以基本上对称的方式来操作，使得源设备102和目标设备116中的各者包括视频编码组件和视频解码组件。因此，系统100可以支持在源设备102和目标设备116之间的单向视频传输或双向视频传输，例如，用于视频串流、视频回放、视频广播或视频电话。

一般而言，视频源104表示视频数据的源(即，原始的、未经编码的视频数据)以及向视频编码器200提供视频数据的一顺序系列的图片(还称为“帧”)，所述视频编码器200对针对图片的数据进行编码。源设备102的视频源104可以包括视频捕捉设备(比如摄像机、包含先前捕捉的原始视频的视频存档和/或视频馈送接口)以从视频内容提供者接收视频。作为进一步的替代方案，视频源104可以生成基于计算机图形的数据作为源视频，或者直播视频、存档的视频和计算机生成的视频的组合。在每种情况下，视频编码器200对捕捉的、预捕捉的或计算机生成的视频数据进行编码。视频编码器200可以将图片从接收的顺序(有时称为“显示顺序”)重新排列为用于译码的译码顺序。视频编码器200可以生成包括经编码的视频数据的比特流。源设备102可以接着经由输出接口108将经编码的视频数据输出到计算机可读介质110上，用于由例如目标设备116的输入接口122进行的接收和/或取回。

源设备102的存储器106和目标设备116的存储器120表示通用的存储器。在一些示例中，存储器106、存储器120可以存储原始的视频数据，例如，来自视频源104的原始的视频和来自视频解码器300的原始的、经解码的视频数据。另外地或替代地，存储器106、存储器120可以存储分别能由例如视频编码器200和视频解码器300执行的软件指令。虽然在该示例中存储器106、存储器120是与视频编码器200和视频解码器300分别地示出的，但是应当理解的是，视频编码器200和视频解码器300还可以包括用于功能类似的或等效的目的的内部存储器。此外，存储器106、存储器120可以存储经编码的视频数据，例如，来自视频编码器200的输出和去往视频解码器300的输入。在一些示例中，存储器106、存储器120中的一部分可以分配为一个或多个视频缓冲区，例如，以存储原始的、经解码的和/或经编码的视频数据。

计算机可读介质110可以表示能够将经编码的视频数据从源设备102传送给目标设备116的任何类型的介质或设备。在一个示例中，计算机可读介质110表示通信介质以使得源设备102能够实时地将经编码的视频数据直接地发送给目标设备116，例如，经由射频网络或基于计算机的网络。输出接口108可以对包括经编码的视频数据的传输信号进行调制，以及输入接口122可以根据通信标准(比如无线通信协议)来对接收的传输信号进行调制。通信介质可以包括任何无线的通信介质或有线的通信介质，比如射频(RF)频谱或一个或多个物理传输线。通信介质可以形成基于分组的网络的一部分，比如局域网、广域网或全球网络(比如互联网)。通信介质可以包括路由器、交换机、基站或可以用于促进从源设备102到目标设备116的通信的任何其它装备。

在一些示例中，源设备102可以将经编码的数据从输出接口108输出到存储设备112。类似地，目标设备116可以经由输入接口122从存储设备112存取经编码的数据。存储设备112可以包括各种分布式的或本地存取的数据存储介质中的任何一者，比如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪速存储器、易失性存储器或非易失性存储器，或用于存储经编码的视频数据的任何其它合适的数字存储介质。

在一些示例中，源设备102可以将经编码的视频数据输出到文件服务器114或可以存储由源设备102生成的经编码的视频的另一中间存储设备。目标设备116可以经由串流或下载从文件服务器114存取存储的视频数据。文件服务器114可以是能够存储经编码的视频数据和将该经编码的视频数据发送给目标设备116的任何类型的服务器设备。文件服务器114可以表示网络服务器(例如，针对网站)、文件传送协议(FTP)服务器、内容递送网络设备或网络附属存储(NAS)设备。目标设备116可以通过任何标准数据连接(包括互联网连接)从文件服务器114存取经编码的视频数据。这可以包括适合用于对存储在文件服务器114上的经编码的视频数据进行存取的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)或两者的组合。文件服务器114和输入接口122可以被配置为根据串流传输协议、下载传输协议或其组合来操作。

输出接口108和输入接口122可以表示无线发射机/接收机、调制解调器、有线连网组件(例如，以太网卡)、根据各种IEEE 802.11标准中的任何标准进行操作的无线通信组件或其它物理组件。在输出接口108和输入接口122包括无线组件的示例中，输出接口108和输入接口122可以被配置为根据蜂窝通信标准(比如4G、4G-LTE(长期演进)、改进的LTE、5G等)来传送数据(比如经编码的视频数据)。在输出接口108包括无线发射机的一些示例中，输出接口108和输入接口122可以被配置为根据其它无线标准(比如IEEE 802.11规范、IEEE802.15规范(例如，紫蜂^TM(Zigbee^TM))、蓝牙^TM标准等)来传送数据(比如经编码的视频数据)。在一些示例中，源设备102和/或目标设备116可以包括各自的片上系统(SoC)设备。例如，源设备102可以包括SoC设备以执行归因于视频编码器200和/或输出接口108的功能，以及目标设备116可以包括SoC设备以执行归因于视频解码器300和/或输入接口122的功能。

本公开内容的技术可以应用于支持各种多媒体应用中的任何多媒体应用的视频译码，比如空中电视广播、电缆电视传输、卫星电视传输、互联网串流视频传输，比如通过HTTP的动态自适应串流(DASH)、编码到数据存储介质上的数字视频、对存储在数据存储介质上的数字视频的解码或其它应用。

目标设备116的输入接口122从计算机可读介质110(例如，存储设备112、文件服务器114等)接收经编码的视频比特流。经编码的视频比特流计算机可读介质110可以包括由视频编码器200定义的信令信息，其还由视频解码器300使用，比如具有描述视频块或其它经译码的单元(例如，切片、图片、图片组、序列等)的特性和/或对视频块或其它经译码的单元的处理的值的语法元素。显示设备118向用户显示经解码的视频数据的经解码的图片。显示设备118可以表示各种显示设备中的任何显示设备，比如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示设备。

虽然未在图1中示出，但是在一些示例中，视频编码器200和视频解码器300可以是各自与音频编码器和/或音频解码器整合的，以及可以包括适当的MUX-DEMUX单元或其它硬件和/或软件，以处理包括在共同的数据流中的音频和视频两者的复用流。如果可适用的话，MUX-DEMUX单元可以符合ITU H.223复用器协议，或比如用户数据报协议(UDP)的其它协议。

视频编码器200和视频解码器300可以各自实现为各种合适的编码器和/或解码器电路中的任何一者，比如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑、软件、硬件、固件或其任意组合。当技术在软件中部分地实现时，设备可以存储针对在合适的、非暂时性的计算机可读存储介质中的软件的指令，以及在使用一个或多个处理器的硬件中执行指令以执行本公开内容的技术。视频编码器200和视频解码器300中的各者可以是包括在一个或多个编码器或解码器中的，所述编码器或解码器中的两者之一可以整合为各自的设备中的组合的编码器/解码器(CODEC)的一部分。包括视频编码器200和/或视频解码器300的设备可以包括集成电路、微处理器和/或无线通信设备，比如蜂窝电话。

视频编码器200和视频解码器300可以根据视频译码标准(诸如ITU-T H.265(也被称为高效率视频译码(HEVC)标准)或对其的扩展(诸如多视图和/或可伸缩视频译码扩展))进行操作。替代地，视频编码器200和视频解码器300可以根据其它专有或行业标准(诸如ITU-T H.266标准，也被称为多功能视频译码(VVC))进行操作。VVC标准的草案是在以下项中描述的：Bross等人，“Versatile Video Coding(Draft 5)”，ITU-T SG 16WP 3和ISO/IECJTC 1/SC 29/WG 11的联合视频专家组(JVET)，第14次会议：瑞士，日内瓦，2019年3月19至27日，JVET-N1001-v5(下文中被称为“VVC草案5”)。VVC标准的最新草案是在以下项中描述的：Bross等人，“Versatile Video Coding(Draft 9)”，ITU-T SG 16WP 3和ISO/IEC JTC1/SC 29/WG 11的联合视频专家组(JVET)，通过电话会议的第18次会议，2020年4月15-24日，JVET-R2001-v3。然而，本公开内容的技术不受限于任何特定的译码标准。

一般而言，视频编码器200和视频解码器300可以执行对图片的基于块的译码。术语“块”通常指的是包括要处理的(例如，经编码的、经解码的或在编码和/或解码过程中以其它方式使用的)数据的结构。例如，块可以包括亮度和/或色度数据的样本的二维矩阵。一般而言，视频编码器200和视频解码器300可以对以YUV(例如，Y、Cb、Cr)格式表示的视频数据进行译码。也就是说，视频编码器200和视频解码器300可以对亮度分量和色度分量进行译码，而不是对针对图片的样本的红、绿和蓝(RGB)数据进行译码，其中色度分量可以包括红色色调色度分量和蓝色色调色度分量两者。在一些示例中，视频编码器200在编码之前将接收的RGB格式的数据转换为YUV表示，以及视频解码器300将YUV表示转换为RGB格式。或者，预处理单元和后处理单元(未示出)可以执行这些转换。

本公开内容可以通常指的是对图片的译码(例如，编码和解码)以包括对图片的数据进行编码或解码的过程。类似地，本公开内容可以指的是对图片的块的译码以包括对针对块的数据的编码或解码的过程，例如，预测和/或残差译码。经编码的视频比特流通常包括针对表示译码决定(例如，译码模式)和将图片划分为块的语法元素的一系列值。因此，对图片或块进行译码的参考通常应当理解为针对形成图片或块的语法元素的译码值。

HEVC定义各种块，包括译码单元(CU)、预测单元(PU)和变换单元(TU)。根据HEVC，视频译码器(比如视频编码器200)根据四叉树结构将译码树单元(CTU)划分为CU。也就是说，视频译码器将CTU和CU划分为四个相等的、非重叠的正方形，以及四叉树的每个节点具有零个子节点或者四个子节点。没有子节点的节点可以称为“叶节点”，以及这样的叶节点的CU可以包括一个或多个PU和/或一个或多个TU。视频译码器可以进一步划分PU和TU。例如，在HEVC中，残差四叉树(RQT)表示对TU的划分。在HEVC中，PU表示帧间预测数据，而TU表示残差数据。帧内预测的CU包括帧内预测信息，比如帧内模式指示。

作为另一示例，视频编码器200和视频解码器300可以被配置为根据VVC进行操作。根据VVC，视频译码器(比如视频编码器200)将图片划分为多个译码树单元(CTU)。视频编码器200可以根据树结构来划分CTU，比如四叉树-二叉树(QTBT)结构或多类型树(MTT)结构。QTBT结构去除多个划分类型的概念，比如对HEVC的CU、PU与TU之间的分开。QTBT结构包括两个级别：根据四叉树划分进行划分的第一级别，以及根据二叉树划分进行划分的第二级别。QTBT结构的根节点对应于CTU。二叉树的叶节点对应于译码单元(CU)。

在MTT划分结构中，可以使用四叉树(QT)划分、二叉树(BT)划分以及一种或多种类型的三叉树(TT)划分来对块进行划分。三叉树划分是其中块被拆分为三个子块的划分。在一些示例中，三叉树划分将块分割为三个子块，而不通过中心分割原始块。MTT中的划分类型(例如，QT、BT和TT)可以是对称的或不对称的。

在一些示例中，视频编码器200和视频解码器300可以使用单个QTBT或MTT结构来表示亮度分量和色度分量中的各者，而在其它示例中，视频编码器200和视频解码器300可以使用两个或更多个QTBT或MTT结构，比如用于亮度分量的一个QTBT/MTT结构和用于两个色度分量的另一QTBT/MTT结构(或用于各自的色度分量的两个QTBT/MTT结构)。

视频编码器200和视频解码器300可以被配置为使用每HEVC的四叉树划分、QTBT划分、MTT划分或其它划分结构。出于解释的目的，对本公开内容的技术的描述是相对于QTBT划分给出的。然而，应当理解的是，本公开内容的技术还可以应用于被配置为使用四叉树划分或此外使用其它类型的划分的视频译码器。

本公开内容可以可交换地使用“NxN”和“N乘N”来指按照垂直维度和水平维度的块(比如CU或其它视频块)的样本维度，例如，16x16样本或16乘16样本。一般而言，16x16 CU将在垂直方向上具有16个样本(y＝16)，以及将在水平方向上具有16个样本(x＝16)。同样地，NxN CU通常在垂直方向上具有N个样本，以及在水平方向上具有N个样本，其中N表示非负整数值。CU中的样本可以是以行和列来排列的。此外，CU不需要必然地在水平方向上具有与在垂直方向上相同数量的样本。例如，CU可以包括NxM个样本，其中M不一定等于N。

视频编码器200对针对CU的表示预测和/或残差信息以及其它信息的视频数据进行编码。预测信息指示要如何预测CU以便形成针对CU的预测块。残差信息通常表示在编码之前的CU的样本与预测块之间的逐样本差异。

为了预测CU，视频编码器200通常可以通过帧间预测或帧内预测来形成针对CU的预测块。帧间预测通常指的是从先前经译码的图片的数据预测CU，而帧内预测通常指的是从同一图片的先前经译码的数据预测CU。为了执行帧间预测，视频编码器200可以使用一个或多个运动矢量来生成预测块。视频编码器200通常可以执行运动搜索以识别与CU紧密地匹配的参考块，例如，按照在CU与参考块之间的差异。视频编码器200可以使用绝对差之和(SAD)、误差平方和(SSD)、平均绝对差(MAD)、均方误差(MSD)或其它这样的差分计算来对差分度量进行计算，以确定参考块是否与当前的CU紧密地匹配。在一些示例中，视频编码器200可以使用单向预测或双向预测来预测当前的CU。

VVC的一些示例还提供仿射运动补偿模式，其可以被认为是帧间预测模式。在仿射运动补偿模式中，视频编码器200可以确定表示非平移运动的两个或更多个运动矢量，比如放大或缩小、旋转、透视运动或其它不规则的运动类型。

为了执行帧内预测，视频编码器200可以选择帧内预测模式以生成预测块。VVC的一些示例提供六十七种帧内预测模式，包括各种方向的模式以及平面模式和DC模式。一般而言，视频编码器200选择帧内预测模式，所述帧内预测模式描述对于当前块(例如，CU的块)而言的从其预测当前块的样本的邻近的样本。假设视频编码器200以光栅扫描顺序(左到右、上到下)来对CTU和CU进行译码，则这样的样本通常可以在与当前块相同的图片中的当前块的上方、上方并且左边、或左边。

视频编码器200对表示针对当前块的预测模式的数据进行编码。例如，针对帧间预测模式，视频编码器200可以对表示使用各种可用的帧间预测模式中的那个帧间预测模式以及针对相应的模式的运动信息的数据进行编码。针对单向帧间预测或双向帧间预测，例如，视频编码器200可以使用改进的运动矢量预测(AMVP)或合并模式来对运动矢量进行编码。视频编码器200可以使用类似的模式来对用于仿射运动补偿模式的运动矢量进行编码。

在预测(比如对块的帧内预测或帧间预测)之后，视频编码器200可以计算针对块的残差数据。残差数据(比如残差块)表示在块与针对块的使用相应的预测模式形成的预测块之间的逐样本差异。视频编码器200可以对残差块应用一个或多个变换，以在变换域而不是样本域中产生经变换的数据。例如，视频编码器200可以对残差视频数据应用离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换。另外地，视频编码器200可以在第一变换之后应用二次变换，比如取决于模式的不可分的二次变换(MDNSST)、取决于信号的变换、卡洛南-洛伊(Karhunen-Loeve)变换(KLT)等。视频编码器200在对一个或多个变换的应用之后产生变换系数。

如上文所述，在任何变换以产生变换系数之后，视频编码器200可以执行对变换系数的量化。量化通常指的是在其中对变换系数进行量化以可能地减少用于表示系数的数据的量，提供进一步的压缩的过程。通过执行量化过程，视频编码器200可以减少与系数中的一些系数或所有系数相关联的比特深度。例如，视频编码器200可以在量化期间将n比特值向下四舍五入到m比特值，其中n大于m。在一些示例中，为了执行量化，视频编码器200可以执行对要量化的值的逐位右移。

在量化之后，视频编码器200可以扫描变换系数，从包括经量化的变换系数的二维矩阵产生一维矢量。扫描可以被设计为在矢量的前面放置较高的能量(并且因此较低的频率)系数，以及在矢量的后面放置较低的能量(并且因此较高的频率)变换系数。在一些示例中，视频编码器200可以利用预先定义的扫描顺序来扫描经量化的变换系数以产生序列化的矢量，以及接着对矢量的经量化的变换系数进行熵编码。在其它示例中，视频编码器200可以执行自适应扫描。在扫描经量化的变换系数以形成一维矢量之后，视频编码器200可以例如根据上下文自适应的二进制算术译码(CABAC)来对一维矢量进行熵编码。视频编码器200还可以对针对描述与经编码的视频数据相关联的元数据的语法元素的值进行熵编码，用于由视频解码器300在对视频数据进行解码时使用。

为了执行CABAC，视频编码器200可以将在上下文模型内的上下文分配给要发送的符号。上下文可以涉及例如符号的邻近的值是否是零值。概率确定可以是基于分配给符号的上下文。

视频编码器200可以进一步例如在图片报头、块报头、切片报头或其它语法数据(比如序列参数集(SPS)、图片参数集(PPS)，或视频参数集(VPS))中向视频解码器300生成语法数据(比如基于块的语法数据、基于图片的语法数据和基于序列的语法数据)。视频解码器300同样地可以对这样的语法数据进行解码以确定如何对相应的视频数据进行解码。

以这种方式，视频编码器200可以生成包括经编码的视频数据的比特流，例如，描述对图片到块(例如，CU)的划分的语法元素和针对块的预测和/或残差信息。最终，视频解码器300可以接收比特流以及对经编码的视频数据进行解码。

一般而言，视频解码器300执行与由视频编码器200执行的互易的过程，以对比特流的经编码的视频数据进行解码。例如，视频解码器300可以使用CABAC以基本上类似于(尽管是互易的)视频编码器200的CABAC编码过程的方式来对针对比特流的语法元素的值进行解码。语法元素可以定义用于对图片到CTU的划分以及根据相应的划分结构(比如QTBT结构)来对每个CTU的划分的划分信息，以定义CTU的CU。语法元素可以进一步定义针对视频数据的块(例如，CU)的预测信息和残差信息。

残差信息可以是通过例如经量化的变换系数来表示的。视频解码器300可以对块的经量化的变换系数进行逆量化和逆变换，以再现针对该块的残差块。视频解码器300使用以信号通知的预测模式(帧内预测或帧间预测)和相关的预测信息(例如，用于帧间预测的运动信息)以形成针对该块的预测块。视频解码器300可以接着组合预测块和残差块(在逐个样本的基础上)以再现初始块。视频解码器300可以执行另外的处理，比如执行解块过程以减少沿着块的边界的视觉伪像。

根据本公开内容的技术，视频编码器200可以确定合并模式类型(例如，规则合并模式、具有运动矢量差的合并模式(MMVD)、仿射合并预测(AMP)、基于子块的时间运动矢量预测(SbTMVP)、三角形合并预测(TMP)或组合帧间和帧内预测(CIIP))。视频编码器200可以使用本公开内容中描述的技术中的任何一种技术或组合技术来在比特流中用信号通知用于指示用于当前块的合并模式的语法元素。下面将更详细地描述语法元素的示例以及用信号通知语法元素的条件顺序。

视频解码器300可以被配置为使用本公开内容中描述的技术中的任何一种或组合来解析比特流中的语法元素，以确定用于当前块的合并模式。下面将更详细地描述语法元素的示例以及解析语法元素的条件顺序。

本公开内容通常可以指的是“以信号通知”某些信息(比如语法元素)。术语“以信号通知”通常可以指的是针对语法元素和/或用于对经编码的视频数据进行解码的其它数据的值的通信。也就是说，视频编码器200可以以信号通知针对比特流中的语法元素的值。一般而言，以信号通知指的是生成比特流中的值。如上文所述，源设备102可以基本上实时地或非实时地将比特流传输到目标设备116，比如可能当将语法元素存储到存储设备112用于由目标设备116进行的稍后的取回时发生。

图2A和图2B是示出示例四叉树二叉树(QTBT)结构130以及对应的译码树单元(CTU)132的概念图。实线表示四叉树拆分，以及虚线指示二叉树拆分。在二叉树的每个拆分(即非叶)节点中，用信号通知一个标志以指示使用哪种拆分类型(即，水平或垂直)，其中，在该示例中，0指示水平拆分，以及1指示垂直拆分。对于四叉树拆分，由于四叉树节点将块水平地并且垂直地拆分为具有相等大小的4个子块，因此无需指示拆分类型。因此，视频编码器200可以对以下各项进行编码，以及视频解码器300可以对以下各项进行解码：用于QTBT结构130的区域树级别(即实线)的语法元素(诸如拆分信息)、以及用于QTBT结构130的预测树级别(即虚线)的语法元素(诸如拆分信息)。视频编码器200可以对用于由QTBT结构130的终端叶节点表示的CU的视频数据(诸如预测和变换数据)进行编码，以及视频解码器300可以对视频数据进行解码。

一般而言，图2B的CTU 132可以与定义与QTBT结构130的处于第一和第二级别的节点相对应的块的大小的参数相关联。这些参数可以包括CTU大小(表示样本中的CTU 132的大小)、最小四叉树大小(MinQTSize，其表示最小允许四叉树叶节点大小)、最大二叉树大小(MaxBTSize，其表示最大允许二叉树根节点大小)、最大二叉树深度(MaxBTDepth，其表示最大允许二叉树深度)、以及最小二叉树大小(MinBTSize，其表示最小允许二叉树叶节点大小)。

QTBT结构的与CTU相对应的根节点可以在QTBT结构的第一级别处具有四个子节点，每个子节点可以是根据四叉树划分来划分的。也就是说，第一级别的节点是叶节点(没有子节点)或者具有四个子节点。QTBT结构130的示例将这样的节点表示为包括具有实线分支的父节点和子节点。如果第一级别的节点不大于最大允许二叉树根节点大小(MaxBTSize)，则可以通过相应的二叉树进一步对这些节点进行划分。可以对一个节点的二叉树拆分进行迭代，直到从拆分产生的节点达到最小允许二叉树叶节点大小(MinBTSize)或最大允许二叉树深度(MaxBTDepth)。QTBT结构130的示例将这样的节点表示为具有虚线分支。二叉树叶节点被称为译码单元(CU)，其用于预测(例如，图片内或图片间预测)和变换，而不进行进一步划分。如上所讨论的，CU也可以被称为“视频块”或“块”。

在QTBT划分结构的一个示例中，CTU大小被设置为128x128(亮度样本和两个对应的64x64色度样本)，MinQTSize被设置为16x16，MaxBTSize被设置为64x64，MinBTSize(对于宽度和高度两者)被设置为4，并且MaxBTDepth被设置为4。首先对CTU应用四叉树划分以生成四叉树叶节点。四叉树叶节点可以具有从16x16(即MinQTSize)到128x128(即CTU大小)的大小。如果叶四叉树节点为128x128，则由于该大小超过MaxBTSize(即，在该示例中为64x64)，因此叶四叉树节点将不被二叉树进一步拆分。否则，叶四叉树节点将被二叉树进一步划分。因此，四叉树叶节点也是用于二叉树的根节点，并且具有为0的二叉树深度。当二叉树深度达到MaxBTDepth(在该示例中为4)时，不允许进一步拆分。当二叉树节点具有等于MinBTSize(在该示例中为4)的宽度时，这意味着不允许进行进一步的水平拆分。类似地，具有等于MinBTSize的高度的二叉树节点意味着不允许针对该二叉树节点进行进一步的垂直拆分。如上所述，二叉树的叶节点被称为CU，并且根据预测和变换而被进一步处理，而无需进一步划分。

以下是对扩展合并预测的描述。在VVC测试模型4(VTM4)中，合并候选列表通过按顺序包括以下五种类型的候选来构建：1)来自空间邻居CU的空间合并候选；2)来自共置CU的时间合并候选；3)来自先进先出(FIFO)表的基于历史的合并候选；4)成对平均合并候选；以及5)零MV。

在切片报头中用信号通知合并候选列表的大小，并且合并候选列表的最大允许大小在VTM4中为6。对于以合并模式进行译码的每个CU，使用截断的一元二值化对合并候选的索引进行编码。利用上下文来对合并索引的第一箱进行译码，并且针对另一些箱使用旁路译码。该合并模式在本文中被称为常规合并模式。

以下描述了空间合并候选推导。图3是示出空间合并候选的示例位置的概念图。对VVC中的空间合并候选项的推导与HEVC中的推导相同。在位于图3中描绘的位置的候选中选择最多四个合并候选。推导顺序为A0 26、B0 28、B1 30、A1 32和B2 33。位置B2 33仅在位置A0 26、B0 28、B1 30和A1 32的任何CU不可用(例如，因为它属于另一切片或图块(tile))或被帧内译码时才考虑。在位置A1 32处的候选被添加之后，对剩余候选的添加受到冗余校验的约束，该冗余检查确保具有相同运动信息的候选被从列表中排除，从而提高译码效率。例如，视频编码器200或视频解码器300可以在向合并列表添加候选时执行冗余校验。为了降低计算复杂度，在上述冗余校验中并没有考虑所有可能的候选对。图4是示出针对空间合并候选的冗余校验所考虑的候选对的示例的概念图。仅考虑与图4中的箭头(例如，箭头29或箭头31)链接的对，并且仅当用于冗余校验的对应候选不具有相同的运动信息时，才将候选添加到列表中。

以下描述了时间候选推导。图5是示出用于时间合并候选的运动矢量缩放的示例的概念图。在一个示例中，仅一个时间合并候选被添加到合并列表中。在对该时间合并候选的推导中，基于属于共置参考图片的共置CU来推导缩放运动矢量。在切片报头中显式地用信号通知要用于推导共置CU的参考图片列表(例如，list0或list1)。例如，视频编码器200可以在比特流中的切片报头中用信号通知用于推导共置CU的参考图片列表，并且视频解码器300可以通过解析比特流中的信令来确定参考图片列表。

如图5中的虚线所示，获得用于当前CU 42的时间合并候选的缩放运动矢量50，其是使用图片顺序计数(POC)距离tb 46和td 48从共置CU 44的运动矢量52缩放的，其中tb被定义为当前图片的参考图片(参考图片36)与当前图片(当前图片38)之间的POC差，并且td被定义为共置图片的参考图片(参考图片34)与共置图片(共置图片40)之间的POC差。时间合并候选的参考图片索引被设置为等于零。

图6是示出用于时间合并候选的候选位置的示例的概念图。如图6中描绘的，在位置C0 54和位置C1 56处的候选之间选择用于时间候选的位置。如果位置C0 54处的CU不可用、被帧内译码或在译码树单元(CTU)的当前行之外，则使用位置C1 56处的候选。否则，在对时间合并候选的推导中使用位置C0 54。

以下描述了基于历史的合并候选推导。先前译码的块的运动信息被存储在表(基于历史的运动矢量预测器(HMVP)表)中，并且用作用于当前CU的运动矢量预测器。在编码/解码过程期间维护具有多个条目的HMVP表。当向HMVP表插入新的运动候选时，视频编码器200或视频解码器300利用受约束的先进先出(FIFO)规则，其中首先应用冗余校验以查找HMVP表中是否存在相同的候选。如果找到，将从HMVP表中移除相同的候选，并且将HMVP表中跟在其后的所有其它候选在HMVP表中前移。

将HMVP候选在空间和时间合并候选之后添加到合并候选列表中，其中按顺序检查HMVP表中的最新若干HMVP候选并且将其在TMVP候选之后插入到合并候选列表中。可以在将HMVP候选在插入到合并候选列表中之前对其应用一些冗余校验。例如，视频编码器200或视频解码器30可以在将HMVP候选插入到合并候选列表中之前对HMVP候选执行冗余校验。

以下描述了成对平均合并候选推导。成对平均候选是通过对现有合并候选列表中预定义的候选对进行平均来生成的。针对每个参考图片列表(例如，list0和list1)分别计算平均运动矢量。如果在一个列表中两个运动矢量都可用，则即使这两个运动矢量指向不同的参考图片，也对其进行平均。如果只有一个运动矢量可用，则直接使用该运动矢量而不进行平均。如果没有运动矢量可用，则认为该列表无效，并且不添加成对平均合并候选。

当添加成对平均合并候选之后合并列表未满时，在最后插入零运动矢量预测器，直到遇到最大合并候选数量为止。

以下描述了具有运动矢量差(MVD)的合并模式(MMVD)。除了合并模式(其中隐式推导的运动信息直接用于生成当前CU的预测样本)之外，VVC中还引入了MMVD。在MMVD中，视频编码器200选择合并候选，视频编码器200通过用信号通知MVD信息来进一步细化候选。MVD信息包括合并候选标志、用于指定运动幅度的索引和用于指示运动方向的索引。在MMVD模式下，选择合并列表中的前两个候选中的一者作为起始MV。用信号通知合并候选标志，以指定前两个候选中的哪一者是起始MV。例如，视频编码器200可以用信号通知合并候选标志，以向视频解码器300指定哪个合并候选用作起始MV。

距离索引指定运动幅度信息，并且指示从起始MV的预定义偏移。图7A和图7B是示出用于具有运动矢量差的合并模式(MMVD)的搜索点的示例的概念图。

如图7A和图7B所示，向起始MV的水平分量或垂直分量添加偏移。图7A描绘了多个L0(list0)参考56偏移，并且图7B描绘了多个L1(list1)参考58偏移。在表1-1中指定了距离索引和预定义偏移的关系。

表1-1–距离索引和预定义偏移的关系

方向索引表示MVD相对于起点的方向。方向索引可以表示表1-2所示的四个方向之一。MVD符号的含义可以根据关于起始MV的信息而不同。例如，当起始MV是单预测MV或双预测MV时，其中两个参考图片列表(list0和list1)指向当前图片的同一侧的(即，两个参考图片的POC都大于当前图片的POC，或者都小于当前图片的POC)，表1-2中的符号指定了添加到起始MV的MV偏移的符号。当起始MV是双预测MV时，其中两个MV指向当前图片的不同侧(即，一个参考图片的POC大于当前图片的POC，并且另一参考图片的POC小于当前图片的POC)，表1-2中的符号指定了添加到起始MV的list0 MV分量的MV偏移的符号，并且list1 MV分量的符号具有相反的值。

表1-2–方向索引所指定的MV偏移的符号

以下描述了仿射运动补偿预测。在HEVC中，仅将平移运动模型应用于运动补偿预测。然而在现实世界中，存在很多种运动，例如，放大/缩小、旋转、透视运动和另一些不规则运动。在VTM4中，应用基于块的仿射变换运动补偿预测。图8A和图8B是分别示出4参数仿射模型和6参数仿射模型的示例的概念图。如图8A和图8B所示，块的仿射运动场由两个控制点运动矢量(CPMV)(4参数)(图8A)或三个CPMV(6参数)(图8B)的运动信息来描述。在图8A中，块60的仿射运动场由两个CPMV(mv0和mv1)来描述，而在图8B中，块62的仿射运动场由三个CPMV(mv0、mv1和mv2)来描述。

对于4参数仿射运动模型，块中的样本位置(x,y)处的运动矢量被推导为：

其中(mv_0x,mv_0y)是左上角控制点的运动矢量，并且(mv_1x,mv_1y)是右上角控制点的运动矢量。

对于6参数仿射运动模型，块中的样本位置(x,y)处的运动矢量被推导为：

其中(mv_0x,mv_0y)是左上角控制点的运动矢量，(mv_1x,mv_1y)是右上角控制点的运动矢量，并且(mv_2x,mv_2y)是左下角控制点的运动矢量。

为了简化运动补偿预测，应用基于子块的仿射变换预测。图9是示出每子块的仿射运动矢量场的示例的概念图。在一些示例中，为了推导每个4×4亮度子块的运动矢量，根据上述等式计算每个子块的中心样本的运动矢量，如图9所示，并且将该运动矢量舍入到1/16分数精度。例如，视频编码器200和视频解码器300可以计算每个子块(诸如子块64)的中心样本的运动矢量。然后应用运动补偿插值滤波器，以利用推导出的运动矢量来生成对每个子块的预测。在一些示例中，色度分量的子块大小也被设置为4×4。将4×4色度子块的MV被计算为四个对应的4×4亮度子块的MV的平均值。

下面描述仿射合并预测。在仿射合并模式下，基于空间相邻CU的运动信息来生成当前CU的CPMV(控制点运动矢量)。最多可以存在五个CPMV候选，并且用信号通知索引以指示要用于当前CU的一个CPMV候选。例如，视频编码器200可以用信号向视频解码器300通知CPMV索引，以指示将哪个CPMV候选用于当前CU。以下三种类型的CPVM候选用于形成仿射合并候选列表：1)继承的仿射合并候选，其是从邻居CU的CPMV外推出的；2)构造的仿射合并候选CPMVP，其是使用邻居CU的平移MV推导出的；3)零MV。

以下描述了基于子块的时间运动矢量预测(SbTMVP)。与HEVC中的时间运动矢量预测(TMVP)类似，基于子块的时间运动矢量预测(SbTMVP)使用共置图片中的运动场来改进当前图片中CU的运动矢量预测和合并模式。TMVP使用的同一共置图片用于SbTVMP。SbTMVP在以下两个主要方面与TMVP不同：1)TMVP在CU级别预测运动，但SbTMVP在子CU级别预测运动；以及2)尽管TMVP从共置图片中的共置块(共置块是相对于当前CU的右下或中心块)获取时间运动矢量，但SbTMVP在从共置图片获取时间运动信息之前应用运动移位，其中，从当前CU的空间相邻块之一的运动矢量获得运动移位。

包含SbTVMP候选和仿射合并候选两者的组合的基于子块的合并列表用于用信号通知基于子块的合并模式。组合的基于子块的合并列表可以由视频解码器300重构，以及视频编码器200可以将对组合的基于子块的合并列表的索引用信号通知给视频解码器300。

以下描述了三角形合并预测(TMP)，其是几何模式的示例(例如，用于预测的非矩形块)。也就是说，TMP是使用除块以外的几何形状的合并模式的示例。图10A和图10B是示出基于三角形划分的帧间预测的示例的概念图。

TMP仅应用于8x8或更大的CU。当使用该模式时，使用图10A所示的对角线拆分或者图10B所示的反对角线拆分来将CU均匀地拆分成两个三角形的分区。TMP是三角形模式，因为TMP是基于三角形形状而不是块的。图10A中的对角线拆分将CU划分为分区1 330和分区2332。图10B中的反对角线拆分将CU分割为分区1 334和分区2 336。CU中的每个三角形分区是使用其自己的运动信息(例如，运动矢量和参考索引)来被进行帧间预测的。针对每个分区仅允许单预测，即，每个分区具有一个运动矢量和一个参考索引。应用单预测运动约束以确保与传统双预测一样，针对每个CU只需要两个运动补偿的预测器。

如果使用三角形分区模式，则进一步用信号通知指示三角形分区方向(对角线或反对角线)的标志和两个合并索引(每个分区仅一个合并索引)。例如，视频编码器200可以用信号向视频解码器300通知指示拆分的方向的标志和两个合并索引。在预测每个三角形分区之后，使用具有自适应权重的混合处理来调整沿对角线或反对角线边缘的样本值。这是用于整个CU的预测信号，并且与其它预测模式一样，变换和量化过程将应用于整个CU。

以下描述了组合帧间和帧内预测(CIIP)。在组合帧间/帧内预测(CIIP)中，首先推导帧内预测模式和常规合并候选。然后，使用推导出的帧内模式和合并候选来推导帧内预测和帧间预测信号。使用应用于常规合并模式的相同的帧间预测过程来推导帧间预测信号P_inter，并且在常规帧内预测过程之后使用CIIP帧内预测模式来推导帧内预测信号P_intra。然后，按如下使用加权平均来组合帧内和帧间预测信号：

P_CIIP＝((8-wt)*P_inter+wt*P_intra+4)＞＞3 (3)

如上所述，本公开内容描述了用于用信号通知和解析用于不同合并模式的信息(例如，合并模式类型)的示例技术。在第一示例方法中，不同的合并模式被分类为3组：1)正常合并模式组，其可以包括常规合并模式和MMVD合并模式，2)基于子块的合并模式组，其可以包括SbTMVP模式和仿射合并模式，以及3)混合合并模式组，其可以包括几何模式(诸如TMP模式或基于除块以外的几何形状的其它模式)以及CIIP模式，CIIP模式需要混合操作并且在本文中可以被称为具有混合的合并模式。如本公开内容中描述的，通过按合并模式类型对合并模式进行分类并且将较高概率的合并模式置于二值化树中的较高位置，可以实现合并模式类型的相对高效的信令和解析。相对高效的信令和解析可以导致更高效的带宽利用率以及处理功耗和解码延时的降低。

图11是示出用于用信号通知合并模式信息的二值化树的一个示例的概念图。视频编码器200可以将根据图11的示例的合并模式信息用信号通知给视频解码器300，并且视频解码器300可以解析合并模式信息以确定应用哪种合并模式。如图11所示，第一标志(例如，merge_sub-block_flag 70)用于指示是否选择了基于子块的合并模式组。merge_sub-block_flag 70等于1指定为视频数据的当前块选择基于子块的合并模式，在这种情况下，视频编码器200和视频解码器300利用基于子块的合并模式来对视频数据的块进行译码。在图11的示例中，可以首先用信号通知指示基于子块的合并模式的语法元素，因为基于子块的合并模式可以更频繁地用于许多视频序列。以这种方式，可以在单个箱中用信号通知对基于子块的合并模式的选择。

如果不存在merge_sub-block_flag 70，则推断merge_sub-block_flag 70为0。例如，如果不存在merge_sub-block_flag 70，则视频解码器300可以推断merge_sub-block_flag 70为0。

因此，视频编码器200和视频解码器300可以针对视频数据的块确定是否使用子块合并模式。视频编码器200可以用信号通知指示块是否将使用子块合并模式的merge_sub_block_flag 70。视频解码器300可以解析merge_sub_block_flag 70以确定是否使用子块合并模式，包括基于解析比特流以及确定不存在merge_sub_block_flag 70来推断merge_sub_block_flag 70为0。

如果merge_sub-block_flag 70等于0，则使用第二标志(例如，merge_blend_flag72)来指示选择了正常合并模式组还是混合合并模式组。如果不存在merge_blend_flag72，则推断merge_blend_flag 72为0。例如，不存在merge_blend_flag 72，视频解码器300可以推断merge_blend_flag 72为0。

例如，基于关于不将子块合并模式用于块的确定(例如，因为merge_sub-block_flag 70为0)，视频编码器200和视频解码器300可以确定是否将具有混合的合并模式用于块(例如，诸如CIIP或类似TMP的几何模式)。在一些示例中，确定是否使用具有混合的合并模式包括确定是使用几何模式或CIIP模式中的一者，还是既不使用几何模式也不使用CIIP模式。例如，视频编码器200可以用信号通知merge_blend_flag 72，其指示块是否将使用具有混合的合并模式。视频解码器300可以解析merge_blend_flag 72以确定是否将使用具有混合的合并模式，包括基于解析比特流以及确定不存在merge_blend_flag 72来推断merge_blend_flag 72为0。

在一个或多个示例中，视频编码器200可以仅在用信号通知merge_subblock_flag70之后才用信号通知merge_blend_flag 72，并且视频解码器300可以仅在解析merge_subblock_flag 70之后才解析merge_blend_flag 72。

如果merge_blend_flag 72等于0，则使用第三标志(例如，mmvd_merge_flag 74)来指示选择了常规合并模式还是MMVD合并模式。如果不存在mmvd_merge_flag 74，则推断mmvd_merge_flag 74为0。例如，如果不存在mmvd_merge_flag 74，则视频解码器300可以推断mmvd_merge_flag 74为0。

例如，基于关于不使用具有混合的合并模式的确定(例如，因为merge_blend_flag72为0)，视频编码器200和视频解码器300可以确定是否将MMVD合并模式用于块。例如，视频编码器200可以用信号通知mmvd_merge_flag 74，其指示是否将MMVD合并模式用于块。视频解码器300可以解析mmvd_merge_flag 74以确定是否使用MMVD合并模式，包括基于解析比特流以及确定不存在mmvd_merge_flag 74来推断mmvd_merge_flag 74为0。

在一个或多个示例中，视频编码器200可以仅在用信号通知merge_subblock_flag70和merge_blend_flag 72之后才用信号通知mmvd_merge_flag 74，并且视频解码器300可以仅在解析merge_subblock_flag 70和merge_blend_flag 72之后才解析mmvd_merge_flag 74。例如，如果mmvd_merge_flag 74等于1，则指定选择MMVD合并模式，在这种情况下，视频编码器200和视频解码器300利用MMVD合并模式来对块进行译码。如果mmvd_merge_flag 74等于0，则选择指定了常规合并模式，在这种情况下，视频编码器200和视频解码器300利用常规合并模式来对块进行译码。

如果merge_blend_flag 72等于1，则使用第四标志(例如，ciip_flag 76)来指示选择了CIIP合并模式还是几何模式(诸如TMP模式)。如果不存在ciip_flag 76，则推断ciip_flag 76为0。例如，如果不存在ciip_flag 76，则视频解码器300可以推断ciip_flag76为0。

例如，基于关于使用具有混合的合并模式的确定(例如，因为merge_blend_flag72为1)，视频编码器200和视频解码器300可以确定将CIIP模式还是几何模式(诸如TMP)用于块。例如，视频编码器200可以用信号通知ciip_flag 76，其指示块是否将CIIP模式用于块。视频解码器300可以解析ciip_flag 76以确定是否使用CIIP模式，包括基于解析比特流以及确定不存在ciip_flag 76来推断ciip_flag 76为0。例如，如果ciip_flag 76等于1，则这意味着使用CIIP模式，在这种情况下，视频编码器200和视频解码器300利用CIIP模式来对块进行译码。如果ciip_flag 76等于0并且merge_blend_flag 72等于1，则这意味着使用几何模式，并且视频编码器200和视频解码器300利用几何模式(诸如TMP)来对块进行译码。

取决于对应合并模式的可用性，上述标志(例如，语法元素)可能存在。如果SbTMVP和仿射合并候选两者都不可用，则可能不存在merge_sub-block_flag。如果CIIP和TMP模式两者都不可用，则可能不存在merge_blend_flag。如果CIIP或者TMP模式不可用，则可能不存在ciip_flag。如果MMVD合并模式不可用，则可能不存在mmvd_merge_flag。(例如，视频编码器200或视频解码器300)可以将各种条件检查应用于这些合并模式的可用性。

在一个示例中，每种合并模式具有自己的最大候选数量。在一个示例中，所有合并模式共享相同的最大候选数量。在一个示例中，每个不同的合并组具有自己的最大候选数量，但是同一组中的合并模式共享相同的合并候选数量。

图12是示出用于用信号通知合并模式信息的二值化树的另一示例的概念图。视频编码器200可以将根据图12的示例的合并模式信息用信号通知给视频解码器300，并且视频解码器300可以解析合并模式信息以确定应用哪种合并模式。在图12的示例中，第一标志(例如，merge_sub-block_flag80)用于指示是否选择了基于子块的合并模式。当merge_sub-block_flag 80等于1时，该标志指定为当前CU选择了基于子块的合并模式。如在图11的示例中，可以首先用信号通知指示基于子块的合并模式的语法元素，因为基于子块的合并模式可以更频繁地用于许多视频序列。以这种方式，可以在单个箱中用信号通知对基于子块的合并模式的选择。如果merge_sub-block_flag等于0，则使用第二标志(例如，mmvd_merge_flag 82)指示是否选择了MMVD合并模式。当mmvd_merge_flag 82等于1时，该标志指定选择了MMVD合并模式。如果mmvd_merge_flag等于0，则使用第三标志(例如，ciip_flag84)指示是否选择了CIIP模式。当ciip_flag 84等于1时，该标志指定选择了CIIP模式。如果ciip_flag 84等于0，则使用第四标志(例如，triangle_merge_flag 86)指示是否选择了TMP模式。当triangle_merge_flag 86等于1时，该标志指定选择了TMP模式。当triangle_merge_flag 86等于0时，该标志指定选择了常规合并模式。类似于图11的示例，取决于对应合并模式的可用性，可以存在上述标志。当不存在标志时，将该标志推断为0。例如，如果不存在标志，则视频解码器300可以推断标志为0。在图12的示例中，与图11的示例相比，需要额外的箱来用信号通知二值化树上的最后模式。

以下描述了合并索引译码。对于每种合并模式，使用截断的一元二值化来对最佳合并候选索引进行译码。利用上下文来对合并索引的第一箱进行译码，并且针对其它箱使用旁路译码。在一个示例中，每种合并模式具有其自己的用于第一箱的上下文。在一个示例中，基于子块的合并模式具有其自己的上下文，但是所有其它合并模式共享相同的上下文。在一个示例中，基于子块的合并模式具有其自己的上下文，MMVD合并模式也具有其自己的上下文，并且所有其它合并模式共享相同的上下文。在一个示例中，CIIP和常规合并模式共享相同的上下文，但所有其它合并模式具有单独的上下文。

以下描述了不同合并模式的可用性检查。通常地，合并模式的可用性取决于控制合并模式的开/关的高级语法以及可以向合并模式应用的块大小约束。在VTM4中，不同的大小约束应用于不同的合并模式。常规合并模式和MMVD合并模式可以应用于所有帧间块。基于子块的合并模式可以应用于宽度和高度均大于或等于8的帧间块。CIIP可以应用于具有以下条件的帧间块：面积(NxM)大于或等于64，宽度小于或等于最大变换大小，高度小于或等于最大变换大小。TMP可以应用于面积大于或等于64的帧间块。

在一个示例中，应用了针对不同合并模式的当前大小约束。在一个示例中，CIIP和TMP模式使用相同的大小约束。在一个示例中，以下条件应用于CIIP和TMP两者：面积大于或等于64，宽度小于或等于最大变换大小，高度小于或等于最大变换大小。在另一示例中，CIIP和TMP两者可以应用于面积大于或等于64的帧间块。

在一个示例中，基于子块的合并模式可以应用于面积大于或等于64的帧间块，并且以下条件应用于CIIP和TMP两者：面积大于或等于64，宽度小于或等于最大变换大小，高度小于或等于最大变换大小。在一个示例中，基于子块的合并模式、CIIP和TMP模式使用相同的大小约束。在一个示例中，以下条件应用于基于子块的合并模式、CIIP和TMP：面积大于或等于64，宽度小于或等于最大变换大小，高度小于或等于最大变换大小。在一个示例中，基于子块的合并模式、CIIP和TMP可以应用于面积大于或等于64的帧间块。

应当理解的是，上面的数字“64”是门限的示例。也可以利用其它值。

图13是示出可以执行本公开内容的技术的示例视频编码器200的方框图。图13是出于解释的目的而提供的，并且不应当被认为是对在本公开内容中泛泛地举例说明和描述的技术进行限制。出于解释的目的，本公开内容在视频译码标准(诸如HEVC视频译码标准和正在开发的H.266视频译码标准)的上下文中描述视频编码器200。然而，本公开内容的技术不受限于这些视频译码标准，并且通常适用于视频编码和解码。

在图13的示例中，视频编码器200包括视频数据存储器230、模式选择单元202、残差生成单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重构单元214、滤波器单元216、经解码的图片缓冲区(DPB)218和熵编码单元220。视频数据存储器230、模式选择单元202、残差生成单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重构单元214、滤波器单元216、DPB 218和熵编码单元220中的任何一者或全部可以在一个或多个处理器中或者在处理电路中实现。此外，视频编码器200可以包括额外或替代的处理器或处理电路以执行这些和其它功能。

视频数据存储器230可以存储要由视频编码器200的组件进行编码的视频数据。视频编码器200可以从例如视频源104(图1)接收存储在视频数据存储器230中的视频数据。DPB 218可以充当参考图片存储器，其存储参考视频数据以供视频编码器200用于预测随后的视频数据。视频数据存储器230和DPB 218可以由各种存储器设备(比如动态随机存取存储器(DRAM)(其包括同步DRAM(SDRAM))、磁阻RAM(MRAM)、电阻RAM(RRAM)或其它类型的存储器设备)中的任何一者形成。视频数据存储器230和DPB 218可以由相同的存储器设备或分开的存储器设备提供。在各个示例中，视频数据存储器230可以与视频编码器200的其它组件一起在芯片上，如所示出的，或相对于那些组件在芯片外。

在本公开内容中，对视频数据存储器230的引用不应当解释为受限于视频编码器200内部的存储器(除非明确地描述为此)或视频编码器200外部的存储器(除非明确地描述为此)。而是，对视频数据存储器230的引用应当理解为存储视频数据的参考存储器，视频编码器200接收所述视频数据(例如，针对要进行编码的当前块的视频数据)用于编码。图1的存储器106还可以提供对来自视频编码器200的各个单元的输出的临时存储。

示出图13的各个单元以辅助理解由视频编码器200执行的操作。单元可以实现为固定功能的电路、可编程的电路或其组合。固定功能的电路指的是提供特定的功能的、以及对可以执行的操作来预设置的电路。可编程的电路指的是可以编程以执行各种任务、以及提供在可以执行的操作中的灵活的功能的电路。例如，可编程的电路可以执行使得可编程的电路以由软件或固件的指令定义的方式进行操作的软件或固件。固定功能的电路可以执行软件指令(例如，以接收参数或输出参数)，但是固定功能的电路执行的操作的类型通常是不可变的。在一些示例中，单元中的一个或多个单元可以是有区别的电路块(固定功能的或可编程的)，以及在一些示例中，所述一个或多个单元可以是集成电路。

视频编码器200可以包括从可编程的电路形成的算术逻辑单元(ALU)、基本功能单元(EFU)、数字电路、模拟电路和/或可编程内核。在使用由可编程的电路执行的软件来执行视频编码器200的操作的示例中，存储器106(图1)可以存储视频编码器200接收和执行的软件的目标代码，或者视频编码器200内的另一存储器(未示出)可以存储这样的指令。

视频数据存储器230被配置为存储接收的视频数据。视频编码器200可以从视频数据存储器230取回视频数据的图片，以及向残差生成单元204和模式选择单元202提供视频数据。视频数据存储器230中的视频数据可以是要进行编码的原始的视频数据。

模式选择单元202包括运动估计单元222、运动补偿单元224和帧内预测单元226。模式选择单元202可以包括另外的功能单元以根据其它预测模式来执行视频预测。举例而言，模式选择单元202可以包括调色板单元、块内复制单元(其可以是运动估计单元222和/或运动补偿单元224的一部分)、仿射单元、线性模型(LM)单元等。对于一些块，模式选择单元202可以选择诸如MMVD、AMP、SbTMVP的合并模式、诸如TMP、CIIP的几何模式或常规合并模式。视频编码器200可以根据本公开内容的技术(诸如关于图11、12和15-17描述的)来用信号通知所选择的合并模式。

模式选择单元202通常协调多个编码阶段以测试编码参数的组合以及针对这样的组合的作为结果的速率失真值。编码参数可以包括对CTU到CU的划分、针对CU的预测模式、针对CU的残差数据的变换类型、针对CU的残差数据的量化参数等。模式选择单元202可以最终选择具有比另一些测试的组合更好的速率失真值的编码参数的组合。

视频编码器200可以将从视频数据存储器230取回的图片划分为一系列的CTU，以及将一个或多个CTU封装在切片内。模式选择单元202可以根据树结构(比如上文所描述的HEVC的QTBT结构或四叉树结构)来划分图片的CTU。如上文所描述的，视频编码器200可以根据树结构从划分CTU来形成一个或多个CU。这样的CU通常还可以称为“视频块”或“块”。

一般而言，模式选择单元202还控制其组件(例如，运动估计单元222、运动补偿单元224和帧内预测单元226)，以生成针对当前块(例如，当前的CU，或在HEVC中，PU和TU的重叠部分)的预测块。针对对当前块的帧间预测，运动估计单元222可以执行运动搜索以识别一个或多个参考图片(例如，DPB 218中存储的一个或多个先前经译码的图片)中的一个或多个紧密地匹配的参考块。特别是，运动估计单元222可以例如根据绝对差之和(SAD)、误差平方和(SSD)、平均绝对差(MAD)、均方误差(MSD)等来计算表示潜在的参考块与当前块的相似程度的值。运动估计单元222通常可以使用在当前块与正在考虑的参考块之间的逐个样本差来执行这些计算。运动估计单元222可以识别具有来源于这些计算的最低值的参考块，其指示与当前块最紧密地匹配的参考块。

运动估计单元222可以形成一个或多个运动矢量(MV)，所述MV定义参考图片中的参考块相对于当前的图片中的当前块的位置的位置。运动估计单元222可以接着向运动补偿单元224提供运动矢量。例如，针对单向帧间预测，运动估计单元222可以提供单个运动矢量，而针对双向帧间预测，运动估计单元222可以提供两个运动矢量。运动补偿单元224可以接着使用运动矢量来生成预测块。例如，运动补偿单元224可以使用运动矢量来取回参考块的数据。举另一示例，如果运动矢量具有分数样本精度，则运动补偿单元224可以根据一个或多个内插滤波器来内插针对预测块的值。此外，针对双向帧间预测，运动补偿单元224可以取回针对通过各自的运动矢量标识的两个参考块的数据，以及例如通过逐个样本平均或加权平均来对所取回的数据进行组合。

举另一示例，针对帧内预测或帧内预测译码，帧内预测单元226可以从与当前块邻近的样本生成预测块。例如，针对方向模式，帧内预测单元226通常可以在数学上组合邻近的样本的值，以及在跨越当前块定义的方向上填充这些计算的值以产生预测块。举另一示例，针对DC模式，帧内预测单元226可以计算邻近的样本到当前块的平均，以及生成预测块以包括针对预测块的每个样本的作为结果的平均。

模式选择单元202向残差生成单元204提供预测块。残差生成单元204从视频数据存储器230接收当前块的原始的、未经编码的版本，以及从模式选择单元202接收预测块。残差生成单元204计算在当前块与预测块之间的逐个样本差。作为结果的逐个样本差定义针对当前块的残差块。在一些示例中，残差生成单元204还可以确定在残差块中的样本值之间的差，以使用残差差分脉冲译码调制(RDPCM)生成残差块。在一些示例中，残差生成单元204可以是使用执行二进制减法的一个或多个减法器电路来形成的。

在模式选择单元202将CU划分为PU的示例中，每个PU可以是与亮度预测单元和相应的色度预测单元相关联的。视频编码器200和视频解码器300可以支持具有各种大小的PU。如上文所指示的，CU的大小可以指的是CU的亮度译码块的大小，以及PU的大小可以指的是PU的亮度预测单元的大小。假定特定的CU的大小是2Nx2N，视频编码器200可以支持2Nx2N或NxN的PU大小用于帧内预测，以及支持2Nx2N、2NxN、Nx2N、NxN或类似的对称的PU大小用于帧间预测。视频编码器200和视频解码器300还可以支持针对2NxnU、2NxnD、nLx2N和nRx2N的PU大小的非对称的划分用于帧间预测。

在模式选择单元不将CU进一步地划分为PU的示例中，每个CU可以是与亮度译码块和相应的色度译码块相关联的。如上文，CU的大小可以指的是CU的色度译码块的大小。视频编码器200和视频解码器300可以支持2Nx2N、2NxN或Nx2N的CU大小。

针对其它视频译码技术(比如块内复制模式译码、仿射模式译码和线性模型(LM)模式译码)，作为少数示例，模式选择单元202经由与译码技术相关联的各自的单元，生成针对正在进行编码的当前块的预测块。在一些示例中，比如调色板模式译码，模式选择单元202可以不生成预测块，而是生成指示在其中基于选择的调色板来重构的块的方式的语法元素。在这样的模式中，模式选择单元202可以将这些语法元素提供给要进行编码的熵编码单元220。

如上文所描述的，残差生成单元204接收针对当前块和相应的预测块的视频数据。残差生成单元204接着生成针对当前块的残差块。为了生成残差块，残差生成单元204计算在预测块与当前块之间的逐个样本差。

变换处理单元206将一个或多个变换应用于残差块以生成变换系数的块(本文称为“变换系数块”)。变换处理单元206可以将各种变换应用于残差块以形成变换系数块。例如，变换处理单元206可以将离散余弦变换(DCT)、方向变换、卡洛南-洛伊变换(KLT)或概念上类似的变换应用于残差块。在一些示例中，变换处理单元206可以执行对残差块的多个变换，例如，主变换和辅变换，比如旋转变换。在一些示例中，变换处理单元206不将变换应用于残差块。

量化单元208可以对变换系数块中的变换系数进行量化，以产生经量化的变换系数块。量化单元208可以根据与当前块相关联的量化参数(QP)值来对变换系数块的变换系数进行量化。视频编码器200(例如，经由模式选择单元202)可以通过调整与CU相关联的QP值来调整应用于与当前块相关联的系数块的量化的程度。量化可能引入信息的损耗，并且因此，经量化的变换系数可能具有比由变换处理单元206产生的初始变换系数要低的精度。

逆量化单元210和逆变换处理单元212可以分别地将逆量化和逆变换应用于经量化的变换系数块，以从变换系数块重构残差块。重构单元214可以基于重构的残差块和由模式选择单元202生成的预测块来产生与当前块相对应的重构的块(尽管潜在地具有某种程度的失真)。例如，重构单元214可以将重构的残差块的样本增加到来自由模式选择单元202生成的预测块的相应的样本中，以产生重构的块。

滤波器单元216可以对重构的块执行一个或多个滤波器操作。例如，滤波器单元216可以执行解块操作以减少沿着CU的边缘的块效应伪像。在一些示例中，可以跳过对滤波器单元216的操作。

视频编码器200在DPB 218中存储重构的块。例如，在不需要对滤波器单元216的操作的示例中，重构单元214可以将重构的块存储到DPB 218。在需要对滤波器单元216的操作的示例中，滤波器单元216可以将经滤波的重构的块存储到DPB 218。运动估计单元222和运动补偿单元224可以从DPB 218取回从重构的(和潜在地滤波的)块形成的参考图片，以对随后地经编码的图片的块进行帧间预测。此外，帧内预测单元226可以使用当前的图片的DPB218中的重构的块以对当前的图片中的其它块进行帧内预测。

一般而言，熵编码单元220可以对从视频编码器200的其它功能组件接收的语法元素进行熵编码。例如，熵编码单元220可以对来自量化单元208的经量化的变换系数块进行熵编码。举另一示例，熵编码单元220可以对来自模式选择单元202的预测语法元素(例如，用于帧间预测的运动信息或用于帧内预测的帧内模式信息)进行熵编码。熵编码单元220可以对语法元素执行一个或多个熵编码操作(其是视频数据的另一示例)以生成经熵编码的数据。例如，熵编码单元220可以对数据执行上下文自适应可变长度译码(CAVLC)操作、CABAC操作、变量到变量(V2V)长度译码操作、基于语法的上下文自适应二进制算术译码(SBAC)操作、概率间隔划分熵(PIPE)译码操作，指数哥伦布码编码操作，或另一类型的熵编码操作。在一些示例中，熵编码单元220可以在语法元素未经熵编码的旁路模式中操作。

视频编码器200可以输出比特流，所述比特流包括对切片或图片的块进行重构所需要的经熵编码的语法元素。特别是，熵编码单元220可以输出比特流。

上文所描述的操作是相对于块来描述的。这样的描述应当理解为是针对亮度译码块和/或色度译码块的操作。如上文所描述的，在一些示例中，亮度译码块和色度译码块是CU的亮度分量和色度分量。在一些示例中，亮度译码块和色度译码块是PU的亮度分量和色度分量。

在一些示例中，相对于亮度译码块执行的操作不需要针对色度译码块来重复。举例而言，用于识别针对色度译码块的运动矢量(MV)和参考图片的操作，不需要针对识别针对色度块的MV和参考图片来重复。而是，可以缩放针对亮度译码块的MV以确定针对色度块的MV，以及参考图片可以是相同的。举另一示例，帧内预测过程可以针对亮度译码块和色度译码块是相同的。

视频编码器200表示被配置为进行以下操作的设备的示例：针对视频数据的第一块确定是否使用子块合并模式；基于关于不将子块合并模式用于第一块的确定，确定是否将具有混合的合并模式用于第一块；以及基于关于将具有混合的合并模式用于第一块的确定，利用具有混合的合并模式来对第一块进行编码。

图14是示出可以执行本公开内容的技术的示例视频解码器300的方框图。图14是出于解释的目的而提供的，并且不对在本公开内容中泛泛地举例说明和描述的技术进行限制。出于解释的目的，本公开内容根据VVC和HEVC的技术描述了视频解码器300。然而，本公开内容的技术可以由被配置用于其它视频译码标准的视频译码设备来执行。

在图14的示例中，视频解码器300包括经译码的图片缓冲区(CPB)存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重构单元310、滤波器单元312和经解码的图片缓冲区(DPB)314。CPB存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重构单元310、滤波器单元312和DPB314中的任何一者或全部可以在一个或多个处理器中或者在处理电路中实现。此外，视频解码器300可以包括额外或替代的处理器或处理电路以执行这些和其它功能。

预测处理单元304包括运动补偿单元316和帧内预测单元318。预测处理单元304可以包括加法单元，其根据其它预测模式来执行预测。作为示例，预测处理单元304可以包括调色板单元、块内复制单元(其可以形成运动补偿单元316的一部分)、仿射单元、线性模型(LM)单元等。在其它示例中，视频解码器300可以包括更多、更少或不同的功能组件。

CPB存储器320可以存储要由视频解码器300的组件进行解码的视频数据(比如经编码的视频比特流)。存储在CPB存储器320中的视频数据可以是例如从计算机可读介质110(图1)获得的。CPB存储器320可以包括存储来自经编码的视频比特流的经编码的视频数据(例如，语法元素)的CPB。另外，CPB存储器320可以存储除了经译码的图片的语法元素之外的视频数据，比如表示从视频解码器300的各个单元输出的临时数据。DPB314通常存储经解码的图片，视频解码器300可以当对经编码的视频比特流的随后的数据或图片进行解码时输出所述经解码的图片和/或将所述经解码的图片用作参考视频数据。CPB存储器320和DPB314可以是通过各种存储器设备中的任何存储器设备(比如DRAM，包括SDRAM、MRAM、RRAM或其它类型的存储器设备)来形成的。CPB存储器320和DPB 314可以是通过相同的存储器设备或单独的存储器设备来提供的。在各种示例中，CPB存储器320可以是与视频解码器300的其它组件一起在芯片上的，或者是相对于这些组件在芯片外的。

另外地或替代地，在一些示例中，视频解码器300可以从存储器120(图1)取回经译码的视频数据。也就是说，存储器120可以如上文所讨论的与CPB存储器320一起存储数据。同样地，当视频解码器300的一些功能或所有功能是在要由视频解码器300的处理电路执行的软件中实现时，存储器120可以存储要由视频解码器300执行的指令。

示出了图14中示出的各个单元以帮助理解由视频解码器300执行的操作。这些单元可以被实现为固定功能的电路、可编程电路、或其组合。类似于图13，固定功能的电路指代提供特定功能并且对可以执行的操作而预先设置的电路。可编程电路指代可以被编程以执行各种任务并且以可以执行的操作来提供灵活功能的电路。例如，可编程电路可以执行软件或固件，软件或固件使得可编程电路以软件或固件的指令所定义的方式进行操作。固定功能的电路可以执行软件指令(例如，以接收参数或输出参数)，但是固定功能电路执行的操作的类型通常是不可变的。在一些示例中，这些单元中的一个或多个单元可以是不同的电路块(固定功能或可编程)，并且在一些示例中，一个或多个单元可以是集成电路。

视频解码器300可以包括ALU、EFU、数字电路、模拟电路和/或从可编程的电路形成的可编程的内核。在视频解码器300的操作是由可编程的电路上的软件执行的示例中，片上存储器或片外存储器可以存储视频解码器300接收和执行的软件的指令(例如，目标代码)。

熵解码单元302可以从CPB接收经编码的视频数据，以及对视频数据进行熵解码以再现语法元素。预测处理单元304、逆量化单元306、逆变换处理单元308、重构单元310和滤波器单元312可以基于从比特流提取的语法元素来生成经解码的视频数据。

一般而言，视频解码器300以逐块为基础来重构图片。视频解码器300可以个别地对每个块执行重构操作(其中当前正在重构的(即，经解码的)块可以称为“当前块”)。

熵解码单元302可以对定义经量化的变换系数块的经量化的变换系数的语法元素以及变换信息(比如量化参数(QP)和/或变换模式指示)进行熵解码。逆量化单元306可以使用与经量化的变换系数块相关联的QP来确定量化的程度以及同样地针对逆量化单元306要应用的逆量化的程度。逆量化单元306可以例如执行逐比特左移操作以对经量化的变换系数进行逆量化。逆量化单元306可以从而形成包括变换系数的变换系数块。

在逆量化单元306形成变换系数块之后，逆变换处理单元308可以将一个或多个逆变换应用于变换系数块，以生成与当前块相关联的残差块。例如，逆变换处理单元308可以将逆DCT、逆整数变换、逆卡洛南-洛伊变换(KLT)、逆旋转变换、逆方向变换或另一逆变换应用于系数块。

此外，预测处理单元304根据由熵解码单元302进行熵解码的预测信息语法元素来生成预测块。例如，如果预测信息语法元素指示当前块是帧间预测的，则运动补偿单元316可以生成预测块。在这种情况下，预测信息语法元素可以指示要从其中取回参考块的DPB314中的参考图片，以及标识参考图片中的参考块相对于当前的图片中的当前块的位置的位置的运动矢量。运动补偿单元316通常可以以基本上类似于相对于运动补偿单元224(图13)所描述的方式来执行帧间预测过程。

举另一示例，如果预测信息语法元素指示当前块是帧内预测的，则帧内预测单元318可以根据通过预测信息语法元素指示的帧内预测模式来生成预测块。再一次地，帧内预测单元318通常可以以基本类似于相对于帧内预测单元226(图13)所描述的方式来执行帧内预测过程。帧内预测单元318可以从DPB 314中取回到当前块的邻近的样本的数据。

在一些示例中，预测信息语法元素指示使用合并模式(诸如MMVD、AMP、SbTMVP)、几何模式(诸如TMP、CIIP)或常规合并模式来预测当前块。视频解码器300可以根据本公开内容的技术(诸如关于图11、12和15-17描述的)来解析预测信息语法元素以确定所选择的合并模式。

重构单元310可以使用预测块和残差块来重构当前块。例如，重构单元310可以将残差块的样本增加到预测块的相应的样本中，以重构当前块。

滤波器单元312可以对重构的块执行一个或多个滤波器操作。例如，滤波器单元312可以执行解块操作以减少沿着重构的块的边缘的块效应伪像。滤波器单元312的操作不一定是在所有示例中执行的。

视频解码器300可以在DPB 314中存储重构的块。如上文所讨论的，DPB 314可以向预测处理单元304提供参考信息，比如用于帧内预测的当前的图片和用于随后的运动补偿的先前地经解码的图片的样本。此外，视频解码器300可以从DPB输出经解码的图片用于在显示设备(比如图1的显示设备118)上的随后的展示。

以这种方式，视频解码器300表示视频解码设备的示例，该视频解码设备包括：被配置为存储视频数据的存储器；以及一个或多个处理单元，其在电路中实现并且被配置为：使用本公开内容中描述的技术中的任何一种或组合来解析比特流中的语法元素以确定用于当前块的合并模式。

图15是示出用于用信号通知或解析指示合并模式选择的语法元素的示例技术的流程图。在图15的示例中，视频编码器200或视频解码器300可以针对视频数据的第一块确定是否使用子块合并模式(322)。例如，视频编码器200的模式选择单元202可以确定针对第一块，子块合并模式是否优于其它测试模式。视频编码器200可以用信号向视频解码器300通知指示关于是否使用子块合并模式的语法元素(诸如merge_subblock_flag 70)。视频解码器300可以解析用信号通知的语法元素以确定是否使用子块合并模式。在一些示例中，子块合并模式可以是SbTMVP模式或仿射合并模式。

基于关于不使用子块合并模式的确定(例如，merge_subblock_flag 70等于0)，视频编码器200或视频解码器300可以确定是否将具有混合的合并模式用于第一块(324)。例如，视频编码器200的模式选择单元202可以确定针对第一块，具有混合的合并模式是否优于其它测试模式。视频编码器200可以用信号向视频解码器300通知指示关于是否使用具有混合的合并模式的语法元素(诸如merge_blend_flag 72)。视频解码器300可以解析用信号通知的语法元素以确定是否使用具有混合的合并模式。在一些示例中，具有混合的合并模式可以是几何模式(诸如TMP模式)或基于除块以外的几何形状的其它模式或CIIP模式。

基于关于将具有混合的合并模式用于第一块的确定(例如，merge_blend_flag 72等于1)，视频编码器200或视频解码器300可以利用具有混合的合并模式来对第一块进行译码(326)。在一些示例中，视频编码器200和视频解码器300可以避免对指示是否针对第一块启用MMVD合并模式的信息进行译码。例如，视频编码器200可以不用信号通知指示是否针对第一块启用MMVD合并模式的语法元素(诸如mmvd_merge_flag 74)，并且视频解码器300可以不解析指示是否针对第一块启用MMVD合并模式的语法元素。根据本公开内容的技术，由于在图11的示例二值化树中，merge_blend_flag 72出现在mmvd_merge_flag 74之前，因此指示是否针对第一块启用MMVD合并模式的语法元素是不必要的。

在一些示例中，确定是否使用具有混合的合并模式包括：至少部分地基于第一块的大小来确定是否使用具有混合的合并模式。例如，第一块的大小可以是NxM。关于是否使用具有混合的合并模式的确定可以是至少部分地基于第一块具有大于或等于预定数字(诸如64)的大小NxM的。

在一些示例中，译码包括编码，并且视频编码器200在比特流中用信号通知指示针对第一块将不使用子块合并模式的语法元素之后，在比特流中用信号通知指示将具有混合的合并模式用于第一块的语法元素。在一些示例中，译码包括解码，并且视频解码器300在解析指示针对第一块将不使用子块合并模式的语法元素之后，解析比特流中指示将具有混合的合并模式用于第一块的语法元素。

图16是示出用于用信号通知或解析指示合并模式选择的语法元素的另外的示例技术的流程图。图16的示例可以与图15的示例一起使用。

在图16的示例中，视频编码器200或视频解码器300可以针对视频数据的第二块确定是否使用子块合并模式(330)。例如，视频编码器200的模式选择单元202可以确定针对第二块，子块合并模式是否优于其它测试模式。视频编码器200可以用信号向视频解码器300通知指示关于是否使用子块合并模式的语法元素(诸如merge_subblock_flag 70)。视频解码器300可以解析用信号通知的语法元素以确定是否使用子块合并模式。在一些示例中，子块合并模式可以是SbTMVP模式或仿射合并模式。基于关于将子块合并模式用于第二块的确定(例如，merge_subblock_flag 70等于1)，视频编码器200或视频解码器300可以利用子块合并模式来对第二块进行译码(332)。

图17是示出用于用信号通知或解析指示合并模式选择的语法元素的另外的示例技术的流程图。图17的示例可以与图15的示例和/或图16的示例一起使用。

在图17的示例中，视频编码器200或视频解码器300可以针对视频数据的第三块确定是否使用子块合并模式(334)。例如，视频编码器200的模式选择单元202可以确定针对第三块，子块合并模式是否优于其它测试模式。视频编码器200可以用信号向视频解码器300通知指示关于是否使用子块合并模式的语法元素(诸如merge_subblock_flag 70)。视频解码器300可以解析用信号通知的语法元素以确定是否使用子块合并模式。在一些示例中，子块合并模式可以是SbTMVP模式或仿射合并模式。

基于关于不使用子块合并模式的确定(例如，merge_subblock_flag 70等于0)，视频编码器200或视频解码器300可以确定是否将具有混合的合并模式用于第三块(336)。例如，视频编码器200的模式选择单元202可以确定针对第三块，具有混合的合并模式是否优于其它测试模式。视频编码器200可以用信号向视频解码器300通知指示关于是否使用具有混合的合并模式的语法元素(诸如merge_blend_flag 72)。视频解码器300可以解析用信号通知的语法元素以确定是否使用具有混合的合并模式。在一些示例中，具有混合的合并模式可以是几何模式(诸如TMP模式)或基于除块以外的几何形状的其它模式或CIIP模式。

基于关于不将具有混合的合并模式用于第三块的确定(例如，merge_blend_flag72等于0)，视频编码器200或视频解码器300可以确定是否将MMVD合并模式用于第三块(338)。例如，视频编码器200的模式选择单元202可以确定针对第三块，MMVD合并模式是否优于其它测试模式。视频编码器200可以用信号向视频解码器300通知指示是否使用MMVD合并模式的语法元素(诸如mmvd_merge_flag 74)。视频解码器300可以解析用信号通知的语法元素以确定是否使用MMVD合并模式。视频编码器200或视频解码器300可以基于关于是否将MMVD合并模式用于第三块的确定，利用MMVD合并模式(例如，mmvd_merge_flag 74等于1)或常规合并模式(例如，mmvd_merge_flag 74等于0)来对第三块进行译码。

图15-17的示例技术可以使得视频编码器能够以可能导致更高效的带宽利用率和降低的处理功耗的方式用信号向视频解码器通知合并模式信息。在一些示例中，示例技术可以允许视频解码器相对快速地确定视频编码器用于对给定视频数据块进行编码的合并模式类型，这可以减少解码延时。

图18是示出用于对当前块进行编码的示例方法的流程图。当前块可以包括当前CU。尽管关于视频编码器200(图1和图13)进行了描述，但是应当理解的是，其它设备可以被配置为执行与图18的方法类似的方法。

在该示例中，视频编码器200最初预测当前块(350)。例如，视频编码器200可以形成用于当前块的预测块。在预测块的形成中，视频编码器可以利用图15-17的任何技术。例如，视频编码器200可以针对视频数据的第一块确定是否使用子块合并模式。基于关于不使用子块合并模式的确定，视频编码器200可以确定是否将具有混合的合并模式用于第一块。基于关于将具有混合的合并模式用于第一块的确定，视频编码器200可以利用具有混合的合并模式来对第一块进行译码。然后，视频编码器200可以计算用于当前块的残差块(352)。为了计算残差块，视频编码器200可以计算在原始的未经编码的块与用于当前块的预测块之间的差。然后，视频编码器200可以对残差块的系数进行变换和量化(354)。接下来，视频编码器200可以扫描残差块的经量化的变换系数(356)。在扫描期间或在扫描之后，视频编码器200可以对系数进行熵编码(358)。例如，视频编码器200可以使用CAVLC或CABAC来对系数进行编码。视频编码器200然后可以输出块的经熵译码的数据(360)。

图19是示出用于对视频数据的当前块进行解码的示例方法的流程图。当前块可以包括当前CU。尽管关于视频解码器300(图1和14)进行了描述，但是应当理解的是，其它设备可以被配置为执行与图19的方法类似的方法。

视频解码器300可以接收用于当前块的经熵译码的数据(诸如经熵译码的预测信息和用于与当前块相对应的残差块的系数的经熵译码的数据)(370)。视频解码器300可以对经熵译码的数据进行熵解码以确定用于当前块的预测信息并且重现残差块的系数(372)。视频解码器300可以例如使用如由用于当前块的预测信息所指示的帧内或帧间预测模式来预测当前块(374)，以计算用于当前块的预测块。当预测当前块时，视频解码器300可以利用图15-17的任何技术。例如，视频解码器300可以针对视频数据的第一块确定是否使用子块合并模式。基于关于不使用子块合并模式的确定，视频解码器300可以确定是否将具有混合的合并模式用于第一块。基于关于将具有混合的合并模式用于第一块的确定，视频解码器300可以利用具有混合的合并模式来对第一块进行译码。然后，视频解码器300可以对所重现的系数进行逆扫描(376)，以创建经量化的变换系数的块。然后，视频解码器300可以对系数进行逆量化和逆变换以产生残差块(378)。最终，视频解码器300可以通过将预测块和残差块进行组合来对当前块进行解码(380)。

根据本公开内容的技术，视频编码器可以以可能导致更高效的带宽利用率和降低的处理功耗的方式用信号向视频解码器通知合并模式信息。例如，合并模式可以按类型分类，并且在二值化树中，可以将较高概率合并模式置于比较低概率合并模式更高的位置，从而允许利用与较低概率合并模式相比更少的箱来用信号通知较高概率合并模式。在一些示例中，示例技术可以允许视频解码器相对快速地确定视频编码器用于对给定视频数据的块进行编码的合并模式类型，这可以减少解码延时。以这种方式，示例技术提供了用于解决可能改进视频译码技术的技术问题的实际应用。

本公开内容包括以下示例。

示例1。一种对视频数据进行解码的方法，所述方法包括：使用本公开内容中描述的技术中的任何一种或组合，解析比特流中的语法元素以确定用于当前块的合并模式。

示例2。一种对视频数据进行编码的方法，所述方法包括：使用本公开内容中描述的技术中的任何一种或组合，在比特流中用信号通知语法元素以指示用于当前块的合并模式。

示例3。一种对视频数据进行解码的方法，所述方法包括：解析比特流中的第一语法元素以确定是否选择了基于子块的合并模式组；基于所述第一语法元素的值来确定为当前块选择了基于子块的合并模式组；以及使用基于子块的合并模式来对当前块进行解码。

示例4。一种对视频数据进行解码的方法，所述方法包括：解析比特流中的第一语法元素以确定是否选择了基于子块的合并模式组；基于所述第一语法元素的值来确定未为当前块选择基于子块的合并模式组；基于未选择基于子块的合并模式组，解析所述比特流中的第二语法元素以确定选择了正常合并模式组还是混合合并模式组；基于所述第二语法元素的值，解析所述比特流中的第三语法元素以确定是常规合并模式还是具有运动矢量差的合并模式(MMVD)；基于所述第三语法元素的值来确定选择了MMVD；以及使用MMVD来对当前块进行解码。

示例5。一种对视频数据进行解码的方法，所述方法包括：解析比特流中的第一语法元素以确定是否选择了基于子块的合并模式组；基于所述第一语法元素的值来确定未为当前块选择基于子块的合并模式组；基于未选择基于子块的合并模式组，解析所述比特流中的第二语法元素以确定选择了正常合并模式组还是混合合并模式组；基于所述第二语法元素的值，解析所述比特流中的第三语法元素以确定是常规合并模式还是具有运动矢量差的合并模式(MMVD)；基于所述第三语法元素的值来确定选择了常规合并模式；以及使用常规合并模式来对当前块进行解码。

示例6。一种对视频数据进行解码的方法，所述方法包括：解析比特流中的第一语法元素以确定是否选择了基于子块的合并模式组；基于所述第一语法元素的值来确定未为当前块选择基于子块的合并模式组；基于未选择基于子块的合并模式组，解析所述比特流中的第二语法元素以确定选择了正常合并模式组还是混合合并模式组；基于所述第二语法元素的值，解析所述比特流中的第四语法元素以确定选择了组合帧间和帧内预测(CIIP)还是选择了三角形合并预测(TMP)；以及基于所述第四语法元素的值，使用CIIP或TMP中的一者来对当前块进行解码。

示例7。一种对视频数据进行解码的方法，所述方法包括：基于第一语法元素的值来确定未选择基于子块的合并模式；基于未选择基于子块的合并模式，解析指示是否选择了具有运动矢量差的合并模式(MMVD)的第二语法元素；以及基于所述第二语法元素指示选择了MMVD，使用MMVD来对当前块进行解码。

示例8。一种对视频数据进行解码的方法，所述方法包括：基于第一语法元素的值来确定未选择基于子块的合并模式，并且基于第二语法元素的值来确定未选择具有运动矢量差的合并模式(MMVD)；基于未选择所述基于子块的合并模式和所述MMVD，解析指示是否选择了组合帧间和帧内预测(CIIP)的第三语法元素；以及基于第三语法元素指示选择了CIIP，使用CIIP来对当前块进行解码。

示例9。一种对视频数据进行解码的方法，所述方法包括：基于第一语法元素的值来确定未选择基于子块的合并模式，基于第二语法元素的值来确定未选择具有运动矢量差的合并模式(MMVD)，并且基于第三语法元素的值来确定未选择组合帧间和帧内预测(CIIP)；基于未选择所述基于子块的合并模式、所述MMVD和CIIP，解析指示是否选择了三角形合并预测的第四语法元素，其中，所述第四语法元素的第一值指示选择了三角形合并预测，并且所述第四语法元素的第二值指示选择了常规合并模式；以及基于所述第四语法元素的值是所述第一值还是所述第二值，使用三角形合并预测或常规合并模式来对当前块进行解码。

示例10。一种对视频数据进行编码的方法，所述方法包括：确定用于当前块的合并模式类型；以及基于所述合并模式类型，根据示例3-9中任一示例中语法元素被解析的方式来用信号通知语法元素。

示例11。一种用于对视频数据进行解码的设备，所述设备包括：存储器，其用于存储视频数据；以及视频解码器，其包括固定功能电路或可编程电路中的至少一者，其中，所述视频解码器被配置为执行根据示例3-9中任一示例所述的方法。

示例12。一种用于对视频数据进行编码的设备，所述设备包括：存储器，其用于存储视频数据；以及视频编码器，其包括固定功能电路或可编程电路中的至少一者，其中，所述视频编码器被配置为执行根据示例10所述的方法。

示例13。根据示例11和12中任一示例所述的设备，其中，所述设备包括照相机或显示器中的至少一者。

示例14。根据示例11-13中任一示例所述的设备，其中，所述设备是照相机、计算机、移动设备、广播接收机设备或机顶盒中的一者或多者。

示例15。一种对视频数据进行解码的设备，所述设备包括用于执行根据示例3-9中任一示例所述的方法的单元。

示例16。一种在其上存储指令的计算机可读存储介质，所述指令在被执行时，使得用于对视频数据进行解码的设备的一个或多个处理器执行根据示例3-9中任一示例所述的方法。

示例17。一种对视频数据进行编码的设备，所述设备包括用于执行根据示例10所述的方法的单元。

示例18。一种其上存储指令的计算机可读存储介质，所述指令在被执行时使得用于对视频数据进行编码的设备的一个或多个处理器执行根据示例10所述的方法。

要认识的是，取决于示例，本文所描述的技术中的任何技术的某些行为或事件可以是以不同的序列来执行的，可以是一起增加的、合并的或忽视的(例如，不是全部所描述的行为或事件是用于对技术的实践所必要的)。此外，在某些示例中，动作或事件可以是同时地执行的，例如，通过多线程处理、中断处理或多个处理器，而不是顺序地执行。

在一个或多个示例中，所描述的功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则所述功能可以作为一个或多个指令或代码存储在计算机可读介质中或者通过计算机可读介质进行发送，以及由基于硬件的处理单元来执行。计算机可读介质可以包括计算机可读存储介质，所述计算机可读存储介质对应于有形的介质(比如数据存储介质)、或包括例如根据通信协议促进对从一个地方到另一地方的计算机程序的传送的任何介质的通信介质。以所述方式，计算机可读介质通常可以对应于(1)非暂时性的有形的计算机可读存储介质或(2)比如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器存取的任何可用的介质，以取回用于对本公开内容所描述的技术的实现方式的指令、代码和/或数据结构。计算机程序产品可以包括计算机可读介质。

通过举例而非限制性的方式，这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存存储器或者可以用于以指令或数据结构的形式存储期望的程序代码以及可以由计算机来存取的任何其它介质。此外，任何连接适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或无线技术(比如红外线、无线电和微波)从网站、服务器或其它远程源来发送指令，那么同轴电缆、光纤光缆、双绞线、DSL或无线技术(比如红外线、无线电和微波)是包括在对介质的定义中的。然而，应当理解的是，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性的介质，但是反而针对非暂时性的、有形的存储介质。如本文所使用的，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常磁性地再现数据，而光盘则利用激光来光学地再现数据。上述的组合还应当是包括在计算机可读介质的范围内的。

指令可以由一个或多个处理器来执行，比如一个或多个DSP、通用微处理器、ASIC、FPGA或其它等效的集成的逻辑电路或分立的逻辑电路。因此，如本文所使用的术语“处理器”和“处理电路”可以指的是前述的结构中的任何结构或者适合用于本文所描述的技术的实现方式的任何其它结构。此外，在一些方面中，本文所描述的功能可以在被配置用于编码和解码的专用硬件模块和/或软件模块内提供，或者合并到组合的编解码器中。另外，所述技术可以是在一个或多个电路或逻辑元件中充分地实现的。

本公开内容的技术可以是在各种各样的设备或装置中实现的，所述设备或装置包括无线手机、集成电路(IC)或IC的集合(例如，芯片集)。各种组件、模块或单元是在本公开内容中描述的，以强调被配置为执行所公开的技术的设备的功能性方面，但是不一定要求由不同的硬件单元来实现。而是，如上文所描述的，各种单元可以是在编解码器硬件单元中组合的，或者通过与合适的软件和/或固件协力的一批互操作的硬件单元(包括如上文所描述的一个或多个处理器)来提供的。

已经描述各种示例。这些示例和其它示例在以下权利要求书的范围内。

Claims

1.一种对视频数据进行译码的方法，所述方法包括：

针对所述视频数据的第一块确定是否使用子块合并模式；

基于关于不将所述子块合并模式用于所述第一块的确定，确定是否将具有混合的合并模式用于所述第一块；以及

基于关于将所述具有混合的合并模式用于所述第一块的确定，利用所述具有混合的合并模式来对所述第一块进行译码。

2.根据权利要求1所述的方法，其中，所述具有混合的合并模式是几何模式或组合帧间和帧内预测(CIIP)模式中的至少一者，并且其中，确定是否使用所述具有混合的合并模式包括：确定是要使用所述几何模式或所述CIIP模式中的一者，还是既不使用所述几何模式也不使用所述CIIP模式。

3.根据权利要求2所述的方法，其中，所述几何模式是三角形模式。

4.根据权利要求1所述的方法，还包括：

针对所述视频数据的第二块确定是否使用子块合并模式；

基于关于将子块合并模式用于所述第二块的确定，利用所述子块合并模式来对视频数据的所述第二块进行译码。

5.根据权利要求4所述的方法，还包括：

针对所述视频数据的第三块确定是否使用所述子块合并模式；

基于关于不将所述子块合并模式用于所述第三块的确定，确定是否将具有混合的合并模式用于所述第三块；

基于关于不将具有混合的合并模式用于所述第三块的确定，确定是否将运动矢量差(MMVD)合并模式用于所述第三块；以及

基于关于是否将MMVD合并模式用于所述第三块的确定，利用所述MMVD合并模式或常规合并模式来对所述第三块进行译码。

6.根据权利要求1所述的方法，还包括：避免对指示是否针对所述第一块启用MMVD合并模式的信息进行译码。

7.根据权利要求1所述的方法，其中，确定是否使用所述具有混合的合并模式包括：至少部分地基于所述第一块的大小来确定是否使用所述具有混合的合并模式。

8.根据权利要求7所述的方法，其中，所述第一块具有NxM的大小，并且其中，NxM大于或等于64。

9.根据权利要求1所述的方法，其中，译码包括编码，并且所述方法还包括：在比特流中用信号通知指示不将所述子块合并模式用于所述第一块的语法元素之后，在所述比特流中用信号通知指示将所述具有混合的合并模式用于所述第一块的语法元素。

10.根据权利要求1所述的方法，其中，译码包括解码，并且所述方法还包括：在解析比特流中的指示不将所述子块合并模式用于所述第一块的语法元素之后，解析所述比特流中的指示将所述具有混合的合并模式用于所述第一块的语法元素。

11.一种用于对视频数据进行译码的设备，所述设备包括：

存储器，其用于存储所述视频数据；以及

一个或多个处理器，其在电路中实现并且通信地耦合到所述存储器，所述一个或多个处理器被配置为进行以下操作：

针对所述视频数据的第一块确定是否使用子块合并模式；

12.根据权利要求11所述的设备，其中，所述具有混合的合并模式是几何模式或CIIP模式中的至少一者，并且其中，确定是否使用所述具有混合的合并模式包括：确定是将使用所述几何模式或所述CIIP模式中的一者，还是既不使用所述几何模式也不使用所述CIIP模式。

13.根据权利要求12所述的设备，其中，所述几何模式是三角形模式。

14.根据权利要求11所述的设备，其中，所述一个或多个处理器还被配置为进行以下操作：

针对所述视频数据的第二块确定是否使用子块合并模式；

基于关于将子块合并模式用于所述第二块的确定，基于所述子块合并模式来对视频数据的所述第二块进行译码。

15.根据权利要求14所述的设备，其中，所述一个或多个处理器还被配置为进行以下操作：

基于关于不将具有混合的合并模式用于所述第三块的确定，确定是否将MMVD合并模式用于所述第三块；以及

16.根据权利要求11所述的设备，其中，所述一个或多个处理器还被配置为：避免对指示是否针对所述第一块启用MMVD合并模式的信息进行译码。

17.根据权利要求11所述的设备，其中，所述一个或多个处理器被配置为：通过至少部分地基于所述第一块的大小来确定是否使用所述具有混合的合并模式，来确定是否使用所述具有混合的合并模式。

18.根据权利要求17所述的设备，其中，所述第一块具有NxM的大小，并且其中，NxM大于或等于64。

19.根据权利要求11所述的设备，其中，译码包括编码，并且所述一个或多个处理器还被配置为：在比特流中用信号通知指示不将所述子块合并模式用于所述第一块的语法元素之后，在所述比特流中用信号通知指示将所述具有混合的合并模式用于所述第一块的语法元素。

20.根据权利要求11所述的设备，其中，译码包括解码，并且所述一个或多个处理器还被配置为：在解析比特流中的指示不将所述子块合并模式用于所述第一块的语法元素之后，解析所述比特流中的指示将所述具有混合的合并模式用于所述第一块的语法元素。

21.一种具有存储在其上的指令的非暂时性计算机可读存储介质，所述指令在被执行时，使得一个或多个处理器进行以下操作：

针对视频数据的第一块确定是否使用子块合并模式；

22.根据权利要求21所述的非暂时性计算机可读存储介质，其中，所述具有混合的合并模式是几何模式或CIIP模式中的至少一者，并且其中，确定是否使用所述具有混合的合并模式包括：确定是将使用所述几何模式或所述CIIP模式中的一者，还是既不使用所述几何模式也不使用所述CIIP模式。

23.根据权利要求22所述的非暂时性计算机可读存储介质，其中，所述几何模式是三角形模式。

24.根据权利要求21所述的非暂时性计算机可读存储介质，其中，所述指令在被执行时，还使得所述一个或多个处理器进行以下操作：

针对所述视频数据的第二块确定是否使用子块合并模式；

25.根据权利要求24所述的非暂时性计算机可读存储介质，其中，所述指令在被执行时，还使得所述一个或多个处理器进行以下操作：

26.根据权利要求21所述的非暂时性计算机可读存储介质，其中，所述指令在被执行时，还使得所述一个或多个处理器进行以下操作：避免对指示是否针对所述第一块启用MMVD合并模式的信息进行译码。

27.根据权利要求21所述的非暂时性计算机可读存储介质，其中，所述指令在被执行时，还使得所述一个或多个处理器进行以下操作：通过至少部分地基于所述第一块的大小来确定是否使用所述具有混合的合并模式，来确定是否使用所述具有混合的合并模式。

28.根据权利要求27所述的非暂时性计算机可读存储介质，其中，所述第一块具有NxM的大小，并且其中，NxM大于或等于64。

29.根据权利要求21所述的非暂时性计算机可读存储介质，其中，译码包括编码，并且所述指令在被执行时，还使得所述一个或多个处理器进行以下操作：在比特流中用信号通知指示不将所述子块合并模式用于所述第一块的语法元素之后，在所述比特流中用信号通知指示将所述具有混合的合并模式用于所述第一块的语法元素。

30.根据权利要求21所述的非暂时性计算机可读存储介质，其中，译码包括解码，并且所述指令在被执行时，还使得所述一个或多个处理器进行以下操作：在解析比特流中的指示不将所述子块合并模式用于所述第一块的语法元素之后，解析所述比特流中的指示将所述具有混合的合并模式用于所述第一块的语法元素。

31.一种用于对视频数据进行译码的设备，所述设备包括：

用于针对所述视频数据的第一块确定是否使用子块合并模式的单元；

用于基于关于不将所述子块合并模式用于所述第一块的确定，确定是否将具有混合的合并模式用于所述第一块的单元；以及

用于基于关于将所述具有混合的合并模式用于所述第一块的确定，利用所述具有混合的合并模式来对所述第一块进行译码的单元。