CN114009019A

CN114009019A - 用于在视频编解码中用信令传递合并模式的方法和装置

Info

Publication number: CN114009019A
Application number: CN202080046926.8A
Authority: CN
Inventors: 陈漪纹; 修晓宇; 马宗全; 朱弘正; 叶水明; 王祥林
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-08
Filing date: 2020-05-08
Publication date: 2022-02-01
Also published as: WO2020227678A1

Abstract

提供了一种用于视频编解码的方法。所述方法包括：导出针对当前块的变量，所述变量指示合并模式集合中至少一个合并模式的启用状态；基于所述变量生成码字集合用于所述合并模式的信令，每个码字对应于所述合并模式中的一个合并模式；基于所述变量和/或所述信令为所述当前块确定选自所述合并模式集合中的合并模式；和使用所选择的合并模式导出所述当前块的运动信息。

Description

用于在视频编解码中用信令传递合并模式的方法和装置

相关申请的交叉引用

本申请要求于2019年5月8日提交的标题为“The Signaling of Merge Modes forVideo Coding”的美国临时申请第62/845,315号的优先权，出于多种目的通过引用将该临时申请整体并入本文。

技术领域

本申请一般地涉及视频编解码和压缩，并且具体地但不限于用于在视频编解码中用信令传递合并模式的方法和装置。

背景技术

数字视频被各种电子设备支持，诸如数字电视、膝上型或台式计算机、平板计算机、数码相机、数字记录设备、数字媒体播放器、视频游戏控制台、智能电话、视频电话会议设备、视频流送设备等。这些电子设备通过实现视频压缩/解压缩来传输、接收、编码、解码和/或存储数字视频数据。数字视频设备实现视频编解码技术，诸如由通用视频编解码(VVC)、联合探索测试模型 (JEM)、MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10 部分、高级视频编解码 (AVC)、ITU-T H.265/高效视频编解码 (HEVC) 以及此类标准的扩展定义的标准中描述的那些技术。

视频编解码通常利用预测方法（例如，帧间预测、帧内预测），该预测方法利用视频图像或序列中存在的冗余。视频编解码技术的重要目标是将视频数据压缩成使用较低比特率的形式，同时避免或最小化视频质量的下降。随着不断演进的视频服务变得可用，需要具有更好编解码效率的编码技术。

视频压缩通常包括执行空间（帧内）预测和/或时间（帧间）预测以减少或去除视频数据中固有的冗余。对于基于块的视频编解码，视频帧被划分成一个或多个条带，每个条带具有多个视频块，这些视频块也可以称为编解码树单元 (CTU)。每个CTU 可以包含一个编解码单元 (CU) 或被递归地分割为更小的 CU，直到达到预定义的最小 CU 尺寸。每个 CU（也称为叶 CU）包含一个或多个变换单元 (TU)，并且每个 CU 还包含一个或多个预测单元(PU)。每个CU可以按帧内、帧间或IBC模式编解码。使用相对于同一视频帧内的相邻块中的参考样本的空间预测来编码视频帧的帧内编解码 (I) 条带中的视频块。视频帧的帧间编解码（P或B）条带中的视频块可使用相对于同一视频帧内相邻块中的参考样本的空间预测或相对于其它先前和/或未来参考视频帧中的参考样本的时间预测。

基于先前已编码的参考块(例如，相邻块)的空间或时间预测产生要编解码的当前视频块的预测块。寻找参考块的过程可以通过块匹配算法来完成。表示要编解码的当前块和预测块之间的像素点差异的残差数据被称为残差块或预测误差。帧间编解码块根据指向形成预测块的参考帧中的参考块的运动向量和残差块进行编码。确定运动向量的过程通常称为运动估计。帧内编解码块根据帧内预测模式和残差块进行编码。为了进一步压缩，残差块从像素域被变换到变换域，例如频域，产生残差变换系数，然后可以对残差变换系数进行量化。最初以二维阵列布置的量化变换系数可以被扫描以产生变换系数的一维向量，然后被熵编码到视频比特流中以实现甚至更进一步的压缩。

编码的视频比特流然后被保存在计算机可读存储介质(例如，闪存)中以供具有数字视频能力的另一电子设备访问或者被直接有线或无线地传输到所述电子设备。所述电子设备然后通过例如解析该编码视频比特流以从比特流获得语法元素并且至少部分地基于从比特流获得的语法元素从编码的视频比特流将所述数字视频数据重构为其原始格式来执行视频解压缩（这是与上述视频压缩相反的过程），并且在电子设备的显示器上呈现重构的数字视频数据。

随着数字视频质量从高清到 4Kx2K 或甚至 8Kx4K，要编码/解码的视频数据量呈指数增长。如何在保持解码的视频数据的图像质量的同时能够更高效地编码/解码视频数据是持续的挑战。

在联合视频专家组 (JVET) 会议上，JVET 定义了通用视频编解码(VVC)的初稿和VVC 测试模型 1 (VTM l) 编码方法。决定包括具有使用二元和三元划分编解码块结构的嵌套多类型树的四叉树作为 VVC 的初始新编解码特征。从那时起，在 JVET 会议期间开发了用于实现所述编码方法和VVC 解码过程草案的参考软件VTM。

发明内容

一般而言，本公开描述了与用于视频编解码的运动合并模式的信令传递有关的技术的示例。

根据本公开的第一方面，提供了一种用于视频编解码的方法，包括：导出针对当前块的变量，所述变量指示合并模式集合中至少一个合并模式的启用状态；基于所述变量生成码字集合用于所述合并模式的信令，每个码字对应于所述合并模式中的一个合并模式；基于所述变量和/或所述信令为所述当前块确定选自所述合并模式集合中的合并模式；和使用所选择的合并模式导出所述当前块的运动信息。

根据本公开的第二方面，提供了一种用于视频编解码的装置，包括：一个或多个处理器；和存储器，被配置为存储能够由所述一个或多个处理器执行的指令；其中，所述一个或多个处理器在执行所述指令时被配置为：导出针对当前块的变量，所述变量指示合并模式集合中至少一个合并模式的启用状态；基于所述变量生成码字集合用于所述合并模式的信令，每个码字对应于所述合并模式中的一个合并模式；基于所述变量和/或所述信令为所述当前块确定选自所述合并模式集合中的合并模式；和使用所选择的合并模式导出所述当前块的运动信息。

根据本公开的第三方面，提供了一种非暂时性计算机可读存储介质，包括存储在其中的指令，其中，在一个或多个处理器执行所述指令时，所述指令使所述一个或多个处理器执行包括以下各项的动作：导出针对当前块的变量，所述变量指示合并模式集合中至少一个合并模式的启用状态；基于所述变量生成码字集合用于所述合并模式的信令，每个码字对应于所述合并模式中的一个合并模式；基于所述变量和/或所述信令为所述当前块确定选自所述合并模式集合中的合并模式；和使用所选择的合并模式导出所述当前块的运动信息。

附图说明

本公开的示例的更具体的描述将通过参考在附图中图示的特定示例来呈现。鉴于这些附图仅描绘了一些示例并且因此不被认为是对范围的限制，将通过使用附图以附加的具体性和细节来描述和解释这些示例。

图1是图示根据本公开的一些实施方式的示例性视频编码器的框图。

图2是图示根据本公开的一些实施方式的示例性视频解码器的框图。

图3是图示根据本公开的一些实施方式的具有运动向量差(MMVD)的合并模式的搜索点的示意图。

图4是图示根据本公开的一些实施方式的基于控制点的仿射运动模型的示例的示意图。

图5是图示根据本公开的一些实施方式的块的每子块的仿射运动向量场（MVF）的示例的示意图。

图6是图示根据本公开的一些实施方式的继承仿射运动预测值的位置的示意图。

图7是图示根据本公开的一些实施方式的控制点运动向量继承的示意图。

图8是图示根据本公开的一些实施方式的针对构造的仿射合并模式候选项的候选位置的位置的示意图。

图9A是说明根据本公开的一些实施方式的由基于子块的时间运动向量预测(SbTMVP)使用的空间相邻块的示意图。

图9B是图示根据本公开的一些实施方式的导出子CU运动场的SbTMVP过程的示意图。

图10是图示根据本公开的一些实施方式的基于三角分区的帧间预测的示例的示意图。

图11是图示根据本公开的一些实施方式的用于视频编解码的示例性装置的框图。

图12是图示根据本公开的一些实施方式的用于视频编解码的合并模式的信令的示例性过程的流程图。

具体实施方式

现在将详细参考具体实施方式，其示例在附图中图示。在下面的详细描述中，阐述了许多非限制性的具体细节以帮助理解本文呈现的主题。但是对于本领域的普通技术人员来说将显而易见的是，可以使用各种替代方案。例如，对于本领域的普通技术人员来说将显而易见的是，本文呈现的主题可以在具有数字视频能力的多种类型的电子设备上实现。

在该整个说明书中对“一个实施例”、“实施例”、“示例”、“一些实施例”、“一些示例”或类似语言的提及意味着所描述的特定特征、结构或特性包括在至少一个实施例或示例中。除非另有明确说明，否则结合一个或一些实施例描述的特征、结构、元件或特性也适用于其它实施例。

在整个公开内容中，术语“第一”、“第二”、“第三”等都用作专门术语，仅用于参考相关元件，例如，设备、部件、组分、步骤等，除非另有明确说明，否则不暗示任何空间或时间次序。例如，“第一设备”和“第二设备”可以指代两个单独形成的设备，同一设备的两个部分、部件或操作状态，并且可以任意命名。

术语“模块”、“子模块”、“电路”、“子电路”、“电路系统”、“子电路系统”、“单元”或“子单元”可以包括存储器（共享的、专用的或组），该存储器存储可由一个或多个处理器执行的代码或指令。模块可以包括一个或多个带有或不带有存储的代码或指令的电路。模块或电路可包括直接或间接连接的一个或多个部件。这些部件可能会或可能不会物理附接到彼此或定位成彼此相邻。

如本文所用的，取决于上下文，术语“如果”或“当……时”可被理解为意指“依据”或“响应于”。这些术语如果出现在权利要求中，可能并不指示相关限制或特征是有条件的或可选的。例如，方法可以包括以下步骤：i)当条件X存在时或如果条件X存在，则执行功能或动作X’，以及ii)当条件Y存在时或如果条件Y存在，则执行功能或动作Y’。该方法可以通过执行功能或动作 X’的能力和执行功能或动作 Y’的能力来实现。因此，功能 X’和 Y’都可以在不同时间对方法的多次执行实施。

单元或模块可以纯由软件、纯由硬件或由硬件和软件的组合来实现。例如，在纯软件实施方式中，单元或模块可以包括直接或间接链接在一起的功能相关的代码块或软件部件，以执行特定功能。

图1示出图示示例性基于块的混合视频编码器100的框图，混合视频编码器100可结合使用基于块的处理的许多视频编解码标准来使用。在编码器100中，视频帧被分割为多个视频块以供处理。对于每个给定的视频块，基于帧间预测方法或帧内预测方法形成预测。在帧间预测中，基于来自先前重构帧的像素点，通过运动估计和运动补偿形成一个或多个预测值。在帧内预测中，基于当前帧中重构的像素点形成预测值。通过模式决策，可以选择最佳预测值来预测当前块。

表示当前视频块与其预测值之间的差的预测残差被发送到变换电路系统102。变换系数然后从变换电路系统102发送到量化电路系统104用于熵减。量化系数然后被馈送到熵编解码电路系统106以生成压缩的视频比特流。如图1中所示，来自帧间预测电路系统和/或帧内预测电路系统112的预测相关信息110（诸如视频块分割信息、运动向量、参考图片索引和帧内预测模式）也通过熵编解码电路系统106馈送并且保存为压缩的视频比特流 114。

在编码器100中，还需要与解码器相关的电路系统以便为了预测的目的重构像素点。首先，通过逆量化电路系统116和逆变换电路系统118重构预测残差。该重构的预测残差与块预测值120组合以生成当前视频块的未滤波的重构像素点。

空间预测（或“帧内预测”）使用来自与当前视频块处于相同视频帧中的已经编解码的相邻块的样本（称为参考样本）的像素点来预测当前视频块。

时间预测（也称为“帧间预测”）使用来自已经编解码的视频图片的重构像素点来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。针对给定编解码单元 (CU)或编解码块的时间预测信号通常由一个或多个运动向量 (MV)来进行信号通知，该一个或多个运动向量指示当前 CU 与其时间参考图片之间的运动量和运动方向。进一步地，如果支持多个参考图片，则额外发送一个参考图片索引，用于标识时间预测信号来自参考图片存储中的哪个参考图片。

在执行空间和/或时间预测之后，编码器100中的帧内/帧间模式决策电路系统121选择最佳预测模式，例如基于比率失真优化方法。然后从当前视频块中减去块预测值120；并且使用变换电路系统102和量化电路系统104把得到的预测残差解相关。得到的量化残差系数由逆量化电路系统116逆量化并由逆变换电路系统118逆变换以形成重构的残差，然后将重构的残差加回到预测块以形成CU的重构信号。进一步环路滤波115（诸如解块滤波器、样本自适应偏移(SAO)和/或自适应环路滤波器(ALF)）可以在重构的CU被放入图片缓冲器117的参考图片存储并用于编解码未来的视频块之前被应用在重构的CU上。为了形成输出视频比特流114，编解码模式（帧间或帧内）、预测模式信息、运动信息和量化残差系数都被发送到熵编解码单元106以被进一步压缩和打包以形成比特流。

例如，解块滤波器可用于AVC、HEVC以及VVC的当前版本中。在 HEVC 中，定义了称为 SAO（样本自适应偏移）的额外环路滤波器，用于进一步提高编解码效率。在 VVC 标准的当前版本中，正在积极研究另一种称为 ALF（自适应环路滤波器）的环路滤波器，并且它很有可能被包括在最终标准中。

这些环路滤波器操作是可选的。执行这些操作有助于提高编解码效率和视觉质量。它们也可以作为由编码器100呈现的决策而被关闭以节省计算复杂度。

应当注意，帧内预测通常基于未滤波的重构像素点，而如果这些滤波器选项被编码器100打开，则帧间预测基于滤波的重构像素点。

图2是图示示例性基于块的视频解码器200的框图，基于块的视频解码器200可结合许多视频编解码标准使用。该解码器200类似于驻留在图1的编码器100中的重构相关部分。在解码器200中，首先通过熵解码202对到来的视频比特流201进行解码以导出量化系数级别和预测相关信息。然后通过逆量化204和逆变换206处理量化系数级别以获得重构的预测残差。在帧内/帧间模式选择器212中实现的块预测值机构被配置为基于解码的预测信息执行帧内预测208或运动补偿210。通过使用加法器 214将来自逆变换 206 的重构预测残差和由块预测值机构生成的预测输出相加，获得一组未滤波的重构像素点。

重构块在其被存储在图片缓冲器213中之前还可以通过环路滤波器209，图片缓冲器213用作参考图片存储。图片缓冲器213中的重构视频可被发送以驱动显示设备，以及用于预测未来视频块。在环路滤波器 209 打开的情况下，对这些重构像素点执行滤波操作以导出最终的重构视频输出222。

上面提到的视频编解码/解码标准（诸如VVC、JEM、HEVC、MPEG-4第10部分）在概念上是类似的。例如它们全都使用基于块的处理。在联合视频专家组（JVET）会议中，JVET定义了通用视频编解码（VVC）和VVC测试模型1（VTM1）编码方法的初稿。决定包括具有嵌套的多类型树的四叉树作为VVC的初始新编解码特征，所述四叉树使用二元和三元分割编解码块结构。

在VVC中，图片划分结构将输入视频划分成被称为编解码树单元（CTU）的块。使用具有嵌套的多类型树结构的四叉树将CTU分割成编解码单元（CU），其中叶编解码单元（CU）定义了共享相同预测模式（例如，帧内或帧间）的区域。在本公开中，术语“单元”定义覆盖了所有分量的图像区域；术语“块”用于定义覆盖了特定分量（例如，亮度）的区域，并且当考虑诸如4：2：0之类的色度采样格式时，术语“块”可能在空间位置上不同。

常规合并模式。

在VVC测试模型4（VTM4）中，通过按以下次序包括五种类型的候选项来构造合并候选项列表：

1. 来自空间相邻CU的空间运动向量预测值（MVP）

2. 来自同位CU的时间MVP

3. 来自FIFO（先进先出）表的基于历史的MVP

4. 按对平均MVP；以及

5. 零MV。

在条带报头中用信令传递合并列表的尺寸，并且合并列表的最大允许尺寸在VTM4中是6。针对合并模式中的每个CU代码，使用截断的一元二进制化（TU）对最佳合并候选项的索引进行编码。利用情境来编解码合并索引的第一个二进制位（bin），并且将旁路编解码用于其他二进制位。在本公开的以下上下文中，该合并模式也被称为常规合并模式，这是由于这个概念与在HEVC中使用的合并模式相同。

具有运动向量差（MVD）的合并模式（MMVD）。

除了其中将隐式导出的运动信息直接用于当前CU的预测样本生成的常规合并模式之外，VVC中还引入了具有运动向量差的合并模式（MMVD）。在一些示例中，紧接在发送跳过标识和合并标识之后可以用信令传递MMVD标识，以指定是否将MMVD用于CU。

在MMVD中，在选择了合并候选项之后，合并候选项将通过用信令传递的运动向量差（MVD）信息而被进一步细化（refine）。该信息包括合并候选项标识、用以指定运动量值的索引（即距离索引）、以及用于指示运动方向的索引（即方向索引）。在MMVD中，选择合并列表中的前两个候选项中的一个用作MV基础（或起始点）。用信令传递所述合并候选项标识，以指定哪一个被使用。

距离索引指定运动量值信息，并且指示从起始点的预定义偏移。如图3中所示，偏移被添加到起始MV的水平分量或竖直分量以获得MMVD搜索点。距离索引与预定义偏移之间的关系在表1中指定：

表1 距离索引与预定义偏移之间的关系

距离IDX	0	1	2	3	4	5	6	7
									偏移(以亮度样本为单位)	1/4	1/2	1	2	4	8	16	32

方向索引表示MVD相对于起始点的方向。方向索引可以表示四个方向，如表2中所示。MVD符号（例如+或-）的含义可能根据起始MV的信息而不同。当起始MV是单向预测MV或双向预测MV且两个MV均指向当前图片的同一侧时（即两个参考图片的图片次序计数（POC）都大于当前图片的POC，或者都小于当前图片的POC），表2中的符号指定被添加到起始MV的MV偏移的符号。当起始MV是双向预测MV，并且两个MV指向当前图片的不同侧时（即，一个参考图片的POC大于当前图片的POC，并且另一个参考图片的POC小于当前图片的POC），表2中的符号指定被添加到起始MV的列表0 MV分量的MV偏移的符号，并且列表1 MV的符号具有相反的值。

表2 由方向索引指定的MV偏移的符号

方向IDX	00	01	10	11
					X轴	+	–	N/A	N/A
y轴	N/A	N/A	+	–

仿射运动补偿预测。

在HEVC中，仅平移运动模型被应用于运动补偿预测（MCP）。然而，在现实世界中，存在很多种运动，例如放大/缩小、旋转、透视运动和其他不规则运动。在VVC中，尤其在VTM4中，应用了基于块的仿射变换运动补偿预测。如图4中所示，块的仿射运动场由两个控制点运动向量（即4参数）或三个控制点运动向量（6参数）的运动信息来描述。

针对4参数仿射运动模型410，块中的样本位置（x, y）处的运动向量被导出为：

（1）。

针对6参数仿射运动模型420，块中的样本位置（x, y）处的运动向量被导出为：

（2）。

其中（mv _0x, mv _0y）是左上角控制点的运动向量，（mv _1x, mv _1y）是右上角控制点的运动向量，并且（mv _2x,mv _2y）是左下角控制点的运动向量。

图5是图示根据本公开的一些实施方式的块的每个子块的仿射运动向量场（MVF）501的示意图。为了简化运动补偿预测，应用基于块的仿射变换预测。为了导出每个4×4亮度子块的运动向量，根据上述等式（1）和（2）来计算如图5中所示的每个子块的中心样本的运动向量，并且将该运动向量舍入至1/16小数准确度。然后，应用运动补偿插值滤波器，以利用所导出的运动向量来生成每个子块的预测。色度分量的子块尺寸也可以被设置为4×4。4×4色度子块的运动向量（MV）被计算为四个对应的4×4亮度子块的MV的平均值。

类似于平移运动帧间预测，还存在两种仿射运动帧间预测模式：仿射合并模式和仿射AMVP（高级运动向量预测）模式。

仿射合并模式（AF_MERGE模式）可以被应用于宽度和高度两者都大于或等于8的CU。在这种模式下，基于空间相邻CU的运动信息来生成当前CU的控制点运动向量（CPMV）。可以存在多达五个CPMV预测值（CPMVP）候选项，并且用信令传递索引来指示将用于当前CU的那一个候选项。以下三种类型的CPMVP候选项用于形成仿射合并候选项列表：

1) 从相邻CU的CPMV外推的继承仿射合并候选项；

2) 使用相邻CU的平移MV而导出的构造仿射合并候选项；以及

3) 零MV。

图6是图示根据本公开的一些实施方式的继承仿射运动预测值的位置的示意图。在VTM4中，存在从相邻块的仿射运动模型中导出的最多两个继承仿射候选项，一个来自左侧相邻CU，并且一个来自上方相邻CU。当前CU的候选块如图6中所示（错误！未找到引用源）。针对左侧预测值，扫描次序为A0->A1，并且针对上方预测值，扫描次序为B0->B1->B2。选择来自每一侧的仅第一个继承候选项。在两个继承候选项之间不执行修剪检查（pruningcheck）。

图7是图示根据本公开的一些实施方式的控制点运动向量继承的示意图。当相邻仿射CU 720被识别时，其控制点运动向量被用于导出当前CU710的仿射合并列表中的CPMVP候选项。如图7中所示，当左下相邻块A以仿射模式来编解码时，获得包含块A的CU720的左上角、右上角和左下角的运动向量v₂、v₃和v₄。当块A利用4参数仿射模型来编码时，根据v₂和v₃来计算当前CU710的两个CPMV。在块A利用6参数仿射模型来编码的情况下，根据v₂、v₃和v₄来计算当前CU710的三个CPMV。

图8是图示根据本公开的一些实施方式的针对构造仿射合并模式候选项的候选项位置的位置的示意图。构造仿射候选项是通过组合每个控制点的相邻平移运动信息来构造的。控制点的运动信息是从图8中所示的指定的空间邻居和时间邻居中导出的。CPMV_k（k=1,2, 3, 4）表示当前块810的第k个控制点。针对CPMV₁，按次序检查B2->B3->A2块，并且使用第一个可用块的MV。类似地，通过按次序检查B1->B0块来导出CPMV₂。通过按次序检查A1->A0块来导出CPMV₃。时间运动向量预测值T在它可用时被用作CPMV₄。

在获得四个控制点的MV之后，基于所述运动信息来构造仿射合并候选项。控制点MV的以下组合用于按次序构造如下各项：

{CPMV₁、CPMV₂、CPMV₃}，

{CPMV₁、CPMV₂、CPMV₄}，

{CPMV₁、CPMV₃、CPMV₄}，

{CPMV₂、CPMV₃、CPMV₄}，

{CPMV₁、CPMV₂}，以及

{CPMV₁、CPMV₃}。

3个CPMV的组合构造了6参数仿射合并候选项，并且2个CPMV的组合构造了4参数仿射合并候选项。为了避免运动缩放过程，如果控制点的参考索引不同，则丢弃控制点MV的相关组合。

在检查了继承仿射合并候选项和构造仿射合并候选项之后，如果仿射合并候选项列表仍未满，则将零MV插入到该列表的末尾。

基于子块的时间运动向量预测（SbTMVP）。

参考软件VTM支持基于子块的时间运动向量预测（SbTMVP）方法。在一些示例中，子块合并模式或基于子块的合并模式可以包括基于子块的时间运动向量预测（SbTMVP）和仿射合并预测（AMP）候选项。SbTVMP 过程在图9A和图9B中图示。

图9A是图示根据本公开的一些实施方式的由基于子块的时间运动向量预测(SbTMVP)使用的空间相邻块的示意图。

图9B是图示根据本公开的一些实施方式的SbTMVP过程的示意图，SbTMVP过程通过应用来自空间邻居的运动移位和缩放对应同位子CU的运动信息来导出子CU运动场。

与HEVC中的时间运动向量预测（TMVP）类似，SbTMVP使用同位图片中的运动场来改进当前图片中CU的运动向量预测和合并模式。由TMVP使用的相同同位图片被用于SbTVMP。SbTMVP在以下两个主要方面与TMVP不同：

1）TMVP预测CU级别的运动，但是SbTMVP预测子CU级别的运动；以及

2）尽管TMVP从同位图片中的同位块（同位块是相对于当前CU的右下或中心块）获取时间运动向量，但是在从同位图片中获取时间运动信息之前，SbTMVP应用运动移位（motion shift），其中运动移位是从当前CU的空间相邻块之一的运动向量中获得的。

SbTMVP以两个步骤来预测当前CU内的子CU的运动向量。在第一步骤中，按以下A1、B1、B0和A0的次序来检查图9A中的空间邻居。一旦识别出具有使用同位图片作为其参考图片的运动向量的第一空间相邻块，就将该运动向量选择为要应用的运动移位。当没有从空间邻居中识别出这种运动时，将运动移位设置为（0, 0）。

在第二步骤中，应用在第一步骤中识别的运动移位（即，添加到当前块的坐标），以便从同位图片中获得子CU级别运动信息（例如运动向量和参考索引），如图9B中所示的那样。图9B中的示例假设运动移位被设置为块A1的运动。然后，针对每个子CU，使用同位图片中的其对应块（覆盖中心样本的最小运动网格）的运动信息来导出子CU的运动信息。在同位子CU的运动信息被识别之后，它以类似于HEVC的TMVP过程的方式被转换成当前子CU的运动向量和参考索引，HEVC的TMVP过程中应用了时间运动缩放，以将时间运动向量的参考图片与当前CU的那些对齐。

在VTM4中，包含SbTVMP候选项和仿射合并候选项这两者的组合的基于子块的合并列表被用于基于子块的合并模式的信令，这可被称为子块合并模式或SbTVMP模式。通过序列参数设置（SPS）标识来启用/禁用SbTVMP模式。当启用SbTMVP模式时，添加SbTMVP预测值作为基于子块的合并候选项的列表的第一个条目，并且接着是仿射合并候选项。在SPS中用信令传递基于子块的合并列表的尺寸，并且基于子块的合并列表的最大允许尺寸在VTM4中是5。

SbTMVP中使用的子CU尺寸被固定为8×8，并且类似于仿射合并模式，SbTMVP模式仅适用于宽度和高度两者都大于或等于8的CU。

附加SbTMVP合并候选项的编码逻辑与其他合并候选项相同，即，针对P或B条带中的每个CU，执行附加的RD检查以决定是否使用SbTMVP候选项。

联合帧间和帧内预测（CIIP）。

在VTM4中，当CU按照合并模式被编解码时，并且当CU包含至少64个亮度样本（即，CU宽度乘以CU高度等于或大于64）时，用信令传递附加标识，以指示联合帧间/帧内预测（CIIP）模式何时被应用于当前CU。

为了形成CIIP预测，首先从两个附加语法元素中导出帧内预测模式。可以使用多达四种可能的帧内预测模式：方向角度预测（DC）、平面预测（PLANAR）、水平预测（HORIZONAL）或者竖直预测(VERTICAL)。然后，使用常规的帧内和帧间解码过程来导出帧间预测和帧内预测信号。最后，执行帧间和帧内预测信号的加权平均以获得CIIP预测。可以采用CIIP预测以便针对CIIP仅使用平面模式，从而简化CIIP模式；例如，对于CIIP，可以去除在以下段落中描述的帧内预测模式导出。此外，在一些 CIIP 设计中，基于相邻的帧内编解码块的数量自适应地选择帧内和帧间预测样本的权重。具体来说，权重（wIntra, wInter）被自适应地设置如下。当顶部和左侧邻居二者都被帧内编解码时，(wIntra, wInter)被设置为等于 (3, 1)。否则，当这些块之一被帧内编解码时，这些权重是相同的，即 (2, 2)。当没有块被帧内编解码时，权重被设置为等于 (1, 3)。在这些 CIIP 设计中，可能不会使用以下段落中描述的权重导出方法。

在一些示例中，针对帧内预测模式导出，在CIIP模式中可以使用多达4种帧内预测模式（包括DC、PLANAR、HORIZONAL和VERTICAL模式）来预测亮度分量。当CU形状非常宽（即，其宽度大于其高度的两倍）时，不允许HORIZONAL模式。当CU形状非常窄（即，其高度大于其宽度的两倍）时，不允许VERTICAL模式。在这些情况下，仅允许3种帧内预测模式。

CIIP模式使用3种最可能的模式（MPM）用于帧内预测。CIIP MPM候选项列表形成如下：

i. 左侧和顶部相邻块分别被设置为A和B；

ii. 分别被表示为intraModeA（帧内模式A）和intraModeB（帧内模式B）的块A和块B的帧内预测模式被导出如下：

a. 令X为A或B

b. 当1）块X不可用；或者2）块X不是使用CIIP模式或帧内模式来预测的；或者3）块B在当前CTU之外时，将intraModeX（帧内模式X）设置为DC；

c. 否则，1）当块X的帧内预测模式是DC或PLANAR时，将intraModeX设置为DC或PLANAR；或者2）当块X的帧内预测模式是“类似竖直”角度模式（大于34）时，将intraModeX设置为VERTICAL；或者3）当块X的帧内预测模式是“类似水平”角度模式（小于或等于34）时，将intraModeX设置为HORIZONAL；

iii. 当intraModeA和intraModeB相同时：

a. 当intraModeA是PLANAR或DC时，按{PLANAR，DC，VERTICAL}的次序将三个MPM设置为{PLANAR，DC，VERTICAL}；

b. 否则，按{intraModeA，PLANAR，DC}的次序将三个MPM设置为{intraModeA，PLANAR，DC}；

iv. 否则（intraModeA和intraModeB不同）：

a. 按{intraModeA，intraModeB}的次序将前两个MPM设置为{intraModeA，intraModeB}

b. 对照前两个MPM候选项模式，按PLANAR、DC和VERTICAL的次序来检查PLANAR、DC和VERTICAL的唯一性；一旦发现唯一模式，就将其添加为第三个MPM。

当CU形状非常宽或非常窄（如上所定义）时，推断出MPM标识为1，无需用信令传递。否则，用信令传递MPM标识以指示CIIP帧内预测模式何时是CIIP MPM候选项模式中的一个。

当MPM标识为1时，进一步用信令传递MPM索引，以指示在CIIP帧内预测中使用MPM候选项模式中的哪一个。否则，当MPM标识为0时，将帧内预测模式设置为MPM候选项列表中的“缺省”模式。例如，如果PLANAR模式不在MPM候选项列表中，则PLANAR是缺省模式，并且将帧内预测模式设置为PLANAR。由于CIIP中允许4种可能的帧内预测模式，并且MPM候选项列表仅包含3种帧内预测模式，因此4种可能的模式中的一个必定是缺省模式。

针对色度分量，始终应用DM模式，无需附加的信令；也就是说，针对CU，色度使用与亮度相同的预测模式。

CIIP编解码的CU的帧内预测模式被保存并且用于未来相邻CU的帧内模式编解码中。

为了联合帧间和帧内预测信号，使用被应用于常规合并模式的相同帧间预测过程来导出CIIP模式中的帧间预测信号

；并且在常规帧内预测过程之后使用CIIP帧内预测模式来导出帧内预测信号

。然后，使用加权平均来组合帧内和帧间预测信号。在一些示例中，权重值取决于帧内预测模式以及样本在编解码块中位于何处，如下：

1）当帧内预测模式是DC或PLANAR模式时，或者当块宽度或高度小于4时，将相等的权重应用于帧内预测和帧间预测信号；

2）否则，基于帧内预测模式（在这种情况下，要么是HORIZONAL模式要么是VERTICAL模式）和块中的样本位置来确定权重。以HORIZONAL预测模式为例（用于VERTICAL模式的权重是以类似的方式但是在正交方向上导出的）。将W表示为块的宽度，并且将H表示为块的高度。首先，将编解码块划分成四个面积相等的部分，每个部分的尺寸为（W/4）xH。从最接近帧内预测参考样本的部分开始，并且在最远离帧内预测参考样本的部分处结束，4个区域中的每一个的权重wt分别被设置为6、5、3和2。使用以下等式来导出最终的CIIP预测信号：

（3）。

用于帧间预测的三角分区。

在VTM4中，引入了新的三角分区模式用于帧间预测。三角分区模式（TPM）仅被应用于8x8或更大并且按照跳过或合并模式编解码的CU。针对满足这些条件并且合并标识为开启的CU，用信令传递CU级别标识以指示是否应用三角分区模式。三角分区模式（TPM）还可以称为三角合并模式。

图10是图示根据本公开的一些实施方式的基于三角分区的帧间预测的示意图。

当使用三角合并模式时，使用对角线分割1010或反对角线分割1020将CU均匀地分割成两个三角形分区，如图10中所示。CU中的每个三角分区使用其自身的运动而被帧间预测；并且针对每个分区仅允许单向预测，也就是说，每个分区具有一个运动向量和一个参考索引。应用该单向预测运动约束条件来确保在三角预测模式下，针对CU仅需要两个运动补偿预测，这与常规双向预测相同。

当CU级别标识指示当前CU是使用三角分区模式来编解码的时，用信令传递标识以指示三角分区方向（即对角线或反对角线）。然后针对两个分区中的每一个分别用信令传递索引以指示用于每一个三角分区的合并运动向量候选项。在预测了每一个三角分区之后，使用具有自适应权重的混合处理来调整沿对角线或反对角线边缘的样本值。在该预测过程之后，将变换和量化过程应用于整个CU。值得提到的是，在4x4单元中存储使用三角分区模式所预测的CU的运动场。

情境自适应二进制算术编解码（CABAC）。

情境自适应二进制算术编解码（CABAC）是在许多视频编解码标准（例如H.264/MPEG-4 AVC和高效率视频编解码（HEVC）和VVC）中使用的熵编解码的形式。CABAC基于算术编解码，具有一些创新和改变，以使其适应于视频编解码标准的需求：

i. 它对二进制符号进行编解码，这保持了低复杂性，并且允许针对任何符号中更频繁使用的位进行概率建模。

ii. 基于局部情境来自适应地选择概率模型，从而允许更好的概率建模，这是因为编解码模式通常局部相关性良好。

iii. 它通过对量化的概率范围和概率状态的使用，来使用无乘法的范围划分（multiplication-free range division）。

针对不同的情境，CABAC具有多种概率模式。它首先将所有非二进制符号转换成二进制。然后，针对每个二进制位（或被称为位），编解码器选择使用哪个概率模型，并且使用来自附近元素的信息来优化概率估计。最终，应用算术编解码来对数据进行压缩。

情境建模提供了对编解码符号的条件概率的估计。利用合适的情境模型，可以通过以下方式来利用给定的符号间冗余：根据要编码的当前符号的邻域中已经编解码的符号而在不同概率模型之间进行切换。

数据符号的编解码涉及以下阶段：

i. 二进制化：CABAC使用二进制算术编解码，这意味着仅编码二进制判定（1或0）。非二进制值符号（例如，变换系数或运动向量）在算术编解码之前被“二进制化”或被转换成二进制代码。该过程类似于将数据符号转换成可变长度代码的过程，但是二进制代码在传输之前被进一步编码（由算术编解码器进一步编码）。

ii. 针对二进制化符号的每个二进制位（或“位”）来重复各阶段。

iii. 情境模型选择：“情境模型”是针对所述二进制化符号的一个或多个二进制位的概率模型。可以取决于最近编解码的数据符号的统计信息从对可用模型的选择中选择该模型。情境模型存储每个二进制位为“1”或“0”的概率。

iv. 算术编码：算术编解码器根据所选的概率模型对每个二进制位进行编码。要注意的是，针对每个二进制位（对应于“0”和“1”），仅存在两个子范围。

v. 概率更新：基于实际编解码值来更新所选的情境模型（例如，当二进制位值为“1”时，增加“1”的频率计数）。

总之，在VTM-4.0中，合并模式被分类成五个类别，包括常规合并模式、具有MVD的合并模式（MMVD）、子块合并模式（包含仿射合并和基于子块的时间运动向量预测）、联合帧间和帧内预测（CIIP）合并模式、以及三角分区合并模式。表3中说明了当前VVC中的合并模式信令的语法。符号ae(v)指示情境自适应算术熵编解码语法元素。

表3 当前VVC中的合并相关模式的语法

。

也即是说，在当前VVC中，被信令传递以指示对应合并模式的语法（相关联的标识）在表4中示出。

表4 当前VVC中的合并相关模式的信令

	MMVD标识	子块标识	CIIP标识	三角标识
					MMVD	1	-	-	-
子块	0	1	-	-
					CIIP	0	0	1	-
三角	0	0	0	1
					常规	0	0	0	0

所观察到的是，多于50%的合并模式是常规合并模式。然而，在VTM-4.0中，用于常规合并模式的码字是五种不同合并模式（如表4中所示）当中最长的一种，这在语法解析方面不是高效的设计。在当前VVC中，跳过模式除了没有用于跳过的CIIP模式之外，具有与合并模式类似的语法设计。并且，在跳过模式中观察到相同的问题。提出了几种方法用于提高合并相关模式的语法信令的效率。这些方法可以独立地或联合地应用。

在一些示例中，提出了用信令传递针对常规合并模式的显式标识，以指示常规合并模式是否被使用。如以下表5和表6的示例中所示，一个常规标识（其可被称为常规合并标识）被显式地信令传递到比特流中，并且相关标识的所有信令被相应地修改。使用CABAC对常规合并标识进行情境编解码。在一个方案中，使用仅一个情境来对常规合并标识进行编解码。在又一个方案中，使用多个情境模型来对常规合并标识进行编解码，并且情境模型的选择基于编解码的信息，诸如相邻块的常规合并标识、当前CU的尺寸或者当前CU的跳过标识。

表5 合并相关模式的信令的示例

	常规标识	MMVD标识	子块标识	CIIP标识
					常规	1	-	-	-
MMVD	0	1	-	-
					子块	0	0	1	-
CIIP	0	0	0	1
					三角	0	0	0	0

表6 跳过相关模式的信令的示例

	常规标识	MMVD标识	子块标识
				常规	1	-	-
MMVD	0	1	-
				子块	0	0	1
三角	0	0	0

在表5中所示的示例中，如果常规标识作为1（即合并模式的信令包括常规合并模式的正信号）被信令传递，则它指示使用了常规合并模式并且使用所述常规合并模式导出当前块的运动信息。如果常规标识为0（即合并模式的信令不包括常规合并模式的正信号），则它指示使用了其他合并模式。根据（一个或多个）其他合并模式标识的值，可以指示包括MMVD、子块、CIIP和三角合并模式的这些其他合并模式之一用于导出当前块的运动信息。例如，如果MMVD标识为正信号，则它指示当前块的运动信息使用MMVD导出。

在当前VVC中，用于启用每个不同合并相关模式的约束条件和/或条件是不同的，这在下面的表7中总结。此外，在序列参数集 (SPS) 中用信令传递标识以指示包括 MMVD、子块（包含仿射和子块 TMVP）、CIIP 和三角模式的每个合并模式的开/关。因此，可以导出指示合并模式的启用状态的变量。

表7 启用/用信令传递合并/跳过相关模式的约束条件

。

表5和表6示出了二进制化码字，假设所有合并相关模式都可用（即，启用）。然而，由于上面说明的对合并模式启用的约束条件，在一些情况下，只有合并相关模式的子集而非全部可用。也就是说，可能不允许或不启用特定的合并模式作为模式选项。在这种情况下，也可以相应地调整对应的码字二进制化以提高编解码效率。例如，在针对给定CU仅启用常规合并模式和MMVD模式的某些情况下，仅需要用信令传递一个二进制位来指示针对给定CU使用两种合并模式中的哪一种，如表8中所示。在这种情况下，不需要用信令传递诸如MMVD、子块或 CIIP标识之类的标识。

表8 合并模式信令的特殊情况

	常规标识	MMVD标识	子块标识	CIIP标识
					常规	1	-	-	-
MMVD	0	-	-	-

存在其他示例，其中由于对合并模式启用的约束条件，只有合并相关模式的子集可用。每当只有合并相关模式的子集可用时，可以相应地调整对应的码字二进制化以节省信令开销。

根据本公开，可以根据每个合并模式的启用/禁用状态（或启用状态）相应地调整用信令传递每个不同合并模式标识的必要性。更具体地，基于信令的次序（例如，信令次序可以是常规合并标识-> MMVD 标识-> 子块标识-> CIIP 标识），仅当按照信令次序在给定合并模式后面存在至少一个其它类型的合并模式并且所述至少一个其它类型的合并模式也被允许（即作为模式选项被启用）用于当前CU时才用信令传递给定合并模式标识。基于这个概念，提供了一种示例性信令传递方法。以上述信令次序为例，如果不启用CIIP和三角合并模式，则可以不用信令传递子块标识。

上述信令次序仅是示例，并且其他信令次序也是可能的。

在一些示例中，在特定合并模式被允许（启用）但是没有如上所示那样用信令传递对应标识的情况下，可以推断或导出对应标识的值。在针对当前 CU 的显式用信令传递的合并模式标识全部为假（false）时，对应标识的值被推断为真（true）。否则，该值被推断为假。在表 8中所示的示例中，允许 MMVD 模式但未用信令传递 MMVD 标识，如果用信令传递的常规标识为0，则 MMVD 标识的值被推断为真（或 1）。否则，MMVD 标识的值被推断为假（或 0）。

表9是图示根据本公开的合并模式信令的语法的示例的语法表。在基于VTM 5.0的一个实施方式中，首先根据以下内容导出四个布尔变量MMVDAallowed、MergeSubblockAllowed、MergeCIIPAllowed和MergeTriangleAllowed的值，该四个布尔变量的值分别指定针对当前编解码块是否允许（例如，启用）每种模式：

i. MMVDAllowed = sps_MMVD_enabled_flag;

ii. MergeSubblockAllowed = (sps_affine_enabled_flag || (sps_sbtmvp_enabled_flag && slice_temporal_mvp_enabled_flag)) && 块宽度 >=8 && 块高度 >=8;

iii. MergeCIIPAllowed = sps_ciip_enabled_flag && 当前编解码块未被编解码为跳过模式 && (块宽度 x 块高度) >=64 && 块宽度 !=128 && 块高度 !=128;

iv. MergeTriangleAllowed = sps_triangle_enabled_flag && (块宽度 x 块高度) >=64。

上述表达式中，符号“||”和“&&”分别表示逻辑OR和AND运算。上述表达式中语义（例如，sps_MMVD_enabled_flag）的定义给出如下。

sps_mmvd_enabled_flag等于1指定启用具有运动向量差的合并模式(MMVD)。sps_mmvd_enabled_flag 等于 0 指定禁用具有运动向量差的合并模式。

sps_affine_enabled_flag指定基于仿射模型的运动补偿是否可用于帧间预测。当 sps_affine_enabled_flag 等于 0 时，语法应受到约束，使得在经编解码的视频序列(CVS) 中不使用基于仿射模型的运动补偿，并且CVS的编解码单元语法中不存在inter_affine_flag 和cu_affine_type_flag。否则（即，sps_affine_enabled_flag 等于1），可以在 CVS 中使用基于仿射模型的运动补偿。

sps_sbtmvp_enabled_flag等于1指定基于子块的时间运动向量预测值可以用于解码在CVS中所有条带的slice_type不等于I的图片。sps_sbtmvp_enabled_flag 等于 0指定在 CVS 中不使用基于子块的时间运动向量预测值。当sps_sbtmvp_enabled_flag不存在时，推断为等于 0。

slice_temporal_mvp_enabled_flag 指定时间运动向量预测值是否可以用于帧间预测。当slice_temporal_mvp_enabled_flag等于0时，当前图片的语法元素应受到约束，使得在当前图片的解码中不使用时间运动向量预测值。否则（即，slice_temporal_mvp_enabled_flag 等于 1），时间运动向量预测值可以用于当前图片的解码。当它不存在时，slice_temporal_mvp_enabled_flag 的值被推断为等于 0。

sps_ciip_enabled_flag指定ciip_flag可以存在于帧间编解码单元的编解码单元语法中。 sps_ciip_enabled_flag 等于 0 指定 ciip_flag 不存在于帧间编解码单元的编解码单元语法中。

sps_triangle_enabled_flag指定基于三角形的运动补偿是否可以用于帧间预测。 sps_triangle_enabled_flag 等于 0 指定该语法应受到约束，使得在 CVS 中不使用基于三角形的运动补偿，并且在 CVS 的编解码单元语法中不存在 merge_triangle_split_dir、merge_triangle_idx0 和 merge_triangle_idx1。sps_triangle_enabled_flag 等于 1 指定可以在 CVS 中使用基于三角形的运动补偿。

值得注意的是，上面列出的针对每个布尔变量的条件都对应于当前的VVC。当针对某个合并模式的关联约束条件发生改变时，对应的等式或表达式可以相应地更新，并且本公开中描述的方法仍然适用。布尔变量用于确定每个合并模式标识是否需要如表 9和下面的相关语义中所示那样被用信令传递。在语法表中，粗体变量代表用信令传递的语法。符号ae(v) 指示情境自适应算术熵编解码语法元素。

表9 一个示例中合并相关模式的语法

。

合并数据语义。

regular_merge_flag[x0][y0]等于1指定常规合并模式用于生成当前编解码单元的帧间预测参数。阵列索引x0、y0 指定所考虑的编解码块的左上角亮度样本相对于该图片的左上角亮度样本的位置 (x0, y0)。

当regular_merge_flag[x0][y0]不存在时，推断其等于1。

mmvd_flag[x0][y0]等于1指定具有运动向量差的合并模式用于生成当前编解码单元的帧间预测参数。阵列索引x0、y0指定所考虑的编解码块的左上角亮度样本相对于该图片的左上角亮度样本的位置 ( x0, y0 )。

当mmvd_flag[x0][y0]不存在时，其被推断如下：

- 当以下所有条件都为真时，mmvd_flag[ x0 ][ y0 ]被推断为等于1：

- sps_mmvd_enabled_flag 等于1。

- general_merge_flag[ x0 ][ y0 ] 等于1。

- cbWidth*cbHeight 小于或等于32。

-regular_merge_flag[ x0 ][ y0 ] 等于 0。

- 否则，mmvd_flag[ x0 ][ y0 ] 被推断为等于 0。

merge_subblock_flag[x0][y0]指定是否从相邻块推断当前编解码单元的基于子块的帧间预测参数。阵列索引x0、y0 指定所考虑的编解码块的左上角亮度样本相对于该图片的左上角亮度样本的位置 ( x0, y0 )。

当merge_subblock_flag[x0][y0]不存在时，其被推断如下：

- 当以下所有条件都为真时，merge_subblock_flag[ x0 ][ y0 ] 被推断为等于1：

-sps_affine_enabled_flag等于1或（sps_sbtmvp_enabled_flag等于1并且slice_temporal_mvp_enabled_flag等于1）。

-general_merge_flag[x0][y0]等于1。

-cbWidth大于或等于8。

-cbHeight大于或等于8。

-regular_merge_flag[x0][y0]等于0。

-mmvd_flag[x0][y0]等于0。

-否则，merge_subblock_flag[x0][y0]被推断为等于0。

ciip_flag[x0][y0]指定是否针对当前编解码单元应用组合的图片间合并和图片内预测。阵列索引x0、y0指定所考虑的编解码块的左上角亮度样本相对于该图片的左上角亮度样本的位置(x0, y0)。

当ciip_flag[x0][y0]不存在时，其被推断如下：

-当以下所有条件都为真时，ciip_flag[x0][y0]被推断为等于1：

-sps_ciip_enabled_flag等于1。

-general_merge_flag[x0][y0]等于1。

-cu_skip_flag[x0][y0]等于0。

-cbWidth*cbHeight大于或等于64。

-regular_merge_flag[x0][y0]等于0。

-mmvd_flag[x0][y0]等于0。

-merge_subblock_flag[x0][y0]等于0。

-否则，ciip_flag[x0][y0]被推断为等于0。

变量MergeTriangleFlag[x0][y0]指定是否使用基于三角形的运动补偿来生成当前编解码单元的预测样本。在解码B条带时，变量MergeTriangleFlag[x0][y0]被导出如下：

-当以下所有条件都为真时，MergeTriangleFlag[x0][y0]被设置为等于1：

-sps_triangle_enabled_flag等于1。

-slice_type等于B。

-general_merge_flag[x0][y0]等于1。

-MaxNumTriangleMergeCand大于或等于2。

-cbWidth*cbHeight大于等于64。

-regular_merge_flag[x0][y0]等于0。

-mmvd_flag[x0][y0]等于0。

-merge_subblock_flag[x0][y0]等于0。

-ciip_flag[x0][y0]等于0。

-否则，MergeTriangleFlag[x0][y0]设置为等于0。

在一些示例中，可以按组考虑不同的合并模式。例如，第一组合并模式可以包括常规合并模式，并且第二组合并模式可以包括CIIP合并模式和三角合并模式(TPM)。替代地或附加地，基于子块的合并模式可以被视为第三组。可以基于各组合并模式来提供信令次序。根据不同的实施方式，各组合并模式可以采用任何预定义的次序。

在一个示例中，可以在信令次序中在第二组之前列出第一组，然后仅当在第二组合并模式中存在被允许或被启用作为模式选项的至少一个合并模式时（即允许 CIIP 和TPM 之一或两者）才可以用信令传递常规合并模式标识。

在一些其他示例中，可以用信令语法以指示哪个合并/跳过相关模式用于当前CU，而不是用信令传递单独的模式标识。对于模式语法的CABAC编解码，可以使用不同的码字二进制化并且可以对每个二进制位应用不同的CABAC情境模型。一种示例性码字二进制化可以是截断的一元码字，其中最大码字索引为N(例如N＝4)，如下表10中所示。在该示例中，所有五种合并相关模式都被允许（即启用），其中MMVD、子块、CIIP和三角合并模式由布尔变量MMVDAllowed、MergeSubblockAllowed、MergeCIIPAllowed和MergeTriangleAllowed指示为启用。基于这些变量，生成用于合并模式的信令的码字集，如表10中所示，每个码字对应于所述合并模式中的一个合并模式。该示例中码字的最大长度为4（即与CIIP和三角合并模式对应的码字的长度）。因此，可以根据用信令传递的码字来确定针对当前块的合并模式，而不是使用以上描述的单独的模式标识(例如，常规标识、MMVD标识、子块标识和CIIP标识)。例如，用信令传递的码字“01”指示MMVD用于当前编解码块。

表10 用于信令的指示合并模式的语法的示例

码字索引	码字	合并模式
			0	0	常规合并模式
1	01	MMVD
			2	001	子块
3	0001	CIIP
			4	0000	三角

在一些示例中，可以在不同的组合中映射码字和合并模式。对于允许所有五种合并相关模式的情况，可以使用具有不同于表10中所示那些的映射的语法。例如，码字“0”可用于指示子块合并模式被用于当前编解码块，并且码字“001”可用于指示常规合并模式被用于当前编解码块。

应当说明的是，码字中的0和1可以全部反转，并且得到的码字的作用将相同。

还应注意，取决于四个布尔变量MMVDAallowed、MergeSubblockAllowed、MergeCIIPAllowed和MergeTriangleAllowed的值，N的值(例如，在图10的示例中N＝4)和码字映射合并模式可以不同。

在一个示例中，当CIIP合并模式不被允许(例如，不被启用)并且所有四种其它模式都被允许时，相关联的码字可以是以下表11中所示的那些，其中N=3。该示例中码字的最大长度为3（即与子块和三角合并模式对应的码字的长度）。

表11 用于信令的指示合并模式的语法的示例

码字索引	码字	合并模式
			0	0	常规合并模式
1	01	MMVD
			2	001	子块
3	000	三角

因此，所生成的码字集合中的码字的数量和码字的最大长度基于所述变量而变化。

在另一示例中，所述变量可以指示仅启用一个合并模式并且不启用其他合并模式。唯一启用的合并模式可被推断为用于当前块的合并模式，而无需对码字进行显式信令传递。

在又一示例中，仅两个合并模式可被指示为允许或启用。当用信令传递的码字指示使用这两个合并模式中的第一个合并模式或未使用另一个合并模式时，可以将这两个合并模式中的第一个确定为用于当前块的合并模式。

在一些其他示例中，合并模式集合可以包括常规合并模式(Regular)、具有运动向量差的合并模式(MMVD)、基于子块的合并模式(Subblock)、联合帧间和帧内合并模式（CIIP）和三角合并模式（Triangle）中的全部或部分。

图11是图示根据本公开的一些实施方式的用于视频编解码的装置的框图。装置1100可以是诸如移动电话、平板电脑、数字广播终端、平板设备或个人数字助理之类的终端。

如图11中所示，装置1100可以包括以下部件中的一个或多个：处理部件1102、存储器1104、供电部件1106、多媒体部件1108、音频部件1110、输入/输出（I/O）接口1112、传感器部件1114和通信部件1116。

处理部件1102通常控制装置1100的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关的操作。处理部件1102可以包括一个或多个处理器1120，用于执行指令以完成上述方法的全部或部分步骤。此外，处理部件1102可以包括一个或多个模块以促进处理部件1102和其它部件之间的交互。例如，处理部件1102可以包括多媒体模块用于促进多媒体部件1108和处理部件1102之间的交互。

存储器1104被配置为存储不同类型的数据以支持装置1100的操作。此类数据的示例包括用于在装置1100上运行的任何应用或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或其组合来实现，并且存储器1104可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器 (EPROM)、可编程只读存储器 (PROM)、只读存储器(ROM)、磁存储器、闪存、磁盘或光盘。

供电部件1106为装置1100的不同部件供应电力。供电部件1106可以包括供电管理系统、一个或多个电源、以及与为装置1100生成、管理和分配电力相关联的其它部件。

多媒体部件1108包括屏幕，屏幕提供装置1100和用户之间的输出接口。在一些示例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，则屏幕可以被实现为从用户接收输入信号的触摸屏。触摸面板可以包括用于感测触摸面板上的触摸、滑动和手势的一个或多个触摸传感器。触摸传感器不仅可以感测触摸或滑动动作的边界，还可以检测与触摸或滑动操作相关的持续时间和压力。在一些示例中，多媒体部件1108可以包括前置相机和/或后置相机。当装置1100处于运行模式（诸如拍摄模式或视频模式）时，前置相机和/或后置相机可以接收外部多媒体数据。

音频部件1110被配置为输出和/或输入音频信号。例如，音频部件1110包括麦克风(MIC)。当装置1100处于运行模式（诸如呼叫模式、记录模式和语音识别模式）时，麦克风被配置为接收外部音频信号。接收到的音频信号可以进一步存储在存储器1104中或经由通信部件1116发送。在一些示例中，音频部件1110还包括用于输出音频信号的扬声器。

I/O接口1112提供处理部件1102和外围接口模块之间的接口。上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可以包括但不限于主页按钮、音量按钮、开启按钮和锁定按钮。

传感器部件1114包括一个或多个传感器，用于在不同方面为装置1100提供状态评估。例如，传感器部件1114可以检测装置1100的开/关状态和部件的相对位置。例如，部件是装置1100的显示器和键盘。传感器部件1114还可以检测装置1100或装置1100的部件的位置变化、用户在装置1100上的接触的存在或不存在、装置1100的取向或加速/减速、以及装置1100的温度变化。传感器部件1114可以包括接近传感器，接近传感器被配置为在没有任何物理接触的情况下检测附近物体的存在。传感器部件1114还可以包括光学传感器，诸如在成像应用中使用的CMOS或CCD图像传感器。在一些示例中，传感器部件1114还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信部件1116被配置为促进装置1100和其它设备之间的有线或无线通信。装置1100可以基于诸如WiFi、4G或其组合之类的通信标准访问无线网络。在示例中，通信部件1116经由广播信道从外部广播管理系统接收广播信号或广播相关信息。在示例中，通信部件1116还可包括用于促进短距离通信的近场通信(NFC)模块。例如，NFC模块可以基于射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其它技术来实现。

在示例中，装置1100可以由专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列 (FPGA)、控制器、微控制器、微处理器或其它电子元件中的一个或多个来实现以执行上述方法。

非暂时性计算机可读存储介质可以是例如硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、混合驱动器或固态混合驱动器(SSHD)、只读存储器（ROM）、光盘只读存储器（CD-ROM）、磁带、软盘等。

在步骤1202中，处理器1120导出用于当前块的变量，所述变量指示合并模式集合中至少一个合并模式的启用状态。

在步骤1204中，处理器1120基于所述变量生成码字集合用于所述合并模式的信令，每个码字对应于所述合并模式中的一个合并模式。

在步骤1206中，处理器1120基于所述变量和/或所述信令为所述当前块确定选自所述合并模式集合中的合并模式。

在步骤1208中，处理器1120使用所选择的合并模式导出当前块的运动信息。

处理器1120可以在确定所述变量指示所述集合中的第一合并模式被启用并且所述集合中的其他合并模式未被启用时，为所述当前块确定第一合并模式。处理器1120确定第一合并模式可以包括使用所述码字导出指示对第一合并模式的选择的显式信令，或者基于所述变量推断对第一合并模式的选择，而无需显式信令。

处理器1120可以在确定所述变量指示所述集合中的第一合并模式和至少一个第二合并模式被启用并且所述信令指示第一合并模式被选择时，为所述当前块确定第一合并模式。

处理器1120可以在确定所述变量指示所述集合中的第一合并模式和一个第二合并模式被启用，所述集合中的其它合并模式未被启用，并且所述信令指示未选择第二合并模式时，为所述当前块确定第一合并模式。

在一些示例中，提供了一种用于视频编解码的装置。该装置包括：一个或多个处理器1120；和存储器1104，被配置为存储能够由所述一个或多个处理器执行的指令；其中所述处理器在执行所述指令时被配置为执行如图12中所示的方法。

在一些其他示例中，提供了一种非暂时性计算机可读存储介质1104，具有存储在其中的指令。当所述指令由一个或多个处理器1120执行时，所述指令使所述处理器执行如图12中所示的方法。

本公开的描述是为了说明的目的而呈现的，并不旨在穷举或限制到本公开。受益于前述描述和相关附图中呈现的教导，许多修改、变化和替代实施方式对于本领域普通技术人员来说将是显而易见的。

选择和描述这些示例是为了解释本公开的原理，并使本领域其它技术人员能够理解本公开的各种实施方式，并最好地利用基本原理和具有适应于预期的特定用途的各种修改的各种实施方式。因此，应当理解，本公开的范围不限于所公开的实施方式的具体示例，并且修改和其它实施方式旨在包括在本公开的范围内。

Claims

1.一种视频编解码方法，包括：

导出针对当前块的变量，所述变量指示合并模式集合中至少一个合并模式的启用状态；

基于所述变量生成码字集合以用于所述合并模式的信令，每个码字对应于所述合并模式中的一个合并模式；

基于所述变量和/或所述信令为所述当前块确定选自所述合并模式集合中的合并模式；以及

使用所选择的合并模式导出所述当前块的运动信息。

2.根据权利要求1所述的方法，其中，在确定所述变量指示所述集合中的第一合并模式被启用并且所述集合中的其他合并模式未被启用时，为所述当前块确定所述第一合并模式。

3.根据权利要求2所述的方法，其中，确定所述第一合并模式包括：使用所述码字导出指示对所述第一合并模式的选择的显式信令。

4.根据权利要求2所述的方法，其中，确定所述第一合并模式包括：基于所述变量推断对所述第一合并模式的选择，而无需显式信令。

5.根据权利要求1所述的方法，其中，在确定所述变量指示所述集合中的第一合并模式和至少一个第二合并模式被启用并且所述信令指示所述第一合并模式被选择时，为所述当前块确定所述第一合并模式。

6.根据权利要求1所述的方法，其中当确定所述变量指示所述集合中的第一合并模式和一个第二合并模式被启用，所述集合中的其它合并模式未被启用，并且所述信令指示未选择所述第二合并模式时，为所述当前块确定所述第一合并模式。

7.根据权利要求1所述的方法，其中所述合并模式集合包括：常规合并模式(Regular)、具有运动向量差的合并模式(MMVD)、基于子块的合并模式(Subblock)、联合帧间和帧内预测合并模式( CIIP）以及三角合并模式（Triangle）；并且所述至少一个合并模式包括以下各项之一或其组合：MMVD、Subblock、CIIP和Triangle。

8.根据权利要求1所述的方法，其中，所述码字集合中码字的数量和所述码字的最大长度基于所述变量而变化。

9.一种用于视频编解码的装置，包括：

一个或多个处理器；以及

存储器，被配置为存储能够由所述一个或多个处理器执行的指令；

其中，所述一个或多个处理器在执行所述指令时被配置为：

使用所选择的合并模式导出所述当前块的运动信息。

10.根据权利要求9所述的装置，其中，在确定所述变量指示所述集合中的第一合并模式被启用并且所述集合中的其他合并模式未被启用时，为所述当前块确定所述第一合并模式。

11.根据权利要求10所述的装置，其中，确定所述第一合并模式包括：使用所述码字导出指示对所述第一合并模式的选择的显式信令。

12.根据权利要求10所述的装置，其中，确定所述第一合并模式包括：基于所述变量推断对所述第一合并模式的选择，而无需显式信令。

13.根据权利要求9所述的装置，其中，在确定所述变量指示所述集合中的第一合并模式和至少一个第二合并模式被启用并且所述信令指示所述第一合并模式被选择时，为所述当前块确定所述第一合并模式。

14.根据权利要求9所述的装置，其中当确定所述变量指示所述集合中的第一合并模式和一个第二合并模式被启用，所述集合中的其它合并模式未被启用，并且所述信令指示未选择第二合并模式时，为所述当前块确定所述第一合并模式。

15.根据权利要求9所述的装置，其中所述合并模式集合包括：常规合并模式(Regular)、具有运动向量差的合并模式(MMVD)、基于子块的合并模式(Subblock)、联合帧间和帧内预测合并模式( CIIP）以及三角合并模式（Triangle）；并且所述至少一个合并模式包括以下各项之一或其组合：MMVD、Subblock、CIIP和Triangle。

16.根据权利要求9所述的方法，其中，所述码字集合中码字的数量和所述码字的最大长度基于所述变量而变化。

17.一种非暂时性计算机可读存储介质，包括存储在其中的指令，其中，在一个或多个处理器执行所述指令时，所述指令使所述一个或多个处理器执行包括以下各项的动作：

使用所选择的合并模式导出所述当前块的运动信息。

18.根据权利要求17所述的非暂时性计算机可读存储介质，其中，在确定所述变量指示所述集合中的第一合并模式被启用并且所述集合中的其他合并模式未被启用时，为所述当前块确定所述第一合并模式。

19.根据权利要求17所述的非暂时性计算机可读存储介质，其中在确定所述变量指示所述集合中的第一合并模式和至少一个第二合并模式被启用并且所述信令指示所述第一合并模式被选择时，为所述当前块确定所述第一合并模式。

20.根据权利要求17所述的非暂时性计算机可读存储介质，其中，当确定所述变量指示所述集合中的第一合并模式和一个第二合并模式被启用，所述集合中的其它合并模式未被启用，并且所述信令指示未选择所述第二合并模式时，为所述当前块确定所述第一合并模式。