CN118573892A

CN118573892A - 用于在视频编解码中信令发送运动合并模式的系统和方法

Info

Publication number: CN118573892A
Application number: CN202410784872.5A
Authority: CN
Inventors: 陈漪纹; 王祥林
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-12-31
Filing date: 2019-12-30
Publication date: 2024-08-30
Also published as: JP7397130B2; US20210400294A1; MX2023010866A; WO2020142448A1; CN114928744A; MX2021008027A; CN113615176A; JP2022130528A; MX2023010864A; US11425407B2; US20230421791A1; JP2024028985A; JP2022515914A; CN118433377A; US20220368934A1; US11785241B2; EP3906676A4; KR102431071B1; EP3906676A1; JP7397130B6

Abstract

本公开涉及一种用于视频解码的方法。所述方法包括：获取编码单元(CU)的常规合并标识；当常规合并标识为1时，指示常规合并模式或具有运动矢量差的合并模式(MMVD)被CU使用，为CU构造单个合并列表，其中单个合并列表包括通过常规合并索引被选择以指示被使用的候选项的常规运动矢量候选项和MMVD运动矢量候选项，其中单个合并列表为常规合并模式和MMVD这二者构造；以及当常规合并标识为零时，指示常规合并模式没有被CU使用，并且进一步接收模式标识以指示在模式标识的约束条件被满足时相关联的合并相关模式被使用；还包括：当常规合并标识为1时，根据MMVD标识的值确定是否接收MMVD合并标识。

Description

用于在视频编解码中信令发送运动合并模式的系统和方法

本申请是申请号为201980087346.0、发明名称为“用于在视频编解码中信令发送运动合并模式的系统和方法”的发明专利申请的分案申请，该发明专利申请为2019年12月30日日提交的国际专利申请PCT/US2019/068977的中国国家阶段申请，本国际专利申请基于2018年12月31日提交的第62/787,230号临时申请并且要求其优先权，该申请的全部内容通过引用并入本文中。

技术领域

本申请涉及视频编解码和压缩。更具体地，本申请涉及用于在视频编解码中信令发送运动合并模式的系统和方法。

背景技术

可以使用各种视频编解码技术来压缩视频数据。视频编解码是根据一种或多种视频编解码标准来执行的。例如，视频编解码标准包括通用视频编解码(VVC)、联合探索测试模型(JEM)、高效率视频编解码(H.265/HEVC)、高级视频编解码(H.264/AVC)、运动图像专家组(MPEG)编码等。视频编解码通常利用预测方法(例如，帧间预测、帧内预测等)，该预测方法利用了视频图像或序列中存在的冗余。视频编解码技术的重要目标是将视频数据压缩成使用较低比特率的形式，同时避免或最小化对视频质量的劣化。

发明内容

本公开的示例提供了一种用于改进合并相关模式的语义信令的效率的方法。

根据本公开的第一方面，提供了一种用于视频解码的方法，包括：获取用于编码单元(CU)的常规合并标识，所述编码单元被编码为合并模式和合并相关模式；当所述常规合并标识为1时，指示常规合并模式或具有运动矢量差的合并模式(MMVD)被CU使用，为所述CU构造单个合并列表，其中所述单个合并列表包括常规运动矢量候选项和MMVD运动矢量候选项，所述常规运动矢量候选项和MMVD运动矢量候选项通过常规合并索引被选择以指示被使用的候选项，其中所述单个合并列表为常规合并模式和MMVD这二者构造；以及当所述常规合并标识为零时，指示常规合并模式没有被CU使用，并且进一步接收模式标识以指示在所述模式标识的约束条件被满足时相关联的合并相关模式被使用；其中所述方法还包括：

当所述常规合并标识为1时，根据MMVD标识的值确定是否接收MMVD合并标识。

根据本公开的第二方面，提供了一种计算设备，包括：一个或多个处理器；耦合到所述一个或多个处理器的存储器；以及存储在所述存储器中的多个程序，所述多个程序在由所述一个或多个处理器执行时，使得所述计算设备执行上述解码方法。

根据本公开的第三方面，提供了一种非暂时性计算机可读存储介质，存储有比特流和多个程序，其中所述多个程序当由一个或多个处理单元执行时使得所述计算设备执行上述解码方法以解码所述比特流。

要理解的是，前述一般描述和以下详细描述仅仅是示例，而不是对本公开的限制。

附图说明

被并入本说明书并构成本说明书的一部分的附图图示了与本公开一致的示例，并且与本描述一起用于解释本公开的原理。

图1是根据本公开的示例的编码器的框图。

图2是根据本公开的示例的解码器的框图。

图3是图示了根据本公开的示例的用于导出所构造的仿射合并候选项的方法的流程图。

图4是图示了根据本公开的示例的用于确定是否满足标识约束条件的方法的流程图。

图5A是图示了根据本公开的示例的MMVD搜索点的示图。

图5B是图示了根据本公开的示例的MMVD搜索点的示图。

图6A是根据本公开的示例的基于控制点的仿射运动模型。

图6B是根据本公开的示例的基于控制点的仿射运动模型。

图7是图示了根据本公开的示例的每个子块的仿射运动矢量场(MVF)的示图。

图8是图示了根据本公开的示例的所继承(inherit)的仿射运动预测器的位置的示图。

图9是图示了根据本公开的示例的控制点运动矢量继承的示图。

图10是图示了根据本公开的示例的候选项方位的位置的示图。

图11是图示了根据本公开的示例的由基于子块的时间运动矢量预测(SbTMVP)使用的空间邻近块的示图。

图12A是图示了根据本公开的示例的基于子块的时间运动矢量预测(SbTMVP)过程的示图。

图12B是图示了根据本公开的示例的基于子块的时间运动矢量预测(SbTMVP)过程的示图。

图13A是图示了根据本公开的示例的三角分区的示图。

图13B是图示了根据本公开的示例的三角分区的示图。

图14是图示了根据本公开的示例的与用户接口耦合的计算环境的示图。

具体实施方式

现在将详细地参考示例实施例，其示例在附图中被图示。以下描述涉及附图，其中不同附图中的相同数字表示相同或相似的元件，除非另行表示。在示例实施例的以下描述中阐述的实现方式并不表示与本公开一致的所有实现方式。取而代之，它们仅仅是与关于所附权利要求中所记载的本公开的方面一致的装置和方法的示例。

本公开中使用的术语仅用于描述特定实施例的目的，并且不旨在限制本公开。如在本公开和所附权利要求中所使用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另行清楚地指示。还应当理解的是，本文中使用的术语“和/或”旨在表示和包括一个或多个相关联的所列项目中的任一个或所有可能的组合。

应当理解的是，尽管术语“第一”、“第二”、“第三”等在本文中可以用于描述各种信息，但是该信息不应当被这些术语所限制。这些术语仅用于区分一个类别的信息与另一类别的信息。例如，在不脱离本公开的范围的情况下，第一信息可以被视为第二信息；并且类似地，第二信息也可以被视为第一信息。如本文中所使用的，取决于上下文，术语“如果”可以被理解为意味着“当……时”或“在……时”或“响应于判断”。

视频编解码系统。

在概念上，视频编解码标准是类似的。例如，许多人使用基于块的处理并且共享类似的视频编解码块图来实现视频压缩。

在本公开的该实施例中，提出了若干种方法来改进合并相关模式的语义信令的效率。要注意的是，所提出的方法可以独立地或组合地应用。

图1示出了典型的编码器100。编码器100具有视频输入110、运动补偿112、运动估计114、帧内/帧间模式判定116、块预测器140、加法器128、变换130、量化132、预测相关信息142、帧内预测118、图片缓冲器120、逆量化134、逆变换136、加法器126、存储器124、环路滤波器122、熵编码138和比特流144。

在编码器的示例实施例中，视频帧被分区成块以用于处理。针对每个给定的视频块，基于帧间预测或帧内预测来形成预测。在帧间预测中，可以基于来自先前重构的帧的像素点、通过运动估计和运动补偿来形成预测器。在帧内预测中，可以基于当前帧中的重构像素点来形成预测器。通过模式判定，可以选择最佳的预测器来预测当前块。

预测残差(即，当前块与其预测器之间的差)被发送到变换模块。变换系数然后被发送到量化模块以用于熵减少。量化系数被馈送到熵编码模块以生成压缩视频比特流。如图1中所示，来自帧间和/或帧内预测模块的预测相关信息(诸如，块分区信息、运动矢量、参考图片索引和帧内预测模式等)也经过熵编码模块并且被保存到比特流中。

在编码器中，还需要解码器相关模块，以便重构用于预测目的的像素点。首先，通过逆量化和逆变换来重构预测残差。这种重构的预测残差与块预测器组合，以生成当前块的未滤波的重构像素点。

为了改进编码效率和视觉质量，通常使用环路滤波器。例如，解块(deblocking)滤波器在AVC、HEVC以及当前的VVC中可用。在HEVC中，定义了被称为SAO(样本自适应偏移)的附加环路滤波器，以进一步改进编码效率。在最新的VVC中，正在积极地研究被称为ALF(自适应环路滤波器)的另一种环路滤波器，并且该环路滤波器具有很大机会被纳入最终标准中。

图2示出了典型的解码器200块图。解码器200具有比特流210、熵解码212、逆量化214、逆变换216、加法器218、帧内/帧间模式选择220、帧内预测222、存储器230、环路滤波器228、运动补偿224、图片缓冲器226、预测相关信息234和视频输出232。

在解码器中，首先通过熵解码模块对比特流进行解码，以导出量化系数级别和预测相关信息。然后，通过逆量化和逆变换模块来处理量化的系数级别，以获得重构的预测残差。基于所解码的预测信息，通过帧内预测或运动补偿过程来形成块预测器。通过对重构的预测残差和块预测器进行求和来获得未滤波的重构像素点。在环路滤波器被打开的情况下，对这些像素点执行滤波操作，以导出最终的重构视频以用于输出。

图3示出了根据本公开的用于导出所构造的仿射合并候选项的示例方法。

在步骤310中，从解码器获取用于编码单元(CU)的常规合并标识，所述编码单元被编码为合并模式和合并相关模式。

在步骤312中，当常规合并标识为1时，指示所述常规合并模式或具有运动矢量差的合并模式(MMVD)被CU使用，为CU构造运动矢量合并列表并使用常规合并索引来指示被使用的候选项。

在步骤314中，当常规合并标识为零时，指示所述常规合并模式没有被CU使用，并且进一步接收模式标识以指示在所述模式标识的约束条件被满足时相关联的合并相关模式被使用。

图4示出了根据本公开的用于确定是否满足标识约束条件的示例方法。

在步骤410中，从解码器获取编码块，其中编码块具有宽度和高度。

在步骤412中，由解码器确定编码块的宽度和编码块的高度是否均不等于4。

在步骤414中，由解码器确定编码块的宽度不等于8或者编码块的高度不等于4。

在步骤416中，由解码器确定编码块的宽度不等于4或者编码块的高度不等于8。

在步骤418中，由解码器确定常规合并标识未被设置。

通用视频编解码(VVC)。

在第十次JVET会议(2018年4月10日至20日，美国圣地亚哥)上，JVET定义了通用视频编解码(VVC)和VVC测试模型1(VTM1)编码方法的草案初稿。决定包括使用二元和三元划分编码块结构(binary and ternary splits coding block structure)的具有嵌套多类型树的四叉树作为VVC的初始新编码特征。此后，已经在JVET会议期间开发了用于实现编码方法和VVC解码过程草案的参考软件VTM。

图片分区结构将输入视频划分成被称为编码树单元(CTU)的块。使用具有嵌套多类型树结构的四叉树将CTU划分成编码单元(CU)，其中叶编码单元(CU)定义了共享相同预测模式(例如，帧内或帧间)的区域。在这个文档中，术语“单元”定义覆盖了所有分量的图像区域；术语“块”用于定义覆盖了特定分量(例如，亮度)的区域，并且当考虑诸如4：2：0之类的色度采样格式时，术语“块”可能在空间位置上不同。

VVC中的扩展合并模式。

在VTM3中，通过按顺序包括以下五种类型的候选项来构造合并候选项列表：

1.来自空间邻居(spatial neighbor)CU的空间MVP

2.来自并置CU的时间MVP

3.来自FIFO表的基于历史的MVP

4.成对平均MVP

5.零MV。

在切片头部中通过信令发送合并列表的大小，并且合并列表的最大允许大小在VTM3中是6。针对合并模式中的每个CU代码，使用截断的一元二进制化(TU)对最佳合并候选项的索引进行编码。利用上下文来编码合并索引的第一个二进制位(bin)，并且将旁路编码用于其他二进制位。在本公开的以下上下文中，该扩展合并模式也被称为常规合并模式，这是由于其概念与在HEVC使用的合并模式相同。

具有MVD的合并模式(MMVD)。

除了其中将隐式导出的运动信息直接用于当前CU的预测样本生成的合并模式之外，VVC中还引入了具有运动矢量差的合并模式(MMVD)。紧接在发送跳过标识和合并标识之后信令发送MMVD标识，以指定是否将MMVD模式用于CU。

在MMVD中，在选择了合并候选项之后，合并候选项将通过信令发送的MVD信息而被进一步细化(refine)。进一步的信息包括合并候选项标识、用以指定运动幅度的索引、以及用于指示运动方向的索引。在MMVD模式下，选择合并列表中的前两个候选项中的一个作为MV基础。信令发送合并候选项标识，以指定哪一个被使用。

距离索引指定运动幅度信息，并且指示从起始点的预定义偏移。如图5中所示(如下所描述)，偏移被添加到起始MV的水平分量或垂直分量。距离索引与预定义偏移的关系在表1中指定：

表1-距离索引与预定义偏移的关系

方向索引表示MVD相对于起始点的方向。方向索引可以表示四个方向，如表2中所示。要注意的是，MVD符号的含义可能根据起始MV的信息而变化。当起始MV是单向预测MV或双向预测MV、并且其中两个列表均指向当前图片的同一侧(即两个参考图片的POC两者都大于当前图片的POC，或者两者都小于当前图片的POC)时，表2中的符号指定被添加到起始MV的MV偏移的符号。当起始MV是双向预测MV、并且其中两个MV指向当前图片的不同侧时(即，一个参考图片的POC大于当前图片的POC，并且另一个参考图片的POC小于当前图片的POC)，表2中的符号指定被添加到起始MV的列表0MV分量的MV偏移的符号，并且列表1MV的符号具有相反的值。

表2-由方向索引指定的MV偏移的符号

方向IDX	00	01	10	11
					X轴	+	–	N/A	N/A
y轴	N/A	N/A	+	–

。

图5A示出了图示根据本公开的用于第一列表(L0)参考的MMVD搜索点的图。

图5B示出了图示根据本公开的用于第二列表(L1)参考的MMVD搜索点的图。

仿射运动补偿预测。

在HEVC中，仅平移运动模型被应用于运动补偿预测(MCP)。而在现实世界中，存在很多种运动，例如放大/缩小、旋转、透视运动和其他不规则运动。在VTM3中，应用了基于块的仿射变换运动补偿预测。如图6A和6B中所示(如下所描述)，块的仿射运动场由两个控制点(4参数)或三个控制点运动矢量(6参数)的运动信息来描述。

图6A示出了根据本公开的用于4参数仿射模型的基于控制点的仿射运动模型。

图6B示出了根据本公开的用于6参数仿射模型的基于控制点的仿射运动模型。

针对4参数仿射运动模型，块中的样本位置(x,y)处的运动矢量被导出为：

针对6参数仿射运动模型，块中的样本位置(x,y)处的运动矢量被导出为：

其中(m_v0x,m_v0y)是左上角控制点的运动矢量，(m_v1x,m_v1y)是右上角控制点的运动矢量，并且(m_v2x,m_v2y)是左下角控制点的运动矢量。

为了简化运动补偿预测，应用基于块的仿射变换预测。为了导出每个4×4亮度子块的运动矢量，根据上述公式来计算如图7中所示(如下所描述)的每个子块的中心样本的运动矢量，并且将运动矢量四舍五入至1/16分数精度。然后，应用运动补偿插值滤波器，以利用所导出的运动矢量来生成每个子块的预测。色度分量的子块大小也被设置为4×4。4×4色度子块的MV被计算为四个对应的4×4亮度子块的MV的平均值。

图7示出了根据本公开的每个子块的仿射运动矢量场(MVF)。

与针对平移运动帧间预测所做的一样，还存在两种仿射运动帧间预测模式：仿射合并模式和仿射AMVP模式。

仿射合并预测。

AF_MERGE模式可以被应用于宽度和高度两者都大于或等于8的CU。在这种模式下，基于空间邻近CU的运动信息来生成当前CU的CPMV。可以存在最多五个CPMVP候选项，并且信令发送索引来指示将用于当前CU的那一个候选项。以下三种类型的CPVM候选项用于形成仿射合并候选项列表：

6.从邻居CU的CPMV外推的所继承的仿射合并候选项

7.使用邻居CU的平移MV而导出的所构造的仿射合并候选项CPMVP

8.零MV。

在VTM3中，存在从邻近块的仿射运动模型中导出的最多两个继承的仿射候选项，一个来自左侧邻近CU，并且一个来自上方邻近CU。候选项块如图8中所示(如下所描述)。针对左侧预测器，扫描次序为A0->A1，并且针对上方预测器，扫描次序为B0->B1->B2。选择来自每一侧的仅第一个继承候选项。在两个继承候选项之间不执行任何修剪检查(pruningcheck)。当邻近仿射CU被识别时，其控制点运动矢量被用于在当前CU的仿射合并列表中导出CPMVP候选项。如图9中所示(如下所描述)，如果左下的邻居块A以仿射模式来编码，则获得包含块A的CU的左上角、右上角和左下角的运动矢量v₂、v₃和v₄。当A块利用4参数仿射模型来编码时，根据v₂和v₃来计算当前CU的两个CPMV。在块A利用6参数仿射模型来编码的情况下，根据v₂、v₃和v₄来计算当前CU的三个CPMV。

图8示出了根据本公开的所继承的仿射运动预测器的位置。

图9示出了根据本公开的控制点运动矢量继承。

构造的仿射候选项意味着通过组合每个控制点的邻居平移运动信息来构造候选项。控制点的运动信息是从图10中所示的指定的空间邻居和时间邻居中导出的(如下所描述)。CPMV_k(k＝1,2,3,4)表示第k个控制点。针对CPMV₁，检查B2->B3->A2块，并且使用第一个可用块的MV。针对CPMV₂，检查B1->B0块，以及针对CPMV₃，检查A1->A0块。针对TMVP，它被用作CPMV₄(如果其可用的话)。

图10示出了根据本公开的用于所构造的仿射合并模式的候选项方位的位置。

在获得四个控制点的MV之后，基于对应的运动信息来构造仿射合并候选项。控制点MV的以下组合用于按次序构造如下各项：

{CPMV₁、CPMV₂、CPMV₃}、{CPMV₁、CPMV₂、CPMV₄}、{CPMV₁、CPMV₃、CPMV₄}、{CPMV₂、CPMV₃、CPMV₄}、{CPMV₁、CPMV₂}、{CPMV₁、CPMV₃}。

3个CPMV的组合构成了6参数仿射合并候选项，并且2个CPMV的组合构成了4参数仿射合并候选项。为了避免运动缩放过程，如果控制点的参考索引不同，则丢弃控制点MV的相关组合。

在检查了所继承的仿射合并候选项和所构造的仿射合并候选项之后，如果列表仍未满，则将零MV插入到该列表的末尾。

基于子块的时间运动矢量预测(SbTMVP)。

VTM支持基于子块的时间运动矢量预测(SbTMVP)方法。与HEVC中的时间运动矢量预测(TMVP)类似，SbTMVP使用并置(collocated)图片中的运动场来改进当前图片中CU的运动矢量预测和合并模式。由TMVP使用的相同并置图片被用于SbTVMP。SbTMVP在以下两个主要方面与TMVP不同：

1.TMVP预测CU级别下的运动，但是SbTMVP预测子CU级别下的运动；

2.尽管TMVP从并置图片中的并置块(并置块是相对于当前CU的右下或中心块)获取时间运动矢量，但是在从并置图片中获取时间运动信息之前，SbTMVP应用运动移位(motion shift)，其中运动移位是从当前CU的空间邻近块之一的运动矢量中获得的。

SbTVMP过程如图11、图12A和图12B中所图示(如下所描述)。SbTMVP以两个步骤来预测当前CU内的子CU的运动矢量。在第一步骤中，按A1、B1、B0和A0的次序来检查图11中的空间邻居。一旦识别出具有使用并置图片作为其参考图片的运动矢量的第一空间邻近块，就将该运动矢量选择为要应用的运动移位。如果没有从空间邻居中识别出这种运动，则将运动移位设置为(0,0)。

图11示出了由基于子块的时间运动矢量预测(SbTMVP)使用的空间邻近块。SbTMVP也被称为替代时间运动矢量预测(ATMVP)。

在第二步骤中，应用步骤1中识别的运动移位(即，添加到当前块的坐标)，以便从并置图片中获得子CU级别运动信息(运动矢量和参考索引)，如图12A和12B中所示的那样。图12A和12B中的示例假设运动移位被设置为块A1的运动。然后，针对每个子CU，使用并置图片中的其对应块(覆盖中心样本的最小运动网格)的运动信息来导出子CU的运动信息。在并置子CU的运动信息被识别之后，它以类似于HEVC的TMVP过程的方式被转换成当前子CU的运动矢量和参考索引，其中应用了时间运动缩放，以将时间运动矢量的参考图片与当前CU的那些对齐。

图12A示出了当通过应用来自空间邻居的运动移位并且缩放来自对应并置子CU的运动信息来导出子CU运动场时在VVC中针对并置图片的SbTMVP过程。

图12B示出了当通过应用来自空间邻居的运动移位并且缩放来自对应并置子CU的运动信息来导出子CU运动场时在VVC中针对当前图片的SbTMVP过程。

在VTM3中，包含SbTVMP候选项和仿射合并候选项的组合的基于子块的合并列表被用于基于子块的合并模式的信令。在以下上下文中，使用子块合并模式。通过序列参数设置(SPS)标识来启用/禁用SbTVMP模式。如果启用了SbTMVP模式，则添加SbTMVP预测器作为基于子块的合并候选项的列表的第一个条目，并且接着是仿射合并候选项。在SPS中信令发送基于子块的合并列表的大小，并且基于子块的合并列表的最大允许大小在VTM3中是5。

SbTMVP中使用的子CU大小被固定为8×8，并且与针对仿射合并模式所做的一样，SbTMVP模式仅适用于宽度和高度两者都大于或等于8的CU。

附加SbTMVP合并候选项的编码逻辑与其他合并候选项相同，即，针对P或B切片中的每个CU，执行附加的RD检查以决定是否使用SbTMVP候选项。

联合帧间帧内预测(CIIP)。

在VTM3中，当CU在合并模式下被编码时，如果CU包含至少64个亮度样本(即，CU宽度乘以CU高度等于或大于64)，则信令发送附加标识，以指示联合帧间/帧内预测(CIIP)模式是否被应用于当前CU。

为了形成CIIP预测，首先从两个附加语义元素中导出帧内预测模式。可以使用最多四种可能的帧内预测模式：方向角度预测(DC)、平面预测(PLANAR)、水平预测(HORIZONAL)或者垂直预测(VERTICAL)。然后，使用常规的帧内帧间解码过程来导出帧间预测和帧内预测信号。最后，执行帧间和帧内预测信号的加权平均以获得CIIP预测。

帧内预测模式导出。

在CIIP模式下，可以使用最多4种帧内预测模式(包括DC、PLANAR、HORIZONAL和VERTICAL模式)来预测亮度分量。如果CU形状非常宽(即，宽度多于高度的两倍)，则不允许HORIZONAL模式。如果CU形状非常窄(即，高度多于宽度的两倍)，则不允许VERTICAL模式。在这些情况下，仅允许3种帧内预测模式。

CIIP模式使用3种最可能的模式(MPM)以用于帧内预测。CIIP MPM候选项列表形成如下：

-左侧和顶部邻近块分别被设置为A和B

-分别被表示为帧内模式A(intraModeA)和帧内模式B的块A和块B的帧内预测模式被导出如下：

ο令X为A或B

ο如果1)块X不可用；或者2)块X不是使用CIIP模式或帧内模式来预测的；3)块B在当前CTU之外，则将帧内模式X设置为DC

ο否则，1)如果块X的帧内预测模式是DC或PLANAR，则将帧内模式X设置为DC或PLANAR；或者2)如果块X的帧内预测模式是“类似垂直的”角度模式(大于34)，则将帧内模式X设置为VERTICAL；或者3)如果块X的帧内预测模式是“类似水平的”角度模式(小于或等于34)，则将帧内模式X设置为HORIZONAL

-如果帧内模式A和帧内模式B相同：

ο如果帧内模式A是PLANAR或DC，则按{PLANAR，DC，VERTICAL}的次序将三个MPM设置为{PLANAR，DC，VERTICAL}，

ο否则，按{帧内模式A，PLANAR，DC}的次序将三个MPM设置为{帧内模式A，PLANAR，DC}

-否则(帧内模式A和帧内模式B不同)：

ο按{帧内模式A，帧内模式B}的次序将前两个MPM设置为{帧内模式A，帧内模式B}

ο对照前两个MPM候选项模式，按PLANAR、DC和VERTICAL的次序来检查PLANAR、DC和VERTICAL的独特性；一旦发现独特的模式，就将其添加为第三个MPM。

如果CU形状非常宽或非常窄(如上所定义)，则推断出MPM标识为1，无需信令。否则，信令发送MPM标识以指示CIIP帧内预测模式是否是CIIP MPM候选项模式中的一个。

如果MPM标识为1，则进一步信令发送MPM索引，以指示在CIIP帧内预测中使用MPM候选项模式中的哪一个。否则，如果MPM标识为0，则将帧内预测模式设置为MPM候选项列表中的“缺省”模式。例如，如果PLANAR模式不在MPM候选项列表中，则PLANAR是缺省模式，并且将帧内预测模式设置为PLANAR。由于CIIP中允许4种可能的帧内预测模式，并且MPM候选项列表仅包含3种帧内预测模式，因此4种可能的模式中的一个必定是缺省模式。

针对色度分量，始终应用DM模式，无需附加的信令；也就是说，色度使用与亮度相同的预测模式。

CIIP编码的CU的帧内预测模式将被保存并且用于未来邻近CU的帧内模式编码中。

联合帧间帧内预测信号。

使用被应用于常规合并模式的相同帧间预测过程来导出CIIP模式中的帧间预测信号P_inter；并且在常规帧内预测过程之后使用CIIP帧内预测模式来导出帧内预测信号P_intra。然后，使用加权平均来组合帧内和帧间预测信号，其中权重值取决于帧内预测模式以及样本在编码块中位于何处，如下：

-如果帧内预测模式是DC或PLANAR模式，或者如果块宽度或高度小于4，则将相等的权重应用于帧内预测和帧间预测信号。

-否则，基于帧内预测模式(在这种情况下，要么是HORIZONAL模式要么是VERTICAL模式)和块中的样本位置来确定权重。以HORIZONAL预测模式为例(用于VERTICAL模式的权重是以类似的方式但是在正交方向上导出的)。将W表示为块的宽度，并且将H表示为块的高度。首先，将编码块划分成四个面积相等的部分，每个部分的尺寸为(W/4)xH。从最接近帧内预测参考样本的部分开始、并且在最远离帧内预测参考样本的部分处结束，4个区域中的每一个的权重wt分别被设置为6、5、3和2。使用以下公式来导出最终的CIIP预测信号：

P_CIIP＝((8-wt)*P_inter+wt*P_intra)＞＞3。

用于帧间预测的三角分区。

在VTM3中，引入了新的三角分区模式以用于帧间预测。三角分区模式仅被应用于8x8或更大、并且在跳过或合并模式下编码的CU。针对满足这些条件并且合并标识为开启的CU，信令发送CU级别标识，以指示是否应用三角分区模式。

当使用该模式时，使用对角线分区或反对角线分区(图13A和图13B，如下所描述)，将CU均匀地划分成两个三角的分区。CU中的每个三角分区使用其自身的运动而被帧间预测；针对每个分区仅允许单向预测，也就是说，每个分区具有一个运动矢量和一个参考索引。应用单向预测运动约束条件，以确保与常规双向预测相同，针对每个CU仅需要两个运动补偿预测。

如果CU级别标识指示当前CU是使用三角分区模式来编码的，则进一步信令发送[0,39]范围内的索引。使用该三角分区索引，可以通过查找表来获得三角分区的方向(对角线或反对角线)、以及每一个分区的运动。在预测了每一个三角分区之后，使用具有自适应权重的混合处理来调整沿对角线或反对角线边缘的样本值。这是针对整个CU的预测信号，并且与在其他预测模式中一样，变换和量化过程将应用于整个CU。最后，在4x4单元中存储使用三角分区模式所预测的CU的运动场。

图13A示出了根据本公开的基于三角分区的帧间预测。

图13B示出了根据本公开的基于三角分区的帧间预测。

上下文自适应二进制算术编码(CABAC)。

上下文自适应二进制算术编码(CABAC)是H.264/MPEG-4AVC和高效率视频编解码(HEVC)标准和VVC中使用的熵编码的形式。CABAC基于算术编码，其具有一些创新和改变，以使其适应于视频编码标准的需求：

·它对二进制符号进行编码，这保持了低复杂性，并且允许针对任何符号中更频繁的位进行概率建模。

·基于局部上下文来自适应地选择概率模型，从而允许更好的概率建模，这是因为编码模式通常局部相关性良好。

·它通过对量化的概率范围和概率状态的使用，来使用无乘法的范围划分(multiplication-free range division)。

针对不同的上下文，CABAC具有多种概率模式。它首先将所有非二进制符号转换成二进制。然后，针对每个二进制位(或被称为位)，编码器选择使用哪个概率模型，然后使用来自附近元素的信息来优化概率估计。最终，应用算术编码来对数据进行压缩。

上下文建模提供了对编码符号的条件概率的估计。利用合适的上下文模型，可以通过根据要编码的当前符号的邻域中已经编码的符号而在不同概率模型之间进行切换，从而利用给定的符号间冗余。

数据符号的编码涉及以下阶段。

·二进制化：CABAC使用二进制算术编码，这意味着仅编码二进制判定(1或0)。非二进制值符号(例如，变换系数或运动矢量)在算术编码之前被“二进制化”或转换成二进制代码。该过程类似于将数据符号转换成可变长度代码的过程，但是二进制代码在传输之前被进一步编码(由算术编码器进一步编码)。

·针对二进制化符号的每个二进制位(或“位”)来重复各阶段。

·上下文模型选择：“上下文模型”是二进制化符号的一个或多个二进制位的概率模型。可以取决于最近编码的数据符号的统计信息从对可用模型的选择中选择该模型。上下文模型存储每个二进制位为“1”或“0”的概率。

·算术编码：算术编码器根据所选的概率模型对每个二进制位进行编码。要注意的是，针对每个二进制位(对应于“0”和“1”)，仅存在两个子范围。

·概率更新：基于实际编码值来更新所选的上下文模型(例如，如果二进制位值为“1”，则增加“1”的频率计数)。

图14示出了与用户接口1460耦合的计算环境1410。计算环境1410可以是数据处理服务器的一部分。计算环境1410包括处理器1420、存储器1440和输入/输出接口1450。

处理器1420通常控制计算环境1410的总体操作，诸如与显示、数据获取、数据通信和图像处理相关联的操作。处理器1420可以包括一个或多个处理器，以执行指令以实行上面描述的方法中的所有或一些步骤。此外，处理器1420可以包括便于处理器1420与其他组件之间的交互的一个或多个模块。处理器可以是中央处理单元(CPU)、微处理器、单芯片机器、GPU等。

存储器1440被配置成存储各种类型的数据以支持计算环境1410的操作。这种数据的示例包括用于在计算环境1410上操作的任何应用或方法的指令、MRI数据集、图像数据等。存储器1440可以通过使用任何类型的易失性或非易失性存储设备或其组合来实现，这些存储设备诸如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁性存储器、闪速存储器、磁盘或光盘。

输入/输出接口1450提供处理器1420与外围接口模块(诸如，键盘、点击轮、按钮等)之间的接口。这些按钮可以包括但不限于主页按钮、开始扫描按钮和停止扫描按钮。输入/输出接口1450可以与编码器和解码器耦合。

在一个实施例中，还提供了一种非暂时性计算机可读存储介质，其包括多个程序，诸如包括在存储器1440中的程序，该程序可由计算环境1410中的处理器1420执行以用于实行上面描述的方法。例如，非暂时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等。

非暂时性计算机可读存储介质在其中存储有多个程序，以供具有一个或多个处理器的计算设备执行，其中该多个程序在由一个或多个处理器执行时使得计算设备实行用于运动预测的上面描述的方法。

在一实施例中，计算环境1410可以利用一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、控制器、微控制器、微处理器、或其他电子元件来实现，以执行上面描述的方法。

根据本公开的方法。

如上所描述，在VTM-3.0中，合并模式被进一步分类成五个类别，包括常规合并、具有MVD的合并模式(MMVD)、子块合并(包含仿射合并和基于子块的时间运动矢量预测)、联合帧间帧内预测(CIIP)合并、以及三角分区合并。下表中说明了当前VVC中的合并模式信令的语义。

表3当前VVC中的合并相关模式的语义

总而言之，在当前VVC中，被信令发送以用于指示对应合并模式的语义(相关联的标识)如下所说明。

表4当前VVC中的合并相关模式的信令

	MMVD标识	子块标识	CIIP标识	三角标识
					MMVD	1	-	-	-
子块	0	1	-	-
					CIIP	0	0	1	-
三角	0	0	0	1
					常规	0	0	0	0

。

所观察到的是，多于50％的合并模式是常规合并模式。然而，在VTM-3.0中，用于常规合并模式的码字是五种不同合并模式当中最长的一种，这在语义解析方面不是高效的设计。在当前VVC中，跳过模式除了没有用于跳过的CIIP模式之外，具有与合并模式类似的语义设计。然而，在跳过模式中做出了相同的观察。

用于常规合并的语义。

如上所提及，在包括(常规合并、MMVD、子块合并、CIIP和三角合并)的若干种合并相关模式当中，当前VVC中的常规合并模式的方案是使用最频繁的。在本公开的实施例中，信令发送针对常规合并模式的显式标识，以指示常规合并模式是否被使用。如下表中所示，一个常规标识(或被称为常规合并标识)被显式地信令发送到比特流中，并且相关标识的所有信令被相应地修改。使用CABAC对常规合并标识进行上下文编码。在一个方案中，使用仅一个上下文来对常规合并标识进行编码。在又一个方案中，使用多个上下文模型来对常规合并标识进行编码，并且上下文模型的选择基于编码的信息，诸如邻近块的常规合并标识、或当前CU的大小。

表5所提出方案中的合并相关模式的信令的示例

	常规标识	MMVD标识	子块标识	CIIP标识
					常规	1	-	-	-
MMVD	0	1	-	-
					子块	0	0	1	-
CIIP	0	0	0	1
					三角	0	0	0	0

。

在当前VVC中，用于启用合并相关模式的约束条件是不同的，并且因此每个合并相关模式的标识的信令也是不同的，如下面所总结的那样。

表6启用/信令发送合并相关模式的约束条件

因此，常规合并标识的信令还应当考虑被应用于每个标识信令的不同约束条件。例如，当块大小为4x4、8x4或4x8时，仅常规合并模式和MMVD有效。在这些条件(块大小为4x4、8x4或4x8)下，仅信令发送常规合并标识；当常规合并标识等于1时，使用常规合并模式；否则，当常规合并标识等于0时，使用MMVD。下面说明了基于当前VVC工作草案的语义的示例。

表7所提出方案中的语义的示例

在该示例中，要注意的是，常规合并标识被显式地信令发送到比特流中。然而，可以在任何方位中信令发送常规合并标识，并且常规合并标识不必是如上所描述的第一个方位。在又一个方案中，常规合并标识被信令发送，但是在MMVD和子块合并标识之后被信令发送。

将相关合并模式集成到常规合并模式中。

在本公开的实施例中，MMVD、CIIP和三角合并到常规合并模式中。在该方案中，所有的MMVD候选项、CIIP候选项和三角合并候选项被视为常规合并候选项，并且利用常规合并索引来指示被使用的候选项。因此，需要相应地扩大常规合并候选项列表的大小。在一个示例中，等于N的常规合并索引(N可以是任何正整数，并且小于常规合并候选项列表的最大大小)意味着选择了MMVD模式，并且信令发送/接收进一步的语义以指示哪个MMVD候选项被使用。相同的方案也被应用于CIIP和三角合并模式。

在又一个示例中，CIIP和三角合并到常规合并模式中。在该方案中，所有的CIIP候选项和三角合并候选项被视为常规合并候选项，并且利用常规合并索引来指示被使用的候选项。因此，需要相应地扩大常规合并候选项列表的大小。

约束条件对齐。

如上所提及，启用不同合并相关模式的约束条件是不同的。在本公开的实施例中，启用不同合并模式和信令发送相关标识的约束条件更加对齐。在一个示例中，约束条件被修改，如下表中所说明。

表8启用/信令发送合并相关模式的经修改的约束条件

在本公开的又一个示例中，约束条件被修改，如下表中所说明。

表9启用/信令发送合并相关模式的经修改的约束条件

在本公开的又一个示例中，约束条件被修改，如下表中所说明。在该方案中，要注意的是，当块宽度＝128或块高度＝128时，仍然信令发送CIIP的标识，当块宽度＝128或块高度＝128时，CIIP的标识被约束到始终为零，这是因为帧内预测不支持这些条件。

表10启用/信令发送合并相关模式的经修改的约束条件

	约束条件
		常规	无约束条件
MMVD	无约束条件
		子块	块宽度>8并且块高度>8
CIIP	块宽度>8并且块高度>8
		三角	块宽度>8并且块高度>8

。

表11启用/信令发送合并相关模式的经修改的约束条件

	约束条件
		常规	无约束条件
MMVD	无约束条件
		子块	块宽度>8并且块高度>8
CIIP	(块宽度x块高度)>＝64
		三角	(块宽度x块高度)>＝64

。

切换CIIP标识和三角合并标识的次序。

切换CIIP标识和三角合并标识的信令次序，这是因为观察到三角合并模式更经常地被使用。

Claims

1.一种用于视频解码的方法，包括：

获取用于编码单元(CU)的常规合并标识，所述编码单元被编码为合并模式和合并相关模式；

当所述常规合并标识为1时，指示常规合并模式或具有运动矢量差的合并模式(MMVD)被CU使用，为所述CU构造单个合并列表，其中所述单个合并列表包括常规运动矢量候选项和MMVD运动矢量候选项，所述常规运动矢量候选项和MMVD运动矢量候选项通过常规合并索引被选择以指示被使用的候选项，其中所述单个合并列表为常规合并模式和MMVD这二者构造；以及

当所述常规合并标识为零时，指示常规合并模式没有被CU使用，并且进一步接收模式标识以指示在所述模式标识的约束条件被满足时相关联的合并相关模式被使用；

其中所述方法还包括：

2.如权利要求1所述的方法，其中，所述模式标识是具有运动矢量差的合并模式(MMVD)的标识，并且所述MMVD标识的约束条件包括：

获取编码块，其中编码块具有宽度和高度；

确定编码块的宽度和编码块的高度是否均不等于4；

确定编码块的宽度不等于8或者编码块的高度不等于4；

确定编码块的宽度不等于4或者编码块的高度不等于8；以及

确定所述常规合并标识未被设置；

或

其中所述方法还包括：当MMVD标识等于1时，接收MMVD合并标识、MMVD距离索引和MMVD方向索引；

或

其中所述方法还包括接收子块标识，并且所述子块标识的约束条件包括：

获取编码块，其中编码块具有宽度和高度；

确定基于子块的合并MVP候选项的最大数量(MaxNumSubblockMergeCand)是否大于零；

确定编码块的宽度是否大于等于8；以及

确定编码块的高度是否大于等于8；

或

其中，所述模式标识是联合帧间帧内预测(CIIP)标识，并且所述CIIP标识的约束条件包括：

获取编码块，其中编码块具有宽度和高度；

确定sps_mh_intra_enabled_flag是否被设置；

确定cu_skip_flag是否等于零；

确定编码块的宽度乘以编码块的高度是否大于等于64；

确定编码块的宽度是否小于128；以及

确定编码块的高度是否小于128；

或

其中，所述模式标识是三角标识，并且所述三角标识的约束条件包括：

确定所述常规合并标识是否未被设置；

确定具有运动矢量差的合并模式(MMVD)的标识是否未被设置；

确定合并子块标识是否未被设置；以及

确定模式标识联合帧间帧内预测(CIIP)标识是否未被设置。

3.如权利要求1所述的方法，还包括：

在模式标识的约束条件被满足时，在接收所述模式标识之前接收所述常规合并标识。

4.如权利要求3所述的方法，还包括：

在具有运动矢量差的合并模式(MMVD)的标识的约束条件被满足时，在接收具有运动矢量差的合并模式(MMVD)的标识之前，接收所述常规合并标识；

或

其中所述方法还包括：

在联合帧间帧内预测(CIIP)标志的约束条件被满足时，在接收联合帧间帧内预测(CIIP)标识之前，接收所述常规合并标识。

5.如权利要求1所述的方法，还包括：

在模式标识的约束条件被满足时，在接收所述模式标识之后接收所述常规合并标识。

6.如权利要求5所述的方法，还包括：

在子块合并模式标识的约束条件被满足时，在接收子块合并模式标识之后接收所述常规合并标识。

7.如权利要求1所述的方法，还包括：

接收使用具有一个上下文的上下文自适应二进制算术编码(CABAC)的常规合并标识；或

其中所述方法还包括：接收使用具有多个上下文模型的上下文自适应二进制算术编码(CABAC)的常规合并标识，并且所述上下文模型的选择基于编码信息。

8.一种计算设备，包括：

一个或多个处理器；

耦合到所述一个或多个处理器的存储器；以及

存储在所述存储器中的多个程序，所述多个程序在由所述一个或多个处理器执行时，使得所述计算设备执行权利要求1-7中任一项所述的方法。

9.一种非暂时性计算机可读存储介质，存储有比特流和多个程序，其中所述多个程序当由一个或多个处理单元执行时使得所述计算设备执行根据权利要求1-7中任一项所述的方法以解码所述比特流。

10.一种计算机程序产品，包括用于由具有一个或多个处理单元的计算设备执行的多个程序代码，其中所述多个程序代码在由所述一个或多个处理单元执行时使得所述计算设备执行根据权利要求1-7中任一项所述的方法。

11.一种存储比特流的方法，其中，所述比特流根据如权利要求1-7中任一项所述的方法进行解码。