CN113545081A

CN113545081A - 运动细化以及子分区基础填充的视频处理的方法以及装置

Info

Publication number: CN113545081A
Application number: CN202080019830.2A
Authority: CN
Inventors: 林郁晟; 陈俊嘉; 徐志玮; 陈庆晔; 庄子德; 黄毓文
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2019-03-14
Filing date: 2020-03-13
Publication date: 2021-10-22
Anticipated expiration: 2040-03-13
Also published as: TWI738248B; US11985324B2; EP3918804A4; TW202038627A; CN113545081B; US20220150507A1; EP3918804A1; WO2020182216A1

Abstract

通过帧间预测编码或解码当前块的示例性视频处理方法以及装置被公开。接收当前块的输入数据并将其分割成多个子分区以及对每一子分区单独地执行运动细化。根据初始运动向量(MV)，从一个或多个参考图像获得每一子分区的参考块。通过用N像素细化搜索所述初始MV周围来导出每一子分区的细化的MV。用于子分区的参考块的一个或多个边界像素被填充用于所述子分区的运动补偿。根据其细化的MV，通过执行每一子分区的运动补偿生成所述当前块的最终预测子。然后根据所述最终预测子编码或解码所述当前块。

Description

运动细化以及子分区基础填充的视频处理的方法以及装置

相关引用

本发明主张递交于2019年3月14日，号码为62/618,171，标题为“New Methods forMV Refinement about Padding Modification”的美国临时专利申请案的优先权，上述列出的申请案的全部内容以引用方式并入本文。

技术领域

本发明涉及视频编码以及解码系统中的视频处理方法以及装置。特别地，本发明涉及由具有运动细化(motion refinement)的帧间预测来编码或解码视频数据。

背景技术

高效视频编解码(High-Efficiency Video Coding，简称HEVC)标准是由来自ITU-T研究小组的视频编解码专家的视频编解码联合协作小组(Joint Collaborative Team onVideo Coding，简称JCT-VC)开发的最新视频编解码标准。HEVC标准改善其先前标准H.264/AVC的压缩性能来满足更高图像分辨率、更高帧率以及更好视频质量的需求。

跳过(Skip)以及合并(Merge)因为运动信息是从空间或时间同位块(collocatedblock)继承的，HEVC中的跳过以及合并模式增加运动向量(motion vector，简称MV)的编解码效率。为了在跳过或合并模式中编解码块，仅表示从候选列表中选择的最终合并候选的合并索引被发信，而不是发信运动信息。由在跳过或合并模式中编解码的块再用的运动信息包括MV、预测方向以及所选择最终候选的参考图像索引。注意到，如果所选择的最终候选是时间运动候选，参考图像索引总是被设置为0。当块在合并模式中编解码时，预测残差被编解码，然而，因为在跳过模式中编解码的块的残差数据被强制为0，跳过模式进一步跳过发信预测残差。

图1示出了为HEVC标准中HM-4.0中跳过或合并模式中编解码的当前预测单元(Prediction Unit，简称PU)10构造的合并候选列表。该合并候选列表包含与当前PU 10的多个相邻块相关的四个空间运动候选以及与当前PU 10的同位PU12相关的一个时间运动候选。如图1所示，第一合并候选是左边预测子A₁112、第二合并候选是上方预测子B₁114、第三合并候选是右上预测子B₀113以及第四合并候选是左下预测子A₀111。左上预测子B₂115被包括于合并候选列表来替换不可用的空间预测子。第五合并候选是第一可用时间预测子T_BR121以及T_CTR 122的时间预测子。在导出四个空间运动候选以及一个时间运动候选后，应用修剪(pruning)进程来移除任一冗余运动候选。在该修剪进程后，如果可用运动候选的数目小于5，三种类型的额外候选被导出并被添加到该候选列表。基于如率失真优化(Rate-Distortion Optimization，简称RDO)决定的运动向量竞争，编码器从该候选列表中选择一个最终候选用于跳过或合并模式中编解码的每一PU，以及表示所选择最终候选的索引被发信到解码器。解码器根据视频比特流中传输的索引从候选列表中选择相同的最终候选。因为跳过以及合并候选的导出是类似的，为了简便，后文所引用的“合并”模式可以对应于合并模式以及跳过模式。

在即将到来的视频编解码标准通用视频编解码(versatile video coding，简称VVC)中，一些细化的帧间预测编解码工具被提出来改善帧间预测编解码效率。细化的帧间预测编解码工具包括扩展的合并预测、具有运动向量差值的合并模式(Merge Mode withMotion Vector Difference，简称MMVD)、具有对称MVD信令的AMVP模式、仿射(affine)运动补偿预测、基于子块的时间运动向量预测(SbTMVP)、适应性运动向量分辨率(AdaptiveMotion Vector Resolution，简称AMVR)、如1/16亮度样本MV储存的运动场(motion field)储存以及8×8运动场压缩、具有加权平均的双向预测(Bi-prediction withWeightedAverage，简称BMA)、双向光流(Bi-Directional Optical Flow，简称BDOF)、解码器侧运动向量细化(Decoder side Motion Vector Refinement，简称DMVR)、三角形分割预测(triangle partition prediction)、组合的帧间以及帧内预测(Combined Inter andIntra Prediction)。

扩展的合并预测通过包括后续五种类型的候选来构造合并候选列表：来自空间相邻编解码单元(Coding unit，简称CU)的空间运动向量预测子、来自同位CU的时间MVP、来自先进先出(First In First Out，简称FIFO)表的基于历史的MVP、成对平均MVP以及零MV。合并候选列表的尺寸在片段(slice)标头中被发信以及VVC测试模型4(VVC Test Model 4，简称VTM4)中合并候选列表的最大允许尺寸是6。对于合并模式中编解码的每一CU，最佳合并候选的合并索引使用截断一元(Truncated Unary，简称TU)二进制化来编码。合并索引的第一二进制值(bin)用上下文编解码来编解码以及合并索引的剩余二进制值用旁路(bypass)编解码来编解码。VVC标准中空间合并候选的导出与HVEC标准的相同。从位于图1所述描绘地址的多个候选中选择最多四个合并候选，以及导出的次序是A₁、B₁、B₀、A₀以及B₂。仅当位置A₁、B₁、B₀或A₀的任何CU不可用或者是帧内编解码的时，考虑位置B₂。如果其属于另一个片段或图块，CU被视为是不可用的。在将位置A₁处的候选包括于合并候选列表后，每一后续候选经过冗余检查，其确保具有相同运动信息的任何候选被排除于合并候选列表之外。为了减少计算复杂度，不是所有可能的候选对在冗余检查中被考虑。例如，在位置B₁处的候选仅与在位置A₁处的候选比较，在位置B₀处的候选仅与在位置B₁处的候选比较，在位置A₀处的候选仅与在位置A₁处的候选比较，以及在位置B₂处的候选仅与在位置A₁以及B₁处的候选比较。

在时间合并候选的导出中，基于属于同位参考图像的同位CU导出缩放的运动向量。将用于导出同位CU的参考图像列表在片段标头中被明确发信。如图2中的虚线所示，获得时间合并候选的缩放MV，其根据图像次序计数(Picture Order Count，简称POC)距离tb以及td从同位CU的MV来缩放。POC距离tb被定义为当前图像与当前图像的参考图像之间的POC差值。POC距离td被定义为同位图像与同位图像的参考图像之间的POC差值。时间合并候选的参考图像索引被设置为等于0。时间合并候选的位置从如图1所示的T_BR 121以及T_TR122之间选择。当在位置T_BR 121处的CU不可用、或者是帧内编解码、或者在CTU的当前列(row)之外的情况下，在位置T_TR 122处的CU用于导出时间合并候选。

HMVP合并候选导出基于历史的MVP(History-based MVP,简称HMVP)合并候选在空间以及时间MVP后被添加到合并候选列表。先前编解码块的运动信息被存储于表中以及用作当前CU的MVP。在编码或解码进程中，具有多个HMVP候选的表被保持。当遇到新的CTU列时，表被重设为空。无论是否存在非子块帧间编解码的CU，相关运动信息被添加到表的最后一个条目作为新的HMVP候选。例如，HMVP表尺寸S被设置为6，指示至多6个HMVP候选可以被添加到表中。当新的运动候选被插入表中时，约束的先进先出(First In First Out，简称FIFO)规则被应用来执行冗余检查。通过从表移除完全相同的HMVP以及向前移动在相同HMVP后存储所有HMVP候选，冗余检查确保新的运动候选不等于表中任何现有的HMVP。HMVP候选可以用于合并候选列表构造进程。按顺序检查表中最后几个HMVP候选以及在时间MVP候选后插入到合并候选列表中。冗余检查被应用于具有空间或时间合并候选的多个HMVP候选。后续两个简化被引入来减少用于HMVP候选的冗余检查操作的数目。首先，用于合并集合生成的HMVP候选的数目被约束为(N<＝4)？M:(8-N)，其中N指示合并候选列表中现有候选的数目以及M指示该表中可用HMVP候选的数目。其次，一旦合并候选的总数目达到最大允许的合并候选减1，结束添加HMVP到合并候选列表的进程。

成对的平均合并候选导出通过平均现有合并候选列表中多个预定候选对，生成多个成对的平均候选，以及预定对被定义为{(0,1),(0,2),(1,2),(0,3),(1,3),(2,3)}，其中数字表示合并候选列表的合并索引。平均运动向量被分别计算用于每一参考图像列表。在当两个MV在一个参考图像列表中都可用的情况下，即使这两个MV指向不同的参考图像，该两个MV被平均。在当仅一个MV可用时，直接使用这一MV。如果没有MV可用，参考图像列表是无效的。当添加成对平均合并候选后，合并候选列表在未满时，零MVP被插入合并候选列表的最后直到候选的数目达到最大合并候选数目。

具有MVD的合并模式除了合并模式，具有运动向量差值的合并模式(Merge Modewith Motion Vector Difference,简称MMVD)被引入VVC标准。紧接着跳过以及合并标志(flag)发信CU的MMVD标志来指示MMVD是否用于编解码CU。为了使用MMVD编解码CU，合并候选被选择用于该CU，通过发信与该CU相关的MVD信息，进一步细化该预测子。进一步被发信用于该CU的该MVD信息包括合并候选标志、指定运动幅度信息的距离索引以及指示运动方向的方向索引。合并候选标志被发信来指定合并候选列表中首先两个候选中的哪一候选被选择为MMVD的起始MV。距离索引指定运动幅度信息以及指示从起始MV的预定偏移。图3示出了MMVD的起始点。如图3所示，偏移被添加到起始MV的水平分量或垂直分量。在表1中指定了距离索引与预定偏移的关系。

表1-距离索引与预定偏移的关系

方向索引表示相对于起始MV的MVD的方向。方向索引指示如表2所示的四个方向之一。MVD符号的含义根据起始MV的信息是可变的。例如，当起始MV是单向预测MV或两个MV指向当前图像的相同侧的双向预测MV时，表2中的符号指定被添加到起始MV的MV偏移的符号。当起始MV是两个MV指向当前图像的不同侧的双向预测MV时，表2中的符号指定被添加到起始MV的列表0MV分量的MV偏移的符号，以及起始MV的列表1MV分量的符号具有相反值。当两个参考图像的POC都大于当前图像的PCO或者当两个参考图像的POC都小于当前图像的POC时，两个MC执行当前图像的相同侧。当一个参考图像的POC大于当前图像的POC以及其他参考图像的POC小于当前图像的POC时，两个MV指向当前图像的不同侧。

表2-由方向索引指定的MV偏移的符号

方向索引	00	01	10	11
					X轴	+	-	N/A	N/A
Y轴	N/A	N/A	+	-

解码器MV细化(Decoder MV Refinement，简称DMVR)双边模板(template)MV细化，也被称为解码器MV细化(DMVR)，被应用于合并模式来改善编解码效率。DMVR在编码器以及解码器侧两者中工作以及其仅被应用于双向预测。双边模板MV细化的主要概念是通过如图4示出的合并模式中的运动估计搜索来细化MV。对于具有双向预测MV的合并候选，包括列表0(L0)MV442以及列表1(L1)MV462，双边模板MV细化的步骤被描述如下。在DMVR的第一步中，定位由L0 MV 442指出的L0参考块444以及定位由L1 MV 462指出的L1参考块464。在DMVR的第二步中，由L0参考块444以及L1参考块464的信息生成双边模板42，例如，双边模板42被计算为L0参考块444与参考块464的平均值。在第三步中，双边模板42用于执行整数运动估计以及分数运动估计搜索L0参考图像44中L0参考块444周围的P像素×Q像素的搜索范围来找到具有最小运动估计成本的位置。运动估计成本的实施例是绝对差和(Sum ofAbsoluteDifference，简称SAD)。最小运动估计成本的最终位置被分配给L0的细化MV446。在第三步中，双边模板也用于执行整数运动估计以及分数运动估计搜索L1参考图像46中L1参考块464周围的P像素×Q像素的搜索范围来找到最小运动估计成本的位置。最佳运动估计成本的最终位置被分配给L1的细化的MV 466。在第四步中，由L0的细化MV 446指出的L0细化块448以及由L1的细化MV 466指出的L1细化块468是下一阶段的最终参考块，例如，这两个最终参考块448以及468用于运动补偿。

基于样式(Pattern-based)的MV导出(Pattern-based MV Derivation，简称PMVD)基于样式的MV导出(PMVD)方法也被称为帧率上转换(Frame Rate Up Conversion，简称FRUC)，是包含用于双向预测块的双边匹配(bilateral matching)以及用于单向预测块的模板匹配的编解码工具。当合并或跳过标志为真时，发信标志FRUC_mrg_flag，以及如果FRUC_mrg_flag为真，FRUC_mrg_mode被发信来指示如图5示出的双边匹配合并模式或如图6示出的模板匹配合并模式是否被选择。在基于样式的MV导出方法中，通过扫描所有参考图像中的所有MV，导出被称为时间导出MVP的新的运动向量预测子(MVP)。例如，为了导出L0时间导出的MVP，L0参考图像中的每一L0 MV被缩放来指向当前图像。由当前图像中这一缩放的MV指向的4×4块是目标当前块。MV被进一步缩放来指向L0中参考索引等于0的参考图像用于目标当前块。进一步缩放的MV被存储于L0 MV场用于目标当前块。图7示出了导出时间导出的MVP的示例。所有参考图像中的所有4×4块中的多个MV被扫描来生成当前图像的时间导出的L0以及L1 MVP。对于每一MV，MV被缩放来获得当前图像中的十字块，以及然后计算缩放的MVP并被分配给该十字块。

双边匹配合并模式以及模板匹配合并模式都包括两阶段匹配：第一阶段是预测单元级(PU级)匹配，以及第二阶段是子PU级匹配。在PU级匹配中，分别选择L0以及L1中的多个初始MV。这些MV包括来自合并候选的MV(即，如在HEVC标准中指定的这些传统合并候选)以及来自时间导出的MVP的MV。两个不同的起始MV集合被生成用于两个列表。对于一个列表中的每一MV，通过组合这一MV与镜像MV生成MV对，该镜像MV通过缩放该MV到另一个列表来导出。对于每一MV对，通过使用这一MV对补偿两个参考块。计算这两个块的绝对差和(SAD)。具有最小SAD的MV对被选择为最佳MV对。菱形搜索(diamond search)然后被执行来细化该MV对。细化精度是1/8像素。细化搜索范围被限制于±8像素。最终MV对是PU级导出的MV对。

PMVD方法的第二阶段中的子PU级搜索搜索每一子PU的最佳MV对。当前PU被拆分成多个子PU，其中子PU的深度在4×4样本的最小子PU尺寸的序列参数集(SequenceParameter Set，简称SPS)中被发信。列表0以及列表1中的多个起始MV被选择用于每一子PU，其中包括PU级导出的MV对、零MV、当前子PU以及右下块的HEVC同位TMVP、当前子PU的时间导出的MVP，以及PU或子PU左边以及上方的MV。通过使用PU级搜索中类似的机制，选择每一子PU的最佳MV对。然后执行菱形搜索来细化最佳MV对。然后执行每一子PU的运动补偿来生成每一子PU的预测子。

对于图5示出的双边匹配合并模式，基于两个参考图像Ref0以及Ref 1导出当前图像中的当前块510的运动信息。当从合并模式导出的运动向量是指向两个参考图像的双向预测时，该两个参考图像到当前图像的距离相等(即，时间距离TD0＝TD1)，双向匹配被应用。通过沿着两个参考图像Ref0以及Ref 1中当前块的运动轨迹540搜索两个块520与530之间的最佳匹配来导出当前块510的运动信息。在假设运动轨迹连续的情况下，指向两个参考块的与Ref0相关的运动向量MV0以及与Ref 1相关的运动向量MV1将与当前图像与两个参考图像Ref0以及Ref1之间的时间距离TD0以及TD1成比例。

图6示出了模板匹配(template matching)合并模式的示例。当前块的上方四行(row)以及左边四列(column)的重构像素用于形成模板，例如，当前图像中的当前块610的两个相邻区域620a以及620b被用作当前块610的模板。用其对应的MV执行模板匹配来找到最佳匹配的模板，例如，用其对应的运动向量640找到参考图像Ref0中最佳匹配的模板630a以及630b。在两阶段匹配的PU级匹配中，列表0以及列表1中若干起始MV被选择，如来自合并候选的MV以及来自时间导出的MVP的MV。两个不同的起始MV集合被生成用于两个列表。对于一个列表中的每一MV，计算具有该MV的模板的SAD成本。具有最小SAD成本的MV是最佳MV。然后用1/8像素的细化精度执行菱形搜索来细化该最佳MV，以及限制细化搜索范围为±1像素内。最终的MV是PU级导出的MV。单独生成列表0以及列表1中的MV。对于子PU级搜索，当前PU被拆分成多个子PU。对于在左边或上方PU边界的每一子PU，选择列表0以及列表1中的几个起始MV，以及通过使用PU级搜索中类似的机制，选择在左边或上方PU边界处的每一子PU的最佳MV对。执行菱形搜索来细化该MV对。根据该细化的MV对执行运动补偿来生成每一子PU的预测子。对于不在左边或上方PU边界的PU，不应用子PU级搜索，以及对应的MV被设置为等于第一阶段的MV。而列表0参考图像(Ref0)被示出于图6中，列表1参考图像(Ref 1)也可以被用作模板匹配搜索的参考图像。

在这一解码器MV导出方法中，模板匹配也有用于生成MVP用于高级运动向量预测(Advanced Motion Vector Prediction，简称AMVP)模式编解码。执行模板匹配来在所选参考图像上找到最佳模板，以及其对应的MV是导出的MVP。这一导出的MVP然后被插入AMVP候选列表的第一位置。

PMVD不限于上述描述，使用PMVD行为的基于样式的细化的任何帧间模式工具也可以被标注为PMVD或FRUC模式。PMVD模式的一个实施例发信PMVD合并索引到解码器来指示哪一合并候选被选择用于MV细化，然而在PMVD的原始版本中，解码器尝试所有合并候选来找到最佳起始MV。在一个实施例中，子PU细化的步骤被跳过用于PMVD编解码工具中的模板匹配，然而，执行子PU细化用于PMVD编解码工具中的双边匹配。在PMVD模式的另一个实施例中，也不执行子PU细化用于双边匹配，即仅PU级匹配的第一阶段被执行用于PMVD编解码工具中的双边以及模板匹配两者。

基于双边匹配的DMVR DMVR的实施例用基于PMVD双边匹配模式的双边匹配方法替换双边模板生成。基于DMVR的双边的示例在文献JVET-K0217中进行描述，于2018年7月10-18日，斯诺文尼亚的卢布尔雅那的ITU-T SG 16WP3以及ISO/IEC JTC 1/SC 29/WG 11的联合视频专家组(JVET)的第11次会议提出。在另一个文献JVET-M0029中，基于双边的DMVR被进一步简化来减少所需要的计算复杂度。一种简化使用基于块的细化而不是基于CU的细化。尺寸等于M×N样本的CU被分割成尺寸等于min(M,16)×min(N,16)的几个单元，其中min(x,y)表示x与y之间的最小值。CU中每一单元被单独细化。

基于VVC的DMVR为了增加合并模式的运动向量的精度，在VVC标准中提出了基于双边匹配的解码器侧运动向量细化。为了由双向预测操作编码或解码块，在参考图像列表L0以及参考图像列表L1中的初始MV周围搜索细化的MV。计算参考图像列表L0与列表L1中两个候选块之间的失真。在图8示出了解码器侧运动向量细化的示例。基于初始MV周围的MV候选，计算参考块844与864之间的绝对差和(SAD)。具有最低SAD的MV候选成为细化的MV以及用于生成双向预测信号。当这一CU在具有双向预测MV的CU级合并模式中被编解码时，DMVR被应用于当前图像中的CU，其中MV指向关于当前图像的过去的一个参考图像以及未来的一个参考图像，每一参考图像与当前图像之间的距离是相同的，以及这一CU具有超过64个亮度样本，其CU高度超过8亮度样本。由DMVR进程导出的细化的MV用于生成帧间预测样本，以及细化的MV也用于去块滤波进程以及空间运动向量预测用于未来的CU编解码。

如图8所示，搜索点在起始MV周围以及来自起始MV的搜索点的MV偏移遵循MV差值镜像规则。换言之，由DMVR检查的具有候选MV对(MV0,MV1)的任何点需要遵循以下两个等式：

MV0′＝MV0+MV_offset

MV1′＝MV1-MV_offset

其中MV_offset表示起始MV与参考图像之一中细化的MV之间的细化偏移。在VVC测试模型4(VTM4)中，细化搜索范围是从起始MV开始的两个整数亮度样本。

图9示出了基于VVC的DMVR的搜索进程。搜索进程包括整数样本偏移搜索阶段92以及分数样本细化阶段94。为了减少搜索复杂度，具有提早结束方案的快速搜索方法被应用于整数样本偏移搜索阶段92。应用具有减少的SAD检查点的2迭代搜索方案，而不是25点全搜索。如图10所示，在第一迭代中检查6个SAD的最大值。首先，比较中心位置与四个相邻位置P1～P4的SAD，以及如果中心位置的SAD是五个SAD中的最小值，结束DMVR的整数样本偏移搜索阶段92。否则，由所检查位置的SAD分布决定又一个位置，位置P5被决定以及被检查。P1到P5中具有最小SAD的位置被选择为第二迭代搜索的中心位置。第二迭代搜索的进程与第一迭代搜索相同。第一迭代中计算的SAD可以在第二迭代中被再次使用。在基于VVC的DMVR中，使用参数误差面(parametric error surface)等式而不是SAD比较来导出在整数样本搜索后执行的分数样本细化以节省计算复杂度。基于整数样本搜索阶段的输出，条件地调用分数样本细化。在当整数样本搜索阶段由具有第一或第二迭代搜索中最小SAD的中心位置结束的情况下，应用分数样本细化。在基于参数误差面的子像素偏移估计中，中心位置成本以及四个相邻位置的成本被用于符合(fit)二维抛物线误差面等式，如下所示：

E(x，y)＝A(x-x_min)²+B(y-y_min)²+C

其中(x_min，y_min)对应于具有最小成本的分数位置，以及C对于与最小成本值。通过使用五个搜索位置的成本值解析上述等式，(x_min，y_min)被计算如下：

x_min＝(E(-1，0)-E(1，0))/(2(E(-1，0)+E(1，0)-2E(0，0)))

y_min＝(E(0，-1)-E(0，1))/(2((E(0，-1)+E(0，1)-2E(0，0)))

因为所有成本值是正数以及最小值是E(0，0)，x_min以及y_min的值自动被约束为-8到8之间。这对应于VTM4中具有1/16像素MV精度的半像素偏移。所计算的分数(x_min，y_min)被添加到整数距离细化MV来获得子像素精确细化δMV。

线性插值以及样本填充VVC标准中MV的分辨率是1/16亮度样本。在分数位置的样本使用8抽头插值滤波器进行插值。在DMVR中，搜索点在具有整数样本偏移的初始分数像素MV周围。因为这些搜索点位于分数位置，通过插值生成用于DMVR搜索进程的这些搜索点。为了减少计算复杂度，使用双线性插值滤波器来生成DMVR搜索进程的分数样本。通过使用具有2样本搜索范围的双线性插值滤波器，相比于普通运动补偿进程，DMVR不存取更多参考样本。在用DMVR搜索进程取得细化的MV后，普通的8抽头滤波器被应用来生成最终预测。为了限制由用于细化的MV的插值进程存取的参考样本的数目不大于由原始MV的插值进程存取的参考样本的数目，用于细化的MV的插值进程需要的任何样本将从这些可用样本来填充。

最大DMVR处理单元当CU的宽度与高度的一个或两者大于16亮度样本时，CU被进一步分割成多个子块，宽度以及高度的一个或两者等于16亮度样本。DMVR搜索进程的最大处理单元尺寸被限制于16×16样本。

基于VVC的AMVR在HEVC标准中，当片段标头(slice header)中的标志use_integer_mv_flag等于0时，运动向量与所预测运动向量之间的运动向量差值(MotionVector Difference，简称MVD)以四分之一亮度样本单元来被发信。在VVC标准中，引入了CU级适应性运动向量分辨率(AMVR)方案。AMVR允许CU的MVD以四分之一亮度样本、整数亮度样本或四亮度样本的单元来编解码。如果当前CU具有至少一个非零MVD分量，CU级MVD分辨率指示被条件地发信。如果所有MVD分量为0，即用于参考列表L0以及参考列表L1的水平以及垂直MVD两者为0，四分之一亮度样本MVD分辨率被推断。

对于具有至少一个非零MVD分量的CU，第一标志被发信来指示四分之一亮度样本MVD精度是否用于CU。如果用于该CU的该第一标志是0，四分之一亮度样本MVD精度用于当前CU以及不需要进一步的信令。否则，第二标志被发信来指示是否使用整数亮度样本或四亮度样本MVD精度。为了确保重构MV具有预期精度，与在与对应的MVD相加之前，CU的运动向量预测子将被舍入到与MVD的相同的精度。运动向量预测子朝0舍入，即，负数运动向量预测子朝正无穷大舍入以及正数运动向量预测朝负无穷大舍入。编码器使用率失真检查决定该当前CU的运动向量分辨率。为了避免总是执行三次CU级率失真检查用于每一MVD分辨率，在VTM4中，四亮度样本MVD分辨率的率失真检查仅被条件地调用。首先计算四分之一亮度样本MVD精度的率失真成本，然后将整数亮度样本MVD精度的率失真成本与四分之一亮度样本MVD精度的率失真成本进行比较。如果四分之一亮度样本MVD精度的率失真成本远小于整数亮度样本MVD精度的率失真成本，四亮度样本MVD精度的率失真检查被跳过。

双向光流(Bi-Directional Optical Flow，简称BDOF)通过光流以及目标稳定运动的假设，双向光流(Bi-Directional Optical Flow,简称BDOF)实现4×4子块级运动细化。BDOF仅被应用于亮度分量，以及如果其满足后续三个条件，BDOF被应用于CU。首先，CU高度不是4以及CU尺寸不是4×8，其次，CU不使用仿射(affine)模式或ATMVP合并模式来编解码，第三，CU是真正的双向预测块。该真正的双向预测块是从两个参考图像预测的当前图像中的块，一个参考图像是先前图像以及另一个参考图像是后续图像。通过混合从列表0的参考图像检索的一个列表0预测子以及从列表1的参考图像检索的一个列表1预测子来导出双向预测块的预测子。图11示出了应用BDOF来细化双向片段(B-slice)中4×4子块的运动的示例。4×4子块中每一样本由L0以及L1参考图像中对应的像素来预测。对于每一4×4子块，由最小化L0与L1预测样本之间的差值计算细化的运动(v_x,v_y)。细化的运动然后用于调整4×4子块中的双向预测值。BDOF采用6×6窗口来导出每一4×4子块的运动细化，以及后续步骤被应用于BDOF进程。

首先，通过直接计算两个相邻样本之间的差值来计算两个预测信号的水平以及垂直梯度

以及

其中k＝0，1。

其中I^(k)(i，j)是在列表k(k＝0，1)中预测信号的坐标(i，j)的样本值。然后，梯度(gradient)S1、S2、S3、S5以及S6的自相关(auto-correlation)以及互关联(cross-correlation)被计算如下：

S₁＝∑_(i，j)∈Ωψ_x(i，j)·ψ_x(i，j)，S₃＝∑_(i，j)∈Ωθ(i，j)·ψ_x(i，j)

S₅＝∑_(i，j)∈Ωψ_y(i，j)·ψ_y(i，j)S₆＝∑_(i，j)∈Ωθ(i，j)·ψ_y(i，j)

其中

θ(i，j)＝(I⁽¹⁾(i，j)＞＞n_b)-(I⁽⁰⁾(i，j)＞＞n_b)

其中Ω是4×4子块周围的6×6窗口。然后使用互相关以及自相关术语导出细化的运动(v_x，v_y)，使用如下等式：

其中

th′_BIO＝2^13-BD以及

是地板函数(floor function)。基于运动细化以及梯度，后续调整被计算用于4×4子块中的每一样本：

最后，通过调整双向预测样本如下来计算CU的细化的BDOF的样本：

pred_BDOF(x，y)＝(I⁽⁰⁾(x，y)+I⁽¹⁾(x，y)+b(x，y)+o_offset)＞＞shift

在上述等式中，n_a、n_b以及

的值分别等于3、6以及12。选择这些值以致BDOF进程中的乘法器不超过15比特，以及BDOF进程的中间参数的最大比特宽度被保持在32比特内。

为了导出梯度值，需要生成当前CU边界之外的列表k中的一些预测样本I^(k)(i，j)。如图12所描绘的，BDOF使用CU边界周围的一个扩展的行以及列用于插值。为了控制生成边界外预测样本的计算复杂度，线性滤波器用于生成扩展区域中的预测样本，以及普通的8抽头运动补偿插值滤波器用于生成CU内的预测样本。这些扩展样本值仅用于梯度计算。对于BDOF进程中的剩余步骤，如果需要CU边界外的任何样本以及梯度值，从最近相邻CU填充样本。

在基于块的BDOF操作中，采用两个提早结束进程来减少BDOF操作的计算复杂度。首先计算CU的两个预测子之间的SAD，一个预测子来自L0以及另一个预测子来自L1，以及如果两个预测子之间的SAD小于一个阈值，因为两个预测子足够好，BDOF操作被跳过。否则，BDOF操作被应用该CU。当BDOF操作被应用于当前CU时，根据每一4×4块的两个预测子之间的SAD，BDOF操作被选择性应用于每一4×4块。当当前4×4块中的两个预测子之间的SAD小于阈值时，BDOF操作被跳过。

发明内容

视频编解码系统中视频处理的示例性方法执行双向运动补偿来编码或解码视频块。示例性视频处理方法接收与当前图像中当前块相关的输入视频数据，将该当前块拆分成多个子分区，根据初始MV从一个或多个参考图像中获得该当前块中每一子分区的参考块。该视频处理方法进一步包括填充每一子分区的该参考块的一个或多个边界像素，根据该细化的MV执行每一子分区的运动补偿来生成该当前块的最终预测子，以及根据该最终预测子编码或解码该当前块。通过用N像素细化搜索该初始MV周围执行运动细化。

在该视频处理方法的示例性实施例中，该视频处理方法进一步包括检查该当前块的尺寸、宽度或高度是否大于或等于阈值，以及当该当前块的该尺寸、宽度或高度大于或等于该阈值时，将该当前块分割成多个子分区。例如，该阈值时16×16、16×8、8×16、8或16。例如，当该当前块的该尺寸大于16×16或当该宽度或高度大于16时，该当前块被分割成16×16子分区。在另一示例中，当该当前块的该宽度或高度大于或等于8时，该当前块被分割成具有16×8或8×16样本的多个子分区。

当每一子分区的尺寸是W×H样本时，每一子分区的该参考块的尺寸是(W+7)×(H+7)。在一些实施例中，运动细化包括在水平或垂直方向上至多2像素细化的整数搜索。

在一些实施例中，仅当该子分区的使用该细化的MV的运动补偿所需要的任何像素在该参考块之外时，填充该参考块的一个或多个边界像素用于该子分区。在一些实施例中，通过复制该参考块的上方、下方、左边以及右边的边界像素，该填充操作扩展每一子分区的该参考块。通过整数搜索紧接着分数样本细化导出该当前块的每一子分区的该细化的MV。在一个实施例中，8连接搜索样式被用于运动细化的整数搜索。该8连接搜索样式检查与中心位置相关的8个连接的整数位置，包括该中心位置的左边、上方、右边、下方、左上方、右上方、左下方以及右下方相邻位置。在一些实施例中，使用参考误差面操作导出该分数样本细化，以及中心成本以及四个相邻位置的成本用于符合二维抛物线误差面操作。为了减少系统的复杂度，当后续BDOF操作被启用时，该参数误差面操作被禁用。在一个实施例中，2像素距离MV变化被采用用于该运动细化的整数搜索中的一个搜索迭代。

在视频处理方法的一些示例性实施例中，根据该当前块的尺寸或该当前图像的帧分辨率，决定该运动细化的搜索区域数目N。例如，较大块被分配较大搜索区域数目用于运动细化。如果该初始MV具有分数部分，通过将参考图像像素插值到分数位置来获得每一子分区的参考块。在另一个实施例中，通过直接使用该参考图像的原始整数像素获得每一子分区的该参考块，以及参考误差面操作被采用来决定分数像素细化。例如，该初始MV被舍入到最近整数MV，以及通过直接使用该原始整数像素，该舍入的MV用于导出每一子分区的该参考块。

在一些实施例中，如果初始匹配位置的初始绝对差和(SAD)大于预定阈值，运动细化被跳过用于该当前块。在一些其他实施例中，如果该初始MV与该细化的MV之间的MV差值大于阈值，后续的BDOF操作被禁用。

本发明一方面进一步提供了视频编解码系统中用于处理视频数据的装置的实施例。装置的实施例包括一个或多个电子电路，用于接收当前图像中当前块的输入数据，将该当前块分割成多个子分区，根据初始MV从一个或多个参考MV获得每一子分区的参考块，导出细化的MV用于该当前块的每一子分区来对每一子分区执行运动细化，对于使用该细化的MV的子分区的运动补偿，填充该参考块的一个或多个边界像素用于该子分区，根据该细化的MV执行每一子分区的运动补偿来生成该当前块的最终预测子，以及根据该最终的预测子编码或解码该当前块。通过用N像素细化搜索该初始MV周围执行运动细化，例如，N是2。

本发明的一方面进一步提供了存储程序指令的非瞬时计算机可读媒介，使得装置的处理电路执行视频处理方法来编码或解码在用运动细化的帧间预测中编解码或将在其编解码的当前块。在执行运动细化到该当前块的多个子分区后，对每一子分区执行填充操作来扩展运动补偿所需要的该子分区的该参考块。在阅读特定实施例的后续描述后，本发明的其他方面以及特征对所属技术领域的技术人员者将是显而易见的。

附图说明

作为示例提出的本公开的各种实施例将结合后续附图进行详细描述，以及其中：

图1示出了HEVC标准中定义的用于构造合并候选列表的空间运动候选以及时间运动候选的位置。

图2示出了时间合并候选的缩放MV的生成。

图3示出了用于列表0参考块以及列表1参考块中的具有MVD的合并模式(MMVD)的搜索点。

图4示出了双边模板MV细化的概念。

图5示出了应用双边匹配用于当前图像的当前块来搜索两个相等距离参考图像中的参考块的示例。

图6示出了应用模板匹配用于当前图像中的当前块来搜索MV的示例，该MV指向具有最佳匹配模板的参考块。

图7示出了基于样式的MV导出方法中时间导出的MVP的概念。

图8示出了用于细化初始MV的解码器侧运动向量细化(DMVR)的概念。

图9示出了包括整数样本偏移搜索阶段以及分数样本细化阶段的DMVR操作。

图10示出了DMVR整数亮度样本搜索样式的示例。

图11示出了应用双向光流(BDOF)用于样本细化的示例。

图12示出了BDOF操作中使用的当前CU的扩展的CU区域。

图13示出了造成子分区之间不规律的CU基础参考样本填充的示例。

图14示出了根据本发明实施例的子分区基础参考样本填充的示例。

图15是用运动细化处理当前块的本发明示例性实施例的流程图。

图16示出了根据本发明实施例的用于合并视频处理方法的视频编码系统的示例性系统框图。

图17示出了根据本发明实施例的用于合并视频处理方法的视频解码系统的示例性系统框图。

具体实施方式

将容易理解，如本文图示所描述以及所示出的本发明的元件可以以各种不同的配置进行安排以及设计。因此，如图示中所表示的，本发明系统以及方法的实施例的后续更详细描述不旨在限制本发明的范围，如所要求的，仅是本发明所选实施例的表示。在本公开中，系统以及方法被描述用于用运动细化编码工具处理双向预测块，其中每一方法或其组合可以在视频编码器或视频解码器中实施。实施一个方法或其组合的示例性视频编码器或解码器分别如图16以及图17所示。本发明的各种实施例减少实施运动细化编解码工具的计算复杂度。本文所描述的系统以及方法被组织于如下分段。

DMVR中子分区基础填充如果CU的尺寸、宽度或者高度大于或大于等于阈值，基于VVC的解码器运动向量细化(DMVR)操作将CU分割成多个子分区，以及DMVR操作被单独地应用于每一子分区。例如，子分区的尺寸是16×16，以及宽度或高度的阈值是16或者尺寸的阈值是256样本。在另一个示例中，尺寸的阈值是128样本，以及CU被分割成多个8×16或16×8或者16×16子分区。宽度或高度的阈值可以是8或16样本。对于宽度W以及高度H的子分区，用于生成该子分区的运动补偿参考块所需要的参考样本的数目是(W+7)×(H+7)。双线性插值滤波器用于生成分数样本，用于来自每一子分区的所检索的(W+7)×(H+7)参考样本的DMVR中的搜索进程。所生成的分数样本被称为运动补偿(MC)的子分区参考块，以及该子分区参考块包含(W+7)×(H+7)个样本。在DMVR搜索进程获得细化的MV后，普通的8抽头插值滤波器被应用来生成最终的MC预测子。细化的MV用于MC以及用于生成时间运动向量预测子(TMVP)。在先前实施例中，在DMVR细化后，在CU基础上执行用于MC 8抽头插值滤波器的CU周围的填充。图12示出了用于运动补偿参考样本生成的CU方面样本填充。在图12中，当前CU的尺寸是128×128，为当前CU提取的参考块130的尺寸是135×135。当前CU被拆分成64个16×16子分区用于DMVR中的运动细化。每一子分区的尺寸是16×16个样本，以及每一子分区的参考块包含(16+7)×(16+7)个样本。在图13中，子分区A、B以及C 132、134以及136的子分区参考块132a、134a以及136a由对应的子分区周围的实线所描绘，以及因为DMVR中采用了±N像素细化的整数搜索，在DMVR细化后需要的尺寸等于(16+7+2N)×(16+7+2N)的参考区域132b、134b以及136b由对应的搜索范围周围的虚线所描绘。在由DMVR的运动细化后，对于不位于CU边界的当前子分区，如子分区A 132，在没有填充操作的情况下，运动补偿需要的参考区域132b从参考块130来检索。然而，对于位于CU边界的当前子分区，如子分区B 134以及子分区C 136，从一个或多个CU边界导出的填充像素可以用于运动补偿。例如，在子分区B134的运动补偿所需要的参考区域134b的右边边界的一些像素在参考块130之外，因此，由填充操作生成这些不可用像素。在子分区C 136的运动补偿所需要的参考区域136b的底边界的一些像素在参考块130之外，因此，由填充操作生成这些不可用像素。简言之，如图13所示，在当前CU中不同子分区的填充操作之间存在不规律，其增加设计复杂度。

本发明的示例性实施例在每一子分区的子分区参考块周围执行填充，其意味着填充是子分区基础(sub-partitionbase)而不是CU基础(CU base)。子分区基础填充相比CU基础填充的主要益处包括减少子分区之间的填充不规律以及减少DMVR操作的内存带宽或内部储存。通过实施本发明的实施例，相比于传统DMVR硬件设计，DMVR的硬件设计更规律以及更简单。在一些实施例中，在由DMVR的每一子分区的运动细化后，运动补偿中8抽头插值滤波器所需要的不可用像素被填充到子分区的子分区参考块的周围。例如，如果运动补偿需要子分区参考块的任何上方、左边、底部或者右边相邻样本，由子分区参考块的边界像素填充这一样本。图14示出了根据本发明实施例的子分区基础填充的示例。在这一示例中，尺寸为128×128样本的当前CU被分割成每一尺寸为16×16样本的几个子分区。根据被截断到整数位置的初始MV，从参考图像获得当前CU的参考块140。获得参考块140内的子分区参考块142a用于子分区142，其中子分区参考块142a的尺寸是(16+7)×(16+7)样本。DMVR采用±N像素细化的整数搜索，在对子分区142执行DMVR后，子分区142的运动补偿所需要的一些像素可以位于所提取的子分区参考块142a之外。在子分区参考块142a外的运动补偿所需要的任何像素由填充来生成。

在一个特定实施例中，当前CU被拆分成每一尺寸为16×16样本的多个子分区。对于每一子分区，根据初始MV，从参考图像检索23×23参考样本，双线性插值滤波器用于生成23×23样本的子分区参考块用于每一子分区。DMVR采用±N像素细化的整数搜索，在整数搜索期间，由N像素填充子分区参考块的上方、下方、左边以及右边界。例如，DMVR中的整数搜索在每一方向上可以将运动向量细化2像素。在DMVR细化后，如果8抽头插值滤波器所需要的任何像素在原始提取的23×23参考样本之外，填充像素用于运动补偿来生成最终预测子。

本发明的实施例生成填充像素用于每一子分区的运动补偿滤波，其通过复制子分区参考块的上、下、左以及右边界像素来扩展每一子分区的子分区参考块。子分区的子分区参考块外的角落像素复制子分区的子分区参考块内的对应角落像素。完成用于生成CU的最终预测子的填充操作用于CU的每一子分区。填充操作类似于基于传统VVC的DMVR填充操作，除了填充进程是统一的以及被应用于每一子分区而不是每一CU。

示例性实施例的代表性流程图图15示出了根据本发明示例性实施例的用运动细化编码或解码当前块的视频处理方法的流程图。在步骤S1502，视频编码或解码系统接收与在帧间预测中编解码的或将被编解码的当前块相关的输入数据。在步骤S1504、S1506以及S1508中将DMVR操作应用到该当前块用于运动细化。在步骤S1504，因为DMVR操作被独立地应用于每一子分区，该当前块被分割成多个子分区。在步骤S1506，根据初始MV，从参考图像获得参考块用于该当前块中的每一子分区。例如，提取(W+7)×(H+7)参考块用于每一W×H子分区。DMVR操作导出细化MV用于每一子分区，以及通过用N像素细化搜索初始MV周围，该DMVR操作执行运动细化。例如，在DMVR操作中每一方向中至多允许2像素细化。在步骤S1510，在该DMVR操作后，填充操作被应用于每一子块的该参考块周围用于生成运动补偿的像素。在一个实施例中，该视频编码系统或视频解码系统可以检查运动补偿所需要的任何像素是否在该参考块之外(即，所需要的像素在当前参考块是不可用的)，以及如果运动补偿所需要的一些像素位于参考块之外，生成填充像素。在步骤S1510，通过复制该子分区的该参考块的边界像素，该填充操作被应用于每一子分区。在步骤S1512，根据每一子分区的细化MV执行每一子分区的运动补偿来生成该当前块的一最终预测子。在步骤S1514，根据该最终预测子编码或解码该当前块。

BDOF的子分区基础填充VVC BDOF包括填充技术来生成CU边界外的填充像素来使CU边界外的像素可用。在本发明的一个实施例中，在BDOF操作中采用具有子块基础填充的填充技术。例如，当BDOF操作被应用于当前CU的每一子分区时，即，BODF的操作单元是8×8像素，填充技术用于生成每一8×8子分区的边界的填充像素。在另一个实施例中，填充的边界不需要等于操作单元的边界，以及填充的边界与BDOF的操作单元所需要的范围相关。例如，为每一8×8BDOF操作单元采用9×9需要的范围，因此填充区域是9×9像素。换言之，填充操作可以基于BDOF的操作单元，例如，为每一4×4子分区做BDOF，以及操作单元是4×4，或者填充操作可以与BDOF的操作单元相关，例如，为每一4×4子分区做BDOF，其需要5×5区域，以及填充区域是5×5像素。

8连接搜索样式在DMVR整数搜索的一个实施例中，使用一个整数搜索运行的8连接搜索而不是十字型搜索样式。在基于VVC的DMVR整数搜索中使用的十字形搜索样式检查中心位置的十字形4位置。一个整数搜索运行等于搜索的一个迭代。执行8连接搜索用于运动细化的CU中的每一子分区。8连接搜索检查与中心位置相关的八个连接的整数位置，包括中心位置的左、上、右、下、左上、右上、左下以及右下相邻位置。在DMVR整数搜索的可选实施例中，7连接搜索用于一个整数搜索运行。7连接搜索检查与中心位置相关的十字4位置以及3个角落位置。在DMVR整数搜索的另一个可选实施例中，6连接搜索用于一个整数搜索运行，其中6连接搜索检查与中心位置相关的检查4位置以及2角落位置。

DMVR的适应性启用参数误差面阶段在基于VVC的DMVR中，在分数样本细化阶段使用参数误差面等式来减少DMVR的计算复杂度。在DMVR操作后执行BDOF操作来进一步细化双向预测块的运动。从DMVR操作生成的细化MV是BDOF操作的输入。BDOF操作可以被启用或禁用，如果后续BDOF操作被启用，本发明的实施例禁用DMVR的参数误差面阶段。在另一个实施例中，DMVR的参数误差面阶段总是被禁用。

DMVR的整数搜索阶段中的2像素距离搜索在基于VVC的DMVR中，1像素距离MV变化被采用用于一个整数搜索迭代。本发明的实施例细化2像素距离MV变化用于1整数搜索迭代。对于每一整数搜索迭代，所搜索的位置在细化位置与当前中心位置之间的水平方向或垂直方向就有2像素距离。例如，每一整数搜索检查在x+2整数距离、x-2整数距离、y+2整数距离以及y-2整数距离的多个位置。通常，本发明的实施例执行M像素距离MV变化用于DMVR中的一个整数搜索迭代，其中M大于或等于2。在另一个实施例中，仅一个整数搜索迭代被执行而不是具有两个搜索迭代的基于VVC的DMVR。在另一个实施例中，在M像素距离整数搜索后，参数误差面操作被修正来使用M像素距离整数SAD结果来估计参数误差面MV细化结果。参数误差面算法可以接收M像素距离整数搜索SAD结果来估计MV进一步的细化量，以及因为参数误差面算法的输入是基于M像素距离的值，该结果将需要乘以M以及添加到最终MVD改变。例如，通过使用DMVR中2像素距离整数搜索，获得周围位置的2像素距离SAD结果，以及如果参数误差面算法需要将x方向MV细化x_frac(0～1之间)、将y方向MV细化y_frac(0～1之间)，最终细化的MVD是integer_MVD+(x_frac*2,y_frac*2)。可以组合上述合作实施例。

最佳SAD非中心情况下的参数误差面支持仅当先前整数搜索迭代的最佳SAD是中心位置时，其是原始起始位置，基于VVC的DMVR执行参数误差面操作。在本发明的一个实施例中，也执行参数误差面操作用于当先前整数搜索迭代的最佳SAD不是中心位置的情况。先前整数搜索迭代检查与原始中心位置相关的上、左、下、右位置以及一个角落位置，通过实施支持参数误差面的实施例用于最佳SAD非中心情况，一些SAD结果可以被再用。例如，如果先前整数搜索迭代的最佳SAD是右边位置，来自先前整数搜索迭代的上、中心以及下方位置的SAD结果可以被再用来估计垂直分数部分。类似地，如果先前整数搜索迭代的最佳SAD是左边位置，来自先前整数搜索迭代的上方、中心以及下方位置的SAD结果可以被再用来估计垂直分数部分。如果先前整数搜索迭代的最佳SAD是上方或下方位置，来自先前整数搜索迭代的左边、中心以及右边位置的SAD结果可以被再用来估计水平分数部分。

在另一个实施例中，当在DMVR中采用基于8连接的整数搜索时，两个角落位置以及先前最佳边缘位置被用于估计参数误差面。两个角落位置是先前最佳边缘位置最近的角落位置，其中最佳边缘位置意味着与先前整数迭代中最佳SAD相关的上方、下方、左边以及右边位置之一。

用于不同CU的大搜索区域以及适应性搜索区域在基于VVC的DMVR中，搜索区域(Search Region，简称SR)数目等于2，其包括搜索左边两个像素、右边两个像素、下方两个像素以及上方两个像素。对于所有CU尺寸，SR数目被固定为2。本发明的实施例采用不同的SR数目用于不同的CU尺寸。在另一个实施例中，不同的SR数目用于不同的帧分辨率。在又一实施例中，SR数目被适应性地控制。例如，较大SR数目被应用于较大MV幅度。在另一个示例中，较大SR数目被应用于较大CU。

具有MVD镜像类算法的DMVR低延迟B支持因为DMVR仅启动真正的双向预测合并候选，基于VVC的DMVR对低延迟B(low-delay-B,简称LDB)情况无效。本发明的实施例使用修正的MVD镜像算法来支持DMVR的LDB情况。修正的MVD镜像算法类似于基于VVC的DMVR中的原始MVD镜像算法。在原始MVD镜像算法中，列表0中修正的MV等于原始候选MVL0加搜索的MVD，以及列表1中修正的MV等于原始候选MVL1减去搜索的MVD。在修正的MVD镜像算法中，LDB情况中的任何非真正双向预测合并候选由如下导出：列表0中修正的MV等于原始候选MVL0加搜索的MVD，以及列表1中的修正MV等于原始候选MVL1加搜索的MVD乘以变数α。α等于列表0与列表1的POC距离的比，列表0的POC距离是当前图像到列表0参考图像的图像POC距离，以及列表1的POC距离是当前图像到列表1参考图像的图像POC距离。

在搜索之前，简单滤波操作被采用来获得列表0的搜索区域。对于列表1的搜索区域，如基于VVC的DMVR中使用的如双线性滤波，插值滤波器被用于获得列表1的搜索区域，列表1的搜索区域上两个整数位置之间的距离是α乘以1像素距离。例如，如果α是0.5，列表1的搜索区域上两个整数位置之间的距离是实际参考图像上的0.5整数像素距离。

在另一个实施例中，反转α规则，因此列表0中的修正MV等于原始候选MVL0加搜索的MVD乘以α，以及列表1中的修正MV等于原始候选MV1加搜索的MVD。在一个实施例中，列表0与列表1的SR可以不同，如果列表1POC距离大于列表0POC距离，列表1上的SR可以大于列表0上的SR，以致当执行SAD匹配时，列表0中的每一“1整数步骤(integer step)”意味着列表1中的“大于1整数步骤”。

具有FRUC双边算法的DMVR低延迟B支持为了支持DMVR低延迟B(LDB)情况，在一个实施例中，基于FRUC(PMVD)双向的算法用于支持LDB情况的MV细化。

仅整数像素匹配用于SAD基于VVC的DMVR紧接着参数误差面分数MV搜索后使用整数搜索的两个迭代。如果原始MV具有分数部分，通过将参考图像像素插值到分数位置像素，获得基于VVC的DMVR中的整数搜索的搜索区域。因为其总是直接使用参考图像的原始整数像素来构建搜索区域，本发明的一些实施例跳过插值参考图像像素用于导出搜索区域。对由原始整数像素导出的搜索区域执行整数位置搜索，以及然后参数误差面操作被采用来决定分数像素细化。在一个实施例中，为了使用参考图像的原始整数像素来构建搜索区域，原始合并候选MV被舍入到最近的整数MV，以及所述舍入的MV被用于导出搜索区域。在一个实施例中，如果在整数位置搜索后不启动参数误差面操作，例如，当最佳SAD与中心位置不相关时，禁用参数误差面操作，整数搜索MVD被添加回原始MV，其中分数部分MV保持不变。

DMVR分割进程的MV复制因为其将CU分割成多个子分区以及对每一子分区执行DMVR的运动细化，基于VVC的DMVR具有分割进程行为。通过跳过一些子分区的运动细化，本发明的实施例实施快速算法。快速算法执行运动细化仅用于预定或选择的子分区，以及除预定或选择的子分区外的任何子分区(即，跳过的子分区)直接使用相邻子分区运动细化结果。例如，所有偶数列(column)子分区被跳过以及运动细化仅对奇数列(column)子分区执行。如果当前CU被分割成M行以及N列子分区，偶数列子分区意味着偶数水平偏移的子分区。奇数列子分区的细化MV被直接复制作为偶数列子分区的细化MV。

在另一个实施例中，跳过的子分区直接使用相邻子分区运动细化结果导出运动细化结果，也包括基于周围相邻子分区的细化MV导出运动细化结果，例如，使用平均算法。在另一个实施例中，对于每一K*W像素的子分区，执行子采样操作以将每一分区子采样为K/2*W/2像素，以及仅对子采样的子分区执行DMVR细化操作。更普遍地，对具有K*W像素的每一子分区执行子采样操作来生成子采样的子分区，每一具有K/A*L/B像素，以及对子采样的子分区执行DMVR细化操作，其中A与B是正整数。

支持非相等距离的双边DMVR仅当列表0与列表1的距离相等时，基于VVC的DMVR启动，其中列表0的POC距离是当前图像与列表0参考图像之间的POC差值以及列表1的POC距离是当前图像与列表1参考图像之间的POC差值。本发明的实施例支持非相等距离真正的双向预测合并候选。修正MVD镜像算法类似于基于VVC的DMVR中的原始MVD镜像算法。在原始MVD镜像算法中，列表0中的修正MV等于原始候选MVL0加搜索的MVD，以及列表1中的修正MV等于原始候选MVL1减去搜索的MVD。在修正的MVD镜像算法中，列表0中的修正MV等于原始候选MVL0加搜索的MVD，以及列表1中的修正MV等于原始候选MVL1减去搜索的MVD乘以变数α。α等于列表0与列表1参考图像的POC距离的比。

在DMVR的整数搜索阶段前，简单滤波被用来导出列表0的搜索区域，如双线性滤波。列表1的搜索区域由插值来导出，其中列表1的搜索区域上两个整数位置之间的距离是α乘以1像素距离。例如，如果α等于0.5，列表1的搜索区域上两个整数位置之间的距离是0.5乘以实际参考图像上的整数像素距离。在另一个实施例中，可以反转α规则，以致列表0中的修正MV等于原始候选MVL0加搜索MVD乘以α，以及列表1中的修正MV等于原始候选MVL1减去搜索MVD。

在一个实施例中，列表0的搜索区域不同于列表1的搜索区域，例如，如果列表1POC距离大于列表0POC距离，列表1上的搜索区域比列表0上的搜索区域更大，以致在SAD匹配期间，列表0中的每一“1整数步骤”意味着列表1中的“大于1整数步骤”。在另一个实施例中，如果列表0POC距离大于列表1POC距离，列表0上的搜索区域比列表1上的搜索区域更大，以致在SAD匹配期间，列表1中的每一“1整数步骤”意味着这列表0中的“大于1整数步骤”。

AMVR MV的参数误差面在一些实施例中，参数误差面算法用于导出AMVR的估计的分数MV结果。该AMVR具有4像素单元MVD、1像素单元MVD或者2像素单元MVD，参数误差面算法被应用于AMVR。例如，AMVR具有4像素单元的MV结果，以及参数误差面算法被应用于AMVR来导出分数MV部分。

由大初始SAD值的提早跳过在基于VVC的DMVR操作中，如果初始匹配位置的初始SAD小于预定阈值，DMVR操作被提早跳过。在一些实施例中，如果初始匹配位置的初始SAD大于预定阈值，DMVR操作被提早跳过。

快速DMVR编码器算法在一些实施例中，为了支持DMVR操作中的MMVD，一个快速算法被采用来仅对MMVD候选中的大距离候选执行DMVR操作。大距离候选是具有较大MVD的MMVD候选。

DMVR候选的部分选择在本发明的一些实施例中，预定规则被采用来选择一些合并候选用于DMVR细化，因此DMVR操作被隐式关闭用于未选择的合并候选。在一个实施例中，预定规则选择偶数合并候选用于DMVR细化，如候选0、2、4等等。在一个实施例中，预定规则选择奇数合并候选用于DMVR细化，如候选1、3、5等等。在另一个实施例中，预定规则选择非空间合并候选用于DMVR细化。在又一实施例中，首先计算当前CU的角落空间相邻MV的MV差值(diversity)，以及如果该MV差值较小，该DMVR操作被禁用用于该当前CU。

禁用BDOF用于大MVD修正在一个实施例中，如果在执行DMVR操作后，DMVR搜索结果示出大MVD修正，后续的BDOF操作被关闭。例如，当初始MV与细化MV之间的MV差值大于阈值时，BDOF操作被禁用。

根据DMVR匹配重新排序MMVD候选在一些实施例中，对每一MMVD候选执行SAD匹配，以及SAD匹配具有与DMVR操作类似的MVD镜像行为。合并候选列表中的MMVD候选根据SAD匹配结果重新排序。

DMVR的简化有三个技术可以用于简化DMVR操作。第一个技术与DMVR搜索样式相关。在一个实施例中，DMVR搜索样式被改变成一个迭代中的全搜索，以致总共25个位置将被搜索以及将比较25个成本值。在另一个实施例中，DMVR搜索样式被改变到9点用于每一迭代，例如，该9点包括中心位置以及8个连接位置。在又一实施例中，DMVR搜索样式被改变成9点用于一个迭代。第一技术的通常情况是将DMVR搜索样式改变到一个迭代或每一迭代中的M点。在该第一技术中，通过限制DMVR的搜索范围实现DMVR操作的简化。

在第二技术的实施例中，DMVR的最终运动补偿(MC)被移除，然而，由8抽头传统MC滤波器生成搜索区域。在第二技术的另一个实施例中，最终MC被改变到双线性滤波器以及搜索范围保持不变。

第三简化技术与DMVR中的分数搜索操作相关。第三技术移除基于VVC的DMVR中的参数误差面操作。

一些实施例组合两个或多个描述的简化技术。在一个实施例中，DMVR的最终运动补偿被移除以及由8抽头传统MC滤波器生成搜索范围，DMVR搜索样式被改变成9点用于每一迭代，以及从DMVR操作中移除参数误差面操作。在另一个实施例中，DMVR的最终运动补偿被移除以及由8抽头传统MC滤波器生成搜索范围，DMVR搜索样式被改成成一个迭代中的全搜索，以及从DMVR操作中移除参数误差面操作。在一个实施例中，DMVR的最终运动补偿被改成成双线性滤波器以及搜索区域保持不变，DMVR搜索样式被改变成9点用于每一迭代，以及参数误差面操作从DMVR操作中被移除。在另一个实施例中，DMVR的最终运动补偿被改变成双线性滤波器以及搜索范围保持不变，DMVR搜索样式被改变成一个迭代中的全搜索，以及从DMVR操作中移除参数误差面。在组合第一以及第三技术的一个实施例中，DMVR搜索样式被改变成一个迭代中的全搜索，以及从该DMVR操作中移除参数误差面操作。在组合该第一技术与第三技术的另一个实施例中，DMVR搜索被改变成9点用于每一迭代，以及参数误差面操作被移除。

视频编码器以及解码器实施例前述提出的视频编解码方法可以在视频编码器或解码器中实施。例如，提出的视频处理方法被实施与编码的帧间预测模块，与/或解码器的帧间预测模块。在另一个示例中，提出的视频处理方法被实施于编码器的运动补偿模块，与/或解码器的运动补偿模块。或者，任何提出的方法可以被实施为耦合到编码器的帧间预测或运动补偿模块与/或解码器的帧间预测模块或运动补偿模块的电路，以致提供帧间预测模块或运动补偿模块所需要的信息。

图16示出了实施本发明各种实施例的视频编码器1600的示例性系统框图。帧内预测模块1610基于当前图像的重构视频数据提供帧内预测子。帧间预测模块1612基于来自其他一个或多个图像的视频数据执行运动估计(Motion Estimation，简称ME)以及运动补偿(Motion Compensation，简称MC)来提供帧间预测子。为了根据本发明一些实施例由双向预测编码当前块，帧间预测模块1612通过从列表0参考图像执行运动估计以及运动补偿首先决定列表0参考块以及通过从列表1参考图像执行运动估计以及运动补偿决定列表1参考块。当前块被拆分成多个子分区用于运动细化。通过用N像素细化搜索列表0以及列表1参考块周围来细化每一子分区的列表0以及列表1参考块。为每一子分区导出细化的MV，以及如果每一子分区的运动补偿所需要任何像素在子分区的参考块之外，使用该子分区的参考块的边界像素生成填充像素。根据细化的MV，帧间预测模块1612执行运动补偿用于每一子分区来生成该当前块的最终帧间预测子。

帧内预测模块1610或帧间预测模块1612提供所选择的预测子到加法器1616来形成预测误差，也称为预测残差。当前块的预测残差进一步由变换模块(T)1618紧接着量化模块(Q)1620处理。已变换以及量化的残差信号然后由熵编码器1632编码来形成视频比特流。当前块的最终帧间预测子的运动信息也由熵编码器1632编码。视频比特流然后与边信息一起打包。当前块的已变换以及量化的残差信息由逆量化模块(IQ)1622以及逆变换模块(IT)1624处理来恢复预测残差。如图16所示，通过在重构模块(REC)1626添加回所选择的预测子来生成重构视频数据，恢复预测残差。该重构视频数据可以被存储与参考图像缓冲器(Ref.Pict.Buffer)1630以及用于其他图像的预测。由于编码处理，从REC 1626恢复的重构视频数据可能受到各种损害，因此，在存储到参考图像缓冲器1630之前，环路处理滤波器1628被应用于重构视频数据来进一步增强图像质量。

在图17示出了解码从图16的视频编码器1600生成的视频比特流的对应的视频解码器1700。该视频比特流是视频解码器1700的输入以及由熵解码器1710解码来解析并恢复已转换及量化的残差信号以及其他系统信息。解码器1700的解码进程类似于在编码器1600的重构环路，除了解码器1700仅需要帧间预测模块1714中的运动补偿预测。每一块由帧内预测模块1712或帧间预测模块1714来解码。开关1716根据解码模式信息选择来自帧内预测模块1712的帧内预测子或者来自帧间预测1714的帧间预测子。为了解码在双向预测中编解码的当前块，根据初始MV，帧间预测模块1714通过从列表0参考图像执行运动补偿决定列表0参考块以及通过从列表1参考图像执行运动补偿决定列表1参考块。当前块被首先拆分成多个子分区用于运动细化。帧间预测模块1714通过用N像素细化搜索初始MV周围执行运动细化来导出每一子分区的细化MV。在运动细化后，在需要一个或多个像素用于导出每一子分区的最终预测子的情况下，执行填充操作来生成每一子分区的填充像素。换言之，对子分区基础执行填充操作而不是CU基础。然后根据细化的MV导出当前块的最终帧间预测子。与当前块有关的已变换以及量化的残差信息由逆量化模块(IQ)1720以及逆变换模块(IT)1722来恢复。通过在重构模块(REC)1718添加回最终帧间预测子重构当前块的所恢复的残差信号来生成重构视频。该重构视频由环路处理滤波器(滤波器)1724进一步处理来生成最终解码视频。如果当前解码图像是解码次序中后续图像的参考图像，当前解码图像的重构视频也被存储于参考图像缓冲器1726。

图16以及图17中的视频编码器1600以及视频解码器1700的各种元件可以由硬件元件、用于执行存储于内存中的程序指令的一个或多个处理器或应用于处理器的组合来实施。例如，处理器执行程序指令来控制与当前图像中当前块相关的输入数据的接收。处理器配备有单个或多个处理核心。在一些示例中，处理器执行程序指令来执行编码器1600以及解码器1700中一些元件的功能，以及电性耦合于处理器的内存用于存储程序指令、对应于块的重构图像的信息与/或编码或解码器进程中的中间数据。一些实施例中的内存包括非瞬时计算机可读媒介，如半导体或固态内存、随机存取内存(random access memory，简称RAM)、只读存储器(read-only memory，简称ROM)、硬盘、光盘或其他合适的存储媒介。内存也可以是以上描述的两个或多个非瞬时计算机可读媒介的组合。如图16以及图17所述，编码器1600以及解码器1700可以在相同的电子装置中实施，如果在相同的电子装置中实施，那么编码器1600以及解码器1700的各种功能元件可以共享或再用。

用运动细化以及子分区基础填充编码或解码双向预测块的视频处理方法的实施例可以在集成到视频压缩芯片的电路或集成到视频压缩软件的程序代码中实施来执行以上描述的处理。例如，用于生成运动补偿预测子的填充操作可以在将在计算机处理器、数字信号处理器(Digital Signal Processor，简称DSP)、微处理器或现场可程序门阵列(fieldprogrammable gate array，简称FPGA)上执行的程序代码中实现。这些处理器可以用于执行根据本发明的特定任务，通过执行定义由本发明呈现的特定方法的机器可读软件代码或固件代码。

贯穿说明书对“一个实施例”、“一些实施例”或者类似语言意味着结合实施例描述的特定特征、结果或特性可以包括于本发明的至少一个实施例中。因此，贯穿说明书各个位置出现的短语“在一个实施例中”或“在一些实施例中”不都是指相同的实施例，这些实施例可以单独或结合一个或多个其他实施例来实施。此外，所描述的特征、结果或特性可以在一个或多个实施例中以任何合适的方式组合。然而，相关领域中的技术人员将认识到，本发明可以不具有一个或多个特定细节或用其他方法、元件等来实施。换言之，公知的细节或操作未被示出或详细描述以避免混淆本发明的方面。

在不背离其精神以及基本特征的情况下，本发明的可以以其他特定形式实施。所描述的示例在所有方面仅被考虑是说明性的而非限制性的。因此，本发明的范围由所附权利要求指示而非前述的描述。权利要求内的含义以及等同范围内容的所有变化都在其范围内。

Claims

1.一种视频编解码系统中的处理视频数据的方法，包括：

接收与当前图像中当前块相关的输入数据；

将所述当前块分割成多个子分区；

对于所述当前块中的每一子分区：

根据初始运动向量从一个或多个参考图像中获得参考块；通过利用N像素细化搜索所述初始运动向量周围来对每一子分区执行运动细化来导出细化的运动向量；以及

填充所述参考块的一个或多个边界像素；

根据所述细化的运动向量执行所述当前块中所述等子分区的运动补偿来生成所述当前块的最终预测子；以及

根据所述最终预测子编码或解码所述当前块。

2.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，所述方法进一步包括：检查所述当前块的尺寸、宽度或高度是否大于或等于阈值，以及当所述当前块的所述尺寸、宽度或高度大于或等于所述阈值时，将所述当前块分割成多个子分区。

3.如权利要求2所述的视频编解码系统中的处理视频数据的方法，其特征在于，所述阈值是16×16、16×8、8×16、8或16，以及从所述当前块拆分的每一子分区的尺寸是16×16、16×8、或8×16样本。

4.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，每一子分区的尺寸是W×H样本以及每一子分区的所述参考块的尺寸是(W+7)×(H+7)样本。

5.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，被应用于每一子分区的所述运动细化包括水平以及垂直方向上至多2像素细化的整数搜索。

6.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，所述填充包括通过复制所述参考块的上方、下方、左边以及右边的边界像素扩展每一子分区的所述参考块。

7.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，导出所述细化的运动向量包括应用整数搜索紧接着是分数样本细化。

8.如权利要求7所述的视频编解码系统中的处理视频数据的方法，其特征在于，8连接搜索样式被用于所述整数搜索，以及所述8连接搜索样式检查与中心位置相关的八个连接的整数位置，包括所述中心位置的左边、上方、右边、下方、左上方、右上方、左下方以及右下方相邻位置。

9.如权利要求7所述的视频编解码系统中的处理视频数据的方法，其特征在于，使用参数误差面操作来导出所述分数样本细化，以及中心位置成本以及四个相邻位置的成本用于符合二维抛物线误差面等式。

10.如权利要求9所述的视频编解码系统中的处理视频数据的方法，其特征在于，当后续的双向光流操作被启用时，所述参数误差面操作被禁用。

11.如权利要求7所述的视频编解码系统中的处理视频数据的方法，其特征在于，应用所述整数搜索包括采用2像素距离运动向量变化用于所述整数搜索中的一个搜索迭代。

12.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，执行运动细化包括根据所述当前块的尺寸或所述当前图像的帧分辨率，决定搜索区域数目N。

13.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，获得每一子分区的所述参考块包括如果所述初始运动向量具有分数部分，将参考图像像素插入分数位置像素。

14.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，为每一子分区获得所述参考块包括直接使用所述一个或多个参考图像的原始整数像素，以及参数误差面操作被采用来决定分数像素细化。

15.如权利要求14所述的视频编解码系统中的处理视频数据的方法，其特征在于，所述初始运动向量被舍入到最近整数运动向量，以及所述舍入的运动向量被用于导出每一子分区的所述参考块。

16.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，仅当使用所述细化运动向量的所述子分区的运动补偿所需要的任何像素在所述参考块外时，填充所述参考块的一个或多个边界像素用于所述当前块中的每一子分区。

17.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，执行运动细化包括仅对一个或多个预定或所选择的子分区执行运动细化，除所述预定或所选择子分区之外的子分区直接使用相邻子分区运动细化结果。

18.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，如果初始匹配位置的初始绝对差和大于预定阈值，运动细化被跳过用于所述当前块。

19.如权利要求1所述的视频编解码系统中的处理视频数据的方法，其特征在于，所述方法进一步包括如果所述初始运动向量与所述细化的运动向量之间的运动向量差值大于阈值，禁用后续的双向光流操作。

20.一种视频编解码系统中的处理视频数据的装置，所述装置包括一个或多个电子电路用于：

接收与当前图像中当前块相关的输入数据；

将所述当前块分割成多个子分区；

对于所述当前块中的每一子分区：

根据初始运动向量从一个或多个参考图像中获得参考块；通过利用N像素细化搜索所述初运动向量周围来对每一子分区执行运动细化来导出细化的运动向量；以及

填充所述参考块的一个或多个边界像素；

根据所述最终预测子编码或解码所述当前块。

21.一种存储程序指令的非瞬时计算机可读媒介，所述指令使得装置的处理电路执行视频数据的视频处理方法，以及所述方法包括：

接收与当前图像中当前块相关的输入数据；

将所述当前块分割成多个子分区；

对于所述当前块中的每一子分区：

填充所述参考块的一个或多个边界像素；

根据所述最终预测子编码或解码所述当前块。