CN114363612B

CN114363612B - 用于双向光流的比特宽度控制的方法和设备

Info

Publication number: CN114363612B
Application number: CN202210037179.2A
Authority: CN
Inventors: 修晓宇; 陈漪纹; 王祥林
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2020-03-16
Publication date: 2024-05-03
Anticipated expiration: 2040-03-16
Also published as: CN113632484A; JP2022130647A; WO2020190896A1; JP2023169341A; KR20220112864A; JP7100772B2; EP3925224A4; JP2022522217A; KR20210119549A; US11843785B2; KR102429449B1; US20220007030A1; US20220030270A1; MX2021011197A; CN114363612A; JP7355894B2; US11979583B2; EP3925224A1

Abstract

本公开内容涉及用于对视频信号进行编解码的双向光流(BDOF)的比特宽度控制方法。该方法包括：获得与视频块相关联的第一参考图片I⁽⁰⁾和第二参考图片I⁽¹⁾；从第一参考图片I⁽⁰⁾中的参考块获得视频块的第一预测样点I⁽⁰⁾(i,j)；从第二参考图片I⁽¹⁾中的参考块获得视频块的第二预测样点I⁽¹⁾(i,j)；通过推导中间参数的内部比特宽度来控制BDOF的内部比特宽度；基于被应用于视频块的BDOF，根据第一预测样点I⁽⁰⁾(i,j)和第二预测样点I⁽¹⁾(i,j)，获得针对所述视频块中的样点的运动细化；以及基于运动细化来获得视频块的双向预测样点。

Description

用于双向光流的比特宽度控制的方法和设备

本申请是申请日为2020年03月16日，题为“用于双向光流的比特宽度控制的方法和设备”，申请号为202080021231.4的专利申请的分案申请。

相关申请的交叉引用

本申请是基于以下申请并且要求享受以下申请的优先权：于2019年3月15日递交的临时申请No.62/819,408，其全部内容通过引用的方式整体地并入本文中。

技术领域

本申请与视频编解码和压缩相关。更具体地，本公开内容涉及用于针对视频编解码的双向光流(BDOF)方法的方法和装置。

背景技术

各种视频编解码技术可以用于压缩视频数据。根据一种或多种视频编解码标准来执行视频编解码。例如，视频编解码标准包括通用视频编解码(VVC)、联合探索测试模型(JEM)、高效视频编解码(H.265/HEVC)、高级视频编解码(H.264/AVC)、运动图片专家组(MPEG)编解码等。视频编解码通常利用预测方法(例如，帧间预测、帧内预测等)，所述预测方法利用在视频图像或序列中存在的冗余。视频编解码技术的一个重要目标是将视频数据压缩成使用较低比特率的形式，同时避免或最小化视频质量的降级。

发明内容

本公开内容的示例提供了用于针对双向光流(BDOF)的比特宽度控制的方法和装置。根据本公开内容的第一方面，提供了一种对视频信号进行编解码的比特宽度控制方法。所述方法可以包括：获得与视频块相关联的第一参考图片I⁽⁰⁾和第二参考图片I⁽¹⁾。按照显示顺序，所述第一参考图片I⁽⁰⁾可以在当前图片之前，而所述第二参考图片I⁽¹⁾可以在所述当前图片之后。所述方法还可以包括：从所述第一参考图片I⁽⁰⁾中的参考块获得所述视频块的第一预测样点I⁽⁰⁾(i,j)。i和j变量可以表示一个样点对于所述当前图片的坐标。所述方法还可以包括：从所述第二参考图片I⁽¹⁾中的参考块获得所述视频块的第二预测样点I⁽¹⁾(i,j)。所述方法还可以包括：通过推导中间参数的内部比特宽度来控制所述BDOF的内部比特宽度。所述中间参数可以包括水平梯度值、垂直梯度值以及在所述第一预测样点I⁽⁰⁾(i,j)与所述第二预测样点I⁽¹⁾(i,j)之间的样点差。所述方法还可以包括：基于被应用于所述视频块的所述BDOF，根据所述第一预测样点I⁽⁰⁾(i,j)和所述第二预测样点I⁽¹⁾(i,j)，获得针对所述视频块中的样点的运动细化。并且所述方法还可以包括：基于所述运动细化来获得所述视频块的双向预测样点。

根据本公开内容的第二方面，提供了一种对视频信号进行编解码的比特宽度控制方法。所述方法可以包括：获得与视频块相关联的第一参考图片I⁽⁰⁾和第二参考图片I⁽¹⁾。按照显示顺序，所述第一参考图片I⁽⁰⁾可以在当前图片之前，而所述第二参考图片I⁽¹⁾可以在所述当前图片之后。所述方法可以包括：从所述第一参考图片I⁽⁰⁾中的参考块获得所述视频块的第一预测样点I⁽⁰⁾(i,j)。i和j变量可以表示一个样点对于所述当前图片的坐标。所述方法可以包括：从所述第二参考图片I⁽¹⁾中的参考块获得所述视频块的第二预测样点I⁽¹⁾(i,j)。所述方法可以包括：通过推导中间参数的内部比特宽度来控制所述BDOF的内部比特宽度。所述中间参数可以包括水平梯度值、垂直梯度值以及在所述第一预测样点I⁽⁰⁾(i,j)与所述第二预测样点I⁽¹⁾(i,j)之间的样点差。所述方法可以包括：基于所述BDOF和被应用于所述视频块的局部窗口，使用所述第一预测样点I⁽⁰⁾(i,j)和所述第二预测样点I⁽¹⁾(i,j)，获得针对所述视频块中的样点的运动细化。所述局部窗口覆盖所述视频块，并且所述局部窗口具有小于6×6个像素的窗口大小。并且所述方法可以包括：基于所述运动细化来获得所述视频块的双向预测样点。

根据本公开内容的第三方面，提供了一种计算设备。所述计算设备可以包括：一个或多个处理器；非暂时性计算机可读存储器，其存储由所述一个或多个处理器可执行的指令。所述一个或多个处理器可以被配置为：获得与视频块相关联的第一参考图片I⁽⁰⁾和第二参考图片I⁽¹⁾。按照显示顺序，所述第一参考图片I⁽⁰⁾可以在当前图片之前，而所述第二参考图片I⁽¹⁾可以在所述当前图片之后。所述一个或多个处理器可以被配置为：从所述第一参考图片I⁽⁰⁾中的参考块获得所述视频块的第一预测样点I⁽⁰⁾(i,j)。i和j变量可以表示一个样点对于所述当前图片的坐标。所述一个或多个处理器可以被配置为：从所述第二参考图片I⁽¹⁾中的参考块获得所述视频块的第二预测样点I⁽¹⁾(i,j)。所述一个或多个处理器可以被配置为：通过推导中间参数的内部比特宽度来控制双向光流(BDOF)的内部比特宽度。所述中间参数包括水平梯度值、垂直梯度值以及在所述第一预测样点I⁽⁰⁾(i,j)与所述第二预测样点I⁽¹⁾(i,j)之间的样点差。所述一个或多个处理器可以被配置为：基于被应用于所述视频块的所述BDOF，根据所述第一预测样点I⁽⁰⁾(i,j)和所述第二预测样点I⁽¹⁾(i,j)来获得针对所述视频块中的样点的运动细化。并且所述一个或多个处理器可以被配置为：基于所述运动细化来获得所述视频块的双向预测样点。

根据本公开内容的第四方面，提供了一种计算设备。所述计算设备可以包括：一个或多个处理器；非暂时性计算机可读存储器，其存储由所述一个或多个处理器可执行的指令。所述一个或多个处理器可以被配置为：获得与视频块相关联的第一参考图片I⁽⁰⁾和第二参考图片I⁽¹⁾。按照显示顺序，所述第一参考图片I⁽⁰⁾可以在当前图片之前，而所述第二参考图片I⁽¹⁾可以在所述当前图片之后。所述一个或多个处理器可以被配置为：从所述第一参考图片I⁽⁰⁾中的参考块获得所述视频块的第一预测样点I⁽⁰⁾(i,j)。i和j变量可以表示一个样点对于所述当前图片的坐标。所述一个或多个处理器可以被配置为：从所述第二参考图片I⁽¹⁾中的参考块获得所述视频块的第二预测样点I⁽¹⁾(i,j)。所述一个或多个处理器可以被配置为：通过推导中间参数的内部比特宽度来控制双向光流(BDOF)的内部比特宽度。所述中间参数可以包括水平梯度值、垂直梯度值以及在所述第一预测样点I⁽⁰⁾(i,j)与所述第二预测样点I⁽¹⁾(i,j)之间的样点差。所述一个或多个处理器可以被配置为：基于所述BDOF和被应用于所述视频块的局部窗口，使用所述第一预测样点I⁽⁰⁾(i,j)和所述第二预测样点I⁽¹⁾(i,j)来获得针对所述视频块中的样点的运动细化。所述局部窗口可以覆盖所述子块，并且所述局部窗口可以具有6×6个像素的窗口大小。并且所述一个或多个处理器可以被配置为：基于所述运动细化来获得所述视频块的双向预测样点。

应理解的是，前面的一般性描述和下面的详细描述二者仅是示例，而并不限制本公开内容。

附图说明

并入本说明书中并且构成本说明书的一部分的附图示出了符合本公开内容的示例，并且连同描述一起用于解释本公开内容的原理。

图1是根据本公开内容的示例的编码器的框图。

图2是根据本公开内容的示例的解码器的框图。

图3A是根据本公开内容的示例的多类型树结构中的块分区的示意图。

图3B是根据本公开内容的示例的多类型树结构中的块分区的示意图。

图3C是根据本公开内容的示例的多类型树结构中的块分区的示意图。

图3D是根据本公开内容的示例的多类型树结构中的块分区的示意图。

图3E是根据本公开内容的示例的多类型树结构中的块分区的示意图。

图4是根据本公开内容的示例的双向光流(BDOF)模型的示意图。

图5是示出根据本公开内容的示例的对视频信号进行编解码的比特宽度控制方法的流程图。

图6是示出根据本公开内容的示例的BDOF比特宽度控制方法的流程图。

图7是示出根据本公开内容的示例的与用户接口耦合的计算环境的示意图。

具体实施方式

现在将详细参考示例实施例，其示例在附图中示出。以下描述引用了附图，其中，不同附图中的相同数字表示相同或类似的元素，除非以其它方式表示。在各实施例的以下描述中阐述的实现不表示符合本公开内容的所有实现。相反，它们仅仅是符合如在所附的权利要求中记载的与本公开内容相关的方面的装置和方法的示例。

在本公开内容中使用的术语仅用于描述特定实施例的目的，而并不旨在限制本公开内容。如在本公开内容和所附的权利要求中所使用的，除非上下文另有清楚地指示，否则单数形式“一(a)”、“一(an)”和“该(the)”也旨在包括复数形式。还应当理解的是，本文使用的术语“和/或”旨在表示并且包括相关联的列出项目中的一项或多项的任何或所有可能组合。

应当理解的是，尽管本文中可以使用术语“第一”、“第二”、“第三”等来描述各种信息，但是这些信息不应当受到这些术语的限制。这些术语仅用于将一类信息与另一类信息区分。例如，在不脱离本公开内容的范围的情况下，第一信息可以被称为第二信息；并且类似地，第二信息也可以被称为第一信息。如本文所使用的，术语“如果”可以被理解为意指“当……时”或“一……就”或“响应于判断”，这取决于上下文。

HEVC标准的第一个版本于2013年10月最终确定，与前一代视频编解码标准H.264/MPEG AVC相比，HEVC标准的该版本提供了大约50％的比特率节省或同等的感知质量。尽管HEVC标准与其前一代相比提供了显著的编解码改进，但是有证据表明，与HEVC相比，利用额外的编解码工具可以实现优越的编解码效率。基于此，VCEG和MPEG两者开始新的编解码技术的探索工作以用于将来的视频编解码标准化。ITU-T VECG和ISO/IEC MPEG于2015年10月成立了一个联合视频探索组(JVET)，以开始对能够实现编解码效率的大幅增强的高级技术的重大研究。JVET通过在HEVC测试模型(HM)之上集成若干额外的编解码工具来维护一个被称为联合探索模型(JEM)的参考软件。

在2017年10月，ITU-T和ISO/IEC发布了关于具有超出HEVC的能力的视频压缩的联合呼吁提案(CfP)[9]。在2018年4月，在第10次JVET会议上收到并评估了23个CfP响应，其展示了比HEVC高大约40％的压缩效率增益。基于这样的评估结果，JVET启动了新项目，以开发新一代视频编解码标准，其被称为通用视频编解码(VVC)[10]。在同一个月中，建立了一个被称为VVC测试模型(VTM)[11]的参考软件代码库，以用于展示VVC标准的参考实现。

与HEVC一样，VVC是建立在基于块的混合视频编解码框架之上的。图1给出了一般的基于块的混合视频编码系统的框图。对输入视频信号逐块地(被称为编码单元(CU))处理。具体地，图1示出了根据本公开内容的典型编码器100。编码器100具有视频输入110、运动补偿112、运动估计114、帧内/帧间模式决策116、块预测器140、加法器128、变换130、量化132、预测相关信息142、帧内预测118、图片缓冲器120、逆量化134、逆变换136、加法器126、存储器124、环路滤波器122、熵编码138和比特流144。

在VTM-1.0中，CU可以多达128x128个像素。然而，与仅基于四叉树来分割块的HEVC不同，在VVC中，一个编码树单元(CTU)被划分为CU，以适配基于四叉树/二叉树/三叉树的不同局部特性。此外，去除了HEVC中的多分区单元类型的概念，即，在VVC中不再存在CU、预测单元(PU)和变换单元(TU)的区分；相反，每个CU始终被用作用于预测和变换二者的基本单元，无需进一步分割。在多类型树结构中，首先用四叉树结构对一个CTU进行分割。然后，每个四叉树叶节点可以通过二叉树和三叉树结构来进一步分割。

如在(下面描述的)图3A、3B、3C、3D和3E中所示，存在五种划分类型：四元分割、水平二元分割、垂直二元分割、水平三元分割和垂直三元分割。

图3A示出了根据本公开内容的多类型树结构中的块四元分割的示意图。

图3B示出了根据本公开内容的多类型树结构中的块垂直二元分割的示意图。

图3C示出了根据本公开内容的多类型树结构中的块水平二元分割的示意图。

图3D示出了根据本公开内容的多类型树结构中的块垂直三元分割的示意图。

图3E示出了根据本公开内容的多类型树结构中的块水平三元分割的示意图。

在图1中，可以执行空间预测和/或时间预测。空间预测(或“帧内预测”)使用来自同一视频图片/切片中的已经编码的相邻块(其被称为参考样点)的样点的像素来预测当前视频块。空间预测减少了在视频信号中固有的空间冗余。时间预测(也被称为“帧间预测”或“运动补偿预测”)使用来自已经编码的视频图片的经重建的像素来预测当前视频块。时间预测减少了在视频信号中固有的时间冗余。用于给定CU的时间预测信号通常由一个或多个运动矢量(MV)用信号通知，一个或多个MV指示在当前CU与其时间参考之间的运动量和运动方向。

此外，如果支持多个参考图片，则另外发送一个参考图片索引，该参考图片索引用于标识时间预测信号来自参考图片存储中的哪个参考图片。在空间和/或时间预测之后，编码器中的模式决策块例如基于率失真优化方法来选择最佳预测模式。然后，从当前视频块中减去预测块，并且预测残差是使用变换来去相关的并且被量化。

对经量化的残差系数进行逆量化和逆变换以形成经重建的残差，然后将经重建的残差加回预测块以形成CU的经重建的信号。此外，在将经重建的CU放入参考图片存储并且用于对将来的视频块进行编解码之前，可以对其应用环路滤波，诸如去块滤波器、采样自适应偏移(SAO)和自适应环路滤波器(ALF)。为了形成输出视频比特流，编码模式(帧间或帧内)、预测模式信息、运动信息和经量化的残差系数都被发送给熵编码单元以进一步压缩和打包以形成比特流。

图2给出了基于块的视频解码器的一般框图。具体地，图2示出了根据本公开内容的典型解码器200框图。解码器200具有比特流210、熵解码212、逆量化214、逆变换216、加法器218、帧内/帧间模式选择220、帧内预测222、存储器230、环路滤波器228、运动补偿224、图片缓冲器226、预测相关信息234和视频输出232。

在图2中，首先在熵解码单元处对视频比特流进行熵解码。编码模式和预测信息被发送给空间预测单元(如果是经帧内编码的)或时间预测单元(如果是经帧间编码的)，以形成预测块。残差变换系数被发送给逆量化单元和逆变换单元以重建残差块。然后将预测块和残差块相加在一起。在将重建块存储在参考图片存储中之前，其可以进一步经受环路滤波。然后参考图片存储中的经重建的视频被发送以驱动显示设备，以及用于预测将来的视频块。

双向光流

视频编解码中的传统双向预测是从已经重建的参考图片获得的两个时间预测块的简单组合。然而，由于基于块的运动补偿的限制，在两个预测块的样点之间可能存在可以观察到的剩余小运动，从而降低了运动补偿预测的效率。在VVC中应用双向光流(BDOF)，以降低这样的运动针对一个块内的每个样点的影响。

图4示出了根据本公开内容的双向光流(BDOF)模型的图示。BDOF是在使用双向预测时在基于块的运动补偿预测之上执行的逐样点运动细化。在子块周围的一个6×6窗口Ω内应用BDOF之后，通过最小化L0与L1预测样点之间的差异来计算每个4×4子块的运动细化(v_x,v_y)。具体而言，(v_x,v_y)的值被推导为：

其中是下取整函数；clip3(min,max,x)是用于将给定值x截取在[min,max]范围内的函数；符号>>表示按位右移运算；符号<<表示按位左移运算；th_BDOF是防止由于不规律局部运动而引起的传播误差的运动细化门限，其等于2^13-BD，其中BD是输入视频的比特深度。在(1)中，/>

S₁、S₂、S₃、S₅和S₆的值被计算为：

其中，

θ(i,j)＝(I⁽¹⁾(i,j)＞＞6)-(I⁽⁰⁾(i,j)＞＞6)

其中I^(k)(i,j)是在列表k中的预测信号的坐标(i,j)处的样点值，k＝0,1，这些样点值是以中间高精度(即，16比特)生成的；和/>是通过直接计算样点的两个相邻样点之间的差而获得的该样点的水平和垂直梯度，即，

基于在(1)中推导的运动细化，通过基于光流模型沿着运动轨迹对L0/L1预测样点进行插值，来计算CU的最终双向预测样点，如通过下式所指示的：

pred_BDOF(x,y)＝(I⁽⁰⁾(x,y)+I⁽¹⁾(x,y)+b+o_offset)＞＞shift

其中，shift和o_offset是被应用以将L0和L1预测信号进行组合以用于双向预测的右移位值和偏移值，它们分别等于15-BD和1＜＜(14-BD)+2·(1＜＜13)。表1示出了在BDOF过程中涉及的中间参数的特定比特宽度。例如，比特宽度是表示值所必要的比特数量。如表中所示，整个BDOF过程的内部比特宽度不超过32比特。此外，具有最差可能输入的乘法发生在(1)中的v_xS_2,m的乘积处，以15比特和4比特输入。因此，对于BDOF，15比特乘数是足够的。

表1 VVC中的BDOF的中间参数的比特宽

双向预测式预测的效率

虽然BDOF可以增强双向预测式预测的效率，但是其设计仍然可以进一步改进。具体而言，在本公开内容中标识了控制VVC中的现有BDOF设计中的中间参数的比特宽度。

如表1中所示，参数θ(i,j)(即，L0与L1预测样点之间的差异)以及参数ψ_x(i,j)和ψ_y(i,j)(即，水平/垂直L0和L1梯度值之和)是以11比特的相同比特宽度表示的。尽管这样的方法可以促进针对BDOF的内部比特宽度的总体控制，但是就关于所推导出的运动细化的精度而言，其是次优的。这是因为如在(4)中所示，梯度值被计算为相邻预测样点之间的差；由于这样的过程的高通性质，在存在噪声(例如，在原始视频中捕获的噪声和在编解码过程期间产生的编解码噪声)的情况下，所推导出的梯度不太可靠。这意味着以高比特宽度表示梯度值可能并非总是有益的。

如表1中所示，整个BDOF过程的最大比特宽度使用在计算垂直运动细化v_y的情况下发生，其中S₆(27比特)首先被左移3比特，然后减去((v_xS_2,m)＜＜12+v_xS_2,s)/2(30比特)。因此，当前设计的最大比特宽度等于31比特。在实际硬件实现中，具有多于16比特的最大内部比特宽度的编解码过程通常由32比特实现来实现。因此，现有设计没有充分利用32比特实现的有效动态范围。这可能导致通过BDOF推导的运动细化的不必要的精度损失。

使用BDOF来提高双向预测式预测的效率

在本公开内容中，提出了一种改进的比特宽度控制方法，以解决比特宽度控制方法的两个问题，如在针对现有BDOF设计的“双向预测式预测的效率”部分中所指出的。

图5示出了根据本公开内容的对视频信号进行编解码的比特宽度控制方法。

在步骤510中，获得与子块相关联的第一参考图片I⁽⁰⁾和第二参考图片I⁽¹⁾。按照显示顺序，第一参考图片I⁽⁰⁾在当前图片之前，而第二参考图片I⁽¹⁾在当前图片之后。例如，参考图片可以是与正在被编码的当前图片相邻的视频图片。

在步骤512中，根据第一参考图片I⁽⁰⁾中的参考块来从子块获得第一预测样点I⁽⁰⁾(i,j)。例如，第一预测样点I⁽⁰⁾(i,j)可以是使用按照显示顺序的先前参考图片的L0列表中的运动矢量的预测样点。

在步骤514中，根据第二参考图片I⁽¹⁾中的参考块来从子块获得第二预测样点I⁽¹⁾(i,j)。例如，第二预测样点I⁽¹⁾(i,j)可以是使用按照显示顺序的在后参考图片的L1列表中的运动矢量的预测样点。

在步骤516中，通过改变中间参数的内部比特宽度来控制双向光流(BDOF)的内部比特宽度。中间参数包括基于第一预测样点I⁽⁰⁾(i,j)和第二预测样点I⁽¹⁾(i,j)而推导的水平梯度值和垂直梯度值。例如，梯度值是其两个相邻预测样点(第一预测样点I⁽⁰⁾(i,j)和第二预测样点I⁽¹⁾(i,j))之间的差。

在步骤518中，基于被应用于子块的BDOF，使用第一预测样点I⁽⁰⁾(i,j)和第二预测样点I⁽¹⁾(i,j)来获得运动细化值。

在步骤520中，基于运动细化值来获得子块的双向预测样点。

在本公开内容的实施例中，为了克服梯度估计误差的负面影响，在计算(4)中的梯度值和/>时，在所提出的方法中引入额外的右移位n_grad，即，降低梯度值的内部比特宽度。例如，在每个样点位置处的水平和垂直梯度可被计算为：

此外，可引入了额外的比特移位n_adj，以计算变量ψ_x(i,j)、ψ_y(i,j)和θ(i,j)，以便控制整个BDOF过程，使得其以适当的内部比特宽度操作，如被描绘为：

θ(i,j)＝(I⁽¹⁾(i,j)＞＞(6-n_adj))-(I⁽⁰⁾(i,j)＞＞(6-n_adj))

与表1中的现有BDOF设计相比，在表2中，由于修改了在(6)和(7)中应用的右移位比特的数量，参数ψ_x(i,j)、ψ_y(i,j)和θ(i,j)的动态范围将是不同的，其中，三个参数以相同的动态范围(即，21比特)来表示。这样的改变可以增加内部参数S₁、S₂、S₃、S₅和S₆的比特宽度，这可能潜在地将内部BDOF过程的最大比特宽度增加到32比特以上。因此，为了确保32比特实现，在计算S₂和S₆的值时引入了两个额外的截取操作。具体而言，在所提出的方法中，两个参数的值被计算为：

其中，B₂和B₆分别是控制S₂和S₆的输出动态范围的参数。例如，比特深度表示用于定义每个像素的比特数量。应当注意的是，与梯度计算不同，在(8)中的截取操作仅被应用一次，以计算一个BDOF CU内的每个4x4子块的运动细化，即，基于4×4单位来调用。因此，由于在所提出的方法中引入的截取操作而导致的相应复杂度增加是完全可忽略的。

在实践中，可以应用n_grad、n_adj、B₂和B₆的不同值来实现中间比特宽度与内部BDOF推导的精度之间的不同权衡。作为本公开内容的一个实施例，提议将n_grad和n_adj设置为2，将B₂设置为25，并且将B₆设置为27。作为本公开内容的一个实施例，提议将B₂设置为26，并且将B₆设置为28。作为本公开内容的一个实施例，提议将n_grad和n_adj设置为6、1或4。

表2示出了当所提议的比特宽度控制方法被应用于BDOF时，每个中间参数的对应比特宽度。在表2中，灰色突出显示了与VVC中的现有BDOF设计相比(如表1中所示)，在所提议的比特宽度控制方法中应用的变化。如在表2中可以看出，利用所提议的比特宽度控制方法，整个BDOF过程的内部比特宽度不超过32比特。此外，通过所提议的设计，最大比特宽度仅为32比特，这可以充分利用32比特硬件实现的可用动态范围。另一方面，如该表中所示，具有最差可能输入的乘法发生在v_xS_2,m的乘积处，其中，输入S_2,m为14比特，并且输入v_x为6比特。因此，与现有的BDOF设计一样，当应用所提议的方法时，一个16比特的乘数也是足够大的。

表2 所提议的方法的中间参数的比特宽度

/>

在上述方法中，添加了如等式(8)中所示的截取操作，以避免在推导v_x和v_y时中间参数的溢出。然而，只有当相关参数在大的局部窗口中累积时，才需要这样的截取。当应用一个小窗口时，溢出是不可能的。因此，在本公开内容的另一实施例中，针对不具有截取的BDOF方法提出了以下比特深度控制方法，如下所述。

首先，在(4)中在每个样点位置处的梯度值和/>被计算为：

第二，然后被用于BDOF过程的相关参数ψ_x(i,j)、ψ_y(i,j)和θ(i,j)被计算为：

θ(i,j)＝(I⁽¹⁾(i,j)＞＞4)-(I⁽⁰⁾(i,j)＞＞4)

第三，S₁、S₂、S₃、S₅和S₆的值被计算为：

S₁＝∑_(i,j)∈Ωψ_x(i,j)·ψ_x(i,j),

第四，每个4×4子块的运动细化(v_x,v_y)被推导为：

第五，通过基于光流模型沿着运动轨迹对L0/L1预测样点进行插值，来计算CU的最终双向预测样点，如通过下述指示的：

pred_BDOF(x,y)＝(I⁽⁰⁾(x,y)+I⁽¹⁾(x,y)+b+o_offset)＞＞shift

图6示出了根据本公开内容的示例BDOF比特宽度控制方法。

在步骤610中，获得与子块相关联的第一参考图片I⁽⁰⁾和第二参考图片I⁽¹⁾。按照显示顺序，第一参考图片I⁽⁰⁾在当前图片之前，而第二参考图片I⁽¹⁾在当前图片之后。

在步骤612中，根据第一参考图片I⁽⁰⁾中的参考块，从子块获得第一预测样点I⁽⁰⁾(i,j)。

在步骤614中，根据第二参考图片I⁽¹⁾中的参考块，从子块获得第二预测样点I⁽¹⁾(i,j)。

在步骤616中，通过改变所推导出的梯度值的内部比特宽度来控制双向光流(BDOF)的内部比特宽度。中间参数包括基于第一预测样点I⁽⁰⁾(i,j)和第二预测样点I⁽¹⁾(i,j)而推导的水平梯度值和垂直梯度值。

在步骤618中，基于BDOF和被应用于子块的局部窗口，使用第一预测样点I⁽⁰⁾(i,j)和第二预测样点I⁽¹⁾(i,j)来获得运动细化值。局部窗口可覆盖子块，并且局部窗口可具有小于6×6个像素的窗口大小。

在步骤620中，基于运动细化值来获得子块的双向预测样点。

图7示出了与用户接口760耦合的计算环境710。计算环境710可以是数据处理服务器的一部分。计算环境710包括处理器720、存储器740和I/O接口750。

处理器720通常控制计算环境710的整体操作，诸如与显示、数据获取、数据通信和图像处理相关联的操作。处理器720可以包括一个或多个处理器，以执行指令以执行上述方法中的步骤中的全部或一些步骤。此外，处理器720可以包括促进处理器720与其它组件之间的交互的一个或多个模块。处理器可以是中央处理单元(CPU)、微处理器、单片机、GPU等。

存储器740被配置为存储各种类型的数据以支持计算环境710的操作。这样的数据的示例包括用于在计算环境710上操作的任何应用或方法的指令、视频数据集、图像数据等。存储器740可以通过使用任何类型的易失性或非易失性存储器设备或其组合来实现，诸如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存、磁盘或光盘。

I/O接口750提供处理器720与外围接口模块(诸如键盘、点击轮、按钮等)之间的接口。这些按钮可以包括但不限于主页按钮、开始扫描按钮和停止扫描按钮。I/O接口750可以与编码器和解码器耦合。

在实施例中，还提供了一种包括多个程序的非暂时性计算机可读存储介质，多个程序例如被包括在存储器740中、由计算环境710中的处理器720可执行以用于执行上述方法。例如，非暂时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等。

非暂时性计算机可读存储介质具有存储在其中的用于由具有一个或多个处理器的计算设备执行的多个程序，其中，多个程序在由一个或多个处理器执行时使得计算设备执行上述针对BDOF的比特宽度控制的方法。

在实施例中，计算环境710可以利用用于执行上面的方法的以下各项来实现：一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、控制器、微控制器、微处理器或其它电子组件。

Claims

1.一种用于对视频信号进行解码的双向光流(BDOF)的比特宽度控制方法，包括：

获得与视频子块相关联的第一参考图片和第二参考图片，其中，按照显示顺序，所述第一参考图片在当前图片之前，而所述第二参考图片在所述当前图片之后；

获得来自所述第一参考图片的针对所述视频子块中的样点的第一预测样点I⁽⁰⁾；

获得来自所述第二参考图片的针对所述视频子块中的所述样点的第二预测样点I⁽¹⁾；

通过控制中间参数的比特宽度来获得针对所述视频子块中的所述样点的运动细化，其中，所述中间参数包括水平梯度、垂直梯度以及基于所述第一预测样点I⁽⁰⁾和所述第二预测样点I⁽¹⁾的样点差；以及

基于所述运动细化来获得针对所述视频子块中的所述样点的双向预测样点，

其中，所述控制所述中间参数的所述比特宽度包括将所述水平梯度和所述垂直梯度的所述比特宽度减少第一比特移位值，所述第一比特移位值大于4。

2.根据权利要求1所述的方法，还包括：

基于在视频块的每个4x4子块内的第一相关值和第二相关值的总和来获得第一内部总和值，其中，所述第一相关值是关于所述视频子块中的一个样点的所述第一预测样点I⁽⁰⁾和所述第二预测样点I⁽¹⁾的水平梯度的总和，所述第二相关值是关于所述一个样点的所述第一预测样点I⁽⁰⁾和所述第二预测样点I⁽¹⁾的垂直梯度的总和；

基于第一参数来截取所述第一内部总和值，其中，所述第一参数控制所述第一内部总和值的输出比特深度；

基于在所述视频块的每个4x4子块内的所述第二相关值和第三相关值的总和来获得第二内部总和值；以及

基于第二参数来截取所述第二内部总和值，其中，所述第二参数控制所述第二内部总和值的输出比特深度。

3.根据权利要求2所述的方法，其中，所述第一参数等于26，并且所述第二参数等于28。

4.一种用于对视频信号进行解码的双向光流(BDOF)的比特宽度控制方法，包括：

通过控制中间参数的比特宽度来基于被应用于所述视频子块的局部窗口来获得针对所述视频子块中的所述样点的运动细化，其中，所述中间参数包括水平梯度、垂直梯度以及基于所述第一预测样点I⁽⁰⁾和所述第二预测样点I⁽¹⁾的样点差；以及

基于所述运动细化来获得所述视频子块中的所述样点的双向预测样点，

5.一种计算设备，包括：

一个或多个处理器；以及

存储器，其上存储有用于对视频信号进行解码的指令，所述指令在由所述一个或多个处理器执行时使得所述计算设备执行根据权利要求1-3中任一项所述的方法。

6.一种计算设备，包括：

一个或多个处理器；以及

存储器，其上存储有用于对视频信号进行解码的指令，所述指令在由所述一个或多个处理器执行时使得所述计算设备执行根据权利要求4所述的方法。

7.一种非暂时性计算机可读存储介质，其存储用于对视频信号进行解码的指令，所述指令在由处理器执行时使得所述处理器执行根据权利要求1-3中任一项所述的方法。

8.一种非暂时性计算机可读存储介质，其存储用于对视频信号进行解码的指令，所述指令在由处理器执行时使得所述处理器执行根据权利要求4所述的方法。

9.一种计算机程序产品，其包括用于对视频信号进行解码的计算机可执行指令，所述指令在由处理器执行时使得所述处理器执行根据权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储可通过如权利要求1-4中任一项所述的用于视频解码的方法解码的数据流。

11.一种用于对视频信号进行编码的双向光流(BDOF)的比特宽度控制方法，包括：

12.一种用于对视频信号进行编码的双向光流(BDOF)的比特宽度控制方法，包括：

13.一种计算设备，包括：

一个或多个处理器；以及

存储器，其上存储有用于对视频信号进行编码的指令，所述指令在由所述一个或多个处理器执行时使得所述计算设备执行根据权利要求11所述的方法。

14.一种计算设备，包括：

一个或多个处理器；以及

存储器，其上存储有用于对视频信号进行编码的指令，所述指令在由所述一个或多个处理器执行时使得所述计算设备执行根据权利要求12所述的方法。

15.一种非暂时性计算机可读存储介质，其存储用于对视频信号进行编码的指令，所述指令在由处理器执行时使得所述处理器执行根据权利要求11所述的方法。

16.一种非暂时性计算机可读存储介质，其存储用于对视频信号进行编码的指令，所述指令在由处理器执行时使得所述处理器执行根据权利要求12所述的方法。

17.一种计算机程序产品，其包括用于对视频信号进行编码的计算机可执行指令，所述指令在由处理器执行时使得所述处理器执行根据权利要求11-12中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，存储可通过如权利要求11-12中任一项所述的用于视频编码的方法编码的数据流。