CN113728639A - 光流预测细化的方法和装置 - Google Patents

光流预测细化的方法和装置 Download PDF

Info

Publication number
CN113728639A
CN113728639A CN202080029146.2A CN202080029146A CN113728639A CN 113728639 A CN113728639 A CN 113728639A CN 202080029146 A CN202080029146 A CN 202080029146A CN 113728639 A CN113728639 A CN 113728639A
Authority
CN
China
Prior art keywords
prediction
prof
value
bit
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080029146.2A
Other languages
English (en)
Inventor
修晓宇
陈漪纹
王祥林
叶水明
马宗全
朱弘正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Publication of CN113728639A publication Critical patent/CN113728639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供一种光流预测细化(PROF)的位宽表征方法、装置和非暂时性计算机可读存储介质。该方法包括获得与视频信号内的视频块相关联的第一参考图片I,从该第一参考图片I中的参考块获取该视频块的预测样本I(i,j),通过基于不同的比特位移值将右移应用于多个内部PROF参数来控制用于所述多个内部PROF参数的各种表征精度的PROF推导过程的内部位宽,基于应用于基于该预测样本I(i,j)的视频块的该PROF推导过程获得用于该视频块中样本的预测细化值,以及基于这些预测样本和预测细化值的组合获得该视频块的预测样本。

Description

光流预测细化的方法和装置
技术领域
本发明涉及视频编码和压缩。更具体地,本发明涉及在通用视频编码(VVC)标准中研究的两种帧间预测工具的方法和装置,即光流预测细化(prediction refinement withoptical flow,PROF)和双向光流(bi-directional optical flow,BDOF)。
背景技术
可以使用各种视频编码技术来压缩视频数据。根据一种或多种视频编码标准来进行视频编码。例如,视频编码标准包括通用视频编码(versatile video coding,VVC)、联合探索测试模型(joint exploration test model,JEM)、高效视频编码(high-efficiencyvideo coding,H.265/HEVC)、高级视频编码(advanced video coding,H.264/AVC)、运动图像专家组(moving picture expert group,MPEG)编码,等等。视频编码通常利用预测方法(如帧间预测、帧内预测等),这些预测方法利用视频图像或序列中存在的冗余。视频编码技术的一个重要目标是将视频数据压缩成使用较低比特率的形式,同时避免或最小化视频质量的下降。
发明内容
本申请的示例提供光流预测细化的比特深度控制方法和装置。
根据本申请的第一方面,提供了一种用于解码视频信号的PROF的位宽(bit-width)表征方法。该方法可包括获得与视频信号内的视频块相关联的第一参考图片I。该方法还可以包括从该第一参考图片I中的参考块获取该视频块的预测样本I(i,j)。i和j可表征一个样本相对于该视频块的坐标。该方法可包括通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数。这些内部PROF参数可包括为这些预测样本I(i,j)导出的水平梯度值、垂直梯度值、水平运动差值和垂直运动差值。该方法还可以包括基于这些预测样本I(i,j),根据应用于该视频块的该PROF推导过程获得用于该视频块中样本的预测细化值。该方法可包括基于这些预测样本和预测细化值的组合获得该视频块的预测样本。
根据本申请的第二方面,提供了一种计算设备。该计算设备可包括一个或多个处理器,一种存储可由一个或多个处理器执行的指令的非暂时性计算机可读存储介质。一个或多个处理器可以被配置为获得与视频信号内的视频块相关联的第一参考图片I。一个或多个处理器还可以被配置为从该第一参考图片I中的参考块获取该视频块的预测样本I(i,j)。i和j表征一个样本相对于该视频块的坐标。一个或多个处理器还可以被配置为通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数。这些内部PROF参数可包括为这些预测样本I(i,j)导出的水平梯度值、垂直梯度值、水平运动差值和垂直运动差值。一个或多个处理器还可以被配置为基于这些预测样本I(i,j),根据应用于该视频块的该PROF推导过程获得用于该视频块中样本的预测细化值。一个或多个处理器可以被配置为基于这些预测样本和预测细化值的组合获得该视频块的预测样本。
根据本申请的第三方面,提供了一种其中存储有指令的非暂时性计算机可读存储介质。当这些指令由该设备的一个或多个处理器执行时使该设备执行获得与视频信号内的视频块相关联的第一参考图片I。这些指令还使该设备从该第一参考图片I中的参考块获取该视频块的预测样本I(i,j)。i和j表征一个样本相对于该视频块的坐标。这些指令使该设备通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数。这些内部PROF参数包括为该预测样本I(i,j)导出的水平梯度值、垂直梯度值、水平运动差值和垂直运动差值。这些指令还使该设备基于这些预测样本I(i,j),根据应用于该视频块的该PROF推导过程获得用于该视频块中样本的预测细化值。这些指令使该设备基于这些预测样本和预测细化值的组合获得该视频块的预测样本。
应当理解,前述的总体描述和以下的详细描述均仅是示例而不是对本申请的限制。
附图说明
结合在说明书中并构成说明书的一部分的附图示出了与本申请一致的示例,并且与说明书一起用于解释本申请的原理。
图1是根据本申请的示例的编码器的框图。
图2是根据本申请的示例的解码器的框图。
图3A是示出了根据本申请的示例的多类型树结构中的块分割的示意图。
图3B是示出了根据本申请的示例的多类型树结构中的块分割的示意图。
图3C是示出了根据本申请的示例的多类型树结构中的块分割的示意图。
图3D是示出了根据本申请的示例的多类型树结构中的块分割的示意图。
图3E是示出了根据本申请的示例的多类型树结构中的块分割的示意图。
图4是根据本申请的示例的双向光流(BDOF)模型的示意图。
图5A是根据本申请的示例的仿射模型的示意图。
图5B是根据本申请的示例的仿射模型的示意图。
图6是根据本申请的示例的仿射模型的示意图。
图7是根据本申请的示例的PROF的示意图。
图8是根据本申请的示例的BDOF的工作流程图。
图9是根据本申请示例的PROF的工作流程图。
图10是根据本申请的PROF的位宽表征方法。
图11是根据本申请的用于控制PROF推导过程的内部位宽的方法。
图12是根据本申请的示例的用于双预测的PROF的工作流程的视图。
图13是根据本申请的BDOF和PROF的流水线级的视图。
图14是根据本申请的BDOF的梯度推导方法的视图。
图15是根据本申请的PROF的梯度推导方法的视图。
图16是视图根据本申请的示例的与用户界面耦合的计算环境的示意图。
具体实施方式
现在将详细参考示例实施例,其示例在附图中示出。以下说明均参照这些附图,不同附图中相同的附图标记表示相同或相似的要素,除非另有说明。在示例性实施例的以下描述中阐述的实施方式不代表与本申请一致的所有实施方式。相反,它们仅仅是与所附权利要求书中记载的与本申请相关的方面一致的装置和方法的示例。
本申请中使用的术语仅用于描述特定实施例的目的,儿并不旨在对本申请进行限制。如在本申请和所附的权利要求书中使用的,单数形式“a”、“an”和“the”旨在也包括复数形式,除非上下文另有明确指示。还应理解,本文使用的术语“和/或”旨在表示并包括一个或多个相关所列项目的任何或所有可能的组合。
应当理解,虽然这里可以使用术语“第一”、“第二”、“第三”等来描述各种信息,但是这些信息不应受这些术语的限制。这些术语仅用于区分一类信息与另一类信息。例如,在不脱离本发明范围的情况下,第一信息可以称为第二信息;同理,第二信息也可以称为第一信息。如本文所用,取决于上下文,术语“如果”可被理解为表示“何时”或“基于”或“响应于判断”。
HEVC标准的第一版于2013年10月最终确定,与上一代视频编码标准H.264/MPEGAVC相比,其提供了大约50%的比特率节省或等效的感知质量。尽管HEVC标准比其前身提供了显着的编码改进,但有证据表明,与HEVC相比,使用额外的编码工具可以实现更高的编码效率。基于此,VCEG和MPEG都开始了对未来视频编码标准化新编码技术的探索工作。ITU-TVECG和ISO/IECMPEG于2015年10月成立了一个联合视频探索小组(Joint VideoExploration Team,JVET),开始对能够显着提高编码效率的先进技术进行重要研究。JVET通过在HEVC测试模型(HEVC test model,HM)之上集成几个额外的编码工具来维护一种称为联合探索模型(joint exploration model,JEM)的参考软件。
2017年10月,ITU-T和ISO/IEC发布了关于具有超越HEVC能力的视频压缩的联合提案(call for proposals,CfP)。2018年4月,在第10届JVET会议上收到并评估了23份CfP回复,这表明压缩效率比HEVC提高了约40%。基于这样的评估结果,JVET启动了一个新项目,以开发名为多功能视频编码(VersatileVideoCoding,VVC)的新一代视频编码标准。同月,建立了一个称为VVC测试模型(VVC test model,VTM)的参考软件代码库,用于演示VVC标准的参考实现。
与HEVC一样,VVC建立在基于块的混合视频编码框架之上图1示出了用于VVC的基于块的视频编码器的总体视图。具体地,图1示出了典型的编码器100。编码器100具有视频输入110、运动补偿112、运动估计114、帧内/帧间模式判决116、块预测器140、加法器128、变换130、量化132、预测相关信息142、帧内预测118、图片缓存器120、逆量化134、逆变换136、加法器126、存储器124、环路滤波器122、熵编码138和比特流144。
在编码器100中,视频帧被分割成多个视频块以进行处理。对于每个给定的视频块,基于帧间预测方法或帧内预测方法形成预测。
代表当前视频块(视频输入110的一部分)与其预测器(块预测器140的一部分)之间的差异的预测残差被从加法器128发送到变换130。然后变换系数从变换130发送到量化132以减少熵。量化系数然后被馈送到熵编码138以生成压缩视频比特流。如图1所示,来自帧内/帧间模式判决116的预测相关信息142,如视频块分割信息、运动矢量(motionvectors,MVs)、参考图片索引和帧内预测模式,也通过熵编码138馈送并保存为压缩的比特流144。压缩比特流144包括视频比特流。
在编码器100中,还需要与解码器相关的电路以便为了预测目的进行像素重构。首先,通过逆量化134和逆变换136重构预测残差。该重构的预测残差与块预测器140组合以生成用于当前视频块的未滤波的重构像素。
空间预测(或“帧内预测”)使用来自与当前视频块相同的视频帧中已经编码的相邻块的样本(称为参考样本)的像素来预测当前视频块。
时间预测(也称为“帧间预测”)使用来自已编码视频图片的重构像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。给定编码单元(CU)或编码块的时间预测信号通常由一个或多个MV通过信号发送,其指示当前CU与其时间参考之间的运动量和运动方向。进一步地,如果支持多个参考图片,则额外发送一个参考图片索引,该参考图片索引用于标识该时间预测信号来自参考图片存储器中的哪个参考图片。
运动估计114接收视频输入110和来自图片缓存器120的信号并且向运动补偿112输出运动估计信号。运动补偿112接收视频输入110、来自图片缓存器120的信号和来自运动估计114的运动估计信号,并将运动补偿信号输出到帧内/帧间模式判决116。
在进行空间和/或时间预测之后,编码器100中的帧内/帧间模式判决116,例如,基于率失真优化方法,选择最佳预测模式。然后从当前视频块中减去块预测器140,并且使用变换130和量化132去相关所获得的预测残差。所获得的量化残差系数由逆量化134逆量化并由逆变换136变换以形成该重构的残差,然后将该重构的残差添回到该预测块以形成该CU的重构信号。进一步地,环路滤波122,例如解块滤波器、样本自适应偏移(sampleadaptive offset,SAO)和/或自适应环路滤波器(adaptive in-loop filter,ALF),可以在重构的CU被放入该参考图片存储之前应用于该重构的CU图片缓存器120并用于未来的视频块进行编码。为了形成输出视频比特流144,编码模式(帧间或帧内)、预测模式信息、运动信息和量化残差系数都被发送到熵编码单元138以被进一步压缩和打包以形成该比特流。
例如,去块滤波器可用在AVC、HEVC以及VVC的当前版本中。在HEVC中,定义了一个额外的环路滤波器,称为SAO(样本自适应偏移),以进一步提高编码效率。在VVC标准的最新版本中,正在积极研究另一种称为ALF(自适应环路滤波器)的环路滤波器,并可能将其包含在最终标准中。
这些环路滤波器操作是可选的。执行这些操作有助于提高编码效率和视觉质量。它们也可以作为由编码器100呈现的决定而被关闭以节省计算复杂度。
应当注意,帧内预测通常基于未滤波的重构像素,而如果这些滤波器选项被编码器100打开,则帧间预测基于滤波的重构像素。
输入视频信号被逐块处理(称为编码单元(coding units,CUs))。在VTM-1.0中,CU可以达到128×128像素。然而,与仅基于四叉树划分块的HEVC不同,在VVC中,一个编码树单元(coding tree unit,CTU)被拆分为多个CU以适应基于四叉树/二叉树/三叉树的不同局部特征。此外,HEVC中去除了多分割单元类型的概念,即VVC中不再存在CU、预测单元(prediction unit,PU)和变换单元(transform unit,TU)的分离;相反,每个CU始终用作预测和变换的基本单元,而无需进一步分割。在多类型树结构中,一个CTU首先被四叉树结构分割。然后,每个四叉树的叶子节点可以通过二叉树和三叉树结构进一步划分。
如图3A、3B、3C、3D和3E所示,有五种分割类型,即四元分割、水平二元分割、垂直二元分割、水平三元分割和垂直三元分割。
图3A示出了根据本申请的多类型树结构中的块四元分割的示意图。
图3B示出了根据本申请的多类型树结构中的块垂直二元分割的示意图。
图3C示出了根据本申请的多类型树结构中的块水平二元分割的示意图。
图3D示出了根据本申请的多类型树结构中的块垂直三元分割的示意图。
图3E示出了根据本申请的多类型树结构中的块水平三元分割的示意图。
在图1中,可进行空间预测和/或时间预测。空间预测(或“帧内预测”)使用来自同一视频图片/切片中已编码的相邻块(称为参考样本)的样本的像素来预测该当前视频块。空间预测减少了视频信号中固有的空间冗余。时间预测(也称为“帧间预测”或“运动补偿预测”)使用来自已编码视频图片的重构像素来预测该当前视频块。时间预测减少了视频信号中固有的时间冗余。用于给定CU的时间预测信号通常由一个或多个MV通过信号发送,这些MV指示当前CU与其时间参考之间的运动量和运动方向。此外,如果支持多个参考图片,则额外发送一个参考图片索引,该参考图片索引用于标识该时间预测信号来自参考图片存储器中的哪个参考图片。在空间和/或时间预测之后,该编码器中的模式判决块,例如,基于率失真优化方法,选择最佳预测模式。然后从该当前视频块中减去该预测块,并使用变换和量化对该预测残差进行去相关。对量化后的残差系数进行逆量化和逆变换以形成该重构残差,然后将该重构残差添回到该预测块中以形成该CU的重构信号。此外,在将该重构的CU放入参考图片存储器并用于对未来视频块进行编码之前,可以在该重构的CU上应用环路滤波,如去块滤波器、样本自适应偏移(SAO)和自适应环路滤波器(ALF)。为了形成该输出视频比特流,(帧间或帧内)编码模式、预测模式信息、运动信息和量化的残差系数都被发送到熵编码单元以进行进一步压缩和打包以形成该比特流。
图2示出了用于VVC的视频解码器的总体框图。具体地,图2示出了典型的解码器200的框图。解码器200具有比特流210、熵解码212、逆量化214、逆变换216、加法器218、帧内/帧间模式选择220、帧内预测222、存储器230、环路滤波器228、运动补偿224、图片缓存器226、预测相关信息234和视频输出232。
解码器200类似于位于图1的编码器100中的重构相关部分。在解码器200中,首先通过熵解码212解码输入的视频比特流210以导出量化系数级别和预测相关信息。然后通过逆量化214和逆变换216对这些量化的系数级别进行处理以获得重构的预测残差。在帧内/帧间模式选择器220中实现的块预测器机制被配置为基于解码的预测信息进行帧内预测222或运动补偿224。通过使用加法器218将来自逆变换216的重构预测残差与该块预测器机制生成的预测输出相加来获得一组未滤波的重构像素。
该重构块在被存储在用作参考图片存储器的图片缓存器226中之前可以进一步通过环路滤波器228。图片缓存器226中的重构视频可被发送以驱动显示设备,并且用于预测未来的视频块。在环路滤波器228被打开的情况下,对这些重构像素进行滤波操作以导出最终的重构视频输出232。
在图2中,给出了基于块的视频解码器的总体框图。首先在熵解码单元对该视频比特流进行熵解码。编码模式和预测信息被发送到空间预测单元(如果是帧内编码)或时间预测单元(如果是帧间编码)以形成该预测块。残差变换系数被发送到逆量化单元和逆变换单元以重构该残差块。然后将该预测块和该残差块加在一起。该重构块在被存储在参考图片存储器中之前可以进一步经过环路滤波。参考图片存储中的重构视频然后被发送出去以驱动显示设备,并且用于预测未来的视频块。
一般来讲,除了将若干模块进一步扩展和/或增强之外,在VVC中应用的基本帧间预测技术与HEVC的基本帧间预测技术保持相同。具体而言,对于所有在前的视频标准,当一个编码块被单预测时,该编码块只能与单一的MV相关联,或者该当编码块被双预测时,该编码块只能与两个MV相关联。由于传统的基于块的运动补偿的这种限制,在运动补偿后的预测样本中仍然会保留小的运动,从而对运动补偿的整体效率产生负面影响。为了提高这些MV的粒度和精度,目前正在研究用于VVC标准的两种基于光流的采样细化方法,即双向光流(BDOF)和用于仿射模式的光流预测细化(PROF)。下面简要回顾这两种帧间编码工具的主要技术方面。
双向光流
在VVC中,应用BDOF来细化双预测的编码块的预测样本。具体来说,如图4所示,BDOF是在使用双预测时在基于块的运动补偿预测之上进行的逐样本运动细化。每个4×4子块的运动细化是通过在该子块周围的一个6×6窗口内应用该BDOF之后将L0和L1预测样本之间的差异最小化来计算的。具体来说,(vx,vy)的值导出为:
Figure BDA0003305459390000084
其中,
Figure BDA0003305459390000083
是向下取整函数;clip3(min,max,x)是在[min,max]范围内截取给定值x的函数;符号>>表示按位右移操作;符号<<表示按位左移操作;thBDOF是防止由于不规则局部运动引起的传播式错误的运动细化阈值,该阈值等于1<<max(5,bit-Depth-7),其中,bit-Depth是内部位深度。在(1)中,
Figure BDA0003305459390000081
S1、S2、S3、S5和S6的值计算为:
Figure BDA0003305459390000082
Figure BDA0003305459390000091
其中,
Figure BDA0003305459390000092
其中,I(k)(i,j)是列表k,k=0,1中预测信号的坐标处的样本值,这些样本值以中高精度(即16位)生成;
Figure BDA0003305459390000093
Figure BDA0003305459390000094
是通过直接计算该样本的两个相邻样本之间的差异而获得的该样本的水平和垂直梯度,即,
Figure BDA0003305459390000095
基于在(1)中导出的运动细化,通过基于该光流模型沿运动轨迹内插L0/L1预测样本来计算该CU的最终双预测样本,如下式所示
Figure BDA0003305459390000096
其中,shift和ooffset是用于将L0和L1预测信号进行组合以用于双预测的向右位移值和偏移值,分别等于15-BD和1<<(14-BD)+2·(1<<13)。基于上述位深(bit-depth)控制方法,保证了整个BDOF过程的中间参数的最大位深不超过32位,并且乘法的最大输入在15位以内,即,一个15位乘法器足够用于BDOF实现。
仿射模式
在HEVC中,仅将平移运动模型应用于运动补偿预测。而在现实世界中,运动有很多种,例如放大/缩小、旋转、透视运动和其它不规则运动。在VVC中,通过为每个帧间编码块通过信号发送一个标志来应用仿射运动补偿预测,以指示是将平移运动还是仿射运动模型应用于帧间预测。在目前的VVC设计中,对于一个仿射编码块,支持包括4参数仿射模式和6参数仿射模式的两种仿射模式。
该4参数仿射模型具有以下参数:用于平移运动的分别以水平和垂直方向的两个参数,用于两个方向的缩放运动的一个参数和用于旋转运动的一个参数。水平缩放参数等于垂直缩放参数。水平旋转参数等于垂直旋转参数。为了更好地适应MV和仿射参数,在VVC中,将这些仿射参数转换为位于当前块的左上角和右上角的两个MV(也称为控制点运动矢量(control point motion vector,CPMV))。如图5A和5B所示,该块的仿射运动场由两个控制点MV(V0,V1)描述。
图5A示出了4参数仿射模型的示图。图5B示出了4参数仿射模型的示图。基于该控制点运动,一个仿射编码块的运动场向量(vx,vy)被描述为
Figure BDA0003305459390000101
该6参数仿射模式具有以下参数:用于分别针对水平和垂直方向的平移运动的两个参数、在水平方向上用于缩放运动的一个参数和用于旋转运动的一个参数、在垂直方向上用于缩放运动的一个参数和用于旋转运动的一个参数。用在三个CPMV处的三个MV对该6参数仿射运动模型进行编码。
图6示出了6参数仿射模型的视图。如图6所示,一个6参数仿射块的三个控制点分别位于该块的左上角、右上角和左下角。左上控制点处的运动与平移运动有关,右上控制点处的运动与水平方向的旋转和缩放运动有关,左下控制点处的运动与垂直方向的旋转和缩放运动有关。与该4参数仿射运动模型相比,该6参数的水平方向的旋转和缩放运动可能与垂直方向的运动不同。假设(V0,V1,V2)是图6中该当前块的左上角、右上角和左下角的MV,每个子块(vx,vy)的MV是使用控制点处的三个MV导出的,如下所示:
Figure BDA0003305459390000102
用于仿射模式的光流预测细化
为了提高仿射运动补偿精度,目前VVC中正在研究PROF,其基于光流模型细化基于子块的仿射运动补偿。具体地,在进行基于子块的仿射运动补偿后,将一个仿射块的亮度预测样本修改为一个基于光流方程导出的样本细化值。具体来说,PROF的操作可以概括为以下四个步骤:
步骤一:执行基于子块的仿射运动补偿以使用子块MV生成子块预测I(i,j),如在(6)中针对4参数仿射模型和(7)中导出的6-参数仿射模型。
步骤二:将每个预测样本的空间梯度gx(i,j)和gy(i,j)计算为:
gx(i,j)=(I(i+1,j)-I(i-1,j))>>(max(2,14-bit-depth)-4)
gy(i,j)=(I(i,j+1)-I(i,j-1))>>(max(2,14-bit-depth)-4) (8)
为了计算这些梯度,需要在一个子块的每一侧上生成一个额外的行/列预测样本。为了降低内存带宽和复杂度,从该参考图片中最近的整数像素位置复制扩展边界上的样本,以避免额外的插值过程。
步骤三:由下式计算该亮度预测细化值
ΔI(i,j)=gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j) (9)
其中,Δv(i,j)是对于样本位置(i,j)计算的像素MV(被标识为v(i,j))与像素(i,j)所在子块的子块MV之间的差值。
步骤四:在当前的PROF设计中,在对原始预测样本加入该预测细化后,进行一次截取操作,将细化后的预测样本的值截取在15-bit以内,即,
Ir(i,j)=I(i,j)+ΔI(i,j)
Ir(i,j)=clip3(-214,214-1,Ir(i,j));
其中,I(i,j)和Ir(i,j)分别是位置(i,j)处的原始和细化的预测样本。
图7示出了用于仿射模式的PROF过程的视图。
由于这些仿射模型参数和相对于子块中心的像素位置在子块与子块之间没有变化,所以可以针对第一个子块计算Δv(i,j),并重用于同一CU中的其它子块。令Δx和Δy是从样本位置(i,j)到该样本所属的子块的中心的水平和垂直偏移,可将Δv(i,j)导出为
Figure BDA0003305459390000111
基于仿射子块MV推导公式(6)和(7),可以推导MV差值Δv(i,j)。具体来讲,对于4参数仿射模型,
Figure BDA0003305459390000121
对于6参数仿射模型,
Figure BDA0003305459390000122
其中,(v0x,v0y)、(v1x,v1y)、(v2x,v2y)分别为当前编码块的左上、右上、左下控制点MV,w和h为该块的宽度和高度。在现有的PROF设计中,MV差值Δvx和Δvy始终以1/32像素的精度导出。
仿射模式的编码效率
虽然PROF可以提高仿射模式的编码效率,但是其设计还可以进一步改进。特别是,鉴于PROF和BDOF都建立在光流概念之上,因此非常需要尽可能协调PROF和BDOF的设计,以便PROF可以最大程度地利用BDOF的现有逻辑来实现促进硬件实现。基于这种考虑,在本申请中确定了当前PROF和BDOF设计之间的相互作用的以下问题。
首先,如在“用于仿射模式的光流预测细化”部分中所述,在公式(8)中,基于内部位深度确定梯度的精度。另一方面,MV差值,即Δvx和Δvy总是以1/32像素的精度导出。相应地,基于公式(9),导出的PROF细化的精度取决于该内部位深度。然而,与BDOF类似,PROF应用于中高位深度(即16位)的预测样本值,以保持较高的PROF推导精度。因此,无论内部编码位深如何,由该PROF导出的预测细化的精度均应与中间预测样本(即16位)的精度相匹配。换句话说,现有PROF设计中的MV差异和梯度的表征位深度无法完美匹配以推导出相对于预测样本精度(即16位)的准确预测改进。同时,基于公式(1)、(4)和(8)的比较,现有的PROF和BDOF使用不同的精度来表征这些样本梯度和MV差值。如前所述,这种不统一的设计对于硬件来说是不可取的,因为现有的BDOF逻辑无法重用。
其次,如在“用于仿射模式的光流预测细化”部分中所述,当一个当前仿射块被双预测时,将PROF分别应用于列表L0和L1中的预测样本;然后,对增强后的L0和L1预测信号进行平均以生成最终的双预测信号。相反,BDOF不是针对每个预测方向单独推导PROF细化,而是推导一次预测细化,然后将其应用于增强组合的L0和L1预测信号。
图8和图9(如下所述)比较了当前BDOF和PROF的双预测工作流程。在实际的编解码硬件流水线设计中,通常为每个流水线阶段分配不同的主要编码/解码模块,以使更多的编码块可以被并行处理。然而,由于BDOF与PROF工作流程之间的差异,这可能导致BDOF和PROF难以共享一个相同的流水线设计,这对于实际编解码器的实现并不友好。
图8示出了BDOF的工作流程。工作流程800包括L0运动补偿810、L1运动补偿820和BDOF830。例如,L0运动补偿810可以是来自先前参考图片的运动补偿样本的列表。该先前参考图片是视频块中当前图片之前的参考图片。例如,L1运动补偿820可以是来自下一个参考图片的运动补偿样本列表。该下一个参考图片是该视频块中当前图片之后的参考图片。BDOF830从L1运动补偿810和L1运动补偿820中获取运动补偿样本并输出预测样本,如前面对图4所描述的那样。
图9示出了现有PROF的工作流程。工作流程900包括L0运动补偿910、L1运动补偿920、L0 PROF930、L1 PROF940和平均960。例如,L0运动补偿910可以是来自先前参考图片的运动补偿样本的列表。该先前参考图片是该视频块中当前图片之前的参考图片。例如,L1运动补偿920可以是来自下一个参考图片的运动补偿样本列表。该下一个参考图片是该视频块中当前图片之后的参考图片。L0 PROF930从L0运动补偿910获取该L0运动补偿样本并输出运动细化值,如前面对图7所描述的那样。L1 PROF940从L1运动补偿920获取这些L1运动补偿样本并输出运动细化值,如前面对图7所描述的那样。平均960对L0 PROF930和L1PROF940的运动细化值输出进行平均。
第三,对于BDOF和PROF,需要为当前编码块内的每个样本计算梯度,这要求在该块的每一侧生成一个额外的行/列预测样本。为了避免样本插值的额外计算复杂度,直接从处于整数位置的参考样本复制该块周围的扩展区域中的预测样本(即,没有插值)。但是,根据现有的设计,选择不同位置的整数样本来生成BDOF和PROF的梯度值。具体来说,对于BDOF,使用位于预测样本左侧(对于水平梯度)和预测样本上方(对于垂直梯度)的整数参考样本;对于PROF,最接近预测样本的整数参考样本用于梯度计算。与位深表征问题类似,这种非统一的梯度计算方法对于硬件编解码器的实现也并不是所希望的。
第四,如前所述,PROF的动机是补偿每个样本的MV与在该样本所属的子块的中心导出的子块MV之间的小的MV差异。根据当前的PROF设计,当通过仿射模式预测一个编码块时总是调用该PROF。然而,如公式(6)和(7)所示,一个仿射块的子块MVs是从这些控制点MVs导出的。因此,当这些控制点MVs之间的差异较小时,处于每个样本位置的MV应该是一致的。在这种情况下,由于应用PROF的好处可能非常有限,因此在考虑性能/复杂性权衡时可能不值得执行该PROF。
提高使用PROF的仿射模式的效率
在本申请中,提供了改进和简化现有PROF设计以促进硬件编解码器实现的方法。特别注意协调BDOF和PROF的设计,以最大限度地与PROF共享现有的BDOF逻辑。一般而言,本申请中提出的技术的主要方面总结如下。
图10示出了根据本申请的用于解码视频信号的PROF的位宽表征方法。
在步骤1010中,获得与视频信号内的视频块相关联的第一参考图片I。例如,该第一参考图片可以是与正在被编码的当前图片相邻的视频图片。
在步骤1012中,从该第一参考图片I中的参考块获取该视频块的预测样本I(i,j)。i和j表征一个样本相对于该视频块的坐标。例如,该预测样本I(i,j)可以是使用该第一参考图片的MV的预测样本。
在步骤1014中,通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的该内部PROF参数。这些内部PROF参数包括为该预测样本I(i,j)导出的水平梯度值、垂直梯度值、水平运动差值和垂直运动差值。
在步骤1016中,基于该预测样本I(i,j),根据应用于该视频块的该PROF推导过程获得用于该视频块中样本的预测细化值。
在步骤1018中,基于该预测样本和该预测细化值的组合获得该视频块的预测样本。
为了在实现更加统一的设计的同时提高PROF的编码效率,提出了一种统一BDOF和PROF使用的样本梯度和MV差的表征位深(bit-depth)的方法。
为了便于硬件流水线设计,提出了将PROF的工作流程与BDOF的工作流程协调起来以进行双预测。具体来说,与现有的PROF分别为L0和L1导出预测细化不同,所提出的方法导出一次预测细化,并将其应用于组合的L0和L1预测信号。
提出了两种方法来协调整数参考样本的推导以计算由BDOF和PROF使用的梯度值。
为了降低计算复杂度,提出了早期终止方法以在满足某些条件时自适应地禁用用于仿射编码块的PROF过程。
改进的PROF梯度和MV差异的位深表征设计
如在“仿射模式的编码效率”部分所分析的那样,在当前PROF中MV差异的表征位深度和样本梯度未对齐以导出准确的预测细化。此外,BDOF和PROF之间样本梯度的表征位深和MV差异不一致,这对硬件是不利的。在本节中,提出了一种通过将BDOF的位深表征方法扩展到PROF的改进的位深表征方法。具体来说,在所提出的方法中,每个样本位置的水平和垂直梯度计算为:
gx(i,j)=(I(i+1,J)-I(i-1,J))>>max(6,bit-depth-6)
gy(i,j)=(I(i,j+1)-I(i,j-1))>>max(6,bit-depth-6) (11)
另外,假设Δx和Δy是从一个样本位置到该样本所属的子块的中心以1/4像素精度表征的水平和垂直偏移,则在样本位置处的对应PROFMV差Δv(x,y)被导出为:
Figure BDA0003305459390000151
其中,dMvBits是该BDOF过程使用的梯度值的位深,即dMvBits=max(5,(bit-depth-7))+1。在公式(11)和(12)中,c、d、e和f是基于这些仿射控制点MV导出的仿射参数。具体来说,对于4参数仿射模型,
Figure BDA0003305459390000152
对于6参数仿射模型,
Figure BDA0003305459390000153
其中,(v0x,v0y)、(v1x,v1y)、(v2x,v2y)是当前编码块的左上、右上和左下控制点MV,以1/16-pel精度表征,w和h是该块的宽度和高度。
图11示出了根据本申请的用于控制PROF推导过程的内部位宽的方法1100。
在步骤1110中,基于第一预测样本I(i+1,j)与第一预测样本I(i-1,j)之间的差值获得第一预测样本I(i,j)的水平梯度值。
在步骤1112中,基于第一预测样本I(i,j+1)与第一预测样本I(i,j-1)之间的差值得到第一预测样本I(i,j)的垂直梯度值。
在步骤1114中,将该水平梯度值右移第一比特位移值。
在步骤1116中,将该垂直梯度值右移该第一比特位移值。
在以上的讨论中,如公式(11)和(12)所示,应用一对固定右移来计算这些梯度和MV差的值。在实践中,不同的按位右移可以应用于(11)和(12)以实现这些梯度和MV差异的各种表征精度,以在中间计算精度与内部PROF推导过程的位宽之间进行不同的权衡。例如,当输入视频包含大量噪声时,导出的梯度可能无法可靠地表征每个样本的真实局部水平/垂直梯度值。在这种情况下,使用更多位来表征MV差异比使用梯度更有意义。由于噪声是高频信息,因此可以例如通过确定高频信息的量来确定大量噪声。在另一示例中,可以使用量化参数,其中高量化参数值可以指示低噪声水平。
另一方面,当输入视频显示稳定运动时,由该仿射模型导出的这些MV差异应该非常小。如果是这样,使用高精度MV差异并不能提供额外的好处来提高导出的PROF细化的精度。换句话说,在这种情况下,使用更多位来表征梯度值会更加有利。例如,可以通过使用控制点运动矢量之间的差来确定稳定运动。
基于上述考虑,在本申请的一个实施例中,下面提出一种通用的方法来计算用于该PROF的梯度和MV差。具体来说,假设每个样本位置的水平和垂直梯度是通过对相邻预测样本的差异应用右移来计算的,即,
gx(i,j)=(I(i+1,j)-I(i-1,j))>>na
gy(i,j)=(I(i,j+1)-I(i,j-1))>>na (13A)
处于该样品位置的对应的PROFMV差值应计算为:
Figure BDA0003305459390000161
其中,Δx和Δy是从一个样本位置到该样本所属子块中心的以1/4像素精度表征的水平和垂直偏移,c、d、e和f是基于1/16像素仿射控制点MV导出的仿射参数。最后,该样本的最终PROF细化计算为:
ΔI(i,j)=(gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j)+1)>>1 (15A)
如前所述,当一个仿射编码块被双预测时,以单边方式应用当前的PROF。更具体地来讲,PROF样本细化被单独导出并应用于列表L0和L1中的预测样本。之后,分别来自列表L0和L1的细化预测信号被平均以生成该块的最终双预测信号。这与BDOF设计形成对比,在BDOF设计中,样本细化被导出并应用于双预测信号。BDOF和PROF的双预测工作流程之间的这种差异可能对实际编解码器流水线设计并不友好。
为了便于硬件流水线设计,根据本申请,一种简化方法是修改PROF的双向预测过程,使得两种预测细化方法的工作流程协调一致。具体来讲,所提出的PROF方法不是针对每个预测方向单独应用细化,而是基于列表L0和L1的控制点MV导出一次预测细化;然后将导出的预测细化应用于组合的L0和L1预测信号以提高质量。具体而言,基于公式(12)中推导出的MV差异,一个仿射编码块的最终双预测样本通过所提出的方法计算为:
predPROF(i,j)=(I(0)(i,j)+I(1)(i,j)+ΔI(i,j)+ooffset)>>shift
ΔI(i,j)=(gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j)+1)>>1
Ir(i,j)=I(i,j)+ΔI(i,j) (16)
其中,shift和ooffset是用于组合L0和L1预测信号以进行双预测的向右位移值和偏移值,分别等于(15-bit-depth)和1<<(14-bit-depth)+(2<<13)。此外,如公式(16)所示,在所提出的方法中除去了现有PROF设计(如公式(9)所示)中的剪裁操作。
图12示出了当应用所提出的双预测PROF方法时对应的PROF过程。PROF过程1200包括L0运动补偿1210、L1运动补偿1220和双预测PROF 1230。例如,L0运动补偿1210可以是来自先前参考图片的运动补偿样本的列表。该先前参考图片是该视频块中当前图片之前的参考图片。例如,L1运动补偿1220可以是来自下一个参考图片的运动补偿样本列表。该下一个参考图片是该视频块中当前图片之后的参考图片。如上所述,双预测PROF 1230从L1运动补偿1210和L1运动补偿1220中获取运动补偿样本并输出双预测样本。
图13示出了应用BDOF和所提出的PROF两者时的示例流水线级的图示。图13图示了所提出的用于硬件流水线设计方法的潜在益处。流水线级1300包括解析/解码MV和获取参考样本1310、运动补偿1320、BDOF/PROF 1330。流水线级1300将视频块BLK0、BKL1、BKL2、BKL3和BLK4编码。每个视频块将依次开始于解析/解码MV和获取参考样本1310并移动到运动补偿1320,然后移动到运动补偿1320、BDOF/PROF 1330。这意味着BLK0不会在流水线阶段1300过程中开始,直到BLK0移动到运动补偿1320上。随着时间从T0到T1、T2、T3和T4,所有阶段和视频块都相同。
在图13中,一个帧内块的解码过程主要包含三个步骤:
第一,解析/解码编码块的MV并获取参考样本。
第二,生成该编码块的L0和/或L1预测信号。
第三,当该编码块由一种非仿射模式预测时,基于该BDOF对生成的双预测样本进行逐样本细化,或者当该编码块由仿射模式预测时,基于该PROF进行逐样本细化。
如图13所示,在应用所提出的协调方法后,BDOF和PROF都直接应用于这些双预测样本。鉴于BDOF和PROF应用于不同类型的编码块(即BDOF应用于非仿射块,PROF应用于仿射块),这两种编码工具不能被同时调用。因此,它们相应的解码过程可以通过共享同一的流水线级来进行。这比现有的PROF设计更有效,现有的PROF设计很难为BDOF和PROF分配同一流水线阶段,因为它们的双预测工作流程不同。
在上面的讨论中,所提出的方法仅考虑了BDOF和PROF的工作流程的协调。然而,根据现有设计,用于这两种编码工具的基本操作单元也以不同的尺寸执行。具体来说,对于BDOF,一个编码块被分成大小为Ws×Hs的多个子块;其中,Ws=min(W,16),Hs=min(H,16);其中W和H是该编码块的宽度和高度。对每个子块独立执行这些BODF操作,如梯度计算和样本细化推导。另一方面,如前所述,仿射编码块被划分为4×4的子块,每个子块被分配一个基于4参数或6参数仿射模型导出的单独MV。由于PROF仅适用于仿射块,其基本操作单位为4×4的子块。与双预测工作流问题类似,对PROF和BDOF使用不同的基本操作单元大小也不利于硬件实现,并且使得BDOF和PROF难以共享整个解码过程的同一流水线阶段。为了解决这种问题,在一个实施例中,提出将该仿射模式的子块大小与BDOF的子块大小对齐。具体来说,根据所提出的方法,如果采用仿射模式对一个编码块进行编码,它将被分成大小为Ws×Hs的子块,其中,Ws=min(W,16),Hs=min(H,16);其中,W和H是该编码块的宽度和高度。每个子块被分配一个单独的MV,并被视为一个独立的PROF操作单元。值得一提的是,独立的PROF操作单元可确保在其之上执行PROF操作,而无需参考来自相邻PROF操作单元的信息。具体地,将某一样本位置处的PROFMV差值计算为该样本位置处的MV与该样本所在的PROF运算单元中心处的MV之间的差值;PROF推导使用的梯度是通过沿每个PROF操作单元填充样本来计算的。所提出的方法的所称的好处主要包括以下几个方面:1)简化的流水线架构,这种架构具有用于运动补偿和BDOF/PROF细化的统一的基本操作单元尺寸;2)由于用于仿射运动补偿的扩大的子块大小而减少了内存带宽使用;3)降低了分数样本插值的每样本计算复杂度。
还应提到的是,由于所提出的方法具有降低的计算复杂度(即,第3项),因此可以去除仿射编码块的对现有的6抽头插值滤波器的约束。相反,用于非仿射编码块的默认的8抽头插值也用于仿射编码块。在这种情况下,整体计算复杂度仍然可以与现有的PROF设计(即基于具有6抽头插值滤波器的4×4的子块)相媲美。
用于BDOF和PROF的梯度推导的协调
如前所述,BDOF和PROF都计算当前编码块内每个样本的梯度,这会访问该块的每一侧的一个额外的行/列预测样本。为了避免额外的插值复杂度,直接从整数参考样本中复制块边界周围扩展区域中所需的预测样本。然而,正如在“仿射模式的编码效率”一节中所指出的那样,不同位置的整数样本用于计算BDOF和PROF的梯度值。
为了实现一种更统一的设计,下面提出两种方法来统一BDOF和PROF使用的梯度推导方法。在第一种方法中,提出了将PROF的梯度推导方法与BDOF的梯度推导方法对齐。具体来说,通过第一种方法,用于在扩展区域中生成这些预测样本的整数位置是通过对分数样本位置进行向下取整来确定的,即所选择的整数样本位置位于分数样本位置的左侧(对于水平梯度)和在分数样本位置之上(对于垂直梯度)。
在第二种方法中,提出将BDOF的梯度推导方法与PROF的梯度推导方法对齐。更具体地来讲,当应用第二种方法时,最接近该预测样本的整数参考样本用于梯度计算。
图14示出了使用BDOF的梯度推导方法的示例,其中空白圆圈表示整数位置处的参考样本1410,三角形表示当前块的分数预测样本1430,灰色圆圈表示用于填充当前块的扩展区域的整数参考样本1420。
图15示出了使用PROF的梯度推导方法的示例,其中空白圆圈表示整数位置处的参考样本1510,三角形表示当前块的分数预测样本1530,灰色圆圈表示用于填充当前块的扩展区域的整数参考样本1520。
图14和图15示出了当分别应用第一种方法(图14)和第二种方法(图15)时用于导出BDOF和PROF的梯度的相应整数样本位置。在图14和图15中,空白圆圈表示整数位置处的参考样本,三角形表示当前块的分数预测样本,带有图案的圆圈表示用于填充当前块的扩展区域以进行梯度推导的整数参考样本。
基于控制点MV差异的PROF的早期终止
根据当前的PROF设计,当通过仿射模式预测一个编码块时总是调用PROF。然而,如公式(6)和(7)所示,一个仿射块的子块MVs是从这些控制点MVs导出的。因此,当这些控制点MVs之间的差异较小时,处于每个样本位置的MV应该是一致的。在这种情况下,应用PROF的益处可能非常有限。因此,为了进一步降低PROF的平均计算复杂度,提出了根据一个4×4子块内的样本MV和子块MV之间的最大MV差异自适应地跳过基于PROF的样本细化。由于一个4×4子块内样本的PROFMV差值围绕该子块中心对称,因此可以根据公式(10)将最大水平和垂直PROF MV差值计算为:
Figure BDA0003305459390000201
根据本申请,可以使用不同的度量来确定该MV差异是否足够小以跳过PROF过程。
在一个示例中,基于公式(14),当绝对最大水平MV差和绝对最大垂直MV差之和小于一个预定阈值时,可以跳过PROF过程,即,
Figure BDA0003305459390000202
在另一个示例中,如果
Figure BDA0003305459390000203
Figure BDA0003305459390000204
的最大值不大于阈值,则可以跳过PROF过程。
Figure BDA0003305459390000205
其中,MAX(a,b)是一个函数,该函数返回输入值a和b之间的较大值。
此外,对于以上两个示例,本申请的精神也适用于使用其它度量来确定该MV差异是否足够小以跳过PROF过程的情况。
在上述方法中,基于该MV差异的大小跳过该PROF。另一方面,除了该MV差异之外,PROF样本细化也是基于一个运动补偿块中每个样本位置处的局部梯度信息计算的。对于包含较少高频细节(例如平坦区域)的预测块,梯度值往往很小,因此派生样本细化的值应该很小。考虑到这一点,根据本申请的另一个实施例,提出仅对包含足够的高频信息的块的预测样本应用PROF。
可以使用不同的度量来确定一个块是否包含足够的高频信息,从而值得为该块调用PROF过程。在一个示例中,基于该预测块内样本的梯度的平均大小(即,绝对值)做出决定。如果平均大小小于一个阈值,则该预测块被归类为平坦区域,不应应用PROF;否则,在PROF仍然适用的情况下,该预测块被认为包含足够的高频细节。在另一示例中,可以使用该预测块内样本的梯度的最大量值。如果该最大量值小于一个阈值,则为了该块将跳过PROF。在又一示例中,预测块的最大样本值与最小样本值之间的差值Imax-Imin可用于确定是否将PROF应用于该块。若这种差值小于阈值,则将为了该块跳过PROF。值得注意的是,本申请的精神也适用于使用一些其它度量来确定给定块是否包含足够的高频信息的情况。
图16示出了与用户界面1660耦合的计算环境1610。计算环境1610可以是数据处理服务器的一部分。计算环境1610包括处理器1620、存储器1640和I/O接口1650。
处理器1620通常控制计算环境1610的整体操作,例如与显示、数据获取、数据通信和图像处理相关联的操作。处理器1620可以包括一个或多个处理器以执行指令以执行上述方法中的所有或一些步骤。此外,处理器1620可以包括有利于处理器1620与其它组件之间的交互的一个或多个模块。该处理器可以是中央处理器(CPU)、微处理器、单片机、GPU,等等。
存储器1640被配置为存储各种类型的数据以支持计算环境1610的操作。存储器1640可以包括预定软件1642。这种数据的示例包括用于在计算环境1610上操作的任何应用程序或方法的指令,视频数据集、图像数据等。存储器1640可以通过使用任何类型的易失性或非易失性存储器设备或其组合来实现,例如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存、磁盘或光盘。
I/O接口1650提供处理器1620与外围接口模块(例如键盘、点击轮、按钮等)之间的接口。这些按钮可以包括但不限于主页按钮、开始扫描按钮和停止扫描按钮。I/O接口1650可以与编码器和解码器耦合。
这里,还提供了一种非暂时性计算机可读存储介质,其包括用于执行上述方法的多个程序,例如包含在存储器1640中可由计算环境1610中的处理器1620执行的多个程序。例如,该非暂时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等。
该非暂时性计算机可读存储介质在其中存储了多个程序以供具有一个或多个处理器的计算设备执行,其中多个程序在由一个或多个处理器执行时使该计算设备执行上述运动预测方法。
在一个实施例中,计算环境1610可以用一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、控制器、微控制器、微处理器或其他电子元件来实现,以执行上述方法。
本申请的描述是为了说明的目的而呈现的,并不旨在穷举或限制本申请。受益于前述描述和相关附图中呈现的教导,本领域普通技术人员将会明白许多修改、变化和替代实施方式。
选择和描述这些示例是为了解释本申请的原理,并使本领域的其他技术人员能够理解本申请的各种实现方式,并最好地利用基本原理和具有各种修改的各种实现方式到预期的特定用途。因此,将会理解,本申请的范围不限于所公开的实施方式的具体示例,并且修改和其他实施方式旨在包括在本申请的范围内。

Claims (24)

1.一种用于解码视频信号的光流预测细化(PROF)的位宽表征方法,包括:
获得与视频信号内的视频块相关联的第一参考图片I;
从所述第一参考图片I中的参考块获取所述视频块的预测样本I(i,j),其中i和j表征一个样本相对于所述视频块的坐标;
通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数,其中所述内部PROF参数包括为所述预测样本I(i,j)导出的水平梯度值、垂直梯度值、水平运动差值和垂直运动差值;
基于所述预测样本I(i,j),根据应用于所述视频块的所述PROF推导过程,获得用于所述视频块中样本的预测细化值;以及
基于所述预测样本和所述预测细化值的组合获得所述视频块的预测样本。
2.根据权利要求1所述的方法,其中通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数包括:
基于第一预测样本I(i+1,j)与第一预测样本I(i-1,j)的差值获得第一预测样本I(i,j)的水平梯度值;
基于第一预测样本I(i,j+1)与第一预测样本I(i,j-1)的差值得到所述第一预测样本I(i,j)的垂直梯度值;
将所述水平梯度值右移第一比特位移值;以及
将所述垂直梯度值右移所述第一比特位移值。
3.根据权利要求2所述的方法,还包括:
获得所述第一预测样本I(i,j)的控制点运动向量(MV),其中所述控制点MV包括包含所述视频块的一个块的左上角块、右上角块和左下角块的运动向量;
获得基于所述控制点MV导出的仿射模型参数;
基于所述仿射模型参数获得用于所述第一预测样本I(i,j)的水平MV差Δvx(i,j)和垂直MV差Δvy(i,j);
将所述水平MV差Δvx(i,j)右移第二比特位移值;以及
将所述垂直MV差Δvy(i,j)右移所述第二比特位移值。
4.根据权利要求3所述的方法,其中,所述第二比特位移值等于13减去所述第一比特位移值。
5.根据权利要求3所述的方法,其中,获得用于所述视频块中的样本的预测细化包括:
基于所述水平梯度值、所述水平MV差值Δvx(i,j)、所述垂直梯度值和所述垂直MV差值Δvy(i,j)获得所述预测细化值;以及
将所述预测细化值右移1。
6.根据权利要求3所述的方法,其中,当用于对所述视频信号进行编码的量化参数小于预定阈值时,所述第一比特位移值大于所述第二比特位移值。
7.根据权利要求3所述的方法,其中,当所述视频信号中的高频信息小于预定阈值时,所述第一比特位移值小于所述第二比特位移值。
8.根据权利要求3所述的方法,其中,当控制点MV之间的最大差值小于预定阈值时,所述第一比特位移值小于所述第二比特位移值。
9.一种计算设备,包括:
一个或多个处理器;
一种存储可由所述一个或多个处理器执行的指令的非暂时性计算机可读存储介质,其中所述一个或多个处理器被配置为:
获得与视频信号内的视频块相关联的第一参考图片I;
从所述第一参考图片I中的参考块获取所述视频块的预测样本I(i,j),其中i和j表征一个样本相对于所述视频块的坐标;
通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数,其中所述内部PROF参数包括为所述预测样本I(i,j)导出的水平梯度值、垂直梯度值、水平运动差值和垂直运动差值;
基于所述预测样本I(i,j),根据应用于所述视频块的所述PROF推导过程获得用于所述视频块中样本的预测细化值;以及
基于所述预测样本和所述预测细化值的组合获得所述视频块的预测样本。
10.根据权利要求10所述的计算设备,其中,被配置为通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数的所述一个或多个处理器被进一步配置为:
基于第一预测样本I(i+1,j)与第一预测样本I(i-1,j)的差值获得第一预测样本I(i,j)的水平梯度值;
基于第一预测样本I(i,j+1)与第一预测样本I(i,j-1)的差值得到所述第一预测样本I(i,j)的垂直梯度值;
将所述水平梯度值右移第一比特位移值;以及
将所述垂直梯度值右移所述第一比特位移值。
11.根据权利要求11所述的计算设备,其中,所述一个或多个处理器还被配置为:
获得所述第一预测样本I(i,j)的控制点运动向量(MV),其中所述控制点MV包括包含所述视频块的一个块的左上角块、右上角块和左下角块的运动向量;
获得基于所述控制点MV导出的仿射模型参数;
基于所述仿射模型参数获得用于所述第一预测样本I(i,j)的水平MV差Δvx(i,j)和垂直MV差Δvy(i,j);
将所述水平MV差Δvx(i,j)右移第二比特位移值;以及
将所述垂直MV差Δvy(i,j)右移所述第二比特位移值。
12.根据权利要求12所述的计算设备,其中,所述第二比特位移值等于13减去所述第一比特位移值。
13.根据权利要求12所述的计算设备,其中被配置为获得用于所述视频块中的样本的所述预测精化的所述一个或多个处理器被进一步配置为:
基于所述水平梯度值、所述水平MV差值Δvx(i,j)、所述垂直梯度值和所述垂直MV差值Δvy(i,j)获得所述预测细化值;以及
将所述预测细化值右移1。
14.根据权利要求12所述的计算设备,其中,当用于对所述视频信号进行编码的量化参数小于预定阈值时,所述第一比特位移值大于所述第二比特位移值。
15.根据权利要求12所述的计算设备,其中,当所述视频信号中的高频信息小于预定阈值时,所述第一比特位移值小于所述第二比特位移值。
16.根据权利要求12所述的计算设备,其中,当控制点MV之间的最大差值小于预定阈值时,所述第一比特位移值小于所述第二比特位移值。
17.一种非暂时性计算机可读存储介质,其存储由具有一个或多个处理器的计算设备执行的多个程序,其中所述多个程序在由所述一个或多个处理器执行时使所述计算设备执行:
获得与视频信号内的视频块相关联的第一参考图片I;
从所述第一参考图片I中的参考块获取所述视频块的预测样本I(i,j),其中i和j表征一个样本相对于所述视频块的坐标;
通过基于不同的比特位移值将右移应用于多个内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数,其中所述内部PROF参数包括为所述预测样本I(i,j)导出的水平梯度值、垂直梯度值、水平运动差值和垂直运动差值;
基于所述预测样本I(i,j),根据应用于所述视频块的所述PROF推导过程获得用于所述视频块中样本的预测细化值;以及
基于所述预测样本和所述预测细化值的组合获得所述视频块的预测样本。
18.根据权利要求19所述的非暂时性计算机可读存储介质,其中,使所述计算设备执行通过基于不同的比特位移值将右移应用于内部PROF参数,来控制PROF推导过程的内部位宽,以实现不同表征精度的所述内部PROF参数的所述多个程序进一步使所述计算设备执行:
基于第一预测样本I(i+1,j)与第一预测样本I(i-1,j)的差值获得第一预测样本I(i,j)的水平梯度值;
基于第一预测样本I(i,j+1)与第一预测样本I(i,j-1)的差值得到所述第一预测样本I(i,j)的垂直梯度值;
将所述水平梯度值右移第一比特位移值;以及
将所述垂直梯度值右移所述第一比特位移值。
19.根据权利要求20所述的非暂时性计算机可读存储介质,其中所述多个程序进一步使所述计算设备执行:
获得所述第一预测样本I(i,j)的控制点运动向量(MV),其中所述控制点MV包括包含所述视频块的一个块的左上角块、右上角块和左下角块的运动向量;
获得基于所述控制点MV导出的仿射模型参数;
基于所述仿射模型参数获得用于所述第一预测样本I(i,j)的水平MV差Δvx(i,j)和垂直MV差Δvy(i,j);
将所述水平MV差Δvx(i,j)右移第二比特位移值;以及
将所述垂直MV差Δvy(i,j)右移所述第二比特位移值。
20.根据权利要求21所述的非暂时性计算机可读存储介质,其中所述第二比特位移值等于13减去所述第一比特位移值。
21.根据权利要求21所述的非暂时性计算机可读存储介质,其中使所述计算设备执行获得用于所述视频块中的样本的预测精化的所述多个程序进一步使所述计算设备执行:
基于所述水平梯度值、所述水平MV差值Δvx(i,j)、所述垂直梯度值和所述垂直MV差值Δvy(i,j)获得所述预测细化值;以及
将所述预测细化值右移1。
22.根据权利要求21所述的非暂时性计算机可读存储介质,其中,当用于对所述视频信号进行编码的量化参数小于预定阈值时,所述第一比特位移值大于所述第二比特位移值。
23.根据权利要求21所述的非暂时性计算机可读存储介质,其中,当所述视频信号中的高频信息小于预定阈值时,所述第一比特位移值小于所述第二比特位移值。
24.根据权利要求21所述的非暂时性计算机可读存储介质,其中,当控制点MV之间的最大差值小于预定阈值时,所述第一比特位移值小于所述第二比特位移值。
CN202080029146.2A 2019-04-30 2020-04-30 光流预测细化的方法和装置 Pending CN113728639A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962840732P 2019-04-30 2019-04-30
US62/840,732 2019-04-30
PCT/US2020/030839 WO2020223552A1 (en) 2019-04-30 2020-04-30 Methods and apparatus of prediction refinement with optical flow

Publications (1)

Publication Number Publication Date
CN113728639A true CN113728639A (zh) 2021-11-30

Family

ID=73028704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080029146.2A Pending CN113728639A (zh) 2019-04-30 2020-04-30 光流预测细化的方法和装置

Country Status (4)

Country Link
US (1) US11968388B2 (zh)
EP (1) EP3963887A4 (zh)
CN (1) CN113728639A (zh)
WO (1) WO2020223552A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114073090A (zh) * 2019-07-01 2022-02-18 交互数字Vc控股法国公司 仿射运动补偿的双向光流细化
KR20220036978A (ko) 2019-08-31 2022-03-23 엘지전자 주식회사 Prof를 수행하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
KR20220061240A (ko) * 2019-09-20 2022-05-12 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 시프트 동작들에 대한 양방향 광학 흐름 단순화를 이용한 비디오 인코딩 및/또는 디코딩 방법들 및 관련 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107925775A (zh) 2015-09-02 2018-04-17 联发科技股份有限公司 基于双向预测光流技术的视频编解码的运动补偿方法及装置
US10188988B2 (en) 2016-03-23 2019-01-29 Exxonmobil Research And Engineering Company Claus unit treatment of shutdown tail gas
KR20230042424A (ko) * 2016-07-14 2023-03-28 삼성전자주식회사 비디오 복호화 방법 및 그 장치 및 비디오 부호화 방법 및 그 장치
US10523964B2 (en) * 2017-03-13 2019-12-31 Qualcomm Incorporated Inter prediction refinement based on bi-directional optical flow (BIO)
KR102616680B1 (ko) * 2019-03-08 2023-12-20 후아웨이 테크놀러지 컴퍼니 리미티드 인터 예측을 위한 인코더, 디코더 및 대응하는 방법
JP7302009B2 (ja) * 2019-04-18 2023-07-03 北京字節跳動網絡技術有限公司 クロスコンポーネントモードの利用可能性に対する制約

Also Published As

Publication number Publication date
US20220182658A1 (en) 2022-06-09
WO2020223552A1 (en) 2020-11-05
EP3963887A4 (en) 2023-01-25
EP3963887A1 (en) 2022-03-09
US11968388B2 (en) 2024-04-23

Similar Documents

Publication Publication Date Title
JP7372433B2 (ja) オプティカルフローを用いた予測リファインメントに関する方法および装置
KR102502614B1 (ko) 광학 흐름을 사용한 예측 미세조정을 위한 방법 및 장치
CN114342378A (zh) 关于利用光流的预测细化的方法和装置
JP7559132B2 (ja) オプティカルフローを用いる予測改善のための方法および装置
CN113994692A (zh) 用于利用光流的预测细化的方法和装置
CN113728639A (zh) 光流预测细化的方法和装置
JP7559136B2 (ja) オプティカルフローによる予測洗練化、双方向オプティカルフローおよびデコーダ側の動きベクトル洗練化のための方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination