CN116320473A - 光流预测细化的方法和装置 - Google Patents
光流预测细化的方法和装置 Download PDFInfo
- Publication number
- CN116320473A CN116320473A CN202211693052.2A CN202211693052A CN116320473A CN 116320473 A CN116320473 A CN 116320473A CN 202211693052 A CN202211693052 A CN 202211693052A CN 116320473 A CN116320473 A CN 116320473A
- Authority
- CN
- China
- Prior art keywords
- refinement
- prediction
- sample
- prof
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 230000003287 optical effect Effects 0.000 title claims abstract description 37
- 230000033001 locomotion Effects 0.000 claims abstract description 169
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 102
- 239000013598 vector Substances 0.000 claims abstract description 16
- 239000000523 sample Substances 0.000 description 126
- 238000010586 diagram Methods 0.000 description 47
- 238000013461 design Methods 0.000 description 35
- 238000009795 derivation Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 24
- 230000002123 temporal effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 238000000638 solvent extraction Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 230000002457 bidirectional effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000013074 reference sample Substances 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 102100029471 WD repeat and FYVE domain-containing protein 2 Human genes 0.000 description 1
- 101710175677 WD repeat and FYVE domain-containing protein 2 Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 208000018934 joint symptom Diseases 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/517—Processing of motion vectors by encoding
- H04N19/52—Processing of motion vectors by encoding by predictive encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/527—Global motion vector estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/537—Motion estimation other than block-based
- H04N19/54—Motion estimation other than block-based using feature points or meshes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/573—Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/577—Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
提供了光流预测细化的方法、装置和非暂时性计算机可读存储介质。获取通过仿射模式编码的视频块;获得与视频块关联的第一参考图片和第二参考图片。获得第一水平和垂直梯度值和第二水平和垂直梯度值。基于控制点运动矢量获得第一水平和垂直运动细化和第二水平和垂直运动细化。基于第一水平和垂直梯度值和第二水平和垂直梯度值以及第一水平和垂直运动细化和第二水平和垂直运动细化获得第一预测细化和第二预测细化。基于第一和第二预测样本以及第一预测细化和第二预测细化获得第一细化样本和第二细化样本。通过操纵第一细化样本和第二细化样本和预测参数来基于第一细化样本和第二细化样本获得视频块的最终预测样本,以防止乘法溢出。
Description
本申请是申请号为202080059798.0(申请日为2020年8月24日,发明名称为“光流预测细化的方法和装置”)的发明专利申请的分案申请。
技术领域
本申请涉及视频编解码和压缩。更具体地,本申请涉及关于在通用视频编码(VVC)标准中研究的两种帧间预测工具的方法和装置,即,光流预测细化(PROF)和双向光流(BDOF)。
背景技术
可以使用各种视频编解码技术来压缩视频数据。根据一种或多种视频编解码标准执行视频编解码。例如,视频编解码标准包括通用视频编解码(VVC)、联合探索测试模型(JEM)、高效视频编解码(HEVC/H.265)、高级视频编解码(AVC/H.264)、移动图像专家组(MPEG)编解码等。视频编解码通常采用利用了视频图像或序列中存在的冗余的预测方法(例如,帧间预测、帧内预测等)。视频编解码技术的一个重要目标是将视频数据压缩成使用较低比特率的形式,同时避免或最小化视频质量的下降。
发明内容
本申请实施例提供了用于视频编解码中的光流(PROF)的预测细化的方法和装置。
根据本申请的第一方面,提供了一种光流预测细化(PROF),在编码器处实现。该方法可包括获取通过仿射模式编码的视频块;获得与该视频块关联的第一参考图片I(0)和第二参考图片I(1)。该方法还可包括基于与该第一参考图片I(0)和第二参考图片I(1)关联的第一预测样本I(0)(i,j)和第二预测样本I(1)(i,j)获得第一水平梯度值、第一垂直梯度值、第二水平梯度值和第二垂直梯度值。该方法还可包括基于与该第一参考图片I(0)和该第二参考图片I(1)关联的控制点运动矢量(CPMV)获得第一水平运动细化、第一垂直运动细化、第二水平运动细化和第二垂直运动细化。该方法还可包括该基于该第一水平梯度值和该第一垂直梯度值和该第二水平梯度值和该第二垂直梯度值以及该第一水平运动细化、第一垂直运动细化、第二水平运动细化和第二垂直运动细化获得第一预测细化和第二预测细化。该方法还可包括基于该第一预测样本I(0)(i,j)、该第二预测样本I(1)(i,j)、该第一预测细化和该第二预测细化获得第一细化样本和第二细化样本。该方法还可包括通过操纵该第一细化样本、该第二细化样本和预测参数来基于该第一细化样本和该第二细化样本获得该视频块的最终预测样本以防止乘法溢出。该预测参数可包括用于加权预测(WP)的参数或用于在编码单元(CU)级加权的双向预测(BCW)的参数。
根据本申请的第二方面,提供了一种计算设备。该计算设备可包括一个或多个处理器以及非暂时性计算机可读存储介质,其存储由该一个或多个处理器执行的指令。该一个或多个处理器可以被配置为获取通过仿射模式编码的视频块;获得与视该视频块关联的第一参考图片I(0)和第二参考图片I(1)。该一个或多个处理器还可以被配置为基于与该第一参考图片I(0)和该第二参考图片I(1)关联的第一预测样本I(0)(i,j)和第二预测样本I(1)(i,j)获得第一水平梯度值、第一垂直梯度值、第二水平梯度值和第二垂直梯度值。该一个或多个处理器还可以被配置为基于与该第一参考图片I(0)和该第二参考图片I(1)关联的控制点运动矢量(CPMV)获得第一水平运动细化、第一垂直运动细化、第二水平运动细化和第二垂直运动细化。该一个或多个处理器还可以被配置为基于该第一水平梯度值和该第一垂直梯度值和该第二水平梯度值和该第二垂直梯度值、该第一水平运动细化、该第一垂直运动细化、该第二水平运动细化和该第二垂直运动细化获得第一预测细化和第二预测细化。该一个或多个处理器还可以被配置为基于该第一预测样本I(0)(i,j)、该第二预测样本I(1)(i,j)、该第一预测细化和该第二预测细化获得第一细化样本和第二细化样本。该一个或多个处理器还可以被配置为通过操纵该第一细化样本、该第二细化样本和预测参数来基于该第一细化样本和该第二细化样本获得该视频块的最终预测样本以防止乘法溢出。该预测参数可包括用于WP的参数或用于BCW的参数。
根据本申请的第三方面,提供了一种非暂时性计算机可读存储介质,其存储指令。在由设备的一个或多个处理器执行时,该指令可使得该设备获取通过仿射模式编码的视频块;获得与该视频块关联的第一参考图片I(0)和第二参考图片I(1)。该指令可使得该设备基于与该第一参考图片I(0)和该第二参考图片I(1)关联的第一预测样本I(0)(i,j)和第二预测样本I(1)(i,j)获得第一水平梯度值、第一垂直梯度值、第二水平梯度值和第二垂直梯度值。这些指令可使得该设备基于与该第一参考图片I(0)和该第二参考图片I(1)关联的控制点运动矢量(CPMV)获得第一水平运动细化、第一垂直运动细化、第二水平运动细化和第二垂直运动细化。该指令可使得该设备基于该第一水平梯度值、该第一垂直梯度值、该第二水平梯度值、该第二垂直梯度值、该第一水平运动细化、该第一垂直运动细化、该第二水平运动细化和该第二垂直运动细化获得第一预测细化和第二预测细化。该指令可使得该设备基于该第一预测样本I(0)(i,j)、该第二预测样本I(1)(i,j)、该第一预测细化和该第二预测细化获得第一细化样本和第二细化样本。该指令可使得该设备通过操纵该第一细化样本、该第二细化样本和预测参数来基于该第一细化样本和该第二细化样本获得该视频块的最终预测样本以防止乘法溢出。该预测参数可包括用于WP的参数或用于BCW的参数。
需要理解的是,以上一般描述和以下详细描述二者仅仅是示例,而不限制本发明。
附图说明
被并入说明书中并且构成说明书的一部分的附图示出了根据本申请的示例,并且与本描述一起用于解释本申请的原理。
图1是示出了根据本申请的示例的编码器的框图。
图2是示出了根据本申请的示例的解码器的框图。
图3A是示出了根据本申请的示例的多类型树结构中的块分割的示图。
图3B是示出了根据本申请的示例的多类型树结构中的块分割的示图。
图3C是示出了根据本申请的示例的多类型树结构中的块分割的示图。
图3D是示出了根据本申请的示例的多类型树结构中的块分割的示图。
图3E是示出了根据本申请的示例的多类型树结构中的块分割的示图。
图4是根据本申请的示例的双向光流(BDOF)模型的示图。
图5A是根据本申请的示例的仿射模型的示图。
图5B是根据本申请的示例的仿射模型的示图。
图6是根据本申请的示例的仿射模型的示图。
图7是根据本申请的示例的光流预测细化(PROF)的示图。
图8是根据本申请的示例的BDOF的工作流程。
图9是根据本申请的示例的PROF的工作流程。
图10是根据本申请的示例的用于解码视频信号的BDOF和PROF的统一方法。
图11是根据本申请的示例的用于解码视频信号的BDOF和PROF的方法。
图12是根据本申请的示例的用于双向预测的PROF的工作流程的示例图。
图13是根据本申请的BDOF和PROF过程的流水线级的示例图。
图14是根据本申请的BDOF的梯度推导方法的示例图。
图15是根据本申请的PROF的梯度推导方法的示例图。
图16A是根据本申请的示例的用于仿射模式的推导模板样本的示例图。
图16B是根据本申请的示例的用于仿射模式的推导模板样本的示例图。
图17A是根据本申请的示例的排它地启用用于仿射模式的PROF和LIC的示例图。
图17B是根据本申请的示例的联合启用用于仿射模式的PROF和LIC的示例图。
图18A是示出了根据本申请的示例的应用于16×16BDOF CU的提出的填充方法的示图。
图18B是示出了根据本申请的示例的应用于16×16BDOF CU的提出的填充方法的示图。
图18C是示出了根据本申请的示例的应用于16×16BDOF CU的提出的填充方法的示图。
图18D是示出了根据本申请的示例的应用于16×16BDOF CU的提出的填充方法的示图。
图19是示出了根据本申请的示例的与用户接口耦合的计算环境的示图。
具体实施方式
现在将详细参照具体实施方式,在附图中示出了具体实施方式的示例。以下描述参考附图,其中不同附图中相同的数字表示相同或相似的元素,除非另有说明。以下示例性实施例的描述中阐述的实施方式并不代表与本申请一致的所有实施方式。相反,它们仅仅是与如所附权利要求中所述的与本申请相关的方面一致的设备和方法的示例。
本申请中使用的术语仅出于描述特定实施例的目的,并不旨在限制本申请。如在本申请和所附权利要求书中使用的,单数形式“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。还应理解,本文使用的术语“和/或”旨在表示并包括一个或多个相关列出的项目的任何或所有可能的组合。
应当理解,尽管在本文中可以使用术语“第一”、“第二”、“第三”等来描述各种信息,但是这些信息不应受这些术语的限制。这些术语仅用于将一类信息与另一类信息区分开来。例如,在不脱离本发明的范围的情况下,第一信息可以称为第二信息。同理,第二信息也可以称为第一信息。如本文所用,根据上下文,术语“如果”可以理解为表示“何时”或“在”或“响应于判断”。
HEVC标准的第一版本于2013年10月完成,与上一代视频编解码标准H.264/MPEGAVC相比,它提供了大约50%的比特率节省或等效的感知质量。尽管HEVC标准比其前身提供了显著的编解码改进,但有证据表明,与HEVC相比,使用额外的编解码工具可以实现更高的编码效率。在此基础上,VCEG和MPEG都开始了用于未来视频编解码标准化的新编解码技术的探索工作。ITU-TVECG和ISO/IECMPEG于2015年10月成立了一个联合视频探索团队(JVET),开始对可以显著提高编码效率的先进技术进行重大研究。JVET通过在HEVC测试模型(HM)之上集成几个额外的编码工具来维护一种称为联合探索模型(JEM)的参考软件。
2017年10月,ITU-T和ISO/IEC发布了关于具有超越HEVC能力的视频压缩的联合征集提案(CfP)。2018年4月,在第10次JVET会议上收到并评估了23份CfP回复,表明压缩效率比HEVC提高了约40%。基于这样的评估结果,JVET启动了一个新项目来开发新一代视频编解码标准,称为多功能视频编解码(VVC)。同月,建立了一个名为VVC测试模型(VTM)的参考软件代码库,用于演示VVC标准的参考实现。
与HEVC一样,VVC建立在基于块的混合视频编解码框架之上。
图1示出了用于VVC的基于块的视频编码器的总体示图。具体来讲,图1示出了典型的编码器100。编码器100具有视频输入110、运动补偿112、运动估计114、帧内/帧间模式决策116、块预测器140、加法器128、变换130、量化132、预测相关信息142、帧内预测118、图片缓存器120、逆量化134、逆变换136、加法器126、存储器124、环内滤波器122、熵编码138和比特流144。
在编码器100中,视频帧被分割成多个视频块以进行处理。对于每个给定的视频块,基于帧间预测方法或帧内预测方法形成预测。
表示当前视频块(视频输入110的一部分)与其预测器(块预测器140的一部分)之间的差异的预测残差被从加法器128发送到变换130。然后变换系数从变换130被发送到量化132以用于熵降。然后量化系数被馈送到熵编码138以生成压缩视频比特流。如图1所示,来自帧内/帧间模式决策116的预测相关信息142,如视频块分割信息、运动矢量(MV)、参考图片索引和帧内预测模式,也通过熵编码138被馈送并保存到压缩比特流144中。压缩比特流144包括视频比特流。
在编码器100中,还需要与解码器相关的电路以重构用于预测目的的像素。首先,通过逆量化134和逆变换136重构预测残差。将这种重构的预测残差与块预测器140组合以生成用于当前视频块的未滤波的重构像素。
空间预测(或“帧内预测”)使用来自与当前视频块相同的视频帧中的已编码相邻块的样本(称为参考样本)的像素来预测当前视频块。
时间预测(也称为“帧间预测”)使用来自已编码视频图片的重构像素来预测该当前视频块。时间预测减少了视频信号中固有的时间冗余。用于给定编码单元(CU)或编码块的时间预测信号通常由一个或多个运动矢量(MV)用信号表示,这些运动矢量指示当前CU与其时间参考之间的运动量和运动方向。此外,如果支持多个参考图片,则额外发送一个参考图片索引,该参考图片索引用于标识时间预测信号来自参考图片库中的哪个参考图片。
运动估计114接收视频输入110和来自图片缓存器120的信号并且将运动估计信号输出到运动补偿112。运动补偿112接收视频输入110、来自图片缓存器120的信号和来自运动估计114的运动估计信号,并将运动补偿信号输出到帧内/帧间模式决策116。
在执行空间和/或时间预测之后,编码器100中的帧内/帧间模式决策116基于如率失真优化方法选择最佳预测模式。然后从当前视频块中减去块预测器140,并且使用变换130和量化132将得到的预测残差进行去相关。得到的量化残差系数由逆量化134逆量化并由逆变换136逆变换以形成该重构的残差,然后将该重构的残差加回该预测块以形成该CU的重构信号。进一步地,可在该重构的CU被放入图片缓存器120的参考图片存储器并用于对未来的视频块进行编解码之前将环内滤波122(如去块滤波器、样本自适应偏移(SAO),和/或自适应环内滤波器(ALF))应用于重构的CU。为了形成输出视频比特流144,编码模式(帧间或帧内)、预测模式信息、运动信息和量化的残差系数都被发送到熵编码138以被进一步压缩和打包以形成该比特流。
图1给出了通用的基于块的混合视频编码系统的框图。输入视频信号被逐块处理(称为CU)。在VTM-1.0中,一个CU可达128×128像素。然而,与仅基于四叉树对块进行划分的HEVC不同,在VVC中,将一个编码树单元(CTU)拆分为多个CU,以适应基于四叉树/二叉树/三叉树的不同局部特征。此外,去除了HEVC中多分割单元类型的概念,即VVC中不再存在CU、预测单元(PU)和变换单元(TU)的分离;相反,每个CU始终用作预测和变换的基本单元,而无需进一步分割。在多类型树结构中,一个CTU首先被四叉树结构分割。然后,每个四叉树的叶子节点可以通过二叉树和三叉树结构被进一步划分。
如图3A、3B、3C、3D和3E所示,存在五种分割类型,即四元分割、水平二元分割、垂直二元分割、水平三元分割和垂直三元分割。
图3A是示出了根据本申请的多类型树结构中的块四元分割的示图。
图3B是示出了根据本申请的多类型树结构中的块垂直二元分割的示图。
图3C是示出了根据本申请的多类型树结构中的块水平二元分割的示图。
图3D是示出了根据本申请的多类型树结构中的块垂直三元分割的示图。
图3E是示出了根据本申请的多类型树结构中的块水平三元分割的示图。
在图1中,可以执行空间预测和/或时间预测。空间预测(或“帧内预测”)使用来自同一视频图片/切片中已编码相邻块的样本(称为参考样本)的像素来预测当前视频块。空间预测减少了视频信号中固有的空间冗余。时间预测(也称为“帧间预测”或“运动补偿预测”)使用来自已编码视频图片的重构的像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。用于给定CU的时间预测信号通常由一个或多个运动矢量(MV)表示,这些MV指示当前CU与其时间参考之间的运动量和运动方向。此外,如果支持多个参考图片,则额外发送一个参考图片索引,该参考图片索引用于识别该时间预测信号来自参考图片存储器中的哪个参考图片。在空间和/或时间预测之后,该编码器中的模式决策块基于如率失真优化方法选择最佳预测模式。然后从该当前视频块中减去该预测块,使用变换将该预测残差去相关并且对其进行量化。对量化后的残差系数进行逆量化和逆变换,以形成该重构的残差,然后将其加回到该预测块以形成该CU的重构信号。进一步地,可在该重构的CU被放入参考图片存储器并用于对未来的视频块进行编解码之前将环内滤波(如去块滤波器、样本自适应偏移(SAO),和/或自适应环内滤波器(ALF))应用于该重构的CU。为了形成该输出视频比特流,编码模式(帧间或帧内)、预测模式信息、运动信息和量化的残差系数都被发送到熵编码单元以被进一步压缩和打包来形成该比特流。
图2示出了用于VVC的视频解码器的总体框图。具体来讲,图2示出了典型的解码器200的框图。解码器200具有比特流210、熵解码212、逆量化214、逆变换216、加法器218、帧内/帧间模式选择220、帧内预测222、存储器230、环内滤波器228、运动补偿224、图片缓存器226、预测相关信息234和视频输出232。
解码器200类似于驻留在图1的编码器100中的重建相关部分。在解码器200中,首先通过熵解码212对输入的视频比特流210进行解码,以导出量化的系数水平和预测相关信息。然后通过逆量化214和逆变换216对这些量化的系数级别进行处理以获得重构的预测残差。在帧内/帧间模式选择器220中实现的块预测器机制被配置为基于解码的预测信息执行帧内预测222或运动补偿224。通过使用加法器218将来自逆变换216的重构的预测残差与该块预测器机制生成的预测输出相加来获得未滤波的重构像素集合。
在该重构块被存储在用作参考图片存储器的图片缓存器226中之前,该重构块还可以经过环内滤波器228。图片缓存器226中的重构视频可以被发送以驱动显示设备,并且该重构视频可用于预测未来的视频块。在环内滤波器228开启的情况下,对这些重构像素执行滤波操作以导出最终的重构视频输出232。
图2给出了基于块的视频解码器的总体框图。首先在该熵解码单元对该视频比特流进行熵解码。该编解码模式和预测信息被发送到空间预测单元(如果是帧内编码)或时间预测单元(如果是帧间编码)以形成该预测块。残差变换系数被发送到该逆量化单元和逆变换单元以重构该残差块。然后将该预测块和残差块相加。该重构块在被存储在参考图片存储器中之前还可以经过环内滤波。然后将参考图片存储器中的重构视频发送出去以驱动显示设备,并用于预测未来的视频块。
一般来讲,除了将若干模块进一步扩展和/或增强之外,在VVC中应用的基本帧间预测技术保持与HEVC中的相同。具体来讲,对于以前所有的视频标准,当编码块被单向预测时,该编码块只能与一个单一的MV关联,或者当编码块为双向预测时,该编码块只能与两个MV关联。由于对传统的基于块的运动补偿的这种限制,在运动补偿后的预测样本中仍然会留有小的运动,从而对运动补偿的整体效率产生负面影响。为了提高这些MV的粒度和精度,目前针对VVC标准研究了两种基于光流的逐样本细化方法,即双向光流(BDOF)和用于仿射模式的光流预测细化(PROF)。下面简要回顾这两种帧间编解码工具的主要技术方面。
双向光流
在VVC中,双向光流(BDOF)被应用于细化双向预测的编码块的预测样本。具体地,如图4所示,当使用双向预测时,BDOF是在基于块的运动补偿预测的基础上执行的逐样本的运动细化。
图4示出了根据本申请的BDOF模型的示例图。
每个4×4子块的运动细化(vx,vy)是通过在该子块周围的一个6×6窗口Ω内应用该BDOF之后将L0和L1预测样本之间的差异最小化来计算得到的(vx,vy)。具体地,(vx,vy)的值推导为:
其中,是向下取整函数;clip3(min,max,x)是将给定值x裁剪到[min,max]范围内的函数;符号>>表示逐比特右移运算;符号<<表示逐比特左移运算;thBDOF是用于防止由于不规律的局部运动导致的传播误差的运动细化阈值,其等于1<<max(5,bit-depth-7),其中,bit-depth是内部位深。在(1)中,/>
S1、S2、S3、S5和S6的值计算为:
S6=∑(i,j)∈Ωθ(i,j)·ψy(i,j) (2);
其中,
θ(i,j)=(I(1)(i,j)>>max(4,bit-depth-8))-(I(0)(i,j)>>max(4,bit-depth-8))(3);
其中,I(k)(i,j)是列表k(k=0,1)中预测信号的坐标(i,j)处的样本值,这些样本值以中高精度(即,16位)生成;和/>是通过直接计算样本的两个相邻样本之间的差而获得的该样本的水平梯度和垂直梯度,即,
基于在(1)中推导的运动细化,通过基于光流模型沿运动轨迹对L0/L1预测样本进行内插来计算该CU的最终双向预测样本,如下式所示:
其中,shift和ooffset是用于合并双向预测的L0和L1预测信号的右移位值和偏移值,分别等于15-bit-depth和1<<(14-bit-depth)+2·(1<<13)。基于上述位深控制方法,确保整个BDOF过程的中间参数的最大位深不超过32位,并且乘法的最大输入在15位内,即,一个15比特乘法器足够用于BDOF的实现。
仿射模式
在HEVC中,仅将平移运动模型应用于运动补偿预测。然而在现实世界中,存在很多种运动,例如,放大/缩小、旋转、透视运动和其他不规则运动。在VVC中,通过针对每个帧间编码块用信号发送一个标志来指示是平移运动还是仿射运动模型被应用于帧间预测,由此应用仿射运动补偿预测。在当前VVC设计中,一个仿射编码块支持两种仿射模式,包括4参数仿射模式和6参数仿射模式。
4参数仿射模型具有以下参数:分别用于水平方向和垂直方向上的平移运动的两个参数,用于缩放运动的一个参数,以及用于这两个方向的旋转运动的一个参数。水平缩放参数等于垂直缩放参数。水平旋转参数等于垂直旋转参数。为了更好地适应MV和仿射参数,在VVC中,这些仿射参数被转换成位于当前块的左上角和右上角的两个MV(也被称为控制点运动矢量(CPMV))。如图5A和图5B所示,该块的仿射运动场由两个控制点MV(V0,V1)来描述。
图5A示出了根据本申请的4参数仿射模型的示图。
图5B示出了根据本申请的4参数仿射模型的示图。
基于该控制点运动,一个仿射编码块的运动场(vx,vy)被描述为:
6参数仿射模式具有以下参数:分别用于水平方向和垂直方向上的平移运动的两个参数、在水平方向上用于缩放运动的一个参数和用于旋转运动的一个参数,在垂直方向上用于缩放运动的一个参数和用于旋转运动的一个参数。6参数仿射运动模型是用在三个CPMV处的三个MV来编解码的。
图6示出了根据本申请的6参数仿射模型的示图。
如图6所示,一个6参数仿射块的三个控制点位于该块的左上角、右上角和左下角。左上控制点处的运动与平移运动相关,右上控制点处的运动与水平方向的旋转和缩放运动有关,并且左下控制点处的运动与垂直方向的旋转和缩放运动相关。与4参数仿射运动模型相比,该6参数的在水平方向上的旋转和缩放运动可能与在垂直方向上的那些运动不同。假设(V0,V1,V2)是图6中的当前块的左上角、右上角和左下角的MV,则使用控制点处的三个MV将每个子块的MV(vx,vy)推导为:
用于仿射模式的光流预测细化
为了提高仿射运动补偿精度,目前在VVC中正在研究PROF,其基于光流模型细化了基于子块的仿射运动补偿。具体地,在执行基于子块的仿射运动补偿之后,通过基于光流等式推导的一个样本细化值来修改一个仿射块的亮度预测样本。具体来讲,PROF的操作可以总结为以下四个步骤:
步骤1:执行基于子块的仿射运动补偿,以使用在(6)中针对4参数仿射模型和(7)中针对6参数仿射模型推导的子块MV来生成子块预测I(i,j)。
步骤2:每个预测样本的空间梯度gx(i,j)和gy(i,j)计算如下:
gx(i,j)=(I(i+1,j)-I(i-1,j))>>(max(2,14-bit-depth)-4)
gy(i,j)=(I(i,j+1)-I(i,j-1))>>(max (2,14-bit-depth) - 4) (8)。
为了计算这些梯度,需要在一个子块的每一侧生成附加的一行/一列的预测样本。为了降低存储器带宽和复杂度,从参考图片中最近的整数像素位置复制扩展的边界上的样本,以避免额外的内插过程。
步骤3:该亮度预测细化值通过下式计算:
ΔI(i,j)= gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j) (9);
其中,Δv(i,j)是针对样本位置(i,j)计算的像素MV(用v(i,j)表示)与像素(i,j)所在的子块的子块MV之间的差。另外,在当前的PROF设计中,在将该预测细化添加到该原始预测样本之后,进行一次裁剪操作,以将细化后的预测样本的值裁剪到15位以内,
Ir(i,j)=I(i,j)+ΔI(i,j)
Ir(i,j)=clip3(-214,214-1,Ir(i,j));
其中,I(i,j)和Ir(i,j)分别是位置(i,j)处的原始预测样本和细化预测样本。
图7示出了根据本申请的用于仿射模式的PROF过程的示图。
由于这些仿射模型参数和相对于子块中心的像素位置不会逐子块变化,所以可以针对第一子块计算Δv(i,j),并且将其重用于同一CU中的其他子块。令Δx和Δy是从样本位置(i,j)到该样本所属子块的中心的水平偏移和垂直偏移,则可将Δv(i,j)推导为:
基于仿射子块MV推导等式(6)和(7),可以推导MV差Δv(i,j)。具体地,对于4参数仿射模型,
对于6参数仿射模型,
其中,(v0x,v0y)、(v1x,v1y)、(v2x,v2y)是当前编码块的左上、右上和左下控制点MV,w和h是该块的宽度和高度。在现有PROF设计中,始终以1/32像素的精度推导MV差Δvx和Δvy。
局部光亮度补偿
局部光亮度补偿(LIC)是一种编解码工具,这种工具用于解决时间相邻图片之间存在的局部光亮度变化问题。将一对权重参数和偏移参数应用于这些参考样本以获得一个当前块的预测样本。总体数学模型如下:
P[x]=α*Pr[x+v]+β (11);
其中,Pr[x+v]是由运动矢量v指示的参考块,[α,β]是用于该参考块的相应的权重参数和偏移参数对,P[x]是最终预测块。基于当前块的模板(即,相邻的重建样本)和该模板的参考块(使用当前块的运动矢量推导出该参考块)通过使用最小线性均方误差(LLMSE)算法来估计这对权重参数和偏移参数。通过将这些模板样本与该模板的参考样本之间的均方差最小化,可以将α和β的数学表示推导如下:
其中,I表示该模板中的样本数,Pc[xi]是当前块的模板的第i个样本,Pr[xi]是基于运动矢量v的第i个模板样本的参考样本。
除了应用于每个预测方向(L0或L1)最多包含一个运动矢量的常规帧间块外,LIC还应用于仿射模式编码块,其中,一个编码块被进一步分裂为多个更小的子块,每个子块可与不同的运动信息关联。为了导出用于仿射模式编码块的LIC的参考样本,如在(如下所述的)图16A和16B所示,通过使用顶部子块行中的每个子块的运动矢量来获取一个仿射编码块的顶部模板中的参考样本,而使用左侧子块列中的子块来获取左侧模板中的参考样本。之后,应用如(12)所示的同一LLMSE推导方法,以基于复合模板推导这些LIC参数。
图16A示出了根据本申请的用于为仿射模式导出模板样本的图示。该示图包含CurFrame 1620和Cur CU 1622。Cur Frame 1620是该当前帧,Cur CU 1622是该当前编码单元。
图16B示出了用于为仿射模式导出模板样本的示图。该示图包含Ref Frame 1640,Col CU 1642,A Ref 1643,B Ref 1644,C Ref 1645,D Ref 1646,E Ref 1647,F Ref1648和G Ref 1649。Ref Frame 1640是该参考帧,Col CU 1642是共址的编码单元,A Ref 1643,B Ref 1644,C Ref 1645,D Ref 1646,E Ref 1647,F Ref 1648和G Ref 1649是参考样本。
用于仿射模式的光流预测细化的不足
虽然PROF能够提高仿射模式的编解码效率,但其设计仍有待进一步改进。特别是考虑到PROF和BDOF都是建立在光流概念之上的,因此非常希望尽可能协调PROF和BDOF的设计,以使PROF能够最大限度地利用BDOF的现有逻辑来促进硬件实现。基于这种考虑,在本申请中指出了当前PROF与BDOF设计之间的交互的以下不足之处。
1.如在“用于仿射模式的光流预测细化”部分中所述的那样,在等式(8)中,梯度的精度是基于内部位深确定的。另一方面,总是以1/32像素的精度导出MV差异,即,Δvx和Δvy。相应地,基于等式(9),导出的PROF细化的精度取决于该内部位深。然而,与BDOF类似,PROF应用于中高位深(即16位)的预测样本值之上,以保持更高的PROF推导精度。因此,无论内部编码位深如何,PROF导出的预测细化精度都应与中间预测样本的精度相匹配,即16位。换言之,现有PROF设计中MV差异和梯度的表示位深并未完全匹配,无法得出相对于预测样本精度(即16位)的准确预测细化。同时,基于等式(1)、(4)和(8)的比较,现有的PROF和BDOF使用不同的精度来表示样本梯度和MV差异。如前面所指出的那样,这种不统一的设计对于硬件来说并不是所希望的,因为现有的BDOF逻辑不能被重用。
2.如在“用于仿射模式的光流预测细化”部分中讨论的那样,当对一个当前仿射块进行双向预测时,PROF分别应用于列表L0和L1中的预测样本;然后,对增强后的L0和L1预测信号进行平均,以生成最终的双向预测信号。相反,BDOF不是为每个预测方向单独导出PROF细化,而是导出一次预测细化,然后将其应用于增强合并的L0和L1预测信号。(如下所述的)图8和图9比较了当前BDOF和PROF用于双向预测的工作流程。在实际的编解码器硬件流水线设计中,通常为每个流水线阶段分配不同的主要编码/解码模块,以能够并行处理更多的编码块。然而,由于BDOF和PROF工作流之间的差异,这可能会导致难以拥有一个可以由BDOF和PROF共享的同一管道设计,这对于实际编解码器的实现并不友好。
图8示出了根据本申请的BDOF的工作流程。工作流程800包括L0运动补偿810、L1运动补偿820和BDOF 830。L0运动补偿810例如可以是来自先前参考图片的运动补偿样本的列表。该先前参考图片是先前来自该视频块中的当前图片的参考图片。L1运动补偿820例如可以是来自下一个参考图片的运动补偿样本的列表。该下一个参考图片是该视频块中当前图片之后的参考图片。BDOF 830从L0运动补偿810和L1运动补偿820中获取运动补偿样本并输出预测样本,如前面在图4中所描述的那样。
图9示出了根据本申请的现有PROF的工作流程。工作流程900包括L0运动补偿910、L1运动补偿920、L0 PROF 930、L1 PROF 940和平均960。L0运动补偿910例如可以是来自先前参考图片的运动补偿样本的列表。先前参考图片是视频块中的当前图片之前的参考图片。L1运动补偿920例如可以是来自下一个参考图片的运动补偿样本的列表。该下一个参考图片是该视频块中当前图片之后的参考图片。L0 PROF930从L0运动补偿910中获取L0运动补偿样本并输出运动细化值,如前面在图7中所描述的那样。L1 PROF 940从L1运动补偿920获取L1运动补偿样本并输出运动细化值,如前面在图7中所描述的那样。平均960对L0 PROF930和L1 PROF 940输出的运动细化值进行平均。
3.对于BDOF和PROF,需要为该当前编码块内的每个样本计算梯度,这需要在该块的每一侧生成一个额外的预测样本行/列。为了避免样本插值的额外计算复杂性,该块周围扩展区域中的预测样本直接从整数位置的参考样本中复制(即,没有插值)。然而,根据现有的设计,选择不同位置的整数样本来生成BDOF和PROF的梯度值。具体来讲,对于BDOF,使用位于预测样本左侧(水平梯度)和预测样本上方(垂直梯度)的整数参考样本;对于PROF,最接近预测样本的整数参考样本用于梯度计算。与位深表示问题类似,这种非统一梯度计算方法对于硬件编解码器实现来讲也是不希望的。
4.如前面所指出的那样,PROF的动机是补偿每个样本的MV与在该样本所属的子块的中心导出的子块MV之间的小的MV差异。根据目前的PROF设计,PROF总是在仿射模式预测一个编码块时被调用。然而,如等式(6)和(7)所示,一个仿射块的子块MV是从控制点MV导出的。因此,当控制点MV之间的差异较小时,每个样本位置的MV应该是一致的。在这种情况下,由于应用PROF的好处可能非常有限,因此在考虑性能/复杂度权衡时可能不值得执行PROF。
用于仿射模式的光流预测细化的改进
在本申请中,提供了改进和简化现有PROF设计以促进硬件编解码器实现的方法。具体地,特别关注了协调BDOF和PROF的设计,以最大限度地与PROF共享现有的BDOF逻辑。一般而言,本申请中提出的技术的主要方面总结如下。
1.为了提高PROF的编码效率,同时实现更统一的设计,提出了一种统一BDOF和PROF使用的样本梯度和MV差异的表示位深的方法。
2.为了便于硬件流水线设计,提出了协调PROF的工作流程与BDOF的工作流程以进行双向预测。具体来讲,与现有的PROF分别为L0和L1导出预测细化不同,本申请所提出的方法导出一次预测细化,该预测细化应用于合并的L0和L1预测信号。
3.提出了两种方法来协调整数参考样本的推导,以计算BDOF和PROF使用的梯度值。
4.为了降低计算复杂度,提出了提前终止方法,以在满足某些条件时自适应地禁用用于仿射编码块的PROF过程。
改进的PROF梯度和MV差异的位深表示设计
正如在“问题陈述”一节中所分析的那样,MV差异和样本梯度在当前PROF中的表示位深并未对齐以获得准确的预测细化。此外,BDOF与PROF之间的样本梯度的和MV差异的表示位深不一致,这对硬件并不友好。在本节中,通过将BDOF的位深表示方法扩展到PROF,提出了一种改进的位深表示方法。具体来讲,在所提出的方法中,在每个样本位置的水平和垂直梯度计算为:
gx(i,j)=(I(i+1,j)-I(i-1,j))>>max(6,bit-depth-6)
gy(i,j)=(I(i,j+1)-I(i,j-1))>>max (6,bit-depth-6) (13)。
此外,假设Δx和Δy是从一个样本位置到该样本所属的子块中心的以1/4像素精度表示的水平和垂直偏移,则将在该样本位置的对应的PROFMV差异Δv(x,y)推导为:
Δvx(i,j)=(c*Δx+d*Δy)>>(13-dMvBits)
Δvy(i,j)=(e*Δx+f*Δy)>>(13-dMvBits) (14);
其中,dMvBits是BDOF过程使用的梯度值的位深,即,dMvBits=max(5,(bit-depth-7))+1。在等式(13)和(14)中,c、d、e和f是基于仿射控制点MV导出的仿射参数。具体来讲,对于4参数仿射模型,
对于6参数仿射模型,
其中,((v0x,v0y)、(v1x,v1y)和(v2x,v2y)是当前编码块的左上、右上和左下控制点MV,用1/16像素精度表示,w和h是该块的宽度和高度。
在前面的讨论中,如等式(13)和(14)所示,应用了一对固定的右移来计算这些梯度值和MV差值。在实践中,对于中间计算精度与内部PROF推导过程的位宽之间的不同折衷,可对(13)和(14)应用不同的逐位右移,以实现这些梯度和MV差异的不同表示精度。例如,当输入视频包含大量噪声时,所导出的这些梯度可能无法可靠地表示每个样本处的真实局部水平/垂直梯度值。在这种情况下,使用更多位来表示MV差异比梯度更有意义。另一方面,当输入视频显示稳定运动时,由仿射模型得出的MV差异应该非常小。如果是这样,则使用高精度MV差异不能提供额外的好处来提高所导出的PROF细化的精度。换言之,在这种情况下,使用更多的比特来表示梯度值更有利。基于上述考虑,在本申请的一个或多个实施例中,以下提出一种计算用于PROF的梯度和MV差异的通用方法。具体来讲,假设每个样本位置处的水平和垂直梯度是通过na对相邻预测样本的差异进行na个右移来计算的,即
gx(i,j)=(I(i+1,j)-I(i-1,j))>>na
gy(i,j)=(I(i,j+1)-I(i,j-1))>>na (15);
在该样本位置的对应的PROF MV差异Δv(x,y)应计算为:
Δvx(i,j)=(c*Δx+d*Δy)>>(13-na)
Δvy(i,j)=(e*Δx+f*Δy)>>(13-na) (16);
其中,Δx和Δy是从一个样本位置到该样本所属的子块中心的以1/4像素精度表示的水平和垂直偏移,c、d、e和f是基于1/16像素仿射控制点MV导出的参数。最后,将该样本的最终PROF细化计算为:
ΔI(i,j)= (gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j)+1)>>1 (17)。
在本申请的另一个实施例中,提出了如下所述的另一种PROF位深控制方法。在该方法中,仍通过na对相邻预测样本的差值进行na位右移来计算每个样本位置处的水平和垂直梯度,如在(18)中那样。在该样本位置的对应的PROFMV差异Δv(x,y)应计算为:
Δvx(i,j)=(c*Δx+d*Δy)>>(14-na),
Δvy(i,j)=(e*Δx+f*Δy)>>(14-na)。
此外,为了将整个PROF推导保持在适当的内部位深,对推导出的MV差异进行裁剪,如下所示:
Δvx(i,j)=Clip3(-limit,limit,Δvx(i,j)),
Δvy(i,j)=Clip3(-limit,limit,Δvy(i,j));
其中,limit是等于的阈值,clip3(min,max,x)是将给定值x裁剪到[min,max]范围内的函数。在一个示例中,nb的值被设置为2max(5,bit-depth-7)。最后,将该样本的PROF细化计算为:
ΔI(i,j)=gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j)。
用于双向预测的BDOF和PROF协调工作流程
如前面所讨论的那样,当一个仿射编码块被双向预测时,以单边方式应用该当前的PROF。更具体地讲,这些PROF样本细化是分别导出的,并应用于列表L0和L1中的预测样本。之后,分别对来自列表L0和L1的细化预测信号进行平均以生成该块的最终双向预测信号。这与BDOF设计形成对比,在BDOF设计中,这些样本细化被导出并应用于该双向预测信号。BDOF和PROF的双向预测工作流程之间的这种差异可能对实际的编解码器流水线设计并不友好。
为了便于硬件流水线设计,根据本申请,一种简化方法是修改PROF的双向预测过程,以使两种预测细化方法的工作流程协调一致。具体来讲,所提出的PROF方法不是对每个预测方向分别应用细化,而是基于列表L0和L1的控制点MV导出一次预测细化;然后将导出的这些预测细化应用于合并的L0和L1预测信号以提高质量。具体而言,基于等式(14)中导出的MV差异,通过所提出的方法将一个仿射编码块的最终双向预测样本计算为:
predPROF(i,j)=(I(0)(i,j)+I(1)(i,j)+ΔI(i,j)+ooffset)>>shift,
ΔI(i,j)=(gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j)+1)>>1
Ir(i,j)=I(i,j)+ΔI(i,j) (18);
其中,shift和ooffset是用于合并L0和L1预测信号进行双向预测的右移值和偏移值,它们分别等于(15-bit-depth)和1<<(14-bit-depth)+(2<<13)。此外,如(18)所示,在所提出的方法中去除了现有PROF设计(如(9)所示)中的裁剪操作。
图12示出了根据本申请的当应用所提出的双向预测PROF方法时的PROF过程。PROF过程1200包括L0运动补偿1210、L1运动补偿1220和双向预测PROF 1230。L0运动补偿1210例如可以是来自先前参考图片的运动补偿样本的列表。该先前参考图片是该视频块中的当前图片之前的参考图片。L1运动补偿1220例如可以是来自下一个参考图片的运动补偿样本的列表。该下一个参考图片是该视频块中当前图片之后的参考图片。如上所述,双向预测PROF1230从L0运动补偿1210和L1运动补偿1220接收运动补偿样本并输出双向预测样本。
为了展示所提出方法硬件流水线设计的潜在益处,图13示出了一个示例来说明同时应用BDOF和所提出的PROF时的流水线级(stage)。在图13中,一个帧间块的解码过程主要包含三个步骤:
1.解析/解码该编码块的MV并获取参考样本。
2.生成该编码块的L0和/或L1预测信号。
3.基于该编码块通过一种非仿射模式预测时的BDOF或该编码块通过仿射模式预测时的PROF,对生成的双向预测样本执行逐样本细化。
图13示出了根据本申请的应用BDOF和所提出的PROF时的示例性流水线级的示图。图13展示了所提出方法对硬件流水线设计的潜在好处。流水线级1300包括解析/解码MV和获取参考样本1310、运动补偿1320、BDOF/PROF 1330。流水线级1300将对视频块BLK0、BKL1、BKL2、BKL3和BLK4进行编码。每个视频块将从解析/解码MV开始并获取参考样本1310并依次移动到运动补偿1320、运动补偿1320、BDOF/PROF 1330。这意味着在BLK0移动到运动补偿1320之前,BLK0不会在流水线级1300过程中开始。随着时间从T0到T1、T2、T3和T4,所有级和视频块都是如此。
图13中,一个帧间块的解码过程主要包括三个步骤:
首先,解析/解码该编码块的MV并获取参考样本。
其次,生成该编码块的L0和/或L1预测信号。
再次,基于该编码块通过一种非仿射模式预测时的BDOF或该编码块通过仿射模式预测时的PROF,对生成的双向预测样本执行逐样本细化。
如图13所示,在应用所提出的协调方法后,将BDOF和PROF都直接应用于双向预测样本。鉴于BDOF和PROF应用于不同类型的编码块(即,BDOF应用于非仿射块,PROF应用于仿射块),不能同时调用这两种编码工具。因此,它们的对应解码过程通过共享同一流水线级来进行。这比现有的PROF设计更高效,在现有的PROF设计中,由于BDOF和PROF的双向预测工作流程不同,很难为它们分配同一流水线级。
在上面的讨论中,所提出的方法仅考虑BDOF和PROF的工作流的协调。然而,根据现有的设计,用于这两种编码工具的基本操作单元也是以不同的大小来执行的。例如,对于BDOF,一个编码块被分割成多个大小为Ws×Hs的子块,其中,Ws=min(W,16),Hs=min(H,16),其中W和H分别是该编码块的宽度和高度。诸如梯度计算和样本细化推导的BODF操作是针对每个子块独立执行的。另一方面,如前所述,仿射编码块被划分为4×4个子块,并且为每个子块分配一个基于4参数或6参数仿射模型导出的单独MV。由于PROF仅被应用于该仿射块,所以它的基本运算单元是4×4子块。与双向预测工作流问题类似,从BDOF对PROF使用不同的基本操作单元大小对硬件实现也并不友好,并且使得BDOF和PROF难以共享整个解码过程的同一流水线级。为了解决这样的问题,在一个实施例中,提出将仿射模式的子块大小对齐为与BDOF的子块大小相同。
这里,根据所提出的方法,如果一个编码块被仿射模式编码,则它将被分裂成大小为Ws×Hs的子块,其中,Ws=min(W,16),Hs=min(H,16),其中,W和H是编码块的宽度和高度。每个子块被分配一个单独的MV,并被视为一个独立的PROF操作单元。值得一提的是,独立的PROF操作单元可确保在其上执行的PROF操作无需参考来自相邻PROF操作单元的信息。具体来讲,将一个样本位置处的PROFMV差异计算为该样本位置处的MV与该样本所在的PROF操作单元的中心处的MV之间的差异;PROF推导所使用的梯度是通过沿每个PROF操作单元填充样本来计算的。
所提出的方法的好处主要包括以下方面:1)简化流水线架构,具有用于运动补偿和BDOF/PROF细化的统一的基本操作单元大小;2)由于用于仿射运动补偿的子块大小增大,减少了内存带宽的使用;3)降低了分数样本插值的每样本计算的复杂度。
还应提到的是,由于使用所提出的方法降低了计算复杂度(即,第3项),因此,可以去除现有的对仿射编码块的6抽头插值滤波器约束。相反,用于非仿射编码块的默认8抽头插值也用于仿射编码块。在这种情况下,总体计算复杂度仍比现有的PROF设计(即,基于具有6抽头插值滤波器的4×4子块)有优势。
用于BDOF和PROF的梯度推导的协调
如前所述,BDOF和PROF都计算该当前编码块内的每个样本的梯度,其访问该块的每一侧上的一个附加行/列的预测样本。为了避免额外的插值复杂性,直接从整数参考样本中复制块边界周围扩展区域中所需的预测样本。然而,正如“问题陈述”一节中所指出的,在不同位置的整数样本用于计算BDOF和PROF的梯度值。
为了实现更统一的设计,下面提出了两种方法来统一BDOF和PROF使用的梯度推导方法。在第一种方法中,提出将PROF的梯度推导方法与BDOF的梯度推导方法对齐。具体来讲,通过第一种方法,用于在扩展区域中生成这些预测样本的整数位置是通过对分数样本进行向下取整来确定的,即选择的整数样本位置位于分数样本位置的左侧(对于水平梯度)并且分数样本位置上方(对于垂直梯度)。在第二种方法中,提出将BDOF的梯度推导方法与PROF的梯度推导方法对齐。更详细地来讲,当应用第二种方法时,最接近该预测样本的整数参考样本用于梯度计算。
图14示出了根据本申请的使用BDOF的梯度推导方法的示例。在图14中,空白圆圈表示整数位置处的参考样本,三角形表示该当前块的分数预测样本,灰色圆圈表示用于填充该当前块的扩展区域的整数参考样本。
图15示出了根据本申请的使用PROF的梯度推导方法的示例。在图15中,空白圆圈表示整数位置处的参考样本,三角形表示该当前块的分数预测样本,灰色圆圈表示用于填充该当前块的扩展区域的整数参考样本。
图14和图15分别示出了当应用第一种方法(图12)和第二种方法(图13)时用于BDOF和PROF的梯度的推导的对应整数样本位置。在图14和图15中,空白圆圈表示整数位置处的参考样本,三角形表示该当前块的分数预测样本,带图案的圆圈表示用于填充该当前块的扩展区域以进行梯度推导的整数参考样本。
另外,根据现有的BDOF和PROF设计,预测样本填充是在不同的编解码级别进行的。具体来讲,对于BDOF,沿每个sbWidth×sbHeight子块的边界应用填充,其中,sbWidth=min(CUWidth,16),sbHeight=min(CUHeight,16)。CU Width和CU Height是一个CU的宽度和高度。另一方面,始终以4×4子块级别应用PROF的填充。在上面的讨论中,BDOF和PROF之间只有填充方法是统一的,而填充子块大小仍然不同。这对于实际的硬件实现也不友好,因为需要实现不同的模块以用于BDOF和PROF的填充过程。为了实现更统一的设计,提出了统一BDOF和PROF的子块填充大小。在本申请的一个实施例中,提出以4×4级别应用BDOF的预测样本填充。具体来讲,通过这种方法,首先将该CU划分为多个4×4的子块;在对每个4×4子块进行运动补偿之后,通过复制相应的整数样本位置来填充沿上/下和左/右边界的扩展样本。图18A、18B、18C和18D示出了将所提出的填充方法应用于一个16×16的BDOFCU的一个示例,其中,虚线表示4×4子块边界,灰色带表示每个4×4子块的填充的样本。
图18A示出了根据本申请的应用于16×16的BDOF CU的提出的填充方法,其中,虚线表示左上4×4子块边界1820。
图18B示出了根据本申请的应用于16×16BDOF CU的提出的填充方法,其中,虚线表示右上4×4子块边界1840。
图18C示出了根据本申请的应用于16×16BDOF CU的提出的填充方法,其中,虚线表示左下4×4子块边界1860。
图18D示出了根据本申请的应用于16×16BDOF CU的提出的填充方法,其中,虚线表示右下4×4子块边界1880。
启用/禁用BDOF、PROF和DMVR的高级信令语法
在现有的BDOF和PROF设计中,在序列参数集(SPS)中用信号发送两个不同的标志,以分别控制两个编码工具的启用/禁用。然而,由于BDOF和PROF之间的相似性,更希望通过一个相同的控制标志从高级别启用和/或禁用BDOF和PROF。基于这样的考虑,在SPS引入了一个新的标志,称为sps_bdof_prof_enabled_flag,如表1所示。如表1所示,BDOF的启用和禁用仅依赖于sps_bdof_prof_enabled_flag。当该标志等于1时,启用BDOF以对该序列中的视频内容进行编解码。否则,当sps_bdof_prof_enabled_flag等于0时,将不应用BDOF。另一方面,除了sps_bdof_prof_enabled_flag之外,SPS级别仿射控制标志,即sps_affine_enabled_flag,也用于有条件地启用和禁用PROF。当标志sps_bdof_prof_enabled_flag和sps_affine_enabled_flag都等于1时,为仿射模式编码的所有编码块启用PROF。当标志sps_bdof_prof_enabled_flag等于1且sps_affine_enabled_flag等于0时,禁用PROF。
表1具有所提出的BDOF/PROF启用/禁用标志的修改后的SPS语法表
sps_bdof_prof_enabled_flag指明是否启用双向光流和光流预测细化。当sps_bdof_prof_enabled_flag等于0时,双向光流和光流预测细化都被禁用。当sps_bdof_prof_enabled_flag等于1且sps_affine_enabled_flag等于1时,双向光流和光流预测细化都被启用。否则(sps_bdof_prof_enabled_flag等于1,sps_affine_enabled_flag等于0),启用双向光流,禁用光流预测细化。
sps_bdof_prof_dmvr_slice_preset_flag指明何时以切片级别通过信号发送标志slice_disable_bdof_prof_dmvr_flag。当该标志等于1时,为每个引用当前序列参数集的切片通过信号发送语义slice_disable_bdof_prof_dmvr_flag。否则(当sps_bdof_prof_dmvr_slice_present_flag等于0时),不会以切片级别通过信号发送语义slice_disabled_bdof_prof_dmvr_flag。当该标志没有被通过信号发送时,被推断为0。
除了上述SPSBDOF/PROF语义之外,提出了以切片级别引入另一种控制标志,即,引入slice_disable_bdof_prof_dmvr_flag以禁用BDOF、PROF和DMVR。SPS标志sps_bdof_prof_dmvr_slice_present_flag用于指示slice_disable_bdof_prof_dmvr_flag的存在,该标志在DMVR或BDOF/PROFSPS级别控制标志中的任一个为真时在SPS中被通过信号发送。若存在的话,则通过信号发送slice_disable_bdof_dmvr_flag。表2示出了在应用所提出的语义之后修改后的切片头语义表。
表2具有所提出的BDOF/PROF启用/禁用标志的修改后的SPS语义表
seq_parameter_set_rbsp(){ | |
若(sps_bdof_prof_dmvr_slice_present_flag) | |
slice_disable_bdof_prof_dmvr_enabled_flag | u(1) |
…… |
基于控制点MV差异的PROF提前终止
根据目前的PROF设计,PROF总是在用仿射模式预测一个编码块时被调用。然而,如等式(6)和(7)所示,一个仿射块的子块MV是从这些控制点MV导出的。因此,当控制点MV之间的差异较小时,在每个样本位置的MV应该是一致的。在这种情况下,应用PROF的好处可能非常有限。因此,为了进一步降低PROF的平均计算复杂度,提出了基于一个4×4子块内的逐样本MV与逐子块MV之间的最大MV差异来自适应地跳过基于PROF的样本细化。由于一个4×4子块内的样本的PROF MV差值相对于子块中心对称,所以可基于等式(10)将最大水平和垂直PROFMV差值计算为:
根据本申请,可以使用不同的度量来确定该MV差异是否小到足以跳过该PROF过程。
在一个示例中,基于等式(19),当绝对最大水平MV差异与绝对最大垂直MV差异之和小于一个预定义的阈值时,可以跳过该PROF过程,即,
其中,MAX(a,b)是返回输入值a与b之间的较大值的函数。
除上述两个示例之外,本申请的构思还适用于使用其他度量来确定MV差异是否足够小以跳过PROF过程的情况。
在上述方法中,基于MV差异的幅度而跳过PROF。另一方面,除了该MV差异之外,还根据一个运动补偿后的块中每个样本位置的局部梯度信息来计算该PROF样本细化。对于包含较少高频细节(如平坦区域)的预测块,梯度值往往很小,因此所导出的样本细化值应该很小。考虑到这一点,根据本申请的另一个实施例,提出仅将PROF应用于包含足够高频信息的块的预测样本。
在确定块是否包含足够的高频信息以使值得为该块调用该PROF过程时,可以使用不同的度量。在一个示例中,基于预测块内样本的梯度的平均幅度(即绝对值)做出决定。如果平均幅度小于一个阈值,则将该预测块分类为平坦区域,并且不应应用该PROF;否则,认为该预测块包含足够的高频细节,PROF仍然适用。在另一个示例中,可以使用该预测块内的样本的梯度的最大幅度。如果最大幅度小于一个阈值,则为该块跳过该PROF。在又一示例中,该预测块的最大样本值与最小样本值之间的差Imax-Imin可以用于确定是否将该PROF应用于该块。如果这种差值小于阈值,则为该块跳过该PROF。值得注意的是,本申请的构思也适用于使用其他一些度量来确定给定块是否包含足够的高频信息的情况。
处理用于仿射模式的PROF与LIC之间的交互
由于当前块的相邻重构样本(即,模板)被LIC用于导出线性模型参数,所以一个LIC编码块的解码取决于其相邻样本的完全重构。由于这种相互依赖性,对于实际的硬件实现,需要在重建阶段执行LIC,其中相邻的重建样本可用于LIC参数推导。因为块重构必须按顺序(即,一个接一个)执行,因此,在将其他编码方法联合应用于LIC编码块时,吞吐量(即单位时间内可以并行完成的工作量)是一个需要考虑的重要问题。在本节中,提出了两种方法来处理当PROF和LIC都启用以用于仿射模式时的交互。
在本申请的第一实施例中,提出了将PROF模式和LIC模式排他地应用于一个仿射编码块。如前所述,在现有设计中,PROF隐式应用于所有仿射块而无需信令,而在编码块级别通过信号发送或继承一个LIC标志,以指示是否将LIC模式应用于一个仿射块。根据本申请的方法,提出了基于一个仿射块的LIC标志的值有条件地应用PROF。当该标志等于1时,通过基于LIC权重和偏移量调整整个编码块的预测样本来仅应用LIC。否则(即LIC标志等于0),将PROF应用于该仿射编码块,以基于光流模型细化每个子块的预测样本。
图17A示出了基于所提出的方法的解码过程的一个示例性流程图,其中不允许同时应用PROF和LIC。
图17A示出了根据本申请的基于所提出的方法的解码过程的图示,其中PROF和LIC被禁止。解码过程1720包括LIC标志是否开启的步骤1722、LIC 1724和PROF1726。LIC标志是否开启的步骤1722是判断是否设置了LIC标志并根据该判断采取下一步的步骤。LIC 1724是在设置了该LIC标识时,LIC的应用是设置了该LIC标志。PROF 1726是在未设置LIC标志时PROF的应用。
在本申请的第二实施例中,提出了在PROF之后应用LIC来生成一个仿射块的预测样本。具体来讲,在完成基于子块的仿射运动补偿后,基于PROF样本细化对这些预测样本进行细化;然后,通过将一对权重和偏移量(从该模板及其参考样本导出)应用于经过PROF调整的预测样本来进行LIC,以获得该块的最终预测样本,如下所示:
P[x]=α*(Pr[x+v]+ΔI[x])+β (22);
其中,Pr[x+v]是运动矢量v所指示的当前块的参考块;α和β是LIC权重和偏移量;P[x]是最终的预测块;ΔI[x]是在(17)中导出的PROF细化。
图17B示出了根据本申请的其中应用PROF和LIC的解码过程的图示。解码过程1760包括仿射运动补偿1762、LIC参数推导1764、PROF 1766和LIC样本调整1768。仿射运动补偿1762应用仿射运动并且是LIC参数推导1764和PROF 1766的输入。LIC参数推导1764用于导出LIC参数。PROF 1766正在应用PROF。LIC样本调整1768是与PROF相结合的的LIC权重参数和偏移参数。
图17B示出了当应用第二方法时的示例性解码工作流程。如图17B所示,因为该LIC使用该模板(即相邻的重建样本)来计算LIC线性模型,所以只要相邻的重建样本可用,就可以立即导出LIC参数。这意味着可以同时进行PROF细化和LIC参数推导。
LIC权重和偏移量(即α和β)和PROF细化(即ΔI[x])通常是浮点数。对于友好的硬件实现,这些浮点数运算通常被实现为一个整数值的乘法,然后是多个位的右移运算。在现有的LIC和PROF设计中,由于这两个工具是单独设计的,因此在两个阶段分别应用了NLIC比特和NPROF比特的两种不同的右移。
根据本申请的第三实施例,为了提高在将PROF和LIC联合应用于仿射编码块的情况下的编码增益,提出了以高精度应用基于LIC和基于PROF的样本调整。这是通过将它们的两个右移操作合二为一并在最后应用它来导出当前块的最终预测样本(如(12)所示)来完成的。
解决将PROF与加权预测和CU级加权双向预测(BCW)相结合时的乘法溢出问题
根据目前VVC工作草案中的PROF设计,PROF可以与加权预测(WP)联合应用。
图10示出了根据本申请的用于解码视频信号的光流预测细化(PROF)的方法。例如,该方法可以应用于解码器。
在步骤1010中,该解码器可以获得与视频信号内通过仿射模式编码的视频块关联的第一参考图片I(0)和第二参考图片I(1)。
在步骤1012中,该解码器可以基于与第一参考图片I(0)和第二参考图片I(1)关联的第一预测样本I(0)(i,j)和第二预测样本I(1)(i,j)获得第一水平梯度值、第一垂直梯度值、第二水平梯度值和第二垂直梯度值。
在步骤1014中,该解码器可以基于与第一参考图片I(0)和第二参考图片I(1)关联的控制点运动矢量(CPMV)获得第一水平运动细化、第一垂直运动细化、第二水平运动细化和第二垂直运动细化。
在步骤1016中,该解码器可以基于该第一水平梯度值、该第一垂直梯度值、该第二水平梯度值、该第二垂直梯度值、该第一水平运动细化、该第一垂直运动细化、该第二水平运动细化和该第二垂直运动细化获得第一预测细化和第二预测细化。
在步骤1018中,该解码器可以基于该第一预测样本I(0)(i,j)、该第二预测样本I(1)(i,j)以及该第一预测细化和该第二预测细化获得该第一细化样本和该第二细化样本。
在步骤1020中,该解码器可以通过操纵该第一细化样本、该第二细化样本和预测参数来基于该第一细化样本和该第二细化样本获得该视频块的最终预测样本,以防止乘法溢出。该预测参数可包括用于加权预测(WP)的参数和用于在编码单元(CU)级加权的双向预测(BCW)的参数。
具体地,在将它们合并时,可通过以下过程生成一个仿射CU的预测信号:
1.对于位置(x,y)处的每个样本,基于该PROF计算L0预测细化ΔI0(x,y)并将该细化添加到原始L0预测样本I0(x,y),即,
ΔI0(x,y)=(gh0(x,y)·Δvx0(x,y)+gv0(x,y)·Δvy0(x,y)+1)>>1
I′0(x,y)=I0(x,y)+ΔI0(x,y) (23);
其中,I′0(x,y)是细化样本;gh0(x,y)和gv0(x,y)以及Δvx0(x,y)和Δvy0(x,y)是位置(x,y)处的L0水平梯度和L0垂直梯度以及L0水平运动细化和L0垂直运动细化。
2.对于位置(x,y)处的每个样本,基于该PROF计算L1预测细化ΔI1(x,y),并将该细化添加到原始L1预测样本I1(x,y),即,
ΔI1(x,y)=(gh1(x,y)·Δvx1(x,y)+gv1(x,y)·Δvy1(x,y)+1)>>1
I′1(x,y)=I1(x,y)+ΔI1(x,y) (24);
其中,I′1(x,y)是细化样本;gh1(x,y)和gv1(x,y)以及Δvx1(x,y)和Δvy1(x,y)是位置(x,y)处的L1水平梯度和L1垂直梯度以及L1水平运动细化和L1垂直运动细化。
3.将细化的L0和L1预测样本合并起来,即,
Ibi(x,y)=(W0·I′0(x,y)+W1·I′1(x,y)+Offset)>>shift (25);
其中,W0和W1是该WP和BCW权重;shift和Offset是应用于L0和L1预测信号的加权平均的偏移和右移,L0和L1预测信号用于WP和BCW的双向预测。这里,用于该WP的参数包括W0和W1以及Offset,而用于BCW的参数包括W0和W1以及shift。
从上面的等式可以看出,由于逐样本的细化,即ΔI0(x,y)和ΔI1(x,y),PROF之后的预测样本(即I′0(x,y)和I′1(x,y))将比原始预测样本(即I0(x,y)和I1(x,y))增加1个动态范围。鉴于这些细化的预测样本将与WP和BCW加权因子相乘,这将增加所需乘数的长度。例如,基于目前的设计,当内部编码位深为8至12位时,预测信号I0(x,y)和I1(x,y)的动态范围为16位。但是,在该PROF之后,预测信号I′0(x,y)和I′1(x,y)的动态范围是17比特。因此,在应用该PROF时,可能会导致16位乘法溢出问题。
图11示出了根据本申请的获得该视频块的最终预测样本。例如,该方法可以应用于解码器。
在步骤1112中,该解码器可通过右移第一移位值来调整该第一细化样本和该第二细化样本。
在步骤1114中,该解码器可通过将该第一细化样本和该第二细化样本合并起来来获得合并预测样本。
在步骤1116中,该解码器可通过将该合并预测样本左移第一移位值来获得该视频块的该最终预测样本。
为了解决此类溢出问题,以下提出了多种方法:
1.在第一种方法中,提出了在将PROF应用于一个仿射CU时禁用WP和BCW。
2.在第二种方法中,提出了在将这些导出的样本细化添加到原始预测样本之前将裁剪操作应用于这些导出的样本细化,以使这些细化样本I′0(x,y)和I′1(x,y)的动态范围具有与原始预测样本I0(x,y)和I1(x,y)相同的动态位深。具体而言,通过这种方法,通过引入一个裁剪操作来在(23)和(24)中对样本细化ΔI0(x,y)和ΔI1(x,y)进行修改,如下所示:
ΔI0(x,y)=clip3(-2dI-1,2dI-1-1,ΔI0(x,y))
ΔI1(x,y)=clip3(-2dI-1,2dI-1-1,ΔI1(x,y));
其中,dI=dIbase+max(0,BD-12),其中,BD是内部编码位深;dIbase是基本位深值。在一个实施例中,提出了将dIbase的值设置为14。在另一个实施例中,提出了将该值设置为13。
3.在第三种方法中,提出了直接裁剪这些细化的预测样本,而不是裁剪这些样本细化,以使这些细化样本具有与原始预测样本相同的动态范围。具体来讲,通过第三种方法,这些细化的L0和L1样本将会是:
I′0(x,y)=clip3(-2dR,2dR-1,I0(x,y)+ΔI0(x,y)),
I′1(x,y)=clip3(-2dR,2dR-1,I1(x,y)+ΔI1(x,y));
其中,dR=16+max(0,BD-12)(或等效地为max(16,BD+4)),其中,BD是内部编解码位深。
4.在第四种方法中,提出了在WP和BCW之前将某些右移应用于这些细化的L0和L1预测样本;然后通过额外的左移将最终的预测样本调整到原始精度。具体来讲,将最终的预测样推导为:
Ibi(x,y)=(W0·(I′0(x,y)>>nb)+W1·(I′1(x,y)>>nb)+Offset)·(shift-nb);
其中,nb是应用的附加位移的数量,可以基于这些PROF样本细化的相应动态范围来确定该数量。
可以使用包括一个或多个电路的装置来实现上述的这些方法,这些电路包括专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子部件。该装置可以将这些电路与其他硬件或软件组件结合起来使用以执行上述的这些方法。前面所公开的每个模块、子模块、单元或子单元可以至少部分地使用一个或多个电路来实现。
图19是示出了根据本申请的示例的与用户接口耦合的计算环境的示图。计算环境1910可以是数据处理服务器的一部分。计算环境1910包括处理器1920、存储器1940和输入/输出(I/O)接口1950。
处理器1920通常控制计算环境1910的整体操作,例如与显示、数据采集、数据通信和图像处理关联的操作。处理器1920可以包括用于执行指令以执行上述方法中的全部或一些步骤的一个或更多个处理器。此外,处理器1920可以包括促进处理器1920与其他组件之间的交互的一个或更多个模块。处理器可以是中央处理单元(CPU)、微处理器、单片机、GPU等。
存储器1940被配置为存储各种类型的数据以支持计算环境1910的操作。存储器1940可以包括预定软件1932。这种数据的示例包括用于在计算环境1910上操作的任何应用或方法的指令、视频数据集、图像数据等。存储器1940可以通过使用任何类型的易失性或非易失性存储器设备或其组合来实现,例如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存存储器、磁盘或光盘。
I/O接口1950提供处理器1920与外围接口模块(例如键盘、点击轮、按钮等)之间的接口。按钮可以包括但不限于主页按钮、开始扫描按钮和停止扫描按钮。I/O接口1950可以与编码器和解码器耦合。
在一些实施例中,还提供了一种包括例如存储器1940中的多个程序的非暂态计算机可读存储介质,所述多个程序可以由计算环境1910中的处理器1920执行以用于执行上述方法。例如,非暂态计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等。
该非暂态计算机可读存储介质中存储有用于由具有一个或多个处理器的计算设备执行的多个程序,其中,该多个程序在由该一个或多个处理器执行时,使该计算设备执行上述运动预测方法。
在一些实施例中,计算环境-1910可以用一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、控制器、微控制器、微处理器、或其他电子部件来实施,用于执行上述方法。
本申请的描述已经出于说明的目的被呈现,并且不旨在穷举或限于本申请。受益于在以上描述和关联的附图中呈现的教导,许多修改、变化和备选实施方式对于本领域普通技术人员将是显而易见的。
选择和描述示例是为了解释本申请的原理,并且使本领域的其他技术人员能够理解本申请的各种实施方式,并且最好地利用基本原理和具有适合于预期的特定用途的各种修改的各种实施方式。因此,将理解,本申请的范围不限于所公开的实施方式的具体示例,并且修改和其他实施方式旨在被包括在本申请的范围内。
Claims (10)
1.一种光流预测细化(PROF)的方法,在编码器处实现,包括:
获取通过仿射模式编码的视频块;
获得与所述视频块关联的第一参考图片和第二参考图片;
基于与所述第一参考图片和所述第二参考图片关联的第一预测样本I(0)(i,j)和第二预测样本I(1)(i,j),获得第一水平梯度值、第一垂直梯度值、第二水平梯度值和第二垂直梯度值;
基于与所述第一参考图片和所述第二参考图片关联的控制点运动矢量(CPMV),获得第一水平运动细化、第一垂直运动细化、第二水平运动细化和第二垂直运动细化;
基于所述第一水平梯度值、所述第一垂直梯度值、所述第二水平梯度值和所述第二垂直梯度值以及所述第一水平运动细化、所述第一垂直运动细化、第二水平运动细化和所述第二垂直运动细化,获得第一预测细化和第二预测细化;
基于所述第一预测样本I(0)(i,j)、所述第二预测样本I(1)(i,j)、所述第一预测细化和所述第二预测细化,获得第一细化样本和第二细化样本;
基于所述第一细化样本、所述第二细化样本和预测参数,获得所述视频块的最终预测样本,其中,所述预测参数包括用于加权预测(WP)的参数或用于在编码单元(CU)级加权的双向预测(BCW)的参数。
2.根据权利要求1所述的方法,还包括:
在所述PROF应用于一个仿射CU时,禁用所述WP和所述BCW。
3.根据权利要求1所述的方法,其中,获得所述第一预测细化和所述第二预测细化包括:
基于所述第一水平梯度值、所述第二垂直梯度值、所述第二水平梯度值和所述第二垂直梯度值以及所述第一水平细化、所述第一垂直运动细化、所述第二水平运动细化和所述第二垂直运动细化,获得所述第一预测细化和所述第二预测细化;以及
基于预测细化阈值对所述第一预测细化和第二预测细化进行裁剪。
4.根据权利要求3所述的方法,其中,所述预测细化阈值等于编码位深加1或13中的最大值。
5.根据权利要求1所述的方法,其中,获得所述第一细化样本和所述第二细化样本包括:
基于所述第一预测样本I(0)(i,j)、所述第二预测样本I(1)(i,j)、所述第一预测细化和所述第二预测细化,获得所述第一细化样本和所述第二细化样本;以及
基于细化样本阈值对所述第一细化样本和所述第二细化样本进行裁剪。
6.根据权利要求5所述的方法,其中,所述细化样本阈值等于编码位深加4或16中的最大值。
7.根据权利要求1所述的方法,其中,获得所述视频块的所述最终预测样本包括:
通过右移第一移位值来调整所述第一细化样本和所述第二细化样本;
通过合并所述第一细化样本和所述第二细化样本获得合并预测样本;以及
通过将所述合并预测样本左移所述第一移位值来获得所述视频块的所述最终预测样本。
8.根据权利要求1所述的方法,其中,基于所述第一细化样本、所述第二细化样本和所述预测参数获得所述视频块的所述最终预测样本包括:
仅应用所述WP或仅应用所述BCW。
9.一种计算设备,包括:
一个或多个处理器;
非暂时性计算机可读存储介质,其存储由所述一个或多个处理器执行的指令,其中,在由所述一个或多个处理器执行时,所述指令使得所述计算设备执行权利要求1-8中的任一项所述的方法。
10.一种非暂时性计算机可读存储介质,其存储由具有一个或多个处理器的计算设备执行的多个程序,其中,在由所述一个或多个处理器执行时,所述多个程序使得所述计算设备执行权利要求1-8中的任一项所述的方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962891273P | 2019-08-23 | 2019-08-23 | |
US62/891,273 | 2019-08-23 | ||
PCT/US2020/047669 WO2021041332A1 (en) | 2019-08-23 | 2020-08-24 | Methods and apparatus on prediction refinement with optical flow |
CN202080059798.0A CN114342379A (zh) | 2019-08-23 | 2020-08-24 | 光流预测细化的方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080059798.0A Division CN114342379A (zh) | 2019-08-23 | 2020-08-24 | 光流预测细化的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116320473A true CN116320473A (zh) | 2023-06-23 |
Family
ID=74685758
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211693052.2A Pending CN116320473A (zh) | 2019-08-23 | 2020-08-24 | 光流预测细化的方法和装置 |
CN202080059798.0A Pending CN114342379A (zh) | 2019-08-23 | 2020-08-24 | 光流预测细化的方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080059798.0A Pending CN114342379A (zh) | 2019-08-23 | 2020-08-24 | 光流预测细化的方法和装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20220182659A1 (zh) |
EP (1) | EP4018667A4 (zh) |
JP (3) | JP7199598B2 (zh) |
KR (2) | KR20230011479A (zh) |
CN (2) | CN116320473A (zh) |
MX (1) | MX2022002254A (zh) |
WO (1) | WO2021041332A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020084502A1 (en) | 2018-10-23 | 2020-04-30 | Beijing Bytedance Network Technology Co., Ltd. | Video processing using local illumination compensation |
CN113302918A (zh) * | 2019-01-15 | 2021-08-24 | 北京字节跳动网络技术有限公司 | 视频编解码中的加权预测 |
WO2020228836A1 (en) * | 2019-05-16 | 2020-11-19 | Beijing Bytedance Network Technology Co., Ltd. | Sub-region based determination of motion information refinement |
WO2021050226A1 (en) * | 2019-09-12 | 2021-03-18 | Alibaba Group Holding Limited | Method and apparatus for encoding or decoding video |
JP2022547599A (ja) | 2019-09-12 | 2022-11-14 | アリババ グループ ホウルディング リミテッド | 映像符号化情報をシグナリングするための方法及び装置 |
JP2021052225A (ja) * | 2019-09-20 | 2021-04-01 | Kddi株式会社 | 画像復号装置、画像復号方法及びプログラム |
TW202408243A (zh) * | 2022-05-16 | 2024-02-16 | 聯發科技股份有限公司 | 用於視頻編解碼的解碼器側運動向量優化和雙向光流的方法和裝置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117478884A (zh) * | 2017-07-03 | 2024-01-30 | Vid拓展公司 | 用于视频编解码的设备、方法 |
KR102614946B1 (ko) * | 2019-08-22 | 2023-12-15 | 엘지전자 주식회사 | 가중 예측을 수행하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법 |
-
2020
- 2020-08-24 KR KR1020237000398A patent/KR20230011479A/ko active Application Filing
- 2020-08-24 EP EP20858358.3A patent/EP4018667A4/en active Pending
- 2020-08-24 WO PCT/US2020/047669 patent/WO2021041332A1/en unknown
- 2020-08-24 CN CN202211693052.2A patent/CN116320473A/zh active Pending
- 2020-08-24 JP JP2022512878A patent/JP7199598B2/ja active Active
- 2020-08-24 CN CN202080059798.0A patent/CN114342379A/zh active Pending
- 2020-08-24 KR KR1020227008482A patent/KR102486982B1/ko active IP Right Grant
- 2020-08-24 MX MX2022002254A patent/MX2022002254A/es unknown
-
2022
- 2022-02-22 US US17/677,935 patent/US20220182659A1/en active Pending
- 2022-12-20 JP JP2022203593A patent/JP7372433B2/ja active Active
-
2023
- 2023-10-19 JP JP2023180171A patent/JP7538313B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20220182659A1 (en) | 2022-06-09 |
CN114342379A (zh) | 2022-04-12 |
JP2022536208A (ja) | 2022-08-12 |
JP2023179747A (ja) | 2023-12-19 |
WO2021041332A1 (en) | 2021-03-04 |
MX2022002254A (es) | 2022-03-22 |
EP4018667A4 (en) | 2023-07-05 |
KR20230011479A (ko) | 2023-01-20 |
EP4018667A1 (en) | 2022-06-29 |
KR20220044832A (ko) | 2022-04-11 |
JP7199598B2 (ja) | 2023-01-05 |
KR102486982B1 (ko) | 2023-01-10 |
JP7538313B2 (ja) | 2024-08-21 |
JP2023036776A (ja) | 2023-03-14 |
JP7372433B2 (ja) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102486982B1 (ko) | 광학 흐름을 사용한 예측 미세조정을 위한 방법 및 장치 | |
JP7313533B2 (ja) | オプティカルフローによる予測洗練化における方法および装置 | |
KR102502614B1 (ko) | 광학 흐름을 사용한 예측 미세조정을 위한 방법 및 장치 | |
CN113994692A (zh) | 用于利用光流的预测细化的方法和装置 | |
CN116389765B (zh) | 对视频数据编码的利用光流的预测细化方法、设备和介质 | |
JP2023100979A (ja) | オプティカルフローによる予測洗練化、双方向オプティカルフローおよびデコーダ側の動きベクトル洗練化のための方法および装置 | |
EP3963887A1 (en) | Methods and apparatus of prediction refinement with optical flow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |